CN113641667A - 一种分布式大数据采集平台的数据异常监控系统及方法 - Google Patents

一种分布式大数据采集平台的数据异常监控系统及方法 Download PDF

Info

Publication number
CN113641667A
CN113641667A CN202110926827.5A CN202110926827A CN113641667A CN 113641667 A CN113641667 A CN 113641667A CN 202110926827 A CN202110926827 A CN 202110926827A CN 113641667 A CN113641667 A CN 113641667A
Authority
CN
China
Prior art keywords
data
module
platform
acquisition
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110926827.5A
Other languages
English (en)
Other versions
CN113641667B (zh
Inventor
陈冰
谢寿芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Guangwang Century Technology Co ltd
Original Assignee
Shenzhen Ruixuntong Investment Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ruixuntong Investment Co ltd filed Critical Shenzhen Ruixuntong Investment Co ltd
Priority to CN202110926827.5A priority Critical patent/CN113641667B/zh
Publication of CN113641667A publication Critical patent/CN113641667A/zh
Application granted granted Critical
Publication of CN113641667B publication Critical patent/CN113641667B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种分布式大数据采集平台的数据异常监控系统及方法,涉及数据异常监控技术领域;本发明设置了传输分析模块,该设置通过对分析数据采集模块和分布式数据采集平台之间的通信状态进行分析,有助于提高数据采集的效率和质量;本发明设置了数据分析模块,该设置通过数据校验质量规则库对平台采集数据进行校验,对平台采集数据的状态进行分析,有助于提高数据异常监控的准确率;本发明设置了数据修复模块,该设置结合多种方法对异常数据进行补充修复,有助于提高平台采集数据的可信度,为进一步分析做准备。

Description

一种分布式大数据采集平台的数据异常监控系统及方法
技术领域
本发明属于数据异常监控领域,涉及大数据技术,具体是一种分布式大数据采集平台的数据异常监控系统及方法。
背景技术
当前,各类企业通过信息系统的集约化管理实现了业务模型、数据模型的统一,但由于各地系统建设、运维、应用水平参差不齐,容易发生数据异常、异常等各类问题,不利于在海量信息中开展数据挖掘,无法高效的实现大数据分析,削弱了对公司业务决策的支撑力度。
公开号为CN110659273A的发明专利提供了一种分布式大数据采集平台的数据异常监控及修复方法,包括:利用大数据采集平台实时收集客户设备的上传数据:根据数据质量校验规则库对所述数据进行数据质量分析,生成异常清单,计算得到实时数据质量指标并发布;其中,所述数据质量校验规则库是在注册数据模型时预设的:利用大数据采集平台对所述异常清单中的异常数据进行辨识和修复。
上述方案提供的分布式大数据采集平台的数据异常监控及修复方法,适用于基于海量数据采集的用电信息大数据处理和分析,主要解决海量用电数据采集过程中数据出现异常且不能及时处理,导致数据分析结果不可用的问题;但是,上述方案对异常数据进行监测,并根据数据质量校验规则库对异常数据进行修复,但是并没有对不同异常数据进行分类修复,导致数据的修复精度不能满足要求;因此,上述方案仍需进一步改进。
发明内容
为了解决上述方案存在的问题,本发明提供了一种分布式大数据采集平台的数据异常监控系统及方法。
本发明的目的可以通过以下技术方案实现:一种分布式大数据采集平台的数据异常监控系统,包括处理器、数据采集模块、传输分析模块、数据分析模块、数据修复模块、全局管理模块和数据存储模块;
所述数据采集模块与至少一个分布式数据采集平台通信连接;所述数据采集模块用于采集分布式数据采集平台的通信状态数据和平台采集数据,将通信状态数据分别发送至传输分析模块和数据存储模块,将平台采集数据分别发送至传输分析模块、数据分析模块和数据存储模块;所述平台采集数据包括电力数据、水费数据和企业营收数据;
所述数据分析模块用于对平台采集数据的异常进行分析,包括:
当数据分析模块接收到平台采集数据之后,获取通信状态标签,当通信状态标签为1时,通过数据存储模块获取数据校验质量规则库,通过数据校验质量规则库对平台采集数据进行分析获取数据校验标签;
当数据校验标签为[0,1,1]时,则判定平台采集数据异常,生成并发送数据修复信号至数据修复模块,将异常的平台采集数据标记为修复验证数据,将修复验证数据发送至数据修复模块;当数据校验标签为[G1,0,1]时,则,生成并发送规范性验证异常信号至数据存储模块和全局管理模块;当数据校验标签为[G1,G2,0]时,生成并发送合理性验证异常信号至全局管理模块和数据存储模块;
所述数据修复模块用于对修复验证数据进行补充修复,包括:
当数据修复模块接收到数据修复信号之后,将修复验证数据按照数据类型划分成若干组数据序列;
以若干组所述数据序列中数据的获取时间为自变量,以数据序列中的数据为因变量,分别进行多项式拟合获取拟合曲线和决定系数;当决定系数大于等于决定系数阈值时,则将拟合曲线和插值法结合对数据序列中的异常数据进行补充;
当决定系数小于决定系数阈值时,则通过数据修复模型对数据序列中的异常数据进行补充;其中异常数据包括空值和零值。
优选的,所述数据修复模型对异常数据的补充具体包括:
将数据序列中的异常数据对应的获取时间提取出来并标记为输入数据;将数据序列中的正常数据及对应的获取时间提取出来并标记为训练数据集;
将训练数据集按照设定比例划分为训练集、测试集和校验集;所述设定比例包括3:1:2、3:2:1和4:1:1;
构建人工智能模型;所述人工智能模型至少包括误差逆向传播神经网络、RBF神经网络和深度卷积神经网络中的一种;
通过训练集、测试集和校验集对人工智能模型进行训练、测试和校验,将训练完成的人工智能模型标记为数据修复模型;
将输入数据输入至数据修复模型中获取数据结果,将输出结果插入到数据序列中异常数据的位置;
通过处理器将数据修复模型发送至数据存储模块进行存储。
优选的,所述全局管理模块在接收到验证异常信号时进行预警;所述验证异常信号包括规范性验证异常信号和合理性验证异常信号;所述全局管理模块还对数据序列中补充修复的数据进行颜色标记。
优选的,所述数据校验质量规则库是预设的规则库,并存储在数据存储模块中;所述数据校验质量规则库包括数据完整性规则、数据项规范性规则和数据合理性规则;所述数据校验标签具体为[G1,G2,G3],其中G1、G2和G3的取值均包括0和1,当G1=1时,表示数据完整性验证通过,当G2=1时,表示数据项规范性规则验证通过,当G3=1时,表示数据合理性规则验证通过。
优选的,所述传输分析模块用于分析数据采集模块与分布式数据采集平台的通信状态,并生成通信状态标签,包括:
当传输分析模块接收到通信状态数据和平台采集数据之后,获取N个设定周期内通信状态数据的均方差,并将均方差标记为JFC;获取平台采集数据在每个设定周期内的数据总量均值,并将数据总量均值标记为SJZ;其中N为比例系数,且N为大于等于5的整数;
通过公式
Figure BDA0003209561170000041
获取通信评估系数TPX;其中α1和α2为比例系数,且α1和α2均为大于0的实数;
当通信评估系数TPX满足TPX≥L1时,则判定数据采集模块和分布式数据采集平台的通信状态正常;否则,判定数据采集模块和分布式数据采集平台的通信状态异常;其中L1为通信评估系数阈值,且L1为大于0的实数;
生成通信状态标签;所述通信状态标签的取值为0和1,当通信状态标签为0时,表示数据采集模块和分布式数据采集平台的通信状态异常,当通信状态标签为1时,表示数据采集模块和分布式数据采集平台的通信状态正常;
通过处理器将通信状态标签分别发送至数据分析模块和数据存储模块。
优选的,所述数据异常监控系统的工作方法具体包括以下步骤:
步骤一:数据采集模块用于采集分布式数据采集平台的通信状态数据和平台采集数据,将通信状态数据分别发送至传输分析模块和数据存储模块,将平台采集数据分别发送至传输分析模块、数据分析模块和数据存储模块;
步骤二:当传输分析模块接收到通信状态数据和平台采集数据之后,获取均方差和数据总量均值,并根据均方差和数据总量均值获取通信评估系数;通过通信评估系数对通信状态进行判断,获取通信状态标签;通过处理器将通信状态标签分别发送至数据分析模块和数据存储模块;
步骤三:当数据分析模块接收到平台采集数据之后,获取通信状态标签,当通信状态标签为1时,通过数据存储模块获取数据校验质量规则库,通过数据校验质量规则库对平台采集数据进行分析获取数据校验标签;根据校验标签对平台采集数据进行分析;
步骤四:当数据修复模块接收到数据修复信号之后,将修复验证数据按照数据类型划分成若干组数据序列;对若干组所述数据序列分别进行多项式拟合获取拟合曲线和决定系数;当决定系数大于等于决定系数阈值时,则将拟合曲线和插值法结合对数据序列中的异常数据进行补充;当决定系数小于决定系数阈值时,则通过数据修复模型对数据序列中的异常数据进行补充。
与现有技术相比,本发明的有益效果是:
1、本发明设置了传输分析模块,该设置用于分析数据采集模块与分布式数据采集平台的通信状态;当传输分析模块接收到通信状态数据和平台采集数据之后,获取N个设定周期内通信状态数据的均方差,并将均方差标记为JFC;获取平台采集数据在每个设定周期内的数据总量均值,并将数据总量均值标记为SJZ;获取通信评估系数TPX;当通信评估系数TPX满足TPX≥L1时,则判定数据采集模块和分布式数据采集平台的通信状态正常;否则,判定数据采集模块和分布式数据采集平台的通信状态异常;生成通信状态标签;通过处理器将通信状态标签分别发送至数据分析模块和数据存储模块;传输分析模块通过对分析数据采集模块和分布式数据采集平台之间的通信状态进行分析,有助于提高数据采集的效率和质量;
2、本发明设置了数据分析模块,该设置用于对平台采集数据的异常进行分析;当数据分析模块接收到平台采集数据之后,获取通信状态标签,当通信状态标签为1时,通过数据存储模块获取数据校验质量规则库,通过数据校验质量规则库对平台采集数据进行分析获取数据校验标签;当数据校验标签为[0,1,1]时,则判定平台采集数据异常,生成并发送数据修复信号至数据修复模块,将异常的平台采集数据标记为修复验证数据,将修复验证数据发送至数据修复模块;当数据校验标签为[G1,0,1]时,则,生成并发送规范性验证异常信号至数据存储模块和全局管理模块;当数据校验标签为[G1,G2,0]时,生成并发送合理性验证异常信号至全局管理模块和数据存储模块;数据分析模块通过数据校验质量规则库对平台采集数据进行校验,对平台采集数据的状态进行分析,有助于提高数据异常监控的准确率;
3、本发明设置了数据修复模块,该设置用于对修复验证数据进行补充修复;当数据修复模块接收到数据修复信号之后,将修复验证数据按照数据类型划分成若干组数据序列;以若干组所述数据序列中数据的获取时间为自变量,以数据序列中的数据为因变量,分别进行多项式拟合获取拟合曲线和决定系数;当决定系数大于等于决定系数阈值时,则将拟合曲线和插值法结合对数据序列中的异常数据进行补充;当决定系数小于决定系数阈值时,则通过数据修复模型对数据序列中的异常数据进行补充;数据修复模块结合多种方法对异常数据进行补充修复,有助于提高平台采集数据的可信度,为进一步分析做准备。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的原理示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,一种分布式大数据采集平台的数据异常监控系统,包括处理器、数据采集模块、传输分析模块、数据分析模块、数据修复模块、全局管理模块和数据存储模块;
数据采集模块与至少一个分布式数据采集平台通信连接;数据采集模块用于采集分布式数据采集平台的通信状态数据和平台采集数据,将通信状态数据分别发送至传输分析模块和数据存储模块,将平台采集数据分别发送至传输分析模块、数据分析模块和数据存储模块;平台采集数据包括电力数据、水费数据和企业营收数据;
数据分析模块用于对平台采集数据的异常进行分析,包括:
当数据分析模块接收到平台采集数据之后,获取通信状态标签,当通信状态标签为1时,通过数据存储模块获取数据校验质量规则库,通过数据校验质量规则库对平台采集数据进行分析获取数据校验标签;
当数据校验标签为[0,1,1]时,则判定平台采集数据异常,生成并发送数据修复信号至数据修复模块,将异常的平台采集数据标记为修复验证数据,将修复验证数据发送至数据修复模块;当数据校验标签为[G1,0,1]时,则,生成并发送规范性验证异常信号至数据存储模块和全局管理模块;当数据校验标签为[G1,G2,0]时,生成并发送合理性验证异常信号至全局管理模块和数据存储模块;
数据修复模块用于对修复验证数据进行补充修复,包括:
当数据修复模块接收到数据修复信号之后,将修复验证数据按照数据类型划分成若干组数据序列;
以若干组数据序列中数据的获取时间为自变量,以数据序列中的数据为因变量,分别进行多项式拟合获取拟合曲线和决定系数;当决定系数大于等于决定系数阈值时,则将拟合曲线和插值法结合对数据序列中的异常数据进行补充;
当决定系数小于决定系数阈值时,则通过数据修复模型对数据序列中的异常数据进行补充;其中异常数据包括空值和零值。
进一步地,数据修复模型对异常数据的补充具体包括:
将数据序列中的异常数据对应的获取时间提取出来并标记为输入数据;将数据序列中的正常数据及对应的获取时间提取出来并标记为训练数据集;
将训练数据集按照设定比例划分为训练集、测试集和校验集;设定比例包括3:1:2、3:2:1和4:1:1;
构建人工智能模型;人工智能模型至少包括误差逆向传播神经网络、RBF神经网络和深度卷积神经网络中的一种;
通过训练集、测试集和校验集对人工智能模型进行训练、测试和校验,将训练完成的人工智能模型标记为数据修复模型;
将输入数据输入至数据修复模型中获取数据结果,将输出结果插入到数据序列中异常数据的位置;
通过处理器将数据修复模型发送至数据存储模块进行存储。
进一步地,全局管理模块在接收到验证异常信号时进行预警;验证异常信号包括规范性验证异常信号和合理性验证异常信号;全局管理模块还对数据序列中补充修复的数据进行颜色标记。
进一步地,数据校验质量规则库是预设的规则库,并存储在数据存储模块中;数据校验质量规则库包括数据完整性规则、数据项规范性规则和数据合理性规则;数据校验标签具体为[G1,G2,G3],其中G1、G2和G3的取值均包括0和1,当G1=1时,表示数据完整性验证通过,当G2=1时,表示数据项规范性规则验证通过,当G3=1时,表示数据合理性规则验证通过。
进一步地,传输分析模块用于分析数据采集模块与分布式数据采集平台的通信状态,并生成通信状态标签,包括:
当传输分析模块接收到通信状态数据和平台采集数据之后,获取N个设定周期内通信状态数据的均方差,并将均方差标记为JFC;获取平台采集数据在每个设定周期内的数据总量均值,并将数据总量均值标记为SJZ;其中N为比例系数,且N为大于等于5的整数;
通过公式
Figure BDA0003209561170000091
获取通信评估系数TPX;其中α1和α2为比例系数,且α1和α2均为大于0的实数;
当通信评估系数TPX满足TPX≥L1时,则判定数据采集模块和分布式数据采集平台的通信状态正常;否则,判定数据采集模块和分布式数据采集平台的通信状态异常;其中L1为通信评估系数阈值,且L1为大于0的实数;
生成通信状态标签;通信状态标签的取值为0和1,当通信状态标签为0时,表示数据采集模块和分布式数据采集平台的通信状态异常,当通信状态标签为1时,表示数据采集模块和分布式数据采集平台的通信状态正常;
通过处理器将通信状态标签分别发送至数据分析模块和数据存储模块。
进一步地,通信状态数据的获取具体包括:
通过数据采集模块按照设定周期发送第一测试信号至分布式数据采集平台,当分布式数据采集平台接收到第一测试信号之后立即生成第二测试信号,并将第二测试信号发送至数据采集模块;设定周期包括一秒钟、一分钟、五分钟和十分钟;
获取数据采集模块发送第一测试信号和数据采集模块接收到第二测试信号之间的时间差值,并将时间差值标记为通信状态数据。
进一步地,处理器分别与数据采集模块、传输分析模块、数据分析模块、数据修复模块、全局管理模块和数据存储模块通信模块;传输分析模块分别与数据采集模块和数据分析模块通信连接,全局管理模块分别与数据存储模块和数据修复模块通信连接,数据修复模块和数据分析模块通信连接。
进一步地,数据异常监控系统的工作方法具体包括以下步骤:
步骤一:数据采集模块用于采集分布式数据采集平台的通信状态数据和平台采集数据,将通信状态数据分别发送至传输分析模块和数据存储模块,将平台采集数据分别发送至传输分析模块、数据分析模块和数据存储模块;
步骤二:当传输分析模块接收到通信状态数据和平台采集数据之后,获取均方差和数据总量均值,并根据均方差和数据总量均值获取通信评估系数;通过通信评估系数对通信状态进行判断,获取通信状态标签;通过处理器将通信状态标签分别发送至数据分析模块和数据存储模块;
步骤三:当数据分析模块接收到平台采集数据之后,获取通信状态标签,当通信状态标签为1时,通过数据存储模块获取数据校验质量规则库,通过数据校验质量规则库对平台采集数据进行分析获取数据校验标签;根据校验标签对平台采集数据进行分析;
步骤四:当数据修复模块接收到数据修复信号之后,将修复验证数据按照数据类型划分成若干组数据序列;对若干组数据序列分别进行多项式拟合获取拟合曲线和决定系数;当决定系数大于等于决定系数阈值时,则将拟合曲线和插值法结合对数据序列中的异常数据进行补充;当决定系数小于决定系数阈值时,则通过数据修复模型对数据序列中的异常数据进行补充。
上述公式均是去除量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最接近真实情况的一个公式,公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者大量数据模拟获得。
本发明的工作原理:
数据采集模块用于采集分布式数据采集平台的通信状态数据和平台采集数据,将通信状态数据分别发送至传输分析模块和数据存储模块,将平台采集数据分别发送至传输分析模块、数据分析模块和数据存储模块;
当传输分析模块接收到通信状态数据和平台采集数据之后,获取N个设定周期内通信状态数据的均方差,并将均方差标记为JFC;获取平台采集数据在每个设定周期内的数据总量均值,并将数据总量均值标记为SJZ;获取通信评估系数TPX;当通信评估系数TPX满足TPX≥L1时,则判定数据采集模块和分布式数据采集平台的通信状态正常;否则,判定数据采集模块和分布式数据采集平台的通信状态异常;生成通信状态标签;通过处理器将通信状态标签分别发送至数据分析模块和数据存储模块;
当数据分析模块接收到平台采集数据之后,获取通信状态标签,当通信状态标签为1时,通过数据存储模块获取数据校验质量规则库,通过数据校验质量规则库对平台采集数据进行分析获取数据校验标签;当数据校验标签为[0,1,1]时,则判定平台采集数据异常,生成并发送数据修复信号至数据修复模块,将异常的平台采集数据标记为修复验证数据,将修复验证数据发送至数据修复模块;当数据校验标签为[G1,0,1]时,则,生成并发送规范性验证异常信号至数据存储模块和全局管理模块;当数据校验标签为[G1,G2,0]时,生成并发送合理性验证异常信号至全局管理模块和数据存储模块;
当数据修复模块接收到数据修复信号之后,将修复验证数据按照数据类型划分成若干组数据序列;以若干组所述数据序列中数据的获取时间为自变量,以数据序列中的数据为因变量,分别进行多项式拟合获取拟合曲线和决定系数;当决定系数大于等于决定系数阈值时,则将拟合曲线和插值法结合对数据序列中的异常数据进行补充;当决定系数小于决定系数阈值时,则通过数据修复模型对数据序列中的异常数据进行补充。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (6)

1.一种分布式大数据采集平台的数据异常监控系统,其特征在于,包括处理器、数据采集模块、传输分析模块、数据分析模块、数据修复模块、全局管理模块和数据存储模块;
所述数据采集模块与至少一个分布式数据采集平台通信连接;所述数据采集模块用于采集分布式数据采集平台的通信状态数据和平台采集数据,将通信状态数据分别发送至传输分析模块和数据存储模块,将平台采集数据分别发送至传输分析模块、数据分析模块和数据存储模块;所述平台采集数据包括电力数据、水费数据和企业营收数据;
所述数据分析模块用于对平台采集数据的异常进行分析,包括:
当数据分析模块接收到平台采集数据之后,获取通信状态标签,当通信状态标签为1时,通过数据存储模块获取数据校验质量规则库,通过数据校验质量规则库对平台采集数据进行分析获取数据校验标签;
当数据校验标签为[0,1,1]时,则判定平台采集数据异常,生成并发送数据修复信号至数据修复模块,将异常的平台采集数据标记为修复验证数据,将修复验证数据发送至数据修复模块;当数据校验标签为[G1,0,1]时,则,生成并发送规范性验证异常信号至数据存储模块和全局管理模块;当数据校验标签为[G1,G2,0]时,生成并发送合理性验证异常信号至全局管理模块和数据存储模块;
所述数据修复模块用于对修复验证数据进行补充修复,包括:
当数据修复模块接收到数据修复信号之后,将修复验证数据按照数据类型划分成若干组数据序列;
对若干组所述数据序列分别进行多项式拟合获取拟合曲线和决定系数;当决定系数大于等于决定系数阈值时,则将拟合曲线和插值法结合对数据序列中的异常数据进行补充;
当决定系数小于决定系数阈值时,则通过数据修复模型对数据序列中的异常数据进行补充;其中异常数据包括空值和零值。
2.根据权利要求1所述的一种分布式大数据采集平台的数据异常监控系统,其特征在于,所述数据修复模型对异常数据的补充具体包括:
将数据序列中的异常数据对应的获取时间提取出来并标记为输入数据;将数据序列中的正常数据及对应的获取时间提取出来并标记为训练数据集;
将训练数据集按照设定比例划分为训练集、测试集和校验集;所述设定比例包括3∶1∶2、3∶2∶1和4∶1∶1;
构建人工智能模型;所述人工智能模型至少包括误差逆向传播神经网络、RBF神经网络和深度卷积神经网络中的一种;
通过训练集、测试集和校验集对人工智能模型进行训练、测试和校验,将训练完成的人工智能模型标记为数据修复模型;
将输入数据输入至数据修复模型中获取数据结果,将输出结果插入到数据序列中异常数据的位置;
通过处理器将数据修复模型发送至数据存储模块进行存储。
3.根据权利要求1所述的一种分布式大数据采集平台的数据异常监控系统,其特征在于,所述全局管理模块在接收到验证异常信号时进行预警;所述验证异常信号包括规范性验证异常信号和合理性验证异常信号;所述全局管理模块还对数据序列中补充修复的数据进行颜色标记。
4.根据权利要求1所述的一种分布式大数据采集平台的数据异常监控系统,其特征在于,所述数据校验质量规则库是预设的规则库,并存储在数据存储模块中;所述数据校验质量规则库包括数据完整性规则、数据项规范性规则和数据合理性规则;所述数据校验标签具体为[G1,G2,G3],其中G1、G2和G3的取值均包括0和1,当G1=1时,表示数据完整性验证通过,当G2=1时,表示数据项规范性规则验证通过,当G3=1时,表示数据合理性规则验证通过。
5.根据权利要求1所述的一种分布式大数据采集平台的数据异常监控系统,其特征在于,所述传输分析模块用于分析数据采集模块与分布式数据采集平台的通信状态,并生成通信状态标签,包括:
当传输分析模块接收到通信状态数据和平台采集数据之后,获取N个设定周期内通信状态数据的均方差,并将均方差标记为JFC;获取平台采集数据在每个设定周期内的数据总量均值,并将数据总量均值标记为SJZ;其中N为比例系数,且N为大于等于5的整数;
通过公式
Figure FDA0003209561160000031
获取通信评估系数TPX;其中α1和α2为比例系数,且α1和α2均为大于0的实数;
当通信评估系数TPX满足TPX≥L1时,则判定数据采集模块和分布式数据采集平台的通信状态正常;否则,判定数据采集模块和分布式数据采集平台的通信状态异常;其中L1为通信评估系数阈值,且L1为大于0的实数;
生成通信状态标签;所述通信状态标签的取值为0和1,当通信状态标签为0时,表示数据采集模块和分布式数据采集平台的通信状态异常,当通信状态标签为1时,表示数据采集模块和分布式数据采集平台的通信状态正常;
通过处理器将通信状态标签分别发送至数据分析模块和数据存储模块。
6.根据权利要求1所述的一种分布式大数据采集平台的数据异常监控系统,其特征在于,所述数据异常监控系统的工作方法具体包括以下步骤:
步骤一:数据采集模块用于采集分布式数据采集平台的通信状态数据和平台采集数据,将通信状态数据分别发送至传输分析模块和数据存储模块,将平台采集数据分别发送至传输分析模块、数据分析模块和数据存储模块;
步骤二:当传输分析模块接收到通信状态数据和平台采集数据之后,获取均方差和数据总量均值,并根据均方差和数据总量均值获取通信评估系数;通过通信评估系数对通信状态进行判断,获取通信状态标签;通过处理器将通信状态标签分别发送至数据分析模块和数据存储模块;
步骤三:当数据分析模块接收到平台采集数据之后,获取通信状态标签,当通信状态标签为1时,通过数据存储模块获取数据校验质量规则库,通过数据校验质量规则库对平台采集数据进行分析获取数据校验标签;根据校验标签对平台采集数据进行分析;
步骤四:当数据修复模块接收到数据修复信号之后,将修复验证数据按照数据类型划分成若干组数据序列;对若干组所述数据序列分别进行多项式拟合获取拟合曲线和决定系数;当决定系数大于等于决定系数阈值时,则将拟合曲线和插值法结合对数据序列中的异常数据进行补充;当决定系数小于决定系数阈值时,则通过数据修复模型对数据序列中的异常数据进行补充。
CN202110926827.5A 2021-08-12 2021-08-12 一种分布式大数据采集平台的数据异常监控系统及方法 Active CN113641667B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110926827.5A CN113641667B (zh) 2021-08-12 2021-08-12 一种分布式大数据采集平台的数据异常监控系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110926827.5A CN113641667B (zh) 2021-08-12 2021-08-12 一种分布式大数据采集平台的数据异常监控系统及方法

Publications (2)

Publication Number Publication Date
CN113641667A true CN113641667A (zh) 2021-11-12
CN113641667B CN113641667B (zh) 2022-05-20

Family

ID=78421207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110926827.5A Active CN113641667B (zh) 2021-08-12 2021-08-12 一种分布式大数据采集平台的数据异常监控系统及方法

Country Status (1)

Country Link
CN (1) CN113641667B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114595214A (zh) * 2022-03-03 2022-06-07 江苏鼎驰电子科技有限公司 一种大数据治理系统
CN116501706A (zh) * 2023-06-28 2023-07-28 中国人民解放军总医院 用于医学人工智能模型检测的数据配置方法和装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105451254A (zh) * 2014-06-23 2016-03-30 香港优克网络技术有限公司 一种多通信通道的维护方法及装置
CN108491422A (zh) * 2018-02-07 2018-09-04 平安健康互联网股份有限公司 数据库自动化运维管理方法、服务器及存储介质
CN109039833A (zh) * 2018-09-30 2018-12-18 网宿科技股份有限公司 一种监控带宽状态的方法和装置
CN110659273A (zh) * 2019-09-20 2020-01-07 南方电网科学研究院有限责任公司 分布式大数据采集平台的数据异常监控及修复方法
CN110704299A (zh) * 2019-08-27 2020-01-17 紫光云(南京)数字技术有限公司 一种安卓平台app异常测试方法及装置
CN111737242A (zh) * 2020-06-19 2020-10-02 福建南威软件有限公司 一种监控海量数据处理过程的方法
CN111813624A (zh) * 2020-06-29 2020-10-23 中国平安人寿保险股份有限公司 基于时长分析的机器人执行时长的预估方法及其相关设备
CN111866164A (zh) * 2020-07-29 2020-10-30 钱秀英 一种对各通信设备之间传输数据时信息采集系统及方法
CN111931118A (zh) * 2020-08-25 2020-11-13 杭州博日科技股份有限公司 荧光定量熔解实验中熔解曲线测量方法
US20210026743A1 (en) * 2019-07-25 2021-01-28 Innodisk Corporation Electronic apparatus, system and method capable of remotely maintaining the operation of electronic apparatus

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105451254A (zh) * 2014-06-23 2016-03-30 香港优克网络技术有限公司 一种多通信通道的维护方法及装置
CN108491422A (zh) * 2018-02-07 2018-09-04 平安健康互联网股份有限公司 数据库自动化运维管理方法、服务器及存储介质
CN109039833A (zh) * 2018-09-30 2018-12-18 网宿科技股份有限公司 一种监控带宽状态的方法和装置
US20210026743A1 (en) * 2019-07-25 2021-01-28 Innodisk Corporation Electronic apparatus, system and method capable of remotely maintaining the operation of electronic apparatus
CN110704299A (zh) * 2019-08-27 2020-01-17 紫光云(南京)数字技术有限公司 一种安卓平台app异常测试方法及装置
CN110659273A (zh) * 2019-09-20 2020-01-07 南方电网科学研究院有限责任公司 分布式大数据采集平台的数据异常监控及修复方法
CN111737242A (zh) * 2020-06-19 2020-10-02 福建南威软件有限公司 一种监控海量数据处理过程的方法
CN111813624A (zh) * 2020-06-29 2020-10-23 中国平安人寿保险股份有限公司 基于时长分析的机器人执行时长的预估方法及其相关设备
CN111866164A (zh) * 2020-07-29 2020-10-30 钱秀英 一种对各通信设备之间传输数据时信息采集系统及方法
CN111931118A (zh) * 2020-08-25 2020-11-13 杭州博日科技股份有限公司 荧光定量熔解实验中熔解曲线测量方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MARC-PETER SCHAMBACH ET AL.: ""Fast and Reliable Acquisition of Truth Data for Document Analysis using Cyclic Suggest Algorithms"", 《INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION WORKSHOPS》 *
赵宁: ""大数据平台运行监控系统的研究与应用"", 《万方数据知识服务平台》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114595214A (zh) * 2022-03-03 2022-06-07 江苏鼎驰电子科技有限公司 一种大数据治理系统
CN116501706A (zh) * 2023-06-28 2023-07-28 中国人民解放军总医院 用于医学人工智能模型检测的数据配置方法和装置
CN116501706B (zh) * 2023-06-28 2023-09-19 中国人民解放军总医院 用于医学人工智能模型检测的数据配置方法和装置

Also Published As

Publication number Publication date
CN113641667B (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
CN106054104B (zh) 一种基于决策树的智能电表故障实时预测方法
CN106780121B (zh) 一种基于用电负荷模式分析的用电异常识别方法
CN111459700B (zh) 设备故障的诊断方法、诊断装置、诊断设备及存储介质
CN113641667B (zh) 一种分布式大数据采集平台的数据异常监控系统及方法
CN108376982B (zh) 负载相序的识别方法及装置
CN109489977B (zh) 基于KNN-AdaBoost的轴承故障诊断方法
CN102498445A (zh) 用于机器状态监测的、使用规则生成的样本的监督故障学习
CN109613428A (zh) 一种能像系统及其在电机设备故障检测方法中的应用
CN110222991B (zh) 基于rf-gbdt的计量装置故障诊断方法
CN108961455A (zh) 线路杆塔巡检方法、系统及终端设备
CN112462736B (zh) 一种基于数据分析的风电机组故障诊断方法
CN115170000A (zh) 一种基于电能表通信模块的远程监测方法及系统
CN111984442A (zh) 计算机集群系统的异常检测方法及装置、存储介质
CN115438726A (zh) 一种基于数字孪生技术的设备寿命与故障类型预测方法及系统
CN111612149A (zh) 一种基于决策树的主网线路状态检测方法、系统及介质
CN105354622A (zh) 基于模糊综合评判的企业生产管理评价方法
CN113676343A (zh) 电力通信网故障源定位方法及装置
CN112559488A (zh) 一种基于数据中台的自动扶梯全生命周期数据管理方法及系统
CN117557127A (zh) 电网调度系统支撑平台可靠性评估方法、系统及存储介质
CN114167837B (zh) 一种铁路信号系统的智能故障诊断方法及系统
CN116338545A (zh) 电流互感器计量误差状态识别方法、系统、设备及介质
CN112732773B (zh) 一种继电保护缺陷数据的唯一性校核方法及系统
CN114896096A (zh) 基于图像识别算法的数据中心设备故障预测系统及方法
CN113807690A (zh) 区域电网调控系统运行状态在线评估预警方法及系统
CN110852544B (zh) 风力发电机组的可靠性评估方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230523

Address after: 518000 C, 20 / F, building B, Lvjing Plaza, No. 6009, Shennan Avenue, Xiangmihu Road, Futian District, Shenzhen, Guangdong Province

Patentee after: Shenzhen Guangwang Century Technology Co.,Ltd.

Address before: 518000 Room 401, building 2, phase I, Zhuoyue City, Zhongkang Road, Futian District, Shenzhen City, Guangdong Province

Patentee before: SHENZHEN RUIXUNTONG INVESTMENT CO.,LTD.