CN117668677B - 一种数据检测方法 - Google Patents
一种数据检测方法 Download PDFInfo
- Publication number
- CN117668677B CN117668677B CN202311628899.7A CN202311628899A CN117668677B CN 117668677 B CN117668677 B CN 117668677B CN 202311628899 A CN202311628899 A CN 202311628899A CN 117668677 B CN117668677 B CN 117668677B
- Authority
- CN
- China
- Prior art keywords
- data
- abnormality
- workers
- processing
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 94
- 230000005856 abnormality Effects 0.000 claims abstract description 86
- 238000004458 analytical method Methods 0.000 claims abstract description 29
- 238000010801 machine learning Methods 0.000 claims abstract description 9
- 238000009826 distribution Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 68
- 238000012545 processing Methods 0.000 claims description 58
- 230000008569 process Effects 0.000 claims description 48
- 230000008439 repair process Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000012790 confirmation Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000012407 engineering method Methods 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 abstract description 5
- 230000008859 change Effects 0.000 abstract description 3
- 238000013523 data management Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000004590 computer program Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010921 in-depth analysis Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Abstract
本发明公开了一种数据检测方法,涉及数据检测领域,包括通过历史数据建立预测模型,并将新数据通过预测模型进行分析生成数据检测任务。本发明有益效果为:本发明通过引入基于机器学习的智能分析方法,能够实现对数据检测结果的实时和深入分析,机器学习模型能够自动学习和理解数据的模式和分布,具有较强的适应性和泛化能力,能够有效应对数据环境的变化,并且通过实时分析数据检测结果,不仅能够及时识别和报警数据中的异常和错误,还能够深入挖掘数据中的潜在信息和价值,极大地提高数据管理和分析的效率和价值,帮助企业更加精准和高效地进行数据驱动的决策和操作。
Description
技术领域
本发明涉及数据检测技术领域,特别是一种数据检测方法。
背景技术
在数据管理和分析领域,数据的质量和完整性始终是一个核心的关注点,传统的数据检测方法通常依赖于预定义的规则和阈值来识别数据中的异常和错误,然而,这些方法通常缺乏足够的灵活性和适应性,难以应对多变和复杂的数据环境,例如,当数据的分布和模式发生变化时,预定义的规则可能不再适用,导致检测的准确性和可靠性下降,此外,传统方法通常无法实现对数据检测结果的深入分析和理解,例如识别数据中的潜在模式和关联关系,这限制了数据分析的深度和价值。
发明内容
鉴于上述现有的数据检测方法中存在的问题,提出了本发明。
因此,本发明所要解决的问题在于传统方法缺乏足够的灵活性和适应性,难以应对多变和复杂的数据环境。
为解决上述技术问题,本发明提供如下技术方案:一种数据检测方法,其包括,通过历史数据建立预测模型,并将新数据通过预测模型进行分析生成数据检测任务;
数据平台接收数据检测任务,将检测数据分片至数据处理节点进行分布式处理并在检测完毕后汇总;
数据平台汇总数据检测结果进行集中处理展示并分析数据存在问题;
通过数据问题实施处理措施并将处理结果反馈至预测模型进行模型优化。
作为本发明所述数据检测方法的一种优选方案,其中:所述通过历史数据建立预测模型包括以下步骤:
收集历史数据检测任务和其结果,包括数据特征和检测结果的标签;
使用特征工程方法提取数据的特征,形成特征向量集合用于模型的训练;
选择支持向量机作为预测模型;
使用上述提取的特征向量和标签训练SVM模型,模型函数为:
其中,x是特征向量,β是模型参数,需要通过训练数据来学习得到;
当新数据进入系统时,自动提取其特征向量,并输入到训练好的SVM模型中,模型输出预测结果,如果预测结果表明数据存在问题,则自动生成数据检测任务,生成的数据检测任务被发送到数据平台服务器,并在数据平台数据库中执行。
作为本发明所述数据检测方法的一种优选方案,其中:所述数据平台接收数据检测任务后将检测数据进行分片处理,平台使用Apache Hadoop作为分布式数据处理的基础架构,在HadOOp上部署HDFS用于分布式存储,使用MapReduce模型进行分布式数据处理,其中Map阶段处理数据检测任务,Reduce阶段汇总数据检测结果,定义Map任务和Reduce任务,提交MapReduce任务到Hadoop集群,并监控任务的执行状态,在Reduce阶段,将各个节点的数据检测结果汇总到一个中心节点上,进行最终的数据检测结果整合。
作为本发明所述数据检测方法的一种优选方案,其中:所述将数据进行分片处理时将数据使用一致性哈希算法均匀分配数据分片到不同的数据处理节点上进行处理,每个数据节点分布数据量大致相同并独立处理分配到的数据分片,在数据处理过程中监控各个数据处理节点的负载情况,当出现节点的负载过高时,动态重新分配数据分片到其他负载较低的节点上,当新的数据处理节点加入时,使用一致性哈希算法动态调整数据分片的分配。
作为本发明所述数据检测方法的一种优选方案,其中:所述数据平台汇总数据检测结果后进行预处理,包括数据清洗、标准化以及归一化,统一数据格式,标准化和归一化公式如下:
其中X′为标准化的值,0<X′<1,X为原始数据,Xmin为原始数据最小值,Xmax为原始数据最大值,通过处理得到标准化后的数据检测结果进行分析。
作为本发明所述数据检测方法的一种优选方案,其中:所述数据平台分析得出的数据分为一级异常、二级异常以及三级异常,所述一级异常为轻微异常,通常可由系统进行自检查修复,所述二级异常和三级异常为明显异常,系统无法自行修复,需要通过工作人员进行手动修复,所述一级异常、二级异常、三级异常按异常程度由低至高排列,分析得到数据问题后实施的处理措施包括:
若数据平台分析得出为一级异常,则启动系统自检查对数据异常进行自动修复,并在修复后生成异常记录和修复记录发送向任一工作人员进行检查,待工作人员给出确认反馈后将异常记录和修复记录存储在数据平台数据库中;
若数据平台分析得出为二级异常,则自动向任一工作人员发送预警通知,并规定该工作人员在30分钟内回复开始处理反馈,若工作人员在规定时间内未回复,则自动选择该工作人员之外的任一工作人员发送预警通知,同时重新进行回复规定时间30分钟计时直至有工作人员回复处理反馈,工作人员处理二级异常后系统生成异常记录和修复记录发送向处理工作人员,工作人员附上个人电子签名后存储在数据平台数据库中;
若数据平台分析得出为三级异常,则自动向所有工作人员发送预警通知,并规定在10分钟内至少3名工作人员回复处理反馈,若在10分钟内回复处理反馈的工作人员不足3名,则向已回复工作人员发送召集通知并再次向其余未回复工作人员发送预警通知,工作人员通过召集通知召集至最少3名工作人员后向系统发送开始处理通知,系统将处理工作按工作人员人数进行均分后进行数据异常处理,若在工作人员通过召集通知时有其余工作人员回复处理反馈,则系统在至少3名工作人员回复后通知工作人员进行数据异常处理,若工作人员在处理数据异常过程中有其余工作人员回复处理反馈,则将剩余未处理数据异常工作再次按工作人员人数进行均分处理,处理完毕后,系统按照所有参与处理工作人员工作量生成异常记录和处理记录,并发生向所有参与工作人员进行确认,确认完毕后系统将所有记录和数据存储在数据平台数据库中。
作为本发明所述数据检测方法的一种优选方案,其中:所述对预测模型进行优化包括:
在新数据通过由历史数据建立的预测模型分析后生成预测结果,将最终分析检测结果与预测结果进行比较,若存在较大偏差,则将新数据作为预测模型训练样本进行模型训练优化;
对检测结果进行集中处理展示到前端界面上,允许用户在前端界面上提供关于分析报告的反馈,基于用户的反馈,定期对机器学习模型进行重新训练和优化。
作为本发明所述数据检测方法的一种优选方案,其中:所述数据问题处理完毕后使用HDFS的数据备份机制,将所有数据在分布式节点集群中复制多份以防数据丢失,并使用Hadoop的监控工具,对分布式节点集群进行定期的维护和管理。
一种计算机设备,包括:存储器和处理器;所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现所述数据检测方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现所述数据检测方法的步骤。
本发明有益效果为:本发明通过引入基于机器学习的智能分析方法,能够实现对数据检测结果的实时和深入分析,机器学习模型能够自动学习和理解数据的模式和分布,具有较强的适应性和泛化能力,能够有效应对数据环境的变化,并且通过实时分析数据检测结果,不仅能够及时识别和报警数据中的异常和错误,还能够深入挖掘数据中的潜在信息和价值,极大地提高数据管理和分析的效率和价值,帮助企业更加精准和高效地进行数据驱动的决策和操作。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例对于本领域普通技术人员来讲在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为数据检测方法的流程示意图。
图2为数据检测方法的数据流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的″一个实施例″或″实施例″是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的″在一个实施例中″并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
实施例1
参照图1和图2,为本发明第一个实施例,该实施例提供了一种数据检测方法,数据检测方法包括以下步骤:
S1、通过历史数据建立预测模型,并将新数据通过预测模型进行分析生成数据检测任务;
应说明的是,通过历史数据建立预测模型包括以下步骤:
收集历史数据检测任务和其结果,包括数据特征和检测结果的标签;
使用特征工程方法提取数据的特征,形成特征向量集合用于模型的训练;
选择支持向量机作为预测模型;
使用上述提取的特征向量和标签训练SVM模型,模型函数为:
其中,x是特征向量,β是模型参数,需要通过训练数据来学习得到;
当新数据进入系统时,自动提取其特征向量,并输入到训练好的SVM模型中,模型输出预测结果,如果预测结果表明数据存在问题,则自动生成数据检测任务,生成的数据检测任务被发送到数据平台服务器,并在数据平台数据库中执行。
S2、数据平台接收数据检测任务,将检测数据分片至数据处理节点进行分布式处理并在检测完毕后汇总;
应说明的是,数据平台接收数据检测任务后将检测数据进行分片处理,平台使用Apache Hadoop作为分布式数据处理的基础架构,在Hadoop上部署HDFS用于分布式存储,使用MapReduce模型进行分布式数据处理,其中Map阶段处理数据检测任务,Reduce阶段汇总数据检测结果,定义Map任务和Reduce任务,提交MapReduce任务到HadoOp集群,并监控任务的执行状态,在Reduce阶段,将各个节点的数据检测结果汇总到一个中心节点上,进行最终的数据检测结果整合。
进一步地将待处理的大数据集分片,即将大数据集分解为较小的数据块,使用HDFS将数据块分布到集群的不同节点上,确保数据的分布均匀,以实现负载均衡,
定义Map任务,即如何处理单个数据块的方法;
定义Reduce任务,即如何合并Map任务输出的键值对的方法;
提交MapReduce任务到HadoOp集群,并监控任务的执行状态;
使用数据本地性原则,即尽可能在数据所在的节点上进行计算,以减少网络传输的开销;
对MapReduce任务进行优化;
用HadOOp的容错机制,当某个节点失败时,自动将该节点的任务迁移到其他节点上执行;
将MapReduce任务的输出结果合并,得到处理后的数据;
将处理后的数据输出到下游系统或存储到HDFS中,以便进一步的分析和处理。
还应说明的是,将数据进行分片处理时将数据使用一致性哈希算法均匀分配数据分片到不同的数据处理节点上进行处理,每个数据节点分布数据量大致相同并独立处理分配到的数据分片,在数据处理过程中监控各个数据处理节点的负载情况,当出现节点的负载过高时,动态重新分配数据分片到其他负载较低的节点上,当新的数据处理节点加入时,使用一致性哈希算法动态调整数据分片的分配。
S3、数据平台汇总数据检测结果进行集中处理展示并分析数据存在问题;
应说明的是,数据平台汇总数据检测结果后进行预处理,包括数据清洗、标准化以及归一化,统一数据格式,标准化和归一化公式如下:
其中X′为标准化的值,0<X′<1,X为原始数据,Xmin为原始数据最小值,Xmax为原始数据最大值,通过处理得到标准化后的数据检测结果进行分析。
还应说明的是,数据平台分析得出的数据分为一级异常、二级异常以及三级异常,所述一级异常为轻微异常,例如个别数据错误、数据格式异常、数据重复等数据问题,此类问题对数据平台和预测模型运行无明显影响,通常可由系统进行自检查修复,所述二级异常和三级异常为明显异常,系统无法自行修复,需要通过工作人员进行手动修复,其中二级异常为中度异常,对数据平台存在部分影响,例如数据缺失、数据混乱,出现乱码等异常,此类异常对数据存在一定的破坏性和污染性,使用该类数据可能导致预测模型出现错误,因此需要通过人工进行排除,三级异常为重度异常,通常指对数据平台和预测模型存在较大威胁的异常,例如系统运行错误、崩溃、数据库中数据泄露等严重问题,此类问题需要多人进行协同解决,并起到相互监督的作用,所述一级异常、二级异常、三级异常按异常程度由低至高排列,分析得到数据问题后实施的处理措施包括:
若数据平台分析得出为一级异常,则启动系统自检查对数据异常进行自动修复,并在修复后生成异常记录和修复记录发送向任一工作人员进行检查,待工作人员给出确认反馈后将异常记录和修复记录存储在数据平台数据库中;
若数据平台分析得出为二级异常,则自动向任一工作人员发送预警通知,并规定该工作人员在30分钟内回复开始处理反馈,若工作人员在规定时间内未回复,则自动选择该工作人员之外的任一工作人员发送预警通知,同时重新进行回复规定时间30分钟计时直至有工作人员回复处理反馈,工作人员处理二级异常后系统生成异常记录和修复记录发送向处理工作人员,工作人员附上个人电子签名后存储在数据平台数据库中;
若数据平台分析得出为三级异常,则自动向所有工作人员发送预警通知,并规定在10分钟内至少3名工作人员回复处理反馈,若在10分钟内回复处理反馈的工作人员不足3名,则向已回复工作人员发送召集通知并再次向其余未回复工作人员发送预警通知,工作人员通过召集通知召集至最少3名工作人员后向系统发送开始处理通知,系统将处理工作按工作人员人数进行均分后进行数据异常处理,若在工作人员通过召集通知时有其余工作人员回复处理反馈,则系统在至少3名工作人员回复后通知工作人员进行数据异常处理,若工作人员在处理数据异常过程中有其余工作人员回复处理反馈,则将剩余未处理数据异常工作再次按工作人员人数进行均分处理,处理完毕后,系统按照所有参与处理工作人员工作量生成异常记录和处理记录,并发生向所有参与工作人员进行确认,确认完毕后系统将所有记录和数据存储在数据平台数据库中。
将数据异常分为三个级别,根据异常的严重性进行了区分,有助于工作人员迅速理解异常的程度,从而采取适当的处理措施,针对不同级别的异常,采取了不同的处理方式,一级异常可以自动修复,减轻了工作人员的负担,对于二级和三级异常,系统实施了预警机制,能够及时通知工作人员,确保问题能够尽快得到处理。而且,对于三级异常,采用了多人协同处理的方式,提高了问题解决的效率和可靠性,无论是哪个级别的异常,都有相应的记录和修复记录,这有助于跟踪异常的处理历史,为后续的数据分析和改进提供了有用的信息,这种分类和处理方法有助于提高数据异常处理的效率和质量,确保数据平台和预测模型的稳定性和可靠性,同时,通过清晰的分类和记录,也有助于后续的数据质量管理和改进工作。
S4、通过数据问题实施处理措施,并将处理结果反馈至预测模型进行模型优化;
应说明的是,对预测模型进行优化包括:
在新数据通过由历史数据建立的预测模型分析后生成预测结果,将最终分析检测结果与预测结果进行比较,若存在较大偏差,则将新数据作为预测模型训练样本进行模型训练优化;
对检测结果进行集中处理展示到前端界面上,允许用户在前端界面上提供关于分析报告的反馈,基于用户的反馈,定期对机器学习模型进行重新训练和优化。
还应说明的是,数据问题处理完毕后使用HDFS的数据备份机制,将所有数据在分布式节点集群中复制多份以防数据丢失,并使用HadOOp的监控工具,对分布式节点集群进行定期的维护和管理。
实施例2
为本发明第二个实施例,该实施例不同于上一个实施例的是:
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,″计算机可读介质″可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
实施例3
为本发明第三个实施例,该实施例不同于前两个实施例,为了验证本发明方法的有益效果,通过实验进行科学论证证明,对比结果如下表所示。
表1:本发明方法与现有方法实验对比表
观察表1可知,本发明所述方法通过机器学习模型自动学习数据的模式和分布,理论上能够更准确地识别数据中的问题,而现有方法可能受限于预定义规则的局限性和刻板性。由于机器学习模型能够自适应地学习和更新模型,本发明所述方法在数据模式发生变化时,能够更快更准确地检测到异常,而现有方法可能需要手动调整规则和阈值,响应速度较慢。
本发明所述方法通过深入分析数据检测结果,能够挖掘数据中的潜在信息和价值,例如识别数据的关键指标和影响因素,理解数据的变化趋势和规律,而现有方法通常只能进行表面层次的数据检测和报警。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种数据检测方法,其特征在于:包括,
通过历史数据建立预测模型,并将新数据通过预测模型进行分析生成数据检测任务;
数据平台接收数据检测任务,将检测数据分片至数据处理节点进行分布式处理并在检测完毕后汇总;
数据平台汇总数据检测结果进行集中处理展示并分析数据存在问题;
通过数据问题实施处理措施,并将处理结果反馈至预测模型进行模型优化;
所述通过历史数据建立预测模型包括以下步骤:
收集历史数据检测任务和其结果,包括数据特征和检测结果的标签;
使用特征工程方法提取数据的特征,形成特征向量集合用于模型的训练;
选择支持向量机作为预测模型;
使用上述提取的特征向量和标签训练SVM模型,模型函数为:
其中,x是特征向量,β是模型参数,需要通过训练数据来学习得到;
当新数据进入系统时,自动提取其特征向量,并输入到训练好的SVM模型中,模型输出预测结果,如果预测结果表明数据存在问题,则自动生成数据检测任务,生成的数据检测任务被发送到数据平台服务器,并在数据平台数据库中执行;
所述数据平台接收数据检测任务后将检测数据进行分片处理,平台使用ApacheHadoop作为分布式数据处理的基础架构,在Hadoop上部署HDFS用于分布式存储,使用MapReduce模型进行分布式数据处理,其中Map阶段处理数据检测任务,Reduce阶段汇总数据检测结果,定义Map任务和Reduce任务,提交MapReduce任务到Hadoop集群,并监控任务的执行状态,在Reduce阶段,将各个节点的数据检测结果汇总到一个中心节点上,进行最终的数据检测结果整合。
2.如权利要求1所述的数据检测方法,其特征在于:所述将检测数据进行分片处理时将数据使用一致性哈希算法均匀分配数据分片到不同的数据处理节点上进行处理,每个数据节点分布数据量大致相同并独立处理分配到的数据分片,在数据处理过程中监控各个数据处理节点的负载情况,当出现节点的负载过高时,动态重新分配数据分片到其他负载较低的节点上,当新的数据处理节点加入时,使用一致性哈希算法动态调整数据分片的分配。
3.如权利要求2所述的数据检测方法,其特征在于:所述数据平台汇总数据检测结果后进行预处理,包括数据清洗、标准化以及归一化,统一数据格式,标准化和归一化公式如下:
其中X’为标准化的值,0<X’<1,X为原始数据,Xmin为原始数据最小值,Xmax为原始数据最大值,通过处理得到标准化后的数据检测结果进行分析。
4.如权利要求3所述的数据检测方法,其特征在于:所述数据平台分析得出的数据分为一级异常、二级异常以及三级异常,所述一级异常为轻微异常,通常可由系统进行自检查修复,所述二级异常和三级异常为明显异常,系统无法自行修复,需要通过工作人员进行手动修复,所述一级异常、二级异常、三级异常按异常程度由低至高排列,分析得到数据问题后实施的处理措施包括:
若数据平台分析得出为一级异常,则启动系统自检查对数据异常进行自动修复,并在修复后生成异常记录和修复记录发送向任一工作人员进行检查,待工作人员给出确认反馈后将异常记录和修复记录存储在数据平台数据库中;
若数据平台分析得出为二级异常,则自动向任一工作人员发送预警通知,并规定该工作人员在30分钟内回复开始处理反馈,若工作人员在规定时间内未回复,则自动选择该工作人员之外的任一工作人员发送预警通知,同时重新进行回复规定时间30分钟计时直至有工作人员回复处理反馈,工作人员处理二级异常后系统生成异常记录和修复记录发送向处理工作人员,工作人员附上个人电子签名后存储在数据平台数据库中;
若数据平台分析得出为三级异常,则自动向所有工作人员发送预警通知,并规定在10分钟内至少3名工作人员回复处理反馈,若在10分钟内回复处理反馈的工作人员不足3名,则向已回复工作人员发送召集通知并再次向其余未回复工作人员发送预警通知,工作人员通过召集通知召集至最少3名工作人员后向系统发送开始处理通知,系统将处理工作按工作人员人数进行均分后进行数据异常处理,若在工作人员通过召集通知时有其余工作人员回复处理反馈,则系统在至少3名工作人员回复后通知工作人员进行数据异常处理,若工作人员在处理数据异常过程中有其余工作人员回复处理反馈,则将剩余未处理数据异常工作再次按工作人员人数进行均分处理,处理完毕后,系统按照所有参与处理工作人员工作量生成异常记录和处理记录,并发生向所有参与工作人员进行确认,确认完毕后系统将所有记录和数据存储在数据平台数据库中。
5.如权利要求4所述的数据检测方法,其特征在于:对预测模型进行优化包括:
在新数据通过由历史数据建立的预测模型分析后生成预测结果,将最终分析检测结果与预测结果进行比较,若存在较大偏差,则将新数据作为预测模型训练样本进行模型训练优化;
对检测结果进行集中处理展示到前端界面上,允许用户在前端界面上提供关于分析报告的反馈,基于用户的反馈,定期对机器学习模型进行重新训练和优化。
6.如权利要求5所述的数据检测方法,其特征在于:所述数据问题处理完毕后使用HDFS的数据备份机制,将所有数据在分布式节点集群中复制多份以防数据丢失,并使用Hadoop的监控工具,对分布式节点集群进行定期的维护和管理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311628899.7A CN117668677B (zh) | 2023-11-30 | 一种数据检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311628899.7A CN117668677B (zh) | 2023-11-30 | 一种数据检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117668677A CN117668677A (zh) | 2024-03-08 |
CN117668677B true CN117668677B (zh) | 2024-07-02 |
Family
ID=
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102402653B1 (ko) * | 2021-10-14 | 2022-05-30 | 주식회사 에스에이치아이앤씨 | 인공지능 기반 스카다 시스템 및 그 운용방법 |
CN117041312A (zh) * | 2023-09-25 | 2023-11-10 | 贵州荣锦一诺科技有限公司 | 基于物联网的企业级信息技术监控系统 |
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102402653B1 (ko) * | 2021-10-14 | 2022-05-30 | 주식회사 에스에이치아이앤씨 | 인공지능 기반 스카다 시스템 및 그 운용방법 |
CN117041312A (zh) * | 2023-09-25 | 2023-11-10 | 贵州荣锦一诺科技有限公司 | 基于物联网的企业级信息技术监控系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11720821B2 (en) | Automated and customized post-production release review of a model | |
US7647131B1 (en) | Dynamic determination of sampling rates | |
US11201865B2 (en) | Change monitoring and detection for a cloud computing environment | |
CA3098838A1 (en) | Systems and methods for enriching modeling tools and infrastructure with semantics | |
CN111027615B (zh) | 基于机器学习的中间件故障预警方法和系统 | |
Subramaniyan et al. | Artificial intelligence for throughput bottleneck analysis–State-of-the-art and future directions | |
US9799007B2 (en) | Method of collaborative software development | |
US20210081501A1 (en) | System and method for automated insight curation and alerting | |
CN117234785B (zh) | 基于人工智能自查询的集控平台错误分析系统 | |
Beyerer et al. | Machine Learning for Cyber Physical Systems: Selected Papers from the International Conference ML4CPS 2018 | |
CN109522193A (zh) | 一种运维数据的处理方法、系统及装置 | |
CN104461820A (zh) | 一种设备监控的方法及装置 | |
CN115809302A (zh) | 元数据处理方法、装置、设备及存储介质 | |
CN116882756B (zh) | 基于区块链的电力安全管控方法 | |
CN117668677B (zh) | 一种数据检测方法 | |
CN116910559A (zh) | 一种面向电网超算中心智能运维应用的指标异常检测方法 | |
Ariansyah et al. | Enhancing interoperability of digital twin in the maintenance phase of lifecycle | |
JP7062505B2 (ja) | 設備管理支援システム | |
CN117668677A (zh) | 一种数据检测方法 | |
CN113656323A (zh) | 一种自动化测试、定位及修复故障的方法及存储介质 | |
CN110083508B (zh) | 一种数据监控方法及装置 | |
Cinar et al. | A Predictive Maintenance System Design and Implementation for Intelligent Manufacturing. Machines 2022, 10, 1006 | |
Praskash et al. | Exploration of neural network models for defect detection and classification | |
US11327938B2 (en) | Method to improve prediction accuracy of business data with enhanced data filtering and data reduction mechanism | |
Mishra et al. | Generalised rule induction-based model for software fault prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |