CN117668677B

CN117668677B - 一种数据检测方法

Info

Publication number: CN117668677B
Application number: CN202311628899.7A
Authority: CN
Inventors: 肖波; 林森; 毕岭
Original assignee: Beijing Anling Trusted Network Technology Co ltd
Current assignee: Beijing Anling Trusted Network Technology Co ltd
Filing date: 2023-11-30
Publication date: 2024-07-02
Anticipated expiration: 2043-11-30

Abstract

本发明公开了一种数据检测方法，涉及数据检测领域，包括通过历史数据建立预测模型，并将新数据通过预测模型进行分析生成数据检测任务。本发明有益效果为：本发明通过引入基于机器学习的智能分析方法，能够实现对数据检测结果的实时和深入分析，机器学习模型能够自动学习和理解数据的模式和分布，具有较强的适应性和泛化能力，能够有效应对数据环境的变化，并且通过实时分析数据检测结果，不仅能够及时识别和报警数据中的异常和错误，还能够深入挖掘数据中的潜在信息和价值，极大地提高数据管理和分析的效率和价值，帮助企业更加精准和高效地进行数据驱动的决策和操作。

Description

一种数据检测方法

技术领域

本发明涉及数据检测技术领域，特别是一种数据检测方法。

背景技术

在数据管理和分析领域，数据的质量和完整性始终是一个核心的关注点，传统的数据检测方法通常依赖于预定义的规则和阈值来识别数据中的异常和错误，然而，这些方法通常缺乏足够的灵活性和适应性，难以应对多变和复杂的数据环境，例如，当数据的分布和模式发生变化时，预定义的规则可能不再适用，导致检测的准确性和可靠性下降，此外，传统方法通常无法实现对数据检测结果的深入分析和理解，例如识别数据中的潜在模式和关联关系，这限制了数据分析的深度和价值。

发明内容

鉴于上述现有的数据检测方法中存在的问题，提出了本发明。

因此，本发明所要解决的问题在于传统方法缺乏足够的灵活性和适应性，难以应对多变和复杂的数据环境。

为解决上述技术问题，本发明提供如下技术方案：一种数据检测方法，其包括，通过历史数据建立预测模型，并将新数据通过预测模型进行分析生成数据检测任务；

数据平台接收数据检测任务，将检测数据分片至数据处理节点进行分布式处理并在检测完毕后汇总；

数据平台汇总数据检测结果进行集中处理展示并分析数据存在问题；

通过数据问题实施处理措施并将处理结果反馈至预测模型进行模型优化。

作为本发明所述数据检测方法的一种优选方案，其中：所述通过历史数据建立预测模型包括以下步骤：

收集历史数据检测任务和其结果，包括数据特征和检测结果的标签；

使用特征工程方法提取数据的特征，形成特征向量集合用于模型的训练；

选择支持向量机作为预测模型；

使用上述提取的特征向量和标签训练SVM模型，模型函数为：

其中，x是特征向量，β是模型参数，需要通过训练数据来学习得到；

当新数据进入系统时，自动提取其特征向量，并输入到训练好的SVM模型中，模型输出预测结果，如果预测结果表明数据存在问题，则自动生成数据检测任务，生成的数据检测任务被发送到数据平台服务器，并在数据平台数据库中执行。

作为本发明所述数据检测方法的一种优选方案，其中：所述数据平台接收数据检测任务后将检测数据进行分片处理，平台使用Apache Hadoop作为分布式数据处理的基础架构，在HadOOp上部署HDFS用于分布式存储，使用MapReduce模型进行分布式数据处理，其中Map阶段处理数据检测任务，Reduce阶段汇总数据检测结果，定义Map任务和Reduce任务，提交MapReduce任务到Hadoop集群，并监控任务的执行状态，在Reduce阶段，将各个节点的数据检测结果汇总到一个中心节点上，进行最终的数据检测结果整合。

作为本发明所述数据检测方法的一种优选方案，其中：所述将数据进行分片处理时将数据使用一致性哈希算法均匀分配数据分片到不同的数据处理节点上进行处理，每个数据节点分布数据量大致相同并独立处理分配到的数据分片，在数据处理过程中监控各个数据处理节点的负载情况，当出现节点的负载过高时，动态重新分配数据分片到其他负载较低的节点上，当新的数据处理节点加入时，使用一致性哈希算法动态调整数据分片的分配。

作为本发明所述数据检测方法的一种优选方案，其中：所述数据平台汇总数据检测结果后进行预处理，包括数据清洗、标准化以及归一化，统一数据格式，标准化和归一化公式如下：

其中X′为标准化的值，0＜X′＜1，X为原始数据，Xm_in为原始数据最小值，X_max为原始数据最大值，通过处理得到标准化后的数据检测结果进行分析。

作为本发明所述数据检测方法的一种优选方案，其中：所述数据平台分析得出的数据分为一级异常、二级异常以及三级异常，所述一级异常为轻微异常，通常可由系统进行自检查修复，所述二级异常和三级异常为明显异常，系统无法自行修复，需要通过工作人员进行手动修复，所述一级异常、二级异常、三级异常按异常程度由低至高排列，分析得到数据问题后实施的处理措施包括：

若数据平台分析得出为一级异常，则启动系统自检查对数据异常进行自动修复，并在修复后生成异常记录和修复记录发送向任一工作人员进行检查，待工作人员给出确认反馈后将异常记录和修复记录存储在数据平台数据库中；

若数据平台分析得出为二级异常，则自动向任一工作人员发送预警通知，并规定该工作人员在30分钟内回复开始处理反馈，若工作人员在规定时间内未回复，则自动选择该工作人员之外的任一工作人员发送预警通知，同时重新进行回复规定时间30分钟计时直至有工作人员回复处理反馈，工作人员处理二级异常后系统生成异常记录和修复记录发送向处理工作人员，工作人员附上个人电子签名后存储在数据平台数据库中；

若数据平台分析得出为三级异常，则自动向所有工作人员发送预警通知，并规定在10分钟内至少3名工作人员回复处理反馈，若在10分钟内回复处理反馈的工作人员不足3名，则向已回复工作人员发送召集通知并再次向其余未回复工作人员发送预警通知，工作人员通过召集通知召集至最少3名工作人员后向系统发送开始处理通知，系统将处理工作按工作人员人数进行均分后进行数据异常处理，若在工作人员通过召集通知时有其余工作人员回复处理反馈，则系统在至少3名工作人员回复后通知工作人员进行数据异常处理，若工作人员在处理数据异常过程中有其余工作人员回复处理反馈，则将剩余未处理数据异常工作再次按工作人员人数进行均分处理，处理完毕后，系统按照所有参与处理工作人员工作量生成异常记录和处理记录，并发生向所有参与工作人员进行确认，确认完毕后系统将所有记录和数据存储在数据平台数据库中。

作为本发明所述数据检测方法的一种优选方案，其中：所述对预测模型进行优化包括：

在新数据通过由历史数据建立的预测模型分析后生成预测结果，将最终分析检测结果与预测结果进行比较，若存在较大偏差，则将新数据作为预测模型训练样本进行模型训练优化；

对检测结果进行集中处理展示到前端界面上，允许用户在前端界面上提供关于分析报告的反馈，基于用户的反馈，定期对机器学习模型进行重新训练和优化。

作为本发明所述数据检测方法的一种优选方案，其中：所述数据问题处理完毕后使用HDFS的数据备份机制，将所有数据在分布式节点集群中复制多份以防数据丢失，并使用Hadoop的监控工具，对分布式节点集群进行定期的维护和管理。

一种计算机设备，包括：存储器和处理器；所述存储器存储有计算机程序，其特征在于：所述处理器执行所述计算机程序时实现所述数据检测方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现所述数据检测方法的步骤。

本发明有益效果为：本发明通过引入基于机器学习的智能分析方法，能够实现对数据检测结果的实时和深入分析，机器学习模型能够自动学习和理解数据的模式和分布，具有较强的适应性和泛化能力，能够有效应对数据环境的变化，并且通过实时分析数据检测结果，不仅能够及时识别和报警数据中的异常和错误，还能够深入挖掘数据中的潜在信息和价值，极大地提高数据管理和分析的效率和价值，帮助企业更加精准和高效地进行数据驱动的决策和操作。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例对于本领域普通技术人员来讲在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为数据检测方法的流程示意图。

图2为数据检测方法的数据流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的″一个实施例″或″实施例″是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的″在一个实施例中″并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

实施例1

参照图1和图2，为本发明第一个实施例，该实施例提供了一种数据检测方法，数据检测方法包括以下步骤：

S1、通过历史数据建立预测模型，并将新数据通过预测模型进行分析生成数据检测任务；

应说明的是，通过历史数据建立预测模型包括以下步骤：

选择支持向量机作为预测模型；

使用上述提取的特征向量和标签训练SVM模型，模型函数为：

S2、数据平台接收数据检测任务，将检测数据分片至数据处理节点进行分布式处理并在检测完毕后汇总；

应说明的是，数据平台接收数据检测任务后将检测数据进行分片处理，平台使用Apache Hadoop作为分布式数据处理的基础架构，在Hadoop上部署HDFS用于分布式存储，使用MapReduce模型进行分布式数据处理，其中Map阶段处理数据检测任务，Reduce阶段汇总数据检测结果，定义Map任务和Reduce任务，提交MapReduce任务到HadoOp集群，并监控任务的执行状态，在Reduce阶段，将各个节点的数据检测结果汇总到一个中心节点上，进行最终的数据检测结果整合。

进一步地将待处理的大数据集分片，即将大数据集分解为较小的数据块，使用HDFS将数据块分布到集群的不同节点上，确保数据的分布均匀，以实现负载均衡，

定义Map任务，即如何处理单个数据块的方法；

定义Reduce任务，即如何合并Map任务输出的键值对的方法；

提交MapReduce任务到HadoOp集群，并监控任务的执行状态；

使用数据本地性原则，即尽可能在数据所在的节点上进行计算，以减少网络传输的开销；

对MapReduce任务进行优化；

用HadOOp的容错机制，当某个节点失败时，自动将该节点的任务迁移到其他节点上执行；

将MapReduce任务的输出结果合并，得到处理后的数据；

将处理后的数据输出到下游系统或存储到HDFS中，以便进一步的分析和处理。

还应说明的是，将数据进行分片处理时将数据使用一致性哈希算法均匀分配数据分片到不同的数据处理节点上进行处理，每个数据节点分布数据量大致相同并独立处理分配到的数据分片，在数据处理过程中监控各个数据处理节点的负载情况，当出现节点的负载过高时，动态重新分配数据分片到其他负载较低的节点上，当新的数据处理节点加入时，使用一致性哈希算法动态调整数据分片的分配。

S3、数据平台汇总数据检测结果进行集中处理展示并分析数据存在问题；

应说明的是，数据平台汇总数据检测结果后进行预处理，包括数据清洗、标准化以及归一化，统一数据格式，标准化和归一化公式如下：

其中X′为标准化的值，0＜X′＜1，X为原始数据，X_min为原始数据最小值，X_max为原始数据最大值，通过处理得到标准化后的数据检测结果进行分析。

还应说明的是，数据平台分析得出的数据分为一级异常、二级异常以及三级异常，所述一级异常为轻微异常，例如个别数据错误、数据格式异常、数据重复等数据问题，此类问题对数据平台和预测模型运行无明显影响，通常可由系统进行自检查修复，所述二级异常和三级异常为明显异常，系统无法自行修复，需要通过工作人员进行手动修复，其中二级异常为中度异常，对数据平台存在部分影响，例如数据缺失、数据混乱，出现乱码等异常，此类异常对数据存在一定的破坏性和污染性，使用该类数据可能导致预测模型出现错误，因此需要通过人工进行排除，三级异常为重度异常，通常指对数据平台和预测模型存在较大威胁的异常，例如系统运行错误、崩溃、数据库中数据泄露等严重问题，此类问题需要多人进行协同解决，并起到相互监督的作用，所述一级异常、二级异常、三级异常按异常程度由低至高排列，分析得到数据问题后实施的处理措施包括：

将数据异常分为三个级别，根据异常的严重性进行了区分，有助于工作人员迅速理解异常的程度，从而采取适当的处理措施，针对不同级别的异常，采取了不同的处理方式，一级异常可以自动修复，减轻了工作人员的负担，对于二级和三级异常，系统实施了预警机制，能够及时通知工作人员，确保问题能够尽快得到处理。而且，对于三级异常，采用了多人协同处理的方式，提高了问题解决的效率和可靠性，无论是哪个级别的异常，都有相应的记录和修复记录，这有助于跟踪异常的处理历史，为后续的数据分析和改进提供了有用的信息，这种分类和处理方法有助于提高数据异常处理的效率和质量，确保数据平台和预测模型的稳定性和可靠性，同时，通过清晰的分类和记录，也有助于后续的数据质量管理和改进工作。

S4、通过数据问题实施处理措施，并将处理结果反馈至预测模型进行模型优化；

应说明的是，对预测模型进行优化包括：

还应说明的是，数据问题处理完毕后使用HDFS的数据备份机制，将所有数据在分布式节点集群中复制多份以防数据丢失，并使用HadOOp的监控工具，对分布式节点集群进行定期的维护和管理。

实施例2

为本发明第二个实施例，该实施例不同于上一个实施例的是：

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，″计算机可读介质″可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

实施例3

为本发明第三个实施例，该实施例不同于前两个实施例，为了验证本发明方法的有益效果，通过实验进行科学论证证明，对比结果如下表所示。

表1：本发明方法与现有方法实验对比表

观察表1可知，本发明所述方法通过机器学习模型自动学习数据的模式和分布，理论上能够更准确地识别数据中的问题，而现有方法可能受限于预定义规则的局限性和刻板性。由于机器学习模型能够自适应地学习和更新模型，本发明所述方法在数据模式发生变化时，能够更快更准确地检测到异常，而现有方法可能需要手动调整规则和阈值，响应速度较慢。

本发明所述方法通过深入分析数据检测结果，能够挖掘数据中的潜在信息和价值，例如识别数据的关键指标和影响因素，理解数据的变化趋势和规律，而现有方法通常只能进行表面层次的数据检测和报警。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种数据检测方法，其特征在于：包括，

通过历史数据建立预测模型，并将新数据通过预测模型进行分析生成数据检测任务；

通过数据问题实施处理措施，并将处理结果反馈至预测模型进行模型优化；

所述通过历史数据建立预测模型包括以下步骤：

选择支持向量机作为预测模型；

使用上述提取的特征向量和标签训练SVM模型，模型函数为：

当新数据进入系统时，自动提取其特征向量，并输入到训练好的SVM模型中，模型输出预测结果，如果预测结果表明数据存在问题，则自动生成数据检测任务，生成的数据检测任务被发送到数据平台服务器，并在数据平台数据库中执行；

所述数据平台接收数据检测任务后将检测数据进行分片处理，平台使用ApacheHadoop作为分布式数据处理的基础架构，在Hadoop上部署HDFS用于分布式存储，使用MapReduce模型进行分布式数据处理，其中Map阶段处理数据检测任务，Reduce阶段汇总数据检测结果，定义Map任务和Reduce任务，提交MapReduce任务到Hadoop集群，并监控任务的执行状态，在Reduce阶段，将各个节点的数据检测结果汇总到一个中心节点上，进行最终的数据检测结果整合。

2.如权利要求1所述的数据检测方法，其特征在于：所述将检测数据进行分片处理时将数据使用一致性哈希算法均匀分配数据分片到不同的数据处理节点上进行处理，每个数据节点分布数据量大致相同并独立处理分配到的数据分片，在数据处理过程中监控各个数据处理节点的负载情况，当出现节点的负载过高时，动态重新分配数据分片到其他负载较低的节点上，当新的数据处理节点加入时，使用一致性哈希算法动态调整数据分片的分配。

3.如权利要求2所述的数据检测方法，其特征在于：所述数据平台汇总数据检测结果后进行预处理，包括数据清洗、标准化以及归一化，统一数据格式，标准化和归一化公式如下：

其中X’为标准化的值，0＜X’＜1，X为原始数据，X_min为原始数据最小值，X_max为原始数据最大值，通过处理得到标准化后的数据检测结果进行分析。

4.如权利要求3所述的数据检测方法，其特征在于：所述数据平台分析得出的数据分为一级异常、二级异常以及三级异常，所述一级异常为轻微异常，通常可由系统进行自检查修复，所述二级异常和三级异常为明显异常，系统无法自行修复，需要通过工作人员进行手动修复，所述一级异常、二级异常、三级异常按异常程度由低至高排列，分析得到数据问题后实施的处理措施包括：

5.如权利要求4所述的数据检测方法，其特征在于：对预测模型进行优化包括：

6.如权利要求5所述的数据检测方法，其特征在于：所述数据问题处理完毕后使用HDFS的数据备份机制，将所有数据在分布式节点集群中复制多份以防数据丢失，并使用Hadoop的监控工具，对分布式节点集群进行定期的维护和管理。