CN112256752B

CN112256752B - 一种基于数据挖掘的数据预测处理方法

Info

Publication number: CN112256752B
Application number: CN202011087678.XA
Authority: CN
Inventors: 刘长波
Original assignee: Shandong Sunsam Information Technology Co ltd
Current assignee: Shandong Sunsam Information Technology Co ltd
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2021-05-14
Anticipated expiration: 2040-10-13
Also published as: CN112256752A

Abstract

一种基于数据挖掘的工程数据预测处理方法，包括初始化设置，初步筛选及清理、清洗，聚类处理和分析，同类数据关联处理并建立数据内优先数集，设置关联加密ID，类别数据传输，数据验证和挖掘处理等步骤，可以实现提高数据预测的处理效率和速度，并且具有数据安全性高的优点。

Description

一种基于数据挖掘的数据预测处理方法

技术领域

本发明涉及数据分析处理领域，具体涉及一种基于数据挖掘的工程数据预测处理方法。

背景技术

大数据（big data），IT行业术语，是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

数据挖掘是一门新兴的学科，它诞生于20 世纪80 年代，主要面向商业应用的人工智能研究领域。从技术角度看，数据挖掘就是从大量的、复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值的信息和知识的过程。从商业角度来说，数据挖掘就是从庞大的数据库中抽取、转换、分析一些潜在规律和价值，从中获取辅助商业决策的关键信息和有用知识。数据挖掘是人工智能和数据库领域研究的热点问题，所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，作出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，作出正确的决策。知识发现过程由以下三个阶段组成：①数据准备；②数据挖掘；③结果表达和解释。数据挖掘可以与用户或知识库交互。

近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用，包括商务管理、生产控制、市场分析、工程设计和科学探索等。数据挖掘利用了来自如下一些领域的思想：①来自统计学的抽样、估计和假设检验；②人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想，这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地，需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能（并行）计算的技术在处理海量数据集方面常常是重要的。

然而，在现有的数据挖掘方式，其大都利用在大数据的服务器端进行数据的聚类等操作，数据针对性较差，并且计算量大，同时对于客户端的交互需要双向的大数据传输，效率低且速度慢。数据处理的过程中，虽然现有技术存在加密的方式，但基本都只针对客户信息的保密，并未从整个数据处理的过程对数据进行加密保护，导致数据的安全性低。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于数据挖掘的工程数据预测处理方法，其可以实现提高数据预测的处理效率和速度，并且数据安全性高。

本发明提供了一种基于数据挖掘的工程数据预测处理方法，具体的包括按照顺序依次进行的如下步骤：

（1）初始化设备，设置数据挖掘服务器端，多个远程工程目标端，多个类别节点服务器的初始参数，其中数据挖掘服务器端，多个远程工程目标端，多个类别节点服务器之间分别双向通讯连接；

（2）针对每一个远程工程目标端，建立子目标数据集群；对子目标数据集群进行初步筛选后，再进行清理和清洗，形成有效目标数据集群；

（3）针对每一个远程工程目标端，对有效目标数据集群进行聚类处理和分析，按照预设的数据选择类型将有效目标数据集群中的数据进行分类；

（4）根据聚类处理的分类结果，分别针对每一类的分类结果，对同一类的数据进行关联处理，建立数据内优先数集，具体包括：

（4.1）在每一类的分类结果中随机选择一高可靠的数据作为第一数据，将第一数据归入优先数集；

（4.2）基于第一数据，设置第一阈值门限，依次将每一类的分类结果中的其他数据与第一数据做误差处理，将落入第一阈值门限内的，且相对于第一数据具有的最小正、负误差的第二、第三数据归入优先数集；

（4.3）将第二、第三数据分别与第一数据进行关联，同时将未落入优先数集的其他数据按照相对于第一数据具有正误差或负误差，分为正误差组和负误差组；

（4.4）基于第二、第三数据，设置小于第一阈值门限的第二阈值门限，依次将正误差组和负误差组中的数据分别与第二、第三数据做误差处理，将落入第二阈值门限内的，且相对于第二、第三数据具有最小误差的第四、第五数据归入优先数集，并将第四、第五数据分别与第二、第三数据进行关联；

（4.5）基于和步骤（4.3）-（4.4）同样的方式进行关联处理，直到：

a、满足优先数集数据数量要求时结束；或

b、没有数据满足对应阈值门限且不满足优先数集数据数量要求时，再选取高可靠的数据，重复步骤（4.1）-（4.5），直到满足优先数集数据数量要求时结束；

（5）分别基于每一类的分类结果，针对不同类及其对应的优先数集分别设置具有关联的不同加密ID；

（6）数据挖掘服务器端发送数据传输指令至多个类别节点服务器中的一个或多个；接收到传输指令的类别节点服务器按照传输类别要求，设置与类别对应的传输存储参数，并且分别将类别传输指令分别发送至与其连接的多个远程工程目标端，每一个类别节点服务器对应于一个类的传输；

（7）多个远程工程目标端接收到传输指令后，分别将其多个分类结果中的优先数集，依次对应的发送至与传输指令匹配的类别节点服务器中；

（8）类别节点服务器对接收到的优先数集的加密ID进行验证，满足验证条件后则将其类别对应的优先数集传输至数据挖掘服务器端，在挖掘服务器端端进行处理分析，实现对数据的挖掘，并针对挖掘的结果对工程数据进行预测。

进一步地，所述步骤（2）中对子目标数据集群进行初步筛选，具体为将数据集群中的干扰数据筛除掉，选择出与挖掘目标相关的数据。

进一步地，所述步骤（2）中再进行清理和清洗具体为对经过筛选的数据进行清理和清洗，将其中的噪音和异常的数据去掉。

进一步地，所述步骤（3）中对有效目标数据集群进行分析，具体为根据有效目标数据集群中的数据属性，对有效目标数据集群中的数据进行分析。

进一步地，所述步骤（4）中高可靠的数据是与历史标准数据最接近的数据。

进一步地，优先数集中的数据数量为每一类的分类结果中数量的20%以内。

进一步地，优先数集中的数据数量为每一类的分类结果中数量的15%。

进一步地，在多个类别节点服务器端分别设置有解码器，利用解码器可以对加密ID进行解密，在类别节点服务器端对收集到的数据进行认证，满足数据的可信环境，以在预期的传输时间对符合解码要求的数据进行传输。

进一步地，还包括步骤（9），具体为当数据挖掘服务器端需要更多的类别对应的完整数据时，则直接发送完整数据传输的指令和ID密匙至多个远程工程目标端，在多个远程工程目标端进行针对类别对应的完整数据的加密ID和ID密匙的验证，满足验证条件时直接将完整数据发送至数据挖掘服务器端进行分析处理，实现对全面的数据进行挖掘和预测。

本发明的基于数据挖掘的工程数据预测处理方法，可以实现：

1）两步的筛选过程，数据的可信度更高，并且将有用的目标的数据先筛选出来，然后在对有用的数据进行处理使得可以有效的提高处理速度，并且针对性更强，对于整个预测处理方法可以有效的在前端提高效率，为后续的处理提供保障；

2）将每一个远程工程目标端对应的有效目标数据集群进行聚类处理后，可以得到初步进行分类的不同类型的数据，使得数据按照自己的属性进行了类型打包，数据集成度更高；

3）将数据进行了提前的预处理，使得数据的传输具有针对性，可以大幅度的提高传输的效率，同时对数据进行了高相关度的关联，建立在正负两个方向的多关联数据，对后续的处理分析，其连续性较强，数据处理准确度也相应的更高；

4）对多个远程工程目标端已经进行聚类的分类结果，进行了二次分类，使得每一个节点服务器在一个传输要求时段，只针对其中的一类结果进行再次汇聚，其对应设置的属性参数（例如针对此类数据的传输长度，时间等进行优化设置）使得数据的传输具有针对性，效率显著提高；

5）基于不同的策略将分类结果、优先数集进行不同程度传输，传输效率提高且高类聚处理效果，数据处理针对性强，效率高，同时分别设置了加密ID，有针对性的进行验证，提高了数据的安全性的同时实现了数据验证。

附图说明

图1为基于数据挖掘的工程数据预测处理方法的流程图。

具体实施方式

下面详细说明本发明的具体实施，有必要在此指出的是，以下实施只是用于本发明的进一步说明，不能理解为对本发明保护范围的限制，该领域技术熟练人员根据上述本发明内容对本发明做出的一些非本质的改进和调整，仍然属于本发明的保护范围。

本发明提供了一种基于数据挖掘的工程数据预测处理方法，其具体的流程如附图1所示，通过该方法可以实现提高数据预测的处理效率和速度，并且数据安全性高，下面具体的进行介绍。

数据挖掘是通过分析每个数据，从大量数据中寻找其规律的技术，主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集；规律寻找是用某种方法将数据集所含的规律找出来；规律表示是尽可能以用户可理解的方式（如可视化）将找出的规律表示出来。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。本发明采用聚类的分析方法进行具体的处理。

首先，针对每一个远程工程目标端，建立子目标数据集群；对子目标数据集群进行筛选，具体的将数据集群中的干扰数据筛除掉，选择出与挖掘目标相关的数据，之后再次对经过筛选的数据进行清理和清洗，将其中的噪音和异常的数据去掉，形成有效目标数据集群。这样，通过两步的筛选过程，比现有技术中直接进行筛选或者直接进行清理、清洗的方式，数据的可信度更高，并且将有用的目标的数据先筛选出来，然后在对有用的数据进行处理使得可以有效的提高处理速度，并且针对性更强，对于整个预测处理方法可以有效的在前端提高效率，为后续的处理提供保障。

其次，针对每一个远程工程目标端，对有效目标数据集群进行聚类处理，根据有效目标数据集群中的数据属性（包括但不限于类型、大小、时间等），对有效目标数据集群中的数据进行分析，按照预设的数据选择类型将有效目标数据集群中的数据进行分类。这样，将每一个远程工程目标端对应的有效目标数据集群进行聚类处理后，可以得到初步进行分类的不同类型的数据，使得数据按照自己的属性进行了类型打包。

然后，根据聚类处理的分类结果，分别针对每一类的分类结果，对同一类的数据进行关联处理，建立数据内优先数集，具体的：在每一类的分类结果中随机选择一高可靠的数据作为第一数据，将第一数据归入优先数集，其中高可靠的数据可以是与历史标准数据最接近的数据，或者是以其他方式确定其可靠度较高的数据，此处不做进一步的限定，根据实际情况进行选取即可；基于第一数据，设置第一阈值门限（即相对于第一数据较为接近的阈值范围），依次将每一类的分类结果中的其他数据与第一数据做误差处理（例如绝对差值误差、标准误差等方式），将落入第一阈值门限内的，且相对于第一数据具有的最小正、负误差的第二、第三数据归入优先数集（正负体现了偏离第一数据的方向），并将第二、第三数据分别与第一数据进行关联，同时将未落入优先数集的其他数据按照相对于第一数据具有正误差或负误差，分为正误差组和负误差组；接着，基于第二、第三数据，设置小于第一阈值门限的第二阈值门限，依次将正误差组和负误差组中的数据分别与第二、第三数据做误差处理，将落入第二阈值门限内的，且相对于第二、第三数据具有最小误差的第四、第五数据归入优先数集，并将第四、第五数据分别与第二、第三数据进行关联，依此类推，直到满足优先数集数据数量要求或者没有满足对应阈值门限时结束，但是对于没有满足对应阈值门限时结束的情况，由于优先数集数据数量不够，因此再选取高可靠的数据，重复上述步骤，直到满足优先数集数据数量要求时结束。此外，对于优先数集中的数据数量，选择不易过多，过多则会失去设置优先数集的优势意义，因此优选数据中的数据量为每一类的分类结果中数量的20%以以内，优选为15%。这样，对于将数据在远程工程目标端进行了提前的预处理，使得数据的传输具有针对性，可以大幅度的提高传输的效率，同时对数据进行了高相关度的关联，建立在正负两个方向的多关联数据，对后续的处理分析，其连续性较强，数据处理准确度也相应的更高。

接下来，分别基于每一类的分类结果，针对不同类及其对应的优先数集分别设置具有关联的不同加密ID；在多个类别节点服务器端分别设置有解码器，利用解码器可以对加密ID进行解密，则可在类别节点服务器端对收集到的数据进行认证，满足数据的可信环境，以在预期的传输时间对符合解码要求的数据进行传输；其中，多个类别节点服务器分别连接多个远程工程目标端和数据挖掘服务器端。

数据挖掘服务器端发送数据传输指令至多个类别节点服务器中的一个或多个；接收到传输指令的类别节点服务器按照传输类别要求，设置与类别对应的传输存储参数，并且分别将类别传输指令分别发送至与其连接的多个远程工程目标端，此时，每一个类别节点服务器对应于一个类的传输；多个远程工程目标端接收到传输指令后，分别将其多个分类结果中的优先数集，依次对应的发送至与传输指令匹配的类别节点服务器中。这样，类别节点服务器对多个远程工程目标端已经进行聚类的分类结果，进行了再一次的分类，使得每一个节点服务器在一个传输要求时段，只针对其中的一类结果进行再次汇聚，其对应设置的属性参数（例如针对此类数据的传输长度，时间等进行优化设置）使得数据的传输具有针对性，效率显著提高。

类别节点服务器对接收到的优先数集的加密ID进行验证，满足验证条件后则将其类别对应的优先数集传输至数据挖掘服务器端，在挖掘服务器端端进行处理分析，从而实现对数据的挖掘，并针对挖掘的结果对工程数据进行预测。其中，当数据挖掘服务器端需要更多的类别对应的完整数据时，则直接发送完整数据传输的指令和ID密匙至多个远程工程目标端，在多个远程工程目标端进行针对类别对应的完整数据的加密ID和ID密匙的验证，满足验证条件时直接将完整数据发送至数据挖掘服务器端进行分析处理，从而得到更全面的数据进行挖掘和预测。

尽管为了说明的目的，已描述了本发明的示例性实施方式，但是本领域的技术人员将理解，不脱离所附权利要求中公开的发明的范围和精神的情况下，可以在形式和细节上进行各种修改、添加和替换等的改变，而所有这些改变都应属于本发明所附权利要求的保护范围，并且本发明要求保护的产品各个部门和方法中的各个步骤，可以以任意组合的形式组合在一起。因此，对本发明中所公开的实施方式的描述并非为了限制本发明的范围，而是用于描述本发明。相应地，本发明的范围不受以上实施方式的限制，而是由权利要求或其等同物进行限定。

Claims

1.一种基于数据挖掘的工程数据预测处理方法，其特征在于，具体的包括按照顺序依次进行的如下步骤：

a、满足优先数集数据数量要求时结束；或

（8）类别节点服务器对接收到的优先数集的加密ID进行验证，满足验证条件后则将其类别对应的优先数集传输至数据挖掘服务器端，在挖掘服务器端端进行处理分析，实现对数据的挖掘，并针对挖掘的结果对工程数据进行预测；

（9）当数据挖掘服务器端需要更多的类别对应的完整数据时，则直接发送完整数据传输的指令和ID密匙至多个远程工程目标端，在多个远程工程目标端进行针对类别对应的完整数据的加密ID和ID密匙的验证，满足验证条件时直接将完整数据发送至数据挖掘服务器端进行分析处理，实现对全面的数据进行挖掘和预测；

其中优先数集中的数据数量为每一类的分类结果中数量的15%，在多个类别节点服务器端分别设置有解码器，利用解码器可以对加密ID进行解密，在类别节点服务器端对收集到的数据进行认证，满足数据的可信环境，以在预期的传输时间对符合解码要求的数据进行传输。

2.如权利要求1所述的方法，其特征在于：所述步骤（2）中对子目标数据集群进行初步筛选，具体为将数据集群中的干扰数据筛除掉，选择出与挖掘目标相关的数据。

3.如权利要求2所述的方法，其特征在于：所述步骤（2）中再进行清理和清洗具体为对经过筛选的数据进行清理和清洗，将其中的噪音和异常的数据去掉。

4.如权利要求3所述的方法，其特征在于：所述步骤（3）中对有效目标数据集群进行分析，具体为根据有效目标数据集群中的数据属性，对有效目标数据集群中的数据进行分析。

5.如权利要求1所述的方法，其特征在于：所述步骤（4）中高可靠的数据是与历史标准数据最接近的数据。