CN113111054A

CN113111054A - 一种基于过采样和欠采样结合的工业数据平衡处理算法

Info

Publication number: CN113111054A
Application number: CN202110397505.6A
Authority: CN
Inventors: 王涛; 张卫山; 包致成; 于泽沛
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-07-13

Abstract

本发明提出了一种基于过采样和欠采样结合的工业数据平衡处理算法。该算法融合多种采样方法，针对工业环境数据正负样本比例非常不协调的问题，根据不同数量的样本数据集，分类做数据平衡处理。包括如下步骤：对数据进行预处理消除异常和补全缺失值；根据不同类别数据样本的数量划分为多数类和少数类；针对少数类采用SMOTE算法，即合成少数过采样技术。对少数类别样本进行分析和模拟，并将人工模拟的新样本添加到数据集中；针对多数类采用基于K‑Means算法的T‑Kmeans算法，实现对时序数据样本进行空间聚类。该发明能够解决工业数据样本极不平衡的问题，创建平衡且类别特征明显的新数据集，为预测或诊断故障等模型训练提供有力的数据支撑。

Description

一种基于过采样和欠采样结合的工业数据平衡处理算法

技术领域

本发明涉及互联网领域、数据分析及处理领域，具体涉及到一种基于过采样和欠采样结合的工业数据平衡处理算法。

背景技术

工业智能化快速发展，设备内部结构越来越复杂。对工业设备的安全性和可靠性研究的课题越来越多。但是收集到的工业数据在类别上具有极其不平衡的缺点。所以提出一种对工业时序数据样本平衡处理的算法，为后续课题研究提供有力的数据支撑是具有重要意义的。近年来最接近本发明的技术有：

(1)、K-Means模型：K-Means可以实现对数据样本进行空间聚类，在一定程度上实现数据平衡。但是针对数据样本少的数据，单一的K-Means会让数据丢失更加严重。即不适合少样本类别数据。

由于收集到的数据极不平衡，不能使用单一的方法对数据简单处理。本方法采用过采样和欠采样结合的工业数据平衡处理算法，将工业数据进行平衡处理得到优化后的数据。为对工业设备分析提供良好的数据样本，从而提高设备预测的准确性。

发明内容

为解决现有技术中的缺点和不足，本发明提出了一种基于过采样和欠采样结合的工业数据平衡处理算法，通过对经过预处理后的数据集划分为少数类和多数类，再根据不同数量级类别进行不同的针对性平衡处理。对少数类采用SMOTE算法进行人工模拟数据样本合成，对多数类采用T-KMeans算法进行样本合理缩减。实现对工业数据的平衡处理。

本发明的技术方案为：

步骤(1)：对收集到的工业传感器数据做数据预处理，进行清洗、降噪等操作。并针对实时接收格式处理，形成时序序列；

步骤(2)：将经过步骤(1)中处理后的数据，按照类别数量，划分为多数类和少数类；

步骤(3)：针对经过步骤(2)划分得到的少数类数据样本，利用 SMOTE算法通过生成合成算例进行人工模拟数据合成；

步骤(4)：针对经过步骤(2)划分得到的多数类数据样本，按时序将2分钟内的数据看作一个样本点，再利用K-means算法将这些样本点在空间上进行聚类；

步骤(5)：将少数类和多数类经过平衡处理后的数据样本组合成平衡且具有类别代表性的新数据集。

本发明的有益效果：

(1)、使用本算法处理后的工业数据集，具有数据平衡的特点。为预测模型提供准确且有用的数据信息，可以提高预测模型的准确性，从而提高设备运行质量；

(2)、本方法通过对少数类使用人工合成方法扩充数据样本，对多数类采用时序数据分析与空间聚类结合的方法进行数据样本缩减。良好地实现了数据样本真正地平衡状态。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明对数据集使用欠采样和过采样结合来实现数据平衡的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图所示，对一种基于过采样和欠采样结合的工业数据平衡处理算法的具体流程进行详细说明：

本发明的基于过采样和欠采样结合的工业数据平衡处理算法，通过将欠采样、过采样的方法应用到不同数量的不同类别数据样本上，对数据分别处理，最后再将分别平衡后的数据进行融合。形成新的数据集，得到数据平衡的数据样本集。提高对设备分析时的准确率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于过采样和欠采样结合的工业数据平衡处理算法，其特征在于，针对实时接收的类别不平衡的工业数据，经过数据预处理模块、划分多数类和少数类、分别做平衡处理、最后合成新的数量平衡且特征具有类别代表性的新数据集。包括以下步骤：

步骤(3)：针对经过步骤(2)划分得到的少数类数据样本，利用SMOTE算法通过生成合成算例进行人工模拟数据合成；

2.根据权力要求1所述的一种基于过采样和欠采样结合的工业数据平衡处理算法，其特征在于，在数据预处理模块，使用多重插补进行缺失值填充，筛选对于缺失值填充有益的特征项，剔除对数据造成干扰的特征项。让后续模型可以具备较好的模拟能力。包括以下步骤：

步骤1)：准备好缺失数据集，利用蒙特卡洛模拟法(MCMC)将原始数据插补成几个完整数据集；

步骤2)：步骤1)中得到的每个数据集中利用线性回归(lm)或者广义线性规格(glm)方法进行插补建模；

步骤3)：将步骤2)中得到的多个模型整合在一起；

步骤4)：使用评价算法对插补模型的优劣进行评价，并调整更新模型；

步骤5)：输出经过缺失插补后的完整数据集。

3.根据权力要求1所述的一种基于过采样和欠采样结合的工业数据平衡处理算法，其特征在于，在针对少数类数据样本做数据平衡处理时，使用SMOTE合成少数类过采样技术。基于随机过采样算法的一种改进方案，对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中。第一步，随机选择一个少数类样本，计算它到少数类样本集中的所有样本的距离，即K近邻；第二步，根据不平衡比例设置采样比例；第三步，对于该类样本中的每一个样本X，从K近邻中选取若干样本；第四步，在每两互为近邻的样本空间直线上生成一个与原样本类似的模拟数据样本。以此来扩充少数类样本数量，既可以避免复制样本造成的冗余和过拟合等问题，又合理地扩充了少数类样本的数量。

4.根据权力要求1所述的一种基于过采样和欠采样结合的工业数据平衡处理算法，其特征在于，在针对多数类数据样本做数据平衡处理时，使用基于K-means算法的改进算法T-Kmeans对多数类样本进行欠采样。实现在大量同类样本数据中既减少数据量，又可以保留具有类别代表性的数据样本。包括如下步骤：

步骤1)：准备多数类样本，对多数类样本根据不同类别进行小样本划分；

步骤2)：对于每类情况，如类别标签为A的样本数据X1，根据时间戳将X1发生前2分钟内的数据通过均值计算看作时一个样本点。保证数据样本的时序性，从而避免后续聚类过程中因单条数据的偶然性造成的重要数据丢失情况；

步骤3)：将经过步骤1)和步骤2)处理后的数据样本，在空间上进行聚类。计算每个样本到K个聚类中心距离，将样本点分配到最近的聚类中心；

步骤4)：根据中心点位置和类别比例调整中心数量，重复步骤3)；

步骤5)：保留经过空间聚类后的不重复数据样本，得到具有类别代表性的预想数量范围内的该类数据样本。

5.根据权力要求1所述的一种基于过采样和欠采样结合的工业数据平衡处理算法，其特征在于，将数据集按照少数类和多数类分别处理。既避免了少数类太少，盲目复制造成的过拟合问题。又避免了随机采样多数类数据造成重要表征数据丢失的情况。将两者结合充分发挥过采样和欠采样在不同数据上的优势。最终得到数据平衡的新数据集。