CN112365060A

CN112365060A - 电网物联感知数据的预处理方法

Info

Publication number: CN112365060A
Application number: CN202011268860.5A
Authority: CN
Inventors: 黄恺彤; 刘生寒; 李波; 肖建毅; 钟苏生; 李凯; 梁运德; 陈力; 蔡嘉荣
Original assignee: Guangdong Electric Power Information Technology Co Ltd
Current assignee: Guangdong Electric Power Information Technology Co Ltd
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2021-02-12
Anticipated expiration: 2040-11-13
Also published as: CN112365060B

Abstract

本发明提出了一种电网物联感知数据的预处理方法。包括以下步骤：获取电网数据样本集，并进行缺失补充和特征归一化处理；通过K近邻算法将样本划分为安全区间、危险区间、噪音区间、边界样本区间；初步确定各区间样本的采样数量；对落入噪音区间的样本数据进行删除；基于安全系数对危险区间的样本进行采样；基于聚类分析对安全区间的样本进行采样；将安全区间和危险区间样本进行合并，对边界样本区间进行处理，输出样本数据集。本发明针对不同样本区间具有不同特征采用不同的处理方法，对于多数类样本使用欠采样清除部分边界样本，在一定程度上使得分类器对少数类的判断更为准确。

Description

电网物联感知数据的预处理方法

技术领域

本发明涉及电网数据处理，具体涉及一种电网物联感知数据的预处理方法。

背景技术

随着电网信息化技术不断发展，通过智能化的方法对电网运行过程中产生的数据进行采集、分析、判断，从而实现对电网运行状态的监测、故障识别、风险预判等应用已越来越多。然而在泛在电网的信息数据采集过程中，所收集到的各类别的样本数量存在严重不平衡。这是由于电网中的数据十分繁杂，除了表示温度、湿度、使用时间、出产时间等数值型特征，还有诸如设备是否检修，设备是否通电等字符类数据，而且有的设备数据中还有部分缺失。传统的分类算法对平衡的数据集都有着较好的学习效果，但如果直接使用传统分类器对非平衡数据集进行学习将会出现对少数类样误判、漏判的情况。针对电网的非平衡数据集，需要对它进行一定的处理，才能对少数类进行更为准确的识别。

为了解决非平衡数据的分类问题，研究人员提出了许多解决方案。这些解决方案主要分为以下两类：欠采样和过采样。欠采样的方法如以下参考文献[1][2][3][4]，过采样的如以下参考文献[5][6][7][8][9][10]，在此基础上，也有人提出混合采样的方案，如以下参考文献[11]。

[1]Tahir M A,Kittler J,Yan F.Inverse random under sampling for classimbalance problem and its application to multi-label classification[M].Elsevier Science Inc.2012.

[2]Hart B P E.The Condensed Nearest Neighbor Rule[J].IEEE Trans onInformation Theory,1968,14(3):515-516.

[3]Tomek I.Two modifications of CNN[J].IEEE Trans.Systems,Man andCybernetics,1976,6:769-772.

[4]Wilson D L.Asymptotic properties of nearest neighbor rules usingedited data[J].IEEE Transactions on Systems,Man,and Cybernetics,1972(3):408-421.

[5]Li H,Li J,Chang P C,et al.Parametric prediction on default risk ofChinese listed tourism companies by using random oversampling,isomap,andlocally linear embeddings on imbalanced samples[J].International Journal ofHospitality Management,2013,35:141-151.

[6]王超学,张涛,马春森.面向不平衡数据集的改进型SMOTE算法[J].计算机科学与探索,2014,8(6):727-734.

[7]Ramentol E,Caballero Y,Bello R,et al.SMOTE-RS B,*:a hybridpreprocessing approach based on oversampling and undersampling for highimbalanced data-sets using SMOTE and rough sets theory[J].Knowledge&Information Systems,2012,33(2):245-265.

[8]Tesfahun A,Bhaskari D L.Intrusion Detection Using Random ForestsClassifier with SMOTE and Feature Reduction[C]//International Conference onCloud&Ubiquitous Computing&Emerging Technologies.IEEE,2014:127-132.

[9]Chawla N V,Bowyer K W,Hall L O,et al.SMOTE:synthetic minorityover-sampling technique[J].Journal of Artificial Intelligence Research,2002,16:321-357.

[10]Dong Y,Wang X.A new over-sampling approach:Random-SMOTE forlearning from imbalanced data sets[C]//International Conference on KnowledgeScience,Engineering and Management.Springer-Verlag,2011:343-352.

[11]Batista G E,Prati R C,Monard M C.A study of the behavior ofseveral methods for balancing machine learning training data[J].ACM SIGKDDExplorations Newsletter,2004,6(1):20-29.

然而，现有的过采样、欠采样、混合采样都有各自的不足。包括：单纯的过采样不能够很好的根据样本的分布进行采样、单纯欠采样容易过拟合、采样的数量无法准确确定等局限。因此，有必要对电网非平衡数据的预处理方法进行改进。

发明内容

发明目的：针对现有技术的问题，本发明提供一种非平衡数据预处理方法，能够在保证对少数类预测的准确率的基础上，减少分类器对少数类的漏判。

技术方案：为解决上述技术问题，本发明的一种电网物联感知数据的预处理方法，包括以下步骤：

获取电网数据样本，将正常设备数据标为多数类样本，将异常设备数据标为少数类样本，将两类样本合并后进行缺失补充和特征归一化处理；

通过K近邻算法将样本划分为安全区间、危险区间、噪音区间、边界样本区间；

设置各区间样本的采样数量；

对落入噪音区间的样本数据进行删除；

计算危险区间内每个样本的安全系数，将安全系数高于指定阈值的样本作为采样样本；

对安全区间的少数类样本进行聚类，并设置聚类后各簇的采样数量；

对安全区间和危险区间样本合并后的边界样本区间进行BD-ENN处理。

有益效果：本发明针对现有采样方法的不足，提出了基于样本细分的混合采样方法，在数据层面，通过K邻近算法将整个数据样本细分为安全区间、危险区间、噪音区间，对于噪音区间的少数类直接删除，安全区间直接采用过采样方法生成少数类样本，危险区间使用更为精准的改进过采样方法进行采样，最后对多数类的边界样本进行一定数量的删除，使得少数类样本的决策边界变大从而获得更高的识别率。本发明还根据安全区间特征，提出了基于聚类的采样算法，根据本发明提出的密度定义分配各个少数类样本簇的采样数量，使得安全样本内部新生成的少数类样本更为均匀。

附图说明

图1为根据本发明实施例的电网物联感知数据的预处理方法流程图；

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

本发明提出的电网物联感知数据的预处理方法，将样本划分为安全区间、危险区间、噪音区间及边界样本区间，针对不同样本区间具有不同特征采用不同的处理方法，对于多数类样本使用欠采样清除部分边界样本，该方法能在一定程度上使得分类器对少数类的判断更为准确。参照图1，包括以下步骤：

步骤S1，获取电网数据样本，进行缺失补充和特征归一化处理。

物联感知电网数据集为电网环境中基于物联感知采用传感器所监控获得设备的各项信息及设备的一些时间信息，通过对其中一部分标注好正常运行设备和异常设备运行状况的数据。针对电网中智慧物联中的数据进行收集，这些数据包括：数值型：温度、湿度等，字符型：设备是否检修，设备是否通电等，缺失型数据。针对其中的缺失型数据选取随机森林算法进行填充，对特征进行归一化，把二分类特征值转化为(0,1)，有序特征序列转化为(1,2,3,4,5,6，……)，对于无序特征进行onehot编码操作。最后对数据进行随机重排，将其划分为训练集和测试集。

步骤S2，通过KNN(k-nearest neighbor classification)算法对数据进行样本区间划分。

在这里选取K＝10。一般而言，K的取值在0-20之间，取值太小，容易发生过拟合，取值太大，学习的近似误差变大，正常选8-12都可以。本发明将样本区间划分分为：安全区间、危险区间、噪音区间、边界样本区间。取少数类样本中的任一一个样本记为a，记k近邻中少数类样本的样本数量为N_p，多数类样本的样本数量为N_N，当N_p/N_N＞3，也就是a周围的少数类样本数量达到多数类样本数量的三倍时，这时候的a即为安全区间样本。当0＜N_p/N_N＜3，也就是a周围的样本中少数类的样本数量没有达到多数类样本的三倍以上，这种情况下，该样本即为危险样本，危险样本也是少数类样本中最为重要的样本。在给定的电网数据集中，其中样本类别为多数类和少数类，例如，一个时间段内一台机器正常运行的数据和出问题情况的数据，问题往往发生在很短时间内，很明显是少数类样本，这是可以事先了解的。对于样本集中任意样本点a，当N_p＝0的时侯，也就是a周围的10个最近邻样本全部为多数类样本时，a则为噪声点。所有这样的样本点的集合定义为噪音区间。取多数类样本中的任一个样本记为a，当0.8＜N_p/N_N＜1.2时，a为多数类的边界样本区间。

步骤S3，初步确定各区间的采样数量。

用X表示电网数据集，X*表示为删除噪音样本后的电网数据集，用D_N表示X*中多数类的样本数，用D_P表示X*中少数类的样本数，采样数量D。由于实际环境中的数据量远远大于实验环境中所使用的数据，所以将采样数量D设置为

即采样完成后的多数类样本和少数类样本的比例为2:1，这样可以一定程度上的节省储存空间和一定程度的上减少采样时间。噪音区间直接删除减小对分类器的影响，安全区间的样本较多记其数量为N_s，危险区间的样本较少数量为N_d，显然危险区间需要的采样数量需要远远大于安全区间的采样数量。记安全区间需要的采样数量为P_s，危险区间需要的采样数量为P_d。两者的计算公式如下：

步骤S4，进行噪音区间数据删除。

在电网数据集分类中，无论是多数类还是少数类都存在着噪音数据，这些噪音数据对于分类器的学习有着很严重的影响，尤其是少数类样本的噪音数据，如果通过该噪音数据去采样生成新的少数类样本，这些新生成的少数类样本将会降低分类器的性能，降低分类器对少数类样本识别的准确率。将其删除可以一定程度上提高分类器对于少数类样本的识别率。

步骤S5，基于危险系数对危险区间样本进行采样。

少数类样本的危险区间往往夹杂在多数类样本中间，这样的区间内的少数类样本对于分类器的学习性能的影响是很大。电网数据集中少数类样本和多数类样本的比例值很小。这种情况下，样本的边界范围有限，而又需要合成较多的少数类样本，为使得新生成的样本尽可能的落在安全区域。通过定义每个样本点的安全系数，使得新生成的样本更加接近安全系数高的样本点，并使用3-NN验证生成样本，如果有2个及以上的样本与本身不同即删除该样本，通过这种方式使生成的样本尽可能的在安全区域。记电网数据集的危险区间的少数类样本为a；记a中的任意一样本为a1。在完整数据集中找到a1的K最近邻样本，记录这K个最近邻样本中在X中的个数即为slp，取K个最近邻样本中的任意一个样本记为n。找到n的K最近邻样本，记录这K个最近邻样本中在a中的个数即为sln，记安全系数c＝slp/sln。通过安全系数来对危险区间的每个样本进行采样，能够尽可能的将样本生成在安全区域，反之，在不适当的位置，例如重叠区域和噪声区域，不会产生大量的合成实例。

根据安全系数产生新的样本具体包括：

安全系数为∞或者为0，即该样本x的周围均为多数类样本，便忽略此样本不做处理；

若安全系数为∞但slp不等于0，也就是n样本的周围都是多数类样本，此时直接复制少数类样本a1。

若安全系数为1，此时便在a1和n点之间使用smote方法合成新的样本。

若安全系数大于1，也就是a1点周围的少数样本要多于n点周围的少数类样本，a1点也就是安全点，此时让生成的样本更为偏向a1点，生成的方式为smote方法，使smote中的β＝0～1/c，通过这种方式使合成的样本偏向a1。

若安全系数小于1，也就是n点周围的少数样本要多于a1点周围的少数类样本，n点也就是安全点，此时让生成的样本更为偏向n点，生成的方式为smote方法，使smote中的β＝(1-c)～1，通过这种方式使合成的样本偏向n。

使用3-NN方法验证，如果不符合条件则删除。

步骤S6，基于聚类分析对安全区间样本进行采样。

S6-1，对安全区间样本聚类。

安全区间中的少数类样本多为聚集在一起样本，相比于危险区间的样本数量要多的多，安全区间的聚集类样本之间往往也是不平衡的，为了保证安全区间生成样本的平衡性选择使用k-means算法对安全区间的少数类样本进行聚类。k-means算法通过取簇内所有样本点的均值作为簇的形心。

其具体的处理流程如下：

(1)从安全区间少数类样本构成的集合数据集S中任取k个样本实例，将这k个实例做为k个簇的形心。

(2)接着处理S中的其他样本点，根据这些样本点和k个簇的形心的欧式距离，将样本划分到对应的簇内去。

(3)然后k-means算法会不断的进行迭代，以降低内部样本的差值，新的一轮再在各个簇内重新寻找簇心。

(4)不断重复以上工作，直到样本中的所有样本的点的簇类不再变化，k-means算法到此完成聚类。

关于k-means中k的选择，使用手肘法判断，通过SSE(sum of the squarederrors，误差平方和)来判定最好的k值。SSE数据集中所有样本的聚类误差，也就代表了本次k-means聚类的效果好坏。当k的取值变高时，整个样本会被划分的更为精细，每个聚类簇的聚合程度也会随之提升，SSE也会随之降低。当k的值小于真实的聚类簇数时，k每增加一次，每个簇的聚合程度也会大大增加，SSE也会随之骤减。而当k的值达到真实的聚类簇数时，此时再增加k的值，每个簇的聚合程度也不会有太的增加，SSE的下降趋势也会远远小于之前k未达到真实聚类簇数的速度，所以下降速度骤减的点也就是k-means实际需要的聚类簇数。在对电网数据预处理后，将k的值从1取到8，在4的时候SSE下降的速度骤减，所以k选为4。

S6-2，设置安全区间样本聚类后各簇的采样数量。

在对安全区间样本完成聚类后，需要根据各个簇的密度确定其采样数量。记i个簇为(S₁,S₂...,S_i)，记每个样本簇中的少数类数量为(N₁,N₂,...N_i)，记每个样本簇中里簇心最远的点的距离为(K₁,K₂,...K_i)，则第k个簇的密度ρ_k为

安全区间需要生成的样本数量较少，在上文中定义需要采样数量为P_s，第k个簇的采样数量也就为

确定好采样数量后，再对各个簇进行smote采样。

S6-3，进行采样。

对样本数据进行Kmeans-Smote+3-NN采样，利用聚类簇中样本数及最远样本距离计算簇的密度，稀疏的少数群体被分配了更多的合成样本，进而有效缓解类内不平衡。通过使用SMOTE产生新的少数样本而不是复制现有的少数类样本来阻止过度拟合。根据聚类中少数类的密度进行不同数量的过采样，使得样本密集的安全区间能够均匀的生成少数类样本，有利于分类器对于少数类特征的学习，经过Kmeans-Smote采样的样本并不会对边界造成过大的污染，而是以一个簇为单位集成生成新样本。

步骤S7，将安全区间和危险区间样本进行合并，对多数类的边界样本进行删除处理。

针对非平衡数据集的数据失衡率很大的问题，尤其是边界样本对分类器的学习影响很大。为了提升少数类样本的识别准确率，适当的删除多数类的边界样本，使得的少数类的边界外移，使得一部分的多数类样本被判定为少数类样本。删除的方式基于传统的最近邻规则(edited nearest neighbor:ENN)。ENN欠采样的核心思想是删除那些周围三个最邻近样本中的两个或三个与本身类别不同的样本，通过这种方式使多数类样本减少。这样的方式能够一定程度减少多数类样本，但因为多数类样本的周围大多为多数类样本所以能够删除的样本十分有限。因此本发明增加了其K值取为4，一定程度上的降低删除多数类样本的总数。适当的删除多数类的边界样本，使得的少数类的边界增大。这样做有可能使得一部分的多数类样本被判定为少数类样本，但能够进一步的提升少数类样本的识别准确率。

本发明首先使用噪音过滤的方法有效删除电网数据集噪音，为了有效提高样本的质量，接着对样本进行细分。对安全区间使用Kmeans和Smote方法对样本进行处理，对危险区间使用设置安全系数的方法对样本数据进行处理，再合并样本后对整个样本的边界样本区间进行处理，最后输出新的样本集，该样本集的数据质量得到有效提高。

基于上述所述的电网物联感知数据的预处理方法，选择某地区电网的数据集，采用决策树分类器来验证本发明提出采样算法的采样效果。由于在电网环境中需要尽可能的保证少数类样本识别的准确率，因此采用少数类的预测准确率(precision)作为一个评判标准。但只有少数类样本的准确率是不够的，还需要考虑少数类样本的识全率，通过少数类样本的召回率Recall以及从整体考虑的f1_socre作为评价标准。结果显示，本发明的方法相比与K-means和SMOTE结合的处理方法在Recall、precision、f1_socre都提升了接近5％。这是由于本发明基于样本细分的方法，基于不同的样本空间的不同特征确定了不同的采样数量，使用不同的采样算法并加入了验证规则，利用ENN欠采样的思想清除部分多数类边界，综合提升了分类器的学习效果。

Claims

1.一种电网物联感知数据的预处理方法，其特征在于，所述方法包括以下步骤：

获取电网数据样本集，并进行缺失补充和特征归一化处理；

初步确定各区间样本的采样数量；

对落入噪音区间的样本数据进行删除；

基于安全系数对危险区间的样本进行采样；

基于聚类分析对安全区间的样本进行采样；

将安全区间和危险区间样本进行合并，对边界样本区间进行处理，输出样本数据集。

2.根据权利要求1所述的电网物联感知数据的预处理方法，其特征在于，所述安全区间、危险区间、噪音区间、边界样本区间的划分方法如下：

对于样本集中任意一个样本点，记该样本点的K近邻中少数类样本的样本数量为N_p，多数类样本的样本数量为N_N；

取少数类样本中的任意一个样本记为a，当N_p/N_N＞3，也就是a周围的少数类样本数量达到多数类样本数量的三倍时，a为安全区间样本；当0＜N_p/N_N＜3时，也就是a周围的样本中少数类的样本数量没有达到多数类样本的三倍以上，该样本为危险样本；

对于任意样本点b，当N_p＝10时，也就是b周围的10个最近邻样本全部为多数类样本时，b则为噪声点，所有这样的样本点的集合定义为噪音区间；

取多数类样本中的任一个样本记为c，当0.8＜N_p/N_N＜1.2时，c为多数类的边界样本区间。

3.根据权利要求1所述的电网物联感知数据的预处理方法，其特征在于，所述初步确定各区间样本的采样数量包括：

用X表示电网数据集，X*表示为删除噪音样本后的电网数据集，用D_N表示X*中多数类的样本数，用D_P表示X*中少数类的样本数，设置采样数量

将安全区间的样本数量记为N_s，危险区间的样本数量记为N_d，安全区间需要的采样数量为P_s，危险区间需要的采样数量为P_d，两者的计算公式如下：

4.根据权利要求1所述的电网物联感知数据的预处理方法，其特征在于，所述安全系数的计算方法如下：

记电网数据集的危险区间的少数类样本集为A，记A中的任意一样本为a1，在完整数据集X中找到a1的K最近邻样本，记录这K个最近邻样本中在X中的个数记为slp，取K个最近邻样本中的任意一个样本记为n，找到n的k最近邻样本，记录这K个最近邻样本中在A中的个数记为sln，得到安全系数为c＝slp/sln。

5.根据权利要求4所述的电网物联感知数据的预处理方法，其特征在于，所述基于安全系数对危险区间的样本进行采样包括：

若安全系数为∞或者为0，即该样本的周围均为多数类样本，不做处理；

若安全系数为∞但slp不等于0，也就是n样本的周围都是多数类样本，此时直接复制少数类样本a1；

若安全系数为1，此时在a1和n点之间使用smote方法合成新的样本；

若安全系数大于1，也就是a1点周围的少数样本要多于n点周围的少数类样本，a1点为安全点，此时使用smote方法，并令smote中的β＝0～1/c，使合成的样本偏向a1；

若安全系数小于1，也就是n点周围的少数样本要多于a1点周围的少数类样本，n点为安全点，此时使用smote方法，并令smote中的β＝(1-c)～1，使合成的样本偏向n。

6.根据权利要求1所述的电网物联感知数据的预处理方法，其特征在于，所述基于聚类分析对安全区间的样本进行采样包括：对安全区间的少数类样本进行k-means聚类，k-means聚类算法通过取簇内所有样本点的均值作为簇的形心；然后设置聚类后各簇的采样数量，进行采样。

7.根据权利要求1所述的电网物联感知数据的预处理方法，其特征在于，所述设置聚类后各簇的采样数量包括：

记k-means聚类后i个簇为(S₁,S₂...,S_i)，记每个样本簇中的少数类数量为(N₁,N₂,...N_i)，记每个样本簇中里簇心最远的点的距离为(K₁,K₂,...K_i)，则第k个簇的密度ρ_k为

第k个簇的采样数量为

其中P_s为安全区间需要的采样数量。

8.根据权利要求1所述的电网物联感知数据的预处理方法，其特征在于，所述对边界样本区间进行处理包括：基于最近邻规则ENN，将多数类边界样本周围四个最邻近样本中与本身类别不同的样本进行删除。