CN112365060A - 电网物联感知数据的预处理方法 - Google Patents

电网物联感知数据的预处理方法 Download PDF

Info

Publication number
CN112365060A
CN112365060A CN202011268860.5A CN202011268860A CN112365060A CN 112365060 A CN112365060 A CN 112365060A CN 202011268860 A CN202011268860 A CN 202011268860A CN 112365060 A CN112365060 A CN 112365060A
Authority
CN
China
Prior art keywords
samples
sample
interval
safety
power grid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011268860.5A
Other languages
English (en)
Other versions
CN112365060B (zh
Inventor
黄恺彤
刘生寒
李波
肖建毅
钟苏生
李凯
梁运德
陈力
蔡嘉荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Electric Power Information Technology Co Ltd
Original Assignee
Guangdong Electric Power Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Electric Power Information Technology Co Ltd filed Critical Guangdong Electric Power Information Technology Co Ltd
Priority to CN202011268860.5A priority Critical patent/CN112365060B/zh
Publication of CN112365060A publication Critical patent/CN112365060A/zh
Application granted granted Critical
Publication of CN112365060B publication Critical patent/CN112365060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种电网物联感知数据的预处理方法。包括以下步骤:获取电网数据样本集,并进行缺失补充和特征归一化处理;通过K近邻算法将样本划分为安全区间、危险区间、噪音区间、边界样本区间;初步确定各区间样本的采样数量;对落入噪音区间的样本数据进行删除;基于安全系数对危险区间的样本进行采样;基于聚类分析对安全区间的样本进行采样;将安全区间和危险区间样本进行合并,对边界样本区间进行处理,输出样本数据集。本发明针对不同样本区间具有不同特征采用不同的处理方法,对于多数类样本使用欠采样清除部分边界样本,在一定程度上使得分类器对少数类的判断更为准确。

Description

电网物联感知数据的预处理方法
技术领域
本发明涉及电网数据处理,具体涉及一种电网物联感知数据的预处理方法。
背景技术
随着电网信息化技术不断发展,通过智能化的方法对电网运行过程中产生的数据进行采集、分析、判断,从而实现对电网运行状态的监测、故障识别、风险预判等应用已越来越多。然而在泛在电网的信息数据采集过程中,所收集到的各类别的样本数量存在严重不平衡。这是由于电网中的数据十分繁杂,除了表示温度、湿度、使用时间、出产时间等数值型特征,还有诸如设备是否检修,设备是否通电等字符类数据,而且有的设备数据中还有部分缺失。传统的分类算法对平衡的数据集都有着较好的学习效果,但如果直接使用传统分类器对非平衡数据集进行学习将会出现对少数类样误判、漏判的情况。针对电网的非平衡数据集,需要对它进行一定的处理,才能对少数类进行更为准确的识别。
为了解决非平衡数据的分类问题,研究人员提出了许多解决方案。这些解决方案主要分为以下两类:欠采样和过采样。欠采样的方法如以下参考文献[1][2][3][4],过采样的如以下参考文献[5][6][7][8][9][10],在此基础上,也有人提出混合采样的方案,如以下参考文献[11]。
[1]Tahir M A,Kittler J,Yan F.Inverse random under sampling for classimbalance problem and its application to multi-label classification[M].Elsevier Science Inc.2012.
[2]Hart B P E.The Condensed Nearest Neighbor Rule[J].IEEE Trans onInformation Theory,1968,14(3):515-516.
[3]Tomek I.Two modifications of CNN[J].IEEE Trans.Systems,Man andCybernetics,1976,6:769-772.
[4]Wilson D L.Asymptotic properties of nearest neighbor rules usingedited data[J].IEEE Transactions on Systems,Man,and Cybernetics,1972(3):408-421.
[5]Li H,Li J,Chang P C,et al.Parametric prediction on default risk ofChinese listed tourism companies by using random oversampling,isomap,andlocally linear embeddings on imbalanced samples[J].International Journal ofHospitality Management,2013,35:141-151.
[6]王超学,张涛,马春森.面向不平衡数据集的改进型SMOTE算法[J].计算机科学与探索,2014,8(6):727-734.
[7]Ramentol E,Caballero Y,Bello R,et al.SMOTE-RS B,*:a hybridpreprocessing approach based on oversampling and undersampling for highimbalanced data-sets using SMOTE and rough sets theory[J].Knowledge&Information Systems,2012,33(2):245-265.
[8]Tesfahun A,Bhaskari D L.Intrusion Detection Using Random ForestsClassifier with SMOTE and Feature Reduction[C]//International Conference onCloud&Ubiquitous Computing&Emerging Technologies.IEEE,2014:127-132.
[9]Chawla N V,Bowyer K W,Hall L O,et al.SMOTE:synthetic minorityover-sampling technique[J].Journal of Artificial Intelligence Research,2002,16:321-357.
[10]Dong Y,Wang X.A new over-sampling approach:Random-SMOTE forlearning from imbalanced data sets[C]//International Conference on KnowledgeScience,Engineering and Management.Springer-Verlag,2011:343-352.
[11]Batista G E,Prati R C,Monard M C.A study of the behavior ofseveral methods for balancing machine learning training data[J].ACM SIGKDDExplorations Newsletter,2004,6(1):20-29.
然而,现有的过采样、欠采样、混合采样都有各自的不足。包括:单纯的过采样不能够很好的根据样本的分布进行采样、单纯欠采样容易过拟合、采样的数量无法准确确定等局限。因此,有必要对电网非平衡数据的预处理方法进行改进。
发明内容
发明目的:针对现有技术的问题,本发明提供一种非平衡数据预处理方法,能够在保证对少数类预测的准确率的基础上,减少分类器对少数类的漏判。
技术方案:为解决上述技术问题,本发明的一种电网物联感知数据的预处理方法,包括以下步骤:
获取电网数据样本,将正常设备数据标为多数类样本,将异常设备数据标为少数类样本,将两类样本合并后进行缺失补充和特征归一化处理;
通过K近邻算法将样本划分为安全区间、危险区间、噪音区间、边界样本区间;
设置各区间样本的采样数量;
对落入噪音区间的样本数据进行删除;
计算危险区间内每个样本的安全系数,将安全系数高于指定阈值的样本作为采样样本;
对安全区间的少数类样本进行聚类,并设置聚类后各簇的采样数量;
对安全区间和危险区间样本合并后的边界样本区间进行BD-ENN处理。
有益效果:本发明针对现有采样方法的不足,提出了基于样本细分的混合采样方法,在数据层面,通过K邻近算法将整个数据样本细分为安全区间、危险区间、噪音区间,对于噪音区间的少数类直接删除,安全区间直接采用过采样方法生成少数类样本,危险区间使用更为精准的改进过采样方法进行采样,最后对多数类的边界样本进行一定数量的删除,使得少数类样本的决策边界变大从而获得更高的识别率。本发明还根据安全区间特征,提出了基于聚类的采样算法,根据本发明提出的密度定义分配各个少数类样本簇的采样数量,使得安全样本内部新生成的少数类样本更为均匀。
附图说明
图1为根据本发明实施例的电网物联感知数据的预处理方法流程图;
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
本发明提出的电网物联感知数据的预处理方法,将样本划分为安全区间、危险区间、噪音区间及边界样本区间,针对不同样本区间具有不同特征采用不同的处理方法,对于多数类样本使用欠采样清除部分边界样本,该方法能在一定程度上使得分类器对少数类的判断更为准确。参照图1,包括以下步骤:
步骤S1,获取电网数据样本,进行缺失补充和特征归一化处理。
物联感知电网数据集为电网环境中基于物联感知采用传感器所监控获得设备的各项信息及设备的一些时间信息,通过对其中一部分标注好正常运行设备和异常设备运行状况的数据。针对电网中智慧物联中的数据进行收集,这些数据包括:数值型:温度、湿度等,字符型:设备是否检修,设备是否通电等,缺失型数据。针对其中的缺失型数据选取随机森林算法进行填充,对特征进行归一化,把二分类特征值转化为(0,1),有序特征序列转化为(1,2,3,4,5,6,……),对于无序特征进行onehot编码操作。最后对数据进行随机重排,将其划分为训练集和测试集。
步骤S2,通过KNN(k-nearest neighbor classification)算法对数据进行样本区间划分。
在这里选取K=10。一般而言,K的取值在0-20之间,取值太小,容易发生过拟合,取值太大,学习的近似误差变大,正常选8-12都可以。本发明将样本区间划分分为:安全区间、危险区间、噪音区间、边界样本区间。取少数类样本中的任一一个样本记为a,记k近邻中少数类样本的样本数量为Np,多数类样本的样本数量为NN,当Np/NN>3,也就是a周围的少数类样本数量达到多数类样本数量的三倍时,这时候的a即为安全区间样本。当0<Np/NN<3,也就是a周围的样本中少数类的样本数量没有达到多数类样本的三倍以上,这种情况下,该样本即为危险样本,危险样本也是少数类样本中最为重要的样本。在给定的电网数据集中,其中样本类别为多数类和少数类,例如,一个时间段内一台机器正常运行的数据和出问题情况的数据,问题往往发生在很短时间内,很明显是少数类样本,这是可以事先了解的。对于样本集中任意样本点a,当Np=0的时侯,也就是a周围的10个最近邻样本全部为多数类样本时,a则为噪声点。所有这样的样本点的集合定义为噪音区间。取多数类样本中的任一个样本记为a,当0.8<Np/NN<1.2时,a为多数类的边界样本区间。
步骤S3,初步确定各区间的采样数量。
用X表示电网数据集,X*表示为删除噪音样本后的电网数据集,用DN表示X*中多数类的样本数,用DP表示X*中少数类的样本数,采样数量D。由于实际环境中的数据量远远大于实验环境中所使用的数据,所以将采样数量D设置为
Figure BDA0002777058910000041
即采样完成后的多数类样本和少数类样本的比例为2:1,这样可以一定程度上的节省储存空间和一定程度的上减少采样时间。噪音区间直接删除减小对分类器的影响,安全区间的样本较多记其数量为Ns,危险区间的样本较少数量为Nd,显然危险区间需要的采样数量需要远远大于安全区间的采样数量。记安全区间需要的采样数量为Ps,危险区间需要的采样数量为Pd。两者的计算公式如下:
Figure BDA0002777058910000042
步骤S4,进行噪音区间数据删除。
在电网数据集分类中,无论是多数类还是少数类都存在着噪音数据,这些噪音数据对于分类器的学习有着很严重的影响,尤其是少数类样本的噪音数据,如果通过该噪音数据去采样生成新的少数类样本,这些新生成的少数类样本将会降低分类器的性能,降低分类器对少数类样本识别的准确率。将其删除可以一定程度上提高分类器对于少数类样本的识别率。
步骤S5,基于危险系数对危险区间样本进行采样。
少数类样本的危险区间往往夹杂在多数类样本中间,这样的区间内的少数类样本对于分类器的学习性能的影响是很大。电网数据集中少数类样本和多数类样本的比例值很小。这种情况下,样本的边界范围有限,而又需要合成较多的少数类样本,为使得新生成的样本尽可能的落在安全区域。通过定义每个样本点的安全系数,使得新生成的样本更加接近安全系数高的样本点,并使用3-NN验证生成样本,如果有2个及以上的样本与本身不同即删除该样本,通过这种方式使生成的样本尽可能的在安全区域。记电网数据集的危险区间的少数类样本为a;记a中的任意一样本为a1。在完整数据集中找到a1的K最近邻样本,记录这K个最近邻样本中在X中的个数即为slp,取K个最近邻样本中的任意一个样本记为n。找到n的K最近邻样本,记录这K个最近邻样本中在a中的个数即为sln,记安全系数c=slp/sln。通过安全系数来对危险区间的每个样本进行采样,能够尽可能的将样本生成在安全区域,反之,在不适当的位置,例如重叠区域和噪声区域,不会产生大量的合成实例。
根据安全系数产生新的样本具体包括:
安全系数为∞或者为0,即该样本x的周围均为多数类样本,便忽略此样本不做处理;
若安全系数为∞但slp不等于0,也就是n样本的周围都是多数类样本,此时直接复制少数类样本a1。
若安全系数为1,此时便在a1和n点之间使用smote方法合成新的样本。
若安全系数大于1,也就是a1点周围的少数样本要多于n点周围的少数类样本,a1点也就是安全点,此时让生成的样本更为偏向a1点,生成的方式为smote方法,使smote中的β=0~1/c,通过这种方式使合成的样本偏向a1。
若安全系数小于1,也就是n点周围的少数样本要多于a1点周围的少数类样本,n点也就是安全点,此时让生成的样本更为偏向n点,生成的方式为smote方法,使smote中的β=(1-c)~1,通过这种方式使合成的样本偏向n。
使用3-NN方法验证,如果不符合条件则删除。
步骤S6,基于聚类分析对安全区间样本进行采样。
S6-1,对安全区间样本聚类。
安全区间中的少数类样本多为聚集在一起样本,相比于危险区间的样本数量要多的多,安全区间的聚集类样本之间往往也是不平衡的,为了保证安全区间生成样本的平衡性选择使用k-means算法对安全区间的少数类样本进行聚类。k-means算法通过取簇内所有样本点的均值作为簇的形心。
其具体的处理流程如下:
(1)从安全区间少数类样本构成的集合数据集S中任取k个样本实例,将这k个实例做为k个簇的形心。
(2)接着处理S中的其他样本点,根据这些样本点和k个簇的形心的欧式距离,将样本划分到对应的簇内去。
(3)然后k-means算法会不断的进行迭代,以降低内部样本的差值,新的一轮再在各个簇内重新寻找簇心。
(4)不断重复以上工作,直到样本中的所有样本的点的簇类不再变化,k-means算法到此完成聚类。
关于k-means中k的选择,使用手肘法判断,通过SSE(sum of the squarederrors,误差平方和)来判定最好的k值。SSE数据集中所有样本的聚类误差,也就代表了本次k-means聚类的效果好坏。当k的取值变高时,整个样本会被划分的更为精细,每个聚类簇的聚合程度也会随之提升,SSE也会随之降低。当k的值小于真实的聚类簇数时,k每增加一次,每个簇的聚合程度也会大大增加,SSE也会随之骤减。而当k的值达到真实的聚类簇数时,此时再增加k的值,每个簇的聚合程度也不会有太的增加,SSE的下降趋势也会远远小于之前k未达到真实聚类簇数的速度,所以下降速度骤减的点也就是k-means实际需要的聚类簇数。在对电网数据预处理后,将k的值从1取到8,在4的时候SSE下降的速度骤减,所以k选为4。
S6-2,设置安全区间样本聚类后各簇的采样数量。
在对安全区间样本完成聚类后,需要根据各个簇的密度确定其采样数量。记i个簇为(S1,S2...,Si),记每个样本簇中的少数类数量为(N1,N2,...Ni),记每个样本簇中里簇心最远的点的距离为(K1,K2,...Ki),则第k个簇的密度ρk
Figure BDA0002777058910000061
安全区间需要生成的样本数量较少,在上文中定义需要采样数量为Ps,第k个簇的采样数量也就为
Figure BDA0002777058910000071
确定好采样数量后,再对各个簇进行smote采样。
S6-3,进行采样。
对样本数据进行Kmeans-Smote+3-NN采样,利用聚类簇中样本数及最远样本距离计算簇的密度,稀疏的少数群体被分配了更多的合成样本,进而有效缓解类内不平衡。通过使用SMOTE产生新的少数样本而不是复制现有的少数类样本来阻止过度拟合。根据聚类中少数类的密度进行不同数量的过采样,使得样本密集的安全区间能够均匀的生成少数类样本,有利于分类器对于少数类特征的学习,经过Kmeans-Smote采样的样本并不会对边界造成过大的污染,而是以一个簇为单位集成生成新样本。
步骤S7,将安全区间和危险区间样本进行合并,对多数类的边界样本进行删除处理。
针对非平衡数据集的数据失衡率很大的问题,尤其是边界样本对分类器的学习影响很大。为了提升少数类样本的识别准确率,适当的删除多数类的边界样本,使得的少数类的边界外移,使得一部分的多数类样本被判定为少数类样本。删除的方式基于传统的最近邻规则(edited nearest neighbor:ENN)。ENN欠采样的核心思想是删除那些周围三个最邻近样本中的两个或三个与本身类别不同的样本,通过这种方式使多数类样本减少。这样的方式能够一定程度减少多数类样本,但因为多数类样本的周围大多为多数类样本所以能够删除的样本十分有限。因此本发明增加了其K值取为4,一定程度上的降低删除多数类样本的总数。适当的删除多数类的边界样本,使得的少数类的边界增大。这样做有可能使得一部分的多数类样本被判定为少数类样本,但能够进一步的提升少数类样本的识别准确率。
本发明首先使用噪音过滤的方法有效删除电网数据集噪音,为了有效提高样本的质量,接着对样本进行细分。对安全区间使用Kmeans和Smote方法对样本进行处理,对危险区间使用设置安全系数的方法对样本数据进行处理,再合并样本后对整个样本的边界样本区间进行处理,最后输出新的样本集,该样本集的数据质量得到有效提高。
基于上述所述的电网物联感知数据的预处理方法,选择某地区电网的数据集,采用决策树分类器来验证本发明提出采样算法的采样效果。由于在电网环境中需要尽可能的保证少数类样本识别的准确率,因此采用少数类的预测准确率(precision)作为一个评判标准。但只有少数类样本的准确率是不够的,还需要考虑少数类样本的识全率,通过少数类样本的召回率Recall以及从整体考虑的f1_socre作为评价标准。结果显示,本发明的方法相比与K-means和SMOTE结合的处理方法在Recall、precision、f1_socre都提升了接近5%。这是由于本发明基于样本细分的方法,基于不同的样本空间的不同特征确定了不同的采样数量,使用不同的采样算法并加入了验证规则,利用ENN欠采样的思想清除部分多数类边界,综合提升了分类器的学习效果。

Claims (8)

1.一种电网物联感知数据的预处理方法,其特征在于,所述方法包括以下步骤:
获取电网数据样本集,并进行缺失补充和特征归一化处理;
通过K近邻算法将样本划分为安全区间、危险区间、噪音区间、边界样本区间;
初步确定各区间样本的采样数量;
对落入噪音区间的样本数据进行删除;
基于安全系数对危险区间的样本进行采样;
基于聚类分析对安全区间的样本进行采样;
将安全区间和危险区间样本进行合并,对边界样本区间进行处理,输出样本数据集。
2.根据权利要求1所述的电网物联感知数据的预处理方法,其特征在于,所述安全区间、危险区间、噪音区间、边界样本区间的划分方法如下:
对于样本集中任意一个样本点,记该样本点的K近邻中少数类样本的样本数量为Np,多数类样本的样本数量为NN
取少数类样本中的任意一个样本记为a,当Np/NN>3,也就是a周围的少数类样本数量达到多数类样本数量的三倍时,a为安全区间样本;当0<Np/NN<3时,也就是a周围的样本中少数类的样本数量没有达到多数类样本的三倍以上,该样本为危险样本;
对于任意样本点b,当Np=10时,也就是b周围的10个最近邻样本全部为多数类样本时,b则为噪声点,所有这样的样本点的集合定义为噪音区间;
取多数类样本中的任一个样本记为c,当0.8<Np/NN<1.2时,c为多数类的边界样本区间。
3.根据权利要求1所述的电网物联感知数据的预处理方法,其特征在于,所述初步确定各区间样本的采样数量包括:
用X表示电网数据集,X*表示为删除噪音样本后的电网数据集,用DN表示X*中多数类的样本数,用DP表示X*中少数类的样本数,设置采样数量
Figure FDA0002777058900000011
将安全区间的样本数量记为Ns,危险区间的样本数量记为Nd,安全区间需要的采样数量为Ps,危险区间需要的采样数量为Pd,两者的计算公式如下:
Figure FDA0002777058900000021
4.根据权利要求1所述的电网物联感知数据的预处理方法,其特征在于,所述安全系数的计算方法如下:
记电网数据集的危险区间的少数类样本集为A,记A中的任意一样本为a1,在完整数据集X中找到a1的K最近邻样本,记录这K个最近邻样本中在X中的个数记为slp,取K个最近邻样本中的任意一个样本记为n,找到n的k最近邻样本,记录这K个最近邻样本中在A中的个数记为sln,得到安全系数为c=slp/sln。
5.根据权利要求4所述的电网物联感知数据的预处理方法,其特征在于,所述基于安全系数对危险区间的样本进行采样包括:
若安全系数为∞或者为0,即该样本的周围均为多数类样本,不做处理;
若安全系数为∞但slp不等于0,也就是n样本的周围都是多数类样本,此时直接复制少数类样本a1;
若安全系数为1,此时在a1和n点之间使用smote方法合成新的样本;
若安全系数大于1,也就是a1点周围的少数样本要多于n点周围的少数类样本,a1点为安全点,此时使用smote方法,并令smote中的β=0~1/c,使合成的样本偏向a1;
若安全系数小于1,也就是n点周围的少数样本要多于a1点周围的少数类样本,n点为安全点,此时使用smote方法,并令smote中的β=(1-c)~1,使合成的样本偏向n。
6.根据权利要求1所述的电网物联感知数据的预处理方法,其特征在于,所述基于聚类分析对安全区间的样本进行采样包括:对安全区间的少数类样本进行k-means聚类,k-means聚类算法通过取簇内所有样本点的均值作为簇的形心;然后设置聚类后各簇的采样数量,进行采样。
7.根据权利要求1所述的电网物联感知数据的预处理方法,其特征在于,所述设置聚类后各簇的采样数量包括:
记k-means聚类后i个簇为(S1,S2...,Si),记每个样本簇中的少数类数量为(N1,N2,...Ni),记每个样本簇中里簇心最远的点的距离为(K1,K2,...Ki),则第k个簇的密度ρk
Figure FDA0002777058900000022
第k个簇的采样数量为
Figure FDA0002777058900000023
其中Ps为安全区间需要的采样数量。
8.根据权利要求1所述的电网物联感知数据的预处理方法,其特征在于,所述对边界样本区间进行处理包括:基于最近邻规则ENN,将多数类边界样本周围四个最邻近样本中与本身类别不同的样本进行删除。
CN202011268860.5A 2020-11-13 2020-11-13 电网物联感知数据的预处理方法 Active CN112365060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011268860.5A CN112365060B (zh) 2020-11-13 2020-11-13 电网物联感知数据的预处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011268860.5A CN112365060B (zh) 2020-11-13 2020-11-13 电网物联感知数据的预处理方法

Publications (2)

Publication Number Publication Date
CN112365060A true CN112365060A (zh) 2021-02-12
CN112365060B CN112365060B (zh) 2024-01-26

Family

ID=74515542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011268860.5A Active CN112365060B (zh) 2020-11-13 2020-11-13 电网物联感知数据的预处理方法

Country Status (1)

Country Link
CN (1) CN112365060B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159516A (zh) * 2021-03-24 2021-07-23 国网浙江省电力有限公司宁波供电公司 一种基于电网运行数据的三维可视化信息分析系统
CN113568739A (zh) * 2021-07-12 2021-10-29 北京淇瑀信息科技有限公司 用户资源额度分配方法、装置及电子设备
CN114579631A (zh) * 2022-01-26 2022-06-03 苏州大学 基于概率加权过采样的社区矫正率预测系统及方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7856050B1 (en) * 2007-08-15 2010-12-21 L-3 Communications Titan Corporation Receiver and transmitter calibration to compensate for frequency dependent I/Q imbalance
CN105930856A (zh) * 2016-03-23 2016-09-07 深圳市颐通科技有限公司 基于改进dbscan-smote算法的分类方法
CN106372655A (zh) * 2016-08-26 2017-02-01 南京邮电大学 一种非平衡iptv数据集上的少数类样本的合成方法
CN107784325A (zh) * 2017-10-20 2018-03-09 河北工业大学 基于数据驱动增量融合的螺旋式故障诊断模型
CN108921208A (zh) * 2018-06-20 2018-11-30 天津大学 基于深度学习的不平衡数据的均衡采样及建模方法
CN109522936A (zh) * 2018-10-23 2019-03-26 北京邮电大学 一种基于聚类的分层最近邻欠采样方法
CN110913033A (zh) * 2019-11-19 2020-03-24 广东电力信息科技有限公司 基于cnn卷积神经网络学习的idcip地址分配方法
US20200128441A1 (en) * 2018-09-07 2020-04-23 Vmware, Inc. Service aware load imbalance detection and root cause identification
CN111091201A (zh) * 2019-12-23 2020-05-01 北京邮电大学 一种基于数据分区混合采样的不平衡集成分类方法
CN111814851A (zh) * 2020-06-24 2020-10-23 重庆邮电大学 一种基于单类支持向量机的煤矿瓦斯数据标记方法
CN111831822A (zh) * 2020-07-07 2020-10-27 华北科技学院 一种基于文本多分类混合式均分聚类采样算法的不平衡数据集文本多分类方法
CN114418034A (zh) * 2022-02-25 2022-04-29 吉林大学 一种类别不平衡样本的处理方法和系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7856050B1 (en) * 2007-08-15 2010-12-21 L-3 Communications Titan Corporation Receiver and transmitter calibration to compensate for frequency dependent I/Q imbalance
CN105930856A (zh) * 2016-03-23 2016-09-07 深圳市颐通科技有限公司 基于改进dbscan-smote算法的分类方法
CN106372655A (zh) * 2016-08-26 2017-02-01 南京邮电大学 一种非平衡iptv数据集上的少数类样本的合成方法
CN107784325A (zh) * 2017-10-20 2018-03-09 河北工业大学 基于数据驱动增量融合的螺旋式故障诊断模型
CN108921208A (zh) * 2018-06-20 2018-11-30 天津大学 基于深度学习的不平衡数据的均衡采样及建模方法
US20200128441A1 (en) * 2018-09-07 2020-04-23 Vmware, Inc. Service aware load imbalance detection and root cause identification
CN109522936A (zh) * 2018-10-23 2019-03-26 北京邮电大学 一种基于聚类的分层最近邻欠采样方法
CN110913033A (zh) * 2019-11-19 2020-03-24 广东电力信息科技有限公司 基于cnn卷积神经网络学习的idcip地址分配方法
CN111091201A (zh) * 2019-12-23 2020-05-01 北京邮电大学 一种基于数据分区混合采样的不平衡集成分类方法
CN111814851A (zh) * 2020-06-24 2020-10-23 重庆邮电大学 一种基于单类支持向量机的煤矿瓦斯数据标记方法
CN111831822A (zh) * 2020-07-07 2020-10-27 华北科技学院 一种基于文本多分类混合式均分聚类采样算法的不平衡数据集文本多分类方法
CN114418034A (zh) * 2022-02-25 2022-04-29 吉林大学 一种类别不平衡样本的处理方法和系统

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
ABHIMANYU BHOWMIK: "DBNex: Deep Belief Network and Explainable AI based Financial Fraud Detection", 2022 IEEE INTERNATIONAL CONFERENCE ON BIG DATA, pages 3033 - 3042 *
PENGFEI SUN: "SMOTE-kTLNN: A hybrid re-sampling method based on SMOTE and a two-layer nearest neighbor classifier", EXPERT SYSTEMS WITH APPLICATIONS, vol. 238, pages 1 - 23 *
YIFAN HU: "BSDGAN: Balancing Sensor Data Generative Adversarial Networks for Human Activity Recognition", 2023 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS, pages 1 - 8 *
古平: "基于混合采样的非平衡数据集分类研究", 计算机应用研究, vol. 32, no. 2, pages 379 - 381 *
张浩;陈龙;魏志强;: "基于数据增强和模型更新的异常流量检测技术", 信息网络安全, no. 02, pages 70 - 78 *
石洪波;陈雨文;陈鑫;: "SMOTE过采样及其改进算法研究综述", 智能系统学报, no. 06, pages 14 - 24 *
苏华权: "应用于不平衡数据的电力实体识别方法", 信息技术, no. 6, pages 60 - 65 *
董明刚;刘明;敬超;: "利用采样安全系数的多类不平衡过采样算法", 计算机科学与探索, no. 10, pages 161 - 171 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159516A (zh) * 2021-03-24 2021-07-23 国网浙江省电力有限公司宁波供电公司 一种基于电网运行数据的三维可视化信息分析系统
CN113568739A (zh) * 2021-07-12 2021-10-29 北京淇瑀信息科技有限公司 用户资源额度分配方法、装置及电子设备
CN114579631A (zh) * 2022-01-26 2022-06-03 苏州大学 基于概率加权过采样的社区矫正率预测系统及方法
CN114579631B (zh) * 2022-01-26 2023-04-07 苏州大学 基于概率加权过采样的社区矫正率预测系统及方法

Also Published As

Publication number Publication date
CN112365060B (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
CN112365060B (zh) 电网物联感知数据的预处理方法
Yu et al. Wafer defect pattern recognition and analysis based on convolutional neural network
CN107784325B (zh) 基于数据驱动增量融合的螺旋式故障诊断方法
CN110443281B (zh) 基于hdbscan聚类的文本分类自适应过采样方法
CN110070060B (zh) 一种轴承设备的故障诊断方法
CN110213222B (zh) 基于机器学习的网络入侵检测方法
CN111556016B (zh) 一种基于自动编码器的网络流量异常行为识别方法
CN111314353B (zh) 一种基于混合采样的网络入侵检测方法及系统
CN109816031B (zh) 一种基于数据不均衡度量的变压器状态评估聚类分析方法
CN111143838B (zh) 数据库用户异常行为检测方法
CN111340065B (zh) 一种基于复杂用户行为分析的用户负荷窃电模型挖掘系统及方法
CN112767106B (zh) 自动化审计方法、系统、计算机可读存储介质及审计设备
CN111338950A (zh) 一种基于谱聚类的软件缺陷特征选择方法
Qiu et al. A Clustering-Based optimization method for the driving cycle construction: A case study in fuzhou and Putian, China
Yuan et al. An Integrated GAN-Based Approach to Imbalanced Disk Failure Data
CN114611604A (zh) 一种基于电驱总成载荷特征融合与聚类的用户筛选方法
Pan et al. Network intrusion detection model based on PCA+ ADASYN and XGBoost
CN116582300A (zh) 基于机器学习的网络流量分类方法及装置
CN113298148B (zh) 一种面向生态环境评价的不平衡数据重采样方法
CN111984762B (zh) 一种对抗攻击敏感的文本分类方法
CN115378000A (zh) 基于区间二型模糊聚类分析的配电网运行状态评估方法
CN114529004A (zh) 基于最近邻knn和改进波函数的量子聚类方法
CN113792141A (zh) 基于协方差度量因子的特征选择方法
CN113657441A (zh) 基于加权皮尔逊相关系数并结合特征筛选的分类算法
CN113344742A (zh) 基于聚类和时序分析的自动抄表成功率影响因素分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant