CN112800917B - 一种断路器不平衡监测数据集过采样方法 - Google Patents

一种断路器不平衡监测数据集过采样方法 Download PDF

Info

Publication number
CN112800917B
CN112800917B CN202110081933.8A CN202110081933A CN112800917B CN 112800917 B CN112800917 B CN 112800917B CN 202110081933 A CN202110081933 A CN 202110081933A CN 112800917 B CN112800917 B CN 112800917B
Authority
CN
China
Prior art keywords
data set
sample
samples
neighbor
positive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110081933.8A
Other languages
English (en)
Other versions
CN112800917A (zh
Inventor
万书亭
陈磊
李少鹏
豆龙江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Electric Power University
Original Assignee
North China Electric Power University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Electric Power University filed Critical North China Electric Power University
Priority to CN202110081933.8A priority Critical patent/CN112800917B/zh
Publication of CN112800917A publication Critical patent/CN112800917A/zh
Application granted granted Critical
Publication of CN112800917B publication Critical patent/CN112800917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R31/00Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
    • G01R31/327Testing of circuit interrupters, switches or circuit-breakers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • G06F2218/04Denoising

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Remote Monitoring And Control Of Power-Distribution Networks (AREA)
  • Testing Of Short-Circuits, Discontinuities, Leakage, Or Incorrect Line Connections (AREA)

Abstract

本发明公开了一种断路器不平衡监测数据集过采样方法,包括以下内容:采集断路器不平衡监测数据,获取监测样本数据集S;根据所述监测样本数据集S中不同状态类别对应的样本数量,对状态类别进行排序;将样本数量最多的状态类别作为多数类别,其余类别均作为少数类别;按照顺序依次对所述少数类别进行过采样,直至所有的所述少数类别均被过采样;每次过采样所采集到的新样本均补入当前监测样本数据集内,生成新的监测样本数据集,根据新的监测样本数据集进行下一个少数类别的过采样。

Description

一种断路器不平衡监测数据集过采样方法
技术领域
本发明涉及机器学习技术领域,更具体的说是涉及一种断路器不平衡监测数据集过采样方法。
背景技术
近年来,基于机器学习技术的断路器智能故障诊断得到了广泛的研究与关注。该诊断方法可以根据所监测的信号自动的诊断断路器是否故障,并提前预警。该诊断方法的核心是依赖于令人满意的监测数据集来训练诊断模型,以确保高诊断性能。一个令人满意的数据集不仅意味着有足够的监测数据和较少的噪声,还意味着不同的状态类别有着相当的样本数量。
然而,在实际应用中,高压断路器在其整个寿命期的大部分时间内都处于正常运行状态,因此缺乏足够数量的故障样本数据,这就导致了监测数据的类别不平衡问题。而传统的机器学习技术往往偏向于多数类别(正常状态),以保证分类准确率,受此影响,少数类别(故障类别)的诊断结果可能较差。假设存在一个仅包含正常状态和一种故障状态的断路器监测数据集,正常状态样本数量为90,故障样本数量为10,也就是不平衡比为9:1。即使所有样本都被归为正常状态,也就是说故障样本全部被错误分类,分类准确率仍高达90%。但这是没有意义的,因为在断路器故障诊断中,应该更关注于故障的识别准确率。因此,迫切需要提高在断路器监测数据类别不平衡情况下的故障识别准确率。
在机器学习领域,数据重采样(包括过采样和欠采样)通常用于解决数据不平衡问题,即通过生成少数类别新样本或删除多数类别样本来平衡数据。一般来说,过采样比欠采样表现更好,这是由于欠采样可能会删除一些重要样本,从而导致机器学习性能的下降。SMOTE是最经典的过采样技术。它在随机选取的少数类样本与其同类近邻之间生成新样本。然而,SMOTE在生成新样本时没有考虑原始数据的分布,有增加噪声样本和无效生成的风险。虽然一些改进算法,如Borderline-SMOTE和ADASYN相继被提出,但是它们一方面存在算法容易退化为SMOTE的问题。另一方面在生成新样本时仅从少数类别与其同类近邻中生成新样本,当少数类别样本较少时,可能会导致大量的无效新样本被生成。
因此,如何提出一种效果好准确率高的断路器不平衡监测数据集过采样方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种断路器不平衡监测数据集过采样方法,用于通过新的机器学习的方法解决现有技术中断路器监测数据的类别不平衡问题的问题。
为了实现上述目的,本发明采用如下技术方案:
一种断路器不平衡监测数据集过采样方法,包括以下内容:
采集断路器不平衡监测数据,获取监测样本数据集S;
根据所述监测样本数据集S中不同状态类别对应的样本数量,对状态类别进行排序;将数量最多的状态类别作为多数类别,其余类别均作为少数类别;
按照顺序依次对所述少数类别进行过采样,直至所有的所述少数类别均被过采样;每次过采样所采集到的新样本均补入当前监测样本数据集内,生成新的监测样本数据集,根据新的监测样本数据集进行下一个少数类别的过采样;
所述过采样的步骤包括:
S1.确定每一个所述少数类别需要生成的新样本数量;对于每一个所述少数类别,将当前待生成新样本的少数类别设为正类别,所有其余的类别均设为负类别;
S2.从当前正类别数据集Sp中去除噪声样本;
S3.获取去除噪声后的样本数据集Spf的负类k近邻数据集Sbn;获取所述负类k近邻数据集Sbn的正类k近邻数据集Sbpf
S4.为所述正类k近邻数据集Sbpf中的样本分配不同的权重,根据所述权重获取正类k近邻数据集Sbpf中每个样本所要生成的新样本数量;
S5.在所述正类k近邻数据集Sbpf中的样本与其正类邻域和负类邻域间随机线性插值生成新样本,并将生成的新样本加入到监测数据集S中;
S6.重复步骤S1-S5直到所有的少数类别均被过采样。
优选的,采集断路器不平衡监测数据,获取监测样本数据集S的具体内容包括:将断路器合闸过程中的振动信号作为监测信号,采集不同状态下的振动信号组成监测样本数据集S={xi,yi},其中xi为样本数据,yi为xi所对应的状态类别。
优选的,S1中每一个少数类别需要生成的样本数量G为其与多数类别所对应的样本数量之间的差值。
优选的,S2的具体内容包括:
根据欧氏距离针对每一个正类样本搜索其k近邻NN(xi),如果当前正类样本的k近邻NN(xi)中没有正类近邻,则样本为噪声样本,从数据集中去除;剩余样本组合成新的数据集Spf,表示为:
Spf=Sp-Snoise (1)
其中,Sp为当前正类别样本数据集,SnoiSe为噪声。
优选的,S3的具体内容包括:
搜索所述数据集Spf中每一个样本的负类k近邻NNn(xi),所述数据集Spf中所有样本的负类k近邻组合为负类k近邻数据集Sbn
搜索所述负类k近邻数据集Sbn中每一个样本的正类k近邻NNp(yi),所述负类k近邻数据集Sbn中所有样本的正类k近邻组合为正类k近邻数据集Sbpf,所述正类k近邻数据集Sbpf中包括所有难以被学习的正类样本。
优选的,S4的具体内容包括:
计算样本所在区域的样本密度,计算方法为:
Figure BDA0002909675170000041
其中,NNp(xi)m表示样本xi的第m个正类近邻,k为样本xi的近邻总数;归一化样本密度,为所述正类k近邻数据集Sbpf中的每个样本分配权重
Figure BDA0002909675170000042
Figure BDA0002909675170000043
其中,n为正类k近邻数据集Sbpf中样本总数量;
所述正类k近邻数据集Sbpf中的每个样本要生成的样本数量gi为:
Figure BDA0002909675170000044
优选的,S5的具体内容包括:
在所述正类k近邻数据集Sbpf中的每个样本与其正类近邻间随机线性插值生成新样本,要生成的样本数量
Figure BDA0002909675170000045
为:
Figure BDA0002909675170000046
其中,
Figure BDA0002909675170000047
表示样本xi的k近邻中负类近邻所占比例;k近邻中的负类近邻越多,要生成的新样本越多;
新样本
Figure BDA0002909675170000048
的生成方法为:
Figure BDA0002909675170000049
其中,NNp(xi)j表示随机抽取的样本xi的某个正类近邻,λ是一个随机数,范围为[0,1];
在所述正类k近邻数据集Sbpf中的每个样本与其负类近邻间随机线性插值生成新样本,要生成的样本数量
Figure BDA0002909675170000051
为:
Figure BDA0002909675170000052
新样本
Figure BDA0002909675170000053
的生成方法为:
Figure BDA0002909675170000054
其中,NNn(xi)l表示随机抽取的样本xi的某个负类近邻,设置常数0.5是为了使得生成的新样本靠近正类样本;
将当前少数类别过采样生成的新样本加入所述到监测数据集S中。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种断路器不平衡监测数据集过采样方法,该方法将数据集中不同的类别分为多数类别和少数类别,针对少数类别进行过采样直至每一个少数类别均被过采样,能够有效实现增加样本数量,且步骤简单,应用于实际应用时更加高效。不平衡监测数据集经过采样后,不同类别间样本数量等同,可以有效避免机器学习算法在训练时的偏向性,从而提高诊断模型的准确性。与经典SMOTE方法相比,本发明中过采样方法充分考虑原始数据的分布,通过双向查找策略找到分类边界上难以被学习的少数类样本,重点对上述难以被学习的少数类样本实施过采样,在生成新样本时考虑同时从其同类近邻及其异类近邻中生成新样本,有助于补充有效分类信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明提供的一种断路器不平衡监测数据集过采样方法流程图;
图2附图为本发明提供的一种断路器不平衡监测数据集过采样方法中去除噪声及获取负类k近邻数据集Sbn过程示意图;
图3附图为本发明提供的一种断路器不平衡监测数据集过采样方法中获取正类k近邻数据集Sbpf过程示意图;
图4附图为本发明提供的一种断路器不平衡监测数据集过采样方法中生成新样本过程示意图;
图5附图为本发明实施例一中不平衡监测数据集特征分布图;
图6附图为本发明实施例一中不平衡监测数据集过采样后特征分布图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种断路器不平衡监测数据集过采样方法,如图1所示,包括以下内容:
采集断路器不平衡监测数据,获取监测样本数据集S;
根据监测样本数据集S中不同状态类别对应的样本数量,对状态类别进行排序;将数量最多的状态类别作为多数类别,其余类别均作为少数类别;
按照顺序依次对少数类别进行过采样,直至所有的少数类别均被过采样;每次过采样所采集到的新样本均补入当前监测样本数据集内,生成新的监测样本数据集,根据新的监测样本数据集进行下一个少数类别的过采样;
过采样的步骤包括:
S1.确定每一个少数类别需要生成的新样本数量;对于每一个少数类别,将当前待生成新样本的少数类别设为正类别,所有其余的类别均设为负类别;
S2.从当前正类别数据集Sp中去除噪声样本;
S3.获取去除噪声后的样本数据集Spf的负类k近邻数据集Sbn;获取负类k近邻数据集Sbn的正类k近邻数据集Sbpf;其中,负类k近邻即从负类别中找样本的k近邻,正类k近邻即从正类别中找样本的k近邻;
S4.为正类k近邻数据集Sbpf中的样本分配不同的权重,根据权重获取正类k近邻数据集Sbpf中每个样本所要生成的新样本数量;
S5.在正类k近邻数据集Sbpf中的样本与其正类近邻和负类近邻间随机线性插值生成新样本,并将生成的新样本加入到监测数据集S中。其中,正类近邻即为近邻在正类别中,负类近邻即为近邻在负类别中。
S6.重复步骤S1-S5直到所有的少数类别均被过采样。
为了进一步实施上述技术方案,采集断路器不平衡监测数据,获取监测样本数据集S的具体内容包括:将断路器合闸过程中的振动信号作为监测信号,采集不同状态下的振动信号组成监测样本数据集S={xi,yi},其中xi为样本数据,yi为xi所对应的状态类别。
为了进一步实施上述技术方案,S1中每一个少数类别需要生成的样本数量G为其与多数类别所对应的样本数量之间的差值。
为了进一步实施上述技术方案,如图2所示,S2的具体内容包括:
根据欧氏距离针对每一个正类样本搜索k近邻NN(xi),如果当前正类样本的k近邻NN(xi)中没有正类近邻,即属于正类别的样本,则样本为噪声样本,从数据集中去除;剩余样本组合成新的数据集Spf,表示为:
Spf=Sp-Snoise (1)
其中,Sp为当前正类别数据集,SnoiSe为噪声。
为了进一步实施上述技术方案,S3的具体内容包括:
如图2所示,搜索数据集Spf中每一个样本的负类k近邻NNn(xi),数据集Spf中所有样本的负类k近邻组合为负类k近邻数据集Sbn
如图3所示,搜索负类k近邻数据集Sbn中每一个样本的正类k近邻NNp(yi),负类k近邻数据集Sbn中所有样本的正类k近邻组合为正类k近邻数据集Sbpf,正类k近邻数据集Sbpf中包括所有难以被学习的正类样本。
为了进一步实施上述技术方案,S4的具体内容包括:
计算样本所在区域的样本密度,计算方法为:
Figure BDA0002909675170000081
其中,NNp(xi)m表示样本xi的第m个正类近邻,k为样本xi的近邻总数。
归一化样本密度,为正类k近邻数据集Sbpf中的每个样本分配权重w1 i
Figure BDA0002909675170000082
其中,n为正类k近邻数据集Sbpf中样本总数量;
正类k近邻数据集Sbpf中的每个样本要生成的样本数量gi为:
Figure BDA0002909675170000083
为了进一步实施上述技术方案,S5的具体内容包括:
在正类k近邻数据集Sbpf中的每个样本与其正类近邻间随机线性插值生成新样本,要生成的样本数量
Figure BDA0002909675170000084
为:
Figure BDA0002909675170000091
其中,
Figure BDA0002909675170000092
表示样本xi的k近邻中负类近邻所占比例;k近邻中的负类近邻越多,要生成的新样本越多;
新样本
Figure BDA0002909675170000093
的生成方法为:
Figure BDA0002909675170000094
其中,NNp(xi)j表示随机抽取的样本xi的某个正类近邻,λ是一个随机数,范围为[0,1];
在正类k近邻数据集Sbpf中的每个样本与其负类近邻间随机线性插值生成新样本,要生成的样本数量
Figure BDA0002909675170000095
为:
Figure BDA0002909675170000096
新样本
Figure BDA0002909675170000097
的生成方法为:
Figure BDA0002909675170000098
其中,NNn(xi)l表示随机抽取的样本xi的某个负类近邻,设置常数0.5是为了使得生成的新样本靠近正类样本。
将当前少数类别过采样生成的新样本加入到监测数据集S中。
下面将根据实例来进一步对本发明进行说明:
实施例一:
采集断路器不平衡监测数据集。将断路器合闸过程中的振动信号作为监测信号,采集不同状态下的振动信号组成不平衡数据集S={xi,yi},其中xi为样本数据,yi为xi所对应的状态类别。具体地,采集正常状态下的振动信号60组,采集合闸弹簧疲劳(故障1)、基座螺丝松动(故障2)、分闸弹簧疲劳(故障3)下的振动信号各30组,因此一个类别不平衡比为2:1的不平衡数据集建立。提取振动信号的分段能量熵,特征如附图5所示。
对正常状态和故障状态按照其样本数量进行降序排序。重新排序后的状态顺序为,正常状态,故障1,故障2,故障3。正常状态被设为多数类别,故障1,故障2,故障3均被设为少数类别。
确定每一个少数类别需要生成的新样本数量。对于每一个少数类别,需要生成的样本数量为其与正常状态样本数量的差值:G=60-30=30。
首先对故障1进行过采样,采用“一对多”策略,故障1被认为为正类,其余类别组合为负类,对于每一个正类样本,根据欧氏距离搜索其5近邻,如果5近邻中没有正类近邻,则该样本为噪声样本,从故障1中去除。
通过双向查找策略找到分类边界上难以被学习的正类样本。
根据样本所在区域样本密度为这些难以被学习的正类样本分配不同的权重以决定它们要生成的新样本数量。最后在难以被学习的正类样本与其正类近邻和负类近邻间随机线性插值生成新样本。
故障1过采样完成后,将生成的新样本加入到监测数据集中,对故障2进行过采样,过采样过程与故障1的过采样过程相同。同样地,对故障3进行过采样。
过采样完成后,监测数据类别不平衡问题得到解决,平衡后的数据集如附图6所示,新样本被圆圈所包围。
为测试本发明所述过采样算法效果,将平衡后的数据集输入到机器学习方法中以训练智能诊断模型。分别采用极限学习机(ELM),随机森林(RF),广义回归神经网络(GRNN),BP神经网络(BPNN)测试本发明所述过采样算法效果,并对比不采用任何采样方法、和采用SMOTE,Borderline-SMOTE,ADASYN方法的诊断结果。其中,原始不平衡监测数据集中每种状态下80%的样本被随机选取组成训练集,剩余样本组成测试集。对训练集实施过采样以平衡样本数量,利用平衡后的训练集训练上述机器学习算法以建立诊断模型,最后,将测试集输入到诊断模型中分类以验证所述过采样方法的有效性。总共进行30次试验。采用G-mean作为评价指标,30次试验平均诊断结果如表1。
可以看出,无论结合哪一种机器学习方法,本本发明所提出的方法在断路器不平衡监测数据集中的表现相比SMOTE,Borderline-SMOTE,ADASYN在G-mean值上有明显提高。
表1平均诊断结果
Figure BDA0002909675170000111
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种断路器不平衡监测数据集过采样方法,其特征在于,包括以下内容:
采集断路器不平衡监测数据,获取监测样本数据集S;
根据所述监测样本数据集S中不同状态类别对应的样本数量,对状态类别进行排序;将数量最多的状态类别作为多数类别,其余类别均作为少数类别;
按照顺序依次对所述少数类别进行过采样,直至所有的所述少数类别均被过采样;每次过采样所采集到的新样本均补入当前监测样本数据集内,生成新的监测样本数据集,根据新的监测样本数据集进行下一个少数类别的过采样;
所述过采样的步骤包括:
S1.确定每一个所述少数类别需要生成的新样本数量G;对于每一个所述少数类别,将当前待生成新样本的少数类别设为正类别,所有其余的类别均设为负类别;
S2.从当前正类别数据集Sp中去除噪声样本;
S3.获取去除噪声后的样本数据集Spf的负类k近邻数据集Sbn;获取所述负类k近邻数据集Sbn的正类k近邻数据集Sbpf
S4.为所述正类k近邻数据集Sbpf中的样本分配不同的权重,根据所述权重获取正类k近邻数据集Sbpf中每个样本所要生成的新样本数量;
S4的具体内容包括:
计算样本所在区域的样本密度,计算方法为:
Figure FDA0003635910130000011
其中,NNp(xi)m表示样本xi的第m个正类近邻,k为样本xi近邻总数;
归一化样本密度,为所述正类k近邻数据集Sbpf中的每个样本分配权重
Figure FDA0003635910130000012
Figure FDA0003635910130000013
其中,n为正类k近邻数据集Sbpf中样本总数量;yi为xi所对应的状态类别;所述正类k近邻数据集Sbpf中的每个样本要生成的样本数量gi为:
Figure FDA0003635910130000021
S5.在所述正类k近邻数据集Sbpf中的样本与其正类近邻和负类近邻间随机线性插值生成新样本,并将生成的新样本加入到监测数据集S中;
S6.重复步骤S1-S5直至所有的少数类别均被过采样。
2.根据权利要求1所述的一种断路器不平衡监测数据集过采样方法,其特征在于,采集断路器不平衡监测数据,获取监测样本数据集S的具体内容包括:将断路器合闸过程中的振动信号作为监测信号,采集不同状态下的振动信号组成监测样本数据集S={xi,yi},其中xi为样本数据,yi为xi所对应的状态类别。
3.根据权利要求2所述的一种断路器不平衡监测数据集过采样方法,其特征在于,S1中每一个少数类别需要生成的样本数量G为其与多数类别所对应的样本数量之间的差值。
4.根据权利要求3所述的一种断路器不平衡监测数据集过采样方法,其特征在于,S2的具体内容包括:
根据欧氏距离针对每一个正类样本搜索其k近邻NN(xi),如果当前正类样本的k近邻NN(xi)中没有正类近邻,则样本为噪声样本,从数据集中去除;剩余样本组合成新的数据集Spf,表示为:
Spf=Sp-Snoise (1)
其中,Sp为当前正类别数据集,SnoiSe为噪声。
5.根据权利要求4所述的一种断路器不平衡监测数据集过采样方法,其特征在于,S3的具体内容包括:
搜索所述数据集Spf中每一个样本的负类k近邻NNn(xi),所述数据集Spf中所有样本的负类k近邻组合为负类k近邻数据集Sbn
搜索所述负类k近邻数据集Sbn中每一个样本的正类k近邻NNp(yi),所述负类k近邻数据集Sbn中所有样本的正类k近邻组合为正类k近邻数据集Sbpf,所述正类k近邻数据集Sbpf中包括所有难以被学习的正类样本。
6.根据权利要求1所述的一种断路器不平衡监测数据集过采样方法,其特征在于,S5的具体内容包括:
在所述正类k近邻数据集Sbpf中的每个样本与其正类近邻间随机线性插值生成新样本,要生成的样本数量
Figure FDA0003635910130000031
为:
Figure FDA0003635910130000032
其中,
Figure FDA0003635910130000033
表示样本xi的k近邻中负类近邻所占比例;k近邻中的负类近邻越多,要生成的新样本越多;
新样本
Figure FDA0003635910130000034
的生成方法为:
Figure FDA0003635910130000035
其中,NNp(xi)j表示随机抽取的样本xi的某个正类近邻,λ是一个随机数,范围为[0,1];
在所述正类k近邻数据集Sbpf中的每个样本与其负类近邻间随机线性插值生成新样本,要生成的样本数量
Figure FDA0003635910130000036
为:
Figure FDA0003635910130000037
新样本
Figure FDA0003635910130000038
的生成方法为:
Figure FDA0003635910130000039
其中,NNn(xi)l表示随机抽取的样本xi的某个负类近邻;
将当前少数类别过采样生成的新样本加入到所述监测数据集S中。
CN202110081933.8A 2021-01-21 2021-01-21 一种断路器不平衡监测数据集过采样方法 Active CN112800917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110081933.8A CN112800917B (zh) 2021-01-21 2021-01-21 一种断路器不平衡监测数据集过采样方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110081933.8A CN112800917B (zh) 2021-01-21 2021-01-21 一种断路器不平衡监测数据集过采样方法

Publications (2)

Publication Number Publication Date
CN112800917A CN112800917A (zh) 2021-05-14
CN112800917B true CN112800917B (zh) 2022-07-19

Family

ID=75811056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110081933.8A Active CN112800917B (zh) 2021-01-21 2021-01-21 一种断路器不平衡监测数据集过采样方法

Country Status (1)

Country Link
CN (1) CN112800917B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492673A (zh) * 2018-10-19 2019-03-19 南京理工大学 一种基于谱聚类采样的不平衡数据预测方法
CN109871862A (zh) * 2018-12-28 2019-06-11 北京航天测控技术有限公司 一种基于合成少数类过采样和深度学习的故障预测方法
CN110443281A (zh) * 2019-07-05 2019-11-12 重庆信科设计有限公司 基于hdbscan聚类的自适应过采样方法
CN111091201A (zh) * 2019-12-23 2020-05-01 北京邮电大学 一种基于数据分区混合采样的不平衡集成分类方法
CN111259964A (zh) * 2020-01-17 2020-06-09 上海海事大学 一种不平衡数据集的过采样方法
CN111259924A (zh) * 2020-01-07 2020-06-09 吉林大学 一种边界合成、混合采样、异常检测算法及数据分类方法
CN111626336A (zh) * 2020-04-29 2020-09-04 南京理工大学 一种基于不平衡数据集的地铁故障数据分类方法
CN111967520A (zh) * 2020-08-18 2020-11-20 黑龙江大学 一种基于改进的smote算法的不平衡数据处理方法
CN112070125A (zh) * 2020-08-19 2020-12-11 西安理工大学 一种基于孤立森林学习的不平衡数据集的预测方法
CN112115992A (zh) * 2020-09-10 2020-12-22 西北工业大学 基于聚类过采样与实例硬度阈值的数据重采样方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492673A (zh) * 2018-10-19 2019-03-19 南京理工大学 一种基于谱聚类采样的不平衡数据预测方法
CN109871862A (zh) * 2018-12-28 2019-06-11 北京航天测控技术有限公司 一种基于合成少数类过采样和深度学习的故障预测方法
CN110443281A (zh) * 2019-07-05 2019-11-12 重庆信科设计有限公司 基于hdbscan聚类的自适应过采样方法
CN111091201A (zh) * 2019-12-23 2020-05-01 北京邮电大学 一种基于数据分区混合采样的不平衡集成分类方法
CN111259924A (zh) * 2020-01-07 2020-06-09 吉林大学 一种边界合成、混合采样、异常检测算法及数据分类方法
CN111259964A (zh) * 2020-01-17 2020-06-09 上海海事大学 一种不平衡数据集的过采样方法
CN111626336A (zh) * 2020-04-29 2020-09-04 南京理工大学 一种基于不平衡数据集的地铁故障数据分类方法
CN111967520A (zh) * 2020-08-18 2020-11-20 黑龙江大学 一种基于改进的smote算法的不平衡数据处理方法
CN112070125A (zh) * 2020-08-19 2020-12-11 西安理工大学 一种基于孤立森林学习的不平衡数据集的预测方法
CN112115992A (zh) * 2020-09-10 2020-12-22 西北工业大学 基于聚类过采样与实例硬度阈值的数据重采样方法

Also Published As

Publication number Publication date
CN112800917A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
Wang et al. ArcNet: Series AC arc fault detection based on raw current and convolutional neural network
Wu et al. Induction machine fault detection using SOM-based RBF neural networks
CN111722145B (zh) 一种同步电机励磁绕组匝间短路轻度故障诊断方法
CN103645249B (zh) 基于精简集下采样不均衡svm变压器在线故障检测方法
CN113505655B (zh) 面向数字孪生系统的轴承故障智能诊断方法
CN110044623B (zh) 经验模态分解剩余信号特征的滚动轴承故障智能识别方法
CN108333468B (zh) 一种有源配电网下不良数据的识别方法及装置
CN106021771A (zh) 一种故障诊断方法及装置
CN111238843B (zh) 一种基于快速谱峭度分析的风机健康评价方法
CN108647707B (zh) 概率神经网络创建方法、故障诊断方法及装置、存储介质
CN109034220A (zh) 一种基于最优旋转森林的智能光伏阵列故障诊断方法
CN109165604A (zh) 基于协同训练的非侵入式负荷识别方法及其测试系统
CN102736027A (zh) 一种基于断路器动特性测试仪的断路器故障诊断方法
CN116226646B (zh) 轴承健康状态及剩余寿命的预测方法、系统、设备及介质
CN111553495A (zh) 一种基于概率神经网络的小型断路器故障分析方法
CN108898182A (zh) 一种基于核主元分析与支持向量机的mmc故障诊断方法
Harish et al. Fault detection and classification for wide area backup protection of power transmission lines using weighted extreme learning machine
CN115712871A (zh) 一种结合重采样和集成学习的电力电子系统故障诊断方法
CN115877205A (zh) 一种伺服电机的故障智能诊断系统及其诊断方法
CN114819315A (zh) 基于多参数融合健康因子和时间卷积神经网络的轴承退化趋势预测方法
CN112800917B (zh) 一种断路器不平衡监测数据集过采样方法
CN117076871B (zh) 一种基于不平衡半监督对抗训练框架的电池故障分类方法
WO2024113909A1 (zh) 电池的电芯故障检测方法、装置、电子设备及存储介质
CN116298881B (zh) 基于通道注意力多模块lmmd的电信号电机健康预警方法
Liu et al. Fault diagnosis method of rolling bearing based on the multiple features of LMD and random forest

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant