CN112800917B

CN112800917B - 一种断路器不平衡监测数据集过采样方法

Info

Publication number: CN112800917B
Application number: CN202110081933.8A
Authority: CN
Inventors: 万书亭; 陈磊; 李少鹏; 豆龙江
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2022-07-19
Anticipated expiration: 2041-01-21
Also published as: CN112800917A

Abstract

本发明公开了一种断路器不平衡监测数据集过采样方法，包括以下内容：采集断路器不平衡监测数据，获取监测样本数据集S；根据所述监测样本数据集S中不同状态类别对应的样本数量，对状态类别进行排序；将样本数量最多的状态类别作为多数类别，其余类别均作为少数类别；按照顺序依次对所述少数类别进行过采样，直至所有的所述少数类别均被过采样；每次过采样所采集到的新样本均补入当前监测样本数据集内，生成新的监测样本数据集，根据新的监测样本数据集进行下一个少数类别的过采样。

Description

一种断路器不平衡监测数据集过采样方法

技术领域

本发明涉及机器学习技术领域，更具体的说是涉及一种断路器不平衡监测数据集过采样方法。

背景技术

近年来，基于机器学习技术的断路器智能故障诊断得到了广泛的研究与关注。该诊断方法可以根据所监测的信号自动的诊断断路器是否故障，并提前预警。该诊断方法的核心是依赖于令人满意的监测数据集来训练诊断模型，以确保高诊断性能。一个令人满意的数据集不仅意味着有足够的监测数据和较少的噪声，还意味着不同的状态类别有着相当的样本数量。

然而，在实际应用中，高压断路器在其整个寿命期的大部分时间内都处于正常运行状态，因此缺乏足够数量的故障样本数据，这就导致了监测数据的类别不平衡问题。而传统的机器学习技术往往偏向于多数类别(正常状态)，以保证分类准确率，受此影响，少数类别(故障类别)的诊断结果可能较差。假设存在一个仅包含正常状态和一种故障状态的断路器监测数据集，正常状态样本数量为90，故障样本数量为10，也就是不平衡比为9:1。即使所有样本都被归为正常状态，也就是说故障样本全部被错误分类，分类准确率仍高达90％。但这是没有意义的，因为在断路器故障诊断中，应该更关注于故障的识别准确率。因此，迫切需要提高在断路器监测数据类别不平衡情况下的故障识别准确率。

在机器学习领域，数据重采样(包括过采样和欠采样)通常用于解决数据不平衡问题，即通过生成少数类别新样本或删除多数类别样本来平衡数据。一般来说，过采样比欠采样表现更好，这是由于欠采样可能会删除一些重要样本，从而导致机器学习性能的下降。SMOTE是最经典的过采样技术。它在随机选取的少数类样本与其同类近邻之间生成新样本。然而，SMOTE在生成新样本时没有考虑原始数据的分布，有增加噪声样本和无效生成的风险。虽然一些改进算法，如Borderline-SMOTE和ADASYN相继被提出，但是它们一方面存在算法容易退化为SMOTE的问题。另一方面在生成新样本时仅从少数类别与其同类近邻中生成新样本，当少数类别样本较少时，可能会导致大量的无效新样本被生成。

因此，如何提出一种效果好准确率高的断路器不平衡监测数据集过采样方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种断路器不平衡监测数据集过采样方法，用于通过新的机器学习的方法解决现有技术中断路器监测数据的类别不平衡问题的问题。

为了实现上述目的，本发明采用如下技术方案：

一种断路器不平衡监测数据集过采样方法，包括以下内容：

采集断路器不平衡监测数据，获取监测样本数据集S；

根据所述监测样本数据集S中不同状态类别对应的样本数量，对状态类别进行排序；将数量最多的状态类别作为多数类别，其余类别均作为少数类别；

按照顺序依次对所述少数类别进行过采样，直至所有的所述少数类别均被过采样；每次过采样所采集到的新样本均补入当前监测样本数据集内，生成新的监测样本数据集，根据新的监测样本数据集进行下一个少数类别的过采样；

所述过采样的步骤包括：

S1.确定每一个所述少数类别需要生成的新样本数量；对于每一个所述少数类别，将当前待生成新样本的少数类别设为正类别，所有其余的类别均设为负类别；

S2.从当前正类别数据集S_p中去除噪声样本；

S3.获取去除噪声后的样本数据集S_pf的负类k近邻数据集S_bn；获取所述负类k近邻数据集S_bn的正类k近邻数据集S_bpf；

S4.为所述正类k近邻数据集S_bpf中的样本分配不同的权重，根据所述权重获取正类k近邻数据集S_bpf中每个样本所要生成的新样本数量；

S5.在所述正类k近邻数据集S_bpf中的样本与其正类邻域和负类邻域间随机线性插值生成新样本，并将生成的新样本加入到监测数据集S中；

S6.重复步骤S1-S5直到所有的少数类别均被过采样。

优选的，采集断路器不平衡监测数据，获取监测样本数据集S的具体内容包括：将断路器合闸过程中的振动信号作为监测信号，采集不同状态下的振动信号组成监测样本数据集S＝{xi,yi},其中x_i为样本数据，y_i为x_i所对应的状态类别。

优选的，S1中每一个少数类别需要生成的样本数量G为其与多数类别所对应的样本数量之间的差值。

优选的，S2的具体内容包括：

根据欧氏距离针对每一个正类样本搜索其k近邻NN(x_i)，如果当前正类样本的k近邻NN(x_i)中没有正类近邻，则样本为噪声样本，从数据集中去除；剩余样本组合成新的数据集S_pf，表示为：

S_pf＝S_p-S_noise (1)

其中，S_p为当前正类别样本数据集，S_noiSe为噪声。

优选的，S3的具体内容包括：

搜索所述数据集S_pf中每一个样本的负类k近邻NN_n(x_i)，所述数据集S_pf中所有样本的负类k近邻组合为负类k近邻数据集S_bn；

搜索所述负类k近邻数据集S_bn中每一个样本的正类k近邻NN_p(y_i)，所述负类k近邻数据集S_bn中所有样本的正类k近邻组合为正类k近邻数据集S_bpf，所述正类k近邻数据集S_bpf中包括所有难以被学习的正类样本。

优选的，S4的具体内容包括：

计算样本所在区域的样本密度，计算方法为：

其中，NN_p(x_i)^m表示样本x_i的第m个正类近邻，k为样本x_i的近邻总数；归一化样本密度，为所述正类k近邻数据集S_bpf中的每个样本分配权重

其中，n为正类k近邻数据集S_bpf中样本总数量；

所述正类k近邻数据集S_bpf中的每个样本要生成的样本数量g_i为：

优选的，S5的具体内容包括：

在所述正类k近邻数据集S_bpf中的每个样本与其正类近邻间随机线性插值生成新样本,要生成的样本数量

为：

其中，

表示样本x_i的k近邻中负类近邻所占比例；k近邻中的负类近邻越多，要生成的新样本越多；

新样本

的生成方法为：

其中，NN_p(x_i)^j表示随机抽取的样本x_i的某个正类近邻,λ是一个随机数，范围为[0,1]；

在所述正类k近邻数据集S_bpf中的每个样本与其负类近邻间随机线性插值生成新样本，要生成的样本数量

为：

新样本

的生成方法为：

其中，NN_n(x_i)^l表示随机抽取的样本x_i的某个负类近邻，设置常数0.5是为了使得生成的新样本靠近正类样本；

将当前少数类别过采样生成的新样本加入所述到监测数据集S中。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种断路器不平衡监测数据集过采样方法，该方法将数据集中不同的类别分为多数类别和少数类别，针对少数类别进行过采样直至每一个少数类别均被过采样，能够有效实现增加样本数量，且步骤简单，应用于实际应用时更加高效。不平衡监测数据集经过采样后，不同类别间样本数量等同，可以有效避免机器学习算法在训练时的偏向性，从而提高诊断模型的准确性。与经典SMOTE方法相比，本发明中过采样方法充分考虑原始数据的分布，通过双向查找策略找到分类边界上难以被学习的少数类样本，重点对上述难以被学习的少数类样本实施过采样，在生成新样本时考虑同时从其同类近邻及其异类近邻中生成新样本，有助于补充有效分类信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的一种断路器不平衡监测数据集过采样方法流程图；

图2附图为本发明提供的一种断路器不平衡监测数据集过采样方法中去除噪声及获取负类k近邻数据集S_bn过程示意图；

图3附图为本发明提供的一种断路器不平衡监测数据集过采样方法中获取正类k近邻数据集S_bpf过程示意图；

图4附图为本发明提供的一种断路器不平衡监测数据集过采样方法中生成新样本过程示意图；

图5附图为本发明实施例一中不平衡监测数据集特征分布图；

图6附图为本发明实施例一中不平衡监测数据集过采样后特征分布图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种断路器不平衡监测数据集过采样方法，如图1所示，包括以下内容：

采集断路器不平衡监测数据，获取监测样本数据集S；

根据监测样本数据集S中不同状态类别对应的样本数量，对状态类别进行排序；将数量最多的状态类别作为多数类别，其余类别均作为少数类别；

按照顺序依次对少数类别进行过采样，直至所有的少数类别均被过采样；每次过采样所采集到的新样本均补入当前监测样本数据集内，生成新的监测样本数据集，根据新的监测样本数据集进行下一个少数类别的过采样；

过采样的步骤包括：

S1.确定每一个少数类别需要生成的新样本数量；对于每一个少数类别，将当前待生成新样本的少数类别设为正类别，所有其余的类别均设为负类别；

S2.从当前正类别数据集S_p中去除噪声样本；

S3.获取去除噪声后的样本数据集S_pf的负类k近邻数据集S_bn；获取负类k近邻数据集S_bn的正类k近邻数据集S_bpf；其中，负类k近邻即从负类别中找样本的k近邻，正类k近邻即从正类别中找样本的k近邻；

S4.为正类k近邻数据集S_bpf中的样本分配不同的权重，根据权重获取正类k近邻数据集S_bpf中每个样本所要生成的新样本数量；

S5.在正类k近邻数据集S_bpf中的样本与其正类近邻和负类近邻间随机线性插值生成新样本，并将生成的新样本加入到监测数据集S中。其中，正类近邻即为近邻在正类别中，负类近邻即为近邻在负类别中。

S6.重复步骤S1-S5直到所有的少数类别均被过采样。

为了进一步实施上述技术方案，采集断路器不平衡监测数据，获取监测样本数据集S的具体内容包括：将断路器合闸过程中的振动信号作为监测信号，采集不同状态下的振动信号组成监测样本数据集S＝{xi,yi},其中x_i为样本数据，y_i为x_i所对应的状态类别。

为了进一步实施上述技术方案，S1中每一个少数类别需要生成的样本数量G为其与多数类别所对应的样本数量之间的差值。

为了进一步实施上述技术方案，如图2所示，S2的具体内容包括：

根据欧氏距离针对每一个正类样本搜索k近邻NN(x_i)，如果当前正类样本的k近邻NN(x_i)中没有正类近邻，即属于正类别的样本，则样本为噪声样本，从数据集中去除；剩余样本组合成新的数据集S_pf，表示为：

S_pf＝S_p-S_noise (1)

其中，S_p为当前正类别数据集，S_noiSe为噪声。

为了进一步实施上述技术方案，S3的具体内容包括：

如图2所示，搜索数据集S_pf中每一个样本的负类k近邻NN_n(x_i)，数据集S_pf中所有样本的负类k近邻组合为负类k近邻数据集S_bn；

如图3所示，搜索负类k近邻数据集S_bn中每一个样本的正类k近邻NN_p(y_i)，负类k近邻数据集S_bn中所有样本的正类k近邻组合为正类k近邻数据集S_bpf，正类k近邻数据集S_bpf中包括所有难以被学习的正类样本。

为了进一步实施上述技术方案，S4的具体内容包括：

计算样本所在区域的样本密度，计算方法为：

其中，NN_p(x_i)^m表示样本x_i的第m个正类近邻，k为样本x_i的近邻总数。

归一化样本密度，为正类k近邻数据集S_bpf中的每个样本分配权重w₁ ⁱ：

其中，n为正类k近邻数据集S_bpf中样本总数量；

正类k近邻数据集S_bpf中的每个样本要生成的样本数量g_i为：

为了进一步实施上述技术方案，S5的具体内容包括：

在正类k近邻数据集S_bpf中的每个样本与其正类近邻间随机线性插值生成新样本,要生成的样本数量

为：

其中，

新样本

的生成方法为：

在正类k近邻数据集S_bpf中的每个样本与其负类近邻间随机线性插值生成新样本，要生成的样本数量

为：

新样本

的生成方法为：

其中，NN_n(x_i)^l表示随机抽取的样本x_i的某个负类近邻，设置常数0.5是为了使得生成的新样本靠近正类样本。

将当前少数类别过采样生成的新样本加入到监测数据集S中。

下面将根据实例来进一步对本发明进行说明：

实施例一：

采集断路器不平衡监测数据集。将断路器合闸过程中的振动信号作为监测信号，采集不同状态下的振动信号组成不平衡数据集S＝{xi,yi},其中x_i为样本数据，y_i为x_i所对应的状态类别。具体地，采集正常状态下的振动信号60组，采集合闸弹簧疲劳(故障1)、基座螺丝松动(故障2)、分闸弹簧疲劳(故障3)下的振动信号各30组，因此一个类别不平衡比为2:1的不平衡数据集建立。提取振动信号的分段能量熵，特征如附图5所示。

对正常状态和故障状态按照其样本数量进行降序排序。重新排序后的状态顺序为，正常状态，故障1，故障2，故障3。正常状态被设为多数类别，故障1，故障2，故障3均被设为少数类别。

确定每一个少数类别需要生成的新样本数量。对于每一个少数类别，需要生成的样本数量为其与正常状态样本数量的差值：G＝60-30＝30。

首先对故障1进行过采样，采用“一对多”策略，故障1被认为为正类，其余类别组合为负类，对于每一个正类样本，根据欧氏距离搜索其5近邻，如果5近邻中没有正类近邻，则该样本为噪声样本，从故障1中去除。

通过双向查找策略找到分类边界上难以被学习的正类样本。

根据样本所在区域样本密度为这些难以被学习的正类样本分配不同的权重以决定它们要生成的新样本数量。最后在难以被学习的正类样本与其正类近邻和负类近邻间随机线性插值生成新样本。

故障1过采样完成后，将生成的新样本加入到监测数据集中，对故障2进行过采样，过采样过程与故障1的过采样过程相同。同样地，对故障3进行过采样。

过采样完成后，监测数据类别不平衡问题得到解决，平衡后的数据集如附图6所示，新样本被圆圈所包围。

为测试本发明所述过采样算法效果，将平衡后的数据集输入到机器学习方法中以训练智能诊断模型。分别采用极限学习机(ELM)，随机森林(RF)，广义回归神经网络(GRNN)，BP神经网络(BPNN)测试本发明所述过采样算法效果，并对比不采用任何采样方法、和采用SMOTE，Borderline-SMOTE，ADASYN方法的诊断结果。其中，原始不平衡监测数据集中每种状态下80％的样本被随机选取组成训练集，剩余样本组成测试集。对训练集实施过采样以平衡样本数量，利用平衡后的训练集训练上述机器学习算法以建立诊断模型，最后，将测试集输入到诊断模型中分类以验证所述过采样方法的有效性。总共进行30次试验。采用G-mean作为评价指标，30次试验平均诊断结果如表1。

可以看出，无论结合哪一种机器学习方法，本本发明所提出的方法在断路器不平衡监测数据集中的表现相比SMOTE，Borderline-SMOTE,ADASYN在G-mean值上有明显提高。

表1平均诊断结果

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。