CN113469252A

CN113469252A - 一种考虑不平衡样本的特高压换流阀运行状态评估方法

Info

Publication number: CN113469252A
Application number: CN202110752835.2A
Authority: CN
Inventors: 梅飞; 顾佳琪; 张家堂; 裴鑫; 陈子平
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-10-01

Abstract

本发明公开了一种考虑不平衡样本的特高压换流阀运行状态评估方法，包括如下步骤：输入换流阀状态数据集；基于特征综合重要度对换流阀状态数据集中的特征状态量进行筛选和排序，选取到最优状态量特征组合；对数据集进行自适应加权过采样，实现数据均衡化；训练LightGBM分类器，获取到LightGBM评估模型；利用训练好的LightGBM评估模型对换流阀运行状态进行评估。本发明解决了现有方法过度依赖于足量均衡样本的问题，在对特高压换流阀状态评估方面具有更高的准确率，算法简单且易于实现，在一定程度上帮助工程人员正确判断换流阀的运行状态等级，为特高压换流阀的检修决策提供针对性的理论指导，应用价值和前景巨大。

Description

一种考虑不平衡样本的特高压换流阀运行状态评估方法

技术领域

本发明涉及特高压换流阀运行状态评估方法，具体涉及一种考虑不平衡样本的特高压换流阀运行状态评估方法。

背景技术

目前，我国电力设备的检修方式正在由定期检修等传统检修方式逐步向状态检修转变。对电力设备进行状态评估，准确判断其所处的运行状态，是实现状态检修的基础与核心内容。特高压换流阀作为特高压直流输电的核心设备，起着整流、逆变、开关等关键作用，若能对其进行准确的运行状态评估，则可以及时发现异常，降低故障率，提高电网的运行安全。

最初，换流站运维人员通过在外围观测，能够粗略估计出换流阀的在线运行情况，进而确定检修策略；后来，换流阀的状态评估主要依据国家电网企业标准《高压直流输电换流阀状态评价导则》(以下简称《导则》)进行评分计算。该方法基于换流阀39个状态量的测量结果，采取扣分的方式，依据最终得分判断运行状态。虽然《导则》计及的设备全面，但其中存在着很多相关度过高或重要度过低的特征，这些特征不仅对评估结果几乎无贡献，且大幅增加了数据采集的工作量。此外，《导则》所采用的评分法需要人为进行扣分，导致评估的效率较低。当下，人工智能技术在预测、评估任务中的效率、精度、自学习能力等方面不断发展，这也为换流阀的运维检修提供了一种全新的技术手段与研究思路。不过，该类方法对历史数据要求较高，需要足量且可靠的故障样本作为支撑。当前国内投运的特高压换流阀可靠性较高，非正常运行状态的样本极少，并且各类别样本分布不均衡，若直接使用人工智能算法进行评估，则会使模型偏向于多数类，对非正常运行状态的样本识别性能不佳，从而无法有效指导检修工作。

针对以上问题，一种更加客观、评估正确率更高、能够解决样本不均衡问题的换流阀运行状态评估方法是亟需解决的问题。

发明内容

发明目的：为了克服现有技术中存在的不足，提供一种考虑不平衡样本的特高压换流阀运行状态评估方法，以有效避免传统方法中主观性强、评估效率不足、过于依赖样本质量等问题，在对特高压换流阀状态评估方面具有更高的准确率，算法简单且易于实现，在一定程度上帮助工程人员正确判断换流阀的状态等级，为特高压换流阀的检修决策提供针对性的理论指导，应用价值和前景巨大。

技术方案：为实现上述目的，本发明提供一种考虑不平衡样本的特高压换流阀运行状态评估方法，包括如下步骤：

S1：输入换流阀状态数据集；

S2：基于特征综合重要度对换流阀状态数据集中的特征状态量进行筛选和排序，选取到最优状态量特征组合；

S3：对步骤S2处理后的数据集进行自适应加权过采样，实现数据均衡化；

S4：训练LightGBM分类器，获取到LightGBM评估模型；

S5：基于步骤S3预处理后的数据集，利用训练好的LightGBM评估模型对换流阀运行状态进行评估。

进一步地，所述步骤S1中换流阀状态数据集包括晶闸管组件、阀冷却组件、阀避雷器的特征指标。

进一步地，所述步骤S2中特征状态量的提取方法为：

A1：分析晶闸管组件、阀冷却组件、阀避雷器在特高压换流阀工作中承担的作用；

A2：对选择的各状态量进行量化；

A3：设定四种运行状态等级。

进一步地，所述步骤S2中特征综合重要度计算方法为：

B1：分别用基于距离度量的ReliefF(RF)，基于样本分布特性的Fisher Score(FS)以及基于特征局部保持能力的Laplacian Score(LS)对提取的特征状态量进行重要度排序，依次得到序列I_RF，I_FS与I_LS；

B2：采用线性互补融合方法计算综合重要度I：

I_i＝I_RF,i+I_FS,i+I_LS,i i＝1,2,...,39 (1)

进一步地，所述步骤S3中自适应加权过采样的方法为：

C1：对数据集中的少数类样本进行层次聚类，将每个样本划分为单独的子簇，然后不断重复地将其中最近的两个子簇合并，直至满足迭代终止条件；

C2：对各少数类子簇分类测试，基于错分率自适应地确定各子簇的最终采样规模；

C3：基于各少数类样本与多数类的距离大小来赋以不同权重，计算各样本的概率分布，并完成过采样。

进一步地，所述步骤C2中错分率与过采样后的子簇规模关系为：

其中，

与

分别为子簇D₁与D₂过采样后的规模；

与

分别为子簇D₁与D₂的错分率。

进一步地，所述步骤C3具体为：

计算紧密因子：

其中：x_ij为子簇D_i中第j个样本，选取出k个与之欧氏距离最小的多数类样本，记为y_ij(l),l＝1,2,…,k，距离记为d(x_ij,y_ij(l))；f_i是D_i的截止函数，避免样本距离太小导致的

过大；T是f_i(x)的最大值，计算方法见式(4)；Q_i为子簇D_i的样本数量；y_ij(1)为距离样本x_ij最近的多数类样本。

计算样本x_ij的权重W(x_ij)与概率分布大小：

进一步地，所述步骤C3中过采样的计算公式为：

c＝ω·a+(1-ω)·b (8)

其中，a是基于P(x_ij)抽样出某一子簇中的样本，b是样本a的k个最近邻之一的样本，ω表示0到1之间的随机数字。

进一步地，所述步骤S4中采用网格搜索法获取LightGBM评估模型的最优超参数：

采用网格搜索对LightGBM评估模型的弱回归树数量、最大深度、叶子数目与学习率进行参数寻优。

有益效果：本发明与现有技术相比，具备如下优点：

1、通过特征筛选，在保证模型高准确率的基础上，剔除无效状态量，选出最优状态量集合，从而提高了评估的效率和准确率。

2、减小了噪声点对模型训练的影响，增强了不均衡样本的训练效果，解决了现有方法过度依赖于足量均衡样本的问题，从而使得模型评估的准确率更高、速度更快。

3、可帮助工程人员快速且正确判断特高压换流阀的运行状态，为制定换流阀检修决策提供针对性的理论指导，应用价值和前景巨大。

附图说明

图1为本发明的流程示意图；

图2为自适应加权过采样算法流程图；

图3为自适应确定子簇规模时的交叉验证过程；

图4为不同数量特征的评估准确率；

图5为评估结果的混淆矩阵。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明提供一种考虑不平衡样本的特高压换流阀运行状态评估方法，如图1所示，其包括以下步骤：

步骤一，输入换流阀状态数据集。

特高压换流阀的主要组件包括晶闸管组件、阀冷却组件以及阀避雷器。《导则》在这三个组件的基础上，提出了39个特征状态量，通过实时监测、检修试验或目测观察获取数据。39个特征状态量中，部分通过监测能够得到具体数值，而多数状态量需要基于试验或目测进行评分量化。将需要量化的状态量值域设为[0,1]，其中，1表示积极状态，有助于换流阀正常运行，如晶闸管本体无锈蚀；0表示负面状态，不利于换流阀的稳定运行，如晶闸管本体严重锈蚀。然后进行标准化处理，如式(1)所示。

式中：α与α^*分别为标准化前与标准化后的数据，A为α所在的序列集合。标准化后，序列A中最大值为1，最小值为-1。

此外，本实施例参考《导则》，设定正常、注意、异常与严重四种运行状态，在数据集中分别用1、2、3、4表示。

步骤二，基于特征综合重要度进行排序，选取最优特征组合。

利用三种基于不同评价准则的过滤式特征选择方法来研究特征重要度，分别为基于距离度量的ReliefF(RF)，基于样本分布特性的Fisher Score(FS)以及基于特征局部保持能力的Laplacian Score(LS)。采用上述三种特征选择方法分别对《导则》中的39种特征进行重要度排序，依次得到序列I_RF,，I_FS与I_LS，然后采用线性互补融合方法计算综合重要度I，计算方法如下。

I_i＝I_RF,i+I_FS,i+I_LS,i i＝1,2,...,39 (2)

I值越小，则意味着该特征越重要，在选择特征时应当优先考虑；反之I值越大，则表明该特征重要度越低，必要时可以进行舍弃。

步骤三，数据预处理，并对不均衡数据进行自适应加权过采样。如图2所示，包括如下步骤：

31、剔除离群样本。对于每个样本，找到距离其最近的r个近邻，如果他们与该样本均不属于同一类别，则该样本被认定为噪声，即离群样本，并从数据集中删除。

32、层次聚类。对剩余的N个少数类样本进行层次聚类，将每个样本划分为单独的子簇，即C＝{C_i|i＝1,2,…,N}，然后不断重复地将其中最近的两个子簇合并，直至满足迭代终止条件，得到n个子簇D＝{D_i|i＝1,2,…,n}。

33、自适应确定子簇规模。对于错分率较高的子簇，需要适度提高采样率；而对于错分率较低的子簇，采样率可适当降低。每个子簇的初始错分率均通过K-fold交叉验证计算得到。如图3所示，将每个少数类子簇分为K个相等数量的部分(图中K＝3)。采用线性判别分析进行分类并运行K次。每次运行时，各少数类子簇的K-1部分与多数类样本作为训练集(图3中的灰色区域)，少数类子簇的剩下一部分作为测试集(图3中的白色区域)。令子簇j在第k次运行时的错分率为

然后对每一折的结果进行平均处理，得到平均错误率

以子簇D₁与D₂为例，令他们过采样之后的大小之比与错分率之比相等，即：

式中：

与

分别为子簇D₁与D₂过采样后的规模；

与

分别为子簇D₁与D₂的错分率。

34、加权过采样。对于子簇D_i中第j个样本x_ij，选取出k个与之欧氏距离最小的多数类样本，记为y_ij(l),l＝1,2,…,k，距离记为d(x_ij,y_ij(l))。一般来说，与多数类距离更小的少数类样本错分率更高，应具有更高权重，即距离与权重负相关，因此对距离取倒数，此时可计算出二者的紧密因子L。

式中：f_i是D_i的截止函数；T是f_i(x)的最大值，计算方法见式(6)；Q_i为子簇D_i的样本数量；y_ij(1)为距离样本x_ij最近的多数类样本。

然后，计算样本x_ij的权重W(x_ij)与概率分布大小，如式(7)(8)所示。

最后，依照概率分布对子簇D_i进行过采样。例如，基于P(x_ij)抽样出某一子簇中的样本a，然后随机选择它的k个最近邻之一的样本b，若a与b属于同一个子簇，则按照式(9)合成新样本c：

c＝ω·a+(1-ω)·b (9)

式中，ω表示0到1之间的随机数字。循环上述操作，直至子簇D_i的样本规模达到式(3)中的S_Di停止。

步骤四，训练LightGBM分类器，采用网格搜索法获取获取到LightGBM评估模型的最优超参数；

LightGBM是基于梯度提升决策树(gradient boosting decision tree,GBDT)的算法框架，它在GBDT基础上，融合了直方图算法、带深度限制的Leaf-wise决策树生长策略，具有运行速度快，占用内存小、分类精度高与支持并行化学习等特点。针对LightGBM分类器，所搜索的超参数包括弱回归树数量、最大深度、叶子数目与学习率。

步骤五，基于步骤三预处理后的数据集，利用步骤四中训练完毕的评估模型对换流阀运行状态进行实时评估。

针对评估结果，可采用与模型无关的局部可解释性方法(Local InterpretableModel-Agnostic Explanation,LIME)进行解释，找出影响样本评估结果的关键因素，提升了评估结果的可信度，同时也为检修人员制定检修策略提供依据。

基于上述本发明的技术方案，本实施例将本发明方法进行实例应用，具体如下：

取2018-2019年江苏省某换流站的1591组实测数据，包括查阅设备资料、巡视检查、带电检测、在线监测以及检修试验等。

在1591组数据中，正常状态904例，注意状态434例，异常状态185例，严重状态68例，类别间样本不平衡率最大为13.29，最小为2.08。对总样本集按照2:1的比例进行划分，得到训练集与测试集，各状态的样本分布如表1所示。

表1

数据类型	样本数量	训练样本	测试样本	不平衡率
					正常	904	603	301	—
注意	434	289	145	2.08
					异常	185	123	62	4.89
严重	68	45	23	13.29
					样本总数	1591	1060	531	—

基于原始数据样本，采用RF算法、FS算法与LS算法分别获取39个特征的重要度排序，然后计算综合重要度I。按照综合重要度I进行依序建模，在保证模型准确率的前提下，选取出维数尽量小的特征组合并建立状态评估模型。分类器采用默认参数的LightGBM，主要参数为：弱回归树数量100，最大深度-1，叶子数目31，学习率0.1。特征选取过程见图4。图中的准确率均为5-折交叉验证的结果。

由图4可知，特征数目较少时，模型准确率随特征数量的增加快速上升；当输入特征数大于5时，模型准确率呈现缓慢上涨的趋势，并在特征数等于24时准确率达到峰值97.2％；此后继续增加特征个数，交叉验证的准确率没有任何增加，此即表明后续加入的特征状态量没有为评估模型提供新的信息，因此可作为冗余特征而舍弃。特征筛选后，保留下来的换流阀状态量按照原排列顺序依次记作l₁-l₂₄，如表2所示。

表2

设置步骤31中近邻数r＝5，如果某一样本的5个近邻与其均不属于同一类别，则将该样本从数据集中删除。

然后采用自适应加权过采样进行数据均衡化处理。层次聚类阶段，当子簇总数小于少数类样本总数的10％时聚类停止；自适应确定子簇规模中，设置K＝3，即采用3-折交叉验证计算分类错误率，从而确定各子簇的最终规模。在加权过采样阶段，设置近邻数k＝5，先后计算各子簇样本的距离d、紧密因子L、权重W与概率分布P，最后依照概率分布对子簇进行过采样，直至其规模达到要求。自适应加权过采样后，四种状态训练集的样本数分别为601、757、929、1008。

采用网格搜索法对LightGBM关键超参数进行寻优，寻优后取弱回归树数量为150，最大深度为6，叶子数目为20，学习率为0.06。评估结果可用图5的混淆矩阵表示。其中，纵坐标为换流阀的真实状态等级，横坐标为基于评估模型的预测结果，最下方一行与最右边一列分别表示各状态等级样本的精确率与召回率。由图5可见，所有样本的召回率都达到了90％以上，这意味着正常与不正常运行状态样本的识别结果均很精确。在531个用于测试的数据中，总准确率达到了98.3％，错分数为9例，其中相差1个状态等级的有8个，且所有的错误分类都发生在不正常运行状态数据中，如此细微的误差对最终的检修决策影响较小。

为验证自适应加权过采样方法的效果，本实施例分别利用过采样后的数据集(D₁)与原始数据集(D₂)、SMOTE过采样的数据集(D₃)以及Borderline-SMOTE过采样的数据集(D₄)训练LightGBM模型，得到4个分类器，每个分类器的超参数保持一致，结果如表3所示。

表3

数据集	总体准确率/％	异常样本召回率/％	严重样本召回率/％
				D<sub>1</sub>	98.3	95.2	91.3
D<sub>2</sub>	96.4	90.3	65.2
				D<sub>3</sub>	97.6	93.5	82.6
D<sub>4</sub>	98.1	93.5	87.0

由表3可知，采用原始数据训练的模型准确率低，且严重样本的识别效果较差，仅65.2％。经过SMOTE或Borderline-SMOTE过采样的数据在一定程度上提升了模型的训练效果，然而严重样本的召回率依然不足90％，这是因为他们在过采样过程中未能考虑到合成样本与多数类样本的重叠问题，导致生成了大量无效或干扰样本，因此对决策边界的样本识别率不高。本实施例中的自适应加权过采样方法避免了样本重叠问题，且根据子簇错分率的高低来设置不同的采样权重，提升了合成样本的质量。因此，较之现有方法，自适应加权过采样在对换流阀运行状态的数据增强方面更为优越。

此外，本实施例还将XGBoost、决策树(Decision Tree,DT)、随机森林(RandomForest,RF)等其他常用模型与本发明所提方法进行对比。其中，XGBoost、随机森林均采用与LightGBM相同的参数，而决策树使用默认参数。对每个模型进行10次试验，然后取其平均值，结果如表4所示。

表4

模型名称	总体准确率/％	异常样本召回率/％	严重样本召回率/％	评估时间/s
					LightGBM	98.3	95.2	91.3	0.107
XGBoost	98.3	91.9	91.3	0.136
					DT	96.6	87.1	83.6	0.038
RF	97.4	88.7	91.3	0.131

从表4可以看出，决策树因结构简单，在运行时间上表现良好，但是其分类能力被大大限制，低于其他几种方法。随机森林与LightGBM、XGBoost相比，分类性能稍差，且评估效率未得到优化。

作为两种基于决策树算法的分布式梯度提升框架，LightGBM与XGBoost都具有良好的分类性能，评估准确率均达到了98％以上。此外，这两种方法在异常与严重状态样本的分类中表现良好，召回率均达到90％以上。不过，LightGBM在传统梯度提升决策树的基础上融合了直方图算法及带深度限制的Leaf-wise决策树生长策略，因此具有更快的评估速度和更高的效率，这对实际应用中换流阀在线实时评估至关重要。总体来说，本发明提出的评估方法能够较为准确、快速地反应特高压换流阀的运行状态。

Claims

1.一种考虑不平衡样本的特高压换流阀运行状态评估方法，其特征在于，包括如下步骤：

S1：输入换流阀状态数据集；

S4：训练LightGBM分类器，获取到LightGBM评估模型；

2.根据权利要求1所述的一种考虑不平衡样本的特高压换流阀运行状态评估方法，其特征在于，所述步骤S1中换流阀状态数据集包括晶闸管组件、阀冷却组件、阀避雷器的特征指标。

3.根据权利要求2所述的一种考虑不平衡样本的特高压换流阀运行状态评估方法，其特征在于，所述步骤S2中特征状态量的提取方法为：

A2：对选择的各状态量进行量化；

A3：设定四种运行状态等级。

4.根据权利要求1所述的一种考虑不平衡样本的特高压换流阀运行状态评估方法，其特征在于，所述步骤S2中特征综合重要度计算方法为：

B1：分别用基于距离度量的ReliefF，基于样本分布特性的Fisher Score以及基于特征局部保持能力的Laplacian Score对提取的特征状态量进行重要度排序，依次得到序列I_RF，I_FS与I_LS；

B2：采用线性互补融合方法计算综合重要度I：

I_i＝I_RF,i+I_FS,i+I_LS,i i＝1,2,...,39 (1)

5.根据权利要求1所述的一种考虑不平衡样本的特高压换流阀运行状态评估方法，其特征在于，所述步骤S3中自适应加权过采样的方法为：

6.根据权利要求5所述的一种考虑不平衡样本的特高压换流阀运行状态评估方法，其特征在于，所述步骤C2中错分率与过采样后的子簇规模关系为：

其中，

与

分别为子簇D₁与D₂过采样后的规模；

与

分别为子簇D₁与D₂的错分率。

7.根据权利要求6所述的一种考虑不平衡样本的特高压换流阀运行状态评估方法，其特征在于，所述步骤C3具体为：

计算紧密因子：

其中：x_ij为子簇D_i中第j个样本，选取出k个与之欧氏距离最小的多数类样本，记为y_ij(l),l＝1,2,…,k，距离记为d(x_ij,y_ij(l))；f_i是D_i的截止函数；T是f_i(x)的最大值，计算方法见式(4)；Q_i为子簇D_i的样本数量；y_ij(1)为距离样本x_ij最近的多数类样本；

计算样本x_ij的权重W(x_ij)与概率分布大小：

8.根据权利要求7所述的一种考虑不平衡样本的特高压换流阀运行状态评估方法，其特征在于，所述步骤C3中过采样的计算公式为：

c＝ω·a+(1-ω)·b (8)

9.根据权利要求1所述的一种考虑不平衡样本的特高压换流阀运行状态评估方法，其特征在于，所述步骤S4中采用网格搜索法获取LightGBM评估模型的最优超参数：