CN113469252A - 一种考虑不平衡样本的特高压换流阀运行状态评估方法 - Google Patents
一种考虑不平衡样本的特高压换流阀运行状态评估方法 Download PDFInfo
- Publication number
- CN113469252A CN113469252A CN202110752835.2A CN202110752835A CN113469252A CN 113469252 A CN113469252 A CN 113469252A CN 202110752835 A CN202110752835 A CN 202110752835A CN 113469252 A CN113469252 A CN 113469252A
- Authority
- CN
- China
- Prior art keywords
- converter valve
- state
- sample
- samples
- extra
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000013210 evaluation model Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000012216 screening Methods 0.000 claims abstract description 4
- 238000012360 testing method Methods 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000001816 cooling Methods 0.000 claims description 5
- 230000000295 complement effect Effects 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000007500 overflow downdraw method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 238000012423 maintenance Methods 0.000 abstract description 13
- 238000004422 calculation algorithm Methods 0.000 abstract description 10
- 238000003066 decision tree Methods 0.000 description 10
- 230000002159 abnormal effect Effects 0.000 description 9
- 238000007637 random forest analysis Methods 0.000 description 7
- 238000002790 cross-validation Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2115—Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Human Resources & Organizations (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Testing Electric Properties And Detecting Electric Faults (AREA)
Abstract
本发明公开了一种考虑不平衡样本的特高压换流阀运行状态评估方法,包括如下步骤:输入换流阀状态数据集;基于特征综合重要度对换流阀状态数据集中的特征状态量进行筛选和排序,选取到最优状态量特征组合;对数据集进行自适应加权过采样,实现数据均衡化;训练LightGBM分类器,获取到LightGBM评估模型;利用训练好的LightGBM评估模型对换流阀运行状态进行评估。本发明解决了现有方法过度依赖于足量均衡样本的问题,在对特高压换流阀状态评估方面具有更高的准确率,算法简单且易于实现,在一定程度上帮助工程人员正确判断换流阀的运行状态等级,为特高压换流阀的检修决策提供针对性的理论指导,应用价值和前景巨大。
Description
技术领域
本发明涉及特高压换流阀运行状态评估方法,具体涉及一种考虑不平衡样本的特高压换流阀运行状态评估方法。
背景技术
目前,我国电力设备的检修方式正在由定期检修等传统检修方式逐步向状态检修转变。对电力设备进行状态评估,准确判断其所处的运行状态,是实现状态检修的基础与核心内容。特高压换流阀作为特高压直流输电的核心设备,起着整流、逆变、开关等关键作用,若能对其进行准确的运行状态评估,则可以及时发现异常,降低故障率,提高电网的运行安全。
最初,换流站运维人员通过在外围观测,能够粗略估计出换流阀的在线运行情况,进而确定检修策略;后来,换流阀的状态评估主要依据国家电网企业标准《高压直流输电换流阀状态评价导则》(以下简称《导则》)进行评分计算。该方法基于换流阀39个状态量的测量结果,采取扣分的方式,依据最终得分判断运行状态。虽然《导则》计及的设备全面,但其中存在着很多相关度过高或重要度过低的特征,这些特征不仅对评估结果几乎无贡献,且大幅增加了数据采集的工作量。此外,《导则》所采用的评分法需要人为进行扣分,导致评估的效率较低。当下,人工智能技术在预测、评估任务中的效率、精度、自学习能力等方面不断发展,这也为换流阀的运维检修提供了一种全新的技术手段与研究思路。不过,该类方法对历史数据要求较高,需要足量且可靠的故障样本作为支撑。当前国内投运的特高压换流阀可靠性较高,非正常运行状态的样本极少,并且各类别样本分布不均衡,若直接使用人工智能算法进行评估,则会使模型偏向于多数类,对非正常运行状态的样本识别性能不佳,从而无法有效指导检修工作。
针对以上问题,一种更加客观、评估正确率更高、能够解决样本不均衡问题的换流阀运行状态评估方法是亟需解决的问题。
发明内容
发明目的:为了克服现有技术中存在的不足,提供一种考虑不平衡样本的特高压换流阀运行状态评估方法,以有效避免传统方法中主观性强、评估效率不足、过于依赖样本质量等问题,在对特高压换流阀状态评估方面具有更高的准确率,算法简单且易于实现,在一定程度上帮助工程人员正确判断换流阀的状态等级,为特高压换流阀的检修决策提供针对性的理论指导,应用价值和前景巨大。
技术方案:为实现上述目的,本发明提供一种考虑不平衡样本的特高压换流阀运行状态评估方法,包括如下步骤:
S1:输入换流阀状态数据集;
S2:基于特征综合重要度对换流阀状态数据集中的特征状态量进行筛选和排序,选取到最优状态量特征组合;
S3:对步骤S2处理后的数据集进行自适应加权过采样,实现数据均衡化;
S4:训练LightGBM分类器,获取到LightGBM评估模型;
S5:基于步骤S3预处理后的数据集,利用训练好的LightGBM评估模型对换流阀运行状态进行评估。
进一步地,所述步骤S1中换流阀状态数据集包括晶闸管组件、阀冷却组件、阀避雷器的特征指标。
进一步地,所述步骤S2中特征状态量的提取方法为:
A1:分析晶闸管组件、阀冷却组件、阀避雷器在特高压换流阀工作中承担的作用;
A2:对选择的各状态量进行量化;
A3:设定四种运行状态等级。
进一步地,所述步骤S2中特征综合重要度计算方法为:
B1:分别用基于距离度量的ReliefF(RF),基于样本分布特性的Fisher Score(FS)以及基于特征局部保持能力的Laplacian Score(LS)对提取的特征状态量进行重要度排序,依次得到序列IRF,IFS与ILS;
B2:采用线性互补融合方法计算综合重要度I:
Ii=IRF,i+IFS,i+ILS,i i=1,2,...,39 (1)
进一步地,所述步骤S3中自适应加权过采样的方法为:
C1:对数据集中的少数类样本进行层次聚类,将每个样本划分为单独的子簇,然后不断重复地将其中最近的两个子簇合并,直至满足迭代终止条件;
C2:对各少数类子簇分类测试,基于错分率自适应地确定各子簇的最终采样规模;
C3:基于各少数类样本与多数类的距离大小来赋以不同权重,计算各样本的概率分布,并完成过采样。
进一步地,所述步骤C2中错分率与过采样后的子簇规模关系为:
进一步地,所述步骤C3具体为:
计算紧密因子:
其中:xij为子簇Di中第j个样本,选取出k个与之欧氏距离最小的多数类样本,记为yij(l),l=1,2,…,k,距离记为d(xij,yij(l));fi是Di的截止函数,避免样本距离太小导致的过大;T是fi(x)的最大值,计算方法见式(4);Qi为子簇Di的样本数量;yij(1)为距离样本xij最近的多数类样本。
计算样本xij的权重W(xij)与概率分布大小:
进一步地,所述步骤C3中过采样的计算公式为:
c=ω·a+(1-ω)·b (8)
其中,a是基于P(xij)抽样出某一子簇中的样本,b是样本a的k个最近邻之一的样本,ω表示0到1之间的随机数字。
进一步地,所述步骤S4中采用网格搜索法获取LightGBM评估模型的最优超参数:
采用网格搜索对LightGBM评估模型的弱回归树数量、最大深度、叶子数目与学习率进行参数寻优。
有益效果:本发明与现有技术相比,具备如下优点:
1、通过特征筛选,在保证模型高准确率的基础上,剔除无效状态量,选出最优状态量集合,从而提高了评估的效率和准确率。
2、减小了噪声点对模型训练的影响,增强了不均衡样本的训练效果,解决了现有方法过度依赖于足量均衡样本的问题,从而使得模型评估的准确率更高、速度更快。
3、可帮助工程人员快速且正确判断特高压换流阀的运行状态,为制定换流阀检修决策提供针对性的理论指导,应用价值和前景巨大。
附图说明
图1为本发明的流程示意图;
图2为自适应加权过采样算法流程图;
图3为自适应确定子簇规模时的交叉验证过程;
图4为不同数量特征的评估准确率;
图5为评估结果的混淆矩阵。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明提供一种考虑不平衡样本的特高压换流阀运行状态评估方法,如图1所示,其包括以下步骤:
步骤一,输入换流阀状态数据集。
特高压换流阀的主要组件包括晶闸管组件、阀冷却组件以及阀避雷器。《导则》在这三个组件的基础上,提出了39个特征状态量,通过实时监测、检修试验或目测观察获取数据。39个特征状态量中,部分通过监测能够得到具体数值,而多数状态量需要基于试验或目测进行评分量化。将需要量化的状态量值域设为[0,1],其中,1表示积极状态,有助于换流阀正常运行,如晶闸管本体无锈蚀;0表示负面状态,不利于换流阀的稳定运行,如晶闸管本体严重锈蚀。然后进行标准化处理,如式(1)所示。
式中:α与α*分别为标准化前与标准化后的数据,A为α所在的序列集合。标准化后,序列A中最大值为1,最小值为-1。
此外,本实施例参考《导则》,设定正常、注意、异常与严重四种运行状态,在数据集中分别用1、2、3、4表示。
步骤二,基于特征综合重要度进行排序,选取最优特征组合。
利用三种基于不同评价准则的过滤式特征选择方法来研究特征重要度,分别为基于距离度量的ReliefF(RF),基于样本分布特性的Fisher Score(FS)以及基于特征局部保持能力的Laplacian Score(LS)。采用上述三种特征选择方法分别对《导则》中的39种特征进行重要度排序,依次得到序列IRF,,IFS与ILS,然后采用线性互补融合方法计算综合重要度I,计算方法如下。
Ii=IRF,i+IFS,i+ILS,i i=1,2,...,39 (2)
I值越小,则意味着该特征越重要,在选择特征时应当优先考虑;反之I值越大,则表明该特征重要度越低,必要时可以进行舍弃。
步骤三,数据预处理,并对不均衡数据进行自适应加权过采样。如图2所示,包括如下步骤:
31、剔除离群样本。对于每个样本,找到距离其最近的r个近邻,如果他们与该样本均不属于同一类别,则该样本被认定为噪声,即离群样本,并从数据集中删除。
32、层次聚类。对剩余的N个少数类样本进行层次聚类,将每个样本划分为单独的子簇,即C={Ci|i=1,2,…,N},然后不断重复地将其中最近的两个子簇合并,直至满足迭代终止条件,得到n个子簇D={Di|i=1,2,…,n}。
33、自适应确定子簇规模。对于错分率较高的子簇,需要适度提高采样率;而对于错分率较低的子簇,采样率可适当降低。每个子簇的初始错分率均通过K-fold交叉验证计算得到。如图3所示,将每个少数类子簇分为K个相等数量的部分(图中K=3)。采用线性判别分析进行分类并运行K次。每次运行时,各少数类子簇的K-1部分与多数类样本作为训练集(图3中的灰色区域),少数类子簇的剩下一部分作为测试集(图3中的白色区域)。令子簇j在第k次运行时的错分率为然后对每一折的结果进行平均处理,得到平均错误率以子簇D1与D2为例,令他们过采样之后的大小之比与错分率之比相等,即:
34、加权过采样。对于子簇Di中第j个样本xij,选取出k个与之欧氏距离最小的多数类样本,记为yij(l),l=1,2,…,k,距离记为d(xij,yij(l))。一般来说,与多数类距离更小的少数类样本错分率更高,应具有更高权重,即距离与权重负相关,因此对距离取倒数,此时可计算出二者的紧密因子L。
式中:fi是Di的截止函数;T是fi(x)的最大值,计算方法见式(6);Qi为子簇Di的样本数量;yij(1)为距离样本xij最近的多数类样本。
然后,计算样本xij的权重W(xij)与概率分布大小,如式(7)(8)所示。
最后,依照概率分布对子簇Di进行过采样。例如,基于P(xij)抽样出某一子簇中的样本a,然后随机选择它的k个最近邻之一的样本b,若a与b属于同一个子簇,则按照式(9)合成新样本c:
c=ω·a+(1-ω)·b (9)
式中,ω表示0到1之间的随机数字。循环上述操作,直至子簇Di的样本规模达到式(3)中的SDi停止。
步骤四,训练LightGBM分类器,采用网格搜索法获取获取到LightGBM评估模型的最优超参数;
LightGBM是基于梯度提升决策树(gradient boosting decision tree,GBDT)的算法框架,它在GBDT基础上,融合了直方图算法、带深度限制的Leaf-wise决策树生长策略,具有运行速度快,占用内存小、分类精度高与支持并行化学习等特点。针对LightGBM分类器,所搜索的超参数包括弱回归树数量、最大深度、叶子数目与学习率。
步骤五,基于步骤三预处理后的数据集,利用步骤四中训练完毕的评估模型对换流阀运行状态进行实时评估。
针对评估结果,可采用与模型无关的局部可解释性方法(Local InterpretableModel-Agnostic Explanation,LIME)进行解释,找出影响样本评估结果的关键因素,提升了评估结果的可信度,同时也为检修人员制定检修策略提供依据。
基于上述本发明的技术方案,本实施例将本发明方法进行实例应用,具体如下:
取2018-2019年江苏省某换流站的1591组实测数据,包括查阅设备资料、巡视检查、带电检测、在线监测以及检修试验等。
在1591组数据中,正常状态904例,注意状态434例,异常状态185例,严重状态68例,类别间样本不平衡率最大为13.29,最小为2.08。对总样本集按照2:1的比例进行划分,得到训练集与测试集,各状态的样本分布如表1所示。
表1
数据类型 | 样本数量 | 训练样本 | 测试样本 | 不平衡率 |
正常 | 904 | 603 | 301 | — |
注意 | 434 | 289 | 145 | 2.08 |
异常 | 185 | 123 | 62 | 4.89 |
严重 | 68 | 45 | 23 | 13.29 |
样本总数 | 1591 | 1060 | 531 | — |
基于原始数据样本,采用RF算法、FS算法与LS算法分别获取39个特征的重要度排序,然后计算综合重要度I。按照综合重要度I进行依序建模,在保证模型准确率的前提下,选取出维数尽量小的特征组合并建立状态评估模型。分类器采用默认参数的LightGBM,主要参数为:弱回归树数量100,最大深度-1,叶子数目31,学习率0.1。特征选取过程见图4。图中的准确率均为5-折交叉验证的结果。
由图4可知,特征数目较少时,模型准确率随特征数量的增加快速上升;当输入特征数大于5时,模型准确率呈现缓慢上涨的趋势,并在特征数等于24时准确率达到峰值97.2%;此后继续增加特征个数,交叉验证的准确率没有任何增加,此即表明后续加入的特征状态量没有为评估模型提供新的信息,因此可作为冗余特征而舍弃。特征筛选后,保留下来的换流阀状态量按照原排列顺序依次记作l1-l24,如表2所示。
表2
设置步骤31中近邻数r=5,如果某一样本的5个近邻与其均不属于同一类别,则将该样本从数据集中删除。
然后采用自适应加权过采样进行数据均衡化处理。层次聚类阶段,当子簇总数小于少数类样本总数的10%时聚类停止;自适应确定子簇规模中,设置K=3,即采用3-折交叉验证计算分类错误率,从而确定各子簇的最终规模。在加权过采样阶段,设置近邻数k=5,先后计算各子簇样本的距离d、紧密因子L、权重W与概率分布P,最后依照概率分布对子簇进行过采样,直至其规模达到要求。自适应加权过采样后,四种状态训练集的样本数分别为601、757、929、1008。
采用网格搜索法对LightGBM关键超参数进行寻优,寻优后取弱回归树数量为150,最大深度为6,叶子数目为20,学习率为0.06。评估结果可用图5的混淆矩阵表示。其中,纵坐标为换流阀的真实状态等级,横坐标为基于评估模型的预测结果,最下方一行与最右边一列分别表示各状态等级样本的精确率与召回率。由图5可见,所有样本的召回率都达到了90%以上,这意味着正常与不正常运行状态样本的识别结果均很精确。在531个用于测试的数据中,总准确率达到了98.3%,错分数为9例,其中相差1个状态等级的有8个,且所有的错误分类都发生在不正常运行状态数据中,如此细微的误差对最终的检修决策影响较小。
为验证自适应加权过采样方法的效果,本实施例分别利用过采样后的数据集(D1)与原始数据集(D2)、SMOTE过采样的数据集(D3)以及Borderline-SMOTE过采样的数据集(D4)训练LightGBM模型,得到4个分类器,每个分类器的超参数保持一致,结果如表3所示。
表3
数据集 | 总体准确率/% | 异常样本召回率/% | 严重样本召回率/% |
D<sub>1</sub> | 98.3 | 95.2 | 91.3 |
D<sub>2</sub> | 96.4 | 90.3 | 65.2 |
D<sub>3</sub> | 97.6 | 93.5 | 82.6 |
D<sub>4</sub> | 98.1 | 93.5 | 87.0 |
由表3可知,采用原始数据训练的模型准确率低,且严重样本的识别效果较差,仅65.2%。经过SMOTE或Borderline-SMOTE过采样的数据在一定程度上提升了模型的训练效果,然而严重样本的召回率依然不足90%,这是因为他们在过采样过程中未能考虑到合成样本与多数类样本的重叠问题,导致生成了大量无效或干扰样本,因此对决策边界的样本识别率不高。本实施例中的自适应加权过采样方法避免了样本重叠问题,且根据子簇错分率的高低来设置不同的采样权重,提升了合成样本的质量。因此,较之现有方法,自适应加权过采样在对换流阀运行状态的数据增强方面更为优越。
此外,本实施例还将XGBoost、决策树(Decision Tree,DT)、随机森林(RandomForest,RF)等其他常用模型与本发明所提方法进行对比。其中,XGBoost、随机森林均采用与LightGBM相同的参数,而决策树使用默认参数。对每个模型进行10次试验,然后取其平均值,结果如表4所示。
表4
模型名称 | 总体准确率/% | 异常样本召回率/% | 严重样本召回率/% | 评估时间/s |
LightGBM | 98.3 | 95.2 | 91.3 | 0.107 |
XGBoost | 98.3 | 91.9 | 91.3 | 0.136 |
DT | 96.6 | 87.1 | 83.6 | 0.038 |
RF | 97.4 | 88.7 | 91.3 | 0.131 |
从表4可以看出,决策树因结构简单,在运行时间上表现良好,但是其分类能力被大大限制,低于其他几种方法。随机森林与LightGBM、XGBoost相比,分类性能稍差,且评估效率未得到优化。
作为两种基于决策树算法的分布式梯度提升框架,LightGBM与XGBoost都具有良好的分类性能,评估准确率均达到了98%以上。此外,这两种方法在异常与严重状态样本的分类中表现良好,召回率均达到90%以上。不过,LightGBM在传统梯度提升决策树的基础上融合了直方图算法及带深度限制的Leaf-wise决策树生长策略,因此具有更快的评估速度和更高的效率,这对实际应用中换流阀在线实时评估至关重要。总体来说,本发明提出的评估方法能够较为准确、快速地反应特高压换流阀的运行状态。
Claims (9)
1.一种考虑不平衡样本的特高压换流阀运行状态评估方法,其特征在于,包括如下步骤:
S1:输入换流阀状态数据集;
S2:基于特征综合重要度对换流阀状态数据集中的特征状态量进行筛选和排序,选取到最优状态量特征组合;
S3:对步骤S2处理后的数据集进行自适应加权过采样,实现数据均衡化;
S4:训练LightGBM分类器,获取到LightGBM评估模型;
S5:基于步骤S3预处理后的数据集,利用训练好的LightGBM评估模型对换流阀运行状态进行评估。
2.根据权利要求1所述的一种考虑不平衡样本的特高压换流阀运行状态评估方法,其特征在于,所述步骤S1中换流阀状态数据集包括晶闸管组件、阀冷却组件、阀避雷器的特征指标。
3.根据权利要求2所述的一种考虑不平衡样本的特高压换流阀运行状态评估方法,其特征在于,所述步骤S2中特征状态量的提取方法为:
A1:分析晶闸管组件、阀冷却组件、阀避雷器在特高压换流阀工作中承担的作用;
A2:对选择的各状态量进行量化;
A3:设定四种运行状态等级。
4.根据权利要求1所述的一种考虑不平衡样本的特高压换流阀运行状态评估方法,其特征在于,所述步骤S2中特征综合重要度计算方法为:
B1:分别用基于距离度量的ReliefF,基于样本分布特性的Fisher Score以及基于特征局部保持能力的Laplacian Score对提取的特征状态量进行重要度排序,依次得到序列IRF,IFS与ILS;
B2:采用线性互补融合方法计算综合重要度I:
Ii=IRF,i+IFS,i+ILS,i i=1,2,...,39 (1)
5.根据权利要求1所述的一种考虑不平衡样本的特高压换流阀运行状态评估方法,其特征在于,所述步骤S3中自适应加权过采样的方法为:
C1:对数据集中的少数类样本进行层次聚类,将每个样本划分为单独的子簇,然后不断重复地将其中最近的两个子簇合并,直至满足迭代终止条件;
C2:对各少数类子簇分类测试,基于错分率自适应地确定各子簇的最终采样规模;
C3:基于各少数类样本与多数类的距离大小来赋以不同权重,计算各样本的概率分布,并完成过采样。
8.根据权利要求7所述的一种考虑不平衡样本的特高压换流阀运行状态评估方法,其特征在于,所述步骤C3中过采样的计算公式为:
c=ω·a+(1-ω)·b (8)
其中,a是基于P(xij)抽样出某一子簇中的样本,b是样本a的k个最近邻之一的样本,ω表示0到1之间的随机数字。
9.根据权利要求1所述的一种考虑不平衡样本的特高压换流阀运行状态评估方法,其特征在于,所述步骤S4中采用网格搜索法获取LightGBM评估模型的最优超参数:
采用网格搜索对LightGBM评估模型的弱回归树数量、最大深度、叶子数目与学习率进行参数寻优。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110752835.2A CN113469252A (zh) | 2021-07-02 | 2021-07-02 | 一种考虑不平衡样本的特高压换流阀运行状态评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110752835.2A CN113469252A (zh) | 2021-07-02 | 2021-07-02 | 一种考虑不平衡样本的特高压换流阀运行状态评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113469252A true CN113469252A (zh) | 2021-10-01 |
Family
ID=77878230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110752835.2A Pending CN113469252A (zh) | 2021-07-02 | 2021-07-02 | 一种考虑不平衡样本的特高压换流阀运行状态评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113469252A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114490786A (zh) * | 2021-12-28 | 2022-05-13 | 马上消费金融股份有限公司 | 数据排序方法及装置 |
CN114739453A (zh) * | 2022-03-23 | 2022-07-12 | 西安交通大学 | 一种用于柔直换流阀冷却系统的检修方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109387715A (zh) * | 2018-10-29 | 2019-02-26 | 全球能源互联网研究院有限公司 | 一种基于灰色聚类的换流阀状态在线评估方法及装置 |
CN109559302A (zh) * | 2018-11-23 | 2019-04-02 | 北京市新技术应用研究所 | 基于卷积神经网络的管道视频缺陷检测方法 |
CN110675243A (zh) * | 2019-08-30 | 2020-01-10 | 北京银联金卡科技有限公司 | 一种融合机器学习的信贷预测逾期方法及系统 |
CN110718910A (zh) * | 2019-10-29 | 2020-01-21 | 国网四川省电力公司经济技术研究院 | 贝叶斯优化LightGBM的暂态稳定评估方法 |
CN111339165A (zh) * | 2020-02-28 | 2020-06-26 | 重庆邮电大学 | 一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法 |
CN111626336A (zh) * | 2020-04-29 | 2020-09-04 | 南京理工大学 | 一种基于不平衡数据集的地铁故障数据分类方法 |
CN113049976A (zh) * | 2021-04-27 | 2021-06-29 | 武汉理工大学 | 一种车辆电池健康状态评估方法及系统 |
-
2021
- 2021-07-02 CN CN202110752835.2A patent/CN113469252A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109387715A (zh) * | 2018-10-29 | 2019-02-26 | 全球能源互联网研究院有限公司 | 一种基于灰色聚类的换流阀状态在线评估方法及装置 |
CN109559302A (zh) * | 2018-11-23 | 2019-04-02 | 北京市新技术应用研究所 | 基于卷积神经网络的管道视频缺陷检测方法 |
CN110675243A (zh) * | 2019-08-30 | 2020-01-10 | 北京银联金卡科技有限公司 | 一种融合机器学习的信贷预测逾期方法及系统 |
CN110718910A (zh) * | 2019-10-29 | 2020-01-21 | 国网四川省电力公司经济技术研究院 | 贝叶斯优化LightGBM的暂态稳定评估方法 |
CN111339165A (zh) * | 2020-02-28 | 2020-06-26 | 重庆邮电大学 | 一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法 |
CN111626336A (zh) * | 2020-04-29 | 2020-09-04 | 南京理工大学 | 一种基于不平衡数据集的地铁故障数据分类方法 |
CN113049976A (zh) * | 2021-04-27 | 2021-06-29 | 武汉理工大学 | 一种车辆电池健康状态评估方法及系统 |
Non-Patent Citations (5)
Title |
---|
吴文超: "基于集成学习的不平衡数据分类算法应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 April 2020 (2020-04-15), pages 35 - 39 * |
吴文超: "基于集成学习的不平衡数据分类算法应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 35 - 39 * |
张菲菲 等: "一种改进过采样的不平衡数据集成分类算法", 《小型微型计算机系统》, 30 October 2018 (2018-10-30), pages 2162 - 2168 * |
李邦彦 等: "基于多特征选择方法的高压断路器故障诊断", 《高压电器》, vol. 56, no. 6, 16 June 2020 (2020-06-16), pages 218 - 224 * |
李邦彦 等: "基于多特征选择方法的高压断路器故障诊断", 《高压电器》, vol. 56, no. 6, pages 218 - 224 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114490786A (zh) * | 2021-12-28 | 2022-05-13 | 马上消费金融股份有限公司 | 数据排序方法及装置 |
CN114490786B (zh) * | 2021-12-28 | 2023-01-31 | 马上消费金融股份有限公司 | 数据排序方法及装置 |
CN114739453A (zh) * | 2022-03-23 | 2022-07-12 | 西安交通大学 | 一种用于柔直换流阀冷却系统的检修方法 |
CN114739453B (zh) * | 2022-03-23 | 2023-12-19 | 西安交通大学 | 一种用于柔直换流阀冷却系统的检修方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110579709B (zh) | 一种有轨电车用质子交换膜燃料电池故障诊断方法 | |
CN112418277B (zh) | 旋转机械零部件剩余寿命预测方法、系统、介质、设备 | |
CN111722046B (zh) | 一种基于深度森林模型的变压器故障诊断方法 | |
CN110647830B (zh) | 基于卷积神经网络和高斯混合模型的轴承故障诊断方法 | |
CN107784325A (zh) | 基于数据驱动增量融合的螺旋式故障诊断模型 | |
CN112257530B (zh) | 基于盲信号分离和支持向量机的滚动轴承故障诊断方法 | |
CN110929847A (zh) | 一种基于深度卷积神经网络的换流变压器故障诊断方法 | |
CN111504644B (zh) | 基于嵌入区分性的条件对抗域自适应的轴承故障诊断方法 | |
CN109740859A (zh) | 基于主成分分析法和支持向量机的变压器状态评估方法及系统 | |
CN113469252A (zh) | 一种考虑不平衡样本的特高压换流阀运行状态评估方法 | |
CN107491783B (zh) | 基于改进密度峰值聚类算法的变压器故障类型分类方法 | |
CN108304567B (zh) | 高压变压器工况模式识别与数据分类方法及系统 | |
CN110674120A (zh) | 一种风电场数据清洗方法及装置 | |
CN115187832A (zh) | 一种基于深度学习与格拉姆角场图像的能源系统故障诊断方法 | |
CN110223193A (zh) | 基于模糊聚类和rs-knn模型用于电网运行状态的判别方法及系统 | |
CN111680875A (zh) | 基于概率基线模型的无人机状态风险模糊综合评价方法 | |
CN113205125A (zh) | 一种基于XGBoost的特高压换流阀运行状态评估方法 | |
CN106022352A (zh) | 基于支持向量机的潜油柱塞泵故障诊断方法 | |
CN110738232A (zh) | 一种基于数据挖掘技术的电网电压越限成因诊断方法 | |
CN115656666A (zh) | 基于随机森林的超特高压换流阀故障检测方法及系统 | |
CN111582406A (zh) | 一种电力设备状态监测数据聚类方法和系统 | |
CN115587290A (zh) | 基于变分自编码生成对抗网络的航空发动机故障诊断方法 | |
CN114444620A (zh) | 一种基于生成式对抗神经网络的示功图故障诊断方法 | |
CN115600088A (zh) | 一种基于振动信号的配电变压器故障诊断方法 | |
CN115545070A (zh) | 基于综合平衡网络的类不平衡轴承智能诊断方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |