CN115656666A - 基于随机森林的超特高压换流阀故障检测方法及系统 - Google Patents

基于随机森林的超特高压换流阀故障检测方法及系统 Download PDF

Info

Publication number
CN115656666A
CN115656666A CN202211274809.4A CN202211274809A CN115656666A CN 115656666 A CN115656666 A CN 115656666A CN 202211274809 A CN202211274809 A CN 202211274809A CN 115656666 A CN115656666 A CN 115656666A
Authority
CN
China
Prior art keywords
converter valve
fault detection
model
samples
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211274809.4A
Other languages
English (en)
Inventor
熊富强
唐明珠
曹晨欢
王智弘
瞿旭
雷云飞
唐俊
罗军
赵鹏
毛志平
李佐胜
蒋久松
刘源
颜勋奇
姚月
曹景亮
吴天鸣
高体攀
刘晓波
高雨
潘劲
章健军
周展帆
于艺盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Super High Voltage Substation Co Of State Grid Hunan Electric Power Co ltd
State Grid Corp of China SGCC
State Grid Hunan Electric Power Co Ltd
Original Assignee
Super High Voltage Substation Co Of State Grid Hunan Electric Power Co ltd
State Grid Corp of China SGCC
State Grid Hunan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Super High Voltage Substation Co Of State Grid Hunan Electric Power Co ltd, State Grid Corp of China SGCC, State Grid Hunan Electric Power Co Ltd filed Critical Super High Voltage Substation Co Of State Grid Hunan Electric Power Co ltd
Priority to CN202211274809.4A priority Critical patent/CN115656666A/zh
Publication of CN115656666A publication Critical patent/CN115656666A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明公开了一种基于随机森林的超特高压换流阀故障检测方法,包括获取换流阀的历史运行数据并处理得到训练数据集;构建换流阀故障检测初始模型;计算换流阀故障检测初始模型的最优参数;基于最优参数,采用训练数据集训练初始模型得到换流阀故障检测模型;采用换流阀故障检测模型进行实际换流阀的故障检测。本发明还公开了一种实现所述基于随机森林的超特高压换流阀故障检测方法的系统。本发明首先进行数据预处理,去除冗余特征及保留相关性较高的特征,然后使用粒子群算法与极端随机森林模型相结合,引入误分类代价,解决了数据样本类别分布不平衡的问题,提高了模型预测的综合性能;因此本发明的可靠性高、准确性好,且客观科学。

Description

基于随机森林的超特高压换流阀故障检测方法及系统
技术领域
本发明属于电气自动化领域,具体涉及一种基于随机森林的超特高压换流阀故障检测方法及系统。
背景技术
随着经济技术的发展和人们生活水平的提高,电能已经成为了人们生产和生活中最重要的二次能源,给人们的生产和生活带来了无尽的便利。因此,保障电能的稳定可靠供应,就成为了电力系统最重要的任务之一。
直流输电系统是电力系统输电部分的重要组成之一。换流阀作为直流输电系统的核心部件,具有举足轻重的作用。因此,对于换流阀的故障检测,就显得尤为重要。
早期,电力系统对于换流阀的故障检测,采用的是人工检测的方式,即运维检修人员在换流阀周围,采用肉眼观测的方式进行换流阀的故障检测,并根据观察到的现象判断其故障类型和检修方式等。但是,这种检测方式,容易出现漏检和错检的情况,而且可靠性不高。目前,电力系统采用的检测方式,是依据电网的《高压直流输电换流阀状态评价导则》,根据导则提供的三个组件中的39个状态参量,判断每个状态参量的所属状态并打分,然后通过计算总评分的方式来判断换流阀的运行状态,以便采取应对的措施。但是,同样的,这种检修方式,需要人为打分和判断,客观性和科学性均不高,而且可靠性同样较差。
发明内容
本发明的目的之一在于提供一种可靠性高、准确性好且客观科学的基于随机森林的超特高压换流阀故障检测方法。
本发明的目的之二在于提供一种实现所述基于随机森林的超特高压换流阀故障检测方法的系统。
本发明提供的这种基于随机森林的超特高压换流阀故障检测方法,包括如下步骤:
S1.获取换流阀的历史运行数据;
S2.对步骤S1获取的历史运行数据进行数据处理,得到训练数据集;
S3.基于随机森林模型,构建换流阀故障检测初始模型;
S4.基于粒子群算法,计算得到换流阀故障检测初始模型的最优参数;
S5.采用步骤S2得到的训练数据集,基于步骤S4得到的最优参数,对步骤S3构建的换流阀故障检测初始模型进行训练,得到换流阀故障检测模型;
S6.采用步骤S5得到的换流阀故障检测模型,进行实际换流阀的故障检测。
步骤S2所述的数据处理,具体包括如下步骤:
采用如下算式计算皮尔逊相关性系数:
Figure BDA0003896029390000021
式中E()为样本期望计算;μX为样本X均值;μY为样本Y均值;σX为样本X标准差;σY为样本Y标准差;ρXY为数据集中样本X和样本Y之间的相关性系数,当相关性系数处于[-1,0]区间时表明样本之间存在负相关关系,当相关性系数处于[0,1]区间时表明样本之间存在正相关关系,当相关性系数为0时表明样本之间不存在相关性;当相关性系数的绝对值处于[0,0.4]区间时表明样本之间存在弱相关性关系,当相关性系数的绝对值处于[0.4,0.6]区间时表明样本之间存在中度相关性关系,当相关性系数的绝对值处于[0.6,1]区间时表明样本之间存在强相关性关系;
根据计算得到的皮尔逊相关性系数,将存在强相关性关系的冗余样本去除;
采用如下算式计算重要性评分:
Figure BDA0003896029390000031
式中VIj为第j个特征的重要性评分;n为树的棵数;M为第j个特征在决策树i中出现的集合;Gm为第m个节点的基尼系数,且
Figure BDA0003896029390000032
T为类别数量,pmt为第m个节点中类别t所占的比例;G1和Gr为节点分支后两个新节点的基尼系数;
根据各个特征的重要性评分,采用随机森林进行排序,从而筛选得到对结果贡献大于设定值的特征。
步骤S3所述的基于随机森林模型,构建换流阀故障检测初始模型,具体包括如下步骤:
采用极端随机森林模型构建换流阀故障检测初始模型;
设定样本数据集中包括n个类别,每个类别中存在n个五分类代价参数,则误分类代价矩阵表示为
Figure BDA0003896029390000033
其中Cij为实数,表示将i类样本误分为j类样本的代价参数,且
Figure BDA0003896029390000034
将换流阀故障检测问题作为二分类问题,从而构建换流阀故障检测二分类问题混淆矩阵;其中,参量CTN为正确预测为正常类别,CFP为正常预测为故障类别,CFN为错误预测为正常类别,CTP为错误预测为故障类别,且0=CTN=CTP<CFP<CFN
节点误分类代价定义为C=Cp+CN;式中C为节点的误分类代价;Cp为节点处于故障类的代价,且Cp=CFPNFP+CTPNTP,NFP为错误预测为故障类别的样本数量,NTP为正确预测为故障类别的样本数量;CN为节点处于正常类的代价,且CN=CFNNFN+CTNNTN,NFN为错误预测为正常类别的样本数量,NTN为正确预测为正常类别的样本数量;
由于CTN=CTP=0,得到
Figure BDA0003896029390000041
Figure BDA0003896029390000042
其中Np为故障样本的总数,NN为正常样本的总数;
对于代价函数,采用如下算式作为对于特征m的误分类代价增益GK
Figure BDA0003896029390000043
式中CF为分裂前父节点的误分类代价,Cl为分裂后左边子节点的误分类代价,Cr为分裂后右边子节点的误分类代价,Al为分裂后左边的子节点中样本数量,Ar为分裂后右边的子节点中样本数量;
基于贝叶斯定理,判定误分类代价函数最小的类别为对应的叶子节点的类别;对应有
Figure BDA0003896029390000044
Figure BDA0003896029390000045
为误分类代价函数值,p(cn|x)为样本x属于类别cn的后验概率,cmn为将第m类样本分类为第n类样本的代价;
采用如下算式作为模型的目标函数:
Figure BDA0003896029390000046
式中Cn为误分类代价;α|N|为正则项;N为节点总数;
当所有的基分类器运行结束时,最终的样本类别采用少数服从多数的方式决定;对应有
Figure BDA0003896029390000051
其中G为样本子集数量,I()为指数函数,h(x,θg)为基分类器模型,θg为独立同分布的随机向量,k为基分类器的分类结果。
步骤S4所述的基于粒子群算法,计算得到换流阀故障检测初始模型的最优参数,具体包括如下步骤:
设定目标搜索空间为D维空间,粒子群体有M个粒子;其中,第t个粒子的位置用D维向量表示为Xt=(xt1,xt2,...,xtD);第t个粒子的速度表示为Vtd=(vt1,vt2,...,vtD);第t个粒子搜索到的局部最优解表示为Ptd.pbest=(pt1,pt2,...,ptD);整个粒子群搜索到的全局最优解表示为Pd,gbest=(P1,gbest,P2,gbest,...,PD,gbest);t=1,2,...,D;
第t个粒子搜索到的最佳区域的适应值为fp,粒子群搜索到的最佳区域的适应值为fg
在局最部优解以及全局最优解的基础上,每个粒子采用公式更新自身的速度和位置,从而以最快的速度得到最终结果:
速度更新公式:
Figure BDA0003896029390000052
位置更新公式:
Figure BDA0003896029390000053
式中Vt n+1为第t个粒子更新后的速度值;Vt n为第t个粒子更新前的速度值;ωn为第n次更新时的惯性权重;c1和c2均为学习因子;r1和r2均为0~1之间的随机数;
Figure BDA0003896029390000054
为在第n次迭代中,第t个粒子搜索到的局部最优解;
Figure BDA0003896029390000055
为第t个粒子第n次更新时的位置;
Figure BDA0003896029390000056
为为在第n次迭代中,整个粒子群搜索到的全局最优解;
每一次粒子迭代的速度方向为惯性方向、局部最优方向、全局最优方向三者的向量和。
所述的学习因子,具体为采用如下算式计算学习因子:
Figure BDA0003896029390000061
Figure BDA0003896029390000062
式中c1e为c1的终值;c1f为c1的初值;t为对应的迭代次数;tmax为最大迭代次数;c2e为c2的终值;c2f为c2的初值。
所述的第n次更新时的惯性权重,具体为采用如下算式计算第n次更新时的惯性权重:
Figure BDA0003896029390000063
式中ωn为第n次更新时的惯性权重;ωmax为ωn的最大值;ωmin为ωn的最小值;t为对应的迭代次数;tmax为最大迭代次数。
本发明还公开了一种实现所述基于随机森林的超特高压换流阀故障检测方法的系统,包括数据获取模块、训练数据集构建模块、检测初始模型构建模块、最优参数计算模块、检测模型训练模块和故障检测模块;数据获取模块、训练数据集构建模块、检测初始模型构建模块、最优参数计算模块、检测模型训练模块和故障检测模块依次串联;数据获取模块用于获取换流阀的历史运行数据,并将数据上传训练数据集构建模块;训练数据集构建模块用于对接收的数据进行数据处理,得到训练数据集,并将数据上传检测初始模型构建模块;检测初始模型构建模块用于根据接收的数据,基于随机森林模型,构建换流阀故障检测初始模型,并将数据上传最优参数计算模块;最优参数计算模块用于根据接收的数据,基于粒子群算法,计算得到换流阀故障检测初始模型的最优参数,并将数据上传检测模型训练模块;检测模型训练模块用于根据接收的数据,采用训练数据集,基于最优参数,对换流阀故障检测初始模型进行训练,得到换流阀故障检测模型,并将数据上传故障检测模块;故障检测模块用于根据接收的数据,采用换流阀故障检测模型进行实际换流阀的故障检测。
本发明提供的这种基于随机森林的超特高压换流阀故障检测方法及系统,首先进行数据预处理,去除冗余特征及保留相关性较高的特征,然后使用粒子群算法与极端随机森林模型相结合,引入误分类代价,解决了数据样本类别分布不平衡的问题,提高了模型预测的综合性能;因此本发明的可靠性高、准确性好,且客观科学。
附图说明
图1为本发明方法的方法流程示意图。
图2为本发明方法中的极端随机森林结构示意图。
图3为本发明方法中的极端随机森林故障树分裂示意图。
图4为本发明方法与现有技术进行对比时的检测效果对比示意图。
图5为本发明系统的功能模块示意图。
具体实施方式
如图1所示为本发明方法的方法流程示意图:本发明提供的这种基于随机森林的超特高压换流阀故障检测方法,包括如下步骤:
S1.获取换流阀的历史运行数据;
S2.对步骤S1获取的历史运行数据进行数据处理,得到训练数据集;具体包括如下步骤:
由于换流阀运行过程复杂,其所产生的状态量也较复杂,存在较多冗余变量,会使得模型训练的复杂度加大,模型的预测性能也会收到影响;
从SCADA数据集中采集得来的数据先进行初步的数据清洗;
采用如下算式计算皮尔逊相关性系数:
Figure BDA0003896029390000081
式中E()为样本期望计算;μX为样本X均值;μY为样本Y均值;σX为样本X标准差;σY为样本Y标准差;ρXY为数据集中样本X和样本Y之间的相关性系数,当相关性系数处于[-1,0]区间时表明样本之间存在负相关关系,当相关性系数处于[0,1]区间时表明样本之间存在正相关关系,当相关性系数为0时表明样本之间不存在相关性;当相关性系数的绝对值处于[0,0.4]区间时表明样本之间存在弱相关性关系,当相关性系数的绝对值处于[0.4,0.6]区间时表明样本之间存在中度相关性关系,当相关性系数的绝对值处于[0.6,1]区间时表明样本之间存在强相关性关系;
根据计算得到的皮尔逊相关性系数,将存在强相关性关系的冗余样本去除;
采用如下算式计算重要性评分:
Figure BDA0003896029390000082
式中VIj为第j个特征的重要性评分;n为树的棵数;M为第j个特征在决策树i中出现的集合;Gm为第m个节点的基尼系数,且
Figure BDA0003896029390000083
T为类别数量,pmt为第m个节点中类别t所占的比例;G1和Gr为节点分支后两个新节点的基尼系数;
根据各个特征的重要性评分,采用随机森林进行排序,从而筛选得到对结果贡献大于设定值的特征;
S3.基于随机森林模型,构建换流阀故障检测初始模型;具体包括如下步骤:
采用极端随机森林模型构建换流阀故障检测初始模型;极端随机森林模型的定义为:
Figure BDA0003896029390000091
Figure BDA0003896029390000092
式中Pt(c|fi)为条件概率,表示在向量fi的情况下,样本属于c的概率;D为决策树的棵树;
Figure BDA0003896029390000093
为决策树的分类概率;
Figure BDA0003896029390000094
为最终决策树投票机制的原则;
对于所选取特征选取为分裂特征的过程,使用算式
Figure BDA0003896029390000095
通过分数度量的方式,在叶子结点进行分裂时,分裂特征选取为得分最高的特征,把小于分裂阈值的样本放入分裂后的左叶子节点,大于或等于阈值的样本放入右叶子节点;反复递归上述步骤,直到叶子结点中样本混乱程度为0,满足停止分裂条件即可;其中,Scorek为特征通过计算后得到的分数度量,Ik为节点在对应特征和分裂阈值的基础上,分裂后两个子集关于样本类别的互信息;Hk为特征k的分裂熵;Hc为对应样本类别的信息熵;
针对换流阀故障数据样本极少,正常数据样本庞大,即数据样本类别不平衡的问题,提出了基于代价敏感的极端随机森林算法;首先,该方法在评估标准中引入误分类代价,将故障检测决策树的目的从节点样本混乱程度最小化、检测精度最大化转变为误分类代价最小化;其次,分裂指标从遍历所有特征得到的分数度量最高的分裂特征转变为误分类代价,同时,CS-ERT的目标函数设置为最小化误分类代价;最后基于CS-ERT的模型检测结果通过投票机制建立;
CS-ERT是一种将代价敏感与极端随机森林结合起来,ERT的一种衍生算法,代价敏感的引入解决了故障样本极少导致的检测精度低等问题,上述引入的误分类代价在此可以用矩阵的形式表达;设定样本数据集中包括n个类别,每个类别中存在n个五分类代价参数,则误分类代价矩阵表示为
Figure BDA0003896029390000101
其中Cij为实数,表示将i类样本误分为j类样本的代价参数,且
Figure BDA0003896029390000102
基于换流阀故障检测故障种类多,且同时出现多个故障时会出现检测精度低的问题,导致模型性能不佳,因此将换流阀故障检测问题作为二分类问题,从而构建换流阀故障检测二分类问题混淆矩阵;其中,参量CTN为正确预测为正常类别,CFP为正常预测为故障类别,CFN为错误预测为正常类别,CTP为错误预测为故障类别,根据换流阀的故障检测情况,正确预测的两种情况所对应的代价参数为零,而错误预测的两种情况中,错误预测为正确类别(CFN)对结果造成的负面影响要大于错误预测为故障类别(CFP),则有0=CTN=CTP<CFP<CFN
如图2所示为极端随机森林结构示意图;基本结构为首先生成样本子集,然后建立CS-ERT故障数以及最后对多个故障树进行投票决策;具体实现为首先把数据集D中样本数据分为训练数据和测试数据,然后基于极端随机森林的特点,生成n个与训练集相同的样本子集,接着利用完整的训练集来训练CS-ERT的每一棵故障树,基于所有基分类器的分类结果,采用投票即少数服从多数的方式生成最终结果;
如图3所示为极端随机森林故障树分裂示意图;由于CS-ERT是由ERT衍生而来,所以在结点分裂过程中同样具有随机性,且仍然由根节点、叶子节点、分支节点组成;如果某节点属于分支节点,则会在其样本中随机选择一个值作为该节点分裂的分裂阈值,进行如上节点的分裂;如果其为叶子节点,则此节点分裂结束,其中所有值归类为同一个样本类别;
CS-ERT与ERT不同的是将熵值梯度下降改为代价梯度下降的思想,同时CS-ERT的代价函数设计为误分类代价增益,在节点进行分裂时,类比于极端随机森林,本发明定义了节点的误分类代价,且规定误分类代价增益最大的特征作为分裂特征;节点误分类代价定义为C=Cp+CN;式中C为节点的误分类代价;Cp为节点处于故障类的代价,且Cp=CFPNFP+CTPNTP,NFP为错误预测为故障类别的样本数量,NTP为正确预测为故障类别的样本数量;CN为节点处于正常类的代价,且CN=CFNNFN+CTNNTN,NFN为错误预测为正常类别的样本数量,NTN为正确预测为正常类别的样本数量;
由于CTN=CTP=0,得到
Figure BDA0003896029390000111
Figure BDA0003896029390000112
其中Np为故障样本的总数,NN为正常样本的总数;
对于代价函数,采用如下算式作为对于特征m的误分类代价增益GK
Figure BDA0003896029390000113
式中CF为分裂前父节点的误分类代价,Cl为分裂后左边子节点的误分类代价,Cr为分裂后右边子节点的误分类代价,Al为分裂后左边的子节点中样本数量,Ar为分裂后右边的子节点中样本数量;不难看出,子节点误分类代价前的系数即为子节点代价的加权系数,父节点误分类代价与其作差即可得到此节点的误分类代价增益;
由于换流阀故障检测中样本不平衡的情况,以往使用的集成算法在训练模型的时候,结果往往会偏向数量多的样本类别,而CS-ERT算法在误分类代价增益中引入类分布,从而让模型更为关心样本数量极少的故障类数据,提高了算法的精度,提高了模型的检测性能;
基于贝叶斯定理,判定误分类代价函数最小的类别为对应的叶子节点的类别;对应有
Figure BDA0003896029390000121
Figure BDA0003896029390000122
为误分类代价函数值,p(cn|x)为样本x属于类别cn的后验概率,cmn为将第m类样本分类为第n类样本的代价;通过在节点分裂时的批判指标中加入误分类代价从而实现代价敏感,解决样本不平衡导致的结果不准确等问题;
采用如下算式作为模型的目标函数:
Figure BDA0003896029390000123
式中Cn为误分类代价;α|N|为正则项;N为节点总数;
当所有的基分类器运行结束时,最终的样本类别采用少数服从多数的方式决定;对应有
Figure BDA0003896029390000124
其中G为样本子集数量,I()为指数函数,h(x,θg)为基分类器模型,θg为独立同分布的随机向量,k为基分类器的分类结果;
S4.基于粒子群算法,计算得到换流阀故障检测初始模型的最优参数;具体包括如下步骤:
设定目标搜索空间为D维空间,粒子群体有M个粒子;其中,第t个粒子的位置用D维向量表示为Xt=(xt1,xt2,...,xtD);第t个粒子的速度表示为Vtd=(vt1,vt2,...,vtD);第t个粒子搜索到的局部最优解表示为Ptd.pbest=(pt1,pt2,...,ptD);整个粒子群搜索到的全局最优解表示为Pd,gbest=(P1,gbest,P2,gbest,...,PD,gbest);t=1,2,...,D;
第t个粒子搜索到的最佳区域的适应值为fp,粒子群搜索到的最佳区域的适应值为fg
在局最部优解以及全局最优解的基础上,每个粒子采用公式更新自身的速度和位置,从而以最快的速度得到最终结果:
速度更新公式:
Figure BDA0003896029390000131
位置更新公式:
Figure BDA0003896029390000132
式中Vt n+1为第t个粒子更新后的速度值;Vt n为第t个粒子更新前的速度值;ωn为第n次更新时的惯性权重;c1和c2均为学习因子;r1和r2均为0~1之间的随机数;
Figure BDA0003896029390000133
为在第n次迭代中,第t个粒子搜索到的局部最优解;
Figure BDA0003896029390000134
为第t个粒子第n次更新时的位置;
Figure BDA0003896029390000135
为为在第n次迭代中,整个粒子群搜索到的全局最优解;
每一次粒子迭代的速度方向为惯性方向、局部最优方向、全局最优方向三者的向量和;
学习因子作用于分配更新迭代中个体经验与全局经验所占得比重。当c1=0时,视为寻找过程中,无个体经验,全靠全局社会经验的分享进行更新迭代,收敛速度比较快,但容易陷入局部最优;当c2=0时,视为在粒子更新速度位置时,仅仅依靠个体经验,未获取到全局经验,此时难以寻找到最优解;在通常情况下,有c1=c2;如果前者较大,个体容易在自身最优位置过多漫游;如果后者较大,粒子容易被吸引到当前的全局最优解;因此,为了克服这种缺陷,本发明采用如下算式计算学习因子:
Figure BDA0003896029390000141
Figure BDA0003896029390000142
式中c1e为c1的终值;c1f为c1的初值;t为对应的迭代次数;tmax为最大迭代次数;c2e为c2的终值;c2f为c2的初值;
惯性权重对算法的整体性能有较大影响,在更新粒子速度以及位置时起着不可小觑的作用;当权重较大时,粒子的速度及位置的更新会更依赖于粒子本身的经验及历史寻优,局部搜索能力下降,但是整体寻优能力得到提升;当权重较小时,局部搜索能力上升,整体寻优能力下降;在与其他参数相互配合的基础上,对惯性因子进行适当调整,使整个迭代过程更倾向于整体寻优情况,使其更快完成收敛,并且提高整体性能;因此,本发明方法采用如下算式计算第n次更新时的惯性权重:
Figure BDA0003896029390000143
式中ωn为第n次更新时的惯性权重;ωmax为ωn的最大值;ωmin为ωn的最小值;t为对应的迭代次数;tmax为最大迭代次数;
粒子群算法在实现时,主要包括如下内容:①设置惯性因子、加速参数、粒子数目等等参量;②随机初始化每个粒子的速度和位置,得到个体以及群体的最优位置和最优适应值;③进行n次更新迭代,更新每个粒子的速度和位置;④计算更新每个粒子的最优位置和最优适应值,再得到群体的最优位置和最适应值,对当前参数进行必要性更新;⑤输出全局最优解及对应的位置变量;
S5.采用步骤S2得到的训练数据集,基于步骤S4得到的最优参数,对步骤S3构建的换流阀故障检测初始模型进行训练,得到换流阀故障检测模型;
S6.采用步骤S5得到的换流阀故障检测模型,进行实际换流阀的故障检测。
以下结合一个实施例,对本发明方法的效果进行说明:
实施例选取某换流站内换流阀2020年6月至12月的实际运行数据。换流阀是直流输电系统中最重要的设备之一,在一定程度上决定了区域电网的稳定性。其制作工艺较为复杂,且作用至关重要,使得其运行过程十分复杂。本文采集的数据集包括在晶闸管组件、阀冷却组件、阀避雷器以及外部环境中出现的一系列运行数据,其最主要的换流阀故障主要是IGBT器件驱动故障、IGBT器件击穿、通信故障、子模块取能电源故障以及子模块中控板故障。
数据集包括1431组数据,其中,正常状态809例,注意状态398例,异常状态165例,严重状态59例。按故障数量的多少或严重程度划分上述状态,然后按比例划分训练集和测试集,如表1所示。
表1数据分布示意表
数据类型 样本数量 训练数量 测试样本 不平衡度
正常 809 539 270 1.58
注意 398 265 133 2.08
异常 165 110 55 4.89
严重 59 39 20 13.29
样本总数 1431 953 478 5.46
对上述采集到的数据进行数据预处理,数据清洗将重复、多余的数据筛选清除,且将状态量一直为0的特征删去;Person数据分析通过计算相关系数将低相关性的特征删去,保留与换流阀状态相关性较高的特征;基于此时的数据样本,采用随机森林重要性排序计算特征的综合重要度,删去重要性排序低的特征,剩下的特征作为换流阀状态的主要影响因素;具体如表2所示。
表2数据最优特征集示意表
Figure BDA0003896029390000161
通过将SCA算法(正余弦优化算法)、HHO算法(哈里斯鹰优化算法)、GWO算法(灰狼优化算法)、WOA算法(鲸鱼优化算法)和本发明方法分别带入换流阀故障模型流程图,达到比较分析的目的。其中改进粒子群优化算法中粒子数目设置为35个,五种优化算法均进行十次试验。在经过数据预处理之后,用漏检率(MAR),平均误分类代价(AMC),gMean以及运行时间作为指标来评估五个算法的综合性能,如图4所示;
在图4(a)中,很明显使用本发明方法的模型具有最低的漏检率,本发明方法的平均漏检率为0.0241,其他四种算法的平均漏检率均高于0.05,WOA的平均漏检率比本发明方法高出0.19;在图4(b)中,本发明方法展现了良好的参数寻优性能,使得CS-ERT具有最低的误分类代价,其平均误分类代价为0.007,比紧随其后的SCA算法低0.038,在此评价标准上WOA仍然比本发明方法变现差;在图4(c)中,本发明方法的gMean值达到最高,代表本发明方法的正确检测率最高,性能表现最好且优于前四种算法,平均gMean值比表现次于本发明方法的SCA算法高了0.25;在图4(d)中,很明显本发明方法的运行时间优于其他四种算法,平均运行时间控制在0.06s,运行最慢的GWO算法平均运行时间高达1.4s,可见,本发明方法大大提升了模型运行速度。总的来看,本发明方法的综合性能表现最好,相比较于其他四种算法,本发明方法不容易受噪声影响,集成性能及泛化能力最强,能够成分考虑检测样本的误分类代价,最大程度减少模型偏差并提高故障检测性能。
如图5所示为本发明系统的功能模块示意图:本发明公开的这种实现所述基于随机森林的超特高压换流阀故障检测方法的系统,包括数据获取模块、训练数据集构建模块、检测初始模型构建模块、最优参数计算模块、检测模型训练模块和故障检测模块;数据获取模块、训练数据集构建模块、检测初始模型构建模块、最优参数计算模块、检测模型训练模块和故障检测模块依次串联;数据获取模块用于获取换流阀的历史运行数据,并将数据上传训练数据集构建模块;训练数据集构建模块用于对接收的数据进行数据处理,得到训练数据集,并将数据上传检测初始模型构建模块;检测初始模型构建模块用于根据接收的数据,基于随机森林模型,构建换流阀故障检测初始模型,并将数据上传最优参数计算模块;最优参数计算模块用于根据接收的数据,基于粒子群算法,计算得到换流阀故障检测初始模型的最优参数,并将数据上传检测模型训练模块;检测模型训练模块用于根据接收的数据,采用训练数据集,基于最优参数,对换流阀故障检测初始模型进行训练,得到换流阀故障检测模型,并将数据上传故障检测模块;故障检测模块用于根据接收的数据,采用换流阀故障检测模型进行实际换流阀的故障检测。

Claims (7)

1.一种基于随机森林的超特高压换流阀故障检测方法,包括如下步骤:
S1.获取换流阀的历史运行数据;
S2.对步骤S1获取的历史运行数据进行数据处理,得到训练数据集;
S3.基于随机森林模型,构建换流阀故障检测初始模型;
S4.基于粒子群算法,计算得到换流阀故障检测初始模型的最优参数;
S5.采用步骤S2得到的训练数据集,基于步骤S4得到的最优参数,对步骤S3构建的换流阀故障检测初始模型进行训练,得到换流阀故障检测模型;
S6.采用步骤S5得到的换流阀故障检测模型,进行实际换流阀的故障检测。
2.根据权利要求1所述的基于随机森林的超特高压换流阀故障检测方法,其特征在于步骤S2所述的数据处理,具体包括如下步骤:
采用如下算式计算皮尔逊相关性系数:
Figure FDA0003896029380000011
式中E()为样本期望计算;μX为样本X均值;μY为样本Y均值;σX为样本X标准差;σY为样本Y标准差;ρXY为数据集中样本X和样本Y之间的相关性系数,当相关性系数处于[-1,0]区间时表明样本之间存在负相关关系,当相关性系数处于[0,1]区间时表明样本之间存在正相关关系,当相关性系数为0时表明样本之间不存在相关性;当相关性系数的绝对值处于[0,0.4]区间时表明样本之间存在弱相关性关系,当相关性系数的绝对值处于[0.4,0.6]区间时表明样本之间存在中度相关性关系,当相关性系数的绝对值处于[0.6,1]区间时表明样本之间存在强相关性关系;
根据计算得到的皮尔逊相关性系数,将存在强相关性关系的冗余样本去除;
采用如下算式计算重要性评分:
Figure FDA0003896029380000021
式中VIj为第j个特征的重要性评分;n为树的棵数;M为第j个特征在决策树i中出现的集合;Gm为第m个节点的基尼系数,且
Figure FDA0003896029380000022
T为类别数量,pmt为第m个节点中类别t所占的比例;G1和Gr为节点分支后两个新节点的基尼系数;
根据各个特征的重要性评分,采用随机森林进行排序,从而筛选得到对结果贡献大于设定值的特征。
3.根据权利要求2所述的基于随机森林的超特高压换流阀故障检测方法,其特征在于步骤S3所述的基于随机森林模型,构建换流阀故障检测初始模型,具体包括如下步骤:
采用极端随机森林模型构建换流阀故障检测初始模型;
设定样本数据集中包括n个类别,每个类别中存在n个五分类代价参数,则误分类代价矩阵表示为
Figure FDA0003896029380000023
其中Cij为实数,表示将i类样本误分为j类样本的代价参数,且
Figure FDA0003896029380000024
将换流阀故障检测问题作为二分类问题,从而构建换流阀故障检测二分类问题混淆矩阵;其中,参量CTN为正确预测为正常类别,CFP为正常预测为故障类别,CFN为错误预测为正常类别,CTP为错误预测为故障类别,且0=CTN=CTP<CFP<CFN
节点误分类代价定义为C=Cp+CN;式中C为节点的误分类代价;Cp为节点处于故障类的代价,且Cp=CFPNFP+CTPNTP,NFP为错误预测为故障类别的样本数量,NTP为正确预测为故障类别的样本数量;CN为节点处于正常类的代价,且CN=CFNNFN+CTNNTN,NFN为错误预测为正常类别的样本数量,NTN为正确预测为正常类别的样本数量;
由于CTN=CTP=0,得到
Figure FDA0003896029380000031
Figure FDA0003896029380000032
其中Np为故障样本的总数,NN为正常样本的总数;
对于代价函数,采用如下算式作为对于特征m的误分类代价增益GK
Figure FDA0003896029380000033
式中CF为分裂前父节点的误分类代价,Cl为分裂后左边子节点的误分类代价,Cr为分裂后右边子节点的误分类代价,Al为分裂后左边的子节点中样本数量,Ar为分裂后右边的子节点中样本数量;
基于贝叶斯定理,判定误分类代价函数最小的类别为对应的叶子节点的类别;对应有
Figure FDA0003896029380000034
Figure FDA0003896029380000035
为误分类代价函数值,p(cn|x)为样本x属于类别cn的后验概率,cmn为将第m类样本分类为第n类样本的代价;
采用如下算式作为模型的目标函数:
Figure FDA0003896029380000036
式中Cn为误分类代价;α|N|为正则项;N为节点总数;
当所有的基分类器运行结束时,最终的样本类别采用少数服从多数的方式决定;对应有
Figure FDA0003896029380000041
其中G为样本子集数量,I()为指数函数,h(x,θg)为基分类器模型,θg为独立同分布的随机向量,k为基分类器的分类结果。
4.根据权利要求3所述的基于随机森林的超特高压换流阀故障检测方法,其特征在于步骤S4所述的基于粒子群算法,计算得到换流阀故障检测初始模型的最优参数,具体包括如下步骤:
设定目标搜索空间为D维空间,粒子群体有M个粒子;其中,第t个粒子的位置用D维向量表示为Xt=(xt1,xt2,...,xtD);第t个粒子的速度表示为Vtd=(vt1,vt2,...,vtD);第t个粒子搜索到的局部最优解表示为Ptd.pbest=(pt1,pt2,...,ptD);整个粒子群搜索到的全局最优解表示为Pd,gbest=(P1,gbest,P2,gbest,...,PD,gbest);t=1,2,...,D;
第t个粒子搜索到的最佳区域的适应值为fp,粒子群搜索到的最佳区域的适应值为fg
在局最部优解以及全局最优解的基础上,每个粒子采用公式更新自身的速度和位置,从而以最快的速度得到最终结果:
速度更新公式:
Figure FDA0003896029380000042
位置更新公式:
Figure FDA0003896029380000043
式中Vt n+1为第t个粒子更新后的速度值;Vt n为第t个粒子更新前的速度值;ωn为第n次更新时的惯性权重;c1和c2均为学习因子;r1和r2均为0~1之间的随机数;
Figure FDA0003896029380000044
为在第n次迭代中,第t个粒子搜索到的局部最优解;
Figure FDA0003896029380000045
为第t个粒子第n次更新时的位置;
Figure FDA0003896029380000046
为为在第n次迭代中,整个粒子群搜索到的全局最优解;
每一次粒子迭代的速度方向为惯性方向、局部最优方向、全局最优方向三者的向量和。
5.根据权利要求4所述的基于随机森林的超特高压换流阀故障检测方法,其特征在于所述的学习因子,具体为采用如下算式计算学习因子:
Figure FDA0003896029380000051
Figure FDA0003896029380000052
式中c1e为c1的终值;c1f为c1的初值;t为对应的迭代次数;tmax为最大迭代次数;c2e为c2的终值;c2f为c2的初值。
6.根据权利要求5所述的基于随机森林的超特高压换流阀故障检测方法,其特征在于所述的第n次更新时的惯性权重,具体为采用如下算式计算第n次更新时的惯性权重:
Figure FDA0003896029380000053
式中ωn为第n次更新时的惯性权重;ωmax为ωn的最大值;ωmin为ωn的最小值;t为对应的迭代次数;tmax为最大迭代次数。
7.一种实现权利要求1~6之一所述的基于随机森林的超特高压换流阀故障检测方法的系统,其特征在于包括数据获取模块、训练数据集构建模块、检测初始模型构建模块、最优参数计算模块、检测模型训练模块和故障检测模块;数据获取模块、训练数据集构建模块、检测初始模型构建模块、最优参数计算模块、检测模型训练模块和故障检测模块依次串联;数据获取模块用于获取换流阀的历史运行数据,并将数据上传训练数据集构建模块;训练数据集构建模块用于对接收的数据进行数据处理,得到训练数据集,并将数据上传检测初始模型构建模块;检测初始模型构建模块用于根据接收的数据,基于随机森林模型,构建换流阀故障检测初始模型,并将数据上传最优参数计算模块;最优参数计算模块用于根据接收的数据,基于粒子群算法,计算得到换流阀故障检测初始模型的最优参数,并将数据上传检测模型训练模块;检测模型训练模块用于根据接收的数据,采用训练数据集,基于最优参数,对换流阀故障检测初始模型进行训练,得到换流阀故障检测模型,并将数据上传故障检测模块;故障检测模块用于根据接收的数据,采用换流阀故障检测模型进行实际换流阀的故障检测。
CN202211274809.4A 2022-10-18 2022-10-18 基于随机森林的超特高压换流阀故障检测方法及系统 Pending CN115656666A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211274809.4A CN115656666A (zh) 2022-10-18 2022-10-18 基于随机森林的超特高压换流阀故障检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211274809.4A CN115656666A (zh) 2022-10-18 2022-10-18 基于随机森林的超特高压换流阀故障检测方法及系统

Publications (1)

Publication Number Publication Date
CN115656666A true CN115656666A (zh) 2023-01-31

Family

ID=84989364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211274809.4A Pending CN115656666A (zh) 2022-10-18 2022-10-18 基于随机森林的超特高压换流阀故障检测方法及系统

Country Status (1)

Country Link
CN (1) CN115656666A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116956197A (zh) * 2023-09-14 2023-10-27 山东理工昊明新能源有限公司 基于深度学习的能源设施故障预测方法、装置及电子设备
CN117168608A (zh) * 2023-11-02 2023-12-05 默拓(江苏)电气驱动技术有限公司 一种无刷电机的运行预警方法及系统
CN117491850A (zh) * 2024-01-03 2024-02-02 江苏上达半导体有限公司 一种基于人工智能的电路故障监测方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116956197A (zh) * 2023-09-14 2023-10-27 山东理工昊明新能源有限公司 基于深度学习的能源设施故障预测方法、装置及电子设备
CN116956197B (zh) * 2023-09-14 2024-01-19 山东理工昊明新能源有限公司 基于深度学习的能源设施故障预测方法、装置及电子设备
CN117168608A (zh) * 2023-11-02 2023-12-05 默拓(江苏)电气驱动技术有限公司 一种无刷电机的运行预警方法及系统
CN117168608B (zh) * 2023-11-02 2024-03-08 默拓(江苏)电气驱动技术有限公司 一种无刷电机的运行预警方法及系统
CN117491850A (zh) * 2024-01-03 2024-02-02 江苏上达半导体有限公司 一种基于人工智能的电路故障监测方法及系统
CN117491850B (zh) * 2024-01-03 2024-03-26 江苏上达半导体有限公司 一种基于人工智能的电路故障监测方法及系统

Similar Documents

Publication Publication Date Title
CN115656666A (zh) 基于随机森林的超特高压换流阀故障检测方法及系统
CN113256066B (zh) 基于PCA-XGBoost-IRF的作业车间实时调度方法
CN109871976B (zh) 一种基于聚类及神经网络的含分布式电源配电网电能质量预测方法
CN112507996B (zh) 一种主样本注意力机制的人脸检测方法
CN110232434A (zh) 一种基于属性图优化的神经网络架构评估方法
CN110348615B (zh) 基于蚁群优化支持向量机的电缆线路故障概率预测方法
CN109740859A (zh) 基于主成分分析法和支持向量机的变压器状态评估方法及系统
CN108920863A (zh) 一种机器人伺服系统能耗估计模型的建立方法
CN111950645A (zh) 一种通过改进随机森林提高类不平衡分类性能的方法
CN106529580A (zh) 结合edsvm的软件缺陷数据关联分类方法
CN111292124A (zh) 一种基于优化组合神经网络的需水预测方法
CN108805295A (zh) 一种基于决策树算法的故障诊断方法
CN115099296A (zh) 基于深度学习算法的海浪高度预测方法
CN111695288B (zh) 一种基于Apriori-BP算法的变压器故障诊断方法
CN113205125A (zh) 一种基于XGBoost的特高压换流阀运行状态评估方法
CN113869145A (zh) 轻量级梯度提升机和麻雀搜索的电路故障诊断方法及系统
CN107480441B (zh) 一种儿童脓毒性休克预后预测的建模方法及系统
CN115600088A (zh) 一种基于振动信号的配电变压器故障诊断方法
CN110673568A (zh) 玻璃纤维制造业工业设备故障顺序确定方法及系统
CN113782113B (zh) 一种基于深度残差网络下的变压器油中气体故障识别方法
CN113469252A (zh) 一种考虑不平衡样本的特高压换流阀运行状态评估方法
CN113030633B (zh) 基于ga-bp神经网络的配电网故障大数据分析方法和系统
CN113988220A (zh) 一种采煤机健康状态评估方法
CN114091334A (zh) 基于改进蝙蝠算法和支持向量机的局部放电故障诊断方法
CN113496255B (zh) 基于深度学习与决策树驱动的配电网混合观测布点方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination