CN116720079A - 基于多特征融合的风力发电机故障模式识别方法及系统 - Google Patents

基于多特征融合的风力发电机故障模式识别方法及系统 Download PDF

Info

Publication number
CN116720079A
CN116720079A CN202310629189.XA CN202310629189A CN116720079A CN 116720079 A CN116720079 A CN 116720079A CN 202310629189 A CN202310629189 A CN 202310629189A CN 116720079 A CN116720079 A CN 116720079A
Authority
CN
China
Prior art keywords
fault
feature
data
wind turbine
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310629189.XA
Other languages
English (en)
Inventor
汪臻
邵林芳
邓巍
沈伟文
赵勇
汤浩然
张伟平
李壮
朱义倩
魏浩
李印凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Thermal Power Research Institute Co Ltd
Clean Energy Branch of Huaneng Zhejiang Energy Development Co Ltd
Original Assignee
Xian Thermal Power Research Institute Co Ltd
Clean Energy Branch of Huaneng Zhejiang Energy Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Thermal Power Research Institute Co Ltd, Clean Energy Branch of Huaneng Zhejiang Energy Development Co Ltd filed Critical Xian Thermal Power Research Institute Co Ltd
Priority to CN202310629189.XA priority Critical patent/CN116720079A/zh
Publication of CN116720079A publication Critical patent/CN116720079A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R31/00Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
    • G01R31/34Testing dynamo-electric machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Wind Motors (AREA)

Abstract

本发明公开了一种基于多特征融合的风力发电机故障模式识别方法及系统,从风电场的数据采集系统中获取发电机运行时的SCADA数据;分别对不同故障数据进行编码,制作标签,作为模型数据集;并将得到的带有标签的故障数据集,采用灰色关联度分析对不同故障分别进行特征权重排序,按照前向搜索原则,选择权值最高的若干特征作为故障对应的特征向量;采用若干特征量进行故障诊断实验,提取出特定故障下故障识别率达到最高时的最简特征组合;最后对风力发电机的不同故障缺陷最简特征组合取并集,将特征融合为最终输入的特征向量,完成构建基于多特征融合的XGboost算法风力发电机故障模式识别模型,实现了发电机系统的故障模式的精确匹配及故障对象的精准定位。

Description

基于多特征融合的风力发电机故障模式识别方法及系统
技术领域
本发明属于风力发电机故障诊断技术领域,具体涉及一种基于多特征融合的风力发电机故障模式识别方法及系统。
背景技术
风机数据采集与监控(Supervisory Control And Data Acquisition,SCADA)系统作为风场的基本组成部分,能提供丰富的有关风电机组运行状态的外界环境、电气和机械等信息。SCADA系统访问的便捷性与存储数据的大量性,但SCADA参数不一定能直接反映风力发电机的健康状况。因此,如何对SCADA数据进行数据挖掘,实现基于SCADA数据的故障诊断成为风电机组故障诊断领域重点研究问题之一。发电机系统是风电机组高频发生故障的系统之一,基于SCADA数据能够对发电机系统故障进行诊断。然而,由于发电机系统的故障模式及故障原因复杂多样,且不同的故障模式之间存在着一定的耦合,故障模式的精确匹配及故障对象的精准定位成为了目前亟待解决的问题。
同时,由于SCADA系统中的数据过于庞大,许多特征量与发电机故障无关,甚至会对检测结果造成干扰,这会对故障模式的精确匹配及故障对象的精准定位的结果产生较大的干扰。发电机系统具有多种故障模式,不同的故障模式映射到不同的特征量上。因此,特征提取对于故障模式的精准定位起着非常重要的作用,如何有效对SCADA数据进行特征选择是实现故障模式的精准定位与匹配中需要重点考虑的问题。
机器学习故障诊断的方法应用在故障诊断中有着广泛的应用,该方法对含有早期故障的SCADA数据进行数据预处理,随后基于专家的经验知识、深度学习等方法直接对数据进行特征提取,最后将特征输入模型进行故障诊断。由于风力发电机的故障模式多样,且不同故障间存在一定耦合,目前针对发电机故障的特征提取方法主要为选取与发电机输出功率或发电机油温相关的特征,然后进行故障模式分类,但这种方法没有考虑不同故障之间存在的耦合关系,会造成一部分关键特征信息的缺失。因此,有必要研究多特征融合技术在发电机故障诊断中的应用,以实现发电机具体故障模式的识别与故障对象的精准定位。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于多特征融合的风力发电机故障模式识别方法及系统,用于解决故障模式识别中故障模式无法匹配及故障对象无法定位的技术问题。
本发明采用以下技术方案:
基于多特征融合的风力发电机故障模式识别方法,包括以下步骤:
S1、获取风力发电机SCADA数据并对数据进行预处理,构建带标签的数据集;
S2、基于步骤S1得到的带有标签的故障数据集,采用灰色关联度分析对不同故障分别进行特征权重排序;
S3、按照前向搜索原则,选择权值最高的若干特征作为故障对应的特征向量,采用步骤S2中的特征向量进行故障诊断实验,提取特定故障下故障识别率达到最高时的最简特征组合;
S4、基于步骤S3对风力发电机的不同故障缺陷的最简特征组合取并集,融合为最终输入的特征向量;
S5、构建基于多特征融合XGboost算法的风电机组发电机故障诊断模型,选择训练数据和训练迭代次数,对风电机组发电机故障诊断模型进行训练,得到训练好的具有风力发电机故障模式识别能力的风电机组发电机故障模式识别模型,输入步骤S4得到的特征向量,完成风力发电机故障模式识别。
具体的,步骤S2中,采用灰色关联度分析对不同故障分别进行特征权重排序具体为:
S201、确定参考序列及特征序列,选取其他特征SCADA数据为特征序列;
S202、对原始数据无量纲化处理;
S203、计算灰色关联系数和灰色关联度;
S204、对参考数列R0和比较数列Ri的关联度按从大到小排序。
进一步的,步骤S202中,采用区间值化的方法对不同的特征数据进行标准化处理:
其中,j=1,2,…,k,i∈R,Ri(j)为标准化后的取值,miaxRi(j)为实际测量值最大值,miinRi(j)为实际测量值最小值。
进一步的,步骤S203中,灰色关联系数和灰色关联度γ(X0,Xi)为:
其中,k为数据量,ζi(j)为对应不同特征量下的灰色关联系数。
具体的,步骤S3中,最简特征组合为:
Xi={ε12,…εn}
其中,N为待诊断的故障数量,i=1,2,…,N,ε为特征量。
具体的,步骤S4中,最终输入的特征向量X为:
X=X1∪X2∪…∪XN
其中,XN为对应故障下的特征组合。
具体的,步骤S5中,设置学习率r为0.01,迭代次数变量为Num,输入训练数据,当模型在训练数据上的分类损失函数loss小于0.01或者等于迭代次数变量Num时保存。
具体的,步骤S5中,采用XGboost分类器对风电机组发电机故障诊断模型进行处理如下:
S501、由k个基模型组成XGboost;
S502、由预测值与真实值yi表示损失函数;
S503、确定boosting模型对第i个样本xi的预测;
S504、根据泰勒公式把目标函数对进行泰勒的二阶展开;
S505、定义决策树为ft(x)=wq(x),x为某一样本,q(x)代表样本在哪个叶子结点上,wq代表叶子结点取值w,wq(x)代表每个样本的取值w,决策树的复杂度由叶子数T组成,确定目标函数的正则项。
进一步的,步骤S505中,目标函数的正则项Obj为:
其中,T为叶子节点个数,γ为超参数,λ为超参数,Hj为损失函数一阶偏导数对应值,为损失函数二阶偏导数对应值。
第二方面,本发明实施例提供了一种基于多特征融合的风力发电机故障模式识别系统,包括:
数据模块,获取风力发电机SCADA数据并对数据进行预处理,构建带标签的数据集;
排序模块,基于数据模块得到的带有标签的故障数据集,采用灰色关联度分析对不同故障分别进行特征权重排序;
提取模块,按照前向搜索原则,选择权值最高的若干特征作为故障对应的特征向量,采用排序模块中的特征向量进行故障诊断实验,提取特定故障下故障识别率达到最高时的最简特征组合;
融合模块,基于提取模块对风力发电机的不同故障缺陷的最简特征组合取并集,融合为最终输入的特征向量;
识别模块,构建基于多特征融合XGboost算法的风电机组发电机故障诊断模型,选择训练数据和训练迭代次数,对风电机组发电机故障诊断模型进行训练,得到训练好的具有风力发电机故障模式识别能力的风电机组发电机故障模式识别模型,输入融合模块得到的特征向量,完成风力发电机故障模式识别。。
与现有技术相比,本发明至少具有以下有益效果:
基于多特征融合的风力发电机故障模式识别方法,首先,对不同故障数据进行编码,制作标签,作为模型数据集;并将得到的带有标签的故障数据集,采用灰色关联度分析对不同故障分别进行特征权重排序,确定故障特征量的重要性和优先级,按照前向搜索原则,选择权值最高的若干特征作为故障对应的特征向量,得到与故障相关性最大的数个特征量,即与故障关系最密切的特征;然后,采用若干特征量进行故障诊断实验,提取出特定故障下故障识别率达到最高时的最简特征组合,去除与故障无关或影响较小的特征,简化计算及模型复杂度,提高运算速度;最后对风力发电机的不同故障缺陷最简特征组合取并集,将特征融合为最终输入的特征向量,完成构建基于多特征融合的XGboost算法风力发电机故障模式识别模型,实现发电机系统的故障模式的精确匹配及故障对象的精准定位。
进一步的,通过灰色关联度分析,可以确定不同故障的影响因素,从而确定优先处理的故障因素,通过对故障特征的权重排序,可以确定故障特征量的重要性和优先级,方便后续特征量的选择和数据处理。
进一步的,减小异常值的影响,通过将连续的数值特征离散化为若干区间,可以有效减少异常值对结果的影响,从而提高模型的鲁棒性;将不同单位的特征统一处理,消除不同特征量纲不同带来的影响,通过区间值化的方法将数值特征离散化到相同的区间范围,可以将不同特征之间的数值进行比较和计算;改善模型的预测能力,区间值化的方法可以帮助模型更好地处理数据,提高预测准确率和稳定性,从而改善模型的预测能力;降低计算复杂度,将连续的数值特征离散化后,可以将计算转换为离散化的区间值,从而降低计算复杂度并提高计算效率。
进一步的,使得数据更加可靠和准确。通过灰色关联度的计算,可以找出故障数据与其他数据之间的关联程度,从而确定它们之间的相似性和差异性。这样可以帮助模型更好地确定数据之间的关系,进而预测未来的趋势和变化。
进一步的,简化输入模型的特征数量,去除与故障无关或影响较小的特征,简化计算及模型复杂度,提高模型的整体运算速度和故障识别的效率。
进一步的,融合多个故障特征量输入,实现多故障同时诊断,实现发电机系统的故障模式的精确匹配及故障对象的精准定位。
进一步的,设置学习率r为0.01,迭代次数变量为Num,输入训练数据,当模型在训练数据上的分类损失函数loss小于0.01或者等于迭代次数变量Num时保存设置的目的或好处,确保模型在训练数据上具有足够的准确性和泛化能力,从而避免过拟合或欠拟合的问题。同时,保存模型也可以帮助我们在后续的预测或测试过程中快速加载模型,提高效率和准确性。
进一步的,提高准确性和泛化能力,XGBoost是一种基于决策树的集成学习方法,能够通过集成多个弱分类器来提高模型的准确性和泛化能力;防止模型过拟合,减少噪声对模型的影响,防止模型过于复杂,导致计算量变大,计算效率下降。
进一步的,正则项的设置可以避免过拟合现象的发生,提高模型的泛化能力。过拟合指模型过于复杂,过度拟合训练数据,导致在新的数据上表现不佳。通过在损失函数中添加正则项,可以惩罚模型的复杂度,限制模型的参数大小,从而避免过拟合。同时,正则项的设置也可以使得模型更加稳定,减少噪声对模型的影响。
可以理解的是,上述第二方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
综上所述,基于多特征融合的风力发电机故障模式识别方法可快速实现故障模式的精确匹配及故障对象的精准定位,在实际应用中可实现代替人工检测故障,大大减少人工成本,提高风力发电运行的整体效益。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明方法流程图;
图2为故障特征提取及多特征融合方法示意图;
图3为XGboost的创建过程示意图;
图4为XGboost的决策过程示意图;
图5基于多特征融合的XGboost算法的风力发电机故障诊断模型图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本发明中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等,但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一预设范围也可以被称为第二预设范围,类似地,第二预设范围也可以被称为第一预设范围。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
本发明提供了一种基于多特征融合的风力发电机故障模式识别方法,以一定时间间隔从风电场的数据采集系统中获取发电机运行时的SCADA数据,将其作为待处理的数据;然后分别对不同故障数据进行编码,制作标签,作为模型的数据集。并将得到的带有标签的故障数据集,采用灰色关联度分析对不同故障分别进行特征权重排序,按照前向搜索原则,选择权值最高的若干特征作为该故障对应的特征向量。采用若干特征量进行故障诊断实验,提取出特定故障下故障识别率达到最高时的最简特征组合;最后对风力发电机的不同故障缺陷最简特征组合取并集,将特征融合为最终输入的特征向量,完成构建基于多特征融合的XGboost算法风力发电机故障模式识别模型,实现了发电机系统的故障模式的精确匹配及故障对象的精准定位。
本发明一种基于多特征融合的风力发电机故障模式识别方法,对含不同故障的风机SCADA数据分别进行特征提取,然后将故障特征进行融合作为XGBoost多分类模型的输入,最后采用XGBoost对故障对象进行精准定位,包括以下步骤:
S1、获取风力发电机SCADA数据并对数据进行预处理,构建带标签的数据集;
以一定时间间隔从风电场采集SCADA数据,从将SCADA数据信号中删除缺值点和停机点,选出正常功率点,然后将其作为待处理的数据。
基于对风力发电机的故障缺陷类型对应的SCADA数据进行编码,制作标签,按照2:3的数量比例将数据分为测试集和训练集,作为风电机组发电机故障诊断模型的数据集。
S2、基于灰色关联度分析提取不同故障对应的代表特征
基于步骤S1得到的带有标签的故障数据集,采用灰色关联度分析对不同故障分别进行特征权重排序,并对特征进行降维,提取出特定故障下故障识别率达到最高时的最简特征组合:采用灰色关联度分析法度量各特征量与故障间的关联度,并对特征关联度按从大到小进行排序,选取若干特征量进行故障诊断实验,提取出该故障下故障识别率最高时的最简特征组合作为该故障下的特征向量。并将不同的故障特征进行融合:对风力发电机的不同故障缺陷最简特征组合取并集,融合为最终输入的特征向量,故障特征提取及多特征融合方法如图2所示;
S201、灰色关联度分析;
确定参考序列及特征序列:选取部件当前状态为参考序列,记为:
R0={R0(j)|j=1,2,…,k}
选取其他特征SCADA数据为特征序列,记为:
Ri={Ri(j)|j=1,2,…,k}
其中,N为识别库中已知SCADA数据的数量。
S202、对原始数据无量纲化处理;
采用区间值化的方法对不同的特征数据进行标准化处理
S203、计算灰色关联系数和灰色关联度
参考序列R0(j)和比较序列Ri(j)的关联系数为:
记Δi(j)=|R0(j)-Ri(j)|,则:
其中,ρ为分辨系数。于是求出R0(j)与Ri(j)的关联系数
ζi={ζi(j),j=1,2,…,k}
比较数列Ri对参考数列R0的灰色关联度记为γ(X0,Xi),简记为γi。采用平均值法计算关联度:
S204、对参考数列R0和比较数列Ri的关联度按从大到小排序。
S3、故障特征降维
按照前向搜索原则,选择权值最高的若干特征作为该故障对应的特征向量采用步骤S2中的特征向量进行故障诊断实验,提取出特定故障下故障识别率达到最高时的最简特征组合;
Xi={ε12,…εn},i=1,2,…,N
其中,N为待诊断的故障数量。
即:
X1={x1,x2...xn}
X2={y1,y2...yn}
XN={…}
S4、多特征融合
基于步骤S2对风力发电机的不同故障缺陷最简特征组合取并集,融合为最终输入的特征向量;
X=X1∪X2∪…∪XN
S5、构建基于多特征融合的XGboost算法的风电机组发电机故障诊断模型,选择训练数据和合适的训练迭代次数,对模型进行训练,得到训练好的具有风力发电机故障模式识别能力的风电机组发电机故障模式识别模型。
请参阅图5,基于多特征融合的XGboost算法的风电机组发电机故障诊断模型采用XGboost分类器进行处理,实现待诊断数据的故障分类将融合后得到的特征向量作为XGboost分类器的输入:
定义学习率为r,设置r为0.01,迭代次数变量为Num,输入训练数据,当模型在训练数据上的分类损失函数loss小于0.01或者等于迭代次数变量Num时,保存此时的模型参数,得到训练好的具有风力发电机故障诊断能力的风电机组发电机故障诊断模型。
构建XGboost分类器具体如下:
S501、XGboost是由k个基模型组成的一个加法运算式,这里选择分类回归树来预测目标值
其中,fk为第k个基模型,为第i个样本的预测值。
S502、损失函数由预测值与真实值yi进行表示
其中,n为样本数量。
模型的预测精度由模型的偏差和方差共同决定,损失函数代表了模型的偏差,想要方差小则需要简单的模型,目标函数由模型的损失函数L与抑制模型复杂度的正则项Ω组成,目标函数为:
其中,l为一个可微的凸函数,用来衡量预测分类值与真实值yi的差异,称为损失函数;Ω函数表示正则项以防止模型过拟合。
S503、boosting模型是前向加法,以第t步的模型为例,模型对第i个样本xi的预测为:
其中,由第t-1步的模型给出的预测值,是已知常数,ft(xi)是此次迭代需要加入的新模型的预测值,此时,目标函数就可以写成:
求此时最优化目标函数,就相当于求解ft(xi)。
S504、根据泰勒公式把目标函数对进行泰勒的二阶展开,可得:
其中,gi为损失函数的一阶导,hi为损失函数的二阶导,即:
由于在第t步时是一个已知的值,所以/>是一个常数,对函数的优化不会产生影响,因此可移除,目标函数变为:
S505、定义决策树为ft(x)=wq(x),x为某一样本,这里的q(x)代表了该样本在哪个叶子结点上,而wq则代表了叶子结点取值w,所以wq(x)就代表了每个样本的取值w(即预测值),决策树的复杂度可由叶子数T组成,叶子节点越少模型越简单,此外叶子节点也不应该含有过高的权重w,目标函数的正则项(即模型的复杂度)定义为:
定义Ij={iq(xi)=j}为第j个叶子节点的样本集合,故目标函数写成:
定义则目标函数为:
其中,Gj和Hj是前t-1步得到的结果,其值已知可视为常数,只有最后一棵树的叶子节点wj不确定,将目标函数对wj求一阶导,并令其等于0,则可以求得叶子结点j对应的权值:
目标函数:
在决策树的生长过程中,采用贪心算法找到叶子的节点的最优切分点:
(1)从深度为0的树开始,对每个叶节点枚举所有的可用特征;
(2)针对每个特征,把属于该节点的训练样本根据该特征值进行升序排列,通过线性扫描的方式来决定该特征的最佳分裂点,并记录该特征的分裂收益;
(3)选择收益最大的特征作为分裂特征,用该特征的最佳分裂点作为分裂位置,在该节点上分裂出左右两个新的叶节点,并为每个新节点关联对应的样本集;
(4)回到步骤(1),递归执行到满足特定条件为止。
对决策树,计算分裂收益,确定是否分裂和确定分裂候选点:
设在某一节点完成特征分裂,则分裂前的目标函数为:
其中,GL、GR分别为分割节点左边和右边的一阶导数和,HL、HR分别为分割节点左边和右边的二阶导数和。
分裂后的目标函数为:
对于目标函数,分裂后收益为:
进行基于XGboost的决策:
(1)将生成的多棵决策树组成XGboost分类器;
(2)使用融合后的特征向量作为输入,用XGboost分类器的每个子决策树进行决策分类,计算每个决策结果的权值;
(3)将所有决策结果的权值相加作为分类结果,作为输入样本的故障类型。
本发明再一个实施例中,提供一种基于多特征融合的风力发电机故障模式识别系统,该系统能够用于实现上述基于多特征融合的风力发电机故障模式识别方法,具体的,该基于多特征融合的风力发电机故障模式识别系统包括数据模块、排序模块、提取模块、融合模块以及识别模块。
其中,数据模块,获取风力发电机SCADA数据并对数据进行预处理,构建带标签的数据集;
排序模块,基于数据模块得到的带有标签的故障数据集,采用灰色关联度分析对不同故障分别进行特征权重排序;
提取模块,按照前向搜索原则,选择权值最高的若干特征作为故障对应的特征向量,采用排序模块中的特征向量进行故障诊断实验,提取特定故障下故障识别率达到最高时的最简特征组合;
融合模块,基于提取模块对风力发电机的不同故障缺陷的最简特征组合取并集,融合为最终输入的特征向量;
识别模块,构建基于多特征融合XGboost算法的风电机组发电机故障诊断模型,选择训练数据和训练迭代次数,对风电机组发电机故障诊断模型进行训练,得到训练好的具有风力发电机故障模式识别能力的风电机组发电机故障模式识别模型,输入融合模块得到的特征向量,完成风力发电机故障模式识别。
本发明再一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于基于多特征融合的风力发电机故障模式识别方法的操作,包括:
获取风力发电机SCADA数据并对数据进行预处理,构建带标签的数据集;基于带有标签的故障数据集,采用灰色关联度分析对不同故障分别进行特征权重排序;按照前向搜索原则,选择权值最高的若干特征作为故障对应的特征向量,采用特征向量进行故障诊断实验,提取特定故障下故障识别率达到最高时的最简特征组合;基于对风力发电机的不同故障缺陷的最简特征组合取并集,融合为最终输入的特征向量;构建基于多特征融合XGboost算法的风电机组发电机故障诊断模型,选择训练数据和训练迭代次数,对风电机组发电机故障诊断模型进行训练,得到训练好的具有风力发电机故障模式识别能力的风电机组发电机故障模式识别模型,输入特征向量,完成风力发电机故障模式识别。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(Non-Volatile Memory),例如至少一个磁盘存储器。
可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关基于多特征融合的风力发电机故障模式识别方法的相应步骤;计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤:
获取风力发电机SCADA数据并对数据进行预处理,构建带标签的数据集;基于带有标签的故障数据集,采用灰色关联度分析对不同故障分别进行特征权重排序;按照前向搜索原则,选择权值最高的若干特征作为故障对应的特征向量,采用特征向量进行故障诊断实验,提取特定故障下故障识别率达到最高时的最简特征组合;基于对风力发电机的不同故障缺陷的最简特征组合取并集,融合为最终输入的特征向量;构建基于多特征融合XGboost算法的风电机组发电机故障诊断模型,选择训练数据和训练迭代次数,对风电机组发电机故障诊断模型进行训练,得到训练好的具有风力发电机故障模式识别能力的风电机组发电机故障模式识别模型,输入特征向量,完成风力发电机故障模式识别。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面为了验证本发明提出的多特征融合的XGboost算法的风力发电机故障诊断方法的有效性,采用安徽来安风电场E01风机从2019年02月01日至2019年04月30日的SCADA系统记录信息为实验数据。将发电机故障类型按照发生频率排序最后选取表1所示的两种故障作为故障种类集。
表1故障类别表
从SCADA数据信号中删除缺值点和停机点,选出正常功率点,将其作为待处理的数据。然后利用SCADA系统运行监控记录和故障记录得出故障数据集,再联合正常数据集(SCADA系统无故障时的监控记录)共同组成实验数据集。对实验数据集中的故障类数据和正常类数据进行序列编码。数据类别编码表如表2所示:
表2数据类别编码
分别对故障1(发电机驱动端轴承温度高于上限值)和故障2(低速端转速与主控测得的发电机转速不匹配)的故障数据集,采用灰色关联度分析对不同故障分别进行特征权重排序,选取权值最大的若干特征量进行故障诊断实验。
分别提取出故障1与故障2故障下故障识别率最高时的最简特征组合作为该故障下的特征向量,对于故障1则由权值最大的4个特征组合作为该故障下的特征向量,特征参数如表3所示;对于故障2则由权值最大的10个特征组合作为该故障下的特征向量,特征参数如表4所示。
表3
表4
对故障1和故障2的最简特征组合取并集,融合为最终输入的特征向量,特征参数如表5所示。
表5
根据最终融合的特征向量,删除无关项监测值,将8210条实验数据的60%划分为训练集,40%划分为测试集。将训练数据集输入XGBoost模型进行故障识别训练后,将测试数据集输入XGBoost模型后最终得出测试集的混淆矩阵如图3所示。图中横坐标代表样本的预测类别(Predicted Label),纵坐标代表样本的实际类别(True Label)。从混淆矩阵(Confusion matrix)中可以看出测试样本集共有样本3268条,其中,预测类别与实际类别相符的样本记录共3268条,综合分析可得测试集数据在XGBoost模型中的分类准确率高达100%。
从实验结果可以看出,基于多特征融合的XGboost算法的风力发电机故障模式识别模型对于分类任务的分类效果均较为理想,在实际应用中可实现代替人工检测故障,大大减少人工成本,提高风力发电运行的整体效益。
综上所述,本发明一种基于多特征融合的风力发电机故障模式识别方法及系统,消除了一部分耦合特征对故障模式定位带来的困难,可快速实现故障模式的精确匹配及故障对象的精准定位,在实际应用中可实现代替人工检测故障,大大减少人工成本,提高风力发电运行的整体效益。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本发明中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、电载波信号、电信信号以及软件分发介质等,需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (10)

1.基于多特征融合的风力发电机故障模式识别方法,其特征在于,包括以下步骤:
S1、获取风力发电机SCADA数据并对数据进行预处理,构建带标签的数据集;
S2、基于步骤S1得到的带有标签的故障数据集,采用灰色关联度分析对不同故障分别进行特征权重排序;
S3、按照前向搜索原则,选择权值最高的若干特征作为故障对应的特征向量,采用步骤S2中的特征向量进行故障诊断实验,提取特定故障下故障识别率达到最高时的最简特征组合;
S4、基于步骤S3对风力发电机的不同故障缺陷的最简特征组合取并集,融合为最终输入的特征向量;
S5、构建基于多特征融合XGboost算法的风电机组发电机故障诊断模型,选择训练数据和训练迭代次数,对风电机组发电机故障诊断模型进行训练,得到训练好的具有风力发电机故障模式识别能力的风电机组发电机故障模式识别模型,输入步骤S4得到的特征向量,完成风力发电机故障模式识别。
2.根据权利要求1所述的基于多特征融合的风力发电机故障模式识别方法,其特征在于,步骤S2中,采用灰色关联度分析对不同故障分别进行特征权重排序具体为:
S201、确定参考序列及特征序列,选取其他特征SCADA数据为特征序列;
S202、对原始数据无量纲化处理;
S203、计算灰色关联系数和灰色关联度;
S204、对参考数列R0和比较数列Ri的关联度按从大到小排序。
3.根据权利要求2所述的基于多特征融合的风力发电机故障模式识别方法,其特征在于,步骤S202中,采用区间值化的方法对不同的特征数据进行标准化处理:
其中,j=1,2,…,k,i∈R,Ri(j)为标准化后的取值,为实际测量值最大值,为实际测量值最小值。
4.根据权利要求2所述的基于多特征融合的风力发电机故障模式识别方法,其特征在于,步骤S203中,灰色关联系数和灰色关联度γ(X0,Xi)为:
其中,k为数据量,ζi(j)为对应不同特征量下的灰色关联系数。
5.根据权利要求1所述的基于多特征融合的风力发电机故障模式识别方法,其特征在于,步骤S3中,最简特征组合为:
Xi={ε12,…εn}
其中,N为待诊断的故障数量,i=1,2,…,N,ε为特征量。
6.根据权利要求1所述的基于多特征融合的风力发电机故障模式识别方法,其特征在于,步骤S4中,最终输入的特征向量X为:
X=X1∪X2∪…∪XN
其中,XN为对应故障下的特征组合。
7.根据权利要求1所述的基于多特征融合的风力发电机故障模式识别方法,其特征在于,步骤S5中,设置学习率r为0.01,迭代次数变量为Num,输入训练数据,当模型在训练数据上的分类损失函数loss小于0.01或者等于迭代次数变量Num时保存。
8.根据权利要求1所述的基于多特征融合的风力发电机故障模式识别方法,其特征在于,步骤S5中,采用XGboost分类器对风电机组发电机故障诊断模型进行处理如下:
S501、由k个基模型组成XGboost;
S502、由预测值与真实值yi表示损失函数;
S503、确定boosting模型对第i个样本xi的预测;
S504、根据泰勒公式把目标函数对进行泰勒的二阶展开;
S505、定义决策树为ft(x)=wq(x),x为某一样本,q(x)代表样本在哪个叶子结点上,wq代表叶子结点取值w,wq(x)代表每个样本的取值w,决策树的复杂度由叶子数T组成,确定目标函数的正则项。
9.根据权利要求8所述的基于多特征融合的风力发电机故障模式识别方法,其特征在于,步骤S505中,目标函数的正则项Obj为:
其中,T为叶子节点个数,γ为超参数,λ为超参数,Hj为损失函数一阶偏导数对应值,为损失函数二阶偏导数对应值。
10.一种基于多特征融合的风力发电机故障模式识别系统,其特征在于,包括:
数据模块,获取风力发电机SCADA数据并对数据进行预处理,构建带标签的数据集;
排序模块,基于数据模块得到的带有标签的故障数据集,采用灰色关联度分析对不同故障分别进行特征权重排序;
提取模块,按照前向搜索原则,选择权值最高的若干特征作为故障对应的特征向量,采用排序模块中的特征向量进行故障诊断实验,提取特定故障下故障识别率达到最高时的最简特征组合;
融合模块,基于提取模块对风力发电机的不同故障缺陷的最简特征组合取并集,融合为最终输入的特征向量;
识别模块,构建基于多特征融合XGboost算法的风电机组发电机故障诊断模型,选择训练数据和训练迭代次数,对风电机组发电机故障诊断模型进行训练,得到训练好的具有风力发电机故障模式识别能力的风电机组发电机故障模式识别模型,输入融合模块得到的特征向量,完成风力发电机故障模式识别。
CN202310629189.XA 2023-05-30 2023-05-30 基于多特征融合的风力发电机故障模式识别方法及系统 Pending CN116720079A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310629189.XA CN116720079A (zh) 2023-05-30 2023-05-30 基于多特征融合的风力发电机故障模式识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310629189.XA CN116720079A (zh) 2023-05-30 2023-05-30 基于多特征融合的风力发电机故障模式识别方法及系统

Publications (1)

Publication Number Publication Date
CN116720079A true CN116720079A (zh) 2023-09-08

Family

ID=87867121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310629189.XA Pending CN116720079A (zh) 2023-05-30 2023-05-30 基于多特征融合的风力发电机故障模式识别方法及系统

Country Status (1)

Country Link
CN (1) CN116720079A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648565A (zh) * 2023-10-27 2024-03-05 甘肃倚莱克特电力科技有限公司 一种发电机故障识别算法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648565A (zh) * 2023-10-27 2024-03-05 甘肃倚莱克特电力科技有限公司 一种发电机故障识别算法

Similar Documents

Publication Publication Date Title
CN111210024B (zh) 模型训练方法、装置、计算机设备和存储介质
EP3809220B1 (en) Method and system for semi-supervised deep anomaly detection for large-scale industrial monitoring systems based on time-series data utilizing digital twin simulation data
Chien et al. Analysing semiconductor manufacturing big data for root cause detection of excursion for yield enhancement
CN115018021A (zh) 基于图结构与异常注意力机制的机房异常检测方法及装置
Ayodeji et al. Causal augmented ConvNet: A temporal memory dilated convolution model for long-sequence time series prediction
TWI584134B (zh) 製程異因分析方法與製程異因分析系統
CN109543693A (zh) 基于正则化标签传播的弱标注数据降噪方法
CN116720079A (zh) 基于多特征融合的风力发电机故障模式识别方法及系统
CN115841004B (zh) 基于多维数据的带钢热轧过程力学性能软测量方法及装置
CN114065510A (zh) 冷却塔风机的故障预警方法、装置及电子设备
CN115438897A (zh) 一种基于blstm神经网络的工业过程产品质量预测方法
CN112633362B (zh) 一种旋转机械自适应故障诊断方法、装置、设备及介质
CN111290953B (zh) 分析测试日志的方法与装置
CN112731890A (zh) 一种电厂设备故障的检测方法和装置
CN116245259A (zh) 基于深度特征选择的光伏发电预测方法、装置和电子设备
CN116910526A (zh) 模型训练方法、装置、通信设备及可读存储介质
CN115496291A (zh) 基于高精度残缺值的聚类型数据增广气象温度预测方法
CN112184037B (zh) 一种基于加权svdd的多模态过程故障检测方法
CN114528942A (zh) 工程机械的数据样本库的构建、故障预测方法及工程机械
CN114971375A (zh) 基于人工智能的考核数据处理方法、装置、设备及介质
Bi et al. Deep multi-sequence multi-grained cascade forest for tobacco drying condition identification
CN113869194A (zh) 基于深度学习的变参数铣削加工过程信号标记方法及系统
CN108763728B (zh) 用并联型深度神经网络分层特征提取的机械故障诊断方法
Nurmalasari et al. Classification for Papaya Fruit Maturity Level With Convolutional Neural Network
CN116629348B (zh) 一种智能车间数据采集分析方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination