CN114330881A - 一种数据驱动的风机叶片结冰预测方法及装置 - Google Patents

一种数据驱动的风机叶片结冰预测方法及装置 Download PDF

Info

Publication number
CN114330881A
CN114330881A CN202111638625.7A CN202111638625A CN114330881A CN 114330881 A CN114330881 A CN 114330881A CN 202111638625 A CN202111638625 A CN 202111638625A CN 114330881 A CN114330881 A CN 114330881A
Authority
CN
China
Prior art keywords
data
icing
samples
data set
scada
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111638625.7A
Other languages
English (en)
Inventor
岳东
刘良辰
窦春霞
张智俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202111638625.7A priority Critical patent/CN114330881A/zh
Publication of CN114330881A publication Critical patent/CN114330881A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E10/00Energy generation through renewable energy sources
    • Y02E10/70Wind energy
    • Y02E10/72Wind turbines with rotation axis in wind direction

Landscapes

  • Wind Motors (AREA)

Abstract

本发明公开了一种数据驱动的风机叶片结冰预测方法及装置,所述方法包括获取风机预先采集到的SCADA数据,完成数据集的预处理;平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布;根据所述平衡分布后的SCADA数据集,通过筛选和重构后获取特征数据;将所述特征向量作为注意力机制层的输入,得到相应特征向量的权重向量值;将所述特征向量和权重向量值合并组合成新的向量得到风机叶片结冰的预测模型;将所需进行预测的特征数据输入风机叶片结冰的预测模型,得到风机叶片结冰的预测结果,本发明解决了现有机理建模复杂、泛化能力和实际预测效果较差的问题,能够利用时序数据之间的隐藏信息提高结冰预测的准确性。

Description

一种数据驱动的风机叶片结冰预测方法及装置
技术领域
本发明涉及一种数据驱动的风机叶片结冰预测方法及装置,属于风电机组故障诊断技术领域。
背景技术
电能主要来源于化石燃料的燃烧,近年来,随着这种不可再生能源的减少以及它带来的环境问题,风能作为清洁绿色能源,获得了大力发展。风电机场的建设主要集中在高纬度、高海拔、低温度的地区,很容易造成在风电机组叶片上缓慢累积结冰。这种结冰现象对工作的风电机组出力以及安全影响很大,一方面会造成风电机组的输出功率损失,另一方面会造成机械故障、冰霜脱落等安全隐患问题。当前对于风机叶片结冰这一问题的研究分为机理建模和数据建模,其中机理建模受制于结冰外在环境以及设备等物理因素的影响,数据建模弱化结冰机理的复杂过程,以函数的方法表征输入输出之间的关系。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种数据驱动的风机叶片结冰预测方法及装置,以解决现有机理建模复杂、泛化能力和实际预测效果较差的问题,能够利用时序数据之间的隐藏信息提高结冰预测的准确性。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种数据驱动的风机叶片结冰预测方法,包括:
获取风机预先采集到的SCADA数据,剔除异常值,填补缺失值,完成数据集的预处理;
根据所述预处理完毕的SCADA数据集,基于数据分布相似性分析的下采样和数据自适应综合过采样相结合的方法,平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布;
根据所述平衡分布后的SCADA数据集,通过随机森林算法进行高维特征数据的重要性评估,筛选和重构后获取特征数据;
将所述筛选和重构后的特征数据利用长短时记忆网络隐藏层进行训练,输出训练之后的特征向量,将所述特征向量作为注意力机制层的输入,得到相应特征向量的权重向量值;
将所述特征向量和权重向量值合并组合成新的向量,作为后续全连接层的输入,继而输出最终结果,得到风机叶片结冰的预测模型;
对所述风机叶片结冰的预测模型进行评价,并根据模型评估结果动态调整模型输入特征,得到最优的风机叶片结冰预测模型;
将所需进行预测的特征数据输入最优的风机叶片结冰的预测模型,得到风机叶片结冰的预测结果。
进一步的,所述SCADA数据为根据风机数据采集与监控系统采集到的数据。
进一步的,还包括,将所述预处理完毕的SCADA数据集,结合结冰机理和数据探索性分析,设定数据处理的强规则过滤掉部分明显不结冰的数据。
进一步的,所述获取风机预先采集到的SCADA数据,剔除异常值,填补缺失值,完成数据集的预处理,包括:
对所述原始SCADA数据集每一列值计算其均值
Figure BDA0003442382730000021
和标准偏差
Figure BDA0003442382730000022
Figure BDA0003442382730000023
概率P(|x-μ|≥3σ)=0.0027,即变量x在区间(x-3σ,x+3σ)外的概率为0.0027,此时的变量xi即为异常值,并对其按照公式进行重新赋值:
Figure BDA0003442382730000031
进一步的,所述根据所述预处理完毕的SCADA数据集,基于数据分布相似性分析的下采样和数据自适应综合过采样相结合的方法,平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布,包括:
所述基于数据分布相似性的相似度函数定义如下:
Figure BDA0003442382730000032
式中,所述Sij为样本xi,xj∈Sm×n(i,j=1,2,3,...,n)之间的相似性,m为样本数量,n为样本维度,||*||表示矩阵的二范数,所述δ为标准化因子,Fj是第j维数据,定义如下:
Figure BDA0003442382730000033
所述基于相似性降采样的具体流程如下:
1)计算出所述非结冰高维数据集的标准化因子δ;
2)计算出所述数据集中所有样本互相之间的相似性数值Sij
3)设定相似性阈值ε,将所述样本之间的Sij与其进行比较,如果Sij>ε,则将样本xj删除;
4)重复(1)-(3),完成对所述非结冰样本的相似性计算与降采样;
所述SCADA数据集中结冰类样本数据信息重采样方法步骤如下:
1)计算所述SCADA数据集结冰样本和非结冰样本的不平衡率:
Figure BDA0003442382730000034
其中,mS为少数类结冰样本的数目,ml为多数类非结冰样本的数目,IR的取值范围[0,1];
2)计算所述SCADA数据集所需要合成的少数类样本的数量N:
N=ml-ms(19)
3)根据欧氏距离的计算方法得到所述数据集中每个少数类样本xi的k近邻,得到其k近邻中多数类样本的占比为ri
Figure BDA0003442382730000041
Δi为xi的k近邻中,属于多数类样本的近邻数目;
4)计算数据集中每个少数类样本xi需要进行合成的新样本数占比r'i和新样本数目ni:
Figure BDA0003442382730000042
ni=r′i×N (22)
5)从每个需要合成的数据集少数样本xi的k近邻中,任意选择一个少数类样本xzi,合成新样本xsi
xzi=xi+α(xzi-xi) (23)
α为[0,1]之间的随机数;
6)重复(1)-(5)进行新样本的合成,直到合成的新样本数目满足要求为止。
进一步的,所述根据所述平衡分布后的SCADA数据集,通过随机森林算法进行高维特征数据的重要性评估,筛选和重构后获取特征数据,包括:
1)用S定义特征重要性评分,定义数据有n个特征x1,x2,x3,...,xn,GI表示Gini指数,定义第j个特征的Gini指数为GIj,评分为Sj,定义分枝后两个新节点的Gini指数为GIl,GIr
2)
Figure BDA0003442382730000051
其中K表示有K个类别,pmk表示节点m中类别k所占的比例,
Figure BDA0003442382730000052
为m节点分枝前后Gini指数变化量;
3)特征xj在决策树i中出现的节点集合为M,那么xj在第i颗树的重要性为
Figure BDA0003442382730000053
对于从1-n颗树,总共
Figure BDA0003442382730000054
4)对所求的Sj进行标准化归一处理即可得到每个特征的重要性评分;
5)将重要性评分较高的特征依据实际物理意义组合成新的特征,并加入进特征评分流程重复(1)-(4),得到所需要的特征变量。
进一步的,所述模型评价采用精确率Precision、召回率Recall和ROC曲线包围的面积AUC值作为评价指标,其中混淆矩阵TP、FP、TN、FN分别代表被预测为正的正样本、预测为正的负样本、预测为负的负样本、预测为负的正样本,则Precison、Recall计算如下:
Figure BDA0003442382730000055
Figure BDA0003442382730000056
ROC曲线的横坐标是假正率FPR,纵坐标是真正率TPR,画出ROC曲线并计算其包围的面积即为AUC值,其中FPR和TPR计算如下:
Figure BDA0003442382730000057
Figure BDA0003442382730000058
Figure BDA0003442382730000059
其中,M、N分别表示正样本、负样本的个数,
Figure BDA0003442382730000061
表示第i条样本的序号,positiveclass表示正样本类,
Figure BDA0003442382730000062
表示将正样本的序号相加。
第二方面,本发明提供一种数据驱动的风机叶片结冰预测装置,包括:
预处理单元,用于获取风机预先采集到的SCADA数据,剔除异常值,填补缺失值,完成数据集的预处理;
处理单元,用于根据所述预处理完毕的SCADA数据集,基于数据分布相似性分析的下采样和数据自适应综合过采样相结合的方法,平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布;
评估单元,用于根据所述平衡分布后的SCADA数据集,通过随机森林算法进行高维特征数据的重要性评估,筛选和重构后获取特征数据;
训练单元,用于将所述筛选和重构后的特征数据利用长短时记忆网络隐藏层进行训练,输出训练之后的特征向量,将所述特征向量作为注意力机制层的输入,得到相应特征向量的权重向量值;
模型获取单元,用于将所述特征向量和权重向量值合并组合成新的向量,作为后续全连接层的输入,继而输出最终结果,得到风机叶片结冰的预测模型;
模型优化单元,用于对所述风机叶片结冰的预测模型进行评价,并根据模型评估结果动态调整模型输入特征,得到最优的风机叶片结冰预测模型;
结果输出单元,用于将所需进行预测的特征数据输入最优的风机叶片结冰的预测模型,得到风机叶片结冰的预测结果。
第三方面,本发明提供一种数据驱动的风机叶片结冰预测装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据上述任一项所述方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
本发明提供一种数据驱动的风机叶片结冰预测方法及装置,基于时间序列模型融合注意力机制,建立风机叶片结冰预测模型,解决了通过机理建立结冰预测模型复杂、代价高且泛化能力较差的问题。并且,分析数据集中同一特征数据之间的相似性,对数据集中结冰数据和非结冰数据的不平衡性进行均衡化。并且,在以数据建模的过程中,融合对数据实际物理意义的理解,考虑到对所需特征向量进行筛选和重构,解决原始数据特征维度过高,模型训练时常过长的问题。最后,通过利用精确率、召回率和AUC值的大小来对分类问题进行模型的评估和调优,在对数据处理后,各个模型的精确率、召回率、AUC值在一定程度上有了提升。
附图说明
图1是本发明实施例的一种数据驱动的风机叶片结冰预测流程图;
图2是本发明的特征重要性评分示意图;
图3是LSTM结合Attention机制模型结构图;
图4是模型的ROC曲线图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1
本实施例介绍一种数据驱动的风机叶片结冰预测方法及装置,包括:
获取风机预先采集到的SCADA数据,剔除异常值,填补缺失值,完成数据集的预处理;
根据所述预处理完毕的SCADA数据集,基于数据分布相似性分析的下采样和数据自适应综合过采样相结合的方法,平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布;
根据所述平衡分布后的SCADA数据集,通过随机森林算法进行高维特征数据的重要性评估,筛选和重构后获取特征数据;
将所述筛选和重构后的特征数据利用长短时记忆网络隐藏层进行训练,输出训练之后的特征向量,将所述特征向量作为注意力机制层的输入,得到相应特征向量的权重向量值;
将所述特征向量和权重向量值合并组合成新的向量,作为后续全连接层的输入,继而输出最终结果,得到风机叶片结冰的预测模型;
对所述风机叶片结冰的预测模型进行评价,并根据模型评估结果动态调整模型输入特征,得到最优的风机叶片结冰预测模型;
将所需进行预测的特征数据输入最优的风机叶片结冰的预测模型,得到风机叶片结冰的预测结果。
如图1所示,本实施例提供的数据驱动的风机叶片结冰预测方法及装置,其应用过程具体涉及如下步骤:
根据风机采集到的SCADA数据,剔除异常值,填补缺失值,完成数据集的预处理:
在一个实施例中,风机SCADA数据集包含风速、电动机转速、风向等共计28个字段,具体字段如表1所示。风机叶片结冰数据需要依照时间段打上标签,其中结冰时间段标签设置为1,非结冰时间段标签设置为0,无效时间段标签设置为-1。
表1风机SCADA数据集字段说明
序号 字段名 序号 字段名
1 time 15 pitch1_moto_tmp
2 wind_speed 16 pitch2_moto_tmp
3 generator_speed 17 pitch3_moto_tmp
4 power 18 acc_x
5 wind_direction 19 acc_y
6 wind_direction_mean 20 environment_tmp
7 yaw_position 21 int_tmp
8 yaw_speed 22 pitch1_ng5_tmp
9 pitch1_angle 23 pitch2_ng5_tmp
10 pitch2_angle 24 pitch3_ng5_tmp
11 pitch3_angle 25 pitch1_ng5_DC
12 pitch1_speed 26 pitch2_ng5_DC
13 pitch2_speed 27 pitch3_ng5_DC
14 pitch3_speed 28 group
步骤1:对所述原始SCADA数据集每一列值计算其均值
Figure BDA0003442382730000091
和标准偏差
Figure BDA0003442382730000092
概率P(|x-μ|≥3σ)=0.0027,即变量x在区间(x-3σ,x+3σ)外的概率为0.0027,此时的变量xi即为异常值,并对其按照公式进行重新赋值:
Figure BDA0003442382730000093
步骤2:所述缺失值利用滑动窗口取平均值的思想,将缺失值利用固定步长的窗口平均值进行填充。
步骤3:将不相关字段如group字段删除,并结合结冰机理和探索性数据分析方法,过滤掉明显不结冰的数据,强规则过滤包括过滤掉风速较大,发动机转速较大的数据。
步骤4:其次依据对数据特征的分布结合其实际物理意义,其中对于风机叶片角度、风机叶片相角、风机叶片变桨电机温度的分布较为一致,故将其构造为新特征分别取对应的平均值作为模型构建的特征输入向量。
进一步地,根据所述预处理完毕的SCADA数据集,基于数据分布相似性分析的下采样和数据自适应综合过采样相结合的方法,平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布。
具体的,在一个实施例中,所述基于数据分布相似性的相似度函数定义如下:
Figure BDA0003442382730000101
式中,所述Sij为样本xi,xj∈Sm×n(i,j=1,2,3,...,n)之间的相似性,m为样本数量,n为样本维度,||*||表示矩阵的二范数,所述δ为标准化因子,Fj是第j维数据,定义如下:
Figure BDA0003442382730000102
所述基于相似性降采样的具体流程如下:
1)计算出所述非结冰高维数据集的标准化因子δ;
2)计算出所述数据集中所有样本互相之间的相似性数值Sij
3)设定相似性阈值ε,将所述样本之间的Sij与其进行比较,如果Sij>ε,则将样本xj删除;
4)重复(1)-(3),完成对所述非结冰样本的相似性计算与降采样。
所述SCADA数据集中结冰类样本数据信息重采样方法步骤如下:
1)计算所述SCADA数据集结冰样本和非结冰样本的不平衡率(Imbalanced Ratio,IR)
Figure BDA0003442382730000111
其中,mS为少数类结冰样本的数目,ml为多数类非结冰样本的数目,IR的取值范围[0,1]。数据集共有数据393886条,数据集中结冰数据为23892条,非结冰数据为350209条,剩余样本为无效数据。所述数据集不平衡率约为14.66,在经过相似性降采样后,选取非结冰数据182076条。
2)计算所述SCADA数据集所需要合成的少数类样本的数量N:
N=ml-ms#(5)
3)根据欧氏距离的计算方法得到所述数据集中每个少数类样本xi的k近邻,得到其k近邻中多数类样本的占比为ri
Figure BDA0003442382730000112
Δi为xi的k近邻中,属于多数类样本的近邻数目。
4)计算数据集中每个少数类样本xi需要进行合成的新样本数占比r'i和新样本数目ni:
Figure BDA0003442382730000113
ni=r′i×N#(8)
5)从每个需要合成的数据集少数样本xi的k近邻中,任意选择一个少数类样本xzi,合成新样本xsi
xzi=xi+α(xzi-xi)#(9)
α为[0,1]之间的随机数。
6)重复(1)-(5)进行新样本的合成,直到合成的新样本数目满足要求为止。
经过以上步骤所得到数据集为364152条,则结冰数据和非结冰数据处理后达到了分布平衡。
进一步地,根据所述平衡分布后的SCADA数据集,进行高维特征数据的重要性评估,筛选包括:
1)用S定义特征重要性评分,定义数据有n个特征x1,x2,x3,...,xn,GI表示Gini指数,定义第j个特征的Gini指数为GIj,评分为Sj,定义分枝后两个新节点的Gini指数为GIl,GIr
2)
Figure BDA0003442382730000121
其中K表示有K个类别,pmk表示节点m中类别k所占的比例,
Figure BDA0003442382730000122
为m节点分枝前后Gini指数变化量;
3)特征xj在决策树i中出现的节点集合为M,那么xj在第i颗树的重要性为
Figure BDA0003442382730000123
对于从1-n颗树,总共
Figure BDA0003442382730000124
4)对所求的Sj进行标准化归一处理即可得到每个特征的重要性评分。
5)将重要性评分较高的特征依据实际物理意义组合成新的特征,并加入进特征评分流程重复(1)-(4),得到所需要的特征变量。
具体的,在一个实施例中,最终所得到的特征重要性评分图如图2所示,并选取重要性较高的前9个特征作为模型构建的输入特征向量。
进一步地,所述筛选和重构后的特征数据利用长短时记忆网络(Long ShortTermMemory,LSTM)隐藏层进行训练,包括:
LSTM隐藏层层数为3,其结构如图3所示,第一、二、三层隐藏层神经元的个数分别为256、128、64,输出训练之后的特征向量。将所述特征向量作为注意力机制(Attention)层的输入,得到相应特征向量的权重向量值,将所述特征向量和权重向量值合并组合成新的向量,作为后续全连接层的输入,继而输出最终预测结果,得到风机叶片结冰的预测模型。
进一步地,将所述建立的预测模型利用精确率、召回率和ROC曲线包围的面积AUC值评估模型的效果,并动态调整模型的输入特征向量,将风机叶片预测数据作为最优模型的输入,得到相应的预测结果。
其中混淆矩阵TP(TruePositive)、FP(FalsePositive)、TN(TrueNegative)、FN(FalseNegative)分别代表被预测为正的正样本、预测为正的负样本、预测为负的负样本、预测为负的正样本。则Precision、Recall计算如下:
Figure BDA0003442382730000131
Figure BDA0003442382730000132
ROC曲线的横坐标是假正率(FPR),纵坐标是真正率(TPR),画出ROC曲线并计算其下面积AUC,AUC值越大的分类器,其分类性能越好。其中FPR和TPR计算如下:
Figure BDA0003442382730000133
Figure BDA0003442382730000134
Figure BDA0003442382730000135
其中,M、N分别表示正样本、负样本的个数,
Figure BDA0003442382730000136
表示第i条样本的序号,positiveclass表示正样本类,
Figure BDA0003442382730000137
表示将正样本的序号相加。
通过本说明书实施例提供的一种数据驱动的风机叶片结冰预测方法,基于时间序列模型融合注意力机制,建立风机叶片结冰预测模型,解决了通过机理建立结冰预测模型复杂、代价高且泛化能力较差的问题。并且,分析数据集中同一特征数据之间的相似性,对数据集中结冰数据和非结冰数据的不平衡性进行均衡化。并且,在以数据建模的过程中,融合对数据实际物理意义的理解,考虑到对所需特征向量进行筛选和重构,解决原始数据特征维度过高,模型训练时常过长的问题。最后,通过利用精确率、召回率和AUC值的大小来对分类问题进行模型的评估和调优。如图4数据处理后ROC曲线对比所示,ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变,尤其是当数据集分布极度不平衡时。如表2所示,在对数据处理后,各个模型的精确率、召回率、AUC值在一定程度上有了提升。其中本文所提出的数据驱动模型里利用长短时记忆网络作为隐藏层并融入注意力机制的模型在处理后的Precison、Recall、AUC值达到了0.9368,0.8631,0.7765,对比SVM、RF以及LSTM模型AUC值的0.6727,0.7552,0.7662,显示出数据驱动模型的优势。
表2不同模型Precison、Recall、AUC值
Figure BDA0003442382730000141
实施例2
本实施例提供一种数据驱动的风机叶片结冰预测装置,包括:
预处理单元,用于获取风机预先采集到的SCADA数据,剔除异常值,填补缺失值,完成数据集的预处理;
处理单元,用于根据所述预处理完毕的SCADA数据集,基于数据分布相似性分析的下采样和数据自适应综合过采样相结合的方法,平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布;
评估单元,用于根据所述平衡分布后的SCADA数据集,通过随机森林算法进行高维特征数据的重要性评估,筛选和重构后获取特征数据;
训练单元,用于将所述筛选和重构后的特征数据利用长短时记忆网络隐藏层进行训练,输出训练之后的特征向量,将所述特征向量作为注意力机制层的输入,得到相应特征向量的权重向量值;
模型获取单元,用于将所述特征向量和权重向量值合并组合成新的向量,作为后续全连接层的输入,继而输出最终结果,得到风机叶片结冰的预测模型;
模型优化单元,用于对所述风机叶片结冰的预测模型进行评价,并根据模型评估结果动态调整模型输入特征,得到最优的风机叶片结冰预测模型;
结果输出单元,用于将所需进行预测的特征数据输入最优的风机叶片结冰的预测模型,得到风机叶片结冰的预测结果。
实施例3
本实施例提供一种数据驱动的风机叶片结冰预测装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据实施例1中任一项所述方法的步骤。
实施例4
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例1中任一项所述方法的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种数据驱动的风机叶片结冰预测方法,其特征在于,包括:
获取风机预先采集到的SCADA数据,剔除异常值,填补缺失值,完成数据集的预处理;
根据所述预处理完毕的SCADA数据集,基于数据分布相似性分析的下采样和数据自适应综合过采样相结合的方法,平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布;
根据所述平衡分布后的SCADA数据集,通过随机森林算法进行高维特征数据的重要性评估,筛选和重构后获取特征数据;
将所述筛选和重构后的特征数据利用长短时记忆网络隐藏层进行训练,输出训练之后的特征向量,将所述特征向量作为注意力机制层的输入,得到相应特征向量的权重向量值;
将所述特征向量和权重向量值合并组合成新的向量,作为后续全连接层的输入,继而输出最终结果,得到风机叶片结冰的预测模型;
对所述风机叶片结冰的预测模型进行评价,并根据模型评估结果动态调整模型输入特征,得到最优的风机叶片结冰预测模型;
将所需进行预测的特征数据输入最优的风机叶片结冰的预测模型,得到风机叶片结冰的预测结果。
2.根据权利要求1所述的数据驱动的风机叶片结冰预测方法,其特征在于:所述SCADA数据为根据风机数据采集与监控系统采集到的数据。
3.根据权利要求1所述的数据驱动的风机叶片结冰预测方法,其特征在于:还包括,将所述预处理完毕的SCADA数据集,结合结冰机理和数据探索性分析,设定数据处理的强规则过滤掉部分明显不结冰的数据。
4.根据权利要求1所述的数据驱动的风机叶片结冰预测方法,其特征在于:所述获取风机预先采集到的SCADA数据,剔除异常值,填补缺失值,完成数据集的预处理,包括:
对所述原始SCADA数据集每一列值计算其均值
Figure FDA0003442382720000021
和标准偏差
Figure FDA0003442382720000022
Figure FDA0003442382720000023
概率P(|x-μ|≥3σ)=0.0027,即变量x在区间(x-3σ,x+3σ)外的概率为0.0027,此时的变量xi即为异常值,并对其按照公式进行重新赋值:
Figure FDA0003442382720000024
5.根据权利要求1所述的数据驱动的风机叶片结冰预测方法,其特征在于:所述根据所述预处理完毕的SCADA数据集,基于数据分布相似性分析的下采样和数据自适应综合过采样相结合的方法,平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布,包括:
所述基于数据分布相似性的相似度函数定义如下:
Figure FDA0003442382720000025
式中,所述Sij为样本xi,xj∈Sm×n(i,j=1,2,3,...,n)之间的相似性,m为样本数量,n为样本维度,||*||表示矩阵的二范数,所述δ为标准化因子,Fj是第j维数据,定义如下:
Figure FDA0003442382720000026
所述基于相似性降采样的具体流程如下:
1)计算出所述非结冰高维数据集的标准化因子δ;
2)计算出所述数据集中所有样本互相之间的相似性数值Sij
3)设定相似性阈值ε,将所述样本之间的Sij与其进行比较,如果Sij>ε,则将样本xj删除;
4)重复(1)-(3),完成对所述非结冰样本的相似性计算与降采样;
所述SCADA数据集中结冰类样本数据信息重采样方法步骤如下:
1)计算所述SCADA数据集结冰样本和非结冰样本的不平衡率:
Figure FDA0003442382720000031
其中,mS为少数类结冰样本的数目,ml为多数类非结冰样本的数目,IR的取值范围[0,1];
2)计算所述SCADA数据集所需要合成的少数类样本的数量N:
N=ml-ms (5)
3)根据欧氏距离的计算方法得到所述数据集中每个少数类样本xi的k近邻,得到其k近邻中多数类样本的占比为ri
Figure FDA0003442382720000032
Δi为xi的k近邻中,属于多数类样本的近邻数目;
4)计算数据集中每个少数类样本xi需要进行合成的新样本数占比r'i和新样本数目ni:
Figure FDA0003442382720000033
ni=r′i×N (8)
5)从每个需要合成的数据集少数样本xi的k近邻中,任意选择一个少数类样本xzi,合成新样本xsi
xzi=xi+α(xzi-xi) (9)
α为[0,1]之间的随机数;
6)重复(1)-(5)进行新样本的合成,直到合成的新样本数目满足要求为止。
6.根据权利要求1所述的数据驱动的风机叶片结冰预测方法,其特征在于:所述根据所述平衡分布后的SCADA数据集,通过随机森林算法进行高维特征数据的重要性评估,筛选和重构后获取特征数据,包括:
1)用S定义特征重要性评分,定义数据有n个特征x1,x2,x3,...,xn,GI表示Gini指数,定义第j个特征的Gini指数为GIj,评分为Sj,定义分枝后两个新节点的Gini指数为GIl,GIr
2)
Figure FDA0003442382720000041
其中K表示有K个类别,pmk表示节点m中类别k所占的比例,
Figure FDA0003442382720000042
为m节点分枝前后Gini指数变化量;
3)特征xj在决策树i中出现的节点集合为M,那么xj在第i颗树的重要性为
Figure FDA0003442382720000043
对于从1-n颗树,总共
Figure FDA0003442382720000044
4)对所求的Sj进行标准化归一处理即可得到每个特征的重要性评分;
5)将重要性评分较高的特征依据实际物理意义组合成新的特征,并加入进特征评分流程重复(1)-(4),得到所需要的特征变量。
7.根据权利要求1所述的数据驱动的风机叶片结冰预测方法,其特征在于:所述模型评价采用精确率Precision、召回率Recall和ROC曲线包围的面积AUC值作为评价指标,其中混淆矩阵TP、FP、TN、FN分别代表被预测为正的正样本、预测为正的负样本、预测为负的负样本、预测为负的正样本,则Precison、Recall计算如下:
Figure FDA0003442382720000045
Figure FDA0003442382720000051
ROC曲线的横坐标是假正率FPR,纵坐标是真正率TPR,画出ROC曲线并计算其包围的面积即为AUC值,其中FPR和TPR计算如下:
Figure FDA0003442382720000052
Figure FDA0003442382720000053
Figure FDA0003442382720000054
其中,M、N分别表示正样本、负样本的个数,
Figure FDA0003442382720000055
表示第i条样本的序号,positiveclass表示正样本类,
Figure FDA0003442382720000056
表示将正样本的序号相加。
8.一种数据驱动的风机叶片结冰预测装置,其特征在于,包括:
预处理单元,用于获取风机预先采集到的SCADA数据,剔除异常值,填补缺失值,完成数据集的预处理;
处理单元,用于根据所述预处理完毕的SCADA数据集,基于数据分布相似性分析的下采样和数据自适应综合过采样相结合的方法,平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布;
评估单元,用于根据所述平衡分布后的SCADA数据集,通过随机森林算法进行高维特征数据的重要性评估,筛选和重构后获取特征数据;
训练单元,用于将所述筛选和重构后的特征数据利用长短时记忆网络隐藏层进行训练,输出训练之后的特征向量,将所述特征向量作为注意力机制层的输入,得到相应特征向量的权重向量值;
模型获取单元,用于将所述特征向量和权重向量值合并组合成新的向量,作为后续全连接层的输入,继而输出最终结果,得到风机叶片结冰的预测模型;
模型优化单元,用于对所述风机叶片结冰的预测模型进行评价,并根据模型评估结果动态调整模型输入特征,得到最优的风机叶片结冰预测模型;
结果输出单元,用于将所需进行预测的特征数据输入最优的风机叶片结冰的预测模型,得到风机叶片结冰的预测结果。
9.一种数据驱动的风机叶片结冰预测装置,其特征在于:包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1~7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:该程序被处理器执行时实现权利要求1~7任一项所述方法的步骤。
CN202111638625.7A 2021-12-29 2021-12-29 一种数据驱动的风机叶片结冰预测方法及装置 Pending CN114330881A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111638625.7A CN114330881A (zh) 2021-12-29 2021-12-29 一种数据驱动的风机叶片结冰预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111638625.7A CN114330881A (zh) 2021-12-29 2021-12-29 一种数据驱动的风机叶片结冰预测方法及装置

Publications (1)

Publication Number Publication Date
CN114330881A true CN114330881A (zh) 2022-04-12

Family

ID=81017930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111638625.7A Pending CN114330881A (zh) 2021-12-29 2021-12-29 一种数据驱动的风机叶片结冰预测方法及装置

Country Status (1)

Country Link
CN (1) CN114330881A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115374858A (zh) * 2022-08-24 2022-11-22 东北大学 基于混合集成模型的流程工业生产品质的智能诊断方法
CN116950729A (zh) * 2023-09-19 2023-10-27 华能山东发电有限公司烟台发电厂 一种汽轮机叶片故障检测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978039A (zh) * 2019-03-19 2019-07-05 南京邮电大学 一种基于不平衡数据集情况的下风机叶片结冰预测方法
CN111680454A (zh) * 2020-06-16 2020-09-18 北京工业大学 基于双重注意力机制的风机叶片结冰故障预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978039A (zh) * 2019-03-19 2019-07-05 南京邮电大学 一种基于不平衡数据集情况的下风机叶片结冰预测方法
CN111680454A (zh) * 2020-06-16 2020-09-18 北京工业大学 基于双重注意力机制的风机叶片结冰故障预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LIANGCHEN LIU 等: "Data-Driven Prediction of Wind Turbine Blade Icing", 2021 CHINA AUTOMATION CONGRESS (CAC), 24 October 2021 (2021-10-24), pages 1 - 6 *
PANDA爱瞎想: "AUC计算原理以及为何被称为曲线下面积", Retrieved from the Internet <URL:httpszhuanlan.zhihu.comp148589111> *
叶春霖;邱颖宁;冯延晖;: "基于数据挖掘的风电机组叶片结冰故障诊断", 噪声与振动控制, no. 2, 20 April 2018 (2018-04-20) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115374858A (zh) * 2022-08-24 2022-11-22 东北大学 基于混合集成模型的流程工业生产品质的智能诊断方法
CN115374858B (zh) * 2022-08-24 2024-05-14 东北大学 基于混合集成模型的流程工业生产品质的智能诊断方法
CN116950729A (zh) * 2023-09-19 2023-10-27 华能山东发电有限公司烟台发电厂 一种汽轮机叶片故障检测方法及系统
CN116950729B (zh) * 2023-09-19 2024-02-27 华能山东发电有限公司烟台发电厂 一种汽轮机叶片故障检测方法及系统

Similar Documents

Publication Publication Date Title
CN109376801B (zh) 基于集成深度神经网络的风力发电机叶片结冰诊断方法
CN114330881A (zh) 一种数据驱动的风机叶片结冰预测方法及装置
CN111680875B (zh) 基于概率基线模型的无人机状态风险模糊综合评价方法
CN111414717A (zh) 一种基于XGBoost-LightGBM的机组功率预测方法
CN110766200A (zh) 一种基于K-means均值聚类的风电机组发电功率预测方法
Pu et al. Fault diagnosis for wind turbine gearboxes by using deep enhanced fusion network
CN109978039B (zh) 一种基于不平衡数据集情况下的风机叶片结冰预测方法
CN113107626B (zh) 一种基于多变量lstm的联合循环发电机组负荷预测方法
CN106778846A (zh) 一种基于支持向量机的风电场风速预测方法
Alfarizi et al. Optimized random forest model for remaining useful life prediction of experimental bearings
CN112147432A (zh) 基于注意力机制的BiLSTM模块、变压器状态诊断方法和系统
CN116010900A (zh) 基于自注意力机制的多尺度特征融合齿轮箱故障诊断方法
CN114048688A (zh) 一种风力发电机轴承寿命预测方法
CN112651426A (zh) 一种风电机组滚动轴承故障诊断方法
CN114399081A (zh) 一种基于天气分类的光伏发电功率预测方法
CN114595858A (zh) 基于滚动时间序列和支持向量机的短期风速预测方法和系统
CN114548190A (zh) 一种基于自适应残差神经网络的风力涡轮机故障诊断方法
CN115587290A (zh) 基于变分自编码生成对抗网络的航空发动机故障诊断方法
Li et al. Aero-engine exhaust gas temperature prediction based on LightGBM optimized by improved bat algorithm
CN114139638A (zh) 一种考虑多变量相关性的风机叶片覆冰故障诊断方法
CN114429238A (zh) 一种基于时空特征提取的风电机组故障预警方法
CN114298132A (zh) 风电功率预测方法及装置、电子设备
CN112132344A (zh) 一种基于相似日和frs-svm的短期风电功率预测方法
CN108898157B (zh) 基于卷积神经网络的数值型数据的雷达图表示的分类方法
CN112347917B (zh) 一种燃气轮机故障诊断方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination