CN114330881A - 一种数据驱动的风机叶片结冰预测方法及装置 - Google Patents
一种数据驱动的风机叶片结冰预测方法及装置 Download PDFInfo
- Publication number
- CN114330881A CN114330881A CN202111638625.7A CN202111638625A CN114330881A CN 114330881 A CN114330881 A CN 114330881A CN 202111638625 A CN202111638625 A CN 202111638625A CN 114330881 A CN114330881 A CN 114330881A
- Authority
- CN
- China
- Prior art keywords
- data
- icing
- samples
- data set
- scada
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 239000013598 vector Substances 0.000 claims abstract description 60
- 238000009826 distribution Methods 0.000 claims abstract description 37
- 230000007246 mechanism Effects 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000012216 screening Methods 0.000 claims abstract description 11
- 238000011156 evaluation Methods 0.000 claims description 19
- 230000002159 abnormal effect Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000007637 random forest analysis Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000015654 memory Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 238000012952 Resampling Methods 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000011985 exploratory data analysis Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 3
- 238000010276 construction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002485 combustion reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000002803 fossil fuel Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E10/00—Energy generation through renewable energy sources
- Y02E10/70—Wind energy
- Y02E10/72—Wind turbines with rotation axis in wind direction
Landscapes
- Wind Motors (AREA)
Abstract
本发明公开了一种数据驱动的风机叶片结冰预测方法及装置,所述方法包括获取风机预先采集到的SCADA数据,完成数据集的预处理;平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布;根据所述平衡分布后的SCADA数据集,通过筛选和重构后获取特征数据;将所述特征向量作为注意力机制层的输入,得到相应特征向量的权重向量值;将所述特征向量和权重向量值合并组合成新的向量得到风机叶片结冰的预测模型;将所需进行预测的特征数据输入风机叶片结冰的预测模型,得到风机叶片结冰的预测结果,本发明解决了现有机理建模复杂、泛化能力和实际预测效果较差的问题,能够利用时序数据之间的隐藏信息提高结冰预测的准确性。
Description
技术领域
本发明涉及一种数据驱动的风机叶片结冰预测方法及装置,属于风电机组故障诊断技术领域。
背景技术
电能主要来源于化石燃料的燃烧,近年来,随着这种不可再生能源的减少以及它带来的环境问题,风能作为清洁绿色能源,获得了大力发展。风电机场的建设主要集中在高纬度、高海拔、低温度的地区,很容易造成在风电机组叶片上缓慢累积结冰。这种结冰现象对工作的风电机组出力以及安全影响很大,一方面会造成风电机组的输出功率损失,另一方面会造成机械故障、冰霜脱落等安全隐患问题。当前对于风机叶片结冰这一问题的研究分为机理建模和数据建模,其中机理建模受制于结冰外在环境以及设备等物理因素的影响,数据建模弱化结冰机理的复杂过程,以函数的方法表征输入输出之间的关系。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种数据驱动的风机叶片结冰预测方法及装置,以解决现有机理建模复杂、泛化能力和实际预测效果较差的问题,能够利用时序数据之间的隐藏信息提高结冰预测的准确性。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种数据驱动的风机叶片结冰预测方法,包括:
获取风机预先采集到的SCADA数据,剔除异常值,填补缺失值,完成数据集的预处理;
根据所述预处理完毕的SCADA数据集,基于数据分布相似性分析的下采样和数据自适应综合过采样相结合的方法,平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布;
根据所述平衡分布后的SCADA数据集,通过随机森林算法进行高维特征数据的重要性评估,筛选和重构后获取特征数据;
将所述筛选和重构后的特征数据利用长短时记忆网络隐藏层进行训练,输出训练之后的特征向量,将所述特征向量作为注意力机制层的输入,得到相应特征向量的权重向量值;
将所述特征向量和权重向量值合并组合成新的向量,作为后续全连接层的输入,继而输出最终结果,得到风机叶片结冰的预测模型;
对所述风机叶片结冰的预测模型进行评价,并根据模型评估结果动态调整模型输入特征,得到最优的风机叶片结冰预测模型;
将所需进行预测的特征数据输入最优的风机叶片结冰的预测模型,得到风机叶片结冰的预测结果。
进一步的,所述SCADA数据为根据风机数据采集与监控系统采集到的数据。
进一步的,还包括,将所述预处理完毕的SCADA数据集,结合结冰机理和数据探索性分析,设定数据处理的强规则过滤掉部分明显不结冰的数据。
进一步的,所述获取风机预先采集到的SCADA数据,剔除异常值,填补缺失值,完成数据集的预处理,包括:
对所述原始SCADA数据集每一列值计算其均值和标准偏差 概率P(|x-μ|≥3σ)=0.0027,即变量x在区间(x-3σ,x+3σ)外的概率为0.0027,此时的变量xi即为异常值,并对其按照公式进行重新赋值:
进一步的,所述根据所述预处理完毕的SCADA数据集,基于数据分布相似性分析的下采样和数据自适应综合过采样相结合的方法,平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布,包括:
所述基于数据分布相似性的相似度函数定义如下:
式中,所述Sij为样本xi,xj∈Sm×n(i,j=1,2,3,...,n)之间的相似性,m为样本数量,n为样本维度,||*||表示矩阵的二范数,所述δ为标准化因子,Fj是第j维数据,定义如下:
所述基于相似性降采样的具体流程如下:
1)计算出所述非结冰高维数据集的标准化因子δ;
2)计算出所述数据集中所有样本互相之间的相似性数值Sij;
3)设定相似性阈值ε,将所述样本之间的Sij与其进行比较,如果Sij>ε,则将样本xj删除;
4)重复(1)-(3),完成对所述非结冰样本的相似性计算与降采样;
所述SCADA数据集中结冰类样本数据信息重采样方法步骤如下:
1)计算所述SCADA数据集结冰样本和非结冰样本的不平衡率:
其中,mS为少数类结冰样本的数目,ml为多数类非结冰样本的数目,IR的取值范围[0,1];
2)计算所述SCADA数据集所需要合成的少数类样本的数量N:
N=ml-ms(19)
3)根据欧氏距离的计算方法得到所述数据集中每个少数类样本xi的k近邻,得到其k近邻中多数类样本的占比为ri:
Δi为xi的k近邻中,属于多数类样本的近邻数目;
4)计算数据集中每个少数类样本xi需要进行合成的新样本数占比r'i和新样本数目ni:
ni=r′i×N (22)
5)从每个需要合成的数据集少数样本xi的k近邻中,任意选择一个少数类样本xzi,合成新样本xsi:
xzi=xi+α(xzi-xi) (23)
α为[0,1]之间的随机数;
6)重复(1)-(5)进行新样本的合成,直到合成的新样本数目满足要求为止。
进一步的,所述根据所述平衡分布后的SCADA数据集,通过随机森林算法进行高维特征数据的重要性评估,筛选和重构后获取特征数据,包括:
1)用S定义特征重要性评分,定义数据有n个特征x1,x2,x3,...,xn,GI表示Gini指数,定义第j个特征的Gini指数为GIj,评分为Sj,定义分枝后两个新节点的Gini指数为GIl,GIr;
4)对所求的Sj进行标准化归一处理即可得到每个特征的重要性评分;
5)将重要性评分较高的特征依据实际物理意义组合成新的特征,并加入进特征评分流程重复(1)-(4),得到所需要的特征变量。
进一步的,所述模型评价采用精确率Precision、召回率Recall和ROC曲线包围的面积AUC值作为评价指标,其中混淆矩阵TP、FP、TN、FN分别代表被预测为正的正样本、预测为正的负样本、预测为负的负样本、预测为负的正样本,则Precison、Recall计算如下:
ROC曲线的横坐标是假正率FPR,纵坐标是真正率TPR,画出ROC曲线并计算其包围的面积即为AUC值,其中FPR和TPR计算如下:
第二方面,本发明提供一种数据驱动的风机叶片结冰预测装置,包括:
预处理单元,用于获取风机预先采集到的SCADA数据,剔除异常值,填补缺失值,完成数据集的预处理;
处理单元,用于根据所述预处理完毕的SCADA数据集,基于数据分布相似性分析的下采样和数据自适应综合过采样相结合的方法,平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布;
评估单元,用于根据所述平衡分布后的SCADA数据集,通过随机森林算法进行高维特征数据的重要性评估,筛选和重构后获取特征数据;
训练单元,用于将所述筛选和重构后的特征数据利用长短时记忆网络隐藏层进行训练,输出训练之后的特征向量,将所述特征向量作为注意力机制层的输入,得到相应特征向量的权重向量值;
模型获取单元,用于将所述特征向量和权重向量值合并组合成新的向量,作为后续全连接层的输入,继而输出最终结果,得到风机叶片结冰的预测模型;
模型优化单元,用于对所述风机叶片结冰的预测模型进行评价,并根据模型评估结果动态调整模型输入特征,得到最优的风机叶片结冰预测模型;
结果输出单元,用于将所需进行预测的特征数据输入最优的风机叶片结冰的预测模型,得到风机叶片结冰的预测结果。
第三方面,本发明提供一种数据驱动的风机叶片结冰预测装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据上述任一项所述方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
本发明提供一种数据驱动的风机叶片结冰预测方法及装置,基于时间序列模型融合注意力机制,建立风机叶片结冰预测模型,解决了通过机理建立结冰预测模型复杂、代价高且泛化能力较差的问题。并且,分析数据集中同一特征数据之间的相似性,对数据集中结冰数据和非结冰数据的不平衡性进行均衡化。并且,在以数据建模的过程中,融合对数据实际物理意义的理解,考虑到对所需特征向量进行筛选和重构,解决原始数据特征维度过高,模型训练时常过长的问题。最后,通过利用精确率、召回率和AUC值的大小来对分类问题进行模型的评估和调优,在对数据处理后,各个模型的精确率、召回率、AUC值在一定程度上有了提升。
附图说明
图1是本发明实施例的一种数据驱动的风机叶片结冰预测流程图;
图2是本发明的特征重要性评分示意图;
图3是LSTM结合Attention机制模型结构图;
图4是模型的ROC曲线图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1
本实施例介绍一种数据驱动的风机叶片结冰预测方法及装置,包括:
获取风机预先采集到的SCADA数据,剔除异常值,填补缺失值,完成数据集的预处理;
根据所述预处理完毕的SCADA数据集,基于数据分布相似性分析的下采样和数据自适应综合过采样相结合的方法,平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布;
根据所述平衡分布后的SCADA数据集,通过随机森林算法进行高维特征数据的重要性评估,筛选和重构后获取特征数据;
将所述筛选和重构后的特征数据利用长短时记忆网络隐藏层进行训练,输出训练之后的特征向量,将所述特征向量作为注意力机制层的输入,得到相应特征向量的权重向量值;
将所述特征向量和权重向量值合并组合成新的向量,作为后续全连接层的输入,继而输出最终结果,得到风机叶片结冰的预测模型;
对所述风机叶片结冰的预测模型进行评价,并根据模型评估结果动态调整模型输入特征,得到最优的风机叶片结冰预测模型;
将所需进行预测的特征数据输入最优的风机叶片结冰的预测模型,得到风机叶片结冰的预测结果。
如图1所示,本实施例提供的数据驱动的风机叶片结冰预测方法及装置,其应用过程具体涉及如下步骤:
根据风机采集到的SCADA数据,剔除异常值,填补缺失值,完成数据集的预处理:
在一个实施例中,风机SCADA数据集包含风速、电动机转速、风向等共计28个字段,具体字段如表1所示。风机叶片结冰数据需要依照时间段打上标签,其中结冰时间段标签设置为1,非结冰时间段标签设置为0,无效时间段标签设置为-1。
表1风机SCADA数据集字段说明
序号 | 字段名 | 序号 | 字段名 |
1 | time | 15 | pitch1_moto_tmp |
2 | wind_speed | 16 | pitch2_moto_tmp |
3 | generator_speed | 17 | pitch3_moto_tmp |
4 | power | 18 | acc_x |
5 | wind_direction | 19 | acc_y |
6 | wind_direction_mean | 20 | environment_tmp |
7 | yaw_position | 21 | int_tmp |
8 | yaw_speed | 22 | pitch1_ng5_tmp |
9 | pitch1_angle | 23 | pitch2_ng5_tmp |
10 | pitch2_angle | 24 | pitch3_ng5_tmp |
11 | pitch3_angle | 25 | pitch1_ng5_DC |
12 | pitch1_speed | 26 | pitch2_ng5_DC |
13 | pitch2_speed | 27 | pitch3_ng5_DC |
14 | pitch3_speed | 28 | group |
步骤1:对所述原始SCADA数据集每一列值计算其均值和标准偏差概率P(|x-μ|≥3σ)=0.0027,即变量x在区间(x-3σ,x+3σ)外的概率为0.0027,此时的变量xi即为异常值,并对其按照公式进行重新赋值:
步骤2:所述缺失值利用滑动窗口取平均值的思想,将缺失值利用固定步长的窗口平均值进行填充。
步骤3:将不相关字段如group字段删除,并结合结冰机理和探索性数据分析方法,过滤掉明显不结冰的数据,强规则过滤包括过滤掉风速较大,发动机转速较大的数据。
步骤4:其次依据对数据特征的分布结合其实际物理意义,其中对于风机叶片角度、风机叶片相角、风机叶片变桨电机温度的分布较为一致,故将其构造为新特征分别取对应的平均值作为模型构建的特征输入向量。
进一步地,根据所述预处理完毕的SCADA数据集,基于数据分布相似性分析的下采样和数据自适应综合过采样相结合的方法,平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布。
具体的,在一个实施例中,所述基于数据分布相似性的相似度函数定义如下:
式中,所述Sij为样本xi,xj∈Sm×n(i,j=1,2,3,...,n)之间的相似性,m为样本数量,n为样本维度,||*||表示矩阵的二范数,所述δ为标准化因子,Fj是第j维数据,定义如下:
所述基于相似性降采样的具体流程如下:
1)计算出所述非结冰高维数据集的标准化因子δ;
2)计算出所述数据集中所有样本互相之间的相似性数值Sij;
3)设定相似性阈值ε,将所述样本之间的Sij与其进行比较,如果Sij>ε,则将样本xj删除;
4)重复(1)-(3),完成对所述非结冰样本的相似性计算与降采样。
所述SCADA数据集中结冰类样本数据信息重采样方法步骤如下:
1)计算所述SCADA数据集结冰样本和非结冰样本的不平衡率(Imbalanced Ratio,IR)
其中,mS为少数类结冰样本的数目,ml为多数类非结冰样本的数目,IR的取值范围[0,1]。数据集共有数据393886条,数据集中结冰数据为23892条,非结冰数据为350209条,剩余样本为无效数据。所述数据集不平衡率约为14.66,在经过相似性降采样后,选取非结冰数据182076条。
2)计算所述SCADA数据集所需要合成的少数类样本的数量N:
N=ml-ms#(5)
3)根据欧氏距离的计算方法得到所述数据集中每个少数类样本xi的k近邻,得到其k近邻中多数类样本的占比为ri:
Δi为xi的k近邻中,属于多数类样本的近邻数目。
4)计算数据集中每个少数类样本xi需要进行合成的新样本数占比r'i和新样本数目ni:
ni=r′i×N#(8)
5)从每个需要合成的数据集少数样本xi的k近邻中,任意选择一个少数类样本xzi,合成新样本xsi:
xzi=xi+α(xzi-xi)#(9)
α为[0,1]之间的随机数。
6)重复(1)-(5)进行新样本的合成,直到合成的新样本数目满足要求为止。
经过以上步骤所得到数据集为364152条,则结冰数据和非结冰数据处理后达到了分布平衡。
进一步地,根据所述平衡分布后的SCADA数据集,进行高维特征数据的重要性评估,筛选包括:
1)用S定义特征重要性评分,定义数据有n个特征x1,x2,x3,...,xn,GI表示Gini指数,定义第j个特征的Gini指数为GIj,评分为Sj,定义分枝后两个新节点的Gini指数为GIl,GIr;
4)对所求的Sj进行标准化归一处理即可得到每个特征的重要性评分。
5)将重要性评分较高的特征依据实际物理意义组合成新的特征,并加入进特征评分流程重复(1)-(4),得到所需要的特征变量。
具体的,在一个实施例中,最终所得到的特征重要性评分图如图2所示,并选取重要性较高的前9个特征作为模型构建的输入特征向量。
进一步地,所述筛选和重构后的特征数据利用长短时记忆网络(Long ShortTermMemory,LSTM)隐藏层进行训练,包括:
LSTM隐藏层层数为3,其结构如图3所示,第一、二、三层隐藏层神经元的个数分别为256、128、64,输出训练之后的特征向量。将所述特征向量作为注意力机制(Attention)层的输入,得到相应特征向量的权重向量值,将所述特征向量和权重向量值合并组合成新的向量,作为后续全连接层的输入,继而输出最终预测结果,得到风机叶片结冰的预测模型。
进一步地,将所述建立的预测模型利用精确率、召回率和ROC曲线包围的面积AUC值评估模型的效果,并动态调整模型的输入特征向量,将风机叶片预测数据作为最优模型的输入,得到相应的预测结果。
其中混淆矩阵TP(TruePositive)、FP(FalsePositive)、TN(TrueNegative)、FN(FalseNegative)分别代表被预测为正的正样本、预测为正的负样本、预测为负的负样本、预测为负的正样本。则Precision、Recall计算如下:
ROC曲线的横坐标是假正率(FPR),纵坐标是真正率(TPR),画出ROC曲线并计算其下面积AUC,AUC值越大的分类器,其分类性能越好。其中FPR和TPR计算如下:
通过本说明书实施例提供的一种数据驱动的风机叶片结冰预测方法,基于时间序列模型融合注意力机制,建立风机叶片结冰预测模型,解决了通过机理建立结冰预测模型复杂、代价高且泛化能力较差的问题。并且,分析数据集中同一特征数据之间的相似性,对数据集中结冰数据和非结冰数据的不平衡性进行均衡化。并且,在以数据建模的过程中,融合对数据实际物理意义的理解,考虑到对所需特征向量进行筛选和重构,解决原始数据特征维度过高,模型训练时常过长的问题。最后,通过利用精确率、召回率和AUC值的大小来对分类问题进行模型的评估和调优。如图4数据处理后ROC曲线对比所示,ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变,尤其是当数据集分布极度不平衡时。如表2所示,在对数据处理后,各个模型的精确率、召回率、AUC值在一定程度上有了提升。其中本文所提出的数据驱动模型里利用长短时记忆网络作为隐藏层并融入注意力机制的模型在处理后的Precison、Recall、AUC值达到了0.9368,0.8631,0.7765,对比SVM、RF以及LSTM模型AUC值的0.6727,0.7552,0.7662,显示出数据驱动模型的优势。
表2不同模型Precison、Recall、AUC值
实施例2
本实施例提供一种数据驱动的风机叶片结冰预测装置,包括:
预处理单元,用于获取风机预先采集到的SCADA数据,剔除异常值,填补缺失值,完成数据集的预处理;
处理单元,用于根据所述预处理完毕的SCADA数据集,基于数据分布相似性分析的下采样和数据自适应综合过采样相结合的方法,平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布;
评估单元,用于根据所述平衡分布后的SCADA数据集,通过随机森林算法进行高维特征数据的重要性评估,筛选和重构后获取特征数据;
训练单元,用于将所述筛选和重构后的特征数据利用长短时记忆网络隐藏层进行训练,输出训练之后的特征向量,将所述特征向量作为注意力机制层的输入,得到相应特征向量的权重向量值;
模型获取单元,用于将所述特征向量和权重向量值合并组合成新的向量,作为后续全连接层的输入,继而输出最终结果,得到风机叶片结冰的预测模型;
模型优化单元,用于对所述风机叶片结冰的预测模型进行评价,并根据模型评估结果动态调整模型输入特征,得到最优的风机叶片结冰预测模型;
结果输出单元,用于将所需进行预测的特征数据输入最优的风机叶片结冰的预测模型,得到风机叶片结冰的预测结果。
实施例3
本实施例提供一种数据驱动的风机叶片结冰预测装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据实施例1中任一项所述方法的步骤。
实施例4
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例1中任一项所述方法的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种数据驱动的风机叶片结冰预测方法,其特征在于,包括:
获取风机预先采集到的SCADA数据,剔除异常值,填补缺失值,完成数据集的预处理;
根据所述预处理完毕的SCADA数据集,基于数据分布相似性分析的下采样和数据自适应综合过采样相结合的方法,平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布;
根据所述平衡分布后的SCADA数据集,通过随机森林算法进行高维特征数据的重要性评估,筛选和重构后获取特征数据;
将所述筛选和重构后的特征数据利用长短时记忆网络隐藏层进行训练,输出训练之后的特征向量,将所述特征向量作为注意力机制层的输入,得到相应特征向量的权重向量值;
将所述特征向量和权重向量值合并组合成新的向量,作为后续全连接层的输入,继而输出最终结果,得到风机叶片结冰的预测模型;
对所述风机叶片结冰的预测模型进行评价,并根据模型评估结果动态调整模型输入特征,得到最优的风机叶片结冰预测模型;
将所需进行预测的特征数据输入最优的风机叶片结冰的预测模型,得到风机叶片结冰的预测结果。
2.根据权利要求1所述的数据驱动的风机叶片结冰预测方法,其特征在于:所述SCADA数据为根据风机数据采集与监控系统采集到的数据。
3.根据权利要求1所述的数据驱动的风机叶片结冰预测方法,其特征在于:还包括,将所述预处理完毕的SCADA数据集,结合结冰机理和数据探索性分析,设定数据处理的强规则过滤掉部分明显不结冰的数据。
5.根据权利要求1所述的数据驱动的风机叶片结冰预测方法,其特征在于:所述根据所述预处理完毕的SCADA数据集,基于数据分布相似性分析的下采样和数据自适应综合过采样相结合的方法,平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布,包括:
所述基于数据分布相似性的相似度函数定义如下:
式中,所述Sij为样本xi,xj∈Sm×n(i,j=1,2,3,...,n)之间的相似性,m为样本数量,n为样本维度,||*||表示矩阵的二范数,所述δ为标准化因子,Fj是第j维数据,定义如下:
所述基于相似性降采样的具体流程如下:
1)计算出所述非结冰高维数据集的标准化因子δ;
2)计算出所述数据集中所有样本互相之间的相似性数值Sij;
3)设定相似性阈值ε,将所述样本之间的Sij与其进行比较,如果Sij>ε,则将样本xj删除;
4)重复(1)-(3),完成对所述非结冰样本的相似性计算与降采样;
所述SCADA数据集中结冰类样本数据信息重采样方法步骤如下:
1)计算所述SCADA数据集结冰样本和非结冰样本的不平衡率:
其中,mS为少数类结冰样本的数目,ml为多数类非结冰样本的数目,IR的取值范围[0,1];
2)计算所述SCADA数据集所需要合成的少数类样本的数量N:
N=ml-ms (5)
3)根据欧氏距离的计算方法得到所述数据集中每个少数类样本xi的k近邻,得到其k近邻中多数类样本的占比为ri:
Δi为xi的k近邻中,属于多数类样本的近邻数目;
4)计算数据集中每个少数类样本xi需要进行合成的新样本数占比r'i和新样本数目ni:
ni=r′i×N (8)
5)从每个需要合成的数据集少数样本xi的k近邻中,任意选择一个少数类样本xzi,合成新样本xsi:
xzi=xi+α(xzi-xi) (9)
α为[0,1]之间的随机数;
6)重复(1)-(5)进行新样本的合成,直到合成的新样本数目满足要求为止。
6.根据权利要求1所述的数据驱动的风机叶片结冰预测方法,其特征在于:所述根据所述平衡分布后的SCADA数据集,通过随机森林算法进行高维特征数据的重要性评估,筛选和重构后获取特征数据,包括:
1)用S定义特征重要性评分,定义数据有n个特征x1,x2,x3,...,xn,GI表示Gini指数,定义第j个特征的Gini指数为GIj,评分为Sj,定义分枝后两个新节点的Gini指数为GIl,GIr;
4)对所求的Sj进行标准化归一处理即可得到每个特征的重要性评分;
5)将重要性评分较高的特征依据实际物理意义组合成新的特征,并加入进特征评分流程重复(1)-(4),得到所需要的特征变量。
8.一种数据驱动的风机叶片结冰预测装置,其特征在于,包括:
预处理单元,用于获取风机预先采集到的SCADA数据,剔除异常值,填补缺失值,完成数据集的预处理;
处理单元,用于根据所述预处理完毕的SCADA数据集,基于数据分布相似性分析的下采样和数据自适应综合过采样相结合的方法,平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布;
评估单元,用于根据所述平衡分布后的SCADA数据集,通过随机森林算法进行高维特征数据的重要性评估,筛选和重构后获取特征数据;
训练单元,用于将所述筛选和重构后的特征数据利用长短时记忆网络隐藏层进行训练,输出训练之后的特征向量,将所述特征向量作为注意力机制层的输入,得到相应特征向量的权重向量值;
模型获取单元,用于将所述特征向量和权重向量值合并组合成新的向量,作为后续全连接层的输入,继而输出最终结果,得到风机叶片结冰的预测模型;
模型优化单元,用于对所述风机叶片结冰的预测模型进行评价,并根据模型评估结果动态调整模型输入特征,得到最优的风机叶片结冰预测模型;
结果输出单元,用于将所需进行预测的特征数据输入最优的风机叶片结冰的预测模型,得到风机叶片结冰的预测结果。
9.一种数据驱动的风机叶片结冰预测装置,其特征在于:包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1~7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:该程序被处理器执行时实现权利要求1~7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111638625.7A CN114330881A (zh) | 2021-12-29 | 2021-12-29 | 一种数据驱动的风机叶片结冰预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111638625.7A CN114330881A (zh) | 2021-12-29 | 2021-12-29 | 一种数据驱动的风机叶片结冰预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114330881A true CN114330881A (zh) | 2022-04-12 |
Family
ID=81017930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111638625.7A Pending CN114330881A (zh) | 2021-12-29 | 2021-12-29 | 一种数据驱动的风机叶片结冰预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114330881A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115374858A (zh) * | 2022-08-24 | 2022-11-22 | 东北大学 | 基于混合集成模型的流程工业生产品质的智能诊断方法 |
CN116950729A (zh) * | 2023-09-19 | 2023-10-27 | 华能山东发电有限公司烟台发电厂 | 一种汽轮机叶片故障检测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109978039A (zh) * | 2019-03-19 | 2019-07-05 | 南京邮电大学 | 一种基于不平衡数据集情况的下风机叶片结冰预测方法 |
CN111680454A (zh) * | 2020-06-16 | 2020-09-18 | 北京工业大学 | 基于双重注意力机制的风机叶片结冰故障预测方法 |
-
2021
- 2021-12-29 CN CN202111638625.7A patent/CN114330881A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109978039A (zh) * | 2019-03-19 | 2019-07-05 | 南京邮电大学 | 一种基于不平衡数据集情况的下风机叶片结冰预测方法 |
CN111680454A (zh) * | 2020-06-16 | 2020-09-18 | 北京工业大学 | 基于双重注意力机制的风机叶片结冰故障预测方法 |
Non-Patent Citations (3)
Title |
---|
LIANGCHEN LIU 等: "Data-Driven Prediction of Wind Turbine Blade Icing", 2021 CHINA AUTOMATION CONGRESS (CAC), 24 October 2021 (2021-10-24), pages 1 - 6 * |
PANDA爱瞎想: "AUC计算原理以及为何被称为曲线下面积", Retrieved from the Internet <URL:httpszhuanlan.zhihu.comp148589111> * |
叶春霖;邱颖宁;冯延晖;: "基于数据挖掘的风电机组叶片结冰故障诊断", 噪声与振动控制, no. 2, 20 April 2018 (2018-04-20) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115374858A (zh) * | 2022-08-24 | 2022-11-22 | 东北大学 | 基于混合集成模型的流程工业生产品质的智能诊断方法 |
CN115374858B (zh) * | 2022-08-24 | 2024-05-14 | 东北大学 | 基于混合集成模型的流程工业生产品质的智能诊断方法 |
CN116950729A (zh) * | 2023-09-19 | 2023-10-27 | 华能山东发电有限公司烟台发电厂 | 一种汽轮机叶片故障检测方法及系统 |
CN116950729B (zh) * | 2023-09-19 | 2024-02-27 | 华能山东发电有限公司烟台发电厂 | 一种汽轮机叶片故障检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109376801B (zh) | 基于集成深度神经网络的风力发电机叶片结冰诊断方法 | |
CN114330881A (zh) | 一种数据驱动的风机叶片结冰预测方法及装置 | |
CN111680875B (zh) | 基于概率基线模型的无人机状态风险模糊综合评价方法 | |
CN111414717A (zh) | 一种基于XGBoost-LightGBM的机组功率预测方法 | |
CN110766200A (zh) | 一种基于K-means均值聚类的风电机组发电功率预测方法 | |
Pu et al. | Fault diagnosis for wind turbine gearboxes by using deep enhanced fusion network | |
CN109978039B (zh) | 一种基于不平衡数据集情况下的风机叶片结冰预测方法 | |
CN113107626B (zh) | 一种基于多变量lstm的联合循环发电机组负荷预测方法 | |
CN106778846A (zh) | 一种基于支持向量机的风电场风速预测方法 | |
Alfarizi et al. | Optimized random forest model for remaining useful life prediction of experimental bearings | |
CN112147432A (zh) | 基于注意力机制的BiLSTM模块、变压器状态诊断方法和系统 | |
CN116010900A (zh) | 基于自注意力机制的多尺度特征融合齿轮箱故障诊断方法 | |
CN114048688A (zh) | 一种风力发电机轴承寿命预测方法 | |
CN112651426A (zh) | 一种风电机组滚动轴承故障诊断方法 | |
CN114399081A (zh) | 一种基于天气分类的光伏发电功率预测方法 | |
CN114595858A (zh) | 基于滚动时间序列和支持向量机的短期风速预测方法和系统 | |
CN114548190A (zh) | 一种基于自适应残差神经网络的风力涡轮机故障诊断方法 | |
CN115587290A (zh) | 基于变分自编码生成对抗网络的航空发动机故障诊断方法 | |
Li et al. | Aero-engine exhaust gas temperature prediction based on LightGBM optimized by improved bat algorithm | |
CN114139638A (zh) | 一种考虑多变量相关性的风机叶片覆冰故障诊断方法 | |
CN114429238A (zh) | 一种基于时空特征提取的风电机组故障预警方法 | |
CN114298132A (zh) | 风电功率预测方法及装置、电子设备 | |
CN112132344A (zh) | 一种基于相似日和frs-svm的短期风电功率预测方法 | |
CN108898157B (zh) | 基于卷积神经网络的数值型数据的雷达图表示的分类方法 | |
CN112347917B (zh) | 一种燃气轮机故障诊断方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |