CN114330881A

CN114330881A - 一种数据驱动的风机叶片结冰预测方法及装置

Info

Publication number: CN114330881A
Application number: CN202111638625.7A
Authority: CN
Inventors: 岳东; 刘良辰; 窦春霞; 张智俊
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-12

Abstract

本发明公开了一种数据驱动的风机叶片结冰预测方法及装置，所述方法包括获取风机预先采集到的SCADA数据，完成数据集的预处理；平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布；根据所述平衡分布后的SCADA数据集，通过筛选和重构后获取特征数据；将所述特征向量作为注意力机制层的输入，得到相应特征向量的权重向量值；将所述特征向量和权重向量值合并组合成新的向量得到风机叶片结冰的预测模型；将所需进行预测的特征数据输入风机叶片结冰的预测模型，得到风机叶片结冰的预测结果，本发明解决了现有机理建模复杂、泛化能力和实际预测效果较差的问题，能够利用时序数据之间的隐藏信息提高结冰预测的准确性。

Description

一种数据驱动的风机叶片结冰预测方法及装置

技术领域

本发明涉及一种数据驱动的风机叶片结冰预测方法及装置，属于风电机组故障诊断技术领域。

背景技术

电能主要来源于化石燃料的燃烧，近年来，随着这种不可再生能源的减少以及它带来的环境问题，风能作为清洁绿色能源，获得了大力发展。风电机场的建设主要集中在高纬度、高海拔、低温度的地区，很容易造成在风电机组叶片上缓慢累积结冰。这种结冰现象对工作的风电机组出力以及安全影响很大，一方面会造成风电机组的输出功率损失，另一方面会造成机械故障、冰霜脱落等安全隐患问题。当前对于风机叶片结冰这一问题的研究分为机理建模和数据建模，其中机理建模受制于结冰外在环境以及设备等物理因素的影响，数据建模弱化结冰机理的复杂过程，以函数的方法表征输入输出之间的关系。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种数据驱动的风机叶片结冰预测方法及装置，以解决现有机理建模复杂、泛化能力和实际预测效果较差的问题，能够利用时序数据之间的隐藏信息提高结冰预测的准确性。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种数据驱动的风机叶片结冰预测方法，包括：

获取风机预先采集到的SCADA数据，剔除异常值，填补缺失值，完成数据集的预处理；

根据所述预处理完毕的SCADA数据集，基于数据分布相似性分析的下采样和数据自适应综合过采样相结合的方法，平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布；

根据所述平衡分布后的SCADA数据集，通过随机森林算法进行高维特征数据的重要性评估，筛选和重构后获取特征数据；

将所述筛选和重构后的特征数据利用长短时记忆网络隐藏层进行训练，输出训练之后的特征向量，将所述特征向量作为注意力机制层的输入，得到相应特征向量的权重向量值；

将所述特征向量和权重向量值合并组合成新的向量，作为后续全连接层的输入，继而输出最终结果，得到风机叶片结冰的预测模型；

对所述风机叶片结冰的预测模型进行评价，并根据模型评估结果动态调整模型输入特征，得到最优的风机叶片结冰预测模型；

将所需进行预测的特征数据输入最优的风机叶片结冰的预测模型，得到风机叶片结冰的预测结果。

进一步的，所述SCADA数据为根据风机数据采集与监控系统采集到的数据。

进一步的，还包括，将所述预处理完毕的SCADA数据集，结合结冰机理和数据探索性分析，设定数据处理的强规则过滤掉部分明显不结冰的数据。

进一步的，所述获取风机预先采集到的SCADA数据，剔除异常值，填补缺失值，完成数据集的预处理，包括：

对所述原始SCADA数据集每一列值计算其均值

和标准偏差

概率P(|x-μ|≥3σ)＝0.0027，即变量x在区间(x-3σ，x+3σ)外的概率为0.0027，此时的变量x_i即为异常值，并对其按照公式进行重新赋值：

进一步的，所述根据所述预处理完毕的SCADA数据集，基于数据分布相似性分析的下采样和数据自适应综合过采样相结合的方法，平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布，包括：

所述基于数据分布相似性的相似度函数定义如下：

式中，所述S_ij为样本x_i，x_j∈S^m×n(i，j＝1，2，3，...，n)之间的相似性，m为样本数量，n为样本维度，||*||表示矩阵的二范数，所述δ为标准化因子，F_j是第j维数据，定义如下：

所述基于相似性降采样的具体流程如下：

1)计算出所述非结冰高维数据集的标准化因子δ；

2)计算出所述数据集中所有样本互相之间的相似性数值S_ij；

3)设定相似性阈值ε，将所述样本之间的S_ij与其进行比较，如果S_ij>ε，则将样本x_j删除；

4)重复(1)-(3)，完成对所述非结冰样本的相似性计算与降采样；

所述SCADA数据集中结冰类样本数据信息重采样方法步骤如下：

1)计算所述SCADA数据集结冰样本和非结冰样本的不平衡率：

其中，m_S为少数类结冰样本的数目，m_l为多数类非结冰样本的数目，IR的取值范围[0,1]；

2)计算所述SCADA数据集所需要合成的少数类样本的数量N：

N＝m_l-m_s(19)

3)根据欧氏距离的计算方法得到所述数据集中每个少数类样本x_i的k近邻，得到其k近邻中多数类样本的占比为r_i：

Δ_i为x_i的k近邻中，属于多数类样本的近邻数目；

4)计算数据集中每个少数类样本x_i需要进行合成的新样本数占比r'_i和新样本数目n_i:

n_i＝r′_i×N (22)

5)从每个需要合成的数据集少数样本x_i的k近邻中，任意选择一个少数类样本x_zi，合成新样本x_si：

x_zi＝x_i+α(x_zi-x_i) (23)

α为[0,1]之间的随机数；

6)重复(1)-(5)进行新样本的合成，直到合成的新样本数目满足要求为止。

进一步的，所述根据所述平衡分布后的SCADA数据集，通过随机森林算法进行高维特征数据的重要性评估，筛选和重构后获取特征数据，包括：

1)用S定义特征重要性评分，定义数据有n个特征x₁,x₂，x₃，...，x_n，GI表示Gini指数，定义第j个特征的Gini指数为GI_j，评分为S_j，定义分枝后两个新节点的Gini指数为GI_l，GI_r；

2)

其中K表示有K个类别，p_mk表示节点m中类别k所占的比例，

为m节点分枝前后Gini指数变化量；

3)特征x_j在决策树i中出现的节点集合为M，那么x_j在第i颗树的重要性为

对于从1-n颗树，总共

4)对所求的S_j进行标准化归一处理即可得到每个特征的重要性评分；

5)将重要性评分较高的特征依据实际物理意义组合成新的特征，并加入进特征评分流程重复(1)-(4)，得到所需要的特征变量。

进一步的，所述模型评价采用精确率Precision、召回率Recall和ROC曲线包围的面积AUC值作为评价指标，其中混淆矩阵TP、FP、TN、FN分别代表被预测为正的正样本、预测为正的负样本、预测为负的负样本、预测为负的正样本，则Precison、Recall计算如下：

ROC曲线的横坐标是假正率FPR，纵坐标是真正率TPR，画出ROC曲线并计算其包围的面积即为AUC值，其中FPR和TPR计算如下：

其中，M、N分别表示正样本、负样本的个数，

表示第i条样本的序号，positiveclass表示正样本类，

表示将正样本的序号相加。

第二方面，本发明提供一种数据驱动的风机叶片结冰预测装置，包括：

预处理单元，用于获取风机预先采集到的SCADA数据，剔除异常值，填补缺失值，完成数据集的预处理；

处理单元，用于根据所述预处理完毕的SCADA数据集，基于数据分布相似性分析的下采样和数据自适应综合过采样相结合的方法，平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布；

评估单元，用于根据所述平衡分布后的SCADA数据集，通过随机森林算法进行高维特征数据的重要性评估，筛选和重构后获取特征数据；

训练单元，用于将所述筛选和重构后的特征数据利用长短时记忆网络隐藏层进行训练，输出训练之后的特征向量，将所述特征向量作为注意力机制层的输入，得到相应特征向量的权重向量值；

模型获取单元，用于将所述特征向量和权重向量值合并组合成新的向量，作为后续全连接层的输入，继而输出最终结果，得到风机叶片结冰的预测模型；

模型优化单元，用于对所述风机叶片结冰的预测模型进行评价，并根据模型评估结果动态调整模型输入特征，得到最优的风机叶片结冰预测模型；

结果输出单元，用于将所需进行预测的特征数据输入最优的风机叶片结冰的预测模型，得到风机叶片结冰的预测结果。

第三方面，本发明提供一种数据驱动的风机叶片结冰预测装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据上述任一项所述方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项所述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

本发明提供一种数据驱动的风机叶片结冰预测方法及装置，基于时间序列模型融合注意力机制，建立风机叶片结冰预测模型，解决了通过机理建立结冰预测模型复杂、代价高且泛化能力较差的问题。并且，分析数据集中同一特征数据之间的相似性，对数据集中结冰数据和非结冰数据的不平衡性进行均衡化。并且，在以数据建模的过程中，融合对数据实际物理意义的理解，考虑到对所需特征向量进行筛选和重构，解决原始数据特征维度过高，模型训练时常过长的问题。最后，通过利用精确率、召回率和AUC值的大小来对分类问题进行模型的评估和调优，在对数据处理后，各个模型的精确率、召回率、AUC值在一定程度上有了提升。

附图说明

图1是本发明实施例的一种数据驱动的风机叶片结冰预测流程图；

图2是本发明的特征重要性评分示意图；

图3是LSTM结合Attention机制模型结构图；

图4是模型的ROC曲线图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1

本实施例介绍一种数据驱动的风机叶片结冰预测方法及装置，包括：

如图1所示，本实施例提供的数据驱动的风机叶片结冰预测方法及装置，其应用过程具体涉及如下步骤：

根据风机采集到的SCADA数据，剔除异常值，填补缺失值，完成数据集的预处理：

在一个实施例中，风机SCADA数据集包含风速、电动机转速、风向等共计28个字段，具体字段如表1所示。风机叶片结冰数据需要依照时间段打上标签，其中结冰时间段标签设置为1，非结冰时间段标签设置为0，无效时间段标签设置为-1。

表1风机SCADA数据集字段说明

序号	字段名	序号	字段名
				1	time	15	pitch1_moto_tmp
2	wind_speed	16	pitch2_moto_tmp
				3	generator_speed	17	pitch3_moto_tmp
4	power	18	acc_x
				5	wind_direction	19	acc_y
6	wind_direction_mean	20	environment_tmp
				7	yaw_position	21	int_tmp
8	yaw_speed	22	pitch1_ng5_tmp
				9	pitch1_angle	23	pitch2_ng5_tmp
10	pitch2_angle	24	pitch3_ng5_tmp
				11	pitch3_angle	25	pitch1_ng5_DC
12	pitch1_speed	26	pitch2_ng5_DC
				13	pitch2_speed	27	pitch3_ng5_DC
14	pitch3_speed	28	group

步骤1：对所述原始SCADA数据集每一列值计算其均值

和标准偏差

步骤2：所述缺失值利用滑动窗口取平均值的思想，将缺失值利用固定步长的窗口平均值进行填充。

步骤3：将不相关字段如group字段删除，并结合结冰机理和探索性数据分析方法，过滤掉明显不结冰的数据，强规则过滤包括过滤掉风速较大，发动机转速较大的数据。

步骤4：其次依据对数据特征的分布结合其实际物理意义，其中对于风机叶片角度、风机叶片相角、风机叶片变桨电机温度的分布较为一致，故将其构造为新特征分别取对应的平均值作为模型构建的特征输入向量。

进一步地，根据所述预处理完毕的SCADA数据集，基于数据分布相似性分析的下采样和数据自适应综合过采样相结合的方法，平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布。

具体的，在一个实施例中，所述基于数据分布相似性的相似度函数定义如下：

式中，所述S_ij为样本x_i，x_j∈S^m×n(i,j＝1,2，3，...，n)之间的相似性，m为样本数量，n为样本维度，||*||表示矩阵的二范数，所述δ为标准化因子，F_j是第j维数据，定义如下：

所述基于相似性降采样的具体流程如下：

1)计算出所述非结冰高维数据集的标准化因子δ；

2)计算出所述数据集中所有样本互相之间的相似性数值S_ij；

4)重复(1)-(3)，完成对所述非结冰样本的相似性计算与降采样。

1)计算所述SCADA数据集结冰样本和非结冰样本的不平衡率(Imbalanced Ratio,IR)

其中，m_S为少数类结冰样本的数目，m_l为多数类非结冰样本的数目，IR的取值范围[0,1]。数据集共有数据393886条，数据集中结冰数据为23892条，非结冰数据为350209条，剩余样本为无效数据。所述数据集不平衡率约为14.66，在经过相似性降采样后，选取非结冰数据182076条。

2)计算所述SCADA数据集所需要合成的少数类样本的数量N：

N＝m_l-m_s#(5)

Δ_i为x_i的k近邻中，属于多数类样本的近邻数目。

n_i＝r′_i×N#(8)

x_zi＝x_i+α(x_zi-x_i)#(9)

α为[0,1]之间的随机数。

经过以上步骤所得到数据集为364152条，则结冰数据和非结冰数据处理后达到了分布平衡。

进一步地，根据所述平衡分布后的SCADA数据集，进行高维特征数据的重要性评估，筛选包括：

1)用S定义特征重要性评分，定义数据有n个特征x₁，x₂，x₃，...，x_n，GI表示Gini指数，定义第j个特征的Gini指数为GI_j，评分为S_j，定义分枝后两个新节点的Gini指数为GI_l，GI_r；

2)

其中K表示有K个类别，p_mk表示节点m中类别k所占的比例，

为m节点分枝前后Gini指数变化量；

对于从1-n颗树，总共

4)对所求的S_j进行标准化归一处理即可得到每个特征的重要性评分。

具体的，在一个实施例中，最终所得到的特征重要性评分图如图2所示，并选取重要性较高的前9个特征作为模型构建的输入特征向量。

进一步地，所述筛选和重构后的特征数据利用长短时记忆网络(Long ShortTermMemory,LSTM)隐藏层进行训练，包括：

LSTM隐藏层层数为3，其结构如图3所示，第一、二、三层隐藏层神经元的个数分别为256、128、64，输出训练之后的特征向量。将所述特征向量作为注意力机制(Attention)层的输入，得到相应特征向量的权重向量值，将所述特征向量和权重向量值合并组合成新的向量，作为后续全连接层的输入，继而输出最终预测结果，得到风机叶片结冰的预测模型。

进一步地，将所述建立的预测模型利用精确率、召回率和ROC曲线包围的面积AUC值评估模型的效果，并动态调整模型的输入特征向量，将风机叶片预测数据作为最优模型的输入，得到相应的预测结果。

其中混淆矩阵TP(TruePositive)、FP(FalsePositive)、TN(TrueNegative)、FN(FalseNegative)分别代表被预测为正的正样本、预测为正的负样本、预测为负的负样本、预测为负的正样本。则Precision、Recall计算如下：

ROC曲线的横坐标是假正率(FPR)，纵坐标是真正率(TPR)，画出ROC曲线并计算其下面积AUC，AUC值越大的分类器，其分类性能越好。其中FPR和TPR计算如下：

其中，M、N分别表示正样本、负样本的个数，

表示第i条样本的序号，positiveclass表示正样本类，

表示将正样本的序号相加。

通过本说明书实施例提供的一种数据驱动的风机叶片结冰预测方法，基于时间序列模型融合注意力机制，建立风机叶片结冰预测模型，解决了通过机理建立结冰预测模型复杂、代价高且泛化能力较差的问题。并且，分析数据集中同一特征数据之间的相似性，对数据集中结冰数据和非结冰数据的不平衡性进行均衡化。并且，在以数据建模的过程中，融合对数据实际物理意义的理解，考虑到对所需特征向量进行筛选和重构，解决原始数据特征维度过高，模型训练时常过长的问题。最后，通过利用精确率、召回率和AUC值的大小来对分类问题进行模型的评估和调优。如图4数据处理后ROC曲线对比所示，ROC曲线有个很好的特性：当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变，尤其是当数据集分布极度不平衡时。如表2所示，在对数据处理后，各个模型的精确率、召回率、AUC值在一定程度上有了提升。其中本文所提出的数据驱动模型里利用长短时记忆网络作为隐藏层并融入注意力机制的模型在处理后的Precison、Recall、AUC值达到了0.9368，0.8631，0.7765，对比SVM、RF以及LSTM模型AUC值的0.6727，0.7552，0.7662，显示出数据驱动模型的优势。

表2不同模型Precison、Recall、AUC值

实施例2

本实施例提供一种数据驱动的风机叶片结冰预测装置，包括：

实施例3

本实施例提供一种数据驱动的风机叶片结冰预测装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据实施例1中任一项所述方法的步骤。

实施例4

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现实施例1中任一项所述方法的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种数据驱动的风机叶片结冰预测方法，其特征在于，包括：

2.根据权利要求1所述的数据驱动的风机叶片结冰预测方法，其特征在于：所述SCADA数据为根据风机数据采集与监控系统采集到的数据。

3.根据权利要求1所述的数据驱动的风机叶片结冰预测方法，其特征在于：还包括，将所述预处理完毕的SCADA数据集，结合结冰机理和数据探索性分析，设定数据处理的强规则过滤掉部分明显不结冰的数据。

4.根据权利要求1所述的数据驱动的风机叶片结冰预测方法，其特征在于：所述获取风机预先采集到的SCADA数据，剔除异常值，填补缺失值，完成数据集的预处理，包括：

对所述原始SCADA数据集每一列值计算其均值

和标准偏差

5.根据权利要求1所述的数据驱动的风机叶片结冰预测方法，其特征在于：所述根据所述预处理完毕的SCADA数据集，基于数据分布相似性分析的下采样和数据自适应综合过采样相结合的方法，平衡所述SCADA数据集中风力涡轮机叶片结冰和非结冰数据的分布，包括：

所述基于数据分布相似性的相似度函数定义如下：

所述基于相似性降采样的具体流程如下：

1)计算出所述非结冰高维数据集的标准化因子δ；

2)计算出所述数据集中所有样本互相之间的相似性数值S_ij；

1)计算所述SCADA数据集结冰样本和非结冰样本的不平衡率：

2)计算所述SCADA数据集所需要合成的少数类样本的数量N：

N＝m_l-m_s (5)

Δ_i为x_i的k近邻中，属于多数类样本的近邻数目；

n_i＝r′_i×N (8)

x_zi＝x_i+α(x_zi-x_i) (9)

α为[0,1]之间的随机数；

6.根据权利要求1所述的数据驱动的风机叶片结冰预测方法，其特征在于：所述根据所述平衡分布后的SCADA数据集，通过随机森林算法进行高维特征数据的重要性评估，筛选和重构后获取特征数据，包括：

2)

其中K表示有K个类别，p_mk表示节点m中类别k所占的比例，

为m节点分枝前后Gini指数变化量；

对于从1-n颗树，总共

7.根据权利要求1所述的数据驱动的风机叶片结冰预测方法，其特征在于：所述模型评价采用精确率Precision、召回率Recall和ROC曲线包围的面积AUC值作为评价指标，其中混淆矩阵TP、FP、TN、FN分别代表被预测为正的正样本、预测为正的负样本、预测为负的负样本、预测为负的正样本，则Precison、Recall计算如下：

其中，M、N分别表示正样本、负样本的个数，

表示第i条样本的序号，positiveclass表示正样本类，

表示将正样本的序号相加。

8.一种数据驱动的风机叶片结冰预测装置，其特征在于，包括：

9.一种数据驱动的风机叶片结冰预测装置，其特征在于：包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1～7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：该程序被处理器执行时实现权利要求1～7任一项所述方法的步骤。