CN112417028B

CN112417028B - 一种风速时序特征挖掘方法及短期风电功率预测方法

Info

Publication number: CN112417028B
Application number: CN202011357189.1A
Authority: CN
Inventors: 黄东晨; 郭彦飞; 熊欢; 李科; 李浩文; 杜业冬; 陈雨帆; 陶子彬; 王坤; 曾浩; 张熹; 赵福林; 戴维; 韦伟
Original assignee: Nari Technology Co Ltd
Current assignee: Nari Technology Co Ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2022-09-02
Anticipated expiration: 2040-11-26
Also published as: CN112417028A

Abstract

本发明一种风速时序特征挖掘方法及短期风电功率预测方法，风速时序特征挖掘方法包括：获取原始风速序列数据；对原始风速序列数据进行分解，得到多模态分量；计算分解得到的各模态分量的多尺度排列熵；对各模态分量的多尺度排列熵进行聚类，根据聚类结果将多模态分量进行重组得到新的模态分量；对原始风速序列数据和重组后的各模态分量分别进行时序特征提取，得到风速时序特征集合；基于所述风速时序特征集合进行特征选择，得到最优风速时序特征集合，即为原始风速序列数据的风速时序特征挖掘结果。利用本发明方法能够提取引起风电功率波动的主导因素，为风电功率预测提供可靠的数据基础。

Description

一种风速时序特征挖掘方法及短期风电功率预测方法

技术领域

本发明涉及风力发电预测技术领域，特别是一种面向短期风电功率预测的风速时序特征挖掘方法，以及短期风电功率预测方法。

背景技术

风电场天气变幻莫测，导致风电发电具有强烈的间歇性、随机性和波动性，给电网的安全稳定运行及调度带来了严峻挑战。对风电功率进行短期预报，对于电力系统的功率平衡和经济调度意义重大。在短期风电功率预测中，风速是影响发电的主导因素。风速的随机变化是引起风电功率波动和影响风电功率预测精度的最主要原因。深度挖掘风速序列的时序特征，有助于降低模型学习的难度，提高预测精度。

名词解释

VMD(variational mode decomposition)，变分模态分解。在信号处理中，变分模态分解是一种信号分解估计方法。该方法在获取分解分量的过程中通过迭代搜寻变分模型最优解来确定每个分量的频率中心和带宽，从而能够自适应地实现信号的频域剖分及各分量的有效分离。

Tsfresh和hctsa，皆为专门处理时间序列数据的特征提取工具。

发明内容

本发明的目的是提供一种面向短期风电功率预测的风速时序特征挖掘方法，以及短期风电功率预测方法，能够提取引起风电功率波动的主导因素，为风电功率预测提供可靠的数据基础。本发明采用的技术方案如下。

一方面，本发明提供一种风速时序特征挖掘方法，包括：

获取原始风速序列数据；

对原始风速序列数据进行分解，得到多模态分量；

计算分解得到的各模态分量的多尺度排列熵；

对各模态分量的多尺度排列熵进行聚类，根据聚类结果将多模态分量重组得到新的模态分量；

对原始风速序列数据和重组后的各模态分量分别进行时序特征提取，得到风速时序特征集合；

基于所述风速时序特征集合进行特征选择，得到最优风速时序特征集合，即为原始风速序列数据的风速时序特征挖掘结果。

可选的，对原始风速序列数据进行分解得到多模态分量为，采用VMD算法进行多模态分量分解。

可选的，所述对原始风速序列数据进行分解得到多模态分量，包括：

a1)通过Hilbert变换计算各模态分量u_k(t)的解析信号，得到各模态的单侧频谱，表示为下式：

式中，δ(t)为单位脉冲函数，j为虚数，t为采样时间点，*表示卷积；

b1)对每个模态分量u_k(t)，通过对其对应的中心频率的指数项混叠w_k，将每个模态的频谱调制到相应基频带，表示为下式：

式中，e^-jwkt为中心频率在复平面上的相量描述；

c1)通过计算式(2)调制信号梯度的平方范数L²，估计各模态信号带宽，构造最小化总带宽的变分求解问题，如下：

式中，{u_k}＝{u₁,...,u_K}为模态分量集；{w_k}＝{w₁,...,w_K}为各中心频率集；

为对函数求时间t的偏导数；

为u_k的带宽估计，f(t)为原始风速序列信号；

对式(3)进行求解，即得到各模态分量。

可选的，对式(3)进行求解为，应用二次惩罚项和拉格朗日乘子将约束问题转化为非约束问题进行求解，有下式：

式中，α为二次惩罚因子，λ(t)为拉格朗日乘子；

利用交替方向乘子算法求取式(4)中拉格朗日函数的鞍点，即为各模态分量的最优解，包括：

c11)初始化模态分量集合{u_k}、对应的频率中心参量{w_k}以及拉格朗日乘子λ(t)，将各参量变换到频域内；

c12)在非负频率区间内，迭代更新{u_k},{w_k},λ(t)，直至满足给定的判定精度要求时，停止迭代更新，输出最后一次更新得到的模态分量；

迭代更新公式为：

式中，

和

分别为

f(t)和λⁿ⁺¹对应的傅里叶变换；

判定精度要求公式为：

其中，ε为收敛精度，且ε＞0；

可选的，所述计算分解得到的各模态分量的多尺度排列熵，包括：

a2)对风速数据序列长度为N的时间序列X＝{x_i,i＝1,2,...,N}进行粗粒化处理，得到粗粒化序列y_k ^(s)：

式中s为尺度因子，[N/s]表示对N/s取整，令M＝[N/s]；

b2)：对y_k ^(s)进行时间重构得到：

式中，m为嵌入维数，τ为延迟时间，矩阵中的每一行代表一个重构分量，j＝1,2,...,M；

c2)对于b2)所述重构分量按元素由大到小排序，共有m！种可能情况；其中，m！表示m的阶乘；设排序后得到的符号序列为(j₁,j₂,...,j_m)，记该符号序列出现的概率为P_r，其中，r＝1,2,...,R，且R≤m！；

d2)根据下式(11)计算每个粗粒化序列的排列熵，得到时间序列在多尺度下的排列熵；

当p_r＝1/m！时，H_P(m)达到最大值ln(m！)；通常将多尺度排列熵进行归一化处理，得到归一化处理后的排列熵值即：

可选的，所述对各模态分量的多尺度排列熵进行聚类，根据聚类结果将多模态分量重组得到新的模态分量为，采用k-means算法进行聚类，将多模态分量通过相加重组为趋势分量、细节分量和随机分量；

所述对原始风速序列数据和重组后的各模态分量分别进行时序特征提取为，利用包括Tsfresh和/或hctsa的时间序列特征提取工具，分别对原始风速序列、趋势分量、细节分量和随机分量进行时序特征提取。

可选的，所述基于所述风速时序特征集合进行特征选择，得到最优风速时序特征集合，包括：

a3)对于提取得到的风速时序特征集合F，计算F中每个特征的重要度得分；

b3)根据重要度得分大小对特征进行排序，取设定排名前的重要度得分较大的特征，形成有序特征子集F′；

c3)利用皮尔逊系数法，去除有序特征子集F′中的冗余特征，得到最优特征子集F″。

可选的，采用XGBoost算法计算F中每个特征的重要度得分，包括：

a31)从根结点开始，按以下公式计算所有特征的信息增益：

式中，G表示结点损失函数的一阶导数之和，H表示结点损失函数的二阶导数之和，L代表左子树，R代表右子树；

b31)选择信息增益最大的特征作为结点的特征进行分割，由该特征的不同取值建立子结点；

c31)对子结点递归调用a3)-b3)的方法步骤，直至分割到最大深度，并计算构建下一棵树的残差；

d31)对c3)生成的每一颗树进行集成，形成最终的树模型；

e31)从以下三个重要性度量指标中选择其一计算重要度得分：

特征切割次数Fscore：

Fscore＝|X| (14)

特征平均增益值AverageGain：

特征平均覆盖率AverageCover：

可选的，所述利用皮尔逊系数法，去除有序特征子集F′中的冗余特征，包括：

a33)对有序特征子集计算特征之间的皮尔逊系数的绝对值，形成相关系数矩阵M；

b33)对相关系数矩阵M取上三角阵，记为M′；

c33)对上三角矩阵M′进行列循环，列中若存在任意大于0.8的值，则去除该列；

d33)上三角矩阵M′余下的列的集合即对应最优特征子集F″。

第二方面，本发明提供一种短期风电功率预测方法，包括：

获取预测时段对应的风速序列监测数据；

将获取到的风速序列监测数据作为原始风速序列数据，利用第一方面所述的风速时序特征挖掘方法进行风速时序特征挖掘，得到最优特征子集；

将所述最优特征子集，作为预先训练的短期风电功率预测模型的输入，得到短期风电功率预测模型的输出，即得到预测时段的风电功率预测结果；

其中，所述预先训练的短期风电功率预测模型的训练样本为，多个历史风电功率已知时段对应的历史风速序列监测数据的所述最优风速时序特征集合。

短期风电功率预测模型为支持向量机、随机森林或深度神经网络等机器学习模型，经过训练、测试、预测三个步骤，建立以最优特征子集F″为输入，以风电功率为输出的短期风电功率预测模型：

pre＝f(F”) (17)

式中，pre为短期风电功率预测值，f(·)为机器学习模型。

本发明的风速时序数据挖掘方法，首先结合VMD信号分解及k-means聚类算法得到风速序列的趋势分量、细节分量及随机分量；其次利用时序特征提取工具对上述三个分量及原始风速序列进行时序特征提取；再结合XGBoost算法对提取的时序特征进行重要度计算并排序，以及利用皮尔逊系数去除冗余特征，实现了影响短期风电功率的主导因素数据的挖掘。相比传统的风电功率预测方法，本发明通过结合信号分解、聚类算法、时序特征提取工具，以及考虑冗余性的特征选择方法，所得到的特征集由具备高度表现力的特征构成，并且兼顾低冗余的特性，将该特征集作为预测模型的输入，能够降低模型学习难度，提高预测精度。

附图说明

图1所示为本发明风速时序特征挖掘方法的一种实施例流程示意图；

图2所示为本发明中风电场风机对应轮毂高度的历史风速数据经VMD分解后的分量；

图3所示为模态分量重组后的模态分量示意图。

图4为有序特征集F″的示意图；

图5为特征集F″对应的皮尔逊系数绝对值矩阵示意图；

具体实施方式

以下结合附图和具体实施例进一步描述。

实施例1

本实施例介绍一种风速时序特征挖掘方法，参考图1所示，方法包括：

获取原始风速序列数据；

对原始风速序列数据进行分解，得到多模态分量；

计算分解得到的各模态分量的多尺度排列熵；

以下具体介绍。

一、获取原始风速序列，进行VMD分解。

获取原始风速序列后，可对数据进行一定的预处理，如，去除噪声数据等。

在预处理后，采用VMD算法进行分解，VMD算法为现有算法，应用于本发明中，多模态分量的VMD分解方法包括：

步骤1.1：通过Hilbert变换计算各模态分量的解析信号，得到其单侧频谱。

步骤1.2：对每个模态分量u_k(t)，通过对其对应地中心频率的指数项混叠w_k，将每个模态的频谱调制到相应基频带

式中，

为中心频率在复平面上的相量描述；

步骤1.3：计算以上调制信号梯度的平方范数L²，估计出各模态信号带宽，构造最小化总带宽的变分求解问题，其求解可表示为带约束条件的变分问题。

为对函数求时间t的偏导数；

为u_k的带宽估计，f(t)为原始信号；

步骤1.4：应用二次惩罚项和拉格朗日乘子将所述约束问题转化为非约束问题进行求解，有：

式中，α为二次惩罚因子。利用交替方向乘子算法求取上述拉格朗日函数的鞍点，即为最优解。

具体求解步骤包括：

步骤1.4.1：初始化模态分量集合{u_k}、对应的频率中心参量{w_k}以及拉格朗日乘子λ(t)，将各参量变换到频域内；

步骤1.4.2：在非负频率区间内，更新u_k：

步骤1.4.3：更新w_k：

步骤1.4.4：在非负频率区间，更新λ；

步骤1.4.5：对于给定，判定精度ε＞0，有：

式中，ε为收敛精度，且ε＞0；

和

分别为

f(t)和λⁿ⁺¹对应的傅里叶变换，满足则停止迭代，否则返回步骤1.1.4.2。

参考图2，风电场风机对应轮毂高度的历史风速数据经VMD分解后得到的模态分量，记这些分量为u₁,u₂,u₃,u₄,u₅,u₆,u₇,u₈。

二、对VMD分解后得到的多模态分量重组得到新的模态分量。

这部分内容包括：

步骤2.1：计算分解得到的各模态分量的多尺度排列熵；

步骤2.2：利用k-means算法对各个模态的多尺度排列熵进行聚类，将同一类的模态通过相加重组为趋势分量、细节分量和随机分量。

具体的，步骤2.1包括：

步骤2.1.1：对序列长度为N的时间序列X＝{x_i,i＝1,2,...,N}进行粗粒化处理，得到粗粒化序列y_j ^(s)：

式中s为尺度因子，[N/s]表示对N/s取整，令M＝[N/s]；

步骤2.1.2：对y_k ^(s)进行时间重构得到：

步骤2.1.3：对于b2)所述重构分量按元素大小由大到小排序，共有m！种可能情况，m！表示m的阶乘；设排序后得到的符号序列为(j₁,j₂,...,j_m)，记该符号序列出现的概率为P_r，其中，r＝1,2,...,R，且R≤m！；

将时间重构序列按升序排列，可得到符号序列S(r)＝(l₁,l₂,...,l_m)。其中，r＝1,2,...,R且R≤m！，计算每一种符号序列出现的概率P_r；

步骤2.1.4：根据(11)式计算每个粗粒化序列的排列熵，由此得到时间序列在多尺度下的排列熵。

当p_r＝1/m！时，H_P(m)达到最大值ln(m！)；通常将多尺度排列熵进行归一化处理，即

式中为归一化处理后的排列熵值。

在具体实践中，多尺度排列熵的计算可借助pyEntropy等工具包实现。表1为本实施例中各VMD分量对应的多尺度排列熵值。

表1各VMD分量对应的多尺度排列熵值。

步骤2.2中，k-means算法是一种属于划分方法的聚类算法，通常采用欧氏距离作两个样本相似程度的评价指标，其基本思想是：随机选取数据集中的k个点作为初始聚类中心，根据数据集中的各个样本到k个中心的距离将其归到距离最小的类中，然后计算所有归到各个类中的样本的平均值，更新每个类中心，直到平方误差准则函数稳定在最小值。

本实施例中，由于需要将模态重组为趋势分量、细节分量和随机分量3个分量，此处将k设置为3。表2和图3,显示了本实施例中各VMD分量模态重组的结果。表中，趋势分量由u₁,u₂,u₃,u₄通过相加得到，细节分量由u₅,u₆通过相加得到，随机分量则由u₇,u₈通过相加得到。

表2各VMD分量模态重组的结果

三、对原始风速序列数据和重组后的各模态分量分别进行时序特征提取，得到风速时序特征集合。

本实施例利用滑动窗口提取原始风速序列、趋势分量、细节分量以及随机分量中指定窗口大小的时间序列，可将滑动窗口大小设置为1到10，并利用Tsfresh等时间序列特征提取工具对上述4个时间序列进行特征提取，得到新的数据特征。

四、最优风速时序特征集选择

这部分主要包括：

步骤4.1：将所有新数据特征组合在一起构成新数据特征集合F，利用XGBoost算法计算F中每个特征的重要度得分，并依据重要度得分从大到小排序。取排在前5％的特征形成有序特征子集F′；

步骤4.2：结合皮尔逊系数去除特征子集F′中的冗余特征，形成最优特征子集F″。

具体的，利用XGBoost算法计算F中每个特征的重要度得分的步骤为：

步骤4.1.1：从根结点开始，按以下公式计算所有特征的信息增益；

步骤4.1.2：选择信息增益最大的特征作为结点的特征进行分割，由该特征的不同取值建立子结点；

步骤4.1.3：对子结点递归调用以上方法，直至分割到最大深度，并计算构建下一棵树的残差；

步骤4.1.4：对步骤4.1.3中生成的每一颗树进行集成，形成最终的树模型；

步骤4.1.5：从以下三个重要性度量指标中选择其一计算重要度得分。

三个重要性度量指标为：

特征切割次数Fscore：指特征用于切割叶结点的次数；

Fscore＝|X| (14)

特征平均增益值AverageGain:指特征被用于切割叶结点时而产生的平均增益；

特征平均覆盖率AverageCover：指特征在树结构内被应用的平均覆盖率；

在具体实践中，可以通过XGBoost类库中的get_score方法计算特征的重要度得分，可通过设置importance_type参数可实现重要性度量指标的选择。本实施例选择特征平均覆盖率作为重要性度量指标。

步骤4.2具体包括：

步骤4.2.1：根据得到的所有特征的重要性得分，调整特征集F’为有序特征集。将特征集F’中的特征按XGBoost的重要性由大到小排列，记为特征F₁',F₂',...,F_n'，对应的某个样本的特征值为v_i,j，表示第i个样本对应的第j个特征的值。如图4所示，每一列对应一个特征，每一行对应一个样本，记样本数为m，第i个样本为S_i。记XGBoost重要性程度分别为X₁,X₂,...,X_n，则X₁＞X₂＞...＞X_n。对有序特征子集计算特征之间的皮尔逊系数的绝对值，形成相关系数绝对值矩阵M。此时矩阵的每一列、每一行同样对应特征F₁',F₂',...,F_n'。记P_i,j为特征F_i'与特征F_j'的皮尔逊相关系数的绝对值，如图5所示；

步骤4.2.2：对相关系数矩阵M取上三角阵，记为M′；

步骤4.2.3：对上三角矩阵M′进行列循环，列中若存在任意大于0.8的值，则去除该列。以特征F₂'对应的矩阵M中的列进行说明，只要列中存在P_i,2>0.8,则删除该列(特征)；

步骤4.2.4：上三角矩阵M′余下的列的集合即对应最优特征子集F″。

将上述最优特征子集F″将输入到短期风电功率预测模型中，即可得到短期风电功率的预测结果。

实施例2

与实施例1基于相同的发明构思，本实施例介绍一种短期风电功率预测方法，包括：

获取预测时段对应的风速序列监测数据；

短期风电功率预测模型为支持向量机、随机森林或深度神经网络等机器学习模型，这些机器学习模型可通过使用scikit-learn、Keras等数据挖掘及机器学习工具包迅速搭建，然后经过训练、测试、预测三个步骤，建立以最优特征子集F″为输入，以风电功率为输出的短期风电功率预测模型：

pre＝f(F”) (17)

式中，pre为短期风电功率预测值，f(·)为机器学习模型。

表3显示了特征挖掘后的效果对比。可见，将支持向量机、随机森林及深度神经网络这三种机器学习模型与本发明所提的特征挖掘方法进行结合，能够有效降低预测误差，提升合格率。该结果验证了本发明所提特征挖掘方法的有效性。

表3特征挖掘后的效果对比

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。