CN112417028B - 一种风速时序特征挖掘方法及短期风电功率预测方法 - Google Patents

一种风速时序特征挖掘方法及短期风电功率预测方法 Download PDF

Info

Publication number
CN112417028B
CN112417028B CN202011357189.1A CN202011357189A CN112417028B CN 112417028 B CN112417028 B CN 112417028B CN 202011357189 A CN202011357189 A CN 202011357189A CN 112417028 B CN112417028 B CN 112417028B
Authority
CN
China
Prior art keywords
wind speed
time sequence
modal
sequence
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011357189.1A
Other languages
English (en)
Other versions
CN112417028A (zh
Inventor
黄东晨
郭彦飞
熊欢
李科
李浩文
杜业冬
陈雨帆
陶子彬
王坤
曾浩
张熹
赵福林
戴维
韦伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nari Technology Co Ltd
Original Assignee
Nari Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nari Technology Co Ltd filed Critical Nari Technology Co Ltd
Priority to CN202011357189.1A priority Critical patent/CN112417028B/zh
Publication of CN112417028A publication Critical patent/CN112417028A/zh
Application granted granted Critical
Publication of CN112417028B publication Critical patent/CN112417028B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明一种风速时序特征挖掘方法及短期风电功率预测方法,风速时序特征挖掘方法包括:获取原始风速序列数据;对原始风速序列数据进行分解,得到多模态分量;计算分解得到的各模态分量的多尺度排列熵;对各模态分量的多尺度排列熵进行聚类,根据聚类结果将多模态分量进行重组得到新的模态分量;对原始风速序列数据和重组后的各模态分量分别进行时序特征提取,得到风速时序特征集合;基于所述风速时序特征集合进行特征选择,得到最优风速时序特征集合,即为原始风速序列数据的风速时序特征挖掘结果。利用本发明方法能够提取引起风电功率波动的主导因素,为风电功率预测提供可靠的数据基础。

Description

一种风速时序特征挖掘方法及短期风电功率预测方法
技术领域
本发明涉及风力发电预测技术领域,特别是一种面向短期风电功率预测的风速时序特征挖掘方法,以及短期风电功率预测方法。
背景技术
风电场天气变幻莫测,导致风电发电具有强烈的间歇性、随机性和波动性,给电网的安全稳定运行及调度带来了严峻挑战。对风电功率进行短期预报,对于电力系统的功率平衡和经济调度意义重大。在短期风电功率预测中,风速是影响发电的主导因素。风速的随机变化是引起风电功率波动和影响风电功率预测精度的最主要原因。深度挖掘风速序列的时序特征,有助于降低模型学习的难度,提高预测精度。
名词解释
VMD(variational mode decomposition),变分模态分解。在信号处理中,变分模态分解是一种信号分解估计方法。该方法在获取分解分量的过程中通过迭代搜寻变分模型最优解来确定每个分量的频率中心和带宽,从而能够自适应地实现信号的频域剖分及各分量的有效分离。
Tsfresh和hctsa,皆为专门处理时间序列数据的特征提取工具。
发明内容
本发明的目的是提供一种面向短期风电功率预测的风速时序特征挖掘方法,以及短期风电功率预测方法,能够提取引起风电功率波动的主导因素,为风电功率预测提供可靠的数据基础。本发明采用的技术方案如下。
一方面,本发明提供一种风速时序特征挖掘方法,包括:
获取原始风速序列数据;
对原始风速序列数据进行分解,得到多模态分量;
计算分解得到的各模态分量的多尺度排列熵;
对各模态分量的多尺度排列熵进行聚类,根据聚类结果将多模态分量重组得到新的模态分量;
对原始风速序列数据和重组后的各模态分量分别进行时序特征提取,得到风速时序特征集合;
基于所述风速时序特征集合进行特征选择,得到最优风速时序特征集合,即为原始风速序列数据的风速时序特征挖掘结果。
可选的,对原始风速序列数据进行分解得到多模态分量为,采用VMD算法进行多模态分量分解。
可选的,所述对原始风速序列数据进行分解得到多模态分量,包括:
a1)通过Hilbert变换计算各模态分量uk(t)的解析信号,得到各模态的单侧频谱,表示为下式:
Figure BDA0002802935400000021
式中,δ(t)为单位脉冲函数,j为虚数,t为采样时间点,*表示卷积;
b1)对每个模态分量uk(t),通过对其对应的中心频率的指数项混叠wk,将每个模态的频谱调制到相应基频带,表示为下式:
Figure BDA0002802935400000022
式中,e-jwkt为中心频率在复平面上的相量描述;
c1)通过计算式(2)调制信号梯度的平方范数L2,估计各模态信号带宽,构造最小化总带宽的变分求解问题,如下:
Figure BDA0002802935400000023
式中,{uk}={u1,...,uK}为模态分量集;{wk}={w1,...,wK}为各中心频率集;
Figure BDA0002802935400000024
为对函数求时间t的偏导数;
Figure BDA0002802935400000031
为uk的带宽估计,f(t)为原始风速序列信号;
对式(3)进行求解,即得到各模态分量。
可选的,对式(3)进行求解为,应用二次惩罚项和拉格朗日乘子将约束问题转化为非约束问题进行求解,有下式:
Figure BDA0002802935400000032
式中,α为二次惩罚因子,λ(t)为拉格朗日乘子;
利用交替方向乘子算法求取式(4)中拉格朗日函数的鞍点,即为各模态分量的最优解,包括:
c11)初始化模态分量集合{uk}、对应的频率中心参量{wk}以及拉格朗日乘子λ(t),将各参量变换到频域内;
c12)在非负频率区间内,迭代更新{uk},{wk},λ(t),直至满足给定的判定精度要求时,停止迭代更新,输出最后一次更新得到的模态分量;
迭代更新公式为:
Figure BDA0002802935400000033
Figure BDA0002802935400000034
Figure BDA0002802935400000035
式中,
Figure BDA0002802935400000041
Figure BDA0002802935400000042
分别为
Figure BDA0002802935400000043
f(t)和λn+1对应的傅里叶变换;
判定精度要求公式为:
Figure BDA0002802935400000044
其中,ε为收敛精度,且ε>0;
可选的,所述计算分解得到的各模态分量的多尺度排列熵,包括:
a2)对风速数据序列长度为N的时间序列X={xi,i=1,2,...,N}进行粗粒化处理,得到粗粒化序列yk (s)
Figure BDA0002802935400000045
式中s为尺度因子,[N/s]表示对N/s取整,令M=[N/s];
b2):对yk (s)进行时间重构得到:
Figure BDA0002802935400000046
式中,m为嵌入维数,τ为延迟时间,矩阵中的每一行代表一个重构分量,j=1,2,...,M;
c2)对于b2)所述重构分量按元素由大到小排序,共有m!种可能情况;其中,m!表示m的阶乘;设排序后得到的符号序列为(j1,j2,...,jm),记该符号序列出现的概率为Pr,其中,r=1,2,...,R,且R≤m!;
d2)根据下式(11)计算每个粗粒化序列的排列熵,得到时间序列在多尺度下的排列熵;
Figure BDA0002802935400000051
当pr=1/m!时,HP(m)达到最大值ln(m!);通常将多尺度排列熵进行归一化处理,得到归一化处理后的排列熵值即:
Figure BDA0002802935400000052
可选的,所述对各模态分量的多尺度排列熵进行聚类,根据聚类结果将多模态分量重组得到新的模态分量为,采用k-means算法进行聚类,将多模态分量通过相加重组为趋势分量、细节分量和随机分量;
所述对原始风速序列数据和重组后的各模态分量分别进行时序特征提取为,利用包括Tsfresh和/或hctsa的时间序列特征提取工具,分别对原始风速序列、趋势分量、细节分量和随机分量进行时序特征提取。
可选的,所述基于所述风速时序特征集合进行特征选择,得到最优风速时序特征集合,包括:
a3)对于提取得到的风速时序特征集合F,计算F中每个特征的重要度得分;
b3)根据重要度得分大小对特征进行排序,取设定排名前的重要度得分较大的特征,形成有序特征子集F′;
c3)利用皮尔逊系数法,去除有序特征子集F′中的冗余特征,得到最优特征子集F″。
可选的,采用XGBoost算法计算F中每个特征的重要度得分,包括:
a31)从根结点开始,按以下公式计算所有特征的信息增益:
Figure BDA0002802935400000061
式中,G表示结点损失函数的一阶导数之和,H表示结点损失函数的二阶导数之和,L代表左子树,R代表右子树;
b31)选择信息增益最大的特征作为结点的特征进行分割,由该特征的不同取值建立子结点;
c31)对子结点递归调用a3)-b3)的方法步骤,直至分割到最大深度,并计算构建下一棵树的残差;
d31)对c3)生成的每一颗树进行集成,形成最终的树模型;
e31)从以下三个重要性度量指标中选择其一计算重要度得分:
特征切割次数Fscore:
Fscore=|X| (14)
特征平均增益值AverageGain:
Figure BDA0002802935400000062
特征平均覆盖率AverageCover:
Figure BDA0002802935400000063
可选的,所述利用皮尔逊系数法,去除有序特征子集F′中的冗余特征,包括:
a33)对有序特征子集计算特征之间的皮尔逊系数的绝对值,形成相关系数矩阵M;
b33)对相关系数矩阵M取上三角阵,记为M′;
c33)对上三角矩阵M′进行列循环,列中若存在任意大于0.8的值,则去除该列;
d33)上三角矩阵M′余下的列的集合即对应最优特征子集F″。
第二方面,本发明提供一种短期风电功率预测方法,包括:
获取预测时段对应的风速序列监测数据;
将获取到的风速序列监测数据作为原始风速序列数据,利用第一方面所述的风速时序特征挖掘方法进行风速时序特征挖掘,得到最优特征子集;
将所述最优特征子集,作为预先训练的短期风电功率预测模型的输入,得到短期风电功率预测模型的输出,即得到预测时段的风电功率预测结果;
其中,所述预先训练的短期风电功率预测模型的训练样本为,多个历史风电功率已知时段对应的历史风速序列监测数据的所述最优风速时序特征集合。
短期风电功率预测模型为支持向量机、随机森林或深度神经网络等机器学习模型,经过训练、测试、预测三个步骤,建立以最优特征子集F″为输入,以风电功率为输出的短期风电功率预测模型:
pre=f(F”) (17)
式中,pre为短期风电功率预测值,f(·)为机器学习模型。
本发明的风速时序数据挖掘方法,首先结合VMD信号分解及k-means聚类算法得到风速序列的趋势分量、细节分量及随机分量;其次利用时序特征提取工具对上述三个分量及原始风速序列进行时序特征提取;再结合XGBoost算法对提取的时序特征进行重要度计算并排序,以及利用皮尔逊系数去除冗余特征,实现了影响短期风电功率的主导因素数据的挖掘。相比传统的风电功率预测方法,本发明通过结合信号分解、聚类算法、时序特征提取工具,以及考虑冗余性的特征选择方法,所得到的特征集由具备高度表现力的特征构成,并且兼顾低冗余的特性,将该特征集作为预测模型的输入,能够降低模型学习难度,提高预测精度。
附图说明
图1所示为本发明风速时序特征挖掘方法的一种实施例流程示意图;
图2所示为本发明中风电场风机对应轮毂高度的历史风速数据经VMD分解后的分量;
图3所示为模态分量重组后的模态分量示意图。
图4为有序特征集F″的示意图;
图5为特征集F″对应的皮尔逊系数绝对值矩阵示意图;
具体实施方式
以下结合附图和具体实施例进一步描述。
实施例1
本实施例介绍一种风速时序特征挖掘方法,参考图1所示,方法包括:
获取原始风速序列数据;
对原始风速序列数据进行分解,得到多模态分量;
计算分解得到的各模态分量的多尺度排列熵;
对各模态分量的多尺度排列熵进行聚类,根据聚类结果将多模态分量重组得到新的模态分量;
对原始风速序列数据和重组后的各模态分量分别进行时序特征提取,得到风速时序特征集合;
基于所述风速时序特征集合进行特征选择,得到最优风速时序特征集合,即为原始风速序列数据的风速时序特征挖掘结果。
以下具体介绍。
一、获取原始风速序列,进行VMD分解。
获取原始风速序列后,可对数据进行一定的预处理,如,去除噪声数据等。
在预处理后,采用VMD算法进行分解,VMD算法为现有算法,应用于本发明中,多模态分量的VMD分解方法包括:
步骤1.1:通过Hilbert变换计算各模态分量的解析信号,得到其单侧频谱。
Figure BDA0002802935400000091
式中,δ(t)为单位脉冲函数,j为虚数,t为采样时间点,*表示卷积;
步骤1.2:对每个模态分量uk(t),通过对其对应地中心频率的指数项混叠wk,将每个模态的频谱调制到相应基频带
Figure BDA0002802935400000092
式中,
Figure BDA0002802935400000093
为中心频率在复平面上的相量描述;
步骤1.3:计算以上调制信号梯度的平方范数L2,估计出各模态信号带宽,构造最小化总带宽的变分求解问题,其求解可表示为带约束条件的变分问题。
Figure BDA0002802935400000094
式中,{uk}={u1,...,uK}为模态分量集;{wk}={w1,...,wK}为各中心频率集;
Figure BDA0002802935400000095
为对函数求时间t的偏导数;
Figure BDA0002802935400000096
为uk的带宽估计,f(t)为原始信号;
步骤1.4:应用二次惩罚项和拉格朗日乘子将所述约束问题转化为非约束问题进行求解,有:
Figure BDA0002802935400000097
式中,α为二次惩罚因子。利用交替方向乘子算法求取上述拉格朗日函数的鞍点,即为最优解。
具体求解步骤包括:
步骤1.4.1:初始化模态分量集合{uk}、对应的频率中心参量{wk}以及拉格朗日乘子λ(t),将各参量变换到频域内;
步骤1.4.2:在非负频率区间内,更新uk
Figure BDA0002802935400000101
步骤1.4.3:更新wk
Figure BDA0002802935400000102
Figure BDA0002802935400000103
步骤1.4.4:在非负频率区间,更新λ;
步骤1.4.5:对于给定,判定精度ε>0,有:
Figure BDA0002802935400000104
式中,ε为收敛精度,且ε>0;
Figure BDA0002802935400000105
Figure BDA0002802935400000106
分别为
Figure BDA0002802935400000107
f(t)和λn+1对应的傅里叶变换,满足则停止迭代,否则返回步骤1.1.4.2。
参考图2,风电场风机对应轮毂高度的历史风速数据经VMD分解后得到的模态分量,记这些分量为u1,u2,u3,u4,u5,u6,u7,u8
二、对VMD分解后得到的多模态分量重组得到新的模态分量。
这部分内容包括:
步骤2.1:计算分解得到的各模态分量的多尺度排列熵;
步骤2.2:利用k-means算法对各个模态的多尺度排列熵进行聚类,将同一类的模态通过相加重组为趋势分量、细节分量和随机分量。
具体的,步骤2.1包括:
步骤2.1.1:对序列长度为N的时间序列X={xi,i=1,2,...,N}进行粗粒化处理,得到粗粒化序列yj (s)
Figure BDA0002802935400000111
式中s为尺度因子,[N/s]表示对N/s取整,令M=[N/s];
步骤2.1.2:对yk (s)进行时间重构得到:
Figure BDA0002802935400000112
式中,m为嵌入维数,τ为延迟时间,矩阵中的每一行代表一个重构分量,j=1,2,...,M;
步骤2.1.3:对于b2)所述重构分量按元素大小由大到小排序,共有m!种可能情况,m!表示m的阶乘;设排序后得到的符号序列为(j1,j2,...,jm),记该符号序列出现的概率为Pr,其中,r=1,2,...,R,且R≤m!;
将时间重构序列按升序排列,可得到符号序列S(r)=(l1,l2,...,lm)。其中,r=1,2,...,R且R≤m!,计算每一种符号序列出现的概率Pr
步骤2.1.4:根据(11)式计算每个粗粒化序列的排列熵,由此得到时间序列在多尺度下的排列熵。
Figure BDA0002802935400000121
当pr=1/m!时,HP(m)达到最大值ln(m!);通常将多尺度排列熵进行归一化处理,即
Figure BDA0002802935400000122
式中为归一化处理后的排列熵值。
在具体实践中,多尺度排列熵的计算可借助pyEntropy等工具包实现。表1为本实施例中各VMD分量对应的多尺度排列熵值。
表1各VMD分量对应的多尺度排列熵值。
Figure BDA0002802935400000123
步骤2.2中,k-means算法是一种属于划分方法的聚类算法,通常采用欧氏距离作两个样本相似程度的评价指标,其基本思想是:随机选取数据集中的k个点作为初始聚类中心,根据数据集中的各个样本到k个中心的距离将其归到距离最小的类中,然后计算所有归到各个类中的样本的平均值,更新每个类中心,直到平方误差准则函数稳定在最小值。
本实施例中,由于需要将模态重组为趋势分量、细节分量和随机分量3个分量,此处将k设置为3。表2和图3,显示了本实施例中各VMD分量模态重组的结果。表中,趋势分量由u1,u2,u3,u4通过相加得到,细节分量由u5,u6通过相加得到,随机分量则由u7,u8通过相加得到。
表2各VMD分量模态重组的结果
Figure BDA0002802935400000131
三、对原始风速序列数据和重组后的各模态分量分别进行时序特征提取,得到风速时序特征集合。
本实施例利用滑动窗口提取原始风速序列、趋势分量、细节分量以及随机分量中指定窗口大小的时间序列,可将滑动窗口大小设置为1到10,并利用Tsfresh等时间序列特征提取工具对上述4个时间序列进行特征提取,得到新的数据特征。
四、最优风速时序特征集选择
这部分主要包括:
步骤4.1:将所有新数据特征组合在一起构成新数据特征集合F,利用XGBoost算法计算F中每个特征的重要度得分,并依据重要度得分从大到小排序。取排在前5%的特征形成有序特征子集F′;
步骤4.2:结合皮尔逊系数去除特征子集F′中的冗余特征,形成最优特征子集F″。
具体的,利用XGBoost算法计算F中每个特征的重要度得分的步骤为:
步骤4.1.1:从根结点开始,按以下公式计算所有特征的信息增益;
Figure BDA0002802935400000132
式中,G表示结点损失函数的一阶导数之和,H表示结点损失函数的二阶导数之和,L代表左子树,R代表右子树;
步骤4.1.2:选择信息增益最大的特征作为结点的特征进行分割,由该特征的不同取值建立子结点;
步骤4.1.3:对子结点递归调用以上方法,直至分割到最大深度,并计算构建下一棵树的残差;
步骤4.1.4:对步骤4.1.3中生成的每一颗树进行集成,形成最终的树模型;
步骤4.1.5:从以下三个重要性度量指标中选择其一计算重要度得分。
三个重要性度量指标为:
特征切割次数Fscore:指特征用于切割叶结点的次数;
Fscore=|X| (14)
特征平均增益值AverageGain:指特征被用于切割叶结点时而产生的平均增益;
Figure BDA0002802935400000141
特征平均覆盖率AverageCover:指特征在树结构内被应用的平均覆盖率;
Figure BDA0002802935400000142
在具体实践中,可以通过XGBoost类库中的get_score方法计算特征的重要度得分,可通过设置importance_type参数可实现重要性度量指标的选择。本实施例选择特征平均覆盖率作为重要性度量指标。
步骤4.2具体包括:
步骤4.2.1:根据得到的所有特征的重要性得分,调整特征集F’为有序特征集。将特征集F’中的特征按XGBoost的重要性由大到小排列,记为特征F1',F2',...,Fn',对应的某个样本的特征值为vi,j,表示第i个样本对应的第j个特征的值。如图4所示,每一列对应一个特征,每一行对应一个样本,记样本数为m,第i个样本为Si。记XGBoost重要性程度分别为X1,X2,...,Xn,则X1>X2>...>Xn。对有序特征子集计算特征之间的皮尔逊系数的绝对值,形成相关系数绝对值矩阵M。此时矩阵的每一列、每一行同样对应特征F1',F2',...,Fn'。记Pi,j为特征Fi'与特征Fj'的皮尔逊相关系数的绝对值,如图5所示;
步骤4.2.2:对相关系数矩阵M取上三角阵,记为M′;
步骤4.2.3:对上三角矩阵M′进行列循环,列中若存在任意大于0.8的值,则去除该列。以特征F2'对应的矩阵M中的列进行说明,只要列中存在Pi,2>0.8,则删除该列(特征);
步骤4.2.4:上三角矩阵M′余下的列的集合即对应最优特征子集F″。
将上述最优特征子集F″将输入到短期风电功率预测模型中,即可得到短期风电功率的预测结果。
实施例2
与实施例1基于相同的发明构思,本实施例介绍一种短期风电功率预测方法,包括:
获取预测时段对应的风速序列监测数据;
将获取到的风速序列监测数据作为原始风速序列数据,利用第一方面所述的风速时序特征挖掘方法进行风速时序特征挖掘,得到最优特征子集;
将所述最优特征子集,作为预先训练的短期风电功率预测模型的输入,得到短期风电功率预测模型的输出,即得到预测时段的风电功率预测结果;
其中,所述预先训练的短期风电功率预测模型的训练样本为,多个历史风电功率已知时段对应的历史风速序列监测数据的所述最优风速时序特征集合。
短期风电功率预测模型为支持向量机、随机森林或深度神经网络等机器学习模型,这些机器学习模型可通过使用scikit-learn、Keras等数据挖掘及机器学习工具包迅速搭建,然后经过训练、测试、预测三个步骤,建立以最优特征子集F″为输入,以风电功率为输出的短期风电功率预测模型:
pre=f(F”) (17)
式中,pre为短期风电功率预测值,f(·)为机器学习模型。
表3显示了特征挖掘后的效果对比。可见,将支持向量机、随机森林及深度神经网络这三种机器学习模型与本发明所提的特征挖掘方法进行结合,能够有效降低预测误差,提升合格率。该结果验证了本发明所提特征挖掘方法的有效性。
表3特征挖掘后的效果对比
Figure BDA0002802935400000161
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (8)

1.一种风速时序特征挖掘方法,其特征是,包括:
获取原始风速序列数据;
对原始风速序列数据进行分解,得到多模态分量;
计算分解得到的各模态分量的多尺度排列熵;
对各模态分量的多尺度排列熵进行聚类,根据聚类结果将多模态分量重组得到新的模态分量;
对原始风速序列数据和重组后的各模态分量分别进行时序特征提取,得到风速时序特征集合;
基于所述风速时序特征集合进行特征选择,得到最优风速时序特征集合,即为原始风速序列数据的风速时序特征挖掘结果;
其中,所述基于所述风速时序特征集合进行特征选择,得到最优风速时序特征集合,包括:
a3)对于提取得到的风速时序特征集合F,计算F中每个特征的重要度得分;
b3)根据重要度得分大小对特征进行排序,取设定排名前的重要度得分较大的特征,形成有序特征子集F′;
c3)利用皮尔逊系数法,去除有序特征子集F′中的冗余特征,得到最优特征子集F″;
a3)中,采用XGBoost算法计算F中每个特征的重要度得分,包括:
a31)从根结点开始,按以下公式计算所有特征的信息增益:
Figure FDA0003716123920000011
式中,G表示结点损失函数的一阶导数之和,H表示结点损失函数的二阶导数之和,L代表左子树,R代表右子树;
b31)选择信息增益最大的特征作为结点的特征进行分割,由该特征的不同取值建立子结点;
c31)对子结点递归调用a3)-b3)的方法步骤,直至分割到最大深度,并计算构建下一棵树的残差;
d31)对c3)生成的每一颗树进行集成,形成最终的树模型;
e31)从以下三个重要性度量指标中选择其一计算重要度得分:
特征切割次数Fscore:
Fscore=|X| (14)
特征平均增益值AverageGain:
Figure FDA0003716123920000021
特征平均覆盖率AverageCover:
Figure FDA0003716123920000022
2.根据权利要求1所述的方法,其特征是,对原始风速序列数据进行分解得到多模态分量为,采用VMD算法进行多模态分量分解,包括:
a1)通过Hilbert变换计算各模态分量uk(t)的解析信号,得到各模态的单侧频谱,表示为下式:
Figure FDA0003716123920000023
式中,δ(t)为单位脉冲函数,j为虚数,t为采样时间点,*表示卷积;
b1)对每个模态分量uk(t),通过对其对应的中心频率的指数项混叠wk,将每个模态的频谱调制到相应基频带,表示为下式:
Figure FDA0003716123920000031
式中,
Figure FDA0003716123920000032
为中心频率在复平面上的相量描述;
c1)通过计算式(2)调制信号梯度的平方范数L2,估计各模态信号带宽,构造最小化总带宽的变分求解问题,如下:
Figure FDA0003716123920000033
式中,{uk}={u1,...,uK}为模态分量集;{wk}={w1,...,wK}为各中心频率集;
Figure FDA0003716123920000034
为对函数求时间t的偏导数;
Figure FDA0003716123920000035
为uk的带宽估计,f(t)为原始风速序列信号;
对式(3)进行求解,即得到各模态分量。
3.根据权利要求2所述的方法,其特征是,对式(3)进行求解为,应用二次惩罚项和拉格朗日乘子将约束问题转化为非约束问题进行求解,有下式:
Figure FDA0003716123920000036
式中,α为二次惩罚因子,λ(t)为拉格朗日乘子;
利用交替方向乘子算法求取式(4)中拉格朗日函数的鞍点,即为各模态分量的最优解,包括:
c11)初始化模态分量集合{uk}、对应的频率中心参量{wk}以及拉格朗日乘子λ(t),将各参量变换到频域内;
c12)在非负频率区间内,迭代更新{uk},{wk},λ(t),直至满足给定的判定精度要求时,停止迭代更新,输出最后一次更新得到的模态分量;
迭代更新公式为:
Figure FDA0003716123920000041
Figure FDA0003716123920000042
Figure FDA0003716123920000043
式中,
Figure FDA0003716123920000044
Figure FDA0003716123920000045
分别为
Figure FDA0003716123920000046
f(t)和λn+1对应的傅里叶变换;
判定精度要求公式为:
Figure FDA0003716123920000047
其中,ε为收敛精度,且ε>0。
4.根据权利要求3所述的方法,其特征是,所述计算分解得到的各模态分量的多尺度排列熵,包括:
a2)对风速数据序列长度为N的时间序列X={xi,i=1,2,...,N}进行粗粒化处理,得到粗粒化序列yk (s)
Figure FDA0003716123920000051
式中s为尺度因子,[N/s]表示对N/s取整,令M=[N/s];
b2):对yk (s)进行时间重构得到:
Figure FDA0003716123920000052
式中,m为嵌入维数,τ为延迟时间,矩阵中的每一行代表一个重构分量,j=1,2,...,M;
c2)对于b2)所述重构分量按元素由大到小排序,共有m!种可能情况;其中,m!表示m的阶乘;设排序后得到的符号序列为(j1,j2,...,jm),记该符号序列出现的概率为Pr,其中,r=1,2,...,R,且R≤m!;
d2)根据下式(11)计算每个粗粒化序列的排列熵,得到时间序列在多尺度下的排列熵;
Figure FDA0003716123920000053
5.根据权利要求1-4任一项所述的方法,其特征是,所述对各模态分量的多尺度排列熵进行聚类,根据聚类结果将多模态分量重组得到新的模态分量为,采用k-means算法进行聚类,将多模态分量通过相加重组为趋势分量、细节分量和随机分量;
所述对原始风速序列数据和重组后的各模态分量分别进行时序特征提取为,利用包括Tsfresh和/或hctsa的时间序列特征提取工具,分别对原始风速序列、趋势分量、细节分量和随机分量进行时序特征提取。
6.根据权利要求1所述的方法,其特征是,所述利用皮尔逊系数法,去除有序特征子集F′中的冗余特征,包括:
a33)对有序特征子集计算特征之间的皮尔逊系数的绝对值,形成相关系数矩阵M;
b33)对相关系数矩阵M取上三角阵,记为M′;
c33)对上三角矩阵M′进行列循环,列中若存在任意大于0.8的值,则去除该列;
d33)上三角矩阵M′余下的列的集合即对应最优特征子集F″。
7.一种短期风电功率预测方法,其特征是,包括:
获取预测时段对应的风速序列监测数据;
将获取到的风速序列监测数据作为原始风速序列数据,利用权利要求1-6任一项所述的风速时序特征挖掘方法进行风速时序特征挖掘,得到最优特征子集;
将所述最优特征子集,作为预先训练的短期风电功率预测模型的输入,得到短期风电功率预测模型的输出,即得到预测时段的风电功率预测结果;
其中,所述预先训练的短期风电功率预测模型的训练样本为,多个历史风电功率已知时段对应的历史风速序列监测数据的所述最优风速时序特征集合。
8.根据权利要求7所述的短期风电功率预测方法,其特征是,短期风电功率预测模型为支持向量机、随机森林或深度神经网络机器学习模型,经过训练、测试、预测三个步骤,建立以最优特征子集F″为输入,以风电功率为输出的短期风电功率预测模型:
pre=f(F”) (17)
式中,pre为短期风电功率预测值,f(·)为机器学习模型。
CN202011357189.1A 2020-11-26 2020-11-26 一种风速时序特征挖掘方法及短期风电功率预测方法 Active CN112417028B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011357189.1A CN112417028B (zh) 2020-11-26 2020-11-26 一种风速时序特征挖掘方法及短期风电功率预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011357189.1A CN112417028B (zh) 2020-11-26 2020-11-26 一种风速时序特征挖掘方法及短期风电功率预测方法

Publications (2)

Publication Number Publication Date
CN112417028A CN112417028A (zh) 2021-02-26
CN112417028B true CN112417028B (zh) 2022-09-02

Family

ID=74843088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011357189.1A Active CN112417028B (zh) 2020-11-26 2020-11-26 一种风速时序特征挖掘方法及短期风电功率预测方法

Country Status (1)

Country Link
CN (1) CN112417028B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177604B (zh) * 2021-05-14 2024-04-16 东北大学 一种基于改进l1正则化和聚类的高维数据特征选择方法
CN113392578A (zh) * 2021-05-19 2021-09-14 桂林电子科技大学 基于dcfm模型的设备故障预测方法
CN114548845B (zh) * 2022-04-27 2022-07-12 北京智芯微电子科技有限公司 一种配网管理方法、装置及系统
CN114819382A (zh) * 2022-05-11 2022-07-29 湘潭大学 一种基于lstm的光伏功率预测方法
CN115796231B (zh) * 2023-01-28 2023-12-08 湖南赛能环测科技有限公司 一种时态分析的超短期风速预测方法
CN116187559B (zh) * 2023-02-21 2024-03-15 华润电力技术研究院有限公司 一种集中式风电超短期功率预测方法、系统和云端平台
CN117252448B (zh) * 2023-11-20 2024-02-20 华东交通大学 基于时空特征提取及二次分解聚合的风电功率预测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553510A (zh) * 2020-04-08 2020-08-18 东华大学 一种短期风速预测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553510A (zh) * 2020-04-08 2020-08-18 东华大学 一种短期风速预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于VMD-PE和优化相关向量机的短期风电功率预测;武小梅等;《太阳能学报》;20181130;第39卷(第11期);3277-3284 *

Also Published As

Publication number Publication date
CN112417028A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN112417028B (zh) 一种风速时序特征挖掘方法及短期风电功率预测方法
Gillispie et al. Enumerating Markov equivalence classes of acyclic digraph models
CN110659207B (zh) 基于核谱映射迁移集成的异构跨项目软件缺陷预测方法
CN109634924B (zh) 基于机器学习的文件系统参数自动调优方法及系统
CN108985335B (zh) 核反应堆包壳材料辐照肿胀的集成学习预测方法
JP2019207685A (ja) 観測変数間の因果関係を推定するための方法、装置、およびシステム
CN110674865B (zh) 面向软件缺陷类分布不平衡的规则学习分类器集成方法
CN109977098A (zh) 非平稳时序数据预测方法、系统、存储介质及计算机设备
Li et al. Linear time complexity time series classification with bag-of-pattern-features
CN109492748B (zh) 一种基于卷积神经网络的电力系统的中长期负荷预测模型建立方法
CN111027629A (zh) 基于改进随机森林的配电网故障停电率预测方法及系统
CN109855875B (zh) 一种滚动轴承运行可靠度预测方法
CN110188196B (zh) 一种基于随机森林的文本增量降维方法
CN116629431A (zh) 一种基于变分模态分解和集成学习的光伏发电量预测方法及装置
CN108256274B (zh) 基于搜索吸引子误差算法的电力系统状态识别方法
CN114220164A (zh) 一种基于变分模态分解和支持向量机的手势识别方法
CN113869332A (zh) 一种特征选择方法、装置、存储介质和设备
CN117349751A (zh) 基于元学习与贝叶斯优化的黄土滑坡滑距预测方法及系统
CN112200208A (zh) 基于多维度特征融合的云工作流任务执行时间预测方法
CN109299260B (zh) 数据分类方法、装置以及计算机可读存储介质
CN107491417A (zh) 一种基于特定划分的主题模型下的文档生成方法
CN113743453A (zh) 一种基于随机森林的人口数量预测方法
CN114048796A (zh) 一种改进型硬盘故障预测方法及装置
CN113127469A (zh) 一种三相不平衡数据的缺失值的填补方法及系统
CN111581640A (zh) 一种恶意软件检测方法、装置及设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant