CN113988449A - 基于Transformer模型的风电功率预测方法 - Google Patents
基于Transformer模型的风电功率预测方法 Download PDFInfo
- Publication number
- CN113988449A CN113988449A CN202111307838.1A CN202111307838A CN113988449A CN 113988449 A CN113988449 A CN 113988449A CN 202111307838 A CN202111307838 A CN 202111307838A CN 113988449 A CN113988449 A CN 113988449A
- Authority
- CN
- China
- Prior art keywords
- wind power
- layer
- inputting
- vector
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 239000013598 vector Substances 0.000 claims abstract description 56
- 239000011159 matrix material Substances 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 9
- 238000005457 optimization Methods 0.000 claims abstract description 9
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000007246 mechanism Effects 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 17
- 238000012937 correction Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 238000010248 power generation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 101100428009 Mus musculus Utp6 gene Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011437 continuous method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Artificial Intelligence (AREA)
- Mathematical Optimization (AREA)
- General Business, Economics & Management (AREA)
- Mathematical Analysis (AREA)
- Marketing (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
Abstract
本发明公开了一种基于Transformer模型的风电功率预测方法,具体包括如下步骤:步骤1,对风电功率进行数据预处理,得到风电功率时间序列数据;步骤2,将步骤1所得的风电功率时间序列数据经过嵌入式操作和位置编码,然后输入到Nx层编码器中,最终输出K和V向量;步骤3,将步骤2所得的K、V向量输入到解码器中进行解码操作,输出训练时的预测结果;步骤4,通过Adam优化算法对步骤2所用到的权值矩阵进行更新,得到新的权值矩阵后再循环进行步骤2、步骤3,达到预定的迭代次数后输出最终的风电功率预测值。采用本发明能够实现风电场发电功率预测。
Description
技术领域
本发明属于新能源中的风力发电技术领域,涉及一种基于Transformer模型的风电功率预测方法。
背景技术
当今世界,由于化石能源之类的不可再生资源的过分开发与利用,能源与环境问题日益严重。在该战略背景之下,我国天然风能资源储量大、分布广,因此近年来风力发电产业规模发展迅速,已经成为新能源发展的重要支撑领域之一。在实际的生产活动中,我们需要对风电功率进行预测活动,从而尽量减少风电企业因为发电量波动、环境变化等所造成的经济财产损失。
风力发电功率预测问题是一种典型的时间序列预测问题,这类问题如果用人脑的思维方式解决,会首先对过去的一段时间内的数据进行记忆,并分析出数据本身的特征规律,然后根据这些历史数据对未来的数据做出预测。因此,如果应用到计算机中,深度神经网络模型是比较适合解决时间序列预测问题的一类模型,而这种运用神经网络模型的方法一般属于统计方法。
统计方法是需要通过对不同历史样本数据进行分析,从而建立不同样本之间的非映射关系。常见的时序外推办法有持续法、移动平均法等等,还有人工神经网络(ANN)、支持向量机(SVM)等其他人工智能方法,然而因为风电功率预估属动态的时间序列难题,系统的输入与如今及过去的输出都相关,前述办法的预测精确度有限且预测性能逐渐不能达到实际生产需求,因此基于长短期神经网络(LSTM)的模型,甚至是在此基础上的LSTM-Attention和LSTM-VMD等组合神经网络因其较高的预测性能广受欢迎。
时间序列预测问题最近一直是一些深度神经网络模型重点解决的实际问题,这类问题的主要任务是根据历史时间段内某对象或者事件的特征来预测未来某一时刻或者某一时间段内该对象或者事件的特征。在早期研究中,人们往往采用循环神经网络(RNN)模型进行预测,因为RNN网络与之前的深度神经网络最大的不同就在于它具有记忆功能,当前的输出与之前的输出是有关系的。但是RNN在处理比较长的序列时会“记忆力衰减”,影响预测效果。所以随着长短期记忆人工神经网络模型(LSTM)的出现,甚至后面在此基础上又结合了注意力机制(Attention),明显推动了时间序列预测问题的研究。
发明内容
本发明的目的是提供一种基于Transformer模型的风电功率预测方法,采用该方法能够实现风电场发电功率预测。
本发明所采用的技术方案是,基于Transformer模型的风电功率预测方法,具体包括如下步骤:
步骤1,对风电功率进行数据预处理,得到风电功率时间序列数据;
步骤2,将步骤1所得的风电功率时间序列数据经过嵌入式操作和位置编码,然后输入到Nx层编码器中,最终输出K和V向量;
步骤3,将步骤2所得的K、V向量输入到解码器中进行解码操作,输出训练时的预测结果;
步骤4,通过Adam优化算法对步骤2所用到的权值矩阵进行更新,得到新的权值矩阵后再循环进行步骤2、步骤3,达到预定的迭代次数后输出最终的风电功率预测值。
本发明的特点还在于:
步骤1的具体过程为:
步骤1.1,获取风电功率数据:
通过现有数据库或者实际风电场获得风电功率时间序列数据;
步骤1.2,对步骤1.1获取的风电功率数据进行归一化处理与数据划分:
对风电功率时间序列进行归一化,将风电数据集统一映射到[0,1]区间上,按9:1的比列划分成训练集和测试集,得到归一化后的风电时间序列训练集和测试集。
步骤2的具体过程为:
步骤2.1,通过Input Embedding操作,将步骤1所得的风电功率时间序列数据转化为稀疏矩阵X1形式,经过Embedding后进行位置编码;
步骤2.2,将步骤2.1所得稀疏矩阵X1以及位置编码送入第一层编码器中的多头注意力机制层,与若干组权值矩阵WQ、WK、WV相乘,转化为计算注意力值所需的若干组Q、K、V向量;每组向量计算得到一个Z矩阵,把得到的若干个Z矩阵通过多头注意力机制进行拼接;
步骤2.3,将稀疏矩阵X1与步骤2.2得到的矩阵Z经过残差连接与归一化处理,得到X1与Z的归一化连接值;
步骤2.4,将步骤2.3所得结果输入到全连接前馈神经网络层中进行特征提取;
步骤2.5,步骤2.4提取得到的特征再次进行Add&Normalize操作,然后输入到下一层解码器中;
步骤2.6,重复执行步骤2.2~2.5,直至将步骤1所得的风电功率时间序列训练集经过Nx层编码器编码,得到最终输出的K、V向量。
步骤3的具体过程为:
步骤3.1,初始阶段输入起始符,后续输入上一时刻transformer的输出,通过Embedding后获得稀疏矩阵X2,并进行位置编码;
步骤3.2,步骤3.1得到的经过位置编码后的稀疏矩阵X2输入到Masked Multi-HeadAttention模块,对输入的稀疏矩阵X2进行对齐,输出Q向量后,经过Add&Normal输入下一层多头注意力机制;
步骤3.3,步骤3.2所得结果和步骤2的编码器最后一层的输出K和V向量输入到第二层多头注意力机制层中得到输出序列;
步骤3.4,步骤3.3得到的结果与稀疏矩阵X2进行残差连接与归一化,得到归一化连接值;
步骤3.5,将步骤3.4得到的归一化连接值经过全连接前馈神经网络提取特征向量,再进行一次残差连接与归一化得到结果向量;
步骤3.6,将得到的结果向量继续传给下一层解码器,重复步骤3.2~3.5,经过NX层解码器解码后,最后一层解码器输出最终向量。
步骤3.7,将最后一层解码器输出的向量经过线性层,映射到一个logits向量;
步骤3.8,将logits向量经过softmax层将相关性得分的分数转换为风电功率预测值出现的概率,选择概率最高的那个数字对应的风电功率的值。
步骤4的具体过程为:
步骤4.1,通过步骤1、2得到初始权重下的损失函数,将损失函数作为目标函数计算相应梯度值;
步骤4.2,根据步骤4.1所得梯度值对transformer模型权值进行迭代更新,完成最后一次迭代训练后终止优化训练,获得最优transformer模型与权重;
步骤4.3,将步骤1中所得的测试集输入到4.2所得的最优transformer模型当中,得到风电功率最优预测结果。
本发明的有益效果如下:
1.本发明设计了近年来在自然语言处理领域比较流行的基于Transformer算法的模型,创新性地来对风电功率进行短期预测。
2.考虑了外部因素和内部因素对预测结果的影响。内因是模型本身结构的特点所导致的误差,外因则属于气象因素,是风电场周围风速、风向、温度等环境因素造成的预测误差。
附图说明
图1是本发明基于Transformer模型的风电功率预测方法的总体流程图;
图2是本发明基于Transformer模型的风电功率预测方法中Encoder-Decoder的整体结构图;
图3是本发明基于Transformer模型的风电功率预测方法中Transformer模型总体结构图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于Transformer模型的风电功率预测方法,其流程图如图1所示,具体按照如下步骤实施。
步骤1,对风电功率数据进行归一化预处理以及进行数据划分,得到一个时间序列数据,具体为:
步骤1.1,获取风电功率数据;
通过现有数据库或者实际风电场获得风电功率时间序列数据。
步骤1.2,进行归一化与数据划分;
对风电功率时间序列进行归一化,将风电数据集统一映射到[0,1]区间上,按9:1的比列划分成训练集和测试集,其中训练集用于前期调整模型的参数,测试集用于最后测试模型的效果,得到归一化后的风电时间序列训练集和测试集。
归一化公式:
其中,Xnormal是归一化之后的数据,X为原始风电功率数据,Xmax、Xmin分别为原始数据的最大值和最小值。该方法也称为线性函数归一化法。
如图2左部分所示,为transformer中的Encoder结构图。
步骤2,将步骤1所得的风电功率时间序列的训练集经过嵌入式操作和位置编码,然后输入Encoder编码器中,通过多头注意力机制层进行特征提取,将提取的特征表示输入到下一层Encoder编码器(共有Nx层编码器,其中Nx=6),每一层Encoder的工作过程相同,如步骤2.2到步骤2.5所示,最终输出K和V向量;步骤2的具体过程为:
步骤2.1,通过Input Embedding(嵌入式)操作,把将步骤1所得的风电功率时间序列的训练集数据转换为稀疏矩阵(X1)的形式,将稀疏矩阵(X1)经过Embedding后进行positional encoding(位置编码)。使用正余弦位置编码,通过不同频率的正弦、余弦函数生成,然后和对应的位置向量相加,PE(位置编码,positional encoding)计算公式如下:
其中,pos表示该元素在序列向量中的绝对位置;dmodel表示该向量的维度;2i和2i+1表示奇偶性。
步骤2.2,如图3所示,将2.1得到的经过位置编码后的稀疏矩阵(X1)送入多头注意力机制层,通过与多头注意力机制中的多组(本发明中选用8组)权值矩阵WQ、WK、WV相乘,转变为计算attenton值所需要的多组Query(Q)、Keys(K)、Values(V)向量。每组分别计算得到一个z矩阵,把得到的多个z矩阵进行拼接(concact)得到矩阵Z。
步骤2.2.1,由步骤1得到的稀疏矩阵(X1)与权值矩阵WQ、WK、WV相乘得到Q、K、V向量:
Q=X1*WQ (4);
K=X1*WK (5);
V=X1*WV (6);
步骤2.2.2,计算每个风电功率序列之间的相关性得分score,用Q中每一个向量与K中每一个向量计算点积,具体到矩阵形式公式如下:
score=Q·KT (7);
其中,dk是K向量的维度。
对于相关性得分进行归一化,目的是为了训练时梯度更加稳定,归一化公式如下公式(3)所示:
其中dk是K向量的维度。
步骤2.2.3,通过softmax函数,将每个风电功率时间序列之间的得分向量转换成[0,1]之间的概率分布,同时更加凸显向量之间的关系,同时也将softmax函数作为损失函数,经过softmax后,score转换成一个值分布在[0,1]之间的概率分布矩阵α;
步骤2.2.4,根据每个向量之间的概率分布矩阵,然后乘上Values值,即将α与V进行点积,得到单个的z矩阵。
z=soft max(score)·V (9);
步骤2.2.5,通过concact操作把多个z矩阵拼接起来,得到矩阵Z。
在本次发明专利中,是将8个z矩阵拼接,得到Z矩阵。
步骤2.3,得到矩阵Z之后,将稀疏矩阵X1与矩阵Z进行残差连接与归一化处理(Add&Normalize)。
步骤2.3.1,在矩阵Z的基础上加一个残差块X(防止在深度神经网络训练中发生退化,避免了梯度消失的问题,也就是为了防止深度神经网络通过增加网络的层数,Loss逐渐减小,然后趋于稳定达到饱和,然后再继续增加网络层数,Loss反而增大。)
步骤2.3.2,对2.3.1得到的结果进行归一化(Normalize),得到归一化连接值(加快模型收敛速度)。
sub_layer_output=LayerNorm(X1+Z) (10);
步骤2.4,将归一化得到的每个特征的向量经过全连接前馈神经网络(FNN),该过程分为一次线性变换,然后进行一次ReLU非线性,再进行一次线性变换,得到特征提取。
FNN(全连接前馈升级网络)层的公式如下:
FNN(x)=max(0,XW1+b1)W2+b2 (11);
其中max函数表示ReLU非线性变换,X为步骤2.4的输出,W1、b1分别为第一次线性变换所乘的系数和常数项,b2为第二次线性变化所加的常数项
步骤2.5,步骤2.4提取得到的特征再次进行Add&Normalize操作,然后输入到下一层Encoder(编码器)。
步骤2.6,重复执行步骤2.2-步骤2.5,直至经过Nx(Nx=6)层Encoder(编码器),得到最终输出的K、V向量。
如图2右半部分所示为Decoder的结构图。
步骤3,将步骤2所得的K、V向量输入到Decoder解码器(Decoder解码器和编码器一样也有NX层,其中NX=6)进行解码操作,经过多头注意力机制,最后输出训练时的预测结果。(Decoder(解码器)中包含两个多头注意力机制层,第一个多头注意力机制层用来记录的当前的输入之间的信息,第二个多头注意力机制是为了预测输出。同时Decoder的输入分为两类,一类是预测时的输入,初始阶段输入的是起始符,然后每次输入时上一时刻transformer的输出,第二类是训练时的输入(步骤2的encoder最终所得到的结果)。)
步骤3.1:初始阶段输入起始符,后续输入上一时刻transformer的输出(第一类输入),通过Embedding(嵌入式操作)后获得稀疏矩阵X2,并进行位置编码(PositionalEncoding)。
步骤3.2:步骤3.1得到的经过位置编码后的稀疏矩阵X2输入到Masked Multi-HeadAttention(带mask的多头注意力机制,即第一个多头注意力机制层)模块,对输入的稀疏矩阵X2进行对齐(同时防止Decoder中可以看到后面需要预测的内容),输出Q(Query)后经过Add&Normal后输入下一层多头注意力机制。
步骤3.3,步骤3.2得到的输出和步骤2的encoder(编码器)最后一层的输出K(keys)和V(Values)(第二类输入)输入到第二层多头注意力机制层中得到输出序列。
步骤3.4,步骤3.3得到的结果与输入(X2)进行残差连接与归一化(Add&Normal),得到归一化连接值。
步骤3.5:将步骤3.4得到的归一化连接值经过全连接前馈神经网络(FeedForwardNet)提取特征向量,再进行一次残差连接与归一化(Add&Normal)得到结果向量。
步骤3.6:将得到的结果向量继续传给下一层decoder,重复步骤3.2-步骤3.5,经过NX(NX=6)层decoder(解码器)后,最后一层decoder输出最终向量。
步骤3.7:最后一层Decoder输出的向量经过线性层,映射到一个更长的向量(logits向量)。
步骤3.8:logits向量经过softmax层将相关性得分的分数转换为风电功率预测值出现的概率,选择概率最高的那个数字对应的风电功率的值。
步骤4,通过Adam优化算法对步骤2所用到的权值矩阵进行更新,得到新的权值矩阵后再循环进行步骤2、步骤3,达到预定的迭代次数后输出最终的风电功率预测值。(在transformer模型的训练过程中使用优化算法来提升整个模型的学习效率,即使用梯度下降方法,通过Adam梯度下降算法对损失函数进行反向传播,计算相应的梯度值,然后以这个梯度值对模型的权重不断进行更新,在最后一次迭代训练完成后停止整个模型的训练过程。)
步骤4.1:通过步骤1、2得到初始权重下的损失函数(softmax函数),将损失函数作为目标函数计算相应梯度值:
g(t)=f(x(t-1)) (12)
其中,f(x)为损失函数(softmax函数),g(t)为相应的梯度值。
步骤4.2,根据所得梯度值对模型权值进行迭代更新,完成最后一次迭代训练后终止优化训练,获得最优模型与权重。
步骤4.2.1,对于作为搜索一部分而被优化的每个参数,必须维持一个矩矢量和指数加权无穷大范数,分别称为m和v。在搜索开始时将它们初始化为m=0,v=0;
步骤4.2.2,该算法从t=1开始的时间t内迭代执行,并且每次迭代都涉及计算一组新的参数x,通过矢量运算来更新所有参数。
步骤4.2.3,使用梯度和超参数beta1更新第一时刻。
m(t)=beta1*m(t-1)+(1-beta1)*g(t) (13);
其中beta1是一阶矩估计的指数衰减率(取0.9),m(t)为指数移动均值。
步骤4.2.4,使用平方梯度和超参数beta2更新第二时刻。
v(t)=beta2*v(t-1)+(1-beta2)*g(t)^2 (14);
其中beta2是二阶矩估计的指数衰减率(取0.999),v(t)为平方梯度。
(由于第一和第二力矩是用零值初始化的,所以它们是有偏的。)
步骤4.2.5,对第一力矩和第二力矩进行偏差校正,并以第一力矩为起点:
然后第二个时刻:
其中,beta1(t)和beta2(t)指的是beta1和beta2超参数,它们在算法的迭代过程中按时间表衰减。mhat(t)、m(t)分别表示校正后指数移动均值和校正前的指数移动均值,vhat(t)、v(t)分别表示校正前的平方梯度和校正后的平方梯度。
步骤4.2.6,为该迭代计算参数的值:
其中,alpha是步长超参数(学习率),eps是一个较小的值(epsilon),例如1e-8,可确保不会遇到被零除的误差,x(t)为更新后的损失函数,x(t-1)为上一时刻的损失函数。
根据所得梯度值对transformer模型权值进行迭代更新,设定迭代次数为50次,完成第50次迭代训练后终止优化训练,获得最优模型与权重。
步骤4.3,将测试集输入到4.2的模型当中,得到风电功率最优预测结果。
Claims (5)
1.基于Transformer模型的风电功率预测方法,其特征在于:具体包括如下步骤:
步骤1,对风电功率进行数据预处理,得到风电功率时间序列数据;
步骤2,将步骤1所得的风电功率时间序列数据经过嵌入式操作和位置编码,然后输入到Nx层编码器中,最终输出K和V向量;
步骤3,将步骤2所得的K、V向量输入到解码器中进行解码操作,输出训练时的预测结果;
步骤4,通过Adam优化算法对步骤2所用到的权值矩阵进行更新,得到新的权值矩阵后再循环进行步骤2、步骤3,达到预定的迭代次数后输出最终的风电功率预测值。
2.根据权利要求1所述的基于Transformer模型的风电功率预测方法,其特征在于:所述步骤1的具体过程为:
步骤1.1,获取风电功率数据:
通过现有数据库或者实际风电场获得风电功率时间序列数据;
步骤1.2,对步骤1.1获取的风电功率数据进行归一化处理与数据划分:
对风电功率时间序列进行归一化,将风电数据集统一映射到[0,1]区间上,按9:1的比列划分成训练集和测试集,得到归一化后的风电时间序列训练集和测试集。
3.根据权利要求2所述的基于Transformer模型的风电功率预测方法,其特征在于:所述步骤2的具体过程为:
步骤2.1,通过Input Embedding操作,将步骤1所得的风电功率时间序列数据转化为稀疏矩阵X1形式,经过Embedding后进行位置编码;
步骤2.2,将步骤2.1所得稀疏矩阵X1以及位置编码送入第一层编码器中的多头注意力机制层,与若干组权值矩阵WQ、WK、WV相乘,转化为计算注意力值所需的若干组Q、K、V向量;每组向量计算得到一个Z矩阵,把得到的若干个Z矩阵通过多头注意力机制进行拼接;
步骤2.3,将稀疏矩阵X1与步骤2.2得到的矩阵Z经过残差连接与归一化处理,得到X1与Z的归一化连接值;
步骤2.4,将步骤2.3所得结果输入到全连接前馈神经网络层中进行特征提取;
步骤2.5,步骤2.4提取得到的特征再次进行Add&Normalize操作,然后输入到下一层解码器中;
步骤2.6,重复执行步骤2.2~2.5,直至将步骤1所得的风电功率时间序列训练集经过Nx层编码器编码,得到最终输出的K、V向量。
4.根据权利要求3所述的基于Transformer模型的风电功率预测方法,其特征在于:所述步骤3的具体过程为:
步骤3.1,初始阶段输入起始符,后续输入上一时刻transformer的输出,通过Embedding后获得稀疏矩阵X2,并进行位置编码;
步骤3.2,步骤3.1得到的经过位置编码后的稀疏矩阵X2输入到Masked Multi-HeadAttention模块,对输入的稀疏矩阵X2进行对齐,输出Q向量后,经过Add&Normal输入下一层多头注意力机制;
步骤3.3,步骤3.2所得结果和步骤2的编码器最后一层的输出K和V向量输入到第二层多头注意力机制层中得到输出序列;
步骤3.4,步骤3.3得到的结果与稀疏矩阵X2进行残差连接与归一化,得到归一化连接值;
步骤3.5,将步骤3.4得到的归一化连接值经过全连接前馈神经网络提取特征向量,再进行一次残差连接与归一化得到结果向量;
步骤3.6,将得到的结果向量继续传给下一层解码器,重复步骤3.2~3.5,经过NX层解码器解码后,最后一层解码器输出最终向量;
步骤3.7,将最后一层解码器输出的向量经过线性层,映射到一个logits向量;
步骤3.8,将logits向量经过softmax层将相关性得分的分数转换为风电功率预测值出现的概率,选择概率最高的那个数字对应的风电功率的值。
5.根据权利要求4所述的基于Transformer模型的风电功率预测方法,其特征在于:所述步骤4的具体过程为:
步骤4.1,通过步骤1、2得到初始权重下的损失函数,将损失函数作为目标函数计算相应梯度值;
步骤4.2,根据步骤4.1所得梯度值对transformer模型权值进行迭代更新,完成最后一次迭代训练后终止优化训练,获得最优transformer模型与权重;
步骤4.3,将步骤1中所得的测试集输入到4.2所得的最优transformer模型当中,得到风电功率最优预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111307838.1A CN113988449B (zh) | 2021-11-05 | 2021-11-05 | 基于Transformer模型的风电功率预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111307838.1A CN113988449B (zh) | 2021-11-05 | 2021-11-05 | 基于Transformer模型的风电功率预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113988449A true CN113988449A (zh) | 2022-01-28 |
CN113988449B CN113988449B (zh) | 2024-04-12 |
Family
ID=79746853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111307838.1A Active CN113988449B (zh) | 2021-11-05 | 2021-11-05 | 基于Transformer模型的风电功率预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113988449B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580798A (zh) * | 2022-05-09 | 2022-06-03 | 南京安元科技有限公司 | 一种基于transformer的设备点位预测方法及系统 |
CN115271225A (zh) * | 2022-08-05 | 2022-11-01 | 中国矿业大学(北京) | 一种基于小波降噪和神经网络的风力-风功率建模方法 |
CN116128158A (zh) * | 2023-04-04 | 2023-05-16 | 西南石油大学 | 混合采样注意力机制的油井效率预测方法 |
CN116595356A (zh) * | 2023-07-17 | 2023-08-15 | 腾讯科技(深圳)有限公司 | 时序信号预测方法、装置、电子设备及存储介质 |
CN117237005A (zh) * | 2023-11-16 | 2023-12-15 | 国网天津市电力公司经济技术研究院 | 一种考虑多维因素的绿电需求量智能预测方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111160620A (zh) * | 2019-12-06 | 2020-05-15 | 江苏方天电力技术有限公司 | 一种基于端到端记忆网络的短期风电功率预测方法 |
CN112653142A (zh) * | 2020-12-18 | 2021-04-13 | 武汉大学 | 优化深度Transformer网络的风电功率预测方法及系统 |
CN113379164A (zh) * | 2021-07-16 | 2021-09-10 | 国网江苏省电力有限公司苏州供电分公司 | 基于深度自注意力网络的负荷预测方法及系统 |
-
2021
- 2021-11-05 CN CN202111307838.1A patent/CN113988449B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111160620A (zh) * | 2019-12-06 | 2020-05-15 | 江苏方天电力技术有限公司 | 一种基于端到端记忆网络的短期风电功率预测方法 |
CN112653142A (zh) * | 2020-12-18 | 2021-04-13 | 武汉大学 | 优化深度Transformer网络的风电功率预测方法及系统 |
CN113379164A (zh) * | 2021-07-16 | 2021-09-10 | 国网江苏省电力有限公司苏州供电分公司 | 基于深度自注意力网络的负荷预测方法及系统 |
Non-Patent Citations (1)
Title |
---|
谢林枫;李同哲;李昆明;石星煜;: "基于一种新技术的风电功率短期预测", 计算机仿真, no. 07, 15 July 2020 (2020-07-15), pages 155 - 160 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580798A (zh) * | 2022-05-09 | 2022-06-03 | 南京安元科技有限公司 | 一种基于transformer的设备点位预测方法及系统 |
CN114580798B (zh) * | 2022-05-09 | 2022-09-16 | 南京安元科技有限公司 | 一种基于transformer的设备点位预测方法及系统 |
CN115271225A (zh) * | 2022-08-05 | 2022-11-01 | 中国矿业大学(北京) | 一种基于小波降噪和神经网络的风力-风功率建模方法 |
CN116128158A (zh) * | 2023-04-04 | 2023-05-16 | 西南石油大学 | 混合采样注意力机制的油井效率预测方法 |
CN116595356A (zh) * | 2023-07-17 | 2023-08-15 | 腾讯科技(深圳)有限公司 | 时序信号预测方法、装置、电子设备及存储介质 |
CN116595356B (zh) * | 2023-07-17 | 2023-09-22 | 腾讯科技(深圳)有限公司 | 时序信号预测方法、装置、电子设备及存储介质 |
CN117237005A (zh) * | 2023-11-16 | 2023-12-15 | 国网天津市电力公司经济技术研究院 | 一种考虑多维因素的绿电需求量智能预测方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113988449B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113988449A (zh) | 基于Transformer模型的风电功率预测方法 | |
CN112991090B (zh) | 基于Transformer模型的光伏功率预测方法 | |
US20220260981A1 (en) | Optimization decision-making method of industrial process fusing domain knowledge and multi-source data | |
CN112860904B (zh) | 一种融入外部知识的生物医疗关系抽取方法 | |
CN115146700B (zh) | 一种基于Transformer序列到序列模型的径流预测方法 | |
CN116738994A (zh) | 基于上下文增强的提示微调的关系抽取方法 | |
CN111626764A (zh) | 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置 | |
CN111274375A (zh) | 一种基于双向gru网络的多轮对话方法及系统 | |
CN117196763A (zh) | 基于时序感知自注意力和对比学习的商品序列推荐方法 | |
CN117273188A (zh) | 一种具有增量学习能力的太阳能光伏发电功率预测方法 | |
CN114782776B (zh) | 基于MoCo模型的多模块知识蒸馏方法 | |
CN116227560A (zh) | 基于DTW-former的时间序列预测模型及方法 | |
CN110738363B (zh) | 一种光伏发电功率预测方法 | |
CN116014722A (zh) | 基于季节分解和卷积网络的次日光伏发电预测方法及系统 | |
CN113627685B (zh) | 一种考虑风电上网负荷限制的风力发电机功率预测方法 | |
CN116894180B (zh) | 一种基于异构图注意力网络的产品制造质量预测方法 | |
Basterrech et al. | Evolutionary Echo State Network: A neuroevolutionary framework for time series prediction | |
CN116502774A (zh) | 一种基于时间序列分解和勒让德投影的时间序列预测方法 | |
CN114897004B (zh) | 一种基于深度学习Transformer模型的梯形堆积核脉冲识别方法 | |
CN113377907B (zh) | 基于记忆掩码自注意力网络的端到端任务型对话系统 | |
CN113095596A (zh) | 基于多级Gate-SA-TCN的光伏功率预测方法 | |
CN114925197B (zh) | 基于主题注意力的深度学习文本分类模型训练方法 | |
CN117010459B (zh) | 基于模块化和序列化自动生成神经网络的方法 | |
CN111158640B (zh) | 一种基于深度学习的一对多需求分析识别方法 | |
CN115102871B (zh) | 基于业务特征向量的能源互联网控制终端业务处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |