CN112016736A

CN112016736A - 基于门控卷积和注意力机制的光伏发电功率的控制方法

Info

Publication number: CN112016736A
Application number: CN202010746242.0A
Authority: CN
Inventors: 孙美君; 陈颖鉴; 王征
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2020-12-01
Anticipated expiration: 2040-07-29
Also published as: CN112016736B

Abstract

本发明公开了一种基于门控卷积和注意力机制的光伏发电功率的控制方法，方法包括：构建由Conv+Pool层堆叠的网络层、BiGLU网络层、及Attention网络层组成的端到端的深度学习模型BiGCNN；所述BiGLU、Attention网络层分别用于提取短期、长期的时序依赖联系；将安装在光伏设备附近的传感器及气象卫星收集的天气数据，通过无线网传输到计算机；计算机根据过去一段时间内的数值天气数据及光伏设备的历史发电功率，加载所述深度学习模型BiGCNN预测未来某一时刻的发电功率；基于预测的发电功率有助于光伏发电和规划系统采取积极的防御措施。本发明通过对预测结果的控制可以有助于光伏发电和规划系统采取积极的防御措施。

Description

基于门控卷积和注意力机制的光伏发电功率的控制方法

技术领域

本发明涉及机器学习的时序数据控制领域，尤其涉及一种基于门控卷积和全局注意力机制的光伏发电功率的控制方法，通过对过去一段时间内采集到的天气数据和历史发电功率的分析和利用，来预测未来某一时刻的光伏发电功率，进而实现对光伏发电功率的有效控制。

背景技术

可再生能源发电厂的电力预测是近几年一个非常活跃的研究领域。对未来一段时间的发电量预测，能够确保电网的安全运行，并有助于最大程度地减少可再生能源的运营成本。太阳能作为代替传统能源的最优可再生清洁能源之一，光伏发电成为一个十分重要的课题。光伏发电的主要影响因素为太阳辐照度，而太阳辐照度以24小时为周期，呈现出明显的周期变化特征，因此光伏的发电功率也呈现出比较明显的周期性。但是由于天气变化具有极强的不确定性和突发性，导致太阳辐照度也具有一定的波动性。因此，根据丰富的天气数据对光伏发电功率实施准确预测，有助于光伏发电和规划系统采取积极防御措施。

对于电力领域的时序数据预测任务，现流行的一种解决思路是将能源预测任务与深度学习相结合。深度学习提出了一种让计算机自动学习模式特征的方法，并将特征学习融入到了建立模型的过程中，从而减少了人为设计特征造成的不完备性，同时也降低了对建模所需的专家知识的要求。

目前时序数据预测领域，常见的深度学习模型有多层感知机(Multi-LayerPerceptron,MLP)，深度置信网络(Deep Belief Network,DBN)，自编码器(AutoEncoder,AE)，循环神经网络(Recurrent Neural Network,RNN)等。其中，RNN通过循环迭代的方式提取数据特征，使前一个时刻的数据特征作用于当前时刻的特征提取过程中，从而使网络在时间维度上具有短期的记忆特性。RNN包括其变体长短期记忆网络(Long Short-TermMemory,LSTM)及门控循环单元(Gated Recurrent Unit,GRU)等，被广泛地应用在时序数据预测任务中。

目前处理时序问题的深度学习方法大多在模型中用到RNNs(循环神经网络变体)。例如近几年提出的DA-RNN(双阶段注意力-循环神经网络)，Auto-LSTM(自编码器-长短期记忆网络)，LSTNet(长短期时间序列网络)，RESTFul(多粒度时序预测模型)等，这些前沿方法都用RNNs来处理时序依赖。RNNs虽然能有效提取时序特征，但是存在以下问题：一、逐时刻地计算序列数据，当前时刻的计算依赖于之前的结果，无法并行加速；二、只能利用之前时刻的信息。虽然可以使用BiRNN(双向循环神经网络)做到利用之后时刻的信息，但是时间成本加倍；三、梯度被较近时刻主导，较久远时刻的梯度值变得越来越微弱，导致模型实际上很难对序列中长距离的依赖性进行建模，通常RNNs做时序预测的时间步设置的步长。

传统的卷积神经网络(Convolutional Neural Networks,CNN)一般被认为不太适合时序问题的建模。但是最近也有很多工作显示，特定的卷积神经网络结构在解决时序问题上也能达到很好的效果。门控卷积神经网络(Gated Convolutional Networks,GCNN)将LSTM中的“门”机制引入CNN，其在语言任务上的PPL(困惑度)指标超过RNN风格的模型。自然语言生成任务的seq2seq(序列到序列)模型，过去用RNNs实现其Encoder(编码器)和Decoder(解码器)部分，近几年也频繁提出基于CNN的seq2seq模型。

现有技术中将RNN用于时序预测存在以下缺陷：

1、逐时刻计算序列，当前时刻的计算依赖于之前的结果，无法并行加速；

2、理论上，LSTM通过门控单元及线性传递的单元状态，可以使得梯度在较久远时刻也能维持较大值。但是在实际中，梯度往往被较近时刻主导，导致模型难以对序列中长距离的依赖进行建模。

发明内容

本发明提供了一种基于门控卷积和注意力机制的光伏发电功率的控制方法，本发明利用门控卷积神经网络和全局注意力机制来分别学习序列的短期、长期时序依赖联系，实施准确预测，验证了CNN做时序预测的可行性，通过对预测结果的控制可以有助于光伏发电和规划系统采取积极的防御措施，详见下文描述：

一种基于门控卷积和注意力机制的光伏发电功率的控制方法，所述方法包括：

构建由Conv+Pool层堆叠的网络层、BiGLU网络层、及Attention网络层组成的端到端的深度学习模型BiGCNN；所述BiGLU、Attention网络层分别用于提取短期、长期的时序依赖联系；

将安装在光伏设备附近的传感器及气象卫星收集的天气数据，通过无线网传输到计算机；

计算机根据过去一段时间内的数值天气数据及光伏设备的历史发电功率，加载所述深度学习模型BiGCNN预测未来某一时刻的发电功率；

基于预测的发电功率有助于光伏发电和规划系统采取积极的防御措施。

其中，所述BiGLU网络层包括：上、下分支分别为Value、Gate分支，

Value分支，由1×1的卷积对输入做一个线性变换，用于增加通道维度；

Gate分支包括：Gate1分支和Gate2分支，Gate1分支在原始序列的起始位置做长度为k-1的填充，Gate2分支在原始序列的末尾位置做长度为k-1的填充，且卷积方向与时间方向逆向，Gate2分支每次卷积只提取当前及之后时刻的信息；两个分支在卷积计算完成后经过一个ReLU非线性函数激活做逐元素相加，再经过sigmoid函数得到门控输出，实现能独立提取前向信息和后向信息。

进一步地，所述Gate2分支的计算是通过在时间维度上倒置序列数据来实现，与Gate1分支的数据操作相反；

其中，U为Gate1分支卷积层的权重；

为正序的序列；c为Gate1分支卷积层的偏置；V为Gate2分支卷积层的权重；

为倒序的序列；d为Gate2分支卷积层的偏置；

为包含过去信息的数据表征；

为包含未来信息的数据表征，

为逐元素相加运算，σ为sigmoid函数，g为门控输出。

通过控制每次卷积的范围及使用非线性激活函数，实现网络层能独立提取前向信息和后向信息。

其中，所述Attention网络层用于计算远距离时刻的相关性，学习长期的时序依赖，计算公式如下：

α_i＝Similarity(h_i,h_t)

predict＝W[Sum(h·α)；h_t]+b

其中，h_i为BiGLU网络层输出的第i个时刻的数据表征，h_t为最后一个时刻的数据表征，

m为通道数，n为特征数，Similarity函数用于计算任意两个时刻数据的相关性，

表示h_i同h_t的相关性，α为α_i组成的向量组；predict为预测结果，Sum(h·α)为对所有数据表征h_i的加权求和运算，[Sum(h·α)；h_t]表示拼接操作，W表示全连接层的权重，b表示全连接层的偏置。

本发明提供的技术方案的有益效果是：

1、通过获取到的稳定准确的光伏功率的预测结果，可以协助电网人员控制分布式发电设备选择性地接入电网，这有助于维护电网的电压平衡，减少限电带来的经济损失，有效地帮助电网调度部门做好各类电源的调度计划；

2、通过光伏功率预测能够帮助光伏电站生产计划人员合理安排电站的运行方式，例如选择在低产能期间进行光伏设备的检修维护，节约了能源、时间成本。

附图说明

图1为BiGCNN网络结构的示意图；

图2为BiGLU网络层的Gate分支的示意图；

其中，图示的操作对象以单变量序列为例进行说明。

图3为pv13、pv15、pv18及pv20训练过程中在验证集上的损失曲线示意图；

图4为测试预测误差箱线图；

图5为预测效果示意图。

图6为注意力机制效果的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

为了解决背景技术中存在的技术问题，可以设计特定的卷积神经网络来做时序数据预测。其中，门控卷积神经网络GCNN可用于提取短期的时序依赖联系。全局注意力机制(Global Attention Mechanism)可以直接学习长距离的时序依赖，而不用像LSTM一样顺序记忆，因此可用于学习序列的长期依赖联系。

本发明描述了一个端到端的深度学习模型BiGCNN。模型的网络结构概要如图1所示。整个网络由三部分组成：Conv+Pool层堆叠的网络层、BiGLU网络层、及Attention网络层。

一、Conv+Pool层堆叠的网络层

在Conv+Pool层堆叠的网络层中，对于当前层的输入，在变量维度上卷积提取变量特征，同时池化降维，最终输出多通道的特征图。该网络层不涉及时序特征的提取。

二、BiGLU网络层

时序特征的提取由BiGLU网络层和Attention网络层实现。

如图1所示，BiGLU网络层分为上下两个分支。上边的分支为Value分支，由1×1的卷积对输入做一个线性变换，主要用于增加通道维度；下边的分支为Gate分支，模拟的是LSTM中的“门”结构，决定Value分支的输出有多少能进入到下一模块中。而Gate分支又产生了两个分支，即Gate1分支和Gate2分支，计算单变量序列的Gate分支示意图如图2所示。假设Gate分支的卷积核在时间维度的大小为k，Gate1分支在原始序列的起始位置做长度为k-1的填充，使得Gate1分支每次卷积只提取当前及之前时刻的信息。而Gate2分支在原始序列的末尾位置做长度为k-1的填充，且卷积方向与时间方向逆向，因此Gate2分支每次卷积只提取当前及之后时刻的信息。两个分支在卷积计算完成后还要经过一个非线性函数激活，主要是为了使得两个分支的卷积计算独立。Gate分支最后对两个子分支的激活值做逐元素相加，目的是融合前向信息和后向信息，再经过sigmoid函数得到门控输出。

实验中，本发明选择ReLU作为非线性激活函数。ReLU不仅引入了非线性，而且使得激活值为负值的神经元输出为零，这将不可避免地导致信息的损失。为了缓解这一问题，在卷积阶段对数据做升维的处理，使得信息能够保持一定程度的冗余。Gate2分支的计算是通过在时间维度上倒置序列数据来实现，从图2可以看到，Gate2分支的数据填充位置及卷积方向，和Gate1分支的数据操作相反，只要将Gate2分支的输入经过倒置函数处理，就可以使用相同的函数处理Gate1分支和Gate2分支，因此在实现中，本方法将序列数据在时间维度上倒置后输入Gate2分支。Gate分支的计算如公式(1)、(2)、(3)所示：

其中，U为Gate1分支卷积层的权重；

为倒序的序列；d为Gate2分支卷积层的偏置；

为包含过去信息的数据表征；

为包含未来信息的数据表征，

为逐元素相加运算，σ为sigmoid函数，g为门控输出。

三、Attention网络层

BiGLU网络层由于受卷积核大小的限制，只能学习短期的时序依赖模式。而很久之前的信息也可能对当前时刻的预测十分关键。另外，长期的趋势对于短期的预测具有指导意义。

为了学习长期的时序依赖模式，本方法用到全局注意力机制。Attention可以直接计算远距离时刻的相关性，因此可以直接学习长距离的时序依赖。计算公式如下：

α_i ＝ Similarity(h_i, h_t) (4)

predict＝ W[Sum(h·α)； h_t]+b (5)

m为通道数，n为特征数。Similarity函数计算任意两个时刻数据的相关性，可以说点积，或者是余弦相似度计算等。

表示h_i同h_t的相关性，α为α_i组成的向量组。predict为预测结果，Sum(h·α)为对所有数据表征h_i的加权求和运算，[Sum(h·α)；h_t]表示拼接操作，W表示全连接层的权重，b表示全连接层的偏置。

本发明用注意力机制计算得到的关联向量组α对过去时刻的数据表征进行加权求和计算，结果和最后一个时刻的数据表征

联合，最后经全连接层整合信息得到预测结果。

四、光伏发电功率的预测和控制

1、将安装在光伏设备附近的传感器及气象卫星收集的天气数据，通过无线网传输到计算机；

2、计算机在特定时刻或者在用户操作下，根据过去一段时间内的数值天气数据及光伏设备的历史发电功率，加载本发明构建的深度学习模型BiGCNN来计算未来某一时刻的发电功率；

其中，天气对于光伏发电有非常重大的影响，考虑太阳辐照度、云层覆盖率、湿度等因素可以使得预测更加准确。但是这些变量之间、变量对于目标预测的联系通常难以解释，并且可能要求预测算法工程师具备相关领域的专家知识。深度学习模型在大规模数据中自主学习内在联系，克服了以上问题，并且其对噪声的鲁棒性很强。

3、该深度学习模型BiGCNN针对序列数据中存在的长期模式和短期模式，设计了不同的网络层来捕获这些特征，实验证明本发明提出的预测模型比对比的深度学习模型更具有稳定性和有效性。

其中，第二层BiGLU层通过卷积和门控机制控制信息流通，由于卷积核大小的限制，这里捕获的是短期模式；

第三层Attention层，不同时刻的数据表征可以直接计算相关性，本发明无视了任意两个时刻的间隔，因此可以捕获长期模式。

实验设置

数据集及评价指标：

(1)光伏发电数据集GermanSolarFarm

GermanSolarFarm为公开数据集，由21个子数据集组成，是统计分布在德国的21个光伏设备的数据得到。对于每个光伏设备，每3小时采集一次历史天气数据和实际功率，持续约990天。21个光伏设备的额定功率介于100kW和8500kW之间，也就是说每个光伏设备的规格不同。数据集已经过预处理，除功率外，其他变量都通过min-max归一化到0-1之间；目标变量，即实际功率，由相应光伏的额定功率归一化到0-1之间。

(2)两种评估指标：

均方根误差(Root Mean Square Error,RMSE)，平均绝对误差(Mean AbsoluteError,MAE)。公式如下：

其中，y′_i为模型的预测功率，y_i为实际的测量功率。从公式上看，MAE可以很好地反映预测值误差的实际情况。相比于MAE，RMSE则对预测中的较大误差反映敏感。如果RMSE远大于MAE，表示预测值较真实值具有很大的偏差；如果RMSE近似等于MAE，表示偏差较小，但不存在RMSE小于MAE的情况。指标RMSE和MAE越小，表示预测越准确。

(3)设置补充

本方法实验使用的GPU为NVIDIA GeForce GTX 1050Ti，模型代码基于Python和TensorFlow工具箱搭建。对于21个光伏数据集，每个数据集以0.50，0.25，0.25的比例划分为训练集、验证集和测试集，为每个数据集训练一个模型。另外，模型训练使用Adam优化器，初始学习率设置为10e-3，损失函数为评价指标之一的MAE，训练批次为一次32个样本。学习率下降的评判标准为验证集上的损失10次不下降。提前结束训练的评判标准为验证集上的损失20次不下降。

对比实验包括支持向量回归机(Support Vactor Regression,SVR)，随机森林回归(RandomForestRegressor,RFR)，多层感知机(Multilayer Perceptron,MLP)，LSTM，GRU和Auto-LSTM。各个对比方法经过参数调优，最终参数取的是21个数据集上平均性能最好的一组参数，其余的实验变量和本文模型BiGCNN保持一致。

(4)实验性能比较

为了直观和准确地描述本方法模型的实验性能，本方法在部分光伏数据集上可视化训练过程的loss收敛曲线，以及测试预测误差，最后以表格的形式展示所有方法在每个数据集上的性能。

图3显示了在光伏数据集pv13、pv15、pv18及pv20上，本方法的模型BiGCNN和其他四种对比方法在验证集上的loss曲线。由图3看到，BiGCNN的指标优于其他所有对比方法。Auto-LSTM比所有方法更早地结束训练，这是因为Auto-LSTM在此之前已经过预训练，图中所示为其微调的收敛过程。BiGCNN也能较早地收敛。

除了展示训练过程的loss收敛曲线，还进一步以箱线图的形式可视化了模型的预测误差。如图4所示。箱线图的每一列对应一种方法的预测误差分布。每列中间的“箱子”，其上下边界分别等于由小到大排列后的第75％和第25％的值，即50％的数据点落在“箱子”中。因此，箱子的高度在一定程度上反映了数据的波动程度。“箱子”的高度被称为四分位距(interquartile range,IQR)。高度越小，表示越多的预测误差落在0附近。单侧“虚线”的长度通常被定义为1.5倍的IQR，“虚线”的端点被定义为异常值截断点。

本方法实验中，“虚线”的长度被定义为10倍的IQR。“虚线”外部的点表示的数据都是异常值，这里指预测误差较大的点。由图4可知，本方法模型BiGCNN的“箱子”高度小于其他所有的对比方法，意味着更多的预测偏差接近0。Auto-LSTM的“箱子”高度接近BiGCNN，但是异常点相对较密，证明预测效果略差于BiGCNN。

通过以上在多个数据集上的数据可视化，验证了本方法模型BiGCNN和其他对比方法的预测效果。BiGCNN和对比方法在所有数据集上的RMSE值如表1所示，最后还展示了平均RMSE值及平均MAE值，指标最好的数据用粗体标记。预测任务的效果如图5所示。

表1所有数据集上的RMSE及平均RMSE、平均MAE

Dataset	SVR	KNN	MLP	GRU	LSTM	Auto-LSTM	BiGCNN
								pv01	0.0682	0.0761	0.0614	0.0613	0.0609	0.0614	0.0580
pv02	0.0693	0.0693	0.0586	0.0536	0.0538	0.0551	0.0540
								pv03	0.0617	0.0538	0.0479	0.0430	0.0442	0.0444	0.0463
pv04	0.0611	0.0574	0.0448	0.0428	0.0430	0.0434	0.0427
								pv05	0.0644	0.0806	0.0592	0.0580	0.0623	0.0530	0.0574
pv06	0.0774	0.0878	0.0709	0.0700	0.0675	0.0713	0.0755
								pv07	0.0950	0.1170	0.0970	0.0994	0.0975	0.0981	0.0925
pv08	0.0812	0.0970	0.0745	0.0723	0.0734	0.0720	0.0702
								pv09	0.0826	0.0918	0.0847	0.0825	0.0809	0.0811	0.0784
pv10	0.0680	0.0713	0.0616	0.0615	0.0614	0.0580	0.0582
								pv11	0.1067	0.1237	0.1081	0.1033	0.1093	0.1057	0.1034
pv12	0.1078	0.1284	0.1086	0.1111	0.1080	0.1029	0.1012
								pv13	0.1062	0.1233	0.1006	0.1011	0.1023	0.1057	0.1006
pv14	0.0804	0.0876	0.0741	0.0739	0.0759	0.0722	0.0714
								pv15	0.0827	0.0906	0.0800	0.0827	0.0847	0.0775	0.0755
pv16	0.0810	0.0915	0.0748	0.0761	0.0760	0.0762	0.0716
								pv17	0.0797	0.0871	0.0760	0.0826	0.0833	0.0767	0.0729
pv18	0.0703	0.0794	0.0653	0.0674	0.0666	0.0638	0.0646
								pv19	0.0795	0.0883	0.0867	0.0780	0.0778	0.0750	0.0725
pv20	0.0833	0.0953	0.0821	0.0849	0.0818	0.0760	0.0706
								pv21	0.0778	0.0829	0.0731	0.0718	0.0716	0.0673	0.0676
Avg.RMSE	0.0802	0.0895	0.0757	0.0751	0.0753	0.0732	0.0717
								Avg.MAE	0.0564	0.0449	0.0386	0.0378	0.0370	0.0347	0.0339

总的来说，本发明提出BiGCNN模型，用门控卷积神经网络和全局注意力机制来学习短期、长期的时序依赖模式。对比表1中的其他六种预测模型(SVR、KNN、MLP、GRU、LSTM、及Auto-LSTM)，本发明提出的方法取得了更为准确的预测结果，性能超过了先进方法Auto-LSTM，验证了卷积神经网络做时序预测的可行性。因此，可针对预测问题，进一步设计出基于卷积神经网络的预测模型，克服循环神经网络带来的性能问题。

(5)可视化注意力权重

本发明利用全局注意力机制来直接学习序列的长期依赖。通过在测试阶段，对Attention网络层的中间结果的可视化，探究注意力机制强调或抑制了哪些信息。

Attention层计算每个时刻的数据表征h_i和最后一个时刻的数据表征h_t的相关性，得到的权重是一个多通道的向量组α。由于每个通道关注的是不同方面的特征，若是逐通道地可视化权重，将难以观察到可解释的现象，因此可视化实验计算每个时刻的权重在通道维度上的平均值，可视化结果如图6(b)所示，其分别对4个样本的平均权重进行可视化，其中深色表示更高的权值，白色表示更低的权值。图6(a)展示的是经过归一化的测量功率值曲线，是为了帮助分析平均权重的意义。

为了可视化实验的效果，可视化实验使用时间窗口大小为8的历史数据来预测下一时刻的功率，即每个样本的输入数据X＝[x_t-8,x_t-7,…,x_t-1]，x_i为任一时刻的包含天气数据和发电功率的数据，模型的预期输出Y＝[y_t]，y_t为时刻t的预测功率。例如2号样本在使用时刻2到时刻9的窗口数据去预测时刻10的功率时，时刻2、3的权值仅低于时刻8；从图6(a)观察到，时刻2、3的曲线趋势接近预测时刻9所在的趋势，进一步观察可以发现二者的间隔接近一个周期。而1号样本在预测时刻9的功率时，时刻1、2的曲线斜率和时刻8的曲线斜率相差较大，时刻8对应的周期时刻在更早之前，因此更加关注时刻5、6、7的信息。

图6(a)给出的是功率曲线，预测时还用到特征更为丰富的天气数据，但是仅结合功率曲线，可视化实验证明注意力机制能够动态地强调重要时刻的信息，并且由于其计算无视时刻距离，模型的Attention层可以捕获长期的时序依赖信息，或者是周期模式的信息。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。