CN116738212A

CN116738212A - 面向多领域的基于注意力机制的电能量预测方法与系统

Info

Publication number: CN116738212A
Application number: CN202310757019.XA
Authority: CN
Inventors: 于怡; 陈心仪; 黄青青; 谢林枫; 沈明溪; 康浴宇; 王淑云; 包琰琪; 张鸿鸣; 孙毓聪
Original assignee: Jiangsu Fangtian Power Technology Co Ltd
Current assignee: Jiangsu Fangtian Power Technology Co Ltd
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-09-12

Abstract

本发明提供一种面向多领域的基于注意力机制的电能量预测方法与系统，其中方法包括获取电能量数据以及相应的常规特征和领域特征；利用连续特征编码器和离散特征编码器分别对连续特征和离散特征进行编码；对各类编码后的特征表示进行特征融合，将领域特征表示作为注意力机制中的查询，并将常规特征作为注意力机制中的关键值和键值；计算查询与关键值间的相似度作为相应键值的注意力权重；根据注意力权重将常规特征进行加权求和后，与领域特征拼接，得到得混合特征；利用前馈神经网络将混合特征映射到电量数据，以得到电能量预测值。本发明基于单一模型对多种城市及用电行业的电能量进行预测，融合不同领域的电能量数据，实现电能量精准预测。

Description

面向多领域的基于注意力机制的电能量预测方法与系统

技术领域

本发明属于电能预测技术领域，尤其涉及一种面向多领域的基于注意力机制的电能量预测方法与系统。

背景技术

电能量预测任务旨在根据给定的特征(如日期，气温等)预测相应的电能量数值。电能量预测技术可以大致分为基于时间序列方法的技术以及基于机器学习方法的技术。机器学习方法中的深度学习方法在电能量预测任务中展现出了较大的优势。例如，一类方法将电能量预测任务建模为序列预测任务，使用基于序列建模的神经网络，如长短期记忆网络或Transformer神经网络来建模电能量序列的周期性变化规律。还有一类方法将电能量预测任务建模为回归任务，使用多层感知机或卷积神经网络，建模各类输入特征到电能量数值的复杂映射关系。

然而，不同领域(如城市，行业等)下的预测特征与电能量数值间往往呈现不同的映射关系，传统的基于深度学习的电能量预测方法倾向于针对不同的领域的电能量预测任务构建不同的模型。基于深度学习的电能量预测方法对数据量的要求大，模型训练与预测速度较慢。传统的针对不同领域构建不同的预测模型的单领域预测方法，一方面导致电能量预测的流程趋于复杂，另一方面也无法有效利用不同领域下的电能量数据间的共有信息。

发明内容

本发明针对现有技术中的不足，提供一种面向多领域的基于注意力机制的电能量预测方法与系统。

第一方面，本发明提供一种面向多领域的基于注意力机制的电能量预测方法，包括：

获取电能量数据以及相应的常规特征和领域特征；常规特征包括日期特征、气温特征和节假日特征；领域特征包括城市标签和行业标签；

利用连续特征编码器和离散特征编码器分别对连续特征和离散特征进行编码；对于离散特征，将每个不同的特征映射到对应的多维特征表示上；对于连续特征，通过前馈神经网络将具有不同数值的特征映射为不同的多维特征表示；

采用注意力机制对各类编码后的特征表示进行特征融合，将领域特征表示作为注意力机制中的查询，并将常规特征作为注意力机制中的关键值和键值；

计算查询与关键值间的相似度作为相应键值的注意力权重；

根据注意力权重将常规特征进行加权求和后，与领域特征拼接，得到得混合特征；

利用前馈神经网络将混合特征映射到电量数据，以得到电能量预测值。

进一步地，所述利用连续特征编码器和离散特征编码器分别对连续特征和离散特征进行编码，包括：

针对连续特征，将多层感知机作为连续特征编码器，将不同数值的连续特征映射为不同的多维向量特征表示：

其中，MLP(·)为输入维度为1，输出维度为d的多层感知机；y,m,d,w,h,l∈R^d，分别代表连续特征年、月、日、星期、高温和低温的d维向量表示；

针对离散特征，将张量网络作为离散特征编码器，为每个特征存储一个多维向量特征表示：

其中，Encoder(·)为输入维度为k×d的张量网络；k为离散特征的个数；y'、m'、d'、w'、f、e、c和t∈R^d，分别代表离散特征年、月、日、星期、节假日、特殊事件城市标签和行业标签的d维向量表示。

进一步地，所述计算查询与关键值间的相似度作为相应键值的注意力权重，包括：

基于注意力机制，根据以下公式计算查询与关键值间的相似度作为相应键值的注意力权重：

其中，s(q,k_i)为余弦相似度函数；q为查询向量；k为关键值向量；k_i为待计算的第i个关键值；为关键值k_i对应的注意力权重；|k|为集合中元素的个数；k_j为计算/>所需的所有关键值向量；j为相应的序号下标。

进一步地，所述根据注意力权重将常规特征进行加权求和后，与领域特征拼接，得到得混合特征，包括：

构建经过注意力机制加权后的特征表示：

其中，date为日期为连续特征时，经过注意力机制加权后的特征表示；date'为日期为离散特征时，经过注意力机制加权后的特征表示；a_q,i为输入的第i个特征注意力权重；为输入的第i个连续日期特征表示；/>为输入的第i个离散日期特征表示；holi为节假日经过注意力机制加权后的特征表示；/>为输入的第i个节假日特征表示；temp为气温经过注意力机制加权后的特征表示；/>为输入的第i个温度特征表示；|·|为集合的模；

构建混合特征向量r表达式：

r＝[date,date′,holi,temp,c,t]。

进一步地，所述利用前馈神经网络将混合特征映射到电量数据，以得到电能量预测值，包括：

根据以下公式计算电能量预测值：

其中，h^(α)为第α层前馈神经网络的输出表示，α＝1，2，3；b^(α)为第α层前馈神经网络的偏置；W^(α)为第α层前馈神经网络的权重矩阵；ReLU(·)为线性整流函数；为电能量预测值。

第二方面，本发明提供一种面向多领域的基于注意力机制的电能量预测系统，包括：

获取模块，用于获取电能量数据以及相应的常规特征和领域特征；常规特征包括日期特征、气温特征和节假日特征；领域特征包括城市标签和行业标签；

编码模块，用于利用连续特征编码器和离散特征编码器分别对连续特征和离散特征进行编码；对于离散特征，将每个不同的特征映射到对应的多维特征表示上；对于连续特征，通过前馈神经网络将具有不同数值的特征映射为不同的多维特征表示；

特征融合模块，用于采用注意力机制对各类编码后的特征表示进行特征融合，将领域特征表示作为注意力机制中的查询，并将常规特征作为注意力机制中的关键值和键值；

计算模块，用于计算查询与关键值间的相似度作为相应键值的注意力权重；

特征拼接模块，用于根据注意力权重将常规特征进行加权求和后，与领域特征拼接，得到得混合特征；

电能量预测模块，用于利用前馈神经网络将混合特征映射到电量数据，以得到电能量预测值。

进一步地，所述编码模块包括：

连续特征映射单元，用于针对连续特征，将多层感知机作为连续特征编码器，将不同数值的连续特征映射为不同的多维向量特征表示：

离散特征存储单元，用于针对离散特征，将张量网络作为离散特征编码器，为每个特征存储一个多维向量特征表示：

进一步地，所述计算模块包括：

第一计算单元，用于基于注意力机制，根据以下公式计算查询与关键值间的相似度作为相应键值的注意力权重：

进一步地，所述特征拼接模块包括：

第一构建单元，用于构建经过注意力机制加权后的特征表示：

第二构建单元，用于构建混合特征向量r表达式：

r＝[date,date′,holi,temp,c,t]。

进一步地，所述电能量预测模块包括：

第二计算单元，用于根据以下公式计算电能量预测值：

本发明提供一种面向多领域的基于注意力机制的电能量预测方法与系统，方法中，基于两种特征编码器得到各连续特征和离散特征的特征表示；基于注意力机制对获得的常规特征表示及领域特征表示进行融合；基于深度神经网络对融合特征进行映射并获得预测电量。本发明能够基于单一模型对多种城市及用电行业的电能量进行预测，通过领域信息学习，有效融合不同领域的电能量数据，进行更精准的电能量预测。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种面向多领域的基于注意力机制的电能量预测方法的流程图；

图2为本发明实施例提供的一种面向多领域的基于注意力机制的电能量预测方法的结构图；

图3为本发明实施例提供的注意力机制的计算示意图；

图4为本发明实施例提供的一种面向多领域的基于注意力机制的电能量预测系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

示例性地，本发明实施例设定应用场景：已知一定时间范围内的电能量数据，包含预测目标电能量数值y，包含常规特征如下，日期特征(年year、月month、日day和星期wetk)，节假日特征(是否节假日festi亶al、是否有特殊事件e亶ent)，气温特征(高温hi温h征temp、低温low征temp)，还包含领域特征(城市标签city、行业标签trade)。电能量预测的任务就是针对未来时刻的输入特征预测出对应的电能量数值y。

在一实施例中，如图1和图2所示，本发明实施例提供一种面向多领域的基于注意力机制的电能量预测方法，包括：

步骤101，获取电能量数据以及相应的常规特征和领域特征；常规特征包括日期特征、气温特征和节假日特征；领域特征包括城市标签和行业标签。

具体的如表1所示。

表1特征分类

步骤102，利用连续特征编码器和离散特征编码器分别对连续特征和离散特征进行编码；对于离散特征，将每个不同的特征映射到对应的多维特征表示上；对于连续特征，通过前馈神经网络将具有不同数值的特征映射为不同的多维特征表示。

将数据分为两类，连续特征(气温特征和日期特征)和离散特征(日期特征、节假日特征和领域特征)。分别使用两个不同结构的深度神经网络编码器编码离散特征与连续特征。

由于气温特征和日期特征记录为连续值，因此设计连续特征编码器为其进行编码，而节假日特征及领域特征记录为离散值，同时日期又可以表示为离散值，因此为以上三组特征设计离散特征编码器。数据基于领域划分而来，又以预测领域相应电量为目标，因此在获得所有特征对应编码表示后，以领域特征为基准，分别计算其他特征与领域特征的融合表示a_q，i亶_i。将各个部分的融合表示与领域特征相连，并输入三层最终得到特定领域的电量预测数值。这里需要注意的是，由于日期特征相对来说比较重要，因此同时使用两种编码器进行编码，以丰富特征信息。

对于连续特征日期特征year、month、day、week及气温特征hi温h征temp、low征temp，采用多层感知机作为编码器，将连续特征的不同数值映射为多维向量特征表示，以便更好地表示和处理这些特征。通过多层感知机的深度神经网络结构，能够学习到数据中的复杂非线性关系，从而实现更加精细的特征提取和编码。

示例性地，针对连续特征，将多层感知机作为连续特征编码器，将不同数值的连续特征映射为不同的多维向量特征表示：

针对离散特征日期特征year、month、day、week，节假日特征festi亶al、e亶ent，以及领域特征city、trade，利用张量网络作为编码器，将每个特征映射到一个多维向量特征表示中，因而每个离散特征都对应到一个指定的特征空间。这种编码方式不仅可以有效地保留离散特征的信息，而且还能够在不同的尺度上进行特征提取，以获得更加丰富和有效的特征表示：

步骤103，采用注意力机制对各类编码后的特征表示进行特征融合，将领域特征表示作为注意力机制中的查询，并将常规特征作为注意力机制中的关键值和键值。

基于领域特征，对其他各组特征进行特征融合。以领域特征的表示(c+t)为查询向量，子类型特征日期(连续)(y+m+d+w)、日期(离散)(y'+m'+d'+w')、节假日(f+e)、气温(h+l)作为关键值和键值设计一种注意力机制来实现特征的表示融合，如图3所示。

步骤104，计算查询与关键值间的相似度作为相应键值的注意力权重。

将注意力集中于最重要的特征上，从而获得更好的特征表示和预测效果。这种方法可以有效地处理输入特征中的不同关系和不同重要性，并能够从原始特征中提取出更丰富的信息首先为了计算子类型特征和领域特征之间的关系，使用了点积注意力计算方式，直接将查询向量q和关键值向量k_i进行点积，然后除以缩放系数得到注意力分数。基于注意力机制，根据以下公式计算查询与关键值间的相似度作为相应键值的注意力权重：

在计算每个子类型特征和领域特征关系时，k分别为各个子类型特征表示(y+m+d+w)、(y'+m'+d'+w')、(f+e)和(h+l)，q保持为领域特征表示(c+t)。

步骤105，根据注意力权重将常规特征进行加权求和后，与领域特征拼接，得到得混合特征。

对键值进行加权和处理，从而得到更有利于特定预测的特征表示。上述通过注意力分数计算得到的权重被用来对键值进行加权求和，以产生融合后的特征表示。由于有四个子类型特征，因此分别进行四次加权操作。构建经过注意力机制加权后的特征表示：

将加权后的常规特征和领域特征拼接在一起，从而得到一个最终的混合特征向量。通过这种方式，可以将不同类型的特征信息结合起来，以提高预测准确性。构建混合特征向量r表达式：

r＝[date,date′,holi,temp,c,t]。

步骤106，利用前馈神经网络将混合特征映射到电量数据，以得到电能量预测值。

通过前馈神经网络将混合特征r映射到电量数据该前馈神经网络采用多层感知机结构，以捕捉混合特征中的复杂非线性关系，并将其转换为能够预测电量数据的输出。具体而言，通过该前馈神经网络将混合特征映射到电量数据的过程涉及三个层，每个层中都包含多个神经元，每个神经元通过非线性激活函数将输入信号转换为输出。

根据以下公式计算电能量预测值：

对于传统的一般化电量预测模型来说，我们使用了均方误差作为损失函数：

其中λ||Θ||²是网络参数的L₂正则化项，N是样本数量，y_i是样本真实电能量数值，是模型预测的电能量数值。

本发明实施例在实验过程中，实验参数设置如下：各类特征的表示维度均为300。Dropout率为0.5，学习率为0.001，L₂损失的权重为0.01，使用Adam对网络进行优化。在电能量预测公开数据集ECL(Electricity Consuming Load)上进行测试。模型输入针对ECL数据集提供的气象数据进行了修改，将数据集中不同用户的电量数据视为不同领域，本发明实施例提供的方法(记为MDEPMA，即Multi-Domain Electric Prediction ModelwithAttention mechanism)使用全部领域进行训练，并在各个领域上进行测试，其余模型在每个领域上分别进行训练和测试。最终在各个领域上预测的平均MSE为0.312，平均MAE为0.403，结果显示本发明方法预测性能优于部分现有的电能量预测方法。具体实验结果如表2所示。

表2预测结果

本发明实施例提出的面向多领域的基于注意力机制的电能量预测方法，专注于面向多领域的预测。方法通过对不同领域信息进行建模，并利用注意力机制将领域特征与常规特征进行融合，实现基于单一模型的多领域电能量预测。相比于现有的电能量预测方法，本发明的方法可以更加有效地利用不同领域的电能量数据，提高各个领域下的电能量预测精度，并简化不同领域下的电能量预测流程。

基于同一发明构思，本发明实施例还提供了一种面向多领域的基于注意力机制的电能量预测系统，由于该系统解决问题的原理与面向多领域的基于注意力机制的电能量预测方法相似，因此该系统的实施可以参见基于面向多领域的基于注意力机制的电能量预测方法的实施，重复之处不再赘述。

在另一实施例中，本发明实施例提供的面向多领域的基于注意力机制的电能量预测系统，如图4所示，包括：

获取模块10，用于获取电能量数据以及相应的常规特征和领域特征；常规特征包括日期特征、气温特征和节假日特征；领域特征包括城市标签和行业标签。

编码模块20，用于利用连续特征编码器和离散特征编码器分别对连续特征和离散特征进行编码；对于离散特征，将每个不同的特征映射到对应的多维特征表示上；对于连续特征，通过前馈神经网络将具有不同数值的特征映射为不同的多维特征表示。

特征融合模块30，用于采用注意力机制对各类编码后的特征表示进行特征融合，将领域特征表示作为注意力机制中的查询，并将常规特征作为注意力机制中的关键值和键值。

计算模块40，用于计算查询与关键值间的相似度作为相应键值的注意力权重。

特征拼接模块50，用于根据注意力权重将常规特征进行加权求和后，与领域特征拼接，得到得混合特征。

电能量预测模块60，用于利用前馈神经网络将混合特征映射到电量数据，以得到电能量预测值。

示例性地，所述编码模块包括：

其中，MLP(·)为输入维度为1，输出维度为d的多层感知机；y,m,d,w,h,l∈R^d，分别代表连续特征年、月、日、星期、高温和低温的d维向量表示。

示例性地，所述计算模块包括：

示例性地，所述特征拼接模块包括：

其中，date为日期为连续特征时，经过注意力机制加权后的特征表示；date'为日期为离散特征时，经过注意力机制加权后的特征表示；a_q,i为输入的第i个特征注意力权重；为输入的第i个连续日期特征表示；/>为输入的第i个离散日期特征表示；holi为节假日经过注意力机制加权后的特征表示；/>为输入的第i个节假日特征表示；temp为气温经过注意力机制加权后的特征表示；/>为输入的第i个温度特征表示；|·|为集合的模。

第二构建单元，用于构建混合特征向量r表达式：

r＝[date,date′,holi,temp,c,t]。

示例性地，所述电能量预测模块包括：

第二计算单元，用于根据以下公式计算电能量预测值：

关于上述各个模块更加具体的工作过程可以参考前述实施例公开的相应内容，在此不再进行赘述。

在另一实施例中，本发明提供一种计算机设备，包括处理器和存储器；其中，处理器执行存储器中保存的计算机程序时实现上述面向多领域的基于注意力机制的电能量预测方法的步骤。

关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

在另一实施例中，本发明提供一种计算机可读存储介质，用于存储计算机程序；计算机程序被处理器执行时实现上述面向多领域的基于注意力机制的电能量预测方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的系统、设备和存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上结合具体实施方式和范例性实例对本发明进行了详细说明，不过这些说明并不能理解为对本发明的限制。本领域技术人员理解，在不偏离本发明精神和范围的情况下，可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本发明的范围内。本发明的保护范围以所附权利要求为准。

Claims

1.一种面向多领域的基于注意力机制的电能量预测方法，其特征在于，包括：

计算查询与关键值间的相似度作为相应键值的注意力权重；

2.根据权利要求1所述的面向多领域的基于注意力机制的电能量预测方法，其特征在于，所述利用连续特征编码器和离散特征编码器分别对连续特征和离散特征进行编码，包括：

3.根据权利要求1所述的面向多领域的基于注意力机制的电能量预测方法，其特征在于，所述计算查询与关键值间的相似度作为相应键值的注意力权重，包括：

4.根据权利要求1所述的面向多领域的基于注意力机制的电能量预测方法，其特征在于，所述根据注意力权重将常规特征进行加权求和后，与领域特征拼接，得到得混合特征，包括：

构建经过注意力机制加权后的特征表示：

构建混合特征向量r表达式：

r＝[date,date′,holi,temp,c,t]。

5.根据权利要求1所述的面向多领域的基于注意力机制的电能量预测方法，其特征在于，所述利用前馈神经网络将混合特征映射到电量数据，以得到电能量预测值，包括：

根据以下公式计算电能量预测值：

6.一种面向多领域的基于注意力机制的电能量预测系统，其特征在于，包括：

7.根据权利要求6所述的面向多领域的基于注意力机制的电能量预测系统，其特征在于，所述编码模块包括：

8.根据权利要求6所述的面向多领域的基于注意力机制的电能量预测系统，其特征在于，所述计算模块包括：

9.根据权利要求6所述的面向多领域的基于注意力机制的电能量预测系统，其特征在于，所述特征拼接模块包括：

第二构建单元，用于构建混合特征向量r表达式：

r＝[date,date′,holi,temp,c,t]。

10.根据权利要求6所述的面向多领域的基于注意力机制的电能量预测系统，其特征在于，所述电能量预测模块包括：

第二计算单元，用于根据以下公式计算电能量预测值：