CN114036823A

CN114036823A - 基于编解码和记忆机制的电力变压器负载控制方法及装置

Info

Publication number: CN114036823A
Application number: CN202111246475.5A
Authority: CN
Inventors: 王征; 于新阳; 孙美君
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-02-11
Anticipated expiration: 2041-10-26
Also published as: CN114036823B

Abstract

本发明公开了一种基于编解码和记忆机制的电力变压器负载控制方法及装置，同时提取电力数据长期模式和短期模式，方法包括：计算机根据过去一段时间内电力变压器的历史负载和油温，加载预测模型来计算未来一段时间的负载与油温；将日期信息作为参数加载入预测模型中；预测模型针对序列数据中存在的长期模式和短期模式，设计了不同的模块来捕获相应的特征；预测模型的编码器结构通过注意力机制计算来控制长期模式与短期模式；最后得到模型所预测的未来值，并根据经验进行决策，如果油温过高，降低负荷电流或者加强室内通风控制油温。装置包括：处理器和存储器。本发明通过对预测结果的控制可以有助于电力变压器负载控制和规划系统采取积极防御措施。

Description

基于编解码和记忆机制的电力变压器负载控制方法及装置

技术领域

本发明涉及机器学习的时序数据控制领域，尤其涉及一种基于编解码和记忆机制的电力变压器负载控制方法及装置，通过对过去一段时间内采集到的电力变压器负载和油温的分析和利用，来预测未来一段时间内该变压器的负载与油温，进而实现对变压器负载的合理控制。

背景技术

时间序列预测是许多领域的重要组成部分，例如：交通流量预测，空气污染预测，智能电网管理，疾病传播分析等。一般而言，时间序列数据被描述为一组按照时间顺序采样得到的观测值，它可以被分为单变量时间序列和多变量时间序列。传统的时间序列预测模型(例如自回归模型ARIMA，状态空间模型SSM等)仍在被广泛使用。这些传统模型大多采用统计模型来研究时序数据的演变。但是，随着数据量的不断增加以及输入变量间的全局和局部依赖关系逐渐复杂，传统方法渐渐无法在现代的大规模预测任务上进行有效建模。

一直以来，深度学习方法都在被广泛地关注，并且它在许多问题领域(例如：自然语言处理，计算机视觉等)中都取得了不错的成绩。在时序数据问题中，同样也有许多深度学习方法被提了出来。为了解决上述传统模型中的不足，循环神经网络(RNN)被提出作为一种替代的解决方法。但因梯度消失和梯度爆炸的原因，在应用过程中RNN表现出难以训练的缺点。之后，一些RNN的变体(例如LSTM(长短期记忆网络)，GRU(门控循环单元)等)被相继提出，虽然在一定程度上缓解了梯度消失及爆炸的问题，但当面对较长的输入序列时，这些模型仍无法对其中的全局依赖进行有效捕获。

之后，一种全新的框架Transformer(转换器)被提出。相比较于基于RNN的模型，Transformer在捕获长期依赖方面表现出了优越的性能。它通过注意力机制来处理时序数据，这使得模型可以访问过去时间步的数据而不受到距离的限制。但是，在之前的Transformer变体中，模型的训练通常是在输入数据的一段固定长度的分段上执行的，分段与分段之间并没有信息流传递，这就导致了模型没有办法捕获到超出了这个固定长度之外的任何长期依赖信息，从而导致了预测的碎片化。

另外，许多时序预测的经典方法着重解决了单步预测的问题，但在很多情况下，只预测一个点对于整个事件的预测是不够的，这就要求进行多步预测。而多步预测与单步预测相比又面临着误差累计和预测性能下降的问题。同时，在实际应用中，通常需要大量的与过去的动作行为有关的时间数据来进行长序列预测。一般来说，历史数据的长度需要远长于预测数据长度(例如，输入长度是192，输出长度是48)。这就导致了当输入的历史数据较少时，模型就无法捕捉到一些必要的信息，比如说数据的周期性或变量之间的相关性，从而导致整体模型的参数无法很好表达出输入数据的变化，从而导致预测出现误差。以电力负载为例，不正确的预测值可能会导致相关管理部门无法合理制定调度策略或安排检修计划，同时也可能会导致线路损耗增加或供电成本提高。

发明内容

本发明提供了一种基于编解码和记忆机制的电力变压器负载控制方法及装置，本发明利用编码器结合记忆机制来学习序列数据的短期、长期时序依赖联系，同时使用解码器来实施准确预测，验证了Transformer做时序预测的可行性，通过对预测结果的控制可以有助于电力变压器负载控制和规划系统采取积极的防御措施，详见下文描述：

第一方面，一种基于编解码和记忆机制的电力变压器负载控制方法，同时提取电力数据长期模式和短期模式，用于辅助预测未来的负载数据，所述方法包括：

将安装在电力变压器附近的传感器收集的负载与油温数据，通过无线网传输到计算机；

计算机根据过去一段时间内电力变压器的历史负载和油温，加载预测模型来计算未来一段时间的负载与油温；将日期信息作为参数加载入预测模型中；

所述预测模型针对序列数据中存在的长期模式和短期模式，设计了不同的模块来捕获相应的特征；

所述预测模型的编码器结构通过注意力机制计算来控制长期模式与短期模式；

最后得到模型所预测的未来值，并根据经验进行决策，如果油温过高，降低负荷电流或者加强室内通风控制油温。

第二方面，一种基于编解码和记忆机制的电力变压器负载控制装置，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的方法步骤。

第三方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行第一方面中的方法步骤。

本发明提供的技术方案的有益效果是：

1、电力变压器的温度是决定变压器使用年限的关键指标，良好的温度把控在电力长期部署中至关重要；通过获取到的稳定准确的电力变压器油温的预测结果，可以协助电网人员了解到电力变压器的工况，这为预测变压器负载提供了参考，同时也为电力分配决策提供了帮助，减少不必要的电力和设备折旧浪费；

2、通过电力变压器负载预测能够帮助电站生产计划人员合理安排电站的运行方式，例如选择在低负载期间进行设备的检修维护，节约了能源、时间成本。

附图说明

图1为基于编解码和记忆机制的电力变压器负载控制方法的示意图；

图2为ETTh1数据集中油温数据概览示意图；

图3为模型在ETTm2数据集上的预测(输入长度＝192，预测长度＝384)示意图；

图4为一种基于编解码和记忆机制的电力变压器负载控制装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

多元时间序列预测是横跨许多领域的重要问题，包括：对发电厂能量输出，电力消耗和交通拥堵状况的预测。这个问题面临的挑战之一是时间步长和不同变量之间的复杂且非线性的相互依赖关系。另一方面，传统的预测模型在预测未来的长期数据时，往往需要大量的输入数据来支撑模型进行训练。但在很多现实情况下，由于设备损坏或天气等原因，无法提供足够长度的输入数据对模型进行预测。

为了解决这一局限，本发明实施例提出了一个基于Transformer结构同时结合了记忆模块的时序数据预测模型(SWLHT)。它通过记忆模块使模型不再只依赖于单次的输入，而是可以结合之前预测到的信息来辅助捕获长期依赖，从而避免了模型需要过长输入序列的问题，同时该模块也可以缓解预测碎片化的问题。本发明实施例提出的记忆力模块包含两个部分，分别是短期记忆和长期记忆，这使模型能够同时学习到数据的局部和全局相关性。同时，为了解决模型对数据尺度不敏感的问题，本发明实施例在SWLHT的基础上，并行集成了传统的自回归模型。在多个实际采集的多元时间序列数据集上的实验表明，本发明实施例设计的模型是有效的且优于其他模型的。

实施例1

本发明实施例描述了一种基于编码器解码器结构和记忆力机制的用于多元时间序列预测的深度网络结构(SWLHT)，所提方法的概述如图1所示。

图1概述了本发明实施例提出的SWLHT。SWLHT分为编码器和解码器两部分，输入数据X_T进入编码器(Encoder)中，与前一个时间步的记忆信息(Memory)一起进行注意力机制然后传入前向传播网络，将得到的隐藏层状态传入解码器(Decoder)中。在解码器(Decoder)部分，其先对输入进行有遮盖的注意力操作，然后与编码器(Encoder)传入的隐藏状态再进行一次注意力操作。最后，解码器的输出将会与自回归模块(AR)的输出合并成模型最终的预测结果，下面将详细介绍每个模块的信息。

一、缩放的多头注意力机制

注意力机制已经被证明能够捕获时序数据的长期和短期依赖特征。同时，在多头注意力中，不同的注意力头可以着重学习时间模式的不同方面。在自注意力层中，输入数据X被转化成了

其中，L表示长度，d表示数据维度。

其中，Q为查询向量，K为键向量，V为值向量，

表示实数域。

通过经典注意力机制计算得到缩放后的向量输出：

其中，T为矩阵的转置操作。

注意，为了避免未来的信息被模型提前知晓，本发明实施例在解码器中使用经过上三角矩阵M遮盖过的注意力矩阵来对解码器的输入进行计算。

前向传播网络由两个一维卷积组成，两个卷积变换之间使用ReLU激活函数，可以表示为：

其中，

表示卷积操作，W₁,b₁和W₂,b₂分别表示两个卷积操作的参数，A为上一步注意力机制计算得到的结果，h为前向传播网络的输出结果。

二、记忆模块

为了使Transformer结构或自注意力机制能够捕获时序数据中更长的依赖关系，对于普通的Transformer结构来说一种简单的解决办法就是增加其输入数据的长度。然而在实践中，由于资源有限，没有办法无限增加输入长度。

为了缓解这个问题，现有技术中提出了另一种可行的方法：它将一整个较长的输入划分为较短的分段，并且仅使用这些分段来训练模型。这样做使得模型在训练过程中无法得知特定分段的上下文信息，也就无法捕获到超出该分段长度之外的依赖信息，从而导致分段与分段之间无法产生时序联系。因此，虽然与基于RNN的模型相比，自注意力机制在提取时序数据的长期依赖方面具有优势，但将输入序列分成固定长度的分段从而导致的上下文碎片化的问题使得这方面优势不再明显。

为了缓解预测碎片化，本发明实施例提出将记忆模块引入模型中。图1右边部分概括了该模块的基本内容。记忆模块分为两部分，短期记忆模块与长期记忆模块。首先本发明实施例介绍了短期记忆模块。短期记忆模块中存放的是上一个时间步中编码层计算得到的隐藏状态

表示第τ个时间步中第n层编码层生成的隐藏状态。

将在下一个时间步τ+1中被重用为扩展内容。另外，当更新短期记忆时，无需用每个新的

重新计算记忆信息，而是可以直接拼接编码层输出的隐藏状态，以此来减小计算量：

其中，H_τ为第τ个时间步的总体隐藏状态，

为前一个时间步的总体记忆信息。

另一方面，因为资源有限，无法无限的存储短期记忆信息，所以当短期记忆信息超出一定长度后，将对超出长度的短期记忆信息进行压缩来作为长期记忆信息存储。本发明实施例首先对长期和短期记忆信息以及编码层的隐藏状态进行注意力机制计算，然后使用nBRC门控机制控制长期记忆信息的更新。nBRC门控机制可以使得记忆单元根据自身过去的状态和当前的输入经过计算后进入到不同的稳定状态，从而可以将过去的信息更新并存储到当前记忆单元状态中。

Attn_τ＝Attention(Q_τ,K_τ,V_τ) (7)

其中，

表示拼接，⊙表示矩阵乘法，U_*、W_Q、W_K、W_V皆为可训练参数，分别得到查询向量、键向量、值向量，

为前一个时间步的短期记忆信息，

为前一个时间步的长期记忆信息，a_τ为结合注意力信息和前一个时间步长期记忆的中间结果，c_τ为结合注意力信息与前一个时间步长期记忆通过计算所得到的权重值，Q_τ为当前时间步的查询向量，K_τ为当前时间步的键向量，V_τ为当前时间步的值向量，Attn_τ为当前时间步的值向量，

为计算所得到的当前时间步的长期记忆信息。

另外，根据之前的相关工作，在编码器的每一层都集成记忆模块是没有必要的，其提出先对短期相关性进行特征表示，然后再对长期相关性进行特征表示的结果将会更有效。参考这个结论，本发明实施例提出的模型仅在编码器的最后几层添加了记忆模块。

本发明实施例提出的记忆模块通过重用隐藏状态作为当前段的记忆信息，从而实现了在分段之间建立了联系。通过压缩超出存储长度的短期记忆，模型能够存储更长期的记忆，因此可以对非常长期的依赖关系建模。同时，传递来自前一段的记忆信息也可以解决上下文碎片的问题。另一方面，对于短输入长输出模式的预测问题，本发明实施例添加的记忆模块可以在某种层面上被当作额外的输入信息，这为模型预测超长期序列提供了有力支撑。

三、多段预测方式

本发明实施例将“Start Token”的概念引入原始解码器中。在自然语言处理领域，“Start Token”是动态解码的一种有效方法。

本发明实施例首先采样一段长度为L_token的已知数据段，该数据段选取目标序列之前的最近时间步。然后本发明实施例准备一个X_predict，它是一个长度为L_predict的用零填充的张量，表示要预测的内容，如图1中展示的：

其中，X_token为目标序列之前的最近一段时间步，X_{decoder_in}为解码器的输入。

经过Decoder处理后，本发明实施例得到输出序列

截取最后L_predict的长度，就得到了目标序列

通过这个过程，本发明实施例就可以在一个前向过程中得到一个分段的模型预测值，随后便可以将这个分段拼接到输入中进行下一轮的循环预测。

相比较于传统的多步预测方式，多段加快了预测的速度，同时也缓解了预测过程中的误差累计而导致的模型预测精度下降的问题。

四、自回归模块

由于注意力机制的非线性特性，Transformer模型的一个缺点是输出的规模对输入的规模不敏感。在某些真实数据集上，输入数据的大小以非周期的形式不断变化，这将导致模型预测的准确性大大减低。为了缓解这个问题，本发明实施例将SWLHT的最终预测视为线性分量和非线性分量的组合。除了上面介绍的非线性分量外，本发明实施例使用经典的自回归模型当作线性分量。自回归组件的预测表示为：

Y_ar＝W_arX_{decoder_in}+b_ar (12)

最后，通过整合线性和非线性部分的输出，得到了SWLHT的最终预测结果：

Y_final＝Y_predict+Y_ar (13)

其中，b_ar为自回归计算部分的偏置系数，Y_ar为自回归计算所得结果，W_ar为自回归模块的可训练参数，Y_predict为模型中非线性部分(除自回归模块外的其余部分)计算所得结果。

五、技术流程

1、将安装在电力变压器附近的传感器收集的负载与油温等数据，通过无线网传输到计算机；

2、计算机在特定时刻或者在用户操作下，根据过去一段时间内电力变压器的历史负载和油温，加载预测模型来计算未来一段时间的负载与油温；另外，需要同时将日期信息作为参数加载入预测模型中，根据工作日与节假日的不同，人们的用电习惯会发生改变，从而变压器的负载也将会随之变化，因此日期是提取周期模式的一个重要变量。

3、该预测模型针对序列数据中存在的长期模式和短期模式，设计了不同的模块来捕获这些特征，实验证明本发明实施例提出的预测模型比对比的其他深度学习模型更具有稳定性和有效性。

4、该预测模型的编码器结构通过注意力机制计算来控制信息流通，由于是对当前一段时序数据输入进行计算，所以这里捕获的是短期模式；同时考虑到记忆模块，该部分因为使用的是历史数据来进行更新以及存储，因此能够提供长期模式。

实施例2

下面结合具体的实验数据、实例对实施例1中的方案进行可行性验证，详见下文描述：

一、实验设置

本发明实施例中的实验使用NVIDIA GTX 1080Ti GPU，模型代码基于Python和Pytorch工具箱搭建。另外本模型使用Adam优化器，同时使用了一个有衰减的学习率计划，从1e-4到5e-8。在实验中，本发明实施例设计的SWLHT的编码器部分包含三层注意力机制层，其中第二和第三层为其添加了记忆模块，同时解码器部分包含两层注意力机制层。模型的输入数据是经过零均值归一化的。根据长时间序列预测的问题设置，本实验主要测试了三种长度情况下的输入输出结果，即{48,96,192}。

二、数据集及评价指标

(1)本实验将在公开数据集ETT上评估模型的预测能力

该数据集时间跨度为两年(从2016年7月到2018年7月)，记录了来自中国同一个省的两个不同地区的电力数据。其中变量包括：日期，负载和油温。数据集中包含短周期模式，长周期模式，长期趋势和大量不规则模式。图2给出了数据的概览，其中可以看出数据有明显的季节趋势。本发明实施例在此数据集上训练提出的模型来测试模型在短输入长输出的预测模式下有效捕获这些时间模式的能力。

本实验使用了两个评估指标，分别是：

其中，y表示实际测量值，

表示模型预测值，从公式上看，MAE可以很好地反映预测值误差的实际情况，而MSE则更能反映误差变化的稳定程度。这两个评估指标都是越低的值表示越好的结果。同时在多元预测中取其平均值。

(2)实验性能比较

在本节中，对本发明实施例提出的模型进行了评估。选择了2种经典的时间序列预测法以及3种近期的相关研究工作进行比较，包括：LSTMa，LSTnet，Transformer，LogTransformer以及Informer。

表1展示了6种预测模型在4个数据集上进行多变量预测的评估结果，其中每列为特定输入长度-输出长度下不同模型结果的对比，每行为所有情况下特定模型的结果。随着对模型预测能力要求的提高，本发明实施例逐步扩大了预测的范围。最佳结果以黑体字显示。

表1 6种方法的对比实验结果

如表1所示，实验结果表明本发明实施例提出的模型在大多数情况下都可以取得较好的成绩(最后一列的最优结果次数)。同时注意到，本模型胜过了最相关的工作LogTrans以及Informer。相比较于这两个工作，本模型因为具有记忆模块，可以在短窗口长范围的预测模式下能够捕获更长期的时间模式。而且通过集成在模型中的自回归模块，使得模型能够对输入数据规模的变化更加敏感。另外，一个普遍的现象是，当预测范围扩大时，所有模型的MSE和MAE都会有不同程度的增加，这表明视野越大时，模型进行超长期预测时捕获长短期时间模式的难度也在增加。

图3展示了六个模型的一部分预测结果。对比几个模型，本发明实施例提出的模型可以更好地拟合曲线的变化趋势，尤其在极点位置。在短输入长输出的预测方法下，本模型利用记忆模块，更好的捕获了时间序列局部和全局的相关性，得到了更好的预测结果。LSTMa和Informer显示了可接受的结果。LSTNet和LogTrans虽然结果稍差，但也捕获了长序列的近似趋势。而Vanilla Trans最终的预测结果为一条直线，本发明实施例推测的原因是Transformer的编码层和解码层过多，导致训练过程中数据特征被过分抽象，以至于最后模型无法从这些抽象特征中学到数据的具体表示。

在本发明实施例中，提出了用于多元时间序列预测的序列到序列结构模型，该模型在原始Transformer结构基础上加入了记忆机制以及自回归模块。这使得本发明实施例提出的SWLHT模型可以捕获超长期的时间模式，并且由于结合了线性和非线性模型的特点，该模型对输入数据规模的变化更加敏感。对4个多元时间序列数据集进行的实验表明，该模型可以在输入长度较短的情况下，有效地预测未来一段远超输入长度的长序列值。

实施例3

一种基于编解码和记忆机制的电力变压器负载控制装置，该装置包括：处理器和存储器，存储器中存储有程序指令，处理器调用存储器中存储的程序指令以使装置执行实施例1中的以下方法步骤：

预测模型针对序列数据中存在的长期模式和短期模式，设计了不同的模块来捕获相应的特征；

预测模型的编码器结构通过注意力机制计算来控制长期模式与短期模式；

其中，长期模式包括：周期性、季节性；短期模式包括：局部趋势、突变数据。

在一种实施方式中，预测模型基于Transformer结构同时结合了记忆模块的时序数据，且并行集成了自回归。

上述短期模式中存放的是上一个时间步中编码层计算得到的隐藏状态

表示第τ个时间步中第n层编码层生成的隐藏状态：

其中，H_τ为第τ个时间步的总体隐藏状态，

为前一个时间步的总体记忆信息。

本发明实施例对长期和短期记忆信息以及编码层的隐藏状态进行注意力机制计算，使用nBRC门控机制控制长期记忆信息的更新；

Attn_τ＝Attention(Q_τ,K_τ,V_τ)

其中，

表示拼接，⊙表示矩阵乘法，U_*、W_Q、W_K、W_V分别为查询向量、键向量、值向量，

为前一个时间步的短期记忆信息，

为计算所得到的当前时间步的长期记忆信息。

本发明实施例采用多段预测方式，即在一个前向过程中得到一个分段的模型预测值，将模型预测值拼接到输入中进行下一轮的循环预测。

本发明实施例将最终预测视为线性分量和非线性分量的组合，将自回归作为线性分量。

这里需要指出的是，以上实施例中的装置描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件，具体实现时，本发明实施例对执行主体不做限制，根据实际应用中的需要进行选择。

存储器2和处理器1之间通过总线3传输数据信号，本发明实施例对此不做赘述。

实施例4

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，存储介质包括存储的程序，在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。

该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。

这里需要指出的是，以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。

计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。