CN115660161A

CN115660161A - 一种基于时序融合Transformer模型的中期小时级负荷概率预测方法

Info

Publication number: CN115660161A
Application number: CN202211274642.1A
Authority: CN
Inventors: 李丹; 谭雅; 张远航; 缪书唯; 孙光帆; 章可; 贺帅
Original assignee: China Three Gorges University CTGU
Current assignee: China Three Gorges University CTGU
Priority date: 2022-10-18
Filing date: 2022-10-18
Publication date: 2023-01-31

Abstract

一种基于时序融合Transformer模型的中期小时级负荷概率预测方法，包括采集某地区多个历史样本日的负荷值及相关影响因素数据；对输入数据进行分类，并将原始负荷数据重构为面板数据矩阵以缩短时间序列的长度，从而降低模型复杂度；对输入数据进行归一化，将数据集划分为训练集、验证集和测试集；设定模型超参数；建立时序融合Transformer模型；基于训练集对模型进行迭代训练，确定模型的最佳权重及偏置参数集；基于验证集优选出模型的最佳超参数，并基于最佳超参数对预测模型再训练；基于训练后的预测模型在测试集上验证模型性能。本发明提出的概率负荷预测方法可为电网运营商在中期电力优化调度和市场交易中提供更准确、更详细的负荷预测信息。

Description

一种基于时序融合Transformer模型的中期小时级负荷概率预测方法

技术领域

本发明属于电力系统技术领域，尤其涉及电力负荷预测技术，具体涉及一种基于时序融合Transformer模型的中期小时级负荷概率预测方法。

背景技术

随着社会现代化和经济发展，国民生活越来越依赖于电力。准确的负荷预测有助于提高电力设备的利用率，并最大程度地减少能源浪费，也可以使调度人员制定适当的电网运维计划，以降低发电成本并促进电力供应。中期负荷预测的预测范围是一周到一年，它可以为制定未来发展规划、指导电力生产和规避市场风险提供必要的参考。

目前，中期负荷预测存在一些挑战：

1)随着分布式可再生能源增多和需求侧响应的实施，可再生能源发电的不确定性和个体用户响应行为的差异增加了负荷预测的复杂性和不确定性；

2)随着预测范围的延长，可用信息急剧减少；

3)电力系统规划中对中期负荷预测的要求不断增加，需要更长的预测范围和更精细的时间分辨率。

当前的中期负荷预测研究主要集中在点预测上，而概率预测可以提供更多信息来量化未来负荷的不确定性。在当前的负荷概率预测研究中，主要使用区间估计、核密度估计和分位数回归等方法。其中区间估计是指给定某个置信水平，预测该置信水平下区间的上限和下限，该方法无法详细说明预测结果的概率分布。核密度估计可以估计预测值的概率密度函数，但它依赖于大量的样本且带宽的选择比较困难。而分位数回归可直接解释不同分位点下响应变量和因变量之间的关系，成为近年来负荷概率预测文献关注的热点。但传统分位数回归的分位数预测值之间存在交叉的现象导致预测结果存在一定的不合理性。

例如刘新志等人提出的《基于Attention-ResNet-LSTM网络的中期负荷预测模型》公开了一种基于Attention-ResNet-LSTM网络的中期负荷预测模型；将Attention机制引入LSTM模型，赋予不同的权重于特征向量，加入ResNet网络后算出日负荷的预测值。但其时间分辨率较为粗糙，且其结果以确定性的形式给出，不能量化负荷预测的不确定性。

因此，本发明提出一种基于时序融合Transformer模型的中期小时级负荷概率预测方法。

发明内容

本发明主要针对上述现有中期概率负荷预测方法存在的时间分辨率粗糙、负荷不确定性量化问题，提出一种基于时序融合Transformer模型的中期小时级负荷概率预测方法，本发明精细化时间分辨率为小时级及以下，并改进分位数概率预测方法存在的分位数交叉问题来更好地量化负荷的不确定性。

一种基于时序融合Transformer模型的中期小时级负荷概率预测方法，它包括以下步骤：

步骤1：采集目标地区多个历史样本日的小时级负荷功率值及相关影响因素数据；

步骤2：将原始负荷数据重构为面板数据矩阵，并对输入数据进行分类，分为时变输入和静态协变量输入(时刻点对应的数据标签)，时变输入分为已知输入(可以提前获得，包括日历特征和可预测的天气信息)和观测到的输入(仅在当前时间步获得且事先未知，包括负荷)；

步骤3：对输入数据进行归一化变换，将数据集划分为训练集、验证集和测试集；

步骤4：设定模型超参数，如隐含层神经元的个数、学习率、编码器输入序列的长度、解码器输入序列的长度；

步骤5：建立时序融合Transformer模型，包括输入特征解释模块、多时间步融合模块；

步骤6：基于训练集根据损失函数对时序融合Transformer模型进行迭代训练，运用常规的梯度下降算法确定模型的最佳权重及偏置参数集；

步骤7：将验证集样本输入训练好的时序融合Transformer模型，根据验证集的误差优选出模型的最佳超参数，并基于最佳超参数对预测模型再训练；

步骤8：基于测试集利用训练好的时序融合Transformer模型对未来一个月各时刻负荷在不同分位点下的功率值进行预测，并对输出的预测结果进行反归一化，得到各预测时刻在不同分位点下的负荷预测值。

在步骤2中，对原始负荷数据的重构的目的是缩短模型要处理的时间序列长度，从而降低模型复杂度，具体地，原始的单变量时间序列[y₁,y₂,...,y_n×m]被重构为面板数据矩阵Y∈R^m×n，其公式如下：

式中，y表示负荷值，n和m分别为天数及一天中的时刻点数，t表示第t天，s代表时刻点标签，也是模型的静态协变量输入；与时间相关的输入χ_s,t＝[Z_s,t,X_s,t]包括两个部分，观测到的输入Z_s,t(仅在该时间步可用且事先未知)和已知输入X_s,t(外部变量，包括日历特征和可预测的天气特征)。

在步骤5中，建立的时序融合Transformer模型包括编码器、解码器、输入特征解释模块、门控循环单元(Gatedrecurrentunit，GRU)层、多时间步融合模块及线性映射模块。具体地，编码器由输入特征解释模块及两层GRU组成，解码器也由输入特征解释模块及两层GRU组成，但它们的权重及偏置参数不共享。

(1)输入特征解释模块用来解释各输入变量对输出的贡献，使得模型具有更强的可解释性，缓解了深度学习中的“黑匣子”问题。其主要公式如下：

γ＝dropout(W₂(ELU(W₁s+b₁))+b₂)

cs＝LayerNom(s+σ(W₃γ+b₃)⊙(W₄γ+b₄))

v_t＝softmax(dropout(W₆(ELU(W₅(X_t,cs)+b₅))+b₆))

其中，X_t＝[x_1,t,x_2,t,...,x_k,t]^T为t时刻k个特征组成的输入向量，

是经输入特征解释模块处理后的送入其它模块的向量，cs是由静态协变量s经门控残差过程处理后的context向量(如上式所示)，γ是中间变量，σ(·)是sigmoid激活函数；v_t是对应于输入变量的权重向量，代表每个输入特征的重要程度；W_*和b_*分别是对应层的权重矩阵和偏置向量，LayerNorm表示标准的层归一化操作，ELU代表指数线性单元激活函数，dropout和softmax分别表示常规的dropout操作和softmax激活函数。

(2)GRU层用于处理时间信息。它通过保留先前有用的信息同时丢弃不相关的信息来克服循环神经网络(recurrent neural network，RNN)中的梯度消失问题。在结构上，GRU有两个门：更新门和重置门。重置门确定新输入信息如何与先前的记忆整合，而更新门定义保存到当前时间步的先前记忆的量。其核心原理如下：

z_t＝σ(W_z[h_t-1,x_t])

r_t＝σ(W_r[h_t-1,x_t])

其中，x_t是当前输入，z_t和r_t分别是更新门输出和重置门输出，h_t和h_t-1分别表示t时刻和t-1时刻的隐含层状态，

是中间变量，W_z和W_r是对应门的权重矩阵，

表示Hadamard乘积，tanh表示常规的tanh激活函数。

(3)多时间步融合模块用来学习不同时间步之间的长期依赖关系，它可以根据不同时间步的重要程度对当前预测时间步之前的所有时间步的编码器和解码器的输出进行加权。然后将加权后的输出作为解码器当前预测时间步的输入，让模型专注于更重要的信息。其主要公式如下：

Attention(Q,K,V)＝A(Q,K)V

其中，A(·)是归一化函数，n是K矩阵对应的向量的维数，h_m是头的个数，Q、K和V分别由输入矩阵X分别与对应的权重矩阵相乘得到，

分别是Q和K的第h个头的权重矩阵，W_V是所有头共享的权值矩阵V，

是中间变量，

是最终线性映射的权重矩阵。

在步骤6中，基于训练集根据损失函数对时序融合Transformer模型进行迭代训练，运用常规的梯度下降算法确定模型的最佳权重及偏置参数集。具体地，根据损失函数，运用常规的梯度下降算法对权重、偏置参数不断更新。其中本方法采用的损失函数为加入了分位数约束和预测区间惩罚项的损失函数，其优势是在避免分位数交叉的同时构建更紧凑的预测区间。具体地，假设概率点τ_i下的分位数损失函数定义为loss(τ_i)。在常用的分位数预测中，将一系列概率点0<τ₁<···<τ_i···<τ_r<1下的所有分位数损失的平均值作为联合分位数损失函数

如下式所示：

其中

是概率点τ_i下y_t的条件分位数，N是样本数，r是分位点的个数，a是中间变量。根据分位数的固有性质，对于每个概率点τ，y_t的条件分位数必须满足以下要求：

为了提高预测结果的合理性，本发明在原始分位数损失函数中加入了违反分位数约束的惩罚项，以尽可能消除相邻分位数之间的交叉。但是，一旦加入分位数约束，预测区间将不可避免地变宽。为了得到更紧凑的预测区间，相应的预测区间惩罚项也被引入到损失函数中。则最终改进后的损失函数L如下所示：

其中惩罚系数W_1,i和b_i由不同概率点下分位数损失之间的关系分析推导得到(推导过程见具体实施方式)；W₂是一个比例因子，用来确保损失函数中大括号内作加法处理的两项具有相似的值，而c_j＝τ_r+1-j-τ_j用于确保随着置信区间的增大，预测区间惩罚项的权重更大。

与现有技术相比，本发明具有如下技术效果：

1)本发明基于负荷的日周期性，将原始的小时级负荷时间序列重构为面板数据矩阵，然后将时刻点作为预测模型的静态协变量输入，缩短了时间序列的长度，降低了计算成本，同时保留了日间负荷的差异性；

2)本发明利用输入特征解释模块使得模型具有更强的可解释性，每个输入变量对输出的贡献显而易见；利用多时间步融合模块使得模型可以关注到更有价值的信息，提高了模型的预测精度；

3)本发明利用时序融合Transformer模型进行中期小时级负荷的概率预测，在分位数损失函数中加入了分位数约束和预测区间惩罚项，避免了分位数预测值之间的交叉，使得预测结果更合理的同时预测区间也更加紧凑；

4)本发明提出的基于时序融合Transformer模型的中期小时级负荷概率预测方法具有更精细的时间分辨率和更高的预测精度，可为电网运营商在中期电力优化调度和市场交易中提供更准确、更详细的负荷预测信息。

附图说明

下面结合附图和实施例对本发明作进一步说明：

图1为中期负荷时间序列预测问题的描述示意图；

图2为时序融合Transformer模型图；

图3为GRU的结构示意图；

图4为多时间步融合模块的示意图；

图5为算例1测试集中半个月的预测区间图；

图6为算例2测试集中半个月的预测区间图；

图7-12为两个算例X_QS,X_CS,X_QCS指标的箱型图；

图13为算例1中Transformer模型一天的预测曲线对比图；

图14-15为X_PINRW指标的对比图；

图16为预测范围为1-30天的误差对比图。

具体实施方式

如图1所示，图1是对中期负荷时间序列预测问题的描述，预测器f的目的是同时预测接下来T_o天的每个时间点的负荷[y_s,t,...,y_s,t+τ,...,y_s,t+To-1]。在给定的负荷时间序列数据集中，与时间相关的输入特征χ_s,t＝[Z_s,t,X_s,t]包括两类。观测到的输入Z_s,t，仅在该时间步可用且事先未知(例如负荷)。已知输入X_s,t，可以提前获得(例如，外部变量，包括日历特征和可预测的天气信息)。则负荷预测值可以通过参数集为Θ的预测模型来估计：

其中，τ表示天数，s表示时刻点标签，Θ表示步骤6中优选后的参数集。

如图2所示，基于时序融合Transformer模型的中期小时级负荷概率预测方法，包括以下步骤，

步骤1：分别采集某实际地区A2016年1月1日至2017年6月30日每15分钟的负荷数据和某实际地区B2004年1月1日至2009年12月31日每小时的负荷数据。某实际地区A作为算例1，某实际地区B作为算例2。两个算例的特征描述及模型的输入输出如表1所示，其中T_t表示预测日各时刻气温，R_t表示M个分区的降雨量，S_t表示对应的预测时刻点，Y_s,t表示模型输入的历史负荷值；S_ea表示季节类型，1代表冬季，2代表春秋两季，3代表夏季；H_oli代表假期类型，0表示节假日，1表示非节假日；W_eek代表星期类型，1-7分别代表周一到周日。

表1两个算例的特征描述

步骤2：将原始负荷数据重构为面板数据矩阵，并对输入数据进行分类，分为时变输入和静态协变量输入，时变输入又分为已知输入和观测到的输入。对原始负荷数据的重构的目的是缩短模型要处理的时间序列长度，具体地，原始的单变量时间序列[y₁,y₂,...,y_n×m]被重构为面板数据矩阵Y∈R^m×n，其公式如下：

式中，y表示负荷值，n和m分别为天数及一天中的时刻点数；s代表时刻点标签，即模型的静态协变量输入。与时间相关的输入χ_s,t＝[Z_s,t,X_s,t]包括两个部分，观测到的输入Z_s,t(仅在该时间步可用且事先未知)和已知输入X_s,t(外部变量，包括日历特征和可预测的天气特征)。

步骤3：对输入数据进行预处理，对连续性变量如气温、降雨量和历史负荷数据等采用最大最小归一化，其公式如下：

其中，x_norm是归一化之后的数据。对季节类型、星期类型等离散型变量，采用正弦余弦循环编码器编码，其公式如下：

[sin(2πx/x_max),cos(2πx/x_max)]

其中，x代表索引数，x_max代表索引数的最大值。对季节类型进行编码时，x∈{1,2,3}；对星期类型进行编码时，x∈{1,.....,7}。对假期类型，利用one-hot编码，节假日编码为0，非节假日编码为1。对数据集按照8:1:1的比例分为训练集、验证集和测试集。

步骤4：设定模型超参数，包括隐含层神经元的个数80、学习率0.01、编码器输入序列的长度60、解码器输入序列的长度30等。

步骤5：建立时序融合Transformer模型，如图2所示，时序融合Transformer模型包括编码器、解码器、输入特征解释模块、GRU层、多时间步融合模块及线性映射模块。具体地，编码器由输入特征解释模块及两层GRU组成，解码器也由输入特征解释模块及两层GRU组成，但它们的权重及偏置参数不共享。

步骤5.1：与时间相关的输入特征χ_s,t-Ti:t-1和X_s,t:t+To-1被分别送入两个没有共享参数的输入特征解释模块，如图2所示。输入特征解释模块用来解释各输入变量对输出的贡献，转换后的变量

被送入下一模块。其主要公式如下：

γ＝dropout(W₂(ELU(W₁s+b₁))+b₂)

cs＝LayerNom(s+σ(W₃γ+b₃)⊙(W₄γ+b₄))

v_t＝softmax(dropout(W₆(ELU(W₅(X_t,cs)+b₅))+b₆))

其中，X_t＝[x_1,t,x_2,t,...,x_k,t]^T为t时刻k个特征组成的输入向量，cs是由静态协变量s经门控残差过程处理后的context向量，γ是中间变量，σ(·)是sigmoid激活函数；v_t是对应于输入变量的权重向量，代表每个输入特征的重要程度；W_*和b_*分别是对应层的权重矩阵和偏置向量，LayerNorm表示标准的层归一化操作，ELU代表指数线性单元激活函数。

步骤5.2：经输入特征解释模块转换后的输入

被分别送入两层GRU中，用于更有效地处理长期时间序列中的时间信息。GRU通过保留先前有用的信息同时丢弃不相关的信息来克服RNN中的梯度消失问题。在结构上，GRU有两个门：更新门和重置门，如图3所示。重置门确定新输入信息如何与先前的记忆整合，而更新门定义保存到当前时间步的先前记忆的量。其核心原理如下：

z_t＝σ(W_z[h_t-1,x_t])

r_t＝σ(W_r[h_t-1,x_t])

是中间变量，W_z和W_r是对应门的权重矩阵，

表示Hadamard乘积。

步骤5.3：编码器和解码器中最后一层GRU的输出被集成到多时间步融合模块中。多时间步融合模块用来学习不同时间步之间的长期关系，它可以根据不同时间步的重要程度对当前预测时间步之前的所有时间步的编码器和解码器的输出进行加权，如图4所示。然后将加权后的输出作为解码器当前预测时间步的输入，让模型专注于更重要的信息。其主要公式如下：

Attention(Q,K,V)＝A(Q,K)V

其中，A(·)是归一化函数，n是K矩阵对应的向量的维数，Q、K和V分别由输入矩阵X分别与对应的权重矩阵相乘得到，

是最终线性映射的权重矩阵。

步骤5.4：通过对多时间步融合模块的输出进行线性映射得到分位数预测结果。

步骤6：基于训练集对时序融合Transformer模型进行迭代训练，根据损失函数，运用梯度下降算法对权重、偏置参数不断更新，最终确定模型的最佳权重及偏置参数集。本发明采用的损失函数为加入了分位数约束和预测区间惩罚项的损失函数，在避免分位数交叉的同时构建更紧凑的预测区间。具体地，假设概率点τ_i下的分位数损失函数定义为loss(τ_i)。在常用的分位数预测中，将一系列概率点0<τ₁<···<τ_i···<τ_r<1下的所有分位数损失的平均值作为联合分位数损失函数，如下式所示：

其中

是概率点τ_i下y_t的条件分位数，N是样本数，r是分位点的个数。根据分位数的固有性质，对于每个概率点τ，y_t的条件分位数必须满足以下要求：

为了提高结果的合理性，在原始分位数损失函数中加入了违反分位数约束的惩罚项，以尽可能消除相邻分位数之间的分位数交叉。但是，一旦加入分位数约束，预测区间将不可避免地变宽。为了得到更紧凑的预测区间，相应的预测区间惩罚项也被引入到损失函数中。则最终改进后的损失函数如下所示：

其中W₂是一个比例因子，确保损失函数中的两项具有相似的值，而c_j＝τ_r+1-j-τ_j用于确保随着置信区间的增大，预测区间惩罚项的权重更大。惩罚系数W_1,i和b_i由下面分析得到。定义Δloss(τ_i)＝loss(τ_i)-loss(τ_i-1)，则根据不同概率点下分位数损失之间的关系，原始分位数损失函数可转化为

当

即相邻概率的预测分位数违反了约束关系，则：

其中θ＝τ_i-τ_i-1是相邻两个分位数点之间的步长。当违反分位数约束，且τ_i≤0.5,

损失

将会减少

当τ_i≤0.5,

损失

将会减少

当τ_i＞0.5,

损失

将会减少

显然，在违反分位数约束时减少的损失值是不合理的。因此，为了补偿不合理的损失下降，结合分析，推导出惩罚系数W_1,i和b_i为：

步骤8：基于测试集利用训练好的时序融合Transformer模型进行预测，并对输出的预测结果进行反归一化，得到各预测时刻在不同分位点下的负荷预测值。

图5和图6分别将算例1和算例2中时序融合Transformer模型获得的提前30天的预测曲线与测试集半个月内的实际负荷曲线进行了比较。可以看出，代表负荷点预测结果的中值曲线(实线)与实际负荷曲线具有相似的变化规律。预测区间可以在大多数时间点下充分覆盖实际负荷曲线(虚线)，并且置信度较低的预测区间很好地嵌入在置信度较高的预测区间中。另外，预测区间在波峰处较宽，在波谷和过渡处较窄(在算例2中尤其明显)，这表明峰值负荷的不确定性相对较高，使得预测更加困难。此外，算例2主要是住宅用电，负荷变化更规律，而算例1主要是工业用电，具有较高的不确定性和较弱的周期特性。

表2各模型评价指标及训练时间对比

表2所示为各模型的评价指标和训练时间，最佳值用加粗表示。为使绘图清晰美观，在图7-12、图14-15中，用模型1-5分别表示TFT、QRNN、TCN、Transformer和时序融合Transformer模型。图7-12所示为两个算例的X_QS、X_CS和X_QCS的箱线图，描绘了这些评估指标的分布，较窄的部分以局部放大的形式在灰色箭头上方给出。图13所示为算例1中Transformer模型在不同分位点下一天的预测曲线。图14-15所示为不同置信水平下的预测区间锐度X_PINRW曲线。对于X_QS、X_CS和X_QCS，表2和图7-12表明时序融合Transformer模型优于其他模型。时序融合Transformer模型在图7-12中的位置最低，异常值少，四分位距短，表明其误差最小，性能更稳定。QRNN模型的误差更大，TFT和Transformer模型的四分位距更宽，TCN模型的异常值更多。使用原始分位数损失函数的QRNN、TCN、TFT和Transformer模型具有更高的X_CS，这表明它的合理性欠佳。图13将Transformer模型的两条分位数预测曲线与实际曲线(灰色较细实线)进行了比较，如图13所示，0.55概率点的分位数曲线在某些时间点(阴影部分)小于0.45概率点的分位数曲线，这是不合理的。相比之下，时序融合Transformer模型可以避免分位数之间的交叉，提高了模型的可靠性。在预测区间锐度方面，表2和图14-15表明TCN模型在所有置信度下都最低，但其X_CS误差大表明它牺牲了分位数合理性。在预测区间覆盖率PICP方面，表2显示时序融合Transformer模型和QRNN模型比其他模型具有更小的X_AD和X_MD，说明实际负荷值落在时序融合Transformer模型和QRNN模型的预测区间中的比例更符合相应的置信水平，并且它们的预测区间更可靠。

图16所示为算例1在预测范围为1天到30天时50％和90％置信度下的每天的X_QCS和X_PINRW指标情况。除了第15-19天的暂时性上涨外，X_PINRW在50％和90％置信度下均呈下降趋势，并且在第15天左右达到最小值，这是因为模型的训练作为整体进行，并且误差具有时间转移效应，使得模型在短时和中部预测范围的误差较低。相反，由于时间序列的长期依赖性难以捕捉，并且天气特征的预测误差增加，X_QCS随着预测范围的增加而增大。此外，X_PINRW和X_QCS表现出相反的趋势，这是因为预测区间越紧凑，落在其中的点越少，模型的可靠性越低，因此随着预测范围的增加，当预测区间宽度越窄时，X_QCS越高。

Claims

1.一种基于时序融合Transformer模型的中期小时级负荷概率预测方法，其特征在于，它包括以下步骤：

步骤1：采集目标地区多个历史样本日的小时级负荷功率值及相关天气影响因素数据；

步骤2：将包括单变量负荷时间序列数据在内的原始负荷数据重构为面板数据矩阵，并对输入数据进行分类，分为时变输入和静态协变量输入，时变输入分为已知输入和观测到的输入；

2.根据权利要求1所述的方法，其特征在于，在步骤2中，原始的单变量负荷时间序列[y₁,y₂,...,y_n×m]被重构为面板数据矩阵Y∈R^m×n，其公式如下：

式中，y表示负荷值，n和m分别为天数及一天中的时刻点数，t表示第t天，s代表时刻点标签，也是模型的静态协变量输入；与时间相关的输入χ_s,t＝[Z_s,t,X_s,t]包括两个部分，观测到的输入Z_s,t和已知输入X_s,t。

3.根据权利要求1所述的方法，其特征在于，具体地，步骤5建立的时序融合Transformer模型主要包括输入特征解释模块、门控循环单元层、多时间步融合模块；

(1)输入特征解释模块用来解释各输入变量对输出的贡献，其公式包括：

γ＝dropout(W₂(ELU(W₁s+b₁))+b₂)

cs＝LayerNom(s+σ(W₃γ+b₃)⊙(W₄γ+b₄))

v_t＝softmax(dropout(W₆(ELU(W₅(X_t,cs)+b₅))+b₆))

是经输入特征解释模块处理后的送入其它模块的向量，cs是由静态协变量s经门控残差过程处理后的context向量，γ是中间变量，σ(·)是sigmoid激活函数；v_t是对应于输入变量的权重向量，代表每个输入特征的重要程度；W_*和b_*分别是对应层的权重矩阵和偏置向量，LayerNorm表示标准的层归一化操作，ELU代表指数线性单元激活函数，dropout和softmax分别表示常规的dropout操作和softmax激活函数；

(2)门控循环单元层用于处理时间信息，其公式包括：

z_t＝σ(W_z[h_t-1,x_t])

r_t＝σ(W_r[h_t-1,x_t])

是中间变量，W_z和W_r是对应门的权重矩阵，

表示Hadamard乘积，tanh表示常规的tanh激活函数；

(3)多时间步融合模块用来学习不同时间步之间的长期依赖关系，其公式包括：

Attention(Q,K,V)＝A(Q,K)V

是中间变量，

是最终线性映射的权重矩阵。

4.根据权利要求1所述的方法，其特征在于，在步骤6中，基于训练集根据损失函数对时序融合Transformer模型进行迭代训练，运用常规的梯度下降算法确定模型的最佳权重及偏置参数集；

具体地，采用的损失函数为加入了分位数约束和预测区间惩罚项的损失函数，其优势是在避免分位数交叉的同时构建更紧凑的预测区间；

假设概率点τ_i下的分位数损失函数定义为loss(τ_i)；在常用的分位数预测中，将一系列概率点0<τ₁<···<τ_i···<τ_r<1下的所有分位数损失的平均值作为联合分位数损失函数l，如下式所示：

其中

是概率点τ_i下t时刻真实负荷值y_t的条件分位数，N是样本数，r是分位点的个数，a是中间变量；根据分位数的固有性质，对于每个概率点τ，y_t的条件分位数必须满足以下要求：

为了提高预测结果的合理性，在原始分位数损失函数中加入了违反分位数约束的惩罚项，以尽可能消除相邻分位数之间的交叉；为了得到更紧凑的预测区间，相应的预测区间惩罚项也被引入到损失函数中；则最终改进后的损失函数L如下所示：

其中W_1,i和b_i为惩罚系数；W₂是一个比例因子，用来确保损失函数中大括号内作加法处理的两项具有相似的值，而c_j＝τ_r+1-j-τ_j用于确保随着置信区间的增大，预测区间惩罚项的权重更大。