CN116660849A

CN116660849A - 基于自注意力机制的时空lstm网络雷达回波序列预测方法

Info

Publication number: CN116660849A
Application number: CN202310549998.XA
Authority: CN
Inventors: 孙强; 别永涛
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-08-29

Abstract

本发明公开了基于自注意力机制的时空LSTM网络雷达回波序列预测方法，具体为：将CKIM雷达回波数据集分为训练集和测试集，并进行预处理；采用自注意力机制替代ST‑LSTM单元中的遗忘门机制，形成SA‑ST‑LSTM单元；搭建编码‑注意力‑解码网络；将训练集送入编码‑注意力‑解码网络中进行训练，得到训练模型；将测试集送入训练模型中进行测试，得到图像预测结果和预测数据。本发明提出了SA‑ST‑LSTM单元并设计了编码‑注意力‑解码网络，采用超参数对长期记忆和短期记忆的调节来处理遗忘门中灾难性遗忘问题；另外，加入注意力机制来延缓网络中长期记忆逐渐遗忘问题，提高了雷达回波序列预测的性能。

Description

基于自注意力机制的时空LSTM网络雷达回波序列预测方法

技术领域

本发明属于雷达回波序列预测技术领域，具体涉及基于自注意力机制的时空LSTM网络雷达回波序列预测方法。

背景技术

降水临近预报是人们日常生活中不可或缺的一部分，对于各行业和社会的决策都有着重要的意义，有效的对降水进行预测能够更好的指导人们的日常工作和生活；当前的降水临近预报技术主要是通过判断大气和气流的运动轨迹来实现对降水强度和区域的预测，其中，短时临近降水预报作为主要研究的热点，通过收集的历史帧雷达回波序列数据对未来序列帧进行预测，从而使用未来帧的强度和区域判断降水临近预报情况。当前主要的方法是通过深度学习技术，利用历史雷达序列数据进行训练，构建预训练模型，通过预训练模型来对未来帧预测，根据预测结果判断降水情况，通过不断改进深度学习网络的结构，从而进一步提高雷达回波序列预测的准确性；这些研究扩展了对降水临近预报的认识，为提高预报准确性和决策支持能力提供了新途径。

发明内容

本发明的目的是提供基于自注意力机制的时空LSTM网络雷达回波序列预测方法，提高短时临近降水的雷达回波序列预测能力。

本发明所采用的技术方案是，基于自注意力机制的时空LSTM网络雷达回波序列预测方法，具体按照以下步骤实施：

步骤1、将CKIM雷达回波数据集分为训练集和测试集，并进行预处理，得到序列图像；

步骤2、采用自注意力机制替代ST-LSTM单元中的遗忘门机制，形成SA-ST-LSTM单元；

步骤3、使用SA-ST-LSTM单元搭建编码-注意力-解码网络；

步骤4、将训练集送入编码-注意力-解码网络中进行训练，得到编码-注意力-解码的训练模型；

步骤5、将测试集送入编码-注意力-解码的训练模型中进行测试，得到未来帧的图像预测结果和预测数据。

本发明的特点还在于，

步骤1中，CKIM雷达回波数据集的训练集包含了120000张图像，测试集包含了30000张图像，训练集包含24000个序列，测试集包含6000个序列；将两个数据集中所有图像的尺寸调整至101×101×1，并进行归一化处理，得到序列图像。

步骤2中，具体为：

在ST-LSTM单元中，由于遗忘门的过饱和性导致长期记忆C_t和短期记忆H_t不能够有效的进行传递，置换了遗忘门，引入了自注意力机制来进行特征的聚合，将重要特征进行聚集后，丢弃掉冗余信息，注意力机制的实现方式为：对前一时刻的长期记忆状态C_t-1和隐藏状态H_t使用注意力机制，而后设置超参数α和1-α来控制信息传递量，以便实现信息的及时更新，最终得到的SA-ST-LSTM单元的公式如下：

式中，t表示时间步长，l代表堆叠层数，表示t时刻第l层长期记忆；C_t-1代表t-1时刻长期记忆，α为可调节的超参数；x_i为输入状态；h_t-1为t-1时刻的短期记忆状态；g'_t,i'_t,f'_t分别表示调制门、输入门和遗忘门；/>为t时刻l-1层的时空记忆；σ为Sigmoid函数；tanh为tanh函数；/>为t时刻第l层时空记忆；e代表向量；o_t为输

出门；^*表示哈达玛卷积；attention为自注意力机制；b′_g,b′_i,b′_f,b₀均为偏置项，W_x,W'_xg,W_mg,W'_xi,W_mi,W'_xf,W_mf,W_xo,W_ho,W_co,W_mo,W_1×1均为权重矩阵。

步骤3中，具体为：

采用3层CNN和3层SA-ST-LSTM单元进行交叉堆叠形成编码-解码结构，其中，在水平方向上，SA-ST-LSTM单元的长期记忆状态C_t和隐藏状态H_t都沿着水平方向进行传递，在垂直方向上，短期记忆状态H_t和时空记忆单元M_t是作为下一层的输入进行传递，时空记忆单元M_t在整个网络的传递过程中都是连续的，其次，在编码完成后加入注意力机制，使得编码后得到的矢量的长期记忆C_t、短期记忆H_t、和时空记忆M_t都经过注意力机制来进一步提取重要信息，注意力机制在编码后对特征提取的表达式如下所示：

其中，代表了第l层的长期记忆状态/>短期记忆状态/>和当前时空记忆状态/>分别代表了经过注意力机制的第l层的短期记忆状态，长期记忆状态和当前的时空记忆状态；

将3层的SA-ST-LSTM单元和3层的CNN进行堆叠形成解码结构，将经过注意力机制的输入到解码结构中完成解码，最后将解码的结果进行堆叠并使用1×1的卷积核进行特征融合形成得到的编码-注意力-解码网络。

步骤4中，具体为：将训练集以连续5帧作为一个序列输入，10帧作为一个序列真实值，通过MSE损失函数进行优化，从而得到以该数据集收敛的预训练模型，通过预训练模型来实现对雷达回波的预测，从而判断降水情况。

本发明有益效果是：本发明提出了SA-ST-LSTM单元并设计了编码-注意力-解码网络，与传统的ST-LSTM相比，SA-ST-LSTM单元引入了注意力机制替换了遗忘门机制，采用超参数对长期记忆和短期记忆的调节来处理遗忘门中灾难性遗忘问题；在编码-解码网络上提出了编码-注意力-解码网络，该网络采用CNN和SA-ST-LSTM单元的交叉方式来实现对特征的有效提取，加入注意力机制来延缓编码-解码网络中长期记忆逐渐遗忘问题，提高了雷达回波序列预测的性能。

附图说明

图1是本发明基于自注意力机制的时空LSTM网络雷达回波序列预测方法中自注意力机制的计算过程图；

图2是本发明基于自注意力机制的时空LSTM网络雷达回波序列预测方法中SA-ST-LSTM单元注意力内部模块图；

图3是本发明基于自注意力机制的时空LSTM网络雷达回波序列预测方法中SA-ST-LSTM单元结构图；

图4是本发明基于自注意力机制的时空LSTM网络雷达回波序列预测方法中编码-注意力-解码网络结构图。

图5是本发明实施中CKIM数据集雷达回波预测图；

图6是本发明实施中HSS阈值τ为30降水预测十帧指标图；

图7是本发明实施中CSI阈值τ为30降水预测十帧指标图；

图8是本发明实施中超参数α设置对SA-ST-LSTM单元的影响图；

图9是本发明实施中不同SA-ST-LSTM单元中α取值可视化雷达回波图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于自注意力机制的时空LSTM网络雷达回波序列预测方法，具体按照以下步骤实施：

步骤1、将CKIM雷达回波数据集均分为训练集和测试集，对数据集进行预处理，得到序列图像；

具体为：CKIM雷达回波数据集的训练集包含了120000张图像，测试集包含了30000张图像，训练集包含24000个序列，测试集包含6000个序列，选择每个序列为5帧作为输入，10帧作为输出；将两个数据集中的所有图像的尺寸调整至101×101×1，并进行归一化处理，得到序列图像；

步骤2、在ST-LSTM单元的基础上进行改进，采用自注意力机制替代了ST-LSTM单元中的遗忘门机制，通过调节超参数α的方式实现对长期记忆和短期记忆状态更新的调节，从而解决在进行预测过程中ST-LSTM单元出现的灾难性遗忘问题，减少ST-LSTM单元在传输过程中信息无法更新导致的梯度消失现象；

自注意力模块被提出是用于输入的全局依赖性，在图像中，自注意力模块通过二元关系函数中计算特征图的不同位置之间的成对关系，来捕获长范围的时空依赖关系。而后通过这些关系计算出所关注的特征，自注意力模块通常使用点击来计算注意力打分，这里查询向量和键向量的维度是相同的。图1展示了使用的自注意力机制的计算过程，原始特征C_t被映射到不同的特征空间，其中查询为键为/>值为使用的卷积核大小皆为1×1，最后C_t和/>的通道数相同。首先，通过矩阵的乘积运算计算相似注意力分数，其计算方式如下：

其中Softmax的表达式如下：

在ST-LSTM单元中，由于遗忘门的过饱和性导致长期记忆C_t和短期记忆H_t不能够有效的进行传递，置换了遗忘门，引入了自注意力机制来进行特征的聚合，将重要特征进行聚集后，丢弃掉冗余信息，使得模型的信息能够更好的传递并提高其时空相关性，组合注意力机制的实现方式如图2所示，对前一时刻的长期记忆状态C_t-1和隐藏状态H_t使用注意力机制，让其更加关注需要的信息，而后设置超参数α和1-α来控制信息传递量，以便实现信息的及时更新，SA-ST-LSTM单元的结构如图3所示，最终得到的SA-ST-LSTM单元的公式如下：

式中，t表示时间步长，l代表堆叠层数，表示t时刻第l层长期记忆；C_t-1代表t-1时刻长期记忆，α为可调节的超参数；x_i为输入状态；h_t-1为t-1时刻的短期记忆状态；g'_t,i'_t,f_t'分别表示调制门、输入门和遗忘门；/>为t时刻l-1层的时空记忆；σ为Sigmoid函数；tanh为tanh函数；/>为t时刻第l层时空记忆；e代表向量；o_t为输出门；*表示哈达玛卷积；attention为自注意力机制；b′_g,b′_i,b′_f,b₀均为偏置项，W_x,W'_xg,W_mg,W'_xi,W_mi,W'_xf,W_mf,W_xo,W_ho,W_co,W_mo,W_1×1均为权重矩阵。

步骤3、使用SA-ST-LSTM单元搭建编码-注意力-解码网络；

通过CNN和SA-ST-LSTM单元交叉堆叠的方式实现对特征的进一步提取，其次，向编码-解码结构中加入注意力机制，延缓了长期记忆在解码过程中出现的逐步遗忘现象，最终构成了编码-注意力-解码网络；

具体为：采用3层CNN和3层SA-ST-LSTM单元进行交叉堆叠形成编码-解码结构，其中，在水平方向上，SA-ST-LSTM单元的长期记忆状态C_t和隐藏状态H_t都沿着水平方向进行传递，在垂直方向上，短期记忆状态H_t和时空记忆单元M_t是作为下一层的输入进行传递，时空记忆单元M_t在整个网络的传递过程中都是连续的，通过这种方式构成了在时间和空间上统一的时空变化结构，其次，在编码完成后加入注意力机制，使得编码后得到的矢量的长期记忆C_t、短期记忆H_t、和时空记忆M_t都经过注意力机制来进一步提取重要信息，注意力机制在编码后对特征提取的表达式如下所示：

其中，代表了第l层的长期记忆状态/>短期记忆状态/>和当前时空记忆状态/>分别代表了经过注意力机制的第l层的短期记忆状态，长期记忆状态和当前的时空记忆状态。将3层的SA-ST-LSTM单元和3层的CNN进行堆叠形成解码结构，将经过注意力机制的/>输入到解码结构中完成解码，最后将解码的结果进行堆叠并使用1×1的卷积核进行特征融合形成得到的编码-注意力-解码网络，如图4所示。

在雷达回波序列预测的编码-解码结构中，都是由时空序列单元进行堆叠的，而时空序列单元的捕捉空间信息能力不如卷积层强大，因此，加入卷积层进行特征提取后能够进一步提高网络对于空间信息捕获能力，得到更加清晰的预测图像，其次，由于长期记忆信息会在解码过程中通常会出现逐渐遗忘的趋势，为了进一步增强捕获重要信息的能力，在编码和解码的过程中加入了注意力机制，使得编码后得到的矢量的长期记忆C_t、短期记忆H_t和时空记忆M_t都经过注意力机制来进一步提取重要信息；

将训练集以连续5帧作为一个序列输入，10帧作为一个序列真实值，通过MSE损失函数进行优化，从而得到以该数据集收敛的预训练模型，通过预训练模型来实现对雷达回波的预测，从而判断降水情况。

步骤5、将测试集送入编码-注意力-解码的训练模型中进行测试，得到测试数据和预测图像；

将测试集以序列的方式输入到训练模型中进行测试，CKIM雷达回波数据集来测试最终的预测效果，最后，将得到的输出结果转换成图像进行保存，得到未来帧的图像预测结果和预测数据。

实施例

使用CKIM雷达回波数据集评估了SA-ST-LSTM单元构成的编码-注意力-解码网络，在分析中用简写EnADe(ST-LSTM)和EnADe(SA-ST-LSTM)结构代表了以ST-LSTM单元为基础的编码-注意力-解码网络和以SA-ST-LSTM单元为基础的编码-注意力-解码网络，分析了网络的数据实验结果和预测图像结果，并通过了天气预测图像的消融实验，分析了SA-ST-LSTM单元中α的取值情况。采用了平方损失函数对网络进行训练和测试，CKIM雷达回波的实验结果和预测图像在SA-ST-LSTM单元的超参数α为0.7下进行，所有实验在Pytorch中实现，RTX 3080Ti GPU上进行。EnADe(SA-ST-LSTM)网络的超参数设置如表1所示：

表1超参数设置

通过将CKIM雷达回波的训练集放入网络中进行训练，而后使用训练模型进行测试得到评估指标结果：

表2CKIM雷达回波序列任务

表2是不同阈值下的HSS和CSI数据、HSS、CSI的平均数据和平方误差损失函数的数据，EnADe(SA-ST-LSTM)网络相比于其他网络的预测结果更为准确，可以看到，EnADe(SA-ST-LSTM)网络的平方损失函数相较于PredRNN下降了6.7％，其平均的HSS和CSI则分别提高了2.5％和2.9％，证明了EnADe(SA-ST-LSTM)网络单元和结构在雷达回波序列预测问题上有足够的潜能。图5展示了CKIM雷达回波数据集的预测结果，网络的性能有了很大的提升，有效的解决了雷达回波序列预测问题强度和区域的不同。

图6和图7展示了阈值τ为30时的HSS和CSI逐帧效果。从图中可以看到，EnADe(SA-ST-LSTM)网络的逐帧预测结果普遍高于所有网络，在临近帧的表现更加优异，这表明了EnADe(SA-ST-LSTM)网络能够不仅能够有效的捕获临近帧的突变现象，而且还能够提高长期帧的预测结果，使得在进行雷达回波预测任务时能够预测到更多强度较高的区域，证明了EnADe(SA-ST-LSTM)网络有效的提高了时空序列预测的鲁棒性和准确性。

从图8可以看到在取不同的α值的网络损失函数的波动，不同的α对预测结果产生了很大的影响，这是因为在α控制着长期信息和短期信息的更新状况，当α＝0.9时，这时的网络处于灾难性遗忘状态，因此其损失函数较大，说明了灾难性遗忘的发生对时空序列预测的影响，而在α＝0.1时，这时单元的信息更新情况较快，虽然效果相比灾难性遗忘的情况较好，但是短期信息的更新较快会带来梯度消失现象，当α＝0.7时预测的效果和性能最好，由图可以看到网络的性能结果保持在一定区间之内，这种波动被认为是由于网络在长期记忆和短期记忆在交叉融合过程中占据的定量形成的，α＝0.7时占据了70％的定量，短期记忆占据了30％的定量，这时候的效果达到了目前网络的最优，网络在雷达回波的预测效果达到的最好。

图9中展示了在不同α取值时出现的情况，包含了α从0.1到0.9，代表长期记忆和短期记忆信息的占比量，在进行前两帧预测时，所有的实验结果相差不大，这是长期记忆所携带的趋势性信息造成的，从第3帧开始，不同α取值所得到的结果差异性开始显现，当α值为0.1或0.2时，由于长期记忆状态占据太多，网络处于灾难性遗忘状态，这种情况下网络只能在趋势信息下更新，信息逐渐呈现遗忘的趋势，因此，从预测图像中明显可以看出强度区域逐渐消失，无法得到准确的预测结果。当α值为0.8或0.9时，网络的处于短时记忆信息频繁更新状态，这种情况下，长期记忆信息趋势占比小，图像对当前时刻的信息更新过快，这种情况会导致网络在多步预测过程中出现梯度消失现象，从图像中可以看出，网络从第3帧之后的图像变化趋势较快，但是无法对长期信息得到充分保证，效果较差，当α值为0.7时，网络的预测性能最好，这时的长期记忆和短期记忆占比相当，长期记忆从先前的网络状态中学习到了趋势性信息，这种信息作为了时空序列单元的类似先验部分，而短时信息通过当前时刻的趋势信息不断更新，使得网络的性能达到了最佳状态，从而有效解决了灾难性遗忘导致的饱和问题。

Claims

1.基于自注意力机制的时空LSTM网络雷达回波序列预测方法，其特征在于，具体按照以下步骤实施：

步骤3、使用SA-ST-LSTM单元搭建编码-注意力-解码网络；

2.根据权利要求1所述的基于自注意力机制的时空LSTM网络雷达回波序列预测方法，其特征在于，所述步骤1中，CKIM雷达回波数据集的训练集包含了120000张图像，测试集包含了30000张图像，训练集包含24000个序列，测试集包含6000个序列；将两个数据集中所有图像的尺寸调整至101×101×1，并进行归一化处理，得到序列图像。

3.根据权利要求1所述的基于自注意力机制的时空LSTM网络雷达回波序列预测方法，其特征在于，所述步骤2中，具体为：

式中，t表示时间步长，l代表堆叠层数，表示t时刻第l层长期记忆；C_t-1代表t-1时刻长期记忆，α为可调节的超参数；x_i为输入状态；h_t-1为t-1时刻的短期记忆状态；g′_t,i′_t,f_t′分别表示调制门、输入门和遗忘门；/>为t时刻l-1层的时空记忆；σ为Sigmoid函数；tanh为tanh函数；/>为t时刻第l层时空记忆；e代表向量；o_t为输出门；*表示哈达玛卷积；attention为自注意力机制；b′_g,b′_i,b′_f,b₀均为偏置项，W_x,W′_xg,W_mg,W′_xi,W_mi,W′_xf,W_mf,W_xo,W_ho,W_co,W_mo,W_1×1均为权重矩阵。

4.根据权利要求3所述的基于自注意力机制的时空LSTM网络雷达回波序列预测方法，其特征在于，所述步骤3中，具体为：

5.根据权利要求4所述的基于自注意力机制的时空LSTM网络雷达回波序列预测方法，其特征在于，所述步骤4中，具体为：

将训练集以连续5帧作为一个序列输入，10帧作为一个序列真实值，通过MSE损失函数进行优化，从而得到以该数据集收敛的训练模型，通过训练模型来实现对雷达回波的预测，从而判断降水情况。