CN116660849A - 基于自注意力机制的时空lstm网络雷达回波序列预测方法 - Google Patents
基于自注意力机制的时空lstm网络雷达回波序列预测方法 Download PDFInfo
- Publication number
- CN116660849A CN116660849A CN202310549998.XA CN202310549998A CN116660849A CN 116660849 A CN116660849 A CN 116660849A CN 202310549998 A CN202310549998 A CN 202310549998A CN 116660849 A CN116660849 A CN 116660849A
- Authority
- CN
- China
- Prior art keywords
- term memory
- attention
- attention mechanism
- lstm
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 43
- 230000007787 long-term memory Effects 0.000 claims abstract description 38
- 230000006403 short-term memory Effects 0.000 claims abstract description 26
- 238000012360 testing method Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000015654 memory Effects 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 9
- 238000012546 transfer Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000001556 precipitation Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000013459 approach Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000007774 longterm Effects 0.000 description 4
- 230000008034 disappearance Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S7/00—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
- G01S7/02—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
- G01S7/41—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了基于自注意力机制的时空LSTM网络雷达回波序列预测方法,具体为:将CKIM雷达回波数据集分为训练集和测试集,并进行预处理;采用自注意力机制替代ST‑LSTM单元中的遗忘门机制,形成SA‑ST‑LSTM单元;搭建编码‑注意力‑解码网络;将训练集送入编码‑注意力‑解码网络中进行训练,得到训练模型;将测试集送入训练模型中进行测试,得到图像预测结果和预测数据。本发明提出了SA‑ST‑LSTM单元并设计了编码‑注意力‑解码网络,采用超参数对长期记忆和短期记忆的调节来处理遗忘门中灾难性遗忘问题;另外,加入注意力机制来延缓网络中长期记忆逐渐遗忘问题,提高了雷达回波序列预测的性能。
Description
技术领域
本发明属于雷达回波序列预测技术领域,具体涉及基于自注意力机制的时空LSTM网络雷达回波序列预测方法。
背景技术
降水临近预报是人们日常生活中不可或缺的一部分,对于各行业和社会的决策都有着重要的意义,有效的对降水进行预测能够更好的指导人们的日常工作和生活;当前的降水临近预报技术主要是通过判断大气和气流的运动轨迹来实现对降水强度和区域的预测,其中,短时临近降水预报作为主要研究的热点,通过收集的历史帧雷达回波序列数据对未来序列帧进行预测,从而使用未来帧的强度和区域判断降水临近预报情况。当前主要的方法是通过深度学习技术,利用历史雷达序列数据进行训练,构建预训练模型,通过预训练模型来对未来帧预测,根据预测结果判断降水情况,通过不断改进深度学习网络的结构,从而进一步提高雷达回波序列预测的准确性;这些研究扩展了对降水临近预报的认识,为提高预报准确性和决策支持能力提供了新途径。
发明内容
本发明的目的是提供基于自注意力机制的时空LSTM网络雷达回波序列预测方法,提高短时临近降水的雷达回波序列预测能力。
本发明所采用的技术方案是,基于自注意力机制的时空LSTM网络雷达回波序列预测方法,具体按照以下步骤实施:
步骤1、将CKIM雷达回波数据集分为训练集和测试集,并进行预处理,得到序列图像;
步骤2、采用自注意力机制替代ST-LSTM单元中的遗忘门机制,形成SA-ST-LSTM单元;
步骤3、使用SA-ST-LSTM单元搭建编码-注意力-解码网络;
步骤4、将训练集送入编码-注意力-解码网络中进行训练,得到编码-注意力-解码的训练模型;
步骤5、将测试集送入编码-注意力-解码的训练模型中进行测试,得到未来帧的图像预测结果和预测数据。
本发明的特点还在于,
步骤1中,CKIM雷达回波数据集的训练集包含了120000张图像,测试集包含了30000张图像,训练集包含24000个序列,测试集包含6000个序列;将两个数据集中所有图像的尺寸调整至101×101×1,并进行归一化处理,得到序列图像。
步骤2中,具体为:
在ST-LSTM单元中,由于遗忘门的过饱和性导致长期记忆Ct和短期记忆Ht不能够有效的进行传递,置换了遗忘门,引入了自注意力机制来进行特征的聚合,将重要特征进行聚集后,丢弃掉冗余信息,注意力机制的实现方式为:对前一时刻的长期记忆状态Ct-1和隐藏状态Ht使用注意力机制,而后设置超参数α和1-α来控制信息传递量,以便实现信息的及时更新,最终得到的SA-ST-LSTM单元的公式如下:
式中,t表示时间步长,l代表堆叠层数,表示t时刻第l层长期记忆;Ct-1代表t-1时刻长期记忆,α为可调节的超参数;xi为输入状态;ht-1为t-1时刻的短期记忆状态;g't,i't,f't分别表示调制门、输入门和遗忘门;/>为t时刻l-1层的时空记忆;σ为Sigmoid函数;tanh为tanh函数;/>为t时刻第l层时空记忆;e代表向量;ot为输
出门;*表示哈达玛卷积;attention为自注意力机制;b′g,b′i,b′f,b0均为偏置项,Wx,W'xg,Wmg,W'xi,Wmi,W'xf,Wmf,Wxo,Who,Wco,Wmo,W1×1均为权重矩阵。
步骤3中,具体为:
采用3层CNN和3层SA-ST-LSTM单元进行交叉堆叠形成编码-解码结构,其中,在水平方向上,SA-ST-LSTM单元的长期记忆状态Ct和隐藏状态Ht都沿着水平方向进行传递,在垂直方向上,短期记忆状态Ht和时空记忆单元Mt是作为下一层的输入进行传递,时空记忆单元Mt在整个网络的传递过程中都是连续的,其次,在编码完成后加入注意力机制,使得编码后得到的矢量的长期记忆Ct、短期记忆Ht、和时空记忆Mt都经过注意力机制来进一步提取重要信息,注意力机制在编码后对特征提取的表达式如下所示:
其中,代表了第l层的长期记忆状态/>短期记忆状态/>和当前时空记忆状态/>分别代表了经过注意力机制的第l层的短期记忆状态,长期记忆状态和当前的时空记忆状态;
将3层的SA-ST-LSTM单元和3层的CNN进行堆叠形成解码结构,将经过注意力机制的输入到解码结构中完成解码,最后将解码的结果进行堆叠并使用1×1的卷积核进行特征融合形成得到的编码-注意力-解码网络。
步骤4中,具体为:将训练集以连续5帧作为一个序列输入,10帧作为一个序列真实值,通过MSE损失函数进行优化,从而得到以该数据集收敛的预训练模型,通过预训练模型来实现对雷达回波的预测,从而判断降水情况。
本发明有益效果是:本发明提出了SA-ST-LSTM单元并设计了编码-注意力-解码网络,与传统的ST-LSTM相比,SA-ST-LSTM单元引入了注意力机制替换了遗忘门机制,采用超参数对长期记忆和短期记忆的调节来处理遗忘门中灾难性遗忘问题;在编码-解码网络上提出了编码-注意力-解码网络,该网络采用CNN和SA-ST-LSTM单元的交叉方式来实现对特征的有效提取,加入注意力机制来延缓编码-解码网络中长期记忆逐渐遗忘问题,提高了雷达回波序列预测的性能。
附图说明
图1是本发明基于自注意力机制的时空LSTM网络雷达回波序列预测方法中自注意力机制的计算过程图;
图2是本发明基于自注意力机制的时空LSTM网络雷达回波序列预测方法中SA-ST-LSTM单元注意力内部模块图;
图3是本发明基于自注意力机制的时空LSTM网络雷达回波序列预测方法中SA-ST-LSTM单元结构图;
图4是本发明基于自注意力机制的时空LSTM网络雷达回波序列预测方法中编码-注意力-解码网络结构图。
图5是本发明实施中CKIM数据集雷达回波预测图;
图6是本发明实施中HSS阈值τ为30降水预测十帧指标图;
图7是本发明实施中CSI阈值τ为30降水预测十帧指标图;
图8是本发明实施中超参数α设置对SA-ST-LSTM单元的影响图;
图9是本发明实施中不同SA-ST-LSTM单元中α取值可视化雷达回波图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于自注意力机制的时空LSTM网络雷达回波序列预测方法,具体按照以下步骤实施:
步骤1、将CKIM雷达回波数据集均分为训练集和测试集,对数据集进行预处理,得到序列图像;
具体为:CKIM雷达回波数据集的训练集包含了120000张图像,测试集包含了30000张图像,训练集包含24000个序列,测试集包含6000个序列,选择每个序列为5帧作为输入,10帧作为输出;将两个数据集中的所有图像的尺寸调整至101×101×1,并进行归一化处理,得到序列图像;
步骤2、在ST-LSTM单元的基础上进行改进,采用自注意力机制替代了ST-LSTM单元中的遗忘门机制,通过调节超参数α的方式实现对长期记忆和短期记忆状态更新的调节,从而解决在进行预测过程中ST-LSTM单元出现的灾难性遗忘问题,减少ST-LSTM单元在传输过程中信息无法更新导致的梯度消失现象;
自注意力模块被提出是用于输入的全局依赖性,在图像中,自注意力模块通过二元关系函数中计算特征图的不同位置之间的成对关系,来捕获长范围的时空依赖关系。而后通过这些关系计算出所关注的特征,自注意力模块通常使用点击来计算注意力打分,这里查询向量和键向量的维度是相同的。图1展示了使用的自注意力机制的计算过程,原始特征Ct被映射到不同的特征空间,其中查询为键为/>值为使用的卷积核大小皆为1×1,最后Ct和/>的通道数相同。首先,通过矩阵的乘积运算计算相似注意力分数,其计算方式如下:
其中Softmax的表达式如下:
在ST-LSTM单元中,由于遗忘门的过饱和性导致长期记忆Ct和短期记忆Ht不能够有效的进行传递,置换了遗忘门,引入了自注意力机制来进行特征的聚合,将重要特征进行聚集后,丢弃掉冗余信息,使得模型的信息能够更好的传递并提高其时空相关性,组合注意力机制的实现方式如图2所示,对前一时刻的长期记忆状态Ct-1和隐藏状态Ht使用注意力机制,让其更加关注需要的信息,而后设置超参数α和1-α来控制信息传递量,以便实现信息的及时更新,SA-ST-LSTM单元的结构如图3所示,最终得到的SA-ST-LSTM单元的公式如下:
式中,t表示时间步长,l代表堆叠层数,表示t时刻第l层长期记忆;Ct-1代表t-1时刻长期记忆,α为可调节的超参数;xi为输入状态;ht-1为t-1时刻的短期记忆状态;g't,i't,ft'分别表示调制门、输入门和遗忘门;/>为t时刻l-1层的时空记忆;σ为Sigmoid函数;tanh为tanh函数;/>为t时刻第l层时空记忆;e代表向量;ot为输出门;*表示哈达玛卷积;attention为自注意力机制;b′g,b′i,b′f,b0均为偏置项,Wx,W'xg,Wmg,W'xi,Wmi,W'xf,Wmf,Wxo,Who,Wco,Wmo,W1×1均为权重矩阵。
步骤3、使用SA-ST-LSTM单元搭建编码-注意力-解码网络;
通过CNN和SA-ST-LSTM单元交叉堆叠的方式实现对特征的进一步提取,其次,向编码-解码结构中加入注意力机制,延缓了长期记忆在解码过程中出现的逐步遗忘现象,最终构成了编码-注意力-解码网络;
具体为:采用3层CNN和3层SA-ST-LSTM单元进行交叉堆叠形成编码-解码结构,其中,在水平方向上,SA-ST-LSTM单元的长期记忆状态Ct和隐藏状态Ht都沿着水平方向进行传递,在垂直方向上,短期记忆状态Ht和时空记忆单元Mt是作为下一层的输入进行传递,时空记忆单元Mt在整个网络的传递过程中都是连续的,通过这种方式构成了在时间和空间上统一的时空变化结构,其次,在编码完成后加入注意力机制,使得编码后得到的矢量的长期记忆Ct、短期记忆Ht、和时空记忆Mt都经过注意力机制来进一步提取重要信息,注意力机制在编码后对特征提取的表达式如下所示:
其中,代表了第l层的长期记忆状态/>短期记忆状态/>和当前时空记忆状态/>分别代表了经过注意力机制的第l层的短期记忆状态,长期记忆状态和当前的时空记忆状态。将3层的SA-ST-LSTM单元和3层的CNN进行堆叠形成解码结构,将经过注意力机制的/>输入到解码结构中完成解码,最后将解码的结果进行堆叠并使用1×1的卷积核进行特征融合形成得到的编码-注意力-解码网络,如图4所示。
在雷达回波序列预测的编码-解码结构中,都是由时空序列单元进行堆叠的,而时空序列单元的捕捉空间信息能力不如卷积层强大,因此,加入卷积层进行特征提取后能够进一步提高网络对于空间信息捕获能力,得到更加清晰的预测图像,其次,由于长期记忆信息会在解码过程中通常会出现逐渐遗忘的趋势,为了进一步增强捕获重要信息的能力,在编码和解码的过程中加入了注意力机制,使得编码后得到的矢量的长期记忆Ct、短期记忆Ht和时空记忆Mt都经过注意力机制来进一步提取重要信息;
步骤4、将训练集送入编码-注意力-解码网络中进行训练,得到编码-注意力-解码的训练模型;
将训练集以连续5帧作为一个序列输入,10帧作为一个序列真实值,通过MSE损失函数进行优化,从而得到以该数据集收敛的预训练模型,通过预训练模型来实现对雷达回波的预测,从而判断降水情况。
步骤5、将测试集送入编码-注意力-解码的训练模型中进行测试,得到测试数据和预测图像;
将测试集以序列的方式输入到训练模型中进行测试,CKIM雷达回波数据集来测试最终的预测效果,最后,将得到的输出结果转换成图像进行保存,得到未来帧的图像预测结果和预测数据。
实施例
使用CKIM雷达回波数据集评估了SA-ST-LSTM单元构成的编码-注意力-解码网络,在分析中用简写EnADe(ST-LSTM)和EnADe(SA-ST-LSTM)结构代表了以ST-LSTM单元为基础的编码-注意力-解码网络和以SA-ST-LSTM单元为基础的编码-注意力-解码网络,分析了网络的数据实验结果和预测图像结果,并通过了天气预测图像的消融实验,分析了SA-ST-LSTM单元中α的取值情况。采用了平方损失函数对网络进行训练和测试,CKIM雷达回波的实验结果和预测图像在SA-ST-LSTM单元的超参数α为0.7下进行,所有实验在Pytorch中实现,RTX 3080Ti GPU上进行。EnADe(SA-ST-LSTM)网络的超参数设置如表1所示:
表1超参数设置
通过将CKIM雷达回波的训练集放入网络中进行训练,而后使用训练模型进行测试得到评估指标结果:
表2CKIM雷达回波序列任务
表2是不同阈值下的HSS和CSI数据、HSS、CSI的平均数据和平方误差损失函数的数据,EnADe(SA-ST-LSTM)网络相比于其他网络的预测结果更为准确,可以看到,EnADe(SA-ST-LSTM)网络的平方损失函数相较于PredRNN下降了6.7%,其平均的HSS和CSI则分别提高了2.5%和2.9%,证明了EnADe(SA-ST-LSTM)网络单元和结构在雷达回波序列预测问题上有足够的潜能。图5展示了CKIM雷达回波数据集的预测结果,网络的性能有了很大的提升,有效的解决了雷达回波序列预测问题强度和区域的不同。
图6和图7展示了阈值τ为30时的HSS和CSI逐帧效果。从图中可以看到,EnADe(SA-ST-LSTM)网络的逐帧预测结果普遍高于所有网络,在临近帧的表现更加优异,这表明了EnADe(SA-ST-LSTM)网络能够不仅能够有效的捕获临近帧的突变现象,而且还能够提高长期帧的预测结果,使得在进行雷达回波预测任务时能够预测到更多强度较高的区域,证明了EnADe(SA-ST-LSTM)网络有效的提高了时空序列预测的鲁棒性和准确性。
从图8可以看到在取不同的α值的网络损失函数的波动,不同的α对预测结果产生了很大的影响,这是因为在α控制着长期信息和短期信息的更新状况,当α=0.9时,这时的网络处于灾难性遗忘状态,因此其损失函数较大,说明了灾难性遗忘的发生对时空序列预测的影响,而在α=0.1时,这时单元的信息更新情况较快,虽然效果相比灾难性遗忘的情况较好,但是短期信息的更新较快会带来梯度消失现象,当α=0.7时预测的效果和性能最好,由图可以看到网络的性能结果保持在一定区间之内,这种波动被认为是由于网络在长期记忆和短期记忆在交叉融合过程中占据的定量形成的,α=0.7时占据了70%的定量,短期记忆占据了30%的定量,这时候的效果达到了目前网络的最优,网络在雷达回波的预测效果达到的最好。
图9中展示了在不同α取值时出现的情况,包含了α从0.1到0.9,代表长期记忆和短期记忆信息的占比量,在进行前两帧预测时,所有的实验结果相差不大,这是长期记忆所携带的趋势性信息造成的,从第3帧开始,不同α取值所得到的结果差异性开始显现,当α值为0.1或0.2时,由于长期记忆状态占据太多,网络处于灾难性遗忘状态,这种情况下网络只能在趋势信息下更新,信息逐渐呈现遗忘的趋势,因此,从预测图像中明显可以看出强度区域逐渐消失,无法得到准确的预测结果。当α值为0.8或0.9时,网络的处于短时记忆信息频繁更新状态,这种情况下,长期记忆信息趋势占比小,图像对当前时刻的信息更新过快,这种情况会导致网络在多步预测过程中出现梯度消失现象,从图像中可以看出,网络从第3帧之后的图像变化趋势较快,但是无法对长期信息得到充分保证,效果较差,当α值为0.7时,网络的预测性能最好,这时的长期记忆和短期记忆占比相当,长期记忆从先前的网络状态中学习到了趋势性信息,这种信息作为了时空序列单元的类似先验部分,而短时信息通过当前时刻的趋势信息不断更新,使得网络的性能达到了最佳状态,从而有效解决了灾难性遗忘导致的饱和问题。
Claims (5)
1.基于自注意力机制的时空LSTM网络雷达回波序列预测方法,其特征在于,具体按照以下步骤实施:
步骤1、将CKIM雷达回波数据集分为训练集和测试集,并进行预处理,得到序列图像;
步骤2、采用自注意力机制替代ST-LSTM单元中的遗忘门机制,形成SA-ST-LSTM单元;
步骤3、使用SA-ST-LSTM单元搭建编码-注意力-解码网络;
步骤4、将训练集送入编码-注意力-解码网络中进行训练,得到编码-注意力-解码的训练模型;
步骤5、将测试集送入编码-注意力-解码的训练模型中进行测试,得到未来帧的图像预测结果和预测数据。
2.根据权利要求1所述的基于自注意力机制的时空LSTM网络雷达回波序列预测方法,其特征在于,所述步骤1中,CKIM雷达回波数据集的训练集包含了120000张图像,测试集包含了30000张图像,训练集包含24000个序列,测试集包含6000个序列;将两个数据集中所有图像的尺寸调整至101×101×1,并进行归一化处理,得到序列图像。
3.根据权利要求1所述的基于自注意力机制的时空LSTM网络雷达回波序列预测方法,其特征在于,所述步骤2中,具体为:
在ST-LSTM单元中,由于遗忘门的过饱和性导致长期记忆Ct和短期记忆Ht不能够有效的进行传递,置换了遗忘门,引入了自注意力机制来进行特征的聚合,将重要特征进行聚集后,丢弃掉冗余信息,注意力机制的实现方式为:对前一时刻的长期记忆状态Ct-1和隐藏状态Ht使用注意力机制,而后设置超参数α和1-α来控制信息传递量,以便实现信息的及时更新,最终得到的SA-ST-LSTM单元的公式如下:
式中,t表示时间步长,l代表堆叠层数,表示t时刻第l层长期记忆;Ct-1代表t-1时刻长期记忆,α为可调节的超参数;xi为输入状态;ht-1为t-1时刻的短期记忆状态;g′t,i′t,ft′分别表示调制门、输入门和遗忘门;/>为t时刻l-1层的时空记忆;σ为Sigmoid函数;tanh为tanh函数;/>为t时刻第l层时空记忆;e代表向量;ot为输出门;*表示哈达玛卷积;attention为自注意力机制;b′g,b′i,b′f,b0均为偏置项,Wx,W′xg,Wmg,W′xi,Wmi,W′xf,Wmf,Wxo,Who,Wco,Wmo,W1×1均为权重矩阵。
4.根据权利要求3所述的基于自注意力机制的时空LSTM网络雷达回波序列预测方法,其特征在于,所述步骤3中,具体为:
采用3层CNN和3层SA-ST-LSTM单元进行交叉堆叠形成编码-解码结构,其中,在水平方向上,SA-ST-LSTM单元的长期记忆状态Ct和隐藏状态Ht都沿着水平方向进行传递,在垂直方向上,短期记忆状态Ht和时空记忆单元Mt是作为下一层的输入进行传递,时空记忆单元Mt在整个网络的传递过程中都是连续的,其次,在编码完成后加入注意力机制,使得编码后得到的矢量的长期记忆Ct、短期记忆Ht、和时空记忆Mt都经过注意力机制来进一步提取重要信息,注意力机制在编码后对特征提取的表达式如下所示:
其中,代表了第l层的长期记忆状态/>短期记忆状态/>和当前时空记忆状态/>分别代表了经过注意力机制的第l层的短期记忆状态,长期记忆状态和当前的时空记忆状态;
将3层的SA-ST-LSTM单元和3层的CNN进行堆叠形成解码结构,将经过注意力机制的输入到解码结构中完成解码,最后将解码的结果进行堆叠并使用1×1的卷积核进行特征融合形成得到的编码-注意力-解码网络。
5.根据权利要求4所述的基于自注意力机制的时空LSTM网络雷达回波序列预测方法,其特征在于,所述步骤4中,具体为:
将训练集以连续5帧作为一个序列输入,10帧作为一个序列真实值,通过MSE损失函数进行优化,从而得到以该数据集收敛的训练模型,通过训练模型来实现对雷达回波的预测,从而判断降水情况。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310549998.XA CN116660849A (zh) | 2023-05-16 | 2023-05-16 | 基于自注意力机制的时空lstm网络雷达回波序列预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310549998.XA CN116660849A (zh) | 2023-05-16 | 2023-05-16 | 基于自注意力机制的时空lstm网络雷达回波序列预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116660849A true CN116660849A (zh) | 2023-08-29 |
Family
ID=87719847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310549998.XA Pending CN116660849A (zh) | 2023-05-16 | 2023-05-16 | 基于自注意力机制的时空lstm网络雷达回波序列预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116660849A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116953653A (zh) * | 2023-09-19 | 2023-10-27 | 成都远望科技有限责任公司 | 一种基于多波段天气雷达组网回波外推方法 |
CN117096875A (zh) * | 2023-10-19 | 2023-11-21 | 国网江西省电力有限公司经济技术研究院 | 一种基于ST-Transformer模型的短期负荷预测方法及系统 |
CN117741821A (zh) * | 2023-12-18 | 2024-03-22 | 广东省气象台(南海海洋气象预报中心、珠江流域气象台) | 基于SFGAN-ARPredRNN模型和多层雷达数据的短时强降水分钟级预报方法 |
-
2023
- 2023-05-16 CN CN202310549998.XA patent/CN116660849A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116953653A (zh) * | 2023-09-19 | 2023-10-27 | 成都远望科技有限责任公司 | 一种基于多波段天气雷达组网回波外推方法 |
CN116953653B (zh) * | 2023-09-19 | 2023-12-26 | 成都远望科技有限责任公司 | 一种基于多波段天气雷达组网回波外推方法 |
CN117096875A (zh) * | 2023-10-19 | 2023-11-21 | 国网江西省电力有限公司经济技术研究院 | 一种基于ST-Transformer模型的短期负荷预测方法及系统 |
CN117096875B (zh) * | 2023-10-19 | 2024-03-12 | 国网江西省电力有限公司经济技术研究院 | 一种基于Spatio-Temporal Transformer模型的短期负荷预测方法及系统 |
CN117741821A (zh) * | 2023-12-18 | 2024-03-22 | 广东省气象台(南海海洋气象预报中心、珠江流域气象台) | 基于SFGAN-ARPredRNN模型和多层雷达数据的短时强降水分钟级预报方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116660849A (zh) | 基于自注意力机制的时空lstm网络雷达回波序列预测方法 | |
CN112418409B (zh) | 一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法 | |
CN111062297B (zh) | 基于eann深度学习模型的暴力异常行为检测方法 | |
CN111460912B (zh) | 基于级联高分辨卷积神经网络的密集人群计数算法 | |
CN111723693B (zh) | 一种基于小样本学习的人群计数方法 | |
CN112270355B (zh) | 基于大数据技术与sae-gru的主动安全预测方法 | |
Sun et al. | Prediction of Short‐Time Rainfall Based on Deep Learning | |
CN110781776A (zh) | 一种基于预测和残差细化网络的道路提取方法 | |
CN112597815A (zh) | 一种基于Group-G0模型的合成孔径雷达图像舰船检测方法 | |
CN114612836B (zh) | 基于记忆增强未来视频帧预测的监控视频异常检测方法 | |
CN113393457B (zh) | 一种结合残差密集块与位置注意力的无锚框目标检测方法 | |
CN114155210B (zh) | 基于注意力机制与标准化密集空洞空间多尺度融合网络的人群计数方法 | |
CN109829495A (zh) | 基于lstm和dcgan的时序性图像预测方法 | |
CN112115849A (zh) | 基于多粒度视频信息和注意力机制的视频场景识别方法 | |
CN110599443A (zh) | 一种使用双向长短期记忆网络的视觉显著性检测方法 | |
Fang et al. | AttEF: Convolutional LSTM Encoder-Forecaster with Attention Module for Precipitation Nowcasting. | |
CN113095246A (zh) | 一种基于迁移学习和场景感知的跨域自适应人数统计方法 | |
CN115392554A (zh) | 基于深度图神经网络和环境融合的轨道客流预测方法 | |
CN116844041A (zh) | 一种基于双向卷积时间自注意力机制的耕地提取方法 | |
CN115113165A (zh) | 雷达回波外推方法、装置及系统 | |
CN113610329B (zh) | 一种双流卷积长短期记忆网络的短时临近降雨预报方法 | |
Ma et al. | MS-RNN: A flexible multi-scale framework for spatiotemporal predictive learning | |
CN116682271A (zh) | 基于u形多尺度时空图卷积网络的交通流量预测方法 | |
Shymyrbay et al. | Training-aware low precision quantization in spiking neural networks | |
CN113283393A (zh) | 基于图像组与两流网络的Deepfake视频检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |