CN112446419B - 基于注意力机制的时空神经网络雷达回波外推预报方法 - Google Patents
基于注意力机制的时空神经网络雷达回波外推预报方法 Download PDFInfo
- Publication number
- CN112446419B CN112446419B CN202011176831.6A CN202011176831A CN112446419B CN 112446419 B CN112446419 B CN 112446419B CN 202011176831 A CN202011176831 A CN 202011176831A CN 112446419 B CN112446419 B CN 112446419B
- Authority
- CN
- China
- Prior art keywords
- network
- image
- layer
- sequence
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000013213 extrapolation Methods 0.000 title claims abstract description 31
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 20
- 230000007246 mechanism Effects 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000012360 testing method Methods 0.000 claims abstract description 24
- 238000011176 pooling Methods 0.000 claims description 40
- 230000015654 memory Effects 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 28
- 230000001413 cellular effect Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 abstract description 2
- 239000000523 sample Substances 0.000 description 34
- 230000004913 activation Effects 0.000 description 12
- 230000003287 optical effect Effects 0.000 description 6
- 238000002592 echocardiography Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 239000013068 control sample Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007340 echolocation Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000013277 forecasting method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000178 monomer Substances 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明为基于注意力机制的时空神经网络雷达回波外推预报方法,包括:对雷达回波图像数据去除部分噪声,并选择出有效数据段,对数据段归一化和拆分后,划分为训练序列样本集和测试序列样本集;构建及训练Att‑ConvLSTM网络,对雷达回波序列样本的图像根据预设的切片因子进行切片,调整图像的维度,然后输入到基于注意力机制的时空预测神经网络,通过多层网络的前向传播,利用反向传播更新网络权重;利用训练好的Att‑ConvLSTM网络以及测试序列样本集进行预测,得到最终的外推图像序列。本发明克服了现有技术对空间信息提取不足、预报时效短的缺点,实现了准确度更高的雷达回波外推预测。
Description
技术领域
本发明涉及大气探测中地面气象观测技术领域,特别涉及一种基于注意力机制的时空神经网络的雷达回波外推预报方法。
背景技术
雷达回波外推预报技术是天气临近预报技术中最为基础、最有效的方法之一,高精度雷达回声外推有助于减少极端天气造成的社会损失。雷达回波外推技术是根据已有的历史雷达回波数据,预测未来回波的形状、位置和强度等信息,以实现对天气系统的跟踪预报。传统的雷达回波外推方法主要包括质心追踪法、交叉相关法和光流法。质心追踪法通过计算连续的回波单体质心来确定移动矢量,进而预测未来回波位置。但质心追踪法使用范围局限于回波较强、范围较小的对流天气系统。交叉相关法将回波划分不同的追踪区域,计算相邻时刻区域之间的最优相关系数,进而确定区域间拟合关系以及实现预测。光流法通过计算连续回波的光流场得到运动矢量场,再基于运动矢量实现雷达回波外推。近十年来,光流法逐渐成为我国气象机构业务中最常用的一种雷达回波外推方法。但是光流法的效果受噪声的影响比较大,在存在噪声的情况下,光流法的精度往往比较低。对流天气系统是动态复杂的系统,它具有作非线性运动(如旋转)、运动中有形变(如扩张和缩小)以及生消发展变化快等特征。传统雷达回波外推方法只假设回波简单线性演变,且对历史雷达回波资料利用率不足,无法有效预测回波的旋转变化和生消发展,具有精确度不够高、预报时效短等缺陷。
随着深度学习的不断发展,深度学习模型(尤其是卷积神经网络和递归神经网络)的应用在历史雷达回波图像临近预报的降水方面取得了良好的效果。而目前大多数方法是基于递归单元(例如RNN,LSTM和GRU)来对时间序列进行建模,使用卷积结构来提取局部空间依赖性。还有的方法是使用卷积递归单元串联或级联结构来融合时空特征。然而,雷达回波的累积和消散不仅限于局部空间范围和邻近时间上的关系,它需要考虑到大范围的空间气象变化和较长时间的影响,而上述这些深度学习方法仅侧重于小范围局部区域的空间关联,没有充分研究更大范围区域的空间关联性,不利于长时间的外推演算,导致这些方法的时空表示能力仍然有待提高,以预测精度更高的未来时刻的雷达回波。
发明内容
本发明的目的在于克服现有技术对空间信息提取不足、预报时效短的缺点,提供一种基于注意力机制的时空神经网络雷达回波外推预报方法,实现了准确度更高的雷达回波外推预测。
本发明基于注意力机制的时空神经网络雷达回波外推预报方法,包括以下步骤:
步骤1、数据预处理,对雷达回波图像数据,去除部分噪声,并选择出有效数据段,然后将数据段转换为归一化的灰度数据;基于归一化的数据集,对数据段进行拆分,然后将拆分的数据集划分为训练序列样本集和测试序列样本集;
步骤2、构建及训练Att-ConvLSTM网络,对雷达回波序列样本的图像根据预设的切片因子进行切片,调整图像的维度,然后输入到基于注意力机制的时空预测神经网络,通过多层网络的前向传播,利用反向传播更新网络权重;
步骤3、利用训练好的Att-ConvLSTM网络以及测试序列样本集进行预测,得到最终的外推图像序列。
本发明相对于现有技术具有如下的优点及效果:
1、设计了一种注意力机制来计算雷达图内数值大小的空间相关性,有效地学习图像的全局空间上下文信息,克服了现有方法仅采用卷积提取局部空间信息而对全局空间信息学习能力不足的缺点。
2、提出了一种融合注意方法和卷积长短记忆力神经网络(ConvLSTM)的ST-ConvLSTM网络模块,利用ConvLSTM结构提取粗糙的时空特征信息,然后利用注意力方法对粗糙的时空特征图进行精细化,有效地利用了局部和全局的时空特征,增强了网络对雷达回波数据的时空表达能力。
3、设计了基于注意力机制的卷积长短记忆力神经网络(Att-ConvLSTM),通过使用卷积层对数据通道间的强相关性进行编码,然后堆叠多层ST-ConvLSTM模块,提取数据的精细化的抽象时空信息表示并沿着垂直锯齿型的方向传输,优化了网络的短期记忆力,同时粗糙的时空信息和隐藏状态信息随着时间推移水平传输,保持了良好的长期记忆力,提高雷达回波外推的准确度和时效。
附图说明
图1是本发明的方法流程图;
图2是ST-ConvLSTM网络模块的结构示意图;
图3示意了L=3的Att-ConvLSTM的网络结构图;
图4为本发明对广州天气数据集外推实验结果图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,本发明基于注意力机制的时空神经网络雷达回波外推预报方法,包括以下步骤:
步骤1:数据预处理。对给定的已转换到空间直角坐标系的雷达回波数据,通过阈值法去除部分噪声,并选择出有效数据段,然后将数据段转换为归一化的灰度数据。基于归一化的数据集,通过滑动窗口法对数据段进行拆分,然后采用随机采样方法将拆分的数据集划分为训练序列样本集和测试序列样本集。本实施例中,雷达回波数据分辨率为140×140。
本实施例中,步骤1包括以下步骤:
步骤1-1,去噪。设置雷达回波强度阈值为value_threshold=10dBZ,对每一张雷达回波图进行去噪处理,将图像中小于value_threshold的强度值置为0,大于等于value_threshold的强度值保留。
步骤1-2,选取有效数据。设置数据段样本数量阈值为time_threshold=10,序列有效图像占比阈值为valid_threshold=0.8,对所有经步骤1-1处理的数据进行遍历,若当前累积连续数据样本的数量大于等于time_threshold,且图像区域内雷达回波强度值非全零的图像数量在当前连续序列样本数量的占比大于等于valid_threshold,则划分为一个数据段,即每一个数据段至少包含S个连续样本,并且雷达回波强度值为非全零的样本数量与数据段样本数量比值不少于占用阈值occupy_threshold。每一个数据段均以当前可选取的最大连续样本序列样本数量为准进行划分。本实施例中,S=10,即每一个数据段至少包含10个连续样本;雷达回波强度值为非全零的样本数量至少占数据段的80%,即occupy_threshold=0.8。
步骤1-3,数据转换和归一化。将步骤1-2选取得到的数据data映射到值域为[0,255]的灰度数据gray_data,数据映射公式如下:
并且对映射得到的灰度数据gray_data通过归一化处理得到归一化灰度数据normlized_data,数据归一化公式为:
得到的归一化灰度数据normalized_data的值域为[0,1]。
步骤1-4,数据段拆分。设置滑动窗口大小W,然后对normalized_data的每一个数据段内的连续图像拆分成多个子序列,每一个序列sequence长度等于滑动窗口大小W值,其中,前W/2个数据作为输入序列inputs,后W/2个数据作为外推参照序列ground_truths。记其中一个数据段的样本数量为data_segment,则该数据段可以拆分成data_segment-W+1个序列。其中,序列可以表示为:sequence={inputs,ground_truths},由W张时间连续的雷达回波图组成;其中,input={I1,I2,...,IW/2}为输入序列,由W/2张时间连续的雷达回波图组成,ground_truths={IW/2+1,IW/2+2,...,IW}为外推参照序列,是由输入序列的后W/2张时间连续的雷达回波图组成。本实施例中,滑动窗口大小W取值为20。
步骤1-5,划分训练集和测试集。将步骤1-4得到的所有数据序列样本汇总为序列样本总集total_set,将序列样本总集total_set中各个月份的序列按照比例R随机划分出测试序列样本子集和训练序列样本子集,合并各个月份的测试序列样本子集和训练序列样本子集,得到测试序列样本集test_set和训练序列样本集train_set。本实施例中,比例
步骤2:构建及训练Att-ConvLSTM网络。对雷达回波序列样本的图像根据预设的切片因子参数patch_size进行切片,调整图像的维度,然后输入到基于注意力机制的时空预测神经网络,通过多层网络的前向传播,利用反向传播更新网络权重。
Att-ConvLSTM网络的构建如图3所示。
本实施例中,步骤2包括以下步骤:
步骤2-1,训练参数初始化。即设置输入图像的高度height、宽度width和通道数channel、切片因子patch_size、ST-ConvLSTM模块堆叠层数L(L≥2)、卷积核大小filter_size、卷积核数量hidden_num、步长stride、隐藏层数量、学习率λ、输入序列长度W/2、外推序列长度W/2、训练阶段每次输入的样本数量batch_size、训练最大轮次max_epoch,并初始化网络中的各个卷积核参数和偏差。
本实施例中,输入图像的高度height=140,宽度width=140,通道数channel=1,切片因子patch_size=4,ST-ConvLSTM模块(如图2所示)堆叠层数L=3,卷积核大小filter_size=5,步长stride=1,隐藏层数量hidden_num=64,学习率λ=0.001,输入序列长度input_length=10,外推序列长度output_length=10,训练阶段每次输入的样本数量batch_size=8,训练最大轮次max_epoch=60。
步骤2-2,构建神经网络。首先,构建第1层的卷积层网络init_conv_layer,设置卷积核Winit的尺寸大小为1×1,数量为channel'×hidden_num,步长为1。然后,根据步骤2-1设置的ST-ConvLSTM模块堆叠层数L、卷积核大小filter_size、步长stride、隐藏层数量hidden_num,构建L层ST-ConvLSTM并按顺序依次堆叠在第一层卷积层网络之后。最后,在第L层ST-ConvLSTM后堆叠一层卷积层网络,设置卷积核Wpredict的尺寸大小为1×1,数量为hidden_num×channel',步长为1。
本实施例中,设置卷积核Winit的数量为16×64;构建L=3层ST-ConvLSTM并按顺序依次堆叠在第一层卷积层网络之后,每一层ST-ConvLSTM中除了Attention模块之外的卷积核大小设置为5×5,数量为64×64,步长为1;并将一开始的隐藏态细胞态时空记忆初始化为全零张量,大小为(8,64,35,35),其中k=1,2,3。
步骤2-3,训练样本读取。采用批训练的方式,每次训练时从训练序列样本集train_set中读取batch_size=8个序列样本一同作为网络的输入。
步骤2-4,训练样本切片。对读取到的batch_size个序列样本根据切片因子patch_size,对序列中每一张图像进行切片。将图像的高度和宽度分别除以patch_size得到新的高度和宽度,然后通道数乘以patch_size的平方得到新的通道数,然后根据新的高度、宽度和通道数对图像的维度进行调整,最后将切片后的数据一同作为网络的输入It,其中t=1,2,3,...,W/2。而记原图像的高度、宽度和通道数为三元组(height,width,channel),切片后得到图像的高度、宽度和通道数三元组为(height',width',channel'),该转换过程可由以下式子表示:
channel'=channel×patch_size×patch_size
本实施例中,原图像的高度、宽度和通道数为三元组(140,140,1),切片后得到图像的高度、宽度和通道数三元组为(35,35,16)。
步骤2-5,将It(t=1,2,3,...,W/2)输入初始化网络的第1层卷积网络init_conv_layer,经卷积运算后得到第1层网络的输出Xt,运算公式为:
Xt=Winit*It
其中,*表示卷积运算,卷积核Winit的尺寸为1×1,数量为channel'×hidden_num。
步骤2-6,将当前时刻上一层网络输出的隐藏态和时空记忆上一个时刻同层网络输出的隐藏态和细胞态输入到网络的第k(k=1,2,...,L)层时空卷积长短记忆力网络stconvlstm_layer,经前向传播后得到当前时刻第k层时空卷积长短记忆力网络输出的隐藏态细胞态时空记忆其中,t=1,2,3,...,W/2,k=1,2,...,L,和参数值通过初始化设定。
时空卷积长短记忆力网络stconvlstm_layer模块结构图如图2所示,包括以下步骤:
其中,*表示卷积运算,⊙表示矩阵的点乘运算,tanh表示双曲正切激活函数σ表示Sigmoid函数卷积核 的尺寸均为filter_size×filter_size,数量为hidden_num×hidden_num;表示偏差;ft k表示辅助变量。
步骤2-6-2,第k-1层输出的隐藏态时空记忆和步骤2-6-1更新得到的细胞态进行加法融合得到然后输入到注意力模块。在注意力模块中,首先,对沿着通道轴分别应用平均池化操作和最大池化操作,并将平均池化和最大池化的结果按列拼接,再利用卷积核对拼接结果进行卷积运算,把卷积结果输入到Sigmoid函数中得到注意力权重矩阵然后,将注意力权重矩阵与注意力模块的输入进行点乘运算,再使用1×1的卷积核对进行卷积运算得到时空注意力图,最后与时空记忆进行点乘运算,更新当前的时空记忆,得到运算公式如下:
其中,*表示卷积运算,⊙表示矩阵的点乘运算,[·,·]表示两个矩阵按列拼接并保持行不变;σ表示Sigmoid函数AvgPool(·)表示沿着通道轴的平均池化运算,MaxPool(·)表示沿着通道轴的最大池化运算;卷积核的尺寸为7×7,数量为2×1,卷积核的尺寸为1×1,数量为hidden_num×hidden_num。
其中,*表示卷积运算,⊙表示矩阵的点乘运算,[·,·]表示两个矩阵按列拼接并保持行不变;tanh表示双曲正切激活函数卷积核W1×1的尺寸为1×1,数量为hidden_num×hidden_num,卷积核的尺寸为5×5,数量为hidden_num×hidden_num;表示偏差。
其中,*表示卷积运算,卷积核Wpredict的尺寸为1×1,数量为hidden_num×channel'。
步骤2-8,将步骤2-7输出的预测结果图像还原至原图像尺寸大小,将图像的高度和宽度分别乘以patch_size,通道数除以patch_size的平方,进行维度的调整,得到调整后图像的高度、宽度和通道数为三元组(height,width,channel),完成从输入It到的雷达回波外推。
步骤2-10,计算损失函数值。对步骤2-6至步骤2-9前向传播得到的预测序列 和外推参照序列ground_truths={IW/2+1,IW/2+2,...,IW}计算均方误差作为损失函数。根据损失函数所得数值计算网络参数梯度,并更新网络参数,完成反向传播。
在一个具体的实施例中,上述步骤2-5到步骤2-10可以具体为如下步骤(1)-(13):
步骤(1),I1(t=1)输入初始化网络的第1层卷积网络init_conv_layer,经卷积运算后得到第1层网络的输出X1,运算公式为:
X1=Winit*I1
其中,*表示卷积运算,卷积核Winit的尺寸为1×1,数量为16×64。
步骤(2),X1和一开始初始化的隐藏态细胞态时空记忆输入到网络的第2层时空卷积长短记忆力网络stconvlstm_layer1,经前向传播后输出隐藏态细胞态时空记忆时空卷积长短记忆力网络stconvlstm_layer模块包括以下步骤:
步骤(2-2),X1、时空记忆和步骤(2-1)更新得到的细胞态进行加法融合得到然后输入到注意力模块。在注意力模块中,首先,对沿着通道轴分别应用平均池化操作和最大池化操作,并将平均池化和最大池化的结果按列拼接,再利用卷积核对拼接结果进行卷积运算,把卷积结果输入到Sigmoid函数中得到注意力权重矩阵然后,将注意力权重矩阵与注意力模块的输入进行点乘运算,再使用1×1的卷积核对进行卷积运算得到时空注意力图,最后与时空记忆进行点乘运算,更新当前的时空记忆。运算公式如下:
其中,*表示卷积运算,⊙表示矩阵的点乘运算,[·,·]表示两个矩阵按列拼接并保持行不变;σ表示Sigmoid函数AvgPool(·)表示沿着通道轴的平均池化运算,MaxPool(·)表示沿着通道轴的最大池化运算;卷积核的尺寸为7×7,数量为2×1,卷积核的尺寸为1×1,数量为64×64。
其中,*表示卷积运算,⊙表示矩阵的点乘运算,[·,·]表示两个矩阵按列拼接并保持行不变;tanh表示双曲正切激活函数卷积核W1×1的尺寸为1×1,数量为64×64,卷积核的尺寸为5×5,数量为64×64;表示偏差。
步骤(3),步骤(2)输出的隐藏态和时空记忆输入到网络的第2层时空卷积长短记忆力网络stconvlstm_layer2,经前向传播后得到第2层时空卷积长短记忆力网络输出的隐藏态细胞态时空记忆其包括以下步骤:
步骤(3-2),第1层输出的隐藏态时空记忆和步骤(3-1)更新得到的细胞态进行加法融合得到然后输入到注意力模块。在注意力模块中,首先,对沿着通道轴分别应用平均池化操作和最大池化操作,并将平均池化和最大池化的结果按列拼接,再利用卷积核对拼接结果进行卷积运算,把卷积结果输入到Sigmoid函数中得到注意力权重矩阵然后,将注意力权重矩阵与注意力模块的输入进行点乘运算,再使用1×1的卷积核对进行卷积运算得到时空注意力图,最后与时空记忆进行点乘运算,更新当前的时空记忆。运算公式如下:
其中,*表示卷积运算,⊙表示矩阵的点乘运算,[·,·]表示两个矩阵按列拼接并保持行不变;σ表示Sigmoid函数AvgPool(·)表示沿着通道轴的平均池化运算,MaxPool(·)表示沿着通道轴的最大池化运算;卷积核的尺寸为7×7,数量为2×1,卷积核的尺寸为1×1,数量为64×64。
其中,*表示卷积运算,⊙表示矩阵的点乘运算,[·,·]表示两个矩阵按列拼接并保持行不变;tanh表示双曲正切激活函数卷积核W1×1的尺寸为1×1,数量为64×64,卷积核的尺寸为5×5,数量为64×64;表示偏差。
步骤(4),步骤(3)输出的隐藏态和时空记忆输入到网络的第3层时空卷积长短记忆力网络stconvlstm_layer3,经前向传播后得到第3层时空卷积长短记忆力网络输出的隐藏态细胞态时空记忆其包括以下步骤:
步骤(4-2),第2层输出的隐藏态时空记忆和步骤2-7-1更新得到的细胞态进行加法融合得到然后输入到注意力模块。在注意力模块中,首先,对沿着通道轴分别应用平均池化操作和最大池化操作,并将平均池化和最大池化的结果按列拼接,再利用卷积核对拼接结果进行卷积运算,把卷积结果输入到Sigmoid函数中得到注意力权重矩阵然后,将注意力权重矩阵与注意力模块的输入进行点乘运算,再使用1×1的卷积核对进行卷积运算得到时空注意力图,最后与时空记忆进行点乘运算,更新当前的时空记忆。运算公式如下:
其中,*表示卷积运算,⊙表示矩阵的点乘运算,[·,·]表示两个矩阵按列拼接并保持行不变;σ表示Sigmoid函数AvgPool(·)表示沿着通道轴的平均池化运算,MaxPool(·)表示沿着通道轴的最大池化运算;卷积核的尺寸为7×7,数量为2×1,卷积核的尺寸为1×1,数量为64×64。
其中,*表示卷积运算,⊙表示矩阵的点乘运算,[·,·]表示两个矩阵按列拼接并保持行不变;tanh表示双曲正切激活函数卷积核W1×1的尺寸为1×1,数量为hidden_num×hidden_num,卷积核的尺寸为5×5,数量为hidden_num×hidden_num;表示偏差。
其中,*表示卷积运算,卷积核Wpredict的尺寸为1×1,数量为64×16。
步骤(6),将步骤(5)预测输出的图像还原至原图像尺寸大小,将图像的高度和宽度分别乘以patch_size=4,通道数除以patch_size=4的平方,进行维度的调整,得到调整后图像的高度和宽度的高度、宽度和通道数为三元组(140,140,1),完成从输入I1到的雷达回波外推。
步骤(7),It(t=2,3,...,10)输入初始化网络的第1层卷积网络init_conv_layer,经卷积运算后得到第1层网络的输出Xt,运算公式为:
Xt=Winit*It
其中,*表示卷积运算,卷积核Winit的尺寸为1×1,数量为16×64。
步骤(8-2),Xt、时空记忆和步骤2-12-1更新得到的细胞态进行加法融合得到然后输入到注意力模块。在注意力模块中,首先,对沿着通道轴分别应用平均池化操作和最大池化操作,并将平均池化和最大池化的结果按列拼接,再利用卷积核对拼接结果进行卷积运算,把卷积结果输入到Sigmoid函数中得到注意力权重矩阵然后,将注意力权重矩阵与注意力模块的输入进行点乘运算,再使用1×1的卷积核对进行卷积运算得到时空注意力图,最后与时空记忆进行点乘运算,更新当前的时空记忆。运算公式如下:
其中,*表示卷积运算,⊙表示矩阵的点乘运算,[·,·]表示两个矩阵按列拼接并保持行不变;σ表示Sigmoid函数AvgPool(·)表示沿着通道轴的平均池化运算,MaxPool(·)表示沿着通道轴的最大池化运算;卷积核的尺寸为7×7,数量为2×1,卷积核的尺寸为1×1,数量为64×64。
其中,*表示卷积运算,⊙表示矩阵的点乘运算,[·,·]表示两个矩阵按列拼接并保持行不变;tanh表示双曲正切激活函数卷积核W1×1的尺寸为1×1,数量为64×64,卷积核的尺寸为5×5,数量为64×64;表示偏差。
步骤(9),步骤(8)输出的隐藏态和时空记忆输入到网络的第k(k=2,3)层时空卷积长短记忆力网络stconvlstm_layerk,经前向传播后得到第k层时空卷积长短记忆力网络输出的隐藏态细胞态时空记忆其包括以下步骤:
步骤(9-2),当前t时刻第k-1层输出的隐藏态时空记忆和步骤(9-1)更新得到的细胞态进行加法融合得到然后输入到注意力模块。在注意力模块中,首先,对沿着通道轴分别应用平均池化操作和最大池化操作,并将平均池化和最大池化的结果按列拼接,再利用卷积核对拼接结果进行卷积运算,把卷积结果输入到Sigmoid函数中得到注意力权重矩阵然后,将注意力权重矩阵与注意力模块的输入进行点乘运算,再使用1×1的卷积核对进行卷积运算得到时空注意力图,最后与时空记忆进行点乘运算,更新当前的时空记忆。运算公式如下:
其中,*表示卷积运算,⊙表示矩阵的点乘运算,[·,·]表示两个矩阵按列拼接并保持行不变;σ表示Sigmoid函数AvgPool(·)表示沿着通道轴的平均池化运算,MaxPool(·)表示沿着通道轴的最大池化运算;卷积核的尺寸为7×7,数量为2×1,卷积核的尺寸为1×1,数量为64×64。
其中,*表示卷积运算,⊙表示矩阵的点乘运算,[·,·]表示两个矩阵按列拼接并保持行不变;tanh表示双曲正切激活函数卷积核W1×1的尺寸为1×1,数量为64×64,卷积核的尺寸为5×5,数量为64×64;表示偏差。
其中,*表示卷积运算,卷积核Wpredict的尺寸为1×1,数量为64×16。
步骤(11),将步骤(10)预测输出的图像还原至原图像尺寸大小,将图像的高度和宽度分别乘以patch_size=4,通道数除以patch_size=4的平方,进行维度的调整,得到调整后图像的高度和宽度的高度、宽度和通道数为三元组(140,140,1),完成从输入It到的雷达回波外推。
步骤(12),当t=11,12,...,19时,将前一时刻经过predict_layer预测层输出并已转换为原来尺寸的作为输入Att-ConvLSTM网络的输入,重复执行步骤(7)至步骤(11),直至t=19,依次得到预测未来时刻的图像序列完成雷达回波序列外推。
步骤(13),计算损失函数值。对步骤(12)得到的预测序列和外推参照序列ground_truths={I11,I12,...,I20}计算均方误差作为损失函数。根据损失函数所得数值计算网络参数的梯度,并更新网络参数,进行反向传播。其包括以下步骤:
步骤(13-1),计算损失函数值:
步骤(13-3),更新网络参数,用当前网络学习率λ=0.001乘以步骤2-17-2计算得到的网络参数梯度,得到网络参数的修正项,然后用原网络参数减去对应的修正项,实现网络参数的更新,公式如下:
其中,W'·和b'·表示更新后的网络参数。
步骤2-11,训练集中所有数据都完成一次计算为一轮,重复执行步骤2-3至步骤2-10,直至完成训练最大轮次max_epoch或者达到收敛条件,完成Att-ConvLSTM网络训练。
步骤3:Att-ConvLSTM网络预测。利用步骤2中训练好的Att-ConvLSTM网络,以及步骤1中划分得到的测试序列样本集进行预测。预测时,每次从测试序列样本集test_set中读取1个序列样本数据,按照步骤2-4的变换规则,对样本数据进行切片,然后输入到训练好的Att-ConvLSTM网络中,得到最终的外推图像序列。
本实施例中,步骤3包括以下步骤:
步骤3-1,读取测试集样本并切片。每次从测试序列样本集test_set中读取1个序列样本,按照步骤2-4的切片规则,对测试序列样本中每一张图像进行切片。将图像的高度和宽度分别除以切片因子4得到新的高度和宽度,然后通道数乘以切片因子4的平方得到新的通道数,调整图像的高度、宽度和通道数三元组为(35,35,16)。
步骤3-2,雷达回波图像外推。将步骤3-1切片后的测试序列样本输入到已经训练好的Att-ConvLSTM网络中,经过前向传播,最后得到长度为output_length=10的雷达回波外推图像序列。将该训练好Att-ConvLSTM网络在广州天气数据集上进行验证,得到的外推实验结果如图4所示,验证了发明方法的有效性。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (4)
1.基于注意力机制的时空神经网络雷达回波外推预报方法,其特征在于,包括以下步骤:
步骤1、数据预处理,对雷达回波图像数据,去除部分噪声,并选择出有效数据段,然后将数据段转换为归一化的灰度数据;基于归一化的数据集,对数据段进行拆分,然后将拆分的数据集划分为训练序列样本集和测试序列样本集;
步骤2、构建及训练Att-ConvLSTM网络,对雷达回波序列样本的图像根据预设的切片因子进行切片,调整图像的维度,然后输入到基于注意力机制的时空预测神经网络,通过多层网络的前向传播,利用反向传播更新网络权重;
步骤3、利用训练好的Att-ConvLSTM网络以及测试序列样本集进行预测,得到最终的外推图像序列;
步骤2包括以下步骤:
步骤2-1、训练参数初始化,设置输入图像的高度、宽度、通道数、切片因子、ST-ConvLSTM网络模块堆叠层数L、卷积核大小、卷积核数量、步长、隐藏层数量、学习率λ、输入序列长度W/2、外推序列长度W/2、训练阶段每次输入的样本数量和训练最大轮次,并初始化网络中的各个卷积核参数和偏差;其中,W为步骤1中数据段拆分时设置的滑动窗口大小;
步骤2-2、构建神经网络:首先构建第1层的卷积层网络,设置卷积核Winit的尺寸大小、数量及步长;然后,根据步骤2-1设置的ST-ConvLSTM网络模块堆叠层数L、卷积核大小、步长、隐藏层数量,构建L层ST-ConvLSTM并按顺序依次堆叠在第一层卷积层网络之后;最后,在第L层ST-ConvLSTM后堆叠一层卷积层网络,设置卷积核Wpredict的尺寸大小、数量及步长;
步骤2-3、读取训练样本:采用批训练的方式,每次训练时从训练序列样本集中读取batch_size个序列样本一同作为网络的输入;
步骤2-4、训练样本切片:对读取到的batch_size个序列样本根据切片因子,对序列中每一张图像进行切片;将切片后的数据一同作为网络的输入It,其中t=1,2,3,...,W/2;
步骤2-5、将It输入初始化网络的第1层卷积网络,经卷积运算后得到第1层网络的输出Xt;
步骤2-6、将当前时刻上一层网络输出的隐藏态和时空记忆上一个时刻同层网络输出的隐藏态和细胞态输入到网络的第k层时空卷积长短记忆力网络,经前向传播后得到当前时刻第k层时空卷积长短记忆力网络输出的隐藏态细胞态时空记忆其中k=1,2,...,L, 和参数值通过初始化设定;
步骤2-8、将步骤2-7输出的预测结果图像还原至原图像尺寸大小,将图像的高度和宽度分别乘以切片因子,通道数除以切片因子的平方,进行维度的调整,得到调整后图像的高度、宽度和通道数为三元组,完成从输入It到的雷达回波外推;
2.根据权利要求1所述的时空神经网络雷达回波外推预报方法,其特征在于,步骤1包括以下步骤:
步骤1-1、预处理,设置雷达回波强度阈值,对每一张雷达回波图像数据进行去噪处理,将图像中小于雷达回波强度阈值的强度值置为0,大于等于雷达回波强度阈值的强度值保留;
步骤1-2、选取有效数据段,设置数据段样本数量阈值为time_threshold,序列有效图像占比阈值为valid_threshold,对所有经步骤1-1处理的图像数据进行遍历,若当前累积连续数据样本的数量大于等于time_threshold,且图像区域内雷达回波强度值非全零的图像数量在当前连续序列样本数量的占比大于等于valid_threshold,则划分为一个数据段,即每一个数据段至少包含S个连续样本,并且雷达回波强度值为非全零的样本数量与数据段样本数量比值不少于占用阈值;每一个数据段均以当前可选取的最大连续样本序列样本数量为准进行划分;
步骤1-3、将步骤1-2选取得到的数据段映射到值域为[0,255]的灰度数据,并且对映射得到的灰度数据通过归一化处理得到归一化灰度数据;
步骤1-4、数据段拆分,设置滑动窗口大小W,然后对归一化灰度数据的每一个数据段内的连续图像拆分成多个子序列,每一个序列长度等于滑动窗口大小W值,其中,前W/2个数据作为输入序列,后W/2个数据作为外推参照序列;
步骤1-5、将步骤1-4得到的所有数据序列样本汇总为序列样本总集,将序列样本总集中各个月份的序列按照比例R随机划分出测试序列样本子集和训练序列样本子集,合并各个月份的测试序列样本子集和训练序列样本子集,得到测试序列样本集和训练序列样本集。
3.根据权利要求1所述的时空神经网络雷达回波外推预报方法,其特征在于,步骤2-6包括以下步骤:
步骤2-6-2、第k-1层输出的隐藏态时空记忆和步骤2-6-1更新得到的细胞态进行加法融合得到然后输入到注意力模块;在注意力模块中,首先对沿着通道轴分别应用平均池化操作和最大池化操作,并将平均池化和最大池化的结果按列拼接,再利用卷积核对拼接结果进行卷积运算,把卷积结果输入到Sigmoid函数中得到注意力权重矩阵然后,将注意力权重矩阵与注意力模块的输入进行点乘运算,再使用卷积核对进行卷积运算得到时空注意力图,最后与时空记忆进行点乘运算,更新当前的时空记忆,得到
4.根据权利要求1所述的时空神经网络雷达回波外推预报方法,其特征在于,步骤3包括以下步骤:
步骤3-1、读取测试集样本并切片,每次从测试序列样本集中读取1个序列样本,按照切片规则对测试序列样本中每一张图像进行切片;将图像的高度和宽度分别除以切片因子得到新的高度和宽度,然后通道数乘以切片因子的平方得到新的通道数,调整图像的高度、宽度和通道数三元组;
步骤3-2、雷达回波图像外推,将步骤3-1切片后的测试序列样本输入到已经训练好的Att-ConvLSTM网络中,经过前向传播,最后得到雷达回波外推图像序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011176831.6A CN112446419B (zh) | 2020-10-29 | 2020-10-29 | 基于注意力机制的时空神经网络雷达回波外推预报方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011176831.6A CN112446419B (zh) | 2020-10-29 | 2020-10-29 | 基于注意力机制的时空神经网络雷达回波外推预报方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112446419A CN112446419A (zh) | 2021-03-05 |
CN112446419B true CN112446419B (zh) | 2023-07-11 |
Family
ID=74736355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011176831.6A Active CN112446419B (zh) | 2020-10-29 | 2020-10-29 | 基于注意力机制的时空神经网络雷达回波外推预报方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112446419B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239614A (zh) * | 2021-04-22 | 2021-08-10 | 西北工业大学 | 一种大气湍流相位时空预估算法 |
CN113341419B (zh) * | 2021-05-25 | 2022-11-01 | 成都信息工程大学 | 基于VAN-ConvLSTM的天气外推方法及系统 |
CN113327301B (zh) * | 2021-05-25 | 2023-04-07 | 成都信息工程大学 | 基于深度类比网络在多维度雷达数据下的强对流外推方法及系统 |
CN113657477B (zh) * | 2021-08-10 | 2022-04-08 | 南宁五加五科技有限公司 | 一种短临降水的预报方法、装置及系统 |
CN114139690B (zh) * | 2021-12-09 | 2024-07-26 | 南京邮电大学 | 短临降水预测方法及装置 |
CN114460555B (zh) * | 2022-04-08 | 2022-08-23 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种雷达回波外推方法、装置及存储介质 |
CN115792913B (zh) * | 2022-05-16 | 2023-08-22 | 湖南师范大学 | 一种基于时空网络的雷达回波外推方法及系统 |
CN114997490B (zh) * | 2022-05-30 | 2024-08-27 | 北京环境特性研究所 | 温度廓线预测模型的构建方法、预测方法、装置及设备 |
CN115220133B (zh) * | 2022-07-19 | 2023-05-26 | 海南大学 | 一种多气象要素降雨预测方法、装置、设备及存储介质 |
CN115755227B (zh) * | 2023-01-10 | 2023-04-14 | 南京信大气象科学技术研究院有限公司 | 一种基于深度神经网络模型的三维雷达外推方法 |
CN116011561B (zh) * | 2023-03-28 | 2023-06-30 | 武汉大学 | 基于神经网络的信息外推方法、装置、设备及存储介质 |
CN116106856B (zh) * | 2023-04-13 | 2023-08-18 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 雷暴大风的识别模型建立方法、识别方法及计算设备 |
CN116953653B (zh) * | 2023-09-19 | 2023-12-26 | 成都远望科技有限责任公司 | 一种基于多波段天气雷达组网回波外推方法 |
CN117313823B (zh) * | 2023-11-28 | 2024-04-12 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种卷积循环神经网络混合分布式并行训练方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
CN108427989A (zh) * | 2018-06-12 | 2018-08-21 | 中国人民解放军国防科技大学 | 一种用于雷达回波外推的深度时空预测神经网络训练方法 |
CN109001736A (zh) * | 2018-06-12 | 2018-12-14 | 中国人民解放军国防科技大学 | 一种基于深度时空预测神经网络的雷达回波外推方法 |
CN110335261A (zh) * | 2019-06-28 | 2019-10-15 | 山东科技大学 | 一种基于时空循环注意力机制的ct淋巴结检测系统 |
CN110568442A (zh) * | 2019-10-15 | 2019-12-13 | 中国人民解放军国防科技大学 | 一种基于对抗外推神经网络的雷达回波外推方法 |
-
2020
- 2020-10-29 CN CN202011176831.6A patent/CN112446419B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
CN108427989A (zh) * | 2018-06-12 | 2018-08-21 | 中国人民解放军国防科技大学 | 一种用于雷达回波外推的深度时空预测神经网络训练方法 |
CN109001736A (zh) * | 2018-06-12 | 2018-12-14 | 中国人民解放军国防科技大学 | 一种基于深度时空预测神经网络的雷达回波外推方法 |
CN110335261A (zh) * | 2019-06-28 | 2019-10-15 | 山东科技大学 | 一种基于时空循环注意力机制的ct淋巴结检测系统 |
CN110568442A (zh) * | 2019-10-15 | 2019-12-13 | 中国人民解放军国防科技大学 | 一种基于对抗外推神经网络的雷达回波外推方法 |
Non-Patent Citations (1)
Title |
---|
复杂背景下基于深度学习的视频动作识别;潘陈听;谭晓阳;;计算机与现代化(第07期);第1-4页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112446419A (zh) | 2021-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112446419B (zh) | 基于注意力机制的时空神经网络雷达回波外推预报方法 | |
CN110991311B (zh) | 一种基于密集连接深度网络的目标检测方法 | |
CN113628249B (zh) | 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法 | |
CN110298387A (zh) | 融入像素级attention机制的深度神经网络目标检测方法 | |
CN109001736B (zh) | 一种基于深度时空预测神经网络的雷达回波外推方法 | |
CN111612243A (zh) | 交通速度预测方法、系统及存储介质 | |
CN109029363A (zh) | 一种基于深度学习的目标测距方法 | |
CN112949828A (zh) | 一种基于图学习的图卷积神经网络交通预测方法及系统 | |
CN117665825B (zh) | 一种雷达回波外推预报方法、系统及存储介质 | |
CN115902806A (zh) | 一种基于多模态的雷达回波外推方法 | |
CN115187786A (zh) | 一种基于旋转的CenterNet2目标检测方法 | |
CN117392102A (zh) | 一种改进YOLOv7-tiny的轻量级绝缘子缺陷检测方法 | |
CN116580322A (zh) | 一种地面背景下无人机红外小目标检测方法 | |
CN116152206A (zh) | 一种光伏输出功率预测方法、终端设备及存储介质 | |
CN111292121A (zh) | 一种基于园区画像的园区负荷预测方法及系统 | |
CN114462578A (zh) | 一种提高短临降水预报精度的方法 | |
CN114118508A (zh) | 一种基于时空卷积网络的od市场航空客流量预测方法 | |
CN113947182A (zh) | 基于双阶段堆叠图卷积网络的交通流预测模型构建方法 | |
CN117131991A (zh) | 基于混合神经网络的城市降雨量预测方法及平台 | |
CN117593877A (zh) | 一种基于集成图卷积神经网络的短时交通流预测方法 | |
CN109993282B (zh) | 一种台风波及范围的预测方法 | |
CN115357862B (zh) | 一种狭长空间中的定位方法 | |
CN111104640A (zh) | 一种基于层次分析法的降雨观测评价方法及系统 | |
CN113642676B (zh) | 基于异构气象数据融合的区域电网负荷预测方法和装置 | |
CN113158806A (zh) | 一种基于OTD_Loglogistic的SAR数据海洋目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |