CN115719036A

CN115719036A - 基于堆叠时空记忆单元的时空过程模拟方法及系统

Info

Publication number: CN115719036A
Application number: CN202211377100.7A
Authority: CN
Inventors: 陈泽强; 唐旭; 陈来; 陈能成
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2022-11-04
Filing date: 2022-11-04
Publication date: 2023-02-28

Abstract

本发明提供一种基于堆叠时空记忆单元的时空过程模拟方法，其特征在于，包括：获得时空数据集；初始的时空过程深度学习模型对时空数据集的时空依赖关系进行初步表达，获得第一阶段深度学习模型；对第一阶段深度学习模型进行稳健性策略表达，获得第二阶段深度学习模型；对第二阶段深度学习模型进行参数优化，获得完成一轮训练的时空过程深度学习模型；进行迭代训练，满足预设条件后获得训练好的时空过程深度学习模型；调节完成后获得最终的时空过程深度学习模型。本发明通过堆叠时间记忆单元，使得时空过程深度学习模型具有较强的鲁棒性，具有长期动态建模能力，同时时空记忆流增强了网络对短期动态的建模能力。

Description

基于堆叠时空记忆单元的时空过程模拟方法及系统

技术领域

本发明涉及时空模拟技术领域，尤其涉及一种基于堆叠时空记忆单元的时空过程模拟方法及系统。

背景技术

目前，随着卫星遥感、传感器网络迅速发展，时空数据呈爆炸性增长，并随着以数据驱动的深度学习模型发展，给时空过程分析挖掘带来了巨大机遇，弥补了传统参数模型以及传统机器学习模型可处理数据的能力有限，适合少量数据以及小样本数据的不足。基于深度学习模型的时空模拟预测方法无论在预测精度还是处理大规模数据集上都有明显的优势。大规模文本、图像、图谱、序列、遥感影像和数值等多源大数据分析挖掘静态对象有重要进展，但是如何高效智能分析挖掘动态时空过程仍是科学数据分析挖掘的难题。现有深度学习模型不能直接有效地表达时空过程中时间序列上空间相互关联要素之间的复杂作用关系。

时空过程主要指地理现象在时间进程上的变化与空间范围内的分布特征，例如台风、洪涝和自然疾病的传播在时间和空间上的演变规律。这种规律涉及到地理现象的物理成因和复杂要素的影响，也为时空过程的动态分析挖掘提出了挑战。

现有的深度学习时空过程主要分为三类：基于深度学习的时间序列模拟方法、基于深度学习的空间特征特征预测、结合时空特征的深度学习模拟方法。基于深度学习的时间序列模拟方法如循环神经网络(Recurrent Neural Network,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM)、门控循环单元网络(Gated Recurrent Unit,GRU)和时间卷积网络(Temporal Convolutional Network,TCN)等可以提取出数据中的时序特征，但是在将其应用到时空过程模拟中时却往往忽略了时空序列数据的空间关联。利用深度学习方法进行空间维度学习时，为了挖掘网格时空数据间的空间特征，可以将其建模为一系列图片序列，再用卷积神经网络(Convolutional Neural Network,CNN)、图卷积神经网络(Graph Convolutional Network,GCN)或者残差神经网络(Residual Neural Network,ResNet)等来提取空间特征，但此类模型往往忽略了时空序列数据的时间关联。然而在实际中，空间区域之间的空间相关性往往会随着时间而变化，例如雨季和旱季，在同一降雨强度下产生的径流量差异也比较大，造成洪涝灾害的风险也不一样。因此，在时空过程模拟中，对时间、空间依赖以及两者之间的关系进行特征表达显得尤为重要。

在结合时空特征的深度学习模拟方面，Shi等人在2015年提出将深度学习方法应用于短期降水预报模拟，并提出了结合CNN和LSTM的ConvLSTM，启发了将CNN结构引入时空序列模拟预测中的一系列模型。为了结合卷积和递归结构的优点，Wang等人在2017年提出了一种预测递归神经网络(Predictive Recurrent Neural Network,PredRNN)，并首次将其应用于降水临近预报模拟。Wang认为，时空模拟学习应该在一个统一的记忆池中记住空间的出现和时间的变化，采用新的时空LSTM(Spatiotemporal LSTM,ST-LSTM)单元，它可以同时提取和记忆空间和时间的表示。Lin等人于2020年在自注意力机制的基础上，提出了自注意力记忆机制(Self-Attention Memory,SAM)捕获长期的空间依赖性，同时为了进一步减少参数和计算量作者使用深度可分离卷积来代替标准的卷积操作。

综上所述，大部分模型将时空序列数据视作一系列有时间属性的图片或直接建模为图来学习其空间特征，虽然能够提取到空间特征，但是忽略了时空演化的物理过程。时空过程具有过程高动态、关系高复杂的特点。以洪涝灾害淹没过程为例，淹没范围时刻在变化。淹没过程不仅与前期的淹没情况有关，而且与现时的水文、气象等因素存在着复杂的关系。这些关系包括非线性关系、多关联因素依赖关系、时序依赖关系和空间依赖关系等。现有的深度学习模型不能直接有效表达时空过程中时间序列上空间相互关联要素之间的复杂作用关系，缺乏高精度时空过程分析挖掘模型。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

为解决上述技术问题，本发明提供一种基于堆叠时空记忆单元的时空过程模拟方法，包括：

S1：获取多源大数据，对多源大数据进行预处理，获得时空数据集；

S2：构建初始的时空过程深度学习模型，初始的时空过程深度学习模型对时空数据集的时空依赖关系进行初步表达，获得第一阶段深度学习模型；

S3：对第一阶段深度学习模型进行稳健性策略表达，获得第二阶段深度学习模型；

S4：对第二阶段深度学习模型进行参数优化，获得完成一轮训练的时空过程深度学习模型；

S5：重复步骤S2至S4进行迭代训练，满足预设条件后获得训练好的时空过程深度学习模型；

S6：通过敏感性分析调节训练好的时空过程深度学习模型的敏感性，调节完成后获得最终的时空过程深度学习模型，通过最终的时空过程深度学习模型获得时空过程模拟结果。

优选的，步骤S2具体为：

S21：通过多个时空记忆单元堆叠构成初始的时空过程深度学习模型，初始的时空过程深度学习模型包括n+1个时空记忆列，每个时空记忆列包括L层时空记忆单元；

S22：将时空数据集中的时空数据X_t输入第t时间步的时空记忆列，通过第t-1时间步的l层的隐藏状态

时间记忆状态

和第t时间步的l-1层的空间记忆状态

进行时空依赖关系的初步表达，获得第t时间步的l层的隐藏状态

时间记忆状态

和空间记忆状态

之后令t的值加一；其中，t为时间步的编号，l为时空记忆单元的层编号；

S23：重复步骤S22，完成所有时空记忆列的时空依赖关系的初步表达后，获得第一阶段深度学习模型。

优选的，步骤S22具体为：

S221：通过第t时间步的时空数据X_t、第t-1时间步的l层的隐藏状态

和时间记忆状态

计算获得第t时间步的l层的时间记忆状态

计算公式为：

其中，*表示3D卷积运算，⊙表示Hadamard积，σ表示sigmoid激活函数，tanh表示tanh激活函数，f_t为遗忘门，i_t为输入门、g_t为输入调制门，W_xi为时空数据在输入门中的权重，W_hi为隐藏状态在输入门中的权重，W_xg为时空数据在输入调制门中的权重，W_hg为隐藏状态在输入调制门中的权重，W_xf为时空数据在遗忘门中的权重，W_hf为隐藏状态在遗忘门中的权重；

S222：通过第t时间步的时空数据X_t和第t-1时间步的l层的隐藏状态

以及第t时间步的l层的时间记忆状态

计算获得第t时间步的l层的空间记忆状态

和隐藏状态

计算公式为：

其中，o_t为输出门，i′_t为额外输入门，g′_t为额外输入调制门，o′_t为额外输出门，

为过程中隐藏状态，Z为融合特征，W_xo为时空数据在输出门中的权重，W_ho为隐藏状态在输出门中的权重，W_m；zi为空间记忆状态在额外输入门中的权重，W_m；hi为空间记忆状态对应隐藏状态在额外输出门中的权重，W_m；zg为空间记忆状态在额外输入调制门中的权重，W_m；hg为空间记忆状态对应隐藏状态在额外输入调制门中的权重，W_m；zo为空间记忆状态在额外输出门中的权重，W_m；ho为空间记忆状态对应隐藏状态在额外输出调制门中的权重。

优选的，步骤S3具体为：

通过反采样策略对第一阶段深度学习模型进行稳健性策略表达，获得第二阶段深度学习模型。

优选的，步骤S4具体为：

通过Adam优化器对第二阶段深度学习模型进行参数优化和权重更新，获得完成一轮训练的时空过程深度学习模型。

优选的，步骤S6具体为：

S61：确定训练好的时空过程深度学习模型的输入参数及其样本范围；

S62：通过sample函数生成训练好的时空过程深度学习模型的输入样本；

S63：将输入样本输入analyze模型，获得analyze输出；

S64：对analyze输出运行analyze函数计算获得最优灵敏度指数，将训练好的时空过程深度学习模型的敏感性调节至最优灵敏度指数。

一种基于堆叠时空记忆单元的时空过程模拟系统，包括：

数据获取模块，用于获取多源大数据，对多源大数据进行预处理，获得时空数据集；

第一阶段训练模块，用于构建初始的时空过程深度学习模型，初始的时空过程深度学习模型对时空数据集的时空依赖关系进行初步表达，获得第一阶段深度学习模型；

第二阶段训练模块，用于对第一阶段深度学习模型进行稳健性策略表达，获得第二阶段深度学习模型；

第三阶段训练模块，用于对第二阶段深度学习模型进行参数优化，获得完成一轮训练的时空过程深度学习模型；

迭代训练模块，用于进行迭代训练，满足预设条件后获得训练好的时空过程深度学习模型；

敏感性调节模块，用于通过敏感性分析调节训练好的时空过程深度学习模型的敏感性，调节完成后获得最终的时空过程深度学习模型，通过最终的时空过程深度学习模型获得时空过程模拟结果。

本发明具有以下有益效果：

1、构建了基于堆叠时间记忆单元的时空过程深度学习模型，利用门控机制以及注意力机制建立时空特征在时空记忆流中传递方式，通过对时间、空间记忆解耦，既能考虑长期时间序列的时序依赖，又能利用自注意的特征聚合机制计算成对的相似度分数，将当前和记忆的特征融合在一起，用于记忆具有长期空间和时间依赖性的特征；

2、通过堆叠时间记忆单元，使得时空过程深度学习模型具有较强的鲁棒性，具有长期动态建模能力，同时时空记忆流增强了网络对短期动态的建模能力；

3、时空过程深度学习模型构建所用的数据、方法、特征和知识具有可扩展性，本发明的重点是通过对时间、空间依赖进行特征解耦提取，适用于各类时空过程，原则上对模型使用到的数据、方法、特征和知识没有限制。

附图说明

图1为本发明实施例方法流程图；

图2为多源大数据预处理示意图；

图3为时空过程深度学习模型的结构图；

图4为时空记忆单元的结构图；

图5为多种深度学习方法模拟效果第一对比图；

图6为多种深度学习方法模拟效果第二对比图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，本发明提供一种基于堆叠时空记忆单元的时空过程模拟方法，包括：

具体的，多源大数据选取经典数据集MovingMNIST，该数据集包含10,000个视频序列，每个视频序列由20帧组成；在每个视频序列中，两个数字在框架周围独立移动，该框架的空间分辨率为64×64像素；数字经常相交，并从框架的边缘弹起；对每个时间序列，采用前10帧模拟预测后10帧方式，并划分训练集、测试集和验证集分别用以训练、测试和验证；

时空过程在时间维度和空间维度上具有非平稳性，即以不同的方式显示出一定的异质性；为了保证模型输入数据的稳定性，对多源大数据的预处理过程进行了严格的规范，如图2所示，对多源大数据依次进行去量纲化清洗、归一化、栅格化并统一时序和数据融合，分别对时间、空间缺失值利用插值法进行插值，得到时序一致、空间范围一致的时空数据集；

1)时空依赖关系的表达，针对含有时空信息的数据，需要根据其空间坐标和观测量将每个时刻的观测数据表示为2D(只有一个观测量)或者3D向量(包含多个观测量)，其中空间纬度的索引分别为M、N，观测量索引表示为P；

2)时空插值与采样，为了保证时空过程分析满足所需的时空分辨率，在搜集数据时应尽量满足时空分辨率要求的时空数据；对于不满足要求的时空数据需要在时间和空间两个维度进行插值；其中空间插值的方法包括反距离权重法、克里金插值法、样条函数法等。而对时间进行插值时，同一空间位置的观测量即为一套时序数据，可以通过取前后临近的数据进行插值，也可以根据前后时间距离的远近进行加权平均取平均插值，还可以通过线性插值法进行插值；

3)对数平滑，时空数据在时间维度和空间维度上都具有非平稳性。为了使时空过程深度学习模型能够更好地捕捉到时空数据中的平稳和非平稳特征，在数据输入前，对数据进行了对数平滑，使其非平稳特征尽量减少。

4)归一化，为了使不同来源、不同量纲的数据具有可比性，在数据预处理过程中需要对时空数据进行归一化，使其特征统一到一个大致相同的数值区间内。同时数据归一化可以加速深度学习算法的收敛过程。

5)数据融合，将不同来源的数据进行预处理后，可以将每个时刻的观测数据根据观测量维度进行拼接，得到融合后的时空数据。

本实施例中，时空过程深度学习模型的结构如图3所示，通过堆叠时空记忆单元STA-LSTM Unit(Spatiotemporal Attention Long Short-Term Memory Unit,STA-LSTMUnit)，从输入的时空数据集(X₀,X₁,...,X_n)中学习时间和空间依赖以及其特征表达，时空记忆单元的输入门、输入调制门、遗忘门和输出门不再依赖于同一层上先前时间步的隐藏状态和时间记忆状态，而是依赖于前一层在当前时间步中提供的隐藏状态

时间记忆状态

和空间记忆状态

(l∈1,…,L)；以此递推，各层相应状态在整个时空过程深度学习模型中，整个时空过程深度学习模型的架构以时空记忆流的方式，呈“之”字形方向更新记忆状态，将特征知识高效地从输入传递到输出；时空记忆单元分别对长短期时间、空间依赖进行表达，时空记忆流提供了提供了一条循环高速公路，可以减少从底层到上层的信息丢失，增强了网络对短期动态的建模能力；

步骤S2具体为：

时间记忆状态

和第t时间步的l-1层的空间记忆状态

时间记忆状态

和空间记忆状态

本实施例中，时空记忆单元的结构如图4所示，步骤S22具体为：

和时间记忆状态

计算获得第t时间步的l层的时间记忆状态

计算公式为：

以及第t时间步的l层的时间记忆状态

计算获得第t时间步的l层的空间记忆状态

和隐藏状态

计算公式为：

具体的，在每个时间步中，融合特征Z是Z_h和Z_m的特征融合，Z_m是上一层

查询聚合，通过1×1卷积经过权重W_mk和W_hk映射到键K_m和值V_m，然后，通过查询Q_h和键K_m之间的矩阵乘法计算输入和记忆之间的相似度分数如下公式：

所有用于聚合特征的权重都是通过沿着每一行应用SoftMax函数得到的，函数公式如下：

接着，特征Z_m中第i个位置的“像素”是通过值V_m中所有位置的加权和计算出来的，公式如下，

为记忆第j列：

最后，由此类推可得Z＝W_z[Z_h；Z_m]。

本实施例中，步骤S3具体为：

具体的，反采样策略为一种应用于编码时间步输入帧的学习策略，迫使循环模型从历史观察中学习长期动态，提高长期建模能力；

反采样策略具体为通过对时空数据集对应张量的读取，设置模型参数，包括数据空间分辨率，时间序列长度、隐藏层维度、学习率、采样策略等，读取对应维度，放入到时空过程模拟模型STPNet中进行训练学习。

本实施例中，步骤S4具体为：

具体的，为了适应不同的场景和时空数据集，时空过程深度学习模型能够自动优化其模型的参数和超参数，在优化模型参数时，采用Adaptive Moment Estimation(Adam)优化器来更新权重、优化参数。

本实施例中，步骤S6具体为：

S63：将输入样本输入analyze模型，获得analyze输出；

具体的，在分析时空过程中物理影响因素的敏感性时，采用One-at-a-time(OAT)方法来进行；首先针对输入的物理观测量，依次修改其时间分辨率、空间分辨率、分别取消某一个的物理变量，并分别运行模型；接下来分别查看这些物理过程因素的该表会对模型的输出产生什么影响。通过输入变量的敏感性分析，可以剔除对时空过程深度学习模型的输入没有影响的输入变量，以减小数据收集的难度，降低模型的计算复杂度。

通过精度验证数据集可对最终的时空过程深度学习模型进行时空过程模拟结果的精度验证，记录评价指标为均方误差(MSE)、结构相似性(SSIM)、峰值信噪比(PSNR)、学习感知图像块相似度(LPIPS)。

为了进一步检验本发明的最终的时空过程深度学习模型相对其他常规模型的优势，验证其有效性和性能精准性，选取了多个结合时空特征深度学习模型用以对比。各个模型在同等输入条件下，对比不同模型时空过程模拟效果，验证所提出的时空过程模拟模型相比其他深度学习模型提升程度。

MovingMNIST模拟结果评价指标对比如表1所示，本发明的最终的时空过程深度学习模型STPNet(Spatiotemporal Process Network)在四个指标对应效果上均为最好，均方差相较于ConvLSTM降低了22.14％，较PredRNN降低了13.3％，较MIM降低了7.8％，相较于PredRNN-v2降低了7.3％，KTH Action数据集模拟结果评价指标对比如表2所示，尤其LPIPS相比较ConvLSTM降低了42.4％。两个数据集模拟效果分别如图5、图6，多个指标的提升证明本发明的最终的时空过程深度学习模型的学习效率和特征提取均好于其他模型，具有较高的泛化能力，且多层时空记忆单元间的堆叠联系保证了误差在时间和空间上的反向传播与时空记忆流的有效传递，确保了时空记忆单元对空间关联性延续和保留的动态调整，使得模型在循环神经网络的基础上进一步加强了时空融合能力，具有较高的动态建模和长期建模能力。

表1 MovingMNIST数据集各模型模拟对比结果(测试集)

此外还对KTH Action数据集进行测试验证，KTH数据集是最标准的数据集之一，其中包含六个动作：步行，慢跑，奔跑，拳击、挥手和拍手。为了说明绩效细微差别，每个动作均由25个不同的个体执行，并且每个演员的每个动作都会系统地更改设置。设置变化包括：室外(S1)，带尺度变化的室外(S2)，穿不同的衣服(S3)和室内(S4)。这些变化测试了每种算法识别独立于背景，参与者的外观和参与者规模的动作的能力。对于每个时间序列通过前10帧预测后20帧，用以验证模型对较长期情况模拟。

表2 KTH Action数据集各模型模拟对比结果(测试集)

本发明提供一种基于堆叠时空记忆单元的时空过程模拟系统，包括：

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为标识。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。