CN114580709A

CN114580709A - 基于Transformer的多模态自相关补偿的时序预测方法

Info

Publication number: CN114580709A
Application number: CN202210108867.3A
Authority: CN
Inventors: 李光夏; 蒋云展
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-06-03
Anticipated expiration: 2042-01-28
Also published as: CN114580709B

Abstract

本发明公开了一种基于Transformer的多模态自相关补偿的时序预测方法，包括：获取当前环境中气体的多模态数据；将多模态数据输入至预先训练好的时序预测模型，以使时序预测模型中的特征提取模块对多模态数据中不同模态类型的数据分别进行特征提取；将特征提取后的数据输入至时序预测模型中的数据处理模块，以使数据处理模块对特征提取后的数据进行归一化处理和时序化处理，得到待预测数据；利用Transformer预测模型根据待预测进行预测，得到当前时刻之后预设时间段内的气体浓度。本发明使得时序预测模型在预测时综合考虑多种模态因素，通过引入自相关补偿机制使得时序预测模型可以自适应的消除多模态融合数据中的自相关误差，提高了预测的精度。

Description

基于Transformer的多模态自相关补偿的时序预测方法

技术领域

本发明属于计算机技术领域，具体涉及一种基于Transformer的多模态自相关补偿的时序预测方法。

背景技术

随着硬件设备性能的不断增强，传感器的种类也在不断增多，对多模态数据的处理方法也相应的开始出现。现有的多模态处理算法可以依据融合发生的时间分为前期融合、后期融合两种方式。

前期融合的通常做法是将输入的多模态数据进行不同的特征提取，再利用拼接网络将特征提取后的数据拼接到同一特征空间中。在这之后，特征融合完毕的数据被输入到预测网络中进行后续的时序预测，通过预测模型的训练来同步更新预测模型和特征融合模型。这种方式将联合训练的方式将多模态数据映射到统一特征空间上，使得模型可以同时训练所有数据。但是，这种方法很难将多模态数据特征间的时间对齐，完全依赖融合网络之后的训练网络的自适应调整，随着模态数量的增加，这种融合方式很难获得模态间的交叉相关性。

后期融合又被称为决策层融合或者模型融合，即根据数据模态的不同，使用不同的模型对不同模态预测得出结果后再对这些模型的输出结果进行融合。一般来说，后期融合的方式通常采用任务识别网络，使其根据输入的不同模态占比调整后期结果输出是各个预测网络的权重占比。后期融合的方式解决了不同模态间的时间同步问题，但是其忽视了多个模态间低水平的相互作用，且融合难度大，参数调整费力。

以上特征融合方式已经应用在特征融合的时序融合领域，但是Transformer预测模型注意力机制导致其无法区别不同模态间的时序关系。因此，这些融合网络无法应用在Transformer预测模型中。同时，多种模态的融合将模型间的相关关系引入到整个预测系统中，这会导致前期系统的微小误差会在模型中累积导致最后的预测偏差。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于Transformer的多模态自相关补偿的时序预测方法。本发明要解决的技术问题通过以下技术方案实现：

本发明实施例提供一种基于Transformer的多模态自相关补偿的时序预测方法，包括：

获取当前环境中气体的多模态数据；

将所述多模态数据输入至预先训练好的时序预测模型，以使所述时序预测模型中的特征提取模块对所述多模态数据中不同模态类型的数据分别进行特征提取，得到第一类数据；

将所述第一类数据输入至所述时序预测模型中的数据处理模块，以使所述数据模块对所述第一类数据进行归一化处理和时序化处理，得到第二类数据；

利用Transformer预测模型根据所述第二类数据进行预测，得到当前时刻之后预设时间段内的气体浓度。

在本发明的一个实施例中，所述将所述多模态数据输入至预先训练好的时序预测模型，以使所述时序预测模型中的特征提取模块对所述多模态数据中不同模态类型的数据分别进行特征提取，得到第一类数据的步骤，包括：

将所述多模态数据输入至预先训练好的时序预测模型，以使所述时序预测模型中的特征提取模块在将所述多模态数据根据模态类型划分为视频数据、音频数据、时序数据之后，利用卷积神经网络将所述视频数据的每一帧图像数据转换为一维数据、利用循环神经网络提取所述音频数据的音频特征、利用因果卷积网络提取所述时序数据的周期特征，并使所述特征提取模块利用全连接层将所述一维数据、所述音频特征和所述周期特征映射至特征空间，得到第一类数据。

在本发明的一个实施例中，所述数据处理模块包括归一化网络；

所述归一化网络按照如下公式对所述第一类数据归一化处理；

其中，

x_i为第i个第一类数据，m为第一类数据的维度大小，∈为预设的偏移项，γ和β为归一化网络对归一化后的数据进行拉伸和平移的预设参数。

在本发明的一个实施例中，所述数据处理模块还包括三角定位网络；

所述三角定位网络按照如下公式，确定归一化的第一类数据的时序位置信息：

其中，pos表示待编码的时序位置信息在归一化的第一类数据的相对位置，i表示归一化的第一类数据的维度，d_model表示第二类数据的维度。

在本发明的一个实施例中，所述Transformer预测模型包括：编码器Encoder模型和编码器Decoder模型；

所述利用Transformer预测模型根据所述第二类数据进行预测的步骤，包括：

将所述第二类数据输入Transformer预测模型，使Encoder模型按照预设时间段从所述第二类数据中获得多个局部数据后，确定各个局部数据相对于所述第二类数据的自相关程度的概率分布，并使Decoder模型根据所述自相关程度的概率分布，确定当前时刻之后预设时间段内的气体浓度。

在本发明的一个实施例中，所述时序预测模型采用如下步骤训练得到：

获取训练样本，所述训练样本包括不同时刻下大气环境中的第一气体浓度数据；

将所述训练样本输入待训练时序预测模型，以使所述待训练时序预测模型的特征提取模块在将所述第一气体浓度数据划分为视频数据、音频数据、时序数据之后，利用待训练卷积神经网络将所述视频数据的每一帧图像数据转换为一维数据、利用待训练循环神经网络提取所述音频数据的音频特征、利用待训练因果卷积网络提取所述时序数据的周期特征，并使所述特征提取模块利用全连接层将所述一维数据、所述音频特征和所述周期特征映射至特征空间，得到特征数据；

将所述特征数据输入至所述待训练时序预测模型中的数据处理模块，以使所述数据模块对所述特征数据进行归一化处理和时序化处理，得到预处理后的数据；

将预处理后的数据输入至待训练的Transformer自注意力模型，利用自注意力机制预测所述训练样本在当前时候后预设时间段内的第一气体浓度；

根据所述第一气体浓度、所述第一气体浓度对应的实际气体浓度以及预设损失函数，计算损失值；

判断所述损失值是否达到预设值；若否，则调整所述待训练卷积神经网络、所述待训练循环神经网络、所述因果卷积网络、所述Encoder模型和所述Decoder模型的参数，并返回所述将所述训练样本输入待训练时序预测模型的步骤；若是，则对当前待训练神经网络中的Transformer预测模型进行参数补偿，得到训练完成的时序预测模型。

在本发明的一个实施例中，按照如下公式对当前待训练神经网络中的Transformer预测模型进行参数补偿：

e_t＝X_t-f(X_t-1,…,X_t-w；θ′)

其中，X_t为第一气体浓度数据的时刻t，T为第一气体浓度数据的时序长度，e_t为第一气体浓度数据间的自相关误差，θ为当前待训练神经网络中Transformer预测模型的模型参数，

为补偿参数。

在本发明的一个实施例中，所述预设损失函数为：

其中，p(x_i)表示预测得到的i位置的第一气体浓度，q(x_i)表示i位置的实际气体浓度。

与现有技术相比，本发明的有益效果在于：

本发明提供一种基于Transformer的多模态自相关补偿的时序预测方法，将多模态技术引入Transformer时序预测模型中、并将三角定位网络引入到多模态融合方法中，解决了原有的多模态融合技术在Transformer预测模型中不同模态的时序对齐问题，并且多模态的引入使得Transformer时序预测模型在预测时能够考虑多种模态间的内在联系，从而提高Transformer时序预测模型的预测精度。

另外，本发明还引入了自相关误差的概念，根据Transformer预测模型参数网络和数据同步训练一个自相关误差补偿网络，在模型训练时通过引入自相关误差，解决了多模态数据融合导致的模态间相关性关系导致的模型预测精度下降的问题。

附图说明

图1为本发明实施例提供的基于Transformer的多模态自相关补偿的时序预测方法的一种流程图；

图2为本发明实施例提供的基于Transformer的多模态自相关补偿的时序预测方法的一种示意图；

图3为本发明数据来源示意图基于Transformer的多模态自相关补偿的时序预测方法的零另一种示意图；

图4为本发明实施例提供的基于Transformer的多模态自相关补偿的时序预测方法中参数补偿网络的一种流程图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

图1为本发明实施例提供的基于Transformer的多模态自相关补偿的时序预测方法的一种流程图。本发明实施例提供一种基于Transformer的多模态自相关补偿的时序预测方法，包括：

S1、获取当前环境中气体的多模态数据；

S2、将多模态数据输入至预先训练好的时序预测模型，以使时序预测模型中的特征提取模块对多模态数据中不同模态类型的数据分别进行特征提取，得到第一类数据；

S3、将第一类数据输入至时序预测模型中的数据处理模块，以使数据模块对第一类数据进行归一化处理和时序化处理，得到第二类数据；

S4、利用Transformer预测模型根据第二类数据进行预测，得到当前时刻之后预设时间段内的气体浓度。

可选地，上述步骤S2中，将多模态数据输入至预先训练好的时序预测模型，以使时序预测模型中的特征提取模块对多模态数据中不同模态类型的数据分别进行特征提取，得到第一类数据的步骤，包括：

将多模态数据输入至预先训练好的时序预测模型，以使时序预测模型中的特征提取模块在将多模态数据根据模态类型划分为视频数据、音频数据、时序数据之后，利用卷积神经网络将视频数据的每一帧图像数据转换为一维数据、利用循环神经网络提取所述音频数据的音频特征、利用因果卷积网络提取时序数据的周期特征，并使所述特征提取模块利用全连接层将一维数据、音频特征和周期特征映射至特征空间，得到第一类数据。

图2为本发明实施例提供的基于Transformer的多模态自相关补偿的时序预测方法的一种示意图。示例性地，如图2所示，本实施例中气体的多模态数据可以包括大气环境的监测数据、大气成分的红外光谱图像和当前环境中的音频。将多模态数据输入至预先训练好的时序预测模型后，时序预测模型中的特征提取模块将多模态数据根据模态类型划分为视频数据、音频数据和时序数据。

具体而言，对于视频数据，特征提取模块采用卷积神经网络，如Res50网络进行特征提取；首先将输入的视频数据中的图像帧提取为720*720的图片文件，然后将图片文件转换为32*32的图片大小，再通过一个统一的特征融合网络将图片由32*32二维空间映射到32*1的一维向量空间中，得到一维数据。对于音频数据，特征提取模块中的循环卷积神经网络首先将音频数据切分为2048*1的音频段，之后使用TCN模型来提取音频段中的特征信息，并将音频信息压缩至32*1，得到音频特征。对于时序数据，特征提取模块利用因果卷积网络对输入的时序数据进行特征提取，在保留时序数据周期特征的同时将时序数据压缩至32*1。进一步地，将一维数据、音频特征和周期特征映射至特征空间，得到第一类数据。

需要说明的是，本实施例中的视频数据、音频数据和时序数据可以由用户自行输入，亦可通过摄像头、传感器、麦克风等设备获取，本发明对此不作限定。

可选地，上述步骤S3中，数据处理模块可以包括归一化网络；

归一化网络按照如下公式对第一类数据归一化处理；

其中，

应当理解，完成多模态数据的特征提取之后，对第一类数据进行向量的模的归一化处理，也就是说，将第一类数据的数值限定在0到1之间。

本实施例中，归一化网络可采用BatchNorm的方式实现。具体地，首先按照公式

计算出批量数据的均值，再利用

计算出方差，最后使用

对原始数据x_i进行归一化处理，并根据公式

对归一化的第一类数据进行平移和拉伸变化后输出。在本实施中，m可以设定为128。

可选地，上述数据处理模块还包括三角定位网络；

三角定位网络按照如下公式，确定归一化的第一类数据的时序位置信息：

具体而言，将归一化的第一类数据输入三角定位网络后，三角时序定位网络可以按照如下公式确定归一化的第一类数据的时序位置信息：

可选地，以d_model＝128为例，此时i＝0,1,…,63。借助上述正余弦公式，可以为归一化的第一类数据中每个d_model生成相应的位置向量。

进一步地，对于任意位置的PE_pos+k，可以使用OE_pos表示两者间的相对位置信息：

cos(pos+k)＝cos(pos)cos(k)-sin(pos)sin(k)

sin(pos+k)＝sin(pos)cos(k)+cos(pos)sin(k)

将经过归一化处理和时序化处理的第二类数据输入到Transformer预测模型中。可选地，上述Transformer预测模型包括：编码器Encoder模型和编码器Decoder模型；

利用Transformer预测模型根据第二类数据进行预测的步骤，包括：

将第二类数据输入Transformer预测模型，使Encoder模型按照预设时间段从第二类数据中获得多个局部数据后，确定各个局部数据相对于第二类数据的自相关程度的概率分布，并使Decoder模型根据自相关程度的概率分布，确定当前时刻之后预设时间段内的气体浓度。

本实施例中，时序预测模型可以采用如下步骤训练得到：

获取训练样本，训练样本包括不同时刻下大气环境中的第一气体浓度数据；

将训练样本输入待训练时序预测模型，以使待训练时序预测模型的特征提取模块在将第一气体浓度数据划分为视频数据、音频数据、时序数据之后，利用待训练卷积神经网络将视频数据的每一帧图像数据转换为一维数据、利用待训练循环神经网络提取音频数据的音频特征、利用待训练因果卷积网络提取时序数据的周期特征，并使特征提取模块利用全连接层将一维数据、音频特征和周期特征映射至特征空间，得到特征数据；

将特征数据输入至待训练时序预测模型中的数据处理模块，以使数据模块对特征数据进行归一化处理和时序化处理，得到预处理后的数据；

将预处理后的数据输入至待训练的Transformer自注意力模型，利用自注意力机制预测训练样本在当前时候后预设时间段内的第一气体浓度；

根据第一气体浓度、第一气体浓度对应的实际气体浓度以及预设损失函数，计算损失值；

判断损失值是否达到预设值；若否，则调整待训练卷积神经网络、待训练循环神经网络、因果卷积网络、Encoder模型和Decoder模型的参数，并返回将训练样本输入待训练时序预测模型的步骤；若是，则对当前待训练神经网络中的Transformer预测模型进行参数补偿，得到训练完成的时序预测模型。

可选地，预设损失函数为：

可以理解的是，借由上述训练过程中的归一化处理，对于每个隐层神经元，归一化网络把向非线性函数映射后逐渐向取值区间极限饱和区靠拢的输入分布拉回到比较标准的正态分布，避免出现梯度消失的问题，使得损失函数向最优值靠近的梯度保持在较大的水平，有利于加快模型的收敛速度。

图4为本发明实施例提供的基于Transformer的多模态自相关补偿的时序预测方法中参数补偿网络的一种流程图。在本实施例中，若传感器在极端环境下长时间工作，则采集到的多模态数据会产生误差问题，而由于模态间相互融合，在数据前序位置产生的细微误差会在模型中不断累积。请参见图4，进行自相关误差的补偿时，首先初始化模型参数θ和误差补偿参数ρ，之后对模型进行训练和权重更新，在通常的模型参数更新之外，通过补偿参数ρ的加入并与模型参数θ同步训练使得模型可以观察到更前时刻的数据对预测结果产生的影响，使得模型可以用纠正累积误差带来的精度下降问题。

可选地，按照如下公式对当前待训练神经网络中的Transformer预测模型进行参数补偿：

e_t＝X_t-f(X_t-1,…,X_t-w；θ′)

为补偿参数。

通过上述各实施例可知，本发明的有益效果在于：

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外，本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于Transformer的多模态自相关补偿的时序预测方法，其特征在于，包括：

获取当前环境中气体的多模态数据；

2.根据权利要求1所述的基于Transformer的多模态自相关补偿的时序预测方法，其特征在于，所述将所述多模态数据输入至预先训练好的时序预测模型，以使所述时序预测模型中的特征提取模块对所述多模态数据中不同模态类型的数据分别进行特征提取，得到第一类数据的步骤，包括：

3.根据权利要求1所述的基于Transformer的多模态自相关补偿的时序预测方法，其特征在于，所述数据处理模块包括归一化网络；

其中，

4.根据权利要求3所述的基于Transformer的多模态自相关补偿的时序预测方法，其特征在于，所述数据处理模块还包括三角定位网络；

5.根据权利要求1所述的基于Transformer的多模态自相关补偿的时序预测方法，其特征在于，所述Transformer预测模型包括：编码器Encoder模型和编码器Decoder模型；

6.根据权利要求5所述的基于Transformer的多模态自相关补偿的时序预测方法，其特征在于，所述时序预测模型采用如下步骤训练得到：

7.根据权利要求6所述的基于Transformer的多模态自相关补偿的时序预测方法，其特征在于，按照如下公式对当前待训练神经网络中的Transformer预测模型进行参数补偿：

e_t＝X_t-f(X_t-1,…,X_t-w；θ′)

为补偿参数。

8.根据权利要求7所述的基于Transformer的多模态自相关补偿的时序预测方法，其特征在于，所述预设损失函数为：