CN114580710B

CN114580710B - 基于Transformer时序预测的环境监测方法

Info

Publication number: CN114580710B
Application number: CN202210109339.XA
Authority: CN
Inventors: 李光夏; 蒋云展
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2024-04-30
Anticipated expiration: 2042-01-28
Also published as: CN114580710A

Abstract

本发明公开了一种基于Transformer时序预测的环境监测方法，该方法包括：获取当前环境中的气体浓度数据，气体浓度数据包括时间序列信息；将气体浓度数据输入至预先训练好的时序预测模型，以使时序预测模型中的第一子网络对气体浓度数据进行预处理得到全局数据；使编码器Encoder模型按照预设时间段从全局数据中获得多个局部数据，并确定各个局部数据相对于全局数据的自相关程度的概率分布；使译码器Decoder模型根据自相关程度的概率分布，确定当前时刻之后的预设时间段内待检测环境中的气体浓度。本发明改进了Transformer训练模型，引入了Bert的预训练模式，大大节约了模型的训练时间，同时采用扩张注意力机制缩减了模型的内存开销。

Description

基于Transformer时序预测的环境监测方法

技术领域

本发明属于环境监测技术领域，具体涉及一种基于Transformer时序预测的环境监测方法。

背景技术

在环境监测领域中，气体浓度数据具有时间跨度大、周期性强的特点。目前，对环境中的气体浓度数据进行时间序列预测时，所采用的方法通常可分为三类，即：自回归模型、机器学习方法和神经网络方法。

然而，相关技术中基于自回归的ARIMA模型只能捕捉线性关系、不能捕捉非线性关系，一旦待预测的气体浓度数据为非线性，就需要耗费海量资源。对于机器学习方法，虽然时间序列数据预测的过程本质上与机器学习方法分类中的回归分析之间存在着紧密的联系，但随着数据周期的增长，传统的神经网络模型会出现数据的距离依赖问题，即数据早期的特征无法对模型产生应有的影响。而对于神经网络的方法，基于Encoder-Decoder的Transformer时间序列预测模型得到了广泛地应用，但是，在该模型的训练过程中，随着模型深度和数据长度的增加，需要消耗大量的内存空间及计算资源。

可见，在面临环境监测中的长时序数据时，相关技术中不仅存在距离依赖问题，计算资源大量消耗和模型训练速度的问题也成为上述方法实际应用的阻碍。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于Transformer时序预测的环境监测方法。本发明要解决的技术问题通过以下技术方案实现：

本发明提供了一种基于Transformer时序预测的环境监测方法，包括：

获取当前环境中的气体浓度数据，所述气体浓度数据包括时间序列信息；

将所述气体浓度数据输入至预先训练好的时序预测模型，以使所述时序预测模型中的第一子网络对所述气体浓度数据进行预处理，得到全局数据；

使编码器Encoder模型按照预设时间段从所述全局数据中获得多个局部数据，并确定各个局部数据相对于所述全局数据的自相关程度的概率分布；

使译码器Decoder模型根据所述自相关程度的概率分布，确定当前时刻之后的预设时间段内待检测环境中的气体浓度。

在本发明的一个实施例中，所述第一子网络包括因果卷积网络和三角时序定位网络；

所述将所述气体浓度数据输入至预先训练好的时序预测模型，以使所述时序预测模型中的第一子网络对所述气体浓度数据进行预处理，得到全局数据的步骤，包括：

将所述当前环境中的气体浓度数据输入至所述因果卷积网络，以使所述因果卷积网络对所述气体浓度数据进行压缩，得到压缩数据；所述压缩数据包含所述气体浓度数据的周期特征；

将所述压缩数据输入至所述三角时序定位网络，以使所述三角时序定位网络确定压缩数据的时序位置信息，得到全局数据。

在本发明的一个实施例中，所述使编码器Encoder模型按照预设时间段从所述全局数据中获得多个局部数据，并确定各个局部数据相对于所述全局数据的自相关程度的概率分布的步骤，包括：

使Encoder模型将所述全局数据按照预设时间段划分为多个局部数据，并针对每个局部数据，根据其时序位置信息对全局数据进行掩码操作；

按照如下公式确定所述全局数据中，与各个局部数据计算自相关程度的数据单元所在的位置：

其中，表示Encoder模型中第K层的第l个数据单元，/> 表示与/>进行自相关程度计算的第K-1层中数据单元的位置；

根据所述数据单元的位置，分别确定各个局部数据与其在全局数据中对应的数据单元之间的自相关程度；

根据所述自相关程度，确定各所述局部数据相对于所述全局数据的自相关程度的概率分布。

在本发明的一个实施例中，所述使译码器Decoder模型根据所述自相关程度的概率分布，确定下一时刻待检测环境中的气体浓度的步骤，包括：

将各局部数据相对于所述全局数据的自相关程度的概率分布输入至所述Decoder模型，以使所述Decoder模型在将下一时刻转化为时序位置信息后，根据各局部数据相对于所述全局数据的自相关程度的概率分布，利用交叉注意力机制预测当前时刻之后的预设时间段内待检测环境中的气体浓度。

在本发明的一个实施例中，所述时序预测模型采用以下步骤训练得到：

获取训练样本，所述训练样本包括不同时刻下大气环境中的气体浓度；

将训练样本输入至待训练的Transformer自注意力模型，利用自注意力机制预测所述训练样本在下一时刻的第一气体浓度；

根据所述第一气体浓度、下一时刻的实际气体浓度以及预设的损失函数，计算损失值；

判断所述损失函值是否达到预阈值；若否，则调整所述待训练的Transformer自注意力模型中因果卷积网络、Encoder模型和Decoder模型的参数，并返回所述将训练样本输入至待训练的Transformer自注意力模型的步骤；若是，则获得训练完成的时序预测模型。

在本发明的一个实施例中，所述预设的损失函数为：

其中，p(x_i)表示预测得到的时序位置为i的气体浓度，q(x_i)表示时序位置为i的实际气体浓度。

在本发明的一个实施例中，所述三角时序定位网络按照如下公式确定所述压缩数据的时序位置信息：

其中，pos表示待编码的时序位置信息在所述时间序列信息中的相对位置，i表示时间序列向量的维度，d_model表示Encoder模型中全局数据的维度。

与现有技术相比，本发明的有益效果在于：

在本发明提供的基于Transformer时序预测的环境监测方法中，Transformer作为一种全新的架构利用注意力机制来处理当前环境中的气体浓度数据，由于Transformer允许模型访问输入数据的任意位置，更适合掌握具有长期依赖关系的重复出现的模式，进而解决距离依赖问题。

此外，本发明将气体浓度数据输入至预先训练好的时序预测模型后，时序预测模型中的第一子网络先对气体浓度数据进行预处理，得到全局数据，其中，第一子网络包括因果卷积网络；因果卷积网络能够在压缩气体浓度数据长度的同时保留其周期特征，解决了现有技术中Transformer时间序列预测模型模型庞大、算力需求高的问题。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于Transformer时序预测的环境监测方法的一种实施示例；

图2是本发明实施例提供的时序预测模型的一种结构示意图；

图3是本发明实施例提供的的因果卷积网络的一种结构示意图；

图4是本发明实施例提供的三角定位网络的结果示意图；

图5是本发明实施例提供的扩张注意力机制的原理示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

图1是本发明提供的基于Transformer时序预测的环境监测方法的一种实施示例。请参见图1，本发明实施例提供一种基于Transformer时序预测的环境监测方法，包括：

S1、获取当前环境中的气体浓度数据，气体浓度数据包括时间序列信息；

S2、将气体浓度数据输入至预先训练好的时序预测模型，以使时序预测模型中的第一子网络对气体浓度数据进行预处理，得到全局数据；

S3、使编码器Encoder模型按照预设时间段从全局数据中获得多个局部数据，并确定各个局部数据相对于全局数据的自相关程度的概率分布；

S4、使译码器Decoder模型根据自相关程度的概率分布，确定当前时刻之后的预设时间段内待检测环境中的气体浓度。

图2是本发明实施例提供的时序预测模型的一种结构示意图。具体而言，请参见图2，本实施例中时序预测模型包括第一子网络和Transformer预测模型，其中，Transformer预测模型可采用注意力机制搭建：

其中，Q表示局部数据的数值，K表示全局数据中的查询标签，V表示全局数据中和选中的局部数据相似程度较高的数据对应的值，d_k表示全局的维度，通过softmax层将当前计算的的局部数据映射为该位置相对于全局数据的概率分布。

进一步地，Transformer预测模型包括编码器Encoder模型和译码器Decoder模型，编码器Encoder模型将输入的气体浓度数据(x1,...,xn)映射到带有概率分布的序列的连续表示z＝(z1,...,zn)，对于给定的z，Decoder模型生成一个输出预测结果(y1,...,ym)，一次一个元素。该过程中Encoder和Decoder中的数据都是全局可见的，在生成下一个时使用先前生成的符号作为附加输入。

可选地，Encoder模型由N＝6个相同的层组成，每层有两个子层，分别是是自注意机制和全连接层，其中，全连接层可以将Encoder模型中的所有子层映射为一个维度是512的输出。

Decoder模型由N＝6个相同的层组成，除了每个编码器层中的两个子层之外，解码器还插入了第三个子层，该子层对编码器堆栈的输出执行交叉注意力。交叉注意力使得Decoder模型的输入全局数据变为Encoder输出的带有概率分布的时序数据。由于本实施例调整了Decoder模型中的自注意力子层，能够防止关注后续位置，这种掩码与输出嵌入偏移一个位置的事实相结合，确保对时序位置i的预测只能依赖于时序位置位置小于i的已知输出。

可选的，第一子网络包括因果卷积网络和三角时序定位网络；

上述步骤S2中，将气体浓度数据输入至预先训练好的时序预测模型，以使时序预测模型中的第一子网络对气体浓度数据进行预处理，得到全局数据的步骤，包括：

将当前环境中的气体浓度数据输入至因果卷积网络，以使因果卷积网络对气体浓度数据进行压缩，得到压缩数据；压缩数据包含气体浓度数据的周期特征；

将压缩数据输入至三角时序定位网络，以使三角时序定位网络确定压缩数据的时序位置信息，得到全局数据。

图3是本发明实施例提供的的因果卷积网络的一种结构示意图。具体来说，如图3所示，将当前环境中的气体浓度数据输入至第一子网络后，因果卷积网络对气体浓度数据不符合因果卷积网络的维度要求的部分进行padding处理，例如：可以通过填充0的方式补齐数据；然后，按照如下公式确定待卷积单元进行选择性的卷积操作：

公式主要抽象为，根据x1......xt来预测p(x)，使得p(x)接近于实际值。

应当理解，因果卷积网络可以确保当前的位置永远不会访问到未来的信息，本实施例通过引入因果卷积网络使Transformer预测模型可以更好地了解气体浓度数据的周期性特征。因此，Transformer预测模型可以依据上下文中时间段的信息来计算相似程度而不是逐点计算，这种方式在保留了数据的周期性特征的同时缩减了数据长度，有利于减少Transformer的计算开销。

获得压缩数据之后，将压缩数据输入至三角时序定位网络，以使三角时序定位网络按照如下公式确定压缩数据的时序位置信息：

其中，pos表示待编码的时序位置信息在所述时间序列信息中的相对位置，i表示时间序列向量的维度，d_model表示Encoder中全局数据的向量维度。示例性地，当d_model＝128时，此时i＝0,1,…,63。

显然，通过上述正余弦公式，本实施例可以为压缩数据中每个d_model生成相应的时序位置信息。

进一步地，对于任意位置的PE_pos+k，本实施例利用三角函数的性质即可以使用PE_pos表示两者间的相对位置信息：

cos(pos+k)＝cos(pos)cos(k)-sin(pos)sin(k)

sin(pos+k)＝sin(pos)cos(k)+cos(pos)sin(k)

对于三角定位函数而言，三角定位网络的引入使得模型可以在时序数据上添加一维时序位置信息，有利于提高Encoder模型的预测精度。

可选地，上述步骤S3中，使编码器Encoder模型按照预设时间段从全局数据中获得多个局部数据，并确定各个局部数据相对于全局数据的自相关程度的概率分布的步骤，包括：

使Encoder模型将全局数据按照预设时间段划分为多个局部数据，并针对每个局部数据，根据其时序位置信息对全局数据进行掩码操作；

按照如下公式确定全局数据中，与各个局部数据计算自相关程度的数据单元所在的位置：

根据数据单元的位置，分别确定各个局部数据与其在全局数据中对应的数据单元之间的自相关程度；

根据自相关程度，确定各局部数据相对于全局数据的自相关程度的概率分布。

具体来说，为了使Encoder模型不能获取到未来的信息，本实施例中针对每个局部数据，根据其时序位置信息对全局数据进行掩码操作；也就是说，对于一个局部数据，Encoder模型在t时刻的输出应该只能依赖于t时刻之前的输出，而不能依赖t时刻之后的输出。因此，本实施例将t时刻之后的全局数据进行隐藏处理。示例性地，产生一个上三角矩阵，矩阵中主对角线以上的值均为1、主对角线和主对角线以下的值都是0，将该矩阵作用在每一个输入的气体浓度数据上即可完成掩码操作。

需要说明的是，掩码操作通过对全局数据的覆盖避免了Transformer预测模型对时间顺序问题的忽视，贴近实际的应用场景，有利于时序预测模型的预测精度。

进一步地，将掩码操作后的全局数据输入到扩张注意力机制中，按照如下公式确定全局数据中，与各个局部数据计算自相关程度的数据单元所在的位置：

而后根据数据单元的位置，分别确定各个局部数据与其在全局数据中对应的数据单元之间的自相关程度，并根据自相关程度，确定各局部数据相对于全局数据的自相关程度的概率分布。

本实施例中，扩张自注意力机制使得encoder模型中每一层的每个单元只需要计算O(log L)次点积，通过堆叠O(log L)层，Encoder模型就能够访问每个单元的信息。因此，内存使用的总成本仅为O(L(log L)2)，大大节省了模型的开销。

可选地，上述步骤S4中，使译码器Decoder模型根据自相关程度的概率分布，确定下一时刻待检测环境中的气体浓度的步骤，包括：

将各局部数据相对于全局数据的自相关程度的概率分布输入至Decoder模型，以使Decoder模型在将下一时刻转化为时序位置信息后，根据各局部数据相对于全局数据的自相关程度的概率分布，利用交叉注意力机制预测当前时刻之后的预设时间段内待检测环境中的气体浓度。

可选地，时序预测模型采用以下步骤训练得到：

获取训练样本，训练样本包括不同时刻下大气环境中的气体浓度；

将训练样本输入至待训练的Transformer自注意力模型，利用自注意力机制预测训练样本在下一时刻的第一气体浓度；

根据第一气体浓度、下一时刻的实际气体浓度以及预设的损失函数，计算损失值；

判断损失函值是否达到预阈值；若否，则调整待训练的Transformer自注意力模型中因果卷积网络、Encoder模型和Decoder模型的参数，并返回上述将训练样本输入至待训练的Transformer自注意力模型的步骤；若是，则获得训练完成的时序预测模型。

本实施例中，预设的损失函数可以为：

通过上述各实施例可知，本发明的有益效果在于：

在本发明提供的基于Transformer时序预测的环境监测方法中，Transformer作为一种全新的架构利用注意力机制来处理当前环境中的气体浓度数据，由于Transformer允许模型访问历史的任何部分，更适合掌握具有长期依赖关系的重复出现的模式，进而解决距离依赖问题。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外，本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于Transformer时序预测的环境监测方法，其特征在于，包括：

使译码器Decoder模型根据所述自相关程度的概率分布，确定当前时刻之后的预设时间段内待检测环境中的气体浓度；

所述第一子网络包括因果卷积网络和三角时序定位网络；

将所述压缩数据输入至所述三角时序定位网络，以使所述三角时序定位网络确定压缩数据的时序位置信息，得到全局数据；

所述使编码器Encoder模型按照预设时间段从所述全局数据中获得多个局部数据，并确定各个局部数据相对于所述全局数据的自相关程度的概率分布的步骤，包括：

2.根据权利要求1所述的基于Transformer时序预测的环境监测方法，其特征在于，所述使译码器Decoder模型根据所述自相关程度的概率分布，确定当前时刻之后的预设时间段内待检测环境中的气体浓度的步骤，包括：

3.根据权利要求1所述的基于Transformer时序预测的环境监测方法，其特征在于，所述时序预测模型采用以下步骤训练得到：

判断所述损失值是否达到预阈值；若否，则调整所述待训练的Transformer自注意力模型中因果卷积网络、Encoder模型和Decoder模型的参数，并返回所述将训练样本输入至待训练的Transformer自注意力模型的步骤；若是，则获得训练完成的时序预测模型。

4.根据权利要求3所述的基于Transformer时序预测的环境监测方法，其特征在于，所述预设的损失函数为：

其中，p(x_i)表示预测得到的时序位置为i的气体浓度，q(x_i)表示时序位置为的实际气体浓度。

5.根据权利要求1所述的基于Transformer时序预测的环境监测方法，其特征在于，所述三角时序定位网络按照如下公式确定所述压缩数据的时序位置信息：