CN114332592A

CN114332592A - 一种基于注意力机制的海洋环境数据融合方法及系统

Info

Publication number: CN114332592A
Application number: CN202210236402.6A
Authority: CN
Inventors: 黄磊; 张科; 魏志强; 安辰
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2022-04-12
Anticipated expiration: 2042-03-11
Also published as: CN114332592B

Abstract

本发明属于数据处理技术领域，公开了一种基于注意力机制的海洋环境数据融合方法及系统，该系统包括用于构造时空连续的数据序列的多源数据增强模块和用于输出融合数据的基于注意力机制的多层特征组合神经网络，所述基于注意力机制的多层特征组合神经网络包括初始特征提取层、深层特征交互部分和融合重建层，深层特征交互部分包括N组多层特征组合模块，每个多层特征组合模块包括M个残差单元、特征拼接层、融合卷积层和通道注意力模块，多层特征组合模块通过全局跳跃连接和局部跳跃连接来组合不同层特征中的信息，每个多层特征组合模块的输入为前一个模块的输出。通过本发明融合特征信息、结合注意力机制，突出特征的关键信息。

Description

一种基于注意力机制的海洋环境数据融合方法及系统

技术领域

本发明属于数据处理技术领域，特别涉及一种基于注意力机制的海洋环境数据融合方法及系统。

背景技术

时空连续的海洋环境监测观测数据是认识海洋的基础。通过遥感观测技术可获得准确的海洋观测数据，但是数据较离散，无法满足海洋领域实际应用的需求。如何通过观测数据得到时空连续的海洋监测数据，即海洋环境数据融合方法，是海洋环境监、观测数据利用的关键步骤。

早期的研究者主要采用物理模型驱动方案，这类方法在融合过程中通过对海洋内部复杂过程建立数学物理方程组进行参数化处理，通常可以获得较好的效果。但是模型驱动方案的核心问题是关键物理过程的参数化具有很大的不确定性，且许多参数不容易从第一性原理推导出来。近些年，随着观测技术的提高和观测数据的日益丰富，很多研究者提出数据驱动的方法。数据驱动的方法从数据中自动分析获得规律，并利用规律对未知数据进行预测。尽管这类方法比以前模型驱动方案更灵活，但存在一些固有的限制，例如区域外推、数据存在偏差时会存在风险。在这一方面，深度学习技术有望取得突破。

近几年，深度学习方法在诸多领域均取得了很好的应用，比如计算机视觉，时间序列预测等。研究者将深度卷积神经网络引入到海洋环境数据融合中，取得了一定的效果。目前基于深度学习的海洋环境数据融合方法主要关注于构造更深或更宽的网络上，提取高阶特征，并以端到端的方式学习输入到标签的映射。

需要考虑的是，数据融合有别于目标识别、分类等任务，要求模型不仅要学习输入与标签之间的映射关系，还要在保持整体纹理的基础上增强高频细节，所以模型提取的潜在特征包含的信息越丰富，融合模型的性能越好。上述数据融合任务的特点导致了目前的基于深度学习的海洋环境数据融合方法有以下缺点：1)由于卫星自身的特点和对采样条件的敏感性，观测数据非常稀疏且可能含有噪声，使得模型学习映射困难。2)虽然特征表达能力随着网络深度的增加而增强，但每一层特征的信息量都小于其上层。所以，只依赖更深的网络或深层特征不能更好的完成海洋数据重建任务。3)每一层提取的特征包含关键信息和补充信息，模型没有突出关键信息的作用。

因此，本发明的目的是采用深度学习方法来解决海洋环境数据融合问题，提出了一种基于注意力机制的海洋环境数据融合方法及系统。

发明内容

针对现有技术存在的不足，本发明提供一种基于注意力机制的海洋环境数据融合方法及系统，分别针对以下三个方面进行改进：（1）多源数据增强；（2）多层特征组合；（3）特征显著性，本发明设计了多源数据增强模块、多层特征组合模块并引入了注意力机制，该方法可以构建时空连续的输入数据序列、组合不同层的高阶和低阶特征信息，增加特征的融合信息、结合注意力机制，突出特征的关键信息。

为了解决上述技术问题，本发明采用的技术方案是：

一方面，本发明提供一种基于注意力机制的海洋环境数据融合系统，包括多源数据增强模块和基于注意力机制的多层特征组合神经网络，

所述多源数据增强模块，用于构造时空连续的数据序列，作为基于注意力机制的多层特征组合神经网络的输入；

所述基于注意力机制的多层特征组合神经网络，包括初始特征提取层、深层特征交互部分和融合重建层，所述多源数据增强模块输出的数据序列依次输入初始特征提取层、深层特征交互部分和融合重建层，所述深层特征交互部分包括N组多层特征组合模块，每个多层特征组合模块包括M个残差单元、特征拼接层、融合卷积层和通道注意力模块，多层特征组合模块通过全局跳跃连接和局部跳跃连接来组合不同层特征中的信息，每个多层特征组合模块的输入为前一个模块的输出；

其中，每个残差单元包括基础残差单元和空间注意力模块，基础残差单元输出的残差特征

通过跳跃连接发送至末端，通过对应元素相乘的方式应用空间注意力模块生成的空间注意力权重，得到特征

，特征

与该残差单元的输入

通过残差连接进行对应元素相加后得到该残差单元的输出

，

多层特征组合模块的输入依次经过M个残差单元后得到M个残差特征，所述特征拼接层用于将所有M个残差特征进行拼接，然后输入融合卷积层，提取综合特征

，

所述通道注意力模块的输入为综合特征

，通道注意力模块生成各通道的权重，并通过对应元素相乘的方式应用通道注意力权重，输出通道注意力特征

；

每个多层特征组合模块的末端接受三部分特征进行对应元素相加，分别是初始特征提取层输出的初始特征

、该模块的输入特征

及该模块的通道注意力模块的输出特征

；

所述融合重建层，用于将深层特征交互部分的输出映射为海洋环境融合数据。

优选的是，构造时空连续的数据序列的方法是：将观测数据和最优插值数据相结合，将观测数据的空缺区域填补为最优插值数据，得到空间连续的网格化数据，并利用该空间连续的网格化数据构造定长的时间连续的数据序列，得到多源数据增强数据序列。

优选的是，每个残差单元末端的空间注意力模块依次包括用于减少特征通道数量的卷积层、跨步卷积层、最大池化层、用于扩大感受野的卷积组、用于恢复特征空间尺寸的上采样层、用于恢复通道数量的卷积层，最后由Sigmoid激活函数生成空间注意力权重。

优选的是，所述通道注意力模块通过全局平均池化、卷积运算和上采样层生成各通道的权重。

另一方面，本发明提供一种基于注意力机制的海洋环境数据融合方法，包括以下步骤：

步骤1、构建时空分布连续的海洋环境输入数据序列：将观测数据和最优插值数据相结合，将观测数据的空缺区域填补为最优插值数据，得到空间连续的网格化数据，并利用该空间连续的网格化数据构造定长的时间连续的数据序列，得到多源数据增强数据序列；

步骤2、构建基于注意力机制的多层特征组合神经网络：该神经网络包括初始特征提取层、深层特征交互部分和融合重建层，深层特征交互部分包括N组多层特征组合模块，每个多层特征组合模块包括M个残差单元、特征拼接层、融合卷积层和通道注意力模块，多层特征组合模块通过全局跳跃连接和局部跳跃连接来组合不同层特征中的信息，每个多层特征组合模块的输入为前一个模块的输出；

步骤1得到的海洋环境输入数据序列经过初始特征提取层，得到初始特征

；初始特征

送入深层特征交互部分，初始特征

依次经过M个残差单元后得到M个残差特征，所有残差特征经特征拼接层拼接后得到拼接特征，输入融合卷积层，提取综合特征

，综合特征

输入通道注意力模块，通道注意力模块为不同的通道分配权重，输出特征

；每个多层特征组合模块的末端将接受三部分特征进行对应元素相加，分别为初始特征

、该模块的输入特征

及该模块的通道注意力模块的输出特征

；第N个多层特征组合模块的输出

，即是深层特征交互部分的输出

；

特征

由融合重建层，即最后一层卷积层映射为海洋环境融合数据；

步骤3、损失计算：选择对异常值不敏感的平均绝对值误差函数作为损失函数；

步骤4、训练网络模型逐渐收敛，保存实验准确率最高的网络模型；

步骤5、海洋环境数据输入步骤4训练好的网络模型中，得到海洋环境融合数据。

优选的是，深层特征交互部分的每个残差单元包括基础残差单元和位于末端的空间注意力模块，步骤2中，每个残差单元的运算方式如下：

输入特征依次经过每个残差单元内的基础残差单元，经过基础残差单元的特征为：

其中，

是第n个多层特征组合模块中第m-1个残差单元输出的残差特征，

和

分别为基础残差单元内两层卷积函数，

为第二层卷积层输出的特征，特征

包含三个维度：二维空间信息和一维通道信息；

基础残差单元输出的残差特征

，特征

与该残差单元的输入

通过残差连接进行对应元素相加后得到该残差单元的输出

。

优选的是，步骤2中，基础残差单元的输出特征

通过降尺度以减少模型的参数量：

其中，

是用于降通道的1×1卷积层，

是用于减小特征空间的跨步卷积层和最大池化层。为了进一步扩大感受野，加入卷积组：

其中，

指3个连续的卷积操作，对应于降尺度，

和

分别是用于恢复空间和通道的操作，应用Sigmoid函数激活后生成注意力权重

，通过跳跃连接将注意力权重

应用于基础残差特征

。

优选的是，步骤2中，综合特征

，该特征包含了C个通道的特征图，每个通道特征图的尺寸为H×W，通过对特征的二维空间统计可以获得每个通道的信息统计量

，s的第c个通道的信息统计量可以由以下公式获得：

其中，

是综合特征

第c个通道特征图中(i，j)位置的值，

指全局平均池化函数，为了从信息统计量s中捕获各通道间的依赖，引入了Sigmoid函数：

其中，ReLU(g)和δ(g)分别指ReLU和Sigmoid激活函数，信息统计量s首先输入通道降维率为r的卷积层，该卷积层权重为W _D，被ReLU激活后，低通道信息统计量再由卷积层恢复通道数，该卷积层权重为W _U，最后由Sigmoid激活后生成通道注意力权重，通过对应元素相乘的方式应用通道注意力权重：

其中，w _c和f _c分别指第c通道的注意力权重和特征图，则该通道注意力模块的输出为：

。

与现有技术相比，本发明优点在于：

（1）本发明设计多源数据增强模块，通过对多个来源数据进行时空匹配，构建时空连续的输入数据序列。该数据序列可以为神经网络提供准确、丰富的时空上下文信息，并缓解噪声的影响。

（2）本发明设计多层特征组合模块，丰富更深层次特征的信息，多层特征组合模块通过组合高阶和低阶特征的非局部信息，充分利用层间特征，提高了融合能力。

（3）在多层特征组合模块中引入注意力机制，通过建模特征间的相互依赖关系，自适应地缩放空间和通道特征权重，增强特征中的高频信息。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的多层特征组合神经网络结构图；

图2为本发明的空间注意力模块示意图；

图3为本发明的通道注意力模块示意图；

图4为本发明的方法流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的说明。

针对观测数据稀疏，神经网络学习映射困难问题，设计了多源数据增强模块，用于构造时空连续的数据序列，作为基于注意力机制的多层特征组合神经网络的输入。

针对深层特征信息减少和关键信息不够突出的问题，本发明设计了基于注意力机制的多层特征组合神经网络（Multi-layer Feature Combination Network Based onAttention, FCANet）。

针对网络没有突出层内特征中旋涡、边缘等关键高频信息的问题，本发明引入注意力模块。下面分别介绍本发明的海洋环境数据融合系统的各组成部分及其功能实现。

实施例1

结合图1，本发明基于注意力机制的海洋环境数据融合系统，包括多源数据增强模块和基于注意力机制的多层特征组合神经网络，

一、多源数据增强模块

准确而丰富的时空上下文信息是训练有效模型的关键。由于观测数据时空覆盖率较低，直接将其作为神经网络的输入难以训练出有效的模型。与之相对应，最优插值方式得到的结果是规则的每日网格化数据，但小范围区域精度和分辨率偏低。因此，本发明构造时空连续的数据序列的方法是将观测数据和最优插值数据相结合，为神经网络模型训练构建时空分布连续的输入数据序列。

给定训练观测数据

和最优插值数据

，其中T为训练集时间戳长度。在具体应用时，观测数据包含卫星、浮标、船舶等设备获取的海洋环境观测数据，最优插值数据可直接在开源网站中下载。首先，将观测数据的空缺区域填补为最优插值数据，得到空间连续的数据

。计算过程如下所示：

然后，考虑到空间上某一位置的海洋环境元素数值不仅与空间邻域数值有关，还与该位置前后时间戳的对应数值有关，因此，利用上述空间连续数据X构造定长的时间连续的数据序列。对于时间戳t，构造的数据序列为

，其中d是时间窗口，数据序列总长度为2d+1。观测数据和最优插值数据经过多源数据增强模块可得到训练集

，d是一个超参数，将d设置为5，数据序列总长度为11。

数据融合是一个滚动的过程，在t时刻，多源数据增强模块构造数据序列

，将数据序列输入基于注意力机制的多层特征组合神经网络后可得到融合结果

。相同的，在t+1时刻，数据序列

输入基于注意力机制的多层特征组合神经网络后可得到融合结果

。

本发明的任务是给定时间戳t的数据序列

，由神经网络得到数据融合结果

。

二、基于注意力机制的多层特征组合神经网络

结合图1所示的网络结构，基于注意力机制的多层特征组合神经网络主要包括三部分，分别是初始特征提取层、深层特征交互部分和融合重建层。多源数据增强模块输出的数据序列依次输入初始特征提取层、深层特征交互部分和融合重建层。

1. 初始特征提取层

给定时间戳t的海洋环境输入数据序列

，经过初始特征提取层，即一层卷积层，得到初始特征

：

其中，

表示初始特征提取层的卷积运算。

2. 深层特征交互部分

深层特征交互部分包括N组多层特征组合模块，每个多层特征组合模块包括M个残差单元、特征拼接层、融合卷积层和通道注意力模块，多层特征组合模块通过全局跳跃连接和局部跳跃连接来组合不同层特征中的信息，每个多层特征组合模块的输入为前一个模块的输出；特别地，第一个多层特征组合模块的输入为初始特征

。

（1）残差单元

每个残差单元包括基础残差单元和位于末端的空间注意力模块，输入特征顺序送入M个残差单元，依次经过每个残差单元内的基础残差单元，经过基础残差单元的特征为：

其中，

和

分别为基础残差单元内两层卷积函数，

为第二层卷积层输出的特征。

针对网络没有突出关键空间特征作用的问题，本发明在每个残差单元末端引入空间注意力模块。

特征包含三个维度：二维空间（宽和高）信息和一维通道信息。引入空间注意力模块后，该模块可以建模

残差特征在空间上的重要程度，并赋予相应权重，使残差特征突出重要空间信息。

鉴于海洋环境数据的特点和网络结构，引入的空间注意力模块应考虑以下因素。首先，由于海洋动力学、热力学等因素的影响，海洋环境数据往往具有很强的空间相关性。因此，空间注意力模块需要一个很大的感受野来捕捉这种相关性。其次，由于空间注意力模块插入在每个残差单元的末端，而网络由大量残差单元构成，因此，该模块必须足够轻量化。

如图2所示，每个残差单元末端的空间注意力模块依次包括用于减少特征通道数量的卷积层、跨步卷积层、最大池化层、用于扩大感受野的卷积组、用于恢复特征空间尺寸的上采样层、用于恢复通道数量的卷积层，最后由Sigmoid激活函数生成空间注意力权重。下面以举例方式介绍空间注意力模块处理特征：引入的空间注意力模块从一个1×1卷积层开始，该层减少特征的通道数量，缩减率为e。经过该层卷积后，空间注意力模块的参数量将减少为

。之后，特征将依次送入跨步卷积层和最大池化层，其中最大池化层应用更大的步长（步长为3）和更大的池化窗（7×7）。

其中，

是用于降通道的1×1卷积层，

是用于减小特征空间的跨步卷积层和最大池化层。为了进一步扩大感受野，添加了一个卷积组，即3个连续的卷积层。

其中，

指卷积组操作。对应于上述步骤，使用上采样层来恢复特征的空间尺寸，并添加1×1卷积层恢复通道数量。最后空间注意力权重由Sigmoid激活函数生成。

其中，

和

分别是用于恢复空间和通道的操作，应用Sigmoid函数激活后生成注意力权重，通过跳跃连接发送至末端，通过对应元素相乘的方式应用空间注意力模块生成的空间注意力权重

，得到特征

，特征

与该残差单元的输入

通过残差连接进行对应元素相加后得到该残差单元的输出

。

（2）特征拼接层和融合卷积层

，

其中，

指特征拼接函数，

指拼接后的残差特征，拼接特征

输入到融合卷积层，提取综合特征

。

（3）通道注意力模块

为了最大化发挥注意力机制的作用，通道注意力机制应该与空间注意力机制相结合，所以本发明在多层特征组合模块的末端引入了通道注意力模块。因为空间注意力模块建模了特征的二维空间上的重要程度，通道注意力模块则将突出更有价值的通道特征。该模块的本质是为不同的通道分配权重，如何自适应生成权重是关键步骤。一方面，权重能够反映特征中每个通道的信息量。另一方面，权重能够反映各通道之间的联系。针对上述问题，本发明通过全局平均池化、卷积运算和上采样层生成了各通道的权重；并通过对应元素相乘的方式应用通道注意力权重，输出通道注意力特征。

结合图3所示，通道注意力模块的输入为综合特征

，该特征包含了C个通道的特征图，每个通道特征图的尺寸为H×W。通过对特征的二维空间统计可以获得每个通道的信息统计量

。s的第c个通道的信息统计量可以由以下公式获得：

其中，

是综合特征

第c个通道特征图中(i，j)位置的值，

指全局平均池化函数。为了从信息统计量s中捕获各通道间的依赖，引入了Sigmoid函数：

其中，w _c和f _c分别指第c通道的注意力权重和特征图。则该通道注意力模块的输出为

（4）每个多层特征组合模块的末端接受三部分特征进行对应元素相加，分别是初始特征提取层输出的初始特征

、该模块的输入特征

及该模块的通道注意力模块的输出特征

，第n个多层特征组合模块的输出为：

。

3. 融合重建层

融合重建层，用于将深层特征交互部分的输出映射为海洋环境融合数据。

第N个多层特征组合模块的输出

，即深层特征交互部分的输出

可表示为：

特征

由融合重建层，即最后一层卷积层映射为海洋环境融合数据，由公式表达为：

其中，

，

和

分别表示时刻t的海洋环境融合数据，融合重建层函数和基于注意力机制的多层特征组合神经网络函数。

实施例2

结合图4，一种基于注意力机制的海洋环境数据融合方法，包括以下步骤：

步骤1、构建时空分布连续的海洋环境输入数据序列：将观测数据和最优插值数据相结合，将观测数据的空缺区域填补为最优插值数据，得到空间连续的数据，并利用该空间连续数据构造定长的时间连续的数据序列，得到多源数据增强数据序列；

步骤2、构建基于注意力机制的多层特征组合神经网络：

如图1所示，该神经网络包括初始特征提取层、深层特征交互部分和融合重建层，所述多源数据增强模块输出的数据序列依次输入初始特征提取层、深层特征交互部分和融合重建层，所述深层特征交互部分包括N组多层特征组合模块，每个多层特征组合模块包括M个残差单元、特征拼接层、融合卷积层和通道注意力模块，多层特征组合模块通过全局跳跃连接和局部跳跃连接来组合不同层特征中的信息，每个多层特征组合模块的输入为前一个模块的输出。

步骤21、提取初始特征

。

步骤22、提取深层特征

初始特征

送入深层特征交互部分，初始特征

，综合特征

；每个多层特征组合模块的末端将接受三部分特征进行对应元素相加，分别是初始特征提取层输出的初始特征

、该模块的输入特征

及该模块的通道注意力模块的输出特征

；第N个多层特征组合模块的输出

，即是深层特征交互部分的输出

。

a. 此处需要说明的是，每个残差单元包括基础残差单元和位于末端的空间注意力模块，每个残差单元的运算方式如下：

其中，

和

分别为基础残差单元内两层卷积函数，

为第二层卷积层输出的特征，特征

包含三个维度：二维空间信息和一维通道信息；

基础残差单元输出的残差特征

，特征

与该残差单元的输入

通过残差连接进行对应元素相加后得到该残差单元的输出

。

b. 此处需要说明的是，基础残差单元的输出特征

通过降尺度以减少模型的参数量：

其中，

是用于降通道的1×1卷积层，

其中，

指3个连续的卷积操作，对应于降尺度，

和

，通过跳跃连接将注意力权重

应用于基础残差特征

。

c. 此处还需要说明的是，步骤2中，综合特征

，s的第c个通道的信息统计量可以由以下公式获得：

其中，

是综合特征

第c个通道特征图中(i，j)位置的值，

。

、该模块的输入特征

及该模块的通道注意力模块的输出特征

，第n个多层特征组合模块的输出为：

第N个多层特征组合模块的输出

，即深层特征交互部分的输出

可表示为：

。

步骤23、输出融合数据

特征

其中，

，

和

步骤3、损失计算：选择对异常值不敏感的平均绝对值误差函数作为损失函数。

海洋环境监/观测数据（比如卫星观测的海面高度数据）常常包含噪声（异常值），在损失函数设计时，对异常值是否敏感至关重要。因此，本发明选择对异常值不敏感的平均绝对值误差函数作为损失函数。平均绝对值误差函数计算真实值与预测值之间的平均绝对值之差，以此表示预测值的平均误差。在海洋环境数据融合中，基于注意力机制的多层特征组合神经网络优化的目标是最小化预测值和真实值之间的绝对值，给定一个包含个输入和对应的标签训练集记为

，网络模型所优化的损失函数如下：

其中，

表示基于注意力机制的多层特征组合神经网络的所有可训练参数集合；损失函数采样随机梯度下降算法进行优化。

步骤4、训练网络模型逐渐收敛，保存实验准确率最高的网络模型。

步骤5、海洋环境数据输入步骤4训练好的网络模型中，得到海洋环境融合数据（输出海洋环境数据融合结果

）。

需要说明的是，本发明实施例1与实施例2相通部分内容可相互借鉴，不做重复赘述。

综上所述，本发明在当前基于学习的海洋环境数据融合的方法中，许多方法将最优插值数据作为融合结果的背景场，只将观测数据用于学习映射，这使得模型学习映射困难。对此，构建了多源数据增强模块，该模块通过构建时空连续的数据序列，提供准确、丰富的时空信息。在海洋环境数据融合模型的网络结构设计上，当前的方法主要关注于构造更深或更宽的网络，这导致了深层特征中融合信息减少。本发明设计了多层特征组合模块，通过全局跳跃连接和局部跳跃连接的方式将不同层的特征图组合起来，扩展了数据融合特征的信息，提高了融合能力。此外，在多层特征组合模块中添加注意力机制，自适应地放缩空间和通道特征，最大化发挥关键特征的作用。本发明通过以上三点创新设计，显著提升了海洋环境数据融合的性能。

当然，上述说明并非是对本发明的限制，本发明也并不限于上述举例，本技术领域的普通技术人员，在本发明的实质范围内，做出的变化、改型、添加或替换，都应属于本发明的保护范围。

Claims

1.一种基于注意力机制的海洋环境数据融合系统，其特征在于，包括多源数据增强模块和基于注意力机制的多层特征组合神经网络，所述多源数据增强模块，用于构造时空连续的数据序列，作为基于注意力机制的多层特征组合神经网络的输入；所述基于注意力机制的多层特征组合神经网络，包括初始特征提取层、深层特征交互部分和融合重建层，所述多源数据增强模块输出的数据序列依次输入初始特征提取层、深层特征交互部分和融合重建层，所述深层特征交互部分包括N组多层特征组合模块，每个多层特征组合模块包括M个残差单元、特征拼接层、融合卷积层和通道注意力模块，多层特征组合模块通过全局跳跃连接和局部跳跃连接来组合不同层特征中的信息，每个多层特征组合模块的输入为前一个模块的输出；