CN112163461A

CN112163461A - 一种基于多模态融合的水下目标识别方法

Info

Publication number: CN112163461A
Application number: CN202010931223.5A
Authority: CN
Inventors: 殷波; 魏志强; 贾东宁
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2021-01-01
Anticipated expiration: 2040-09-07
Also published as: CN112163461B

Abstract

本发明公开了一种基于多模态融合的水下目标识别方法，包括如下步骤：(1)数据采集，声呐信号数据采集和海洋环境数据采集；(2)数据融合与谱图提取，将海洋环境数据进行融合得到一维数据，由声呐信号提取Lofar谱图；(3)模型搭建，构建基于卷积神经网络的多模态融合模型，其中海洋环境数据使用一维卷积神经网络，Lofar谱图使用二维卷积神经网络；(4)目标识别，将采集到的数据输入到对应的网络中进行训练与测试，得到水下目标识别结果。本发明所公开的方法引入了海洋环境数据，结合Lofar谱图，进行多模态融合，两者结合能够为水相目标识别提供更准确更丰富的特征信息。

Description

一种基于多模态融合的水下目标识别方法

技术领域

本发明涉及海洋探测技术领域，特别涉及一种基于多模态融合的水下目标识别方法。

背景技术

21世纪是海洋世纪，人类将全面认识海洋、开发和利用海洋。现代科学技术的发展使人类进入了大规模开发利用海洋的时期，但是海洋环境极其复杂，海洋世界里充满未知和危险，人类在海洋中并不能像在陆地上一样来去自如。因此，我们需要利用各种技术对海洋加深认知。水下无人航行器是一种能够代替人类在海洋工作的小型潜航器，它不仅能够进行水下研究，还具有及其重要的战略意义。为此，水下航行器需要具备完善的水下潜航系统，能够对水下目标进行快速准确的识别。

水下目标识别是当今国内外海洋技术发展的重点和难点。目前，水下目标识别主要是利用被动声呐接收的海洋目标辐射噪声，分析声源属性，提取目标的固有属性，识别水下目标。一直以来，各国被动声呐系统主要利用练有素的声呐员来识别目标，但声呐员判断的准确性受到声呐员自身的经验、身体状况、心理因素等影响较大。因此，各国一直致力于发展被动声呐系统的水下目标自动识别技术，协助并最终代替声呐员完成繁重的识别任务。

早期的水下目标识别技术，目标判断主要依据目标噪声或回波的波形音调、节奏分布特进行识别。随着研究技术和设备的发展，目标识别技术广泛引入了信号处理技术，仪器设备研制和测量水平得到大幅提升，这为水下目标特征量提取和数据收集提供了便利条件。与此同时，传统机器学习方法如支持向量机等逐渐被应用于水下目标识别，但是在处理大量数据时显得尤为困难。大数据时代的到来使得深度学习方法在水下目标识别领域获得了广泛应用，相比于传统的识别技术，采用深度学习算法能够取得更高的识别精度，在水下目标识别的应用中具有更大的研究价值。

目前，水下目标识别的方法主要有三类，分别是原始噪声分析、时频特征和声呐图像。各种方法均能够在一定程度上实现水下目标识别，但由于特征性质单一，识别手段单一等导致其泛化能力不足，不能够完全准确识别。具体缺陷通常来说表现在以下：

(1)实际海洋中存在环境噪声、不同类型声源、多个干扰源等复杂情况，导致声呐采集的信号干扰严重，噪声多，从而不能准确判断水下目标。

(2)时频特征提取原理简单，易于实现，但需要先验知识来设定其中的参数，而固定的参数会使这类特征在复杂海洋环境条件下的识别泛化性较弱。

基于目前现有技术存在的问题，本发明设计了一种基于多模态融合的水下目标识别方法。本发明方法采用基于卷积神经网络的深度学习框架，其输入数据包括Lofar谱图和海洋环境数据，本发明方法共进行了两次多模态数据融合，首先在数据预处理阶段将海洋环境这种多模态数据进行融合，然后在深度学习模型中使用多模态融合算法将多模态特征进行融合，最后输出识别结果。Lofar谱图通过对连续的采样数据作短时傅里叶变换而构成信号表达的三维立体图,可反映信号的非平稳性特征，在水下目标识别中得到了广泛的应用。此外，模型还引入了海洋环境信息，海洋信息包括数据采集点的经纬度、深度、温度和时间，使用串联融合的方法将这些信息融合为一维数据。因为不同的水下目标往往只出现在特定的海域和深度，引入海洋环境信息将会为模型提供更多的特征。

发明内容

为解决上述技术问题，本发明提供了一种基于多模态融合的水下目标识别方法，引入了海洋环境数据，结合Lofar谱图，进行多模态融合，两者结合能够为水相目标识别提供更准确更丰富的特征信息。

为达到上述目的，本发明的技术方案如下：

一种基于多模态融合的水下目标识别方法，包括如下步骤：

(1)数据采集，声呐信号采集和海洋环境数据采集；

(2)数据融合与谱图提取，将海洋环境数据进行融合得到一维数据，由声呐信号提取Lofar谱图；

(3)模型搭建，构建基于卷积神经网络的多模态融合模型，其中海洋环境数据使用一维卷积神经网络，Lofar谱图使用二维卷积神经网络；

(4)目标识别，将采集到的声呐信号和海洋环境数据输入到对应的网络中进行训练与测试，得到水下目标识别结果。

上述方案中，步骤(2)中，对海洋环境数据进行融合的方法如下：

1)将字符数据转换成整型数据；

2)数值拆解，如果数据为小数则拆成两个十进制整型数；

3)扩张数据，使得每个数据占据64个字符长度；

4)归一化处理，使用均值归一化操作，如公式(1)所示：

其中，x代表原始数据，函数max、min和mean分别为对原始数据取最大值、最小值和均值，最终得出归一化数据x'；

5)串联融合，将归一化后的不同模态数据直接串联成一条数据，如公式(2)所示：

f(x)＝concat([local,temp,depth,time]) (2)

其中，local、temp、depth和time分别为对应采样点的经纬度、温度、深度和时间信息，经过concat串联函数实现不同模态的数据融合。

上述方案中，步骤(2)中，由声呐信号提取Lofar谱图的方法如下：

首先，将声呐信号序列划分为部分重叠的若干个信号段，对划分的重叠信号给定一个窗函数，令其在t轴上滑动，再对每段信号做短时傅里叶变换，短时傅里叶变换公式如下：

其中，x为声呐信号，t为时间窗的范围，t′为时间，x(t′)为声呐信号序列，γ*(t′-t)为窗函数，j为虚数，f为频率；

最后，取功率谱图即为信号的Lofar谱图，功率谱图定义为公式(4)；

其中，F_T(ω)为信号的短时傅里叶变换，T为信号周期。

上述方案中，步骤(3)的具体方法如下：

1)首先海洋环境数据经过一维卷积神经网络输出特征向量，同时Lofar谱图经过二维卷积神经网络输出特征图；

卷积神经网络中的卷积操作公式如下：

其中，w(m,n)为卷积核大小，c(i+m,j+n)为卷积区域，conv(i,j)为卷积结果；

池化操作公式如下：

pooling(u,v)＝down(s(u+p,v+q)) (6)

其中s(u+p,v+q)为池化区域，p和q代表池化操作的步长，down为下采样操作，可以取均值或最大值，pooling(u,v)为池化后的结果；

经过卷积神经网络的特征输出公式如下：

F₁＝Conv1d(ConcateData) (7)

F₂＝Conv2d(Lofar) (8)

其中，ConcateData为融合后的海洋环境数据，convld为一维卷积，conv2d为二维卷积，F₁为海洋环境数据经过一维卷积神经网络输出的特征向量；F₂为Lofar谱图经过二维卷积神经网络输出的特征图；

2)将步骤1)得到的特征向量输入到一个全局平均池化层后得到一维卷积的全局特征向量，再将它输入到一个具有两层结构的一维卷积操作中，其输出的大小与Lofar谱图经过二维卷积操作后的通道数一致，公式如下所示：

F₃＝Conv1d(GAP(F₁)) (9)

其中，GAP为全局平均池化；

3)将步骤2)输出的特征向量经过公式(10)的Sigmoid函数输出结果，将输出结果再与Lofar谱图经过二维卷积神经网络输出的特征图相乘，得到一组新的特征图，如公式(11)；

4)将步骤3)输出的特征图输入到一个两层的卷积神经网络中进行训练，核的大小为3*3，通道数为128：

F＝Conv2d(F₄) (12)

其中，conv2d为二维卷积，F为特征图的融合结果；

再结合全连接层和softmax分类器获得最终的识别准确率：

acc＝softmax(FC(F)) (13)

其中，FC为全连接层，softmax为神经网络分类器，acc为识别准确率。

上述方案中，步骤(4)中模型训练方法如下：

1)确保声呐信号和海洋环境数据是对应的，由此得到的Lofar谱图和处理后的海洋环境数据相互匹配；

2)将这些数据打包成数据集，并将其均匀分配至十个文件中，分配方法采用随机种子或哈希函数；

3)对划分的数据集采用十折交叉验证法，即使用一个文件中的数据做测试集，其余九个文件数据做训练集，重复十次后取均值，该值即为平均识别准确率。

通过上述技术方案，本发明提供的一种基于多模态融合的水下目标识别方法具有如下有益效果：

(1)与一般的水下目标识别方法不同，本发明还着重考虑了海洋环境数据，因为很多水下目标往往出现在某一固定的海域和深度，因此引入海洋环境数据是十分必要的。

(2)使用基于Lofar谱图和海洋环境数据的多模态融合模型，Lofar谱图是根据噪声的局部平稳特性对噪声信号连续时域采样，并进行短时傅里叶变换，能够很好的表征水声信号的时频特性，而海洋环境数据则考虑了水下目标的位置和深度等信息，两者有效的融合能够为水下目标识别提供更丰富的特征信息。

(3)本发明使用了海洋环境数据作为一组输入数据，并使用串联融合的方式将各个海洋环境数据进行连接，同时为了突出每个环境数据代表的意义，每个数据都将会重复至一定长度，以防止后续卷积操作丢失数据，最后使用数据归一化，使得每个数据之间具有可比性，能够输入到网络模型中进行训练。

(4)常用的多模态融合算法有Add和concatenate，但因为它们只是简单的特征相加或合并，因此不能有效的结合海洋环境数据，而本发明提出的多模态融合模块结合了注意力机制的思想能够合理的表达海洋环境数据对水下目标识别的影响程度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例所公开的一种基于多模态融合的水下目标识别方法流程示意图；

图2为本发明实施例所公开的多模态融合模型示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供了一种基于多模态融合的水下目标识别方法，如图1所示，具体实施例如下：

一、数据采集，声呐信号数据采集和海洋环境数据采集；

二、数据融合与谱图提取，将海洋环境数据进行融合得到一维数据，由声呐信号提取Lofar谱图；

1、因为海洋上每个点的环境信息有很多，并且有有用信息，要想利用这些海洋环境信息需要使用合适的数据融合方法进行融合才能将这些环境数据输入到网络模型中进行学习。本发明使用串联融合的方式将环境信息融合成一条一维数据，具体操作步骤如下：

1)将字符数据转换成整型数据；如经纬度所代表的正负号，东经为正，西经为负，北纬为正，南纬为负。

1)2)数值拆解，如果数据为小数则拆成两个十进制整型数；例如温度数据为27.35则会拆成27和35。

2)3)扩张数据，为突出每个环境数据代表的含义并防止后续卷积操作丢失数据，设定每个数据占据64个长度；例如深度数据为15.4拆成15和04后重复这两个数字达到64个长度结束。

4)归一化处理，为了消除各个环境数据之间的量纲关系，使数据之间具有可比性，对每一条相对应的特征进行数值归一化。本发明使用均值归一化操作，如公式(1)所示：

f(x)＝concat([local,temp,depth,time]) (2)

2、由声呐信号提取Lofar谱图的方法如下：

在对被动声呐接收到的噪声信号处理时，由于噪声信号的非平稳性，噪声信号的特性会随时间发生显著变化，不能直接使用傅里叶变换进行信号处理，因此使用短时傅里叶变换的Lofar谱图是被动声呐信号处理领域广泛使用的信号处理技术。

其中，F_T(ω)为信号的短时傅里叶变换，T为信号周期。

三、模型搭建，构建基于卷积神经网络的多模态融合模型，其中海洋环境数据使用一维卷积神经网络，Lofar谱图使用二维卷积神经网络；

卷积神经网络中的卷积操作公式如下：

池化操作公式如下：

pooling(u,v)＝down(s(u+p,v+q)) (6)

经过卷积神经网络的特征输出公式如下：

F₁＝Conv1d(ConcateData) (7)

F₂＝Conv2d(Lofar) (8)

F₃＝Conv1d(GAP(F₁)) (9)

其中，GAP为全局平均池化；

F＝Conv2d(F₄) (12)

其中，conv2d为二维卷积，F为特征图的融合结果；

再结合全连接层和softmax分类器获得最终的识别准确率：

acc＝softmax(FC(F)) (13)

本发明使用基于卷积神经网络的深度学习模型，其中海洋环境信息使用一维卷积神经网络，Lofar谱图使用二维卷积神经网络，卷积层具体参数如表1所示。

表1各卷积层的参数设置

	kernel size	channel	stride
				layer_1-2	16,5*5	32,32	4,2
layer_3-4	7,3*3	64,64	2,1
				layer_5-6	3,3*3	128,128	1,1

注：每个框内左侧为1D-CNN右侧为2D-CNN。

将海洋环境数据和Lofar谱图的输出经过多模态融合模块实现二者的有效融合，最后输入到softmax函数中进行分类识别。多模态融合模型如图2所示。图中的FC代表全连接层。

四、目标识别，将采集到的数据输入到对应的网络中进行训练与测试，得到水下目标识别结果。

模型训练方法如下：

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。