CN110807365A

CN110807365A - 一种基于gru与一维cnn神经网络融合的水下目标识别方法

Info

Publication number: CN110807365A
Application number: CN201910934615.4A
Authority: CN
Inventors: 刘妹琴; 杨海舟; 张森林; 郑荣濠; 樊臻
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2020-02-18
Anticipated expiration: 2039-09-29
Also published as: CN110807365B

Abstract

本发明公开了一种基于GRU与一维CNN神经网络融合的水下目标识别方法，属于水声目标识别领域。针对水声目标识别问题，提出了一种基于GRU与一维CNN神经网络融合的水下目标识别方法，利用基于GRU的循环神经网络结构解决了传统神经网络无法提取水声信号的时序特征的问题，同时使用一维CNN卷积神经网络结构提取水声信号的时域波形特征。融合GRU与一维CNN神经网络结构提取的特征向量，丰富了输入分类器的特征值信息。扩展了影响识别准确率的辅助信息输入，包括距离、水听器深度、信道深度等信息并加入Dropout层和批规范化层避免了过拟合问题，提高了水声目标的识别准确度。

Description

一种基于GRU与一维CNN神经网络融合的水下目标识别方法

技术领域

本发明所属的技术领域为水下目标识别领域，具体为一种基于门控循环单元(Gated Recurrent Unit,GRU)神经网络和一维卷积神经网络(Convolutional NeuralNetworks,CNN)融合的水下目标识别方法。

背景技术

在现代水声体系中，水声信号处理技术内容庞大，覆盖面广，是水声对抗的根本基础，目标探测、目标特征提取、目标特征辨识等众多领域都属于水声信号处理的范畴。由于水下环境的特殊性，应用水声信号进行水下目标探测是当前最为有效的手段。在水下防御与军事活动中，能够有效的提取目标特征，并进行分类识别，是后续工作开展的基础。水面上航行的船只和水下舰艇，由于机载装备的运转和工作，必然要向周围介质中传播噪音，这些噪声通过在水下传播到远方，被水听器所接收，成为水下目标识别的信息来源。传统的被动声呐识别，十分依赖声呐兵的作用。训练有素经验丰富的声呐兵能够根据人耳收听到船目标信号的节奏、音调，在谱图的辅助下依靠自己的经验对目标做出决策。可是声呐兵的培养需要长期的投入，即便是身经百战的声呐兵，其判断的准确程度还会受到声呐员的生理和心理因素影响，难以保证永远有稳定可靠的发挥。其次，目前世界各海军大国对低噪声潜艇和鱼类的发展越来越重视，使得目标识别问题变得越来越复杂，单靠人工听音识别难以满足现阶段目标识别的要求。

水下目标识别是利用声呐、水听器等水声接收设备接收目标船只运动发出的噪声，运用水声信号的特征提取与分类的方法，对目标船只的类别进行识别。对于水声信号的特征提取，方法可以分为传统的谱特征提取和基于深度学习的神经网络特征提取。其中本发明针对的是运用基于深度学习的神经网络进行特征提取，使用了GRU与一维CNN融合的新结构。对于传统的谱特征提取，主要可分为时域波形特征提取、信号的时频变换分析与听觉特征提取。这些方法以数据的空间域变换为主，不需要大量的样本数据，但是其精准的识别分类效果是建立在信号的平稳、周期性、高信噪比的基础上，并且没有考虑影响水下目标识别的其他因素，因此，在水下环境复杂多变，水声信号本身的非周期性、非平稳、低信噪比的特性下，使用传统谱特征提取方法进行水声信号的识别实际精度较低。

随着深度学习在计算机视觉领域的广泛运用，基于人工智能方法的水下目标识别技术成为研究的热点。目前，人工神经网络凭借着强大的学习能力、自适应性和非线性映射能力，已经代替传统谱特征提取成为水下目标识别的主流方法。然而由于识别对象是时间序列，且水听器的采样频率较高导致的水声信号的单帧长度较长，所以提取长片段的时序特征的能力成为影响识别精度的关键因素。一维CNN是最早用于水下目标识别的人工神经网络结构。由于卷积神经网络是在训练的过程中遍历整个样本的数据并利用卷积核作卷积计算操作，作用是学习遍历的每一个部位的数据的排列形式。在一维的时间序列数据中，卷积神经网络的作用就是学习序列的时域波形特征。由于卷积神经网络对于时域波形特征的学习更为详细与具体，虽然增加了计算量，但仍然比传统谱特征提取的方法精度更高。循环神经网络(Recurrent neural network,RNN)是一种擅长于提取时间特征的深度学习框架，也是近期越来越多被用于水下目标识别的人工神经网络结构。传统的神经网络只在层与层之间建立了权重连接，而RNN的隐藏层单元之间是有连接的，每个隐藏单元内是每个时刻的隐藏层激活值，而且输入也是带有时间标识的时间序列，随着序列的不断推进，后面的隐藏单元会受到前面隐藏单元的影响。但是RNN在处理长时间序列问题时会出现梯度消失和梯度爆炸的问题，使得其精度大幅下降。针对这一问题，长短期记忆(long short-termmemory,LSTM)网络引入一个判断历史信息是否有用的“处理器”，这个处理器被称为Cell，包含了输入门、遗忘门和输出门。其中，遗忘门能保留有用的信息，遗忘无用的信息。而 GRU神经网络是对LSTM的进一步改进版本，它将输入门和遗忘门合并成更新门，从而使得结构更简单，训练时收敛更快，精度更高。在本发明中，为了获得更丰富的特征信息，将GRU网络结构的输出张量与一维CNN结构中的全局平均池化层的输出张量以merge层的方式融合，同时结合时序特征与频谱能量特征，以获得更高的识别准确率。

本发明针对水下目标识别问题，提出了一种基于GRU与一维CNN神经网络融合的水下目标识别方法。所提识别模型将原始时间序列经过裁剪、分帧后输入，将影响识别效果的关键因素作为辅助信息输入，利用GRU层提取水声信号的时间序列特征，并利用一维CNN结构提取水声信号的时域波形特征，并且引入Dropout层和批规范化层避免过拟合问题，得到高精度的识别网络。

发明内容

本发明的目的是针对对识别精度要求日益增长的水下目标识别问题，提出了一种基于GRU与一维CNN神经网络融合的水下目标识别方法；利用基于GRU 的循环神经网络解决了传统神经网络无法提取时间特征的问题；利用一维CNN 结构对水声信号的时域波形的特征提取，增加了水声信号的特征信息；增加影响识别精度的辅助信息输入，提高识别精度；并加入Dropout层和批规范化层避免过拟合问题。

本发明实现上述目的的技术方案是：

一种基于GRU与一维CNN神经网络融合的水下目标识别方法，其特征在于，包括以下步骤：

(1)采用水听器获得目标船只在水下辐射的噪声数据，并测得影响水下目标船只识别的综合因素作为辅助信息；

(2)对噪声数据和辅助信息进行预处理：读取水听器录制得到的噪声数据，裁剪噪声数据中的无效数据，然后将裁剪后的噪声数据分为每帧长度相同的若干样本帧，得到水声信号数据集；量化辅助信息得到辅助信息数据集；

(3)标记水声信号数据集中的每一样本帧对应的样本标签；

(4)建立基于GRU与一维CNN融合的水下目标识别神经网络，初始化网络权重；将标记有样本标签的水声信号数据集和辅助信息数据集输入神经网络进行训练，在训练误差收敛后停止，得到训练好的神经网络模型；

(5)采集船只在水下辐射的实时噪声数据和辅助信息并根据步骤(2)所述方法进行预处理，将预处理后得到的待测水声信号和辅助信息输入步骤(4)得到的训练好的神经网络模型，得到待测水声信号对应的船只的类别。

进一步的，步骤(1)所述水听器的采样频率为52.7kHz。

进一步的，步骤(1)所述的影响水下目标船只识别的综合因素为水听器与目标船只的距离、水听器实际深度、信道深度、风速、水温、气温、船速和降雨量中的一种或多种。

进一步的，步骤(2)采用交叠分帧法，将裁剪后的噪声数据分为每帧长度为20ms的若干样本帧。

进一步的，所述步骤(4)具体为：

建立基于GRU与一维CNN融合的水下目标识别神经网络，包括输入层，隐藏层，输出层；所述输入层包括辅助信息输入和两份并行的时域序列输入；所述隐藏层包括GRU网络结构、一维CNN网络结构、融合层、批规范化层、批规范化层和全连接层，所述融合层将GRU网络结构的输出张量、一维CNN网络结构的输出张量与辅助信息经过全连接层后的输出张量以横向连接的方式融合，然后依次经过批规范化层、批规范化层和全连接层后输出结果；

初始化网络权重，分别输入辅助信息数据集和两份标记有样本标签的水声信号数据集对神经网络进行训练，其中两份标记有样本标签的水声信号数据集分别输入到GRU网络结构和一维CNN网络结构中；调整网络的权重和偏移量，在训练误差收敛后停止训练，得到训练好的神经网络模型。

进一步的，所述调整网络的权重和偏移量的步骤具体为：

设t-1时刻的权重、偏移量的矩阵为θ_t-1，则在t时刻的梯度g_t为

其中，

表示代价函数J(·)关于权重、偏移量矩阵的梯度，即求J(θ_t-1)对θ的偏导数向量；所述代价函数J(·)使用交叉熵损失函数：

其中，n是样本数，m是分类数，y_i表示神经元实际输出，即经过网络计算得到的样本属于每个类别的概率，

表示期望的输出，即样本实际只属于某一个类别；

计算t时刻梯度的指数移动平均数m_t，

m_t＝β₁m_t-1+(1-β₁)g_t

其中，m₀初始化为0，β₁为指数衰减率，控制动量与当前梯度的权重分配；

计算t时刻梯度平方的指数移动平均数v_t，

其中，v₀初始化为0，β₂为指数衰减率，控制上一时刻梯度平方的权重；

由于m₀与v₀初始化为0，会导致训练初始阶段m_t与v_t趋向于0，因此需要对其进行偏差纠正，

其中，

和

分别表示β₁和β₂的t次方；

最后得到t时刻的权重、偏移量的矩阵为θ_t，

其中，α为学习率，ε为数值相对小的数，避免除数迭代变为0。

进一步的，所述一维CNN网络结构包括4个一维卷积层、2个最大值池化层和1个全局平均池化层。

进一步的，所述一维CNN网络结构的第1个一维卷积层中，卷积核数量为 16，长度为8，步长为2；在第2个一维卷积层中，卷积核数量为64，长度为8，步长为2；在第3个一维卷积层中，卷积核数量为256，长度为8，步长为2；在第4个一维卷积层中，卷积核数量为512，长度为8，步长为2；2个最大值池化层的池化核长度均为3，步长均为3。

进一步的，所述GRU网络结构包括多个GRU单元，每个GRU单元均包括更新门和重置门，分别控制数据的更新和重置；在GRU网络结构中，上一时刻的状态输入到下一GRU单元中，保留了数据的时序信息。

进一步的，所述GRU网络结构的输出向量维度设置为512。

与现有技术相比，本发明具备的有益效果是：

提出一种针对水下目标识别问题的新模型，使用了GRU与一维CNN融合的新结构，通过GRU神经网络提取时间特征，解决了传统神经网络无法提取时间特征的问题；利用一维CNN结构提取水声信号的时域波形特征，增加了水声信号的特征信息；加入距离、水听器深度、信道深度等影响因素作为辅助输入，提高识别精度；引入Dropout层和批规范化层避免过拟合问题，与现有的人工智能方法相比，提高了对水声信号的识别精度。

附图说明

图1本发明所提出的水下目标识别方法所用的GRU内部结构图；

图2本发明所提出的水下目标识别方法所用的一维CNN结构图；

图3本发明所提出的基于GRU与一维CNN神经网络融合的网络模型结构图。

具体实施方式

下面结合附图对本发明的实施进行详细的说明，并给出具体的操作方式以及实施步骤：

一种基于GRU与一维CNN神经网络融合的水下目标识别方法，主要包括以下步骤：

一、采集真实海洋试验中测得的船只在水下辐射噪声数据和辅助信息，训练基于GRU与一维CNN融合的水下目标识别神经网络。

使用的基于GRU与一维CNN融合的水下目标识别神经网络训练步骤为：

步骤1：从海洋试验中利用提前固定的水听器测得船只在水下辐射的噪声数据；同时在海洋试验中测得水听器与目标船只的距离、水听器实际深度、信道深度数据，作为辅助信息；以上信息为影响水下目标识别精度的关键因素。其中，由水听器录制得到的噪声数据为wav格式的原始声音文件，采样频率为52.7kHz，单声道；水听器与目标船只的距离数据为水听器距离目标船只的直线距离，单位为m；水听器实际深度数据为水听器固定的位置与海平面之间的距离，单位为m；信道深度数据为水听器固定位置的海底深度，单位为m。作为本发明的优选实施方式，本实施例所做实验主要考虑水听器与目标船只的距离、水听器实际深度、信道深度这三个主要影响因素。

步骤2：对水听器测得的噪声数据和辅助信息进行预处理：读取水听器录制得到的噪声数据，裁剪无效数据，将裁剪后的噪声数据分为点数相同的若干样本帧，每帧长度为20ms，得到水声信号数据集，并将水声信号数据集复制为两份；将辅助信息进行量化、整合处理，得到辅助信息数据集。由于GRU网络结构对输入数据的格式有要求，其中一份水声信号数据集需要将每一样本帧的一维时间序列重新排列为二维的矩阵，在本实施例中，即为将(1000,1)的一维序列重新排列为(20,50)的二维矩阵形式，其中第一维度20代表将1000点的一帧数据分为 20个片段依次输入GRU单元进行计算，第二维度50代表每个片段中包含50个点。

步骤3：根据试验中采集的目标船只的大小种类对水声信号数据集中的每一样本帧进行标定，得到标记有样本标签的水声信号数据集。

步骤4：建立基于GRU与一维CNN融合的水下目标识别神经网络，并初始化网络权重。其中GRU的内部结构图如图1所示，包括重置门和更新门。其中，

表示t时刻的GRU单元输入向量，在本实施例中是一帧被分为20个片段的长度为50的向量；

与

为t时刻与t-1时刻的隐藏单元向量；f与φ表示激活函数，f为sigmoid函数，φ为tanh函数；

为t时刻的隐藏单元新信息的激活值。一维CNN的内部结构图如图2所示。进一步的，GRU前馈网络推导公式和一维CNN卷积计算公式具体为：

GRU前馈网络推导公式如下：

其中

为t时刻的更新门输入向量，w_iu为t时刻更新门输入向量中t时刻 GRU单元输入向量的权重，

为t时刻GRU单元的输入向量，I是输入向量的维度，w_hu为t时刻更新门输入向量中t-1时刻隐藏单元向量的权重，

为t-1 时刻的隐藏单元向量，H是隐藏单元向量的维度，

表示t时刻更新门输出向量，

为t时刻的重置门输入向量，w_ir为t时刻重置门输入向量中t时刻GRU单元输入向量的权重，w_hr为t时刻重置门输入向量中t-1时刻隐藏单元向量的权重，

为重置门的输出向量，

为t时刻的隐藏单元新信息的加权求和值，w_hh'为中t-1时刻隐藏单元向量的权重，w_ih'为

中t时刻GRU单元输入向量的权重，为t时刻的隐藏单元新信息的激活值，

为t时刻的隐藏单元向量，f和φ是激活函数，一般地，f是sigmoid函数，φ是tanh函数。

在本实施例中，GRU的输出向量维度为512。

一维CNN的内部计算公式如下：

设输入的每帧数据为S(n)＝x₁,x₂,...,x_N，N为每帧数据的长度，x_i为每一样本帧中的第i个数值，卷积核为F(k)＝f₁,f₂,...,f_K，K为卷积核长度，f_i表示卷积核中第i个数值。令滑动步长为1，卷积计算的公式为：

C₁＝x₁f₁+x₂f₂+...+x_Kf_K

C₂＝x₂f₁+x₃f₂+...+x_K+1f_K

...

C_N-K+1＝x_N-K+1f₁+x_N-K+1f₂+...+x_Nf_K

其中，C_i表示两者卷积操作所得数值；

对于最大值池化层，则是按池化核的长度和步长依次滑动窗口，选出每个窗口中的最大值并依次排列。对于全局平均池化层，设输入张量维度为(n,m)，对输入的张量在第一个维度上进行取平均值的操作，最终获得维度为m的序列。

作为本发明的优选实施方式，在本实施例中，在一维CNN结构中共使用4 个一维卷积层，2个最大值池化层，1个全局平均池化层。其中在第一个一维卷积层中，卷积核数量为16，长度为8，步长为2；在第二个一维卷积层中，卷积核数量为64，长度为8，步长为2；在第三个一维卷积层中，卷积核数量为256，长度为8，步长为2；在第四个一维卷积层中，卷积核数量为512，长度为8，步长为2。两个最大值池化层的参数相同，池化核长度为3，步长为3。

整个基于GRU与一维CNN融合的水下目标识别神经网络如图3所示，包括输入层，隐藏层，输出层。其中输入层包括水声信号序列输入和辅助信息输入，输入GRU网络结构的序列维度为(20,50)，输入一维CNN网络结构的序列维度为(1000,1)，辅助信息输入维度为3，网络输出维度为5。融合层将GRU的输出张量、一维CNN结构中全局平均池化层的输出张量与辅助信息经过全连接层后的输出张量以横向连接的方式融合，获得了更丰富的特征提取。

初始化网络权重，分别输入辅助信息数据集和两份标记有样本标签的水声信号数据集对神经网络进行训练，输入为经过裁剪、分帧的水声信号数据集、相对应的距离、水听器深度、信道深度数据，输出为相对应的船只识别标签数据。将数据集按一定比例随机划分为训练数据集、验证数据集和测试数据集，其中训练集、验证集用于神经网络训练，测试集用于识别准确率的测试。其中，训练集与验证集的数据量的和与测试集数据量之间的比例为4:1，训练集与验证集的数据量之间的比例为4:1。

根据上述步骤，最终输入数据集为并行的三个。一是维度为(20,50)的输入 GRU网络结构的数据；二是维度为(1000,1)的输入一维CNN网络结构的数据；三是维度为3的辅助信息输入。将训练数据集与验证数据集输入基于GRU与一维CNN融合的水下目标识别神经网络进行训练，并利用验证集调整模型参数，减少分类误差，得到理想的识别模型。其中，模型训练过程中使用Adam优化器算法对权重、偏移量进行调整。设t-1时刻的权重、偏移量的矩阵为θ_t-1，则在 t时刻的梯度为

计算梯度的指数移动平均数

m_t＝β₁m_t-1+(1-β₁)g_t

其中，m₀初始化为0，β₁为指数衰减率，控制动量与当前梯度的权重分配。取值为0.9。其次，计算梯度平方的指数移动平均数

其中，v₀初始化为0，β₂为指数衰减率，控制上一时刻梯度平方的权重，取值0.999。进一步，由于m₀与v₀初始化为0，会导致训练初始阶段m_t与v_t趋向于0，因此需要对其进行偏差纠正

最后，更新参数，初始的学习率α乘以梯度均值与梯度方差的平方根之比。

其中，本发明所做实验中学习率α取值0.0002。ε＝10^-8，避免除数变为0。从更新表达式来看，对更新的步长计算，能够从梯度均值及梯度平方两个角度进行自适应地调节，而不是直接由当前梯度决定，更为契合本发明所构建的较为复杂的网络模型，最后得到训练好的神经网络模型。

二、对训练好的水下目标识别神经网络在测试集中进行准确率测试，得到测试集的标签预测结果；

三、对测试集的标签预测结果进行数值统计与分类，对每个测试集样本的预测结果取概率最大对应的标签，并依次比对标签，判断是否准确，从而获得该网络模型的识别准确率与对各个类别样本的识别准确率；

本发明的仿真实验是利用西班牙维戈大学David Santos-Dominguez博士的实验室海上试验的真实数据进行。实验数据采集地点为维戈港口的近海，水听器型号为digitalHyd SR-1，由MarSensing Lda生产。训练识别模型的实验条件为 Intel Core i7-6700K，4.20GHz，16.00GB，NVIDIA GTX1060-6GB。实验步骤如本实施例所述。实验结果如表1所示，其中单GRU网络和单一维CNN网络的内部参数与本发明所述的融合结构中的GRU、一维CNN的内部参数相同。

表1仿真实验对比结果

	单GRU网络模型	单一维CNN网络模型	本发明方法
				综合识别准确率	85.6％	82.3％	89.1％
平均每代训练时长	108s	181s	211s

Claims

1.一种基于GRU与一维CNN神经网络融合的水下目标识别方法，其特征在于，包括以下步骤：

(3)标记水声信号数据集中的每一样本帧对应的样本标签；

2.根据权利要求1所述的一种基于GRU与一维CNN神经网络融合的水下目标识别方法，其特征在于，步骤(1)所述水听器的采样频率为52.7kHz。

3.根据权利要求1所述的一种基于GRU与一维CNN神经网络融合的水下目标识别方法，其特征在于，步骤(1)所述的影响水下目标船只识别的综合因素为水听器与目标船只的距离、水听器实际深度、信道深度、风速、水温、气温、船速和降雨量中的一种或多种。

4.根据权利要求1所述的一种基于GRU与一维CNN神经网络融合的水下目标识别方法，其特征在于，步骤(2)采用交叠分帧法，将裁剪后的噪声数据分为每帧长度为20ms的若干样本帧。

5.根据权利要求1所述的一种GRU与一维CNN神经网络融合的水下目标识别方法，其特征在于，所述步骤(4)具体为：

6.根据权利要求5所述的一种GRU与一维CNN神经网络融合的水下目标识别方法，其特征在于，所述调整网络的权重和偏移量的步骤具体为：

其中，

表示期望的输出，即样本实际只属于某一个类别；

计算t时刻梯度的指数移动平均数m_t，

m_t＝β₁m_t-1+(1-β₁)g_t

计算t时刻梯度平方的指数移动平均数v_t，

其中，

和

分别表示β₁和β₂的t次方；

最后得到t时刻的权重、偏移量的矩阵为θ_t，

其中，α为学习率，ε为数值相对小的数，避免除数迭代变为0，ε＝10^-8。

7.根据权利要求5所述的一种GRU与一维CNN神经网络融合的水下目标识别方法，其特征在于，所述一维CNN网络结构包括4个一维卷积层、2个最大值池化层和1个全局平均池化层。

8.根据权利要求7所述的一种GRU与一维CNN神经网络融合的水下目标识别方法，其特征在于，所述一维CNN网络结构的第1个一维卷积层中，卷积核数量为16，长度为8，步长为2；在第2个一维卷积层中，卷积核数量为64，长度为8，步长为2；在第3个一维卷积层中，卷积核数量为256，长度为8，步长为2；在第4个一维卷积层中，卷积核数量为512，长度为8，步长为2；2个最大值池化层的池化核长度均为3，步长均为3。

9.根据权利要求5所述的一种GRU与一维CNN神经网络融合的水下目标识别方法，其特征在于，所述GRU网络结构包括多个GRU单元，每个GRU单元均包括更新门和重置门，分别控制数据的更新和重置；在GRU网络结构中，上一时刻的状态输入到下一GRU单元中，保留了数据的时序信息。

10.根据权利要求5所述的一种GRU与一维CNN神经网络融合的水下目标识别方法，其特征在于，所述GRU网络结构的输出向量维度设置为512。