CN113111786A

CN113111786A - 基于小样本训练图卷积网络的水下目标识别方法

Info

Publication number: CN113111786A
Application number: CN202110403699.6A
Authority: CN
Inventors: 吴金建; 莫周; 石光明
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2021-07-13
Anticipated expiration: 2041-04-15
Also published as: CN113111786B

Abstract

本发明公开了一种基于小样本训练图卷积网络的水下目标识别方法，主要解决现有技术中对水下声音数据进行特征提取导致信息丢失以及小样本的水声数据无法有效拟合网络的问题。本发明的步骤如下：(1)生成小样本的训练集；(2)提取训练集中每个样本的特征；(3)构建特征矩阵集合；(4)构建知识图谱；(5)将知识图谱转换为连接矩阵；(6)构建图卷积网络；(7)训练图卷积网络；(8)对水下目标进行识别。本发明通过提取多个特征充分表征水声信号的特性，并且利用知识图谱融合特征特性，对小样本数据下网络的拟合提供了优化方向，具有网络不易过拟合、准确率高的优点。

Description

基于小样本训练图卷积网络的水下目标识别方法

技术领域

本发明属于信号处理技术领域，更进一步涉及声音目标识别技术领域中的一种基于小样本训练图卷积网络的水下目标识别方法。本发明针对水下声音数据获取难度大，特征提取导致信息丢失等多个现实问题，利用图网络进行知识嵌入以丰富先验知识的手段实现水下小样本目标的识别。

背景技术

目前，国内外对于水下目标分类识别的主要方法是基于语音信号处理与分类器相结合的模式识别方法，通常采用的方法一般包括利用声呐采集数据、对数据进行预处理、特征提取、分类决策等流程。最重要的两个步骤是特征提取和分类方法的选择。特征的提取一般是单一特征向量或是多特征向量直接拼接形成新的特征向量，分类识别的模型主要是一些主流的经典机器学习方法和深度学习方法，如K近邻、聚类、支撑矢量机、深度神经网络DNN(Deep Neural Networks)等。这些方法尽管在水下目标识别任务中取得了较好的分类结果，但是由于提取的特征数量不多，因此在特征提取操作后存在着信息丢失的风险；没有结合先验知识考虑到特征之间的联系性，盲目的对特征进行简单的拼接，而没有利用先验知识对特征之间联系性进行表征；在使用深度学习网络进行分类是还需要大量的数据对网络进行训练。因此在针对小样本情况下的水下目标识别时，分类精度并不高。

中国海洋大学在其申请的专利文献“一种多特征融合的水下目标识别方法”(申请号：202010930201.7申请公布号：CN112183582A)中公开了一种对声音信号从时域提取的短时能量特征和从频域提取的伽马通频率倒谱系数GFCC(Gammatone frequency cepstralcoefficients)进行首尾相接融合形成新的特征向量进行目标识别的方法。该方法的具体步骤为：对采集到的水声信号进行标准化处理，将结果映射到[0,1]之间，然后对信号分别在时域和频域上提取短时能量特征和GFCC特征，并将其首尾拼接形成融合成新的特征向量，用卷积神经网络(Convolutional Neural Networks)CNN-长短期记忆网络LSTM(LongShort-Term Memory)集成时序网络模型进行分类预测。该方法通过模拟人耳的听觉感知特性，提高了水下目标识别方法的分类精度。但是，该方法仍然存在的不足之处是，由于该方法提取到的特征数量少，无法全面的表征出原始声音信号各种特性，而且各个特征所表征的信息既独立而有相互影响，利用已有的先验知识对特征之间联系性进行表征，能够更好的将知识嵌入到输入数据中，而该方法中直接将两个特征直接进行拼接融合，则会丢失这部分信息。

王升贵等人在其发表的论文“基于深度学习的水下目标识别方法研究”(基于深度学习的水下目标识别方法研究[J].舰船科学技术,2020,42(23):141-145.)中提出了一种利用深度卷积神经网络对目标LOFAR图特征提取后，利用全连接网络对信号进行分类的方法。该方法的具体步骤为：利用深度卷积神经网络自适应实现对目标二维时频谱图(LOFAR)特征提取，然后采用全连接层将特征变换至类别空间，最后利用softmax函数实现水下目标智能辨识。该方法有效的降低了噪声的影响。但是，该方法仍然存在的不足之处是，由于该方法使用的网络包括了三个卷积层，以及一个全连接层，因此需要大量训练数据，但是当样本的数量不足时，无法有效的拟合网络。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于小样本训练图卷积神经网络的水下目标识别方法，用于解决提取信号特征少，无法全面表征水下目标声音特性的问题和样本不足时无法有效拟合网络的问题。

实现本发明目的的思路是：通过提取水声信号的六个特征，全面的表征水声信号的音调特性、音色特性、响度特性、规律性特性以及水声信号的深度特征特性，解决了工程应用中水声信号特征提取后只能获得上述一种或两种特性的信息，而丢失其余类别特性的信息的问题。本发明根据各个特征的物理定义构建知识图谱，利用知识图谱对输入特征的相同特性进行聚合，缩小了网络搜索最优解的优化空间，解决了工程应用中数据样本不足时无法有效拟合网络的问题。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)生成小样本的训练集：

(1a)从每类水声信号中选取至少10个样本，每个样本对应一个类标签，如若样本为多通道信号，则只取第一个通道的信号信息，并将所有样本的采样率统一处理到16000Hz；

(1b)从32000、48000、60000中任选一个值作为汉明窗中点的总数；

(1c)利用窗函数对每一个样本进行加窗分帧处理，将加窗分帧后的所有截取样本和标签组成训练集；

(2)提取训练集中每个样本的特征：

(2a)对每个截取样本进行与步骤(1c)中相同的加窗分帧处理，得到每个截取样本切割的二次截取样本；分别利用谱滚降点生成方法、谱质心计算公式、能量计算公式、过零率计算公式、自相关系数计算公式，计算每个截取样本切割的每个二次截取样本的短时频谱滚降点、短时谱质心、短时能量、短时过零率、短时自相关系数，将每个截取样本切割的每一个二次截取样本的短时谱滚降点、短时谱质心、短时能量、短时过零率、短时自相关系数分别拼接，得到该截取样本的谱滚降点特征、谱质心特征、能量特征、过零率特征、自相关系数特征；

(2b)将在步骤(1c)得到的每个截取样本输入到VGGish网络中，将网络的输出作为该截取样本的不可描述语义特征；

(2c)分别对每个样本的谱滚降点特征、谱质心特征、能量特征、过零率特征、自相关系数特征和不可描述语义特征进行主成成分分析，将该样本的每一个特征的维度都降低到128；

(3)构建特征矩阵集合：

(3a)将每一个水声信号的谱滚降点特征、谱质心特征、能量特征、过零率特征、自相关系数特征和不可描述语义特征依次按行拼接，组成该水声信号的特征矩阵；

(3b)将所有水声信号的特征矩阵组合成特征矩阵集合；

(4)构建知识图谱：

根据特征各自的物理定义，将降维后的谱滚降点特征、谱质心特征、能量特征、过零率特征、自相关系数特征分别划分为音调、音色、响度、规律性四类，并将每个特征与其同类特征相连；将不可描述语义特征归为深度特征类；并将不可描述语义特征与每个特征相连，将连接后的特征组成知识图谱；

(5)将知识图谱转换为连接矩阵：

(5a)将降维后的谱滚降点特征、谱质心特征、能量特征、过零率特征、自相关系数特征和不可描述语义特征分别编号为1,2,3,4,5,6；

(5b)初始化一个维度为6*6的全零的连接矩阵，根据知识图谱，谱质心特征与过零率特征相连接，则连接矩阵的第二行第四列的值和第四行第二列的值设置为1，不可描述语义特征与其他五个特征相连接，则连接矩阵的第六行的所有元素和第六列的所有元素值设置为1；

(5c)将连接矩阵的对角元素值设置为1；

(6)构建图卷积网络：

构建一个四层的图卷积网络，其结构为：第一图卷积层，第二图卷积层，第一全连接层，第二全连接层，四个网络层依次连接；将第一、第二图卷积层的特征映射矩阵大小分别设置为128*100，100*64，第一、第二全连接层的特征映射单元分别为384个，3个；

(7)训练图卷积网络：

将特征矩阵集合和连接矩阵输入到图卷积网络中，对网络中的两个特征映射矩阵和两个特征映射单元迭代更新，当损失函数的输出小于0.01或训练迭代次数达到350次时停止训练，得到训练好的图卷积网络；

(8)对水下目标进行识别：

将待识别的水下目标的声音信号采用与步骤(2)相同的操作，提取声音信号的六个特征特征，再采用与步骤(3a)相同的拼接操作，得到该声音信号的特征矩阵，将该声音信号的特征矩阵和步骤(5)中得到的连接矩阵一起输入到训练好的图卷积网络中，得到目标声音信号的识别结果。

本发明与现有技术相比具有以下优点：

第一，由于本发明从水声信号中提取了谱滚降点特征、谱质心特征、能量特征、过零率特征、自相关系数特征和不可描述语义特征，利用这六个特征分别对水声信号的音调特性、音色特性、响度特性以及水声信号的深度特征特性进行了表征，得到了全面的水声信号特性表达，克服了水声信号特征提取时特征信息丢失的问题，使得本发明提高了水声识别的准确性。

第二，由于本发明根据水声信号的各个特征的实际定义构建了知识图谱，利用知识图谱对特征之间的特性关联程度进行设置，使得本发明充分的聚合了特征之间的相同特性，并将特征之间的相异特性放大，让网络的可分辨性增强，同时也能够更好的让网络拟合，使得本发明在面对样本不足的问题时同样能训练得到不易过拟合的网络。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合附图1对本发明的实现步骤做进一步的详细描述。

步骤1.生成小样本的训练集。

从每类水声信号中选取至少10个样本，每个样本对应一个类标签，如若样本为多通道信号，则只取第一个通道的信号信息，并将所有样本的采样率统一处理到16000Hz。

从32000、48000、60000中任选一个值作为汉明窗中点的总数。

利用窗函数对每一个样本进行加窗分帧处理。加窗分帧处理是由于水下目标信号发出的声音在宏观上是杂乱的，在微观上是平稳的，因此需要对信号进行加窗分帧处理来得到短时平稳的截取样本。将加窗分帧后的所有截取样本和标签组成训练集。

所述加窗分帧处理的步骤如下。

第1步，按照下式，计算汉明窗中每个点的幅值：

其中，ω(n)表示汉明窗中第n个点的幅值，cos表示余弦操作，π表示圆周率，M表示汉明窗中点的总数。

第2步，将每个样本中左起第一个采样点设置为该样本的截取样本起始点，并将该截取样本起始点设置为当前的截取样本起始点。

第3步，从每个样本的当前截取样本起始点后选择

个采样点，

的取值与M相等，将

个采样点中每个采样点依次与汉明窗中各个点的幅值对应相乘，将所有的乘积组成当前迭代的截取样本，并设置截取样本的标签与其对应的样本标签相同。

第4步，将每个样本的当前截取样本起始点向右移动γ个采样点得到更新后的当前截取样本起始点，其中γ＝0.5M。

第5步，重复本步骤的第3步、第4步操作，直到当前截取样本起始点到每个样本最后一个采样点数之间的采样点数小于

时停止，得到加窗分帧后的所有截取样本。

步骤2.提取训练集中每个样本的特征。

对每个截取样本进行再次进行加窗分帧处理，得到每个截取样本切割的二次截取样本。分别利用谱滚降点生成方法、谱质心计算公式、能量计算公式、过零率计算公式、自相关系数计算公式，计算每个截取样本切割的每个二次截取样本的短时频谱滚降点、短时谱质心、短时能量、短时过零率、短时自相关系数，将每个截取样本切割的每一个二次截取样本的短时谱滚降点、短时谱质心、短时能量、短时过零率、短时自相关系数分别拼接，得到该截取样本的谱滚降点特征、谱质心特征、能量特征、过零率特征、自相关系数特征。并将每个截取样本输入到VGGish模型网络中，将网络的输出作为该截取样本的不可描述语义特征。

所述谱滚降点生成方法如下。

第1步，对每个截取样本切割的每个二次截取样本进行下述的离散傅里叶变换，得到每个二次截取样本的频域序列：

其中，

表示第i个截取样本切割的第q个二次截取样本c_i,q对应的频域序列中第

个频点对应的频率值，

表示频域序列中频点的序号，

m₁表示第i个截取样本切割的第q个二次截取样本c_i,q所包含的采样点的总数，∑表示求和操作，k表示二次截取样本中采样点的序号，x_i,q(k)表示第i个截取样本切割的第q个二次截取样本中第k个采样点对应的数值，e^(·)表示以自然常数e为底的指数操作，j表示虚数单位符号，π表示圆周率。

第2步，在每个频域序列中依次累加每个频点的频率值，当累加值大于整个频域序列值的总和的85％时停止累加，将此时的累加频点总数作为该频域序列的谱滚降点特征值。

所述谱质心生成方法如下。

第1步，对每个截取样本切割后每个二次截取样本采用与上述相同的离散傅里叶变换操作，得到每个二次截取样本的频域序列。

第2步，利用下述公式生成每一个频域序列的谱质心：

其中，

表示第i个截取样本切割后的第q个二次截取样本c_i,q谱质心特征值，L表示频域序列的长度，w表示频域序列中频点的序号，h_i,q(w)表示第i个截取样本切割的第q个二次截取样本c_i,q对应的频域序列中第w个频点对应的频率值。

所述能量计算公式如下：

其中，

表示第i个截取样本切割的第q个二次截取样本c_i,q的短时能量。

所述过零率计算公式如下：

其中，

表示第i个截取样本切割的第q个二次截取样本c_i,q的短时过零率，sgn(·)表示符号函数，x_i,q(k+1)表示第i个截取样本切割的第q个二次截取样本中第k+1个采样点的数值。

所述自相关系数计算公式如下：

其中，

表示第i个截取样本切割的第q个二次截取样本c_i,q的短时自相关系数，

表示二次截取样本c_i,q的均值，x_i,q(k+l)表示第i个截取样本切割的第q个二次截取样本中第k+l个采样点的数值。

分别对每个样本的谱滚降点特征、谱质心特征、能量特征、过零率特征、自相关系数特征和不可描述语义特征进行主成成分分析，将该样本的每一个特征的维度都降低到128。

步骤3.构建特征矩阵集合。

将每一个水声信号的谱滚降点特征、谱质心特征、能量特征、过零率特征、自相关系数特征和不可描述语义特征依次按行拼接，组成该水声信号的特征矩阵。

将所有水声信号的特征矩阵组合成特征矩阵集合。

步骤4.构建知识图谱。

根据特征各自的物理定义，将降维后的谱滚降点特征、谱质心特征、能量特征、过零率特征、自相关系数特征分别划分为音调、音色、响度、规律性四类，并将每个特征与其同类特征相连，不同类的特征之间不相连；将不可描述语义特征归为深度特征类；并将不可描述语义特征与每个特征相连，将连接后的特征组成知识图谱。

将频谱滚降点特征定义为音调类特征的方法为：频谱滚降点特征体现的是水声信号的低频能量占水声信号总能量的比重，表现了水声信号低频能量的强弱程度；音调表示水声信号频率的高低，所以将频谱滚降点特征归为音调类特征。

将过零率特征和谱质心特征定义为音色类特征的方法为：过零率特征体现的是水声信号过零点的次数，表征水声信号波形变化速率特性；谱质心特征是描述水声信号音色属性的重要物理参数之一，是水声信号频率成分的重心；音色表示不同水声信号表现在波形方面总是有与众不同的特性，所以将过零率特征和谱质心特征归为音色类特征。

将能量特征定义为音色类特征的方法为：能量特征体现的是水声信号在不同时刻的强弱程度；响度是描述水声信号强弱的物理量，所以将能量特征归为响度类特征。

将自相关系数特征定义为规律性类特征的方法为：自相关系数特征是水声信号自身的两次观察值之间的相似度，体现出水声信号自身规律程度高低，所以将其归为规律性特征。

将不可描述语义特征定义为深度特征类特征的方法为：不可描述语义特征是通过VGGish网络提取的高维特征，不具有明确的物理含义，所以将该特征归为深度特征类特征。

步骤5.将知识图谱转换为连接矩阵。

将降维后的谱滚降点特征、谱质心特征、能量特征、过零率特征、自相关系数特征和不可描述语义特征分别编号为1,2,3,4,5,6。

初始化一个维度为6*6的全零的连接矩阵，根据知识图谱，谱质心特征与过零率特征相连接，则连接矩阵的第二行第四列的值和第四行第二列的值设置为1，不可描述语义特征与其他五个特征相连接，则连接矩阵的第六行的所有元素和第六列的所有元素值设置为1。

将连接矩阵的对角元素值设置为1。

步骤6.构建图卷积网络。

构建一个四层的图卷积网络，其结构为：第一图卷积层，第二图卷积层，第一全连接层，第二全连接层，四个网络层依次连接；将第一、第二图卷积层的特征映射矩阵大小分别设置为128*100，100*64，第一、第二全连接层的特征映射单元分别为384个，3个。

步骤7.训练图卷积网络。

将特征矩阵集合和连接矩阵输入到图卷积网络中，对网络中的两个特征映射矩阵和两个特征映射单元迭代更新，当损失函数的输出小于0.01或训练迭代次数达到350次时停止训练，得到训练好的图卷积网络。

步骤8.对水下目标进行识别。

提取待识别水声信号的谱滚降点特征、谱质心特征、能量特征、过零率特征、自相关系数特征和不可描述语义特征，再将水声信号的谱滚降点特征、谱质心特征、能量特征、过零率特征、自相关系数特征和不可描述语义特征依次按行拼接，得到该声音信号的特征矩阵，将该声音信号的特征矩阵连接矩阵一起输入到训练好的图卷积网络中，得到目标声音信号的识别结果。

下面结合仿真实验对本发明的效果做进一步的说明：

1.仿真实验条件：

本发明的仿真实验的硬件平台为：处理器为Intel i7 9750H CPU，主频为2.60GHz，内存16GB。

本发明的仿真实验的软件平台为：Windows 10操作系统和python 3.6。

2.仿真内容及其结果分析：

本发明仿真实验是采用本发明和一个现有技术(支撑向量机SVM分类方法)分别对输入的水声信号进行分类。

本发明仿真实验所使用的水声信号数据为利用水声信号仿真器生成的三类仿真水声数据，分别为军舰声音、民船声音以及潜艇声音。

下面结合表1对本发明的效果做进一步的描述。

利用两个评价指标(每类分类精度、总精度OA)分别对利用两种方法对三种水声信号数据分类的结果进行评价。

利用下面公式，计算总体精度OA，三类水声信号的每类分类精度，将所有计算结果绘制成表1：

表1.仿真实验中本发明和现有技术分类结果的定量分析表

由表1可以看出，本发明的总体分类精度OA为94.0％，高于支撑向量机SVM技术方法，每一类的分类精度也均高于支撑向量机SVM技术方法，证明本发明可以得到更高的水声信号分类精度。

以上仿真实验表明：本发明的方法利用提取的多个特征，能够全面的将水声信号中的细节信息表达，利用根据特征定义设计的知识图谱，聚合了各个特征之间的特性，并将特征之间的相异特性放大，使得特征的所表达的信息更加突出，更有利于网络学习到关键特征信息，从而让网络有了更正确的优化方向，使得网络不易产生过拟合现象，有利于最后的分类。