CN111626341A

CN111626341A - 一种面向水下目标识别的特征级信息融合方法

Info

Publication number: CN111626341A
Application number: CN202010397828.0A
Authority: CN
Inventors: 王红滨; 刘宜陶; 何鸣; 王念滨; 周连科; 张毅; 白云鹏
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2020-09-04
Anticipated expiration: 2040-05-12
Also published as: CN111626341B

Abstract

一种面向水下目标识别的特征级信息融合方法，它属于水下目标识别技术领域。本发明解决了原始水下声音数据本身携带的目标特性有限，采用专家特征提取方法很难从原始数据中提取出有效的特征，且采用现有方法对提取出的特征信息融合效果不佳的问题。本发明对采集的原始声音数据进行处理，使处理过的数据不仅包含目标水声特性，还包含了目标方位特性与速度变化特性。再采用一个端到端的深度神经网络完成后续的特征提取和信息融合工作，克服了采用专家特征提取方法很难从原始数据中提取出有效特征的问题，而且通过实验证明了本发明特征信息融合方法的有效性。本发明可以应用于水下目标识别。

Description

一种面向水下目标识别的特征级信息融合方法

技术领域

本发明属于水下目标识别技术领域，具体涉及一种面向水下目标识别的特征级信息融合方法。

背景技术

声呐是收集水声数据的主要工具。按照数据的收集模式来分类可以分为主动声呐和被动声呐。主动声呐的设计灵感来源于自然界的蝙蝠，其工作原理是通过信号发射器发射特定波形的声信号，这个信号会在水下环境中进行传播，当这个信号遇到目标时会产生反射回波，它还配置一个回波接收器，通过这个接收器来接收并得到目标的回波信息；被动声呐和主动声呐的不同之处在于其自身不发射信号，而仅仅是收集环境中的辐射噪声，并以此对噪声进行处理来得到目标的信息。即主动声呐和被动声呐的接收原理是一样的，不同的是主动声呐是探测方主动发出声波然后靠回波探测，而被动声呐就只接收声波。由于它们不同的工作原理，决定了它们不同的特点：主动声呐拥有发现目标距离远，追踪精度高的优点，然而由于其需要不断发射信号这一工作特性，所以存在一个致命的缺点，即难以隐藏自身，好比黑夜中一个人用手电筒寻找目标一样，所以舰艇不在迫不得已的情况下一般不使用主动声呐；相比于主动声呐，被动声呐可以看成是人在黑夜中用耳朵寻找目标，自身隐蔽性强，所以虽然它的精度不如主动声呐高，但在探测的时候仍然被作为首选的工具。

在传统的水下目标识别中，常见的方法是单传感器收集水声数据，对数据进行特征提取，然后把特征矢量输入到后续分类器中，由分类器进行分类识别。

在多传感器收集数据的背景下，我们也可以仅收集多个传感器的水声数据，再将其进行融合。这种方法虽然简单可行，但是所收集的数据仅仅可以代表目标的水声数据的特性，而没有考虑通过多个传感器的方位组合所带来的目标方位特性与速度变化特性，导致原始数据本身携带的目标特性很有限。即使考虑到通过多个传感器的方位组合所带来的目标方位特性与速度变化特性，采用现有的专家特征提取方法也很难提取出有效的特征，且现有的特征信息融合方法的效果不佳，特征信息融合方法有待进一步改进。

发明内容

本发明的目的是为解决原始水下声音数据本身携带的目标特性有限，采用专家特征提取方法很难从原始数据中提取出有效的特征，且采用现有方法对提取出的特征信息融合效果不佳的问题，而提出了一种面向水下目标识别的特征级信息融合方法。

本发明为解决上述技术问题采取的技术方案是：一种面向水下目标识别的特征级信息融合方法，该方法包括以下步骤：

步骤一、同时利用N个噪声测向声呐采集同一个水下目标的声音数据和方位数据；

步骤二、分别对每个噪声测向声呐采集的水下目标声音数据进行处理，获得处理后的声音数据；

所述处理方法包括对声音数据进行预加重，以及对预加重后的声音数据进行均匀分帧；

步骤三、得到每个噪声测向声呐所对应的处理后声音数据后，分别对每帧声音数据进行帧内部数据的一阶差分处理，再对一阶差分处理结果进行二阶差分处理，将帧内部数据与对应的一阶差分处理结果和二阶差分处理结果共同表示成一个二维数组的形式；

步骤四、分别对N个噪声测向声呐采集的水下目标方位数据进行数据扩充，获得扩充后的目标方位数据，将扩充后的目标方位数据与步骤三中对应的二维数组进行组合，将组合结果作为每帧声音数据所对应的二维数组；

步骤五、分别对步骤四获得的二维数组中的每行进行归一化处理，获得各噪声测向声呐所各自对应的归一化处理后的二维数组；

步骤六、构建多传感器特征加权联系融合网络，所述多传感器特征加权联系融合网络包括N个特征提取子网络、N个一维化操作子网络和一个特征融合子网络；

分别将每个噪声测向声呐对应的归一化处理后二维数组输入到对应的特征提取子网络，提取出每个噪声测向声呐的数据特征；并将提取出的特征分别输入到对应的一维化操作子网络，再将各个一维化操作子网络的输出结果共同输入到特征融合子网络，获得特征融合子网络的输出结果；

将特征融合子网络的输出结果送入分类器，通过分类器输出目标识别结果；

其中，每个特征提取子网络均由第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层以及特征加权联系模块组成；且在第一池化层、第二卷积层和第三卷积层后均连接ReLU激活函数；

每个一维化操作子网络均包括一个展平层，特征融合子网络包括第一全连接层和第二全连接层。

本发明的有益效果是：本发明提出了一种面向水下目标识别的特征级信息融合方法，本发明对采集的原始声音数据进行处理，使处理过的数据不仅包含目标水声特性，还包含了目标方位特性与速度变化特性。再采用一个端到端的深度神经网络完成后续的特征提取和信息融合工作，克服了采用专家特征提取方法很难从原始数据中提取出有效特征的问题，而且通过实验证明了本发明特征信息融合方法的有效性。

通过表4的实验结果可以看出，本发明方法的分类准确率可以达到90％。

附图说明

图1是根据两个传感器方位数据推算目标距离和目标速度的示意图；

图2是MFWLFN网络结构图；

图中，lossmix代表分类结果；

图3是特征加权联系模块的结构图；

图4是深度学习特征串行融合方法示意图；

图5是深度学习特征加权融合方法示意图；

图6是本发明的深度学习特征全连接融合方法示意图；

图7是卷积核运动的示意图；

图8是在单传感器下，原始数据与预处理后数据的水下目标识别实验对比图；

图9是在多传感器下，原始数据与预处理后数据的水下目标识别实验对比图；

图10是常规深度特征融合网络和MFWLFN模型的水下目标识别实验对比图。

具体实施方式

具体实施方式一：本实施方式所述的一种面向水下目标识别的特征级信息融合方法，所述方法具体包括以下步骤：

在本发明中，N个噪声测向声呐是指大于等于2个噪声测向声呐，利用多个传感器采集数据是指利用多个噪声测向声呐采集数据，而非单一噪声测向声呐；在本发明中选择被动声呐收集的数据作为原始数据来源。被动声呐的主要代表就是噪声测向声呐，它通过收集目标的辐射噪声来发现目标，并对其方位参数进行测定。在具体的数据收集过程中，我们选择某型号的噪声测向声呐。这种声呐除了有收集水声数据的水听器，还有配套的噪声测向仪。这个噪声测向仪以每秒钟100次的频率接收当前噪声的方位数据。

即分别获得每帧声音数据所对应的4*M的二维数组，其中，M代表每帧声音数据的长度；

对于原始声音数据的分帧信号，帧长为T毫秒，插入帧长为T/2毫秒，则插入帧的声音数据的长度应该为分帧信号的声音数据长度的一半；

步骤五、分别对步骤四获得的二维数组中的每行进行行内归一化处理，获得各噪声测向声呐所各自对应的归一化处理后的二维数组；

步骤六、构建多传感器特征加权联系融合网络(MFWLFN)，所述多传感器特征加权联系融合网络包括N个特征提取子网络(其中，N个特征提取子网络分别与每个噪声测向声呐一一对应，每个特征提取子网络用于处理对应的噪声测向声呐的数据)、N个一维化操作子网络和一个特征融合子网络；

分别将每个噪声测向声呐对应的归一化处理后二维数组输入到对应的特征提取子网络(保证每个噪声测向声呐的数据输入到同一个特征提取子网络，每个特征提取子网络也仅输入一个噪声测向声呐的数据，随机分配即可)，提取出每个噪声测向声呐的数据特征；并将提取出的特征分别输入到对应的一维化操作子网络(每个特征提取子网络分别有一个一维化操作子网络与其连接)，再将各个一维化操作子网络的输出结果共同输入到特征融合子网络，获得特征融合子网络的输出结果；

将特征融合子网络的输出结果送入分类器，通过分类器输出目标识别结果；即识别出目标是属于哪类船；

如图2所示，每个特征提取子网络均由第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层以及特征加权联系模块(FWCM)组成；且在第一池化层、第二卷积层和第三卷积层后均连接ReLU激活函数；

MFWLFN网络是基于深度学习框架的端到端网络。该网络的输入数据为经预处理的水下传感器数据，选取位于3个不同位置的噪声测向声呐，声呐之间的距离互为100米，组成一个等边三角形，共计3组数据。然后把这3组二维数据分别输入到各自的特征提取子网络中进行训练，获取共计3组深度特征。再把这3组深度特征送入特征融合层，输出得到融合特征，再把融合特征送入Softmax分类器中完成分类识别工作。本发明提出特征加权联系模块(Feature weighted connection module，FWCM)的概念，加在传统的卷积神经网络中使之拥有更好地深度特征提取效果。针对现有融合方法的不足，提出使用全连接层对多个深度特征直接进行全连接操作，来达到深度融合的效果。同时针对本发明的数据是严格按时序对齐这一特点，在整个网络参数的选择上借鉴了时间卷积神经网络(Time convolutionneural network，TCN)的思想，对感受视野的选择灵活多变，这样对模型的记忆大小达到掌控更方便的目的。另外，由于本发明选用的数据是声音时序数据，区别于二维图像数据输入，本发明的输入数据格式采取一维多通道输入，以此保证数据的时序意义。

MFWLFN的网络结构是基于Caffenet的网络结构改进而来。完整的网络结构图如图2所示。其主要由前半部分的多个特征提取子网络、后半部分的全连接网络和最后的分类器构成。输入数据为经过数据预处理后的多个不同位置的传感器数据。在图2中输入数据由Data1、Data2和Data3表示。多传感器数据先输入到各自特征提取子网络进行特征提取工作，特征提取子网络的最后一层是特征加权联系模块，其输出就是多传感器特征。特征提取子网络由卷积结构和特征加权联系模块组成，在图2中分别由conv1，pool1，relu1，conv2，relu2，pool2，conv3，relu3，pool3和FWCM表示。特征提取层的输出分别经过一维化操作后输入到特征融合层，主要由两个全连接层实现其功能。在图中一维化操作由flatten1(展平层1)、flatten2(展平层2)和flatten3(展平层3)表示，特征融合子网络由ip1mix(第一全连接层)和ip2mix第二全连接层表示。特征融合子网络的输出最后送入Softmax分类器中实现分类。

具体实施方式二：本实施方式与具体实施方式一不同的是：所述步骤二中，分别对每个噪声测向声呐采集的水下目标声音数据进行处理，获得处理后的声音数据，其具体过程为：

步骤二一、对采集的水下目标声音数据进行预加重；

f(n)＝s(n)-μ·s(n-1) (1)

式中，f(n)为n时刻预加重输出数据，s(n)为采集的n时刻声音数据，s(n-1)为采集的n-1时刻声音数据，μ为声音数据的预加重系数；

步骤二二、对步骤二一预加重后的声音数据进行分帧；

从预加重后的声音数据的头部开始，对预加重后的声音数据进行均匀分帧处理，帧长取为T毫秒；

在每相邻的两帧之间均插入一帧，插入帧与相邻的两帧均有部分重叠，插入帧长取为T/2毫秒。插入帧同与其相邻的两帧的重叠度是随机的。

声音数据预加重：在水下环境中噪声的产生是随机的，所以难以对噪声实现完全消除，而水下目标的声音信号的频谱特征有频率越高谱值越低的特点，所以如何把有用的声音信号预加重，对后续的声音信号分析非常关键，采用对水声数据的高频部分进行增强，补偿信号衰减，提高处理过程中的精度。

声音数据的分帧：常见的声音信号一般是有非稳态特点的时变信号，声音信号分析的前提是稳定，但是声音信号的非稳态性不利于声音信号的分析，为了满足对声音信号分析的可行性。依照声音信号的短时不变性原则，能把在10～30ms长度范围内的声音信号看作是一个准稳态的信号，认为这段时间里的声音信号是较为平稳的。在此基础上，把声音信号分段，取某一固定长度的声音段称之为帧，对这种分段方法叫做声音信号的分析方法。考虑到两帧之间声音信号的过度可能不平稳，同时也可以扩充数据样本数，选择在两帧之间插入一帧，造成部分重叠，称为帧移。在本发明中对声音信号的处理过程中帧长取100ms，帧移取50ms。

具体实施方式三：本实施方式与具体实施方式二不同的是：所述步骤三的具体过程为：

对于某个噪声测向声呐，将该噪声测向声呐所对应的某一帧声音数据表示为(y₀，y₁，…，y_i,…,y_M)，其中，y_i代表该帧内第i个时刻对应的声音数据，i＝0,1,…,M，M代表该帧声音数据的长度；

在数据(y₀，y₁，…，y_i,…,y_M)的最前面补充一个0后，对(0，y₀，y₁，…，y_i,…,y_M)进行帧内部数据的一阶差分处理，

Δy_i＝y_i+1-y_i (2)

将(y₀，y₁，…，y_i,…,y_M)与一阶差分处理结果表示为公式(3)的形式：

继续对一阶差分处理结果进行二阶差分处理，

Δ(Δy)＝Δy_i+1-Δy_i＝(y_i+2-y_i+1)-(y_i+1-y_i)＝y_i+2-2y_i+1+y_i (4)

将公式(4)表示为：

Δ²y_i＝y_i+2-2y_i+1+y_i (5)

将(y₀，y₁，…，y_i,…,y_M)、一阶差分处理结果以及二阶差分处理结果表示为公式(6)中的二维数组的形式：

同理，再分别获得其它帧声音数据所对应的二维数组。

本实施方式中，对步骤二分帧后的每一帧声音数据均进行处理，包括插入帧。

一阶差分声音数据扩充

首先给出一阶差分的基本定义：

设函数y＝f(x)，式y只对x在非负整数值上有定义，在自变量x依次取遍非负整数，即x＝0,1,2,...时函数值为：

f(0),f(1),f(2),f(3),...

简记为：

y₀,y₁,y₂,y₃,...

若x变为x+1，函数y＝y(x)的改变量如下：

Δy_x＝y(x+1)-y(x),(x＝0,1,2,...)

称为函数y(x)在点x的一阶差分，通常记作：

Δy_x＝y_x+1-y_x,(x＝0,1,2,...)

其代表离散函数中连续相邻两项之差，物理意义就是当前声音与前一刻声音之间的关系，体现相邻两个时刻之间的联系。考虑到声音数据是时序对齐的，用时序对齐的方式把一维声音信号扩充为二维数组的形式。即数组的第一行代表一维原始声音数据，数组的第二行代表原始声音数据的一阶差分序列。但是随之而来的问题是若原数据序列的长度为n，则其一阶差分的长度为n-1，无法进行对齐。针对这一问题，本发明采用在原有数据序列之前填0的方式，来计算其一阶差分序列。但是这样又会出现一个问题，即在时间层面上原始数据序列与一阶差分序列不是完全对齐的，而是依次后移一位。但是从声音数据的物理意义来看，其一阶差分序列主要反映了其线性变化趋势，基于这点考虑，即使一阶差分序列依次后移一位，也可能代表当前时间点声音数据的变化趋势，只不过是发生时刻稍前的变化趋势和发生时刻稍后的变化趋势而已，所以可以采取这种方式。综上所述，得到最终的二维数组如公式(3)所示。

二阶差分声音数据扩充

一阶差分可以在一定程度上反应数据的变化趋势，但当声音数据突然出现一个噪声导致波动时，仅仅使用一阶差分进行处理也难以达到变化趋势的平稳，这时可以引入二阶差分来反映声音的变化趋势。

二阶差分表示的是一阶差分与一阶差分之间的关系。即前一阶差分与后一阶差分之间的关系，体现到帧上就是相邻三个时刻之间的动态关系。同样考虑声音数据是对齐的，用时序对齐的方式在已有的原始数据和一阶差分组成的二维数组上继续扩充，加入原始数据的二阶差分序列作为数组的第三列。那么如果原始数据序列的长度为M，一阶差分的长度为M-1，则二阶差分的长度应该是M-2，无法进行对齐。此时不能再在一阶差分序列前填0了，原因是一阶差分序列已经依次后移一位，如果继续在此基础上后移一位，在物理意义上就不代表某一时刻前后的变化趋势了，而是代表在某一时刻的前一时刻之前的变化趋势，针对这一问题，在处理二阶差分序列对齐的方式上采取在计算出二阶差分序列后，直接在二阶差分序列尾部加0。这么做的原因是二阶差分在绝大部分情况下都能趋于平稳，整个序列越平稳，序列越平稳，其序列中的数字越接近0，所以这种方式对整个二阶差分序列的影响最小。

具体实施方式四：本实施方式与具体实施方式三不同的是：所述步骤四中，分别对N个噪声测向声呐采集的水下目标方位数据进行数据扩充，其具体过程为：

若噪声测向声呐采集水下目标方位数据的频率为T₁次/秒，则分帧后声音数据中每帧声音数据对应(T₁×T)/1000个方位数据，若噪声测向声呐采集的连续两个时刻的水下目标的方位数据分别为z₁和z₂，

则在z₁与z₂之间，z₁所对应时刻后的第j个声音数据对应的方位数据z_n为：

经过方位数据扩充后，得到每个时刻的方位数据，对于某帧声音数据，若该帧声音数据所对应的时间区间为t₁～t₂，即可获得时间区间t₁～t₂所对应的方位数据，将t₁～t₂所对应的方位数据与该帧声音数据所对应的二维数组进行组合，得到该帧声音数据对应的4*M的二维数组。

在传统的水下目标识别中，原始数据中一般不带有目标的方位数据。其原因是因为单传感器识别中，即使单传感器收集到方位数据，其代表的含义也非常有限，这个数据仅仅代表了目标方向，而其他信息如目标距离、目标速度和目标航向却都难以获知。但是在多传感器背景下如果知道一段时间内的目标方位变化，还知道传感器之间的相对位置，可推出该目标的距离、速度和航向等信息。推算过程如图1所示：

设图1中某类型船从西到东行驶，传感器1和传感器2同时收集到目标方位变化数据，且传感器1和传感器2的相对位置及距离已知。在某一时刻通过两个传感器收集到目标的方位交叉点可以通过简单的几何公式计算出目标的距传感器1和传感器2的距离。经过若干秒后，两传感器还能知道若干秒后船的方位变化，同理也得知船此时的位置，如果实时跟踪的话就可以得知船的航行轨迹。有了以上条件还易知船的速度，通过求导数计算还可以算出船的加速度。

既然多传感器通过方位数据的组合就可以知道这么多的信息，所以在多传感器信息融合的背景下，在原始数据中加入方位数据有很大价值。

原始方位数据扩充

首先要明确的是方位数据反映了目标实时方位情况，所以也需要严格的时间刻度对齐。本发明所用的传感器以每秒100次的频率采集目标的方位数据，而通常我们对声音数据采用每隔100ms切片的方式分片，也就是说每段声音数据中仅包含10个目标方位数据，这显然难以满足按时刻对齐的要求。但是从实际出发来看，目前一般的航海器航行速度一般在15到30节左右，且目标一定距离传感器有一段距离，那么在10ms内的目标方向变化其实是非常微小的，基于此考虑本发明对方位数据进行对齐的方式采用插值方式。

假设一段声音数据的长度为1000，那么把这10个方位数据依次对应声音数据的第1、101、201、...、901个，中间的部分的插入会参考与之相邻的两个方向数据。设两个连续时刻的方位数据分别为z₁和z₂，产生的声音数据长度为100，那么z₁时刻后的第i个声音数据对应的插值为：

这样做的前提是在两次方位数据收集的间隙，目标的方位变化是匀速变化的。根据上述现实情况，每两次方位数据收集的方向变化会很小，所以依照这样的规则进行插值是合理的。这样就可以保证每一刻都有一个准确的方位数据与声音数据相对应。即最后得到的数据为4*1000的二维数组，其中1000代表原始声音数据的长度。

具体实施方式五：本实施方式与具体实施方式四不同的是：所述分别对步骤四获得的二维数组中的每行进行归一化处理，其具体过程为：

对二维数组的第一行进行归一化处理：

其中，max是二维数组中第一行数据中的最大值，min是二维数组中第一行数据中的最小值，

是二维数组中第一行数据中的第k个值，

是归一化后二维数组中第一行数据中的第k个值；

同理，分别对二维数组中的其它各行进行归一化处理。

数据的归一化处理就是让数据尽可能落在一定的区间范围内。这种方法通常用在一些评价或者比较的场合中，目的是去掉数据的单位限制使之变成没有量纲的数字，目的是为了更好地对数据进行比较评价。

数据归一化有很多种方法，有极值法、标准差法等。使用不同的方法，会带来不同的评价比较结果。然而在什么条件下选择哪种数据归一化方法还没有法则可以遵守，只能分析自身数据的特点，选出最适合的方法。由于本发明的数据特点存在线性关系，所以使用min-max标准化方法。

具体实施方式六：本实施方式与具体实施方式五不同的是：所述噪声测向声呐所采集的水下目标声音数据的格式为WAV格式。

WAV是一个常见的音频保存格式，其应用很多，在Windows系统平台中，基于PCM编码的WAV被业内一致认定为是支持程度最高音频文件格式，所以在音频信号处理领域，绝大部分情况下都是对WAV文件的直接操作。WAV文件组成主要包括两个主要部分，分别是头部和数据块部，其头部包含了这个音频文件的编码格式，含义等信息，一个标准的WAV文件，头部由44个字节组成。在本发明中，水声数据就采用WAV音频文件的格式保存。用UltraEdit软件打开某一段长度为1分42秒由传感器收集的某船经过的声音文件，并对其主要信息进行解读。

在使用常规卷积神经网络时，原始的输入通过深层网络层层映射后会以特征图的方式表现出来。但是三维特征图最后通过全连接层又会把其一维向量化，这会导致卷积层中含有的大量空间信息丢失，而在多传感器信息融合中，空间信息的丢失会直接影响融合的效果，本发明在常规卷积神经网络的最后一个卷积层后面加入一个新的组织-特征加权联系模块，来实现通道维度加权，使处理后的一维信息也带有空间权重，来达到补足丢失的空间信息的效果。这个模块的意义是把不同层级的特征图中的信息进行相互补充并加权重建强化特征图层。当CNN中的一个卷积层经过卷积操作后输出到下一个卷积层之前，分成两个路线。第一条路线直接通过输出到下一层；第二条路线先进行全局平均池化(GPA)操作，把每个通道的三维特征压缩成一维，从而得到一个特征通道向量，把这一列特征通道向量输入到全连接层中，再把全连接层的输出输入到softmax层中，得到的softmax层输出就是每个通道对应的权重，再把这些权重加权到原来的特征上。这样就能得到依赖于所有中间特征图的全局特征。

在介绍特征加权联系模块之前，需要先介绍全局平均池化(Global AveragePooling，GAP)技术。深度学习一般将最后一个卷积层的特征图和全连接层相接，再用Softmax进行分类。但是通过全连接层得到的深度特征，会把之前卷积层输出的多维展开为一维特征，会丢失多维特征的空间信息。

而GPA技术可以解决这个问题。GPA是技术Min Lin等人提出，它提出的目的是为了能够减少网络参数。GPA技术会对之前卷积层输出的特征图做全局平均池化操作，这样就可以用一个神经元的权值输出代表一个特征图的权重，网络模型可以通过这个神经元的权值输出找到对应的卷积层特征图，使特征信息的重要程度以一个数值表现出来。本发明中借鉴这个思想对之前的特征图重新赋予权值，使其能再一维特征上也体现出多维特征的空间信息。所以，本发明采用GAP技术作为深度特征图加权的关键技术。

具体实施方式七：本实施方式与具体实施方式六不同的是：所述特征加权联系模块(FWCM)的结构包括输入层、全局平均池化层(GPA)、全连接层(dense)、Softmax层和输出层。

本发明给出特征加权联系模块的具体实现过程：

如图3所示，以所有中间特征映射M_i为输入，生成融合表示R。M_i＝[m_i1,...,m_ij,...,m_iC],i＝1,...,M,j＝1,...,C，其中m_ij∈R^W×H表示第i个特征图M_i的第j个通道，C表示通道总数。本发明将全局平均池化应用到每个通道，以获得全局通道特征X_i＝[x_i1,...,x_ij,...,x_iC],X_i∈R^C。如下所示：

Y_i＝a_iX_i

其中a_i表示第i个全连接层的权重集，Y_i＝[y_i1,...,y_ij,...,y_iC],Y_i∈R^C。利用级联和切片操作以及softmax函数来产生不同特征的相应通道的权重。这个过程可以表示为：

W_i＝softmax(Y_j)

其中Y_j＝[y_1j,...,y_ij,...,y_Mj],Y_j∈R^M，W_j＝[w_1j,...,w_ij,...,w_Mj],W_j∈R^M。最终Softmax特征联系单元输出如下公式所示

其中R＝[r₁,....,r_j,...,r_C],r_j∈R^W×H，m′_ij∈R^W×H表示第i个重缩放特征映射的第j个通道，M′_i＝[m′_i1,...,m′_ij,...,m′_iC]。

具体实施方式八：本实施方式与具体实施方式七不同的是：所述各个一维化操作子网络的输出结果共同输入到特征融合子网络，通过将各个一维化操作子网络的输出结果与特征融合子网络的全连接层的神经元连接起来，获得特征融合子网络的输出结果。

在特征级信息融合领域，使用深度学习技术对其实现的方法主要有串行融合和加权融合两种方法，其网络结构示意图分别如图4和图5所示。

在图4中所描述的特征串行融合方法属于前层特征融合方法，这种方法的优点是如果提取到的深度特征维数较低，这种方法融合后的特征总维数也不会很高，并且此方法实现十分简单，识别效果也较好，但当提取到的深度特征维数较高时，采用此方法融合后的特征总维数会很高，导致维数爆炸。而在图5所描述的特征加权融合方法属于后层特征融合方法，它是先对每个传感器的特征进行提取，然后再本地先做出分类决策得到结果，再把多个本地决策结果进行加权计算，得到最终的分类决策结果。这种方法的优点是不存在训练时间过长的问题，但是特别依赖单一本地传感器的决策效果，如果任一传感器出现故障导致决策错误，会对整个融合效果造成很大的影响。此外这种方法的关注点过多的放在了加权策略的选择上，而忽略了多传感器特征之间的相关性，没有对特征冗余的问题进行优化。

本发明使用全连接思想设计特征融合层，在深度学习理论中，全连接操作就是把之前收集到的局部特征使用加权的方法计算出权值矩阵，把所有的局部特征有机的结合在了一起，这与特征级信息融合的概念不谋而合，因为可以把来自不同传感器的特征在宏观上看作是统一目标的不同局部特征表现，那么把输出的特征与下一层做全连接操作就相当于完成了特征级信息融合的过程。而且使用这种方法既可以有效地避免特征维数过高的问题，又可以隐式的把特征间的相关信息联系起来。所以本发明提出一种使用全连接层作为特征融合。常规的串行融合是由多个的深度网络提取出多个传感器数据的一维特征向量，再把这些一维特征向量首尾相接形成融合向量。而在本发明中，在提取出多传感器的一维特征之后直接把它们与全连接层的神经元连接起来，如图6所示。

MFWLFN的卷积核参数的选择

在卷积神经网络中，卷积核多是奇数*奇数的大小规格，例如3*3、5*5等。这些卷积核的中心点叫做锚点，它是卷积核移动的参考位置。在对图像进行训练的时候，每次卷积都要考虑锚点四周的情况，它会有一定的滑动规则直至经过图像的每个角落。奇数过滤器的锚点正好在中心位置，避免了位置信息发生偏移，如果卷积核是偶数*偶数时，这时候就没有办法确定锚点了。不管确定哪一个点作为锚点，卷积核上下左右移动之后，位置信息都会发生偏移。

但是在本发明中，输入数据并不是一张二维图像，而是经过预处理的矩阵形式的连续声音数据，矩阵的宽度为M，M的大小取决于对时间切分的大小，矩阵的高度为4，其特点是每一列的数据都代表来自一个时间点的数据。针对本发明数据的这一特点，并借鉴时间卷积网络的思想，卷积核的大小均为1*M，只是把输入数据看做一维4通道数据。卷积核采取从左到右的移动规则，没有上下移动，这样就保证了每次卷积操作都是按照时间的先后关系做的。这样更能明确的反应数据序列之间的关系，即时间性数据之间的前后关系。卷积核运动的示意图如图7所示。

本发明的防止过拟合的方法

过拟合(Overfiting)的含义就是在神经网络的训练过程中，训练者提高了在训练数据集的表现力，但测试数据集的表现力却下降了。而产生过拟合现象的根本原因是观测值和真实值存在偏差，或者是数据输入过少导致无法对真实问题进行描述。为了在有限的训练数据样本和随机抽样的前提下解决过拟合问题就一直是一个研究热点。在本发明对网络进行优化时采用Dropout方法。它是Hinton由等人提出来的一种不用数据集扩充就能防止过拟合的方法。其具体实现是在神经网络的前半部分(全连接层之前的部分)，假设对一层网络进行训练，其输入输出由下面的两个公式所示：

其中隐层神经元的输出会有一定的概率取0，这代表在模型训练的时候随机的让某些网络节点不工作了。然而从输入输出的角度来看，并没有发生任何变化，当经过这种处理后，对一层网络进行训练的公式就变为了：

r_j ^l～Bernonlli(P)

正是由于其随机的让一些神经元不工作的特点，因此可以避免某些特征在固定的组合下才生效，这样可以有意识的去学习一些普遍的共性特征，而非某些训练样本的一些独特的特征。这种方法对本发明的信息融合网络这种参数过多的模型有明显提升测试准确率的效果。

批尺寸的大小设定

批尺寸(Batch_size)的含义是数据的单位次数输入到网络中的数量大小，即梯度计算数据量的大小。在进行神经网络训练时，batch_size是一个必须进行设置的参数。如果没有引batch_size这一参数，那么在训练过程中所有的训练数据直接输入到网络，经过计算之后得到网络输出值及目标函数值，并以此来调整网络参数使目标函数取极小值。这样做的优势很明显：可以充分利用计算机的并行运算结构，提高数据处理速度；对于相同数据量的处理速度进一步加快。但是，batch_size的大小不能无限增大，如果取过大的batch_size，会导致每个epoch迭代的次数减小，要想取得更好的训练效果，需要更多的epoch，会增大总体运算量和运算时间；此外，每次处理多张图片时，虽然可以发挥计算机并行计算的优势，但是也要充分考虑计算机内存大小的限制。

用图像训练来举例，如果输入图像的数量是2的7次方，这张特征图像的尺寸是40×40，且设这些图像都是灰度图像，即通道数设置为1。取卷积核大小为常见的5×5。则其输入共有128×(5×5×1+1)＝3328，这里的+1是考虑到边界问题增加的。假设数据选择有正负的浮点数，则每次占用的内存大小为128×32×40×40＝6553600，约等于800KB，假设batch_size设置的很大，那么仅仅这一层网络就会带来超大的内存占用，而且随着后续网络的映射，网络参数的数目和内存总量的占用将非常惊人，而且还有可能陷入局部最优解。然而如果batch_size设置的很小，那么想要让其收敛需要更长的训练时间，这是因为因为迭代次数过多。在目前的研究中，通常是根据自身硬件情况综合考虑。在本发明中batch_size设置会采用试错法，从小到大进行实验。

实验部分

1、实验数据集

本发明涉及到的全部实验都采用实验室提供的真实水况下的音频数据集和方位数据集。这些数据来自三艘不同类型的船在同一个水况的声音。包括多个互相间隔100米的传感器收集数据，每个传感器收集每种声音时长102s，采样频率是50000Hz。按照传统水声学声音划分，常用的划分段为100ms，则每段包含5000个采样点。所以在本实验把每种状态的长声段划分成为100ms的短声段，以此作为实验原始样本，考虑到声音数据的连续性以及样本数量的问题，选择采样重叠率为50％。此时每个传感器收集的每种样本的总数为1530个。

2、实验平台及环境

本实验的软件环境如表1所示，硬件环境如表2所示。

表1软件环境

操作系统	Ubuntu16.04
		深度学习框架	Caffe
数据处理软件	Matlab R2015a
		网络设计与编译软件	Visual Studio 2013

表2硬件环境

CPU	Intel Core i7-8750H
		GPU	GTX1050
内存	8GB
		硬盘容量	1TB

由于GPU(独立显卡)的并行计算能力相较于CPU(中央处理器)在训练时间上有明显提升，所以本发明进行的所有对网络模型的实验均采用GPU进行学习训练。

3、数据预处理效果实验验证分析

前面提到每个传感器收集的每种样本的总数为1530个。在本发明中把A、B、C三类水下目标辐射噪声信号分别选取1000个作为训练样本和剩下的530作为个测试样本。对相同的数据做两次实验，第1次是把原始声音数据直接送入深度学习网络模型中进行分类识别，第2次是把原始声音数据按照本发明方法进行数据预处理后送入深度学习网络模型中进行分类识别。

3.1单传感器水下目标识别数据预处理效果实验

首先验证数据预处理对单传感器目标识别的效果影响。数据来源均选择传感器1收集的数据。采用的深度学习模型为Caffenet。由于原始数据为1维数据，根据时间卷积神经网络思想把Caffenet处理成一维CNN。其网络模型参数如表3所示。

表3一维CNN部分网络参数

对于数据预处理过后的数据格式为4*M的矩阵格式，但是应该视作一维4通道数据进行输入，其他参数和表3的网络参数相同即可，分类器均选择选择SoftMax分类器，本实验中，最大迭代次数设为10000，学习率设为0.001。实验结果如下图8所示。

从图8可知，在单传感器目标识别的情况下，对数据进行预处理在目标识别时准确率有所提高，但是提高并不明显。这说明对于单传感器目标识别来说，进行数据预处理对识别准确率帮助不大。这是因为单传感器数据中心加入方向数据后反映的仅仅是目标所在的方向，这对判断目标种类来说帮助较小，还会造成数据冗余，影响收敛速度。

3.2多传感器信息融合目标识别数据预处理效果实验

数据来源选择传感器1、传感器2和传感器3的数据，将它们输入常规的Caffenet深度学习特征级信息融合模型中，此模型采用CNN局部网络学习深度特征，将学到的特征采用串联的方式进行特征融合，最后送入分类器实现分类，网络部分参数同表3，本实验中，最大迭代次数设为10000，学习率设为0.001。实验结果如图9所示。

从图9可知，对数据进行预处理后，将其放入特征级信息融合模型中进行训练得到的目标分类准确率比把原始数据作为输入得到的目标分类准确率有明显的提升。同样印证了之前的猜想，即多传感器原始数据中加入方位数据后，信息融合模型可以学习到更多特征，有利于目标分类识别效果的提升。

4、MFWLFN实验验证分析

本发明主要提出了一种端到端的改进的特征级信息融合网络MFWLFN，这个网络主要由两部分逻辑结构组成，本节先对MFWLFN进行特征级信息融合效果实验。再通过试错法完成对网络参数的优化。

4.1常规深度特征融合网络和MFWLFN对比实验

在本实验中，主要对MFWLFN模型和常规深度特征融合网络模型进行对比试验，选择识别准确率作为主要评判标准，输入数据都采用数据预处理方法处理过的数据。视作一维4通道数据进行输入，即输入数据尺寸为1×5000×4。实验结果如图10所示。

从图10可以看出，MFWLFN模型在学习的过程中准确率基本上是逐渐提升的，其中在2000次迭代时产生了一定波动，这是由于数据本身的复杂性，但是总体的趋势是稳定的。和常规深度特征融合网络相比，MFWLFN的识别准确率提升了7个百分点，且收敛速度基本与前者持平，实验结果说明本发明提出的MFWLFN在水下信息融合领域有较好的融合效果。

4.2最佳卷积层参数设置实验

对于卷积层的参数设置，目前业界还没有明确的标准，所以在本发明中采用试错法选取最优的参数。不同于把二维图像数据作为输入，本发明的输入应该视作一维4通道时序数据。那么本发明讨论的应该是卷积核宽度的选择，如表4所示。

表4卷积层参数对识别率的影响

根据表4的实验结果可知，当卷积层深度不足时，整个模型的分类准确率将略微降低。综合看来选择32,64,128为卷积层深度时，识别准确率较高。但是卷积核的大小对识别准确率的影响不明显，这说明卷积核的大小设置应该从整个网络的结构的匹配度出发来分析。此外，选择较小的卷积核可以使训练速度有所提升，综上所述，卷积核选择1×3尺寸，即保证了训练速度，也没有牺牲太多准确率。

4.3 Batch_size选择实验

在进行神经网络训练时，batch_size是一个必须进行设置的参数。一般在选取batch_size的值时往往采取2的幂数，常见的如16，32，64，128等。取这些值是为了充分发挥计算机的数据处理能力。在本节中就选择这四种常见的值进行实验对比。

从最终的识别准确率来看，选择Batch_size为64稍好，但是在具体的训练过程中，当Batch_Size的大小为16时，整个网络模型在10000次迭代内并没有收敛。而且Batch_Size越大全数据集所需的迭代次数减少，且计算机的内存利用率有所增加。但是随着Batch_Size增加到一定程度，内存负载过大。所以Batch_Size的大小选择中间的64效果更好一些。

5、传感器数量对信息融合效果影响实验

在本节中将采用试错法进行实验，并通过实验结果分析选择出融合效果最好的传感器数。在本实验中传感器数量依次选择为2、3、4、5个。特征级信息融合模型采用MFWLFN模型。不同数量的传感器意味着需要对MFWLFN中的特征提取子网络做相应的添加或减少，其他网络参数没有变化。在传感器位置的放置上，本发明选择把他们按正多边形进行摆放，即4个传感器就把他们安置在正四边形的4个角，以此类推。两个相邻的传感器间隔100米，且其摆放深度均相同。

这么选择的原因是由不同数量的传感器组成的多传感器阵列，其任意一传感器与相邻两个传感器连线所组成的夹角角度可以保证不相同。

通过实验发现，当传感器的数量选择2时，训练收敛速度最快，但是识别准确率较低，当传感器数量选择4的时候，其识别准确率和3个传感器识别准确率持平，但是收敛速度更慢。当传感器数量选择5时，网络在10000次迭代后还没有收敛，这是由于数据过于复杂导致的。所以综合来看，从识别准确率和收敛速度两个指标综合来看，传感器数量选择3效果最好。

通过实验发现，预处理方法对多传感器特征级信息融合的识别效果有明显提升。然后做了MFWLFN和常规深度特征融合模型的对比，证明了优化后模型的在准确率提升上的优越性。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种面向水下目标识别的特征级信息融合方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种面向水下目标识别的特征级信息融合方法，其特征在于，所述步骤二中，分别对每个噪声测向声呐采集的水下目标声音数据进行处理，获得处理后的声音数据，其具体过程为：

步骤二一、对采集的水下目标声音数据进行预加重；

f(n)＝s(n)-μ·s(n-1) (1)

步骤二二、对步骤二一预加重后的声音数据进行分帧；

在每相邻的两帧之间均插入一帧，插入帧与相邻的两帧均有部分重叠，插入帧长取为T/2毫秒。

3.根据权利要求2所述的一种面向水下目标识别的特征级信息融合方法，其特征在于，所述步骤三的具体过程为：

Δy_i＝y_i+1-y_i (2)

继续对一阶差分处理结果进行二阶差分处理，

Δ(Δy)＝Δy_i+1-Δy_i＝(y_i+2-y_i+1)-(y_i+1-y_i)＝y_i+2-2y_i+1+y_i (4)

将公式(4)表示为：

Δ²y_i＝y_i+2-2y_i+1+y_i (5)

同理，再分别获得其它帧声音数据所对应的二维数组。

4.根据权利要求3所述的一种面向水下目标识别的特征级信息融合方法，其特征在于，所述步骤四中，分别对N个噪声测向声呐采集的水下目标方位数据进行数据扩充，其具体过程为：

5.根据权利要求4所述的一种面向水下目标识别的特征级信息融合方法，其特征在于，所述分别对步骤四获得的二维数组中的每行进行归一化处理，其具体过程为：

对二维数组的第一行进行归一化处理：

是二维数组中第一行数据中的第k个值，

是归一化后二维数组中第一行数据中的第k个值；

同理，分别对二维数组中的其它各行进行归一化处理。

6.根据权利要求5所述的一种面向水下目标识别的特征级信息融合方法，其特征在于，所述噪声测向声呐所采集的水下目标声音数据的格式为WAV格式。

7.根据权利要求6所述的一种面向水下目标识别的特征级信息融合方法，其特征在于，所述特征加权联系模块的结构包括输入层、全局平均池化层、全连接层、Softmax层和输出层。

8.根据权利要求7所述的一种面向水下目标识别的特征级信息融合方法，其特征在于，所述各个一维化操作子网络的输出结果共同输入到特征融合子网络，通过将各个一维化操作子网络的输出结果与特征融合子网络的全连接层的神经元连接起来，获得特征融合子网络的输出结果。