CN110163108B

CN110163108B - 基于双路径特征融合网络的鲁棒声呐目标检测方法

Info

Publication number: CN110163108B
Application number: CN201910329213.1A
Authority: CN
Inventors: 孔万增; 贾明洋; 洪吉晨; 张建海; 周文晖
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2020-12-08
Anticipated expiration: 2039-04-23
Also published as: CN110163108A

Abstract

本发明公开了基于双路径特征融合网络的鲁棒声呐目标检测方法。传统图像处理方法使用图像分割的方法将背景和目标区分；本发明如下：一、搭建双路径特征融合网络。二、对步骤1所得的双路径特征融合网络进行训练。三、声呐图像的生成和特征提取。四、结合默认框进行声呐图像目标框的分类和检测。本发明将深度学习技术融入到目标检测中，将声呐数据生成的声呐图像输入网络模型中，在模型中一次性完成特征提取、目标检测、目标分类，从而大大提高检测速度。本发明可以提取到更多的深层次特征，从根本上优化了目标分类，回归。本发明采用多尺度密集相连，以融合多层次特征，提升中小目标检测效果。

Description

基于双路径特征融合网络的鲁棒声呐目标检测方法

技术领域

本发明属于人工智能与水声电子信息的技术领域，具体涉及一种基于双路径特征融合网络的鲁棒声呐目标检测方法。

背景技术

随着计算机科学技术的不断迭代和发展，近年来水下探测技术得到了极大的推动，并且在军事和民事等领域具有广泛的应用，如军事对抗、危险目标排查、目标跟踪等；在其他领域还有水下救援，海底资源勘探测，濒危生物的跟踪与保护，海床建模等具有重大作用。

水下目标检测与识别是现代声呐系统和水声对抗的重要组成部分，是每个国家海上安防的研究重点，一直受到社会各界，技术人员和军事部门的广泛关注，也是我国海军目前急需解决的关键问题之一。水下目标检测与识别是基于声呐技术，信息科学，计算机科学，人工智能等多个领域的一项不断发展的重要技术。海底形势复杂，干扰较多，为了提高海底不同大小，形状目标检测的鲁棒性、精确性和实时性，以谋求军事和民用领域的技术优势，近年来，水下目标检测方法主要如下：

1)基于模板匹配的目标检测

2)基于传统图像处理方法的目标检测

3)基于经验论断的目标检测

4)基于浅层神经网络的目标检测

由于水下环境复杂，声呐设备的非线性成像，采集到的水下三维成像声呐

对比度和信噪比较低，易受地层噪声干扰，当前的水下目标检测识别方法在这种情况下仍然存在着许多瓶颈，如声呐图像目标特征提取不彻底或提取速度慢、水下小目标因对比度和信噪比低被误检或漏检，无法取得高精度、强鲁棒性、系统实时性的同时兼顾，因此声呐目标检测识别方法也需要不断发展和创新

2006年，Geoffrey Hinton提出了深度学习方法。之后深度学习在诸多领域取得了巨大成功，受到广泛关注。2012年，Hinton的研究小组采用深度学习赢得了ImageNet图像分类的比赛，把错误率大幅降到15.315％，遥遥领先于传统图像处理方法，完成了深度学习在计算机领域最具影响力的突破。同时，深度学习在目标识别领域的应用不断取得发展，在ILSVRC2014比赛中，获胜者GooLeNet将top5错误率降到6.656％。时至2017年7月，深度学习算法SE-ResNeXt-152的数据集的Top-5错误率仅为2.251％，已经远远超越了人工标注的错误率(5％)。不光在图像分类领域，深度学习在人脸识别、物体检测、视频分析等多个领域均取得令人惊叹的效果。现如今，Google、微软、百度等知名的拥有大数据的高科技公司争相投入资源，占领深度学习的技术制高点，应用于各种领域取得了许多优秀的成果。以上种种证明了深度学习技术有着巨大的潜力和优越性。通过对前沿深度学习方法的调研分析，为了解决近年来水下目标检测识别的瓶颈问题，本发明提出基于双路径特征融合网络的三维成像声呐图像目标检测方法。

发明内容

本发明的目的在于提供一种基于双路径特征融合网络的鲁棒声呐目标检测方法。

本发明的具体步骤如下：

步骤1、搭建双路径特征融合网络。

所述的双路径特征融合网络包括初始卷积层、双路径模块、融合过渡模块、密集相连模块和最终卷积层。初始卷积层是一个3×3的卷积层。双路径模块共有五个。五个双路径模块依次排列。每个双路径模块均由3×3卷积层和两个1×1卷积层组成。双路径模块内的3×3卷积层位于两个1×1卷积层之间。任意两个相邻的双路径模块之间均通过融合过渡模块连接。最终卷积层共有三个。密集相连模块将第三个双路径模块、第四个双路径模块、第五个双路径模块与三个最终卷积层分别相连。

步骤2、对步骤1所得的双路径特征融合网络进行训练。

步骤3、声呐图像的生成和特征提取。

3-1.将原始声呐数据转化为生成声呐图像。并将将所得的声呐图像输入双路径特征融合网络的初始卷积层，提取声呐特征图。声呐特征图分为第一初始特征图、第二初始特征图、第三初始特征图；

3-2.第一初始特征图经过最终卷积层后，得到第一最终特征图；第二初始特征图与上采样两倍的第一最终特征图进行特征图维数相加后经过最终卷积层，得到第二最终特征图；第三初始特征图、上采样四倍的第一最终特征图及上采样两倍的第二最终特征图进行特征图维数相加后经过最终卷积层，得到第三最终特征图。

3-3.在最终的第一特征图、第二特征图、第三特征图上选取默认框。

步骤4、结合默认框进行声呐图像目标框的分类和检测。

4-1.在第一最终特征图、第二最终特征图、第三最终特征图上预测最终的第一最终特征图、第二最终特征图、第三最终特征图的各默认框的置信度以及形状偏移量，并确定目标框的位置和大小。

4-2.根据目标框，确定获得目标在声呐图像中的位置和类别。

进一步地，步骤1中，在第二个1×1卷积层输出的特征图在通道数维度上被分割成两个部分。该两部分的其中一部分与输入第一个1×1卷积层的特征图进行特征图元素级相加；另一部分与输入第一个1×1卷积层的特征图进行通道数叠加。

进一步地，步骤1中，所述的融合过渡模块对上一个双路径模块输出的特征图做一次步长为2的1×1卷积、一次步长为1的1×1卷积、一次步长为2的3×3卷积和一次步长为2的最大池化。

进一步地，步骤1中，所述的最终卷积层由一个卷积集、一个3×3卷积层和一个1×1卷积构成。卷积集是由1×1卷积层、3×3卷积层、1×1卷积层、3×3卷积层、1×1卷积层构成。第一个最终卷积层输出的特征图进行上采样两倍和上采样四倍，分别输出给后两个最终卷积层进行融合。第二个最终卷积层输出的特征图进行上采样两倍输出给第三个最终卷积层进行融合。

进一步地，步骤2中训练双路径特征融合网络的方法为通过反向传播算法和梯度下降算法。

进一步地，步骤3-1中，提取声呐特征图的具体过程如下：

3-1-1.将预处理得到声呐图像缩放至预设尺寸，然后将缩放至预设尺寸的声呐图像送入基于双路径特征融合网络的初始卷积层。

3-1-2.进入初始卷积层后的声呐图像依次进入五个双路径模块，各双路径模块均对声呐图像做卷积操作，第三个双路径模块输出第三初始特征图，第四个双路径模块输出第二初始特征图，第五个双路径模块输出第一初始特征图。第三初始特征图、第二初始特征图及第一初始特征图的大小依次减小。

进一步地，步骤3-2所得的第一最终特征图、第二最终特征图及第三最终特征图的通道数均为21。

进一步地，默认框共有九种。九种默认框尺寸分别是14×15，16×16，13×33，69×7，15×46，146×12，322×31，414×32，394×59。

进一步地，步骤3-3中，选取默认框的方法具体如下：

3-3-1.通过k-means聚类算法生成九个默认框尺寸。

3-3-2.在第一最终特征图上使用尺寸最大的三种默认框，在第二最终特征图上应用尺寸排在第四至第六的三种默认框，在第三最终特征图上使用尺寸最小的三个默认框，适合检测小对象。

进一步地，步骤4-1中，预测置信度及形状偏移量的方法采用逻辑回归方法。

本发明具有的有益效果是：

1、在以往的水下声呐目标检测识别中，使用的都是传统图像处理方法，传统图像处理方法使用图像分割的方法将背景和目标区分；而本发明将深度学习技术融入到目标检测中，将声呐数据生成的声呐图像输入网络模型中，在模型中一次性完成特征提取、目标检测、目标分类，从而大大提高检测速度(在后续实验数据中可以看到检测效果)。

2、在以往浅层神经网络的方法对质量较差(低对比度，低信噪比)的声呐图像进行特征提取时，因为本身算法、模型的瓶颈(如深度不够)，从而难以提取到图像深层次特征，导致后面检测，分类和回归效果不好。通过在声纳数据集上测试及验证，结果表明当下流行的目标检测方法Yolov3对声纳这一类小目标检测效果也不理想，而且声纳图像中水层、地层干扰较多，多声纳目标之间还存在重叠问题，给目标检测带来了极大的难度，为了实现实时高效的低信噪比声纳目标检测，对Yolov3算法进行改进，重新设计并搭建了darknet66-dpn网络，该网络结合了Densenet和Resnet的优点，增强特征复用，通过多次卷积，上采样操作，进行特征融合，相比于传统方法和浅层神经网络，可以提取到更多的深层次特征，从根本上优化了目标分类，回归。并且本次实验设计的darknet66-dpn网络，在保证精度的前提下，计算量大大减小，速度更快，效率更高(在后续实验数据中可以看到检测效果)。因此，本发明是对在现如今声呐目标检测方法上的一次重大尝试与创新，打破了传统方法在声呐目标检测领域的瓶颈问题。

3、本发明针对声纳图像中目标大多是小目标的情况，在多尺度预测的基础上，对双路径模块组成的基础网络在不同的输出位置上采用多尺度密集相连，以融合多层次特征，提升中小目标检测效果。

附图说明

图1为本发明的声呐图像目标检测总体流程图；

图2为本发明中基于双路径特征融合卷积神经网络的声呐图像目标检测网络流程图；

图3为本发明中初始卷积层、双路径模块、融合过渡模块的组合结构图；

图4为本发明中融合过渡模块的结构图；

图5为基于双路径特征融合卷积神经网络与YOLOv3和YOLOv3-Tiny的总体损失曲线对比图；

图6(a)-6(h)分别为中船重工715研究所在南海实验做采集的八张海底线状及柱状目标声呐图，其中主要包括油管，掩埋雷，以及海底现状威胁设施等。

图7(a)-7(h)分别为本发明处理图6(a)-6(h)后所得的测试效果图。

具体实施方式

以下结合附图对本发明作进一步说明。

如图1所示，基于双路径特征融合网络的鲁棒声呐目标检测方法的具体步骤如下：

步骤1、如图2所示，搭建双路径特征融合网络。

双路径特征融合网络包括初始卷积层、双路径模块(Dpn)、融合过渡模块、密集相连模块和最终卷积层。如图3所示；其中初始卷积层是一个3×3的卷积层，其用于将特征图大小从416×416降到208×208。双路径模块共有五个。五个双路径模块依次排列。每个双路径模块均由3×3卷积层和两个1×1卷积层组成。双路径模块内的3×3卷积层位于两个1×1卷积层之间。其中第一个1×1卷积层和3×3卷积层用于图像数据进行降维，以简化训练，减少数据量，提高训练效率。第二个1×1卷积用于改变维数，在经过第二个1×1卷积层后，特征图在通道数维度上被分割成两个部分。该两部分的其中一部分与输入第一个1×1卷积层的特征图进行特征图元素级相加；另一部分与输入第一个1×1卷积层的特征图进行通道数叠加。双路径模块在有效解决梯度消失的同时，重复利用了卷积网络的特征，更容易发掘新的特征，并大幅减少参数运算量。

任意两个相邻的双路径模块之间均通过融合过渡模块连接。如图4所示，融合过渡模块对上一个双路径模块输出的特征图做一次步长为2的1×1卷积、一次步长为1的1×1卷积、一次步长为2的3×3卷积和一次步长为2的最大池化(通过再进行一次步长为2的1×1卷积来实现)；可见，融合过渡模块对上一个双路径模块输出的特征图进行了特征图维度上的串联拼接作为下一个双路径模块的输入。相对于在现有的Yolov3方法中，使用步长为2的3×3卷积核连接残差模块进行尺寸降低。本发明设置的融合过渡模块，使得相邻的双路径模块间连接得到增强，减少特征传递损失。

最终卷积层共有三个。最终卷积层是由一个卷积集(Convolutional Set)、一个3×3卷积层和一个1×1卷积构成，其中卷积集(Convolutional Set)是由1×1卷积层、3×3卷积层、1×1卷积层、3×3卷积层、1×1卷积层构成。

如图2所示，密集相连模块将第三个双路径模块、第四个双路径模块、第五个双路径模块与三个最终卷积层分别相连。第一个最终卷积层输出的特征图进行上采样两倍和上采样四倍，分别输出给后两个最终卷积层进行融合。第二个最终卷积层输出的特征图进行上采样两倍输出给第三个最终卷积层进行融合。进而实现不同尺度双路径模块的密集相连，进一步融合不同双路径模块输出的特征，这里的融合是在特征图数上求和，增强了各个尺度特征层的语义信息，一定程度上提升了对小目标坐标的回归精度。

步骤2、通过反向传播算法(Back-Propagation，BP)和梯度下降算法(StochasticGradient descent，SGD)对双路径特征融合网络模型进行训练。此过程属于现有成熟技术，故不做详解。

步骤3、声呐图像的生成和特征提取。

3-1.针对三维成像声呐采集到的原始声呐数据，通过对应的协议格式，使用MATLAB软件编写解析数程序，解析出声呐数据，生成声呐图像，用于后面的特征提取，从原始声呐数据中解析出声呐图像属于现有成熟技术，故不详解。

将所得的声呐图像输入双路径特征融合网络的初始卷积层，提取声呐特征图。声呐特征图分为第一初始特征图、第二初始特征图、第三初始特征图；

提取声呐特征图的具体过程如下：

3-1-1.将预处理得到声呐图像缩放至预设尺寸(416×416)，然后将缩放至预设尺寸的声呐图像送入基于双路径特征融合网络的初始卷积层。

3-1-2.进入初始卷积层后的声呐图像依次进入五个双路径模块，各双路径模块均对声呐图像做多次卷积操作，第三个双路径模块输出第三初始特征图(52×52)，第四个双路径模块输出第二初始特征图(26×26)，第五个双路径模块输出第一初始特征图(13×13)。第三初始特征图、第二初始特征图及第一初始特征图的大小依次减小。

3-2.第一初始特征图经过最终卷积层后，得到第一最终特征图，其尺寸为13×13×21；第二初始特征图与上采样两倍的第一最终特征图进行特征图维数相加后经过最终卷积层，得到第二最终特征图，其尺寸为26×26×21；第三初始特征图、上采样四倍的第一最终特征图及上采样两倍的第二最终特征图进行特征图维数相加后经过最终卷积层，得到第三最终特征图，其尺寸为52×52×21。可见，经最终卷积层后，得到的各特征图的通道数均变成了21。

3-3.在最终的第一特征图、第二特征图、第三特征图上选取默认框。该步骤不同于传统的选择性搜索算法SS提取区域建议(RP)和Faster RCNN的区域建议网络RPN，取消了区域建议提取，将一组默认框与每个feature map像素关联起来，这大大加快了目标检测的速度。

选取默认框的方法具体如下：

3-3-1.通过k-means聚类算法生成九个默认框尺寸来替代默认值；九个默认框尺寸分别是14×15，16×16，13×33，69×7，15×46，146×12，322×31，414×32，394×59。通过k-means聚类算法生成九个默认框尺寸相对于常规技术中所用的默认值，能够更好的寻找声纳图像中含有形状特殊的小目标，如细小柱状目标、线状目标。

3-3-2.在第一最终特征图、第二最终特征图、第三最终特征图的所有像素点上均选取预设的默认框(anchor box)，并进行多尺度预测。在不同尺度的最终特征图上，使用不同大小的默认框，具体为：在小尺寸的第一最终特征图(13×13)上使用尺寸最大的三种默认框，在中等尺寸的第二最终特征图(26×26)上应用尺寸排在第四至第六的三种默认框，适合检测中等大小的对象，在大尺度的第三最终特征图(52×52)上使用尺寸最小的三个默认框，适合检测小对象。这使我们能够有效地离散可能的输出框形状的空间，从而检测到不同形状，大小的物体。

步骤4、通过步骤3提取的声纳特征图，结合默认框进行声呐图像目标框的分类和检测。

4-1.在第一最终特征图、第二最终特征图、第三最终特征图上使用逻辑回归方法(具体为YOLOv3方法中的逻辑回归)来预测最终的第一最终特征图、第二最终特征图、第三最终特征图的各默认框的置信度(objectness score)以及形状偏移量(offset)，进而确定目标框(bounding box)的位置和大小。

4-2.根据目标框，确定获得目标在声呐图像中的位置和类别。

本发明的声呐图像目标检测网络总体损失曲线图如图5所示，可以看到本发明的双路径特征融合网络在训练过程中，总体损失随着训练迭代次数的增加不断下降，最终趋于稳定，说明模型参数不断被修正。

使用中船重工715研究所在南海实验做采集的海底线装及柱状目标声呐图对本发明进行验证；用于验证的声呐图像如图6(a)至6(h)所示，其中包括油管，掩埋雷以及海底现状威胁设施等目标。通过本发明对如图6(a)至6(h)进行检测后，获得如图7(a)至7(h)的测试效果图，单张声呐图像的检测时间仅为17ms，可以看到在声呐图像中不同状态和尺度目标都能被精确定位检测与识别。可见，本发明能够快速准确的进行声呐图像中目标的识别。

Claims

1.基于双路径特征融合网络的鲁棒声呐目标检测方法，其特征在于：

步骤1、搭建双路径特征融合网络；

所述的双路径特征融合网络包括初始卷积层、双路径模块、融合过渡模块、密集相连模块和最终卷积层；初始卷积层是一个3×3的卷积层；双路径模块共有五个；五个双路径模块依次排列；每个双路径模块均由3×3卷积层和两个1×1卷积层组成；双路径模块内的3×3卷积层位于两个1×1卷积层之间；任意两个相邻的双路径模块之间均通过融合过渡模块连接；最终卷积层共有三个；密集相连模块将第三个双路径模块、第四个双路径模块、第五个双路径模块与三个最终卷积层分别相连；所述的融合过渡模块对上一个双路径模块输出的特征图做一次步长为2的1×1卷积、一次步长为1的1×1卷积、一次步长为2的3×3卷积和一次步长为2的最大池化；

步骤2、对步骤1所得的双路径特征融合网络进行训练；

步骤3、声呐图像的生成和特征提取；

3-1.将原始声呐数据转化为生成声呐图像；并将将所得的声呐图像输入双路径特征融合网络的初始卷积层，提取声呐特征图；声呐特征图分为第一初始特征图、第二初始特征图、第三初始特征图；

3-2.第一初始特征图经过最终卷积层后，得到第一最终特征图；第二初始特征图与上采样两倍的第一最终特征图进行特征图维数相加后经过最终卷积层，得到第二最终特征图；第三初始特征图、上采样四倍的第一最终特征图及上采样两倍的第二最终特征图进行特征图维数相加后经过最终卷积层，得到第三最终特征图；

3-3.在最终的第一特征图、第二特征图、第三特征图上选取默认框；

步骤4、结合默认框进行声呐图像目标框的分类和检测；

4-1.在第一最终特征图、第二最终特征图、第三最终特征图上预测最终的第一最终特征图、第二最终特征图、第三最终特征图的各默认框的置信度以及形状偏移量，并确定目标框的位置和大小；

4-2.根据目标框，确定获得目标在声呐图像中的位置和类别。

2.根据权利要求1所述的基于双路径特征融合网络的鲁棒声呐目标检测方法，其特征在于：步骤1中，在第二个1×1卷积层输出的特征图在通道数维度上被分割成两个部分；该两部分的其中一部分与输入第一个1×1卷积层的特征图进行特征图元素级相加；另一部分与输入第一个1×1卷积层的特征图进行通道数叠加。

3.根据权利要求1所述的基于双路径特征融合网络的鲁棒声呐目标检测方法，其特征在于：步骤1中，所述的最终卷积层由一个卷积集、一个3×3卷积层和一个1×1卷积构成；卷积集是由1×1卷积层、3×3卷积层、1×1卷积层、3×3卷积层、1×1卷积层构成；第一个最终卷积层输出的特征图进行上采样两倍和上采样四倍，分别输出给后两个最终卷积层进行融合；第二个最终卷积层输出的特征图进行上采样两倍输出给第三个最终卷积层进行融合。

4.根据权利要求1所述的基于双路径特征融合网络的鲁棒声呐目标检测方法，其特征在于：步骤2中训练双路径特征融合网络的方法为通过反向传播算法和梯度下降算法。

5.根据权利要求1所述的基于双路径特征融合网络的鲁棒声呐目标检测方法，其特征在于：步骤3-1中，提取声呐特征图的具体过程如下：

3-1-1.将预处理得到声呐图像缩放至预设尺寸，然后将缩放至预设尺寸的声呐图像送入基于双路径特征融合网络的初始卷积层；

3-1-2.进入初始卷积层后的声呐图像依次进入五个双路径模块，各双路径模块均对声呐图像做卷积操作，第三个双路径模块输出第三初始特征图，第四个双路径模块输出第二初始特征图，第五个双路径模块输出第一初始特征图；第三初始特征图、第二初始特征图及第一初始特征图的大小依次减小。

6.根据权利要求1所述的基于双路径特征融合网络的鲁棒声呐目标检测方法，其特征在于：步骤3-2所得的第一最终特征图、第二最终特征图及第三最终特征图的通道数均为21。

7.根据权利要求1所述的基于双路径特征融合网络的鲁棒声呐目标检测方法，其特征在于：默认框共有九种；九种默认框尺寸分别是14×15，16×16，13×33，69×7，15×46，146×12，322×31，414×32，394×59。

8.根据权利要求1所述的基于双路径特征融合网络的鲁棒声呐目标检测方法，其特征在于：步骤3-3中，选取默认框的方法具体如下：

3-3-1.通过k-means聚类算法生成九个默认框尺寸；

9.根据权利要求1所述的基于双路径特征融合网络的鲁棒声呐目标检测方法，其特征在于：步骤4-1中，预测置信度及形状偏移量的方法采用逻辑回归方法。