CN110956222B

CN110956222B - 用于水下目标检测的检测网络的方法

Info

Publication number: CN110956222B
Application number: CN201911303406.6A
Authority: CN
Inventors: 王智慧; 李豪杰; 刘崇威; 王世杰; 唐涛
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2021-11-19
Anticipated expiration: 2039-12-17
Also published as: CN110956222A

Abstract

本发明属于计算机目标检测技术领域，提供了一种用于水下目标检测的检测网络的方法。两个轻量级的模块为基础构建神经网络，通过MFF与MBP模块搭建UnderwaterNet。前者加强了信息在一个模块之内的交互性与流动性，后者通过不同尺度的高斯模糊进行下采样，既加强了网络的平移不变性也产生了利于小目标检测的不同等级的模糊特征图。两者都具有轻量级与多尺度的特点，因而适合部署到水下机器人上，在保证速度的同时也能达到很高的精度，为水下目标检测任务提供了一种新的解决方案。

Description

用于水下目标检测的检测网络的方法

技术领域

本发明属于计算机目标检测技术领域，涉及一种用于水下目标检测的深度神经网络的方法。

背景技术

如今，随着对海洋探索的需求的增加，水下目标检测任务需求日益明显，水下目标检测的目标是识别水下图像中的生物并定位，例如：海洋牧场中水下抓捕机器人自动识别并定位海洋生物(海参，海胆，扇贝)等。近年来，卷积神经网络(CNNs)在计算机视觉任务中取得了显着成就，成为目标检测的主要方法。CNNs网络中不同级别的特征包含不同的信息，浅层特征富含图像细节，而深层特征具有更强的语义信息。最近，许多视觉识别相关研究证明，充分利用不同层次的特征可以有效地增强卷积神经网络(CNNs)的特征表示能力，例如：残差、门控和跳跃连接等特征分离模块被证明是非常有效的。除了生成更好的特征表示，还需要进一步探索如何有效的使用这些特征表示。现有的方法是将不同阶段的特征表示进行融合，使用单个分类器生成预测结果，但是即使使用这种特征聚合策略，这种方法也不能充分利用CNNs的潜力。如何获取CNNs不同级别的特征表示的潜力，并能够以自适应的方式使用这些特征表示对水下目标检测任务非常重要。

水下目标检测技术的相关研究现状如下：

在CNNs被大规模应用之前，检测器都是基于滑动窗口并辅以手工设计的特征(SIFT，HOG)来进行目标检测的。Mehdi等人同时利用Haar特征和物体形状特征来进行自动鱼类检测(Mehdi Ravanbakhsh,Mark R.Shortis,Faisal Shafait,Ajmal Mian,EuanS.Harvey,and James W.Seager.Automated fish detection in underwater imagesusing shape-based level sets.Photogrammetric Record,30(149):46–62,2015.)。随着CNNs的发展，基于CNN的检测器在物体检测领域取得了重大进步。现代基于CNN的目标检测方法大致可分为两阶段法和一阶段法。两阶段方法(R-CNN，R-FCN)首先产生预选框，然后确定物体的位置和类别。它们实现了最先进的性能，但需要大量的计算，不能满足实时性的要求。单阶段方法将选框和预测过程统一起来，使得检测器比两阶段方法更快。Redmon等提出了YOLO使用端到端CNN直接预测每个对象的类和位置，但YOLO与其他两阶段方法之间仍存在较大的精度差距。之后，SSD在某一层上分别采用锚和不同的比例来提高检测性能。近年来，出现了许多无锚的单阶段方法。受到以上方法的启发，Li等采用Fast R-CNN框架进行水下目标检测(Li Xiu,Shang Min,Hongwei Qin,and Liansheng Chen.Fast accurate fishdetection and recognition of underwater images with fast r-cnn.In Oceans,2016.)。

发明内容

本发明的目的是提供一个快速水下目标检测网络，通过不同感受野的特征相互融合，以提高检测结果的准确性。

本发明采用的技术方案如下：

一种用于水下目标检测的检测网络的方法，基于两个基本模块：MFF和MBP，基于这两个模块，提出了一个目标检测网络(UnderwaterNet)，如图1所示。MFF能够更好的融合不同尺度的特征，并能够更好地利用不同规模的信息，得到更加准确的预测；MBP能够通过不同程度的高斯模糊来增强网络对物体的平移不变性。

1)构建MFF模块，其结构如图1(c)所示。对于一个输入张量，首先通过一个1×1卷积层将这个输入的channel扩大N倍(N是kernel sequence中的数字个数，比如在图1(c)中，kernel sequence是[3,5,7]，N为3)。然后将输出沿channel轴等分为N组，命名为G_i,i∈{1,…,N}。之后每组都会被相应的深度可分离卷积K_i处理，K_i的核大小对应kernelsequence中的第i个数字。K_i的输出在被加上G_i+1之后被K_i+1处理。最后这些平行分支的输出被并联到一起然后再通过一个1×1卷积层降维得到最终输出。还在MFF内使用了两处跳跃连接，一处是在输入张量与张量之间；一处是在两个扩张张量之间。

2)构建MBP模块，其结构如图1(b)所示。对于一个输入张量，首先用一个步长为1的最大池化层对其进行处理，然后沿channel轴对输出进行3等分，对这3组依次进行核大小为3、5、7，步长为2的高斯模糊操作，最后将3组进行并联得到最终输出。

3)通过步骤1)、2)构建起来的MFF与MBP模块搭建UnderwaterNet，其结构如图1(a)所示。整个网络被分为编码和解码两个部分。对于编码器，使用步长为2的3×3的卷积作为第一层，然后是步长为1的3×3的卷积层。还利用了在第二个卷积层前后使用了跳跃连接。后4个Stage的结构是相同的，但配置不同。从Stage2到Stage4的kernel sequence都被设置为[3,5,7]，但是在Stage5中它们是[3,5,7,9]。在解码器中，使用3个解码器逐步将分辨率恢复到输入分辨率的四分之一。每个解码器由一个3×3卷积层和一个双线性上采样层组成。

4)采用CenterNet(Xingyi Zhou,Dequan Wang,and Philipp

Ob-jects as Points.arXiv e-prints,page arXiv:1904.07850,Apr 2019.)中提出的物体检测方案来进行目标检测。在3)中的网络搭建好之后，采用CenterNet中的无锚方法来构造头部。头部由3部分组成：HeatMap，预测一个物体的中心；WHMap，预测物体的宽度和高度的；OffsetMap，预测一个物体的预测中心和真实中心之间的偏移量。每一部分都是由一个3×3卷积、ReLU和另一个1×1卷积层组成的。损失函数也与CenterNet相同。

本发明的用于水下目标检测的深度神经网络的方法，以两个轻量级的模块(MFF、MBP)为基础构建神经网络，通过MFF与MBP模块搭建UnderwaterNet。前者加强了信息在一个模块之内的交互性与流动性，后者通过不同尺度的高斯模糊进行下采样，既加强了网络的平移不变性也产生了利于小目标检测的不同等级的模糊特征图。两者都具有轻量级与多尺度的特点，因而适合部署到水下机器人上，在保证速度的同时也能达到很高的精度，为水下目标检测任务提供了一种新的解决方案。

附图说明

图1为本发明的网络结构图，(a)为UnderwaterNet的整体结构图，(b)为MBP模块的结构图，(c)为MFF的结构图。

图2为UnderwaterNet的检测结果。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面对本发明的具体实施方式作进一步的详细描述。

在NVIDIATITAN XP GPU、Intel Xeon CPU E5-2680 v4上使用CUDA10.0和cuDNN7.3.1后端进行实施。的UnderwaterNet是在PyTorch上实现的。在训练和推理两方面的图像分辨率都是512×512。使用了带有Adam的Lookahead优化器，初始学习率设置为2.3e-5。批量大小为32。使用了零均值归一化、随机翻转、随机缩放(0.6到1.3之间)和裁剪来增加数据。使用UDD数据集作为UnderwaterNet的训练数据。UDD是一个真实海洋牧场目标检测数据集，包含有海参，海胆，扇贝三类检测目标共2227张图片(1827张训练，400张测试)。

我分别对MBP与MFF两模块进行消融实验以验证他们对UnderwaterNet的贡献。对于MBP，使用MaxPool和不同核大小的MaxBlurPool与MBP进行比较，如表1所示。由于抗混叠和多尺度，的方法比MaxPool高5.5％。的方法在单一核大小的MaxBlurPool中也获得了最高的精度，说明多级模糊策略对于目标检测是有益的。

表1不同池化策略的比较

对于MFF，与MobileNetv2中的块相比，使用了不同的核大小，并在MFF中添加了分支之间的跳跃连接。表2显示了不同设置的结果。对于MFF，第一行等于MobileNetv2中的块，第二行等于MixNet中的块，第三行是标准MFF块。可以看出，不同的核和跳跃连接操作比第一个操作的准确率提高了4.6％。这些改进来自于对多尺度感受野的利用和将信息流整合到一个块中。

表2不同设置下MFF块的结果

使用了一些实时方法来与UnderwaterNet进行比较。为了公平的比较，所有的模型都经过了从零开始收敛的训练，并且没有使用任何测试增强。训练和推断都在同一台服务器上进行。结果如表3所示。图2显示了UnderwaterNet的检测结果。

在所有的方法中，UnderwaterNet以最少的参数(只有1.3M)优于其他模型，并且在速度和精度之间做出了最好的权衡。它以48帧/秒的速度达到了47.4％的准确度，并且在海胆和扇贝上都取得了最高的精确度。相比与其他目标检测器，的检测器在数据集中获取了较高的准确率和较快的速度，这意味着本发明的方案可以很好地嵌入到机器人上以进行水下目标抓取。

表3为不同检测网络在UDD上的准确率

以上所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种用于水下目标检测的检测网络的构建方法，其特征在于，所述的方法包括步骤：

1）构建MFF模块：对于一个输入张量，首先通过一个1×1卷积层将这个输入的通道扩大

倍，

是核序列中的数字个数；然后将输出沿通道方向等分为

组，命名为

；

直接被相应的深度可分离卷积

处理获得

，然后

的输出

在被加上

之后被相应的深度可分离卷积

处理获得

，

，

的核大小对应核序列中的第

个数字；最后这些平行分支的输出

被并联到一起然后再通过一个1× 1卷积层降维得到输出张量；还在MFF内使用了两处跳跃连接，一处是经过1× 1卷积层降维得到的输出张量上叠加输入张量得到最终输出；一处是在平行分支的输出

被并联到一起获得的扩张张量上叠加

被并联到一起获得的扩张张量；

2）构建MBP模块：对于一个输入张量，首先用一个步长为1的最大池化层对其进行处理，然后沿通道方向对输出进行3等分，对这3组依次进行核大小为3、5、7，步长为2的高斯模糊操作，最后将3组进行并联得到最终输出；

3）通过步骤1）、2）构建起来的MFF与MBP模块搭建UnderwaterNet；整个网络被分为编码和解码两个部分；对于编码器，使用步长为2的3×3的卷积作为第一层，然后是步长为1的3×3的卷积层；还利用了在第二个卷积层前后使用了跳跃连接；后4个Stage的结构是相同的，但配置不同；从Stage2到Stage4的核序列都被设置为[3,5,7]，在Stage5中它们是[3,5,7,9]；在解码器中，使用3个解码器逐步将分辨率恢复到输入分辨率的四分之一；每个解码器由一个3×3卷积层和一个双线性上采样层组成；三个解码器分别命名为Decoder1、Decoder2、和Decoder3；Decoder1接收Stage5的输出；Decoder1的输出和Stage4的输出叠加作为Decoder2的输入；Decoder2的输出和Stage3的输出叠加作为Decoder3的输入；

4）在步骤3）中的网络搭建好之后，采用CenterNet中的无锚方法来构造头部；头部由3部分组成：HeatMap，预测一个物体的中心；WHMap，预测物体的宽度和高度的；OffsetMap，预测一个物体的预测中心和真实中心之间的偏移量；每一部分都是由一个3×3卷积、ReLU和另一个1×1卷积层组成的；损失函数也与CenterNet相同；Decoder3的输出和Stage2的输出叠加作为头部的输入。