CN114998603A

CN114998603A - 一种基于深度多尺度特征因子融合的水下目标检测方法

Info

Publication number: CN114998603A
Application number: CN202210253811.7A
Authority: CN
Inventors: 李鑫滨; 陈海洋; 于海峰
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2022-09-02

Abstract

本发明公开了一种基于深度多尺度特征因子融合的水下目标检测方法，属于水下目标检测技术领域，包括采集水下目标检测图像，对水下原始图像进行预处理，裁剪成适合网络输入的图像；对水下图像进行数据增强处理并进行标注，扩大算法训练的数据集；构建具有多尺度特征融合、软阈值注意力机制的检测模型，将标注好的图像数据集送进改进Faster RCNN网络模型进行训练；对训练好的水下目标检测模型进行性能评估。本发明提高了算法水下目标特征提取能力，提高了水下目标检测的平均精度，可用于获取水下图像里海产品及其位置。

Description

一种基于深度多尺度特征因子融合的水下目标检测方法

技术领域

本发明涉及水下目标检测技术领域，尤其是一种基于深度多尺度特征因子融合的水下目标检测方法。

背景技术

水下目标检测是海洋探索领域的重要研究内容之一，广泛应用于海洋军事、渔业捕捞、能源勘探的自动化实现等领域。水下目标检测的目的在于水下图像中是否存在感兴趣的目标，并确定目标的位置。

传统的目标检测算法首先人工的提取特征，例如SIFT(尺度不变特征变换匹配算法Scale Invariant Feature Transform),HOG(方向梯度直方图特征 Histogram ofOriented Gradient),SURF(加速稳健特征Speeded Up Robust Features)等，再将这些人为提取的特征结合分类器进行目标识别，最后再结合相应的策略对目标的位置进行定位，但是对于背景复杂多变，目标复杂多变的场景，人们很难总结出图像的抽象特征，所以传统方法对与目标检测由很大的局限性。基于深度学习提取特征的目标检测算法对于同一目标可以提取其较为丰富的特征，从而使得目标检测的算法更加泛化，对实际场景的目标检测更加适应。

近年来，水下图像目标检测普遍采用基于深度学习的方法。深度卷积神经网络在目标检测问题上不需要手工设计特征，对水下图像数据自行进行特征提取，性能表现超过传统算法。其中Faster RCNN模型具有目标检测速度快，精度高等优点。然而Faster RCNN模型在实际水下目标检测仍然存在局限。由于 Faster RCNN采用的网络架构是特征金字塔网络，特征金字塔网络将当前层的特征图与相邻的更高级特征图相加融合得到的特征图用来检测目标。这种情况下，特征融合方式较为粗略，忽略了对低层特征图更有效的利用以及上下文信息的利用，这都制约着水下目标检测精度的提高。

发明内容

本发明需要解决的技术问题是提供一种基于深度多尺度特征因子融合的水下目标检测方法，主要解决现有技术应用到水下目标时，未考虑到水下目标小且有重叠目标，导致检测精度低的问题，能够实现对海洋产品的自动检测，大幅度提高水下目标检测的效率。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于深度多尺度特征因子融合的水下目标检测方法，包括以下步骤：

步骤1，获取水下数据集中的训练集与测试集；

步骤2，构建多尺度和差异特征融合的Faster RCNN检测模型；

步骤3，将软阈值化嵌入注意力机制中，以进行冗余信息的消除；根据各个样本的情况，自适应地给各个样本设置不同的阈值；

步骤4，优化多尺度特征因子融合的Faster RCNN软阈值注意力检测模型中候选锚框，将NMS算法替换为Soft-NMS；

步骤5，设定多尺度特征因子融合的Faster RCNN软阈值注意力检测模型中目标分类与目标位置回归任务的整体损失函数L；

步骤6，训练构建的多尺度特征因子融合的Faster RCNN软阈值注意力检测模型；

步骤7，将测试样本输入到包含权重参数的多尺度特征因子融合的Faster RCNN软阈值注意力检测模型中，预测输出测试样本中目标边界框位置，目标类别及目标的置信度分数。

本发明技术方案的进一步改进在于：步骤1中，具体包括以下步骤：

1.1采集水下的目标检测图像，对水下原始图像数据进行预处理，预处理包括图像裁剪、数据增强；

1.2标注数据集，对增强处理后的图像数据进行人工标注，再划分数据集；将水下图像数据集中的90％作为训练样本，剩余的10％作为测试样本。

本发明技术方案的进一步改进在于：步骤2中，具体包括以下步骤：

2.1从Faster RCNN检测模型的骨干网络ResNet-50中获得3个卷积特征图 C3,C4，C5；

2.2从Faster RCNN检测模型的特征金字塔网络中获得特征图C5上采样得到D6；

2.3构建一个由4个特征图组成的多尺度特征模块，将3个卷积特征图C3， C4，C5和第四个金字塔特征图D6作为多尺度特征增强模块的输入，得到4个融合多尺度增强后的金字塔特征图D3，D4，D5，D6；

2.4根据数据集中正样本的数量，计算得到目标在 [0,32],[32,96][96,256],[256,∞]像素中的特征因子；

2.5将3个卷积特征图C3，C4，C5和第四个金字塔特征图D6作为多尺度特征增强模块的输入，结合特征因子，得到3个融合多尺度增强后的金字塔特征图D3，D4，D5；

2.6构建一个由4个特征图组成的上下文特征模块。

本发明技术方案的进一步改进在于：2.4中，具体的实现方法如下：

2.4.1将第一个卷积特征图C3作为低级特征图，经过步长为1通道数为256 的1×1卷积层输出得到第一个中级特征图D3；

2.4.2将第一个卷积特征图C4作为低级特征图，经过步长为1通道数为256 的1×1卷积层输出得到第二个中级特征图D4；

2.4.3将第一个卷积特征图C5作为低级特征图，经过步长为1通道数为256 的1×1卷积层输出得到第三个中级特征图D5；

2.4.4将多尺度变换后的第三个中级特征图D5，经过步长为2的3×3上采样层，得到多尺度金字塔特征图D6。

本发明技术方案的进一步改进在于：2.6中具体的是将3个融合多尺度的金字塔特征图D3，D4，D5作为上下文特征增强模块的输入，得到3个融合多尺度上下文特征增强后的金字塔特征图P3，P4，P5，P6，其实现方法如下：

2.6.1将融合多尺度的第一个金字塔特征图D5与P6上采样得到的特征图 M5，作为上下文特征增强模块的特征图的输入，得到差异融合上下文特征增强后的第一个金字塔特征图P5；

2.6.2将融合多尺度的第一个金字塔特征图D4与P5上采样得到的特征图 M4，作为上下文特征增强模块的特征图的输入，得到差异融合上下文特征增强后的第二个金字塔特征图P4；

2.6.3将融合多尺度的第一个金字塔特征图D3与P4上采样得到的特征图 M3，作为上下文特征增强模块的特征图的输入，得到差异融合上下文特征增强后的第二个金字塔特征图P3。

本发明技术方案的进一步改进在于：步骤3中，具体包括以下步骤：

3.1将现有Focal Loss函数设定为多尺度特征因子融合的Faster RCNN软阈值注意力检测模型中目标分类任务的损失函数L_cls，其表示如下：

L_cls＝FL(p_i)，

式中，FL(p_i)＝-α(1-p_i)γ×log(p_i)表示焦点损失函数，α表示正负样本的平衡参数，γ表示专注参数，p_i表示第i个锚框为预测目标的概率；

3.2将现有Smooth L1 Loss函数设定为多尺度特征因子融合的Faster RCNN 软阈值注意力检测模型中目标位置回归任务的损失函数L_reg，其表示如下：

L_reg＝SmoothL1(x)，

式中，SmoothL1(x)表示平滑L1平方损失函数，表示第i个锚框相对于预测目标边框的偏移量t_i与第i个锚框相对于真实目标边框的偏移量的差值。

本发明技术方案的进一步改进在于：步骤5中，具体包括以下步骤：

5.1将现有softmax loss函数设定为多尺度特征因子融合的Faster RCNN 软阈值注意力检测模型中目标分类任务的损失函数，用L_cls表示；

5.2将现有Smooth L1 Loss函数设定为多尺度特征因子融合的Faster RCNN 软阈值注意力检测模型中目标位置回归任务的损失函数，用L_reg表示；

5.3由目标分类任务的损失函数L_cls和目标位置回归任务的损失函数L_reg，设定多尺度特征因子融合的Faster RCNN软阈值注意力检测模型整体损失函数L 为：

L＝L({c_i},{t_i})，

式中，N_cls表示目标分类任务中正样本锚框的总数量，c_i表示第i个锚框为预测目标的概率，

表示第i个锚框为真实目标的概率，L_cls为多尺度特征因子融合的Faster RCNN软阈值注意力检测模型中目标分类任务的损失函数λ表示目标分类任务与目标位置回归任务间的平衡权重参数，N_reg表示目标位置回归任务中正样本锚框的总数量，t_i表示第i个锚框相对于预测目标边框的偏移量，

表示第i个锚框相对于真实目标边框的偏移量，L_reg为多尺度特征因子融合的 Faster RCNN软阈值注意力检测模型中目标位置回归任务的损失函数，i表示锚框的索引，其取值范围是从1到K，K为锚框总数。

本发明技术方案的进一步改进在于：步骤6中，具体包括以下步骤：

6.1设学习率为0.0002，优化器使用Adam，训练步数设为2000，训练轮数设为15，在ImageNet数据集上使用骨干网络ResNet-50预训练得到的分类模型参数，作为多尺度特征因子融合的Faster RCNN软阈值注意力检测模型的初始化参数；

6.2将步骤1中获得的训练样本输入到多尺度特征因子融合的Faster RCNN 软阈值注意力检测模型中，使用优化器Adam优化整体损失函数，更新权重参数，当训练轮数达到15时，得到包含权重参数的多尺度特征因子融合的Faster RCNN 软阈值注意力检测模型。

由于采用了上述技术方案，本发明取得的技术进步是：

1、本发明引入多尺度特征增强模块，考虑了高效利用高级特征图的语义信息，引导高级特征图与低级特征图进行融合，使得低级特征图在分辨率不变的前提下，具有丰富的语义信息，加强了低级特征图的表达，同时提升目标的分类置信度。

2、本发明考虑到了全局上下文特征信息的利用，引入特征因子模块，有效利用水下场景待检测目标尺度小的特性，增强了网络模型对于小目标、特征单一的目标检测能力。

3、本发明提高了算法水下目标特征提取能力，提高了水下目标检测的平均精度，可用于获取水下图像里海产品及其位置。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步详细说明：

本发明的技术方案：充分考虑了更有效的特征图融合方式以及如何利用全局上下文特征信息的问题，在Faster RCNN检测模型中引入多尺度特征增强模块以及上下文特征增强模块，构建多尺度特征因子融合的Faster RCNN软阈值注意力检测模型。其首先从Faster RCNN检测模型的骨干网络和特征金字塔网络获取多个层级的特征图，接着引入多尺度特征增强模块，对于多个层级下的特征图，将每个相对高级特征图的语义信息引导到相邻的低级特征图中，丰富每个相对低级特征图的语义信息，然后，对融合多尺度增强后的金字塔特征图引入上下文特征增强模块，获取水下场景的全局上下文特征，最后将增强后的金字塔特征图用在检测模型中，通过多任务学习实现多目标的类别确定和目标位置定位。

实施例

如图1所示，一种基于深度多尺度特征因子融合的水下目标检测方法，包括以下步骤：

步骤1，获取数据集并分为训练样本和测试样本；

获取水下机器人抓取大赛提供的目标检测数据集，该数据集包括2209张像素大小不同的水下图像，以及水下图像上相应的标注目标类别和目标位置数据，本实施例将实地拍摄水下图像与水下影视资料截取获得的水下图像用于扩充数据集共4910张图片，目标检测数据集中90％的数据作为训练样本，剩余10％的数据作为测试样本，即将其中的4419张样本图像作为训练样本，剩余的491 张图像作为测试样本。

步骤2，构建多尺度特征因子融合的Faster RCNN软阈值注意力检测模型；

2.1从Faster RCNN检测模型的骨干网络获得3个卷积特征图C3,C4，C5: FasterRCNN检测模型的骨干网络包括有ResNet-50，ResNet-101，ResNet-152，本实施例中使用骨干网络ResNet-101，即从Faster RCNN检测模型的骨干网络 ResNet-50中获得3个卷积特征图C3,C4，C5；

2.2从Faster RCNN检测模型的特征金字塔网络中获得特征图C5上采样得到P6；

2.3.1将第一个卷积特征图C3作为低级特征图，经过步长为1通道数为256 的1×1卷积层输出得到第一个中级特征图D3；

2.3.2将第一个卷积特征图C4作为低级特征图，经过步长为1通道数为256 的1×1卷积层输出得到第二个中级特征图D4；

2.3.3将第一个卷积特征图C5作为低级特征图，经过步长为1通道数为256 的1×1卷积层输出得到第三个中级特征图D5；

2.3.4将多尺度变换后的第三个中级特征图D5，经过步长为2的3×3上采样层，得到多尺度金字塔特征图D6。

2.4根据数据集中正样本的数量，计算得到目标在

[0,32],[32,96][96,256],[256,∞]像素中的特征因子。

2.5将3个卷积特征图C3，C4，C5和第四个金字塔特征图D6作为多尺度特征增强模块的输入，结合特征因子，得到3个融合多尺度增强后的金字塔特征图P3，P4，P5；

2.6构建一个由4个特征图组成的上下文特征模块；将3个融合多尺度的金字塔特征图D3，D4，D5作为上下文特征增强模块的输入，得到3个融合多尺度上下文特征增强后的金字塔特征图P3，P4，P5，P6：

2.6.1将融合多尺度的第三个金字塔特征图D5与D6上采样得到的特征图 M5，作为上下文特征增强模块的特征图的输入，得到差异融合上下文特征增强后的第一个金字塔特征图P5；

2.6.2将融合多尺度的第二个金字塔特征图D4与P5上采样得到的特征图M4，作为上下文特征增强模块的特征图的输入，得到差异融合上下文特征增强后的第二个金字塔特征图P4；

2.6.3将融合多尺度的第一个金字塔特征图D3与P4上采样得到的特征图 M3，作为上下文特征增强模块的特征图的输入，得到差异融合上下文特征增强后的第二个金字塔特征图P3；

2.6.4将融合多尺度的第四个金字塔特征图D6经步长为1的1×1卷积层输出得到第四个金字塔特征图P6。

5.1将现有softmax loss函数设定为多尺度特征因子融合的Faster RCNN 软阈值注意力检测模型中目标分类任务的损失函数，用L_cls表示为：

其中，

c_i表示第i个锚框为预测目标的概率，i表示锚框的索引，其取值范围是从1到K，K为锚框总数；

5.2将现有Smooth L1 Loss函数设定为多尺度特征因子融合的Faster RCNN 软阈值注意力检测模型中目标位置回归任务的损失函数，用L_reg表示为：

其中，SmoothL1(x)表示平滑L1平方损失函数，

表示第i个锚框相对于预测目标边框的偏移量t_i与第i个锚框相对于真实目标边框的偏移量的差值；

L＝L({c_i},{t_i})，

式中，

N_cls表示目标分类任务中正样本锚框的总数量，c_i表示第i个锚框为预测目标的概率，

表示第i个锚框相对于真实目标边框的偏移量，L_reg为多尺度特征因子融合的FasterRCNN软阈值注意力检测模型中目标位置回归任务的损失函数，i表示锚框的索引，其取值范围是从1到 K，K为锚框总数。

本实施例中，λ取1。

步骤6，训练步骤2构建的多尺度特征因子融合的Faster RCNN软阈值注意力检测模型；

设置训练参数：

设学习率为0.0002，优化器使用Adam，训练步数设为2000，训练轮数设为 15，在ImageNet数据集上使用骨干网络ResNet-50预训练得到的分类模型参数，作为多尺度特征因子融合的Faster RCNN软阈值注意力检测模型的初始化参数；

将步骤1中获得的训练样本输入到多尺度特征因子融合的Faster RCNN软阈值注意力检测模型中，使用优化器Adam优化整体损失函数，更新权重参数，当训练轮数达到15时，得到包含权重参数的多尺度特征因子融合的Faster RCNN 软阈值注意力检测模型；

本发明的效果可通过以下仿真实验进一步说明：

1、仿真条件和内容

仿真采用水下机器人抓取大赛目标检测算法性能测评的水下数据集与自备数据集融合的数据集，以下称为水下数据集，进行多尺度特征因子融合的Faster RCNN软阈值注意力检测模型的训练和测试，所用的基准方法为Faster RCNN检测模型。

设水下数据集中包括4个目标类别，分别是：海星，海胆，海参和扇贝。仿真所用的处理器为Intel(R)Xeon(R)W-2135CPU@3.70GHz，内存为1TB，GPU 为12G的Nvidia TiTan XpGPU，仿真平台为Windows10操作系统，使用PyTorch 深度学习框架，采用Python语言实现。

2、仿真内容

使用本发明和现有的基准方法对水下待检测目标进行检测仿真，改进方法相对于基准方法检测到了更多的小物体，与基准方法相比，本发明重叠的目标检测性能有了相对明显的提升。

3、仿真实验结果对比及分析

采用均值平均精度作为对所有目标类别检测时的评价指标，平均精度作为对单类别目标检测时的评价指标，使用本发明和Faster RCNN在水下测试数据集上的目标进行检测仿真，对其检测的评价指标数值结果作对比，如表1所示。

表1本发明和基准法检测的评价指标数值结果对比

方法	海参	海胆	扇贝	海星	mAP(％)
						基准方法	74.27	87.65	66.66	80.88	77.37
本发明	73.40	88.14	74.19	82.15	79.47

在表1本发明基准方法检测的评价指标数值结果对比中，多目标检测的均值平均精度和各类别平均精度的结果均为小数，粗体表示上述方法中检测该类别目标的最高平均精度。

根据表1本发明基准方法检测的评价指标数值结果对比中，得出以下结论：

1)基准方法的均值平均精度为77.37，本发明的均值平均精度为79.47，本发明比基准方法1的均值平均精度提升了2.10；

2)本发明中有3类目标的平均精度比基准方法的平均精度高，尤其对于扇贝，其平均精度有较明显的提升，主要是因为扇贝尺度小，引入特征因子增强模块，加强了小尺度物体特征的表达，海胆与海星的检测平均精度也有提升，主要是因为对锚框的优化，可以使更多的重叠目标被检测到；

综上所述，本发明在现有Faster RCNN检测模型的基础上，引入多尺度特征增强模块，将高级特征图上的语义信息引导到低级特征图，丰富低级特征图的语义信息，再进一步，引入上下文特征增强模块，最后，将引入多尺度和特征因子融合的Faster RCNN检测模型用于目标检测，输出检测结果，提高了水下目标检测的精度。

Claims

1.一种基于深度多尺度特征因子融合的水下目标检测方法，其特征在于：包括以下步骤：

步骤1，获取水下数据集中的训练集与测试集；

步骤2，构建多尺度和差异特征融合的Faster RCNN检测模型；

2.根据权利要求1所述的一种基于深度多尺度特征因子融合的水下目标检测方法，其特征在于：步骤1中，具体包括以下步骤：

3.根据权利要求1所述的一种基于深度多尺度特征因子融合的水下目标检测方法，其特征在于：步骤2中，具体包括以下步骤：

2.1从Faster RCNN检测模型的骨干网络ResNet-50中获得3个卷积特征图C3,C4，C5；

2.3构建一个由4个特征图组成的多尺度特征模块；

2.4根据数据集中正样本的数量，计算得到目标在[0,32],[32,96][96,256],[256,∞]像素中的特征因子；

2.6构建一个由4个特征图组成的上下文特征模块。

4.根据权利要求3所述的一种基于深度多尺度特征因子融合的水下目标检测方法，其特征在于：2.3中，是将3个卷积特征图C3，C4，C5和第四个金字塔特征图D6作为多尺度特征增强模块的输入，得到4个融合多尺度增强后的金字塔特征图D3，D4，D5，D6；具体的实现方法如下：

2.3.1将第一个卷积特征图C3作为低级特征图，经过步长为1通道数为256的1×1卷积层输出得到第一个中级特征图D3；

2.3.2将第一个卷积特征图C4作为低级特征图，经过步长为1通道数为256的1×1卷积层输出得到第二个中级特征图D4；

2.3.3将第一个卷积特征图C5作为低级特征图，经过步长为1通道数为256的1×1卷积层输出得到第三个中级特征图D5；

5.根据权利要求3所述的一种基于深度多尺度特征因子融合的水下目标检测方法，其特征在于：2.6中具体的是将3个融合多尺度的金字塔特征图D3，D4，D5作为上下文特征增强模块的输入，得到3个融合多尺度上下文特征增强后的金字塔特征图P3，P4，P5，P6，其实现方法如下：

2.6.1将融合多尺度的第一个金字塔特征图D5与P6上采样得到的特征图M5，作为上下文特征增强模块的特征图的输入，得到差异融合上下文特征增强后的第一个金字塔特征图P5；

2.6.2将融合多尺度的第一个金字塔特征图D4与P5上采样得到的特征图M4，作为上下文特征增强模块的特征图的输入，得到差异融合上下文特征增强后的第二个金字塔特征图P4；

2.6.3将融合多尺度的第一个金字塔特征图D3与P4上采样得到的特征图M3，作为上下文特征增强模块的特征图的输入，得到差异融合上下文特征增强后的第二个金字塔特征图P3。

6.根据权利要求1所述的一种基于深度多尺度特征因子融合的水下目标检测方法，其特征在于：步骤3中，具体包括以下步骤：

L_cls＝FL(p_i)，

3.2将现有Smooth L1 Loss函数设定为多尺度特征因子融合的Faster RCNN软阈值注意力检测模型中目标位置回归任务的损失函数L_reg，其表示如下：

L_reg＝SmoothL1(x)，

7.根据权利要求1所述的一种基于深度多尺度特征因子融合的水下目标检测方法，其特征在于：步骤5中，具体包括以下步骤：

5.1将现有softmax loss函数设定为多尺度特征因子融合的Faster RCNN软阈值注意力检测模型中目标分类任务的损失函数，用L_cls表示；

5.2将现有Smooth L1 Loss函数设定为多尺度特征因子融合的Faster RCNN软阈值注意力检测模型中目标位置回归任务的损失函数，用L_reg表示；

5.3由目标分类任务的损失函数L_cls和目标位置回归任务的损失函数L_reg，设定多尺度特征因子融合的Faster RCNN软阈值注意力检测模型整体损失函数L为：

L＝L({c_i},{t_i})，

表示第i个锚框相对于真实目标边框的偏移量，L_reg为多尺度特征因子融合的Faster RCNN软阈值注意力检测模型中目标位置回归任务的损失函数，i表示锚框的索引，其取值范围是从1到K，K为锚框总数。

8.根据权利要求1所述的一种基于深度多尺度特征因子融合的水下目标检测方法，其特征在于：步骤6中，具体包括以下步骤：

6.2将步骤1中获得的训练样本输入到多尺度特征因子融合的Faster RCNN软阈值注意力检测模型中，使用优化器Adam优化整体损失函数，更新权重参数，当训练轮数达到15时，得到包含权重参数的多尺度特征因子融合的Faster RCNN软阈值注意力检测模型。