CN115147711A

CN115147711A - 基于改进Retinanet的水下目标检测网络及方法

Info

Publication number: CN115147711A
Application number: CN202210871217.4A
Authority: CN
Inventors: 宋亚林; 袁明阳; 甘志华; 庞子龙; 于俊洋; 何欣
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2022-07-23
Filing date: 2022-07-23
Publication date: 2022-10-04
Anticipated expiration: 2042-07-23
Also published as: CN115147711B

Abstract

本发明提供一种基于改进Retinanet的水下目标检测网络及方法。该网络包括：backbone层、neck层和head层；backbone层采用残差网络Resnet50；neck层包括特征金字塔网络模块、上下文提取模块和注意力引导模块；head层包括下采样模块、分类子网络和框回归子网络；其中，待检测的水下图像经过backbone层进行后得到四个不同大小的特征图；四个不同大小的特征图并列输入至neck层进行特征融合，得到四个不同大小的新特征图；四个不同大小的新特征图中的最上层的新特征图经下采样模块之后，连同其他三个新特征图一并输入至分类子网络和框回归子网络从而得到水下图像中的各水下目标。

Description

基于改进Retinanet的水下目标检测网络及方法

技术领域

本发明涉及水下目标检测技术领域，尤其涉及一种基于改进Retinanet的水下目标检测网络及方法。

背景技术

在传统水产养殖业中，海底生物的捕捞主要依靠潜水员潜入水下完成。但这种方式成本高，安全系数低，作业时间短，对潜水员身体伤害大，因此利用水下机器人进行智能捕捞已经成为发展趋势。目标检测是水下捕捞机器人的关键环节，充当着水下捕捞机器人的眼睛，其检测的结果将直接影响后续捕捞作业的规划与控制。

目标检测算法分为传统目标检测和基于深度学习的目标检测，随着深度学习的发展，目标检测算法在精度和速度方面都有所提升，但水下数据集属于特殊场景，拍摄的图像整体会存在色差，对比度较低，局部信息模糊，无法进行特征提取，甚至会存在特征信息丢失，另一方面，水下数据集中的目标体积小，图像分布密集，还会有遮挡的情况，这都为水下目标检测增加了难度。

发明内容

针对现有的水下目标检测方法存在的问题，本发明提供一种基于改进Retinanet的水下目标检测网络及方法。

一方面，本发明提供一种基于改进Retinanet的水下目标检测网络，包括：backbone层、neck层和head层；所述水下目标检测网络中的任一网络层均为全互连接，所述全互连接是指上一层的特征映射作为当前层的输入，当前层的特征映射作为下一层的输入；所述backbone层采用残差网络Resnet50；所述neck层包括特征金字塔网络模块、上下文提取模块和注意力引导模块；所述head层包括下采样模块、分类子网络和框回归子网络；

其中，待检测的水下图像经过所述backbone层进行后得到四个不同大小的特征图；四个不同大小的特征图并列输入至所述neck层进行特征融合，得到四个不同大小的新特征图；四个不同大小的新特征图中的最上层的新特征图经所述下采样模块之后，连同其他三个新特征图一并输入至所述分类子网络和所述框回归子网络从而得到所述水下图像中的各水下目标。

进一步地，所述特征金字塔网络模块包括相连接的两个结构相同的特征分支和三个上采样模块，将两个特征分支分别记作前特征分支和后特征分支，通过前特征分支接收来自backbone层输出的特征图，通过后特征分支输出特征融合后的新特征图；

每个所述特征分支包括四个结构相同的卷积块；其中，前特征分支中当前层卷积块的最终输出一方面直接作为后特征分支中对应层卷积块的输入；另一方面经过所述上采样模块之后与下一层卷积块的直接输出进行Add操作；其中，若当前层卷积块为最上层卷积块，其最终输出即为直接输出；否则，其最终输出为Add操作之后的输出。

进一步地，所述前特征分支中最上层卷积块的输出依次经过上下文提取模块和注意力引导模块之后输入至后特征分支中对应层卷积块。

进一步地，所述卷积块包括依次相连接的Conv层、bn层和LeakeyReLU层。

另一方面，本发明提供一种基于改进Retinanet的水下目标检测方法，采用上述的基于改进Retinanet的水下目标检测网络，所述方法包括：

步骤1：构建水下图像训练集，并对所述水下图像训练集进行预处理；

步骤2：设置水下目标检测网络的超参数和损失函数，并基于所述水下图像训练集对所述水下目标检测网络进行训练得到水下目标检测模型；

步骤3：将待检测的水下图像输入至所述水下目标检测模型，得到所述水下图像中的各水下目标。

进一步地，所述预处理包括将所有水下图像缩放至相同的大小，以及对其中给定数量的水下图像进行随机旋转。

进一步地，采用公式(1)所述的函数作为损失函数：

FL(p_t)＝-(1-p_t)^γlog(p_t) (1)

其中，p_t为预测类别的概率，γ为超参数，γ≥0，FL(p_t)表示概率p_t对应的损失值。

进一步地，所述水下目标检测网络的超参数包括动量参数、权重衰减正则项参数和初始学习率。

本发明的有益效果：

本发明提供的基于改进Retinanet的水下目标检测网络及方法，针对原来的Retinanet网络框架，通过在原来的特征金字塔网络中加入上下文提取模块，使用各种不同大小的感受野丰富的上下文信息，引入密集连接去解决梯度消失问题，将扩展层的输出和上采样的输出连接起来，以保持原始输入的粗粒度信息；加入AM模块，使其更加关注子区域之间的相关关系，也可以保持每个目标的精确位置信息；在整个框架的基础上，配合训练参数的调整，使得整个模型可以用于对水下复杂场景检测任务的优化，并且检测精度较传统的模型更好。

附图说明

图1为本发明实例提供的基于改进Retinanet的水下目标检测网络的结构示意图；

图2为上下文提取模块的结构示意图；

图3为注意力引导模块的结构示意图；

图4为本发明实例提供的基于改进Retinanet的水下目标检测方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本发明实施例提供一种基于改进Retinanet的水下目标检测网络，包括backbone层、neck层和head层；所述水下目标检测网络中的任一网络层均为全互连接，所述全互连接是指上一层的特征映射作为当前层的输入，当前层的特征映射作为下一层的输入；所述backbone层采用残差网络Resnet50；所述neck层包括特征金字塔网络模块、上下文提取模块(CEM)和注意力引导模块(AM)；所述head层包括下采样模块、分类子网络和框回归子网络；

具体地，残差网络Resnet50包括Conv1、Conv2_x、Conv3_x、Conv4_x、Conv5_x五个不同尺度的采样层；每个采样层均包括Conv卷积层，归一化层以及激活函数ReLU。若给定水下图像的尺寸大小为1000×600，通过残差网络Resnet50之后可以依次输出四个不同大小的特征图，分别为：256×56×56、512×28×28、1024×14×14、2048×7×7。

作为一种可实施方式，所述特征金字塔网络模块(FPN)包括相连接的两个结构相同的特征分支和三个上采样模块，将两个特征分支分别记作前特征分支和后特征分支，通过前特征分支接收来自backbone层输出的特征图，通过后特征分支输出特征融合后的新特征图；

作为一种可实施方式，所述前特征分支中最上层卷积块的输出依次经过上下文提取模块和注意力引导模块之后输入至后特征分支中对应层卷积块。

具体地，残差网络Resnet50输出的四个不同大小的特征图并列输入至特征金字塔网络模块进行特征融合，将融合后的四个新特征图直接输出，并将其中最上层的新特征图经过下采样模块之后再输出，最终可以得到五个不同大小的新特征图，分别为：256×56×56、256×28×28、256×14×14、256×7×7和256×3×3。

作为一种可实施方式，上述的卷积块包括依次相连接的Conv层、bn层和LeakeyReLU层。

其中，CEM的结构示意图如图2所示。该模块包括两个平行分支。其中一个分支为扩展模块，该分支由五个空洞卷积块密集连接组成；每个空洞卷积块包括两层由Conv层和LeakyReLU层组成的层结构。另一个分支为上采样模块，该分支由平均全局池化层、Conv层、LeakyReLU层和双线性插值上采样层组成，两个平行分支的输出进行concat操作后作为CEM的输出。

其中，AM的结构示意图如图3所示。该模块包括上下文注意力(CxAM)模块和内容注意力(CnAM)模块，CxAM模块包括三个并列的Conv卷积层和LeakyReLU层，对前两个Conv卷积层和LeakyReLU层的输出进行reshape和permute以改变其数组格式，后进行矩阵乘法并reshape数组格式，再通过激活函数Sigmoid和平均池化，与后面一个Conv卷积层和LeakyReLU层的输出进行矩阵点乘。CnAM模块与上下文注意力模块结构相同。

作为一种可实施方式，分类子网络和框回归子网络均为五个Conv层，用于得到分类信息和回归框位置信息。

具体地，将特征融合后的五个特征图输入至框回归子网络和分类子网络，获得所有框位置和类别信息，接着计算所有框和真实框的交并比(IOU)大小，找到所有框中IOU最大的真实框的索引以及该框的IOU大小，并计算分类的FocalLoss损失和回归框的FocalLoss损失。用该网络可以检测到水下生物，并能对其进行框选和标注类别。此外，可以使用AP和mAP对检测框的精度进行评价。

本发明实施例提供的水下目标检测网络，在Retinanet网络的FPN框架中加入了CEM模块和AM模块，并将FPN的顶层特征向下和低层特征做融合，形成新的特征提取网络。通过加入CEM模块，使用不同大小的感受野丰富了上下文信息，引入密集连接去解决梯度消失问题；通过加入AM模块，使其更加关注子区域之间的相关关系，也可以保持每个目标的精确位置信息；在整个框架的基础上，配合训练参数的调整，在水下目标检测方面取得了较高的精度，对不同类型的水下生物的检测均有理想的效果，在水下目标检测领域具有广阔的应用前景。

实施例2

如图4所示，本发明实施例提供一种基于改进Retinanet的水下目标检测方法，采用上述的基于改进Retinanet的水下目标检测网络，所述方法包括：

S401：构建水下图像训练集，并对所述水下图像训练集进行预处理；

具体地，预处理过程主要包括将所有水下图像缩放至相同的尺寸大小(例如1000×600)，方便后续检测；然后对其中一半的水下图像进行随机旋转，增加图像数据的多样性，以便提高网络模型在不同角度对水下图像中的目标的检测能力，提高检测模型的泛化能力。

S402：设置超参数和损失函数，并基于所述水下图像训练集对所述水下目标检测网络进行训练得到水下目标检测模型；

具体地，网络结构的超参数包括动量参数、权重衰减正则项参数和初始学习率；本发明实施例中，设置动量参数为0.9，权重衰减正则项参数设置为0.0005，初始学习率为0.005。

作为一种可实施方式，本发明实施例中采用Focal Loss作为损失函数，如公式(1)所示：

FL(p_t)＝-(1-p_t)^γlog(p_t) (1)

训练过程使用Adam优化算法来优化上述的损失函数。

S403：将待检测的水下图像输入至所述水下目标检测模型，得到所述水下图像中的各水下目标。

具体地，将待检测的水下图像进行预处理后输入到训练好的水下目标检测模型进行检测，得到最优的分类信息和回归框，再计算分类的Focal Loss损失和回归框的FocalLoss损失，进行反向传播，最终输出的结果即为水下生物的类别及其具体位置。

此外，可以使用AP和m AP对检测框的精度进行评价。评价指标AP和m AP的计算过程如下：

上式中，N(True Positions)代表单张图像中正确预测为某一个类别的目标数量，N(Total Objects)代表测试集中含有某一个类别的图像总数。

上式中，∑P_c代表测试集所有图像的属于类C的准确率之和，N(Total Images)代表测试集中含有某一个类别的图像总数。

上式中，∑AP代表测试集所有类别的平均准确率之和，N(Classes)代表测试集类别总数。

由上述实施例可知，本发明提供的基于改进Retinanet的水下目标检测方法，通过对评价指标AP和mAP的计算，较原算法对不同的水下生物的检测精度均有提高，在水下目标检测领域具有广阔的应用前景。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.基于改进Retinanet的水下目标检测网络，其特征在于，包括：backbone层、neck层和head层；所述水下目标检测网络中的任一网络层均为全互连接，所述全互连接是指上一层的特征映射作为当前层的输入，当前层的特征映射作为下一层的输入；所述backbone层采用残差网络Resnet50；所述neck层包括特征金字塔网络模块、上下文提取模块和注意力引导模块；所述head层包括下采样模块、分类子网络和框回归子网络；

2.根据权利要求1所述的基于改进Retinanet的水下目标检测网络，其特征在于，所述特征金字塔网络模块包括相连接的两个结构相同的特征分支和三个上采样模块，将两个特征分支分别记作前特征分支和后特征分支，通过前特征分支接收来自backbone层输出的特征图，通过后特征分支输出特征融合后的新特征图；

3.根据权利要求2所述的基于改进Retinanet的水下目标检测网络，其特征在于，所述前特征分支中最上层卷积块的输出依次经过上下文提取模块和注意力引导模块之后输入至后特征分支中对应层卷积块。

4.根据权利要求1所述的基于改进Retinanet的水下目标检测网络，其特征在于，所述卷积块包括依次相连接的Conv层、bn层和LeakeyReLU层。

5.基于改进Retinanet的水下目标检测方法，其特征在于，采用权利要求1至4任一所述的基于改进Retinanet的水下目标检测网络，所述方法包括：

6.根据权利要求5所述的基于改进Retinanet的水下目标检测方法，其特征在于，所述预处理包括将所有水下图像缩放至相同的大小，以及对其中给定数量的水下图像进行随机旋转。

7.根据权利要求5所述的基于改进Retinanet的水下目标检测方法，其特征在于，采用公式(1)所述的函数作为损失函数：

FL(p_t)＝-(1-p_t)^γlog(p_t) (1)

8.根据权利要求5所述的基于改进Retinanet的水下目标检测方法，其特征在于，所述水下目标检测网络的超参数包括动量参数、权重衰减正则项参数和初始学习率。