CN116486244A

CN116486244A - 基于细节增强的水下目标检测方法

Info

Publication number: CN116486244A
Application number: CN202310337305.0A
Authority: CN
Inventors: 宋永端; 吴将娱; 龙鸿; 胡芳; 张景; 宋承铭; 黄锦程; 杜志豪; 王玉娟
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-07-25

Abstract

本发明公开了基于细节增强的水下目标检测方法，首先获取水下目标数据，对数据进行存储、预处理和数据集划分，形成道路提取样本数据集。基于YOLO目标检测框架，构建水下目标检测网络提取网络。该算法基于细节增强的策略，在特征提取层面通过更丰富的梯度流和注意力机制加强特征提取；在特征聚合网络此外引入了感受野增强模块，增大了网络感受野，增强了模型对于纹理等特征的提取，此外设计了一个细节增强分支，增强底层细节特征特别是边缘特征，并以通道加权的形式聚合到网络，细节特征作为先验知识，能有效监督网络的学习；改进了水下检测头，其具有更多的检测层。

Description

基于细节增强的水下目标检测方法

技术领域

本发明涉及计算机视觉，深度学习，视频目标检测技术。具体涉及一种基于细节增强的目标检测方法。

背景技术

随着社会的不断发展，人口数量不断增加，各类资源的短缺问题也日益凸显，迫使人们把目光投向待开发的海洋区域。海洋中蕴含着丰富的生物和物理资源，其中包括各种鱼类、贝类、海带、海藻、海洋动物等，这些资源是人类重要的食物来源。此外，海洋中还蕴含着丰富的石油、天然气、煤等矿产资源，对于人类的经济发展至关重要。

在进行海洋相关任务之前，首要问题是确定水下目标。目前，水下目标检测主要使用两种技术：一类是基于声学的，使用声呐等设备进行目标探测；另一类是基于光学图像的。声学图像主要用于远距离、大目标的检测任务，但其无法提供颜色等细节信息，对于近距离、高精度任务无能为力。相比之下，基于光学图像的目标检测算法具有更高的精度和更丰富的细节信息，广泛应用于水下环境下的自主机器人、水下搜索与救援、水下工程等领域。例如，在海洋资源开发中，需要通过水下目标检测技术来确定海底中矿产资源、渔业资源等资源的位置、数量和状态，并对这些资源进行评估和利用。在水下考古任务中，需要利用水下目标检测技术对沉船遗骸等进行搜索和识别。在现代建设工程中，涉及到海底光缆和石油管道的建设和巡检，引入水下目标检测技术可以大大提高工作效率。此外，水下目标检测技术还可以应用于海洋环境监测、海洋生态保护等领域，帮助人们更好地了解和保护海洋资源。

在水下环境中，目标检测需要应对光照不均匀、目标被遮挡、目标与背景颜色相似、图像噪声干扰等复杂情况。为此，本专利提出一种基于细节增强的目标检测算法。以解决水下复杂场景下不同尺度目标检测的问题。

技术方案

本发明的技术解决问题是：提出一种基于细节增强的水下目标检测算法，实现对水下复杂场景下多尺度目标的检测，并保证精度和鲁棒性。

本发明的技术解决方案为：一种基于细节增强的水下目标检测算法，首先获取水下目标数据，对数据进行存储、预处理和数据集划分，形成道路提取样本数据集。基于YOLO目标检测框架，构建水下目标检测网络提取网络。该算法基于细节增强的策略，在特征提取层面通过更丰富的梯度流和注意力机制加强特征提取；在特征聚合网络此外引入了感受野增强模块，增大了网络感受野，增强了模型对于纹理等特征的提取，此外设计了一个细节增强分支，增强底层细节特征特别是边缘特征，并以通道加权的形式聚合到网络，细节特征作为先验知识，能有效监督网络的学习；改进了水下检测头，其具有更多的检测层。其具体步骤如下：

(1)获取水下目标数据集，对数据进行存储、预处理和数据集划分。并对所述图像数据进行清洗和数据增强。

(2)利用建立的水下数据集对水下目标检测算法进行训练，初始时将模型学习率设为0.01，对训练集和验证集进行200轮次训练，观察模型训练结果precision、recall，mAP等值，在确保precision与recall值相差不多的前提下，利用参数调优的方式，提高mAP值。具体步骤包括：

(a)本发明采用了一种加强了梯度分流的C2F网络，C2F类是基于CSPnet进行改进的，由两个并行的卷积块组成的模块，每个卷积块都有一个独立的计算路径。它的每一个bottleneck都进行了分流，一部分送入下一个bottleneck，一部分作为shortcut直接进行残差连接。C2F类的计算过程如下：输入特征图x通过第一个卷积块计算，生成特征图f1。特征图f1经过一个split操作，分别生成特征图f2和f2_i，其中特征图f2输入bottleneck，得到特征f3，f3也经过一个split操作，分别得到特征新f3和f3_i，f3输入bottleneck，得到特征f4…依次类推，最后将特征图fn和fx_i(x＝1,2,...n)拼接在一起，形成特征图并经过卷积输出。

(b)我们将注意力机制集成在backbone和neck的C2F模块之中。网络的特征输出fo，经过一个注意力机制模块得到最终的特征图fatt，旨在进一步提高所提出的检测模型的特征提取能力。其具体的计算如下：

第一个分支是通道注意力计算分支。输入特征经过Z-Pool，再经过卷积层和BN层，最后经过Sigmoid激活函数生成空间注意力权重。

第二个分支是通道C和空间W维度交互分支。输入特征先经过permute重新排列为(H，C，W)维度特征，接着在H维度上经过Z-Pool，再经过卷积层和BN层和Sigmoid激活函数。为方便element-wise操作。最后需要经过permuter重新排练为(C，H，W)维度特征。

第三个分支是通道C和空间H维度交互分支，输入特征先经过permute，变为(W，H，C)维度特征，接着在W维度上进行Z-Pool，再经过卷积层和BN层和Sigmoid激活函数。为方便element-wise操作。最后需要经过permuter重新排练为(C，H，W)维度特征。

最后对3个分支输出求平均值。其中Z-池层通过串联每个维度的平均池化和最大池化特征，将张量的第2个维度减少到2个。Z-pool层的优点是获得实际张量的详细表示，同时也减少了张量的深度，使下面的计算更有效率。Z池的表述为：

Z-pool(χ)＝[MaxPool_0d(χ),AvgPool_0d(x)]#

其中，0d是第0维，最大和平均集合操作在此维度上进行。平均池化操作。例如，一个形状为(C×H×W)的张量的Z-Pool结果是一个张量形状的张量(2×H×W)。

(c)在特征提取层与特征聚合层之间引入了一个感受野扩张模块RFB,本发明的感受野扩张模块由四个分支组成。为了降低参数量，加速训练，在每个分支中，我们使用一个1×1的卷积层，降低通道数。因为相邻单元之间的强相关性，这样的降维操作损失的特征信息很少，如果输出是用于空间聚合，降维甚至会促进更快的学习。对于{b_m,m>1}。我们增加两层：一个(2m-1)×(2m-1)卷积层和一个空洞系数为(2m-1)的3×3空洞卷积层。我们将这些分支的输出连接起来，并将通道减少到32个。大卷积核可以进行一些分解以降低计算量和参数量，例如大小为5*5卷积分解成两个3*3卷积核，7*7卷积分解成三个3*3卷积核，更进一步，有一种将其分解为两个不对称的卷积核，大小为(2m-1)×(2m-1)卷积，可以在分解为(2m-1)×1和1×(2m-1)两个卷积，需要注意的是，这种分解不对称卷积的方式仅仅在深层能取得比较好的效果，在浅层网络，会损失一些低级特征。本发明是RFB模块是在特征提取网络的最深层后面使用。最后还有一个shorcut直接连接到降维合并后的特征图形成残差，本发明该模块另一个改进点是参考了DenseNet[67]，将b_m分支的结果作为b_n(n＝m+1)分支的输入，前面小卷积核分支的输出特征图又经过后面分支的更大范围的空洞卷积，进一步扩大了感受野，增强了细节纹理特征，并且通过特征复用，在增加较少的参数量加强了特征传递。加入了RFB模块后，模型的感受野高效增大，有效地增强细节特征，便于定位和检测。这种级联结构让感受野尺度以特征复用的方式增加到13种，能够更加有效地在不同尺度上进行特征提取。同时这种级联结构，因为大量的特征复用，所以相比普通RFB参数量增长有限。总之嵌入改进的感受野扩张模块后不仅大幅增加感受野，而且有效地增强细节特征提取。

(d)本发明使用的细节增强模块由两个分支组成，其输入为从特征提取网络的两个低层，f₁和f₂分别被输入一个3×3的卷积层，降低维度，使两个分支的通道数一样，之后再经过一个3×3的卷积层进行特征提取，可以表示为：

然后，使用一个自适应加权切换器w^s来学习如何权衡不同层次的注意力(i＝1,2)。

这个过程可以被定义为元素相乘。

这个过程可能同时导致有价值的线索消失的问题。所以最后，经过一个拼接运算整合，来融合两个特征。

细节增强模块在提取f₁和f₂的特征时，并将这两个特征分别相乘，相当于在特征的通道维度上进行了一种自适应的加权，对不同方向上的特征赋予了不同的重要性。这可以看作是一种利用特征相乘的注意力机制，其复杂度较低，是线性的。尽管该模型没有显式地使用注意力机制，但在特征提取的过程中仍然具有一定的注意力机制的特征。可以很好地抑制背景噪声，并且通过调整不同分支权重，自适应地将更多的注意力放在我们关注的区域。

此外，在基本卷积单元之外，还级联了一个激活函数FRelu[69]。增加非线性拟合能力，以增强网络的表达能力。FReLU是一种面向视觉任务的激活函数。相比于ReLU，其扩展了空间条件，以增强空间敏感性，使其具有像素化建模能力。FReLU表达式如下所示，式中T(x)表示是二维空间条件。

(3)水下目标特征模型验证。将过程(2)训练轮次中最优模型保留，利用该模型对验证集进行第一轮验证生成预测集，查看预测结果较低的图片，在训练集中添加相同类别数据，使模型可以学习到该类特征。重复训练过程，直至模型精度达到可用水平，保留最优模型。

本发明与现有技术相比的优点在于：

1、在特征提取环节，重构了具有丰富梯度流信息和集成三重注意力机制的卷积层以改善特征表达能力；

2、在特征融合环节，引入了改进感受野扩张模块，借助空洞卷积，在不增加参数数量和计算复杂度的情况，使得卷积核每次在输入张量上滑动时，可以覆盖到更大的区域，得到更为广泛的上下文信息；

3、设计了一个细节增强分支，更好地融合底层特征信息，并将这些特征作为先验知识监督网络学习，细节信息提供了有用的约束条件来在物体检测过程中指导特征提取；

附图说明

图1为本发明的整体流程图。

图2为本发明的特征提取网络层。

图3为本发明的感受野扩张。

图4为本发明的细节增强分支。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

如图1所示，本发明包括以下步骤：

1、数据集预处理：本发明采用了RandomResize(随机尺度变换)和RandomCrop(随机裁剪)对图像进行随机缩放和裁剪，以及HSVRandomAug(颜色空间增强)对图像进行颜色空间增强，使用HSV分量来增加图像的亮度、饱和度和色调。我们还使用了RandomFlip(随机水平翻转)来增加数据集的多样性。这些技术可以提高数据集的多样性，从而提高模型的泛化能力。

2、对水下目标数据集进行训练，目标检测模型，具体步骤包括：构建水下目标检测网络、目标检测网络训练、目标检测网络训练测试、参数调优、存储最优模型；

(e)构建水下目标检测网：首先构建本文采用了一种加强了梯度分流的C2F网络，C2F类是基于CSPnet进行改进的，由两个并行的卷积块组成的模块，每个卷积块都有一个独立的计算路径。它的每一个bottleneck都进行了分流，一部分送入下一个bottleneck，一部分作为shortcut直接进行残差连接。C2F类的计算过程如下：输入特征图x通过第一个卷积块计算，生成特征图f1。特征图f1经过一个split操作，分别生成特征图f2和f2_i，其中特征图f2输入bottleneck，得到特征f3，f3也经过一个split操作，分别得到特征新f3和f3_i，f3输入bottleneck，得到特征f4…依次类推，最后将特征图fn和fx_i(x＝1,2,...n)拼接在一起，形成特征图并经过卷积输出。其次将注意力机制集成在backbone和neck的C2F模块之中。网络的特征输出fo，经过一个注意力机制模块得到最终的特征图fatt，旨在进一步提高所提出的检测模型的特征提取能力。其具体的计算如下：第一个分支是通道注意力计算分支。输入特征经过Z-Pool，再经过卷积层和BN层，最后经过Sigmoid激活函数生成空间注意力权重。第二个分支是通道C和空间W维度交互分支。输入特征先经过permute重新排列为(H，C，W)维度特征，接着在H维度上经过Z-Pool，再经过卷积层和BN层和Sigmoid激活函数。为方便element-wise操作。最后需要经过permuter重新排练为(C，H，W)维度特征。第三个分支是通道C和空间H维度交互分支，输入特征先经过permute，变为(W，H，C)维度特征，接着在W维度上进行Z-Pool，再经过卷积层和BN层和Sigmoid激活函数。为方便element-wise操作。最后需要经过permuter重新排练为(C，H，W)维度特征。最后对3个分支输出求平均值。其中Z-池层通过串联每个维度的平均池化和最大池化特征，将张量的第2个维度减少到2个。Z-pool层的优点是获得实际张量的详细表示，同时也减少了张量的深度，使下面的计算更有效率。Z池的表述为：

Z-pool(χ)＝[MaxPool_0d(χ),AvgPool_0d(x)]#

其中，0d是第0维，最大和平均集合操作在此维度上进行。平均池化操作。例如，一个形状为(C×H×W)的张量的Z-Pool结果是一个张量形状的张量(2×H×W)。之后在特征提取层与特征聚合层之间引入了一个感受野扩张模块RFB,本发明的感受野扩张模块由四个分支组成。为了降低参数量，加速训练，在每个分支中，我们使用一个1×1的卷积层，降低通道数。因为相邻单元之间的强相关性，这样的降维操作损失的特征信息很少，如果输出是用于空间聚合，降维甚至会促进更快的学习。对于{b_m,m>1}。我们增加两层：一个(2m-1)×(2m-1)卷积层和一个空洞系数为(2m-1)的3×3空洞卷积层。我们将这些分支的输出连接起来，并将通道减少到32个。大卷积核可以进行一些分解以降低计算量和参数量，例如大小为5*5卷积分解成两个3*3卷积核，7*7卷积分解成三个3*3卷积核，更进一步，有一种将其分解为两个不对称的卷积核，大小为(2m-1)×(2m-1)卷积，可以在分解为(2m-1)×1和1×(2m-1)两个卷积，需要注意的是，这种分解不对称卷积的方式仅仅在深层能取得比较好的效果，在浅层网络，会损失一些低级特征。本发明是RFB模块是在特征提取网络的最深层后面使用。最后还有一个shorcut直接连接到降维合并后的特征图形成残差，本发明该模块另一个改进点是参考了DenseNet[67]，将b_m分支的结果作为b_n(n＝m+1)分支的输入，前面小卷积核分支的输出特征图又经过后面分支的更大范围的空洞卷积，进一步扩大了感受野，增强了细节纹理特征，并且通过特征复用，在增加较少的参数量加强了特征传递。加入了RFB模块后，模型的感受野高效增大，有效地增强细节特征，便于定位和检测。这种级联结构让感受野尺度以特征复用的方式增加到13种，能够更加有效地在不同尺度上进行特征提取。同时这种级联结构，因为大量的特征复用，所以相比普通RFB参数量增长有限。总之嵌入改进的感受野扩张模块后不仅大幅增加感受野，而且有效地增强细节特征提取。最后使用的细节增强模块，其由两个分支组成，其输入为从特征提取网络的两个低层，f₁和f₂分别被输入一个3×3的卷积层，降低维度，使两个分支的通道数一样，之后再经过一个3×3的卷积层进行特征提取，可以表示为：

然后，使用一个自适应加权切换器w^s来学习如何权衡不同层次的注意力(i＝1,2)。这个过程可以被定义为元素相乘。

这个过程可能同时导致有价值的线索消失的问题。所以最后，经过一个拼接运算整合，来融合两个特征。细节增强模块在提取f₁和f₂的特征时，并将这两个特征分别相乘，相当于在特征的通道维度上进行了一种自适应的加权，对不同方向上的特征赋予了不同的重要性。这可以看作是一种利用特征相乘的注意力机制，其复杂度较低，是线性的。尽管该模型没有显式地使用注意力机制，但在特征提取的过程中仍然具有一定的注意力机制的特征。可以很好地抑制背景噪声，并且通过调整不同分支权重，自适应地将更多的注意力放在我们关注的区域。此外，在基本卷积单元之外，还级联了一个激活函数FRelu。增加非线性拟合能力，以增强网络的表达能力。FReLU是一种面向视觉任务的激活函数。相比于ReLU，其扩展了空间条件，以增强空间敏感性，使其具有像素化建模能力。FReLU表达式如下所示，式中T(x)表示是二维空间条件。

(3)水下目标检测网络训练，初始时将模型学习率设为0.01，对训练集和验证集进行200轮次训练，观察模型训练结果precision、recall，mAP等值，在确保precision与recall值相差不多的前提下，利用参数调优的方式，提高mAP值。具体步骤包括：

水下目标检测网络训练测试：将水下目标检测网络训练轮次中最优模型保留，利用该模型对测试集进行第一轮测试生成预测集，查看预测结果较低的图片，在训练集中添加相同类别数据，使模型可以学习到该类特征。

参数调优：重复模型训练和模型测试的过程，直至模型精度达到可用水平，保留最优模型，至此道路提取模型构建完成。

保留最优模型：将调优后最佳模型保留。

需要说明的是，本发明实施例的方法适用于水下复杂场景下目标检测。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.基于细节增强的水下目标检测方法，其特征在于，该方法的具体步骤如下：

步骤(1)获取水下目标数据集，对数据进行存储、预处理和数据集划分；并对所述图像数据进行清洗和数据增强；

步骤(2)利用建立的水下数据集对水下目标检测算法进行训练，初始时将模型学习率设为0.01，对训练集和验证集进行200轮次训练，观察模型训练结果precision、recall，mAP，在确保precision与recall值相差不多的前提下，利用参数调优的方式，提高mAP值；

步骤(3)水下目标特征模型验证；将步骤(2)训练轮次中最优模型保留，利用该模型对验证集进行第一轮验证生成预测集，查看预测结果较低的图片，在训练集中添加相同类别数据，使模型学习到该类特征；重复训练过程，直至模型精度达到可用水平，并保留最优模型。

2.根据权利要求1所述的基于细节增强的水下目标检测方法，其特征在于，步骤(2)的具体步骤包括：

(a)采用加强梯度分流的C2F网络，C2F类是基于CSPnet进行改进，由两个并行的卷积块组成的模块，每个卷积块都有一个独立的计算路径；每一个bottleneck都进行分流，一部分送入下一个bottleneck，一部分作为shortcut直接进行残差连接；

(b)将注意力机制集成在backbone和neck的C2F模块之中；网络的特征输出fo，经过一个注意力机制模块得到最终的特征图fatt；

(c)在特征提取层与特征聚合层之间引入了一个感受野扩张模块RFB，感受野扩张模块RFB由四个分支组成；使用一个1×1的卷积层，降低通道数；对于{b_m,m>1}；增加两层：一个(2m-1)×(2m-1)卷积层和一个空洞系数为(2m-1)的3×3空洞卷积层；大卷积核进行分解以降低计算量和参数量；感受野扩张模块RFB是在特征提取网络的最深层后面使用；最后，shorcut直接连接到降维合并后的特征图形成残差，将b_m分支的结果作为b_n(n＝m+1)分支的输入，前面小卷积核分支的输出特征图又经过后面分支的更大范围的空洞卷积扩大感受野，增强细节纹理特征；

(d)细节增强模块由两个分支组成，其输入为从特征提取网络的两个低层，f₁和f₂分别被输入一个3×3的卷积层，降低维度，使两个分支的通道数一样，之后再经过一个3×3的卷积层进行特征提取，表示为：

使用一个自适应加权切换器w^s来学习如何权衡不同层次的注意力，被定义为元素相乘；经过一个拼接运算整合，来融合两个特征；

细节增强模块在提取f₁和f₂的特征时，并将这两个特征分别相乘，对不同方向上的特征赋予了不同的重要性；在基本卷积单元之外还级联一个激活函数FRelu[69]，增加非线性拟合能力。

3.根据权利要求2所述的基于细节增强的水下目标检测方法，其特征在于，C2F类的计算过程如下：输入特征图x通过第一个卷积块计算，生成特征图f1；特征图f1经过一个split操作，分别生成特征图f2和f2_i，其中特征图f2输入bottleneck，得到特征f3，f3也经过一个split操作，分别得到特征新f3和f3_i，f3输入bottleneck，得到特征f4…依次类推，最后将特征图fn和fx_i拼接在一起，形成特征图并经过卷积输出，x＝1,2,...n。

4.根据权利要求2所述的基于细节增强的水下目标检测方法，其特征在于，其具体的计算如下：

第一个分支是通道注意力计算分支；输入特征经过Z-Pool，再经过卷积层和BN层，最后经过Sigmoid激活函数生成空间注意力权重；

第二个分支是通道C和空间W维度交互分支；输入特征先经过permute重新排列为(H，C，W)维度特征，接着在H维度上经过Z-Pool，再经过卷积层和BN层和Sigmoid激活函数；为方便element-wise操作；最后需要经过permuter重新排练为(C，H，W)维度特征；

第三个分支是通道C和空间H维度交互分支，输入特征先经过permute，变为(W，H，C)维度特征，接着在W维度上进行Z-Pool，再经过卷积层和BN层和Sigmoid激活函数；为方便element-wise操作；最后需要经过permuter重新排练为(C，H，W)维度特征；

最后对3个分支输出求平均值；其中Z-池层通过串联每个维度的平均池化和最大池化特征，将张量的第2个维度减少到2个。