CN114663683A

CN114663683A - 一种基于空间特征自监督的水下目标检测方法

Info

Publication number: CN114663683A
Application number: CN202210310895.3A
Authority: CN
Inventors: 范保杰; 蔡达; 丛杨; 徐丰羽
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-06-24

Abstract

本发明是一种基于空间特征自监督的水下目标检测方法，包括如下步骤：步骤1：采集数据，构建检测任务所需的数据集；步骤2：行数据增强，扩充原有数据并进行手工标注；步骤3：搭建自监督对比学习网络，使用空间注意力和通道归一化使得主干网络适应水下目标检测任务；步骤4：构建水下目标检测网络框架；步骤5：训练水下目标检测网络，得到针对海产品的水下目标检测的网络的权重模型；步骤6：根据权重模型，对已划分的验证集进行结果预测来评估实际应用中的检测效果。发明能够有效地针对水下生物的特点进行对象识别定位；通过自监督学习，使得网络能适应特定的水下场景；本发明提出的方法可以完美地适应水下检测任务。

Description

一种基于空间特征自监督的水下目标检测方法

技术领域

本发明属于涉及自监督学习和水下目标检测领域，具体的说是涉及一种基于空间特征自监督的水下目标检测方法。

背景技术

在计算机视觉中，目标检测是最重要的任务之一，它可以应用于海洋开发和海洋探测等许多场景。配备具有智能水下目标检测系统的自主式水下航行器对海洋资源的开发和保护具有重要意义。近年来，海参、海胆等海产品因其高营养价值受到很多人喜爱，但是人工打捞的成本很高，且长期的水下作业危害健康，甚至威胁生命。因此，使用水下航行器进行自主打捞具有实际意义。目前，水下目标检测主要依赖光学成像(相机)或声学成像(声呐)。声呐对物体的几何形状非常敏感，但它忽略了物体的光学颜色，成本偏高。光学图像是由摄像机产生的，能够准确地捕捉物体的形状和颜色。因此，基于相机的水下图像是低成本和流行的。随着目标检测和水下图像采集技术的发展，使得水下航行器自主打捞海产品成为可能。

水下图像会受到光线吸收和散射的影响，并且在水中，杂质会引入噪声并增加散射的影响。这些不利影响缩短了水中的可见距离，甚至引入了颜色失真等问题，限制了基于图像和视频的水下目标检测技术的实际应用。一些传统的目标检测算法由于未考虑水下环境和海洋生物的特性导致在实际应用中的检测效果很差。水下生物受习性影响，它们喜爱群居，导致特征重叠、冗余，这种现象在特征金字塔层更加严重。而且，由于拍摄的难度和地理位置造成的水体类型的差异，很难制作通用的水下数据集。因此，开发新的水下目标检测技术，对水下航行器的研究和应用至关重要。

发明内容

为了解决上述问题，本发明提供了一种基于空间特征自监督的水下目标检测方法，该方法在一阶段目标算法FCOS上进行改进，能够有效地针对水下生物的特点进行对象识别定位，可以完美地适应水下检测任务。

为了达到上述目的，本发明是通过以下技术方案实现的：

本发明是一种基于空间特征自监督的水下目标检测方法，该方法包括如下步骤：

步骤1：采集数据，确定所需检测的海产品主要类别并使用相机在水下拍摄不同种类的水下生物图片，构建检测任务所需的数据集，海产品主要为海参、海胆、贝壳、海星；

步骤2：数据扩充，使用颜色恢复、光照变化等图像增强方法对相机采集到的原始数据进行扩充，整理之后人工标注，生成图片的相应标签，最后使得训练集占80％，验证集占剩余的20％。

所述颜色恢复采用白平衡方式，具体包括如下步骤：

步骤2-1：在采集完包含水下生物的图片后，将预先设置的比色卡置于水中，用相机拍摄带有标准比色卡的水下场景图片，

步骤2-2：使用opencv将带有标准比色卡的水下图片离散化为红、绿、蓝三个通道，提取比色卡中为红、绿、蓝颜色的位置

步骤2-3：根据红、绿、蓝颜色的位置获取像素值，通过与标准色彩的离散值进行对比，计算出实际补偿值，补偿值v的计算如下：

v_red＝c_red-c′_red

v_green＝c_green-c′_green

v_blue＝c_blue-c′_blue

其中v有三个值，分别对应红、绿、蓝三个颜色通道，c′表示标准比色卡离散化后的像素值，c表示所提取颜色离散化后的像素值；

步骤2-4：将所有采集的数据图像的三个颜色通道与对应的补偿值相加，得到最终的增强图片。

光照变化通过随机选取图片中的20％的区域，直接对这些区域进行赋值，使其像素值在240～255之间。

步骤3：搭建自监督对比学习网络，包含在线分支和目标分支，结合空间注意力和通道归一化建模通道特征关系，加速模型收敛速度，以实现高精度水下目标检测，自监督对比学习网络使用了空间注意力和通道归一化操作，并且不使用ImageNet等大型数据集预训练，有效地加快收敛速度并建模特征的空间特征关系，使得预训练的主干网络适应水下目标检测任务。不同于其他检测器使用的监督学习方法，自监督网络通过计算两个分支之间的差异，不断优化网络输出的特征表示。将水下数据集输入自监督学习网络，训练中采用AdamW作为优化函数，使用学习率余弦退火策略，完成训练后保存权重参数，用于初始化目标检测网络参数。

所述在线分支的特征编码器由ResNet50构成，所述在线分支包括特征编码器、空间特征注意力、通道归一化结构和两个线性投影层，所述特征编码器在最前面，所述空间特征注意力以所述特征编码器的输出为输入，通道归一化结构又以所述空间特征注意力的输出作为输入，最后将输出的特征经过两个线性投影层进行编码；所述目标分支的特征编码器由ResNet50构成，所述目标分支包括特征编码器和一个线性投影层，所述特征编码器的输出直接送入线性投影层。

步骤4：构建水下目标检测网络框架，所述水下目标检测网络框架包括特征提取主干网络、特征金字塔网络和基于特征解耦的特征选择检测头，特征提取网络由残差网络构成，特征金字塔网络设置了可学习参数，通过插值自适应地融合了所有特征，实现网络自身选择特征，得到每层特征最好的表述。在特征层后面设置3DMaxPooling层抑制冗余特征，提升特征质量，具体的：特征金字塔网络包含不同分辨率大小的5个层级，前三个层级P₁、P₂、P₃由特征提取网络的后三层得到，P₄、P₅在P₃的基础上分别做了一次和两次的下采样，其中步骤4中特征金字塔网络中5个层级的输出步骤为：

步骤4-1：对5个层级设置学习参数，通过双线性插值实现不同层之间的融合，最终实现自适应的加权融合，特征金字塔层的处理表示为以下公式：

OUT_i＝F(W_i1*P₁+W_i2*P₂+W_i3*P₃+W_i4*P₄+W_i5*P₅)

其中(w_i1,w_i2,w_i3,w_i4,w_i5)表示不同层级间的可学习权重，(P₁,P₂,P₃,P₄,P₅)表示五个层级不同分辨率的特征图，F表示使用3DMaxPooling；

步骤4-2：在加权融合后引入3DMaxPooling进行特征冗余抑制，3DMaxPooling首先将输入特征图经过一个3×3卷积核，然后经过插值获得相邻层级之间相同大小的特征图，通过3Dmaxpool挖掘潜在的空间特征关系，去除冗余的特征，特征冗余抑制的过程表示为以下公式：

y^s＝max{x^s,k＝Bilinear(x^k)}

其中，s代表当前层的特征图，k表示相邻层级的特征图，y表示最终输出，Bilinear表示插值方式；

步骤4-3：最后将输入特征图与3Dmaxpool相加得到的结果送入GN-RELU层。

本发明的进一步改进在于：所述特征选择检测头包括分类分支、回归分支和中心度分支，中心特征选择在分类分支，边界特征提取模块集成在回归分支上，所述分类分支通过采样选择网格中间部分作为正样本，所述回归分支采用边界提取模块提取边界特征以进行更加精确的边界定位，所述中心度分支用来计算样本偏离中心的程度，其值在0到1之间，最后将回归的结果通过自然指数调整到大于0的数值范围。

本发明的进一步改进在于：分类分支将增强的数据集中的真实框(x₁,y₁,x₂,y₂)中的中心像素部分采样为正样本，其余为负样本，其中(x₁,y₁)和(x₂,y₂)分别表示对象左上角和右下角的像素坐标值，对于出现一个像素点被分配到多个对象的正样本时，只选择对应最小面积的真实框作为它的分配对象，分类分支通过采样选择网络中间部分作为正样本的选择过程表示为以下公式：

x′₁＝c′_x-0.5wε

y′₁＝c′_y-0.5hε

x′₂＝c′_x+0.5wε

y′₂＝c′_y+0.5hε

其中ε是缩放系数，默认值为0.3，c′_x,c′_y是中心坐标，w和h分别为真实框的宽和高，[x′₁,y′₁,x′₂,y′₂]为特征提取后，特征图中对象的真实位置，它经过了不同倍数的下采样，由真实框除以2^l得到，l为下采样倍数。

所述回归分支的边界定位具体为：回归分支采用两次回归级联的方式，经第一次回归后加入边界特征提取模块，使用第一次的回归结果，计算回归框四个边界上的最大值点，通过插值找到原图中像素位置，使用该像素进行回归任务，最终获得更加精细的对象定位。

步骤5：训练水下目标检测网络，将采集的样本数据通过旋转、裁剪、缩放输入搭建好的网络，得到针对海产品的水下目标检测的网络的权重模型；训练检测网络时，batchsize设置为2，使用SGD作为优化方法。分别设置weight decay和momentum为0.0001和0.9。在前500次迭代时采用线性学习率warm up策略，从0逐渐增加学习率至0.005，并且在总迭代次数的80％和90％分别进行10倍学习率衰减。一共训练36轮，在训练阶段，使图像的短边在640到800之间随机变化，始终保持长边尺寸为1333。与一般的训练方式不同，在完成基础训练后加载初始权重p，再进行12轮的调优训练。在调优期间，每轮学习率都从从0.005衰减值0.00005。完成调优训练后，将12轮的权重参数进行相加取平均，得到最终的权重模型。

步骤6：根据步骤5训练得到的权重模型，对已划分的验证集进行结果预测来评估实际应用中的检测效果，在此阶段，将输入图片尺寸始终保持为1333×800，使用NMS阈值0.5抑制重叠检测框，并且过滤置信度低于0.05的检测结果，也就是说模型将测试集图片读入网络，生成大量的预测框，为了抑制冗余的预测框并提高检测效果，采用IOU为0.5的阈值抑制重叠的预测框，并且过滤了置信度低于0.05的对象。

本发明首先搭建自监督对比学习框架，使得主干网络能够更好地适应水下场景；然后搭建水下目标检测网络；针对输入网络的数据进行裁剪，旋转，缩放以适应目标的尺度变化；针对冗余特征提出了自适应加权融合并加入3DMaxPooling以获取高质量特征；进一步地，在分类分支选取对象中心30％的区域作为正样本，有效抑制背景；在回归分支使用对象边界特征有效增强回归定位的精度；最后，通过训练获取水下目标检测模型权重，在划分的验证集上评估检测器的性能表现。

本发明的有益效果是：本发明是一种端到端的水下目标检测框架，能够有效地针对水下生物的特点进行对象识别定位；通过自监督学习，使得网络能适应特定的水下场景；通过设置可学习参数，让网络自主选择合适的比例权重。通过3DMaxPooling抑制了特征冗余，这有效地选取了更加合适的特征，而不仅仅局限于相邻层之间的固定权重融合；所提出的特征解耦技术为水下生物选择了更加合适的特征，有利于更加准确的定位和分类；本发明提出的方法可以完美地适应水下检测任务。

附图说明

图1是本发明的流程图。

图2是本发明的自监督网络结构图。

图3是本发明的空间注意力结构图。

图4是本发明的通道归一化结构图。

图5是本发明的检测网络结构图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

本发明是一种基于空间特征自监督的水下目标检测方法，总体包括：数据采集，使用带有防水装置的相机拍摄水下生物的图像数据并进行数据集构建；数据预处理，将所采集到的水下数据进行数据增强，扩充原数据后划分训练集和验证集；搭建自监督对比学习网络进行预训练，使主干网络在提取适应水下场景的特征。搭建水下目标检测网络，将处理后的图像数据输入到检测主干网络，在特征金字塔层加权融合得到多尺度特征，并且抑制特征冗余。在检测头中分别选取中心特征和边界特征进行分类和回归得到图像中待检测目标的位置、类别以及置信度大小，并且保存权重模型；预测结果，根据保存的模型权重在验证集上评估实际应用中的检测效果。

具体流程图如图1所示，该水下目标检测方法包括如下步骤：

步骤1：采集数据，通过光学相机获取水下照片，包含所需检测的海产品，构建检测任务所需的数据集，海产品为海参、海胆、贝壳、海星；

步骤2：数据预处理，使用颜色恢复、光照变化等图像增强方法对采集到的数据进行扩充，过滤没有待检测对象的图片，对于含有待检测对象的图片，使用labelImg软件对图片打标签，每张对应生成一个xml文件，以存储待检测对象的位置和类别，需要标注的类别主要包含：海胆、海参、海星和贝壳四个类别，标注完成后，按80％、20％的比例划分训练、验证集。

所述颜色恢复采用白平衡方式，具体包括如下步骤：

v_red＝c_red-c′_red

v_green＝c_green-c′_green

v_blue＝c_blue-c′_blue

步骤3：使用pytorch在上位机搭建自监督对比学习网络，使用空间注意力和通道归一化使得主干网络适应水下目标检测任务。自监督对比学习网络包含在线分支和目标分支，所述在线分支包括特征编码器、空间特征注意力、通道归一化结构和两个线性投影层，所述特征编码器在最前面，所述空间特征注意力以所述特征编码器的输出为输入，通道归一化结构又以所述空间特征注意力的输出作为输入，最后将输出的特征经过两个线性投影层进行编码；所述在线分支的特征编码器和所述目标分支的特征编码器由ResNet50构成，所述目标分支包括特征编码器和一个线性投影层，所述特征编码器的输出直接送入线性投影层。搭建自监督对比学习网络，在步骤2构建的水下数据集上进行预训练，具体方法是：采用在线更新和目标动量双分支网络结构，特征编码器选择ResNet50，经过线性投影层输出两个分支的特征向量。对输入自监督学的网络的图像进行随机裁剪，鼓励同一视图对应特征保持一致，不同物体之间的特征尽可能疏远。在线分支中设置空间注意力和通道归一化。为了获取更多的空间特征，在空间注意力将原始特征图与自身的转置矩阵相乘，得到的注意力权重与原始特征图加权后，结合卷积核大小为1×1的卷积，相加得到最终的空间特征图，具体结构如图3所示。此外，设置通道归一化，以建模通道特征关系，如图4所示。该部分设置一个L2正则化来聚合嵌入特征，并设置可学习权重，具体过程可以用公式表示为：

X″_i＝X_i+tanh(γX′_i+β)X_i

其中，δ，β，γ是可学习权重，C是归一化因子，Xi是输入特征图，δ是一个很小的数，防止分母为0。

自监督对比学习网络的损失函数定义为：

其中，q是在线视图，k₊是正样本，k_i是样本队列，n是队列长度，t是温度系数。

步骤4：使用pytorch编写相应代码，在上位机构建水下目标检测网络框架，如图5所示，所述水下目标检测网络框架包括特征提取主干网络、特征金字塔网络和基于特征解耦的特征选择检测头，特征金字塔网络选取了主流的ResNet50而不是更深的网络骨干以保证检测速度。经特征提取后输出最后三层C₃、C₄和C₅。P₁、P₂、P₃由特征提取主干网络最后三层的输出得到。在C₅的基础上，用3×3卷积进行下采样得到P₄。P₅在P₄的基础上增加一个3×3卷积下采样，并且添加一个Relu层。特征金字塔中设置可学习参数，将所有的特征层加权融合并且使用了3DMaxPoooling抑制特征冗余。

特征金字塔网络包含不同分辨率大小的5个层级，前三个层级P₁、P₂、P₃由特征提取网络的后三层得到，P₄、P₅在P₃的基础上分别做了一次和两次的下采样，特征金字塔网络中的5个层级的输出步骤为：

OUT_i＝F(W_i1*P₁+W_i2*P₂+W_i3*P₃+W_i4*P₄+W_i5*P₅)

y^s＝max{x^s,k＝Bilinear(x^k)}

特征选择检测头包含回归分支和分类分支，并且额外设置了一个中心度分支。所述分类分支通过采样选择网格中间部分作为正样本，其选择过程可表示为以下公式：

x′₁＝c′_x-0.5wε

y′₁＝c′_y-0.5hε

x′₂＝c′_x+0.5wε

y′₂＝c′_y+0.5hε

所述回归分支采用边界提取模块提取边界特征以进行更加精确的边界定位，所述中心度分支用来计算样本偏离中心的程度，其值在0到1之间。

分类分支使用对象中心的特征，极大程度上抑制了背景类。边界特征提取模块集成在回归分支上，它通过第一次回归的结果找到对象的边界位置，使用边界特征进行回归，提高定位精度。过程可以表示为以下公式：

B₂＝Z(f(B₁))+f(B₁)

其中，B₁表示第一次回归得到边界框位置的预测值，f(·)表示插值计算，Z(·)表示第二次回归。B₂表示边界框最终位置的预测结果。

步骤5：训练水下目标检测网络，将采集的样本数据通过旋转、裁剪、缩放输入搭建好的网络，得到针对海产品的水下目标检测的网络的权重模型。

采用SGD作为优化器，batch size设置为2，学习率设置为0.005。网络的损失函数可以表示为：

其中L_cls和L_reg分别为分类损失和回归损失，使用Focal Loss和GIOU Loss，N_p表示正样本，λ为的平衡系数，默认为1，p表示网络分类预测值，t表示回归预测值，c^*是所有样本中的正样本。

步骤6：根据步骤5所述的目标检测器，加载训练得到的模型权重，对已划分的验证集进行评测。选取NMS阈值为0.5去除重叠的包围框，并且过滤置信度得分小于0.05的预测结果。

为了验证本算法的可实施性，设置了多个数据集的相关对比实验。

实验结果：

表1统计了各算法在本发明构建的水下数据集上mAP的评测结果。

表1

表2统计了各算法在现存的的水下数据集URPC2018上mAP的评测结果。

表2

表3统计了各算法在通用目标检测数据集COCO上mAP的评测结果。

表3

本发明提出的方法可以完美地适应水下检测任务。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.一种基于空间特征自监督的水下目标检测方法，其特征在于：所述水下目标检测方法包括如下步骤：

步骤1：采集数据，通过光学相机获取水下照片，包含所需检测的海产品，构建检测任务所需的数据集；

步骤2：数据扩充，对步骤1获取的水下光学数据进行数据增强，扩充原有数据并进行手工标注，使得训练集占80％，验证集占剩余的20％；

步骤3：搭建自监督对比学习网络，使用空间注意力和通道归一化使得主干网络适应水下目标检测任务；

步骤4：构建水下目标检测网络框架，所述水下目标检测网络框架包括特征提取主干网络、特征金字塔网络和基于特征解耦的特征选择检测头；

步骤5：训练水下目标检测网络，将采集的样本数据通过旋转、裁剪、缩放输入搭建好的网络，得到针对海产品的水下目标检测的网络的权重模型；

步骤6：根据步骤5训练得到的权重模型，对已划分的验证集进行结果预测来评估实际应用中的检测效果。

2.根据权利要求1所述一种基于空间特征自监督的水下目标检测方法，其特征在于：步骤4中特征金字塔网络包含不同分辨率大小的5个层级，前三个层级P₁、P₂、P₃由特征提取网络的后三层得到，P₄、P₅在P₃的基础上分别做了一次和两次的下采样。

3.根据权利要求2所述一种基于空间特征自监督的水下目标检测方法，其特征在于：步骤4中特征金字塔网络中5个层级的输出步骤为：

OUT_i＝F(W_i1*P₁+W_i2*P₂+W_i3*P₃+W_i4*P₄+W_i5*P₅)

y^s＝max{x^s,k＝Bilinear(x^k)}

4.根据权利要求1所述一种基于空间特征自监督的水下目标检测方法，其特征在于：步骤4中所述特征选择检测头包括分类分支、回归分支和中心度分支，所述分类分支通过采样选择网格中间部分作为正样本，所述回归分支采用边界提取模块提取边界特征以进行更加精确的边界定位，所述中心度分支用来计算样本偏离中心的程度，其值在0到1之间。

5.根据权利要求4所述一种基于空间特征自监督的水下目标检测方法，其特征在于：所述分类分支通过采样选择网络中间部分作为正样本的选择过程表示为以下公式：

x′₁＝c′_x-0.5wε

y′₁＝c'_y-0.5hε

x′₂＝c′_x+0.5wε

y'₂＝c'_y+0.5hε

其中ε是缩放系数，默认值为0.3，c'_x,c'_y是中心坐标，w和h分别为真实框的宽和高，[x′₁,y′₁,x'₂,y'₂]为特征提取后，特征图中对象的真实位置，它经过了不同倍数的下采样，由真实框除以2^l得到，l为下采样倍数。

6.根据权利要求4所述一种基于空间特征自监督的水下目标检测方法，其特征在于：所述回归分支的边界定位具体为：回归分支采用两次回归级联的方式，使用第一次的回归结果，计算回归框四个边界上的最大值点，通过插值找到原图中像素位置，使用该像素进行回归任务，最终获得更加精细的对象定位。

7.根据权利要求1所述一种基于空间特征自监督的水下目标检测方法，其特征在于：所述步骤3中自监督对比学习网络包含在线分支和目标分支，

所述在线分支的特征编码器由ResNet50构成，所述在线分支包括特征编码器、空间特征注意力、通道归一化结构和两个线性投影层，所述特征编码器在最前面，所述空间特征注意力以所述特征编码器的输出为输入，通道归一化结构又以所述空间特征注意力的输出作为输入，最后将输出的特征经过两个线性投影层进行编码；

所述目标分支的特征编码器由ResNet50构成，所述目标分支包括特征编码器和一个线性投影层，所述特征编码器的输出直接送入线性投影层。

8.根据权利要求1所述一种基于空间特征自监督的水下目标检测方法，其特征在于：所述步骤2中对数据进行增强的方法主要包括颜色颜色恢复和光照变化。

9.根据权利要求8所述一种基于空间特征自监督的水下目标检测方法，其特征在于：所述颜色恢复采用白平衡方式，具体包括如下步骤：

v_red＝c_red-c′_red

v_green＝c_green-c′_green

v_blue＝c_blue-c′_blue

其中v有三个值，分别对应红、绿、蓝三个颜色通道，c'表示标准比色卡离散化后的像素值，c表示所提取颜色离散化后的像素值；

10.根据权利要求1所述一种基于空间特征自监督的水下目标检测方法，其特征在于：所述步骤5训练水下目标检测网络的训练过程是：将步骤2中增强过的水下图片输入到检测网络，使用SGD作为优化方法，在前500次迭代采样线性warm up策略，逐渐增加学习率至0.005，并且在总迭代次数的80％和90％分别进行10倍学习率衰减，进行36轮基础训练后保存初始权重p。