CN115439738A

CN115439738A - 一种基于自监督协同重构的水下目标检测方法

Info

Publication number: CN115439738A
Application number: CN202211065189.3A
Authority: CN
Inventors: 朱川; 蔡达; 刘丛强; 李新
Original assignee: Kuanfan Technology Yancheng Co ltd
Current assignee: Kuanfan Technology Yancheng Co ltd
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2022-12-06

Abstract

本发明公开了一种基于自监督协同重构的水下目标检测方法，包括：获取少量水下场景的图片数据；将水下场景的数据进行标注，并使用数据增强的方法从已标注的数据中获得大量的预训练数据；搭建自监督协同重构网络，在经过一个像素重建分支和对比学习分支后，在预训练数据集上对特征提取网络的参数调优，使其适应水下场景的数据分布；建立水下目标检测模型，使用预训练调优后的特征提取网络，提高网络对水下场景的适应能力，在特征提取网络后面添加特征金字塔网络和检测头部网络，在完成检测模型训练后，保存权重模型并进行模型推理，输出水下场景的检测结果。本发明能够有效应对水下数据稀少的问题，有效提高检测模型在水下场景的适应能力。

Description

一种基于自监督协同重构的水下目标检测方法

技术领域

本发明涉及一种基于自监督协同重构的水下目标检测方法，属于计算机视觉、深度学习、自监督学习及目标检测技术领域。

背景技术

海洋是生命的发源地，蕴藏着大量的矿产和生物资源。有效地勘探并开发海洋资源对推动经济发展和缓解日益枯竭的自然资源有着重要作用。随着深度学习的发展，目标检测技术被应用到众多领域。配备智能目标检测系统的水下机器人成为了一种探索海洋的有效方式。然而受水下环境的影响，配备光学相机的水下机器人很难采集到大量的高质量水下数据。加之水下环境复杂多变，光线会发生反射、散射等现象，这加剧了水下图像质量低下的问题。这些不利影响限制了目标检测技术在水下场景的应用。

深度学习见证了模型参数的爆炸性增长。这通常需要大量的数据进行支撑。现有的目标检测技术大多使用在大型数据集ImageNet上预训练的权重来初始化特征提取网络，它们并未考虑水下场景的特殊性。ROIMix是水下目标检测URPC2019的冠军方案。它通过模拟水下生物的相互遮挡，将不同的数据进行混合，以模拟真实的数据分布。FERNet是发表在ECCV2020上的水下目标检测方案。作者在RFBNet的基础上扩充网络的感受野，级联主干以提高网络的特征提取能力。这些方法大都是基于通用目标检测的方法，在水下场景中鲁棒性较低。此外，由于水下数据收集相对困难，很难有大量的数据来满足模型的训练需求。因此，直接应用这些检测器在水下目标检测任务中常常导致精度下降严重等问题。

发明内容

为解决现有技术的不足，本发明的目的在于提供一种基于自监督协同重构的水下目标检测方法，解决了现有技术中基于水下数据稀少，检测模型在水下场景的适应能力差导致精度低的问题。

为了实现上述目标，本发明采用如下的技术方案：

一种基于自监督协同重构的水下目标检测方法，包括以下步骤：

通过光学相机和水下无人航行器，采集所需要的水下图像数据，形成水下数据集p₁；

将所获取的数据进行标注，使用数据增强方法扩充数据集，形成预训练数据集；

搭建自监督协同重构网络，将对比学习与像素重建任务相结合，在水下数据集进行预训练，以此适应水下目标检测任务；

将前述的预训练数据集输入自监督协同重构网络，并保留特征编码器的权重；

构建水下目标检测网络；

将前述特征编码器的权重进行初始化输入水下目标检测网络，通过损失函数不断优化检测的结果，并保存网络权重；

使用前述保存的网络权重进行推理，测试网络在水下场景中的应用效果。

进一步地，前述使用数据增强方法扩充数据集，形成预训练数据集的步骤包括：

将标准比色卡置于不同深度的海水中，限定其深度为0到m米，使用水下相机每隔1米拍摄带有比色卡的照片，并记录每张图片对应的深度值，最终得到带有比色卡的标准图片集p₂；

将水下数据集p₁与带有比色卡的标准图片集p₂中所有的数据灰度化，并按照它们的像素值统计为直方图向量，分别记为H＝{H₁，H₂，...，H_i，...，H_n}、h＝{h₀，h₁，...h_j，...，h_m}，其中，H_i表示水下数据集p₁中第i张图片的灰度化像素直方图向量，h_j表示标准图片集p₂中第j张带有标准比色卡的图片，n为水下数据集的大小；

将H中的单个向量H_i分别与h中的所有向量求取余弦相似度Cos(H_i,h_j)，选取余弦相似度最大值max(Cos(H_i,h_j))对应的h_j，得出max(Cos(H_i,h_j))中h_j所对应深度值d，其中余弦相似度Cos和深度值d的计算公式如下：

通过水下数据增强方法Sea-thru基于深度值对水下数据集p₁中的图片进行颜色恢复与修正，得到增强后的图片数据；

在完成颜色恢复与修正后，使用随机裁剪、随机旋转、随机尺度变换，进一步扩充，得到最终的水下预训练数据集。

进一步地，前述水下数据增强方法Sea-thru的计算公式为：

out＝f(in,d)

其中，f为Sea-thru数据增强方法，in表示水下数据集p₁中的图片，d是in所对应的深度值，out表示增强后的图片。

进一步地，前述自监督协同重构网络包括对比学习分支和像素重建分支；

所述对比学习分支包括在线子分支和目标子分支：所述在线子分支包括一个特征编码器Encoder、两个线性投影层Projector和Predictor；所述目标子分支包括一个特征编码器Encoder和一个线性投影层Projector。

进一步地，前述在水下数据集进行预训练的损失函数表达式为：

L＝L_contrast+L_reconstruct

式中，q是在线子分支的视图，L是总的损失函数，L_contrast是对比学习分支的损失函数，L_reconstruct是像素重建分支的损失函数，k₊是同一图像不同视图的目标特征，k_i是第i个负样本的目标特征，τ是温度系数，K是队列大小，N是图片批次的大小，decoder代表像素重建分支的特征解码器，z为特征编码器的输出，λ为平衡系数，img指输入图像。

进一步地，前述水下目标检测网络包括特征提取网络、特征金字塔网络和检测器头部网络；

所述特征提取网络选择残差网络ResNet50，提取特征提取网络输出的最后三层C3、C4、C5送入特征金字塔网络；

基于特征提取网络中的C3、C4、C5的输入，计算得到特征金字塔网络的P3、P4、P5层级，在C5的基础上使用一个步长为2、卷积核大小为3的卷积层得到特征金字塔网络的P6层级，在P6的基础上应用Relu层，然后经过一个步长为2、卷积核大小为3的卷积层得到特征金字塔网络的P7层级；

将特征金字塔网络中所得到的5个特征层级送入检测器头部网络后得到输入图像中的目标位置、目标类别、目标中心度和目标IOU。

进一步地，前述检测器头部网络包括分类分支和回归分支；

所述分类分支负责输出每个对象类别的置信度和中心度，中心度的计算公式定义为：

其中，l表示标注框中的像素点到左边界的距离，r表示标注框中的像素点到右边界的距离，t表示标注框中的像素点到上边界的距离，b表示标注框中的像素点到下边界的距离；

所述回归分支用来预测对象在图片中的坐标位置，并输出一个IOU预测值，IOU的计算公式为：

其中A和B分别表示候选框和标注框，∩表示求交集，∪表示求并集。

进一步地，前述水下检测网络总的损失函数为：

其中N_pos表示正样本数目，L_cls表示分类损失，L_reg表示回归损失，L_iou表示交并比损失，L_cnt表示中心度损失。

进一步地，前述将前述特征编码器的权重进行初始化输入水下目标检测网络，通过损失函数不断优化检测的结果，并保存网络权重的步骤包括：

将前述保存的特征编码器权重，进行初始化；

经过随机颜色抖动和随机裁剪后输入到水下目标检测网络；

通过损失计算、梯度反传优化整个网络的参数，在完成训练后保存网络的权重。

进一步地，前述使用前述保存的网络权重进行推理，测试网络在水下场景中的应用效果的步骤为：

将前述检测输出的IOU、中心度与置信度相乘，按照结果对检测框进行排序；

选择数值最大的前80个结果进行非极大值抑制处理，得到最终的检测结果。

本发明所达到的有益效果：

本发明是一种融合自监督学习的水下目标检测方法，能够有效地针对水下环境，使得网络学习到更好的视觉表征；在使用较少数据的情况下，可以获得比ImageNet预训练更好的效果；通过自监督协同重构，在进行对比学习的同时，与像素重建共同优化。这使得网络在学习全局特征的同时，也兼顾了局部空间特征的重要性；由于使用水下数据集进行预训练，更加适应了水下数据集的特征分布；此外，预训练过程是对特征提取网络的参数优化，并不会在推理过程中增加耗时；检测头网络中预测的中心度和IOU避免了直接使用置信度对生成的预测结果进行筛选，解决了分类置信度和定位精度之间的不匹配问题。

附图说明

图1为本发明的流程图；

图2为本发明自监督协同重构网络和水下目标检测网络的具体实现过程图；

图3为本发明自监督协同重构网络的结构图；

图4为本发明水下目标检测网络的结构图；

图5为本发明应用深度自适应水下数据增强方法效果对比图；

图6为本发明在水下目标检测大赛URPC中的可视化结果图。

具体实施方式

下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互组合。

本发明实施例中的一种基于自监督协同重构的水下目标检测方法，如图1和图2所示，包括如下步骤：

步骤1：通过光学相机和水下无人航行器，采集所需要的水下图像数据，形成水下数据集p₁。

步骤2：将收集的水下图片使用CVAT标注工具进行标注，使之包含类别信息与坐标信息。标注的格式选用COCO格式，即保存为json文件。在完成标注后，使用数据增强方法扩充数据集并按照标注的像素坐标进行裁剪，形成预训练数据集。数据增强方法包括Sea-thru、随机裁剪、随机旋转、随机尺度变换。现有水下数据增强方法Sea-thru需要输入图片在水下的深度值。然而一般常见的RGB图片无法给出其拍摄的深度值，受制这一特性，Sea-thru的可用性大大降低。因此本发明提供了一种解决方案，将Sea-thru改进为一种深度自适应的数据增强方法，提升了Sea-thru的可用性。数据增强的主要步骤如下：

步骤2-1：将标准比色卡置于不同深度的海水中，限定其深度为0到m米。使用水下相机每隔1米拍摄带有比色卡的照片，由此可得到包含m+1张照片的标准图片集p₂。拍摄中需要保证比色卡正对相机镜头，并记录每张图片对应的深度值。

步骤2-2：将水下数据集p₁与带有比色卡的标准图片集p₂中所有的数据灰度化，并按照它们的像素值统计为直方图向量，分别记为H，h，其中H＝{H₁，H₂，...，H_i，...，H_n}、h＝{h₀，h₁，...h_i，...，h_m}，这里的H_i表示水下数据集p₁中第i张图片的灰度化像素直方图向量，h_j表示标准图片集p₂中第j张灰度化的像素直方图向量，n为水下数据集的大小。

步骤2-3：将H中的单个向量H_i分别与h中的所有向量求取余弦相似度Cos(H_i,h_j)，选取余弦相似度最大值max(Cos(H_i,h_j))对应的h_j，从步骤2-1中得出max(Cos(H_i,h_j))中h_j所对应深度值d，即为水下数据集p₁中第i张图片所对应的深度值。其中余弦相似度Cos和深度值d的计算公式如下：

步骤2-4：通过现有的水下数据增强方法Sea-thru基于深度值d对水下数据集p₁中的图片进行颜色恢复与修正，得到增强后的图片数据，效果如图5所示。该过程用公式表示如下：

out＝f(in,d)

其中，f为Sea-thru数据增强方法，in表示水下数据集p1中的图片，d是in所对应的深度值，out表示增强后的图片。

步骤2-5：在完成颜色恢复与修正后，使用随机裁剪、随机旋转、随机尺度变换，进一步扩充，得到最终的水下预训练数据集。

步骤3：搭建自监督协同重构网络，如图3所示。

该网络包括两个分支，对比学习分支和像素重建分支。其中，对比学习分支由在线子分支和目标子分支构成：在线子分支包括一个特征编码器(Encoder，采用的是ResNet50)和两个线性投影层(Projector和Predictor)，目标子分支包括一个特征编码器(Encoder，采用的是ResNet50)和一个线性投影层(Projector)。其中两个线性投影层Projector和Predictor，都由两个卷积核大小为1×1的卷积层、批归一化层BN和RELU层组成。Projector是2层的MLP线性投影层，在线分支额外引入的MLP投影层使得两个分支拥有非对称结构，可以有效地抑制自监督学习中解崩溃的现象，提升特征编码器的特征提取能力。在线分支通过梯度更新，而目标分支通过在线分支的指数移动平均值进行更新。

在自监督协同重构网络中输入由数据增强方法得到的不同视图，这些视图通过对比学习分支和像素重建分支输出相应的特征向量，进行预训练，以此适应水下目标检测任务。

为了防止模型的解退化为常数，网络中还设置了大量的负样本。具体来说，从相同样本创建的增强视图被认为是正样本对，来自不同样本的视图被视为负样本对。通过损失函数减小正样本之间的差异性，同时增大负样本之间的距离。损失函数定义为两个分支输出的特征向量之间的差异性。其中，对比学习分支损失函数L_contrast被定义为：

其中，q是在线子分支的视图，k₊是同一图像不同视图的目标特征，k_i代表不同图像之间视图的目标特征，即第i个负样本的目标特征，τ是温度系数，K是队列大小，即batchsize。

像素重建分支给送入特征编码器的特征图添加掩码，通过一个轻量化的特征解码器重建这些缺失的像素值，以此提高网络对局部空间特征的敏感度。即直接将特征图矩阵中的值置为0，掩码添加的比例为50％。特征解码器包含一个线性最近邻插值、卷积核大小为3×3的卷积层和一个维度变换。线性最近邻插值用来进行上采样，恢复特征图在特征提取网络下采样前的维度。卷积层被用来消除上采样带来的混叠效应。维度变换用来对图像的维度进行调整，以方便与原图进行损失计算像素重建分支的损失选用均方误差(Mean-Square Error，MSE)，其损失函数L_reconstruct计算公式如下：

其中，N是图片批次的大小，img指输入图像，decoder代表像素重建分支的特征解码器。z为特征编码器的输出，λ为平衡系数。

对比学习善于捕捉图片的全局特征，而像素重建侧重于局部空间信息。因此，自监督协同重构网络很好地结合了这两者的优点，学习出更鲁棒的视觉表征。总的损失函数是这两者的结合，用公式表示如下：

L＝L_contrast+L_reconstruct。

步骤4：将步骤2中得到的预训练数据集输入自监督协同重构网络，训练特征编码器。硬件选择配备3090单卡且内存为32G的主机。深度学习框架使用pytorch，编程语言为python。Batch size设置为512，学习率设置为0.0025，优化器采样随机梯度下降(SGD)，一共训练50个轮次。在前5个轮次中采用线性学习率预热策略，后面的45个轮次学习率按照余弦函数从0.0025衰减到0。在完成网络训练后保存相应的特征编码器权重。

步骤5：搭建水下目标检测网络，主要结构如图4所示。包括特征提取网络、特征金字塔网络和检测器头部网络。特征提取网络选择残差网络ResNet50，选取该网络输出的最后三层C3、C4、C5作为特征金字塔网络输入。特征金字塔网络的输出共有5个层级，分别为P3、P4、P5、P6、P7。其中P3到P5是使用自上而下和横向连接的结构，分别从ResNet50中的C3到C5的输出计算得到。P6是在C5的基础上使用一个步长为2、卷积核大小为3的卷积层得到。P7则是在P6的基础上应用Relu层，然后经过一个步长为2、卷积核大小为3的卷积层得到。将特征金字塔网络中所得到的5个特征层级送入检测器头部网络后得到相应的检测结果，检测结果包括输入图像中的目标位置、目标类别、目标中心度和目标IOU。检测器头部网络有两个分支：分类分支和回归分支。分类分支主要负责输出每个对象类别的置信度和中心度，置信度和中心度都是0到1之间的数。回归分支用来预测对象在图片中的坐标位置，并输出一个IOU预测值。这使得推理阶段避免了直接使用置信度对候选框的排序，有效降低了高质量候选框被过滤的风险。其中，中心度和IOU预测值在训练过程中生成标签，并随着损失函数的优化而优化。中心度的计算公式定义为：

这里的l表示标注框中的像素点到左边界的距离，r表示标注框中的像素点到右边界的距离，t表示标注框中的像素点到上边界的距离，b表示标注框中的像素点到下边界的距离。

IOU的计算公式如下：

水下目标检测网络总的损失函数定义如下：

其中N_pos表示正样本数目，L_cls表示分类损失，使用Focal Loss，L_reg表示回归损失，使用GIOU Loss。对于交并比损失L_iou使用Smooth-L1损失，中心度损失L_cnt使用交叉熵损失(Cross Entropy Loss)，x，y分别表示网络的预测值和标注的真实值。

步骤6：按照上述结构，使用pytorch深度框架搭建网络，如图4所示。硬件仍然使用步骤3中的主机。训练过程中，学习率设置为0.005，权重衰减系数设置为0.0005，batchsize设置为8。为了适应水下目标检测任务，使用步骤4中保存的特征编码器权重，进行初始化，经过一个随机颜色抖动和随机裁剪输入到检测网络，经过损失计算、梯度反传优化整个网络的参数，在完成训练后保存网络的权重。总共训练36个轮次，在前500次迭代中使用线性学习率预热策略，在第27和第33个轮次各进行一次学习率衰减，每次衰减为之前的10倍。

步骤7：本发明在水下目标检测大赛URPC中进行实验，使用步骤6中保存的网络权重进行推理，将检测输出的IOU、中心度与置信度相乘，按照结果对检测框进行排序，选择数值最大的前80个结果进行NMS(非极大值抑制)处理，得到最终的检测结果。检测的部分结果如图6所示。

为了验证本算法的可实时性，设置了相关的对比实验，表1统计了各算法在水下目标检测大赛URPC中mAP的评测结果。

表1

算法	mAP(％)	特征提取网络
			Cascade R-CNN	81.6	CB-Res2Net-101-DCN
FCOS	73.4	ResNet-50
			Sparse R-CNN	78.2	Swin-Base
GFocal V2	79.8	Res2Net-101-DCN
			DetectoRS	74.4	ResNeXt-101-32x4d
RepPoints	78.9	ResNet-50
			YOLOV3	75.0	DarkNet-53
SSD	73.8	VGG-16
			RetinaNet	77.3	ResNet-50
FoveaBox	78.2	ResNet-50
			ATSS	78.0	ResNet-50
PAA	80.3	ResNeXt-101-64x4d-DCN
			CenterNet V2	74.5	R2-101-DCN-BiFPN
DoubleHead	77.5	ResNet-101
			Ours	82.3	ResNet-50

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于自监督协同重构的水下目标检测方法，其特征在于，包括以下步骤：

构建水下目标检测网络；

2.根据权利要求1所述的一种基于自监督协同重构的水下目标检测方法，其特征在于，所述使用数据增强方法扩充数据集，形成预训练数据集的步骤包括：

将水下数据集p₁与带有比色卡的标准图片集p₂中所有的数据灰度化，并按照它们的像素值统计为直方图向量，分别记为H＝{H₁，H₂，…，H_i，…，H_n}、h＝{h₀，h₁，…h_j，…，h_m}，其中，H_i表示水下数据集p₁中第i张图片的灰度化像素直方图向量，h_j表示标准图片集p₂中第j张带有标准比色卡的图片，n为水下数据集的大小；