CN112597906B

CN112597906B - 一种基于退化先验的水下目标检测方法

Info

Publication number: CN112597906B
Application number: CN202011560980.2A
Authority: CN
Inventors: 钱晓琪; 刘伟峰; 李建宁; 杨豪杰
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2024-02-02
Anticipated expiration: 2040-12-25
Also published as: CN112597906A

Abstract

本发明公开了一种基于退化先验的水下目标检测方法。本发明方法针对目前基于卷积神经网络的通用目标检测算法在水下场景中检测精度下降严重这一现象而提出的。本发明是通过构建一个包含空间、通道注意力机制，并带有残差结构的特征增强模块对来自卷积神经网络浅层提取的水下图像退化特征做增强，从而提升通用目标检测算法在水下场景中的检测精度。本发明方法基于退化先验，将低质图像的退化特征尽可能映射到其对应清晰图像的特征，从可视化角度来看即，缩小两种特征的边距。本发明方法可以和目前主流的检测算法兼容，不需要专门设计网络结构。实验表明在少量数据时，检测效果尤为突出。

Description

一种基于退化先验的水下目标检测方法

技术领域

本发明属于图像处理技术领域，涉及一种基于退化先验的水下目标检测方法。

背景技术

目标检测(Object Detection)需要检测并定位在图像或视频中存在的具有固定类别(如人、建筑、车等)的物体，其包括目标识别(Object Recognition)与目标定位(Object Localizing)两个目的。目标检测经常在视频处理中应用，这通常需要对其有实时性的要求。因此，目标识别成为了计算机视觉中最基本以及最具挑战性的问题之一。

随着Alex Krizhevsky等人提出的深度卷积神经网络(Deep ConvolutionalNeural Network,Deep CNN)在2012年的大规模图像识别竞赛——ILSVRC-2012中大放异彩，基于CNN的方法便迅速席卷了计算机视觉领域，它通过数据自发学习特征，不断刷新计算机视觉各个子方向的Benchmark。在目标检测方向中，基于CNN的目标检测方法可分为两类：单阶段目标检测算法和两阶段目标检测算法。单阶段目标检测算法可以通过匹配大量先验框来直接定位目标，这些先验框以不同的比例和比率在输入图像上进行密集采样。这种方法在效率上有很强的优势，但准确性通常较低。相反，两阶段检测算法可以通过首先生成候选区域，然后进一步计算分类分数和回归边界框来获得更准确的结果。

由于复杂的水下环境，水下成像经常会遇到诸如模糊，比例尺变化，颜色偏移和纹理变形等问题。此外，由于复杂的水底环境，使得水下图像的采集和标注成本极高，因此没有大规模的数据可以使用。受限于上述两点，当我们在水下场景中使用通用检测算法时，这些算法的效果往往都会大打折扣。

一个可行的方法是水下图像增强。对水下图像进行处理，缓解图像的色偏，提高对比度和可见度等，然后对增强后的水下图像使用通用检测算法。这种方法在是实践中被证明具有一定的作用，但是目前主流的水下图像增强算法也是基于卷积神经网络的，那么还是会受到数据采集的限制。此外图像增强是一个比较主观的过程，并且增强算法会引入其他干扰因素。

另一种可行的方法是针对水下场景的特殊性设计专门的网络结构。但是网络结构的设计对研究人员的要求很高，并且耗费大量硬件资源。

研究表明清晰图片和其对应的退化图片(比如有雾、低对比度、水下等)的特征表示之间存在两个重要关系：具有结构相似性的图像块在深度表示空间中具有均匀的分布，即使它们来自不同的图像；在相同退化条件下，清晰和退化图像中相应的结构相似图像块的特征分布具有均匀的边距。根据以上两点，清晰特征和退化特征之前应该存在一种近似映射关系，可以把退化特征近似映射到清晰特征。

发明内容

本发明针对现有水下目标检测技术的不足，提供一种基于退化先验的水下目标检测方法。通过观察大量低质图像和其对应的清晰图像后发现了它们特征之间的边距是均匀的，称之为退化先验。

本发明方法具体步骤如下：

步骤(1)搜集整理图像数据；

图像数据包括：N张真实水下图像；PASCAL VOC07通用目标检测数据集；水下目标检测数据集，并且标注目标物类别和坐标信息。进一步，N＝100～200。

步骤(2)估计光照；

(2.1)将每张真实水下图像下采样至n×n大小的图像。进一步，n＝50～100。

(2.2)下采样后的图像选择n′×n′的滑窗，计算每个滑窗内三个通道的像素最大值，得到光照向量A：A＝[max(R(Ω)),max(G(Ω)),max(B(Ω))]；其中，R、G、B表示图像的三个通道，Ω表示滑窗覆盖的区域。进一步，n′＝5～10。

(2.3)归一化处理，得到光照向量A的估计光照向量集合A^*。

步骤(3)采用单目估计方法估计得到PASCAL VOC07通用目标检测数据集中所有图像的深度图d，并用导向滤波优化；

步骤(4)将PASCAL VOC07通用目标检测数据集中的每张图像合成为水下图像：

(4.1)选出待合成图像对应的深度图；

(4.2)从估计光照向量集合A^*中随机选取一个光照向量A；

(4.3)合成水下图像：

其中，I表示合成的水下图像，c表示图像的三个通道，i表示像素位置；J表示PASCAL VOC07通用目标检测数据集中的图像，d为与之对应的深度图；β是光照衰减系数。

步骤(5)构建特征增强模块；

特征增强模块由三个结构相同的空间通道注意力残差块构成；每个空间通道注意力残差块具体结构为一个3×3卷积层后紧跟两个分支和一个空间注意力机制；

第一分支是一个通道注意力机制，由全局平均池化层、1×1卷积层、1×1卷积层、非线性激活层顺序连接而成；

第二分支是一个3×3卷积层；

空间注意力机制由3×3卷积层、非线性激活层顺序连接而成；

两个分支的输出相乘后输入空间注意力机制，第二分支的输出和空间注意力机制的输出相乘后再和空间通道注意力残差块的输入相加，作为空间通道注意力残差块的输出。

步骤(6)训练特征增强模块：

首先将检测任务主干网络浅层部分与特征增强模块连接，并固定检测任务主干网络浅层部分的参数；然后使用PASCAL VOC07通用目标检测数据集的验证集部分和与之对应的合成水下图像进行训练；

训练时，PASCAL VOC07通用目标检测数据集的图像经过检测任务主干网络浅层部分，得到清晰特征y_GT；与之对应的合成水下图像经过检测任务主干网络浅层部分和特征增强模块后得到增强特征y；

训练使用的损失函数为包含均方误差和平均绝对误差的混合损失函数Loss，训练完毕后保存得到的参数。进一步，Loss＝0.8×||y-y_GT||₂+0.2×||y-y_GT||₁；||·||₂表示均方误差，||·||₁表示平均绝对误差。

步骤(7)在合成水下图像上训练检测任务主干网络，将训练得到的特征增强模块嵌入训练后的检测任务主干网络，固定检测任务主干网络浅层部分的参数和特征增强模块的参数，只更新检测任务主干网络中特征增强模块后面部分的主干网络参数；

训练检测任务主干网络使用的损失函数包含分类损失和坐标损失两部分。进一步，分类损失使用交叉熵损失函数，坐标损失使用SmoothL1损失函数；

保存训练后检测任务主干网络的所有参数。

步骤(8)在水下目标检测数据集上微调检测任务主干网络；

将在合成水下图像上训练得到的检测任务主干网络，在目标检测数据集上进行微调训练；微调时，固定检测任务主干网络浅层部分的参数和特征增强模块的参数，只更新检测任务主干网络中特征增强模块后面部分的主干网络参数；

保存训练后检测任务主干网络的所有参数。

步骤(9)将训练后检测任务主干网络的参数加载到对应的目标检测主干网络中，然后输入待检测的图像，主干网络即输出待检测目标物的坐标和类别信息。

本发明方法基于退化先验，将低质图像的退化特征尽可能映射到其对应清晰图像的特征，从可视化角度来看即，缩小两种特征的边距。本发明方法可以和目前主流的检测算法兼容，不需要专门设计网络结构。实验表明在少量数据时，检测效果尤为突出。

本发明方法基于退化先验所提出的特征增强模块对于通用目标检测算法在水下场景的检测精度具有较大提升作用；其优点在于：(1)特征增强模块训练成本低，不需要坐标、类别等标签信息；(2)可移植性强，可嵌入到其他检测网络中；(3)检测效果具有很大的提升。

附图说明

图1是特征增强模块中空间通道注意力残差块示意图；

图2是特征增强模块的训练示意图；

图3是使用特征增强模块做水下目标检测示意图；

图4是检测效果对比图。

具体实施方式

以YOLO v3为例，对基于退化先验的水下目标检测方法作进一步说明。

步骤(1)搜集整理图像数据；

图像数据包括：100张真实水下图像，这些图像具有大面积偏蓝、偏绿的背景；PASCAL VOC07通用目标检测数据集；水下目标检测数据集，并且标注目标物类别和坐标信息，这里以URPC19数据集为例。

步骤(2)估计光照；

(2.1)将每张真实水下图像下采样至100×100大小的图像；

(2.2)下采样后的图像选择10×10的滑窗，计算每个滑窗内三个通道的像素最大值，得到光照向量A：A＝[max(R(Ω)),max(G(Ω)),max(B(Ω))]；其中，R、G、B表示图像的三个通道，Ω表示滑窗覆盖的区域；

(2.3)归一化处理，得到10000个光照向量A组成的估计光照向量集合A^*。

步骤(3)采用单目估计方法估计得到PASCAL VOC07通用目标检测数据集中所有图像的深度图d，并用导向滤波优化。

(4.1)选出待合成图像对应的深度图；

(4.2)从估计光照向量集合A^*中随机选取一个光照向量A；

(4.3)合成水下图像：

步骤(5)构建特征增强模块；

特征增强模块由三个结构相同的空间通道注意力残差块构成。如图1，每个空间通道注意力残差块具体结构为一个3×3卷积层后紧跟两个分支和一个空间注意力机制；

第二分支是一个3×3卷积层；

空间注意力机制由3×3卷积层、非线性激活层顺序连接而成；

空间通道注意力残差块的具体参数如下表所示：

层类型	输入大小	通道数	核大小	填充大小	步长
						Conv1-1	64×112×112	64	3×3	1	1
Conv1-2	64×112×112	64	3×3	1	1
						Conv1-3	64×112×112	64	3×3	1	1
GAP	64×112×112	64	112×112	0
						Conv2-1	64×112×112	16	1×1	0	1
Conv2-2	16×112×112	64	1×1	0	1

步骤(6)训练特征增强模块：

如图2，首先将YOLO v3使用的主干网络浅层部分(这里具体是指前两个卷积层)与特征增强模块连接，并固定检测任务主干网络浅层部分的参数；然后使用PASCAL VOC07通用目标检测数据集的验证集部分和与之对应的合成水下图像进行训练；

训练时，PASCAL VOC07通用目标检测数据集的图像经过检测任务主干网络浅层部分，得到清晰特征CF；与之对应的合成水下图像经过检测任务主干网络浅层部分和特征增强模块后得到增强特征EF；

训练使用的损失函数为包含均方误差和平均绝对误差的混合损失函数，对CF和EF计算训练损失，训练完毕后保存得到的参数；Loss＝0.8×||EF-CF||₂+0.2×||EF-CF||₁；||·||₂表示均方误差，||·||₁表示平均绝对误差。；训练使用小批量随机梯度下降算法(Mini-Batch Stochastic Gradient Descent)进行参数优化学习。

参数设置：BatchSize设置为16，初始学习率LR设置为0.01，迭代次数为5000次，在迭代次数达到3000此时将LR调整为0.001。

训练完毕后保存好训练得到的参数。

步骤(7)在合成水下图像上训练检测任务主干网络，训练过程如图3所示。将训练得到的特征增强模块嵌入训练后的检测任务主干网络，固定检测任务主干网络浅层部分的参数和特征增强模块的参数，只更新检测任务主干网络中特征增强模块后面部分的主干网络参数。

参数设置：BatchSize设置为8；训练轮数设置为30轮；学习率采用CosineLRDecay：衰减范围为10^-4～10^-6；其中η_t表示当前训练轮数的学习率，η_min是学习率下限，η_max是学习率上限，T_max是训练轮数，T_cur是当前已经完成的训练轮数。

训练检测任务主干网络使用的损失函数包含分类损失和坐标损失两部分，其中分类损失使用交叉熵损失函数，坐标损失使用SmoothL1损失函数；

训练使用小批量随机梯度下降算法(Mini-Batch Stochastic GradientDescent)进行参数优化学习。

保存训练后检测任务主干网络的所有参数。

步骤(8)在水下目标检测数据集上微调检测任务主干网络；

将在合成水下图像上训练得到的检测任务主干网络，在目标检测数据集上进行微调训练；微调时，固定检测任务主干网络浅层部分的参数和特征增强模块的参数，只更新检测任务主干网络中特征增强模块后面部分的主干网络参数；微调的时候，只将学习率衰减范围改为10^-5～10^-6，其余所有条件设置均和步骤(7)保持一致。

保存训练后检测任务主干网络的所有参数。

图4是检测效果对比图，左半图是未加特征增强模块的YOLO v3检测效果，右半图是加了特征增强模块的YOLO v3检测效果。可以看出，特征增强模块对于检测效果具有很大的提升作用。

Claims

1.一种基于退化先验的水下目标检测方法，其特征在于，该方法具体是：

步骤(1)搜集整理图像数据；

图像数据包括：多张真实水下图像；PASCAL VOC07通用目标检测数据集；水下目标检测数据集，并且标注目标物类别和坐标信息；

步骤(2)估计光照；

(2.1)将每张真实水下图像下采样至n×n大小的图像；

(2.2)下采样后的图像选择n′×n′的滑窗，计算每个滑窗内三个通道的像素最大值，得到光照向量A：A＝[max(R(Ω)),max(G(Ω)),max(B(Ω))]；其中，R、G、B表示图像的三个通道，Ω表示滑窗覆盖的区域；

(2.3)归一化处理，得到光照向量A的估计光照向量集合A^*；

步骤(3)采用单目估计方法估计得到PASCAL VOC07通用目标检测数据集中所有图像的深度图，并用导向滤波优化；

(4.1)选出待合成图像对应的深度图；

(4.2)从估计光照向量集合A^*中随机选取一个光照向量A；

(4.3)合成水下图像：其中，I表示合成的水下图像，c表示图像的三个通道，i表示像素位置；J表示PASCAL VOC07通用目标检测数据集中的图像，d为与之对应的深度图；β是光照衰减系数；

步骤(5)构建特征增强模块；

第二分支是一个3×3卷积层；

空间注意力机制由3×3卷积层、非线性激活层顺序连接而成；

两个分支的输出相乘后输入空间注意力机制，第二分支的输出和空间注意力机制的输出相乘后再和空间通道注意力残差块的输入相加，作为空间通道注意力残差块的输出；

步骤(6)训练特征增强模块：

训练使用的损失函数为包含均方误差和平均绝对误差的混合损失函数Loss，训练完毕后保存得到的参数；

训练检测任务主干网络使用的损失函数包含分类损失和坐标损失两部分；

保存训练后检测任务主干网络的所有参数；

步骤(8)在水下目标检测数据集上微调检测任务主干网络；

保存训练后检测任务主干网络的所有参数；

2.如权利要求1所述的一种基于退化先验的水下目标检测方法，其特征在于：图像数据包括100～200张真实水下图像。

3.如权利要求1所述的一种基于退化先验的水下目标检测方法，其特征在于：步骤(2)下采样图像大小中n＝50～100，滑窗大小中n′＝5～10。

4.如权利要求1所述的一种基于退化先验的水下目标检测方法，其特征在于：步骤(6)中混合损失函Loss＝0.8×||y-y_GT||₂+0.2×||y-y_GT||₁；||·||₂表示均方误差，||·||₁表示平均绝对误差。

5.如权利要求1所述的一种基于退化先验的水下目标检测方法，其特征在于：步骤(7)中分类损失使用交叉熵损失函数，坐标损失使用SmoothL1损失函数。