CN111209952B

CN111209952B - 基于改进ssd和迁移学习的水下目标检测方法

Info

Publication number: CN111209952B
Application number: CN202010003815.0A
Authority: CN
Inventors: 吕志刚; 吴娇; 王鹏; 李晓艳; 许韫韬; 符惠桐; 王明铭; 张云绚
Original assignee: Xian Technological University
Current assignee: Xian Technological University
Priority date: 2020-01-03
Filing date: 2020-01-03
Publication date: 2023-05-30
Anticipated expiration: 2040-01-03
Also published as: CN111209952A

Abstract

本发明涉及一种基于改进SSD和迁移学习的水下目标检测方法，其克服了现有技术中水下目标检测的欠拟合，识别率低，鲁棒性差的问题，有效提高了水下目标检测识别率与视觉效果。本发明包括以下步骤：步骤1、准备阶段：运用计算机读取深水中条件下拍摄的水下图像，利用水下背景图片与水上目标场景图像进行融合处理，获取更多水下图像；步骤2、图像的预处理和基于滤波器去除噪声阶段；步骤3、基于骨干网的特征提取阶段；步骤4、基于迁移学习的网络模型训练阶段：利用迁移学习方法训练Underwater‑SSD网络；步骤5、基于软化非极大值抑制算法soft‑NMS目标检测阶段：在迁移学习训练后的模型后加入软化非极大值抑制算法。

Description

基于改进SSD和迁移学习的水下目标检测方法

技术领域：

本发明涉及一种计算机视觉与图像处理方法，尤其是涉及一种基于改进SSD和迁移学习的水下目标检测方法。

背景技术：

在图像采集过程中，由于特殊水下场景导致拍摄的图像整体灰度值偏低，对比度低，如深海图像，局部信息无法辨认，难以进行特征提取，甚至特征信息丢失，增加了进一步处理的困难程度，如目标识别、目标检测与跟踪任务难以进行。因此，如何针对水下目标检测问题，有效地对水下图像进行前期增强处理与后期水下目标检测，是图像增强技术与计算机视觉研究的热点问题。

针对水下非限制环境中的目标检测问题，现有研究方法中主要存在如下三方面不足：1)由于光在水体介质中存在严重的衰减和散射效应，造成水下图像质量下降，为水下目标的特征学习、识别理解造成严重障碍；2)传统的水下目标的检测算法存在检测性能较差、识别率低的问题；3)由于海底目标大多具有未知性，鱼类目标在自动识别学习时，已知标签的样本数量非常有限，传统的训练学习方法不再适用，且容易出现欠拟合问题；同时由于不同图像的应用环境不同、拍摄的光照强度、角度不同，存在较差的鲁棒性。

发明内容：

本发明的目的在于提供一种基于改进SSD和迁移学习的水下目标检测方法，其克服现有技术中水下目标检测的欠拟合，识别率低，鲁棒性差的问题，有效提高了水下目标检测识别率与视觉效果。

为实现上述目的，本发明采用的技术方案为：

一种基于改进SSD和迁移学习的水下目标检测方法，其特征在于：包括以下步骤：

步骤1、准备阶段：运用计算机读取深水中条件下拍摄的水下图像，利用水下背景图片与水上目标场景图像进行融合处理，获取更多水下图像；

步骤2、图像的预处理和基于滤波器去除噪声阶段：通过将水下图像输入计算机，运用两种算法得到对原图两种不同程度的增强的结果，然后选择好一个融合系数的计算公式，再进行拉普拉斯金字塔融合；然后采用滤波自适应方法进行平滑处理，以获得无噪声和纹理完整图像；

步骤3、基于骨干网的特征提取阶段：确定骨干网络结构，并根据骨干网络提取水下图像的关键点信息；然后，构建适合水下目标检测的较精确的SSD网络Underwater-SSD，从检测网络中提取具有很高代表性的特征，将无噪声和纹理完整图像应用于水下SSD网络中；

步骤4、基于迁移学习的网络模型训练阶段：利用迁移学习方法训练Underwater-SSD网络，仅使用空气中的标签识别水下物体；

步骤5、基于软化非极大值抑制算法soft-NMS目标检测阶段：在迁移学习训练后的模型后加入软化非极大值抑制算法，实现最终的目标检测结果输出，将测试数据集输入到已训练的模型进行测试。

上述步骤1包括如下步骤：

步骤101、数据集的获取，选择用水下图像采集终端获得深水条件下拍摄的水下图像；

步骤102、利用水下背景图片与水上目标场景图像进行融合，扩增数据集；

步骤103、将获取的数据集进行分类，划分为训练集、验证集及测试集；

步骤104、读取预训练模型，并读入水下图像目录。

上述步骤2包括如下步骤：

同一幅图像复制两份，一份选用白平衡的结果，记为I1，作为融合的对象1，用对I1进行双边滤波+限制对比度自适应直方图均衡CALHE算法处理的结果，记为I2，作为融合的对象2。然后运用权重系数进行相应的融合，最后进行拉普拉斯融合，然后针对融合后的图像采用BM3D滤波器与结构滤波器自适应方法进行平滑处理，进行去除图像中的噪声。

上述步骤3包括如下步骤：

骨干网络为VGG16，提取的水下图像特征送入多尺度预测与融合模型中，先针对不同尺度网络进行卷积、池化等操作，获得不同尺度特征信息，再通过多个层卷积层特征融合，得到更多的特征点信息，得到多尺度特征信息。

上述步骤4包括如下步骤：

利用迁移学习方法训练Underwater-SSD网络，使用空气中的标签识别水下物体，在迁移学习训练后的模型后加入软化非极大值抑制算法，获得最终的目标检测结果，并将测试水下图像输入到已训练的模型进行检测。

上述步骤2中，融合增强算法步骤如下所示：

(1)将输入图像复制成2份:src1和src2；

(2)对src1做自动白平衡；

(3)对src2做双边滤波去噪，多帧的话，不做配准，直接使用NLM思想时间空间域块去噪；

(4)对去噪后的src2做局域直方图增强，改善颜色和对比度，得到src3；

(5)对src1和src3使用显著图算法和LPLS滤波，计算得到融合权重图W；

(6)对src1和src3根据权重图W，进行多尺度融合，得到结果图像。

上述步骤2中，使用BM3D滤波器对图像进行平滑处理可获得图像基层，有效地衰减AWGN；利用噪声纹理水平系数λ作为权重来生成基层，

b(L)＝λ·b^fine(L)+(1-λ)·b^coarse(L)

式中，b^fine(L)和b^coarse(L)分别表示BM3D滤波器的平滑结果，使用比微光图像I的局部标准偏差δ_i平均值小一半和大两倍的参数。

上述以VGG16结构作为骨干网络进行对水下目标特征的提取，VGG16由13个卷积层和3个全连接层，共有16层构成，经过的卷积核大小为3*3*3，stride＝1，padding＝1，pooling为采用2x2的max pooling方式；根据所述骨干网络VGG16得到提取水下图像的特征信息，以获得水下图像特征，将获取水下特征后的特征向量发送到Concat特征融合连接模块与特征融合模块；然后将提取的水下图像特征送入水下SSD网络模型中的Concat特征融合连接模块与特征融合模块，先针对Concat特征融合连接模块进行卷积、池化操作，提取特征，再同时运用特征融合模块融合不同尺度的特征信息，获得到不同尺度特征信息后进行多层预测；

上述步骤5中，采用软化非极大值抑制算法soft-NMS，其公式表示如下：

其中b_i是初始化检测框，S_i是相应的检测得分，N_t是NMS阈值，M表示含有的最大得分，D表示最终的检测框集合。

与现有技术相比，本发明具有的优点和效果如下：

1)本发明充分考虑水下环境的特殊性，利用水下背景图像与前景目标图像进行融合处理，实现水下图像数据集的有效扩增，防止数据集过少导致训练欠拟合问题；并针对采集的水下图像成像特点，运用两种算法，得到两种不同程度增强效果的图像，然后选择一个适当的融合系数，对两张增强效果图像进行拉普拉斯金字塔融合，获得水下增强图像；然后对融合后的图像进行去噪处理，该过程利用的是融合图像块内部相邻像素间以及纹理边缘都具有一定相似性的特点，从而达到提升非局部均值算法的去噪水平、水下图像适当增强，边缘纹理不被模糊的目的。

2)本发明使用一个水下SSD网络，其是适合水下目标检测的较精确的SSD网络(Underwater-SSD)，从检测网络中提取代表性的特征，完成对水下目标进行检测。网络学习预处理后的水下图像特征，提高了水下目标检测识别率与视觉效果，识别准确率达到82.31。

3)本发明运用迁移学习方法训练Underwater-SSD网络，将迁移学习引入水下目标识别工作中，在水下目标数据量有限的情况下，将源域的大量数据信息迁移到目标域中，扩大用来训练分类器的数据量，可有效的提高分类器的性能与检测的鲁棒性。

附图说明：

图1为本发明实施例的方法流程图；

图2基于改进SSD和迁移学习的水下目标检测的整体框图；

图3适合水下进行目标检测的网络结构(Underwater-SSD)网络结构图；

图4为特征金字塔生成器示意图；

图5为反卷积融合模型1图示；

图6为迁移学习结构图；

图7为部分人工标注的数据集；

图8为部分水底环境下的实拍图像；

图9为典型实拍图像检测结果图；

图10为基于人工标注的数据图像检测结果图。

具体实施方式：

本发明提供一种基于改进SSD和迁移学习的水下目标检测方法，包括如下步骤：

步骤1、准备阶段：运用计算机读取深水条件下拍摄的水下图像，详细说明如下：

运用特殊摄像头终端进行图像采集，不仅运用最简单的方法获得了水下图像，而且可以达到有效扩大数据集的数量，降低数据获取成本的目的，其具体包括如下步骤：步骤101、数据集的获取，选择用合适的水下图像采集终端获得深水条件下拍摄的水下图像；步骤102、利用水下背景图片与水上目标场景图像进行融合，扩增数据集；步骤103、将获取的数据集进行分类，划分为训练集、验证集及测试集；步骤104、读取预训练模型，并读入水下图像目录；

步骤2、图像的预处理和基于滤波器去除噪声阶段：通过将水下图像输入计算机，运用两种算法得到对原图两种不同程度的增强的结果，然后选择好一个融合系数的计算公式，再进行拉普拉斯金字塔融合，从而提取更好的结果；然后采用滤波自适应方法进行平滑处理，以获得无噪声和纹理完整图像；详细说明如下：

将同一幅图像复制两份，一份选用了白平衡的结果(记为I1)作为融合的对象1，用对I1进行双边滤波+限制对比度自适应直方图均衡CALHE之类的算法处理的结果(记为I2)作为融合的对象2。然后运用某一种权重系数进行相应的融合，最后进行拉普拉斯融合；将深水条件下拍摄的图像进行融合增强操作后，依据噪声电平，采用BM3D滤波器与结构滤波器自适应方法进行平滑处理，用经过融合增强处理得到的图像块内部相邻像素间以及纹理边缘都具有一定相似性的特点，在超像素分割块基础上优化纹理区域相似窗口的选择策略，提高图像块与中心像素块之间的相似性，进行去除图像中的噪声，以获得无噪声和纹理完整图像。

步骤3、基于骨干网的特征提取阶段：确定骨干网络结构，并根据骨干网络提取水下图像的关键点信息；然后，构建适合水下目标检测的较精确的SSD网络(Underwater-SSD)，从检测网络中提取具有很高代表性的特征，将无噪声和纹理完整图像应用于水下SSD网络中，实现水下目标的检测，详细说明如下：

首先采用基于融合增强与滤波器平滑出来的无噪声和纹理完整的水下图像，运用骨干网络VGG16进行特征提取，根据所述骨干网络VGG16得到提取水下图像的特征信息，以获得水下图像特征，将获取水下特征后的特征向量发送到Concat特征融合连接模块与特征融合模块。

然后将提取的水下图像特征送入水下SSD网络模型中的Concat特征融合连接模块与特征融合模块，先针对Concat特征融合连接模块进行卷积、池化等操作，提取特征，再同时运用特征融合模块融合不同尺度的特征信息，获得到不同尺度特征信息后进行多层预测；

步骤4、基于迁移学习的网络模型训练阶段：利用迁移学习方法训练Underwater-SSD网络，将迁移学习引入水下目标识别工作中，在水下目标数据量有限的情况下，将源域的大量数据信息迁移到目标域中，扩大用来训练分类器的数据量，详细说明如下：

本发明的迁移学习分为两部分:分类网络训练；将分类网络的知识迁移到检测模型，在此基础上进行Underwater-SSD的训练，训练完分类网络后，可将分类网络训练的知识迁移到Underwater-SSD特征提取部分，卷积核的权值经过充分训练，能提取泛化特征，这些卷积核就可作为分类网络学习到的知识，从而实现针对水上目标进行训练，水下目标检测；

步骤5、基于软化非极大值抑制算法(soft-NMS)目标检测阶段：在迁移学习训练后的模型后加入软化非极大值抑制算法，实现最终的目标检测结果输出，将测试数据集输入到已训练的模型进行测试。

实施例：

如图1所示，该方法通过以下步骤实现：

s1：准备阶段：运用计算机读取深水条件下拍摄的水下图像

具体的，将特殊防水摄像头对准不同实例水下的场景，获取不同场景的水下图像，进行数据集获取，并利用水下背景图像与前景目标图像进行融合处理，实现水下图像数据集的有效扩增，其中部分人工标定数据集如图7所示，实拍水下场景如图8所示。

(1)s2：图像的预处理和基于滤波器去除噪声阶段：通过图像采集终端得到水下图像，计算机读入水下图像采用基于图像采集终端检测出来的水下图像，运用自动白平衡和双边滤波去噪这两种算法得到对原图两种不同程度的增强的结果，然后选择好一个融合系数的计算公式，再通过Concat模块进行拉普拉斯金字塔融合，从而提取更好的结果；利用局部标准差与局部梯度的比值来估计每个超像素的噪声电平，然后采用滤波自适应方法进行平滑处理，以获得无噪声和纹理完整图像。

具体的，融合增强算法步骤如下所示：

(1)将输入图像复制成2份:src1和src2。

(2)对src1做自动白平衡。

(3)对src2做双边滤波去噪(多帧的话，不做配准，直接使用NLM思想时间空间域块去噪)。

(4)对去噪后的src2做局域直方图增强(改善颜色和对比度)，得到src3。

(5)对src1和src3使用显著图算法和LPLS滤波，计算得到融合权重图W。

然后，利用超像素方法将微光图像I分割成多个子区域。对于每个子区域，使用以下方法来确定平滑度，假设噪声是加性高斯白噪声i(AWGN)。用δ_i表示超像素i标准差，▽_i表示超像素的局部梯度。考虑到δ_i和▽_i之间的归一化比值λ_i来测量子区域噪声电平：

依据噪声电平，采用BM3D滤波器与结构滤波器自适应方法进行平滑处理，用经过超像素分割处理得到的图像块内部相邻像素间以及纹理边缘都具有一定相似性的特点，在超像素分割块基础上优化纹理区域相似窗口的选择策略，提高图像块与中心像素块之间的相似性，进行去除图像中的噪声，以获得无噪声和纹理完整图像。

具体的，使用L表示将输入图像I融合增强后的图像。在非锐化掩模滤波器的启发下，将去噪后的L定义为L'。，L'由L的基层和无噪细节层的加权组合得到。

L'＝λ·d(L)+b(L)

式中d(L)和b(L)分别表示L的无噪声细节层和基层。对于具有小λ的子区域，添加一些细节来约束噪声程度。而对于具有大λ的子区域，会向基础层添加更多细节。使用BM3D滤波器对图像进行平滑处理可获得图像基层，该方法可以有效地衰减AWGN。利用噪声纹理水平系数λ作为权重来生成基层。

b(L)＝λ·b^fine(L)+(1-λ)·b^coarse(L)

式中，b^fine(L)和b^coarse(L)分别表示BM3D滤波器的平滑结果，使用比微光图像I的局部标准偏差δ_i平均值小一半和大两倍的参数。为了得到细节层d₁(L)，选择计算反转图像L的一阶微分，发现细节层d₁(L)中随机噪声倾向于与纹理融合，因此选择结构滤波器平滑细节层，同时保留有用的纹理，以获得平滑和纹理保留的结果d(L)。

s3：基于骨干网的特征提取阶段：确定骨干网络结构，并根据骨干网络提取水下图像的关键点信息；然后，构建适合水下目标检测的较精确的SSD网络(Underwater-SSD)，其结构图如图3所示，从检测网络中提取具有很高代表性的特征，将无噪声和纹理完整图像应用于水下SSD网络中，实现水下目标的检测。

具体的，本发明以VGG16结构作为骨干网络进行对水下目标特征的提取，VGG16由13个卷积层和3个全连接层，共有16层构成，过程为：经过的卷积核大小为3*3*3，stride＝1，padding＝1，pooling为采用2x2的max pooling方式。

根据所述骨干网络VGG16得到提取水下图像的特征信息，以获得水下图像特征，将获取水下特征后的特征向量发送到Concat特征融合连接模块与特征融合模块。

Underwater-SSD主要包括特征提取与预测回归两部分。特征提取部分包括7个卷积层，每个卷积层框图中的数据分别表示卷积核数量、卷积核尺寸、卷积步长。Underwater-SSD的特征提取部分仅使用7层卷积，并以步长为2或1的卷积运算进行下采样，如此设计的目的是为了减少水下进行目标检测时的运算量。而在回归预测部分，本发明舍弃全连接网络结构，整个网络使用多层卷积预测的结构，避免在回归过程中将空间特征转化为二维特征丢失空间信息，同时通过几个层的信息融合，进一步加强目标特征信息的细节特征。

为了实现水下小目标的检测，在回归预测部分采用特征拼接实现多尺度预测方式。对于深层特征，由于下采样使特征尺寸减小，导致越深层次的特征尺寸越小，因此深层特征中小目标的信息会因为下采样而丢失。为了解决仅使用深层特征进行目标检测导致微小目标被忽略的缺陷，采用多尺度的检测方式，即联合浅层特征和深层特征，提高小目标的检测率。

(2)Concat模块

ConvNets具有很好的金字塔特征层次提取能力，从低层到高层具有更多的语义信息。传统的SSD将这些不同层次的特征视为同一层次，直接从中产生目标检测结果。这种策略使得SSD缺乏同时捕获局部细节特征和全局语义特征的能力。但是，检测器应该结合上下文信息和它们的详细特征来确定小对象。因此，综合具有微小结构的特征是提高ConvNet目标检测精度的重要途径。

在特征提取部分，本发明运用了一个轻量级且高效的特征融合模块来处理这个任务，用适当的方法同时融合不同层次的特征，只在Conv7_2处发生特征融合，并从融合后的特征中生成特征金字塔，其特征金字塔生成器结构如图4所示。其中特征融合模块可以用以下一组公式表示整个过程：

X_f＝φ_f{Τ_i(X_i)} i∈C

X'_p＝φ_p(X_f) p∈P

loc,class＝φ_c,l(∪{X'_p}) p∈P

其中X_i是前置网络中希望融合的特征图，本发明选择Conv4-3,fc7,conv7_2输出的特征图进行融合；T_i表示对特征图进行降采样或者上采样方法的选择，目的是让其尺度规模一致，本发明将fc7与conv7_2的尺度规模统一到38*38*256；φ_f是选择对规模一致的特征图进行链接融合(Contact)还是元素求和(Element-wise sum)，目的是融合特征图生成一个尺度规模的特征，本发明应用了Contact；φ_p是如何利用得到的特征重构一组预测层，生成后续金字塔特征的函数，也就是特征金字塔生成器，本发明采用Fusion featuremap接了3*3卷积后作为最后一层，φ_c,l用于检测和分类的函数，与SSD一样。

(2)Fusion block模块

有三个不同深度的融合模块，引入了底层和高层的跨级连接，进行信息融合，以模块1为例。图5示出了300×300输入模型的图示。如果我们使用element-wise积或求和将它们合并在一起，那么特征映射应该具有相同的大小和通道。因此，为了融合conv3-3和conv8-2，我们需要将conv8-2的空间分辨率提高8倍。

具体来说，针对conv8-2，使用步长2实现三个反卷积层以实现上采样，从而生成与conv3-3相同大小的输出图。反卷积层的核大小为2×2或3×3，输出256个。反卷积层之后是卷积层、L2归一化层和ReLU层。Conv3-3经历一个3×3卷积层，然后是L2归一化层。在标准化层之后，我们通过元素求和来合并它们。然后加入一个卷积层以保证特征的可鉴别性。最后在一个ReLU层后实现融合特征(模块1)。对称连接使模块2和模块3遵循相同的原则，三个模块的尺寸分别为256、512和1024。

s4：基于迁移学习的网络模型训练阶段：利用迁移学习方法训练Underwater-SSD网络，将迁移学习引入水下目标识别工作中，在水下目标数据量有限的情况下，将源域的大量数据信息迁移到目标域中，扩大用来训练分类器的数据量。

具体的，本发明的迁移学习分为两部分:分类网络训练；将分类网络的知识迁移到检测模型，在此基础上进行Underwater-SSD的训练，训练完分类网络后，可将分类网络训练的知识迁移到Underwater-SSD特征提取部分，卷积核的权值经过充分训练，能提取泛化特征，这些卷积核就可作为分类网络学习到的知识，从而实现针对水上目标进行训练，水下目标检测，迁移学习结构图如图6所示。

对于分类网络部分，首先根据Underwater-SSD网络结构建立分类网络结构。以Underwater-SSD特征提取部分的卷积层为基础，通过添加一层卷积核数量为1000的13×13的卷积层，将特征矩阵转化为1000×1维特征向量，然后再加一层softmax层将特征向量转化为概率输出。建立分类网络后，使用ImageNet数据集进行训练。网络训练超参数选择如下：批次大小(Batch Size)为64，输入图像尺寸为300*300，动量为0.9，权值衰减为0.0001，最大迭代次数为150000。学习率调整策略：第1-50000次迭代设置为0.1，第50000-100000次迭代设置为0.01，第100000-150000次迭代设置为0.001，逐渐微调，由此减小权值在极小值附近的震荡。训练完分类网络后，可将分类网络训练的知识迁移到Underwater-SSD特征提取部分，迁移过程如图5所示。使用ImageNet数据集训练完分类网络后，卷积核的权值经过充分训练，能提取泛化特征，这些卷积核就可作为分类网络学习到的知识。将这些知识转移到Underwater-SSD的特征提取部分，设置特征提取部分的学习率为0，锁定特征提取部分的卷积核。回归预测部分的卷积核通过随机初始化的方式赋值，然后使用水下图像样本集训练回归预测部分的卷积核。

S5：基于软化非极大值抑制算法(soft-NMS)目标检测阶段：在迁移学习训练后的模型后加入软化非极大值抑制算法，实现最终的目标检测结果输出，将测试数据集输入到已训练的模型进行测试。

具体的，soft-NMS解决NMS的不足，在算法执行过程中不是简单的对IOU大于阈值的检测框删除，而是降低得分，只是通过一个基于与最大得分检测框M重叠程度相关的函数来降低相邻检测框的分数而非彻底剔除。虽然分数被降低，单相邻的检测框仍然在物体检测的序列中。算法流程同NMS相同，但是对原置信度得分使用函数运算，目标是降低置信度得分。所以，本发明运用了软化非极大值抑制算法(soft-NMS)，其公式表示如下：

由于上面这个公式是不连续的，这样会导致检测框集合中的得分出现断层，因此改写为下面的Soft NMS公式：

本发明实施例能够对水下图像进行有效的目标检测，通过对水下目标检测模型进行测试，目标识别率与检测速率分别达到了82.31％、30FPS。统计结果如表1所示。本发明可以保证一定处理速度的同时，提高目标识别率，具有较强的鲁班性，因此能够广泛应用于人机交互中的水下目标检测中。

表1本发明算法的水下目标检测性能

在相同的测试环境下，选取了六种不同的增强方法产生的实验结果进行对比，在训练阶段仅采用迁移学习加数据扩增的策略以相同的超参数训练SSD、DSSD、RSSD及Underwater-SSD网络。将500幅测试图像输入训练好的网络进行目标的位置回归，当神经网络预测的目标边界框与手工标注的边界框交并化(Intersection Over Union，IOU)大于等于0.5时，认为成功检测目标；否则，目标漏检，选择准确率(P)、召回率(R)、平均交并比(Mean Inter-section over Union，m IOU)、每秒检测帧数(Frames per Second，FPS)作为评价准则。各种目标检测算法在水下目标检测的性能如表2所示。本申请方法相比前几种种方法不论在整体检测率还是平均交并比上都有所提升。可见在水下目标检测任务中，使用了改进的水下SSD的本发明方法检测效果更好，鲁棒性更强。

表2

在表2中，在相同的测试环境下，选取了五种不同的检测方法产生的实验结果进行对比，方法1为基于Haar-like特征的Adaboost水下图像鱼类检测方法，使用相似的鱼类检测数据集，检测准确率为67％，对于复杂的水下环境有较差的鲁棒性，因此使用传统方式的鱼类检测准确率受到限制，相比Adaboost目标检测方法，基于SSD的目标检测算法具有较好的性能指标，使用最基本的SSD网络结构，目标检测的准确率比Adaboost目标检测方法提高10％；而本发明建立的Underwater-SSD在准确率和召回率上都高于SSD基础网络，由于RSSD具有深层的网络结构，使用多种改进策略，目标检测的准确率和召回率偏高，但Underwater-SSD使用7层卷积神经网络进行特征提取，并进行底层与深层特征进行融合，加大对较小目标的检测，一定程度上提高了检测率，检测速度可达30帧/秒，高于DSSD、RSSD。

图2为基于改进SSD和迁移学习的水下目标检测的整体框图；整个发明包括三个步骤：算法模型设计、模型训练以及模型测试。其中模型设计部分，本发明算法模型框架主要包括三个模块：Underwater-SSD网络结构设计、基于迁移学习对Underwater-SSD网络进行训练以及软化非极大值抑制算法(soft-NMS)进行瞄框抑制。

图3为适合水下进行目标检测的网络结构(Underwater-SSD)网络结构图；Underwater-SSD主要包括特征提取与预测回归两部分。特征提取部分包括7个卷积层，每个卷积层框图中的数据分别表示卷积核数量、卷积核尺寸、卷积步长。Underwater-SSD的特征提取部分仅使用7层卷积，并以步长为2或1的卷积运算进行下采样，如此设计的目的是为了减少水下进行目标检测时的运算量。而在回归预测部分，本发明舍弃全连接网络结构，整个网络使用多层卷积预测的结构，避免在回归过程中将空间特征转化为二维特征丢失空间信息，同时通过几个层的信息融合，进一步加强目标特征信息的细节特征。

图4为特征金字塔生成器示意图；利用得到的特征重构一组预测层，生成后续金字塔特征的函数，也就是特征金字塔生成器，本文采用Fusion feature map接了3*3卷积后作为最后一层，其结构如图3所示；用于检测和分类的函数，与SSD一样。

图5为反卷积融合模型1图示；三个不同深度的融合模块，引入了底层和高层的跨级连接，进行信息融合，以模块1为例。图5示出了300×300输入模型的图示。如果使用element-wise积或求和将它们合并在一起，那么特征映射应该具有相同的大小和通道。因此，为了融合conv3-3和conv8-2，需要将conv8-2的空间分辨率提高8倍。

图6为迁移学习结构图；训练完分类网络后，可将分类网络训练的知识迁移到Underwater-SSD特征提取部分，迁移过程如图6所示。使用ImageNet数据集训练完分类网络后，卷积核的权值经过充分训练，能提取泛化特征，这些卷积核就可作为分类网络学习到的知识。将这些知识转移到Underwater-SSD的特征提取部分，设置特征提取部分的学习率为0，锁定特征提取部分的卷积核。

图7-8为部分人工标注的数据集、部分水底环境下的实拍图像；并分别对实拍图像、人工标注的数据图像进行测试，使用基本的SSD网络和Underwater-SSD进行水下图像测试，典型实拍图像检测结果如图9所示，基于人工标注的数据图像检测结果图如图10所示，从检测结果图中可以看出，无论在地面还是水中，目标能较好的被检测出来。

上述实施例仅例示性说明本发明的原理及其功效，以及部分运用的实施例，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于改进SSD和迁移学习的水下目标检测方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于改进SSD和迁移学习的水下目标检测方法，其特征在于：

步骤1包括如下步骤：

步骤104、读取预训练模型，并读入水下图像目录。

3.根据权利要求1或2所述的基于改进SSD和迁移学习的水下目标检测方法，其特征在于：

步骤2包括如下步骤：

同一幅图像复制两份，一份选用白平衡的结果，记为I1，作为融合的对象1，用对I1进行双边滤波+限制对比度自适应直方图均衡CALHE算法处理的结果，记为I2，作为融合的对象2；然后运用权重系数进行相应的融合，最后进行拉普拉斯融合，然后针对融合后的图像采用BM3D滤波器与结构滤波器自适应方法进行平滑处理，进行去除图像中的噪声。

4.根据权利要求3所述的基于改进SSD和迁移学习的水下目标检测方法，其特征在于：

步骤3包括如下步骤：

骨干网络为VGG16，提取的水下图像特征送入多尺度预测与融合模型中，先针对不同尺度网络进行卷积、池化操作，获得不同尺度特征信息，再通过多个层卷积层特征融合，得到更多的特征点信息，得到多尺度特征信息。

5.根据权利要求4所述的基于改进SSD和迁移学习的水下目标检测方法，其特征在于：

步骤4包括如下步骤：

6.根据权利要求5所述的基于改进SSD和迁移学习的水下目标检测方法，其特征在于：

步骤2中，融合增强算法步骤如下所示：

(1)将输入图像复制成2份:src1和src2；

(2)对src1做自动白平衡；

7.根据权利要求6所述的基于改进SSD和迁移学习的水下目标检测方法，其特征在于：

步骤2中，使用BM3D滤波器对图像进行平滑处理可获得图像基层，有效地衰减AWGN；利用噪声纹理水平系数λ作为权重来生成基层，

b(L)＝λ·b^fine(L)+(1-λ)·b^coarse(L)

8.根据权利要求7所述的基于改进SSD和迁移学习的水下目标检测方法，其特征在于：

以VGG16结构作为骨干网络进行对水下目标特征的提取，VGG16由13个卷积层和3个全连接层，共有16层构成，经过的卷积核大小为3*3*3，stride＝1，padding＝1，pooling为采用2x2的max pooling方式；根据所述骨干网络VGG16得到提取水下图像的特征信息，以获得水下图像特征，将获取水下特征后的特征向量发送到Concat特征融合连接模块与特征融合模块；然后将提取的水下图像特征送入水下SSD网络模型中的Concat特征融合连接模块与特征融合模块，先针对Concat特征融合连接模块进行卷积、池化操作，提取特征，再同时运用特征融合模块融合不同尺度的特征信息，获得到不同尺度特征信息后进行多层预测；

9.根据权利要求8所述的基于改进SSD和迁移学习的水下目标检测方法，其特征在于：

步骤5中，采用软化非极大值抑制算法soft-NMS，其公式表示如下：