CN111914935B

CN111914935B - 一种基于深度学习的船舶图像目标检测方法

Info

Publication number: CN111914935B
Application number: CN202010766653.6A
Authority: CN
Inventors: 孟浩; 魏宏巍; 袁菲; 闫天昊; 周炜昊; 邓艳琴
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2022-07-15
Anticipated expiration: 2040-08-03
Also published as: CN111914935A

Abstract

本发明提供一种基于深度学习的船舶目标检测与识别方法，包括以下步骤：S1：搭建像素注意力模型，并对船舶图像进行预处理；S2：使用K‑Means聚类生成船舶锚定框，并对标签边界框进行转换；S3：搭建基于像素注意力模型的YOLOV3网络结构；S4：使用训练优化方法训练网络；S5：使用非极大值抑制算法对网络输出进行后处理，避免出现重复检测问题。本发明提供的基于深度学习的船舶目标检测与识别方法，能够在多种复杂背景与分辨率下对实现船舶目标检测与识别，在船舶工业与海事管理等领域有较好的使用前景。

Description

一种基于深度学习的船舶图像目标检测方法

技术领域

本发明涉及一种深度学习及目标检测技术，尤其涉及一种基于深度学习的船舶图像目标检测方法，属于深度学习与计算机视觉领域的方法。

背景技术

船舶目标检测与识别方法可以分为三种策略，包括端到端的网络结构、两阶段的网络结构和基于前两者改进的网络结构。对于端到端的船舶目标检测与识别网络结构，凌梓钦、Chang Yang-Lang和王炳德分别直接使用YOLOV1、YOLOV2和YOLOV3网络实现船舶目标检测与识别，但是网络效果无法达到工程使用标准。夏烨等人使用SSD网络搭建了船舶目标检测与识别系统，在网络的检测精度上取得了一定提升，但是牺牲了网络的实时性。对于两阶段的船舶目标检测与识别网络结构，岳邦铮等人直接使用Faster R-CNN实现船舶目标检测与识别，网络表现比端到端的网络更差。Yang Xue等人提出了一种基于旋转锚定框的Faster R-CNN，该方法能更好地拟合不同角度的船舶目标，很好地解决了由传统锚定框机制引起的船舶目标角度与边界框角度不同的问题，但是网络的整体表现并没有改进。在网络结构的改进方面，于野等人针对端到端的FPN网络提出了A-FPN网络，并应用在船舶目标检测与识别中，相比于传统的FPN网络取得了更好的效果，但仍然无法达到工程使用的标准。Zhang Ruiqian等人提出了一种两阶段的S-CNN网络结构。S-CNN由建议框检测网络和目标识别网络组成，其中的目标检测网络与R-CNN的目标检测网络结构基本相同。建议框检测网络的输入不只包含原始图像，还包含了边界线图和凸角图，这使得网络对于目标边界与棱角更为敏感。总的来说S-CNN 可以看作为一种采用通用方法优化的R-CNN，它对于候选边界框的生成效果有较大的提升，但对于候选边界框内部图像的目标识别没有任何改进。

发明内容

本发明的目的是为了提供一种基于深度学习的船舶图像目标检测方法。

本发明的目的是这样实现的：步骤如下：

S1：通过像素注意力模型对船舶图像进行预处理；

S2：通过K-Means聚类算法，生成9个船舶目标的锚定框；

S3：搭建基于特征注意力模型的YOLOV3网络；

S4：采用训练优化方法对网络进行训练；

S5：通过非极大值抑制算法对网络输出进行后处理，避免重复检测，完成检测。

本发明还包括这样一些结构特征：

1.所述的步骤S1包括以下子步骤：

S11：对训练集船舶图像进行归一化操作：

Norm(x)＝(x-E(x))/Stddev(x)；

式中：x为船舶图像，N为x的像素个数，Norm为归一化函数，Stddev为带有限制的方差函数，max为最大值函数，D为方差函数，E为均值函数；

S12：读取训练集中的每一个船舶图像的船舶目标边界框信息，将边界框外的三个通道像素值置0，得到船舶图像的实蒙版图y；

S13：搭建蒙版图的生成器网络和判别器网络；

S14：定义损失函数为：

L_GL1＝E(||y-G(x)||₁)

L_GGAN(G(x)，D(x，y))＝-E(log(1-s)-D(x，G(x)))

L_G＝L_GL1+L_GGAN(G(x)，D(x，y))

L_D＝-E(log(1-s)-D(x，y))-E(log(D(x，G(x))))

式中：G(x)是生成器，D(x，y)是判别器，s为非线性补偿系数取值为0.2，L_cL1为生成器的L1范数损失函数，L_GGAN为生成器的生成对抗损失函数，L_G为生成器损失函数，L_D为判别器损失函数；

S15：对生成器输出的中间蒙版图进行灰化和开关处理：

Gray(R，G，B)＝(R×0.299+G×0.587+B×0.144)/255；

式中：R、G、B分别是中间蒙版图的红、绿、蓝颜色通道的像素值，z是遗忘系数取值为 0.5，M是生成蒙版图，Gray为灰化函数，Switch为开关函数；

S16：用x与M对应位置的蒙版值相乘，得到像素注意力模型的输出为：

x_M[i，j，k]＝x[i，j，k]·M[i，j]；

式中：x_M[i，j，k]为x_M第i行第j列第k个颜色通道的像素值，x[i，j，k]为x第i行第j列第k个颜色通道的像素值，M[i，j]为第i行第j列的蒙版值。

2.所述的步骤S2包括以下子步骤：

S21：从边界框集合中随机选择9个边界框作为质心，每个质心代表一个锚定框类别；

S22：为每一个质心设定类别，依次标记为1-9，并将质心除外的每一个边界框的类别设置为 0；

S23：遍历边界框集合中的每一个元素，计算其与每一个质心的欧几里得范数，并将其类别设置为范数最小的质心所对应的类别；

S24:对每一个类别的所有边界框计算平均值，以该平均值作为虚拟质心；用新的虚拟质心替代原质心，并保存原质心；

S25:计算每个类别原质心和新虚拟质心的欧几里得范数，若每个类别的质心范数值都小于给定收敛阈值1.5则执行S36；否则执行步骤S33；

S26:将9个虚拟质心按照锚定框的面积大小从大到小排序，取前3个作为低分辨率的船舶目标锚定框，中间3个作为中分辨率的船舶目标锚定框，后3个作为高分辨率的船舶目标锚定框。

3.所述的步骤S3包括以下子步骤：

S31:去掉Darknet53网络的输出层，以此为主干网络搭建YOLOV3网络模型；

S32:对Darknet53网络的三个分辨率输出分别搭建广度特征注意力模型和深度特征注意力模型，并以反向结构组合为三个分辨率的特征注意力模型；

S33:将三个分辨率的像素注意力模型分别嵌入到Darknet53的三个分辨率输出处，得到基于特征注意力模型的YOLOV3网络；

S34:基于聚类生成的船舶锚定框，将数据集的标签边界框转换为相对的形式：

式中，W×H是船舶图像的分辨率，

是锚定框的尺寸，对于第i个边界框x_i、y_i、w_i和 h_i，其相对的坐标和尺寸为

和

S35:YOLOV3网络的边界框损失函数为：

L_D＝L_DC+L_DS；

式中，x_i、y_i、

和

是第i个标签边界框的相对坐标和尺寸信息；

和

是第i个预测边界框在第j个分辨率的相对坐标和尺寸信息，L_DC为坐标损失函数，L_DS为尺寸损失函数，L_D为边界框损失函数；λ_coord是用于调整船舶目标检测在损失函数所占的比重的参数；

用于判断网格i中是否存在目标，存在时为1，不存在时为0；

S36:YOLOV3网络的置信度损失函数为：

L_C＝L_Co+L_CNO+L_CC；

式中，样本真实类别标签为C，真实置信度为P，预测类别标签为

预测置信度为

L_CO为正样本置信度损失函数，L_CNO为负样本置信度损失函数，L_CC为类别损失函数，L_C为置信度损失函数；λ_noobj是用于减少无目标区域的损失对于训练过程贡献的参数；

用于判断网格i中是否不存在目标，不存在时为1，存在时为0；

S37：YOLOV3网络的损失函数L为：

L＝L_D+L_C。

4.所述的步骤S4包括以下子步骤：

S41：取学习率为0.01，锁定Darknet53权值参数，在训练集上对网络训练50轮：

S42：取学习率为0.001，解锁Darknet53权值参数，将网络过拟合怀疑标记置为False；

S43：若网络训练轮数大于100轮则算法结束，否则对网络执行一次梯度下降算法；

S44：判断网络的训练集损失是否连续三次增加，是则将当前学习率除以10；

S45：判断网络过拟合怀疑标记置是否为True，是则执行S46，否则则执行S47；

S46：判断网络的验证集损失是否连续三次增加，是则提前停止网络训练，算法结束；

S47：判断网络的验证集损失是否连续三次增加，是则将网络过拟合怀疑标记置为True，执行S43。

5.所述的步骤S5包括以下子步骤：

S51：遍历并提取某一船型的预测框，组成输入船舶目标预测框集合；

S52：将输入预测框集合按照置信度大小从大到小排序，并将集合中的所有预测框的类别标记为未分类状态，初始化类别标记T＝0；

S53：T＝T+1，从第一个船舶目标预测框开始按顺序遍历预测框集合，找到第一个未被分类的船舶目标预测框

将其设定为类别T；

S54：从

为起点向后遍历，计算与其后向所有未标记船舶目标预测框的IOU，当大于给定阈值0.5时将当前预测框的类别标记为T类别；

S55：判断是否所有边界框已分类，全部已分类则执行S56，否则执行S53；

S56：将每一个类别T对应的

输出，得到该船型的船舶目标检测输出；

S57：对每一个船型重复执行上述S51到S56过程，得到所有船型的船舶目标检测输出。

与现有技术相比，本发明的有益效果是：本发明可应用在以下领域：1.船舶数量统计； 2.船型分类；3.船舶目标检测。

本发明利用像素注意力模型对船舶图像进行预处理，削减非船舶目标区域的像素信息，提高船舶目标检测的准确率；本发明利用特征注意力模型优化YOLOV3网络，加强梯度下降过程中有用特征的使用率，提高船舶目标识别的准确率；本发明使用训练优化方法训练网络，加快网络训练速度，避免网络出现过拟合现象；本发明使用非极大值抑制算法对网络输出进行后处理，避免对同一船舶目标重复检测的问题。

附图说明

图1为本发明的整体网络结构图；

图2为像素注意力模型的生成器结构图；

图3为像素注意力模型的判别器结构图；

图4为像素注意力模型的预处理结果图；

图5为K-Means聚类的聚类结果图；

图6为K-Means聚类的质心迁移图；

图7为广度特征注意力模型的结构图；

图8为深度特征注意力模型的结构图；

图9为基于特征注意力模型的YOLOV3网络结构图；

图10为训练优化方法的流程图；

图11为非极大值抑制后处理的结果，其中(a-1)和(b-1)是后处理的输入，(a-2)和(b-2)是后处理的输出结果；

图12为使用本发明方法的实验结果图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述。

如图1所示，为本发明的网络结构图。首先使用像素注意力模型对船舶图像进行预处理，然后通过K-Means聚类算法生成船舶目标的锚定框并对标签边界框进行换算，再搭建基于特征注意力模型的YOLOV3网络，使用训练优化方法来训练网络，最后使用非极大值抑制对网络的预测输出进行后处理，避免出现重复检测问题，从而实现对船舶目标的检测与识别。

本发明的一种基于深度学习的船舶目标检测与识别方法，包括以下步骤：

S1:通过像素注意力模型对船舶图像进行预处理；

由于船舶目标一般较小，在近岸或港口环境下背景比较复杂，所以需要通过像素注意力模型来削减背景区域的像素信息；

所述的步骤S1包括以下子步骤：

S11：对训练集船舶图像进行归一化操作：

Norm(x)＝(x-E(x))/Stddev(x)；

式中，x为船舶图像，N为x的像素个数，Norm为归一化函数，Stddev为带有限制的方差函数，max为最大值函数，D为方差函数，E为均值函数；

S13：搭建蒙版图的生成器网络和判别器网络，生成器的网络结构如图2所示，判别器的网络结构如图3所示。生成器网络各的具体参数除了卷积核个数外完全相同，各层的通用参数如表1 所示，各层卷积核个数如表2所示，判别器网络的具体参数如表3所示；

表1像素注意力模型生成器的通用参数

表2像素注意力模型生成器不同网络块的卷积核个数

表3像素注意力模型判别器的网络参数

S14：定义损失函数为：

L_GL1＝E(||y-G(x)||₁)；

L_GGAN(G(x)，D(x，y))＝-E(log(1-s)-D(x，G(x)))；

L_G＝L_GL1+L_GGAN(G(x)，D(x，y))；

L_D＝-E(log(1-s)-D(x，y))-E(log(D(x，G(x))))；

式中，G(x)是生成器，D(x，y)是判别器，s为非线性补偿系数取值为0.2，L_GL1为生成器的L1范数损失函数，L_GGAN为生成器的生成对抗损失函数，L_G为生成器损失函数，L_D为判别器损失函数。取学习率为0.001，mini-batch大小为2，在所有训练集船舶图像上使用Adam梯度下降算法迭代训练5轮；

S15：对生成器输出的中间蒙版图进行灰化和开关处理：

Gray(R，G，B)＝(R×0.299+G×0.587+B×0.144)/255；

式中，R、G、B分别是中间蒙版图的红、绿、蓝颜色通道的像素值，z是遗忘系数取值为 0.5，M是生成蒙版图，Gray为灰化函数，Switch为开关函数；

S16：用x与M对应位置的蒙版值相乘，得到像素注意力模型的输出x_M：：

x_M[i，j，k]＝x[i，j，k]·M[i，j]；

式中x_M[i，j，k]为x_M第i行第j列第k个颜色通道的像素值，x[i，j，k]为x第i行第j列第k个颜色通道的像素值，M[i，j]为第i行第j列的蒙版值；

像素注意力模型的输出如图4所示。

S2：使用K-Means聚类算法生成船舶锚定框，用于船舶标签边界框的格式转换；

直接采用原始船舶标签边界框会导致网络的训练较为困难，收敛速度慢，最终的分类效果较差；

所述的步骤S2包括以下子步骤：

S22：为每一个质心设定类别，依次标记为1-9，并将质心除外的每一个边界框的类别设置为0；

S23:遍历边界框集合中的每一个元素，计算其与每一个质心的欧几里得范数，并将其类别设置为范数最小的质心所对应的类别；

S24:对每一个类别的所有边界框计算平均值，以该平均值作为虚拟质心。用新的虚拟质心替代原质心，并保存原质心；

聚类结果过程如图5所示，质心的迁移过程如图6所示。

S3:搭建基于特征注意力模型的YOLOV3网络；

特征注意力模型可以从卷积运算层面加强有用特征的使用率，降低网络的错检问题；

所述的步骤S3包括以下子步骤：

S32:对Darknet53网络的三个分辨率输出分别搭建广度特征注意力模型和深度特征注意力模型，并以反向结构组合为三个分辨率的特征注意力模型。广度特征注意力模型的结构如图7 所示，深度特征注意力模型的结构如图8所示；

S33:将三个分辨率的像素注意力模型分别嵌入到Darknet53的三个分辨率输出处，得到基于特征注意力模型的YOLOV3网络，其网络结构如图9所示，各分辨率的特征注意力模型具体参数如表4所示：

表4各分辨率特征注意力模型网络参数

式中，W×H是船舶图像的分辨率，

和

S35:YOLOV3网络的边界框损失函数为：

L_D＝L_DC+L_DS；

式中，x_i、y_i、

和

是第i个标签边界框的相对坐标和尺寸信息；

和

是第i个预测边界框在第j个分辨率的的相对坐标和尺寸信息，L_DC为坐标损失函数，L_DS为尺寸损失函数，L_D为边界框损失函数；λ_coord是用于调整船舶目标检测在损失函数所占的比重的参数；

用于判断网格i中是否存在目标，存在时为1，不存在时为0；

S36:YOLOV3网络的置信度损失函数为：

L_C＝L_Co+L_CNO+L_CC；

预测置信度为

S37：YOLOV3网络的损失函数L为：

L＝L_D+L_C。

S4：使用训练优化方法训练上述基于特征注意力模型的YOLOV3网络；

训练优化方法可以加速网络训练，避免过拟合现象；

所述的步骤S4包括以下子步骤：

S47：判断网络的验证集损失是否连续三次增加，是则将网络过拟合怀疑标记置为True。执行S43；

网络的训练优化方法整体流程图如图10所示。

S5：使用非极大值抑制算法避免重复检测问题并得到最终输出；

由于YOLOV3的网格划分和多分辨率思想，在得到网络输出后可能存在对同一船舶目标的重复检测问题，需要进一步使用非极大值抑制进行后处理；

所述的步骤S5包括以下子步骤：

将其设定为类别T；

S54：从

S56:将每一个类别T对应的

输出，得到该船型的船舶目标检测输出；

S57:对每一个船型重复执行上述S51到S56过程，得到所有船型的船舶目标检测输出。

非极大值抑制的输出结果如图11所示，其中(a-1)和(b-1)是后处理的输入，(a-2)和(b-2)是后处理的输出结果。最终的船舶目标检测结果如图12所示，可以看出本方法在一定程度上解决了漏检和错检的问题。

上述实施例为本发明的最佳实施方式，但本发明的实施方式不受限于上述实施例，其他的任何不脱离本发明原理所作的诸如简化、改变、替换、组合的置换方式，都包含在本发明的保护范围之类。

综上，本发明公开了一种基于深度学习的船舶目标检测与识别方法，包括以下步骤：S1：搭建像素注意力模型，并对船舶图像进行预处理；S2：使用K-Means聚类生成船舶锚定框，并对标签边界框进行转换；S3：搭建基于像素注意力模型的YOLOV3网络结构；S4：使用训练优化方法训练网络；S5：使用非极大值抑制算法对网络输出进行后处理，避免出现重复检测问题。本发明提供的基于深度学习的船舶目标检测与识别方法，能够在多种复杂背景与分辨率下对实现船舶目标检测与识别，在船舶工业与海事管理等领域有较好的使用前景。