CN113850783A

CN113850783A - 一种海面船舶检测方法及系统

Info

Publication number: CN113850783A
Application number: CN202111135426.4A
Authority: CN
Inventors: 李秀; 杨锐; 欧奕旻; 严江鹏
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2021-12-28
Anticipated expiration: 2041-09-27
Also published as: CN113850783B

Abstract

本发明涉及一种海面船舶检测方法及系统，其特征在于，包括：搭建用于特征提取的卷积神经网络，并对搭建的卷积神经网络进行训练；获取待测海面船舶的可见光图像数据，并输入至训练好的卷积神经网络中，得到预测出的候选框；调整预测出的候选框的置信度，对预测出的候选框进行筛选，确定待测海面船舶的预测位置，本发明可以广泛应用于目标检测领域中。

Description

一种海面船舶检测方法及系统

技术领域

本发明是关于一种海面船舶检测方法及系统，属于目标检测领域。

背景技术

随着各国开始加大海洋方面的投入，海上船舶的数量急剧增加，港口船只的吞吐量日益上升，海上通航环境日益复杂。海面船舶检测是目标检测的特殊应用，其不仅可以为水面智能无人艇提供有利的支撑，还可以快速处理海岸线视频监控系统获取的数据，对特定海域实施在线检测，从而便捷海上舰船管理、改善通航环境且维护航行安全，这对海上船舶的安全以及海洋生态环境的保护具有重要的意义。

近年来，由于计算机硬件设备和海量数据的支持，深度学习在众多计算机视觉任务中均取得明显突破，其中，深度学习在目标检测领域的使用相对成熟，让目标检测在海面舰船检测方面的应用成为可能。海上舰船目标检测主要包括基于遥感卫星影像和基于可见光视频图像两种方式。多数学者主要采用光学遥感影像、合成孔径雷达图像进行舰船检测，该类图像以俯视的角度获取大型目标的信息，但是不能用于小型船只和水面障碍物的识别。由于可见光图像容易获取、分辨率高、具有实时性且含有丰富的色彩与纹理信息，使其为目标的识别与定位提供得天独厚的条件。现有技术公开了一种基于GAN和YOLOv2的GWGY(GMWGAN-GP and YOLOv2 with DBSCAN)模型进行目标检测，其具体结构如图1所示，该算法的整体流程可概括如下：先采用性能较好的WGAN网络生成额外的船舶样本，然后将样本送入由19个直连的卷积层和4个最大值池化层(Maxpooling)组成的Darknet-19中，提取目标特征并生成特征图，接着在特征图上生成先验的锚框(anchor)，其数量由k-means(K均值聚类)方法根据数据集决定，最后对每一锚框进行分类和回归，得到最终结果。另外也有学者采用SSD、Faster R-CNN网络实现舰船的目标检测。

然而，虽然现存的基于深度学习检测方法效果优于传统方法，但是依然存在巨大的提升空间。首先，现有的大多数基于可见光图像的船舶算法检测效果偏低，因为其未使用较好的预训练模型初始化参数，使得训练过程不稳定，且训练出的模型为非最优的；其次，现有技术采用的特征提取网络(backbone)感受野小，不能有效地提取图像中的高级语义信息，导致检测模型对船舶尺度变化与目标重叠现象的鲁棒性较差；另外，单一的头部网络(RCNN-head)不能优化边界框，导致定位的精准度有所欠缺。

发明内容

针对上述问题，本发明的目的是提供一种海面船舶检测方法及系统，能够解决现有海面可见光图像中船舶目标检测网络对船舶感知能力较差的问题。

为实现上述目的，本发明采取以下技术方案：一方面，提供一种海面船舶检测方法，包括：

搭建用于特征提取的卷积神经网络，并对搭建的卷积神经网络进行训练；

获取待测海面船舶的可见光图像数据，并输入至训练好的卷积神经网络中，得到预测出的候选框；

调整预测出的候选框的置信度，对预测出的候选框进行筛选，确定待测海面船舶的预测位置。

进一步地，所述搭建用于特征提取的卷积神经网络，并对搭建的卷积神经网络进行训练，包括：

获取海面船舶的可见光图像数据集并进行预处理，生成增强图像；

搭建用于特征提取的卷积神经网络，其中，搭建的卷积神经网络为改进的Res2Net主干网络；

采用预训练模型，对搭建的Res2Net主干网络进行初始化；

采用多尺度训练方法，基于生成的增强图像，对初始化后的Res2Net主干网络进行训练。

进一步地，所述获取海面船舶的可见光图像数据集并进行预处理，生成增强图像，包括：

获取海面船舶的可见光图像数据集；

对可见光图像数据集进行像素级别预处理；

对像素级别预处理后的可见光图像数据集进行图像级别预处理，生成增强图像。

进一步地，所述搭建改进的Res2Net主干网络，包括：

搭建改进的Res2Net主干网络，并采用搭建的Res2Net主干网络对增强图像进行特征提取，生成特征图；

将特征图输入至RPN网络中，生成以坐标位置表示的矩形框；

将特征图和以坐标位置表示的矩形框输入至RoI头部网络，生成预测出的候选框，完成改进的Res2Net主干网络的搭建。

进一步地，其特征在于，所述搭建改进的Res2Net主干网络，并采用搭建的Res2Net主干网络对增强图像进行特征提取，生成特征图，包括：

搭建改进的Res2Net主干网络，将Res2Net网络分为五个阶段，根据网络层数的不同，每一阶段包括的网络层数不同；

将输入的增强图像视为一种信息流，残差形式的Res2Net网络结构使该信息流分为主信息流和残差信息流；

同一阶段的主信息流输入至Res2Net网络，主信息流直接通过短路连接，无损的传输主要信息；同一阶段的残差信息流输入至Res2Net网络，通过卷积组提取特征，获得图像的高级语义信息；

传输主要信息后的同一阶段的主信息流输入至Res2Net网络，依次通过池化层下采样匹配特征图尺寸和卷积层匹配通道数，得到更新后的主信息流；

提取特征后的同一阶段的残差信息流输入至Res2Net网络，依次通过卷机组和下采样后，得到更新后的残差信息流；

更新后的主信息流和更新后的残差信息流相加，得到特征图。

进一步地，所述将特征图输入至RPN网络中，生成以坐标位置表示的矩形框，包括：

生成的特征图输入至RPN头部网络进行进一步融合，将特征图分为两个分支，RPN网络以特征图上的每一特征点为中心，生成不同长宽比、不同尺度的矩形框；

特征图的分支1采用卷积组改变特征图的通道数，并采用Softmax函数，分别对特征图的通道中的每两个通道进行概率化；

特征图的分支2采用卷积组改变特征图的通道数，并对生成的矩形框进行调整，得到第一次调整后的矩形框；

采用非极大值抑制方法，剔除第一次调整后的矩形框中重叠的矩形框，得到第二次调整后的矩形框；

根据自动预测的类别概率，对第二次调整后的矩形框进行排序，并选取前若干个矩形框作为感兴趣区域，得到以坐标位置表示的矩形框。

进一步地，所述将特征图和以坐标位置表示的矩形框输入至RoI头部网络，生成预测出的候选框，包括：

①根据原图尺度的候选框，第一RoI头部网络的ROI对准池化层采用双线性插值方法，计算对应位置的特征图，并统一所获取特征图的大小，得到裁剪后的特征图；

②裁剪后的特征图输入至第一RoI头部网络的建议框头部网络，得到进一步融合的特征图；

③第一RoI头部网络的建议框头部网络的输出通过自适应平均池化层分别输入至第一RoI头部网络的分类子网络和回归子网络，得到每一候选框的类别置信度和回归参数；

④第一RoI头部网络根据回归参数对候选框进行调整，并采用非极大值抑制算法，对重叠的候选框进行筛选，得到第一RoI头部网络筛选后的候选框；

⑤将第一RoI头部网络筛选后的候选框输入至第二RoI头部网络的ROI对准池化层，重复步骤①至④的过程，得到第二RoI头部网络筛选后的候选框，并将第二RoI头部网络筛选后的候选框输入至第三RoI头部网络的ROI对准池化层，重复步骤①至④的过程，得到RoI头部网络预测出的候选框。

另一方面，提供一种海面船舶检测系统，包括：

模型构建模块，搭建用于特征提取的卷积神经网络，并对搭建的卷积神经网络进行训练；

候选框生成模块，用于获取待测海面船舶的可见光图像数据，并输入至训练好的卷积神经网络中，得到预测出的候选框；

筛选模块，用于调整预测出的候选框的置信度，对预测出的候选框进行筛选，确定待测海面船舶的预测位置。

另一方面，提供一种处理设备，包括计算机程序指令，其中，所述计算机程序指令被处理器执行时用于实现上述海面船舶检测方法对应的步骤。

另一方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时用于实现上述海面船舶检测方法对应的步骤。

本发明由于采取以上技术方案，其具有以下优点：

1、本发明以cascade RCNN作为基准模型，通过在级联的头部网络中逐步微调目标框的位置，能够实现精准定位，满足实际场景中的精度要求。

2、在数据预处理方面，本发明采用Albu、Mixup和随机缩放方法等数据增强方法增加训练数据的复杂性，提高模型的泛化能力；在网络结构方面，为解决特征图中语义信息不充分的问题，本发明采用多感受感受野增强的卷积网络踢去特征。

3、在Res2Net卷积网络的基础上，本发明通过在残差结构中引入可变卷积组，以细粒度的方式增强主干网络对舰船目标的感受野，本发明还采用池化下采样层和1×1卷积组替换Res2Net网络不同层之间的1×1卷积下采样模块，增加整个网络的语义信息与空间信息，这两种方式相互结合，能够在更细粒度的层面上提取出图像中的高级语义信息，使得模型对船舶目标更加敏感，提高模型对船舶目标的感知能力。

4、本发明在现有RPN网络预定义矩形框的基础上，增加适应船舶尺度的矩形框比例，使目标框的初始化尺度与真实目标更接近，这样能够提高模型对目标尺度的适应能力。

5、本发明在Res2Net网络不同层之间短路连接的下采样结构中，采用池化下采样层和1×1卷积组替换1×1卷积下采样模块，有效减少全局语义信息的损失，将可变卷积应用在Res2Net网络的残差结构中，增强模型的感受野。

6、在训练策略方面，本发明融合了多个不同的训练策略，采用COCO预训练后的HTC模型初始化网络，加速模型的收敛速度，采用多尺度训练提高模型的尺度不变性，采用结构相似的多任务模型HTC进行迁移学习，采用学习率热身稳定初始训练过程，可以广泛应用于目标检测领域中。

附图说明

图1是现有技术中基于GAN和YOLOv2的GWGY模型示意图；

图2是本发明一实施例提供的海面舰船检测模型的结构示意图；

图3是本发明一实施例提供的Res2Net网络结构示意图；

图4本发明一实施例提供的Res2Net网络结构中模块1和模块2的结构示意图；

图5本发明一实施例提供的RPN头部网络结构示意图；

图6本发明一实施例提供的HTC模型与Cascade RCNN(实线部分)模型结构对比示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施方式。虽然附图中显示了本发明的示例性实施方式，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

应理解的是，文中使用的术语仅出于描述特定示例实施方式的目的，而无意于进行限制。除非上下文另外明确地指出，否则如文中使用的单数形式“一”、“一个”以及“所述”也可以表示包括复数形式。术语“包括”、“包含”、“含有”以及“具有”是包含性的，并且因此指明所陈述的特征、步骤、操作、元件和/或部件的存在，但并不排除存在或者添加一个或多个其它特征、步骤、操作、元件、部件、和/或它们的组合。文中描述的方法步骤、过程、以及操作不解释为必须要求它们以所描述或说明的特定顺序执行，除非明确指出执行顺序。还应当理解，可以使用另外或者替代的步骤。

术语解释：

1、GAN和YOLOv2：Generative Adversarial Network，生成对抗网络，是神经网络的一种，该网络利用纳什均衡原理将输入噪声生成为目标图像。

2、YOLOv2：一种单阶段的目标检测算法。

3、GWGY：GMWGAN-GP and YOLOv2 with DBSCAN，一种舰船目标检测模型，该模型可以使用训练好的WGAN生成新数据，送入YOLOv2网络中进行模型的训练

4、WGAN：Wasserstein GAN，是一种收敛快速的GAN网络。

5、Darknet-19：是YOLOv2检测模型中用来提取特征的卷积神经网络。

6、SSD：一种利用卷积直接进行物体检测的单阶段的目标检测算法。

7、Faster R-CNN：一种基于预定义位置的双阶段目标检测网络。

8、cascade RCNN：一种将Faster R-CNN的检测头部网络进行多阶段级连的目标检测网络。

9、Res2Net：一种用于特征提取的卷积神经网络。

10、Mixup：一种将两张图片的每个像素点进行等比例融合的方法。

11、RPN：Region Proposal Network，是Faster R-CNN网络中用于生成预定义框并进行前景和背景识别的网络结构。

12、Softmax：一种通过指数加权进行归一化的函数。

13、RoI：Region of Interest，是RPN网络筛选出的可能为感兴趣目标的边界框。

14、COCO：Microsoft Common Objects in Context，由微软公司公开的一个用于目标检测模型性能评价的基准数据集。

15、HTC：Hybrid Task Cascade，是一种融合了语意分割模块，且可同时用于实力分割和目标检测的多功能网络。

16、mask：图片的一种遮挡。

17、batch：是随机梯度方法的一种变种，用少量几个训练样本一起计算梯度，这少量的几个样本组成一个batch。

本发明实施例提供的海面船舶检测方法及系统通过使用增强感受野的CascadeRCNN模型实现船舶目标的高精度识别。本发明首先采用在大数据集上预训练的模型初始化网络(迁移学习)，其次，采用具有多感受野增强卷积网络提取丰富的语义特征，最后，利用级联的检测网络逐步微调边界框，实现高精度的海面船舶检测。其中，预训练模型为可实现多任务的HTC网络，该网络融合语义分割分支提取像素级的特征进行训练，可以为本发明的模型提供较好的起点，增加收敛速度；特征提取网络是多感受野的残差网络Res2Net，本发明通过在其中引入可变卷积组并将不同层短路连接中的1×1卷积组降采样修改为3×3池化降采样与1×1卷积组，不仅能够增加残差分支的有效感受野范围，还能够增强短路分支的信息流的传输。

实施例1

如图2所示，本实施例提供一种海面船舶检测方法，包括以下步骤：

1)搭建改进的Res2Net主干网络，并对搭建的Res2Net主干网络进行训练，具体为：

1.1)获取海面船舶的可见光图像数据集并进行预处理，生成增强图像，其中，预处理包括像素级别预处理和图像级别预处理：

1.1.1)获取海面船舶的可见光图像数据集。

1.1.2)对可见光图像数据集进行像素级别预处理，包括增加高斯噪声、模糊、亮度调整、颜色空间调整和Mixup。

具体地，Mixup为随机将可见光图像数据集中的两张图像进行1:1混合，得到一张新图像，该新图像融合两张图像的像素信息和目标信息，不仅可以提高图像中目标的密集程度，有效模拟近岸船舶较多的场景，还可以提高图像的背景复杂性，增加模型对目标的识别能力。

1.1.3)对像素级别预处理后的可见光图像数据集进行图像级别预处理，生成增强图像。

具体地，图像级别预处理包括水平翻转和随机裁剪，这两种预处理方式相结合可以增加数据的复杂性，防止模型过拟合，另外，还可以使模型具有视角、尺度、亮度鲁棒性。

1.2)搭建改进的Res2Net主干网络：

Res2Net网络利用短路结构形成残差学习，能够解决深度网络的退化问题，Res2Net网络通过在残差块中构建具有残差特征的阶梯式层级连接实现对ResNet网络的改进，本发明进一步对Res2Net网络进行改进，形成增强的Res2Net网络。因此，本步骤的具体过程为：

1.2.1)搭建改进的Res2Net主干网络，并采用搭建的Res2Net主干网络对增强图像进行特征提取，生成特征图：

1.2.1.1)搭建改进的Res2Net主干网络，将Res2Net网络分为五个阶段，根据网络层数的不同，每一阶段包括的网络层数不同。

具体地，本实施例采用的网络层数为101层，第一至第五阶段分别包括1层、10层、12层、69层和9层。

更具体地，Res2Net网络的原始结构如图3所示中的子图(1)，其中的每一阶段均由若干模块组成，例如图3中的x3，表示该阶段中共有3个模块，一个模块2和两个模块1；同理，x23则表示该阶段中共有23个模块，一个模块2和22个模块1。

1.2.1.2)将输入的增强图像视为一种信息流，残差形式的Res2Net网络结构使该信息流分为主信息流和残差信息流。

1.2.1.3)同一阶段的主信息流输入至Res2Net网络的模块1，主信息流直接通过短路连接，无损的传输主要信息，即图像的基本语义信息；同一阶段的残差信息流输入至模块1，通过1×1卷积提取特征，获得图像的高级语义信息。

1.2.1.4)传输主要信息后的同一阶段的主信息流输入至模块2，先经过3×3池化层下采样匹配特征图尺寸，再经过1×1卷积层匹配通道数，得到更新后的主信息流：

多数残差网络不同阶段之间的主信息流直接通过1×1卷积下采样实现特征图尺寸与通道数的匹配；不同阶段之间的下采样率为2，这种连接方式将会损失四分之三的主信息流。本发明为最大程度地减少信息的损失，增加Res2Net网络对纹理信息的提取，采用图4中模块2的方式，即让不同阶段之间的主信息流先经过3×3池化层下采样匹配特征图尺寸，再经过1×1卷积层匹配通道数。

1.2.1.5)提取特征后的同一阶段的残差信息流输入至Res2Net网络的模块2，依次通过卷机组和下采样后，得到更新后的残差信息流：

提取特征后的残差信息流经过的模块2的网络结构如图3中的子图(2)所示，残差信息流经过1×1卷积组后形成的多通道特征图被分为多个子模块，每一子模块负责特征图不同的通道。以x₁、x₂、x₃和x₄子模块为例，子模块x₁进行短路连接，直接得到对应通道的输出特征图y₁；子模块x₂经过3×3卷积组进行特征提取，得到对应通道的输出特征图y₂；子模块x₃与特征图y₂相加后经过3×3卷积组得到特征图y₃；子模块x₄与特征图y₃相加后经过3×3卷积组得到特征图y₄。划分的子模块不同时，上述操作重复的次数也不同。最后，不同子模块的输出被拼接为完整的特征图，并通过1×1卷积进行进一步特征融合，得到更新后的残差信息流。这样阶梯式的层级连接结构以更细粒度的方式增加Res2Net网络对多尺度特征的表征能力，提高该模型对可见光图像中多尺度舰船目标的鲁棒性。

因为标准卷积中卷积核的大小固定，所以Res2Net网络中神经元的感受野范围固定，Res2Net网络无法有效编码语义信息和空间信息。为进一步有效增强感受野，提高模型的空间变换不变性，本发明在Res2Net的卷积组中引入可变卷积网络(DCN)：

y(p)＝∑_k∈Rw(p_k)·x(p+p_k+Δp_k)·Δm_k (1)

其中，x(p)和y(p)为表示输入和输出特征图中位置p的特征；K为卷积核中像素点总数；w(p_k)为位置p_k处的权重；p_k为以p₀为中心的卷积核R内的某元素相对于中心的位置；p₀为卷积核R的中心；Δp_k为偏置；Δm_k为调制机制。可变卷积网络通过为每一采样点增加偏置Δp_k，并为其增加调制机制Δm_k，使卷积核R的形状和位置能够根据图像内容进行动态调整，为网络赋予自适应空间几何形变的能力，在细粒度的层面上增强网络的感受野，更有利于精细化定位。

具体地，本实施例中将改进的Res2Net主干网络第四阶段的3×3标准卷积组即图3的子图(1)中的每一3×3标准卷积组均替换为3×3的可变卷积组。

1.2.1.6)更新后的主信息流和更新后的残差信息流相加，得到特征图，特征图的维度为[H,W,C]＝[H,W,1024]，其中，H为长，W为宽，C为通道数。

1.2.2)将生成的通道数为1024的特征图输入至RPN网络中，生成以坐标位置表示的矩形框，具体为：

1.2.2.1)生成的特征图输入至RPN头部网络(RPN-head)，如图5所示，RPN头部网络采用3×3卷积对特征图进行进一步融合，将特征图分为两个分支。

具体地，RPN网络以特征图上的每一特征点(锚点，Anchor)为中心，生成不同长宽比、不同尺度的矩形框(锚框，Anchor box)。

更具体地，由于海上舰船的尺度范围广，为提高模型的召回率，本实施例增加RPN网络中预定义矩形框的尺寸范围，在每一特征点生成5种不同尺寸的矩形框，分别为[4×4,16×16,32×32,64×64,128×128]。进一步地，由于多数舰船的长宽比大于1，少数船只(例如帆船)的长宽比接近或大于1，本实施例中矩形框的长宽比取[1:1、1.5:1和2:1]。因此RPN网络在每一特征点生成15个不同的矩形框。

1.2.2.2)特征图的分支1采用1×1卷积组，将特征图的通道数变为30(2×15)。从通道维度看，该操作将长度为1024的向量通过全连接网络的形式变为长度为30的向量，即对15个预定义的矩形框进行二分类预测。其中，15表示每一特征点的矩形框数量，2表示每一矩形框被视为正样本和负样本的预测概率所组成向量的维度，包括目标的矩形框被视为正样本，否则视为负样本。

1.2.2.3)特征图的分支1采用Softmax函数，分别对30个通道中的每两个通道进行概率化，得到15个长度为2的向量。其中，向量中的第一个元素表示矩形框为正样本的概率，第二个元素表示矩形框为负样本的概率。通过此步骤的二分类，包括目标的矩形框将被预测为正样本，否则预测为负样本。

1.2.2.4)特征图的分支2采用1×1卷积组将特征图的通道数变为4×15。从通道维度看，该操作将长度为1024的向量通过全连接网络的形式变为长度为60的向量，即对15个预定义的矩形框采用回归方法进行位置预测。其中，15表示每一特征点的矩形框数量，4表示回归参数组成向量的维度。

1.2.2.5)特征图的分支2根据自动预测的回归参数(采用神经网络自动预测得到)，对生成的矩形框进行调整，得到第一次调整后的矩形框。

1.2.2.6)为获得有效的预测框，采用非极大值抑制方法(NMS)，剔除第一次调整后的矩形框中重叠的矩形框，得到第二次调整后的矩形框。

1.2.2.7)为减少计算量，提高模型效率，根据自动预测的类别概率(分数)，对第二次调整后的矩形框进行排序，并选取前1000个矩形框作为感兴趣区域(ROI)，即矩形框所包围的范围，得到以坐标位置表示的矩形框。

1.2.3)将步骤1.2.1)中提取的特征图和步骤1.2.2)中生成的以坐标位置表示的矩形框输入至RoI头部网络，生成预测出的候选框，完成改进的Res2Net主干网络的搭建。

其中，RoI头部网络的结构如图2中的虚线框所示，包括第一RoI头部网络、第二RoI头部网络和第三RoI头部网络，每一RoI头部网络均是由RoI对准池化层(RoI-Alignpooling layer)、建议框头部网络(bbox-head)、分类子网络和回归子网络组成，具体为：

1.2.3.1)根据原图尺度的候选框，第一RoI头部网络的ROI对准池化层采用双线性插值方法，计算对应位置的特征图，并统一所获取特征图的大小，得到裁剪后的特征图。双线性插值方法通过增加目标与对应位置语义信息的匹配程度，提高本发明定位的准确性。

1.2.3.2)裁剪后的特征图输入至由两个3×3卷积层组成的第一RoI头部网络的建议框头部网络，得到进一步融合的特征图。

1.2.3.3)第一RoI头部网络的建议框头部网络的输出通过自适应平均池化层分别输入至第一RoI头部网络的分类子网络和回归子网络，得到每一候选框的类别置信度和回归参数。

1.2.3.4)第一RoI头部网络根据回归参数对候选框进行调整，得到更接近真实物体位置的候选框，并采用非极大值抑制算法，对重叠的候选框进行筛选，得到第一RoI头部网络筛选后的候选框。

1.2.3.5)将第一RoI头部网络筛选后的候选框输入至第二RoI头部网络的ROI对准池化层，重复步骤1.2.3.1)至1.2.3.4)的过程，得到第二RoI头部网络筛选后的候选框，并将第二RoI头部网络筛选后的候选框输入至第三RoI头部网络的ROI对准池化层，重复步骤1.2.3.1)至1.2.3.4)的过程，得到第三RoI头部网络筛选后的候选框，即RoI头部网络预测出的候选框。

具体地，训练过程中，第一RoI头部网络、第二RoI头部网络和第三RoI头部网络的过程相同，不同点在于非极大值抑制算法的阈值依次增加，分别为0.5、0.6和0.7。因为每次调整均会改变候选框的分布，逐次增加的阈值可以筛选出位置更精准的候选框。

1.3)采用预训练模型，对搭建的Res2Net主干网络进行初始化。

具体地，在训练过程中，为网络使模型有较好的起点，本发明采用迁移学习方法，将COCO数据集上训练好的HTC网络作为预训练模型，HTC网络结构如图6所示，图中的虚线部分即为本发明的预训练模型，HTC网络采用一种多任务混合级联结构，在RoI头部网络中增加mask分支，且每一mask分支也进行级联，逐级增强mask的结果。另外，该网络模型还引入语义分割模块S到整体框架中，并将其与各阶段的mask分支相连，这样可以增加各阶段的信息的融合。因为语义分割是在像素级别上对全图进行精细的分类，所以语义分割模块S的引入还促使模型从图像中提取到具有较强空间位置信息的特征，提升模型对前景目标和背景的区分能力。所以本步骤的具体过程为：

1.3.1)采用COCO数据集对HTC模型进行预训练，得到修剪后的HTC模型作为预训练模型。

1.3.2)采用预训练模型，对搭建的Res2Net主干网络进行初始化。

本发明将修剪后的HTC模型作为本发明模型的起点，这样不仅能够加速本发明模型在新数据集上的优化过程，提升网络参数的优化程度，还能避免模型陷入局部最优。

1.4)采用多尺度训练方法，基于步骤1.1)生成的增强图像，对初始化后的Res2Net主干网络进行训练：

由于输入图像中目标的尺度变化范围明显，本发明模型采用多尺度训练与多尺度测试的方法，降低图像中待检测目标的尺度变化对模型性能的影响。具体地，在本步骤的训练过程中，将一个batch中输入图像的短边在(600，1000)范围内随机浮动，图像的长边按照短边的缩放比例进行缩放，长边的最大值取为4096。在下述的测试过程中，将测试图像的短边随机固定为600、800或1000中的某个值，长边的缩放同上。该方法将输入图像随机缩放到设定的尺度区间内，实现训练样本尺度多样性的提升。虽然每一迭代过程的图像尺度是固定的，但是多个迭代过程的图像尺度存在差异，这种不同尺寸的图像作为输入的方式会增加样本的多样性，帮助模型适应各种尺度的目标，从而增加本模型对目标尺度的鲁棒性，提高模型对小目标的召回率。

更具体地，为保证训练过程的稳定性，本发明在训练的起始阶段采用线性学习率热身(warm up)。在初始迭代过程中，该方法以递进的形式将学习率从小值逐步调至目标学习率，避免初始迭代过程的损失爆炸，从而稳定整个优化过程。

2)获取待测海面船舶的可见光图像数据，并输入至训练好的Res2Net主干网络中，得到预测出的候选框。

3)采用软非极大抑制方法(Soft-NMS)，调整预测出的候选框的置信度，对预测出的候选框进行筛选，剔除置信度较低的候选框，确定待测海面船舶的预测位置。

具体地，并按照0.1的置信度阈值对预测出的候选框进行筛选，如果候选框的数量大于100，则选择置信度从大到小排序中的前100个候选框作为预测的最终目标。

更具体地，与非极大抑制方法相比，软非极大抑制方法没有盲目的减少候选框数量，而是采用高斯函数降低矩形框的置信度分数s_i′：

其中，s_i为矩形框m_i的置信度分数；σ为标准差，取0.5；IoU为分类概率高的矩形框

与矩形框m_i的交并比，IoU越大，分数降低得越多，IoU越小分数，分数降低得越少，候选框A和候选框B的交并比IoU为：

其中，A、B表示侯选框。

采用软非极大抑制方法调整预测出的候选框的置信度，降低预测出的矩形框的分类分数，而非以固定的阈值暴力剔除有重叠的预测框，一定程度上能够保证模型的召回率，降低模型漏检的概率，能够为海面船舶的控制和快速处理海岸线视频监控系统提供较好的保障。

实施例2

本实施例提供一种海面船舶检测系统，包括：

模型构建模块，用于搭建改进的Res2Net主干网络，并对搭建的Res2Net主干网络进行训练。

候选框生成模块，用于获取待测海面船舶的可见光图像数据，并输入至训练好的Res2Net主干网络中，得到预测出的候选框。

实施例3

本实施例提供一种与本实施例1所提供的海面船舶检测方法对应的处理设备，处理设备可以是用于客户端的处理设备，例如手机、笔记本电脑、平板电脑、台式机电脑等，以执行实施例1的方法。

所述处理设备包括处理器、存储器、通信接口和总线，处理器、存储器和通信接口通过总线连接，以完成相互间的通信。存储器中存储有可在处理器上运行的计算机程序，处理器运行计算机程序时执行本实施例1所提供的海面船舶检测方法。

在一些实现中，存储器可以是高速随机存取存储器(RAM：Random AccessMemory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

在另一些实现中，处理器可以为中央处理器(CPU)、数字信号处理器(DSP)等各种类型通用处理器，在此不做限定。

实施例4

本实施例1的海面船舶检测方法可被具体实现为一种计算机程序产品，计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本实施例1所述的声音识别方法的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。

上述各实施例仅用于说明本发明，其中各部件的结构、连接方式和制作工艺等都是可以有所变化的，凡是在本发明技术方案的基础上进行的等同变换和改进，均不应排除在本发明的保护范围之外。

Claims

1.一种海面船舶检测方法，其特征在于，包括：

2.如权利要求1所述的一种海面船舶检测方法，其特征在于，所述搭建用于特征提取的卷积神经网络，并对搭建的卷积神经网络进行训练，包括：

采用预训练模型，对搭建的Res2Net主干网络进行初始化；

3.如权利要求2所述的一种海面船舶检测方法，其特征在于，所述获取海面船舶的可见光图像数据集并进行预处理，生成增强图像，包括：

获取海面船舶的可见光图像数据集；

对可见光图像数据集进行像素级别预处理；

4.如权利要求2所述的一种海面船舶检测方法，其特征在于，所述搭建改进的Res2Net主干网络，包括：

将特征图输入至RPN网络中，生成以坐标位置表示的矩形框；

5.如权利要求4所述的一种海面船舶检测方法，其特征在于，所述搭建改进的Res2Net主干网络，并采用搭建的Res2Net主干网络对增强图像进行特征提取，生成特征图，包括：

6.如权利要求4所述的一种海面船舶检测方法，其特征在于，所述将特征图输入至RPN网络中，生成以坐标位置表示的矩形框，包括：

7.如权利要求4所述的一种海面船舶检测方法，其特征在于，所述将特征图和以坐标位置表示的矩形框输入至RoI头部网络，生成预测出的候选框，包括：

8.一种海面船舶检测系统，其特征在于，包括：

9.一种处理设备，其特征在于，包括计算机程序指令，其中，所述计算机程序指令被处理器执行时用于实现权利要求1-7中任一项所述的海面船舶检测方法对应的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时用于实现权利要求1-7中任一项所述的海面船舶检测方法对应的步骤。