CN116363535A

CN116363535A - 基于卷积神经网络的无人机航拍影像中的船舶检测方法

Info

Publication number: CN116363535A
Application number: CN202310520882.3A
Authority: CN
Inventors: 吴绍华; 程书晓; 张行健; 焦健; 张钦宇
Original assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Current assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority date: 2023-05-10
Filing date: 2023-05-10
Publication date: 2023-06-30

Abstract

本发明公开了一种基于卷积神经网络的无人机航拍影像中的船舶检测方法，包括以下步骤：步骤1，构建YOLO格式的无人机航拍影像船舶数据集；步骤2，将步骤1中构建的船舶数据集送入改进的YOLOv5s网络进行船舶检测模型训练；步骤3，使用步骤2训练出的模型文件进行船舶目标检测。本发明采用上述基于卷积神经网络的无人机航拍影像中的船舶检测方法，能够解决现有船舶检测算法精准度不足以及检测速度较慢的问题，让船舶检测具备更高的效率。

Description

基于卷积神经网络的无人机航拍影像中的船舶检测方法

技术领域

本发明涉及计算机视觉技术领域，尤其是涉及一种基于卷积神经网络的无人机航拍影像中的船舶检测方法。

背景技术

随着图像处理技术以及无人机技术的快速发展，使用无人机上搭载的高清摄像头对水道船舶进行监控逐渐成为一种有效的船舶检测手段。相比于固定的近岸监控摄像头，无人机具有更高的灵活度以及更广阔的视野，因此单位水域面积的监控成本更低。但无人机影像的背景复杂且在高速运动的过程中可能产生运动模糊，船舶识别的难度更大，且本地计算资源匮乏，无法部署复杂的深度学习模型，因此实现快速、精准的船舶检测就显得尤为重要。

在早期，船舶检测大多使用传统图像处理技术，即基于人工构建的特征设计船舶检测器，如P. Viola 和 M. Jones VJ提出的VJ检测器、N. Dalal和B.Triggs提出的HOG检测器以及P. Felzenszwalb提出的DPM检测器，这些检测器在面对复杂背景以及图像噪声较大的场景时会经常失效，不具备良好的鲁棒性。

而基于深度学习的船舶检测器大多以卷积神经网络为基础，很好地解决了传统船舶检测器中存在的问题。在深度学习时代目标检测器大致分为了两大类别：“一阶段目标检测器”和“两阶段目标检测器”。“两阶段目标检测器”首先会从输入图像上生成一些候选区域，再由候选区域得到预测值，是一个由模糊到精确的过程，其中具有代表性的一些算法有R-CNN、SPP、Fast R-CNN、Faster R-CNN以及FPN等。“一阶段目标检测器”则是一步完成，直接从输入图像得到预测值，其中具有代表性的算法有YOLO、SSD、Retina-Net等。由于一阶段检测器往往拥有更快的检测速度，满足船舶检测对实时性的要求，因此本发明基于一阶段目标检测器。

Zhenfeng Shao等人首次将卷积神经网络（CNN）用于船舶检测的监控视频中，他们基于YOLO-v2模型提出了一种显著预测的CNN框架，首先利用CNN进行粗略预测再通过显著性检测进行细化，此外他们还提出了海岸线分割法用于缩小检测范围，提高检测效率。Zhijun Chen等人通过改进GMWGAN-GP和YOLO-v2算法提出了一种基于生成对抗网络和卷积神经网络的小型船舶检测方法，明显改善了网络对小型船舶的检测准确率。他们使用基于密度的带噪声应用空间聚类（DBSCAN）代替k-means聚类来生成锚框，使用带有梯度惩罚的高斯混合wgan进行数据增强。但这些基于YOLOv2的方法的检测效率不高，即速度慢，精度低。RyanWen Liu等人针对YOLO-v3模型进行改进提出了增强的卷积神经网络用于改善不同天气下的船舶检测性能，他们重新设计了YOLO锚框的大小、引入了Soft NMS并重新设计了损失函数，提升了网络的学习能力，并通过一系列数据增强策略使得模型对于恶劣天气下检测的鲁棒性。但在NVIDIA 1080Ti GPU上，对于608*608的输入分辨率，他们所提出模型的检测速度为30帧/秒（FPS），检测速度仍然较慢。ShipYOLO是一种基于YOLOv4的增强模型，也是为监控视频中的船舶检测而设计的。ShipYOLO有三个主要的改进，包括骨干结构的重参数化，多尺度特征融合中加入注意力机制，和在空间金字塔池化中使用空洞卷积。在NVIDIA1080Ti显卡上，对于512*512分辨率的输入图像，ShipYOLO实现了每秒47帧（FPS）的检测速度，但这对于无人机等计算资源不足的设备来说仍然不够快。Zhang等人通过改进YOLOv5提出了YOLOv5-dn用于海上船舶检测和分类。YOLOv5-dn是通过在YOLOv5模型中引入CSP-DenseNet结构来实现的，目的是优化检测精度。但该模型并不考虑检测速度这一指标，因此导致效率低下。

发明内容

本发明的目的是提供一种基于卷积神经网络的无人机航拍影像中的船舶检测方法，解决上述背景技术中提出的问题。

为实现上述目的，本发明提供了一种基于卷积神经网络的无人机航拍影像中的船舶检测方法，包括以下步骤：

步骤1，构建YOLO格式的无人机航拍影像船舶数据集；

步骤2，将步骤1中构建的船舶数据集送入改进的YOLOv5s网络进行船舶检测模型训练；

步骤3，使用步骤2训练出的模型文件进行船舶目标检测。

优选的，步骤1中，

步骤11，使用Python脚本从MS-COCO以及Pascal VOC数据集中提取所有包含船舶实例的图像及对应的标注；

步骤12，使用Python脚本对数据集进行清理，去除所有无效的标签及其对应的同名图像，并将所有的标注转换为YOLO格式；

步骤13，对数据集进行人工筛选，保留具有无人机视角的船舶图像及其标注文件；

步骤14，在数据集中加入额外采集的无人机航拍船舶图像并以YOLO格式进行标注，将所有的数据以7：1：2划分为训练集、验证集以及测试集。

优选的，步骤2中，首先输入图像的分辨率被缩放为640×640，然后输入图像依次被改进YOLOv5s的主干网络、颈部网络与头部网络进行处理，最后得到最终的检测结果。

优选的，相比于原始的YOLOv5s网络，改进的YOLOv5s网络在第1层使用ODConv模块，改进的YOLOv5s网络在第6层使用ConvNeXt模块替换原始的C3模块。

优选的，改进YOLOv5s网络第1层中的ODConv中采用两组卷积滤波器线性加权组成的全方位动态卷积，即：

；

其中

为输入特征，/>

为输出特征，/>

和/>

分别代表两组不同的卷积滤波器，/>

、

、/>

、/>

分别代表整组卷积滤波器域、输出通道域、输入通道域和卷积核空间域上可学习的权重，/>

代表在不同维度上的加权操作，“/>

”代表卷积操作。

优选的，改进YOLOv5s网络第1层中的ODConv中将带温度的SoftMax替换为普通的SoftMax，即将温度

设置为1。

优选的，步骤2的训练过程中设置训练轮数为500轮；批的大小为32，即每次将32张图片输入网络进行训练；输入图像的分辨率设置为640×640；初始的学习率设置为0.01，最后一轮的学习率为0.0005。

优选的，步骤3中，利用已训练好的网络模型对无人机拍摄的船舶目标进行检测，得到每个船舶实例的边界框坐标、所述类别以及置信度。

因此，本发明采用上述基于卷积神经网络的无人机航拍影像中的船舶检测方法，具有以下有益效果：

1、本发明采用的改进的YOLOv5s算法与原始的YOLOv5s算法相比，改进的YOLOv5s算法在无人机图像的船舶检测这一任务上具有更高的检测精度，满足海洋监控管理系统对船舶检测准确率的需求；

2、本发明采用的改进的YOLOv5s算法训练出的模型具有更快的检测速度，满足船舶目标检测对实时性的要求，同时能够使本发明采用的方法得以部署在计算资源相对匮乏的无人机上。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1是本发明基于卷积神经网络的无人机航拍影像中的船舶检测方法的流程示意图；

图2是本发明的改进优化后的YOLOv5s模型结构示意图；

图3是本发明中ODConv模块的结构示意图；

图4是本发明中ConvNeXt模块的结构示意图；

图5是本发明的深度卷积的示意图。

具体实施方式

以下通过附图和实施例对本发明的技术方案作进一步说明。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。术语“设置”、“安装”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

实施例

图1是本发明基于卷积神经网络的无人机航拍影像中的船舶检测方法的流程示意图；图2是本发明的改进优化后的YOLOv5s模型结构示意图；图3是本发明中ODConv模块的结构示意图；图4是本发明中ConvNeXt模块的结构示意图；图5是本发明的深度卷积的示意图。

如图1所示，本发明所述的基于卷积神经网络的无人机航拍影像中的船舶检测方法，包括以下步骤：

步骤1，构建YOLO格式的无人机航拍影像船舶数据集：

步骤11，使用Python脚本从MS-COCO以及Pascal VOC数据集中提取所有包含船舶实例的图像及对应的标注；从网络上获取xml标签格式的MSCOCO和Pascal VOC数据集。

步骤12，使用Python脚本对数据集进行清理，去除所有无效的标签及其对应的同名图像，并将所有的标注转换为YOLO格式。

其中YOLO格式的标签采用txt文件保存，每一行代表一个船舶实例。每一行数据包含5个值，分别是类别、中心点x轴坐标、中心点y轴坐标、边界盒宽度、边界盒高度。其中方框的四个位置坐标需要归一化至[0,1]。

步骤13，对数据集进行人工筛选，保留具有无人机视角的船舶图像及其标注文件。

其中整个数据集文件夹为Ship-Detection，Ship-Detection文件夹下建立images和labels文件夹，在images和labels文件夹分别存放所有的图像和标注。Images文件夹与labels文件夹下均建立train、val、test三个文件夹分别用来存放训练集、验证集与测试集的图片与标签。

步骤2，将步骤1中构建的船舶数据集送入改进的YOLOv5s网络进行船舶检测模型训练。

首先输入图像的分辨率被缩放为640×640，然后输入图像依次被改进YOLOv5s的主干网络、颈部网络与头部网络进行处理，最后得到最终的检测结果。

改进YOLOv5s模型的结构如图2所示。改进的YOLOv5s网络包含主干网络、颈部网络以及头部网络，主干网络主要负责从3通道的输入图像中提取不同尺度的特征；颈部网络负责将3个不同尺度的特征进行双向的多尺度特征融合；头部网络分别从3个不同尺度进行检测、生成检测结果。其中原主干网络中第1层的二维卷积被ODConv模块替换，在不增加网络宽度和深度的前提下提升船舶检测的准确率；原主干网络中第6层的C3模块被ConvNeXt模块进行替换，使得网络的检测速度得到显著提升且几乎不损失准确率。改进YOLOv5s网络第1层中的ODConv中将带温度的SoftMax替换为普通的SoftMax，即将温度

设置为1。经改进优化后的YOLOv5s主干网络结构以及传统YOLOv5s主干网络结构如表1、表2所示：

表1

网络层次	层类型	输出特征大小
			0	卷积层	(32,320,320)
1	ODConv层	(64,160,160)
			2	C3模块	(64,160,160)
3	卷积层	(128,80,80)
			4	C3模块	(128,80,80)
5	卷积层	(256,40,40)
			6	ConvNeXt模块	(256,40,40)
7	卷积层	(512,20,20)
			8	C3模块	(512,20,20)
9	SPPF模块	(512,20,20)
			…	…	…

表2

网络层次	层类型	输出特征大小
			0	卷积层	(32,320,320)
1	卷积层	(64,160,160)
			2	C3模块	(64,160,160)
3	卷积层	(128,80,80)
			4	C3模块	(128,80,80)
5	卷积层	(256,40,40)
			6	C3模块	(256,40,40)
7	卷积层	(512,20,20)
			8	C3模块	(512,20,20)
9	SPPF模块	(512,20,20)
			…	…	…

ODConv模块的结构如图3所示。输入特征首先经过全局平均池化被压缩成一维向量，然后经过全连接层和ReLU激活层，所生成的特征分别经过四个全连接层与非线性激活转化成4组不同的权重，4组不同的权重分别在卷积滤波器域、输出通道域、输入通道域和卷积核空间域与两组卷积滤波器进行线性加权生成最终的卷积层，最后使用加权生成的卷积核进行卷积操作。改进YOLOv5s网络第1层中的ODConv中采用两组卷积滤波器线性加权组成全方位动态卷积，整个过程可被描述为：

；

其中

为输入特征，/>

为输出特征，/>

和/>

分别代表两组不同的卷积滤波器，/>

、

、/>

、/>

代表在不同维度上的加权操作，“/>

”代表卷积操作。通过两组卷积动态生成的卷积层在不增加网络宽度和深度的前提下可使网络获得更高的准确率。

改进YOLOv5s模型第六层的ConvNeXt模块结构如图4所示，输入特征首先经过卷积核大小为7*7的深度卷积和LayerNorm层，接着使用1*1的卷积将通道数升维到原来的4倍并经过SiLU激活，最后使用1*1的卷积将通道数降维至与输入特征的通道数一致并与输入特征相加得到输出。其中深度卷积的示意图如图5所示，深度卷积层的滤波器数与输入通道数一致，每个卷积滤波器的通道数均为1，因此深度卷积的过程中每个卷积滤波器只与一个输入通道的特征进行卷积，最终输出特征的通道数与输入特征通道数保持一致。相比于原始的C3模块，ConvNeXt模块结构简单、具有更少的正则化层以及激活函数，同时更大的卷积核使得ConvNeXt模块具有更大的感受野，因此使用ConvNeXt模块替换C3模块使得网络获得更快的检测速度同时几乎不损失精度。

训练过程中将训练轮数设置为500轮，批的大小设置为32，即每次将32张图片输入网络进行训练；输入图像的分辨率设置为640×640；初始的学习率设置为0.01，最后一轮的学习率为0.0005。训练500轮后网络将收敛并生成“.pt”后缀的模型文件。

步骤3，使用步骤2训练出的模型文件进行船舶目标检测：利用已训练好的网络模型对无人机拍摄的船舶目标进行检测，得到每个船舶实例的边界框坐标、所述类别以及置信度。

首先将待检测的无人机航拍图像进行预处理，将图像放缩至640×640大小的分辨率，然后将图像输入训练好的模型中进行检测。网络经过预测会生成一系列边界框，在检测时设置置信度阈值为0.25，过滤掉得分较低的边界框，将剩余的边界框进行非极大值抑制后生成检测结果。

表3

模型	输入分辨率	准确率(AP)	推理速度(ms)	参数量(M)
					YOLOv5s	640*640	46.8%	9.4	7.01
改进YOLOv5s	640*640	48.0%	8.3	6.99
					TPH-YOLOv5	640*640	46.0%	18.9	9.16
Scaled-YOLOv4	640*640	48.4%	12.3	9.11
					YOLOv5-tiny	640*640	46.5%	9.0	14.94
YOLOv7	640*640	52.5%	15.2	36.48

经测试证明，如表3，本发明采用的方法在所构建的船舶数据集上的准确率达0.48，同时在RTX3090显卡上的检测速度达8.3ms每张图片。本发明采用的方法在准确率与检测速度上均优于YOLOv5s模型，适用于无人机影像上的船舶检测。

因此，本发明采用上述基于卷积神经网络的无人机航拍影像中的船舶检测方法，能够解决现有船舶检测算法精准度不足以及检测速度较慢的问题，让船舶检测具备更高的效率。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种基于卷积神经网络的无人机航拍影像中的船舶检测方法，其特征在于：包括以下步骤：

步骤1，构建YOLO格式的无人机航拍影像船舶数据集；

步骤3，使用步骤2训练出的模型文件进行船舶目标检测。

2.根据权利要求1所述的基于卷积神经网络的无人机航拍影像中的船舶检测方法，其特征在于：步骤1中，

步骤14，在数据集中加入采集的无人机航拍船舶图像并以YOLO格式进行标注，将所有的数据以7：1：2划分为训练集、验证集以及测试集。

3.根据权利要求1所述的基于卷积神经网络的无人机航拍影像中的船舶检测方法，其特征在于：步骤2中，首先输入图像的分辨率被缩放为640×640，然后输入图像依次被改进YOLOv5s的主干网络、颈部网络与头部网络进行处理，最后得到最终的检测结果。

4.根据权利要求3所述的基于卷积神经网络的无人机航拍影像中的船舶检测方法，其特征在于：相比于原始的YOLOv5s网络，改进的YOLOv5s网络在第1层使用ODConv模块，改进的YOLOv5s网络在第6层使用ConvNeXt模块替换原始的C3模块。

5.根据权利要求3所述的基于卷积神经网络的无人机航拍影像中的船舶检测方法，其特征在于：改进YOLOv5s网络第1层中的ODConv中采用两组卷积滤波器线性加权组成的全方位动态卷积，即：

；

其中

为输入特征，/>

为输出特征，/>

和/>

分别代表两组不同的卷积滤波器，/>

、/>

、

、/>

代表在不同维度上的加权操作，“/>

”代表卷积操作。

6.根据权利要求3所述的基于卷积神经网络的无人机航拍影像中的船舶检测方法，其特征在于：改进YOLOv5s网络第1层中的ODConv中将带温度的SoftMax替换为普通的SoftMax。

7.根据权利要求3所述的基于卷积神经网络的无人机航拍影像中的船舶检测方法，其特征在于：步骤2的训练过程中设置训练轮数为500轮，批的大小为32；输入图像的分辨率设置为640×640；初始的学习率设置为0.01，最后一轮的学习率为0.0005。

8.根据权利要求1所述的基于卷积神经网络的无人机航拍影像中的船舶检测方法，其特征在于：步骤3中，利用已训练好的网络模型对无人机拍摄的船舶目标进行检测，得到每个船舶实例的边界框坐标、类别以及置信度。