CN115082872A

CN115082872A - 一种面向边缘计算的河面采砂船及过往船只识别方法

Info

Publication number: CN115082872A
Application number: CN202210963229.XA
Authority: CN
Inventors: 许小华; 包学才; 王海菁; 陈豹; 张秀平
Original assignee: Nanchang Institute of Technology; Jiangxi Academy of Water Resources
Current assignee: Nanchang Institute of Technology; Jiangxi Academy of Water Resources
Priority date: 2022-08-11
Filing date: 2022-08-11
Publication date: 2022-09-20
Anticipated expiration: 2042-08-11
Also published as: CN115082872B

Abstract

本发明公开了一种面向边缘计算的河面采砂船及过往船只识别方法，该方法提出使用K‑means聚类算法生成河面船只数据集的先验框，并改进YOLOv4‑tiny主干网络，将基本卷积层激活函数改为SiLU激活函数，形成新的主干特征提取网络，并输出两种不同尺度的特征图；在加强特征融合网络中加入SE注意力机制模块，并在FPN层后面加入自上而下的连接，形成PANet网络结构。本发明通过在其原来的基本卷积块中加入SiLU激活函数对主干网络进行调整，有利于训练模型更好的收敛；整个模型可用于对复杂场景下河面过往不同类型船只识别任务的优化，识别精度优于传统模型。

Description

一种面向边缘计算的河面采砂船及过往船只识别方法

技术领域

本发明涉及一种计算机视觉目标识别领域，特别是涉及一种面向边缘计算的河面采砂船及过往船只识别方法。

背景技术

目前，常规的视频监控系统是由航道两侧的摄像机进行监控，并采用人工方法进行视频内容的过滤和筛选，对航道信息进行统计。但该方法会使得人工成本骤增，同时监控检测效果也容易被人工主观因素所影响不同于道路视频监控，在内河航道监控视频中存在诸多干扰，包括光照因素、水面波动、水面倒影和船舶相互遮挡等，使得提取船舶目标变得困难，具体表现为背景干扰、水面干扰、船舶干扰等。采砂监控的任务主要包括是否有违法船只在违禁区域内采砂的检测和采砂是否对航道结构造成破坏的监测等。采用船舶视频监控系统对内河航道进行监控是防止船舶危险事故发生的有效手段之一，因此内河航道船舶视频监控系统受到了国内外学者和工业界的青睐。众多的学者和研究员在船舶目标检测和识别领域进行了大量的研究，但主要研究方向仍然集中于传统的目标检测算法。这些算法并不能很好的解决上述问题，在复杂的内河航道环境中鲁棒性较差，无法投入实际应用当中。

目前人工智能、深度学习等船舶动态监管信息化手段在水上交通流监管中的成功应用，为航道采砂相关船舶的动态监管提供了借鉴经验，因此将深度学习应用于河道采砂船及过程船只现场动态监管，在技术上具有可行性。本专利基于深度学习的河湖水面采砂船及过往船只的目标检测与识别算法，可以解决目前传统检测速度慢、正确率不高、需要依靠大量人工监视等缺点，更适合河湖区域部署边缘计算设备，实现了对于不同类型船舶检测以及对于非法采砂船的特征进行识别，并自动预警，降低人工监视的劳动强度，提升了采砂船及过往船只管理效率。

发明内容

本发明针对现有技术的不足，提出一种基于改进YOLOv4-tiny的面向边缘计算的河面采砂船及过往船只识别方法，采用YOLOv4-tiny模型进行目标检测，在不减少检测帧率和少量增加参数量的情况下实现更高的检测精度，实现了河面采砂船及过往船只的自动化检测。

为了实现上述的目的，本发明采用以下技术方案：一种面向边缘计算的河面采砂船及过往船只识别方法，其特征在于，所述方法包括以下步骤：

S1、船舶图像数据集的收集与制作：收集部署在江面岸边摄像头拍摄的过往的不同类别的船只图片，通过人工方式对船只数据集进行整理，从中筛选出画面清晰、易于分辨的符合要求的船只图片，利用图像标注软件labelimg对船只图像数据进行标注，结合公开船只数据集形成总的VOC格式的数据集，并按照9：1的比例划分训练验证集和测试集，在训练验证集中按照9：1的比例划分训练集和验证集。

S2、船只图像的预处理：利用数据翻转、图像缩放和添加噪声等数据增广的技术增加训练的船只数据量和提高船只训练数据集的复杂度，提高YOLOv4-tiny模型的泛化能力；同时通过增加噪声数据的方式，提升YOLOv4-tiny模型的鲁棒性；

S3、先验框的生成：利用K-Means聚类算法根据自制的船只目标检测数据集标签数据生成适用于特定船只数据集情形下的6个不同大小尺寸的先验框，分别分给输出不同特征层大小的两个YOLOHead，用此方法生成的先验框进行训练网络和进行预测可以达到更高的精度，聚类效果优秀，并且原理简单，易于实现，且收敛速度快；

S4、改进网络的搭建：搭建基于改进YOLOv4-tiny的河道采砂船及过往船只检测模型，将YOLOv4-tiny主干网络中的基本卷积层中的LeakyReLU激活函数替换为SiLU激活函数，组成CBS卷积模块，形成新的主干特征提取网络；新的所述主干特征提取网络输出两种不同尺度的特征图；分别在YOLOv4-tiny的主干网络的两个输出fea1和fea2后以及加强特征融合网络的上采样层和下采样层后加入SE注意力机制模块，SE注意力机制模块会关注通道之间的关系，模型可以自动学习到不同通道特征的重要程度；在FPN层后面加入自上而下的连接，形成PANet网络结构，有助于更好的提升对于小目标的检测效果；两种不同尺度的特征图分别通过各自对应的YOLOHead卷积块处理后进入船只分类预测、船只置信度预测和船只位置信息的预测；

S5、改进YOLOv4-tiny模型的训练：利用训练集对所述船只识别模型进行训练，使用验证集验证训练效果，更新权重或进行反向传播更新参数将损失函数降低到最小值，获取最优检测模型。

S6、目标检测识别：利用训练好的YOLOv4-tiny模型对河面上的采砂船及过往船只进行检测，判断是否有船只，如果有船只则标记出船只的类别、位置大小和置信度；对测试集的检测结果进行检测精度和实时性评价，评价指标包括mAP（mean Average Precision）和FPS（Frames Per Second）。

进一步的，步骤S1具体过程如下：

S1-1、通过收集部署在江面岸边摄像头拍摄的过往的不同类别的船只图片，包括采砂船、运砂船、客船、普通货船、渔船、集装箱船、散装货船七个不同分类的船只，通过人工方式对船只数据集进行整理，从中筛选出具有所需船舶目标且目标清晰、目标大小适中以及目标较为完整的图片，图片分为1920*1080和1440*900两种分辨率大小，对选取的图片进行编号，利用图片数据标记工具LabelImg标注船体目标，结合公开船只数据集形成总的VOC格式的数据集；

S1-2、利用数据标记工具LabelImg对船只图片进行标记生成格式为XML的标记文件,此XML文件包含了数据集名称、图片的名称、存储路径、来源、尺寸、宽度和高度、色彩通道数还有所标注物体的类别、拍摄角度、是否被裁剪、是否容易被识别、物体的bbox等关键信息。

进一步的，步骤S4具体过程如下：

用YOLOv4-tiny主干特征网络提取传入网络图片的特征，并输出两个大小分别为feat1:（26，26，256）和feat2:（13，13，512）的有效特征层，传入加强特征提取网络当中进行PANet的构建；

在YOLOv4-tiny的FPN结构之后，加入PANet结构，具体的，将大小为（26，26，384）的特征图经过一层输入通道数为384，输出通道数为256，卷积核大小为3*3，步长为2的卷积层进行下采样的的处理，以减小特征图的大小，输出大小为（13，13，256）的特征图；

YOLOv4-tiny主干特征提取网络的另一个输出feat2（13，13，512）经过一个卷积操作得到大小为（13，13，256）特征图，此特征图与上一步下采样得到的（13，13，256）的特征图进行通道维度的拼接操作，可以融合两个不同尺度的特征，得到大小为（13，13，512）的特征图，此特征图经过一个输入通道数为512，输出通道数256，卷积核大小为1*1，步长为1的卷积层进行通道数的调整，得到大小为（13，13，256）的特征图，然后再经过YOLOHead的处理得到最终的输出结果。

进一步的，步骤S5具体过程如下：

S5-1、将船只图片文件放到项目中的JPEGImages文件夹中；将对应的标签文件放到项目中的Annotation文件夹中，共同作为训练集训练模型；生成包含图片名称索引的文件，同时根据有效数据集的数量按照9：1的比例划分训练验证集和测试集，在训练验证集中按照9：1的比例划分训练集和验证集；这样做的好处是为了能够选出效果最好的，泛化能力最佳的模型。其中，训练集的作用是用来拟合模型，通过设置分类与回归器的参数，训练分类与回归模型，后续结合验证集作用时，会选出同一参数的不同取值，拟合出多个分类回归器；验证集的作用是找出效果最佳的模型，使用通过训练集训练出各个模型对验证集数据进行检测，并记录模型准确率，选出效果最佳的模型所对应的参数，即用来调整模型参数。测试集的作用是对通过训练集和验证集得出最优模型进行模型的预测，衡量该最优模型的性能和分类能力，即把测试集当做从来不存在的数据集，当已经确定模型参数后，使用测试集进行模型性能评价。

S5-2、生成包含船只图片中船只的分类及位置的文本文件，用于训练模型。其中classes变量存放船只类别。一共有七个分类，其中sand dredger代表采砂船，ore carrier代表运砂船，passenger ship代表客船，general cargo ship代表普通货船，fishing boat代表渔船，bulk cargo carrier代表散装货船，container ship代表集装箱船。

S5-3、利用训练集对所述基于改进YOLOv4-tiny的模型进行训练，用验证集评估训练效果，进行反向传播更新参数以使损失函数降低到最小值，获取最优检测模型。

本发明的有益效果：本发明提供的基于改进YOLOv4-tiny的河道船只目标识别模型及方法，针对原来的YOLOv4-tiny加强特征融合网络，扩充原来的FPN结构建立PANet（Path Aggregation Network）结构对加强特征融合网络进行调整，充分利用了特征融合，通过融合高低层特征语义信息提升目标检测的效果，增强了模型网络对于浅层信息(主要包括亮度、颜色和边缘等粗糙信息)的提取；使用性能更好的、更易于让训练收敛的SiLU激活函数代替原YOLOv4-tiny主干特征提取网络中的LeakyReLU激活函数，形成卷积+标准化+激活函数的CBS模块，Swish 具备无上界有下界、平滑、非单调的特性，其在深层模型上的效果优于LeakyReLU，有助于增加模型检测的准确性；在整个框架的基础上，配合调整训练超参数，使得整个模型可用于对复杂场景下如阴天、雾天、雨天、昏暗场景等河面船只识别任务的优化，在保证帧率不变的同时提升模型的检测精度。

附图说明

图1为本发明实施例提供的基于改进YOLOv4-tiny的河道船只识别方法的流程图；

图2为本发明实施例提供的基于改进YOLOv4-tiny的河道船只识别模型的网络结构图；

图3为检测模型中改进加强特征融合网络的具体结构及参数图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供一种基于改进YOLOv4-tiny的河道采砂船及过程船只识别方法，采用上述各实施例中的河道船只识别模型，该方法包括下述步骤：

S1：收集河道船只图片并进行标注形成数据集。其中各类采砂船训练样本数量为1450，验证样本数量为156，测试样本数量为159；运砂船训练样本数量为1788，验证样本数量为191，测试样本数量为220；客船训练样本数量为378，验证样本数量为46，测试样本数量为50；普通货船训练样本数量为1228，验证样本数量为124，测试样本数量为153；渔船训练样本数量为1741，验证样本数量为208，测试样本数量为241；集装箱船训练样本数量为743，验证样本数量为85，测试样本数量为73；散装货船训练样本数量为1574，验证样本数量为178，测试样本数量为200。实际应用中，可以从部署在江河湖泊岸边的摄像头拍摄采集过往的船舶图片作为数据集；

S2：利用数据增广技术对船只数据集进行预处理，是数据集更丰富；

S3：使用K-means算法生成适用于本船只数据集的先验框；

S4：搭建改进YOLOv4-tiny网络，提高船只识别精度。如图2所示，本发明实施例提供一种基于改进YOLOv4-tiny的河道船只识别模型，该检测模型在YOLOv4-tiny基础上将主干特征提取网络中的LeakyReLU激活函数更改为性能更好的、更易于让训练收敛的SiLU激活函数，形成卷积+标准化+激活函数的CBS模块；并在加强特征融合网络的FPN（FeaturePyramid Networks）结构后面加入PANet（Path Aggregation Network）模块，形成新的特征融合网络，以更好地融合主干特征网络提取的特征，新的所述加强特征融合网络输出两种不同尺度的特征图；两种不同尺度的特征图分别通过各自对应的YOLOHead卷积块处理后进入船只分类预测、船只置信度预测和船只框的信息预测；

作为一种可实施方式，新的所述CBS模块包括一层卷积层（Conv）、一层批标准化层（Batch Normalization）和一个激活函数（SiLU），加强特征融合网络包括上采样后的注意力模块和自上而下依次连接的由卷积实现的下采样层（Downsample）、一个注意力模块和卷积层以及分别在处理两个不同大小特征层的YOLOHead后面增加的注意力层；

所述的新的CBS模块包括包括依次连接的一层Conv2d层、一层BatchNorm2d层和一个SiLU激活函数层;所述的Conv2d层包括两种：一种为为卷积核为3×3，步长为1，填充为1的卷积层，其作用是提取特征，另一种为卷积核为1×1，步长为1，填充为0的卷积层，其作用是调整通道数；所述BatchNorm2d层为2D的批标准化层；所述SiLU激活函数层为SiLU激活函数，其公式为：

Silu(x)=x*sigmoid(x)

具体地，待识别船只数据由主干特征提取网络输入，该主干特征提取网络的输出分为两部分，两部分输出的特征图为两种不同尺度的特征图：第一部分输出feat1为第二个resblock_body的输出，其大小为（26，26，256），第二部分输出feat2为第三个darknetconv2d_bn_leaky的输出，其大小为（13，13，512）。接着，搭建检测模型中改进加强特征融合网络，具体参数如图3所示。通过对第二部分输出的特征图feat2进行两次卷积和一次上采样以及一次注意力模块的处理后与第一部分输出的特征图feat1进行拼接操作变成大小为（26，26，384）特征图，实现特征融合；融合后的特征图经过一次下采样和一次注意力模块操作变成大小为（13，13，256）的特征图；此特征图再与feat2经过卷积后得到的特征图进行拼接得到大小为（13，13，512）的特征图；此特征图再经过第三卷积操作，与第一部分输出的特征图分别送入两个分支的YOLOHead加注意力模块对船只目标的分类、位置和置信度进行预测。

其中，所述的下采样层是一层卷积核大小为3*3，步长为2，填充为1的卷积层，所述的注意力；所述的第三卷积操作是一层卷积核大小为1*1，步长为1，填充为0的卷积层。

S5：利用河面船只训练集对所述船只识别模型进行训练，设置训练超参数,使用AdamW优化器减小代价函数，使用mosaic数据增强丰富数据集，使用余弦退火（CosineAnnealing）通过余弦函数来降低学习率，使用标签平滑防止过拟合，使用先冻结主干网络训练100个epoch，批次大小为32，初始学习率为0.001，再解冻主干网络训练100个epoch，批次大小为16，解冻后学习率为0.0001；使用河面船只验证集验证训练效果，更新权重，获取最优检测模型；训练完成后保存权重文件。

S6：利用河面船只测试集中的图片数据对训练得到的最优检测模型进行检测，对检测结果进行检测精度和实时性评价；所述评价指标包括mAP和FPS。

评价指标mAP和FPS的计算过程如下:

（1）mAP（均值平均精度）

其中，∑AP表示河面船只测试集中所有类别的平均准确率之和，N(Classes) 表示河面船只测试集类别总数7。

（2）FPS（每秒显示帧数）

FPS是指画面每秒播放的帧数，即视频的画面数。

通过上述对评价指标mAP和FPS的计算，本发明方法与原YOLOv4-tiny算法作对比，在检测帧率基本不变的情况下，对于运砂船的识别AP值提高了1.00%，对于普通货船的识别AP值提高了0.04%，对于散装货船的识别AP值提高了0.18%，对于集装箱船的识别AP值提高了1.34%，对于客船的识别AP值提高了1.54%，对于渔船的识别AP值提高了3.51%，对于采砂船的识别AP值提高了1.59%，整体的船只识别mAP提高了1.27%。因此本发明提出的网络模型在河道船只数据集上的表现对于不同船只类型的别均有较高的准确率提升。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种面向边缘计算的河面采砂船及过往船只识别方法，其特征在于，包括以下步骤：

S1、船舶图像数据集的收集与制作：收集部署在江面岸边摄像头拍摄的过往的不同类别的船只图片，通过人工方式对船只数据集进行整理，从中筛选出画面清晰、易于分辨的符合要求的船只图片，对船只图像数据进行标注，结合公开船只数据集形成总的VOC格式的数据集；

S2、船只图像的预处理：利用数据增广的技术增加训练的船只数据量，提高YOLOv4-tiny模型的泛化能力；同时通过增加噪声数据的方式，提升YOLOv4-tiny模型的鲁棒性；

S3、先验框的生成：利用K-Means聚类算法根据自制的船只目标检测数据集标签数据生成适用于特定船只数据集情形下的6个不同大小尺寸的先验框，用于提高目标检测精度；

S4、改进网络的搭建：搭建基于改进YOLOv4-tiny的河道采砂船及过往船只检测模型，将YOLOv4-tiny主干网络中的基本卷积层中的LeakyReLU激活函数替换为SiLU激活函数，组成CBS卷积模块，形成新的主干特征提取网络；新的主干特征提取网络输出两种不同尺度的特征图；分别在YOLOv4-tiny的主干网络的两个输出fea1和fea2后以及加强特征融合网络的上采样层和下采样层后加入SE注意力机制模块，SE注意力机制模块会关注通道之间的关系，模型可以自动学习到不同通道特征的重要程度；在FPN层后面加入自上而下的连接，形成PANet网络结构；两种不同尺度的特征图分别通过各自对应的YOLOHead卷积块处理后进入船只分类预测、船只置信度预测和船只位置信息的预测；

S5、改进YOLOv4-tiny模型的训练：利用训练集对船只识别模型进行训练，使用验证集验证训练效果，更新权重，获取最优检测模型；

S6、目标检测识别：利用训练好的改进YOLOv4-tiny模型对河面上的采砂船及过往船只进行检测，判断是否有船只，如果有船只则标记出船只的类别、位置大小和置信度；对测试集的检测结果进行检测精度和实时性评价，评价指标包括mAP和FPS。

2.如权利要求1所述的一种面向边缘计算的河面采砂船及过往船只识别方法，其特征在于，步骤S1具体过程如下：

S1-2、利用数据标记工具LabelImg对船只图片进行标记生成格式为XML的标记文件,此XML文件包含了数据集名称、图片的名称、存储路径、来源、尺寸、宽度和高度、色彩通道数还有所标注物体的类别、拍摄角度、是否被裁剪、是否容易被识别、物体的bbox关键信息。

3.如权利要求1所述的一种面向边缘计算的河面采砂船及过往船只识别方法，其特征在于，步骤S4具体过程如下：

在YOLOv4-tiny的FPN结构之后，加入PANet结构，具体的，将大小为（26，26，384）的特征图经过一层输入通道数为384，输出通道数为256，卷积核大小为3*3，步长为2的卷积层进行下采样的处理，以减小特征图的大小，输出大小为（13，13，256）的特征图；

4.如权利要求1所述的一种面向边缘计算的河面采砂船及过往船只识别方法，其特征在于，步骤S5具体过程如下：

S5-1、将船只图片文件放到项目中的JPEGImages文件夹中；将对应的标签文件放到项目中的Annotation文件夹中，作为数据集训练模型；生成包含图片名称索引的文件；训练时按照9：1的比例划分训练验证集和测试集，在训练验证集中按照9：1的比例划分训练集和验证集；其中，训练集的作用是用来拟合模型，通过设置分类与回归器的参数，训练分类与回归模型，后续结合验证集作用时，会选出同一参数的不同取值，拟合出多个分类回归器；验证集的作用是找出效果最佳的模型，使用通过训练集训练出各个模型对验证集数据进行检测，并记录模型准确率，选出效果最佳的模型所对应的参数，即用来调整模型参数；测试集的作用是对通过训练集和验证集得出最优模型进行模型的预测，衡量该最优模型的性能和分类能力，即把测试集当做从来不存在的数据集，当已经确定模型参数后，使用测试集进行模型性能评价；

S5-2、生成包含船只图片中船只的分类及位置的文本文件，用于训练模型；其中classes变量存放船只类别，一共有七个分类，其中sand dredger代表采砂船，ore carrier代表运砂船，passenger ship代表客船，general cargo ship代表普通货船，fishing boat代表渔船，bulk cargo carrier代表散装货船，container ship代表集装箱船；