CN117422998A

CN117422998A - 一种基于YOLOv5s改进的河道漂浮物识别算法

Info

Publication number: CN117422998A
Application number: CN202311448980.7A
Authority: CN
Inventors: 袁玉波; 黄莫雨
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2023-11-02
Filing date: 2023-11-02
Publication date: 2024-01-19

Abstract

本发明公开了一种河道漂浮物自动识别的深度学习方法，属于目标检测领域。该方法包括以下步骤：步骤1，获取河道漂浮物数据图像集FloW‑Img，对图像做数据预处理；步骤2，基于YOLOv5s的网络结构进行优化，将多尺度注意力机制融合入YOLOv5s主干网络中，又在颈部网络引入3d卷积丰富小目标的语义信息，基于上述改进构建新模型A‑YOLOv5s；步骤3，输入已经标注的漂浮物图像数据，训练A‑YOLOv5s模型，得到最优模型参数；步骤4，利用步骤3得到的模型参数构建的A‑YOLOv5s检测河道漂浮物，输出检测结果。大量河道漂浮物检测结果说明，本发明的识别方法，和已有常见方法相比，在确保检测速度的基础上，大幅提高了特征提取性能与识别准确率，实现了河道漂浮物的快速、准确识别。

Description

一种基于YOLOv5s改进的河道漂浮物识别算法

技术领域

本发明属于目标检测领域，具体为一种基于YOLOv5s改进的河道漂浮物识别算法。

背景技术

河道漂浮物是河道污染的一项重要原因，目前，国内主要依靠人工巡检打捞的方式进行水面清洁，但人工服务难以做到及时，有效的清理，同时还需要耗费大量的人力、财力。随着目标检测技术的快速发展，国内外研究者将经典的目标检测算法用于河道漂浮物的识别上，对河道漂浮物进行实时的监控与告警。但是，一方面河道环境复杂，漂浮物种类繁多且有大量的小目标存在，使用轻量级的网络容易造成检测效果不佳；另一方面大模型虽然能够提升检测效果，却大大降低了检测速度。如何选择与改进当前的目标检测算法，实现速度与精度的平衡，成为亟待解决的难点。

YOLOv5作为单阶段目标检测的优秀算法，在保障检测速度的同时，还能有较高的检测精度，本发明选用YOLOv5的s版本，并进行网络结构的优化，在保证检测速度的基础上，大幅提升模型检测精度。

发明内容

发明目的：本发明所要解决的技术问题是针对现有的河道漂浮物识别方法中，难以实现速度与精度的平衡，提出了一种基于改进的YOLOv5s河道漂浮物识别方法。

为了解决上述技术问题，本发明采用的技术方案是：

一种基于YOLOv5s改进的河道漂浮物识别方法，包括以下步骤：

步骤1，获取河道漂浮物数据图像集FloW-Img，对图像做数据预处理，得到符合要求的图像数据；

步骤2，以YOLOv5s深度学习模型为基础算法的网络结构进行优化，提出了河道多尺度目标注意力网络架构思想，针对漂浮物大中小目标特点，将多尺度注意力机制融合入YOLOv5s主干网络中，同时又在颈部网络引入3d卷积丰富小目标的语义信息，基于上述改进构建了新模型，记为A-YOLO5S；

步骤3，输入已经标注的漂浮物图像数据，训练A-YOLO5S模型，得到最优模型参数；

步骤4，利用步骤3得到的模型参数构建的A-YOLO5S检测河道漂浮物，输出检测结果。

进一步地，所述步骤1数据预处理具体包括：

进行图像数据分类与标注并统一将图像调整为640*640大小、将数据集划分为训练集与测试集，其中80％作为训练集，20％作为测试集、训练集进行数据增强，增强方式包括：翻转、平移、旋转、缩放；

进一步地，所述步骤2的A-YOLO5S目标检测模型包括：进行特征提取的主干网络，进行特征加强与融合的颈部网络，进行分类与回归的检测头网络；

所述主干网络由Focus层、第一CSP网络模块、第二CSP网络模块、第三CSP网络模块、第四CSP网络模块组成，接收640*640大小的图像输入后，第二CSP网络模块、第三CSP网络模块、第四CSP网络模块分别输出80*80*128、40*40*256、20*20*512大小的特征图；

所述颈部网络，对来自主干网络的三个不同大小、不同深度的特征图进行通道与空间维度上的特征融合与优化，将大小为20*20*512、40*40*256、80*80*128的特征图进行卷积，特征堆叠与上采样，然后又通过下采样，特征堆叠与卷积实现语义与空间信息的融合得到新的特征图，再将这三个特征图输入到ss模块实现语义的进一步融合，最终得到20*20*640、40*40*284、80*80*256大小的特征图，输入检测头网络中。

所述检测头网络，包括三个head模块，这三个模块分别接收颈部网络的20*20*640、40*40*284、80*80*256的特征图作为输入，最终输出目标的分类与回归结果。

进一步地，所述主干网络中，

所述Focus层包括：Focus网络模块与一个Conv模块，其中Conv模块由卷积层、BN层与SILU激活函数组成，输出一张320*320*32的特征图；

所述第一CSP网络模块包括：一个下采样模块、一个CspLayer模块与一个Multi-attention模块，输出一张160*160*64的特征图；

所述第二CSP网络模块包括：一个下采样模块、一个CspLayer模块与一个Multi-attention模块，输出一张80*80*128的特征图作为浅层特征feat0；

所述第三CSP网络模块包括：一个下采样模块、一个CspLayer模块与一个Multi-attention模块，输出一张40*40*256的特征图作为中间层特征feat1；

所述第四CSP网络模块包括：一个下采样模块、一个SPP模块与一个CspLayer模块，输出一张20*20*512的特征图作为深层特征feat2。

进一步地，所述CspLayer模块，具体包括：

将输入的特征图X₀按通道拆分为两个部分[X₀′,X₀″]，其中X₀″通过多个堆叠的残差block进行卷积计算，另一部分X₀′通过少量处理之后直接连接到最后，具体计算公式如下：

X_t＝W_n(...W₂(W₁(W_k(X₀″))))；

X_u＝W_u1([X_t,W_u2(X₀′)])；

其中，W_k(),W_t(),W_u1(),W_u2()均为卷积操作，其中t∈(1,n)，n表示堆叠的残差块个数，X_u为CspLayer模块的输出特征图。

进一步地，所述Multi-attention模块，具体包括：

一个Aspp模块、一个Senet注意力模块与两个Conv模块。首先将特征图X输入Aspp模块中，获得其多尺度特征信息，然后将输出的特征图X1添加通道注意力机制，使得网络能够关注更加重要的通道信息，再经过一个Conv之后与最初的特征图X执行元素级相加操作得到X2，最后再输入Conv得到最终的输出X3，具体计算公式如下：

X2＝Conv(Senet(Aspp(X)))+X；

X3＝Conv(X2)；

进一步地，所述Aspp模块，具体包括：

该模块通过不同的空洞rate构建不同感受野的卷积核，对输入的特征图进行空洞卷积，然后在通道维度上进行拼接，得到特征图的多尺度信息，具体计算公式如下：

Aspp(X)＝W_1,1([Pool(X),W_3,6(X),W_3,12(X),W_3,18(X),W_1,1(X)])；

其中Pool表示池化操作，W_i,j(X)表示对输入特征图进行卷积操作，i为卷积核大小，j为空洞rate的值。

进一步地，所述颈部网络中，ss模块具体包括：

对于进行了初步特征融合的3个不同尺寸的特征图P3，P4，P5，以浅层特征图P3为基准，将P4、P5调整为P3大小，然后再进行维度扩充与特征图拼接操作，这样就得到了一个4维的张量，接着进行3d卷积，经过3d池化之后又进行维度缩减，最终将新增特征通道拼接到P3，P4，P5上，实现语义信息的进一步丰富。

进一步地，所述检测头网络中，head模块仅包括单独的卷积层，输出的特征图通道数为n，计算公式如下：

n＝3×(5+num_classes)；

其中，num_classes为训练数据集的类别总数。

与现有技术相比，本发明具有如下优点：

(1)对FloW-Img数据集进行了随机数据增强，提升了模型的鲁棒性与泛化能力，降低了模型对图像的敏感度。

(2)主干网络中引入Mult-attention模块，在其中使用Aspp模块着眼于获取特征图的多尺度信息，通过Senet通道注意力模块关注重要的特征尺度，然后使用残差边提升模型效果，最终使得主干网络的特征提取能力大幅提高。

(3)在颈部网络中引入ss模块，通过对不同深浅的特征图进行3d卷积与特征拼接，提高小目标的检测精度，而又不降低大、中型目标的检测效果。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明。

图1为本发明基于YOLOv5s改进的河道漂浮物识别算法流程图；

图2为A-YOLO5S网络结构图。

图3为Mult-attention模块结构图。

图4为ss模块结构图。

图5为河道漂浮物的检测结果。

具体实施方式

下面结合附图，对本发明作详细说明：

如图1所示，本发明是一种基于YOLOv5s改进的河道漂浮物识别算法，包括以下步骤：

步骤1，获取河道漂浮物数据图像集FloW-Img，对图像做数据预处理，得到符合要求的图像数据：

本发明涉及的FloW-Img数据集来自城市的内陆河道场景，共有1个检测类别，含有已标注的2000张jpg图片和检测对象类别的xml文本，可直接用于目标检测的训练数据集。对于训练数据集，随机采用翻转、平移、旋转、缩放的数据增强方式，并统一调整图像为640*640大小，提升模型的泛化能力。

步骤2，以YOLOv5s深度学习模型为基础算法的网络结构进行优化，提出了河道多尺度目标注意力网络架构思想，针对漂浮物大中小目标特点，将多尺度注意力机制融合入YOLOv5s主干网络中，同时又在颈部网络引入3d卷积丰富小目标的语义信息，基于上述改进构建了新模型，记为A-YOLO5S。

Yolov5作为单阶段目标检测的优秀算法，在保障检测速度的同时，还能有较高的检测精度，其分为四个版本：YOLOv5s，YOLOv5m，YOLOv5l，YOLOv5x，其中YOLOv5s是最轻量级的版本，参数量最小，但速度也最快，比较适合工业部署。本发明针对现有的YOLOv5s网络结构进行优化，构建改进的YOLOv5s算法，提高网络的特征提取能力与小目标的检测效果。

如图2所示，本发明的改进后的YOLOv5s具体网络结构包括用于特征提取的主干网络、进行特征加强与融合的颈部网络、进行分类与回归的检测头网络。

具体地，主干网络由Focus层、第一CSP网络模块、第二CSP网络模块、第三CSP网络模块、第四CSP网络模块组成；Focus层包括：Focus网络模块与一个Conv模块，其中Conv模块由卷积层、BN层与SiLU激活函数组成，输出一张320*320*32的特征图；第一CSP网络模块包括一个下采样模块、一个CspLayer模块与一个Mult-attention模块，输出一张160*160*64的特征图；第二CSP网络模块包括一个下采样模块、一个CspLayer模块与一个Mult-attention模块，输出一张80*80*128的特征图作为浅层特征feat0；第三CSP网络模块包括一个下采样模块、一个CspLayer模块与一个Mult-attention模块，输出一张40*40*256的特征图作为中间层特征feat1；第四CSP网络模块包括：一个下采样模块、一个SPP模块与一个CspLayer模块，输出一张20*20*512的特征图作为深层特征feat2；

与现有算法不同的是，本发明在第一、第二、第三CSP网络模块中引入了Mult-attention模块。如图3所示，Mult-attention模块首先将特征图X输入Aspp模块中，通过不同的空洞rate构建不同感受野的卷积核，对输入的特征图进行空洞卷积，以获得其多尺度特征信息，同时，为了最大可能得降低模型复杂度，Aspp模块的输入与输出特征图通道数一致，接着，将输出的特征图X1添加轻量化的通道注意力机制Senet，使得网络能够关注更加重要的通道信息，再经过一个Conv之后与最初的特征图X执行元素级相加操作得到X2，最后再进行Conv得到最终的输出X3，具体计算公式如下：

X2＝Conv(Senet(Aspp(X)))+X；

X3＝Conv(X2)；

Aspp(X)＝W_1,1([Pool(X),W_3,6(X),W_3,12(X),W_3,18(X),W_1,1(X)])；

下采样模块由单个的Conv模块组成，包含卷积层、BN层与SiLU激活函数，卷积层的卷积核大小为3，步长为2，实现了特征图的下采样，SiLU相比于传统的激活函数ReLU而言，增加了平滑和非单调的特点，计算公式如下：

CspLayer模块是一种跨阶段的局部网络结构，该模块将梯度的变化从头到尾集成到特征图中，并采用跨通道池来压缩特征映射，既减轻了计算量与内存成本又保证了推理的准确率。在目标检测任务中，CspLayer模块作为主干网络的组成部分，带来了较大的提升。CspLayer的具体工作原理是将输入的特征图X₀按通道拆分为两个部分[X₀′,X₀″]，其中X₀″通过多个堆叠的残差block进行卷积计算，另一部分X₀′通过少量处理之后直接连接到最后，具体计算公式如下：

X_t＝W_n(...W₂(W₁(W_k(X₀″))))；

X_u＝W_u1([X_t,W_u2(X₀′)])；

其中，W_k,W_t,W_u1,W_u2均为卷积操作，n表示堆叠的残差块个数，X_u为CspLayer模块的输出特征图。

具体地，本发明的颈部网络，接收浅层特征feat0，中间层特征feat1，深层特征feat2作为输入，feat2、feat1、feat0的特征图大小分别为20*20*512、40*40*256、80*80*128，将其依次进行卷积、上采样与特征堆叠，然后又通过下采样，特征堆叠与卷积构建特征金字塔，实现语义与空间信息的融合，得到新的特征图，再将这三个新的特征图输入到ss模块实现语义的进一步融合，最终得到20*20*640、40*40*284、80*80*256大小的特征图，输入检测头网络中完成检测任务。

如图2所示，本发明的特征金字塔搭建过程如下：

深层特征feat2通过卷积进行特征提取，得到特征图P5，P5的通道数减少至256，然后P5又通过最近邻差值进行上采样，将特征图扩大两倍至40*40得到特征图P5_up，P5_up实现与中层特征feat1在通道上的拼接，再通过CspLayer模块、卷积后得到特征图P4，P4经过上采样模块，将通道数减少至256得到特征图P4_up，P4_up大小扩大两倍至80*80，实现与浅层特征feat0在通道上的拼接，feat0的特征图得到更新，丰富了浅层特征图上欠缺的语义信息,经过CspLayer模块之后得到特征图P3。

接着，P3经过下采样得到P3_down特征图，P3_down大小为40*40，与P4在通道上进行拼接，P4特征图得到更新之后，又经过CspLayer模块实现P4特征图空间信息的丰富。同样，P4经过下采样得到P4_down，P4_down大小为20*20，与P5在通道上拼接，经过CspLayer模块实现P5特征图空间信息的丰富。

至此，特征金字塔搭建完毕，其中CspLayer模块与前文一致，不再赘述。

与现有算法不同的是，本发明在走完特征金字塔模块之后，并未直接将P3，P4，P5输入到检测头网络中，考虑到特征金字塔跨尺度的特征融合，会存在不同层之间梯度计算的不一致性，使得通道中的有效信息衰减，为了提高图像中小目标的检测效果而又不降低其他目标的检测精度，引入ss模块。

如图3所示，ss模块以P3、P4、P5特征图作为输入，先将P4、P5统一上采样为80*80大小，然后对这三类特征图扩充一个维度，在新扩充的维度上实现特征图拼接，得到一个四维的特征图张量Px(3,c,w,h)。其中3表示由三个特征图拼接而来，c、w、h表示特征图的通道数、宽、高。将Px输入3d卷积与3dBN中，经过ReLU激活函数与3d平均值池化之后，Px又进行维度缩减，最终将新增特征通道拼接到P3，P4，P5上，得到特征图P3s、P4s、P5s,实现语义信息的进一步丰富。

具体地，本发明的检测头网络,接收P3s、P4s、P5s作为输入，分别传入head模块实现目标检测任务，head模块仅包括单独的卷积层，输出的特征图通道数为n，计算公式如下：

n＝3×(5+num_classes)；

其中，num_classes为训练数据集的类别总数。

步骤3，输入已经标注的漂浮物图像数据，训练A-YOLO5S模型，得到最优模型参数。

本发明将步骤2搭建好的A-YOLO5S网络用Pytorch实现，将数据集输入网络中进行模型训练，利用GPU加快模型训练速度。模型迭代次数为300次，期间利用随机梯度下降算法进行权值更新，每次迭代完计算模型在测试集上的map值，并不断更新map最高的权重文件。迭代结束后，保存训练过程中map精度最高的模型参数。

为了验证本发明的有效性，将YOLO v4tiny、YOLO v3、Faster RCNN、原有的YOLOv5s和本发明提出的改进后的YOLOv5s算法，在Flow-Img数据集上进行map的对比，实验结果如下表所示：

算法模型	Faster RCNN	YOLO v3	YOLO v4tiny	YOLOv5s	A-YOLO5S
						map/％	53.59	57.14	58.09	76.39	80.59
fps/s	33.06	55.04	59.91	50.03	46.75

从对比结果可知，本发明提出的改进后的YOLOv5s算法精度保持最高，且fps相比原有的yolv5s仅有小幅的下降，证明了本发明提供方案的有效性。

如图5所示，改进后的yolo5s算法能够实现河道上的河道漂浮物检测。

Claims

1.一种基于YOLOv5s改进的河道漂浮物识别算法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于YOLOv5s改进的河道漂浮物识别算法，其特征在于：所述图像数据预处理方法包括：进行图像数据分类与标注并统一将图像调整为640*640大小、将数据集划分为训练集与测试集，其中80％作为训练集，20％作为测试集、训练集进行数据增强，增强方式包括：翻转、平移、旋转、缩放。

3.根据权利要求1所述的一种基于YOLOv5s改进的河道漂浮物识别算法，其特征在于，所述A-YOLO5S目标检测模型包括：进行特征提取的主干网络，进行特征加强与融合的颈部网络，进行分类与回归的检测头网络；

所述主干网络由Focus层、第一CSP网络模块、第二CSP网络模块、第三CSP网络模块、第四CSP网络模块组成，接受640*640大小的图像输入后，第二CSP网络模块、第三CSP网络模块、第四CSP网络模块分别输出80*80*128、40*40*256、20*20*512大小的特征图；

所述颈部网络，对来自主干网络的三个不同大小、不同深度的特征图进行通道与空间维度上的特征融合与优化，将大小为20*20*512、40*40*256、80*80*128的特征图进行卷积，特征堆叠与上采样，然后又通过下采样、特征堆叠与卷积实现语义与空间信息的融合，得到新的特征图，再将这三个特征图P5、P4、P3输入到ss模块实现语义的进一步融合，最终得到20*20*640、40*40*284、80*80*256大小的特征图，输入检测头网络中。

4.根据权利要求3所述的一种基于YOLOv5s改进的河道漂浮物识别算法，其特征在于，所述主干网络中，

所述第一CSP网络模块包括：一个下采样模块、一个CspLayer模块与一个Mult-attention模块，输出一张160*160*64的特征图；

所述第二CSP网络模块包括：一个下采样模块、一个CspLayer模块与一个Mult-attention模块，输出一张80*80*128的特征图作为浅层特征feat0；

所述第三CSP网络模块包括：一个下采样模块、一个CspLayer模块与一个Mult-attention模块，输出一张40*40*256的特征图作为中间层特征feat1；

5.根据权利要求4所述的一种基于YOLOv5s改进的河道漂浮物识别算法，其特征在于：所述CspLayer模块，具体包括：

X_t＝W_n(...W₂(W₁(W_k(X₀″))))；

X_u＝W_u1([X_t,W_u2(X₀′)])；

6.根据权利要求4所述的一种基于YOLOv5s改进的河道漂浮物识别算法，其特征在于：所述Mult-attention模块，具体包括：

一个Aspp模块、一个Senet注意力模块与两个Conv模块。首先将特征图X输入Aspp模块中，获得其多尺度特征信息，然后将输出的特征图X1添加通道注意力机制，使得网络能够关注更加重要的通道信息，再经过一个Conv之后与最初的特征图X执行元素级相加操作得到X2，最后再经过Conv得到最终的输出X3，具体计算公式如下：

X2＝Conv(Senet(Aspp(X)))+X；

X3＝Conv(X2)。

7.根据权利要求6所述的一种基于YOLOv5s改进的河道漂浮物识别算法，其特征在于：所述Aspp模块，具体包括：

Aspp(X)＝W_1,1([Pool(X),W_3,6(X),W_3,12(X),W_3,18(X),W_1,1(X)])；

8.根据权利要求3所述的一种基于YOLOv5s改进的河道漂浮物识别算法，其特征在于：所述颈部网络中，ss模块具体包括：

对于进行了初步特征融合的3个不同尺寸的特征图P3，P4，P5，以浅层特征图P3为基准，将P4、P5调整为P3大小，然后再进行维度扩充与特征图拼接操作，这样就得到了一个4维的张量，接着进行3d卷积与3d池化，经过激活函数之后又进行维度缩减，最终将新增特征通道拼接到P3，P4，P5上，实现语义信息的进一步丰富。

9.根据权利要求3所述的一种基于YOLOv5s改进的河道漂浮物识别算法，其特征在于：所述检测头网络中，head模块仅包括单独的卷积层，输出的特征图通道数为n，计算公式如下：

n＝3×(5+num_classes)；

其中，num_classes为训练数据集的类别总数。