CN115115934A

CN115115934A - 一种基于改进型YOLOv5的无人机航拍图像河流漂浮物检测方法

Info

Publication number: CN115115934A
Application number: CN202210584459.5A
Authority: CN
Inventors: 金光; 黄俊凯; 江先亮
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-09-27

Abstract

本发明涉及一种基于改进型YOLOv5的无人机航拍图像河流漂浮物检测方法，该方法利用无人机对河流进行拍摄，将获得的图像进行整理，构建了一个河流漂浮物数据集，根据无人机视角下河流漂浮物的特点构建改进型YOLOv5s网络，改进型YOLOv5s网络在特征融合阶段引入改进的CBAM来抑制图像背景复杂的问题，改进的CBAM借鉴了ECANet的思想，将自适应维度的一维卷积代替通道注意力模块中的全连接层，在不显著增加模型复杂度的同时提升了性能；在检测阶段添加微尺度检测层，提高小目标的检测能力；在训练阶段，为置信度损失添加了一个权重因子提高正样本的损失权重，以平衡训练过程中正负样本的比例不均衡问题。

Description

一种基于改进型YOLOv5的无人机航拍图像河流漂浮物检测方法

技术领域

本发明涉及基于深度学习的城市环境治理技术领域，尤其是涉及一种基于改进型YOLOv5的无人机航拍图像河流漂浮物检测方法。

背景技术

河流是地球生命的重要组成部分，是人类生存和发展的基础。作为世界水环境中重要的构成部分，河流在供给水源、美化景观以及维持生态等方面扮演着不可或缺的角色，与当前社会的发展休戚相关。但是随着经济发展和工业化进程的加快，河流污染事件频发，其中河流漂浮物是备受关注的一个方面，包括人为丢弃的生活垃圾、死亡动植物等。如果不及时清理，不仅会降低河流的美观性，而且会对水生态环境造成一定影响。因此，准确检测并及时清理河流漂浮物对水环境的保护至关重要。

目前对河流漂浮物的检测主要通过人工巡查与固定摄像头监控。传统的人工巡查需要工人驾驶船舶行驶在河流上通过眼睛检测河流漂浮物。但是，通常河流点多面广，仅仅依靠人工巡查的方式存在一些弊端：人工劳动强度和用工成本较高；效率低下，难以对河流实际情况做出及时对反馈，一定程度上造成了河流监管工作的滞后性。固定摄像头监控，通常将摄像头安装在河流周边，将获取到的图像进行人工判别或者是通过智能图像处理的方式进行检测，其相对于人工巡查，摄像头监控虽然提高了监管的效率，但是检测的范围有限，大量部署成本很高。因此，急需一种高效的，现代化的方式来对河流漂浮物检测。随着无人机技术的不断发展，无人机已广泛应用于农业生产、森林保护、电力设备检查、城市测量等多个领域。相较于目前的方法，无人机具有成本低，灵活方便，巡查范围广等优势。因此，无人机可以轻松、快速地获得某一条河流的完整信息，同时研究人员可以根据自己的需要和河流环境情况自由制定航线，提高河流监管的效率。

近年来，许多先进的基于深度学习的目标检测算法被提出，可将其大致分为两阶段方法和单阶段方法，如两阶段的Faster R-CNN、Mask R-CNN、Cascade R-CNN等，单阶段的YOLOv3、YOLOv4、YOLOv5、SSD、RetinaNet等；此类技术在许多应用领域取得了优异的效果，因此将日益成熟的基于深度学习的目标检测技术与无人机摄影技术相结合，对河流漂浮物影像进行智能检测具有极高的可行性和技术优势。

然而将基于深度学习的目标检测技术应用于无人机视角下的河流漂浮物检测存在一定的困难。首先，目前还没有公开的无人机视角下的河流漂浮物数据集，数据是深度学习的基础，因此需要建立一个相关的数据集；其次，无人机图像中的河流漂浮物很小，而且很少，图像经过多次下采样会导致图中的小目标特征消失，出现漏检、误检的情况，目标很少会导致在训练过程中，正样本数远小于负样本数，这使得网络训练变得困难；最后，河流背景复杂，户外河道水面受到风力作用，存在大量的波纹，又由于河岸边物体的遮挡和运动，存在光影变化，这些干扰会影响检测器的检测性能，导致精度下降。

发明内容

本发明所要解决的技术问题是提供一种能够避免漏检、误检，并且检测精度高、检测效率高的基于改进型YOLOv5的无人机航拍图像河流漂浮物检测方法。

本发明所采用的技术方案是，一种基于改进型YOLOv5的无人机航拍图像河流漂浮物检测方法，该方法包括下列步骤：

S1、利用无人机采集河道漂浮物图像；

S2、对采集到的河道漂浮物图像进行处理，由经过处理的河道漂浮物图像构建河道漂浮物数据集，将河道漂浮物数据集中的一部分作为训练集，另一部分作为测试集；

S3、构建改进型YOLOv5网络；所述改进型YOLOv5网络包括用于特征提取的Backbone，用于特征融合的Neck以及用于目标检测的Head；所述Neck包括由FPN和PAN相结合的特征金字塔结构模块以及注意力机制模块E-CBAM；设定输入特征图为F，F∈R^C*H*W，其分辨率为n×n，Backbone用于对输入特征图F进行特征提取，并生成四张经过特征提取的特征图；所述四张经过特征提取的特征图的尺寸分别为

以及

特征金字塔结构模块用于对四张经过特征提取的特征图进行特征融合，得到四张经过特征融合的融合特征图；每个注意力机制模块E-CBAM用于对对应的经过特征融合的融合特征图引入注意力机制，即：由注意力机制模块E-CBAM依次生成一维的通道注意力图M_c和二维的空间注意力图M_s，其中，M_c∈R^C*1*1，M_s∈R^1*H*W，通道注意力图M_c用于对经过特征融合的融合特征图进行校正，得到第一校正特征图F'，空间注意力图M_s用于对第一校正特征图F'进行校正，得到第二校正特征图F”；所述Head用于对得到的第二校正特征图F”进行检测，获得最终检测结果；

S4、使用步骤S2中得到的训练集对步骤S3中构建的改进型YOLOv5网络进行训练，得到训练后的改进型YOLOv5网络；

S5、使用步骤S2中得到的测试集对步骤S4中得到的训练后的改进型YOLOv5网络进行测试，并调整模型参数，得到优化后的改进型YOLOv5网络；

S6、采用优化后的改进型YOLOv5网络对无人机航拍图像中的河流漂浮物进行检测。

与现有技术相比，本发明的有益效果是：采用上述一种基于改进型YOLOv5的无人机航拍图像河流漂浮物检测方法，在构建的改进型YOLOv5网络中增加了一个微尺度检测层，提高了小目标的检测能力，从而避免了漏检、误检的情况，其次在特征融合阶段引入了注意力机制模块E-CBAM(即改进的CBAM)来抑制无用和复杂背景信息的影响，提高了检测精度和检测效率。

作为优选，在步骤S1中，利用无人机采集河道漂浮物图像的具体过程为：将无人机的飞行高度控制在距离水面的7～15米，并设置相机的拍摄角度垂直于水面，然后利用无人机采集河道漂浮物图像。

作为优选，在步骤S2中，对采集到的河道漂浮物图像进行处理的具体过程为：对采集到的每张河道漂浮物图像通过窗口大小为1600*1600，步长为800的滑动窗口进行切割，得到若干张切割图像，将不具有河道漂浮物的切割图像剔除，剩下具有河道漂浮物的切割图像，将具有河道漂浮物的切割图像通过LabelImg软件进行河道漂浮物标注。

作为优选，在步骤S3中，Backbone用于对输入特征图F进行特征提取，并生成四张经过特征提取的特征图的具体过程包括下列步骤：

S3.01、将输入特征图F输入到Backbone中的Focus模块，Focus模块利用步距为1的1×1卷积将输入特征图F以每隔一个像素进行切片的方式进行切片，切成若干张小尺寸的特征图，然后将若干张小尺寸的特征图进行拼接，拼接后得到拼接特征图；

S3.02、将步骤S3.01得到的拼接特征图先通过3×3卷积，然后再通过一个BottleneckCSP模块进行特征提取，输出经过特征提取的特征图，其尺寸为

S3.03、将步骤S3.02得到的经过特征提取的特征图通过3×3卷积，然后再依次通过三个BottleneckCSP模块进行特征提取，输出经过特征提取的特征图，其尺寸为

S3.04、将步骤S3.03得到的经过特征提取的特征图通过3×3卷积，然后再依次通过三个BottleneckCSP模块进行特征提取，输出经过特征提取的特征图，其尺寸为

S3.05、将步骤S3.04得到的经过特征提取的特征图通过3×3卷积，然后再通过SPP模块来进行信息融合，最后通过一个BottleneckCSP模块进行特征提取，输出经过特征提取的特征图，其尺寸为

作为优选，在步骤S3中，BottleneckCSP模块进行特征提取的具体过程为：所述的BottleneckCSP模块通过两条分支来进行特征提取，首先，在第一条分支中，将步骤S3.01得到的拼接特征图经过1×1的卷积，然后通过残差结构，再进行1×1的卷积，由第一条分支输出结果；此时第一条分支输出的结果的通道数为输入第一条分支时的拼接特征图的一半；然后，在第二条分支中，将步骤S3.01得到的拼接特征图通过1×1的卷积进行降维，降维后的结果与第一条分支输出的结果拼接在一起，然后再通过一个卷积层形成输出特征图；BottleneckCSP模块借鉴了CSPNet中的Cross Stage Partial结构，加强了特征学习能力、减少了网络模型的计算量并优化了网络传播中的重复梯度信息。

作为优选，在步骤S3中，特征金字塔结构模块用于对四张经过特征提取的特征图进行特征融合，得到四张经过特征融合的融合特征图的具体过程包括下列步骤：

S3.11、将步骤S3.05中得到的尺寸为

的特征图经过1×1卷积形成新的尺寸为

的特征图；

S3.12、将步骤S3.05中得到的尺寸为

的特征图经过上采样变为尺寸为

的特征图，然后与步骤S3.04中由BottleneckCSP模块输出的

的特征图在通道层面进行拼接，形成新的尺寸为

的特征图；

S3.13、将步骤S3.12中形成的新的尺寸为

的特征图经过上采样变为尺寸为

的特征图，然后与步骤S3.03中由BottleneckCSP模块输出的

的特征图在通道层面进行拼接，形成新的尺寸为

的特征图；

S3.14、将步骤S3.13中形成的新的尺寸为

的特征图经过上采样变为尺寸为

的特征图，然后与步骤S3.02中由BottleneckCSP模块输出的

的特征图在通道层面进行拼接，形成新的尺寸为

的特征图；

S3.15、将步骤S3.14中形成的新的尺寸为

的特征图经过BottleneckCSP模块形成尺寸为

的融合特征图；

S3.16、将步骤S3.15中形成的尺寸为

的融合特征图经过2倍下采样后与步骤S3.13中形成的新的尺寸为

的特征图在通道层面进行特征融合，形成尺寸为

的融合特征图；

S3.17、将步骤S3.16中形成的尺寸为

的特征图在通道层面进行特征融合，形成尺寸为

的融合特征图；

S3.18、将步骤S3.17中形成的尺寸为

的融合特征图经过2倍下采样后与步骤S3.12中形成的新的尺寸为

的特征图在通道层面进行特征融合，形成尺寸为

的融合特征图。

作为优选，在步骤S3中，注意力机制模块E-CBAM生成一维的通道注意力图M_c的具体过程为：首先利用全局最大值池化和均值池化来映射融合特征图的特征信息，形成两个不同的通道描述信息：

和

然后，采用自适应维度为k的一维卷积来聚合k个邻域通道内的特征信息，最后将两个不同的通道的元素相加，相加后再通过sigmoid函数激活，生成通道注意力图M_c，M_c∈R^C*1*1；对应的表达式为：

其中，σ代表sigmoid函数，C1D_k代表一维卷积，MaxPool表示全局最大池化，AvgPool()表示全局平均池化，

表示

表示在通道层面经过全局最大池化后得到的特征图，

表示在通道层面经过全局平均池化后得到的特征图，代表卷积核的大小，

|t|_odd表示最接近t的奇数，γ和b为超参数，在本文中设置为2和1。

作为优选，在步骤S3中，注意力机制模块E-CBAM生成二维的空间注意力图M_s具体过程为：首先对由通道注意力图M_c进行校正得到的第一校正特征图F'沿着通道维度分别进行全局平均池化和全局最大池化的操作，生成二维的特征图：

和

然后对

和

在通道维度上进行拼接，最后采用感受野较大的7*7卷积核进行卷积操作并通过sigmoid函数激活，生成空间注意力图M_s∈R^1*H*W；对应的表达式为：

M_s(F)＝σ(f^7*7([AvgPool(F')；MaxPool(F')]))；其中，σ代表sigmoid函数，f^7*7代表卷积核为7的卷积操作。

作为优选，在步骤S4中，对步骤S3中构建的改进型YOLOv5网络进行训练所用到的损失函数L由边界框回归损失L_ciou、类别损失L_class和置信度损失L_conf三部分构成，其表达式为：L＝L_ciou+L_class+L_conf；其中，边界框回归损失L_ciou使用了CIOU，

其中，α负责平衡正负样本，y'是预测输出值，y是真实的样本标签。

附图说明

图1为本发明一种基于改进型YOLOv5的无人机航拍图像河流漂浮物检测方法的框架图；

图2为本发明中河道漂浮物数据集中的图像的示意图；

图3为本发明中改进型YOLOv5网络的网络结构图；

图4为本发明中属于小目标范围内的无人机视角下的河流漂浮物的占比图；

图5为采用现有技术中的YOLOv5s进行检测和采用本发明中的改进型YOLOv5s进行检测的结果对比图；

图6为本发明中BottleneckCSP模块的结构示意图。

具体实施方式

以下参照附图并结合具体实施方式来进一步描述发明，以令本领域技术人员参照说明书文字能够据以实施，本发明保护范围并不受限于该具体实施方式。

本发明的实施例利用无人机对河流进行拍摄，将获得的图像进行整理，构建了一个河流漂浮物数据集，数据集中包含5类常见的河流漂浮物：塑料瓶、塑料袋、塑料杯、易拉罐、纸盒。并且根据无人机视角下河流漂浮物的特点，提出了一种基于的改进型YOLOv5s的算法。YOLOv5作为一款最先进的探测器，具有收敛速度快、精度高、定制化能力强等优点，YOLOv5共包含4个目标检测版本:YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x，它们分别拥有不同的网络深度、网络体积、参数量以及特征图宽度。本文在YOLOv5s的基础上做了以下工作：a、在特征融合阶段引入改进的CBAM来抑制图像背景复杂的问题，改进的CBAM借鉴了ECANet的思想，将自适应维度的一维卷积代替通道注意力模块中的全连接层，在不显著增加模型复杂度的同时提升了性能；b、在检测阶段添加微尺度检测层，提高小目标的检测能力；c、在训练阶段，为置信度损失添加了一个权重因子提高正样本的损失权重，以平衡训练过程中正负样本的比例不均衡问题。

本发明的实施例提供一种基于改进型YOLOv5的无人机航拍图像河流漂浮物检测方法，无人机视角下河流漂浮物检测的框架如图1所示，其该方法包括下列步骤：

S1、利用无人机采集河道漂浮物图像；

S2、对采集到的河道漂浮物图像进行处理，由经过处理的河道漂浮物图像构建河道漂浮物数据集，将河道漂浮物数据集中的80％作为训练集，20％作为测试集；

以及

采用上述一种基于改进型YOLOv5的无人机航拍图像河流漂浮物检测方法，在构建的改进型YOLOv5网络中增加了一个微尺度检测层，提高了小目标的检测能力，从而避免了漏检、误检的情况，其次在特征融合阶段引入了注意力机制模块E-CBAM(即改进的CBAM)来抑制无用和复杂背景信息的影响，提高了检测精度和检测效率。

在步骤S1中，利用无人机采集河道漂浮物图像的具体过程为：将无人机的飞行高度控制在距离水面的7～15米，并设置相机的拍摄角度垂直于水面，然后利用无人机采集河道漂浮物图像。

在步骤S2中，对采集到的河道漂浮物图像进行处理的具体过程为：对采集到的每张河道漂浮物图像通过窗口大小为1600*1600，步长为800的滑动窗口进行切割，得到若干张切割图像，将不具有河道漂浮物的切割图像剔除，剩下具有河道漂浮物的切割图像，将具有河道漂浮物的切割图像通过LabelImg软件进行河道漂浮物标注。

在步骤S3中，Backbone用于对输入特征图F进行特征提取，并生成四张经过特征提取的特征图的具体过程包括下列步骤：

S3.01、将输入特征图F输入到Backbone中的Focus模块，Focus模块利用步距为1的1×1卷积将输入特征图F以每隔一个像素进行切片的方式进行切片，切成若干张小尺寸的特征图，然后将若干张小尺寸的特征图进行拼接，拼接后得到拼接特征图；这样使得特征信息不丢失的情况下提高了模型计算速度；

在步骤S3中，BottleneckCSP模块进行特征提取的具体过程为：所述的BottleneckCSP模块通过两条分支来进行特征提取，首先，在第一条分支中，将步骤S3.01得到的拼接特征图经过1×1的卷积，然后通过残差结构，再进行1×1的卷积，由第一条分支输出结果；此时第一条分支输出的结果的通道数为输入第一条分支时的拼接特征图的一半；然后，在第二条分支中，将步骤S3.01得到的拼接特征图通过1×1的卷积进行降维，降维后的结果与第一条分支输出的结果拼接在一起，然后再通过一个卷积层形成输出特征图；BottleneckCSP模块借鉴了CSPNet中的Cross Stage Partial结构，加强了特征学习能力、减少了网络模型的计算量并优化了网络传播中的重复梯度信息。

在步骤S3中，特征金字塔结构模块用于对四张经过特征提取的特征图进行特征融合，得到四张经过特征融合的融合特征图的具体过程包括下列步骤：

S3.11、将步骤S3.05中得到的尺寸为

的特征图经过1×1卷积形成新的尺寸为

的特征图；

S3.12、将步骤S3.05中得到的尺寸为

的特征图经过上采样变为尺寸为

的特征图，然后与步骤S3.04中由BottleneckCSP模块输出的

的特征图在通道层面进行拼接，形成新的尺寸为

的特征图；

S3.13、将步骤S3.12中形成的新的尺寸为

的特征图经过上采样变为尺寸为

的特征图，然后与步骤S3.03中由BottleneckCSP模块输出的

的特征图在通道层面进行拼接，形成新的尺寸为

的特征图；

S3.14、将步骤S3.13中形成的新的尺寸为

的特征图经过上采样变为尺寸为

的特征图，然后与步骤S3.02中由BottleneckCSP模块输出的

的特征图在通道层面进行拼接，形成新的尺寸为

的特征图；

S3.15、将步骤S3.14中形成的新的尺寸为

的特征图经过BottleneckCSP模块形成尺寸为

的融合特征图；

S3.16、将步骤S3.15中形成的尺寸为

的特征图在通道层面进行特征融合，形成尺寸为

的融合特征图；

S3.17、将步骤S3.16中形成的尺寸为

的特征图在通道层面进行特征融合，形成尺寸为

的融合特征图；

S3.18、将步骤S3.17中形成的尺寸为

的特征图在通道层面进行特征融合，形成尺寸为

的融合特征图。

在步骤S3中，注意力机制模块E-CBAM生成一维的通道注意力图M_c的具体过程为：首先利用全局最大值池化和均值池化来映射融合特征图的特征信息，形成两个不同的通道描述信息：

和

其中，σ代表sigmoid函数，C1D_k代表一维卷积，MaxPool()表示什么？AvgPool()表示什么？

表示什么？

表示什么？代表卷积核的大小，

在步骤S3中，注意力机制模块E-CBAM生成二维的空间注意力图M_s具体过程为：首先对由通道注意力图M_c进行校正得到的第一校正特征图F'沿着通道维度分别进行全局平均池化和全局最大池化的操作，生成二维的特征图：

和

然后对

和

在通道维度上进行拼接，最后采用感受野较大的7*7卷积核进行卷积操作并通过sigmoid函数激活，生成空间注意力图M_s∈R^1*H*W；对应的表达式为：M_s(F)＝σ(f^7*7([AvgPool(F')；MaxPool(F')]))；其中，σ代表sigmoid函数，f^7*7代表卷积核为7的卷积操作，MaxPool表示全局最大池化，AvgPool()表示全局平均池化，

表示

表示在通道层面经过全局最大池化后得到的特征图，

表示在通道层面经过全局平均池化后得到的特征图。

在步骤S4中，对步骤S3中构建的改进型YOLOv5网络进行训练所用到的损失函数L由边界框回归损失L_ciou、类别损失L_class和置信度损失L_conf三部分构成，其表达式为：L＝L_ciou+L_class+L_conf；其中，边界框回归损失L_ciou使用了CIOU，类别损失L_class和置信度损失L_conf的计算使用了BCEWithLogitsLoss。在本研究中，每张图片中目标很小且个数不超过5个，目标区域只占整张图像的很小部分，绝大数预测框并不包含目标。这会导致正负样本不平衡问题，少量正样本提供的信息不能在损失函数中发挥正常作用。因此本文在计算置信度损失时，给BCEWithLogitsLoss加上一个权重因子以提高正样本的训练损失，改善训练过程中正负样本不平衡的问题。其计算公式如下：

其中，α负责平衡正负样本，y'是预测输出值，y是真实的样本标签。在本文中α为0.75。相比于BCEWithLogitsLoss，增加权重之后的BCEWithLogitsLoss在面对正负样本不均衡的问题时，提高了对正样本的权重，使网络的训练更有效果，提升了对目标检测的能力。

在上述实施例中，针对构建数据集，由于目前没有公开的航拍角度河流漂浮物数据集，因此本次研究所用数据均来源于大疆mini2无人机对浙江省宁波市河流的摄影。在无人机拍摄的过程中，相机拍摄的角度垂直于水面，飞行的高度为7-15米，相机的分辨率为4000*3000。本次研究共采集了840张河流漂浮物图像，其中包括了5类常见的漂浮物：塑料瓶、塑料袋、塑料杯、易拉罐和纸盒。考虑到网络对高分辨率图像难以训练，我们利用滑动窗口的方式对原图进行切割，滑动窗口的大小为1600*1600，步长为800。切割之后，剔除没有目标(漂浮物)的图像，共得到1785个图像；对于这些图像，使用LabelImg对其按照PascalVOC格式进行标注，标注文件以XML格式存储。具体注释统计信息如表1所示。最后，数据集以8：2的比例划分为训练集与测试集，图2展示了部分切割后的图像。

表1数据集信息

漂浮物种类	注释
		塑料瓶	416
塑料袋	481
		塑料杯	340
易拉罐	366
		纸盒	400

在上述实施例中，针对改进型YOLOv5s，其网络结构如图3所示；该算法的网络结构由3个部分组成：用于特征提取的Backbone、用于特征融合的Neck和用于目标检测的Head。在Backbone中，利用BottleneckCSP模块对Focus模块处理后的浅层和深层特征图进行特征提取；Focus模块将原始特征图切片成小尺寸的特征图，在信息不丢失的情况下提高了模型计算速度；BottleneckCSP模块借鉴了CSPNet中的Cross Stage Partial结构，减少了网络模型的计算量并优化了网络传播中的重复梯度信息；此外，为了更有效的挖掘上下文的信息，在特征提取阶段上添加了SPP结构。在Neck中，采用了FPN和PAN相结合的特征金字塔结构，FPN结构将高层语义特征从顶部传递到底部；同时，PAN结构底层空间特征从底部传递到顶部；这两种结构共同增强了Neck的特征融合能力。考虑到特征融合不可避免的会聚集冗余信息，本文采用ECANet的思想对CBAM进行改进，提出了注意力机制模块E-CBAM，并将其加入特征融合的末尾，提高关键区域的特征提取，减少对无用背景信息的关注。最后，在Head中，网络检测四个尺度的输出特征图，并输出带有类别概率、置信度得分和边界框信息的向量，然后根据NMS进行后处理对检测结果进行筛选，获得最终检测结果。在本发明中，增加一个检测层的目的是为了改善对小目标检测出现漏检与误检的问题。在训练过程中计算损失函数时，为置信度损失添加一个权重因子α，提高正样本的损失权重，用于改善正负样本不均衡问题。

在上述实施例中，输入特征图F的尺寸为640*640，采用原始的YOLOv5s网络会输出80*80、40*40、20*20三种尺寸的特征图，用于检测小目标、中等目标和大目标。一般来说，低层次的特征图具有更高的分辨率，包含更多的位置和细节信息，但语义信息较少。高层次特征图具有丰富的语义信息，但分辨率较低，位置信息不准确。对于小目标检测任务，低层位置信息尤为重要。如图4所示，经统计在本数据集中，绝大多数无人机视角下的河流漂浮物宽和高均小于原图的1/10，属于小目标范围。因此，为提高小目标的检测精度，本文在head中增加了检测层，用于检测较小尺寸的对象。如图3所示，在neck中获得一个80*80的特征图后，继续对此特征图进行卷积和上采样，然后将其与backbone中提取的160*160大小相同的特征图拼接起来，获得用于小目标检测的较大特征图。最终得到的检测层尺度为160*160、80*80、40*40、20*20。

考虑到无人机视角下的河流漂浮物目标尺寸小且河流背景复杂，原始的YOLOv5s很难提取和保持特征，而注意力机制能够对感兴趣区域的特征数据进行动态权重系数加权，提高网络对重点区域的关注，抑制和忽略无关特征。受此启发，本发明在Neck中引入了注意力机制。CBAM是一种简单有效的注意力模块，它采用通道注意模块和空间注意模块组成的串行结构，将通道特征和空间特征依次结合。CBAM在计算生成通道注意力模块时，会使用两个全连接层捕获非线性的跨通道交互作用，其中涉及降维以避免过高的模型复杂度。而ECANet证明降维会给通道注意力预测带来副作用，而且，捕获所有通道之间的依赖关系既低效又没有必要。因此，本文采用了ECANet的思想对CBAM的通道注意力模块进行改进。将自适应维度k的一维卷积代替了CBAM通道注意力模块中的全连接层，在减少参数量的同时更好地获取了全局和局部信息，本文将其称为E-CBAM。

注意力机制模块E-CBAM包含空间注意力与通道注意力。给定输入特征图F∈R^C*H*W，E-CBAM会依次生成一维的通道注意力图M_c二维的空间注意力图M_s，其中，M_c∈R^C*1*1，M_s∈R¹ ^*H*W；利用通道注意力图对输入特征图进行校正得到第一校正特征图F'，然后利用空间注意力图对F'进行校正得到第二校正特征图F”，其过程对应的表达式为：

综上，本发明提出的注意力机制模块E-CBAM，在CBAM的基础上采用了自适应维度的一维卷积代替了通道注意力模块中的全连接层在减少参数量的同时更好地获取了全局和局部信息，有效抑制了图像背景复杂的问题，提升了对目标的检测能力。

为了验证本发明实施例提出的一种基于改进型YOLOv5的无人机航拍图像河流漂浮物检测方法，进行了下列实验。

实验是在一台带有NVIDIA GeForce GTX 3080Ti(12GB RAM)GPU的服务器上进行，其操作系统为Ubuntu 20.04.3 LTS，深度学习框架为Pytorch1.8.1，cuda11.4.0，cudnn11.4。在训练阶段，输入图像大小为640*640，模型的最大训练轮数为1000，初始学习率为0.01，batch size为16，采用随机梯度下降算法，weight_decay为0.0005，momentum为0.937。在测试阶段，应用IOU阈值为0.5非极大抑制来丢弃重复检测。

实验以precision、recall和mAP@0.5作为评价指标，precision用来衡量模型检测的准确性，即查准率。recall用来衡量模型的全面性，即查全率。这些指标的定义如下：

其中，TP表示对正样本正确预测的数量，FP表示对负样本错误预测的数量，而FN表示对正样本错误预测的数量；AP表示precision与recall曲线下的面积，mAP@0.5表示当IOU＝0.5时所有类别AP的平均值。

图5展示了采用原有技术的YOLOv5s与采用本发明的改进型YOLOv5s得到的检测结果对比图。图5中的第一行为改进型YOLOv5s的检测结果，第二行为原有技术的YOLOv5的检测结果。从图中的a、d可以看到，图像背景十分复杂存在着干扰的树叶与倒影，原有技术的YOLOv5s将树叶错误的检测为例易拉罐与塑料杯，而改进型YOLOv5针对此问题，有效的提取了特征，改善了误检的问题。对比c，f，图像中的易拉罐极小，背景存在明暗变化，原有技术的YOLOv5漏检了易拉罐，而改进型YOLOv5s将其准确的检测出来且置信度高达0.91。值得注意的是，通过全面比较所有图片可以发现改进型YOLOv5检测结果的置信度均高于原有技术YOLOv5的检查结果。在表2中我们的模型的Precision、recall和mAP@0.5分别为87.4％、85.6％、91.8％，相较于基准提升了3.8％、9％和4.4％。以上结果表明改进后的模型在背景复杂和小目标场景下具有很好的检测效果。

表2检测结果比较

为了进一步衡量本文算法对于无人机视角下河流漂浮物的检测性能，在相同的实验环境下，将其与Fater R-CNN、SSD、Cascade R-CNN和YOLOv4进行比较，结果如表3所示。实验结果表明，本发明中的算法的性能是优秀的，mAP@0.5达到了91.8％比Cascade R-CNN高了3.3％。塑料袋、纸盒、塑料杯和易拉罐的AP在对比的算法中都是最高的分别为97.6％、93.1％、86.6％和92.5％。只有塑料瓶的AP低于Cascade R-CNN的结果。还可以观察看，在所有算法中，塑料杯的AP相较于其他类型的漂浮物都是最低的，这可能是目标数量太少导致的。总的来说，对比之后再次验证了本发明方法的良好性能。

表3不同算法的检测结果

为了改进方法的的有效性，本文进行了消融实验，以未做任何改进的YOLOv5s作为基准，实验结果如表4所示。

表4消融实验

首先，通过增加微尺度检测层，mAP@0.5相较于baseline增加了1.1％，这说明新增检测层的有效性。其次，本发明测试添加注意力机制的有效性，在特征融合阶段添加CBAM，发现mAP@0.5相较于添加检测层提升了0.8％，这表明添加CBAM有一定效果，但是提升效果有限。因此，利用ECANet的思想改进了CBAM，此时mAP@0.5达到了91.1％，效果提升明显，由此可见，E-CBAM可以有效的从通道和空间维度把握图像的细节，并且可以更全面和准确的关注河流漂浮物的特征与抑制和忽略复杂的背景信息。最后，在损失函数对BCEWithLogitsLoss添加了权重因子，使模型的训练更有针对性，mAP@0.5提高到91.8％。

为了准确及时检测河流漂浮物，本发明利用无人机对河流图像进行采集，提出一种基于改进型YOLOv5s的无人机视角下的河流漂浮物检测方法。首先，构建了一个无人机视角下的河流漂浮物数据集，来解决数据集缺乏的问题。其次，在YOLOv5s的基础上，增加微尺度检测层提高对小目标的检测能力，加入改进的CBAM抑制图像背景复杂的问题，在损失函数中使用Focal loss平衡正负样本不均衡的问题。最后，通过实验表明，改进后的模型相较于YOLOv5s与其他目标检测算法具有一定的优越性，具有较高应用价值，能够为河流监管提供技术支撑。但是本研究中检测的河流漂浮物种类有限，未来将扩充数据集使能够检测到的漂浮物更加全面。

Claims

1.一种基于改进型YOLOv5的无人机航拍图像河流漂浮物检测方法，其特征在于：该方法包括下列步骤：

S1、利用无人机采集河道漂浮物图像；

以及

2.根据权利要求1所述的一种基于改进型YOLOv5的无人机航拍图像河流漂浮物检测方法，其特征在于：在步骤S1中，利用无人机采集河道漂浮物图像的具体过程为：将无人机的飞行高度控制在距离水面的7～15米，并设置相机的拍摄角度垂直于水面，然后利用无人机采集河道漂浮物图像。

3.根据权利要求1或权利要求2所述的一种基于改进型YOLOv5的无人机航拍图像河流漂浮物检测方法，其特征在于：在步骤S2中，对采集到的河道漂浮物图像进行处理的具体过程为：对采集到的每张河道漂浮物图像通过窗口大小为1600*1600，步长为800的滑动窗口进行切割，得到若干张切割图像，将不具有河道漂浮物的切割图像剔除，剩下具有河道漂浮物的切割图像，将具有河道漂浮物的切割图像通过LabelImg软件进行河道漂浮物标注。

4.根据权利要求3所述的一种基于改进型YOLOv5的无人机航拍图像河流漂浮物检测方法，其特征在于：在步骤S3中，Backbone用于对输入特征图F进行特征提取，并生成四张经过特征提取的特征图的具体过程包括下列步骤：

5.根据权利要求4所述的一种基于改进型YOLOv5的无人机航拍图像河流漂浮物检测方法，其特征在于：在步骤S3中，BottleneckCSP模块进行特征提取的具体过程为：所述的BottleneckCSP模块通过两条分支来进行特征提取，首先，在第一条分支中，将步骤S3.01得到的拼接特征图经过1×1的卷积，然后通过残差结构，再进行1×1的卷积，由第一条分支输出结果；此时第一条分支输出的结果的通道数为输入第一条分支时的拼接特征图的一半；然后，在第二条分支中，将步骤S3.01得到的拼接特征图通过1×1的卷积进行降维，降维后的结果与第一条分支输出的结果拼接在一起，然后再通过一个卷积层形成输出特征图；BottleneckCSP模块借鉴了CSPNet中的Cross Stage Partial结构，加强了特征学习能力、减少了网络模型的计算量并优化了网络传播中的重复梯度信息。

6.根据权利要求5所述的一种基于改进型YOLOv5的无人机航拍图像河流漂浮物检测方法，其特征在于：在步骤S3中，特征金字塔结构模块用于对四张经过特征提取的特征图进行特征融合，得到四张经过特征融合的融合特征图的具体过程包括下列步骤：

S3.11、将步骤S3.05中得到的尺寸为

的特征图经过1×1卷积形成新的尺寸为

的特征图；

S3.12、将步骤S3.05中得到的尺寸为

的特征图经过上采样变为尺寸为

的特征图，然后与步骤S3.04中由BottleneckCSP模块输出的

的特征图在通道层面进行拼接，形成新的尺寸为

的特征图；

S3.13、将步骤S3.12中形成的新的尺寸为

的特征图经过上采样变为尺寸为

的特征图，然后与步骤S3.03中由BottleneckCSP模块输出的

的特征图在通道层面进行拼接，形成新的尺寸为

的特征图；

S3.14、将步骤S3.13中形成的新的尺寸为

的特征图经过上采样变为尺寸为

的特征图，然后与步骤S3.02中由BottleneckCSP模块输出的

的特征图在通道层面进行拼接，形成新的尺寸为

的特征图；

S3.15、将步骤S3.14中形成的新的尺寸为

的特征图经过BottleneckCSP模块形成尺寸为

的融合特征图；

S3.16、将步骤S3.15中形成的尺寸为

的特征图在通道层面进行特征融合，形成尺寸为

的融合特征图；

S3.17、将步骤S3.16中形成的尺寸为

的特征图在通道层面进行特征融合，形成尺寸为

的融合特征图；

S3.18、将步骤S3.17中形成的尺寸为

的特征图在通道层面进行特征融合，形成尺寸为

的融合特征图。

7.根据权利要求6所述的一种基于改进型YOLOv5的无人机航拍图像河流漂浮物检测方法，其特征在于：在步骤S3中，注意力机制模块E-CBAM生成一维的通道注意力图M_c的具体过程为：首先利用全局最大值池化和均值池化来映射融合特征图的特征信息，形成两个不同的通道描述信息：

和

表示

表示在通道层面经过全局最大池化后得到的特征图，

8.根据权利要求7所述的一种基于改进型YOLOv5的无人机航拍图像河流漂浮物检测方法，其特征在于：在步骤S3中，注意力机制模块E-CBAM生成二维的空间注意力图M_s具体过程为：首先对由通道注意力图M_c进行校正得到的第一校正特征图F'沿着通道维度分别进行全局平均池化和全局最大池化的操作，生成二维的特征图：

和

然后对

和

在通道维度上进行拼接，最后采用感受野较大的7*7卷积核进行卷积操作并通过sigmoid函数激活，生成空间注意力图M_s∈R^1*H*W；对应的表达式为：M_s(F)＝σ(f^7*7([AvgPool(F')；MaxPool(F')]))；其中，σ代表sigmoid函数，f^7*7代表卷积核为7的卷积操作。

9.根据权利要求8所述的一种基于改进型YOLOv5的无人机航拍图像河流漂浮物检测方法，其特征在于：在步骤S4中，对步骤S3中构建的改进型YOLOv5网络进行训练所用到的损失函数L由边界框回归损失L_ciou、类别损失L_class和置信度损失L_conf三部分构成，其表达式为：L＝L_ciou+L_class+L_conf；其中，边界框回归损失L_ciou使用了CIOU，