CN112613343B

CN112613343B - 一种基于改进YOLOv4的河道废弃物监测方法

Info

Publication number: CN112613343B
Application number: CN202011383306.1A
Authority: CN
Inventors: 林峰; 侯添; 朱志冠
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2023-12-15
Anticipated expiration: 2040-12-01
Also published as: CN112613343A

Abstract

本发明涉及计算机视觉技术领域，具体地说，涉及一种基于深度学习的河道漂浮物监测方法。利用已有的摄录设备从一定的角度、合适的距离，对河道水面的漂浮物进行监测，获得视频图像后，对数据集中所有标注的边框进行尺度的聚类处理，再对视频数据采用Mosaic数据增强方法进行预处理，然后利用训练好的分类模型进行识别，对漂浮物进行实时检测。本发明例的训练及检测网络采用YOLOv4网络结构，其特征图的上采样方式采用双线性插值算法，在保证模型准确性的同时，降低了计算量，提升了设备的计算速度。该方法准确率高，检测速度快，具有很高的应用价值。

Description

一种基于改进YOLOv4的河道废弃物监测方法

技术领域

本发明涉及计算机视觉技术领域，具体地说，涉及一种基于改进YOLOv4的河道漂浮物监测方法。

背景技术

河道中的漂浮物对于河道的美观、河道的水质以及环境的评估有着重要的影响。现今河道漂浮物往往靠人工到现场或借助视频发现，需要化费大量的人工和时间，需要一种能自动监测河道废弃物的便捷可靠的办法。随着机器视觉技术的发展，使得基于机器视觉自动识别监测河道废弃物成为可能。

现在已经有不少采用深度学习等技术进行目标检测的方法，如公布号为CN111709381A的中国专利文献公开了一种基于YOLOv3-SPP的道路环境目标检测方法，该方法利用深度学习技术与图像处理技术，具有更好的抗噪性能和识别精度，为智能驾驶系统精准感知行车提供了可能。公布号为CN 111553406A的中国专利文献公开了一种基于改进YOLO-V3的目标检测系统、方法及终端，该系统网络模型较小，加快目标检测速度，增强了网络特征融合效果，实现了更好的检测结果。公布号为CN111709489A的中国专利文献公开了一种基于改进YOLOv4的柑橘识别方法，该方法通过改进YOLOv4网络模型结构，添加了上采样模块和对小目标敏感的检测特征图，能更好的识别个体较小的柑橘。公布号为CN110348303A的中国专利文献公开了一种可搭载于无人艇的辅助水面巡逻系统以及水面监测方法，该方法采用YOLOV3算法进行检测与识别，其计算速度与YOLOV4有一定差距。

以上方法虽然对特定的目标有很好的检测效果，但由于河道废弃物具有不同的特征，有各种干扰，比如：水草或其他设施遮挡监测目标的一部分、漂浮物附近有强烈的反光、河道水体表面复杂、目标在图像中较小、目标附近有波纹等。因此需要对数据进行预处理，采用合适的网络及算法来进行监测。

发明内容

本发明的目的是提供一种基于深度学习的河道漂浮物监测方法，通过对视频里漂浮物的识别，来实现对河道水面的监测。为了实现上述目的，本发明采用基于改进YOLOv4的河道漂浮物监测方法，如图1所示，其中训练过程包括以下步骤：

1)获取河道水面监测的原始视频数据，从原始视频数据中提取出图像数据；

2)对数据集中所有标注的边框进行尺度的聚类处理；

3)视频数据采用Mosaic数据增强方法进行预处理；

4)将一个batch图像数据输入网络中进行前向传播得到检测结果；

5)对检测结果与标注值计算loss；

6)根据loss值反向传播，并根据学习率进行权重的更新；

7)重复4)、5)、6)步骤直到网络loss不断下降，趋于收敛。

检测过程包括以下步骤：

8)将待检测图像作为输入，经过backbone提取图片特征；

9)提取backbone网络中不同深度的特征图；

10)将提取的多个尺度的特征图作为FPN结构的输入进行特征融合，其中特征图上采样方式为双线性插值算法；

11)将FPN融合后的多尺度特征图输入到PAN结构中进行强特征定位，得到三个不同尺度的特征图检测结果；

12)将所有特征图检测结果进行nms处理后生成最终结果并在原始输入图像中标注出检测框和检测类别；

13)提取下一帧待检测的图片，重复步骤8)到步骤12)完成对视频的逐帧检测。

上述技术方案中，利用已有的摄录设备从一定的角度、合适的距离，对河道水面的漂浮物进行监测，获得视频图像后，对数据集中所有标注的边框进行尺度的聚类处理，再对视频数据采用Mosaic数据增强方法进行预处理，然后利用训练好的分类模型进行识别，对漂浮物进行实时检测，该方法准确率高，检测速度快，具有很高的应用价值。

步骤2)中：对数据集中所有标注的边框进行尺度的聚类处理；采用K-Means聚类算法获取9类不同尺度的先验框，其流程为：

2-1)首先在所有标注的GroundTruth样本点中随机选择9个作为聚类的中心(每个样本是一个四维的向量)；

2-2)分别计算其余所有样本点到这9个中心的距离，各样本点归属于与其距离最近的中心点；

2-3)在新划分的簇中以四个维度上求均值的方式选出新的聚类中心；

2-4)重复步骤2-2)、2-3)直到新聚类中心与原来聚类中心不再变化，或者变动幅度在规定范围之内。

距离公式采用欧式距离公式：

这里，X,Y为两个样本点，x_i，y_i分别为两个样本点每一个维度的坐标值。聚类结果按照面积大小排序为(23,29)、(37,34)、(26,53)、(41,53)、(41,90)、(94,40)、(61,75)、(78,135)、(188,206),可以发现先验框的尺度差别较大，将其分别分配给76*76，38*38，19*19三个特征图作为先验框。

步骤3)中：视频数据采用Mosaic数据增强方法进行预处理；该方法参考了CutMix数据增强方式，Mosaic利用四张图片进行拼接，它可以丰富检测物体的背景，且在BN计算的时候一次计算四张图片的数据，如图2所示，其流程为：

3-1)随机选取四张图片；

3-2)分别对四张图片进行翻转、缩放、色域变化等，并且按照四个方向位置摆好；

3-3)进行图片的组合和框的组合，将四张图片分别以左上、左下、右下和右上的顺序重新拼接成一张新的图片；

3-4)用该图片数据进行训练。

本发明例的训练及检测网络采用YOLOv4网络结构，如图3所示。YOLOv4的网络结构在YOLOv3之上进行了改进，在backbone部分网络改用CSPNet(Cross Stage PartialNetwork)，CSPNet缓解了需要大量推理计算的问题。用CSPNet来提取图像的特征，其方法是通过将基础层的特征图分为两个部分，之后通过提出跨阶段分层结构进行合并来实现，其优点在于减少了重复梯度信息，使得计算量降低，有利于提升设备的计算速度，而且不会影响模型的准确性。为了充分利用不同层提取到的特征信息，YOLOv4采用了FPN的网络结构，将输入图像经过下采样得到的不同层次的特征图再进行由上到下的上采样，并且与左侧原始特征图进行concat拼接处理得到新的特征图，这种结构不仅丰富了输出特征图的尺度，同时通过将浅层信息与深层信息进行组合以得到更好的效果。经过FPN特征组合过后，再加入PAN结构，重新将组合后的底层特征图经过卷积下采样并且与左侧FPN结构中同尺度的特征图进行拼接，最终得到三个不同尺度的输出特征图，如图3所示，这样组合的目的是自底向上传达强定位特征，增强模型提取特征的准确性。

步骤6)中：对检测结果与标注值计算loss；在YOLOv4中，预测边界框的loss函数为CIOUloss，其含义是在IOU的基础之上加入了对中心点距离以及长宽比的相关评价标准，其中IOU的计算为：

L_IOU＝1-IOU(Box_pre，Box_gt)

Box_pre，Box_gt分别为预测边界框与真实边界框，其含义是两者的重叠面积。CIOU的计算为：

其中α为一个正数，ν为衡量预测值和真实值宽、高相似度的惩罚项。w_gt、h_gt、w_pre、h_pre分别为边界框真实值和预测值的宽、高。损失函数的中间项是衡量中心点距离的惩罚项，其中ρ(·)为欧式距离的计算，Box_{pre_ctr}与Box_{gt_ctr}为中心坐标，c为预测边界框和真实边界框的最小包围框的对角线长度。

步骤10)中：将提取的多个尺度的特征图作为FPN结构的输入进行特征融合；本发明例中将上采样方式采用双线性插值，如图4所示。常规的最近邻插值法是将待插像素点的像素值设置为在原图中与周围4个像素点距离最近的像素值，即受原图影响最大的像素值。但由于其没有考虑到其他像素点的影响，上采样效果一般不够理想。为了改进其不足，将其用双线性插值算法改进。

双线性插值充分考虑了周围4个像素点的影响，根据待采样点与周围4个相邻的距离为权重值，首先在水平方向上进行线性内插得到两个中间像素值，然后对水平方向上插值得到的两个像素点再在垂直方向上进行线性内插得到最终的像素值，其公式如下：

其中(i，j)、(x1，y1)、(x1，y2)、(x2，y1)、(x2，y2)分别为待插点以及其周围4个点A、B、C、D的坐标值，f(i，j)、f(A)、f(B)、f(C)、f(D)分别为待插点以及其周围4个点A、B、C、D的像素值。

步骤12)中：将所有特征图检测结果进行nms处理后生成最终结果并在原始输入图像中标注出检测框和检测类别；这里的检测类别包含有8类，分别为树叶、塑料袋、水草、树枝、瓶子、牛奶盒、塑料垃圾和圆球状垃圾。

在算法检测速度方面，模型改进前和改进后在本实验设备上的帧数都为82FPS，检测时将输入视频进行逐帧检测如图5所示，满足实时目标检测的标准。

与现有技术相比，本发明的有益之处在于：

上述技术方案中，利用已有的摄录设备从一定的角度、合适的距离，对河道水面的漂浮物进行监测，获得视频图像后，对数据集中所有标注的边框进行尺度的聚类处理，再对视频数据采用Mosaic数据增强方法进行预处理，然后利用训练好的分类模型进行识别，对漂浮物进行实时检测。本发明例的训练及检测网络采用YOLOv4网络结构，其特征图的上采样方式采用双线性插值算法，在保证模型准确性的同时，降低了计算量，提升了设备的计算速度。该方法准确率高，检测速度快，具有很高的应用价值。

附图说明

图1为本发明实施例中基于深度学习的河道漂浮物监测方法流程图；

图2为本发明实施例中Mosaic数据增强效果图；

图3为本发明实施例YOLOv4网络结构图；

图4为本发明实施例双线性插值原理图；

图5为本发明实施例逐帧检测示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合实施例及其附图对本发明作进一步说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

实施例

参见图1至图5，本实施例的目的是提供一种基于深度学习的河道漂浮物监测方法，通过对视频里漂浮物的识别，来实现对河道水面的监测。为了实现上述目的，本发明采用基于改进YOLOv4的河道漂浮物监测方法，分为网络训练和检测两个过程，如图1所示。图1为本发明实施例中基于深度学习的河道漂浮物监测方法流程图，其中训练过程包括以下步骤：

预备步骤，获取河道水面监测的原始视频数据，从原始视频数据中提取出图像数据。

步骤S100，对数据集中所有标注的边框进行尺度的聚类处理，采用K-Means聚类算法获取9类不同尺度的先验框。

S101，首先在所有标注的GroundTruth样本点中随机选择9个作为聚类的中心(每个样本是一个四维的向量)；

S102，分别计算其余所有样本点到这9个中心的距离，各样本点归属于与其距离最近的中心点；

S103，在新划分的簇中以四个维度上求均值的方式选出新的聚类中心；

S104，重复步骤102)、103)直到新聚类中心与原来聚类中心不再变化。

步骤S200，视频数据采用Mosaic数据增强方法进行预处理，如图2所示。图2为本发明实施例中Mosaic数据增强效果图。

步骤S201，随机选取四张图片。

步骤S202，分别对四张图片进行翻转、缩放、色域变化等，并且按照四个方向位置摆好。例如对数据集中的一张图片进行顺时针90度、180度、270度翻转，并且在翻转的过程中随机的调整图片的亮度、对比度，并且进行随机的缩放，以模拟不同光线条件下，以及不同角度。可以扩充图像数据量，充分利用采集到的数据。

步骤S203，进行图片的组合和框的组合，将四张图片分别以左上、左下、右下和右上的顺序重新拼接成一张新的图片。

步骤S204，用该图片数据进行训练。

步骤S300，将一个batch图像数据输入网络中进行前向传播得到检测结果。

步骤S400，对检测结果与标注值计算loss。

步骤S500，根据loss值反向传播，并根据学习率进行权重的更新。

步骤S600，重复S300、S400、S500步骤直到网络loss不断下降，趋于收敛，此时说明模型的准确度趋于稳定。

检测过程如图1所示，包括以下步骤：

步骤S700，将待检测图像作为输入，经过backbone提取图片特征。

步骤S800，提取backbone网络中不同深度的特征图。

步骤S900，将提取的多个尺度的特征图作为FPN结构的输入进行特征融合，其中特征图上采样方式为双线性插值算法。

步骤S1000，将FPN融合后的多尺度特征图输入到PAN结构中进行强特征定位，得到三个不同尺度的特征图检测结果。

步骤S1100，将所有特征图检测结果进行nms处理后生成最终结果并在原始输入图像中标注出检测框和检测类别。

步骤S1200，逐帧检测，如图5所示，重复执行从步骤S700到步骤S1100。然后输出结果并显示，检测结果为在检测的每一帧图像上用矩形框标注其位置并显示其类别。

Claims

1.一种基于改进YOLOv4的河道漂浮物监测方法，其特征在于，在网络训练过程包括以下步骤：

2)对数据集中所有标注的边框进行尺度的聚类处理；

3)视频数据采用Mosaic数据增强方法进行预处理；

5)对检测结果与标注值计算loss；

6)根据loss值反向传播，并根据学习率进行权重的更新；

7)重复4)、5)、6)步骤直到网络loss不断下降，趋于收敛；

在检测过程包括以下步骤：

8)将待检测图像作为输入，经过backbone提取图片特征；

9)提取backbone网络中不同深度的特征图；

2.根据权利要求1所述的一种基于改进YOLOv4的河道漂浮物监测方法，其特征在于，步骤2)中所述的对数据集中所有标注的边框进行尺度的聚类处理:采用K-Means聚类算法获取9类不同尺度的先验框，其流程为：

2-4)重复步骤2-2)、2-3)直到新聚类中心与原来聚类中心不再变化，或者变动幅度在规定范围之内；

距离公式采用欧式距离公式：

这里，X,Y为两个样本点，x_i，y_i分别为两个样本点每一个维度的坐标值；聚类结果按照面积大小排序为(23,29)、(37,34)、(26,53)、(41,53)、(41,90)、(94,40)、(61,75)、(78,135)、(188,206),可以发现先验框的尺度差别较大，将其分别分配给76*76，38*38，19*19三个特征图作为先验框。

3.根据权利要求1所述的一种基于改进YOLOv4的河道漂浮物监测方法，其特征在于，步骤3)中所述的视频数据采用Mosaic数据增强方法进行预处理:该方法参考了CutMix数据增强方式，Mosaic利用四张图片进行拼接，它可以丰富检测物体的背景，且在BN计算的时候一次计算四张图片的数据，其流程为：

3-1)随机选取四张图片；

3-4)用该图片数据进行训练。

4.根据权利要求1所述的一种基于改进YOLOv4的河道漂浮物监测方法，其特征在于，步骤10)中所述的将提取的多个尺度的特征图作为FPN结构的输入进行特征融合，其中特征图上采样方式为双线性插值算法:

双线性插值充分考虑了周围4个像素点的影响，根据待采样点与周围4个相邻的距离为权重值，首先在水平方向上进行线性内插得到两个中间像素值,然后对水平方向上插值得到的两个像素点再在垂直方向上进行线性内插得到最终的像素值，其公式如下:

其中(i,j)、(x1,y1)、(x1,y2)、(x2,y1)、(x2,y2)分别为待插点以及其周围4个点A、B、C、D的坐标值，f(i,j)、f(A)、f(B)、f(C)、f(D)分别为待插点以及其周围4个点A、B、C、D的像素值。

5.根据权利要求1所述的一种基于改进YOLOv4的河道漂浮物监测方法，其特征在于，步骤12)中所述的将所有特征图检测结果进行nms处理后生成最终结果并在原始输入图像中标注出检测框和检测类别；这里的检测类别包含有8类，分别为树叶、塑料袋、水草、树枝、瓶子、牛奶盒、塑料垃圾和圆球状垃圾。