CN116630604A

CN116630604A - 一种垃圾图像分类方法及系统

Info

Publication number: CN116630604A
Application number: CN202310404270.8A
Authority: CN
Inventors: 孙可盈; 刘政达; 孙家豪; 韩锦煜; 李守娟; 李妮; 刘佳晶; 朱硕
Original assignee: Wuxi University
Current assignee: Wuxi University
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-08-22

Abstract

本发明公开了一种垃圾图像分类方法及系统，所述方法包括以下步骤：步骤1、获取垃圾数据集，将垃圾数据集分为训练集和测试集；步骤2、改进YOLOv5模型：使用CBAM注意力机制作为特征提取模块、使用BiFPN结构作为特征融合结构、使用边界框损失函数LCIoU；步骤3、利用K‑means聚类方法得到训练集的先验锚框，利用训练集的先验锚框、边界框损失函数LCIoU对改进的YOLOv5模型进行训练；步骤4、利用训练好的YOLOv5模型对测试集进行检测，输出垃圾目标检测结果，得到正确的垃圾类别。通过本发明方法可以提高垃圾识别准确率。

Description

一种垃圾图像分类方法及系统

技术领域

本发明涉及图像技术领域，特别是涉及垃圾图像分类方法及系统。

背景技术

现阶段对于垃圾分类基本上是靠人们的自觉性和垃圾站工作人员的人工分拣，但是这些方式的缺点明显：由于垃圾种类繁多，记忆困难，进行垃圾分类的人不一定能够做到准确地垃圾分类；人工分拣存在一定的局限性，效率低，工作人员的精力有限，无法做到对大量垃圾进行有效分类。

因此，如何提高垃圾识别准确率，更准确地对垃圾分类，是本领域技术人员需解决的技术问题。

发明内容

本发明提供一种垃圾图像分类方法及系统，用于提高垃圾识别准确率，更准确地对垃圾分类。为实现上述效果，本发明的技术方案如下：

一种垃圾图像分类方法，包括以下步骤：

步骤1、获取垃圾数据集，将垃圾数据集分为训练集和测试集；

步骤2、改进YOLOv5模型：使用CBAM注意力机制作为特征提取模块、使用BiFPN结构作为特征融合结构、使用边界框损失函数LCIoU；

步骤3、利用K-means聚类方法得到训练集的先验锚框，利用训练集的先验锚框、边界框损失函数LCIoU对改进的YOLOv5模型进行训练；

步骤4、利用训练好的YOLOv5模型对测试集进行检测，输出垃圾目标检测结果，得到正确的垃圾类别。

本发明的目的在于提高垃圾分类投放准确率，使得垃圾分类更加智能化。采用YOLOv5识别不同垃圾的各类形态以及相关机器视觉知识配合使用，以此高效地进行垃圾分类，便于在众多垃圾堆叠且各类垃圾形态不一的复杂环境下有效识别出垃圾种类。

YOLOv5是一种基于深度神经网络的对象识别和定位算法，其最大的特点就是运行速度很快，精度有显著的提升。可以用于识别不同的垃圾目标。

进一步的，步骤1中具体为：获取垃圾数据集，对垃圾数据集使用VoTT或Imglabeling工具进行标注；将标注处理后的数据集随机抽取划分为训练集和测试集。

进一步的，在步骤1内，将垃圾数据集中数据集取出batch，再从中随机取出4张图片，进行随机位置裁剪拼接成新图，循环进行后进行马赛克数据增强处理、标签平滑处理。

进一步的，所述标签平滑处理为二元交叉熵标签平滑处理，其公式为：

y*(1.0-ε)+0.5*ε

式中，y为垃圾图像数据标签的独热编码；ε为平滑因子。

进一步的，步骤2中使用CBAM注意力机制作为特征提取模块为：将backbone模块中的第一个CBH卷积模块用Focus模块代替，Focus模块用于对输入的图像进行切片操作；将backbone模块原始的C3模块替换为CBAM注意力机制，所述CBAM注意力机制包括通道注意力和空间注意力。

进一步的，步骤2所述使用BiFPN结构作为特征融合结构为：在原有BiFPN结构的基础上，去除只有一条输入边的节点；在分辨率较小的特征图上增加输入特征图数量；在上采样过程中采用拼接操作，在下采样过程中采用叠加操作。

进一步的，步骤2之后还包括，将YOLOv5模型卷积层的激活函数设为Hardswish函数。

进一步的，步骤3的具体步骤为：

步骤3.1：对步骤1中所述训练集进行数据增强后，将训练集中输入YOLOv5模型，获得目标检测标签预测值；

步骤3.2：利用目标检测标签真实值和目标检测标签预测值计算损失函数值；

步骤3.3：利用损失函数值对模型参数进行更新；

步骤3.4：将测试集输入改进后的YOLOv5模型，获得目标检测标签预测值；

步骤3.5：利用目标检测标签真实值和目标检测标签预测值计算边界框损失函数值与测试集准确率；

步骤3.6：判断测试集准确率是否大于准确率最大值，如果是，则保存YOLOv5模型，更新测试集准确率，进入下一步；反之，则直接进入下一步；

步骤3.7：判断YOLOv5模型是否收敛，如果是，则进入下一步；反之，则返回步骤3.1；

步骤3.8：判断是否达到最大训练轮次，如果是，则结束，输出训练完成的YOLOv5模型；反之，则返回步骤步骤3.1。

进一步的，所述边界框损失函数LCIoU定义为：

式中，IOU表示为预测框和真实框的交叠率，即他们的交集与并集的并集；ρ²表示预测框和真实框中心点欧式距离；p、p^gt分别为预测框和真实框的中心点坐标；c表示预测框、真实框的最小包围框的对角线长度；α表示υ所占的权重系数；υ表示衡量长宽比一致性的参数；υ、α具体计算公式如下：

式中，ω^gt和h^gt表示真实框的宽、高；ω和h表示预测框的宽、高；

一种垃圾图像分类系统，包括：

图像获取模块，用于获取垃圾数据集，将垃圾数据集分为训练集和测试集；

模型改进模块，用于改进YOLOv5模型：使用CBAM注意力机制作为特征提取模块、使用BiFPN结构作为特征融合结构、使用边界框损失函数LCIoU；

训练模块，用于利用K-means聚类方法得到训练集的先验锚框，利用训练集的先验锚框、边界框损失函数LCIoU对改进的YOLOv5模型进行训练；

输出模块，用于利用训练好的YOLOv5模型对测试集进行检测，输出垃圾目标检测结果，得到正确的垃圾类别。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过使用CBAM注意力机制作为特征提取模块、使用BiFPN结构作为特征融合结构、使用边界框损失函数LCIoU来改进YOLOv5模型，提高垃圾识别准确率，更准确地对垃圾分类。

附图说明

附图仅用于示例性说明，不能理解为对本发明的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

图1为本发明实施例提供的垃圾图像分类方法流程图；

图2a、2b分别是本发明实施例提供的改进前、改进后YOLOv5模型示意图；

图3是本发明实施例提供的马赛克数据增强示意图；

图4是本发明实施例提供的预测框和真实框示意图；

图5是本发明实施例提供的模型训练结果图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都是本发明保护的范围。

在介绍本申请实施例之前首先对本申请实施例中涉及到的相关名词作如下释义：

VoTT：用于标注图片的工具；

实施例1

为了便于理解，请参阅图1，本发明提供的一种垃圾图像分类方法的一个实施例，包括以下步骤：

步骤1、获取垃圾数据集，以9：1的比例将垃圾数据集分为训练集和测试集；垃圾数据集为待检测垃圾图片或视频流；步骤1具体为：

垃圾数据集工作人员通过摄像头拍摄日常生活中的垃圾以及网络征集各类垃圾照片，对垃圾数据集使用VoTT或Imglabeling工具进行标注，得到json文件；将标注处理后的数据集随机抽取划分为独立不重复的训练集和测试集。

如图3所示，将垃圾数据集中数据集取出batch，再从中随机取出4张图片，进行随机位置裁剪拼接成新图，循环进行后进行马赛克数据增强处理、标签平滑处理。

人为标注时，会产生错误标注的问题，这种问题会对结果产生很大的影响；标签平滑处理(Label Smoothing)是人们常用于解决这个问题的办法，训练时若是选择使用one-hot标签来计算损失，这样只计算了标签为1位置的损失，并没有把标签为0位置的损失算在内，最终导致在训练集上能得到不错的效果，预测过程中因为此时数据来源不是训练集，所以相比之下预测效果较差；因此，对数据集采用标签平滑处理是必要的。

具体的，所述标签平滑处理为二元交叉熵标签平滑(smooth_BCE)处理，其公式为：

y*(1.0-ε)+0.5*ε

式中，y为垃圾图像数据标签的独热编码，一般表示一个向量；ε为平滑因子。经过平滑处理，将训练集中数据的标签无论正确与否都考虑到样本损失函数中，导致损失增大、模型的学习能力提高。

具体的，改进后的YOLOv5模型结构如图2b所示；步骤2中使用CBAM注意力机制作为特征提取模块为：将backbone模块中的第一个CBH卷积模块用Focus模块代替，Focus模块用于对输入的图像进行切片操作；将backbone模块(特征提取部分)原始的C3模块替换为CBAM注意力机制，所述CBAM注意力机制包括通道注意力和空间注意力；

所述通道注意力机制采用1×1×n池化的方式将backbone模块提取的特征图各channel之间的信息处理为一个n维的向量，再利用改进后的YOLOv5模型对该向量计算，此方式结合了各通道数据信息；所述空间注意力机制将研究重点放到特征图的长和宽上，更加注重特征图的全局属性，所以使用CBAM注意力机制可以获得更好的特征提取效果。

可以理解的是，在对模型训练时，例如，输入的垃圾数据集为4×4×1的图片，经过Focus模块的切片操作之后，得到右图所示的2×2×4结构，将[b,3,640,640]的图像输入改进后的YOLOv5模型中，经过Focus切片处理之后，得到[b,12,320,320]的特征图，其中b表示batch，即每次输入的图片数，3和12表示图片的通道数，640和320表示图片的长、宽；

输入的垃圾数据集经过Focus模块处理，模型计算量减少，节省了计算机资源和时间资源；同时还不会导致重要信息的丢失，从而保留图片下采样信息，为后面的特征提取部分提供了便利。CBAM注意力机制中的卷积下采样层用来缩小图层大小，一是为了减少计算量，二是为了增大感受野，使后面的卷积层能够学到更加全局的信息。CBAM注意力机制可以高效实现对神经网络动态的调节及学习线性与非线性，发挥多层网络提取特征的优势，使其更好的适应复杂多变的垃圾形态、遮挡情况。

具体的，所述使用BiFPN结构作为特征融合结构为：在原有BiFPN结构的基础上，去除只有一条输入边的节点；在分辨率较小的特征图上增加输入特征图数量；在上采样过程中采用拼接操作，在下采样过程中采用叠加操作。

去除只有一条输入边的节点时，这个边没有特征融合，对融合不同特征的特征网络的贡献很小，删除这条输入边对改进后的YOLOv5模型影响不大，在去除只有一条输入边的节点的同时，给原始输入节点和输出节点之间加一条额外的边，方便不增加太多成本的情况下融合更多的特征图信息。

将YOLOv5模型卷积层的激活函数设为检测性能更优的Hardswish函数。

步骤3、利用基于统计的K-means聚类方法得到训练集的先验锚框，利用训练集的先验锚框、边界框损失函数LCIoU对改进的YOLOv5模型进行训练；

具体的，所述边界框损失函数LCIoU定义为：

式中，IOU表示为预测框(图中A)和真实框(图中B)的交叠率，即他们的交集与并集的并集；如图4，ρ²(图中d)表示预测框和真实框中心点欧式距离；p、p^gt分别为预测框和真实框的中心点坐标；c表示预测框、真实框的最小包围框的对角线长度；α表示υ所占的权重系数，不必参与求导；υ表示衡量长宽比一致性的参数；υ、α具体计算公式如下：

设置YOLOv5模型参数中输入图像的尺寸、先验框尺寸和标注的类名称、初始学习率以及学习率调整策略，利用训练集对模型进行训练；训练过程中使用验证集进行验证，训练至网络模型收敛后保存最终的权重文件。

与GIOU相比，本发明选择的CIOU不仅具备GIOU的优点，同时还将中心点之间的欧式距离、高宽比考虑在内。

本发明使用机器视觉传感器利用YOLOv5神经网络对输入的图片视频进行推理，可以在大范围内进行探测，检测目标的原始信息丰富，具有很好的识别效果；

本发明实现智能化垃圾分类；在减少人力资源浪费以及垃圾处理困难的同时，改进后的YOLOv5模型在垃圾检测的准确率提高，最终准确率能达到93％，训练结果如图5所示。

实施例2

具体地，在实施例1的基础上，结合具体的实施例子对方案进行说明，进一步体现本方案的技术效果。步骤3训练过程为：

步骤3.3：利用损失函数值对模型参数进行更新；

步骤3.4具体为：将测试集输入到改进后YOLOv5模型的Backbone模块，经过一个Focus模块、4个CBA模块、4个CBAM注意力机制模块和一个SPPF模块特征提取后，得到相应的特征图；再将由特征提取得到的特征图输入到Neck板块，在Neck中借助于BiFPN中的带权特征融合，学习不同输入特征的重要性，对不同输入特征有区分的进行融合，在同层的初始特征和最终节点之间添加一条线用于更快地融合最底层特征，融合结果可信度更高。特征图经过Neck融合处理之后会得到3个大小不同的特征图，将3个大小不同的特征图分别经过CBL模块和Conv卷积层得到长宽分别为76、38、19的空间向量，得到经过改进后YOLOv5模型处理后的目标检测标签预测值。

实施例3

本发明还提供了一种垃圾图像分类系统，包括：

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种垃圾图像分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种垃圾图像分类方法，其特征在于，步骤1中具体为：获取垃圾数据集，对垃圾数据集使用VoTT或Imglabeling工具进行标注；将标注处理后的数据集随机抽取划分为训练集和测试集。

3.根据权利要求2所述一种垃圾图像分类方法，其特征在于，在步骤1内，将垃圾数据集中数据集取出batch，再从中随机取出4张图片，进行随机位置裁剪拼接成新图，循环进行后进行马赛克数据增强处理、标签平滑处理。

4.根据权利要求3所述一种垃圾图像分类方法，其特征在于，所述标签平滑处理为二元交叉熵标签平滑处理，其公式为：

y*(1.0-ε)+0.5*ε

式中，y为垃圾图像数据标签的独热编码；ε为平滑因子。

5.根据权利要求1所述一种垃圾图像分类方法，其特征在于，步骤2中使用CBAM注意力机制作为特征提取模块为：将backbone模块中的第一个CBH卷积模块用Focus模块代替，Focus模块用于对输入的图像进行切片操作；将backbone模块原始的C3模块替换为CBAM注意力机制，所述CBAM注意力机制包括通道注意力和空间注意力。

6.根据权利要求5所述一种垃圾图像分类方法，其特征在于，步骤2所述使用BiFPN结构作为特征融合结构为：在原有BiFPN结构的基础上，去除只有一条输入边的节点；在分辨率较小的特征图上增加输入特征图数量；在上采样过程中采用拼接操作，在下采样过程中采用叠加操作。

7.根据权利要求6所述一种垃圾图像分类方法，其特征在于，步骤2之后还包括，将YOLOv5模型卷积层的激活函数设为Hardswish函数。

8.根据权利要求7所述一种垃圾图像分类方法，其特征在于，步骤3的具体步骤为：

步骤3.3：利用损失函数值对模型参数进行更新；

9.根据权利要求8所述一种垃圾图像分类方法，其特征在于，所述边界框损失函数LCIoU定义为：

10.一种垃圾图像分类系统，其特征在于，包括：