CN112884033A

CN112884033A - 一种基于卷积神经网络的生活垃圾分类检测方法

Info

Publication number: CN112884033A
Application number: CN202110164847.3A
Authority: CN
Inventors: 潘志刚; 朱新荣; 沈淑英
Original assignee: Zhejiang Jinghe Intelligent Technology Co ltd
Current assignee: Zhejiang Jinghe Intelligent Technology Co ltd
Priority date: 2021-02-06
Filing date: 2021-02-06
Publication date: 2021-06-01
Anticipated expiration: 2041-02-06
Also published as: CN112884033B

Abstract

本发明公开了一种基于卷积神经网络的生活垃圾分类检测方法，涉及深度学习领域。在其训练阶段，构建卷积神经网络，使用原始垃圾图像输入到卷积神经网络中进行训练，得到原始输入图像对应的边框回归坐标、目标分类结果和置信度大小；再通过计算原始输入图像对应的边框回归坐标、目标分类结果和置信度大小构成的集合与对应的原始输入图像对应的真实边框回归坐标、真实目标分类结果和真实置信度大小构成的集合之间的损失函数值，从而获得卷积神经网络分类检测训练模型的最优权值矢量和偏置项。优点是提高了垃圾桶生活垃圾分类预测的速率和精确率。

Description

一种基于卷积神经网络的生活垃圾分类检测方法

技术领域

本发明涉及深度学习领域，尤其是涉及一种基于卷积神经网络的生活垃圾分类检测方法。

背景技术

垃圾分类作为一种有效处理垃圾的科学管理方案，在提高资源利用率、缓解垃圾生产压力以及改善生态环境等方面具有重要意义，备受世界各国的迫切关注。但是，由于垃圾的种类极其丰富，个人对垃圾归类的模糊程度普遍较高，因此，垃圾分类自动化的实现显得尤为重要。垃圾目标检测作为垃圾分类自动化的一个重要环节，本文将尝试实现该过程。所谓目标检测，简单来讲就是检测图像中的对象是什么以及在哪里的问题，即"目标分类+定位" 问题。

深度学习用于目标检测的算法从思路上来看，可以分为两大类，一类是两阶段检测方法，也就是把整个分为两部分，生成候选框和识别框内物体，它在检测准确率和定位精度上占优；另一类是单阶段检测方法，把整个流程统一在一起，直接给出检测结果，在算法速度上占优。目前，常见的两阶段检测方法主要有：R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN等，R-CNN 采用选择性搜索(Selective Search)提取建议区域框(region proposals)，再将候选框内的图片调整好大小(以满足CNN全连接要求)后送入神经网络，然后将特征图保存到本地磁盘，通过使用特征图训练SVM来对目标和背景分类，训练将输出一些校正因子的线性回归分类器。R-CNN所采用region proposal+ CNN方法在目标检测任务中取得了突破性的进展。但它也存在着步骤繁琐、训练耗时以及速度慢的问题。通过人们的不断改进，Faster R-CNN则用内部深层网络代替了候选区域方法。新的候选区域网络(RPN)在生成ROI时效率更高，并且以每幅图像10毫秒的速度运行。相较最初的R-CNN其速度有了极大提升。单阶段检测方法主要有：SSD以及YOLO系列。单阶段检测模型没有中间的区域检出过程，直接从图片获得预测结果，模型整体上由基础网络 (Backbone Network)和检测头部(Detection Head)构成，实现了end-to-end 来优化目标检测。前者作为特征提取器，给出图像不同大小、不同抽象层次的表示；后者则依据这些表示和监督信息学习类别和位置关联。检测头部负责的类别预测和位置回归两个任务常常是并行进行的，构成多任务的损失进行联合训练。其检测速度快，但在小物体目标检测任务上的效果却不太好。

发明内容

有鉴于此，为提高垃圾桶生活垃圾分类预测的速率和精确率，本发明提供了一种基于卷积神经网络的生活垃圾分类检测方法。

为了实现上述目的，本发明采用如下技术方案：

一种基于卷积神经网络的生活垃圾分类检测方法，

选取多幅原始的垃圾图像及每幅原始垃圾图像对应的真实检测分类图像，并构成训练集；

采用循环的方式，结合通道注意力机制和空洞卷积构建卷积神经网络；

将所述训练集中的每幅垃圾图像作为原始输入图像，输入到卷积神经网络中进行训练，得到训练集中的每幅原始垃圾图像对应的垃圾分类的检测结果，将对应的垃圾分类检测得到的边框回归坐标、目标分类结果和置信度大小；

计算训练集中的每幅垃圾图像对应的边框回归坐标、目标分类结果和置信度大小构成的集合与对应的真实边框回归坐标、目标分类结果和置信度大小构成的集合之间的损失函数值。

优选地，所述训练集待检测分类垃圾图像的边框坐标、分类结果、置信度大小分别记为

将训练集中与

对应的真实目标检测图像的边框坐标、分类结果、置信度大小分别记为

和

优选地，构建卷积神经网络，所述卷积神经网络包括，输入层、隐层和输出层；

其中，所述输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量，输入的RGB三通道分量经过Mosaic数据增强、自适应锚框计算、自适应图片缩放处理后，由所述输入层的输出端输出给隐层；

所述隐层包括，1个切片模块、8个常规卷积模块、8个残差卷积模块、1 个空间金字塔池化模块、2个上采样模块、4个堆叠模块；其中，第一个切片模块、第一个常规卷积模块、第一个残差卷积模块、第二个常规卷积模块、第二个残差卷积模块、第三个常规卷积模块、第三个残差卷积模块、第四个常规卷积模块、第一个空间金字塔池化模块、第四个残差卷积模块、第五个常规卷积模块、第一个上采样模块、第一个堆叠模块、第五个残差卷积模块、第六个常规卷积模块、第二个上采样模块、第二个堆叠模块、第六个卷积残差模块、第七个常规卷积模块、第三个堆叠模块、第七个残差卷积模块、第八个常规卷积模块、第四个堆叠模块、第八个残差卷积模块依次连接，并且所述第二个残差卷积模块与所述第二个堆叠模块连接，所述第三个残差卷积模块与所述第一个堆叠模块连接，所述第五个常规卷积模块与所述第四个堆叠模块连接，所述第六个常规卷积模块与第三个堆叠模块连接，所述第六个残差卷积模块、所述第七个残差卷积模块和所述第八个残差卷积模块均与所述输出层的第一个输出模块连接；

所述输出层输出到检测器，返回待测目标的边框回归坐标、目标分类结果和置信度大小。

优选地，所述检测器针对训练集采用K-means聚类算法。

优选地，所述切片模块包括依次连接的卷积层、均值归一化层、激活层。

优选地，所述常规卷积模块包括依次连接的第一个卷积层、第一个归一化层、第一个激活层。

优选地，所述残差卷积模块包括四条支路，第一支路为第一个卷积核、第一个残差模块组件、第二个卷积核依次连接；第二支路为第三卷积核和第四卷积核依次连接；第三支路为第一个带空洞卷积的卷积核、第一个自适应平均池化层、第一个激活函数依次连接的输出与所述第一个带空洞卷积的卷积核做像素级点乘，所述像素级点乘后的输出结果与所述第一个带空洞卷积的卷积核做像素级相加；第四支路为第二个带空洞卷积的卷积核、第二个自适应平均池化层、第二个激活函数依次连接的输出与所述第二个带空洞卷积的卷积核做像素级点乘，所述像素级点乘后的输出结果与所述第二个带空洞卷积的卷积核做像素级相加；

所述第一支路，所述第二支路，所述第三支路和所述第四支路的输出输入到第一个堆叠模块，所述第一个堆叠模块与第五个卷积核连接。

优选地，所述残差模块组件为：第一个卷积核、第一个自适应平均池化层、第一个激活函数依次连接的输出与所述第一个卷积核做像素级点乘；像素点乘结果输入第一个最大值函数，所述第一个最大值函数、第二个卷积核、第二个激活函数依次连接的输出与所述像素点结果做像素级点乘，得到的输出作为第二个卷积核的输入。

优选地，空间金字塔池化模块包四个通道，在第一通道中，第一卷积核和第二卷积核依次连接，在第二通道中，第三卷积核和第四卷积核依次连接，在第三通道中，第五卷积核和第六卷积核依次连接，在第四通道中，第七卷积核和第八卷积核依次连接，接着所述第一通道，所述第二通道，所述第三通道和所述第四通道的输出输入到第一个堆叠模块，在通道上进行堆叠，堆叠后的输出在经过第一个激活函数，来获得通道上的权重，再经过第一个分块函数进行通道上的分割，将分割后的权重分别与所述第一个卷积核，所述第三个卷积核，所述第五个卷积核，所述第七个卷积核进行像素级点乘；得到的四个输出分别送入到所述四个通道的输入端，再进行像素级相加后输出。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于卷积神经网络的生活垃圾分类检测方法，具有以下有益效果：

1)本发明方法构建卷积神经网络，使用训练集中垃圾桶里的生活垃圾图像输入到卷积神经网络中进行训练，得到卷积神经网络目标检测训练模型；再将待检测的垃圾桶生活垃圾图像输入到卷积神经网络目标检测训练模型中，预测得到垃圾桶生活垃圾图像对应的目标检测图像，由于本发明方法在构建卷积神经网络时结合了通道注意力机制和空洞卷积，能够比较有效的确定物体的位置，并提高卷积神经网络对物体特征提取的能力，有提高网络的目标检测准确率，从而可以更好的处理对垃圾的目标检测任务。

2)本发明方法采用通道注意力机制和最大特征提取模块，突出所占权重更大的特征，可以更好的捕获检测物体的特征；采用空洞卷积，可以提高感受野，让每个卷积输出都包含较大范围的信息，增强特征图上各个像素间的联系。

3)本发明方法在搭建卷积神经网络中的采了用循环模块，重复利用卷积模块，深度挖掘图像特征；减少训练参数，提高训练速度，更好的落实到工业生产中去。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明方法的实现框图；

图2为残差卷积模块框架；

图3为残差卷积模块组件框架；

图4为空间池化金字塔模块框架。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出的一种基于卷积神经网络的生活垃圾目标检测方法，其总体实现框图如图1所示，其包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1_1：选取Q幅原始的垃圾桶垃圾图像及每幅原始的垃圾桶垃圾图像对应的真实检测分类图像，并构成训练集，将训练集中的第q幅原始的垃圾桶待检测分类垃圾图像的边框坐标、分类结果、置信度大小分别记为

将训练集中与

和

其中，垃圾桶垃圾图像为 RGB彩色图像，Q为正整数，Q≥10000，如取Q＝19181，q为正整数，1≤q ≤Q，在此，原始的垃圾桶垃圾图像采用自己拍摄的19181张不同日期的垃圾桶生活垃圾图像。

步骤1_2:多尺度特征图分配:针对图片数据集采用现有的K-means聚类算法得到先验框的尺寸，K-means聚类算法流程如下：①从数据集中随机选择9 个先验框中心点作为质心；②每一个先验框中心点计算与质心的欧式距离，距离越近则划分到相应的集合；③归好集合后，有3个集合，重新计算每个集合的质心；④按照大、中、小不同分辨率设定不同尺寸的阈值，若新质心和原质心的距离小于设置好的阈值，则算法终止，否则迭代第2～4步骤；⑤最终，按照不同尺度聚类出9种尺寸的先验框。

步骤1_3：构建卷积神经网络：卷积神经网络包括输入层、隐层和输出层；

输入层包括Mosaic数据增强、自适应锚框计算、自适应图片缩放。

隐层，它由24个模块组成：1个切片模块、8个常规卷积模块、8个残差卷积模块、1个空间金字塔池化模块、2个上采样模块、4个堆叠模块。

输出层里包含1个输出模块。

对于输入层，输入层的输入端接收一幅原始输入图像的R通道分量、G 通道分量和B通道分量，所输入的RGB三通道分量会经过Mosaic数据增强、自适应锚框计算、自适应图片缩放。Mosaic数据增强采用4张图片，通过随机缩放、随机裁剪、随机排布的方式进行拼接；自适应锚框计算是网络在初始锚框的基础上输出预测框，再与真实框进行对比，计算两者的差距，再进行方向更新，迭代网络参数；自适应图片缩放对原始输入图片自适应添加最少的黑边。输入层的输出端输出原始输入图像的R通道分量、G通道分量和 B通道分量给隐层；其中，要求输入层的输入端接收的原始输入图像的宽度为W、高度为H。

对于切片模块，其由依次连接的卷积层(Convolution，Conv)、均值归一化层(BatchNormlization,BN)、激活层(Activation，Act)组成；第一个切片模块的输入端接受输入层的输出端输出的经过处理的原始输入图像的RGB三通道分量，第一个切片模块的输出端输出80副特征图，将80副特征图构成的集合记为M₁；其中切片模块卷积层的卷积核(kernel_size)大小为3×3、卷积核个数(filters)为80、步长(stride)为1、填充(padding)为1，偏置参数为否(False)，激活层采用的激活方式为“Hardswish”。M₁中的每幅特征图的宽度为W，高度为H。

对于第1个常规卷积模块，其由依次连接的第一个卷积层、第一个归一化层、第一个激活层组成；第1个常规卷积块的输入端接收M₁中的所有特征图，第1个常规卷积模块的输出端输出160副特征图，将160副特征图构成的集合记为M₂；其中，第一个卷积层的卷积核大小为3×3、卷积核的个数为 160、步长为2、填充为1、偏置参数为否，第一个归一化层的输入特征数为 160，第一个激活层所采用的激活方式为“Hardswish”，M₂中的每幅特征图的宽度为W/2、高度为H/2。

对于第1个残差卷积模块，其由依次连接的第一个常规卷积块、第一个卷积模块、第二个卷积模块、第二个常规卷积块、第一个均值归一化、第一个激活函数、第一个残差块、第二个残差块、第三个残差块、第四个残差块、第一个空洞卷积块、第二个空洞卷积块、第三个卷积模块、第一自适应平均池化、第二个激活函数组成；第1个残差卷积模块的输入端接受M₂中的所有特征图，第1个残差卷积模块的输出端输出160副特征图，将160副特征图构成的集合记为M₃；其中，第一个常规卷积模块中的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否，第一个卷积模块的卷积核大小为1×1、步长为1，第二卷积模块的卷积核大小为1×1、步长为1、偏置为否，第二个常规卷积模块中的卷积核的大小为1×1、步长为1、偏置为否，第一个均值归一化模块的输入特征的个数为320，第一个激活函数所采用的激活方式是“LeakyReLU”，第一个残差块、第二个残差块、第三个残差块和第四个残差块中第一个卷积核的大小为1×1、步长为1、偏置参数为否，第一个残差块、第二个残差块、第三个残差块和第四个残差块中的第二个卷积核的大小为 3×3、步长为1、填充为1、偏置参数为否，第一个空洞卷积块中的第一个卷积核的大小为3×3、步长为1、填充为3、膨胀系数(Dilation)为3，第一个空洞卷积中的第二个卷积核的大小为3×3、步长为1、填充为6、膨胀系数为6，第三卷积核核大小为1、步长为1，第一自适应平均池化的输出特征的宽 W＝1、高H＝1，第二个激活函数所采用的激活方式为“Sigmoid”，M₃中的每幅特征图的宽度为W/2、高度为H/2。

对于第2个常规卷积模块，其由依次连接的第一个卷积层、第一个归一化层、第一个激活层组成；第2个常规卷积块的输入端接收M₃中的所有特征图，第2个常规卷积模块的输出端输出320副特征图，将320副特征图构成的集合记为M₄；其中，第一个卷积层的卷积核大小为3×3、卷积核的个数为 320、步长为2、填充为1、偏置参数为否，第一个归一化层的输入特征数为 320，第一激活层所采用的激活方式为“Hardswish”，M₄中的每幅特征图的宽度为W/4、高度为H/4。

对于第2个残差卷积模块，其由依次连接的第一常规卷积模块、第一卷积核、第二卷积核、第二个常规卷积模块、第一个均值归一化、第一个激活函数、第一个残差块、第二个残差块、第三个残差块、第四个残差块、第五个残差块、第六个残差块、第七个残差块、第八个残差块、第九个残差块、第十个残差块、第十一个残差块、第十二个残差块、第一个空洞卷积块、第二个空洞卷积块、第三卷积核、第一自适应平均池化、第二个激活函数组成；第一个残差卷积模块的输入端接受M₄中的所有特征图，第2个残差卷积模块的输出端输出320副特征图，将320副特征图构成的集合记为M₅；其中，第一常规卷积模块中的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否，第一卷积核核大小为1×1、步长为1，第二卷积核核大小1×1、步长为1、偏置为否，第二个常规卷积模块中的卷积核的大小为1×1、步长为1、偏置为否，第一个均值归一化的输入特征的个数为640，第一个激活函数所采用的激活方式是“LeakyReLU”，第一个残差块、第二个残差块、第三个残差块、第四个残差块、第五个残差块、第六个残差块、第七个残差块、第八个残差块、第九个残差块、第十个残差块、第十一个残差块和第十二个残差块中第一个卷积核的大小为1×1、步长为1、偏置参数为否，第一个残差块、第二个残差块、第三个残差块、第四个残差块、第五个残差块、第六个残差块、第七个残差块、第八个残差块、第九个残差块、第十个残差块、第十一个残差块和第十二个残差块中的第二个卷积核的大小为3×3、步长为1、填充为1、偏置参数为否，第一个空洞卷积块中的第一个卷积核的大小为3×3、步长为1、填充为3、膨胀系数(Dilation)为3，第一个空洞卷积中的第二个卷积核的大小为3×3、步长为1、填充为6、膨胀系数为6，第三卷积核核大小为1、步长为 1，第一自适应平均池化的输出特征的宽W＝1、高H＝1，第二个激活函数所采用的激活方式为“Sigmoid”，M₅中的每幅特征图的宽度为W/4、高度为H/4。

对于第3个常规卷积块，其由依次连接的第一个卷积层、第一个归一化层、第一个激活层组成；第一个常规卷积块的输入端接收M₅中的所有特征图，第一常规卷积模块的输出端输出640副特征图，将640副特征图构成的集合记为M₆；其中，第一卷积层的卷积核大小为3×3、卷积核的个数为640、步长为2、填充为1、偏置参数为否，第一归一化层的输入特征数为640，第一激活层所采用的激活方式为“Hardswish”，M₆中的每幅特征图的宽度为W/8、高度为H/8。

对于第3个残差卷积模块，其由依次连接的第一个常规卷积模块、第一个卷积核、第二个卷积核、第二个常规卷积模块、第一个均值归一化、第一个激活函数、第一个残差块、第二个残差块、第三个残差块、第四个残差块、第五个残差块、第六个残差块、第七个残差块、第八个残差块、第九个残差块、第十个残差块、第十一个残差块、第十二个残差块、第一个空洞卷积块、第二个空洞卷积块、第三个卷积核、第一个自适应平均池化、第二个激活函数组成；第3个残差卷积模块的输入端接受M₆中的所有特征图，第3个残差卷积模块的输出端输出640副特征图，将640副特征图构成的集合记为M₇；其中，第一个常规卷积模块中的第一个卷积核的大小为3×3、步长为1、填充为1、偏置参数为否，第一个卷积核核大小为1×1、步长为1，第二个卷积核核大小1×1、步长为1、偏置为否，第二个常规卷积模块中的卷积核的大小为 1×1、步长为1、偏置为否，第一个均值归一化的输入特征的个数为1280，第一个激活函数所采用的激活方式是“LeakyReLU”，第一个残差块、第二个残差块、第三个残差块、第四个残差块、第五个残差块、第六个残差块、第七个残差块、第八个残差块、第九个残差块、第十个残差块、第十一个残差块和第十二个残差块中第一个卷积核的大小为1×1、步长为1、偏置参数为否，第一个残差块、第二个残差块、第三个残差块、第四个残差块、第五个残差块、第六个残差块、第七个残差块、第八个残差块、第九个残差块、第十个残差块、第十一个残差块和第十二个残差块中的第二个卷积核的大小为3×3、步长为1、填充为1、偏置参数为否，第一个空洞卷积块中的第一个卷积核的大小为3×3、步长为1、填充为3、膨胀系数(Dilation)为3，第一个空洞卷积中的第二个卷积核的大小为3×3、步长为1、填充为6、膨胀系数为6，第三卷积核核大小为1、步长为1，第一自适应平均池化的输出特征的宽W＝1、高H＝1，第二个激活函数所采用的激活方式为“Sigmoid”，M₇中的每幅特征图的宽度为W/8、高度为H/8。

对于第4个常规卷积块，其由依次连接的第一个卷积层、第一个归一化层、第一个激活层组成；第4个常规卷积块的输入端接收M₇中的所有特征图，第4个常规卷积模块的输出端输出1280副特征图，将1280副特征图构成的集合记为M₈；其中，第一卷积层的卷积核大小为3×3、卷积核的个数为1280、步长为2、填充为1、偏置参数为否，第一个归一化层的输入特征数为1280，第一激活层所采用的激活方式为“Hardswish”，M₈中的每幅特征图的宽度为W/16、高度为H/16。

对于第1个空间金字塔池化模块，其由连接的第一个空洞卷积块、第二个空洞卷积块、第三个空洞卷积块、第一个常规卷积块、第二个常规卷积块、第三个常规卷积块、第四个常规卷积块、第五个常规卷积块组成；第1个空间金字塔池化模块的输入端接收M₈中的所有特征图，第1个空间金字塔池化模块的输出端输出1280幅特征图，将1280副特征图构成的集合记为M₉；其中，第一个空洞卷积块的第一卷积核的核大小为3×3、步长为1、填充为3、膨胀系数为3，第二个空洞卷积块的第一卷积核的核大小为3×3、步长为1、填充为5、膨胀系数为5，第三个空洞卷积块的第一卷积核的核大小为3×3、步长为1，填充为7、膨胀系数为7，第一个常规卷积块的卷积核的核大小为 1、步长为1，第一个常规卷积块的归一化层的输入特征数为1280，第一个常规卷积块的激活方式采用的是“ReLU”，第二个常规卷积块的卷积核的核大小为1、步长为1，第二个常规卷积块的归一化层的输入特征数为1，第一个常规卷积块的激活方式采用的是“ReLU”，第三个常规卷积块的卷积核的核大小为1、步长为1，第三个常规卷积块的归一化层的输入特征数为1，第三个常规卷积块的激活方式采用的是“ReLU”，第四个常规卷积块的卷积核的核大小为1、步长为1，第四个常规卷积块的归一化层的输入特征数为1，第四个常规卷积块的激活方式采用的是“ReLU”，第五个常规卷积块的卷积核的核大小为1、步长为1，第五个常规卷积块的归一化层的输入特征数为1，第五个常规卷积块的激活方式采用的是“ReLU”，M₉中的每幅特征图的宽度为W/16，高度为H/16。

对于第4个残差卷积模块，其由依次连接的第一个常规卷积模块、第一个卷积核、第二个卷积核、第二个常规卷积模块、第一个均值归一化、第一个激活函数、第一个残差块、第二个残差块、第三个残差块、第四个残差块、第一个空洞卷积块、第二个空洞卷积块、第三个卷积核、第一个自适应平均池化、第二个激活函数组成；第4个残差卷积模块的输入端接受M₉中的所有特征图，第4个残差卷积模块的输出端输出1280副特征图，将1280副特征图构成的集合记为M₁₀；其中，第一个常规卷积模块中的卷积核的大小为3×3、步长为1、填充为1、偏置参数为否，第一个卷积核核大小为1×1、步长为1，第二个卷积核核大小1×1、步长为1、偏置为否，第二个常规卷积模块中的卷积核的大小为1×1、步长为1、偏置为否，第一个均值归一化的输入特征的个数为2560，第一个激活函数所采用的激活方式是“LeakyReLU”，第一个残差块、第二个残差块、第三个残差块和第四个残差块中第一个卷积核的大小为 1×1、步长为1、偏置参数为否，第一个残差块、第二个残差块、第三个残差块和第四个残差块中的第二个卷积核的大小为3×3、步长为1、填充为1、偏置参数为否，第一个空洞卷积块中的第一个卷积核的大小为3×3、步长为1、填充为3、膨胀系数(Dilation)为3，第二个空洞卷积中的第一个卷积核的大小为3×3、步长为1、填充为6、膨胀系数为6，第三个卷积核核大小为1、步长为1，第一自适应平均池化的输出特征的宽W＝1、高H＝1，第二个激活函数所采用的激活方式为“Sigmoid”，M₁₀中的每幅特征图的宽度为W/16、高度为H/16。

对于第5个常规卷积块，其由依次连接的第一个卷积层、第一个归一化层、第一个激活层组成；第5个常规卷积块的输入端接收M₁₀中的所有特征图，第5个常规卷积模块的输出端输出640副特征图，将640副特征图构成的集合记为M₁₁；其中，第一卷积层的卷积核大小为1×1、卷积核的个数为640、步长为1、偏置参数为否，第一个归一化层的输入特征数为640，第一激活层所采用的激活方式为“Hardswish”，M₁₁中的每幅特征图的宽度为W/16、高度为H/16。

对于第1个上采样模块，其由最近邻插值上采样(nearest)组成；第一个上采样模块的输入端接收M₁₁中的所有特征图，第一个上采样模块的输出端输出640副特征图，将640副特征图构成的集合记为M₁₂；M₁₂中的每幅特征图的宽度为W/8、高度为H/8。

对于第1个堆叠模块，它的输入端输入是M₁₂中的640副特征图与M₇中的640副特征图，输出端输出1280副特征图，将1280副特征图构成的集合记为M₁₃；第一个堆叠模块的输出是它将M₁₂中的特征图与M₇中的特征图在通道维度上进行一个堆叠操作，M₁₃中的每幅特征图的宽度为W/8、高度为 H/8。

对于第5个残差卷积模块，其由依次连接的第一个常规卷积模块、第一个卷积核、第二个卷积核、第二个常规卷积模块、第一个均值归一化、第一个激活函数、第一个残差块、第二个残差块、第三个残差块、第四个残差块、第一个空洞卷积块、第二个空洞卷积块、第三个卷积核、第一个自适应平均池化、第二个激活函数组成；第5个残差卷积模块的输入端接受M₁₃中的所有特征图，第5个残差卷积模块的输出端输出640副特征图，将640副特征图构成的集合记为M₁₄；其中，第一个常规卷积模块中的卷积核的大小为1×1、步长为1、填充为1、偏置参数为否，第一个卷积核核大小为1×1、步长为1，第二个卷积核核大小1×1、步长为1、偏置为否，第二个常规卷积模块中的卷积核的大小为1×1、步长为1、偏置为否，第一个均值归一化的输入特征的个数为1280，第一个激活函数所采用的激活方式是“LeakyReLU”，第一个残差块、第二个残差块、第三个残差块和第四个残差块中第一个卷积核的大小为 1×1、步长为1、偏置参数为否，第一个残差块、第二个残差块、第三个残差块和第四个残差块中的第二个卷积核的大小为3×3、步长为1、填充为1、偏置参数为否，第一个空洞卷积块中的卷积核的大小为3×3、步长为1、填充为 3、膨胀系数(Dilation)为3，第二个空洞卷积中的卷积核的大小为3×3、步长为1、填充为6、膨胀系数为6，第三个卷积核核大小为1、步长为1，第一自适应平均池化的输出特征的宽W＝1、高H＝1，第二个激活函数所采用的激活方式为“Sigmoid”，M₁₄中的每幅特征图的宽度为W/8、高度为H/8。

对于第6个常规卷积块，其由依次连接的第一个卷积层、第一个归一化层、第一个激活层组成；第6个常规卷积块的输入端接收M₁₄中的所有特征图，第6个常规卷积模块的输出端输出320副特征图，将320副特征图构成的集合记为M₁₅；其中，第一卷积层的卷积核大小为1×1、卷积核的个数为320、步长为1、偏置参数为否，第一个归一化层的输入特征数为320，第一激活层所采用的激活方式为“Hardswish”，M₁₅中的每幅特征图的宽度为W/8、高度为H/8。

对于第2个上采样模块，其由最近邻插值上采样组成；第2个上采样模块的输入端接收M₁₅中的所有特征图，第2个上采样模块的输出端输出320 副特征图，将320副特征图构成的集合记为M₁₆；M₁₆中的每幅特征图的宽度为W/4、高度为H/4。

对于第2个堆叠模块，它的输入端输入是M₁₆中的320副特征图与M₅中的320副特征图，输出端输出640副特征图，将640副特征图构成的集合记为M₁₇；第2个堆叠模块的输出是它将M₁₂中的特征图与M₇中的特征图在通道维度上进行一个堆叠操作，M₁₇中的每幅特征图的宽度为W/4、高度为H/4。

对于第6个残差卷积模块，其由依次连接的第一个常规卷积模块、第一个卷积核、第二个卷积核、第二个常规卷积模块、第一个均值归一化、第一个激活函数、第一个残差块、第二个残差块、第三个残差块、第四个残差块、第一个空洞卷积块、第二个空洞卷积块、第三个卷积核、第一个自适应平均池化、第二个激活函数组成；第6个残差卷积模块的输入端接受M₁₇中的所有特征图，第6个残差卷积模块的输出端输出320副特征图，将320副特征图构成的集合记为M₁₈；其中，第一个常规卷积模块中的第一个卷积核的大小为 1×1、步长为1、填充为1、偏置参数为否，第一个卷积核核大小为1×1、步长为1，第二个卷积核核大小1×1、步长为1、偏置为否，第二个常规卷积模块中的第一个卷积核的大小为1×1、步长为1、偏置为否，第一个均值归一化的输入特征的个数为640，第一个激活函数所采用的激活方式是“LeakyReLU”，第一个残差块、第二个残差块、第三个残差块和第四个残差块中第一个卷积核的大小为1×1、步长为1、偏置参数为否，第一个残差块、第二个残差块、第三个残差块和第四个残差块中的第二个卷积核的大小为3×3、步长为1、填充为1、偏置参数为否，第一个空洞卷积块中的卷积核的大小为3×3、步长为 1、填充为3、膨胀系数(Dilation)为3，第二个空洞卷积中的卷积核的大小为3×3、步长为1、填充为6、膨胀系数为6，第三个卷积核核大小为1、步长为1，第一自适应平均池化的输出特征的宽W＝1、高H＝1，第二个激活函数所采用的激活方式为“Sigmoid”，M₁₈中的每幅特征图的宽度为W/4、高度为 H/4。

对于第7个常规卷积块，其由依次连接的第一个卷积层、第一个归一化层、第一个激活层组成；第7个常规卷积块的输入端接收M₁₈中的所有特征图，第7个常规卷积模块的输出端输出320副特征图，将320副特征图构成的集合记为M₁₉；其中，第一卷积层的卷积核大小为3×3、卷积核的个数为320、步长为2、填充为1、偏置参数为否，第一个归一化层的输入特征数为320，第一激活层所采用的激活方式为“Hardswish”，M₁₉中的每幅特征图的宽度为 W/8、高度为H/8。

对于第3个堆叠模块，它的输入端输入是M₁₉中的320副特征图与M₁₅中的320副特征图，输出端输出640副特征图，将640副特征图构成的集合记为M₂₀；第3个堆叠模块的输出是它将M₁₉中的特征图与M₁₅中的特征图在通道维度上进行一个堆叠操作，M₂₀中的每幅特征图的宽度为W/8、高度为 H/8。

对于第7个残差卷积模块，其由依次连接的第一个常规卷积模块、第一个卷积核、第二个卷积核、第二个常规卷积模块、第一个均值归一化、第一个激活函数、第一个残差块、第二个残差块、第三个残差块、第四个残差块、第一个空洞卷积块、第二个空洞卷积块、第三个卷积核、第一个自适应平均池化、第二个激活函数组成；第7个残差卷积模块的输入端接受M₂₀中的所有特征图，第7个残差卷积模块的输出端输出640副特征图，将640副特征图构成的集合记为M₂₁；其中，第一个常规卷积模块中的卷积核的大小为1×1、步长为1、填充为1、偏置参数为否，第一个卷积核核大小为1×1、步长为1，第二个卷积核核大小1×1、步长为1、偏置为否，第二个常规卷积模块中的卷积核的大小为1×1、步长为1、偏置为否，第一个均值归一化的输入特征的个数为1280，第一个激活函数所采用的激活方式是“LeakyReLU”，第一个残差块、第二个残差块、第三个残差块和第四个残差块中第一个卷积核的大小为 1×1、步长为1、偏置参数为否，第一个残差块、第二个残差块、第三个残差块和第四个残差块中的第二个卷积核的大小为3×3、步长为1、填充为1、偏置参数为否，第一个空洞卷积块中的卷积核的大小为3×3、步长为1、填充为 3、膨胀系数(Dilation)为3，第二个空洞卷积中的卷积核的大小为3×3、步长为1、填充为6、膨胀系数为6，第三个卷积核核大小为1、步长为1，第一自适应平均池化的输出特征的宽W＝1、高H＝1，第二个激活函数所采用的激活方式为“Sigmoid”，M₂₁中的每幅特征图的宽度为W/8、高度为H/8。

对于第8个常规卷积块，其由依次连接的第一个卷积层、第一个归一化层、第一个激活层组成；第8个常规卷积块的输入端接收M₂₁中的所有特征图，第8个常规卷积模块的输出端输出640副特征图，将640副特征图构成的集合记为M₂₂；其中，第一卷积层的卷积核大小为3×3、卷积核的个数为640、步长为2、填充为1、偏置参数为否，第一个归一化层的输入特征数为640，第一激活层所采用的激活方式为“Hardswish”，M₂₂中的每幅特征图的宽度为 W/16、高度为H/16。

对于第4个堆叠模块，它的输入端输入是M₂₂中的640副特征图与M₁₁中的640副特征图，输出端输出1280副特征图，将1280副特征图构成的集合记为M₂₃；第4个堆叠模块的输出是它将M₂₂中的特征图与M₁₁中的特征图在通道维度上进行一个堆叠操作，M₂₃中的每幅特征图的宽度为W/16、高度为H/16。

对于第8个残差卷积模块，其由依次连接的第一个常规卷积模块、第一个卷积核、第二个卷积核、第二个常规卷积模块、第一个均值归一化、第一个激活函数、第一个残差块、第二个残差块、第三个残差块、第四个残差块、第一个空洞卷积块、第二个空洞卷积块、第三个卷积核、第一个自适应平均池化、第二个激活函数组成；第8个残差卷积模块的输入端接受M₂₃中的所有特征图，第8个残差卷积模块的输出端输出1280副特征图，将1280副特征图构成的集合记为M₂₄；其中，第一个常规卷积模块中的卷积核的大小为1×1、步长为1、填充为1、偏置参数为否，第一个卷积核核大小为1×1、步长为1，第二个卷积核核大小1×1、步长为1、偏置为否，第二个常规卷积模块中的卷积核的大小为1×1、步长为1、偏置为否，第一个均值归一化的输入特征的个数为2560，第一个激活函数所采用的激活方式是“LeakyReLU”，第一个残差块、第二个残差块、第三个残差块和第四个残差块中第一个卷积核的大小为 1×1、步长为1、偏置参数为否，第一个残差块、第二个残差块、第三个残差块和第四个残差块中的第二个卷积核的大小为3×3、步长为1、填充为1、偏置参数为否，第一个空洞卷积块中的卷积核的大小为3×3、步长为1、填充为 3、膨胀系数(Dilation)为3，第二个空洞卷积中的卷积核的大小为3×3、步长为1、填充为6、膨胀系数为6，第三个卷积核核大小为1、步长为1，第一自适应平均池化的输出特征的宽W＝1、高H＝1，第二个激活函数所采用的激活方式为“Sigmoid”，M₂₄中的每幅特征图的宽度为W/16、高度为H/16。

对于输出层，它包含1个检测输出模块，其由依次连接的第一个卷积核、第二个卷积核、第三个卷积核组成；第1个检测输出模块的输入端接收M₂₄中的所有特征图，检测输出模块的输出有三个，分别用来检测大、中、小类别的物体，每一类检测输出有51副特征图，将检测大、中、小类输出的51 副特征图构成的集合分别记为M₂₅、M₂₆、M₂₇；其中第一个卷积核、第二个卷积核、第三个卷积核的核大小为1×1、步长为1；M₂₅中的每幅特征图的宽度为W/4、高度为H/4，M₂₆中的每幅特征图的宽度为W/8、高度为H/8，M₂₇中的每幅特征图的宽度为W/16、高度为H/16，最后将M₂₅、M₂₆、M₂₇分别送入 yolov5的检测器，得到物体的边框回归坐标、目标分类结果以及置信度大小。

步骤1_4：将训练集中的每幅原始的垃圾桶垃圾图像作为原始输入图像，输入到卷积神经网络中进行训练，得到训练集中的每幅原始的垃圾桶垃圾图像对应的垃圾分类的检测结果，将对应的垃圾分类检测得到的边框回归坐标、目标分类结果和置信度大小分别记为J_pre1、J_pre2、J_pre3。

步骤1_5：计算训练集中的每幅原始的垃圾桶垃圾图像对应的边框回归坐标、目标分类结果和置信度大小构成的集合与对应的真实边框回归坐标、目标分类结果和置信度大小构成的集合之间的损失函数值，将

与

之间的损失函数值记为

采用二分类交叉熵(binary categoricalcrossentropy)获得，将

与

之间的损失函数值记为

采用二分类交叉熵获得，将

与

之间的损失函数值记为

采用二分类交叉熵获得。

所述的测试阶段过程的具体步骤为：

步骤2_1：令I^q表示待检测的垃圾桶垃图像集中的第q幅图像；其中，1 ≤q≤Q，在这里我们的Q＝19181。

步骤2_2：将I^q的R通道分量、G通道分量和B通道分量输入到卷积神经网络检测模型中，并利用已经训练好的网络权重进行预测，得到I^q对应的边框回归坐标、目标分类结果和置信度大小，分别记为

其中

表示I^q通过网络后的得到的预测的边框回归坐标，

表示I^q通过网络后的得到的预测的目标分类结果，

表示I^q通过网络后的得到的预测的置信度大小。

为了进一步验证本发明方法的可行性和有效性，进行实验。

使用基于python的深度学习库Pytorch3.6搭建多尺度带孔卷积神经网络的架构。采用自制的垃圾桶垃圾图像测试集来分析利用本发明方法预测得到的垃圾桶垃圾检测图像(取1542幅垃圾桶垃圾图像)的垃圾检测效果如何。这里，利用评估目标检测方法的3个常用客观参量作为评价指标，即召回率(R： recall)、精确率(P：precision)、平均精度均值(mAP：mean average precision) 来评价预测垃圾分类的检测性能。

利用本发明方法在测试集中的每幅垃圾桶垃圾图像进行检测，得到每幅垃圾桶垃圾图像对应的边框回归坐标、目标分类结果和置信度大小，反映本发明方法的目标检测效果的召回率、精确率、平均精度均值如表1所列。从表1所列的数据可知，按本发明方法得到的垃圾检测结果是较好的，表明利用本发明方法来获取垃圾桶垃圾检测图像是可行性且有效的。

表1利用本发明方法在测试集上的评测结果

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于卷积神经网络的生活垃圾分类检测方法，其特征在于，

2.根据权利要求1所述的一种基于卷积神经网络的生活垃圾分类检测方法，其特征在于，所述训练集待检测分类垃圾图像的边框坐标、分类结果、置信度大小分别记为

将训练集中与

和

3.根据权利要求1所述的一种基于卷积神经网络的生活垃圾分类检测方法，其特征在于，所述卷积神经网络包括，输入层、隐层和输出层；

所述隐层包括，1个切片模块、8个常规卷积模块、8个残差卷积模块、1个空间金字塔池化模块、2个上采样模块、4个堆叠模块；其中，第一个切片模块、第一个常规卷积模块、第一个残差卷积模块、第二个常规卷积模块、第二个残差卷积模块、第三个常规卷积模块、第三个残差卷积模块、第四个常规卷积模块、第一个空间金字塔池化模块、第四个残差卷积模块、第五个常规卷积模块、第一个上采样模块、第一个堆叠模块、第五个残差卷积模块、第六个常规卷积模块、第二个上采样模块、第二个堆叠模块、第六个卷积残差模块、第七个常规卷积模块、第三个堆叠模块、第七个残差卷积模块、第八个常规卷积模块、第四个堆叠模块、第八个残差卷积模块依次连接，并且所述第二个残差卷积模块与所述第二个堆叠模块连接，所述第三个残差卷积模块与所述第一个堆叠模块连接，所述第五个常规卷积模块与所述第四个堆叠模块连接，所述第六个常规卷积模块与第三个堆叠模块连接，所述第六个残差卷积模块、所述第七个残差卷积模块和所述第八个残差卷积模块均与所述输出层的第一个输出模块连接；

4.根据权利要求3所述的一种基于卷积神经网络的生活垃圾分类检测方法，其特征在于，所述检测器针对训练集采用K-means聚类算法。

5.根据权利要求3所述的一种基于卷积神经网络的生活垃圾分类检测方法，其特征在于，所述切片模块包括依次连接的卷积层、均值归一化层、激活层。

6.根据权利要求3所述的一种基于卷积神经网络的生活垃圾分类检测方法，其特征在于，所述常规卷积模块包括依次连接的第一个卷积层、第一个归一化层、第一个激活层。

7.根据权利要求3所述的一种基于卷积神经网络的生活垃圾分类检测方法，其特征在于，所述残差卷积模块包括四条支路，第一支路为第一个卷积核、第一个残差模块组件、第二个卷积核依次连接；第二支路为第三卷积核和第四卷积核依次连接；第三支路为第一个带空洞卷积的卷积核、第一个自适应平均池化层、第一个激活函数依次连接的输出与所述第一个带空洞卷积的卷积核做像素级点乘，所述像素级点乘后的输出结果与所述第一个带空洞卷积的卷积核做像素级相加；第四支路为第二个带空洞卷积的卷积核、第二个自适应平均池化层、第二个激活函数依次连接的输出与所述第二个带空洞卷积的卷积核做像素级点乘，所述像素级点乘后的输出结果与所述第二个带空洞卷积的卷积核做像素级相加；

8.根据权利要求3所述的一种基于卷积神经网络的生活垃圾分类检测方法，其特征在于，所述残差模块组件为：第一个卷积核、第一个自适应平均池化层、第一个激活函数依次连接的输出与所述第一个卷积核做像素级点乘；像素点乘结果输入第一个最大值函数，所述第一个最大值函数、第二个卷积核、第二个激活函数依次连接的输出与所述像素级点乘结果做像素级点乘，得到的输出作为第二个卷积核的输入。

9.根据权利要求3所述的一种基于卷积神经网络的生活垃圾分类检测方法，其特征在于，空间金字塔池化模块包四个通道，在第一通道中，第一卷积核和第二卷积核依次连接，在第二通道中，第三卷积核和第四卷积核依次连接，在第三通道中，第五卷积核和第六卷积核依次连接，在第四通道中，第七卷积核和第八卷积核依次连接，接着所述第一通道，所述第二通道，所述第三通道和所述第四通道的输出输入到第一个堆叠模块，在通道上进行堆叠，堆叠后的输出在经过第一个激活函数，来获得通道上的权重，再经过第一个分块函数进行通道上的分割，将分割后的权重分别与所述第一个卷积核，所述第三个卷积核，所述第五个卷积核，所述第七个卷积核进行像素级点乘；得到的四个输出分别送入到所述四个通道的输入端，再进行像素级相加后输出。