CN114782762A

CN114782762A - 一种垃圾图像检测方法以及小区垃圾站

Info

Publication number: CN114782762A
Application number: CN202210716108.5A
Authority: CN
Inventors: 谈玲; 徐子峰; 亢嘉琦; 高嘉轩; 张绍莹
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2022-07-22
Anticipated expiration: 2042-06-23
Also published as: CN114782762B

Abstract

本发明公开了一种垃圾图像检测方法以及小区垃圾站，包括：获取垃圾图像，对垃圾图像进行预处理，调整为设定图像大小，将预处理后的垃圾图像输入到预先训练好的基于SP‑SSD的垃圾图像检测网络，得到垃圾类别和位置。优点：本发明应用卷积块和残差连接，利用卷积块按扩张率扩张图像维度，从高维图像提取特征，将特征信息进行充分利用，并利用残差连接融合卷积块的特征，构建并训练垃圾图像检测网络。本发明具有较高的准确性和便捷性，在保证垃圾检测精度较高的同时，也兼顾了检测速度。可部署模型在小区垃圾站的垃圾箱上实现垃圾图像检测，帮助小区居民提高垃圾分类效率，实现垃圾箱智能检测目的。

Description

一种垃圾图像检测方法以及小区垃圾站

技术领域

本发明涉及一种垃圾图像检测方法以及小区垃圾站，属于计算机视觉技术领域。

背景技术

近年来，目标检测作为计算机视觉领域的基本热点领域之一，在无人驾驶、人脸检测、医学图像等应用广泛。早初基于深度学习的目标检测是滑动窗口的思想，后来利用卷积代替全连接的优化方法，加速了网络模型的识别速度。在需要检测图像中多个目标时，识别难度增加，现有的单阶段目标检测算法Single Shot MultiBox Detector（SSD）是比较流行的，使用多层特征图在多尺度区域进行分类和定位，浅层特征图检测小目标，高层特征图检测大目标，在保证检测图像中目标精度的同时，也大大提高了检测图像中目标的速度。使用ResNet101作为特征提取网络，基于Topdown的网络结构，用反卷积代替传统的双线性插值上采样，在预测阶段引入残差单元，优化候选框回归和分类任务输入的特征图。多种特征融合的模块方案中，在SSD上新增了轻量级的特征融合模块，并生成了全新的特征金字塔用于目标检测，使精度比原生的SSD提升很多，速度下降很少。现有的互相关联的锚框细化模块（ARM）和目标检测模块（ODM），为了保证效率，还设计了传输连接模块（TCB）来处理更加具有挑战性的任务。总之，图像处理中的目标检测领域发展取得了很大的成果。

随着城镇化进度的加快，城市居民的垃圾产量也不断增加，这给环境保护带来了巨大挑战。当今，各大城市号召居民进行垃圾分类，垃圾分类主要包括厨余垃圾，可回收物，有害垃圾和其他垃圾等。各个社区在小区内布置集中垃圾点，放置垃圾箱，辅助环卫人员的人工挑拣。对于有垃圾分类意识的居民来言，垃圾分类并非难事。然而有的居民并不能很好地进行垃圾分类，这大大地使垃圾分类降低了效率。传统的垃圾箱上并没有垃圾检测模块，因此，使小区垃圾站的垃圾箱上具有垃圾检测功能，是极其必要的。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种垃圾图像检测方法以及小区垃圾站，实现垃圾图像检测，帮助小区居民提高垃圾分类的效率，实现垃圾箱智能检测目的。

为解决上述技术问题，本发明提供一种垃圾图像检测方法，包括：

获取垃圾图像，对垃圾图像进行预处理，调整为设定图像大小，将预处理后的垃圾图像输入到预先训练好的基于SP-SSD的垃圾图像检测网络，得到垃圾类别和位置；

所述基于SP-SSD的垃圾图像检测网络的结构包括依次连接的第一至第十一卷积块；其中，在第一至第四卷积块中，将第一卷积块的输入残差连接至第一卷积块的输出，并作为第二卷积块的输入，将第二卷积块的输入残差连接至第二卷积块的输出，并作为第三卷积块的输入，将第三卷积块的输入残差连接至第三卷积块的输出，并作为第四卷积块的输入，分别用于对输入的图像或特征图像进行不同步长的卷积处理，输出对应的特征图像；

第五卷积块，用于对第四卷积块输出的特征图像多次利用设定的扩张率、点卷积方式、深度卷积方式进行特征图像的高低维转换后提取特征，每次得到的特征与得到该次特征的输入通过残差连接进行特征融合，作为下次提取特征的输入，直到最后一次提取特征，输出第五卷积块特征图像，利用第五卷积块特征图像输出进行分类和定位；

第六卷积块，用于对第五卷积块输出的特征图像进行相应步长的卷积处理，输出对应的特征图像；第七卷积块，用于对第六卷积块输出的特征图像利用设定的扩张率、点卷积方式、深度卷积方式进行特征图像的高低维转换后提取特征，输出第七卷积块特征图像；第六和第七卷积块输出特征图像的宽度和高度一致，第七卷积块的特征图输出具有更多通道数，特征图的特征也更多，因此利用第七卷积块提取的特征进行分类和定位；

第八卷积块，用于对第七卷积块输出的特征图像利用指定的扩张率、点卷积方式、深度卷积方式进行特征图的高低维转换后提取特征，将提取后的特征进行分类和定位；

第九卷积块、第十卷积块、第十一卷积块，分别用于对前一卷积块输出的特征图像利用点卷积方式、深度卷积方式对特征图进行提取特征，将提取的特征进行分类和定位。

进一步的，所述对垃圾图像进行预处理，调整为设定图像大小，包括：

利用Resize函数对垃圾图像进行预处理，将其调整为设定图像大小，设定图像大小的尺寸为（320，320，3），括号中第一位数字表示图像的长，第二位数字表示图像的宽，第三位数字表示图像的通道数。

进一步的，所述第五卷积块、第七卷积块、第八卷积块、第九卷积块、第十卷积块和第十一卷积块，分别用于检测不同尺度的垃圾图像上的目标，为第五卷积块、第七卷积块、第八卷积块、第九卷积块、第十卷积块和第十一卷积块输出的不同的特征图像的每个像素点设置若干个先验框，其中，先验框用于在每个特征层对特定大小的垃圾图像中的目标进行响应；

所述先验框在各个卷积快中的大小依据下式设置，

其中，Sk表示特征图上设置的先验框长宽比，Smin表示特征图上设置的先验框长宽比的最小比例，Smax表示特征图上设置的先验框长宽比的最大比例，m表示预测使用的特征图的数量，k表示当前使用的特征图对应的值。

进一步的，所述第五卷积块包括第一卷积层、第二卷积层和第三卷积层，第五卷积块的特征输出的特征为（20，20，96），它是由第四卷积块输出的特征（20，20，64）经过3轮同样的特征提取而来，包括：

（1）第一卷积层的输入为第四卷积块输出的特征，接着利用扩张率为6的1*1点卷积进行升维，然后利用步长为1、卷积核数为96的深度卷积进行下采样，最后进行1*1点卷积进行降维，得到第一卷积层的输出；将第一卷积层的输入和第一卷积层的输出进行残差连接作为第二卷积层的输入，接着利用扩张率为6的1*1点卷积进行升维，然后利用步长为1、卷积核数为96的深度卷积进行下采样，最后进行1*1点卷积进行降维，得到第二卷积层的输出；将第二卷积层的输入和第二卷积层的输出进行残差连接作为第三卷积层的输入，接着利用扩张率为6的1*1点卷积进行升维，然后利用步长为1、卷积核数为96的深度卷积进行下采样，最后进行1*1点卷积进行降维，得到第三卷积层的输出；

（2）将第三卷积层的输入和第三卷积层的输出进行残差连接作为第二轮特征提取的输入，重复（1）的过程，将第二轮的第三卷积层的输入和第三卷积层的输出进行残差连接作为第三轮特征提取的输入，重复（1）的过程，输出尺寸为（20，20，96）的特征，利用输出的尺寸为（20，20，96）的特征进行分类和定位。

进一步的，所述第七卷积块的特征输出尺寸为（10，10，1280）的特征，它是由第六卷积块输出的特征（10，10，160）经过特征提取而来，包括：（1）对特征（10，10，160）利用扩张率为6的1*1点卷积进行升维，然后利用步长为1、卷积核数为320的深度卷积进行下采样，最后进行1*1点卷积进行降维；（2）接着利用扩张率为6的1*1点卷积进行升维，然后利用步长为1、卷积核数为1280的深度卷积进行下采样，最后进行1*1点卷积进行降维；最后利用处理后的（10，10，1280）特征输出进行分类和定位。

进一步的，所述第八卷积块的特征输出为（5，5，512），它是由第七卷积块特征（10，10，1280）特征提取而来，包括：（1）将（10，10，1280）输出通道数乘以0.2，得到通道数为256，利用1*1点卷积步长为1、卷积核数为256，得到（10，10，256）特征输出；（2）将（10，10，256）利用卷积步长为2、卷积核大小为3*3、卷积核数为256的深度卷积得到（5，5，256）；（3）将（5，5，256）利用1*1点卷积、步长为1、卷积核大小为3*3、卷积核数为512的深度卷积；最后将处理后的（5，5，512）特征输出进行分类和定位。

进一步的，所述第九卷积块的特征输出为（3，3，256），它是由第八卷积块特征（5，5，512）提取特征而来，包括：（1）将（5，5，512）的输出通道数乘以0.25，得到通道数为128，利用1*1点卷积步长为1、卷积核数为128，得到（5，5，128）特征输出；（2）将（5，5，128）利用卷积步长为2、卷积核大小为3*3、卷积核数为256的深度卷积得到（3，3，256）；（3）将（3，3，256）利用1*1、卷积核为256的点卷积，得到（3，3，256）的特征图；最后将处理后的（3，3，256）特征输出进行分类和定位；

所述第十卷积块的特征为（2，2，256），它是由第九卷积块（3，3，256）提取特征而来，包括：（1）将（3，3，256）的输出通道数乘以0.5，得到通道数为128，利用1*1点卷积步长为1、卷积核数为128，得到（3，3，128）特征输出；（2）将（3，3，128）利用卷积步长为2、卷积核大小为3*3、卷积核数为256的深度卷积得到（2，2，256）；（3）将（2，2，256）利用1*1、卷积核为256的点卷积，得到（2，2，256）的特征图；最后将处理后的（2，2，256）特征输出进行分类和定位。

所述第十一卷积块的特征为（1，1，64），它是由第十卷积块（2，2，256）提取特征而来，包括：（1）将（2，2，256）的输出通道数乘以0.25，得到通道数为64，利用1*1点卷积步长为1、卷积核数为64，得到（2，2，64）特征输出；（2）将（2，2，64）利用卷积步长为2、卷积核大小为3*3、卷积核数为64的深度卷积得到（1，1，64）；（3）将（1，1，64）利用1*1、卷积核为64的点卷积，得到（1，1，64）的特征图；最后将处理后的（1，1，64）特征输出进行分类和定位。

进一步的，所述基于SP-SSD的垃圾图像检测网络的训练过程，包括：

获取垃圾数据集，所述垃圾数据集包括：厨余垃圾、有害垃圾、其他垃圾和可回收物；

利用LabelImg软件对垃圾数据集上的垃圾进行标注，为每一张图像生成VOC格式对应的xml文件，利用标注好的垃圾数据集制作训练集，训练集的每一张图像尺寸为所述设定图像大小；

设置损失函数，损失函数为位置误差与置信度误差的加权和，表示为：

其中，N是先验框的正样本数量；x为某一类别下先验框和真实框的交并比大于阈值而保留下来的先验框数量；c为类别置信度预测值；l为先验框的所对应边界框的位置预测值；g是真实框位置参数；α表示权重系数；置信度误差L _conf(x,c)采用softmax loss；位置误差L _loc(x,l,g)采用Smooth L1 loss；真实框表示利用LabelImg软件对垃圾数据集上的垃圾进行位置和类别标注的框。

利用训练集和损失函数训练基于SP-SSD的垃圾图像检测网络，在达到预设迭代次数或者总损失收敛时，保存此时的网络参数，得到训练好的基于SP-SSD的垃圾图像检测网络。

一种小区垃圾站，包括：

在小区垃圾站的垃圾箱上，安装垃圾检测显示屏和中控台，所述中控台根据所述的垃圾图像检测方法对输入的垃圾图像进行检测，将检测结果输出到显示屏上。

进一步的，还包括文件储存设备，对无法识别的垃圾图像进行存储，用于后期重新进行标识、训练，持续扩充垃圾识别的范围。

本发明所达到的有益效果：

(1) 本发明应用卷积块和残差连接，利用卷积块按扩张率扩张图像维度，从高维图像提取特征，将特征信息进行充分利用，并利用残差连接融合卷积块的特征，构建并训练垃圾图像检测网络。本发明的平均检测精度（mAP）为86.33%，参数量（Param）为2.87M，每秒传输帧数（FPS）为94。

（2）本发明具有较高的准确性和便捷性，在保证垃圾检测精度较高的同时，也兼顾了检测速度。可部署模型在小区垃圾站的垃圾箱上实现垃圾图像检测，帮助小区居民提高垃圾分类效率，实现垃圾箱智能检测目的。

附图说明

图1是本发明的流程示意图。

图2是本发明的SP-SSD结构示意图。

图3是第五卷积块示意图。

图4是第七卷积块示意图。

图5是第九卷积块示意图。

图6是本发明的垃圾箱示意图；其中，数字1代表其他垃圾桶，数字2代表可回收物桶，数字3代表厨余垃圾桶，数字4代表废弃化妆品桶，数字5代表废弃药品桶，6代表电子垃圾桶。

图7是本发明的方法和其他方法的平均精度对比图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

结合图1和2所示，本发明提及一种垃圾图像检测方法，包括以下步骤：

S1，构建基于SP-SSD的垃圾图像检测网络，所述的该垃圾图像检测网络包括卷积块、残差连接、特征融合、分类和定位和非极大值抑制。

S2，对于输入的特征图，利用卷积块进行图像的特征提取，利用残差连接将不同的特征进行融合。在多个卷积块提取的特征中，挑选第五卷积块、第七卷积块、第八卷积块、第九卷积块、第十卷积块和第十一卷积块的特征提取的输出进行进一步处理。

进一步地，步骤S2中，所述卷积块中，包括以下步骤：

S21，对于输入的垃圾图像，利用Resize函数预处理，将其调整为（320，320，3），然后使用卷积块进行不同步长的卷积，前四卷积块的特征输出分别为（160，160，16）、（80，80，24）（40，40，32）、（20，20，64）。第六卷积块的特征输出为（10，10，160），第七卷积块的特征输出为（10，10，1280），第六和第七卷积块的大小均设置为（10，10），第六和第七卷积块输出特征图像的宽度和高度一致，第七卷积块除具有和第六卷积块相同的尺寸外，其通道数更多，特征图的特征也更多，有利于检测该尺度的垃圾目标。最终，使用第五卷积块、第七卷积块、第八卷积块、第九卷积块、第十卷积块和第十一卷积块这6个不同的特征图检测不同尺度的垃圾图像上的目标，它们的特征图大小分别为（20，20，96）、（10，10，1280）、（5，5，512）、（3，3，256）、（2，2，256）和（1，1，64）。低层的特征图用来预测垃圾图像中的小目标，高层的特征图用来预测垃圾图像中的大目标，达到多尺度识别垃圾目标的目的。

S22，为这6个不同的特征图的每个像素点设置6个先验框。其中宽高比为{1，2, 3,1/2,1/3,1’}，设置不同宽高比可以检测到不同宽高比的目标。这6个不同的特征图的先验框个数分别为576、 7680、 3072、1536、1536和384，合计14784个先验框。通过先验框的设置每一个特征层实际响应的区域，使得每个特征层对特定大小的垃圾图像中的目标响应。有效感受野理论表明，每一特征层实际响应的区域是有效感受野区域，而且这个有效感受野区域在训练过程中会发生变化。由于有效感受野有这个特性，所以在同一个检测层设置不同大小的先验框，设置先验框的大小为理论感受野大小，最后训练出来的网络会根据设置对特定大小的区域响应。

S3，基于第五卷积块和第七卷积块的特征输出，利用指定的扩张率、点卷积方式、深度卷积方式进行特征图的高低维转换后提取特征，利用残差连接使得特征融合，然后用处理后的特征输出进行分类和定位。

进行分类和定位的具体过程，包括：

(1)、先验框匹配

在训练过程中，首先要确定训练图片中的真实框（真实目标）与哪个先验框来进行匹配，与之匹配的先验框所对应的边界框将负责预测它。先验框与真实框的匹配原则主要有两点。

（一）、对于图片中每个真实框，找到与其IOU最大的先验框，该先验框与其匹配，这样，可以保证每个真实框一定与某个先验框匹配。通常称与真实框匹配的先验框为正样本（其实就是先验框对应的预测框），反之，若一个先验框没有与任何真实框进行匹配，那么该先验框只能与背景匹配，就是负样本。一个图片中真实框是非常少的，而先验框却很多，如果仅按第一个原则匹配，很多先验框会是负样本，正负样本极其不平衡，所以需要第二个原则；IOU表示交并比，计算公式为IOU=|A∩B|/|A∪B|，其中A代表先验框的面积，B代表真实框的面积。

（二）、对于剩余的未匹配先验框，若某个ground truth的IOU大于某个阈值0.5，那么该先验框也与这个真实框进行匹配。这意味着某个真实框可能与多个先验框匹配，这是可以的。但是反过来却不可以，因为一个先验框只能匹配一个真实框，如果多个真实框与某个先验框IOU大于阈值，那么先验框只与IOU最大的那个真实框进行匹配。由于先验框很多，某个真实框的最大IOU肯定大于阈值，所以可能只实施第二个原则。

尽管一个真实框可以与多个先验框匹配，但是真实框相对先验框还是太少了，所以负样本相对正样本会很多。为了保证正负样本尽量平衡，所以对负样本进行抽样，抽样时按照置信度误差（预测背景的置信度越小，误差越大）进行降序排列，选取误差的较大的top-k作为训练的负样本，以保证正负样本比例接近1:3。

所述先验框在各个卷积快中的大小依据下式设置，

其中，Sk表示特征图上设置的先验框长宽比，Smin表示特征图上设置的先验框长宽比的最小比例，Smax表示特征图上设置的先验框长宽比的最大比例，m表示预测使用的特征图的数量，k表示当前使用的特征图对应的值（使用第五卷积块、第七卷积块、第八卷积块、第九卷积块、第十卷积块和第十一卷积块时，k的值分别是1、2、3、4、5、6）。

(2)、损失函数

损失函数为位置误差与置信度误差的加权和：

其中，N是先验框的正样本数量，x为某一类别下先验框和真实框的交并比大于阈值而保留下来的先验框数量，c为类别置信度预测值。l为先验框的所对应边界框的位置预测值，而g是真实框的位置参数。权重系数α经过交叉验证设置为1，置信度误差L _conf(x,c)采用softmax loss；位置误差L _loc(x,l,g)采用Smooth L1 loss。

(3)、预测过程

对于每个预测框，首先根据类别置信度确定其类别（置信度最大者）与置信度值，并过滤掉属于背景的预测框。然后根据置信度阈值0.5过滤掉阈值较低的预测框。对于留下的预测框进行解码，根据先验框得到其真实的位置参数。解码之后，一般需要根据置信度进行降序排列，然后仅保留前400个预测框。最后就是进行NMS算法，过滤掉那些重叠度较大的预测框。最后剩余的预测框就是检测结果。

进一步的，步骤S3中，所述的处理第五卷积块和第七卷积块的特征输出中，包括以下步骤：

S31，第五卷积块的特征输出为（20，20，96），结合图3，它是由输入第五卷积块第一卷积层的特征（20，20，64）经过3次同样的提取特征方式而来。其提取特征的方式：（1）利用扩张率为6的1*1点卷积进行升维，然后利用步长为1、卷积核数为96的深度卷积进行下采样，最后进行1*1点卷积进行降维；（2）利用扩张率为6的1*1点卷积进行升维，然后利用步长为1、卷积核数为96的深度卷积进行下采样，最后进行1*1点卷积进行降维；并将第三卷积块的第一卷积层的输入残差连接至第三卷积块的第二卷积层输出；（3）利用扩张率为6的1*1点卷积进行升维，然后利用步长为1、卷积核数为96的深度卷积进行下采样，最后进行1*1点卷积进行降维。并将第三卷积块的第二卷积层输入残差连接至第三卷积块的第三卷积层输出。最后利用处理后的（20，20，96）特征输出进行分类和定位。

S32，第七卷积块的特征输出为（10，10，1280），结合图4，它是由第六卷积模块（10，10，160）的特征输出，作为第七卷积块第一卷积层的特征输入，经过以下提取特征方式而来。其提取特征的方式：（1）利用扩张率为6的1*1点卷积进行升维，然后利用步长为1、卷积核数为320的深度卷积进行下采样，最后进行1*1点卷积进行降维；（2）利用扩张率为6的1*1点卷积进行升维，然后利用步长为1、卷积核数为1280的深度卷积进行下采样，最后进行1*1点卷积进行降维；最后利用处理后的（10， 10， 1280）特征输出进行分类和定位。

S4，对于第八卷积块的特征输出，利用指定的扩张率、点卷积方式、深度卷积方式进行特征图的高低维转换后提取特征，将提取后的特征进行分类和定位。

进一步的，步骤S4中，所述的处理第八卷积块的特征输出中，包括以下步骤：

S41，第八卷积块的特征输出为（5，5，512），它是由第七卷积块特征（10，10，1280）提取特征而来。其提取特征的方式：（1）将（10，10，1280）输出通道数乘以0.2，得到通道数为256，利用1*1点卷积步长为1、卷积核数为256，得到（10，10，256）特征输出。（2）将（10，10，256）利用卷积步长为2、卷积核大小为3*3、卷积核数为256的深度卷积得到（5，5，256）。（3）将（5，5，256）利用1*1点卷积、步长为1、卷积核大小为3*3、卷积核数为512的深度卷积。最后将处理后的（5，5，512）特征输出进行分类和定位。

S5，对于第九、十、十一卷积块的特征输出，利用点卷积方式、深度卷积方式对特征图进行提取特征，将融合后的特征进行分类和定位。

进一步的，步骤S5中，所述的处理第九、十、十一卷积块的特征输出中，包括以下步骤：

S51，第九卷积块的特征输出为（3，3，256），结合图5，它是由第八卷积块特征（5，5， 512）提取特征而来。其提取特征的方式：（1）将（5，5，512）的输出通道数乘以0.25，得到通道数为128，利用1*1点卷积步长为1、卷积核数为128，得到（5，5，128）特征输出。（2）将（5，5，128）利用卷积步长为2、卷积核大小为3*3、卷积核数为256的深度卷积得到（3，3，256）。（3）将（3，3，256）利用1*1、卷积核为256的点卷积，得到（3， 3， 256）的特征图。最后将处理后的（3，3，256）特征输出进行分类和定位。

S52，第十卷积块的特征为（2，2，256），它是由第九卷积块（3，3，256）提取特征而来。其提取特征的方式：（1）将（3， 3， 256）的输出通道数乘以0.5，得到通道数为128，利用1*1点卷积步长为1、卷积核数为128，得到（3，3，128）特征输出。（2）将（3，3，128）利用卷积步长为2、卷积核大小为3*3、卷积核数为256的深度卷积得到（2，2，256）。（3）将（2，2，256）利用1*1、卷积核为256的点卷积，得到（2，2，256）的特征图。最后将处理后的（2，2，256）特征输出进行分类和定位。

S53，第十一卷积块的特征为（1，1，64），它是由第十卷积块（2，2，256）提取特征而来。其提取特征的方式：（1）将（2，2，256）的输出通道数乘以0.25，得到通道数为64，利用1*1点卷积步长为1、卷积核数为64，得到（2，2，64）特征输出。（2）将（2，2，64）利用卷积步长为2、卷积核大小为3*3、卷积核数为64的深度卷积得到（1，1，64）。（3）将（1，1，64）利用1*1、卷积核为64的点卷积，得到（1，1，64）的特征图。最后将处理后的（1，1，64）特征输出进行分类和定位。最后利用NMS算法，过滤掉那些重叠度较大的预测框。最后剩余的预测框就是检测结果。

（一）样本数据集

本文采用的GCDD垃圾数据集由网络收集和部分华为垃圾分类数据集组合而成，共有10000张图像，里面有厨余垃圾、有害垃圾、其他垃圾和可回收物。利用LabelImg软件对GCDD垃圾数据集上的垃圾进行标注，为每一张图像生成VOC格式对应的xml文件。将标注好的GCDD垃圾数据集，按4：1划分成训练集（其中包含验证集）和测试集。

（二）垃圾检测训练过程

在显卡Nvidia GeForce RTX 2080Ti、处理器Intel Core i7-9700K和主板为微星MAG Z390 TOMAHAWK上训练本文提出的SP-SSD网络模型。

模型接收的输入始终为（320，320，3），初始化学习率为1×10^-3，当迭代次数达到30000次时，学习率下降为1 ×10^-4，当迭代次数达到40000次时，学习率下降为1×10^-5，迭代次数达到60000时停止训练。batch_size设置为16，动量设置为0.9，权重衰减系数设置为5 ×10^-4。

经过SP-SSD训练时，每迭代2500次时，网络会保存一个权重文件。

1）、batch_size含义：每次迭代时，送去网络处理的图片的数量。即每次训练在训练集中取batchsize个样本训练。2）、Batch_size设置原则：GPU对2的幂次的batc_size可以发挥更佳的性能，一般设置成16、32、64等，本发明在训练时中，batch_size设置为16。3）、动量：对于那些当前的梯度方向与上一次梯度方向相同的参数，进行加强，即这些方向上更快；对于那些当前的梯度方向与上一次梯度方向不同的参数，进行削减，即在这些方向上减慢。4）、权重衰减系数：防止过拟合；动量和权重系数属于超参数，这两个超参数参考原论文设置的。5）、迭代2500次，保存一次权重文件：一次实验总共迭代60000次。在训练过程中，总损失会在慢慢下降，每迭代2500次，网络模型的参数会保存一个权重文件，然后用保存的权重文件在测试集上测试精度，看看此时的测试精度如何，以此来判断网络模型的性能。

在测试阶段，根据权重文件和测试集（包含2000张垃圾图像），从类别平

均精度mAP、参数量和每秒传输帧数（FPS）来评价网络模型的性能。图7是本发明的方法和其他方法的平均精度对比图。表1是本发明的方法和其他方法检测垃圾的平均精度对比。表2是本发明的方法和其他方法的性能指标对比。从表1和表2能够看出，本发明在保证准确率的情况下，比其他模型更加轻量化、检测速度更快。

表1

表2

如图6所示，一种小区垃圾站，包括：

在小区的垃圾箱上，安装垃圾检测显示屏和中控台。其中，垃圾显示屏上显示垃圾箱内的温度、湿度、垃圾箱存量以及此刻的天气状况、时间。中控台分为两个区域：登录区、垃圾检测平台。其中登录区可公本小区居民进行刷卡投递，身份验证成功后，垃圾箱自动打开垃圾箱门，居民进行垃圾投递。同时，记录投递垃圾的本小区居民信息，方便对不准确投递垃圾的居民进行奖惩。垃圾检测平台上安装微型摄像头用于拍摄垃圾，在拍摄垃圾时，会根据显示屏的天气状况、时间两项指标，判断是否需要补光拍摄。将拍摄好的垃圾图像输入部署在平台的SP-SSD模型中，最后将检测结果输出到显示屏上。如果平台未准确检测出垃圾类别，则提醒居民重新摆放。如果平台不能检测出垃圾类别，则提醒居民自行进行垃圾投递。在垃圾检测平台上安装文件储存设备，对无法识别的垃圾图像进行存储，方便后期重新进行标识、训练，持续扩充垃圾识别的范围。小区的垃圾箱上还分别设有其他垃圾桶1、可回收物桶2、厨余垃圾桶3、废弃化妆品桶4、废弃药品桶5和电子垃圾桶。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种垃圾图像检测方法，其特征在于，包括：

第六卷积块，用于对第五卷积块输出的特征图像进行相应步长的卷积处理，输出对应的特征图像；第七卷积块，用于对第六卷积块输出的特征图像利用设定的扩张率、点卷积方式、深度卷积方式进行特征图像的高低维转换后提取特征，输出第七卷积块特征图像；第六和第七卷积块输出特征图像的宽度和高度一致，选择具有更多通道数的第七卷积块特征图像输出进行分类和定位；

2.根据权利要求1所述的垃圾图像检测方法，其特征在于，所述对垃圾图像进行预处理，调整为设定图像大小，包括：

3.根据权利要求1所述的垃圾图像检测方法，其特征在于，

所述第五卷积块、第七卷积块、第八卷积块、第九卷积块、第十卷积块和第十一卷积块，分别用于检测不同尺度的垃圾图像上的目标，为第五卷积块、第七卷积块、第八卷积块、第九卷积块、第十卷积块和第十一卷积块输出的不同的特征图像的每个像素点设置若干个先验框，其中，先验框用于在每个特征层对特定大小的垃圾图像中的目标进行响应；

所述先验框在各个卷积快中的大小依据下式设置，

4.根据权利要求1所述的垃圾图像检测方法，其特征在于，

所述第五卷积块包括第一卷积层、第二卷积层和第三卷积层，第五卷积块的特征输出的特征为（20，20，96），它是由第四卷积块输出的特征（20，20，64）经过3轮同样的特征提取而来，包括：

5.根据权利要求1所述的垃圾图像检测方法，其特征在于，

所述第七卷积块的特征输出尺寸为（10，10，1280）的特征，它是由第六卷积块输出的特征（10，10，160）经过特征提取而来，包括：（1）对特征（10，10，160）利用扩张率为6的1*1点卷积进行升维，然后利用步长为1、卷积核数为320的深度卷积进行下采样，最后进行1*1点卷积进行降维；（2）接着利用扩张率为6的1*1点卷积进行升维，然后利用步长为1、卷积核数为1280的深度卷积进行下采样，最后进行1*1点卷积进行降维；最后利用处理后的（10，10，1280）特征输出进行分类和定位。

6.根据权利要求1所述的垃圾图像检测方法，其特征在于，

所述第八卷积块的特征输出为（5，5，512），它是由第七卷积块特征（10，10，1280）特征提取而来，包括：（1）将（10，10，1280）输出通道数乘以0.2，得到通道数为256，利用1*1点卷积步长为1、卷积核数为256，得到（10，10，256）特征输出；（2）将（10，10，256）利用卷积步长为2、卷积核大小为3*3、卷积核数为256的深度卷积得到（5，5，256）；（3）将（5， 5，256）利用1*1点卷积、步长为1、卷积核大小为3*3、卷积核数为512的深度卷积；最后将处理后的（5，5，512）特征输出进行分类和定位。

7.根据权利要求1所述的垃圾图像检测方法，其特征在于，

所述第九卷积块的特征输出为（3，3，256），它是由第八卷积块特征（5，5，512）提取特征而来，包括：（1）将（5，5，512）的输出通道数乘以0.25，得到通道数为128，利用1*1点卷积步长为1、卷积核数为128，得到（5，5，128）特征输出；（2）将（5，5，128）利用卷积步长为2、卷积核大小为3*3、卷积核数为256的深度卷积得到（3，3，256）；（3）将（3，3，256）利用1*1、卷积核为256的点卷积，得到（3，3，256）的特征图；最后将处理后的（3，3，256）特征输出进行分类和定位；

所述第十卷积块的特征为（2，2，256），它是由第九卷积块（3，3，256）提取特征而来，包括：（1）将（3，3，256）的输出通道数乘以0.5，得到通道数为128，利用1*1点卷积步长为1、卷积核数为128，得到（3，3，128）特征输出；（2）将（3，3，128）利用卷积步长为2、卷积核大小为3*3、卷积核数为256的深度卷积得到（2，2，256）；（3）将（2，2，256）利用1*1、卷积核为256的点卷积，得到（2，2，256）的特征图；最后将处理后的（2，2，256）特征输出进行分类和定位；

8.根据权利要求1所述的垃圾图像检测方法，其特征在于，所述基于SP-SSD的垃圾图像检测网络的训练过程，包括：

其中，N是先验框的正样本数量； x为某一类别下先验框和真实框的交并比大于阈值而保留下来的先验框数量；c为类别置信度预测值；l为先验框的所对应边界框的位置预测值；g是真实框的位置参数；α表示权重系数；置信度误差L _conf(x,c)采用softmax loss；位置误差L _loc(x,l,g)采用Smooth L1 loss；真实框表示利用LabelImg软件对垃圾数据集上的垃圾进行位置和类别标注的框；

9.一种小区垃圾站，其特征在于，包括：

在小区垃圾站的垃圾箱上，安装垃圾检测显示屏和中控台，所述中控台根据权利要求1-8任意一项所述的垃圾图像检测方法对输入的垃圾图像进行检测，将检测结果输出到显示屏上。

10.根据权利要求9所述的小区垃圾站，其特征在于，

还包括文件储存设备，对无法识别的垃圾图像进行存储，用于后期重新进行标识、训练，持续扩充垃圾识别的范围。