CN114239667A

CN114239667A - 一种基于深度学习的垃圾检测分类与推断方法

Info

Publication number: CN114239667A
Application number: CN202010935380.3A
Authority: CN
Inventors: 皮从明; 梁甲华; 高欢欢
Original assignee: Shanghai Yongli Information Technology Co ltd
Current assignee: Shanghai Yongli Information Technology Co ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2022-03-25

Abstract

本发明公开了一种基于深度学习的垃圾检测分类与推断方法，涉及计算机图像处理技术领域。使用联合的深度学习、卷积神经网络和推断映射的方法，实现根据垃圾目标检测的图片数据集中的垃圾图片，进行垃圾位置检测、垃圾种类分类与垃圾物理性质推断的技术。在采用相同的垃圾图片数据集的情况下，不仅可以对垃圾图片中的垃圾区域进行检测，还可以实现对垃圾的进行分类，并根据垃圾的类别信息进一步推断垃圾的材质和质量。

Description

一种基于深度学习的垃圾检测分类与推断方法

技术领域

本发明涉及计算机图像处理技术领域，具体涉及一种能够基于深度学习进行垃圾图片中的垃圾检测、垃圾分类、垃圾材质与质量推断的联合技术方案。

背景技术

在计算机图像处理领域中，基于卷积神经网络的深度学习可以进行图片的目标检测。文献1“Faster R-CNN:Towards Real-Time Object Detection with Region ProposalNetworks”公开了一种基于卷积神经网络的深度学习图像中的目标检测技术Faster RCNN。Faster RCNN首先使用一组基础的卷积层和池化层提取图像的特征，该特征被继续用于之后的备选区域提出层和全连接层。其次，备选区域提出层通过柔软最大函数来判断锚点属于前景或者后景，再利用检测框回归来修正锚点来获得精确的备选区域提案。下一步，池化层收集输入的特征图和备选区域提案，并送入全连接层。最后，利用提案特征图来计算提案的类别，并采用检测框回归获得检测框最终的精确位置。

文献1公开的Faster RCNN方法虽然能够获得目标检测框的精确位置，但是当该方法应用于垃圾图片处理时，具有如下三个功能方面的缺点：

1)Faster RCNN方法仅能够对垃圾图片中的垃圾区域进行检测，不能进行进一步识别垃圾的种类；

2)Faster RCNN方法不能对垃圾的材质进行推断，无法对垃圾的回收处理工作提供信息支持；

3)Faster RCNN方法无法判断出垃圾的质量，不利于后续对垃圾进行回收进行机械夹取。

参考文献：

[1]Shaoqing Ren,Kaiming He,Ross Girshick,and Jian Sun，“Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks”，in NeuralInformation Processing Systems(NIPS),2015。

发明内容

(一)解决的技术问题

本发明的目的在于提供一种基于深度学习的垃圾检测分类与推断方法，以解决上述背景技术中提出的Faster RCNN存在的三个功能方面的缺点，有必要针对Faster RCNN不能对垃圾种类进行分类、不能对垃圾的材质和质量信息进行推断的缺点，提供一种有效的集成化的既能检测垃圾的存在区域并识别垃圾的种类，又能对垃圾的材质和质量进行推断以便对垃圾进行后续处理的技术方案。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：一种基于深度学习的垃圾检测分类与推断方法，它包含以下步骤：

(a)通过人工、机械拍摄或网络搜索获得垃圾目标检测的图片数据集，包括垃圾图片目标检测的训练集和测试集；然后对图片数据数据集进行压缩处理，形成小尺寸像素表征的同维度的图片数据集；利用矩形方框对该图片数据集含有垃圾特征的区域进行标注，包含深度学习目标检测的训练集和测试集；搭建深度学习的计算平台，使用更快的基于区域的卷积神经网络技术对垃圾图片进行目标检测的任务进行训练，得到垃圾图片目标检测的误差，最后使用标注好的同等维度的图片测试集对深度学习平台得到训练参数进行测试，得到关于测试集的测试误差；

(b)根据图片数据集中选定的矩形方框部位的大小，对其进行压缩操作和像素尺寸归一化操作，得到同样图片尺寸大小的规整化数据集，包括数据训练集和测试集，用于垃圾种类识别；根据预先分好的垃圾种类，对该垃圾图片规整化数据训练集进行垃圾种类的信息标注；然后在深度学习的平台上，利用卷积神经网络对图片种类进行分类参数的训练，得到垃圾分类的参数，最后利用像素尺寸归一化的垃圾图片分类测试集对训练好的卷积神经网络参数进行测试，得到关于垃圾分类测试集的误差；该步骤实现了对垃圾进行分类的操作，是解决背景技术中文献1中存在第一项缺点的关键步骤；

(c)根据(b)步骤得到的垃圾类别推断出垃圾的材质，；包括但不限于：纸质、玻璃、塑料、木质、金属、有机物、陶瓷、尘土；该步骤实现了对垃圾的材质进行判定，是解决背景技术中文献1中的第二项缺点的关键步骤；

(d)根据(b)步骤得到的垃圾类别推断出垃圾的质量，包括轻质(小于0.05kg)、中等质量(大于0.05kg但小于1kg)、大质量(大于1kg但小于5kg)和超大质量(大于5kg)。该步骤实现了对垃圾的质量进行判定，是解决背景技术中文献1中的第三项缺点的关键步骤。

(三)有益效果

与现有技术相比，采用上述技术方案后，本发明有益效果为：

在采用相同的垃圾图片数据集的情况下，不仅可以对垃圾图片中的垃圾区域进行检测，还可以实现对垃圾的进行分类，并根据垃圾的类别信息进一步推断垃圾的材质和质量。

附图说明

图1是本发明的流程图；

图2是本发明所提供的实施例中测试集示意图；

图3是本发明所提供的实施例中训练集示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图3，本发明提供的一种实施例：一种基于深度学习的垃圾检测分类与推断方法，所需材料：垃圾图片目标检测的训练集(如图3所示)、垃圾图片目标检测的测试集(如图2所示)、Python3.6、Cuda10.1、Ubuntu16.04、Pytorch1.2、TensorFlow、FasterRCNN源代码(该代码已公开)、卷积神经网络代码(该代码已公开)、res101神经网络源代码(该代码已公开)、vgg16神经网络源代码(该代码已公开)、Nividia Geforce GTX960GPU、Interl Core i8、32G内存。

本实施例的实施步骤如下：

(a)实施案例所需材料中的垃圾图片目标检测的训练集和测试集来自于网络抓取。该垃圾种类共分为两种，一种是可回收的玻璃瓶，另一种是可回收的纸制品。其中训练集共有48张图片(如图3)，其中可回收的玻璃瓶图片24张，可回收的纸制品图片24张；测试集中共有图片4张(如图2)，其中可回收啤酒瓶图片2张，可回收的纸制品图片2张。该实施案例所需材料中的垃圾图片目标检测的训练集和测试集的垃圾种类在实施步骤之前应进行压缩预处理，得到等维像素化表征的图片集，处理后的图片为256乘以256的尺寸大小。

配置深度学习的计算平台并进行训练。在Python3.6、Cuda10.1和Pytorch1.2的编译环境下。将垃圾图片目标检测的训练集文件夹命名为“dataset1”并导入到Faster RCNN源代码中。配置更快的基于区域的卷积神经网络使用一组13层的卷积层、13层的relu层和4层的池化层提取图像的特征图。对于所有的卷积层，设置kernel_size＝3，pad＝1，stride＝1。对于所有的池化层，设置kernel_size＝2，pad＝0，stride＝2。该特征图的特征提取采用3乘3的卷积神经网络进行输出并被共享用于后续备选区域提出层和全连接层。后续备选区域提出层的网络用于生成备选区域。该层通过柔软最大函数判断锚点属于正值或者负值，再利用边界框回归修正锚点获得精确的备选区域。池化层收集输入的特征图和备选区域，综合这些信息后提取备选特征图，送入后续全连接层进行目标检测。利用备选特征图计算备选方案的类别，剔除太小和超出边界的备选区域，同时再次进行边界框回归获得检测框最终的精确位置。实施例选择0.002作为初始学习率，0.0003作为权值衰减量，0.85作为冲量来实施训练。

开始训练所需的python命令为：CUDA_VISIBLE_DEVICES＝1python trainval_net.py--dataset dataset1--net res101--cuda。

其中“CUDA_VISIBLE_DEVICES”指代了计算机显存处理器的身份号；trainval_net.py为python软件运行的命令文件；“–dataset”指代图片训练集的名称，这里我们设置为dataset1；“–net”指代支持网络，本实施例中采用res101网络；“–cuda”指的是使用计算机显存处理器。

训练最终误差为0.6101。

训练完毕后，利用垃圾图片目标检测的测试集进行测试，将垃圾图片目标检测的测试集文件夹命名为“dataset2”，开始测试所需的python命令为：python test_net.py--dataset dataset2--net res101--cuda。

其中“test_net.py”指代了为python软件运行的命令行文件；“–dataset”指代图片测试集的名称，这里我们设置为dataset2；“–net”指代支持网络，本实施例中采用res101网络；“–cuda”指的是使用计算机显存处理器。

该实施例的测试最终误差为0.6893。

(b)根据(a)步骤得到的垃圾图片目标框，在TensorFlow环境中运行卷积神经网络代码对垃圾种类进行分类训练。首先将(a)步骤得到的垃圾图片目标框压缩为32乘32的图像，并串行使用一组8层的卷积层、8层的下采样层、20层的卷积层、20层的下采样层、1层的卷积层和1层的全连接层组成。对于所有的卷积层，设置kernel_size＝3，pad＝1，stride＝1。对于所有的池化层，设置kernel_size＝2，pad＝0，stride＝2。首先对卷积神经网络参数进行初始化，主要是初始化卷积层和输出层的卷积核和权重和偏置，其中对卷积核和权重进行随机初始化，而对偏置进行全0初始化。然后进行前向传输计算，其中输入层没有输入值，只有一个输出向量，这个向量的大小就是图片的大小，即一个32乘32矩阵；卷积层的输入要么来源于输入层，要么来源于采样层。卷积层的每一层有一个大小相同的卷积核，里面是5乘5的卷积核。采样层是对上一层图像的一个采样处理，这里的采样方式是对上一层图像的相邻小区域进行聚合统计，区域大小为2乘2。然后进行反向传输根据参数的残差信息调节权重，输出层的残差是输出值与类标值得误差值，而中间各层的残差来源于下一层的残差的加权和。采样层图像大小是上一层卷积层的1/(2乘2)，卷积层的所有图像中的4个单元与下一层对应图像的一个单元关联，可以对采样层的残差与一个2乘2的全1矩阵进行克罗内克积进行扩充，使得采样层的残差的维度与上一层的输出图像的维度一致。采样层到卷积层直接的连接有权重和偏置参数的，因此该层的残差是下一层残差的加权和。

采用卷积神经网络进行垃圾种类识别的训练。开始训练的python命令为：pythontrain_net_1.py--dataset dataset1--net vgg16--cuda。

其中“train_net_1.py”表示垃圾分类训练的python命令行文件；“--dataset”为分类的图片集名称，本实施案例采用的为dataset1；“--net”为训练采用的支持网络，本实施案例采用的为vgg16网络。“–cuda”指的是使用计算机显存处理器。

该实施例的测试最终误差为0.6278。

训练完毕后，利用垃圾图片分类的测试集进行测试，开始测试所需的python命令为：python test_net_1.py--dataset dataset2--net vgg16--cuda。

其中“test_net.py”指代了为python软件运行的命令行文件；“–dataset”指代图片测试集的名称，这里我们设置为dataset2；“–net”指代支持网络，本实施例中采用vgg16网络；“–cuda”指的是使用计算机显存处理器。

该实施例的测试最终误差为0.124。

(c)根据(b)步骤得到的垃圾图片分类，判定可回收啤酒瓶的材质为玻璃标签，判定可回收纸制品的材质为纸质,并作为输出进行后续处理。

(d)根据(b)步骤得到的垃圾图片分类，映射可回收啤酒瓶的质量为1.1千克，映射可回收纸制品的质量为0.05千克，并输出给机械夹取的控制系统。

采用本发明提出的方法实施产生的有益效果与采用文献1中的方法产生的效果对比如表1所示。

表1

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于深度学习的垃圾检测分类与推断方法，其特征在于，它包含以下步骤：

(a)获得垃圾目标检测的图片数据集，包括垃圾图片目标检测的训练集和测试集；然后对图片数据数据集进行压缩处理，形成小尺寸像素表征的同维度的图片数据集；利用矩形方框对该图片数据集含有垃圾特征的区域进行标注，包含深度学习目标检测的训练集和测试集；搭建深度学习的计算平台，使用更快的基于区域的卷积神经网络技术对垃圾图片进行目标检测的任务进行训练，得到垃圾图片目标检测的误差，最后使用标注好的同等维度的图片测试集对深度学习平台得到训练参数进行测试，得到关于测试集的测试误差；

(b)根据图片数据集中选定的矩形方框部位的大小，对其进行压缩操作和像素尺寸归一化操作，得到同样图片尺寸大小的规整化数据集，包括数据训练集和测试集，用于垃圾种类识别；根据预先分好的垃圾种类，对该垃圾图片规整化数据训练集进行垃圾种类的信息标注；然后在深度学习的平台上，利用卷积神经网络对图片种类进行分类参数的训练，得到垃圾分类的参数，最后利用像素尺寸归一化的垃圾图片分类测试集对训练好的卷积神经网络参数进行测试，得到关于垃圾分类测试集的误差；该步骤实现了对垃圾进行分类的操作；

(c)根据(b)步骤得到的垃圾类别推断出垃圾的材质，包括但不限于：纸质、玻璃、塑料、木质、金属、有机物、陶瓷、尘土；该步骤实现了对垃圾的材质进行判定；

(d)根据(b)步骤得到的垃圾类别推断出垃圾的质量，包括轻质、中等质量、大质量和超大质量，该步骤实现了对垃圾的质量进行判定。

2.根据权利要求1所述的一种基于深度学习的垃圾检测分类与推断方法，其特征在于，所述的垃圾目标检测的图片数据集通过人工、机械拍摄或网络搜索中的一种或多种方式获得。

3.根据权利要求1所述的一种基于深度学习的垃圾检测分类与推断方法，其特征在于，所述的轻质为小于0.05kg的垃圾。

4.根据权利要求1所述的一种基于深度学习的垃圾检测分类与推断方法，其特征在于，所述的中等质量为大于0.05kg但小于1kg的垃圾。

5.根据权利要求1所述的一种基于深度学习的垃圾检测分类与推断方法，其特征在于，所述的大质量为大于1kg但小于5kg的垃圾。

6.根据权利要求1所述的一种基于深度学习的垃圾检测分类与推断方法，其特征在于，所述的超大质量为大于5kg的垃圾。