CN111582033A

CN111582033A - 垃圾分类的识别方法、系统及计算机可读存储介质

Info

Publication number: CN111582033A
Application number: CN202010264404.7A
Authority: CN
Inventors: 刘剑君; 刘建国; 周旭阳; 李琳; 袁振江
Original assignee: Suning Cloud Computing Co Ltd
Current assignee: Suning Cloud Computing Co Ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2020-08-25

Abstract

本发明公开了一种垃圾分类的识别方法，该方法包括：扫描待识别垃圾物品，对输入的图像进行预分类识别，若识别成功，则输出垃圾分类结果，若识别失败则进行如下的重识别过程：对输入的图像进行预处理，提取出输入图像中的垃圾主体图像；对所述垃圾主体图像进行粗分类预测，得出粗分类预测结果；对所述垃圾主体图像进行细粒度特征抽取；根据抽取到的所述细粒度特征与所述粗分类所属的索引库进行细粒度特征匹配，输出匹配结果。本发明还提供了一种垃圾分类的识别系统和计算机存储介质。本发明解决了解决原有的垃圾分类识别方法无法有效对垃圾物品进行精确分类的问题。

Description

垃圾分类的识别方法、系统及计算机可读存储介质

技术领域

本发明属于计算机领域，具体涉及一种目标检测和细粒度特征匹配的垃圾分类的识别方法及系统。

背景技术

在人们的日常生产生活中，每天都会产生大量的垃圾，出于环境保护和资源循环利用等方面的考虑，垃圾分类变得尤为重要。为了更好地提高垃圾分类地效率和准确性，自动识别垃圾类别的技术也随之诞生。然而由于日常生活中产生的垃圾有上千万种，十分繁杂，所以，准确地识别出垃圾的具体类别并反馈出适当的垃圾回收处理方法面临着极大的挑战。

目前出现了一些基于目标检测、图像分类等技术的垃圾分类软件，然而由于垃圾的具体类别(例如，可乐瓶子、干电池)数目过于庞大，往往存在神经网络训练欠拟合、无法区分相似的垃圾类别等问题。无法单纯的利用这些单一的技术手段取得准确的识别效果。

发明内容

基于现有技术的上述缺陷，本发明的目的在于提供一种垃圾分类的识别方法及系统，以解决原有的垃圾分类识别方法无法有效对垃圾物品进行精确分类的问题。

本发明的第一方面提供了一种垃圾分类的识别方法，包括：

扫描待识别垃圾物品，对输入的图像进行预分类识别，若识别成功，则输出垃圾分类结果，若识别失败则进行如下的重识别过程：

对输入的图像进行预处理，提取出输入图像中的垃圾主体图像；

对所述垃圾主体图像进行粗分类预测，得出粗分类预测结果；

对所述垃圾主体图像进行细粒度特征抽取；

根据抽取到的所述细粒度特征与所述粗分类所属的索引库进行细粒度特征匹配。

进一步地，所述预处理包括：

根据图像中垃圾物品的定位信息，截取出输入图像中的垃圾主体图像，并将所述垃圾主体图像扩边为规则的图形，如正方形或长方形，并调整图像分辨率至模型训练所需的分辨率；其中，分辨率和图形的形状主要是依据模型识别所需的条件来调整。

利用深度残差网络模型，对截取出的所述垃圾主体图像进行卷积和池化处理，得到后续粗分类和细粒度特征提取所需的特征向量。

进一步地，所述粗分类预测包括：

将得到的所述主体图像的特征向量，经过全连接层处理，得到不同的映射特征向量，根据不同的向量值判断所属的粗分类类别。

进一步地，对所述深度残差网络模型的主体图像的细粒度特征的提取中，设置基于细粒度分类的损失函数和交叉熵损失函数联合控制所述深度残差网络模型的网络参数更新。

进一步地，所述细粒度特征特征匹配是通过计算索引库中的索引与输入的主体图像特征之间的欧式距离来判断。

进一步地，所述预分类识别包括：

通过目标检测模型提取垃圾物品的图像信息；建立预分类类别与置信度阈值的对应关系表，其中，针对不同类别，设定不同的阈值；若所预测的分类类别的置信度分数高于设定的某类别的阈值，则输出该预测的分类类别，若低于设定的阈值，则进行之后的粗分类识别和细粒度匹配的过程。

本发明的另一方面还提供了一种垃圾分类的识别系统，所述系统包括：

目标检测模块，用于对摄取的垃圾物品的图像进行预分类识别；

粗分类预测模块，用于对无法获得预分类的图像进行粗分类识别；

特征提取模块，用于对无法获得预分类的图像进行细粒度特征抽取；

特征匹配模块，根据抽取到的所述细粒度特征到所述粗分类预测模块下的索引库进行细粒度特征匹配，匹配出所述垃圾物品的图像的具体分类。

进一步地，所述特征提取模块基于分类神经网络模型进行特征提取，其中，由基于细粒度分类的损失函数和用于粗分类识别的交叉熵损失函数联合作为所述分类神经网络模型的整体损失函数。

进一步地，所述目标检测模块采用RefineDet模型，所述分类神经网络模型采用ResNet深度残差网络模型。

本发明的第三方面还提供了一种计算机可读存储介质，其具有存储在其上的计算机可读程序指令，所述计算机可读程序指令用于执行上述第一方面所述的垃圾分类识别的方法。

与现有技术相比，本发明所公开的一种垃圾分类的识别方法、系统及计算机可读存储介质，具有如下技术效果：

1、本发明采用目标检测预识别分类、粗分类识别和细粒度特征匹配相结合的系统框架，经过细粒度特征匹配出的类别通过粗分类下建立的索引库，可以极大提高匹配效率和准确率。

2、本发明的分类神经网络模型采用的损失函数，将粗分类识别和细粒度特征匹配所用的损失函数相结合，一同控制神经网络模型参数的更新。

3、本发明在目标检测模块的预识别过程中，建立了类别-置信度阈值对应关系表，针对不同类别，设定不同的阈值，以自适应地判定目标检测阶段识别成功与否。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中的垃圾分类的识别方法的流程图。

图2为本发明实施例中的细粒度特征匹配的原理图。

图3为本发明实施例中的垃圾分类的识别系统的原理框图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

参照图1～图2所示，本发明实施例所公开的一种垃圾分类的识别方法，包括如下过程：

步骤S1、扫描待识别垃圾物品，对输入的图像进行预分类识别，若识别成功，则输出垃圾分类结果，若识别失败则进行重识别过程。

具体来说，将待投放垃圾物品对准图像扫描显示屏，即可获取该垃圾物品的图像，获取垃圾物品的图像信息后，对输入的图像进行识别和预分类。其中，图像的识别和预分类具体包括：

S11、获取垃圾物品的图像信息；

获取的图像信息包括；图像中垃圾主体的图像数据及垃圾主体所在图像的定位坐标信息(比如位于图像的左上角、图像的中部位置等)，设置该定位坐标信息一方面是为了对一个图像中可能存在多种不同分类的垃圾物品进行分别预归类，另一方面，也是为了后续对无法判别出来的垃圾物品进行单独垃圾主体的单独截取。

S12、建立预分类类别与置信度阈值的对应关系表，其中，针对不同类别，设定不同的阈值；

建立类别-置信度阈值对应关系表，针对不同类别，设定不同的阈值，以自适应地判定目标检测阶段识别成功与否。由于不同的垃圾物品，其图像识别难度不一，设置不同的阈值，也是为了增加判别的效率和准确率。

S13、若所预测的分类类别的置信度分数高于设定的某类别的阈值，则输出该预测的分类类别，若低于设定的阈值，则进行之后的粗分类识别和细粒度匹配的过程。

在目标检测和预分类识别过程中，可采用RefineDet目标检测模型来实现，RefineDet由两个相连的模块组成，即ARM和ODM。ARM旨在移除负样本 anchors以便为分类器减少搜索空间，并粗略调整anchors的位置和大小，以便为随后的回归器提供更好的初始化结果。而ODM旨在根据细化后的anchors 将结果回归到准确的目标位置并预测多类别标签。

步骤S2、对输入的图像进行预处理，得到主体图像的特征向量；

在目标检测阶段，若某垃圾物品得到的类别置信度分数很低，或者低于设定的阈值，则说明该图像中的主体特征难以区分，需要通过后续的细粒度特征进行识别，则需要进行该步骤的及之后的处理。

其中，对输入图像的预处理包括：

步骤S21、根据某垃圾物品在图像中的位置信息，单独截取出无法识别的某垃圾物品的主体图像，并将主体图像扩边为正方形，并调整图像分辨率至模型训练所需的分辨率；

为了排除图像背景的影响，首先要根据目标检测阶段预测出的垃圾物品主体的定位信息将其裁剪出来，再将其扩边为正方形，并且缩放至224×224的分辨率，用于后续的粗分类预测和特征抽取。

步骤S22、利用深度残差网络模型ResNet，对截取出的所述主体图像进行卷积和池化处理，得到后续粗分类和细粒度特征提取所需的特征向量。

本发明ResNet为特征提取网络，采用Average Pooling层的输出作为用于匹配的特征。

步骤S3、对所述主体图像进行粗分类预测，得出粗分类预测结果；

将得到的主体图像的特征向量，经过全连接层处理，全连接层通常为两至三层，之后得到不同的映射特征向量，而事先根据不同的向量值设定有其对应的粗分类类别，根据全连接层输出后，预判断出所属的粗分类类别(例如家电、水果)。如图1中的C₁到C_n中的图形可用不同颜色来代替，不同的颜色图形代表不同类别所建立的特征索引库。

其中，粗分类识别所用的为交叉熵损失函数，交叉熵主要是通过对文本语义信息的识别提取。举例来说，有红色包装的方便面袋和红色包装的辣椒酱袋，这两种都是红色的，长得很像，但是它们所属的粗分类类别是不一样的，一个属于食品，一个属于调料，如果只看外观，则容易搞混出现识别错误，通过语义信息的分析则能够给出一个相对准确的粗分类。再比如来说，一个可乐瓶和洗洁精瓶，通过语义信息，如果单纯通过图像则无法精确分类，通过语义识别，则能粗分类为饮料或者洗护。

步骤S4、对所述主体图像进行细粒度特征抽取；

本实施例中，对细粒度特征的提取是采用了ResNet(Residual Neural Network)特征提取网络，ResNet的结构可以极快的加速神经网络的训练，模型的准确率也有比较大的提升。同时ResNet的推广性非常好，甚至可以直接用到InceptionNet网络中。

以triplet loss用于特征提取网络的损失函数为例，其公式为：

其中。f(·)为神经网络提取出的特征，

为参考图像，

为正样例图像，

为负样例图像，

为Frobenius范数。从公式可以看出，当最小化损失函数时，可以使得特征空间上相似图像的特征距离缩小，不相似图像的特征距离拉大，进而可以实现细粒度图像特征的提取。

传统的卷积网络或者全连接网络在信息传递的时候或多或少会存在信息丢失，损耗等问题，同时还有导致梯度消失或者梯度爆炸，导致很深的网络无法训练。ResNet在一定程度上解决了这个问题，通过直接将输入信息绕道传到输出，保护信息的完整性，整个网络只需要学习输入、输出差别的那一部分，简化学习目标和难度。ResNet最大的区别在于有很多的旁路将输入直接连接到后面的层，这种结构也被称为shortcut或者skipconnections。在ResNet网络结构中会用到两种残差模块，一种是以两个3*3的卷积网络串接在一起作为一个残差模块，另外一种是1*1、3*3、1*1的3个卷积网络串接在一起作为一个残差模块。ResNet有不同的网络层数，比较常用的是50-layer，101-layer，152-layer。他们都是由上述的残差模块堆叠在一起实现的。

为了更好地提取图像地细粒度特征，本发明进一步采用细粒度分类的损失函数，例如Triplet Loss、Contrastive Loss等损失函数(下面将以Triplet Loss 为例进行说明)，用于控制细粒度图像特征的提取。通常细粒度损失函数意在将特征空间上将相似图像的特征距离缩小，不相似图像的特征距离拉大，进而可以实现细粒度图像特征的匹配。

然而，如果直接采用这种网路结构提取特征用于匹配，则提取到地特征不含语义信息，更倾向于颜色、纹理等特征地匹配，从而导致匹配错误。另一方面，若没有语义信息地指导，则无法确定用于特征匹配地类别索引库，而采用所有类别地索引库用于匹配，不仅效率低下，准确率也会收到很大影响。所以，本发明添加了全连接层预测输入图像地粗分类类别，采用交叉熵作为损失函数。综上，网络的整体损失函数为：

本发明在模型特征提取和训练中，对所述深度残差网络模型的主体图像的细粒度特征的提取中，设置基于细粒度分类的损失函数和交叉熵损失函数联合控制所述深度残差网络模型的网络参数更新。整个网络由triplet loss损失函数和交叉熵损失函数联合控制网络参数的更新，同时保留了所提取特征的细粒度信息和语义信息。

步骤S5、根据抽取到的所述细粒度特征到所述粗分类所属的索引库进行细粒度特征匹配，直至匹配出所述垃圾物品的具体分类。

输入图像通过特征提取网络预测出垃圾主体的粗分类和图像特征，通过预测出的粗分类类别选用相应类别所对应的索引库，可以极大的提高匹配效率和准确率。本发明采用特征之间的欧氏距离用于计算特征之间的距离。依次计算索引库中的索引与输入图像特征之间的欧式距离，取前N个与输入特征距离最小的索引，进而获取这些索引所对应的细粒度类别。通过投票的方式，将N个索引中对应最多的类别作为特征匹配的预测结果，也即系统识别出的最终的垃圾类别。

使用本专利中的技术方案，可以有效的解决由于分类数目过多而导致的神经网络训练难以收敛、预测精度较差以及无法实现细粒度分类的问题，实现大规模分类数目的细粒度识别的效果。

此外，替代地，上述方法能够通过计算机程序产品，即计算机可读存储介质来实现。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本发明的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

参照图3所示，本发明的另一实施例还提供了一种垃圾分类的识别系统，包括：

特征匹配模块，根据抽取到的所述细粒度特征与所述粗分类预测模块下的索引库进行细粒度特征匹配，匹配出所述垃圾物品的图像的具体分类。

首先采用RefineDet目标检测模型对输入图像进行定位和细粒度的分类(例如可乐瓶子，玻璃杯等)识别，若识别出的类别的置信度高于某一阈值，则识别成功输出类别；反之，则根据定位信息，将垃圾主体截取出来，输入到粗分类识别模块和特征提取模块，将抽取出的特征到对应的粗分类类别(例如家电，服装等)所对应的索引库进行匹配，进而输出识别结果。

此外，本实施例中的特征提取模块是基于分类神经网络模型实现，该神经网络的损失函数由基于细粒度分类的损失函数和用于粗分类语义识别的交叉熵损失函数联合实现，控制整个网络模型的参数更新，联合参数同时保留了所提取特征的细粒度信息和语义信息，判断更精确。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种垃圾分类的识别方法，其特征在于，所述方法包括：

对所述垃圾主体图像进行细粒度特征抽取；

根据抽取到的所述细粒度特征与所述粗分类所属的索引库进行细粒度特征匹配，输出匹配结果。

2.根据权利要求1所述的垃圾分类的识别方法，其特征在于，所述预处理包括：

根据图像中垃圾物品的定位信息，截取出输入图像中的垃圾主体图像，并将所述垃圾主体图像扩边为规则形状，并调整图像分辨率至模型训练所需的分辨率；

3.根据权利要求2所述的垃圾分类的识别方法，其特征在于，所述粗分类预测包括：

4.根据权利要求2或3所述的垃圾分类的识别方法，其特征在于，所述深度残差网络模型的参数更新由基于细粒度分类的损失函数和交叉熵损失函数联合控制。

5.根据权利要求1所述的垃圾分类的识别方法，其特征在于，所述预分类识别包括：

通过目标检测模型提取垃圾物品的图像信息；

建立预分类类别与置信度阈值的对应关系表，其中，针对不同类别，设定不同的阈值；

若所预测的分类类别的置信度分数高于设定的某类别的阈值，则输出该预测的分类类别，若低于设定的阈值，则进行之后的重识别过程。

6.根据权利要求1所述的垃圾分类的识别方法，其特征在于，所述细粒度特征特征匹配是通过计算索引库中的索引与输入的主体图像特征之间的欧式距离来判断。

7.一种垃圾分类的识别系统，其特征在于，所述系统包括：

特征提取模块，用于对无法获得预分类的图像进行细粒度特征提取；

特征匹配模块，根据提取的所述细粒度特征与所述粗分类预测模块下的索引库进行细粒度特征匹配，匹配出所述垃圾物品的具体分类。

8.根据权利要求7所述的垃圾分类的识别系统，其特征在于，所述特征提取模块基于分类神经网络模型进行特征提取，其中，由基于细粒度分类的损失函数和用于粗分类识别的交叉熵损失函数联合作为所述分类神经网络模型的整体损失函数。

9.根据权利要求8所述的垃圾分类的识别系统，其特征在于，所述目标检测模块采用RefineDet模型，所述分类神经网络模型采用ResNet深度残差网络模型。

10.一种计算机可读存储介质，其具有存储在其上的计算机可读程序指令，所述计算机可读程序指令用于执行根据权利要求1至6中任一项所述的方法。