CN111582336B

CN111582336B - 一种基于图像识别垃圾种类的装置及方法

Info

Publication number: CN111582336B
Application number: CN202010329587.6A
Authority: CN
Inventors: 高伟杰; 赵英芹; 冯谨强
Original assignee: Hisense Co Ltd
Current assignee: Hisense Co Ltd
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2023-11-03
Anticipated expiration: 2040-04-23
Also published as: CN111582336A

Abstract

本申请涉及垃圾分拣回收技术领域，尤其涉及一种基于图像识别垃圾种类的装置及方法。一定程度上可以解决垃圾分类操作复杂、准确率低、分类不清晰、设备智能化低的问题。基于图像识别垃圾种类的装置，包括：显示屏，被配置为用于显示界面；图像采集装置，被配置为用于获取垃圾图像；处理器，所述处理器被配置为：基于所述垃圾图像，使用垃圾分类模型计算得到垃圾种类结果信息；以及将所述垃圾种类结果信息输出至所述显示屏。

Description

一种基于图像识别垃圾种类的装置及方法

技术领域

本申请涉及垃圾分拣回收技术领域，尤其涉及一种基于图像识别垃圾种类的装置及方法。

背景技术

随着环境污染问题日益严重，垃圾的回收利用也成为了可持续发展战略的重要组成部分。由于垃圾中往往混合有多种类别的物件，在对垃圾进行回收利用之前，首先需要对垃圾进行分类，以根据不同类别的垃圾进行分别回收和处理。

随着在大部分地区启动生活垃圾分类工作，通常将垃圾分为四大类别，即可回收物、厨余垃圾(湿垃圾)、有害垃圾、其他垃圾(干垃圾)，如图1A所示。

在一些垃圾分类的实现中，基于用户的生活经验对垃圾进行分类，但是当用户没有垃圾分类的经验时，容易导致垃圾分类错误；在另一些垃圾分类的实现中，用户通过在网站、APP手动输入垃圾名称进行分不是类查询，但是当用户输入对应垃圾的非精确名称、或别名时，将导致查询垃圾分类错误。

发明内容

本申请提供了一种基于图像识别垃圾种类的装置及方法，通过图像采集装置获取垃圾图像、构建垃圾分类模型、计算垃圾的小类及大类预测概率、构建垃圾图像标识框，一定程度上可以解决垃圾分类操作复杂、准确率低、分类不清晰、设备智能化低的问题。

本申请的实施例是这样实现的：

本申请的第一实施例中提供一种基于图像识别垃圾种类的装置，包括：

显示屏，被配置为用于显示界面；

图像采集装置，被配置为用于获取垃圾图像；

处理器，所述处理器被配置为：

基于所述垃圾图像，使用垃圾分类模型计算得到垃圾种类结果信息；以及

将所述垃圾种类结果信息输出至所述显示屏。

本申请的第二实施例中提供一种基于图像识别垃圾种类的装置，其中，所述垃圾种类结果信息包括：垃圾大类、垃圾小类、标识框。

本申请的第三实施例中提供一种基于图像识别垃圾种类的装置，其中，所述使用垃圾分类模型计算得到垃圾种类结果信息，具体执行如下：基于所述垃圾图像，使用垃圾分类模型，得到所述垃圾图像的多任务信息，所述多任务信息包括：小类预测概率、大类预测概率；对所述多任务信息进行融合计算处理，得到垃圾种类结果信息。

本申请的第四实施例中提供一种基于图像识别垃圾种类的装置，其中，所述多任务信息还包括：所述垃圾图像标识框的坐标。

本申请的第五实施例中提供一种基于图像识别垃圾种类的装置，其中，所述融合计算处理，具体执行如下：基于所述多任务信息，将垃圾的小类预测概率分别乘以其对应的大类预测概率得到乘；选择计算值最大的小类、大类构成垃圾种类结果信息。

本申请的第六实施例中提供一种基于图像识别垃圾种类的装置，其中，所述垃圾分类模型是基于卷积神经网络模型、多层神经元的自编码神经网络模型、深度置信网络模型中的至少一种构建的。

本申请的第七实施例中提供一种基于图像识别垃圾种类的方法，所述方法包括：

获取垃圾图像；

将所述垃圾种类结果信息输出显示。

本申请的第八实施例中提供一种基于图像识别垃圾种类的方法，其中，所述使用垃圾分类模型计算得到垃圾种类结果信息，具体执行如下：使用垃圾分类模型，基于所述垃圾图像，计算得到所述垃圾图像的多任务信息，所述多任务信息包括：小类预测概率、大类预测概率、垃圾图像标识框的坐标；对所述多任务信息进行融合计算处理，得到垃圾种类结果信息。

本申请的第九实施例中提供一种基于图像识别垃圾种类的方法，其中，在获取垃圾图像后，还包括步骤：对所述垃圾图像进行预处理，得到适合于所述垃圾分类模型计算的无形变垃圾图像。

本申请的第十实施例中提供一种基于图像识别垃圾种类的方法，其中，所述垃圾图像由图像采集装置获取，所述图像采集设备包括摄像装置、或摄影装置。

本申请提供的技术方案包括以下有益效果：通过图像采集装置获取垃圾图像，可以实现垃圾图像的智能采集；进一步通过构建垃圾分类模型、可以实现垃圾种类的智能识别；进一步通过构建垃圾的小类及大类预测概率，可以提高模型中多任务的相互关联；进一步通过对多任务信息的融合计算处理，可以提高模型计算垃圾分类的准确率；进一步通过构建垃圾图像标识框，可以实现分类结果与垃圾准确对应，实现垃圾种类的智能识别。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A示出了本申请实施例垃圾分类中大类别分类示意图；

图1B-图1C示出了本申请实施例一种基于图像识别垃圾种类装置的操作界面示意图；

图2示出了本申请实施例基于多任务垃圾分类模型的训练流程示意图；

图3A-图3B示出了本申请一实施例中垃圾分类模型的训练数据；

图4A-图4B示出了本申请另一实施例中垃圾分类模型的训练集数据；

图5示出了本申请实施例垃圾通过基础网络模型的示意图；

图6示出了本申请实施例垃圾分类模型中卷积层示意图；

图7示出了本申请实施例垃圾分类模型中激励层示意图；

图8示出了本申请实施例垃圾分类模型输出饮料瓶的深层次特征图；

图9示出了本申请实施例垃圾分类模型子任务输出的深层次特征图；

图10示出了本申请实施例基于图像识别垃圾种类的执行流程示意图；

图11A-图11B示出了本申请实施例垃圾图像进行预处理的对比图；

图12示出了本申请实施例基于resnext101垃圾分类模型的前向传播示意图；

图13示出了本申请实施例垃圾分类模型输出的多任务信息输出概率示意图；

图14示出了本申请实施例垃圾种类结果信息输出示意图；

图15示出了本申请实施例计算机环境示例非限制性示意图；

图16示出了本申请实施例计算机实现的示意框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本说明书通篇提及的″多个实施例″、″一些实施例″、″一个实施例″或″实施例″等，意味着结合该实施例描述的具体特征、结构或特性包括在至少一个实施例中。因此，本说明书通篇出现的短语″在多个实施例中″、″在一些实施例中″、″在至少另一个实施例中″或″在实施例中″等并不一定都指相同的实施例。此外，在一个或多个实施例中，具体特征、结构或特性可以任何合适的方式进行组合。因此，在无限制的情形下，结合一个实施例示出或描述的具体特征、结构或特性可全部或部分地与一个或多个其他实施例的特征、结构或特性进行组合。这种修改和变型旨在包括在本申请的范围之内。

本申请提供了一种基于图像识别垃圾种类的装置，下文将以某用户使用所述装置对丢弃垃圾的种类进行识别的场景为示例，阐述本申请所述基于图像识别垃圾种类的装置的操作界面。

图1B-图1C示出了本申请实施例一种基于图像识别垃圾种类装置的操作界面示意图。

图1B示出了基于图像识别垃圾种类装置100的初始状态，所述装置处于待机状态。

可以看到，当所述装置不进行垃圾种类识别时，其显示屏不显示相关信息。

基于图像识别垃圾种类装置100至少包括显示屏101和图像采集装置102。

显示屏101设置与所述装置正面、面向用户一侧，用于界面显示，展示所述装置对于垃圾种类的识别信息。

图像采集装置102通常设置于垃圾待识别区域，用于采集垃圾图像，然后由处理器对所述垃圾图像进行分析识别。

用户将一双待丢弃的鞋子放置于所述装置的垃圾待识别区域，显示屏101的显示界面如图1B所示。

图1C示出了基于图像识别垃圾种类装置100在完成垃圾种类识别后，其屏幕的显示界面。

显示屏101的一个区域显示所述鞋子的垃圾种类结果信息：″可回收物/鞋子″以及图片。

其中，″可回收物″为垃圾大类信息、″鞋子″为垃圾小类信息、图片为待识别垃圾的图像。

在一些实施例中，基于图像识别垃圾种类的装置包括：显示屏，被配置为用于显示界面；图像采集装置，被配置为用于获取垃圾图像；处理器，所述处理器被配置为：基于所述垃圾图像，使用垃圾分类模型计算得到垃圾种类结果信息；以及将所述垃圾种类结果信息输出至所述显示屏。

下面将对本申请提供的一种基于图像识别垃圾种类装置及方法进行详细的阐述。

本申请提供的一种基于图像识别垃圾种类的方法，基于所采集垃圾图像的特性，设计多任务学习机制，在有限的训练数据下，可以提升垃圾种分类的准确率。

本申请提供了一种垃圾分类模型，所述垃圾分类模型通过对垃圾图像进行分析计算，可以得到垃圾种类结果信息，并且将所述垃圾种类结果信息输出至显示屏。

在一些实施例中，所述垃圾分类模型是基于多任务的深度学习网络，例如可实施为基于卷积神经网络模型、多层神经元的自编码神经网络模型、深度置信网络模型中的至少一种构建的。

图2示出了本申请实施例基于多任务垃圾分类模型的训练流程示意图。

首先，输入垃圾分类模型所需的训练数据。

在机器学习领域中，一般需要将样本分成独立的三部分，分别是训练集、验证集、和测试集。其中训练集用于估计模型，验证集用于确定网络结构或者控制模型复杂程度的参数，测试集则用于检验最终选择最优的模型的性能如何。

在一些实施例中，可以将训练数据进行划分，训练集占总样本的50％，而其它各占25％，三部分都是从样本中随机抽取。

在一些实施例中，当训练数据，即样本总量较少的时候，可以留少部分的训练数据作为测试集；然后对其余N个样本采用K折交叉验证法。就是将样本打乱，然后均匀分成K份，轮流选择其中K-1份训练，剩余的一份做验证，计算预测误差平方和，最后把K次的预测误差平方和再做平均作为选择最优模型结构的依据。

图3A/B示出了本申请一实施例中垃圾分类模型的训练数据。

在一些实施例中，图3A为训练数据中的原始垃圾图像和，图3B为训练数据中垃圾图像的图像表述信息。

可以发现，图3B中饮料瓶的图像表述信息为″饮料瓶″，即只包括垃圾的小类信息。

图4A/B示出了本申请另一实施例中垃圾分类模型的训练集数据。

在一些实施例中，图4A为训练数据的原始垃圾图像，图4B为训练数据中垃圾图像的图像表述信息。

可以发现，图4B中饮料瓶的图像表述信息为″饮料瓶/可回收物″，并且饮料瓶外侧还显示有标识框，既所述图像表述信息包括垃圾的小类信息、大类信息、和标识框。

在本实施例中，所述标识框具体可实施为矩形框。

本申请提供的垃圾分类网络所需要的的训练数据，包括垃圾图像与图像表述信息，所述图像表述信息包括垃圾的小类信息、大类信息、并标识框。

在一些实施例中，本申请所需的训练数据，所述图像表述信息即要包含垃圾所属的小类别信息、大类别信息，也要包含垃圾在采集图像中的位置。

在一些实施例中，训练数据的垃圾图像，其图像表述信息存在于标注文本中。

例如，其格式表示为：

x.jpg 1 3 31 42 54 78

其中，x.jpg为图像名称、1为小类别、3为大类别、(31，42)为矩形框左上角坐标，(54，78)为矩形框右下角坐标。

在一些实施例汇中，所述垃圾分类模型在训练时，图像表述信息中的标注信息可以不在图像中显示。上述实施例训练数据中图像的标注信息是为了更好的理解所述图像表述信息。

继续参考图2，基础网络提取共享特征。

基于所述训练数据，基础网络提取共享特征时，将采集的多个垃圾图像输入基础网络。垃圾图像以此通过基础网络的卷积层、RELU激励层，池化层、全连接层进行计算处理，可以提取垃圾图像的特征。

图5示出了本申请实施例垃圾通过基础网络模型的示意图。

饮料瓶的图像会经过多个CONV(卷积层)、RELU(激励层)、POOL(池化层)，垃圾图像每经过一个层，都会得到不同的特征图像，通过在网络模型内不断的迭代，最后获得垃圾图像深层次的特征。

下面将对垃圾图像在神经网络模型中的训练进行详细的阐述。

卷积层，对于每一个神经元的固定的卷积核矩阵与窗口矩阵的乘积，即对应位置相乘，再求和之后再加上偏置项b的值，就得到了代表该神经元所关注的特征在当前图像窗口的值，如图6所示。

激励层，即激活层，例如在CNN(Convolutional Neural Networks：卷积神经网络)中一般使用RELU(Rectified Linear Unit：线性整流函数)作为激活函数，它的作用主要是将卷积层的输出结果做非线性映射，其函数图如图7所示。

池化层，主要用于压缩数据和参数量，减小过拟合。池化层的数据压缩策略主要有包括最大池化和平均池化。其中，Max Pooling(最大池化)，选择每个小窗口中最大值作为需要的特征像素点，即可以省略掉不重要的特征像素点；Average Pooling(平均池化)，选择每个小窗口中平均值作为需要的特征像素点。

FC(fully connected layers：全连接层)，即前一层的每一个神经元与后一层的每一个神经元相连，通过全连接结构将前面输出的特征重新组合成一张完整的图像。

基础网络主要是通过以上基础层的组合设计结构，提取垃圾图像的深层次特征，即共享特征，用特征图表示。例如，饮料瓶在所述基础网络中通过不断的特征提取，最终获得表示深层次特征的特征图，如图8所示。

继续参考图2，将所述共享特征作为多个子任务的输入进行计算。

在一些实施例中，将所述共享特征作为三个子任务的输入，每个子任务都是多个卷积层、激励层，池化层、全连接层的组合。其不同之处在于结构不同，包括卷积和个数以及卷积核尺寸的不同。

通过不同子任务的计算，最终获得不同子任务的特征图，如图9所示。图中每个数值都代表一个特征值。

在一些实施例中，三个子任务包括：

子任务1：小类特征提取；子任务2：大类特征提取；子任务3：矩形框回归特征提取。

小类特征提取专注于提取垃圾的小类别特征，所述小类别是指垃圾的具体名称，例如塑料袋、饮料瓶、纸类、金属、玻璃、织物、灯管、电池等。

通过使用逻辑回归的多分类方法，其交叉商损失函数表示如下：

其中，y为真实标签，假设小类别有5类，此时图像类别为第一类，则y为[1，0，0，0，0]，函数p为条件概率，即分别当y＝1，y＝0，y＝0，y＝0，y＝0时，求逻辑回归函数的值，其公式表示如下：

其中，θ为J1公式中的w，即训练参数，每对应一个类别，都有一套w值对应；T表示转置；x为子任务1中输出的特征值，分别代入公式即可计算出损失值。

在一些实施例中，大类别指垃圾分类的四大类别，包括：可回收物、厨余垃圾、有害垃圾、其他垃圾。

子任务2采用SoftMax的多分类方法，倾向于训练其大类别之间的差异，其交叉商损失函数表示如下：

其中，y为标签，是标注的真实项，例如饮料瓶的y值为[1，0，0，0]，函数p为条件概率，即分别当y＝1，y＝0，y＝0，y＝0时，求softmax函数的值，其公式表示如下：

其中，C是要预测的类别数，这里是大类别，因此C＝4；

a为子任务2中全连接输出的特征值，其输出个数为C，即输出为a1，a2，...，aC，将四个特征值依次代入，经过上述公式之后同样会得出四个归一化为(0-1)的四个概率值，例如计算获得[0.8，0.1，0.04，0.06]，然后，依次代入J2公式可计算出损失。

子任务3用于训练特征预测垃圾的矩形约束框，使图像在预测垃圾类别时，更加关注预测的前景，减小背景的影响；同时最终再预测图像中标出所预测的垃圾位置，以防垃圾种类多时，对用户造成误解。训练时直接预测矩形框的坐标值，采用欧式距离的损失函数表示如下：

其中，函数f为线性回归函数，其公式表示如下：

f(x，w)＝w^T＊x+b

其中，w为参数，是一个竖向单列矩阵；T为转置；b为偏置；

w和b有初始值，且共有四组，后续会根据loss值不断迭代；

x为子任务3卷积后获得的特征值，同样是一个竖向单列矩阵。

Y为坐标的标注值，例如饮料瓶为(31，42)，(54，78)共四个值，分别代入四组w和b值，计算出四个z值，便可根据J3公式计算每一个坐标值的损失值。

针对垃圾分类，设计了3个子任务，即多个小类别的逻辑回归任务，4个大类别的SoftMax多分类任务，以及矩形框坐标回归任务，3个任务互相关联，可以提高垃圾分类模型训练学习的效率。

继续参考图2，基于所述多个子任务，计算整体的损失函数。

在一些实施例中，为了平衡大类别分类和小类别分类的损失函数值，对其分别进行加权处理，整体训练损失函数表示如下：

其中，x为特征值，W为待训练的参数，J为待计算的损失函数值，n为矩形框的顶点个数，i表示第几个，yr_i表示第i个顶点坐标值，包括横坐标和纵坐标，f(x_i；W^r)表示基于模型计算预估的坐标值，λ_b为大类别损失函数权重λ_s为小类别算是函数权重，字母上标b表示big，即大类别，字母上标s表示small，即小类别，字母上标r表示rect，即矩形框，p()为概率函数。

继续参考图2，基于所述整体的损失函数，如果其损失Loss值小于预设阈值时，则持续进行反向传播优化迭代；

如果其损失Loss值大于等于预设阈值时，则认为所述网络模型的训练已达到收敛，输出垃圾分类模型。

图10示出了本申请实施例基于图像识别垃圾种类的执行流程示意图。

第二部分是基于垃圾分类模型对图像所属垃圾类别进行识别，应用所需模块和函数为：图像数据输入模块，图像预处理模块，基础网络特征提取模块，三个子任务的特征提取模块，小类别的逻辑回归函数、大类别的softmax回归函数、预测矩形框坐标值的线性回归函数，除图像数据输入模块以及图像预处理模块外，其他模块和函数均封装于垃圾分类模型中，其流程图如下图所示：

首先，输入图像数据，获取垃圾图像。

在一些实施例中，通过图像采集装置获取垃圾图像，所述图像采集装置可包括监控装置、移动装置、摄影装置、摄像装置等一种或多种的任意组合。在一些实施例中，监控装置可以包括球形摄像机、半球摄像机、监控摄像机、行车记录仪、针孔摄像头等一种或多种的任意组合。在一些实施例中，移动装置可以包括智能摄像机、智能眼镜、智能头盔、手机、平板等一种或多种的任意组合。在一些实施例中，摄影装置可以包括数码相机、单反相机、微单相机等一种或多种的任意组合。在一些实施例中，摄像装置可以包括录像机、摄像机等一种或多种的任意组合。在一些实施例中，图像采集装置可以包括任何带有摄像头的装置。摄像头可以包括任何具有图像捕捉功能的装置。

继续参考图10，对所述垃圾图像进行预处理，得到适合于垃圾分类模型计算的无形变垃圾图像。

在一些实施例中，图像预处理直接对采集的垃圾图像进行缩放，容易导致输入网络模型的图像严重变形，进而造成部分垃圾极易识别错误。例如，牙签经过图像缩放变形后，会误识别为筷子。

在一些实施例中，图像预处理针对网络模型的输入尺寸和图像实际尺寸进行无变形缩放，下面将对垃圾图像的无形变预处理进行阐述。

网络模型所需的标准像素尺寸为W和H，垃圾图像的实际像素尺寸为w和h，分别计算所述标准像素尺寸和实际像素尺寸的宽高比，表示如下：

R＝W/H；r＝w/h

若R等于r：则直接缩放垃圾图像至网络模型标准像素尺寸。

若R大于r：首先，将垃圾图像的高度h缩放至网络模型的标准高度H；然后，将缩放图像的宽度缩放至w^＊H/h；其次，将缩放的图像上下边补充(W-w^＊H/h)的长度。

若R小于r：首先，将垃圾图像的宽度w缩放至网络模型的标准宽度W；然后，将缩放图像的高度缩放至h^＊W/w；其次，在缩放图像的左右边补充(H-h^＊W/w)的长度。

图11A/B示出了本申请实施例垃圾图像进行预处理的对比图。

图11A为本申请基于图像识别垃圾种类装置所获取的原始图像，图11B为所述垃圾图像进行预处理后的压缩图像。

基于所述垃圾图像，使用垃圾分类模型计算得到垃圾种类结果信息。

在一些实施例中，所述垃圾种类结果信息包括：大类信息、小类信息、标识框。所述垃圾种类结果信息展示于本申请基于图像识别垃圾种类的装置的显示屏上。

其中，大类信息表示垃圾所述的大类，小类信息表示垃圾所述的小类。

标识框可在显示屏的图像中标出哪个部分属于被分类的垃圾，其有益效果在于使得垃圾图像识别结果呈现更加清晰。获取多种垃圾图片时，最终输出的概率结果会在图像中以矩形框形式标出，防止用户误认为图像中所有垃圾都属于某个类别，即实际可能是多个垃圾类别。

在一些实施例中，大类信息实施为4个：可回收物、厨余垃圾、有害垃圾、其他垃圾。在每个大类信息下又分为若干个小类信息，所述小类信息总计个数为43个。

继续参考图10，基于所述垃圾图像，使用垃圾分类模型处理，得到所述垃圾图像的多任务信息，所述多任务信息包括：小类预测概率、大类预测概率。

在一些实施例中，所述多任务信息还包括垃圾图像标识框的坐标，所述标识框可实施为矩形框，即所述多任务信息还包括矩形框的坐标。

将经过预处理的垃圾图像输入垃圾分类模型，通过前向传播，获得小类预测概率、大类预测概率、矩形框的坐标。

图12示出了本申请实施例基于resnext101垃圾分类模型的前向传播示意图。

在一些实施例中，所述垃圾分类模型实施为深度残差网络resnext101网络，网络输入图像是一个背景为木纹地板的塑料袋图像，经过网络模型的深度抽象特征提取，其输出分类概率和坐标值。假设训练数据小类类别数量为43，即最终会输出：43个小类的预测概率；4个大类的预测概率；识别垃圾物体的矩形框。所述分类概率、坐标值用于多任务的分类和回归计算。

继续参考图10，对所述多任务信息进行融合计算处理，得到垃圾种类结果信息，即输出最终结果。

所述融合计算处理，基于所述多任务信息，将垃圾的小类预测概率分别乘以其对应的大类预测概率得到乘积；选择计算值最大的小类、大类构成垃圾种类结果信息。

图13示出了本申请实施例垃圾分类模型输出的多任务信息输出概率示意图。

43个小类别的概率结果，基于逻辑回归多分类输出，即图中：

p(y0s＝small_class_0)到p(y42s＝small_class_42)。

4个大类别的概率结果，由SoftMax多分类输出，即图中：

p(y0b＝big_class_0)到p(y3b＝big_class_3)。

由于垃圾分类模型在训练时同时预测小类别概率和大类别概率，因此可以认为yis和yjb为相互独立事件，即事件x和事件y相互独立，由：p(x，y)＝p(x)＊p(y)，得到：

其中，i属于[0，42]、j属于[0，3]。

由于每个小类别属于哪个大类别是已知的，因此通过以上公式可计算出垃圾图像中的物体属于43个小类别的概率，最后选取43个小类别概率中最大的概率作为垃圾种类结果信息，并将其输出至基于图像识别垃圾种类的装置的显示屏，如图14所示。

针对输出的多任务信息进行融合计算处理，可以提升垃圾种类识别的准确率。基于多任务输出的多个概率信息，充分考虑小类别概率和大类别概率相互独立，通过对小类别概率乘以对应的大类别概率，选择最大概率得到最终结果，该信息融合方式，一定程度上可以解决某些垃圾类别概率非常接近的情况下，容易误分类的问题。

参照图15，用于实现要求保护主题的各个方面的适当环境1500包括计算机1502。计算机1502包括处理单元1504、系统存储器1506、编解码器305和系统总线1508。系统总线1508将系统组件(包括但不限于系统存储器1506)耦合到处理单元1504。处理单元1504能够是各种可用处理器的任何处理器。双微处理器和其它多处理器架构也能够用作处理单元1504。

系统总线1508能够具有若干类型的总线结构的任何类型，包括存储器总线或存储控制器、外围总线或外部总线和/或本地总线，其使用任何种类的可用总线架构，包括但不限于工业标准架构(ISA)、微通道架构(MSA)、扩展ISA(EISA)、智能驱动电子(IDE)、VESA本地总线(VLB)、外设部件互连(PCI)、卡总线、通用串行总线(USB)、高级图形端口(AGP)、个人计算机存储卡国际协会总线(PCMClA)、火线(IEEE 1394)和小型计算机系统接口(SCSI)。

系统存储器1506包括易失性存储器1510和非易失性存储器1512。合有例如在启动期间在计算机1502内的元件之间传递信息的基本例程的基本输入/输出系统(BIOS)被存储在非易失性存储器1512中。作为说明而不是限制，非易失性存储器1512能够包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦可编程ROM(EEPROM)或闪速存储器。易失性存储器1510包括随机存取存储器(RAM)，其充当外部高速缓冲存储器。按照本方面，易失性存储器可存储写操作重试逻辑(图15中未示出)等。作为说明而不是限制，RAM是采取许多形式可用的，例如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据速率SDRAM(DDR SDRAM)和增强SDRAM(ESDRAM)。

计算机1502还可包括可拆卸/不可拆卸、易失性/非易失性计算机存储介质。图3示出例如磁盘存储设备1514。磁盘存储设备1514包括但不限于像磁盘驱动器、固态磁盘(SSD)、软盘驱动器、磁带驱动器、Zip驱动器、LS-110驱动器、闪速存储卡或存储棒的装置。另外，磁盘存储装置1514能够包括单独地或者与其它存储介质相组合的存储介质，包括但不限于光盘驱动器(例如致密盘ROM装置(CD-ROM)、CD可记录驱动器(CD-R驱动器)、CD可重写驱动器(CD-RW驱动器)或者数字多功能盘ROM驱动器(DVD-ROM)。为了促进磁盘存储装置1514与系统总线1508的连接，典型地使用可拆卸或者不可拆卸接口(例如接口1516)。

要意识到，图15描述软件、执行中的软件、硬件和/或与硬件相组合的软件，其充当用户与适当操作环境1500中描述的基本计算机资源之间的中介。这种软件包括操作系统1518。操作系统1518(其能够存储在磁盘存储设备1514上)起作用以控制和分配计算机系统1502的资源。应用1520利用操作系统1518通过系统存储器1506中或者磁盘存储设备1514上存储的程序模块1524和程序数据1526(例如引导/关机事务表等)的对资源的管理。要意识到，要求保护主题能够采用各种操作系统或者操作系统的组合来实现。例如，应用1520和程序数据1526能够包括实现本申请的方面的软件。

用户通过(一个或多个)输入装置1528(其非限制性示例能够包括指点装置(例如鼠标)、轨迹球、指示笔、触摸板、键盘、话筒、操纵杆、游戏手柄、圆盘式卫星天线、扫描仪、电视调谐卡、数码相机、数字摄像机、电子鼻、万维网摄像头或者允许用户与计算机1502进行交互的其它装置)将命令或信息输入计算机1502中。这些和其它输入装置经由(一个或多个)接口端口1530通过系统总线1508来连接到处理单元1504。(一个或多个)接口端口1530包括例如串行端口、并行端口、游戏端口和通用串行总线(USB)。(一个或多个)输出装置1536使用与(一个或多个)输入装置1528相同类型的端口中的一些。因此，例如，USB端口可用来向计算机1502提供输入，并且从计算机1502向输出装置1536输出信息。提供输出适配器1534，以示出存在一些输出装置1536，像监视器、扬声器和打印机连同要求特殊适配器的其它输出装置1536。输出适配器1534作为说明而不是限制包括视频和声卡，其提供输出装置1536与系统总线1508之间的连接的手段。应当注意，其它装置和/或装置的系统提供输入和输出能力两者，例如(一个或多个)远程计算机1538。

计算机1502能够在使用到一个或多个远程计算机(例如(一个或多个)远程计算机1538)的逻辑连接的网络化环境中进行操作。(一个或多个)远程计算机1538能够是个人计算机、服务器、路由器、网络PC、工作站、基于微处理器的器具、对等装置、智能电话、平板电脑或者其它网络节点，并且典型地包括相对于计算机1502描述的元件中的许多元件。为了简洁的目的，随(一个或多个)远程计算机1538仅示出存储器存储装置1540。(一个或多个)远程计算机1538通过网络接口1542逻辑地连接到计算机1502，并且然后经由(一个或多个)通信连接1544来连接。网络接口1542包含有线或无线通信网络，例如局域网(LAN)、广域网(WAN)和蜂窝网络。LAN技术包括光纤分布数据接口(FDDI)、铜分布数据接口(CDDI)、以太网、令牌环等。WAN技术包括但不限于点对点链路、电路切换网络(像综合服务数字网络(ISDN)及其变化)、分组切换网络和数字用户线(DSL)。

一个或多个通信连接1544指用来将网络接口1542连接到总线1508的硬件/软件。虽然通信连接1544为了说明的清楚而在计算机1502内部示出，但是它也能够在计算机1502外部的。到网络接口1542的连接所需的硬件/软件包括(仅为了示范目的)内部和外部技术，例如调制解调器(包括普通电话级调制解调器、电缆调制解调器和DSL调制解调器)、ISDN适配器、有线和无线以太网卡、集线器和路由器。

现在参照图16，示出按照本说明书的计算环境1600的示意框图。系统1600包括一个或多个客户端1602(例如计算机、智能电话、平板、照相机、PDA)。(一个或多个)客户端1602能够是硬件和/或软件(例如线程、进程、计算装置)。(一个或多个)客户端1602能够例如采用本说明书来容纳(一个或多个)cookie和/或关联的上下文信息。

系统1600还包括一个或多个服务器1604。(一个或多个)服务器1604也能够是硬件或者与软件相组合的硬件(例如线程、进程、计算装置)。服务器1604能够容纳例如通过采用本申请的方面来执行媒体项的变换的线程。客户端1602与服务器1604之间的一种可能通信能够采取适合在两个或更多计算机进程之间传送的数据分组的形式，其中数据分组可包括编码分析预留空间和/或输入。数据分组能够包括例如cookie和/或关联的上下文信息。系统1600包括通信框架1606(例如，全球通信网络，例如因特网)，其能够用来促进(一个或多个)客户端1602与(一个或多个)服务器1604之间的通信。

通信能够经由有线(包括光纤)和/或无线技术来促进。(一个或多个)客户端1602操作地连接到一个或多个客户端数据存储设备1604，其能够用来存储(一个或多个)客户端1602本地的信息(例如(一个或多个)cookie和/或关联的上下文信息)。类似地，(一个或多个)服务器1604操作地连接到一个或多个服务器数据存储设备1610，其能够用来存储服务器1604本地的信息。

在一个示范实现中，客户端1602能够向服务器1604传递编码的文件(例如编码的媒体项)。服务器1604能够存储文件，对文件解码，或者将文件传送给另一个客户端1602。要意识到，按照本申请，客户端1602还能够向服务器1604传递未压缩的文件，以及服务器1604能够压缩文件和/或变换文件。同样，服务器1604能够对信息编码，并且经由通信框架1606将信息传送给一个或多个客户端1602。

本申请的所示方面还可在分布式计算环境中实践，其中某些任务由远程处理装置(其通过通信网络所链接)来执行。在分布式计算环境中，程序模块能够位于本地和远程存储器存储装置两者中。

本申请提供的技术方案的有益效果在于，通过图像采集装置获取垃圾图像，可以实现垃圾图像的智能采集；进一步通过构建垃圾分类模型、可以实现垃圾种类的智能识别；进一步通过构建垃圾的小类及大类预测概率，可以提高模型中多任务的相互关联；进一步通过对多任务信息的融合计算处理，可以提高模型计算垃圾分类的准确率；进一步通过构建垃圾图像标识框，可以实现分类结果与垃圾准确对应，实现垃圾种类的智能识别。

此外要意识到，本申请所述的各种组件(例如视频分析组件、应急服务组件、数据采集监控组件等)能够包括(一个或多个)电路，其能够包括适当值的组件和电路元件，以便实现本创新的方面。此外能够意识到，各种组件的许多组件能够在一个或多个集成电路(1C)芯片上实现。在一个示范实现中，组件集合能够在单个IC芯片上实现。在其它示范实现中，相应组件的一个或多个在单独IC芯片上制作或实现。

以上已经描述的包括本发明的实现的示例。为了描述要求保护主题的目的，当然不可能描述组件或方法的每一个可设想组合，但是要意识到，本创新的许多另外组合和置换是可能的。相应地，要求保护主题打算包含全部这类改变、修改和变化，其落入所附权利要求的精神和范围之内。此外，包括″摘要″中所述的事物的本申请的所示实现的以上描述并不是要详细列举或者将所公开实现局限于所公开的精确形式。虽然本申请中为了说明目的而描述具体实现和示例，但是如相关领域的技术人员能够认识的，被认为在这类实现和示例的范围之内的各种修改是可能的。

具体来说并且关于由上述组件、装置、电路、系统等所执行的各种功能，除非另加指示，否则用来描述这类组件的术语打算对应于执行所述组件的所指定功能(例如，功能等效)的任何组件，即使不是在结构上等效于所公开结构(其执行要求保护主题的本申请所示示范方面的功能)。在这方面，还将会认识到，创新包括系统以及计算机可读存储介质，其具有计算机可执行指令，以用于执行要求保护主题的各种方法的动作和/或事件。

已经针对若干组件/块之间的交互描述了上述系统/电路/模块。能够意识到，这类系统/电路和组件/块能够包括那些组件或者所指定子组件、所指定组件或者子组件的一些和/或附加组件，并且按照以上述各种置换和组合。子组件还能够实现为通信地耦合到其它组件而不是包括在父组件(分级)内的组件。另外，应当注意，一个或多个组件可组合为提供聚合功能性的单个组件或者分为若干单独子组件，以及可提供任何一个或多个中间层(例如管理层)，以通信地耦合到这类子组件，以便提供综合功能性。本申请所述的任何组件还可与本申请中没有具体描述但是本领域的技术人员已知的一个或多个其它组件进行交互。

虽然阐明本发明的广义范围的数值范围和参数是近似值，但是具体示例中阐明的数值尽可能准确地报导。但是，任何数值固有地合有必然产生于其相应测试测量中找到的标准偏差的某些误差。此外，本申请所公开的全部范围要被理解为包含其中所包含的任何和全部子范围。例如，″小于或等于11″的范围能够包括零的最小值与11的最大值之间(并且包含该最小值与最大值)的任何和全部子范围，即，任何和全部子范围具有等于或大于零的最小值以及等于或小于11的最大值(例如1至5)。在某些情况下，如对参数所述的数值能够具有负值。

另外，虽然可能已经仅针对若干实现之一公开了本创新的特定特征，但是这种特征可如对任何给定或特定应用可预期和有利的与其它实现的一个或多个其它特征相组合。此外，在详细描述或者权利要求中使用术语″包括(include、including)″、″具有″、″合有″及其变体和其它类似词语的意义上，这些术语打算采用与作为开放过渡词语的术语″包含″相似的方式是包含的，而没有排除任何附加或其它元件。

遍及本说明书中提到″一个实现″或″一实现″表示结合该实现所述的特定特征、结构或特性包含在至少一个实现中。因此，短语″在一个实现中″或者″在一实现中″在遍及本说明书中的各个位置的出现不一定全部指相同实现。此外，具体特征、结构或特性可采用任何适当方式结合在一个或多个实现中。

如本申请中使用的术语″组件″、″模块″、″系统″等一般打算指作为硬件(例如电路)、硬件和软件的组合的计算机相关实体或者与具有一个或多个特定功能性的操作机器相关的实体。例如，组件可以是(但不限于)在处理器(例如数字信号处理器)上运行的进程、处理器、对象、可执行、执行线程、程序和/或计算机。作为说明，在控制器上运行的应用和控制器两者均能够是组件。一个或多个组件可驻留在进程和/或执行线程中，以及组件可定位在一个计算机上和/或分布在两个或更多计算机之间。虽然在各个实现中描绘单独组件，但是要意识到，组件可采用一个或多个公共组件来表示。此外，各个实现的设计能够包括不同组件放置、组件选择等，以实现最佳性能。此外，″装置″能够采取专门设计硬件；通过其上的软件(其使硬件能够执行特定功能(例如媒体项聚合))的执行被专门化的一般化硬件；计算机可读介质上存储的软件；或者其组合的形式。

此外，词语″示例″或″示范″在本申请中用来表示″用作示例、实例或说明″。本申请中描述为″示范″的任何方面或设计不一定被理解为相对其它方面或设计是优选或有利的。相反，词语″示例″或″示范″的使用打算以具体方式呈现概念。如本申请所使用的，术语″或者″打算表示包含″或″而不是互斥″或″。即，除非另加说明或者从上下文清楚地知道，否则″X采用A或B″打算表示自然包含置换的任一个。即，如果X采用A；X采用B；或者X采用A和B两者，则在上述实例的任何实例下均满足″X采用A或B″。另外，如本申请和所附权利要求中所使用的冠词″一(a和an)″应当一般地理解为表示″一个或多个″，除非另加说明或者从上下文清楚地知道针对单数形式。

Claims

1.一种基于图像识别垃圾种类的装置，其特征在于，包括：

显示屏，被配置为用于显示界面；

图像采集装置，被配置为用于获取垃圾图像；

处理器，所述处理器被配置为：

基于所述垃圾图像，使用垃圾分类模型，得到所述垃圾图像的多任务信息，所述多任务信息包括：小类预测概率、大类预测概率、垃圾图像标识框的坐标；

根据逻辑回归函数，获取所述小类预测概率，根据softmax回归函数，获取所述大类预测概率，根据线性回归函数，获取所述垃圾图像标识框的坐标；

对所述多任务信息进行融合计算处理，得到垃圾种类结果信息；以及

将所述垃圾种类结果信息输出至所述显示屏。

2.根据权利要求1所述基于图像识别垃圾种类的装置，其特征在于，所述垃圾种类结果信息包括：垃圾大类、垃圾小类、标识框。

3.根据权利要求1所述基于图像识别垃圾种类的装置，其特征在于，所述融合计算处理，具体执行如下：

基于所述多任务信息，将垃圾的小类预测概率分别乘以其对应的大类预测概率得到乘积；

选择计算值最大的小类、大类构成垃圾种类结果信息。

4.根据权利要求1所述基于图像识别垃圾种类的装置，其特征在于，所述垃圾分类模型是基于卷积神经网络模型、多层神经元的自编码神经网络模型、深度置信网络模型中的至少一种构建的。

5.一种基于图像识别垃圾种类的方法，其特征在于，所述方法包括：

获取垃圾图像；

使用垃圾分类模型，基于所述垃圾图像，计算得到所述垃圾图像的多任务信息，所述多任务信息包括：小类预测概率、大类预测概率、垃圾图像标识框的坐标；

将所述垃圾种类结果信息输出显示。

6.根据权利要求5所述基于图像识别垃圾种类的方法，其特征在于，在获取垃圾图像后，还包括步骤：

对所述垃圾图像进行预处理，得到适合于所述垃圾分类模型计算的无形变垃圾图像。

7.根据权利要求5所述基于图像识别垃圾种类的方法，其特征在于，所述垃圾图像由图像采集装置获取，所述图像采集设备包括摄像装置、或摄影装置。