CN110723432A

CN110723432A - 垃圾分类的方法及增强现实设备

Info

Publication number: CN110723432A
Application number: CN201910894312.4A
Authority: CN
Inventors: 孔庆杰; 林姝
Original assignee: Elite Vision Intelligent Technology (shenzhen) Co Ltd
Current assignee: Elite vision technology (Shandong) Co.,Ltd.
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2020-01-24

Abstract

本申请适用于增强现实技术领域，提供了一种垃圾分类的方法，应用于增强现实设备，包括：通过视觉采集装置实时采集目视场景的视频流，并从所述视频流获取图像；对所述图像进行识别，确定所述图像中的目标物的垃圾类别；通过显示装置显示识别结果，所述识别结果包括所述目标物的垃圾类别。通过本申请实施提供的增强现实设备，用户可以在分类投放点现场获得分类指导，从而可以快速准确的进行垃圾分类投放。

Description

垃圾分类的方法及增强现实设备

技术领域

本申请属于增强现实技术领域，尤其涉及一种垃圾分类的方法及增强现实设备。

背景技术

随着强制垃圾分类的法律法规的施行，各地开始要求居民垃圾投放进行强制分类。目前各地通过视频宣传、展板、画册、传单等方式指导居民如何进行垃圾分类，以及通过设置和培训督导人员的方式对市民垃圾分类的情况进行监督检查。但是由于长期以来居民并未养成垃圾分类的习惯，各地的垃圾分类标准又不一致，并且有些垃圾的定义与居民长久以来的认知和习惯不符，导致居民错误分类投放垃圾，以及对居民指导的成本和督导人员的培训成本的增加。

发明内容

本申请实施例提供了一种垃圾分类的方法及增强现实设备，可以帮助居民和督导人员快速准确的获得垃圾的分类。

第一方面，本申请实施例提供了一种垃圾分类的方法，包括：

通过视觉采集装置实时采集目视场景的视频流，并从所述视频流获取图像；

对所述图像进行识别，确定所述图像中的目标物的垃圾类别；

通过显示装置显示识别结果，所述识别结果包括所述目标物的垃圾类别。

通过本申请实施例提供的增强现实设备，用户可以在分类投放点现场获得分类指导，从而可以快速准确的进行垃圾分类投放。

第二方面，本申请实施例提供了一种垃圾分类装置，包括：

采集模块，通过视觉采集装置实时采集目视场景的视频流，并从所述视频流获取图像；

图像识别模块，对所述图像进行识别，确定所述图像中的目标物的垃圾类别；

显示模块，通过显示装置显示识别结果，所述识别结果包括所述目标物的垃圾类别。

第三方面，本申请实施例提供了一种增强现实设备，包括：

存储器、处理器、视觉采集装置、显示装置以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，包括：所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法步骤。

第五方面本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行上述第一方面所述的方法步骤。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的垃圾分类的方法的应用场景示意图；

图2是本申请一实施例提供的垃圾分类的方法流程示意图；

图3是本申请另一实施例提供的垃圾分类的方法流程示意图；

图4是本申请另一实施例提供的垃圾分类的方法流程示意图；

图5是本申请一实施例提供的垃圾分类的方法检测模型和识别模型输入输出数据的示意图；

图6是本申请另一实施例提供的垃圾分类的方法流程示意图；

图7是本申请一实施例提供的垃圾分类的方法检测模型、识别模型和追踪模型输入输出数据的示意图；

图8是本申请又一实施例提供的垃圾分类的方法检测模型、识别模型和追踪模型输入输出数据的示意图；

图9是本申请实施例提供的垃圾分类装置的结构示意图；

图10是本申请实施例提供的增强现实设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

图1示出的是本申请实施例提供的一种垃圾分类方法的应用场景。当居民携带垃圾来到垃圾分类投放点110附近，准备分类投放垃圾102时。通常根据预先学习到的分类知识，或者垃圾投放点张贴的宣传信息进行分类投放。但是对于还未熟练进行垃圾分类的居民来说，由于垃圾分类的规则比较复杂，或各地垃圾分类的规则不一致，有可能对垃圾分类规则误解或误判，造成错误投放的结果。一方面，影响垃圾分类的实施效果；另一方面，居民垃圾分类的效率也比较低。

为了解决这个问题，本申请在图1示出的应用场景中，提供了通过增强现实(Augmented Reality，AR)设备101，例如，AR眼镜，实时为AR设备101的用户提供垃圾分类的指导，以帮助用户快速准确的进行垃圾分类投放。如图1所示，当用户来到垃圾分类投放点110附近准备分类投放垃圾102时。用户通过AR设备101的视觉采集装置实时采集用于目视场景的视频流，AR设备101从视频流中获取图像，AR设备101对图像进行识别，确定所述图像中的目标物的垃圾类别；AR设备101通过显示装置显示识别结果，该识别结果包括但不限于目标物的垃圾类别。通过本申请实施例提供的AR设备101，用户可以在分类投放点现场获得AR设备实时提供的分类指导，从而可以快速准确的进行垃圾分类投放。

图2示出了本申请实施例提供的垃圾分类的方法，应用于上述图1所示的AR设备101，可由所述AR设备的软件/硬件实现。如图2所示，该方法包括步骤S110～S130。各个步骤的具体实现原理如下：

S110，通过视觉采集装置实时采集目视场景的视频流，并从所述视频流获取图像。

其中，AR设备包括但不限于可实现AR功能的手机、平板电脑、可穿戴设备、车载设备、AR眼镜、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等终端设备上，本申请实施例对AR设备的具体类型不作任何限制。

在一个非限定性的示例中，用户开启AR装置，例如AR眼镜。AR眼镜通过视觉采集装置，例如摄像头，实时采集目视场景的视频流，并从所述视频流中获取图像。

S120，对所述图像进行识别，确定所述图像中的目标物的垃圾类别。

在一个非限定性的示例中，AR眼镜对图像进行识别，确定图像中目标物的垃圾类别；其中，所述识别包括但不限于通过聚类分类器、统计分类器和神经网络分类器至少之一对图像进行识别。

其中，目标物为用于准备分类投放的物品；

其中，垃圾类别根据不同地区的规定设置，例如，可回收垃圾、不可回收垃圾和有害垃圾等。

在另一个非限定性的示例中，AR眼镜利用统计学分类器或几何分类器确定图像中目标物的垃圾类别。

在一个非限定性的的示例中，AR眼镜通过经训练的神经网络模型对图像进行识别，确定图像中目标物的垃圾类别。

可以理解的是，在某些实施例中，在对图像进行识别前，可以对图像进行预处理，包括但不限于对图像进行增强、滤波、色彩处理和分割处理至少之一，以使图像的尺寸或者灰度等参数满足识别处理的要求，在一个非限定性的示例中，对图像的尺寸进行处理，将图像变换为1000乘1000像素的图像，以方便后续识别处理。

S130，通过显示装置显示识别结果，所述识别结果包括所述目标物的垃圾类别。

其中，显示装置包括但不限于投影显示装置、显示屏等可以显示图像信息的装置。

其中，识别结果包括但不限于目标物的垃圾类别、或目标物为某一垃圾类别的概率。

在一个非限定性的示例中，通过显示装置显示目标物的垃圾类别。其中，可以通过目标物为某一类别的概率大于预设阈值确定该目标物即为该垃圾类别。

在一个非限定性的示例中，当用户来到垃圾分类投放点附近准备分类投放垃圾时。用户通过AR设备，例如AR眼镜，的视觉采集装置实时采集用于目视场景的视频流，AR眼镜从视频流中获取图像，AR眼镜对图像进行识别，确定所述图像中的目标物的垃圾类别；AR眼镜通过显示装置显示识别结果，该识别结果包括但不限于目标物的垃圾类别。通过本申请实施提供的AR设备，用户可以在分类投放点现场获得AR眼镜实时的分类指导，从而可以快速准确的进行垃圾分类投放。

在上述图2所示的实施例的基础上，如图3所示，步骤S120，对所述图像进行识别，确定所述图像中的目标物的垃圾类别，包括步骤S1201和S1202：

S1201，利用检测模型对所述图像进行检测，获取所述图像对应的检测参数。

在一个非限定性的示例中，AR设备利用聚类模型对图像进行检测，获取图像是否为垃圾和/或图像中有可能为垃圾的目标物的位置的参数。

在一个非限定性的示例中，AR设备利用神经网络模型对图像进行检测，获取图像是否为垃圾的参数，以及图像中为确定为垃圾的目标物的位置参数。

S1202，根据所述检测参数，利用识别模型对所述图像进行识别，确定所述图像中的所述目标物的垃圾类别。

在一个非限定性的示例中，AR设备利用贝叶斯分类器对检测过的图像中的目标物进行分类，获得目标物的垃圾类别。

在一个非限定性的示例中，AR设备利用神经网络分类器对检测过的图像中的目标物进行分类，获得目标物的垃圾类别。

可以理解的是，通过将检测和识别模型分开对图像中可能为垃圾的目标进行检测，一方面可以在检测到垃圾的情况下再进行识别处理，可以节约如AR眼镜这种嵌入式设备的计算资源，进而达到省电的效果；另一方面，由于各地的垃圾分类的标准并不统一，在采用需要训练的模型时，可以针对各地的情况针对性的训练或替换检测模型或识别模型，从而实现对不同的分类标准达到快速投入应用的效果。

在上述图3所示的实施例的基础上，如图4所示，步骤S1201，利用检测模型对所述图像进行检测，获取所述图像对应的检测参数，包括步骤：

S1201’，利用一阶段回归深度学习网络对所述图像进行检测，获取所述图像中的目标物在所述图像中的位置参数；

相应的，步骤S1202，根据所述检测参数，利用识别模型对所述图像进行识别，确定所述图像中的垃圾的类别，包括步骤：

S1202’，根据所述位置参数，利用深度可分离卷积识别网络对所述图像的所述目标物进行识别确定所述目标物的垃圾类别。

其中，一阶段检测回归深度学习网络包括但不限于以下模型：YOLO、YOLOv2、YOLOv3和反卷积单阶段网络(Deconvolutional Single Shot Detector，DSSD)等。

其中，深度可分离卷积识别网络包括但不限于Xception模型和MobileNet模型。

在一个非限定性的示例中，如图5所示，AR眼镜利用一阶段回归深度学习网络，例如YOLO v3模型，对所述图像进行检测，获取所述图像中的目标物在所述图像中的位置参数。YOLO v3模式输出的参数为，图像中目标物位置对应的矩形框的左上角坐标、矩形框的宽度、长度以及目标物为垃圾的置信度，也就是目标物为垃圾的概率值。AR眼镜利用深度可分离卷积识别网络，例如MobileNet v2模型，对图像中的目标物进行识别确定该目标物的垃圾类别，MobileNet模型的输入为根据所述位置参数获取所述目标物的局部图像，即根据YOLO v3模型确定的图像中矩形框参数获取图像中的目标物局部图像，利用MobileNet模型对目标物进行识别。进一步的，获取所述深度可分离卷积识别网络各输出节点的输出参数；其中，所述输出参数为，所述目标物是所述输出节点对应的垃圾类别的概率值；将所述输出参数概率值最大的输出节点对应的垃圾类别作为所述目标物的垃圾类别。例如，MobileNet输出节点为三个，分别对应可回收垃圾、不可回收垃圾和有害垃圾。

在一个非限定性的示例中，当用户将灯管置于AR眼镜的视觉采集装置可获取的目视场景中，AR眼镜通过YOLO v3模型识别出灯管，并给出灯管位置的矩形框参数和该目标物为垃圾的概率值，例如0.75。AR眼镜将矩形框位置内的灯管图像输入给MobileNet模型进行识别，MobileNet模型的三个输出节点分别为可回收垃圾0.012，不可回收垃圾0.017，有害垃圾0.96。取概率最大的节点对应的垃圾类别，判断目标物的垃圾类别为有害垃圾。AR眼镜将该识别结果，目标物为有害垃圾显示在AR眼镜的显示装置；进一步的，还可以将目标物为有害垃圾的概率显示在AR眼镜的显示装置以辅助用户判断垃圾类别。可以理解的是，本领域技术人员可以根据垃圾分类的规则，对YOLO v3和MobileNet v2或其他可替代的模型进行结构和参数调整，以适应不同的分类规则对应的输入输出参数。

可以理解的是，一阶段目标检测是指没有显式给出提取候选区域的过程，直接得到最终的检测结果，将提取和检测合二为一，直接得到物体检测的结果，因此其速度往往会更快一些。因此利用一阶段回归深度学习网络对所述图像进行检测具有快速、直接获取目标物粗类别以及目标物位置的优点，但是分类精度不高。通过利用深度可分离卷积识别网络对所述图像的所述目标物进行识别确定所述目标物的垃圾类别，可以进一步获得的精度增益，从而可以提高垃圾分类的精确度，可以在垃圾分类的场景下更有效的指导用户进行垃圾分类。并且由于深度可分离卷积识别网络的参数少、计算效率高，从而可以应用在嵌入式系统中，实现高效、节能的垃圾分类方案。

在上述图2所示的实施例的基础上，在S110通过视觉采集装置实时采集目视场景视频流前，还包括：

S101，采用标注出目标物的样本图像训练检测模型。

在一个非限定性的示例中，采用矩形框标注出目标物的样本图像训练一阶段回归深度学习网络，例如训练YOLO v3模型。

S102，采用带有标签的目标物图像作为样本图像训练识别模型。

在一个非限定性的示例中，采用带有标签的目标物图像作为样本，训练深度可分离卷积识别网络，例如MobileNet v2模型。其中，带有标签的目标物图像，例如图像为鱼骨，标签为湿垃圾；例如图像为报纸，标签为可回收垃圾；

由于分别采用了检测模型和识别模型，可以根据不同的地区对垃圾分类的不同要求对检测模型和识别模型进行训练，从而提高了训练效率，加快了本申请实施例提供的垃圾分类的方法的应用。

在上述图2所示的实施例的基础上，如图6所示，在步骤S120，对所述图像进行识别，确定所述图像中的目标物的垃圾类别后，还包括步骤S125、S126和S127。

图7示出了目标追踪模型、检测模型和识别模型的输入、输出数据的示意图。

S125，利用目标追踪模型对所述图像中的所述目标物进行追踪，确定所述目标物满足消失判定条件时所述视频流中的第一图像，以及所述目标物在所述第一图像中的第一位置。

其中，目标追踪模型包括但不限于深度学习模型、相关滤波模型；其中深度学习模型包括但不限于GOTURN模型、孪生候选区网络模型(Siam RegionProposal Network，Siam-RPN)。其中，目标追踪模型采用视频数据库(Video Database，VID)数据集进行训练。

在一个非限定性的示例中，如图7所示，AR眼镜中的目标追踪模型，例如Siam-RPN模型，获取检测模型和识别模型，例如YOLO v3和MobileNet v2模型输出的对目标物进行矩形框标注的图像作为输入数据，对该AR眼镜获取的数据流中该图像以后的各个帧的图像中的目标物进行追踪。若所述目标追踪模型输出的目标物存在的概率值小于第一阈值，则判定所述目标物消失；确定此时的AR眼镜获取的视频流中的图像为第一图像，并输出目标物在所述第一图像中的第一位置，即目标物消失的位置。

在一个非限定性的示例中，如图8所示，AR眼镜中的目标追踪模型，例如Siam-RPN模型，获取检测模型和识别模型，例如图8所示的MobileNet-1，模型输出的对目标物进行矩形框标注的图像作为输入数据，对该AR眼镜获取的数据流中该图像以后的各个帧的图像中的目标物进行追踪。

S126，对所述第一图像进行识别，确定垃圾桶位置和垃圾桶类别。

其中，对所述第一图像进行识别，确定垃圾桶位置和垃圾桶类别包括但不限于通过几何分类模型、贝叶斯分类模型和神经网络分类模型中的至少之一对所述第一图像进行识别，确定垃圾桶位置和垃圾桶类别。

在一个非限定性的示例中，AR眼镜利用检测模型对所述图像进行检测，获取所述图像对应的检测参数；根据所述检测参数，利用识别模型对所述图像进行识别，确定垃圾桶位置和垃圾桶类别。

在一个非限定性的示例中，如图7所示，在目标追踪模型确定了第一图像后，通过利用检测模型，例如一阶段回归深度学习网络，和识别模型，例如深度可分离卷积识别网络，对所述图像进行识别，确定垃圾桶位置和垃圾桶类别。在一个具体的非限定性的示例中，一阶段回归深度学习网络采用YOLO v3模型，可分离卷积识别网络采用MobileNet v2模型。

在一个非限定性的示例中，如图8所示，识别模型包括两个共享网络结构但不共享权值的MobileNet v2模型，其中MobileNet-1用户识别垃圾类别，MobileNet-2用于识别垃圾桶类别。MobileNet-1采用标注出目标物的样本图像训练，目标物为垃圾。MobileNet-2采用标注出目标物的样本图像训练，目标物为垃圾桶。检测模型为YOLO v3模型，用于检测图像中是否存在为垃圾的目标物和垃圾桶，以及目标物和垃圾桶的位置。由于对垃圾桶识别比较容易，对垃圾识别比较困难，对垃圾桶和垃圾识别的难易程度差别比较大；在这种分类计算量不均衡的情况下，通过两个分类网络分别对垃圾和垃圾桶的类别进行识别，可以提高对垃圾和垃圾桶的识别精度，从而可以更高效的知道垃圾分类。

S127，根据所述第一位置、所述垃圾类别、所述垃圾桶位置和垃圾桶类别确定所述目标物是否投放到正确的垃圾桶。

在一个非限定性的示例中，AR设备根据所述第一位置、所述垃圾类别、所述垃圾桶位置和垃圾桶类别确定所述目标物是否投放到正确的垃圾桶。即根据目标物消失的位置确定是否投入垃圾桶，以及垃圾桶的类别和目标物的垃圾类别是否对应判断垃圾是否被投入正确的垃圾桶。

可以理解的是，通过对图像中的目标物进行追踪和判断目标物是否投入正确的垃圾桶，可以方便督导人员及时发现垃圾是否被正确投放，以便督导人员及时进行督导工作，提高垃圾分类的准确率和效率。

在一个非限定性的示例中，通过在AR设备，例如AR眼镜设置虚拟的或实体的开关，用于控制是否对目标物进行追踪。从而可以起到在需要监管督导人员跟踪取证的情况下才进行追踪，进而起到了省电目的，提高了AR设备的可用性。

在所述图6所示的实施例的基础上，本申请实施例提供的垃圾分类的方法还包括以下步骤：

S128，根据所述目标物是否投放到正确的垃圾桶，通过所述显示装置显示是否投放正确的提示信息。

在一个非限定性的示例中，若目标物被投放到错误的垃圾桶，则通过AR眼镜的显示装置显示投放错误告警提示；若目标物被投放到正确的垃圾桶，则通过AR眼镜的显示装置显示投放正确的提示或者出于省电需要不显示提示信息。

S129，若确定所述目标物未投放至正确垃圾桶，则保存所述第一图像或所述目标物满足消失判定条件前预设时间内的所述视频流的数据。

在一个非限定性的示例中，若AR设备，例如AR眼镜检测到目标物未投放至正确的垃圾桶，例如，为有害垃圾的目标物被投放到了可回收物的垃圾桶，则保存所述第一图像或所述目标物满足消失判定条件前预设时间内的所述视频流的数据，例如该有害垃圾消失时的一帧图像，或该有害垃圾消失时之前的30秒视频流的数据。从而可以为垃圾分裂督导工作的取证带来方便，方便于督导人员对投放错误的人员及时进行纠正和处罚。

对应于上述图2所示的垃圾分类的方法，图9示出的是本申请实施例提供的一种垃圾分类的装置，包括：

采集模块M110，通过视觉采集装置实时采集目视场景的视频流，并从所述视频流获取图像；

图像识别模块M120，对所述图像进行识别，确定所述图像中的目标物的垃圾类别；

显示模块M130，通过显示装置显示识别结果，所述识别结果包括所述目标物的垃圾类别。

可以理解的是，以上实施例中的各种实施方式和实施方式组合及其有益效果同样适用于本实施例，这里不再赘述。

图10为本申请一实施例提供的增强现实设备的结构示意图。如图10所示，该实施例的增强现实设备D10包括：至少一个处理器D100(图10中仅示出一个)、存储器D101以及存储在所述存储器D101中并可在所述至少一个处理器D100上运行的计算机程序D102，所述处理器D100执行所述计算机程序D102时实现上述任意各个方法实施例中的步骤。或者，所述处理器D100执行所述计算机程序D102时实现上述各装置实施例中各模块/单元的功能，例如图10所示模块的功能；所述增强现实设备D10还包括视觉采集装置D103及显示装置D104。

所述增强现实设备D10可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该增强现实设备D10可包括，但不仅限于，处理器D100、存储器D101。本领域技术人员可以理解，图10仅仅是增强现实设备D10的举例，并不构成对增强现实设备D10的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器D100可以是中央处理单元(Central Processing Unit，CPU)，该处理器D100还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器D101在一些实施例中可以是所述增强现实设备D10的内部存储单元，例如增强现实设备D10的硬盘或内存。所述存储器D101在另一些实施例中也可以是所述增强现实设备D10的外部存储设备，例如所述增强现实设备D10上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器D101还可以既包括所述增强现实设备D10的内部存储单元也包括外部存储设备。所述存储器D101用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器D101还可以用于暂时地存储已经输出或者将要输出的数据。

所述视觉采集装置D103在一些实施例中可以包括摄像头。可选地，摄像头在AR设备上的位置可以为前置的，也可以为后置的，本申请实施例对此不作限定。可选地，可以包括单摄像头、双摄像头或三摄像头等，本申请实施例对此不作限定。例如，可以包括三摄像头，其中，一个为主摄像头、一个为广角摄像头、一个为长焦摄像头。可选地，包括多个摄像头时，这多个摄像头可以全部前置，或者全部后置，或者一部分前置、另一部分后置，本申请实施例对此不作限定。

所述显示装置D104，在一些实施例中可以包括显示屏。可选的，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(OrganicLight-Emitting Diode,OLED)等形式来配置显示器。在一些实施例中可以是光学投影显示装置。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在增强现实设备上运行时，使得增强现实设备执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种垃圾分类的方法，应用于增强现实设备，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，对所述图像进行识别，确定所述图像中的目标物的垃圾类别，包括：

利用检测模型对所述图像进行检测，获取所述图像对应的检测参数；

根据所述检测参数，利用识别模型对所述图像进行识别，确定所述图像中的所述目标物的垃圾类别。

3.如权利要求2所述的方法，其特征在于，利用检测模型对所述图像进行检测，获取所述图像对应的检测参数，包括：

利用一阶段回归深度学习网络对所述图像进行检测，获取所述图像中的目标物在所述图像中的位置参数；

相应的，根据所述检测参数，利用识别模型对所述图像进行识别，确定所述图像中的垃圾的类别，包括：

根据所述位置参数，利用深度可分离卷积识别网络对所述图像的所述目标物进行识别确定所述目标物的垃圾类别。

4.如权利要求3所述的方法，其特征在于，根据所述位置参数，利用深度可分离卷积识别网络对所述图像的所述目标物进行识别确定所述目标物的垃圾类别，包括：

根据所述位置参数获取所述目标物的局部图像；

利用深度可分离卷积识别网络对所述局部图像进行识别；

获取所述深度可分离卷积识别网络各输出节点的输出参数；其中，所述输出参数为，所述目标物是所述输出节点对应的垃圾类别的概率值；将所述输出参数概率值最大的输出节点对应的垃圾类别作为所述目标物的垃圾类别。

5.如权利要求3或4所述的方法，其特征在于，

所述一阶段回归深度学习网络为YOLO网络；

所述深度可分离卷积识别网络为Mobilent网络。

6.如权利要求2至4任一项所述的方法，其特征在于，通过视觉采集装置实时采集目视场景视频流前，还包括：

采用标注出目标物的样本图像训练检测模型；

采用带有标签的目标物图像作为样本图像训练识别模型。

7.如权利要求1所述的方法，其特征在于，确定所述图像中的目标物和所述目标物的垃圾类别后，还包括：

利用目标追踪模型对所述图像中的所述目标物进行追踪，确定所述目标物满足消失判定条件时所述视频流中的第一图像，以及所述目标物在所述第一图像中的第一位置；

对所述第一图像进行识别，确定垃圾桶位置和垃圾桶类别；

根据所述第一位置、所述垃圾类别、所述垃圾桶位置和垃圾桶类别确定所述目标物是否投放到正确的垃圾桶。

8.如权利要求7所述的方法，其特征在于，所述消失判定条件，包括，

若所述目标追踪模型输出的目标物存在的概率值小于第一阈值，则判定所述目标物消失。

9.如权利要求7或8所述的方法，其特征在于，还包括：

根据所述目标物是否投放到正确的垃圾桶，通过所述显示装置显示是否投放正确的提示信息；

若确定所述目标物未投放至正确垃圾桶，则保存所述第一图像或所述目标物满足消失判定条件前预设时间内的所述视频流的数据。

10.一种增强现实设备，包括存储器、处理器、视觉采集装置、显示装置以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至9任一项所述的方法。