CN113076439A

CN113076439A - 一种基于垃圾识别的垃圾分类系统和方法

Info

Publication number: CN113076439A
Application number: CN202110282547.5A
Authority: CN
Inventors: 李蕊江; 罗明; 龚绍杰; 叶琳; 陈静
Original assignee: Sichuan Jiutong Zhilu Technology Co ltd
Current assignee: Sichuan Jiutong Zhilu Technology Co ltd
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2021-07-06

Abstract

本发明提供一种基于垃圾识别的垃圾分类系统和方法，涉及垃圾分类处理领域。所述基于垃圾识别的垃圾分类系统通过数据爬虫、图像识别器和语意识别器相结合，将互联网上有关“可回收垃圾”、“有害垃圾”、“厨余垃圾”和“其他垃圾”的图片爬取下来，通过图像识别器为图片打上标签，通过语意识别器将“实物名词”保留到“垃圾分类标签库”中，通过建立“垃圾分类标签库”并将用户所上传图像的标签在“垃圾分类标签库”中进行检索，从而实现对垃圾的识别分类，无需人工对训练图像打标签，避免了筛选素材存在的人为导向，识别盲区等问题；同时语意识别器的词义相似度比较功能，能将词语不同但词义相同的标签建立匹配，极大地提高了系统的泛化能力。

Description

一种基于垃圾识别的垃圾分类系统和方法

技术领域

本发明涉及垃圾分类处理领域，尤其涉及一种基于垃圾识别的垃圾分类系统和方法。

背景技术

由于人们长期缺乏垃圾分类的经验，对垃圾处理分类缺乏常识性的认知，为了帮助人们改变现状，尽早地适应垃圾分类的习惯，故我们不仅需要从法律条款上对垃圾分类进行推进，更应该帮助人们建立正确的垃圾分类观，帮助人们分辨日常垃圾类别。

结合互联网技术和智能手机的飞速发展，通过智能手机对垃圾分类进行查询帮助的系统孕育而生，传统垃圾分类系统是通过用户登陆客户端，将所需查询的垃圾名称输入文本框进行查询，系统通过将用户输入内容与后台垃圾分类数据库进行文本对比，从而确定垃圾类别，具备方案简单易实施的优点，但是缺点也十分明显。文本输入限制了查询速率和便捷度，通过对比垃圾分类数据库文本的方式使系统不具备泛化能力，且分类数据库的更新完全依靠人工，对超出范围的搜索无法给出答复。

现有技术是通过采集垃圾图像，通过图像分析系统给垃圾匹配标签，通过语意系统对标签分词等处理后，再与现有垃圾分类数据库中的数据进行匹配，从而实现对垃圾的分类识别，但是，训练图像分析系统需要大量的时间和财力，图像分析系统需要大量已经分类好的垃圾图像素材作为训练材料，而训练材料还是以人为选取，并通过人为判断为图像匹配上正确的标签，初期准备工作量巨大，且存在训练材料选取的人为认知局限性，这就致使了系统建立成本大，存在人为导向，存在识别盲区。

因此，有必要提供一种新的，用于对垃圾进行快速、便捷、建立成本合理且覆盖面广的垃圾分类系统和方法来解决上述技术问题。

发明内容

为解决上述技术问题，本发明提供一种基于垃圾识别的垃圾分类系统和方法，涉及垃圾分类处理领域。所述基于垃圾识别的垃圾分类系统通过数据爬虫、图像识别器和语意识别器相结合，将互联网上有关“可回收垃圾”、“有害垃圾”、“厨余垃圾”和“其他垃圾”的图片爬取下来，通过图像识别器为图片打上标签，通过语意识别器将“实物名词”保留到“垃圾分类标签库”中，通过建立“垃圾分类标签库”并将用户所上传图像的标签在“垃圾分类标签库”中进行检索，从而实现对垃圾的识别分类，不需要人工对训练图像素材进行打标签，极大减小人工劳动的同时，还避免了人工筛选素材存在的人为导向，识别盲区等问题；通过基于API接口的图像识别器和语意识别器，不需要本地建立训练模型，仅需通过如：百度、阿里、腾讯等提供的图像识别和语意识别的API接口就能实现对垃圾的识别与分类，极大的节省了图像识别的训练时间和训练成本；语意识别器的词义相似度比较功能，能将词语不同但词义相同的标签建立匹配，极大地提高了系统的泛化能力。

本发明提供的一种基于垃圾识别的垃圾分类系统，包括移动客户端和后台识别端。

作为更加具体的解决方案，所述移动客户端以微信小程序和/或手机APP形式部署在移动终端上，所述移动客户端包括调用摄像头进行图像数据采集、向后台识别端上传图像数据、从后台识别端接受数据和通过移动终端对数据进行显示的功能。

进一步地，所述后台识别端部署于后台服务器上并通过后台服务器的网络接口与移动终端建立通信连接，所述后台识别端包括数据爬虫、初筛过滤器、图像预处理器、存储集群、图像识别器、语意识别器和图像过滤器。

更进一步地，所述数据爬虫能根据指定的关键词从互联网中抓取与关键词匹配的图像数据，并将抓取到的图像数据保存至存储集群的指定文件保存地址中。

作为更进一步地具体的解决方案，所述初筛过滤器能对存储集群中指定文件保存地址的图像数据的图像进行内容和格式进行读取，并将无对象内容的图像数据进行删除操作，其余的图像数据统一转化为JPG格式后保存至同一指定文件保存地址中。

作为更进一步地具体的解决方案，所述图像预处理器能对存储集群指定文件保存地址中的格式为JPG的图像数据的图像内容进行预处理操作，经过预处理操作后的图像数据保存至同一指定文件保存地址中。

作为更进一步地具体的解决方案，所述存储集群包括至少一个电可擦存储介质，所述数据爬虫、初筛过滤器、复筛过滤器、存储集群、图像识别器和语意识别器能对指定指定文件保存地址进行数据读写操作。

作为更进一步地具体的解决方案，所述图像识别器能对输入图像数据进行图像识别操作，所述图像识别操作包括对图像数据中出现的对象进行识别，并以标签形式对识别结果和识别准确度进行标注。

作为更进一步地具体的解决方案，所述语意识别器能对输入文本数据进行语意识别操作，所述语意识别操作包括将文本分词为单个词语，对词语词性进行识别标注和对不同词语进行词义相似度比较。

作为更进一步地具体的解决方案，所述初筛过滤器是基于python的初筛过滤器，所述初筛过滤器能检测图像数据的内容是否为空，并将检测内容为空的图像数据进行删除操作，其余的图像数据将统一转化为长边边长3072px，短边边长1024px，base64编码后大小为 3.8M，格式为JPG的图像数据。

作为更进一步地具体的解决方案，所述图像预处理器是基于python的图像预处理器，所述预处理操作包括彩色图像转变成灰度图、灰度图转化成二值图、对图像数据进行图像增强处理、对图像数据进行边缘检测、对图像数据进行轮廓匹配和与图像分割，其中，所述图像增强处理包括锐化和去噪。

作为更进一步地具体的解决方案，集群为可分区存储介质，所述存储集群按存储数据类型被分为：垃圾分类初筛素材库、垃圾分类素材库、垃圾分类标签库和识别对比区；所述垃圾分类初筛素材库包括“其他垃圾初筛素材库”、“可回收垃圾初筛素材库”、“有害垃圾初筛素材库”和“厨余垃圾初筛素材库”；所述垃圾分类素材库包括“其他垃圾素材库”、“可回收垃圾素材库”、“有害垃圾素材库”和“厨余垃圾素材库”；所述垃圾分类标签库包括“其他垃圾标签库”、“可回收垃圾标签库”、“有害垃圾标签库”和“厨余垃圾标签库”；所述识别对比区包括“临时识别区”、“正式识别区”和“对比标签区”。

作为更进一步地具体的解决方案，所述图像识别器是基于API接口的图像识别器，调用所述图像识别器对图像数据进行图像识别操作需要向API图像识别服务地址发送POST请求，并在URL中带上access_token和image参数；图像识别器在验证POST请求正确后会对image参数对应的图像数据进行图像识别操作，并以JSON格式向请求方返回图像识别操作结果，其中，图像数据格式应为PNG、JPG、JPEG或BMP格式，base64编码后大小不大于4M，最短边不小于30px，最长边不大于4096px，长宽比不大于3。

作为更进一步地具体的解决方案，所述语意识别器是基于API接口的语意识别器，调用所述语意识别器对文本数据进行语意识别操作需要向API语意识别服务地址发送POST请求，并在URL中带上access_token参数和在body中附上文本数据，语意识别器在验证POST请求正确后会对body中附上的文本数据进行语意识别操作，并以JSON格式向请求方返回语意识别操作结果，其中，文本数据格式应为GBK或UTF-8编码格式，长度不超过20000 字节。

作为更进一步地具体的解决方案，所述方法运用于权利要求1至权利要求6任一项所述的基于垃圾识别的垃圾分类系统，所述方法包括：

使用垃圾分类名称“可回收垃圾”、“有害垃圾”、“厨余垃圾”和“其他垃圾”作为图像爬取关键词，通过数据爬虫从互联网上对与垃圾分类名称相关的图像数据进行爬取；

通过初筛过滤器对图像数据进行初筛操作，所述初筛操作包括，并将通过初筛过滤器的图像数据按照图像爬取关键词分别储存于“其他垃圾初筛素材库”、“可回收垃圾初筛素材库”、“有害垃圾初筛素材库”和“厨余垃圾初筛素材库”中，未通过初筛过滤器的图像数据不做保存；

通过图像预处理器对“其他垃圾初筛素材库”、“可回收垃圾初筛素材库”、“有害垃圾初筛素材库”和“厨余垃圾初筛素材库”中的图像数据进行预处理操作，并将通过预处理操作的图像数据分别储存于“其他垃圾素材库”、“可回收垃圾素材库”、“有害垃圾素材库”和“厨余垃圾素材库”中；

通过图像识别器对“其他垃圾素材库”、“可回收垃圾素材库”、“有害垃圾素材库”和“厨余垃圾素材库”中的图像数据分别进行标签识别操作，并将识别后的标签根据图像数据来源分别保存在“其他垃圾标签库”、“可回收垃圾标签库”、“有害垃圾标签库”和“厨余垃圾标签库”中；

通过语意识别器对“其他垃圾标签库”、“可回收垃圾标签库”、“有害垃圾标签库”和“厨余垃圾标签库”进行语意识别，将语意识别为“实物名词”的标签进行保留，其余语意的标签进行删除；

用户通过移动客户端上传需进行查询分类的垃圾图像数据，垃圾图像数据保存至“临时识别区”；

通过图像过滤器对“临时识别区”中的垃圾图像数据进行评估操作，若垃圾图像数据通过评估操作则保存至“正式识别区”，若未通过评估则通过移动客户端告知用户重新上传正确的垃圾图像数据，其中，所述评估操作包括：图像数据是否格式正确，图像数据中是否能正常识别对象，图像数据大小是否超过4M；

通过图像识别器对“正式识别区”中保存的垃圾图像数据进行标签识别，并将标签保存至“对比标签区”；

通过语意识别器对“对比标签区”内的标签进行语意识别，将语意识别为“实物名词”的标签进行保留，其余语意的标签进行删除；

将“对比标签区”中的标签分别在“其他垃圾标签库”、“可回收垃圾标签库”、“有害垃圾标签库”和“厨余垃圾标签库”进行检索，若检索到，则通过移动客户端向客户输出当前标签库对应垃圾分类名称；若未检索到，则通过移动客户端向客户输出未查询到当前物品对应垃圾分类名称。

与相关技术相比较，本发明提供的用于一种基于垃圾识别的垃圾分类系统和方法具有如下有益效果：

1、本发明通过数据爬虫、图像识别器和语意识别器相结合，将互联网上有关“可回收垃圾”、“有害垃圾”、“厨余垃圾”和“其他垃圾”的图片爬取下来，通过图像识别器为图片打上标签，通过语意识别器将“实物名词”保留到“垃圾分类标签库”中，通过建立“垃圾分类标签库”并将用户所上传图像的标签在“垃圾分类标签库”中进行检索，从而实现对垃圾的识别分类，不需要人工对训练图像素材进行打标签，极大减小人工劳动的同时，还避免了人工筛选素材存在的人为导向，识别盲区等问题；

2、本发明通过基于API接口的图像识别器和语意识别器，不需要本地建立训练模型，仅需通过如：百度、阿里、腾讯等提供的图像识别和语意识别的API接口就能实现对垃圾的识别与分类，极大的节省了图像识别的训练时间和训练成本，同时还能提供更加精准的识别率；

3、本发明通过语意识别器的词义相似度比较功能，能将词语不同但词义相同的标签建立匹配，极大地提高了系统的泛化能力。

附图说明

图1为本发明提供的一种基于垃圾识别的垃圾分类系统的较佳实施例系统示意图一；

图2为本发明提供的一种基于垃圾识别的垃圾分类系统的较佳实施例系统示意图二。

具体实施方式

下面结合附图和实施方式对本发明作进一步说明。

如图1至图2所示，本发明一种基于垃圾识别的垃圾分类系统和方法，包括移动客户端和后台识别端。

需要说明是：所述语意识别器和图像识别器均基于API接口，接口来源本实施选用百度、腾讯和阿里任一提供的语意识别和图像识别API接口，通过API接口，无需自己建立复杂的识别模型就能实现更加精准的词义和图像识别。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于垃圾识别的垃圾分类系统，其特征在于，包括移动客户端和后台识别端；

所述移动客户端以微信小程序和/或手机APP形式部署在移动终端上，所述移动客户端包括调用摄像头进行图像数据采集、向后台识别端上传图像数据、从后台识别端接受数据和通过移动终端对数据进行显示的功能；

所述后台识别端部署于后台服务器上并通过后台服务器的网络接口与移动终端建立通信连接，所述后台识别端包括数据爬虫、初筛过滤器、图像预处理器、存储集群、图像识别器、语意识别器和图像过滤器；

所述数据爬虫能根据指定的关键词从互联网中抓取与关键词匹配的图像数据，并将抓取到的图像数据保存至存储集群的指定文件保存地址中；

所述初筛过滤器能对存储集群中指定文件保存地址的图像数据的图像进行内容和格式进行读取，并将无对象内容的图像数据进行删除操作，其余的图像数据统一转化为JPG格式后保存至同一指定文件保存地址中；

所述图像预处理器能对存储集群指定文件保存地址中的格式为JPG的图像数据的图像内容进行预处理操作，经过预处理操作后的图像数据保存至同一指定文件保存地址中；

所述存储集群包括至少一个电可擦存储介质，所述数据爬虫、初筛过滤器、复筛过滤器、存储集群、图像识别器和语意识别器能对指定指定文件保存地址进行数据读写操作；

所述图像识别器能对输入图像数据进行图像识别操作，所述图像识别操作包括对图像数据中出现的对象进行识别，并以标签形式对识别结果和识别准确度进行标注；

所述语意识别器能对输入文本数据进行语意识别操作，所述语意识别操作包括将文本分词为单个词语，对词语词性进行识别标注和对不同词语进行词义相似度比较。

2.根据权利要求1所述的一种基于垃圾识别的垃圾分类系统，其特征在于，所述初筛过滤器是基于python的初筛过滤器，所述初筛过滤器能检测图像数据的内容是否为空，并将检测内容为空的图像数据进行删除操作，其余的图像数据将统一转化为长边边长3072px，短边边长1024px，base64编码后大小为3.8M，格式为JPG的图像数据。

3.根据权利要求1所述的一种基于垃圾识别的垃圾分类系统，其特征在于，所述图像预处理器是基于python的图像预处理器，所述预处理操作包括彩色图像转变成灰度图、灰度图转化成二值图、对图像数据进行图像增强处理、对图像数据进行边缘检测、对图像数据进行轮廓匹配和与图像分割，其中，所述图像增强处理包括锐化和去噪。

4.根据权利要求1所述的一种基于垃圾识别的垃圾分类系统，其特征在于，所述存储集群为可分区存储介质，所述存储集群按存储数据类型被分为：垃圾分类初筛素材库、垃圾分类素材库、垃圾分类标签库和识别对比区；所述垃圾分类初筛素材库包括“其他垃圾初筛素材库”、“可回收垃圾初筛素材库”、“有害垃圾初筛素材库”和“厨余垃圾初筛素材库”；所述垃圾分类素材库包括“其他垃圾素材库”、“可回收垃圾素材库”、“有害垃圾素材库”和“厨余垃圾素材库”；所述垃圾分类标签库包括“其他垃圾标签库”、“可回收垃圾标签库”、“有害垃圾标签库”和“厨余垃圾标签库”；所述识别对比区包括“临时识别区”、“正式识别区”和“对比标签区”。

5.根据权利要求1所述的一种基于垃圾识别的垃圾分类系统，其特征在于，所述图像识别器是基于API接口的图像识别器，调用所述图像识别器对图像数据进行图像识别操作需要向API图像识别服务地址发送POST请求，并在URL中带上access_token和image参数；图像识别器在验证POST请求正确后会对image参数对应的图像数据进行图像识别操作，并以JSON格式向请求方返回图像识别操作结果，其中，图像数据格式应为PNG、JPG、JPEG或BMP格式，base64编码后大小不大于4M，最短边不小于30px，最长边不大于4096px，长宽比不大于3。

6.根据权利要求1所述的一种基于垃圾识别的垃圾分类系统，其特征在于，所述语意识别器是基于API接口的语意识别器，调用所述语意识别器对文本数据进行语意识别操作需要向API语意识别服务地址发送POST请求，并在URL中带上access_token参数和在body中附上文本数据，语意识别器在验证POST请求正确后会对body中附上的文本数据进行语意识别操作，并以JSON格式向请求方返回语意识别操作结果，其中，文本数据格式应为GBK或UTF-8编码格式，长度不超过20000字节。

7.一种基于垃圾识别的垃圾分类方法，其特征在于，所述方法运用于权利要求1至权利要求6任一项所述的基于垃圾识别的垃圾分类系统，所述方法包括：