CN113657143B

CN113657143B - 一种基于分类和检测联合判决的垃圾分类方法

Info

Publication number: CN113657143B
Application number: CN202110710499.5A
Authority: CN
Inventors: 章东平; 于学成
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2023-06-23
Anticipated expiration: 2041-06-25
Also published as: CN113657143A

Abstract

本发明公开了一种基于分类和检测联合判决的垃圾分类方法，包括：S1.获取摄像头采集的视频流数据，并判断是否有用户进行垃圾投放，若是，则执行步骤S2；S2.提取视频的第T_jn帧图像和第T_j0‑1帧图像，根据提取第T_jn帧图像和第T_j0‑1帧图像计算用户投放的垃圾图像T'；S3.将垃圾图像T'输入至垃圾分类模型中进行处理，垃圾分类模型中的图像分类网络输出垃圾图像的类别和置信度，并判断输出的置信度是否大于置信度阈值，若是，则将图像分类网络的输出作为最终预测结果；若否，则执行步骤S4；S4.将垃圾分类模型提取的特征图输入至垃圾分类模型中的目标检测网络中，得到特征图中异常垃圾的检测框以及标注类别，并将目标检测网络的输出作为最终预测结果。

Description

一种基于分类和检测联合判决的垃圾分类方法

技术领域

本发明涉及垃圾分类技术领域，尤其涉及一种基于分类和检测联合判决的垃圾分类方法。

背景技术

随着我国经济水平的高速发展，人们的物质消费水平不断提升，相对应的垃圾产生量也在迅速增长，由垃圾产生的问题日益突出，人们的反映越来越强烈，推行垃圾分类势在必行，推行垃圾分类意义重大。现有的社区居民垃圾分类工作主要还是通过人工在垃圾投递亭手动筛选分类，耗时耗力。在技术上，居民投递垃圾的数量和大小都具有随机性，相邻的垃圾投递行为容易混淆两次所投递的垃圾，不易查出违规投递垃圾的居民。

如公开号为CN108182455A的专利公开了一种垃圾图像智能分类的方法、装置及智能垃圾桶，首先通过包括摄像头的高清采集设备采集垃圾图像；将采集的垃圾图像进行预处理；对预处理后的垃圾图像进行卷积和池化处理，进行特征图像提取，然后对特征图像进行识别；根据识别结果，判断是否为可回收垃圾类别。上述专利虽然可以对垃圾进行分类，但是其依然无法解决相邻的垃圾投递行为容易混淆两次所投递的垃圾，不易查出违规投递垃圾的居民的问题。

发明内容

本发明的目的是针对现有技术的缺陷，提供了一种基于分类和检测联合判决的垃圾分类方法。

为了实现以上目的，本发明采用以下技术方案：

一种基于分类和检测联合判决的垃圾分类方法，包括：

S1.获取摄像头采集的与垃圾桶相对应的视频流数据，并判断是否有用户进行垃圾投放，若是，则执行步骤S2；

S2.提取与垃圾桶相对应视频的第T_jn帧图像和第T_j0-1帧图像，根据提取第T_jn帧图像和第T_j0-1帧图像计算用户投放的垃圾图像T'；其中，T_jn表示用户离开摄像头范围时的后一帧j_n中垃圾桶T的图像；T_j0-1表示用户到达摄像头范围时的前一帧j_0-1中垃圾桶T的图像；

S3.将计算得到的垃圾图像T'输入至垃圾分类模型中进行处理，垃圾分类模型中的图像分类网络输出垃圾图像的类别和置信度，并判断输出的置信度是否大于置信度阈值，若是，则将图像分类网络的输出作为最终预测结果；若否，则执行步骤S4；

S4.将垃圾分类模型提取的与垃圾图像T'相对应的特征图输入至垃圾分类模型中的目标检测网络中，得到特征图中异常垃圾的检测框以及标注类别，并将目标检测网络的输出作为最终预测结果。

进一步的，所述步骤S1中判断是否有用户进行垃圾投放具体为：

对获取的视频流数据中的每F帧图像进行人手H检测，若在第j₀帧图像中检测到人手H，则表示存在用户投放垃圾；

从第j₀帧图像开始逐帧检测人手H和垃圾桶T，并计算人手H和垃圾桶T的交并比IOU，判断计算得到的交并比IOU是否大于交并比阈值，若是，则表示有用户投放垃圾，并继续检测人手H和垃圾桶T，直到人手离开摄像头的监控范围。

进一步的，所述判断计算得到的交并比IOU是否大于交并比阈值，若否，则表示用户没有投放垃圾。

进一步的，所述人手H和垃圾桶T的检测具体为：

数据准备：从获取的视频流数据中跳帧截取视频图像，对截取的图像进行标注，并将标注的图像数据划分为训练集、测试集；其中标注的图像包括人手和垃圾桶的包围框以及标注的类别(c_i,x_i,y_i,w_i,h_i)，c_i表示包围框的类别，c_i＝1表示包围框中是垃圾桶，c_i＝0表示包围框中是人手，x_i,y_i表示包围框左上角顶点的坐标，w_i,h_i表示包围框的宽和高；

构建神经网络模型：采用不同尺度特征的卷积模块和通道注意力模块组成多尺度结构的卷积神经网络，并基于双向跨尺度连接和加权特征融合模块构建神经网络模型；

神经网络模型的训练：输入训练集相对应的图像输入至构建的神经网络模型中，并采用随机梯度下降策略优化神经网络模型，得到最终的神经网络模型；

模型测试：将测试集相对应的图像输入到训练好的神经网络模型中，神经网络模型输出人手和垃圾桶的包围框信息。

进一步的，所述步骤S2中用户投放的垃圾图像T'的计算方式具体为：

判断用户P₀投放的垃圾是否为异常垃圾，若是，则用户P₀投放垃圾后垃圾桶T的图像T_P0中将被一直检测存在异常垃圾；

判断是否存在用户P₀之后的用户P₁投放的垃圾，若是，则判断用户P₁投放的垃圾是否为异常垃圾，若否，则将用户P₁投放垃圾后垃圾桶T的图像T_P1减去用户P₀投放垃圾后垃圾桶T的图像T_P0，得到像素相减后的垃圾桶图像ΔT，并将得到的ΔT转换为灰度图ΔT′，根据阈值τ与垃圾桶图像ΔT的像素值匹配，得到用户P₁投放的垃圾图像T'。

进一步的，所述得到像素相减后的垃圾桶图像ΔT，表示为：

用户P₁投放的垃圾图像T'，表示为：

其中，

代表用户P₁投放垃圾后垃圾桶T的图像中RGB三通道的第i行j列个像素值；ΔT′^ji表示像素相减后的垃圾桶图像中RGB三通道的第i行j列个像素值。

进一步的，所述步骤S3中垃圾分类模型的构建具体为：

采用不同尺度特征的卷积模块和通道注意力模块组成EfficientNet网络，并将EfficientNet网络作为垃圾分类网络，采用双分支预测策略将垃圾分类网络分为目标检测网络和图像分类网络；将垃圾图像输入至垃圾分类网络中进行训练，并采用随机梯度下降策略优化垃圾分类网络，得到最终的垃圾分类模型。

进一步的，所述神经网络模型和垃圾分类网络中的网采用的均是Swish激活函数：

通道注意力模块最后一层全连接层采用Sigmoid激活函数。

进一步的，所述垃圾分类网络的损失函数表示为：

其中，λ₁和λ₂表示平衡系数；CELoss表示图像分类网络的损失函数；FLoss表示目标检测网络的分类损失函数；LocLoss表示目标检测网络的定位损失函数。

进一步的，所述图像分类网络的损失函数，表示为：

目标检测网络的分类损失函数，表示为：

目标检测网络的定位损失函数，表示为：

其中，y表示人工标注图像的类别；p(k)表示预测为类别y的概率；α和γ表示平衡超参数；

表示预测的检测框参数，/>

表示检测框标注参数。

与现有技术相比，本发明提供的基于分类和检测联合判决的垃圾分类方法，主要关注利用两次垃圾投递后垃圾桶内的图像差，并利用深度学习、机器视觉、图像处理等技术，分析监控视频中违规投递垃圾行为，且可以自动识别监控视频中违规投递垃圾的行为。本发明还可以解决相邻的垃圾投递行为容易混淆两次所投递的垃圾，可以快速查出违规投递垃圾的用户。

附图说明

图1是实施例一提供的一种基于分类和检测联合判决的垃圾分类方法流程图；

图2是实施例一提供的人手和垃圾桶检测网络示意图

图3是实施例一提供的两帧相减得到的单次投递垃圾示意图；

图4是实施例一提供的垃圾分类联合判决网络示意图；

图5是实施例一提供的垃圾分类联合判决网络中的卷积组示意图；

图6是实施例一提供的卷积组中的通道注意力模块示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供一种基于分类和检测联合判决的垃圾分类方法，如图1所示，包括：

在步骤S1中，获取摄像头采集的与垃圾桶相对应的视频流数据，并判断是否有用户进行垃圾投放，若是，则执行步骤S2。

在垃圾投放亭顶部、周边安装摄像头，使得摄像头可以获取到与垃圾桶相关的视频流数据；摄像头将获取到的视频流数据存储至服务器中，服务器调用该视频流数据，并对视频中每F帧进行一次人手H的检测。

如果在视频的第j₀帧检测到存在人手H，则判定可能是有用户前来投放垃圾，此时从第j₀帧开始逐帧检测人手H和垃圾投递亭中的垃圾桶T，并计算人手H和垃圾桶T的交并比IOU，判断计算得到的IOU是否大于交并比阈值L，若是，则判断有用户投放垃圾，并继续检测人手H和垃圾桶T，直到人手离开监控范围；若直到用户离开垃圾桶T时，人手H和垃圾桶T的交并比IOU一直都小于L，则认为用户没有投放垃圾，只是路过垃圾投递亭。

如图2所示为人手和垃圾桶检测网络示意图。

在本实施例中，人手H和垃圾桶T的检测具体为：

数据准备：从多个不同地点和不同角度的摄像头所拍摄的视频中跳帧截取视频图像，对截取的图像进行标注，并将标注的图像数据样本按照8:1:1划分为训练集、测试集。其中标注的图像信息为人手和垃圾桶的包围框以及标注的类别，即(c_i,x_i,y_i,w_i,h_i)，c_i表示包围框的类别，c_i＝1表示包围框中的是垃圾桶，c_i＝0表示包围框中的是人手，x_i,y_i表示包围框左上角顶点的坐标，w_i,h_i表示包围框的宽和高。

网络结构设计：算法采用多尺度结构的卷积神经网络，卷积神经网络由输出不同尺度特征的卷积模块和通道注意力模块组成；在卷积神经网络的基础上采用双向跨尺度连接和加权特征融合模块。利用双向跨尺度连接和加权特征融合模块堆叠形成的加强特征提取网络可以不断地进行上采样与下采样的特征融合，可以获得具有高语义信息的有效特征，筛选不同大小的候选框。

其中，卷积神经网络主要采用Swish激活函数

只有通道注意力模块的最后一层全连接层采用Sigmoid激活函数。

网络训练：将训练集样本相对应的图像输入至卷积神经网络中，其中输入的图像大小可以设置为512*512、768*768、1280*1280等尺寸，且设置输入最小批量数据值为32、64或128，学习率为10^-3，并采用随机梯度下降策略进行优化学习，得到优化后的神经网络模型。

模型测试：将测试集中的图像输入到训练好的神经网络模型中，神经网络模型输出人手和垃圾桶的包围框信息(x,y,w,h)。

在步骤S2中，提取与垃圾桶相对应视频的第T_jn帧图像和第T_j0-1帧图像，根据提取第T_jn帧图像和第T_j0-1帧图像计算用户投放的垃圾图像T'；其中，T_jn表示用户离开摄像头范围时的后一帧j_n中垃圾桶T的图像；T_j0-1表示用户到达摄像头范围时的前一帧j_0-1中垃圾桶T的图像。

当判定得到有用户投放垃圾时，人手H离开摄像头监控范围时的后一帧T_jn减去第T_j0-1帧，得到像素值相减后的垃圾桶图像ΔT，将ΔT转换为灰度图ΔT'后根据阈值τ与原图像素值匹配得到该居民此次扔的垃圾图像T'；其中，T_jn表示第j_n帧中垃圾桶T的图像；T_j0-1表示第j₀帧的前一帧中垃圾桶T的图像。

在本实施例中，为了防止混淆相邻用户投递垃圾的违规行为，进行如下处理：

获取用户P₀投放垃圾后垃圾桶的图像T_P0，并判断用户P₀投放的垃圾是否为异常垃圾，若是，则此时图像T_P0图像中将长时间检测到该异常垃圾；

如果用户P₀之后的用户P₁投放的垃圾中没有异常垃圾，但是监控视频中还是可能存在P₀投放的异常垃圾，若直接将T_P1(用户P₁投放垃圾后垃圾桶T的图像)输入后续的垃圾分类模型中可能会误认为用户P₁也违规投递垃圾。为了避免误判，则

将T_P1按像素值减去T_P0后得到的图像ΔT：

其中，

表示用户P₁扔完垃圾后垃圾桶T的图像RGB三通道中的第i行j列个像素值。

将ΔT转换为灰度图ΔT′，将ΔT中每个像素值与阈值τ比较，如果大于τ则将该出像素值替换为T_P1中相同位置的像素值，如果小于τ则将该处像素值设为0。匹配原像素值后得到该居民此次扔的垃圾图像T′，表示为：

其中，ΔT′ji表示像素相减后的垃圾桶图像中RGB三通道的第i行j列个像素值。

如图3所示为两帧相减得到的单次投递垃圾示意图。

需要说明的是，异常垃圾的检测可以通过步骤S3、S4中涉及的方法实现的。

在步骤S3中，将计算得到的垃圾图像T'输入至垃圾分类模型中进行处理，垃圾分类模型中的图像分类网络输出垃圾图像的类别和置信度，并判断输出的置信度是否大于置信度阈值，若是，则将图像分类网络的输出作为最终预测结果；若否，则执行步骤S4。

在本实施例中，垃圾分类模型的构建具体为：

数据准备：将监控摄像头所拍摄的视频输入步骤S1中得到的神经网络模型中，并利用步骤S1、S2的方法可以获得的大量用户单次投放的垃圾图像T′_i,i∈{1,2,3,...,n}，对T′_i进行标注，标注信息为整幅图像的类别、图像中各个异常垃圾的包围框和类别，即(c_j,x_j,y_j,w_j,h_j)，其中c_j表示包围框的类别，x_j,y_j表示包围框左上角顶点的坐标，w_j,h_j表示包围框的宽和高，将标注数据样本按照8:1:1划分为训练集、测试集。

网络结构设计：算法采用多尺度结构的卷积神经网络，将EfficientNet作为垃圾分类网络，垃圾分类网络由输出不同尺度特征的卷积模块和通道注意力模块组成，拥有优秀的特征提取能力；采用双分支预测策略将垃圾分类网络分为图像分类网络和目标检测网络，目标检测网络采用双向跨尺度连接和加权特征融合模块；图像分类网络直接将垃圾分类网络中提取的特征图输入图像分类网络中，最后输出图像分类结果和分类置信度。

其中，网络采用Swish激活函数，

其中通道注意力模块最后一层全连接层采用Sigmoid激活函数。

模型训练：输入训练及相对应的图像。其中将输入的图像大小设置为A*A(例如512*512、768*768、1280*1280等)，并设置输入最小批量数据值可以为32、64或128等，学习率为学习率为10^-3，最后采用随机梯度下降策略进行优化学习，如果Loss值持续下降，继续训练，直到迭代k次后，得到最终的垃圾分类模型；如果Loss值在中途趋于稳定，则停止迭代，得到最终的垃圾模型。

垃圾分类网络的损失函数为：

垃圾分类网络的损失函数由图像分类网络的损失和目标检测网络的损失两部分组成，其中：

图像分类网络的分类损失函数CELoss，表示为：

目标检测网络的分类损失函数Floss，表示为：

目标检测网络的定位损失函数LocLoss，表示为：

其中，λ₁和λ₂表示平衡系数；y表示人工标注图像的类别；p(k)表示预测为类别y的概率；α和γ表示平衡超参数，用来平衡正负样本的权重，能够降低易分样本损失贡献；

表示预测的检测框参数，/>

表示检测框标注参数。

如图4所示为垃圾分类联合判决网络示意图，图5是垃圾分类联合判决网络中的卷积组示意图；图6是卷积组中的通道注意力模块示意图。

在本实施例中，进行垃圾分类具体为：

将图像T′输入至垃圾分类模型，垃圾分类模型提取图像T′的特征图，并将提取出的特征图输入至图像分类网络中，图像分类网络输出特征图的类别(合格或不合格)和置信度，当得到的置信度大于置信度阈值L₂(L₂>0.5)时，直接将图像分类网络的输出作为最终预测结果。

在步骤S4中，将垃圾分类模型提取的与垃圾图像T'相对应的特征图输入至垃圾分类模型中的目标检测网络中，得到特征图中异常垃圾的检测框以及标注类别，并将目标检测网络的输出作为最终预测结果。

当步骤S3中得到的置信度大于0.5但小于置信度阈值L₂时，将垃圾分类模型提取的特征图输入至目标检测网络，目标检测网络输出特征图中异常垃圾的检测框以及标注类别(c,x,y,w,h)，其中c为垃圾的类别，此时将目标检测网络的输出作为最终预测结果。

异常垃圾的认定具体是：如易腐垃圾桶中出现的塑料瓶、易拉罐、泡沫纸，则会认定为异常垃圾；其他垃圾桶中出现的蔬菜叶、树叶树枝等，则会认定为异常垃圾。

本实施例提供的基于分类和检测联合判决的垃圾分类方法，主要关注利用两次垃圾投递后垃圾桶内的图像差，并利用深度学习、机器视觉、图像处理等技术，分析监控视频中违规投递垃圾行为，且可以自动识别监控视频中违规投递垃圾的行为。本发明还可以解决相邻的垃圾投递行为容易混淆两次所投递的垃圾，可以快速查出违规投递垃圾的用户。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于分类和检测联合判决的垃圾分类方法，其特征在于，包括：

S4.将垃圾分类模型提取的与垃圾图像T'相对应的特征图输入至垃圾分类模型中的目标检测网络中，得到特征图中异常垃圾的检测框以及标注类别，并将目标检测网络的输出作为最终预测结果；

所述步骤S2中用户投放的垃圾图像T'的计算方式具体为：

判断是否存在用户P₀之后的用户P₁投放的垃圾，若是，则判断用户P₁投放的垃圾是否为异常垃圾，若否，则将用户P₁投放垃圾后垃圾桶T的图像T_P1减去用户P₀投放垃圾后垃圾桶T的图像T_P0，得到像素相减后的垃圾桶图像ΔT，并将得到的ΔT转换为灰度图ΔT′，根据阈值τ与垃圾桶图像ΔT的像素值匹配，得到用户P₁投放的垃圾图像T'；

所述得到像素相减后的垃圾桶图像ΔT，表示为：

用户P₁投放的垃圾图像T'，表示为：

其中，

代表用户P₁投放垃圾后垃圾桶T的图像中RGB三通道的第i行j列个像素值；ΔT′^ji表示像素相减后的垃圾桶图像中RGB三通道的第i行j列个像素值；

所述步骤S3中垃圾分类模型的构建具体为：

2.根据权利要求1所述的一种基于分类和检测联合判决的垃圾分类方法，其特征在于，所述步骤S1中判断是否有用户进行垃圾投放具体为：

3.根据权利要求2所述的一种基于分类和检测联合判决的垃圾分类方法，其特征在于，所述判断计算得到的交并比IOU是否大于交并比阈值，若否，则表示用户没有投放垃圾。

4.根据权利要求2所述的一种基于分类和检测联合判决的垃圾分类方法，其特征在于，所述人手H和垃圾桶T的检测具体为：

数据准备：从获取的视频流数据中跳帧截取视频图像，对截取的图像进行标注，并将标注的图像数据划分为训练集、测试集；其中标注的图像包括人手和垃圾桶的包围框以及标注的类别(c_i,x_i,yi,w_i,h_i)，c_i表示包围框的类别，c_i＝1表示包围框中是垃圾桶，c_i＝0表示包围框中是人手，x_i,y_i表示包围框左上角顶点的坐标，w_i,h_i表示包围框的宽和高；

5.根据权利要求4所述的一种基于分类和检测联合判决的垃圾分类方法，其特征在于，所述神经网络模型和垃圾分类网络中的网采用的均是Swish激活函数：

通道注意力模块最后一层全连接层采用Sigmoid激活函数。

6.根据权利要求5所述的一种基于分类和检测联合判决的垃圾分类方法，其特征在于，所述垃圾分类网络的损失函数表示为：

其中，λ₁和λ₂表示平衡系数；CELoss表示图像分类网络的损失函数；FLoss表示目标检测网络的分类损失函数；LocLoss表示目标检测网络的定位损失函数；k表示迭代的次数。

7.根据权利要求6所述的一种基于分类和检测联合判决的垃圾分类方法，其特征在于，所述图像分类网络的损失函数，表示为：

目标检测网络的分类损失函数，表示为：

目标检测网络的定位损失函数，表示为：

表示预测的检测框参数，/>

表示检测框标注参数。