CN111611970B

CN111611970B - 一种基于城管监控视频的乱扔垃圾行为检测方法

Info

Publication number: CN111611970B
Application number: CN202010485156.9A
Authority: CN
Inventors: 章东平; 郁强; 郭梦婷; 毛云青; 李开民
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2023-08-22
Anticipated expiration: 2040-06-01
Also published as: CN111611970A

Abstract

本发明提供一种基于城管监控视频的乱扔垃圾行为检测方法，首先，对城管监控视频每隔时间进行路面垃圾检测，若发现路面垃圾，回查前面时间内的监控视频，分析监控视频找出扔垃圾的行人；若无发现扔垃圾的行人，则在其周围摄像头前面时间内的视频中查找扔垃圾的行人，以此方式检测监控视频中的乱扔垃圾的行为。

Description

一种基于城管监控视频的乱扔垃圾行为检测方法

技术领域

本发明属于视频处理领域，尤其涉及到一种基于城管监控视频的乱扔垃圾行为检测方法。

背景技术

随着科技飞速发展，城市化进程的加快以及人民生活水平的迅速提高，日常生活和生产中产生的垃圾废物也随之迅速增加，社区居民的紧张感还不够强烈，经常会出现乱扔垃圾的情况，而大量的垃圾排放着实是对社区居民造成了严重危害。

现有技术中主要还是通过人工现场发现及抓拍检测乱扔垃圾行为，但是这种行为耗时耗力，且检测效率不高。在技术上，视频目标检测研究相对于图像领域目标检测还不够火热，且由于乱扔垃圾行为存在随机性和瞬时性，在技术层面不仅仅需要识别垃圾本身还需要找出是谁乱扔垃圾，这给视频目标检测用于乱扔垃圾行为检测带来了诸多不便利的地方；另外，在一些情况下垃圾因为风或者其他原因会飘至到其他区域，这也找出乱扔垃圾的对象带来了困扰，因此急需一种自动识别监控视频中乱扔垃圾行为的方法与系统。

发明内容

本发明的目的在于提供一种基于城管监控视频的乱扔垃圾行为检测方法，旨在能够利用深度学习、机器视觉、图像处理等技术，检测和分析城管监控视频中的乱扔垃圾行为，为城市管理出一份力。

根据本发明的一方面，提供一种基于城管监控视频的乱扔垃圾行为检测方法，包括以下步骤：

步骤(1)：每隔设定时间对监控视频利用垃圾检测模型进行路面垃圾检测，若在监控视频里识别到路面垃圾，回查该时刻前设定时间段内的监控视频，借助行人与垃圾袋的包围框检测网络模型分析监控视频找是否存在扔垃圾的行人，若存在扔垃圾的人，对该行人进行行人检测和人脸检测。

在一些实施例中，在步骤(1)之中若无检测到扔垃圾的人，进一步进行步骤(2)：回查该时刻前设定时间段内该位置周围的监控视频，借助行人与垃圾袋的包围框检测网络模型分析监控视频是否存在扔垃圾的行人，若存在扔垃圾的人，对该行人进行行人检测和人脸检测。

在一些实施例中，在步骤(2)之后进一步包括步骤(3)：回查该时刻前设定时间段内该位置周围的监控视频，借助行人手部和嘴部关键点检测模型进行行人吃食品的行为识别，若存在吃食品的行人，利用食品袋检测模型对食品袋进行检测，将检测到食品袋与在监控视频I中检测到垃圾进行相似度匹配，如果相似度较高，对该行人进行行人检测和人脸检测。

根据本发明的另一方面，本方案提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以上任一提到的基于城管监控视频的乱扔垃圾行为检测方法的步骤。

根据本发明的另一方面，本方案提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以上任一提到的基于城管监控视频的乱扔垃圾行为检测方法的步骤。

相较于现有技术，本方案提供的方案具有以下特点和优点：本方案提供的基于城管监控视频的乱扔垃圾行为检测方法联通多个深度学习的模型检测乱扔垃圾行为，首先通过垃圾检测模型先确认存在的路面垃圾，随后通过跟踪可能丢垃圾的行人的情况利用多视频图像帧比对找出乱扔垃圾的人，同时通过调用其他监控视频的方法来解决垃圾漂离原监控区域的乱扔垃圾行为检测，充分考虑实际乱扔垃圾的多种情况，实现利用监控视频智能检测乱扔垃圾行为，可被用于智慧城市管理中。

附图说明

图1是本方案的基于城管监控视频的乱扔垃圾行为检测方法的流程图。

图2是本方案的垃圾检测网络示意图。

图3是本方案的行人与垃圾袋的包围框检测网络结构示意图。

图4是本方案的扔垃圾的行为检测流程图。

图5是本方案的食品袋检测网络示意图。

图6是本方案的行人手部和嘴部关键点检测的检测网络结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本领域技术人员应理解的是，在本发明的揭露中，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系是基于附图所示的方位或位置关系，其仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此上述术语不能理解为对本发明的限制。

可以理解的是，术语“一”应理解为“至少一”或“一个或多个”，即在一个实施例中，一个元件的数量可以为一个，而在另外的实施例中，该元件的数量可以为多个，术语“一”不能理解为对数量的限制。

本方案提供一种基于城管监控视频的乱扔垃圾行为检测方法，包括以下步骤：

步骤(1)：每隔设定时间T对城管监控视频I利用垃圾检测模型进行路面垃圾检测，若在监控视频里识别到路面垃圾，回查该时刻前面设定T时间段内的监控视频，借助行人与垃圾袋的包围框检测网络模型分析监控视频是否存在扔垃圾的行人，若存在扔垃圾的行人，对该行人进行行人检测和人脸检测，将其检测到的人脸和行人与社区档案库内数据进行人脸识别和行人重识别，同时保存行为人乱扔垃圾的视频数据，若无，进行步骤(2)；

步骤(2)：回查该时刻前设定T时间段内该位置周围摄像头J的监控视频，借助行人与垃圾袋的包围框检测网络模型分析监控视频是否存在扔垃圾的行人，如果发现扔垃圾的行人，对该行人则进行行人检测和人脸检测，将其检测到的人脸和行人与社区档案库内数据进行人脸识别和行人重识别，同时保存行为人乱扔垃圾的视频数据，若无，进行步骤(3)；

步骤(3)：回查该时刻前设定T时间段内该位置周围摄像头J的监控视频，借助行人手部和嘴部关键点检测模型进行行人吃食品的行为识别，若存在吃食品的行人，利用食品袋检测模型对食品袋进行检测，将检测到食品袋与在监控视频I中检测到垃圾进行相似度匹配，如果相似度较高，则进行行人检测和人脸检测，将其检测到的人脸和行人与社区档案库内数据进行人脸识别和行人重识别，同时保存路面垃圾检测结果和食品袋检测结果。

值得一提的是，本方案提供的基于城管监控视频的乱扔垃圾行为检测方法可仅仅包括步骤(1)，此时，借助行人与垃圾袋的包围框检测网络模型和垃圾检测模型来检测监控视频中是否存在乱扔垃圾的行人；在另一些实施例中，本方案提供的基于城管监控视频的乱扔垃圾行为检测方法包括步骤(1)和步骤(2)，此时，不仅仅调用单一摄像头的监测视频，还通过调取该位置周围摄像头的监测视频查找乱扔垃圾的人，解决了垃圾飘动带来的查找困难；在另一些实施例中，本方案提供的基于城管监控视频的乱扔垃圾行为检测方法同时包括步骤(1)、步骤(2)以及步骤(3)，此时，在找不到乱扔垃圾行人的情况下借助行人手部和嘴部关键点检测模型查找在吃食品的行人，预判可能丢垃圾的行人。

其中T时间可以设定为5分钟。

其中行为人乱扔垃圾的视频数据为从垃圾脱离行为人的手部的前几帧视频到垃圾完全离开行为人的手部并且垃圾出现在路面的视频片段，可对发现的社区居民利用构成的社区评分系统对其进行扣分处罚并公示相关行为人。

进一步的，步骤(1)中路面垃圾的识别利用深度学习的垃圾检测模型完成，垃圾检测模型的构建过程如下：

标注数据准备：从城管监控视频中跳帧截取视频帧图像，对截取的视频帧图像进行标注，标注信息为视频帧图像中的垃圾的包围框以及标注的类别，即(c_i，x_i，y_i，w_i，h_i)，其中c_i表示包围框的得分，c_i＝1表示包围框中的是垃圾，c_i＝0表示包围框中的不是垃圾，x_i，y_i表示包围框左上角顶点的坐标，w_i，h_i表示包围框的宽和高，得到标注数据样本，将标注数据样本按照8:1:1划分为训练集、验证集、测试集；

网络结构设计：算法采用多尺度结构的卷积神经网络，主干网络由残差模块构成，对网络特征通道分离与通道混洗，在主干网络的基础上采用自上而下的特征金字塔结构，并加入自上而下的上采样操作，构造多个层的深层特征与浅层特征信息融合，从而获取较优的特征，筛选不同大小的候选框，最后保留最优结果，网络采用swish激活函数，

数据训练：输入训练集，其中训练集对应的图像大小设置为416*416，设置输入最小批量数据值为64，学习率为10^-3，采用Adam梯度下降策略进行优化学习，得到优化条件的垃圾检测模型；

模型测试：输入测试集，输出垃圾的包围框信息(x,y,w,h)。

进一步的，步骤(1)中的行人扔垃圾行为检测利用深度学习的行人与垃圾袋的包围框检测网络模型完成，行人与垃圾袋的包围框检测网络模型的构建过程如下：

行人与垃圾袋的包围框检测数据准备：对监控视频的视频帧图像进行标注，标注信息为视频帧图像中的垃圾袋、行人的包围框以及标注的类别，即(c_j，x_j，y_j，w_j，h_j)，其中c_j表示包围框的类别，c_j＝0表示包围框中的是垃圾袋，c_j＝1表示包围框中的是行人，x_j，y_j表示包围框左上角顶点的坐标，w_j，h_j表示包围框的宽和高，得到标注数据样本，将标注数据样本按照8:1:1划分为训练集、验证集、测试集；

行人与垃圾袋的包围框检测网络结构设计：网络输入为视频帧图像，利用ResNet的浅层结构提取特征F_B以及深层结构提取特征F_T，浅层特征F_B输入到SNet，SNet用来捕捉垃圾的类别信息和行人的类别信息，深层特征F_T输入到GNet，GNet用来从图像帧的背景中区分垃圾与行人，利用第一帧图像来初始化SNet和GNet，两个模块采用不同的更新方法，对于新的一帧图像，感兴趣区域(ROI)集中在上一帧的目标位置，包含目标的信息与背景的信息，通过全卷积网络传递，SNet和GNet模块各自产生一个前景的热图，新的一帧图像目标位置的预测基于这个热图，选择机制用来决定采用SNet和GNet模块产生的哪一个热图，从而决定最后目标的位置；

行人与垃圾袋的包围框检测模型训练：对网络参数赋初始化数值，设置网络的最大迭代次数m；将准备好的数据集输入网络，进行训练，如果loss值一直下降，则继续训练，直到迭代M次后，得到最终的模型；如果loss值在中途趋于稳定，则停止迭代，得到最终的模型。

行人与垃圾袋的包围框检测网络模型的具体使用过程如下：

向行人与垃圾袋的包围框检测网络模型输入监控视频，输出实时检测到的行人包围框、垃圾袋包围框及其坐标信息；

扔垃圾的行为检测：每隔时间段T₀进行一次扔垃圾的行为检测，输入其上步骤得到的行人和垃圾袋包围框的坐标信息，在时间段T₀内每秒选取视频帧图像数f，对时间段T₀内每秒选取的视频帧图像上的垃圾的包围框和行人的包围框计算交并比，其中交并比的公式如下：

其中，IOU表示交并比，表示第i帧中第j个行人的包围框，/>表示第i帧中第u个垃圾袋的包围框；若垃圾的包围框和行人的包围框的交并比大于第一阈值a时，则建立起行人包围框和垃圾包围框的联系，即行人包围框/>与垃圾袋包围框r_i ¹有密切关系，或者行人包围框/>与垃圾袋包围框r_i ¹以及垃圾袋包围框/>有密切关系，一个行人对应一个或者多个垃圾袋；对行人以及拿着垃圾袋的行人进行跟踪，在时间T₀内，若行人包围框和垃圾袋包围框的交并比在时间t₁(t₁＜T₀)内大于第一阈值a(a可取0.8)且在时间t₂(t₂＜T₀，t₂＜t₁，t₁+t₂＜T₀)小于第二阈值b(b可取0.2)时，则该行人存在扔垃圾行为。

进一步的，步骤(3)中的食品袋检测也是通过食品袋检测模型完成的，其中检测的食品袋包括但不限于食品包装袋、食品包装盒、纸袋、塑料袋，其中食品袋检测模型的搭建过程如下：

数据准备：从城管监控视频中跳帧截取视频帧图像，对截取的视频帧图像进行标注，标注信息为视频帧图像中的食品包装袋、食品包装盒、纸袋、塑料袋的包围框以及标注的类别，即(c_j，x_j，y_j，w_j，h_j)，其中c_j表示包围框的类别，c_j＝0表示包围框中的是食品包装袋，c_j＝1表示包围框中的是食品包装盒，c_j＝2表示包围框中的是纸袋，c_j＝3表示包围框中的是塑料袋，x_j，y_j表示包围框左上角顶点的坐标，w_j，h_j表示包围框的宽和高，将标注数据样本按照8:1:1划分为训练集、验证集、测试集；

训练：输入训练集，其中训练集对应的图像大小设置为416*416，设置输入最小批量数据值为64，学习率为10^-3，采用Adam梯度下降策略进行优化学习；

模型测试：输入测试集，输出包围框信息(c，x，y，w，h)，其中食品包装袋的包围框信息(0，x，y，W，h)、食品包装盒的包围框信息(1，x，y，W，h)、纸袋的包围框信息(2，x，y，W，h)、塑料袋的包围框信息(3，x，y，W，h)。

进一步的，步骤(3)中的吃食品的行为识别借助行人手部和嘴部关键点检测模型进行，其中行人手部和嘴部关键点检测模型的搭建过程如下：

行人手部和嘴部关键点检测数据准备：对监控摄像头采集的视频帧图像中行人手部和嘴部的关键点进行标注，对手部关键点的亲和度向量和嘴部关键点的亲和度向量进行标注；

行人手部和嘴部关键点检测网络结构设计：主干网络由卷积神经模块构成，将上述标注好手部和嘴部关键点及亲和度向量的数据作为输入，经过卷积模块A，得到特征图F，将网络分为两个分支，分支1预测手部关键点和嘴部关键点的置信度，分支2预测手部关键点的亲和度向量和嘴部关键点的亲和度向量，每个分支都是一个迭代预测架构，分支1和分支2构成了一个阶段，每个阶段网络产生一组检测置信度图Score^k＝ρ^k(F)和一组亲和度向量其中ρ¹和/>是经过第一阶段网络的输出结果，之后每一阶段的输入都来自前一阶段的预测结果和经过卷积模块A得到的特征图F，ρ^k和/>代表第k阶段的卷积神经模块结构，其输出为：/>和通过贪心推理解析手部和嘴部关键点的置信图和非参数表征方法Part Affinity Fields(PAF部件亲和度向量场)学习手部和嘴部的关联；

行人手部和嘴部关键点检测模型训练：对网络参数赋初始化数值，设置网络的最大迭代次数m；将准备好的数据集输入网络，进行训练。如果loss值一直下降，则继续训练，直到迭代M次后，得到最终的模型；如果loss值在中途趋于稳定，则停止迭代，得到最终的模型；

损失函数为：

式中为每个阶段k的两个损失函数

和

其中，表示人工标注手部关键点和嘴部关键点的置信图，/>表示人工标注的手部关键点的亲和度向量和嘴部关键点的亲和度向量，m代表手部的关键点和嘴部的关键点，n代表肢体即手部、嘴部，一个肢体对应两个关键点；

行人手部和嘴部关键点检测模型测试：输入测试图片，输出行人手部和嘴部关键点的坐标信息；

利用行人手部和嘴部关键点检测模型进行吃食品的行为识别的步骤：

吃食品的行为识别：通过手部关键点和嘴部关键点在一段时间内小于某个距离范围来判断行为人是否在进食，若在时间t内，手部关键点和嘴部关键点的坐标距离小于第三阈值d，则判定行人在吃食品。

另外，根据本发明的另一方面，本方案提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以上提到的基于城管监控视频的乱扔垃圾行为检测方法的步骤。

根据本发明的另一方面，本方案提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以上提到的基于城管监控视频的乱扔垃圾行为检测方法的步骤。

本发明不局限于上述最佳实施方式，任何人在本发明的启示下都可得出其他各种形式的产品，但不论在其形状或结构上作任何变化，凡是具有与本申请相同或相近似的技术方案，均落在本发明的保护范围之内。

Claims

1.一种基于城管监控视频的乱扔垃圾行为检测方法，其特征在于，包括以下步骤：

步骤(1)：每隔设定时间对监控视频I利用垃圾检测模型进行路面垃圾检测，若在监控视频I里识别到路面垃圾，回查识别到路面垃圾的时刻前设定时间段内的监控视频I，借助行人与垃圾袋的包围框检测网络模型分析监控视频I中是否存在扔垃圾的行人，若存在扔垃圾的人，对该行人进行行人检测和人脸检测；

在步骤(1)之中若无检测到扔垃圾的人，进一步进行步骤(2)：回查识别到路面垃圾的时刻前设定时间段内识别到路面垃圾的位置周围的监控视频J，借助行人与垃圾袋的包围框检测网络模型分析监控视频J是否存在扔垃圾的行人，若存在扔垃圾的人，对该行人进行行人检测和人脸检测；

在步骤(2)之后进一步包括步骤(3)：回查识别到路面垃圾的时刻前设定时间段内识别到路面垃圾的位置周围的监控视频J，借助行人手部和嘴部关键点检测模型进行行人吃食品的行为识别，监控视频J输入行人手部和嘴部关键点检测模型后得到行人手部和嘴部关键点的坐标信息，若手部关键点和嘴部关键点在设定时间段内坐标距离小于第三阈值，判定该行人为吃食品的行人，若存在吃食品的行人，利用食品袋检测模型对食品袋进行检测，将检测到食品袋与在监控视频I中检测到垃圾进行相似度匹配，如果相似度高，对该行人进行行人检测和人脸检测。

2.根据权利要求1所述的基于城管监控视频的乱扔垃圾行为检测方法，其特征在于，在对行人进行行人检测和人脸检测后，将其检测到的人脸和行人与社区档案库内数据进行人脸识别和行人重识别，同时保存行为人乱扔垃圾的视频数据。

3.根据权利要求1所述的基于城管监控视频的乱扔垃圾行为检测方法，其特征在于，监控视频输入行人与垃圾袋的包围框检测网络模型后得到行人包围框、垃圾袋包围框及其坐标信息，计算设定时间段T₀内得到的行人包围框和垃圾袋包围框的交并比，若交并比在t₁内大于第一阈值且在t₂时间内小于第二阈值，判定该行人为扔垃圾的人，其中t₂＜T₀，t₂＜t₁，t₁+t₂＜T₀。

4.根据权利要求3所述的基于城管监控视频的乱扔垃圾行为检测方法，其特征在于，在时间段T₀内每秒选取一定数量的视频帧图像数，对时间段T₀内每秒选取的视频帧图像上的垃圾的包围框和行人的包围框计算交并比，其中交并比的公式如下：

其中，IOU表示交并比，表示第i帧中第j个行人的包围框，r_i ^u表示第i帧中第u个垃圾袋的包围框。

5.根据权利要求1所述的基于城管监控视频的乱扔垃圾行为检测方法，其特征在于，食品袋检测模型检测的食品袋包括但不限于食品包装袋、食品包装盒、纸袋、塑料袋。

6.根据权利要求1所述的基于城管监控视频的乱扔垃圾行为检测方法，其特征在于，行人手部和嘴部关键点检测模型的搭建过程如下：

行人手部和嘴部关键点检测网络结构设计：主干网络由卷积神经模块构成，将上述标注好手部和嘴部关键点及亲和度向量的数据作为输入，经过卷积模块A，得到特征图F，将网络分为两个分支，分支1预测手部关键点和嘴部关键点的置信度，分支2预测手部关键点的亲和度向量和嘴部关键点的亲和度向量，每个分支都是一个迭代预测架构，分支1和分支2构成了一个阶段，每个阶段网络产生一组检测置信度图Score^k＝ρ^k(F)和一组亲和度向量其中ρ¹和/>是经过第一阶段网络的输出结果，之后每一阶段的输入都来自前一阶段的预测结果和经过卷积模块A得到的特征图F，ρ^k和/>代表第k阶段的卷积神经模块结构，其输出为：/>和通过贪心推理解析手部和嘴部关键点的置信图和非参数表征方法Part Affinity Fields学习手部和嘴部的关联；

行人手部和嘴部关键点检测模型训练：对网络参数赋初始化数值，设置网络的最大迭代次数m；将准备好的数据集输入网络，进行训练，如果loss值一直下降，则继续训练，直到迭代M次后，得到最终的模型；如果loss值在中途趋于稳定，则停止迭代，得到最终的模型；

损失函数为：

式中为每个阶段k的两个损失函数

和

其中，表示人工标注手部关键点和嘴部关键点的置信图，/>表示人工标注的手部关键点的亲和度向量和嘴部关键点的亲和度向量，m代表手部的关键点和嘴部的关键点，n代表肢体即手部、嘴部，一个肢体对应两个关键点。

7.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以上权利要求1到6任一提到的基于城管监控视频的乱扔垃圾行为检测方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以上权利要求1到6任一提到的基于城管监控视频的乱扔垃圾行为检测方法的步骤。