CN111178182A

CN111178182A - 一种丢垃圾行为的实时检测方法

Info

Publication number: CN111178182A
Application number: CN201911296149.8A
Authority: CN
Inventors: 周云财
Original assignee: AOTENG OPTICAL COMMUNICATION SYSTEMS (SHENZHEN) Ltd
Current assignee: AOTENG OPTICAL COMMUNICATION SYSTEMS (SHENZHEN) Ltd
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-05-19

Abstract

本发明公开了一种丢垃圾行为的实时检测方法，采集样本视频，将采集的视频处理成帧图片，然后进行数据增广并制作数据集；构建卷积神经网络SSD‑MobileNet，并采用数据集训练和调整卷积神经网络SSD‑MobileNet；然后获取待检测视频流，用帧间差分算法提取关键帧，将关键帧之后的帧图片输入到训练好的卷积神经网络SSD‑MobileNet进行丢垃圾行为检测，确定检测结果。本发明采用视频流图像的连续识别，根据连续识别结果综合判定是否存在丢垃圾行为，就有较高的检测精度。

Description

一种丢垃圾行为的实时检测方法

技术领域

本发明属于行为检测技术领域，尤其涉及一种丢垃圾行为的实时检测方法。

背景技术

在一些小区或街道附近，由于没有设置垃圾堆放点，按照相关规定，市民随意丢弃大件垃圾是违规行为，这不仅影响居民出行，而且影响卫生环境，更是增加了环卫工人清扫街道和路面的负担。智能检测丢垃圾行为可以有效的监督市民随意丢弃大件垃圾这一现象，有利于小区和街道的管理。

图片目标检测就是找出图片中感兴趣的目标，并确定它们的类别和位置。近年来基于深度学习以及基于卷积神经网络的图片目标检测技术迅速发展，例如基于候选区域的RCNN系列(R-CNN，Fast R-CNN，Faster R-CNN)目标检测算法，基于回归方法的YOLO和SSD目标检测算法相继被提出。RCNN系列算法在检测目标时需要提取上千个候选框并对每一个候选框进行特征计算，所以特征计算复杂，耗费时间长，无法满足实时检测的需求。SSD是当中检测精度更高的算法，但它自身也有一定的缺点，比如只选择最后一层的低层特征层进行目标检测，导致大量的目标特征信息丢失，使得该算法在进行中小目标检测时效果不佳。

针对该问题，有相关文献在SSD算法的基础上提出了DSSD和FSSD算法，DSSD算法是通过反卷积的思想提升小目标的检测能力，FSSD算法是是通过特征融合和下采样的操作对获取到的多尺度特征进行重构，虽然两者在中小目标的检测结果中的精度相对SSD有明显提高，但是在丢垃圾行为实时检测方面表现的很逊色。

发明内容

为了解决上述问题，本发明提出一种丢垃圾行为的实时检测方法，以解决现有技术实时检测方面效果较差的问题。

为了实现上述目的，本申请技术方案如下：

一种丢垃圾行为的实时检测方法，所述丢垃圾行为的实时检测方法，包括：

采集样本视频，将采集的视频处理成帧图片，然后进行数据增广并制作数据集；

构建卷积神经网络SSD-MobileNet，并采用数据集训练卷积神经网络SSD-MobileNet；

获取待检测视频流，用帧间差分算法提取关键帧，将关键帧之后的帧图片输入到训练好的卷积神经网络SSD-MobileNet进行丢垃圾行为检测，确定检测结果。

进一步的，所述丢垃圾行为的实时检测方法，还包括：

在确定检测结果后，当检测结果为丢垃圾行为时，发出警告。

进一步的，所述丢垃圾行为的实时检测方法，还包括：

在确定检测结果后，当检测结果为丢垃圾行为时，保存采集待检测视频流的采集设备的IP地址、所检测的帧图片、以及所检测的帧图片的采集时间。

进一步的，所述用帧间差分算法提取关键帧，包括：

将上一帧图片作为背景图片，将当前帧图片与背景图片进行差分，在当前帧图片与背景图片画面内容产生的变化大于预设的第一阈值时，便认为当前帧图片是关键帧。

进一步的，所述将关键帧之后的帧图片输入到训练好的卷积神经网络SSD-MobileNet进行丢垃圾行为检测，确定检测结果，包括：

首先检测关键帧，当关键帧输入到训练好的卷积神经网络SSD-MobileNet的检测结果是丢垃圾第一异常标签且置信度大于预设的第二阈值时，继续将下一帧输入到训练好的卷积神经网络SSD-MobileNet进行检测；

如果在出现丢垃圾第一异常标签后，卷积神经网络SSD-MobileNet检测到丢垃圾第二异常标签且置信度大于预设的第三阈值时，继续将下一帧输入到训练好的卷积神经网络SSD-MobileNet进行检测；

如果在出现丢垃圾第二异常标签后，卷积神经网络SSD-MobileNet检测到正常标签且置信度大于预设的第四阈值时，判断存在丢垃圾行为。

如果在出现丢垃圾第二异常标签后，卷积神经网络SSD-MobileNet检测到正常标签且置信度大于预设的第四阈值时，继续将下一帧输入到训练好的卷积神经网络SSD-MobileNet进行检测；

如果在出现正常标签后，卷积神经网络SSD-MobileNet持续检测到多个正常标签且置信度大于预设的第四阈值时，判断存在丢垃圾行为。

进一步的，所述当关键帧输入到训练好的卷积神经网络SSD-MobileNet的检测结果是丢垃圾第一异常标签且置信度大于预设的第二阈值时，还保存当前帧图片；

所述卷积神经网络SSD-MobileNet检测到丢垃圾第二异常标签且置信度大于预设的第三阈值时，还保存当前帧图片；

所述卷积神经网络SSD-MobileNet检测到正常标签且置信度大于预设的第四阈值时，还保存当前帧图片。

本申请提出了一种丢垃圾行为的实时检测方法，该方法采用数据增广来扩充数据集，融入帧间差分法来提取关键帧，大大减少了模型计算和资源浪费；通过SSD-MobileNet网络完成丢垃圾动作检测，在检测中加入了软化非极大值抑制算法(Soft NMS)，该算法可以有效的找到最佳物体检测位置；提出了基于多帧图片的检测结果判定是否为丢垃圾行为的方法，并对丢垃圾者进行音频警告和向管理员发送邮件。该方法在保证对丢垃圾行为实时检测的基础上达到了智能监测丢垃圾行为的效果。

附图说明

图1为本发明一种丢垃圾行为的实时检测方法流程图；

图2为本发明实施例SSD-MobileNet网络结构图示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本申请的一个实施例，提供的一种丢垃圾行为的实时检测方法，如图1所示，包括：

步骤S1、采集样本视频，将采集的视频处理成帧图片，然后进行数据增广并制作数据集。

本实施例在马路边的垃圾桶旁或者小区角落附近分别放置一台网络摄像头，要求摄像头画面清晰并能从视频中看到丢垃圾者的全身。然后截取白天和夜晚的丢垃圾视频若干个，以及少量正常行人路过视频，将这些视频以每秒25帧或30帧的标准处理成帧图片。

容易理解的是，将视频处理成帧图片，是现在比较成熟的技术，可以直接根据视频的帧数进行处理，这里不再赘述。

本实施例，数据增广就是对原来的图片进行镜像、旋转、缩放、剪裁、平移、高斯噪声等处理产生新的图片，该图片近似于原图但对于模型来说是全新的图片，从而达到扩充数据集的目的。大量的数据集可以使模型的泛化能力变强，在一定程度上克制过拟合的出现。数据集包括训练集、验证集、测试集三个部分，并且训练集中正负样本比例为1：1到1：2之间，也可以是其他比例。在制作数据集的时候，首先将数据增广后的所有帧图片用LabelImg图片标注工具进行人工标注。如果图片中出现的是丢垃圾者，则标注出每张图片中丢垃圾者的最小外接矩形框(宽、高及中心点像素坐标)，根据人在丢垃圾时出现的姿态(比如弯腰：Wan；提：Ti；抱：Bao；抛：Pao等均为正样本)，给每个矩形框打上与姿态相对应的标签；如果出现的是未丢垃圾的正常行人，则矩形框的标签名为Person(负样本)，最后将这些标注好的矩形框保存为xml文件，xml文件数量、名字需与图片一一对应。

由于数据集占用磁盘空间和大量内存空间，所以将数据集保存为tfrecord格式。tfrecord内部使用了“Protocol Buffer”二进制数据编码方案，它只占用一个内存块，只需要一次性加载一个二进制文件即可，简单，快速，尤其对大型训练数据很友好。

最后按照训练集：验证集为8：2，正样本：负样本为1：2或1：1的分配比例将处理完的图片和xml文件分为训练集、验证集和测试集。

步骤S2、构建卷积神经网络SSD-MobileNet，并采用数据集训练卷积神经网络SSD-MobileNet。

本实施例使用SSD-MobileNet模型来实现对丢垃圾行为的实时检测功能，模型主要分为四个部分。如图2所示，第一部分是输入层，用于引入帧图片；第二部分是位于前端的轻量级的深层神经网络(MobileNet)(图2中的conv0-conv13部分)，其中conv0-conv11的作用是提取帧图片的基本特征，conv12-conv13是用来提取帧图片的最终特征。第三部分是位于后端的多尺度特征检测网络(SSD，Single Shot MultiBox Detector)(图2中的conv14-conv17部分)，其主要工作是用一系列不同尺度的卷积层对前端网络产生的特征层进行不同尺度条件下的特征提取，也可以看作多尺度特征检测网络，即抽取conv11,conv13,conv14_2,conv15_2,conv16_2,conv17_2这6层用作检测，每层后接的是用于坐标回归和类别得分的卷积层，分别为Conv14_1、Conv15_1、Conv16_1、Conv17_1这四层，并且卷积核的大小为1x1。这样可以更好地预测目标位置及分类。第四部分，包括检测(Detections)和软化非极大值抑制算法(Soft Non-Maximum Suppression)构成的输出层，用于发送检测结果。

本实施例特征提取网络MobileNet是基于流线型架构，使用深度可分离卷积来构建轻量级深度神经网络。深度可分离卷积就是把标准卷积分解成深度卷积和1×1卷积以达到降低参数量和计算量的目的，并且深度卷积和1×1卷积是两个独立的模块。标准卷积层的输入是D_F×D_F×M的特征映射F，输出是D_F×D_F×N的特征映射G，其中D_F是一个正方形的空间宽度和空间高度，M是输入通道数，N是输出通道数。采用的标准卷积K尺寸为D_K×D_K×M×N，其中D_K为假设正方形核的空间维度。则标准卷积的计算可表示为：

即标准卷积的计算量为：

D_K·D_K·M·N·D_F·D_F

当把标准卷积分解为深度卷积和1×1卷积时，深度卷积可用于负责滤波，1×1卷积负责转换通道，则深度卷积的计算可表示为：

其中

是深度卷积，卷积核为D_K×D_K×M；

上第m个通道输出是由

中第m个卷积核应用在

中的第m个通道上产生的。则深度卷积的计算量为：

D_K·D_K·M·D_F·D_F

则深度可分离卷积的计算量为深度卷积的计算量与1×1卷积计算量的和，即

D_K·D_K·M·D_F·D_F+M·N·D_F·D_F

故计算量减少了：

本实施例多尺度特征检测网络，就是选取不同尺寸的特征图输入到检测模块，这样做的好处是大的特征图可以用来检测小目标，而小尺寸的特征图可以检测大目标，能够更好的预测目标位置及分类。

本实施例在ubuntu16下用python3编程语言和tensorflow框架搭建环境，在SSD-MobileNet预训练模型的基础上，把模型的权重等参数作为初始值，然后将类别数量设置为本文应用场景的具体的类别数5，训练步数为20000，初始学习率LR设置为0.001，当训练步数到达10000步时LR减小为0.0001，训练步数到达15000步时LR减小为0.00001，最终训练出行人丢垃圾检测模型。

训练步骤如下：

(1)将训练集中的图片通过位于前端的MobileNet网络，得到图片的基本特征和最终特征。

(2)用8个不同尺度的卷积层在不同尺度上做特征提取，抽取6个不同层级的特征图，并在图中不同位置处选取大小不同、纵横比不同的默认框。

(3)计算每个默认框与实际位置坐标相比存在的位置偏移量，以及预测类别与实际目标类别相同的概率，即类别得分。

(4)根据默认框与实际位置坐标相比存在的位置偏移量计算最终边界框的位置损失函数，然后再根据类别得分计算默认框的分类损失函数，两者的加权和就是最终的总体损失函数。

(5)最后将损失函数反向传播，调整各网络层权值。

步骤S3、获取待检测视频流，用帧间差分算法提取关键帧，将关键帧之后的帧图片输入到训练好的卷积神经网络SSD-MobileNet进行丢垃圾行为检测，确定检测结果。

本实施例丢垃圾行为检测包括：

(1)通过网络摄像头读取视频流；

(2)用帧间差分算法提取关键帧；

(3)用训练好的模型进行检测，通过Soft NMS算法确定检测结果；

(4)基于多帧图片的检测结果对丢垃圾行为进行判定；

(5)启动警告模块，通知管理员。

本实施例在马路边的垃圾桶旁或者小区角落附近安装网络摄像头，由于网络摄像头是持续工作，对(1)中每一帧图片都进行检测造成了一定程度的资源浪费，因此确定丢垃圾者出现的第一帧是至关重要的。本申请融入帧间差分算法进行关键帧的提取，在不增加网络负担的情况下减少模型运算。

在一个实施例中，用帧间差分算法提取关键帧，包括：

帧间差分法是背景差分法的一种，不同的是不需要进行背景建模，将上一帧图片作为背景图片。算法原理是将两帧图片进行差分，得到图片的平均像素强度可以用来衡量两帧图片的变化大小。因此，基于帧间差分的平均强度，每当视频中的某一帧与前一帧画面内容产生了大的变化，便认为它是关键帧，并将其提取出来。

在提取到关键帧之后将启动检测，每个输入到检测网络的图片都会有很多预测框，对于每个预测框首先要确定它的类别和置信度，置信度越高说明框越接近期待值，本申请中融入了在NMS算法基础上改进的Soft NMS算法，传统的NMS算法原理是将预测框按置信度排序，并保留置信度最高的框，同时删除与该框重叠面积大于一定阈值的其他框。但是阈值很难确定，太小会导致相邻的两个目标由于重叠面积大于阈值而被删掉，而太大又会造成误检。Soft NMS的思想不是删掉所有重叠面积大于阈值的框而是降低它的置信度，与置信度最高框的重叠度越大，它的置信度就越低。

当有人出现在摄像头拍摄区域内时，检测网络将会对人进行检测，框出人的动作并打出对应的分类标签和置信度。由于简单的一个动作不能够确定行人是否存在丢垃圾这一行为，所以需要根据出现的动作进行行为判定。

在一个实施例中，将关键帧之后的帧图片输入到训练好的卷积神经网络SSD-MobileNet进行丢垃圾行为检测，确定检测结果，包括：

将关键帧之后的帧图片输入到训练好的卷积神经网络SSD-MobileNet进行丢垃圾行为检测，确定检测结果，包括：

为了进一步提高检测准确度，本申请也可以在卷积神经网络SSD-MobileNet检测到正常标签且置信度大于预设的第四阈值时之后，继续将下一帧输入到训练好的卷积神经网络SSD-MobileNet进行检测；

具体的，本实施例根据人进入到画面的第一帧的标签进行循环判定，卷积神经网络SSD-MobileNet检测结果会输出当前帧图片的标签和置信度，本实施例检测输出的标签有(1)Person，(2)Ti，(3)Bao，(4)Pao。分别对应无异常动作的正常人、提、抱、抛等动作，将出现Person标签认为是正常标签，将其他都认为是异常标签，第一异常标签对应Ti，第二异常标签包括Bao或Pao等标签。容易理解的是，上述标签仅为一个具体的实施例，本领域技术人员可以根据具体的丢垃圾行为设置其他对应的标签，例如Wan等，这里不再赘述。

在另一个实施例中，所述当关键帧输入到训练好的卷积神经网络SSD-MobileNet的检测结果是丢垃圾第一异常标签且置信度大于预设的第二阈值时，还保存当前帧图片；

下面以具体的实施例，来分别描述检测丢垃圾行为的具体判定方法。

实施例1、当检测的第一帧的标签是Person，并且置信度在85％以上时，则此人出现的第一帧是正常行人状态，继续检测下一帧。

如果第二帧也是Person并且置信度高于85％，则维持行人状态，重复上一步进行持续检测。

如果在第30帧(即一分钟内)仍与第一帧状态相同，并且置信度在85％以上，则最终判定此人为正常行人，不启动警告，当拍摄画面中没有人出现时将关闭检测模块以节省资源，等待下一次的启动。

实施例2、当检测的第一帧的标签是Person，并且置信度在85％以上时，则此人出现的第一帧是正常行人状态，继续检测下一帧。

如果在第k(k<30)帧的标签是异常标签(Ti、Bao、Pao均为异常标签)，置信度为85％以上，并且在k+1帧是Person标签，置信度为85％以上。则最终判定此人为异常行人(有突发情况的行人)，不启动警告，当拍摄画面中没有人出现时将关闭检测模块以节省资源，等待下一次的启动。

实施例3、当检测的第一帧的标签是Ti，并且置信度在85％以上时，则此人出现的第一帧是非正常行人状态，同名保存图片1继续检测下一帧。

如果第二帧也是异常标签Ti并且置信度高于85％，则维持非正常行人状态，重复上一步进行持续检测。

如果在第k帧的标签是异常标签Pao、Bao，置信度为85％以上，此人可能正在丢弃垃圾，则同名保存图片2，继续检测下一帧。

如果在第j帧的标签是Person，置信度在85％以上，则此人垃圾已丢并同名保存图片3。如果在j帧以后的5帧内均与j帧状态相同并且置信度在85％以上，此人正以正常行人状态离开，最终判定为丢垃圾行为，并启动警告，当拍摄画面中没有人出现时将关闭检测模块以节省资源，等待下一次的启动。

实施例4、当检测的第一帧的标签是Ti，并且置信度在85％以上时，则此人出现的第一帧是非正常行人状态，同名保存图片1继续检测下一帧。

如果在第90帧(即3分钟内)仍与第一帧状态相同，并且置信度在85％以上直至行人消失在拍摄画面中，则最终判定此人为负重行人，不启动警告，当拍摄画面中没有人出现时将关闭检测模块以节省资源，等待下一次的启动。

需要说明的是，上述实施例仅描述了一部分的检测判断方法，并没有列举全部。在检测过程中，可以预设关键帧后持续检测的时间段，例如1分钟(实施例1)，或三分钟(实施例3)，本申请对此不进行限制。此外，设定的置信度阈值，可以相同也可以不同，这里不做赘述。在置信度不超过阈值时，认为该帧检测结果不可信，继续进行下一帧的检测，这里不再赘述。

当人开始进入到拍摄画面时，如果标签是Person，并且在接下来的画面帧中标签一直都是Person直至人离开，那么判定为正常行人，当拍摄画面中没有人出现时将关闭检测模块以节省资源，等待下一次的启动。如果人开始进入到拍摄画面时的标签不是Person，或者说是Wan、Ti、Bao、Pao中的一个，在接下来的画面帧中有出现不是Person的第二种标签，将标签不是Person的图片进行同名保存到本地；如果在第二种标签出现之后出现了Person标签，说明此时丢垃圾者正以一个正常行人的状态出现，即垃圾已丢。此时模型将在Person标签连续出现的3-5帧中启动警告，警告结束后如果检测到拍摄画面中没有人出现将关闭检测网络以节省资源，等待下一次的启动。

本申请的一个实施例，所述丢垃圾行为的实时检测方法，还包括：

本申请的另一个实施例，所述丢垃圾行为的实时检测方法，还包括：

具体的，本申请一方面是对现场的丢垃圾者进行一个音频警告，告诉他此处禁止丢垃圾；另一方面可以向管理员即时发送邮件，邮件内容包括待检测视频流的采集设备(网络摄像头)的IP地址、所检测的帧图片、以及所检测的帧图片的采集时间。

需要说明的是，本实施例保存所检测的帧图片、以及所检测的帧图片的采集时间，可以保存判断为丢垃圾行为的视频流的所有的帧图片，也可以仅保留其中部分帧图片，以证明存在丢垃圾的行为。

本发明的有益效果，通过利用SSD-MobileNet算法检测网络摄像头下丢垃圾行为的方法，实现了对丢垃圾这一行为的无人实时监控和语音播报警告，有效的监督市民随意丢弃大件垃圾这一现象，大大减少了清洁人员清扫街道、路面的负担和对街道管理的人力物力。采用视频流图像的连续识别，根据连续识别结果综合判定是否存在丢垃圾行为，就有较高的检测精度。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种丢垃圾行为的实时检测方法，其特征在于，所述丢垃圾行为的实时检测方法，包括：

2.根据权利要求1所述的丢垃圾行为的实时检测方法，其特征在于，所述丢垃圾行为的实时检测方法，还包括：

3.根据权利要求1所述的丢垃圾行为的实时检测方法，其特征在于，所述丢垃圾行为的实时检测方法，还包括：

4.根据权利要求1所述的丢垃圾行为的实时检测方法，其特征在于，所述用帧间差分算法提取关键帧，包括：

5.根据权利要求1所述的丢垃圾行为的实时检测方法，其特征在于，所述将关键帧之后的帧图片输入到训练好的卷积神经网络SSD-MobileNet进行丢垃圾行为检测，确定检测结果，包括：

6.根据权利要求1所述的丢垃圾行为的实时检测方法，其特征在于，所述将关键帧之后的帧图片输入到训练好的卷积神经网络SSD-MobileNet进行丢垃圾行为检测，确定检测结果，包括：

7.根据权利要求5或6所述的丢垃圾行为的实时检测方法，其特征在于，所述当关键帧输入到训练好的卷积神经网络SSD-MobileNet的检测结果是丢垃圾第一异常标签且置信度大于预设的第二阈值时，还保存当前帧图片；