CN108304798A

CN108304798A - 基于深度学习及运动一致性的街面秩序事件视频检测方法

Info

Publication number: CN108304798A
Application number: CN201810086477.4A
Authority: CN
Inventors: 郑全新; 张磊; 赵英; 江龙; 王亚涛
Original assignee: Beijing Tongfang Software Ltd By Share Ltd
Current assignee: Beijing Tongfang Software Ltd By Share Ltd; Beijing Tongfang Software Co Ltd
Priority date: 2018-01-30
Filing date: 2018-01-30
Publication date: 2018-07-20
Anticipated expiration: 2038-01-30
Also published as: CN108304798B

Abstract

基于深度学习及运动一致性的街面秩序事件视频检测方法，涉及人工智能领域和计算机视觉领域。本发明的方法步骤为：1）算法框架：2）目标检测；3）运动一致性计算；4）事件判定。同现有技术相比，本发明通过设计目标检测深度学习网络，训练场景识别模型，并计算场景内的运动信息分析其行为状态，以视频智能分析领域中静态视频帧中目标检测技术和动态视频中目标行为分析技术相结合的方式，多条件联合判定事件，设计出店外经营事件和占道经营事件的检测系统，准确快速的完成事件的自动检测。

Description

基于深度学习及运动一致性的街面秩序事件视频检测方法

技术领域

本发明涉及人工智能领域和计算机视觉领域，是基于图像处理技术和视频分析技术的、应用于城市监控场景下的街面秩序事件智能检测方法。

背景技术

文俊，在2016年3月的博士论文《基于深度卷积神经网络的室外场景理解研究》中公开了，基于DCNN算法，围绕场景分割和场景识别，研究了动态目标分类、语义分割和联合目标检测与语义分割的场景理解技术。

首先针对视频中运动目标物体的分类，提出一种基于多任务空间金字塔池化DCNN 的动态目标分类方法。高层卷积特征对运动目标的平移、视角变化、光照、部分遮挡等具有较强的鲁棒性。该方法利用高斯混合模型对背景建模由背景差分法提取场景运动目标，经图像形态学处理获得较为准确的目标物体轮廓图像。将获得的前景目标图像块送入多任务空间金字塔池化DCNN 而实现分类。实验证明，该方法具有很高的分类精度。同时，针对DCNN理论分析的缺乏，细致地分析了多任务训练方式和空间金字塔池化层对DCNN 的分类效果的影响。实验表明，多任务的特征学习方式有助于DCNN 学习更加丰富的卷积特征，空间金字塔池化层增强了DCNN 的尺度不变性，两者均有助于提高DCNN 对动态目标的分类准确率。

为了克服传统的颜色、纹理和SIFT 局部特征描述子等鲁棒性和表达能力等的不足，提出了一种基于DCNN 的室外场景语义分割算法。该算法首先由MeanShift算法对图像进行预分割，将场景图像分割为大小不一的局部区域。然后对每一个分割后的图像局部区域随机采集样本图像块送入DCNN 以获得其类别概率分布。最后将样本图像块的类别概率值进行平均获得每一个局部区域的语义标签而实现对场景图像的语义分割。实验中分析了卷积核大小、数目和训练数据扩展等对最终语义分割效果的影响。将该方法与传统的基于SIFT 局部特征描述子的SEVI-BOVW 进行对比，实验表明，该方法在语义分割准确率和速度上均有较大提升。

基于DCNN，提出了一种联合物体检测与语义分割的场景理解方法，并将其与基于HOG纹理特征及支持向量机分类算法的背景物体语义分割算法结合用于校园巡逻机器人的校园导航。由DeepLab-CRFs 语义分割算法预分割出场景图像中的行人和车辆等前景目标物体，采用Faster R-CNN 物体检测算法对前景物体中的单个物体进行区分，最后再通过GrabCut前景提取算法将二者的分割和检测结果结合实现对前景目标物体的精确再分割。对不具备具体形状且纹理结构单一的天空、道路、树木（草地）、建筑四类背景物体采用先超像素预分割在提取分割后各局部区域HOG 纹理特征送入支持向量机分类器的方法进行语义分割。将上述场景理解及背景识别方法与视觉SLAM 技术及路径规划算法结合应用于Seekur机器人的校园导航，取得了很好效果。

李涛，在2016年3月的博士论文《基于上下文的目标检测研究》中公开了，结合图像处理、模式识别、机器学习等理论与方法，利用目标自身局部上下文信息、目标及目标层面以上的上下文信息、时空上下文信息和基于高层图像表达的上下文信息四个方面, 针对目标检测领域中的诸多实际问题，展开对基于上下文信息的目标检测的研究。

(1) 基于目标自身局部上下文信息，提出了基于霍夫上下文的目标检测模型。首先，为了有效的表达和组织局部特征，对图像中的每个像素点，完成了基于极坐标的椭圆霍夫上下文的建立；然后，利用霍夫上下文的特点，完成了在同一尺度下单独特征和联合特征的刻画和提取；接着，在两类特征提取的基础上，基于霍夫投票的思想，完成了包括独立函数和联合函数的像素点投票函数，并通过训练完成了模型相关参数的学习；最后，在检测中，通过对该模型获得的霍夫图像的后处理，利用目标尺度信息完成目标检测；通过在不同数据集上的大量实验，验证了该模型的有效性。

(2) 基于目标及目标层面以上的上下文信息，提出了基于上下文信息的多层目标检测模型。首先，基于混合专家，采用分而治之的思想，完成了场景选择层的构建，并利用与子场景聚类中心的距离，完成了刻画场景选择层的混合权重；然后，在不同场景下，基于目标间一致性关系的描述，完成了一致性目标对的刻画；接着，在子树形成时，利用一致性目标对和单一目标间的共生和位置关系，改变树形结构，完成了子场景下相应的子树模型的生成，并通过训练完成了模型相关参数的学习；最后，在检测中，利用该模型进行相关推理，消除和修正了错误的单一目标检测器的检测结果，完成目标检测；通过在不同数据集上的大量实验，验证了该模型的有效性。

(3) 基于时空上下文信息，提出了基于时空域的层次火焰检测模型和基于团块分析的人数统计模型。针对火焰模型，首先，利用光流获取火焰方向在时空域的变化，在多个层面上，融入时空上下文信息，完成了新的火焰运动特征的刻画；然后，在获取火焰特征的基础上，利用Kernel SVM 训练，完成火焰检测模型的建立；通过实验，验证了火焰模型的有效性。针对人数统计模型，首先，利用光流获取团块运动的光流强度信息并与团块面积等上下文信息结合，完成新的团块特征的刻画；然后，利用时空上下文信息，结合人数统计的特点，完成了一种新的跟踪算法；最后，利用SVM 进行线性拟合，通过训练完成人数统计模型的建立；通过实验，验证了人数统计模型的有效性。

(4) 基于高层图像表达上下文信息，提出了基于自适应上下文信息的CNN目标检测模型。首先，基于卷积神经网络学习的高层图像表达，完成在特定场景中目标及其上下文特征图的提取，并根据同一尺度下，特征图差异，完成自适应的上下文特征选择模型的建立；然后，基于上下文特征选择模型，融合目标和上下文特征，完成基于自适应上下文信息的CNN目标检测模型的建立，并通过前向和后向算法，训练完成了模型相关参数的学习；最后，在检测中，利用训练好的目标检测模型，获得目标掩码图和上下文掩码图，联合预测目标位置，通过后处理，完成目标检测；通过在不同数据集上的大量实验，验证了该模型的有效性。

上述传统算法存在的问题是：在对城市监控场景的识别和理解方面，传统算法很难满足需求，主要原因是场景复杂度过高、事件形态多种多样、遮挡等。这些因素要求算法有超强的泛化能力和准确度，传统算法在理论基础上就达不到这些要求，即使应用了也很容易造成事件的误检和漏检。

上述基于深度学习的算法存在的问题是：基于深度学习算法，可以设计出泛化能力很强的方法来解决事件形态多种多样的问题，但对网络模型的设计也有很高的要求。并且，一般的深度学习算法，大多是在静态图像集中标定训练样本，获取事件图像的静态特征，但监控场景下的事件，含有大量的时序动态信息，并且部分事件的主要特征也是体现在其动态信息上，因此，单纯的依赖深度学习算法，即使可以设计出泛化能力很强的网络模型，也面临着大量事件的漏检问题。

综上所述，现有技术中无论是应用传统算法还是深度学习算法，视角变化、光照、部分遮挡等因素都是影响目标检测和场景识别算法性能的重要因素，在实际应用中，这些因素造成的漏检和误检会严重影响产品的整体性能。上述方法中应用静态图像作为训练样本，提取其图像静态特征进行检测和识别，但在实际监控场景传回的是连续的视频帧，这些视频中的动态信息比单张静态图像所包含的信息更加丰富，而且像视角变化、遮挡等物理现象也是在运动过程中产生的。因此，单纯的应用图像帧的静态信息在目标检测和场景识别上存在着准确率低、误检漏检多等现象。

发明内容

针对上述现有技术中存在的问题，本发明的目的是提供一种基于深度学习及运动一致性的街面秩序事件视频检测方法。本发明通过设计目标检测深度学习网络，训练场景识别模型，并计算场景内的运动信息分析其行为状态，以视频智能分析领域中静态视频帧中目标检测技术和动态视频中目标行为分析技术相结合的方式，多条件联合判定事件，设计出店外经营事件和占道经营事件的检测系统，准确快速的完成事件的自动检测。

为了达到上述发明目的，本发明的技术方案以如下方式实现：

基于深度学习及运动一致性的街面秩序事件视频检测方法，其方法步骤为：

1）算法框架：

算法框架设定为轮询模式，循环接入前端视频流，采集N帧后缓存到指定内存中，然后切换到下一路视频流，缓存到相应的内存空间中。内部算法功能模块线程需要处理时从相应内存中拷贝到算法内部缓存中，处理完成后将运行结果统一送到事件判定线程做事件最终判定，然后拷贝下一路视频流所在的内存数据，用同样的方式做处理。

2）目标检测：

在Yolov2训练过程中，首先利用设计好的分类网络结构在ImageNet数据集上进行预训练。其次，将该网络结构最后的分类输出层去掉，在最后一个卷积层产生的feature map上，每个单元都会结合anchor信息生成一个向量，其中包括了类别输出信息、回归的坐标信息以及是否为目标的概率，之后设计loss函数并对其进行优化。最后完成模型的训练，loss函数由分类loss1、回归坐标以及是否为前景目标loss2构成，类别loss1同传统分类网络，采用softmax对其进行训练，回归坐标和是否前景目标loss2定义如下：

其中，i指示当前计算单元，j指示当前anchor，x、y表示预测的坐标，w、h表示预测的宽、高，Pw和Ph分别表示anchor宽、高。

检测时，输入一帧图像，图像经过一系列卷积、批归一化、池化、非线性映射等操作后，在最后一个卷积层得到多个feature map。

将最后一个卷积层得到的feature map结合anchor信息，在每个单元预测5个边界框，每个边界框预测4个坐标值和一个目标概率值，若单元从图像的左上角偏移(c _x, c _y)，且边界框有先验Pw,Ph（anchor box），则预测为：

b _x=σ(t _x)+c _x

b _y=σ(t _y)+c _y

b _w=p _w e ^tw

b _h=p _h e ^th

其中，σ(.)为非线性映射函数：

不同于faster rcnn框架中使用的固定大小的anchor box，Yolov2中为了充分利用样本的统计特性，采用聚类的方式选取了5个anchor box。训练集边界框上用K-means聚类来自动找好的先验：用标准K-means（欧几里德距离）时，更大的边界框会产生更大的误差；而获得好的IOU分数的先验应与建议框的大小无关。因此，使用如下距离测量：

d(box,centroid)=1−IOU(box,centroid)

3）运动一致性计算：

空间运动一致性的计算公式为：

空间运动目标的平均速度值为：

以上v代表速度值，i代表当前图像中的运动目标序号，N代表目标个数，x表示水平方向，y表示竖直方向，这样计算出的OPs代表图像空间上运动一致性的值，并且有Vs代表空间运动目标的平均速度值。

时域运动一致性的计算公式为：

时域运动目标的平均速度值为：

以上v代表速度值，j代表的是连续视频序列的标号，M代表视频帧数，x表示水平方向，y表示竖直方向，这样计算出的OPt值代表图像上某位置目标的时域运动一致性的值，Vt代表时域运动目标的平均速度值。

4）事件判定：

用训练好的CNN模型进行事件判定，样本的收集由训练好的Yolov2模型在准备好的原始图片上进行检测，然后按照检测结果将图片和检测信息送入CNN判定模型，得到事件的初步判定结果和得分值。

计算该视频帧前后N帧图像每相邻两帧的运动矢量，并进行统计分析，计算每相邻两帧该区域的运动熵值，并计算运动一致性值，联合分析CNN判定分值和运动一致性值，最后做出结果判定。具体步骤如下：

设Sd为CNN判定的事件得分值；设Sm为运动一致性分析得到的事件判定得分值；考虑到两种判定方式的互补性质，事件最终分值设为S=Sm*Sd。

设为第j帧图像的空间运动一致性值，为第i个目标在连续视频帧中的时域运动一致性值。设和为对应的空间和时域运动目标平均速度值，其中m取值为大于2的偶数。

步骤1：首先计算被检测帧前后3帧的空间平均速度值，并计算其均值，设定阈值v_threshold判定目标区域内是否有运动信息；

步骤2：计算步骤1中相应的OPsj，并计算OPsj的均值，并定义

步骤3：在连续视频帧中计算运动区域内每个运动目标的值，n代表目标个数，对于的运动目标，计算相应的OPti值，并计算OPti的均值

步骤4：计算分值，设事件判定阈值，得出判定结果

流程结束。

本发明由于采用了上述方法，在基于空间和时域的两个维度上运用运动一致性做事件判定，利用运动一致性结合深度学习目标检测和场景识别的方式做事件判定，并基于运动一致性思想设计了运动一致性计算公式。同现有技术相比，本发明的有益效果有：

1. 利用深度学习方法逐层次的完成对静态场景的理解，克服了由于场景复杂而导致的事件的误检和漏检的问题。

2. 利用静态信息和动态信息联合判定事件是否发生，克服了因单纯应用静态信息而忽略动态信息导致的部分事件漏检的情况。

下面结合附图和具体实施方式对本发明做进一步说明。

附图说明

图1为本发明实施例中目标检测时的图像处理流程示意图；

图2为本发明实施例的方法流程图；

图3为本发明实施例中目标检测步骤算法示意图。

具体实施方式

本发明基于深度学习及运动一致性的街面秩序事件视频检测方法，其方法步骤为：

1）算法框架：

算法框架设定为轮询模式，循环接入前端视频流，采集N帧后缓存到指定内存中，然后切换到下一路视频流，缓存到相应的内存空间中。内部算法功能模块线程需要处理时从相应内存中拷贝到算法内部缓存中，处理完成后将运行结果统一送到事件判定线程做事件最终判定，然后拷贝下一路视频流所在的内存数据，用同样的方式做处理。该模式不仅能够保证算法处理的为当前设备采集的最新数据（视频流实时接收实时切换，轮询的过程即是内存中视频流信息更新的过程），并且每路视频流采集连续N帧，既采集到了实时图片内容，也可以通过连续帧提取视频的运动信息。这种模式下可以保证各路视频都能进行事件检测等算法模块的处理，而且线程较少（和算法功能模块一一对应），方便算法功能的扩展；算法系统较为稳定，计算资源占用大大减少。

2）目标检测：

本发明采用改进的Yolov2算法进行目标检测，该算法为基于深度学习的目前性能较优的目标检测算法，在该检测算法框架中，网络结构采用全卷积方式，在该结构下，输入图像大小不受网络结构的限制。

在Yolov2训练过程中，首先利用设计好的分类网络结构在ImageNet数据集上进行预训练，其次，将该网络结构最后的分类输出层去掉，在最后一个卷积层产生的feature map上，每个单元都会结合anchor信息生成一个向量，其中包括了类别输出信息、回归的坐标信息以及是否为目标的概率，之后设计loss函数并对其进行优化，最后完成模型的训练。loss函数由分类loss1、回归坐标以及是否为前景目标loss2构成，类别loss1同传统分类网络，采用softmax对其进行训练，回归坐标和是否前景目标loss2定义如下：

检测时，输入一帧图像，图像经过一系列卷积、批归一化、池化、非线性映射等操作后，如图1所示，在最后一个卷积层得到多个feature map。

将最后一个卷积层得到的feature map结合anchor信息，在每个单元预测5个边界框，每个边界框预测4个坐标值和一个目标概率值，若单元从图像的左上角偏移(c _x, c _y)，且边界框有先验Pw, Ph（anchor box），则预测为：

b _x=σ(t _x)+c _x

b _y=σ(t _y)+c _y

b _w=p _w e ^tw

b _h=p _h e ^th

如图3所示，其中，σ(.)为非线性映射函数：

不同于faster rcnn框架中使用的固定大小的anchor box，Yolov2中为了充分利用样本的统计特性，采用聚类的方式选取了5个anchor box。训练集边界框上用K-means聚类来自动找好的先验：用标准K-means（欧几里德距离）时，更大的边界框会产生更大的误差。而获得好的IOU分数的先验应与建议框的大小无关。因此，使用如下距离测量：

d(box,centroid)=1−IOU(box,centroid)

3）运动一致性计算：

空间运动一致性的计算公式为：

空间运动目标的平均速度值为：

以上代表速度值，i代表当前图像中的运动目标序号，N代表目标个数，x表示水平方向，y表示竖直方向，这样计算出的OPs代表图像空间上运动一致性的值，并且有Vs代表空间运动目标的平均速度值。

当空间内运动目标处于宏观无序状态时，各运动模块的速度方向和大小差异较大，因此在x方向的速度分量Vix取值有正值也有负值；同理，y方向的速度分量Viy也有正值和负值，各目标在x方向上的速度分量相加后，正负抵消，导致值变小；同理y方向上的速度分量由于正负抵消会导致变小，因此，在宏观无序状态下，运动一致性值OPs取值也会变小。

当空间内运动目标处于宏观有序状态时，各运动模块的速度方向和大小差异不大，所以在x方向或y方向上速度分量不会产生大量的正负相互抵消的情况，根据空间运动一致性值计算公式OPs取值将会为接近1的值。

指数部分当值较大时，OPs的值也会越大，即目标数量（N）越多，越能体现出该空间内的运动状态（OPs变化成指数态，变化越明显）。

时域运动一致性的计算公式为：

时域运动目标的平均速度值为：

同理，在时域中运动一致性的值有同样的规律。

由以上内容可以看出，运动一致性值OP的取值越大，运动越有序；取值越小，运动越无序。

4）事件判定：

本发明用训练好的CNN模型进行事件判定，样本的收集由训练好的Yolov2模型在准备好的原始图片上进行检测，然后按照检测结果将图片和检测信息送入CNN判定模型，得到事件的初步判定结果和得分值。

设为第帧图像的空间运动一致性值，为第i个目标在连续视频帧中的时域运动一致性值；设和为对应的空间和时域运动目标平均速度值。（其中m取值为大于2的偶数）。

步骤1：首先计算被检测帧前后3帧的空间平均速度值，并计算其均值。设定阈值判定目标区域内是否有运动信息。

步骤2：计算步骤1中相应的OPsj，并计算OPsj的均值，并定义

步骤3：在连续视频帧中计算运动区域内每个运动目标的值（代表目标个数），对于的运动目标，计算相应的OPti值，并计算OPti的均值

步骤4：计算分值，设事件判定阈值，得出判定结果

步骤1中，初始化Sm的值，若计算结果，说明当前时刻下场景中无运动信息，根据之后步骤4里的公式可以得出Sm=1，最后分值S值只与Sd有关；步骤2中计算被检测图像帧前后的空间运动一致性均值；步骤3计算目标时域空间一致性均值；由运动一致性的定义可知，一致性值越大运动越规律，那么发生事件的可能性就越小，故在步骤4中设计Sm公式，可准确表达各变量之间的关系，然后计算得到事件判定得分值,最后通过阈值判定是否存在事件，流程结束。

本发明应用中，算法框架设定为轮询模式，循环接入前端视频流，依次对前端视频流进行处理；其次，对于事件检测算法功能模块，采用目标检测和场景识别两步走的模式，先用检测算法对图像中的目标进行定位和分类；根据图像中目标的位置和类别，送入场景识别模块进行事件判定，然后对场景做动态分析，对事件的类别进行判定。总体技术路线如图2所示。

本发明实际应用中可采用如下替代方案，均属于本发明保护的范围：

1. 本发明结合的深度学习检测方法和场景识别方法的技术方案，可替换为结合其他检测方法和场景识别技术方案。

2. 本发明利用时间、空间运动一致性的信息分析城管监控场景下街面秩序事件检测方法可以替换为只依赖时间域或空间域的运动一致性计算方法。

本发明利用运动一致性建立的事件判定模型可替换为其他数学模型来对事件进行判定。

Claims

1.基于深度学习及运动一致性的街面秩序事件视频检测方法，其方法步骤为：

1）算法框架：

算法框架：设定为轮询模式，循环接入前端视频流，采集N帧后缓存到指定内存中，然后切换到下一路视频流，缓存到相应的内存空间中；内部算法功能模块线程需要处理时从相应内存中拷贝到算法内部缓存中，处理完成后将运行结果统一送到事件判定线程做事件最终判定，然后拷贝下一路视频流所在的内存数据，用同样的方式做处理；

2）目标检测：

在Yolov2训练过程中，首先利用设计好的分类网络结构在ImageNet数据集上进行预训练，其次，将该网络结构最后的分类输出层去掉，在最后一个卷积层产生的feature map上，每个单元都会结合anchor信息生成一个向量，其中包括了类别输出信息、回归的坐标信息以及是否为目标的概率，之后设计loss函数并对其进行优化，最后完成模型的训练，loss函数由分类loss1、回归坐标以及是否为前景目标loss2构成，类别loss1同传统分类网络，采用softmax对其进行训练，回归坐标和是否前景目标loss2定义如下：

其中，i指示当前计算单元，j指示当前anchor，x、y表示预测的坐标，w、h表示预测的宽、高，Pw和Ph分别表示anchor宽、高；

检测时，输入一帧图像，图像经过一系列卷积、批归一化、池化、非线性映射等操作后，在最后一个卷积层得到多个feature map；

b _x=σ(t _x)+c _x

b _y=σ(t _y)+c _y

b _w=p _w e ^tw

b _h=p _h e ^th

其中，σ(.)为非线性映射函数：

不同于faster rcnn框架中使用的固定大小的anchor box，Yolov2中为了充分利用样本的统计特性，采用聚类的方式选取了5个anchor box；训练集边界框上用K-means聚类来自动找好的先验：用标准K-means（欧几里德距离）时，更大的边界框会产生更大的误差；而获得好的IOU分数的先验应与建议框的大小无关；因此，使用如下距离测量：

d(box,centroid)=1−IOU(box,centroid)

3）运动一致性计算：

空间运动一致性的计算公式为：

空间运动目标的平均速度值为：

以上v代表速度值，i代表当前图像中的运动目标序号，N代表目标个数，x表示水平方向，y表示竖直方向，这样计算出的OPs代表图像空间上运动一致性的值，并且有Vs代表空间运动目标的平均速度值；

时域运动一致性的计算公式为：

时域运动目标的平均速度值为：

以上v代表速度值，j代表的是连续视频序列的标号，M代表视频帧数，x表示水平方向，y表示竖直方向，这样计算出的OPt值代表图像上某位置目标的时域运动一致性的值，Vt代表时域运动目标的平均速度值；

4）事件判定：

用训练好的CNN模型进行事件判定，样本的收集由训练好的Yolov2模型在准备好的原始图片上进行检测，然后按照检测结果将图片和检测信息送入CNN判定模型，得到事件的初步判定结果和得分值；

计算该视频帧前后N帧图像每相邻两帧的运动矢量，并进行统计分析，计算每相邻两帧该区域的运动熵值，并计算运动一致性值，联合分析CNN判定分值和运动一致性值，最后做出结果判定，具体步骤如下：

设Sd为CNN判定的事件得分值；设Sm为运动一致性分析得到的事件判定得分值；考虑到两种判定方式的互补性质，事件最终分值设为S=Sm*Sd；

设为第j帧图像的空间运动一致性值，为第i个目标在连续视频帧中的时域运动一致性值；设和为对应的空间和时域运动目标平均速度值，其中m取值为大于2的偶数；

步骤1：首先计算被检测帧前后3帧的空间平均速度值，并计算其均值，设定阈值判定目标区域内是否有运动信息；

步骤2：计算步骤1中相应的OPsj，并计算OPsj的均值，并定义

步骤4：计算分值，设事件判定阈值e_threshold，得出判定结果

流程结束。