CN108304808B

CN108304808B - 一种基于时空信息与深度网络的监控视频对象检测方法

Info

Publication number: CN108304808B
Application number: CN201810118845.9A
Authority: CN
Inventors: 钱学明; 汪寒雨; 侯兴松; 邹屹洋
Original assignee: Taizhou Zhibi'an Technology Co ltd; GUANGDONG XI'AN JIAOTONG UNIVERSITY ACADEMY
Current assignee: Taizhou Zhibi'an Technology Co ltd; GUANGDONG XI'AN JIAOTONG UNIVERSITY ACADEMY
Priority date: 2018-02-06
Filing date: 2018-02-06
Publication date: 2021-08-17
Anticipated expiration: 2038-02-06
Also published as: CN108304808A

Abstract

本发明公开了一种基于时空信息与深度网络的监控视频对象检测方法，包括收集、标注数据集，训练深度卷积神经网络；利用训练好的深度神经卷积网络提取鲁棒的多尺度深度特征；在多尺度深度特征上提取运动目标候选区域；根据视频前后帧检测结果预测下一帧目标出现的位置；针对运动目标候选区域和预测候选区域进行RoI归一化并对特征向量进行分类和回归得到初步检测结果；利用运动和预测信息，对得到的初步结果进行微调，进一步精准检测结果。本发明综合考虑了视频中所包含的丰富的时空信息，利用运动和预测大大减少了冗余的候选框，并且解决了单帧检测结果不稳定的问题，与其他基于区域的目标检测检测方法相比，在时间和检测精准度上都有了一定的提升。

Description

一种基于时空信息与深度网络的监控视频对象检测方法

技术领域

本发明属于计算机数字图像处理与模式识别技术领域，特别涉及一种基于时空信息与深度网络的监控视频对象检测方法。

背景技术

如今，城市中的大量摄像头可用于捕获重要区域不间断的视觉监控信息。其为城市的信息化、城市智能交通以及城市安防等起到重要作用。据IMS Research统计，2016年城市监控摄像头出货量达13800万件，每天产生的监控视频数量就达上千PB。目前，监控视频业务步入数据的喷井时代，比如深圳市目前摄像头超134万个，目前深圳市利用摄像头破案已占刑事案件破案总数的50％。如今智能监控系统被广泛应用于各类公共场所，交通监管系统，如何对海量的监控视频进行智能分析，面临着巨大挑战。

监控视频中有用的信息主要是其中的运动目标(主要包括人、车)，然而监控视频的信息量巨大，如何从大量的城市监控视频中快速查询到感兴趣的目标是一个急需解决的问题。而目标检测作为检索的前提发挥着重要的作用。目前，在发生重大事件后，公安人员往往采用人工观看视频、手动查找的方式进行目标的定位搜索。因此，如何避免花费大量的人力手工筛选成为一个亟待解决的问题。除此之外，由于光线、距离、遮挡、复杂背景等因素的影响，传统方法在检测时间和性能上已经不能满足日益增长的需求。

发明内容

本发明的目的是提供一种基于时空信息与深度网络的监控视频对象检测方法，对于监控视频检测出需要的人、车等目标，利用监控视频中丰富的时空信息，精准定位候选区域可能出现的位置，减少候选区域的个数。并且利用深度神经卷积网路，获取鲁棒的多尺度的深度神经卷积特征。本发明方法在减少计算量的同时，大大提高了检测的精准度。

为了实现上述目的，本发明采用如下技术方案：

本发明提供一种基于时空信息与深度网络的监控视频对象检测方法，包括以下步骤：

步骤1：采集监控视频数据，标注监控数据和测试集，并利用训练集训练深度卷积神经网络；

步骤2：对于测试集，利用训练好的深度卷积神经网络框架提取鲁棒的多尺度深度特征；

步骤3：在多尺度深度特征图上提取运动目标候选区域；

步骤4：根据视频前两帧检测结果预测下一帧目标出现的位置；

步骤5：对提取到的运动和预测候选区域进行RoI归一化及分类回归；

步骤6：利用运动与预测信息，对初始检测结果进行微调，进一步精准检测结果。

进一步的，步骤1中收集、标注数据集并训练深度卷积神经网络：利用PASCALVOC0712数据集并且增加收集的部分监控视频数据集用于训练深度神经网；将数据集整合并做成PASCAL VOC的格式；训练的时候主要的步骤包括数据增强转换、分批输入前向传播、计算损失函数、反向传播修改权重、迭代。

进一步的，步骤2中利用训练好的深度卷积神经网络框架提取鲁棒的多尺度深度特征：利用VGG16或者PVANET提取特征的部分提取深度特征；VGG16的卷积层是13层，PVANET是16层；用

表示视频第n帧利用第k层卷积层提取的深度特征，其中i表示卷积层的通道数。为了减小计算量同时为了保持不变性，在进行了3～4次卷积之后往往会进行一次采样操作；经过若干次的采样，获取到的特征图将是多尺度的。前几层的特征图包含更丰富的局部特征，后面提取的特征图包含更丰富的全局特征。

进一步的，步骤3中在多尺度深度特征上提取运动目标候选区域，将提取过程分为粗略运动区域提取和运动目标初始候选区域调整分析两部分；具体步骤是：

3.1)粗略运动目标区域提取，针对步骤2提取得到的多尺度特征图，提取多尺度的运动区域，具体提取过程描述如下：

3.1.1)对相邻两帧之间的对应卷积层的特征图进行帧差，获取不同的尺度特征图上的运动部分:

3.1.2)将同层不同通道的

进行融合并且归一化：

其中m表示第k层通道的个数；

3.1.3)进一步利用形态学滤波方法来减少噪声，增强运动区域，具体步骤是：

(1)利用最大类间差分法(OTSU)区分前景和背景；

(2)利用中值滤波和下采样来滤除独立的噪声点；

(3)膨胀运动区域来加强运动目标；

(4)上采样恢复图像原本的大小；

(5)提取运动区域的边缘，并且用矩形框标出；

(6)将不同尺度的特征图上的运动区域等比例映射回原图得到运动目标初始候选区域；

3.2)运动目标初始候选区域调整分析，流程如图3所示，具体步骤是：

(1)对于每个运动目标初始候选框改变大小，长宽比和框的中心位置，得到转换后的运动区域候选框；采用三个不同的大小、三个不同的长宽比，三个不同的中心位置得到27个调整版的候选框；

(2)将调整后的候选框从原图等比例的映射到最后一个卷积层产生的特征图；

(3)利用max pooling将映射得到的特征块归一化到同一大小：

(4)利用全连接层对归一化后的特征块提取全局特征，得到4096维的特征向量；

(5)将得到的特征向量送进分类层，得到前后背景的置信度；

(6)利用非极大值抑制(none-maximum suppression,NMS)滤除冗余的候选框。

进一步的，步骤4根据视频的时间轴信息对下一帧目标可能出现的位置进行预测，将得分不小于0.5的称为高置信度目标，得分低于0.5并且高于0.3的目标称为低置信度目标，预测具体步骤是：

4.1)高置信度目标位置预测：用P_n,b＝{w_n,b,h_n,b,cx_n,b,cy_n,b}来表示目标的宽、高和中心位置坐标。用第n-1和第n帧的检测结果来预测第n+1帧的结果：

P_(n+1),b＝{w_n,b+Δw_n,b,h_n,b+Δh_n,b,cx_n,b+Δcx_b,cy_n,b+Δcy_b} (3)

其中，Δw_n,b＝w_n,b-w_(n-1),b，Δh_n,b＝h_n,b-h_(n-1),b，Δcx_n,b＝cx_n,b-cx_(n-1),b，Δcy_b＝cy_n,b-cy_(n-1),b。

4.2)低置信度目标位置预测：先根据公式3预测出物体的下一帧将要出现的位置，然后改变大小，长宽比和框的中心位置，得到转换后的预测区域候选框。采用三个不同的大小、三个不同的长宽比，三个不同的中心位置得到27个调整版的预测候选框。

进一步的，步骤5对步骤3和步骤4产生的候选区域进行映射以及大小归一化，并且对全局特征进行分类回归；具体步骤包括：

5.1)等比例将上两个步骤产生候选区域，映射到最后一个卷积层产生的特征图上；

5.2)由于此时产生的特征块大小不同，并且在利用全连接层提取全局特征前需要将特征块归一化到相同的大小，因此利用RoI pooling层将特征块归一化到相同的大小；

5.3)利用两个级联的全连接层得到4096维的特征向量；

5.4)将特征向量分别送进分类层和回归层得到每个候选框的对于每个类别的打分和回归后的四维坐标。

进一步的，利用运动与预测信息，步骤6对步骤5的初步检测结果进行微调，进一步精准检测结果；用

表示运动候选框的检测坐标结果，

表示预测候选框的检测坐标结果；其中，(l_n,t_n)表示目标框的左上角坐标,(r_n,b_n)表示目标框的右下角坐标；具体步骤包括：

6.1)计算运动框和预测的框之间的重叠率O_n,i,j：

6.2)根据得分和重叠率来判断是加强正例还是削弱可能为负例的目标：

6.2.1)如果重叠率大于θ(θ＝0.5)，并且两方中有一方的得分大于t_s(t_s＝0.5)，便调整目标的位置并增强目标的得分：

其中

为第n帧的第j个预测框的得分，

为第n帧的第i个运动框的得分。

6.2.2)如果重叠率大于θ(θ＝0.5)，并且两方的得分都小于t_min(t_min＝0.3)，抑制false positive，降低此目标的得分。

6.2.3)如果重叠率小于0.5，则保持原本框的结果。

相对于现有技术，本发明具有以下有益效果：本发明一种基于时空信息与深度网络的监控视频对象检测方法：收集数据集并训练深度卷积神经网络；通过深度神经网络(VGG16、PVANET)提取鲁棒的多尺度深度特征；充分利用视频中运动信息，提取运动目标候选区域并进行位置调整；对于相邻帧间检测结果不稳定问题，采用预测机制，利用目标出现在时间轴上的信息预测目标下一帧出现的位置；将上面产生的两部分候选区域：运动候选区域和预测候选区域映射到最后一层产生的特征图上，利用RoI pooling对特征块进行归一化；对上面产生的特征块利用全连接层提取全局特征，产生4096维的向量；将4096维的特征向量分别送入分类层和回归层，得到每个类别的得分以及框回归后的坐标；利用运动信息和预测信息进行初步结果的融合与调整，进一步增强true positive并且抑制falsepositive。本发明利用视频中丰富的时空信息，有效的提取精准的候选区域，减少冗余候选区域数量，对监控视频中常见目标进行检测分析，降低计算的复杂度，并提高检测的性能，为目标检索创造一个好的前提。并且对远处的小目标和部分遮挡问题也有了一定的改善。除此之外，本发明可以应用于所有基于区域的目标检测算法，并取得一定的性能提升。

附图说明

下面结合附图和实施例对本发明进一步说明：

图1是本发明一种基于时空信息与深度网络的监控视频对象检测方法的流程图；

图2是粗略运动目标候选区域提取流程示意图；

图3是运动目标初始候选区域调整的流程示意图；

图4是基于置信度的目标预测的示意图；

图5初步检测结果的调整流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施用于说明本发明，但不用来限制本发明的范围。

如图1所示，本实施例基于时空信息与深度网络的监控视频对象检测方法，包括深度特征提取、运动目标候选框与预测候选框的产生和RoI分类与位置调整三个大部分。本发明可以采用不同的深度神经网络提取多尺度的深度特征，本实例分别采用了VGG16网络和PVANET提取特征的部分。VGG有13个卷积层和5个max-pooling层，利用这13个卷积层的输出结果来作为运动目标候选区域产生部分的输入。同样的，PVANET特征提取部分有16个卷积层，利用这16个卷积层的输出结果来作为运动目标候选区域产生部分的输入。

运动目标候选框与预测候选框的产生可以分为运动目标和预测两大部分。其中，可以将运动目标候选区域产生分为粗略运动区域提取和运动目标初始候选区域调整两个部分。如图2所示，粗略运动目标区域提取分为帧差、融合和形态学滤波三个部分。首先，比如VGG16中，对13层逐层做相邻帧间特征图的帧差，根据公式1得到

(第n帧第k卷积层的第i通道)。接下来，为综合不同特征图所获得运动区域之间的差异性，将根据公式2综合不同通道的

进行融合并归一化得到ΔF_k,n。然后是对获得的ΔF_k,n进行形态学滤波：a.利用最大类间法(OTSU)区分前景和背景，得到二值图像；b.利用3*3的二维模板对得到的二值图像进行中值滤波并且将图像下采样为原图像的1/2大小，滤除一个不连续的孤立的噪声点；c.为了突出运动目标，增强运动目标像素之间的连续性，采用3*3的核对运动目标进行膨胀；d.为了恢复原图大小对图像进行2倍的上采样；e.提取目标边缘，并用矩形框标出；f.将从不同尺度特征图上提取的运动区域等比例映射回原图得到运动目标初始候选区域。

图3是运动目标初始候选区域调整的流程示意图。得到运动目标初始区域后，调整包括以下操作：1)对每个运动目标初始候选区域进行调整，采用(1，0.41，2)三个不同的长宽比，(0.5，1，2)倍三个不同的目标面积，以及以左上坐标、目标中心、右下坐标为基准调整框的位置。这样将得到27个调整后的框；2)将扩展后的候选框从原图映射到最后一个卷积层上，在VGG16中即为Conv5-3层；3)由于在进入全连接层前特征快的大小需要固定，所以利用max pooling对特征快进行下采样到相同大小(7*7)；4)将得到的归一化后的特征块送入两个级联的全连接层，每个全连接层输出的都是4096维的特征向量；5)将得到的4096维向量输入到分类层(全链接)得到一个三维向量：人、车、背景三类对应的得分；6)利用非极大值抑制(NMS)来滤除冗余重叠的框，其中重叠率设为0.3。

图4是基于置信度的目标预测的示意图。用P_n,b＝{w_n,b,h_n,b,cx_n,b,cy_n,b}来表示目标的宽、高和中心位置坐标。用第n-1和第n帧的检测结果来预测第n+1帧的结果(n>2)。第一帧和第二帧采用逐像素点提取候选区域的方法，从第三帧开始根据目标的得分将目标分为高置信度的目标和低置信度的目标。定义t_s为区分高低置信度的阈值。根据表1参数讨论，最后选取为t_s＝0.5区分高置信度与低置信度。将相邻两帧目标的移动轨迹看为线性运动，所以对于高置信度目标，根据公式3可以预测得到目标在n+1帧出现的位置。而低置信度的目标，需要设置一个下限阈值来滤除不相关的框，根据表2的参数讨论结果，选取t_min＝0.3。由于可能存在框的位置不精准的问题，在预测完位置之后，还需要对位置进行一个调整，即用(1，0.41，2)三个不同的长宽比，(0.5，1，2)倍三个不同的目标面积，以及以左上坐标、目标中心、右下坐标为基准调整框的位置。这样将得到27个调整后的框。

表1t_s参数讨论(AVSS数据集)

t<sub>s</sub>	0.1	0.3	0.5	0.7	0.9
						AP	88.37％	88.49％	88.80％	88.49％	88.52％

表2：t_min参数讨论(AVSS数据集)

t<sub>min</sub>	0.1	0.2	0.3	0.4
					AP	88.71％	88.76％	88.80％	87.15％

在得到了运动目标候选区域和预测候选区域后，将他们映射到最后一个卷积层输出的特征图上，然后利用max pooling归一化到7*7大小的特征块，接着，利用两个全连接层即可得到4096维特征向量。将这个4096维的向量分别输入到两个并行的全链接层中即可得到3维的分类结果向量和4为的回归坐标向量。

图5是初始检测结果调整的流程示意图。可以利用运动信息和预测信息对初始结果进行进一步的微调。具体可以以下几步：1)根据公式4计算重叠率；2)判断重叠率，若重叠率大于θ(θ＝0.5)进入下一层的判断，若与所有框的重叠率都小于0.5，认为是两部分的互补部分，保留原框结果；3)当重叠率大于0.5时，则根据两个框的得分来判断；若两方中有一方的得分大于t_s(t_s＝0.5)便根据公式6～9调整目标的位置并增强目标的得分。若两方的得分都小于t_min(t_min＝0.3)，根据公式10对结果进行抑制。

下面给出实验结果分析：

实验结果分析采用PASCAL VOC数据集的标准-平均精准度：

其中

是在召回率为

时的精准度。

本发明一种基于时空信息与深度网络的监控视频对象检测方法简称为MPNET，其中基于Faster R-CNN的称为MPNET(Faster R-CNN)，基于PVANET的称为MPNET(PVANET)。YOLO9000,SSD300,SSD512,PVANET,Faster R-CNN都是最近提出的目标检测方法；

1.车辆检测对比实验

1.1)AVSS数据集:从表3可以看，本发明方法比其他方法的性能好。相比于FasterR-CNN，方法的平均精准度提高了9.83％。相比于PVANET，方法的平均精准度提高了2.34％。并且取得了最优平均精准度(AP)。除此之外，相比于Faster R-CNN和PVANET时间也都略有提升。

表3AVSS数据集上的车辆检测结果

Methods	AP	Time
			Yolo9000	39.39％	0.03s
SSD300	62.69％	0.03s
			SSD512	73.08％	0.09s
Faster R-CNN	41.17％	0.17s
			MPNET(Faster R-CNN)	51.00％	0.15s
PVANET	86.46％	0.19s
			MPNET(PVANET)	88.80％	0.16s

2.行人检测对比实验

2.1)CUHK数据集：从表4可以看出本发明比其他方法的性能好。相比于Faster R-CNN，方法的平均精准度提高了4.32％。相比于PVANET，方法的平均精准度提高了18.33％。并且取得了最优平均精准度(AP)。除此之外，相比于Faster R-CNN和PVANET时间也都略有提升。

表4CUHK数据集上的行人检测结果

Methods	AP	Time
			YOLO9000	26.85％	0.03s
SSD300	53.79％	0.03s
			SSD512	59.79％	0.07s
PVANET	46.80％	0.167s
			MPNET(PVANET)	65.13％	0.152s
Faster R-CNN	63.10％	0.19s
			MPNET(Faster R-CNN)	67.42％	0.18s

2.2)XJTU数据集：XJTU数据集是由西安交通大学Smiles LAB采集的监控视频数据集。从表5可以看出本发明方法比其他方法的性能好。相比于Faster R-CNN，方法的平均精准度提高了2.15％。相比于PVANET，方法的平均精准度提高了0.37％。并且取得了最优平均精准度(AP)。除此之外，相比于Faster R-CNN和PVANET时间也都略有提升。表5XJTU数据集上的行人检测结果

Methods	AP	Time
			Yolo9000	33.09％	0.015s
SSD300	52.02％	0.05s
			SSD512	58.91％	0.09s
Faster R-CNN	47.59％	0.28s
			MPNET(Faster R-CNN)	49.74％	0.26s
PVANET	75.52％	0.207s
			MPNET(PVANET)	75.95％	0.191s

Claims

1.一种基于时空信息与深度网络的监控视频对象检测方法，其特征在于，包括以下步骤：

步骤1：采集监控视频数据，标注训练集和测试集，并利用训练集训练深度卷积神经网络；

步骤3：在多尺度深度特征图上提取运动目标候选区域；

步骤4：根据视频前两帧检测结果预测下一帧目标将出现的位置；

步骤5：对提取到的运动和预测候选区域进行RoI归一化及分类回归，得到初步检测结果；

步骤6：利用运动与预测信息，对初始检测结果进行微调，进一步精准检测结果；

步骤3中，利用视频中丰富的运动信息在多尺度深度特征上提取运动目标候选区域，其中包括：粗略运动目标区域提取和运动目标初始候选区域调整分析；粗略运动目标区域提取包含以下步骤：

1)对相邻两帧之间对应卷积层的特征图进行帧差，获取不同尺度的特征图上的运动部分:

表示视频第n帧利用第k层卷积层提取的深度特征，其中i表示卷积层的通道数；

2)将同层不同通道的

进行融合并且归一化：

其中m表示第k层通道的个数；

3)进一步利用形态学滤波方法来减少噪声，增强运动区域，具体步骤是：

a.利用最大类间差分法区分前景和背景；

b.利用中值滤波和下采样来滤除独立的噪声点；

c.膨胀运动区域加强运动目标；

d.上采样恢复图像原本的大小；

e.提取运动区域的边缘，并且用框出；

f.将不同尺度的特征图上的运动区域等比例映射回原图得到运动目标初始候选区域；

针对运动目标初始候选区域调整分析，包括以下步骤：

1)对于每个运动目标初始候选框改变大小，长宽比和框的中心位置，得到转换后的运动区域候选框；即采用1，0.41，2三个不同的长宽比，0.5，1，2倍三个不同的目标面积，以及以左上坐标、目标中心、右下坐标为基准调整框的位置，得到27个调整后的框；

2)将调整后的候选框从原图等比例的映射到最后一个卷积层产生的特征图；

3)利用max pooling将映射得到的特征块归一化到同一大小：

4)利用全连接层对归一化后的特征块提取全局特征，得到4096维的特征向量；

5)将得到的特征向量送进分类层，得到前后背景的置信度；

6)利用非极大值抑制滤除冗余的候选框。

2.如权利要求1所述的一种基于时空信息与深度网络的监控视频对象检测方法，其特征在于，步骤1中，采集不同场景和不同姿态角度的行人、车辆监控视频数据集，一部分标注制作成训练集，一部分作为测试集；采用训练集对设计的深度卷积神经网络进行训练；训练深度卷积神经网络分为行人、车辆、背景三个类别。

3.如权利要求1所述的一种基于时空信息与深度网络的监控视频对象检测方法，其特征在于，步骤2中利用训练好的深度卷积神经网络框架提取鲁棒的多尺度深度特征：利用VGG16或者PVANET提取特征的部分进行前向传播提取深度特征；在进行了3～4次卷积之后进行一次采样操作；经过若干次的采样，获取多尺度特征图。

4.如权利要求1所述的一种基于时空信息与深度网络的监控视频对象检测方法，其特征在于，步骤4中，根据视频前两帧检测结果预测下一帧目标出现的位置：将得分不小于0.5的称为高置信度目标，得分低于0.5并高于0.3的目标称为低置信度目标；用P_n,b＝{w_n,b,h_n,b,cx_n,b,cy_n,b}来表示目标的宽、高和中心位置坐标；用第n-1和第n帧的检测结果来预测第n+1帧的目标可能出现的位置；对于高置信度目标的第n+1帧位置P_(n+1),b预测：

P_(n+1),b＝{w_n,b+Δw_n,b,h_n,b+Δh_n,b,cx_n,b+Δcx_b,cy_n,b+Δcy_b} (3)

其中，Δw_n,b＝w_n,b-w_(n-1),b，Δh_n,b＝h_n,b-h_(n-1),b，Δcx_b＝cx_n,b-cx_(n-1),b，Δcy_b＝cy_n,b-cy_(n-1),b；

针对低置信度目标的第n+1帧位置预测，先根据公式(3)预测出物体的下一帧将要出现的位置，然后改变大小，长宽比和框的中心位置，得到转换后的预测区域候选框，即用1，0.41，2三个不同的长宽比，0.5，1，2倍三个不同的目标面积，以及以左上坐标、目标中心、右下坐标为基准调整框的位置。

5.如权利要求1所述的一种基于时空信息与深度网络的监控视频对象检测方法，其特征在于，步骤5中，对提取到的运动和预测候选区域进行RoI归一化及分类回归：得到了运动目标候选区域和预测候选目标区域之后，首先等比例将候选区域映射到最后一个卷积层产生的特征图上；由于此时产生的特征块大小不同，而用全连接层提取全局特征前要将特征块归一化到相同的大小，因此利用RoIpooling层将特征块归一化到相同的大小；然后，将得到的特征块利用两个全连接层得到4096维的特征向量，然后将特征向量分别送进分类层和回归层得到每个候选框的对于每个类别的打分和回归后的四维坐标。

6.如权利要求1所述的一种基于时空信息与深度网络的监控视频对象检测方法，其特征在于，步骤6中，利用运动与预测信息，对初始检测结果进行微调，进一步精准检测结果：用