CN110348329A

CN110348329A - 基于视频序列帧间信息的行人检测方法

Info

Publication number: CN110348329A
Application number: CN201910549369.0A
Authority: CN
Inventors: 邹见效; 向伟; 周雪; 徐红兵
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2019-10-18
Anticipated expiration: 2039-06-24
Also published as: CN110348329B

Abstract

本发明公开了一种基于视频序列帧间信息的行人检测方法，构建Faster R‑CNN网络作为行人检测模型，在Faster R‑CNN网络的RPN网络中，在初步筛选得到的行人候选框集合中加入上一帧视频图像的行人检测结果集合，然后采用软化非极大值抑制Soft‑NMS方法对新的行人候选框集合中的行人候选框进行处理，重置各个行人候选框的置信度；在对视频序列进行行人检测时，设置第1帧视频图像的上一帧视频图像的行人检测结果集合为空，后续视频图像根据上一帧行人检测结果得到上一帧视图图像的行人检测结果集合。本发明通过引入视频序列中的时间上下文信息，提高行人检测准确率。

Description

基于视频序列帧间信息的行人检测方法

技术领域

本发明属于计算机视觉技术领域，更为具体地讲，涉及一种基于视频序列帧间信息的行人检测方法。

背景技术

二十世纪以来，随着科技的高速发展，利用现代高科技的手段进行社会公共安全的维护、公安部门刑事案件的侦破等已经成为一种重要方式。而随着“平安校园”、“智慧城市”等一些社会安防项目的实施，视频监控系统逐渐普遍应用于交通、教育、商业以及公安等领域。在交通领域，用于进行超速、闯红灯等违章行为的记录和取证。在教育领域，用于考试作弊等行为的监控。在商业领域，在一些超市、商店中，可以进行商品的防扒窃行为监控等。在公安领域，智能监控系统可用于协助案件侦破。而与我们生活息息相关的家用领域，视频监控也无处不在。各大厂商相继退出了智能相机和家用的视频监控设备，利用远程监控来维护私人家庭、住宅小区等的房屋财产和人员安全，减少了入室盗窃、毁坏公共设施等不法行为。

行人检测是视频监控中最基础的任务，它是指在图像或者视频中检测出当中的行人，并获得其准确的中心位置和尺寸。行人检测具有很多潜在的应用前景，如智能视频监控、图像标注、人机交互、行为分析和图像检索等。由于行人姿态和穿着各异，且常受到光照变化和复杂背景的干扰，使得实际场景下的检测任务具备一定的挑战性。行人检测问题属于目标检测的范畴，可以非常方便地进行迁移学习，目前国内外比较流行的行人检测算法正是沿用了基于深度学习的目标检测方法。

近几年来随着深度学习的兴起，通用目标检测领域涌现出了一大批优秀的算法，代表性例如Faster R-CNN网络，详细请参考文献：Ren S,He K,Girshick R,et al.FasterR-CNN:Towards Real-Time Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2015,39(6):1137-1149。这类算法的共同特点是利用卷积神经网络自动地学习特征，然后分别用两个子网络进行目标的分类和位置回归。基于深度学习的这类方法可以进行端到端的训练，在训练数据量充足的情况下，其检测效果相较于传统法方具有较大的突破。但Faster R-CNN网络是基于单帧图的目标检测框架，而在视频目标检测领域，基于视频的研究或者针对监控场景的目标检测方法明显少见，目前仅有少数研究工作利用视频的光流信息来训练检测器。例如有的研究人员聚焦于视频序列中的关键帧，提取出关键帧的特征后通过轻量级特征流网络将特征流传播到相邻帧中，显着加快了视频目标检测的过程，详细请参考文献：X.Zhu,Y.Xiong,J.Dai,et al.Deep Feature Flow for Video Recognition[J].ComputerVision&Pattern Recognition,2016。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于视频序列帧间信息的行人检测方法，通过引入视频序列中的时间上下文信息，提高行人检测准确率。

为实现上述发明目的，本发明基于视频序列帧间信息的行人检测方法包括以下步骤：

S1：构建Faster R-CNN网络作为行人检测模型，Faster R-CNN网络包括基础特征提取网络，RPN网络、感兴趣区域池化网络和分类回归网络，其中：

基础特征提取网络用于对输入图像进行特征提取得到特征图；

RPN网络用于根据特征图生成行人候选框，具体方法为：首先生成若干锚框，得到每个锚框的置信度和回归偏移量，计算得到行人候选框，剔除太小和超出边界的行人候选框，得到行人候选框集合α，设置上一帧视频图像的每个行人检测结果置信度ρ，将上一帧视频图像的行人检测结果集合β加入初步筛选的行人候选框集合α，即α＝α∪β，然后采用软化非极大值抑制Soft-NMS方法对行人候选框集合α中的行人候选框进行处理，重置各个行人候选框的置信度；

感兴趣区域池化网络用于根据RPN网络生成的各个行人候选框信息，映射至基础特征提取网络输出的特征图上，对特征图中的对应区域进行池化操作，得到固定大小输出的池化结果，从而得到各个行人候选框的特征图；

分类回归网络用于计算每个行人候选框属于行人或非行人的概率，并再次获得每个行人候选框的位置偏移量，进行回归计算得到行人检测框，再将得到的所有行人检测框经过软化非极大值抑制Soft-NMS方法进行筛选，得到最终的行人检测结果；

S2：对于行人视频序列中的第1帧图像，令上一帧视频图像的行人检测结果集合β为空，采用步骤S1构建的Faster R-CNN网络对第1帧图像进行行人检测，得到行人目标检测结果，将当前帧的行人目标检测结果集合作为新的行人检测结果集合β；

S3：对于行人视频序列中的第t帧图像，t＞1，结合上一帧视频图像的行人检测结果集合β，采用步骤S1构建的Faster R-CNN网络对第t帧图像进行行人检测，得到行人目标检测结果，将当前帧的行人目标检测结果集合作为新的行人检测结果集合β；直到行人视频序列结束。

本发明基于视频序列帧间信息的行人检测方法，构建Faster R-CNN网络作为行人检测模型，在Faster R-CNN网络的RPN网络中，在初步筛选得到的行人候选框集合中加入上一帧视频图像的行人检测结果集合，然后采用软化非极大值抑制Soft-NMS方法对新的行人候选框集合中的行人候选框进行处理，重置各个行人候选框的置信度；在对视频序列进行行人检测时，设置第1帧视频图像的上一帧视频图像的行人检测结果集合为空，后续视频图像根据上一帧行人检测结果得到上一帧视图图像的行人检测结果集合。本发明通过引入上一帧行人检测结果，将针对单帧静态图的Faster R-CNN网络应用于视频序列的行人检测中，利用视频序列中的时间上下文信息，提高对于视频序列中存在的遮挡、背景干扰等问题的处理能力，提高行人检测准确率。

附图说明

图1是本发明基于视频序列帧间信息的行人检测方法的一种具体实施方式流程图；

图2是RPN网络的结构图；

图3是本发明中Faster R-CNN网络进行行人检测的流程示意图；

图4是本实施例中对比方法在MOT16-02数据集上的部分检测结果图；

图5是本实施例中本发明在MOT16-02数据集上的部分检测结果图

图6是本实施例中对比方法在MOT16-09数据集上的部分检测结果图

图7是本实施例中本发明在MOT16-09数据集上的部分检测结果图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明基于视频序列帧间信息的行人检测方法的一种具体实施方式流程图。如图1所示，本发明基于视频序列帧间信息的行人检测方法的具体步骤包括：

S101：构建Faster R-CNN网络：

本发明中采用Faster R-CNN网络作为行人检测模型，包括Faster R-CNN网络包括基础特征提取网络，RPN(Region Proposal Network，区域生成网络)网络、感兴趣区域池化网络ROI Pooling和分类回归网络。

基础特征提取网络用于对输入图像进行特征提取得到特征图，具体为使用一组基础的卷积层、ReLU激活函数和池化层提取输入图像的特征图，这些特征图被后续的RPN网络和分类回归网络共享。

RPN网络用于根据特征图生成行人候选框Proposal。图2是RPN网络的结构图。如图2所示，RPN网络实际可以分为上下两条线，上面一条通过softmax对锚框anchors进行分类获得置信度，即锚框属于前景和背景(行人是前景)的概率，下面一条用于计算锚框anchors的回归偏移量，以获得精确的行人候选框。而最后的proposal层则负责综合锚框anchors的置信度(即anchors为前景也就是行人的概率)和回归偏移量来计算得到行人候选框，同时剔除太小和超出边界的行人候选框，得到初步筛选的行人候选框集合α，再对行人候选框集合α中的行人候选框采用非极大值抑制NMS方法剔除重复度较高的行人候选框，将得到的行人候选框集合输出至感兴趣区域池化网络ROI Pooling。

为了使视频序列行人检测更加准确，本发明中在RPN网络工作过程中引入了上一帧视频图像所获取的行人信息，具体方法如下：记上一帧视频图像的行人检测结果集合β，记各个行人目标框pb(n)＝[P_x(n),P_y(n),P_w(n),P_h(n)]，n＝1,2,…,N，N表示上一帧视频图像中行人目标数量，P_x(n)和P_y(n)表示第n个行人目标框的中心点横坐标和纵坐标，P_w(n)和P_h(n)表示行人目标框的宽和高。为了使上一帧视频图像的行人检测结果可以和当前帧的行人候选框结合，需要设置上一帧视频图像的每个行人检测结果置信度ρ，经过多次实验，当取ρ为0.9时实验效果最好。将上一帧视频图像的行人检测结果集合β加入初步筛选的行人候选框集合α，即α＝α∪β，然后采用软化非极大值抑制Soft-NMS方法对行人候选框集合α中的行人候选框进行处理。

软化非极大值抑制Soft-NMS方法的作用在于当多个行人候选框在同一个行人目标所在区域上生成的时候，减少重复的候选框，其具体步骤包括：

1)根据置信度从大到小对锚框进行排列，得到一个降序的行人候选框列表b。

2)从候选框列表中最大的置信度对应的候选框开始，依次计算该候选框b₁与列表中其他候选框b_i(i＝2,3...)的交并比IoU，若IoU大于等于设定阈值N_t，则将候选框b₁对应的置信度s₁降低，公式如下：

遍历完b后，将b₁从b中取出存入b′中。

3)在剩下的b中重复第二步，直至b中所有行人候选框都完成筛选，所得b₁就是经过Soft-NMS后的候选框列表。

在传统的非极大值抑制NMS方法中，当任意行人候选框与当前最大置信度行人候选框之间的交并比大于等于阈值时，直接将该候选框的置信度置0，相当于剔除该候选框，在遮挡较大的情况下，就相当于漏检了一个目标，那么检测精度就下降了。而在软化非极大值抑制Soft-NMS方法中，当任意行人候选框与当前最大置信度行人候选框之间的交并比大于等于阈值时，将该行人候选框的置信度赋予一个较小值而不是置0，将其置信度降低而不是直接剔除，那么该框还有进一步被召回的可能性，整体的准确度就提升了。

本发明将传统的非极大值抑制NMS方法替换为软化非极大值抑制Soft-NMS方法，一来可以增强本发明解决较大遮挡的能力，提高行人检测准确度，二来由于本发明中引入了上一帧行人检测结果，由于两帧间行人目标位置相差不会太大，上一帧行人目标框与当前帧行人候选框之间会存在较大重叠，如果采用传统非极大值抑制NMS方法，上一帧行人目标框很有可能被剔除掉，难以产生应有的作用。

感兴趣区域池化网络ROI Pooling用于根据RPN网络生成的各个行人候选框信息，映射至基础特征提取网络输出的特征图上，对特征图中的对应区域进行池化操作，得到固定大小输出的池化结果，从而得到各个行人候选框的特征图。

分类回归网络用于计算每个行人候选框属于行人或非行人的概率，并再次获得每个行人候选框的位置偏移量，进行回归计算得到行人检测框，再将得到的所有行人检测框经过软化非极大值抑制Soft-NMS方法进行筛选，得到最终的行人检测结果。

图3是本发明中Faster R-CNN网络进行行人检测的流程示意图。如图3所示，本发明中将上一帧的行人检测结果输入RPN网络中，采用软化非极大值抑制Soft-NMS方法进行处理，再经后续网络处理，即可得到当前帧的行人检测结果。

S102：首帧图像行人检测：

对于行人视频序列中的第1帧图像，令上一帧视频图像的行人检测结果集合β为空，采用步骤S101构建的Faster R-CNN网络对第1帧图像进行行人检测，得到行人目标检测结果，将当前帧的行人目标检测结果集合作为新的行人检测结果集合β。

S103：后续图像行人检测：

对于行人视频序列中的第t帧图像，t＞1，结合上一帧视频图像的行人检测结果集合β，采用步骤S101构建的Faster R-CNN网络对第t帧图像进行行人检测，得到行人目标检测结果，将当前帧的行人目标检测结果集合作为新的行人检测结果集合β；直到行人视频序列结束。

为了更好地说明本发明的技术效果，采用一个公开数据集MOT16数据集与DukeMTMC数据集对本发明进行实验验证。本次实验验证中，将基于传统Faster R-CNN网络的行人检测方法作为对比方法与本发明方法进行检测结果对比。本次实验验证中的评价指标采用AP值，即PR曲线坐标图中PR曲线下的面积之和，AP值越大说明算法性能越好。表1是本实施例中本发明和对比方法对MOT16数据集的检测性能对比表。

表1

从表1可以看出，本发明基于视频序列帧间信息的行人检测方法相比于对比方法在对三个数据集进行行人检测时有较高的准确率，在解决行人检测过程中产生的背景干扰、遮挡等问题时有一定的效果。

图4是本实施例中对比方法在MOT16-02数据集上的部分检测结果图。图5是本实施例中本发明在MOT16-02数据集上的部分检测结果图。图6是本实施例中对比方法在MOT16-09数据集上的部分检测结果图。图7是本实施例中本发明在MOT16-09数据集上的部分检测结果图。如图4至图7所示，在连续图像帧中当有遮挡和背景干扰等情况发生时，本发明方法结合了前帧的检测信息，在应对遮挡背景干扰情况时始终检测正确，未出现漏检情况，整体检测性能明显优于对比方法。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于视频序列帧间信息的行人检测方法，其特征在于，包括以下步骤：

分类网络用于计算每个行人候选框属于行人或非行人的概率，并再次获得每个行人候选框的位置偏移量，进行回归计算得到行人检测框，再将得到的所有行人检测框经过软化非极大值抑制Soft-NMS方法进行筛选，得到最终的行人检测结果；

S3：对于行人视频序列中的第t帧图像，t＞1，结合上一帧视频图像的行人检测结果集合β，采用步骤S1构建的Faster R-CNN网络对第t帧图像进行行人检测，得到行人目标检测结果，将当前帧的行人目标检测结果集合作为新的行人检测结果集合α；直到行人视频序列结束。

2.根据权利要求1所述的基于视频序列帧间信息的行人检测方法，其特征在于，所述置信度ρ＝0.9。