CN107016357B

CN107016357B - 一种基于时间域卷积神经网络的视频行人检测方法

Info

Publication number: CN107016357B
Application number: CN201710177973.6A
Authority: CN
Inventors: 胡永利; 冯乐乐; 孙艳丰; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-03-23
Filing date: 2017-03-23
Publication date: 2020-06-16
Anticipated expiration: 2037-03-23
Also published as: CN107016357A

Abstract

本发明一种基于时间域卷积神经网络的行人检测方法，将针对单幅图像的行人检测方法扩展为针对连续帧图像，训练卷积神经网络学习单幅视频帧上的空间关联性和连续帧之间的时间关联性，弥补了现有方法在检测被遮挡的行人上的不足。此外，采用时间域卷积神经网络进行的行人检测，对行人的姿势变化更加鲁棒，整体的检测精确度和召回率均有提升。

Description

一种基于时间域卷积神经网络的视频行人检测方法

技术领域

本发明属于智能视频监控领域，涉及一种基于时间域卷积神经网络的行人检测方法，特别适用于从视频中检测行人。

背景技术

随着科技的发展和人民对于安防的日益重视，传统的视频监控系统已经越来越难以满足人们的需求。未来视频监控系统将向着数字化、自动化、智能化发展。不仅仅是传输监控画面，更要能检测并分析画面中的行人。本项目致力于研究智能视频监控系统发展中的关键技术——行人检测技术。

现有的针对彩色图的行人检测，基本上可以分为两大类：基于背景建模的方法和基于统计学习的方法。前者是通过算法对背景进行建模，再将当前画面与背景进行比较，从而判断图像上每个像素究竟属于前景物体还是背景。这种方法简单可行，但局限很大，难以应对复杂环境下的干扰。后者[4,5,6,7]则是利用事先标记好的行人样本去训练分类器，提取出行人独有的特征，再去在图像中进行遍历，找出符合这些特征的位置，判断是否存在行人。这些方法能在一定程度上应对环境的变化，但它们往往计算效率不佳。

深度卷积神经网络[1,2,3,9,10,11,12,13,14]是近年来在计算机视觉领域引起热潮的技术。它模拟人类的神经系统的运作原理，让计算机自动从数百万乃至数千万的特征表示中提取出有效的特征并加以组合。

深度卷积神经网络主要由两大部分组成：卷积层和全连接层。每个大层都分别由更小的若干层甚至数十层组成。神经网络方法通常分别为两步：训练和测试。训练步骤中，向神经网络中输入大量的训练样本和对应的标签，让神经网络通过多轮的迭代，学习如何将样本分类。而测试则输入不带标签的样本，输入该样本的预测标签，以此来衡量神经网络的精确度。

神经网络的基本组成单元为神经元，结构如图1所示：

其对应公式如下：

x为原始图像或者上一层的输出结果，以矩阵形式来表示。x_i为x中的元素，在图像中即为像素值。W是参数矩阵，矩阵中每一个元素W_i为x_i对应的参数(有些文献中称为权重)。b是惩罚项。h_w，b(x)表示该神经元的输出结果。

在图像处理领域，这个公式可以理解为，输入一张图像或者一个矩阵，对其中每个元素都乘以一个参数，相加后再加上惩罚项，作为输出，如下图2所示。通过调整参数矩阵中W_i的值，h_w，b(x)可以用来近似人工设计的特征。

将大量的神经元组合起来并分成若干层时，就成为了神经网络。通常把这种最经典的神经网络结构称为全连接神经网络，因为每一个神经元都要接受上一层的全部输出，结构如图3所示：

其对应的公式如下：

x为输入图像或者上一层的输出。a为单个神经元的输出，W为每个神经元的参数矩阵，b为每一层的惩罚项。h_w，b(x)是整个正经网络的输出。在图像处理领域，神经网络可以视为把输入图像用很多歌神经元分别进行加权计算，把最终结果再乘以参数后相加，得到最终的结果。本发明把接受同一组输入的诸多神经元视为一层，称之为隐藏层。神经网络的理论证明，包含一个隐藏层的神经网络，就可以用来逼近任何人工设计的特征。

如果在这个隐藏层之后再加上一些神经元，把这个隐藏层的输出当做新神经元的输入数据，则构成了一个含有两个隐藏层的神经网络。以此可以类推到含有更多的神经元和隐藏层的神经网络模型。

卷积神经网络是神经网络的一种特殊形态，比经典的神经网络更加适用于图像处理。由于神经网络存在参数数量过于庞大，难以收敛的弊端，卷积神经网络便对此进行了三大改良——局部感受野、权值共享和多卷积核，降低了参数数量的同时，还进一步提升了神经网络的效果。

局部感受野，是指每一个卷积神经元(也被称之为卷积核)不再接受上一层的全部输出，而是只接受一部分。这是因为在图像中，像素之间并非独立，而是存在空间上的关联性。对于一个像素点，它周围的像素与之关系紧密，而远处的像素点则关系不大。因而，每个神经元只需要对图像中的局部区域进行感知，再到更高层把局部信息统合起来，就得到了全局信息。

权值共享，指的是本发明认为图像中某一部分的统计特征，与其他部分是一样的，于是就可以用同一组权值，去感知图像中的各个区域，而不必根据位置的变化而改变权值。权值共享极大地减少了神经网络中的参数数量，使得训练阶段速度更快更容易收敛。

多卷积核，指的是每一层都包含若干个卷积神经元，即卷积核。因为担心一个卷积神经元提取的特征不足以表示图像上的信息，因而设置数十个乃至数百个权值不同的卷积神经元，从而可以提取出多个特征，再将这些特征予以组合，又能得到新的特征。

而在行人检测领域，目标不仅仅是判断图像中是否有行人，更要标注出每个行人所在的位置。传统的卷积神经网络专注于“给图像分类”这一领域，难以实现标注行人位置的功能。2014年由Ross Girshick提出的R-CNN方法[1]在此领域做出了开创性的工作。它将行人检测问题分割为“定位+分类”两个问题。首先在图像上生成大小、长宽比各不相同的局部区域，称为“候选区域”，然后将这些候选区域作为神经网络的输入，训练神经网络对这些候选区域进行分类，输出存在行人的置信系数。在后续的改良方法Fast RCNN[2]和FasterRCNN[3]中，更是把生成候选区域和区域微调的步骤整合到了神经网路中。

现有的行人检测方法，把每一帧画面都当作独立的图片进行处理，忽视了视频帧之间的关联性。因而经常会出现在这一帧检测出的行人，到了下一帧，行人的姿态发生变化，或者被其他物体遮挡，就检测不出来的现象。对于视频而言，每一帧图像都不是独立的，图像上行人的位置和变化，都存在关联性。因此，把现有的针对单幅图像的行人检测方法直接应用到视频上，会出现检测框时断时续，不连贯的现象，对后续的行人跟踪、行人识别、动作识别等功能造成影响。而行人检测技术作为智能视频监控当中最基础的一环，它的检测精度和速度将直接影响整个智能视频监控系统的效果。

参考文献：

[1]Girshick R,Donahue J,Darrell T,et al.Rich Feature Hierarchies forAccurate Object Detection and Semantic Segmentation[C].computer vision andpattern recognition,2014:580-587.

[2]Girshick R.Fast R-CNN[C].international conference on computervision,2015:1440-1448.

[3]Ren S,He K,Girshick R,et al.Faster R-CNN:Towards Real-Time ObjectDetection with Region Proposal Networks[J].IEEE Transactions on PatternAnalysis and Machine Intelligence,2015:1-1.

[4]Benenson R,Mathias M,Timofte R,et al.Pedestrian detection at100frames per second[J].2012:2903-2910.

[5]Dollár P,Tu Z,Perona P,et al.Integral Channel Features[C]//BritishMachine Vision Conference,BMVC 2009,London,UK,September 7-10,2009.Proceedings.2009.

[6]Dollar P,Appel R,Belongie S,et al.Fast Feature Pyramids for ObjectDetection[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2014,36(8):1532.

[7]Nam W,Dollar P,Han J H.Local Decorrelation For Improved PedestrianDetection[J].Advances in Neural Information Processing Systems,2014,1:424-432.

[8]Wang L,Ouyang W,Wang X,et al.Visual Tracking with FullyConvolutional Networks[C]//IEEE International Conference on ComputerVision.IEEE,2015:3119-3127.

[9]Redmon J,Divvala S,Girshick R,et al.You Only Look Once:Unified,Real-Time Object Detection[J].Computer Science,2016.

[10]Liu W,Anguelov D,Erhan D,et al.SSD:Single Shot MultiBox Detector[J].2015.

[11]Kang K,Li H,Yan J,et al.T-CNN:Tubelets with Convolutional NeuralNetworks for Object Detection from Videos[J].2016.

[12]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification withdeep convolutional neural networks[J].Advances in Neural InformationProcessing Systems,2012,25(2):2012.

[13]Zeiler M D,Fergus R.Visualizing and Understanding ConvolutionalNetworks[J].2014,8689:818-833.

[14]Simonyan K,Zisserman A.Very Deep Convolutional Networks forLarge-Scale Image Recognition[J].Computer Science,2014.

发明内容

针对现有的行人检测方法难以处理行人遮挡现象，受到行人姿势、衣着、光照等因素干扰而难以检测出行人的问题，本发明提出一种考虑了时间关联性，基于深度卷积神经网络的行人检测技术。本发明针对视频，训练卷积神经网络自主学习提取的时间特征，和人为设计的时间特征相结合，提高被遮挡行人的检出率，并更有效地应对各种干扰因素，从而提高了在视频上进行行人检测的精确度。

为实现上述目的，本发明采用如下的技术方案：

一种基于时间域卷积神经网络的行人检测方法包括以下步骤：

步骤1.将训练用的视频序列分离成图像；按照时间顺序，把连续的N帧图像灰度化，拼成一个N通道的图像，称之为连续帧图像；

步骤2.对每一个连续帧图像，取出对应的N个标签进行合并，合并后的标签信息作为连续帧图像的标签；

步骤3.把组织好的连续帧图像和标签信息输入到卷积神经网络中进行训练，得到RPN网络和Fast RCNN网络的参数；

步骤4.把测试用的视频序列分离成图像，采用步骤1，得到测试用的连续帧图像；

步骤5.把测试用的连续帧图像输入到RPN网络，读取训练好的参数，得到数百个粗略的候选区域；再把连续帧图像和候选区域输入到Fast RCNN网络中，读取训练好的参数，得到预测包围框和对应的可信度；

步骤6.如果当前帧不是视频的开头几帧，那么利用前几帧的检测结果对当前帧包围框的可信度进行修正；如果当前帧某个包围框与前几帧当中的检测结果存在较大的重叠，那么基于相互重叠的预测包围框和先前检测包围框之间的时间差，将预测可信度和先前检测可信度进行加权求和，得到预测包围框的最终可信度，赋予当前帧中重叠的预测包围框；最后，遵循非最大值抑制的规则，把当前帧的预测包围框按照它们的位置和可信度进行合并筛选，作为最终的检测结果输出。

作为优选，使用N通道的连续帧图像作为RPN网络的输入数据，RPN网络的第一卷积层的卷积元为N通道，每个通道分别与对应的卷积元进行卷积运算，N个通道的运算结果相加，再取激活函数，作为第一层的输出，

采用Faster RCNN中的设置，使用ReLu函数作为激活函数,则多通道卷积计算所对应的公式如下：

(i,j)为卷积元上的某一位置，W^k为卷积元的第k通道上(i,j)处的参数，x为输入矩阵上的元素，b_k为惩罚项，

表示卷积元某位置(i,j)处的值，是由N个通道上(i,j)的卷积结果相加后再取激活函数得到的。

本发明将改进现有的基于深度神经网络的“Faster RCNN”方法[3]，能够读入连续视频帧，学习并提取兼具空间和时间关联性的特征，以便更好地处理行人遮挡、姿态变化、光影变化等干扰因素。同时，本发明把目标跟踪技术视为时间关联性的一种特征表示，把目标跟踪技术中的思想应用到行人检测中去，生成可信度较高的预测，从而减少行人检测中的漏检，提升行人检测的精确度和速度。

附图说明

图1为个神经元的结构示意图；

图2为图像作为神经元的输入的示意图；

图3为个神经元组成一个神经网络的结构示意图；

图4为本发明行人检测方法的流程示意图；

图5为多通道图像的卷积计算的示意图；

图6为训练阶段合并连续帧的标签信息的示意图；

图7为根据前N帧检测结果对当前帧预测包围框进行重新打分的示意图；

图8a、当行人出现遮挡时采用基于时间关联性的检出率的示意图

图8b、当行人出现遮挡时采用针对单幅图像的现有方法检出率的示意图。

具体实施方式

本发明提供一种行人检测方法，采用能提取连续帧之间时间关联性的深度卷积神经网络——时间域卷积神经网络。该方法是对现有的Faster RCNN方法[3]的改良。由于Faster RCNN方法[3]在单幅图像的目标检测上表现出了优异的性能，因而本发明在卷积神经网络主体部分，采用了Faster RCNN[3]提出的“RPN网络+Fast RCNN网络”的结构。本发明的主要流程如下图4所示：

本发明所提出的方法步骤为：

步骤1.将训练用的视频序列分离成图像。按照时间顺序，把连续的N帧图像灰度化，拼成一个N通道的图像，称之为连续帧图像。这样一来，本发明把连续的N帧视为一个整体，训练出来的网络不仅能提取出当前帧上的空间信息，还能根据当前帧之前和之后的画面变化，提取出时间信息。

步骤2.对每一个连续帧图像，取出对应的N个标签进行合并，合并后的标签信息作为连续帧图像的标签。这个标签不仅包含了当前帧行人的位置，还把之前和之后的行人位置变化标示出来。

步骤3.把组织好的训练数据(连续帧图像和标签信息)输入到卷积神经网络中，按照Faster RCNN[3]所建议的方法进行训练，得到RPN网络和Fast RCNN网络的参数。由于输入信息不再是单帧图像，而是一段连续的视频帧，卷积神经网络不仅会学习提取单帧图像上的空间特征，还会学习提取帧与帧之间的时间特征。

步骤4.把测试用的视频序列分离成图像。仿照步骤1，得到测试用的连续帧图像。

步骤5.把测试用的连续帧图像输入到RPN网络，读取训练好的参数，得到数百个粗略的候选区域。把连续帧图像和候选区域输入到Fast RCNN网络中，读取训练好的参数，得到预测包围框和对应的可信度。

步骤6.如果当前帧不是视频的开头几帧，那么就可以利用前几帧的检测结果对当前帧包围框的可信度进行人为的修正。若当前帧某个包围框与前几帧当中的检测结果存在较大的重叠，那么基于相互重叠的预测包围框和先前检测包围框之间的时间差，将预测可信度和先前检测可信度进行加权求和，得到预测包围框的最终可信度，赋予当前帧中重叠的预测包围框。通过这种方式，本发明让当前帧的每一个包围框，都受到前几帧检测结果的影响，从而减少了因为卷积神经网络给出的可信度过低而漏检的情况。最后，遵循非最大值抑制的规则，把当前帧的预测包围框按照它们的位置和可信度进行合并筛选，作为最终的检测结果输出。

本发明对现有的针对单幅图片的行人检测方法，主要做出了三点改进：

(1)使用连续帧图像作为卷积神经网络的输入数据

从卷积神经网络的理论和具体实现中可以发现，卷积神经网络在寻找画面上像素点之间的空间关联性上表现优异。从实际应用来看，输入彩色图的效果要比输入灰度图更好，这是因为彩色图包含的信息更丰富。彩色图可以视为一个三通道的图像。在彩色图上，神经网络不仅能提取出二维的区域特征，还能提取出红绿蓝三个颜色通道之间的关联性。本发明基于卷积神经网络的这一特性，将彩色图扩展为连续帧图像。连续帧图像是类似于彩色图的多通道图像。本发明以视频帧中的某一帧作为基准，称之为当前帧，取出该帧前N帧和后N帧(在实验中N＝4)视频图像。将这些视频帧按照时间顺序排列成多通道图像，就得到了一幅连续帧图像。

由于输入数据的改变，卷积神经网络的第一个卷积层也要做出相应的修改。以N通道的连续帧图像为例，RPN网络的第一卷积层的卷积元也变为N通道，每个通道分别与对应的卷积元进行卷积运算。N个通道的运算结果相加，再取激活函数，作为第一层的输出。如图5所示：

本发明采用Faster RCNN中的设置，使用ReLu函数作为激活函数,则多通道卷积计算所对应的公式如下：

(i,j)为卷积元上的某一位置。W^k为卷积元的第k通道上(i,j)处的参数，x为输入矩阵上的元素，b_k为惩罚项。

这样一来，卷积神经网络所提取的特征，不仅仅是每个像素周围的局部空间信息，而是包含了二维空间的局部空间信息和连续帧之间的时间信息。

(2)在网络训练阶段合并连续视频帧的标签信息

本发明提出的时间域卷积神经网络在训练阶段是有监督的学习。在训练阶段，卷积神经网络会把预测结果与给定的标签信息(也叫ground truth)进行对比，计算误差，再根据误差修改网络参数。本发明中连续帧图像的标签信息，是由组成连续帧图像的每一帧当中同一个人的标签信息合并而来。如图6所示：

(3)根据前几帧检测结果对当前帧预测结果进行筛选

在深度卷积神经网络异一鸣惊人之前，学者们就已经设计了许多种方法，提取不同的特征[5,6,7]来从图像中检测行人，比如2005年提出的“HOG+SVM”方法，将图像处理成HOG特征图，输入支持向量机(SVM)中进行行人检测，表现出了较好的效果。尽管深度卷积神经网络提取的特征比人为设计的特征效果更好，但深度卷积神经网络没有利用之前表现较好的人为设计的特征，而是完全从零开始进行有监督的学习。再加上深度的卷积神经网络所提取的特征，参数数量非常庞大，可以到达数百万甚至数亿的数量，难以被人理解，无法找到它们的物理含义和数学含义。为了能利用现有的人为设计的特征，通常会把人为设计的特征与卷积神经网络所提取的特征结合起来考虑，这样产生的结果，能在一定范围之内受到实验者的控制。本发明也将人为设计的时间特征，与时间域卷积神经网络所提取的特征相结合。

本发明所设计的时间特征，来自于目标跟踪领域的思想。目标跟踪领域认为，当前帧中行人出现的位置，必然是在上一帧中行人位置的附近，也就是前后帧中行人的不可能发生较大的位移。因此，可以根据前一帧的行人位置，来预测当前帧行人可能出现的位置。本发明将这个想法倒过来考虑：如果当前帧的某个预测框中确实存在行人，则它必然与前一帧的行人检测结果存在较大的重叠。按照这个想法，本发明可以对卷积神经网络所生成的预测包围框给出一个可信度。如图7所示，本发明将当前帧的预测结果与前N(N＝4)帧的检测结果进行对比，若当前帧的某个预测包围框与前N帧中的某个检测包围框重叠度(intersection-over-union，IoU)高于一定的阈值，则该预测包围框的可信度增加，增加幅度为：

pre_score_i是卷积神经网络对第i号预测包围框打出的可信度，T_i为相互重叠的预测包围框和检测包围框之间的时间差，score_i为第i号预测包围框的最终可信度。

此外，本发明还预设了一些条件，比如行人在图像上必须高于50个像素、预测包围框长宽之比不能过小等。最终本发明给出以下标准，对卷积神经网络所生成的所有预测包围框进行筛选：

●区域高度小于50像素的舍弃；

●区域高度与宽度之比小于1的舍弃；

●考虑当前帧的前N帧的检测结果，对当前帧的每个候选区域，若其与前N帧中的某检测结果重叠率高于阈值，则其可信度增加，时间间隔越小，可信度增加幅度越大；

●区域分类可信度小于阈值的舍弃；

在经过卷积神经网络给出可信度和人为筛选修改可信度之后，留下的所有预测包围框用非最大值抑制算法(Non-maximum suppression,NMS)进行最后的筛选。

本发明通过改良现有方法，将针对单幅图像的行人检测方法扩展为针对连续帧图像，训练卷积神经网络学习单幅视频帧上的空间关联性和连续帧之间的时间关联性，弥补了现有方法在检测被遮挡的行人上的不足。此外，用时间域卷积神经网络进行的行人检测，对行人的姿势变化更加鲁棒，整体的检测精确度和召回率均有提升。

实施例1

本发明在visual tracker benchmark数据库上提取了有完整行人标签的18个视频，分解组合成超过一万个样本，60％用于训练，40％用于测试。

本发明采用“当前帧+前四帧+后四帧”的方式来获得连续帧图像，一共9个通道。在预测包围框筛选阶段，本发明将当前帧预测结果与前4帧的检测结果进行对比。两个包围框的重叠度阈值设定为0.7。

卷积网络的主体，参考Faster RCNN方法[3]，采用了5个卷积层加上2个全连接层的网络。并在训练过程中，利用Faster RCNN方法[3]训练好的部分层的参数对本发明提出的网络进行初始化。

结果显示，在标签信息相同的条件下，连续帧图像在检测精确度和召回率上都优于现有的针对单幅图像的方法。

精确度precision	原始ground truth	合并ground truth
			单幅图像	0.4419	0.559
连续帧图像	0.5342	0.707

表格1：精确度precision

召回率recall	原始ground truth	合并ground truth
			单幅图像	0.4772	0.492
连续帧图像	0.6056	0.8201

表格2：召回率recall

在应对行人遮挡和行人姿势上，如图8a和8b所示，本发明利用深度卷积神经网络提取连续帧之间的时空关联性，能更好得应对行人遮挡问题。当行人被大幅度遮挡的时候，现有方法已经无法检测到行人，而本发明提出的方法，依然能根据前后帧的信息，判断出了被遮挡行人的位置。从而提升了整体的检测精确度和召回率。

本发明具有以下技术效果：

1、在时间域卷积神经网络中使用连续帧图像作为输入。现有行人检测都是针对单幅图像，不适合处理视频数据。本发明提出的时间域卷积神经网络采用连续帧作为输入，不仅能提取空间特征，还能提取时间特征。

2、在网络训练阶段合并标签信息。本发明所使用的连续帧图像标签信息，并非是直接使用当前帧的标签信息，而是把组成连续帧图像的所有视频帧的标签信息进行了合并。

3、根据前几帧检测结果对当前帧预测结果进行筛选。结合目标跟踪领域的思想，利用前几帧的信息来对当前帧的预测包围框进行重新打分，从而减少卷积神经网络的漏检。并根据一些预设条件，对卷积神经网络生成的预测结果进行筛选。

Claims

1.一种基于时间域卷积神经网络的行人检测方法，其特征在于，包括以下步骤：

步骤6.如果当前帧不是视频的开头几帧，那么利用前几帧的检测结果对当前帧包围框的可信度进行修正；

如果当前帧某个包围框与前几帧当中的检测结果存在重叠，那么将当前帧的预测结果与前N帧的检测结果进行对比，若当前帧的某个预测包围框与前N帧中的某个检测包围框重叠度(intersection-over-union，IoU)高于一定的阈值，则该预测包围框的可信度增加，增加幅度为：

pre_score_i是卷积神经网络对第i号预测包围框打出的可信度，T_i为相互重叠的预测包围框和检测包围框之间的时间差，score_i为第i号预测包围框的最终可信度，N＝4；

将得到的最终可信度赋予当前帧中重叠的预测包围框；

最后，遵循非最大值抑制的规则，把当前帧的预测包围框按照它们的位置和可信度进行合并筛选，作为最终的检测结果输出。

2.如权利要求1所述的基于时间域卷积神经网络的行人检测方法，其特征在于，使用N通道的连续帧图像作为RPN网络的输入数据，RPN网络的第一卷积层的卷积元为N通道，每个通道分别与对应的卷积元进行卷积运算，N个通道的运算结果相加，再取激活函数，作为第一层的输出，

其中，(i,j)为卷积元上的某一位置，W^k为卷积元的第k通道上(i,j)处的参数，x为输入矩阵上的元素，b_k为惩罚项，