CN103106414A

CN103106414A - 一种智能视频监控中行人的检测方法

Info

Publication number: CN103106414A
Application number: CN2012105668091A
Authority: CN
Inventors: 苏松志; 李绍滋; 吕艳萍; 林贤明; 郭锋; 曹冬林
Original assignee: Xiamen University; Shenzhen Research Institute of Xiamen University
Current assignee: Xiamen University; Shenzhen Research Institute of Xiamen University
Priority date: 2012-12-24
Filing date: 2012-12-24
Publication date: 2013-05-15

Abstract

一种智能视频监控中行人的检测方法，涉及计算机视觉、模式识别和图像处理等领域。提供可快速定位视频中的人体目标，方便后续智能视频分析的一种智能视频监控中行人的检测方法。1）利用图像采集设备建立行人数据库，并对该数据集进行标注，数据采集通过视频采集设备获取，标注信息包括行人的大小和位置信息；2）采用支持向量机训练行人检测器模型，模型训练好之后，将参数存放在智能监控系统的存储单元中；3）提取输入图片的行人特征描述子；4）利用支持向量机对图片中的每个行人检测窗口进行分类，分类的结果送到视频输出单元中；5）对检测的窗口进行融合，获取最终的行人检测结果。

Description

一种智能视频监控中行人的检测方法

技术领域

本发明涉及计算机视觉、模式识别和图像处理等领域，尤其是涉及一种智能视频监控中行人的检测方法。

背景技术

行人检测是可广泛应用于车辆辅助驾驶（D.Geronimo,A.M.Lopez and A.D.Sappa,et al.Survey of pedestrian detection for advanced driver assistance systems[J].PAMI，2010,32(7):1239-1258.）、人体运动分析和智能视频监控等领域中。由于易受姿态、光照、遮挡和视角等影响，行人检测是计算机视觉中的经典难题。目前大部分的研究者针对复杂场景下的行人检测，提出了各种各样的适合于行人检测的特征和分类器。常见的行人特征有Haar（M.Oren,C.Papageorion,P.Sinha,et al.Pedestrian detection using wavelettemplates[A].In Proc. of CVPR[C],1997.）、梯度方向直方图（N.Dalal and B.Triggs.Histogram of oriented gradient for human detection[A].In Proc. of CVPR[C],2005.）、协方差描述子（O.Tuzel,F.Porikli and P.Meer.Pedestrian detection viaclassification on Riemannian manifolds [J].PAMI，2008,10(30):1-15.）和局部二值模式（X.Wang,X.Han and S.Yan.A HOG-LBP human detector with partial occlusionhandling[A],In Proc. of ICCV[C],2009.）等。

行人检测技术根据定位方法，可分为滑动窗口法和非滑动窗口法。滑动窗口法是目标检测中的常用方法，本质上是将检测器转化为一个二值分类器。滑动窗口法的核心是构建一个鲁棒性较强的分类器，在行人检测中，常用的分类器有模板匹配、神经网络、支持向量机和AdaBoost等。滑动窗口法由于检测速度快且准确率较高，我们采用该方法来检测智能视频监控场景中的行人。非滑动窗口法常见的有隐式形状模型（B.Leibe,A.Leonardis and B.Schiele. Robust object detection with interleaved categorization and segmentation[J].IJCV，2008,77(1-3):259-289.）、高效子窗口搜索（C.H.Lampert,M.B.Blaschkoand T.Hofmann.Efficient subwindow search:a branch and bound framework for objectlocalization[J].PAMI，2009,31(12):2129-2142.）和跳跃窗口法（O.Chum,and A.Zisserman.An exemplar model for learning object classes[A].In Proc.of CVPR[C],2007.）等。

行人检测技术已经取得了一定的进展，Dollar等（P.Dollar,C.Wojek,B.Schiele,etal.Pedestrian detection:an evaluation of the state of the art,PAMI，2012,34(4):743-761.）系统地比较了目前常用的16种行人检测方法在6个公共行人测试集中的性能。目前行人检测技术呈现出这样的发展趋势：检测速度实时化，检测精度接近实用化，测试数据集规模化，应用背景复杂化。

大部分研究者将研究的重心放在复杂背景下的行人检测方法研究，但是在有些监控和人体运动分析等应用中，背景相对简单，行人检测是整个系统中的一个预处理步骤。在这种简单的场景中，要求快速地给出行人的位置，一种简单的处理方法是将复杂背景下的行人检测器直接应用在简单场景中。但是，由于测试集和训练集是非独立同分布的，复杂背景下的检测器不一定能在视频监控中取得很好的检测效果，另外，复杂背景下的行人检测器，检测的时间复杂度往往比较高。

在智能视频监控中，针对测试集和训练集的非独立同分布问题，由于背景相对简单，训练集容易获取且所需样本数目较少，可以针对特定的场景，重新收集样本然后构建分类器；针对检测的时间复杂度高这一问题，我们提出了一种适合于智能视频监控场景下的特征快速计算方法，基于该特征，结合积分图技术，可快速计算出分类器的输出值，大大降低了检测的时间复杂度。

发明内容

本发明的目的在于提供可快速定位视频中的人体目标，方便后续智能视频分析的一种智能视频监控中行人的检测方法。

本发明包括以下步骤：

1）利用图像采集设备建立行人数据库，并对该数据集进行标注，数据采集通过视频采集设备获取，标注信息包括行人的大小和位置信息；

2）采用支持向量机训练行人检测器模型，模型训练好之后，将参数存放在智能监控系统的存储单元中；

3）提取输入图片的行人特征描述子；

4）利用支持向量机对图片中的每个行人检测窗口进行分类，分类的结果送到视频输出单元中；

5）对检测的窗口进行融合，获取最终的行人检测结果。

在步骤5）中，所述对检测的窗口进行融合可采用非极大值抑制方法。

本发明预先在存储单元中保存行人检测器，即线性支持向量机的参数。在处理输入时，当视频采集单元采集到视频后，通过特征抽取单元对输入图像提取行人特征，然后在目标检测单元中，将提取的特征与线性支持向量机的参数做运算，给出分类器的输出值，最后通过视频输出单元对检测结果进行非极大值抑制，并输出检测结果。

附图说明

图1为本发明所述的行人数据集标注示意图。对输入图片（或者视频中的某一帧）进行检测，给出图片中行人的位置信息，通常用矩形框（x,y,w,h）表示。（x,y,w,h）表示矩形框左上角的x坐标、y坐标、宽和高。

图2为本发明所述的行人特征提取方法示意图：图中的a_i（i=0,1,2,…,8）的取值为0或者1,0表示该象素为背景点，1表示该象素点为边缘点；箭头旁边的数字表示该方向的权重，共有4个方向，沿逆时针方向权重分别为1、2、4、8。

具体实施方式

本发明提供一种智能视频监控中的快速人体检测方法，为了使本技术领域的技术人员更好的理解本发明方案，下面结合附图和具体实施方案对本发明作进一步的详细说明。

1）利用图像采集设备建立行人数据库，并对该数据集进行标注

采用的实验器材：普通DV相机；三角架（防止拍摄过程手的抖动引起图像模糊）。

拍摄方法：用DV拍摄avi格式文件，摄像机静止不动，拍摄一个镜头的时间长度约为30秒，然后换角度拍摄；视频库中视频总录制时间约3个小时左右，这样大概有3x3600x25=27万张图片，标注的时候，我们选择其中的1万张做标记就；3个小时的视频180分钟，一个分负责18分钟的话，要派出十个人做。拍摄的时候要选择不同的时间段不同的场景不同的光照拍摄，比如火车站、校园、餐厅、机场、等地方。拍摄的时间要分别选择早上、下午、晚上；天气选择晴朗、阴天等。行人高度的要求，行人的高度大概在80-200pixel左右，不要太大，也不要太小，所以拍摄者拍摄的时候要注意镜头的拉伸；

数据标注方法：如图1所示，用最小的矩形框框住行人，同时记录矩形框的起始点和宽、高信息，并保存在.txt文件中。

2）采用支持向量机训练行人检测器模型

行人检测中，图片中的行人由于身高和拍摄距离等因素的影响，大小变化不一。针对该问题，滑动窗口法采取“以不变应万变”的方法：在训练分类器时首先对收集到的行人样本进行标注，然后将标注的行人区域切割下来并归一化到统一的固定大小。对于不包含行人的图片，从图片中随机抽取若干子图像块，大小与归一化后的行人样本一致。最后将该大小归一化后的行人和非行人样本作为分类器的训练集，利用监督学习方法训练得到一个二值分类器。本发明采用支持向量机，训练工具使用libsvm。

3）提取输入图片的行人特征描述子

如图2所示，利用Canny检测算子获取图像的边缘图，对四个方向和中心点进行编码，因此其取值范围是0～31。设a_i,i＝0,1,...,8表示3×3窗口中的9个象素点，其模式值（以下记为SLEP）的计算如下：

SLEP＝16a₀+8(a₄||a₈)+4(a₃||a₇)+2(a₂||a₆)+1(a₁||a₅)（1）接着，构建SLEP的直方图（以下简称SLEPh)作为局部区域R的特征向量，即，

SLEPh [i] = \frac{n_{i}}{n}, i = 0,1, . . ., 31 - - - (2)

其中，n_i表示SLEP值为i的象素点数。SLEP的维度为32，同时在式2中，同一方向上只要有一象素为1，则该方向就编码为1，在一定程度上克服了边缘检测过程中部分边缘象素点丢失的问题。

4）利用支持向量机对图片中的每个行人检测窗口进行分类

在构建完二值分类器后，为了得到测试图片中哪个位置包含行人（即所谓的行人定位问题），在测试图片中从左到右，从上到下依次滑动窗口（窗口大小与切割并归一化后的训练图片大小一致），对于当前每一个扫描到的窗口，利用预先训练好的分类器判断其窗口内是否包含行人，最后对所有包含行人的窗口进行融合，常见的窗口融合方法有窗口重叠法、加权集合覆盖法和均值漂移法。另外，由于测试图片中同样包含各种大小的行人，即原始测试图片中行人的大小不一定与滑动窗的大小一致，为了解决该问题，滑动窗口法对测试图片进行各种尺度的缩放，形成尺度空间中的一个图像集，然后分别对图像集中的每一张图像重复如上所述的窗口滑动过程。

另外，在构建基于SLEP的行人特征时，没有对其特征进行归一化处理。这样做有两个好处：其一，省去归一化处理步骤，加快特征的计算速度；其二，可利用积分图快速计算出分类器的输出值。以下描述我们提出的基于积分图的快速分类器值输出方法。

设x表示输入图像，表示图像中的象素点集合，x|_y表示图像x中的矩形区域y，h＝h(x|_y)，h∈□^K表示区域y的SLEP直方图特征，K为直方图的区间数，这里为32，即SLEP的所有可能取值情况，h_k表示SLEP=k的边缘特征在图像区域x|_y中出现的次数，若分类器为线性核函数的支持向量机，则判别函数为，

f (h) = β + Σ_{i = 1}^{L} α_{i} &lang; h, h^{i} &rang; = β + Σ_{i = 1}^{L} α_{i} Σ_{j = 1}^{K} h_{j} h_{j}^{i} = β + Σ_{j = 1}^{K} h_{j} (Σ_{i = 1}^{L} α_{i} h_{j}^{i}) - - - (3)

记

w_{i} = Σ_{i = 1}^{L} α_{i} h_{j}^{i},

则

f (h) = β + Σ_{j = 1}^{K} h_{j} w_{j} = β + \underset{d &Element; {x |}_{y}}{Σ} w_{c (d)} - - - (4)

其中，c(d)表示象素点d所对应的SLEP值，w_j表示标号为j的象素点为判别函数所贡献的值。可见支持向量机的分类置信值转化为各象素点的权重累加。

在行人检测中，我们将当前的检测窗口划分为N个子窗口（块），为了快速计算当前检测窗口的分类器输出值，构建N张积分图，每张积分图对应着检测窗口中的某一块。因此，计算整个检测窗口的分类器输出值时，只需要计算检测窗口中每个块的权重累加和，然后将每个块的累积和相加。而每个块的权重累积和可通过对应积分图快速计算出来。

5）利用非极大值抑制技术对检测的窗口进行融合，获取最终的行人检测结果

滑动窗口法的检测结果中，通常在目标的周围会有多个窗口，需要对这些窗口进行合并才能准确获取目标的位置。设分类器在测试图片的多尺度空间中检测结果如下，

{&lang; {bb}_{i} {weight}_{i} &rang;}_{i = 1}^{n}, {bb}_{i} = &lang; x_{i}, y_{i}, {width}_{i}, {heigh}_{i} &rang; - - - (5)

其中，<x_i,y_i>表示滑动窗口的左上角坐标，width_i,heigh_i表示滑动窗口的宽和高，weight_i表示分类器的输出值（若将其值归一化到[0,1]，则表示该窗口包含行人的概率，这里只对weight_i大于某个阈值T的窗口，即分类器认为其窗口内包含行人的窗口进行非极大值抑制处理）。窗口之间是的重叠程度可用如下的公式刻画，

overlap ({bb}_{i}, {bb}_{j}) = \frac{area ({bb}_{i} \cap {bb}_{j})}{area ({bb}_{i} \cup {bb}_{j})} - - - (6)

其中，（1）area(bb)表示窗口bb的面积；

（2）area(bb_i∩bb_j)表示窗口重叠部分的面积，即area(bb_i∩bb_j)＝dw*dh，

dw＝max((min(x_i+width_i,x_j+width_j)-max(x_i，x_j)),0)（7）

dh＝max((min(y_i+height_i,y_j+height_j)-max(y_i,y_j)),0)（8）

（3）area(bb_i∪bb_j)表示两个窗口的面积和，可采用式（9）计算。

area(bb_i∪bb_j)＝area(bb_i)+area(bb_j)-area(bb_i∩bb_j)（9）

本发明采用MeanShift对窗口进行融合。Mean Shift最早是由Fukunaga等提出的一种概率密度梯度函数的估计方法，现广泛应用于聚类、姿态估计和物体跟踪等计算机视觉领域中。随着Mean Shift理论的发展，其含义已由最初的“偏移的均值向量”（名词）转变为“一个迭代的步骤”（动词），即先计算当前点的新位置，将其移动到新的起点，若其偏移的均值向量足够小（如向量的模小于某个数ε），则停止移动，否则寻找新的起点。在非极大值抑制中，可以将窗口的合并视为概率密度估计问题。合并的目的是为了寻找最有可能包含行人的窗口，即寻找概率密度函数的局部最大值，因此可以用Mean Shift算法进行求解。由于图像进行多尺度缩放的时候，缩放的尺度序列通常为2^e,2^e·2^r,...,2^e·2^ir,...,2ⁿ，为确保各维度同质，可做如下变换：

width_i←log₂(width_i) （10）

heigh_i←log₂(heigh_i)

核函数的带宽也是Mean Shift算法中的一个重要参数，在行人检测中可采取自适应的带宽选择，当窗口较大时其相应的带宽也大，具体步骤如下：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前题下，还可以做出若干改进和润饰，这些改进和润饰也应该视为本发明的保护范围。

Claims

1.一种智能视频监控中行人的检测方法，其特征在于包括以下步骤：

3）提取输入图片的行人特征描述子；

5）对检测的窗口进行融合，获取最终的行人检测结果。

2.如权利要求1所述一种智能视频监控中行人的检测方法，其特征在于在步骤5）中，所述对检测的窗口进行融合采用非极大值抑制方法。