背景技术
行人检测和跟踪是近年来计算机视觉领域研究的热点课题之一,它的目的是在视频图像序列中准确而实时地找到人体或部分人体或跟踪行人,是实现人体活动分析的基础和关键步骤。它融合了图像处理、模式识别、人工智能及自动控制等诸多相关领域的知识,在车辆辅助驾驶、智能视频监控、机器人视觉和高级人机交互等领域有着广泛的应用前景和潜在经济价值。在实际应用中,由于场景的复杂性、视角与尺度的变化、人体姿态与着装的多样性以及部分遮挡等因素,使得行人检测和跟踪具有极大的挑战性。
为达到实时性的需求,快速行人特征提取和表示是近年来围绕行人检测和跟踪研究工作的重难点之一。评价特征提取和表示的主要指标有三个:判别能力、鲁棒性、实时性。不同的特征提取方法往往构建出不同的行人描述子。行人兼具刚性和柔性物体的特性,因此行人特征提取和表示面临两难选择:一方面如果行人描述子对行人的描述过于精致,会导致难于处理形变问题,即会降低鲁棒性;另一方面如果行人描述子对形变问题具有高容忍,会导致对行人的定位不精确或者误检,即会降低判别能力;此外,如果特征提取过程过于繁琐,会增加运算和存储成本,即减低实时性。行人特征大体可分为三类:底层特征、基于学习的特征和混合特征。
1、底层特征指的是颜色、纹理和梯度等基本的图像特征;例如,HOG特征是目前广泛使用的行人底层特征描述子。其优点是特征单一,可利用积分图技术快速计算;缺点是仅利用单一方面的图像特征刻画行人,判别力较差。详见文献:Dalal N,TriggsB.Histograms of oriented gradients for human detection[C]//Computer Visionand Pattern Recognition,IEEE Computer Society Conference on.IEEE,2005,1:886-893.
2、基于学习的特征指的是通过机器学习的方法,从大量的行人样本中学习到的行人特征表示;例如,利用Boosting技术进行特征选择。其优点是通过学习,能从大量的样本中选择出判别能力较强的特征;缺点是特征的选择与训练样本密切相关,若样本集不具有代表性,难以选择出判别力强的特征。详见文献:Viola P,Jones M J,Snow D.Detectingpedestrians using patterns of motion and appearance[J].International Journalof Computer Vision,2005,63(2):153-161.
3、混合特征指的是多种底层特征的融合,或者是底层特征的高阶统计特征;例如,积分通道特征利用积分图技术对图像的多个特征通道进行快速计算。其优点是能够从不同侧面描述行人特征,提高检测准确率;缺点是随着特征维数的增加,特征计算开销增加,进而导致分类器的预测时间增加,影响实时性。详见文献:Dollár P,Tu Z,Perona P,etal.Integral Channel Features[C]//British Machine Vision Conference,2009,2(4):5.
行人检测和跟踪最明显的行人特征是不同人体部位的空间布局信息,例如头、肩、上下肢的位置关系往往是固定的。此外,行人特征还需要集合不同区域内的多异构源信息,例如颜色、梯度等多种底层特征。采用积分图技术时,若从小区域提取特征容易提供良好的局部定位能力,但是易受各种变化的影响;从大区域提取特征能够容忍更多的变化,但是欠缺准确定位能力。底层特征实时性强但判别力弱,混合特征判别力强但实时性差,基于学习的特征过于依赖样本的选取。
发明内容
本发明所要解决的技术问题是,提供一种能兼具小区域特征提取与大区域特征提取优点的特征表示方法。
本发明为解决上述技术问题所采用的技术方案是,一种基于区域稀疏积分通道的行人特征表示方法,包括以下步骤:
步骤1)滑动窗口遍历待测图像产生候选区域,在每个候选区域中选取N个子区域,各子区域之间的相对重叠面积不超过预设比例T;
步骤2)计算候选区域中子区域的积分通道特征:
2-1)将候选区域图像转换到LUV色彩空间;
2-2)计算候选区域的子区域的各通道内各像素对应的通道值,所述通道包括梯度幅值通道和方向梯度通道:输入子区域图像,和分别是子区域图像I(x,y)的水平和垂直方向的梯度,则图像内任意像素(i,j)处的梯度幅值M(i,j)和方向梯度值O(i,j):
步骤3)对每一个通道内的所有通道求和得到一阶特征,再将所有通道的一阶特征级联得到一个高维特征矢量x0=(x1,...,xm)T作为子区域积分通道特征;
步骤4)计算子区域的稀疏积分通道特征:
将子区域积分通道特征左乘一个稀疏随机度量矩阵A进行降维得到稀疏积分通道特征x,x=Ax0;
稀疏随机度量矩阵A中各元素ai,j通过以下方式生成:。
其中,是区域积分通道特征的维数;
步骤5)将区域中全部子区域的稀疏积分通道特征进行融合得到区域稀疏积分通道特征;
步骤6)将所有区域稀疏积分通道特征按照从左到右、从上到下的顺序级联得行人描述子。
本发明首先利用均匀随机采样的区域和子区域的空间布局信息,其次提取继承了多种异构源信息的各子区域内的特征通道值,再将子区域特征融合成区域特征,最后级联所有区域特征即为行人描述子。本发明提出的行人特征提取和表示方法,从而在统一框架下解决行人特征提取和表示面临的两难选择问题。既有空间布局信息,又包含多种异构源信息。
本发明的有益效果是,利用了区域和子区域的细粒度空间布局信息,又自然地集成了子区域内的多种异构源信息,兼顾到描述性和灵活性,使得本方法提取的行人特征具有判别能力较强,计算速度快,设置参数少,同时兼顾到刚性目标和形变目标等优点,完全适用于快速行人检测或行人跟踪。
具体实施方式
本发明提供一种基于区域稀疏积分通道的行人特征提取和表示方法,首先利用均匀随机采样的区域和子区域的空间布局信息,其次利用各子区域内多种异构源信息,再借助max pooling算法将子区域特征融合成区域特征,最后级联所有区域特征即为行人描述子。本方法所提取的行人特征具有判别能力较强,计算速度快,设置参数少,同时兼顾到刚性目标和形变目标等优点,适用于快速行人检测或行人跟踪。
为了方便地描述本发明内容,首先对一些术语进行定义。
定义1:积分图。对于一幅灰度图像,积分图中的任意一点(x,y)的值是指从图像的左上角到这个点的所构成的矩形区域内所有点的灰度值之和。
定义2:LUV色彩空间。LUV色彩空间全称是CIE1976(L*,u*,v*),其中L*表示亮度,u*和v*表示色度坐标。其目的是建立与人的视觉统一的色彩空间,具备一致性和均一性且各色彩分量之间不相关,因此在提取颜色特征时,LUV色彩空间要优于RGB色彩空间。
定义3:积分通道特征。利用积分图技术对原始图像的各特征通道(线性或者非线性变换后的图像)进行快速计算得到。积分通道特征自然集成了多种异构源信息,主要包括10个通道:3个颜色通道(对应于LUV空间的三个分量),1个梯度幅值通道,6个方向梯度通道。对每一个通道的矩形区域求和即得到一阶特征。接着将所有一阶特征级联得到一个高维特征矢量即为积分通道特征,表示m维特征空间。
定义4:稀疏积分通道特征。由于积分通道特征矢量维数较高,一般介于106~108之间,因此需左乘一个稀疏随机度量矩阵对积分通道特征进行降维,使高维空间的特征矢量投影到低维空间其中n<<m。
定义5:相对重叠面积S(R1,R2)。两个矩形区域R1,R2交集的面积与其并集面积之比,即
定义6:max pooling算法。它是一种特征融合算法。本发明中所有子区域特征维数是相同的。对于每一维,从区域中所有子区域的特征中选取该维的最大值,从而构造一个与子区域特征具有相同维数的新特征,即为区域特征。
定义7:滑动窗口。一般为W×H的矩形区域,其中W是窗口宽度,H是窗口高度。按照固定的横纵向步长以从左到右、从上到下的顺序遍历整幅图像。
定义8:行人描述子。描述子是指从图像或者视频中提取目标特征的方法,目的是从数据流中捕捉到目标的特有属性。不同的特征提取方法往往构建出不同的行人描述子。
本发明详细技术方案如图3所示:
一种基于区域稀疏积分通道的行人特征提取和表示方法,包括以下步骤:
步骤1:产生候选区域。候选区域是从滑动窗口中随机采样产生的矩形区域。区域高度变化区间是[HminHmax],区域宽度变化区间是[WminWmax],固定区域宽度变化步长Sw和区域高度变化步长Sh,遍历得到所有可能的区域尺寸;对于固定尺寸的区域,以水平滑动步长px、垂直滑动步长py遍历窗口;从而得到每个滑动窗口的候选区域。本发明中,滑动窗口固定为100像素×41像素,Sw=Sh=1,px=py=2,Wmin=15,Wmax=30,Hmin=30,Hmax=60。产生15360个候选区域,从中平均随机采样,得到1500~2500个区域进行下一步处理。
选定候选区域后,在每个候选区域中通过随机采样方式选取3~5个子区域,子区域的位置和尺寸是任意的,子区域两两之间的相对重叠面积不超过40%;区域和子区域示意图如图1。
步骤2:计算子区域的积分通道特征。具体包括以下步骤:
步骤2-1:LUV空间颜色通道。首先将候选区域图像从RGB空间转换到CIE XYZ空间,再从CIE XYZ空间通过非线性计算转换到LUV色彩空间,具体计算如下式,其中u′n和v′n表示是色度坐标上定义的一个白色点,Yn是该白色点的亮度,原始图像如图2_a,LUV色彩空间的3个颜色通道分别如图2_b,2_c,2_d。
u*=13L*(u′-u′n)
v*=13L*(v′-v′n)
u′=4X(X+15Y+3Z)
v′=9Y(X+15Y+3Z)
步骤2-2:计算梯度幅值通道和方向梯度通道。输入子区域图像信号记作I(x,y),和分别是图像I的水平和垂直方向的梯度,则任意像素(i,j)处的梯度幅值M(i,j)和方向O(i,j)可由下式计算得到。
梯度幅值通道如图2_e。为计算方向梯度通道特征,本发明设定6个方向,每30°为一个区间,将各点梯度方向归并量化,其中0°方向梯度通道如图2_f,30°方向梯度通道如图2_g,60°方向梯度通道如图2_h,90°方向梯度通道如图2_i,120°方向梯度通道如图2_j,150°方向梯度通道如图2_k。
步骤3:计算区域积分通道特征。利用积分图技术,即对每一个通道的矩形区域求和即得到一阶特征,接着将所有一阶特征级联得到一个高维特征矢量即为子区域的积分通道特征。
步骤4:计算子区域稀疏积分通道特征。上述子区域积分通道特征维数过高,一般介于106~108之间,不利于后续处理。因此将积分通道特征左乘一个稀疏随机度量矩阵进行降维,即x=Ax0,将其从m维降到n维(n<<m)。稀疏随机度量矩阵A的元素记作ai,j,由下式生成:。
其中是子区域的积分通道特征的维数,可以使矩阵A中非零元素个数远远小于零元个数。实际中只需要对非零元素进行存储和运算即可。
采用max pooling算法对区域中的多个子区域的特征进行融合,即可得区域稀疏积分通道特征。这里对多个子区域的特征融合可以具体实际情况采用其他的特征融合算法。
步骤5:计算行人描述子。将所有区域稀疏积分通道特征按照从左到右、从上到下的顺序级联,即可得行人描述子。
需要说明的是:该方法若用于行人检测,滑动窗口中各子区域和区域的位置是固定的,子区域和区域的位置信息可以通过后续的训练过程得到。该方法若用于行人跟踪任务,滑动窗口中各子区域和区域的位置是固定的或随机的,若是随机的,则需在每次更新过程中重新选取各子区域和区域的位置。
为了验证发明效果,使用Matlab,C/C++语言,硬件平台:Intel core2 E7400+4GDDR RAM,软件平台:Matlab2012a,VisualStdio2010。先在Matlab平台上进行算法仿真,然后移植到C/C++平台上。在分辨率为640×480的图像序列中,Matlab平台上该行人特征提取和表示的处理速度可达到28帧/秒,C/C++平台上其处理速度可达到50帧/秒,足以满足实际应用的需求。
实验选择在INRIA行人数据库测试本发明的特征提取方法,以评价其性能。比较对象是HOG特征,分类器使用标准线性SVM。训练正样本为INRIA数据库训练集中的正样本图像;为了增加正样本的多样性,又把所有的2416张正样本做了镜像操作,获得了4832个正样本。除了INRIA行人数据库训练的1218张负样本图像,实验另外搜集了1000张不包含行人的图像,从中随机选取各种尺度的窗口作为负样本,最终负样本集合共8872张。HOG样本尺寸选择为128×64像素,本发明的样本尺寸选择为100×41像素。实验中采用bootstrapped的方式进行训练。根据训练的模型在不包含行人的图像中进行检测,并把所有误检的样本加入负样本中重新进行训练。多次重复这一过程,最终得到一个约2000维的线性SVM分类器。分类器训练好后,在INRIA数据库的测试集上进行检测,滑动窗口步长为2个像素,采用非极大值抑制方法对检测结果进行融合,得到最终的行人区域。在召回率为92%时,本发明方法获得了约95.5%的检测精度,HOG获得了约95%的检测精度。这表明该方法与HOG特征的判别性能相当,但是需要强调的是,本方法的实时性好,其处理速度要快于HOG特征。
为了进一步测试本方法的性能,采用类似方法在背景复杂的PennFudanPed行人数据库进行试验。检测结果表明大部分行人被有效检测出来,仅有少量漏检和误检,检测效果较好。这充分说明:本发明的行人特征提取算法鲁棒性和判别力较强,能够有效克服遮挡、复杂背景、衣着和视角变化、光照等不利影响因素。
综上所述,本发明的行人特征提取算法充分利用区域和子区域的空间布局信息,并集成了子区域内多种异构源信息,有效克服了遮挡、复杂背景、衣着和视角变化、光照等不利影响因素,具有判别能力较强,计算速度快,设置参数少,同时兼顾到刚性目标和形变目标等优点,该方法可用于快速行人检测或实时行人跟踪,从而为车辆辅助驾驶、智能视频监控、机器人视觉、人体行为分析和高级人机交互等应用场合提供良好的基础。