CN106203255A

CN106203255A - 一种基于时间对齐的行人重识别方法及系统

Info

Publication number: CN106203255A
Application number: CN201610472790.2A
Authority: CN
Inventors: 高常鑫; 刘心田; 桑农; 王金; 时辉章; 邹雷
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2016-06-24
Filing date: 2016-06-24
Publication date: 2016-12-07
Anticipated expiration: 2036-06-24
Also published as: CN106203255B

Abstract

本发明公开了一种基于时间对齐池化的视频行人重识别方法，通过追踪视频中行人靠下部位的超像素轨迹，得到其运动信息；基于上述信息，结合人行走时具有周期性的固有属性，选取一个最优周期，并根据正弦曲线将该周期划分为若干个片段，然后通过时间对齐的池化表示方法对每一个片段进行描述，最后将其整合在一起作为最终表达。通过执行本发明中的算法，解决了基于视频的行人重识别的时间对齐问题，增强了算法的鲁棒性，提高了基于视频的行人重识别性能。

Description

一种基于时间对齐的行人重识别方法及系统

技术领域

本发明属于模式识别技术领域，更具体地，涉及一种基于时间对齐的行人重识别方法及系统。

背景技术

行人重识别是指判断不同监控摄像头下出现的行人是否属于同一行人的技术，其已经被广泛运用在监控、法庭调查、多媒体分析等领域。随着人们对社会公共安全的关注和视频采集技术的发展，视频监控系统大量普及，人工已难以应付海量增长的监控视频，因此利用计算机对监控视频中的行人进行再识别的需求应运而生。

基于此，许多面向行人重识别的方法被提出，其主要是基于特征表达和距离度量学习这两种基本算法。在这些方法中，绝大部分是从一幅或多幅静态图像中提取行人的外貌信息，而在实际的应用场景中，我们得到的通常是由监控摄像头中所得到的视频序列，所以研究一种基于视频的行人重识别方法是很有必要的。

在基于静态图像的行人重识别技术中，所选取的特征表达方法必须要有足够的鲁棒性来应对光照以及视角的变化；而在基于视频的行人重识别技术中，如何进行时间上的对齐也是需要考虑的问题，但由于视频序列中一般存在大量的噪声，进行时间对齐非常困难，同时也存在着很大的改进空间。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于时间对齐的视频行人重识别方法及系统，通过追踪行人靠下部位的超像素，而非单一像素的轨迹，从而得到更为精确的运动信息；通过与标准正弦曲线的拟合程度进行比较选取一个最优周期，减少了视频中噪声以及遮挡物对运动轨迹的影响；通过对所选取的周期进行时间对齐的池化操作，消除了一个行走周期可能对应多个不同帧数的视频序列对距离度量学习造成的不便，增强了算法的鲁棒性，提高了行人重识别算法的性能。

为实现上述目的，本发明提出了一种视频行人重识别方法，所述方法包括以下步骤：

(1)对给定的视频序列进行处理，获取行人身体的超像素运动轨迹；

(2)在所获得的运动轨迹上，基于极值点的位置确定候选的行走周期，通过其与正弦曲线的拟合程度进行比较，选取一个最优周期；

(3)采用时间对齐的池化方法对最优周期内的帧序列进行归一化表达，得到表征视频数据的特征表达；

(4)依据所获取的特征表达采用度量学习的方法进行行人重识别。

进一步地，所述步骤(1)的具体实现过程为：

11)获取待处理的共有T帧的视频序列V＝{I_t}_t＝1,...,T；

12)对视频第一帧中行人身体靠下部位进行超像素分割；

13)在视频序列中跟踪超像素，从而得到一系列；超像素轨迹{S_t}_t＝1,...,T；

14)用超像素{S_t}中心的水平位置{L_t}_t＝1,...,T来描述最终的运动轨迹。

进一步地，所述步骤(2)的具体实现过程为：

21)对运动轨迹曲线进行平滑，从而得到更为精准的极值点位置；

22)用(P₁,P₂,...,P_K)来表示曲线中的K个极值点，t_k表示第k个极值点P_k所对应的帧数；依据连续的三个极值点(P_k,P_k+1,P_k+2)义一系列候选行走周期(t_start＝t_k,t_end＝t_k+2)；

23)在水平中心线左右两边的距离，设置一个上限y_up和下限y_low，其定义为：

其中，λ是距离水平中心线的阈值距离，c是水平中心线的位置，且c＝W/2，W是整幅图像的宽度；

在一系列周期(t_start,t_end)中，如果某周期对应的三个极值点均分别大于y_up或者小于y_low，则其被判定为是一个候选周期，否则将其直接淘汰；

24)计算候选周期的得分R，选取得分最高的一个作为最优周期所述得分R用于判断超像素的位置曲线和标准正弦周期的拟合程度，从而衡量一个候选周期(t_start,t_end)的优劣，R的具体表达式为：

其中，W是图像的宽度。

进一步地，所述步骤(3)的具体实现过程为：

31)将正弦曲线平均分成如{Φ_m}_m＝1,...,M所示M个片段；

32)将所获取的最优行走周期与正弦曲线进行时间对齐，与正弦曲线的相位相对应，所获取的行走周期也被划分为{Ψ_m}_m＝1,...,M M个片段；

33)对每个片段中的每一帧图像提取特征；

34)对每个片段内提取的特征进行池化操作，得到Ψ_m这一片段的特征表达{F_m}_m＝1,...,M；

35)将池化操作后所获得的特征序列{F_m}_m＝1,...,M整合起来作为最终的表达，从而表征相应的视频数据。

一种基于时间对齐的视频行人重识别系统，所述系统包括以下模块：

轨迹提取模块，用于对给定的视频序列进行处理，获取行人身体的超像素运动轨迹；

周期确定模块，用于在所获得的运动轨迹上，基于极值点的位置确定候选的行走周期，通过其与正弦曲线的拟合程度进行比较，选取一个最优周期；

特征表达模块，用于采用时间对齐的池化方法对最优周期内的帧序列进行归一化表达，得到表征视频数据的特征表达；

重识别模块，用于依据所获取的特征表达采用度量学习的方法进行行人重识别。

进一步地，所述轨迹提取模块包括：

视频序列提取子模块，用于获取待处理的共有T帧的视频序列V＝{I_t}_t＝1,...,T；

分割子模块，用于对视频第一帧中行人身体靠下部位进行超像素分割；

跟踪子模块，用于在视频序列中跟踪超像素，从而得到一系列超像素轨迹{S_t}_t＝1,...,T；

轨迹描述子模块，用于用超像素{S_t}中心的水平位置{L_t}_t＝1,...,T来描述最终的运动轨迹。

进一步地，所述周期确定模块包括：

平滑子模块，用于对运动轨迹曲线进行平滑，从而得到更为精准的极值点位置；

候选行走周期确定子模块，用于用(P₁,P₂,...,P_K)来表示曲线中的K个极值点，t_k表示第k个极值点P_k所对应的帧数；依据连续的三个极值点(P_k,P_k+1,P_k+2)义一系列候选行走周期(t_start＝t_k,t_end＝t_k+2)；

有效候选周期确定子模块，用于在水平中心线左右两边的距离，设置一个上限y_up和下限y_low，其定义为：

在一系列周期(t_start,t_end)中，如果某周期对应的三个极值点均分别大于y_up或者小于y_low，则其被判定为是一个有效候选周期，否则将其直接淘汰；

最优周期确定子模块，用于计算候选周期的得分R，选取得分最高的一个作为最优周期所述得分R用于判断超像素的位置曲线和标准正弦周期的拟合程度，从而衡量一个候选周期(t_start,t_end)的优劣，R的具体表达式为：

其中，W是图像的宽度。

进一步地，所述特征表达模块包括：

分段子模块，用于将正弦曲线平均分成如{Φ_m}_m＝1,...,M所示M个片段；

行走周期分段子模块，用于将所获取的最优行走周期与正弦曲线进行时间对齐，与正弦曲线的相位相对应，所获取的行走周期也被划分为{Ψ_m}_m＝1,...,M M个片段；

特诊提取子模块，用于对每个片段中的每一帧图像提取特征；

池化操作子模块，用于对每个片段内提取的特征进行池化操作，得到Ψ_m这一片段的特征表达{F_m}_m＝1,...,M；

特征表达子模块，用于将池化操作后所获得的特征序列{F_m}_m＝1,...,M整合起来作为最终的表达，从而表征相应的视频数据。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，主要具备以下的技术优点：

1.本发明通过追踪行人身体靠下部位的超像素，而非单一像素的轨迹，从而得到更为精确的运动信息；

2.本发明通过与标准正弦曲线的拟合程度进行比较，从而选取一个最优周期，减少了视频中噪声以及遮挡物对运动轨迹的影响；

3.本发明通过对所选取的周期进行时间对齐的池化操作，消除了一个行走周期可能对应多个不同帧数的视频序列对距离度量学习造成的不便，增强了算法的鲁棒性，提高了行人重识别算法的性能。

附图说明

图1为本发明所提出的基于时间对齐池化的行人重识别方法流程图。

图2为基于超像素跟踪的运动信息提取过程示意图，其中，图2(a)为第一帧，图2(b)标识了第一帧中的其中一个超像素，图2(c)为超像素跟踪结果，图2(d)为所有帧中超像素的水平位置轨迹；

图3为最优行走周期的提取过程示意图，其中，图3(a)为所有帧中超像素的原始位置轨迹，图3(b)为候选周期示意图，图3(c)为候选周期的得分示意图，图3(d)为选取的周期示意图；

图4为时间对齐池化表示方法的说明图，其中M＝4，图4(a)为使用均值池化的TAPR表达示意图，图4(b)为使用最大值池化的TAPR表达示意图，图4(c)为使用关键帧池化的TAPR表达示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

以下首先对本发明用到的术语进行解释和说明。

超像素分割：图像分割是按照一定的相似性准则将图像划分成具有特殊语义的不同区域，从而在复杂的背景环境中将感兴趣的目标分离出来，是图像分析、模式识别和计算机视觉中的基本问题。而超像素分割主要应用于图像分割中的预分割，超像素，是指具有相似纹理、颜色、亮度等特征的相邻像素构成的图像块，他利用像素之间特征的相似程度将像素分组，可以获取图像的冗余信息，并且经过超像素分割的图像冗余信息少，以超像素作为单位进行后续处理，在很大程度上降低了后续图像处理任务的复杂度，可以简化计算，降低算法的复杂性，有效地提高了分割算法的效率。

SLIC(simplelineariterativeclustering，简单的线性迭代聚类)：是基于聚类算法的超像素分割算法，是目前效果比较好的超像素分割算法。SLIC算法基于颜色的相似性和距离邻近性作为度量银子，在五维空间上计算像素之间的距离，然后根据像素间的距离进行超像素分割。五维空间向量表示为dist＝[l,a,b,x,y]，[l,a,b]是CIELAB颜色空间。SLIC算法基于K-means算法原理，首先对图像按照上述距离因子进行划分，然后对划分结果求均值，再进行下一次划分。通过不断地迭代获取最终稳定的种子结果，通过简单的线性迭代即可获得比较好的种子结果。对于一般的应用场合，上述算法能够实现实时处理。

池化(pooling)：在图像处理中，经常会碰到池化操作，池化往往用来降低特征数量、减小数据维度以减少数据的运算量。时间对齐池化表示分别对M个视频片段进行处理，从而得到待检测视频的M帧的池化特征。可采取的池化方式包括最大值池化、均值池化和关键帧池化。具体的，均值池化处理表示对视频系列每一帧取LOMO特征后，对于每一片段，计算该片段内LOMO特征的平均值，作为该片段的均值池化特征。相应的，一个周期有M个片段就总共需要M次均值池化处理。

如图1所示，本发明所提出的基于时间对齐池化的视频行人重识别方法，包括如下步骤：

步骤(1)获取运动轨迹：对给定的视频序列进行处理，获取行人身体最低部位超像素的运动轨迹。

步骤(2)提取最优行走周期：基于步骤(1)所获得的运动轨迹，基于极值点的位置确定候选的行走周期，并利用其与正弦曲线拟合来选取一个最优周期。

步骤(3)获取时间对齐的池化表达：依据人行走的固有周期，采用时间对齐的池化方法对选取的帧序列进行归一化表达，从而表征相应的3D视频数据。

步骤(4)行人重识别：基于所获取的特征表达和度量学习的方法进行行人重识别。

进一步的，所述步骤(1)中，获取待处理的视频序列后，由于行人身体靠下的部位(例如脚、脚踝、腿的下部)的超像素具有更显著和稳定的运动特征，所以对其进行超像素分割，并追踪其运动轨迹。由于超像素是具有相似纹理、颜色、亮度等特征的相邻像素构成的图像块，故选取其水平的中心位置作为该超像素的位置信息，从而得到最终的运动曲线。更具体地讲，所述步骤(1)中超像素运动轨迹的实现获取过程为：

11)获取待处理的共有T帧的视频序列V＝{I_t}_t＝1,...,T。

12)利用SLIC方法对视频第一帧中行人身体靠下部位进行超像素分割。结果如图2(b)所示。

13)在视频序列中跟踪超像素，从而得到一系列如图2(c)所示的超像素轨迹{S_t}_t＝1,...,T。

该步骤中，除了使用SLIC方法分割外，还可采用基于熵率分割方法(EntropyRate)、归一化分割(Ncut-based)、分水岭算法(watersheds) 等等。

进一步的，所述步骤(2)中，首先对超像素的运动轨迹曲线进行平滑处理，从而获取到更为准确的极值点位置，然后通过相邻的三个极值点来定义一系列候选行走周期：在普遍使用的行人重识别数据集中，行人位置被大致裁剪出来，其每一帧的水平中心线大概是两腿之间的对称轴，故依据距离水平中心线的距离设置上限和下限，依据这个阈值从系列候选行走周期筛选出合格的候选周期。针对每一个合格的候选周期，计算其与正弦曲线的拟合程度，定义为得分R。选取得分最高的周期作为最优行走周期。更具体地讲，所述步骤(2)最优行走周期提取的实现过程为:

21)对上一步所获取的运动轨迹曲线进行平滑，从而得到更为精准的极值点位置。平滑前后的曲线分别为图3(a)、图3(b)所示。

22)用(P₁,P₂,...,P_K)来表示曲线中的K个极值点，t_k表示第k个极值点P_k所对应的帧数。依据连续的三个极值点(P_k,P_k+1,P_k+2)来定义一系列候选行走周期(t_start＝t_k,t_end＝t_k+2)。

23)在水平中心线左右两边的距离，设置一个上限y_up和下限y_low消除不合格的周期。其定义为：

其中，λ是距离水平中心线的阈值距离，c是水平中心线的位置，且c＝W/2；W表示整幅图像的宽度。

如图3(b)所示，在上一步中定义的一系列周期(t_start,t_end)中，如果某周期对应的三个极值点都分别大于y_up或者小于y_low，则其可以被认为是一个候选周期，否则将其直接淘汰。

24)定义一个得分R，来判断超像素的位置曲线和标准正弦周期的拟合程度，从而衡量一个候选周期(t_start,t_end)的优劣。R的具体表达式为：

25)计算上一步经过淘汰后所剩下的所有行走周期的得分R，选取得分最高的一个作为最优周期图3(d)显示了若干个周期以及得分，可以看出(5，27)周期得分最高，故选取其为最优周期。

进一步的，所述步骤(3)中，池化方法包括最大值池化、均值池化和关键帧池化三种。以均值池化为例，针对任一片段，计算该片段内LOMO特征的平均值，作为该片段的均值池化特征。更具体地讲，所述步骤(3)获取时间对齐的池化表达的具体实现过程为：

31)将正弦曲线平均分成如{Φ_m}_m＝1,...,M所示M个片段。

32)将所获取的最优行走周期与正弦曲线进行时间对齐，与正弦曲线的相位相对应，所获取的行走周期也被划分为{Ψ_m}_m＝1,...,M M个片段。

33)对每个片段中的每一帧图像提取特征，每一帧上可提取的特征有很多种类，例如HSV颜色特征、HOG特征、Haar特征、SIFT特征等，由于局部最大模式(LOMO)对光照以及视角变化的鲁棒性，此处提取图像的LOMO特征。

34)对划分后的片段进行池化操作，如图4所示，可选取的池化方法有：均值池化、最大值池化、关键帧池化这三种池化方式。以均值池化为例，对于第m个片段Ψ_m，在其包含的帧序列中，计算其LOMO特征的平均值，作为Ψ_m这一片段的特征表达F_m。

35)将进行时间对齐以及池化操作后所获得的序列{F_m}_m＝1,...,M整合起来作为最终的表达，从而表征相应的视频数据，即为时间对齐的池化表达(TAPR)。

进一步的，所述步骤(4)中，基于所获得特征序列{F_m}_m＝1,...,M，采用度量学习的方法进行行人重识别。

度量学习是指通过有标记样本或者结合未标记样本，寻找一个能够在给定指标下最恰当刻画样本相似度的距离矩阵或距离函数。本发明推荐使用XQDA度量学习方法，具体可参见“Shengcai Liao,Yang Hu,Xiangyu Zhu,and Stan Z Li,“Person re-identification by local maximal occurrence representation and metriclearning,”in CVPR,2015,pp.2197–2206”。

行人重识别评价指标可使用MAP值、CMC值等等，优选使用CMC值，CMC值是指针对所有查询样本，返回前R个结果中有正确行人对象的概率。当返回前R个结果时，CMC值越高，表示行人重识别性能越好。本实例的测试过程基于iLIDS-VID数据集(Taiqing Wang,Shaogang Gong,Xiatian Zhu,and Shengjin Wang,“Person re-identification byvideo ranking,”in ECCV,2014,pp.688–703)，为了减小随机误差，重复十次，计算其平均CMC值。并与现有的其他几种算法进行了比较，所对比的算法包括结合步态特征和排序支撑向量机的方法(GEI+RSVM)、结合HOG3D特征和判别视频选择与排序的方法(HOG3D+DVR)、结合颜色直方图特征和局部Fisher判别分析的方法(Color+LFDA)、结合3D时空Fisher编码特征和KISSME度量学习的方法(STFV3D+KISSME)，另外，MvsM算法也是采用了LOMO特征作为静止图像的特征表达，并采用XQDA的度量学习方法进行识别，但其并没有进行时间对齐的池化操作。上述算法的具体识别结果如表1所示。

表1基于iLIDS-VID数据集上返回前1、5、10、20个结果时的CMC值。

从表1可以看出，基于TAPR的三种池化方法中，均值池化性能最优而关键帧池化性能最差，但其均优于其他现有方法。可以看出本发明所提出的基于时间对齐池化的视频行人重识别方法对于现有算法性能有明显提高。

Claims

1.一种基于时间对齐的视频行人重识别方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的基于时间对齐的视频行人重识别方法，其特征在于，所述步骤(1)的具体实现过程为：

11)获取待处理的共有T帧的视频序列V＝{I_t}_t＝1,...,T；

12)对视频第一帧中行人身体靠下部位进行超像素分割；

3.根据权利要求1所述的基于时间对齐的视频行人重识别方法，其特征在于，所述步骤(2)的具体实现过程为：

\{\begin{matrix} y_u p = c + λ \\ y_l o w = c - λ \end{matrix}

R (t_{s t a r t}, t_{e n d}) = \log (1 - \frac{\underset{t = t_{s t a r t}, ..., t_{e n d}}{Σ} | L_{t} - Q_{t} |_{2}^{2}}{(t_{e n d} - t_{s t a r t} + 1) \times W});

其中，W是图像的宽度。

4.根据权利要求1或2或3所述的基于时间对齐的视频行人重识别方法，其特征在于，所述步骤(3)的具体实现过程为：

31)将正弦曲线平均分成如{Φ_m}_m＝1,...,M所示M个片段；

33)对每个片段中的每一帧图像提取特征；

5.一种基于时间对齐的视频行人重识别系统，其特征在于，所述系统包括以下模块：

6.根据权利要求5所述的基于时间对齐的视频行人重识别系统，其特征在于，所述轨迹提取模块包括：

7.根据权利要求5所述的基于时间对齐的视频行人重识别系统，其特征在于，所述周期确定模块包括：

\{\begin{matrix} y_u p = c + λ \\ y_l o w = c - λ \end{matrix}

R (t_{s t a r t}, t_{e n d}) = \log (1 - \frac{\underset{t = t_{s t a r t}, ..., t_{e n d}}{Σ} | L_{t} - Q_{t} |_{2}^{2}}{(t_{e n d} - t_{s t a r t} + 1) \times W});

其中，W是图像的宽度。

8.根据权利要求5所述的基于时间对齐的视频行人重识别系统，其特征在于，所述特征表达模块包括：