CN107122707A

CN107122707A - 基于外貌特征紧凑表示的视频行人再识别方法及系统

Info

Publication number: CN107122707A
Application number: CN201710160916.7A
Authority: CN
Inventors: 张伟; 胡胜男; 马静; 李雪奥
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2017-03-17
Filing date: 2017-03-17
Publication date: 2017-09-01

Abstract

本发明公开了一种基于外貌特征紧凑表示的视频行人再识别方法及系统，其中该方法包括提取行人视频中的光流曲线，进而得到行人步态的周期曲线，再根据步态周期进行随机选取行人步态的周期曲线中若干关键帧；将选取的每个关键帧输入卷积神经网络来对行人外貌特征进行提取；将提取的所有关键帧相对应的行人外貌特征融合为一个特征向量，进而构建出特征池；提取特征池内的特征向量进行距离尺度算法学习，使得同一行人特征之间的距离减小，而不同行人特征之间的距离增加，然后将距离尺度算法学习后的特征向量进行匹配与排序，从而实现行人的再次识别。

Description

基于外貌特征紧凑表示的视频行人再识别方法及系统

技术领域

本发明属于视频行人识别领域，尤其涉及一种基于外貌特征紧凑表示的视频行人再识别方法及系统。

背景技术

由于视频监控、行人跟踪与检索近年来的普遍应用，行人再识别技术得到广泛的关注。针对某个视频监控摄像头下出现的目标行人，需要从视频监控网络的其他摄像头下对目标行人进行再次识别，即为行人再识别技术。然而，由于不同摄像头下的光照变化、行人姿态变化以及背景对行人的遮挡和干扰，这给行人再识别技术带来极大困难。

常见的行人再识别系统按照输入格式一般分为两类：图像下的行人再识别与视频下的行人再识别。图像下的行人再识别技术由于只能从单一的图像中获取行人信息，信息量十分有限，因此很难解决遮挡、视角变化、行人姿态变化等问题。另一方面，跟单幅图像输入相比较，视频输入不仅包含更多的步态时序信息，还提供了各个时间点下更为丰富的外貌特征信息。此外，在绝大多数的实际应用，都是把视频作为原始输入，比图像更直接，也更方便。因此，视频下的行人再识别技术比图像下的行人再识别具有更大的研究意义。

尽管视频提供了更为丰富的时序以及外貌信息，但是处理难度也大大增加。目前为止，只有少数的行人再识别技术是针对视频输入提出的。这些技术针对行人视频中的时序信息，比如步态以及身体的运动模式等，提出了不同的算法进行提取与比较。尽管运动信息作为一种生物行为可以用来进行行人判别，但是由于很多人都有相似的行走方式，因此很难作为有效的行人标识来进行再识别任务。此外，行人的步态被认为是不受外貌信息干扰的生物特征，因此很多研究者试图通过侧面投影来对行人步态进行提取，但是由于背景的复杂和干扰物体对行人的遮挡，行人的步态信息很难被提取到。

发明内容

为了解决现有技术的缺点，本发明的第一目的是提供一种基于外貌特征紧凑表示的视频行人再识别方法。

本发明的一种基于外貌特征紧凑表示的视频行人再识别方法，包括：

提取行人视频中的光流曲线，进而得到行人步态的周期曲线，再根据步态周期进行随机选取行人步态的周期曲线中若干关键帧；

将选取的每个关键帧输入卷积神经网络来对行人外貌特征进行提取；

将提取的所有关键帧相对应的行人外貌特征融合为一个特征向量，进而构建出特征池；

提取特征池内的特征向量进行距离尺度算法学习，使得同一行人特征之间的距离减小，而不同行人特征之间的距离增加，然后将距离尺度算法学习后的特征向量进行匹配与排序，从而实现行人的再次识别。

进一步的，选取行人步态的周期曲线中4个关键帧。

当每个行人步态的周期曲线上选取4个具有代表性的若干关键帧时，行人识别率最高；增加再多的关键帧，并不会对结果有明显的提高，反而会增加数据处理时间，降低数据处理效率。

进一步的，将提取的所有关键帧相对应的行人外貌特征融合为一个特征向量的过程中，通过提取每个关键帧中的最大值来将每帧中的显著特征提取并融合。

本发明将多帧的特征融合为一个向量特征，因此是“单一”的，融合过程中通过取每帧中的最大值来将每帧中的显著特征提取并整合，因此是“信息紧凑”的，这样能够避免信息干扰，提高行人识别的准确性及速度。

进一步的，在提取特征池内的特征向量进行距离尺度算法学习的过程中，通过计算一个行人的一组中每个特征向量到另一个行人的一组特征向量的最小距离，并取这些距离的平均值作为两个行人特征之间的距离。

本发明通过求取特征向量之间的距离，使得同一行人特征之间的距离减小，而不同行人特征之间的距离增加，实现了行人的再次识别，提高了行人识别的准确性。

本发明的第二目的是提供一种基于外貌特征紧凑表示的视频行人再识别系统。

本发明的一种基于外貌特征紧凑表示的视频行人再识别系统，包括：

关键帧选取模块，其用于提取行人视频中的光流曲线，进而得到行人步态的周期曲线，再根据步态周期进行随机选取行人步态的周期曲线中若干关键帧；

行人外貌特征提取模块，其用于将选取的每个关键帧输入卷积神经网络来对行人外貌特征进行提取；

特征池构建模块，其用于将提取的所有关键帧相对应的行人外貌特征融合为一个特征向量，进而构建出特征池；

距离尺度算法学习模块，其用于提取特征池内的特征向量进行距离尺度算法学习，使得同一行人特征之间的距离减小，而不同行人特征之间的距离增加，然后将距离尺度算法学习后的特征向量进行匹配与排序，从而实现行人的再次识别。

进一步的，在所述关键帧选取模块中，选取行人步态的周期曲线中4个关键帧。当每个行人步态的周期曲线上选取4个具有代表性的若干关键帧时，行人识别率最高；增加再多的关键帧，并不会对结果有明显的提高，反而会增加数据处理时间，降低数据处理效率。

进一步的，在所述特征池构建模块中，通过提取每个关键帧中的最大值来将每帧中的显著特征提取并融合。

进一步的，在所述距离尺度算法学习模块中，通过计算一个行人的一组中每个特征向量到另一个行人的一组特征向量的最小距离，并取这些距离的平均值作为两个行人特征之间的距离。本发明通过求取特征向量之间的距离，使得同一行人特征之间的距离减小，而不同行人特征之间的距离增加，实现了行人的再次识别，提高了行人识别的准确性。

本发明还提供了另一种基于外貌特征紧凑表示的视频行人再识别系统。

该基于外貌特征紧凑表示的视频行人再识别系统，包括：

行人视频采集装置，其被配置为采集行人视频信息，并传送至服务器；

所述服务器，其被配置为：

本发明的有益效果为：

本发明从行人视频的关键帧中提取并整合出紧凑的行人外貌特征进而实现视频下的行人再识别，与之前基于时序信息的视频行人再识别方法相比，该方法更接近人眼的视觉系统，而且提取特征池内的特征向量进行距离尺度算法学习，使得同一行人特征之间的距离减小，而不同行人特征之间的距离增加，然后将距离尺度算法学习后的特征向量进行匹配与排序，更容易地实现行人再识别任务。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是本发明的一种基于外貌特征紧凑表示的视频行人再识别方法流程图；

图2是行人步态的周期曲线；

图3是训练网络示意图；

图4是特征池化示意图；

图5是本发明的实施例一的基于外貌特征紧凑表示的视频行人再识别系统结构图；

图6是本发明的实施例二的基于外貌特征紧凑表示的视频行人再识别系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

根据视觉感知的相关研究表明，人脑对于颜色、纹理等外貌信息的检测阈值要远低于对于运动的检测阈值。因此人眼在外貌识别方面的表现比运动识别要更好。在大多数情况下，根据行人的外在特征比如衣服以及背包等，比根据步态以及姿态等运动信息，可以更容易地实现行人再识别任务。

因此，本发明基于上述研究，给出了基于外貌特征紧凑表示的视频行人再识别方法流及系统。

图1是本发明实施例中一种基于外貌特征紧凑表示的视频行人再识别方法流程图，如图所示本实施例中的于外貌特征紧凑表示的视频行人再识别方法可以包括：

S101，提取行人视频中的光流曲线，进而得到行人步态的周期曲线，再根据步态周期进行随机选取行人步态的周期曲线中若干关键帧。

具体实现中，为了自动选择最具代表性的帧，首先提取行人视频中的的光流曲线(Flow Energy Prole，FEP)。光流曲线是一个一维信号，并且近似于视频中的连续帧下的行人运动能量强度。理想情况下，曲线的局部最大值对应于人的两条腿重叠时的姿势，而在局部最小值处，两条腿是距离最远的。如图2所示，得到了行人步态的周期曲线，由于FEP信号对背景的噪声和遮挡比较敏感，因此曲线只能对行人步态进行大致的估计。

一个完整的步态周期包括两个连续的正弦曲线，其中左右两条腿开始的两步分别代表对应一个正弦曲线，由于视频中很难区分这两步，因此设定每一步相对应的一个正弦曲线为一个步态周期。具体实现中，给定一个步态周期，可以根据行走动作当中的不同状态找到其中的关键帧。

如图2所示，FEP曲线中的局部最高点和局部最低点所对应的帧就为这个步态周期中最具有代表性的两个关键帧。其他的关键帧可以从最高点和最低点之间等距选取。根据实验表明，当每个步态周期选取4个关键帧时，行人识别率最高。增加再多的关键帧，并不会对结果有明显的提高。

需要说明的是，也可以在行人步态的周期曲线中选取其他数量的关键帧，比如2个、3个或5个，且并不影响本发明的视频行人再识别结果。

S102，将选取的每个关键帧输入卷积神经网络来对行人外貌特征进行提取。

本发明的训练网络由5个卷积层(Conv1,…,5)、2个全连接层(FC6,7)和1个Softmax层组成，和VGG-M网络结构很相似。网络的具体参数如图3所示。为了将代表帧当中提取的特征信息整合成一个单一且紧凑的向量，我们在训练网络中引入了一个特征池化层(Feature Pooling)。

训练网络的参数由预训练好的VGG-M网络初始化得到，然后在目标行人数据库上进行微调。在训练阶段，首先将所选取的代表帧全部重新设定为128*64大小，然后连同每个帧所对应的行人标签一起输入卷积神经网络。

在测试阶段，本发明提出的网络可以看成是一个具有卷积神经网络结构的特征提取器。具体来讲，每一帧首先输入卷积神经网络，通过5个卷积层得到其特征，然后将从不同帧当中学习到的特征输入同一个特征池化层，最后在全连接层输出一个整合后的4096维向量。实验表明，最后3层当中，FC6层的特征作为行人的特征向量识别准确率最高，因此我们选取FC6作为特征提取层，FC7以及Softmax层在数据测试阶段是被丢掉的。

S103，将提取的所有关键帧相对应的行人外貌特征融合为一个特征向量，进而构建出特征池。

其中，融合的特征向量为一个单一并且信息紧凑的特征向量。

从卷积层输出后，得到了对应四个代表帧的4个特征地图，如图4所示。将这4个特征地图进行简单的取平均，很容易对识别结果造成干扰。因此我们在卷积神经网络中引入了特征池化层。实验结果表明，对多个卷积神经中输出的特征地图进行最大值池化，最后的行人再识别准确率最高。

如图4所示，尽管卷积神经网络能够对图像当中的特征进行提取，但是一个行人最具有判别性的特征可能分布在不同的帧以及不同部位，因此需要对这些散落的特征进行整合。通过对特征地图在小单位内进行最大值池化处理，各个帧中最强的特征就可以被选取并整合成一个紧凑且具有判别性的行人特征向量。理论上说，特征池化层可以放在任意两层之间，然而实验结果表明，当放在最后一个卷积层和第一个全连接层之间时，识别准确率最高。

S104，提取特征池内的特征向量进行距离尺度算法学习，使得同一行人特征之间的距离减小，而不同行人特征之间的距离增加，然后将距离尺度算法学习后的特征向量进行匹配与排序，从而实现行人的再次识别。

通过输入某行人的视频，得到一组特征向量x＝(x₁,x₂,...,x_m)，m为该视频所含有的步态周期个数，同样的，另一行人的特征向量表示为y＝(y₁,y₂,...,y_n)。通过计算每个特征向量到另一组特征向量的最小l₂距离，并取这些距离的平均值作为两行人特征之间的距离，如公式1所示。

在公开的行人视频数据库上进行实验：

所有的实验在3个现有的公开数据库上展开：PRID 2011数据库,iLIDS-VID数据库和SDU-VID数据库。实验中，所有的数据库被随机平均分成了两部分，训练集与测试集。在测试的过程中，将来自第一个摄像头的视频序列设为查询集，另一个摄像头下的视频序列设为视频库集。

针对每个步态周期选取了若干代表帧进行特征学习，代替了将整个视频序列作为输入。在一个步态周期内选取不同数量的代表帧对实验结果的影响，如表1所示。

可以看出，当选取4个代表帧时，实验结果表现最好。通过进一步分析，当选取的代表帧过少时(如1,2)，不足以覆盖一整个步态周期内的所有关键的行人特征，因此识别准确率较低；另一方面，如果选取的代表帧过多(如6,10)，又很容易引入背景噪声，对行人识别造成干扰，此外还会打打增加实验的运算量。

因此，在实验中采取4个代表帧的选取。

表1不同数量的代表帧的对实验结果的影响

在对多个代表帧进行特征学习后，引入了特征池化层对多个特征向量进行整合。不同的池化层设置对实验结果的影响，如表2所示。

当采用最大值池化时，实验结果最好。平均值池化与无池化下的实验结果相对较低。因此我们在算法中采取的是最大值池化。

表2不同的池化层设置对实验结果的影响

¹Single-frame descriptor.

表3与现有方法的实验结果比较

如表3所示，将本发明的该方法与现存的基于视频的行人再识别方法进行了比较。可以看出，实验结果已经达到了顶尖的水平。在iLIDS-VID数据库上，该方法比排名第二的算法RNN+OF准确率高出2.2％。在PRID 2011数据库上，该方法比排名第二的算法CNN+XQDA准确率高出6％。在SDU-VID数据库上，目前只有STA和RNN两种算法的结果，该方法的准确率比其中最高的提高14.3％。值得注意的是，以上所有的算法都是将整个视频序列作为输入，而本发明的该方法只在每个步态周期内选取了4个关键帧，因此运算量也大大降低。

图5是本发明的实施例一的基于外貌特征紧凑表示的视频行人再识别系统结构图。如图所示的本发明的一种基于外貌特征紧凑表示的视频行人再识别系统，包括：

(1)关键帧选取模块，其用于提取行人视频中的光流曲线，进而得到行人步态的周期曲线，再根据步态周期进行随机选取行人步态的周期曲线中若干关键帧。

FEP曲线中的局部最高点和局部最低点所对应的帧就为这个步态周期中最具有代表性的两个关键帧。其他的关键帧可以从最高点和最低点之间等距选取。根据实验表明，当每个步态周期选取4个关键帧时，行人识别率最高。增加再多的关键帧，并不会对结果有明显的提高。

(2)行人外貌特征提取模块，其用于将选取的每个关键帧输入卷积神经网络来对行人外貌特征进行提取。

(3)特征池构建模块，其用于将提取的所有关键帧相对应的行人外貌特征融合为一个特征向量，进而构建出特征池。

尽管卷积神经网络能够对图像当中的特征进行提取，但是一个行人最具有判别性的特征可能分布在不同的帧以及不同部位，因此需要对这些散落的特征进行整合。通过对特征地图在小单位内进行最大值池化处理，各个帧中最强的特征就可以被选取并整合成一个紧凑且具有判别性的行人特征向量。理论上说，特征池化层可以放在任意两层之间，然而实验结果表明，当放在最后一个卷积层和第一个全连接层之间时，识别准确率最高。

(4)距离尺度算法学习模块，其用于提取特征池内的特征向量进行距离尺度算法学习，使得同一行人特征之间的距离减小，而不同行人特征之间的距离增加，然后将距离尺度算法学习后的特征向量进行匹配与排序，从而实现行人的再次识别。

图6是本发明的实施例二的基于外貌特征紧凑表示的视频行人再识别系统结构图。如图所示的本发明的另一种基于外貌特征紧凑表示的视频行人再识别系统，包括：

(1)行人视频采集装置，其被配置为采集行人视频信息，并传送至服务器。

其中，行人视频采集装置可以采用摄像机来实现。

(2)服务器，被配置为：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于外貌特征紧凑表示的视频行人再识别方法，其特征在于，包括：

2.如权利要求1所述的一种基于外貌特征紧凑表示的视频行人再识别方法，其特征在于，选取行人步态的周期曲线中4个关键帧。

3.如权利要求1所述的一种基于外貌特征紧凑表示的视频行人再识别方法，其特征在于，其特征在于，将提取的所有关键帧相对应的行人外貌特征融合为一个特征向量的过程中，通过提取每个关键帧中的最大值来将每帧中的显著特征提取并融合。

4.如权利要求1所述的一种基于外貌特征紧凑表示的视频行人再识别方法，其特征在于，在提取特征池内的特征向量进行距离尺度算法学习的过程中，通过计算一个行人的一组中每个特征向量到另一个行人的一组特征向量的最小距离，并取这些距离的平均值作为两个行人特征之间的距离。

5.一种基于外貌特征紧凑表示的视频行人再识别系统，其特征在于，包括：

6.如权利要求5所述的一种基于外貌特征紧凑表示的视频行人再识别系统，其特征在于，在所述关键帧选取模块中，选取行人步态的周期曲线中4个关键帧。

7.如权利要求5所述的一种基于外貌特征紧凑表示的视频行人再识别系统，其特征在于，其特征在于，在所述特征池构建模块中，通过提取每个关键帧中的最大值来将每帧中的显著特征提取并融合。

8.如权利要求5所述的一种基于外貌特征紧凑表示的视频行人再识别系统，其特征在于，在所述距离尺度算法学习模块中，通过计算一个行人的一组中每个特征向量到另一个行人的一组特征向量的最小距离，并取这些距离的平均值作为两个行人特征之间的距离。

9.一种基于外貌特征紧凑表示的视频行人再识别系统，其特征在于，包括：

所述服务器，其被配置为：

10.如权利要求9所述的一种基于外貌特征紧凑表示的视频行人再识别系统，其特征在于，所述服务器还被配置为：选取行人步态的周期曲线中4个关键帧；

或所述服务器还被配置为：通过提取每个关键帧中的最大值来将每帧中的显著特征提取并融合；

或所述服务器还被配置为：通过计算一个行人的一组中每个特征向量到另一个行人的一组特征向量的最小距离，并取这些距离的平均值作为两个行人特征之间的距离。