CN109492702B

CN109492702B - 基于排序度量函数的行人重识别方法、系统、装置

Info

Publication number: CN109492702B
Application number: CN201811395133.8A
Authority: CN
Inventors: 陈晨; 曹敏; 胡晰远; 彭思龙
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2018-11-21
Filing date: 2018-11-21
Publication date: 2020-09-22
Anticipated expiration: 2038-11-21
Also published as: CN109492702A

Abstract

本发明属于视频图像处理技术领域，具体涉及一种基于排序度量函数的行人重识别方法、系统、装置，旨在解决基于度量学习的行人重识别方法鲁棒性差的问题。本发明方法中通过训练样本特征信息建立基于排序损失的度量函数，并通过采用连续可导的p范数函数代替该模型中的min函数，优化模型求解获取特征映射函数；基于包含特征映射函数的特征距离度量函数进行行人重识别中的两个图片的特征距离的计算，并以此为依据选择识别结果。本发明提高了行人重识别方法鲁棒性、准确度。

Description

基于排序度量函数的行人重识别方法、系统、装置

技术领域

本发明属于视频图像处理技术领域，具体涉及一种基于排序度量函数的行人重识别方法、系统、装置。

背景技术

跨摄像头行人重识别旨在对不同摄像机中观察到的行人进行自动匹配。具体地，目前研究人员对该问题的定义是：对于一个来自于摄像头a的行人图片，和一个来自于不同于摄像头a的行人图片库，我们需要针对这个行人图片，对行人图片库中的每个人按照相似性进行排序。据此定义，跨摄像头行人重识别算法主要有三个步骤：1)特征学习[1,2,3]；2)度量学习[4,5,6]；3)重排序[7]。研究人员致力于其中某一个步骤或者几个步骤来解决该问题。对于行人的跨摄像头追踪，行为分析和公共安全，行人重识别是一个非常有用的工具。大规模监控中，行人长期追踪中的轨迹统计和提取，是行人重识别的一个应用。然而这是一个非常具有挑战性的任务。在公共区域里，监控摄像机一天的时间可能就会记录成千上万的行人，他们中的大多数看起来都是相似的。另外，不同的摄像机还存在着光照，拍摄姿态，分辨率和设置不一样的问题，并且在拥挤的公共场合，人与人之间往往存在着遮挡，这些都给行人重识别增加了困难。

目前行人重识别方法可以分为两类，基于特征学习的行人重识别方法和基于度量学习的行人重识别方法。对于基于特征学习的方法[1,2,3]，研究人员致力于学习一个有效鲁棒的特征表示，然而这些特征的维度通常很大，而且由于基于特征学习的行人重识别方法往往是无监督学习，因此所学到的特征的识别能力也是很有限的。为此，我们需要进行度量学习[4,5,6]，提高模型的鲁棒性。因此发明专利采用基于排序度量函数的模型进行行人重识别问题的求解。

针对基于度量学习的行人重识别方法大致可以分为闭式解[8,9]的和迭代求解[4,5,6,10]的。基于闭式解的方法，主要借助于Linear Discriminative Analysis(LDA)技术；基于迭代求解的方法，在早期的研究中，主要借助于Support Vector Machine(SVM)技术，近些年，主要借助于三类度量函数：二分类度量函数[10,11]，三元组度量函数[4,5]和四元组度量函数[12]。在二分类度量函数，学习最优的特征映射函数，使得正样本对的距离小于一个预设的阈值，负样本对的距离大于该阈值；对于三元组度量函数，学习最优特征映射函数，希望对于每一个询问行人，其正样本对的距离小于其对应的负样本对的距离；而四元组度量函数，在三元组度量函数的基础上，提出了更强的约束，希望对于每一个询问行人，其正样本对的距离小于所有负样本对的距离。尽管这些度量函数和本专利所提的排序度量函数最终达到的目的是一样的，即，学习最优的特征映射函数，使得正样本对的距离达到所有样本对距离的最小，但是基于排序度量函数的行人重识别方法，采用了最直接的思想建模，利用了样本全集，可以获得更好的结果。

以下文献是与本发明相关的技术背景资料：

[1]M.Farenzena,L.Bazzani,A.Perina,V.Murino,and M.Cristani,“Person re-identification by symmetry-driven accumulation of local features,”in ComputerVision and Pattern Recognition,pp.2360–2367,2010.

[2]S.Liao,Y.Hu,X.Zhu,and S.Z.Li,“Person re-identification by localmaximal occurrence representation and metric learning,”in Computer Vision andPattern Recognition,pp.2197–2206,2015.

[3]C.Su,J.Li,S.Zhang,J.Xing,W.Gao,and Q.Tian,“Pose-driven deepconvolutional model for person re-identification,”in 2017 IEEE InternationalConference on Computer Vision(ICCV),pp.3980–3989,IEEE,2017.

[4]Z.Zhao,B.Zhao,and F.Su,“Person re-identification via integratingpatch-based metric learning and local salience learning,”Pattern Recognition,vol.75,2017.

[5]S.Ding,L.Lin,G.Wang,and H.Chao,“Deep feature learning withrelative distance comparison for person re-identification,”PatternRecognition,vol.48,no.10,pp.2993–3003,2015.

[6]C.Sun,D.Wang,and H.Lu,“Person re-identification via distancemetric learning with latent variables,”IEEE Trans Image Process,vol.26,no.1,pp.23–34,2016.

[7]Z.Zhong,L.Zheng,D.Cao,S.Li,Re-ranking person re-identificationwith k-reciprocal encoding,in:Computer Vision and Pattern Recognition(CVPR),2017 IEEE Conference on,IEEE,2017,pp.3652–3661.

[8]S.Liao,Y.Hu,X.Zhu,and S.Z.Li,“Person re-identification by localmaximal occurrence representation and metric learning,”in Computer Vision andPattern Recognition,pp.2197–2206,2015.

[9]L.Zhang,T.Xiang,and S.Gong,“Learning a discriminative null spacefor person re-identification,”in Computer Vision and Pattern Recognition,pp.1239–1248,2016.

[10]F.Jurie and A.Mignon,“Pcca:A new approach for distance learningfrom sparse pairwise constraints,”in Computer Vision and Pattern Recognition,pp.2666–2672,2012.

[11]Z.Li,S.Chang,F.Liang,T.S.Huang,L.Cao,and J.R.Smith,“Learninglocally-adaptive decision functions for person verification,”in IEEEConference on Computer Vision and Pattern Recognition,pp.3610–3617,2013.

[12]W.Chen,X.Chen,J.Zhang,and K.Huang,“Beyond triplet loss:a deepquadruplet network for person re-identification,”in Computer Vision andPattern Recognition,vol.2,2017.

发明内容

为了解决现有技术中的上述问题，即为了解决基于度量学习的行人重识别方法鲁棒性差的问题，本发明的一方面，提供了一种基于排序度量函数的行人重识别方法，包括以下步骤：

步骤S1，获取待识别行人图片；

步骤S2，基于候选行人图片集，通过特征距离度量函数、特征映射函数，计算所述待识别行人图片与所述候选行人图片集中各候选行人图片的特征距离；

步骤S3，选取最小的前G个特征距离对应的候选行人图片作为识别结果；G为预设数值；

其中，

所述特征距离度量函数，为预先构建的用于计算待识别行人图片和候选行人图片提取特征近似度的函数，该函数基于所述特征映射函数、待识别行人图片和候选行人图片的提取特征差值构建；

所述特征映射函数，为预先构建的待识别行人图片和候选行人图片提取特征之间的映射关系函数，该函数基于所构建的基于排序损失的度量函数，通过预设的训练样本数据求解获取。

在一些优选的实时方式中，所述特征距离度量函数为

d_v,c＝||L(x_v-x_c)||²

其中，x_v和x_c是待识别行人图片v和候选行人图片c的特征向量，L为所述特征映射函数，d_v,c表示待识别行人图片v和候选行人图片c的特征距离度量函数。

在一些优选的实时方式中，所述基于排序损失的度量函数为

其中，v_i为第一训练样本集中第i个图片，所述第一训练样本集为待识别行人图片样本集，N表示第一训练样本集中图片数量；

Cⁱ⁺为第二训练样本集，所述第二训练样本集为v_i在候选行人图片集中正样本集，

为第二训练样本集第j个图片；

C^i-为第三训练样本集，所述第三训练样本集为v_i在候选行人图片集中负样本集；

p为预先设定的p范数。

在一些优选的实时方式中，所述特征映射函数“基于所构建的基于排序损失的度量函数，通过预设的训练样本数据求解获取”，其方法为：

通过基于线性搜索的梯度下降法，通过第一训练样本集、第二训练样本集、第三训练样本集对所述基于排序损失的度量函数求解获取。

在一些优选的实时方式中，所述特征映射函数，其基于线性搜索的梯度下降法求解过程中，每次迭代，对v_i采用其样本对集合中前k个距离最小的样本对参与运算，k为预设数值，k＜M^i-+1，M^i-为第三训练样本集的样本数量；

在第t次迭代时，基于排序损失的度量函数计算公式为

其中，

是集合

中前k个与v_i组成的样本对距离最小的样本，其样本对距离是通过第t-1次迭代得到的L_t-1计算得到。

在一些优选的实时方式中，k＝2，和/或p＝-5。

在一些优选的实时方式中，所述基于排序损失的度量函数为

为第二训练样本集第j个图片；

C^i-为第三训练样本集，所述第三训练样本集为v_i在候选行人图片集中负样本集。

本发明的另一方面，提供了一种基于排序度量函数的行人重识别系统，包括获取模块、特征距离计算模块、识别结果确定模块；

所述获取模块，配置为获取待识别行人图片；

所述特征距离计算模块，配置为基于候选行人图片集，通过特征距离度量函数、特征映射函数，计算所述待识别行人图片与所述候选行人图片集中各候选行人图片的特征距离；

所述识别结果确定模块，配置为选取最小的特征距离对应的候选行人图片作为识别结果；

其中，

在一些优选的实时方式中，所述特征距离度量函数为

d_v,c＝||L(x_v-x_c)||²

其中，x_v和x_c是待识别行人图片v和候选行人图片c的特征向量，L为所述特征映射函数，d_v,表示待识别行人图片v和候选行人图片c的特征距离度量函数。

本发明的第三方面，提供了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现权上述的基于排序度量函数的行人重识别方法。

本发明的第四方面，提供了一种处理装置，包括

处理器，适于执行各条程序；以及

存储装置，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现：

上述的基于排序度量函数的行人重识别方法。

本发明采用基于排序度量函数的模型获取最优的特征映射函数，并基于特征距离度量函数计算待识别行人图片和候选行人图片提取特征近似度，提高了行人重识别方法鲁棒性、准确度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本发明一种实施例基于排序度量函数的行人重识别方法的流程示意图。

图2为本发明一种实施例中函数获取及行人重识别的流程示意图；

图3为本发明一种实施例的基于排序度量函数的行人重识别系统的框架示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

现有的基于度量学习的行人重识别方法，主要可以分为三类度量函数：二分类度量，三元组度量和四元组度量。尽管这些度量最终都可以实现基于度量学习的行人重识别的目标，即，正样本对的距离比负样本对的距离小，但是他们都是通过一种相对间接的方法建模，针对全样本集中的部分集合建模，并且这些方法都需要参数的设置。这会导致模型的鲁棒性差，可操作性不强。为了解决上述技术的问题，本发明的目的是提供一种鲁棒性强，高效的行人重识别方法。相比于其他基于度量学习的行人重识别方法，该方法能更好地解决行人重识别问题，得到更高的识别率。

本发明专利以机器学习理论为基础，基于训练样本特征信息建立基于排序损失的度量函数，通过采用连续可导的p范数函数代替基于排序损失的度量函数中的min函数，优化模型求解性质；同时在模型求解中，采用小部分样本参与计算，达到与使用全部样本同样的效果，有效提高模型的求解效率，从而实现实时行人重识别工作。

本发发明一种实施例的基于排序度量函数的行人重识别方法，如图1所示，包括以下步骤：

步骤S1，获取待识别行人图片；

步骤S3，选取最小的G个特征距离对应的候选行人图片作为识别结果；G为预设的自然数，G≥1；

其中，

在一些优选实施例中，所述特征距离度量函数如式(1)所示

d_v,c＝||L(x_v-x_c)||² (1)

为了更清晰地对本发明基于排序度量函数的行人重识别方法进行说明，下面结合图2从基于排序损失的度量函数的构建、基于排序损失的度量函数的优化、基于排序损失的度量函数的计算、实时的行人图像重识别四个部分对本方发明方法一种实施例中各步骤进行展开详述，其中前三个部分为训练过程、第四个部分为重识别过程。下面实施例虽然从四个方面顺次进行说明，但并不限定本发明方法必须包含下述四部分内容，仅仅为了从本发明方法的推导过程开始更加有条理的阐述本发明的技术方案。

1、基于排序损失的度量函数的构建

该部分包括训练样本集的构建、图像特征提取、建立模型三部分。

T₁、训练样本集的构建

训练样本集的构建即时训练图像库的构建。给定一个拍摄于某一摄像机下的行人图片集V＝{v₁,...,v_N},对于这个集合中的行人，我们称之为询问行人，该图片集为第一训练样本集，N表示第一训练样本集中图片数量；同时给定一个拍摄于不同摄像机下的行人图片集C＝{c₁,...,c_M}，对于这个集合的行人，我们称之为候选集行人，该图片集为候选行人图片集。标定V和C集合中行人图片之间的关系(正样本对或负样本对)，获得标签信息，得到训练样本集。那么，对于第一训练样本集中第i个图片v_i，在集合C中一定存在v_i的正样本集

和v_i的负样本集

为了便于描述，将Cⁱ⁺作为第二训练样本集，C^i-作为第三训练样本集，

为第二训练样本集第j个图片，

为第三训练样本集第j个图片。

在本实施例中，正样本对中两张图片是拍摄于不同摄像头下的同一个行人的图片，负样本对中两张图片是拍摄于不同摄像头下的不同行人的图片。

T₂、图像特征提取

通过该步骤提取训练样本数据集中样本图片的特征向量。

T₃、建立模型

提取训练样本数据集中样本图片的特征向量后，建立基于排序损失的度量函数。

基于度量学习的行人重识别的目标是，希望学习一个最优的特征映射函数，使得训练集中的正样本对距离小于所有负样本对的距离。基于此目标，我们将其直接构建成模型，如式(2)所示，

2、基于排序损失的度量函数的优化

基于排序损失的度量函数的构建后，为了更好地求解模型，需要对模型进行优化(如图2流程示意图中R₁步骤)。

从式(2)我们可以看到，构建的模型由于min函数的存在，导致目标函数不连续且不可导，从而影响模型的求解。为此，我们对模型进行优化，具体地，我们采用p范数作为min函数的光滑近似，如式(3)所示：

那么，优化后的基于排序损失的度量函数如式(4)所示：

优化后的模型，不仅继承了原模型的优点，同时获得了良好的求解性质。其中的参数p控制了正样本对和负样本对之间的距离差，有效地控制了模型的鲁棒性，通过对参数p的分析和合理取值，我们可以得到更好的解。

根据分析和实验验证，p＝-5是一个最优选择，因此在优选实施例中可以采用此优选数值进行计算。

3、基于排序损失的度量函数的计算

通过基于线性搜索的梯度下降法，通过第一训练样本集、第二训练样本集、第三训练样本集对所述基于排序损失的度量函数求解。在求解模型的过程中，通过仅采用一小部分样本参与计算加速模型(如图2中S₁步骤)，然后再求解模型(如图2中S₂步骤)。

求解过程中，每次迭代，对v_i采用其样本对集合中前k个距离最小的样本对参与运算，k为预设数值，k＜M^i-+1，M^i-为第三训练样本集的样本数量；

在第t次迭代时，基于排序损失的度量函数计算如公式(5)所示

其中，

是集合

相应地，计算第t次迭代的梯度值，如式(6)所示：

其中，π_L(v,c)是特征距离度量函数d_v,c关于L的导数，其公式如式(7)所示,

π_L(v,c)＝2L(x_v-x_c)(x_v-x_c)^T (7)

是一个常数。

根据分析和实验验证，k＝2是一个最优选择，因此在优选实施例中可以采用此优选数值进行计算。

4、实时的行人图像重识别

通过1、2、3部分得到特征映射函数L、特征距离度量函数d_v,c，此时可以基于候选行人图片集进行实时的行人图像重识别。

步骤A1，获取新输入的拍摄于某一摄像头下的待识别行人图片(如图2所示重识别过程的“输入样本”步骤)；

步骤A2，通过公式(1)所示的特征距离度量函数d_v,c，计算所述待识别行人图片与所述候选行人图片集中各候选行人图片的特征距离(如图2中V₁步骤)；

步骤A3，基于步骤A2计算得到的特征距离从小到大对候选行人图片集中图片进行排序(如图2中V₂步骤)，选取排第一的(预设G＝1时)图片作为识别结果，并输出结果，实现跨摄像头行人重识别。

在一些实施例中，步骤A3还可以直接选取最小的特征距离对应的候选行人图片作为识别结果，可以降低运算资源的消耗。

一般而言，相匹配的行人图片排序在第一位，即特征距离最小，的概率较大，但为了增加该方法的可用性，还可以选取前G小的(预设G≥1时)特征距离对应的候选行人图片作为识别结果；通过人机交互端口录入判别人员的选定信息，确定最终的识别结果。本实施例中选取G＝10。

本发明的一个实施例基于排序度量函数的行人重识别系统，如图3所示，包括获取模块、特征距离计算模块、识别结果确定模块；

所述获取模块，配置为获取待识别行人图片；

其中，

在优选的基于排序度量函数的行人重识别系统实施例中，所述特征距离度量函数如式(1)所示。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于排序度量函数的行人重识别系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明一个实施例的存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于排序度量函数的行人重识别方法。

本发明一个实施例的处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于排序度量函数的行人重识别方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明方法在基于排序损失的度量函数的优化中，使用p范数作为min函数的光滑近似，参数p控制了正样本对和负样本对之间的距离，有助于模型的泛化能力；在优化过程中，仅仅采用了一小部分的样本对参与计算，对准确率没有损失的情况下，有效地提高了算法的效率；同时，与现有技术相比，本发明采用最直接和直观的方式建模，模型作用于所有样本对，因此能够实现更好的准确率。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。