CN111353443A

CN111353443A - 一种基于跨视图核协同表示的行人再识别方法

Info

Publication number: CN111353443A
Application number: CN202010141525.2A
Authority: CN
Inventors: 张国庆; 蒋同
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2020-03-02
Filing date: 2020-03-02
Publication date: 2020-06-30
Anticipated expiration: 2040-03-02
Also published as: CN111353443B

Abstract

本发明涉及一种基于跨视图核协同表示的行人再识别方法，属于行人再识别技术领域。本发明的方法首先对数据集进行预处理，然后划分训练、测试集，再进行特征提取与降维；并进行跨视图核协同表示，最后识别待测样本。本发明采用了跨视图核协同表示方法，按照不同的视图分别处理样本，用CRC协同表示同一视图下的样本得到该视图所有样本的协同表示编码，然后对不同视图下同一个人的协同表示编码加上彼此相似性约束，最后将不同视图的CRC模型和编码相似性约束整合到同一个多任务学习框架中，联合地学习跨视图样本的协同表示编码，通过这种方式使CRC更适用于行人再识别任务。因此，本方法应对跨视图行人图像间的外观差异具有更强的鲁棒性。

Description

一种基于跨视图核协同表示的行人再识别方法

技术领域

本发明涉及一种基于跨视图核协同表示的行人再识别方法，属于行人再识别技术领域。

背景技术

行人再识别(Person re-identification,Re-ID)起源于多摄像头跟踪，用于判断非重叠视域中拍摄到的不同图像中的行人是否属于同一个人。行人再识别涉及计算机视觉、机器学习、模式识别等多个学科领域，可以广泛应用于智能视频监控、安保、刑侦等领域。近年来，行人再识别技术引起了学术界和工业界的广泛关注，已经成为计算机视觉领域的一个研究热点。

对行人再识别的研究可以追溯到2003年，Porikli等人利用相关系数矩阵建立相机对之间的非参数模型，获取目标在不同相机间的颜色分布变化，实现了跨视域的目标匹配。2006年，Gheissari等人首次提出行人再识别的概念，利用颜色和显著边缘线直方图实现行人再识别。经过多年的研究，行人再识别取得了诸多有意义的成果。2010年，Farenzena等人第一次在计算机视觉领域的顶级会议CVPR(Computer vision and patternrecognition)上发表了关于行人再识别的文章《Person re-identification bysymmetry-driven accumulation of local features》。自此以后，在计算机视觉领域的国际重要会议和权威期刊中，行人再识别都成为一个重要的研究方向，涌现了大量的研究成果。尤其是近年来，很多学者和研究机构陆续公布了专门针对行人再识别问题的数据集，极大地推动了行人再识别研究工作的开展。

现有行人再识别的典型流程如图1所示。对于摄像头A和B采集的图像/视频，首先进行行人检测，得到行人图像。为了消除行人检测效果对再识别结果的影响，大部分行人再识别算法使用已经裁剪好的行人图像作为输入。然后针对输入图像提取鲁棒的特征，获得能够描述和区分不同行人的特征表达向量。最后根据特征表达向量进行相似性度量，按照相似性大小对图像进行排序，相似度最高的图像将作为最终的识别结果。

行人再识别包括两个核心部分：1)特征提取与表达——从行人外观出发，提取鲁棒性强且具有较强区分性的特征表示向量，有效表达行人图像的特性；2)相似性度量——通过特征向量之间的相似度比对，判断行人的相似性。

协同表示分类器(CRC)是一种高效高速的分类器,现已广泛应用于图像识别领域。CRC的基本思想是利用所有训练样本一起来协同表示该测试样本，进而得到协同表示编码。然后选择出和某一类训练样本相对应的类编码，最后用类编码计算由该类训练样本对测试样本进行重构的残差，重构残差最小的类标签即为该测试样本的类别。CRC在处理单视图(样本均采集自同一个摄像头，即单视图)问题时，由于图像间的外观差异不大，其空间分布可以近似为线性的，而CRC刚好是一种线性模型，因此有很好的表现。但是在处理行人再识别(样本采集自多个非重叠摄像头，即多视图)问题时，因为不同视图下的行人图像由于光照、色调、背景噪声等因素干扰，其外观差异很大，此时样本的空间分布是非线性的，传统的CRC已不能处理此类问题，因此需要对CRC进行改进以适应于行人再识别任务。

另一方面，为了线性地区分各类样本，人们通常采用核方法来产生一种非线性映射机制，将原始样本投影到一个高维核特征空间，在此空间中异类的样本将更易于线性地区分开。但是这也带来一个弊端，那就是核特征空间中样本的特征维度往往很高，而且有时是无限维的，过高的维度会使后续的优化求解变得复杂。因此需要对经过核函数投影后的特征进行降维。

发明内容

本发明的目的主要在于解决现有技术中行人再识别场景中由于光照、色调、噪声等干扰因素导致的跨视图行人图像彼此差异过大的问题，提出了一种基于跨视图核协同表示方法来提取对于视图差异不敏感的协同表示编码，最后通过比较不同样本的协同表示编码来识别待测行人。

为了达到上述目的，本发明提出的技术方案为：一种基于跨视图核协同表示的行人再识别方法，其特征在于，包括如下步骤：

步骤一、利用A、B两摄像机拍摄行人图像，记为A、B两视图，从两视图中分别采集行人图像样本作为数据集，对数据集预处理，并划分训练集和测试集；

步骤二、对训练集和测试集中的样本进行特征提取；

步骤三、利用核方法将所有样本映射到一个高维核特征空间；

步骤四、对高维核特征空间中的样本进行降维；

设两个视图的高维核特征空间中的鉴别投影为P_y，

目标维度为dim，且dim＜＜s，则它们满足：P_y＝φ(Y)A_y,P_x＝φ(X)A_x，其中，A_y，

分别表示P_y，P_x对应的变换矩阵；

A_y通过求解如下广义特征值问题得到：K_yβ_y＝γ_yβ_y

则

其中

是通过K_yβ_y＝γ_yβ_y求得的第i个最大特征值

对应的特征向量，i＝1,2,…,dim.

是核特征空间中的样本核矩阵；降维后，A视图的训练样本的数据矩阵为：

同理，B视图的训练样本数据矩阵为

其中K_x为核矩阵；

测试集的核数据矩阵为

降维后，相应的数据矩阵为

其中K_yg，K_xp为相应的核矩阵。

步骤五、利用跨视图核协同表示方法对Y_gallery，X_prob中的样本进行协同表示；

Y_gallery，X_prob的协同表示编码矩阵为：

其中，

I是单位矩阵，λ,ζ是正则化参数，其中

分别是X_prob和Y_gallery对应的编码矩阵；

步骤六、依据余弦相似性度量逐对比较Y_gallery，X_prob中样本的协同表示编码，按照相似度大小确定X_prob中样本的身份标签。

对上述技术方案的进一步设计为：所述步骤一中，数据集预处理包括去除不合格样本、整理样本标签、图像去噪，图像增强和图像规范化。

所述步骤一中，划分训练集和测试集的方法为：分别从A、B摄像机采集的数据集中选取n张有标签行人图像作为训练集，用

和

分别表示由摄像机A和B采集的n个有标签训练样本，其中Train_datasetA的第i列

表示采集自摄像机A的第个样本，Train_datasetB的第j列

表示采集自摄像机B的第j个样本，f为数据维度；

分别选取m₁张来自摄像机A的有标签行人图像，记为

m₂张来自摄像机B的待测行人图像，记为

作为测试集。

所述A、B两视图下同一个人的样本在样本矩阵Train_datasetA，Train_datasetB中具有相同的列索引，即a_i与b_i，i＝1,2,…,n，且具有相同的身份标签。

测试集中m₁张来自摄像机A的行人图像与训练集中的样本具有不同的身份标签。

所述步骤二中利用分层高斯描述子提取GOG特征，并利用子空间学习算法XQDA对高维GOG特征进行降维，得到分别对应于Train_datasetA，Train_datasetB，Prob_dataset，Gallery_dataset的新的数据矩阵

和

d为样本的特征维度。

所述步骤三的具体步骤为：设非线性映射为φ(·)，则原始训练样本会被映射到高维空间，即：

映射后的训练样本数据矩阵可以表示为：

对于

和

映射后的高维数据矩阵表示为

所述步骤六种按照相似度大小确定X_prob中样本的身份标签的具体方法为：对于X_prob中的待测样本

计算它的协同表示编码

与Y_gallery中每个样本

的协同表示编码

之间的相似度：

对于X_prob中的待测样本，它们的相似度可以构成相似度矩阵Sim(Λ_p,Λ_g)，且其第i行j列的元素为

对于X_prob中的第i个待测样本

寻找Sim(Λ_p,Λ_g)中第i行Sim(i,:)中的最大的相似度Sim(i,l)，则

的身份标签就与Y_gallery中的第l个样本

的身份标签相同，i＝1,2,…,m₂；j,l＝1,2,…,m₁。

本发明与现有技术相比具有的有益效果为：

本发明主要利用了协同表示分类器(CRC)来解决行人再识别问题，因为CRC省去了训练过程，所以本方法的再识别速度很快。另外，相较于深度学习技术，由于CRC对训练样本的数量要求较低，所以即使在较少样本的情况下，本方法依然有很好的表现。除此以外，本发明还针对上文中提及的CRC的不足进行了适应行人再识别任务的改进。

首先，为了克服跨视图样本间的非线性分布问题，本发明采用了跨视图核协同表示方法。具体来说就是，按照不同的视图分别处理样本，用CRC协同表示同一视图下的样本得到该视图所有样本的协同表示编码，然后对不同视图下同一个人的协同表示编码加上彼此相似性约束，最后将不同视图的CRC模型和编码相似性约束整合到同一个多任务学习框架中，联合地学习跨视图样本的协同表示编码，通过这种方式使CRC更适用于行人再识别任务。因此，本方法应对跨视图行人图像间的外观差异具有更强的鲁棒性。

其次，为了降低核特征空间中特征维度，本发明采用了核主成分分析(KPCA)方法来降低核特征空间的维度，进而降低后续的优化求解复杂度。因此，本方法的求解过程简洁高效。

附图说明

图1为行人再识别典型流程图；

图2为本发明跨视图核协同表示行人再识别典型流程图。

具体实施方式

下面结合附图以及具体实施例对本发明进行详细说明。

实施例

本实施例的基于跨视图协同表示的行人再识别方法的流程图如图2所示。

步骤1：对分别采集自摄象机A和B的行人图像样本进行数据集预处理，其工作内容包括：去除不合格样本、整理样本标签、图像去噪，图像增强，图像规范化等操作。然后将样本划分为训练集和测试集。

在本实施例中我们针对单次拍摄(one-shoot)场景(即，每个视图下每个行人各有一张图像，且训练和测试选择的行人图像身份也不同)，因此我们各选择A和B视图中的n张有标签行人图像作为训练集，我们用

和

分别表示由摄像机A和B采集的n个有标签训练样本，其中Train_datasetA，Train_datasetB的第i，j列

分别表示采集自摄像机A，B的第i，j个样本，它们的数据维度是f。由于我们研究的是单次拍摄场景，所以我们规定不同视图下同一个人的样本在样本矩阵Train_datasetA，Train_datasetB中应具有相同的列索引，即a_i与b_i，i＝1,2,…,n应具有相同的身份标签。另外对于测试集，它包括两部分：m₁张来自视图A的有标签行人图像(它们和训练集中的样本具有不同的身份标签)，记为

m₂张来自视图B的待测行人图像(身份未知)，记为

用于匹配Prob_dataset与Gallery_dataset中的行人图像。

为便于描述，我们用

和

分别表示由摄像机A和B采集的n个有标签训练样本，其中Y，X的第i，j列

分别表示采集自摄像机A，B的第i，j个样本，它们的特征维度是d。设非线性映射为φ(·)，则原始训练样本会被映射到高维空间，即：

相应地，映射后的训练样本数据矩阵可以表示为：

对于某对待测样本y，

映射后的高维特征向量是φ(y)，

步骤2：用特定的特征提取算法对训练集和测试集中的样本进行特征提取；

对经过预处理的训练、测试样本执行指定的特征提取操作，利用显著特征描述子(Salience)、分层高斯描述子(GOG)、局部最大发生表示(LOMO)、最大粒度结构描述子(MGSD)等特征描述子提取相应特征。在特征提取时，按具体性能表现有选择的提取一种或融合几种特征用于后续的再识别过程。

本实施例采用分层高斯描述子(GOG)提取GOG特征，并且利用子空间学习算法XQDA对高维GOG特征进行降维，得到分别对应于Train_datasetA，Train_datasetB，Prob_dataset，Gallery_dataset的新的数据矩阵

它们样本的特征维度为d；

步骤3：利用核方法将所有样本映射到一个高维核特征空间。

特征提取后，如果特征维度过高则还需要对训练、测试样本的特征进行降维，比如进行主成分分析(PCA)。最后将经过特征提取、降维后的训练、测试集数据矩阵(各样本的特征数据转换成列向量的形式，按列组成一个向量组，即数据矩阵)进行规范化处理，使每个样本的特征向量为单位向量。

设非线性映射为φ(·)，原始训练样本会被映射到高维空间，即：

相应地，映射后的训练样本数据矩阵可以表示为：

对于

和

映射后的高维数据矩阵表示为

步骤4：对高维核特征空间中的样本进行降维。本方法对投影到核特征空间的数据进行了额外的降维处理，进而降低后续求解过程的时间和空间复杂度。设两个视图的高维核特征空间中的鉴别投影为P_y，

目标维度为dim，且dim＜＜s，则它们满足：P_y＝φ(Y)A_y,P_x＝φ(X)A_x其中A_y，

分别表示P_y，P_x对应的变换矩阵。则A_y可通过求解如下广义特征值问题得到：

K_yβ_y＝γ_yβ_y

则

其中

是通过K_yβ_y＝γ_yβ_y求得的第i个最大特征值

对应的特征向量，i＝1,2,…,dim.

是核特征空间中的样本内积矩阵，即核矩阵。因此经过KPCA降维后，A视图的训练样本的数据矩阵为：

同理，B视图的训练样本数据矩阵为

其中K_x为核矩阵。测试集的核数据矩阵为

经过KPCA降维后，相应的数据矩阵为

其中K_yg，K_xp为相应的核矩阵。

步骤5：利用跨视图核协同表示方法对Y_gallery，X_prob中的样本进行协同表示。

为了更易线性地区分不同身份的行人图像，在协同表示之前要将原始数据投影到一个高维特征空间，具体而言就是用一个指定的非线性核函数将训练和测试数据投影到一个核特征空间，由于核特征空间的维数非常高或者有可能是无穷维，因此有必要在对核特征空间进行降维。主要采用一些基于核方法的降维方法，比如核主成分分析。最后，对核特征空间中的训练、测试样本进行跨视图核协同表示，进而得到训练、测试集的协同表示编码矩阵。

为了克服传统CRC不适应于跨视图行人再识别的弊端，本方法将每个单视图的CRC过程整合到同一个多任务学习框架，同时加上对表示编码的约束项，联合地学习协同表示编码。

具体描述如下：

对于A视图下的某个待测样本y，经过非线性映射降维之后，样本y可以表示为

用A视图中所有训练样本对待测样本y进行重构，设重构系数为α_y，根据最小二乘法得到下式：

对系数α_y进行2范数约束，得到单视图核CRC模型：

同理对于B视图下的已知行人样本x，也可得到B视图核CRC模型：

将两个视图的核CRC模型、系数相似性约束项，整合到同一个多任务学习框架中，得到跨视图核协同表示分类模型的目标函数：

当有多个待测样本时，若测试集包括来自B视图的待测样本集

和来自A视图的已知行人样本集

则目标函数还可以写成如下矩阵形式：

其中，

分别是Y_gallery，X_prob的协同表示编码矩阵，K_yg＝φ(Y)^Tφ(Y_gallery)，K_xp＝φ(X)^Tφ(X_prob)是核矩阵。

经过一系列的代数优化，最终可得Y_gallery，X_prob的协同表示编码矩阵：

其中，

I是单位矩阵，λ,ζ是预设正则化参数。

依据上述跨视图核协同表示方法的求解公式，可得Y_gallery，X_prob的协同表示编码矩阵：

其中，

I是单位矩阵，λ,ζ是正则化参数，其中

和

分是

X_prob和Y_gallery对应的编码矩阵。

步骤6：依据余弦相似性度量逐对比较Y_gallery，X_prob中样本的协同表示编码，按照相似度大小确定X_prob中样本的身份标签。具体而言，对于X_prob中的某个待测样本

计算它的协同表示编码

与Y_gallery中每个样本

的协同表示编码

之间的相似度：

对于所有X_prob中的待测样本，它们的相似度可以构成相似度矩阵Sim(Λ_p,Λ_g)，且其第i行j列的元素为

对于X_prob中的第i个待测样本

寻找Sim(Λ_p,Λ_g)中第i行Sim(i,:)中的最大的相似度Sim(i,l)，则

的身份标签就与Y_gallery中的第l个样本

的身份标签相同，i＝1,2,…,m₂；j,l＝1,2,…,m₁。。

本发明的技术方案不局限于上述各实施例，凡采用等同替换方式得到的技术方案均落在本发明要求保护的范围内。

Claims

1.一种基于跨视图核协同表示的行人再识别方法，其特征在于，包括如下步骤：

训练集记为：

和

测试集记为：

和

步骤二、对训练集和测试集中的样本进行特征提取；

步骤四、对高维核特征空间中的样本进行降维；

设两个视图的高维核特征空间中的鉴别投影为P_y，

分别表示P_y，P_x对应的变换矩阵；

A_y通过求解如下广义特征值问题得到：K_yβ_y＝γ_yβ_y

则

其中

是通过K_yβ_y＝γ_yβ_y求得的第i个最大特征值

对应的特征向量，

同理，B视图的训练样本数据矩阵为

其中K_x为核矩阵；

测试集的核数据矩阵为

降维后，相应的数据矩阵为

其中K_yg，K_xp为相应的核矩阵。

步骤五、利用跨视图核协同表示方法对Y_gallery，X_pro_b中的样本进行协同表示；

Y_gallery，X_prob的协同表示编码矩阵为：

其中，

I是单位矩阵，λ,ζ是正则化参数，其中

分别是X_prob和Y_gallery对应的编码矩阵；

2.根据权利要求1所述基于跨视图核协同表示的行人再识别方法，其特征在于：所述步骤一中，数据集预处理包括去除不合格样本、整理样本标签、图像去噪，图像增强和图像规范化。

3.根据权利要求1所述基于跨视图核协同表示的行人再识别方法，其特征在于：所述步骤一中，划分训练集和测试集的方法为：分别从A、B摄像机采集的数据集中选取n张有标签行人图像作为训练集，用

和

表示采集自摄像机A的第个样本，Train_datasetB的第j列

表示采集自摄像机B的第j个样本，f为数据维度；分别选取m₁张来自摄像机A的有标签行人图像，记为

m₂张来自摄像机B的待测行人图像，记为

作为测试集。

4.根据权利要求3所述基于跨视图核协同表示的行人再识别方法，其特征在于：A、B两视图下同一个人的样本在样本矩阵Train_datasetA，Train_datasetB中具有相同的列索引，即a_i与b_i，i＝1,2,…,n，且具有相同的身份标签。

5.根据权利要求4所述基于跨视图核协同表示的行人再识别方法，其特征在于：测试集中m₁张来自摄像机A的行人图像与训练集中的样本具有不同的身份标签。

6.根据权利要求1所述基于跨视图核协同表示的行人再识别方法，其特征在于：所述步骤二中利用分层高斯描述子提取GOG特征，并利用子空间学习算法XQDA对高维GOG特征进行降维，得到分别对应于Train_datasetA，Train_datasetB，Prob_dataset，Gallery_dataset的新的数据矩阵