CN111783521A

CN111783521A - 基于低秩先验引导的域不变信息分离的行人重识别方法

Info

Publication number: CN111783521A
Application number: CN202010424961.0A
Authority: CN
Inventors: 李华锋; 李玲莉; 余正涛; 张亚飞
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2020-10-16
Anticipated expiration: 2040-05-19
Also published as: CN111783521B

Abstract

本发明涉及一种基于低秩先验引导的域不变信息分离的行人重识别方法，属于计算机视觉领域。将域不变信息嵌入到字典学习框架内，构建了跨数据集无监督行人再识别的判别字典学习模型。根据风格信息的低秩先验性，该模型能将混叠在行人图像特征中的域信息和反映行人特征的域不变信息分离开来；同时，鉴于行人属性所具有的域不变性，将属性作为域之间的纽带，用于构建源数据集与目标数据集之间的关系，缩小两者之间的域偏移。最后，通过一种自训练策略来微调之前学习的参数。实验表明，本方法在很多数据集上接近甚至超过了有监督非深度学习以及基于深度学习的无监督域自适应行人重识别的性能。

Description

基于低秩先验引导的域不变信息分离的行人重识别方法

技术领域

本发明涉及一种基于低秩先验引导的域不变信息分离的行人重识别方法，属于计算机视觉领域。

背景技术

行人重识别是一种从不同摄像头下的多张行人图片中搜索相同行人图片的技术。由于该技术在智能监控中发挥着重要作用，因此在学术界和工业界都引起了极大关注。在实际监控环境中，摄像头所拍摄的行人图像往往具有较低的分辨率，同时由于视角差异、光照变化，行人在不同视角下常表现出较强的外貌歧义性，这给行人重识别带来了极大挑战。虽然，基于深度学习的行人重识别近几年在性能上有了显著提升，然而这些方法大多是有监督的学习方法，需要大量的标记样本来训练模型，而大规模样本的标记极其耗费人力物力，这极大地限制了行人重识别技术的适用性。此外，这类有监督的识别方法，在源数据集上训练后，部署到新的数据集上，由于不同数据集之间域的偏畸，性能会显著下降。

为解决该问题，最近的一些工作聚焦在了无监督域自适应行人重识别方法的研究上。这些方法主要通过无监督域不变特征的设计和提取、基于对抗学习的域对齐或图像风格迁移等手段来降低源域与目标域之间空白。然而，无监督域不变特征的设计方法往往很难从数据分布中挖掘信息丰富的判别信息；基于对抗学习的域适应方法常通过不同域特征之间的对抗学习来实现域的对齐，但在对抗学习过程中，提取到的特征往往是来自不同域样本的共有信息，而丢失了不同域样本之间的独有信息，容易加剧样本特征之间的歧义性。基于图像风格迁移的方法虽然有效，但却容易导致迁移图像标签漂移。在行人重识别之外，无监督域自适应的方法也受到了广泛关注，取得了较为显著的研究进展，但这些方法往往假设源域和目标域具有相同或部分相同的类，这种假设和行人重识别的情况不符。此外，在无监督域自适应的方法中，源域和目标域之间往往是单域与单域的问题。但在行人再识别中，带标签的源数据集和不带标签的目标数据集往往都含有多个相机视角(每个相机视角可看成一个域)，因此无监督域自适应的方法不能直接推广应用到行人重识别中。

发明内容

本发明的目的在于针对现有技术的缺点和不足，提出一种基于低秩先验引导的域不变信息分离的行人重识别方法。

本发明采用的技术方案是：一种基于低秩先验引导的域不变信息分离的行人重识别方法，包括如下步骤：

首先，提出低秩成分分解的字典学习模型，将不同相机视角下的行人图像特征，分解成具有低秩特性的风格信息和具有判别性的行人信息，通过将分解出来的风格信息去除，利用剩下的行人信息来训练判别字典学习模型，并将行人信息在其对应字典下的判别系数作为行人的潜在身份特征，用于行人身份判别性度量的依据；

其次，在字典学习模型内，嵌入了属性与特征关联模块，挖掘属性与特征之间的关系，构建从特征到属性的映射，搭建源域与目标域之间的桥梁，在字典学习模型中引入了自重构约束以及身份判别特征与标签一致性约束；

最后，通过选择信任度高的伪标记样本来更新模型，使其更适应目标域数据的识别。

具体步骤如下：

步骤1，问题定义：

和

分别为源域和目标域内的样本集合，s表示源域，t表示目标域，n和m分表表示相机视角个数，v和h表示源域和目标域中的第v和第h个摄像头，n_v和n_h分别表示源域和目标域中每个摄像头下的样本个数。源域中第v个视角下n_v个样本集合表示为

目标域中第h个视角下的n_h个未标记样本集合表示为

和

分别表示源数据集和目标数据集的语义属性，其中

和

表示源域中第i个摄像头下n_i个样本的属性和目标域中第j个摄像头下n_j个样本的属性。Y^s为源域样本的标签集合。在源域中X^s,Y^s,A^s是给定的，而在目标域中，只有视觉特征X^t是给定的。提出方法的主要任务之一是使用在源域中训练的模型来预测目标域的属性A^t，从而实现对目标域标签Y^t的预测；

步骤2，由于域之间的偏移，在跨域的行人重识别中，在源域上训练得到的模型常常不能直接部署到目标数据集上。为解决该问题，根据相同视角下行人图像风格的低秩先验性，建立如下的域不变信息分离模型：

其中，

分别为行人风格特征和行人身份特征在风格字典D∈R^m×d和身份特征字典

下的编码系数，d_i∈R^m和d_0,j∈R^m分别为D的第i个原子和D₀的第j个原子，C^sc是每个摄像头下行人风格特征编码系数的集合，C^s是每个摄像头下行人身份特征编码系数的集合，||·||_*是矩阵的核范数，

λ₁，γ和α₁为平衡参数。公式(1)的第一项表示仅用D₀来重构行人图像的身份特征，第二项表示用D来重构剩余的图像风格特征。第三和第五项是低秩正则项。由于同一视角下，表达域信息的关键成分是由成像风格引入的，具有低秩性，希望这类信息在字典D下具有相似的编码系数，而且能使用相同的原子来表达，这有利于不同成分信息的分离。因此使用

正则化编码系数

由于原始视觉特征是由编码系数和其对应的字典重构得到的，这里将编码系数称之为潜在的特征。

步骤3，由于行人属性特征具有域不变性，且具有一定的判别能力。如果利用有标记且携带属性的训练样本来构建域不变的潜在特征和属性之间的映射关系，将能实现目标域样本属性的预测，便于综合利用属性和域不变特征进行行人身份的确定。为此，在公式(1)的基础上，提出如下的字典学习模型：

其中，T表示的是转置，

表示的是源数据集第v个摄像头下行人的属性，W为关系矩阵，其作用是将反映行人身份的潜在特征空间和属性空间关联起来，β为平衡参数。公式2中，利用了自重构的思想来保证行人身份的潜在特征和属性的一致性。

步骤4，本发明中，源域样本是已标记的，但上述的模型并未利用样本的标签信息。为提升字典的判别性，降低行人特征之间的歧义性，上述的字典学习模型可进一步改进为：

其中，σ和σ₁为平衡参数，

表示第v个视角下的行人标签。为充分挖掘已标记样本的标签信息，期望

能起到分类器的作用，因此引入正则项

来达到这一目的。最小化

是为防止过拟合。

步骤5，为使训练出来的字典在目标数据集上也具有较强的表达能力，让无标记的目标域内部分样本参与到模型的训练中：

其中，λ₂和α₂是平衡参数，

分别是目标数据集样本在字典D∈R^m×d和

下的编码系数。

步骤5.1，对于所有变量来说，步骤5的字典学习模型是非凸的。但如果更新其中一个变量，而固定其它变量时，模型是凸的，因此具有全局最优解。这里采用交替迭代法来获得每个变量的最优解。

步骤5.1.1，首先求解编码系数

此时，求解

的目标函数可以表示为：

该目标函数具有如下形式的解析解：

其中，∑为对角矩阵。同理求得：

求解

的目标函数可表示为：

便于求解，引入松弛变量F_v和

公式(4)可写为：

其中，F_v可由singular value thresholding(SVT)算法求解如下函数得到：

而

有解析解：

其中，

I为一单位阵。获得更新后的F_v，

后，可得

的解析解为：

对于

求解的目标函数可表示为：

为解决该问题，引入辅助变量P_h，公式(9)可写为：

从而P_h可通过求解式(10)来更新：

在P_h更新后，可以求得

的解析式为：

其中，

步骤5.1.2，在得到

之后，求解D，D₀，对于D，其求解的目标函数可表示为：

公式(13)直接用SVT算法来求解，为此将其进行松弛化处理：

其中

这样一来，D₁可以直接采用SVT对公式(14)进行求解更新：

然后，再对D进行更新，目标函数表达式如下：

该问题可使用Lagrange dual进行求解。

对于D₀，其求解的目标函数表达式如下：

为了解决上述问题，引入两个变量H和T，其公式17可表示为：

其中，更新H和T的目标函数分别为：

这两个问题可采用SVT算法来求解。

然后，更新D₀，其目标函数为：

可将公式(21)简化为：

这样公式26可直接由Lagrange dual法来求解。其中

步骤5.1.3，对W进行求解，其目标表达式如下：

为解决上述问题，公式(23)可松弛化为：

从而得到更新L的解析表达式：

其中，

I是单位矩阵。最后得到更新W的公式为：

βC^sC^sTW+WA^sA^sT＝βC^sA^sT+LA^sT (26)

这是一个Sylvester equation，可利用Bartels-stewart算法求解。

步骤5.2，在得到风格字典D和行人身份特征字典D₀之后，可以得风格编码系数

和人身份特征的编码系数

同时，可以获得目标域内的属性特征

和身份矩阵

在得到测试样本行人信息编码系数

行人属性表示

后，可以通过余弦距离得到行人图像对的相似性分数：

其中，z_l，(l＝a,b)表示语义属性空间或视觉特征空间中的一个向量，ε＞0是一个非常要的常数。为综合潜在视觉特征空间和语义属性空间的互补性，最终的相似分数可有下式来求得：

sim_final＝τsim_C+(1-τ)sim_A (31)

其中τ是一个权值。由于属性的判别性较弱，因此取τ＝0.8。

本发明有益效果为：

(1)本发明不仅能有效缓解不同相机视角间域的偏移，还能有效降低被分离后行人身份特征的歧义性，避免行人标签信息的漂移。

(2)本发明将语义属性空间、潜在视觉特征空间以及源域中的行人身份标签关联起来，并利用语义属性的域不变特性，使源数据集学到的知识能够迁移到目标数据集中，提升了字典的判别性。

(3)本发明提出的方法在无监督跨数据行人重识别上，表现出了优异的识别性能。在很多数据集上，性能超过了非深度学习的有监督行人重识别方法，以及基于深度学习的无监督域自适应行人重识别方法。

附图说明

图1为本发明流程图；

图2为本发明权利要求1的说明图。

具体实施方式

下面结合附图2和具体实施例，对本发明做进一步说明。

实施例1：一种基于低秩先验引导的域不变信息分离的行人重识别方法，包括如下步骤：

具体步骤如下：

步骤1，问题定义：

和

目标域中第h个视角下的n_h个未标记样本集合表示为

和

分别表示源数据集和目标数据集的语义属性，其中

和

其中，

正则化编码系数

其中，T表示的是转置，

其中，σ和σ₁为平衡参数，

能起到分类器的作用，因此引入正则项

来达到这一目的。最小化

是为防止过拟合。

其中，λ₂和α₂是平衡参数，

分别是目标数据集样本在字典D∈R^m×d和

下的编码系数。

步骤5.1.1，首先求解编码系数

此时，求解

的目标函数可以表示为：

该目标函数具有如下形式的解析解：

其中，∑为对角矩阵。同理求得：

求解

的目标函数可表示为：

便于求解，引入松弛变量F_v和

公式(4)可写为：

而

有解析解：

其中，

I为一单位阵。获得更新后的F_v，

后，可得

的解析解为：

对于

求解的目标函数可表示为：

为解决该问题，引入辅助变量P_h，公式(9)可写为：

从而P_h可通过求解式(10)来更新：

在P_h更新后，可以求得

的解析式为：

其中，

步骤5.1.2，在得到

之后，求解D，D₀，对于D，其求解的目标函数可表示为：

公式(13)直接用SVT算法来求解，为此将其进行松弛化处理：

其中

这样一来，D₁可以直接采用SVT对公式(14)进行求解更新：

然后，再对D进行更新，目标函数表达式如下：

该问题可使用Lagrange dual进行求解。

对于D₀，其求解的目标函数表达式如下：

为了解决上述问题，引入两个变量H和T，其公式17可表示为：

其中，更新H和T的目标函数分别为：

这两个问题可采用SVT算法来求解。

然后，更新D₀，其目标函数为：

可将公式(21)简化为：

这样公式26可直接由Lagrange dual法来求解。其中

步骤5.1.3，对W进行求解，其目标表达式如下：

为解决上述问题，公式(23)可松弛化为：

从而得到更新L的解析表达式：

其中，

I是单位矩阵。最后得到更新W的公式为：

βC^sC^sTW+WA^sA^sT＝βC^sA^sT+LA^sT (26)

这是一个Sylvester equation，可利用Bartels-stewart算法求解。

和人身份特征的编码系数

同时，可以获得目标域内的属性特征

和身份矩阵

在得到测试样本行人信息编码系数

行人属性表示

后，可以通过余弦距离得到行人图像对的相似性分数：

其中，z_l，(l＝a，b)表示语义属性空间或视觉特征空间中的一个向量，ε＞0是一个非常要的常数。为综合潜在视觉特征空间和语义属性空间的互补性，最终的相似分数可有下式来求得：

sim_final＝τsim_C+(1-τ)sim_A (31)

其中τ是一个权值。由于属性的判别性较弱，因此取τ＝0.8。

下面结合具体数据，对本发明的有效性进行验证。

选择了五个具有挑战性的数据集：VIPeR，PRID450s，PRID2011，CUHK01和GRID对提出方法的性能进行验证。其中，VIPeR包含了632个行人图像对，分别来自两个不同的相机视角，每个行人在每个相机视角下只有一幅图像。GRID有1275个行人，拍摄于8个不相交的相机视角，且拍摄背景复杂多变，而且只有250个行人同时出现在两个相机视角下，其余的行人仅出现在一个相机视角下。PRID2011数据集拍摄于两个不同相机视角，一个拍摄了385张行人图片，另一相机拍摄了749个行人图片，其中有200个行人同时出现在两个摄像头下。由于这两个数据集有较多的干扰图像，因此更接近于现实情况，也更具挑战性。CUHK01共有3884张图片，来自971个行人，每个行人在每个视角下有两张图片。PRID450s有450个身份，每个摄像头下一个行人只出现一次。由于光照变化、复杂背景影响、相机视角差异等因素的影响，行人视觉特征极具歧义性，因此给行人身份的识别带来了挑战。

在上述数据集中，只有VIPeR，PRID2011，GRID标注了语义属性。在跨数据集行人重识别中，这些标注了语义属性的数据集被用作训练集，而未被标注语义属性的数据集可被用作测试集和验证集。将上述的单个数据集的全部样本用来训练模型，而将目标数据集中的样本，按行人身份分成互不重叠的两个子集，一个参与模型的训练，另一个用于模型的测试，并随机取十组数据的平均值作为结果。在所提方法的模型中，一共有10个超参数，其中包括字典D和D₀的尺度大小d和d₀，和8个正则化参数α₁，α₂，λ₁，λ₂，σ，σ₁，β，γ。在跨数据集行人重识别中，设定d＝650，d₀＝800，α₁＝0.1，α₂＝0.1，λ₁＝0.6，λ₂＝0.5，σ＝5，σ₁＝6，β＝0.15，γ＝0.5。在特征的选择上，采用Gaussian of Gaussian(GOG)descriptor来描述行人的外貌特征。在属性表示上，本发明使用的VIPeR，PRID2011，GRID数据集上的属性定义是由R.Layne et所标注的.

实验结果1：在VIPeR上的实验,将PRID2011作为源数据集，VIPeR作为目标数据集。对比方法中，有监督的识别方法包括Mid-level(2014)，FT-JSTL+DGD(2016)，FT-JSTL+DGD(2016)等。这些方法用来与提出的无监督行人重识别的方法作对比，来现实本发明提出方法与有监督的方法之间的差距。此外，还与一些比较典型的无监督行人重识别的方法进行了对比，这些方法包括AdaRSVMs(2015)，Adversarial(2016)，UMDL(2016)，CAMEL(2017)，UJSDL(2018)和DECAMEL(2019)。对比结果如表1所示。由此可以看出，在VIPeR上，本发明所提方法的识别性能距离有监督的方法虽然还有些差距，但与无监督的识别方法相比，本发明方法的性能均高于它们，而且超过了深度学习的方法DECAMEL(2019)。这证明了本发明方法的有效性和优越性。

表1在VIPeR数据集上的识别性能与一些先进的有监督和无监督算法的识别性能比较，“-”表示没有识别结果可用。

实验结果2：在PRID450s上的实验：将VIPeR作为源数据集，PRID450s作为目标数据集，所提方法的实验结果与一些先进的有监督和无监督算法作了对比。其中，有监督的方法包括GOG+XQDA(2016)，KISSME-MGT(2017)，TDRP(2019)[90]。无监督的方法主要有AdaRSVMs(2015)，cMAT-DCA(2016)，UMDL(2016)，TSR(2017)，UJSDL(2018)和AIESL(2019)。在该数据集上，不同方法的识别结果如表2所示。由此可以发现，本发明方法的识别性能超过了最新的有监督算法TDRP(2019)的识别性能，而且超过了无监督深度学习识别算法DECAMEL(2019)和无监督字典学习算法AIESL(2019)的识别性能。这表明本发明算法和其它方法相比，表现出了较强的竞争优势，且不需要大量有标记的训练样本来训练深度学习模型。

表2在PRID450s数据集上的识别性能与一些先进的有监督和无监督算法的识别性能比较，“-”表示没有识别结果可用。

实验结果3：在PRID2011上的实验，在该实验中，将VIPeR做为源数据集，PRID2011作为目标数据集。在该实验中，一些性能优异的有监督算法，如aMTL-LOREA(2015)，MKFSL(2017)，Triplet Loss(2016)，LOMO+LADF(2017)[88]被用来与的方法作对比。此外,选取了无监督行人重识别的方法：UMDL(2016)，TJ-AIDL(2018)，JSLAM(2018)，AIESL(2019)，ATNet(2019)，DIMN(2019)与的方法进行比较，以显示方法的优越性。对比结果如表3所示。由此可以发现，在rank1的识别率上，本发明算法不仅超过了无监督深度学习方法MMFA(2018)、ATNet(2019)、DIMN(2019)和无监督字典学习方法AIESL(2019)，还超过了有监督学习的方法JSLA(2018)。

表3在PRID2011数据集上的识别性能与一些先进的有监督和无监督算法的识别性能比较，“-”表示没有识别结果可用。

实验结果4：在GRID上的实验：在该实验中，用VIPeR作为源数据集，而将GRID用作目标数据集，并与一些经典的有监督的识别方法如：GOG+XQDA(2016)，MKFSL(2017)，CSPL(2018)，DSRPDL(2019)，以及无监督的识别方法SSDAL(2016)，TLSTP(2018)，DIMN(2019)，AIESL(2019)进行了比较，对比结果如表4所示。由于GRID数据集携带了大量干扰图像，因此要在该数据集上进行行人身份的匹配充满了挑战。由表4中的数据可以看出，本发明提出的方法在性能均超过了有监督的方法和无监督深度学习的方法，在rank1的识别率上达到了38.56％，分别高于有监督识别方法DSRPDL(2019)7.04％和无监督深度学习方法DIMN(2019)9.28％。

表4在GRID数据集上的识别性能与一些先进的有监督和无监督算法的识别性能比较，“-”表示没有识别结果可用。

实验结果5：在CUHK01上的实验，为进一步验证本发明算法的性能，将VIPeR用作源数据集，CUHK01用作目标数据集，识别结果和一些有监督算法GOG+XQDA(2016)，TripletLoss(2016)，LOMO+LADF(2017)，MVLDML(2018)以及无监督的识别算法UDML(2016)，TSR(2017)，CAMEL(2017)，UJSDL(2018)，DECAMEL(2019)进行了比较。对比结果展示在表5中。由此可以看出，本发明结果与无监督深度方法DECAMEL(2019)相比，该算法的rank1值能高出约1.35％，与性能优异的有监督识别算法GOG+XQDA(2016)相比，在rank1上的识别率也有了略微提升。

表5在CUHK01数据集上的识别性能与一些先进的有监督和无监督算法的识别性能比较，“-”表示没有识别结果可用。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于低秩先验引导的域不变信息分离的行人重识别方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的基于低秩先验引导的域不变信息分离的行人重识别方法，其特征在于，具体步骤如下：

步骤1，问题定义：

和

分别为源域和目标域内的特征样本集合，s表示源域，t表示目标域，n和m分表表示相机视角个数，v和h表示源域和目标域中的第v个和第h个摄像头，n_v和n_h分别表示源域和目标域中每个摄像头下的样本个数，源域中第v个视角下n_v个样本集合表示为

目标域中第h个视角下的n_h个未标记样本集合表示为

和

分别表示源数据集和目标数据集的语义属性，其中

和

表示源域中第i个摄像头下n_i个样本的属性和目标域中第j个摄像头下n_j个样本的属性，Y^s为源域样本的标签集合，在源域中X^s,Y^s,A^s是给定的，而在目标域中，只有视觉特征X^t是给定的，提出方法的主要任务之一是使用在源域中训练的模型来预测目标域的属性A^t，从而实现对目标域标签Y^t的预测；

步骤2，域不变分离模型的建立：根据相同视角下行人图像风格的低秩先验性，建立如下的域不变信息分离模型：