CN109409201B

CN109409201B - 一种基于共享及特有字典对联合学习的行人再识别方法

Info

Publication number: CN109409201B
Application number: CN201811030966.4A
Authority: CN
Inventors: 李华锋; 许佳佳; 周维燕
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2021-06-18
Anticipated expiration: 2038-09-05
Also published as: CN109409201A

Abstract

本发明提出一种基于共享及特有字典对联合学习的行人再识别方法，属于数字图像处理技术领域。由于行人均由反映其相似性的共享成分以及身份唯一性的特有成分构成。因此提出通过剔除特征的共享成分，来降低行人视觉之间的歧义性。为此，本发明提出一种共享与特有成分字典联合学习框架，并引入同一行人特有成分在特有字典下编码系数的距离与相干约束项，迫使相同行人具有相似的编码系数，不同行人具有较弱的相干性；此外，针对共享字典与特有成分字典，分别引入低秩与稀疏约束项来提升其表达能力及其判别性。实验结果表明，本发明提出的方法相对于传统方法具有更高的识别性能。

Description

一种基于共享及特有字典对联合学习的行人再识别方法

技术领域

本发明涉及一种基于共享及特有字典对联合学习的行人再识别方法，属于数字图像处理技术领域。

背景技术

行人重识别作为视频分析的关键任务之一，可以自动的对来自多个摄像头视角下的行人图像进行匹配。然而在现实中，因考虑到经济因素，不同摄像机之间的监控区域往往是非重叠且不连续的。此外，受摄像头视角、光照变化、复杂背景及遮挡因素的影响，行人图像的外貌特征通常表现出了较大的歧义性，这给行人再识别技术带来了极大挑战。

为降低行人视觉特征之间的歧义性，提升行人再识别的性能，研究者做了很多工作，并提出了一系列有效的方法，使该技术得到了较快发展。根据研究者侧重点的不同，这些方法可以分为基于特征描述子的方法和基于度量学习的方法两大类。其中，基于特征描述子的方法，是研究如何从行人图像中提取判别力强，鲁棒性好的特征，用于行人图像匹配。如:Bag-of-Words(BOW)技术，Local Maximal Occurrence(LOMO)的描述子，Ensembleof localized features(EOLF)描述子等等，上述特征描述方法虽然在一定程度上能提供一种鲁棒的行人特征表示，但在不同行人特征之间存在的低秩成分依然存在，而这些成分恰恰是行人相似性的主要体现者。因此，单纯地使用鲁棒特征来提升算法的识别性能，是远远不够的。

为解决特征描述子判别能力有限的缺陷，研究者提出了基于度量学习的行人再识别方法这类方法通常使用标记样本来学习一个映射矩阵将原始特征空间投影到另一个更具区分性的特征空间，从而使不同行人图像间的具有较大的发散性，相同行人图像间的具有较小的发散性。与基于特征描述子的方法相比,基于度量学习的行人再识别研究侧重点集中在如何通过模型设计来克服因光照变化、视角不同、姿势改变、遮挡等因素所导致的同一行人，在不同条件下所表现出的不相似性，以及不同行人所表现出的相似性。在度量学习中，由于利用了训练样本的标签信息，学习到的度量矩阵能够有效反映样本的特性，因而在识别中能得到较好的性能。但这类方法仍然不能有效避免不同行人之间相似性较高成分对匹配精度的影响。

为克服相同行人在不同视角下所表现出的差异性，研究者将不同视角下具有相同身份的行人图像在共有成分字典与特有成分字典下，分解成共享成分与特有成分，并通过对相同行人稀疏编码系数一致性约束来提升字典的判别性。但该方法仅仅考虑了同一行人不同视角下的相似性，而忽略了不同行人之间的相似性对识别算法的影响。

发明内容

本发明要解决的技术问题是提供了一种基于共享及特有字典对联合学习的行人再识别方法，在本发明提出的方法中，首先假设不同视角下的行人图像具有视觉相似的共享成分以及能反映自身身份信息的特有成分构成。据此，设计了基于行人外貌特征分解的字典联合学习框架。在该框架内，为使字典不同成分的字典具有较强的判别性，对共享字典与特有字典分别引入了低秩与稀疏性约束。此外，考虑到不同视角下相同行人图像身份的一致性，不同视角下具有不同标签行人共享成分的相似性以及特有成分的不相干性，分别对编码系数引入了一致性约束项和不相干约束项，来进一步提升字典的判别性能。实验结果表明，本发明所提出的方法能获得较好的识别性能。

本发明采用的技术方案是：一种基于共享及特有字典对联合学习的行人再识别方法，包括如下步骤：

Step1：首先从公开的图像集中选择训练样本。

Step2：利用训练样本学习字典和投影矩阵；

Step3：行人图像的相似性匹配。

具体地，所述的Step1具体步骤如下：

Step1.1：从已知的公共数据如：VIPeR数据集，CUHK01数据集，PRID450S数据集等中选取两个数据集，选择数据集作为训练样本时需要具有很大的挑战性，来保证本文发明的有效性。

Step1.2：通过已知的LOMO特征提取方法，将选中的数据集图像的特征提取出来，并将其平均分成两等份，作为训练集和测试集。

具体地，所述的Step2具体步骤如下：

Step2.1：本发明字典学习目标函数的构建；

Step2.2：本发明字典学习目标函数的求解；

具体地，所述的Step3具体为：

通过训练样本得到字典矩阵和映射矩阵，求解得到编码系数通过距离公式计算大小进行排序，得到查询图像。

更具体地，所述Step2.1的具体步骤如下：

Step2.1.1：首先假设训练样本来自a和b两个视角，在字典学习中，假设用于表达共有成分的字典为D_s，在此字典下的编码系数为Z_s，用于表达独有成分的字典为D_u以及在此字典下的编码系数为Z_u。

在(2.1)式中Y_l＝[y₁,y₂…y_N](l＝a,b)是由l视角下的N个行人图像特征采集得到训练样本所构成的矩阵，正则项ηtr(Z_sLZ_s ^T)描述行人之间所具有的共有信息，tr(·)是矩阵的迹，L＝C-U，L是个拉普拉斯矩阵，C是一个对角矩阵

U是m行m列，元素全为1的矩阵，u_ij表示矩阵U的第i行第j列元素，Z_s是共享字典的编码系数，Z_a,u、Z_b,u分别为a和b两个视角下特有字典的编码系数，η为一大于零的参数，用来调整正则项tr(Z_sLZ_s ^T)在目标函数中所起的作用，||·||_F是F范数，T为矩阵的转置；

Step2.1.2：由于行人共有信息通常表现出较强的相关性，因此用以表达该信息的字典D_s的原子之间同样应该具有较强的相关性，这说明D_s是低秩的。同时，用于表达行人身份的信息往往是特有的，这类信息通常表现出较强的稀疏性，因此用于表达该信息成分的字典D_u应该具有稀疏特性。综合考虑到这些问题，本文提出公式(2.2)来计算共享字典和特有字典：

其中，||·||_*是核范数，||·||₁是l₁范数；

Step2.1.2：由于描述行人特有成分时所使用的字典均为D_u，反映行人身份特征的信息主要蕴含在对应的编码系数Z_a,u与Z_b,u中。因此，不同行人之间的编码系数具有较强的非相干性，也就是说

应该具有较小的值。本发明通过提出公式(2.3)来计算特有字典的稀疏系数Z_a,u、Z_b,u和Z_s：

式子(3)中，

用以刻画不同行人编码系数之间的相干性，

用以避免相同行人之间的相关性被过渡限制；

Step2.1.3：在a，b两个不同的视角下，由于光照变化、视角差异、成像风格的不同，同一行人在原始特征空间内往往表现出较大的差异，为缓解这一问题，在最小化式(2.1)中，引入投影变换算子W_l(l＝a,b)，将行人图像的原始特征映射到低维判别空间，使不同视角下的同一行人编码系数之间的距离最小，不同行人编码系数之间的相关性较弱。因此本发明通过提出公式(2.4)，采用交替迭代法更新得到最终需要的投影矩阵W_a和W_b：

其中，Y_l＝[y₁,y₂…y_N](l＝a,b)为训练样本，W_a、W_b分别为a和b两个视角下的投影矩阵，λ₁为平衡参数。

更具体地，所述Step2.2的具体步骤如下：

Step2.2.1：目标函数需要求解变量W_a,W_b,Z_a,u,Z_b,u,Z_s,D_s,D_u，由于变量W_a，W_b，D_s，D_u，Z_a,u，Z_b,u和Z_s是非凸的，无法直接使用凸优化的方法求解。但若求某个变量，而其它变量固定时，目标函数可根据具体算法来求解。本文中，采用交替迭代法来求解字典模型的目标函数。

Step2.2.2：求解编码系数Z_a,u，Z_b,u和Z_s

首先求解编码系数Z_s，通过固定W_a，W_b，D_s，D_u，Z_a,u和Z_b,u，计算公式如下：

对于上述公式，很难直接求出最优解，为此，引入松弛变量Z～_s，则上述目标函数可改写为：

其中，松弛变量

可以通过以下公式求解：

通过分别求解

和Z_s闭合解，依次迭代更新。

同理固定其他变量求解编码系数Z_a,u，Z_b,u，计算式如下：

通过上述公式可以直接求得Z_a,u，Z_b,u闭合形式的解。

Step2.2.3：求解字典D_s和D_u

类似地，求解D_s，D_u固定编码系数Z_a,u，Z_b,u，Z_s以及投影矩阵W_a，W_b，求解D_s，D_u的目标函数可写为：

因此，D_s可通过以下公式进行求解：

上述公式可以通过ADMM算法进行优化求解；

对于字典D_u，其求解公式如下：

因此字典D_u可以通过迭代收缩算法进行优化求解；

Step2.2.3、求解投影矩阵W_a和W_b

通过固定其它无关的变量，更新映射矩阵W_a和W_b，求解公式如下：

可以得到上述公式的闭合形式的解。

更具体地，所述Step3的具体为：

通过训练得到W_a、W_b、D_s、D_u值后，为了计算得到在图像库中所查询到的图像编码系数，,首先通过公式(3.1)计算共有字典的编码系数：

其中，

为a个视角下第

个行人与其它行人之间共有成分的编码系数，

是查询图像，

是图像库中的图像，是共有字典的编码系数，类似的求解

再通过公式(3.2)，(3.3)计算特有字典的编码系数：

其中，

是第a视角下第

个行人特有成分的编码系数，

是视角下第

个行人特有成分的编码系数；

求出编码系数

与

后，采用如下的欧式距离来对行人进行匹配：

其中，

通过公式(3.4)找到距离最短、最相似的行人图像的编码系数z_b，从而查询到所需要的图像。

本发明的有益效果是：

1、本发明为降低不同行人之间共享成分在相似性度量过程中起到的干扰作用，提出一种基于共享与特有成分分离的行人再识别方案。该方法通过剔除不同行人之间的共享成分来降低行人外貌特征带来的歧义性。

2、本发明针为实现行人共享成分与特有成分的分离，提出了一种共享字典与特有字典联合学习模型。在该模型内，考虑到了不同行人图像之间共享成分所具有的低秩性以及特有成分所具有的稀疏性，对共享字典与特有字典分别引入了低秩与稀疏性约束，来提升字典的判别性。

3、本发明为进一步提升字典的判别性，在字典学习模型内考虑到了不同视角下的同一行人特有成分一致性，不同行人共享成分的相似性以及不同行人特有成分之间的不相关性。

附图说明

图1为本发明的流程图；

图2来自VIPeR数据集的部分行人图像对；

图3来自CUHK01数据集的部分行人图像对。

具体实施方式

下面通过具体实施例对本发明做进一步的详细说明。

实施例1：不同视角下同一行人的共有成分，在相似性度量中并不会造成识别率的降低。降低识别率的根本原因在于不同视角下的不同行人所表现出的相似性，而这种相似性往往是由不同行人图像之间的共有成分反映的。根据低秩稀疏表示理论可知，不同行人之间的共享成分往往表现出了极强的相关性，因而具有较强的低秩性。根据这一思想，本发明提出一种行人特有字典与共享字典联合学习框架，并以此来实现行人特有成分与共享成分的分离，从而解决由不同视角下行人图像外貌特征相似性成分所导致的外貌特征的歧义性问题。

如图1-3所示，一种基于共享及特有字典对联合学习的行人再识别方法，包括如下步骤：

Step1：首先从公开的图像集中选择训练样本。

Step2：利用训练样本学习字典和投影矩阵；

Step3：行人图像的相似性匹配。

具体地，所述的Step1具体步骤如下：

具体地，所述的Step2具体步骤如下：

Step2.1：本发明字典学习目标函数的构建；

Step2.2：本发明字典学习目标函数的求解；

具体地，所述的Step3具体为：

更具体地，所述Step2.1的具体步骤如下：

在(1)式中Y_l＝[y₁,y₂…y_N](l＝a,b)是由l视角下的N个行人图像特征采集得到训练样本所构成的矩阵,D_s、D_u分别为训练得到的共享、特有字典，Z_s是共享字典的编码系数，正则项ηtr(Z_sLZ_s ^T)描述行人之间所具有的共有信息，tr(·)是矩阵的迹，L＝C-U，L是个拉普拉斯矩阵，C是一个对角矩阵

U是m行m列，元素全为1的矩阵，u_ij表示矩阵U的第i行第j列元素。Z_a,u、Z_b,u分别为a和b两个视角下特有字典的编码系数，η为一大于零的参数，用来调整正则项tr(Z_sLZ_s ^T)在目标函数中所起的作用，F是F范数，T是转置。

Step2.1.2：由于行人共有信息通常表现出较强的相关性，因此用以表达该信息的字典D_s的原子之间同样应该具有较强的相关性，这说明D_s是低秩的。同时，用于表达行人身份的信息往往是特有的，这类信息通常表现出较强的稀疏性，因此用于表达该信息成分的字典D_u应该具有稀疏特性。综合考虑到这些问题，本文提出公式(2)来计算共享字典和特有字典：

其中，||·||_*是核范数，||·||₁是l₁范数；

应该具有较小的值。本发明通过提出公式(3)来计算特有字典的稀疏系数Z_a,u、Z_b,u和Z_s：

式子(3)中，

用以刻画不同行人编码系数之间的相干性，

用以避免相同行人之间的相关性被过渡限制；

Step2.1.3：在a，b两个不同的视角下，由于光照变化、视角差异、成像风格的不同，同一行人在原始特征空间内往往表现出较大的差异，为缓解这一问题，在最小化(1)中，引入投影变换算子W_l(l＝a,b)，将行人图像的原始特征映射到低维判别空间，使不同视角下的同一行人编码系数之间的距离最小，不同行人编码系数之间的相关性较弱。因此本发明通过提出公式(4)，采用交替迭代法更新得到最终需要的投影矩阵W_a和W_b：

更具体地，所述Step2.2的具体步骤如下：

Step2.2.2：求解编码系数Z_a,u，Z_b,u和Z_s

对于上述公式，很难直接求出最优解，为此，引入松弛变量

则上述目标函数可改写为：

其中，松弛变量

可以通过以下公式求解：

通过分别求解

和Z_s闭合解，依次迭代更新。

同理固定其他变量求解编码系数Z_a,u，Z_b,u，计算式如下：

通过上述公式可以直接求得Z_a,u，Z_b,u闭合形式的解。

Step2.2.3：求解字典D_s和D_u

因此，D_s可通过以下公式进行求解：

上述公式可以通过ADMM算法进行优化求解；

对于字典D_u，其求解公式如下：

因此字典D_u可以通过迭代收缩算法进行优化求解；

Step2.2.3、求解投影矩阵W_a和W_b

可以得到上述公式的闭合形式的解。

更具体地，所述Step3的具体为：

通过训练得到W_a、W_b、D_s、D_u值后，为了计算得到在图像库中所查询到的图像编码系数。首先通过公式(5)计算共有字典的编码系数：

其中，其中，

为a个视角下第

个行人与其它行人之间共有成分的编码系数，

是查询图像，

是图像库中的图像。得到共有字典的编码系数，再通过公式(6)，(7)计算特有字典的编码系数：

其中，其中，

是第a视角下第

个行人特有成分的编码系数，

是视角下第

个行人特有成分的编码系数；

求出编码系数

与

后，采用如下的欧式距离来对行人进行匹配：

其中，

通过公式(8)找到距离最短、最相似的行人图像的编码系数z_b，从而查询到所需要的图像。

本发明中，使用LOMO特征作为图像的原始特征。该特征对行人的姿态变化、亮度差异、复杂背景影响具有较强的鲁棒性，因此LOMO在行人再识别中得到了较为广泛的应用。在本例中，选择VIPeR，CUHK01，两个数据集进行实验，并将两个个数据集中的图像对随机均等地分成两部分，一部分用作训练集，剩余部分用作测试集。对算法参数的设置λ₁＝0.01，η＝0.00001，最后，通过累积匹配特性曲线(The cumulative matching characteristic,CMC)来评估实验结果。CMC能反映查询图像与目标图像库中图片正确匹配的概率，CMC数值越大，匹配性能也越好。

下面结合两个具体例子对本发明进行详细说明。

例1：VIPeR数据集

该数据集中的图片来自两个非重叠摄像机视角下632个行人，每个行人在每个视角下仅有一张图片，共有1264张图片。在实验过程中，将数据集中的每个行人图片的尺寸设置为128×48。图2给出了来自该数据集的部分行人图像样本对。其中，每行行人图像均来自同一视角，同一列行人图像为同一行人在不同视角下的视觉表现。由此可以看出，不同视角下的同一行人，由于姿态变化以及背景的不同导致其外貌特征具有较大的差异。因此该数据集可用来度量算法在缓解行人姿态变化和复杂背景影响方面的性能。

为了证明本文算法的有效性，将提出方法与目前识别性能优异的行人再识别方法进行了对比。这些方法包括：KISSME，SalMatch，Mid-Filter，XQDA_LOMO，JDL，CSPL_GOG，DSPL，这些方法都是现有文献中明确记载的，具体内容在此不做具体说明。不同方法在VIPeR数据集上的识别率如表1所示。便于比较，将性能最好的结果用粗体进行了显示。从表中可以看出，的结果在rank1/5/10/20都表现出非常好的性能。其中最好的是在rank1高于次好DSPL6.5％。这表明本文提出的算法相对于其它方法具有更强的识别率。

表1 VIPeR数据集上不同方法的累计匹配率(in％)比较

例2：CUHK01数据集

该数据集中的行人图片是由校园中两个无重叠摄像机采集到的971个行人的3884张图片构成。其中，同一视角下的每个行人有2张图片。在实验过程中，图片尺寸大小被调整为128*60。图3给出了不同视角下的同一行人图像对。由此可以看出，不同视角下的同一行人，由于姿态、视角、光照、背景的差异，同一行人图像表现出了极大的差异性。因此要在该数据集上实现行人图像的正确匹配是极具挑战的。

在第二个实验中，在CUHK01数据集上对本文提出的算法进行了性能测试，并与目前较为优秀的方法进行对比。这些方法主要包括GenericMetric，SalMatch，Mid-Filter，XQDA_LOMO，WARCA_LOMO，MSE-VCM，CSPL_LOMO，这些方法都是现有文献中明确记载的，具体内容在此不做具体说明。表2所示为不同方法在CUHK01数据集上的识别率。从该表中的数据可以看出，本文提出的算法明显优于其他的所有算法。其中，的算法相对次优的识别方法CSPL在rank1/5/10至少高出2.9％。

表2 CUHK01数据集上不同方法的累计匹配率(in％)比较

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于共享及特有字典对联合学习的行人再识别方法，其特征在于：包括如下步骤：

Step1：首先从公开的图像集中选择训练样本；

Step2：利用训练样本学习字典和投影矩阵：

Step2.1：字典学习目标函数的构建；

Step2.2：字典学习目标函数的求解；

Step3：行人图像的相似性匹配：通过训练样本得到字典矩阵和映射矩阵，求解得到编码系数通过距离公式计算大小进行排序，得到查询图像；

所述的Step1具体步骤如下：

Step1.1：从已知的公共数据中选取两个数据集；

Step1.2：通过已知的LOMO特征提取方法，将选中的数据集图像的特征提取出来，并将其平均分成两等份，作为训练集和测试集；

所述Step2.1的具体步骤如下：

Step2.1.1：首先假设样本来自a和b两个视角，在字典学习中，假设用于表达共有成分的字典为D_s，在此字典下的编码系数为Z_s，用于表达独有成分的字典为D_u以及在此字典下的编码系数为Z_u，

在(2.1)式中Y_l＝[y₁,y₂…y_N]，l＝a,b，是由l视角下的N个行人图像特征采集得到训练样本所构成的矩阵，正则项ηtr(Z_sLZ_s ^T)描述行人之间所具有的共有信息，tr(·)是矩阵的迹，L＝C-U，L是个拉普拉斯矩阵，C是一个对角矩阵

U是m行m列，元素全为1的矩阵，u_ij表示矩阵U的第i行第j列元素，其中Z_s是共享字典的编码系数，Z_a,u、Z_b,u分别为a和b两个视角下特有字典的编码系数，η为一大于零的参数，用来调整正则项tr(Z_sLZ_s ^T)在目标函数中所起的作用，||·||_F是F范数，T为矩阵的转置；

Step2.1.2：由于行人共有信息通常表现出较强的相关性，因此用以表达该信息的字典D_s的原子之间同样应该具有较强的相关性，这说明D_s是低秩的，同时，用于表达行人身份的信息往往是特有的，这类信息通常表现出较强的稀疏性，因此用于表达该信息成分的字典D_u应该具有稀疏特性，综合考虑到这些问题，提出公式(2.2)来计算共享字典和特有字典：

其中，||·||_*是核范数，||·||₁是l₁范数；

Step2.1.2：由于描述行人特有成分时所使用的字典均为D_u，反映行人身份特征的信息蕴含在对应的编码系数Z_a,u与Z_b,u中，因此，不同行人之间的编码系数具有较强的非相干性，也就是说

具有较小的值，通过提出公式(2.3)来计算特有字典的稀疏系数Z_a,u、Z_b,u和Z_s：

式子(2.3)中，

用以刻画不同行人编码系数之间的相干性，

用以避免相同行人之间的相关性被过渡限制；

Step2.1.3：在a，b两个不同的视角下，由于光照变化、视角差异、成像风格的不同，同一行人在原始特征空间内往往表现出较大的差异，为缓解这一问题，在最小化式(2.1)中，引入投影变换算子W_l(l＝a,b)，将行人图像的原始特征映射到低维判别空间，使不同视角下的同一行人编码系数之间的距离最小，不同行人编码系数之间的相关性较弱，因此通过提出公式(2.4)，采用交替迭代法更新得到最终需要的投影矩阵W_a和W_b：

2.根据权利要求1所述的基于共享及特有字典对联合学习的行人再识别方法，其特征在于：所述Step2.2的具体步骤如下：

Step2.2.1：目标函数需要求解变量W_a,W_b,Z_a,u,Z_b,u,Z_s,D_s,D_u，由于变量W_a，W_b，D_s，D_u，Z_a,u，Z_b,u和Z_s是非凸的，无法直接使用凸优化的方法求解，但若求某个变量，而其它变量固定时，目标函数可根据具体算法来求解，采用交替迭代法来求解字典模型的目标函数；

Step2.2.2：求解编码系数Z_a,u，Z_b,u和Z_s