CN109284668B

CN109284668B - 一种基于距离正则化投影和字典学习的行人重识别方法

Info

Publication number: CN109284668B
Application number: CN201810839809.1A
Authority: CN
Inventors: 李华锋; 董能; 文永华; 竹晋廷; 线岩团; 王红斌
Original assignee: Kunming University of Science and Technology
Current assignee: Lingkun Nantong Intelligent Technology Co ltd
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2021-06-18
Anticipated expiration: 2038-07-27
Also published as: CN109284668A

Abstract

本发明公开了一种基于距离正则化投影和字典学习的行人重识别方法，属于智能监控技术领域，本发明提出了一种新颖的字典学习框架以学习用于行人重识别中的判别和鲁棒性表示，判别字典和投影矩阵联合学习，通过学习投影矩阵，人物特征的编码系数被映射到低维子空间，从而有效地缓解非重叠视图中的行人差异。为了提高学习字典的判别能力，并且解决视觉模糊和外观变化的问题，引入顶端距离正则化在字典学习框架中以提炼出编码系数的解空间，提高了表示特征的能力，解决了度量学习中受到的限制问题，本发明引入了投影矩阵和顶端距离正则化项，在一定程度上缓解了非重叠视图中的行人差异，在行人重识别任务中取得较好的效果。

Description

一种基于距离正则化投影和字典学习的行人重识别方法

技术领域

本发明涉及一种基于距离正则化投影和字典学习的行人重识别算法，属于智能监控技术领域。

背景技术

行人重识别，也称行人再识别，其任务是在不同物理位置分布的非重叠摄像机视图中匹配相同的行人。广泛被认为是一个图像检索的子问题。给定一个监控行人图像，检索跨设备下的该行人图像。旨在弥补目前固定的摄像头的视觉局限，并可与行人检测、行人跟踪技术相结合。近几年来，行人重识别日益受到关注并取得了一些重大的研究进展，被广泛应用于计算机视觉、安全监控、行人搜索以及刑事调查等领域。

国内外学者在行人重识别方面取得了一系列重大研究进展，发展起了很多方法。按照学习的重点，这些方法主要有基于特征提取的行人重识别方法、基于度量学习的行人重识别方法等。其中，基于特征提取的方法主要专注于开发强大的特征表示以处理不相交视图之间的变化和错位，而基于度量的方法则着重于学习一个合适的相似性测量方法来最小化类内距离与此同时最大化类间距离。对于前者而言，尽管大量有效的视觉特征被提取，然而如何设计一个能够有效抵抗非重叠视图的变化和错位影响的描述符仍然十分困难。为了缓解由于视觉模糊和外观变化所带来的挑战，因此发展了基于度量学习的行人重识别方法。目前，在行人重识别中度量学习被广泛研究，并取得了令人满意的结果。但是这种办法的性能在很大程度上依赖于所学习的特征或度量的表征能力，这通常受到不同视图中光照、背景和姿态变化的限制。

发明内容

本发明的目的在于提供一种基于距离正则化投影和字典学习的行人重识别算法，本发明方法提高了表示特征的能力，解决了度量学习中受到的限制问题，本发明提出了一种新颖的字典学习框架以学习用于行人重识别中的判别和鲁棒性表示，判别字典和投影矩阵联合学习，通过学习投影矩阵，人物特征的编码系数被映射到低维子空间，从而有效地缓解非重叠视图中的行人差异。为了提高学习字典的判别能力，并且解决视觉模糊和外观变化的问题，引入顶端距离正则化在字典学习框架中以提炼出编码系数的解空间。

本发明的技术方案是：一种基于距离正则化投影和字典学习的行人重识别算法，具体步骤如下：

(1)从一个以上的摄像机中选取任意两个a，b摄像机，并从a，b摄像机的视频中分别选出同一行人的图像，且同一行人只选一张图像，设从a，b两个摄像机下分别选出M张行人图像，且a，b摄像机下选出的M张行人图像一一对应，然后从M张行人图像中抽取N张行人图像作为训练集，其余图像作为测试集，并分别提取选出的N张行人图像的特征向量，定义X_a＝[x_a1，x_a2，…x_aN]， X_b＝[x_b1，x_b2，…x_bN]分别表示a，b两个摄像机下N张行人图像特征向量的集合，其中x_a1，x_a2，…x_aN分别表示a摄像机下每张行人图像的特征向量，x_b1，x_b2，…x_bN分别表示b摄像机下每张行人图像的特征向量，定义用于表示行人外观的、具有稀疏性的学习字典D，D∈R^p×m，D＝[d₁，d₂，…d_m]，其中，p表示字典D的维度，m 表示字典D的原子个数，d₁，d₂，…d_m分别表示字典D的原子，d_i表示字典D的某个原子，且i＝1，2，，，m，设字典D关于a，b两个摄像机视图下选出的行人图像的编码系数集合分别为Z_a，Z_b，则Z_a＝[z_a1，z_a2，…z_aN]，Z_b＝[z_b1，z_b2，…z_bN]，其中，z_a1，z_a2，…z_aN分别表示a摄像机视图下选出的每张行人图像特征向量的编码系数，z_b1，z_b2，…z_bN分别表示b摄像机视图下选出的每张行人图像特征向量的编码系数，建立如下最小化目标函数公式(1)：

其中，λ₁是一个标量超参数，约束条件为

即字典D的每个原子的l₂范数的平方小于等于1，||·||_F为F范数运算符，||·||₂为l₂范数运算符，||·||₁为 l₁范数运算符，

为F范数的平方运算符；

(2)为了赋予字典较强的判别能力，通过公式(2)对a，b两个摄像机视图下选出的行人图像的编码系数进行约束，使两个摄像机视图下选出的行人图像的编码系数相同：

其中λ₂为标量超参数；

(3)引入投影学习将编码系数映射到一个低维空间，使不同摄像机视图下同一行人图像之间的距离最小化，令P∈R^m×q(q＜m)表示映射矩阵，q表示映射矩阵 P的维度，m为原子个数，则有如下公式(3)：

其中，tr(P^TP)表示矩阵的迹，λ₃为超参数；

tr(P^TP)表示矩阵的迹，通常用它来对矩阵的所有对角元素求和，这里被引入用以避免过拟合；

(4)对矩阵P提出判别正则化项，具体形式为如下公式(4)：

其中R(P)表示P的正则化项，L表示损失函数，即判别两个视图下行人图像是否为同一行人的误差，y_ij的取值为1或-1，若a摄像机视图下第i张行人图像与b摄像机视图下第j张行人图像为同一行人时，则y_ij的取值为1，若a摄像机视图下第i张行人图像与b摄像机视图下第j张行人图像不是同一行人时，则y_ij的取值为-1，z_ai表示a摄像机视图下第i张行人图像的编码系数，z_bj表示b摄像机视图下第j张行人图像的编码系数，f表示损失函数的映射关系，f如公式(5) 所示：

其中，ξ为超参数，也称为全局决策阈值，设输入a摄像机视图下的某张图像的编码系数z_ai，则b摄像机视图下的对应的同一行人图像的编码系数为z_bj，若输入编码系数z_ai时，得到的是z_bj*，即不是同一行人的图像，则表示出现了损失， f满足如下公式(6)，

出现损失时，损失函数如公式(7)所示：

其中，y_ij*＝-1；

(5)将步骤(4)的矩阵P的判别正则化项和损失函数引入字典学习模型中，得到最终的字典学习模型如下公式(8)所示：

其中，β为超参数；

(6)字典学习模型的简化，将步骤(5)的字典学习模型进行简化，去除对编码系数Z_a和Z_b的正则化项，即去除λ₁||Z_a||₁+λ₁||Z_b||₁项，得到如下简化后的模型公式(9)：

(7)对步骤(6)的公式(9)进行求解，首先更新编码系数z_ai，此时固定 P，D，z_bj，得到如下式子(10)：

采用梯度下降对编码系数z_ai进行更新，得到如下式子(11)：

其中，σ表示预先指定的步长，k表示第k次迭代，z＝y_ij*×f(z_ai，z_bj，z_bj*，P)；同理，z_bj通过以下式子(12)进行更新：

然后更新映射矩阵P，固定z_ai、z_bj和D，更新公式如下(13)所示：

令Γ(P)表示上式的目标方程，则：

令

有

故「(P)表示为如下公式(15)：

P的梯度Γ(P)的计算如下式(16)所示：

故P的更新式子如下(17)所示：

其中，τ表示一个预先确定的常数，τ＝1，l表示第l次迭代；

然后，更新字典D，通过如下公式(18)对字典D进行更新：

其中，

表示更新后的字典；

(8)为了优化公式(18)，引入一个辅助变量B＝[b₁，b₂，…b_m]，并且初始时令B＝D，然后通过ADMM算法对公式(18)进行更新迭代，迭代公式如公式(19) 所示，分别得到更新后的

和

，并计算

和

之间的对偶差值T，当T^t+1-T^t的值小于0.001时，停止迭代，此时更新的字典

为最优解；

其中，η是学习率，t表示第t次迭代；

(9)得到最优字典

的模型后，将测试集中的行人图像的特征输入模型中，进行行人重识别。

所述步骤(1)中采用LOMO特征提取的方法提取选出的N张行人图像的特征向量。

所述λ₂、λ₃、β、η的取值分别为0.1，0.01，0.9，0.00001。

与现有技术相比，本发明的有益效果是：

(1)本发明解决了由于视觉模糊和外观变化问题对行人重识别任务带来的问题。

(2)本发明引入了投影矩阵和顶端距离正则化项，在一定程度上缓解了非重叠视图中的行人差异，在行人重识别任务中取得较好的效果。

附图说明

图1为本发明方法的流程图。

具体实施方式

下面通过附图和实施例对本发明作进一步说明。

实施例1：本基于距离正则化投影和字典学习的行人重识别算法，将本算法应用在VIPeR数据集上，具体步骤如下：

如图1所示，应用本算法对VIPeR数据集进行行人重识别的具体步骤如下：

(1)VIPeR数据集被广泛用作基准评估来评估行人重识别算法的性能，其包含632个行人在2个相机视角下的共1264张图像；两个相机视角分别为a，b， a相机视角下含632张行人图像，b相机视角下含632张行人图像，且a，b相机下的行人图像一一对应，然后从a，b相机下的632张行人图像中分别抽取316张行人图像作为训练集，其余a，b相机下的316张图像作为测试集，并采用LOMO 特征提取的方法分别提取选出的316张行人图像的特征向量，定义 X_a＝[x_a1，x_a2，…x_a316]，X_b＝[x_b1，x_b2，…x_b316]分别表示a，b两个摄像机下316张行人图像特征向量的集合，其中x_a1，x_a2，…x_a316分别表示a摄像机下每张行人图像的特征向量，x_b1，x_b2，…x_b316分别表示b摄像机下每张行人图像的特征向量，定义用于表示行人外观的、具有稀疏性的学习字典D，D∈R^p×m，D＝[d₁，d₂，…d_m]，其中， p表示字典D的维度，p为439，m表示字典D的原子个数，m为316，则 d₁，d₂，…d₃₁₆分别表示字典D的原子，d_i表示字典D的某个原子，且i＝1，2，，， 316，设字典D关于a，b两个相机视图下选出的行人图像的编码系数集合分别为Z_a，Z_b，则Z_a＝[z_a1，z_a2，…z_a316]，Z_b＝[z_b1，z_b2，…z_b316]，其中，z_a1，z_a2，…z_a316分别表示a相机视图下选出的每张行人图像特征向量的编码系数，z_bl，z_b2，…z_b316分别表示b相机视图下选出的每张行人图像特征向量的编码系数，建立如下最小化目标函数公式(1)：

其中，λ₁是一个标量超参数，约束条件为

为F范数的平方运算符；

(2)通过公式(2)对a，b两个摄像机视图下选出的行人图像的编码系数进行约束，使两个摄像机视图下选出的行人图像的编码系数相同：

其中λ₂为标量超参数，λ₂的值为0.1；

(3)引入投影学习将编码系数映射到一个低维空间，使不同摄像机视图下同一行人图像之间的距离最小化，令P∈R^m×q(q＜m)表示映射矩阵，q表示映射矩阵 P的维度，q为200，m为原子个数，m为316，则有如下公式(3)：

其中，tr(P^TP)表示矩阵的迹，λ₃为超参数，λ₃的值为0.01；

(4)对矩阵P提出判别正则化项，具体形式为如下公式(4)：

其中R(P)表示P的正则化项，L表示损失函数，即判别两个相机视图下行人图像是否为同一行人的误差，y_ij的取值为1或-1，若a摄像机视图下第i张行人图像与b摄像机视图下第j张行人图像为同一行人时，则y_ij的取值为1，若a摄像机视图下第i张行人图像与b摄像机视图下第j张行人图像不是同一行人时，则y_ij的取值为-1，z_ai表示a摄像机视图下第i张行人图像的编码系数，z_bj表示b 摄像机视图下第j张行人图像的编码系数，f表示损失函数的映射关系，f如公式 (5)所示：

出现损失时，损失函数如公式(7)所示：

L＝ln(1+exp(-y_ij*×f(z_ai，z_bj，z_bj*，P))) (7)

其中，y_ij*＝-1；

其中，β为超参数，β的值为0.9；

采用梯度下降对编码系数z_ai进行更新，得到如下式子(11)：

其中，σ表示预先指定的步长，σ为1，k表示第k次迭代，z＝y_ij*× f(z_ai，z_bj，z_bj*，P)；

同理，z_bj通过以下式子(12)进行更新：

令Γ(P)表示上式的目标方程，则：

令

有

故「(P)表示为如下公式(15)：

P的梯度Γ(P)的计算如下式(16)所示：

故P的更新式子如下(17)所示：

其中，τ表示一个预先确定的常数，τ＝1，l表示第l次迭代；

然后，更新字典D，通过如下公式(18)对字典D进行更新：

其中，

表示更新后的字典；

和

并计算

和

为最优解；

其中，η是学习率，η的值为0.00001，t表示第t次迭代；

(9)得到最优字典

的模型后，将VIPeR数据集中的测试集中的行人图像的特征输入模型中，进行行人重识别。

分别用其他的KISSME(2012)、RS-KISS(2013)、SalMatch(2013)、 Mid-Filter(2014)、PolyMap(2015)、LOMO+XQDA(2015)、RD(2016)、SR(2016)、LSSCDL(2016)、DR-KISS(2016)、MHF(2017)、LOMO+DMLV(2017)方法对VIPeR 数据集中的测试集进行行人重识别，并将测试结果与本发明算法进行对比，对比结果如表1所示：

表1本发明方法与其他方法在VIPeR数据集识别的对比结果

表中的“-”表示该方法下没有相应级别的结果，最佳结果以粗体突出显示；从表1中可以看出，通过我们的方法，Rank1为63.51％，远高于其他方法的Rank1，且本发明方法的Rank5也比其他方法高，故VIPeR的最佳识别率是通过我们的方法实现。

实施例2：本实施例方法同实施例1，不同之处在于本实施例在PRID450S 数据集上进行行人重识别，PRID450S数据集中包含450个行人在2个相机视角下的共900张图像，与其他方法的对比结果如表2所示：

表2本发明方法与其他方法在PRID450S数据集识别的对比结果

从表2中可以看出，在对PRID450S进行行人重识别上，我们发明方法的 Rank1为64.40％，Rank5为80.67％，Rank10为88.58％达到了最好的性能，匹配率最高，故本发明方法的效果较其他方法好。

实施例3：本实施例方法同实施例1，不同之处在于本实施例在QMUL-GRID 数据集上数据集上进行行人重识别，QMUL-GRID数据集的行人图片是从地铁站的8个不相交的摄像机视图中捕获的，尽管该数据集包含8个相机视角，但只选 2个相机视角包含250个行人的共500张图像，余下的相机视角下的775张图像为干扰图像，因此随机选取125个图像对进行训练，其余的125个图像对与775 个不相关的图像相结合供测试用，本发明方法与其他方法的对比结果如表3所示：

表3本发明方法与其他方法在QMUL-GRID数据集上的识别对比结果

从表3中可以看出，在对QMUL-GRID数据集进行行人重识别上，我们发明方法的Rank1为30.08％，Rank5为60.56％，Rank10为74.00％，Rank20为85.20％均达到了最好的性能，匹配率最高，故本发明方法的效果较其他方法好。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于距离正则化投影和字典学习的行人重识别方法，其特征在于，具体步骤如下：

(1)从摄像机中选取任意两个a,b摄像机，并从a,b摄像机的视频中分别选出同一行人的图像，且同一行人只选一张图像，设从a,b两个摄像机下分别选出M张行人图像，且a,b摄像机下选出的M张行人图像一一对应，然后从M张行人图像中抽取N张行人图像作为训练集，其余图像作为测试集，并分别提取选出的N张行人图像的特征向量，定义X_a＝[x_a1,x_a2,…x_aN]，X_b＝[x_b1,x_b2,…x_bN]分别表示a,b两个摄像机下N张行人图像特征向量的集合，其中x_a1,x_a2,…x_aN分别表示a摄像机下每张行人图像的特征向量，x_b1,x_b2,…x_bN分别表示b摄像机下每张行人图像的特征向量，定义用于表示行人外观的、具有稀疏性的学习字典D，D∈R^p×m，D＝[d₁,d₂,…d_m]，其中，p表示字典D的维度，m表示字典D的原子个数，d₁,d₂,…d_m分别表示字典D的原子，d_h表示字典D的某个原子，且h＝1，2…m，设字典D关于a，b两个摄像机视图下选出的行人图像的编码系数集合分别为Z_a，Z_b，则Z_a＝[z_a1,z_a2,…z_aN]，Z_b＝[z_b1,z_b2,…z_bN]，其中，z_a1,z_a2,…z_aN分别表示a摄像机视图下选出的每张行人图像特征向量的编码系数，z_b1,z_b2,…z_bN分别表示b摄像机视图下选出的每张行人图像特征向量的编码系数，建立如下最小化目标函数公式(1)：

其中，λ₁是一个标量超参数，约束条件为

即字典D的每个原子的l₂范数的平方小于等于1，||·||_F为F范数运算符，||·||₂为l₂范数运算符，||·||₁为l₁范数运算符，

为F范数的平方运算符；

其中λ₂为标量超参数；

(3)引入投影学习将编码系数映射到一个低维空间，使不同摄像机视图下同一行人图像之间的距离最小化，令P∈R^m×q，P表示映射矩阵，其中q<m，q表示映射矩阵P的维度，m为原子个数，则有如下公式(3)：

其中，tr(P^TP)表示矩阵的迹，λ₃为超参数；

(4)对矩阵P提出判别正则化项，具体形式为如下公式(4)：

其中R(P)表示P的正则化项，L表示损失函数，即判别两个视图下行人图像是否为同一行人的误差，y_ij的取值为1或-1，若a摄像机视图下第i张行人图像与b摄像机视图下第j张行人图像为同一行人时，则y_ij的取值为1，若a摄像机视图下第i张行人图像与b摄像机视图下第j张行人图像不是同一行人时，则y_ij的取值为-1，z_ai表示a摄像机视图下第i张行人图像的编码系数，z_bj表示b摄像机视图下第j张行人图像的编码系数，f表示损失函数的映射关系，f如公式(5)所示：