CN109284668B - 一种基于距离正则化投影和字典学习的行人重识别方法 - Google Patents

一种基于距离正则化投影和字典学习的行人重识别方法 Download PDF

Info

Publication number
CN109284668B
CN109284668B CN201810839809.1A CN201810839809A CN109284668B CN 109284668 B CN109284668 B CN 109284668B CN 201810839809 A CN201810839809 A CN 201810839809A CN 109284668 B CN109284668 B CN 109284668B
Authority
CN
China
Prior art keywords
pedestrian
dictionary
camera
images
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810839809.1A
Other languages
English (en)
Other versions
CN109284668A (zh
Inventor
李华锋
董能
文永华
竹晋廷
线岩团
王红斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lingkun Nantong Intelligent Technology Co ltd
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810839809.1A priority Critical patent/CN109284668B/zh
Publication of CN109284668A publication Critical patent/CN109284668A/zh
Application granted granted Critical
Publication of CN109284668B publication Critical patent/CN109284668B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于距离正则化投影和字典学习的行人重识别方法,属于智能监控技术领域,本发明提出了一种新颖的字典学习框架以学习用于行人重识别中的判别和鲁棒性表示,判别字典和投影矩阵联合学习,通过学习投影矩阵,人物特征的编码系数被映射到低维子空间,从而有效地缓解非重叠视图中的行人差异。为了提高学习字典的判别能力,并且解决视觉模糊和外观变化的问题,引入顶端距离正则化在字典学习框架中以提炼出编码系数的解空间,提高了表示特征的能力,解决了度量学习中受到的限制问题,本发明引入了投影矩阵和顶端距离正则化项,在一定程度上缓解了非重叠视图中的行人差异,在行人重识别任务中取得较好的效果。

Description

一种基于距离正则化投影和字典学习的行人重识别方法
技术领域
本发明涉及一种基于距离正则化投影和字典学习的行人重识别算法,属于智能监控技术领域。
背景技术
行人重识别,也称行人再识别,其任务是在不同物理位置分布的非重叠摄像机视图中匹配相同的行人。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下的该行人图像。旨在弥补目前固定的摄像头的视觉局限,并可与行人检测、行人跟踪技术相结合。近几年来,行人重识别日益受到关注并取得了一些重大的研究进展,被广泛应用于计算机视觉、安全监控、行人搜索以及刑事调查等领域。
国内外学者在行人重识别方面取得了一系列重大研究进展,发展起了很多方法。按照学习的重点,这些方法主要有基于特征提取的行人重识别方法、基于度量学习的行人重识别方法等。其中,基于特征提取的方法主要专注于开发强大的特征表示以处理不相交视图之间的变化和错位,而基于度量的方法则着重于学习一个合适的相似性测量方法来最小化类内距离与此同时最大化类间距离。对于前者而言,尽管大量有效的视觉特征被提取,然而如何设计一个能够有效抵抗非重叠视图的变化和错位影响的描述符仍然十分困难。为了缓解由于视觉模糊和外观变化所带来的挑战,因此发展了基于度量学习的行人重识别方法。目前,在行人重识别中度量学习被广泛研究,并取得了令人满意的结果。但是这种办法的性能在很大程度上依赖于所学习的特征或度量的表征能力,这通常受到不同视图中光照、背景和姿态变化的限制。
发明内容
本发明的目的在于提供一种基于距离正则化投影和字典学习的行人重识别算法,本发明方法提高了表示特征的能力,解决了度量学习中受到的限制问题,本发明提出了一种新颖的字典学习框架以学习用于行人重识别中的判别和鲁棒性表示,判别字典和投影矩阵联合学习,通过学习投影矩阵,人物特征的编码系数被映射到低维子空间,从而有效地缓解非重叠视图中的行人差异。为了提高学习字典的判别能力,并且解决视觉模糊和外观变化的问题,引入顶端距离正则化在字典学习框架中以提炼出编码系数的解空间。
本发明的技术方案是:一种基于距离正则化投影和字典学习的行人重识别算法,具体步骤如下:
(1)从一个以上的摄像机中选取任意两个a,b摄像机,并从a,b摄像机的视频中分别选出同一行人的图像,且同一行人只选一张图像,设从a,b两个摄像机下分别选出M张行人图像,且a,b摄像机下选出的M张行人图像一一对应,然后从M张行人图像中抽取N张行人图像作为训练集,其余图像作为测试集,并分别提取选出的N张行人图像的特征向量,定义Xa=[xa1,xa2,…xaN], Xb=[xb1,xb2,…xbN]分别表示a,b两个摄像机下N张行人图像特征向量的集合,其中xa1,xa2,…xaN分别表示a摄像机下每张行人图像的特征向量,xb1,xb2,…xbN分别表示b摄像机下每张行人图像的特征向量,定义用于表示行人外观的、具有稀疏性的学习字典D,D∈Rp×m,D=[d1,d2,…dm],其中,p表示字典D的维度,m 表示字典D的原子个数,d1,d2,…dm分别表示字典D的原子,di表示字典D的某个原子,且i=1,2,,,m,设字典D关于a,b两个摄像机视图下选出的行人图像的编码系数集合分别为Za,Zb,则Za=[za1,za2,…zaN],Zb=[zb1,zb2,…zbN],其中,za1,za2,…zaN分别表示a摄像机视图下选出的每张行人图像特征向量的编码系数,zb1,zb2,…zbN分别表示b摄像机视图下选出的每张行人图像特征向量的编码系数,建立如下最小化目标函数公式(1):
Figure BDA0001745315030000021
其中,λ1是一个标量超参数,约束条件为
Figure BDA0001745315030000022
即字典D的每个原子的l2范数的平方小于等于1,||·||F为F范数运算符,||·||2为l2范数运算符,||·||1为 l1范数运算符,
Figure BDA0001745315030000023
为F范数的平方运算符;
(2)为了赋予字典较强的判别能力,通过公式(2)对a,b两个摄像机视图下选出的行人图像的编码系数进行约束,使两个摄像机视图下选出的行人图像的编码系数相同:
Figure BDA0001745315030000031
其中λ2为标量超参数;
(3)引入投影学习将编码系数映射到一个低维空间,使不同摄像机视图下同一行人图像之间的距离最小化,令P∈Rm×q(q<m)表示映射矩阵,q表示映射矩阵 P的维度,m为原子个数,则有如下公式(3):
Figure BDA0001745315030000032
其中,tr(PTP)表示矩阵的迹,λ3为超参数;
tr(PTP)表示矩阵的迹,通常用它来对矩阵的所有对角元素求和,这里被引入用以避免过拟合;
(4)对矩阵P提出判别正则化项,具体形式为如下公式(4):
Figure BDA0001745315030000033
其中R(P)表示P的正则化项,L表示损失函数,即判别两个视图下行人图像是否为同一行人的误差,yij的取值为1或-1,若a摄像机视图下第i张行人图像与b摄像机视图下第j张行人图像为同一行人时,则yij的取值为1,若a摄像机视图下第i张行人图像与b摄像机视图下第j张行人图像不是同一行人时,则yij的取值为-1,zai表示a摄像机视图下第i张行人图像的编码系数,zbj表示b摄像机视图下第j张行人图像的编码系数,f表示损失函数的映射关系,f如公式(5) 所示:
Figure BDA0001745315030000034
其中,ξ为超参数,也称为全局决策阈值,设输入a摄像机视图下的某张图像的编码系数zai,则b摄像机视图下的对应的同一行人图像的编码系数为zbj,若输入编码系数zai时,得到的是zbj*,即不是同一行人的图像,则表示出现了损失, f满足如下公式(6),
Figure BDA0001745315030000041
出现损失时,损失函数如公式(7)所示:
Figure BDA0001745315030000042
其中,yij*=-1;
(5)将步骤(4)的矩阵P的判别正则化项和损失函数引入字典学习模型中,得到最终的字典学习模型如下公式(8)所示:
Figure BDA0001745315030000043
其中,β为超参数;
(6)字典学习模型的简化,将步骤(5)的字典学习模型进行简化,去除对编码系数Za和Zb的正则化项,即去除λ1||Za||11||Zb||1项,得到如下简化后的模型公式(9):
Figure BDA0001745315030000044
(7)对步骤(6)的公式(9)进行求解,首先更新编码系数zai,此时固定 P,D,zbj,得到如下式子(10):
Figure BDA0001745315030000045
采用梯度下降对编码系数zai进行更新,得到如下式子(11):
Figure BDA0001745315030000051
其中,σ表示预先指定的步长,k表示第k次迭代,z=yij*×f(zai,zbj,zbj*,P);同理,zbj通过以下式子(12)进行更新:
Figure BDA0001745315030000052
然后更新映射矩阵P,固定zai、zbj和D,更新公式如下(13)所示:
Figure BDA0001745315030000053
令Γ(P)表示上式的目标方程,则:
Figure BDA0001745315030000054
Figure BDA0001745315030000055
Figure BDA0001745315030000056
故「(P)表示为如下公式(15):
Figure BDA0001745315030000057
P的梯度Γ(P)的计算如下式(16)所示:
Figure BDA0001745315030000061
故P的更新式子如下(17)所示:
Figure BDA0001745315030000062
其中,τ表示一个预先确定的常数,τ=1,l表示第l次迭代;
然后,更新字典D,通过如下公式(18)对字典D进行更新:
Figure BDA0001745315030000063
其中,
Figure BDA0001745315030000064
表示更新后的字典;
(8)为了优化公式(18),引入一个辅助变量B=[b1,b2,…bm],并且初始时令B=D,然后通过ADMM算法对公式(18)进行更新迭代,迭代公式如公式(19) 所示,分别得到更新后的
Figure BDA0001745315030000067
Figure BDA0001745315030000068
,并计算
Figure BDA0001745315030000069
Figure BDA00017453150300000610
之间的对偶差值T,当Tt+1-Tt的值小于0.001时,停止迭代,此时更新的字典
Figure BDA00017453150300000611
为最优解;
Figure BDA0001745315030000065
其中,η是学习率,t表示第t次迭代;
(9)得到最优字典
Figure BDA0001745315030000066
的模型后,将测试集中的行人图像的特征输入模型中,进行行人重识别。
所述步骤(1)中采用LOMO特征提取的方法提取选出的N张行人图像的特征向量。
所述λ2、λ3、β、η的取值分别为0.1,0.01,0.9,0.00001。
与现有技术相比,本发明的有益效果是:
(1)本发明解决了由于视觉模糊和外观变化问题对行人重识别任务带来的问题。
(2)本发明引入了投影矩阵和顶端距离正则化项,在一定程度上缓解了非重叠视图中的行人差异,在行人重识别任务中取得较好的效果。
附图说明
图1为本发明方法的流程图。
具体实施方式
下面通过附图和实施例对本发明作进一步说明。
实施例1:本基于距离正则化投影和字典学习的行人重识别算法,将本算法应用在VIPeR数据集上,具体步骤如下:
如图1所示,应用本算法对VIPeR数据集进行行人重识别的具体步骤如下:
(1)VIPeR数据集被广泛用作基准评估来评估行人重识别算法的性能,其包含632个行人在2个相机视角下的共1264张图像;两个相机视角分别为a,b, a相机视角下含632张行人图像,b相机视角下含632张行人图像,且a,b相机下的行人图像一一对应,然后从a,b相机下的632张行人图像中分别抽取316张行人图像作为训练集,其余a,b相机下的316张图像作为测试集,并采用LOMO 特征提取的方法分别提取选出的316张行人图像的特征向量,定义 Xa=[xa1,xa2,…xa316],Xb=[xb1,xb2,…xb316]分别表示a,b两个摄像机下316张行人图像特征向量的集合,其中xa1,xa2,…xa316分别表示a摄像机下每张行人图像的特征向量,xb1,xb2,…xb316分别表示b摄像机下每张行人图像的特征向量,定义用于表示行人外观的、具有稀疏性的学习字典D,D∈Rp×m,D=[d1,d2,…dm],其中, p表示字典D的维度,p为439,m表示字典D的原子个数,m为316,则 d1,d2,…d316分别表示字典D的原子,di表示字典D的某个原子,且i=1,2,,, 316,设字典D关于a,b两个相机视图下选出的行人图像的编码系数集合分别为Za,Zb,则Za=[za1,za2,…za316],Zb=[zb1,zb2,…zb316],其中,za1,za2,…za316分别表示a相机视图下选出的每张行人图像特征向量的编码系数,zbl,zb2,…zb316分别表示b相机视图下选出的每张行人图像特征向量的编码系数,建立如下最小化目标函数公式(1):
Figure BDA0001745315030000071
其中,λ1是一个标量超参数,约束条件为
Figure BDA0001745315030000072
即字典D的每个原子的l2范数的平方小于等于1,||·||F为F范数运算符,||·||2为l2范数运算符,||·||1为 l1范数运算符,
Figure BDA0001745315030000073
为F范数的平方运算符;
(2)通过公式(2)对a,b两个摄像机视图下选出的行人图像的编码系数进行约束,使两个摄像机视图下选出的行人图像的编码系数相同:
Figure BDA0001745315030000081
其中λ2为标量超参数,λ2的值为0.1;
(3)引入投影学习将编码系数映射到一个低维空间,使不同摄像机视图下同一行人图像之间的距离最小化,令P∈Rm×q(q<m)表示映射矩阵,q表示映射矩阵 P的维度,q为200,m为原子个数,m为316,则有如下公式(3):
Figure BDA0001745315030000082
其中,tr(PTP)表示矩阵的迹,λ3为超参数,λ3的值为0.01;
(4)对矩阵P提出判别正则化项,具体形式为如下公式(4):
Figure BDA0001745315030000083
其中R(P)表示P的正则化项,L表示损失函数,即判别两个相机视图下行人图像是否为同一行人的误差,yij的取值为1或-1,若a摄像机视图下第i张行人图像与b摄像机视图下第j张行人图像为同一行人时,则yij的取值为1,若a摄像机视图下第i张行人图像与b摄像机视图下第j张行人图像不是同一行人时,则yij的取值为-1,zai表示a摄像机视图下第i张行人图像的编码系数,zbj表示b 摄像机视图下第j张行人图像的编码系数,f表示损失函数的映射关系,f如公式 (5)所示:
Figure BDA0001745315030000084
其中,ξ为超参数,也称为全局决策阈值,设输入a摄像机视图下的某张图像的编码系数zai,则b摄像机视图下的对应的同一行人图像的编码系数为zbj,若输入编码系数zai时,得到的是zbj*,即不是同一行人的图像,则表示出现了损失, f满足如下公式(6),
Figure BDA0001745315030000091
出现损失时,损失函数如公式(7)所示:
L=ln(1+exp(-yij*×f(zai,zbj,zbj*,P))) (7)
其中,yij*=-1;
(5)将步骤(4)的矩阵P的判别正则化项和损失函数引入字典学习模型中,得到最终的字典学习模型如下公式(8)所示:
Figure BDA0001745315030000092
其中,β为超参数,β的值为0.9;
(6)字典学习模型的简化,将步骤(5)的字典学习模型进行简化,去除对编码系数Za和Zb的正则化项,即去除λ1||Za||11||Zb||1项,得到如下简化后的模型公式(9):
Figure BDA0001745315030000093
(7)对步骤(6)的公式(9)进行求解,首先更新编码系数zai,此时固定 P,D,zbj,得到如下式子(10):
Figure BDA0001745315030000094
采用梯度下降对编码系数zai进行更新,得到如下式子(11):
Figure BDA0001745315030000101
其中,σ表示预先指定的步长,σ为1,k表示第k次迭代,z=yij*× f(zai,zbj,zbj*,P);
同理,zbj通过以下式子(12)进行更新:
Figure BDA0001745315030000102
然后更新映射矩阵P,固定zai、zbj和D,更新公式如下(13)所示:
Figure BDA0001745315030000103
令Γ(P)表示上式的目标方程,则:
Figure BDA0001745315030000104
Figure BDA0001745315030000105
Figure BDA0001745315030000106
故「(P)表示为如下公式(15):
Figure BDA0001745315030000107
P的梯度Γ(P)的计算如下式(16)所示:
Figure BDA0001745315030000111
故P的更新式子如下(17)所示:
Figure BDA0001745315030000112
其中,τ表示一个预先确定的常数,τ=1,l表示第l次迭代;
然后,更新字典D,通过如下公式(18)对字典D进行更新:
Figure BDA0001745315030000113
其中,
Figure BDA0001745315030000114
表示更新后的字典;
(8)为了优化公式(18),引入一个辅助变量B=[b1,b2,…bm],并且初始时令B=D,然后通过ADMM算法对公式(18)进行更新迭代,迭代公式如公式(19) 所示,分别得到更新后的
Figure BDA0001745315030000115
Figure BDA0001745315030000116
并计算
Figure BDA0001745315030000117
Figure BDA0001745315030000118
之间的对偶差值T,当Tt+1-Tt的值小于0.001时,停止迭代,此时更新的字典
Figure BDA0001745315030000119
为最优解;
Figure BDA00017453150300001110
其中,η是学习率,η的值为0.00001,t表示第t次迭代;
(9)得到最优字典
Figure BDA00017453150300001111
的模型后,将VIPeR数据集中的测试集中的行人图像的特征输入模型中,进行行人重识别。
分别用其他的KISSME(2012)、RS-KISS(2013)、SalMatch(2013)、 Mid-Filter(2014)、PolyMap(2015)、LOMO+XQDA(2015)、RD(2016)、SR(2016)、LSSCDL(2016)、DR-KISS(2016)、MHF(2017)、LOMO+DMLV(2017)方法对VIPeR 数据集中的测试集进行行人重识别,并将测试结果与本发明算法进行对比,对比结果如表1所示:
表1本发明方法与其他方法在VIPeR数据集识别的对比结果
Figure BDA0001745315030000121
表中的“-”表示该方法下没有相应级别的结果,最佳结果以粗体突出显示;从表1中可以看出,通过我们的方法,Rank1为63.51%,远高于其他方法的Rank1,且本发明方法的Rank5也比其他方法高,故VIPeR的最佳识别率是通过我们的方法实现。
实施例2:本实施例方法同实施例1,不同之处在于本实施例在PRID450S 数据集上进行行人重识别,PRID450S数据集中包含450个行人在2个相机视角下的共900张图像,与其他方法的对比结果如表2所示:
表2本发明方法与其他方法在PRID450S数据集识别的对比结果
Figure BDA0001745315030000122
从表2中可以看出,在对PRID450S进行行人重识别上,我们发明方法的 Rank1为64.40%,Rank5为80.67%,Rank10为88.58%达到了最好的性能,匹配率最高,故本发明方法的效果较其他方法好。
实施例3:本实施例方法同实施例1,不同之处在于本实施例在QMUL-GRID 数据集上数据集上进行行人重识别,QMUL-GRID数据集的行人图片是从地铁站的8个不相交的摄像机视图中捕获的,尽管该数据集包含8个相机视角,但只选 2个相机视角包含250个行人的共500张图像,余下的相机视角下的775张图像为干扰图像,因此随机选取125个图像对进行训练,其余的125个图像对与775 个不相关的图像相结合供测试用,本发明方法与其他方法的对比结果如表3所示:
表3本发明方法与其他方法在QMUL-GRID数据集上的识别对比结果
Figure BDA0001745315030000131
从表3中可以看出,在对QMUL-GRID数据集进行行人重识别上,我们发明方法的Rank1为30.08%,Rank5为60.56%,Rank10为74.00%,Rank20为85.20%均达到了最好的性能,匹配率最高,故本发明方法的效果较其他方法好。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (3)

1.一种基于距离正则化投影和字典学习的行人重识别方法,其特征在于,具体步骤如下:
(1)从摄像机中选取任意两个a,b摄像机,并从a,b摄像机的视频中分别选出同一行人的图像,且同一行人只选一张图像,设从a,b两个摄像机下分别选出M张行人图像,且a,b摄像机下选出的M张行人图像一一对应,然后从M张行人图像中抽取N张行人图像作为训练集,其余图像作为测试集,并分别提取选出的N张行人图像的特征向量,定义Xa=[xa1,xa2,…xaN],Xb=[xb1,xb2,…xbN]分别表示a,b两个摄像机下N张行人图像特征向量的集合,其中xa1,xa2,…xaN分别表示a摄像机下每张行人图像的特征向量,xb1,xb2,…xbN分别表示b摄像机下每张行人图像的特征向量,定义用于表示行人外观的、具有稀疏性的学习字典D,D∈Rp×m,D=[d1,d2,…dm],其中,p表示字典D的维度,m表示字典D的原子个数,d1,d2,…dm分别表示字典D的原子,dh表示字典D的某个原子,且h=1,2…m,设字典D关于a,b两个摄像机视图下选出的行人图像的编码系数集合分别为Za,Zb,则Za=[za1,za2,…zaN],Zb=[zb1,zb2,…zbN],其中,za1,za2,…zaN分别表示a摄像机视图下选出的每张行人图像特征向量的编码系数,zb1,zb2,…zbN分别表示b摄像机视图下选出的每张行人图像特征向量的编码系数,建立如下最小化目标函数公式(1):
Figure FDA0003007618870000011
Figure FDA0003007618870000012
其中,λ1是一个标量超参数,约束条件为
Figure FDA0003007618870000013
即字典D的每个原子的l2范数的平方小于等于1,||·||F为F范数运算符,||·||2为l2范数运算符,||·||1为l1范数运算符,
Figure FDA0003007618870000015
为F范数的平方运算符;
(2)通过公式(2)对a,b两个摄像机视图下选出的行人图像的编码系数进行约束,使两个摄像机视图下选出的行人图像的编码系数相同:
Figure FDA0003007618870000014
Figure FDA0003007618870000021
其中λ2为标量超参数;
(3)引入投影学习将编码系数映射到一个低维空间,使不同摄像机视图下同一行人图像之间的距离最小化,令P∈Rm×q,P表示映射矩阵,其中q<m,q表示映射矩阵P的维度,m为原子个数,则有如下公式(3):
Figure FDA0003007618870000022
Figure FDA0003007618870000023
其中,tr(PTP)表示矩阵的迹,λ3为超参数;
(4)对矩阵P提出判别正则化项,具体形式为如下公式(4):
Figure FDA0003007618870000024
其中R(P)表示P的正则化项,L表示损失函数,即判别两个视图下行人图像是否为同一行人的误差,yij的取值为1或-1,若a摄像机视图下第i张行人图像与b摄像机视图下第j张行人图像为同一行人时,则yij的取值为1,若a摄像机视图下第i张行人图像与b摄像机视图下第j张行人图像不是同一行人时,则yij的取值为-1,zai表示a摄像机视图下第i张行人图像的编码系数,zbj表示b摄像机视图下第j张行人图像的编码系数,f表示损失函数的映射关系,f如公式(5)所示:
Figure FDA0003007618870000025
其中,ξ为超参数,也称为全局决策阈值,设输入a摄像机视图下的某张图像的编码系数zai,则b摄像机视图下的对应的同一行人图像的编码系数为zbj,若输入编码系数zai时,得到的是
Figure FDA0003007618870000027
即不是同一行人的图像,则表示出现了损失,f满足如下公式(6)
Figure FDA0003007618870000026
出现损失时,损失函数如公式(7)所示:
Figure FDA0003007618870000028
其中,
Figure FDA0003007618870000031
(5)将步骤(4)的矩阵P的判别正则化项和损失函数引入字典学习模型中,得到最终的字典学习模型如下公式(8)所示:
Figure FDA0003007618870000032
Figure FDA0003007618870000033
其中,β为超参数;
(6)字典学习模型的简化,将步骤(5)的字典学习模型进行简化,去除对编码系数Za和Zb的正则化项,即去除λ1||Za||11||Zb||1项,得到如下简化后的模型公式(9):
Figure FDA0003007618870000034
Figure FDA0003007618870000035
(7)对步骤(6)的公式(9)进行求解,首先更新编码系数zai,此时固定P,D,zbj,得到如下式子(10):
Figure FDA0003007618870000036
Figure FDA0003007618870000037
采用梯度下降对编码系数zai进行更新,得到如下式子(11):
Figure FDA0003007618870000038
Figure FDA0003007618870000041
其中,σ表示预先指定的步长,k表示第k次迭代,
Figure FDA00030076188700000410
同理,zbj通过以下式子(12)进行更新:
Figure FDA0003007618870000042
然后更新映射矩阵P,固定zai、zbj和D,更新公式如下(13)所示:
Figure FDA0003007618870000043
令Γ(P)表示上式的目标方程,则:
Figure FDA0003007618870000044
Figure FDA0003007618870000045
Figure FDA0003007618870000046
故Γ(P)表示为如下公式(15):
Figure FDA0003007618870000047
P的梯度Γ(P)的计算如下式(16)所示:
Figure FDA0003007618870000048
故P的更新式子如下(17)所示:
Figure FDA0003007618870000049
其中,τ表示一个预先确定的常数,τ=1,l表示第l次迭代;
然后,更新字典D,通过如下公式(18)对字典D进行更新:
Figure FDA0003007618870000051
Figure FDA0003007618870000052
其中,
Figure FDA0003007618870000053
表示更新后的字典;
(8)为了优化公式(18),引入一个辅助变量B=[b1,b2,…bm],并且初始时令B=D,然后通过ADMM算法对公式(18)进行更新迭代,迭代公式如公式(19)所示,分别得到更新后的
Figure FDA0003007618870000054
Figure FDA0003007618870000055
并计算
Figure FDA0003007618870000056
Figure FDA0003007618870000057
之间的对偶差值T,当Tt+1-Tt的值小于0.001时,停止迭代,此时更新的字典
Figure FDA0003007618870000058
为最优解;
Figure FDA0003007618870000059
其中,η是学习率,t表示第t次迭代;
(9)得到最优字典
Figure FDA00030076188700000510
的模型后,将测试集中的行人图像的特征输入模型中,进行行人重识别。
2.根据权利要求1所述的基于距离正则化投影和字典学习的行人重识别方法 ,其特征在于:所述步骤(1)中采用LOMO特征提取的方法提取选出的N张行人图像的特征向量。
3.根据权利要求1所述的基于距离正则化投影和字典学习的行人重识别方法 ,其特征在于:所述λ2、λ3、β、η的取值分别为0.1,0.01,0.9,0.00001。
CN201810839809.1A 2018-07-27 2018-07-27 一种基于距离正则化投影和字典学习的行人重识别方法 Active CN109284668B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810839809.1A CN109284668B (zh) 2018-07-27 2018-07-27 一种基于距离正则化投影和字典学习的行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810839809.1A CN109284668B (zh) 2018-07-27 2018-07-27 一种基于距离正则化投影和字典学习的行人重识别方法

Publications (2)

Publication Number Publication Date
CN109284668A CN109284668A (zh) 2019-01-29
CN109284668B true CN109284668B (zh) 2021-06-18

Family

ID=65182833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810839809.1A Active CN109284668B (zh) 2018-07-27 2018-07-27 一种基于距离正则化投影和字典学习的行人重识别方法

Country Status (1)

Country Link
CN (1) CN109284668B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977882B (zh) * 2019-03-29 2019-12-03 广东石油化工学院 一种半耦合字典对学习的行人重识别方法及系统
CN110046669B (zh) * 2019-04-22 2019-12-24 广东石油化工学院 基于素描图像的半耦合度量鉴别字典学习的行人检索方法
CN110222589A (zh) * 2019-05-16 2019-09-10 五邑大学 一种行人再识别方法及其系统、装置、存储介质
CN110826417B (zh) * 2019-10-12 2022-08-16 昆明理工大学 一种基于判别字典学习的跨视角行人重识别方法
CN111339857B (zh) * 2020-02-17 2022-08-30 昆明理工大学 基于身份一致性和不相关约束的跨视角行人重识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298992A (zh) * 2014-10-14 2015-01-21 武汉大学 一种基于数据驱动的自适应尺度行人重识别方法
CN106778921A (zh) * 2017-02-15 2017-05-31 张烜 基于深度学习编码模型的人员再识别方法
CN106803063A (zh) * 2016-12-21 2017-06-06 华中科技大学 一种行人重识别的度量学习方法
CN107844775A (zh) * 2017-11-13 2018-03-27 常州大学 一种基于块稀疏表示的行人重识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9767385B2 (en) * 2014-08-12 2017-09-19 Siemens Healthcare Gmbh Multi-layer aggregation for object detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298992A (zh) * 2014-10-14 2015-01-21 武汉大学 一种基于数据驱动的自适应尺度行人重识别方法
CN106803063A (zh) * 2016-12-21 2017-06-06 华中科技大学 一种行人重识别的度量学习方法
CN106778921A (zh) * 2017-02-15 2017-05-31 张烜 基于深度学习编码模型的人员再识别方法
CN107844775A (zh) * 2017-11-13 2018-03-27 常州大学 一种基于块稀疏表示的行人重识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Image to Video Person Re-Identification by Learning Heterogeneous Dictionary Pair With Feature Projection Matrix;Wangmeng Zuo 等;《IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY》;20180331;第13卷(第3期);717-732 *
基于Gabor特征与投影字典对学习的人脸识别算法;张建明 等;《计算机工程与科学》;20160331;第38卷(第3期);542-548 *
基于迭代投影向量学习的行人重识别;丁宗元 等;《计算机工程与设计》;20180430;第39卷(第4期);1120-1124 *

Also Published As

Publication number Publication date
CN109284668A (zh) 2019-01-29

Similar Documents

Publication Publication Date Title
CN109284668B (zh) 一种基于距离正则化投影和字典学习的行人重识别方法
Hou et al. Cross attention network for few-shot classification
CN108960140B (zh) 基于多区域特征提取和融合的行人再识别方法
CN108921107B (zh) 基于排序损失和Siamese网络的行人再识别方法
Yang et al. Efficient image retrieval via decoupling diffusion into online and offline processing
Sun et al. Task-driven dictionary learning for hyperspectral image classification with structured sparsity constraints
CN108229347B (zh) 用于人识别的拟吉布斯结构采样的深层置换的方法和装置
CN105005772B (zh) 一种视频场景检测方法
CN107784293A (zh) 一种基于全局特征和稀疏表示分类的人体行为识别方法
CN105160312A (zh) 基于人脸相似度匹配的明星脸装扮推荐方法
Hyun et al. ReConPatch: Contrastive patch representation learning for industrial anomaly detection
CN102945375A (zh) 多约束下的多视角监控视频行为检测和识别方法
CN109544603B (zh) 基于深度迁移学习的目标跟踪方法
CN102609681A (zh) 基于字典学习模型的人脸识别方法
CN112232374B (zh) 基于深度特征聚类和语义度量的不相关标签过滤方法
CN104036296B (zh) 一种图像的表示和处理方法及装置
CN103605952A (zh) 基于拉普拉斯正则组稀疏的人体行为识别方法
CN108830130A (zh) 一种偏振高光谱低空侦察图像典型目标检测方法
CN106845375A (zh) 一种基于层级化特征学习的动作识别方法
CN109214442A (zh) 一种基于列表和身份一致性约束的行人重识别算法
CN108446613A (zh) 一种基于距离中心化与投影向量学习的行人重识别方法
CN106056135A (zh) 一种基于压缩感知的人体动作分类方法
CN111242003B (zh) 一种基于多尺度受约束自注意机制的视频显著性物体检测的方法
CN108875448B (zh) 一种行人再识别方法及装置
CN116311345A (zh) 一种基于Transformer的遮挡行人重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210804

Address after: 226001 709-710, building 10a, Zilang science and Technology City, 60 Chongzhou Avenue, Nantong City, Jiangsu Province

Patentee after: Lingkun (Nantong) Intelligent Technology Co.,Ltd.

Address before: 650093 No. 253, Xuefu Road, Wuhua District, Yunnan, Kunming

Patentee before: Kunming University of Science and Technology