CN111783521A - 基于低秩先验引导的域不变信息分离的行人重识别方法 - Google Patents

基于低秩先验引导的域不变信息分离的行人重识别方法 Download PDF

Info

Publication number
CN111783521A
CN111783521A CN202010424961.0A CN202010424961A CN111783521A CN 111783521 A CN111783521 A CN 111783521A CN 202010424961 A CN202010424961 A CN 202010424961A CN 111783521 A CN111783521 A CN 111783521A
Authority
CN
China
Prior art keywords
pedestrian
domain
information
identity
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010424961.0A
Other languages
English (en)
Other versions
CN111783521B (zh
Inventor
李华锋
李玲莉
余正涛
张亚飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202010424961.0A priority Critical patent/CN111783521B/zh
Publication of CN111783521A publication Critical patent/CN111783521A/zh
Application granted granted Critical
Publication of CN111783521B publication Critical patent/CN111783521B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于低秩先验引导的域不变信息分离的行人重识别方法,属于计算机视觉领域。将域不变信息嵌入到字典学习框架内,构建了跨数据集无监督行人再识别的判别字典学习模型。根据风格信息的低秩先验性,该模型能将混叠在行人图像特征中的域信息和反映行人特征的域不变信息分离开来;同时,鉴于行人属性所具有的域不变性,将属性作为域之间的纽带,用于构建源数据集与目标数据集之间的关系,缩小两者之间的域偏移。最后,通过一种自训练策略来微调之前学习的参数。实验表明,本方法在很多数据集上接近甚至超过了有监督非深度学习以及基于深度学习的无监督域自适应行人重识别的性能。

Description

基于低秩先验引导的域不变信息分离的行人重识别方法
技术领域
本发明涉及一种基于低秩先验引导的域不变信息分离的行人重识别方法,属于计算机视觉领域。
背景技术
行人重识别是一种从不同摄像头下的多张行人图片中搜索相同行人图片的技术。由于该技术在智能监控中发挥着重要作用,因此在学术界和工业界都引起了极大关注。在实际监控环境中,摄像头所拍摄的行人图像往往具有较低的分辨率,同时由于视角差异、光照变化,行人在不同视角下常表现出较强的外貌歧义性,这给行人重识别带来了极大挑战。虽然,基于深度学习的行人重识别近几年在性能上有了显著提升,然而这些方法大多是有监督的学习方法,需要大量的标记样本来训练模型,而大规模样本的标记极其耗费人力物力,这极大地限制了行人重识别技术的适用性。此外,这类有监督的识别方法,在源数据集上训练后,部署到新的数据集上,由于不同数据集之间域的偏畸,性能会显著下降。
为解决该问题,最近的一些工作聚焦在了无监督域自适应行人重识别方法的研究上。这些方法主要通过无监督域不变特征的设计和提取、基于对抗学习的域对齐或图像风格迁移等手段来降低源域与目标域之间空白。然而,无监督域不变特征的设计方法往往很难从数据分布中挖掘信息丰富的判别信息;基于对抗学习的域适应方法常通过不同域特征之间的对抗学习来实现域的对齐,但在对抗学习过程中,提取到的特征往往是来自不同域样本的共有信息,而丢失了不同域样本之间的独有信息,容易加剧样本特征之间的歧义性。基于图像风格迁移的方法虽然有效,但却容易导致迁移图像标签漂移。在行人重识别之外,无监督域自适应的方法也受到了广泛关注,取得了较为显著的研究进展,但这些方法往往假设源域和目标域具有相同或部分相同的类,这种假设和行人重识别的情况不符。此外,在无监督域自适应的方法中,源域和目标域之间往往是单域与单域的问题。但在行人再识别中,带标签的源数据集和不带标签的目标数据集往往都含有多个相机视角(每个相机视角可看成一个域),因此无监督域自适应的方法不能直接推广应用到行人重识别中。
发明内容
本发明的目的在于针对现有技术的缺点和不足,提出一种基于低秩先验引导的域不变信息分离的行人重识别方法。
本发明采用的技术方案是:一种基于低秩先验引导的域不变信息分离的行人重识别方法,包括如下步骤:
首先,提出低秩成分分解的字典学习模型,将不同相机视角下的行人图像特征,分解成具有低秩特性的风格信息和具有判别性的行人信息,通过将分解出来的风格信息去除,利用剩下的行人信息来训练判别字典学习模型,并将行人信息在其对应字典下的判别系数作为行人的潜在身份特征,用于行人身份判别性度量的依据;
其次,在字典学习模型内,嵌入了属性与特征关联模块,挖掘属性与特征之间的关系,构建从特征到属性的映射,搭建源域与目标域之间的桥梁,在字典学习模型中引入了自重构约束以及身份判别特征与标签一致性约束;
最后,通过选择信任度高的伪标记样本来更新模型,使其更适应目标域数据的识别。
具体步骤如下:
步骤1,问题定义:
Figure BDA0002498317210000021
Figure BDA0002498317210000022
分别为源域和目标域内的样本集合,s表示源域,t表示目标域,n和m分表表示相机视角个数,v和h表示源域和目标域中的第v和第h个摄像头,nv和nh分别表示源域和目标域中每个摄像头下的样本个数。源域中第v个视角下nv个样本集合表示为
Figure BDA0002498317210000023
目标域中第h个视角下的nh个未标记样本集合表示为
Figure BDA0002498317210000024
Figure BDA0002498317210000025
分别表示源数据集和目标数据集的语义属性,其中
Figure BDA0002498317210000026
Figure BDA0002498317210000027
表示源域中第i个摄像头下ni个样本的属性和目标域中第j个摄像头下nj个样本的属性。Ys为源域样本的标签集合。在源域中Xs,Ys,As是给定的,而在目标域中,只有视觉特征Xt是给定的。提出方法的主要任务之一是使用在源域中训练的模型来预测目标域的属性At,从而实现对目标域标签Yt的预测;
步骤2,由于域之间的偏移,在跨域的行人重识别中,在源域上训练得到的模型常常不能直接部署到目标数据集上。为解决该问题,根据相同视角下行人图像风格的低秩先验性,建立如下的域不变信息分离模型:
Figure BDA0002498317210000031
Figure BDA0002498317210000032
其中,
Figure BDA0002498317210000033
分别为行人风格特征和行人身份特征在风格字典D∈Rm×d和身份特征字典
Figure BDA0002498317210000034
下的编码系数,di∈Rm和d0,j∈Rm分别为D的第i个原子和D0的第j个原子,Csc是每个摄像头下行人风格特征编码系数的集合,Cs是每个摄像头下行人身份特征编码系数的集合,||·||*是矩阵的核范数,
Figure BDA0002498317210000035
λ1,γ和α1为平衡参数。公式(1)的第一项表示仅用D0来重构行人图像的身份特征,第二项表示用D来重构剩余的图像风格特征。第三和第五项是低秩正则项。由于同一视角下,表达域信息的关键成分是由成像风格引入的,具有低秩性,希望这类信息在字典D下具有相似的编码系数,而且能使用相同的原子来表达,这有利于不同成分信息的分离。因此使用
Figure BDA0002498317210000036
正则化编码系数
Figure BDA0002498317210000037
由于原始视觉特征是由编码系数和其对应的字典重构得到的,这里将编码系数称之为潜在的特征。
步骤3,由于行人属性特征具有域不变性,且具有一定的判别能力。如果利用有标记且携带属性的训练样本来构建域不变的潜在特征和属性之间的映射关系,将能实现目标域样本属性的预测,便于综合利用属性和域不变特征进行行人身份的确定。为此,在公式(1)的基础上,提出如下的字典学习模型:
Figure BDA0002498317210000041
Figure BDA0002498317210000042
其中,T表示的是转置,
Figure BDA0002498317210000043
表示的是源数据集第v个摄像头下行人的属性,W为关系矩阵,其作用是将反映行人身份的潜在特征空间和属性空间关联起来,β为平衡参数。公式2中,利用了自重构的思想来保证行人身份的潜在特征和属性的一致性。
步骤4,本发明中,源域样本是已标记的,但上述的模型并未利用样本的标签信息。为提升字典的判别性,降低行人特征之间的歧义性,上述的字典学习模型可进一步改进为:
Figure BDA0002498317210000044
Figure BDA0002498317210000045
其中,σ和σ1为平衡参数,
Figure BDA0002498317210000046
表示第v个视角下的行人标签。为充分挖掘已标记样本的标签信息,期望
Figure BDA0002498317210000047
能起到分类器的作用,因此引入正则项
Figure BDA0002498317210000048
来达到这一目的。最小化
Figure BDA0002498317210000049
是为防止过拟合。
步骤5,为使训练出来的字典在目标数据集上也具有较强的表达能力,让无标记的目标域内部分样本参与到模型的训练中:
Figure BDA0002498317210000051
Figure BDA0002498317210000052
其中,λ2和α2是平衡参数,
Figure BDA0002498317210000053
分别是目标数据集样本在字典D∈Rm×d
Figure BDA0002498317210000054
下的编码系数。
步骤5.1,对于所有变量来说,步骤5的字典学习模型是非凸的。但如果更新其中一个变量,而固定其它变量时,模型是凸的,因此具有全局最优解。这里采用交替迭代法来获得每个变量的最优解。
步骤5.1.1,首先求解编码系数
Figure BDA0002498317210000055
此时,求解
Figure BDA0002498317210000056
的目标函数可以表示为:
Figure BDA0002498317210000057
该目标函数具有如下形式的解析解:
Figure BDA0002498317210000058
其中,∑为对角矩阵。同理求得:
Figure BDA0002498317210000059
求解
Figure BDA00024983172100000510
的目标函数可表示为:
Figure BDA00024983172100000511
便于求解,引入松弛变量Fv
Figure BDA00024983172100000512
公式(4)可写为:
Figure BDA0002498317210000061
其中,Fv可由singular value thresholding(SVT)算法求解如下函数得到:
Figure BDA0002498317210000062
Figure BDA0002498317210000063
有解析解:
Figure BDA0002498317210000064
其中,
Figure BDA0002498317210000065
I为一单位阵。获得更新后的Fv
Figure BDA0002498317210000066
后,可得
Figure BDA0002498317210000067
的解析解为:
Figure BDA0002498317210000068
对于
Figure BDA0002498317210000069
求解的目标函数可表示为:
Figure BDA00024983172100000610
Figure BDA00024983172100000617
为解决该问题,引入辅助变量Ph,公式(9)可写为:
Figure BDA00024983172100000611
从而Ph可通过求解式(10)来更新:
Figure BDA00024983172100000612
在Ph更新后,可以求得
Figure BDA00024983172100000613
的解析式为:
Figure BDA00024983172100000614
其中,
Figure BDA00024983172100000615
步骤5.1.2,在得到
Figure BDA00024983172100000616
之后,求解D,D0,对于D,其求解的目标函数可表示为:
Figure BDA0002498317210000071
公式(13)直接用SVT算法来求解,为此将其进行松弛化处理:
Figure BDA0002498317210000072
其中
Figure BDA0002498317210000073
这样一来,D1可以直接采用SVT对公式(14)进行求解更新:
Figure BDA0002498317210000074
然后,再对D进行更新,目标函数表达式如下:
Figure BDA0002498317210000075
该问题可使用Lagrange dual进行求解。
对于D0,其求解的目标函数表达式如下:
Figure BDA0002498317210000076
Figure BDA0002498317210000077
为了解决上述问题,引入两个变量H和T,其公式17可表示为:
Figure BDA0002498317210000078
其中,更新H和T的目标函数分别为:
Figure BDA0002498317210000079
Figure BDA00024983172100000710
这两个问题可采用SVT算法来求解。
然后,更新D0,其目标函数为:
Figure BDA00024983172100000711
可将公式(21)简化为:
Figure BDA0002498317210000081
这样公式26可直接由Lagrange dual法来求解。其中
Figure BDA0002498317210000082
步骤5.1.3,对W进行求解,其目标表达式如下:
Figure BDA0002498317210000083
为解决上述问题,公式(23)可松弛化为:
Figure BDA0002498317210000084
从而得到更新L的解析表达式:
Figure BDA0002498317210000085
其中,
Figure BDA0002498317210000086
I是单位矩阵。最后得到更新W的公式为:
βCsCsTW+WAsAsT=βCsAsT+LAsT (26)
这是一个Sylvester equation,可利用Bartels-stewart算法求解。
步骤5.2,在得到风格字典D和行人身份特征字典D0之后,可以得风格编码系数
Figure BDA0002498317210000087
和人身份特征的编码系数
Figure BDA0002498317210000088
Figure BDA0002498317210000089
同时,可以获得目标域内的属性特征
Figure BDA00024983172100000810
和身份矩阵
Figure BDA00024983172100000811
Figure BDA00024983172100000812
Figure BDA00024983172100000813
在得到测试样本行人信息编码系数
Figure BDA00024983172100000814
行人属性表示
Figure BDA00024983172100000815
后,可以通过余弦距离得到行人图像对的相似性分数:
Figure BDA00024983172100000816
其中,zl,(l=a,b)表示语义属性空间或视觉特征空间中的一个向量,ε>0是一个非常要的常数。为综合潜在视觉特征空间和语义属性空间的互补性,最终的相似分数可有下式来求得:
simfinal=τsimC+(1-τ)simA (31)
其中τ是一个权值。由于属性的判别性较弱,因此取τ=0.8。
本发明有益效果为:
(1)本发明不仅能有效缓解不同相机视角间域的偏移,还能有效降低被分离后行人身份特征的歧义性,避免行人标签信息的漂移。
(2)本发明将语义属性空间、潜在视觉特征空间以及源域中的行人身份标签关联起来,并利用语义属性的域不变特性,使源数据集学到的知识能够迁移到目标数据集中,提升了字典的判别性。
(3)本发明提出的方法在无监督跨数据行人重识别上,表现出了优异的识别性能。在很多数据集上,性能超过了非深度学习的有监督行人重识别方法,以及基于深度学习的无监督域自适应行人重识别方法。
附图说明
图1为本发明流程图;
图2为本发明权利要求1的说明图。
具体实施方式
下面结合附图2和具体实施例,对本发明做进一步说明。
实施例1:一种基于低秩先验引导的域不变信息分离的行人重识别方法,包括如下步骤:
首先,提出低秩成分分解的字典学习模型,将不同相机视角下的行人图像特征,分解成具有低秩特性的风格信息和具有判别性的行人信息,通过将分解出来的风格信息去除,利用剩下的行人信息来训练判别字典学习模型,并将行人信息在其对应字典下的判别系数作为行人的潜在身份特征,用于行人身份判别性度量的依据;
其次,在字典学习模型内,嵌入了属性与特征关联模块,挖掘属性与特征之间的关系,构建从特征到属性的映射,搭建源域与目标域之间的桥梁,在字典学习模型中引入了自重构约束以及身份判别特征与标签一致性约束;
最后,通过选择信任度高的伪标记样本来更新模型,使其更适应目标域数据的识别。
具体步骤如下:
步骤1,问题定义:
Figure BDA0002498317210000101
Figure BDA0002498317210000102
分别为源域和目标域内的样本集合,s表示源域,t表示目标域,n和m分表表示相机视角个数,v和h表示源域和目标域中的第v和第h个摄像头,nv和nh分别表示源域和目标域中每个摄像头下的样本个数。源域中第v个视角下nv个样本集合表示为
Figure BDA0002498317210000103
目标域中第h个视角下的nh个未标记样本集合表示为
Figure BDA0002498317210000104
Figure BDA0002498317210000105
分别表示源数据集和目标数据集的语义属性,其中
Figure BDA0002498317210000106
Figure BDA0002498317210000107
表示源域中第i个摄像头下ni个样本的属性和目标域中第j个摄像头下nj个样本的属性。Ys为源域样本的标签集合。在源域中Xs,Ys,As是给定的,而在目标域中,只有视觉特征Xt是给定的。提出方法的主要任务之一是使用在源域中训练的模型来预测目标域的属性At,从而实现对目标域标签Yt的预测;
步骤2,由于域之间的偏移,在跨域的行人重识别中,在源域上训练得到的模型常常不能直接部署到目标数据集上。为解决该问题,根据相同视角下行人图像风格的低秩先验性,建立如下的域不变信息分离模型:
Figure BDA0002498317210000108
Figure BDA0002498317210000109
其中,
Figure BDA00024983172100001010
分别为行人风格特征和行人身份特征在风格字典D∈Rm×d和身份特征字典
Figure BDA00024983172100001011
下的编码系数,di∈Rm和d0,j∈Rm分别为D的第i个原子和D0的第j个原子,Csc是每个摄像头下行人风格特征编码系数的集合,Cs是每个摄像头下行人身份特征编码系数的集合,||·||*是矩阵的核范数,
Figure BDA0002498317210000111
λ1,γ和α1为平衡参数。公式(1)的第一项表示仅用D0来重构行人图像的身份特征,第二项表示用D来重构剩余的图像风格特征。第三和第五项是低秩正则项。由于同一视角下,表达域信息的关键成分是由成像风格引入的,具有低秩性,希望这类信息在字典D下具有相似的编码系数,而且能使用相同的原子来表达,这有利于不同成分信息的分离。因此使用
Figure BDA0002498317210000112
正则化编码系数
Figure BDA0002498317210000113
由于原始视觉特征是由编码系数和其对应的字典重构得到的,这里将编码系数称之为潜在的特征。
步骤3,由于行人属性特征具有域不变性,且具有一定的判别能力。如果利用有标记且携带属性的训练样本来构建域不变的潜在特征和属性之间的映射关系,将能实现目标域样本属性的预测,便于综合利用属性和域不变特征进行行人身份的确定。为此,在公式(1)的基础上,提出如下的字典学习模型:
Figure BDA0002498317210000114
Figure BDA0002498317210000115
其中,T表示的是转置,
Figure BDA0002498317210000116
表示的是源数据集第v个摄像头下行人的属性,W为关系矩阵,其作用是将反映行人身份的潜在特征空间和属性空间关联起来,β为平衡参数。公式2中,利用了自重构的思想来保证行人身份的潜在特征和属性的一致性。
步骤4,本发明中,源域样本是已标记的,但上述的模型并未利用样本的标签信息。为提升字典的判别性,降低行人特征之间的歧义性,上述的字典学习模型可进一步改进为:
Figure BDA0002498317210000121
Figure BDA0002498317210000122
其中,σ和σ1为平衡参数,
Figure BDA0002498317210000123
表示第v个视角下的行人标签。为充分挖掘已标记样本的标签信息,期望
Figure BDA0002498317210000124
能起到分类器的作用,因此引入正则项
Figure BDA0002498317210000125
来达到这一目的。最小化
Figure BDA0002498317210000126
是为防止过拟合。
步骤5,为使训练出来的字典在目标数据集上也具有较强的表达能力,让无标记的目标域内部分样本参与到模型的训练中:
Figure BDA0002498317210000127
Figure BDA0002498317210000128
其中,λ2和α2是平衡参数,
Figure BDA0002498317210000129
分别是目标数据集样本在字典D∈Rm×d
Figure BDA00024983172100001210
下的编码系数。
步骤5.1,对于所有变量来说,步骤5的字典学习模型是非凸的。但如果更新其中一个变量,而固定其它变量时,模型是凸的,因此具有全局最优解。这里采用交替迭代法来获得每个变量的最优解。
步骤5.1.1,首先求解编码系数
Figure BDA00024983172100001211
此时,求解
Figure BDA00024983172100001212
的目标函数可以表示为:
Figure BDA0002498317210000131
该目标函数具有如下形式的解析解:
Figure BDA0002498317210000132
其中,∑为对角矩阵。同理求得:
Figure BDA0002498317210000133
求解
Figure BDA0002498317210000134
的目标函数可表示为:
Figure BDA0002498317210000135
便于求解,引入松弛变量Fv
Figure BDA0002498317210000136
公式(4)可写为:
Figure BDA0002498317210000137
其中,Fv可由singular value thresholding(SVT)算法求解如下函数得到:
Figure BDA0002498317210000138
Figure BDA0002498317210000139
有解析解:
Figure BDA00024983172100001310
其中,
Figure BDA00024983172100001311
I为一单位阵。获得更新后的Fv
Figure BDA00024983172100001312
后,可得
Figure BDA00024983172100001313
的解析解为:
Figure BDA00024983172100001314
对于
Figure BDA00024983172100001315
求解的目标函数可表示为:
Figure BDA00024983172100001316
Figure BDA00024983172100001317
为解决该问题,引入辅助变量Ph,公式(9)可写为:
Figure BDA0002498317210000141
从而Ph可通过求解式(10)来更新:
Figure BDA0002498317210000142
在Ph更新后,可以求得
Figure BDA0002498317210000143
的解析式为:
Figure BDA0002498317210000144
其中,
Figure BDA0002498317210000145
步骤5.1.2,在得到
Figure BDA0002498317210000146
之后,求解D,D0,对于D,其求解的目标函数可表示为:
Figure BDA0002498317210000147
公式(13)直接用SVT算法来求解,为此将其进行松弛化处理:
Figure BDA0002498317210000148
其中
Figure BDA0002498317210000149
这样一来,D1可以直接采用SVT对公式(14)进行求解更新:
Figure BDA00024983172100001410
然后,再对D进行更新,目标函数表达式如下:
Figure BDA00024983172100001411
该问题可使用Lagrange dual进行求解。
对于D0,其求解的目标函数表达式如下:
Figure BDA00024983172100001412
Figure BDA00024983172100001413
为了解决上述问题,引入两个变量H和T,其公式17可表示为:
Figure BDA0002498317210000151
其中,更新H和T的目标函数分别为:
Figure BDA0002498317210000152
Figure BDA0002498317210000153
这两个问题可采用SVT算法来求解。
然后,更新D0,其目标函数为:
Figure BDA0002498317210000154
可将公式(21)简化为:
Figure BDA0002498317210000155
这样公式26可直接由Lagrange dual法来求解。其中
Figure BDA0002498317210000156
步骤5.1.3,对W进行求解,其目标表达式如下:
Figure BDA0002498317210000157
为解决上述问题,公式(23)可松弛化为:
Figure BDA0002498317210000158
从而得到更新L的解析表达式:
Figure BDA0002498317210000159
其中,
Figure BDA00024983172100001510
I是单位矩阵。最后得到更新W的公式为:
βCsCsTW+WAsAsT=βCsAsT+LAsT (26)
这是一个Sylvester equation,可利用Bartels-stewart算法求解。
步骤5.2,在得到风格字典D和行人身份特征字典D0之后,可以得风格编码系数
Figure BDA0002498317210000161
和人身份特征的编码系数
Figure BDA0002498317210000162
Figure BDA0002498317210000163
同时,可以获得目标域内的属性特征
Figure BDA0002498317210000164
和身份矩阵
Figure BDA0002498317210000165
Figure BDA0002498317210000166
Figure BDA0002498317210000167
在得到测试样本行人信息编码系数
Figure BDA0002498317210000168
行人属性表示
Figure BDA0002498317210000169
后,可以通过余弦距离得到行人图像对的相似性分数:
Figure BDA00024983172100001610
其中,zl,(l=a,b)表示语义属性空间或视觉特征空间中的一个向量,ε>0是一个非常要的常数。为综合潜在视觉特征空间和语义属性空间的互补性,最终的相似分数可有下式来求得:
simfinal=τsimC+(1-τ)simA (31)
其中τ是一个权值。由于属性的判别性较弱,因此取τ=0.8。
下面结合具体数据,对本发明的有效性进行验证。
选择了五个具有挑战性的数据集:VIPeR,PRID450s,PRID2011,CUHK01和GRID对提出方法的性能进行验证。其中,VIPeR包含了632个行人图像对,分别来自两个不同的相机视角,每个行人在每个相机视角下只有一幅图像。GRID有1275个行人,拍摄于8个不相交的相机视角,且拍摄背景复杂多变,而且只有250个行人同时出现在两个相机视角下,其余的行人仅出现在一个相机视角下。PRID2011数据集拍摄于两个不同相机视角,一个拍摄了385张行人图片,另一相机拍摄了749个行人图片,其中有200个行人同时出现在两个摄像头下。由于这两个数据集有较多的干扰图像,因此更接近于现实情况,也更具挑战性。CUHK01共有3884张图片,来自971个行人,每个行人在每个视角下有两张图片。PRID450s有450个身份,每个摄像头下一个行人只出现一次。由于光照变化、复杂背景影响、相机视角差异等因素的影响,行人视觉特征极具歧义性,因此给行人身份的识别带来了挑战。
在上述数据集中,只有VIPeR,PRID2011,GRID标注了语义属性。在跨数据集行人重识别中,这些标注了语义属性的数据集被用作训练集,而未被标注语义属性的数据集可被用作测试集和验证集。将上述的单个数据集的全部样本用来训练模型,而将目标数据集中的样本,按行人身份分成互不重叠的两个子集,一个参与模型的训练,另一个用于模型的测试,并随机取十组数据的平均值作为结果。在所提方法的模型中,一共有10个超参数,其中包括字典D和D0的尺度大小d和d0,和8个正则化参数α1,α2,λ1,λ2,σ,σ1,β,γ。在跨数据集行人重识别中,设定d=650,d0=800,α1=0.1,α2=0.1,λ1=0.6,λ2=0.5,σ=5,σ1=6,β=0.15,γ=0.5。在特征的选择上,采用Gaussian of Gaussian(GOG)descriptor来描述行人的外貌特征。在属性表示上,本发明使用的VIPeR,PRID2011,GRID数据集上的属性定义是由R.Layne et所标注的.
实验结果1:在VIPeR上的实验,将PRID2011作为源数据集,VIPeR作为目标数据集。对比方法中,有监督的识别方法包括Mid-level(2014),FT-JSTL+DGD(2016),FT-JSTL+DGD(2016)等。这些方法用来与提出的无监督行人重识别的方法作对比,来现实本发明提出方法与有监督的方法之间的差距。此外,还与一些比较典型的无监督行人重识别的方法进行了对比,这些方法包括AdaRSVMs(2015),Adversarial(2016),UMDL(2016),CAMEL(2017),UJSDL(2018)和DECAMEL(2019)。对比结果如表1所示。由此可以看出,在VIPeR上,本发明所提方法的识别性能距离有监督的方法虽然还有些差距,但与无监督的识别方法相比,本发明方法的性能均高于它们,而且超过了深度学习的方法DECAMEL(2019)。这证明了本发明方法的有效性和优越性。
Figure BDA0002498317210000171
Figure BDA0002498317210000181
表1在VIPeR数据集上的识别性能与一些先进的有监督和无监督算法的识别性能比较,“-”表示没有识别结果可用。
实验结果2:在PRID450s上的实验:将VIPeR作为源数据集,PRID450s作为目标数据集,所提方法的实验结果与一些先进的有监督和无监督算法作了对比。其中,有监督的方法包括GOG+XQDA(2016),KISSME-MGT(2017),TDRP(2019)[90]。无监督的方法主要有AdaRSVMs(2015),cMAT-DCA(2016),UMDL(2016),TSR(2017),UJSDL(2018)和AIESL(2019)。在该数据集上,不同方法的识别结果如表2所示。由此可以发现,本发明方法的识别性能超过了最新的有监督算法TDRP(2019)的识别性能,而且超过了无监督深度学习识别算法DECAMEL(2019)和无监督字典学习算法AIESL(2019)的识别性能。这表明本发明算法和其它方法相比,表现出了较强的竞争优势,且不需要大量有标记的训练样本来训练深度学习模型。
Figure BDA0002498317210000182
Figure BDA0002498317210000191
表2在PRID450s数据集上的识别性能与一些先进的有监督和无监督算法的识别性能比较,“-”表示没有识别结果可用。
实验结果3:在PRID2011上的实验,在该实验中,将VIPeR做为源数据集,PRID2011作为目标数据集。在该实验中,一些性能优异的有监督算法,如aMTL-LOREA(2015),MKFSL(2017),Triplet Loss(2016),LOMO+LADF(2017)[88]被用来与的方法作对比。此外,选取了无监督行人重识别的方法:UMDL(2016),TJ-AIDL(2018),JSLAM(2018),AIESL(2019),ATNet(2019),DIMN(2019)与的方法进行比较,以显示方法的优越性。对比结果如表3所示。由此可以发现,在rank1的识别率上,本发明算法不仅超过了无监督深度学习方法MMFA(2018)、ATNet(2019)、DIMN(2019)和无监督字典学习方法AIESL(2019),还超过了有监督学习的方法JSLA(2018)。
Figure BDA0002498317210000192
Figure BDA0002498317210000201
表3在PRID2011数据集上的识别性能与一些先进的有监督和无监督算法的识别性能比较,“-”表示没有识别结果可用。
实验结果4:在GRID上的实验:在该实验中,用VIPeR作为源数据集,而将GRID用作目标数据集,并与一些经典的有监督的识别方法如:GOG+XQDA(2016),MKFSL(2017),CSPL(2018),DSRPDL(2019),以及无监督的识别方法SSDAL(2016),TLSTP(2018),DIMN(2019),AIESL(2019)进行了比较,对比结果如表4所示。由于GRID数据集携带了大量干扰图像,因此要在该数据集上进行行人身份的匹配充满了挑战。由表4中的数据可以看出,本发明提出的方法在性能均超过了有监督的方法和无监督深度学习的方法,在rank1的识别率上达到了38.56%,分别高于有监督识别方法DSRPDL(2019)7.04%和无监督深度学习方法DIMN(2019)9.28%。
Figure BDA0002498317210000202
表4在GRID数据集上的识别性能与一些先进的有监督和无监督算法的识别性能比较,“-”表示没有识别结果可用。
实验结果5:在CUHK01上的实验,为进一步验证本发明算法的性能,将VIPeR用作源数据集,CUHK01用作目标数据集,识别结果和一些有监督算法GOG+XQDA(2016),TripletLoss(2016),LOMO+LADF(2017),MVLDML(2018)以及无监督的识别算法UDML(2016),TSR(2017),CAMEL(2017),UJSDL(2018),DECAMEL(2019)进行了比较。对比结果展示在表5中。由此可以看出,本发明结果与无监督深度方法DECAMEL(2019)相比,该算法的rank1值能高出约1.35%,与性能优异的有监督识别算法GOG+XQDA(2016)相比,在rank1上的识别率也有了略微提升。
Figure BDA0002498317210000211
表5在CUHK01数据集上的识别性能与一些先进的有监督和无监督算法的识别性能比较,“-”表示没有识别结果可用。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (2)

1.一种基于低秩先验引导的域不变信息分离的行人重识别方法,其特征在于:包括如下步骤:
首先,提出低秩成分分解的字典学习模型,将不同相机视角下的行人图像特征,分解成具有低秩特性的风格信息和具有判别性的行人信息,通过将分解出来的风格信息去除,利用剩下的行人信息来训练判别字典学习模型,并将行人信息在其对应字典下的判别系数作为行人的潜在身份特征,用于行人身份判别性度量的依据;
其次,在字典学习模型内,嵌入了属性与特征关联模块,挖掘属性与特征之间的关系,构建从特征到属性的映射,搭建源域与目标域之间的桥梁,在字典学习模型中引入了自重构约束以及身份判别特征与标签一致性约束;
最后,通过选择信任度高的伪标记样本来更新模型,使其更适应目标域数据的识别。
2.根据权利要求1所述的基于低秩先验引导的域不变信息分离的行人重识别方法,其特征在于,具体步骤如下:
步骤1,问题定义:
Figure FDA0002498317200000011
Figure FDA0002498317200000012
分别为源域和目标域内的特征样本集合,s表示源域,t表示目标域,n和m分表表示相机视角个数,v和h表示源域和目标域中的第v个和第h个摄像头,nv和nh分别表示源域和目标域中每个摄像头下的样本个数,源域中第v个视角下nv个样本集合表示为
Figure FDA0002498317200000013
目标域中第h个视角下的nh个未标记样本集合表示为
Figure FDA0002498317200000014
Figure FDA0002498317200000015
分别表示源数据集和目标数据集的语义属性,其中
Figure FDA0002498317200000016
Figure FDA0002498317200000017
表示源域中第i个摄像头下ni个样本的属性和目标域中第j个摄像头下nj个样本的属性,Ys为源域样本的标签集合,在源域中Xs,Ys,As是给定的,而在目标域中,只有视觉特征Xt是给定的,提出方法的主要任务之一是使用在源域中训练的模型来预测目标域的属性At,从而实现对目标域标签Yt的预测;
步骤2,域不变分离模型的建立:根据相同视角下行人图像风格的低秩先验性,建立如下的域不变信息分离模型:
Figure FDA0002498317200000021
其中,
Figure FDA0002498317200000022
分别为行人风格特征和行人身份特征在风格字典DvRm×d和身份特征字典
Figure FDA0002498317200000023
下的编码系数,divRm和d0,jvRm分别为D的第i个原子和D0的第j个原子,Csc是每个摄像头下行人风格特征编码系数的集合,Cs是每个摄像头下行人身份特征编码系数的集合,||·||*是矩阵的核范数,
Figure FDA0002498317200000024
λ1,γ和α1为平衡参数,公式(1)的第一项表示仅用D0来重构行人图像的身份特征,第二项表示用D来重构剩余的图像风格特征,第三和第五项是低秩正则项,由于同一视角下,表达域信息的关键成分是由成像风格引入的,具有低秩性,这类信息在字典D下具有相似的编码系数,而且能使用相同的原子来表达,因此使用
Figure FDA0002498317200000025
正则化编码系数
Figure FDA0002498317200000026
由于原始视觉特征是由编码系数和其对应的字典重构得到的,这里将编码系数称之为潜在的特征;
步骤3,利用有标记且携带属性的训练样本来构建域不变的潜在特征和属性之间的映射关系,能实现目标域样本属性的预测,便于综合利用属性和域不变特征进行行人身份的确定,为此,在公式(1)的基础上,提出如下的字典学习模型:
Figure FDA0002498317200000027
其中,T表示的是转置,
Figure FDA0002498317200000031
表示的是源数据集第v个摄像头下行人的属性,W为关系矩阵,其作用是将反映行人身份的潜在特征空间和属性空间关联起来,β为平衡参数,公式2中,利用了自重构的思想来保证行人身份的潜在特征和属性的一致性;
步骤4,利用标签信息建立如下字典学习模型:
Figure FDA0002498317200000032
其中,σ和σ1为平衡参数,
Figure FDA0002498317200000033
表示第v个视角下的行人标签,为充分挖掘已标记样本的标签信息,使
Figure FDA0002498317200000034
能起到分类器的作用,因此引入正则项
Figure FDA0002498317200000035
来达到这一目的,最小化
Figure FDA0002498317200000036
是为防止过拟合;
步骤5,让无标记的目标域内部分样本参与到模型的训练中:
Figure FDA0002498317200000037
其中,λ2和α2是平衡参数,
Figure FDA0002498317200000038
分别是目标数据集样本在字典D∈Rm×d
Figure FDA0002498317200000039
下的编码系数。
CN202010424961.0A 2020-05-19 2020-05-19 基于低秩先验引导的域不变信息分离的行人重识别方法 Active CN111783521B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010424961.0A CN111783521B (zh) 2020-05-19 2020-05-19 基于低秩先验引导的域不变信息分离的行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010424961.0A CN111783521B (zh) 2020-05-19 2020-05-19 基于低秩先验引导的域不变信息分离的行人重识别方法

Publications (2)

Publication Number Publication Date
CN111783521A true CN111783521A (zh) 2020-10-16
CN111783521B CN111783521B (zh) 2022-06-07

Family

ID=72754196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010424961.0A Active CN111783521B (zh) 2020-05-19 2020-05-19 基于低秩先验引导的域不变信息分离的行人重识别方法

Country Status (1)

Country Link
CN (1) CN111783521B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528788A (zh) * 2020-12-01 2021-03-19 重庆兆光科技股份有限公司 一种基于域不变特征和时空特征的重识别方法
CN112990120A (zh) * 2021-04-25 2021-06-18 昆明理工大学 一种利用相机风格分离域信息的跨域行人重识别方法
CN113326738A (zh) * 2021-05-06 2021-08-31 南京信息工程大学 基于深度网络和字典学习的行人目标检测与重识别方法
CN113408428A (zh) * 2021-06-22 2021-09-17 之江实验室 行人图像不变性特征提取和无监督行人重识别方法与装置
CN113449676A (zh) * 2021-07-13 2021-09-28 凌坤(南通)智能科技有限公司 一种基于双路互促进解纠缠学习的行人重识别方法
CN114299543A (zh) * 2021-12-29 2022-04-08 福州大学 一种无监督行人重识别方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120158621A1 (en) * 2010-12-16 2012-06-21 Microsoft Corporation Structured cross-lingual relevance feedback for enhancing search results
CN107194378A (zh) * 2017-06-28 2017-09-22 深圳大学 一种基于混合字典学习的人脸识别方法及装置
CN108446613A (zh) * 2018-03-08 2018-08-24 常州大学 一种基于距离中心化与投影向量学习的行人重识别方法
CN108509854A (zh) * 2018-03-05 2018-09-07 昆明理工大学 一种基于投影矩阵约束结合判别字典学习的行人再识别方法
CN109214442A (zh) * 2018-08-24 2019-01-15 昆明理工大学 一种基于列表和身份一致性约束的行人重识别算法
CN109409201A (zh) * 2018-09-05 2019-03-01 昆明理工大学 一种基于共享及特有字典对联合学习的行人再识别方法
CN109447123A (zh) * 2018-09-28 2019-03-08 昆明理工大学 一种基于标签一致性约束与拉伸正则化字典学习的行人再识别方法
CN110414368A (zh) * 2019-07-04 2019-11-05 华中科技大学 一种基于知识蒸馏的无监督行人重识别方法
CN110414462A (zh) * 2019-08-02 2019-11-05 中科人工智能创新技术研究院(青岛)有限公司 一种无监督的跨域行人重识别方法及系统
CN110826417A (zh) * 2019-10-12 2020-02-21 昆明理工大学 一种基于判别字典学习的跨视角行人重识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120158621A1 (en) * 2010-12-16 2012-06-21 Microsoft Corporation Structured cross-lingual relevance feedback for enhancing search results
CN107194378A (zh) * 2017-06-28 2017-09-22 深圳大学 一种基于混合字典学习的人脸识别方法及装置
CN108509854A (zh) * 2018-03-05 2018-09-07 昆明理工大学 一种基于投影矩阵约束结合判别字典学习的行人再识别方法
CN108446613A (zh) * 2018-03-08 2018-08-24 常州大学 一种基于距离中心化与投影向量学习的行人重识别方法
CN109214442A (zh) * 2018-08-24 2019-01-15 昆明理工大学 一种基于列表和身份一致性约束的行人重识别算法
CN109409201A (zh) * 2018-09-05 2019-03-01 昆明理工大学 一种基于共享及特有字典对联合学习的行人再识别方法
CN109447123A (zh) * 2018-09-28 2019-03-08 昆明理工大学 一种基于标签一致性约束与拉伸正则化字典学习的行人再识别方法
CN110414368A (zh) * 2019-07-04 2019-11-05 华中科技大学 一种基于知识蒸馏的无监督行人重识别方法
CN110414462A (zh) * 2019-08-02 2019-11-05 中科人工智能创新技术研究院(青岛)有限公司 一种无监督的跨域行人重识别方法及系统
CN110826417A (zh) * 2019-10-12 2020-02-21 昆明理工大学 一种基于判别字典学习的跨视角行人重识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
PENG P X 等: ""Unsupervised cross-dataset transfer learning for person Re-identification"", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION(CVPR)》 *
SONG J F 等: ""Generalizable person re-identification by domain-invariant mapping network"", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION(CVPR)》 *
张学涵: ""基于视觉显著增强和低秩稀疏结构化的行人重识别方法研究"", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *
王维: ""基于稀疏编码和迁移学习的融合在图像表示中的应用研究"", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528788A (zh) * 2020-12-01 2021-03-19 重庆兆光科技股份有限公司 一种基于域不变特征和时空特征的重识别方法
CN112528788B (zh) * 2020-12-01 2023-11-21 重庆兆光科技股份有限公司 一种基于域不变特征和时空特征的重识别方法
CN112990120A (zh) * 2021-04-25 2021-06-18 昆明理工大学 一种利用相机风格分离域信息的跨域行人重识别方法
CN112990120B (zh) * 2021-04-25 2022-09-16 昆明理工大学 一种利用相机风格分离域信息的跨域行人重识别方法
CN113326738A (zh) * 2021-05-06 2021-08-31 南京信息工程大学 基于深度网络和字典学习的行人目标检测与重识别方法
CN113326738B (zh) * 2021-05-06 2023-07-07 南京信息工程大学 基于深度网络和字典学习的行人目标检测与重识别方法
CN113408428A (zh) * 2021-06-22 2021-09-17 之江实验室 行人图像不变性特征提取和无监督行人重识别方法与装置
CN113408428B (zh) * 2021-06-22 2023-03-14 之江实验室 行人图像不变性特征提取和无监督行人重识别方法与装置
CN113449676A (zh) * 2021-07-13 2021-09-28 凌坤(南通)智能科技有限公司 一种基于双路互促进解纠缠学习的行人重识别方法
CN113449676B (zh) * 2021-07-13 2024-05-10 凌坤(南通)智能科技有限公司 一种基于双路互促进解纠缠学习的行人重识别方法
CN114299543A (zh) * 2021-12-29 2022-04-08 福州大学 一种无监督行人重识别方法

Also Published As

Publication number Publication date
CN111783521B (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
CN111783521B (zh) 基于低秩先验引导的域不变信息分离的行人重识别方法
Fu et al. Self-similarity grouping: A simple unsupervised cross domain adaptation approach for person re-identification
Hsu et al. Progressive domain adaptation for object detection
Wu et al. Deep learning-based methods for person re-identification: A comprehensive review
Tsagkatakis et al. Online distance metric learning for object tracking
CN113408492B (zh) 一种基于全局-局部特征动态对齐的行人重识别方法
CN111832511A (zh) 一种增强样本数据的无监督行人重识别方法
CN112906606B (zh) 一种基于相互分歧学习的域自适应行人重识别方法
Yee et al. DeepScene: Scene classification via convolutional neural network with spatial pyramid pooling
CN112364791B (zh) 一种基于生成对抗网络的行人重识别方法和系统
Zheng et al. Aware progressive clustering for unsupervised vehicle re-identification
CN114092964A (zh) 基于注意力引导和多尺度标签生成的跨域行人重识别方法
Yin et al. A multi-domain feature learning method for visual place recognition
Wang et al. A survey of face recognition
Rani et al. An effectual classical dance pose estimation and classification system employing convolution neural network–long shortterm memory (CNN-LSTM) network for video sequences
Zhao et al. Visible-infrared person re-identification based on frequency-domain simulated multispectral modality for dual-mode cameras
Shen et al. MCCG: A ConvNeXt-based Multiple-Classifier Method for Cross-view Geo-localization
Zhang et al. Close-set camera style distribution alignment for single camera person re-identification
CN116910571B (zh) 一种基于原型对比学习的开集域适应方法及系统
Liu et al. Fast tracking via spatio-temporal context learning based on multi-color attributes and pca
CN114973305A (zh) 一种针对拥挤人群的精确人体解析方法
Huang et al. Baggage image retrieval with attention-based network for security checks
CN111783526A (zh) 一种利用姿势不变和图结构对齐的跨域行人重识别方法
Li et al. Vehicle Re-Identification: Logistic Triplet Embedding Regularized by Label Smoothing
Wu et al. Learning age semantic factor to enhance group-based representations for cross-age face recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant