CN109409201B - 一种基于共享及特有字典对联合学习的行人再识别方法 - Google Patents

一种基于共享及特有字典对联合学习的行人再识别方法 Download PDF

Info

Publication number
CN109409201B
CN109409201B CN201811030966.4A CN201811030966A CN109409201B CN 109409201 B CN109409201 B CN 109409201B CN 201811030966 A CN201811030966 A CN 201811030966A CN 109409201 B CN109409201 B CN 109409201B
Authority
CN
China
Prior art keywords
dictionary
pedestrian
formula
shared
solving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811030966.4A
Other languages
English (en)
Other versions
CN109409201A (zh
Inventor
李华锋
许佳佳
周维燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201811030966.4A priority Critical patent/CN109409201B/zh
Publication of CN109409201A publication Critical patent/CN109409201A/zh
Application granted granted Critical
Publication of CN109409201B publication Critical patent/CN109409201B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2136Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提出一种基于共享及特有字典对联合学习的行人再识别方法,属于数字图像处理技术领域。由于行人均由反映其相似性的共享成分以及身份唯一性的特有成分构成。因此提出通过剔除特征的共享成分,来降低行人视觉之间的歧义性。为此,本发明提出一种共享与特有成分字典联合学习框架,并引入同一行人特有成分在特有字典下编码系数的距离与相干约束项,迫使相同行人具有相似的编码系数,不同行人具有较弱的相干性;此外,针对共享字典与特有成分字典,分别引入低秩与稀疏约束项来提升其表达能力及其判别性。实验结果表明,本发明提出的方法相对于传统方法具有更高的识别性能。

Description

一种基于共享及特有字典对联合学习的行人再识别方法
技术领域
本发明涉及一种基于共享及特有字典对联合学习的行人再识别方法,属于数字图像处理技术领域。
背景技术
行人重识别作为视频分析的关键任务之一,可以自动的对来自多个摄像头视角下的行人图像进行匹配。然而在现实中,因考虑到经济因素,不同摄像机之间的监控区域往往是非重叠且不连续的。此外,受摄像头视角、光照变化、复杂背景及遮挡因素的影响,行人图像的外貌特征通常表现出了较大的歧义性,这给行人再识别技术带来了极大挑战。
为降低行人视觉特征之间的歧义性,提升行人再识别的性能,研究者做了很多工作,并提出了一系列有效的方法,使该技术得到了较快发展。根据研究者侧重点的不同,这些方法可以分为基于特征描述子的方法和基于度量学习的方法两大类。其中,基于特征描述子的方法,是研究如何从行人图像中提取判别力强,鲁棒性好的特征,用于行人图像匹配。如:Bag-of-Words(BOW)技术,Local Maximal Occurrence(LOMO)的描述子,Ensembleof localized features(EOLF)描述子等等,上述特征描述方法虽然在一定程度上能提供一种鲁棒的行人特征表示,但在不同行人特征之间存在的低秩成分依然存在,而这些成分恰恰是行人相似性的主要体现者。因此,单纯地使用鲁棒特征来提升算法的识别性能,是远远不够的。
为解决特征描述子判别能力有限的缺陷,研究者提出了基于度量学习的行人再识别方法这类方法通常使用标记样本来学习一个映射矩阵将原始特征空间投影到另一个更具区分性的特征空间,从而使不同行人图像间的具有较大的发散性,相同行人图像间的具有较小的发散性。与基于特征描述子的方法相比,基于度量学习的行人再识别研究侧重点集中在如何通过模型设计来克服因光照变化、视角不同、姿势改变、遮挡等因素所导致的同一行人,在不同条件下所表现出的不相似性,以及不同行人所表现出的相似性。在度量学习中,由于利用了训练样本的标签信息,学习到的度量矩阵能够有效反映样本的特性,因而在识别中能得到较好的性能。但这类方法仍然不能有效避免不同行人之间相似性较高成分对匹配精度的影响。
为克服相同行人在不同视角下所表现出的差异性,研究者将不同视角下具有相同身份的行人图像在共有成分字典与特有成分字典下,分解成共享成分与特有成分,并通过对相同行人稀疏编码系数一致性约束来提升字典的判别性。但该方法仅仅考虑了同一行人不同视角下的相似性,而忽略了不同行人之间的相似性对识别算法的影响。
发明内容
本发明要解决的技术问题是提供了一种基于共享及特有字典对联合学习的行人再识别方法,在本发明提出的方法中,首先假设不同视角下的行人图像具有视觉相似的共享成分以及能反映自身身份信息的特有成分构成。据此,设计了基于行人外貌特征分解的字典联合学习框架。在该框架内,为使字典不同成分的字典具有较强的判别性,对共享字典与特有字典分别引入了低秩与稀疏性约束。此外,考虑到不同视角下相同行人图像身份的一致性,不同视角下具有不同标签行人共享成分的相似性以及特有成分的不相干性,分别对编码系数引入了一致性约束项和不相干约束项,来进一步提升字典的判别性能。实验结果表明,本发明所提出的方法能获得较好的识别性能。
本发明采用的技术方案是:一种基于共享及特有字典对联合学习的行人再识别方法,包括如下步骤:
Step1:首先从公开的图像集中选择训练样本。
Step2:利用训练样本学习字典和投影矩阵;
Step3:行人图像的相似性匹配。
具体地,所述的Step1具体步骤如下:
Step1.1:从已知的公共数据如:VIPeR数据集,CUHK01数据集,PRID450S数据集等中选取两个数据集,选择数据集作为训练样本时需要具有很大的挑战性,来保证本文发明的有效性。
Step1.2:通过已知的LOMO特征提取方法,将选中的数据集图像的特征提取出来,并将其平均分成两等份,作为训练集和测试集。
具体地,所述的Step2具体步骤如下:
Step2.1:本发明字典学习目标函数的构建;
Step2.2:本发明字典学习目标函数的求解;
具体地,所述的Step3具体为:
通过训练样本得到字典矩阵和映射矩阵,求解得到编码系数通过距离公式计算大小进行排序,得到查询图像。
更具体地,所述Step2.1的具体步骤如下:
Step2.1.1:首先假设训练样本来自a和b两个视角,在字典学习中,假设用于表达共有成分的字典为Ds,在此字典下的编码系数为Zs,用于表达独有成分的字典为Du以及在此字典下的编码系数为Zu
Figure GDA0002963674720000031
在(2.1)式中Yl=[y1,y2…yN](l=a,b)是由l视角下的N个行人图像特征采集得到训练样本所构成的矩阵,正则项ηtr(ZsLZs T)描述行人之间所具有的共有信息,tr(·)是矩阵的迹,L=C-U,L是个拉普拉斯矩阵,C是一个对角矩阵
Figure GDA0002963674720000032
Figure GDA0002963674720000033
U是m行m列,元素全为1的矩阵,uij表示矩阵U的第i行第j列元素,Zs是共享字典的编码系数,Za,u、Zb,u分别为a和b两个视角下特有字典的编码系数,η为一大于零的参数,用来调整正则项tr(ZsLZs T)在目标函数中所起的作用,||·||F是F范数,T为矩阵的转置;
Step2.1.2:由于行人共有信息通常表现出较强的相关性,因此用以表达该信息的字典Ds的原子之间同样应该具有较强的相关性,这说明Ds是低秩的。同时,用于表达行人身份的信息往往是特有的,这类信息通常表现出较强的稀疏性,因此用于表达该信息成分的字典Du应该具有稀疏特性。综合考虑到这些问题,本文提出公式(2.2)来计算共享字典和特有字典:
Figure GDA0002963674720000034
其中,||·||*是核范数,||·||1是l1范数;
Step2.1.2:由于描述行人特有成分时所使用的字典均为Du,反映行人身份特征的信息主要蕴含在对应的编码系数Za,u与Zb,u中。因此,不同行人之间的编码系数具有较强的非相干性,也就是说
Figure GDA0002963674720000041
应该具有较小的值。本发明通过提出公式(2.3)来计算特有字典的稀疏系数Za,u、Zb,u和Zs
Figure GDA0002963674720000042
式子(3)中,
Figure GDA0002963674720000043
用以刻画不同行人编码系数之间的相干性,
Figure GDA0002963674720000044
用以避免相同行人之间的相关性被过渡限制;
Step2.1.3:在a,b两个不同的视角下,由于光照变化、视角差异、成像风格的不同,同一行人在原始特征空间内往往表现出较大的差异,为缓解这一问题,在最小化式(2.1)中,引入投影变换算子Wl(l=a,b),将行人图像的原始特征映射到低维判别空间,使不同视角下的同一行人编码系数之间的距离最小,不同行人编码系数之间的相关性较弱。因此本发明通过提出公式(2.4),采用交替迭代法更新得到最终需要的投影矩阵Wa和Wb
Figure GDA0002963674720000045
其中,Yl=[y1,y2…yN](l=a,b)为训练样本,Wa、Wb分别为a和b两个视角下的投影矩阵,λ1为平衡参数。
更具体地,所述Step2.2的具体步骤如下:
Step2.2.1:目标函数需要求解变量Wa,Wb,Za,u,Zb,u,Zs,Ds,Du,由于变量Wa,Wb,Ds,Du,Za,u,Zb,u和Zs是非凸的,无法直接使用凸优化的方法求解。但若求某个变量,而其它变量固定时,目标函数可根据具体算法来求解。本文中,采用交替迭代法来求解字典模型的目标函数。
Step2.2.2:求解编码系数Za,u,Zb,u和Zs
首先求解编码系数Zs,通过固定Wa,Wb,Ds,Du,Za,u和Zb,u,计算公式如下:
Figure GDA0002963674720000051
对于上述公式,很难直接求出最优解,为此,引入松弛变量Z~s,则上述目标函数可改写为:
Figure GDA0002963674720000052
其中,松弛变量
Figure GDA0002963674720000053
可以通过以下公式求解:
Figure GDA0002963674720000054
通过分别求解
Figure GDA0002963674720000055
和Zs闭合解,依次迭代更新。
同理固定其他变量求解编码系数Za,u,Zb,u,计算式如下:
Figure GDA0002963674720000056
Figure GDA0002963674720000057
通过上述公式可以直接求得Za,u,Zb,u闭合形式的解。
Step2.2.3:求解字典Ds和Du
类似地,求解Ds,Du固定编码系数Za,u,Zb,u,Zs以及投影矩阵Wa,Wb,求解Ds,Du的目标函数可写为:
Figure GDA0002963674720000058
因此,Ds可通过以下公式进行求解:
Figure GDA0002963674720000059
上述公式可以通过ADMM算法进行优化求解;
对于字典Du,其求解公式如下:
Figure GDA00029636747200000510
因此字典Du可以通过迭代收缩算法进行优化求解;
Step2.2.3、求解投影矩阵Wa和Wb
通过固定其它无关的变量,更新映射矩阵Wa和Wb,求解公式如下:
Figure GDA0002963674720000061
可以得到上述公式的闭合形式的解。
更具体地,所述Step3的具体为:
通过训练得到Wa、Wb、Ds、Du值后,为了计算得到在图像库中所查询到的图像编码系数,,首先通过公式(3.1)计算共有字典的编码系数:
Figure GDA0002963674720000062
其中,
Figure GDA0002963674720000063
为a个视角下第
Figure GDA0002963674720000064
个行人与其它行人之间共有成分的编码系数,
Figure GDA0002963674720000065
是查询图像,
Figure GDA0002963674720000066
是图像库中的图像,是共有字典的编码系数,类似的求解
Figure GDA0002963674720000067
再通过公式(3.2),(3.3)计算特有字典的编码系数:
Figure GDA0002963674720000068
Figure GDA0002963674720000069
其中,
Figure GDA00029636747200000610
是第a视角下第
Figure GDA00029636747200000611
个行人特有成分的编码系数,
Figure GDA00029636747200000612
是视角下第
Figure GDA00029636747200000613
个行人特有成分的编码系数;
求出编码系数
Figure GDA00029636747200000614
Figure GDA00029636747200000615
后,采用如下的欧式距离来对行人进行匹配:
Figure GDA00029636747200000616
其中,
Figure GDA00029636747200000617
通过公式(3.4)找到距离最短、最相似的行人图像的编码系数zb,从而查询到所需要的图像。
本发明的有益效果是:
1、本发明为降低不同行人之间共享成分在相似性度量过程中起到的干扰作用,提出一种基于共享与特有成分分离的行人再识别方案。该方法通过剔除不同行人之间的共享成分来降低行人外貌特征带来的歧义性。
2、本发明针为实现行人共享成分与特有成分的分离,提出了一种共享字典与特有字典联合学习模型。在该模型内,考虑到了不同行人图像之间共享成分所具有的低秩性以及特有成分所具有的稀疏性,对共享字典与特有字典分别引入了低秩与稀疏性约束,来提升字典的判别性。
3、本发明为进一步提升字典的判别性,在字典学习模型内考虑到了不同视角下的同一行人特有成分一致性,不同行人共享成分的相似性以及不同行人特有成分之间的不相关性。
附图说明
图1为本发明的流程图;
图2来自VIPeR数据集的部分行人图像对;
图3来自CUHK01数据集的部分行人图像对。
具体实施方式
下面通过具体实施例对本发明做进一步的详细说明。
实施例1:不同视角下同一行人的共有成分,在相似性度量中并不会造成识别率的降低。降低识别率的根本原因在于不同视角下的不同行人所表现出的相似性,而这种相似性往往是由不同行人图像之间的共有成分反映的。根据低秩稀疏表示理论可知,不同行人之间的共享成分往往表现出了极强的相关性,因而具有较强的低秩性。根据这一思想,本发明提出一种行人特有字典与共享字典联合学习框架,并以此来实现行人特有成分与共享成分的分离,从而解决由不同视角下行人图像外貌特征相似性成分所导致的外貌特征的歧义性问题。
如图1-3所示,一种基于共享及特有字典对联合学习的行人再识别方法,包括如下步骤:
Step1:首先从公开的图像集中选择训练样本。
Step2:利用训练样本学习字典和投影矩阵;
Step3:行人图像的相似性匹配。
具体地,所述的Step1具体步骤如下:
Step1.1:从已知的公共数据如:VIPeR数据集,CUHK01数据集,PRID450S数据集等中选取两个数据集,选择数据集作为训练样本时需要具有很大的挑战性,来保证本文发明的有效性。
Step1.2:通过已知的LOMO特征提取方法,将选中的数据集图像的特征提取出来,并将其平均分成两等份,作为训练集和测试集。
具体地,所述的Step2具体步骤如下:
Step2.1:本发明字典学习目标函数的构建;
Step2.2:本发明字典学习目标函数的求解;
具体地,所述的Step3具体为:
通过训练样本得到字典矩阵和映射矩阵,求解得到编码系数通过距离公式计算大小进行排序,得到查询图像。
更具体地,所述Step2.1的具体步骤如下:
Step2.1.1:首先假设训练样本来自a和b两个视角,在字典学习中,假设用于表达共有成分的字典为Ds,在此字典下的编码系数为Zs,用于表达独有成分的字典为Du以及在此字典下的编码系数为Zu
Figure GDA0002963674720000081
在(1)式中Yl=[y1,y2…yN](l=a,b)是由l视角下的N个行人图像特征采集得到训练样本所构成的矩阵,Ds、Du分别为训练得到的共享、特有字典,Zs是共享字典的编码系数,正则项ηtr(ZsLZs T)描述行人之间所具有的共有信息,tr(·)是矩阵的迹,L=C-U,L是个拉普拉斯矩阵,C是一个对角矩阵
Figure GDA0002963674720000082
Figure GDA0002963674720000083
U是m行m列,元素全为1的矩阵,uij表示矩阵U的第i行第j列元素。Za,u、Zb,u分别为a和b两个视角下特有字典的编码系数,η为一大于零的参数,用来调整正则项tr(ZsLZs T)在目标函数中所起的作用,F是F范数,T是转置。
Step2.1.2:由于行人共有信息通常表现出较强的相关性,因此用以表达该信息的字典Ds的原子之间同样应该具有较强的相关性,这说明Ds是低秩的。同时,用于表达行人身份的信息往往是特有的,这类信息通常表现出较强的稀疏性,因此用于表达该信息成分的字典Du应该具有稀疏特性。综合考虑到这些问题,本文提出公式(2)来计算共享字典和特有字典:
Figure GDA0002963674720000091
其中,||·||*是核范数,||·||1是l1范数;
Step2.1.2:由于描述行人特有成分时所使用的字典均为Du,反映行人身份特征的信息主要蕴含在对应的编码系数Za,u与Zb,u中。因此,不同行人之间的编码系数具有较强的非相干性,也就是说
Figure GDA0002963674720000092
应该具有较小的值。本发明通过提出公式(3)来计算特有字典的稀疏系数Za,u、Zb,u和Zs
Figure GDA0002963674720000093
式子(3)中,
Figure GDA0002963674720000094
用以刻画不同行人编码系数之间的相干性,
Figure GDA0002963674720000095
用以避免相同行人之间的相关性被过渡限制;
Step2.1.3:在a,b两个不同的视角下,由于光照变化、视角差异、成像风格的不同,同一行人在原始特征空间内往往表现出较大的差异,为缓解这一问题,在最小化(1)中,引入投影变换算子Wl(l=a,b),将行人图像的原始特征映射到低维判别空间,使不同视角下的同一行人编码系数之间的距离最小,不同行人编码系数之间的相关性较弱。因此本发明通过提出公式(4),采用交替迭代法更新得到最终需要的投影矩阵Wa和Wb
Figure GDA0002963674720000096
其中,Yl=[y1,y2…yN](l=a,b)为训练样本,Wa、Wb分别为a和b两个视角下的投影矩阵,λ1为平衡参数。
更具体地,所述Step2.2的具体步骤如下:
Step2.2.1:目标函数需要求解变量Wa,Wb,Za,u,Zb,u,Zs,Ds,Du,由于变量Wa,Wb,Ds,Du,Za,u,Zb,u和Zs是非凸的,无法直接使用凸优化的方法求解。但若求某个变量,而其它变量固定时,目标函数可根据具体算法来求解。本文中,采用交替迭代法来求解字典模型的目标函数。
Step2.2.2:求解编码系数Za,u,Zb,u和Zs
首先求解编码系数Zs,通过固定Wa,Wb,Ds,Du,Za,u和Zb,u,计算公式如下:
Figure GDA0002963674720000101
对于上述公式,很难直接求出最优解,为此,引入松弛变量
Figure GDA0002963674720000102
则上述目标函数可改写为:
Figure GDA0002963674720000103
其中,松弛变量
Figure GDA0002963674720000104
可以通过以下公式求解:
Figure GDA0002963674720000105
通过分别求解
Figure GDA0002963674720000106
和Zs闭合解,依次迭代更新。
同理固定其他变量求解编码系数Za,u,Zb,u,计算式如下:
Figure GDA0002963674720000107
Figure GDA0002963674720000108
通过上述公式可以直接求得Za,u,Zb,u闭合形式的解。
Step2.2.3:求解字典Ds和Du
类似地,求解Ds,Du固定编码系数Za,u,Zb,u,Zs以及投影矩阵Wa,Wb,求解Ds,Du的目标函数可写为:
Figure GDA0002963674720000109
因此,Ds可通过以下公式进行求解:
Figure GDA0002963674720000111
上述公式可以通过ADMM算法进行优化求解;
对于字典Du,其求解公式如下:
Figure GDA0002963674720000112
因此字典Du可以通过迭代收缩算法进行优化求解;
Step2.2.3、求解投影矩阵Wa和Wb
通过固定其它无关的变量,更新映射矩阵Wa和Wb,求解公式如下:
Figure GDA0002963674720000113
可以得到上述公式的闭合形式的解。
更具体地,所述Step3的具体为:
通过训练得到Wa、Wb、Ds、Du值后,为了计算得到在图像库中所查询到的图像编码系数。首先通过公式(5)计算共有字典的编码系数:
Figure GDA0002963674720000114
其中,其中,
Figure GDA0002963674720000115
为a个视角下第
Figure GDA0002963674720000116
个行人与其它行人之间共有成分的编码系数,
Figure GDA0002963674720000117
是查询图像,
Figure GDA0002963674720000118
是图像库中的图像。得到共有字典的编码系数,再通过公式(6),(7)计算特有字典的编码系数:
Figure GDA0002963674720000119
Figure GDA00029636747200001110
其中,其中,
Figure GDA00029636747200001111
是第a视角下第
Figure GDA00029636747200001112
个行人特有成分的编码系数,
Figure GDA00029636747200001113
是视角下第
Figure GDA00029636747200001114
个行人特有成分的编码系数;
求出编码系数
Figure GDA00029636747200001115
Figure GDA00029636747200001116
后,采用如下的欧式距离来对行人进行匹配:
Figure GDA0002963674720000121
其中,
Figure GDA0002963674720000122
通过公式(8)找到距离最短、最相似的行人图像的编码系数zb,从而查询到所需要的图像。
本发明中,使用LOMO特征作为图像的原始特征。该特征对行人的姿态变化、亮度差异、复杂背景影响具有较强的鲁棒性,因此LOMO在行人再识别中得到了较为广泛的应用。在本例中,选择VIPeR,CUHK01,两个数据集进行实验,并将两个个数据集中的图像对随机均等地分成两部分,一部分用作训练集,剩余部分用作测试集。对算法参数的设置λ1=0.01,η=0.00001,最后,通过累积匹配特性曲线(The cumulative matching characteristic,CMC)来评估实验结果。CMC能反映查询图像与目标图像库中图片正确匹配的概率,CMC数值越大,匹配性能也越好。
下面结合两个具体例子对本发明进行详细说明。
例1:VIPeR数据集
该数据集中的图片来自两个非重叠摄像机视角下632个行人,每个行人在每个视角下仅有一张图片,共有1264张图片。在实验过程中,将数据集中的每个行人图片的尺寸设置为128×48。图2给出了来自该数据集的部分行人图像样本对。其中,每行行人图像均来自同一视角,同一列行人图像为同一行人在不同视角下的视觉表现。由此可以看出,不同视角下的同一行人,由于姿态变化以及背景的不同导致其外貌特征具有较大的差异。因此该数据集可用来度量算法在缓解行人姿态变化和复杂背景影响方面的性能。
为了证明本文算法的有效性,将提出方法与目前识别性能优异的行人再识别方法进行了对比。这些方法包括:KISSME,SalMatch,Mid-Filter,XQDALOMO,JDL,CSPLGOG,DSPL,这些方法都是现有文献中明确记载的,具体内容在此不做具体说明。不同方法在VIPeR数据集上的识别率如表1所示。便于比较,将性能最好的结果用粗体进行了显示。从表中可以看出,的结果在rank1/5/10/20都表现出非常好的性能。其中最好的是在rank1高于次好DSPL6.5%。这表明本文提出的算法相对于其它方法具有更强的识别率。
表1 VIPeR数据集上不同方法的累计匹配率(in%)比较
Figure GDA0002963674720000131
例2:CUHK01数据集
该数据集中的行人图片是由校园中两个无重叠摄像机采集到的971个行人的3884张图片构成。其中,同一视角下的每个行人有2张图片。在实验过程中,图片尺寸大小被调整为128*60。图3给出了不同视角下的同一行人图像对。由此可以看出,不同视角下的同一行人,由于姿态、视角、光照、背景的差异,同一行人图像表现出了极大的差异性。因此要在该数据集上实现行人图像的正确匹配是极具挑战的。
在第二个实验中,在CUHK01数据集上对本文提出的算法进行了性能测试,并与目前较为优秀的方法进行对比。这些方法主要包括GenericMetric,SalMatch,Mid-Filter,XQDALOMO,WARCALOMO,MSE-VCM,CSPLLOMO,这些方法都是现有文献中明确记载的,具体内容在此不做具体说明。表2所示为不同方法在CUHK01数据集上的识别率。从该表中的数据可以看出,本文提出的算法明显优于其他的所有算法。其中,的算法相对次优的识别方法CSPL在rank1/5/10至少高出2.9%。
表2 CUHK01数据集上不同方法的累计匹配率(in%)比较
Figure GDA0002963674720000132
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (3)

1.一种基于共享及特有字典对联合学习的行人再识别方法,其特征在于:包括如下步骤:
Step1:首先从公开的图像集中选择训练样本;
Step2:利用训练样本学习字典和投影矩阵:
Step2.1:字典学习目标函数的构建;
Step2.2:字典学习目标函数的求解;
Step3:行人图像的相似性匹配:通过训练样本得到字典矩阵和映射矩阵,求解得到编码系数通过距离公式计算大小进行排序,得到查询图像;
所述的Step1具体步骤如下:
Step1.1:从已知的公共数据中选取两个数据集;
Step1.2:通过已知的LOMO特征提取方法,将选中的数据集图像的特征提取出来,并将其平均分成两等份,作为训练集和测试集;
所述Step2.1的具体步骤如下:
Step2.1.1:首先假设样本来自a和b两个视角,在字典学习中,假设用于表达共有成分的字典为Ds,在此字典下的编码系数为Zs,用于表达独有成分的字典为Du以及在此字典下的编码系数为Zu
Figure FDA0002963674710000011
在(2.1)式中Yl=[y1,y2…yN],l=a,b,是由l视角下的N个行人图像特征采集得到训练样本所构成的矩阵,正则项ηtr(ZsLZs T)描述行人之间所具有的共有信息,tr(·)是矩阵的迹,L=C-U,L是个拉普拉斯矩阵,C是一个对角矩阵
Figure FDA0002963674710000012
U是m行m列,元素全为1的矩阵,uij表示矩阵U的第i行第j列元素,其中Zs是共享字典的编码系数,Za,u、Zb,u分别为a和b两个视角下特有字典的编码系数,η为一大于零的参数,用来调整正则项tr(ZsLZs T)在目标函数中所起的作用,||·||F是F范数,T为矩阵的转置;
Step2.1.2:由于行人共有信息通常表现出较强的相关性,因此用以表达该信息的字典Ds的原子之间同样应该具有较强的相关性,这说明Ds是低秩的,同时,用于表达行人身份的信息往往是特有的,这类信息通常表现出较强的稀疏性,因此用于表达该信息成分的字典Du应该具有稀疏特性,综合考虑到这些问题,提出公式(2.2)来计算共享字典和特有字典:
Figure FDA0002963674710000021
其中,||·||*是核范数,||·||1是l1范数;
Step2.1.2:由于描述行人特有成分时所使用的字典均为Du,反映行人身份特征的信息蕴含在对应的编码系数Za,u与Zb,u中,因此,不同行人之间的编码系数具有较强的非相干性,也就是说
Figure FDA0002963674710000022
具有较小的值,通过提出公式(2.3)来计算特有字典的稀疏系数Za,u、Zb,u和Zs
Figure FDA0002963674710000023
式子(2.3)中,
Figure FDA0002963674710000024
用以刻画不同行人编码系数之间的相干性,
Figure FDA0002963674710000025
用以避免相同行人之间的相关性被过渡限制;
Step2.1.3:在a,b两个不同的视角下,由于光照变化、视角差异、成像风格的不同,同一行人在原始特征空间内往往表现出较大的差异,为缓解这一问题,在最小化式(2.1)中,引入投影变换算子Wl(l=a,b),将行人图像的原始特征映射到低维判别空间,使不同视角下的同一行人编码系数之间的距离最小,不同行人编码系数之间的相关性较弱,因此通过提出公式(2.4),采用交替迭代法更新得到最终需要的投影矩阵Wa和Wb
Figure FDA0002963674710000026
其中,Yl=[y1,y2…yN](l=a,b)为训练样本,Wa、Wb分别为a和b两个视角下的投影矩阵,λ1为平衡参数。
2.根据权利要求1所述的基于共享及特有字典对联合学习的行人再识别方法,其特征在于:所述Step2.2的具体步骤如下:
Step2.2.1:目标函数需要求解变量Wa,Wb,Za,u,Zb,u,Zs,Ds,Du,由于变量Wa,Wb,Ds,Du,Za,u,Zb,u和Zs是非凸的,无法直接使用凸优化的方法求解,但若求某个变量,而其它变量固定时,目标函数可根据具体算法来求解,采用交替迭代法来求解字典模型的目标函数;
Step2.2.2:求解编码系数Za,u,Zb,u和Zs
首先求解编码系数Zs,通过固定Wa,Wb,Ds,Du,Za,u和Zb,u,计算公式如下:
Figure FDA0002963674710000031
对于上述公式很难直接求出最优解,为此,引入松弛变量
Figure FDA0002963674710000032
则上述目标函数可改写为:
Figure FDA0002963674710000033
其中,松弛变量
Figure FDA0002963674710000034
可以通过以下公式求解:
Figure FDA0002963674710000035
通过分别求解
Figure FDA0002963674710000036
和Zs闭合解,依次迭代更新;
同理固定其他变量求解编码系数Za,u,Zb,u,计算式如下:
Figure FDA0002963674710000037
Figure FDA0002963674710000038
通过上述公式可以直接求得Za,u,Zb,u闭合形式的解;
Step2.2.3:求解字典Ds和Du
类似地,求解Ds,Du,固定编码系数Za,u,Zb,u,Zs以及投影矩阵Wa,Wb,求解Ds,Du的目标函数可写为:
Figure FDA0002963674710000041
因此,Ds可通过以下公式进行求解:
Figure FDA0002963674710000042
上述公式可以通过ADMM算法进行优化求解;
对于字典Du,其求解公式如下:
Figure FDA0002963674710000043
因此字典Du可以通过迭代收缩算法进行优化求解;
Step2.2.3、求解投影矩阵Wa和Wb
通过固定其它无关的变量,更新映射矩阵Wa和Wb,求解公式如下:
Figure FDA0002963674710000044
可以得到上述公式的闭合形式的解。
3.根据权利要求2所述的基于共享及特有字典对联合学习的行人再识别方法,其特征在于:所述Step3的具体为:
通过训练得到Wa、Wb、Ds、Du值后,为了计算得到在图像库中所查询到的图像编码系数,首先通过公式(3.1)计算共有字典的编码系数:
Figure FDA0002963674710000045
其中,
Figure FDA0002963674710000046
为a个视角下第
Figure FDA0002963674710000047
个行人与其它行人之间共有成分的编码系数,
Figure FDA0002963674710000048
是查询图像,
Figure FDA0002963674710000049
是图像库中的图像,是共有字典的编码系数,类似的求解
Figure FDA00029636747100000410
再通过公式(3.2),(3.3)计算特有字典的编码系数:
Figure FDA00029636747100000411
Figure FDA0002963674710000051
其中,
Figure FDA0002963674710000052
是第a视角下第
Figure FDA0002963674710000053
个行人特有成分的编码系数,
Figure FDA0002963674710000054
是视角下第
Figure FDA0002963674710000055
个行人特有成分的编码系数;
求出编码系数
Figure FDA0002963674710000056
Figure FDA0002963674710000057
后,采用如下的欧式距离来对行人进行匹配:
Figure FDA0002963674710000058
其中,
Figure FDA0002963674710000059
通过公式(3.4)找到距离最短、最相似的行人图像的编码系数zb,从而查询到所需要的图像。
CN201811030966.4A 2018-09-05 2018-09-05 一种基于共享及特有字典对联合学习的行人再识别方法 Active CN109409201B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811030966.4A CN109409201B (zh) 2018-09-05 2018-09-05 一种基于共享及特有字典对联合学习的行人再识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811030966.4A CN109409201B (zh) 2018-09-05 2018-09-05 一种基于共享及特有字典对联合学习的行人再识别方法

Publications (2)

Publication Number Publication Date
CN109409201A CN109409201A (zh) 2019-03-01
CN109409201B true CN109409201B (zh) 2021-06-18

Family

ID=65464517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811030966.4A Active CN109409201B (zh) 2018-09-05 2018-09-05 一种基于共享及特有字典对联合学习的行人再识别方法

Country Status (1)

Country Link
CN (1) CN109409201B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046669B (zh) * 2019-04-22 2019-12-24 广东石油化工学院 基于素描图像的半耦合度量鉴别字典学习的行人检索方法
CN110826417B (zh) * 2019-10-12 2022-08-16 昆明理工大学 一种基于判别字典学习的跨视角行人重识别方法
WO2021137763A1 (en) * 2019-12-30 2021-07-08 Nanyang Technological University Object re-identification using multiple cameras
CN111339857B (zh) * 2020-02-17 2022-08-30 昆明理工大学 基于身份一致性和不相关约束的跨视角行人重识别方法
CN111458146B (zh) * 2020-04-02 2022-02-11 兰州理工大学 一种滚动轴承多测量点振动信号压缩采样与同步重构方法
CN111666967B (zh) * 2020-04-21 2023-06-13 浙江工业大学 一种基于不相干性联合字典学习的图像分类方法
CN111783521B (zh) * 2020-05-19 2022-06-07 昆明理工大学 基于低秩先验引导的域不变信息分离的行人重识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH117535A (ja) * 1997-06-18 1999-01-12 Oki Electric Ind Co Ltd 個体識別装置
CN105574505A (zh) * 2015-12-16 2016-05-11 深圳大学 一种多摄像机间人体目标再识别的方法及系统
CN105574515A (zh) * 2016-01-15 2016-05-11 南京邮电大学 一种无重叠视域下的行人再识别方法
CN106897669A (zh) * 2017-01-19 2017-06-27 同济大学 一种基于一致迭代多视角迁移学习的行人再辨识方法
CN107679461A (zh) * 2017-09-12 2018-02-09 国家新闻出版广电总局广播科学研究院 基于对偶综合‑解析字典学习的行人再识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9767385B2 (en) * 2014-08-12 2017-09-19 Siemens Healthcare Gmbh Multi-layer aggregation for object detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH117535A (ja) * 1997-06-18 1999-01-12 Oki Electric Ind Co Ltd 個体識別装置
CN105574505A (zh) * 2015-12-16 2016-05-11 深圳大学 一种多摄像机间人体目标再识别的方法及系统
CN105574515A (zh) * 2016-01-15 2016-05-11 南京邮电大学 一种无重叠视域下的行人再识别方法
CN106897669A (zh) * 2017-01-19 2017-06-27 同济大学 一种基于一致迭代多视角迁移学习的行人再辨识方法
CN107679461A (zh) * 2017-09-12 2018-02-09 国家新闻出版广电总局广播科学研究院 基于对偶综合‑解析字典学习的行人再识别方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
EXPLOITING LOW-RANK STRUCTURES FROM CROSS-CAMERA IMAGES FOR ROBUST PERSON RE-IDENTIFICATION;Ming-Hang Fu et al.;《ICIP 2014》;20150129;第2427-2431页 *
Image to Video Person Re-Identification by Learning Heterogeneous Dictionary Pair With Feature Projection Matrix;Xiaoke Zhu et al.;《IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY》;20180331;第13卷(第3期);第717-732页 *
Joint Dictionary Learning for Person Re-identification;Yunlu Xu et al.;《2017 IEEE Second International Conference on Data Science in Cyberspace》;20170818;第505-509页 *
Low-rank double dictionary learning from corrupted data for robust image classification;Yi Rong et al.;《Pattern Recognition》;20170705;第419-432页 *
Multi-Task Learning with Low Rank Attribute Embedding for Person Re-identification;Chi Su et al.;《2015 IEEE International Conference on Computer Vision》;20160218;第3739-3747页 *
Super-Resolution Person Re-Identification With Semi-Coupled Low-Rank Discriminant Dictionary Learning;Xiao-Yuan Jing et al.;《IEEE TRANSACTIONS ON IMAGE PROCESSING》;20170331;第26卷(第3期);第1363-1378页 *
基于迭代投影向量学习的行人重识别;丁宗元 等;《计算机工程与设计》;20180430;第39卷(第4期);第1120-1124页 *

Also Published As

Publication number Publication date
CN109409201A (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
CN109409201B (zh) 一种基于共享及特有字典对联合学习的行人再识别方法
Moschoglou et al. Agedb: the first manually collected, in-the-wild age database
Mei et al. Robust multitask multiview tracking in videos
CN106056628B (zh) 基于深度卷积神经网络特征融合的目标跟踪方法及系统
CN111783532B (zh) 一种基于在线学习的跨年龄人脸识别方法
CN109447123B (zh) 一种基于标签一致性约束与拉伸正则化字典学习的行人再识别方法
CN110458235B (zh) 一种视频中运动姿势相似度比对方法
CN111460976B (zh) 一种数据驱动的基于rgb视频的实时手部动作评估方法
Singh et al. Identity aware synthesis for cross resolution face recognition
CN108921140A (zh) 行人再识别方法
CN109214442A (zh) 一种基于列表和身份一致性约束的行人重识别算法
CN110826417B (zh) 一种基于判别字典学习的跨视角行人重识别方法
CN108875448B (zh) 一种行人再识别方法及装置
CN110046669B (zh) 基于素描图像的半耦合度量鉴别字典学习的行人检索方法
Liu et al. Geometrized transformer for self-supervised homography estimation
CN109165551B (zh) 一种自适应加权融合显著性结构张量和lbp特征的表情识别方法
CN108985320B (zh) 基于判别字典学习和形态成分分解的多源图像融合方法
Bhattacharya et al. Qdf: A face database with varying quality
Zou et al. Video matting via sparse and low-rank representation
Canavan et al. Fitting and tracking 3D/4D facial data using a temporal deformable shape model
Yan et al. Depth-only object tracking
CN116052057A (zh) 基于自监督学习和预训练模型的跨模态行人重识别方法
CN111126123A (zh) 一种基于压缩的增量核零空间变换行人再识别方法
Gong et al. Person re-identification based on two-stream network with attention and pose features
CN110826573B (zh) 一种显著图融合方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant