CN111985313A - 基于对抗学习的多风格行人重识别方法、系统、终端 - Google Patents

基于对抗学习的多风格行人重识别方法、系统、终端 Download PDF

Info

Publication number
CN111985313A
CN111985313A CN202010656271.8A CN202010656271A CN111985313A CN 111985313 A CN111985313 A CN 111985313A CN 202010656271 A CN202010656271 A CN 202010656271A CN 111985313 A CN111985313 A CN 111985313A
Authority
CN
China
Prior art keywords
pedestrian
loss
classification
style
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010656271.8A
Other languages
English (en)
Inventor
杨华
陈琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010656271.8A priority Critical patent/CN111985313A/zh
Publication of CN111985313A publication Critical patent/CN111985313A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种基于对抗学习的多风格行人重识别方法、系统、终端,包含数据变换和分类识别功能模块,其中图像生成器作为数据空间变换功能模块,将来自不同源的数据转移到模态不变空间中,并消除由多风格行人图片中的模态差距引起的不一致问题。同时利用在分类识别器和模态识别器之间对抗学习来引导表示学习,其中模态识别器在真实图像和虚拟图像之间进行区分从而引导数据的空间变换,以进一步弥合模态差距,分类识别器用于最后的识别分类,从而学习到更具区分度的不变性特征。本发明提取出的特征更具有区分度,更具有鲁棒性,可同时消除模态差距并提高现有特征学习网络的性能,能更好的解决与适应多风格行人图片之间的匹配问题。

Description

基于对抗学习的多风格行人重识别方法、系统、终端
技术领域
本发明属于计算机视觉技术领域,具体地,涉及一种基于对抗学习的多风格行人重识别方法、系统、终端。
背景技术
行人重识别是智能视频监控中的一项关键任务,是近年来计算机视觉领域中一直备受关注的研究热点,适用于安防以及公共场所寻人等技术领域。行人重识别可定义为:在无重叠的视频监控网络中,对于摄像头中给定的某个行人,判断其是否出现在其他摄像头中的过程。它是一种自动的目标识别技术,能在监控网络中快速定位到感兴趣的人体目标,是智能视频监控和人体行为分析等应用中的重要步骤。
随着多媒体领域和计算机视觉技术的快速发展,智能安防监控对多摄像机网络布局下多模态下的行人重识别,特别是多风格行人图片的重识别,如从素描、肖像等到实际监控系统下行人图片的匹配,有着很大的需求和发展空间。传统行人重识别受限于不同摄像机视角下光线和行人姿势变化的挑战。多模态下的行人重识别,除了数据量不足和特征提取算法方面的挑战,关键性问题还在于多源数据匹配的困难性。已有的技术对这方面的关注度并不高,进展缓慢。基于多模态下全自动一体化的行人重识别架构已经成为了新的发展方向。
传统的行人重识别在不同的摄影机视角之间存在严重差异。与传统的行人重识别任务相比,多风格行人重识别包含了传统行人重识别上存在的问题,并带来了更多的数据匹配挑战。由于不同风格的图片同实际监控系统下行人图像存在显着差异,因此传统的识别方法无法轻易将虚拟图像与真实身份进行匹配(参见Y.P.Calana,H.Mendez-Vazquez,R.L.Fonseca,Face composite sketch recognition by bovw-based discriminativerepresentations,in:CIARP,2016,pp.200–207.)。这个问题在文献中已被定义为模态差距(参见X.Wang,X.Tang,Face photo-sketch synthesis and recognition,in:ICCV,2003,pp.687.)。由于不同的数据源通常具有不同的统计属性和分布,因此很难直接进行比较匹配(参见B.Wang,Y.Yang,X.Xu,A.Hanjalic,H.T.Shen,Adversarial cross-modalretrieval,in:ACM MM,2017,pp.154–162.)。解决不同数据源之间模态差异的一种解决方案是跨集合进行数据增强,例如使用数据映射将在不同的相机视图或数据集上进行图像转换(参见J.Y.Zhu,T.Park,P.Isola,A.A.Efros,Unpaired image-to-image translationusing cycle-consistent adversarial networks,in:ICCV,2017,pp.2242–2251;Z.Zhong,L.Zheng,Z.Zheng,S.Li,Y.Yang,Camera style adaptation for person re-identification,CoRR abs/1711.10295(2018).)。但是,固定数据扩充方案无法提供灵活的输入更改来帮助进一步促进特征学习。其他代表性方法包括对源编码器进行预训练,以调整无法相互区分的目标编码器(参见E.Tzeng,J.Hoffman,K.Saenko,T.Darrell,Adversarial discriminative domain adaptation,in:CVPR,2017,pp.2962–2971;Y.Ganin,V.S.Lempitsky,Unsupervised domain adaptation by backpropagation,415in:ICML,2015,pp.1180–1189.)。在源域上针对目标分类进行训练的固定分类器也缺乏跨域识别的通用性。其他工作在特征平面上提出了一个对抗性学习网络,以实现跨不同模态的灵活检索体验(参见B.Wang,Y.Yang,X.Xu,A.Hanjalic,H.T.Shen,Adversarialcross-modal retrieval,in:ACM MM,2017,pp.154–162.)。他们通常需要经过预训练的特征提取器才能获得良好的性能,这限制了它们的实用性。此外,在特征平面上的对抗性学习不能很好地解决模态之间的差距,因为高级特征始终缺乏原始数据的底层细节信息。因此,针对不同模态下数据的可比较性进行跨模态的数据变换和特征提取,如何设计有效的适用性强的一体化框架从而提升多模态下行人重识别准确率是本领域亟待解决的问题。
发明内容
本发明针对现有技术中存在的上述问题,提供了一种基于对抗学习的多风格行人重识别方法、系统、终端,提出了一种利用对抗学习解决不同风格行人图片之间的差异从而提取不变性特征的模型构建技术,提出了一个端到端对抗学习框架,该框架将数据转换与分类识别相结合,能够以进一步解决多风格行人重识别任务。
本发明是通过以下技术方案实现的。
根据本发明的一个方面,提供了一种基于对抗学习的多风格行人重识别方法,包括:
构造图像生成器G,将从分别虚拟图像源和真实图像源获取的行人图片对I={a,b}输入到模态不变的图像生成器G数据空间,得到映射后的输出图像
Figure BDA0002576845250000031
其中,a和b分别表示属于不同模态的图片,
Figure BDA0002576845250000032
Figure BDA0002576845250000033
分别表示输入的图片a和图片b对应的映射后生成图像;
构造模态识别器D,将输出图像
Figure BDA0002576845250000034
输入到模态识别器D,区分输出图像
Figure BDA0002576845250000035
中各图片对应的来源,并求得对抗损失Ladv后输出;
构造分类识别器L,将输出图像
Figure BDA0002576845250000036
输入到分类识别器L,并结合对应的行人类别标签c={ca,cb},求得分类的交叉熵损失Llabel;引入三元组损失Ltriplet,拉近正样本对间的距离,拉远负样本对间的距离;其中,ca和cb分别表示原图片a,b所对应的行人类别标签;
综合交叉熵损失Llabel和三元组损失Ltriplet,得到最终的分类损失Lclass
综合分类损失Lclass和对抗损失Ladv,得到图像生成损失LG
交替优化图像生成器G、分类识别器L和模态识别器D,其中,根据损失LG优化图像生成器G,根据分类损失Lclass优化分类识别器L,根据对抗损失Ladv优化模态识别器D,最终得到多风格行人重识别模型;
采用得到的多风格行人重识别模型对行人图片中的行人图像进行重识别。
优选地,构造的所述图像生成器G包括:由三个卷积层构成的编码器、由三个残差网络层构成的转换器以及由两个逆卷积层和一个卷积层构成的解码器。
优选地,构造的所述模态识别器D包括四个卷积层,输出的对抗损失Ladv为:
Figure BDA0002576845250000037
其中,m*表示设定的来源类别标签,其中来源于
Figure BDA0002576845250000038
的来源类别标签设为0,来源于
Figure BDA0002576845250000041
的来源类别标签设为1,n为每次迭代中输入图片数,D代表经过生成器的操作,θD为模态识别器D的网络参数,n为每次迭代中输入图片数。
优选地,所述分类识别器L将输出图像
Figure BDA0002576845250000042
结合对应的行人类别标签c={ca,cb},求得分类的交叉熵损失Llabel为:
Figure BDA0002576845250000043
其中,n为每次迭代中输入图片数,p为对应的概率分布;
同时引入三元组损失Ltriplet为:
Figure BDA0002576845250000044
其中,
Figure BDA0002576845250000045
为正样本对,属于同一个行人类别标签;
Figure BDA0002576845250000046
为负样本对,属于不同的行人类别标签。
优选地,综合交叉熵损失Llabel和三元组损失Ltriplet,得到最终的分类损失Lclass为:
Lclass=w0Llabel+w1Ltriplet
其中,w0,w1分别为各损失的权重;
综合分类损失Lclass和对抗损失Ladv,得到图像生成损失LG为:
LG=αLclass+(-βLadv)
其中,α,β分别为各损失的权重。
优选地,设所述w0,w1均为1。
优选地,设所述α=1.0,β=2.0。
优选地,所述方法还包括:
构建多风格行人重识别数据集,用以训练并评估多风格行人重识别模型性能。
优选地,所述多风格行人重识别数据集,包括:从素描图片到实际行人图片以及从肖像图片到实际行人图片的数据集;其中,所述素描图片和肖像图片分别作为虚拟图像源;
所述多风格行人重识别数据集中行人类别标签数为245,素描图片和肖像图片中每个行人类别标签均只包含一张图片,实际监控系统下行人图片包含3到8个摄像机视角,总共包含40971张图片。
根据本发明的另一个方面,提供了一种基于对抗学习的多风格行人重识别系统,包括:
图像生成器G模块,所述图像生成器G模块为模态不变的数据空间,用于输入分别从虚拟图像源和真实图像源获取的原始图片
Figure BDA0002576845250000051
并得到映射后的输出图像
Figure BDA0002576845250000052
输出;其中,a和b分别表示属于不同模态的图片,
Figure BDA0002576845250000053
Figure BDA0002576845250000054
分别表示输入的图片a和图片b对应的映射后生成图像;
模态识别器D模块,所述模态识别器D模块用于输入输出图像
Figure BDA0002576845250000055
区分输出图像
Figure BDA0002576845250000056
中各图片对应的来源,并求得对抗损失Ladv后输出;
分类识别器L模块,所述分类识别器L模块用于输入输出图像
Figure BDA0002576845250000057
并结合对应的行人类别标签c={ca,cb},求得分类的交叉熵损失Llabel;同时引入三元组损失Ltriplet,拉近正样本对间的距离,拉远负样本对间的距离;其中,ca和cb分别表示原图片a,b所对应的行人类别标签;
模型生成模块:用于综合交叉熵损失Llabel和三元组损失Ltriplet,得到最终的分类损失Lclass;综合分类损失Lclass和对抗损失Ladv,得到图像生成损失LG;交替优化图像生成器G、分类识别器L和模态识别器D,其中,根据损失LG优化图像生成器G,根据分类损失Lclass优化分类识别器L,根据对抗损失Ladv优化模态识别器D,最终得到多风格行人重识别模型,该多风格行人重识别模型用于对行人图片中的行人图像进行重识别。
优选地,所述图像生成器G包括:由三个卷积层构成的编码器、由三个残差网络层构成的转换器以及由两个逆卷积层和一个卷积层构成的解码器。
优选地,所述模态识别器D包括四个卷积层,输出的对抗损失Ladv为:
Figure BDA0002576845250000061
其中,m*表示设定的来源类别标签,其中来源于
Figure BDA0002576845250000062
的来源类别标签设为0,来源于
Figure BDA0002576845250000063
的来源类别标签设为1,n为每次迭代中输入图片数,D代表经过生成器的操作,θD为模态识别器D的网络参数,n为每次迭代中输入图片数。
优选地,所述分类识别器L将映射后的输出图像
Figure BDA0002576845250000064
结合对应的行人类别标签c={ca,cb},求得分类的交叉熵损失Llabel为:
Figure BDA0002576845250000065
其中,n为每次迭代中输入图片数,p为对应的概率分布;
同时引入三元组损失Ltriplet为:
Figure BDA0002576845250000066
其中,
Figure BDA0002576845250000067
为正样本对,属于同一个行人类别标签,
Figure BDA0002576845250000068
为负样本对,属于不同的行人类别标签。
优选地,所述模型生成模块,综合交叉熵损失Llabel和三元组损失Ltriplet,得到最终的分类损失Lclass为:
Lclass=w0Llabel+w1Ltriplet
其中,w0,w1分别为各损失的权重;
综合分类损失Lclass和对抗损失Ladv,得到图像生成损失LG为:
LG=αLclass+(-βLadv)
其中,α,β分别为各损失的权重。
根据本发明的第三个方面,提供了一种终端,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,所述处理器执行所述计算机程序时能够用于执行上述任一项所述的方法。
由于采用了上述技术方案,本发明的有益效果在于:
1、本发明提供的基于对抗学习的多风格行人重识别方法、系统、终端,提出了一个端到端的对抗学习框架,能够处理更具挑战性的多风格行人重识别问题。
2、本发明提供的基于对抗学习的多风格行人重识别方法、系统、终端,采用具有模态不变数据空间的图片生成器,用以消除不同数据源行人图片中存在的模态差异。
3、本发明提供的基于对抗学习的多风格行人重识别方法、系统、终端,采用对抗学习引导更有效的图片生成器数据空间变换,用以帮助分类识别器L学到更有区分度的图片特征,从而提升最后的识别性能。
4、本发明提供的基于对抗学习的多风格行人重识别方法、系统、终端,采用多风格行人重识别数据集,用以评估所构建的模型性能。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一优选实施例中基于对抗学习的多风格行人重识别中模型构建过程的流程示意图;
图2为本发明一优选实施例中构建的多风格行人重识别数据集示例图。
具体实施方式
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
本发明实施例提供了一种基于对抗学习的多风格行人重识别方法,如图1所示,该方法包括:
构造图像生成器G,将从虚拟风格图像和真实图像的源获取的原始图片I={a,b}输入到模态不变的图像生成器G数据空间,得到映射后的输出图像
Figure BDA0002576845250000071
其中,a和b分别表示属于不同模态的图片,
Figure BDA0002576845250000072
Figure BDA0002576845250000073
分别表示输入的图片a和图片b对应的映射后生成图像,θG表示图像生成器G的网络参数;
构造模态识别器D,将输出图像
Figure BDA0002576845250000081
输入到模态识别器D,区分输出图像
Figure BDA0002576845250000082
中各图片对应的来源(虚拟图像源或真实图像源),并求得对抗损失Ladv后输出;
构造分类识别器L,将输出图像
Figure BDA0002576845250000083
输入到分类识别器L,并结合对应的行人类别标签c={ca,cb}(该标签由数据源本身提供),求得分类的交叉熵损失Llabel;引入三元组损失Ltriplet,拉近正样本对间的距离,拉远负样本对间的距离;其中,ca和cb分别表示原土拍你a,b所对应的行人类别标签;
综合交叉熵损失Llabel和三元组损失Ltriplet,得到最终的分类损失Lclass
综合分类损失Lclass和对抗损失Ladv,得到图像生成损失LG
交替优化图像生成器G、分类识别器L和模态识别器D,其中,根据损失LG优化图像生成器G,根据分类损失Lclass优化分类识别器L,根据对抗损失Ladv优化模态识别器D,最终得到多风格行人重识别模型;
采用得到的多风格行人重识别模型对行人图片中的行人图像进行重识别。
下面以采用的图像帧来自新建的多风格行人重识别数据集:从素描到实际,以及从肖像到实际监控系统行人图片匹配为例,对本实施例所提供的技术方案进一步详细描述如下。
作为一优选实施例,第一步:构造数据空间变换网络,将原始图像从两个不一致的源传输到模态不变的数据空间,用于下一步的特征提取。
本步骤中具体操作为:
设计一个图像生成器G,输入成对行人图片I={a,b},其中a属于模态A的图片,b属于模态B的图片,均经过此生成器,得到映射后的图像输出:
Figure BDA0002576845250000084
其中G代表经过图像生成器G的操作,θG为过图像生成器G的网络参数,
Figure BDA0002576845250000085
是经过变换后的图片对,
Figure BDA0002576845250000091
本实施例中,G包含三个卷积层构成的编码器、三个残差网络层构成的转换器和两个逆卷积层以及一个卷积层构成的解码器。
作为一优选实施例,第二步:构造模态识别器D,用以区分真实图像和虚拟图像,帮助提高图像转换性能。
本步骤中具体操作为:
设计模态识别器D,用以区分转换后的图片对来源用以引导数据的空间变换,从而求得对抗损失Ladv
Figure BDA0002576845250000092
其中D代表经过生成器的操作,θD为模态识别器D的网络参数,n为每次迭代中输入图片数。本实施例中,D由四个卷积层构成,n为128。
作为一优选实施例,第三步:构造分类识别器L,用以对输入行人数据进行最后的识别分类。
本步骤中具体操作为:
1.设计分类识别器L,对经过变换后的行人数据
Figure BDA0002576845250000093
和对应的行人类别标签c={ca,cb},求得分类的的交叉熵损失Llabel
Figure BDA0002576845250000094
其中n为每次迭代中输入图片数,p为对应的概率分布。本实施例中,L为常用的分类网络,包括ResNet50,n为128。
2.引入三元组损失Ltriplet,拉近正样本对间的距离,拉远负样本对间的距离,
Figure BDA0002576845250000095
其中
Figure BDA0002576845250000096
为正样本对,属于同一个行人类别标签,
Figure BDA0002576845250000097
为负样本对,属于不同的行人类别标签。
作为一优选实施例,第四步:构建优化算法,优化网络G,L和D,最终得到多风格行人重识别模型。
本步骤中具体操作为:
1.综合交叉熵损失和三元组损失,得到最终的分类损失Lclass
Lclass=w0Llabel+w1Ltriplet
其中w0,w1为各损失的权重。本实施例中均为1。
2.综合分类损失和对抗损失,用于优化图像生成器G,
LG=αLclass+(-βLadv)
其中α,β为各损失的权重。本实施例中,α=1.0,β=2.0。
3.交替优化G,L和D。其中,根据LG优化图像生成器G,根据Lclass优化分类识别器L,根据Ladv优化模态识别器D。
作为一优选实施例,还包括第五步:构建多风格行人重识别数据集,用以训练并评估模型性能。
本步骤中具体操作为:
1.构建从素描图片到实际行人图片,以及肖像图片到实际行人图片的数据集。本实施例中,数据集中行人类别数为245,将素描图片到实际行人图片命名为“Sketch2Reality”,将肖像图片到实际行人图片命名为“Portrait2Reality”,素描图片和肖像图片中每个行人类别均只包含一张图片,实际监控系统下行人图片包含3到8个摄像机视角,总共包含40971张图片。
2.将本实施例所提供的方法分别应用于构建的数据集,评估模型性能。本实施例中,一半的行人用于训练,另一半用于测试。
图1为本实施例所提供的基于对抗学习的多风格行人重识别方法的整体运行流程示意图。详细阐释了第一到第四步的具体过程和数据流向。本实施例中的基于对抗学习的多风格行人重识别方法可以将构建的模型集成在同一个深度神经网络架构中,易于重现且具有很好地适用性和推广性。
综上,本实施例方法步骤提出了端到端的学习框架用以解决多风格行人重识别问题,提出了图片生成器进行不同模态间图片空间映射同时引入对抗学习帮助更好的图片生成,用以帮助下一步的识别,提取出的特征更具有区分度,更具有鲁棒性,能更好的解决多风格行人重识别问题,使其在下一步的行人识别中发挥更好的性能及效率。
以下表1,是基于本实施例所提供的方法得到的性能的最终识别准确率的数值比较结果。从上至下依次陈列了用以对照的其他结果同本发明实施结果(MIAM)的数值比较。可以看到本实施例精度在不同数据集上都有很好的效果提升。
表1
Figure BDA0002576845250000111
以下表2,是本实施例方法的中间结果性能比较,用以说明本实施例提出的对抗学习网络框架的有效性。其中G,D,L分别代表算法中的图像生成器,模态识别器和分类识别器,DA代表算法中额外运用了空间映射的数据扩充方法(参见Z.Zhong,L.Zheng,Z.Zheng,S.Li,Y.Yang,Camera style adaptation for person re-identification,CoRR abs/1711.10295(2018).)可以看到本实施例的方法流程综合了G,D,L能更好的应对多风格行人重识别问题,提升最后的识别性能。
表2
Figure BDA0002576845250000112
以下表3,是本实施例方法的中间结果性能比较,用以说明本实施例提出的方法的普适性。MIAM为本方法的简称,自上而下分别为探索不同的分类识别器应用于本算法的性能比较。
表3
Figure BDA0002576845250000121
从表3中可以看出,本实施例的方法提出的给予对抗学习的算法,能够普遍的提高现有识别网络在多风格行人重识别问题上的性能,给出更好的特征提取方案。
本发明另一实施例提供了一种基于对抗学习的多风格行人重识别系统,包括:
图像生成器G模块,图像生成器G模块为模态不变的数据空间,用于输入分别从虚拟图像源和真实图像源获取的原始图片I={a,b},并得到映射后的输出图像
Figure BDA0002576845250000122
输入;其中,a和b分别表示属于不同模态的图片,
Figure BDA0002576845250000123
Figure BDA0002576845250000124
分别表示输入的图片a和图片b对应的映射后生成图像;
模态识别器D模块,模态识别器D模块用于输入输出图像
Figure BDA0002576845250000125
区分输出图像
Figure BDA0002576845250000126
中各图片对应的来源,并求得对抗损失Ladv后输出;
分类识别器L模块,分类识别器L模块用于输入输出图像
Figure BDA0002576845250000127
并结合对应的行人类别标签c={ca,cb},标签由数据集本身提供,求得分类的交叉熵损失Llabel;同时引入三元组损失Ltriplet,拉近正样本对间的距离,拉远负样本对间的距离;其中,ca和cb分别表示原图片a,b所对应的行人类别标签;
模型生成模块:用于综合交叉熵损失Llabel和三元组损失Ltriplet,得到最终的分类损失Lclass;综合分类损失Lclass和对抗损失Ladv,得到图像生成损失LG;交替优化图像生成器G、分类识别器L和模态识别器D,其中,根据图像生成损失LG优化图像生成器G,根据分类损失Lclass优化分类识别器L,根据对抗损失Ladv优化模态识别器D,最终得到多风格行人重识别模型,该多风格行人重识别模型用于对行人图片中的行人图像进行重识别。
作为一优选实施例,图像生成器G包括:由三个卷积层构成的编码器、由三个残差网络层构成的转换器以及由两个逆卷积层和一个卷积层构成的解码器。
作为一优选实施例,模态识别器D包括四个卷积层,输出的对抗损失Ladv为:
Figure BDA0002576845250000131
其中,m*表示设定的来源类别标签,其中来源于
Figure BDA0002576845250000132
的来源类别标签设为0,来源于
Figure BDA0002576845250000133
的来源类别标签设为1,n为每次迭代中输入图片数,D代表经过生成器的操作,θD为模态识别器D的网络参数,n为每次迭代中输入图片数。
作为一优选实施例,分类识别器L对映射后的输出图像
Figure BDA0002576845250000134
和对应的行人类别标签c={ca,cb},求得分类的交叉熵损失Llabel为:
Figure BDA0002576845250000135
其中,n为每次迭代中输入图片数,p为对应的概率分布;
同时引入三元组损失Ltriplet为:
Figure BDA0002576845250000136
其中,
Figure BDA0002576845250000137
为正样本对,属于同一个行人类别标签,
Figure BDA0002576845250000138
为负样本对,属于不同的行人类别标签。
作为一优选实施例,模型生成模块,综合交叉熵损失Llabel和三元组损失Ltriplet,得到最终的分类损失Lclass为:
Lclass=w0Llabel+w1Ltriplet
其中,w0,w1分别为各损失的权重;
综合分类损失Lclass和对抗损失Ladv,得到图像生成损失LG为:
LG=αLclass+(-βLadv)
其中,α,β分别为各损失的权重。
本发明第三个实施例提供了一种终端,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,处理器执行计算机程序时能够用于执行上述任一项实施例的方法。
可选地,存储器,用于存储程序;存储器,可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random-access memory,缩写:RAM),如静态随机存取存储器(英文:static random-access memory,缩写:SRAM),双倍数据率同步动态随机存取存储器(英文:Double Data Rate Synchronous Dynamic Random Access Memory,缩写:DDR SDRAM)等;存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory)。存储器62用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
处理器,用于执行存储器存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
处理器和存储器可以是独立结构,也可以是集成在一起的集成结构。当处理器和存储器是独立结构时,存储器、处理器可以通过总线耦合连接。
本发明上述实施例所提供的基于对抗学习的多风格行人重识别方法、系统、终端,首先设计了一个端到端的对抗学习框架,同时包含数据变换和分类识别功能模块。其中图像生成器作为数据空间变换功能模块,将来自不同源的数据转移到模态不变空间中,并消除由多风格行人图片中的模态差距引起的不一致问题。同时利用在分类识别器和模态识别器之间对抗学习来引导表示学习,其中模态识别器在真实图像和虚拟图像之间进行区分从而引导数据的空间变换,以进一步弥合模态差距,分类识别器用于最后的识别分类,从而学习到更具区分度的不变性特征。
由于采用了上述技术方案,本发明上述实施例同时考虑了数据空间变换和特征学习,并在同一深度网络中利用对抗学习进行了高效的融合,提取出的特征更具有区分度,更具有鲁棒性,可同时消除模态差距并提高现有特征学习网络的性能,能更好的解决与适应多风格行人图片之间的匹配问题,适合于跨模态多风格行人图片间提升识别性能的特征提取方法。
需要说明的是,本发明提供的方法中的步骤,可以利用系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照系统的技术方案实现方法的步骤流程,即,系统中的实施例可理解为实现方法的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

Claims (10)

1.一种基于对抗学习的多风格行人重识别方法,其特征在于,包括:
构造图像生成器G,将分别从虚拟图像源和真实图像源获取的行人图片对I={a,b}输入到模态不变的图像生成器G数据空间,得到映射后的输出图像
Figure FDA0002576845240000011
其中,a和b分别表示属于不同模态的图片,
Figure FDA0002576845240000012
Figure FDA0002576845240000013
分别表示输入的图片a和图片b对应的映射后生成图像;
构造模态识别器D,将输出图像
Figure FDA0002576845240000014
输入到模态识别器D,区分输出图像
Figure FDA0002576845240000015
中各图片对应的来源,并求得对抗损失Ladv后输出;
构造分类识别器L,将输出图像
Figure FDA0002576845240000016
输入到分类识别器L,并结合对应的行人类别标签c={ca,cb},求得分类的交叉熵损失Llabel;引入三元组损失Ltriplet,拉近正样本对间的距离,拉远负样本对间的距离;其中,ca和cb分别表示原图片a,b所对应的行人类别标签;
综合交叉熵损失Llabel和三元组损失Ltriplet,得到最终的分类损失Lclass
综合分类损失Lclass和对抗损失Ladv,得到图像生成损失LG
交替优化图像生成器G、分类识别器L和模态识别器D,其中,根据损失LG优化图像生成器G,根据分类损失Lclass优化分类识别器L,根据对抗损失Ladv优化模态识别器D,最终得到多风格行人重识别模型;
采用得到的多风格行人重识别模型对行人图片中的行人图像进行重识别。
2.根据权利要求1所述的基于对抗学习的多风格行人重识别方法,其特征在于,构造的所述图像生成器G包括:由三个卷积层构成的编码器、由三个残差网络层构成的转换器以及由两个逆卷积层和一个卷积层构成的解码器。
3.根据权利要求1所述的基于对抗学习的多风格行人重识别方法,其特征在于,构造的所述模态识别器D包括四个卷积层,输出的对抗损失Ladv为:
Figure FDA0002576845240000021
其中,m*表示设定的来源类别标签,其中来源于
Figure FDA0002576845240000022
的来源类别标签设为0,来源于
Figure FDA0002576845240000023
的来源类别标签设为1,n为每次迭代中输入图片数,D代表经过生成器的操作,θD为模态识别器D的网络参数,n为每次迭代中输入图片数。
4.根据权利要求1所述的基于对抗学习的多风格行人重识别方法,其特征在于,所述分类识别器L将输出图像
Figure FDA0002576845240000024
结合对应的行人类别标签c={ca,cb},求得分类的交叉熵损失Llabel为:
Figure FDA0002576845240000025
其中,n为每次迭代中输入图片数,p为对应的概率分布;
同时引入三元组损失Ltriplet为:
Figure FDA0002576845240000026
其中,
Figure FDA0002576845240000027
为正样本对,属于同一个行人类别标签;
Figure FDA0002576845240000028
为负样本对,属于不同的行人类别标签。
5.根据权利要求1所述的基于对抗学习的多风格行人重识别方法,其特征在于,综合交叉熵损失Llabel和三元组损失Ltriplet,得到最终的分类损失Lclass为:
Lclass=w0Llabel+w1Ltriplet
其中,w0,w1分别为各损失的权重;
综合分类损失Lclass和对抗损失Ladv,得到图像生成损失LG为:
LG=αLclass+(-βLadv)
其中,α,β分别为各损失的权重。
6.根据权利要求5所述的基于对抗学习的多风格行人重识别方法,其特征在于,设所述w0,w1均为1;和/或
设所述α=1.0,β=2.0。
7.根据权利要求1-6任一项所述的基于对抗学习的多风格行人重识别方法,其特征在于,还包括:
构建多风格行人重识别数据集,用以训练并评估多风格行人重识别模型性能;其中:
所述多风格行人重识别数据集,包括:从素描图片到实际行人图片以及从肖像图片到实际行人图片的数据集;其中,所述素描图片和肖像图片分别作为虚拟图像源;
所述多风格行人重识别数据集中行人类别标签数为245,素描图片和肖像图片中每个行人类别标签均只包含一张图片,实际监控系统下行人图片包含3到8个摄像机视角,总共包含40971张图片。
8.一种基于对抗学习的多风格行人重识别系统,其特征在于,包括:
图像生成器G模块,所述图像生成器G模块为模态不变的数据空间,用于输入分别从虚拟图像源和真实图像源获取的原始图片
Figure FDA0002576845240000031
并得到映射后的输出图像
Figure FDA0002576845240000032
输出;其中,a和b分别表示属于不同模态的图片,
Figure FDA0002576845240000033
Figure FDA0002576845240000034
分别表示输入的图片a和图片b对应的映射后生成图像;
模态识别器D模块,所述模态识别器D模块用于输入输出图像
Figure FDA0002576845240000035
区分输出图像
Figure FDA0002576845240000036
中各图片对应的来源,并求得对抗损失Ladv后输出;
分类识别器L模块,所述分类识别器L模块用于输入输出图像
Figure FDA0002576845240000037
并结合对应的行人类别标签c={ca,cb},求得分类的交叉熵损失Llabel;同时引入三元组损失Ltriplet,拉近正样本对间的距离,拉远负样本对间的距离;其中,ca和cb分别表示原图片a,b所对应的行人类别标签;
模型生成模块:用于综合交叉熵损失Llabel和三元组损失Ltriplet,得到最终的分类损失Lclass;综合分类损失Lclass和对抗损失Ladv,得到图像生成损失LG;交替优化图像生成器G、分类识别器L和模态识别器D,其中,根据损失LG优化图像生成器G,根据分类损失Lclass优化分类识别器L,根据对抗损失Ladv优化模态识别器D,最终得到多风格行人重识别模型,该多风格行人重识别模型用于对行人图片中的行人图像进行重识别。
9.根据权利要求8所述的基于对抗学习的多风格行人重识别系统,其特征在于,还包括如下任意一项或任意多项:
-所述图像生成器G包括:由三个卷积层构成的编码器、由三个残差网络层构成的转换器以及由两个逆卷积层和一个卷积层构成的解码器;
-所述模态识别器D包括四个卷积层,输出的对抗损失Ladv为:
Figure FDA0002576845240000041
其中,m*表示设定的来源类别标签,其中来源于
Figure FDA0002576845240000042
的来源类别标签设为0,来源于
Figure FDA0002576845240000043
的来源类别标签设为1,n为每次迭代中输入图片数,D代表经过生成器的操作,θD为模态识别器D的网络参数,n为每次迭代中输入图片数;
-所述分类识别器L将映射后的输出图像
Figure FDA0002576845240000044
结合对应的行人类别标签c={ca,cb},求得分类的交叉熵损失Llabel为:
Figure FDA0002576845240000045
其中,n为每次迭代中输入图片数,p为对应的概率分布;
同时引入三元组损失Ltriplet为:
Figure FDA0002576845240000046
其中,
Figure FDA0002576845240000047
为正样本对,属于同一个行人类别标签,
Figure FDA0002576845240000048
为负样本对,属于不同的行人类别标签;
-所述模型生成模块,综合交叉熵损失Llabel和三元组损失Ltriplet,得到最终的分类损失Lclass为:
Lclass=w0Llabel+w1Ltriplet
其中,w0,w1分别为各损失的权重;
综合分类损失Lclass和对抗损失Ladv,得到图像生成损失LG为:
LG=αLclass+(-βLadv)
其中,α,β分别为各损失的权重。
10.一种终端,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时能够用于执行权利要求1至7中任一项所述的方法。
CN202010656271.8A 2020-07-09 2020-07-09 基于对抗学习的多风格行人重识别方法、系统、终端 Pending CN111985313A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010656271.8A CN111985313A (zh) 2020-07-09 2020-07-09 基于对抗学习的多风格行人重识别方法、系统、终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010656271.8A CN111985313A (zh) 2020-07-09 2020-07-09 基于对抗学习的多风格行人重识别方法、系统、终端

Publications (1)

Publication Number Publication Date
CN111985313A true CN111985313A (zh) 2020-11-24

Family

ID=73438587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010656271.8A Pending CN111985313A (zh) 2020-07-09 2020-07-09 基于对抗学习的多风格行人重识别方法、系统、终端

Country Status (1)

Country Link
CN (1) CN111985313A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434654A (zh) * 2020-12-07 2021-03-02 安徽大学 一种基于对称卷积神经网络的跨模态行人重识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263697A (zh) * 2019-06-17 2019-09-20 哈尔滨工业大学(深圳) 基于无监督学习的行人重识别方法、装置及介质
CN111325115A (zh) * 2020-02-05 2020-06-23 山东师范大学 带有三重约束损失的对抗跨模态行人重识别方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263697A (zh) * 2019-06-17 2019-09-20 哈尔滨工业大学(深圳) 基于无监督学习的行人重识别方法、装置及介质
CN111325115A (zh) * 2020-02-05 2020-06-23 山东师范大学 带有三重约束损失的对抗跨模态行人重识别方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LIN CHEN 等: ""Person re-identification from virtuality to reality via modality invariant adversarial mechanism"", 《NEUROCOMPUTING》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434654A (zh) * 2020-12-07 2021-03-02 安徽大学 一种基于对称卷积神经网络的跨模态行人重识别方法
CN112434654B (zh) * 2020-12-07 2022-09-13 安徽大学 一种基于对称卷积神经网络的跨模态行人重识别方法

Similar Documents

Publication Publication Date Title
CN110909651B (zh) 视频主体人物的识别方法、装置、设备及可读存储介质
Kliper-Gross et al. Motion interchange patterns for action recognition in unconstrained videos
Kusakunniran et al. Gait recognition under various viewing angles based on correlated motion regression
CN111738143B (zh) 一种基于期望最大化的行人重识别方法
CN112307995B (zh) 一种基于特征解耦学习的半监督行人重识别方法
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN110598543B (zh) 基于属性挖掘和推理的模型训练方法及行人再识别方法
CN110222718B (zh) 图像处理的方法及装置
CN111539255A (zh) 基于多模态图像风格转换的跨模态行人重识别方法
EP4246458A1 (en) System for three-dimensional geometric guided student-teacher feature matching (3dg-stfm)
CN115240121B (zh) 一种用于增强行人局部特征的联合建模方法和装置
Zhang et al. Deep RGB-D saliency detection without depth
Huang et al. Region-based non-local operation for video classification
CN114463805B (zh) 深度伪造检测方法、装置、存储介质及计算机设备
CN115100684A (zh) 基于姿态与样式归一化的换衣行人重识别方法
Gao et al. Adaptive random down-sampling data augmentation and area attention pooling for low resolution face recognition
Shen et al. MCCG: A ConvNeXt-based multiple-classifier method for cross-view geo-localization
CN111985313A (zh) 基于对抗学习的多风格行人重识别方法、系统、终端
CN116246338B (zh) 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN117315249A (zh) 指代图像分割模型训练和分割方法、系统、设备及介质
CN115599954B (zh) 一种基于场景图推理的视频问答方法
CN116229580A (zh) 一种基于多粒度金字塔交叉网络的行人重识别方法
CN114333062B (zh) 基于异构双网络和特征一致性的行人重识别模型训练方法
Séguier et al. Multiobjectives genetic snakes: application on audio-visual speech recognition
Wu et al. Learning age semantic factor to enhance group-based representations for cross-age face recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201124