CN112200111B - 一种全局与局部特征融合的遮挡鲁棒行人重识别方法 - Google Patents

一种全局与局部特征融合的遮挡鲁棒行人重识别方法 Download PDF

Info

Publication number
CN112200111B
CN112200111B CN202011116582.1A CN202011116582A CN112200111B CN 112200111 B CN112200111 B CN 112200111B CN 202011116582 A CN202011116582 A CN 202011116582A CN 112200111 B CN112200111 B CN 112200111B
Authority
CN
China
Prior art keywords
pedestrian
global
local
semantic
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011116582.1A
Other languages
English (en)
Other versions
CN112200111A (zh
Inventor
严严
张小康
王菡子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202011116582.1A priority Critical patent/CN112200111B/zh
Publication of CN112200111A publication Critical patent/CN112200111A/zh
Application granted granted Critical
Publication of CN112200111B publication Critical patent/CN112200111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

一种全局与局部特征融合的遮挡鲁棒行人重识别方法,涉及计算机视觉技术。包括以下步骤:1)训练数据的准备;2)模型设计与训练;模型包括ResNet‑50骨架网络、全局分支、局部分支以及语义分支、全局分支利用SPC损失提取全局特征,局部分支提取局部特征,语义分支预测人体语义标签,三个分支可以联合在一起进行端到端的训练。3)利用训练好的模型来提取行人重识别数据训练集和测试集中所有行人图像的全局特征、局部特征以及预测行人图像的语义标签,并进行非遮挡区域指示符的计算。4)对查询集中的每幅行人图像分别与数据库中的所有行人图像计算相似度,按相似度从大到小排序,从而完成行人重识别。显著提高了识别的性能。

Description

一种全局与局部特征融合的遮挡鲁棒行人重识别方法
技术领域
本发明涉及计算机视觉技术,尤其是涉及将人体语义分割作为辅助任务来解决在真实的行人重识别场景下可能会出现的遮挡问题的基于语义分割的一种全局与局部特征融合遮挡鲁棒行人重识别方法。
背景技术
行人重识别(Person Re-identification)是指在多个非重叠摄像头的场景下,在行人图像数据库中检索出与给定的查询图像身份相同的行人图像。行人重识别可以广泛应用于智能安防以及视频监控等领域。
目前,随着深度学习的发展,行人重识别问题的性能获得了极大地提升。一方面,为了能够学习到更加具有判别力的特征表示,很多方法尝试提取细粒度的局部特征。例如,Yang等人(W.Yang,H.Huang,Z.Zhang,X.Chen,K.Huang,and S.Zhang,“Towards richfeature discovery with class activation maps augmentation for person re-identification,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2019,pp.1389-1398.)采用类激活图(CAM)的技术来提取在空间分布上多样化的一组特征。为了能够学习到更加有效的度量,一些方法采用了正则化的项来限制行人重识别的模型学习到更有判别力的特征嵌入。例如,Yu等人(R.Yu,Z.Dou,S.Bai,Z.Zhang,Y.Xu,andX.Bai,“Hard-aware point-to-set deep metric for person re-identification,”inPorc.Eur.Conf.Comput.Vis.(ECCV),Sep.2018,pp.402-419.)提出了能够感知难样本的点到集合(HAP2S)损失。遮挡问题是现实场景下行人重识别所面临的主要挑战,行人可能会被各种障碍物,比如车辆、雨伞和交通标志以及其他行人遮挡。遮挡会对训练好的模型产生比较严重的干扰,从而使得一般的深度学习模型难以学习鲁棒的特征表示。因此,当面对遮挡问题时,这些针对通用的行人重识别任务而设计的模型的性能都会大幅度下降。
近期,一些学者提出了一些方法来解决部分行人重识别(Partial Person Re-ID)问题。部分行人重识别问题指的是查询图像可能会被不同种类的障碍物遮挡,而行人图像数据库中不含被遮挡的行人图片。例如,Zheng等人(W.-S Zheng,X.Li,T.Xiang,S.Liao,J.Lai,and S.Gong,“Partial person re-identification,”in Proc.IEEEInt.Conf.Comput.Vis.(ICCV),Dec.2015,pp.4678-4686)提出了一种全局与局部匹配的模型来体现局部区域的空间分布信息,同时该方法还采用了局部区域的匹配来解决局部区域的歧义性。但是该类方法都需要手工裁减掉查询图片中包含遮挡的区域,使用剩余的非遮挡区域进行检索以减少遮挡所引起的干扰。在实际应用场景下,查询图片以及数据库中的图片都有可能含有遮挡,所以部分行人重识别的这一假设并不合理。同时,还应考虑到手工裁剪遮挡区域的方式效率不高。
与部分行人重识别问题不同,遮挡行人重识别问题同时考虑查询图片与行人数据库中的行人图片都允许含有遮挡。因此,遮挡行人重识别问题是一个更具有挑战性的问题。对于遮挡行人重识别问题,比较有代表性的工作是Miao等人(J.Miao,Y.Wu,P.Liu,Y.Ding,andY.Yang,“Pose-guided feature alignment for occluded person re-identification,”in Proc.IEEE Int.Conf.Comput.Vis.(ICCV),Oct.2019,pp.542-551)提出的PGFA(Pose-Guided Feature Alignment)方法。PGFA模型利用训练好的姿态估计模型来产生人体骨架关键点,再利用这些产生的关键点来对齐全局特征以及选择来自非遮挡区域的局部特征。然而,PGFA分别完成行人重识别任务以及姿态估计任务,而没有考虑到这两个任务之间的关联性。同时,PGFA的性能很大程度上依赖于关键点检测的准确性。当关键点的检测因遮挡而不准确时,全局特征的提取受收到影响,从而导致性能的下降。
为了解决遮挡行人重识别问题,本发明提出了一种基于语义分割的全局与局部特征融合的遮挡鲁棒行人重识别方法。本发明所提出的模型包括ResNet50(K.He,X.Zhang,S.Ren,and J.Sun,“Deep residual learning for image recognition,”in Proc.IEEEConf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2016,pp.770-778)骨架网络、局部分支、全局分支以及语义分支。本发明的方法在特征图上均匀的划分竖直的矩形区域,并且通过平均池化来获取局部特征。同时,通过在全局分支施加SPC损失来使全局特征包含更多的局部信息,从而提取到对遮挡鲁棒的全局特征。语义分支可以进行行人图片的语义分割,从而得到不含遮挡的区域。三个分支被联合起来进行端到端的训练。最后,将全局特征以及来自非遮挡区域的局部特征融合进行最终的匹配。
发明内容
本发明的目的在于针对现有技术存在的上述问题,提供将人体语义分割作为辅助任务来解决在真实的行人重识别场景下可能会出现的遮挡问题,基于语义分割的一种全局与局部特征融合遮挡鲁棒行人重识别方法。
本发明包括以下步骤:
1)训练数据的准备;
2)模型设计与训练;模型包括ResNet-50骨架网络、全局分支、局部分支以及语义分支、全局分支利用SPC损失提取全局特征,局部分支提取局部特征,语义分支预测人体语义标签,三个分支可以联合在一起进行端到端的训练;
3)利用训练好的模型来提取行人重识别数据训练集和测试集中所有行人图像的全局特征、局部特征以及预测行人图像的语义标签,并进行非遮挡区域指示符计算;
4)对查询集中的每幅行人图像分别与数据库中的所有行人图像计算相似度,按相似度从大到小排序,从而完成行人重识别。
在步骤1)中,所述训练数据的准备,具体步骤如下:
(1)行人图像训练集可表示为:
Figure BDA0002730426420000031
相应的身份标签可表示为:
Figure BDA0002730426420000032
其中,m为训练集中样本的数量;xi和yi表示训练集中第i个行人图像和行人图像身份标签。一般的行人重识别训练集中不包含行人图像的语义标签。因此,使用在DensePose-COCO(R.Alp Guler,N.Neverova,and I.Kokkinos,“Densepose Dense humanpose estimation in the wild,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2018,pp.7279-7306)数据集上训练好的DANet(J.Fu,J.Liu,H.Tian,Y.Li,Y.Bao,Z.Fang,and H.Lu,“Dual attention network for scene segmentation forfine-grained image retrieval,”IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun,2019,pp.3146-3154.)模型来对行人图像的语义标签进行预测,作为模型训练时的语义标签,可表示为:
Figure BDA0002730426420000033
其中,si表示训练集中第i个行人图像的语义标签。
(2)训练集中所有行人图像大小都归一化为384×128。对于数据增强,本发明只使用在竖直方向上的随机翻转,且翻转的概率为0.5。
在步骤2)中,所述模型的设计与训练包括具体步骤如下:
(1)对于模型的骨架网络,采用ResNet50网络;同时,为了获得更大的空间分辨率,ResNet50网络的最后一个下采样操作被移除,行人图像通过骨架网络,生成一张三维特征图
Figure BDA0002730426420000034
生成的特征图T接着被分别送入局部分支、全局分支以及语义分支。
(2)对于局部分支,特征图T在竖直方向上被均等划分为P个区域。接着,通过对每个区域实行全局平均池化(GAP)操作,可以获得每个局部区域的局部特征。局部特征可以表示为:
Figure BDA0002730426420000035
其中,
Figure BDA0002730426420000037
表示从第p个区域提取到的局部特征。最后,每个局部特征都被送入一个全连接层和Softmax层来预测行人图像属于某个身份标签的概率yp。这里,
Figure BDA0002730426420000036
并且J表示身份标签的数目。因此,局部分支的分类损失可以表示为交叉熵损失的和,即:
Figure BDA0002730426420000041
其中,qj是标签指示符,如果j是真实标签,qj=1;否则,qj=0;同时,P表示局部区域的数目;
(3)对于全局分支,首先使用1×1卷积将特征图T的维度从c维扩展到Nc′维,得到新的三维特征图
Figure BDA0002730426420000042
这里,N是通道分组数,c′是每个分组内的通道数目。将得到的特征图Tg的通道划分为N个不同的分组。其中,第n个分组指从第[(n-1)c′+1]个通道到第nc′个通道的通道集合。单一通道的特征图只包含很弱的语义信息,易受干扰。将第n个分组的特征图相加可以得到一个二维的聚合图
Figure BDA0002730426420000047
如下所示:
Figure BDA0002730426420000043
其中,
Figure BDA0002730426420000048
表示Tg中第i个通道的特征图。
为了让训练的过程更加稳定,将采用归一化使得An的值限定在[0,1]的范围内。首先,取得每个聚合图An的平均值
Figure BDA0002730426420000044
具体如下所示:
Figure BDA0002730426420000045
接着,使用Sigmoid方程来归一化An中的每一个元素,具体表示为:
Figure BDA0002730426420000046
其中,Mn(x,y)表示归一化之后的聚合图;sig(z)=1/(1+ez)是Sigmoid方程。
为了使全局特征包含更多局部区域的信息且同时拥有全局的感受野,在全局分支中使用了SPC损失。首先,将每个归一化的聚合图在竖直方向上都分N个区域,让每个归一化的聚合图激活其中特定的一个区域。具体地,SPC损失可以表示为:
Figure BDA0002730426420000051
其中,Rn,l表示第n个归一化聚合图的第l个矩形区域。因此,Rn,n表示第n个归一化聚合图的第n个矩形区域。
与局部分支一样,同样对Tg实行全局平均池化操作得到全局特征fglobal,然后通过全连接层和Softmax函数可以得到身份标签的预测分布g=[g1,...,gJ]。则全局分支的分类损失可以表示为:
Figure BDA0002730426420000052
这里,qj同样是标签指示符。
(4)对于语义分支,本发明使用ResNet50骨架网络不同层的输出作为输入以同时获得语义信息以及空间位置信息。具体来说,将ResNet50网络的第三和第四个残差块输出的特征图(大小为h×w)连接在一起输入一个卷积和大小为3×3且步长为2的反卷基层,并接有BN(Batch Normalization)层和ReLU激活函数。接着,输出的特征图(大小为2h×2w)和ResNet50第二个残差块连接在一起输入一个卷积和大小为3×3且步长为2的反卷基层,并接有BN(Batch Normalization)层和ReLU激活函数。最终,一个1×1卷积层将最后生成的特征图(大小为4h×4w)上的每个像素分类为K个语义标签中的一种。语义标签的概率分布可以表示为:S=[s1,...,sK]。语义分支的损失可以表示为:
Figure BDA0002730426420000053
由于训练数据集的语义标签存在较多的错误标记。本发明采用一种叫作标签平滑(LS)的模型正则化策略来减少模型的过拟合。在标签平滑策略中,qk被定义为:
Figure BDA0002730426420000054
其中,t是正确的标签。ε是一个常数,在本发明中设置为0.1以使模型对标签的正确性不会过度的确信。
(5)本发明的模型的最终损失可以表示为:
L=Llocal1Lglobal2LSPC3Lseg (9)
其中,Llocal和Lglobal是局部和全局分支的分类损失;LSPC指SPC损失;Lseg是语义分割损失;λ1、λ2和λ3分别是相应损失的权重。本发明的模型可以进行端到端的训练。
在步骤3)中,所述利用训练好的模型来提取行人重识别数据训练集和测试集中所有行人图像的全局特征、局部特征以及预测行人图像的语义标签,并进行非遮挡区域指示符计算的具体步骤如下:
(1)通过将语义标签中属于人体部位的类归为前景类,保留背景类,可以得到二值前景背景图
Figure BDA0002730426420000061
(此处,h′=4h,w′=4w)。E(x,y)=1表示对应的像素位置属于前景,E(x,y)=0表示对应的像素属于背景。首先,将E在竖直方向上划分为P个区域,每个区域的可视化分数可以被定义为:
Figure BDA0002730426420000062
其中,d′=h′/P表示每个区域的高度,Ωp是E上的第p个区域。因此,非遮挡区域指示符Ip可以定义为:
Ip=1{vp≥τ} (11)
这里,Ip∈{0,1};Ip=1{·}取值为1当参数是真值,取值为0当参数为非真值;τ是阈值。因此,当Ip取1时,可以认为该区域无遮挡或遮挡程度不严重;当Ip取0时,可以认为对应区域遮挡严重。
(2)假设Q和G是查询图片和行人数据库中的图片。利用训练好的模型,可以分别提取查询图片以及数据库中图片的全局特征、局部特征和非遮挡区域指示符,分别表示为:
Figure BDA0002730426420000064
Figure BDA0002730426420000063
在步骤4)中,所述对查询集中的每幅行人图像分别与数据库中的所有行人图像计算相似度,按相似度从大到小排序,从而完成行人重识别的具体步骤如下:
(1)图像Q和G的全局特征距离可以由下式计算:
Figure BDA0002730426420000071
这里,||·||表示二范数。
同理,Q和G的局部特征距离可以由下式计算:
Figure BDA0002730426420000072
可以看出,距离计算只使用了来自共同非遮挡区域的局部特征。
则图像Q和G的最终距离可表示为:
Figure BDA0002730426420000073
(2)对查询集中的每幅行人图像分别与数据库中的所有行人图像进行相似度计算,并按相似度从大到小排序,完成相似度匹配。
本发明公开一种基于语义分割的遮挡鲁棒行人重识别方法,包括步骤:1)训练数据准备:准备行人重识别数据训练集和测试集。由于现有的行人重识别训练数据集不提供语义标签,因此,通过使用语义分割模型来预测行人图像语义标签;2)模型设计与训练:模型包含三个分支,即全局分支,局部分支以及语义分支。其中,全局分支可以通过空间块对比(Spatial Patch Contrastive)损失来提取对遮挡鲁棒的全局特征。局部分支通过均匀划分特征图来提取局部特征。语义分支通过预测行人图像语义标签。三个分支可以联合在一起进行端到端的训练;3)利用训练好的模型来提取行人重识别数据训练集和测试集中所有行人图像的全局特征、局部特征以及预测行人图像的语义标签,并进行非遮挡区域指示符计算。4)对查询集中的每幅行人图像分别与数据库中的所有行人图像计算相似度,按相似度从大到小排序,从而完成行人重识别。在遮挡的行人重识别数据集上,本发明的方法显著提高了识别的性能。在一般的行人重识别数据集上,本发明的方法也取得了优异的性能。
附图说明
图1为本发明的模型结构图。在图1中,有四个主要的模块,分别是ResNet50骨架网络、局部分支、全局分支以及语义分支。
图2为本发明的语义分支所产生的语义分割图的一些例子。从图中可以看出,尽管分割的结果比较粗糙,仍然可以利用分割结果来进行遮挡与非遮挡区域的判断。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下实施例将结合附图对本发明进行作进一步的说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,以下对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
本发明实施例包括以下步骤:
1)训练数据准备。
2)模型设计与训练。模型包括ResNet-50骨架网络、全局分支、局部分支以及语义分支、全局分支利用SPC损失提取全局特征,局部分支提取局部特征,语义分支预测人体语义标签。三个分支可以联合在一起进行端到端的训练。
3)利用训练好的模型来提取行人重识别数据训练集和测试集中所有行人图像的全局特征、局部特征以及预测行人图像的语义标签,并进行非遮挡区域指示符的计算。
4)对查询集中的每幅行人图像分别与数据库中的所有行人图像计算相似度,按相似度从大到小排序,从而完成行人重识别。
在步骤1)中,训练数据准备包括具体步骤如下:
(1)行人图像训练集可以表示为:
Figure BDA0002730426420000081
相应的身份标签可以表示为:
Figure BDA0002730426420000082
其中,m为训练集中样本的数量;xi和yi表示训练集中第i个行人图像和行人图像身份标签。一般的行人重识别训练集中不包含行人图像的语义标签。因此,本发明使用在DensePose-COCO(R.Alp Guler,N.Neverova,and I.Kokkinos,“Densepose Dense humanpose estimation in the wild,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2018,pp.7279-7306)数据集上训练好的DANet(J.Fu,J.Liu,H.Tian,Y.Li,Y.Bao,Z.Fang,and H.Lu,“Dual attention network for scene segmentation forfine-grained image retrieval,”IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun,2019,pp.3146-3154.)模型来对行人图像的语义标签进行预测,作为模型训练时的语义标签,可以表示为:
Figure BDA0002730426420000083
其中,si表示训练集中第i个行人图像的语义标签。
(2)训练集中所有行人图像大小都归一化为384×128。对于数据增强,本发明只使用在竖直方向上的随机翻转,且翻转的概率为0.5。图1为本发明的模型结构图。在图1中,有四个主要的模块,分别是ResNet50骨架网络、局部分支、全局分支以及语义分支。
在步骤2)中,模型的设计与训练包括具体步骤如下:
(1)对于模型的骨架网络,本发明采用ResNet50网络。同时,为了获得更大的空间分辨率,ResNet50网络的最后一个下采样操作被移除。行人图像通过骨架网络,生成一张三维特征图
Figure BDA0002730426420000091
生成的特征图T接着被分别送入局部分支、全局分支以及语义分支。
(2)对于局部分支,特征图T在竖直方向上被均等划分为P个区域。接着,通过对每个区域实行全局平均池化(GAP)操作,可以获得每个局部区域的局部特征。局部特征可以表示为:
Figure BDA0002730426420000092
其中,
Figure BDA0002730426420000097
表示从第p个区域提取到的局部特征。最后,每个局部特征都被送入一个全连接层和Softmax层来预测行人图像属于某个身份标签的概率yp。这里,
Figure BDA0002730426420000093
并且J表示身份标签的数目。因此,局部分支的分类损失可以表示为交叉熵损失的和,即:
Figure BDA0002730426420000094
其中,qj是标签指示符,如果j是真实标签,qj=1;否则,qj=0;同时,P表示局部区域的数目。
(3)对于全局分支,首先使用1×1卷积将特征图T的维度从c维扩展到Nc′维,得到新的三维特征图
Figure BDA0002730426420000095
这里,N是通道分组数,c′是每个分组内的通道数目。将得到的特征图Tg的通道划分为N个不同的分组。其中,第n个分组指从第[(n-1)c′+1]个通道到第nc′个通道的通道集合。单一通道的特征图只包含很弱的语义信息,易受干扰。将第n个分组的特征图相加可以得到一个二维的聚合图
Figure BDA0002730426420000098
如下所示:
Figure BDA0002730426420000096
其中,
Figure BDA0002730426420000106
表示Tg中第i个通道的特征图。
为了让训练的过程更加稳定,本发明将采用归一化使得An的值限定在[0,1]的范围内。首先,我们取得每个聚合图An的平均值
Figure BDA0002730426420000101
具体如下所示:
Figure BDA0002730426420000102
接着,使用Sigmoid方程来归一化An中的每一个元素,具体表示为:
Figure BDA0002730426420000103
其中,Mn(x,y)表示归一化之后的聚合图;sig(z)=1/(1+ez)是Sigmoid方程。
为了使全局特征包含更多局部区域的信息且同时拥有全局的感受野,本发明在全局分支中使用了SPC损失。首先,将每个归一化的聚合图在竖直方向上都分N个区域,让每个归一化的聚合图激活其中特定的一个区域。具体地,SPC损失可以表示为:
Figure BDA0002730426420000104
其中,Rn,l表示第n个归一化聚合图的第l个矩形区域。因此,Rn,n表示第n个归一化聚合图的第nl个矩形区域。
与局部分支一样,同样对Tg实行全局平均池化操作得到全局特征fglobal,然后通过全连接层和Softmax函数可以得到身份标签的预测分布g=[g1,...,gJ]。则全局分支的分类损失可以表示为:
Figure BDA0002730426420000105
这里,qj同样是标签指示符。
(4)对于语义分支,本发明使用ResNet50骨架网络不同层的输出作为输入以同时获得语义信息以及空间位置信息。具体来说,将ResNet50网络的第三和第四个残差块输出的特征图(大小为h×w)连接在一起输入一个卷积和大小为3×3且步长为2的反卷基层,并接有BN(Batch Normalization)层和ReLU激活函数。接着,输出的特征图(大小为2h×2w)和ResNet50第二个残差块连接在一起输入一个卷积和大小为3×3且步长为2的反卷基层,并接有BN(Batch Normalization)层和ReLU激活函数。最终,一个1×1卷积层将最后生成的特征图(大小为4h×4w)上的每个像素分类为K个语义标签中的一种。语义标签的概率分布可以表示为:S=[s1,...,sK]。语义分支的损失可以表示为:
Figure BDA0002730426420000111
由于训练数据集的语义标签存在较多的错误标记。本发明采用一种叫作标签平滑(LS)的模型正则化策略来减少模型的过拟合。在标签平滑策略中,qk被定义为:
Figure BDA0002730426420000112
其中,t是正确的标签。ε是一个常数,在本发明中设置为0.1以使模型对标签的正确性不会过度的确信。
(5)本发明的模型的最终损失可以表示为:
L=Llocal1Lglobal2LSPC3Lseg (9)
其中,Llocal和Lglobal是局部和全局分支的分类损失;LSPC指SPC损失;Lseg是语义分割损失;λ1、λ2和λ3分别是相应损失的权重。本发明的模型可以进行端到端的训练。
图2为本发明的语义分支所产生的语义分割图的例子。从图2中可以看出,尽管分割的结果比较粗糙,仍然可以利用分割结果来进行遮挡与非遮挡区域的判断。
在步骤3)中,查询集和数据库中行人图像特征提取以及非遮挡区域指示符计算的具体步骤如下:
(1)通过将语义标签中属于人体部位的类归为前景类,保留背景类,可以得到二值前景背景图
Figure BDA0002730426420000113
(此处,h′=4h,w′=4w)。E(x,y)=1表示对应的像素位置属于前景,E(x,y)=0表示对应的像素属于背景。首先,将E在竖直方向上划分为P个区域,每个区域的可视化分数可以被定义为:
Figure BDA0002730426420000121
其中,d′=h′/P表示每个区域的高度,Ωp是E上的第p个区域。因此,非遮挡区域指示符Ip可以定义为:
Ip=1{vp≥τ} (11)
这里,Ip∈{0,1};Ip=1{·}取值为1当参数是真值,取值为0当参数为非真值;τ是阈值。因此,当Ip取1时,可以认为该区域无遮挡或遮挡程度不严重;当Ip取0时,可以认为对应区域遮挡严重。
(2)假设Q和G是查询图片和行人数据库中的图片。利用训练好的模型,可以分别提取查询图片以及数据库中图片的全局特征、局部特征和非遮挡区域指示符,分别表示为:
Figure BDA0002730426420000126
Figure BDA0002730426420000122
在步骤4)中,查询集和数据库中行人图像的相似度计算与匹配具体步骤如下:
(1)图像Q和G的全局特征距离可以由下式计算:
Figure BDA0002730426420000123
这里,||·||表示二范数。
同理,Q和G的局部特征距离可以由下式计算:
Figure BDA0002730426420000124
可以看出,距离计算只使用了来自共同非遮挡区域的局部特征。
则图像Q和G的最终距离可表示为:
Figure BDA0002730426420000125
(2)对查询集中的每幅行人图像分别与数据库中的所有行人图像进行相似度计算,并按相似度从大到小排序,完成相似度匹配。
表1
方法 Rank-1 Rank-5 Rank-10 mAP
LOMO+XQDA 8.1 17.0 22.0 5.0
DIM 21.5 36.1 42.8 14.4
PartAligned 28.8 44.6 51.0 20.2
RandomErasing 40.5 59.6 66.8 30.0
HACNN 34.4 51.9 59.4 26.0
AOS 44.5 - - 32.2
PCB 42.6 57.1 62.9 33.7
PartBilinear 36.9 - - -
FD-GAN 40.8 - - -
DSR 40.8 58.2 65.2 30.4
SFR 42.3 60.3 67.3 32.0
PGFA 51.4 68.6 74.9 37.3
本发明模型 57.6 73.7 79.0 46.3
表2
Figure BDA0002730426420000131
表3
Figure BDA0002730426420000141
表1给出本发明的方法与其他方法在遮挡数据集Occluded-DukeMTMC上的对比。表2给出本发明的方法与其他方法在部分行人重识别数据集Partial-REID和Partial iLIDS上的对比。表3给出本发明的方法与其他方法在通用的行人重识别数据集Market-1501和DukeMTMC-reID上的对比。mAP表示平均正确率值。Rank-1、Rank-3、Rank-5和Rank-10分别表示累积匹配特性曲线(CMC)在第一匹配率、第三匹配率、第五匹配率和第十匹配率的值。
LOMO+XQDA对应于Liao等人提出的方法(S.Liao,Y.Hu,X.Zhu,and S.Z.Li,“Person re-identification by local maximal occurrence representation andmetric learning,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2015,pp.2197–2206.)
DIM对应Yu等人提出的方法(Q.Yu,X.Chang,Y.-Z.Song,T.Xiang,andT.M.Hospedales,“Thedevil is in the middle:Exploiting mid-levelrepresentations for cross-do main instance matching,”arXiv preprint arXiv:1711.08106,Nov.2017.)
Part Aligned对应于Zhao等人提出的方法(L.Zhao,X.Li,Y.Zhuang,and J.Wang,“Deeply-learned part-aligned representations for person re-identification,”inProc.IEEE Int.Conf.Comput.Vis.(ICCV),Oct.2017,pp.3219–3228.)
Random Erasing对应于Zhong等人提出的方法(Z.Zhong,L.Zheng,G.Kang,S.Li,and Y.Yang,“Random erasing data augmentation,”arXiv preprint arXiv:1708.04896,Aug.2017.)
AOS对应于Huang等人提出的方法(H.Huang,D.Li,Z.Zhang,X.Chen,and K.Huang,“Adversarially occluded samples for person re-identification,”in Proc.IEEEConf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2018,pp.5098–5107.)
PCB对应于Sun等人提出的方法(Y.Sun,L.Zheng,Y.Yang,Q.Tian,and S.Wang,“Beyond part models:Person retrieval with refined part pooling(and a strongconvolutional baseline),”in Proc.Eur.Conf.Comput.Vis.Comput.Vis.(ECCV),Sep.2018,pp.480–496.)
Part Bilinear对应于Suh等人提出的方法(Y.Suh,J.Wang,S.Tang,T.Mei,andK.Mu Lee,“Part-aligned bilinear representations for person re-identification,”in Proc.Eur.Conf.Comput.Vis.Comput.Vis.(ECCV),Sep.2018,pp.402–419.)
FD-GAN对应于Ge等人提出的方法(Y.Ge,Z.Li,H.Zhao,G.Yin,S.Yi,X.Wang,andH.Li,“FD-GAN:Pose-guided feature distilling GAN for robust person re-identification,”in Adv.Neural Inf.Process.Syst.(NIPS),Dec.2018,pp.1222–1233.)
DSR对应于He等人提出的方法(L.He,J.Liang,H.Li,and Z.Sun,“Deep spatialfeature reconstruction for partial person re-identification:Alignment-freeapproach,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2018,pp.7073–7082.)
SFR对应于He等人提出的方法(L.He,Z.Sun,Y.Zhu,and Y.Wang,“Recognizingpartial biometric patterns,”arXiv preprint arXiv:1810.07399,Oct.2018.)
PGFA对应于Miao等人提出的方法(J.Miao,Y.Wu,P.Liu,Y.Ding,and Y.Yang,“Pose-guided feature alignment for occluded person re-identification,”inProc.IEEE Int.Conf.Comput.Vis.(ICCV),Oct.2019,pp.542–551.)
MTRC对应于Liao等人提出的方法(S.Liao,A.K.Jain,and S.Z.Li,“Partial facerecognition:Alignment-free approach,”IEEE Trans.Pattern Anal.March.Intell.,vol.35,no.5,pp.1193–1205,2013.)
AWM+SWM对应于Zheng等人提出的方法(W.-S.Zheng,X.Li,T.Xiang,S.Liao,J.Lai,and S.Gong,“Partial person re-identification,”in Proc.IEEEInt.Conf.Comput.Vis.(ICCV),Dec.2015,pp.4678–4686.)
VPM对应于Sun等人提出的方法(Y.Sun,Q.Xu,Y.Li,C.Zhang,Y.Li,S.Wang,andJ.Sun,“Perceive where to focus:Learning visibility-aware part-level featuresfor partial person re-identification,”in Proc.IEEE Conf.Comput.Vis.PatternRecognit.(CVPR),Jun.2019,pp.393–402.)
BoW+Kissme对应于Zheng等人提出的方法(L.Zheng,L.Shen,L.Tian,S.Wang,J.Wang,and Q.Tian,“Scal-able person re-identification:A benchmark,”inProc.IEEE Int.Conf.Comput.Vis.(ICCV),Oct.2015,pp.1116–1124.)
SVDNet对应于Sun等人提出的方法(Y.Sun,L.Zheng,W.Deng,and S.Wang,“SVDNetfor pedestrian retrieval,”in Proc.IEEE Int.Conf.Comput.Vis.(ICCV),Oct.2017,pp.3800–3808.)
PAN对应于Zheng等人提出的方法(Z.Zheng,L.Zheng,and Y.Yang,“Unlabeledsamples generated by GAN improve the person re-identification baseline invitro,”in Proc.IEEE Int.Conf.Comput.Vis.(ICCV),Oct.2017,pp.3754–3762.)
PAR对应于Zhao等人提出的方法(L.Zhao,X.Li,Y.Zhuang,and J.Wang,“Deeply-learned part-aligned representations for person re-identification,”inProc.IEEE Int.Conf.Comput.Vis.(ICCV),Oct.2017,pp.3219–3228.)
Pedestrian对应于Zheng等人提出的方法(Z.Zheng,L.Zheng,and Y.Yang,“Pedestrian alignment network for large-scale person re-identification,”IEEETrans.Circuits Syst.Video Technol.,vol.29,no.10,pp.3037–3045,2019.)
Triplet loss对应于Hermans等人提出的方法(A.Hermans,L.Beyer,andB.Leibe,“In defense of the triplet loss for person re-identification,”arXivpreprint arXiv:1703.07737,Mar.2017.)
Quadruplet loss对应于Chen等人提出的方法(W.Chen,X.Chen,J.Zhang,andK.Huang,“Beyond triplet loss:A deep quadruplet network for person re-identification,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2017,pp.403–412.)
APR对应于Lin等人提出的方法(Y.Lin,L.Zheng,Z.Zheng,Y.Wu,Z.Hu,C.Yan,andY.Yang,“Improving person re-identification by attribute and identitylearning,”Pattern Recognit.,vol.95,pp.151–161,2019.)
DPFL对应于Chen等人提出的方法(Y.Chen,X.Zhu,and S.Gong,“Person re-identification by deep learning multi-scale representations,”in Proc.IEEEInt.Conf.Comput.Vis.(ICCV),Oct.2017,pp.2590–2600.)
MLFN对应于Chang等人提出的方法(X.Chang,T.M.Hospedales,and T.Xiang,“Multi-level factorisation net for person re-identification,”in Proc.IEEEConf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2018,pp.2109–2118.)

Claims (4)

1.一种全局与局部特征融合的遮挡鲁棒行人重识别方法,其特征在于包括以下步骤:
1)训练数据的准备;
2)模型设计与训练;模型包括ResNet-50骨架网络、全局分支、局部分支以及语义分支;全局分支利用SPC损失提取全局特征,局部分支提取局部特征,语义分支预测人体语义标签;三个分支联合在一起进行端到端的训练;
所述模型的设计与训练包括具体步骤如下:
(1)对于模型的骨架网络,采用ResNet50网络,ResNet50网络的最后一个下采样操作被移除;行人图像通过骨架网络,生成一张三维特征图
Figure FDA0003583775310000011
生成的特征图T分别送入局部分支、全局分支以及语义分支;
(2)对于局部分支,特征图T在竖直方向上被均等划分为P个区域,通过对每个区域实行全局平均池化操作,获得每个局部区域的局部特征;局部特征表示为:
Figure FDA0003583775310000012
其中,
Figure FDA0003583775310000013
表示从第p个区域提取到的局部特征;最后,每个局部特征都被送入一个全连接层和Softmax层来预测行人图像属于某个身份标签的概率yp
Figure FDA0003583775310000014
并且J表示身份标签的数目;局部分支的分类损失表示为交叉熵损失的和,即:
Figure FDA0003583775310000015
其中,qj是标签指示符,如果j是真实标签,qj=1;否则,qj=0;同时,P表示局部区域的数目;
(3)对于全局分支,首先使用1×1卷积将特征图T的维度从c维扩展到N×c′维,得到新的三维特征图
Figure FDA0003583775310000016
N是通道分组数,c′是每个分组内的通道数目;将得到的三维特征图Tg的通道划分为N个不同的分组;其中,第n个分组指从第[(n-1)c′+1]个通道到第nc′个通道的通道集合,单一通道的特征图只包含很弱的语义信息,易受干扰,将第n个分组的特征图相加得到一个二维的聚合图
Figure FDA0003583775310000017
如下所示:
Figure FDA0003583775310000021
其中,
Figure FDA0003583775310000022
表示Tg中第i个通道的特征图;
将采用归一化使得An的值限定在[0,1]的范围内,首先,取得每个聚合图An的平均值
Figure FDA0003583775310000023
具体如下所示:
Figure FDA0003583775310000024
接着,使用Sigmoid方程来归一化An中的每一个元素,具体表示为:
Figure FDA0003583775310000025
其中,Mn(x,y)表示归一化之后的聚合图;sig(z)=1/(1+ez)是Sigmoid方程;
在全局分支中使用了SPC损失;首先,将每个归一化的聚合图在竖直方向上都分F个区域,让每个归一化的聚合图激活其中特定的一个区域;SPC损失表示为:
Figure FDA0003583775310000026
其中,Rn,l表示第n个归一化聚合图的第l个矩形区域,Rn,n表示第n个归一化聚合图的第n个矩形区域;
与局部分支一样,对Tg实行全局平均池化操作得到全局特征fglobal,然后通过全连接层和Softmax函数得到身份标签的预测分布g=[g1,...,gJ],则全局分支的分类损失表示为:
Figure FDA0003583775310000027
其中,qj同样是标签指示符;
(4)对于语义分支,使用ResNet50骨架网络不同层的输出作为输入以同时获得语义信息以及空间位置信息;具体步骤为:将ResNet50网络的第三和第四个残差块输出的大小为h×w的特征图连接在一起输入一个卷积和大小为3×3且步长为2的反卷基层,并接有BN层和ReLU激活函数;接着,输出的特征图大小为2h×2w和ResNet50第二个残差块连接在一起输入一个卷积和大小为3×3且步长为2的反卷基层,并接有BN层和ReLU激活函数;最终,一个1×1卷积层将最后生成的大小为4h×4w的特征图上的每个像素分类为K个语义标签中的一种,语义标签的概率分布表示为:S=[s1,...,sK],语义分支的损失表示为:
Figure FDA0003583775310000031
由于训练数据集的语义标签存在较多的错误标记,采用标签平滑模型正则化策略来减少模型的过拟合;在标签平滑策略中,qk被定义为:
Figure FDA0003583775310000032
其中,t是正确的标签,ε是一个常数,设置为0.1以使模型对标签的正确性不会过度的确信;
(5)最终损失表示为:
L=Llocal1Lglobal2LSPC3Lseg (9)
其中,Llocal和Lglobal是局部和全局分支的分类损失;LSPC指SPC损失;Lseg是语义分割损失;λ1、λ2和λ3分别是相应损失的权重;模型进行端到端的训练;
3)利用训练好的模型来提取行人重识别数据训练集和测试集中所有行人图像的全局特征、局部特征以及预测行人图像的语义标签,并进行非遮挡区域指示符的计算;
4)对查询集中的每幅行人图像分别与数据库中的所有行人图像计算相似度,按相似度从大到小排序,从而完成行人重识别。
2.如权利要求1所述一种全局与局部特征融合的遮挡鲁棒行人重识别方法,其特征在于在步骤1)中,所述训练数据的准备包括具体步骤如下:
(1)行人图像训练集表示为:
Figure FDA0003583775310000033
相应的身份标签表示为:
Figure FDA0003583775310000034
其中,m为训练集中样本的数量;xi和yi表示训练集中第i个行人图像和行人图像身份标签;行人重识别训练集中不包含行人图像的语义标签,使用在DensePose-COCO数据集上训练好的DANet模型来对行人图像的语义标签进行预测,作为模型训练时的语义标签,表示为:
Figure FDA0003583775310000035
其中,si表示训练集中第i个行人图像的语义标签;
(2)训练集中所有行人图像大小都归一化为384×128。
3.如权利要求2所述一种全局与局部特征融合的遮挡鲁棒行人重识别方法,其特征在于在步骤3)中,所述利用训练好的模型来提取行人重识别数据训练集和测试集中所有行人图像的全局特征、局部特征以及预测行人图像的语义标签,并进行非遮挡区域指示符计算的具体步骤如下:
(1)通过将语义标签中属于人体部位的类归为前景类,保留背景类,得到二值前景背景图
Figure FDA0003583775310000041
其中,h′=4h,w′=4w;E(x,y)=1表示对应的像素位置属于前景,E(x,y)=0表示对应的像素属于背景;首先,将E在竖直方向上划分为P个区域,每个区域的可视化分数被定义为:
Figure FDA0003583775310000042
其中,d′=h′/P表示每个区域的高度,Ωp是E上的第p个区域;因此,非遮挡区域指示符Ip定义为:
Ip=1{vp≥τ} (11)
这里,Ip∈{0,1};Ip=1{·}取值为1当参数是真值,取值为0当参数为非真值;τ是阈值;因此,当Ip取1时,则认为该区域无遮挡或遮挡程度不严重;当Ip取0时,则认为对应区域遮挡严重;
(2)假设Q和G是查询图片和行人数据库中的图片,利用训练好的模型,分别提取查询图片以及数据库中图片的全局特征、局部特征和非遮挡区域指示符,分别表示为:
Figure FDA0003583775310000043
Figure FDA0003583775310000044
4.如权利要求3所述一种全局与局部特征融合的遮挡鲁棒行人重识别方法,其特征在于在步骤4)中,所述对查询集中的每幅行人图像分别与数据库中的所有行人图像计算相似度,按相似度从大到小排序,从而完成行人重识别的具体步骤如下:
(1)图像Q和G的全局特征距离由下式计算:
Figure FDA0003583775310000045
这里,||·||表示二范数;
同理,图像Q和G的局部特征距离由下式计算:
Figure FDA0003583775310000051
则图像Q和G的最终距离表示为:
Figure FDA0003583775310000052
(2)对查询集中的每幅行人图像分别与数据库中的所有行人图像进行相似度计算,并按相似度从大到小排序,完成相似度匹配。
CN202011116582.1A 2020-10-19 2020-10-19 一种全局与局部特征融合的遮挡鲁棒行人重识别方法 Active CN112200111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011116582.1A CN112200111B (zh) 2020-10-19 2020-10-19 一种全局与局部特征融合的遮挡鲁棒行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011116582.1A CN112200111B (zh) 2020-10-19 2020-10-19 一种全局与局部特征融合的遮挡鲁棒行人重识别方法

Publications (2)

Publication Number Publication Date
CN112200111A CN112200111A (zh) 2021-01-08
CN112200111B true CN112200111B (zh) 2022-05-17

Family

ID=74010296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011116582.1A Active CN112200111B (zh) 2020-10-19 2020-10-19 一种全局与局部特征融合的遮挡鲁棒行人重识别方法

Country Status (1)

Country Link
CN (1) CN112200111B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784728B (zh) * 2021-01-18 2022-04-12 山东省人工智能研究院 基于衣物脱敏网络的多粒度换衣行人重识别方法
CN112800967B (zh) * 2021-01-29 2022-05-17 重庆邮电大学 一种姿态驱动的遮挡行人重识别方法
CN112927783B (zh) * 2021-03-30 2023-12-26 泰康同济(武汉)医院 图像检索方法及装置
CN112801235A (zh) * 2021-04-12 2021-05-14 四川大学 模型训练方法、预测方法、装置、重识别模型及电子设备
CN113255492B (zh) * 2021-05-17 2022-08-05 南京甄视智能科技有限公司 行人重识别的方法及系统
CN113221770B (zh) * 2021-05-18 2024-06-04 青岛根尖智能科技有限公司 基于多特征混合学习的跨域行人重识别方法及系统
CN113269070B (zh) * 2021-05-18 2023-04-07 重庆邮电大学 融合全局和局部特征的行人重识别方法、存储器及处理器
CN113591545B (zh) * 2021-06-11 2024-05-24 北京师范大学珠海校区 一种基于深度学习的多级特征提取网络行人再识别方法
CN113627272B (zh) * 2021-07-19 2023-11-28 上海交通大学 基于归一网络的严重不对齐行人重识别方法及系统
CN113408492B (zh) * 2021-07-23 2022-06-14 四川大学 一种基于全局-局部特征动态对齐的行人重识别方法
CN113657462B (zh) * 2021-07-28 2024-07-26 讯飞智元信息科技有限公司 用于训练车辆识别模型的方法、车辆识别方法和计算设备
CN114299542B (zh) * 2021-12-29 2024-07-05 北京航空航天大学 一种基于多尺度特征融合的视频行人重识别方法
CN114333062B (zh) * 2021-12-31 2022-07-15 江南大学 基于异构双网络和特征一致性的行人重识别模型训练方法
CN114241280B (zh) * 2022-02-23 2022-05-27 广东电网有限责任公司东莞供电局 一种主站调度系统后台画面图像的动态识别方法
CN114821298B (zh) * 2022-03-22 2024-08-06 大连理工大学 一种具有自适应语义信息的多标签遥感图像分类方法
CN114663839B (zh) * 2022-05-12 2022-11-04 中科智为科技(天津)有限公司 一种遮挡行人重识别方法及系统
CN115205906B (zh) * 2022-09-15 2022-12-23 山东能源数智云科技有限公司 基于人体解析的仓储作业人员的检测方法、装置及介质
CN117315576B (zh) * 2023-09-22 2024-06-28 中交第二公路勘察设计研究院有限公司 一种在监控视频中识别指定人员的方法
CN116994076B (zh) * 2023-09-28 2024-01-19 中国海洋大学 一种基于双分支相互学习特征生成的小样本图像识别方法
CN117542084B (zh) * 2023-12-06 2024-08-20 湖南大学 一种语义感知的跨模态行人重识别方法
CN118072354A (zh) * 2024-03-29 2024-05-24 北京积加科技有限公司 行人重识别方法、装置、电子设备和计算机可读介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537136A (zh) * 2018-03-19 2018-09-14 复旦大学 基于姿态归一化图像生成的行人重识别方法
CN108960127A (zh) * 2018-06-29 2018-12-07 厦门大学 基于自适应深度度量学习的遮挡行人重识别方法
CN109902590A (zh) * 2019-01-30 2019-06-18 西安理工大学 深度多视图特征距离学习的行人重识别方法
CN109977893A (zh) * 2019-04-01 2019-07-05 厦门大学 基于层次显著性通道学习的深度多任务行人再识别方法
CN111259850A (zh) * 2020-01-23 2020-06-09 同济大学 一种融合随机批掩膜和多尺度表征学习的行人重识别方法
CN111259836A (zh) * 2020-01-20 2020-06-09 浙江大学 一种基于动态图卷积表征的视频行人重识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537136A (zh) * 2018-03-19 2018-09-14 复旦大学 基于姿态归一化图像生成的行人重识别方法
CN108960127A (zh) * 2018-06-29 2018-12-07 厦门大学 基于自适应深度度量学习的遮挡行人重识别方法
CN109902590A (zh) * 2019-01-30 2019-06-18 西安理工大学 深度多视图特征距离学习的行人重识别方法
CN109977893A (zh) * 2019-04-01 2019-07-05 厦门大学 基于层次显著性通道学习的深度多任务行人再识别方法
CN111259836A (zh) * 2020-01-20 2020-06-09 浙江大学 一种基于动态图卷积表征的视频行人重识别方法
CN111259850A (zh) * 2020-01-23 2020-06-09 同济大学 一种融合随机批掩膜和多尺度表征学习的行人重识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Occluded Person Re-Identification;Jiaxuan Zhuo et al.;《2018 IEEE International Conference on Multimedia and Expo (ICME)》;20181011;全文 *
Semantic-Aware Occlusion-Robust Network for Occluded Person Re-Identification;Xiaokang Zhang et al.;《 IEEE Transactions on Circuits and Systems for Video Technology》;20201022;全文 *
基于多尺度生成对抗网络的遮挡行人重识别方法;杨婉香 等;《软件学报》;20200114;全文 *

Also Published As

Publication number Publication date
CN112200111A (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
CN112200111B (zh) 一种全局与局部特征融合的遮挡鲁棒行人重识别方法
Zhou et al. Split depth-wise separable graph-convolution network for road extraction in complex environments from high-resolution remote-sensing images
Li et al. A deep learning-based hybrid framework for object detection and recognition in autonomous driving
Miao et al. Identifying visible parts via pose estimation for occluded person re-identification
Yang et al. Deep detection network for real-life traffic sign in vehicular networks
CN112101150B (zh) 一种基于朝向约束的多特征融合行人重识别方法
CN108288088B (zh) 一种基于端到端全卷积神经网络的场景文本检测方法
Chu et al. Deep feature based contextual model for object detection
Liu et al. Matching-cnn meets knn: Quasi-parametric human parsing
Ci et al. Video object segmentation by learning location-sensitive embeddings
CN111709311A (zh) 一种基于多尺度卷积特征融合的行人重识别方法
Li et al. Pedestrian detection based on deep learning model
CN110796026A (zh) 一种基于全局特征拼接的行人重识别方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
Geng et al. Combining CNN and MRF for road detection
CN103236068B (zh) 一种局部图像匹配方法
Zhang et al. Spatio-channel attention blocks for cross-modal crowd counting
CN109325407B (zh) 基于f-ssd网络滤波的光学遥感视频目标检测方法
CN111950367B (zh) 一种面向航拍影像的无监督车辆重识别方法
Fan Research and realization of video target detection system based on deep learning
CN115984901A (zh) 一种基于多模态的图卷积神经网络行人重识别方法
Wang et al. Multiple pedestrian tracking with graph attention map on urban road scene
CN114973305B (zh) 一种针对拥挤人群的精确人体解析方法
Chen et al. Occlusion and multi-scale pedestrian detection A review
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant