CN112200111B - 一种全局与局部特征融合的遮挡鲁棒行人重识别方法 - Google Patents
一种全局与局部特征融合的遮挡鲁棒行人重识别方法 Download PDFInfo
- Publication number
- CN112200111B CN112200111B CN202011116582.1A CN202011116582A CN112200111B CN 112200111 B CN112200111 B CN 112200111B CN 202011116582 A CN202011116582 A CN 202011116582A CN 112200111 B CN112200111 B CN 112200111B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- global
- local
- semantic
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000012163 sequencing technique Methods 0.000 claims abstract description 8
- 238000012360 testing method Methods 0.000 claims abstract description 8
- 239000000284 extract Substances 0.000 claims abstract description 6
- 230000011218 segmentation Effects 0.000 claims description 20
- 208000006440 Open Bite Diseases 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 4
- 230000000903 blocking effect Effects 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 4
- 238000002360 preparation method Methods 0.000 claims description 4
- 101150064138 MAP1 gene Proteins 0.000 claims description 3
- 101150077939 mapA gene Proteins 0.000 claims description 3
- 238000012800 visualization Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000003909 pattern recognition Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 102100040160 Rabankyrin-5 Human genes 0.000 description 2
- 101710086049 Rabankyrin-5 Proteins 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 241001128148 Pelagostrobilidium liui Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
一种全局与局部特征融合的遮挡鲁棒行人重识别方法,涉及计算机视觉技术。包括以下步骤:1)训练数据的准备;2)模型设计与训练;模型包括ResNet‑50骨架网络、全局分支、局部分支以及语义分支、全局分支利用SPC损失提取全局特征,局部分支提取局部特征,语义分支预测人体语义标签,三个分支可以联合在一起进行端到端的训练。3)利用训练好的模型来提取行人重识别数据训练集和测试集中所有行人图像的全局特征、局部特征以及预测行人图像的语义标签,并进行非遮挡区域指示符的计算。4)对查询集中的每幅行人图像分别与数据库中的所有行人图像计算相似度,按相似度从大到小排序,从而完成行人重识别。显著提高了识别的性能。
Description
技术领域
本发明涉及计算机视觉技术,尤其是涉及将人体语义分割作为辅助任务来解决在真实的行人重识别场景下可能会出现的遮挡问题的基于语义分割的一种全局与局部特征融合遮挡鲁棒行人重识别方法。
背景技术
行人重识别(Person Re-identification)是指在多个非重叠摄像头的场景下,在行人图像数据库中检索出与给定的查询图像身份相同的行人图像。行人重识别可以广泛应用于智能安防以及视频监控等领域。
目前,随着深度学习的发展,行人重识别问题的性能获得了极大地提升。一方面,为了能够学习到更加具有判别力的特征表示,很多方法尝试提取细粒度的局部特征。例如,Yang等人(W.Yang,H.Huang,Z.Zhang,X.Chen,K.Huang,and S.Zhang,“Towards richfeature discovery with class activation maps augmentation for person re-identification,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2019,pp.1389-1398.)采用类激活图(CAM)的技术来提取在空间分布上多样化的一组特征。为了能够学习到更加有效的度量,一些方法采用了正则化的项来限制行人重识别的模型学习到更有判别力的特征嵌入。例如,Yu等人(R.Yu,Z.Dou,S.Bai,Z.Zhang,Y.Xu,andX.Bai,“Hard-aware point-to-set deep metric for person re-identification,”inPorc.Eur.Conf.Comput.Vis.(ECCV),Sep.2018,pp.402-419.)提出了能够感知难样本的点到集合(HAP2S)损失。遮挡问题是现实场景下行人重识别所面临的主要挑战,行人可能会被各种障碍物,比如车辆、雨伞和交通标志以及其他行人遮挡。遮挡会对训练好的模型产生比较严重的干扰,从而使得一般的深度学习模型难以学习鲁棒的特征表示。因此,当面对遮挡问题时,这些针对通用的行人重识别任务而设计的模型的性能都会大幅度下降。
近期,一些学者提出了一些方法来解决部分行人重识别(Partial Person Re-ID)问题。部分行人重识别问题指的是查询图像可能会被不同种类的障碍物遮挡,而行人图像数据库中不含被遮挡的行人图片。例如,Zheng等人(W.-S Zheng,X.Li,T.Xiang,S.Liao,J.Lai,and S.Gong,“Partial person re-identification,”in Proc.IEEEInt.Conf.Comput.Vis.(ICCV),Dec.2015,pp.4678-4686)提出了一种全局与局部匹配的模型来体现局部区域的空间分布信息,同时该方法还采用了局部区域的匹配来解决局部区域的歧义性。但是该类方法都需要手工裁减掉查询图片中包含遮挡的区域,使用剩余的非遮挡区域进行检索以减少遮挡所引起的干扰。在实际应用场景下,查询图片以及数据库中的图片都有可能含有遮挡,所以部分行人重识别的这一假设并不合理。同时,还应考虑到手工裁剪遮挡区域的方式效率不高。
与部分行人重识别问题不同,遮挡行人重识别问题同时考虑查询图片与行人数据库中的行人图片都允许含有遮挡。因此,遮挡行人重识别问题是一个更具有挑战性的问题。对于遮挡行人重识别问题,比较有代表性的工作是Miao等人(J.Miao,Y.Wu,P.Liu,Y.Ding,andY.Yang,“Pose-guided feature alignment for occluded person re-identification,”in Proc.IEEE Int.Conf.Comput.Vis.(ICCV),Oct.2019,pp.542-551)提出的PGFA(Pose-Guided Feature Alignment)方法。PGFA模型利用训练好的姿态估计模型来产生人体骨架关键点,再利用这些产生的关键点来对齐全局特征以及选择来自非遮挡区域的局部特征。然而,PGFA分别完成行人重识别任务以及姿态估计任务,而没有考虑到这两个任务之间的关联性。同时,PGFA的性能很大程度上依赖于关键点检测的准确性。当关键点的检测因遮挡而不准确时,全局特征的提取受收到影响,从而导致性能的下降。
为了解决遮挡行人重识别问题,本发明提出了一种基于语义分割的全局与局部特征融合的遮挡鲁棒行人重识别方法。本发明所提出的模型包括ResNet50(K.He,X.Zhang,S.Ren,and J.Sun,“Deep residual learning for image recognition,”in Proc.IEEEConf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2016,pp.770-778)骨架网络、局部分支、全局分支以及语义分支。本发明的方法在特征图上均匀的划分竖直的矩形区域,并且通过平均池化来获取局部特征。同时,通过在全局分支施加SPC损失来使全局特征包含更多的局部信息,从而提取到对遮挡鲁棒的全局特征。语义分支可以进行行人图片的语义分割,从而得到不含遮挡的区域。三个分支被联合起来进行端到端的训练。最后,将全局特征以及来自非遮挡区域的局部特征融合进行最终的匹配。
发明内容
本发明的目的在于针对现有技术存在的上述问题,提供将人体语义分割作为辅助任务来解决在真实的行人重识别场景下可能会出现的遮挡问题,基于语义分割的一种全局与局部特征融合遮挡鲁棒行人重识别方法。
本发明包括以下步骤:
1)训练数据的准备;
2)模型设计与训练;模型包括ResNet-50骨架网络、全局分支、局部分支以及语义分支、全局分支利用SPC损失提取全局特征,局部分支提取局部特征,语义分支预测人体语义标签,三个分支可以联合在一起进行端到端的训练;
3)利用训练好的模型来提取行人重识别数据训练集和测试集中所有行人图像的全局特征、局部特征以及预测行人图像的语义标签,并进行非遮挡区域指示符计算;
4)对查询集中的每幅行人图像分别与数据库中的所有行人图像计算相似度,按相似度从大到小排序,从而完成行人重识别。
在步骤1)中,所述训练数据的准备,具体步骤如下:
(1)行人图像训练集可表示为:相应的身份标签可表示为:其中,m为训练集中样本的数量;xi和yi表示训练集中第i个行人图像和行人图像身份标签。一般的行人重识别训练集中不包含行人图像的语义标签。因此,使用在DensePose-COCO(R.Alp Guler,N.Neverova,and I.Kokkinos,“Densepose Dense humanpose estimation in the wild,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2018,pp.7279-7306)数据集上训练好的DANet(J.Fu,J.Liu,H.Tian,Y.Li,Y.Bao,Z.Fang,and H.Lu,“Dual attention network for scene segmentation forfine-grained image retrieval,”IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun,2019,pp.3146-3154.)模型来对行人图像的语义标签进行预测,作为模型训练时的语义标签,可表示为:其中,si表示训练集中第i个行人图像的语义标签。
(2)训练集中所有行人图像大小都归一化为384×128。对于数据增强,本发明只使用在竖直方向上的随机翻转,且翻转的概率为0.5。
在步骤2)中,所述模型的设计与训练包括具体步骤如下:
(1)对于模型的骨架网络,采用ResNet50网络;同时,为了获得更大的空间分辨率,ResNet50网络的最后一个下采样操作被移除,行人图像通过骨架网络,生成一张三维特征图生成的特征图T接着被分别送入局部分支、全局分支以及语义分支。
(2)对于局部分支,特征图T在竖直方向上被均等划分为P个区域。接着,通过对每个区域实行全局平均池化(GAP)操作,可以获得每个局部区域的局部特征。局部特征可以表示为:其中,表示从第p个区域提取到的局部特征。最后,每个局部特征都被送入一个全连接层和Softmax层来预测行人图像属于某个身份标签的概率yp。这里,并且J表示身份标签的数目。因此,局部分支的分类损失可以表示为交叉熵损失的和,即:
其中,qj是标签指示符,如果j是真实标签,qj=1;否则,qj=0;同时,P表示局部区域的数目;
(3)对于全局分支,首先使用1×1卷积将特征图T的维度从c维扩展到Nc′维,得到新的三维特征图这里,N是通道分组数,c′是每个分组内的通道数目。将得到的特征图Tg的通道划分为N个不同的分组。其中,第n个分组指从第[(n-1)c′+1]个通道到第nc′个通道的通道集合。单一通道的特征图只包含很弱的语义信息,易受干扰。将第n个分组的特征图相加可以得到一个二维的聚合图如下所示:
接着,使用Sigmoid方程来归一化An中的每一个元素,具体表示为:
其中,Mn(x,y)表示归一化之后的聚合图;sig(z)=1/(1+ez)是Sigmoid方程。
为了使全局特征包含更多局部区域的信息且同时拥有全局的感受野,在全局分支中使用了SPC损失。首先,将每个归一化的聚合图在竖直方向上都分N个区域,让每个归一化的聚合图激活其中特定的一个区域。具体地,SPC损失可以表示为:
其中,Rn,l表示第n个归一化聚合图的第l个矩形区域。因此,Rn,n表示第n个归一化聚合图的第n个矩形区域。
与局部分支一样,同样对Tg实行全局平均池化操作得到全局特征fglobal,然后通过全连接层和Softmax函数可以得到身份标签的预测分布g=[g1,...,gJ]。则全局分支的分类损失可以表示为:
这里,qj同样是标签指示符。
(4)对于语义分支,本发明使用ResNet50骨架网络不同层的输出作为输入以同时获得语义信息以及空间位置信息。具体来说,将ResNet50网络的第三和第四个残差块输出的特征图(大小为h×w)连接在一起输入一个卷积和大小为3×3且步长为2的反卷基层,并接有BN(Batch Normalization)层和ReLU激活函数。接着,输出的特征图(大小为2h×2w)和ResNet50第二个残差块连接在一起输入一个卷积和大小为3×3且步长为2的反卷基层,并接有BN(Batch Normalization)层和ReLU激活函数。最终,一个1×1卷积层将最后生成的特征图(大小为4h×4w)上的每个像素分类为K个语义标签中的一种。语义标签的概率分布可以表示为:S=[s1,...,sK]。语义分支的损失可以表示为:
由于训练数据集的语义标签存在较多的错误标记。本发明采用一种叫作标签平滑(LS)的模型正则化策略来减少模型的过拟合。在标签平滑策略中,qk被定义为:
其中,t是正确的标签。ε是一个常数,在本发明中设置为0.1以使模型对标签的正确性不会过度的确信。
(5)本发明的模型的最终损失可以表示为:
L=Llocal+λ1Lglobal+λ2LSPC+λ3Lseg (9)
其中,Llocal和Lglobal是局部和全局分支的分类损失;LSPC指SPC损失;Lseg是语义分割损失;λ1、λ2和λ3分别是相应损失的权重。本发明的模型可以进行端到端的训练。
在步骤3)中,所述利用训练好的模型来提取行人重识别数据训练集和测试集中所有行人图像的全局特征、局部特征以及预测行人图像的语义标签,并进行非遮挡区域指示符计算的具体步骤如下:
(1)通过将语义标签中属于人体部位的类归为前景类,保留背景类,可以得到二值前景背景图(此处,h′=4h,w′=4w)。E(x,y)=1表示对应的像素位置属于前景,E(x,y)=0表示对应的像素属于背景。首先,将E在竖直方向上划分为P个区域,每个区域的可视化分数可以被定义为:
其中,d′=h′/P表示每个区域的高度,Ωp是E上的第p个区域。因此,非遮挡区域指示符Ip可以定义为:
Ip=1{vp≥τ} (11)
这里,Ip∈{0,1};Ip=1{·}取值为1当参数是真值,取值为0当参数为非真值;τ是阈值。因此,当Ip取1时,可以认为该区域无遮挡或遮挡程度不严重;当Ip取0时,可以认为对应区域遮挡严重。
在步骤4)中,所述对查询集中的每幅行人图像分别与数据库中的所有行人图像计算相似度,按相似度从大到小排序,从而完成行人重识别的具体步骤如下:
(1)图像Q和G的全局特征距离可以由下式计算:
这里,||·||表示二范数。
同理,Q和G的局部特征距离可以由下式计算:
可以看出,距离计算只使用了来自共同非遮挡区域的局部特征。
则图像Q和G的最终距离可表示为:
(2)对查询集中的每幅行人图像分别与数据库中的所有行人图像进行相似度计算,并按相似度从大到小排序,完成相似度匹配。
本发明公开一种基于语义分割的遮挡鲁棒行人重识别方法,包括步骤:1)训练数据准备:准备行人重识别数据训练集和测试集。由于现有的行人重识别训练数据集不提供语义标签,因此,通过使用语义分割模型来预测行人图像语义标签;2)模型设计与训练:模型包含三个分支,即全局分支,局部分支以及语义分支。其中,全局分支可以通过空间块对比(Spatial Patch Contrastive)损失来提取对遮挡鲁棒的全局特征。局部分支通过均匀划分特征图来提取局部特征。语义分支通过预测行人图像语义标签。三个分支可以联合在一起进行端到端的训练;3)利用训练好的模型来提取行人重识别数据训练集和测试集中所有行人图像的全局特征、局部特征以及预测行人图像的语义标签,并进行非遮挡区域指示符计算。4)对查询集中的每幅行人图像分别与数据库中的所有行人图像计算相似度,按相似度从大到小排序,从而完成行人重识别。在遮挡的行人重识别数据集上,本发明的方法显著提高了识别的性能。在一般的行人重识别数据集上,本发明的方法也取得了优异的性能。
附图说明
图1为本发明的模型结构图。在图1中,有四个主要的模块,分别是ResNet50骨架网络、局部分支、全局分支以及语义分支。
图2为本发明的语义分支所产生的语义分割图的一些例子。从图中可以看出,尽管分割的结果比较粗糙,仍然可以利用分割结果来进行遮挡与非遮挡区域的判断。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下实施例将结合附图对本发明进行作进一步的说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,以下对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
本发明实施例包括以下步骤:
1)训练数据准备。
2)模型设计与训练。模型包括ResNet-50骨架网络、全局分支、局部分支以及语义分支、全局分支利用SPC损失提取全局特征,局部分支提取局部特征,语义分支预测人体语义标签。三个分支可以联合在一起进行端到端的训练。
3)利用训练好的模型来提取行人重识别数据训练集和测试集中所有行人图像的全局特征、局部特征以及预测行人图像的语义标签,并进行非遮挡区域指示符的计算。
4)对查询集中的每幅行人图像分别与数据库中的所有行人图像计算相似度,按相似度从大到小排序,从而完成行人重识别。
在步骤1)中,训练数据准备包括具体步骤如下:
(1)行人图像训练集可以表示为:相应的身份标签可以表示为:其中,m为训练集中样本的数量;xi和yi表示训练集中第i个行人图像和行人图像身份标签。一般的行人重识别训练集中不包含行人图像的语义标签。因此,本发明使用在DensePose-COCO(R.Alp Guler,N.Neverova,and I.Kokkinos,“Densepose Dense humanpose estimation in the wild,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2018,pp.7279-7306)数据集上训练好的DANet(J.Fu,J.Liu,H.Tian,Y.Li,Y.Bao,Z.Fang,and H.Lu,“Dual attention network for scene segmentation forfine-grained image retrieval,”IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun,2019,pp.3146-3154.)模型来对行人图像的语义标签进行预测,作为模型训练时的语义标签,可以表示为:其中,si表示训练集中第i个行人图像的语义标签。
(2)训练集中所有行人图像大小都归一化为384×128。对于数据增强,本发明只使用在竖直方向上的随机翻转,且翻转的概率为0.5。图1为本发明的模型结构图。在图1中,有四个主要的模块,分别是ResNet50骨架网络、局部分支、全局分支以及语义分支。
在步骤2)中,模型的设计与训练包括具体步骤如下:
(1)对于模型的骨架网络,本发明采用ResNet50网络。同时,为了获得更大的空间分辨率,ResNet50网络的最后一个下采样操作被移除。行人图像通过骨架网络,生成一张三维特征图生成的特征图T接着被分别送入局部分支、全局分支以及语义分支。
(2)对于局部分支,特征图T在竖直方向上被均等划分为P个区域。接着,通过对每个区域实行全局平均池化(GAP)操作,可以获得每个局部区域的局部特征。局部特征可以表示为:其中,表示从第p个区域提取到的局部特征。最后,每个局部特征都被送入一个全连接层和Softmax层来预测行人图像属于某个身份标签的概率yp。这里,并且J表示身份标签的数目。因此,局部分支的分类损失可以表示为交叉熵损失的和,即:
其中,qj是标签指示符,如果j是真实标签,qj=1;否则,qj=0;同时,P表示局部区域的数目。
(3)对于全局分支,首先使用1×1卷积将特征图T的维度从c维扩展到Nc′维,得到新的三维特征图这里,N是通道分组数,c′是每个分组内的通道数目。将得到的特征图Tg的通道划分为N个不同的分组。其中,第n个分组指从第[(n-1)c′+1]个通道到第nc′个通道的通道集合。单一通道的特征图只包含很弱的语义信息,易受干扰。将第n个分组的特征图相加可以得到一个二维的聚合图如下所示:
接着,使用Sigmoid方程来归一化An中的每一个元素,具体表示为:
其中,Mn(x,y)表示归一化之后的聚合图;sig(z)=1/(1+ez)是Sigmoid方程。
为了使全局特征包含更多局部区域的信息且同时拥有全局的感受野,本发明在全局分支中使用了SPC损失。首先,将每个归一化的聚合图在竖直方向上都分N个区域,让每个归一化的聚合图激活其中特定的一个区域。具体地,SPC损失可以表示为:
其中,Rn,l表示第n个归一化聚合图的第l个矩形区域。因此,Rn,n表示第n个归一化聚合图的第nl个矩形区域。
与局部分支一样,同样对Tg实行全局平均池化操作得到全局特征fglobal,然后通过全连接层和Softmax函数可以得到身份标签的预测分布g=[g1,...,gJ]。则全局分支的分类损失可以表示为:
这里,qj同样是标签指示符。
(4)对于语义分支,本发明使用ResNet50骨架网络不同层的输出作为输入以同时获得语义信息以及空间位置信息。具体来说,将ResNet50网络的第三和第四个残差块输出的特征图(大小为h×w)连接在一起输入一个卷积和大小为3×3且步长为2的反卷基层,并接有BN(Batch Normalization)层和ReLU激活函数。接着,输出的特征图(大小为2h×2w)和ResNet50第二个残差块连接在一起输入一个卷积和大小为3×3且步长为2的反卷基层,并接有BN(Batch Normalization)层和ReLU激活函数。最终,一个1×1卷积层将最后生成的特征图(大小为4h×4w)上的每个像素分类为K个语义标签中的一种。语义标签的概率分布可以表示为:S=[s1,...,sK]。语义分支的损失可以表示为:
由于训练数据集的语义标签存在较多的错误标记。本发明采用一种叫作标签平滑(LS)的模型正则化策略来减少模型的过拟合。在标签平滑策略中,qk被定义为:
其中,t是正确的标签。ε是一个常数,在本发明中设置为0.1以使模型对标签的正确性不会过度的确信。
(5)本发明的模型的最终损失可以表示为:
L=Llocal+λ1Lglobal+λ2LSPC+λ3Lseg (9)
其中,Llocal和Lglobal是局部和全局分支的分类损失;LSPC指SPC损失;Lseg是语义分割损失;λ1、λ2和λ3分别是相应损失的权重。本发明的模型可以进行端到端的训练。
图2为本发明的语义分支所产生的语义分割图的例子。从图2中可以看出,尽管分割的结果比较粗糙,仍然可以利用分割结果来进行遮挡与非遮挡区域的判断。
在步骤3)中,查询集和数据库中行人图像特征提取以及非遮挡区域指示符计算的具体步骤如下:
(1)通过将语义标签中属于人体部位的类归为前景类,保留背景类,可以得到二值前景背景图(此处,h′=4h,w′=4w)。E(x,y)=1表示对应的像素位置属于前景,E(x,y)=0表示对应的像素属于背景。首先,将E在竖直方向上划分为P个区域,每个区域的可视化分数可以被定义为:
其中,d′=h′/P表示每个区域的高度,Ωp是E上的第p个区域。因此,非遮挡区域指示符Ip可以定义为:
Ip=1{vp≥τ} (11)
这里,Ip∈{0,1};Ip=1{·}取值为1当参数是真值,取值为0当参数为非真值;τ是阈值。因此,当Ip取1时,可以认为该区域无遮挡或遮挡程度不严重;当Ip取0时,可以认为对应区域遮挡严重。
在步骤4)中,查询集和数据库中行人图像的相似度计算与匹配具体步骤如下:
(1)图像Q和G的全局特征距离可以由下式计算:
这里,||·||表示二范数。
同理,Q和G的局部特征距离可以由下式计算:
可以看出,距离计算只使用了来自共同非遮挡区域的局部特征。
则图像Q和G的最终距离可表示为:
(2)对查询集中的每幅行人图像分别与数据库中的所有行人图像进行相似度计算,并按相似度从大到小排序,完成相似度匹配。
表1
方法 | Rank-1 | Rank-5 | Rank-10 | mAP |
LOMO+XQDA | 8.1 | 17.0 | 22.0 | 5.0 |
DIM | 21.5 | 36.1 | 42.8 | 14.4 |
PartAligned | 28.8 | 44.6 | 51.0 | 20.2 |
RandomErasing | 40.5 | 59.6 | 66.8 | 30.0 |
HACNN | 34.4 | 51.9 | 59.4 | 26.0 |
AOS | 44.5 | - | - | 32.2 |
PCB | 42.6 | 57.1 | 62.9 | 33.7 |
PartBilinear | 36.9 | - | - | - |
FD-GAN | 40.8 | - | - | - |
DSR | 40.8 | 58.2 | 65.2 | 30.4 |
SFR | 42.3 | 60.3 | 67.3 | 32.0 |
PGFA | 51.4 | 68.6 | 74.9 | 37.3 |
本发明模型 | 57.6 | 73.7 | 79.0 | 46.3 |
表2
表3
表1给出本发明的方法与其他方法在遮挡数据集Occluded-DukeMTMC上的对比。表2给出本发明的方法与其他方法在部分行人重识别数据集Partial-REID和Partial iLIDS上的对比。表3给出本发明的方法与其他方法在通用的行人重识别数据集Market-1501和DukeMTMC-reID上的对比。mAP表示平均正确率值。Rank-1、Rank-3、Rank-5和Rank-10分别表示累积匹配特性曲线(CMC)在第一匹配率、第三匹配率、第五匹配率和第十匹配率的值。
LOMO+XQDA对应于Liao等人提出的方法(S.Liao,Y.Hu,X.Zhu,and S.Z.Li,“Person re-identification by local maximal occurrence representation andmetric learning,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2015,pp.2197–2206.)
DIM对应Yu等人提出的方法(Q.Yu,X.Chang,Y.-Z.Song,T.Xiang,andT.M.Hospedales,“Thedevil is in the middle:Exploiting mid-levelrepresentations for cross-do main instance matching,”arXiv preprint arXiv:1711.08106,Nov.2017.)
Part Aligned对应于Zhao等人提出的方法(L.Zhao,X.Li,Y.Zhuang,and J.Wang,“Deeply-learned part-aligned representations for person re-identification,”inProc.IEEE Int.Conf.Comput.Vis.(ICCV),Oct.2017,pp.3219–3228.)
Random Erasing对应于Zhong等人提出的方法(Z.Zhong,L.Zheng,G.Kang,S.Li,and Y.Yang,“Random erasing data augmentation,”arXiv preprint arXiv:1708.04896,Aug.2017.)
AOS对应于Huang等人提出的方法(H.Huang,D.Li,Z.Zhang,X.Chen,and K.Huang,“Adversarially occluded samples for person re-identification,”in Proc.IEEEConf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2018,pp.5098–5107.)
PCB对应于Sun等人提出的方法(Y.Sun,L.Zheng,Y.Yang,Q.Tian,and S.Wang,“Beyond part models:Person retrieval with refined part pooling(and a strongconvolutional baseline),”in Proc.Eur.Conf.Comput.Vis.Comput.Vis.(ECCV),Sep.2018,pp.480–496.)
Part Bilinear对应于Suh等人提出的方法(Y.Suh,J.Wang,S.Tang,T.Mei,andK.Mu Lee,“Part-aligned bilinear representations for person re-identification,”in Proc.Eur.Conf.Comput.Vis.Comput.Vis.(ECCV),Sep.2018,pp.402–419.)
FD-GAN对应于Ge等人提出的方法(Y.Ge,Z.Li,H.Zhao,G.Yin,S.Yi,X.Wang,andH.Li,“FD-GAN:Pose-guided feature distilling GAN for robust person re-identification,”in Adv.Neural Inf.Process.Syst.(NIPS),Dec.2018,pp.1222–1233.)
DSR对应于He等人提出的方法(L.He,J.Liang,H.Li,and Z.Sun,“Deep spatialfeature reconstruction for partial person re-identification:Alignment-freeapproach,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2018,pp.7073–7082.)
SFR对应于He等人提出的方法(L.He,Z.Sun,Y.Zhu,and Y.Wang,“Recognizingpartial biometric patterns,”arXiv preprint arXiv:1810.07399,Oct.2018.)
PGFA对应于Miao等人提出的方法(J.Miao,Y.Wu,P.Liu,Y.Ding,and Y.Yang,“Pose-guided feature alignment for occluded person re-identification,”inProc.IEEE Int.Conf.Comput.Vis.(ICCV),Oct.2019,pp.542–551.)
MTRC对应于Liao等人提出的方法(S.Liao,A.K.Jain,and S.Z.Li,“Partial facerecognition:Alignment-free approach,”IEEE Trans.Pattern Anal.March.Intell.,vol.35,no.5,pp.1193–1205,2013.)
AWM+SWM对应于Zheng等人提出的方法(W.-S.Zheng,X.Li,T.Xiang,S.Liao,J.Lai,and S.Gong,“Partial person re-identification,”in Proc.IEEEInt.Conf.Comput.Vis.(ICCV),Dec.2015,pp.4678–4686.)
VPM对应于Sun等人提出的方法(Y.Sun,Q.Xu,Y.Li,C.Zhang,Y.Li,S.Wang,andJ.Sun,“Perceive where to focus:Learning visibility-aware part-level featuresfor partial person re-identification,”in Proc.IEEE Conf.Comput.Vis.PatternRecognit.(CVPR),Jun.2019,pp.393–402.)
BoW+Kissme对应于Zheng等人提出的方法(L.Zheng,L.Shen,L.Tian,S.Wang,J.Wang,and Q.Tian,“Scal-able person re-identification:A benchmark,”inProc.IEEE Int.Conf.Comput.Vis.(ICCV),Oct.2015,pp.1116–1124.)
SVDNet对应于Sun等人提出的方法(Y.Sun,L.Zheng,W.Deng,and S.Wang,“SVDNetfor pedestrian retrieval,”in Proc.IEEE Int.Conf.Comput.Vis.(ICCV),Oct.2017,pp.3800–3808.)
PAN对应于Zheng等人提出的方法(Z.Zheng,L.Zheng,and Y.Yang,“Unlabeledsamples generated by GAN improve the person re-identification baseline invitro,”in Proc.IEEE Int.Conf.Comput.Vis.(ICCV),Oct.2017,pp.3754–3762.)
PAR对应于Zhao等人提出的方法(L.Zhao,X.Li,Y.Zhuang,and J.Wang,“Deeply-learned part-aligned representations for person re-identification,”inProc.IEEE Int.Conf.Comput.Vis.(ICCV),Oct.2017,pp.3219–3228.)
Pedestrian对应于Zheng等人提出的方法(Z.Zheng,L.Zheng,and Y.Yang,“Pedestrian alignment network for large-scale person re-identification,”IEEETrans.Circuits Syst.Video Technol.,vol.29,no.10,pp.3037–3045,2019.)
Triplet loss对应于Hermans等人提出的方法(A.Hermans,L.Beyer,andB.Leibe,“In defense of the triplet loss for person re-identification,”arXivpreprint arXiv:1703.07737,Mar.2017.)
Quadruplet loss对应于Chen等人提出的方法(W.Chen,X.Chen,J.Zhang,andK.Huang,“Beyond triplet loss:A deep quadruplet network for person re-identification,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2017,pp.403–412.)
APR对应于Lin等人提出的方法(Y.Lin,L.Zheng,Z.Zheng,Y.Wu,Z.Hu,C.Yan,andY.Yang,“Improving person re-identification by attribute and identitylearning,”Pattern Recognit.,vol.95,pp.151–161,2019.)
DPFL对应于Chen等人提出的方法(Y.Chen,X.Zhu,and S.Gong,“Person re-identification by deep learning multi-scale representations,”in Proc.IEEEInt.Conf.Comput.Vis.(ICCV),Oct.2017,pp.2590–2600.)
MLFN对应于Chang等人提出的方法(X.Chang,T.M.Hospedales,and T.Xiang,“Multi-level factorisation net for person re-identification,”in Proc.IEEEConf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2018,pp.2109–2118.)
Claims (4)
1.一种全局与局部特征融合的遮挡鲁棒行人重识别方法,其特征在于包括以下步骤:
1)训练数据的准备;
2)模型设计与训练;模型包括ResNet-50骨架网络、全局分支、局部分支以及语义分支;全局分支利用SPC损失提取全局特征,局部分支提取局部特征,语义分支预测人体语义标签;三个分支联合在一起进行端到端的训练;
所述模型的设计与训练包括具体步骤如下:
(2)对于局部分支,特征图T在竖直方向上被均等划分为P个区域,通过对每个区域实行全局平均池化操作,获得每个局部区域的局部特征;局部特征表示为:其中,表示从第p个区域提取到的局部特征;最后,每个局部特征都被送入一个全连接层和Softmax层来预测行人图像属于某个身份标签的概率yp,并且J表示身份标签的数目;局部分支的分类损失表示为交叉熵损失的和,即:
其中,qj是标签指示符,如果j是真实标签,qj=1;否则,qj=0;同时,P表示局部区域的数目;
(3)对于全局分支,首先使用1×1卷积将特征图T的维度从c维扩展到N×c′维,得到新的三维特征图N是通道分组数,c′是每个分组内的通道数目;将得到的三维特征图Tg的通道划分为N个不同的分组;其中,第n个分组指从第[(n-1)c′+1]个通道到第nc′个通道的通道集合,单一通道的特征图只包含很弱的语义信息,易受干扰,将第n个分组的特征图相加得到一个二维的聚合图如下所示:
接着,使用Sigmoid方程来归一化An中的每一个元素,具体表示为:
其中,Mn(x,y)表示归一化之后的聚合图;sig(z)=1/(1+ez)是Sigmoid方程;
在全局分支中使用了SPC损失;首先,将每个归一化的聚合图在竖直方向上都分F个区域,让每个归一化的聚合图激活其中特定的一个区域;SPC损失表示为:
其中,Rn,l表示第n个归一化聚合图的第l个矩形区域,Rn,n表示第n个归一化聚合图的第n个矩形区域;
与局部分支一样,对Tg实行全局平均池化操作得到全局特征fglobal,然后通过全连接层和Softmax函数得到身份标签的预测分布g=[g1,...,gJ],则全局分支的分类损失表示为:
其中,qj同样是标签指示符;
(4)对于语义分支,使用ResNet50骨架网络不同层的输出作为输入以同时获得语义信息以及空间位置信息;具体步骤为:将ResNet50网络的第三和第四个残差块输出的大小为h×w的特征图连接在一起输入一个卷积和大小为3×3且步长为2的反卷基层,并接有BN层和ReLU激活函数;接着,输出的特征图大小为2h×2w和ResNet50第二个残差块连接在一起输入一个卷积和大小为3×3且步长为2的反卷基层,并接有BN层和ReLU激活函数;最终,一个1×1卷积层将最后生成的大小为4h×4w的特征图上的每个像素分类为K个语义标签中的一种,语义标签的概率分布表示为:S=[s1,...,sK],语义分支的损失表示为:
由于训练数据集的语义标签存在较多的错误标记,采用标签平滑模型正则化策略来减少模型的过拟合;在标签平滑策略中,qk被定义为:
其中,t是正确的标签,ε是一个常数,设置为0.1以使模型对标签的正确性不会过度的确信;
(5)最终损失表示为:
L=Llocal+λ1Lglobal+λ2LSPC+λ3Lseg (9)
其中,Llocal和Lglobal是局部和全局分支的分类损失;LSPC指SPC损失;Lseg是语义分割损失;λ1、λ2和λ3分别是相应损失的权重;模型进行端到端的训练;
3)利用训练好的模型来提取行人重识别数据训练集和测试集中所有行人图像的全局特征、局部特征以及预测行人图像的语义标签,并进行非遮挡区域指示符的计算;
4)对查询集中的每幅行人图像分别与数据库中的所有行人图像计算相似度,按相似度从大到小排序,从而完成行人重识别。
3.如权利要求2所述一种全局与局部特征融合的遮挡鲁棒行人重识别方法,其特征在于在步骤3)中,所述利用训练好的模型来提取行人重识别数据训练集和测试集中所有行人图像的全局特征、局部特征以及预测行人图像的语义标签,并进行非遮挡区域指示符计算的具体步骤如下:
(1)通过将语义标签中属于人体部位的类归为前景类,保留背景类,得到二值前景背景图其中,h′=4h,w′=4w;E(x,y)=1表示对应的像素位置属于前景,E(x,y)=0表示对应的像素属于背景;首先,将E在竖直方向上划分为P个区域,每个区域的可视化分数被定义为:
其中,d′=h′/P表示每个区域的高度,Ωp是E上的第p个区域;因此,非遮挡区域指示符Ip定义为:
Ip=1{vp≥τ} (11)
这里,Ip∈{0,1};Ip=1{·}取值为1当参数是真值,取值为0当参数为非真值;τ是阈值;因此,当Ip取1时,则认为该区域无遮挡或遮挡程度不严重;当Ip取0时,则认为对应区域遮挡严重;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011116582.1A CN112200111B (zh) | 2020-10-19 | 2020-10-19 | 一种全局与局部特征融合的遮挡鲁棒行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011116582.1A CN112200111B (zh) | 2020-10-19 | 2020-10-19 | 一种全局与局部特征融合的遮挡鲁棒行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112200111A CN112200111A (zh) | 2021-01-08 |
CN112200111B true CN112200111B (zh) | 2022-05-17 |
Family
ID=74010296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011116582.1A Active CN112200111B (zh) | 2020-10-19 | 2020-10-19 | 一种全局与局部特征融合的遮挡鲁棒行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112200111B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784728B (zh) * | 2021-01-18 | 2022-04-12 | 山东省人工智能研究院 | 基于衣物脱敏网络的多粒度换衣行人重识别方法 |
CN112800967B (zh) * | 2021-01-29 | 2022-05-17 | 重庆邮电大学 | 一种姿态驱动的遮挡行人重识别方法 |
CN112927783B (zh) * | 2021-03-30 | 2023-12-26 | 泰康同济(武汉)医院 | 图像检索方法及装置 |
CN112801235A (zh) * | 2021-04-12 | 2021-05-14 | 四川大学 | 模型训练方法、预测方法、装置、重识别模型及电子设备 |
CN113255492B (zh) * | 2021-05-17 | 2022-08-05 | 南京甄视智能科技有限公司 | 行人重识别的方法及系统 |
CN113221770B (zh) * | 2021-05-18 | 2024-06-04 | 青岛根尖智能科技有限公司 | 基于多特征混合学习的跨域行人重识别方法及系统 |
CN113269070B (zh) * | 2021-05-18 | 2023-04-07 | 重庆邮电大学 | 融合全局和局部特征的行人重识别方法、存储器及处理器 |
CN113591545B (zh) * | 2021-06-11 | 2024-05-24 | 北京师范大学珠海校区 | 一种基于深度学习的多级特征提取网络行人再识别方法 |
CN113627272B (zh) * | 2021-07-19 | 2023-11-28 | 上海交通大学 | 基于归一网络的严重不对齐行人重识别方法及系统 |
CN113408492B (zh) * | 2021-07-23 | 2022-06-14 | 四川大学 | 一种基于全局-局部特征动态对齐的行人重识别方法 |
CN113657462B (zh) * | 2021-07-28 | 2024-07-26 | 讯飞智元信息科技有限公司 | 用于训练车辆识别模型的方法、车辆识别方法和计算设备 |
CN114299542B (zh) * | 2021-12-29 | 2024-07-05 | 北京航空航天大学 | 一种基于多尺度特征融合的视频行人重识别方法 |
CN114333062B (zh) * | 2021-12-31 | 2022-07-15 | 江南大学 | 基于异构双网络和特征一致性的行人重识别模型训练方法 |
CN114241280B (zh) * | 2022-02-23 | 2022-05-27 | 广东电网有限责任公司东莞供电局 | 一种主站调度系统后台画面图像的动态识别方法 |
CN114821298B (zh) * | 2022-03-22 | 2024-08-06 | 大连理工大学 | 一种具有自适应语义信息的多标签遥感图像分类方法 |
CN114663839B (zh) * | 2022-05-12 | 2022-11-04 | 中科智为科技(天津)有限公司 | 一种遮挡行人重识别方法及系统 |
CN115205906B (zh) * | 2022-09-15 | 2022-12-23 | 山东能源数智云科技有限公司 | 基于人体解析的仓储作业人员的检测方法、装置及介质 |
CN117315576B (zh) * | 2023-09-22 | 2024-06-28 | 中交第二公路勘察设计研究院有限公司 | 一种在监控视频中识别指定人员的方法 |
CN116994076B (zh) * | 2023-09-28 | 2024-01-19 | 中国海洋大学 | 一种基于双分支相互学习特征生成的小样本图像识别方法 |
CN117542084B (zh) * | 2023-12-06 | 2024-08-20 | 湖南大学 | 一种语义感知的跨模态行人重识别方法 |
CN118072354A (zh) * | 2024-03-29 | 2024-05-24 | 北京积加科技有限公司 | 行人重识别方法、装置、电子设备和计算机可读介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537136A (zh) * | 2018-03-19 | 2018-09-14 | 复旦大学 | 基于姿态归一化图像生成的行人重识别方法 |
CN108960127A (zh) * | 2018-06-29 | 2018-12-07 | 厦门大学 | 基于自适应深度度量学习的遮挡行人重识别方法 |
CN109902590A (zh) * | 2019-01-30 | 2019-06-18 | 西安理工大学 | 深度多视图特征距离学习的行人重识别方法 |
CN109977893A (zh) * | 2019-04-01 | 2019-07-05 | 厦门大学 | 基于层次显著性通道学习的深度多任务行人再识别方法 |
CN111259850A (zh) * | 2020-01-23 | 2020-06-09 | 同济大学 | 一种融合随机批掩膜和多尺度表征学习的行人重识别方法 |
CN111259836A (zh) * | 2020-01-20 | 2020-06-09 | 浙江大学 | 一种基于动态图卷积表征的视频行人重识别方法 |
-
2020
- 2020-10-19 CN CN202011116582.1A patent/CN112200111B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537136A (zh) * | 2018-03-19 | 2018-09-14 | 复旦大学 | 基于姿态归一化图像生成的行人重识别方法 |
CN108960127A (zh) * | 2018-06-29 | 2018-12-07 | 厦门大学 | 基于自适应深度度量学习的遮挡行人重识别方法 |
CN109902590A (zh) * | 2019-01-30 | 2019-06-18 | 西安理工大学 | 深度多视图特征距离学习的行人重识别方法 |
CN109977893A (zh) * | 2019-04-01 | 2019-07-05 | 厦门大学 | 基于层次显著性通道学习的深度多任务行人再识别方法 |
CN111259836A (zh) * | 2020-01-20 | 2020-06-09 | 浙江大学 | 一种基于动态图卷积表征的视频行人重识别方法 |
CN111259850A (zh) * | 2020-01-23 | 2020-06-09 | 同济大学 | 一种融合随机批掩膜和多尺度表征学习的行人重识别方法 |
Non-Patent Citations (3)
Title |
---|
Occluded Person Re-Identification;Jiaxuan Zhuo et al.;《2018 IEEE International Conference on Multimedia and Expo (ICME)》;20181011;全文 * |
Semantic-Aware Occlusion-Robust Network for Occluded Person Re-Identification;Xiaokang Zhang et al.;《 IEEE Transactions on Circuits and Systems for Video Technology》;20201022;全文 * |
基于多尺度生成对抗网络的遮挡行人重识别方法;杨婉香 等;《软件学报》;20200114;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112200111A (zh) | 2021-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112200111B (zh) | 一种全局与局部特征融合的遮挡鲁棒行人重识别方法 | |
Zhou et al. | Split depth-wise separable graph-convolution network for road extraction in complex environments from high-resolution remote-sensing images | |
Li et al. | A deep learning-based hybrid framework for object detection and recognition in autonomous driving | |
Miao et al. | Identifying visible parts via pose estimation for occluded person re-identification | |
Yang et al. | Deep detection network for real-life traffic sign in vehicular networks | |
CN112101150B (zh) | 一种基于朝向约束的多特征融合行人重识别方法 | |
CN108288088B (zh) | 一种基于端到端全卷积神经网络的场景文本检测方法 | |
Chu et al. | Deep feature based contextual model for object detection | |
Liu et al. | Matching-cnn meets knn: Quasi-parametric human parsing | |
Ci et al. | Video object segmentation by learning location-sensitive embeddings | |
CN111709311A (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
Li et al. | Pedestrian detection based on deep learning model | |
CN110796026A (zh) | 一种基于全局特征拼接的行人重识别方法 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
Geng et al. | Combining CNN and MRF for road detection | |
CN103236068B (zh) | 一种局部图像匹配方法 | |
Zhang et al. | Spatio-channel attention blocks for cross-modal crowd counting | |
CN109325407B (zh) | 基于f-ssd网络滤波的光学遥感视频目标检测方法 | |
CN111950367B (zh) | 一种面向航拍影像的无监督车辆重识别方法 | |
Fan | Research and realization of video target detection system based on deep learning | |
CN115984901A (zh) | 一种基于多模态的图卷积神经网络行人重识别方法 | |
Wang et al. | Multiple pedestrian tracking with graph attention map on urban road scene | |
CN114973305B (zh) | 一种针对拥挤人群的精确人体解析方法 | |
Chen et al. | Occlusion and multi-scale pedestrian detection A review | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |