CN112200111B

CN112200111B - 一种全局与局部特征融合的遮挡鲁棒行人重识别方法

Info

Publication number: CN112200111B
Application number: CN202011116582.1A
Authority: CN
Inventors: 严严; 张小康; 王菡子
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2022-05-17
Anticipated expiration: 2040-10-19
Also published as: CN112200111A

Abstract

一种全局与局部特征融合的遮挡鲁棒行人重识别方法,涉及计算机视觉技术。包括以下步骤：1)训练数据的准备；2)模型设计与训练；模型包括ResNet‑50骨架网络、全局分支、局部分支以及语义分支、全局分支利用SPC损失提取全局特征，局部分支提取局部特征，语义分支预测人体语义标签，三个分支可以联合在一起进行端到端的训练。3)利用训练好的模型来提取行人重识别数据训练集和测试集中所有行人图像的全局特征、局部特征以及预测行人图像的语义标签，并进行非遮挡区域指示符的计算。4)对查询集中的每幅行人图像分别与数据库中的所有行人图像计算相似度，按相似度从大到小排序，从而完成行人重识别。显著提高了识别的性能。

Description

一种全局与局部特征融合的遮挡鲁棒行人重识别方法

技术领域

本发明涉及计算机视觉技术，尤其是涉及将人体语义分割作为辅助任务来解决在真实的行人重识别场景下可能会出现的遮挡问题的基于语义分割的一种全局与局部特征融合遮挡鲁棒行人重识别方法。

背景技术

行人重识别(Person Re-identification)是指在多个非重叠摄像头的场景下，在行人图像数据库中检索出与给定的查询图像身份相同的行人图像。行人重识别可以广泛应用于智能安防以及视频监控等领域。

目前，随着深度学习的发展，行人重识别问题的性能获得了极大地提升。一方面，为了能够学习到更加具有判别力的特征表示，很多方法尝试提取细粒度的局部特征。例如，Yang等人(W.Yang,H.Huang,Z.Zhang,X.Chen,K.Huang,and S.Zhang,“Towards richfeature discovery with class activation maps augmentation for person re-identification,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2019,pp.1389-1398.)采用类激活图(CAM)的技术来提取在空间分布上多样化的一组特征。为了能够学习到更加有效的度量，一些方法采用了正则化的项来限制行人重识别的模型学习到更有判别力的特征嵌入。例如，Yu等人(R.Yu,Z.Dou,S.Bai,Z.Zhang,Y.Xu,andX.Bai,“Hard-aware point-to-set deep metric for person re-identification,”inPorc.Eur.Conf.Comput.Vis.(ECCV),Sep.2018,pp.402-419.)提出了能够感知难样本的点到集合(HAP2S)损失。遮挡问题是现实场景下行人重识别所面临的主要挑战，行人可能会被各种障碍物，比如车辆、雨伞和交通标志以及其他行人遮挡。遮挡会对训练好的模型产生比较严重的干扰，从而使得一般的深度学习模型难以学习鲁棒的特征表示。因此，当面对遮挡问题时，这些针对通用的行人重识别任务而设计的模型的性能都会大幅度下降。

近期，一些学者提出了一些方法来解决部分行人重识别(Partial Person Re-ID)问题。部分行人重识别问题指的是查询图像可能会被不同种类的障碍物遮挡，而行人图像数据库中不含被遮挡的行人图片。例如，Zheng等人(W.-S Zheng,X.Li,T.Xiang,S.Liao,J.Lai,and S.Gong,“Partial person re-identification,”in Proc.IEEEInt.Conf.Comput.Vis.(ICCV),Dec.2015,pp.4678-4686)提出了一种全局与局部匹配的模型来体现局部区域的空间分布信息，同时该方法还采用了局部区域的匹配来解决局部区域的歧义性。但是该类方法都需要手工裁减掉查询图片中包含遮挡的区域，使用剩余的非遮挡区域进行检索以减少遮挡所引起的干扰。在实际应用场景下，查询图片以及数据库中的图片都有可能含有遮挡，所以部分行人重识别的这一假设并不合理。同时，还应考虑到手工裁剪遮挡区域的方式效率不高。

与部分行人重识别问题不同，遮挡行人重识别问题同时考虑查询图片与行人数据库中的行人图片都允许含有遮挡。因此，遮挡行人重识别问题是一个更具有挑战性的问题。对于遮挡行人重识别问题，比较有代表性的工作是Miao等人(J.Miao,Y.Wu,P.Liu,Y.Ding,andY.Yang,“Pose-guided feature alignment for occluded person re-identification,”in Proc.IEEE Int.Conf.Comput.Vis.(ICCV),Oct.2019,pp.542-551)提出的PGFA(Pose-Guided Feature Alignment)方法。PGFA模型利用训练好的姿态估计模型来产生人体骨架关键点，再利用这些产生的关键点来对齐全局特征以及选择来自非遮挡区域的局部特征。然而，PGFA分别完成行人重识别任务以及姿态估计任务，而没有考虑到这两个任务之间的关联性。同时，PGFA的性能很大程度上依赖于关键点检测的准确性。当关键点的检测因遮挡而不准确时，全局特征的提取受收到影响，从而导致性能的下降。

为了解决遮挡行人重识别问题，本发明提出了一种基于语义分割的全局与局部特征融合的遮挡鲁棒行人重识别方法。本发明所提出的模型包括ResNet50(K.He,X.Zhang,S.Ren,and J.Sun,“Deep residual learning for image recognition,”in Proc.IEEEConf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2016,pp.770-778)骨架网络、局部分支、全局分支以及语义分支。本发明的方法在特征图上均匀的划分竖直的矩形区域，并且通过平均池化来获取局部特征。同时，通过在全局分支施加SPC损失来使全局特征包含更多的局部信息，从而提取到对遮挡鲁棒的全局特征。语义分支可以进行行人图片的语义分割，从而得到不含遮挡的区域。三个分支被联合起来进行端到端的训练。最后，将全局特征以及来自非遮挡区域的局部特征融合进行最终的匹配。

发明内容

本发明的目的在于针对现有技术存在的上述问题，提供将人体语义分割作为辅助任务来解决在真实的行人重识别场景下可能会出现的遮挡问题，基于语义分割的一种全局与局部特征融合遮挡鲁棒行人重识别方法。

本发明包括以下步骤：

1)训练数据的准备；

2)模型设计与训练；模型包括ResNet-50骨架网络、全局分支、局部分支以及语义分支、全局分支利用SPC损失提取全局特征，局部分支提取局部特征，语义分支预测人体语义标签，三个分支可以联合在一起进行端到端的训练；

3)利用训练好的模型来提取行人重识别数据训练集和测试集中所有行人图像的全局特征、局部特征以及预测行人图像的语义标签，并进行非遮挡区域指示符计算；

4)对查询集中的每幅行人图像分别与数据库中的所有行人图像计算相似度，按相似度从大到小排序，从而完成行人重识别。

在步骤1)中，所述训练数据的准备，具体步骤如下：

(1)行人图像训练集可表示为：

相应的身份标签可表示为：

其中，m为训练集中样本的数量；x_i和y_i表示训练集中第i个行人图像和行人图像身份标签。一般的行人重识别训练集中不包含行人图像的语义标签。因此，使用在DensePose-COCO(R.Alp Guler,N.Neverova,and I.Kokkinos,“Densepose Dense humanpose estimation in the wild,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2018,pp.7279-7306)数据集上训练好的DANet(J.Fu,J.Liu,H.Tian,Y.Li,Y.Bao,Z.Fang,and H.Lu,“Dual attention network for scene segmentation forfine-grained image retrieval,”IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun,2019,pp.3146-3154.)模型来对行人图像的语义标签进行预测，作为模型训练时的语义标签，可表示为：

其中，s_i表示训练集中第i个行人图像的语义标签。

(2)训练集中所有行人图像大小都归一化为384×128。对于数据增强，本发明只使用在竖直方向上的随机翻转，且翻转的概率为0.5。

在步骤2)中，所述模型的设计与训练包括具体步骤如下：

(1)对于模型的骨架网络，采用ResNet50网络；同时，为了获得更大的空间分辨率，ResNet50网络的最后一个下采样操作被移除，行人图像通过骨架网络，生成一张三维特征图

生成的特征图T接着被分别送入局部分支、全局分支以及语义分支。

(2)对于局部分支，特征图T在竖直方向上被均等划分为P个区域。接着，通过对每个区域实行全局平均池化(GAP)操作，可以获得每个局部区域的局部特征。局部特征可以表示为：

其中，

表示从第p个区域提取到的局部特征。最后，每个局部特征都被送入一个全连接层和Softmax层来预测行人图像属于某个身份标签的概率y^p。这里，

并且J表示身份标签的数目。因此，局部分支的分类损失可以表示为交叉熵损失的和，即：

其中，q_j是标签指示符，如果j是真实标签，q_j＝1；否则，q_j＝0；同时，P表示局部区域的数目；

(3)对于全局分支，首先使用1×1卷积将特征图T的维度从c维扩展到Nc′维，得到新的三维特征图

这里，N是通道分组数，c′是每个分组内的通道数目。将得到的特征图T_g的通道划分为N个不同的分组。其中，第n个分组指从第[(n-1)c′+1]个通道到第nc′个通道的通道集合。单一通道的特征图只包含很弱的语义信息，易受干扰。将第n个分组的特征图相加可以得到一个二维的聚合图

如下所示：

其中，

表示T_g中第i个通道的特征图。

为了让训练的过程更加稳定，将采用归一化使得A_n的值限定在[0,1]的范围内。首先，取得每个聚合图A_n的平均值

具体如下所示：

接着，使用Sigmoid方程来归一化A_n中的每一个元素，具体表示为：

其中，M_n(x，y)表示归一化之后的聚合图；sig(z)＝1/(1+e^z)是Sigmoid方程。

为了使全局特征包含更多局部区域的信息且同时拥有全局的感受野，在全局分支中使用了SPC损失。首先，将每个归一化的聚合图在竖直方向上都分N个区域，让每个归一化的聚合图激活其中特定的一个区域。具体地，SPC损失可以表示为：

其中，R_n，l表示第n个归一化聚合图的第l个矩形区域。因此，R_n，n表示第n个归一化聚合图的第n个矩形区域。

与局部分支一样，同样对T_g实行全局平均池化操作得到全局特征f_global，然后通过全连接层和Softmax函数可以得到身份标签的预测分布g＝[g₁，...，g_J]。则全局分支的分类损失可以表示为：

这里，q_j同样是标签指示符。

(4)对于语义分支，本发明使用ResNet50骨架网络不同层的输出作为输入以同时获得语义信息以及空间位置信息。具体来说，将ResNet50网络的第三和第四个残差块输出的特征图(大小为h×w)连接在一起输入一个卷积和大小为3×3且步长为2的反卷基层，并接有BN(Batch Normalization)层和ReLU激活函数。接着，输出的特征图(大小为2h×2w)和ResNet50第二个残差块连接在一起输入一个卷积和大小为3×3且步长为2的反卷基层，并接有BN(Batch Normalization)层和ReLU激活函数。最终，一个1×1卷积层将最后生成的特征图(大小为4h×4w)上的每个像素分类为K个语义标签中的一种。语义标签的概率分布可以表示为：S＝[s₁，...，s_K]。语义分支的损失可以表示为：

由于训练数据集的语义标签存在较多的错误标记。本发明采用一种叫作标签平滑(LS)的模型正则化策略来减少模型的过拟合。在标签平滑策略中，q_k被定义为：

其中，t是正确的标签。ε是一个常数，在本发明中设置为0.1以使模型对标签的正确性不会过度的确信。

(5)本发明的模型的最终损失可以表示为：

L＝L_local+λ₁L_global+λ₂L_SPC+λ₃L_seg (9)

其中，L_local和L_global是局部和全局分支的分类损失；L_SPC指SPC损失；L_seg是语义分割损失；λ₁、λ₂和λ₃分别是相应损失的权重。本发明的模型可以进行端到端的训练。

在步骤3)中，所述利用训练好的模型来提取行人重识别数据训练集和测试集中所有行人图像的全局特征、局部特征以及预测行人图像的语义标签，并进行非遮挡区域指示符计算的具体步骤如下：

(1)通过将语义标签中属于人体部位的类归为前景类，保留背景类，可以得到二值前景背景图

(此处，h′＝4h，w′＝4w)。E(x，y)＝1表示对应的像素位置属于前景，E(x，y)＝0表示对应的像素属于背景。首先，将E在竖直方向上划分为P个区域，每个区域的可视化分数可以被定义为：

其中，d′＝h′/P表示每个区域的高度，Ω_p是E上的第p个区域。因此，非遮挡区域指示符I_p可以定义为：

I_p＝1{v_p≥τ} (11)

这里，I_p∈{0，1}；I_p＝1{·}取值为1当参数是真值，取值为0当参数为非真值；τ是阈值。因此，当I_p取1时，可以认为该区域无遮挡或遮挡程度不严重；当I_p取0时，可以认为对应区域遮挡严重。

(2)假设Q和G是查询图片和行人数据库中的图片。利用训练好的模型，可以分别提取查询图片以及数据库中图片的全局特征、局部特征和非遮挡区域指示符，分别表示为：

和

在步骤4)中，所述对查询集中的每幅行人图像分别与数据库中的所有行人图像计算相似度，按相似度从大到小排序，从而完成行人重识别的具体步骤如下：

(1)图像Q和G的全局特征距离可以由下式计算：

这里，||·||表示二范数。

同理，Q和G的局部特征距离可以由下式计算：

可以看出，距离计算只使用了来自共同非遮挡区域的局部特征。

则图像Q和G的最终距离可表示为：

(2)对查询集中的每幅行人图像分别与数据库中的所有行人图像进行相似度计算，并按相似度从大到小排序，完成相似度匹配。

本发明公开一种基于语义分割的遮挡鲁棒行人重识别方法，包括步骤：1)训练数据准备：准备行人重识别数据训练集和测试集。由于现有的行人重识别训练数据集不提供语义标签，因此，通过使用语义分割模型来预测行人图像语义标签；2)模型设计与训练：模型包含三个分支，即全局分支，局部分支以及语义分支。其中，全局分支可以通过空间块对比(Spatial Patch Contrastive)损失来提取对遮挡鲁棒的全局特征。局部分支通过均匀划分特征图来提取局部特征。语义分支通过预测行人图像语义标签。三个分支可以联合在一起进行端到端的训练；3)利用训练好的模型来提取行人重识别数据训练集和测试集中所有行人图像的全局特征、局部特征以及预测行人图像的语义标签，并进行非遮挡区域指示符计算。4)对查询集中的每幅行人图像分别与数据库中的所有行人图像计算相似度，按相似度从大到小排序，从而完成行人重识别。在遮挡的行人重识别数据集上，本发明的方法显著提高了识别的性能。在一般的行人重识别数据集上，本发明的方法也取得了优异的性能。

附图说明

图1为本发明的模型结构图。在图1中，有四个主要的模块，分别是ResNet50骨架网络、局部分支、全局分支以及语义分支。

图2为本发明的语义分支所产生的语义分割图的一些例子。从图中可以看出，尽管分割的结果比较粗糙，仍然可以利用分割结果来进行遮挡与非遮挡区域的判断。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下实施例将结合附图对本发明进行作进一步的说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，以下对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

本发明实施例包括以下步骤：

1)训练数据准备。

2)模型设计与训练。模型包括ResNet-50骨架网络、全局分支、局部分支以及语义分支、全局分支利用SPC损失提取全局特征，局部分支提取局部特征，语义分支预测人体语义标签。三个分支可以联合在一起进行端到端的训练。

3)利用训练好的模型来提取行人重识别数据训练集和测试集中所有行人图像的全局特征、局部特征以及预测行人图像的语义标签，并进行非遮挡区域指示符的计算。

在步骤1)中，训练数据准备包括具体步骤如下：

(1)行人图像训练集可以表示为：

相应的身份标签可以表示为：

其中，m为训练集中样本的数量；x_i和y_i表示训练集中第i个行人图像和行人图像身份标签。一般的行人重识别训练集中不包含行人图像的语义标签。因此，本发明使用在DensePose-COCO(R.Alp Guler,N.Neverova,and I.Kokkinos,“Densepose Dense humanpose estimation in the wild,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2018,pp.7279-7306)数据集上训练好的DANet(J.Fu,J.Liu,H.Tian,Y.Li,Y.Bao,Z.Fang,and H.Lu,“Dual attention network for scene segmentation forfine-grained image retrieval,”IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun,2019,pp.3146-3154.)模型来对行人图像的语义标签进行预测，作为模型训练时的语义标签，可以表示为：

其中，s_i表示训练集中第i个行人图像的语义标签。

(2)训练集中所有行人图像大小都归一化为384×128。对于数据增强，本发明只使用在竖直方向上的随机翻转，且翻转的概率为0.5。图1为本发明的模型结构图。在图1中，有四个主要的模块，分别是ResNet50骨架网络、局部分支、全局分支以及语义分支。

在步骤2)中，模型的设计与训练包括具体步骤如下：

(1)对于模型的骨架网络，本发明采用ResNet50网络。同时，为了获得更大的空间分辨率，ResNet50网络的最后一个下采样操作被移除。行人图像通过骨架网络，生成一张三维特征图

其中，

其中，q_j是标签指示符，如果j是真实标签，q_j＝1；否则，q_j＝0；同时，P表示局部区域的数目。

如下所示：

其中，

表示T_g中第i个通道的特征图。

为了让训练的过程更加稳定，本发明将采用归一化使得A_n的值限定在[0,1]的范围内。首先，我们取得每个聚合图A_n的平均值

具体如下所示：

为了使全局特征包含更多局部区域的信息且同时拥有全局的感受野，本发明在全局分支中使用了SPC损失。首先，将每个归一化的聚合图在竖直方向上都分N个区域，让每个归一化的聚合图激活其中特定的一个区域。具体地，SPC损失可以表示为：

其中，R_n，l表示第n个归一化聚合图的第l个矩形区域。因此，R_n，n表示第n个归一化聚合图的第nl个矩形区域。

这里，q_j同样是标签指示符。

(5)本发明的模型的最终损失可以表示为：

L＝L_local+λ₁L_global+λ₂L_SPC+λ₃L_seg (9)

图2为本发明的语义分支所产生的语义分割图的例子。从图2中可以看出，尽管分割的结果比较粗糙，仍然可以利用分割结果来进行遮挡与非遮挡区域的判断。

在步骤3)中，查询集和数据库中行人图像特征提取以及非遮挡区域指示符计算的具体步骤如下：

I_p＝1{v_p≥τ} (11)

和

在步骤4)中，查询集和数据库中行人图像的相似度计算与匹配具体步骤如下：

(1)图像Q和G的全局特征距离可以由下式计算：

这里，||·||表示二范数。

同理，Q和G的局部特征距离可以由下式计算：

则图像Q和G的最终距离可表示为：

表1

方法	Rank-1	Rank-5	Rank-10	mAP
					LOMO+XQDA	8.1	17.0	22.0	5.0
DIM	21.5	36.1	42.8	14.4
					PartAligned	28.8	44.6	51.0	20.2
RandomErasing	40.5	59.6	66.8	30.0
					HACNN	34.4	51.9	59.4	26.0
AOS	44.5	-	-	32.2
					PCB	42.6	57.1	62.9	33.7
PartBilinear	36.9	-	-	-
					FD-GAN	40.8	-	-	-
DSR	40.8	58.2	65.2	30.4
					SFR	42.3	60.3	67.3	32.0
PGFA	51.4	68.6	74.9	37.3
					本发明模型	57.6	73.7	79.0	46.3

表2

表3

表1给出本发明的方法与其他方法在遮挡数据集Occluded-DukeMTMC上的对比。表2给出本发明的方法与其他方法在部分行人重识别数据集Partial-REID和Partial iLIDS上的对比。表3给出本发明的方法与其他方法在通用的行人重识别数据集Market-1501和DukeMTMC-reID上的对比。mAP表示平均正确率值。Rank-1、Rank-3、Rank-5和Rank-10分别表示累积匹配特性曲线(CMC)在第一匹配率、第三匹配率、第五匹配率和第十匹配率的值。

LOMO+XQDA对应于Liao等人提出的方法(S.Liao,Y.Hu,X.Zhu,and S.Z.Li,“Person re-identification by local maximal occurrence representation andmetric learning,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2015,pp.2197–2206.)

DIM对应Yu等人提出的方法(Q.Yu,X.Chang,Y.-Z.Song,T.Xiang,andT.M.Hospedales,“Thedevil is in the middle:Exploiting mid-levelrepresentations for cross-do main instance matching,”arXiv preprint arXiv:1711.08106,Nov.2017.)

Part Aligned对应于Zhao等人提出的方法(L.Zhao,X.Li,Y.Zhuang,and J.Wang,“Deeply-learned part-aligned representations for person re-identification,”inProc.IEEE Int.Conf.Comput.Vis.(ICCV),Oct.2017,pp.3219–3228.)

Random Erasing对应于Zhong等人提出的方法(Z.Zhong,L.Zheng,G.Kang,S.Li,and Y.Yang,“Random erasing data augmentation,”arXiv preprint arXiv:1708.04896,Aug.2017.)

AOS对应于Huang等人提出的方法(H.Huang,D.Li,Z.Zhang,X.Chen,and K.Huang,“Adversarially occluded samples for person re-identification,”in Proc.IEEEConf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2018,pp.5098–5107.)

PCB对应于Sun等人提出的方法(Y.Sun,L.Zheng,Y.Yang,Q.Tian,and S.Wang,“Beyond part models:Person retrieval with refined part pooling(and a strongconvolutional baseline),”in Proc.Eur.Conf.Comput.Vis.Comput.Vis.(ECCV),Sep.2018,pp.480–496.)

Part Bilinear对应于Suh等人提出的方法(Y.Suh,J.Wang,S.Tang,T.Mei,andK.Mu Lee,“Part-aligned bilinear representations for person re-identification,”in Proc.Eur.Conf.Comput.Vis.Comput.Vis.(ECCV),Sep.2018,pp.402–419.)

FD-GAN对应于Ge等人提出的方法(Y.Ge,Z.Li,H.Zhao,G.Yin,S.Yi,X.Wang,andH.Li,“FD-GAN:Pose-guided feature distilling GAN for robust person re-identification,”in Adv.Neural Inf.Process.Syst.(NIPS),Dec.2018,pp.1222–1233.)

DSR对应于He等人提出的方法(L.He,J.Liang,H.Li,and Z.Sun,“Deep spatialfeature reconstruction for partial person re-identification:Alignment-freeapproach,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2018,pp.7073–7082.)

SFR对应于He等人提出的方法(L.He,Z.Sun,Y.Zhu,and Y.Wang,“Recognizingpartial biometric patterns,”arXiv preprint arXiv:1810.07399,Oct.2018.)

PGFA对应于Miao等人提出的方法(J.Miao,Y.Wu,P.Liu,Y.Ding,and Y.Yang,“Pose-guided feature alignment for occluded person re-identification,”inProc.IEEE Int.Conf.Comput.Vis.(ICCV),Oct.2019,pp.542–551.)

MTRC对应于Liao等人提出的方法(S.Liao,A.K.Jain,and S.Z.Li,“Partial facerecognition:Alignment-free approach,”IEEE Trans.Pattern Anal.March.Intell.,vol.35,no.5,pp.1193–1205,2013.)

AWM+SWM对应于Zheng等人提出的方法(W.-S.Zheng,X.Li,T.Xiang,S.Liao,J.Lai,and S.Gong,“Partial person re-identification,”in Proc.IEEEInt.Conf.Comput.Vis.(ICCV),Dec.2015,pp.4678–4686.)

VPM对应于Sun等人提出的方法(Y.Sun,Q.Xu,Y.Li,C.Zhang,Y.Li,S.Wang,andJ.Sun,“Perceive where to focus:Learning visibility-aware part-level featuresfor partial person re-identification,”in Proc.IEEE Conf.Comput.Vis.PatternRecognit.(CVPR),Jun.2019,pp.393–402.)

BoW+Kissme对应于Zheng等人提出的方法(L.Zheng,L.Shen,L.Tian,S.Wang,J.Wang,and Q.Tian,“Scal-able person re-identification:A benchmark,”inProc.IEEE Int.Conf.Comput.Vis.(ICCV),Oct.2015,pp.1116–1124.)

SVDNet对应于Sun等人提出的方法(Y.Sun,L.Zheng,W.Deng,and S.Wang,“SVDNetfor pedestrian retrieval,”in Proc.IEEE Int.Conf.Comput.Vis.(ICCV),Oct.2017,pp.3800–3808.)

PAN对应于Zheng等人提出的方法(Z.Zheng,L.Zheng,and Y.Yang,“Unlabeledsamples generated by GAN improve the person re-identification baseline invitro,”in Proc.IEEE Int.Conf.Comput.Vis.(ICCV),Oct.2017,pp.3754–3762.)

PAR对应于Zhao等人提出的方法(L.Zhao,X.Li,Y.Zhuang,and J.Wang,“Deeply-learned part-aligned representations for person re-identification,”inProc.IEEE Int.Conf.Comput.Vis.(ICCV),Oct.2017,pp.3219–3228.)

Pedestrian对应于Zheng等人提出的方法(Z.Zheng,L.Zheng,and Y.Yang,“Pedestrian alignment network for large-scale person re-identification,”IEEETrans.Circuits Syst.Video Technol.,vol.29,no.10,pp.3037–3045,2019.)

Triplet loss对应于Hermans等人提出的方法(A.Hermans,L.Beyer,andB.Leibe,“In defense of the triplet loss for person re-identification,”arXivpreprint arXiv:1703.07737,Mar.2017.)

Quadruplet loss对应于Chen等人提出的方法(W.Chen,X.Chen,J.Zhang,andK.Huang,“Beyond triplet loss:A deep quadruplet network for person re-identification,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2017,pp.403–412.)

APR对应于Lin等人提出的方法(Y.Lin,L.Zheng,Z.Zheng,Y.Wu,Z.Hu,C.Yan,andY.Yang,“Improving person re-identification by attribute and identitylearning,”Pattern Recognit.,vol.95,pp.151–161,2019.)

DPFL对应于Chen等人提出的方法(Y.Chen,X.Zhu,and S.Gong,“Person re-identification by deep learning multi-scale representations,”in Proc.IEEEInt.Conf.Comput.Vis.(ICCV),Oct.2017,pp.2590–2600.)

MLFN对应于Chang等人提出的方法(X.Chang,T.M.Hospedales,and T.Xiang,“Multi-level factorisation net for person re-identification,”in Proc.IEEEConf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2018,pp.2109–2118.)

Claims

1.一种全局与局部特征融合的遮挡鲁棒行人重识别方法，其特征在于包括以下步骤：

1)训练数据的准备；

2)模型设计与训练；模型包括ResNet-50骨架网络、全局分支、局部分支以及语义分支；全局分支利用SPC损失提取全局特征，局部分支提取局部特征，语义分支预测人体语义标签；三个分支联合在一起进行端到端的训练；

所述模型的设计与训练包括具体步骤如下：

(1)对于模型的骨架网络，采用ResNet50网络，ResNet50网络的最后一个下采样操作被移除；行人图像通过骨架网络，生成一张三维特征图

生成的特征图T分别送入局部分支、全局分支以及语义分支；

(2)对于局部分支，特征图T在竖直方向上被均等划分为P个区域，通过对每个区域实行全局平均池化操作，获得每个局部区域的局部特征；局部特征表示为：

其中，

表示从第p个区域提取到的局部特征；最后，每个局部特征都被送入一个全连接层和Softmax层来预测行人图像属于某个身份标签的概率y^p，

并且J表示身份标签的数目；局部分支的分类损失表示为交叉熵损失的和，即：

(3)对于全局分支，首先使用1×1卷积将特征图T的维度从c维扩展到N×c′维，得到新的三维特征图

N是通道分组数，c′是每个分组内的通道数目；将得到的三维特征图T_g的通道划分为N个不同的分组；其中，第n个分组指从第[(n-1)c′+1]个通道到第nc′个通道的通道集合，单一通道的特征图只包含很弱的语义信息，易受干扰，将第n个分组的特征图相加得到一个二维的聚合图

如下所示：

其中，

表示T_g中第i个通道的特征图；

将采用归一化使得A_n的值限定在[0，1]的范围内，首先，取得每个聚合图A_n的平均值

具体如下所示：

其中，M_n(x，y)表示归一化之后的聚合图；sig(z)＝1/(1+e^z)是Sigmoid方程；

在全局分支中使用了SPC损失；首先，将每个归一化的聚合图在竖直方向上都分F个区域，让每个归一化的聚合图激活其中特定的一个区域；SPC损失表示为：

其中，R_n，l表示第n个归一化聚合图的第l个矩形区域，R_n，n表示第n个归一化聚合图的第n个矩形区域；

与局部分支一样，对T_g实行全局平均池化操作得到全局特征f_global，然后通过全连接层和Softmax函数得到身份标签的预测分布g＝[g₁，...，g_J]，则全局分支的分类损失表示为：

其中，q_j同样是标签指示符；

(4)对于语义分支，使用ResNet50骨架网络不同层的输出作为输入以同时获得语义信息以及空间位置信息；具体步骤为：将ResNet50网络的第三和第四个残差块输出的大小为h×w的特征图连接在一起输入一个卷积和大小为3×3且步长为2的反卷基层，并接有BN层和ReLU激活函数；接着，输出的特征图大小为2h×2w和ResNet50第二个残差块连接在一起输入一个卷积和大小为3×3且步长为2的反卷基层，并接有BN层和ReLU激活函数；最终，一个1×1卷积层将最后生成的大小为4h×4w的特征图上的每个像素分类为K个语义标签中的一种，语义标签的概率分布表示为：S＝[s₁，...，s_K]，语义分支的损失表示为：

由于训练数据集的语义标签存在较多的错误标记，采用标签平滑模型正则化策略来减少模型的过拟合；在标签平滑策略中，q_k被定义为：

其中，t是正确的标签，ε是一个常数，设置为0.1以使模型对标签的正确性不会过度的确信；

(5)最终损失表示为：

L＝L_local+λ₁L_global+λ₂L_SPC+λ₃L_seg (9)

其中，L_local和L_global是局部和全局分支的分类损失；L_SPC指SPC损失；L_seg是语义分割损失；λ₁、λ₂和λ₃分别是相应损失的权重；模型进行端到端的训练；

3)利用训练好的模型来提取行人重识别数据训练集和测试集中所有行人图像的全局特征、局部特征以及预测行人图像的语义标签，并进行非遮挡区域指示符的计算；

2.如权利要求1所述一种全局与局部特征融合的遮挡鲁棒行人重识别方法，其特征在于在步骤1)中，所述训练数据的准备包括具体步骤如下：

(1)行人图像训练集表示为：

相应的身份标签表示为：

其中，m为训练集中样本的数量；x_i和y_i表示训练集中第i个行人图像和行人图像身份标签；行人重识别训练集中不包含行人图像的语义标签，使用在DensePose-COCO数据集上训练好的DANet模型来对行人图像的语义标签进行预测，作为模型训练时的语义标签，表示为：

其中，s_i表示训练集中第i个行人图像的语义标签；

(2)训练集中所有行人图像大小都归一化为384×128。

3.如权利要求2所述一种全局与局部特征融合的遮挡鲁棒行人重识别方法，其特征在于在步骤3)中，所述利用训练好的模型来提取行人重识别数据训练集和测试集中所有行人图像的全局特征、局部特征以及预测行人图像的语义标签，并进行非遮挡区域指示符计算的具体步骤如下：

(1)通过将语义标签中属于人体部位的类归为前景类，保留背景类，得到二值前景背景图

其中，h′＝4h，w′＝4w；E(x，y)＝1表示对应的像素位置属于前景，E(x，y)＝0表示对应的像素属于背景；首先，将E在竖直方向上划分为P个区域，每个区域的可视化分数被定义为：

其中，d′＝h′/P表示每个区域的高度，Ω_p是E上的第p个区域；因此，非遮挡区域指示符I_p定义为：

I_p＝1{v_p≥τ} (11)

这里，I_p∈{0，1}；I_p＝1{·}取值为1当参数是真值，取值为0当参数为非真值；τ是阈值；因此，当I_p取1时，则认为该区域无遮挡或遮挡程度不严重；当I_p取0时，则认为对应区域遮挡严重；

(2)假设Q和G是查询图片和行人数据库中的图片，利用训练好的模型，分别提取查询图片以及数据库中图片的全局特征、局部特征和非遮挡区域指示符，分别表示为：

和

4.如权利要求3所述一种全局与局部特征融合的遮挡鲁棒行人重识别方法，其特征在于在步骤4)中，所述对查询集中的每幅行人图像分别与数据库中的所有行人图像计算相似度，按相似度从大到小排序，从而完成行人重识别的具体步骤如下：

(1)图像Q和G的全局特征距离由下式计算：

这里，||·||表示二范数；

同理，图像Q和G的局部特征距离由下式计算：

则图像Q和G的最终距离表示为：