CN110135366B

CN110135366B - 基于多尺度生成对抗网络的遮挡行人重识别方法

Info

Publication number: CN110135366B
Application number: CN201910418070.1A
Authority: CN
Inventors: 严严; 杨婉香; 王菡子
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2021-04-13
Anticipated expiration: 2039-05-20
Also published as: CN110135366A

Abstract

基于多尺度生成对抗网络的遮挡行人重识别方法，涉及计算机视觉技术。准备行人图像训练集；设计和训练一个多尺度生成对抗网络，该网络包括多尺度生成器和判别器两部分，其中，多尺度生成器能够对随机遮挡区域进行去遮挡操作，生成高质量的重构图；而判别器能够区分输入图像是真实图像还是生成图像；利用训练好的多尺度生成器产生扩充的行人图像训练集；设计和训练一个分类识别网络，该网络用于对输入的行人图像进行身份分类；利用训练好的分类识别网络提取行人图像的特征并进行相似度匹配。

Description

基于多尺度生成对抗网络的遮挡行人重识别方法

技术领域

本发明涉及计算机视觉技术，尤其是涉及基于多尺度生成对抗网络的遮挡行人重识别方法。

背景技术

行人重识别(Person Re-identification)，是指在多个非重叠摄像头拍摄的场景下，给定一幅查询行人图像，从大规模行人图像库中检索出具有相同身份的行人图像，是一类特殊的图像检索任务。行人重识别广泛应用于视频监控、智能安保等领域。遮挡问题是实际场景中影响行人重识别性能的一个重要因素，比如行人可能被其他的行人遮挡，或者被一些障碍物遮挡，比如车辆、交通标志、墙壁等。

针对遮挡场景下的行人重识别问题，一些研究学者提出使用随机遮挡样本作为训练样本，以增强深度神经网络对于遮挡行人图像的识别能力。例如，Zhuo等人(J.Zhuo,Z.Chen,J.Lai,G.Wang.Occluded person re-identification[C].IEEE InternationalConference on Multimedia and Expo,2018,1-6.)利用随机遮挡图像和非遮挡图像，并联合身份分类损失和遮挡/非遮挡的二分类损失训练一个深度神经网络。该网络不仅可以识别行人的身份，同时可以区分输入图像是属于遮挡图像数据分布还是非遮挡图像数据分布。这些方法利用随机遮挡样本增加了训练样本的多样性，提高了模型对于遮挡场景下行人重识别算法的性能。

上述方法学习到的行人特征表示，不可避免地会包含一些由于遮挡引入的噪音特征。因此，如何设计合适的特征选择和过滤策略对于遮挡行人重识别问题是非常重要的。通常的做法是在特征比对的过程中，降低遮挡区域特征的权重。例如，Xu等人(J.Xu,R.Zhao,F.Zhu,H.Wang,W.Ouyang.Attention-aware compositional network for person re-identification[C].Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,2018,2119–2128)提出注意力引导复合网络(Attention-AwareCompositional Network，AACN)，利用身体关键点学习各个身体部件的注意图，从而得到更精确的部件区域。同时，AACN利用部件的注意图计算该部件区域的可视性分数(visibilityscores)，用于衡量部件的遮挡情况。基于该可视性分数，不断调整各个部件特征在特征融合过程中的权重。这些方法需要借助额外的姿态标注信息。当姿态估计不准确时，行人重识别的性能会严重下降。最近，为了有效处理遮挡场景下的行人重识别问题，Yang等人(Wanxiang Yang,Yan Yan,Si Chen.Adaptive deep metric embeddings for person re-identification under occlusions.Neurocomputing,2019,340:125-132.)提出了利用长短期记忆网络(Long Short-Term Memory，LSTM)学习行人图像不同部件区域之间的空间关系，从而自动过滤由于遮挡引入的噪音。

此外，受益于生成对抗网络(I.Goodfellow,J.Pouget-Abadie,M.Mirza,B.Xu,D.Warde-Farley,S.Ozair,A.Courville,Y.Bengio.Generative adversarial nets[C].Proceedings of the Advances in Neural Information Processing Systems,2014,2672–2680.)在不同计算机视觉任务上的成功，已经有很多研究者提出了基于生成对抗网络的行人重识别方法。代表性的工作有(Z.Zhong,L.Zheng,Z.Zheng,S.Li,Y.Yang.Camerastyle adaptation for person reidentification[C].Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2018,5157–5166.；J.Liu,B.Ni,Y.Yan,P.Zhou,S.Cheng,J.Hu.Pose transferrable person reidentification[C].Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,2018,4099–4108.；X.Qian,Y.Fu,T.Xiang,W.Wang,J.Qiu,Y.Wu,Y.Jiang,X.Xue.Pose-normalized image generation for person re-identification[C].Proceedings of the European Conference on Computer Vision,2018,650–667.；W.Deng,L.Zheng,Q.Ye,G.Kang,Y.Yang,J.Jiao.Image-image domain adaptation withpreserved self-similarity and domain-dissimilarity for person re-identification[C].Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,2018,994–1003)。这些方法借助生成对抗网络强大的图像生成能力，可以生成多样的新的图像数据，从而增加有标签数据,有效提高模型在测试集上的泛化能力。例如，Zhong等人(Z.Zhong,L.Zheng,Z.Zheng,S.Li,Y.Yang.Camera styleadaptation for person reidentification[C].Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition,2018,5157–5166)提出摄像机风格自适应方法，可以作为一种数据增强方法来减少不同摄像机风格之间的差异。具体来说，摄像机风格自适应方法使用CycleGAN(J.-Y.Zhu,T.Park,P.Isola,A.A.Efros.Unpaired image-to-image translation using cycle-consistent adversarial networks[C].Proceedings of the IEEE International Conference on Computer Vision,2017,2223–2232)，在保持行人身份不变的情况下,学习不同摄像机视角的图像对之间的迁移关系。从而可以将有标记的行人图像风格迁移到其他的摄像机视角，添加到原始训练集中起到数据增强的作用。Qian等人(X.Qian,Y.Fu,T.Xiang,W.Wang,J.Qiu,Y.Wu,Y.Jiang,X.Xue.Pose-normalized image generation for person re-identification[C].Proceedings of the European Conference on Computer Vision,2018,650–667.)提出姿态规范化生成对抗网络，可以基于不同姿态图生成相应的姿态迁移行人图像，从而学习姿态不变的行人特征表示。

发明内容

本发明的目的在于提供基于多尺度生成对抗网络的遮挡行人重识别方法。

本发明包括以下步骤：

1)准备行人图像训练集；

2)设计和训练一个多尺度生成对抗网络，该网络包括多尺度生成器和判别器两部分，其中，多尺度生成器能够对随机遮挡区域进行去遮挡操作，生成高质量的重构图；而判别器能够区分输入图像是真实图像还是生成图像；

3)利用训练好的多尺度生成器产生扩充的行人图像训练集；

4)设计和训练一个分类识别网络，该网络用于对输入的行人图像进行身份分类；

5)利用训练好的分类识别网络提取行人图像的特征并进行相似度匹配。

在步骤1)中，所述准备行人图像训练集的具体步骤可为：

1.1原始行人图像训练集表示为

相应的身份标签为

其中，m为训练样本数量且为自然数；x_i和y_i(1≤y_i≤C)表示第i个训练样本对应的行人图像和身份标签，C表示训练样本集包含的身份类别数且为自然数；非遮挡图像训练集表示为

相应的身份标签为

其中，n为非遮挡的行人图像训练样本数量且为自然数，这些非遮挡行人图像是从原始行人图像训练集中，人工筛选的不包含遮挡场景的行人图像；

1.2遮挡图像训练集表示为

z_i表示第i个训练样本对应的遮挡行人图像，具体地，在每一张非遮挡行人图像x_i中，随机选择一个与x_i面积比例s为0.3的矩形框，将x_i在该矩形框内的像素值替换为(0,255)内的随机值，从而得到遮挡行人图像z_i；并且，该遮挡行人图像训练集的身份标签与非遮挡行人图像训练集的身份标签保持一致，即为Y。

在步骤2)中，所述设计和训练一个多尺度生成对抗网络的具体步骤可为：

2.1设计一个多尺度生成对抗网络，包括设计一个多尺度生成器和一个判别器；

2.1.1构建多尺度生成器，多尺度生成器包括两个阶段的生成器，第一个阶段是低分辨率生成器E，输入的是小尺度的遮挡图像，该低分辨率生成器的主要目的是用于粗略地重构去遮挡的行人图像，第二个阶段是高分辨率生成器G，输入的是大尺度的遮挡图像(由小尺度遮挡图像插值得到)，该高分辨率生成器的主要目的是重构高分辨率的去遮挡行人图像；在G的网络结构中，融合E输出去遮挡的行人图像之前的特征，从而生成高分辨率图像，该做法类似密集连接(dense connection)，下一层融合上一层的特征输出，从而有效克服生成对抗网络训练过程中的过拟合问题；小尺度采用的图像大小为128×64×3，大尺度采用的图像大于为256×128×3；第一个阶段的生成器E，包括两个卷积层、三个残差层、两个反卷积层和最后卷积层；所述两个卷积层的卷积核大小分别为7×7、3×3，特征图数量分别为64、128；所述三个残差层中的每个残差层包括两个卷积层和残差连接，卷积核大小均为3×3，特征图数量均为128；所述两个反卷积层的卷积核大小均为3×3，特征图数量分别为128、64；所述最后卷积层的卷积核大小为3×3，特征图数量均为3；第一阶段中的所有卷积层随后都包含一个实例规范化层和激活层，除了最后卷积层使用Tanh激活函数，其他卷积层均使用ReLU激活函数；第二个阶段的生成器G，包括三个卷积层、九个残差层、三个反卷积层和最后卷积层；所述三个卷积层的卷积核大小分别为7×7、3×3、3×3，特征图数量分别为64、128、256；所述九个残差层中的每个残差层包括两个卷积层和残差连接，卷积核大小均为3×3，特征图数量均为256；所述三个反卷积层的卷积核大小均为3×3，特征图数量分别为256、128、64；所述最后卷积层的卷积核大小为3×3，特征图数量均为3；类似第一个阶段的生成器E，第二个阶段的生成器G的每个卷积层随后也包含一个实例规范化层和激活层；

2.1.2构建判别器，判别器的输入图像大小为256×128×3，输出是一个大小为30×14×1的特征图，用于表示输入图像是属于真实的训练图像的概率值，所述判别器包括五个卷积层，所述五个卷积层的卷积核大小分别为5×5、3×3、3×3、3×3、3×3，特征图数量分别为64、128、256、512、1；每个卷积层随后包含一个批量规范化层和激活层，除了最后一个卷积层使用Tanh激活函数，其他卷积层均使用LReLU激活函数；

2.2训练多尺度生成对抗网络

为了使得多尺度生成器输出的生成图像逼近真实图像，联合内容损失和对抗损失函数，所述联合内容损失包括像素损失和特征损失；对低分辨率生成器E使用l₁像素损失，用来计算真实图像和生成图像在像素空间上的差异，保证可以粗略重构出去遮挡行人图像，l₁像素损失用来保持底层像素特征的一致性；而对高分辨率生成器G使用VGG-19特征损失，计算真实图像和生成图像在预训练模型VGG-19(K.Simonyan,A.Zisserman.Very DeepConvolutional Networks for Large-Scale Image Recognition[J].InternationalConference on Learning Representations,2015)上的卷积特征(本发明采用的是预训练模型VGG-19在第14层的输出特征)之间的差异，尽可能保持行人图像高层语义特征的一致性；

所述l₁像素损失表示为：

L_p＝||X-E(Z)||₁

其中，Z表示遮挡图像，X表示对应的非遮挡图像；||·||₁表示l₁范数；E(·)表示低分辨率生成器E的重构映射变化函数。

所述VGG特征损失表示为：

L_f＝||f(X)-f(G(Z))||₂

其中，f(·)表示VGG-19模型的卷积特征映射函数；||·||₂表示l₂范数；G(·)表示高分辨率生成器G的重构映射变化函数。

采用WGAN-GP(I.Gulrajani,F.Ahmed,M.Arjovsky,V.Dumoulin,A.C.Courville.Improved training of wasserstein gans[C].Proceedings of theAdvances in Neural Information Processing Systems,2017,5767–5777.)作为对抗损失，可以表示为：

其中，P_c，P_o分别表示非遮挡图像X和遮挡图像Z的数据分布，mG(·)表示多尺度生成器的重构映射变化函数；λ表示权重参数；

(0≤t≤1)表示的是从P_c和P_o采样的图像；

表示D关于图像

的梯度，具体解释可以参考WGAN-GP；

因此，提出的多尺度生成对抗网络的整体损失函数表示为，

L＝L_adv+λ₁*L_p+λ₂*L_f

其中，λ₁和λ₂控制l₁像素损失和特征损失的权重，根据实验经验，均设置为10。

基于上述整体损失函数，交替训练多尺度生成器mG和判别器D，从而生成纹理清晰、视觉效果逼真的行人图像。

在步骤3)中，所述利用训练好的多尺度生成器产生扩充的行人图像训练集的具体步骤可为：

对于原始行人图像训练集O中的每一张行人图像，生成一张随机遮挡图像，并输入到多尺度生成器中，得到去除遮挡的生成图像，将该生成图像添加到原始行人图像训练集O，从而得到扩充的行人图像训练集。

在步骤4)中，所述设计和训练一个分类识别网络的具体步骤可为：

4.1设计一个分类识别网络：采用在大规模数据集ImageNet上预训练的ResNet-50(K.He,X.Zhang,S.Ren,J.Sun.Deep Residual Learning for Image Recognition[C].Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,2016,770–778)模型为基础，将ResNet-50最后三个卷积层的输出特征进行拼接，并添加一个全连接层将特征维度降至2048维，用于作为分类识别网络；同时按照训练数据集中的行人身份类别，修改最后的全连接层(分类层)的神经元个数，保证和训练集中行人身份个数一致；

4.2训练该分类识别网络：使用Softmax损失和反向传播算法训练该分类识别网络，其中Softmax损失表示为：

其中，B表示小批次训练样本数量，

表示样本x_i经过Softmax层计算的样本属于真实类别y_i的预测概率。

在步骤5)中，所述利用训练好的分类识别网络提取行人图像的特征并进行相似度匹配的具体步骤可为：

5.1利用训练好的分类识别网络提取行人图像的特征：将分类识别网络的分类层之前的全连接层输出作为行人图像的深度特征，对于图库中的每张图像，利用分类识别网络，提取深度特征，而对于输入的每张查询图像，首先人工判断输入图像是否发生遮挡，若发生遮挡，则先利用多尺度生成器得到去遮挡图像，再利用分类识别网络提取深度特征；否则，直接利用分类识别网络提取深度特征；

5.2进行相似度匹配：利用查询图像与图库图像特征之间的欧式距离作为相似度计算方法，按照相似度从大到小进行排序，获得匹配结果。

本发明提出一种基于多尺度生成对抗网络的遮挡行人重识别方法。首先，利用成对的遮挡图像和非遮挡图像训练一个多尺度生成器和一个判别器。多尺度生成器能够对随机遮挡区域进行去遮挡操作，生成高质量的重构图；而判别器能够区分输入图像是真实图像还是生成图像。其次，利用训练好的多尺度生成器，生成去除随机遮挡的训练图像，添加到原始训练图像集，用于增加训练样本的多样性。最后，基于此扩充训练图像集，训练分类识别模型，有效地提高模型在测试图像集上的泛化性。

本发明提出的方法与上述基于生成对抗网络的方法存在较大差异，包括以下三点不同：首先，本发明提出的多尺度生成对抗网络在训练阶段是基于非遮挡与随机遮挡图像对用来自动重构部分遮挡区域，并不需要额外的关键点标注信息或者摄像机视角信息。其次，本发明采用多尺度生成器(具有网络结构简单的特点)进行重构，可以充分利用多尺度图像的细节信息，重构出高质量的行人图像；而上述基于生成对抗网络的方法一般采用单尺度生成器对行人图像进行重构，为了生成高质量的行人图像，采用的网络结构相对复杂。最后，本发明提出的多尺度生成器可以在识别场景的测试阶段，用于对真实遮挡行人图像进行去遮挡，从而提高遮挡行人重识别性能。而上述基于生成对抗网络的方法一般只是通过生成对抗网络生成新的训练样本增强分类识别模型的泛化性能，而并不能用于提升遮挡场景的识别性能(上述方法无法适于遮挡场景下的行人重识别问题)。

本发明借助多尺度生成对抗网络，可以生成去遮挡的行人图像，从而有效减少遮挡在行人特征表示学习过程中的干扰。具体来说，该方法在多尺度生成对抗网络训练阶段，首先将非遮挡图像和遮挡图像，输入到多尺度生成对抗网络(包含一个多尺度生成器和一个判别器)中。在该网络中，多尺度生成器的任务是，对输入的遮挡图像尽可能恢复遮挡区域的信息，能够生成高质量的虚假图像，可以欺骗判别器；而判别器的任务是，判别输入图像是真实的原始图像还是虚假的生成图像。多尺度生成器和判别器相互对抗并不断调整各自的参数，最终目的是使判别器无法判断多尺度生成器的输出结果是否真实。其次将随机添加遮挡后的训练图像输入到训练好的多尺度生成器中，生成类似的但不完全一样的去除遮挡的图像(并保持原始身份标签)，添加到原始训练图像集中，从而扩充了行人的图像数目。最后基于此扩充训练图像集，训练一个分类识别模型。在识别场景的测试阶段，对于包含真实遮挡的查询图像，首先定位遮挡区域，然后输入到多尺度生成器中，得到去除遮挡的查询图像，最后进行识别。受益于遮挡行人图像中遮挡干扰的去除和有用信息的恢复，包含真实遮挡的查询图像的识别性能明显提高。

附图说明

图1为本发明实施例的框架图。在图1中，mG表示多尺度生成器。

图2为本发明提出多尺度生成器的框架图。

图3为本发明的方法在DukeMTMC-reID数据集上的去遮挡图像示意图。

具体实施方式

下面结合附图和实施例对本发明的方法作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了实施方案和具体操作过程，但本发明的保护范围不限于下述的实施例。

参见图1和2，本发明实施例包括以下步骤：

1.准备行人图像训练集。

A1.原始行人图像训练集表示为

相应的身份标签为

相应的身份标签为

A2.遮挡图像训练集表示为

z_i表示第i个训练样本对应的遮挡行人图像。具体地，在每一张非遮挡行人图像x_i中，随机选择一个与x_i面积比例s为0.3的矩形框，将x_i在该矩形框内的像素值替换为(0,255)内的随机值，从而得到遮挡行人图像z_i。并且，该遮挡行人图像训练集的身份标签与非遮挡行人图像训练集的身份标签保持一致，即为Y。

2.设计和训练一个多尺度生成对抗网络。

B1.设计一个多尺度生成对抗网络，包括设计一个多尺度生成器和一个判别器。首先，构建多尺度生成器，多尺度生成器包括两个阶段的生成器，第一个阶段是低分辨率生成器E，输入的是小尺度的遮挡图像，该低分辨率生成器的主要目的是用于粗略地重构去遮挡的行人图像，第二个阶段是高分辨率生成器G，输入的是大尺度的遮挡图像(由小尺度遮挡图像插值得到)，该高分辨率生成器的主要目的是重构高分辨率的去遮挡行人图像；在G的网络结构中，融合E输出去遮挡的行人图像之前的特征，从而生成高分辨率图像，该做法类似密集连接(dense connection)，下一层融合上一层的特征输出，从而有效克服生成对抗网络训练过程中的过拟合问题；小尺度采用的图像大小为128×64×3，大尺度采用的图像大于为256×128×3；第一个阶段的生成器E，包括两个卷积层、三个残差层、两个反卷积层和最后卷积层；所述两个卷积层的卷积核大小分别为7×7、3×3，特征图数量分别为64、128；所述三个残差层中的每个残差层包括两个卷积层和残差连接，卷积核大小均为3×3，特征图数量均为128；所述两个反卷积层的卷积核大小均为3×3，特征图数量分别为128、64；所述最后卷积层的卷积核大小为3×3，特征图数量均为3；第一阶段中的所有卷积层随后都包含一个实例规范化层和激活层，除了最后卷积层使用Tanh激活函数，其他卷积层均使用ReLU激活函数；第二个阶段的生成器G，包括三个卷积层、九个残差层、三个反卷积层和最后卷积层；所述三个卷积层的卷积核大小分别为7×7、3×3、3×3，特征图数量分别为64、128、256；所述九个残差层中的每个残差层包括两个卷积层和残差连接，卷积核大小均为3×3，特征图数量均为256；所述三个反卷积层的卷积核大小均为3×3，特征图数量分别为256、128、64；所述最后卷积层的卷积核大小为3×3，特征图数量均为3；类似第一个阶段的生成器E，第二个阶段的生成器G的每个卷积层随后也包含一个实例规范化层和激活层。其次，构建判别器。判别器的输入图像大小为256×128×3，输出是一个大小为30×14×1的特征图，用于表示输入图像是属于真实的训练图像的概率值。判别器包括五个卷积层(卷积核大小分别为5×5、3×3、3×3、3×3、3×3，特征图数量分别为64、128、256、512、1)。每个卷积层随后包含一个批量规范化层和激活层，除了最后一个卷积层使用Tanh激活函数，其他卷积层均使用LReLU激活函数。

B2.训练多尺度生成对抗网络。为了使得多尺度生成器输出的生成图像逼近真实图像，联合内容损失和对抗损失函数，所述联合内容损失包括像素损失和特征损失；对低分辨率生成器E使用l₁像素损失，用来计算真实图像和生成图像在像素空间上的差异，保证可以粗略重构出去遮挡行人图像，l₁像素损失用来保持底层像素特征的一致性；而对高分辨率生成器G使用VGG-19特征损失，计算真实图像和生成图像在预训练模型VGG-19(K.Simonyan,A.Zisserman.Very Deep Convolutional Networks for Large-ScaleImage Recognition[J].International Conference on Learning Representations,2015)上的卷积特征(本发明采用的是预训练模型VGG-19在第14层的输出特征)之间的差异，尽可能保持行人图像高层语义特征的一致性；

所述l₁像素损失表示为：

L_p＝||X-E(Z)||₁

所述VGG特征损失表示为：

L_f＝||f(X)-f(G(Z))||₂

其中，f(·)表示VGG-19模型的卷积特征映射函数；·₂表示l₂范数；G(·)表示高分辨率生成器G的重构映射变化函数。

(0≤t≤1)表示的是从P_c和P_o采样的图像；

表示D关于图像

的梯度，具体解释可以参考WGAN-GP；

因此，提出的多尺度生成对抗网络的整体损失函数表示为，

L＝L_adv+λ₁*L_p+λ₂*L_f

3.利用训练好的多尺度生成器产生扩充的行人图像训练集。对于原始行人图像训练集O中的每一张行人图像，生成一张随机遮挡图像，并输入到多尺度生成器中，得到去除遮挡的生成图像，将该生成图像添加到原始行人图像训练集O，从而得到扩充的行人图像训练集。

4.设计和训练一个分类识别网络。

D1.采用在大规模数据集ImageNet上预训练的ResNet-50(K.He,X.Zhang,S.Ren,J.Sun.Deep Residual Learning for Image Recognition[C].Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2016,770–778.)模型为基础，将ResNet-50最后三个卷积层的输出特征进行拼接，并添加一个全连接层将特征维度降至2048维，用来作为的分类识别网络。同时按照训练数据集中的行人身份类别，修改最后的全连接层(分类层)的神经元个数，保证和训练集中行人身份个数一致。

D2.训练该分类识别网络。使用Softmax损失和反向传播算法训练该分类识别网络。其中Softmax损失表示为：

其中，B表示小批次训练样本数量。

5.利用训练好的分类识别网络提取行人图像的特征并进行相似度匹配。

E1.利用训练好的分类识别网络提取行人图像的特征。将分类识别网络的分类层之前的全连接层输出作为行人图像的深度特征。对于图库中的每张图像，利用分类识别网络，提取深度特征。而对于输入的每张查询图像，首先人工判断输入图像是否发生遮挡，若发生遮挡则先利用多尺度生成器得到去遮挡图像，再利用分类识别网络提取深度特征；否则，直接利用分类识别网络提取深度特征。

E2.进行相似度匹配。利用查询图像与图库图像特征之间的欧式距离作为相似度计算方法，按照相似度从大到小进行排序，获得匹配结果。

在DukeMTMC-reID训练集中对随机遮挡图上的去遮挡结果示例图，如图3所示。每个矩形框内的3张图像分别对应了同一个人的原始图像、随机遮挡图像、去遮挡生成图像。

表1

表2

表3

表1～3分别为在Market1501、DukeMTMC-reID、CUHK03数据集上，本发明提出的方法与其他方法在不同遮挡比例下的行人重识别结果对比。其中：

XQDA对应S.Liao等人提出的方法(S.Liao,Y.Hu,X.Zhu,S.Z.Li.Person re-identification by local maximal occurrence representation and metric learning[C].Proceedings of the IEEConference on Computer Vision and PatternRecognition,2015,2197–2206.)；

NPD对应L.Zhang等人提出的方法(L.Zhang,T.Xiang,S.Gong.Learning adiscriminative null space for person reidentification[C].Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition,2016,1239–1248.)；

IDE对应L.Zhang等人提出的方法(L.Zheng,Y.Yang,A.G.Hauptmann.Person re-identification:Past,present and future[J].arXiv preprint arXiv:1610.02984,2016.)；

TriNet对应A.Hermans等人提出的方法(A.Hermans,L.Beyer,B.Leibe.Indefense of the triplet loss for person reidentification[J].arXiv preprintarXiv:1703.07737,2017.)；

Quad对应W.Chen等人提出的方法(W.Chen,X.Chen,J.Zhang,K.Huang.Beyondtriplet loss:a deep quadruplet network for person re-identification[C].Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,2017,403–412.)；

P2S对应S.Zhou等人提出的方法(S.Zhou,J.Wang,J.Wang,Y.Gong,N.Zheng.Pointto set similarity based deep feature learning for person re-identification[C].Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,2017,3741–3750.)；

RandEra对应Z.Zhong等人提出的方法(Z.Zhong,L.Zheng,G.Kang,S.Li,Y.Yang.Random erasing data augmentation[J].arXiv preprint arXiv:1708.04896,2017.)；

GLAD对应L.Wei等人提出的方法(L.Wei,S.Zhang,H.Yao,W.Gao,Q.Tian.Glad:global-local-alignment descriptor for pedestrian retrieval[C].Proceedings ofthe 25th ACM International Conference on Multimedia,2017,420–428.)；

PAN对应L.Zhao等人提出的方法(L.Zhao,X.Li,Y.Zhuang,J.Wang.Deeply-learned part-aligned representations for person re-identification[C].Proceedings of the IEEE International Conference on Computer Vision,2017,3219–3228.)；

SVDNet对应Y.Sun等人提出的方法(Y.Sun,L.Zheng,W.Deng,S.Wang.Svdnet forpedestrian retrieval[C].Proceedings of the IEEE International Conference onComputer Vision,2017,3800–3808.)；

DPFL对应Y.Chen等人提出的方法(Y.Chen,X.Zhu,S.Gong.Person re-identification by deep learning multi-scale representations[C].Proceedings ofthe IEEE International Conference on Computer Vision,2017,2590–2600.)；

AACN对应J.Xu等人提出的方法(J.Xu,R.Zhao,F.Zhu,H.Wang,W.Ouyang.Attention-aware compositional network for person re-identification[C].Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,2018,2119–2128.)；

RNLSTM_A对应Wanxiang Yang等人提出的方法(Wanxiang Yang,Yan Yan,SiChen.Adaptive deep metric embeddings for person re-identification underocclusions.Neurocomputing,2019.340:125-132)。

Claims

1.基于多尺度生成对抗网络的遮挡行人重识别方法，其特征在于包括以下步骤：

1)准备行人图像训练集；

所述设计和训练一个多尺度生成对抗网络的具体步骤为：

2.1.1构建多尺度生成器，多尺度生成器包括两个阶段的生成器，第一个阶段是低分辨率生成器E，输入的是小尺度的遮挡图像，该低分辨率生成器的目的是用于粗略地重构去遮挡的行人图像，第二个阶段是高分辨率生成器G，输入的是大尺度的遮挡图像，该高分辨率生成器的目的是重构高分辨率的去遮挡行人图像；在G的网络结构中，融合E输出去遮挡的行人图像之前的特征，从而生成高分辨率图像，下一层融合上一层的特征输出，从而有效克服生成对抗网络训练过程中的过拟合问题；小尺度采用的图像大小为128×64×3，大尺度采用的图像大于为256×128×3；第一个阶段的生成器E，包括两个卷积层、三个残差层、两个反卷积层和最后卷积层；所述两个卷积层的卷积核大小分别为7×7、3×3，特征图数量分别为64、128；所述三个残差层中的每个残差层包括两个卷积层和残差连接，卷积核大小均为3×3，特征图数量均为128；所述两个反卷积层的卷积核大小均为3×3，特征图数量分别为128、64；所述最后卷积层的卷积核大小为3×3，特征图数量均为3；第一阶段中的所有卷积层随后都包含一个实例规范化层和激活层，除了最后卷积层使用Tanh激活函数，其他卷积层均使用ReLU激活函数；第二个阶段的生成器G，包括三个卷积层、九个残差层、三个反卷积层和最后卷积层；所述三个卷积层的卷积核大小分别为7×7、3×3、3×3，特征图数量分别为64、128、256；所述九个残差层中的每个残差层包括两个卷积层和残差连接，卷积核大小均为3×3，特征图数量均为256；所述三个反卷积层的卷积核大小均为3×3，特征图数量分别为256、128、64；所述最后卷积层的卷积核大小为3×3，特征图数量均为3；类似第一个阶段的生成器E，第二个阶段的生成器G的每个卷积层随后也包含一个实例规范化层和激活层；

2.2训练多尺度生成对抗网络

为了使得多尺度生成器输出的生成图像逼近真实图像，联合内容损失和对抗损失函数，所述联合内容损失包括像素损失和特征损失；对低分辨率生成器E使用l₁像素损失，用于计算真实图像和生成图像在像素空间上的差异，重构出去遮挡行人图像，l₁像素损失用来保持底层像素特征的一致性；而对高分辨率生成器G使用VGG-19特征损失，计算真实图像和生成图像在预训练模型VGG-19上的卷积特征之间的差异，保持行人图像高层语义特征的一致性；

所述l₁像素损失表示为：

L_p＝||X-E(Z)||₁

其中，Z表示遮挡图像，X表示对应的非遮挡图像；||·||₁表示l₁范数；E(·)表示低分辨率生成器E的重构映射变化函数；

所述VGG-19特征损失表示为：

L_f＝||f(X)-f(G(Z))||₂

其中，f(·)表示VGG-19模型的卷积特征映射函数；||·||₂表示l₂范数；G(·)表示高分辨率生成器G的重构映射变化函数；

采用WGAN-GP作为对抗损失，表示为：

表示的是从P_c和P_o采样的图像；

表示D关于图像

的梯度；

因此，提出的多尺度生成对抗网络的整体损失函数表示为，

L＝L_adv+λ₁*L_p+λ₂*L_f

其中，λ₁和λ₂控制l₁像素损失和特征损失的权重，根据实验经验，均设置为10；

基于所述整体损失函数，交替训练多尺度生成器mG和判别器D，从而生成纹理清晰、视觉效果逼真的行人图像；

3)利用训练好的多尺度生成器产生扩充的行人图像训练集；

2.如权利要求1所述基于多尺度生成对抗网络的遮挡行人重识别方法，其特征在于在步骤1)中，所述准备行人图像训练集的具体步骤为：

1.1原始行人图像训练集表示为

相应的身份标签为

其中，m为训练样本数量且为自然数；x_i和y_i(1≤y_i≤C)表示第i个训练样本对应的行人图像和身份标签，C表示训练样本集包含的身份类别数且为自然数；非遮挡图像训练集表示为：

相应的身份标签为

1.2遮挡图像训练集表示为

z_i表示第i个训练样本对应的遮挡行人图像，在每一张非遮挡行人图像x_i中，随机选择一个与x_i面积比例s为0.3的矩形框，将x_i在该矩形框内的像素值替换为(0,255)内的随机值，从而得到遮挡行人图像z_i；该遮挡行人图像训练集的身份标签与非遮挡行人图像训练集的身份标签保持一致，即为Y。

3.如权利要求1所述基于多尺度生成对抗网络的遮挡行人重识别方法，其特征在于在步骤3)中，所述利用训练好的多尺度生成器产生扩充的行人图像训练集的具体步骤为：

4.如权利要求1所述基于多尺度生成对抗网络的遮挡行人重识别方法，其特征在于在步骤4)中，所述设计和训练一个分类识别网络的具体步骤为：

4.1设计一个分类识别网络：采用在大规模数据集ImageNet上预训练的ResNet-50模型为基础，将ResNet-50最后三个卷积层的输出特征进行拼接，并添加一个全连接层将特征维度降至2048维，用于作为分类识别网络；同时按照训练数据集中的行人身份类别，修改最后的全连接层的神经元个数，保证和训练集中行人身份个数一致；

其中，B表示小批次训练样本数量，

5.如权利要求1所述基于多尺度生成对抗网络的遮挡行人重识别方法，其特征在于在步骤5)中，所述利用训练好的分类识别网络提取行人图像的特征并进行相似度匹配的具体步骤为：