CN113239782B

CN113239782B - 一种融合多尺度gan和标签学习的行人重识别系统及方法

Info

Publication number: CN113239782B
Application number: CN202110509019.9A
Authority: CN
Inventors: 黄德双; 张焜; 伍永; 元昌安
Original assignee: Guangxi Academy of Sciences
Current assignee: Guangxi Academy of Sciences
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2023-04-28
Anticipated expiration: 2041-05-11
Also published as: CN113239782A; US20220374630A1

Abstract

本发明公开了一种融合多尺度GAN和标签学习的行人重识别系统及方法，本发明使用多尺度条件生成对抗网络和改进的多维正则化标签方法进行数据增强。多尺度条件生成网络融合了条件生成对抗网络和多尺度特征提取技术。使用修剪后的U‑Net作为生成网络，马尔可夫判别器和多尺度特征判别器作为判别网络。通过修复遮挡图像的方式扩充数据集，从而提高模型识别的能力，并且通过改进的MPRL方法进行在线标签学习，缓解了生成图像带来的噪音干扰，在多个数据集上显著提高了基准模型的mAP和Rank‑1指标。

Description

一种融合多尺度GAN和标签学习的行人重识别系统及方法

技术领域

本发明涉及行人重识别领域，特别是涉及一种融合多尺度GAN和标签学习的行人重识别系统及方法。

背景技术

在早期的行人重识别研究中，研究者主要是通过人工构造的方式来进行特征表示和度量函数选择。之后随着计算机性能的提高，基于深度网络的研究在图像处理领域获得了巨大的成功。此后，基于深度学习的研究方法成为了行人重识别领域的主流研究方法之一。

基于深度网络的模型可以自动地提取图像的高阶语义特征，使得识别性能高效精准。近年来，计算机视觉领域提出了多种有效的技术来提高模型的效果。在数据增强方面，生成对抗网络被广泛应用，许多学者根据不同的数据特点和任务目标设计了多种网络框架。而在特征提取方面，随着全局特征提取技术的不断成熟，学者们也意识到了仅使用全局特征的局限性，开始把注意力聚焦于局部特征上，通过多尺度学习，注意力机制等多种方式获取更有效的局部特征。

但是，如何在行人重识别任务中有效地使用这些方法仍然是一个具有挑战的任务。将这些技术迁移到行人重识别领域有以下难点：(1)深度网络需要大量的数据用于训练，而目前的行人重识别公开数据集都不能很好地满足训练要求，容易使得模型出现过拟合现象。2)深度网络所提取的高阶语义特征往往会特别关注某些局部信息，而行人图像可能出现遮挡的情况影响这些特征的提取，从而影响模型的识别性能。

综上所述，针对行人重识别任务，研究能够缓解数据量不足带来的影响并有效地使用局部特征的方法，对于提升行人重识别模型的性能具有十分重要的价值。

基于GAN的数据增强方法已经在计算机领域中广泛使用。但是依然存在一些问题：(1)由于GAN的生成器使用随机噪声图作为输入，所生成图像的风格类型无法控制，而且生成图像的质量也不高。(2)由于生成图像与训练集中的样本没有直接关联，无法对其进行类别标注，多数时候只能将其作为无监督数据辅助网络进行预训练。

故亟需一种能够解决现有技术中存在的问题的方法。

发明内容

本发明的目的是提供一种融合多尺度GAN和标签学习的行人重识别系统及方法，以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了如下方案：

本发明提供一种融合多尺度GAN和标签学习的行人重识别系统，所述系统包括：生成网络、判别网络、损失函数模块和标签学习模块，所述生成网络与所述判别网络连接；

其中所述生成网络包括U-Net子网络，用于修复遮挡图像，扩充数据集；

所述判别网络包括马尔可夫判别器和多尺度判别器；

其中所述马尔科夫判别器用于提取区域特征；

所述多尺度判别器用于提取多尺度特征；

所述生成网络的输入为对原始图像添加遮挡的遮挡图像，输出为生成图像；

所述判别网络的输入为所述生成图像和原始图像。

进一步地，所述生成网络采用Encoder-Decoder结构，其中Encoder 包括但不限于若干个第一卷积层，所述第一卷积层用于对输入进行下采样编码；Decoder包括但不限于若干个反卷积层，所述反卷积层块用于对编码信息进行上采样编码。

进一步地，所述U-Net子网络还用于在所述Encoder和所述Decoder 之间增加跳跃连接，且所述U-Net子网络删去前两层的跳跃连接。

进一步地，所述卷积层和所述反卷积层所采用的卷积核相同，所述卷积核的大小为4，步长为2。

进一步地，所述马尔可夫判别器包括但不限于若干个第二卷积层、批标准化层和激活函数，所述第二卷积层对所述原始图像进行下采样，缩小特征图尺寸，增大每个位置的感受野；所述激活函数为Sigmoid；所述马尔可夫判别器对同一区域进行判别的次数为：一次或多次。

进一步地，所述损失函数模块包括GAN损失、L1范数损失和特征匹配损失；

其中所述GAN损失用于优化所述判别网络判别图像真伪的能力；所述 L1范数损失和所述特征匹配损失用于减小所述生成图像和目标图像在像素维度和特征维度上的差异。

进一步地，所述标签学习模块采用改进的多维正则化标签方法进行标签学习；所述改进的多维正则化标签方法，其中的改进在于：采用平滑的方式构造标签分布；在预先设置好的训练轮次对标签进行更新，更新的同时引入随机因素，基于所述随机因素保留部分原有标签。

一种融合多尺度GAN和标签学习的行人重识别方法，具体包括以下步骤：

S1，构建多尺度条件生成对抗网络，所述多尺度条件生成对抗网络包括生成器和判别器，采集原始行人图像，进行归一化处理，并对所述行人原始图像添加遮挡，获得遮挡行人图像；

S2，对所述生成器输入所述遮挡行人图像，所述生成器对所述遮挡行人图像进行修复，修复完成后输出的图像作为生成图像；对所述生成图像添加标签，进行标签学习；

S3，将添加了标签的所述生成图像和所述原始行人图像输入所述判别器中，所述判别器对输入添加了标签的所述生成图像进行特征区域和多尺度特征的提取，基于损失函数计算提取出的所述特征区域、多尺度特征与所述原始行人图像比对结果，获得损失值，并基于所述损失函数对所述生成器的参数进行优化、更新；

S4，对S3进行迭代，直到迭代轮次达到预设值则完成识别。

进一步地，所述标签学习的具体方法为：通过改进的MPRL方法进行在线标签学习，对生成图像带来的噪音干扰进行降噪。

本发明公开了以下技术效果：

本申请针对现阶段生成图像质量较低的问题，提出了基于遮挡图像的多尺度条件生成对抗网络，以对原始图像添加不同尺寸的遮挡块后进行修复的方式进行数据增强，引入条件信息增强生成图像质量。并且提出了自动化的标签学习方法，以减少错误的标注对模型带来的干扰；

基于条件生成对抗网络，引入多尺度判别分支，融合多尺度特征，并分别计算不同尺度上的特征匹配损失，以提高生成图像质量；

对比多种标签学习方法，提出基于半监督学习的在线标签学习方法，为生成图像标注合适的标签，减少标签噪音对识别模型的干扰。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本实施例中多尺度条件生成对抗网络的结构示意图；

图2为本实施例中卷积模块(上)与反卷积模块(下)的示意图；

图3为本实施例中生成网络的结构示意图；

图4为本实施例中马尔可夫判别分支的结构示意图；

图5为本实施例中多尺度判别分支的结构示意图；

图6为本实施例中参数M对识别结果影响示意图。

具体实施方式

现详细说明本发明的多种示例性实施方式，该详细说明不应认为是对本发明的限制，而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。

应理解本发明中所述的术语仅仅是为描述特别的实施方式，并非用于限制本发明。另外，对于本发明中的数值范围，应理解为还具体公开了该范围的上限和下限之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。

除非另有说明，否则本发明使用的所有技术和科学术语具有本发明所属领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料，但是在本发明的实施或测试中也可以使用与本发明所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入，用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时，以本说明书的内容为准。

在不背离本发明的范围或精神的情况下，可对本发明说明书的具体实施方式做多种改进和变化，这对本领域技术人员而言是显而易见的。由本发明的说明书得到的其他实施方式对技术人员而言是显而易见的。本申请说明书和实施例仅是示例性的。

关于本发明中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

本发明中所述的“份”如无特别说明，均按质量份计。

本具体实施方式的内容包括基于多尺度GAN的图像生成和生成图像的标签学习两方面。基于条件GAN的图像生成能够通过引入条件信息的方式，控制生成图像的风格类型，并且提高图像质量。而标签学习则能够为生成图像赋予合适的标签，让其参与到网络的训练过程中。本发明首先探究了基于条件信息的GAN网络结构，在此基础上提出了多尺度生成对抗网络，构造遮挡图像作为条件信息输入网络，并使用恢复后的图像增强数据集。之后对比了多种标签学习的方式，为生成图像赋予合适的标签。最后，使用了基于多尺度GAN和标签学习的行人数据增强方法在多个数据集上进行实验，证明了本发明的有效性。

实施例1

本发明所提出的多尺度生成对抗网络的结构如图1所示，该网络基于条件生成对抗网络，使用遮挡行人图像作为条件信息，删去部分跳跃连接 U-Net网络作为生成器，修复遮挡图像。而判别器则包含两个分支：马尔可夫判别器和多尺度判别器，马尔可夫判别器用于提取区域特征，计算L1 损失和区域损失。而多尺度判别器用于提取多尺度特征，计算特征匹配损失。

Pixel-To-Pixel GAN(pix2pix)结构由Phillip Isola于2016年提出的网络，提出目的是为了解决图像的成对编辑任务。所谓图像的成对编辑任务，又被称为图像翻译任务，是指图像到图像的转化任务，即将输入图像转化为目标图像，与风格迁移有些相似，但是要求更高。Pix2pix模型在条件生成对抗网络基础上做出改进，对于原本仅依赖L1/L2损失的任务，通过L1/L2损失和GAN损失融合的方式将GAN结构引入，并在多个数据集上实验证明了其有效性。而其最大的贡献在于根据任务要求调整损失函数，重新构造输入对，将GAN结构引入到多种任务中。根据该思想，本发明为行人图像添加遮挡块，将遮挡后的图像和原始图像一起输入网络训练，从而使用去遮挡后的图像增强数据集。

Pix2pix模型分别在多种任务上分别尝试了只使用L1/L2损失、只使用GAN损失和L1/L2损失与GAN损失融合的策略。经过实验发现，只使用L1/L2损失会导致图像模糊，失去高频信息。相比之下，GAN损失能够较好的保留高频信息，但是会导致生成图像和输入图像的差别较大。最优的方案是将L1损失和GAN损失融合，可以使用L1损失捕获低频信息，并通过 GAN的判别网络对高频信息建模，以得到高质量输出。

生成网络方面，Pix2pix模型采用了Encoder-Decoder结构作为生成网络。如同前文介绍，Encoder网络主要由卷积层组成，对输入进行下采样编码，而Decoder网络由反卷积层组成，对编码信息进行上采样解码，在这个过程中，关键的底层信息会被编码保留，从输入传达给输出。但是这个过程会损失大量的细节信息。对于图像翻译等精度要求较高的任务，这些细节信息是十分重要的。因此，生成网络中还添加了U-NET结构，在 Encoder网络和Decoder网络之间增加跳跃连接，保留细节特征。具体来说，对于n层的生成网络，会在第i层和第n-i层之间添加信息通道，直接传递未被编码的特征。

而判别网络是由“卷积层-批标准化层-ReLU激活函数”模块搭建成的，采用了基于马尔可夫判别器的PatchGAN结构。传统的判别网络直接输出对图像真假判断，而PatchGAN通过卷积对图像进行下采样，输出N*N的特征图谱，其中的每个位置根据卷积感受野的大小，对应着原始输入(即生成网络的输出)的一块区域，而特征图谱上的值就表示该位置的真假。 PatchGAN通过强制将网络注意力限制在局部区域的方式，强迫网络对高频特征结构建模。经过多次实验证明，即使用于建模的局部区域远小于原始输入，PathGAN结构依然可以生成高质量的图片。基于小区域构建网络不仅减少了计算量，提高了网络运行速度，而且可以推广到任意大小的图像上进行操作。

生成网络：

生成网络的任务是结合条件信息生成图像，即对被遮挡的图像的遮挡部分进行恢复。本发明所使用生成网络采用的Encoder-Decoder结构，其中Encoder由卷积模块构成，如图2所示，其中LeaklyReLU函数是激活函数ReLU的变体，其表达式为：

其中α表示LeaklyReLU函数在负数部分的斜率，通常是一个较小的正数。与ReLU函数的表达式对比不难发现，其改进主要在负数部分。相比于ReLU函数在负数部分之间输出0让梯度消失的做法，LeaklyReLU函数在负数部分保留了较小的梯度，缓解了梯度消失的现象。

而批次标准化(Batch Normalizing)是为了解决内部协变量偏移现象。对于深度网络，每一层的操作都会使得输入数据的分布发生变化，随着网络层数的增加，分布变化会不断叠加，使得随着层数的增加，分布变化变得越来越剧烈。因此，需外对每层的输出进行标准化操作，以维持分布的一致性。而批次标准化则是通过均值变量和方差变量，对每个批次的数据上进行标准化操作，并对变量进行更新。

Decoder主要由反卷积模块构成，反卷积模块的结构和卷积层类似，只是用反卷积层替代了卷积层，将下采样操作变成了上采样。

生成网络的结构如图3所示，它包含了N个卷积模块作为Encoder，N 个反卷积模块作为Decoder。其中各模块采用相同的卷积核，大小为4，步长为2。本发明也将U-Net结构引入生成网络中，但是与传统U-Net结构不同的是，本发明并未在Encoder和Decoder的所有层次之间都添加跳跃连接。从图3中可以看到，为了避免标签信息的泄露导致模型过早收敛，对U-Net进行了修建，删去了前两层的跳跃连接。

大部分图像翻译任务是类似内容生成、色彩变化这样整体风格变化的任务，因此需要将原始图片特征完整地传递给图像。但是本发明的任务是先对图像进行部分遮挡，希望生成网络对遮挡图像进行修复。当遮挡区域较小时，输入图像和输出图像在大部分区域是一致的，如果直接将原始图片的特征通过跳跃连接传递给Decoder，会导致模型倾向于直接使用原始信息，过早收敛，网络的参数得不到充分训练更新。因此，删去了前两层的跳跃连接，仅传递网络提取后的语义特征，增加训练难度，增强网络的性能，同时也引入了一部分随机因素，使得生成图像在整体风格上与原始图像有一定区别。

判别网络：

传统GAN网络中，判别网络的目标是判断整个输入图像的真伪。在本申请中，由于仅对图像中的部分区域进行了遮挡，相比于全局区域，更需要网络能够判断每个局部区域的真伪。使用马尔可夫判别器，通过卷积对原始图像进行特征提取，将其分为N*N个区域，分别判断每个区域的真伪。同时，还加入了多尺度特征学习结构，以提取多尺度特征。

马尔可夫判别器由N个卷积模块组成，使用Sigmoid激活函数。同生成网络一样，卷积模块也是由卷积层，LeakReLU还有BatchNorm组成。通过多个卷积层连续对原始图像进行下采样，缩小特征图尺寸，增大每个位置的感受野。此处沿用了pix2pix模型的参数选择，最终的特征图谱每个位置对应的感受野大小为70*70。需要注意的是，最终得到的N*N个区域的感受野并非相互独立的，而是有很大一部分的交集区域，因此该结构可以对同一区域进行多次判别，使得网络参数得到充分训练。

由于马尔可夫判别器最终输出的特征图谱的感受野大小是固定的，所以获取的信息尺度较为单一。而多尺度特征提取技术可以帮助网络获取不同尺度上的特征信息，本发明在判别网络中加入了多尺度特征学习分支，如图5所示，通过多组的1*1卷积核将马尔可夫判别器中第三个卷积模块输出的特征图谱分割为四个特征图谱，并采用多组3*3卷积核对各特征图谱进行特征提取不同尺度的损失，并且分离训练。具体来说，本发明定义第i特征图谱为F_i，其对应特征为M_i，i∈{1，2，3，4}。则特征M_i的计算公式为：

可以看到，在多尺度特征学习分支中，通过不同的卷积组合和特征融合，输出了包含不同感受野的特征并将其分离。其中，本发明将特征M₁和M₂拼接得到特征M₁₂，称为小尺度卷积特征，其感受野较小，包含了较多行人的局部细节信息。而特征M₃和M₃拼接得到特征M₃₄，本发明将其称为大尺度卷积特征，经过了多组卷积后，拥有了较大的感受野，包含了全局尺度上的空间信息。通过大小尺度特征分离的方式，可以从不同的角度对行人进行描述。

损失函数：

损失函数主要包括了三个部分：GAN损失、L1范数损失以及特征匹配损失。正如前文所介绍的，损失函数代表了神经网络的优化目标。GAN损失是为了优化判别器，让其能够更好地区分输入图像的真伪，从而间接地优化生成器。一般来说，它是GAN网络结构的经典损失。而L1范数损失和特征匹配损失都是为了让生成图像和目标图像更加接近，分别从像素维度和特征维度衡量二者的差异。

首先介绍GAN损失，由于使用了条件生成对抗网络，对应的条件GAN 的损失函数如公式(3)所示，其中x，y，z分别表示真实图像，条件信息以及随机噪音。G网络表示生成网络，希望最大化损失，而D网络表示判别网络，希望最小化损失。

相比于原始的GAN损失，条件GAN损失的所有期望都是基于条件概率计算的。而在图像翻译任务中，条件信息就是输入图像，图像标签则是目标图像，而在上文提到，判别网络使用了马尔可夫判别器，最后输出的是对N*N区域预测结果，因此计算损失时，需要在这些区域上分别计算，然后取平均值作为最终结果。

在衡量生成图像和目标图像之间的差异时，最直观的方式就是比较二者之间的像素差异，在衡量两个图像间的像素差异时，常用L1损失和L2 损失，相比L2损失，由L1损失训练产生的图像物体边缘更加明显，图像的锐利度更高，因此最终采用了L1损失，其表达式如下：

L1损失虽然能够直观地衡量出图像的差异，但是其只能从整体衡量，无法关注重要信息，而在行人图像中，行人区域比背景区域重要，而具体到行人区域时，属性细节特征也比其他特征重要，而这些都是L1损失无法衡量的。正是为了弥补L1损失的这些弊端，本发明在判别网络中引入了多尺度特征学习分支，并分离了小尺度特征和大尺度特征来分别提取行人图像在不同尺度上的语义信息。并且通过特征匹配损失L_F来衡量目标图像和生成图像在对应尺度上的差异，其表示公式如下：

L_W(p，q)＝(p-q)^TW(p-q) (6)

其中α_s和α_L为权重系数，其中D(y)_SSF和D(G(x，z))_SSF分别表示目标图像和生成图像的小尺度特征，而D(y)_LSF和D(G(x，z))_LSF表示目标图像和生成图像的大尺度特征。L_W为不同尺度特征的距离度量函数，基于马氏距离。

所以，最终的目标函数为：

标签学习：

本发明首先介绍了一些传统的生成图像的标签分配方式，并提出了基于半监督学习的标签学习框架。

上一节讨论了多尺度生成对抗网络的结构设计，由于目前使用的行人重识别框架模型都是基于监督学习的，而要想将生成的图像扩充到数据集中，还需要为生成图像标注上合适的标签。本发明先介绍了离线的标签学习方法LSRO和LSR，之后介绍了基于在线学习的MPRL方法，并对其进行改进。

(1)基于标签平滑的标签分配

早期的处理方式是将生成图像标记为同一类别或是随机地标注为某一类别，考虑到这样的方式容易引入过多的噪音，Zheng等人提出了针对离群的数据的标签正则化方法(Label Smoothing Regularization for Outliers，LSRO)。LSRO方法借鉴了标签平滑的思想，假设生成图像不属于数据集中的任何类别，并且在所有类别上的分布服从均匀分布。因此为生成样本在所有类别赋予相同的概率值，如公式(8)所示，假设一共有K 类样本，那生成图像在每类样本上的概率都是1/K。

相比于为生成图像随机分配标签或是标记于同一类别，LSRO方法通过将生成图像视为离群样本的方式，让其在每个类别上均匀贡献，鼓励网络寻找更多潜在的高频特征，并增强了网络的泛化能力，使得其不容易过拟合，但是由于其假设较强，当生成图像数目较多时会引入过多的噪音，影响网络收敛，因此比较适合于使用少量生成样本的场景。

随着条件生成对抗网络的流行，可以根据条件信息来控制生成图像的内容和风格，分配标签时也可以参考条件信息的类别。在本发明之前的研究中，认为生成图像和条件信息具有较强的关联性，故直接使用标签平滑正则化(Label SmoothingRegularization，LSR)的方式，为生成图像分配不同类别的概率，具体表达式如公式(9)：

式中ε为超参数，取值范围是[0，1]，控制平滑的程度。当ε为0时，等价于one-hot标签，而当ε为1时，等价于q_LSRO。相比于LSRO方法，LSR 方法由于考虑了条件信息，为其对应类别赋予了较高置信度，减轻了生成样本带来的噪音，有利于网络的收敛。同时，考虑到生成图像引入了一定的随机噪声，因此为其余类别保留一定程度的概率，保证网络具有一定的泛化能力。

(2)基于半监督学习的标签学习

根据上文可知，LSRO和LSR属于离线分配的方法，即都是通过一定的假设，在训练前就为每类的生成图像分配好标签。但是这种为同一类生成图像都赋予相同概率的做法往往和实际情况并不符合，特别是对于恢复后的遮挡图像，由于遮挡区域的尺寸和遮挡位置的不同，其在不同类别上的概率分布也应该不同，而离线分配的方法并没有考虑到这些差异。考虑到这些因素，Yang等人提出了多维正则化标签方法(Multi-pseudoRegularized Label，MPRL)。在离线标签分配的基础上，MPRL方法在训练过程中不断更新迭代生成样本的标签。具体做法是对每个生成样本，根据网络每次的输出概率，对样本标签进行更新，多次迭代。而更新方法见公式(10)：

(α_k＝Φ(p(X_k)，sort_min→max(p(X))))

其中，p(X_k)表示对于类别的概率，sort_min→max(p(X))表示所有类别概率的从小到大的排序序列，Φ(·)返回在列表中的索引位置。相比于离线分配的方式，MPRL参考了半监督学习的思想，通过真实标注的数据来辅助生成样本进行标注，考虑到了生成样本间的差异性，对不同样本都赋予不同的标签。同时，也利用了真实标注数据，为生成样本赋予更合理的标签。

但是在实际实验过程中，MPRL方法存在着两个弊端：(1)通过公式(10) 对标签进行更新时，位于同一序数的类别概率是固定的，使得样本标签的概率分布存在一定限制，并且各个类别间的概率差异变化并不明显。而对于实际样本，90％以上的概率都是仅仅集中于几个类别中的。(2)通过网络预测的结果更新标签虽然能够加速网络收敛，但是当网络出现过拟合现象时，这样会使得网络的过拟合情况加重，特别是训练样本数目较多时。

针对着MPRL的这两个问题，本发明对其作出了改进，提出了随机平滑更新的标签学习方法。首先，不再使用公式(10)，而是通过平滑的方式，重新构造标签分布。其次，仅在预先设置好的训练轮次对标签进行更新，同时更新时引入随机因素，以一定的概率保留原有标签。

实施例2

实验设置：

实验环境：代码使用Pytorch框架编写，在配置两块Nvidia TITAN Xp 显卡的服务器上运行。

生成网络：生成网络采用U-Net结构，Encoder部分由8个卷积模块组成，对应地，Decoder部分由8个反卷积模块组成，其中卷积和反卷积操作的卷积核大小为4*4，步长为2。由于U-Net结构加入了跳跃连接，所以其通道数会对应地发生变化(未添加链接的模块不变化)。其中通道数设置如表1所示：

表1

模块序号	1	2	3	4	5	6	7	8
									卷积模块	64	128	256	512	512	512	512	512
反卷积模块	512	1024	1024	1024	1024	512	256	64

判别网络：马尔可夫判别器由4个卷积模块组成，输出特征图谱的感受野为70*70，卷积模块设置和生成模块类似，也采用卷积核大小为4*4，步长为2的卷积操作，通道数依次为：64—>128—>256—>512。其中第一个卷积模块没有加入BatchNorm结构。而多尺度判别器先使用1*1卷积将输入特征的通道数增加到256，则每组特征的通道数为64，卷积操作的卷积核大小为3*3*64，步长为1。

损失函数：损失函数部分，本发明取部分训练数据进行区间搜索，α_s和α_l分别取0.6和0.4，而λ₁和λ₂分别为0.05和0.3。

数据预处理：本发明将所有图像的像素归一化到[-1,1]区间上，图像大小统一放缩为256*256。在遮挡块的设置上，遮挡块形状设置为矩形，长宽的比例系数在区间[0.1,0.4]上随机选取。遮挡部分的RGB通道值使用对应数据集的RGB通道上的平均值替换。

训练策略：在训练时，对GAN网络，BatchSize设为1，训练20个轮次，使用Adam作为优化器，学习率为0.0002，动量参数β₁＝0.5，β₂＝0.999。

由于GAN网络仅仅生成图像，需要在行人识别模型才能进行数据增强。本发明使用Densenet-121网络作为识别模型的基线，网络后接全连接层进行分类。识别网络训练时，BatchSize设为64，训练60个轮次，使用带动量的SGD作为优化器，学习率为0.01，动量参数为0.9，学习率衰减参数为0.0004。

在使用生成图像扩充数据集前，还需要确定扩充图像数量M的数值。本发明在Market-1501数据集上，用single query的方式进行参数对照实验，选择参数。

扩充图像数量M实验结果如表2和图6所示，Market-1501数据集包含了12936张图像，本发明依次按照0、1、1.5、2、2.5的比例对原数据集进行扩充。可以看到，当使用同等数量的图像(12936)进行扩充数据时，基线模型的识别效果最好，mAP为79.9％，Rank-1为92.7％。但随着扩充图像数量的增加，识别效果反而会降低，本发明认为这是因为生成图像包含了部分噪音，引入过多的噪音会影响模型的收敛。但是相比于基线模型，仍然有明显的提升。

表2

M	mAP	Rank-1
			0(baseline)	73.6	89.7
12936	79.9	92.7
			19404	79.6	92.2
25872	79.2	91.9
			32340	78.5	91.6

确定了M＝12936后，Marke-1501，CUHK03以及DukeMTMC-reID三个数据集上进行对比实验。

Market-1501数据集上的实验结果如表3所示，其中Ours代表本发明提出的方法。可以看到，加入了多尺度生成对抗网络生成的图像后，模型识别效果有了明显提升，而且优于pix2pix网络。在Single Query测试模式下，相比于基线模型，mAP、Rank-1、Rank-5分别提升了6.3％、3.0％、 0.9％，而在在Multi Query测试模式下，mAP、Rank-1相比于基线模型，分别提升了5.1％、3.6％。

表3

CUHK03(labeled)数据集上的实验结果如表4所示，在Single Query 测试模式下，相比于基线模型，mAP、Rank-1、Rank-5分别提升了7.6％、 8.2％、4.9％。

表4

方法	mAP	Rank-1	Rank-5
				DenseNet(baseline)	42.4	44.7	65.9
DenseNet+pix2pix	48.1	51.2	70.2
				Ours	50.1	52.9	70.8

DukeMTMC-reID数据集上的实验结果如表5所示，在Single Query测试模式下，相比于基线模型，mAP、Rank-1、Rank-5分别提升了7.0％、5.1％、 2.3％。

表5

方法	mAP	Rank-1	Rank-5
				DenseNet(baseline)	62.9	79.4	89.7
DenseNet+pix2pix	67.9	82.2	91.4
				Ours	69.9	84.5	92.0

从以上实验结果可以看出，加入了多尺度生成对抗网络生成的图像后，基线模型在各个数据集上的识别效果都有明显提升，而且相比于使用 pix2pix网络生成的图像，多尺度生成对抗网络生成的图像对模型的识别效果提升更为明显。这是由于多尺度生成对抗网络优化了生成网络的结构，并且增加了多尺度判别器结果，增强生成图像的质量。

标签学习实验结果：

实验参数设置与上文相同，超参数ε设置为0.15。

Market-1501数据集上的实验结果如表6所示，其中Ours表示本发明提出的多尺度生成对抗网络结构。LSR和MPRL分别表示标签平滑方法和本发明提出的改进后的MPRL方法。可以看到，引入了标签学习方法后，模型识别效果有了一定提升，其中改进后的MPRL方法效果明显优于LSR方法，相比于LSR方法，在Single Query测试模式下，mAP、Rank-1分别提升了 1.4％、0.8％，而在Multi Query测试模式下，mAP、Rank-1、Rank-5相比于LSR方法，分别提升了1.9％、0.7％、0.3％。

表6

CUHK03(labeled)数据集上的实验结果如表7所示，改进后的MPRL 方法相比于LSR方法，在Single Query测试模式下，mAP、Rank-1、Rank-5 分别提升了2.1％、1.7％，0.7％。

表7

方法	mAP	Rank-1	Rank-5
				DenseNet(baseline)	42.4	44.7	65.9
DenseNet+pix2pix	48.1	51.2	70.2
				Ours	50.1	52.9	70.8
Ours+LSR	51.8	53.0	70.3
				Ours+MPRL	53.9	54.7	71.0

DukeMTMC-reID数据集上的实验结果如表8所示，改进后的MPRL方法相比于LSR方法，在Single Query测试模式下，mAP、Rank-1、Rank-5分别提升了2.1％、0.8％、0.6％。

表8

方法	mAP	Rank-1	Rank-5
				DenseNet(baseline)	62.9	79.4	89.7
DenseNet+pix2pix	67.9	82.2	91.4
				Ours	69.9	84.5	92.0
Ours+LSR	70.2	84.9	92.2
				Ours+MPRL	72.3	85.7	92.8

从以上实验结果得知，引入标签学习方法能够提升模型的识别效果。相比于LSR方法，改进后的MPRL方法的效果更好，在所有数据集上的评价指标都优于LSR方法。这是由于改进后的MPRL不再使用固定的离线分配的标签，而是在训练时动态学习，随着网络的参数更新，优化标签的概率分布。

本发明首先指出了目前生成对抗网络的常见问题，之后介绍了 pix2pix网络框架，并在其基础上，提出了多尺度条件生成对抗网络结构，从生成网络、判别网络和损失函数三个方面说明网络原理。并在公开数据集上进行实验，证明了该结构的有效性。然后介绍了两类标签分配的方式，分别是基于离线学习的LSR方法和基于在线学习的MPRL方法，在多个数据集上的实验结果证明了改进后的MPRL方法的优越性。

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种融合多尺度GAN和标签学习的行人重识别系统，其特征在于：所述系统包括：生成网络、判别网络、损失函数模块和标签学习模块，所述生成网络与所述判别网络连接；

所述生成网络采用Encoder-Decoder结构，其中Encoder包括但不限于若干个第一卷积层，所述第一卷积层用于对输入进行下采样编码；Decoder包括但不限于若干个反卷积层，所述反卷积层块用于对编码信息进行上采样编码；

所述U-Net子网络还用于在所述Encoder和所述Decoder之间增加跳跃连接，且所述U-Net子网络删去前两层的跳跃连接；

所述判别网络包括马尔可夫判别器和多尺度判别器；

其中所述马尔可夫判别器用于提取区域特征；

所述马尔可夫判别器包括但不限于若干个第二卷积层、批标准化层和激活函数，所述第二卷积层对原始图像进行下采样，缩小特征图尺寸，增大每个位置的感受野；所述激活函数为Sigmoid；所述马尔可夫判别器对同一区域进行判别的次数为：一次或多次；

所述多尺度判别器用于提取多尺度特征；

所述判别网络的输入为所述生成图像和原始图像；

所述标签学习模块采用改进的多维正则化标签方法进行标签学习；所述改进的多维正则化标签方法，其中的改进在于：采用平滑的方式构造标签分布；在预先设置好的训练轮次对标签进行更新，更新的同时引入随机因素，基于所述随机因素保留部分原有标签。

2.根据权利要求1所述的融合多尺度GAN和标签学习的行人重识别系统，其特征在于：所述卷积层和所述反卷积层所采用的卷积核相同，所述卷积核的大小为4，步长为2。

3.根据权利要求1所述的融合多尺度GAN和标签学习的行人重识别系统，其特征在于：所述损失函数模块包括GAN损失、L1范数损失和特征匹配损失；

其中所述GAN损失用于优化所述判别网络判别图像真伪的能力；所述L1范数损失和所述特征匹配损失用于减小所述生成图像和目标图像在像素维度和特征维度上的差异。

4.一种融合多尺度GAN和标签学习的行人重识别方法，其特征在于：具体包括以下步骤：

S1，构建多尺度条件生成对抗网络，所述多尺度条件生成对抗网络包括生成器和判别器，采集原始行人图像，进行归一化处理，并对所述原始行人图像添加遮挡，获得遮挡行人图像；

S4，对S3进行迭代，直到迭代轮次达到预设值则完成识别。

5.根据权利要求4所述的融合多尺度GAN和标签学习的行人重识别方法，其特征在于：所述标签学习的具体方法为：通过改进的MPRL方法进行在线标签学习，对生成图像带来的噪音干扰进行降噪。