CN112488035B

CN112488035B - 一种基于对抗神经网络的跨域行人重识别方法

Info

Publication number: CN112488035B
Application number: CN202011464169.4A
Authority: CN
Inventors: 方巍; 易伟楠; 庞林; 王楠
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2024-04-26
Anticipated expiration: 2040-12-14
Also published as: CN112488035A

Abstract

本发明涉及一种基于对抗神经网络的跨域行人重识别方法。涉及循环一致性对抗网络、DCGAN、ResNet50和行人重识别等领域；具体包括以下步骤：(1)、构建行人重识别分类器；(2)、目标数据集映射到带标签数据集；(3)、DCGAN优化映射网络；(4)、优化算法。本发明使得行人重识别技术能在更加真实的场景上得以应用，充分利用没有标签的数据集，缩小了目标(真实)数据集与原(带标签)数据集上样本的特征差距，能使召回率更加准确和有效。

Description

一种基于对抗神经网络的跨域行人重识别方法

技术领域

本发明涉及循环一致性对抗网络、DCGAN、ResNet50和行人重识别等领域，具体涉及一种基于对抗神经网络的跨域行人重识别方法。

背景技术

目前，中国正在大量的建设智慧型城市，而智能安防是实现智慧城市的重要基础，且智能安防管理中每天产生的视频数据占据城市数据的大量比重，其中行人重识别是智能安防管理中不可缺失的一环。

行人重识别旨在从监控视频或图片中找出与待匹配帧或图片具有相同目标，多数情况下为行人的帧或图片；如何提取特征以及如何设计一个用于区分行人身份的强鲁棒性的分类模型是行人重识别算法的关键。

目前的行人重识别算法分为基于监督学习和无监督学习两类；其中超过一半的方法是基于监督学习的，并且可以分为表征学习与度量学习。表征学习是指在训练网络的过程中，并没有直接去考虑图像之间的相似度问题，而是作为分类问题，将数据集中的图像按行人进行分类。度量学习是指，根据图像的分类结果(可能是训练集给定的正确结果，也可能是通过初步分类得出的存在错误项的分类结果)，建立度量模型，调整类间差和类内差。表征学习类似于将样本在特征空间分界面上推开，增大类间差，减小类内差；而度量学习更类似于在样本空间上进行聚类运算。出于对行人隐私的保护，以及大规模手工标注标签会带来巨大的开销，因此大多数的行人重识别模型会在一些小的带有标签的数据集上进行监督学习，若将训练得到的模型直接用到另外一个数据集或者是由摄像机捕获到的真实数据上时，结果往往是不尽人意的，这是由于不同数据集间存在着的较大差距导致的欠拟合导致的，主要包括了背景差异、光照差异、噪声分布差异等。因此，能够直接在充足的未加标签的目标数据集上进行无监督训练，得到高度鲁棒的识别模型是当前最实际且是最具挑战的问题。

为了解决上述问题，Liang等人与Ma也提出一些无监督的方法，他们尝试在无标签的数据集上，提取行人视图不变的特征，并计算他们间的相似度。但是由于没有标签的强监督，这种单纯依靠无监督的方法，在单一的数据集上进行训练，往往效果不佳。UMDL是最新提出的一种跨数据集的无监督迁移学习算法，它能够充分利用原始带标签的数据集和不带标签的目标数据集，学习到行人视图不变的特征表示方法以及利用字典学习机制来计算行人图片间的相似度。UMDL相较于单纯依靠无监督学习的方法，性能更好，但和目前性能一流的基于有监督学习的行人重识别方法相比仍然不足。大多数的方法都将精力放在了分类问题上，即在有标签的数据上不断地进行学习，调整模型，将学习到的模型来拟合新的不带有标签的目标数据集。结果表明，由于缺少了标签的监督，一个模型很难同时做到在原始数据集和目标数据集上都有好的表现，尤其是在两个数据集之间存在着较大差异时。

GAN提供了一种新的无需大量有标注数据，就能学习到深度表征的方法。GAN中包含了两个部分，生成器与判别器，生成器主要是用来从随机输入的噪声分布中生成数据，而判别器则是需要去判断输入的数据是由生成器生成的，还是来自于真实数据集。目前GAN的运用领域广泛，包括了图像分类，图像迁移以及高光谱图像重构等。具体来讲，图像迁移是利用对齐好的一对图像去学习一种由输入图像到输出图像之间的映射，如Pix2Pix基于成对的训练图像，利用了一种传统的生成式对抗网络学习到输入、输出图像间的映射，与之不同的是，循环一致性判别网络则不使用成对的训练图像，就能学习到这种映射。

DCGAN出色的特征捕捉和生成能力在很多场景中得到了证实。DCGAN将GAN从多层感知机MLP结构扩展到CNN结构，摒弃池化层的同时还在卷积操作与激活函数之间加入Batch Normalization实现局部归一化，从而解决了网络模型在训练时梯度消失和梯度弥散等问题，保留了出色的生成数据能力和CNN特征提取的优点，使它在图像分析和处理能力上得到提升。它在celebA、LSUN和Google Image Net这种现实世界的真实大规模数据集上训练，结果令人满意。本发明将循环一致性对抗网络与DCGAN相结合，可有效提高不同数据集图像间的映射，从而能更好地提高行人重识别的准确率。

发明内容

针对上述问题，本发明提供了一种基于对抗神经网络的跨域行人重识别方法来解决现有技术中的带标签的行人数据集数量少，真实数据集往往都是不带标签的，且数据集间存在较大差异的问题。

本发明的技术方案是：一种基于对抗神经网络的跨域行人重识别方法，具体步骤包括如下：

步骤(1.1)、构建行人重识别分类器：在带标签的行人数据集上预训练一个行人分类器；

步骤(1.2)、将目标数据集样本映射到原数据集上：将不带标签的目标数据集映射到带标签的原数据集上，缩小两个数据集间样本差距；

步骤(1.3)、利用DCGAN优化映射模型：对得到的映射模型进行优化；

步骤(1.4)、相关算法优化：引入正则化，使模型具备较好泛化能力，避免过拟合。

进一步的，在步骤(1.1)中，所述构建行人重识别分类器的具体方法如下：设带标签的训练集共有N张训练样本，分为T个不同的身份，每个训练样本均包括一个身份标签，则损失函数L的定义为：

式中，表示输入样本I_n属于类T_n的可能性，L表示分类器损失，N表示待分类样本数，n表示待分类样本，y_j表示j所属类别，j表示待分类样本。

进一步的，在所述步骤(1.2)中，利用域映射模型将目标数据集样本映射到原数据集上，具体是指在样本映射模型中，将目标数据中的样本一一映射到原数据集中；其中所述的样本映射模型包含两个生成器完成映射任务，即：G:I_S→I_T和H:I_T→I_S，

其中，I_S表示带有标签的原数据集，I_T表示无标签的目标数据集；

另外，所述的域映射模型还具有两个判别器，即D_S和D_T，

其中，D_S是用来判断输入样本是来自于原数据集，亦或是由H(I_T)生成；

同理，D_T是用来判断输入样本是来自于目标数据集，亦或是由G(I_s)生成；所述的判别器和生成器的损失函数来自循环一致性对抗损失，采用最小二乘损失来优化每一对生成器和判别器。

进一步的，在步骤(1.3)中，利用DCGAN优化映射模型的具体操作方法如下为：对于得到的两个生成器，G和H；当两个数据集之前的分布存在差距时，则两个生成器的映射往产生模糊；不能将在有标签的原数据集上训练得到的分类器拟合到由生成器H得到的H(I_T)上；

所述的判别器则是利用来自原数据集上的样本和由生成的从目标数据集映射到原数据集上的样本作为输入；

其中，判别器设置4层卷积层；设置标签值y_i，预测值为则经过激活函数输出为设样本总数为N，得到的损失函数表达式为：

其中，对抗学习的博弈性就体现在标识符i的取值上；对于判别器，当i＝1时，表示输入为真实数据，对应标签y_i＝1为真，触发针对判别器的训练；当i＝2时，表示输入为生成图像，对应y_i＝0为假，触发判别器与生成器的联动；对于生成器，i＝3表示输入为生成图像，对应y_i＝1为真，触发针对生成器的训练。

进一步的，在步骤(1.4)中，所述相关算法优化的具体操作方法如下：引入正则化概念，其中，L1、L2正则可分别表达为：

L1(θ)＝α∑_i|θ_i|

正则项之前α是一个系数，θ_i表示成每层权重的倒数，表示对于学习到过高权重的层，需降低其更新程度；相反，对于层中学习到过低的权重的结点反而要提高其更新程度，从而达到层中所有权值平摊任务的目的；

在生成器的损失函数构建中，在损失函数后又加上L2正则化式子，如下式所示，

其中，α设为0.0001。

本发明的有益效果是：本发明使得行人重识别技术能在更加真实的场景上得以应用，充分利用没有标签的数据集，缩小了目标(真实)数据集与原(带标签)数据集上样本的特征差距，能使召回率更加准确和有效。

附图说明

图1本发明的结构流程图；

图2本发明实施例中在不同数据上的各5个数据样本示意图。

具体实施方式

为了更清楚地说明本发明的技术方案，下面结合附图对本发明的技术方案做进一步的详细说明：

如图所述；一种基于对抗神经网络的跨域行人重识别方法，具体步骤包括如下：

在步骤(1.1)中，所述构建行人重识别分类器的具体方法如下：设带标签的训练集共有N张训练样本，分为T个不同的身份，每个训练样本均包括一个身份标签，则损失函数L的定义为：

在所述步骤(1.2)中，利用域映射模型将目标数据集样本映射到原数据集上，具体是指在样本映射模型中，将目标数据中的样本一一映射到原数据集中；其中所述的样本映射模型包含两个生成器完成映射任务，即：G:I_S→I_T和H:I_T→I_S，

另外，所述的域映射模型还具有两个判别器，即D_S和D_T，

同理，D_T是用来判断输入样本是来自于目标数据集，亦或是由G(I_s)生成；所述的判别器和生成器的损失函数来自循环一致性对抗损失，采用最小二乘损失来优化每一对生成器和判别器；

举例来说，对于生成器H:I_T→I_S来说，其损失函数定义为：

最小化上述损失函数的目的是为了将目标数据集中的样本(x＝1,2)映射到原数据集中，并让判别器D_S认为这个输入样本是来自于真实的原数据集中，而不是由生成器H:I_T→I_S生成的；同理，对于判别器D_S的损失函数定义为:

对于这里的判别器D_S来讲，其任务是来判断输入样本是来自于原数据集，还是由H(I_T)生成的，可以很清楚的看出，L_H和是一对对抗损失，同时给生成器G:I_S→I_T定义为：

为判别器D_T的损失函数，其定义为:

为了避免样本转换之间出现大的差异，本发明引入了循环一致性损失，其定义为：

在优化阶段，采取了随机梯度下降的方法来优化两对生成器与判别器；本发明将上述的损失函数相结合并赋予了一些权重，最终得到的对与生成器需要优化的损失函数为：

L_gen＝L_G+L_F+λL_cycle

式中，λ控制了循环一致性损失影响整个损失函数的程度；本发明将所有判别器的损失函数融合在一起，其式如下：

在每一次的迭代过程中会使用L_gen，采用随机梯度下降的反向传播方法更新G和H的参数；使用同样的方法对L_dis梯度下降，更新D_T和D_S的参数。

在步骤(1.3)中，利用DCGAN优化映射模型的具体操作方法如下为：经过步骤(1.2)之后，得到的两个生成器，G和H；分别是可以从不带标签的域映射到带标签域上的生成器和可以从不带标签的域映射到不带标签域上的生成器；当两个数据集之前的分布存在的差距较大时，经步骤(1.2)得到的生成器的映射往往产生模糊效果，丢失掉一些细节信息，不能很好的将在有标签的原数据集上训练得到的分类器拟合到由生成器H得到的H(I_T)上，因此利用DCGAN来进一步减少由H得到的从目标数据集映射得到的样本与原数据集上样本间的差异；

本发明所述的模型中所使用的DCGAN的生成器的输入不是来自于噪声分布，而是由H构成，损失函数就是步骤(1.2)中的全体损失函数，所述的判别器则是利用来自原数据集上的样本和由生成的从目标数据集映射到原数据集上的样本作为输入；

其中，判别器设置4层卷积层；为了防止梯度消失与梯度爆炸，每层卷积之间加入了局部归一层；除全连接层使用sigmoid激活函数以外，其余的激活函数统一使用LeakyRelu；由于判别器的实质是Logistic回归，将这部分损失函数定义为sigmoid交叉熵最为合适；设置标签值y_i，预测值为则经过激活函数输出为/>设样本总数为N，得到的损失函数表达式为：

其中，对抗学习的博弈性就体现在标识符i的取值上，不同的取值会引发不同的运算逻辑；对于判别器而言，当i＝1时，表示输入为真实数据，对应标签y_i＝1为真，触发针对判别器的训练；当i＝2时，表示输入为生成图像，对应y_i＝0为假，触发判别器与生成器的联动；对于生成器，i＝3表示输入为生成图像，对应y_i＝1为真，触发针对生成器的训练。

在步骤(1.4)中，所述相关算法优化的具体操作方法如下：为了使得模型具备较好泛化能力，避免过度拟合以达到良好的均衡性，本发明引入了正则化概念；其中，L1、L2正则可分别表达为：

L1(θ)＝α∑_i|θ_i|

因此，本发明在生成器的损失函数构建中，在损失函数后又加上L2正则化式子，如下式所示，

其中，α设为0.0001。

在之后的网络训练过程中，本发明采用了学习率衰减策略以加快训练速度；原因是，如果学习率固定不变，当到了训练后期会导致梯度在收敛的附近摆动不定。较大的学习率会实现非常快的收敛，因此在初期会采用一个较大的值；到了后期，较小的学习率可以使得收敛步伐减小，避免结果摆动；学习率衰减策略可以表示为下式；每当训练一定次数，学习率将会减少一点；其中decay_rate为初始系数，epoch_i表示第i次训练，α₀是初始学习率；如下式所述：

具体实施例：

在真实场景中，将行人图像进行人为标注是费时费力的，并且相较于已经标注过的行人图像来说，未标注的行人图像的数量更为庞大，且更具有实际应用意义。同时，由于不同摄像机因其拍摄角度、拍摄时间、分辨率不同等，往往拍出的图像具有很大的风格(域)差异，这会导致在某一个域上训练得到的行人重识别模型无法使用到不同域的行人数据集上，准确率会有一个锐减出现。为解决这个问题，可以使用到本发明中的，将没有标签的域上的行人图像样本迁移(映射)到带有标签的域上，这样在有标签的域上得到的行人重识别模型就能够应用到任何一个不带标签的行人数据集上，并且准确率也不会发生骤减。这大大减少了人工标注的时间、金钱成本，同时将学术上的研究拓展到更具普遍性的实际应用环境中。

最后，应当理解的是，本发明中所述实施例仅用以说明本发明实施例的原则；其他的变形也可能属于本发明的范围；因此，作为示例而非限制，本发明实施例的替代配置可视为与本发明的教导一致；相应地，本发明的实施例不限于本发明明确介绍和描述的实施例。

Claims

1.一种基于对抗神经网络的跨域行人重识别方法，其特征在于，具体步骤包括如下：

其中，所述构建行人重识别分类器的具体方法如下：设带标签的训练集共有N张训练样本，分为T个不同的身份，每个训练样本均包括一个身份标签，则损失函数L的定义为：

式中，表示输入样本I_n属于类T_n的可能性，L表示分类器损失，N表示待分类样本数，n表示待分类样本，y_j表示j所属类别，j表示待分类样本；

利用域映射模型将目标数据集样本映射到原数据集上，具体是指在样本映射模型中，将目标数据中的样本一一映射到原数据集中；其中所述的样本映射模型包含两个生成器完成映射任务，即：G:I_S→I_T和H:I_T→I_S，

另外，所述的域映射模型还具有两个判别器，即D_S和D_T，

对于生成器H:I_T→I_S来说，其损失函数定义为：

最小化上述损失函数的目的是为了将目标数据集中的样本映射到原数据集中，其中，x＝1,2；

并让判别器D_S认为这个输入样本是来自于真实的原数据集中，而不是由生成器H:I_T→I_S生成的；同理，对于判别器D_S的损失函数定义为：

对于这里的判别器D_S来讲，其任务是来判断输入样本是来自于原数据集，还是由H(I_T)生成的，可看出，L_H和是一对对抗损失，同时给生成器G:I_S→I_T定义为：

为判别器D_T的损失函数，其定义为:

为了避免样本转换之间出现大的差异，引入了循环一致性损失，其定义为：

在优化阶段，采取了随机梯度下降的方法来优化两对生成器与判别器；将上述的损失函数相结合并赋予了一些权重，最终得到的对与生成器需要优化的损失函数为：

L_gen＝L_G+L_F+λL_cycle；

式中，λ控制了循环一致性损失影响整个损失函数的程度；将所有判别器的损失函数融合在一起，其式如下：

在每一次的迭代过程中会使用L_gen，采用随机梯度下降的反向传播方法更新G和H的参数；使用同样的方法对L_dis梯度下降，更新D_T和D_S的参数；

利用DCGAN优化映射模型的具体操作方法如下为：对于得到的两个生成器，G和H；分别是可以从不带标签的域映射到带标签域上的生成器和可以从不带标签的域映射到不带标签域上的生成器；当两个数据集之前的分布存在差距时，则两个生成器的映射往产生模糊；不能将在有标签的原数据集上训练得到的分类器拟合到由生成器H得到的H(I_T)上；

所述的模型中所使用的DCGAN的生成器的输入不是来自于噪声分布，而是由H构成，损失函数就是步骤(1.2)中的全体损失函数，所述的判别器则是利用来自原数据集上的样本和由生成的从目标数据集映射到原数据集上的样本作为输入；

其中，判别器设置4层卷积层；为了防止梯度消失与梯度爆炸，每层卷积之间加入了局部归一层；除全连接层使用sigmoid激活函数以外，其余的激活函数统一使用LeakyRelu；设置标签值y_i，预测值为则经过激活函数输出为/>设样本总数为N，得到的损失函数表达式为：

其中，对抗学习的博弈性就体现在标识符i的取值上；对于判别器，当i＝1时，表示输入为真实数据，对应标签y_i＝1为真，触发针对判别器的训练；当i＝2时，表示输入为生成图像，对应y_i＝0为假，触发判别器与生成器的联动；对于生成器，i＝3表示输入为生成图像，对应y_i＝1为真，触发针对生成器的训练；

步骤(1.4)、相关算法优化：引入正则化，使模型具备较好泛化能力，避免过拟合；

所述相关算法优化的具体操作方法如下：引入正则化概念，其中，L2正则可分别表达为：

其中，α设为0.0001；

在之后的网络训练过程中，采用学习率衰减策略以加快训练速度；学习率衰减策略可表示为下式；每当训练一定次数，学习率将会减少；其中decay_rate为初始系数，epoch_i表示第i次训练，α₀是初始学习率；如下式所述：