CN111126155A

CN111126155A - 一种基于语义约束生成对抗网络的行人再识别方法

Info

Publication number: CN111126155A
Application number: CN201911168390.2A
Authority: CN
Inventors: 刘爽; 司统振; 郝晓龙; 张重
Original assignee: Tianjin Normal University
Current assignee: Tianjin Normal University
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2020-05-08
Anticipated expiration: 2039-11-25
Also published as: CN111126155B

Abstract

本发明实施例公开了一种基于语义约束生成对抗网络的行人再识别方法，该方法包括：构建语义约束生成对抗网络；将训练集中真实的行人图像输入语义约束生成对抗网络以对其进行优化；根据行人目标镜头标签，生成不同风格的行人图像；构建行人图像特征深度学习网络；基于生成的行人图像，利用软标签交叉熵损失计算行人图像损失值，基于真实的行人图像，利用交叉熵损失计算真实图像损失值；结合两种损失值，共同优化图像特征深度学习网络，以进行行人识别。本发明充分利用语义约束生成对抗网络学习行人图像语义信息，生成高质量的行人图像，利用生成的行人图像和真实的行人图像共同优化行人图像特征深度学习网络，进一步提高了行人再识别的匹配正确率。

Description

一种基于语义约束生成对抗网络的行人再识别方法

技术领域

本发明属于模式识别、人工智能领域，具体涉及一种基于语义约束生成对抗网络的行人再识别方法。

背景技术

随着社会经济的发展，我国在公共及私人场所等安装了大量的监控摄像头，用于保障人民的生命、财产安全。面对海量的监控视频数据，人工审核方式不仅浪费大量的人力资源，而且效率低下、易出错，因此人工审核的方法已经不能满足实际需求。行人再识别(Person Re-Identification)技术能够搜索不同摄像头下拍摄的相同行人，自动进行目标行人定位，可以弥补人工审核方式的不足，在工业界和学术界引起了广泛关注。

近年来，研究者将深度学习技术应用到行人再识别领域，大幅度提高了行人识别的准确率。然而，由于人体姿态、光照、背景等因素的变化，训练集和测试集之间存在较大差距，使得行人再识别技术仍面临巨大的挑战。解决该问题的首选方法是增加训练样本数量，以提高深度模型的泛化能力。然而，收集并标注大量的训练样本具有非常大的代价，而且不容易实现。

目前，一个可替代的解决方法是进行数据增强。常用的数据增强方法主要有随机裁剪、随机翻转和随机擦除。近年来，生成对抗网络(Generative Adversarial Network)和它的一些变形被应用在行人再识别领域，用来产生假的行人图像，以增加训练样本数量。Zheng等人利用深度卷积生成对抗网络(Deep Convolutional GAN)产生虚拟行人图像，并把这些产生的图像当作新的一类样本，用以优化行人再识别模型。Wei等人提出行人迁移生成对抗网络(Person Transfer GAN)，用以转化行人图像的背景，增加行人样本的多样性，减小训练集和测试集之间的差距。Zhong等人训练多个循环一致生成对抗网络(Cycle-Consistent GAN)，用以转换行人图像的镜头风格，使生成的行人图像保持原有的行人标签，增加训练样本数量，进一步提高了行人再识别的结果。这些利用生成对抗网络生成行人图像的方法注重行人的可视化效果，忽视了行人图像的语义信息，造成了行人图像有效信息的损失，使产生的行人图像样本质量不高。

发明内容

本发明的目的是要解决生成的行人图像语义信息丢失，并且行人图像样本不足的问题，为此，本发明提供一种基于语义约束生成对抗网络的行人再识别方法。

为了实现所述目的，本发明提出的一种基于语义约束生成对抗网络的行人再识别方法包括以下步骤：

步骤S1，构建基于深度学习的语义约束生成对抗网络；

步骤S2，确定训练集，并将所述训练集中真实的行人图像输入至所述基于深度学习的语义约束生成对抗网络中，以对于所述基于深度学习的语义约束生成对抗网络进行优化，得到优化的基于深度学习的语义约束生成对抗网络；

步骤S3，基于所述优化的基于深度学习的语义约束生成对抗网络，根据行人目标镜头标签，生成不同风格的行人图像，其中，所述行人图像的风格与拍摄所述行人图像的摄像设备数量相关；

步骤S4，确定预训练的第二深度学习模型，构建行人图像特征深度学习网络；

步骤S5，基于生成的行人图像和行人图像特征深度学习网络，利用软标签交叉熵损失函数计算每幅行人图像的损失值，基于真实的行人图像和所述行人图像特征深度学习网络，利用交叉熵损失计算每幅真实图像的损失值；

步骤S6，每次小批量随机选取V幅生成的行人图像和U幅真实的行人图像组成小批量样本，根据所述每幅行人图像的损失值和每幅真实图像的损失值，计算所述小批量样本的总损失，以优化所述行人图像特征深度学习网络；

步骤S7，基于所述优化的行人图像特征深度学习网络，提取待识别行人图像的特征进行识别，得到行人识别结果。

可选地，所述第二深度学习模型为基于所述第一深度学习模型的调整模型。

可选地，所述步骤S1包括以下步骤：

步骤S11，构建所述基于深度学习的语义约束生成对抗网络中的生成器G；

步骤S12，构建所述基于深度学习的语义约束生成对抗网络中的判别器D；

步骤S13，确定预训练的第一深度学习模型，构建所述基于深度学习的语义约束生成对抗网络中的行人分类模型F，得到所述基于深度学习的语义约束生成对抗网络。

可选地，所述步骤S2包括以下步骤：

步骤S21，利用对抗损失L_adv、重构损失L_rec、显著性约束损失L_att、镜头分类损失

和标签约束损失L_ide共同优化所述基于深度学习的语义约束生成对抗网络中的生成器G；

步骤S22，利用对抗损失L_adv和镜头分类损失

共同优化所述可语义约束生成对抗网络中的判别器D；

步骤S23，利用交叉熵损失L_cro优化所述基于深度学习的语义约束生成对抗网络中的行人分类模型F。

可选地，所述步骤S21中，整体优化损失函数L_G表示为：

其中，λ_rec，λ_att，

和λ_ide分别表示控制对应损失的权重。

可选地，所述步骤S22中，整体优化损失函数L_D表示为：

其中，

表示控制镜头分类损失的权重。

可选地，所述步骤S23中，交叉熵损失L_cro表示为：

其中，F_k(x)表示行人分类模型F预测的行人图像x属于第k类的概率，K为训练集中训练样本的总类别数，q(k)表示真实的行人图像标签分布，E_x,k表示基于变量x和k的最后期望值。

可选地，所述步骤S5包括以下步骤：

步骤S51，基于生成的行人图像和行人图像特征深度学习网络，使用软标签交叉熵损失函数计算得到每幅行人图像的损失值；

步骤S52，基于真实的行人图像和所述行人图像特征深度学习网络，使用交叉熵损失函数计算得到每幅真实图像的损失值。

可选地，所述步骤S6中，总损失函数L_T表示为：

其中，

表示小批量样本中第i个真实行人图像的损失值，

表示小批量样本中第j个生成行人图像的损失值。

本发明的有益效果为：本发明通过语义约束生成对抗网络，学习行人图像的语义信息，最后能生成高质量的行人图像，增加了行人样本的多样性，通过结合真实的行人图像与生成的行人图像，优化行人再识别网络，进一步提高了行人图像特征的判别性，提高了行人再识别搜索的正确率。

需要说明的是，本发明得到了国家自然科学基金项目No.61501327、No.61711530240，天津市自然科学基金重点项目19JCZDJC31500、No.17JCZDJC30600，天津师范大学“青年科研拔尖人才培育计划”No.135202RC1703，模式识别国家重点实验室开放课题基金No.201800002和天津市高等教育创新团队基金项目资助。

附图说明

图1是根据本发明一实施例的一种基于语义约束生成对抗网络的行人再识别方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

图1是根据本发明一实施例的一种基于语义约束生成对抗网络的行人再识别方法流程图，下面以图1为例来说明本发明的一些具体实现流程，如图1所示，所述基于语义约束生成对抗网络的行人再识别方法包括以下步骤：

步骤S1，构建基于深度学习的语义约束生成对抗网络；

进一步地，所述步骤S1包括以下步骤：

在本发明一实施例中，所述基于深度学习的语义约束生成对抗网络中的生成器G包括2个步长为2的卷积层，6个残差块和2个步长为2的反卷积层。

在本发明一实施例中，所述基于深度学习的语义约束生成对抗网络中的判别器D包括6个步长为2的卷积层和2个步长为1的卷积层。

在本发明一实施例中，所述行人分类模型F所采用的预训练的第一深度学习模型可选为ResNet-50，且只使用其中最后一个平均池化层之前的部分，其中，该预训练模型由4个block(块)组成。

进一步地，所述步骤S2包括以下步骤：

和标签约束损失L_ide共同优化所述基于深度学习的语义约束生成对抗网络中的生成器G，其中，整体优化损失函数可表示为：

其中，λ_rec，λ_att，

和λ_ide分别表示控制对应损失的权重，在本发明一实施例中，权重λ_rec，λ_att，

和λ_ide可分别设为10，1，1和1。

步骤S22，利用对抗损失L_adv和镜头分类损失

共同优化所述可语义约束生成对抗网络中的判别器D，其中，整体优化损失函数可表示为：

其中，

表示控制镜头分类损失的权重，在本发明一实施例中，权重

可设为1。

步骤S23，利用交叉熵损失L_cro优化所述基于深度学习的语义约束生成对抗网络中的行人分类模型F，其中，交叉熵损失L_cro可表示为：

其中，F_k(x)表示行人分类模型F预测的行人图像x属于第k类的概率，K为训练集中训练样本的总类别数，q(k)表示真实的行人图像标签分布，如果获取的行人图像属于第k类，那么q(k)＝1，否则q(k)＝0，E_x,k表示基于变量x和k的最后期望值。

在本发明一实施例中，在Market1501数据库中进行训练时，所述K的值可取为751。

进一步地，所述步骤S21中，所述对抗损失L_adv可表示为：

其中，x表示输入的真实行人图像，D_src(x)表示判别器D对输入的真实图像x的预测概率分布，E_x表示基于变量x的最后期望值，c_t表示为目标镜头标签，G(x,c_t)表示生成器G依据镜头标签c_t产生的生成行人图像，D_src(G(x,c_t))表示判别器D对生成行人图像G(x,c_t)的预测概率分布，

表示基于变量x,c_t的最后期望值。所述目标镜头标签指的是用于表征目标镜头，即想要转化成的镜头风格，的标签信息，比如，Market1501数据库由6个摄像头拍摄得到，若其中一幅行人图像由第1个摄像头拍摄，即具有镜头风格1，想要基于这幅图像生成镜头风格分别为2、3、4、5和6的图像，当当前需要生成镜头风格为2的图像时，目标镜头标签就可以设置为2，同理，当当前需要生成镜头风格为3的图像时，目标镜头标签就可以设置为3。

进一步地，所述步骤S21中，所述重构损失L_rec可表示为：

其中，||·||₁代表1范数，

表示基于变量x,c_s,c_t的最后期望值。

进一步地，所述步骤S21中，所述显著性约束损失L_att可表示为：

其中，⊙表示对应位置元素相乘，A(x)表示计算的显著性区域。

进一步地，所述显著性约束损失L_att中，所述显著性区域A(x)可表示为：

其中，T_l(x)表示真实行人图像x在所述基于深度学习的语义约束生成对抗网络的分类模型F中提取的卷积激活图的第l层，K_s()表示将前s％个大的数值设置为1，其余数值设置为0。

在本发明一实施例中，所述卷积激活图可在所述分类模型F中的第二个块提取，所述s的值可设为30。

进一步地，所述步骤S21中，所述镜头分类损失

可表示为：

其中，D_cls(c_t|G(x,c_t))表示预测生成的行人图像G(x,c_t)属于镜头标签c_t的概率。

进一步地，所述步骤S21中，所述标签约束损失L_ide可表示为：

其中，K表示训练集中行人类别的总数，F_k(x)表示分类模型F预测的行人图像属于第k类的概率，p(k)表示预测的真实行人图像的标签分布，

表示基于变量x,c_t,k的最后期望值。

在本发明一实施例中，在Market1501数据库中进行训练时，所述K的值可设为751。

进一步地，所述预测的真实行人图像的标签分布p(k)可表示为：

其中，

表示所述基于深度学习的语义约束生成对抗网络中分类模型F对行人图像x的预测标签。

在本发明一实施例中，依据Market1501数据库中真实的行人图像产生样本时，由于该数据集中每类行人由6个摄像头拍摄，即共有6种镜头风格，可利用所述优化的基于深度学习的语义约束生成对抗网络为每幅行人图像产生其余5种镜头风格的行人图像。

在本发明一实施例中，所述行人图像特征深度学习网络所采用的预训练的第二深度学习模型可以不同，也可以与所述第一深度学习模型相同，为ResNet-50，其中，将ResNet-50中第四个块的步长由原来的2改为1，并且去掉最后一个全连接层，将其替换为卷积层执行降维操作，将卷积层的输出作为行人图像特征，其中，所述行人图像特征为512维度。上文提及，ResNet-50由4个block组成，每个block均能执行降采样操作，以将图像对半降低尺度，比如64*64的图像降采样之后为32*32，本实施例将第四个块的步长由原来的2改为1，也就相当于去除了第四个块的降采样功能，因此，也可以说所述第二深度学习模型为基于所述第一深度学习模型的调整模型。

进一步地，所述步骤S5包括以下步骤：

步骤S51，基于生成的行人图像和行人图像特征深度学习网络，使用软标签交叉熵损失函数计算得到每幅行人图像的损失值：

其中，K表示训练集中行人类别的总数，ε∈[0,1]代表对非真实标签信任度的超参数，l(k)表示预测的真实的行人图像属于第k类的预测概率，g代表行人图像的真实标签。

在本发明一实施例中，在Market1501数据库中进行训练时，所述K的值取为751，所述ε的值设为0.1。

步骤S52，基于真实的行人图像和所述行人图像特征深度学习网络，使用交叉熵损失函数计算得到每幅真实图像的损失值：

其中，K表示训练集中训练样本的总类别数，l(k)表示预测的真实的行人图像属于第k类的概率，q(k)表示真实行人图像标签的概率分布，如果真实行人图像属于第k类，即其标签为k，那么q(k)＝1，否则q(k)＝0。

步骤S6中，每次小批量随机选取V幅生成的行人图像和U幅真实的行人图像组成小批量样本，根据所述每幅行人图像的损失值和每幅真实图像的损失值，计算所述小批量样本的总损失，以优化所述行人图像特征深度学习网络，其中，总损失函数L_T可表示为：

其中，

表示小批量样本中第i个真实行人图像的损失值，

表示小批量样本中第j个生成行人图像的损失值。

在本发明一实施例中，在优化所述行人图像特征深度学习网络时，所选取的小批量样本中生成的行人图像数量V为24，真实的行人图像数量U为32。其中，通过迭代计算来调整所述行人图像特征深度学习网络框架的参数，以使得所述总损失L_T最小。

在本发明一实施例中，提取得到的行人图像特征维度为512。

其中，提取出待识别行人图像的特征之后，就可以基于提取得到的特征以及已知行人特征进行识别，比如对于两者进行欧氏距离等距离计算，再计算相似度，最终得到行人识别结果。

以网上公开的行人再识别大型数据库作为测试对象，比如在Market 1501数据库上测试时，本发明行人再识别正确搜索率达到93.3％(rank-1)和76.8(mAP)。本发明行人再识别方法有效地生成了高质量的行人图像，增加了行人图像的多样性，扩大了训练样本的数量，很大程度地提高了行人再识别正确搜索率，由此可见本发明方法的有效性。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。