CN115862055A

CN115862055A - 基于对比学习和对抗训练的行人重识别方法及装置

Info

Publication number: CN115862055A
Application number: CN202211431557.1A
Authority: CN
Inventors: 刘宏; 石邢越
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2023-03-28

Abstract

本发明公开了一种基于对比学习和对抗训练的行人重识别方法及装置，所述方法不仅设计了一基础模块，还利用对比学习和对抗训练的思想设计了视角混淆模块和身份原型模块。视角混淆模块利用对比学习的思想进行训练，并可借助视角判别器的梯度反转层，使基础模块的特征提取器获得混淆视角差异的能力。身份原型模块根据置信度取加权平均值作为身份原型，从而聚拢相同身份的样本特征的在特征空间中的分布。在视角混淆模块和身份原型模块的促进下，本发明提升了行人重识别性能。

Description

基于对比学习和对抗训练的行人重识别方法及装置

技术领域

本发明属于机器视觉的行为领域，也属于智能视频监控领域。本发明具体涉及一种基于对比学习和对抗训练的行人重识别方法及装置，旨在缓解视角差异降低行人重识别算法性能的问题。

背景技术

行人重识别是机器视觉领域的重要课题，同时也是近年来备受关注的前沿研究方向之一。它在智能监控、人机交互、虚拟现实等领域具有重要的理论研究意义和应用前景。其主要内容就是在多个摄像头中检索行人图像，它涵盖了图像处理、计算机视觉、模式识别与人工智能等多个学科。

视角差异是行人重识别中的一项挑战。由于视角差异，行人样本的类内差异增大，而类间差异可能减小，从而对识别性能造成不良影响。现有的针对视角差异的行人重识别算法大致可以分为两类：(1)基于数据的方法。这类方法使用生成对抗网络、图像合成和基于网络的视角生成器等手段扩充数据集，使数据集中包含更多来自不同视角的图像，以供特征提取器学习。(2)基于特征的方法。这类方法的主要思想即在特征空间中拉近相同身份类别特征的分布。

发明内容

本发明具体涉及一种基于对比学习和对抗训练的行人重识别方法及装置，旨在缓解视角差异降低行人重识别算法性能的问题。

本发明的技术内容包括：

一种基于对比学习和对抗训练的行人重识别方法，其特征在于，将待检测图像输入基础模块，得到行人识别结果，其中，

所述基础模块包括：特征提取器、身份分类器和Softmax层，所述特征提取器用于获取待检测图像的图像特征，所述身份分类器用于计算所述图像特征的分类概率校正值，所述Softmax层用于对分类概率校正值进行分类，得到行人识别结果；

所述基础模块的训练过程，包括：

根据训练所述基础模块的三元组损失与身份分类损失，得到基础损失，其中三元组包括：锚样本、正样本和负样本；

利用所述基础模块获取样本的样本多标签，并基于所述样本多标签，构建视角正/负样本对集合；

通过设有梯度反转层的视角判别器，对样本的图像特征进行降维，并基于视角正/负样本对集合与低维图像特征，获取指导特征提取器与视角判别器进行参数更新的视角混淆损失；

将所述样本多标签的第k个元素作为属于第k个身份类别的样本图像的分类置信度，并根据所述分类置信度对属于同一身份类别的图像特征求加权平均值，以得到所述身份类别的身份原型；

基于所述身份原型构建身份原型三元组，并获取训练时的身份原型三元组损失，其中，所述身份原型三元组包括：锚样本特征、正样本身份原型和负样本身份原型；

基于所述基础损失、视角混淆损失与身份原型三元组损失进行训练。

进一步地，所述身份分类器包括：批标准化层和全连接层。

进一步地，所述于所述样本多标签，构建视角正/负样本对集合，包括：

计算任两个样本多标签的一致性

其中y_i与y_j分表示样本i与样本j的多标签，k表示数据集中第k个身份类别，/>

表示样本i多标签的第k个元素；

计算视角正样本对集合的采样阈值

与视角负样本对集合的采样阈值/>

根据所述一致性A、采样阈值

与采样阈值/>

构建视角正/负样本对集合。

进一步地，视角混淆损失

其中，样本i对应的视角损失函数/>

bsz表示批次处理大小，/>

表示样本i对应的视角正样本对集合，/>

表示样本i对应的视角负样本对集合，z_i表示样本i对应的低维特征，τ表示对比学习温度参数。

进一步地，所述指导特征提取器与视角判别器进行参数更新，包括：

对于所述视角判别器的参数

其中，μ表示学习率；

对于所述特征提取器的参数

其中，λ表示所述梯度反转层的超参数。

进一步地，所述身份原型

其中，N表示身边类别k的样本数，

表示样本i多标签的第k个元素，feat_i表示样本i的图像特征。

进一步地，身份原型三元组损失

其中feat_A表示锚样本特征，IDP_P表示正样本身份原型，IDP_N表示负样本身份原型，m表示身份原型三元组损失边界。

一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一方法。

与现有技术相比，本发明至少具有以下优点：

1.本发明针对行人重识别任务中普遍存在的跨视角问题提出了CLATNet，并在多个通用数据集上实验验证了方法的有效性。

2.本发明基于对比学习和对抗训练的思路设计了视角混淆模块和身份原型模块，无需额外数据标记即可对基础模块进行性能提升。

3.本发明提出的CLATNet在训练阶段利用视角混淆模块和身份原型模块促使特征提取器提取到对视角变化更加鲁棒的特征，而在测试阶段只保留基础模块进行识别，整体网络规模轻量级，并保持较快的测试速度。

4.本发明提出的CLATNet有较强的可移植性，其中的基础模块可以替换为任意现有网络模型，由视角混淆模块和身份原型模块对其进行性能提升。

附图说明

图1是本发明的整体网络框架图

图2是本发明的视角混淆模块示意图

图3是本发明的身份原型模块示意图

图4是本发明对特征分布改进的可视化结果

具体实施方式

下面通过具体实施例和附图，对本发明做进一步说明。

本发明以残差神经网络ResNet50作为基础特征提取器，利用对比学习和对抗训练的思想设计了视角混淆模块和身份原型模块，针对视角差异问题促进性能。视角混淆模块中提出一个类似多层感知机结构的视角判别器，并利用对比学习的思想进行训练，不需额外视角标签。视角判别器中还包含一个梯度反转层，使视角判别器和特征提取器进行对抗训练，从而在使视角判别器在训练过程中获得识别视角差异的能力的过程中，特征提取器与之相对地获得混淆视角差异的能力。此外，本发明提出一个身份原型模块，模块中相同身份的样本特征根据置信度取加权平均值作为身份原型，再在身份原型的基础上进行身份原型三元组损失的计算，聚拢相同身份的样本特征的在特征空间中的分布。在视角混淆模块和身份原型模块的促进下，整体提出的网络CLATNet(Constrative Learning andAdversarial Training Network)相较基础的特征提取器有明显的性能提升。

1.对比学习和对抗训练促进的行人重识别网络CLATNet

整体网络CLATNet框架如图1所示。图像输入到基于ResNet50的特征提取器中得到2048维的特征，该特征之后分别输入到基础模块、视角混淆模块和身份原型模块。在训练阶段，CLATNet以三个模块损失函数的加权和作为优化目标。在测试阶段，仅保留基础模块，根据基础模块中身份分类器的输出得到行人身份识别结果。

在基础模块中，采取常用的三元组损失和身份分类损失组合作为训练的损失函数。三元组损失中的每个三元组包括一个锚样本，一个正样本和一个负样本，其中正样本与锚样本的身份标签相同，负样本与锚样本的身份标签不同，每个输入样本都作为锚样本与同训练批次内的其他样本构建三元组以计算三元组损失。视角混淆模块和身份原型模块利用对比学习的思想设计，可以无需额外标记地促进基础模块的性能。关于视角混淆模块和身份原型模块的介绍见后。

图4展示了增加视角混淆模块和身份原型模块前后的特征分布，可以看出本方法CLATNet提出的视角混淆模块和身份原型模块促进特征提取器增大类间距离、减小类内距离的能力。

2.视角混淆模块

一些现有方法将相机的标签作为视角标签，进行视角相关信息的学习。但该假设并不能很好地符合实际情况，因为相同相机内行人可能呈现出不同的视角方向，而不同相机内行人可能以类似的视角被采集图像，即相机标签和视角标签之间并没有严格的对应关系。为此，本发明利用对比学习的思想设计了视角混淆模块，不利用相机标签或额外标注视角标签，而是利用已知的样本身份标签和分类器给出的多标签一致性获得视角正负样本对进行对比学习。具体地，本发明提出以下两种假设：(1)如果两个样本具有相同的身份标签，而分类器给出的多标签一致性较低，则可以较为安全地认为是视角差异等外观上的区别给分类器带来了分类困难，记为视角不同的视角负样本对。(2)如果两个样本具有不同的身份标签，而分类器给出的多标签一致性较高，则可以较为安全地认为是视角的相似性给分类器带来了分类困难，记为视角相同的视角正样本对。视角判别器对特征提取器输出的2048维特征进行降维，得到128维特征，之后根据构建的视角正/负样本对集合，在128维特征上计算视角对比损失。在视角判别器获得识别视角差异的能力的过程中，通过视角判别器中的梯度反转层，特征提取器则与之对抗地获得混淆视角差异的能力。视角混淆模块示意图如图2所示。

训练模型时，首先根据特征提取器得到2048维特征，通过批标准化层，全连接层和Softmax层得到分类器的多标签(公式1)，之后由该多标签计算一致性A(公式2)。并根据样本身份标签和一致性阈值获得视角正负样本对(公式3-6)。对比学习的损失函数见公式7-8，该损失函数指导的特征提取器和视角判别器的参数更新见公式9-10。公式中涉及的符号含义见

表1：

表1

y_i＝Softmax(FC(BN(feat_i))) (1)

3.身份原型模块

由于视角差异，相同身份的特征可能会呈现出较大的差异，而既然身份是保持相同的，可以假设存在某种更少受视角差异影响的鲁棒表征，本方法设计了一种称为身份原型的表征。对属于第k个身份类别的样本，将该样本多标签的第k个元素作为其分类置信度。根据分类置信度，本方法将属于同一个身份的特征求加权平均值，将该平均值作为此身份的身份原型。基于以上提出的身份原型，进一步计算身份原型三元组损失，将原本的三元组损失中的正负样本替换为正负身份原型，从而聚拢相同身份的样本特征的在特征空间中的分布。

身份原型的定义见公式11，基于身份原型修改的身份原型三元组损失见公式12。公式中涉及的符号含义见表1。其中feat_A表示锚样本特征，IDP_P表示正样本身份原型，IDP_N表示负样本身份原型。

最后所应说明的是，以上实施案例仅用以说明本发明的技术方案而非限制，尽管使用事例对本发明进行了详细说明，本领域的普通技术人员应当理解，可对本发明的技术方案进行修改或者等价替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于对比学习和对抗训练的行人重识别方法，其特征在于，将待检测图像输入基础模块，得到行人识别结果，其中，

所述基础模块的训练过程，包括：

2.如权利要求1所述的方法，其特征在于，所述身份分类器包括：批标准化层和全连接层。

3.如权利要求1所述的方法，其特征在于，所述于所述样本多标签，构建视角正/负样本对集合，包括：

计算任两个样本多标签的一致性

表示样本i多标签的第k个元素；

计算视角正样本对集合的采样阈值

与视角负样本对集合的采样阈值/>

根据所述一致性A、采样阈值

与采样阈值/>

构建视角正/负样本对集合。

4.如权利要求1所述的方法，其特征在于，视角混淆损失

其中，样本i对应的视角损失函数/>

bsz表示批次处理大小，/>

表示样本i对应的视角正样本对集合，/>

5.如权利要求4所述的方法，其特征在于，所述指导特征提取器与视角判别器进行参数更新，包括：

对于所述视角判别器的参数

其中，μ表示学习率；/>

对于所述特征提取器的参数

其中，λ表示所述梯度反转层的超参数。

6.如权利要求1所述的方法，所述身份原型

其中，N表示身边类别k的样本数，/>

表示样本i多标签的第k个元素，feat_i表示样本i的图像特征。

7.如权利要求1所述的方法，其特征在于，身份原型三元组损失

其中feat_A表示，IDP_P表示，IDP_N表示，m表示身份原型三元组损失边界。

8.一种基于对比学习和对抗训练的行人重识别装置，包括：

基础模块，包括：特征提取器、身份分类器和Softmax层，所述特征提取器用于获取待检测图像的图像特征，所述身份分类器用于计算所述图像特征的分类概率校正值，所述Softmax层用于对分类概率校正值进行分类，得到行人识别结果；

所述基础模块，还用于基于训练所述基础模块的三元组损失与身份分类损失，得到基础损失；获取样本的样本多标签；

设有梯度反转层的视角混淆模块，用于基于所述样本多标签，构建视角正/负样本对集合；对样本的图像特征进行降维；基于视角正/负样本对集合与低维图像特征，获取指导特征提取器与视角判别器进行参数更新的视角混淆损失；

身份原型模块，用于将所述样本多标签的第k个元素作为属于第k个身份类别的样本图像的分类置信度，并根据所述分类置信度对属于同一身份类别的图像特征求加权平均值，以得到所述身份类别的身份原型；基于所述身份原型构建身份原型三元组，并获取训练时的身份原型三元组损失，其中，所述身份原型三元组包括：锚样本特征、正样本身份原型和负样本身份原型；

其中，所述基础模块基于基础损失、视角混淆损失与身份原型三元组损失训练得到。

9.一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一方法。

10.一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-7中任一方法。