CN113657176A

CN113657176A - 一种基于主动对比学习的行人重识别实现方法

Info

Publication number: CN113657176A
Application number: CN202110832335.XA
Authority: CN
Inventors: 刘贵松; 解修蕊; 郑余; 黄鹂; 杨新; 蒋太翔
Original assignee: Southwestern University Of Finance And Economics; University of Electronic Science and Technology of China Zhongshan Institute
Current assignee: Southwestern University Of Finance And Economics; University of Electronic Science and Technology of China Zhongshan Institute
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2021-11-16

Abstract

本发明公开了一种基于主动对比学习的行人重识别实现方法，涉及人工智能中的计算机视觉领域。本发明包括主动学习模块，对比学习模块。首先通过一个基于损失预测的主动学习模块来挑选高价值样本，设置主动学习每次选取的数量为_Bt，再经由人工进行标记，得到行人标记ID。然后将标记好的样本送入对比学习模块，拥有相同标记ID的样本定义为正样本，不一致标记ID的样本定义为负样本，再优化对比损失，使得相同ID的行人样本特征分布更为接近，距离更小；不同ID的样本特征分布更远，距离更大。

Description

一种基于主动对比学习的行人重识别实现方法

技术领域

本发明属于人工智能中的计算机视觉领域，涉及一种基于主动对比学习的行人重识别实现方法。

背景技术

在计算机视觉领域中，行人重识别是其中最为重要的任务之一，即在给定某个行人监控图像的情况下，需在跨监控设备的大量行人图像中检索出该行人图像的任务。另外，行人重识别通常可与行人追踪技术结合，在智能视频监控，智能安保等领域中有很广泛的应用。但由于不同监控设备的差异性以及行人的动态性等，使得行人重识别时难度重重，且效果不佳。目前行人重识别的研究主要分为全监督学习，半监督学习以及无监督学习三种。

全监督学习已经取得了很大的进展，但基于全监督学习的行人重识别需要大量标记ID的行人样本做数据支撑，而大量数据标记的获取既耗时又费力，代价极高；无监督学习通常是生成伪标签来训练模型，虽然并不需要行人样本实际的标记ID，但是生成的伪标签有误，会影响模型的训练，进而影响准确率，而且无法判别并利用未知标记数据集中的关键行人样本信息。基于半监督学习的行人重识别可在一定预算范围内通过主动学习方法挑选出一定量的关键行人样本，经由人工标记后，得到准确的关键行人样本信息。再经由对比学习对行人样本特征进行细粒度地调整与更新，使得相同ID的行人样本特征距离远小于不同ID的行人样本特征距离，再筛选出与查询行人ID距离最近的图像即可。

目前，主动学习方法主要包括查询获取和查询合成两种。其中大多数主动学习方法是基于查询获取提出的即通过设计某种采样规则来选取未知样本中最有价值性的样本进行标记。主动学习的一般过程如下：从未知样本U中随机选取少量样本经由专家S标记后，将标记样本L送往主动学习模块中进行模型训练，然后通过查询规则又从U中选取样本由S标记，此后不断循环。但是由于行人重识别数据集的特殊性，对行人细粒度特征要求高，仅靠主动学习要达到高的检索准确率，仍然需要大量的标记样本进行模型训练。

对比学习是自监督学习的一种，一般不需要人工标记的类别标签信息，无监督情况下，通过生成伪标签来帮助模型训练。但是伪标签的生成有误，会影响模型性能，所以我们基于主动学习在一定预算范围内标记出准确的行人ID标签，以此替代伪标签，让对比学习更能准确地进行比较学习，使得相同ID的行人样本特征距离远小于不同ID的行人样本特征距离。这体现了对比学习的核心思想就是正样本和负样本在特征空间的对比，重点在于如何构造正负样本。目前对比学习的研究中有通过数据增强，聚类算法等手段进行正负样本的构造。

虽然目前基于主动对比学习的行人重识别相关研究较少，但是主动学习和对比学习的研究已比较成熟，所以在结合主动学习和对比学习方面，面临的关键问题是：

1、如何实现对大型未知标记的行人数据集的主动学习；

2、在对比学习模块中如何构造正负样本；

3、如何实现主动学习与对比学习的结合。

发明内容

本发明的目的在于：提供了一种基于主动对比学习的行人重识别实现方法，解决了

本发明采用的技术方案如下：

一种基于主动对比学习的行人重识别实现方法，包括以下步骤：

S1：在主动学习模块中，通过损失预测模型将未知标记数据集D进行损失预测损失值从高到低的排序，且每次主动选取损失值排在前B_t个的样本，多次选取的样本总和记为N'，其中

x_i表示第i个样本；

S2：将在主动学习模块中选取到的行人样本输入给人工进行标记，标记好的样本记录为D'，其中

y_i∈{1,2,...,Y}表示第i个样本的标记ID，Y表示总的行人ID类别数；标记好行人样本后，如果还没到达循环终止条件，则重复进行S1和S2步骤；

S3：将拥有行人ID标记的样本送往对比学习模块，在这个模块中，保存每一类行人ID的中心特征，记录为K[j]∈R^d×Y，其中R^d×Y表示为所有类别行人的中心特征，d表示为特征维数；在反向传播过程中，不断更新此特征；

S4：在对比学习模块中，利用保存的样本特征，对对比损失L_c进行优化，使得具有相同ID的行人样本特征更为聚拢，即同ID的行人样本之间的距离远小于不同ID之间的距离；

S5：将行人重识别任务的测试集输入完成训练的对比学习模块，验证算法Top1和mAP的准确率。

进一步地，所述S1和S2中，根据损失预测损失值选取损失值大的行人样本进行人工标记，损失预测损失函数Loss定义如下：

其中

表示为实际损失，于主动学习模块中的目标预测子模块得到，

表示行人样本的预测标记ID，y表示该行人样本的实际标记ID，

为第i个样本预测的标签,y_i为第i个样本的实际标签；

表示为预测损失，于主动学习模块中的损失预测子模块得到，

表示样本对的预测损失，l_p表示样本对的实际损失，样本对x_p＝(x_i,x_j)是指每B个参与训练的样本划分为B/2个样本对，

和

分布表示样本x_i和x_j的预测损失，l_i和l_j分布表示样本x_i和x_j的实际损失，ε为一个设定为1的正标量,λ为比例常数。

进一步地，所述S3中，对行人ID中心特征的更新如下：

K[j]←μK[j]+(1-μ)f_θ(x_i)

其中，K[j]表示为第j类行人ID的中心特征，μ∈[0,1]表示为更新率，f_θ(x_i)表示为第i个样本的特征。

进一步地，所述S4中，对比损失定义如下：

其中，K[y_i]表示为标记ID类别为y_i的中心特征，T为一个常量系数。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明实现了在大型未知行人数据集上的主动学习，筛选出了高价值行人样本，进行标记后提供了准确的行人标记样本。

2、本发明构造了相同ID标记的为正样本，不同ID标记的负样本，通过正负样本的对比学习对行人样本特征进行细粒度地调整与更新，使得相同ID的行人样本特征距离远小于不同ID的行人样本特征距离，再筛选出与查询行人ID距离最近的图像即可。

3、本发明实现了主动学习与对比学习的结合，解决了行人重识别中主动学习对标记样本量的高需求问题以及对比学习中的伪标签问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图，其中：

图1是本发明实施方式的流程示意图；

图2是本发明提出的基于主动对比学习的行人重识别实现方法的框架图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合实施例对本发明的特征和性能作进一步的详细描述。

实施例一

如图1所示，本实施例提供一种基于主动对比学习的行人重识别实现方法，大致流程如下所示：

S1：首先通过一个基于损失预测的主动学习模块来挑选高价值样本，设置主动学习每次选取的数量为B_t；

S2：再将选取的行人样本经由人工进行标记，得到行人标记ID；

S3：然后将标记好的样本送入对比学习模块，拥有相同标记ID的样本定义为正样本，不一致标记ID的样本定义为负样本，再优化对比损失，使得相同ID的行人样本特征分布更为接近，距离更小；不同ID的样本特征分布更远，距离更大；

S4：将行人重识别任务的测试集输入完成训练的对比学习模块，进行效果测试。

实施例二

如图2所示，本实施例在实施例1的基础上进一步细化，提供基于主动对比学习的行人重识别具体的方法，包括如下步骤：

所述S1中，通过一个基于损失预测的主动学习模块来挑选高价值样本，具体为：

S1.1：该主动学习模块细分为目标预测模块和损失预测模块构成。其中目标预测模块由多个中间特征层，输出层以及Softmax层构成，用于对输入未知行人标记数据样本的标签预测；损失预测模块则由多个功能层，FC层组成，其中功能层用于处理目标预测模块中的特征层产生的中间结果，该模块用于生成损失预测。

S1.2：在主动学习模块中，通过损失预测模型将未知标记数据集D进行损失预测损失值从高到低的排序，再主动选取损失值排在前的样本，选取的样本总和记为N'，其中

x_i表示第i个样本；

S1.3：损失预测损失函数Loss定义如下：

其中

为第i个样本预测的标签,y_i为第i个样本的实际标签；

和

分布表示样本x_i和x_j的预测损失，l_i和l_j分布表示样本x_i和x_j的实际损失，ε为一个设定为1的正标量,λ为比例常数；

所述S2中对选取的行人样本进行ID标记，具体为：

S2.1：将在主动学习模块中选取到的行人样本输入给人工进行标记，标记好的样本记录为D'，其中

y_i∈{1,2,...,Y}表示第i个样本的标记ID，Y表示总的行人ID类别数；

所述S3中，将标记好的行人样本送入对比学习模块，优化对比损失，具体为：

S3.1：将拥有行人ID标记的样本送往对比学习模块，在这个模块中，保存每一类行人ID的中心特征，记录为K[j]∈R^d×Y，其中R^d×Y表示为所有类别行人的中心特征，d表示为特征维数。在反向传播过程中，不断更新此特征；

S3.2：对行人ID中心特征的更新如下：

K[j]←μK[j]+(1-μ)f_θ(x_i)

其中，K[j]为第j类行人ID的中心特征，μ∈[0,1]为更新率，f_θ(x_i)为第i个样本的特征；

S3.3：在对比学习模块中，利用保存的样本特征，对对比损失_Lc进行优化，使得具有相同类别ID的行人样本特征更为聚拢，不同类别ID的行人样本特征相互远离，即同类别ID的行人样本之间的距离远小于不同类别ID之间的距离；

S3.4：对比损失定义如下：

其中，K[y_i]表示为标记ID类别为y_i的中心特征，T为一个常量系数；

本实例采用损失预测的主动学习，可在大型未知行人数据集上的进行主动学习，筛选出高价值行人样本，进行标记后可提供准确的行人标记样本。再通过构造相同ID标记的为正样本，不同ID标记的负样本，利用正负样本的对比学习对行人样本特征进行细粒度地调整与更新，使得相同ID的行人样本特征距离远小于不同ID的行人样本特征距离。实现了主动学习和对比学习的结合，解决了行人重识别中主动学习对标记样本量的高需求问题以及对比学习中的伪标签问题，使得基于部分已知行人ID样本的检索准确率优于基于全部已知行人ID样本的准确率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明的保护范围，任何熟悉本领域的技术人员在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。