CN115205570A

CN115205570A - 一种基于对比学习的无监督跨域目标重识别方法

Info

Publication number: CN115205570A
Application number: CN202211112425.2A
Authority: CN
Inventors: 王晓东; 韩晓蕊; 黄磊; 魏志强
Original assignee: Ocean University of China
Current assignee: Shandong Ocean Instrument Technology Center Co ltd
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2022-10-18
Anticipated expiration: 2042-09-14
Also published as: CN115205570B

Abstract

本发明属于图像处理技术领域，公开了一种基于对比学习的无监督跨域目标重识别方法，包括步骤1、构建无监督跨域目标重识别网络模型，为聚类样本生成伪标签；步骤2、构建基于相机原型的混合内存库；步骤3、基于混合内存库进行联合对比学习，生成可靠伪标签；步骤4、反复迭代步骤1‑步骤3，训练所述无监督跨域目标重识别网络模型；步骤5、将待识别的图像输入训练好的模型中，进行目标重识别，输出识别结果。通过本发明减轻了伪标签噪声对对比学习造成的影响，抑制了伪标签噪声的影响，提高目标识别精度。

Description

一种基于对比学习的无监督跨域目标重识别方法

技术领域

本发明属于图像处理技术领域，特别涉及一种基于对比学习的无监督跨域目标重识别方法。

背景技术

目标重识别是在非重叠摄像机中识别同一目标的一项具有挑战性和重要性的任务，由于其在人员跟踪和寻找丢失车辆等情景下的重要实际意义，得到了广泛的关注。现有的目标重识别方法根据使用标注数据的情况可分为：有监督目标重识别、半监督目标重识别和无监督目标重识别，其中无监督目标重识别又可以细分为纯无监督和无监督跨域。纯无监督指的是不使用任何人工标注的数据，首先在ImageNet上进行预训练然后在目标域上进行微调，得到在目标域上表现良好的模型。而无监督跨域目标重识别介于有监督和无监督之间，利用有标注的源域数据和未标注的目标域数据，首先在源域进行预训练，然后在目标域进行微调，最后得到一个在目标域表现优异的模型。一般地，有监督的目标重识别方法比无监督的方法能够获得更好的性能。但由于标签成本过高，有监督方法无法扩展到大型无标签数据集和新领域。因此，无监督的目标重识别方法因其在解决可扩展性问题方面的潜力而引起了越来越多的关注。

无监督跨域目标重识别的关键是如何利用有标注的源域数据和未标注的目标数据，学习一个在目标域中可区分性强的特征表示。现有的最先进的无监督跨域目标重识别方法利用聚类生成伪标签，并结合内存库来训练神经网络。在每次迭代中，通过对模型提取的图像特征进行聚类生成伪标签，所有实例的特征向量都存储在内存库中，用于对比学习。最后，基于内存库，使用对比损失、三元组损失或其他非参数分类损失来训练神经网络。由此可见，影响模型在目标域上表现的关键是源域数据与目标域数据之间的域间差距，以及目标数据本身的域内差距，造成聚类生成的伪标签存在噪声，进而影响可区分性特征的准确性。同时，对未标注的目标数据，如何减少噪声标签的影响以及在伪标签的监督下学习鉴别性的目标特征也是极为重要的。

对比学习的目的是最大限度地减少正样本之间的距离，同时增加负样本之间的距离，近些年来被广泛地应用于无监督特征学习领域，取得了显著的效果，但是这些方法仍然存在一些问题。首先，大多数基于聚类的无监督跨域目标重识别方法将每个聚类视为一个伪身份类，使用聚类质心执行对比学习，将样本与正质心拉近的同时推远负质心，但是同一簇的样本也存在较大差异，这种基于质心的对比学习却忽略了这较大的身份内差异。其次，由于伪标签噪声的存在，使用假的正负样本计算对比损失会阻碍特征学习。第三，有研究证明更多的困难负样本有利于对比学习。针对以上问题，本发明提出了一种基于对比学习的无监督跨域目标重识别方法，该方法能够处理较大的身份内差异并有效减轻伪标签噪声造成的影响，使模型学习到更具鉴别性的特征表示。

发明内容

针对现有技术存在的不足，本发明提供一种基于对比学习的无监督跨域目标重识别方法，设计混合内存库，并基于此进行对比学习，在计算对比损失时，联合使用相机原型计算对比损失，使得属于一个聚类的原型相互靠近，生成可靠伪标签；同时还设计正负样本选择策略并合成困难负样本，减轻伪标签噪声对对比学习的影响，提高目标重识别的精度。

为了解决上述技术问题，本发明采用的技术方案是：

一种基于对比学习的无监督跨域目标重识别方法，包括以下步骤：

步骤0、输入图像，构建有标签源域数据集和无标签目标域数据集；

步骤1、构建无监督跨域目标重识别模型进行特征提取与聚类：包括网络初始和内存初始化阶段；

网络初始化是通过在带标签的源域上预训练卷积神经网络CNN得到初始化模型；内存初始化是首先利用预训练得到的初始化模型提取源域特征

和目标域特征

，然后计算样本特征的相似性进而利用样本相似性对所有图像的特征进行聚类，将属于相同聚类的样本标记为同一类，生成伪标签；

步骤2、构建基于相机原型的混合内存库：

在每次聚类之后，根据摄像机信息将每个聚类分成多个组，每个组包含来自同一摄像机的样本，每个组的平均样本特征向量作为每个组的相机原型；

所述混合内存库存储了所有源域类心、源域相机原型、目标域聚类质心和目标域相机原型，将源域的类数记为

，目标域的聚类数记为

，并且模型迭代更新时，混合内存库也更新；

步骤3、基于混合内存库进行联合对比学习：

在对比学习中，使用联合对比学习损失，包括类心或质心级对比学习损失

和相机原型级对比学习损失

，使得样本向类心或质心靠近的同时属于一个聚类的原型也相互靠近；在对比学习中，基于混合内存库，选择可靠的正负样本并合成困难负样本；在计算相机原型级对比学习损失选择正负样本时，对于每一个query，从其正聚类包括的相机原型和负聚类包括的相机原型中分别取可靠的正和负样本，在合成困难负样本时，通过混合源域数据与目标域负样本合成困难负样本；

步骤4、反复迭代步骤1-步骤3，训练所述无监督跨域目标重识别模型；

步骤5、将待识别的图像输入训练好的模型中，进行目标重识别，输出识别结果。

进一步的，步骤2中，混合内存库中的每个条目通过以下方式更新：

为混合内存库中的第j个条目，

是内存更新率，

代表第i个样本，

是参数，

则是当前迭代该条目的样本特征。

进一步的，步骤3中，对于一个query，同时使用类心或聚类质心级对比学习损失和相机原型级对比学习损失，对比学习损失计算公式如下：

其中，

代表对比学习损失，

代表查询样本query，

是温度系数，m是用于对比学习的样本数，n是用于计算对比学习损失的正负样本数量和；

在计算类心或聚类质心级对比学习损失

时，如果query是源域特征，则

为query所属类别的类心，

为源域类心，将源域的类心级对比学习损失记为

；如果query是目标域特征，则

为query所属聚类的质心，

为目标域质心，将目标域的聚类质心级对比学习损失记为

；在计算相机原型级对比学习损失

时，如果query是源域特征，则

为query所属的相机原型，

为每个类的相机原型的平均值，将源域的相机原型级对比学习损失记为

；如果query是目标域特征，则

为query所属的相机原型，

为每个聚类的相机原型的平均值, 将目标域的相机原型级对比学习损失记为

；

源域的类心级对比学习损失

和相机原型级对比学习损失

通过一个系数

相加得到源域总的对比学习损失

，公式如下：

目标域的聚类质心级对比学习损失

和相机原型级对比学习损失

通过一个系数

相加得到目标域总的对比学习损失

，公式如下：

总损失L的公式如下：

。

进一步的，步骤3中，在进行对比学习时，设计正负样本选择策略，对于batch中的每个query，假设query属于第p个聚类，则混合内存库将提供相机数

个正候选和

个负候选，其中，

是目标域聚类个数，

是第l个聚类中相机原型的个数，

是第p个聚类中相机原型的个数，具体选择策略如下：

选择正样本：对于每个query，根据query与正候选们的余弦相似度按升序排列，选择排序中的中位作为正样本；

选择负样本：将每个聚类表示为其相机数个原型的平均特征，并将平均特征作为负样本，可以得到

个除query所在的聚类外的所有负样本；对来自源域的query使用相同的选择策略，以解决可能的标签错误问题。

进一步的，步骤3中，在进行对比学习时，合成困难负样本的策略，具体如下：对于来自目标域

的每一个query，基于混合内存库，首先计算query与其负相机原型的余弦相似度，与query余弦相似度最大的负相机原型就是query的困难负样本，对每个困难负样本随机从源域选取一个类心，按照如下公式合成新的困难负样本

，

其中，

是插值系数，H代表选取的困难负样本，

是源域的类心。

与现有技术相比，本发明优点在于：

（1）本发明设计了质心或类心-相机原型级混合内存库，基于该混合内存库引入联合对比损失，学习区分性表示的同时提高聚类内的紧密性，为对比学习生成更可靠的伪标签；

（2）本发明设计了一种新的正负样本选择策略，该策略在对比学习阶段，通过选择可靠且信息丰富的正样本和负样本，缓解了伪标签噪声造成的模型区分性特征学习不足问题，提高对比学习效果；

（3）本发明提出了一种困难负样本生成方法，利用源域与目标域负样本进行插值生成困难负样本，以保证得到的负样本是真负的，且与query距离较近，将额外的困难负样本纳入对比学习，提升对比学习的效果，从而减轻了伪标签噪声对对比学习造成的影响，从而进一步抑制了伪标签噪声对模型优化的影响，提高了无监督跨域目标重识别的效果，提高目标重识别的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的模型整体框架图；

图2为本发明的困难负样本合成方法流程图。

图3为本发明方法流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的说明。

实施例1

结合图1-图3，一种基于对比学习的无监督跨域目标重识别方法，包括以下步骤：

步骤0、输入图像，构建有标签源域数据集和无标签目标域数据集。需要说明的是，本发明的识别对象可以是人物或车辆等，也就是说输入图像可以是人物或车辆等图像，进行人物重识别或者车辆重识别。本实施例以人物重识别为例说明。

步骤1、构建无监督跨域目标重识别网络模型进行特征提取与聚类：包括网络初始和内存初始化阶段。

网络初始化是通过在带标签的源域上预训练卷积神经网络（CNN）得到初始化模型。该初始化模型作为特征提取网络用于提取数据特征，一般使用ResNet-50作为主干网络。

内存初始化是首先利用预训练得到的初始化模型提取源域特征

和目标域特征

，然后计算样本特征的相似性进而利用样本相似性对所有图像的特征进行聚类，将属于相同聚类的样本标记为同一类，生成伪标签；根据样本特征初始化内存库，在训练过程中采用动量更新。

具体的，当输入图像时，网络提取特征输出d维特征

。然后，在每次迭代中，根据特征相似度对所有图像的特征进行聚类并分配伪标签，得到一个带标签的数据集

，

代表第i个样本，生成的伪标签是

，

是包含在聚类中的图像数量，Y是聚类号。

步骤2、构建基于相机原型的混合内存库：

为了处理较大的身份内差异，本发明在每次聚类之后，根据摄像机信息将每个聚类分成多个组，每个组包含来自同一摄像机的样本，每个组的平均样本特征向量作为每个组的相机原型，每个聚类中的相机原型数量等于该聚类中摄像机的数量。

本发明将相机原型和聚类质心都存储在混合内存库中。聚类后，任何一个聚类

都可以表示为

，它有

个样本。然后，对每个聚类进行分组，并计算每个组的平均样本特征，用p代表相机原型，得到聚类

的v个相机原型集合

，

表示聚类

中的第一个相机原型，

表示聚类

中的第二个相机原型，以此类推，

表示聚类

中的第v个相机原型。所有的聚类质心和相机原型存储在混合内存库，源域数据同样处理。在反向传播期间，当模型参数通过梯度下降更新时，内存库也更新。

本发明的混合内存库存储了所有源域类心、源域相机原型、目标域聚类质心和目标域相机原型。将源域的类数记为

，目标域的聚类数记为

。混合内存库中的每个条目通过以下方式更新：

为混合内存库中的第j个条目，

=0.5是一个系数，

代表第i个样本，

指整个特征提取网络的参数，

则是当前迭代该条目的样本特征。现有技术中提出过用于无监督域适应目标重识别的混合内存库，SPCL提出的内存库将源域类心、目标域聚类质心和目标域的未聚类实例混合存储，并在训练阶段联合使用源域和目标域信息。该混合内存库适用于域适应的无监督目标重识别，而本发明提出的内存库使用更精细的原型，与先前的混合内存库有很大的不同。与仅使用聚类质心相比，使用更精细的原型可以发掘聚类的全局信息和内在信息，更有利于模型的迭代更新。

步骤3、基于混合内存库进行联合对比学习：

基于混合内存库，本发明提出了联合聚类质心和相机原型的对比学习，将样本与聚类质心拉近的同时，将同一聚类的相机原型也拉近，让模型学习区分性表示的同时提高聚类内的紧密性。

（1）对比损失

在对比学习中，使用联合对比学习损失，包括类心或聚类质心级对比学习损失

和相机原型级对比学习损失

，使得样本向质心靠近的同时属于一个聚类的原型也相互靠近；

对于一个query，本发明提出同时使用类心或聚类质心级对比学习损失和相机原型级对比学习损失，对比学习损失计算公式如下：

其中，

代表对比学习损失，

代表查询样本query，

在计算类心或聚类质心级对比学习损失

时，如果query是源域特征，则

为query所属类别的类心，

为源域类心，将源域的类心级对比学习损失记为

；如果query是目标域特征，则

为query所属聚类的质心，

为目标域质心，将目标域的聚类质心级对比学习损失记为

；在计算相机原型级对比学习损失

时，如果query是源域特征，则

为query所属的相机原型，

；如果query是目标域特征，则

为query所属的相机原型，

。

源域的类心级对比学习损失

和相机原型级对比学习损失

通过一个系数

相加得到源域总的对比损失

，公式如下：

目标域的聚类质心级对比学习损失

和相机原型级对比学习损失

通过一个系数

相加得到目标域总的对比损失

，公式如下：

总损失L的公式如下：

大多数基于聚类的方法将每个聚类视为一个伪身份类，使用聚类质心执行对比学习，将query与正质心拉近的同时推远负质心，但是由于摄像机视角变化，同一簇的样本也存在较大差异，这种基于聚类质心的对比学习却忽略了这较大的身份内差异。因此，本发明提出使用相机原型计算对比损失，使得属于一个聚类的原型相互靠近，从而处理较大的ID内差异，并为学习生成更可靠的伪标签。

（2）正负样本选择策略和合成困难负样本

在对比学习中，基于混合内存库，选择正负样本和合成困难负样本；其中在选择正负样本时，对于每一个query，从正聚类和其他负聚类中的相机原型中分别取其可靠的正和负样本，在合成困难负样本时，通过混合源域数据与目标域负样本合成困难负样本。详细介绍如下：

设计正负样本选择策略：对于batch中的每个query，混合内存库提供相机数

个正候选和

个负候选，其中，

是目标域的聚类个数，

是第l个聚类中相机原型的个数，

是第p个聚类中相机原型的个数，也就是正候选的个数。具体选择策略如下：

选择可靠的正样本：对于每个query，与query属于同一聚类的原型都是它的正候选，但是由于伪标签噪声的存在，这些正候选原型也可能含有噪声，也就是说混合内存库中一些正候选可能捕获不同身份的信息即假正候选，当这些原型被用做正样本时会阻碍特征学习。为了获得可靠的正样本，根据query与正候选们的余弦相似度按升序排列，如果选择相似度最大的候选作为正样本，由于最相似的候选通常在以往的更新中融合了query的特征，因此对学习类内多样性的信息较少，相反，最不相似的候选更有可能是离群值。因此本发明选择排序中的中位作为正样本。

选择可靠的负样本：如果是将所有的负候选都作为负样本，由于聚类结果的不理想，具有相同身份的图像可能被错误地分割为多个聚类，从而导致负候选图像中出现假负候选，推开query和这些假负样本会使特征学习产生偏差。然而，很难找到并排除可能的假负候选。为了解决这个问题，本发明将每个聚类表示为其相机数个原型的平均特征，并将平均特征（称为平均负原型）作为负样本，可以得到

个除query所在的聚类外的所有负样本。对来自源域的query使用相同的选择策略，以解决可能的标签错误问题。

本发明提出一种新的合成困难负样本的策略，用于合成多样且信息丰富的负样本，具体如下：对于来自目标域

的每一个query，基于混合内存库，首先计算query与其相机负原型的余弦相似度，与query余弦相似度最大的负相机原型就是query的困难负样本，对每个困难负样本随机从源域选取一个类心，按照如下公式合成新的困难负样本

，

其中，

是插值系数，实验设置为0.5，H代表选取的困难负样本，

是源域的类心。源域中的样本对于query是真负的（与目标域不相交），所以源域类心与query的困难负样本插值合成的

也是负样本。

在对比学习过程中，移除简单的负样本不会影响性能，这表明此类负样本在训练期间的贡献较小。有标记的源域和无标记的目标域是两个不相交的类集，这意味着一个数据集的所有样本对于另一个数据集的样本都是负样本。因此，本发明通过混合源域数据和目标域样本来生成困难负样本可以确保合成的负样本可靠且信息丰富。

步骤4、反复迭代步骤1-步骤3，训练所述无监督跨域目标重识别网络模型；

步骤5、将图像输入训练好的模型中，进行目标重识别，输出识别结果。

实施例2

作为一个具体实施例，在本实施例中，使用在源域上预先训练的ResNet-50作为主干网络来提取输入图像的特征，使用DBSCAN聚类算法来分配伪标签，使用Jaccard距离用于聚类。内存更新率

为0.2，温度系数

为0.007。初始学习率为0.00035，前10个迭代过程有预热方案，每20个迭代后除以10，总的迭代数为50。每个训练批次由64个样本组成。实施如实施例1部分所述的目标重识别方法，此处不再赘述该方法。

综上所述，本发明设计了一个混合内存库，并引入了联合对比学习损失，并通过选择可靠的正负样本和合成额外困难负样本的方法改善了对比学习，本发明能够学习有效的区分性特征表示，以提高聚类性能，缓解伪标签噪声对对比学习的不利影响，提高了无监督跨域目标重识别的效果，提高目标重识别的准确率。本发明可以很方便地用于大多数基于聚类的无监督跨域目标重识别方法，适用范围广。

当然，上述说明并非是对本发明的限制，本发明也并不限于上述举例，本技术领域的普通技术人员，在本发明的实质范围内，做出的变化、改型、添加或替换，都应属于本发明的保护范围。