CN114937289B

CN114937289B - 一种基于异构伪标签学习的跨域行人检索方法

Info

Publication number: CN114937289B
Application number: CN202210799577.8A
Authority: CN
Inventors: 张重; 贺迪; 刘爽
Original assignee: Tianjin Normal University
Current assignee: Tianjin Normal University
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2024-04-19
Anticipated expiration: 2042-07-06
Also published as: CN114937289A

Abstract

本发明公开了一种基于异构伪标签学习的跨域行人检索方法。该方法包括：构建均值教师和学生网络模型，将源域行人图像和目标域行人图像分别输入，得到源域行人特征、第一目标域行人特征和第二目标域行人特征；计算源域行人图像中每个身份行人对应的中心特征，将中心特征和第二目标域行人特征存入内存库模块；基于第一目标域行人特征获取细颗粒度伪标签和粗颗粒度伪标签，利用第二目标域行人特征和内存库模块存储的特征得到实例伪标签，对实例伪标签进行标签一致性转换，得到第一实例伪标签和第二实例伪标签；计算总损失值，并对学生网络和均值教师网络进行优化；利用最优均值教师网络模型得到跨域行人检索结果。本发明提高了跨域行人检索的正确率。

Description

一种基于异构伪标签学习的跨域行人检索方法

技术领域

本发明属于计算机视觉、模式识别、人工智能领域，具体涉及一种基于异构伪标签学习的跨域行人检索方法。

背景技术

近年来，行人检索广泛应用于人体行为分析，多目标识别等领域，因此受到了学术界和工业界的广泛关注。它主要研究在不同摄像机下搜索相同行人的方法。然而现有行人检索模型直接应用在未知的目标域上，性能会急剧下降，又由于真实场景中行人姿态、衣着、光照以及摄像机角度变化较大，使得跨域行人检索技术面临着巨大的挑战。

最近，基于伪标签学习的跨域行人检索模型性能取得了显著的提升，大多数研究人员通过聚类算法获取一种硬伪标签或者一种软伪标签进行模型学习。Fan等人和Wu等人采用聚类算法和阈值挑选策略进行一种可靠的硬伪标签学习。Fu等人设计了一种自相似性组合模块来学习全局特征和局部特征分配的多尺度硬伪标签。Zheng等人设计了一种组感知标签转移算法，该算法通过对目标域样本聚类多次并在线精细伪标签去学习一种可靠的硬伪标签。对于软伪标签，Zhong等人设计了一个范例内存模块去存储目标域样本的均值特征，并使用该均值特征去学习一种软伪标签。Yu等人引入了有标注的辅助域作为参考行人，进而学习一种软伪标签。除此之外，为了减轻噪声伪标签的影响，Ge等人设计了相互平均教师模型进而精炼伪标签，学习更可靠的软伪标签。Zheng等人提出不确定性引导的抗噪网络模型，该模型利用不确定性评估伪标签的可靠性，并为所有的损失函数学习不确定系数去精细伪标签。

以上这些基于伪标签学习的跨域行人检索方法只学习了一种硬伪标签或者软伪标签，从而导致对目标域中的样本描述不准确、不充分。

发明内容

本发明的目的是要解决目标域样本描述不充分对跨域行人检索结果影响较大的技术问题，为此，本发明提供一种基于异构伪标签学习的跨域行人检索方法。

为了实现所述目的，本发明提出的一种基于异构伪标签学习的跨域行人检索方法包括以下步骤：

步骤S1，利用预训练深度学习模型构建均值教师和学生网络模型，其中，所述均值教师和学生网络模型包括均值教师网络和学生网络，将组成训练集的源域行人图像和目标域行人图像分别输入至所述均值教师和学生网络模型中，得到所述均值教师网络提取的源域行人特征f^s和第一目标域行人特征f^t，以及所述学生网络提取的第二目标域行人特征g^t；

步骤S2，构建内存库模块，计算源域行人图像中每个身份行人对应的源域行人特征f^s的均值，以表示该身份行人的中心特征，将该中心特征通过键值对形式的更新方式存入所述内存库模块，将第二目标域行人特征g^t按照队列形式的更新方式存入所述内存库模块；

步骤S3，构建伪标签生成模块，基于所述第一目标域行人特征f^t，利用聚类算法获取细颗粒度伪标签和粗颗粒度伪标签，利用所述第二目标域行人特征g^t和内存库模块存储的特征进行相似性度量，得到实例伪标签，并对于所述实例伪标签进行标签一致性转换，得到第一实例伪标签和第二实例伪标签；

步骤S4，构建损失计算模块，基于细颗粒度伪标签、粗颗粒度伪标签、实例伪标签、第一实例伪标签和第二实例伪标签，利用所述损失计算模块计算总损失值，利用所述总损失值对所述学生网络进行参数优化，通过学生网络参数的指数移动平均算法对所述均值教师网络进行参数更新，得到最优均值教师网络模型；

步骤S5，利用所述最优均值教师网络模型提取目标域查询图像和行人库图像的最终特征，并利用余弦距离计算得到所述目标域查询图像和行人库图像之间的相似度，得到跨域行人检索的结果。

可选地，所述步骤S1包括以下步骤：

步骤S11，确定预训练深度学习模型，并对其进行参数初始化，利用源域行人图像对于所述预训练深度学习模型再进行一次预训练，基于得到的深度学习模型分别构建均值教师网络和学生网络，并进行参数初始化，得到均值教师网络和学生网络模型；

步骤S12，对训练集中的所述源域行人图像和目标域行人图像进行预处理；

步骤S13，将预处理后得到的源域行人图像和目标域行人图像输入至所述均值教师网络和学生网络模型中，提取得到相应的行人特征并进行平均池化，得到所述均值教师网络提取的源域行人特征f^s和第一目标域行人特征f^t，以及所述学生网络提取的第二目标域行人特征g^t。

可选地，所述步骤S2包括以下步骤：

步骤S21，计算源域行人图像中每个身份行人对应的源域行人特征f^s的均值，以表示该身份行人的中心特征C^s；

步骤S22，确定所述源域行人图像中每个身份行人的中心特征C^s和第二目标域行人特征g^t在所述内存库模块的更新方式分别为键值对形式和队列形式。

可选地，利用下式计算所述源域行人图像中每个身份行人的中心特征C^s：

其中，n是源域行人图像中每个身份行人所包含的行人图像的数量，f_i ^s表示源域行人图像中每个身份行人所包含的第i个行人图像的源域行人特征。

可选地，所述步骤S3包括以下步骤：

步骤S31，将得到的第一目标域行人特征f^t利用DBSCAN进行聚类，得到细颗粒度伪标签；

步骤S32，将得到的第一目标域行人特征f^t利用K-means进行聚类，得到包含较少噪声的粗颗粒度伪标签，其聚类中心的数量少于细颗粒度伪标签中的聚类中心数量；

步骤S33，利用所述第二目标域行人特征g^t和内存库模块存储的特征进行相似性度量，得到将每一个目标域行人图像看成一类的实例伪标签；

步骤S34，将步骤S33得到的实例伪标签分别向细颗粒度伪标签和粗颗粒度伪标签进行标签一致性转换，得到第一实例伪标签和第二实例伪标签。

可选地，利用下式计算所述实例伪标签：

其中，表示第k个实例伪标签，M_k表示内存库模块中第k个槽的特征，M_j表示内存库模块中第j个槽的特征，k，j＝1,2,…,K₃，K₃是内存库模块中所有特征的数量，T表示转置操作，/>表示第i个目标域行人图像的第二目标域行人特征，i＝1,2,…,n_t，n_t是目标域行人图像的数量。

可选地，利用下式对实例伪标签进行标签转换，得到第一实例伪标签和第二实例伪标签/>

其中，表示第k个实例伪标签，arg max_k表示用于获取第k个实例伪标签中的最大值的索引值的函数，/>是细颗粒度伪标签的第k个聚类中心，是粗颗粒度伪标签的第k个聚类中心。

可选地，所述步骤S4包括以下步骤：

步骤S41，基于细颗粒度伪标签、粗颗粒度伪标签和实例伪标签，计算三种不同伪标签对应的交叉熵损失；

步骤S42，基于细颗粒度伪标签、粗颗粒度伪标签、第一实例伪标签和第二实例伪标签，确定伪标签约束正则损失；

步骤S43，计算细颗粒度伪标签对应的三元组损失；

步骤S44，确定细颗粒度伪标签对应的置信度对比损失；

步骤S45，计算交叉熵损失、三元组损失、置信对比损失和伪标签约束正则损失的加权和，得到总损失值；

步骤S46，利用所述总损失值对所述学生网络进行参数优化；

步骤S47，通过学生网络参数的指数移动平均算法对所述均值教师网络进行参数更新，得到最优均值教师网络模型。

可选地，所述步骤S46中，所述学生网络模型的模型参数的更新计算过程表示为：

其中，θ_s:是学生网络模型更新后的模型参数，θ_s是学生网络模型更新前的模型参数，σ是学习率。

可选地，所述步骤S47中，均值教师网络的参数更新方式如下：

θ_t＝αθ_t-1+(1-α)θ_s，

其中，θ_t是当前迭代次的均值教师网络参数，θ_t-1是前一迭代次的均值教师网络参数，α是平滑系数。

本发明的有益效果为：本发明通过设计了三种不同的伪标签从不同的角度去描述同一个目标域样本，使得无标注的目标域样本描述更充分、更完备，并基于标签一致性引导进行伪标签约束正则，从而提高了伪标签的质量，与此同时，在对比学习过程中还对相似性分数进行重新加权，从而减少了噪声伪标签的影响，提高了跨域行人检索的正确率。

需要说明的是，本发明得到了国家自然科学基金项目No.62171321，天津市自然科学基金重点项目No.20JCZDJC00180和天津师范大学研究生科研创新项目资助。

附图说明

图1是根据本发明一实施例的一种基于异构伪标签学习的跨域行人检索方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

图1是根据本发明一实施例的一种基于异构伪标签学习的跨域行人检索方法的流程图，下面以图1为例来说明本发明的一些具体实现流程，如图1所示，所述基于异构伪标签学习的跨域行人检索方法包括以下步骤：

进一步地，所述步骤S1包括以下步骤：

在本发明一实施例中，所采用的预训练深度学习模型可以为ResNet-50，仅选择该模型中最后一个整体池化之前的模型成分，即去掉所述预训练深度学习模型中最后的全局池化层和全连接层，并将ResNet-50模型中第四个块的步长由原来默认的2改为1。

步骤S12，对所述源域行人图像和目标域行人图像进行预处理；

在本发明一实施例中，对所述源域行人图像和目标域行人图像进行预处理包括：将源域行人图像和目标域行人图像的大小裁剪为预设大小，比如256×128，并把所述源域行人图像和目标域行人图像所有的像素值按比例缩小至预设范围内，比如0到1之间，然后将所述源域行人图像中的每个像素值减去相应源域行人图像的像素平均值，再除以所述源域行人图像的像素方差，类似地，将所述目标域行人图像中的每个像素值减去相应目标域行人图像的像素平均值，再除以所述目标域行人图像的像素方差。

步骤S13，将预处理后得到的源域行人图像和目标域行人图像输入至所述均值教师网络和学生网络模型中，提取得到相应的行人特征并进行平均池化，得到所述均值教师网络提取的源域行人特征f^s和第一目标域行人特征f^t，以及所述学生网络提取的第二目标域行人特征g^t；

在本发明一实施例中，所述源域行人特征f^s和第一目标域行人特征f^t、第二目标域行人特征g^t的特征图数量为2048，即其中，所述平均池化是本领域技术人员应当熟练掌握的技术，在此不再赘述。

进一步地，所述步骤S2包括以下步骤：

在本发明一实施例中，利用下式计算所述源域行人图像中每个身份行人的中心特征C^s：

在本发明一实施例中，源域行人图像中每个身份行人的中心特征C^s在内存库模块中的更新方式可表示为：

M_i←αM_i+(1-α)C^s，

其中，M_i是内存库模块中第i个槽的特征，α∈[0,1]是控制更新比例的参数。

在本发明一实施例中，第二目标域行人特征g^t在内存库模块中的更新方式是按照队列的形式进行更新，队列的大小就是每次训练时输入的目标域行人图像的数量N。

在本发明一实施例中，α＝0.2，N＝64。

进一步地，所述步骤S3包括以下步骤：

步骤S31，将得到的第一目标域行人特征f^t利用DBSCAN进行聚类，得到包含聚类中心数量足够多的细颗粒度伪标签；

在本发明一实施例中，将所述细颗粒度伪标签作为硬伪标签。

在本发明一实施例中，将所述粗颗粒度伪标签作为软伪标签。

在本发明一实施例中，所述实例伪标签可表示为：

其中，表示第k个实例伪标签，上角标3表示第3种伪标签，即实例伪标签，M_k表示内存库模块中第k个槽的特征，M_j表示内存库模块中第j个槽的特征，k，j＝1,2,…,K₃，K₃是内存库模块中所有特征的数量，T表示转置操作，/>表示第i个目标域行人图像的第二目标域行人特征，i＝1,2,…,n_t，n_t是目标域行人图像的数量。

在本发明一实施例中，将所述实例伪标签作为硬伪标签。

在本发明一实施例中，利用下式对实例伪标签进行标签转换，得到第一实例伪标签和第二实例伪标签/>

其中，表示第k个实例伪标签，arg max_k表示用于获取第k个实例伪标签中的最大值的索引值的函数，/>是细颗粒度伪标签的第k个聚类中心，上角标1表示第1种伪标签，即细颗粒度伪标签，/>是粗颗粒度伪标签的第k个聚类中心，上角标2表示第2种伪标签，即粗颗粒度伪标签。

进一步地，所述步骤S4包括以下步骤：

在本发明一实施例中，所述交叉熵损失可表示为：

其中，Y^j，j＝(1,2,3)分别代表细颗粒度伪标签、粗颗粒度伪标签和实例伪标签，是/>属于Y^j的预测概率。

在本发明一实施例中，利用L₂正则来约束实例伪标签与细颗粒度伪标签和粗颗粒度伪标签，所述伪标签约束正则损失可表示为：

其中，||·||₂表示L₂正则，上角标2表示求平方操作，Y¹和Y²分别是细颗粒度伪标签和粗颗粒度伪标签，和/>

步骤S43，计算细颗粒度伪标签对应的三元组损失；

在本发明一实施例中，所述三元组损失可表示为：

其中，是第i个目标域行人图像与其最不相似正样本行人图像之间的余弦相似性，/>是第i个目标域行人图像与其最相似负样本行人图像之间的余弦相似性。

步骤S44，确定细颗粒度伪标签对应的置信度对比损失；

在本发明一实施例中，利用置信系数对步骤S43中计算得到的余弦相似性分数进行重新加权，得到置信度对比损失，进而减少噪声伪标签的影响。

其中，所述置信系数可利用下式计算：

其中，w_i表示第i个目标域行人图像的置信系数，是内存库模块存储的第k个槽中的目标域行人图像特征的均值，m用于指代内存库模块，K₁是该均值的数量，C¹(i)是第i个目标域行人图像特征对应的细颗粒度伪标签聚类中心。

其中，所述置信度对比损失可表示为：

其中，是内存库模块中负样本行人图像的数量，/>是内存库模块中正样本行人图像的数量，/>是第i个目标域行人图像和内存库模块中的第k个负样本行人图像之间的余弦相似性分数，/>是第i个目标域行人图像和内存库模块中的第j个正样本行人图像之间的余弦相似性分数，/> [·]₊表示截取大于等于0的操作，/>和/>是两个非负权重系数，m是边界值，γ是缩放因子。

在本发明一实施例中，m＝0.25，γ＝128。

步骤S45，计算交叉熵损失、三元组损失、置信度对比损失和伪标签约束正则损失的加权和，得到总损失值；

在本发明一实施例中，所述总损失函数可表示为：

Loss＝L_id+L_TRI+L_CCL+λ_regL_reg，

其中，L_id、L_TRI、L_CCL、L_reg分别表示交叉熵损失、三元组损失、置信度对比损失和伪标签约束正则损失，λ_reg是控制伪标签约束重要性的加权参数。

步骤S46，利用所述总损失值对所述学生网络进行参数优化；

其中，可利用所述总损失值，借助随机梯度下降法对于学生网络模型的模型参数进行迭代计算，所述学生网络模型的模型参数的更新计算过程可表示为：

在本发明一实施例中，σ＝0.00035。

其中，均值教师网络的参数更新方式如下：

θ_t＝αθ_t-1+(1-α)θ_s

在本发明一实施例中，α＝0.999。

其中，所述行人库图像I_g指的是已知行人识别结果的图像。

其中，所述目标域查询图像I_q和行人库图像I_g之间的相似度可表示为：

其中，指的是所述目标域查询图像I_q和行人库图像I_g之间的余弦距离。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于异构伪标签学习的跨域行人检索方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤S1包括以下步骤：

3.根据权利要求1所述的方法，其特征在于，所述步骤S2包括以下步骤：

4.根据权利要求3所述的方法，其特征在于，利用下式计算所述源域行人图像中每个身份行人的中心特征C^s：

5.根据权利要求1所述的方法，其特征在于，所述步骤S3包括以下步骤：

6.根据权利要求5所述的方法，其特征在于，利用下式计算所述实例伪标签：

其中，表示第k个实例伪标签，M_k表示内存库模块中第k个槽的特征，M_j表示内存库模块中第j个槽的特征，k，j＝1,2,…,K₃，K₃是内存库模块中所有特征的数量，T表示转置操作，表示第i个目标域行人图像的第二目标域行人特征，i＝1,2,…,n_t，n_t是目标域行人图像的数量。

7.根据权利要求5所述的方法，其特征在于，利用下式对实例伪标签进行标签转换，得到第一实例伪标签和第二实例伪标签/>

其中，表示第k个实例伪标签，arg max_k表示用于获取第k个实例伪标签中的最大值的索引值的函数，/>是细颗粒度伪标签的第k个聚类中心，/>是粗颗粒度伪标签的第k个聚类中心。

8.根据权利要求1所述的方法，其特征在于，所述步骤S4包括以下步骤：

步骤S43，计算细颗粒度伪标签对应的三元组损失；

步骤S44，确定细颗粒度伪标签对应的置信度对比损失；

步骤S46，利用所述总损失值对所述学生网络进行参数优化；

9.根据权利要求8所述的方法，其特征在于，所述步骤S46中，所述学生网络模型的模型参数的更新计算过程表示为：

10.根据权利要求8所述的方法，其特征在于，所述步骤S47中，均值教师网络的参数更新方式如下：

θ_t＝αθ_t-1+(1-α)θ_s，