CN111291705A

CN111291705A - 一种跨多目标域行人重识别方法

Info

Publication number: CN111291705A
Application number: CN202010111738.0A
Authority: CN
Inventors: 滕竹; 田佳杰; 张宝鹏; 李芮; 李浥东
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2020-06-16
Anticipated expiration: 2040-02-24
Also published as: CN111291705B

Abstract

本发明提供了一种跨多目标域行人重识别方法，首先使用分布对齐模型对源域、目标域的图片进行域对齐和场景对齐操作，从而使域对齐的图片和场景对齐的图片分布与目标域的图片分布一致，提高基于属性编码的行人重识别模型准确率；将域对齐图片的识别视为分类任务，将域对齐的图片结合对应的摄像头属性输入到基于属性编码的基于属性编码的行人重识别模型中，利用交叉熵损失优化模型参数，将场景对齐的识别视为度量任务，将场景对齐的图片结合摄像头属性输入到基于属性编码的基于属性编码的行人重识别模型中，利用难采样三元组损失优化模型参数。本发明中分布对齐模型和基于属性编码的基于属性编码的行人重识别模型单独训练，分别优化，进而提高行人重识别的准确率。

Description

一种跨多目标域行人重识别方法

技术领域

本发明涉及媒体通信技术领域，尤其涉及一种跨多目标域行人重识别方法。

背景技术

行人重识别作为计算机视觉领域的一个热门的研究方向，广泛应用于智慧城市、安防等领域。同时随着深度学习的发展，神经网络技术也开始应用到行人重识别。目前，行人重识别主要分为有监督和无监督学习两个方向。有监督学习指训练数据集的行人图片有标签。对于有标签的数据集，很多学者使用分类学习、度量学习或者提出新的神经网络约束模型学习行人特征。但是有监督学习需要大量的人工标注标签，在实际场景中，给大量的图片打标签是一件不切实际的事情，而且行人重识别对标签的要求更高：需要行人在每个摄像头都出现。因此学者提出新的问题：无监督行人重识别。针对无监督行人重识别，主要分为无监督域跨域行人重识别、小样本行人重识别。无监督域跨域行人重识别对有标签的源域和无标签的目标域，利用对抗生成方法生成新的数据集，用于减少源域与目标域之间的差异。小样本行人重识别旨在通过目标域的少量有标签样本，自我迭代赋予高置信度的图片标签。另一方面，无监督跨域行人重识别只考虑了单目标域，现实生活中的目标域是多种多样的，为每个目标域分别训练模型是不现实的，如何将多个目标域统一到一个模型中是新的挑战。

如何充分有效地利用有标签数据集训练模型，从而在提高在无标签数据集上的性能的同时减少数据集之间的分布差异导致的性能下降，并且如何对多个目标域同时达到比较好的性能是无监督跨多目标域行人重识别的关键。因此，在数据集之间分布差异比较大的情况下，利用合适的方式找到数据集之间的分布不同点与相同点，并利用合适的模型对多目标域作区分是我们需要解决的主要问题。

目前现有技术中的无监督跨域技术已经取得了不错的效果。如图4所示，首先利用改进的对抗生成网络SPGAN将源域的图片转化为目标域风格，然后将生成的数据集视为分类任务，用交叉熵损失函数约束行人模型提取行人特征。实验表明，利用对抗生成网络可以很好地减少域差异性的同时保留源域的标签信息。但是，这种实现方案只考虑了域之间的差异性，而忽略了域内部的摄像头差异性，生成的数据集无法准确对齐目标数据集的数据分布。并且需要对每一对摄像头分别训练一个对抗生成网络，耗时大；而且只考虑了跨单目标域的场景，无法将模型直接扩展到多个目标域。

发明内容

本发明的实施例提供了一种跨多目标域行人重识别方法，通过对抗生成网络分别将源域的图片迁移到其他多个目标域以减少域差异性，同时使用多任务损失函数减少同类样本之间的距离，增大不同类别样本之间的距离，得到摄像头不变性，并且使用基于属性编码的模型用于区分不同的目标域和进一步提高性能。

为了实现上述目的，本发明采取了如下技术方案。

一种跨多目标域行人重识别方法，包括：

基于源域图片和多张目标域图片，分别进行风格转换，获得第一域对齐图片、第二域对齐图片，以及场景对齐；

基于第一域对齐图片、第二域对齐图片和场景对齐，通过基于属性编码的行人重识别模型，提取第一域对齐图片和第二域对齐图片的1024维特征，提取场景对齐的128维特征；

基于第一域对齐图片和第二域对齐图片的1024维特征，以及场景对齐的128维特征，通过多任务损失函数计算获得分类损失和度量任务损失；

基于分类损失和度量任务损失，判断基于属性编码的行人重识别模型是否收敛；当判断结果为基于属性编码的行人重识别模型收敛，通过基于属性编码的行人重识别模型获得识别结果；当判断结果为基于属性编码的行人重识别模型不收敛，继续对基于属性编码的行人重识别模型进行训练。

优选地，多张目标域图片包括第一目标域图片和第二目标域图片，通过风格转换获得的场景对齐包括第一场景对齐和第二场景对齐；

基于第一域对齐图片、第二域对齐图片和场景对齐，通过基于属性编码的行人重识别模型，提取第一域对齐图片和第二域对齐图片的1024维特征，提取场景对齐的128维特征包括：

基于第一域对齐图片、第二域对齐图片，以及与目标域图片相对应的摄像头属性，通过基于属性编码的行人重识别模型，提取第一域对齐图片和第二域对齐图片的1024维特征；

基于第一场景对齐和第二场景对齐，以及分别与第一目标域图片和第二目标域图片相对应的摄像头属性，通过基于属性编码的行人重识别模型，提取第一场景对齐和第二场景对齐的128维特征。

优选地，基于第一域对齐图片和第二域对齐图片的1024维特征，以及场景对齐的128维特征，通过多任务损失函数计算获得分类损失和度量任务损失包括：

基于第一域对齐图片和第二域对齐图片的1024维特征，通过线性分类器和softmax计算属于每一类的概率，并通过交叉熵损失函数计算分类损失；

基于第一场景对齐和第二场景对齐的128维特征，计算三元组损失，获得度量任务损失。

优选地，基于第一场景对齐和第二场景对齐的128维特征，计算三元组损失，获得度量任务损失包括:

在第一场景对齐和第二场景对齐的128维特征中选取难度阈值最大的正样本和负样本，获得三元组；

基于该三元组，计算三元组损失，获得度量任务损失。

优选地，还包括将分类损失和度量任务损失向基于属性编码的行人重识别模型进行反向传播求导，具体包括：根据分类损失和度量任务损失的结果向基于属性编码的行人重识别模型进行梯度反向传播，更新基于属性编码的行人重识别模型的参数。

优选地，还包括：

调整基于属性编码的行人重识别模型的学习率，以及多任务损失函数的比例，对基于属性编码的行人重识别模型进行训练。

优选地，基于源域图片、第一目标域图片和第二目标域图片，分别进行风格转换，获得第一域对齐图片和第二域对齐图片，第一场景对齐，以及第二场景对齐包括：

通过分布对齐网络对源域图片进行风格转换，获得第一域对齐图片和第二域对齐图片；

通过分布对齐网络分别对第一目标域图片和第二目标域图片进行风格转换，获得第一场景对齐和第二场景对齐。

优选地，还具有对第一域对齐图片、第二域对齐图片、第一场景对齐和第二场景对齐进行预处理的过程，具体包括：对第一域对齐图片、第二域对齐图片、第一场景对齐和第二场景对齐进行剪裁操作、差值固定操作、均值化操作和随机采样操作。

由上述本发明的实施例提供的技术方案可以看出，本发明提供的一种跨多目标域行人重识别方法，首先使用分布对齐模型对源域、目标域1、目标域2的图片进行域对齐和场景对齐操作，从而使第一域对齐图片(或者2)的图片和第一场景对齐(或者2)的图片分布与目标域1(或者2)的图片分布一致，提高基于属性编码的行人重识别模型的准确率；将域对齐图片的识别视为分类任务，将域对齐的图片结合对应的摄像头属性输入到基于属性编码的基于属性编码的行人重识别模型中，利用交叉熵损失优化模型参数，将场景对齐的识别视为度量任务，将场景对齐的图片结合摄像头属性输入到基于属性编码的基于属性编码的行人重识别模型中，利用难采样三元组损失优化模型参数。本发明中分布对齐模型和基于属性编码的基于属性编码的行人重识别模型单独训练，分别优化，进而提高行人重识别的准确率。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种跨多目标域行人重识别方法的处理流程图；

图2为本发明提供的一种跨多目标域行人重识别方法的一种优选实施例的处理流程图；

图3为本发明的一种基于属性编码的基于属性编码的行人重识别模型框架图；

图4为现有技术的一种行人重识别方法的处理流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

实施例一；

参见图1，本发明提供的一种跨多目标域行人重识别方法，利用对齐域分布和场景分布的对抗生成网络转换源域和目标域的图片，使用多任务损失函数约束行人模型，提出属性编码的深度学习模型以自适应不同的目标域，具体包括：

基于源域图片和多张目标域图片，分别进行风格转换，获得第一域对齐图片、第二域对齐图片，以及多张场景对齐；

基于分类损失和度量任务损失，判断基于属性编码的行人重识别模型是否收敛；当判断结果为基于属性编码的行人重识别模型收敛，通过基于属性编码的行人重识别模型获得识别结果；当判断结果为基于属性编码的行人重识别模型不收敛，继续对基于属性编码的行人重识别模型进行训练，直至收敛。

其中，源域图片和场景对齐由对应的摄像头设备获取，每张场景对齐对应一个摄像头设备，作为示例，在本发明提供的一个优选实施例中，用于获取场景对齐的摄像头为两个，多张目标域图片包括第一目标域图片和第二目标域图片，通过风格转换获得的场景对齐包括第一场景对齐和第二场景对齐第二场景对齐。

在本发明提供的实施例中，通过行人重识别模型基于属性编码的行人重识别模型获得的识别结果即判断目标域图片中不同图片的内容的一致性，例如判断多张图片中的人像是否属于一个人，主要方法是计算不同图片的特征相似度，包括欧式距离、余弦相似度等度量方式，从而判断特征相似度最近的两张图片是否是同一个行人。

上述的基于第一域对齐图片、第二域对齐图片和场景对齐，通过基于属性编码的行人重识别模型，提取第一域对齐图片和第二域对齐图片的1024维特征，提取场景对齐的128维特征包括：

基于第一域对齐图片、第二域对齐图片，以及与目标域图片相对应的摄像头属性(即摄像头编号)，通过基于属性编码的行人重识别模型，提取第一域对齐图片和第二域对齐图片的1024维特征；

基于第一场景对齐第一场景对齐和第二场景对齐第二场景对齐，以及分别与第一目标域图片和第二目标域图片相对应的摄像头属性，通过行人重识别模型基于属性编码的行人重识别模型，批量提取第一场景对齐第一场景对齐和第二场景对齐第二场景对齐的128维特征。

进一步的，上述的基于第一域对齐图片和第二域对齐图片的1024维特征，以及场景对齐的128维特征，通过多任务损失函数计算获得分类损失和度量任务损失包括：

基于第一域对齐图片和第二域对齐图片的1024维特征，从分类任务的角度出发，通过线性分类器和softmax计算属于每一类的概率，并通过交叉熵损失函数计算分类损失；

基于第一场景对齐第一场景对齐和第二场景对齐第二场景对齐的128维特征，从度量任务的角度出发，计算三元组损失，获得度量任务损失。

更进一步的，上述的基于第一场景对齐和第二场景对齐的128维特征，计算三元组损失，获得度量任务损失包括:

对于每一张第一场景对齐和第二场景对齐，在批量提取的第一场景对齐和第二场景对齐的128维特征中选取难度阈值最大的正样本和负样本，获得三元组；应当理解的是，最难正样本表示在同一行人的不同图片中，选取距离最远的图片，最难负样本表示在不同行人的图片中，选取距离最近的图片；

基于该三元组，计算三元组损失，获得度量任务损失。

在本发明提供的优选实施例中，分类损失和度量任务损失还用于向基于属性编码的行人重识别模型进行反向传播求导，具体包括：在上述判断结果中，若基于属性编码的行人重识别模型不收敛，根据分类损失和度量任务损失的结果向基于属性编码的行人重识别模型进行梯度反向传播，更新基于属性编码的行人重识别模型的参数，直至模型收敛。

在本发明提供的优选实施例中，该方法还包括：调整基于属性编码的行人重识别模型的学习率，多任务损失函数之间的比例等超参数，训练不同超参数下的模型输出；在一个实施例中，通过训练测试行人重识别模型，在{0.1,0.01,0.001…}集合中选取最合适的学习率，以及在{0.1,1,5,10}中选取多任务损失函数的比例等超参数，得到最优的行人重识别模型。

申请人发现，由于源域与目标域1、源域与目标域2之间的分布不同，导致源域训练的基于属性编码的行人重识别模型直接迁移到目标域1、目标域2的效果很差，并且由于目标域1、目标域2的内部分布不均匀，部分摄像头的行人图片比较多、部分摄像头的行人图片比较清晰等问题，导致基于属性编码的行人重识别模型提取不同摄像头的图片特征存在困难；因此，在本发明提供的优选实施例中，提出在训练基于属性编码的行人重识别模型之前进行分布对齐操作，即域对齐和场景对齐，从而减少分布不同带来的影响；具体为上述的基于源域图片、第一目标域图片和第二目标域图片，分别进行风格转换，获得第一域对齐图片和第二域对齐图片，第一场景对齐，以及第二场景对齐包括：

通过分布对齐网络对源域图片进行风格转换，获得第一域对齐图片和第二域对齐图片；该过程即域对齐操作；

通过分布对齐网络分别对第一目标域图片和第二目标域图片进行风格转换，获得第一场景对齐和第二场景对齐；该过程即场景对齐操作。

在本发明提供的优选实施例中，该方法还包括位于上述基于第一域对齐图片、第二域对齐图片和场景对齐，通过基于属性编码的行人重识别模型，提取第一域对齐图片和第二域对齐图片的1024维特征，提取场景对齐的128维特征之前的第一域对齐图片、第二域对齐图片、第一场景对齐和第二场景对齐进行预处理的过程，具体包括：对第一域对齐图片、第二域对齐图片、第一场景对齐和第二场景对齐进行剪裁操作、差值固定操作、均值化操作和随机采样操作。

实施例二；

本发明还提供了一个基于属性编码的基于属性编码的行人重识别模型，包括：

分布对齐网络

分布对齐网络进行域对齐和场景对齐。首先用源域的图片、目标域1、2的图片及其对应的摄像头属性训练分布对齐网络，学习源域和目标域1、2的风格分布。然后将源域的图片和目标域1、2的摄像头属性输入分布对齐网络，用于将源域的图片风格转换到目标域1、2的摄像头风格，从而获得目标域风格有标签的图片，分别记为第一域对齐图片、第二域对齐图片，同时将目标域1(或者2)的图片和目标域的1(或者2)的摄像头属性输入分布对齐网络，从而获得目标域下同一个行人在不同摄像头风格的图片，分别记为第一场景对齐、第二场景对齐。

多任务损失函数

多任务损失函数包括分类任务和度量任务。将第一域对齐图片、2的图片及其对应的摄像头属性共同输入基于属性编码的基于属性编码的行人重识别模型得到图片特征，分类任务是对这些特征及其对应的标签计算交叉熵损失，使基于属性编码的行人重识别模型学习到行人相关的特征。同时，将第一场景对齐、2的图片及其对应的摄像头属性共同输入基于属性编码的基于属性编码的行人重识别模型得到图片特征，度量任务是对这些特征计算三元组损失，使基于属性编码的行人重识别模型学习到行人图片在不同摄像头风格下的统一特征。

多目标域模型

多目标域模型是指提出基于属性编码的基于属性编码的行人重识别模型，针对多个目标域，训练一个基于属性编码的行人重识别模型。基于属性编码的基于属性编码的行人重识别模型在输入图片的同时，也接受图片对应的摄像头属性，提高模型对单目标域图片的识别能力的同时，能够区分多目标域的图片，学习到目标域1、2的不同分布。

综上所述，本发明提供的一种跨多目标域行人重识别方法，包括两个阶段：

阶段1：训练分布对齐网络对齐域分布和场景分布。基于StarGAN的分布对齐网络首先分别将源域的图片转化为多个目标域各个摄像头风格的图片，从而对齐域分布，减少域差异性，同时将每个目标域的图片转化为其他摄像头风格的图片，对齐场景分布，减少摄像头差异性。

阶段2：训练基于属性编码的深度学习网络Resnet-50。对于不同的目标域，同时训练分类任务和度量任务。分类任务：对于源域迁移到目标域的有标签图片，与对应的摄像头属性共同输入模型，利用分类损失约束网络学习行人特征。度量任务：对于目标域迁移到其他摄像头下的无标签图片，与对应的摄像头属性共同输入网络，利用难采样三元组损失约束网络使同一类别的行人特征距离减少，不同类别的行人特征距离增大。基于属性编码的模型区分了不同目标域的输入，使模型能自适应地学习到不同目标域的行人特征。

在基于属性编码的行人重识别模型中，由于目标域1与目标域2之间的分布不同，一个模型学习两种分布存在很大的困难，并且目标域1、目标域2内部的分布不同也给基于属性编码的行人重识别模型提取准确的特征有很大的挑战，因此，本发明提供的方法，目的为了通过编码，使基于属性编码的行人重识别模型自适应地学习不同摄像头下的数据分布，同时，能自适应地学习不同域的数据分布。此外，提出多任务损失函数优化基于属性编码的行人重识别模型参数，在分类任务中，使用交叉熵损失函数对同类个体学习不变性特征，在度量任务中，使用难采样三元组损失对同类个体、不同类个体的距离进行约束，从而提高模型的准确率。

本发明提供的方法还具有如下优点，增加了分布对齐网络，提出在训练基于属性编码的行人重识别模型之前进行分布对齐操作，即域对齐和场景对齐，从而减少分布不同带来的影响。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种跨多目标域行人重识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述多张目标域图片包括第一目标域图片和第二目标域图片，通过风格转换获得的场景对齐包括第一场景对齐和第二场景对齐；

所述的基于第一域对齐图片、第二域对齐图片和场景对齐，通过基于属性编码的行人重识别模型，提取第一域对齐图片和第二域对齐图片的1024维特征，提取场景对齐的128维特征包括：

3.根据权利要求2所述的方法，其特征在于，所述的基于第一域对齐图片和第二域对齐图片的1024维特征，以及场景对齐的128维特征，通过多任务损失函数计算获得分类损失和度量任务损失包括：

4.根据权利要求3所述的方法，其特征在于，所述的基于第一场景对齐和第二场景对齐的128维特征，计算三元组损失，获得度量任务损失包括:

基于该三元组，计算三元组损失，获得度量任务损失。

5.根据权利要求3所述的方法，其特征在于，还包括将分类损失和度量任务损失向基于属性编码的行人重识别模型进行反向传播求导，具体包括：根据分类损失和度量任务损失的结果向基于属性编码的行人重识别模型进行梯度反向传播，更新基于属性编码的行人重识别模型的参数。

6.根据权利要求1所述的方法，其特征在于，还包括：

7.根据权利要求1至6任一所述的方法，其特征在于，所述的基于源域图片、第一目标域图片和第二目标域图片，分别进行风格转换，获得第一域对齐图片和第二域对齐图片，第一场景对齐，以及第二场景对齐包括：

8.根据权利要求1至6任一所述的方法，其特征在于，还具有对第一域对齐图片、第二域对齐图片、第一场景对齐和第二场景对齐进行预处理的过程，具体包括：对第一域对齐图片、第二域对齐图片、第一场景对齐和第二场景对齐进行剪裁操作、差值固定操作、均值化操作和随机采样操作。