CN111639540A

CN111639540A - 基于相机风格和人体姿态适应的半监督人物重识别方法

Info

Publication number: CN111639540A
Application number: CN202010367600.7A
Authority: CN
Inventors: 黄磊; 朱辉; 魏志强
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2020-09-08
Anticipated expiration: 2040-04-30
Also published as: CN111639540B

Abstract

本发明公开了一种基于相机风格和人体姿态适应的半监督人物重识别方法，包括：选取涵盖所有身份、所有相机风格的有标签数据的步骤；对所述的有标签数据进行数据扩充、生成相机内不同姿态的图像和相机间不同风格的图像的步骤；扩充后的有标签数据联合无标签数据一起训练网络模型的步骤；以无标签数据与有标签数据特征之间的平均距离和各类别图像的个数相约束的策略进行伪标签分配的步骤。本发明解决了现有技术的有标签数据量少的问题和伪标签分配不合理的问题。

Description

基于相机风格和人体姿态适应的半监督人物重识别方法

技术领域

本发明属于深度学习和机器视觉技术领域，特别涉及一种基于相机风格和人体姿态适应的半监督人物重识别方法。

背景技术

人物重识别是机器视觉领域中跨摄像机视图检索探测行人图像的目的，传统人物重识别方法通常需要借助行人身份信息，即有监督人物重识别，但是获取标注信息具有可实施性差以及人工成本高等缺点，并且为了充分利用这些有限的标注信息，传统人物重识别方法通常关注于网络层数的深度以及网络结构的复杂性，这显然将导致计算和存储需求的大幅增加。因此，最近几年，基于无监督、半监督的人物重识别方法的研究应运而生。

半监督人物重识别训练数据包括两部分：有标签数据和无标签数据，即训练数据中有少部分图像带有标签信息，大多数图像没有标签信息。现有的半监督人物重识别方法可以分为以下两类：

(1)首先，从数据集中随机选择一定比例的类别，这些被选中类别的图像带有标签信息作为有标签数据，其余的图像不带有标签信息作为无标签数据。然后，使用有标签数据训练一个分类模型，使用训练好的模型提取无标签数据的特征，采用聚类算法对无标签数据特征进行聚类，以聚类结果对无标签数据估计伪标签。之后，使用伪标签数据微调网络模型，使用新得到的模型再一次进行无标签数据的伪标签估计，重复迭代这个过程，直到无标签数据的伪标签估计结果不改变为止。

(2)One-Example学习，每一个行人只有一张图像带有标签信息，作为有标签数据，其余的图像都是无标签数据。然后，使用有标签数据和无标签数据一起训练网络，使用训练得到的模型提取训练数据的特征，通过计算无标签数据和有标签数据特征之间的距离，按照最小距离的原则对无标签数据估计伪标签，以伪标签估计的距离作为无标签分配伪标签的置信度，选择置信度高的无标签数据分配伪标签，作为伪标签数据，剩余的仍为无标签数据。之后，使用有标签数据、伪标签数据和无标签数据一起训练网络，对无标签数据估计伪标签和分配伪标签，反复迭代这个过程，直到所有的无标签数据都分配了伪标签为止。

现有的半监督人物重识别方法较好的解决了有监督人物重识别需要很多标注数据的问题。但是，存在较多问题，首先是有标签数据量少，有限的标签数据训练得到的模型的特征表示能力有限；根据有限的有标签数据对大量无标签数据估计伪标签，通常按照特征距离进行分配，可能会出现某些类别分配的无标签数据过多，不符合数据集中行人类别分布的真实情况，并且估计的伪标签的可靠性不能保证；其次，人物重识别任务受相机参数、拍摄角度、图像分辨率等因素的影响大，半监督人物重识别本身有标签训练数据有限，更是加大了这一影响；最后，人物重识别数据集从视频序列中检测出来，由于行人本身的特点，一段时间序列中行人外貌不断发生变化，人体姿态多变是人物重识别任务的很大挑战，同理，半监督人物重识别任务面临更大的挑战。

发明内容

针对现有技术存在的不足，本发明提供一种基于相机风格和人体姿态适应的半监督人物重识别方法，针对人物重识别任务受相机参数、拍摄角度、图像分辨率、人体姿态等因素影响大的问题，在有标签数据扩充、伪标签估计等方面进行优化，形成相机内的姿态学习和相机间的风格学习，得到更多不同姿态、不同风格的有标签数据，重新设计伪标签分配策略，提高人物重识别的性能；解决了现有技术的有标签数据量少的问题和伪标签分配不合理的问题。

为了解决上述技术问题，本发明采用的技术方案是：

基于相机风格和人体姿态适应的半监督人物重识别方法，包括：

选取涵盖所有身份、所有相机风格的有标签数据的步骤；

对所述的有标签数据进行数据扩充、生成相机内不同姿态的图像和相机间不同风格的图像的步骤；

扩充后的有标签数据联合无标签数据一起训练网络模型的步骤；

以无标签数据与有标签数据特征之间的平均距离和各类别图像的个数相约束的策略进行伪标签分配的步骤。

进一步的，所述的基于相机风格和人体姿态适应的半监督人物重识别方法，具体包括以下步骤：

步骤1、预训练GAN网络模型，得到用于生成不同相机风格的图像的模型和用于生成不同姿态的图像的模型；

步骤2、选择有标签数据：从数据集中每个类别下的每个相机图像中各随机选取一张为有标签数据，其余的为无标签数据；

步骤3、扩充有标签数据：使用步骤1中预训练好的GAN网络模型对有标签数据进行数据扩充，得到的不同风格、不同姿态的图像对和原始图像对属于同一行人，都作为有标签数据；

步骤4、有标签数据和无标签数据联合训练网络，其中无标签数据因为没有行人身份信息，使用它们的索引作为标签，这些使用索引作为标签的无标签数据称为索引标签数据；将有标签数据的损失和无标签数据损失相结合，在训练时使用基于动量的梯度下降法更新优化网络参数，优化模型；

步骤5、有标签数据的损失计算：包括有标签数据的交叉熵损失和有标签数据的困难三元组损失；

步骤6、无标签数据的损失计算：包括多样性损失；

步骤7、无标签数据的伪标签估计：使用步骤5、6中的损失训练一个模型，采用得到的模型提取无标签数据的特征，根据无标签数据与有标签数据特征之间的平均距离进行伪标签估计；

步骤8、无标签数据分配为伪标签数据:按照伪标签估计的置信度，结合各类别图像的个数相约束的策略,选取可靠伪标签估计的无标签数据分配伪标签；

步骤9、迭代步骤3-8，采用渐进式方式不断从无标签数据中分配伪标签数据，直到所有无标签数据都分配为伪标签数据。

进一步的，步骤1中，使用人物重识别数据集预训练CycleGAN网络模型，将数据集中的图像按照身份和相机两个信息进行分类，同一身份在不同相机下的图像预训练一个风格转换GAN网络，用来生成不同相机风格的图像，称为Camera GAN，得到表现良好的生成模型G_c；借助关键点检测算法获取行人的人体部位关键点信息，利用关键点信息对同一相机下的相同身份的图像预训练一个姿态转换GAN网络，用来生成不同姿态的图像，称为PoseGAN，得到表现良好的生成模型G_p。

进一步的，步骤3中，针对不同相机捕获到的图像风格不统一的问题，在具有相同身份不同相机信息的图像对之间使用G_c模型生成彼此风格的图像；针对行人多变的外观，在具有相同身份相同相机信息的图像对之间使用G_p模型生成彼此姿态的图像；

其中，有标签数据

n代表数据集中身份的个数，其中第i个身份被m_i个相机捕获到，所以第i个身份有m_i个来自不同相机图片为有标签数据；

第一次迭代时只有相机间的风格转换；每一个身份的有标签图像按照排列组合的方式得到不同相机风格的图像对，第i个身份不同相机风格之间排列组合得到的图像对为：

这些图像对作为G_c模型的输入，使用预训练好的模型生成彼此风格的图像，第i个身份的m_i个有标签数据扩充之后得到m_i(m_i-1)/2个有标签数据，扩充后的有标签数据和原始有标签数据等价。

进一步的，步骤5中，有标签数据的交叉熵损失函数表示为：

其中

是w参数化的分类器，

是图像x_ij的特征表示，k是分类器进行预测的类别总个数，y_ij是图像x_ij的真实身份类别；

有标签数据的困难三元组损失函数表示为：

其中

和

是锚点、正样本和负样本图像的特征表示，α是用来控制类间和类内距离的超参数，P是一个batch中选取类别的个数，K是各个类别的图像个数，使用三元组损失拉近锚点与正样本图像特征之间的距离，推远锚点与负样本图像特征之间的距离，优化模型；

使用超参数λ₁将有标签交叉熵损失和有标签困难三元组损失相结合，有标签数据的最后损失函数表示为：L_labeled＝λ₁L_CE+(1-λ₁)L_triplet。

进一步的，步骤6中，把训练数据集中每一个无标签数据看作是不同的类，使用索引标签进行分类，使模型学习多样性特征：

给定一个无标签图像x_i，使用

表示图像x_i的L2正则化特征表示，即||t_i||＝1，将所有的无标签特征存放在更新表T中，计算t_i与更新表所有特征之间的距离，使用softmax函数预测x_i属于类别i的概率：

其中τ∈(0,1]是一个控制温度，

为了使模型学习的特征更易区分无标签数据为自己本身而不是其他无标签数据，无标签数据的多样性损失定义为：L_unlabel＝-logp(i|x_i)。

进一步的，使用一个超参数λ₂将有标签数据损失函数和无标签数据损失函数相结合，模型的总损失函数为：L＝λ₂L_labeled+(1-λ₂)L_unlabel。

进一步的，步骤7中，伪标签估计时，以无标签数据与每个类中所有有标签数据特征之间距离的平均值作为伪标签估计的标准，给定一个无标签数据x，它与i类有标签数据之间的平均距离为：

其中n_i为i类有标签数据的个数，以此计算无标签数据x与所有类有标签数据的平均距离，得到距离列表d，然后求距离列表d中最小距离的对应的类为无标签数据x的伪标签：

进一步的，步骤8中对伪标签分配标准进行改进，使用伪标签估计时计算的距离大小作为标签分配的置信度，将每个类别下的有标签数据和伪标签数据的个数作为伪标签分配的约束，

因此，给定一个无标签数据x和它分配给i类的置信度d_i，那么这个无标签数据被分配伪标签i的衡量距离表示为：D(x,i)＝d_i+γN_i，其中N_i是当前类别i的有标签数据和伪标签数据个数，γ用来控制有标签数据和伪标签数据个数的约束大小；

这些分配伪标签的无标签数据作为伪标签数据，其余无标签数据不分配伪标签继续以索引为标签。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前所述的方法步骤。

与现有技术相比，本发明优点在于：

(1)本发明在有标签数据时只需选取涵盖所有身份、所有相机风格的少量有标签数据；

(2)本发明使用GAN网络对少量有标签数据进行数据增强，同时考虑图像相机风格和姿态的影响，将图像的相机信息引入人物重识别任务中，设置了数据扩充方式：同一个相机下的相同身份的图像之间彼此学习各自的姿态，同一个人在不同相机下的图像之间彼此学习各自的相机风格，形成相机内的姿态学习和相机间的风格学习，得到更多不同姿态、不同风格的有标签数据；有标签数据联合无标签数据一起训练网络，优化模型。

(3)优化伪标签分配策略，本发明将无标签数据与有标签数据特征之间的平均距离作为伪标签分配的标准，同时考虑各类别图像的个数的约束，提出了距离和个数相约束的策略，使用这种策略进行伪标签估计和分配，使伪标签数据更可靠、更符合真实数据集类别分布的情况。

(4)本发明使有限的有标签数据包含了更丰富的身份、相机信息，使模型可以更好的适应不同风格、不同姿态的图像，使分配的伪标签更可靠、更符合现实数据集类别分布，显著提高了模型性能和识别准确率。

综上所述，本发明对半监督人物重识别任务在有标签数据选择、有标签数据扩充、伪标签估计等方面进行优化，针对人物重识别任务受相机参数、拍摄角度、图像分辨率、人体姿态等因素影响大的问题，本发明有显著改善，提高人物重识别的性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法流程示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的说明。

本发明的设计思路是从有标签数据选择、数据增强、伪标签估计三个方面，对现有半监督人物重识别方法进行改进，以提高了人物重识别准确率。

本发明的基于相机风格和人体姿态适应的半监督人物重识别方法，包括：

选取涵盖所有身份、所有相机风格的有标签数据的步骤；

下面结合图1对所述的基于相机风格和人体姿态适应的半监督人物重识别方法步骤进行具体说明。

步骤1、预训练GAN网络模型，得到用于生成不同相机风格的图像的模型和用于生成不同姿态的图像的模型。

使用主流的人物重识别数据集预训练CycleGAN网络模型，将数据集中的图像按照身份和相机两个信息进行分类，同一身份在不同相机下的图像预训练一个风格转换GAN网络，用来生成不同相机风格的图像，称为Camera GAN，得到表现良好的生成模型G_c；借助关键点检测算法获取行人的人体部位关键点信息，利用关键点信息对同一相机下的相同身份的图像预训练一个姿态转换GAN网络，用来生成不同姿态的图像，称为Pose GAN，得到表现良好的生成模型G_p。

步骤2、选择有标签数据：从数据集中每个类别下的每个相机图像中各随机选取一张为有标签数据

其余的为无标签数据

符号说明：n代表数据集中身份的个数，其中第i个身份被m_i个相机捕获到，所以第i个身份有m_i个来自不同相机图片选为有标签数据，第i个身份剩余的u_i个图片为无标签数据。

步骤3、扩充有标签数据：使用步骤1中预训练好的GAN网络模型对有标签数据进行数据扩充，针对不同相机捕获到的图像风格可能不统一的问题，我们在具有相同身份不同相机信息的图像对之间使用G_c模型生成彼此风格的图像；针对行人多变的外观，我们在具有相同身份相同相机信息的图像对之间使用G_p模型生成彼此姿态的图像。使用GAN网络得到的不同风格、不同姿态的图像都和原始图像对属于同一行人，都作为有标签数据。

在第一次迭代时，有标签数据

中没有一个类存在两张图片来自同一个相机，所以第一次迭代时没有相机内的姿态转换，只有相机间的风格转换。每一个身份的有标签图像按照排列组合的方式得到不同相机风格的图像对，第i个身份不同相机风格之间排列组合得到的图像对为：

这些图像对作为G_c模型的输入，使用预训练好的模型生成彼此风格的图像，第i个身份的m_i个有标签数据扩充之后得到m_i(m_i-1)/2个有标签数据，这些扩充后的有标签数据和原始有标签数据等价。

步骤4、有标签数据和无标签数据联合训练网络，其中无标签数据因为没有行人身份信息，本发明中使用它们的索引作为标签，这些使用索引作为标签的无标签数据成为索引标签数据。

本专利采用移除最后一个分类层的ResNet-50作为主干网络，ResNet-50最后一个block的最后一层池化得到的Feature Map为图像x_i的特征表示：

我们把人物重识别任务看作一个多分类问题，使用交叉熵损失进行分类；此外因为人物重识别任务是跨摄像机问题，存在很多难以区分的样本，所以使用困难三元组损失挖掘难以区分的样本，即拉进属于同一身份但最不相似的图像，推远不属于同一身份但最相似的图像，以使模型充分利用有限的有标签信息进行模型优化。

最后将有标签数据的损失和无标签数据损失相结合，在训练时使用基于动量的梯度下降法更新优化网络参数，优化模型。

步骤5、有标签数据的损失计算：包括有标签数据的交叉熵损失和有标签数据的困难三元组损失。

把人物重识别任务看作是一个分类任务，学习一个分类器f(w；·)，用来预测图像x_i属于哪个类别，有标签数据已知真实标签y_i，然后计算交叉熵损失CE(f(w；x_i),y_i)。

有标签数据的交叉熵损失函数表示为：

其中

是w参数化的分类器，

是图像x_ij的特征表示，k是分类器进行预测的类别总个数，y_ij是图像x_ij的真实身份类别。

困难三元组损失包括一个锚点、正样本和负样本图像，给定一个锚点图片x_a，我们选与锚点属于同一身份的最不相似图像为正样本图片x_p，与锚点不属于同一身份的最相似图像为负样本图片x_q，有标签数据的困难三元组损失函数表示为：

其中

和

是锚点、正样本和负样本图像的特征表示，α是用来控制类间和类内距离的超参数，P是一个batch中选取类别的个数，K是各个类别的图像个数，使用三元组损失拉近锚点与正样本图像特征之间的距离，推远锚点与负样本图像特征之间的距离，优化模型。

然后，使用一个超参数λ₁将有标签交叉熵损失和有标签困难三元组损失相结合，有标签数据的最后损失函数表示为：L_labeled＝λ₁L_CE+(1-λ₁)L_triplet。

步骤6、无标签数据的损失计算：包括多样性损失。

把训练数据集中每一个无标签数据看作是不同的类，使用索引标签进行分类，使模型学习多样性特征。

给定一个无标签图像x_i，使用

其中τ∈(0,1]是一个控制温度，

最后，使用一个超参数λ₂将有标签数据损失函数和无标签数据损失函数相结合，模型的总损失函数为：L＝λ₂L_labeled+(1-λ₂)L_unlabel，在训练时使用基于动量的梯度下降法更新优化网络参数。

步骤7、无标签数据的伪标签估计：使用步骤5、6中的损失训练一个模型，采用得到的模型提取无标签数据的特征，根据无标签数据与有标签数据特征之间的平均距离，进行伪标签估计。

本发明中伪标签估计时，以无标签数据与每个类中所有有标签数据特征之间距离的平均值作为伪标签估计的标准，给定一个无标签数据x，它与i类有标签数据之间的平均距离为：

步骤8、无标签数据分配为伪标签数据：按照伪标签估计的置信度，结合各类别图像的个数(此次迭代时各类别的有标签和伪标签数据的个数)相约束的策略,选取可靠伪标签估计的无标签数据分配伪标签。

本发明对伪标签分配标准进行改进，使用伪标签估计时计算的距离大小作为标签分配的置信度，将每个类别下的图像的个数作为伪标签分配的约束。

在算法执行过程中无标签数据自动分配标签(即伪标签)，每一个无标签图像都有一个伪标签估计时使用的距离，将这些距离排序，选择距离最小的一些无标签数据分配伪标签，因为每一个行人被捕获到的概率基本相同，所以数据集中每个类别下的图片个数基本相同，为了保证标签分配过程符合现实数据集的类别分布，对伪标签分配标准进行改进。如果某个类别已经有很多有标签数据，在伪标签分配时，要优先分配含有有标签数据较少的类别，即使这些伪标签数据的距离大于其他的类。

因此，给定一个无标签数据x和它分配给i类的置信度d_i，那么这个无标签数据被分配伪标签i的衡量距离表示为：D(x,i)＝d_i+γN_i，其中N_i是当前类别i的有标签数据和伪标签数据个数，γ用来控制有标签数据和伪标签数据个数的约束大小。

步骤9、迭代步骤3-8，采用渐进式方式不断从无标签数据中分配伪标签数据，本发明方法中每次迭代分配5％的无标签数据为伪标签数据，直到所有无标签数据都分配为伪标签数据。

需要特别指出的是，第一次迭代之后，训练集中数据分为有标签数据、伪标签数据和无标签数据，伪标签数据和有标签数据看作是等价的，在步骤3中进行姿态、相机风格转换，在步骤5中和有标签数据一样使用交叉熵损失和困难三元组损失进行模型优化。

作为本发明另一实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述的基于相机风格和人体姿态适应的半监督人物重识别的方法步骤。此处不再赘述。

本发明说明书的各个实施例之间相同或相似部分互相参见即可，每个实施例重点说明的是与其他实施例不同之处。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，执行本发明各个实施例或者实施例的某些部分所述的方法。

当然，上述说明并非是对本发明的限制，本发明也并不限于上述举例，本技术领域的普通技术人员，在本发明的实质范围内，做出的变化、改型、添加或替换，都应属于本发明的保护范围。

Claims

1.基于相机风格和人体姿态适应的半监督人物重识别方法，其特征在于，包括：

选取涵盖所有身份、所有相机风格的有标签数据的步骤；

2.根据权利要求1所述的基于相机风格和人体姿态适应的半监督人物重识别方法，其特征在于，具体包括以下步骤：

步骤6、无标签数据的损失计算：包括多样性损失；

步骤8、无标签数据分配为伪标签数据：按照伪标签估计的置信度，结合各类别图像的个数相约束的策略，选取可靠伪标签估计的无标签数据分配伪标签；

3.根据权利要求2所述的基于相机风格和人体姿态适应的半监督人物重识别方法，其特征在于，步骤1中，使用人物重识别数据集预训练CycleGAN网络模型，将数据集中的图像按照身份和相机两个信息进行分类，同一身份在不同相机下的图像预训练一个风格转换GAN网络，用来生成不同相机风格的图像，称为Camera GAN，得到表现良好的生成模型G_c；借助关键点检测算法获取行人的人体部位关键点信息，利用关键点信息对同一相机下的相同身份的图像预训练一个姿态转换GAN网络，用来生成不同姿态的图像，称为Pose GAN，得到表现良好的生成模型G_p。

4.根据权利要求3所述的基于相机风格和人体姿态适应的半监督人物重识别方法，其特征在于，步骤3中，针对不同相机捕获到的图像风格不统一的问题，在具有相同身份不同相机信息的图像对之间使用G_c模型生成彼此风格的图像；针对行人多变的外观，在具有相同身份相同相机信息的图像对之间使用G_p模型生成彼此姿态的图像；

其中，有标签数据

5.根据权利要求2所述的基于相机风格和人体姿态适应的半监督人物重识别方法，其特征在于，步骤5中，有标签数据的交叉熵损失函数表示为：

其中

是w参数化的分类器，

有标签数据的困难三元组损失函数表示为：

其中

和

6.根据权利要求5所述的基于相机风格和人体姿态适应的半监督人物重识别方法，其特征在于，步骤6中，把训练数据集中每一个无标签数据看作是不同的类，使用索引标签进行分类，使模型学习多样性特征：

给定一个无标签图像x_i，使用

其中τ∈(0，1]是一个控制温度，

为了使模型学习的特征更易区分无标签数据为自已本身而不是其他无标签数据，无标签数据的多样性损失定义为：L_unlabel＝-log p(i|x_i)。

7.根据权利要求6所述的基于相机风格和人体姿态适应的半监督人物重识别方法，其特征在于，使用一个超参数λ₂将有标签数据损失函数和无标签数据损失函数相结合，模型的总损失函数为：L＝λ₂L_labeled+(1-λ₂)L_unlabel。

8.根据权利要求6所述的基于相机风格和人体姿态适应的半监督人物重识别方法，其特征在于，步骤7中，伪标签估计时，以无标签数据与每个类中所有有标签数据特征之间距离的平均值作为伪标签估计的标准，给定一个无标签数据x，它与i类有标签数据之间的平均距离为：

9.根据权利要求8所述的基于相机风格和人体姿态适应的半监督人物重识别方法，其特征在于，步骤8中对伪标签分配标准进行改进，使用伪标签估计时计算的距离大小作为标签分配的置信度，将每个类别下的有标签数据和伪标签数据的个数作为伪标签分配的约束，

因此，给定一个无标签数据x和它分配给i类的置信度d_i，那么这个无标签数据被分配伪标签i的衡量距离表示为：D(x，i)＝d_i+γN_i，其中N_i是当前类别i的有标签数据和伪标签数据个数，γ用来控制有标签数据和伪标签数据个数的约束大小；