CN108537136B

CN108537136B - 基于姿态归一化图像生成的行人重识别方法

Info

Publication number: CN108537136B
Application number: CN201810224187.1A
Authority: CN
Inventors: 付彦伟; 钱学林; 薛向阳; 王文萱; 姜育刚
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2018-03-19
Filing date: 2018-03-19
Publication date: 2020-11-20
Anticipated expiration: 2038-03-19
Also published as: CN108537136A

Abstract

本发明属于计算机图像识别技术领域，具体为基于姿态归一化图像生成的行人重识别方法。本发明的具体步骤包括：行人平均姿态和属性特征的预测；姿态归一化图像生成模型的构建、训练和测试，生成8张不同姿态的行人图像；行人重识别特征提取网络的构建、训练和测试，得到行人重识别特征；最后行人重识别特征融合，获得待检测行人目标以及所有候选行人目标的特征。本发明方法具有速度快、精确度高、鲁棒性好、泛化能力佳、可扩展性强等优点，非常适用于视频行人监控、视频行人信息检索等实际应用。

Description

基于姿态归一化图像生成的行人重识别方法

技术领域

本发明属于计算机图像识别技术领域，具体涉及基于姿态归一化图像生成的行人重识别方法。

背景技术

行人重识别任务旨在通过两个不相交的摄像头对行人进行识别匹配。行人的外观表现可以因为姿态、光照、遮挡、视角等因素的改变而发生巨大的变化，这也为行人重识别问题带来了严峻的挑战。在这些影响因素中，姿态因素带来的改变最为直接、明显，也显得尤为重要。

一方面，随着深度学习热潮的掀起，越来越多的计算机视觉任务开始使用深度学习方法来解决，包括行人重识别任务。近几年提出的解决行人重识别任务的深度学习方法都包含一个基本的思想就是通过“观看”大量的行人图片来“学习”提取具有识别能力，但是对姿态、视觉变化具有不变性的特征。然而，这些方法都具有一定的局限性。首先，其不具有扩展到大型监控网络的能力。现有的模型方法要求大量的带身份标注的行人训练数据，但是对大型监控网络拍摄的图片数据进行身份标注是一件工程量浩大的事情；其次，其对新的监控网络网不具有很好的泛化性通常地，一个训练好的模型只适用于具有相同参数的监控摄像拍摄的行人图片识别任务，对于新的监控网络，若要保证较高的识别精度，必须对网络参数重新进行微调。

另一方面，假设具有丰富的带标注信息训练样本，现有的深度模型仍然面临各种外界干扰因素（例如姿态）带来的挑战，其在面对存在大量姿态变化的行人图片时，不仅要学习到具有对身份敏感的特征，同时也要学习到对视角不敏感的特征。这是因为一个行人的外观表象是有两部分组成：身份敏感但视角不敏感信息和身份不敏感但视角敏感信息。前者包括一些语义属性，例如性别、衣服风格、衣服颜色、穿戴物等；后者是一个相关信息，例如姿态。现有的方法通常是保留前者信息，移除后者信息，但是组成外观表象的这两部分并不是绝对独立的，比如背包的外观表象会因为姿态的不同而发生改变。

文[1]提出了基于多尺度特征融合的行人重识别方法，通过多尺度的方法提取全局与局部特征，并通过特征融合的方法筛选出最具识别能力的特征。但是该方法对姿态引起的外观表象变化并不具有很好的泛化能力。

文[2]利用部件检测、切割、重组的方法实现部件归一化，并融合原始图片特征和部分重组后的图片特征进行行人重识别。但是该方法并不具有很好的泛化、扩展能力。

文[3]提出使用GAN来生成更多的训练样本，并给予弱标签使其在网络训练中起到约束作用，提升识别精度。但是该方法同样对姿态引起的外观表象变化并不具有很好的泛化能力。

参考资料

[1] X. Qian and Y. Fu and Y. Jiang and T. Xiang and X.Xue. Multi-scale Deep Learning Architectures for Person Re-identification. In ICCV,2017；

[2] C. Su, J. Li, S. Zhang, J. Xing, W. Gao, and Q. Tian. Pose-drivendeep convolutional model for person re-identification. In ICCV, 2017；

[3] Z. Zheng, L. Zheng, and Y. Yang. Unlabeled samples generated bygan improve the person re-identification baseline in vitro. In ICCV, 2017；

[4] Y. Lin, L. Zheng, Z. Zheng, Y. Wu, and Y. Yang. Improving personre-identification by attribute and identity learning. 962 arXiv preprintarXiv:1703.07220, 2017；

[5] Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh. Realtime multi-person2d pose estimation using part affinity fields. In CVPR, 2017；

[6] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning 921for image recognition. CVPR, 2015。

发明内容

本发明的目的在于提出一种具有强大的可扩展性和泛化能力的基于姿态归一化图像生成的行人重识别方法。

对于行人重识别任务，学习一个高效率、可扩展、具有泛化能力的模型的关键是去除姿态对于行人图片的外观表现影响。如果没有了姿态变化的干扰因素，就可以使用更少的数据来训练模型，但却可以将模型扩展、泛化、应用到更大的监控网络中；可以使模型更专注于学习对身份敏感的特征；更进一步，可以利用两种互补的特征（没有姿态变化和存在姿态变化），从而更好地解决行人重识别任务。

本发明提出的基于姿态归一化图像生成的行人重识别方法，首先构建了一个新颖的深度学习重识别框架，该框架的核心是基于深度学习的行人姿态归一化图片生成模型。对于给定的任何一张行人图片，通过预先设定的八个基本姿态（如图3所示），来生成八张对应姿态的行人图片，这样，不仅可以将原训练数据集扩增9倍，而且通过融合原图特征和8张姿态归一化图片的特征，可以实现特征互补，去除姿态干扰，提升识别准确度。特别地，本发明模型一旦训练完成，具有强大的可扩展性、泛化能力，可以不经过任何微调而适用于在新的监控网络中进行重识别任务。本发明的具体步骤如下：

（1）行人平均姿态和属性特征的预测；

姿态归一化图像的生成模型取决于两个主要的因素：对身份敏感的属性特征和期望的姿态图片。前者是为了最大化地保留行人原图的身份信息，后者则是为了生成对应姿态的行人图像。由于这两方面都不是本发明的主要贡献，因此我们均采用现成的模型进行预测。对于属性特征的预测，我们定义了26个属性数目，并将属性预测模型[4]直接应用到所有的训练数据以及测试数据；对于姿态估计，我们直接利用开源工具（OpenPose）[5]，给定一张行人图片，OpenPose可以直接生成姿态图片，其包含18个姿态关键点及各个关键点之间的连线，其中连线用彩色来表示左右的区分。我们通过对行人姿态图片进行8分类聚类，并将每个聚类簇的中心姿态图片当做行人平均姿态，从而得到8个行人平均姿态图，如附图3所示。8张行人平均姿态图涵盖了行人一圈360°的8种姿态，并且每一张行人平均姿态图均包含18个姿态关键点及各个关键点之间的连线（如果姿态关键点缺失，则表明由于姿态角度的问题，对应关键点无法检测到）。采用行人平均姿态的方法，不仅可以扩大特征数量，实现特征之间的互补，而且可以进一步提升测试效率。

（2）姿态归一化图像生成模型的构建、训练和测试，生成8张不同姿态的行人图像；

姿态归一化图像生成模型是端到端训练的模型，由生成模型和判别模型两部分组成，如附图2所示。生成模型主要框架为基于深度学习的自编码器，即对于输入图片，经过编码器提取相关特征，然后由解码器重新构造图片。生成模型的输入为原始行人图片以及期望的姿态图片，经过编码器提取特征后与行人属性特征（从步骤（1）获得）拼接一起送入解码器，最终由解码器生成改变姿态的行人图片；判别模型同样也是基于深度学习框架，其输入也原始行人图片或者生成的行人图片，输出为是/否2分类，即判断输入图片为真实（原始）图片还是虚假（生成）图片。姿态归一化图像生成模型在训练时是一个生成模型与判别模型的博弈游戏，即生成模型学习更好的参数生成更逼真的行人图片来迷惑判别模型，而判别模型同样学习更好的参数为了能更准确的区分真实与虚假图片。姿态归一化图像生成模型在训练时，输入为原始行人图片、行人属性特征、期望姿态图片以及改变姿态的行人图片（训练标签），并利用生成模型和判别模型之间的博弈游戏，反复迭代，更新参数；姿态归一化图像生成模型在测试时，仅使用生成模型，根据原始行人图像、期望姿态图片及行人属性特征，生成对应不同姿态的行人图像。

（3）利用行人重识别特征提取网络的构建、训练和测试，得到行人重识别特征；

行人重识别特征提取网络的目的在于对于行人图片提取其深度特征，包括姿态信息、衣着信息、颜色信息等等。在本发明中，对于非常优秀的分类任务网络结构ResNet-50[6]进行了轻微的改进，提出了ResNet-50-A和ResNet-50-B网络结构，其中两者的网络结构一样，如附图4所示。以ResNet-50-A网络结构为例，其前4个模块的网络结构和ResNet-50的网络结构一样，区别在于第5个模块。标准的ResNet-50直接利用第5个模块的输出特征（res5c）进行分类，而考虑到每一层网络特征之间的互补性，我们将第5个模块中的3层网络的输出特征都拼接在一起，最后利用一层全连接层（FC）进行特征维度降维得到最终的用于分类识别的行人特征。ResNet-50-A和ResNet-50-B网络结构虽然一样，但是它们的作用却不同，前者用于提取原始行人图片的特征，后者用于提取生成图片的特征。因此，对于行人重识别特征提取网络的训练，我们分别利用原始行人图片和生成行人图片的训练集训练ResNet-50-A和ResNet-50-B网络，其监督信息为行人图片的身份；对于行人重识别特征提取网络的测试，给定一张行人图片（原始或者生成），直接利用对应的特征提取网络（ResNet-50-A或ResNet-50-B）进行特征提取。

（4）行人重识别特征融合，获得待检测行人目标以及所有候选行人目标的特征；

行人重识别特征融合的目的不仅在于实现多维特征之间的互补，而且在于提高重识别的效率。给定一张行人图片，首先我们可以通过步骤（2）的姿态归一化图像生成模型得到8张同一行人但不同姿态的图片，然后利用步骤（3）的行人重识别特征提取网络（ResNet-50-A和ResNet-50-B）分别对原始图片和生成图片进行特征提取。这样，对于一张行人图片，我们一共可以获得9个特征向量。本发明提出的行人重识别特征融合即对这9个行人特征向量进行两步特征融合。具体来说，首先，第一步对特征层面进行融合，我们将如上的9个人特征进行maxout的操作，将9个特征融合成1个特征。该特征可直接用于行人重识别任务，但是考虑到生成图片可能带有一定噪声等干扰因素，从生成图片提取的特征具有一定的不可信任度，会对重识别精度产生一定的影响，因此我们采用第二步融合。第二步融合建立在距离得分层面，首先利用欧氏距离计算公式计算不同行人原始图片特征（即ResNet-50-A提取的特征）两两之间的距离，形成距离矩阵（距离矩阵的生成主要为了便于行人重识别精度的计算，提高效率）；然后我们同样利用欧氏距离计算公式计算得到另一个距离矩阵，该距离矩阵计算所用的特征为第一步融合后获得的特征；由于前者距离矩阵来着真实图片样本，虽然受姿态影响，但是具有一定的可信度；后者距离矩阵来着真实图片和生成图片样本的融合特征，虽然移除了姿态影响，但存在一定的不可信度，因此我们将这两种距离矩阵计算平均值，互补不足，提高重识别精度。最终获得待检测行人目标以及所有候选行人目标的特征。

最终得到的距离矩阵可直接用于计算行人重识别的准确率。

综合来说，本发明提出的基于姿态归一化图像生成的行人重识别方法，对于给定待检测行人目标，以及一系列候选行人目标，具体流程如下：

（1）通过属性预测模型预测行人图片的属性特征；

（2）根据行人图像、属性特征以及8个行人平均姿态，利用姿态归一化图像生成模型生成8张对应姿态的行人图像；

（3）对原始图像以及8张生成图像利用行人重识别特征提取网络（ResNet-50-A和ResNet-50-B）提取对应特征；

（4）并对特征进行两步融合，最终获得待检测行人目标以及所有候选行人目标的特征；

（5）对待检测行人目标以及候选行人目标特征利用欧式距离进行距离计算、两两匹配，从而评测行人重识别准确度。

本发明提出的基于姿态归一化图像生成的行人重识别方法解决了在行人重识别问题中的一个重要干扰因素——姿态，该方法通过行人姿态归一化图片生成模型不仅可以实现行人重识别训练数据的扩充，而且利用8张归一化的平均姿态图片，可以消除姿态因素带来的干扰；行人重识别特征提取网络及融合可以实现多维特征之间的互补，提高重识别的精度和效率。最重要的是，本发明提出的方法及模型，可以利用少量的数据集进行训练，而一经训练完成，具有很好的可扩展性和泛化能力，能适用于不同的摄像网络间的行人重识别任务。

本发明方法具有速度快、精确度高、鲁棒性好、泛化能力佳、可扩展性强等优点，非常适用于视频行人监控、视频行人信息检索等实际应用。

附图说明

图1是本发明的基于姿态归一化图像生成的行人重识别方法的流程图。

图2是本发明提出的姿态归一化图像生成模型。

图3是姿态归一化图像生成模型所使用的8个平均姿态。

图4是本发明提出的行人重识别特征提取网络结构。

具体实施方式

本发明的具体实施方式主要以4个模块来介绍，分别对应于发明内容总的4部分以及综合发明流程。具体细节如下：

1、行人平均姿态和属性特征

对于属性特征的预测，本发明定义了26个属性数目，并将属性预测模型[4]直接应用到所有的训练数据以及测试数据，预测得到的属性特征维度为1×26。为了使属性特征的维度与姿态归一化图像生成模型中的维度一致，将1×26映射到2×1×52，首先，将属性维度中的0映射成01，将1映射成10，则1×26可以映射成1×52；然后，将这52维的属性特征复制一份拼接在一起，即从1×52映射到2×1×52；对于姿态估计，直接利用开源工具（OpenPose）[5]，给定一张行人图片，OpenPose可以直接生成姿态图片，我们不对生成的姿态图片做任何额外处理。

2、姿态归一化图像生成模型

姿态归一化图像生成模型主要分为训练和测试两个阶段。对于训练阶段，我们将训练数据中的原始行人图片、行人属性特征、期望姿态图片以及改变姿态的行人图片（训练标签）组成训练对，采用Tensorflow的深度学习框架，对生成模型和判别模型进行端到端的训练学习，其中初始学习率为0.002，每次批量大小为32，一共训练10个周期，每个周期将所有的训练数据学习一遍。姿态归一化图像生成模型一旦训练完成就不再进行任何改动，可直接用于改变姿态的图像生成，即姿态归一化图像生成模型的测试阶段。对于测试阶段，由于不在具有训练标签，因此网络的输入仅为给定的行人图片，8个行人平均姿态以及由属性预测模型生成的行人属性特征。根据这三种输入，我们仅利用生成模型来生成对应于平均姿态的8张改变姿态的行人图片。

3、行人重识别特征提取网络

由于行人重识别特征提取网络同样是神经网络，由于也需要分为训练和测试两个阶段。对于训练阶段，我们使用行人重识别的训练图片作为训练数据（原始行人训练数据和姿态归一化生成训练数据分别对应于ResNet-50-A和ResNet-50-B的训练），行人身份作为监督信息，利用caffe深度学习工具对网络在标准ResNet-50模型上进行微调，初始学习率为0.00035，每次批量大小为16，一共迭代训练10万轮。行人重识别特征提取网络一旦训练完成就不再进行任何改动，可直接用于行人图片的特征提取。对于测试阶段，我们利用ResNet-50-A对真实行人图片进行特征提取，特征维度为1024，利用ResNet-50-B对姿态归一化图像生成模型生成的行人图片进行特征提取，从附图1可以看出，本发明的流程为利用这两种特征，进行特征融合生成最终可用于行人重识别任务的具有高分辨能力的特征。

4、行人重识别特征融合

通过实施步骤3，对于给定一张行人图片，我们一共可以提取获得9个1024维度的行人特征。行人重识别特征融合又可以成为两步特征融合，对于第一步融合，我们对这9个1024维度的特征进行maxout操作，即对9个特征的每一维度取最大值，最终得到一个1024维度的融合特征，该特征可直接用于行人重识别任务，但是考虑到生成图片可能带有一定噪声等干扰因素，从生成图片提取的特征具有一定的不可信任度，会对重识别精度产生一定的影响，因此我们采用第二步融合。对于第二步融合，首先我们利用欧氏距离计算公式计算不同行人原始图片特征（即ResNet-50-A提取的特征）两两之间的距离，形成距离矩阵（距离矩阵的生成主要为了便于行人重识别精度的计算，提高效率）；然后我们同样利用欧氏距离计算公式计算得到另一个距离矩阵，该距离矩阵计算所用的特征为第一步融合后获得的特征；由于前者距离矩阵来着真实图片样本，虽然受姿态影响，但是具有一定的可信度；后者距离矩阵来着真实图片和生成图片样本的融合特征，虽然移除了姿态影响，但存在一定的不可信度，因此我们将这两种距离矩阵计算平均值，互补不足，提高重识别精度。

Claims

1. 一种基于姿态归一化图像生成的行人重识别方法，对于给定待检测行人目标，以及一系列候选行人目标，其特征在于，具体步骤如下：

（1）行人平均姿态和属性特征的预测

对于属性特征的预测，定义26个属性数目，将现有的属性预测模型直接应用到所有的训练数据以及测试数据；对于行人平均姿态估计，给定一张行人图片，直接利用现有的开源工具OpenPose生成姿态图片，其包含18个姿态关键点及各个关键点之间的连线，其中连线用彩色来表示左右的区分；通过对行人姿态图片进行8分类聚类，并将每个聚类簇的中心姿态图片当做行人平均姿态，得到8个行人平均姿态图；这8张行人平均姿态图涵盖了行人一圈360°的8种姿态，并且每一张行人平均姿态图均包含18个姿态关键点及各个关键点之间的连线；

姿态归一化图像生成模型是端到端训练的模型，由生成模型和判别模型两部分组成；生成模型主要框架为基于深度学习的自编码器，即对于输入图片，经过编码器提取相关特征，然后由解码器重新构造图片；生成模型的输入为原始行人图片以及期望的姿态图片，经过编码器提取特征后与行人属性特征拼接一起送入解码器，最终由解码器生成改变姿态的行人图片；判别模型同样也是基于深度学习框架，其输入也是原始行人图片或者生成的行人图片，输出为是/否2分类，即判断输入图片为真实图片还是虚假图片；姿态归一化图像生成模型的训练，是一个生成模型与判别模型的博弈游戏，即生成模型学习更好的参数生成更逼真的行人图片来迷惑判别模型，而判别模型同样学习更好的参数为了能更准确的区分真实与虚假图片；姿态归一化图像生成模型在训练时，输入为原始行人图片、行人属性特征、期望姿态图片以及改变姿态的行人图片，并利用生成模型和判别模型之间的博弈游戏，反复迭代，更新参数；姿态归一化图像生成模型在测试时，仅使用生成模型，根据原始行人图像、期望姿态图片及行人属性特征，生成8张对应不同姿态的行人图像；

行人重识别特征提取网络是对现有分类任务网络结构ResNet-50进行的改进：其前4个模块的网络结构和ResNet-50的网络结构一样，区别在于第5个模块，即将第5个模块中的3层网络的输出特征都拼接在一起，最后利用一层全连接层进行特征维度降维得到最终的用于分类识别的行人特征；记为ResNet-50-A和ResNet-50-B，两者网络结构一样，前者用于提取原始行人图片的特征，后者用于提取生成图片的特征；对于行人重识别特征提取网络的训练，分别利用原始行人图片和生成行人图片的训练集训练ResNet-50-A和ResNet-50-B网络，其监督信息为行人图片的身份；对于行人重识别特征提取网络的测试，给定一张原始或者生成的行人图片，直接利用对应的特征提取网络ResNet-50-A或ResNet-50-B进行特征提取，得到行人重识别特征；

对于一张行人图片，经过步骤（2）和步骤（3 ），一共获得9个特征向量；行人重识别特征融合即对这9个行人特征向量进行特征融合，分两步：第一步对特征层面进行融合，即将9个行人特征进行maxout的操作，融合成1个特征；第二步在距离得分层面进行融合，首先，利用欧氏距离计算公式计算不同行人原始图片特征两两之间的距离，形成距离矩阵；然后，同样利用欧氏距离计算公式计算得到另一个距离矩阵，该距离矩阵计算所用的特征为第一步融合后获得的特征；将这两种距离矩阵计算平均值，最终获得待检测行人目标以及所有候选行人目标的特征。