CN111488760B

CN111488760B - 基于深度多示例学习的少样本行人重识别方法

Info

Publication number: CN111488760B
Application number: CN201910073611.1A
Authority: CN
Inventors: 付彦伟; 姜育刚; 薛向阳; 钱学林
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2023-05-02
Anticipated expiration: 2039-01-25
Also published as: CN111488760A

Abstract

本发明涉及一种基于深度多示例学习的少样本行人重识别方法，包括三个阶段：网络预训练阶段、数据集扩充阶段、网络微调阶段。行人重识别特征提取子网络预训练之后，利用行人关键点特征区域交换算法进行数据扩充；利用扩充的数据集对行人重识别特征提取子网络和特征聚合子网络进行微调；迭代重复数据集扩充和网络微调，直到特征提取子网络和特征聚合子网络收敛。一旦训练完成，即实现了利用少样本将原始域上的行人重识别模型迁移扩展至目标域上。本发明在给定目标域少量学习样本的前提上，能有效地将行人重识别模型迁移扩展到目标域监控网络中，具有精确度高、鲁棒性好、扩展性佳、可迁移的优点。

Description

基于深度多示例学习的少样本行人重识别方法

技术领域

本发明属于计算机图像分析技术领域，具体涉及一种基于深度多示例学习的少样本行人重识别方法。

背景技术

行人重识别算法旨在对多个不相交的摄像头捕捉到的行人图片进行识别匹配。在过去几年中，行人重识别任务已经受到了越来越广泛的关注，并且在大量自然场景下的应用中扮演着重要的角色，例如人群计数，安全监控等等。随着深度学习热潮地掀起，大量的基于深度模型的方法被研究提出用于解决监督学习下的行人重识别问题。这些方法或用于挖掘学习更具识别能力的特征表达，或学习更好的相似度度量，或结合上述两者。与此同时，行人重识别精度基线也被一次又一次地提升。

然而，这些基于监督学习的方法仍然受限制于行人重识别任务的实际应用于扩展。一方面的局限性来自于不同视角下的显著视觉特征差异，例如光照变化、姿态变化和不同的摄像距离等等。一般地，行人重识别任务通常发生横跨多个不相交的监控摄像，不同的摄像仪器的参数会放大不同数据域下的同一行人图像特征的差异。因此，不经过任何知识迁移或者微调而直接将原始域上训练好的行人重识别模型应用于目标域上，将对识别精度产生灾难性的衰减。另一方面的局限性来自于缺乏大量的配对行人图片的标注。不同于标准的分类任务，行人重识别任务要求采集同一行人身份在每个摄像头下的大量行人图片，并对他们进行身份标签标注。但是，人工地对横跨多个摄像头下的行人图片进行标注是一件非常困难和烦琐的工作。更重要的是，在现实场景中，一个摄像网络通常包括上百个摄像头(例如机场或者商场)，在这样的环境下采集标注足够的训练行人图片几乎是不可能的。

为了解决上述问题，一些基于半监督学习、无监督学习和生成对抗网络的工作被研究提出：

现有一种改进的无监督学习的行人重识别方法，利用聚类和微调的迭代过程，逐渐地将原始域上的深度特征表征能力迁移到未见过的目标域上。参见H.Fan等人公开的文章“无人监督的行人重识别：聚类和微调(Unsupervised person re-identification:Clustering and fine-tuning)”，《美国计算机学会多媒体处理、通信和应用汇刊》ACMTransactions on Multimedia Computing,Communications,and Applications(TOMM),14(4):83,2018。

另一种现有技术，利用行人属性语义空间学习和行人身份信息空间学习，并通过搭建学习两个空间之间的转换能力，从而实现在目标域上进行无监督行人重识别任务。参见J.Wang等人公开的文章“无人监督行人重识别的可转移联合属性—身份深度学习(Transferable joint attribute-identity deep learning for unsupervised personre-identification”)，CVPR(IEEE国际计算机视觉与模式识别会议),2018。

还有一种使用GAN来实现行人图片在不同数据域之间的转换，从而将原始域中带标签的行人图片转换到目标域中进行网络微调训练，使网络能够适用于新的目标环境。参见L.Wei等人公开的“行人迁移GAN连接区域差距的行人重识别(Person transfer GAN tobridge domain gap for person re-identification)”，CVPR,2018

发明内容

本发明提供一种基于深度多示例学习的少样本行人重识别方法，能有效地将行人重识别模型迁移扩展到目标域监控网络中，具有精确度高、鲁棒性好、扩展性佳、可迁移等优点。

对于行人重识别任务，如何学习一个高效率、可扩展、具有泛化能力的模型是一个关键问题。如果一个行人重识别模型只具有高精度而没有强扩展性，那么该模型只能适用于特定的监控网络，一旦监控网络发生改变，该模型需要花费大量的人力精力去采集标注数据进行重新训练；反之如果一个行人重识别模型只具有强扩展性而没有高精度，那么该模型就没有任何可利用价值。

为了解决这个关键问题，平衡行人重识别模型的精度和扩展性，本发明提出了一个新颖的少样本深度学习重识别框架。该框架的核心主要包括两部分：首先采用了一个高效的行人关键点区域交换算法对行人数据集扩充并将数据集重组由单一的图片示例变成包含多示例的包；然后提出了深度多示例学习框架对每个包中的行人图片进行特征提取和聚合，即克服了数据扩充带来的噪声引入，又解决了包中多示例图片特征维度的不一致性问题。该框架通过不断迭代更新，在目标域少样本的基础上，逐渐将行人重识别网络由原始域扩展迁移至目标域。

本发明的技术方案是提供一种基于深度多示例学习的少样本行人重识别算法，其包含以下过程：

A1、在原始域对行人重识别网络进行预训练初始化；

A2、将目标域带标签的少量样本作为基准行人图片，将未标注的样本作为候选行人图片，对所有行人图片进行特征提取；

A3、计算基准行人图片与每一候选行人图片的特征距离，根据特征距离对候选行人图片进行排序，并对任一基准行人图片，从候选行人图片集中挑选置信度高的候选图片；

A4、对任一一对基准行人图片和候选图片，进行行人关键点检测，并根据检测到的关键点对关键点区域进行截取交换，生成新的行人图片，实现数据集扩充；

A5、利用扩展的数据集进行数据重组，来对网络微调；

A6、迭代重复A2-A5，直至网络收敛，实现重识别网络迁移扩展；

A7、在目标域上，给定待检测行人以及候选行人，利用A6训练得到的网络进行特征提取和匹配，实现行人重识别。

优选地，A5中的网络微调，是利用重组的数据集进行网络训练梯度回传，对特征提取子网络和特征聚合子网络进行参数微调。

优选地A1中进行预训练初始化时，利用原始域带标签的训练数据对特征提取子网络进行训练学习，并将学习的参数作为特征提取子网络应用到目标域的初始参数。

优选地，A5中进行数据重组时，将扩充的数据集由单个示例的训练集，重组成多示例的包训练集，对于任一基准行人图片，从由其扩充的数据集中随机挑选部分图片组成一个包；每个包包含一张基准行人图片及若干个由其扩充的新的行人图片。

优选地，所述的特征提取子网络，对输入的行人图片或者包中所包含的图片示例进行特征提取；

所述特征提取子网络的参数由预训练时得到的参数进行初始化，之后根据特征聚合子网络回传的梯度对特征提取子网络的参数进行更新微调。

优选地，所述的特征聚合子网络将包中多示例特征聚合成统一的维度；将特征聚合子网络拼接在特征提取子网络的末端，并在其末端衔接两层全连接层作为分类器，利用包的标签同时对特征提取子网络和特征聚合子网络进行训练微调；网络训练输入单位为包，包的标签为其包含的基准行人图片的标签。

优选地，所述的特征聚合子网络利用词袋模型对每个包中的特征进行聚合。

优选地，A4中遵循4个准则对关键点区域进行截取和交换：

准则-1：行人关键点区域的截取和交换不包括头部区域附近的5个关键点，即脖子、左耳、右耳、左眼、右眼；

准则-2：从基准行人图片和候选图片中任意挑选两个服从准则-1的对应行人关键点区域进行截取和交换，一个关键点来自于行人上半身，另一个关键点来自行人下半身；

准则-3：有0.5的概率将基准行人图片中的关键点区域替换为候选图片对应的关键点区域，生成新的行人图片；有1-0.5的概率将候选图片中的关键点区域替换为基准行人图片对应的关键点区域，生成新的行人图片；

准则-4：如果基准行人图片和候选图片在行人上半身或下半身未找到任何对应的关键点，则在基准行人图片和候选图片的上半区域或下半区域，随机产生一个绝对位置进行准则-3的截取交换；应用准则-4时，无视准则-1。

优选地，A3中利用余弦距离计算基准行人图片与每一候选行人图片的特征距离。

优选地，A4中利用OpenPose工具进行关键点检测。

与现有的行人重识别方法不同的是，本发明考虑了一个更具真实性的少样本行人重识别设定来平衡模型精度和扩展性用于实际应用，并基于此设定设计了一个多示例深度神经网络模型从少样本行人图片中获取表征能力更强的特征。除此之外，不同于利用复杂的GAN来生成不稳定的行人图片，本发明采用了一个更合理、高效的行人关键点区域交换算法来实现行人数据集扩充。基于这两个不同点，本发明提出的少样本行人重识别方法更具自然场景下的实用性，且在识别精度上更具更好的效果。

附图说明

图1是本发明所述少样本行人重识别方法的流程示意图。

图2是本发明提出的基于深度学习的少样本行人重识别框架流程图。

图3是行人关键点检测示意图。

图4是本发明提出的基于行人关键点区域交换的数据集扩充算法示意图。

具体实施方式

配合参见图1、图2所示，本发明使用多示例少样本行人特征学习网络框架，对行人图片进行特征学习和身份识别。所述多示例少样本行人特征学习网络框架，主要包括三个阶段：网络预训练阶段、数据集扩充阶段、网络微调阶段；包括的网络有两个：特征提取子网络、特征聚合网络。

所述的网络预训练阶段，利用原始域带标签的大量训练数据对特征提取子网络进行训练学习，并将学习的参数作为特征提取子网络应用到目标域的初始参数。

数据集扩充阶段、网络微调阶段不断迭代进行，直至两个网络达到收敛，则特征提取子网络即可用于目标域监控网络中的行人重识别算法(特征提取和识别)。

其中，所述的数据集扩充阶段对扩展的数据集进行数据重组，打上行人身份标签用于行人重识别网络微调阶段。数据重组时，将原先单个示例的训练集重组成多示例的包训练集，具体地，对于任一基准图片，从由其扩充的数据集中随机挑选部分图片组成一个包，即每个包包含1张基准图片及若干个由其扩充的新行人图片。包训练时，网络训练输入单位为包而不是单一示例的图片，包的标签为其包含的基准行人图片的标签。

所述的网络微调阶段，利用重组的数据集进行网络训练梯度回传，从而对特征提取子网络和特征聚合子网络进行参数微调。所述的特征提取子网络，对输入的行人图片或者包中所包含的图片示例进行特征提取。所述的特征聚合子网络，利用词袋模型的思想对每个包中的特征进行聚合，即克服了数据扩充带来的噪声引入，又解决了包中多示例图片特征维度的不一致性问题。

本发明提出的基于深度多示例学习的少样本行人重识别方法，是一个自训练的过程，其包含如下步骤：

S1、行人重识别特征提取子网络预训练；

S2、利用行人关键点特征区域交换算法进行数据扩充；

S3、利用扩充的数据集对行人重识别特征提取子网络和特征聚合子网络进行微调；

S4、迭代重复步骤S2-S3直到特征提取子网络和特征聚合子网络收敛。

一旦训练完成，即实现了利用少样本将原始域上的行人重识别模型迁移扩展至目标域上。对于行人重识别在目标域上的预测，给定待检测行人以及候选行人，即可利用训练好的特征提取子网络进行特征提取和再识别。本发明可以给定目标域少量带标签的训练样本和部分未标注的训练样本，有效地将行人重识别算法迁移扩展至新的目标域监控网络中。

1、行人重识别特征提取子网络预训练(S1)

行人重识别特征提取子网络的目的在于对行人图片进行深度特征提取，包括姿态信息、衣着信息、颜色信息等等。在本发明中，采用非常优秀的分类任务网络结构ResNet-50作为特征提取子网络构架，并在其末端衔接两层全连接层作为行人身份分类器。在原始域上，利用事先处理好的带标签的行人数据对网络进行训练，并将训练学习到参数作为特征提取子网络在目标域上的初始化参数。一旦特征提取子网络在原始域上预训练完成，为了更贴近实际应用情况，将不再使用任何原始域上的数据，仅使用预训练完成的特征提取子网络参数。ResNet-50的相关内容，参见K.He等人，公开的文章“基于深度残差学习的图像识别(Deep residual learning for image recognition)”CVPR,2015。

2、行人图片关键点检测

本发明旨在解决少样本下的行人重识别问题，因此提出了一个更合理、高效的行人关键点区域交换算法来实现行人数据集扩充。而该算法实现的一个关键因素为行人图片关键点检测。这方面可以采用现成的模型进行预测。对于行人图片关键点检测，直接利用开源工具OpenPose进行测试。给定一张行人图片，OpenPose可以直接生成姿态图片，其包含18个姿态关键点及各个关键点之间的连线，其中连线用彩色来表示左右的区分，如图3所示。图3所示3a～3h中的点表示行人关键点，边表示对应关键点的连线。该图3中最后一列的两张图3d、3h为行人关键点检测失败样例。在本发明中，仅使用OpenPose预测出的18个姿态关键点坐标。OpenPose的相关内容，参见Z.Cao等人，“基于部分亲和字段的实时多人2D图像姿态估计(Realtime multi-person 2d pose estimation using part affinity fields)”CVPR,2017。

3、行人关键点特征区域交换算法(S2)

行人关键点特征区域交换算法，即通过交换行人图片中不同的关键点区域从而实现行人图片数据集的扩充，如图4所示。图4的方块4a～4f，各自包含一张基准图(左)和一张候选图(右)。方框中的点表示检测到的对应关键点，方框代表扣取的对应关键点区域。箭头表明关键点区域交换的方向，即将基准图的关键点区域替换候选图的关键点区域生成新的行人图片，还是将候选图的关键点区域替换基准图的关键点区域生成新的行人图片。

具体地，该算法主要分为如下五个步骤：

步骤S2-1：将目标域中少量带标签的样本作为基准行人图片，未标注的样本作为候选图片，对所有行人图片利用特征提取子网络进行特征提取。在初始状态，特征提取子网络的参数为预训练参数，随后随着特征提取子网络微调(下文详述)而不断更新，即这是一个自训练的过程。

步骤S2-2：计算基准行人图片与每一候选行人图片的特征距离。例如，利用余弦距离计算两个特征之间的距离。

步骤S2-3：根据特征距离，对候选行人图片进行排序，并对任一基准行人图片，从候选行人图片集中挑选前5张置信度高的候选行人图片。

步骤S2-4：对任一一对行人图片(基准图片和候选图片)，进行行人关键点检测。如利用OpenPose工具对行人图片进行关键点检测。

步骤S2-5：根据检测到的关键点，对基准图片和候选图片进行对应行人关键点区域截取和交换，从而生成新的行人图片。其中，遵循4个准则进行截取和交换：

准则-1：为保证新生成的行人图片的生物特征，行人关键点区域的截取和交换不包括头部区域附近的5个关键点，即脖子、左耳、右耳、左眼、右眼；

准则-2：从基准图片和候选图片中任意挑选两个服从准则-1的对应行人关键点区域进行截取和交换，一个关键点来自于行人上半身，另一个关键点来自行人下半身；

准则-3：有0.5的概率将基准图片中的关键点区域替换为候选图片对应的关键点区域，生成新的行人图片；有1-0.5的概率将候选图片中的关键点区域替换为基准图片对应的关键点区域，生成新的行人图片；

准则-4：如果由于行人关键点检测效果差或者关键点遮挡等导致基准图片和候选图片在行人上半身(或者下半身)未找到任何对应的关键点，则在基准图片和候选图片的上半区域(或者下半区域)随机产生一个绝对位置进行准则-3的截取交换。由于准则-4的特殊性，其将无视准则-1。

4、行人重识别特征提取子网络微调(S3-1)

行人重识别特征提取子网络微调，即利用扩充的行人数据集对特征提取子网络进行再次训练，如图2所示。不同于行人重识别特征提取子网络预训练，此处考虑到扩充数据集信息的扰动，将扩充的数据集由单个示例的训练集重组成多示例的包训练集，具体地，对于任一基准图片，从由其扩充的数据集中随机挑选部分图片组成一个包，即每个包包含1张基准图片及若干个由其扩充的新行人图片。因此网络训练输入单位为包而不是单一示例的图片，包的标签为其包含的基准行人图片的标签。并且，不再简单地在特征提取子网络末端衔接多层全连接层组成的分类器进行监督训练，考虑到包中多示例图片特征维度的不一致性问题，提出了一个行人重识别特征聚合子网络将包中的多示例特征聚合成统一的维度，因此在训练中，特征提取子网络将根据特征聚合子网络回传的梯度对参数进行更新微调。

5、行人重识别特征聚合子网络微调(S3-2)

行人重识别特征聚合子网络旨在将包中多示例特征聚合成统一的维度(I×D→1×C，其中I表示包中示例的个数，D表示每个示例的特征维度，C表示为一个统一的特征维度，即下文所提到的聚类个数)，如图2所示。

将特征聚合子网络拼接在特征提取子网络的末端，并在其末端衔接两层全连接层作为分类器，利用包的标签同时对特征提取子网络和特征聚合子网络进行训练微调。

在本发明中特征聚合子网络借鉴了词袋模型的思想，具体分为如下步骤：

步骤S3-2-1：为了获取更大的知识库，首先对目标域中未标注的训练图片利用k-means算法聚类成C类，聚类得到的聚类中心特征可以看做是词袋模型中的特征。

步骤S3-2-2：给定任一训练包，利用欧氏距离计算包中每一示例图片特征与聚类中心特征的距离，计算公式如下：

其中，f_u表示包中维度为D的示例图片特征，c_t表示维度为D聚类中心特征

步骤S3-2-3：直观地，希望如果某一示例图片的特征距离聚类中心的特征非常近，那么它们应该产生较大的响应值。因此进一步添加指数运算到公式(1)：

步骤S3-2-4：利用1x1卷积层和softmax激活层来产生输出每一示例图片隶属于C个聚类中心特征的隶属度，其公式可描述为如下：

其中，w和b为1x1卷积层中通道数为C的参数和偏置项；

步骤S3-2-5：结合公式(2)和公式(3)，将包中多示例特征聚合成统一的维度，即由原来的示例层面的特征聚合成包层面的特征，其公式可表达为：

其中，

综上所述，本发明针对少样本行人重识别算法，基于深度神经网络的思想提出了基于行人关键区域交换的数据集扩充算法以及多示例行人重识别特征学习网络框架，在给定目标域少量学习样本的前提上，能有效地将行人重识别模型迁移扩展到目标域监控网络中。该方法具有精确度高、鲁棒性好、扩展性佳、可迁移等优点，不仅适用于少样本行人重识别任务，使其更具有实际应用价值，也适用于其他常规识别任务，例如人脸识别等。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于深度多示例学习的少样本行人重识别方法，其特征在于，包含以下步骤：

A1、在原始域对行人重识别网络进行预训练初始化；

A5、利用扩展的数据集进行数据重组，来对网络微调；

2.如权利要求1所述基于深度多示例学习的少样本行人重识别方法，其特征在于，A5中的网络微调，是利用重组的数据集进行网络训练梯度回传，对特征提取子网络和特征聚合子网络进行参数微调；

A1中进行预训练初始化时，利用原始域带标签的训练数据对特征提取子网络进行训练学习，并将学习的参数作为特征提取子网络应用到目标域的初始参数。

3.如权利要求2所述基于深度多示例学习的少样本行人重识别方法，其特征在于，A5中进行数据重组时，将扩充的数据集由单个示例的训练集，重组成多示例的包训练集，对于任一基准行人图片，从由其扩充的数据集中随机挑选部分图片组成一个包；每个包包含一张基准行人图片及若干个由其扩充的新的行人图片。

4.如权利要求3所述基于深度多示例学习的少样本行人重识别方法，其特征在于，所述的特征提取子网络，对输入的行人图片或者包中所包含的图片示例进行特征提取；

5.如权利要求3所述基于深度多示例学习的少样本行人重识别方法，其特征在于，所述的特征聚合子网络将包中多示例特征聚合成统一的维度；将特征聚合子网络拼接在特征提取子网络的末端，并在其末端衔接两层全连接层作为分类器，利用包的标签同时对特征提取子网络和特征聚合子网络进行训练微调；网络训练输入单位为包，包的标签为其包含的基准行人图片的标签。

6.如权利要求5所述基于深度多示例学习的少样本行人重识别方法，其特征在于，所述的特征聚合子网络利用词袋模型对每个包中的特征进行聚合，包含以下过程：

步骤B1：对目标域中未标注的训练图片利用k-means算法聚类成C类，聚类得到的聚类中心特征作为词袋模型中的特征；

步骤B2：给定任一训练包，利用欧氏距离计算包中每一示例图片特征与聚类中心特征的距离：

其中，f_u表示包中维度为D的示例图片特征，c_t表示维度为D聚类中心特征；

步骤B3：添加指数运算到B1的公式中：

步骤B4：利用1x1卷积层和softmax激活层来产生输出每一示例图片隶属于C个聚类中心特征的隶属度：

其中，w和b为1x1卷积层中通道数为C的参数和偏置项；

步骤B5：结合B3和B4中的公式，将包中多示例特征聚合成统一的维度，即由原来的示例层面的特征聚合成包层面的特征：

其中，

7.如权利要求1所述基于深度多示例学习的少样本行人重识别方法，其特征在于，A4中遵循4个准则对关键点区域进行截取和交换：

8.如权利要求1所述基于深度多示例学习的少样本行人重识别方法，其特征在于，A3中利用余弦距离计算基准行人图片与每一候选行人图片的特征距离。

9.如权利要求1所述基于深度多示例学习的少样本行人重识别方法，其特征在于，A4中利用OpenPose工具进行关键点检测。