CN111126198B

CN111126198B - 一种基于深度表示学习跟动态匹配的行人再识别方法

Info

Publication number: CN111126198B
Application number: CN201911266339.5A
Authority: CN
Inventors: 谢晓华; 宋展仁; 赖剑煌
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2023-05-09
Anticipated expiration: 2039-12-11
Also published as: CN111126198A

Abstract

本发明公开了一种基于深度表示学习跟动态匹配的行人再识别方法，用于判别在不同时间或者区域的行人身份。包括：构建特征提取模型，用于提取全局、局部特征，利用全局特征、局部特征进行联合学习；实现不同行人局部特征之间的动态匹配，使用三元组损失函数进行学习模型；取检索库和查询库中行人图片的全局特征，计算查询库行人和检索库行人的全局特征间的相似度分数，并利用相似度分数进行排序，获取查询库中行人在检索库中所对应的行人。本发明利用全局特征跟局部特征进行联合学习，其中实现了局部特征之间的对齐，这样使得模型学习到的全局特征同时关注了局部信息跟全局信息。缓解了行人再识别中的局部不对齐问题，提升了模型再识别的性能。

Description

一种基于深度表示学习跟动态匹配的行人再识别方法

技术领域

本发明涉及计算机视觉领域，更具体地，涉及一种基于深度表示学习跟动态匹配的行人再识别方法。

背景技术

行人再识别可以看作是行人检索问题，具体是给定一个查询行人，在一个大的特定的行人数据集中检索出来具有相同身份的行人。随着深度学习的兴起，深度表示学习方法可以说是统治着这个领域，基于传统特征的行人再识别方法已经渐行渐远。这是因为，深度学习方法能够通过网络自行学习具有区分性的行人特征。即便如此，在现实场景中，行人往往存在着姿态的变化、摄像头的视角变化、行人跟摄像头之间的距离差异性大等等这些现象，进一步会导致不同行人之间他们的局部不对齐，也就是说，图像中相应的位置表示的行人部件不一致。这样在匹配计算相似度过程中，往往会造成一定的误差，致使建立的模型泛化性能下降。

为了解决行人局部特征之间的不对齐问题，有研究人员提出一些深度表示学习方法利用行人部件的局部特征，对它们进行整合，尝试通过这样的方法实现行人局部特征之间的对齐。目前常用的基于部件的行人再识别方法主要有以下几种：

利用图像切块的方式提取局部特征。通过把原始的图像切割成多个水平条纹来实现行人间的局部特征对齐，最后的特征通过融合每个水平条纹的特征来使得模型更加关注局部，而不仅仅是关注行人的全局特征。比如，PCB(基于部件的卷积神经网络基线)(YifanSun.Beyond part models：Person retrieval with refined part pooling.In ECCV，2018.)通过把行人图像平均切分成水平条纹，再使用一种机制，重新把像素分配到相应的条纹。

基于姿态估计跟关键点估计的局部对齐方法。这个方法先是利用姿态估计模型估计出人体的关键点，然后利用仿射变换使得相同的关键点对齐，从而使得人体不同的部位有了相对应的对齐。但是这种方法会依赖于一个外部的姿态估计、关键点估计模型。CVPR2017的工作Spindle Net(Haiyu Zhao，Maoqing Tian.Spindle net：Person re-identification with human body region guided feature decomposition and fusion[C].CVPR，2017.)利用了14个人体关键点来提取局部特征。

虽然有了一定的方法来解决行人局部特征之间的对齐问题，但是对齐的效果仍然有着较大的提升空间。在基于水平条纹的图像切块方法中，一些姿态变换、遮挡、不正确的检测框等依旧会造成行人之间存在着很大的不对齐；而在就姿态估计跟关键点估计的局部对齐方法中，需要额外的监督信息，并且需要一个姿态估计的步骤；更为糟糕的是，姿态估计过程中会存在倾向估计错误的情形；如此一来，行人局部特征之间的对齐更加不可行。

发明内容

为了解决行人局部特征之间的不对齐问题，本发明提出了一种基于深度表示学习跟动态匹配的行人再识别方法，该方法把行人进行水平切割，但是允许水平条纹之间可以有重叠，假设条纹之间通过弹簧来连接，如此实现动态匹配，进一步实现行人间的匹配。

本发明的目的通过以下的技术方案实现：一种基于深度表示学习跟动态匹配的行人再识别方法，包括步骤：

步骤S1：获取不同摄像头下的行人图片，构建行人检索库和查询库；

步骤S2：构建局部特征、全局特征提取模型，利用全局特征、局部特征进行联合学习；

步骤S3：实现不同行人局部特征之间的动态匹配，使用三元组损失函数进行模型学习；

步骤S4：提取检索库和查询库中行人图片的全局特征，计算查询库行人和检索库行人的全局特征间的相似度分数，并利用相似度分数进行排序，获取查询库中行人在检索库中所对应的行人。

本发明利用全局特征跟局部特征进行联合学习，其中实现了局部特征之间的对齐，这样使得模型学习到的全局特征同时关注了局部信息跟全局信息，缓解了行人再识别中的局部不对齐问题，提升了模型再识别的性能。

优选的，步骤S2中所述局部特征、全局特征提取模型使用在Imagenet上进行预训练的Resnet50，全局特征分支跟局部特征分支共享卷积神经网络，用于提取特征图，全局特征通过直接对特征图进行全局的池化获取；局部特征的获得通过如下方法：先对卷积神经网络提取的特征图进行水平方向上的池化，而后使用一个1x1卷积层对其通道数进行降维。

优选的，所述步骤S3中，实现不同行人局部特征之间的动态匹配，方法是：

定义物体表示的是行人，一个部件表示的是行人的一个水平条纹，假设水平条纹通过弹簧连接，这允许条纹能够滑动且偏离固定分割的位置，给定两张待匹配的图像(I⁰，I¹)，通过可形变的条纹来动态匹配图片，试图找到两者之间的最佳对齐方式：

定义配置C为图像I¹中每个条纹的位置信息，C^*为动态分割的最优配置，S表示两张图像之间的相似性，公式表示如下：

S(I⁰，I¹)＝max_C S(C；I⁰，I¹；θ)； (1)

基于配置C，S(C；I⁰；I¹；θ)的计算公式为：

S(C；I⁰；I¹；θ)＝S_app(C；I⁰；I¹；θ)-λ·S_def(C；I⁰；I¹；θ)； (2)

其中，S_app(C；I⁰；I¹；θ)表示两张图像的相似性度量；S_def(C；I⁰；I¹；θ)是空间形变代价；θ表示参数空间。

由于图像已经被水平分割，故当前配置C下两者之间的相似性度量可进一步表示为：

此处，F(x，y)表示分别来自图像I⁰，I¹的两个相对应的条纹的相似性度量；d(x，y)表示两个对用条纹的空间性变代价；

表示图像的条纹，k＝0，1；λ是惩罚系数，而E则为图像I¹中连接两个相邻条纹的边，一个配置C的相似性度量S_app(C；I⁰；I¹；θ)是F(x，y)在所有条纹对的累加，F(x，y)是一种距离；

固定分割图像I⁰，动态滑动分割图像I¹，分别计算

跟

之间的相似性度量以及相关的空间形变代价；根据动态规划算法，搜索整体的动态分割的最优配置C^*，在此最优配置下，得到两张图像的局部相似性度量，从而实现不同行人局部特征之间的动态匹配。

优选的，步骤S3中使用三元组损失函数进行学习模型，是指给定一个anchor(锚)，选取跟它具有相同身份信息的positive(正)样本以及不同身份的negative(负)样本，三者组成一个三元组；通过三元组损失函数的学习，使得anchor跟positive之间的距离变小，而anchor跟negative之间的距离变大，三元组损失函数公式如下：

其中，f(x)表示映射函数，

表示anchor输入；

表示positive样本输入；

表示negative样本输入；α为超参数。

更进一步的，所述三元组损失函数的学习过程中，三元组损失函数采用困难三元组损失函数，困难三元组是指针对每个anchor，相同身份中相似度最小的positive样本跟不同身份中相似度最大的negative样本，这样的(anchor，positive，negative)就是困难三元组；在挖掘困难三元组时使用的是基于全局特征所计算的相似度；而在计算三元组损失函数时利用全局特征跟局部特征所计算的相似度；这时样本之间的相似度由全局特征计算的相似度跟局部特征计算的相似度相加。

优选的，在训练模型的时候，使用全局特征跟局部特征联合学习训练模型，损失函数如下：

Loss_total＝μLoss_gtriplet+βLoss_ltriplet+γLoss_idloss

其中，Loss_total表示总体损失；Loss_gtriplet是基于全局特征计算的三元组损失；Loss_ltriplet是基于局部特征计算的三元组损失；Loss_idloss表示身份损失，μ、β、γ分别表示三种损失的权重。

更进一步的，步骤S2中利用全局特征、局部特征进行联合学习，步骤S3使用三元组损失函数进行学习模型，方法是：

(1)把N张图像作为一个batch输入卷积神经网络；经过网络中一系列的卷积池化变换，提取出N张特征图；

(2)对这N张特征图分两路进行处理：

全局特征分支直接对特征图进行全局的池化操作，形成的N个列向量分别表示N张图像；而后计算N个列向量之间的距离作为N个样本之间的全局相似度度量；

局部特征分支首先在水平方向进行一个全局池化操作，再使用一个1x1卷积对通道数进行降维；而后根据动态规划跟广义距离转移计算局部度量之间的最佳匹配，从而得到一个batch中不同样本间的相似性度量；

(3)基于全局特征计算的相似性度量来挖掘困难三元组；在计算三元组损失的时候同时使用全局特征计算的相似性度量跟局部特征计算的相似性度量；迭代训练模型至收敛。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明在训练模型的时候，使用全局特征跟局部特征联合学习训练模型；在测试过程中仅仅使用全局特征进行相似度计算并且排序。这样做的优势是，训练阶段利用局部特征进行联合学习可以指导全局特征的学习，使得全局特征更加能够表现出行人的特征，如此全局特征可以更加地关注图像中的行人，而对一些背景起到一定的忽视效果，实现了全局之中关注行人跟精细到关注背景之间的平衡，仅仅使用本发明全局特征的模型性能能够媲美使用两种特征的模型。

2、本发明允许水平条纹偏移固定分割的期望位置，假设条纹之间通过弹簧连接，以一种动态的方式实现行人之间的对齐匹配，具有弹性大、匹配准确的优点。

3、本发明通过整体考虑所有可形变条纹来获得全局最优，而不是允许每个条纹毫无关系的任意滑动。方便通过动态规划跟广义距离矩阵转移求解行人之间的最优动态匹配。

附图说明

图1是本发明实施例的流程图。

图2是本发明实施例的模型总体框架图。

图3是本发明实施例的动态匹配示意图。

具体实施方式

下面结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，这里的表述仅仅是示例，而非对本发明的限制，本发明的实施方式不限于此。

实施例

本发明所述基于深度表示学习跟动态匹配的行人再识别方法以Sun等人在2017年提出的AlignedReID模型作为基准进行改进而得到，用于判别在不同时间或者区域的行人身份。图1是本发明实施例方法的流程图，下面以图1-3为例来说明本发明的一些具体实现流程。

步骤S1：获取不同摄像头下的行人图片，构建行人检索库和行人查询库。

行人再识别数据集需要获取多个摄像头(含二)下的行人。对行人数据进行训练集跟测试集划分，其中训练集跟测试集当中没有重叠身份的行人；把测试集再划分为行人查询库跟行人检索库，在检索库中查询行人查询库中相对应的行人。根据查询命中率来判定本发明模型的性能。

步骤S2：构建局部特征、全局特征提取模型，利用全局特征、局部特征进行联合学习。

训练过程中，包括下述步骤：

(1)把N张图像作为一个batch输入神经网络，这里选择在Imagenet上经过预训练地Resnet50做为backbone(主干)网络；batch图像经过网络中一系列的卷积池化变换，提取出N张特征图。

(2)然后对这N张特征图分两路进行处理；一个为局部分支，另一个为全局分支。全局分支直接对特征图进行全局的池化操作，组成N个列向量表示N张图像；而后计算N个列向量之间的某种距离(可以是L2距离、卡方距离等)作为N个样本之间的全局相似度度量。局部分支首先在水平方向进行一个全局池化操作，再使用一个1x1卷积对通道数进行降维；而后根据动态规划跟广义距离转移计算局部度量之间的最佳匹配，从而计算出不同样本特征间的局部距离度量；进一步可以得到一个batch中不同样本间的相似性度量。

步骤S3：实现不同行人局部特征之间的动态匹配，使用三元组损失函数进行学习模型。

为了更好的实现行人局部特征之间的匹配，缓解行人姿势或者角度等的变化所导致的部件不对齐问题，本发明使用水平条纹分割、动态匹配方法。与物体检测领域的可形变部件模型类似，本发明提出的行人动态匹配方法中也存在物体与部件的概念。在这里，物体表示的是行人，一个部件表示的是行人的一个水平条纹，本发明方法有别于传统的行人固定分割方法，本发明首先水平分割行人，每个行人由一定的水平条纹组成；不过条纹不是固定不变的，假设相邻的水平条纹部件通过弹簧来连接；每个部件允许偏离固定分割所决定的期望位置，这里给每个偏移都施加一个形变惩罚顶。本发明方法整体考虑所有可形变条纹来获得全局最优值，而不是允许条纹毫无关系的任意滑动。计算不同样本之间的动态匹配相似度，让一个样本固定分割，而另外的样本进行动态分割，通过找到它们部件之间的最佳匹配，从而缓解部件的不对齐问题。同时可以借助动态规划跟广义距离转移求解部件之间的最佳匹配相似度。

具体的，给定两张待匹配的图像(I⁰，I¹)，通过可形变的条纹来动态匹配图片，试图找到两者之间的最佳对齐方式。定义配置C为图像I¹中每个条纹的位置信息，C^*为匹配最佳的配置，S表示两张图像之间的相似性。公式表示如下：

S(I⁰，I¹)＝max_C S(C；I⁰，I¹；θ)； (1)

基于配置C，S(C；I⁰；I¹；θ)的计算公式为

其中，S_app(C；I⁰；I¹；θ)表示两张图像的相似性度量；S_def(C；I⁰；I¹；θ)是空间形变代价。

表示图像的条纹；λ是惩罚系数，而E则为图像I¹中连接两个相邻条纹的边。一个配置C的相似性度量S_app(C；I⁰；I¹；θ)是F(x，y)在所有条纹对的累加。而F(x，y)使用的是L2距离度量(也可以是卡方距离等)。θ表示参数空间，m为分成的条纹数，本实施例实验中可取值6。

基于上述内容，参见图3，局部特征动态匹配求解如下：

给定两张待匹配的图像(I⁰，I¹)，固定分割图像I⁰，动态滑动分割图像I¹，分别计算

跟

之间的相似性度量以及相关的空间形变代价。根据动态规划算法，搜索整体的动态分割的最优配置C^*。在此最优配置下，两张图像的局部相似性度量即可求解。

在模型的训练阶段，本发明使用三元组损失函数进行训练，具体可参见(Alexander Hermans.In Defense of the Triplet Loss for Person Re-Identification)。这个损失函数通过拉近相同身份的行人，而使得不同身份的行人具有较远的距离。从而学习到原始图像到特征空间的一个embedding(嵌入)，如此的embedding之间的距离代表着原始图片之间的相似性。Embedding之间的距离越大，以为原始的图片越不相似，意外着图片很可能是不同的身份；反之，embedding之间的距离越小，代表着原始图片的相似性越大，它们大概率来自同一个身份。

本发明所述三元组是指，给定一个anchor，选取跟它具有相同身份信息的positive以及不同身份的negative，三者组成一个三元组。通过三元组损失函数的学习，使得anchor跟positive之间的距离变小，而anchor跟negative之间的距离变大。三元组损失函数公式如下。

其中，f(x)表示映射函数，

表示anchor输入；

表示positive样本输入；

表示negative样本输入；α为超参数，本实施例实验中取值0.3；[]₊表示hinge loss函数。

作为一种优选，步骤S3中所述的三元组损失，本实施例采用三元组损失函数的变体，即困难的三元组损失函数。这里的困难三元组是：针对每个anchor，相同身份中相似度最小的positive样本跟不同身份中相似度最大的negative样本，这样的(anchor，positive，negative)就是困难三元组。在挖掘困难三元组时使用的是基于全局特征所计算的相似度；而在计算三元组损失函数时利用全局特征跟局部特征所计算的相似度；这时样本之间的相似度由全局特征计算的相似度跟局部特征计算的相似度相加。

训练过程中通过三元组损失函数的学习，使得anchor跟positive之间的距离变小，而anchor跟negative之间的距离变大。本发明基于全局特征计算的相似性度量来挖掘困难三元组；在计算三元组损失的时候同时使用全局特征计算的相似性度量跟局部特征计算的相似性度量；迭代训练模型至收敛。

本实施例在训练模型的时候，使用全局特征跟局部特征联合学习训练模型，联合学习的损失函数如下

Loss_total＝μLoss_gtriplet+βLoss_ltriplet+γLoss_idloss

其中，Loss_total表示总体损失；Loss_gtriplet是基于全局特征计算的三元组损失；Loss_ltriplet是基于局部特征计算的三元组损失；Loss_idloss表示身份损失。μ、β、γ分别表示三种损失的权重，本实施例实验中可分别取值0.4，0.4，0.2。

本发明通过分别提取行人检索库跟行人查询库中行人图片的全局特征；仅仅使用全局特征进行样本间的相似性度量计算。经过计算查询行人跟检索行人之间的相似性分数，利用相似性分数进行排序，进一步可以获得查询库行人在检索库中所对应的行人。本发明在相同的条件下，更加能够实现行人局部特征之间的局部匹配，缓解行人再识别中行人局部不对齐问题。

在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于深度表示学习跟动态匹配的行人再识别方法，其特征在于，包括步骤：

步骤S3：实现不同行人局部特征之间的动态匹配，使用三元组损失函数进行模型学习；所述步骤S3中，实现不同行人局部特征之间的动态匹配，方法是：

定义配置C为图像I¹中每个条纹的位置信息，C^*为动态分割的最优配置，S表示两张图像之间的相似性，公式如下：

表示图像的条纹，k＝0，1；λ是惩罚系数，而E则为图像I¹中连接两个相邻条纹的边，一个配置C的相似性度量S_app(C；I⁰；I¹；θ)是F(x，y)在所有条纹对的累加，F(x，y)是一种距离；θ表示参数空间，m为分成的条纹；

固定分割图像I⁰，动态滑动分割图像I¹，分别计算

跟

之间的相似性度量以及相关的空间形变代价，i＝1，2，...，m；根据动态规划算法，搜索整体的动态分割的最优配置C^*，在此最优配置下，得到两张图像的局部相似性度量，从而实现不同行人局部特征之间的动态匹配；

2.根据权利要求1所述的基于深度表示学习跟动态匹配的行人再识别方法，其特征在于，步骤S2中所述局部特征、全局特征提取模型使用在Imagenet上进行预训练的Resnet50，全局特征分支跟局部特征分支共享卷积神经网络，用于提取特征图，全局特征通过直接对特征图进行全局的池化获取；局部特征的获得通过如下方法：先对卷积神经网络提取的特征图进行水平方向上的池化，而后使用一个1x1卷积层对其通道数进行降维。

3.根据权利要求1所述的基于深度表示学习跟动态匹配的行人再识别方法，其特征在于，步骤S3中使用三元组损失函数进行学习模型，是指给定一个anchor，选取跟它具有相同身份信息的positive样本以及不同身份的negative样本，三者组成一个三元组；通过三元组损失函数的学习，使得anchor跟positive之间的距离变小，而anchor跟negative之间的距离变大，三元组损失函数公式如下：

其中，f(x)表示映射函数，

表示anchor输入；

表示positive样本输入；

表示negative样本输入；α为超参数。

4.根据权利要求3所述的基于深度表示学习跟动态匹配的行人再识别方法，其特征在于，所述三元组损失函数的学习过程中，三元组损失函数采用困难三元组损失函数，困难三元组是指针对每个anchor，相同身份中相似度最小的positive样本跟不同身份中相似度最大的negative样本，这样的(anchor，positive，negative)就是困难三元组；在挖掘困难三元组时使用的是基于全局特征所计算的相似度；而在计算三元组损失函数时利用全局特征跟局部特征所计算的相似度；这时样本之间的相似度由全局特征计算的相似度跟局部特征计算的相似度相加。

5.根据权利要求3或4所述的基于深度表示学习跟动态匹配的行人再识别方法，其特征在于，在训练模型的时候，使用全局特征跟局部特征联合学习训练模型，损失函数如下：

Loss_total＝μLoss_gtriplet+βLoss_ltriplet+γLoss_idloss

6.根据权利要求2所述的基于深度表示学习跟动态匹配的行人再识别方法，其特征在于，步骤S2中利用全局特征、局部特征进行联合学习，步骤S3使用三元组损失函数进行学习模型，方法是：

(1)把N张图像作为一个bach输入卷积神经网络；经过网络中一系列的卷积池化变换，提取出N张特征图；

(2)对这N张特征图分两路进行处理：