CN110321813B

CN110321813B - 基于行人分割的跨域行人重识别方法

Info

Publication number: CN110321813B
Application number: CN201910525062.7A
Authority: CN
Inventors: 孙伟; 张旭; 张小瑞; 张国策; 葛男男
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2023-06-20
Anticipated expiration: 2039-06-18
Also published as: CN110321813A

Abstract

本发明公开了基于行人分割的跨域行人重识别方法，该方法分为三个阶段，第一阶段：将源域图片和目标域图片输入到行人分割模型中，通过GAN网络生成具有源域内容和目标域风格的图片；第二阶段：将生成的新图片输入到CNN网络，提取图片间的特征距离，使用TriHard loss训练模型；第三阶段：加载训练好的行人重识别模型，提取目标域的行人图片特征。给定待检索的行人图片，检索最匹配的行人图片并输出。本发明设计训练得到一个新的行人重识别模型，训练源域内容图片，并在目标域数据集测试，有效减小不同数据集之间风格差异对跨域行人重识别模型性能的影响，网络性能好，模型泛化能力强。

Description

基于行人分割的跨域行人重识别方法

技术领域

本发明涉及基于行人分割的跨域行人重识别方法，属于智能安防领域的行人重识别技术领域。

背景技术

近几年，行人重识别是计算机视觉领域非常火热的一个研究方向，其目标为给定一张待检索行人图片，并通过计算机视觉方法检索是否存在相同ID信息的行人图片或视频帧。传统的方法依赖人的手工特征，不仅费时费力，不能适应大量的数据，而且准确度一直很低。直到近几年深度学习的发展，行人重识别领域发生了突飞猛进的进展。与传统手工标注的方法不同，深度学习方法重点在于能够自动提取行人特征，判断两个行人相似度，并经过多次迭代，使得模型性能愈加突出。起初研究者主要关注图片的全局特征，根据损失函数的不同定义，可以分为基于ID loss(分类损失)的表征学习方法和基于Triplet loss(三元组损失)等的度量学习方法。然而再好的方法也有遇到瓶颈的时候，于是研究者提出提取局部特征的方法，将人体垂直分为几个区域，分别提取特征。最近，利用生成式对抗网络(GAN)生成和扩充数据集的方法得到了关注。虽然基于深度学习的行人重识别方法性能优异，但在不同时间、不同天气、不同摄像头下拍摄的图片，其明显的背景风格差异会导致行人重识别系统精度大幅下降，这在学术界对应着两个不同数据集之间的风格差异。

目前使用GAN网络生成图片来解决不同数据集之间的风格偏差是一种比较普遍的思路，主要思想为尽可能保持生成图片的行人前景不变,而生成图片的背景尽量为目标域的风格。但仅仅使用GAN网络生成图片易造成行人前景的改变。近期，有研究者采用人体姿态估计模型去划分行人前景，但人体姿态估计大多是根据人体关键点检测，并不能精确划分出行人前景。

发明内容

本发明所要解决的技术问题是：提供基于行人分割的跨域行人重识别方法，有效减小不同数据集之间风格差异对跨域的行人重识别模型性能的影响，网络性能好，模型泛化能力强。

本发明为解决上述技术问题采用以下技术方案：

基于行人分割的跨域行人重识别方法，包括如下步骤：

步骤1，将源域图片和目标域图片分别输入到行人分割模型进行分割，得到各自对应的行人前景和图片背景；

步骤2，根据步骤1，将源域图片得到的行人前景和目标域图片得到的图片背景输入到GAN网络，生成新图片；

步骤3，定义GAN网络的损失函数，采用源域图片、目标域图片以及新图片对GAN网络进行训练，得到新生成的图片；

步骤4，对于源域图片、目标域图片和新生成的图片，根据行人属性对行人重识别模型的影响，将图片分成5个感兴趣区域，对每个区域设置不同的擦除概率，并在每个区域中采用随机擦除的数据增广方法随机擦除限定范围的矩形块；

步骤5，将经过步骤4后的图片输入卷积神经网络得到特征图，对特征图进行全局池化得到全局特征，对特征图进行水平池化得到局部特征，则每张图片都对应1个全局特征和5个局部特征；

步骤6，根据全局特征和局部特征计算源域图片和新生成的图片之间的相似度，以及目标域图片和新生成的图片之间的相似度；

步骤7，对于一张新生成的图片，从源域图片中选择与该新生成的图片行人前景相同，但相似度最低的图片，从目标域图片中选择与该新生成的图片相似度最高的图片，与该新生成的图片构成三元组，设定难样本三元组损失函数，利用难样本三元组损失函数训练行人重识别模型；

步骤8，利用训练好的行人重识别模型，提取目标域图片的行人特征，给定待检索的行人图片，从目标域图片中检索最匹配的行人图片并输出。

作为本发明的一种优选方案，所述步骤2的具体过程如下：

对于源域图片得到的行人前景，将行人前景分成5个感兴趣区域，分别为头部、上身、大腿、小腿和鞋子，将行人前景输入卷积神经网络得到行人前景特征图，将5个感兴趣区域分别与行人前景特征图相乘，再经过编码得到行人前景的前景特征；对于目标域图片得到的图片背景，将图片背景输入卷积神经网络得到图片背景特征图，将图片背景与图片背景特征图相乘，再经过编码得到图片背景的背景特征；将前景特征与背景特征拼接后，再经过解码得到新图片。

作为本发明的一种优选方案，步骤3所述GAN网络的损失函数为：

L_G＝L_S+L_T+λ₁L_C+λ₂L_ID

其中，L_S为源域的判别损失，L_T为目标域的判别损失，L_ID为源域图片的ID损失，L_C为CycleGAN的循环损失，λ₁和λ₂为平衡损失的权重。

作为本发明的一种优选方案，所述步骤4的具体过程如下：

将图片分为5个感兴趣区域，记为S₁,S₂,...,S₅，对不同区域设定擦除概率为p_e，则区域保持不变的概率为1-p_e；利用随机擦除的数据增广方法在某块区域S_k中随机选择一块大小为W_e×H_e的矩形块I_e，则区域S_k和擦除矩形块I_e的面积分别为S_k＝W×H和S_k,e＝W_e×H_e，其中，W、H分别为区域S_k的长和宽，W_e、H_e分别为矩形块I_e的长和宽，且矩形块I_e占区域S_k的面积比为

h₁≤矩形块I_e的长宽比≤h₂，利用随机擦除的数据增广方法在区域S_k中随机挑选一个点P_k＝(x_e,y_e)，设定限制条件：/>

若不满足限制条件，则重新选择矩形块I_e的长宽比，重复上述过程，直到选择的矩形块I_e在区域S_k中，将区域S_k中所有像素的平均值分配给所选择的矩形块I_e中的每个像素，完成擦除矩形块I_e的过程，

作为本发明的一种优选方案，所述步骤6的具体过程如下：

两张图片的相似度等于两种图片之间的全局距离加上局部距离，其中，全局距离等于两张图片之间的全局特征的L2距离；局部距离等于两张图片局部特征的最短路径的距离总和，局部距离的具体计算过程为：

设定有2张图片P和Q，每张图片水平池化为5个区域，则P＝{p₁,p₂,...,p₅}，同理Q＝{q₁,q₂,...,q₅}，其中p_i表示图片P的第i个区域或局部特征，q_j表示图片Q的第j个区域或局部特征，对所有p_i和q_j做归一化处理，计算两个局部特征p_i和q_j之间的距离d_i,j为：

则从(p₁,q₁)到(p₅,q₅)之间的最短路径总距离S_i,j为：

作为本发明的一种优选方案，步骤7所述难样本三元组损失函数为：

其中，L_TH表示难样本三元组损失函数，a表示新生成的图片，batch表示训练批次，A为在源域中与图片a具有相同ID的图片集，B为目标域图片集，α为设定的阀值参数，d_a,p为图片集A中图片p与图片a之间的距离，d_a,n为图片集B中图片n与图片a之间的距离，L为新生成的图片中随机挑选的L个行人，在源域为每个行人随机挑选K张不同的图片；并在目标域随机选择L个行人，为每个行人随机挑选K张不同的图片。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明在处理跨数据集的任务时，将图片导入行人分割模型，使得模型精确地划分出行人前景和背景，减小不同数据集间的风格差异，提高了模型泛化性能。

2、本发明提出一种新的难样本三元组损失函数(TriHard loss)，对于生成的图片，分别在源域和目标域数据集寻找一个最难的图片，提高了网络性能，加快了模型收敛。

3、本发明提出一种新的随机擦除技巧，结合行人语义信息对行人重识别模型的影响，提高了模型的泛化能力。

附图说明

图1是本发明基于行人分割的跨域行人重识别方法的框架流程图。

图2是本发明生成器的结构图。

图3是本发明计算图片全局特征和局部特征的示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本文提出了一种基于行人分割的跨域行人重识别方法，其网络框架的流程图如图1所示。分为三个阶段，第一阶段为预处理阶段，将源域图片转换成目标域的风格。第二阶段为模型训练阶段，多次迭代，训练行人重识别模型。第三阶段为测试阶段，加载训练好的行人重识别模型，提取行人特征，判断是否为同一个人。具体步骤如下：

第一阶段：将源域图片和目标域图片输入到行人分割模型中，通过GAN网络生成具有源域内容和目标域风格的图片，具体分为以下三个步骤：

步骤1：将图片输入到行人分割模型中得到行人前景FG(Foreground)，这里使用Inception-V3作为行人分割网络的骨架，尽管比其它流行的ResNet网络的变体要更浅层，但是它甚至比ResNet152有更好的性能，并且计算代价更小。此时对FG做一个inverse得到图片背景BG(Background)，于是，就得到了2个分支，前景分支和背景分支。

步骤2：对于FG分支，先根据行人分割结果将FG分成5个ROI区域，分别为头部、上身、大腿、小腿、鞋子，接着将5个ROI分别与特征图相乘，再经过编码得到5个局部特征，总共是5*32总共160维的特征，将FG分支输入卷积神经网络得到特征图。BG分支较为简单，直接将BG与特征图相乘，再经过编码得到一个128维的特征，将BG分支输入卷积神经网络得到特征图。然后，将源域图片得到的160维的前景特征和目标域得到的128维的背景特征拼接成一个288*128*64的特征，再经过解码得到新的图片。

步骤3：将解码得到的结果加上一个高斯噪声Z，经过映射函数得到一个假特征，然后判别器判断真假。这里，希望生成的新图片的行人前景尽可能和源域图片一样，背景风格尽可能和目标域图片一样。对判别器来说，它希望对真图片输出的概率值尽可能接近1，对于生成器生成的假图片，它希望尽可能输出0；对生成器来说，它希望生成的图片尽可能让判别器输出1，生成器的结构如图2所示。即一个生成对抗的过程。最终，生成器的损失函数定义如式(1)所示：

L_G＝L_S+L_T+λ₁L_C+λ₂L_ID (1)

其中，L_S为源域的判别损失，L_T为目标域的判别损失，L_ID为source image的ID损失，目的是为了保持行人前景外观等不变，L_C为CycleGAN(循环GAN)的Cycle loss，λ₁和λ₂为平衡损失的权重。这样，模型就能生成内容与源域相同，风格与目标域相同的新数据集，能够有效减小跨数据集带来的模型性能的下降。

第二阶段：根据行人属性对行人重识别模型的影响，对行人不同部分设置不同的擦除权重，随机擦除某些区域，提取图片的全局特征和局部特征，并计算图片间的相似度，使用TriHard loss训练行人重识别模型，具体分为以下步骤：

在网络中，每张输入图片的最终输出是单一的全局特征，而该全局特征是与局部特征联合训练得来的。

步骤1：据统计，对于不同的Re-ID数据集，行人语义信息对于最终的Re-ID模型性能影响是不一样的。比如说，在DukeMTMC数据集上，鞋子的颜色对行人重识别模型性能的影响较大，而在Market数据集上，背包是影响最大的，而帽子由于本来数据总量就比较少，加不加这个属性似乎没有显著影响。这些现象其实都是合理的，因为现在的行人重识别数据集大都较小，CNN忽略一些行人属性也说得通。

在行人重识别任务中，有时候会遇到行人被其他物体遮挡的情况发生，为了解决这种问题，使用随机擦除的数据增广方法(REA)。简而言之，就是对于某张图片，随机挑选某块区域，以噪声代替原内容。结合行人语义信息对行人重识别模型的影响，首先，对于一个批次内的图片，将其分为5块ROI区域S₁,S₂,...,S₅。这里，对图片不同区域设定擦除概率p_e，那么它保持不变的概率为1-p_e。接着，REA在某块区域S_k中随机选择一块大小为W_e×H_e的矩形块I_e，并设定随机值擦除其像素。这样，区域S_k和擦除矩形块I_e的面积分别为S_k＝W×H和S_k,e＝W_e×H_e，

就是擦除的矩形块占区域S_k的面积比，矩形块I_e的纵横比在两个数值之间随机挑选，定义为h₁和h₂。REA在区域S_k内随机挑选一个点P_k＝(x_e,y_e)，因为这个点P_k必须在区域S_k内，所以设定限制条件：/>

这样，矩形块I_e＝(x_e,y_e,x_e+W_e,y_e+H_e)，否则，重复上述过程，直到选择的矩形块I_e在区域S_k中。I_e中的每个像素分别被分配给区域S_k的平均值。这里，将超参数默认设置为/>

其中，对于不同的数据集，超参数p_e的值会上下浮动，比如对于DukeMTMC数据集，因为鞋子颜色的语义信息对于行人重识别模型性能影响较大，所以增大擦除概率p_e，对于影响较小的区域，就减小p_e。REA是一种数据增广的方式，通过结合行人语义信息的方法，可以有效降低模型的过拟合，提高模型泛化性能。

步骤2：如图3所示，将N张图片输入到卷积神经网络中，得到N个2048*5*5的特征图。对于全局特征的提取，使用全局池化在特征图上滑动提取特征，得到N个2048*1的全局特征。对于局部特征提取，使用水平池化提取特征，然后再进行1x1的卷积操作对通道的数量缩小，得到N个128*5的局部特征。这样，一张行人图片可以由1个全局特征和5个局部特征联合表示。

步骤3：在计算图片间距离时，由网络结构图可知，两张图片间的距离等于它们间全局距离加上局部距离。其中，全局距离等于两张图片间全局特征的L2距离；而局部距离等于两张图片局部特征的最短路径的距离总和。计算局部距离过程如下。首先，假设有2张图片P和Q，因为每张图片根据感兴趣区域划分成了5部分，可以看成由5个局部特征来表达，这样，便可以设定P＝{p₁,p₂,...,p₅}，同理Q＝{q₁,q₂,...,q₅}，其中p_i和q_j别表示图片P和Q的第i、j块区域，或者说第i、j个向量的大小或距离。接着，对所有p_i和q_j做归一化处理，使得它们的值保持在[0,1)之间，便于计算。这样计算两个局部特征之间的距离如式(2)所示：

这样，从(1,1)到(5,5)之间的最短路径总距离S_i,j如式(3)所示：

这样，就可以计算2张图片间的距离了，采用一种新的难样本三元组损失来作为度量学习损失函数。对于生成的新图片，挑选一个最难的正样本和一个最难的负样本组成一个三元组。这里的正样本来自源域数据集，而负样本来自目标域数据集。

这里，TriHard loss定义如下：对于每一个训练批次(batch)，在新生成的图片中随机挑选L个行人，在源域为每个行人挑选K张不同的图片；在目标域随机挑选L个行人，同时为每个行人挑选K张不同的图片，即一个批次中含有2*L*K张图片。接着，对于每一张新生成的图片a，从源域中挑选一个最难的正样本，从目标域中挑选一个最难的负样本，将它们组成一个三元组。这里的最难是根据上文计算出的两张图片之间的距离划分的，最难的正样本指的是相同ID的两张图片相似度最低(距离最大)，最难的负样本指的是不同ID的两张图片相似度最高(距离最小)，通过这样得到的三元组损失来训练模型，可以让模型学习到更好的表征。

首先，设在源域中与图片a具有相同ID的图片集为A，在目标域中的图片集为B。那么TriHard loss如式(4)所示：

其中，α是人为设定的阀值参数。这样，在训练时，三元组可以拉近正样本对之间的距离，推开负样本对之间的距离，最后使得相同ID的行人图片在特征空间里形成聚类，达到行人重识别的目的。

因为负样本对来自不同的数据集，因此两者之间必定没有关联，是天然的负样本，并且正样本对风格不一样，有助于网络更加关注行人前景的信息而减小图片背景的影响，对应难样本三元组损失来说，也有一层“更难”的意思在内。这样经过TriHard loss训练出的网络能学习到更好的表征，模型泛化性能也更加好。

步骤4：训练模型时，使用上文提到的TriHard loss，学习率采用WarmupLearning。预热学习率在很多深度学习任务中都被证明有效，warmup的策略就是一开始用一个逐渐递增的学习率去初始化网络，然后慢慢初始化到一个更优的搜索空间。这里的行人重识别模型采用常见的阶梯下降型学习率，初始学习率为3.5e-4，前10个epoch从0逐渐增加到初始学习率，总共训练120个epoch，学习率在第40个epoch和第70个epoch时下降。warmup方法如式(5)所示：

第三阶段：加载训练好的行人重识别模型，提取目标域的行人图片特征。给定待检索的行人图片，检索最匹配的行人图片并输出。

通过上面的训练过程，得到了一个新的基于行人分割的跨域行人重识别模型。在目标域做测试，因为模型训练时有用过目标域图片，所以可以说是有自适应性的。对测试集图片提取特征，给定待检索图片，计算相似度，输出相似度最高的10张图片。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。