CN113449676A

CN113449676A - 一种基于双路互促进解纠缠学习的行人重识别方法

Info

Publication number: CN113449676A
Application number: CN202110792515.XA
Authority: CN
Inventors: 陶松兵; 李华锋; 徐开熊; 李锦兴; 马宏莉; 何启航
Original assignee: Lingkun Nantong Intelligent Technology Co ltd
Current assignee: Lingkun Nantong Intelligent Technology Co ltd
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2021-09-28
Anticipated expiration: 2041-07-13
Also published as: CN113449676B

Abstract

本发明公开了一种基于双路互促进解纠缠学习的行人重识别方法，属于计算机视觉领域。该方法包括通过训练流程得到具有提取域不变特征的内容编码器，在测试流程中利用该内容编码器对目标域测试样本中的行人进行重识别。相比于传统的用于行人重识别的方法，本发明的方法简单有效且更具实用价值。在不同的数据集上均表现出了更优异的性能。

Description

一种基于双路互促进解纠缠学习的行人重识别方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于双路互促进解纠缠学习的行人重识别方法。

背景技术

行人重识别是判断跨视角相机拍摄到的行人图像是否为同一行人的技术。该技术是智能监控中的重要构成部分，在追踪罪犯嫌疑人，失踪人口查找等方面有着重要的应用，引起了众多研究者的关注。随着深度学习的快速发展，行人重识别近年来取得了显著的研究进展，并获得了优异的识别性能。然而，这些成绩一般是在同一数据集上进行有监督地训练，并在该数据集上进行测试得到的。如果把这些方法直接部署到现实场景中，识别性能会因训练数据与测试数据之间的域偏移而出现急剧下降。为解决该问题，无监督域自适应的行人重识别方法受到了越来越多的关注和重视。

现有的无监督域自适应的行人再识别方法可粗略地划分成三类：基于聚类伪标签预测的方法，基于额外模型辅助的方法，基于域不变特征提取的方法。基于伪标签预测的方法虽然在数据集上有较高的性能表现，但这一优异性能通常是在参与训练的每一个目标样本都有正样本的情况才取得的。这一潜在的要求，显然与实际应用场景不符。如果将其直接部署到正样本对极少的实际场景中，性能会出现急剧下降。基于额外模型辅助的方法虽然也能获得较为优异的识别性能，但由于需要额外模型的辅助，极大地影响了re-ID模型的识别效率。基于域不变特征提取的方法因未借助伪标签来更新模型，也未受到额外模型的辅助，同时此类算法更容易部署到现实场景中，但在公开的数据集上识别性能相对较低。

综上所述，现有的行人重识别技术存在以下问题：

1、训练方法采用有监督的训练，直接部署到现实场景时，识别性能会因训练数据与测试数据之间的域偏移而出现急剧下降。

2、基于伪标签预测的方法，需要参与训练的每一个目标样本都有正样本，与实际应用场景不符，如果将其直接部署到正样本对极少的实际场景中，性能会出现急剧下降。

3、基于额外模型辅助的方法，需要额外模型的辅助，极大地影响了re-ID模型的识别效率。

4、传统的基于域不变特征提取的方法，在公开的数据集上识别性能相对较低。

发明内容

针对现有技术的不足，本发明提出了一种基于双路互促进解纠缠学习的行人重识别方法，解决上述现有技术中存在的问题。具体地，本发明方法主要由内容编码分支和相机风格编码分支组成。其中，前者提取与行人身份相关的特征，后者提取与相机风格相关的特征。在解纠缠过程中，我们提出通过两个路径之间的对抗学习来达到互惠互利的目的，同时实现行人域不变身份特征与域信息的提取。在此过程中，我们充分利用了图像自带的相机标签信息来辅助域不变特征的学习，而域不变特征的学习通过交叉分类，反过来协助相机风格特征的提取，通过这种合作共赢机制来达到相机信息和判别性特征解纠缠的目的。与传统方法相比，本发明的方法是一种无监督训练，泛化能力会更好；不需要额外模型辅助，不会影响re-ID模型的识别效率；在公开的数据集和现实场景中都有很好的识别效果。

为达上述目的，本发明提供了一种基于双路互促进解纠缠学习的行人重识别方法，包括通过训练流程得到具有提取域不变特征的内容编码器E₁、在测试流程中利用该内容编码器E₁对目标域测试样本中的行人进行重识别；所述训练流程包括内容编码分支和相机风格编码分支，所述内容编码分支包括内容编码器E₁和身份分类器W₁，所述相机风格编码分支包括风格编码器E₂和相机分类器W₂，具体包括以下步骤：

步骤1，采样及训练样本的选择

采样行人重识别数据集Duke中的M_s个身份的N_s张图片，组成源域训练样本X_s；采样行人重识别数据集Market1501中的N_t张图片，将其作为目标域训练样本X_t，其表达式分别为：

其中，i表示源域训练样本的序号，

表示第i个源域训练样本，N_s表示源域训练样本数量；令第i个源域训练样本

对应的身份标签为

M_s表示源域训练样本行人类别总数；令第i个源域训练样本

对应的相机标签为

C_s表示源域训练样本相机类别总数；

表示第j个目标域训练样本，N_t表示目标域训练样本数量，j表示目标域训练样本序号，第j个目标域训练样本

对应的相机标签为

C_t表示目标域训练样本相机类别总数，目标域训练样本X_t的身份标签未知；

步骤2，内容编码分支的训练流程

步骤2.1，分别将源域训练样本X_s和目标域训练样本X_t输入内容编码器E₁，提取与行人身份相关的信息，得到源域训练样本内容编码器特征E₁(X_s)和目标域训练样本内容编码器特征E₁(X_t)；

步骤2.2，将源域训练样本内容编码器特征E₁(X_s)，输入到身份分类器W₁，利用将源域训练样本内容编码器特征E₁(X_s)分类到正确的身份的过程，对内容编码器E₁和身份分类器W₁进行一次优化，并将优化结果分别记为一次优化后的内容编码器E′₁和一次优化后的身份分类器为W′₁；

步骤3，风格编码分支的训练流程

步骤3.1，分别将源域训练样本X_s和目标域训练样本X_t输入到风格编码器E₂，提取相机的风格信息，得到源域训练样本相机编码器特征E₂(X_s)和目标域训练样本相机风格编码器特征E₂(X_t)；

步骤3.2，将源域训练样本相机编码器特征E₂(X_s)和目标域训练样本相机风格编码器特征E₂(X_t)，输入到相机分类器W₂，利用将源域训练样本相机编码器特征E₂(X_s)和目标域训练样本相机风格编码器特征E₂(X_t)分类到正确的相机的过程，对风格编码器E₂和相机分类器W₂进行一次优化，并将优化结果分别记为一次优化后的相机风格编码器E′₂和一次优化后的相机分类器W′₂；

步骤4，对抗学习训练

固定一次优化后的身份分类器W′₁的参数和一次优化后的相机分类器W′₂的参数；

将源域训练样本内容编码器特征E₁(X_s)和目标域训练样本内容编码器特征E₁(X_t)输入到一次优化后的相机分类器W′₂，对内容编码器E₁进行二次优化，并将优化结果记为二次优化后的内容编码器E″₁；同时将源域训练样本相机编码器特征E₂(X_s)和目标域训练样本相机风格编码器特征E₂(X_t)输入到一次优化后的身份分类器W′₁，对风格编码器E₂进行二次优化，并将优化结果记为二次优化后的相机风格编码器E″₂；

通过以上对抗学习的方式，使二次优化后的内容编码器E″₁具有提取域不变特征的能力；

步骤5，测试流程，具体步骤如下：

步骤5.1，采样行人重识别数据集Market1501中的M_o个身份的N_o张图片，组成目标域测试样本X₀；

其中，l表示目标域测试样本序号，

表示第l个目标域测试样本，N_o表示目标域测试样本数量，令第l个目标域测试样本

对应的身份标签为

M_o表示目标域测试样本行人类别总数；令第l个目标域测试样本

对应的相机标签为

C_o表示目标域测试样本相机类别总数；

步骤5.2，将目标域测试样本X_o输入到步骤4得到的二次优化后的内容编码器E〞₁，得到目标域测试样本内容编码器特征E〞₁(X_o)，计算目标域测试样本X₀与其对应的身份标签

之间的准确率。

优选地，步骤2中对内容编码器E₁和身份分类器W₁进行一次优化的方式如下：

通过ADAM优化器最小化损失函数1，损失函数1的值小于x或epochs超过M时，停止优化，内容编码器E₁和身份分类器W₁完成一次优化，其中，x表示最小化损失函数1阈值，epochs表示训练的轮数，M表示训练轮数的值，损失函数1的表达式如下：

其中，L_id(E₁，W₁)表示关于内容编码器E₁和身份分类器W₁的损失函数，E_1，a表示由神经网络a构成的内容编码器，记为a内容编码器，E_1，b表示由神经网络b构成的内容编码器，记为b内容编码器，n_b表示batchsize，p(·)表示第i个源域训练样本

属于第c个身份的概率输出，log表示以10为底数的对数函数，

与指示函数，是标签平滑策略，缓解模型在目标域过拟合，定义如下：

其中，ε为趋于0的常数。

优选地，步骤3中对风格编码器E₂和相机分类器W₂进行一次优化的方式如下：

通过ADAM优化器最小化损失函数2，损失函数2的值小于x或epochs超过M时，停止优化，相机风格编码器E₂和相机分类器W₂完成一次优化，其中，x表示最小化损失函数2阈值，epochs表示训练的轮数，M表示训练轮数的值，损失函数2的表达式如下：

其中，L_{cam_id}(E₂，W₂)表示关于相机风格编码器E₂和相机分类器W₂的损失函数，p(·)表示第i个源域训练样本

属于第c个身份的概率输出或第j个目标域训练样本

属于第c个身份的概率输出，log表示以10为底数的对数函数，I为指示函数，是标签平滑策略，缓解模型在目标域过拟合，定义如下：

其中，ε为趋于0的常数。

优选地，步骤4中对内容编码器E₁进行二次优化的方式如下：

通过ADAM优化器最小化损失函数3，损失函数3的值小于x或epochs超过M时，停止优化，内容编码器E₁完成二次优化，其中，x表示最小化损失函数3阈值，epochs表示训练的轮数，M表示训练轮数的值，损失函数3的表达式如下：

其中，L_cam1(E₁)表示关于内容编码器E₁的损失函数，n_b表示batchsize，p(·)表示第i个源域训练样本

属于第c个身份的概率输出或第j个目标域训练样本

属于第c个身份的概率输出，log表示以10为底数的对数函数，I，

为指示函数，是标签平滑策略，缓解模型在目标域过拟合，定义如下：

其中，ε为趋于0的常数。

优选地，步骤4中对相机风格编码器E₂进行二次优化的方式如下：

通过ADAM优化器最小化损失函数4，损失函数4的值小于x或epochs超过M时，停止优化，对相机风格编码器E₂进行二次优化，其中，x表示最小化损失函数4阈值，epochs表示训练的轮数，M表示训练轮数的值，损失函数4的表达式如下：

其中，L_id1(E₂)表示关于相机风格编码器E₂的损失函数，n_b表示batchsize，p(·)表示第i个源域训练样本

属于第c个身份的概率输出或第j个目标域训练样本

属于第c个身份的概率输出，log表示以10为底数的对数函数，

其中，ε为趋于0的常数。

与传统方法相比，本发明方法的优势体现在以下三个方面：

1、提出一种双路径互惠解纠缠域不变特征学习方法。该方法不再将行人图像分解成身份相关的信息和身份无关的信息，而是采用互利互惠的学习机制，直接从行人图像中提取相机风格信息以及域不变的行人特征信息。

2、提出充分利用行人图像自带的相机标签信息来辅助域不变特征的学习，以此避免因引入行人图像的生成而给特征提取模型带来极大负担，以及特征的过度冗余和身份无关信息的混入。

3、为防止显著性判别特征的丢失，本发明在技术框架中加入了全局最大池化与全局平均池化的融合操作。本发明方法简单有效且更具实用价值。在不同的数据集上均表现出了更优异的性能。

附图说明

图1是本发明实例中的一种基于双路互促进解纠缠学习的行人重识别方法的流程图。

具体实施方式

下面将结合附图和具体的实施方式对本发明的技术方案进行清楚、完整的描述。

图1是本发明实例中的一种基于双路互促进解纠缠学习的行人重识别方法的流程图。由图1可见，本发明一种基于双路互促进解纠缠学习的行人重识别方法，包括通过训练流程得到具有提取域不变特征的内容编码器E₁、在测试流程中利用该内容编码器E₁对目标域测试样本中的行人进行重识别。所述训练流程包括内容编码分支和相机风格编码分支，所述内容编码分支包括内容编码器E₁和身份分类器W₁，所述相机风格编码分支包括风格编码器E₂和相机分类器W₂，具体包括以下步骤：

步骤1，采样及训练样本的选择

其中，i表示源域训练样本的序号，

对应的身份标签为

M_s表示源域训练样本行人类别总数；令第i个源域训练样本

对应的相机标签为

C_s表示源域训练样本相机类别总数；

对应的相机标签为

C_t表示目标域训练样本相机类别总数，目标域训练样本X_t的身份标签未知。

本实例中，行人重识别数据集Duke是由8个摄像机拍摄的1404个行人的36411张图像构成，取M_s＝702，N_s＝16522，C_s＝8。

在本实施例中，行人重识别数据集Market1501是由6个摄像机拍摄的1501个行人的32670张图像构成，其中751个身份的12937张图片用于训练，其余750个身份的19733张图片用于测试。即取N_t＝12937，C_t＝6。

步骤2，内容编码分支的训练流程

步骤2.2，将源域训练样本内容编码器特征E₁(X_s)，输入到身份分类器W₁，利用将源域训练样本内容编码器特征E₁(X_s)分类到正确的身份的过程，对内容编码器E₁和身份分类器W₁进行一次优化，并将优化结果分别记为一次优化后的内容编码器E′₁和一次优化后的身份分类器为W′₁。

步骤3，风格编码分支的训练流程

步骤3.2，将源域训练样本相机编码器特征E₂(X_s)和目标域训练样本相机风格编码器特征E₂(X_t)，输入到相机分类器W₂，利用将源域训练样本相机编码器特征E₂(X_s)和目标域训练样本相机风格编码器特征E₂(X_t)分类到正确的相机的过程，对风格编码器E₂和相机分类器W₂进行一次优化，并将优化结果分别记为一次优化后的相机风格编码器E′₂和一次优化后的相机分类器W′₂。

步骤4，对抗学习训练

通过以上对抗学习的方式，使二次优化后的内容编码器E″₁具有提取域不变特征的能力。

步骤5，测试流程，具体步骤如下：

其中，l表示目标域测试样本序号，

对应的身份标签为

对应的相机标签为

C_o表示目标域测试样本相机类别总数；

步骤5.2，将目标域测试样本X_o输入到步骤4得到的二次优化后的内容编码器E″₁，得到目标域测试样本内容编码器特征E″₁(X_o)，计算目标域测试样本X₀与其对应的身份标签

之间的准确率。

在本实例中，行人重识别数据集Market1501是由6个摄像机拍摄的1501个行人的32670张图像构成，其中750个身份的19733张图片用于测试。具体的，取N_o＝19733，M_o＝800，C_o＝6。

在以上步骤中，步骤2中对内容编码器E₁和身份分类器W₁进行一次优化的方式如下：

属于第c个身份的概率输出，log表示以10为底数的对数函数，

在以上步骤中，步骤3中对风格编码器E₂和相机分类器W₂进行一次优化的方式如下：

属于第c个身份的概率输出或第j个目标域训练样本

其中，ε为趋于0的常数。

在以上步骤中，步骤4中对内容编码器E₁进行二次优化的方式如下：

属于第c个身份的概率输出或第j个目标域训练样本

其中，ε为趋于0的常数。

在以上步骤中，步骤4中对相机风格编码器E₂进行二次优化的方式如下：

通过ADAM优化器最小化损失函数4，损失函数4的值小于x或epochs超过M时，停止优化，相机风格编码器E₂完成二次优化，其中，x表示最小化损失函数4阈值，epochs表示训练的轮数，M表示训练轮数的值，损失函数4的表达式如下：

属于第c个身份的概率输出或第j个目标域训练样本

属于第c个身份的概率输出，log表示以10为底数的对数函数，

其中，ε为趋于0的常数。

在本实例中，x取0.05，M取100，ε值取0.1；

为了佐证本发明的效果，为验证提出方法的有效性，我们在三个大规模行人重识别数据集Market1501[1]、DukeMTMC-reID(Duke)[2][3]、MSMT17[4]上以及携带了干扰图像的数据集GRID[5]和PRID2011[6]对算法性能进行评估。针对数据集进行介绍的文献如表1所示。表1共涉及29个参考文献，除对数据集进行介绍的文献，其它文献中提出的典型方法，如MMT方法，也被用于与本专利方法效果进行对比验证。

表1对比试验所用参考文献

首先在Duke→Market1501和Market1501→Duke两种任务上，对提出的方法与其它方法进行了比较，对比结果如表1所示。其中，A→B表示数据集A和B分别作为源域和目标域，如Duke→Market1501任务中，Duke为源域，Market1501为目标域。Rank-1、Rank-5、Rank-10、mAP是通用的基于概率统计的识别准确率评价指标，此处用于计算行人重识别准确率。此外，表2中“-”表示该文献中未用这种评价标准。

表2不同算法在Duke→Market1501和Market1501→Duke上的实验对比

在表2中可以发现，该实验中，对比方法可以分为三类：(a)基于聚类伪标签预测的方法；(b)基于额外模型辅助的方法(c)基于域不变特征学习的方法。其中，与域不变特征学习的算法相比，本文提出的方法在Duke→Market1501和Market1501→Duke上，rank1/mAP的精度分别达到了72.7％/38.2％和65.3％/42.9％，以较大的幅度超过了同类的对比方法。这证明了本专利方法的有效性。同时，在rank1的识别精度上超过了最优的两种基于额外模型辅助的识别方法ECN[16]和PDA-Net[17]。

基于聚类伪标签预测的方法取在公开的数据集上，表现出了优异的识别性能。例如MMT方法[11]，在Duke→Market1501和Market1501→Duke上的Rank-1/mAP的识别率分别达到了87.7％/71.2％和78.0％/65.1％，这是因为在目标域中，参与训练的每一个行人都含有正样本，这为正确预测伪标签提供了帮助。但在实际场景中，正样本极为稀少，这就为伪标签预测带来了极大的挑战。如果将这类算法直接部署到干扰图像较多的现实场景中，这类算法性能可能会急剧下降。与这类方法相比，本专利方法不需要预测伪标签，因此识别性能对正样本数量没有依赖性。为进一步验证本文算法相对于基于聚类伪标签预测方法的优势，我们把携带了干扰图像的GRID和PRID2011作为目标数据集，Market1501和Duke分别作为源域。实验结果如表3所示。

表3本文方法与聚类伪标签预测的方法在GRID和PRID2011上的实验结果对比

从表3可以看出，基于伪标签预测的UDAP[10]，ACT[29]，MMT[11]在有干扰行人图像的数据集上Rank1的识别精度没有超过30％，而本专利的方法最低性能也达到了39.9％。具体地，当源域为Duke时，提出的方法在GRID和PRID2011上的Rank1/mAP识别率分别是39.9％/64.8％和52.4％/63.2％，这比MMT提高了19.1％/35.9％和27.4％/29.3％。当源域为Market1501，提出的方法在GRID和PRID2011上的Rank1/mAP识别率分别是47.2％/70.8％，46.2％/67.5％，同样比MMT提高了很多。以上实验说明我们的方法在有干扰图像的数据集上同样是有效的，而基于聚类伪标签预测的方法在有干扰图像的情况下，性能出现了显著下降。

此外，由表2中的对比结果可以看出，基于额外模型辅助方法同样也表现出了较强的竞争性尤其是ECN和PDA-Net。但这类算法的性能极大地依赖于额外模型的辅助，降低了模型的实际应用效率。为了证明这一点，我们以ECN为例，在Market1501→Duke和Market1501→Duke两个任务上，本专利方法与其在时间成本上进行了对比。如表4所示，在Market1501→Duke任务上，本专利的方法训练Re-id模型大约需要9小时，而ECN大约花费90小时，这是因为ECN通过Camstyle进行图像风格迁移花费了大量时间，当迁移的目标数据集规模更大，例如MSMT17，那么花费的时间也就更多。这显然降低了模型在实际场景中的可适用性。相对来说，本文算法在训练效率和识别性能均有更好的表现。

表4提出的方法与ECN在模型训练上的效率对比

Claims

1.一种基于双路互促进解纠缠学习的行人重识别方法，其特征在于，包括通过训练流程得到具有提取域不变特征的内容编码器E₁、在测试流程中利用该内容编码器E₁对目标域测试样本中的行人进行重识别；所述训练流程包括内容编码分支和相机风格编码分支，所述内容编码分支包括内容编码器E₁和身份分类器W₁，所述相机风格编码分支包括风格编码器E₂和相机分类器W₂，具体包括以下步骤：

步骤1，采样及训练样本的选择