CN111709331B

CN111709331B - 一种基于多粒度信息交互模型的行人重识别方法

Info

Publication number: CN111709331B
Application number: CN202010495916.4A
Authority: CN
Inventors: 孔军; 刘旭东; 蒋敏; 谈天
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2023-06-09
Anticipated expiration: 2040-06-03
Also published as: CN111709331A

Abstract

一种基于多粒度信息交互模型的行人重识别方法，属于机器视觉领域。该方法采用多粒度网络通过空间分块的方式在保留输入图片特征图的同时将该特征图分为多个尺度的子特征图，并且将原特征图作为全局分支处理，将每个子特征图作为局部分支处理。此外提出了多粒度信息交互模型来促进多个分支之间的信息交互。多粒度信息交互模型包含全局映射注意力模块和标签项互学习模块。全局映射注意力模块负责促进全局分支与局部分支之间的信息交互，标签项互学习模块负责促进多个全局分支之间的信息交互。最终利用多粒度信息交互模型分别促进了全局分支与局部分支以及不同全局分支之间的信息交互，进一步提高了具有多分支网络结构的行人重识别模型的性能。

Description

一种基于多粒度信息交互模型的行人重识别方法

技术领域

本发明属于机器视觉领域，特别涉及一种基于多粒度信息交互模型的行人重识别方法。

背景技术

行人重识别也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。行人重识别具有广泛的应用，例如多种场景的行人跟踪和视频监控。虽然行人重识别领域已经取得了很大的进展，但它仍然面临着来自背景遮挡、摄像机视角不同、光照和人体姿态变化大的挑战。

行人重识别分为基于图像的行人重识别与基于视频的行人重识别。如果数据集的数据单位均为图片，则属于基于图片的行人重识别任务，如果数据集的数据单位为视频，则属于基于视频的行人重识别任务。本发明是针对基于图片的行人重识别任务提出的。

近年来所提出的行人重识别方法大多数通过设计包含全局分支与局部分支的多分支卷积神经网络来获取行人图片的深度特征。但是这种只考虑多分支的网络结构存在以下问题：(1)有些行人图片不具有准确的边框，导致部分局部分支工作在无效的特征图上；(2)各个分支之间没有任何信息交互，导致无法互相补充有效信息。

基于上述问题，本发明提出了一种基于多粒度信息交互模型的行人重识别方法(Interactive Information Module based Person Re-identification，IIM-ReID)。其中IIM模型包含全局映射注意力模块Global-map Attention Module(GAM)和标签项互学习模块Label-Class Mutual Learning(LML)。GAM采用与多粒度网络Multiple GranularityNetwork(MGN)[G.Wang,Y.Yuan,X.Chen,J.Li,X.Zhou,Learning discriminativefeatureswith multiple granularities for person re-identification,in:2018ACMMultimedia Conference on Multimedia Conference,ACM,2018,pp.274–282.]类似的多全局分支与多局部分支的网络结构，设计GAM的目的是为了完成全局分支与局部分支间的信息交互。LML则是基于Deep Mutual Learning(DML)[Y.Zhang,T.Xiang,T.M.Hospedales,H.Lu,Deep mutual learning,in:Proceedings of the IEEE Conference on ComputerVision and PatternRecognition,2018,pp.4320–4328.]中的散度损失策略提出的，设计LML的目的是为了促进不同全局分支间的相互学习。

发明内容

本发明的主要目的是提出一种基于多粒度信息交互模型的行人重识别方法IIM-ReID，通过多粒度信息交互模型IIM促进了多个分支间的信息交互，增强了多个分支间信息的互补性，以进行高效的行人重识别。

为了实现上述目的，本发明提供如下技术方案：

一种基于多粒度信息交互模型的行人重识别方法，步骤如下：

步骤一、读取图片并使用Resnet-50作为特征提取层提取特征图；

步骤二、构建K个分支块，每个分支块block_k包括一个全局分支zg_k和N个局部分支

N表示局部分支数；其中全局分支zg_k基于步骤一中得到的特征图采用全局平均池化生成；局部分支zp_k,i基于步骤一中得到的特征图采用最大池化生成；

步骤三、对于K个分支块，分别使用K个多粒度信息交互模型进行多个分支间的信息交互。每个分支块的全局分支zg_k与局部分支zp_k接入对应的多粒度信息交互模型中的GAM_k来进行该分支块的zg_k与zp_k的信息交互；

步骤四、将K个分支块中的全局分支zg_k分别接入对应的多粒度信息交互模型中的LML_k,然后将所有的LML_k进行对接以进行各个分支块中zg_k之间的信息交互；

步骤五、所有的全局分支zg_k与局部分支zp_k对输入图片做分类训练，即在每一个分支特征后接全连接层得到预测向量，然后计算交叉熵损失，该过程在GAM_k中进行；

步骤六、在进行重识别搜寻时，将所有全局分支zg_k与局部分支zp_k的特征拼接在一起作为输入图片的最终特征。搜寻方法为计算探针图片特征与图库图片特征之间的余弦距离，然后根据距离大小进行排序，将排序后的图片标签序列与探针图片标签对比来计算精度。

与现有的技术相比，本发明具有以下有益效果：

1.步骤三中通过全局映射注意力模块GAM的网络结构与分段传播法的结合，可以实现在训练卷积神经网络的过程中得到生成热力图所需要的数据，省去了再次计算这些数据的过程，进而完成热力图的生成，然后分割热力图并且计算各分块的比例权重，将这些比例值作为局部分支在进行前向传播时产生的局部特征的权重(注意力)与局部分支相乘并拼接为一个全局特征，以此来实现在保留局部分支处理局部细节信息能力的同时填补局部分支对宏观信息的欠缺。

2.步骤四中使用了本发明提出的标签项互学习模块LML，与传统的相互学习策略相比，LML更加重视标签项的相互学习，并且只允许低概率的标签项向高概率的标签项学习，极大的减小了计算量。

3.与传统的多分支网络相比，本发明使多个分支的优点互补，在没有额外添加参数的前提下有效提升了多分支网络的性能。

附图说明

图1为本发明的训练算法流程图；

图2为本发明所使用网络整体结构图；

图3为全局分支的热力图；其中，(a-1)至(a-8)为拥有不准确边框的不同行人的图片，(b-1)至(b-8)为拥有不准确边框的不同行人的热力图；(c-1)至(c-8)为拥有准确边框的不同行人的图片，(d-1)至(d-8)为拥有准确边框的不同行人的热力图。

图4为GAM-2执行流程图；

图5为LML的效果对比图；其中，A为行人图片，(a-1)至(a-7)为不使用LML情况下全局分支zg₁不同迭代次数的热力图，(b-1)至(b-7)为不使用LML情况下全局分支zg₂不同迭代次数的热力图；(c-1)至(c-7)为使用LML情况下全局分支zg₁不同迭代次数的热力图，(d-1)至(d-7)为使用LML情况下全局分支zg₂不同迭代次数的热力图。

具体实施方式

为了对本发明进行更好的说明，下面以公开的行人重识别数据集Market-1501为例进行阐述。

图2为本发明所使用网络整体结构图，为了更清晰地说明，该实例中网络结构图中分支块数量K＝2,第一个分支块中的局部分支数量N＝2，第二个分支块中的局部分支数量N＝3。在实际应用中，分支块数量及各个分支块中的局部分支数量可根据需要进行调整。

如图2所示，该网络首先利用特征提取层提取输入图片的特征图，然后将特征图用全局池化和局部池化的方式分为两个分支块，并且分别接入多粒度信息交互模型IIM-1与IIM-2。

上述技术方案步骤三中，GAM得到的全局分支的热力图如图3所示。图3中的样本来自于Market-1501，其中(a)表示拥有不准确边框的行人图片，(b)表示拥有准确边框的行人图片。从图3中可以看出对于拥有不准确边框的行人图片，热力图的红色区域大概分布在图片中行人的位置，而对于拥有准确边框的行人图片，热力图的红色区域分布在该行人的主要特征所在位置，例如该行人特有的背包。由此可以看出当局部分支工作在特征图的部分区域时，如果输入的行人图片的边框不准确，会造成局部分支工作在无效的特征图区域这样的问题，而本发明所提出的全局映射注意力模块GAM则是通过全局分支生成的热力图去引导局部注意力的计算，对工作在无效信息较多的区域的局部分支给予较低的权重，以此来降低不准确边框带来的影响。同时对于拥有准确边框的图片来说，GAM也可以做到合理的注意力分配。

上述技术方案步骤三中，GAM所使用的特殊训练方法如下：

在生成热力图方法Grad-CAM[R.R.Selvaraju,M.Cogswell,A.Das,R.Vedantam,D.Parikh,D.Batra,Grad-cam:Visual explanations from deep networks viagradient-basedlocalization,in:Proceedings of the IEEE InternationalConference onComputer Vision,2017,pp.618–626.]的基础上，为了能够将热力图的生成过程与网络模型的训练过程结合，本发明提出了分段反向传播。卷积神经网络的优化过程分为前向传播、反向传播以及更新参数三个步骤。通用的优化方法严格按顺序执行这三个步骤，而本发明提出的分段传播法优先完成全局分支的前项传播，然后将全局分支的反向传播过程分为两个阶段，在第一个阶段中，反向传播只经过预测向量的标签项，第二个阶段进行预测向量中剩余项的反向传播，最后进行局部分支的前向传播和反向传播。具体步骤包括：

第一，对于每一个分支块，在不进行局部分支的前向传播的情况下进行全局分支的前向传播，然后优先进行全局分支交叉熵损失L_id的反向传播，L_id的计算公式如下：

公式(1)中f为预测向量，W为全连接层的参数，N为输入图片的数量，M表示行人图片的身份数量。完成L_id的计算之后便可以获取从全局分支交叉熵损失L_id传播到预测向量标签项l_c的梯度值G_label，c表示第c个标签类，

并在反向传播经过预测向量时分为两个步骤：(1)优先进行标签项的反向传播从而获取特征图X的梯度值/>

用于计算热力图；(2)进行剩余项的反向传播。

第二，计算生成热力图需要的梯度值

其中/>

表示G^c的第s个通道层，并且结合步骤二的数据计算热力图:

其中，X_s表示特征图X的第s个通道层，

表示X_s相应于c类别的导数，ReLU为激活函数，/>

表示/>

经过ReLU激活函数计算后的激活值，h和w分别为X_s的长和宽；

第三，根据局部分支的数量将热力图水平分割为相等数量的子块g_u，然后计算各个子块梯度值的总和A_u＝sum(g_u)，进而计算各个子块数值的总和在所有子块中的所占比例

即局部注意力；

第四，对每一个局部分支进行前向传播并与相应的比例权重P_u相乘形成加权局部特征f_wp；

第五，将所有的加权局部特征f_wp在通道维度上拼接为一个全局特征f_g，并计算三元损失L_triplet，L_triplet的计算公式如下：

公式(2)中R表示每个训练批次中行人的身份数量,T表示该批次中每个身份所拥有的图像数量,f_a表示三元损失中的搜查图片特征(anchor),本发明中即拼接得到的全局特征f_g，f_p表示与f_a身份相同的不同图片特征,f_n表示与f_a身份不同的不同图片特征,m是一个超参数,用来调整相同身份特征的类内距离与不同身份特征的类间距离。

以图2中拥有三个局部分支的GAM-2为例，步骤三中GAM与分段反向传播法相结合的主要执行过程如下图所示：

GAM-2中计算局部注意力的方法为：

由于局部分支是按照均匀分割的方法将特征图水平分为数个子块，所以相应的将热力图水平分为相等数量的子块，并使用softmax计算每个子块中数值的总和所占的比例(softmax的计算在图4中被省略掉了)，即局部注意力。在图4中，局部分支有三个，所以将全局分支的热力图水平分割为三个子块，然后计算局部注意力。

将局部分支与相应的局部注意力相乘,三个局部分支分别与由三个子块计算得来的局部注意力相乘得到三个加权局部特征，然后三个加权局部特征在通道维度上拼接为一个全局特征f_g并计算三元损失L_triplet，同时三个局部特征通过全连接层(FC)计算交叉熵损失L_id。

上述技术方案步骤四中，LML的计算方法为：

LML是基于散度损失实现的标签项互学习模块，相对于GAM,LML更偏向于对全局分支中标签项的散度损失计算。

在本发明的提出的网络中，LML负责两个分支块中的两个全局分支zg₁与zg₂的相互学习。首先，LML将zg₁与zg₂中预测向量的标签项筛选出来，分别记为P₁和P₂，然后比较标签项的概率大小，区别出较高概率的标签项与较低概率的标签项，该过程的公式如下：

Z_min＝min{P₁,P₂} (3)

Z_max＝max{P₁,P₂} (4)

然后将较高概率的标签项Z_max作为目标概率分布计算散度损失，该公式如下：

公式(5)中的x_i为网络的输入，V和M表示在训练中表示输入的图像数量以及数据集的行人身份数量。

本发明提出的全局映射注意力模块GAM与标签项互学习模块LML的联动效果为：

全局映射注意力模块GAM需要在全局分支生成热力图，然后将热力图运用在局部注意力的计算中，这就要求全局分支生成的热力图具有良好的标注能力。所以，全局分支的表现性能是全局映射注意力模块GAM的关键，而标签项互学习模块LML正是用来提升全局分支的性能，尤其是与标签项有关的参数，而热力图的生成恰恰需要从标签项开始反向传播。综合来看，标签项互学习模块LML进一步提高了全局分支的性能，利用全局分支为局部分支提供质量更高的热力图，因此局部注意力的计算将会更加精确。

为验证本发明的准确性和鲁棒性，本发明在公开的Market-1501、DukeMTMC-reID和CUHK03-NP数据集上进行了实验。Market-1501数据集包含了32,668张行人图片，共有1501个不同的行人身份。人的图像边框由DPM探测器裁剪得到。数据集分为训练集及测试集，训练集包括12936张，共751个行人身份，测试集包括3368张查询图像和19732张图库图像，包含750个行人身份。DukeMTMC-reid数据集是为了行人重识别任务而从DukeMTMC中划分出的子数据集。该数据集包括共8个摄像头捕获的36411张行人图片，共有1404个行人身份，训练集包含16522张行人图像，共702个行人身份，测试集包含2228张查询图像和17661张图库图像，为剩余702个行人身份的图像。DukeMTMC-reID中人物图像的边框是手动标注的。CUHK03-np是针对CUHK03数据集而提出的一种新的划分协议。新协议将数据集划分为含有767个行人身份的训练集和700个行人身份的测试集。这个数据集提供了用两种方法标注的行人图像边框，分别是手动标注的边框和DPM检测器标注的边框。手动标注边框的CUHK03-NP数据集包括7,368张训练图像、1,400张查询图像和5,328张图库图像。DPM标注边框的数据集包括7365张训练图像、1400张查询图像和5332张图库图像。

为了评估本发明的性能，我们采用了累积匹配曲线CMC的rank-1、rank-5和rank-10和平均精度mAP作为评估标准。

实验设置：

本次测试中将所有输入图像的大小调整为384×128。在ImageNet数据集上预先训练的Resnet-50模型[K.He,X.Zhang,S.Ren,J.Sun,Deep residual learning for imagerecognition,in:Proceedings of the IEEE conference on computer visionandpattern recognition,2016,pp.770–778.]被用作IIM的特征提取层。Resnet-50是一种被广泛用于深度学习的基线网络，由多个残差块构成，每个残差块由多个卷积层构成，并且具有跳跃连接结构，可以缓解梯度消失的问题。为了方便验证不同子模块的性能，采用两个网络结构。第一个网络结构包含一个分支块，该分支块中有一个全局分支和6个局部分支，该网络结构用IIM(6)表示。由于只有一个分支块，所以IIM(6)没有执行LML子模块。第二个网络结构即是在本发明的技术方案中阐述的双分支块网络结构，第一个分支块有一个全局分支和两个局部分支，第二个分支块有一个全局分支和三个局部分支，这个网络结构用IIM(2-3)来表示。在训练过程中采用随机水平翻转[K.Simonyan,A.Zisserman,Very deepconvolutional networks for largescaleimage recognition,arXiv preprint arXiv:1409.1556(2014).]、随机擦除[Z.Zhong,L.Zheng,G.Kang,S.Li,Y.Yang,Random erasingdata augmentation,arXiv preprint arXiv:1708.04896(2017).]和随机裁剪[A.Krizhevsky,I.Sutskever,G.E.Hinton,Imagenet classification withdeepconvolutional neural networks,in:Advances in neural informationprocessingsystems,2012,pp.1097–1105.]作为数据增强的方法。每个训练批次大小为16，并选择Adam[D.P.Kingma,J.Ba,Adam:A method for stochastic optimization,arXivpreprintarXiv:1412.6980(2014).]作为优化器，优化器的权重衰减系数为5e-4，总迭代次数为350。初始学习率为2e-4，在第200次迭代和第300次迭代后分别下降到2e-5和2e-6。

表1为本发明提出的方法IIM在Market-1501数据集上的测试结果。

表1在Market-1501上的测试结果

	mAP	Rank-1	Rank-5	Rank-10
					IIM(6)	82.8％	93.3％	97.6％	98.4％
IIM(2-3)	87.3％	95.3％	98.2％	98.9％

从表1中可以看出IIM(6)和IIM(2-3)均达到了较高的准确率，尤其是IIM(2-3)。相对于IIM(6)，IIM(2-3)采用双分支块结构，同时使用了本发明提出的GAM与LML，准确率高过了IIM(6)。

表2为在DukeMTMC-reID数据集上的测试结果。相对于Market-1501数据集，DukeMTMC-reID数据集中的行人图片中行人的穿着较多，所以识别难度较大。

表2在DukeMTMC-reID上的测试结果

	mAP	Rank-1	Rank-5	Rank-10
					IIM(6)	74.9％	86.0％	93.1％	95.2％
IIM(2-3)	77.6％	88.1％	94.4％	96.1％

可以看出在IIM在DukeMTMC-reID数据集上的准确率整体比Market-1501上要低。因为数据集图片的差异，这是基本上所有方法都会遇到的情况。IIM(2-3)的准确率仍然高于IIM(6)，说明在不同数据集的情况下完全使用GAM与LML依然可以提高模型的准确率。

表3为在CUHK03-NP数据集上的测试结果。由于CUHK03-NP数据集中有两种方法标注的图像边框，所以要分别在手动标注数据集和DPM探测器标注数据集上测试。

表3在CUHK03-NP上的测试结果

大多数行人重识别方法在这个数据集上的准确率要远低于在Market-1501和DukeMTMC-reID上的准确率，这是因为部分图片存在大面积遮挡。但本发明提出的IIM大幅度提高了在该数据集上的准确率，基本上达到了在DukeMTMC-reID上的水准。IIM中的GAM能够降低行人图片中的无效信息的影响，这是一个影响准确率的重要因素。

为了进一步证明LML的作用，本发明采用了如下对比方法：

本发明对比了在使用与不适用LML情况下的IIM(2-3)中两个分支块的全局分支生成的热力图以及相应输入图片的标签项概率值。对比结果如下：

从图5可以看出，在不使用LML的情况下，两个不同全局分支z_g1与z_g2生成的热力图红色区域分布的位置差异较大，特别是在训练过程的最后一次迭代中。在使用LML的情况下，z_g1与z_g2的热力图中红色区域在第350次迭代主要集中在肩部和腰部，而在第350次迭代之前红色区域分布在不同的地方。模型收敛的情况下，使用LML的IIM(2-3)中标签项的概率也高于未使用LML的IIM(2-3)。所以，LML可以使两个全局分支产生高质量的热力图。对于未使用LML的IIM(2-3)，在第50次迭代后，z_g2的标签项概率一直高于z_g1的标签项概率。相反，对于使用LML的IIM(2-3)，没有一个分支的标签项概率始终高于另一个分支的标签项概率的情况，这是LML相互学习的效果。