CN111666851B

CN111666851B - 一种基于多粒度标签的交叉域自适应行人重识别方法

Info

Publication number: CN111666851B
Application number: CN202010466677.XA
Authority: CN
Inventors: 葛宏伟; 刘常堃
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2022-02-15
Anticipated expiration: 2040-05-28
Also published as: CN111666851A

Abstract

本发明属于计算机视觉与行人识别的交叉领域，一种基于多粒度标签的交叉域自适应行人重识别方法。本方法首先基于深度学习的方法提出了多粒度分辨率网络，该网络结构在分块多粒度网络的基础上，增加了多分辨率的特征信息，使得模型在细节特征提取能力上得到了提高。此外，通过增加注意力机制，使模型自适应学习不同粒度的权重占比，提升多粒度分辨率网络的性能。为提高无标签数据的利用率，在源域和目标域之间的交叉域自适应训练过程中采用聚类得到目标域的多粒度“伪标签”，形成每张行人图像拥有一个主身份标识以及多个分块身份标识的多粒度标签结构，补充行人特征的部分相似性。本方法可以扩展到更多的无标签数据，且对数据的分布无约束条件。

Description

一种基于多粒度标签的交叉域自适应行人重识别方法

技术领域

本发明属于计算机视觉与行人识别的交叉技术领域，涉及一种基于交叉域自适应和多粒度标签的行人重识别方法。

背景技术

随着社会对个人和公共安全等安全问题越来越关注，安防监控日益增多，已遍布城市农村公路和各种设施之内。随之而来的是智慧城市建设所面临的实时海量监控信息的分析处理。利用计算机视觉处理监控视频和图像进行安全信息的自动提取，已成为计算机视觉领域的研究热点。

行人重识别的目标是在图像库中检索与查询图片具有相同身份并且由不同相机拍摄的行人图片。行人重识别的研究，将会对公共安全及智慧城市建设起到十分积极的效果。例如，不仅能作为追捕罪犯，监控危险可疑人员等威胁公共安全的人的辅助工具，而且可以帮助寻找老弱病残幼等特定人员，对公共服务的建设做出贡献。行人重识别的研究仍然面临着图像视角变化、人物姿态着装变化、光线变化、配饰、遮挡、视频分辨率低等一系列问题。近年来随着深度学习技术的不断发展，其在多个领域中得到了广泛的应用，在某些领域已达到甚至超越人类的测试水平。研究人员基于深度学习的行人重识别的研究不断深入，但面对实际应用的难题，仍需更高效的行人重识别模型及算法，提高行人重识别的模型性能。

目前，行人重识别领域中的大量工作集中在监督学习的范畴，在单一的数据集上已经实现了相对令人满意的性能。但是，如果将在有真实标签的数据集上(源域)训练好的模型直接迁移应用到另外的行人数据集(目标域)，模型的效果会出现断崖式的下降。模型泛化性能较差的原因在于不同的数据集行人图像数据分布的不一致性，这种差异称为领域偏移(domain shift)。通常，针对每个数据集都进行人工的身份标签标注代价过于高昂，如何利用已标注的源域数据和无标签目标域数据训练一个适应目标域的性能良好行人重识别模型成为本领域的一个重要研究方向。现有的解决交叉域问题的方法虽然在一定程度上提高了模型在目标域的表现，仍然与有监督学习方法存在较大的差距。因此，需要考虑交叉域行人重识别研究的特点，充分利用源域和目标域中的信息，设计更合理的域自适应学习算法来解决模型泛化性能较差的问题，交叉域自适应的方法可以使海量摄像机所产生的无身份标注信息有了用武之地，帮助构建一个更加完善的公共安全的安防网络。

传统方法利用颜色空间和纹理提取行人特征。(Farenzena M,Bazzani L,PerinaA,et al.Person re-identification by symmetry-driven accumulation of localfeatures[C]//2010IEEE Computer Society Conference on Computer Vision andPattern Recognition.IEEE,2010:2360-2367.)提出利用HSV颜色空间的颜色直方图提取特征。(Zhao R,Ouyang W,Wang X.Unsupervised salience learning for person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.2013:3586-3593.)利用LAB颜色空间以及尺度不变-特征变换(SIFT)。传统方法具有一定特征不变性，但缺少空间域信息，同时手工特征很难实现判别能力与鲁棒性的平衡，这些因素导致传统方法的准确率不高。(Li W,Zhao R,Xiao T,etal.Deepreid:Deep filter pairing neural network for person re-identification[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2014:152-159.)首先将深度学习引入到行人重识别任务中来，把传统方法的特征提取和度量学习的两步处理统一成端到端的一步处理，通过(Convolutional NeuralNetwork,CNN)自动提取特征，实现了行人重识别准确率的大幅提高。

此后，基于深度学习的行人重识别任务不断涌现新的研究工作，其中(Sun Y,Zheng L,Yang Y,et al.Beyond part models:Person retrieval with refined partpooling(and a strong convolutional baseline)[C]//Proceedings of the EuropeanConference on Computer Vision(ECCV).2018:480-496.)考虑行人图像部分之间的连贯性，使用统一的分块方式，将分块边缘的离群点划分到临近的分块中，实验证明提取部分特征对于细粒度图像识别具有提升作用。该方法缺点是分块粒度仍然不够细致，可以通过多粒度进一步提升特征的鲁棒性以及泛化性能。(CHENG D,GONG Y,ZHOU S,et al.Personre-identification by multi-channel parts-based CNN with improved triplet lossfunction[J].Proceedings of the IEEE Computer Society Conference on ComputerVision and Pattern Recognition,2016,2016-Decem:1335–1344.)改善了模型中的三元组损失，不仅关注类内和类间的分离度，也关注类内的紧密性。目前有监督的方法在单一域的行人重识别任务上表现出较好的性能，但是实际应用中，未标记的数据仍占绝大部分，需要无监督的方法将未标记的数据充分利用起来。Fan H,Zheng L,Yan C等人提出了(Fan H,Zheng L,Yan C,et al.Unsupervised person re-identification:Clustering andfine-tuning[J].ACM Transactions on Multimedia Computing,Communications,andApplications(TOMM),2018,14(4):83.)通过源域(有标签数据集)训练模型，在目标域(无标签数据集)上对行人的特征向量进行聚类获得行人信息，并反馈给模型进行微调，实现了交叉域的迁移。该方法的使用的是K-means聚类，缺点是需要经验确定簇的个数，为改进聚类方法，(Song L,Wang C,Zhang L,et al.Unsupervised domain adaptive re-identification:Theory and practice[J].arXiv preprint arXiv:1807.11334,2018.)将聚类算法改进为基于密度的聚类算法(Density-Based Spatial Clustering ofApplications with Noise，DBSCAN)，并实现交叉域自适应，缺点是只考虑行人的全局特征，而忽略了部分特征的相似性。

针对行人重识别任务中的行人细节特征提取困难、模型泛化能力弱、大量无标签数据利用率低的问题，本发明提出一种基于多粒度标签的交叉域自适应方法(CrossDomain Adaption with Multi-granularities Labels，CDA-MGL)。本方法首先基于深度学习的方法提出了多粒度分辨率网络，该网络结构在分块多粒度网络的基础上，增加了多分辨率的特征信息，使得模型在细节特征提取能力上得到了提高。此外，通过增加注意力机制，使模型自适应学习不同粒度的权重占比，提升多粒度分辨率网络的性能。为提高无标签数据的利用率，在源域和目标域之间的交叉域自适应训练过程中采用聚类得到目标域的多粒度“伪标签”，形成每张行人图像拥有一个主身份标识以及多个分块身份标识的多粒度标签结构，补充行人特征的部分相似性。本方法可以扩展到更多的无标签数据，且对数据的分布无约束条件。

发明内容

针对行人重识别任务细节特征提取困难、模型泛化能力弱、大量无标签数据利用率低的问题，本发明提出一种基于多粒度标签的交叉域自适应方法(CDA-MGL)用于行人重识别任务。该方法提出了一种多粒度分辨率网络，增强了模型的细节特征表达能力，能够有效地对行人的细节信息进行自动特征提取，进而，提出了一种多粒度标签的方法增强了模型的迁移能力以及模型的泛化能力。

本发明的技术方案：

一种基于多粒度标签的交叉域自适应行人重识别方法，步骤如下：

步骤1：利用Cycle-GAN分别对源域S(有标签数据)和目标域T(无标签数据)进行交叉图像增强，使源域获得目标域的风格信息，目标域获得源域的风格信息，得到数据增强的源域数据S^*(有标签数据)以及数据增强的目标域数据T^*(无标签数据)；

步骤2：利用源域数据S^*对多粒度分辨率网络(Multiple GranularitiesResolution Networks，MGRN)进行训练，损失函数为交叉熵损失(公式(1))以及三元组损失(公式(2))，得到初始模型F₀(x)，行人数据集中包含I个身份的行人以及总数为M_s张的行人图片，将行人图像x输入模型，输出向量z＝[z₁,z₂,...,z_I]∈R^I；

L_Trip＝max{d(a,p)-d(a,n)+margin,0} (2)

其中公式(1)中class为当前行人图片标签的类别标号，j＝1,2,...,C，C为类别数；公式(2)中a为锚点(Anchor)向量，p为正样本(Positive)向量，n为负样本(Negative)向量，d(a,p)表示锚点与正样本之间的距离，d(a,n)表示锚点与负样本之间的距离，margin是边界距离参数；

步骤3：在每个时间步t，将F_t-1(x)模型对目标域数据T^*中的行人图像进行推断，目标域数据T^*包含未知的行人身份数目以及M_t张的行人图片，第i张图像得到行人k个不同粒度{g₁,g₂...g_k}的细节特征向量

连接

得到行人特征向量fⁱ；计算所有M_t张图片细节特征向量，得到特征矩阵

其中m＝1,2,...,M_t；

步骤4：计算第i张行人图像的不同粒度细节特征向量

与第s张行人图像的不同粒度细节特征向量

两两之间欧式距离，得到特征距离向量

计算所有M_t张图片不同粒度细节特征向量两两之间的欧式距离，得到多粒度特征距离矩阵

计算第i张行人图像的行人特征向量fⁱ与第s张行人图像的行人特征向量f^s的欧式距离d^is，计算所有M_t张图片行人特征向量之间的欧式距离，得到行人特征距离矩阵

步骤5：依据不同粒度细节特征向量两两之间多粒度特征距离矩阵

分别对m个不同粒度的特征距离进行升序排序，并计算其前0.1％的均值得到k个与粒度对应的基于密度聚类的参数{eps₁,eps₂...eps_k}，同理对行人特征距离矩阵

进行计算得到参数{eps_main}，m＝1,2,...,M_t；

步骤6：根据密度聚类的参数{eps₁,eps₂...eps_k}对总数M_t张的目标域图像的特征矩阵

进行聚类操作，对不同粒度特征向量分别进行聚类将得到每个特征向量的标签

对行人特征向量{f¹,f²...f^m}进行聚类得到每个特征向量的标签

步骤7：分别将目标域数据T^*中的行人图片与对应的多粒度细节特征按聚类结果对其进行标记多粒度标签

表示第i张行人图片的主身份标签类别，

表示第i张行人图片粒度k的分块标签类别；标记所有M_t张目标域T^*的行人图片，得到带有“伪标签”目标域数据T⁺；

步骤8：利用已标记多粒度“伪标签”的目标域数据T⁺对多粒度分辨率网络模型进行训练得到模型F_t(x)，使用公式(3)进行损失值的计算，优化算法采用Adam梯度下降算法更新多粒度分辨率网络参数；

其中，

是对从1～k的每个粒度特征分别计算交叉熵损失，L_Trip是对主身份标签进行三元组损失计算，α是三元组损失的系数；

步骤9：重复步骤3-步骤8，直到模型在目标域数据T^*上收敛。

本发明的有益效果为：本发明设计的基于多粒度标签的方法，充分利用已标注的源域行人数据，并学习行人细节粒度特征，增强了模型的细节特征表达能力，提高了部分相似性的判断能力。利用交叉域自适应的训练过程使多粒度分辨率网络模型可扩展到更多的无标签数据，且对各数据集的分布无约束条件。实验结果表明本发明在交叉域的行人重识别任务中具有优势。

附图说明

图1是行人重识别任务示意图；

图2是Cycle-GAN图像增强示意图；

图3是基于密度的聚类方法；

图4是多粒度分辨率网络(MGRN)结构；

图5是多粒度分辨率网络的多粒度标签结构；

图6是多粒度分辨率网络中的Transition模块组成；

图7是多粒度分辨率网络中的权重模块组成；

图8是行人多粒度标签标注过程；

图9是基于多粒度标签的域自适应(CDA-MGL)训练流程图；

图10是基于多粒度标签的域自适应可视化示意图；

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

本发明提供一种基于交叉域自适应和多粒度标签的行人重识别方法。所论述的具体实施例仅用于说明本发明的实现方式，而不限制本发明的范围。下面以Market-1501和DukeMTMC-reID数据集为例，结合附图对本发明的实施方式进行详细说明，具体包括以下步骤：

1.行人重识别任务。本发明的应用不限制行人图片数据的来源。本发明将以数据集Market-1501(Zheng L,Shen L,Tian L,et al.Scalable person re-identification:Abenchmark[C]//Proceedings of the IEEE international conference on computervision.2015:1116-1124.)和DukeMTMC-reID(RISTANI E,SOLERA F,ZOU R,etal.Performance measures and a data set for multi-target,multi-camera tracking[J].Lecture Notes in Computer Science(including subseries Lecture Notes inArtificial Intelligence and Lecture Notes in Bioinformatics),2016,9914LNCS(c):17–35.)为例。Market-1501数据集包括由6个摄像头(其中5个高清摄像头和1个低清摄像头)拍摄到的1501个行人和32668个检测到的行人矩形框。每个行人至少由2个摄像头捕获到，并且在同一摄像头中具有多张图像。DukeMTMC-reID数据集由8个不同摄像机进行拍摄，行人的检测利用手工检测。训练集包含16522张行人图像，包括702个身份标识。检索库包含2228张图像，行人图库包含17661张图像。图1中左侧三张图片为待检索图片，分别在数据集中寻找相似行人图片并按照相似度进行排序，行人重识别任务要求在行人数据库中将同一人的图片正确检索并在相似度排序中靠前。

2.Cycle-GAN图像增强。Cycle-GAN是一种对抗生成网络，可以将非配对的图像进行转换，无需提供源域数据到目标域的配对转换示例。对抗生成网络包含一个生成器一个鉴别器，生成器尝试从期望分布中产生样本，鉴别器试图辨别样本是否为真实图像或生成图像。Cycle-GAN提出循环一致性的约束条件(从源域分布转换为目标域分布，然后再次转换回源域分布，可以从源分布中获取样本)。如图2所示，利用此性质可以将源域数据转换到目标域，再转换回来，生成拥有目标域分布特征和风格的图像。同理可得拥有源域风格的目标域图像，则可以分别得到数据增强的源域数据集(有标签)以及数据增强的目标域数据集(无标签)。

3.提出的多粒度分辨率网络结构。特征提取网络使用HRNet(SUN K,XIAO B,LIUD,et al.Deep high-resolution representation learning for human poseestimation[J].Proceedings of the IEEE Computer Society Conference on ComputerVision and Pattern Recognition,2019,2019-June:5686–5696.)作为基干网络，如图4所示。HRNet输出的最高分辨率分支与次高分辨率分支合并，得到的三条分支由上至下分别为分支1，分支2，分支3，每条分支首先由不共享参数的Bottleneck残差模块衔接，末端接入全局池化层进行分块，分支1～3分别分块为3块、2块、2块，同时每条分支均设置全局特征的旁路。对3条全局特征分支以及7条局部多粒度分块分支后接入transition模块，将分支1～3最终输出的特征向量的通道维度分别降为{256,256,256,256},{256,128,128},{256,128,128}维。与transition模块并列的引入基于注意力机制的权重模块，权重模块如图7所示，首先对输入的特征图C×H×W进行全局平均值池化得到C×1×1，再利用全连接层根据缩减倍数降低通道数至C/reduction并接ReLU激活函数，reduction参数设置为8，最终再次使用全连接层最终通过Sigmoid激活函数输出1个权重数值，代表此粒度分块特征向量的质量，与对应块的特征向量相乘得到最终的行人粒度特征向量。多粒度分辨率网络输出三条主要分支，共3个全局特征和7个局部特征：分支1包含1个256维全局特征，3个256维高分辨率细粒度局部特征；分支2包含1个256维全局特征，2个128维中分辨率中粒度局部特征；分支3包含1个256维全局特征，2个128维低分辨率粗粒度局部特征。总计3×256+3×256+2×128+2×128＝2048的行人特征向量。

4.利用有标签源域数据训练多粒度分辨率特征提取网络。在初始t₀时刻，将源域行人图像按标签进行分组，每次输入随机采样16个行人标签，每个行人标签随机采样4张行人图片输入图4特征提取网络中，经过多粒度分辨率网络计算最终输出{256,256,256,256}，{256,128,128}，{256,128,128}维特征向量，将其连接得到2048维特征向量作为行人特征向量。损失值根据公式(4)进行求和运算，使用Adam优化器进行多粒度分辨率网络的参数更新，学习率从0.0002递减到0.00002。训练网络至损失函数收敛得到初始模型F₀(x)。

其中x是输入图像，class是当前图片行人的身份标签，

是对7条局部特征进行交叉熵损失计算并求和，

是3条全局特征进行三元组损失计算并求和。

5.目标域数据多粒度标注。目标域包含M张行人图像，在时刻t时，以分支1的全局特征为例，F_t-1(x)输出M个256维特征向量作为聚类输入，计算其两两欧式距离并升序排序，如图8所示计算前0.01～0.015％距离的均值作为密度聚类DBSCAN的参数∈₁-邻域(图3)，设置参数MinPts为4，聚类输出N₁个标签。(∈-邻域：对x_j∈D，其∈-邻域包含样本集D中与x_j的距离不大于∈的样本，MinPts可以确保聚类的类别至少有MinPts个样本)。如图5所示，分别对分支2，分支3的局部特征进行连接，包括全局特征向量一共6组256维的特征，按上述方法可以计算得到参数∈_n，n＝1,2,...,6，利用聚类运算得到N₁～N₆个多粒度标签，作为行人的分块身份标签。F_t-1(x)输出的特征向量连接为M个2048维行人特征向量，计算其两两欧式距离并升序排序，计算前0.1～0.15％距离的均值作为密度聚类DBSCAN的参数∈_main-邻域，聚类输出N₀个标签，作为行人主身份标签。此时的任意一张目标域行人图像均拥有1个主身份标签L₀，L₀∈[1,N₀]，以及6个部分身份标签L₁～L₆的多粒度标签结构，L_n∈[1,N_n]，n＝1,2,...,6。此时得到多粒度“伪标签”的目标域数据。

6.域自适应网络训练过程。在时刻t时，F_t-1(x)模型的局部特征分支后加入全连接层，全连接层的输出通道数由多粒度标签N_i,i＝1,2,...6决定。利用多粒度“伪标签”目标域数据，将行人图像按主标签进行分组，每次输入随机采样16个行人标签，每个行人标签随机采样4张行人图片输入模型F_t-1(x)，对于每张图像F_t-1(x)输出{256,256,256,256}，{256,128,128}，{256,128,128}不同粒度特征向量，分别对分支1,2,3的局部特征进行连接，得到{256,768,256,256,256,256}维部分行人特征向量，对所有部分行人特征向量合并得到2048维行人特征向量。使用公式(5)进行损失值的计算，使用Adam优化器进行多粒度分辨率网络的参数更新，学习率从0.0002递减到0.00002。训练网络至网络收敛得到t时刻模型F_t(x)，F_t(x)用以对下一次训练迭代的目标域数据多粒度标注。循环此网络训练过程，可以使F_t(x)模型在t不断变大过程中趋于收敛，拟合学习到目标域的数据分布，完成模型训练。

其中x是输入图像，mgl是当前图片行人的多粒度身份标签，

是6个部分身份标签进行交叉熵损失计算并求和，L_Trip是主身份标签三元组损失。