CN116311345A

CN116311345A - 一种基于Transformer的遮挡行人重识别方法

Info

Publication number: CN116311345A
Application number: CN202211738758.6A
Authority: CN
Inventors: 杨真真; 陈亚楠; 杨永鹏; 陈亚杰; 蔡云峰
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-06-23

Abstract

本发明公开了一种基于Transformer的遮挡行人重识别方法，包括以下步骤：(1)对待识别图像进行分块，并分别添加结构信息，构成图像序列，(2)把带有类标签的图像序列附加位置信息以及边信息，构造Transformer层可处理的图像序列；(3)将上述序列馈入由多头自注意力机制和多层感知机构成的残差Transformer层，进行图像特征提取；之后在最后一层残差Transformer层将特征分为全局分支和局部分支特征；(4)将得到的特征使用ID损失和质心三元组损失进行联合优化。本发明有效聚焦于显著性特征，使特征具有鲁棒性，对于行人重识别遮挡问题进行了有效处理。

Description

一种基于Transformer的遮挡行人重识别方法

技术领域

本发明涉及遮挡行人的重识别方法，属于图像监控识别技术领域。

背景技术

行人重识别旨在解决在一组不重叠的分布式摄像机上匹配人员的问题。它在智能监控方面具有很大的应用价值。早期的研究大都基于封闭世界进行，然而随着实际生活的需要，研究方向逐渐转向开放世界中具有挑战性的问题。与封闭世界的整体行人重识别相比，开放世界中的遮挡行人重识别的主要挑战是两个方面：首先，遮挡区域通常包含噪声，导致不匹配。其次，遮挡区域可能具有与人体部位相似的特征，导致特征学习失败。实践中的这些挑战激发了大量研究工作，来探索遮挡的行人重识别问题，现有的研究方法可分为手工分割、姿态信息和Transformer三类。

手工分割的方法将图像或特征图分割成图像块或条纹，然后从局部图像块或条纹中提取部分特征，用于图像匹配。SCPNet(Spatial-Channel Parallelism Network，空间通道并行网络)，联合全局和局部分支获得身体特征。全局分支采用全局平均集合法获得全局特征，局部分支将特征图自上而下分成多个块，每个块采用水平集合法获得局部特征。为了匹配一对不同尺寸的个人图像，一种称为DSR(Deep Spatial feature Reconstruction，深度空间特征重构)的方法被提出，以避免显式对齐。其中，DSR利用滑动窗口来提取多尺度图像块，以此缓解图像尺度不匹配的影响。为避免背景杂波的影响，提出了一种对遮挡敏感的无对齐方法，即FPR(Foreground-aware Pyramid Reconstruction，前景感知金字塔重建)，其可以利用四个大小不同的卷积核进行池化得到特征，这是一种新颖的端到端空间金字塔特征学习架构。借助FPR的相似性度量，即使存在严重遮挡的情况下，无需事先进行对准就可准确地进行行人识别。然而，基于手工分割处理的图像太粗糙，并在分割过程中引入大量背景噪声，无法进行良好匹配。

基于姿态信息的方法，通过用可见的近邻来补偿被遮挡行人图像不可见的身体区域，解决了部分身体信息存在遮挡的问题。借助经过训练的人类语义信息或身体关键点网络，这些方法可以将信息从可见节点转移到不可见节点，很大程度上缓解了遮挡区域的影响。PVPM(Pose-guided Visible Part Matching，基于姿势引导的可见部分匹配方法)，该方法在端到端的框架中，借助姿态引导的注意力学习辨别性特征，并对部分可见性特征进行自我挖掘。FGFA(Pose Guided Feature Alignment，位姿导向特征对齐)使用人体关键点坐标来生成注意力图，同时利用姿态信息来表示哪些局部特征属于目标行人，以解决遮挡噪声，在特征匹配过程中，只有可见的区域会被用于计算相似度距离。但是，因为对关键点的结构关系研究不够深入，难以识别出一些不合理的匹配结果。此外无论是现成的语义信息模型还是姿态估计模型，其训练数据集均与行人重识别数据集存在差异，进而产生辅助网络跨域问题，使此类方法难以获得高效模型。

Transformer在计算机视觉的应用中已经证明了它的优越性能，随着研究的深入，基于Transformer的方法在行人重识别领域也开始大放异彩。马等人提出了一种基于Transformer的PFD(Pose-guided Feature Disentangling,姿势引导特征分解)方法，利用ViT(Vision Transformer,视觉Transformer)捕捉全局特征的强大能力提取图像特征。PFD在被遮挡的行人重识别领域表现出了优异的性能。然而，基于Transformer的方法其关键结构多头注意力在计算中产生了二次复杂性，需要许多计算资源。

发明内容

本发明所要解决的技术问题在于：提出一种基于Transformer的遮挡行人重识别方法，解决现有技术中在计算时复杂性高，计算资源量大的问题。

为了解决以上技术问题，本发明提供如下技术方案：

一种基于Transformer的遮挡行人重识别方法，包括如下步骤：

S1、对待识别图像进行分块，并分别添加结构信息，构成图像序列；

S2、将图像序列输入至由多头自注意力机制和多层感知机构成的残差Transformer层，获得初级图像特征；

S3、将初级特征分别输入至全局注意力模块、局部shuffle模块，对应得到全局分支特征、局部分支特征；

S4、基于全局分支特征、局部分支特征，结合质心三元组损失函数和整体损失函数进行优化，获得行人图像显著特征。

进一步的，本发明所提出的一种基于Transformer的遮挡行人重识别方法，步骤S1包括如下子步骤：

S1.1、采用滑动窗口的方式对待识别图像进行分块，获得各个图像块；

S1.2、将各个图像块输入至线性投影层，之后对输出的图像序列前端添加可学习的类标签；

S1.3、将添加类标签的图像添加位置信息和边信息，构成图像序列如下式：

其中，Z₀是附加结构信息后的整体输出序列，X_cls是可学习类标签，F(·)是线性投影函数，

是第i个分割后的图像块，i＝1,2,…G，G是输入图像划分为图像块的数量，[·；·]是对图像序列执行拼接操作，P是对应图像块的位置嵌入，S是边信息，即图像的摄像头ID信息。

进一步的，本发明所提出的一种基于Transformer的遮挡行人重识别方法，步骤S2包括如下子步骤：

S2.1、按如下公式对图像序列进行归一化处理，并经过多头注意力模块提取特征：F_Att＝Z₀+Att(Norm(Z₀))

其中，F_Att是经过多头自注意力机制后的特征输出，Z₀作为此部分的系统输入，Norm是层归一化函数，Att是多头自注意力模块；

S2.2、将多头注意力模块输出的特征输入带有残差和池化层的多层感知机F_RPMLP，如下式：

F_RPMLP＝Pool(X+FC(σ(Drop(FC(Drop(X))))))

其中，Pool是自适应最大池化层，X作为此部分的系统输入，FC是全连接层，σ是Relu激活函数，Drop是Dropout函数；

S2.3、对多头注意力模块提取特征、以及多层感知机提取的特征进行残差处理，获得初级图像特征如下式：

F_Res＝F_Att+F_RPMLP(Norm(F_Att))

其中，F_Res表示残差Transformer层最后的整体输出。

进一步的，本发明所提出的一种基于Transformer的遮挡行人重识别方法，步骤S3中，将初级特征输入至全局注意力模块后，输出全局分支特征如下式：

其中，Affine是全局注意力模块中的仿射变换，其表达式为：

Affine(λ)＝Diag(λ)+δ，λ作为此变换的系统输入，Diag是构造对角矩阵的函数，δ是可学习的权重向量；全局注意力模块中的仿射变换F_g为输出的全局特征，soft是归一化函数，Pool是自适应最大池化层，

是输入的图像特征，N是图像中的像素数，d是特征维数，/>

和/>

是两个可学习的线性层，S是可学习线性层每次处理的元素数量。

进一步的，本发明所提出的一种基于Transformer的遮挡行人重识别方法，步骤S3中，将初级特征输入至局部shuffle模块后，输出局部分支特征包括如下子步骤：

S3.1、将图像序列前m个图像块的特征移动到序列尾端,最后一层残差Transformer层输出的特征可如下式：

其中，

表示最后一层残差Transformer层输出的特征序列，/>

表示第l层即最后一层残差Transformer中第i个图像块的特征，j＝1,2,…G，G是输入图像划分为图像块的数量，[,·,]指对特征进行拼接操作；

S3.2、将步骤S3.1的序列分成N组即为局部分支最后输出，如下式：

其中，F_l表示局部分支最后输出特征。

进一步的，本发明所提出的一种基于Transformer的遮挡行人重识别方法，步骤S4中，质心三元组损失函数如下式：

其中，L_CT表示质心三元组损失，f(A)是锚点图片数据，C_P是正样本类质心，C_N是负样本类质心，||.||₂是欧几里得归一化，γ是超参数，当[·]₊内数据大于零时，取该值为计算结果，若小于零，则输出为零。

进一步的，本发明所提出的一种基于Transformer的遮挡行人重识别方法，步骤S4中，整体损失函数如下式：

其中，L表示系统整体损失函数，α和β是超参数，L_ID是没有标签平滑的交叉熵损失，L_CT表示质心三元组损失，F_g为全局分支特征表示，F_l ^j表示第j个局部特征表示，N是图像序列的分组数。

相较于现有技术，本发明的有益效果如下：

本发明采用的全局注意力可以捕获图像中信息量最大的部分，并排除其他干扰信息，有效聚焦于显著性特征，同时可使特征具有鲁棒性。此外在Transformer层采用简单的残差连接，避免了多次迭代产生的过拟合现象。同时本发明采用ID损失和改进的质心三元组损失联合对模型进行优化，不仅减少了检索时间，同时提高了系统鲁棒性。因此，本发明在行人重识别上，特别是对于遮挡问题进行了有效处理，无论是Rank-1还是mAP，与先进的算法相比都体现出了良好性能。

附图说明

图1是本发明的流程图。

图2是本发明的网络整体架构图。

图3是本发明提出的残差Transformer层网络结构图。

图4是本发明提出的全局注意力网络结构图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

在本发明中参照附图来描述本发明的各方面，附图中示出了许多说明性实施例。本发明的实施例不局限于附图所述。应当理解，本发明通过上面介绍的多种构思和实施例，以及下面详细描述的构思和实施方式中的任意一种来实现，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

如图1本发明的流程图所示，一种基于Transformer的遮挡行人重识别方法，包括如下步骤：第一步采用滑动窗口设置对输入图像进行分块，并将图像块依次输入线性投影层，对输出图像序列前端添加一个可学习的类标签X_cls，接着把带有类标签的图像序列附加位置信息以及边信息(摄像头ID信息)，构造Transformer可处理的图像序列；第二步将上述序列馈入由多头自注意力机制和多层感知机构成的残差Transformer层，进行图像特征提取；第三步在最后一层残差Transformer层将特征分为全局分支和局部分支，全局分支引入全局注意力，探索遮挡行人图像显著性和鲁棒性特征，局部分支对图像块进行shuffle操作；第四步是将得到的特征使用ID损失和质心三元组损失进行联合优化，二者设置不同权重，以实现更优异性能。

如图2所示，本发明的网络结构框架图，具体如下：

步骤S1、对于待识别图像，为避免丢失图像块周围的局部邻近结构，采用滑动窗口设置对输入图像分块，接着将图像序列展平，在图像序列前端添加一个可学习的类标签X_cls，类标签可通过训练不断迭代更新，进一步聚合图像信息。同时添加位置信息以及摄像头ID信息，丰富图像结构信息。因此构造的Transformer可处理的图像整体序列可表示为：

是第i个分割后的图像块，G是输入图像划分为图像块的数量，[·；·]是对图像序列执行拼接操作，P是对应图像块的位置嵌入，S是边信息，即图像的摄像头ID信息。

步骤S2、将图像序列输入至如图3所示的残差Transformer层网络中，获得初级图像特征，该网络由多头自注意力机制和多层感知机构成。

S2.1、按如下公式对图像序列进行归一化处理，并经过多头注意力模块提取特征：

F_Att＝Z₀+Att(Norm(Z₀))，

S2.2、为避免过拟合现象，引入残差处理的方法，人为地让神经网络某些层跳过下一层神经元的连接，弱化每层之间的强联系，从而捕获更多特征。此外在结构尾端引入池化层，通过池化后，使得网络不能过于依赖某些特征从而进一步减缓过拟合的效果。此时经残差和池化层后，将多头注意力模块输出的特征输入带有残差和池化层的多层感知机F_RPMLP，如下式：

F_RPMLP＝Pool(X+FC(σ(Drop(FC(Drop(X))))))

F_Res＝F_Att+F_RPMLP(Norm(F_Att))

其中，F_Res表示残差Transformer层最后的整体输出。

在全局注意力模块中，用输入特征和一个可学习的线性层L_K进行点乘，L_K与输入无关，可作为数据集的存储单元，通过训练，不断更新其中的参数。可学习的线性层可以学习整个图像中最具辨别力的特征，捕获信息量最大的部分，并排除来自其他样本的干扰信息。通过点乘得到的注意力图具有从图像中学习的先验知识。接着与另一个可学习参数进行计算，并整体经过一个自适应池化层，去除冗余信息，保留最重要特征，同时保持图像特征的尺度不变性。

如图4所示，将初级特征输入至全局注意力模块后，输出全局分支特征如下式：

其中，Affine是全局注意力模块中的仿射变换，其表达式为：Affine(λ)＝Diag(λ)+δ，λ作为此变换的系统输入，Diag是构造对角矩阵的函数，δ是可学习的权重向量；全局注意力模块中的仿射变换F_g为输出的全局特征，soft是归一化函数，Pool是自适应最大池化层，

是输入的图像特征，N是图像中的像素数，d是特征维数，/>

和/>

对于将初级特征输入至局部shuffle模块后，输出局部分支特征，具体为：

(1)、最后一层残差Transformer层输出的特征序列可表示为：

其中

表示第l层即最后一层残差Transformer中第i个图像块的特征，G是输入图像划分为图像块的数量，[,·,]指对特征进行拼接操作；

(2)、图像序列前m个图像块移动到序列尾端可表示为：

(3)、上述序列分成N组即为局部分支最后输出：

其中F_l表示局部分支最后输出特征。

(1)、在训练和检索过程中引入平均质心表示正样本和负样本。这样的聚合表示对异常值更具鲁棒性，并确保更稳定的特征。此外，由于每个类都由一个单一的嵌入表示，因此检索时间和存储需求都大大减少。质心三元组损失可表示为：

其中L_CT表示质心三元组损失，f(A)是锚点图片数据，C_P是正样本类质心，C_N是负样本类质心，||.||₂是欧几里得归一化，γ是超参数，当[·]₊内数据大于零时，取该值为计算结果，若小于零，则输出为零；

(2)、整体优化损失可表示为：

其中L表示系统整体损失函数，α和β是超参数，L_ID是没有标签平滑的交叉熵损失，L_CT表示质心三元组损失，F_g为全局分支特征表示，F_l ^j表示第j个局部特征表示，N是图像序列的分组数。

为了定量对提出的遮挡行人重识别的方法进行分析，我们将提出的方法与最先进的方法在两个遮挡数据集进行比较。同时为体现模型的普适性，我们在两个完整的数据集上也与先进的方法进行了比较。采用标准的评价指标，Rank-1和平均精度(mAP)以评估不同行人重识别方法的质量。

对于遮挡的数据集，进行比较的方法包括早期的基于手工分割的方法；具有额外线索的方法，例如：姿态信息，伪标签等；同时还有在行人重识别领域具有优异表现的基于Transformer的方法，各方法的性能如表1所示。

表1在Occluded-Duke和Occluded-ReID上各方法的性能比较

注：最后一行为本发明提出的方法，粗体表示最佳性能，“-”表示此方法未在该数据集上进行实验。

综合表1中数据分析，相比于手工分割的方法(PCB、DSR、MoS、QPM)，我们引入的全局注意力机制可以捕捉图像的显著性信息，可有效区分遮挡部分，和目标人物的身体信息，这些特征对于匹配的准确性都是有益的。对含有额外线索的方法而言(PVPM、PGFA、HoReID、ISP)，我们的RFMT比ISP在Occluded-Duke数据集上超过了+6.2％的Rank-1精度和+8.3％的mAP，这是因为ISP的性能严重依赖于现成的姿态估计模型的准确性，受辅助网络影响较大，而我们的方法可以在有遮挡情况下，无需辅助网络，基于Transformer的强大功能和引入的全局注意力，更准确的聚焦于人体部位信息。同时，一些基于Transformer的方法(TransReID、PAT、Pirt、DRL-Net、PFD)等方法在遮挡数据集上的优秀表现，证明了Transformer在处理遮挡行人重识别问题上的有效性。我们的方法依赖Transformer为主要特征处理方式，采用残差的方式防止训练过程中产生过拟合现象，同时使用线性注意力对特征进行进一步处理，在不增加大量复杂度前提下获得良好表现。

对于完整的数据集，进行比较的方法包括基于手工分割的方法(PCB、MGN、VPM、BOT)；具有额外语义信息的方法(PGFA、HOReID、ISP、SPReID)；以及基于注意力的方法(OAMN、PAT、NFormer、PFD)，各方法的性能如表2所示。

表2在Market-1501和DukeMTMC-ReID上各方法的性能比较

注：最后一行为本发明提出的方法，粗体表示最佳性能。

综合表2中数据分析，从结果中，我们可以看到所提出的RFMT在两个完整数据集上都达到了最先进的性能。基于手工制作的方法分割粗糙，无法很好地对齐人体部分；而基于语义的方法存在辅助网络，使其性能过于依赖外部网络；基于注意力的方法，只关注图像的显著特征，但失去了图像上各位置的相关性。不同于以上方法，首先我们的方法无需辅助网络引导，其次以视觉Transformer为主干网络，可建立图像块之间的远距离相关性。可以看出，虽然我们的方法不是为完整行人重识别任务设计的，但它仍然可以获得竞争性的结果，这反映了我们所提出的方法的鲁棒性以及可适应性。

综上，可以确定本发明提出的方法无论是在遮挡行人重识别领域，还是从完整的行人重识别领域，Rank-1和平均精度都好于其他模型得出的处理结果，而且基于Transformer的方法在行人重识别问题的研究上更具有鲁棒性。

虽然本发明已以较佳实施例阐述如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。