CN113901922A

CN113901922A - 一种基于隐式表征解耦网络的遮挡行人重识别方法及系统

Info

Publication number: CN113901922A
Application number: CN202111180384.6A
Authority: CN
Inventors: 张健; 贾梦溪; 程鑫华
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2021-10-11
Filing date: 2021-10-11
Publication date: 2022-01-07

Abstract

一种基于隐式表征解耦网络的遮挡行人重识别方法，包括：进行行人图片输入、遮挡样本增强，以及行人图片的预处理；行人特征提取和解耦：用卷积神经网络提取行人图像的紧凑全局特征，并使用Transformer在语义偏好对象查询的引导下，对输入的行人特征解耦，得到行人ID相关特征和ID无关特征；对比特征学习：对行人ID相关的特征与ID无关特征进行相反的判别性约束，将遮挡物及背景噪声从行人特征中分离出来，抑制遮挡对行人匹配的干扰；行人图像检索，使用行人ID相关特征计算查询图像和图像库中图像之间的相似度矩阵并排序，输出排序结果。本发明方法可以自动解耦出行人语义特征同时消除遮挡噪声干扰，在遮挡场景下实现鲁棒的行人特征提取和匹配。

Description

一种基于隐式表征解耦网络的遮挡行人重识别方法及系统

技术领域

本发明涉及数字图像处理领域，尤其涉及一种基于隐式表征解耦网络的遮挡行人重识别方法及系统。

背景技术

行人重识别(PersonRe-identification)是在图片或者视频序列中搜索与查询与目标相匹配的行人的技术。具体来说，给定一个特定行人的监控图像作为查询目标，行人重识别系统需要在海量监控行人图像中搜索跨摄像头拍摄的同一个人的其他图像。随着城市的快速发展和交通摄像网络的完善，行人重识别技术在城市管理与公共安防方面有着巨大的应用前景。在真实的监控场景中，行人图片经常被障碍物遮挡，这给行人匹配造成了严重困难，因此开展精准的带遮挡的行人重识别算法研究具有十分重要的现实意义。

遮挡行人重识别算法主要面临的挑战是遮挡物和背景的干扰和行人身体部位的空间错位。现有带遮挡行人重识别算法大致可以分成两类。第一类方法利用基于不同数据源预训练的外部模型，例如人体的前景分割模型，人体语义解析模型，人体姿态估计模型，对行人图片预处理，产生额外的人体部件标注来区分人体各个部件和遮挡物，精确匹配行人的可见身体部分。这类方法依赖于外部模型提供的监督信息，这些监督信息对遮挡和背景噪声敏感且容易出错，并且生成标签时需要消耗大量时间。第二类方法基于局部图像的相似性对行人身体部分进行对齐然后进行相似度度量。这种方法基于严格且繁琐的行人部位对齐，具有较高的时间复杂度，而且它们不能处理严重的遮挡情况。

发明内容

针对现有的方法需要严格且繁琐耗时的行人身体部件对齐的不足，本发明提供了一种基于隐式表征解耦网络的遮挡行人重识别方法及系统，利用深度自注意力变换网络(Transformer)架构和对比特征学习技术，通过对被遮挡行人图像的局部特征进行全局推理，自动地解耦出具有不同语义的行人部件特征，同时分离遮挡特征和目标行人的特征可实现带遮挡的行人重识别，克服了现有方法需要严格且繁琐耗时的行人身体部件对齐的不足，解决了遮挡物对行人特征提取的干扰的问题。

本发明的技术方案如下：

根据本发明的一个方面，提供了一种基于隐式表征解耦网络的遮挡行人重识别方法，包括以下步骤：S1.进行行人图片输入、遮挡样本增强以及行人图片的预处理；S2.行人特征提取和解耦：用卷积神经网络提取行人图像的紧凑的行人全局特征，并使用深度自注意力变换网络(Transformer)在语义偏好对象查询的引导下，对输入的行人特征解耦，得到行人ID相关特征和ID无关特征；S3.对比特征学习：对行人ID相关特征与ID无关特征进行相反的判别性约束，将遮挡物及背景噪声从行人特征中分离出来，抑制遮挡对行人匹配的干扰；以及S4.行人图像检索：使用行人ID相关特征计算查询图像和图像库中图像之间的相似度矩阵并排序，输出排序结果。

优选地，在上述基于隐式表征解耦网络的遮挡行人重识别方法中，步骤S1包括以下子步骤：D1.遮挡数据的采样及合成：从训练集中选取出一部分遮挡物，构造一个遮挡物集合；以及D2.对输入网络的图片数据进行预处理，预处理包括尺度归一化以及随机水平翻转、随机裁剪和随机擦除。

优选地，在上述基于隐式表征解耦网络的遮挡行人重识别方法中，在子步骤D1中，在训练阶段，使用遮挡物集合对每个批次训练数进行随机遮挡数据增强，遮挡增强数据和原始数据一起作为当前批次的网络输入。

优选地，在上述基于隐式表征解耦网络的遮挡行人重识别方法中，步骤S2包括以下子步骤：D3.将预处理好的图片输入卷积神经网络，提取出紧凑的行人全局特征，然后将紧凑的行人全局特征拉平成一维序列并辅以可学习的位置编码，输入到深度自注意力变换网络(Transformer)的编码器和解码器中；以及D4.深度自注意力变换网络(Transformer)的解码器在可学习的语义对象查询的引导下，对输入的行人特征解耦，得到行人ID相关特征和ID无关特征。

优选地，在上述基于隐式表征解耦网络的遮挡行人重识别方法中，步骤S3还包括以下子步骤：D5.利用语义偏好对比特征学习方法，对行ID相关特征与ID无关特征进行相反的判别性约束，将遮挡物及背景噪声从行人特征中分离出来，抑制了遮挡对行人匹配的干扰；以及D6.在模型的训练过程中，使用交叉熵损失和三元组对比损失对提取出的行人ID相关特征进行约束，使用反向三元组对比损失对行人ID无关特征进行约束。

优选地，在上述基于隐式表征解耦网络的遮挡行人重识别方法中，在步骤S4中，使用模型输出的行人ID相关特征进行行人图像检索，在测试阶段，计算查询图像和图像库中图像特征之间的相似度矩阵，并根据行人重识别评价指标计算得到累积匹配特征曲线(CMC)和平均精度(mAP)。

根据本发明的另一个方面，提供了一种基于隐式表征解耦网络的遮挡行人重识别系统，其包括遮挡样本增强(OSA)模块、行人特征的提取和语义解耦模块以及语义偏好引导对比特征学习模块，其中遮挡样本增强(OSA)模块，用于处理数据以增强每批训练数据中遮挡样本的多样性；行人特征的提取和语义解耦模块，用于首先将预处理好的图片输入卷积神经网络，提取出紧凑的行人全局特征，然后将紧凑的行人全局特征拉平成一维序列并辅以可学习的位置编码，将得到的行人图片拉平的特征并铺以位置编码输入到深度自注意力变换网络(Transformer)中，然后深度自注意力变换网络(Transformer)的解码器在可学习的语义对象查询的引导下，对输入的行人特征解耦，得到行人ID相关特征和ID无关特征；以及语义偏好引导对比特征学习模块，用于行人ID相关特征和ID无关特征进行相反的判别性约束，将遮挡物及背景噪声从行人特征中分离出来，抑制了遮挡对行人匹配的干扰。

根据本发明的技术方案，产生的有益效果是:

本发明提出了一种表征解耦网络用于行人重识别及系统，可以自动解耦出行人语义特征同时消除遮挡噪声干扰，在遮挡场景下实现鲁棒的行人特征提取和匹配；本发明使用基于深度自注意力变换网络(Transformer)的隐式表征学习网络，不需要额外的语义监督信息和复杂的语义预对齐过程解决带遮挡行人重识别问题；并且本发明方法针对隐式表征解耦网络(DRL-Net)设计了一种对比度特征学习技术和相对应的数据增强策略，有效地减轻了行人重识别任务中遮挡及噪声的干扰。

为了更好地理解和说明本发明的构思、工作原理和发明效果，下面结合附图，通过具体实施例，对本发明进行详细说明如下：

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明的基于隐式表征解耦网络的遮挡行人重识别方法的流程图；以及

图2是本发明的基于隐式表征解耦网络的遮挡行人重识别系统的模型框架图。

具体实施方式

为使本发明的目的、技术方法及优点更加清晰，下面结合附图及具体实例，对本发明做进一步的详细说明。这些实例仅仅是说明性的，而并非对本发明的限制。

如图1所示，本发明的基于隐式表征解耦网络的遮挡行人重识别方法，包括以下步骤：

S1.进行行人图片输入及遮挡样本增强，以及行人图片的预处理，包括子步骤D1和D2。其中，

D1.遮挡数据的采样及合成：从训练集中选取出一部分遮挡物，构造一个遮挡物集合。在训练阶段，使用遮挡物集合对每个批次训练数进行随机遮挡数据增强，遮挡增强数据和原始数据一起作为当前批次的网络输入。

为了增强每批训练数据中遮挡样本的多样性，采用提出的遮挡样本增强(OSA)的方法处理数据。其中，遮挡样本增强(OSA)的方法，包括：

1.1在训练开始前，先从训练集x_train中选取遮挡物，构成遮挡物集x_abstacle；

1.2在训练阶段，每个训练批次

从训练集x_train中选取P不同ID的行人，每个行人选取M个图片样本，同时随机从遮挡物集合中选取k个遮挡物[o₁，...，o_k|∈x_abstacle；

1.3用原始训练数据和遮挡物合成遮挡增强数据，遮挡增强数据和原始数据一起作为当前批次的网络输入。具体地，对于每个训练批次内的标签为y_i图像样本

用选取的k个遮挡物合成遮挡增强数据[x_i，1，...，x_i，k]，并且与原始图像共享同一个标签y_i，遮挡增强数据和原始数据一起作为当前批次的网络输入。

D2.对输入网络的图片数据(即行人图片)进行预处理，包括尺度归一化以及随机水平翻转，随机裁剪和随机擦除等数据增强方法。

S2.行人特征提取和解耦，用卷积神经网络提取行人图像的紧凑的行人全局特征，并使用Transformer在语义偏好对象查询的引导下，对输入的行人特征解耦，得到行人ID相关特征和ID无关特征。包括子步骤D3和D4。其中，

D3.将预处理好的图片输入卷积神经网络，提取出紧凑的行人全局特征，然后将紧凑的行人全局特征拉平成一维序列并辅以可学习的位置编码，输入到Transformer的编码器和解码器中。

在D3中，采用的特征提取器包含一个卷积神经网络和Transformer编码器-解码器层，卷积神经网络，用来提取紧凑的行人全局特征，然后使用Transformer对人体特征解耦，生成不同的语义组件的特征。

其中，卷积神经网络是ResNet-50残差网络，Transformer网络架构采用与DETR^[1]相同的标准结构，同时去掉DETR中的预测类标签和边界框的预测头，即去掉Transformer的预测头。编码层、解码器层和多头注意力的数量分别设置为2、2、8，并采用可学习的位置编码。

其中，用卷积神经网络提取紧凑的行人全局特征的具体操作为：对于一个输入的行人图像x，卷积神经网络(ResNet-50)提取出特征图f＝CNN(x)∈R^C×H×W，C，H，W分别表示特征图的通道尺寸、高度和宽度，特征图通过非线性的激活函数Sigmoidσ(·)得到a＝σ(f)∈R^C×H×W，并采用一个1×1的卷积降维变成d维；将特征图沿最后两个空间维度展平，最后得到的g∈R^d×HW。

D4.Transformer的解码器在可学习的语义对象查询的引导下，对输入的行人特征解耦，得到行人ID相关特征和ID无关特征。

在D4中，Transformer的编码器-解码器层遵循标准的结构^[1]，其中，使用Transformer对人体特征解耦，具体为：采用可学习位置编码对空间信息进行编码，并将位置编码和卷积神经网络提取出的特征g一起添加到每个编码器注意层的输入；为了产生语义组件的特征，定义一组语义偏好对象查询

这是一组可学习的解码层的输入嵌入，有N_q-1个人体语义对象查询和1个遮挡语义查询；语义偏好对象查询

被添加到解码器的注意层的输入中，并引导解码器将输入的行人图片特征解耦得到相应的语义部件的特征

其中N_q-1个人体相关语义部件的特征拼接成ID相关特征

1个利用遮挡语义查询引导生成的ID无关特征

为了在没有外部监督的情况下使Transformer解耦不同语义部件的特征，提出一种对象查询去相关约束，使对象查询彼此正交，促使对象查询具有不同的语义偏好。给出对象查询集

对象查询去相关约束损失的计算公式如下：

其中abs(·)表示绝对值函数，<·，·>表示内积，||·||表示取模长，α是去相关约束损失的惩罚因子，q_m和q_n表示上文提到的不同的语义偏好对象查询。

S3.对比特征学习：对行人ID相关特征和ID无关特征进行相反的判别性约束，将遮挡物及背景噪声从行人特征中分离出来，抑制遮挡对行人匹配的干扰，包括子步骤D5和D6。

D5.利用语义偏好对比特征学习方法，对ID相关的特征与ID无关特征进行相反的判别性约束，将遮挡物及背景噪声从行人特征中分离出来，抑制了遮挡对行人匹配的干扰。

在D5中，提出的语义偏好引导对比特征学习，期望模型可以无监督的分离遮挡特征和行人ID特征，消除遮挡噪声对行人重识别的干扰。

语义偏好引导对比特征学习具体为：对于给定的一个行人图片x_n，利用子步骤D1所提出的遮挡样本增强(OSA)的方法可以构造出x_n的对比三元组，包括x_n本身作为锚点(anchor)，一个具有相同ID但不同遮挡物的行人图片的作为正样本，一个具有不同ID但相同障碍的行人图片作为负样本，对于锚点图像x_n的ID相关特征f_n，以及与x_n相同/不同ID的行人图片的ID相关特征f_n+/f_n-，采用对比三元组损失对其进行判别性约束；其中用于ID相关特征约束的对比三元组损失表示为：

其中f_n是锚点图像x_n的ID相关特征，f_n+/f_n-分别表示与x_n相同/不同ID的行人图片的ID相关特征，

是计算特征距离的函数，δ是一个边界参数。

对于锚点图像x_n的ID无关特征

以及与x_n不同/相同遮挡物的行人图片的ID无关特征

采用所提的反向对比三元组损失对其进行相反的判别性约束即提出一种反向对比三元组损失用于ID无关特征约束，使ID无关特征聚焦于遮挡和噪声。对于同样的锚点(anchor)图像x_n，反向对比三元组损失的正样本和负样本与三元组损失的相反，正样本为不同ID但相同障碍的行人图片，负样本为相同ID但不同遮挡物的行人图片。用于ID无关特征约束的反向对比三元组损失表示为：

其中

是锚点图像x_n的ID无关特征，

分别表示与x_n不同/相同遮挡物的行人图片的ID无关特征，

是计算特征距离的函数，δ是一个边界参数。

D6.在模型的训练过程中，使用常用的交叉熵损失和三元组对比损失对模型提取出的行人ID相关特征进行约束，使用提出的反向三元组对比损失对行人ID无关特征进行约束。

在步骤D6中，对采用的交叉熵损失使用标签平滑策略，防止模型对分类训练集ID过拟合，标签平滑的交叉熵损失公式表达为：

其中N是训练样本数量，M是训练集的行人ID数，

是特征f_n的属于IDm的预测概率，y_n是f_n的标签，q_m是关于标签y_n的一个平滑标签，∈是一个小常量。

最终模型的总损失函数定义为：

S4.行人图像检索，使用行人ID相关特征计算查询图像和图像库中图像之间的相似度矩阵并排序，输出排序结果。包括子步骤D7。

D7.使用模型输出的行人ID相关特征进行行人图像检索。即在测试阶段，计算查询图像和图像库中图像特征之间的相似度矩阵，并根据行人重识别评价指标计算得到累积匹配特征曲线(CMC)和平均精度(mAP)。

图2为本发明的基于隐式表征解耦网络的遮挡行人重识别系统所涉及的模型框架，如图2所示，该模型框架由三部分构成：(1)遮挡样本增强(OSA)模块；(2)行人特征的提取和语义解耦模块；以及(3)语义偏好引导对比特征学习模块。

其中，遮挡样本增强(OSA)模块，用于处理数据以增强每批训练数据中遮挡样本的多样性。在训练开始前，先从训练集x_train中选取遮挡物，构成遮挡物集x_abstacle(对图2获取阶段)。在训练阶段，每个训练批次

从x_train中选取P不同ID的行人，每个行人选取M个图片样本，同时随机从遮挡物集合中选取k个遮挡物「o₁，...，o_k]∈x_abstacle。对于每个训练批次内的标签为y_i图像样本

用选取的k个遮挡物合成遮挡增强数据[x_i，1，...，x_i，k]，并且与原始图像共享同一个标签y_i，遮挡增强数据和原始数据一起作为当前批次的网络输入(对应图2中随机合成阶段)。

(2)行人特征的提取和语义解耦模块，其用于：

(2.1)首先将预处理好的图片输入卷积神经网络，提取出紧凑的行人全局特征f＝CNN(x)∈R^C×H×W，然后将紧凑的行人全局特征拉平成一维序列g∈R^d×HW并辅以可学习的位置编码，将得到的行人图片拉平的特征并铺以位置编码输入到Transformer编码器中。

(2.2)Transformer的解码器在可学习的语义对象查询的引导下，对输入的行人特征解耦，得到行人ID相关特征和ID无关特征。具体来说，为了产生语义组件的特征，定义了一组语义偏好的对象查询，这是一组可学习的解码层的输入嵌入。具体来说，有N_q-1个人体语义对象查询(又称ID相关的对象查询)和1个遮挡语义查询。语义偏好对象查询

其中N_q-1个人体相关语义部件的特征拼接成ID相关特征

以及一个利用遮挡语义查询引导生成的ID无关特征

对象查询去相关约束损失的计算公式如下：

其中abs(·)表示绝对值函数，<·，·>表示内积，||·||表示取模长，α是去相关约束损失的惩罚因子。

(3)语义偏好引导对比特征学习模块，用于对行人ID相关特征与ID无关特征进行相反的判别性约束，将遮挡物及背景噪声从行人特征中分离出来，抑制了遮挡对行人匹配的干扰。

具体操作为：对于给定的一个行人图片x_n，利用步骤D1所提出的遮挡样本增强(OSA)的方法可以构造出x_n的对比三元组，包括x_n本身作为锚点(anchor)，一个具有相同ID但不同遮挡物的行人图片的作为正样本，一个具有不同ID但相同障碍的行人图片作为负样本；对于锚点图像x_n的ID相关特征f_n，f_n+/f_n-分别表示与x_n相同/不同ID的行人图片的ID相关特征，采用对比三元组损失对其进行判别性约束；对于锚点图像x_n的ID无关特征

分别表示与x_n不同/相同遮挡物的行人图片的ID无关特征，采用所提的反向对比三元组损失对其进行相反的判别性约束。

其中用于ID相关特征约束的对比三元组损失表示为：

是计算特征距离的函数，δ是一个边界参数。

此外，提出一种反向对比三元组损失用于ID无关特征约束，使ID无关特征聚焦于遮挡和噪声。对于同样的锚点(anchor)图像x_n，反向对比三元组损失的正样本和负样本与三元组损失的相反，正样本为不同ID但相同障碍的行人图片，负样本为相同ID但不同遮挡物的行人图片。用于ID无关特征约束的反向对比三元组损失表示为：

其中

是锚点图像x_n的ID无关特征，

分别表示与x_n不同/相同遮挡物的行人图片的ID无关特征。

本发明设计了一个基于Transformer的隐式表征学习网络，不需要严格的人体部件对齐和任何额外的监督信息以解决带遮挡行人重识别问题。Transformer是一种基于“编码器-解码器”架构的利用自注意机制的深度神经网络，在自然语言处理任务和最近的一些计算机视觉任务中表现出良好的性能。相比于传统的卷积神经网络(CNN)，Transformer具有在语义特征提取和长距离特征捕获等方面表现出更优秀的性能。本发明将Transformer扩展到闭塞的遮挡行人重识别研究中，首先使用CNN从人的图像中提取紧凑的局部信息，然后使用Transformer执行全局推理，得到目标行人的特征用于相似度计算。本发明的基于隐式表征解耦网络的遮挡行人重识别方法可用于智能视频监控、智能安防等的基于深度学习的带遮挡行人重识别方法。本发明方法利用Transformer架构，通过对被遮挡行人图像的局部特征进行全局推理，自动地解耦出具有不同语义的行人部件的特征，用这些特征度量两个行人图片的相似性。同时包含一种对比特征学习技术(CFL)来更好地分离遮挡特征和目标行人的特征。

以上说明是依据发明的构思和工作原理的最佳实施例。上述实施例不应理解为对本权利要求保护范围的限制，依照本发明构思的其他实施方式和实现方式的组合均属于本发明的保护范围。

参考文献：

[1]N.Carion,F.Massa,G.Synnaeve,N.Usunier,A.Kirillov,and S.Zagoruyko,“End-to-end object detection with transformers,”in Proceedings of theEuropean Conference on Computer Vision(ECCV),2020,pp.213–229.

Claims

1.一种基于隐式表征解耦网络的遮挡行人重识别方法，其特征在于，包括以下步骤：

S1.进行行人图片输入、遮挡样本增强以及行人图片的预处理；

S2.行人特征提取和解耦：用卷积神经网络提取行人图像的紧凑的行人全局特征，并使用深度自注意力变换网络(Transformer)在语义偏好对象查询的引导下，对输入的行人特征解耦，得到行人ID相关特征和ID无关特征；

S3.对比特征学习：对所述行人ID相关特征与ID无关特征进行相反的判别性约束，将遮挡物及背景噪声从行人特征中分离出来，抑制遮挡对行人匹配的干扰；以及

S4.行人图像检索：使用所述行人ID相关特征计算查询图像和图像库中图像之间的相似度矩阵并排序，输出排序结果。

2.根据权利要求1所述的基于隐式表征解耦网络的遮挡行人重识别方法，其特征在于，步骤S1包括以下子步骤：

D1.遮挡数据的采样及合成：从训练集中选取出一部分遮挡物，构造一个遮挡物集合；以及

D2.对输入网络的图片数据进行预处理，所述预处理包括尺度归一化以及随机水平翻转、随机裁剪和随机擦除。

3.根据权利要求2所述的基于隐式表征解耦网络的遮挡行人重识别方法，其特征在于，在子步骤D1中，在训练阶段，使用遮挡物集合对每个批次训练数进行随机遮挡数据增强，遮挡增强数据和原始数据一起作为当前批次的网络输入。

4.根据权利要求1所述的基于隐式表征解耦网络的遮挡行人重识别方法，其特征在于，步骤S2包括以下子步骤：

D3.将预处理好的图片输入卷积神经网络，提取出紧凑的行人全局特征，然后将紧凑的行人全局特征拉平成一维序列并辅以可学习的位置编码，输入到所述深度自注意力变换网络(Transformer)的编码器和解码器中；以及

D4.所述深度自注意力变换网络(Transformer)的解码器在可学习的语义对象查询的引导下，对输入的行人特征解耦，得到所述行人ID相关特征和ID无关特征。

5.根据权利要求1所述的基于隐式表征解耦网络的遮挡行人重识别方法，其特征在于，步骤S3还包括以下子步骤：

D5.利用语义偏好对比特征学习方法，对所述行ID相关特征与ID无关特征进行相反的判别性约束，将遮挡物及背景噪声从行人特征中分离出来，抑制了遮挡对行人匹配的干扰；以及

D6.在模型的训练过程中，使用交叉熵损失和三元组对比损失对提取出的所述行人ID相关特征进行约束，使用反向三元组对比损失对所述行人ID无关特征进行约束。

6.根据权利要求1所述的基于隐式表征解耦网络的遮挡行人重识别方法，其特征在于，在所述步骤S4中，使用模型输出的行人ID相关特征进行行人图像检索，在测试阶段，计算查询所述图像和所述图像库中图像特征之间的相似度矩阵，并根据行人重识别评价指标计算得到累积匹配特征曲线(CMC)和平均精度(mAP)。

7.一种基于隐式表征解耦网络的遮挡行人重识别系统，其特征在于，包括遮挡样本增强(OSA)模块、行人特征的提取和语义解耦模块以及语义偏好引导对比特征学习模块，其中，

遮挡样本增强(OSA)模块，用于处理数据以增强每批训练数据中遮挡样本的多样性；

行人特征的提取和语义解耦模块，用于首先将预处理好的图片输入卷积神经网络，提取出紧凑的行人全局特征，然后将所述紧凑的行人全局特征拉平成一维序列并辅以可学习的位置编码，将得到的行人图片拉平的特征并铺以位置编码输入到深度自注意力变换网络(Transformer)中，然后所述深度自注意力变换网络(Transformer)的解码器在可学习的语义对象查询的引导下，对输入的行人特征解耦，得到行人ID相关特征和ID无关特征；

语义偏好引导对比特征学习模块，用于所述行人ID相关特征和ID无关特征进行相反的判别性约束，将遮挡物及背景噪声从行人特征中分离出来，抑制了遮挡对行人匹配的干扰。