CN114596589A

CN114596589A - 一种基于交互级联轻量化transformers的域自适应行人重识别方法

Info

Publication number: CN114596589A
Application number: CN202210246448.6A
Authority: CN
Inventors: 葛宏伟; 黄嘉健; 孙亮; 王霞
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-06-07

Abstract

本发明公开了一种基于交互级联轻量化transformers的域自适应行人重识别方法，属于计算机视觉与行人识别的交叉技术领域。该方法所设计的轻量化transformer包括局部轻量化transformer和全局轻量化transformer，它们由嵌入模块、多头自注意力模块和多头混合模块组成。轻量化transformer可以捕捉长距离依赖，避免噪声标签的影响加剧。在该方法所设计的交互级联框架中，像素点被交替赋予局部信息和全局信息，这增强了局部信息建模和全局信息建模的交互能力，进而提高了模型的特征表达能力。本方法实现了有效的域自适应行人重识别。

Description

一种基于交互级联轻量化transformers的域自适应行人重识别方法

技术领域

本发明属于人工智能领域，具体为计算机视觉与行人识别的交叉技术领域，涉及一种基于域自适应和交互级联轻量化transformers的行人重识别方法。

背景技术

进入21世纪以来，智能监控设备得到了飞速的发展，同时储存海量数据的硬件设备不断成熟。为了能够有效地提高公共安全，在社会公共场所、交通路口、大众家庭等越来越多的地方部署了大量的监控摄像头，对于监控视频的处理成为重要的研究方向。行人重识别旨在从非重叠摄像头拍摄的大量候选人中识别出指定的查询人，广泛应用于视频监控、智能安防等多个领域。虽然有监督的行人重识别方法已经取得了很好的效果，但是沉重的标注负担使得它很难在现实世界中应用。因此，近年来域自适应行人重识别引起了广泛的关注。在该任务中，通过使用标记的源域数据和未标记的目标域数据来训练模型，以拟合未标记的目标域。域自适应行人重识别任务的主要挑战是分布漂移。分布漂移是指由于源域的特征分布和目标域的特征分布差别较大，在源域训练的模型会在目标域出现严重的性能下降的现象。

有两种常见的方法来解决分布漂移：域对齐策略或为目标域数据分配伪标签。基于域对齐的方法通常使用生成对抗网络(GANs)生成额外的图像。例如，SBSGAN使用GANs将源域图像转换为无背景的图像和目标域风格的图像，然后将这两个数据集用作训练集(Huang Y,Wu Q,Xu J S,et al.SBSGAN:Suppression of inter-domain backgroundshift for person re-identification[C]//Proceedings of the IEEE/CVFInternational Conference on Computer Vision.2019:9527-9536.)。这类方法的性能很大程度上取决于生成图像的质量。

基于伪标签的方法可以有效地捕获目标域分布。这类方法面临的挑战是如何提高伪标签的准确性。一些研究人员通过设计更好的伪标签估计算法来解决这一挑战。Ge等人提出了一个名为“同步平均教学”的框架来优化伪标签，通过与辅助域中的一组已知参考人进行比较，为每个未标记的人学习软多标签(Yixiao G，Dapeng C，Hongsheng L.MutualMean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaptation onPerson Re-identification[C]//Proceedings of theInternational Conference onLearning Representations.2018:79-88.)。其它研究则通过获取具有辨识性的行人特征来提高伪标签的准确性。PatchNet从选定的补丁中学习具有辨识性的特征(Yang Q,Yu HX,Wu A,et al.Patch-based discriminative feature learning for unsupervisedperson re-identification[C]//Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition.2019:3633-3642.)；Zhong等人使用基于多尺度特征的三种伪标签过滤数据并对模型进行训练，同时提出了一种相机不变损失以减少相机风格的影响(Zhang H,Cao H,Yang X,et al.Self-Training With ProgressiveRepresentation Enhancement for Unsupervised Cross-Domain Person Re-Identification[J].IEEE Transactions on Image Processing,2021,30:5287-5298.)。

在上述工作中，如何提取具有辨识性的行人特征是跨域行人重识别的一个关键问题。现有的大多数特征提取工作都是基于卷积神经网络(CNNs)的，因此它们受到CNNs有限感受野的阻碍。Transformer(Vaswani A,Shazeer N,Parmar N,et al.Attention is allyou need[C]//Advances in Neural Information Processing SysteNS.2017:5998-6008.)可以捕获长距离的相互依赖关系，但由于其泛化能力较弱，transformer需要大量的预训练，大规模数据集或复杂的超参数调整(Touvron,H.,Cord,M.,Douze,M.,etal.Training data-efficient image transformers&distillation through attention[C]//International Conference on Machine Learning.2021:10347-10357.)，它很难直接应用于域自适应行人重识别任务。因此，本发明提出了一个参数较少的轻量化transformer来克服感受野受限的问题，并提取具有辨识性的行人特征。

另一方面，在行人重识别任务中，局部信息建模和全局信息建模之间的交互也有助于提取具有辨识性的行人特征。通常，局部信息和全局信息之间存在联系。比如穿裙子或者靴子的人更可能是长着长发的女性，背着黑色背包的人更可能是带着长着短发的男性。因此，全局信息建模生成的全局属性依赖可以提高局部信息的准确性，而来自局部信息建模的局部信息有利于全局依赖的建立。这两个建模过程之间的交互有助于增强特征表达。

然而，现有的视觉transformer不能利用这种交互作用。视觉transformer的典型结构包括基于自注意力的非层次结构、朴素层次结构、金字塔结构和交叉注意力结构。基于自注意力的非层次结构只执行全局信息建模；朴素层次结构执行多尺度信息建模；金字塔结构融合了多尺度信息；交叉注意结构允许模型利用多尺度信息建立依赖关系。上述结构中不涉及两个建模过程的交互影响。为了有效利用局部信息建模和全局信息建模之间的交互，本发明提出了一种局部信息建模和全局信息建模交互的级联框架，以增强域自适应行人重识别任务中辨识性行人特征的提取。

综上，针对域自适应行人重识别任务中模型的感受野受限、局部信息建模和全局信息建模之间交互作用不足的问题，本发明提出一种基于交互级联轻量化transformers的域自适应方法(Domain Adaption withInteractive Cascade LightweightTransformers，DA-ICLT)。本发明提出的轻量化transformer可以捕捉长距离依赖，并能避免噪声标签的影响加剧。它删除了transformer中的多层感知机(MLP)以增强模型的泛化能力并减轻计算开销，使用卷积神经网络代替部分全连接层以引入平移不变性和局部性。进一步地，本发明中的交互级联轻量化transformers框架可以有效增强行人特征表达。它通过交替赋予像素点局部邻域信息和全局信息，使得局部信息建模和全局信息建模互补地增强了像素点的特征表达。

发明内容

针对域自适应行人重识别任务，本发明专利提出一种基于交互级联轻量化transformers的域自适应方法(DA-ICLT)。在该方法中，通过设计的轻量化transformer网络，解决了感受野受限的问题，避免了噪声标签影响加剧；通过设计的交互级联框架，增强了局部信息建模和全局信息建模的交互能力，最终提高了模型的特征表达能力。

本发明的技术方案：

一种基于交互级联轻量化transformers的域自适应行人重识别方法，步骤如下：

1、使用CNN编码器从行人图像提取紧凑的特征。

所述CNN编码器由若干卷积神经网络层构成。它输出维数是

的特征图，其中height为行人图像的高度，width为行人图像的宽度。该特征图将作为交互级联轻量化transformers的输入。

2、使用交互级联轻量化transformers提取具有辨识性的行人特征。

所述交互级联轻量化transformers由3个基本单元构成，每个基本单元由1层局部轻量化transformer和2层全局轻量化transformers级联构成。局部轻量化transformer和全局轻量化transformer是轻量化transformer的两种类型。局部轻量化transformer和全局轻量化transformer的组成模块相同，但执行的过程不同。它们均由嵌入模块、多头自注意力模块和多头混合模块组成。

交互级联轻量化transformers执行的过程由1层局部轻量化transformer执行的子过程和2层全局轻量化transformers执行的子过程构成。

交互级联轻量化transformers执行如下过程：

(2.1)1层局部轻量化transformer执行如下子过程：

(2.1.1)将特征图切割为查询块：

式中F为输入局部轻量化transformers的特征图，它的维数是

f_i表示查询块，下标i为查询块的序号；N^q表示查询块的数量；divide()表示将特征图切割为查询块的操作。N^q＝a×b，a和b分别表示在将特征图F切割为查询块的过程中，将F横向切割的次数和将F纵向切割的次数。查询块f_i的维数为

(2.1.2)使用嵌入模块来压缩查询块f_i的通道数，得到查询块e_i。e_i的维数是

其中d＜1024。嵌入模块是1层卷积神经网络。

(2.1.3)将查询块e_i展开成由多个一维向量构成的二维矩阵s_i：

s_i＝unfold(e_i) (2)

式中unfold()表示将查询块展开成二维矩阵的操作，该展开操作只是将查询块的最后两维

展开成了一维

表示查询块e_i被展开成的二维矩阵，它的维数是d×N，其中

s_i的下标i为它对应的查询块的序号。

表示s_i中的第j个一维向量，

的维数为d。

(2.1.4)基于s_i利用多头自注意力模块进行信息建模，过程如下：

由3个映射模块W^Q，W^K和W^V得到查询矩阵q_i，键矩阵k_i和值矩阵v_i：

q_i＝W^Qs_i；k_i＝W^Ks_i；v_i＝W^Vs_i (3)

式中的W^Q,W^K和W^V为3个全连接层，它们的神经元个数均为d×d；q_i，k_i和v_i均为维数是d×N的二维矩阵，下标i为对应的查询块的序号。

将q_i,k_i和v_i分别划分为H组查询矩阵、键矩阵和值矩阵，其中H为多头自注意力机制中的头数。将每组内的键矩阵的转置与查询矩阵进行叉乘，得到查询块内各像素点的H组相似度值。对每组相似度值进行归一化处理得到H组权重。将H组值矩阵分别与对应组的权重进行叉乘，该操作的含义是将值矩阵中的各一维向量按对应像素点间的相似度进行聚合，该操作产生H组聚合结果

其中，

为维数是

的二维矩阵，下标i为对应的查询块的序号，上标m＝1,2,…,H为其对应的组号。

(2.1.5)将H组二维矩阵

重新合并成1个二维矩阵，将合并后的二维矩阵折叠为1个查询块u_i，它的维数为

下标i为查询块的序号。该折叠操作只是将矩阵的最后一维折叠为二维。

(2.1.6)将u_i送入多头混合模块以混合不同头(组)的注意力结果，得到维数是

的查询块r_i，下标i为查询块的序号。多头混合模块是1层转置卷积神经网络。

(2.1.7)将N^q个查询块r_i合并为1个特征图r，r的维数是

(2.1.8)将特征图r与输入的特征图F混合：

F^local＝F+r (4)

式中F^local的维数是

上标local用于表明它是局部轻量化transformer的输出，它将作为步骤(2.2)的输入。

(2.2)2层全局轻量化transformers执行如下子过程：

(2.2.1)利用嵌入模块来压缩输入特征图的通道数，得到维数是

的特征图E，其中d＜1024。

(2.2.2)将特征图E展开成二维矩阵：

S＝UNFOLD(E) (5)

式中UNFOLD()表示将特征图展开为二维矩阵的操作，该展开操作只是将特征图的最后两维

展开成了一维

表示特征图E被展成的二维矩阵，它由

个一维向量组成，它的维数是d×N^S。

(2.2.3)以S作为输入，先用多头自注意力模块进行信息建模，然后将其输出重新排列为1个三维的特征图，最后利用多头混合模块混合不同头(组)的注意力结果。其过程与步骤(2.1.4)至步骤(2.1.6)相同。

(2.2.4)以(2.2.3)的结果作为输入，将步骤(2.2.1)至步骤(2.2.3)迭代1次。

(2.3)以(2.2.4)的结果作为输入，循环执行步骤(2.1)～(2.2)2次。最终得到维数是

的特征图。该特征图将作为步骤3的输入。

3、对输入特征图进行全局平均池化得到维数是{1024,1,1}的新特征图，而后将新特征图降维得到维数是1024的一维特征向量。该一维特征向量将作为步骤4的输入。

4、在m时刻，利用目标域训练集行人图像的特征更新混合记忆矩阵，它是一个维度是N^t×1024二维矩阵，其中，N^t为目标域训练集中行人图像的个数。更新方法如下：

式中的参数μ为常数，用于控制混合记忆矩阵更新的快慢；

是m时刻的混合记忆矩阵；F^t为维数是N^t×1024的二维矩阵，它由从步骤3中得到的目标域训练集图像的一维特征向量构成的，上标t表示它对应的是目标域图像。

5、计算混合记忆矩阵中目标域训练集第i张行人图像的行人特征

与第j张行人图像的行人特征

的欧式距离d^i,j，计算所有N^t张图片行人特征之间的欧式距离，得到行人特征距离矩阵

6、基于步骤5中的距离矩阵执行如下过程：设置标准密度聚类的参数eps＝0.6，对总数N^t张的目标域训练集图像在混合记忆矩阵中的行人特征

进行聚类得到目标域训练集每个图像的标注

设置严格密度聚类的参数eps＝0.58，对

进行第二次聚类得到标注

设置松弛密度聚类的参数eps＝0.62，对

进行第三次聚类得到标注

7、根据Y^t-standard获得目标域训练集中与第i张行人图像同属于一个类别的第j张行人图像。根据Y^t-loose,Y^t-tight判断这两张图像是否在第二次聚类和第三次聚类中属于同一个类别。若不是，则把这两张图像归为离异点。

8、为属于离异点的图像打上伪标签

其中N^o表示离异点的数量。对于目标域训练集中的其它图像，分别根据聚类结果标记伪标签。最终得到目标域训练集图像的伪标签

9、利用目标域训练集的伪标签和源域数据的真实标签对CNN编码器和交互级联轻量化transformers组成的模型进行监督，使用公式(7)进行损失值的计算，采用Adam梯度下降优化算法更新网络参数。

其中，w_k、c_k和v_k分别表示源域类质心、目标域聚类质心和目标域离异点实例特征。n^s、

和

分别表示源域类、目标域聚类和目标域离异点的数量。f是步骤3输出的行人特征。z⁺表示对应于f的正类原型。τ被称为温度系数，它是一个常数。exp表示以自然常数e为底的指数函数，<a,b>表示计算a和b之间的欧式距离。

10、将步骤1至步骤9迭代L次，本专利L取为50。

本发明的有益效果：本发明设计的轻量化transformers在利用了transformer捕捉长距离依赖的同时又避免了因transformer泛化能力不强而导致的噪声标签影响加剧的问题。本发明提出的交互级联结构充分发挥了局部信息建模和全局信息建模之间的交互作用，有效增强了模型的行人特征表达能力。本发明在域自适应行人重识别任务上取得突出表现。

附图说明

图1是行人重识别任务示意图；

图2是CNN编码器的结构；

图3是交互级联轻量化transformers的结构；

图4是基于交互级联轻量化transformers的域自适应(DA-ICLT)训练流程图。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

本发明提供一种基于域自适应和交互级联轻量化transformers的行人重识别方法。下面结合附图对本发明的实施方式进行详细说明，具体包括以下步骤：

1、行人重识别任务。本发明的应用不限制行人图片数据的来源。本发明将以数据集Market-1501(Zheng L,Shen L,Tian L,et al.Scalable person re-identification:Abenchmark[C]//Proceedings of the IEEE international conference on computervision.2015:1116-1124.)和DukeMTMC-reID(RISTANI E,SOLERA F,ZOU R,etal.Performance measures and a data set for multi-target,multi-camera tracking[J].Lecture Notes in Computer Science,2016,9914LNCS(c):17–35.)为例。Market-1501由6台摄像机在夏季拍摄的1501个行人的32668张图像组成。其中训练集包含751个行人的12936张图像，检索库包含另外750个行人的3368张图像，行人图库包含这750个人的另外10164张图像。DukeMTMC-reID由8个摄像头在冬季拍摄的1404个行人的36411幅图像组成。其中训练集包含702个行人的16522幅图像，检索库包含2228张图像，行人图库包含17661张图像。行人重识别任务是在行人图库中寻找待检索行人的图像，如图1所示。在本实施例中，我们以Market-1501数据集为目标域和以DukeMTMC-reID数据集为源域来训练模型。

2、使用CNN编码器从行人图像提取紧凑的特征。

所述CNN编码器的结构如图2所示，它由ResNet-50(He,Kaiming,et al."Deepresidual learning for image recognition[C]//Proceedings of the IEEEconference on computer vision and pattern recognition.2016:770-778.)的卷积层一，卷积层二，卷积层三和卷积层四构成。CNN编码器输入维数是{3,256,128}的行人图像，CNN编码器输出维数是{1024,8,4}的特征图。该特征图将作为交互级联轻量化transformers的输入。

3、使用交互级联轻量化transformers提取具有辨识性的行人特征。

所述交互级联轻量化transformers的结构如图3所示。它由3个基本单元构成，每个基本单元由一层局部轻量化transformer和两层全局轻量化transformers级联构成。局部轻量化transformer和全局轻量化transformer是轻量化transformer的两种类型。局部轻量化transformer和全局轻量化transformer的组成模块相同，但执行的过程不同。它们均由嵌入模块、多头自注意力模块和多头混合模块组成。

交互级联轻量化transformers执行如下过程：

(3.1)1层局部轻量化transformer执行如下子过程：

(3.1.1)将输入局部轻量化transformer的特征图切割为8个查询块，得到f₁,f₂,…f₈，它们的维数均是{1024,2,2}，下标为查询块的序号。这8个查询块是通过将输入的特征图横向切割4次和纵向切割2次得到的。

(3.1.2)使用嵌入模块压缩8个查询块的通道数，得到8个压缩后的查询块e₁,e₂,…,e₈，它们的维数均是{512,2,2}，下标为查询块的序号。嵌入模块是一层卷积神经网络，它由512个尺寸是2×2的卷积核组成，它的步长为1。

(3.1.3)将8个查询块e₁,…,e_i,…,e₈展开成8个维数是512×4的二维矩阵s₁,…,s_i,…,s₈。其中，展开操作只是将查询块的最后两维2×2展开成一维。

的下标为它对应的查询块的序号，其中

和

均是维数为512的一维向量，上标为一维向量的序号。

(3.1.4)基于s_i利用多头自注意力模块进行信息建模，过程如下：

由三个映射模块W^Q，W^K和W^V得到查询矩阵q_i，键矩阵k_i和值矩阵v_i：

q_i＝W^Qs_i；k_i＝W^Ks_i；v_i＝W^Vs_i (3)

式中的W^Q,W^K和W^V为三个全连接层，它们的神经元个数均为512×512；q_i，k_i和v_i均为维数是512×4的二维矩阵，下标i为对应的查询块的序号。

将q_i,k_i和v_i分别划分为8组查询矩阵、键矩阵和值矩阵，每组查询矩阵、键矩阵和值矩阵均为维数是64×4的二维矩阵，其中8是多头自注意力机制中的头数。将每组内的键矩阵的转置与查询矩阵进行叉乘，得到查询块内各像素点的8组相似度值，每组相似度值存储在一个维数是4×4的二维矩阵中。对每组相似度值进行归一化处理得到8组权重，它们均是维数为4×4的二维矩阵。将8组值矩阵分别与对应组的权重进行叉乘，该操作的含义是将值矩阵中的各一维向量按对应像素点间的相似度进行聚合，该操作产生8组聚合结果

其中，

为维数是64×4的二维矩阵，下标i为对应的查询块的序号，上标m＝1,2,…,8为组号。

(3.1.5)将8组二维矩阵

重新合并成一个维数是512×4的二维矩阵，将合并后的二维矩阵折叠为一个查询块u_i，它的维数为{512,2,2}，下标i为查询块的序号。该折叠操作仅是将矩阵的最后长度为4的一维折叠成了2×2的二维。

(3.1.6)将u_i送入多头混合模块以混合不同头(组)的注意力结果，得到维数是{1024,2,2}的查询块r_i，下标i为查询块的序号。多头混合模块是一层转置卷积神经网络，它由1024个尺寸为1×1的卷积核构成，它的步长为1。

(3.1.7)将8个查询块r_i合并为一个特征图r，r的维数是{1024,8,4}。

(3.1.8)将特征图r与输入的特征图F混合：

F^local＝F+r (4)

式中F^local的维数是{1024,8,4}，上标local用于表明它是局部轻量化transformer的输出，它将作为步骤(3.2)的输入。

(3.2)两层全局轻量化transformer执行如下子过程：

(3.2.1)利用嵌入模块来压缩输入特征图的通道数，得到维数是{512,8,4}的特征图E。嵌入模块为一层卷积神经网络，它由512个尺寸是1×1的卷积核构成，它的步长为1。

(3.2.2)将特征图E展开成二维矩阵S＝[S¹,S²,…,…S³²]。其中，展开操作只是将特征图的最后两维8×4展开成了一维。S由32个一维向量组成，它的维数是512×32。

(3.2.3)基于S利用多头自注意力模块进行信息建模，过程如下：

由三个映射模块W^Q，W^K和W^V得到查询矩阵Q，键矩阵K和值矩阵V：

q_i＝W^QQ；k_i＝W^KK；v_i＝W^VV (8)

式中的W^Q,W^K和W^V为三个全连接层，它们的神经元个数均为512×512；Q，K和V均为维数是512×32的二维矩阵。

将Q，K和V分别划分为8组查询矩阵、键矩阵和值矩阵，每组查询矩阵、键矩阵和值矩阵均为维数是64×32的二维矩阵，其中8是多头自注意力机制中的头数。将每组内的键矩阵的转置与查询矩阵进行叉乘，得到查询块内各像素点的8组相似度值，每组相似度值存储在一个维数是32×32的二维矩阵中。对每组相似度值进行归一化处理得到8组权重，它们均是维数为32×32的二维矩阵。将8组值矩阵分别与对应组的权重进行叉乘，该操作的含义是将值矩阵中的各一维向量按对应像素点间的相似度进行聚合，该操作产生8组聚合结果w¹,…,w^m,…,w⁸。其中，w^m为维数是64×32的二维矩阵，上标m＝1,2,…,8为组号。

(3.2.4)将8组二维矩阵w^m重新合并成一个维数是512×32的二维矩阵，将合并后的二维矩阵折叠为一个查询块u，它的维数为{512,8,4}。该折叠操作仅是将矩阵的最后一维32折叠成了二维8×4。

(3.2.5)将u送入多头混合模块以混合不同头(组)的注意力结果，得到维数是{1024,8,4}的查询块r。多头混合模块是一层转置卷积神经网络，它由1024个尺寸为1×1的卷积核构成，它的步长为1。

(3.2.6)以(3.2.5)的结果作为输入，将步骤(3.2.1)至步骤(3.2.5)迭代1次。

(3.3)以(3.2.6)的结果作为输入，将步骤(3.1)至步骤(3.2)迭代2次。最终得到维数是{1024,8,4}的特征图。该特征图将作为步骤4的输入。

4、对输入特征图进行全局平均池化得到维数是{1024,1,1}的新特征图，而后将新特征图降维得到维数是1024的一维特征向量。该一维特征向量将作为步骤5的输入。

5、目标域训练集所有行人图像的一维特征向量构成1个二维行人特征矩阵F^t，它的维数是1024×12936。其中，12936为目标域训练集中行人图像的个数。利用目标域训练集行人图像的特征更新第m时刻的混合记忆矩阵

混合记忆矩阵是1个维度为1024×12936二维矩阵，更新方法如下：

6、计算混合记忆矩阵中目标域训练集第i张行人图像的行人特征

与第j张行人图像的行人特征

的欧式距离d^i,j，计算所有12936张图片行人特征之间的欧式距离，得到行人特征距离矩阵

7、基于步骤6中的距离矩阵执行如下过程：设置标准密度聚类的参数eps＝0.6，对总数12936张的目标域训练集图像在混合记忆矩阵中的行人特征

进行聚类得到目标域训练集每个图像的标注

设置严格密度聚类的参数eps＝0.58，对

进行第二次聚类得到标注

设置松弛密度聚类的参数eps＝0.62，对

进行第三次聚类得到标注

8、根据Y^t-standard获得目标域训练集中与第i张行人图像同属于一个类别的第j张行人图像。根据Y^t-loose,Y^t-tight判断这两张图像是否在第二次聚类和第三次聚类中属于同一个类别。若不是，则把这两张图像归为离异点。

9、为属于离异点的图像打上伪标签

10、利用目标域训练集的伪标签和源域训练集的真实标签对CNN编码器和交互级联轻量化transformers组成的模型进行监督，使用公式(7)进行损失值的计算，采用Adam梯度下降优化算法更新网络参数。

和

分别表示源域类、目标域聚类和目标域离异点的数量。f是步骤4输出的行人图像特征。z⁺表示对应于f的正类原型。τ称为温度系数，它是一个常数。exp表示以自然常数e为底的指数函数，<a,b>表示计算a和b之间的欧式距离。

11、将步骤2至步骤10迭代50次。整个域自适应训练过程如图4所示。

Claims

1.一种基于交互级联轻量化transformers的域自适应行人重识别方法，其特征在于，步骤如下：

(1)使用CNN编码器从行人图像提取紧凑的特征

所述CNN编码器由若干卷积神经网络层构成，它输出维数是

的特征图，其中height为行人图像的高度，width为行人图像的宽度；该特征图将作为交互级联轻量化transformers的输入；

(2)使用交互级联轻量化transformers提取具有辨识性的行人特征

所述交互级联轻量化transformers由3个基本单元构成，每个基本单元由1层局部轻量化transformer和2层全局轻量化transformers级联构成；局部轻量化transformer和全局轻量化transformer的组成模块相同，但执行的过程不同；它们均由嵌入模块、多头自注意力模块和多头混合模块组成；

交互级联轻量化transformers执行的过程由1层局部轻量化transformer执行的子过程和2层全局轻量化transformers执行的子过程构成；

交互级联轻量化transformers执行如下过程：

(2.1)1层局部轻量化transformer执行如下子过程：

(2.1.1)将特征图切割为查询块：

式中，F为输入局部轻量化transformers的特征图；f_i表示查询块，下标i为查询块的序号；N^q表示查询块的数量；divide()表示将特征图切割为查询块的操作；N^q＝a×b，a和b分别表示在将特征图F切割为查询块的过程中，将F横向切割的次数和将F纵向切割的次数；查询块f_i的维数为

(2.1.2)使用嵌入模块来压缩查询块f_i的通道数，得到查询块e_i；e_i的维数是

其中d＜1024；嵌入模块是1层卷积神经网络；

(2.1.3)将查询块e_i展开成由多个一维向量构成的二维矩阵s_i：

s_i＝unfold(e_i) (2)

式中，unfold()表示将查询块展开成二维矩阵的操作，该展开操作只是将查询块的最后两维

展开成了一维

表示查询块e_i被展开成的二维矩阵，它的维数是d×N，其中

s_i的下标i为它对应的查询块的序号；

表示s_i中的第j个一维向量，

的维数为d；

由3个映射模块W^Q、W^K和W^V得到查询矩阵q_i、键矩阵k_i和值矩阵v_i：

q_i＝W^Qs_i；k_i＝W^Ks_i；v_i＝W^Vs_i (3)

式中，W^Q，W^K和W^V为3个全连接层，它们的神经元个数均为d×d；q_i，k_i和v_i均为维数是d×N的二维矩阵，下标i为对应的查询块的序号；

将q_i，k_i和v_i分别划分为H组查询矩阵、键矩阵和值矩阵，其中H为多头自注意力机制中的头数；将每组内的键矩阵的转置与查询矩阵进行叉乘，得到查询块内各像素点的H组相似度值；对每组相似度值进行归一化处理得到H组权重；将H组值矩阵分别与对应组的权重进行叉乘，该操作的含义是将值矩阵中的各一维向量按对应像素点间的相似度进行聚合，该操作产生H组聚合结果