CN114596589A - 一种基于交互级联轻量化transformers的域自适应行人重识别方法 - Google Patents

一种基于交互级联轻量化transformers的域自适应行人重识别方法 Download PDF

Info

Publication number
CN114596589A
CN114596589A CN202210246448.6A CN202210246448A CN114596589A CN 114596589 A CN114596589 A CN 114596589A CN 202210246448 A CN202210246448 A CN 202210246448A CN 114596589 A CN114596589 A CN 114596589A
Authority
CN
China
Prior art keywords
lightweight
dimension
pedestrian
matrix
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210246448.6A
Other languages
English (en)
Inventor
葛宏伟
黄嘉健
孙亮
王霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202210246448.6A priority Critical patent/CN114596589A/zh
Publication of CN114596589A publication Critical patent/CN114596589A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于交互级联轻量化transformers的域自适应行人重识别方法,属于计算机视觉与行人识别的交叉技术领域。该方法所设计的轻量化transformer包括局部轻量化transformer和全局轻量化transformer,它们由嵌入模块、多头自注意力模块和多头混合模块组成。轻量化transformer可以捕捉长距离依赖,避免噪声标签的影响加剧。在该方法所设计的交互级联框架中,像素点被交替赋予局部信息和全局信息,这增强了局部信息建模和全局信息建模的交互能力,进而提高了模型的特征表达能力。本方法实现了有效的域自适应行人重识别。

Description

一种基于交互级联轻量化transformers的域自适应行人重识 别方法
技术领域
本发明属于人工智能领域,具体为计算机视觉与行人识别的交叉技术领域,涉及一种基于域自适应和交互级联轻量化transformers的行人重识别方法。
背景技术
进入21世纪以来,智能监控设备得到了飞速的发展,同时储存海量数据的硬件设备不断成熟。为了能够有效地提高公共安全,在社会公共场所、交通路口、大众家庭等越来越多的地方部署了大量的监控摄像头,对于监控视频的处理成为重要的研究方向。行人重识别旨在从非重叠摄像头拍摄的大量候选人中识别出指定的查询人,广泛应用于视频监控、智能安防等多个领域。虽然有监督的行人重识别方法已经取得了很好的效果,但是沉重的标注负担使得它很难在现实世界中应用。因此,近年来域自适应行人重识别引起了广泛的关注。在该任务中,通过使用标记的源域数据和未标记的目标域数据来训练模型,以拟合未标记的目标域。域自适应行人重识别任务的主要挑战是分布漂移。分布漂移是指由于源域的特征分布和目标域的特征分布差别较大,在源域训练的模型会在目标域出现严重的性能下降的现象。
有两种常见的方法来解决分布漂移:域对齐策略或为目标域数据分配伪标签。基于域对齐的方法通常使用生成对抗网络(GANs)生成额外的图像。例如,SBSGAN使用GANs将源域图像转换为无背景的图像和目标域风格的图像,然后将这两个数据集用作训练集(Huang Y,Wu Q,Xu J S,et al.SBSGAN:Suppression of inter-domain backgroundshift for person re-identification[C]//Proceedings of the IEEE/CVFInternational Conference on Computer Vision.2019:9527-9536.)。这类方法的性能很大程度上取决于生成图像的质量。
基于伪标签的方法可以有效地捕获目标域分布。这类方法面临的挑战是如何提高伪标签的准确性。一些研究人员通过设计更好的伪标签估计算法来解决这一挑战。Ge等人提出了一个名为“同步平均教学”的框架来优化伪标签,通过与辅助域中的一组已知参考人进行比较,为每个未标记的人学习软多标签(Yixiao G,Dapeng C,Hongsheng L.MutualMean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaptation onPerson Re-identification[C]//Proceedings of theInternational Conference onLearning Representations.2018:79-88.)。其它研究则通过获取具有辨识性的行人特征来提高伪标签的准确性。PatchNet从选定的补丁中学习具有辨识性的特征(Yang Q,Yu HX,Wu A,et al.Patch-based discriminative feature learning for unsupervisedperson re-identification[C]//Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition.2019:3633-3642.);Zhong等人使用基于多尺度特征的三种伪标签过滤数据并对模型进行训练,同时提出了一种相机不变损失以减少相机风格的影响(Zhang H,Cao H,Yang X,et al.Self-Training With ProgressiveRepresentation Enhancement for Unsupervised Cross-Domain Person Re-Identification[J].IEEE Transactions on Image Processing,2021,30:5287-5298.)。
在上述工作中,如何提取具有辨识性的行人特征是跨域行人重识别的一个关键问题。现有的大多数特征提取工作都是基于卷积神经网络(CNNs)的,因此它们受到CNNs有限感受野的阻碍。Transformer(Vaswani A,Shazeer N,Parmar N,et al.Attention is allyou need[C]//Advances in Neural Information Processing SysteNS.2017:5998-6008.)可以捕获长距离的相互依赖关系,但由于其泛化能力较弱,transformer需要大量的预训练,大规模数据集或复杂的超参数调整(Touvron,H.,Cord,M.,Douze,M.,etal.Training data-efficient image transformers&distillation through attention[C]//International Conference on Machine Learning.2021:10347-10357.),它很难直接应用于域自适应行人重识别任务。因此,本发明提出了一个参数较少的轻量化transformer来克服感受野受限的问题,并提取具有辨识性的行人特征。
另一方面,在行人重识别任务中,局部信息建模和全局信息建模之间的交互也有助于提取具有辨识性的行人特征。通常,局部信息和全局信息之间存在联系。比如穿裙子或者靴子的人更可能是长着长发的女性,背着黑色背包的人更可能是带着长着短发的男性。因此,全局信息建模生成的全局属性依赖可以提高局部信息的准确性,而来自局部信息建模的局部信息有利于全局依赖的建立。这两个建模过程之间的交互有助于增强特征表达。
然而,现有的视觉transformer不能利用这种交互作用。视觉transformer的典型结构包括基于自注意力的非层次结构、朴素层次结构、金字塔结构和交叉注意力结构。基于自注意力的非层次结构只执行全局信息建模;朴素层次结构执行多尺度信息建模;金字塔结构融合了多尺度信息;交叉注意结构允许模型利用多尺度信息建立依赖关系。上述结构中不涉及两个建模过程的交互影响。为了有效利用局部信息建模和全局信息建模之间的交互,本发明提出了一种局部信息建模和全局信息建模交互的级联框架,以增强域自适应行人重识别任务中辨识性行人特征的提取。
综上,针对域自适应行人重识别任务中模型的感受野受限、局部信息建模和全局信息建模之间交互作用不足的问题,本发明提出一种基于交互级联轻量化transformers的域自适应方法(Domain Adaption withInteractive Cascade LightweightTransformers,DA-ICLT)。本发明提出的轻量化transformer可以捕捉长距离依赖,并能避免噪声标签的影响加剧。它删除了transformer中的多层感知机(MLP)以增强模型的泛化能力并减轻计算开销,使用卷积神经网络代替部分全连接层以引入平移不变性和局部性。进一步地,本发明中的交互级联轻量化transformers框架可以有效增强行人特征表达。它通过交替赋予像素点局部邻域信息和全局信息,使得局部信息建模和全局信息建模互补地增强了像素点的特征表达。
发明内容
针对域自适应行人重识别任务,本发明专利提出一种基于交互级联轻量化transformers的域自适应方法(DA-ICLT)。在该方法中,通过设计的轻量化transformer网络,解决了感受野受限的问题,避免了噪声标签影响加剧;通过设计的交互级联框架,增强了局部信息建模和全局信息建模的交互能力,最终提高了模型的特征表达能力。
本发明的技术方案:
一种基于交互级联轻量化transformers的域自适应行人重识别方法,步骤如下:
1、使用CNN编码器从行人图像提取紧凑的特征。
所述CNN编码器由若干卷积神经网络层构成。它输出维数是
Figure BDA0003544881050000041
的特征图,其中height为行人图像的高度,width为行人图像的宽度。该特征图将作为交互级联轻量化transformers的输入。
2、使用交互级联轻量化transformers提取具有辨识性的行人特征。
所述交互级联轻量化transformers由3个基本单元构成,每个基本单元由1层局部轻量化transformer和2层全局轻量化transformers级联构成。局部轻量化transformer和全局轻量化transformer是轻量化transformer的两种类型。局部轻量化transformer和全局轻量化transformer的组成模块相同,但执行的过程不同。它们均由嵌入模块、多头自注意力模块和多头混合模块组成。
交互级联轻量化transformers执行的过程由1层局部轻量化transformer执行的子过程和2层全局轻量化transformers执行的子过程构成。
交互级联轻量化transformers执行如下过程:
(2.1)1层局部轻量化transformer执行如下子过程:
(2.1.1)将特征图切割为查询块:
Figure BDA0003544881050000059
式中F为输入局部轻量化transformers的特征图,它的维数是
Figure BDA0003544881050000051
fi表示查询块,下标i为查询块的序号;Nq表示查询块的数量;divide()表示将特征图切割为查询块的操作。Nq=a×b,a和b分别表示在将特征图F切割为查询块的过程中,将F横向切割的次数和将F纵向切割的次数。查询块fi的维数为
Figure BDA0003544881050000052
(2.1.2)使用嵌入模块来压缩查询块fi的通道数,得到查询块ei。ei的维数是
Figure BDA0003544881050000053
其中d<1024。嵌入模块是1层卷积神经网络。
(2.1.3)将查询块ei展开成由多个一维向量构成的二维矩阵si
si=unfold(ei) (2)
式中unfold()表示将查询块展开成二维矩阵的操作,该展开操作只是将查询块的最后两维
Figure BDA0003544881050000054
展开成了一维
Figure BDA0003544881050000055
表示查询块ei被展开成的二维矩阵,它的维数是d×N,其中
Figure BDA0003544881050000056
si的下标i为它对应的查询块的序号。
Figure BDA0003544881050000057
表示si中的第j个一维向量,
Figure BDA0003544881050000058
的维数为d。
(2.1.4)基于si利用多头自注意力模块进行信息建模,过程如下:
由3个映射模块WQ,WK和WV得到查询矩阵qi,键矩阵ki和值矩阵vi
qi=WQsi;ki=WKsi;vi=WVsi (3)
式中的WQ,WK和WV为3个全连接层,它们的神经元个数均为d×d;qi,ki和vi均为维数是d×N的二维矩阵,下标i为对应的查询块的序号。
将qi,ki和vi分别划分为H组查询矩阵、键矩阵和值矩阵,其中H为多头自注意力机制中的头数。将每组内的键矩阵的转置与查询矩阵进行叉乘,得到查询块内各像素点的H组相似度值。对每组相似度值进行归一化处理得到H组权重。将H组值矩阵分别与对应组的权重进行叉乘,该操作的含义是将值矩阵中的各一维向量按对应像素点间的相似度进行聚合,该操作产生H组聚合结果
Figure BDA0003544881050000061
其中,
Figure BDA0003544881050000062
为维数是
Figure BDA0003544881050000063
的二维矩阵,下标i为对应的查询块的序号,上标m=1,2,…,H为其对应的组号。
(2.1.5)将H组二维矩阵
Figure BDA0003544881050000064
重新合并成1个二维矩阵,将合并后的二维矩阵折叠为1个查询块ui,它的维数为
Figure BDA0003544881050000065
下标i为查询块的序号。该折叠操作只是将矩阵的最后一维折叠为二维。
(2.1.6)将ui送入多头混合模块以混合不同头(组)的注意力结果,得到维数是
Figure BDA0003544881050000066
的查询块ri,下标i为查询块的序号。多头混合模块是1层转置卷积神经网络。
(2.1.7)将Nq个查询块ri合并为1个特征图r,r的维数是
Figure BDA0003544881050000067
(2.1.8)将特征图r与输入的特征图F混合:
Flocal=F+r (4)
式中Flocal的维数是
Figure BDA0003544881050000068
上标local用于表明它是局部轻量化transformer的输出,它将作为步骤(2.2)的输入。
(2.2)2层全局轻量化transformers执行如下子过程:
(2.2.1)利用嵌入模块来压缩输入特征图的通道数,得到维数是
Figure BDA0003544881050000071
的特征图E,其中d<1024。
(2.2.2)将特征图E展开成二维矩阵:
S=UNFOLD(E) (5)
式中UNFOLD()表示将特征图展开为二维矩阵的操作,该展开操作只是将特征图的最后两维
Figure BDA0003544881050000072
展开成了一维
Figure BDA0003544881050000073
Figure BDA0003544881050000074
表示特征图E被展成的二维矩阵,它由
Figure BDA0003544881050000075
Figure BDA0003544881050000076
个一维向量组成,它的维数是d×NS
(2.2.3)以S作为输入,先用多头自注意力模块进行信息建模,然后将其输出重新排列为1个三维的特征图,最后利用多头混合模块混合不同头(组)的注意力结果。其过程与步骤(2.1.4)至步骤(2.1.6)相同。
(2.2.4)以(2.2.3)的结果作为输入,将步骤(2.2.1)至步骤(2.2.3)迭代1次。
(2.3)以(2.2.4)的结果作为输入,循环执行步骤(2.1)~(2.2)2次。最终得到维数是
Figure BDA0003544881050000077
的特征图。该特征图将作为步骤3的输入。
3、对输入特征图进行全局平均池化得到维数是{1024,1,1}的新特征图,而后将新特征图降维得到维数是1024的一维特征向量。该一维特征向量将作为步骤4的输入。
4、在m时刻,利用目标域训练集行人图像的特征更新混合记忆矩阵,它是一个维度是Nt×1024二维矩阵,其中,Nt为目标域训练集中行人图像的个数。更新方法如下:
Figure BDA0003544881050000078
式中的参数μ为常数,用于控制混合记忆矩阵更新的快慢;
Figure BDA0003544881050000079
是m时刻的混合记忆矩阵;Ft为维数是Nt×1024的二维矩阵,它由从步骤3中得到的目标域训练集图像的一维特征向量构成的,上标t表示它对应的是目标域图像。
5、计算混合记忆矩阵中目标域训练集第i张行人图像的行人特征
Figure BDA0003544881050000081
与第j张行人图像的行人特征
Figure BDA0003544881050000082
的欧式距离di,j,计算所有Nt张图片行人特征之间的欧式距离,得到行人特征距离矩阵
Figure BDA0003544881050000083
6、基于步骤5中的距离矩阵执行如下过程:设置标准密度聚类的参数eps=0.6,对总数Nt张的目标域训练集图像在混合记忆矩阵中的行人特征
Figure BDA0003544881050000084
进行聚类得到目标域训练集每个图像的标注
Figure BDA0003544881050000085
Figure BDA0003544881050000086
设置严格密度聚类的参数eps=0.58,对
Figure BDA0003544881050000087
进行第二次聚类得到标注
Figure BDA0003544881050000088
设置松弛密度聚类的参数eps=0.62,对
Figure BDA0003544881050000089
进行第三次聚类得到标注
Figure BDA00035448810500000810
Figure BDA00035448810500000811
7、根据Yt-standard获得目标域训练集中与第i张行人图像同属于一个类别的第j张行人图像。根据Yt-loose,Yt-tight判断这两张图像是否在第二次聚类和第三次聚类中属于同一个类别。若不是,则把这两张图像归为离异点。
8、为属于离异点的图像打上伪标签
Figure BDA00035448810500000812
其中No表示离异点的数量。对于目标域训练集中的其它图像,分别根据聚类结果标记伪标签。最终得到目标域训练集图像的伪标签
Figure BDA00035448810500000813
9、利用目标域训练集的伪标签和源域数据的真实标签对CNN编码器和交互级联轻量化transformers组成的模型进行监督,使用公式(7)进行损失值的计算,采用Adam梯度下降优化算法更新网络参数。
Figure BDA00035448810500000814
其中,wk、ck和vk分别表示源域类质心、目标域聚类质心和目标域离异点实例特征。ns
Figure BDA0003544881050000091
Figure BDA0003544881050000092
分别表示源域类、目标域聚类和目标域离异点的数量。f是步骤3输出的行人特征。z+表示对应于f的正类原型。τ被称为温度系数,它是一个常数。exp表示以自然常数e为底的指数函数,<a,b>表示计算a和b之间的欧式距离。
10、将步骤1至步骤9迭代L次,本专利L取为50。
本发明的有益效果:本发明设计的轻量化transformers在利用了transformer捕捉长距离依赖的同时又避免了因transformer泛化能力不强而导致的噪声标签影响加剧的问题。本发明提出的交互级联结构充分发挥了局部信息建模和全局信息建模之间的交互作用,有效增强了模型的行人特征表达能力。本发明在域自适应行人重识别任务上取得突出表现。
附图说明
图1是行人重识别任务示意图;
图2是CNN编码器的结构;
图3是交互级联轻量化transformers的结构;
图4是基于交互级联轻量化transformers的域自适应(DA-ICLT)训练流程图。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
本发明提供一种基于域自适应和交互级联轻量化transformers的行人重识别方法。下面结合附图对本发明的实施方式进行详细说明,具体包括以下步骤:
1、行人重识别任务。本发明的应用不限制行人图片数据的来源。本发明将以数据集Market-1501(Zheng L,Shen L,Tian L,et al.Scalable person re-identification:Abenchmark[C]//Proceedings of the IEEE international conference on computervision.2015:1116-1124.)和DukeMTMC-reID(RISTANI E,SOLERA F,ZOU R,etal.Performance measures and a data set for multi-target,multi-camera tracking[J].Lecture Notes in Computer Science,2016,9914LNCS(c):17–35.)为例。Market-1501由6台摄像机在夏季拍摄的1501个行人的32668张图像组成。其中训练集包含751个行人的12936张图像,检索库包含另外750个行人的3368张图像,行人图库包含这750个人的另外10164张图像。DukeMTMC-reID由8个摄像头在冬季拍摄的1404个行人的36411幅图像组成。其中训练集包含702个行人的16522幅图像,检索库包含2228张图像,行人图库包含17661张图像。行人重识别任务是在行人图库中寻找待检索行人的图像,如图1所示。在本实施例中,我们以Market-1501数据集为目标域和以DukeMTMC-reID数据集为源域来训练模型。
2、使用CNN编码器从行人图像提取紧凑的特征。
所述CNN编码器的结构如图2所示,它由ResNet-50(He,Kaiming,et al."Deepresidual learning for image recognition[C]//Proceedings of the IEEEconference on computer vision and pattern recognition.2016:770-778.)的卷积层一,卷积层二,卷积层三和卷积层四构成。CNN编码器输入维数是{3,256,128}的行人图像,CNN编码器输出维数是{1024,8,4}的特征图。该特征图将作为交互级联轻量化transformers的输入。
3、使用交互级联轻量化transformers提取具有辨识性的行人特征。
所述交互级联轻量化transformers的结构如图3所示。它由3个基本单元构成,每个基本单元由一层局部轻量化transformer和两层全局轻量化transformers级联构成。局部轻量化transformer和全局轻量化transformer是轻量化transformer的两种类型。局部轻量化transformer和全局轻量化transformer的组成模块相同,但执行的过程不同。它们均由嵌入模块、多头自注意力模块和多头混合模块组成。
交互级联轻量化transformers执行的过程由1层局部轻量化transformer执行的子过程和2层全局轻量化transformers执行的子过程构成。
交互级联轻量化transformers执行如下过程:
(3.1)1层局部轻量化transformer执行如下子过程:
(3.1.1)将输入局部轻量化transformer的特征图切割为8个查询块,得到f1,f2,…f8,它们的维数均是{1024,2,2},下标为查询块的序号。这8个查询块是通过将输入的特征图横向切割4次和纵向切割2次得到的。
(3.1.2)使用嵌入模块压缩8个查询块的通道数,得到8个压缩后的查询块e1,e2,…,e8,它们的维数均是{512,2,2},下标为查询块的序号。嵌入模块是一层卷积神经网络,它由512个尺寸是2×2的卷积核组成,它的步长为1。
(3.1.3)将8个查询块e1,…,ei,…,e8展开成8个维数是512×4的二维矩阵s1,…,si,…,s8。其中,展开操作只是将查询块的最后两维2×2展开成一维。
Figure BDA0003544881050000111
的下标为它对应的查询块的序号,其中
Figure BDA0003544881050000112
Figure BDA0003544881050000113
均是维数为512的一维向量,上标为一维向量的序号。
(3.1.4)基于si利用多头自注意力模块进行信息建模,过程如下:
由三个映射模块WQ,WK和WV得到查询矩阵qi,键矩阵ki和值矩阵vi
qi=WQsi;ki=WKsi;vi=WVsi (3)
式中的WQ,WK和WV为三个全连接层,它们的神经元个数均为512×512;qi,ki和vi均为维数是512×4的二维矩阵,下标i为对应的查询块的序号。
将qi,ki和vi分别划分为8组查询矩阵、键矩阵和值矩阵,每组查询矩阵、键矩阵和值矩阵均为维数是64×4的二维矩阵,其中8是多头自注意力机制中的头数。将每组内的键矩阵的转置与查询矩阵进行叉乘,得到查询块内各像素点的8组相似度值,每组相似度值存储在一个维数是4×4的二维矩阵中。对每组相似度值进行归一化处理得到8组权重,它们均是维数为4×4的二维矩阵。将8组值矩阵分别与对应组的权重进行叉乘,该操作的含义是将值矩阵中的各一维向量按对应像素点间的相似度进行聚合,该操作产生8组聚合结果
Figure BDA0003544881050000121
其中,
Figure BDA0003544881050000122
为维数是64×4的二维矩阵,下标i为对应的查询块的序号,上标m=1,2,…,8为组号。
(3.1.5)将8组二维矩阵
Figure BDA0003544881050000123
重新合并成一个维数是512×4的二维矩阵,将合并后的二维矩阵折叠为一个查询块ui,它的维数为{512,2,2},下标i为查询块的序号。该折叠操作仅是将矩阵的最后长度为4的一维折叠成了2×2的二维。
(3.1.6)将ui送入多头混合模块以混合不同头(组)的注意力结果,得到维数是{1024,2,2}的查询块ri,下标i为查询块的序号。多头混合模块是一层转置卷积神经网络,它由1024个尺寸为1×1的卷积核构成,它的步长为1。
(3.1.7)将8个查询块ri合并为一个特征图r,r的维数是{1024,8,4}。
(3.1.8)将特征图r与输入的特征图F混合:
Flocal=F+r (4)
式中Flocal的维数是{1024,8,4},上标local用于表明它是局部轻量化transformer的输出,它将作为步骤(3.2)的输入。
(3.2)两层全局轻量化transformer执行如下子过程:
(3.2.1)利用嵌入模块来压缩输入特征图的通道数,得到维数是{512,8,4}的特征图E。嵌入模块为一层卷积神经网络,它由512个尺寸是1×1的卷积核构成,它的步长为1。
(3.2.2)将特征图E展开成二维矩阵S=[S1,S2,…,…S32]。其中,展开操作只是将特征图的最后两维8×4展开成了一维。S由32个一维向量组成,它的维数是512×32。
(3.2.3)基于S利用多头自注意力模块进行信息建模,过程如下:
由三个映射模块WQ,WK和WV得到查询矩阵Q,键矩阵K和值矩阵V:
qi=WQQ;ki=WKK;vi=WVV (8)
式中的WQ,WK和WV为三个全连接层,它们的神经元个数均为512×512;Q,K和V均为维数是512×32的二维矩阵。
将Q,K和V分别划分为8组查询矩阵、键矩阵和值矩阵,每组查询矩阵、键矩阵和值矩阵均为维数是64×32的二维矩阵,其中8是多头自注意力机制中的头数。将每组内的键矩阵的转置与查询矩阵进行叉乘,得到查询块内各像素点的8组相似度值,每组相似度值存储在一个维数是32×32的二维矩阵中。对每组相似度值进行归一化处理得到8组权重,它们均是维数为32×32的二维矩阵。将8组值矩阵分别与对应组的权重进行叉乘,该操作的含义是将值矩阵中的各一维向量按对应像素点间的相似度进行聚合,该操作产生8组聚合结果w1,…,wm,…,w8。其中,wm为维数是64×32的二维矩阵,上标m=1,2,…,8为组号。
(3.2.4)将8组二维矩阵wm重新合并成一个维数是512×32的二维矩阵,将合并后的二维矩阵折叠为一个查询块u,它的维数为{512,8,4}。该折叠操作仅是将矩阵的最后一维32折叠成了二维8×4。
(3.2.5)将u送入多头混合模块以混合不同头(组)的注意力结果,得到维数是{1024,8,4}的查询块r。多头混合模块是一层转置卷积神经网络,它由1024个尺寸为1×1的卷积核构成,它的步长为1。
(3.2.6)以(3.2.5)的结果作为输入,将步骤(3.2.1)至步骤(3.2.5)迭代1次。
(3.3)以(3.2.6)的结果作为输入,将步骤(3.1)至步骤(3.2)迭代2次。最终得到维数是{1024,8,4}的特征图。该特征图将作为步骤4的输入。
4、对输入特征图进行全局平均池化得到维数是{1024,1,1}的新特征图,而后将新特征图降维得到维数是1024的一维特征向量。该一维特征向量将作为步骤5的输入。
5、目标域训练集所有行人图像的一维特征向量构成1个二维行人特征矩阵Ft,它的维数是1024×12936。其中,12936为目标域训练集中行人图像的个数。利用目标域训练集行人图像的特征更新第m时刻的混合记忆矩阵
Figure BDA0003544881050000141
混合记忆矩阵是1个维度为1024×12936二维矩阵,更新方法如下:
Figure BDA0003544881050000142
6、计算混合记忆矩阵中目标域训练集第i张行人图像的行人特征
Figure BDA0003544881050000143
与第j张行人图像的行人特征
Figure BDA0003544881050000144
的欧式距离di,j,计算所有12936张图片行人特征之间的欧式距离,得到行人特征距离矩阵
Figure BDA0003544881050000145
7、基于步骤6中的距离矩阵执行如下过程:设置标准密度聚类的参数eps=0.6,对总数12936张的目标域训练集图像在混合记忆矩阵中的行人特征
Figure BDA0003544881050000146
进行聚类得到目标域训练集每个图像的标注
Figure BDA0003544881050000147
Figure BDA0003544881050000148
设置严格密度聚类的参数eps=0.58,对
Figure BDA0003544881050000149
进行第二次聚类得到标注
Figure BDA00035448810500001410
设置松弛密度聚类的参数eps=0.62,对
Figure BDA00035448810500001411
进行第三次聚类得到标注
Figure BDA00035448810500001412
Figure BDA00035448810500001413
8、根据Yt-standard获得目标域训练集中与第i张行人图像同属于一个类别的第j张行人图像。根据Yt-loose,Yt-tight判断这两张图像是否在第二次聚类和第三次聚类中属于同一个类别。若不是,则把这两张图像归为离异点。
9、为属于离异点的图像打上伪标签
Figure BDA00035448810500001414
其中No表示离异点的数量。对于目标域训练集中的其它图像,分别根据聚类结果标记伪标签。最终得到目标域训练集图像的伪标签
Figure BDA0003544881050000151
10、利用目标域训练集的伪标签和源域训练集的真实标签对CNN编码器和交互级联轻量化transformers组成的模型进行监督,使用公式(7)进行损失值的计算,采用Adam梯度下降优化算法更新网络参数。
Figure BDA0003544881050000152
其中,wk、ck和vk分别表示源域类质心、目标域聚类质心和目标域离异点实例特征。ns
Figure BDA0003544881050000153
Figure BDA0003544881050000154
分别表示源域类、目标域聚类和目标域离异点的数量。f是步骤4输出的行人图像特征。z+表示对应于f的正类原型。τ称为温度系数,它是一个常数。exp表示以自然常数e为底的指数函数,<a,b>表示计算a和b之间的欧式距离。
11、将步骤2至步骤10迭代50次。整个域自适应训练过程如图4所示。

Claims (1)

1.一种基于交互级联轻量化transformers的域自适应行人重识别方法,其特征在于,步骤如下:
(1)使用CNN编码器从行人图像提取紧凑的特征
所述CNN编码器由若干卷积神经网络层构成,它输出维数是
Figure FDA0003544881040000011
的特征图,其中height为行人图像的高度,width为行人图像的宽度;该特征图将作为交互级联轻量化transformers的输入;
(2)使用交互级联轻量化transformers提取具有辨识性的行人特征
所述交互级联轻量化transformers由3个基本单元构成,每个基本单元由1层局部轻量化transformer和2层全局轻量化transformers级联构成;局部轻量化transformer和全局轻量化transformer的组成模块相同,但执行的过程不同;它们均由嵌入模块、多头自注意力模块和多头混合模块组成;
交互级联轻量化transformers执行的过程由1层局部轻量化transformer执行的子过程和2层全局轻量化transformers执行的子过程构成;
交互级联轻量化transformers执行如下过程:
(2.1)1层局部轻量化transformer执行如下子过程:
(2.1.1)将特征图切割为查询块:
Figure FDA0003544881040000014
式中,F为输入局部轻量化transformers的特征图;fi表示查询块,下标i为查询块的序号;Nq表示查询块的数量;divide()表示将特征图切割为查询块的操作;Nq=a×b,a和b分别表示在将特征图F切割为查询块的过程中,将F横向切割的次数和将F纵向切割的次数;查询块fi的维数为
Figure FDA0003544881040000012
(2.1.2)使用嵌入模块来压缩查询块fi的通道数,得到查询块ei;ei的维数是
Figure FDA0003544881040000013
其中d<1024;嵌入模块是1层卷积神经网络;
(2.1.3)将查询块ei展开成由多个一维向量构成的二维矩阵si
si=unfold(ei) (2)
式中,unfold()表示将查询块展开成二维矩阵的操作,该展开操作只是将查询块的最后两维
Figure FDA0003544881040000021
展开成了一维
Figure FDA0003544881040000022
Figure FDA0003544881040000023
表示查询块ei被展开成的二维矩阵,它的维数是d×N,其中
Figure FDA0003544881040000024
si的下标i为它对应的查询块的序号;
Figure FDA0003544881040000025
表示si中的第j个一维向量,
Figure FDA0003544881040000026
的维数为d;
(2.1.4)基于si利用多头自注意力模块进行信息建模,过程如下:
由3个映射模块WQ、WK和WV得到查询矩阵qi、键矩阵ki和值矩阵vi
qi=WQsi;ki=WKsi;vi=WVsi (3)
式中,WQ,WK和WV为3个全连接层,它们的神经元个数均为d×d;qi,ki和vi均为维数是d×N的二维矩阵,下标i为对应的查询块的序号;
将qi,ki和vi分别划分为H组查询矩阵、键矩阵和值矩阵,其中H为多头自注意力机制中的头数;将每组内的键矩阵的转置与查询矩阵进行叉乘,得到查询块内各像素点的H组相似度值;对每组相似度值进行归一化处理得到H组权重;将H组值矩阵分别与对应组的权重进行叉乘,该操作的含义是将值矩阵中的各一维向量按对应像素点间的相似度进行聚合,该操作产生H组聚合结果
Figure FDA0003544881040000027
其中,
Figure FDA0003544881040000028
为维数是
Figure FDA0003544881040000029
的二维矩阵,下标i为对应的查询块的序号,上标m=1,2,...,H为其对应的组号;
(2.1.5)将H组二维矩阵
Figure FDA00035448810400000210
重新合并成1个二维矩阵,将合并后的二维矩阵折叠为1个查询块ui,它的维数为
Figure FDA00035448810400000211
下标i为查询块的序号;该折叠操作只是将矩阵的最后一维折叠为二维;
(2.1.6)将ui送入多头混合模块以混合不同头的注意力结果,得到维数是
Figure FDA00035448810400000212
的查询块ri,下标i为查询块的序号;多头混合模块是1层转置卷积神经网络;
(2.1.7)将Nq个查询块ri合并为1个特征图r,r的维数是
Figure FDA00035448810400000213
(2.1.8)将特征图r与输入的特征图F混合:
Flocal=F+r (4)
式中,Flocal的维数是
Figure FDA0003544881040000031
上标local用于表明它是局部轻量化transformer的输出,它将作为步骤(2.2)的输入;
(2.2)2层全局轻量化transformers执行如下子过程:
(2.2.1)利用嵌入模块来压缩输入特征图的通道数,得到维数是
Figure FDA0003544881040000032
的特征图E,其中d<1024;
(2.2.2)将特征图E展开成二维矩阵:
S=UNFOLD(E) (5)
式中,UNFOLD( )表示将特征图展开为二维矩阵的操作,该展开操作只是将特征图的最后两维
Figure FDA0003544881040000033
展开成了一维
Figure FDA0003544881040000034
Figure FDA0003544881040000035
表示特征图E被展成的二维矩阵,它由
Figure FDA0003544881040000036
个一维向量组成,它的维数是d×NS
(2.2.3)以S作为输入,先用多头自注意力模块进行信息建模,然后将其输出重新排列为1个三维的特征图,最后利用多头混合模块混合不同头的注意力结果,其过程与步骤(2.1.4)至步骤(2.1.6)相同;
(2.2.4)以(2.2.3)的结果作为输入,将步骤(2.2.1)至步骤(2.2.3)迭代1次;
(2.3)以(2.2.4)的结果作为输入,循环执行步骤(2.1)~(2.2)2次;最终得到维数是
Figure FDA0003544881040000037
的特征图,该特征图将作为步骤(3)的输入;
(3)对输入特征图进行全局平均池化得到维数是{1024,1,1}的新特征图,而后将新特征图降维得到维数是1024的一维特征向量;该一维特征向量将作为步骤(4)的输入;
(4)在m时刻,利用目标域训练集行人图像的特征更新混合记忆矩阵,它是一个维度是Nt×1024二维矩阵,其中,Nt为目标域训练集中行人图像的个数;更新方法如下:
Figure FDA0003544881040000041
式中,μ为常数,用于控制混合记忆矩阵更新的快慢;
Figure FDA0003544881040000042
是m时刻的混合记忆矩阵;Ft为维数是Nt×1024的二维矩阵,它由从步骤(3)中得到的目标域训练集图像的一维特征向量构成的,上标t表示它对应的是目标域图像;
(5)计算混合记忆矩阵中目标域训练集第i张行人图像的行人特征
Figure FDA0003544881040000043
与第j张行人图像的行人特征
Figure FDA0003544881040000044
的欧式距离di,j,计算所有Nt张图片行人特征之间的欧式距离,得到行人特征距离矩阵
Figure FDA0003544881040000045
(6)基于步骤(5)中的距离矩阵执行如下过程:设置标准密度聚类的参数eps=0.6,对总数Nt张的目标域训练集图像在混合记忆矩阵中的行人特征
Figure FDA0003544881040000046
进行聚类得到目标域训练集每个图像的标注
Figure FDA0003544881040000047
Figure FDA0003544881040000048
设置严格密度聚类的参数eps=0.58,对
Figure FDA0003544881040000049
进行第二次聚类得到标注
Figure FDA00035448810400000410
设置松弛密度聚类的参数eps=0.62,对
Figure FDA00035448810400000411
进行第三次聚类得到标注
Figure FDA00035448810400000412
Figure FDA00035448810400000413
(7)根据Yt-standard获得目标域训练集中与第i张行人图像同属于一个类别的第j张行人图像;根据Yt-loose,Yt-tight判断这两张图像是否在第二次聚类和第三次聚类中属于同一个类别;若不是,则把这两张图像归为离异点;
(8)为属于离异点的图像打上伪标签
Figure FDA00035448810400000414
其中,No表示离异点的数量;对于目标域训练集中的其它图像,分别根据聚类结果标记伪标签;最终得到目标域训练集图像的伪标签
Figure FDA00035448810400000415
(9)利用目标域训练集的伪标签和源域数据的真实标签对CNN编码器和交互级联轻量化transformers组成的模型进行监督,使用公式(7)进行损失值的计算,采用Adam梯度下降优化算法更新网络参数;
Figure FDA0003544881040000051
其中,wk、ck和vk分别表示源域类质心、目标域聚类质心和目标域离异点实例特征;ns、
Figure FDA0003544881040000052
Figure FDA0003544881040000053
分别表示源域类、目标域聚类和目标域离异点的数量;f是步骤(3)输出的行人特征;z+表示对应于f的正类原型;τ被称为温度系数,它是一个常数;exp()表示以自然常数e为底的指数函数,<a,b>表示计算a和b之间的欧式距离;
(10)将步骤(1)至步骤(9)迭代L次。
CN202210246448.6A 2022-03-14 2022-03-14 一种基于交互级联轻量化transformers的域自适应行人重识别方法 Pending CN114596589A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210246448.6A CN114596589A (zh) 2022-03-14 2022-03-14 一种基于交互级联轻量化transformers的域自适应行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210246448.6A CN114596589A (zh) 2022-03-14 2022-03-14 一种基于交互级联轻量化transformers的域自适应行人重识别方法

Publications (1)

Publication Number Publication Date
CN114596589A true CN114596589A (zh) 2022-06-07

Family

ID=81816859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210246448.6A Pending CN114596589A (zh) 2022-03-14 2022-03-14 一种基于交互级联轻量化transformers的域自适应行人重识别方法

Country Status (1)

Country Link
CN (1) CN114596589A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497120A (zh) * 2022-09-23 2022-12-20 清华大学 基于Transformer的两步式领域自适应行人再识别方法
CN115601791A (zh) * 2022-11-10 2023-01-13 江南大学(Cn) 基于Multiformer及离群样本重分配的无监督行人重识别方法
CN116403015A (zh) * 2023-03-13 2023-07-07 武汉大学 基于感知辅助学习Transformer模型的无监督目标重识别方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497120A (zh) * 2022-09-23 2022-12-20 清华大学 基于Transformer的两步式领域自适应行人再识别方法
CN115497120B (zh) * 2022-09-23 2023-12-15 清华大学 基于Transformer的两步式领域自适应行人再识别方法
CN115601791A (zh) * 2022-11-10 2023-01-13 江南大学(Cn) 基于Multiformer及离群样本重分配的无监督行人重识别方法
CN116403015A (zh) * 2023-03-13 2023-07-07 武汉大学 基于感知辅助学习Transformer模型的无监督目标重识别方法及系统
CN116403015B (zh) * 2023-03-13 2024-05-03 武汉大学 基于感知辅助学习Transformer模型的无监督目标重识别方法及系统

Similar Documents

Publication Publication Date Title
CN111652236B (zh) 弱监督场景下跨层特征交互的轻量级细粒度图像识别方法
CN111325111A (zh) 一种融合逆注意力和多尺度深度监督的行人重识别方法
CN108197326B (zh) 一种车辆检索方法及装置、电子设备、存储介质
WO2021022521A1 (zh) 数据处理的方法、训练神经网络模型的方法及设备
CN114596589A (zh) 一种基于交互级联轻量化transformers的域自适应行人重识别方法
CN111191526B (zh) 行人属性识别网络训练方法、系统、介质及终端
AU2020104423A4 (en) Multi-View Three-Dimensional Model Retrieval Method Based on Non-Local Graph Convolutional Network
Cadena et al. Pedestrian graph: Pedestrian crossing prediction based on 2d pose estimation and graph convolutional networks
CN105528575B (zh) 基于上下文推理的天空检测方法
CN111310773A (zh) 一种高效的卷积神经网络的车牌定位方法
CN111666843A (zh) 一种基于全局特征和局部特征拼接的行人重识别方法
WO2022062419A1 (zh) 基于非督导金字塔相似性学习的目标重识别方法及系统
CN113408455A (zh) 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质
CN113313173B (zh) 基于图表示和改进Transformer的人体解析方法
CN111046732A (zh) 一种基于多粒度语义解析的行人重识别方法及存储介质
CN105574545B (zh) 街道环境图像多视角语义切割方法及装置
CN111723600B (zh) 一种基于多任务学习的行人重识别特征描述子
CN112183464A (zh) 基于深度神经网络和图卷积网络的视频行人识别方法
Li et al. An aerial image segmentation approach based on enhanced multi-scale convolutional neural network
CN113052017A (zh) 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法
Xu et al. Graphical modeling for multi-source domain adaptation
Liu et al. Image retrieval using CNN and low-level feature fusion for crime scene investigation image database
CN116434347A (zh) 一种基于掩码图自编码器的骨架序列识别方法及系统
Gao et al. Evaluation of regularized multi-task leaning algorithms for single/multi-view human action recognition
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination