CN114596589A - 一种基于交互级联轻量化transformers的域自适应行人重识别方法 - Google Patents
一种基于交互级联轻量化transformers的域自适应行人重识别方法 Download PDFInfo
- Publication number
- CN114596589A CN114596589A CN202210246448.6A CN202210246448A CN114596589A CN 114596589 A CN114596589 A CN 114596589A CN 202210246448 A CN202210246448 A CN 202210246448A CN 114596589 A CN114596589 A CN 114596589A
- Authority
- CN
- China
- Prior art keywords
- lightweight
- dimension
- pedestrian
- matrix
- dimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 35
- 230000009466 transformation Effects 0.000 title claims abstract description 20
- 238000000844 transformation Methods 0.000 title claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims description 85
- 238000012549 training Methods 0.000 claims description 37
- 238000013527 convolutional neural network Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 22
- 238000002156 mixing Methods 0.000 claims description 10
- 238000005520 cutting process Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 claims 1
- 230000017105 transposition Effects 0.000 claims 1
- 230000003993 interaction Effects 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 7
- 238000009826 distribution Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于交互级联轻量化transformers的域自适应行人重识别方法,属于计算机视觉与行人识别的交叉技术领域。该方法所设计的轻量化transformer包括局部轻量化transformer和全局轻量化transformer,它们由嵌入模块、多头自注意力模块和多头混合模块组成。轻量化transformer可以捕捉长距离依赖,避免噪声标签的影响加剧。在该方法所设计的交互级联框架中,像素点被交替赋予局部信息和全局信息,这增强了局部信息建模和全局信息建模的交互能力,进而提高了模型的特征表达能力。本方法实现了有效的域自适应行人重识别。
Description
技术领域
本发明属于人工智能领域,具体为计算机视觉与行人识别的交叉技术领域,涉及一种基于域自适应和交互级联轻量化transformers的行人重识别方法。
背景技术
进入21世纪以来,智能监控设备得到了飞速的发展,同时储存海量数据的硬件设备不断成熟。为了能够有效地提高公共安全,在社会公共场所、交通路口、大众家庭等越来越多的地方部署了大量的监控摄像头,对于监控视频的处理成为重要的研究方向。行人重识别旨在从非重叠摄像头拍摄的大量候选人中识别出指定的查询人,广泛应用于视频监控、智能安防等多个领域。虽然有监督的行人重识别方法已经取得了很好的效果,但是沉重的标注负担使得它很难在现实世界中应用。因此,近年来域自适应行人重识别引起了广泛的关注。在该任务中,通过使用标记的源域数据和未标记的目标域数据来训练模型,以拟合未标记的目标域。域自适应行人重识别任务的主要挑战是分布漂移。分布漂移是指由于源域的特征分布和目标域的特征分布差别较大,在源域训练的模型会在目标域出现严重的性能下降的现象。
有两种常见的方法来解决分布漂移:域对齐策略或为目标域数据分配伪标签。基于域对齐的方法通常使用生成对抗网络(GANs)生成额外的图像。例如,SBSGAN使用GANs将源域图像转换为无背景的图像和目标域风格的图像,然后将这两个数据集用作训练集(Huang Y,Wu Q,Xu J S,et al.SBSGAN:Suppression of inter-domain backgroundshift for person re-identification[C]//Proceedings of the IEEE/CVFInternational Conference on Computer Vision.2019:9527-9536.)。这类方法的性能很大程度上取决于生成图像的质量。
基于伪标签的方法可以有效地捕获目标域分布。这类方法面临的挑战是如何提高伪标签的准确性。一些研究人员通过设计更好的伪标签估计算法来解决这一挑战。Ge等人提出了一个名为“同步平均教学”的框架来优化伪标签,通过与辅助域中的一组已知参考人进行比较,为每个未标记的人学习软多标签(Yixiao G,Dapeng C,Hongsheng L.MutualMean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaptation onPerson Re-identification[C]//Proceedings of theInternational Conference onLearning Representations.2018:79-88.)。其它研究则通过获取具有辨识性的行人特征来提高伪标签的准确性。PatchNet从选定的补丁中学习具有辨识性的特征(Yang Q,Yu HX,Wu A,et al.Patch-based discriminative feature learning for unsupervisedperson re-identification[C]//Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition.2019:3633-3642.);Zhong等人使用基于多尺度特征的三种伪标签过滤数据并对模型进行训练,同时提出了一种相机不变损失以减少相机风格的影响(Zhang H,Cao H,Yang X,et al.Self-Training With ProgressiveRepresentation Enhancement for Unsupervised Cross-Domain Person Re-Identification[J].IEEE Transactions on Image Processing,2021,30:5287-5298.)。
在上述工作中,如何提取具有辨识性的行人特征是跨域行人重识别的一个关键问题。现有的大多数特征提取工作都是基于卷积神经网络(CNNs)的,因此它们受到CNNs有限感受野的阻碍。Transformer(Vaswani A,Shazeer N,Parmar N,et al.Attention is allyou need[C]//Advances in Neural Information Processing SysteNS.2017:5998-6008.)可以捕获长距离的相互依赖关系,但由于其泛化能力较弱,transformer需要大量的预训练,大规模数据集或复杂的超参数调整(Touvron,H.,Cord,M.,Douze,M.,etal.Training data-efficient image transformers&distillation through attention[C]//International Conference on Machine Learning.2021:10347-10357.),它很难直接应用于域自适应行人重识别任务。因此,本发明提出了一个参数较少的轻量化transformer来克服感受野受限的问题,并提取具有辨识性的行人特征。
另一方面,在行人重识别任务中,局部信息建模和全局信息建模之间的交互也有助于提取具有辨识性的行人特征。通常,局部信息和全局信息之间存在联系。比如穿裙子或者靴子的人更可能是长着长发的女性,背着黑色背包的人更可能是带着长着短发的男性。因此,全局信息建模生成的全局属性依赖可以提高局部信息的准确性,而来自局部信息建模的局部信息有利于全局依赖的建立。这两个建模过程之间的交互有助于增强特征表达。
然而,现有的视觉transformer不能利用这种交互作用。视觉transformer的典型结构包括基于自注意力的非层次结构、朴素层次结构、金字塔结构和交叉注意力结构。基于自注意力的非层次结构只执行全局信息建模;朴素层次结构执行多尺度信息建模;金字塔结构融合了多尺度信息;交叉注意结构允许模型利用多尺度信息建立依赖关系。上述结构中不涉及两个建模过程的交互影响。为了有效利用局部信息建模和全局信息建模之间的交互,本发明提出了一种局部信息建模和全局信息建模交互的级联框架,以增强域自适应行人重识别任务中辨识性行人特征的提取。
综上,针对域自适应行人重识别任务中模型的感受野受限、局部信息建模和全局信息建模之间交互作用不足的问题,本发明提出一种基于交互级联轻量化transformers的域自适应方法(Domain Adaption withInteractive Cascade LightweightTransformers,DA-ICLT)。本发明提出的轻量化transformer可以捕捉长距离依赖,并能避免噪声标签的影响加剧。它删除了transformer中的多层感知机(MLP)以增强模型的泛化能力并减轻计算开销,使用卷积神经网络代替部分全连接层以引入平移不变性和局部性。进一步地,本发明中的交互级联轻量化transformers框架可以有效增强行人特征表达。它通过交替赋予像素点局部邻域信息和全局信息,使得局部信息建模和全局信息建模互补地增强了像素点的特征表达。
发明内容
针对域自适应行人重识别任务,本发明专利提出一种基于交互级联轻量化transformers的域自适应方法(DA-ICLT)。在该方法中,通过设计的轻量化transformer网络,解决了感受野受限的问题,避免了噪声标签影响加剧;通过设计的交互级联框架,增强了局部信息建模和全局信息建模的交互能力,最终提高了模型的特征表达能力。
本发明的技术方案:
一种基于交互级联轻量化transformers的域自适应行人重识别方法,步骤如下:
1、使用CNN编码器从行人图像提取紧凑的特征。
2、使用交互级联轻量化transformers提取具有辨识性的行人特征。
所述交互级联轻量化transformers由3个基本单元构成,每个基本单元由1层局部轻量化transformer和2层全局轻量化transformers级联构成。局部轻量化transformer和全局轻量化transformer是轻量化transformer的两种类型。局部轻量化transformer和全局轻量化transformer的组成模块相同,但执行的过程不同。它们均由嵌入模块、多头自注意力模块和多头混合模块组成。
交互级联轻量化transformers执行的过程由1层局部轻量化transformer执行的子过程和2层全局轻量化transformers执行的子过程构成。
交互级联轻量化transformers执行如下过程:
(2.1)1层局部轻量化transformer执行如下子过程:
(2.1.1)将特征图切割为查询块:
式中F为输入局部轻量化transformers的特征图,它的维数是fi表示查询块,下标i为查询块的序号;Nq表示查询块的数量;divide()表示将特征图切割为查询块的操作。Nq=a×b,a和b分别表示在将特征图F切割为查询块的过程中,将F横向切割的次数和将F纵向切割的次数。查询块fi的维数为
(2.1.3)将查询块ei展开成由多个一维向量构成的二维矩阵si:
si=unfold(ei) (2)
式中unfold()表示将查询块展开成二维矩阵的操作,该展开操作只是将查询块的最后两维展开成了一维表示查询块ei被展开成的二维矩阵,它的维数是d×N,其中si的下标i为它对应的查询块的序号。表示si中的第j个一维向量,的维数为d。
(2.1.4)基于si利用多头自注意力模块进行信息建模,过程如下:
由3个映射模块WQ,WK和WV得到查询矩阵qi,键矩阵ki和值矩阵vi:
qi=WQsi;ki=WKsi;vi=WVsi (3)
式中的WQ,WK和WV为3个全连接层,它们的神经元个数均为d×d;qi,ki和vi均为维数是d×N的二维矩阵,下标i为对应的查询块的序号。
将qi,ki和vi分别划分为H组查询矩阵、键矩阵和值矩阵,其中H为多头自注意力机制中的头数。将每组内的键矩阵的转置与查询矩阵进行叉乘,得到查询块内各像素点的H组相似度值。对每组相似度值进行归一化处理得到H组权重。将H组值矩阵分别与对应组的权重进行叉乘,该操作的含义是将值矩阵中的各一维向量按对应像素点间的相似度进行聚合,该操作产生H组聚合结果其中,为维数是的二维矩阵,下标i为对应的查询块的序号,上标m=1,2,…,H为其对应的组号。
(2.1.8)将特征图r与输入的特征图F混合:
Flocal=F+r (4)
(2.2)2层全局轻量化transformers执行如下子过程:
(2.2.2)将特征图E展开成二维矩阵:
S=UNFOLD(E) (5)
(2.2.3)以S作为输入,先用多头自注意力模块进行信息建模,然后将其输出重新排列为1个三维的特征图,最后利用多头混合模块混合不同头(组)的注意力结果。其过程与步骤(2.1.4)至步骤(2.1.6)相同。
(2.2.4)以(2.2.3)的结果作为输入,将步骤(2.2.1)至步骤(2.2.3)迭代1次。
3、对输入特征图进行全局平均池化得到维数是{1024,1,1}的新特征图,而后将新特征图降维得到维数是1024的一维特征向量。该一维特征向量将作为步骤4的输入。
4、在m时刻,利用目标域训练集行人图像的特征更新混合记忆矩阵,它是一个维度是Nt×1024二维矩阵,其中,Nt为目标域训练集中行人图像的个数。更新方法如下:
式中的参数μ为常数,用于控制混合记忆矩阵更新的快慢;是m时刻的混合记忆矩阵;Ft为维数是Nt×1024的二维矩阵,它由从步骤3中得到的目标域训练集图像的一维特征向量构成的,上标t表示它对应的是目标域图像。
6、基于步骤5中的距离矩阵执行如下过程:设置标准密度聚类的参数eps=0.6,对总数Nt张的目标域训练集图像在混合记忆矩阵中的行人特征进行聚类得到目标域训练集每个图像的标注 设置严格密度聚类的参数eps=0.58,对进行第二次聚类得到标注设置松弛密度聚类的参数eps=0.62,对进行第三次聚类得到标注
7、根据Yt-standard获得目标域训练集中与第i张行人图像同属于一个类别的第j张行人图像。根据Yt-loose,Yt-tight判断这两张图像是否在第二次聚类和第三次聚类中属于同一个类别。若不是,则把这两张图像归为离异点。
9、利用目标域训练集的伪标签和源域数据的真实标签对CNN编码器和交互级联轻量化transformers组成的模型进行监督,使用公式(7)进行损失值的计算,采用Adam梯度下降优化算法更新网络参数。
其中,wk、ck和vk分别表示源域类质心、目标域聚类质心和目标域离异点实例特征。ns、和分别表示源域类、目标域聚类和目标域离异点的数量。f是步骤3输出的行人特征。z+表示对应于f的正类原型。τ被称为温度系数,它是一个常数。exp表示以自然常数e为底的指数函数,<a,b>表示计算a和b之间的欧式距离。
10、将步骤1至步骤9迭代L次,本专利L取为50。
本发明的有益效果:本发明设计的轻量化transformers在利用了transformer捕捉长距离依赖的同时又避免了因transformer泛化能力不强而导致的噪声标签影响加剧的问题。本发明提出的交互级联结构充分发挥了局部信息建模和全局信息建模之间的交互作用,有效增强了模型的行人特征表达能力。本发明在域自适应行人重识别任务上取得突出表现。
附图说明
图1是行人重识别任务示意图;
图2是CNN编码器的结构;
图3是交互级联轻量化transformers的结构;
图4是基于交互级联轻量化transformers的域自适应(DA-ICLT)训练流程图。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
本发明提供一种基于域自适应和交互级联轻量化transformers的行人重识别方法。下面结合附图对本发明的实施方式进行详细说明,具体包括以下步骤:
1、行人重识别任务。本发明的应用不限制行人图片数据的来源。本发明将以数据集Market-1501(Zheng L,Shen L,Tian L,et al.Scalable person re-identification:Abenchmark[C]//Proceedings of the IEEE international conference on computervision.2015:1116-1124.)和DukeMTMC-reID(RISTANI E,SOLERA F,ZOU R,etal.Performance measures and a data set for multi-target,multi-camera tracking[J].Lecture Notes in Computer Science,2016,9914LNCS(c):17–35.)为例。Market-1501由6台摄像机在夏季拍摄的1501个行人的32668张图像组成。其中训练集包含751个行人的12936张图像,检索库包含另外750个行人的3368张图像,行人图库包含这750个人的另外10164张图像。DukeMTMC-reID由8个摄像头在冬季拍摄的1404个行人的36411幅图像组成。其中训练集包含702个行人的16522幅图像,检索库包含2228张图像,行人图库包含17661张图像。行人重识别任务是在行人图库中寻找待检索行人的图像,如图1所示。在本实施例中,我们以Market-1501数据集为目标域和以DukeMTMC-reID数据集为源域来训练模型。
2、使用CNN编码器从行人图像提取紧凑的特征。
所述CNN编码器的结构如图2所示,它由ResNet-50(He,Kaiming,et al."Deepresidual learning for image recognition[C]//Proceedings of the IEEEconference on computer vision and pattern recognition.2016:770-778.)的卷积层一,卷积层二,卷积层三和卷积层四构成。CNN编码器输入维数是{3,256,128}的行人图像,CNN编码器输出维数是{1024,8,4}的特征图。该特征图将作为交互级联轻量化transformers的输入。
3、使用交互级联轻量化transformers提取具有辨识性的行人特征。
所述交互级联轻量化transformers的结构如图3所示。它由3个基本单元构成,每个基本单元由一层局部轻量化transformer和两层全局轻量化transformers级联构成。局部轻量化transformer和全局轻量化transformer是轻量化transformer的两种类型。局部轻量化transformer和全局轻量化transformer的组成模块相同,但执行的过程不同。它们均由嵌入模块、多头自注意力模块和多头混合模块组成。
交互级联轻量化transformers执行的过程由1层局部轻量化transformer执行的子过程和2层全局轻量化transformers执行的子过程构成。
交互级联轻量化transformers执行如下过程:
(3.1)1层局部轻量化transformer执行如下子过程:
(3.1.1)将输入局部轻量化transformer的特征图切割为8个查询块,得到f1,f2,…f8,它们的维数均是{1024,2,2},下标为查询块的序号。这8个查询块是通过将输入的特征图横向切割4次和纵向切割2次得到的。
(3.1.2)使用嵌入模块压缩8个查询块的通道数,得到8个压缩后的查询块e1,e2,…,e8,它们的维数均是{512,2,2},下标为查询块的序号。嵌入模块是一层卷积神经网络,它由512个尺寸是2×2的卷积核组成,它的步长为1。
(3.1.3)将8个查询块e1,…,ei,…,e8展开成8个维数是512×4的二维矩阵s1,…,si,…,s8。其中,展开操作只是将查询块的最后两维2×2展开成一维。的下标为它对应的查询块的序号,其中和均是维数为512的一维向量,上标为一维向量的序号。
(3.1.4)基于si利用多头自注意力模块进行信息建模,过程如下:
由三个映射模块WQ,WK和WV得到查询矩阵qi,键矩阵ki和值矩阵vi:
qi=WQsi;ki=WKsi;vi=WVsi (3)
式中的WQ,WK和WV为三个全连接层,它们的神经元个数均为512×512;qi,ki和vi均为维数是512×4的二维矩阵,下标i为对应的查询块的序号。
将qi,ki和vi分别划分为8组查询矩阵、键矩阵和值矩阵,每组查询矩阵、键矩阵和值矩阵均为维数是64×4的二维矩阵,其中8是多头自注意力机制中的头数。将每组内的键矩阵的转置与查询矩阵进行叉乘,得到查询块内各像素点的8组相似度值,每组相似度值存储在一个维数是4×4的二维矩阵中。对每组相似度值进行归一化处理得到8组权重,它们均是维数为4×4的二维矩阵。将8组值矩阵分别与对应组的权重进行叉乘,该操作的含义是将值矩阵中的各一维向量按对应像素点间的相似度进行聚合,该操作产生8组聚合结果其中,为维数是64×4的二维矩阵,下标i为对应的查询块的序号,上标m=1,2,…,8为组号。
(3.1.5)将8组二维矩阵重新合并成一个维数是512×4的二维矩阵,将合并后的二维矩阵折叠为一个查询块ui,它的维数为{512,2,2},下标i为查询块的序号。该折叠操作仅是将矩阵的最后长度为4的一维折叠成了2×2的二维。
(3.1.6)将ui送入多头混合模块以混合不同头(组)的注意力结果,得到维数是{1024,2,2}的查询块ri,下标i为查询块的序号。多头混合模块是一层转置卷积神经网络,它由1024个尺寸为1×1的卷积核构成,它的步长为1。
(3.1.7)将8个查询块ri合并为一个特征图r,r的维数是{1024,8,4}。
(3.1.8)将特征图r与输入的特征图F混合:
Flocal=F+r (4)
式中Flocal的维数是{1024,8,4},上标local用于表明它是局部轻量化transformer的输出,它将作为步骤(3.2)的输入。
(3.2)两层全局轻量化transformer执行如下子过程:
(3.2.1)利用嵌入模块来压缩输入特征图的通道数,得到维数是{512,8,4}的特征图E。嵌入模块为一层卷积神经网络,它由512个尺寸是1×1的卷积核构成,它的步长为1。
(3.2.2)将特征图E展开成二维矩阵S=[S1,S2,…,…S32]。其中,展开操作只是将特征图的最后两维8×4展开成了一维。S由32个一维向量组成,它的维数是512×32。
(3.2.3)基于S利用多头自注意力模块进行信息建模,过程如下:
由三个映射模块WQ,WK和WV得到查询矩阵Q,键矩阵K和值矩阵V:
qi=WQQ;ki=WKK;vi=WVV (8)
式中的WQ,WK和WV为三个全连接层,它们的神经元个数均为512×512;Q,K和V均为维数是512×32的二维矩阵。
将Q,K和V分别划分为8组查询矩阵、键矩阵和值矩阵,每组查询矩阵、键矩阵和值矩阵均为维数是64×32的二维矩阵,其中8是多头自注意力机制中的头数。将每组内的键矩阵的转置与查询矩阵进行叉乘,得到查询块内各像素点的8组相似度值,每组相似度值存储在一个维数是32×32的二维矩阵中。对每组相似度值进行归一化处理得到8组权重,它们均是维数为32×32的二维矩阵。将8组值矩阵分别与对应组的权重进行叉乘,该操作的含义是将值矩阵中的各一维向量按对应像素点间的相似度进行聚合,该操作产生8组聚合结果w1,…,wm,…,w8。其中,wm为维数是64×32的二维矩阵,上标m=1,2,…,8为组号。
(3.2.4)将8组二维矩阵wm重新合并成一个维数是512×32的二维矩阵,将合并后的二维矩阵折叠为一个查询块u,它的维数为{512,8,4}。该折叠操作仅是将矩阵的最后一维32折叠成了二维8×4。
(3.2.5)将u送入多头混合模块以混合不同头(组)的注意力结果,得到维数是{1024,8,4}的查询块r。多头混合模块是一层转置卷积神经网络,它由1024个尺寸为1×1的卷积核构成,它的步长为1。
(3.2.6)以(3.2.5)的结果作为输入,将步骤(3.2.1)至步骤(3.2.5)迭代1次。
(3.3)以(3.2.6)的结果作为输入,将步骤(3.1)至步骤(3.2)迭代2次。最终得到维数是{1024,8,4}的特征图。该特征图将作为步骤4的输入。
4、对输入特征图进行全局平均池化得到维数是{1024,1,1}的新特征图,而后将新特征图降维得到维数是1024的一维特征向量。该一维特征向量将作为步骤5的输入。
5、目标域训练集所有行人图像的一维特征向量构成1个二维行人特征矩阵Ft,它的维数是1024×12936。其中,12936为目标域训练集中行人图像的个数。利用目标域训练集行人图像的特征更新第m时刻的混合记忆矩阵混合记忆矩阵是1个维度为1024×12936二维矩阵,更新方法如下:
7、基于步骤6中的距离矩阵执行如下过程:设置标准密度聚类的参数eps=0.6,对总数12936张的目标域训练集图像在混合记忆矩阵中的行人特征进行聚类得到目标域训练集每个图像的标注 设置严格密度聚类的参数eps=0.58,对进行第二次聚类得到标注设置松弛密度聚类的参数eps=0.62,对进行第三次聚类得到标注
8、根据Yt-standard获得目标域训练集中与第i张行人图像同属于一个类别的第j张行人图像。根据Yt-loose,Yt-tight判断这两张图像是否在第二次聚类和第三次聚类中属于同一个类别。若不是,则把这两张图像归为离异点。
10、利用目标域训练集的伪标签和源域训练集的真实标签对CNN编码器和交互级联轻量化transformers组成的模型进行监督,使用公式(7)进行损失值的计算,采用Adam梯度下降优化算法更新网络参数。
其中,wk、ck和vk分别表示源域类质心、目标域聚类质心和目标域离异点实例特征。ns、和分别表示源域类、目标域聚类和目标域离异点的数量。f是步骤4输出的行人图像特征。z+表示对应于f的正类原型。τ称为温度系数,它是一个常数。exp表示以自然常数e为底的指数函数,<a,b>表示计算a和b之间的欧式距离。
11、将步骤2至步骤10迭代50次。整个域自适应训练过程如图4所示。
Claims (1)
1.一种基于交互级联轻量化transformers的域自适应行人重识别方法,其特征在于,步骤如下:
(1)使用CNN编码器从行人图像提取紧凑的特征
(2)使用交互级联轻量化transformers提取具有辨识性的行人特征
所述交互级联轻量化transformers由3个基本单元构成,每个基本单元由1层局部轻量化transformer和2层全局轻量化transformers级联构成;局部轻量化transformer和全局轻量化transformer的组成模块相同,但执行的过程不同;它们均由嵌入模块、多头自注意力模块和多头混合模块组成;
交互级联轻量化transformers执行的过程由1层局部轻量化transformer执行的子过程和2层全局轻量化transformers执行的子过程构成;
交互级联轻量化transformers执行如下过程:
(2.1)1层局部轻量化transformer执行如下子过程:
(2.1.1)将特征图切割为查询块:
式中,F为输入局部轻量化transformers的特征图;fi表示查询块,下标i为查询块的序号;Nq表示查询块的数量;divide()表示将特征图切割为查询块的操作;Nq=a×b,a和b分别表示在将特征图F切割为查询块的过程中,将F横向切割的次数和将F纵向切割的次数;查询块fi的维数为
(2.1.3)将查询块ei展开成由多个一维向量构成的二维矩阵si:
si=unfold(ei) (2)
式中,unfold()表示将查询块展开成二维矩阵的操作,该展开操作只是将查询块的最后两维展开成了一维 表示查询块ei被展开成的二维矩阵,它的维数是d×N,其中si的下标i为它对应的查询块的序号;表示si中的第j个一维向量,的维数为d;
(2.1.4)基于si利用多头自注意力模块进行信息建模,过程如下:
由3个映射模块WQ、WK和WV得到查询矩阵qi、键矩阵ki和值矩阵vi:
qi=WQsi;ki=WKsi;vi=WVsi (3)
式中,WQ,WK和WV为3个全连接层,它们的神经元个数均为d×d;qi,ki和vi均为维数是d×N的二维矩阵,下标i为对应的查询块的序号;
将qi,ki和vi分别划分为H组查询矩阵、键矩阵和值矩阵,其中H为多头自注意力机制中的头数;将每组内的键矩阵的转置与查询矩阵进行叉乘,得到查询块内各像素点的H组相似度值;对每组相似度值进行归一化处理得到H组权重;将H组值矩阵分别与对应组的权重进行叉乘,该操作的含义是将值矩阵中的各一维向量按对应像素点间的相似度进行聚合,该操作产生H组聚合结果其中,为维数是的二维矩阵,下标i为对应的查询块的序号,上标m=1,2,...,H为其对应的组号;
(2.1.8)将特征图r与输入的特征图F混合:
Flocal=F+r (4)
(2.2)2层全局轻量化transformers执行如下子过程:
(2.2.2)将特征图E展开成二维矩阵:
S=UNFOLD(E) (5)
(2.2.3)以S作为输入,先用多头自注意力模块进行信息建模,然后将其输出重新排列为1个三维的特征图,最后利用多头混合模块混合不同头的注意力结果,其过程与步骤(2.1.4)至步骤(2.1.6)相同;
(2.2.4)以(2.2.3)的结果作为输入,将步骤(2.2.1)至步骤(2.2.3)迭代1次;
(3)对输入特征图进行全局平均池化得到维数是{1024,1,1}的新特征图,而后将新特征图降维得到维数是1024的一维特征向量;该一维特征向量将作为步骤(4)的输入;
(4)在m时刻,利用目标域训练集行人图像的特征更新混合记忆矩阵,它是一个维度是Nt×1024二维矩阵,其中,Nt为目标域训练集中行人图像的个数;更新方法如下:
式中,μ为常数,用于控制混合记忆矩阵更新的快慢;是m时刻的混合记忆矩阵;Ft为维数是Nt×1024的二维矩阵,它由从步骤(3)中得到的目标域训练集图像的一维特征向量构成的,上标t表示它对应的是目标域图像;
(6)基于步骤(5)中的距离矩阵执行如下过程:设置标准密度聚类的参数eps=0.6,对总数Nt张的目标域训练集图像在混合记忆矩阵中的行人特征进行聚类得到目标域训练集每个图像的标注 设置严格密度聚类的参数eps=0.58,对进行第二次聚类得到标注设置松弛密度聚类的参数eps=0.62,对进行第三次聚类得到标注
(7)根据Yt-standard获得目标域训练集中与第i张行人图像同属于一个类别的第j张行人图像;根据Yt-loose,Yt-tight判断这两张图像是否在第二次聚类和第三次聚类中属于同一个类别;若不是,则把这两张图像归为离异点;
(9)利用目标域训练集的伪标签和源域数据的真实标签对CNN编码器和交互级联轻量化transformers组成的模型进行监督,使用公式(7)进行损失值的计算,采用Adam梯度下降优化算法更新网络参数;
其中,wk、ck和vk分别表示源域类质心、目标域聚类质心和目标域离异点实例特征;ns、和分别表示源域类、目标域聚类和目标域离异点的数量;f是步骤(3)输出的行人特征;z+表示对应于f的正类原型;τ被称为温度系数,它是一个常数;exp()表示以自然常数e为底的指数函数,<a,b>表示计算a和b之间的欧式距离;
(10)将步骤(1)至步骤(9)迭代L次。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210246448.6A CN114596589A (zh) | 2022-03-14 | 2022-03-14 | 一种基于交互级联轻量化transformers的域自适应行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210246448.6A CN114596589A (zh) | 2022-03-14 | 2022-03-14 | 一种基于交互级联轻量化transformers的域自适应行人重识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114596589A true CN114596589A (zh) | 2022-06-07 |
Family
ID=81816859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210246448.6A Pending CN114596589A (zh) | 2022-03-14 | 2022-03-14 | 一种基于交互级联轻量化transformers的域自适应行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114596589A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115497120A (zh) * | 2022-09-23 | 2022-12-20 | 清华大学 | 基于Transformer的两步式领域自适应行人再识别方法 |
CN115601791A (zh) * | 2022-11-10 | 2023-01-13 | 江南大学(Cn) | 基于Multiformer及离群样本重分配的无监督行人重识别方法 |
CN116403015A (zh) * | 2023-03-13 | 2023-07-07 | 武汉大学 | 基于感知辅助学习Transformer模型的无监督目标重识别方法及系统 |
CN118469876A (zh) * | 2024-07-09 | 2024-08-09 | 华侨大学 | 一种基于强感知Transformer架构的缺损视频修复方法及系统 |
-
2022
- 2022-03-14 CN CN202210246448.6A patent/CN114596589A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115497120A (zh) * | 2022-09-23 | 2022-12-20 | 清华大学 | 基于Transformer的两步式领域自适应行人再识别方法 |
CN115497120B (zh) * | 2022-09-23 | 2023-12-15 | 清华大学 | 基于Transformer的两步式领域自适应行人再识别方法 |
CN115601791A (zh) * | 2022-11-10 | 2023-01-13 | 江南大学(Cn) | 基于Multiformer及离群样本重分配的无监督行人重识别方法 |
CN116403015A (zh) * | 2023-03-13 | 2023-07-07 | 武汉大学 | 基于感知辅助学习Transformer模型的无监督目标重识别方法及系统 |
CN116403015B (zh) * | 2023-03-13 | 2024-05-03 | 武汉大学 | 基于感知辅助学习Transformer模型的无监督目标重识别方法及系统 |
CN118469876A (zh) * | 2024-07-09 | 2024-08-09 | 华侨大学 | 一种基于强感知Transformer架构的缺损视频修复方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111652236B (zh) | 弱监督场景下跨层特征交互的轻量级细粒度图像识别方法 | |
CN114596589A (zh) | 一种基于交互级联轻量化transformers的域自适应行人重识别方法 | |
CN108197326B (zh) | 一种车辆检索方法及装置、电子设备、存储介质 | |
CN112288011B (zh) | 一种基于自注意力深度神经网络的图像匹配方法 | |
CN111325111A (zh) | 一种融合逆注意力和多尺度深度监督的行人重识别方法 | |
CN111191526B (zh) | 行人属性识别网络训练方法、系统、介质及终端 | |
AU2020104423A4 (en) | Multi-View Three-Dimensional Model Retrieval Method Based on Non-Local Graph Convolutional Network | |
CN107066559A (zh) | 一种基于深度学习的三维模型检索方法 | |
CN111666843A (zh) | 一种基于全局特征和局部特征拼接的行人重识别方法 | |
CN111310773A (zh) | 一种高效的卷积神经网络的车牌定位方法 | |
CN113408455A (zh) | 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质 | |
CN113313173B (zh) | 基于图表示和改进Transformer的人体解析方法 | |
CN108154156B (zh) | 基于神经主题模型的图像集成分类方法及装置 | |
CN111723600B (zh) | 一种基于多任务学习的行人重识别特征描述子 | |
CN113052017B (zh) | 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法 | |
Li et al. | An aerial image segmentation approach based on enhanced multi-scale convolutional neural network | |
Xu et al. | Graphical modeling for multi-source domain adaptation | |
CN114973305B (zh) | 一种针对拥挤人群的精确人体解析方法 | |
Liu et al. | Image retrieval using CNN and low-level feature fusion for crime scene investigation image database | |
CN116434010A (zh) | 一种多视图的行人属性识别方法 | |
CN116434347A (zh) | 一种基于掩码图自编码器的骨架序列识别方法及系统 | |
CN115457475A (zh) | 一种集成多头自注意力和卷积的行人重识别方法和装置 | |
Gao et al. | Evaluation of regularized multi-task leaning algorithms for single/multi-view human action recognition | |
Ahmad et al. | Embedded deep vision in smart cameras for multi-view objects representation and retrieval | |
CN114187638A (zh) | 一种基于空间分布损失函数的真实环境下的人脸表情识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |