CN114781499B

CN114781499B - 一种构建基于ViT模型的密集预测任务适配器的方法

Info

Publication number: CN114781499B
Application number: CN202210365639.4A
Authority: CN
Inventors: 陈喆; 段雨辰; 王文海; 何军军; 路通; 代季峰; 乔宇
Original assignee: Shanghai AI Innovation Center
Current assignee: Shanghai AI Innovation Center
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2024-05-31
Anticipated expiration: 2042-04-08
Also published as: CN114781499A

Abstract

本发明公开了一种构建基于ViT模型的密集预测任务适配器的方法。该方法包括：获取预训练ViT模型，该ViT模型包含用于将图像切分为不重叠的图像块的多个ViT分块；在ViT模型外部增设适配器，该适配器包含先验模块以及多个交替串联的注入器和特征提取器，所述先验模块用于获得输入图像的空间先验特征，所述注入器和特征提取器成对出现，将ViT模型按照层数分为层数相同的N块，每一个ViT分块配备一对注入器和特征提取器；加载ViT模型的预训练权重，并在密集预测任务上利用所述适配器微调该ViT模型的参数。本发明通过在ViT模型之外额外增加一个适配器网络，使其能够快速适配下游的密集预测任务。

Description

一种构建基于ViT模型的密集预测任务适配器的方法

技术领域

本发明涉及计算机技术领域，更具体地，涉及一种构建基于ViT模型的密集预测任务适配器的方法。

背景技术

计算机视觉领域的密集预测任务是根据输入图像，预测出每个像素的目标值或回归计算出一个特征图的任务。例如，目标检测任务要求预测图像中每个物体的类别和位置，语义分割任务要求预测图像中每个像素的类别，深度估计任务要求预测每个像素的深度值等。

Transformer(转换器)是一种基于自注意力机制的深度神经网络，常用于自然语言处理领域。受到Transformer建模能力的启发，一些研究人员试图将Transformer引入计算机视觉相关的任务。例如，ViT(Vision Transformer，视觉转换器)模型首先将图像切块，然后将图像块序列直接输入纯Transformer架构。得益于自注意力机制对输入数据有强大的动态特征提取能力，且能处理长距离的数据依赖，ViT模型在多个图像分类数据集上取得了优越的性能。ViT是直接将Transformer应用于图像分类的模型，该方法通常直接将图像切分为大小为16*16像素的不重叠图像块，然后将每个图像块的所有像素展平排列为一个向量，再通过线性变换得到图像块的编码表示。但由于ViT模型缺少对图像任务的归纳偏置(先验知识)，将其直接应用在密集预测任务上效果不佳。因此，目前在密集预测任务上取得最佳效果的模型通常是修改了ViT网络结构、引入了图像空间先验的图像专用模型，例如使用滑窗注意力机制、将模型改为金字塔结构等方案。

目前，适配器的设计模式在自然语言处理领域得到了广泛的应用。许多自然语言处理任务的适配器通过在Transformer编码器中引入任务相关的模块进行微调，从而使得预训练的模型能够快速迁移到自然语言处理的下游任务。在计算机视觉领域，也有一些用于增量学习和域适应的适配器。在视觉语言模型领域，近期也提出了一些适配器，用于迁移预训练的知识到零样本与少样本的下游任务。例如，有研究者提出给ViT模型添加一些额外的上采样和下采样模块，从而生成多尺度的特征，这种技术也可以看作是ViT模型的一种简单的多尺度适配器。但是，这种方案的在密集预测任务上的性能仍然弱于引入了图像先验知识的图像专用网络。因此，如何设计一个强大的适配器，改善ViT模型在密集预测任务上的性能，仍然是一个极具挑战性的课题。

经分析，现有技术的主要缺点如下：

1)不能使用多模态数据预训练。ViT模型得益于其弱化图像归纳偏置的设计，可以处理多种模态的数据，包括文本、图像、视频。通过多种模态数据的预训练，可以使得模型提取的特征具有更丰富的语义信息。但现有的图像专用模型不能使用多模态数据预训练，主要是通过在模型结构中引入具有图像空间先验的算子，从而改善其在密集预测任务上的性能，但这使得模型失去了处理多模态数据的灵活性。

2)不能加载预训练权重。在训练密集预测任务之前，对模型进行大规模数据的预训练，可以加快模型收敛、提升模型性能。而现有技术中，如果修改ViT模型结构会导致无法加载已经公开发布的预训练权重，如果重新对新设计的模型结构进行预训练，会导致时间、计算资源成本均大大上升。

综上，目前基于ViT模型改进的变体方案灵活性较差，无法加载现有ViT模型的预训练权重，并且难以利用多模态数据进行预训练，包括图像、视频与文本等。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种构建基于ViT模型的密集预测任务适配器的方法。该方法包括以下步骤：

获取预训练ViT模型，该ViT模型包含用于将图像切分为不重叠的图像块的多个ViT分块；

在ViT模型外部增设适配器，该适配器包含先验模块以及多个交替串联的注入器和特征提取器，所述先验模块用于获得输入图像的空间先验特征，所述注入器和特征提取器成对出现，将ViT模型按照层数分为层数相同的N块，每一个ViT分块配备一对注入器和特征提取器；

加载ViT模型的预训练权重，并在密集预测任务上利用所述适配器微调该ViT模型的参数。

与现有技术相比，本发明的优点在于，提出了一种基于ViT模型的密集预测任务适配器，通过在ViT模型之外额外增加一个适配器网络，使其能够快速适配下游的密集预测任务。与目前最优的图像专用模型相比，本发明在模型参数量相近的情况下取得了具有竞争力的精度。此外，所提供的密集预测任务适配器不改变ViT模型的原始结构，从而保留了其处理多模态数据的能力。本发明在训练时既可以加载图像数据预训练的ViT模型权重，也可以加载多模态数据预训练的ViT模型权重，使模型在密集预测任务中的表现更好，收敛更快。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本发明一个实施例的构建基于ViT模型的密集预测任务适配器方法的流程图；

图2是根据本发明一个实施例的密集预测任务的新旧范式对比示意图；

图3是根据本发明一个实施例的密集预测任务适配器整体结构示意图；

图4是根据本发明一个实施例的空间先验模块的结构示意图；

图5是根据本发明一个实施例的应用场景示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

参见图1所示，所提供的构建基于ViT模型的密集预测任务适配器的方法包括以下步骤。

步骤S110，针对通用ViT模型，在其外部增设密集预测任务适配器。

首先，本发明采用新范式执行密集预测任务。参见图2所示，其中图2(a)表示旧范式，在密集预测任务(如目标检测、语义分割)的旧范式中，首先设计图像专用模型，使用大规模图片数据集在监督或自监督任务上预训练专用模型，再使用密集预测任务的数据集微调预训练的专用模型。图2(b)是本发明所采用的新范式示例，首先采用通用ViT模型在多模态数据上进行预训练，然后增设密集预测任务适配器，再在密集预测任务的数据集上进行微调。由于目前存在大量公开的ViT模型的预训练权重，因此本发明采用的新范式无需自行预训练，可以直接加载已经预训练的ViT模型，然后进行微调。

更为重要的是，本发明在不修改ViT模型内部结构的前提下增加了外部的密集预测任务适配器，该密集预测任务适配器包括空间先验模块，用于引入图像的先验知识；注入器(或称空间先验注入器)，用于将图像空间先验注入ViT模型；提取器(也称为特征提取器或多尺度特征提取器)，从ViT模型中提取多尺度特征图用于后续的密集预测任务。

参见图3所示，图3(a)表示ViT模型，图3(b)是密集预测任务适配器整体结构，图3(c)是空间先验模块结构，图3(d)是空间先验注入器结构，图3(e)是多尺度特征提取器结构。具体地，所提供的适配器包括：一个空间先验模块以及若干个交替串联的空间先验注入器和多尺度特征提取器。空间先验注入器和多尺度特征提取器成对出现，将ViT模型按照层数分为层数相同的N块(N应当能被层数整除)，每一个ViT分块配备一对空间先验注入器和多尺度特征提取器。

在下文中将具体说明空间先验模块、空间先验注入器和多尺度特征提取器的实施例。

在一个实施例中，空间先验模块结构由一个茎(Stem)网络和3层卷积层组成。例如，茎网络包括三层卷积层和一层最大池化层，其中卷积层的卷积核大小均为3*3，填充大小为1，步长分别为2、1、1。池化层的核大小为2*2，步长为2。原始图像在输入茎网络后，得到1/4分辨率的特征图。然后，将特征图输入3层卷积核大小为3*3，步长为2，填充大小为1的卷积层，得到分辨率分别为1/8、1/16、1/32的特征图。最后，将长宽维度进行展平操作，再进行拼接后得到空间先验特征。应理解的是，卷积层的数目、核大小等可根据实际需要进行设置。

在另一实施例中，空间先验模块可直接采用具有金字塔结构的卷积神经网络模型。参见图4所示，以ResNet-18为例，空间先验模块的结构包含一个茎网络以及四个阶段(由卷积层组成)。输入图像经过茎网络以及阶段1，得到相对输入图像1/4分辨率的特征图。进而，该特征图再经阶段2、阶段3和阶段4，得到分辨率分别为1/8、1/16、1/32的特征图，这种设计简化了ResNet-18的结构，能够减少消耗的计算资源。需说明的是，特征图的数目和分辨率可以根据下游任务的需求进行设置，优选为上述四种不同分辨率的特征图。

对于空间先验注入器，第i个空间先验注入器将ViT模型第i个分块的输入特征作为询问(Query)，将第i-1个多尺度特征提取器的输出(如果i为1则为空间先验模块的输出)作为键(Key)与值(Value)进行交叉注意力机制的计算，得到与ViT第i个分块输入形状相同的输出，传递回ViT第i个分块作为输入。

对于多尺度特征提取器，第i个多尺度特征提取器将ViT模型第i个分块的输出特征作为键(Key)与值(Value)，将第i-1个多尺度特征提取器的输出特征(如果i为1则为空间先验模块的输出)作为询问(Query)进行交叉注意力机制的计算。将上述输出进行归一化后，输入卷积前馈神经网络进行局部特征增强，从而解决ViT固定大小的位置编码的缺点，计算得到的输出作为第i+1个空间先验注入器的输入。上述注意力机制、卷积前馈神经网络均有残差连接以保证模型可以收敛。为了节省计算资源，空间先验注入器和多尺度特征提取器中的交叉注意力机制优选均采用可变形注意力机制，这是一种线性时间复杂度的注意力机制。

在另外的实施例中，空间先验注入器和多尺度特征提取器中的可变形注意力机制可以替换为全局注意力、滑窗注意力、线性空间降维注意力机制等。

具体地，对于给定的询问Query、键Key与值Value，若采用可变形注意力机制进行交叉注意力的计算，其公式可以表示为：

其中，q，k，v分别表示询问Query、键Key与值Value。p表示可变形注意力机制的参考点。i用于索引不同的注意力头，N_head表示注意力头的总数。j用于索引采样的键Key，N_key表示每个注意力头中采样的键Key的总数。W_i和W′_i是可学习的权重。A_ij∈[0，1]是预测的注意力权重。Δp_ij是预测的对于参考点p的偏移量。v(p+Δp_ij)表示在位置p+Δp_ij的特征。

若采用全局注意力机制代替可变形注意力机制，则公式可以表示为：

其中，i用于索引不同的注意力头，N_head表示注意力头的总数，Softmax(·)表示softmax归一化函数，d_head表示每个注意力头的维度，W_i是可学习的权重。

若采用线件牢间降维注意力机制，则公式可以表示为：

其与全局注意力机制的区别在于，使用线性空间降维操作SR(·)，即一个全局平均池化层，对输入的键Key与值Value进行空间降维，从而减少计算量。

进一步地，密集预测任务适配器计算得到的输出特征在经过拆分、整理形状之后，得到分辨率为原始图像的1/8、1/16、1/32的特征图，再将1/8分辨率的特征图输入2*2的转置卷积层进行上采样，得到1/4分辨率的特征图。至此，提供的密集预测任务适配器得到了四个尺度的特征金字塔，可以应用于密集预测任务。

考虑到ViT模型可具有4种不同的大小，针对该四种不同的大小(即ViT-Tiny、ViT-Small、ViT-Base、ViT-Large)分别设计了不同的适配器参数。对四种不同的变体，在一个实施例中，提供的适配器均含有4对空间先验注入器和多尺度特征提取器，其中可变形注意力机制的注意力头数分别为6、6、12、16，卷积前馈神经网络的隐藏层特征维数分别为48、96、192、256。

步骤S120，加载ViT模型的预训练权重，并利用增设的适配器在密集预测任务上进行微调。

利用密集预测数据集对增设了适配器的ViT模型进行微调。微调训练过程可根据目标任务选择数据集，并根据对模型精度和训练效率要求设置训练轮数、批大小、优化器以及学习率等参数。

步骤S130，利用微调后的ViT模型实现目标任务预测。

微调后的ViT模型和适配器结合作为密集预测任务模型，可用于语义分割任务、目标检测任务和实例分割任务等多种场景。目标检测用于预测不同目标的类别与位置。语义分割任务可用于在图像中识别不同的类并进行相应分割，分割的各种实例可用于医疗成像、物体检测、识别任务、交通控制系统、视频监控等以捕捉形成图像的不同组成部分，从而使计算机视觉模型掌握更多的洞察力，更好地理解场景和上下文。

本发明涉及的模型训练过程可在服务器或云端离线进行，将经训练的模型嵌入到电子设备即可实现实时的目标任务预测。该电子设备可以是终端设备或者服务器，终端设备包括手机、平板电脑、个人数字助理(PDA)、销售终端(POS)、车载电脑、智能可穿戴设备(智能手表、虚拟现实眼镜、虚拟现实头盔等)等任意终端设备。服务器包括但不限于应用服务器或Web服务器，可以为独立服务器、集群服务器或云服务器等。例如，参见图5所示，在实际的模型应用中，可利用监控视频获取终端、手机端或移动端拍摄目标视频，将目标视频上传到云服务器，进而利用训练好的密集任务预测模型实现目标检测、语义分割或实例分割等各种场景下的任务预测。

为进一步验证本发明的效果，进行了实验，实验细节如下。

(1)目标检测与实例分割实验

在实验中，采用COCO数据集验证本发明在目标检测与实例分割任务上的效果。具体地，该实验使用Mask R-CNN作为基础的检测框架。在该实验中，ViT模型使用DeiT发布的预训练权重进行初始化，而密集预测任务适配器采用随机初始化。训练轮数有12轮和36轮两种策略，训练的批大小设置为16，优化器为AdamW，学习率为0.0001，权重衰减为0.05。

实验结果表明，通过提供密集预测任务适配器可以使ViT模型在目标检测与实例分割任务上的性能得到明显的提升。在目标检测的指标box AP(边界框精度)上，12轮训练的Tiny、Small、Base、Large模型分别相对原始ViT模型提升了4.7％、4.5％、4.1％、3.0％，36轮训练分别提升了5.8％、4.2％、3.8％、2.1％。在实例分割的指标mask AP(掩膜精度)上，12轮训练分别提升了3.3％、2.8％、2.4％、1.8％，36轮训练分别提升了4.0％、2.9％、2.3％、1.2％。

(2)语义分割实验

本实验采用ADE20K数据集验证本发明方案在语义分割任务上的效果。具体地，实验采用了2种常用的语义分割框架进行验证，分别为Semantic FPN和UperNet。对于前者训练的迭代次数为8万次，而对于后者训练的迭代次数为16万次。在该实验中，ViT模型使用DeiT发布的预训练权重进行初始化，而密集预测任务适配器采用随机初始化。

实验结果表明，所提供的密集预测任务适配器对于ViT模型的语义分割性能也有明显的效果提升。当使用Semantic FPN框架时，对于Tiny、Small、Base三种不同大小的模型，语义分割的指标mIoU(平均交并比)相对原始ViT模型提升了2.3％、1.5％、1.5％。在使用UperNet框架时，语义分割指标mIoU分别提升了0.9％、2.0％、2.0％。

综上所述，相对于现有技术，本发明至少具有以下优势：

1)、采用新范式实现密集预测任务，即使用通用的ViT模型在多模态数据上进行预训练，然后外加所提出的密集预测任务适配器，再在密集预测任务上进行微调。

2)、密集预测任务适配器使用多层卷积操作作为空间先验模块，直接提取出图像的特征金字塔，从而实现图像空间先验的注入。

3)、使用空间先验注入器和多尺度特征提取器将空间先验模块的输出与ViT模型不同分块的输入、输出进行交叉注意力机制的计算，从而实现图像空间先验的注入与多尺度特征的提取，并且空间先验注入器和多尺度特征提取器可使用可变形注意力机制节约算力。

4)、所提出的密集预测任务适配器不改变ViT模型的原始结构，因此可以直接加载现有的ViT预训练模型权重，从而节约了预训练时间、减少了计算资源成本。

5)、所提出的密集预测任务适配器保留了ViT模型的多模态数据处理能力，因此可以使用多模态数据进行ViT模型的预训练，使得ViT模型获取到的特征语义信息更加丰富，达到比图像专用模型更好的效果，在密集预测任务上表现更好。

需说明的是，在不违背本发明精神和范围的前提下，本领域技术人员可对上述实施例进行适当的改变或变型。例如，改变空间先验注入器和多尺度特征提取器的数量，或者改变ViT模型加载的预训练权重等。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种构建基于ViT模型的密集预测任务适配器的方法，包括以下步骤：

加载ViT模型的预训练权重，并在密集预测任务上利用所述适配器微调该ViT模型的参数；

其中，所述先验模块依次包括茎网络和多层卷积层，所述茎网络对输入图像提取第一特征图，所述多层卷积层对第一特征图进一步提取不同分辨率的多个特征图，所述空间先验特征通过将所述多个特征图长宽维度进行展平操作并进行拼接获得；

其中，所述先验模块包含一个茎网络以及用于提取不同深度特征的四个阶段，输入图像经过该茎网络和第一阶段，得到相对输入图像1/4分辨率的第一特征图，进而，该第一特征图依次经第二阶段、第三阶段和第四阶段，得到分辨率分别为1/8、1/16、1/32的特征图，其中所述四个阶段由卷积层构成；

其中，对于从1进行编号的第i注入器，当i大于等于1时，将ViT模型第i分块的输入特征作为询问Query，将第i-1特征提取器的输出作为键Key与值Value进行交叉注意力机制的计算，得到与ViT模型第i分块输入形状相同的输出，传递回ViT模型第i分块作为输入；当i等于1时，将ViT模型第i分块的输入特征作为询问Query，将所述先验模块的输出作为键Key与值Value进行交叉注意力机制的计算；

其中，对于从1进行编号的第i特征提取器，当i大于等于2时，将ViT模型第i分块的输出特征作为键Key与值Value，将第i-1特征提取器的输出特征作为询问Query进行交叉注意力机制的计算，并将输出进行归一化后，输入卷积前馈神经网络进行局部特征增强，计算得到的输出作为第i+1注入器的输入；当i等于1时，将ViT模型第i分块的输出特征作为键Key与值Value，将所述先验模块的输出作为询问Query进行交叉注意力计算。

2.根据权利要求1所述的方法，其特征在于，所述茎网络包括三层卷积层和一层最大池化层，其中卷积层的卷积核大小均为3*3，填充大小为1，步长分别为2、1、1，最大池化层的核大小为2*2，步长为2，所述第一特征图是相对输入图像1/4分辨率的特征图；所述多层卷积层设置为三层，各卷积层的卷积核大小为3*3，步长为2，填充大小为1，得到分辨率分别为1/8、1/16、1/32的特征图。

3.根据权利要求1所述的方法，其特征在于，所述注入器和所述特征提取器中的交叉注意力机制采用可变形注意力机制、全局注意力机制、滑窗注意力机制或线性空间降维注意力机制。

4.根据权利要求1所述的方法，其特征在于，还包括：利用微调的ViT模型进行目标任务预测。

5.一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现根据权利要求1至4中任一项所述的方法的步骤。

6.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的方法的步骤。