CN117529755A

CN117529755A - 图像识别系统中的迁移学习

Info

Publication number: CN117529755A
Application number: CN202280043553.8A
Authority: CN
Inventors: J·康德; A·内贾蒂; N·佩吉斯
Original assignee: Somerset Intelligence Co ltd
Current assignee: Somerset Intelligence Co ltd
Priority date: 2021-05-21
Filing date: 2022-05-23
Publication date: 2024-02-06
Also published as: EP4341912A1; AU2021204756A1; CA3219733A1; WO2022243985A1; JP2024521118A; US20240242487A1; KR20240011164A

Abstract

视觉提示调谐为基于变换器的视觉模型提供微调。将提示向量作为附加输入与图像补丁一起添加到视觉变换器模型，图像补丁已经被线性投影并与位置嵌入组合。变换器架构允许使用梯度下降来优化提示，而无需修改或删除视觉变换器参数中的任何一者。具有视觉提示调谐的图像识别系统通过经过使用视觉提示调谐经预训练的视觉模型来使经预训练的视觉模型适应下游任务从而改进预训练的视觉模型。

Description

图像识别系统中的迁移学习

技术领域

本发明的实施例涉及机器学习。更特别地但非排他地，本发明的实施例涉及改进计算机视觉/图像识别以及改进迁移学习的方法，即通过提示的连续优化来针对视觉任务进行高效迁移学习。

背景技术

用于使经预训练的视觉模型适应下游任务的传统方法涉及微调模型的参数中的一些或全部参数。这种途径有一些权衡问题：改变太多的参数，模型可能会失去预训练的好处中的一些好处(比如泛化能力)；改变太少，模型可能不能很好地适应下游任务。

迁移学习是一种用于在新任务上训练神经网络模型的有效方法，其从已经学习的参数开始解决不同的问题。这允许网络利用原始任务和新任务共同的知识，并在新颖或特定上下文中应用大型通用模型时特别有用。迁移学习有几种途径。在大量数据设置中，整个网络可以在新任务上进行训练。然而，当数据稀缺时，这种途径可能会增加泛化错误，这是因为网络“忘记”了它最初学到的知识中的一些知识。对于这样的问题，可以将网络用作具有附加组件的更大模型的“核心”(比如将核心网络的输出特征转换为概率向量的分类器网络)，并可以在保持核心网络冻结的同时训练那些其他组件。在自然语言处理(NLP)领域，通过在推理期间用一些适当的文本来提示模型，大规模经预训练的模型无需附加训练即可适应新任务。例如，可以使在大型文本语料库上预训练的语言模型通过在句子前加上“提供以下文本的概要”或附加成语“TL；DR:”来总结正文。因此，使网络适应新任务的问题变成了手动设计用于该任务的良好提示的问题。将这个构思应用于计算机视觉，比如CLIP之类的方法已使用联合对比训练来将来自文本和图像的映射编码到共同特征空间中。

发明目的

本发明的目的是改进计算机视觉、图像识别和/或转移学习，或者至少为公众或行业提供有用的选择。

附图说明

图1示出了训练具有视觉提示调谐的图像识别系统的方法；

图2示出了具有视觉提示调谐的图像识别系统；

图3示出了使用探针方法的具有视觉提示调谐的图像识别系统；

图4示出了使用零样本学习方法的具有视觉提示调谐的图像识别系统；

图5示出了用于视觉提示调谐的超参数；

图6示出了具有视觉提示调谐的视觉变换器；

图7示出了视觉提示调谐与线性分类器组合方法的测试错误率的比较；

图8示出了零样本学习方法和视觉提示调谐方法的测试错误率的比较；

图9示出了在使用线性或视觉提示调谐方法时测试准确性与每类的标记的示例的数量的关系。

具体实施方式

视觉提示调整为基于变换器的视觉模型提供微调。将提示向量作为附加输入与图像补丁一起添加到视觉变换器模型，图像补丁已线性投影并与位置嵌入相结合。变换器架构允许(例如使用梯度下降)对提示进行优化，而无需修改或删除视觉变换器参数中的任何一者。换言之，具有视觉提示调谐的图像识别系统通过经过使用视觉提示调谐经预训练的视觉模型来使经预训练的视觉模型适应下游任务从而改进预训练的视觉模型。

图像识别系统可以用于任何合适的计算机视觉任务，包括但不限于比如图像分类、检测、定位、分割、对象计数和对图像的自然语言推理等任务。

图1示出了训练具有视觉提示调谐的图像识别系统的方法。在步骤102处，将训练图像分割成补丁，从而创建图像补丁。将图像补丁扁平化为向量(步骤103)。在此之后，创建扁平化补丁的线性投影(步骤104)。将位置编码/位置嵌入添加到扁平化补丁的线性投影(步骤106)。

生成或接收可训练向量(114)。可以将可训练向量值初始化为零、随机化或以任何其他合适的方式初始化。将可训练向量输入到提示网络中以获得图像(令牌/嵌入)空间中的提示向量(步骤116)。可选地，在步骤118处，将可训练位置嵌入添加到提示向量。在正向传递(forward pass)中，在步骤108处，将扁平化补丁的线性投影与提示向量(其可以包括位置嵌入)一起输入到视觉变换器中。

将视觉变换器的输出输入到图像识别头，比如多层感知器，以对训练图像进行分类(步骤110)。在反向传递(backward pass)中，计算输出分类(112)的错误(步骤120)并将其传播到提示网络(步骤122)。修改提示网络权重和可训练向量权重以减少错误(使用机器学习领域中已知的任何合适的技术)。

图2示出了具有视觉提示调谐的图像识别系统。在视觉提示调谐期间，更新/训练用虚线边界示出的参数(提示网络权重和可训练向量3值)。

微调

视觉提示调谐是一种迁移学习方法，其保留了视觉变换器模型(经过预训练)的权重，但通过添加辅助提示输入对任务进行微调。在微调期间，经训练的视觉变换器保持固定，同时更新特定于任务的提示。提供了微调经预训练的模型(经预训练的视觉变换器)的以下方法。

视觉提示调谐

图6示出了具有视觉提示调谐的视觉变换器。在视觉提示调谐期间，训练使用虚线边框显示的参数。可以使用包括标记图像的训练数据集来训练参数。

图像编码器的第一层是步长卷积(步长是应用卷积核的空间位置之间的距离)，它有效地将输入图像分解为补丁网格，将得到的张量扁平化为向量，并使用习得的线性变换将这些中的每一者投影到低维空间中——创建扁平化补丁的线性投影10。之后，编码器将习得的位置嵌入添加到每个向量。通常，这些向量与习得的“类”嵌入一起是变换器自身的唯一输入。

对于视觉提示调谐，将附加输入(“提示”或提示向量)输入到变换器中，绕过卷积和位置嵌入。这不需要对变换器本身进行架构更改，因为它对输入数量不可知。可以使用梯度下降或以任何其他合适的方式直接训练提示。比如多层感知器(MLP)的任何其他合适的网络可以从可训练输入向量生成提示。后一种途径可以改善前缀调谐的结果。可以训练MLP，其中，位置嵌入被添加到其输出。MLP和位置嵌入仅用于训练；在推理时，生成的提示是固定的，因此相同的预先计算的提示可以用于所有输入图像。

要使用这个修改后的模型作为分类器，将变换器输出与来自零样本学习方法的编码文本标签进行比较。可以对文本编码器进行前缀调谐(与视觉提示调谐同时进行)，这可以提高性能，但会增加训练时间。

在视觉提示调谐中，对经预训练的视觉变换器的输入进行修改，以使视觉变换器适应下游视觉任务。经预训练的视觉变换器在下游训练期间不进行训练/修改。将附加输入(特定于任务的训练参数)级联到经预训练的视觉变换器的输入序列中，并且附加输入可以在微调期间与图像识别头一起学习。

在一个实施例中，提示向量仅被插入到视觉变换器的第一层中，然而本发明在这个方面不受限制。视觉提示调谐提示参数只能插入到视觉变换器输入的第一层中。在视觉提示调谐训练期间，只更新提示和线性头的参数，而整个变换器编码器是固定的。替代地，可以在经训练的视觉变换器的多个层处引入提示参数，直到经训练的视觉变换器的每一层。可以将一套提示附加到视觉变换器的每个输入层(换言之，将一组可学习参数级联到每个变换器编码器层的输入)。

零样本学习方法

零样本学习方法不训练任何现有或附加参数。使用零样本学习方法，通过将图像供应到视觉变换器(CNN)并将类标签供应到文本变换器，可以将视觉变换器用作零样本学习分类器(即，没有任何微调)。零样本学习方法使用来自对齐文本和图像的特征向量。输出类似于自然语言嵌入(例如，描述图像的自然语言句子)。类标签可以在运行中生成。零样本学习模型联合训练图像编码器和文本编码器，以预测一批(图像、文本)训练示例的正确配对。在测试时间，学习过的文本编码器通过嵌入目标数据集的类的名称或描述来合成零样本学习线性分类器。

图4示出了使用零样本学习方法的具有视觉提示调谐的图像识别系统。将与训练图像相关联的文本输入到文本变换器中。使用相似性度量17(例如，点积)来比较来自文本变换器和来自视觉变换器的特征向量。A.Radford等人,“Learning transferable visualmodels from natural language supervision(从自然语言监督中学习可转移的视觉模型)”,264arXiv预印本,2021.https://arxiv.org/abs/2103.00020描述了在联合语言和图像嵌入空间中生成输出的零样本学习模型。

训练线性分类器/探针方法

在探针方法中，在输出(线性探针)上学习线性回归模型。图3示出了使用探针方法的具有视觉提示调谐的图像识别系统。替换视觉变换器的最后一层(线性投影)，使得其输出维度与训练数据的类的数量相匹配。线性分类器作为待训练的参数(线性探针)的一部分被包括在内。换言之，使用由视觉变换器使用线性模型(例如线性回归15)输出的特征向量14来训练图像识别头。训练图像识别头可以提高输出性能，或者可以使得能够执行与视觉变换器的图像识别任务不同种类的图像识别任务。

组合式视觉提示调谐和线性分类器

将视觉提示调谐与视觉提示调谐(也称为前缀调谐)相结合可以提高少样本(few-shot)性能。代替使用编码的文本标签，图像编码器的最后一层被替换并与提示一起训练。

方法细节

图像变换器是计算机视觉/机器学习领域的技术人员已知的。视觉变换器的示例详见：“An image is worth 16x16 words:Transformers for image recognition atscale(图像相当于16x16个字：用于大规模图像识别的变换器)”,arXiv预印本arXiv:2010.11929(2020)，其通过引用并入本文。

预训练

可以以任何合适的方式提供经训练的视觉变换器(经训练/经预训练的模型)。在一个实施例中，视觉变换器可以包括图像编码器和文本编码器，它们都输出实值向量(具有相同形状)。例如，CLIP的视觉变换器组件可以用作经预训练的模型(Radford,A.等人：“Learning transferable visual models from natural language supervision(从自然语言监督中学习可转移的视觉模型)”In:ICML(2021))。要使用CLIP对图像进行分类，可以对图像进行编码，并使用余弦相似度将结果向量与多个编码的文本标签进行比较。类似地，可以根据一组图像“标签”对文本串进行分类。CLIP可以在给定任意数量的文本标签的情况下对图像进行分类，而无需进行附加微调。

图像补丁嵌入

每个图像被分成具有固定大小的小“补丁”。输入序列由像素值的扁平化向量(例如，从2D图像像素到ID)组成。将每个扁平化元素供应到线性投影层中以产生“补丁嵌入”。然后，将位置嵌入线性地添加到图像补丁序列，以使图像能够保留其位置信息，从而注入有关图像补丁在序列中的相对或绝对位置的信息。

根据图像补丁的位置，将额外可学习的(类)嵌入附加到序列。这种类嵌入用于预测输入图像在被自注意更新后的类。通过将MLP头堆叠在变换器的顶部，在添加到序列的额外可学习的嵌入的位置处执行分类。

用于视觉提示调谐的超参数

图5示出了用于视觉提示调谐的超参数。每一列表示不同的超参数选择。调谐超参数时，插入完全连接的层可能优于直接调谐提示或使用深度提示网络。在一个实施例中，使用具有数百个输入的全连接网络。发明人发现，在添加“位置嵌入”之后，对于一些数据集，少至四个输入工作良好。

在没有任何位置嵌入的情况下：

提示i＝完全连接的(权重i)

根据数据集，任何合适数量的输入都可以在添加“位置嵌入”后起作用。具体来说，提示向量的计算如下：

提示i＝完全连接的(权重i)+位置i，

其中，位置是与提示具有相同维度的可训练矩阵。

提示网络可以有助于将学习提示中涉及的概念与其表示分离开来。例如，德国交通标志识别基准数据集(GTSRB)的有用提示向量可能以某种方式与交通标志相关，因此属于输入特征空间的低维子空间。

当提示网络的最后一层学习输出这个子空间的元素时，所有提示向量都可以分享这些好处，而不仅仅是那些可以学习如何表示这个空间中一些通用概念的提示向量。它的输入(类似于权重)应该然后以有用的方式组合这些概念。在没有提示网络的情况下，每个提示向量独立于其他提示向量而学习，因此可能需要更长的时间来解决相似向量的集合。提示网络还可以以减少“共享”参数的可用性为代价来学习特定于一个提示向量的特征。其他提示向量可能在训练时意外地拾取这些特征。在每个训练步骤中，位置嵌入能够移动到提示网络的当前范围之外，这可以鼓励每个提示向量对独特特征进行编码。这允许我们使用相对较小的提示网络，仅对共享特征进行编码。

提示网络的损失函数

任何合适的损失函数可以用于提示网络和/或图像识别头，包括但不限于交叉熵、均方误差或L₀/L₁。对于单类图像，交叉熵可以用作提示网络的损失函数。对于每个图像具有多个类别的数据集，二进制交叉熵可能是合适的(有效地为每个类训练一个二进制分类器)。

反向传播(优化)

基于一阶梯度下降的方法的任何合适的方法可以用于训练提示网络、可训练向量和/或图像识别头。在一个实施例中，一种随机优化的方法如下所述：2015年国际280学习表示会议中的D.P.Kingma和J.Ba的“Adam：Amethod for a backward pass(一种用于随机优化的方法)”用于反向传递。然而，本发明在这方面不受限制，可以使用任何其他合适的方法，比如L-BFGS算法。

训练细节

任何合适的初始学习速率可以用于提示网络，比如在0.01至0.001之间。一旦验证损失达到平台期，学习率可能会降低。例如，学习率可以降低10倍。如果验证度量(通常是准确性)在几个时期内没有改善，则可以停止训练。验证集可以被包括在用于最终会话的训练数据中，重新使用最熟知的超参数。

模型可以在图形卡或任何其他合适的硬件上训练。硬件可以具有自动混合精度。

关于零样本学习方法，在分类任务中，可以通过为每个类使用几个标签并对对应的特征向量进行平均或对标签进行前缀调谐来提高分类分数(如在以下中所描述的：A.Radford和ak,“Learning transferable visual models from natural languagesupervision(从自然语言监督中学习可转移的视觉模型)”,264arXiv预印本,2021.https://arxiv.org/abs/2103.00020)。

变换器的示例实施方式

可以使用任何合适的变换器架构。作为示例，下面详细描述变换器的细节，尽管这个变换器对于机器学习领域的技术人员是已知的。

在一个实施例中，编码器将符号表示的输入序列映射到连续表示的序列。解码器然后一次一个元素地生成符号的输出序列。对于编码器和解码器两者，变换器可以使用堆叠的自注意和逐点完全连接的层。

注意子层

编码器由适当数量的相同层(例如6层)堆叠而成。每层都有两个子层，即多头自注意机制和按位置完全连接的前馈网络。在每个子层周围采用残余连接，然后进行层归一化。

解码器由适当数量的相同层(例如6层)的堆叠组成。每层都有多头自注意机制和按位置完全连接的前馈网络。第三子层对编码器堆栈的输出执行多头注意。在每个子层周围采用残余连接，随后进行层归一化。修改解码器堆栈中的自注意子层以防止位置出现在后续位置。

注意函数将查询和键值对映射到输出。查询、键、值和输出都是向量。输出被计算为值的加权和。分配给每个值的权重由查询与对应键的兼容性函数计算。缩放的点积注意可以用作注意函数。

前馈网络

除了注意子层之外，编码器和解码器中的层中的每一者都包含完全连接的前馈网络，该前馈网络分别且相同地应用于每个位置。

多头注意

用不同的、习得的投影将查询、键和值线性地投影到维度可能是有益的。在查询、键和值的每个投影版本上，并行执行注意函数，产生多维输出值，这些多维输出值被连接并再一次投影，产生最终值。该模型共同关注来自不同位置处的不同表示子空间的信息。

在“编码器-解码器注意”层中，查询来自先前的解码器层，并且存储器键和值来自编码器的输出。这允许解码器中的每个位置参与输入序列中的所有位置。

编码器包含自注意层。在自注意层中，所有的键、值和查询都来自同一个地方，在这种情况下，是编码器中前一层的输出。编码器中的每个位置可以关注编码器的前一层中的所有位置。

解码器中的自注意层允许解码器中的每个位置注意解码器中的所有位置，直到并包括该位置。

位置嵌入

将每个输入图像划分为固定大小的补丁。将每个补丁嵌入到具有位置编码的可学习间中。由于模型不包括递归或卷积，因此为了使模型利用序列的次序，必须嵌入有关令牌(token)在序列中的相对或绝对位置的信息。将位置嵌入添加到编码器和解码器堆栈底部处的输入嵌入。位置编码具有与嵌入相同的维度，因此可以对两者求和。可以使用习得的嵌入或固定的嵌入。

视觉变换器

任何合适的变换器架构可以被调适为创建视觉变换器。将训练图像分割成固定大小的图像补丁。线性地嵌入图像补丁中的每一者。添加位置嵌入。将得到的向量序列输入到标准变换器中。

标准变换器接收令牌嵌入的ID序列作为输入。为了处理二维图像，图像被重新成形为扁平化二维补丁的序列。补丁的数量是变换器的图像序列长度。变换器在其各层中使用恒定的潜在向量大小。利用可训练的线性投影，将图像补丁扁平化并映射到潜在向量大小维度，从而创建补丁嵌入。

将可学习的嵌入前置于补丁嵌入序列，补丁嵌入序列在变换器编码器的输出处的状态用作图像表示。在预训练和微调期间，可以将分类头附接到变换器编码器的输出。分类头可以由多层感知器实现，该多层感知器在预训练时具有隐藏层并且在微调时具有单个线性层。

将位置嵌入添加到补丁嵌入以保留位置信息。可以使用标准可学习的一维位置嵌入、二维感知位置嵌入或任何其他合适的位置嵌入。将所得到的嵌入向量序列输入到变换器编码器中。

视觉变换器在大型数据集上预训练，然后微调到较小的下游任务。为了微调，移除变换器的经预训练的预测头，并且添加零初始化的前馈层，其具有多个下游类。可选地，以比预训练更高的分辨率对变换器进行微调。当以较高分辨率供应图像时，可以保持补丁大小相同。可以根据它们在原始图像中的位置来执行经预训练的位置嵌入的2D插值。分辨率调整和补丁提取将关于图像的二维结构的感应偏置手动地注入到视觉变换器中。

混合架构

作为原始图像补丁的替代，输入序列可以由卷积神经网络的特征图形成。将补丁嵌入投影应用于从卷积神经网络特征图提取的补丁。补丁可以具有空间大小lxl，这意味着通过使特征图的空间维度扁平化并投影到变换器维度来获得输入序列。如上所述添加分类输入嵌入和位置嵌入。

替代实施例和应用

视觉提示调谐是一种学习速度更快且数据更少的有效途径。由于视觉提示调谐不会修改核心模型，因此同一模型可以用于多个不同的任务(即使在同一小批量中)。这在开发人类视觉系统的更完整的模型中可能是有用的，该人类视觉系统的能力远远超过仅仅分类。

预训练程序可以考虑多个任务(例如，CLIP模型在分类方面比语义分割好得多)。

基于云的提供商可以使用视觉提示来同时为几个不同的组织或甚至同一组织内的不同用户有效地运行分类器。甚至可以采用几个不同级别的调谐：例如，提示的一部分可以改善交通标志分类，并且另一部分可以针对特定国家的交通标志进行调谐。视觉提示调谐可以用于分类以外的任务。

可以将视觉提示可视化，通过在图像补丁级别优化它们，抑或通过提示调谐自动编码器的编码器部分。

NLP中迁移学习的其他技术，比如适配器调谐，也可以与视觉变换器一起工作。

优点

在视觉变换器的背景下，视觉提示调谐与完全(端到端)微调相比可能是有利的，因为它可能更有效，并且同样有效(如果不是更有效)。

提示提高了变换器在视觉任务上的性能。当考虑涉及颜色的视错觉时，这是直观的，其中，图像的一部分的颜色可以改变对另一部分中颜色的感知。由于变换器将它们的输入彼此相乘，因此已假设过它们擅长学习上下文表示，换言之，输入令牌的表示由其他令牌调制。提示可以用于在模型已经习得的所有任务的空间中定位特定任务。经过各种视觉数据训练的变换器将学习各种任务，比如识别特定对象的照片和草图。然后，提示变换器可以“启动”网络以解决与特定域更相关的任务。

向经预训练的模型加入少量附加参数，视觉提示调谐在全数据设置下获得与微调类似的性能，而在低数据设置下优于微调。此外，视觉提示调谐为比如交通标志识别、卫星照片识别和手写分类等专门任务提供了显着提高的准确性。

视觉提示调谐可以改善对下游视觉任务的微调性能。视觉提示调谐或视觉提示调谐与线性分类器的微调相结合，对于许多分类任务而言，尤其是在数据稀缺或任务与用于预训练的任务明显不同时，优于单独的微调。

视觉提示调谐提高了专门的数据集和任务的准确性，这些专门的数据集和任务似乎“超出了领域”，特别是训练图像与自然图像和很可能出现在训练集中的其他图像有很大差异的任务。

在前缀调谐和适配器调谐中，原始网络的参数被保留，而在微调中它们被修改。对于语言模型中的前缀调谐的特定情况，模型在大型通用语料库上预训练，因此出于泛化目的，需要保留网络参数。在适配器调谐中，可训练参数的数量由输入和输出维度两者固定(或至少在下面界定)，而在前缀调谐中，仅变换器的输入维度是固定的。这种灵活性允许前缀调谐与适配器调谐的性能相匹配，但其参数较少。

由于输入之间存在相乘交互作用，变换器的优点是更好地学习上下文表示。上下文表示是由输入中的其他令牌调制的那些表示。提示用于在模型已经习得的所有可能任务的空间中定位手头的特定任务。换言之，在大规模通用语料库上预训练模型“教”它各种任务，然后在推理时间内，提示“启动”网络以解决其任务库中的特定任务。这个视图可以帮助解释视觉提示调谐的功效，因为类似的推理也适用于视觉领域。例如，与例如识别对象的照片相比，识别对象的人类草图需要识别不同形式的图案。经过各种视觉数据训练的网络在其权重中编码了各种形式的任务。提示可以用于定位特定任务，因此可以用相对较少的参数获得成功。

视觉变换器模型完全避免使用CNN，通过将图像补丁网格(的线性投影)直接传递给变换器。如果训练数据集足够大，则视觉变换器方法已显示出比当代CNN更好的性能，这与变换器模型缺乏CNN的感应偏差的事实一致。

实验数据

本发明的实施例已经通过实验进行了测试，如在以下中：Conder,T,Jefferson,J.,Pages,N.,Jawed,K.,Nejati,A.,Sagar,M.(2022).Efficient Transfer Learning forVisual Tasks via Continuous Optimization of Prompts(通过持续优化提示来实现视觉任务的高效迁移学习)。在：Sclaroff,S.,Distante,C.,Leo,M.,Farinella,G.M.,Tombari,F.(编辑)Image Analysis and Processing(图像分析和处理)-icap 2022.ICIAP2022.Lecture Notes in Computer Science(计算机科学讲义)，13231卷.Springer,Chamhttps://doi.org/10.1007/978-3-031-06427-2_25，其通过引用并入本文。

实验者使用自动混合精度在2个Quadro RTX 8000卡上训练每个模型，初始学习率的范围为从0.01到0.001，批量大小为512。总共花费了3周的时间(对于少样本分类，平均每次运行51分钟，并且对于普通分类，平均每次运行88分钟)。对于Caltech 101(加州理工学院101类物体数据集)、CIFAR-100(100类物体数据集)和Oxford Flowers(牛津花卉数据集)，实验者尝试了各种各样的视觉提示调谐超参数。实验人员发现，训练提示向量直接导致性能不佳。另一方面，使用MLP生成提示并不比单个完全连接(FC)层更好。然后，如图5所示，将最佳性能选择用于对所有数据集的视觉提示调谐。例如，在最左边的情况下，每个提示向量是通过将八个向量中的一者通过线性映射R32-->R768而生成的。在最右边的情况下，实验者改为在R4中使用16个向量，并将结果添加到16个“位置嵌入”向量中的一者(在R768中)。

实验者使用交叉熵作为损失函数。一旦验证损失趋于平稳，学习率就会降低10倍。如果验证指标(通常是准确性)在15个时期内没有改善，则停止训练。实验者考虑将验证集包括在用于最终会话的训练数据中，重用最知名的超参数，但发现性能差异(在测试集上)在实验中可以忽略不计。对于少样本分类，实验者每10个时期仅验证一次(因为验证集比新的训练集大得多)，并且实验者仅对每个数据集使用最知名的超参数。

由于多种可能的原因，实验者试图复制用于CLIP的原始零样本学习和线性分类器基准，产生了略有不同的结果。例如，一些实验者的数据集(或训练/验证/测试分割)与原始数据集不完全匹配。对于零样本学习方法，实验者可能已对某些类进行了不同的标记。此外，实验者的线性分类器进行了不同的训练(以便于将它们与视觉提示调谐相结合)。实验人员将数据集定性地分为三类：通用分类(ImageNet、CIFAR-10、CIFAR-100、SUN397、304J。

图8示出了在通用分类数据集(左上)、专门分类数据集(右)和非分类数据集(左下)上，零样本学习方法和视觉提示调谐方法的测试错误率的比较。UCF101、STL-10和Caltech 101\),专业分类(FGVCAircraft、GTSRB、Birdsnap、FER2013、DTD、EuroSAT、MNIST、ReSISC45、Stanford Cars、PatchCamelyon、Oxford Flowers、Oxford Pets(牛津宠物数据集)、Food 101)，以及不是分类任务的专业任务(CLEVR计数和渲染SST2)。

图7示出了在通用分类数据集(左上)、专门分类数据集(右)和非分类数据集(左下)上，视觉提示调谐与线性分类器组合方法的测试错误率比较。图7呈现了使用用于视觉提示调谐与线性分类器组合方法的最佳每数据集超参数选择的测试错误率。在通用分类集中，视觉提示调谐为CIFAR-100和CIFAR-10提供了明显的优势。对于专门的分类任务，视觉提示调谐提高了许多数据集的准确性，尤其是EuroSAT和GTSRB。实验者看到视觉提示调谐的一般模式，对于特定于域的任务，特别是训练图像与自然图像和可能出现在剪辑训练集(CLIP)中的其他图像有很大不同的任务，其性能提高得更多。关于CIFAR-100和CIFAR-10受益于视觉提示调谐，这两个数据集中的图像具有比典型地在互联网上看到的图像低得多的分辨率。视觉提示调谐还为CLEVR计数提供了性能优势，但是基线性能已经很差(错误率)，因此视觉提示调谐的准确性仍然相对较低。

图8示出了零样本学习方法和视觉提示调谐方法的最佳每数据集超参数选择的测试错误率。这里，视觉提示调谐的优点更加明显，因为零样本学习方法不使用训练数据。VTP为专用数据集提供了更大的改进，尤其是对于EuroSAT和MNIST数据集，其中，视觉提示调谐将错误率从近50％提高到几乎是最先进的。

图9示出了当使用线性或视觉提示调谐方法时的测试准确性(竖直轴线)与每类的标记示例的数量线(水平轴线)。蓝线是所有数据集的准确性的平均值(浅灰色线)。零样本CLIP基线由星号表示。图9中的a呈现了当仅对每类1、2、4、8或16个图像进行训练时线性分类器方法的测试准确性。在0处报告的测试准确性值是针对零样本学习方法的。实验人员观察到，除了少数数据集之外，线性分类器的一样本训练并不优于零样本学习方法。对于Oxford Pets和RenderedSST2，即使是16样本训练也表现不佳。这些结果与原始基准一致，原始基准发现(平均而言)每个类需要四个图像用于少样本线性分类器以匹配零赝本性能。图9中的b示出了在少样本学习的背景下视觉提示调谐方法的测试准确性。在这里，在大多数情况下，一样本学习的性能优于零样本学习基线。这表明，视觉提示调谐是一种比线性分类器方法更可靠的少样本迁移学习途径。图9中的c直接比较了视觉提示调谐和线性分类器方法的少样本性能。对于除一项任务外的所有任务，视觉提示调谐在一样本设置中的性能均优于线性分类器方法，平均提高了约20％。当有更多的数据可用时，差距变得更小(正如人们可能从图7和图8所预期的那样)。当数据稀缺时，整体视觉提示调谐优于线性方法。

解释

可以在任何合适的电子计算系统上利用所描述的方法和系统。根据下面描述的实施例，电子计算系统利用使用各种模块和引擎的本发明的方法学。电子计算系统可以包括至少一个处理器、一个或多个存储器设备或用于连接到一个或多个存储器设备的接口、用于连接到外部设备以便使系统能够接收来自一个或多个用户或外部系统的指令并对其进行操作的输入接口和输出接口、用于各种组件之间的内部和外部通信的数据总线、以及合适的电源。此外，电子计算系统可以包括用于与外部设备和内部设备通信的一个或多个通信设备(有线或无线)、以及一个或多个输入/输出设备，比如显示器、指针设备、键盘或打印设备。处理器被布置为执行作为程序指令存储在存储器设备内的程序的步骤。程序指令使得能够执行如本文所述的执行本发明的各种方法。程序指令可以使用任何合适的软件编程语言和工具包(比如例如基于C的语言和编译器)来开发或实施。此外，程序指令可以以任何合适的方式存储，使得它们可以被传送到存储器设备或由处理器读取，比如例如存储在计算机可读介质上。计算机可读介质可以是用于有形地存储程序指令的任何合适的介质，比如例如固态存储器、磁带、光盘(CD-ROM或CD-R/W)、存储卡、闪存、光盘、磁盘或任何其他合适的计算机可读介质。电子计算系统被布置为与数据存储系统或设备(例如，外部数据存储系统或设备)通信，以便检索相关数据。将理解的是，本文描述的系统包括被布置成执行如本文描述的各种功能和方法的一个或多个元件。本文描述的实施例旨在向读者提供构成系统的元件的各种模块和/或引擎可以如何互连以使得能够实施功能的示例。此外，本说明书的实施例以系统相关的细节解释了可以如何执行本文描述的方法的步骤。提供构思图以向读者指示各种不同模块和/或引擎如何在不同阶段处理各种数据元素。应当理解，模块或引擎的布置和构造可以根据系统和用户要求相应地进行调适，使得各种功能可以由与本文所述的模块或引擎不同的模块或引擎执行，并且某些模块或引擎可以组合成单个模块或引擎。应当理解，所描述的模块和/或引擎可以使用任何合适形式的技术来实施并提供有指令。例如，可以使用以任何合适的语言编写的任何合适的软件代码来实施或创建模块或引擎，其中，代码然后被编译以产生可以在任何合适的计算系统上运行的可执行程序。替代地，或者结合可执行程序，可以使用硬件、固件和软件的任何合适的混合来实施模块或引擎。例如，模块的部分可以使用专用集成电路(ASIC)、片上系统(SoC)、现场可编程门阵列(FPGA)或任何其他合适的可适配或可编程处理设备来实施。本文描述的方法可以使用被专门编程为执行所描述的步骤的通用计算系统来实施。替代地，本文所述的方法可以使用特定的电子计算机系统来实施，比如数据分类和可视化计算机、数据库查询计算机、图形分析计算机、数据分析计算机、制造数据分析计算机、商业智能计算机、人工智能计算机系统等，其中，计算机已经被特别地调适为对从与特定场相关联的环境捕获的特定数据执行所描述的步骤。

发明内容

提供了一种用训练图像来训练图像识别系统的计算机实现的方法，该方法包括：生成一个或多个可训练向量；对于每个训练图像：通过提示网络输入可训练向量以输出提示向量；以及将可训练向量和训练图像的扁平化补丁的线性投影输入到训经练/经预训练的视觉变换器中，以训练提示网络和可训练向量。

可选地，提示网络是多层感知器。

可选地，提示网络包括全连接层。

可选地，方法包括向提示向量添加可训练位置嵌入。

可选地，提示网络训练包括随机目标函数的基于一阶梯度的优化。

可选地，变换器的分类分数对每个类使用若干个标签，并对相对应的特征向量求平均。

可选地，变换器的分类使用前缀调谐的标签。

可选地，方法还包括图像识别头从视觉变换器接收输出，以及产生图像识别输出，并且其中，图像识别头与提示网络和可训练向量同时被训练。

还提供了一种训练图像识别系统的计算机实现的方法，图像识别系统包括经预训练的视觉变换器和可训练输入参数，方法包括以下步骤：将可训练输入参数作为辅助参数与标记的训练图像一起输入到经预训练的视觉变换器中，以及修改可训练输入参数以减少相对于标记的训练图像的错误。

还提供了一种使用利用上述方法训练的图像识别系统来执行图像识别任务的方法。图像识别任务可以通过将待分类的图像与使用上述方法训练的可训练输入参数一起输入到经训练的视觉变换器中来执行。

Claims

1.一种用训练图像来训练图像识别系统的计算机实现的方法，所述方法包括：生成或接收一个或多个可训练向量；

对于每个训练图像：

i.通过提示网络输入所述可训练向量以输出提示向量；以及

ii.将所述可训练向量和所述训练图像的扁平化补丁的线性投影输入到经训练的视觉变换器中，以训练所述提示网络和所述可训练向量。

2.如权利要求1所述的方法，其中，提示向量被添加到所述经训练的视觉变换器的第一层。

3.如权利要求1所述的方法，其中，提示向量被添加到所述经训练的视觉变换器的多个层。

4.如权利要求1至3中任一项所述的方法，其中，所述提示网络是多层感知器。

5.如权利要求1或权利要求4所述的方法，其中，所述提示网络包括全连接层。

6.如任一前述权利要求所述的方法，其中，所述方法包括将可训练位置嵌入添加到提示向量。

7.如任一前述权利要求所述的方法，其中，提示网络训练包括随机目标函数的基于一阶梯度的优化。

8.如任一前述权利要求所述的方法，其中，所述变换器的分类分数对每个类使用若干标签，并对相对应的特征向量求平均。

9.如任一前述权利要求所述的方法，其中，所述变换器的分类使用前缀调谐的标签。

10.如任一前述权利要求所述的方法，其中，所述方法还包括图像识别头接收来自所述视觉变换器的输出并产生图像识别输出，并且其中，所述图像识别头与所述提示网络和可训练向量同时被训练。

11.一种数据处理系统，包括用于执行前述权利要求中任一项所述的方法的装置。

12.一种使用图像识别系统执行图像识别任务的方法，所述图像识别系统使用如权利要求1至10中任一项所述的方法来训练。

13.一种计算机程序，包括指令，当所述程序由计算机执行时，所述指令使得所述计算机执行如权利要求1至10中任一项所述的方法。

14.一种训练图像识别系统的计算机实现的方法，所述图像识别系统包括经预训练的视觉变换器和可训练输入参数，所述方法包括以下步骤：

将所述可训练输入参数作为辅助参数与标记的训练图像一起输入到经所述预训练的视觉变换器中，以及修改所述可训练输入参数以减少相对于所述标记的训练图像的错误。

15.一种使用图像识别系统执行图像识别任务的方法，所述图像识别系统使用如权利要求14所述的方法来训练。