CN112200210A

CN112200210A - 使基础分类器适应于新奇类

Info

Publication number: CN112200210A
Application number: CN202010645476.6A
Authority: CN
Inventors: 史夏寒; M·席格; L·萨莱夫斯基; M·韦林; Z·阿卡塔
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-07-08
Filing date: 2020-07-07
Publication date: 2021-01-08
Also published as: EP3764284A1; US20210012226A1; US11481649B2

Abstract

提供了使基础分类器适应于新奇类。公开了一种用于使基础分类器适应于一个或多个新奇类的系统（100）。基础分类器通过使用特征提取器从实例中提取特征表示并且将其与基础类的类表示相匹配来将实例分类成基础类。使用用于新奇类的训练数据来使基础分类器适应。基于新奇类的实例的特征表示来确定新奇类的类表示。然后使新奇类和基础类的类表示适应，其中基于基础类的类表示使新奇类的至少一个类表示适应，并且基于新奇类的类表示使基础类的至少一个类表示适应。基础类和新奇类的经适应的类表示与基础分类器相关联。

Description

使基础分类器适应于新奇类

技术领域

本发明涉及用于使基础分类器适应于一个或多个新奇类的系统以及对应的计算机实现的方法。本发明进一步涉及用于学习变换参数集合的系统以及对应的计算机实现的方法，所述变换参数集合用于使基础分类器适应于一个或多个新奇类。本发明进一步涉及计算机可读介质，其包括用于执行方法和/或变换参数集合的指令。

背景技术

现代机器学习技术能够以令人印象深刻的准确程度对图像进行分类，并且因此，图像分类越来越多地用于诸如自主驾驶、医学成像等现实生活应用中。然而，使用常规技术训练的机器学习模型的质量在很大程度上取决于可用训练数据的量。例如，可能需要每类有大量的示例来可靠地将实例分类成该类。然而，尤其在诸如自主驾驶之类的设定中，可以存在大量不同的类，例如不同的交通标志、各种其他类型的交通参与者等。此外，这样的类的特性可以取决于机器学习模型被部署在何处，例如，交通标志因国家而异。因此，可能需要用于许多类和许多变体的大量训练数据，这使得有效地部署这样的机器学习模型是昂贵且复杂的。

少镜头学习技术旨在提供机器学习模型，所述机器学习模型可以适应于相对少的训练示例针对其可用的新奇类。例如，用于少镜头学习的已知设置是

向

镜头类。在这种情况下，目的是要在每个类的给定

个加标签的示例的情况下，辨别

个先前未见的新奇类。该项任务可以从元学习的角度来着手处理。不像在经典的转移学习中，元学习的目的不是对特定的目标任务的适应，而是适应在测试时呈现的各种新任务并且跨所述各种新任务很好地执行。例如，在元学习中，可以确定用于确定

向

镜头分类器的过程参数，所述过程参数在若干次运行之内通常提供最佳结果。

在S. Gidaris和N. Komodakis的“Dynamic Few-Shot Visual Learning withoutForgetting”（在https://arxiv.org/abs/1804.09458处可获得并且通过引用并入本文中）中，提出了一种少镜头视觉学习系统。基于基础类集合的训练数据的大集合，系统的目的是要提供一种对象识别学习系统，所述对象识别学习系统能够从这些基础类别以及从在测试时仅为其提供几个训练示例的新奇类别中识别对象。通过基于卷积神经网络的识别模型来执行对象识别，所述基于卷积神经网络的识别模型将从输入图像中提取的特征向量与每个对象类别的分类权重向量进行比较。从新奇类别的训练示例和基础类别的分类权重向量中推断用于新奇类别的分类权重向量。在两个阶段中训练模型。在第一训练阶段中，学习特征提取器的参数和基础类的分类权重向量。在第二训练阶段中，学习推断过程的参数。

发明内容

根据本发明的第一方面，如权利要求1所限定的，提出了一种用于使基础分类器适应于一个或多个新奇类的系统。根据本发明的另一方面，如权利要求10所限定的，提出了一种使基础分类器适应的计算机实现的方法。根据本发明的另一个方面，如权利要求11所限定的，提出了一种用于学习变换参数集合的系统，其中变换参数集合用于使基础分类器适应于一个或多个新奇类。根据本发明的另一方面，如权利要求14所限定的，提出了一种学习变换参数集合的计算机实现的方法。根据本发明的一方面，如权利要求15所限定的，提供了一种计算机可读介质。

本发明的以上方面牵涉使用分类器将实例分类成相应的类。例如，各种实施例牵涉图像分类，其中输入实例包括例如交通状况的图像之类的图像，或者更一般地包括控制系统的环境的图像。分类任务可以是识别图像中的对象，例如，自主车辆环境中的特定交通标志、医学图像中的特定器官等。然而，本发明决不仅限于图像，例如，待分类的输入实例可以包括从传感器获得的各种类型的传感器数据，例如，视频数据、雷达数据、激光雷达（LiDAR）数据、超声数据、运动数据等。这样的传感器数据的分类可以用于控制各种计算机控制的机器，例如机器人、车辆、家用器具、电动工具、制造机器、个人助理、访问控制系统等。

本发明的以上方面还涉及这样的分类器对新奇类的适应。例如，在欧洲交通标志上训练的分类器可以适应于中国市场。在各种实施例中，分类器基于这些类的类表示将实例分类成类集合。类表示可以表示类的一个或多个属性或特性，所述类的一个或多个属性或特性例如通过基于一个或多个类实例进行训练来获得。类表示也称为类原型或分类权重向量。分类器可以通过将实例与相应的原型匹配并且选择其类表示最对应于实例的类来对实例进行分类。原型网络是这样的分类器的示例。

为了使分类器适应于新奇类，可以确定新奇类的类表示，并且将新奇类的类表示与基础分类器相关联，以获得联合分类器。有趣的是，这样的联合分类器可以用于将实例分类成基础类和新奇类二者。换言之，目标是要使分类器适应于快速并入少镜头的新奇类，而同时维持对包括先前看见的基础类和新奇类二者的所有类的辨别能力。例如，即使很少的中国交通标志可用，分类器也应该准确地识别欧洲和中国的交通标志二者。确定可以对基础类和新奇类二者进行分类的这样的分类器的问题，可以被称为“广义少镜头学习”（GFSL）。注意到，分类成基础类和新奇类二者的GFSL问题比仅仅分类成新奇类的传统FSL问题更具挑战性，例如，标签空间大得多，因为它包括基础类和新奇类二者。特别地，针对FSL训练的模型在GFSL设定中典型地不提供令人满意的性能。

注意到，基础分类器和联合分类器可以均使用相同的过程来基于类表示对实例进行分类。这样的过程可以称为原型分类器。因此，基础分类器可以包括原型分类器和基础类的类表示，并且可以基于包括基础类表示的基础标签空间来对实例进行分类。联合分类器可以包括用于基础类和新奇类的相同的原型分类器和类原型，并且可以基于包括基础和新奇类表示的联合标签空间来对实例进行分类。使基础分类器适应可以包括在不影响原型分类器的情况下使原型集合适应，例如，将更新的类原型与基础分类器相关联。

为了使基础分类器适应于可以附加地分类成一个或多个新奇类的联合分类器，典型地，以相应新奇类的一个或多个实例的形式获得用于新奇类的训练数据。有利地，在各种实施例中，相对少的训练数据可以足够，例如，每类的实例数量可以是一个、两个、最多五个或最多十个。基于这些实例，可以使用特征提取器来确定一个或多个新奇类的类表示，例如，通过提取实例的特征表示并且从中确定新奇类的类表示以供联合分类器使用。

尽管这样的类表示可以由联合分类器直接使用，但是发明人意识到这可能不导致最优的解决方案。如果类表示被有效地确定为它们的支持集合（例如，该类的实例集合）的函数，那么来自其他类的信息例如通过特征提取器的学习参数而最佳可以具有间接的影响。此外，该影响仅在一个方向上，例如，基础类可以影响新奇类，但不可反过来。如发明人意识到的，这可能导致如下类表示：其不像它们可能的那么全局一致和有辨别力。

然而，有趣的是，发明人进行设计以通过如下方式改进联合分类器：不仅确定新奇类的类表示，而且附加地基于基础类的类表示和新奇类的类表示使彼此适应。例如，新奇类的至少一个类表示可以基于基础类的类表示进行适应，并且基础类的至少一个类表示可以基于新奇类的类表示进行适应。此外，新奇类的至少一个类表示可以基于另一个新奇类的类表示进行适应，和/或基础类的至少一个类表示可以基于另一个基础类的类表示进行适应。如上面所讨论的，通过使用经学习的变换参数，可以使用与特定设定最相关的适应。

适应新奇类和基础类二者可以帮助获得全局一致和/或有辨别力的类表示集合。例如，将相似基础类的信息包括到新奇类的类表示中可以通过实际上均衡由于少量新奇类实例所致的随机影响来增加其准确性。然而，仅仅这样做将不能考虑到新奇类的类表示对于更新基础类的类表示可能也是有价值的。例如，如果新奇类相对类似于基础类，那么给定基础类表示的固定集合，用于新奇类的最优表示也可以接近若干个基础类表示。因此，由新奇类表示限定的实例集群可能与由基础类表示限定的实例集群严重地重叠。在这样的情况下，更新基础类表示和新奇类表示二者、例如通过将基础类表示从新奇类表示移开，可以导致类表示的更有效分布。实际上，联合更新可以引入排斥机制，通过所述排斥机制，重叠的基础类和/或新奇类被推开以减少混淆。注意到，当仅将新奇类置于基础类的固定空间中时，这样的影响难以实现。

更一般地，基于相似的新奇类的表示来更新基础类表示有利地允许将新奇类的实例的信息不仅在一般数据采样条件方面、而且还在类本身方面并入基础类表示中。例如，基础类表示也可以基于相对少的元素，因此使用预期宽泛相似的附加实例可以帮助减少最初被用于确定基础类表示的实例集合中的随机影响。

实际上，以上措施可以使能限定不仅从基础类到新奇类的关系，而且还有从新奇类到基础类以及在基础类与新奇类间的关系。例如，除了使用新奇类来更新基础类表示和使用基础类来更新新奇类之外，新奇类表示也可以基于其他新奇类，并且基础类表示也可以基于其他基础类。一般地，一些或所有类表示可以基于相应的相似的其他类来被更新，而不管它们是基础类还是新奇类。这对于确保类表示的全局一致性可以特别有效。

在各种实施例中，使用变换参数集合来执行使基础分类器适应于一个或多个新奇类。例如，当使基础类或新奇类的类表示适应时，变换参数集合可以指示如何确定要使用哪个其他类表示和/或每个其他类表示对类表示影响到什么程度。变换参数集合还可以指示如何更新类表示，例如，在什么程度上考虑哪些属性等。贯穿全文提供了各种示例。使用变换参数不是严格必要的，但是增加了适应的灵活性和适应性。

在本发明的各种方面中，变换参数本身是使用元学习方法来学习的，例如，通过重复地执行以上过程来使基础分类器适应，以确定哪个变换参数集合一般导致最佳联合分类器。具体地，给定用于多个类的训练数据，可以通过重复地进行如下操作来学习变换参数：从多个类中选择一个或多个基础类和一个或多个新奇类；为基础类构造基础分类器；选择用于新奇类的训练数据；以及使用变换参数集合使基础分类器适应于新奇类，以获得联合分类器。参数集合当被应用于所选基础类和新奇类的实例时，可以在联合分类器的分类损失方面来度量参数集合的性能。例如，可以例如使用随机梯度下降或类似的优化技术更新变换参数集合以减少分类损失。

在各种实施例中，分类器基于实例的特征表示对其进行分类。例如，特征表示可以与相应类的类表示相匹配，例如，以将实例分类成其类表示与实例的特征表示最佳匹配的类。分类器不一定返回实例被分类成的单个类，例如，分类器也可以用于估计实例属于给定类的概率、确定实例可能属于的前

个，等等。

实例的特征表示可以借助于特征提取器从该实例中提取。典型地，特征表示由比实例本身少的元素组成，例如，实例可以由向量表示，并且特征表示可以由更小的向量表示。在该意义上，特征表示可以提供实例的压缩表示。例如，特征提取器可以包括卷积神经网络（CNN）或其他类型的机器学习模型。有趣的是，特征提取器可以通过参数集合来被参数化。可以训练参数集合、例如CNN的权重或其他模型参数，以便获得作为输入实例的压缩表示的特征表示，所述特征表示捕获关于实例的与手头分类任务最相关的信息。当使用中时，例如当使基础分类器适应于新奇类时，特征提取器的参数典型地是固定的，例如，使基础分类器适应包括更新由原型分类器使用的类表示，但不更新由特征提取器使用的参数。

可选地，当将实例的特征表示与相应的类原型匹配时，计算特征表示与类原型之间的余弦距离。尽管诸如L2距离之类的其他距离度量也是可能的，但是发明人已经发现余弦距离是优选的，因为它对于基础类的类表示和对于新奇类的类表示均工作良好。余弦距离可以具有可学习的温度参数。

可选地，处理器子系统被配置为通过计算一个或多个基础类和一个或多个新奇类的类表示的加权和（例如，向量的元素方面的加权和）、可选地与其他更新算子（例如，如下面讨论的后卷积变换和非线性算子）组合，来确定某个目标类的经适应的类表示。通过使用加权和，类表示可以根据其他类表示与目标类的表示的相关性来考虑其他类表示的信息。这样的类表示的加权和可以被视为卷积，并且在该意义上，该加权和可以被称为“卷积算子”。

可选地，加权和中相应类表示的权重指示相应类表示与目标类的类表示之间的相似性。权重可以根据相应类表示和目标类的类表示来确定。换言之，权重可以至少部分地基于类表示本身来计算。余弦相似性证明工作得特别良好，但是一定范围的其他相似性度量也是可能的。

可选地，可以至少部分地基于与类表示相关联的更多侧面信息值中的一个来确定权重。新奇类的一个或多个侧面信息值可以独立于新奇类的一个或多个实例。换言之，侧面信息可以是与类本身相关而不是与特定训练实例相关的信息，例如，例如文本类信息的语义嵌入，或者类特定的属性。这样的侧面信息可以例如从各种外部源获得，所述各种外部源诸如与该类相关的维基百科页面、聚集的医学数据集等。例如根据被用于使相应类表示适应的相同加权和，侧面信息值可以连同它们的相应类表示一起被适应，而同时使类表示适应。然而，它们典型地不是联合分类器的类表示的部分。

包括侧面信息可以特别地帮助使类表示适应，因为它允许基于其他类表示来更新类表示，所述其他类表示基于可用的训练实例可能看起来不相似，但是仍然如侧面信息所指示的那样相关。这可能导致将信息并入类表示中，如果权重仅基于类表示和/或底层训练实例，则将不并入所述信息。

注意到，当将联合分类器应用于非训练实例时，典型地不使用侧面信息。事实上，侧面信息是关于类而不是关于特定实例的信息，因此它典型地不可用于仍然待分类的实例。因此，联合分类器不需要包括侧面信息。然而，侧面信息仍然可以包括在联合分类器中，例如，以进一步使联合分类器适应于甚至更多的新奇类。

可选地，可以使用参数化的相似性度量来确定相应类表示和/或侧面信息之间的相似性，提供了参数化的相似性度量的各种示例。有趣的是，相似性度量的参数可以包括在变换参数集合中，使得相似性度量最佳地适应于手头的任务，例如，使得相似性度量选择对于更新目标类表示最相关的其他类表示。有趣的是，即使相似性度量的参数的数量相对大，例如，即使相似性度量是由神经网络限定的，但仍然，由于相同的相似性度量可以应用于许多对类表示，因此可以避免过拟合。事实上，与例如确定用于关键空间中每个基础类的表示相比，可以获得参数集合中的总体减少、以及因此更稳健的适应过程。

可选地，加权和中的相应类表示的权重指示相应类表示的类与独立于它们的类表示的目标类之间的相似性。这样的权重可以与训练数据集分离地被访问，或者至少不从类表示和/或类的实例中确定。从该意义上，这样的权重可以被视为关于各种类的关系性侧面信息。该关系性侧面信息可以从各种外部知识源获得，例如作为WordNet相似性等。如上所述，当应用联合分类器时，典型地不使用关系性侧面信息，并且因此它典型地不需要连同联合分类器一起存储或被包括在联合分类器中，除非联合分类器需要被进一步适应。由于关系性侧面信息允许以类表示本身或这些类表示所基于的实例都不建议的方式来更新类表示，因此可以实现类表示的更相关的适应。

可选地，归一化可以应用于类表示和/或经计算的加权和。例如，可以将softmax算子或类似物应用于类表示。发明人认识到归一化极大地改进了所获得的联合分类器的准确性，因为它可以防止更新的类表示向量变得比初始类表示长，从而确保更新的类表示保持在原始空间中。当使用关系性侧面信息时，如上面讨论的，归一化可以包括应用具有可学习温度的softmax算子。这可以允许toe模型对算子矩阵应用更有效的对比度，从而有效地使相似性结构更尖峰或更平坦。

可选地，可以通过使用相应的权重计算多个加权和来确定目标类的经适应的类表示。多个加权和可以组合成单个经适应的类表示，例如作为总和或平均值。例如，一些加权和可以基于类表示和/或侧面信息之间的相似性（例如，利用不同的相似性度量来计算），其他加权和可以基于关系性侧面信息等。因此，可以组合对类表示进行更新的不同方式。不同的方式可以通过不同的相应参数来参数化。通过对加权和进行组合，来自其他类表示的信息可以特别有效地用于更新目标类表示。

可选地，可以通过经由计算类表示的特征和/或侧面信息值的加权和来进一步使类表示的特征适应，从而确定经适应的类表示。换言之，类表示的特征可以基于该相同类表示的其他特征和/或侧面信息值来适应。权重可以例如被包括在变换参数集合中。其特征值被适应的类表示可以是基于其他类表示要被适应的类表示的加权和。在该意义上，该适应可以被视为“后卷积变换”。如果计算了多个加权和，则这多个加权和可以被分离地适应，例如，每个加权和基于变换参数集合中的相应权重。然而，不在取得加权和之后、而是在取得加权和之前使类表示适应也是可能的。在各种实施例中，事实上，例如，如果使用线性变换，则这些可能性均可能通过关联性而以相同的结果结束。

在任何情况下，从概念上讲，使类表示的特征适应可以被视为将完全连接层应用于例如待更新的类表示。类似于它们在神经网络中的使用，可以特别是与下面讨论的迭代过程相组合地捕获类表示的灵活变换。特别地，这样的完全连接层可以特别有效地将侧面信息并入联合分类器中；如所指出的，否则侧面信息值典型地将不被包括在联合分类器中。通过使用与对角矩阵的乘法来执行该适应，可以实现参数数量的减少、以及因此过拟合风险的降低。

可选地，可以在迭代过程中确定经适应的类表示。也就是说，可以执行多次迭代，其中更新基础类和新奇类的类表示。这允许通过多跳传播类表示信息。例如，第一类表示可以用于更新第二类表示，例如，第一类和第二类可以相似。在下一次迭代中，第二类表示可以用于更新第三类表示，例如，第二类和第三类可以相似。因此，即使没有基于第一类表示更新第三类表示的直接原因，来自第一类表示的信息也可以用于间接影响第三类表示，从而允许更好地分散由类表示捕获的知识。作为另一个示例，在使用相应的权重计算多个加权和的情况下，例如，一个基于关系性侧面信息并且一个基于类表示相似性，于是第一迭代中在关系上相似的类之间的更新可以影响第二迭代中表示方面相似的类之间的更新，并且反之亦然。因此，侧面信息可以以受控的方式跨多种类型的类相似性而分散。

当与类表示的加权和相组合地使用迭代过程时，可选地，可以将非线性应用于计算的加权和或者多个这样的加权和的平均值或总和，以获得更新的类表示。类似于它们在神经网络中的使用，非线性函数允许捕获更灵活的变换。例如，非线性可以是ReLU、leakyReLU、tanh函数等。然而，这样的非线性典型地不应用于最后的迭代中，以便不限制类表示的最终值。

可选地，联合分类器用于对查询实例进行分类。为了对所获得的查询实例进行分类，可以使用联合分类器来确定查询实例相对于每个基础类和每个新奇类的分类分数。使用该分类分数，可以确定查询实例到基础类或新奇类中的分类。这样，查询实例可以以有效利用用于新奇类的训练数据的方式被分类成新奇类和基础类，例如，不仅确定那些新奇类本身的类表示，而且还影响至少一个基础类的类表示。因此，获得了查询实例的更准确的分类。

关于从训练数据学习变换参数，可选地，这样的学习可以与学习用于训练数据和/或参数的类表示相组合。学习训练数据集的类的类表示——与从实例中导出它们相反——是有利的，因为它允许组合对新奇类的快速学习与对训练数据集的类的较慢学习。例如，训练可以奖励全局辨别，例如，选择如下类表示：所述类表示不一定最准确地表示其类的训练实例但导致相对于其他类的更好的决策边界，例如，因为在训练类表示中可以彼此影响。

可选地，多个类的类表示和特征提取器的参数通过在学习变换参数集合之前在学习操作中学习所述类表示和所述参数来被确定。执行类表示和参数的分离学习可以是有利的，例如，以减少要同时学习的参数的数量。

可选地，多个类的类表示和/或特征提取器的参数与变换参数一起基于经适应的基础分类器的所确定的分类损失来被学习。例如，变换参数集合、类表示和/或特征提取器的参数可以连同变换参数一起被更新，以减少例如在随机梯度下降迭代或类似物中的分类损失。例如，在特定运行中被选择为基础类的那些类的类表示可以被更新以减少损失。因此，实际上，可以端到端地学习类表示和各种参数。这样组合的学习更灵活，因为它允许类表示和特征提取器参数基于关于其适应性的反馈和/或基于对变换参数的更新而被更新。例如，特征提取器可以学习提取对计算类表示之间的相似性有用的特征。如果变换参数与特征提取器参数分离地被学习，则这样的特征一般将不被学习，因为该使用仅当使分类器适应时出现。当使用侧面信息来更新类表示时，发明人已经发现经组合的学习尤其有益，因为它可以在确定变换参数之前避免模型陷入与侧面信息不一致的表示中，并且因此帮助确保侧面信息可以在更新类表示时受益。例如，发明人已经发现，如果模型被优化用于使用特定特征，则即使附加的侧面信息变得可用，它也可以继续使用这样的特征，因为这样的特征的使用最初可以向模型提供更好的改进。

本领域技术人员将领会到，可以以任何被认为有用的方式来组合本发明的两个或更多个上面提及的实施例、实现和/或可选方面。

可以由本领域技术人员基于本描述来实行任何计算机实现的方法和/或任何计算机可读介质的修改和变体，其对应于对应系统的所描述的修改和变体。

附图说明

本发明的这些和其他方面将从实施例和附图中清楚，并且进一步参考实施例并且参考附图来被阐明，所述实施例在以下描述中作为示例被描述，在附图中：

图1示出了用于使基础分类器适应于一个或多个新奇类以获得联合分类器的系统；

图2示出了用于学习变换参数集合以用于使基础分类器适应于一个或多个新奇类的系统；

图3示出了如何使用具有类表示的分类器来对实例进行分类的详细示例；

图4示出了可以如何使基础分类器适应于一个或多个新奇类以获得联合分类器的详细示例；

图5示出了可以如何学习用于使基础分类器适应于一个或多个新奇类的变换参数集合的详细示例；

图6示出了可以如何学习用于使基础分类器适应于一个或多个新奇类的变换参数集合的详细示例；

图7示出了使基础分类器适应于一个或多个新奇类的计算机实现的方法；

图8示出了学习变换参数集合的计算机实现的方法；

图9示出了包括数据的计算机可读介质。

应该注意到，各图纯粹是图解性的，并且未按比例绘制。在各图中，对应于已经描述的元素的元素可以具有相同的参考标号。

具体实施方式

图1示出了用于使基础分类器适应于一个或多个新奇类的系统100。系统100可以包括数据接口120和处理器子系统140，它们可以经由数据通信124进行内部通信。数据接口120可以用于访问表示基础分类器的数据050。数据050可以包括基础分类器的一个或多个基础类的类表示。数据050还可以包括用于从实例中提取特征表示的特征提取器的参数。基础分类器可以被配置为通过将特征提取器从实例中提取的特征表示与该一个或多个基础类的类表示相匹配，将实例分类成该一个或多个基础类。

处理器子系统140可以被配置为在系统100的操作期间并且使用数据接口120来访问表示基础分类器的数据050。例如，如在图1中所示，数据接口120可以提供对外部数据存储装置020的访问122，外部数据存储装置020可以包括所述数据050。可替换地，数据050可以从作为系统100的部分的内部数据存储装置被访问。可替换地，可以经由网络从另一个实体接收数据050。一般而言，数据接口120可以采取各种形式，诸如到局域网或广域网（例如，因特网）的网络接口、到内部或外部数据存储装置的存储接口等。数据存储装置020可以采取任何已知的和合适的形式。

处理器子系统140可以被配置为在系统100的操作期间并且使用数据接口120来使基础分类器适应。在系统操作期间使基础分类器适应可以包括获得用于一个或多个新奇类的训练数据035。用于新奇类的训练数据包括新奇类的一个或多个实例。例如，如在图像中所示的，数据接口120可以用于访问训练数据035。在系统操作期间使基础分类器适应可以进一步包括确定一个或多个新奇类的类表示。确定新奇类的类表示可以包括使用特征提取器提取新奇类的一个或多个实例的特征表示。

在系统操作期间使基础分类器适应可以进一步包括确定基础类和新奇类的经适应的类表示，其包括基于基础类的类表示使新奇类的至少一个类表示适应，以及基于新奇类的类表示使基础类的至少一个类表示适应。在系统操作期间使基础分类器适应还可以包括将经适应的类表示与基础分类器相关联，以获得用于将实例分类成一个或多个基础类和一个或多个新奇类的联合分类器。

可选地，处理器子系统140可以被配置为在系统100的操作期间获得查询实例（未示出）；使用联合分类器确定查询实例相对于每个基础类和每个新奇类的分类分数；并且从其中确定查询实例到基础类或新奇类中的分类。

可选地，可以使用变换参数集合（未示出）来确定基础类和新奇类的经适应的类表示。例如，数据接口120可以用于访问变换参数集合。变换参数集合可以通过根据本文中描述的方法（例如通过图2的系统200）学习变换参数集合来被获得。

作为可选组件，系统100可以包括图像输入接口160或任何其他类型的输入接口，以用于从诸如相机180的传感器获得传感器数据。传感器数据可以是基础分类器要被适应于的新奇类的实例的部分和/或在要分类的查询实例中。例如，相机可以被配置为捕获图像数据162，处理器子系统140被配置为从经由输入接口160获得的图像数据162获得实例。

作为可选组件，系统100可以包括致动器接口（未示出），以用于向致动器提供致动器数据，所述致动器数据使得致动器在系统100的环境中实现动作。例如，处理器子系统140可以被配置为至少部分地基于使用联合分类器确定的查询实例的分类分数来确定致动器数据，并且经由致动器接口向致动器提供致动器数据。

将参考图3-6来进一步阐明系统100的操作的各种细节和方面、包括其可选方面。

一般而言，系统100可以被具体化为单个设备或装置或被具体化在单个设备或装置中，所述单个设备或装置诸如工作站（例如基于膝上型或台式的工作站）或服务器。所述设备或装置可以包括执行适当软件的一个或多个微处理器。例如，处理器子系统可以通过单个中央处理单元（CPU）、而且还通过这样的CPU和/或其他类型的处理单元的组合或系统来被具体化。软件可能已被下载和/或存储在对应的存储器中，所述对应的存储器例如诸如RAM的易失性存储器，或诸如闪存的非易失性存储器。可替换地，系统的功能单元、例如数据接口和处理器子系统可以以可编程逻辑的形式（例如作为现场可编程门阵列（FPGA）和/或图形处理单元（GPU））被实现在设备或装置中。一般而言，可以以电路的形式来实现系统的每个功能单元。注意到，系统100还可以以分布式方式来被实现，例如牵涉不同的设备或装置，诸如例如以云计算的形式的分布式服务器。

作为具体示例，系统100可以是用于控制车辆的汽车控制系统。例如，基础分类器和联合分类器可以是图像分类器，并且实例可以是图像。车辆可以是自主或半自主车辆，但是系统100也可以是非自主车辆的驾驶员辅助系统。例如，这样的车辆可以并入系统100来基于从相机180获得的图像控制车辆，如所讨论的。在该特定示例中，系统100可以被配置为使用联合分类器来确定从相机180获得的查询图像的分类，以检测车辆环境中的感兴趣的对象，例如交通标志。该示例中的系统100可以进一步包括致动器接口（未被单独地示出），以用于向致动器提供致动器数据，所述致动器数据使得致动器实现用于控制车辆的动作。系统100可以被配置为至少部分地基于分类来确定用于控制车辆的致动器数据；并且经由致动器接口向致动器提供致动器数据。例如，可以使得致动器控制车辆的转向和/或制动。例如，控制系统可以基于检测到的状况（例如限速交通标志），来控制车辆的电动机执行（再生）制动。

图2示出了用于学习变换参数集合的系统200。变换参数集合可以用于例如根据本文中描述的方法、例如通过图1的系统100使基础分类器适应于一个或多个新奇类。系统200可以包括数据接口220和处理器子系统240，它们可以经由数据通信224进行内部通信。数据接口220可以用于访问用于多个类的训练数据030。用于一个类的训练数据可以包括该类的一个或多个实例。数据接口220可以用于进一步访问数据040，数据040表示多个类的类表示和用于从实例中提取特征表示的特征提取器的参数。

处理器子系统240可以被配置为在系统200的操作期间并且使用数据接口220来访问数据030、040。例如，如在图2中所示，数据接口220可以提供对外部数据存储装置022的访问222，外部数据存储装置022可以包括所述数据030、040。可替换地，数据030、040可以从作为系统200的部分的内部数据存储装置中被访问。可替换地，可以经由网络从另一个实体接收数据030、040。一般而言，数据接口220可以采取各种形式，诸如到局域网或广域网（例如，因特网）的网络接口、到内部或外部数据存储装置的存储接口等。数据存储装置022可以采取任何已知的和合适的形式。

处理器子系统240可以被配置为在系统操作期间学习变换参数集合。为了学习变换参数集合，在操作期间，处理器子系统240可以执行重复的过程。重复的过程可以包括从多个类中选择一个或多个基础类和一个或多个新奇类。重复的过程可以进一步包括构造基础分类器050，该基础分类器050被配置为基于一个或多个基础类的类表示和特征提取器的参数将实例分类成一个或多个基础类。例如，如在图像中所示，数据接口220可以用于访问基础分类器050。重复的过程可以进一步包括从训练数据中选择用于一个或多个新奇类的训练数据。重复的过程还可以包括根据本文中描述的方法、使用变换参数集合，使基础分类器适应于一个或多个新奇类。例如，基础分类器可以如针对系统100的处理器子系统140所描述的那样进行适应。重复的过程还可以包括针对一个或多个基础类和一个或多个新奇类的实例来确定经适应的基础分类器的分类损失。

作为可选组件，系统200可以包括图像输入接口（未示出）或任何其他类型的输入接口，以用于从诸如相机（未示出）的传感器获得传感器数据。处理器子系统240可以被配置为获得训练数据030的一个或多个实例，作为从传感器获得的传感器数据。

将参考图3-6来进一步阐明系统200的操作的各种细节和方面、包括其可选方面。

一般而言，系统200可以被具体化为单个设备或装置或被具体化在单个设备或装置中，所述单个设备或装置诸如工作站（例如基于膝上型或台式的工作站）或服务器。所述设备或装置可以包括执行适当软件的一个或多个微处理器。例如，处理器子系统可以通过单个中央处理单元（CPU）、而且还通过这样的CPU和/或其他类型的处理单元的组合或系统来被具体化。软件可能已被下载和/或存储在对应的存储器中，所述对应的存储器例如诸如RAM的易失性存储器，或诸如闪存的非易失性存储器。可替换地，系统的功能单元、例如数据接口和处理器子系统可以以可编程逻辑的形式（例如，作为现场可编程门阵列（FPGA）和/或图形处理单元（GPU））被实现在设备或装置中。一般而言，可以以电路的形式来实现系统的每个功能单元。注意到，系统200还可以以分布式方式来被实现，例如牵涉不同的设备或装置，诸如例如以云计算的形式的分布式服务器。

一般地，各种实施例涉及使用于将实例分类成一个或多个基础类的基础分类器适应，以获得用于将实例分类成一个或多个基础类和一个或多个新奇类的联合分类器。获得这样的联合分类器的问题可以被称为“广义少镜头学习”或GFSL。GFSL可以被认为是“少镜头学习”或FSL问题的推广。现在从数学的角度讨论FSL和GFSL。

FSL任务以及特别是

向

镜头分类可以被表述为：在所谓的支持集合

中给定的每类有相对少量的

个加标签的示例的情况下，辨别

个新奇类。换言之，FSL任务可以由

个先前未见的新奇类组成，每个新奇类具有

个加标签的示例，例如

。更精确地，令

标示新奇类标签空间，其中

并且令

标示所谓的支持集合，其中

是类

的第

个加标签的示例。对于新的查询图像

，FSL预测可以标示为：

。

注意到，传统的FSL仅关注新奇类的辨别，例如，可以从新奇类之一中选择查询。因此，对FSL而言，以上

仅针对

。换言之，在FSL中，从训练集合先前所见的类在度量模型的性能时不再起任何作用。该设置可能强调对不同新任务的快速适应，但另一方面，可能不考虑模型积累知识的能力。

然而，有趣的是，联合分类器也可以将实例分类成基础分类器的基础类。换言之，联合分类器可以将新奇类并入所见的类标签空间中，而同时维持所有类间的全局辨别。这导致在实践中更有用得多的联合分类器。更精确地，在GFSL中，联合分类器不仅可以学习辨别新奇标签空间

，而且还可以学习辨别包括新奇类和先前所见的类二者的联合标签空间

。例如，联合分类器可以预测用于查询实例

的类标签

，该查询实例

可以来自任何所见类和新奇类。GFSL一般比FSL更具挑战性，因为联合分类器可能也需要能够被分类成基础类。数学上，GFSL可以被公式化为广义

向

镜头分类问题，其中模型不得不辨别由来自训练集合的所有所见类和新奇类组成的联合标签空间，例如

。例如，基础分类器已经在其上被训练的训练数据可以标示为：

其中

是用于基础分类器的训练数据的类的数量，并且

是对于第

个训练类可用的加标签的示例的数量。典型地，基础类的数量大于新奇类的数量，例如至少是新奇类的数量的两倍或五倍那样大。此外，基础类实例的数量典型地大于新奇类实例的数量，例如至少是新奇类实例的数量的五倍或至少10倍那样多。对于查询实例

，GFSL任务可以表述为确定：

注意到，不像对于FSL，

现在针对

，因为

可能来自任何基础类和新奇类。

图3示出了可以如何通过分类器对实例进行分类的详细但非限制性的示例，所述分类器例如是基础分类器或通过使基础分类器适应于一个或多个新奇类而获得的联合分类器。例如，可以根据如本文中描述的用于学习变换参数集合的方法来确定基础分类器，例如，如关于图5-6所讨论的那样。可以根据用于使基础分类器适应的方法来确定联合分类器，例如，如关于图4所讨论的那样。

图中示出的是分类器C 350。分类器C可以包括实例可以被分类成的一个或多个类的类表示CR1 351直到CRn 352。例如，如果分类器C是基础分类器，则类表示可以是基础类的类表示，而如果分类器C是联合分类器，则类表示可以是基础类和新奇类的类表示。类表示CRi典型地是向量。例如，类表示可以包括最多或至少64个、最多或至少128个、或者最多或至少256个特征。类表示CRi本身可以例如经由特征提取器Fx而基于实例；在下面的解释中，假设给出了它们。

分类器C还可以包括用于从实例中提取特征表示的特征提取器Fx 310的参数FPAR。特征提取器Fx典型地是具有可训练参数FPAR的机器学习模型，例如，特征提取器Fx可以是具有被包括在参数FPAR中的神经网络权重的神经网络，或者任何其他类型的模型，例如线性回归模型等。作为具体示例，特征提取器Fx可以包括神经网络，例如卷积神经网络。特征提取器例如从如下文献中是已知的：J. Snell, K. Swersky和R. S. Zemel，“Prototypical networks for few-shot learning”（在https://arxiv.org/abs/1703.05175处可获得，并且通过引用以关注特征提取器的程度上并入本文中）以及S.Gidaris和N. Komodakis，“Dynamic few-shot visual learning without forgetting”（在https://arxiv.org/abs/1804.09458处可获得，并且通过引用以关注特征提取器的程度上并入本文中）。

还示出的是待分类的实例I 339。实例I可以表示为向量、矩阵或可以输入到特征提取器Fx的任何其他数据。例如，实例可以表示图像或其他类型的传感器数据。为了使用分类器C对实例I进行分类，其特征表示FR 329可以由特征提取器Fx从实例I中提取。在分类CI370中，特征表示FR可以与类表示CR1，……，CRn匹配。例如，实例I可以被分类成其类表示与特征表示FR最佳匹配的类，例如，实例I的分类分数可以相对于每个类来被确定，并且分类C690可以被确定为具有最高分类分数的类。

作为具体示例，分类分数可以是属于特定类

的实例

的条件类概率I，其根据实例的特征表示

与相应类的类表示

CRi之间的余弦相似性来被计算。发明人已经发现余弦相似性是特别有效的，尤其是对于联合分类器而言。余弦相似性还可以可选地包括可学习的温度因子

。例如，这样的条件类概率可以计算为：

。

作为另一个示例，可以基于实例

的特征表示到类表示的距离（例如L2距离）来计算实例

的类条件概率，例如：

。

技术人员将设想到以上的若干个变体。

图4示出了可以如何使基础分类器适应于一个或多个新奇类以获得联合分类器的详细但非限制性的示例。

更详细地，图中示出的是基础分类器BC 450。基础分类器BC可以被配置为将实例分类成一个或多个基础类。基础分类器BC可以包括一个或多个基础类的类表示CR1 451直到CRm 452。基础分类器BC还可以包括用于从实例中提取特征表示的特征提取器Fx 410的参数FPAR 455。例如，基础分类器BC可以是如关于图3讨论的分类器。

图中还示出的是用于一个或多个新奇类的训练数据TD 435。在该示例中，训练数据TD是用于单个新奇类的，但是一般而言可以使用任何数量的新奇类，例如，最多或至少两个、最多或至少十个等。用于新奇类的训练数据可以包括新奇类的一个或多个实例，例如在图像中所示的实例I1 431直到In 432。每新奇类的训练实例的数量典型地是小的，例如一个、两个、最多五个或十个等。

为了使基础分类器BC适应于一个或多个新奇类，首先，可以确定一个或多个新奇类的类表示。在该示例中，确定了训练数据TD的仅新奇类的单个类表示CR 453，但是一般而言，可以针对每个新奇类来类似地确定类表示。可以基于使用特征提取器Fx从相应的训练实例I1，……，In中提取的特征表示F1 421，……，Fn 422，来确定类表示CR。在表示提取器Rx 440中，通过组合特征表示例如作为平均值，可以获得类表示CR：

其中

是来自训练数据TD的类的第

个实例，并且

标示归一化向量。

如图中所示，基础类的类表示CR1，……，CRm和新奇类的类表示CR可以一起形成大小为

的矩阵

，其中

是基础类的数量，

是新奇类的数量，并且

是类表示的维度。

尽管到目前为止获得的新奇类的类表示CR可以与基础分类器BC相关联，以获得用于基础类和新奇类的联合分类器，但有趣的是，在该示例中，基础类和新奇类的类表示首先在适应操作Cad 470中被适应。如利用类表示CR、CRi与适应Cad之间的双向箭头所图示，适应可以是双向的——在新奇类的至少一个类表示CR可以基于基础类的类表示CRi被适应并且基础类的至少一个类表示CRj可以基于（可能不同的）新奇类CR的类表示被适应的意义上。如之前所解释的，执行双向更新可以允许信息在不同类间传播，使得获得更好的联合分类器。特别地，联合分类器JC可以通过将经适应的类表示与基础分类器BC相关联来被获得，例如，联合分类器JC 459可以包括特征提取器参数FPAR、更新的基础类表示CRi和更新的新奇类表示CR。这样，获得了用于基础类和新奇类的分类器（例如，如关于图3所讨论的）。

有趣的是，使类表示适应可以基于变换参数TPAR 460的集合来执行。例如，可以学习变换参数来优化使类表示适应的方式，因此导致更高质量的类表示，例如，如关于图5和图6所讨论的。下面更详细地讨论变换参数的各种示例。

现在更详细地考虑可以如何使目标类的类表示（例如基础类表示CRi或新奇类表示CR）适应，至少两个可能性是可用的。也就是说，类表示可以基于其他类表示进行适应，和/或类表示的特征可以基于类表示本身的其他特征（或侧面信息，如稍后讨论的）进行适应。在这两种情况下，使用线性变换是一个好的设计选择：为了计算经适应的类表示，可以计算类表示的加权和，和/或为了计算经适应的特征，可以计算特征和/或侧面信息的加权和。

数学上，在线性变换的情况下，两种类型的更新可以由表达式

捕获，其中

是其中行表示类表示的矩阵；

是卷积算子，其基于其他类表示来变换类表示；并且

是基于其他特征来变换特征的后卷积变换。

可以是包含类间的关系性信息的

算子，其中

是基础类的数量，并且

是新奇类的数量。

可以被视为后卷积变换，尽管由于

，在这种情况下，无论是首先应用卷积算子

并且稍后应用后卷积变换

，还是反过来都无关紧要。

对于多个算子

确定多个加权和（例如

）是可能的。如稍后所讨论的，存在确定矩阵权重

的若干种方式，每种方式允许以特定方式在类变换之间进行知识转移。因此，组合这多个加权和允许组合不同的知识转移方式。换言之，可以组合不同源的关系性信息。例如，对于每个算子

，可以应用相同或单独的后卷积变换

来获得更新的类表示

，该类表示

可以被组合成单个经适应的类表示。

作为具体的示例，可以由类调整Cad使用以下公式来确定更新的类表示的矩阵

：

其中

是相应的卷积算子，其包含类间的关系性信息，

是用于

的后卷积变换，

是可从变换参数TPAR学习以权衡来自不同算子的影响的标量，并且

是可选的非线性，例如ReLU、leakyReLU、tanh等。

作为另一个示例，当计算更新的类表示的矩阵

时，可以应用中间归一化，例如，

其中

标示归一化向量。例如，这允许在由联合分类器的分类中利用查询与原型之间的余弦距离。

在各种实施例中，为了调整类表示，Cad应用迭代过程。也就是说，例如在两次或更多次迭代中，类表示可以基于它们的初始值来更新，基于它们的更新值来再次更新，等等。例如，以上公式可以被应用多次。典型地，在迭代过程的较早期迭代中应用非线性

，但不在最终层中应用非线性

，以便不限制更新的类表示的值，例如，以确保否定条目可以出现在更新的类表示中。取决于卷积算子的类型，矩阵

可以在每次迭代中重新计算或保持恒定。

现在讨论确定类表示的权重（例如卷积算子

的条目）的若干个可能性。本质上，权重对在类和/或它们的表示之间的关系性信息进行编码。权重

可以标示第

个类表示对于更新第

个类表示的相关性。

在各种实施例中，权重

指示目标类的第

个类表示与第

个类表示之间的相似性。换言之，相似性可以基于类表示本身来计算，例如

，其中

可以是任何标准的相似性或距离度量，例如余弦距离、点积、L2距离、马氏距离等。在各种实施例中，相似性度量是参数化的相似性度量，其参数被包括在变换参数TPAR的集合中。例如，可以通过首先将类表示变换到变换空间中，并且然后计算变换空间中的相似性来计算相似性，例如

，其中变换

在变换参数TPAR中给出，例如，作为线性变换、多层感知器等。作为另一个示例，可以通过将神经网络（例如，CNN或多层感知器）应用于元素方面的绝对差异来确定相似性，例如

，其中神经网络由变换参数TPAR给出。已经计算了相似性，可以例如通过阈值化、选择前

个最相似的条目、行方面的L2/softmax归一化等来可选地对它们进行后处理。在各种情况下，经学习的变换参数的使用可以允许以对于手头问题最有效的方式确定相似性。

代替于或附加于使用类表示，权重还可以至少部分地基于与类表示CRi（未示出）相关联的一个或多个侧面信息值。例如，侧面信息值可以被包括在向量中，所述向量的相似性如上所讨论的那样被计算。侧面信息值典型地独立于类的实例，例如，它们表示与类实例分离地获得的关于类的信息。相关的侧面信息值取决于各应用，但是可以从例如本体获得，所述本体诸如是WordNet、知识图、经注释的属性、类标签的语义嵌入（例如，使用word2vec）或者其他语义嵌入（例如，嵌入维基百科页面或者关于类的其他文本，或者任何其他类特定的属性，例如对象的典型维度等）。例如，权重可以指示在本体中两个类之间的跳数。例如，权重也可以由专家注释提供。

由于侧面信息值不特别涉及任何实例，因此它们典型地也不被包括在基础分类器和/或联合分类器中，例如，它们不用于实例的分类。然而，当使基础分类器适应时，它们的可用性可以帮助选择哪些类表示与更新目标类表示相关。侧面信息值仅针对类的子集可用是可能的；在这种情况下，针对类的不可用的侧面信息值可以保留为空（例如零），以便忽略用于特定卷积算子的这样的类。

作为侧面信息的另一个示例，也可以使用关系性侧面信息，其指示目标类

与独立于类表示本身的类

之间的相似性。这样的关系性侧面信息可以直接地、或者可能地在归一化之后作为卷积算子的权重来使用。关系性侧面信息可以直接指示类

对于更新类

的表示的相关性，例如，关系性侧面信息可以直接被获得，而不需要通过计算相似性来确定它。作为示例，关系性侧面信息包括在WordNet中的两个类之间的最短路径距离，或者表述成对相似性的任何其他侧面信息。例如通过将到其他类的归一化距离用作值，关系性侧面信息也可以被转换成类方面的侧面信息。此外，关系性侧面信息如果对于类的特定对不可用，则可以保留为空。

此外，可以以各种方式选择用于基于其他特征（例如，在后卷积变换

中）来使类表示的特征适应的权重。在实施例中，

是可学习的二次权重矩阵，其例如由变换参数TPAR参数化。在实施例中，

被约束为对角的，从而减少变换参数TPAR的数量以减少过拟合的风险。

现在关于图5和图6讨论如何学习用于使基础分类器适应于一个或多个新奇类的变换参数集合的两个详细示例。一般地，图5和图6的用于学习变换参数集合的过程可以被视为用于GFSL问题的元学习方法。尽管GFSL可以旨在将基础分类器推广到特定的未见类集合，但是该变换参数集合可以在具有如下目标的情况下被确定：跨牵涉先前未见类的不同任务而快速且很好地适应。在图5和图6中，该元学习问题借助于情景性采样（episodicsampling）来着手处理，例如，在每个所谓的情景中，可以从训练数据中采样特定的任务、例如

向

镜头实例，然后可以使用当前的变换参数集合来执行所述特定的任务，从而例如以分类丢失的形式度量其质量。

在这两种情况下，可以基于用于多个类的训练数据来学习变换参数集合。这样的训练数据可以包括每个类的一个或多个实例。例如，实例可以表示图像或其他类型的传感器数据，也如上面所讨论的。相对大量（例如，至少10个、至少50个、至少100个等）的类可以是可用的。至少类的数量典型地比当使用变换参数集合来使基础分类器适应时所使用的新奇类的数量大得多，例如，至少10倍那样大，至少100倍那样大，等等。此外，每类的训练实例的数量可以相对大，例如，对于每个类或者至少对于大多数类而言，至少10个实例可以是可用的，并且当使用变换参数来使基础分类器适应时，每类的训练实例的数量典型地是可用的新奇类的实例的数量的至少两倍或五倍那样大。

图5示出了如何学习用于使基础分类器适应于一个或多个新奇类的变换参数集合的第一详细示例。

如上面所讨论的，图中示出的是用于多个类的训练数据TD 530。图中还示出的是训练数据TD的多个类的类表示CR1 551直到CRm 552，以及用于从实例中提取特征表示的特征提取器的参数FPAR 555。类表示CRi和特征提取器参数FPAR可以一起形成分类器C 450，该分类器C 450可以用于将实例分类成多个类，例如，如关于图3所讨论的。分类器C可以用作要被适应于新奇类的基础分类器，例如，如关于图4所讨论的。

如在图5中所示，在该示例中，在学习变换参数集合之前，通过在学习操作L1 510中学习类表示CRi和参数FPAR来确定类表示CRi和参数FPAR。换言之，从训练数据TD开始，训练在两个阶段中进行：在其中学习基础分类器的第一阶段和在其中学习变换参数的第二阶段。例如，训练的第一阶段可以如在S. Gidaris and N. Komodakis的“Dynamic Few-ShotVisual Learning without Forgetting”（在https://arxiv.org/abs/1804.09458处可获得，并且通过引用以关注第一阶段训练的程度上并入本文中）中所公开的那样被执行。

在第二学习操作L2 520中，学习变换参数TPAR 460的集合。变换参数是通过情景训练来学习的，换言之，通过重复地构造基础分类器并且使用变换参数集合的相应值来使其适应。因此，可以找到最佳地适合于使基础分类器适应的变换参数TPAR。例如，例如使用随机梯度下降或其他优化方法，变换参数TPAR可以基于分类损失在迭代过程中被更新。众所周知，这样的优化方法可以是启发式的和/或可以达到局部最优。

更详细地，可以通过从训练数据TD的多个类中选择一个或多个基础类和一个或多个新奇类来构造基础分类器。例如，对于

向

镜头分类，可以例如随机地从多个类中选择固定数量的

个新奇类。可以将剩余的类或它们的子集选择为基础类。可以构造基础分类器，其被配置为基于一个或多个基础类的类表示和特征提取器的参数将实例分类成一个或多个基础类。例如，基础分类器可以包括基础类的类表示CRi和变换参数TPAR。

然后，可以使基础分类器适应于新奇类。为此，可以从训练数据TD中选择用于一个或多个新奇类的训练数据。例如，对于

向

镜头分类，可以例如随机地从训练数据TD中选择每个新奇类的固定数量的

个实例。然后可以使所构造的基础分类器适应于一个或多个所选择的新奇类，例如，如关于图4所讨论的，其中基础分类器BC 450；训练数据TD 435和变换参数TPAR 460如这里所描述。

然后，可以针对一个或多个基础类和一个或多个新奇类的实例来确定经适应的基础分类器的分类损失。例如，可以例如随机地从训练数据TD中针对每个类来采样固定数量的查询实例。可以使用各种数量（例如，最多或至少5个、最多或至少10个、最多或至少50个等）的查询实例。有趣的是，基础类实例和新奇类实例二者都可以用作查询实例，使得模型全局辨别并且不仅仅因为其在新奇类上的性能而得到奖励。分类损失可以是标准的交叉熵。例如，也可以分离地针对新奇类查询和基础类查询而计算损失，并且然后通过加权平均进行组合。分类损失至少可以用于度量变换参数TPAR的质量；当使用诸如随机梯度下降之类的优化方法时，变换参数TPAR也可以被更新以减小损失函数，从而迭代地改进变换参数集合。

图6示出了如何学习用于使基础分类器适应于一个或多个新奇类的变换参数集合的第二详细示例。有趣的是，在该第二示例中，替代于使用如在图5中的2阶段策略，在与变换参数集合相同的学习过程中学习多个类的类表示和/或特征提取器的参数。例如，如在该图中所示，变换参数TPAR 660、特征提取器参数FPAR 655和类表示CRi 651、652全部都可以在单个学习过程L1 612中从训练数据TD 630中学习。尤其是当使用侧面信息时，发明人发现在单个阶段中对特征提取器参数FPAR、类表示CRi和变换参数TPAR的训练进行组合是有益的，因为它避免了在学习变换参数TPAR之前陷入在与变换参数可以使用的侧面信息不一致的特征提取器参数和类表示。

更详细地，示出的是用于多个类的训练数据TD训练数据。如上面所讨论的，相对大量的类/实例可以是可用的。

图中还示出的是训练数据TD的多个类的类表示CR1 651直至CRm 652；用于从实例中提取特征表示的特征提取器的参数FPAR 655；和变换参数TPAR 560的集合。这些类表示和参数对应于在图5中所示的那些，除了在这种情况下，类表示和特征提取器参数是通过重复地构造基础分类器并且通过情景训练使其适应于新奇类来连同变换参数集合一起被学习的。

类似于图5，在所谓的情景中，可以从训练数据TD的多个类中选择一个或多个基础类和一个或多个新奇类，例如，例如随机地选择固定数量的

个新奇类，并且选择剩余的类或它们的子集作为基础类。然后可以构造基础分类器，其被配置为基于一个或多个基础类的当前类表示CRi和特征提取器的当前参数FPAR，将实例分类成一个或多个基础类。可以从训练数据（例如，用于

向

镜头分类的每类的

个实例）中选择用于一个或多个新奇类的训练数据，并且可以使用当前变换参数TPAR使基础分类器适应于一个或多个新奇类，例如，如关于图4所讨论的。

然而，在图6中，基于用于查询实例的经适应的基础分类器的分类损失学习不仅变换参数：有趣的是，还可以基于分类损失来学习类表示CRi和/或特征提取器参数FPAR，例如，可以使用诸如随机梯度下降之类的优化方法来更新类表示和/或特征提取器参数以减小损失函数。因此，例如交叉熵之类的损失函数可以被后向传播以更新模型的各种可学习部分，其包括特征提取器参数FPAR、初始所见的类原型CRi以及各种变换参数TPAR（诸如算子的可训练分量、后卷积变换和分类器温度）。有趣的是，诸如对于图像特征可能不需要多阶段训练或其他预训练。仍然，可以获得包括特征提取器参数FPAR和类表示CRi的分类器C650，例如用作根据图3的分类器或者用作根据图4的基础分类器；以及用于使分类器C适应于不在训练数据TD中的新奇类的变换参数TPAR。

在这一点上，如在该示例中训练的基础类表示CRi 651、652与如当使基础分类器适应时所训练的新奇类表示CR 453之间可以观察到有趣的差异。这里，基础类表示可以是例如通过随机梯度下降或类似物来学习的可学习模型参数。特别地，它们不是直接从该类的训练实例中计算的。另一方面，图4的新奇类表示CR可以至少初始地从少镜头学习实例中被确定，换言之，它们是针对每个新任务运行中（on-the-fly）被确定的。因此，用于新奇的少镜头类的快速学习可以与用于训练数据集TD的类的慢速学习相组合，例如，来自训练数据集TD的信息可以并入分类器中而不是被遗忘。

图7示出了使基础分类器适应于一个或多个新奇类的计算机实现的方法700的框图。方法700可以对应于图1的系统100的操作。然而，这不是限制，因为也可以使用另一个系统、装置或设备来执行方法700。

方法700可以在题为“访问基础分类器”的操作中包括访问710表示基础分类器的数据，所述数据包括基础分类器的一个或多个基础类的类表示和用于从实例中提取特征表示的特征提取器的参数。基础分类器可以被配置为通过将特征提取器从实例中提取的特征表示与一个或多个基础类的类表示相匹配，将实例分类成一个或多个基础类。方法700还可以包括通过实行下面讨论的操作720-750中的一个或多个来使基础分类器适应。

方法700可以在题为“获得训练数据”的操作中包括获得720用于一个或多个新奇类的训练数据。用于新奇类的训练数据可以包括新奇类的一个或多个实例。方法700还可以在题为“确定类表示”的操作中包括确定730一个或多个新奇类的类表示。方法700可以在作为确定730的部分被执行的题为“提取特征表示”的操作中包括使用特征提取器提取735新奇类的一个或多个实例的特征表示。

方法700可以在题为“确定经适应的类表示”的操作中进一步包括确定740基础类和新奇类的经适应的类表示。方法700可以在作为确定740的部分被执行的题为“从基础适应新奇”的操作中包括基于基础类的类表示来使新奇类的至少一个类表示适应745。方法700可以在作为确定740的部分被执行的题为“从新奇适应基础”的操作中包括基于新奇类的类表示来使基础类的至少一个类表示适应746。

方法700此外可以在题为“获得联合分类器”的操作中包括将经适应的类表示与基础分类器相关联750，以获得用于将实例分类成一个或多个基础类和一个或多个新奇类的联合分类器。

图8示出了学习变换参数集合的计算机实现的方法800的框图。变换参数集合可以用于使基础分类器适应于一个或多个新奇类。方法800可以对应于图2的系统200的操作。然而，这不是限制，因为也可以使用另一个系统、装置或设备来执行方法800。

方法800可以在题为“访问数据”的操作中包括访问810：用于多个类的训练数据，用于一个类的训练数据包括该类的一个或多个实例；以及表示多个类的类表示和用于从实例中提取特征表示的特征提取器的参数的数据。方法800可以进一步包括通过重复地执行下面讨论的操作820-860中的一个或多个来学习变换参数集合。

方法800可以在题为“选择基础、新奇类”的操作中包括从多个类中选择820一个或多个基础类和一个或多个新奇类。方法800可以在题为“构造基础分类器”的操作中包括构造830基础分类器，所述基础分类器被配置为基于一个或多个基础类的类表示和特征提取器的参数将实例分类成一个或多个基础类。方法800还可以在题为“选择新奇类训练数据”的操作中包括从训练数据中选择840用于一个或多个新奇类的训练数据。方法800可以在题为“使基础分类器适应”的操作中进一步包括通过如本文中所述的方法使基础分类器适应850于一个或多个新奇类。可以使用分类参数集合来确定一个或多个基础类和一个或多个新奇类的经适应的类表示。方法800还可以在题为“确定分类损失”的操作中包括针对一个或多个基础类和一个或多个新奇类的实例确定860经适应的基础分类器的分类损失。

将领会到，一般而言，图7的方法700和图8的方法800的操作可以以任何合适的顺序（例如，连续地、同时地或其的组合）执行，在可适用的情况下，这受制于例如输入/输出关系所必需的特定顺序。

（一种或多种）方法可以在计算机上实现为计算机实现的方法、专用硬件或二者的组合。还如在图9中所图示的，用于计算机的指令（例如，可执行代码）可以存储在计算机可读介质900上，例如，以一系列910机器可读物理标记的形式和/或作为一系列具有不同电（例如，磁）或光属性或值的元件。可执行代码可以以暂时性或非暂时性方式存储。计算机可读介质的示例包括存储器设备、光存储设备、集成电路、服务器、在线软件等。图9示出了光盘500。可替换地，计算机可读介质900可以包括暂时性或非暂时性数据910，其表示用于使基础分类器适应于一个或多个新奇类的变换参数集合，如在本说明书中别处描述的。

示例、实施例或可选特征——无论是否被指示为非限制性的——都不要被理解为对如所要求保护的本发明进行限制。

应当注意到，以上提及的实施例说明而不是限制本发明，并且本领域技术人员将能够在不偏离所附权利要求的范围的情况下设计许多可替换的实施例。在权利要求书中，被置于括号之间的任何参考标记不应被解释为限制权利要求。对动词“包括”及其词形变化的使用不排除除了在权利要求中所陈述的那些元素或阶段之外的元素或阶段的存在。在元素之前的冠词“一”或“一个”不排除多个这样的元素的存在。诸如“……中的至少一个”之类的表述当在元素列表或群组之前的时候表示从该列表或群组中选择全部元素或元素的任何子集。例如，表述“A、B和C中的至少一个”应当被理解为包括仅A、仅B、仅C、A和B二者、A和C二者、B和C二者或者全部A、B和C。本发明可以借助于包括若干不同元件的硬件、以及借助于合适编程的计算机来被实现。在列举了若干构件的设备权利要求中，这些构件中的若干个可以通过硬件的同一个项目来被具体化。在相互不同的从属权利要求中记载了某些措施的仅有事实不指示这些措施的组合不能被有利地使用。

Claims

1.一种用于使基础分类器适应于一个或多个新奇类的系统（100），所述系统包括：

-数据接口（120），其用于访问表示基础分类器的数据（050），所述数据包括：

-基础分类器的一个或多个基础类的类表示；和

-用于从实例中提取特征表示的特征提取器的参数，

其中基础分类器被配置为通过将特征提取器从实例中提取的特征表示与所述一个或多个基础类的类表示相匹配来将实例分类成所述一个或多个基础类；和

-处理器子系统（140），其被配置为通过如下来使基础分类器适应：

-获得用于一个或多个新奇类的训练数据（035），用于新奇类的训练数据包括新奇类的一个或多个实例；

-确定所述一个或多个新奇类的类表示，确定新奇类的类表示包括使用特征提取器提取新奇类的一个或多个实例的特征表示；

-确定基础类和新奇类的经适应的类表示，其包括基于基础类的类表示使新奇类的至少一个类表示适应，以及基于新奇类的类表示使基础类的至少一个类表示适应；和

-将经适应的类表示与基础分类器相关联，以获得用于将实例分类成所述一个或多个基础类和所述一个或多个新奇类的联合分类器。

2.根据权利要求1所述的系统（100），其中处理器子系统（140）被配置为通过计算所述一个或多个基础类和所述一个或多个新奇类的类表示的加权和来确定目标类的经适应的类表示。

3.根据权利要求2所述的系统（100），其中加权和中的相应类表示的权重指示在相应类表示与目标类的类表示之间的相似性，处理器子系统（140）被配置为根据相应类表示和目标类的类表示来确定权重。

4.根据权利要求2或3所述的系统（100），其中，处理器子系统（140）被配置为至少部分地基于与类表示相关联的更多侧面信息值中的一个来确定权重，用于新奇类的一个或多个侧面信息值独立于新奇类的一个或多个实例。

5.根据权利要求2所述的系统（100），其中加权和中的相应类表示的权重指示在相应类表示的类与独立于其类表示的目标类之间的相似性，数据接口（120）用于进一步访问权重。

6.根据权利要求2至5中任一项所述的系统（100），其中，处理器子系统（140）被配置为通过使用相应的权重计算多个加权和，并且将所述多个加权和组合成单个经适应的类表示，来确定目标类的经适应的类表示。

7.根据前述权利要求中任一项所述的系统（100），其中，处理器子系统（140）被配置为通过经由计算类表示的特征和/或侧面信息值的加权和来进一步使类表示的特征适应，从而确定经适应的类表示。

8.根据前述权利要求中任一项所述的系统（100），其中，处理器子系统（140）被配置为在迭代过程的迭代中确定经适应的类表示，并且在迭代过程的一个或多个进一步的迭代中进一步使经适应的类表示适应。

9.根据前述权利要求中任一项所述的系统（100），其中，处理器子系统（140）进一步被配置为：

-获得查询实例；和

-使用联合分类器确定查询实例相对于每个基础类和每个新奇类的分类分数，并且从其中确定查询实例到基础类或新奇类中的分类。

10.一种使基础分类器适应于一个或多个新奇类的计算机实现的方法（700），所述方法包括：

-访问（710）表示基础分类器的数据，所述数据包括：

-基础分类器的一个或多个基础类的类表示；和

-用于从实例中提取特征表示的特征提取器的参数，

-通过如下操作使基础分类器适应：

-获得（720）用于一个或多个新奇类的训练数据，用于新奇类的训练数据包括新奇类的一个或多个实例；

-确定（730）所述一个或多个新奇类的类表示，确定新奇类的类表示包括使用特征提取器提取（735）新奇类的一个或多个实例的特征表示；

-确定（740）基础类和新奇类的经适应的类表示，其包括基于基础类的类表示使新奇类的至少一个类表示适应（745），以及基于新奇类的类表示使基础类的至少一个类表示适应（746）；和

-将经适应的类表示与基础分类器相关联（750），以获得用于将实例分类成所述一个或多个基础类和所述一个或多个新奇类的联合分类器。

11.一种用于学习变换参数集合的系统（200），所述变换参数集合用于使基础分类器适应于一个或多个新奇类，所述系统包括：

-数据接口（220），其用于访问：

-用于多个类的训练数据（030），用于一个类的训练数据包括所述类的一个或多个实例；和

-表示所述多个类的类表示和用于从实例中提取特征表示的特征提取器的参数的数据（040）；和

-处理器接口（240），其被配置为通过重复地进行如下操作来学习变换参数集合：

-从所述多个类中选择一个或多个基础类和一个或多个新奇类；

-构造基础分类器（050），其被配置为基于所述一个或多个基础类的类表示和特征提取器的参数将实例分类成所述一个或多个基础类；

-从训练数据中选择用于所述一个或多个新奇类的训练数据；

-通过权利要求10的方法使基础分类器适应于所述一个或多个新奇类，其中使用变换参数集合确定所述一个或多个基础类和所述一个或多个新奇类的经适应的类表示；和

-针对所述一个或多个基础类和所述一个或多个新奇类的实例确定经适应的基础分类器的分类损失。

12.根据权利要求11所述的系统（200），其中，处理器接口（240）被配置为通过在学习变换参数集合之前在学习操作中学习所述类表示和所述参数来确定所述多个类的类表示和特征提取器的参数。

13.根据权利要求11所述的系统（200），其中，处理器子系统（240）被配置为基于经适应的基础分类器的分类损失，附加地学习所述多个类的类表示和/或特征提取器的参数。

14.一种学习变换参数集合的计算机实现的方法（800），所述变换参数集合用于使基础分类器适应于一个或多个新奇类，所述方法包括：

-访问（810）：

-用于多个类的训练数据，用于一个类的训练数据包括所述类的一个或多个实例；和

-表示所述多个类的类表示和用于从实例中提取特征表示的特征提取器的参数的数据；和

-通过重复地进行如下操作来学习变换参数集合：

-从所述多个类中选择（820）一个或多个基础类和一个或多个新奇类；

-构造（830）基础分类器，其被配置为基于所述一个或多个基础类的类表示和特征提取器的参数将实例分类成所述一个或多个基础类；

-从训练数据中选择（840）用于所述一个或多个新奇类的训练数据；

-通过权利要求10的方法使基础分类器适应（850）于所述一个或多个新奇类，其中使用分类参数集合确定所述一个或多个基础类和所述一个或多个新奇类的经适应的类表示；和

-针对所述一个或多个基础类和所述一个或多个新奇类的实例确定（860）经适应的基础分类器的分类损失。

15.一种计算机可读介质（900），包括对如下各项进行表示的暂时性或非暂时性数据（910）

-指令，其当由处理器系统执行时，使得处理器系统执行根据权利要求10或14的计算机实现的方法；和/或

-变换参数集合，其用于使用根据权利要求10的计算机实现的方法使基础分类器适应于一个或多个新奇类。