CN115731409A

CN115731409A - 图像分类器的即时校准

Info

Publication number: CN115731409A
Application number: CN202211038577.2A
Authority: CN
Inventors: K·帕特尔; L·钟
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-08-30
Filing date: 2022-08-29
Publication date: 2023-03-03
Also published as: US20230068516A1; EP4141748A1; JP2023035976A; KR20230032985A

Abstract

图像分类器的即时校准。本发明涉及一种训练图像分类器的方法（700）。图像分类器确定用于输入图像的类概率的预测向量。首先，执行一个或多个初始训练步骤，产生用于图像分类器的可训练参数的当前值。选择训练图像和对应的类标签，并且确定用于在训练图像上训练图像分类器的当前标签向量。为此，根据当前参数值将图像分类器应用于训练图像。如果由图像分类器预测的类等于类标签，则基于预测向量将当前标签向量确定为软标签。使用当前标签向量来执行在训练图像上训练图像分类器的当前训练步骤。

Description

图像分类器的即时校准

技术领域

本发明涉及一种训练图像分类器的计算机实现的方法以及对应的系统。本发明进一步涉及一种使用经训练的图像分类器的计算机实现的方法以及对应的系统。本发明进一步涉及一种计算机可读介质。

背景技术

用于图像分类的机器可学习技术——诸如深度神经网络——如今可以在计算机视觉任务中超过传方法，并且越来越多地部署在诸如驾驶员辅助系统和医学成像之类的生活关键的应用中。在这些类型的应用中，重要的不仅仅是图像分类器输出正确的分类（例如，在多类分类中预测图像的正确类，在对象检测中检测图像中的（一个或多个）正确对象，或者在图像分割中预测输入图像的相应部分的正确类）。同样重要的是，图像分类器可以准确地估计似然性，例如，可以输出准确表示该类正确的似然性的针对类的类概率。例如，驾驶员辅助系统可以使用这些概率来衡量分类相对于环境的其他可用测量的重要性，或者在图像分类器不确定的情况下切换到安全模式。

已知的是，许多图像分类器不能为未看见的数据估计正确的似然性。该现象被称为误校准，并且经常导致图像分类器的过度置信。这对于高保证设置来说是一个问题。例如，如果自动驾驶汽车以非常高的可信度将停止标志识别为无限速标志，则可能发生事故，并且危及人类生命。期望输出具有与其准确度相匹配的适当置信度的预测的分类器。可以根据例如预期校准误差和负对数似然性之类的各种度量来测量置信度与基准真值的偏差。

通常，已知两种类型的技术来改进图像分类器的校准：事后校准和即时（on-the-fly）校准。在事后校准中，图像分类器本身保持不改变，但是将经训练的校准模型应用于其输出。即时校准改变了训练图像分类器的方式。一种已知的即时校准方法被称为标签平滑，并且在C. Szegedy等人的“Rethinking the Inception Architecture for ComputerVision”（Proceedings CVPR 2016）（在https://arxiv.org/abs/1512.00567处可获得，并通过引用并入本文）中公开。标签平滑在标签向量的每个非目标类上分配小但非零的概率质量，而不是使用表示类标签的独热编码的标签向量来训练图像分类器。这导致对于评估样本输出较低置信度的图像分类器，因为基准真值分布不太尖锐。尽管这减少了过度置信问题，但是仍然存在进一步改进图像分类器的似然估计的需要。

发明内容

根据本发明的第一方面，提供了分别如权利要求1和13限定的一种训练图像分类器的计算机实现的方法和对应的系统。根据本发明的另一方面，提供了分别如权利要求10和14限定的一种使用经训练的图像分类器的计算机实现的方法和对应的系统。根据本发明的方面，描述了如权利要求15限定的一种计算机可读介质。

各个方面涉及用于图像分类的即时校准技术，以及根据这样的即时校准技术训练的图像分类器。图像分类器可以被配置为确定用于输入图像的预测向量。预测向量可以包括针对多个相应类的类概率，例如，如果图像分类器是多类分类器，则是针对总体图像的类概率，或者如果图像分类器是多类语义分割模型，则是针对输入图像的相应部分的类概率。提供的技术的目的是改进由图像分类器输出的类概率形成的似然估计。

可以通过执行相应的训练步骤来训练图像分类器。在这样的训练步骤中，图像分类器可以根据其可训练参数的当前值应用于训练图像，产生当前预测向量。可以通过将当前预测向量与标签向量进行比较来导出训练信号。在现有技术中，该标签向量通常是已知类标签的独热编码。在标签平滑中，该独热编码是平滑的。基于该训练信号，可以例如通过梯度下降来更新图像分类器的可训练参数。典型地，图像分类器的训练包括例如在多个时期执行的多个这样的训练步骤。

发明人研究了已知标签平滑工作的方式，并发现了削弱其功效的多个因素。特别地，标签平滑遍及训练中使用恒定的平滑因子，这降低了它在减轻误校准方面的功效。发明人发现，在训练的早期阶段中，标签平滑可以减少过度置信，但是在后期训练阶段中，先前的平滑因子太大，并且不配合模型的当前状态。换句话说，发明人认识到标签平滑在训练的后期阶段中有效地过度破坏并且致使一些预测置信不足（underconfident）。由于引入了该新的误校准，因此标签平滑可能在训练结束时缩小其相对于基线的优点。

已知标签平滑的另一个方面是它在非目标类上使用均匀分布。这是不合期望的，因为非目标类的更准确的相对误差导致更有效的训练信号。例如，预期任意的“汽车”图像被误分类为“卡车”的概率可能比它被误分类为“胡萝卜”的概率大，因为“汽车”与“卡车”比“胡萝卜”共享更多的特征。正如发明人认识到的，标签平滑有效地消除了该相对误差信息，从而导致了次优的训练性能。

已知标签平滑的仍另一个方面是它针对类中的每个样本采取相同的标签。例如，在CIFAR-100数据集的类“婴儿”中，一些样本将是“女婴”，而其他样本是“男婴”。除了针对二者的目标类“婴儿”之外，考虑到跨这些类共享的特征，对于前一组样本，针对非目标类“女”的更大概率质量可能是预期的，而对于后一组样本，针对非目标类“男”的更大概率质量是合理的。发明人认识到，由于标签平滑没有考虑这种适应性，因此它在减少误校准方面具有降低的有效性。

有趣的是，发明人发现了一种有效的即时校准技术，其改进了由现有技术图像分类器提供的似然估计。根据该技术，使用标签向量来训练图像分类器，对于图像分类器当前正确分类的训练图像，基于图像分类器本身输出的预测向量，将标签向量确定为软标签。软标签是包括多个非零概率的标签向量，其与硬标签相反也称为独热编码。

通常，在图像分类器训练期间的某一点，已经执行了一个或多个初始训练步骤，产生了用于图像分类器的可训练参数的当前参数值。可以根据这些当前参数值使用图像分类器来确定校准的标签向量。即，可以根据当前参数值将图像分类器应用于训练图像，产生用于训练图像的类概率的预测向量。可以从预测向量中推断出预测的类，并将其与训练数据集的基准真值类标签进行比较。如果预测的类等于类标签，则可以基于预测向量来确定软标签，并将其用于后续的训练步骤。

因此，根据提供的技术，可以使用标签向量来执行图像分类器的训练步骤，该标签向量基于图像分类器的当前状态或者至少是相对较新的状态来被确定，例如在当前或先前的训练阶段中被确定。特别地，在训练期间的某一点，可以根据二者的相同参数集使用图像分类器来确定标签向量，并且执行训练步骤，在该训练步骤中，例如通过梯度下降来更新参数。可以在训练期间多次更新标签向量，例如，在已经执行了固定数量的训练时期之后更新，或者每个训练阶段更新一次。由此，可以基于图像分类器的时间校准的正确预测来确定用于训练图像类的当前标签向量。

提供的即时校准技术——被称为根据预测的标签平滑（LSP）——具有多个优点。通过使用预测作为软标签，训练主动地阻止图像分类器为语义模糊和不正确标注的样本生成高置信度。在另一方面，因为使用了预测，所以它不引入不必要的置信不足。结果，发现提供的技术超过了跨各种数据集和图像分类器架构之上的最先进技术。LSP还示出与不同的事后校准方法以及与宽范围的训练技术和调度的良好兼容性。例如，给定合适的训练调度已知的图像分类器，在很少或没有超参数定制的情况下，可以使用相同的训练调度用LSP重新训练图像分类器。与事后校准相比，提供的技术具有改进的功效，同时避免了具有附加校准部件的开销，并且需要较少的训练数据，因为不存在用于训练事后校准的附加保持（hold-out）集的需要。与诸如贝叶斯模型的全概率模型相比，如本文所述训练的图像分类器训练和使用更高效，并且因此可应用于更大和更复杂的数据，并且通常还交付更高的准确度。

特别地，发明人标识了可能引起误校准的几种类型的训练图像。对于包括这些类型中的一个或多个的训练图像的训练数据集，提供的技术特别有效。通常，这些类型的训练图像是语义上模糊的和/或被不正确地标注。特别地，标识了以下六种类型：（a）多个对象，例如火车和森林共存于同一图像中；（b）属于两个类的单个对象，例如，该对象可以同时是枫树和森林；（c）单个对象不可识别，例如，由于低分辨率、不良照明或类似特征，难以辨别它是袋鼠还是松鼠；（d）单个对象在其类中是非典型的，例如，训练集中的大多数梨看起来像真实对象，但是该梨看起来像卡通；（e）单个对象被遮挡，例如鳄鱼的头部被遮挡；（f）单个对象被不正确地标注，例如，合适得多的标签是道路而不是平原。根据现有技术，硬标签鼓励图像分类器输出针对这些样本具有100%置信度的预测，并忽略它们固有的不确定性。因此，经训练的图像分类器可能过度配合这些样本并且被误校准。相反，LSP使用校准的软标签来训练图像分类器，因此维持在修改的基准真值中的自然不确定性，并致使图像分类器不那么过度置信。

重要的是，训练中使用的标签向量可以基于图像分类器本身的预测，并且可以随着图像分类器训练进行而更新。这与使用另一个预训练的分类器的预测的知识蒸馏（distillation）技术形成对比。这样的技术可以对例如使用更高级的模型来训练更简单的模型是有用的，但是无助于减少过度置信，正如提供的技术所做的那样。

如本文所述训练的图像分类器可以以各种方式使用。给定输入图像，可以应用图像分类器来确定用于输入图像的预测向量，并且可以基于该预测向量输出预测。例如，预测可以是分类成类、针对特定类的类概率或者类概率本身的预测向量。例如，通过使用提供的技术，更准确的预测类概率可以被输出并且因此可以例如在控制系统中更安全地被使用。还发现图像分类器的分类可能更准确，特别是图像分类器更好地推广到未看见的示例。因此，当仅将分类输出到特定类时，如上所述训练的分类器也是有利的。还发现了识别分布外样本的能力的改进，这也在别处讨论。最后，图像分类器作为特征提取器的性能也得到了改进。为此，不是将完全的图像分类器应用于输入图像，而是可以仅应用初始部分，例如卷积部分，该卷积部分可能继之以模型的全连接层的子集，因此获得输入图像的特征空间表示。此外，由于使用了提供的技术，因此发现该特征空间表示更好地推广了未看见的示例。

可选地，训练图像的确定的当前标签向量可以用于在训练图像上训练图像分类器的多个训练步骤中。例如，可以为训练数据集的训练图像确定标签向量，之后可以使用该标签向量执行训练的多个时期，例如至少10个或至少20个时期。与针对对图像执行的每个训练步骤更新用于图像的标签向量相比，这增加了训练的效率和稳定性。本质上，它避免了标签向量成为训练无法收敛的移动目标。

可选地，训练图像分类器的一个或多个初始训练步骤可以使用独立于图像分类器确定的标签向量来执行，例如，作为类标签的独热编码。因此，训练可以包括第一部分，其中使用从类标签导出的标签向量，继之以第二部分，其中为了正确分类，基于预测向量的软标签被使用并且可选地在该第二部分期间被更新。在第一部分中，可以达到足够的准确度和偏置消除，使得训练的第二部分可以特别有效。不执行这样的初始训练步骤可能恶化经训练的图像分类器的性能。例如，对于第一部分来说，好的选择是持续直到学习率的第一次衰减之后的预定义数量的时期（例如，一个或两个）。

可选地，训练可以在多个训练阶段中执行，其中这样的训练阶段以学习率衰减开始。发现仅在已经执行了多个训练步骤之后，例如，在训练阶段中的一个、两个或另一个固定数量的时期之后，在这样的训练阶段期间更新标签向量是有利的。这具有如下优点：更新的标签向量可以使用与学习率衰减相关联的置信度和准确度的提升，因为该提升通常花费多个训练步骤而发生。例如，训练阶段的剩余部分然后可以使用更新的标签向量和衰减的学习率。

特别地，图像分类器的一个或多个先前的训练步骤可以根据先前的学习率并根据先前的标签向量来执行，在此之后，先前的学习率可以衰减。在学习率衰减之后，可以执行训练图像分类器的一个或多个进一步的训练步骤，其使用衰减的学习率和先前的标签向量，导致用于可训练参数的更新的参数值。然后可以通过根据更新的参数值应用图像分类器来更新用于训练图像的标签向量，并且然后可以使用更新的标签向量来执行该阶段的进一步训练步骤。例如，可以在每次学习率衰减之后、每隔一次学习率衰减之后等更新标签向量。

可选地，在学习率的衰减和标签向量的更新之间执行的训练步骤形成一个训练时期。对于大多数架构和数据集来说，这被发现是好的选择，因为它允许所提及的提升充分发挥作用，但允许该阶段的剩余部分使用更新的标签。

可选地，如果由图像分类器为训练图像预测的类不等于用于该训练图像的类标签，则可以独立于预测向量基于类标签来确定当前标签向量。例如，标签向量可以被设置为类标签的独热编码。尽管也可能的是使用软标签，例如根据现有技术的标签平滑，但是发现使用硬独热编码是优选的：这鼓励模型正确地对图像进行分类，并且已经具有降低模型在其错误预测中的置信度的效果，使得不需要使用软标签。

可选地，提供的技术可以与事后校准模型相组合。可以在训练期间应用事后校准模型，以从预测向量确定当前标签向量。预测的类可以从原始预测向量或者从事后分类的结果中推断；二者都是可能的，因为事后分类通常不影响预测的类。然而，当应用图像分类器作为训练步骤的一部分时，不应用事后分类。在使用中，事后校准模型可以应用于由图像分类器确定的预测向量。有趣的是，发现通过将如本文所述的即时校准与事后校准方法相组合，并且特别是通过在基于即时校准的训练期间已经使用事后校准，可以获得比单独应用任一技术总体更好的校准似然性。各种事后校准方法本身是已知的，并且可以在本文使用，例如，诸如温度缩放和潜在高斯过程的缩放方法；或者分仓（binning）方法，诸如直方图分仓，特别是I-MAX。

可选地，例如，每当事后校准模型被应用于图像分类器的新参数值集时，可以为图像分类器训练事后校准模型。这样，遍及训练，事后校准模型可以连同图像分类器一起演进。

可选地，在使用中，经训练的图像分类器可以用于根据图像分类器输出的预测向量来确定用于输入图像的分布外评分。例如，可以基于预测向量的熵来确定分布外评分。有趣的是，发现作为较少过度置信的额外优点，提供的技术可以改进图像分类器识别分布外样本的能力。许多已知的图像分类器倾向于对于分布外样本输出高置信度。观察到，同样在确定分布外评分方面，提供的技术优于现有技术的即时校准方法。对于提供的技术也观察到了小的方差，其示出了它们在不同数据和架构之上的鲁棒性。

通常，提供的技术应用于各种类型的图像数据，包括视频数据、雷达数据、LiDAR数据、超声波数据、运动数据、热图像或声纳数据。图像数据可以例如由像素值（例如，对于2D图像数据）、体素值（例如，对于3D图像数据）或点云（例如，对于2D或3D图像数据）来表示。图像数据还可以表示各种类型的传感器数据，诸如被表示为ECG图像的ECG数据、由声谱图表示的音频数据等。

特别地，输入到图像分类器的图像可以表示计算机控制的系统和/或其环境，并且使用图像分类器，可以推断用于控制计算机控制的系统的控制数据。例如，该系统可以是载具，诸如自主或半自主载具、机器人、制造机器、建筑物等。原则上，提供的技术也可以应用于其他类型的数据，例如诸如传感器测量的时间序列之类的传感器数据。

各种模型架构和参数可以用于图像分类器，如适合于手边的数据类型和内容种类。例如，图像分类器可以是深度神经网络，例如卷积神经网络或全卷积神经网络。图像分类器可以是语义分割模型，其被配置为计算用于输入图像相应部分的类概率。

可选地，通过应用一部分经训练的图像分类器获得的特征空间表示可以用作至进一步训练的模型的输入。例如，进一步训练的模型可以用于推断用于控制计算机控制系统的控制数据。因此，图像分类器可以用作其他下游任务的基础。这样，图像分类器可以被用作特征提取器，其知识经由迁移学习被传递给这样的其他任务。由于针对图像分类器的分类任务改进了不确定性校准，因此可以在下游任务中获得对应的更好的预测不确定性。

本领域技术人员将领会，本发明的两个或更多个上面提及的实施例、实现和/或可选方面可以以任何被认为有用的方式进行组合。

可以由本领域技术人员在本说明书的基础上实行对任何系统和/或任何计算机可读介质的修改和变化，所述修改和变化与对应的计算机实现的方法的所述修改和变化相对应。

附图说明

本发明的这些和其它方面将从实施例和附图中清楚，并且进一步参考实施例并且参考附图来被阐明，所述实施例在以下描述中作为示例被描述，在所述附图中：

图1示出了用于训练分类器的系统；

图2示出了用于使用分类器的系统；

图3示出了使用分类器的详细示例；

图4示出了如何训练分类器的详细示例；

图5a示出了如何训练分类器的详细示例；

图5b示出了标签校准的详细示例；

图6示出了图像分类器的详细示例；

图7示出了训练分类器的计算机实现的方法；

图8示出了使用分类器的计算机实现的方法；

图9示出了包括数据的计算机可读介质。

应当注意到，各图纯粹是图解性的并且不按比例绘制。在各图中，与已经描述的元素相对应的元素可以具有相同的附图标记。

具体实施方式

图1示出了用于训练分类器的系统100。分类器可以被配置为确定用于输入实例的预测向量。例如，分类器可以是作用于输入图像的图像分类器。预测向量可以包括用于多个相应类的类概率。

系统100可以包括数据接口120。数据接口120可以用于访问包括多个训练实例和对应类标签的训练数据集030。例如，训练实例的数量可以是至少1000、至少10000或至少100000。替代地或附加地，数据接口120可以用于访问分类器的可训练参数040。参数040可以用于例如通过图2的系统200或图3的系统300根据本文描述的方法使用分类器。

例如，也如图1中图示的，数据接口120可以由数据存储接口120构成，该数据存储接口120可以从数据存储装置021访问数据030、040。例如，数据存储接口120可以是：存储器接口或永久存储接口，例如硬盘驱动器或SSD接口；但也可以是个域网、局域网或广域网接口，诸如蓝牙、紫蜂或Wi-Fi接口或者以太网或光纤接口。数据存储装置021可以是系统100的内部数据存储装置、诸如硬盘驱动器或SSD，但也可以是外部数据存储装置、例如网络可访问的数据存储装置。在一些实施例中，数据030、040可以各自从不同的数据存储装置被访问，例如经由数据存储接口120的不同子系统。每个子系统可以是如上针对数据存储接口120描述的类型。

系统100可以进一步包括处理器子系统140，该处理器子系统140可以被配置为在系统100的操作期间训练分类器。处理器子系统140的训练可以包括执行训练分类器的一个或多个初始训练步骤，以获得用于可训练参数040的当前参数值。处理器子系统140的训练可以包括从训练数据集030中选择训练实例和对应类标签。处理器子系统140的训练可以包括确定用于在训练实例上训练分类器的当前标签向量。为了确定当前标签，处理器子系统140可以根据当前参数值将分类器应用于训练实例，以获得预测向量；从预测向量推断多个类中的预测类；将预测类与类标签进行比较；以及，如果预测类等于类标签，则基于预测向量将当前标签向量确定为软标签。处理器子系统140的训练可以包括执行使用当前标签向量在训练实例上训练分类器的当前训练步骤。

系统100可以进一步包括输出接口，该输出接口用于输出表示学习（或“训练”）模型参数的训练数据040。例如，也如图1中图示的，输出接口可以由数据接口120构成，在这些实施例中，所述接口是输入/输出（“IO”）接口，经由该输入/输出（“IO”）接口，已训练参数040可以存储在数据存储装置021中。例如，在训练期间或之后，“未训练”模型的可训练参数可以至少部分地被诸如神经网络的权重和其他类型的参数之类的已训练参数替换，以反映对训练数据030的训练。这也在图1中由记录040图示，记录040表示未训练和已训练参数二者。在其他实施例中，已训练参数040可以与“未训练”参数分离存储。在一些实施例中，输出接口可以与数据存储接口120分离，但是一般而言可以是如上针对数据存储接口120描述的类型。

图2示出了例如通过图1的设备100用于使用如本文所述训练的分类器的系统200。系统200可以包括用于访问分类器的已训练参数040的数据接口220。该系统除了使用该模型之外还可以训练该模型，例如，可以与图1的系统相组合。

例如，也如图2中图示的，数据接口可以由数据存储接口220构成，数据存储接口220可以从数据存储装置022访问数据040。一般而言，数据接口220和数据存储装置022可以是与参考图1针对数据接口120和数据存储装置021描述的类型相同的类型。存储装置可以是系统200的一部分。虽然在该图中未示出，但是存储装置022还可以包括分类器可以应用到的输入实例。

系统200可以进一步包括处理器子系统240，该处理器子系统240可以被配置为在系统200的操作期间获得输入实例，例如输入图像。处理器子系统240可以进一步被配置为将分类器应用于输入实例以确定用于输入实例的预测向量，并基于预测向量输出预测。替代地或附加地，处理器子系统240可以被配置为将分类器的一部分应用于输入实例，以获得输入实例的特征空间表示，并输出特征空间表示。

将领会，与对于图1的处理器子系统140相同的考虑和实现选项应用于处理器子系统240。将进一步领会，除非另有说明，否则与对于图1的系统100相同的考虑和实现选项一般而言可以应用于系统200。

图2进一步示出了系统200的各种可选部件。例如，在一些实施例中，系统200可以包括传感器接口260，传感器接口260用于直接访问由环境082中的传感器072获取的传感器数据224。传感器可以布置在环境082中，但是也可以远离环境082布置，例如如果可以远程测量（一个或多个）量的话。传感器072可以但不必须是系统200的一部分。传感器072可以具有任何合适形式，诸如图像传感器、激光雷达传感器、雷达传感器、压力传感器、容器温度传感器等。例如，如图中所示，传感器072可以是捕获表示系统200和/或其环境的输入图像226的相机。传感器数据接口260可以具有在类型上对应于传感器类型的任何合适的形式，包括但不限于低级通信接口，例如基于I2C或SPI数据通信，或者如上针对数据接口220描述的类型的数据存储接口。

在一些实施例中，系统200可以包括致动器接口280，致动器接口280用于向环境082中的致动器（未示出）提供控制数据226。这样的控制数据226可以由处理器子系统240生成，以基于使用分类器来控制致动器，例如，基于分类器的预测，或基于通过应用部分分类器而获得的特征空间表示并将进一步训练的模型应用于特征空间表示来推断控制数据226。致动器可以是系统200的一部分。例如，致动器可以是电动、液压、气动、热、磁和/或机械致动器。具体但非限制性的示例包括电动机、电活性聚合物、液压缸、压电致动器、气动致动器、伺服机构、螺线管、步进电机等。这样类型的控制参考图3针对（半）自主载具进行描述。

在其他实施例中（图2中未示出），系统200可以包括至诸如显示器、光源、扬声器、振动电机等之类的呈现设备的输出接口，其可以用于生成感官可感知的输出信号，该感官可感知的输出信号可以基于使用分类器来生成。感官可感知的输出信号可以直接指示分类器输出的分类、类概率和/或特征空间表示，但是也可以表示导出的感官可感知的输出信号，例如供在系统200的引导、导航或其他类型的控制中使用。

一般而言，本说明书中描述的每个系统——包括但不限于图1的系统100和图2的系统200——可以体现为单个设备或装置或者被体现在单个设备或装置中，所述单个设备或装置诸如是工作站或服务器。该设备可以是嵌入式设备。设备或装置可以包括执行适当软件的一个或多个微处理器。例如，相应系统的处理器子系统可以通过单个中央处理单元（CPU）、而且还通过这样的CPU和/或其它类型的处理单元的系统或组合来体现。软件可能已经被下载和/或存储在对应的存储器中，所述对应的存储器例如是诸如RAM的易失性存储器，或诸如闪存的非易失性存储器。替代地，相应系统的处理器子系统可以被实现在以可编程逻辑的形式的设备或装置中例如作为现场可编程门阵列（FPGA）。一般而言，可以以电路的形式实现相应系统的每个功能单元。相应的系统也可以以分布式方式实现，例如涉及不同的设备或装置，诸如分布式本地或基于云的服务器。在一些实施例中，系统200可以是载具、机器人或类似物理实体的一部分，和/或可以表示被配置为控制物理实体的控制系统。

图3示出了上述的示例，其中系统200被示出为在环境50中操作的（半）自主载具62的控制系统。自主载具62可以是自主的，因为它可以包括自主驾驶系统或驾驶辅助系统，其中后者也被称为半自主系统。自主载具62可以例如并入系统200，以基于从集成到载具62中的视频相机22获得的传感器数据来控制自主载具的转向和制动。例如，系统200可以控制电动机42在意外交通情形下执行（再生）制动，例如，如果预期自主载具62与交通参与者碰撞的话。系统200可以控制危险情形下的转向和/或制动，例如，以避免与交通参与者的碰撞。系统200可以将图像分类器应用于由视频相机提供的输入图像。该系统可以例如确定图像分类器的分类是否具有超过阈值的类概率，或者确定输入图像是否具有超过阈值的分布外评分。基于此，系统200可以例如决定使用分类或预测向量来控制载具62（例如，如果类概率和/或分布外评分指示足够的置信度），或者取而代之使用例如制动机制的回退控制机制（例如，如果类概率和/或分布外评分指示不足的置信度）。

现在评估和讨论现有技术的即时校准方法标签平滑（LS）的几个瓶颈。标签平滑仅使用基准真值类标签来确定标签向量，而不是由分类器本身来确定预测向量。将LS与WRN-28-10数据集CIFAR-100上的交叉熵独热编码基线进行比较。使用平滑因子0.1。标识了几个瓶颈。

一段时间内的恒定平滑因子：使用预期校准误差（ECE），可以根据经验调查模型偏离良好校准多远。然而，在这种情况下，偏差的符号是未知的，因为ECE中的绝对差值计算消除了该信息。因此，提出了一种称为FlatECE的替代度量，其用总和替换ECE中的绝对差值。FlatECE可以正式定义为：

。如果所有仓都过度置信，例如

，则FlatECE相当于ECE。当一些仓置信不足时，FlatECE小于ECE，并且当所有仓都置信不足时甚至等于负ECE。发明人计算了LS-0.1的ECE和FlatECE。三个学习率衰减将训练拆分成四个阶段。在阶段一和阶段二中，LS-0.1具有比基线低得多的ECE，这示出了LS-0.1在取消分类器过度置信方面的有效性。但是在阶段三和阶段四中，LS-0.1相对于基线的ECE优点明显缩小。对于LS-0.1，FlatECE和ECE的渐进拆分曲线指示，阶段三和阶段四中LS-0.1的大多数校准误差实际上来自于置信不足的增长。由于早期停止是推广和校准之间的权衡，因此停止训练并采取当前检查点不是可行的选项。得出的结论是，平滑因子0.1在这一点上过度破坏，并且引起置信不足。如果对其进行调整——这里是：动态地降低，则在完整的训练之后，可以预期更好的校准性能。

各种类和实例之上的恒定平滑因子：LS假设所有非目标类的均匀分布概率。该假设是可以批评的。直观地，某个非目标类的概率比其他非目标类高。例如，对于如在CIFAR-10中被标注为汽车的图像，在不查看特定图像的情况下，更大的非目标概率质量应该被分配给卡车而不是猫或狗。因为卡车与汽车比与猫或狗具有更相似的外观。

LS中的另一个假设是一个类中的每个样本都有相同的平滑标签。这意味着假设跨一类中的不同样本共享相同的特征。可以举反例。例如，考虑被注释为婴儿的两个图像。在一个照片中，婴儿可能看起来比在左边的婴儿稍微更“女性化”，并且具有更多的“女性”特征。在这种情况下，应该将比另一照片中更大的概率权重给予非目标类“女”。

图4示出了如何训练分类器的详细但非限制性的示例。作为说明性的示例，使用图像分类器。

图像分类器IC 420可以应用于输入图像。例如，该图示出了被应用于训练数据集的训练图像TI 431的图像分类器IC。通常，输入图像可以以各种不同的方式表示，例如，通过像素值（例如，至少128或至少1024个像素）、体素值（例如，至少128或至少1024个体素）或点云（例如，点云的至少1024或至少4096个点）。图像可以是例如黑和白、灰度或彩色图像。

图像分类器IC可以被配置为确定用于输入图像的预测向量。预测向量可以包括针对多个相应类的类概率。例如，该图示出了被应用于训练图像TI 431以获得类概率CP1421，...，CPn 422的图像分类器IC。例如，类的数量可以是至少3、至少10或至少20。根据训练数据集，训练图像可以具有基准真值类标签CL 432，例如训练图像TI被分配到的单个类。虽然在该图中未示出，但是图像分类器IC可以是语义分割模型，其被配置为输出对于输入图像的相应部分（例如像素）的类概率CP1，...，CPn的集合，在这种情况下，对于训练图像TI，训练数据集可以包括向训练图像TI的相应部分分配类的相应类标签CL。

图像分类器IC可以具有各种已知的模型架构，如适合于它所应用的输入图像。图像分类器可以由可训练参数PARS 440集来参数化。例如，可训练参数的数量可以是至少1000、至少10000或至少100000。图像分类器IC例如可以是神经网络，诸如深度神经网络或卷积神经网络。在这种情况下，参数集可以包括例如神经网络节点的权重。参考图6描述了这样的图像分类器的示例。

如图中所示，可以在训练操作Train 460中训练图像分类器IC。训练Train可以是从现有技术中已知的训练，除了它使用如本文所述确定的标签向量。例如，训练可以使用超参数和/或已知对手边的数据效果良好的训练调度。通常，训练可以包括相应的训练步骤，其中图像分类器IC被应用于相应的训练图像TI。在这样的训练步骤中，图像分类器IC可以根据其可训练参数PARS的当前值应用于训练图像TI，从而产生当前预测向量CP1，...，CPn。训练Train可以通过比较针对训练图像TI的当前预测向量CPi和标签向量LV1 451，...，LVn452来导出训练信号，并基于训练信号更新参数PARS。

在一个示例中，图像分类器IC可以是多类分类器，例如

类。设

是由N个样本组成的训练数据集，其中对于样本i，训练图像TI，x _i是图像分类器IC的输入，并且

使得

是标签向量LVi。样本i最有希望的类指数是

。例如，标签向量可以是类标签的硬标签，换句话说，是独热编码：

并且

。多类分类器IC可以将x _i匹配到概率预测向量CPi上

使得

。在这种情况下，训练图像分类器IC可以包括执行优化以最小化交叉熵损失，例如，

，其中n是优化迭代中的样本数量。

例如，可以使用诸如随机梯度下降的随机方法来执行训练Train，例如，使用如在Kingma和Ba的“Adam: A Method for Stochastic Optimization”（通过引用并入本文并且在https://arxiv.org/abs/1412.6980和可获得）中公开的Adam优化器。如已知的，这样的优化方法可以是启发式的和/或达到局部最优。训练可以在逐个实例的基础上或者按照例如最多或至少64个或者最多或至少256个实例的批执行。

进一步示出了标签校准操作LC 450，其确定训练Train所使用的标签向量LVi。有趣的是，在本文描述的实施例中，用于训练图像TI的标签向量LVi可以基于预测向量CPi来确定，该预测向量CPi是通过根据图像分类器IC的当前参数PARS集将图像分类器IC应用于训练图像TI而获得的。

典型地，在训练图像分类器IC的一个或多个初始训练步骤期间，标签向量LVi由操作LC独立于由图像分类器IC确定的分类或类概率来确定。例如，标签向量LVi可以被设置为类标签LC的独热编码或类似的编码。

在训练期间的某一点，标签校准操作LC可以更新用于训练图像TI的标签向量LVi。这通常不是针对在训练图像上执行的每个训练步骤进行的，而是不太频繁地进行，例如，针对学习率中的每次衰减进行一次。参考图5提供了何时可以更新标签向量LVi的详细示例。典型地，标签校准操作LC更新训练数据集中所有图像的标签向量，尽管这不是必须的。

为了更新用于训练图像TI的标签向量LVi，可以使用图像分类器IC根据其当前参数值实行推断，以获得用于训练图像TI的预测向量CPi。根据该预测向量，可以推断用于训练图像TI的预测类。预测可以根据它们的正确性来拆分。对于错误分类的预测，它们的软标签不存在任何线索。在这种情况下，标签向量LVi可以被设置为表示用于类标签CL的硬标签的独热编码标签，或者可以用其他方式——例如通过作为对应于类标签的平滑的独热标签——独立于预测向量而被确定。

在另一方面，对于正确分类的样本，可以基于预测向量CPi来设置标签向量LVi。特别地，一个可能性是将标签向量LVi设置为等于预测向量CPi。

同样如图中所示，进一步改进校准性能的措施是将事后校准模型PHC 470应用于预测向量CPi，并使用事后校准预测CC1 471，...，CCn 472，而不是在校准框架中作为软标签LVi的直接预测CPi。

原则上，可以使用任何事后校准器PHC。事后校准器例如可以是缩放事后校准器。这样的方法可以使用连续校准函数放大或缩小图像分类器的原始输出，例如logits。例如，缩放事后校准器可以是温度缩放（TS）或潜在高斯过程（GP）。在温度缩放中，logits可以除以温度因子T，这可以通过在验证集上优化NLL来获得。潜在高斯过程（GP）可以学习连续曲线而不是单个温度因子。对于负对数似然（NLL）度量，实验上发现GP在大多数情形下优于TS。对于预期校准误差（ECE）度量，当有限的校准样本可用时，发现TS比GP效果更好。另外，发现GP效果更好，因为它有更大数量的可配置参数。

事后校准器PHC也可以是分仓事后校准器。分仓事后校准器可以经由离散分仓函数调整logits。例如，可以使用直方图分仓，特别是诸如I-MAX直方图分仓方法之类的优化仓边缘的方法。I-MAX可以进一步合并来自校准集的每类预测，以增加采样效率。通常，缩放方法可以保持预测的准确性，但是当ECE评估的仓数量变化时，未能在ECE上具有一致的性能。分仓方法可以在ECE上具有更一致的性能，尽管由于量化而损失了准确性。

优选地，根据图像分类器IC的当前参数PARS，为图像分类器IC训练事后校准模型PHC，例如，每次根据更新的参数PARS应用它。事后校准模型PHC的训练通常使用与用于训练图像分类器IC的训练数据集分离的保持集，例如验证集。

因此，由标签校准LC确定的标签向量LVi可以是a）校准的正确预测，以及b）用于不正确样本的基于类的（例如独热编码）标签。所确定的标签LVi可以用于为后续的训练步骤训练图像分类器，通常每个训练图像TI有多个训练步骤。在此之后，可以再次执行确定更新的标签向量LVi的过程，这次使用作为后续训练步骤的结果而获得的已训练参数PARS。因此，训练步骤Train和标签校准LC可以交替进行，直到训练调度结束，从而产生可以在一些实施例中被使用的原生良好校准的图像分类器IC，而不需要附加的校准层。

图5a示出了如何训练分类器（例如，图像分类器）的详细但非限制性的示例。该示例基于图4的示例，并且图示了在训练期间的哪一点可以应用标签校准LC 550。同样如参考图4所讨论的，标签校准LC可以确定通常用于训练数据集的所有训练图像的标签向量。最初，训练期间使用的标签向量可以独立于被训练的图像分类器来确定，例如，作为类标签的独热编码。在训练期间的某一点，标签校准LC可以根据用于其训练参数的当前值，通过基于图像分类器确定的预测向量设置被正确分类为软标签的图像的标签向量，来使用图像分类器；对于未正确分类的图像，可以独立于预测向量来确定标签向量，例如，作为硬标签。

在该示例中，通过具有多步调度器的随机梯度下降（SGD）来训练图像分类器。这样的训练例如在深度学习中本身是已知的。多步调度指代使用在训练期间多次衰减的学习率。学习率衰减之间的时期可以被称为训练阶段。在训练的开始561，学习率可能相对大。典型地，准确度和置信度首先增加，并且然后停滞在某一水平。在多个训练步骤（例如，固定数量的时期）之后，可以执行学习率衰减564以降低学习率。在几次迭代之后，这通常导致准确性和置信度的提升，然后可能停滞在一个新的更高的水平，以此类推。

如图中所示，训练可以在第一和第二学习率衰减之间的点开始使用由标签校准LC校准的标签。等待第一次学习率衰减具有如下优点：通常训练准确度足够高，并且预测偏置较小。在学习率衰减之后，可以执行一个或多个训练步骤，所述一个或多个训练步骤使用衰减的学习率，但是仍然使用先前的标签向量。例如，可以执行固定数量的训练时期

565，继之以标签校准LC。在标签校准之后，可以根据更新的标签向量和衰减的学习率（例如多个时期）来执行训练阶段的进一步训练步骤。

在使用先前标签向量的训练阶段开始时的时间可以被称为等待阶段，其指代典型的训练效果，该训练效果是仅在学习率衰减之后等待几次迭代之后准确度和置信度的提升才发生。在学习率衰减之后来自时期T的预测通常与下一次学习率衰减之前的未来预测一致，因此也避免了如已知的标签平滑中的额外误校准。对于大多数架构和数据集，发现T =1是好的选择。

同样在后续的学习率衰减之后，可以应用标签校准LC，并且同样在这种情况下，可以应用等待阶段，该等待阶段通常包括例如

个时期的相同数量的训练步骤。例如，标签校准可以在每次学习率衰减之后被执行，每个训练阶段一次。然而，变化也是可能的，例如，可以每隔一个训练阶段执行标签校准，可以在第二学习率衰减之后而不是第一学习率衰减之后首先执行标签校准，等等。可以遍及训练中执行标签校准LC，直到到达训练569结束。例如，基于使用图像分类器执行的标签校准的数量可以是最多或至少三个或最多或至少五个。可能的是将等待时间（例如，时期数量

）和/或标签校准频率调谐为超参数。

图5b示出了标签校准LC 550的详细但非限制性的示例。该标签校准LC可以与图4和/或图5a组合使用，以使用图像分类器来确定用于训练图像的标签向量。

标签校准可以LC可以首先根据当前参数值将图像分类器应用于训练图像，以获得相应的预测向量552。图示出了三个这样的预测：[0.7，0.2，0.1]、[0.1，0.8，0.1]和[0.5，0.3，0.2]。在比较操作CP 557中，通过从预测向量推断预测的类并将预测的类与类标签进行比较，可以将预测拆分成两组。在该示例中，预测被拆分成两组，正确的预测553 [0.7，0.2，0.1]和[0.1，0.8，0.1]以及不正确的预测555 [0.5，0.3，0.2]。

对于预测类不等于类标签的图像，可以基于独立于预测向量的类标签来确定标签向量，例如作为独热编码。在该示例中，因为不正确的预测555 [0.5，0.3，0.2]很可能误导图像分类器，所以获取用于该样本的原始硬标签[0.0，0.0，1.0]。

对于预测的类等于类标签的图像，可以基于预测向量553将标签向量确定为软标签。在该示例中，为了对分类器应用附加的正则化，通过诸如温度缩放（TS）或潜在高斯过程（GP）之类的事后校准模块PHC 570来校准正确的预测。作为图示，在该图中，返回校准的软标签554 [0.5，0.3，0.2]和[0.2，0.6，0.2]。事后校准PHC的引入使能用于图像分类器的负反馈。例如，如果TS被整合，则当图像分类器严重过度置信时，可以返回温度因子T > 1，从而引起软标签变得更平滑并且因此生成更强的正则化。过度置信在未来的训练中可以进一步减轻，并且反之亦然。一种替代方案是使用没有通过事后校准来校准预测，换句话说，应用同一性（identity）校准。

正确分类样本的校准预测554和错误分类样本的模型无关标签555可以被组合CB552，作为用于未来的训练的新的软标签556 [0.5，0.3，0.2]、[0.2，0.6，0.2]和[0.0，0.0，1.0]。

图6示出了与本文描述的技术一起使用的分类器IC 040的详细但非限制性的示例。在该示例中，分类器是神经网络分类器，特别是深度神经网络。为了说明的目的，图示过程在高层级上并且非常简化地描述了卷积神经网络（CNN）中输入图像的分类。如本领域技术人员将理解的，也可以使用诸如深度神经网络的其他类型的神经网络，并且以下示例是非限制性的并且仅仅是示例性的。在许多情况下，CNN可以在概念上划分成两个组分：包括至少一个卷积层的卷积部分，以及包括至少一个密集层的密集（例如全连接）部分。然而，没有必要具有密集层。例如，经训练的分类器TC可以是完全卷积神经网络，例如，不包括任何全连接层。

输入图像II 610被输入到图像分类器IC，更具体地，输入到第一层滤波器CL1612-1（或者在一些情况下，单个滤波器）。每个滤波器可以对输入图像II 610卷积，一起产生激活体积或“潜在表示”。激活体积的每个“切片”可以是所述滤波器之一的输出。潜像表示可以具有与输入图像II相比不同的空间分辨率。潜在表示然后可以被用作至后续层CL2612-2的输入。CL2的（一个或多个）滤波器然后可以对第一层CL1输出的潜在表示进行卷积，以产生第二潜在表示。该过程可以针对另外的层612继续。

应当注意，遍及CNN的卷积部分，潜在表示与输入图像的空间关系被保持，尽管潜在表示的空间维度可能因潜在表示不同而不同，并且与输入图像的空间维度不同。

在CNN的卷积部分的最后一层CLk 612-k（通常被称为最后一个卷积层，尽管在一些实施例中，卷积部分的最后一层CLk可以不一定是卷积层，只要它保持如上面讨论的空间关系），得到的潜在表示LRk 622被输入到第一个密集层DL1 614-1中。密集层614可以是全连接层，其中每个全连接层的神经元连接到另一层中的所有神经元。在通过CNN的密集部分之后，针对相应类的类概率CP1 621，...，CPn 622可以被输出。

在各种实施例中，代替通过确定预测向量来使用经训练的图像分类器，还可能通过将经训练的图像分类器的仅一部分应用于输入图像来使用经训练的图像分类器，以获得输入图像的特征空间表示。在该图的示例图像分类器IC中，特征空间表示可以是图像分类器的密集层DLi的输出。该特征空间表示可以具有各种上游用途，例如，可以将进一步训练的模型应用于特征空间表示，例如以推断用于控制计算机控制系统的控制数据。

在各种实施例中，由图像分类器输出的预测向量——例如图像分类器IC的类概率CPi——可以用于确定模型所应用到的输入图像的分布外评分。作为较少过度置信的额外优点，如本文所述训练的图像分类器可以具有识别分布外样本的改进能力。已知的图像分类器倾向于对分布外样本输出高置信度。因此，与基于已知图像分类器的预测向量来确定分布外评分相比，使用如本文所述训练的分类器可以增加评分的准确性。例如，预测的熵可以用于检测异常样本。这可以针对如本文所述训练的任何图像分类器来完成，而不仅仅是针对图中所示的CNN。

使用图像分类器来确定分布外评分可以使用测试集来评估，其中分布内和分布外样本具有不同的标签。发明人使用预测的熵作为AUC中的阈值来执行这样的评估，以检测异常样本。CIFAR-10用作分布内数据，而街景门牌号（SVHN）和CIFAR-10-C高斯噪声严重性5用作分布外数据。发现提供的技术跨多个测试的数据集-网络对上优于其他即时校准方法。与其他校准方法相比，可变性也很小，从而示出对不同数据和架构的鲁棒性。

现在讨论一些实现细节和评估结果。一种广泛使用的度量是预期校准误差（ECE），其用于测量分类器的置信度偏离准确度多远。ECE模拟可靠性图解的行为，将最高的1个预测概率视为样本的置信度。样本根据它们的置信度被分类并且拆分成M个仓。ECE根据以下等式总结准确度和平均置信度之间的加权平均差：

，其中

和

是仓m的平均置信度和准确度。

指代对应仓中的样本数量。ECE通常使用静态分仓方案，但也可能使用动态分仓方案，因为大多数预测密集地位于直方图的右侧。

仓数量M是重要的超参数。太少的仓可能对校准误差（偏置）估计不足，因为很多信息可能被平滑。太多的仓可能使度量遭受高方差。传统上，使用15个仓，但是在最近的研究中也报道了使用100个仓的结果。发明人使用100-仓静态分仓执行评估，因为发现对于100个仓，不同的分仓方案不改变用于不同方法的评级。

ECE既方便又受欢迎。然而，除了其偏置-方差权衡之外，ECE的另一个问题是，平凡的情况总是存在，使ECE为零。这意味着分类器可能是完全ECE校准的，但是对于任何输入输出固定的概率，这是不合期望的。文献中已经建议通过使用负对数似然（NLL）作为度量来规避这些问题。NLL考虑了推广和校准。当两个模型具有相似的准确度时，具有较低NLL的模型遭受较少的误校准。

为了进行评估，使用软件PyTorchImageClassification实现了提出的技术。对于所有网络架构，都采取标准数据增强（随机裁剪和随机翻转）和He/Xavier初始化。用不同的种子重复实验5次。训练超参数与用于训练原始模型的超参数相同。使用Nesterov动量为0.9的SGD优化器，而不使用丢弃。在完成训练之后对模型进行评估（不提前停止）。

WRN-28-10训练200个时期，其中前60个时期学习率为0.1，接下来的60个时期学习率为0.02，后续的40个时期学习率为0.004，并且最后40个时期学习率为0.0008。训练批次大小设置为128，并且权重衰减为

。

DenseNet-BC-100使用批次大小64在300个时期内训练。初始学习率是0.1，并且在时期150和225分别减少了90%。采取稍微不同的权重衰减，在这种情况下为

。在实验中，DenseNet的压缩比是0.5，并且生长率是k = 12。

ResNeXt-29使用与DenseNet-BC-100相同的学习率调度，基本通道和初始通道设置为64。权重衰减是

，并且批次大小设置为128。

对于所有数据集，2%的训练样本被拆分用于验证（校准），在这种情况下，1000个样本用于CIFAR-10/CIFAR-100，并且2000个样本用于TinyImageNet。TinyImageNet中的图像被下采样为32 × 32，使得可以高效地使用为CIFAR设计的模型。

在实验中，使用

个时期的等待阶段，其中取决于特定架构的训练调度进行多次标签校准。WRN具有三次学习衰减，并且执行了三次标签校准。相比之下，DenseNet和ResNeXt仅具有两次学习率衰减。对应地，在这些网络中标签校准被执行两次。

为了评估所提出的技术的有效性，在WRN的CIFAR-100上进行了初步实验。技术在没有事后校准（LSP-同一性）和具有温度缩放（LSP-TS）的情况下被应用，并且与交叉熵（CE）独热编码基线进行比较。性能依据最高的1个准确度（Acc@1）、ECE和NLL进行评估。

发现，LSP-同一性在ECE和NLL方面大幅度优于基线。作为软标签的额外益处，LSP-同一性也比基线更准确。由于应用事后校准的有利负反馈，发现LSP-TS在所有度量上比LSP-同一性效果更好。出于该原因，LSP-TS在以下实验中用作标准LSP设置，并且也被称为LSP。在进一步的实验中，发现LSP不仅优于交叉熵基线，而且还优于熵惩罚、标注平滑和焦点损失校准。发现LSP从WRN和ResNeXt的软标签获得额外的准确度提升。遍及实验中，LSP的准确性是有竞争力的，并且在其他方法提供稍微更高准确性的情况下，LSP提供好得多的NLL，这指示LSP比其他方法受误校准影响小得多。

可以根据至少两个超参数来配置所提供的训练方法：等待阶段的时期数量

，以及标签校准的频率。进行了实验以彻底搜索WRN-28-10在CIFAR-100上的最佳超参数。

等待阶段：在WRN-28-10的训练调度中存在三次学习率衰减。在该实验中，校准频率固定为三，并且在每次学习率衰减之后的

个时期执行标签校准。对最佳

执行搜索。该搜索示出，

对于推广和校准二者效果最佳。

频率：执行另一个实验来确定不同频率的结果。在频率

的实验中，

是固定的，并且调查了不同学习阶段中标签校准的影响。结果示出，每次学习率衰减至少执行一次标签校准是非常有益的。对于WRN-28-10，频率= 3一般而言具有最佳的性能，并且预期这一般而言是好的设置。对于频率

的实验，调查在第一次学习率衰减（频率=4）之前、在每个学习阶段的中间（频率= 6）或在每个时期（频率= 199）之后的附加标签校准是否有益。发现在第一次学习率衰减之前执行附加的标签校准提供了ECE的改进，代价是降低了大约1%的准确度和更差的NLL。在该数据集上，对于频率= 6和频率= 200，没有发现任何改进。因此，优选地，最多在学习率衰减一次时执行标签校准。

实验指示，总的来说，在每次学习率衰减之后的一个时期执行标签校准是最有益的。

在进一步的实验中，使用温度平滑的训练与使用潜在高斯过程作为事后校准器的训练进行了比较。在这些实验中，LSP-GP改进了NLL，但稍微降级了ECE。这可能是因为GP的高复杂性需要更多的校准样本。一般而言，GP事后校准器与提出的训练技术相组合效果很好，从而示出它们与其他校准方法很好地兼容。

比较了用于事后校准的几个选择：无、温度平滑、潜在高斯过程和I-MAX。在TinyImageNet上对WRN-28-10执行了实验，并且在CIFAR-100上对WRN-28-10、DenseNet-BC-100和ResNeXt-29执行了实验。发现仅仅使用事后校准而不使用所提出的即时校准技术未能改进或甚至恶化了图像分类器的准确度。在另一方面，发现将提出的即时校准与事后校准相组合导致更好的推广。还发现大多数事后校准方法在NLL和ECE方面减轻了误校准。当使用提供的技术先验地正则化图像分类器时，误校准被进一步减少。在I-MAX的情况下，发现提供的技术没有在ECE方面改进校准。这是因为I-MAX作为一种分仓方法，与ECE计算的分仓方案特别兼容，并在所有事后方法之中提供最佳ECE性能。在这样的情况下，添加如本文提出的即时校准可能在ECE方面稍微退化性能。尽管如此，提供的技术与I-MAX的组合是有益的，因为它避免了由I-MAX引起的图像分类器的受损准确度。

另一个实验涉及将提出的技术与自蒸馏进行比较。自蒸馏使用来自一个模型的软标签来改进另一个模型的性能。这与提供的技术形成对比，提供的技术使用被训练模型本身的软标签。有趣的是，提供的技术被发现比自蒸馏效果更好。特别地，执行了实验将提供的技术与称为无教师知识蒸馏（TfKD-self）的技术进行比较。比较是在CIFAR-10/100上依据Acc@1、NLL和ECE实行的。使用的参数

和

。其他超参数与其他实验相同。

发现提供的技术跨设置上提供了好得多的NLL和ECE，从而表明在防止误校准方面有很大的改进。这是以在大多数数据集-模型对上具有较低的准确性为代价的。这对应于TfKD-self被设计用于推广而不是用于防止误校准的事实。

标识了TfKD-self比提供的技术校准更差的几个原因。首先，在TfKD-self中，将具有硬标签的交叉熵损失应用于所有样本。当更新标签向量时，提供的技术仅对错误分类的样本使用硬标签。虽然在TfKD-self中交叉熵前的系数

通常很小，但使用无选择的独热编码标签仍然增加了过度置信的风险。如果

被设置为一以规避过度置信，则训练准确度不是100%的高度正则化的教师模型可能提供误导性的软标签使学生模型的性能退化。本文描述的样本选择机制不必面对这样的权衡。

此外，TfKD-self中的教师模型是预训练的模型。由硬标签训练的预训练模型的预测相对接近硬标签，并且通常过度置信。由于TfKD-self加强了教师输出和学生输出之间的一致性，因此学生模型的过度置信是可以预见的。相反，在训练模型的不同学习阶段中，提供的技术可以使用校准的预测作为软标签，这相当于模拟校准良好的模型。

此外，在TfKD-self中，温度缩放同时应用于来自教师模型和学生模型的logits，用于完美的模拟，而提供的技术仅可选地将事后校准（例如，温度缩放）应用于来自教师模型（先前预测）的logits。这使得学生模型的输出能够偏离教师模型的输出，从而为训练引入额外的校准灵活性。

图7示出了训练分类器（例如图像分类器）的计算机实现的方法700的框图。分类器可以被配置为确定用于输入实例（例如，输入图像）的预测向量。预测向量可以包括针对多个相应类的类概率。方法700可以对应于图1的系统100的操作。然而，这不是限制，因为方法700也可以使用另一个系统、装置或设备来执行。

方法700可以在题为“访问分类器，训练数据”的操作中包括访问710分类器的可训练参数和包括多个训练实例和对应类标签的训练数据集。

方法700可以包括训练分类器。训练可以在题为“初始训练步骤”的操作中包括执行720训练分类器的一个或多个初始训练步骤，以获得用于可训练参数的当前参数值。训练可以在题为“选择训练数据”的操作中包括从训练数据集选择730训练实例，例如训练图像和对应类标签。

训练可以在题为“确定标签向量”的操作中包括确定740用于在训练实例上训练分类器的当前标签向量。确定740可以在题为“应用分类器”的操作中包括根据当前参数值将分类器应用742到训练实例以获得预测向量。确定740可以在题为“推断类”的操作中包括从预测向量推断744多个类中的预测类。确定740可以在题为“将推断的与类标签进行比较”的操作中包括将预测的类与类标签进行比较746。确定742可以在题为“基于预测确定标签向量”的操作中包括如果预测的类等于类标签，则基于预测向量将当前标签向量确定748为软标签。

训练可以在题为“训练步骤”的操作中包括执行750使用当前标签向量在训练实例上训练分类器的当前训练步骤。

图8示出了使用经训练的分类器（例如图像分类器）的计算机实现的方法800的框图。方法800可以对应于图2的系统200的操作。然而，这不是限制，因为方法800也可以使用另一个系统、装置或设备来执行。

方法800可以在题为“访问分类器”的操作中包括访问810分类器的已训练参数。该分类器可能先前已经根据本文描述的方法、例如图7的方法700被训练过。

方法800可以在题为“获得实例”的操作中包括获得820输入实例，例如输入图像。

方法800可以在题为“应用分类器”的操作中包括将分类器应用830于输入实例，以确定用于输入实例的预测向量。方法800可以在题为“输出预测”的操作中进一步包括基于预测向量输出835预测。

替代于应用830和输出835或者除了应用830和输出835之外，方法800可以在题为“应用分类器部分”的操作中包括将分类器的一部分应用840于输入实例，以获得输入实例的特征空间表示。方法800可以在题为“输出特征空间表示”的操作中进一步包括输出845特征空间表示。

将领会，一般而言，图7的方法700和图8的方法800的操作可以以任何合适的次序（例如，连续地、同时地或其组合）执行，所述次序在适用的情况下服从例如由输入/输出关系所必需的特定次序。也可以组合一些或所有方法，例如，使用已训练分类器的方法800可以随后应用于根据方法700训练的该分类器。

（一个或多个）方法可以在计算机上实现为计算机实现的方法、专用硬件或二者的组合。同样如图9中图示的，用于计算机的指令（例如，可执行代码）可以例如以一系列机器可读物理标志910的形式和/或作为一系列具有不同的电（例如磁性）或光学属性或值的元件而存储在计算机可读介质900上。介质900可以是暂时的或非暂时的。计算机可读介质的示例包括存储器设备、光学存储设备、集成电路、服务器、在线软件等。图9示出了光盘900。替代地，计算机可读介质900可以包括表示如本文所述训练的分类器的训练参数的数据910。

示例、实施例或可选特征——无论是否被指示为非限制性的——都不要被理解为对如要求保护的本发明进行限制。

应当注意，以上提及的实施例说明而不是限制本发明，并且本领域技术人员将能够在不脱离所附权利要求书的范围的情况下设计许多替代的实施例。在权利要求书中，被置于括号之间的任何参考标记不应被解释为限制权利要求。对动词“包括”及其词形变化的使用不排除除了在权利要求中所陈述的那些元素或阶段之外的元素或阶段的存在。在元素之前的冠词“一”或“一个”不排除多个此类元素的存在。诸如“……中的至少一个”之类的表述当在元素的列表或组之前时表示从该列表或组中选择全部元素或元素的任何子集。例如，表述“A、B和C中的至少一个”应当被理解为包括仅A、仅B、仅C、A和B两者、A和C两者、B和C两者或者全部A、B和C。本发明可以借助于包括几个不同元件的硬件以及借助于合适编程的计算机来被实现。在列举了几个构件的设备权利要求中，这些构件中的几个可以通过硬件的同一个项目来体现。仅有事实为在相互不同的从属权利要求中记载了某些措施不指示这些措施的组合不能被有利地使用。

Claims

1.一种训练图像分类器的计算机实现的方法（700），其中图像分类器被配置为确定用于输入图像的预测向量，其中预测向量包括针对多个相应类的类概率，所述方法包括：

- 访问（710）图像分类器的可训练参数和包括多个训练图像和对应类标签的训练数据集；

- 执行（720）训练图像分类器的一个或多个初始训练步骤，以获得用于可训练参数的当前参数值；

- 从训练数据集选择（730）训练图像和对应类标签；

- 通过以下各项确定（740）用于在训练图像上训练图像分类器的当前标签向量：根据当前参数值将图像分类器应用（742）于训练图像以获得预测向量；从预测向量推断（744）多个类中的预测类；将预测类与类标签进行比较（746）；并且，如果预测类等于类标签，则基于预测向量将当前标签向量确定（748）为软标签；和

- 执行（750）使用当前标签向量在训练图像上训练图像分类器的当前训练步骤。

2.根据权利要求1所述的方法（700），包括：

- 根据先前的学习率和根据先前的标签向量，执行图像分类器的一个或多个先前的训练步骤；

- 衰减先前的学习率；

- 执行根据衰减的学习率和先前的标签向量来训练图像分类器的一个或多个进一步的训练步骤，以获得用于可训练参数的更新的参数值；

- 通过根据更新的参数值应用图像分类器来确定用于训练图像的当前标签向量；和

- 根据当前标签向量和衰减的学习率执行当前训练步骤。

3.根据权利要求2所述的方法（700），其中，所述一个或多个进一步的训练步骤形成一个训练时期。

4.根据任一前述权利要求所述的方法（700），包括使用独立于图像分类器确定的标签向量来执行所述一个或多个初始训练步骤。

5.根据任一前述权利要求所述的方法（700），其中，所述图像分类器是语义分割模型，其被配置为针对输入图像的相应部分计算所述多个类的类概率，并且其中所述方法包括针对输入图像的相应部分确定和使用当前标签向量。

6.根据任一前述权利要求所述的方法（700），其中，所述输入图像由像素值、体素值或点云表示。

7.根据任一前述权利要求所述的方法（700），进一步包括，如果预测类不等于类标签，则基于独立于预测向量的类标签来确定当前标签向量。

8.根据任一前述权利要求所述的方法（700），其中，基于预测向量确定当前标签向量包括将事后校准模型应用于预测向量。

9.根据权利要求8所述的方法（700），进一步包括为图像分类器训练事后校准模型。

10.一种使用经训练的图像分类器的计算机实现的方法（800），所述方法包括：

- 访问（810）图像分类器的已训练参数，其中所述图像分类器已经根据前述权利要求中的任一项进行了训练；

- 获得（820）输入图像；

- 将图像分类器应用（830）于输入图像以确定用于输入图像的预测向量，并基于预测向量输出（835）预测；和/或对输入图像应用（840）图像分类器的一部分，以获得输入图像的特征空间表示，并输出（845）特征空间表示。

11.根据权利要求10所述的方法（800），包括从预测向量确定用于输入图像的分布外评分。

12.根据权利要求10所述的方法（800），其中，所述输入图像表示计算机控制的系统和/或其环境，并且其中所述方法包括应用图像分类器的一部分来获得特征空间表示，并且将进一步训练的模型应用于特征空间表示来推断用于控制计算机控制的系统的控制数据。

13.一种用于训练图像分类器的系统（100），其中，所述图像分类器被配置为确定用于输入图像的预测向量，其中所述预测向量包括针对多个相应类的类概率，所述系统包括：

- 数据接口（120），用于访问包括多个训练图像和对应类标签的训练数据集（030），并且用于访问图像分类器的可训练参数（040），以及；

- 处理器子系统（140），被配置为通过以下各项训练图像分类器：

- 执行训练图像分类器的一个或多个初始训练步骤，以获得用于可训练参数的当前参数值；

- 从训练数据集选择训练图像和对应的类标签；

- 通过以下各项确定用于在训练图像上训练图像分类器的当前标签向量：根据当前参数值将图像分类器应用于训练图像以获得预测向量；从预测向量推断所述多个类中的预测类；将预测类与类标签进行比较；并且，如果预测类等于类标签，则基于预测向量将当前标签向量确定为软标签；和

- 执行使用当前标签向量在训练图像上训练图像分类器的当前训练步骤。

14.一种用于使用图像分类器的系统（200），所述系统包括：

- 存储装置（022），包括图像分类器的已训练参数（042），其中所述图像分类器已经根据权利要求1-9中任一项被训练；

- 处理器子系统（240），被配置为：

- 获得输入图像；

- 将图像分类器应用于输入图像，以确定用于输入图像的预测向量，并基于预测向量输出预测；和/或将图像分类器的一部分应用于输入图像以获得输入图像的特征空间表示并输出特征空间表示。

15.一种暂时性或非暂时性计算机可读介质（900），包括表示以下各项的数据（910）

- 当由处理器系统执行时使得处理器系统执行根据权利要求1-9中任一项的计算机实现的方法的指令；和/或

- 当由处理器系统执行时使得处理器系统执行根据权利要求10-12中任一项的计算机实现的方法的指令；和/或

- 根据权利要求1-9中任一项的计算机实现的方法训练的图像分类器的已训练参数。