CN115186727A

CN115186727A - 用于图像分类的不确定性评估的方法、设备和计算机程序

Info

Publication number: CN115186727A
Application number: CN202210282312.0A
Authority: CN
Inventors: C·肖恩; L·高尔霍夫
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-03-23
Filing date: 2022-03-22
Publication date: 2022-10-14
Also published as: US20220309771A1; DE102021202813A1

Abstract

本发明涉及一种用于确定第一机器学习系统（201）的预测的不确定性的方法，包括以下步骤：通过所述第一机器学习系统（201）处理检测到的输入变量（21），其中存储在由机器学习系统（201）处理输入变量时确定的中间结果（24）。由第二机器学习系统（202）处理所存储的中间结果（24）中的至少一个，其中所述第二机器学习系统输出表征输出的分类的不确定性的输出变量（26、27）。此外，本发明涉及一种用于教导第二机器学习系统的方法以及一种计算机系统、一种计算机程序和一种其上存储有该计算机程序的机器可读存储元件。

Description

用于图像分类的不确定性评估的方法、设备和计算机程序

技术领域

本发明涉及一种借助于第二机器学习系统评估第一机器学习系统的预测以确定该预测的不确定性的方法。本发明还涉及一种设备和一种计算机程序，它们分别被设置为执行所述方法。

背景技术

用于分类例如图像数据的神经网络典型地将softmax函数应用于最终输出层，从而可以将输出值解释为预测的类别概率。然而已经表明，在softmax输出并不表示神经网络通过其分类有多可靠这个意义上，这些softmax输出没有得到良好的校准。例如，当网络预测“A”类别的输入时，该网络可能总是输出>95%的softmax值，但仍然对超过5%的输入进行了错误分类。

为了解决神经网络的这种“过度自信”，引入了多种用于估计不确定性的方法：

在“深度集成”方法（Balaji Lakshminarayanan、Alexander Pritzel和CharlesBlundell，2017，Simple and scalable predictive uncertainty estimation usingdeep ensembles， Proceedings of the 31st International Conference on NeuralInformation Processing Systems （NIPS'17），Curran Associates Inc.，Red Hook，NY，USA，6405-6416）中，基于一个数据集来训练同一网络架构的多个实例，同时在该训练之前随机初始化每个网络的权重。然后将这些网络并行地用于执行推理，并基于各个网络预测的分布来估计预测的不确定性。

“蒙特卡罗Dropout”方法（Mukhoti, J.和Gal, Y.，“Evaluating Bayesian DeepLearning Methods for Semantic Segmentation”，arXiv e-prints，2018）使用带有dropout层的神经网络架构。这些dropout层将相应层中预定义份额的随机选择的神经元设置为零。然后使用来自利用随机dropout掩码的多次执行的网络输出的熵和/或互信息作为不确定性的估计。

DE 10 2018 207 220公开了一种用于在计算单元上运行待监视的神经网络时借助于另外的神经网络探测所述计算单元或存储器的计算错误或故障的方法。所述另外的神经网络获得待监视的神经网络的中间结果，并且根据其中间结果确定在运行待监视的神经网络时是否出现了计算错误或故障。

本发明的任务和优点

在神经网络的输出是安全关键决策的基础时，例如在自动化车辆中，特别需要对不确定性进行准确的估计。现有的不确定性方法，例如贝叶斯神经网络或深度集成，需要高计算能力（DNN的多次执行）。此外，不确定性的预测不是单独训练的，而是与神经网络的主要任务一起训练，这降低了灵活性并且可能影响该网络在主要任务时的性能。无论主要任务是什么，都没有用于优化不确定性措施的方案。此外，没有分解DNN和不确定性方法的方案。分解策略可能是实现特定程度的车辆安全性所必需的（ASIL，另请参见ISO26262、PASISO 21448）。

本发明的任务是自动化地并且以少的计算耗费实时确定神经网络输出的不确定性。

本发明通过提供监视第一机器学习系统的小型机器学习系统，特别是较小的神经网络来解决这个任务。所述小型机器学习系统能够在运行所述第一机器学习系统时根据所述第一机器学习系统的中间结果来确定所述第一机器学习系统的预测有多可靠。

由此得出多个优点：

与其他不确定性方法相比，所述小型机器学习系统需要明显更少的计算能力。此外适合使用专用神经网络加速器中的算法进行计算，因为可以以适合于小位宽的数据格式来执行计算。

可以基于与训练所述第一机器学习系统本身的数据集不同的数据集来训练所述小型机器学习系统。

由于与所述第二机器学习系统的训练无关并且由于其小尺寸，所述小型机器学习系统的教导快速进行。

所述第一机器学习系统可以在不确定性预测方面进行扩展而无需修改，即所述第一机器学习系统在添加不确定性预测之前和之后的输入-输出关系保持不变。为了分解开发和检查任务DNN以及监视DNN（例如汽车领域中的ASIL分解），这是值得期望的。

发明内容

在第一方面，提出了一种用于确定作为图像分类器的第一机器学习系统的预测的不确定性的计算机实现的方法。不确定性可以理解为说明第一机器学习系统的输出有多可靠，以至于特定类实际上存在于第一机器学习系统的输入变量中的度量。因此，它可以被理解为分类的可靠性，特别是预期准确度的度量。

该方法至少包括以下步骤：首先，通过所述第一机器学习系统处理检测到的输入变量，并且特别是输出所述输入变量的分类。检测到的输入变量例如可以由传感器检测。所述传感器可以是任何成像传感器，优选相机、激光雷达或雷达。

在第一机器学习系统处理输入变量时，存储中间结果。然后由第二机器学习系统处理这些存储的中间结果。所述第二机器学习系统输出表征由所述第一机器学习系统输出的分类的不确定性的输出变量，其中所述第二机器学习系统已经被教导为使得其根据至少一个中间结果输出所述第一机器学习系统的分类的不确定性。

提出第一和第二机器学习系统分别是神经网络，其中所述第二机器学习系统的神经网络的架构小于所述第一机器学习系统的神经网络的架构。架构可以理解为神经网络的结构，特别是神经网络的一定数量的神经元和/或层。

需要注意的是，这两个机器学习系统还可以是其他机器学习模型，例如经典/统计学习系统。

此外提出，如果所述第二机器学习系统输出大于预给定阈值的不确定性，则输出警告。可以根据应用定义阈值，该阈值设定分类的最小概率确定性。例如，与其中由用户释放第一机器学习系统的分类的应用相比，对于安全关键型应用而言该阈值可以更高。

可以想到，根据所述第一机器学习系统的分类来确定用于技术系统的控制变量。所述控制变量可以用于控制技术系统的致动器。所述技术系统可以是例如至少部分自主的车辆、机器人、工具、作业机器或诸如无人机的飞行物体。如果第二机器学习系统的不确定性大于预给定阈值，则可以暂停所述控制变量的确定和/或可以用警告来反馈给用户。

此外提出，所述第二机器学习系统在处理中间结果时获得压缩的中间结果作为输入变量，所述压缩的中间结果是所述第一机器学习系统的压缩的中间结果。例如，可以通过对相应中间变量的多个元素进行求和或通过主成分分析（PCA）来实现压缩。为了将压缩时的信息损失保持在低水平，优选将第一机器学习系统的中间结果的各个部分的部分和确定为压缩的中间结果。

在本发明的另一方面，提出了一种用于教导第二机器学习系统的计算机实现的方法。该方法至少包括以下步骤：

提供训练数据集合，其中该训练数据集合包含训练输入数据和分别分配的标签，所述训练输入数据是所述第一机器学习系统的所确定的中间结果，所述标签表征不确定性。不确定性涉及根据相应的中间变量确定所述第一机器学习系统的分类。随后对所述第二机器学习系统进行教导，使得所述第二机器学习系统根据所述中间结果确定分配给中间结果的标签。

提出，所述标签对应于所述第一机器学习系统的分类的预期准确度。

可以借助于参考不确定性估计方法来确定所述预期准确度。参考不确定性估计方法可以基于将所述第一机器学习系统的深度集成用于从中确定集成的预期准确度。也可以设想将贝叶斯神经网络用作参考，将贝叶斯神经网络输出的不确定性用作标签。还可以设想，将上述dropout应用在第一机器学习系统中，并根据机器学习系统的分类分布来确定所述预期准确度。还可以设想，基于分类的熵评估来确定所述预期准确度。

此外提出，根据所述第一机器学习系统的多个增强的输入变量并且通过根据所述增强的输入变量计算所述第一机器学习系统的错误分类的比例来确定所述预期准确度。通过诸如随机旋转/失真或镜像的增强技术产生多个版本的输入。然后使用所述第一机器学习系统来确定每个输入的分类。然后可以基于这些分类的分布来确定不确定性。

此外提出，所述第一机器学习系统输出语义分割，其中根据该分割图的不同区域中的平均分类错误率将所述预期准确度用作不确定性度量。这特别适合于以下分割任务，在所述分割任务中可以计算在输入的不同区域中的分类错误。也可以设想，将平均分类错误率和输入变量的增强相组合以确定所述预期准确度。

此外提出，将所述教导作为二元分类问题（不确定的与确定的）或回归任务（在0和1之间的标量不确定性值）来执行。在训练二元分类时，可以使用二元交叉熵损失，并且对于回归，损失可以是例如均方误差。标准反向传播技术可用于优化。

在另一方面，提出了一种计算机程序。所述计算机程序被设置为执行上述方法之一。所述计算机程序包括指令，当所述计算机程序在计算机上运行时，所述指令促使所述计算机执行这些方法之一及其所有步骤。还提出了一种机器可读的存储器模块，在所述存储器模块上存储有所述计算机程序。此外，提出了一种设备，该设备被设置为执行所述方法之一。

附图说明

上述方面的实施例在附图中示出并且在以下描述中更详细地解释。在此：

图1示出了至少部分自主车辆的示意图；

图2示出了第一和第二神经网络的示意图；

图3示出了用于确定不确定性的方法的实施方式的示意图；

图4示出了用于教导第一和第二神经网络的设备的实施方式的示意图。

具体实施方式

图1示出了至少部分自主车辆（10）的示意图。在另一实施例中，至少部分自主车辆（10）可以是服务机器人、安装机器人或固定的生产机器人，替代地是自主飞行物体，例如无人机。至少部分自主车辆（10）可以包括检测单元（11）。检测单元（11）例如可以是相机，其检测车辆（10）的环境。诸如雷达或激光雷达的其他传感器同样是可以设想的。检测单元（11）可以与第一机器学习系统，优选第一经过教导的神经网络（201）连接。第一经过教导的神经网络（201）根据所提供的输入变量（例如由检测单元（11）提供）并且根据第一经过教导的神经网络（201）的多个参数来确定输出变量。所述输出变量可以转发给致动器控制单元（13）。致动器控制单元（13）根据第一经过教导的神经网络（201）的输出变量控制致动器。在该实施例中，致动器可以是车辆（10）的发动机。

第一经过教导的神经网络（201）借助于第二机器学习系统，优选第二经过教导的神经网络（202）来加以监视，并输出第一神经网络（201）的结论的不确定性。必要时，致动器控制单元（13）可以考虑高度的不确定性，并且可以对应地控制致动器。

车辆（10）还包括计算单元（14）和机器可读存储元件（15）。在存储元件（15）上可以存储计算机程序，所述计算机程序包括指令，所述指令在其在计算单元（14）上执行时导致计算单元（14）执行根据本发明的方法。还可以设想，下载产品或人工生成的信号，它们分别可以包括所述计算机程序，在车辆（10）的接收器处接收到之后促使计算单元（14）执行根据本发明的方法。

在另一实施例中，致动器控制单元（13）包括释放系统。所述释放系统根据第一经过教导的神经网络（201）的输出变量来决定对象（例如检测到的机器人或检测到的人）是否可以访问区域。优选地，可以根据释放系统的决定来操控致动器。

在替代的实施例中，车辆（10）可以是工具或作业机器。可以借助于第一经过教导的神经网络对工件的材料进行分类。在此，致动器可以例如是运行磨头的马达。

在另一实施方式中，第一经过教导的神经网络（201）用于测量系统中，该测量系统在图中未示出。该测量系统与根据图1的车辆（10）的不同之处在于该测量系统不包括致动器控制单元（13）。所述测量系统可以存储或显示第一经过教导的神经网络（201）的输出变量，例如借助于视觉或听觉显示，而不是将输出变量转发到致动器控制单元（13）。

还可以设想，在测量系统的一种扩展中，检测单元（11）检测人体或动物体或其一部分的图像。例如，这可以借助于光学信号、借助于超声信号或借助于MRT/CT方法来完成。在这个扩展中，测量系统可以包括第一经过教导的神经网络（201），该第一经过教导的神经网络被教导为根据输入变量来输出分类，例如基于该输入变量可能存在哪种疾病图像。第二经过教导的神经网络（202）在此监视第一经过教导的神经网络（201）。

在图2中示意性地示出两个经过教导的神经网络（201、202）和它们的互连。

第一经过教导的神经网络（201）包括多个层，每个层都具有多个神经元，这些神经元与前一层和下一层的神经元连接。第一经过教导的神经网络（201）的第一层获得输入变量（21），该输入变量在第一经过教导的神经网络（201）的第一层中得到处理。将第一层的结果转发到下一层，所述下一层获得该结果作为输入变量并根据该结果确定输出变量。然后将该输出变量转发给下一层。输入变量沿着第一经过教导的神经网络（201）的这种所描述的分层处理（英语：propagation，传播）一直执行到第一经过教导的神经网络（201）的最后一层已经确定了其输出变量（22）为止。第一经过教导的神经网络（201）的最后一层的激活函数优选地是softmax函数。

第二经过教导的神经网络（202）获得第一经过教导的神经网络（201）的至少一层的至少一个输出变量作为输入变量（24），并且然后根据该输入变量（24）确定输出变量（26）。该输出变量（26）表征输出变量（22）的不确定性。

第二经过教导的神经网络（202）的输入变量（24）可以例如借助于至少一个连接（25）提供给第二经过教导的神经网络（202）。

在优选的实施例中，第二神经网络（202）可以输出多个输出变量（26、27），这些输出变量例如可以分配给第一神经网络（201）的不同分类。如果第一神经网络输出语义分割，则例如可以向分割图的不同区域分别分配第二神经网络的输出变量（26、27）。

在另一实施例中，第一经过教导的神经网络（201）的层之一的至少一个输出变量可以包括较高维向量，该较高维向量的各个元素被求和为压缩的中间结果地作为第二经过教导的神经网络（202）的输入变量（24）提供。可以设想使用类似的信息压缩方法，使得第二经过教导的神经网络（202）的输入变量（24）更紧凑。

第二神经网络（202）的输入变量（24）是第一神经网络（201）的至少一个中间结果，以下也称为中间变量。然而，也可以设想该输入变量（24）最多包括所有的中间结果。然后例如可以将这些中间结果组合成一个张量。应该注意的是，然后也应当对应于该张量的维度来设计第二神经网络（202）的输入。

如果第一神经网络（201）具有（2D）卷积层，该卷积层通常用于图像分类，则该层输出由对应于该层的不同滤波器内核的多个（2D）中间结果图（英语：feature maps，特征图）组成。可以将这些中间结果图直接添加到输入变量（24）。

在优选实施方式中，除了每个中间结果图之外，还通过对相应中间结果图的所有值求和来添加单个值。除了对中间结果进行求和池化之外，还可以应用其他用于降低维度的标准技术，例如主成分分析（PCA）。

图3示出了用于确定不确定性的方法的示意图。

该方法可以从步骤S21开始。在该步骤中，提供经过教导的第一神经网络（201）。替代地，可以在该步骤中教导第一神经网络（201）。

在步骤S21完成后，接下来进行步骤S22。在该步骤中创建用于教导第二神经网络（202）的训练数据。

为此，可以将第一神经网络（201）应用于大量输入变量。分别存储所确定的中间变量并作为训练输入变量添加到第二神经网络的训练数据中。还为每个中间变量分配一个标签。该标签在此表征了第一神经网络的分类的不确定性。

该不确定性或标签如下确定：

可以设想，借助于参考不确定性方法来确定所述不确定性。为此，优选地向第一神经网络扩展dropout层，或者使用不同初始化的神经网络（201）的集成。根据其所确定的分类，可以计算基于熵的不确定性度量。

替换地，不确定性可以这样来确定，即针对多个增强的输入变量确定第一神经网络（201）的错误分类率。增强的输入变量通过诸如随机翻译或镜像的增强技术产生。然后使用第一神经网络（201）来确定每个输入的分类，其中基于分类的分布确定不确定性。

当步骤S22已完成时，在随后的步骤S23中，基于来自步骤S22的训练数据来教导第二神经网络（202）。

应当注意的是，第二神经网络可以被教导为，使得第二神经网络输出二元分类，即输出类别“不确定”或“确定”。替代地，第二神经网络可以被教导为，使得第二神经网络输出表征不确定性的连续值。例如，第二神经网络可以执行回归并且输出介于0和1之间的值，其中1例如表征高度不确定性。

在教导了第二神经网络（202）之后，可以在步骤S24中将该第二神经网络用于应用中，例如在车辆（10）中。

如果在使用第二神经网络（202）时确定了高于预给定阈值的不确定性，则可以执行步骤S25。在该步骤中，可以通过警告音将高度不确定性通知给用户。

图4示出了用于教导神经网络（201、202）的设备（40）的示意图，特别是用于执行步骤S21和/或S23的设备。设备（40）包括训练模块（41）和待训练模块（42）。所述待训练模块（42）包含两个根据图2的神经网络。用于教导神经网络（201、202）的设备（40）根据神经网络（201、202）的输出变量并且优选使用可预给定的训练数据来教导神经网络（201、202）。在教导期间，适配两个机器学习系统（201、202）的存储在存储器（43）中的参数。

Claims

1.一种用于确定从第一机器学习系统（201）输出的分类（22）的不确定性的方法，包括以下步骤：

通过所述第一机器学习系统（201）处理检测到的输入变量（21），并且特别是输出所述分类（22）；

由第二机器学习系统（202）处理多个中间结果（24）中的至少一个中间结果，所述多个中间结果是在由所述第一机器学习系统（201）处理输入变量时确定的，

其中所述第二机器学习系统根据所述至少一个中间结果输出输出变量（26、27），所述输出变量表征所述第一机器学习系统的分类（22）的不确定性，

其中所述第二机器学习系统（202）已被教导为使得所述第二机器学习系统根据所述至少一个中间结果输出所述第一机器学习系统的分类的不确定性。

2.根据权利要求1所述的方法，其中，第一和第二机器学习系统分别是神经网络（201、202），其中所述第二机器学习系统的神经网络的架构小于所述第一机器学习系统的神经网络的架构。

3.根据前述权利要求中任一项所述的方法，其中，如果所述第二机器学习系统输出大于预给定阈值的不确定性，则输出警告。

4.一种用于教导第二机器学习系统（202）的方法，包括以下步骤：

提供（S22）训练数据集合，

其中所述训练数据集合包含多个训练输入数据和分别分配给所述训练输入数据的标签，所述训练输入数据是所述第一机器学习系统（201）的所确定的中间结果，所述标签表征不确定性，

教导（S23）所述第二机器学习系统（202），使得所述第二机器学习系统根据所述中间结果确定分配给所述中间结果的标签。

5.根据权利要求4所述的方法，其中，所述标签对应于所述第一机器学习系统（201）的分类的预期准确度。

6.根据权利要求5所述的方法，其中，所述预期准确度借助于参考不确定性估计方法确定。

7.根据权利要求5所述的方法，其中，根据所述第一机器学习系统（201）的多个增强的输入变量并且通过根据所述增强的输入变量计算所述第一机器学习系统（201）的错误分类的比例来确定所述预期准确度。

8.根据权利要求5所述的方法，其中，所述第一机器学习系统（201）的分类是语义分割，其中所述预期准确度取决于所述语义分割的不同区域中的平均分类错误率。

9.一种计算机程序，其包括指令，所述指令在其在计算机上执行时促使所述计算机执行根据前述权利要求1至8中任一项所述的方法。

10.一种机器可读存储元件（15），其上存储有根据权利要求9的计算机程序。

11.一种设备（14），被设置为执行根据权利要求1至8中任一项所述的方法。