CN113989801A

CN113989801A - 用于创建自动创建机器学习系统的系统的方法和设备

Info

Publication number: CN113989801A
Application number: CN202110777133.XA
Authority: CN
Inventors: M·林道尔; A·泽拉; D·斯托尔; F·费雷拉; F·哈特; T·尼尔霍夫
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-07-10
Filing date: 2021-07-09
Publication date: 2022-01-28
Also published as: DE102020208671A1; US20220012636A1

Abstract

用于创建系统的计算机实现的方法，所述系统适合于为基于计算机的视觉自动创建机器学习系统，所述方法包括以下步骤：提供预给定的超参数。借助于BOHB（贝叶斯优化（BO）和超频带（HB）的缩写）为多个不同训练数据集确定所述超参数的最优参数化。借助于标准化度量评估对所述多个不同训练数据集的所有训练数据集的所有最优参数化。创建矩阵，其中所述矩阵具有针对每个参数化和每个训练数据集的经过评估的标准化度量。确定每个训练数据集的元特征（英语：meta‑features）。优化决策树，所述决策树根据所述元特征和所述矩阵使得所述决策树输出借助于BOHB确定的最优参数化中的哪个是适合于给定元特征的参数化。

Description

用于创建自动创建机器学习系统的系统的方法和设备

技术领域

本发明涉及一种创建系统的方法，所述系统适用于为基于计算机的视觉自动创建机器学习系统，本发明还涉及对应的计算机程序和机器可读存储介质。

背景技术

当前机器学习面临的挑战是，针对每个训练数据集必须重新地并且基于专家的假设和经验设置机器学习算法的超参数化。因为如果没有这样的设置，学习算法就收敛到非最优解或者甚至找不到解。这是非常不利的，因为此外通过手动设置很少能实现超参数的最优参数化。由此，用超参数学习的机器学习系统出现明显的性能损失。

存在一些方案试图克服这些缺点，并且例如借助于机器学习方法确定给定训练数据集的最优超参数，例如Falkner、Stefan、Aaron Klein和Frank Hutter的“BOHB：Robustand efficient hyperparameter optimization at scale”（BOHB：强大且高效的超参数大规模优化），arXiv预印本arXiv：1807.01774(2018)，可在线获取：https://arxiv.org/abs/1807.01774。

然而，这些方案的缺点是其发现的超参数化只能有条件地使用，并且对于相似的数据集也不是最优或可靠的，所述相似的数据集例如具有不同数量的类别或例如包含来自相似域或相似分类问题的图像。

本发明的优点

相比之下，本发明的优点在于其提供了一种用于独立于域地自动和最优地参数化机器学习算法的方法以及相关联的机器学习系统。因此，利用本发明可以自动训练机器学习系统，其中该学习算法能够可靠地应用于大量不同的数据集，并且例如无论对象类别和/或训练图像或训练视频的数量如何都实现最优结果。

发明内容

在第一方面，本发明涉及一种用于创建系统的计算机实现的方法，所述系统适合于为基于计算机的视觉（英语：Computer Vision，CV）自动创建机器学习系统。

基于计算机的视觉可以理解为机器学习系统被设置为以最多样化的方式处理和分析由任何类型的相机记录的图像、视频等。例如，这可以是图像的分类或对象探测或语义分割。

所述方法包括以下步骤：

提供预给定的超参数，特别是定义每个预给定超参数的值范围。这些超参数可以是非常不同的参数，并且通常对优化算法、特别是训练算法参数化，或者将超参数的值分别分配给来自多个非常不同的优化算法中的一种优化算法。所述超参数包括表征使用哪种优化方法的至少一个第一参数。所述优化方法可以是随机优化器（英语：stochasticoptimizer），例如Adam、AdamW或Nesterov加速梯度。

所述超参数还包括表征所述机器学习系统是哪种类型、特别是所述机器学习系统使用哪些函数逼近器的第二参数。例如，可以使用以下类型：（优选经过预训练的）EfficientNet或简单的分类器，如SVM、不相关决策森林（英语：random forest，随机森林）、深度神经网络或逻辑回归。

随后借助于BOHB为用于基于计算机的视觉的多个不同训练数据集的每个训练数据集确定所述超参数的最优参数化。这些数据集可以称为元训练数据集，其特征在于它们包括具有所分配的标签的输入变量。每个输入变量都可以是4D张量（时间/列/行/通道）。所述标签优选地是通过二进制值来表征类别的向量或是语义分割。所述数据集优选地彼此互补并且特别优选地使用以下可公开访问的数据集：Chucky、Hammer、Munster、caltechbirds2010、cifar100、cifar10、colonectal histology和eurosat。互补在这里可以理解为数据集具有非常不同数量的类别和/或包含图像和视频等。

然后借助于标准化度量评估针对所述多个不同训练数据集的所有训练数据集的所有最优参数化。标准化度量可以是例如分类准确度或运行时间（英语：runtime）或标准化成本函数（英语：loss function，损失函数）。

然后创建矩阵，其中所述矩阵包含针对每个参数化和每个训练数据集的经过评估的标准化度量作为条目。

然后确定每个训练数据集的元特征（英语：meta-features），其中所述元特征至少表征训练数据集的以下特性：图像分辨率、类别数量、训练数据点/测试数据点的数量、视频帧的数量。需要注意的是，对于图像，可以将元特征“视频帧的数量”设置为值1。

最后优化决策树，所述决策树根据所述元特征和所述矩阵输出借助于BOHB的最优参数化中的哪个是适合于给定元特征的参数化。所述决策树被优化为，或者所述决策树的参数被设置为，使得所述决策树基于所提供的元特征和所述矩阵来确定借助于BOHB确定的参数化中的哪个是适合于当前元特征的参数化。需要注意的是，所述决策树是选择模型。

发明人已经发现元学习和超参数优化的组合导致高度独立于域的学习。此外，该方法能够处理高于平均数量的元训练数据集，并能够以很少的耗费（通过决策树）从中提取适合于给定元特征的参数化。所述决策树的优点是所述决策树很快，并且需要的数据少。因此，元学习器相对较小，可以在几秒钟内既训练又运行。

然后可以初始化适合于创建所述机器学习系统的系统。该系统于是包括所述决策树，然后该系统根据决策树的输出来初始化机器学习系统以及用于教导所述机器学习系统的优化算法。然后，该系统还可以使用该优化算法来教导所述机器学习系统。

建议借助于AutoFolio来优化所述决策树的参数。AutoFolio是一种训练选择模型的算法，所述选择模型选择适合的优化算法及其最优配置，并且由作者M. Lindauer、H.Hoos、F. Hutter和T. Schaub在他们的出版物AutoFolio: An Automatically ConfiguredSelector，Journal of Artificial Intelligence 53(2015)：745-778中描述，该出版物可在线获取：http://ml.informatik.uni-freiburg.de/papers/17-IJCAI-AutoFolio.pdf。因为已经发现，借助于AutoFolio可以为用于基于计算机的视觉的机器学习系统特别有效地和有作用地应用决策树。

此外，建议在多个训练数据集上并且特别是针对所有最优超参数化确定标准化度量的平均值，其中选择借助于BOHB确定的超参数的参数化中的以下参数化，该参数化的标准化度量最接近于所述平均值，其中将该配置针对所有训练数据集的经过评估的标准化度量添加到矩阵中。附加地或替代地，可以选择借助于BOHB确定的超参数的参数化中的以下参数化，该参数化针对所述标准化度量，对于所有训练数据集平均而言具有最高的与标准化度量的平均值相比的标准化度量改进。

该过程的优点是添加了鲁棒的参数化，其虽然在经过评估的标准化度量方面预计不会有特别出色的性能，但仍然在所有元训练数据集上实现了良好的性能。因此向所述决策树提供一种参数化，如果其他最优参数化都不适合的话。

还建议借助于贪婪算法从多个元特征中确定元特征子集。选择适合的元特征子集的优点是去除了冗余的或甚至负面影响的元特征，由此所述选择模型更加可靠。在此可以迭代地检查每次使用所选择的元特征子集是否使模型的决策恶化。

还建议在创建了所述选择模型之后提供另外的训练数据集。这优选地是未用于创建所述选择模型的未知训练数据集，也就是未包含在元训练数据集中。然后为所述另外的训练数据集确定元特征，然后使用所述选择模型根据所述元特征和所述矩阵来确定适合的参数化。然后基于该适合的参数化，可以创建机器学习系统并基于所述另外的训练数据集来教导该机器学习系统，例如借助于上述系统。

此外建议，基于超参数的第一参数创建所述机器学习系统，并且基于超参数的第二参数选择用于所述机器学习系统的优化算法，并与选择的配置对应地参数化该优化算法。

替代地，可以借助于决策树再次使用超参数优化器（优选BOHB）优化输出的适合的参数化，然后才利用该参数化对应地参数化所述机器学习系统和/或所述优化算法。

替代地，也可以从配置集中随机抽取配置，或者始终使用另外的参数化，所述另外的参数化针对所有训练数据集平均地实现了最高的与标准化度量的平均值相比的标准化度量改进。

应该注意的是，适合的参数化并非必须使用所有超参数。因为超参数可能部分地相互依赖，例如，并非每种类型的机器学习系统都需要权重衰减（英语：weight decay）。

在另外的方面，本发明涉及一种计算机程序，其被设置为执行上述方法，并且本发明还涉及一种机器可读存储介质，其上存储有所述计算机程序。

附图说明

下面参照附图更详细地解释本发明的实施方式。附图中：

图1示意性地示出了本发明的实施例的工作流；

图2示意性地示出了本发明的实施方式的流程图；

图3示意性地示出了用于控制至少部分自主的机器人的实施例；

图4示意性地示出了用于控制制造系统的实施例；

图5示意性地示出了用于控制访问系统的实施例；

图6示意性地示出了用于控制监视系统的实施例；

图7示意性地示出了用于控制个人助理的实施例；

图8示意性地示出了用于控制医学成像系统的实施例；

图9示出了第一训练设备141的可能结构。

具体实施方式

图1示意性地示出了本发明的实施方式的工作流。首先提供不同的（元）训练数据集10。然后借助于超参数优化器11为每个不同的训练数据集10优化一组超参数，超参数优化器11优选地是BOHB。然后将最优超参数12应用于所有训练数据集10并借助于标准化度量评估最优超参数12。然后将每个最优超参数12和每个训练数据集10的标准化度量值录入矩阵13。

对于每个训练数据集10提取一组元特征14，这些元特征优选地明确表征相应的训练数据集10。然后将元特征14和矩阵13提供给元学习器（AutoFolio）15。该元学习器15然后创建决策树，该决策树被设置为根据元特征14和矩阵13选择16那些最适合当前元特征14的优化的超参数12。

图2示意性地示出了根据本发明的方法的实施方式的流程图20。

该方法开始于步骤S21。这里，借助于BOHB 11分别为多个不同的训练数据集10确定最优超参数12。

然后在随后的步骤S22中，将所确定的最优超参数12应用于所有使用的训练数据集10。然后借助于标准化度量对最优超参数进行评估。

然后在步骤S23中将借助于标准化度量的评估录入到矩阵13中。因此，矩阵13针对每个数据集10和最优超参数12包含以下条目，该条目对应于相应数据集和相应最优超参数的经过评估的标准化度量值。

然后在随后的步骤S24中，为训练数据集确定元特征14。然后元特征14和矩阵13由元学习器15（优选AutoFolio）使用，以由此训练决策树，然后该决策树能够根据元特征14和矩阵13从最优超参数12中选择合适的超参数16，所述最优超参数例如是借助于BOHB确定的。

在完全训练了决策树之后，接下来是步骤S25。在此，对于新的、迄今为止未见过的训练数据集，确定其元特征14，然后将这些元特征添加到决策树中。然后，所述决策树基于这些输送的元特征14决定最优超参数12中的哪些最适合该未见过的训练数据集。然后可以根据所选择的超参数借助于所述决策树来初始化机器学习系统，并且附加地同样可以根据所选择的超参数来初始化优化算法。然后所述优化算法可以基于所述未见过的训练数据来教导经过初始化的机器学习系统。

所述训练数据优选地是相机的记录，其中所述机器学习系统被教导用于对象分类或对象探测或语义分割。

图3示出了在其环境中与控制系统40交互的致动器10。以优选规则的时间间隔在传感器30中，特别是在诸如视频传感器的成像传感器中检测环境，传感器30也可以通过多个传感器给定，例如立体摄像机。还可以想到其他成像传感器，例如雷达、超声或激光雷达。也可以想到热成像相机。将传感器30的传感器信号S——或者在多个传感器的情况下每个传感器信号S——传送到控制系统40。控制系统40因此接收传感器信号S的序列。控制系统40从中确定操控信号A，将该操控信号A传输到致动器10。

控制系统40在可选的接收单元中接收传感器30的传感器信号S序列，该接收单元将传感器信号S序列转换为输入图像x序列（替代地，也可以将传感器信号S直接作为输入图像x）。例如，输入图像x可以是传感器信号S的片段或进一步处理。输入图像x包括视频记录的各个帧。换句话说，根据传感器信号S来确定输入图像x。将输入图像x序列输送到来自步骤S25的机器学习系统，在本实施例中是人工神经网络60。

人工神经网络60优选地通过参数

来予以参数化，参数

存储在参数存储器P中并且由该参数存储器提供。

人工神经网络60从输入图像x中确定输出变量y。这些输出变量y可以特别是包括输入图像x的分类和语义分割。将输出变量y输送到可选的整形单元80，该整形单元从中确定将输送到致动器10以对应地操控致动器10的操控信号A。输出变量y包括关于传感器30已检测到的对象的信息。

致动器10接收操控信号A，被对应地控制并执行对应的动作。致动器10在此可以包括（不一定在结构上集成的）操控逻辑，所述操控逻辑从操控信号A中确定第二操控信号，然后用该第二操控信号来操控致动器10。

在其他实施方式中，控制系统40包括传感器30。在另外的实施方式中，控制系统40替代地或附加地还包括致动器10。

在其他优选实施方式中，控制系统40包括一个或多个处理器45和至少一个机器可读存储介质46，在所述机器可读存储介质上存储有指令，当指令在处理器45上执行时，所述指令促使控制系统40执行根据本发明的方法。

在替代实施方式中，替代或附加于致动器10地设置显示单元。

图2示出了控制系统40可以如何用于控制至少部分自主的机器人，这里是至少部分自主的机动车辆100。

传感器30可以是例如优选地布置在机动车辆100中的视频传感器。

人工神经网络60被设置为从输入图像x中可靠地标识对象。

优选地布置在机动车辆100中的致动器10可以是例如机动车辆100的制动器、驱动器或转向系统。于是操控信号A可以被确定为，使得以这样的方式操控一个或多个致动器10，即，机动车辆100例如防止与由人工神经网络60可靠标识的对象碰撞，特别是当所述对象是特定类别的对象，例如行人时。

替代地，至少部分自主的机器人还可以是另外的移动机器人（未示出），例如是通过飞行、游泳、潜水或步行来移动的机器人。所述移动机器人还可以是例如至少部分自主的割草机或至少部分自主的清洁机器人。在这些情况下，操控信号A也可以被确定为，使得以这样的方式操控移动机器人的驱动器和/或转向系统，即，至少部分自主的机器人例如防止与由人工神经网络60标识的对象碰撞。

替代地或附加地，可以用操控信号A来操控所述显示单元并且例如可以显示所确定的安全区域。例如，在机动车辆100具有非自动转向系统的情况下，也可以用操控信号A操控显示单元10a，使得如果确定机动车辆100即将与可靠标识的对象之一碰撞，则显示单元10a输出光学或声学的警告信号。

图4示出了一种实施例，其中控制系统40用于操控制造系统200的制造机器11，其方式是操控控制该制造机器11的致动器10。制造机器11可以是例如用于冲压、锯切、钻孔和/或切割的机器。

于是传感器30可以是例如光学传感器，其例如检测制造产品12a、12b的特性。可能的是，这些制造产品12a、12b是可移动的。可以根据所检测的制造产品12a、12b的分配来操控控制制造机器11的致动器10，从而制造机器11对应地执行制造产品12a、12b中的正确制造产品的后续加工步骤。还可能的是，通过标识制造产品12a、12b中相同制造产品的正确特性（即，没有错配），制造机器11对应地适配相同的制造步骤以加工后续的制造产品。

图5示出了一种实施例，其中控制系统40用于控制访问系统300。访问系统300可以包括物理访问控制，例如门401。视频传感器30被设置为检测人员。可以借助于对象标识系统60来解释所检测的图像。如果同时检测多个人员，则可以通过将这些人员（即对象）彼此关联来例如特别可靠地确定人员的身份，例如通过分析人员的运动。致动器10可以是锁，其根据操控信号A来解除访问控制或不解除访问控制，例如打开门401或不打开门401。为此，可以根据对象标识系统60的解释来选择操控信号A，例如根据所确定的人员身份。代替物理访问控制，也可以设置逻辑访问控制。

图6示出了一种实施例，其中控制系统40用于控制监视系统400。该实施例与图5所示的实施例的不同之处在于，代替致动器10设置了由控制系统40操控的显示单元10a。例如，人工神经网络60可以可靠地确定由视频传感器30记录的对象的身份以根据该身份例如推断哪些对象是可疑的，然后可以选择操控信号A，使得该对象由显示单元10a彩色地突出显示。

图7示出了一种实施例，其中控制系统40用于控制个人助理250。传感器30优选地是接收用户249的手势图像的光学传感器。

根据传感器30的信号，控制系统40确定个人助理250的操控信号A，其方式是例如由神经网络执行手势识别。然后将所确定的操控信号A传送到个人助理250并且因此对应地操控该个人助理。所确定的操控信号A可以特别是被选择为，使得它对应于由用户249进行的猜测的期望操控。可以根据由人工神经网络60识别的手势来确定所述猜测的期望操控。控制系统40然后可以根据所述猜测的期望操控来选择操控信号A以传送到个人助理250，和/或与所述猜测的期望操控对应地选择操控信号A以传送到个人助理250。

对应的操控例如可以包括：个人助理250从数据库中检索信息并以用户249可以阅读的方式再现所述信息。

代替个人助理250，也可以设置家用电器（未示出），特别是洗衣机、电炉、烤箱、微波炉或洗碗机，以对应地加以操控。

图8示出了一种实施例，其中控制系统40用于控制医学成像系统500，例如MRT设备、X射线设备或超声设备。传感器30可以例如由成像传感器给定，由控制系统40来操控显示单元10a。例如，神经网络60可以确定由所述成像传感器记录的区域是否显眼，然后可以选择操控信号A，使得该区域由显示单元10a彩色地突出显示。

图9示出了用于训练步骤S25之后的神经网络60或步骤S23之后的决策树的训练设备141的可能结构。用参数存储器P提供的参数θ来参数化该训练设备。

训练设备141包括提供器71，提供器71从训练数据集中提供输入图像e。将输入图像e输送到待训练的机器学习系统或决策树61，其由此确定输出变量a。将输出变量a和输入图像e输送到评估器74，评估器74由此通过如在对应的步骤S25/S23中所述的优化方法确定新参数θ'，该新参数被传送到参数存储器P并在那里代替参数θ。

由训练系统141执行的方法可以实现为计算机程序地存储在机器可读存储介质147上并由处理器148执行。

术语“计算机”包括用于处理可预给定计算规则的任何设备。这些计算规则能够以软件形式或硬件形式或软件和硬件的混合形式存在。

Claims

1.一种用于创建系统的计算机实现的方法，所述系统适合于为基于计算机的视觉（英语：Computer Vision）自动创建机器学习系统，所述方法包括以下步骤：

提供预给定的超参数，其中所述超参数包括表征使用哪种优化方法的至少一个第一参数以及表征所述机器学习系统是哪种类型的第二参数；

借助于BOHB（贝叶斯优化（BO）和超频带（HB）的缩写）（11）为用于基于计算机的视觉的多个不同训练数据集（10）的每个训练数据集确定所述超参数的最优参数化；

借助于标准化度量评估针对所述多个不同训练数据集的所有训练数据集的所有最优参数化；

创建矩阵（13），其中所述矩阵（13）具有针对每个参数化和每个训练数据集的经过评估的标准化度量；

确定每个训练数据集的元特征（英语：meta-features）（14），其中所述元特征（14）表征所述训练数据集的至少一个以下特性：图像分辨率、类别数量、训练数据点/测试数据点的数量以及视频帧的数量；

初始化包括决策树的系统；以及

根据所述元特征（10）和所述矩阵（13）优化所述决策树，使得所述决策树输出借助于BOHB确定的最优参数化中的哪个是适合于给定元特征的参数化（16）。

2.根据权利要求1的方法，其中借助于AutoFolio（15）来优化所述决策树的参数。

3.根据权利要求1或2所述的方法，其中在所述多个训练数据集上确定所述标准化度量的平均值，其中选择借助于BOHB（11）确定的超参数的参数化中的以下参数化，该参数化的标准化度量最接近于所述平均值，其中将该参数化针对所有训练数据集的经过评估的标准化度量添加到矩阵（13）中。

4.根据前述权利要求中任一项所述的方法，其中在所述多个训练数据集上确定所述标准化度量的平均值，其中选择借助于BOHB（11）确定的超参数的参数化中的以下参数化，该参数化针对所述标准化度量，对于所有训练数据集（10）平均而言具有最高的与所述标准化度量的平均值相比的标准化度量改进，其中将该配置针对所有训练数据集的经过评估的标准化度量添加到所述矩阵（13）中。

5.根据前述权利要求中任一项所述的方法，其中借助于贪婪算法从所述多个元特征（14）中确定元特征子集，并且所述决策树根据所述元特征子集和所述矩阵（13）确定适合的参数化。

6.根据前述权利要求中任一项所述的方法，其中提供另外的训练数据集，其中为所述另外的训练数据集确定元特征（14），然后使用所述决策树根据所述元特征（14）和所述矩阵（13）来确定适合的参数化，其中基于所述适合的参数化创建机器学习系统并基于所述另外的训练数据集来教导所述机器学习系统。

7.根据权利要求6所述的方法，其中基于所述第一参数创建所述机器学习系统，并且基于所述第二参数选择用于所述机器学习系统的优化算法，并与选择的配置对应地参数化所述优化算法。

8.根据权利要求7所述的方法，其中所述超参数还包括表征以下参数，所述参数表征批量大小（英语：batch size）、待用于训练的数据点数量、学习率、应当用于评估所述机器学习系统的性能的数据点数量、所述机器学习系统的在教导所述机器学习系统过程中保持不变的参数的比值和/或权重衰减（英语：weight decay）。

9.一种计算机程序，其被设置为执行根据权利要求1至8中任一项所述的方法。

10.一种机器可读存储介质，其上存储有根据权利要求9所述的计算机程序。

11.一种设备，其被设置为执行根据权利要求1至8中任一项所述的方法。