CN112016695A

CN112016695A - 用于预测学习曲线的方法、设备和计算机程序

Info

Publication number: CN112016695A
Application number: CN202010482101.2A
Authority: CN
Inventors: A.克莱因; F.胡特; M.加贾尼; S.法尔克纳
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-05-29
Filing date: 2020-05-28
Publication date: 2020-12-01
Also published as: DE102019207911A1

Abstract

用于预测学习曲线的方法、设备和计算机程序。本发明涉及一种用于预测迭代训练方法的学习曲线的方法（30）。该方法（30）包括获得所述训练方法的超参数θ和成本函数的至少一个在前的值的步骤和借助第二机器学习系统（12）根据所述超参数θ并且根据所述学习曲线的至少一个在前的值预测学习曲线的步骤。此外，本发明涉及用于实施该方法（30）的计算机程序和设备以及一种机器可读的存储元件，在所述存储元件上存储有该计算机程序。

Description

用于预测学习曲线的方法、设备和计算机程序

技术领域

本发明涉及一种用于在机器学习系统的迭代训练方法中预测学习曲线的方法。同样，本发明涉及一种设备和一种计算机程序，其分别被配置为实施所述方法。

背景技术

作者T. Elsken、J. Metzen和F. Hutter在其出版物“Neural architecturesearch: A survey.”（arXiv preprint arXiv:1808.05377 (2018)）中给出关于用于优化机器学习系统的架构的方法的概况。

作者A. Klein、S. Falkner、J. T. Springenberg和F. Hutter在其出版物“Learning curve prediction with Bayesian neural networks”（InternationalConference on Learning Representations (ICLR'17)）中公开了一种用于预测机器学习系统的学习曲线的方法。

机器学习系统的训练是非常计算密集的并且因此甚至在高性能计算机上也是极其耗时的。该问题在机器学习系统具有许多参数（例如<100到>1百万个参数）并且在训练时需要许多训练数据时尖锐化，因为这些参数和训练数据在训练时必须分别由机器学习系统来处理。训练方法的超参数可以通过尝试来适配，以便正面影响学习曲线。然而，尝试极其低效，因为为此必须每次执行所有计算，而不能预测：训练方法的被适配的超参数紧接着是否导致更好的学习曲线。

发明内容

本发明的目的是简化机器学习系统的训练过程，其方式是：有针对性地确定训练方法的超参数的合适值，使得总共需要更少的训练步骤，由此训练方法变得计算机资源更有效。

提出：成本低地预测学习曲线。根据该预测然后可以判定：利用训练方法的所选择的超参数的训练是否将是权宜的，即被保持，或该超参数是否应被改变。因此，学习方法的超参数然后可以在训练机器学习系统时选择性地被使用，以便更快并且因此更节约计算机资源地训练机器学习系统，而不需要使用、尤其测试超参数的不必要多的非权宜的值。

此外，本发明也允许找到训练方法的超参数，所述超参数实现在训练时更精确地找到成本函数的最佳并且因此实现机器学习系统的更高的性能。

在第一方面中，介绍根据独立权利要求1的用于预测第一机器学习系统的迭代训练方法的学习曲线的尤其计算机实施的方法。学习曲线是多个值的尤其顺序的时间序列，所述值分别对应于迭代训练方法的成本函数的值或所述值分别表征第一机器学习系统就训练数据而言的性能（英语：performance）。训练数据被理解为所有所提供的数据，所述数据分别包括由输入变量和相关联的输出变量构成的对并且被用于训练和评估第一机器学习系统。优选地，验证数据集被用于评估性能。

优选地，学习曲线的值分别与训练方法的迭代步骤相关联。学习曲线描述训练方法的变化过程或进展，即成本函数的值或性能沿着第一机器学习系统的训练的迭代步骤的时间发展。性能可以被理解为，应用于训练数据的第一机器学习系统在何种程度上已经履行其任务，根据所述性能，第一机器学习系统被训练解决该任务。性能例如是训练数据的分类精度，所述训练数据被用于训练第一机器学习系统。迭代训练方法被用于训练第一机器学习系统并且通过参数化来参数化。用于预测学习曲线的方法包括如下步骤：获得迭代训练方法和学习曲线的至少一个在前的值的参数化，所述值根据训练方法的至少一个在前实施的、优选地最新的迭代步骤被确定。即，学习曲线的在前的值基本上对应于该迭代步骤的成本函数的在前的值或表征在该迭代步骤被实施了之后的性能。于是接着借助第二机器学习系统根据参数化并且根据学习曲线的至少一个在前的值预测学习曲线的随后的值。即，学习曲线的随后的值基本上对应于成本函数的值，所述成本函数将在训练方法的随后的迭代步骤确定所述值或表征在随后的迭代步骤被实施了之后的性能。于是接着根据学习曲线的所预测的值判定：是否保持迭代训练方法的参数化。也可设想的是，多次重复该方法的步骤并且根据学习曲线的多个所预测的值判定：是否保持迭代训练方法的参数化。

该方法的优点是，该方法特别有效地并且可靠地预测学习曲线的变化过程。由于迭代训练方法的参数化影响学习曲线并且因此影响第一机器学习系统的训练的成功，所以借助该方法可以预测：参数化将是如何有成功希望的。参数化可以被理解为一个或多个超参数。超参数是如下参数，该参数的值在学习方法开始时被选择并且直至迭代训练方法结束保持不变。

应注意的是，在训练方法的每个迭代步骤可以分析成本函数并且根据成本函数适配第一机器学习系统的参数化。第一机器学习系统的参数化可以包括多于100个的参数或多于1百万个的参数。

迭代训练方法被理解为如下（训练）方法，即第一机器学习系统的参数化适配，使得成本函数在可预先给定的标准方面变为最优。第一机器学习系统的参数化的适配在此情况下迭代地进行。替代地，第一机器学习系统的参数化根据成本函数被适配并且成本函数然后根据被适配的参数化来确定。即，参数化被适配，紧接着成本函数被更新并且该参数化根据更新过的成本函数重新被适配。这可以多次连续地被实施，直至达到可预先给定的中止标准。例如，迭代训练方法可以是梯度下降方法、诸如Adam。第一机器学习系统可以是任何类型的能够学习的系统、诸如神经网络或高斯过程或支持向量机等等。第一机器学习系统可以被用于分类或分割图像、视频序列和/或音频信号。此外应注意的是，机器学习系统也可以被用于其他任务、诸如回归。

成本函数可以是在第一机器学习系统的至少一个根据训练输入变量所确定的输出变量和与训练输入变量相关联的训练输出变量之间的差或偏差。成本函数例如可以是交叉熵等等。

提出：第二机器学习系统是随机森林。随机森林根据学习曲线的多个在前的值预测学习曲线的随后的值。随机森林的每个决策树（英语tree）输出至少一个第一变量和第二变量。学习曲线的随后的值的预测根据关于第一变量的平均值并且根据关于第二变量的平均值来确定。

第一和第二变量的平均值可以被用于参数化概率分布、优选地高斯分布，其中学习曲线的所预测的值然后随机地从所述概率分布中得出。

随机森林是回归/分类方法，其由多个不相关的决策树构成。所有决策树在学习过程期间被创建。为了分类，该“森林”中的每个树可以做出判定。最终的分类然后根据所述树的所有判定做出。随机森林的第一变量和第二变量优选地表征概率分布、例如高斯分布的第一和第二矩（Moment）。随机森林的优点在于，这种类型的机器学习系统利用少量训练数据就能胜任并且因此可以有效地被创建和运行。

此外提出：第二机器学习系统是贝叶斯递归神经网络，也以英语名称“Variational Recurrent Neural Network（VRNN（变分递归神经网络））”而已知。此外提出：贝叶斯递归神经网络包括多个LongShortTermMemory（长短期存储器）模块（LSTM），所述长短期存储器模块根据预先给定的顺序彼此连接。

递归神经网络的优点在于，所述递归神经网络在运行时仅仅需要学习曲线的在前的值并且根据学习曲线的内部短/长时记忆可以回忆起学习曲线的从在前的计算获得的值。因此，递归神经网络在运行中利用少量数据就足以能够做出特别可靠的预测。贝叶斯递归神经网络的优点是，该贝叶斯递归神经网络可以做出关于预测的可靠性的陈述。

此外提出：参数化分别借助多个全连接神经网络（英语：fully connected neuralnetworks）处理并且分别将处理过的参数化附加地作为输入变量分别提供给LSTM之一。附加地，处理过的参数化可以根据尤其从伯努利分布中随机得出的变量被加权。这允许对训练方法的参数化的加权，由此参数化按照其可靠性被输送给LSTM。全连接神经网络的另一优点在于其可区分性，该可区分性使新参数化的优化变得容易。此外，（全连接）神经网络可以利用多得多的数据来训练，这改善预测。

此外提出：在开始迭代训练方法之前初始化贝叶斯递归神经网络的多个LSTM和学习曲线。在初始化学习曲线时将第一值设置为等于零。第一值不一定必须为零，任意值是可设想的，只要在实施该方法时使用相同的值。

第二机器学习系统根据参数化和学习曲线的被设置为零的值预测学习曲线的随后的值，尤其不必实施训练方法的迭代步骤。应注意的是，学习曲线的随后的值对应于学习曲线的如下值并且被预期，即所述值将在实施了训练方法的第一迭代步骤之后存在。优点在于，迭代训练方法不必被实施，然而可以执行学习曲线的预测。这允许特别有效的训练方法，该训练方法利用训练方法的最小数量的迭代步骤就足够了。初始化贝叶斯递归神经网络可以被理解为递归神经网络的所有内部状态被设置为预先给定的值，例如被设置为零值。

此外提出：如果第二机器学习系统已经预测了学习曲线的随后的值，则第二机器学习系统获得学习曲线的所预测的值作为学习曲线的在前的值，并且该步骤多次被重复，直至预测了学习曲线的数量可预先给定的多个值。在这点上有利的是，因此可以预测训练方法、尤其学习曲线的收敛性。

此外提出：根据学习曲线的预测执行、尤其继续用于训练第一机器学习系统的迭代训练方法。也可设想的是，根据学习曲线的预测，训练方法利用另一参数化来参数化并且优选地然后利用另一参数化训练第一机器学习系统，或针对另一参数化预测学习曲线。如果例如学习曲线未达到可预先给定的阈值，则可以丢弃该参数化并且选择新参数化。如果所预测的学习曲线超过可预先给定的阈值，则迭代训练方法根据该参数化来参数化并且于是利用被参数化的训练方法来训练第一机器学习系统。

此外提出：该方法的步骤分别针对多个不同的参数化被执行，并且用于训练第一机器学习系统的训练方法根据预测来参数化。该操作（Vorgehen）允许试探迭代训练方法的最优参数化。

此外提出：第二机器学习系统根据多个训练数据来训练并且训练数据包括多个训练学习曲线和与每个训练学习曲线相关联的参数化。训练学习曲线可以是不同长度的。

应注意的是，训练数据优选地来自在前的训练方法连带类似的学习方法和/或成本函数。不同长度表示：训练学习曲线包括不同多的值。可设想的是，与第一机器学习系统的训练并行地训练第二机器学习系统。这具有如下优点：第一机器学习系统的已经产生的学习曲线可以作为训练数据被用于训练第二机器学习系统。

此外提出：训练数据具有如下数据，所述数据在训练机器学习系统时针对不同的任务或应用被检测到。

优选地，替代地或附加地训练数据的元数据被用于训练方法的参数化。优点在此情况下是，这实现越过不同的训练数据的直接学习。元数据例如可以是表征训练数据的自变量（旋转/平移等等）的变量。替代地，代替元数据可以学习本征向量，所述本征向量表征第一机器学习系统在训练之后应解决的任务。提出：该向量然后可以基于学习曲线的少量所观测的数据点在新数据集上被估计。为此尤其可以利用“变分推断（VariationalInference）”（例如马尔可夫链蒙特卡尔方法（简称MCMC）或随机变分推断（简称SVI））领域中的方法。

第一方面的发明也可以被用于“基于bandit的超参数优化器”、诸如BOHB，以便有意义地初始化这些基于bandit的超参数优化器。

由于第一方面的发明根据其优点（如学习曲线的可靠的特别成本低的预测和预测的概率可靠性的输出），所以本发明也可以应用在“开发探索范式（exploitation-exploration paradigm）”场景中、例如在强化学习应用中。在此情况下例如学习曲线的值可以是奖赏。这具有如下优点：在要费事地观测或测量的奖赏的情况下可以借助第二机器学习系统简单地预测这些奖赏。

在本发明的第二方面中，在使用本发明的第一方面的情况下训练第一机器学习系统。于是可以将第一机器学习系统用于控制技术系统。技术系统例如可以是至少部分自主的机器、至少部分自主的车辆、机器人、工具、工厂机器或飞行物、如无人机。第一机器学习系统的输入变量可以是借助传感器所检测的变量。根据机器学习系统的输出变量可以确定控制变量。

控制变量可以被用于控制技术系统的执行器。

在另一方面中提出一种计算机程序。该计算机程序被配置为实施在前的所提到的方法之一。该计算机程序包括指令，当该计算机程序在计算机上运行时所述指令促使计算机实施具有所有其步骤的所提到的方法之一。此外提出一种机器可读的存储模块，在该存储模块上存储有该计算机程序。此外，提出一种设备，该设备被配置为实施所述方法之一。

附图说明

上面所提到的方面的实施例在附图中示出并且在随后的描述中予以更详细解释。在此：

图1示出第一机器学习系统和第二机器学习系统的示意图；

图2示出第二机器学习系统的架构的示意图；

图3示出用于预测学习曲线的方法的一种实施方式的流程图的示意图；

图4示出可以被用于训练第一机器学习系统或第二机器学习系统的设备的一种实施方式的示意图。

具体实施方式

图1示意性地示出借助设备（11）训练的第一机器学习系统（10）。该设备（11）获得训练输入变量，所述训练输入变量借助第一机器学习系统（10）被处理成输出变量。训练输入变量可以如示例性地在图1中所示出的那样是图像。但是也可设想其他信号、如音频信号。在确定了第一机器学习系统（10）的输出变量之后，借助成本函数（英语loss function（损失函数））根据所确定的输出变量和针对训练输入变量所提供的训练输出变量确定所确定的输出变量和训练输出变量之间的差。成本函数然后输出值

。如果第一机器学习系统（10）是深度神经网络，则成本函数例如可以是平方误差。

该值

于是可以被用于借助迭代训练方法适配第一机器学习系统（10）的参数化，使得优化、例如最小化成本函数。

迭代训练方法可以多次连续地被实施。在此，在每个迭代步骤中在图表中可以分别记录成本函数的值，以便描绘训练方法的变化过程。附图标记13a示例性地示出第一机器学习系统（10）的学习曲线（13）的图表。在x轴上绘出在时间点（t）的各个迭代步骤并且在y轴上绘出成本函数的值。该图表示例性地示出：成本函数的值沿着训练方法的迭代步骤的情况如何。

替代地，值

也可以表征第一机器学习系统（10）就训练数据而言（auf denTrainingsdaten）的性能（英语performance），例如图像的分类精度。于是可设想的是，在图表的y轴上绘出分类精度并且学习曲线（13）示出在训练第一机器学习系统（10）时分类精度的收敛性。

由于例如通过学习速率、梯度步长等，迭代训练方法可参数化，所以可以根据该参数化θ影响学习曲线（13）的收敛特性。由于不可能以分析方式确定最优的参数化θ，所述参数化通常通过手动尝试来确定。这是不利的，因为为此必须尝试不同的参数化θ，其中大多数参数化被丢弃，因为这些参数化并不适合于实现第一机器学习系统的高性能。也成问题的是，当参数化空间是多维的时通过手动尝试究竟是否能够找到近似最优的参数化θ。

因此提出使用第二机器学习系统（12），所述第二机器学习系统作为输入变量获得训练方法的参数化θ和学习曲线的至少一个值

。值

可以已经在训练方法的在前的迭代步骤（t-1）被确定并且表征第一机器学习系统（10）的性能或是成本函数的值。第二机器学习系统（12）被训练，使得该第二机器学习系统根据其输入变量预测学习曲线（13）的随后的值

，所述随后的值将在训练方法的随后的所执行的迭代步骤（t）之后被确定。这允许第一估计：根据训练方法的所选择的参数化是否能够获得第一机器学习系统（10）的有意义的训练。

在下文中将学习曲线（13）视为成本函数的和/或性能的值的顺序的时间序列并且基于在在前的迭代/时间步骤

的在前的所观测的值

预测学习曲线的值

。

学习曲线（13）的所预测的值

在假定有噪声地观测到值

的情况下可以如下确定：

在此Ψ对应于高斯分布并且

以及D描述训练数据，所述训练数据总共包括N个具有不同长度的不同训练学习曲线连同相应的相关联的参数化θ。

第二机器学习系统（12）在第一实施方式中可以被实施为具有i个决策树的随机森林。随机森林针对每个

确定高斯分布

，其中

并且

对应于决策树的各个预测，并且其中

，尤其在使用总方差定律（英语law of total variance）的情况下被计算。

在第一实施方式中，随机森林获得至今还未被观测的学习曲线的学习曲线（13）的总共K个相继确定的值

。随机森林然后基于这些总共K个值预测学习曲线（13）的进一步的变化过程

。学习曲线（13）的进一步的变化过程的K个值的预测在下文中应被称为推出（Rollout）。

对于唯一的推出，预测值

从所确定的高斯分布Ψ中得出并且被添加到学习曲线的所确定的值或代替学习曲线的所确定的值之一。该操作可以多次被重复，直至实现了具有可预先给定的长度的序列。

在第一实施方式的改进方案中，可以针对学习曲线的总共K个相继确定的值

实施多次推出。于是可以对所有推出取平均值，例如：

和

，以便获得更可靠的预测。

在第二机器学习系统（12）的第二实施方式中，该第二机器学习系统通过贝叶斯递归神经网络（20）给定。贝叶斯递归神经网络（20）的结构示例性地在图2中示出。贝叶斯递归神经网络（20）获得学习曲线（13）的在前的所确定的值

作为输入变量并且借助串联的LSTM层（22，英语LSTM layer）处理所述值。在根据图2的实施方式中，贝叶斯递归神经网络（20）包括两个LSTM（r1,r2）。附加地，贝叶斯递归神经网络（20）在其输出端与全连接神经网络（23，英语fully connected neural network）连接，所述全连接神经网络输出学习曲线（13）的值

作为输出变量。

附加地，贝叶斯递归神经网络（20）可以包括至少一个另外的全连接神经网络（21），所述至少一个另外的全连接神经网络将参数化θ处理成

并且附加地作为输入变量提供给LSTM之一。在图2中，贝叶斯递归神经网络（20）包括多个另外的全连接神经网络（21）。

附加地，被处理成

的参数化θ借助另外的全连接神经网络（21）根据变量z被加权，在图2中通过

示出。变量z可以随机地从伯努利分布B(d)中得出。应注意的是，伯努利分布B(d)的参数化d在训练贝叶斯递归神经网络（20）时可以被优化。

同样，如已经在第一实施方式中所解释的那样，这里可以执行推出。根据在前的值

，可以借助贝叶斯递归神经网络（20）根据已经预测的值

预测随后的值

等等。

图3示意性地示出用于预测学习曲线（13）的方法（30）的流程图。

该方法（30）以步骤3000开始。在该步骤中，训练第二机器学习系统（12）。为此，训练数据D被提供并且于是被用于通过训练使第二机器学习系统（12）参数化，使得所述第二机器学习系统可以尤其从训练数据中预测学习曲线（13）的值y。

在第二机器学习系统（12）被训练了之后，接着步骤3100。在该步骤中，初始化第二机器学习系统。如果第二机器学习系统例如是贝叶斯递归神经网络（20），则LSTM（r1,r2）的内部状态例如可以以零值来初始化。

在随后的步骤3200中，选择训练方法的参数化θ并且借助该训练方法来训练第一机器学习系统（10）。根据成本函数的值

，然后可以借助第二机器学习系统（12）预测成本函数的值

（如在图2中所示出的）。替代地，值y可以表征第一机器学习系统（10）的性能。

替代地，在步骤3200中可以将成本函数的第一值

初始地设置为值0。可设想的是，到那时候第一机器学习系统（10）还未被训练。

在随后的步骤3300中，值

或第一值

由第二机器学习系统（12）处理。第二机器学习系统（12）然后输出值

。

可选地，实施随后的步骤3400。在此，根据来自步骤3300的成本函数的在前的值

预测成本函数的另一值

。该步骤3400可以多次连续地被实施，直至确定了成本函数的预测值的序列

。

在接着的步骤3500中，根据在步骤3400之后的所述预测值或根据在步骤3300之后的该预测值来判定，参数化θ是否进一步被用于训练第一机器学习系统（10），或是否应选择另一参数化

。例如，另一参数化

可以随机地从可预先给定的值域中得出。然后可设想的是，以新选择的参数化

重新实施步骤3200，以便检查：新选择的参数化

是否更合适。

在步骤3500结束了之后，接着步骤3600。在该步骤中，训练方法以参数化θ初始化并且第一机器学习系统（10）根据被初始化的训练方法来训练。

在步骤3600结束了之后，可以接着步骤3700。在该步骤中，被训练的第一机器学习系统（10）被用于技术系统、诸如至少部分自主的机器人。

在该方法（30）的一种替代的实施方式中，第二机器学习系统（12）可以被用于根据多个所提供的不同的参数化θ并且针对所述参数化中的每个参数化以成本函数的初始选择的等于零的值实施多次推出。根据预测最合适的学习曲线的推出，然后被用于此的参数化被选择并且于是被用于训练第一机器学习系统（10）。

至少部分自主的机器人可以通过至少部分自主的车辆给定。在另一实施例中，至少部分自主的机器人可以是服务机器人、装配机器人或固定生产机器人，替代地是自主的飞行物、如无人机。

至少部分自主的车辆可以包括检测单元。该检测单元例如可以是摄像机，该摄像机检测车辆的环境。该检测单元可以与第一机器学习系统（10）连接。第一机器学习系统（10）根据所提供的、例如由检测单元提供的输入变量并且根据第一机器学习系统的多个参数确定输出变量。所述输出变量可以被转发给控制单元。

该控制单元根据机器学习系统的输出变量控制执行器，优选地该控制单元控制该执行器，使得车辆实施无碰撞的机动动作。在第一实施例中，执行器可以是车辆的马达或制动系统。在另一实施例中，部分自主的机器人可以是工具、工厂机器或生产机器人。工件的材料可以借助第一机器学习系统来分类。执行器在此情况下例如可以是运行磨头的马达。

图4示出用于训练第一机器学习系统（10）、尤其用于在训练方法的参数化θ被初始化或适配了之后实施用于训练机器学习系统（12）的步骤的设备（11）的示意图。设备（40）包括训练模块（41），所述训练模块包含训练数据（图像和相关联的标签

）。根据目的，除了图像之外也可以使用声音序列、文本片段、雷达信号、激光雷达信号或超声信号，其分别被标记。根据第一机器学习系统（10）的所确定的输出信号y和标记

，差分模块（42）确定被转发给适配模块（43）的差。适配模块（43）根据该差确定第一机器学习系统（10）的参数

的变化

，所述参数被存放在存储器P中并且根据所述变化

来适配。

该设备可以包括计算单元（44）和存储元件（45）。

Claims

1.一种用于预测第一机器学习系统（10）的迭代训练方法的学习曲线（13）的方法（30），

其中所述学习曲线（13）包括多个值，尤其值的顺序的时间序列，

其中所述学习曲线（13）的值分别与所述迭代训练方法的迭代步骤相关联，并且所述学习曲线（13）的值分别对应于所述迭代训练方法的相应迭代步骤的成本函数的值或分别表征在实施所述迭代训练方法的相应迭代步骤之后所述第一机器学习系统（10）就训练数据而言的性能（英语performance），

其中所述迭代训练方法被用于训练所述第一机器学习系统（10）并且通过超参数θ来参数化，该方法包括如下步骤：

获得所述超参数θ的值和所述学习曲线（13）的至少一个值（

），所述值根据所述训练方法的至少一个在前实施的迭代步骤被确定；以及

借助第二机器学习系统（12）根据所述超参数θ的值并且根据所述学习曲线（13）的所述至少一个值（

）预测所述学习曲线（13）的尤其直接随后的值（

）；以及

根据所述学习曲线（13）的所预测的值（

）判定：是否保持所述迭代训练方法的超参数θ的值。

2.根据权利要求1所述的方法，其中所述第二机器学习系统（12）是随机森林，其中所述随机森林根据所述学习曲线（13）的多个值（

）预测所述学习曲线（13）的随后的值（

）。

3.根据权利要求1所述的方法，其中所述第二机器学习系统是贝叶斯递归神经网络（20）。

4.根据权利要求3所述的方法，其中所述贝叶斯递归神经网络（20）包括多个LSTM（22），所述LSTM根据预先给定的顺序彼此连接，

其中所述LSTM（22）分别根据输入变量确定其输出变量并且将其输出变量作为输入变量提供给其随后的LSTM，

其中所述多个LSTM中的第一LSTM的输入变量是所述学习曲线（13）的至少一个值。

5.根据权利要求4所述的方法，其中分别借助多个全连接神经网络（21，英语fullyconnected neural networks）处理所述超参数θ的值并且分别将所述超参数的经处理的值附加地作为输入变量分别提供给所述LSTM之一。

6.根据权利要求5所述的方法，其中所述超参数的经处理的值分别根据尤其从伯努利分布中随机得出的变量被加权。

7.根据权利要求3至6中任一项所述的方法，其中在使用所述迭代训练方法之前初始化所述贝叶斯递归神经网络（20）的多个LSTM（22），并且以可预先给定的、尤其等于零的第一值（

）初始化所述学习曲线（13），以及

其中所述第二机器学习系统（12）根据所述超参数（θ）的值并且根据所述学习曲线（13）的第一值（

）预测所述学习曲线（13）的其尤其随后的值。

8.根据上述权利要求中任一项所述的方法，其中如果所述第二机器学习系统（12）已经预测了所述学习曲线（13）的随后的值，则所述第二机器学习系统（12）获得所述学习曲线（13）的所预测的值作为所述学习曲线（13）的在前的值，以及

其中所述步骤被重复多次，直至预测了所述学习曲线（13）的数量可预先给定的多个值。

9.根据上述权利要求中任一项所述的方法，其中根据所述学习曲线（13）的预测执行、尤其继续用于训练所述第一机器学习系统的所述迭代训练方法。

10.根据权利要求9所述的方法，其中所述方法的步骤分别针对所述超参数的多个不同的值被执行，以及

其中用于训练所述第一机器学习系统的所述训练方法根据所述预测被参数化。

11.根据上述权利要求中任一项所述的方法，其中所述第二机器学习系统根据多个训练数据被训练，

其中所述训练数据包括另外的学习曲线的值的多个序列（

）并且针对每个序列包括所述超参数（

）的相关联的值，

其中所述另外的学习曲线在训练机器学习系统时针对不同的任务被检测到。

12.根据权利要求11所述的方法，其中所述训练数据包括所述第一机器学习系统（10）的训练的学习曲线（13）的值的序列。

13.一种计算机程序，所述计算机程序包括指令，所述指令在借助计算机实施所述指令时促使所述计算机实施根据上述权利要求中任一项所述的方法。

14.一种机器可读的存储介质（45），在所述存储介质上存储有根据权利要求13所述的计算机程序。

15.一种设备（44），所述设备被配置为实施根据上述权利要求1至12中任一项所述的方法。