CN113711241A

CN113711241A - 用标签受到噪声干扰的学习数据来训练可训练模块

Info

Publication number: CN113711241A
Application number: CN202080030999.8A
Authority: CN
Inventors: W·H·布鲁克; M·奥滕里特; J·M·科勒
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-04-26
Filing date: 2020-04-08
Publication date: 2021-11-26
Also published as: EP3959660A1; US20220147869A1; DE102019206047A1; WO2020216621A1

Abstract

用于训练可训练模块（1）的方法（100），具有如下步骤：•分别至少利用学习数据集（2）的子集对可训练模块（1）的多个修改过程（1a‑lc）进行预训练（110），所述修改过程（1a‑lc）彼此大大地不同到使得，所述修改过程（1a‑lc）在不断进行学习时不是全等地被转化成彼此；•至少一个学习数据集（2）的学习输入变量值（11a）作为输入变量（11）被输送（120）给所有修改过程（la‑lc）；•从输出变量值（13）彼此间的偏差中，确定针对输出变量值（13）的不确定性（13b）的度量，并且该度量作为针对学习数据集（2）的不确定性（2a）的度量被分配（130）给所述学习数据集（2），所述修改过程（la‑lc）将所述学习输入变量值（11a）分别转换成所述输出变量值（13）；•依据所述不确定性（2a），确定（140）所述学习数据集（2）的评价（2b），所述评价（2b）是针对如下内容的度量：学习数据集（2）中的学习输出变量值（13a）至学习输入变量值（11a）的分配正确到何种程度。方法（200），其中此外运行（220）可训练模块，并且可训练模块利用操控信号（5）对系统（50，60，70）进行操控。

Description

用标签受到噪声干扰的学习数据来训练可训练模块

技术领域

本发明涉及对可训练模块的训练，如这些可训练模块例如被用于在至少部分自动化驾驶时的分类任务和/或对象识别。

背景技术

在通常情况下，通过如下方式来训练由人类驾驶员在道路交通中驾驶车辆：迫使驾校学员在他的培训的范围内反复面对在各情形处的确定的教规（Kanon）。驾校学员必须对这些情形分别做出反应，并通过驾校教练的评论或者甚至干预得到如下反馈：他的反应曾是正确的还是错误的。利用有限数目的情形进行训练要使驾校学员能胜任，在独立驾驶车辆时也掌控不熟悉的情形。

为了让车辆完全或者部分自动化地参与道路交通，力求利用以完全相似的方式可训练的模块来控制所述车辆。例如，这些模块获得来自车辆周围环境的传感器数据作为输入变量，并且作为输出变量供应用来干预车辆运行的操控信号，和/或供应初级产品（Vorprodukt），从所述初级产品中形成这样的操控信号。例如，对在车辆的周围环境中的对象的分类可以是这样的初级产品。

对于训练，需要足够数量的学习数据集，所述学习数据集分别包括学习输入变量值和所属的学习输出变量值。例如，学习输入变量值可以包括图像，并且可以用在所述图像中包含哪些对象的信息作为学习输出变量值来贴标签。

发明内容

在本发明的范围中，已开发了一种用于训练可训练模块的方法。可训练模块将一个或者多个输入变量转换为一个或者多个输出变量。

可训练模块尤其是被认为是如下模块：该模块以强大的概括力体现了利用可适配的参数来参数化的函数。在对可训练模块进行训练时，参数尤其是可以被适配为使得，在将学习输入变量值输入到模块中时，所属的学习输出变量值被尽可能好地再现。可训练模块尤其是可以包含人工神经网络KNN，和/或可训练模块可以是KNN。

依据包含学习输入变量值和所属的学习输出变量值的学习数据集，进行训练。在此，至少学习输入变量值包括测量数据，所述测量数据已通过物理测量过程、和/或通过对这种测量过程的部分或者全部仿真、和/或通过对利用这种测量过程可观测的技术系统的部分或者全部仿真来获得。

在此，术语“学习数据集”并不标明所有可用的学习数据的整体，而是标明由一个或者多个学习输入变量值和恰好分配给这些学习输入变量值作为标签的学习输出变量值构成的组合。在针对分类和/或回归所采用的可训练模块中，学习数据集例如可以包括与Softmax分数（Score）相结合的图像，所述图像作为学习输入变量值的矩阵，所述Softmax分数作为学习输出变量值的向量，可训练模块在理想情况下要由此生成所述Softmax分数。

在本方法的范围内，分别至少利用学习数据集的子集对可训练模块的多个修改过程（Abwandlungen）进行预训练（vortrainiert）。在此，修改过程彼此大大地不同到使得，这些修改过程在不断进行学习时不是全等地被转化成彼此。例如，修改过程可以在结构上是不同的。例如，通过分别在“失落（Dropouts）”的范围内停用不同的神经元，可以产生KNN的多个修改过程。但是，例如通过利用总共现存的学习数据集的充分不同的子集进行预训练，和/或通过从充分不同的初始化出发进行预训练，也可以产生修改过程。

例如，这些修改过程可以相互独立地被预训练。可是，例如也可能，通过如下方式对预训练进行捆绑：仅训练可训练模块或者修改过程，并且在训练结束之后才从该模块或该修改过程产生其他修改过程。

在预训练之后，至少一个学习数据集的学习输入变量值作为输入变量被输送给所有修改过程。这些同样的学习输入变量值由不同的修改过程被转换为不同的输出变量值。从这些输出变量值彼此间的偏差中，确定针对这些输出变量值的不确定性的度量，并将针对这些输出变量值的不确定性的度量分配给学习数据集作为针对所述学习数据集的不确定性的度量。

在此，输出变量值例如可以是Softmax分数，所述Softmax分数说明，学习数据集以何种概率被分类到可能的等级中的哪个等级中。

任意统计函数都可被用于从大量输出变量值中确定不确定性。针对这种统计函数的实例是方差、标准偏差、平均值、中值、适当选择的分位数、熵和变异率（VariationRatio）。

只要已以不同的方式产生了可训练模块的修改过程，例如一方面通过“失落”而另一方面通过别的结构变化或者通过预训练的另外的初始化来产生，尤其是例如就可以彼此分开地比较在如下那些输出变量值之间的偏差：所述输出变量值由以不同的方式产生的修改过程来供应。亦即，例如可以彼此分开地观测在已由通过“失落”形成的修改过程供应的输出变量值之间的偏差和在已由以别的方式在结构上改变的修改过程供应的输出变量值之间的偏差。

在本上下文中，术语“偏差”和“不确定性”并不限于一维的单变量情况，而是包括任意维度的变量。亦即，例如可以组合多个不确定性特征，以便获得多变量的不确定性。这提高了在一方面为具有学习输出变量值至学习输入变量值的正确分配的学习数据集（也就是说“正确地贴标签的”学习数据集）与另一方面为具有不正确的分配的学习数据集（也就是说“不正确地贴标签的”学习数据集）之间的区分精度。

现在，依据不确定性来确定对学习数据集的评价，该评价是针对如下内容的度量：在学习数据集中，学习输出变量值到学习输入变量值的分配正确到何种程度。

已认识到，在将学习输出变量值正确地分配给学习输入变量值的情况下，可训练模块的不同修改过程有关于输出变量输出相一致的“意见”的趋势。蕴藏在正确的分配中的信息似乎在预训练中得以实现，并且如下地发生作用：修改过程之间的区别在不同的输出变量中很少或者甚至没有表现出来。分配越不正确，越多地缺乏恰好这种效应，并且输出变量值之间的偏差越大，这些输出变量值分别对于相同的学习输入变量值供应这些修改过程。

如果以这种方式分析所有学习数据集，那么典型地证实，针对数个学习数据集的分配比针对另外的学习数据集更高程度得为正确的。在这方面，主要反映了：分配（亦即贴标签）在可训练模块的大多数应用中由人进行，并且与此相应地是易出错的。例如，为每个学习数据集的高吞吐量起见，可能只为人提供非常短的时间，使得他在有疑问的情况下不能更精确地研究，而是必须作出某一个决定。例如，不同的工作人员也可能不同地解释如下标准：所述工作人员要按照所述标准来贴标签。例如，如果对象在图像中投下阴影，则工作人员可能将该阴影一同算作对象，因为的确由于对象的存在已造成了该阴影。而另外的工作人员可能以如下理由并不将该阴影算作对象：阴影不是人或者车辆可能与其相撞的东西。

所确定的评价的最终有用应用在于，可以选择性地采取措施，以便改进可训练模块的最终训练。例如，训练完成的模块那么可以以较高的精度进行测量数据的分类和/或回归，所述测量数据作为输入变量被递交给所述训练完成的模块。由此，在相应的技术应用中，如比方说在至少部分自动化驾驶中，基于给出的测量数据，以较高的概率作出对于相应情形适当的决定。

在特别有利的构建方案中，怀着改进成本函数的值的目的，优化表征可训练模块的特性的可适配的参数。在KNN中，这些参数包括例如权重，利用所述权重，输送给神经元的输入被结算，以激活该神经元。成本函数衡量，可训练模块将包含在学习数据集中的学习输入变量值映射到所属的学习输出变量值到何种程度。在对可训练模块进行常规训练时，所有学习数据集在这方面是平等的，也就是说成本函数衡量，学习输出变量值平均多好地被再现。所确定的评价如下地被引入到该过程中：对成本函数中的至少一个学习数据集进行加权与该学习数据集的评价有关。

例如，学习数据集的评价越差，可以越小地对该学习数据集进行加权。这可以进行直至如下点：响应于学习数据集的评价满足预先给定的标准，该学习数据集完全不属于成本函数，也就是说甚至不再用于可训练模块的进一步训练。其背后有如下认知插手：考虑其他学习数据集带来的附加好处，通过从训练过程中的不精确的或者错误的学习输出值得出的矛盾可以完全地或者部分地被补偿（或者甚至被过度补偿）。亦即，没有信息可以比错误的信息更好。

在其他特别有利的构建方案中，响应于学习数据集的评价满足预先给定的标准，可以请求更新至少一个包含在该学习数据集中的学习输出变量值。例如，该标准可以在于：学习数据集的评价落在预先给定的最低标准后面，和/或与另外的学习数据集相比是特别差的。例如，所请求的更新可以由人类专家刷新（eingepflegt），或者经由网络来检索。其背后有如下认知插手：许多在贴标签时出现的错误都是单个错误、如例如易失性错误。但是，例如在如下情形中也可能得出更新的必要性：在所述情形中，为了训练对确定的对象的可靠识别，直截了当地和简单地，没有足够的实例存在于学习数据集中。例如，确定的交通标志（如比方说标志129“堤坝”）比较少见地出现，并且在测试行驶时记录的图像上可能代表性不足（unterrepraesentiert）。那么，所请求的更新似乎恰好在该点给予可训练模块辅导。

在特别有利的构建方案中，依据大量的学习数据集来确定不确定性的分布。依据该分布，确定对具体的学习数据集的评价。在所述分布中，来自大量学习数据集的信息被聚集中，使得可以以更好的精度关于对具体的学习数据集的评价作出决定。

在特别有利的构建方案中，该分布被建模为多个经过参数化的贡献的叠加，所述贡献分别来源于具有相同的或者相似的评价的学习数据集。这些贡献的参数如下地被优化：所观测的不确定性分布与所述叠加的偏差被最小化。以这种途径，确定所述贡献。

在此，如下地存在自由：叠加是何种类型的。例如，叠加可以是相加的。但是，叠加例如也可以在于，对于不确定性的每个值，选出不同贡献的分别最高值。

例如，分布可以被建模为来源于正确地贴标签的学习数据集（“干净标签（cleanlabels）”）的贡献和来源于不正确地贴标签的学习数据集（“噪声标签（noisy label）”）的贡献的叠加。但是，例如也可以引进针对如下学习数据集的其他贡献：所述学习数据集的标签是中等可靠的。

通过建模，尤其是可以如下考虑附加信息：哪个函数规则分别表征各个贡献的分布。在贡献的参数是确定的并且因此这些贡献整体上固定之后，可以例如使用贡献，以便对具体的学习数据集进行评价。在特别有利的构建方案中，因而依据局部概率密度和/或依据这种局部概率密度的比来确定至少一个学习数据集的评价，如果该学习数据集的不确定性作为输入被输送给对叠加的至少一个贡献，则所述对叠加的至少一个贡献输出所述局部概率密度。例如，该分布可以通过由第一贡献和第二贡献构成的叠加来建模，所述第一贡献表示正确地贴标签（“干净”）的学习数据集，所述第二贡献表示不正确地贴标签（“噪声”）的学习数据集。在输入不确定性u时，那么第一贡献供应针对涉及正确地贴标签的学习数据集的概率p_c(u)。在输入不确定性u时，第二贡献供应针对涉及不正确地贴标签的学习数据集的概率p_n(u）。

此外，可以确定针对如下内容的机会（比值比（Odds Ratio））r：学习数据集相较于正确地贴标签而是不正确地贴标签的。例如，可以按照规则

来确定比值比r。从比值比r中或者也从p_n(u）与p_c(u)的比中，现在例如在超过确定的值时可以判定：学习数据集是不正确地贴标签（“噪声”）的学习数据集。

替选地或者也与此相结合地，如下内容同样可以进入到至少一个学习数据集的评价中：在优化贡献的参数时，该学习数据集被分配给哪个贡献。确定的用于优化参数的算法（如比方说期望最大化（Expectation Maximization）算法）会立即返回，哪些学习数据集已被用于将这些贡献拟合到分布上。在上面阐述的实例中，如下份额的学习数据集可以例如被评价为针对该份额的不正确地贴标签的学习数据集的估计：该份额的学习数据集已被用于将表示不正确地贴标签的学习数据集的第二贡献拟合到分布上。

同样，例如在预训练期间，比方说在每第n个时期（Epoche），可以观测，学习数据集已被用于拟合表示正确地贴标签的学习数据集的第一贡献，还是已被用于拟合表示不正确地贴标签的学习数据集的第二贡献。该分配可以逐个时期地变动。在预训练结束时，如果学习数据集在绝大多数数目的被调查的时期中已被归入为不正确地贴标签的，则该学习数据集例如可以被归入为不正确地贴标签的。

可是，也可以在贡献处读出其他信息，这些其他信息表征在该分布中被分析的学习数据集的整体。这样，在特别有利的构建方案中，依据分布与叠加的偏差，至少确定，是否基本上只有具有相同的或者相似的评价的学习数据集对所述分布有贡献。例如，以这种方式可以测试：是否基本上只存在正确地贴标签的学习数据集，或者是否还存在不正确地贴标签的学习数据集，关于所述不正确地贴标签的学习数据集，还可以采取所描述的选择性措施中的一种或者多种。也就是说，该测试例如可被用作针对这样的选择性措施的中止标准。

如果例如针对叠加进行了具有两个经过参数化的贡献的方案，那么根据具体地被用于优化参数的算法或多或少地强迫，所述叠加包含两个贡献。但是，如果在分布中现在实际上根本不存在两个贡献，因为例如基本上所有学习数据集都是正确地贴标签的，那么在叠加与分布之间的偏差在优化终止之后也比较大。那么，不确定性的实际分布围绕比较低的值来定中心，而叠加寻找第二个这种中心。接着不再有意义的是，通过更新学习输出变量值来对其他学习数据集“再贴标签”，或者在用于训练可训练模块的成本函数中对其他学习数据集加权不足（unterzugewichten）。

例如，可以利用统计测试来确定，是否基本上只有具有相同的或者相似的评价的学习数据集对分布有贡献。这样的测试检验：抽样的基础数据是否遵循预先给定的分布，或所确定的叠加是否与学习数据集一致。对此的实例是（针对正态分布的）夏皮罗-威尔克（Shapiro-Wilk）测试，并且是柯尔莫哥洛夫-斯米尔诺夫（Kolmogorow-Smirnow）测试。替选地或者也与此相结合地，例如在分布与叠加之间的偏差的视觉绘图（如例如Q-Q绘图（Plot））也可以被转换为度量大小。在Q-Q绘图的情况下，对此例如可以使用与对角线的平均偏差。

在其他特别有利的构建方案中，利用相同的经过参数化的函数、可是彼此独立的参数，对叠加的不同贡献被建模。那么，没有一个贡献相对于另外的贡献突出，使得单独地取决于最终得出的在所有学习数据集上的统计数据：哪个学习数据集被分配给哪个贡献。

能够用来分别对所述贡献建模的经过参数化的函数的实例是统计分布、尤其是来自指数族的分布，如尤其是正态分布、指数分布、伽玛（Gamma）分布、卡方（Chi-Quadrat）分布、贝塔（Beta）分布、指数威布尔（Exponential-Weibull）分布和狄利克雷（Dirichlet）分布。特别有利的是，函数具有区间[0, 1]或者（0, 1）作为载体（Traeger）（非零集），因为数个用于计算不确定性的可能性（如比方说在Softmax分数上的平均值）供应在区间（0, 1）中的值。贝塔分布是针对具有这样的载体的函数的实例。

贡献的参数例如可以按照似然方法（Likelihood-Methode）和/或按照贝叶斯方法（Bayesschen Methode）来优化，尤其是利用期望最大化算法、利用期望/条件最大化（Expectation/Conditional-Maximization）算法、利用期望共轭梯度（Expectation-Conjugate-Gradient）算法、利用黎曼批处理（Riemann Batch）算法、利用基于牛顿的方法（比方说牛顿-拉夫逊（Newton-Ralphson））、利用基于马尔可夫链蒙特卡罗（Markov ChainMonte Carlo）的方法（比方说吉布斯采样法（Gibbs Sampler）或者梅特罗波利斯-黑斯廷斯（Metropolis-Hasting）算法）和/或利用随机梯度算法来优化。在这种情况下，期望最大化算法是特别合适的。如前面所阐述的那样，该算法直接供应如下信息：哪些学习数据集已被考虑用于将贡献拟合到分布上。在arXiv: 1706.03267 中更详细地描述了黎曼批处理算法。

在其他特别有利的构建方案中，从所建模的贡献中确定库尔贝克-莱布勒（Kullback-Leibler）散度、海灵格距离（Hellingerabstand）、莱维（Lévy）距离、莱维-普罗霍罗夫（Lévy-Prochorow）度量、瓦瑟斯坦（Wasserstein）度量、詹森-香农（Jensen-Shannon）散度和/或针对这些贡献彼此不同到何种程度的另外的标量度量。以这种方式可以评判，不同贡献究竟彼此多清晰地分开。

此外，标量度量可被用于优化修改过程的预训练的持续时间。因而，在其他特别有利的构建方案中，确定标量度量与修改过程的预训练的一数目的时期和/或与修改过程的预训练的一数目的训练步骤的相关性。

在此，例如可能存在如下趋势：虽然在预训练的范围内首先形成将不确定性的分布划分成多个贡献，可是在预训练的进一步进展中又部分地消除该划分。如前面所阐述的那样，不正确地贴标签的学习数据集导致预训练中的矛盾。预训练可能力求，利用“折中”来解除这些矛盾。在尚未采用该过程的时刻，在正确地贴标签的和不正确地贴标签的学习数据集之间的区别是最明显的。

因而，在其他特别有利的构建方案中，一数目的时期和/或一数目的训练步骤被考虑用于进一步确定学习数据集的不确定性，在所述一数目的时期和/或一数目的训练步骤中，标量度量指出对叠加的贡献的最大区别。

本发明也涉及一种其他方法，该其他方法利用由此训练的可训练模块的运行来继续训练的作用链。在该方法中，首先利用前面描述的方法来训练如下可训练模块：所述可训练模块将一个或者多个输入变量转换为一个或者多个输出变量。紧接着，通过给可训练模块输送输入变量值，运行该可训练模块。

在此，这些输入变量值包括测量数据，所述测量数据已通过物理测量过程、和/或通过对这种测量过程的部分或者全部仿真、和/或通过对利用这种测量过程可观测的技术系统的部分或者全部仿真来获得。

可训练模块将输入变量值转换为输出变量值。根据这些输出变量值，利用操控信号来操控车辆、和/或分类系统、和/或用于对系列制造的产品进行质量控制的系统、和/或用于进行医学成像的系统。

例如，可训练模块可以供应来自车辆周围环境的图像的语义分割。这种语义分割按照对象的类型对如下图像像素进行分类：所述图像像素属于所述类型。在这种语义分割的基础上，那么可以操控车辆来使得，该车辆只在可自由通行的场地之内运动，并避免与另外的对象（如建筑的车道边界或者另外的交通参与者）碰撞。

例如，在质量控制的范围内，可训练模块可以基于物理测量数据将确定的产品的样本分为两个或者更多个质量等级。根据质量等级，那么可以例如标记确定的样本，或者可以如下地操控筛分装置：与具有另外的质量等级的另外的样本分离。

例如，在医学成像的范围内，可训练模块可以分类，所记录的图像是否指向确定的病征，并且必要时存在该疾病的何种表现程度。例如，根据该分类的结果，可以如下适配图像记录的物理过程：基于进一步记录的图像，能够实现还更清楚的区分，是否存在相对应的病征。这样，例如可以适配基于摄相机的用于进行成像的系统的焦点或者照明。

恰好在医学成像领域中，贴标签、亦即将正确的学习输出变量值指派至给出的学习输入变量值是特别易出错的，因为这多次基于人类专家在评判图像时的经验知识。只是难以（如果情况确实如此）以用于评判图像的定量标准来表达这种经验知识。

本发明也涉及一种具有如下参数的参数集：所述参数表征可训练模块的特性并且已利用前面描述的方法来获得。例如，这些参数可以是如下权重：利用所述权重来结算在KNN中的神经元或者别的计算单元的输入，以激活这些神经或计算单元。该参数集体现已投入到训练中的花费，并就此而言是独立的产品。

该方法可以尤其是完全或者部分用软件来实施。因而，本发明也涉及一种具有机器可读指令的计算机程序，当在一个或者多个计算机上执行所述机器可读指令时，所述机器可读指令促使所述一个或者多个计算机，执行所描述的方法之一。

同样，本发明也涉及一种具有计算机程序的机器可读的数据载体，和/或涉及一种具有计算机程序的下载产品。下载产品是可经由数据网络传输的数字产品，也就是说可由数据网络的用户下载的数字产品，所述数字产品例如在在线商店中可以被陈列出售，用于立即下载。

此外，计算机可以配备有计算机程序，可以配备有机器可读的数据载体或配备有下载产品。

附图说明

以下，与对本发明的优选实施例的描述一起，依据附图更详细地示出其他改进本发明的措施。

其中：

图1示出了用于训练的方法100的实施例；

图2示出了方法200的实施例，其具有直至操控技术系统的完整作用链；

图3示出了通过由两个贡献41、42构成的叠加4对不确定性2a的分布3的示例性建模；

图4示出了在基本上所有学习数据集2都正确地贴标签的情况下的建模的失败。

具体实施方式

图1示出了用于训练可训练模块1的方法100的实施例。在步骤110中，至少利用现有学习数据集2的子集，对可训练模块1的多个修改过程1a-1c进行预训练。每个学习数据集2都包含学习输入变量值11a和所属的学习输出变量值13a。

在步骤120中，来自学习数据集2的学习输入变量值11a作为输入变量11被输送给所有修改过程1a-1c。每个修改过程la-lc由此都产生自己的输出变量值13。在步骤130中，从这些输出变量值13彼此间的偏差中，确定针对这些输出变量值的不确定性13b的度量。针对不确定性13b的度量被分配给如下学习数据集 2作为针对所述学习数据集2的不确定性的度量：已从所述学习数据集2中取出学习输入变量值 11a。

在步骤140中，从该不确定性2a中，确定学习数据集2的评价2b。该评价2b是针对如下内容的度量：在学习数据集2中，学习输出变量值13a至学习输入变量值11a的分配（亦即学习数据集2的贴标签）正确到何种程度。在框140之内，示例性地分类整理，可以如何确定评价2b。

例如，按照块141，可以依据大量学习数据集2来确定不确定性2a的分布3，并且紧接着可以进一步评估该分布3。

例如根据块142，分布3可以被建模为多个经过参数化的贡献41、42的叠加。在这种情况下，例如根据块142a，利用相同的经过参数化的函数、可是彼此独立的参数41a、42a，可以对不同的贡献41、42进行建模。根据块142b，例如可以采用统计分布、尤其是来自指数族的分布，如比方说可以采用正态分布、指数分布、伽玛分布、卡方分布、贝塔分布、指数威布尔分布和/或狄利克雷分布。

贡献的参数41a、42a可以根据块143例如如下被优化：使所观测的分布3与所确定的叠加4的偏差最小化。对于该优化，根据块143a，例如可以采用似然方法和/或贝叶斯方法，如比方说可以采用期望最大化算法、期望/条件最大化算法、期望共轭梯度算法、黎曼批处理算法、基于牛顿的方法（比方说牛顿-拉夫逊）、基于马尔可夫链蒙特卡罗的方法（比方说吉布斯采样法或者梅特罗波利斯-黑斯廷斯算法）和/或随机梯度算法。

根据块144，分布3与叠加4的偏差已经可以供应如下重要信息：是否基本上只有具有相同的或者相似的评价2b的学习数据集2对分布3有贡献。例如，如果要利用对叠加4的贡献41和42将正确地贴标签的学习数据集2与不正确地贴标签的学习数据集2 相区分，那么在标识出不正确地贴标签的数据集2之后采取的措施随便什么时候都可能导致，基本上只还存在正确地贴标签的学习数据集2。这可以根据块144来识别。例如，可以由此导出针对提到过的措施的中止条件。

一般而言，根据块145，可以从分布3中确定期望的评价2b。根据块145a，可以为此使用对叠加4的贡献41、42，利用叠加4对分布3进行建模。例如，这种贡献41、42可以将局部概率密度分配给学习数据集2的不确定性2a，该学习数据集2以所述局部概率密度而正确地或者不正确地贴标签。可以从多个局部概率密度中形成相对应的比值比。替选地或者也与此相结合地，可以根据块145b观测，在优化143贡献41、42的参数41a、42a时，学习数据集2被分配给哪个贡献41、42。如前面所阐述的那样，一些用于优化的算法直接供应如下信息：这些算法分别依靠哪些学习数据集2。

根据块146，可以从通过参数41a、42a规定的贡献41、42中确定针对如下内容的标量度量43：这些贡献41、42彼此间不同到何种程度。该标量度量43例如可以是库尔贝克-莱布勒散度。尤其是，根据块146a，可以确定该标量度量43与修改过程1a-1c的预训练110的一数目的时期的相关性，和/或可以确定该标量度量43与修改过程1a-1c的预训练110的一数目的训练步骤的相关性。根据块146b，一种可能的有用应用是要有针对性地选择时期和/或训练步骤的在预训练110时使用的数目，使得标量度量43变为最大并且因此可以以尽可能好的方式相互区分贡献41、42。

在图1中，此外给出了学习数据集2的在步骤140中确定的评价2b的示例性有用应用。

在步骤150中，最终需要的可训练模块1可以通过如下方式来训练：怀着改进成本函数14的值的目的，优化表征该可训练模块1的特性的可适配的参数12。根据块151，成本函数14衡量，可训练模块1将包含在学习数据集中的学习输入变量值11a映射到所属的学习输出变量值13a到何种程度。根据块152，对成本函数2中的至少一个学习数据集2进行加权与该学习数据集2的评价2b有关。

在步骤160中，替选地或者也与此相结合地可以检查：学习数据集2的评价2b是否满足预先给定的标准。该标准例如可以在于，评价2b超过或者未达到预先给定的阈值，和/或评价2b将学习数据集2分类为不正确地贴标签的。如果这是这种情况（真值1），则可以在步骤170中请求包含在学习数据集2中的学习输出变量值13a的更新13a *。

图2示出了方法200的实施例。在该方法200的步骤210中，利用前面描述的方法100来对可训练模块1进行训练。如此经过训练的模块在步骤220中运行，其方式是给该模块输送输入变量值11，该输入变量值11具有涉及技术系统的以物理方式记录的和/或仿真的测量数据。在步骤230中，从由可训练模块1在这一方面供应的输出变量值13中形成操控信号5。利用该操控信号5，对车辆50和/或分类系统60和/或用于对系列制造的产品进行质量控制的系统70和/或用于进行医学成像的系统80进行操控。

图3示例性地示出了，可以如何通过由两个贡献41、42构成的叠加4来对不确定性2a、u的分布3进行建模。对于不确定性2a、u的每个值，分别绘制局部概率密度ρ的值，该局部概率密度ρ根据作为相应的不确定性2a的函数的相应贡献41、42而得出。在该实例中，叠加4被形成为由所有不确定性2a构成的加权相加，并且可以分解为贡献41、42地被呈现。可是，例如也可以对于不确定性2a、u的每个值分别选出两个贡献41、42的较高函数值。在图3中所示的实例中，在不确定性2a、u较低时为大的第一贡献41来源于正确地贴标签的学习数据集2。在不确定性 2a、u较高时为大的第二贡献42来源于不正确地贴标签的学习数据集2。

图4示例性地示出了，当学习数据集2都是正确地贴标签的时，在图3中所阐明的建模可能如何失败。那么，不确定性2a、u的分布3围绕低的值来定中心。但是，示例性地绘出的三个利用叠加4的建模仍然分别以存在两个贡献41、42为出发点，并尝试按照误差度量（比方说最小误差平方和）以某种方式使这种方案与分布3重合。如图4示出的那样，偏差是大的。由此，可以得出针对如下内容的明显信号：所有学习数据集2都是正确地贴标签的。

Claims

1.用于借助学习数据集（2）来训练可训练模块（1）的方法（100），所述可训练模块（1）将一个或者多个输入变量（11）转换为一个或者多个输出变量（13），所述学习数据集（2）包含学习输入变量值（11a）和所属的学习输出变量值（13a），其中至少所述学习输入变量值（11a）包括测量数据，所述测量数据已通过物理测量过程、和/或通过对这种测量过程的部分或者全部仿真、和/或通过对利用这种测量过程可观测的技术系统的部分或者全部仿真来获得，所述方法（100）具有如下步骤：

• 分别至少利用所述学习数据集（2）的子集，对所述可训练模块（1）的多个修改过程（1a-lc）进行预训练（110），所述修改过程（1a-lc）彼此大大地不同到使得，所述修改过程（1a-lc）在不断进行学习时不是全等地转化成彼此；

• 至少一个学习数据集（2）的学习输入变量值（11a）作为输入变量（11）被输送（120）给所有修改过程（la-lc）；

• 从所述输出变量值（13）彼此间的偏差中，确定针对所述输出变量值（13）的不确定性（13b）的度量，并且所述针对所述输出变量值（13）的不确定性（13b）的度量被分配（130）给所述学习数据集（2）作为针对所述学习数据集（2）的不确定性（2a）的度量，所述修改过程（la-lc）将所述学习输入变量值（11a）分别转换成所述输出变量值（13）；

• 依据所述不确定性（2a），确定（140）所述学习数据集（2）的评价（2b），所述评价（2b）是针对如下内容的度量：在所述学习数据集（2）中，所述学习输出变量值（13a）至所述学习输入变量值（11a）的分配正确到何种程度。

2.根据权利要求1所述的方法（100），其中，怀着改进成本函数（14）的值的目的，优化（150）表征所述可训练模块（1）的特性的可适配的参数（12），其中所述成本函数（14）衡量（151）：所述可训练模块（1）将包含在学习数据集（2）中的所述学习输入变量值（11a）映射到所属的学习输出变量值（13a）到何种程度，其中对所述成本函数（14）中的至少一个学习数据集（2）进行加权与所述至少一个学习数据集（2）的评价（2b）有关（152）。

3.根据权利要求2所述的方法（100），其中，响应于学习数据集（2）的所述评价（2b）满足预先给定的标准，在所述成本函数（14）中不再考虑所述学习数据集（2）。

4.根据权利要求1至3中任一项所述的方法（100），其中，响应于学习数据集（2）的所述评价（2b）满足（160）预先给定的标准，请求（170）更新（13a*）至少一个包含在所述学习数据集（2）中的学习输出变量值（13a）。

5.根据权利要求1至4中任一项所述的方法（100），其中，依据多个学习数据集（2），确定（141）所述不确定性（2a）的分布（3），并且其中依据所述分布（3）确定（145）所述评价（2b）。

6.根据权利要求5所述的方法（100），其中，所述分布（3）被建模（142）为多个经过参数化的贡献（41, 42）的叠加（4），所述贡献（41, 42）分别来源于具有相同的或者相似的评价（2b）的学习数据集（2），并且其中所述贡献（41，42）的参数（41a , 42a）如下被优化（143）：所观测的分布（3）与所确定的叠加（4）的偏差被最小化，以便这样确定所述贡献（41，42）。

7.根据权利要求6所述的方法（100），其中，依据所述分布（3）与所述叠加（4）的所述偏差，至少确定（144），是否基本上只有具有相同的或者相似的评价（2b）的学习数据集（2）对所述分布（3）有贡献。

8.根据权利要求6至7中任一项所述的方法（100），其中，利用相同的经过参数化的函数、可是彼此独立的参数（41a，42a），对所述叠加（4）的不同贡献（41, 42）被建模（142a）。

9.根据权利要求6至8中任一项所述的方法（100），其中，至少一个经过参数化的贡献（41，42）被建模（142b）为统计分布，尤其是被建模（142b）为来自指数族的分布，如比方说被建模（142b）为正态分布，被建模（142b）为指数分布，被建模（142b）为伽玛分布，被建模（142b）为卡方分布，被建模（142b）为贝塔分布，被建模（142b）为指数威布尔分布，和/或被建模（142b）为狄利克雷分布。

10.根据权利要求6至9中任一项所述的方法（100），其中，所述贡献（41，42）的所述参数（41a，42a）按照似然方法和/或按照贝叶斯方法被优化（143a），如比方说利用期望最大化算法、利用期望/条件最大化算法、利用期望共轭梯度算法、利用黎曼批处理算法、利用基于牛顿的方法、利用基于马尔可夫链蒙特卡罗的方法和/或利用随机梯度算法被优化（143a）。

11.根据权利要求6至10中任一项所述的方法（100），其中，依据局部概率密度和/或依据这种局部概率密度的比来确定（145a）至少一个学习数据集（2）的所述评价（2b），如果所述学习数据集（2）的所述不确定性（2a）作为输入被输送给对叠加（4）的至少一个贡献（41,42），则所述对叠加（4）的至少一个贡献（41, 42）输出所述局部概率密度。

12.根据权利要求6至11中任一项所述的方法（100），其中，如下内容进入到（145b）至少一个学习数据集（2）的所述评价（2b）中：在优化（143）所述贡献（41，42）的所述参数（41a，42a）时，给哪个贡献（41，42）分配所述学习数据集（2）。

13.根据权利要求6至12中任一项所述的方法（100），其中，从所述贡献（41、42）中，确定（146）库尔贝克-莱布勒散度、海灵格距离、莱维距离、莱维-普罗霍罗夫度量、瓦瑟斯坦度量、詹森-香农散度和/或针对所述贡献（41，42）彼此不同到何种程度的另外的标量度量（43）。

14.根据权利要求13所述的方法（100），其中，确定（146a）所述标量度量（43）与所述修改过程（la-lc）的所述预训练（110）的一数目的时期和/或与所述修改过程（la-lc）的所述预训练（110）的一数目的训练步骤的相关性。

15.根据权利要求14所述的方法（100），其中，一数目的时期和/或一数目的训练步骤被考虑（146b）用于进一步确定学习数据集（2b）的不确定性（2a），在所述一数目的时期和/或一数目的训练步骤中，所述标量度量（43）指出对叠加（4）的所述贡献（41，42）的最大区别。

16.一种方法（200），其具有如下步骤：

·利用根据权利要求1至15中任一项所述的方法（100），对可训练模块（1）进行训练（210），所述可训练模块（1）将一个或者多个输入变量（11）转换成一个或者多个输出变量（13）；

• 所述可训练模块（1）通过如下方式运行（220）：输入变量值（11）被输送给所述可训练模块（1），其中所述输入变量值（11）包括测量数据，所述测量数据已通过物理测量过程、和/或通过对这种测量过程部分或者全部仿真、和/或通过对利用这种测量过程可观测的技术系统的部分或者全部仿真来获得；

• 根据由所述可训练模块（1）供应的输出变量值（13），利用操控信号（5）对车辆（50）、和/或分类系统（60）、和/或用于对系列制造的产品进行质量控制的系统（70）、和/或用于进行医学成像的系统（80）进行操控（230）。

17.一种具有参数（12）的参数集，所述参数（12）表征可训练模块（1）的特性，所述参数（12）利用根据权利要求1至15中任一项所述的方法来获得。

18.一种计算机程序，其包含机器可读指令，当在一个或者多个计算机上执行所述机器可读指令时，所述机器可读指令促使所述一个或者多个计算机，执行根据权利要求1至16中任一项所述的方法（100，200）。

19.一种机器可读的数据载体和/或下载产品，其具有根据权利要求18所述的计算机程序。

20.一种计算机，其配备有根据权利要求18所述的计算机程序，和/或配备有根据权利要求19所述的机器可读的数据载体和/或下载产品。