CN113962279A

CN113962279A - 运行车辆组件的机器学习方法和运行车辆组件的方法

Info

Publication number: CN113962279A
Application number: CN202110824429.2A
Authority: CN
Inventors: J·卡斯特; K·范恩德
Original assignee: Volkswagen Automotive Co ltd
Current assignee: Volkswagen Automotive Co ltd
Priority date: 2020-07-21
Filing date: 2021-07-21
Publication date: 2022-01-21
Anticipated expiration: 2041-07-21
Also published as: CN113962279B; US11970178B2; US20220024474A1; EP3944158A1

Abstract

本发明涉及一种用来运行车辆组件的用于机器学习、尤其是用于处理或产生训练数据集的计算机实现的方法以及一种相对应的用来运行车辆组件的方法和一种控制单元。在第一步骤中，通过在使用聚类算法的情况下将多个数据点划分成多维聚类来划分所提供的多维数据点。然后，通过从基本训练数据集中选择数据点来产生训练数据集。在此，该选择包括：确定在多个聚类中的具有最少数目的数据点的最小聚类。还为该训练数据集提供最小聚类的数据点的至少一个子集。在另一步骤中，为该训练数据集从其余聚类中的每个聚类中选择数据点的子集，其中每个其余聚类的所选择的数据点的数目都对应于最小聚类的所选择的数据点的数目。

Description

运行车辆组件的机器学习方法和运行车辆组件的方法

技术领域

本发明涉及：一种用来运行车辆组件的用于机器学习、尤其是用于处理或产生训练数据集的计算机实现的方法；和一种相对应的用来运行车辆组件的方法。还提供了一种相对应的控制单元以及一种相对应的车辆。

背景技术

在现有技术的机器学习方法的情况下的训练表明：在具有代表性过度或代表性不足的场景的分布不均匀的数据集的情况下效率低下。由此，可能导致在有先前未知的数据的情况下性能不佳。这进而导致：在安全关键的环境中的方法以及适用性的鲁棒性受到明显损害。

仅作为另一技术背景而参阅现有技术，该现有技术处理在输出数据集中的所谓的少数类和多数类之间非常极端的分布不均匀的情况下的另一、非常特殊的问题。在S. Yen等人的出版物“Cluster-based under-sampling approaches for imbalanced datadistributions”，Expert System with Applications 36，2009,年，5718-5727页，doi:10.1016/j.eswa.2008.06.108中，描述了这些稀有的少数类的加权分布。在M. MostafizurRahman等人的出版物“Cluster based under-sampling for unbalanced cardiovasculardata”，Proceedings of the World Congress on Engineering, 2013, Vol. III, ISSN:2078-0966 (Online)中，稀有的少数类的该特别的特殊情况同样得以处理。在此，输入数据集被分为多数类和少数类，其中只关于多数类方面进行聚类，并且然后通过将每个聚类与这些少数类进行配对来实现多个数据集。接着，这些组合的最好的一对被用作训练数据集。

除了这些特殊问题之外，在现有技术中执行其中训练性能被测试并且接着基于独立数据来被验证的方法。在此，通常使用描绘了目标行为的非常大的训练数据集。

对于大数据集来说，由于大数据集、诸如加标签那样的数据集处理、匿名化，还形成高计算花费，而且为了处理训练过程的这些大数据量而必须提供增加的计算资源。迭代的、手动的数据集生成容易出错，并且由于反复试验（Trial und Error）而通常缓慢。考虑所有数据也导致非常耗时且无效的训练。

此外，故障案例的分析常常基于专家知识。这里，困难主要在于不同原因的耦合以及对参数的复杂探测。解决方案大多在于：使用更多数据，以便实现更好的性能。没有进行对多维空间的客观分析。为了扩展或增大数据集，由专家来进行分析。

特别是车辆领域是安全关键领域，在该安全关键领域，各种不同的车辆组件必须以高安全要求来被运行。高性能和快速训练时间在该领域尤为重要。在机器学习算法的支持下运行车辆组件时，训练数据集和性能有时在是否发生严重错误方面是决定性的。

发明内容

现在，本发明所基于的任务在于：提供一种用于运行车辆组件的计算机实现的机器学习方法和一种对应的用于运行车辆组件的方法，该方法解决了上述问题中的至少一部分或者至少使上述问题中的至少一部分减小到最低限度。本发明的一个方面尤其在于确保跨所有场景的良好性能并且同时允许节省时间和资源地产生训练数据集。此外，目标在于：实现时间效率高且精度高的训练的前提条件。

在本发明的优选的设计方案中，提供了一种用来运行车辆组件的用于机器学习的、尤其是用于处理或产生训练数据集的计算机实现的方法。在第一步骤中，该方法包括：提供多个多维数据点。在另一步骤中，该方法包括：通过在使用聚类算法的情况下将所述多个数据点划分成多维聚类来产生基本训练数据集，其中每个数据点都被分配给正好一个聚类。在另一步骤中，通过从基本训练数据集中选择数据点来产生训练数据集。在此，对训练数据集的产生包括：确定在多个聚类中的具有最少数目的数据点的最小聚类。在另一步骤中，对训练数据集的产生包括：为该训练数据集选择该最小聚类的数据点的至少一个子集。此外，在另一步骤中，为该训练数据集从其余聚类中的每个聚类中选择数据点的子集，使得每个其余聚类的所选择的数据点的数目都对应于该最小聚类的所选择的数据点的数目。

多维数据点可以通过向量来被表示并且配备有多个条目。数据点的集合可以形成时间序列。例如，多维数据点可包括物理或运动学变量，如车速、位置、方向、转向力矩、横向加速度、横摆率、方向盘角速度、加速度要不然还有轨迹或者轨迹部段，其中上述示例只是示例性的列举并且本发明并不限于此。原则上，数据点是与车辆相关的测量数据点、例如传感器数据点，即可通过传感器来被检测的参量。例如，轮胎压力也可以是数据点的条目。数据点例如可以是传感器信号。在其它情况下，这些数据点是经模拟的数据或者由服务器提供的数据，这些数据是从之前发生的测量过程中获得的。传感器信号可以由车辆的多个传感器来检测，尤其是由车辆的不同的传感器来检测。优选地，可以使用k-means算法作为聚类算法。然而，本发明并不依赖于所使用的聚类算法。例如，也可以使用EM聚类或模糊c-means算法等等。每个聚类都是一个特定场景。此外，场景是整个数据集的可清晰分离的子集。在此，场景可以通过聚类算法的多维输入来被区分。通过聚类，自动化地提取整个非结构化数据库的重要区域。将每个数据点唯一分配给一个聚类的聚类算法也被称作硬方法。优选地，数据是物理和/或运动学数据，这些数据对于确定用来运行车辆的车辆组件的目标参量或额定参量来说是必需的。

本发明所具有的优点在于：产生跨不同场景的训练数据集的自动化的均匀分布。这通过如下方式来被实现：为该训练数据集从其余的聚类中获取数目完全相同的数据点。朝向最小聚类的方向是有利的，因为该最小聚类是与其它聚类相比由于数据点的数目少而代表性不足的场景。在新的训练数据集中，先前代表性不足的聚类与其它聚类相同地被加权或表示。因此，每个聚类以及借此每个场景都有利地基于并关于由聚类算法产生的聚类的数据点的数目通过聚类的所产生的均匀分布来平等地被考虑。通过有针对性地减少数据点，还可以显著节省训练时间并且也可以提供测试和验证数据的数据池。均匀分布的数据集还具有更好的性能。这里以及在下文，提供了一种用于考虑对数据的多维分析的客观方法，由于复杂性和多维性，该多维分析主观上几乎无法被掌握。

本发明的其它优选的设计方案从其余的、在从属权利要求中提到的特征中得到。

优选地，该方法包括：将最小聚类和/或其余聚类的未被选择的数据点存储在数据存储器中，作为测试和/或验证数据。因此，这些未使用的数据点是数据池，该数据池可以被用于测试和验证机器学习算法及其性能。这些数据点还可以被用于关于聚类性能方面改进训练数据集，如下面进一步描述的那样。如果最小聚类中的数据点也被存储，则该最小聚类的性能也可以被检查。

在特殊的实施方式中，该方法包括：为该训练数据集选择最小聚类的所有数据点的全体。原则上，基本数据集的最小聚类由于数据点的数目最少而代表性不足。因而，通常也需要该聚类的所有或几乎所有数据点来对聚类进行扫描，以便充分限定或表征该聚类。

优选地，该方法包括：为该训练数据集从最小聚类和/或其余聚类中随机选择数据点。这是一种特别快速的方法，借此在最短时间内可以自动化地实现训练集的均匀分布。在其它实施方案中，也可以根据时间标准来进行该选择。

在特殊的实施方式中，该方法包括：从最小聚类和/或其余聚类中选择数据点，使得聚类的所选择的数据点彼此间具有最大距离。通过该距离标准来除去冗余数据，并且这样保持用于限定或用于覆盖该聚类的重要数据。尤其是，换言之实现了聚类的尽可能大的扩展。因此，依据重要性标准来进行对数据点的选择。

优选地，该方法包括：借助于所产生的训练数据集，对机器学习算法进行训练。这种训练可以提供关于所创建的训练数据集是否还可以或必须被改进的信息。尤其是考虑人工神经网络作为机器学习算法，其中本发明并不限于此并且也应用其它有关的机器学习算法。优选地，具有预先给定的目标结果的监督训练被应用于该训练。为了实现机器学习算法的最佳工作点，可以使用未被选择的数据点的测试数据。利用测试数据，可以避免机器学习算法的过适，也称为过拟合。

在一个特殊的实施方式中，该方法包括：借助于质量标准在使用验证数据的情况下确定各个聚类的性能。因此，通过定位各个聚类的性能、即例如相应各个聚类的质量或精度，可以检查：针对相应的聚类所使用的数据点是否足够或者针对该聚类的数据点是否必须被增加并且因此被密集。

优选地，通过所属聚类的未被选择的数据点的组中的数据点，确定各个聚类的性能。如果从特定聚类中提取了数据点作为验证数据并且将该数据点用于验证，则验证结果可以特别提供关于所属聚类的性能的信息。因此，先前未被选择的数据点有利地对于从中提取了这些数据点的那些聚类来说灵敏或有选择性。如果数据点是从最小聚类中被提取的，则也可以有利地关于该最小聚类的性能方面对该最小聚类进行检查。

优选地，质量标准可以是输出值相对于目标值的高于阈值的均方差。在某些情况下，也可以使用一定数目的此类阈值超出，作为质量标准。均方差以及尤其是阈超出是一种用于各个聚类的性能的灵敏的量度。

在一个特殊的实施方式中，该方法包括：通过将数据点添加给不满足该质量标准的聚类，创建经修改的训练数据集。由此，可以逐点地或局部地改进各个聚类，也就是说改善这些聚类的统计或数据点密度，以便逐点地或有针对性地改善这些聚类的性能。优点在于：只在不满足质量标准并且因此能够实现高效的改进的那些聚类的情况下进行改进，因为已经性能优越的聚类未被改变。

优选地，从不满足质量标准的所属聚类的未被选择的数据点的组中提取被添加的数据点。由此，可以有针对性地重新利用之前未被选择的数据点，以便通过密集或更高的表示来使各个聚类升值。尤其是，由于这些未被选择的数据点，对于每个聚类来说都存在特别适合的数据点，使得在数据池中总是有适合的数据点准备就绪。

在本发明的一个特殊的实施方式中，该方法包括：重复对训练数据集的修改，直至对于所有聚类来说都满足该质量标准为止。因此，包括性能检查的上述步骤可以一直被实施，直至所有聚类都满足质量标准为止。

因此，基于基本训练数据集，已经产生性能优越的训练数据集，该性能优越的训练数据集根据质量标准来描绘每个场景或在每个聚类中都是性能优越的。然而，通过节省冗余数据点，通过对训练数据集的上述系统性的、自动化的创建可以显著节省计算时间，如前几段中已经描述的那样。

本发明的另一方面包括一种用于运行车辆组件的方法。该方法包括：基于根据上述实施方案之一所述的方法来训练的机器学习算法的输出来运行车辆组件。这里以及在下文，运行可包括控制和/或调节。运行还可以是监控、维护、报警，其中本发明并不限于此。纯示例性地，车辆组件可以是转向装置、驾驶辅助系统、制动装置、报警系统、照明单元等等。然而，本发明这里并不限于特定车辆组件。通过使用这样被训练的机器学习算法，直接利用该机器学习算法的高精度、精密和性能，以便能够实现车辆组件例如恰好在安全关键领域的灵敏且安全的运行。

在本发明的优选的设计方案中，提供了一种用于运行车辆组件的方法。在第一步骤中，用于运行车辆组件的方法包括：提供多个多维数据点。在另一步骤中，该方法包括：通过在使用聚类算法的情况下将所述多个数据点划分成多维聚类来产生基本训练数据集，其中每个数据点都被分配给正好一个聚类。在另一步骤中，通过从基本训练数据集中选择数据点来产生训练数据集。在此，对训练数据集的产生包括：确定在多个聚类中的具有最少数目的数据点的最小聚类。在另一步骤中，对训练数据集的产生包括：为该训练数据集选择该最小聚类的数据点的至少一个子集。此外，在另一步骤中，为该训练数据集从其余聚类中的每个聚类中选择数据点的子集，使得每个其余聚类的所选择的数据点的数目都对应于该最小聚类的所选择的数据点的数目。其它方法步骤可以从上文和下文描述的方法中得知。该方法还包括如下步骤：基于利用所产生的训练数据集所训练的机器学习算法的输出来运行车辆组件。此外，该方法的其它优选的实施方式同样与用于运行车辆组件的方法能结合并且因此被一并公开。通过使用这样训练的机器学习算法，可以利用该机器学习算法的高精度、精密和性能，这恰好在安全关键领域重要。

本发明的另一方面包括一种用于车辆的控制单元，该控制单元被设立为实施用于运行车辆组件的方法或根据上述实施方式所述的方法。从上述实施方案中得出优点。

本发明的另一方面包括一种车辆，该车辆包括根据上述实施方案的控制单元。

只要在个别情况下不另作解释，本发明的在本申请中提到的不同的实施方式就能有利地彼此结合。

附图说明

随后，本发明在实施例中依据所属的附图来被阐述。其中：

图1至6示出了按照本发明的实施方式的用于运行车辆组件的计算机实现的机器学习方法的步骤和按照本发明的实施方式的用来运行用于运行车辆组件的方法的过程；以及

图7示意性示出了按照本发明的控制单元。

具体实施方式

图1至6示出了用来运行车辆组件的尤其是用于处理或产生训练数据集的、用于机器学习的计算机实现的方法以及包括该方法的用于运行车辆组件的方法。在下文，如果仅提及一种方法，则除非另有明确说公开，则原则上借此一并包括两种方法。

在图1以图解说明的方式示出了第一方法步骤，在该第一方法步骤中提供多个多维数据点F1, ..., Fn，为此参见图1的左侧。数据点F1, ..., Fn可以是测量数据点，例如通过相对应的传感器来被测量或记录。服务器也可以提供之前测量的测量数据点。然而，原则上，这些数据点F1, ..., Fn也可以是经模拟的测量数据点。数据点、例如数据点F1，可以被呈现为向量，该向量具有相对应的运动学或物理条目。每个条目都可包括数值和维度。本发明也一并公开了该向量只具有一个分量的情况。相应的参量例如可以是车速、转向力矩、横向加速度、横摆率、方向盘角速度、轮胎压力要不然还有行驶轨迹或者行驶轨迹部段，其中本发明并不限于此。为特定应用选择重要条目取决于相应的车辆组件以及该车辆组件应该如何被运行。

在另一步骤中，为此参见图1的用于阐明的右侧，创建基本训练数据集。该步骤通过将多个数据点F1, ..., Fn划分成多维聚类C1, ..., Cm来实现。为此，使用聚类算法，该聚类算法将每个数据点F1, ..., Fn都分配给正好一个聚类C1, ..., Cm。换言之，按照所识别出的场景来将这些数据点F1, ..., Fn编组成聚类。因此，每个聚类C1, ..., Cm都形成一个特定场景。这里，场景可以被视为这些数据点F1, ..., Fn的整个非结构化数据库中的可清晰分离的子集，为此将图1的左侧与右侧进行比较。这意味着：场景可以通过聚类算法的多维输入来被描述和区分。由此，这样来自动化地提取重要的工作区域。

在仅用于图解说明的当前示例中，数据点F1, ..., Fn被分布或划分到四个不同的聚类 C1、C2、C3、C4上。因此，纯示例性地存在四种不同的场景。此外，这些聚类 C1、C2、C3、C4是不相交的，也就是说，给每个数据点F1, ..., Fn都分派正好一个聚类 C1、C2、C3、C4。在实践中，要处理可能超过上述示例几个量级的数目的数据点和/或聚类。

作为对图1的补充，图2示出了真实数据，用于进一步阐明上文的描述。在这种情况下，分别示出了不同的聚类，在该具体示例中是聚类1至聚类9，这些不同的聚类分别表明被分配给聚类的数据。如上所述，该分配通过聚类算法来实现，优选地通过k-means算法来实现。在这种情况下，每个聚类C1, ..., C9都形成一个特定场景。在当前示例中，示出了车速v作为物理或运动学参量，其中本发明并不限于此。替选地，根据哪个车辆组件应该被运行以及哪个参量对此重要，可以使用之前已经提及的像轮胎压力、转向力矩、转向速度等等那样的参量。此外，这里也只示出了向量的这一个分量，而在多维数据点F1, ..., Fn的情况下形成相对应的、无法用图形呈现的多维聚类。还能看出：如图1中图解说明的那样，数据点的数目因聚类而异。这意味着：有些聚类相对于其它聚类而言在统计上代表性过度或代表性不足。

因此，在最小聚类、这里例如聚类9的多个数据点是如下场景，该场景与在整个数据集中的其它子集（聚类）相比代表性不足。

冗余、即基本上是对数据点的多重描述，可以在较大的聚类的情况下被识别出，为此例如尤其是参见聚类3和7。这种冗余通过如下步骤来被减少或消除。

图3以图解说明的方式示出了方法步骤，在该方法步骤中，通过从基本训练数据集中选择数据点来创建训练数据集。在此，该方法包括：确定最小聚类。在该仅仅图解性的图示中，最小聚类示例性地对应于多个聚类C1、C2、C3、C4中的聚类C2。该最小聚类包括数目最少的数据点。在图2中，例如聚类9对应于在聚类1至9的组中的最小聚类。

在另一步骤中，为该训练数据集选择最小聚类C2的数据点T1, T2, T3, ..., Tk的至少一个子集，为此以图解说明的方式参见在图3的右侧的聚类C2中的被标记或被突出的数据点。在当前情况下，为该训练数据集选择最小聚类C2的数据点的部分或子集，这里示例性地是90 %。这具有如下优点：与之互补的部分、在当前示例中是10 %可以作为用于机器学习算法的测试和/或验证数据被存储在相对应的数据存储器中并且被使用，为此参见下文的描述。

例如可以随机地、即按照随机过程来选择最小聚类的数据点T1, T2, T3, ...,Tk的子集。这是一种特别快速的省时的选择过程。然而，优选地可以按照重要性度量来进行选择。例如，可以从最小聚类中选择数据点T1, ..., Tk，使得最小聚类的所选择的数据点T1, ..., Tk彼此间具有最大距离。由此，在最小聚类中的冗余被有效消除。此外，根据该标准所选择的数据点T1, ..., Tk在几何上在多维聚类的伸展方面适当地形成该多维聚类，这进而改善了机器学习算法在应用中的性能。换言之，通过根据该标准所选择的数据点T1,..., Tk，将引起聚类的尽可能大的扩展，使得该聚类在没有冗余的情况下或者至少在只有微小的冗余的情况下被有效限定。

在另一实施方式中，也可以为该训练数据集选择最小聚类的所有数据点的全体，这里未明确示出。这尤其是当这些数据点的数目使得最终这些数据点T1, ..., Tk中的每个数据点都被需要用于最小聚类的足够的聚类性能时是有利的，为此参见如下描述。

在另一步骤中，为该训练数据集从其余聚类C1、C3、C4中的每个聚类中选择数据点R1, ..., Rk的子集。在此，进行该选择，使得每个其余聚类、在图3中聚类C1、C3、C4的所选择的数据点R1, ..., Rk的数目都对应于最小聚类C2的所选择的数据点T1, ..., Tk的数目。因此，每个聚类C1, ..., Cm的数据点的数目都彼此相同并且因此尤其是与从最小聚类中选择的数据点T1, ..., Tk的数目相同。因此，最小聚类的所选择的数据点的数目相同地规定了其余聚类中的每个聚类的所选择的数据点R1, ..., Rk的数目。

因此，本发明具有如下有利性质：产生跨不同场景的均匀分布的、自动化生成的训练数据集，这提升性能并且因此尤其是在运行车辆组件时也是重要的。在知道该场景与其它聚类相比由于数据点的数目少而代表性不足的情况下，实现朝向最小聚类的方向。在所产生的训练数据集中，先前代表性不足的聚类以与其它聚类相同的方式来被表示。在此，仅基于相应的数据点的数目来进行编排。

减少在其余聚类中的数据点还引起训练时间减少。在大的聚类的情况下，这种减少可能明显。在这种情况下，视聚类大小而定，按照现场研究可以实现多达40分之一的计算时间。此外，这对于车辆组件的运行来说重要。

与最小聚类相似，利用未被选择的数据点可以进行如下过程。其余聚类的未被选择的数据点可以被存放在数据存储器中。接着，这些数据点同样可以被用作测试数据和/或验证数据。除了场景的均匀分布之外，通过该选择，同时也提供了高测试和验证数据量。

同样可以从其余聚类C1, ..., Ci-1, Ci+1, ..., Cm中随机选择数据点，以便节省接下来的计算时间。优选地，如上所述，将选择其余聚类C1, ..., Ci-1, Ci+1, ..., Cm的数据点R1, ..., Rk，使得聚类的所选择的数据点彼此间具有最大距离。由此，尤其是冗余数据点被除去，并且限定聚类的重要的数据点被添加给该训练数据集。

优选地，在使用测试数据的情况下，利用该训练数据集可以使用未被选择的车辆数据用来避免过适或用来找到最佳工作点，以便对机器学习算法、尤其是人工神经网络进行训练。

图4至6示出了用于改善所编排的训练数据集来运行车辆组件的方法的其它步骤。

为此，在第一步骤中，可以借助于所产生的训练数据集来训练机器学习算法、例如人工神经网络。如上文已经描述的那样，在训练时可以使用测试数据。这些测试数据用于：在训练时找出最佳工作点并且防止神经网络的过适。现在，可以使用未被选择的数据点的组的有利的子集，作为测试数据。在这种情况下，本发明具有如下优点：通过对训练数据集的上述编排，这种测试数据大量供支配，使得由此可以清楚地规定训练中止的最佳时间点。

接着，借助于验证数据，可以有利地测试各个聚类C1, ..., Cm的性能、也就是说功能能力，如在图4中示例性示出的那样。

为此，在图4中示出了第一聚类C1的性能测试的结果。在图4中，为此示例性地借助于验证点来确定转向力矩L。在此，这些图表示出了经训练的人工神经网络的输出，作为在使用验证数据作为输入的情况下的机器学习算法的示例。在此，人工神经网络的输出与验证数据的转向力矩的已知的额定值或目标值共同被绘制。

在这种情况下，聚类的性能的质量可以借助于质量标准来被确定。在当前情况下，可以有利地使用机器学习算法ANN的输出与所属的目标值Target的均方差Mean Err。由此，机器学习算法的平均误差Mean Err被量化。作为另一特别灵敏的质量标准，可以确定目标值和输出值的高于阈值的均方差的数目n Err。在当前示例中，图表示例性表明了42274个数据点、为0.18177 Nm的平均误差以及为750的阈值超出数目，其中这些数值示例只是为了图解说明本发明而被添加。

在该上下文中强调：对各个聚类的性能的解析可以通过使用相应的所分配的聚类的数据点作为验证数据来实现。从这些所属聚类的未被选择的数据点的组中提取这些验证数据。因此，本发明具有进一步的优点：通过在编排该训练数据集时选择并且随之而来地减少在这些聚类中的数据点，可以提供大量验证数据。这些验证数据尤其可以直接被分配给每个聚类或每个场景。由此，可以确定上述与聚类相关的性能。因此，在故障情况下，相应的聚类可以被定位或被找出，如在图4中针对聚类1所示出的那样。

此外，在图5中使对与聚类相关的性能的检查进一步清楚，在该图中，针对不同聚类的、即特定于聚类地所确定的性能被收集。在上述示例中，列出了九个不同的聚类，对于这些聚类来说，分别按照结合图4所描述的方式和方法来进行质量检查。在这种情况下，纯示例性地说明质量参量：均方差Mean Error（第一行）、阈值超出数目Number以及以百分比为单位的阈值超出。

图6图解说明了该方法的另一方面，在该方法中示出了该训练数据集的进一步改善的结果。

如果不满足一个或多个聚类的质量标准，则针对这些聚类可以将附加的数据点添加给该训练数据集。因此，该训练数据集被修改。例如，在一个或多个聚类中按照上述性能测试来查明：视对质量标准的限定而定，在均方差方面已经有一次或过多次的阈值超出。

接着，由于失灵或故障情况可以被分派给聚类或相关聚类（例如参见图4和5），所以可以增加这些聚类的数据点的数目。这可以有利地借助于正好来自这些相关聚类中的未被选择的数据点来实现。有利地，这样可以选择性地改善各个聚类的性能。由此实现了自动化的反馈。

在添加附加的数据点之后，可以重复地执行对各个聚类、尤其是相关聚类的性能进行训练和检查的上述步骤，其中这里参阅上述实施方案和描述。

现在，在图6中示出了针对特定聚类、这里是聚类9的训练数据集的这种改进的结果。左侧部分示例性示出了最初编排的训练数据集的聚类的性能测试。右侧部分示出了按照上文的描述的借助于各个数据点来被改进的训练数据集的同一聚类的性能。

与最初编排的聚类相比，利用再训练来被改进的聚类在性能测试中表明了输出值ANN与目标值Target的更低的平均差Mean Err。在此，阈值超出数目n Err尤其是被减少数倍，为此也参见在比较中通过三角形所表明的阈值超出的标记。因此，阈值超出数目是一种用于评价性能的非常灵敏的量度。

对该训练数据集的上述修改可以依次被重复，以便依次改善各个聚类的性能。尤其是，这可以一直被重复，直至所有聚类都满足所设定的质量标准为止。由此来产生高性能算法。例如，可以进行该改进，直至在性能测试中不再有聚类表明阈值超出。因此，该方法能够实现对该训练数据集的依次且自动化的改善，直至经修改的训练数据集满足在所有聚类中的一个或多个质量标准为止。该改进循环可以自动化地进行，而不需要内在干预。

通过所描述的方法，可以提供高性能的机器学习算法。接着，具有上述特殊性质的该机器学习算法的输出可以有利地在用于运行车辆组件的方法中被使用。在此，响应于对高性能的、按照学习方法来被训练的机器学习算法的输出，控制或调节或运行车辆组件。

图7示意性示出了按照本发明的控制单元10。在此，控制单元10被设立为实施上述方法。控制单元10尤其可以响应于或基于上述机器学习算法的输出来运行车辆组件20。控制单元10也可以是车辆组件20的一部分。在某些应用中，车辆组件20例如可以是方向盘，其中控制单元10将机器学习算法的输出用于转向力矩逼近，如例如在线控转向（Steer-by-Wire）系统中所需的那样。在其它示例中，可以进行对轮胎参数的逼近。然而，本发明并不限于这些示例。通过该方法形成的训练数据集在其不同的实施方案中提高了机器学习算法的性能。因此，该方法的方面直接引起对车辆组件20的运行的改善。

附图标记列表

10 控制单元

20 车辆组件

100 车辆

F1, ..., Fn 数据点

C1, ..., Cm 聚类

T1, ..., Tk 第一聚类的所选择的数据点

R1, ..., Rk 其余聚类的所选择的数据点

Claims

1.一种用于运行车辆组件（20）的计算机实现的机器学习方法，所述方法包括：

- 提供多个多维数据点（F1, ..., Fn）；

- 通过在使用聚类算法的情况下将多个数据点（F1, ..., Fn）划分成多维聚类（C1,..., Cm）来产生基本训练数据集，其中每个数据点（F1, ..., Fn）都被分配给正好一个聚类（C1, ..., Cm）；

- 通过从所述基本训练数据集中选择数据点来产生训练数据集，所述产生包括：

- 确定在多个聚类（C1, ..., Cm）中的具有最少数目的数据点的最小聚类（Ci），

- 为所述训练数据集选择所述最小聚类（Ci）的数据点（T1, ..., Tk）的至少一个子集，而且

- 为所述训练数据集从其余聚类（C1, ..., Ci-1, Ci+1, ..., Cm）中的每个聚类中选择数据点（R1, ..., Rk）的子集，使得每个其余聚类（C1, ..., Ci-1, Ci+1, ..., Cm）的所选择的数据点（R1, ..., Rk）的数目都对应于所述最小聚类（Ci）的所选择的数据点（T1, ..., Tk）的数目。

2.根据权利要求1所述的方法，所述方法还包括：将所述最小聚类（Ci）和/或所述其余聚类（C1, ..., Ci-1, Ci+1, ..., Cm）的未被选择的数据点存储在数据存储器中，作为用于机器学习算法的测试和/或验证数据。

3.根据权利要求1至2中任一项所述的方法，所述方法还包括：为所述训练数据集选择所述最小聚类（Ci）的所有数据点（R1, ..., Rk）的全体。

4.根据权利要求1至3中任一项所述的方法，其中从所述最小聚类（Ci）和/或所述其余聚类（C1, ..., Ci-1, Ci+1, ..., Cm）中随机选择数据点。

5.根据权利要求1至3中任一项所述的方法，其中从所述最小聚类（Ci）和/或所述其余聚类（C1, ..., Ci-1, Ci+1, ..., Cm）中选择数据点，使得聚类的所选择的数据点彼此间具有最大距离。

6.根据权利要求1至5中任一项所述的方法，所述方法还包括：借助于所产生的训练数据集，对机器学习算法进行训练。

7.根据权利要求6所述的方法，所述方法还包括：借助于质量标准在使用验证数据的情况下确定各个聚类（C1, ..., Cm）的性能。

8.根据权利要求7所述的方法，所述方法还包括：通过所属聚类的未被选择的数据点的组中的数据点，确定所述各个聚类的性能。

9.根据权利要求7至8中任一项所述的方法，其中所述质量标准包括输出值相对于目标值的高于阈值的均方差。

10.根据权利要求7至9中任一项所述的方法，所述方法还包括：通过将数据点添加给不满足所述质量标准的聚类，创建经修改的训练数据集。

11.根据权利要求10所述的方法，其中从不满足所述质量标准的那个聚类的未被选择的数据点的组中提取所添加的数据点。

12.根据权利要求10和11中任一项所述的方法，所述方法还包括：重复对所述训练数据集的修改，直至对于所有聚类（C1, ..., Cm）来说都满足所述质量标准为止。

13.一种用于运行车辆组件（20）的方法，所述方法包括：基于根据上述权利要求1至12中任一项所述的方法训练的机器学习算法的输出来运行所述车辆组件（20）。

14.一种用于车辆（100）的控制单元（10），所述控制单元被设立为实施根据权利要求13所述或者根据权利要求1至12中任一项所述的方法。

15.一种车辆（100），所述车辆包括根据权利要求14所述的控制单元（10）。