CN113168570A

CN113168570A - 用于训练用于机动车的控制设备的至少一个算法的方法、计算机程序产品以及机动车

Info

Publication number: CN113168570A
Application number: CN201980080062.9A
Authority: CN
Inventors: U·埃贝勒; S·哈勒巴赫; J·克梅雷尔
Original assignee: Peugeot Citroen Automobiles SA
Current assignee: PSA Automobiles SA
Priority date: 2018-12-03
Filing date: 2019-10-24
Publication date: 2021-07-23
Also published as: DE102018220865B4; WO2020114674A1; DE102018220865A1; EP3891664A1; US20220009510A1; MA54363A

Abstract

一种用于训练用于机动车的控制设备的至少一个算法的方法，所述控制设备用于实现自主驾驶功能，其中，通过自学习的神经网络训练所述算法，所述方法包括以下步骤：a)提供用于所述自主驾驶功能的计算机程序产品模块，其中，所述计算机程序产品模块包含待训练的算法和所述自学习的神经网络；b)提供至少一个指标和奖励函数；c)将所述计算机程序产品模块嵌入到模拟环境中以模拟至少一个重要相关的交通状况，以及通过模拟紧急的场景并且求取所述指标(M)来训练所述自学习的神经网络，直到满足第一品质标准(G1)为止；d)将经训练的计算机程序产品模块嵌入到所述机动车的控制设备中以模拟重要相关的交通状况，以及通过模拟紧急的场景并且求取所述指标(M)来训练所述自学习的神经网络，直到满足第二品质标准(G2)为止，其中，e)，(i)如果步骤d)中的所述指标(M)差于所述第一品质标准(G1)，则所述方法从步骤c)起继续，或者(ii)如果步骤d)中的所述指标(M)优于所述第一品质标准(G1)而差于所述第二品质标准(G2)，则所述方法从步骤d)起继续。

Description

用于训练用于机动车的控制设备的至少一个算法的方法、计算机程序产品以及机动车

技术领域

在本文中描述一种用于训练用于机动车的控制设备的至少一个算法的方法、一种计算机程序产品以及一种机动车，其中，该控制设备用于在干预机动车的机组(Aggregate)的情况下实现自主驾驶功能。

背景技术

开篇所提及类型的方法、计算机程序产品和机动车在现有技术中是已知的。在过去的几年中，第一自主驾驶机动车已经达到成批生产的水平(Serienreife)。自主驾驶机动车必须基于各种预先规定(例如目的地和常见交通规则的遵守)以最大的安全性独立地对未知的交通状况做出反应。由于交通现实由于交通参与者的行为的不可预测性而是高度复杂的，因此几乎不可能以常规的方法和规则来对机动车的相应控制设备进行编程。

相反，已知借助机器学习或者说人工智能方法来开发算法，这些算法一方面能够比传统算法更适度地对紧急的交通状况做出反应。另一方面，借助人工智能能够通过持续的学习在日常生活中进一步开发算法。

DE 10 2015 007 493 A1公开一种用于训练在机动车的控制设备中使用的、基于机器学习的决策算法的方法，其中，该决策算法根据描述当前运行状态和/或当前驾驶状况的输入数据来求取为了控制机动车的运行而要考虑的输出数据以及描述输出数据可靠性的可靠性值，并且在机动车中使用之前基于基本训练数据集进行训练，其中，在可靠性值低于阈值的情况下，将分配给可靠性值的输出数据的求取所基于的输入数据存储为评估输入数据，并且在之后的时刻向人工评估员示出，然后，通过评估员的操作输入接收与输出数据相对应的评估输出数据，并且基于由评估输入数据以及所分配的评估输出数据形成的改善训练数据集对决策算法进行训练。

Hallerbach、Xia、Eberle&Koester(2018年4月3日)的《Simulation-basedIdentification of Critical Scenarios for Cooperative and Automated Vehicles》(SAE 2018-01-1066)描述一系列用于基于模拟开发紧急场景的辅助工具。该过程包含机动车的动态行为的模拟以及交通状况的模拟和虚拟交通参与者的合作行为的模拟。基于指标(例如，安全性指标或交通质量指标)来识别紧急状况。

已知方法的缺点是，用于自主驾驶机动车的达到成批生产水平的算法的开发是高开销的并且耗时很长。

因此，任务是如下扩展开篇所提及类型的用于训练用于机动车的控制设备的至少一个算法的方法、计算机程序产品以及机动车，使得自主驾驶功能能够与至今相比更快地且以更高的质量在自主驾驶的机动车中实现。

发明内容

该任务通过根据权利要求1的用于训练用于机动车的控制设备的至少一个算法的方法、根据并列权利要求9的计算机程序以及根据并列权利要求11的机动车来解决。进一步实施的构型和扩展方案是从属权利要求的主题。

下面描述一种用于训练用于机动车的控制设备的至少一个算法的方法，其中，该控制设备设置用于，在使用所述至少一个算法的情况下基于输入数据在干预机动车的机组的情况下实现自主驾驶功能，其中，通过自学习的神经网络训练该算法，该方法包括以下步骤：

a)提供用于自主驾驶功能的计算机程序产品模块，其中，该计算机程序产品模块包含待训练的算法和自学习的神经网络；

b)提供用于自主驾驶功能的至少一个指标和奖励函数(Belohnungsfunktion)；

c)将计算机程序产品模块嵌入到模拟环境中以模拟对于自主驾驶功能重要相关的至少一个交通状况，其中，模拟环境基于真实环境的地图数据以及基于机动车的数字车辆模型，

通过模拟紧急的场景并且求取品质来训练自学习的神经网络，直到满足第一品质标准(Gütemaβ)为止，其中，品质是至少一个指标的品质函数的结果；

d)将经训练的计算机程序产品模块嵌入到机动车的控制设备中以模拟对于自主驾驶功能重要相关的交通状况，其中，模拟在基于真实环境的地图数据的模拟环境中执行，

通过模拟紧急的场景并且求取品质来训练自学习的神经网络，直到满足第二品质标准为止，其中，第二品质标准比第一品质标准更严格；

e)(i)如果步骤d)中的品质差于第一品质标准，则该方法从步骤c)起继续，或者

(ii)如果步骤d)中的品质优于第一品质标准而差于第二品质标准，则该方法从步骤d)起继续。

与借助常规方法相比，借助前述方法能够更快地且更安全地开发通过自学习的神经网络开发的、用于实现自主驾驶功能的算法。

由于在早期的步骤中在纯虚拟的环境中训练系统，因此在自学习的神经网络可以在下一步骤中使算法匹配于较安全的虚拟环境中的由于真实的机动车而造成的较复杂的状况之前，算法已经能够达到一定的成熟度。增加的复杂性例如来自真实传感器的传感器输入信号的变化、信号链中的延迟、温度相关性和类似的现象。

通过引入用于算法的品质标准(借助该品质标准来测量所求取的指标)，在算法不适合步骤d)中的更高现实级别的情况下，能够避免较长的学习过程，其方式为：暂时将学习过程重置到步骤c)中的不太复杂的完全模拟中，并在那里进一步开发算法。

相应的指标例如可以是：每个路线的平均事故数量，每个路线的危险状况数量，每个路线的忽视交通规则的数量等。由这些指标能够求取品质，该品质借助品质标准来测量。然后，更严格的品质标准例如意味着每个路线更少的事故、每个路线更少的危险状况等。只有当不再低于品质标准时，才能在下一阶段中进一步实施训练。由此能够防止不稳定的算法需要长的学习时间，并且能够更早地实现更高质量的算法。

第一可能的进一步实施的构型设置：

f)在混合现实的环境中模拟对于自主驾驶功能重要相关的交通状况，以及通过模拟紧急的场景并且求取品质来训练自学习的神经网络，直到满足第三品质标准为止，其中，第三品质标准比第二品质标准更严格，其中，

g)如果步骤f)中的品质差于第二品质标准，则该方法从步骤e)起继续。

根据该实施方式，可以在下一步骤中通过自学习的神经网络在混合现实的环境中进行算法的扩展，在该混合现实的环境中，交通参与者的危险最小化。通过基于品质标准来检查品质并且在必要时返回到算法开发的较早阶段，同样能够加速学习过程。

另一可能的进一步实施的构型设置：

h)在真实环境中模拟对于自主驾驶功能重要相关的交通状况，以及通过模拟紧急的场景并且求取品质来训练自学习的神经网络，直到满足第四品质标准为止，其中，第四品质标准比第三品质标准更严格，其中，

i)如果步骤h)中的品质差于第三品质标准，则该方法从步骤g)起继续，或者如果步骤h)中的品质差于第二品质标准，则该方法从步骤e)起继续。

根据该实施方式，可以在下一步骤中通过自学习的神经网络在真实环境中进行算法的扩展。在该时刻可以假设算法已经足够稳定，使得道路交通中的安全性不再遭到危险。通过检查品质并且在必要时返回到算法开发的较早阶段，同样能够加速学习过程。

另一可能的进一步实施的构型设置，当指标满足第四品质标准时，启用计算机程序产品模块以用于道路交通中的使用。

在该时刻可以假设算法足够稳定，以便在常规的道路交通中使用。

另一可能的进一步实施的构型设置，方法步骤f)和/或h)由安全驾驶员执行。

由此能够进一步降低其他交通参与者的风险，因为指示安全驾驶员始终在短时间内接管对自主驾驶机动车的控制。

另一可能的进一步实施的构型设置，指标具有以下标准：每单位路线的事故和/或碰撞时间和/或制动时间和/或所需延迟

相应的指标易于求取。

另一可能的进一步实施的构型设置，神经网络根据“加强学习(

Lernen)”方法进行学习。

加强学习或强化学习(Reinforcement Learning)代表一系列机器学习方法，在这些方法中，代理人(Agent)(在此为自学习的神经网络)自身持续地学习策略，以便最大化所获得的奖励。在此，未向代理人预先示出在哪个状况下哪个动作是最好的，而是该代理人在确定的时刻获得奖励，该奖励也可能是负的。基于奖励，代理人近似效用函数(Nutzenfunktion)，该效用函数描述确定的状态或确定的动作具有哪个值。借助相应的学习方法，自学习的神经网络能够持续地进一步开发该算法。

另一可能的进一步实施的构型设置，神经网络根据随机原理尝试现有算法的变型。

由此能够实现，在应用算法的高维空间中，测试导致期望结果的各种策略。

第一独立主题涉及一种用于训练用于机动车的控制设备的至少一个算法的设备，其中，该控制设备设置用于，在使用至少一个算法的情况下基于输入数据在干预机动车的机组的情况下实现自主驾驶功能，其中，通过自学习的神经网络训练该算法，其中，该设备设置用于执行以下步骤：

b)提供用于自主驾驶功能的至少一个指标和奖励函数；

通过模拟紧急的场景并且求取品质来训练自学习的神经网络，直到满足第一品质标准为止，其中，品质是至少一个指标的品质函数的结果；

d)将经训练的计算机程序产品模块嵌入到机动车的控制设备中，以便模拟对于自主驾驶功能重要相关的交通状况，其中，模拟在基于真实环境的地图数据的模拟环境中执行，

通过模拟紧急的场景并且求取指标来训练自学习的神经网络，直到满足第二品质标准为止，其中，第二品质标准比第一品质标准更严格；

第一可能的进一步实施的构型设置，该设备还设置用于：

另一可能的进一步实施的构型设置，该设备还设置用于：

h)在真实环境中模拟对于自主驾驶功能重要相关的交通状况，以及通过模拟紧急的场景并且求取品质来训练自学习的神经网络，直到满足第四品质标准为止，其中，第四品质标准比第三品质标准更严格，其中，如果步骤h)中的品质差于第三品质标准，则该方法从步骤g)起继续，或者如果步骤h)中的品质差于第二品质标准，则该方法从步骤e)起继续。

另一可能的进一步实施的构型设置，该设备还设置用于，当品质满足第四品质标准时，启用计算机程序产品模块以用于道路交通中的使用。

另一可能的进一步实施的构型设置，该设备还设置用于，方法步骤f)和/或h)可以由安全驾驶员执行。

另一可能的进一步实施的构型设置，该设备还设置用于，将以下标准用作指标：每单位路线的事故和/或碰撞时间和/或制动时间和/或所需延迟。

另一可能的进一步实施的构型设置，神经网络设置用于根据“加强学习”方法进行学习。

另一可能的进一步实施的构型设置，神经网络设置用于根据随机原理尝试现有算法的变型。

另一独立的主题涉及一种计算机程序产品，该计算机程序产品具有计算机可读的存储介质，在该计算机可读的存储介质上嵌入有指令，当由计算单元实施这些指令时，这些指令实现，计算单元设置用于实施根据以上权利要求中任一项所述的方法。

该计算机程序产品的第一进一步实施的构型设置，前述类型的计算机程序产品模块具有这些指令。

另一独立的主题涉及一种机动车，该机动车具有计算单元和计算机可读的存储介质，其中，在该存储介质上存储有前述类型的计算机程序产品。

第一进一步实施的构型设置，计算单元是控制设备的组成部分。

另一进一步实施的构型设置，计算单元与环境传感器联网。

附图说明

其他特征和细节从以下描述中得出，在该描述中(必要时参考附图)详细描述至少一个实施例。所描述的和/或通过图形示出的特征单独地或以任何有意义的组合形成主题，必要时也独立于权利要求，并且尤其附加地还可以是一个或多个单独申请的主题。相同的、相似的和/或功能相同的部件设有相同的附图标记。在此示意性示出：

图1示出机动车，该机动车设置用于自主驾驶；

图2示出用于来自图1的机动车的计算机程序产品；以及

图3示出该方法的流程图。

具体实施方式

图1示出机动车2，该机动车设置用于自主驾驶。

机动车2具有机动车控制设备4，该机动车控制设备具有计算单元6和存储器8。在存储器8中存储有计算机程序产品，下面尤其结合图2和图3更详细地描述该计算机程序产品。

机动车控制设备4一方面与一系列环境传感器连接，这些环境传感器允许检测机动车2的当前位置以及相应的交通状况。这些环境传感器包括：机动车2的前部处的环境传感器10、12，机动车2的尾部处的环境传感器14、16，摄像机18以及GPS模块20。根据构型能够设置其他传感器，例如车轮转数传感器、加速度传感器等，这些其他传感器与机动车控制设备4连接。

在机动车2运行期间，计算单元6加载存储在存储器8中的计算机程序产品并且实施该计算机程序产品。基于算法和输入信号，计算单元6决定对机动车2的控制，计算单元6可以通过干预分别与机动车控制设备4连接的转向装置22、马达控制装置24以及制动装置26来实现该控制。

图2示出具有计算机程序产品模块30的计算机程序产品28。

计算机程序产品30具有自学习的神经网络32，该自学习的神经网络训练算法34。自学习的神经网络32根据加强学习方法来进行学习，即，神经网络32试图通过算法34的变型来相应于一个或多个标准(Kriterien或

)获得用于经改善的性能的奖励、即用于算法34的改善的奖励。

算法34基本上可以包括复杂的滤波器，该滤波器具有由定义滤波器函数的值(通常称为权重)组成的矩阵，该滤波器函数根据输入参量(这些输入参量当前通过环境传感器10至20记录)确定算法34的性能并生成用于控制机动车2的控制信号。

对算法34的品质的监控由另一计算机程序产品模块36进行，该另一计算机程序产品模块监控输入参量和输出参量、从中求取指标并基于指标通过函数来控制品质的遵守。同时，计算机程序产品模块36可以对神经网络32给予负奖励以及正奖励。

图3示出方法的流程图。

在第一步骤中，提供计算机程序产品模块和学习环境。

在纯虚拟的环境中，作为模型的机动车以及环境都是虚拟提供的。机动车的模型在其参数、传感装置、驾驶特性及其性能方面对应于之后的真实模型。环境的模型基于真实环境的地图数据，以便尽可能切合实际地形成模型。

在这种纯虚拟的环境中，训练一直进行，直到品质G_M优于预先给定的品质标准G1为止。品质G_M由品质函数G(M)得出，该品质函数是至少一个指标M的函数。相应的指标M可以是诸如每单位路线的事故和/或碰撞时间和/或制动时间之类的标准，和/或可以具有相似的测量参量，例如所需延迟、横向加速度、低于安全间距、违反适用的交通规则等。

只要品质G_M不足以超过第一品质标准G1，就继续该训练。

只有当品质G_M如此之高而使得超过第一品质标准G1时，才切换到训练的下一阶段，在该阶段中，将计算机程序产品传输到真实机动车的机动车控制设备4中，并在那里进一步训练。

训练是在虚拟环境中基于真实的机动车进行的。通过使用真实的机动车(真实的机动车在某些情况下与该机动车的来自第一训练阶段的虚拟模型相比性能不同)，能够如此进一步开发算法34，使得算法能够考虑真实机动车2的性能。例如，差异可能是由于使用真实的传感器而产生的，这些真实的传感器可能具有不同的信号高度、噪声等。

在训练期间始终监控品质函数G(M)。目标是品质G_M优于第二品质标准G2。第二品质标准G2比第一品质标准G1更严格。

在切换到真实的机动车2时可能发生：品质G_M低于第一品质标准G1。在这种情况下，切换回到纯虚拟的环境中，并一直继续进行训练，直到算法34超过第一品质标准G1为止，并以真实的机动车2继续进行训练。

只有当品质G_M不再低于第二品质标准G2时，才能够在下一步骤中继续进行训练。

然后，切换到部分真实、部分虚拟的环境中，在该环境中，继续先前描述的原理。如果品质函数低于第二品质标准G2的阈值，则将该方法重置到先前的训练步骤。如果品质函数甚至低于第一品质标准G1的阈值，则将该方法重置到初始的训练步骤。

相同的原理在下一步骤中继续进行，其方式为：在真实环境中训练神经网络。该步骤和先前的步骤可以由安全驾驶员来执行，这些安全驾驶员能够在紧急状况中快速切换回手动驾驶模式。

只要品质G_M优于第四G4，就能够启用算法34以用于自由的交通。

尽管已经通过实施例详细地说明和阐述主题，但是本发明不受限于所公开的示例，并且其他变型可以由本领域技术人员从中推导出。因此，明显存在多个变型可能性。同样明显的是，示例性地提及的实施方式仅示出示例，这些实施方式无论如何都不应理解为对本发明的保护范围、应用可能性或配置的限制。相反，先前的描述和附图描述使得本领域技术人员能够具体地实现这些示例性的实施方式，其中，本领域技术人员在了解所公开的发明构思的情况下能够例如在示例性的实施方式中所提及的各个元件的功能或布置方面进行各种改变，而不脱离通过权利要求及其法律等同物(例如说明书中的进一步阐述)所限定的保护范围。

附图标记列表

2 机动车

4 机动车控制设备

6 计算单元

8 存储器

10 环境传感器

12 环境传感器

14 环境传感器

16 环境传感器

18 摄像机

20 GPS模块

22 转向装置

24 马达控制装置

26 制动装置

28 计算机程序产品

30 计算机程序产品模块

32 神经网络

34 算法

36 计算机程序产品模块

G(M) 品质函数

G_M 品质

G1 第一品质标准

G2 第二品质标准

G3 第三品质标准

G4 第四品质标准

M 指标。

Claims

1.一种用于训练用于机动车(2)的控制设备(4)的至少一个算法(34)的方法，其中，所述控制设备(4)设置用于，在使用所述至少一个算法(34)的情况下基于输入数据在干预所述机动车(2)的机组(22，24，26)的情况下实现自主驾驶功能，其中，通过自学习的神经网络(32)训练所述算法(34)，所述方法包括以下步骤：

a)提供用于所述自主驾驶功能的计算机程序产品模块(28)，其中，所述计算机程序产品模块(28)包含待训练的算法(34)和所述自学习的神经网络(32)；

b)提供用于所述自主驾驶功能的至少一个指标(M)和奖励函数；

c)将所述计算机程序产品模块(28)嵌入到模拟环境中以模拟对于所述自主驾驶功能重要相关的至少一个交通状况，其中，所述模拟环境基于真实环境的地图数据以及基于所述机动车(2)的数字车辆模型，

通过模拟紧急的场景并且求取品质(G_M)来训练所述自学习的神经网络(32)，直到满足第一品质标准(G1)为止，其中，所述品质(G_M)是所述至少一个指标(M)的品质函数(G(M))的结果；

d)将经训练的计算机程序产品模块(28)嵌入到所述机动车(2)的控制设备(4)中以模拟对于所述自主驾驶功能重要相关的交通状况，其中，所述模拟在基于真实环境的地图数据的模拟环境中执行，

通过模拟紧急的场景并且求取所述品质(G_M)来训练所述自学习的神经网络(32)，直到满足第二品质标准(G2)为止，其中，所述第二品质标准(G2)比所述第一品质标准(G1)更严格；其中，

e)(i)如果步骤d)中的所述品质(G_M)差于所述第一品质标准(G1)，则所述方法从步骤c)起继续，或者

(ii)如果步骤d)中的所述品质(G_M)优于所述第一品质标准(G1)而差于所述第二品质标准(G2)，则所述方法从步骤d)起继续。

2.根据权利要求1所述的方法，其中，

f)在混合现实的环境中模拟对于所述自主驾驶功能重要相关的交通状况，以及通过模拟紧急的场景并且求取所述品质(G_M)来训练所述自学习的神经网络(32)，直到满足第三品质标准(G3)为止，其中，所述第三品质标准(G3)比所述第二品质标准(G2)更严格，其中，

g)如果步骤f)中的所述品质(G_M)差于所述第二品质标准(G2)，则所述方法从步骤e)起继续。

3.根据权利要求2所述的方法，其中，

h)在真实环境中模拟对于所述自主驾驶功能重要相关的交通状况，以及通过模拟紧急的场景并且求取所述品质(G_M)来训练所述自学习的神经网络(32)，直到满足第四品质标准(G4)为止，其中，所述第四品质标准(G4)比所述第三品质标准(G3)更严格，其中，

i)如果步骤h)中的所述品质(G_M)差于所述第三品质标准(G3)，则所述方法从步骤g)起继续，或者如果步骤h)中的所述品质(G_M)差于所述第二品质标准(G2)，则所述方法从步骤e)起继续。

4.根据权利要求3所述的方法，其中，当所述品质(G_M)满足所述第四品质标准(G4)时，启用所述计算机程序产品模块(28)以用于道路交通中的使用。

5.根据以上权利要求中任一项所述的方法，其中，所述方法步骤f)和/或h)由安全驾驶员执行。

6.根据以上权利要求中任一项所述的方法，其中，所述指标(M)具有以下标准：每单位路线的事故和/或碰撞时间和/或制动时间和/或所需延迟。

7.根据以上权利要求中任一项所述的方法，其中，所述神经网络(32)根据“加强学习”方法进行学习。

8.根据以上权利要求中任一项所述的方法，其中，所述神经网络(32)根据随机原理尝试现有算法的变型。

9.一种计算机程序产品，所述计算机程序产品具有计算机可读的存储介质(8)，在所述计算机可读的存储介质上嵌入有指令，当由计算单元(6)实施所述指令时，所述指令实现，所述计算单元(6)设置用于实施根据以上权利要求中任一项所述的方法。

10.根据权利要求9所述的计算机程序产品，其中，根据权利要求1至8中任一项所述的计算机程序产品模块(28)具有所述指令。

11.一种机动车()，所述机动车具有计算单元(6)和计算机可读的存储介质(8)，其中，在所述存储介质(8)上存储有根据权利要求9或10所述的计算机程序产品。

12.根据权利要求11所述的机动车(2)，其中，所述计算单元(6)是所述控制设备(4)的组成部分。

13.根据权利要求11或12所述的机动车，其中，所述计算单元(6)与环境传感器(10，12，14，16，18)联网。