CN114616157A

CN114616157A - 用于通过强化学习检查自动化的行驶功能的方法和系统

Info

Publication number: CN114616157A
Application number: CN202080073227.2A
Authority: CN
Inventors: V·南凯弗; A·法威林
Original assignee: Bayerische Motoren Werke AG
Current assignee: Bayerische Motoren Werke AG
Priority date: 2019-11-07
Filing date: 2020-11-03
Publication date: 2022-06-10
Also published as: US20220396280A1; DE102019130040A1; WO2021089499A1

Abstract

本公开涉及一种通过强化学习来检查自动化的行驶功能的方法。该方法包括：提供自动化的行驶功能的至少一个规范；产生场景，其中场景通过第一参数组a_t来指示；以及求取奖励函数，使得与在模拟中的场景满足至少一个规范的情况下相比，在模拟中的场景不满足至少一个规范的情况下，奖励R_nn更高。

Description

用于通过强化学习检查自动化的行驶功能的方法和系统

技术领域

本公开涉及通过强化学习来检查自动化的行驶功能的方法和系统。本公开尤其涉及违反自动化的行驶功能的规范的场景的产生。

背景技术

用于自动化行驶的行驶辅助系统变得越来越重要。自动化行驶可以以不同的自动化程度进行。示例性的自动化程度是辅助驾驶、部分自动化驾驶、高度自动化驾驶、或全自动化驾驶。这些自动化程度由联邦公路研究所(BASt)定义(请参阅BASt出版物“Forschungkompakt”，版本11/2012)。例如，具有级别4的车辆完全自主地在城市运行中上路。

自主行驶功能的发展的主要挑战是严格的确认和验证，以实现安全策略的遵循以及足够的客户信任水平。传统的测试方案对于自主行驶而言只能不充分扩展，因为对于每次发布而言需要大量的实际行程。

一种用于验证和评价需要处理多个可能的交通情况的自行驶车辆的可能方案在于虚拟的模拟环境。为了从模拟中获得对自主行驶功能的有说服力的评价，所模拟的环境必须足够真实。此外，必须能够自动地检查自主车辆的允许的行为(规范)，并且所实施的测试场景必须覆盖所有典型情况以及罕见但真实的行驶情况。

虽然有一些方案可以满足前两个要求，但由于相关参数空间的高维度和非凸性，满足这些要求并不是容易的任务。数据控制的方案在一定程度上提供了补救，但是对大量的实际数据的分析不能保证所有相关场景都被包含和测试。因此，大多数现有方案基于可能使用分析模型的合适的基于样本的检查。然而，这些方法不能针对从传感器数据处理直至产生的致动器信号的整个端到端行驶功能来执行并且必须在系统改变时完全重新实施。

发明内容

本公开的任务是提供一种通过强化学习来检查自动化的行驶功能的方法、一种实施该方法的存储介质、以及一种通过强化学习来检查自动化的行驶功能的系统，强化学习允许快速且有效地检查自动化的行驶功能。此外，本公开的任务是有效地伪造自动化的行驶功能以暴露自动化的行驶功能中的弱点。

该任务通过独立权利要求的主题来实现。有利的设计方案在从属权利要求中说明。

根据本公开的一个独立方面，提供了一种通过强化学习检查自动化的行驶功能的方法。该方法包括：提供自动化的行驶功能的至少一个规范；产生场景，其中场景通过第一参数组来指示；以及求取奖励函数，使得与在模拟中的场景满足至少一个规范的情况下相比，在模拟中的场景不满足至少一个规范的情况下，奖励更高。例如，可以使用基于规则的模型来求取该奖励函数。

根据本发明，求取与场景中所有对象的轨迹相关的奖励函数。尤其，RL智能体学习生成场景，该场景最大化奖励并且反映对行驶功能规范的违反。因此，通过将现有的先验知识包含到训练过程中，可以加速学习。由此可以有效地伪造(falsifizieren)自动化的行驶功能，以便暴露在自动化的行驶功能中的弱点。

优选地，基于规则的模型描述用于自动化的行驶功能的车辆调节器。在此，调节器是以自动化的行驶功能行驶的车辆的行为的(简化的)模型。

优选地，该方法还包括产生第二参数组，该第二参数组指示对第一参数组的修改。这可以通过对抗智能体来进行。

优选地，该方法还包括：

在模拟中使用基于规则的模型来求取针对具体场景的奖励函数的值的估计R_est；

产生对应于第三参数组a_t+1的另外的场景，其中基于第二参数组a_nn和参数组a_est，确定第三参数组a_t+1，参数组a_est使得基于规则的模型的估计R_est最大化；以及

求取奖励函数，使得在对于模拟中的场景奖励函数的值的估计R_est低于奖励函数的实际值R的情况下，奖励R更高。

优选地，使用排除特定场景的不等式约束来进行产生与第三参数组对应的另外的场景。不等式约束可以被定义为：

|a_nn-d_est|＜a_Schwelle

优选地，在使用参数组到特定场景的集合上的投影的情况下进行对应于第三参数组的另外的场景的产生。

根据本公开的另一方面，提供了一种通过强化学习检查自动化的行驶功能的系统。系统包括处理器单元，处理器单元被配置成实施用于根据在本文中描述的实施方式通过强化学习来检查自动化的行驶功能的方法。

该系统尤其被设置成实施在本文中描述的方法。该方法可以实现本文中所描述的系统的各方面。

根据本发明的方法也可以在HIL(硬件在环)环境中被模拟。

根据另外的独立方面，说明一种软件(SW)程序。SW程序可以被设置成在一个或多个处理器上执行并且由此实施在本文中的方法。

根据另外的独立方面，说明一种存储介质。存储介质可以包括SW程序，该SW程序被设置成在一个或多个处理器上执行并且由此实施在本文中的方法。

术语“自动化行驶”在本文的上下文中可以理解为具有自动化的纵向或横向引导的行驶或具有自动化的纵向和横向引导的自主行驶。自动化行驶例如可以是在高速公路上时间上较长的行驶或者是在泊车或调车的范围内时间上受限的行驶。术语“自动化行驶”包括具有任意自动化程度的自动化行驶。示例性的自动化程度是辅助驾驶、部分自动化驾驶、高度自动化驾驶或全自动化驾驶。这些自动化程度由联邦公路研究所(BASt)定义(请参阅BASt出版物“Forschung kompakt”，版本11/2012)。

在辅助驾驶时，驾驶员持续地实施纵向或横向引导，而系统在一定的范围内接管相应其他的功能。在部分自动化驾驶(TAF)中，系统在一定的时间段中和/或在特定的情况中接管纵向和横向引导，其中驾驶员必须如在辅助行驶时那样持续地监控系统。在高度自动化驾驶(HAF)中，系统在一定的时间段上接管纵向引导和横向引导，而驾驶员不必持久地监控系统；驾驶员不必在一定时间内能够接管车辆引导。在全自动化驾驶(VAF)中，对于特定的应用情况，系统可以在所有情况下自动地应对行驶；对于这种应用情况不再需要驾驶员。

上述四个自动化程度对应于SAE J3016标准(SAE汽车工程学会)的SAE级别1至4。例如，高度自动化行驶(HAF)对应于SAE J3016标准的级别3。此外，在SAE J3016中还规定SAE级别5作为不被包括在BASt的定义中的最高自动化程度。SAE级别5对应于无人驾驶，其中系统可以如人类驾驶员那样在整个行驶期间自动地应对所有情形；通常不再需要驾驶员。

附图说明

本公开的实施例在附图中示出并且在下面更详细地描述。其中：

图1示意地示出根据本公开的实施方式的用于自动化行驶的行驶辅助系统，

图2示出强化学习方案的一般示意图；

图3示出根据本公开的实施方式的用于检查自动化的行驶功能的方法的流程图；

图4示出根据本公开的实施方式的用于检查自动化的行驶功能的示意图；并且

图5示出根据本公开的另外的实施方式的用于检查自动化的行驶功能的示意图。

具体实施方式

除非另有说明，否则在下文中对于相同的和起相同作用的元件使用相同的附图标记。

图1示意地示出根据本公开的实施方式的用于自动化行驶的行驶辅助系统。

车辆100包括用于自动化行驶的行驶辅助系统110。在自动化行驶中，自动地进行车辆100的纵向和横向引导。因此，行驶辅助系统110接管车辆引导。为此，行驶辅助系统110通过未示出的中间单元控制驱动器20、传动机构22、液压行车制动器24和转向部26。

为了规划和执行自动化行驶，由驾驶员辅助系统110接收观察车辆环境的环境传感装置的环境信息。车辆尤其可以包括至少一个环境传感器12，该至少一个环境传感器被设置用于记录指示车辆环境的环境数据。至少一个环境传感器12例如可以包括激光雷达(LiDAR)系统、一个或多个雷达系统、和/或一个或多个摄像头。

本公开的目的是：根据用于自主或自动化的行驶功能的可自动验证的规范和连续虚拟的模拟环境来学习可以如何有效地生成使功能失真的场景。

在一个示例中，考虑ACC(自适应巡航控制)功能。ACC功能被设置用于遵循与在前行驶的车辆的安全距离。借助于被定义为t_h＝h/v的时间间隙t_h，ACC请求可以被表述如下：

-两种可能的模式：额定速度模式和时间间隔模式；

在额定速度模式中，应当遵守由驾驶员预设或期望的速度v_d，即v_d∈[v_d,min；v_d,max]；

在时间间隔模式中，应当相对于在前行驶的车辆遵守超前时间t_h，即t_h∈[t_h,min；t_h,max]。

当V_d≤h/t_d时，系统处于额定速度模式中，否则系统处于时间间隔模式中。此外，车辆的加速度必须始终满足a_c∈[a_c,min；a_c,max]。

根据本公开的实施方式，使用强化学习(RL)，并且尤其使用基于强化学习的对抗智能体(在图中由智能体(Agent)表示)。RL智能体学习生成最大化特定奖励的场景。由于智能体的目的是伪造行驶功能，所以将该奖励函数被设计成：当场景导致违反规范时，智能体获得高奖励，并且当自主行驶功能按照规范工作时，获得低奖励。

智能体重复地观察系统s的状态，该系统s包括用于给定规范的所有相关变量。基于状态，智能体按照其学习的策略执行动作a并且获得相应的奖励R(s，a)。动作由有限组的场景参数构成。随着时间的推移，智能体修改其策略以最大化其奖励。

RL智能体的输出是场景参数组a，场景参数组包括例如初始车辆速度、期望车辆、初始时间间隙、以及由速度段v_f的有限时序编码的车辆速度分布，其中t_i∈t₀、t₁、…、t_n。它以初始参数组a₀开始并计算相应的初始环境状态s₀。状态s_t包含所有对于检查遵循规范相关的变量，例如最小加速度和最大加速度、与前方车辆的最小距离和最大距离、或者最小时间进度和最大时间进度、最小速度和最大速度等。然后，可以直接检测或者数值地通过形式为A[s；a]-b≤0的不等式近似以上所有规范语句。

基于RL的智能体的输入是在时间点t的环境状态s_t并且输出是用于下一次历程的经修改的场景参数a_t+1。例如，选择该奖励函数使得R(s，a)＝Σ_x max(0，(exp(x)-1))，其中x表示用于规范的不等式A[s；a]-b≤0的左侧的任意一行的值。这保证只有当智能体已经找到违反规范的场景时奖励才是大的。图2示出这种情况的一般示意图。

一般的RL方案以慢的、高变化为代价，学习复杂任务可能需要数百万次迭代，并且每次迭代可能是高花费的。更重要的是，学习历程之间的变化可能非常高，这意味着RL算法的一些历程是成功的，而其他历程由于在初始化和扫描时的随机性而失败。这种学习的高度可变性可能对RL的应用是显著障碍。这个问题在大的参数空间中变得更大。

上述问题可以通过以下方式来减轻：引入关于过程的先验知识，先验知识可以通过不等式g(s_t，a_t)≤0(该不等式排除了轻微违反规范的场景)被适当建模，也就是说，例如确保车辆在无伤害(安全)状态中启动。该不等式作为奖励函数中的调节表达式或者作为用于学习进展的聚焦的神经网络的输出约束被集成到学习过程中。任何连续的可变RL方法，例如策略梯度方法或执行器关键方法，可以用于RL智能体。

尽管利用上述方法可以排除轻微违反规范的许多参数化，但仍然需要大量的历程，这些历程可能持续高达几天，直到由RL智能体生成感兴趣的场景。因此，可以集成还更多的先验知识以加速学习过程。

图3示出根据本公开的实施方式的用于通过强化学习来检查自动化的行驶功能的方法300的流程图。

该方法300包括在框310中提供自动化的行驶功能的至少一个规范；在框320中产生场景，其中场景通过第一参数组来指示；以及在框330中求取奖励函数，使得与在模拟中的场景满足至少一个规范的情况下相比，在模拟中的场景不满足至少一个规范的情况下，奖励更高，其中使用基于规则的模型来求取奖励函数。

与自主或自动化的车辆中实际使用的算法无关，假设车辆由传统的(基于规则的)控制系统控制并且行驶动态性通过简单的分析模型描述，所有这些通过差分方程x_k+1＝f_k(x_k，s_t，a_t)可检测，其中x_k表示在实施时间上的车辆的状态。在此基础上，对于当前的环境状态s_t可以表述为以下优化问题：

x_k+1＝f_k(x_k，a_est，s_t)

用于确定新的参数组a_est，以提供最大奖励的估计R_est,max。如果优化问题不是凸的(通常是这种情况)，则可以使用凸松弛或其他近似方法。

然后，RL智能体并行获得状态s_t和RL智能体奖励

R_nn＝|R(s_t，a_t)-R_est|_n，n∈{1，2}

并且产生新的参数组a_nn。以这种方式，RL智能体可以仅学习基于规则的控制行为与实际系统而非整个系统之间的差异，并且产生相应的修改a_nn。最后，用于下一次实施的新参数组被确定成a_s+t＝a_est+a_nn。为了避免在不安全状态下的初始化，可以使用上述方法通过不等式g(s_t，a_est)≤0来近似先验知识。

图4和图5示出实现这一点的根据本公开的实施方式的两种可能的示意图。

该方法包括：产生指示对第一参数组的修改的第二参数组，并且产生对应于第三参数组的另外的场景，其中基于第二参数组并且使用基于规则的模型来确定第三参数组。

在一些实施方式中，使用排除特定场景的不等式约束来进行产生与第三参数组对应的另外的场景。这在图5中示出。尤其，图5中的框G表示以下类型的示例性的不等式约束：

|a_nn-a_est|＜a_Schwelle

然而，本公开不限于不等式约束，并且可以使用概括性的优化问题，该优化问题可以被描述如下：

这里，根据特定的场景类别选择适当的控制输入

例如为了防止与在前行驶的车辆的碰撞。

根据本发明，例如使用基于规则的模型来求取奖励函数。尤其，RL智能体学习生成场景，该场景最大化奖励并且反映对行驶功能规范的违反。因此，通过将现有的先验知识包含到训练过程中，可以加速学习。由此可以有效地伪造自动化的行驶功能，以便暴露在自动化的行驶功能中的弱点。

Claims

1.一种用于通过强化学习来检查自动化的行驶功能的方法(300)，包括：

提供(310)自动化的行驶功能的至少一个规范；

产生(320)场景，其中所述场景通过第一参数组a_t来指示；以及

求取(330)奖励函数，使得与在模拟中的所述场景满足所述至少一个规范的情况下相比，在所述模拟中的所述场景不满足所述至少一个规范的情况下，奖励R更高。

2.根据权利要求1所述的方法(300)，其中使用基于规则的模型(RBM)来求取所述奖励函数。

3.根据权利要求1或2所述的方法(300)，其中所述基于规则的模型(RBM)描述车辆的用于所述自动化的行驶功能的调节器，其中所述调节器是利用所述自动化的行驶功能控制的所述车辆的模型。

4.根据权利要求1至3中任一项所述的方法(300)，还包括：

产生第二参数组a_nn，所述第二参数组指示对所述第一参数组a_t的修改。

5.根据权利要求4所述的方法(300)，还包括：

在模拟中使用基于规则的模型(RBM)来求取针对具体场景的所述奖励函数的值的估计R_est；

产生对应于第三参数组a_t+1的另外的场景，其中基于所述第二参数组a_nn和参数组a_est，确定所述第三参数组a_t+1，所述参数组a_est使得基于所述基于规则的模型(RBM)的所述估计R_est最大化；以及

求取所述奖励函数，使得在对于模拟中的场景所述奖励函数的值的估计R_est低于所述奖励函数的实际值R的情况下，所述奖励R更高。

6.根据权利要求5所述的方法(300)，其中使用排除特定场景的不等式约束G或者所述参数组到特定场景的集合上的投影，来产生对应于所述第三参数组a_t+1的所述另外的场景。

7.一种存储介质，包括软件程序，所述软件程序被设置成在一个或多个处理器上执行并且由此实施根据权利要求1至6中的任一项所述的方法(300)。

8.一种通过强化学习来检查自动化的行驶功能的系统，包括处理器单元，所述处理器单元被配置成实施根据权利要求1至6中的任一项所述的通过强化学习来检查自动化的行驶功能的方法(300)。