CN114174935A

CN114174935A - 用于近似计算测试结果的子集的计算机实现的方法和测试单元

Info

Publication number: CN114174935A
Application number: CN202080047817.8A
Authority: CN
Inventors: S·班内伯格; F·洛伦兹; R·拉舍
Original assignee: Desbeth Co ltd
Current assignee: Desbeth Co ltd
Priority date: 2019-08-21
Filing date: 2020-08-18
Publication date: 2022-03-11
Also published as: WO2021032715A1; EP3783446A1; EP3783446B1

Abstract

本发明涉及一种用于近似计算用于至少部分自主驾驶机动车的装置的虚拟测试的测试结果的子集的计算机实现的方法。本发明此外还涉及一种用于近似计算用于至少部分自主驾驶机动车的装置的虚拟测试的测试结果的子集的测试单元(1)。此外，本发明还涉及一种计算机程序以及一种计算机可读的数据载体。

Description

用于近似计算测试结果的子集的计算机实现的方法和测试单元

技术领域

本发明涉及一种用于近似计算用于至少部分自主驾驶机动车的装置的虚拟测试的测试结果的子集的计算机实现的方法。

本发明此外还涉及一种用于识别用于至少部分自主驾驶机动车的装置的虚拟测试的测试结果的子集的计算机实现的测试单元。此外，本发明还涉及一种计算机程序以及一种计算机可读的数据载体。

背景技术

行驶辅助系统、例如自适应速度调节器和/或用于高度自动化行驶的功能可以借助于各种各样的检查方法证实或验证。在此，特别是可以应用硬件在环方法、软件在环方法、模拟和/或测试行驶。

在此，在使用上述检查方法的情况下用于测试这样的车辆功能的耗费、特别是时间耗费和/或成本耗费典型地是非常高的，因为必须测试大量潜在可能的行驶情况。

这特别是可能导致用于测试行驶以及用于模拟的高耗费。DE 10 2017 200 180A1提出一种用于证实和/或验证车辆功能的方法，其设置为用于沿纵向方向和/或横向方向自主驾驶车辆。

该方法包括：基于与车辆的环境有关的环境数据查明给车辆执行器的车辆功能的测试控制指令，其中，所述测试控制指令不通过执行器实施。

该方法此外还包括：如果实施了测试控制指令，那么基于环境数据并且在使用关于在车辆环境中的至少一个交通参与者的交通参与者模型的情况下模拟将存在的虚构的交通情况。

该方法此外还包括：提供关于虚构的交通情况的测试数据。在此在车辆中为了查明测试控制指令被动地运行车辆功能。

该方法不利的是，为了证实和/或验证车辆功能需要实际运行车辆来查明需要的数据。

因此存在下述需要：如下改善存在的方法和测试器件，使得能够在高度自动化行驶中以有效的方式查明在用于系统和系统构件的基于情景的测试的范围中所谓的关键性的测试情况。

发明内容

因此，本发明的目的在于，提出一种方法、一种测试单元、一种计算机程序以及一种计算机可读的数据载体，其能够在高度自动化行驶中以有效的方式查明在用于系统和系统构件的基于情景的测试的范围中关键性的测试情况。

该目的按照本发明通过一种根据权利要求1的用于近似计算用于至少部分自主驾驶机动车的装置的虚拟测试的测试结果的子集的计算机实现的方法、一种根据权利要求12的用于识别用于至少部分自主驾驶机动车的装置的虚拟测试的测试结果的子集的测试单元、一种根据权利要求14的计算机程序以及一种根据权利要求15的计算机可读的数据载体来解决。

该方法包括：提供定义状态空间的数据集，其中，每个状态通过行驶情况参数的一个参数组形成，对于该状态能实施一个或多个动作，以便由该参数组实现另一参数组，其中，每个参数组具有至少一个描述机动车环境的环境参数以及至少一个描述机动车状态的自身参数。

另一参数组在状态空间中的实现在此可理解为查明所述另一参数组。

该方法此外还包括：实施近似计算步骤，在所述近似计算步骤中在使用人工神经网络的情况下近似计算至少另一参数组的函数值，其中，如果经近似计算的所述至少另一参数组的函数值大于或等于预定的阈值，那么将所述至少另一参数组识别为属于测试结果的子集。

如果所述至少另一参数组的函数值小于预定的阈值，那么所述人工神经网络从相应最后近似计算的另一参数组出发实施至少另一近似计算步骤，直至另一参数组的函数值大于或等于预定的阈值。

在本方法的范围中，因此有利地应用人工神经网络，其任务在于，近似计算测试结果的子集。测试结果的子集涉及感兴趣的关键性的测试结果，其应是用于自主驾驶机动车的装置、例如控制仪的虚拟测试的对象。

在用于自主驾驶机动车的系统和系统构件的基于情景的测试中，定义如下情景，该情景可称为交通情况的抽象。逻辑情景在此是具有无具体参数值的道路、行驶行为和邻近交通的交通情况的抽象。

通过选择具体的参数值从逻辑情景获得具体情景。这样的具体的情景相应于相应单独的交通情况。

自主行驶功能通过系统、例如控制仪实现。控制仪以传统的方式在真实车辆中在真实交通情况下被测试或者备选地通过虚拟测试验证。

本方法在本文献中近似计算关键性的测试结果或交通情况，亦即测试结果的全部中的被视为关键性的子集。关键性的测试情况例如是特别的行驶情况参数的所有参数组合，其导致关键性的行驶情况，如例如车辆碰撞或准车辆碰撞。

为了不必通过传统模拟方法来测试不必要多的参数组合和交通情况，在本方法的范围中通过人工神经网络近似计算测试结果中的相应于关键性的测试情况的上述子集。

如此近似计算的测试结果紧接着可以通过有利的方式在控制仪的虚拟测试的范围中被验证，从而通过按照本发明的方法能实现用于自主驾驶机动车的控制仪的更有效的虚拟验证。

因此通过对预定的阈值的定义按照本发明定义了：何时可将近似计算的测试结果识别为属于所期望的子集。

该方法在此如此设计，使得该方法实施任意数量的近似计算步骤，直至识别出行驶情况参数的相关参数组，该相关参数组属于感兴趣的测试结果的子集。

本发明的其他实施形式是其他从属权利要求和参照附图的如下描述的技术方案。

按照本发明的一个方面，按照本发明的方法还包括从行驶情况参数的多个参数组选择一个初始参数组，其中，在近似计算步骤中在使用人工神经网络的情况下近似计算每个能由初始参数组通过动作实现的相邻的参数组的函数值，其中，实施选择步骤，在所述选择步骤中选择在近似计算步骤中近似计算有最小或最高函数值的参数组。

如果所选择的参数组的函数值小于预定的阈值，那么从相应最后选择的参数组出发实施至少另一选择步骤，直至所选择的参数组的函数值大于或等于预定的阈值。

本方法为了识别关键性测试情况应用强化学习方法。有别于在使用人工神经网络情况下的监督学习，在强化学习中不利用所提供的训练数据进行训练。取而代之地，在强化学习中存在两方：网络、一般称为智能体；以及环境。所述环境也可以视为游戏场地(Spielfeld)，在该游戏场地上读取智能体的当前状态或当前位置。

网络基于当前状态执行动作。该动作改变环境的状态。所述网络由环境反过来获得新的状态和所实行的动作的评价。

目的在于，实现尽可能好的评价，亦即使得评价最大化。因此，在学习过程中根据对所实行的一步(Zug)的评价适配神经网络的权重且实施新的动作。通过对权重的逐步适配，网络习得实施尽可能好的动作，亦即获得尽可能好的评价的策略。类似地，如果应实现最小，那么也可以通过简单的适配使得评价最小化。

用于识别关键性的测试情况的一种可能方案是Q学习原则，在所述Q学习原则中从某一状态出发考虑所有可能的动作及其评价。选择和执行具有最大收益的动作。为了如在本情况下的大的状态和动作空间，Q函数实现为神经网络。这样的网络具有名称DQN(深度Q网络)。神经网络近似计算Q函数。

按照本发明的另一方面，按照本发明的方法还包括：行驶情况参数的多个参数组通过人工神经网络或通过模拟产生。行驶情况参数的参数组因此通过简单的方式和方法例如在使用人工神经网络时通过应用随机函数能在预定的定义域内产生。

按照本发明的另一方面，按照本发明的方法此外还包括：所述人工神经网络具有四个分别包括128个神经元的隐藏层和一个ELU激活函数；并且使用为0.8的系数γ用于衰减所述另一近似计算步骤的函数值。

关键性测试结果的近似计算因此如此实现，使得人工神经网络在每个训练步骤中作为输入被交予目前的位置且近似计算用于相邻位置的函数值或Q值。

根据最高收益来查明最好的相邻位置。目前的位置被更换到该最好的相邻位置。网络的训练因此包括根据所交予的位置通过网络预测相邻位置的Q值。借助于最高的Q值选择所更换到的相邻位置。该位置的Q值或函数值以衰减系数γ衰减。

为了查明收益，将位置的直接收益累加给衰减的Q值。作为用于神经网络的理论值，为了确定误差和为了更新权重，对于除了选择的相邻位置之外的所有位置例如给定理论值0。对于所选择的相邻位置给定所查明的收益。

按照本发明的另一方面，按照本发明的方法还具有如下步骤，由行驶情况参数的多个参数组选择一个初始参数组，如果该另一参数组的函数值小于预定的阈值，那么另一人工神经网络评价通过所述人工神经网络近似计算的所述另一参数组。

所述另一人工神经网络随后基于该评价适配所述人工神经网络。如此适配的人工神经网络从相应最后近似计算的另一参数组出发实施至少另一近似计算步骤，直至另一参数组的函数值大于或等于预定的阈值。

上述方法涉及演员-评委方法(Actor-Critic-Verfahren)。在演员-评委模型中存在两方：演员和评委。演员如在Q学习中那样获得状态且根据状态执行动作。相比于Q学习，在该方法中不需要离散化，因此可以从连续数量的动作中选择动作。而且也不必离散化各状态。

评委评价演员的动作。为此，所述评委需要环境的评价和新的状态。通过对评价的近似计算，评委学习预测动作的评价。通过评委的更新来适配演员。演员和评委的训练例如同时地实现。

评委被交予状态以及环境的评价，该评价用作理论值。根据理论值和由评委查明的实际值可以计算误差。借助于反向传播来更新评委。在演员的训练中的特点在于，对评委的查明的误差被用于借助于反向传播更新演员。

按照本发明的另一方面，所述方法还包括：所述人工神经网络具有四个分别包括256个神经元的隐藏层和一个PReLU激活函数；所述另一人工神经网络具有四个分别包括256个神经元的隐藏层和一个ELU激活函数；并且所述人工神经网络和所述另一人工神经网络应用Adam优化方法。

按照本发明的另一方面，所述方法还包括：所述自身参数包括机动车的速度，并且所述环境参数包括另一机动车的速度和在所述机动车与所述另一机动车之间的间距。

在使用所述参数的情况下例如可以近似计算所谓的切入情景(Cut-In-Szenario)。切入情景可以称为如下交通情况，在所述交通情况中高度自动化或自主的车辆行驶在预定车道上，并且另一车辆以相比于本车辆减小的速度由另一车道以预定间距驶入到本车辆的车道中。

本车辆和也称为跟随车辆的另一车辆的速度在此是恒定的。因为本车辆的速度高于跟随车辆的速度，所以必须使本车辆制动，以便避免所述两个车辆的碰撞。

基于上述自身参数和环境参数因此可以通过按照本发明的方法在上述参数的预定的定义域中近似计算关键性的交通情况。

按照本发明的另一方面，所述方法还具有：所述函数值所基于的函数是安全目标函数，所述安全目标函数具有如下数值，所述数值在所述机动车与所述另一机动车之间的安全间距≥V_FELLOW×0.55的情况下具有最小值，而在所述机动车与所述另一机动车之间碰撞的情况下具有最大值，并且在所述机动车与所述另一机动车之间的安全间距≤V_FELLOW×0.55的情况下具有大于最小值的数值。

所述安全目标函数说明：所述交通情况对于本车辆多安全地进行。如下对所述安全目标函数进行详细说明：如果在本车辆与跟随车辆之间的间距大于或等于安全间距，那么安全目标函数的函数值为0。

所述安全间距可以限定为如下间距，在该间距下根据本车辆与跟随车辆的速度差以及在本车辆与跟随车辆之间的间距总是能实现本车辆安全的制动而不出现与跟随车辆的碰撞。

这样的间距在本示例中通过以米为单位的值定义，其相应于速度V_FELLOW×0.55。

在本车辆与跟随车辆之间的间距越小或者从低于安全间距起，所述目标函数值逐渐接近到值1。如果本车辆与跟随车辆的碰撞存在，那么因此在本车辆与跟随车辆之间的间距小于或等于零且目标函数值为1。

按照本发明的另一方面，按照本发明的方法此外还具有：所述函数值所基于的函数是舒适目标函数或能耗目标函数，所述舒适目标函数或能耗目标函数具有如下数值，所述数值在机动车的加速度没有变化的情况下具有最小值，而在所述机动车与所述另一机动车之间碰撞的情况下具有最大值，并且在机动车的加速度变化的情况下根据加速度变化的数额具有在最小值与最大值之间的数值。

借助于所述舒适目标函数可以做出关于如下的结论，即行驶操纵对于本车辆的驾驶员有多舒适。强烈的加速或制动以及这些过程的频繁重复出现视为不舒适的。

加速度的变化称为晃动(Ruck)。舒适目标函数的计算值越小，那么行驶情况越舒适。燃油消耗在本车辆与跟随车辆碰撞的情况下为1，亦即使得燃油消耗设置到确定的最大值。为此的原因在于，车辆的油箱在事故的情况下不再可以被继续应用。

关于切入情景，因此可能的关键性的测试情况出于在碰撞与非碰撞情况之间的边界，其可根据相应的目标函数、亦即安全目标函数、舒适目标函数和能耗目标函数限定。

按照本发明的另一方面，所述方法包括：多个行驶情况参数、特别是所述机动车的速度和所述另一机动车的速度在预定的定义域内通过随机算法产生。因此可以简单且省时地产生多个行驶情况参数，其形成用于近似计算关键性的测试结果的数据集。

按照本发明的另一方面，所述方法还具有：为了近似计算所述函数值所基于的每个函数的数值范围应用单独的人工神经网络，其中每个人工神经网络的个别的超参数保存在数据库中。

使用单独的人工神经网络来近似计算每个单个的目标函数、亦即安全目标函数、舒适目标函数和/或能耗目标函数的数值范围有利地能实现更准确的近似计算结果。

按照本发明的另一方面规定一种用于识别用于至少部分自主驾驶机动车的装置的虚拟测试的测试结果的子集的测试单元。

所述测试单元包括用于提供定义状态空间的数据集的器件，其中，每个状态通过行驶情况参数的一个参数组形成，对于该状态能实施一个或多个动作，以便由该参数组实现另一参数组，其中，每个参数组具有至少一个描述机动车环境的环境参数以及至少一个描述机动车状态的自身参数。

所述测试单元还包括人工神经网络，所述人工神经网络实施近似计算步骤，在所述近似计算步骤中能近似计算至少另一参数组的函数值，其中如果经近似计算的所述至少另一参数组的函数值大于或等于预定的阈值，那么将所述至少另一参数组识别为属于测试结果的子集。

如果所述至少另一参数组的函数值小于预定的阈值，那么人工神经网络配置为从相应最后近似计算的另一参数组出发实施至少另一近似计算步骤，直至该另一参数组的函数值大于或等于预定的阈值。

在本测试单元的范围中，因此有利地应用人工神经网络，所述人工神经网络具有如下任务，近似计算测试结果的子集、亦即感兴趣的关键性的测试结果。

如此近似计算的测试结果接着可以有利地在控制仪的虚拟测试的范围中被验证，从而通过按照本发明的测试单元能实现用于自主驾驶机动车的控制仪的更有效的虚拟验证。

按照本发明的另一方面，所述装置通过控制仪构成，并且对所述控制仪的虚拟测试的测试结果的近似计算所基于的行驶情况是另一机动车在使用多个行驶情况参数的情况下变道到该机动车的车道。

所述测试单元因此有利地能够关于例如切入情景近似计算虚拟测试的相应的测试结果。

按照本发明的另一方面还规定一种计算机程序，所述计算机程序包括程序代码，用于当在计算机上执行所述计算机程序时实施按照本发明的方法。按照本发明的另一方面规定一种数据载体，所述数据载体包括计算机程序的程序代码，用于当在计算机上执行所述计算机程序时实施按照本发明的方法。

所述方法在此描述的特征可用于近似计算多个不同场景或行驶情况的关键性的测试结果。同样，按照本发明的测试单元适用于，在关键性的测试结果的意义上测试例如汽车、载货车和/或商用车、船舶或飞机的多种不同的装置或控制仪。

附图说明

为了更好理解本发明及其优点现在参照结合所属附图的如下描述。在下文中根据示例性实施形式进一步阐述本发明，各实施形式在附图的各示意图中给出。附图示出：

图1示出按照本发明的一个优选实施形式的用于近似计算用于至少部分自主驾驶机动车的装置的虚拟测试的测试结果的子集的方法的流程图；

图2示出按照本发明的优选实施形式的按照本发明的近似计算方法的简图；

图3示出按照本发明的优选实施形式的按照本发明的近似计算方法的简图；

图4示出按照本发明的优选实施形式的按照本发明的DQN网络的流程图；

图5示出按照本发明的另一优选实施形式用于近似计算用于至少部分自主驾驶机动车的装置的虚拟测试的测试结果的子集的方法的流程图；

图6示出按照本发明的另一优选实施形式在图5中示出的方法的另一流程图；

图7示出按照本发明的另一优选实施形式的按照本发明的目标函数的3维图；

图8示出按照本发明的另一优选实施形式的在图7中示出的按照本发明的目标函数的横截面的2维图；以及

图9示出按照本发明的另一优选实施形式的在图7中示出的按照本发明的目标函数的横截面的2维图。

只要未另外说明，相同附图标记表示附图的相同元素。

具体实施方式

图1示出按照本发明的一个优选实施形式的用于近似计算用于至少部分自主驾驶机动车的装置的虚拟测试的测试结果的子集的方法的流程图。

方法包括提供S1定义状态空间Z的数据集D。每个状态Z1、Z2…Zn通过行驶情况参数的一个参数组P1、P2…Pn形成。对于相应的状态Z1、Z2…Zn能实施一个或多个动作，以便由所述参数组P1、P2…Pn实现另一参数组P1、P2…Pn，其中，每个参数组P1、P2…Pn具有至少一个描述机动车环境的环境参数以及至少一个描述机动车状态的自身参数。

所述方法此外还包括实施近似计算步骤S2，在所述近似计算步骤中在使用人工神经网络K1的情况下近似计算至少另一参数组P1、P2…Pn的函数值F1、F2…Fn。

如果经近似计算的所述至少另一参数组P1、P2…Pn的函数值F1、F2…Fn大于或等于预定的阈值W，那么将所述至少另一参数组P1、P2…Pn识别(S3)为属于测试结果的子集。如果所述至少另一参数组P1、P2…Pn的函数值F1、F2…Fn小于预定的阈值W，那么人工神经网络K1从相应最后近似计算的另一参数组P1、P2…Pn出发实施至少另一近似计算步骤S4，直至所述至少另一参数组P1、P2…Pn的函数值F1、F2…Fn大于或等于预定的阈值W。

行驶情况参数的多个参数组(P1、P2…Pn)通过所述人工神经网络K1产生。备选地，所述多个参数组(P1、P2…Pn)例如可以通过模拟产生。

所述人工神经网络K1在本实施形式中具有四个分别包括128个神经元的隐藏层和一个ELU激活函数。此外使用为0.8的系数γ来衰减所述另一近似计算步骤的函数值F1、F2…Fn。

图2示出按照本发明的优选实施形式的按照本发明的近似计算方法的简图。

图2的简图表示由10×10个格组成的Q学习游戏场地。目标点位于在游戏场地中间且以黑色标记。在本Q学习方法的范围中，在使用神经网络、特别是DQN(深度Q网络)的情况下近似计算用于给定的要测试的情景或交通情况的相应的目标函数。

在此随机规定初始位置。动作使当前位置移动到相邻位置。与此相应地，可以由一个位置转变到邻接的上格、右格、下格或左格。作为直接收益，对于格目标格规定预定的数值、例如100，而对于场地中的每个其他格确定另一数值、例如0。

在游戏过程(Spieldurchlauf)中，由初始位置如此长地转变到新的位置，直至达到目标位置。紧接着由新的随机初始位置开始新的游戏过程。近似计算Q函数的神经网络的训练在预定数量的游戏过程之后、例如1000个游戏过程之后结束。用于衰减收益的系数γ的值例如规定为0.8。

图3示出按照本发明的优选实施形式的按照本发明的近似计算方法的简图。

在图3中示例性地示出在使用行驶情况参数V_EGO、亦即本车辆的速度以及在竖直轴上的V_FELLOW、亦即行驶在前面的跟随车辆的速度的切入情景。

在图3中示出的函数形成在关键性与非关键性的测试结果之间的边界且基本上相应于在图2中示出的目标函数。示出的点是近似计算的测试结果。备选地，示出的点例如可以是模拟的测试结果。

示出的函数涉及安全目标函数，该安全目标函数具有如下数值，所述数值在所述机动车与所述另一机动车之间的安全间距≥V_FELLOW×0.55的情况下具有最小值，而在所述机动车与所述另一机动车之间碰撞的情况下具有最大值，并且在所述机动车与所述另一机动车之间的安全间距≤V_FELLOW×0.55的情况下具有大于所述最小值的数值。

备选于安全目标函数，例如可以近似计算舒适目标函数或能耗目标函数，所述舒适目标函数或能耗目标函数具有如下数值，所述数值在机动车的加速度没有变化的情况下具有最小值，而在所述机动车与所述另一机动车之间碰撞的情况下具有最大值，并且在该机动车的加速度变化的情况下根据加速度变化的数额具有在最小值与最大值之间的数值。

多个行驶情况参数、特别是所述机动车的速度V_EGO和所述另一机动车的速度V_FELLOW在预定的定义域内通过随机算法产生。备选地，所述多个行驶情况参数例如可以通过模拟产生。

为了近似计算所述函数值所基于的每个函数的数值范围应用单独的人工神经网络。每个人工神经网络的个别的超参数在此保存在数据库中。

图4示出按照本发明的优选实施形式的按照本发明的DQN网络的流程图。

由行驶情况参数的所述多个参数组P1、P2…Pn选择一个初始参数组SP。在近似计算步骤S2中，在使用人工神经网络K1的情况下近似计算每个能由所述初始参数组SP通过动作A1、A2…An实现的相邻的参数组P1、P2…Pn的函数值F1、F2…Fn。

紧接着实施选择步骤S2A，在所述选择步骤中选择在近似计算步骤中近似计算有最小或最高函数值F1、F2…Fn的参数组P1、P2…Pn。

如果所选择的参数组的函数值F1、F2…Fn小于预定的阈值W，那么从相应最后选择的参数组P1、P2…Pn出发实施至少另一选择步骤S2B，直至所选择的参数组的函数值F1、F2…Fn大于或等于预定的阈值W。

图5示出按照本发明的另一优选实施形式用于近似计算用于至少部分自主驾驶机动车的装置的虚拟测试的测试结果的子集的方法的流程图。

当前的另一备选实施形式相比于Q学习方法涉及演员-评委方法或模型。在演员-评委方法中，状态和动作的离散化是不必需的。对于对例如切入情景的应用，所述状态是V_EGO和V_FELLOW值对。这些在图5中例如示出为参数组P1、P2。

由确定的参数组可以变换到每个其他任意的参数组。因此不必变换到确定的相邻值对或相邻参数组，如这是在Q学习中的情况。步幅是任意的并且可以实现如下值对，所述值对在Q学习中基于离散化可能无法实现。

如在Q学习中考虑两个应用情况。应识别关键性的测试情况，在所述关键性的测试情况中出现碰撞或者位于在碰撞与非碰撞情况之间的边界上。作为由环境的评价例如应用安全目标函数。

由行驶情况参数的所述多个参数组P1、P2…Pn选择一个初始参数组SP。

如果所述另一参数组P1、P2…Pn的函数值F1、F2…Fn小于预定的阈值W，那么另一人工神经网络K2评价通过所述人工神经网络K1近似计算的所述另一参数组P1、P2…Pn并且基于评价BW在步骤S5中适配人工神经网络K1。

如此适配的人工神经网络K1从相应最后近似计算的另一参数组P1、P2…Pn出发实施至少另一近似计算步骤S4，直至另一参数组P1、P2…Pn的函数值F1、F2…Fn大于或等于预定的阈值W。

在步骤S6中实现第二人工神经网络K2或评委网络的训练或学习。评委网络的训练借助于反向传播实现。评委网络或另一神经网络K2被交予状态以及对环境的评价，其用作理论值。根据理论值和由评委网络查明的实际值可以计算误差。紧接着，借助于反向传播更新评委网络。

图6示出按照本发明的另一优选实施形式在图5中示出的方法的另一流程图。

所述人工神经网络K1具有四个分别包括256个神经元的隐藏层和一个PReLU激活函数。所述另一人工神经网络K2具有四个分别包括256个神经元的隐藏层和一个ELU激活函数。所述人工神经网络K1和所述另一人工神经网络K2应用Adam优化方法。

自身参数FP3包括所述机动车的速度V_EGO。环境参数FP1、FP2包括所述另一机动车的速度V_FELLOW以及在所述机动车与所述另一机动车之间的间距d_SPUP。

所述人工神经网络K1接收值对V_EGO和V_FELLOW以及间距d_SPUP作为输入参量并且将值对V_EGO和V_FELLOW转换为新的值对V’_EGO和V’_FELLOW。

所述另一人工神经网络K2评价该新的值对V’_EGO和V’_FELLOW。借助于所述另一人工神经网络K2的评价实现所述人工神经网络K1的适配。

图7示出按照本发明的另一优选实施形式的按照本发明的目标函数的3维图。

示出的函数是具有恒定的峰值的截锥。近似计算方法的目的在于，实现位于在锥的平面上的点。给出的参数对P1、P2属于相应的要确定的函数。这些参数对例如可以是本车辆的速度V_EGO和跟随车辆的速度V_FELLOW。

所述另一人工神经网络K2已经预先或在先前被训练。所述神经网络或演员网络根据所述另一神经网络或评委网络的评价更新，以便实现尽可能更好的点。所述评委网络的评价是实际值，所述理论值是函数的最大值。

为了训练，类似于在Q学习中生成随机的初始位置。目标在于，将该初始位置转变到目标区域、即锥的平面中。所述初始位置被提交给演员网络。所述演员网络将初始位置转换为新的位置。

根据新位置通过评委网络的评价来更新演员网络。目前的位置于是重新由演员网络转变到新的位置。该过程被多次重复。演员网络因此在每个步骤中根据评委网络的评价而更新。

图8示出按照本发明的另一优选实施形式的在图7中示出的按照本发明的目标函数的横截面的2维图。

在图8中示出的圆形的面包含或相应于函数的目标区域。示出的点是通过按照本发明的方法近似计算的测试结果。

在该函数中，目标区域相对紧窄地定义并且相应于在图8中示出的目标区域的边缘区域。沿着线形的边缘区域排列的点相应于通过方法近似计算的测试结果。

如由图9可见，近似计算的测试结果位于在给出的目标区域中且因此相应于测试结果的子集、亦即感兴趣的关键性的测试结果。

在图1和图5中同样示出按照本发明的用于识别用于至少部分自主驾驶机动车的装置的虚拟测试的测试结果的子集的测试单元1。该测试单元1包括相应的用于提供定义状态空间Z的数据集D的器件2以及人工神经网络K1和/或另一人工神经网络K2。

虽然在此示出和描述特定的实施形式，但是对于本领域内技术人员清楚的是，存在多个备选和/或等同实施方案。应注意的是，一个或多个示例性的实施形式仅仅是示例且不用于以任意方式限制保护范围、适用性或配置。

而且，上述总结和详细描述给本领域内技术人员提供舒适的指导以便实现至少一个示例性的实施形式，其中清楚的是，在元素的功能范围和设置中可以进行不同改变，而不会脱离所附权利要求及其法律上的等同方案的保护范围。

普遍地，本申请旨在覆盖在此提交的各实施形式的修改或适配或变型。

Claims

1.用于近似计算用于至少部分自主驾驶机动车的装置的虚拟测试的测试结果的子集的计算机实现的方法，所述方法包括如下步骤：

提供(S1)定义状态空间(Z)的数据集(D)，其中，每个状态(Z1、Z2…Zn)通过行驶情况参数的一个参数组(P1、P2…Pn)形成，对于该状态(Z1、Z2…Zn)能实施一个或多个动作(A1、A2…An)，以便由所述参数组(P1、P2…Pn)实现另一参数组(P1、P2…Pn)，其中，每个参数组(P1、P2…Pn)具有至少一个描述机动车环境的环境参数(FP1、FP2)以及至少一个描述机动车状态的自身参数(FP3)；

实施近似计算步骤(S2)，在所述近似计算步骤中在使用人工神经网络(K1)的情况下近似计算至少另一参数组(P1、P2…Pn)的函数值(F1、F2…Fn)，如果经近似计算的所述至少另一参数组(P1、P2…Pn)的函数值(F1、F2…Fn)大于或等于预定的阈值(W)，那么将所述至少另一参数组(P1、P2…Pn)识别(S3)为属于测试结果的子集；如果所述至少另一参数组(P1、P2…Pn)的函数值(F1、F2…Fn)小于预定的阈值(W)，那么人工神经网络(K1)从相应最后近似计算的另一参数组(P1、P2…Pn)出发实施至少另一近似计算步骤(S4)，直至另一参数组(P1、P2…Pn)的函数值(F1、F2…Fn)大于或等于预定的阈值(W)。

2.根据权利要求1所述的计算机实现的方法，其特征在于，从行驶情况参数的多个参数组(P1、P2…Pn)选择(S1)一个初始参数组(SP)，其中，在近似计算步骤(S2)中在使用人工神经网络(K1)的情况下近似计算每个能由初始参数组(SP)通过动作(A1、A2…An)实现的相邻的参数组(P1、P2…Pn)的函数值(F1、F2…Fn)，其中，实施选择步骤(S2A)，在所述选择步骤中选择在近似计算步骤(S2)中近似计算有最小或最高函数值(F1、F2…Fn)的参数组(P1、P2…Pn)，并且如果所选择的参数组(P1、P2…Pn)的函数值(F1、F2…Fn)小于预定的阈值(W)，那么从相应最后选择的参数组(P1、P2…Pn)出发实施至少另一选择步骤(S2B)，直至所选择的参数组(P1、P2…Pn)的函数值(F1、F2…Fn)大于或等于预定的阈值(W)。

3.根据权利要求1或2所述的计算机实现的方法，其特征在于，行驶情况参数的多个参数组(P1、P2…Pn)通过所述人工神经网络(K1)或通过模拟产生。

4.根据上述权利要求之一所述的计算机实现的方法，其特征在于，所述人工神经网络(K1)具有四个分别包括128个神经元的隐藏层和一个ELU激活函数；并且使用为0.8的系数γ来衰减所述另一近似计算步骤的函数值(F1、F2…Fn)。

5.根据权利要求1所述的计算机实现的方法，其特征在于，由行驶情况参数的多个参数组(P1、P2…Pn)选择一个初始参数组(SP)，如果所述另一参数组(P1、P2…Pn)的函数值(F1、F2…Fn)小于预定的阈值(W)，那么另一人工神经网络(K2)评价通过所述人工神经网络(K1)近似计算的所述另一参数组(P1、P2…Pn)并且基于所述评价(BW)来适配所述人工神经网络(K1)，并且如此适配的人工神经网络(K1)从相应最后近似计算的另一参数组(P1、P2…Pn)出发实施至少另一近似计算步骤(S3)，直至另一参数组(P1、P2…Pn)的函数值(F1、F2…Fn)大于或等于预定的阈值(W)。

6.根据权利要求5所述的计算机实现的方法，其特征在于，所述人工神经网络(K1)具有四个分别包括256个神经元的隐藏层并且具有一个PReLU激活函数；所述另一人工神经网络(K2)具有四个分别包括256个神经元的隐藏层并且具有一个ELU激活函数；并且所述人工神经网络(K1)和所述另一人工神经网络(K2)应用Adam优化方法。

7.根据上述权利要求之一所述的计算机实现的方法，其特征在于，所述自身参数(FP3)包括所述机动车的速度(V_EGO)，并且所述环境参数(FP1、FP2)包括另一机动车的速度(V_FELLOW)和在所述机动车与所述另一机动车之间的间距(d_SPUR)。

8.根据上述权利要求之一所述的计算机实现的方法，其特征在于，所述函数值(F1、F2…Fn)所基于的函数是安全目标函数，所述安全目标函数具有如下数值，所述数值在所述机动车与所述另一机动车之间的安全间距≥V_FELLOW×0.55的情况下具有最小值，而在所述机动车与所述另一机动车之间碰撞的情况下具有最大值，并且在所述机动车与所述另一机动车之间的安全间距≤V_FELLOW×0.55的情况下具有大于所述最小值的数值。

9.根据权利要求1至7之一所述的计算机实现的方法，其特征在于，所述函数值(F1、F2…Fn)所基于的函数是舒适目标函数或能耗目标函数，所述舒适目标函数或能耗目标函数具有如下数值，所述数值在机动车的加速度没有变化的情况下具有最小值，而在所述机动车与所述另一机动车之间碰撞的情况下具有最大值，并且在所述机动车的加速度变化的情况下根据加速度变化的数额具有在最小值与最大值之间的数值。

10.根据权利要求7至9之一所述的计算机实现的方法，其特征在于，所述多个行驶情况参数、特别是所述机动车的速度(V_EGO)和所述另一机动车的速度(V_FELLOW)在预定的定义域内通过随机算法产生。

11.根据权利要求8至10之一所述的计算机实现的方法，其特征在于，为了近似计算所述函数值(F1、F2…Fn)所基于的每个函数的数值范围应用一个单独的人工神经网络，其中，每个人工神经网络的个别的超参数保存在数据库中。

12.用于近似计算用于至少部分自主驾驶机动车的装置的虚拟测试的测试结果的子集的测试单元(1)，所述测试单元包括：

用于提供定义状态空间(Z)的数据集(D)的器件(2)，其中，每个状态(Z1、Z2…Zn)通过行驶情况参数的一个参数组(P1、P2…Pn)形成，对于该状态能实施一个或多个动作(A1、A2…An)，以便由所述参数组(P1、P2…Pn)实现另一参数组(P1、P2…Pn)，其中，每个参数组(P1、P2…Pn)具有至少一个描述机动车环境的环境参数(FP1、FP2)以及至少一个描述机动车状态的自身参数(FP3)；

人工神经网络(K1)，所述人工神经网络实施近似计算步骤，在所述近似计算步骤中能近似计算至少另一参数组(P1、P2…Pn)的函数值(F1、F2…Fn)，如果经近似计算的所述至少另一参数组(P1、P2…Pn)的函数值(F1、F2…Fn)大于或等于预定的阈值(W)，那么能将所述至少另一参数组(P1、P2…Pn)识别为属于测试结果的子集；如果所述至少另一参数组(P1、P2…Pn)的函数值(F1、F2…Fn)小于预定的阈值(W)，那么人工神经网络(K1)配置为从相应最后近似计算的另一参数组(P1、P2…Pn)出发实施至少另一近似计算步骤，直至另一参数组(P1、P2…Pn)的函数值(F1、F2…Fn)大于或等于预定的阈值(W)。

13.根据权利要求12所述的测试单元，其特征在于，所述装置通过控制仪构成，并且对所述控制仪的虚拟测试的测试结果的近似计算所基于的行驶情况是另一机动车在使用多个行驶情况参数的情况下变道到所述机动车的车道。

14.计算机程序，所述计算机程序包括程序代码，用于当在计算机上执行所述计算机程序时实施根据权利要求1至11之一所述的方法。

15.计算机可读的数据载体，所述计算机可读的数据载体包括计算机程序的程序代码，用于当在计算机上执行所述计算机程序时实施根据权利要求1至11之一所述的方法。