CN116894395A

CN116894395A - 一种自动驾驶测试场景的生成方法、系统及存储介质

Info

Publication number: CN116894395A
Application number: CN202310925077.9A
Authority: CN
Inventors: 杨俱成; 罗咏刚; 谭瑞; 胡小琼
Original assignee: Chongqing Changan Automobile Co Ltd
Current assignee: Chongqing Changan Automobile Co Ltd
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-10-17

Abstract

本申请涉及一种自动驾驶测试场景的生成方法、系统及存储介质，通过构建交通流仿真环境，从交通流仿真环境中采集仿真数据；基于所述仿真数据对人类驾驶行为策略模型进行训练，并将训练完成的人类驾驶行为策略模型中的生成器作为自然对抗测试场景模型；基于自然对抗测试场景模型来生成自动驾驶测试场景。本实施例使用已知的交通流数据集构建交通流仿真环境，基于人类驾驶策略的先验经验和强化学习算法构建自然对抗测试场景的框架，构建得到自然对抗测试场景的框架可以生成大量的对抗测试场景，并且本实施例提供的自然对抗测试场景的框架结构简单，数据处理效率高，具有较好的实用性。

Description

一种自动驾驶测试场景的生成方法、系统及存储介质

技术领域

本发明涉及自动驾驶技术领域，具体涉及一种自动驾驶测试场景的生成方法、系统及存储介质。

背景技术

随着物联网、人工智能和边缘计算机等技术的协同发展，促使了自动驾驶技术的产生和实现。但是目前的自动驾驶技术中还存在诸多挑战。

开发人员为了提高自动驾驶的安全性和车辆的安全性能，往往需要对自动驾驶车辆进行大量极端的测试和验证，而现有技术中的测试场景往往场景类型单一、计算复杂性高和效率低，不能满足对测试结果安全性高的需求。

因此，现有技术有待改进。

发明内容

本发明的目的之一在于提供一种自动驾驶测试场景的生成方法、系统及存储介质，以解决现有技术中的测试场景单一，计算复杂性低和计算效率低的问题。

为了实现上述目的，本发明采用的技术方案如下：

本实施例第一方面提供了一种自动驾驶测试场景的生成方法，包括：

基于交通流数据集构建交通流仿真环境，从交通流仿真环境中采集仿真数据；

基于所述仿真数据对人类驾驶行为策略模型进行训练，并将训练完成的人类驾驶行为策略模型中的生成器作为自然对抗测试场景模型，其中，所述人类驾驶行为策略模型包括生成器和判别器，所述生成器采用的预设强化学习算法模型；

基于自然对抗测试场景模型来生成自动驾驶测试场景。

根据上述技术手段，本申请实施例可以实现利用已知数据集仿真交通流仿真环境，再利用人类驾驶行为策略模型得到车辆行驶控制策略，基于车辆行驶控制策略控制处于交通流仿真环境下的车辆行驶，由于本实施例所提供的人类驾驶行为策略模型基于强化学习算法和生成对抗网络模型构建，因此可以生成类型多样、高覆盖率的自动驾驶自然对抗测试场景。

可选的，在本申请的一种实施例中，所述基于所述仿真数据对人类驾驶行为策略模型进行训练的步骤之前，还包括：

在交通流仿真环境下生成得到多个车辆的轨迹数据，从生成的轨迹数据中采样构建专家轨迹数据集，以及从所述交通流数据集中采样得到训练数据集；所述专家轨迹数据集中包括多组专家轨迹数据；

利用所述训练数据集和所述专家轨迹数据集对预设生成对抗网络模型进行训练，得到人类驾驶行为策略模型。

本步骤中基于仿真得到的交通流仿真环境得到轨迹数据库，利用轨迹数据库中的采样得到的专家轨迹数据和交通流数据对预设生成对抗网络模型的训练，得到人类驾驶行为策略模型。由于人类驾驶行为策略模型训练数据和训练过程的合理性和真实性，为基于人类驾驶策略模型生成多样的车辆行驶控制策略提供了保障。

可选的，在本申请的一种实施例中，所述专家轨迹数据的生成方法包括：

根据场景数据集，随机选取预设个数的车辆；

对于每台选取的车辆，对其场景长度以预设步长为间隔进行均匀划分，并选择出采样场景；

对每一段采样场景，各个仿真场景下执行运动策略控制，提取运动策略控制下各个车辆的状态动作对，将提取得到的状态动作对作为专家轨迹数据。

本步骤中的专家轨迹数据是基于已知场景数据集，在仿真场景下对被测车辆进行运动策略控制，以获取到多专家轨迹，由于在进行模型训练时，利用从已知场景数据集中采样得到的专家轨迹进行训练，可以实现较为贴合自然的训练模型，提高了运动策略模型输出控制策略与人类驾驶策略的相似度，从而得到较佳的测试效果。

可选的，在本申请的一种实施例中，所述基于所述仿真数据对人类驾驶行为策略模型进行训练步骤包括：

将仿真数据输入至人类驾驶行为策略模型的生成器，得到人类驾驶行为策略模型的生成器输出的动作数据；所述仿真数据包括：被测车辆和主车的状态数据，所述状态数据包括：初始化时刻的位置坐标，仿真环境运行到目标时刻的位置坐标及被测车辆与主车之间的距离；

根据所述仿真数据和所述动作数据计算出奖励函数对应的奖励值，并根据奖励值调节所述人类驾驶行为策略模型生成器的参数；预设奖励函数包括：对抗性奖励函数、自然性奖励函数或者构建由对抗性奖励函数和自然性奖励函数组合得到的对抗自然奖励函数；

重复执行将所述仿真数据输入至人类驾驶行为策略模型的生成器，根据仿真数据和输出的动作数据计算奖励值，利用奖励值调节人类驾驶行为策略模型生成器参数的步骤，直至所述奖励值满足预设条件，得到基于仿真数据训练完成的人类驾驶行为策略模型。

根据上述技术特征，利用构建出的对抗性奖励函数、自然性奖励函数对训练完成的人类驾驶行为策略模型进行最优解的计算，得到当所述人类驾驶行为策略模型为最优解时，对应的模型参数，从而利用确定好模型的参数的自然对抗测试场景模型对交通流仿真场景中的车辆进行行驶控制。

可选的，在本申请的一种实施例中，所述对抗性奖励函数的公式为：

；

其中，表示初始化时刻的被测车辆位置坐标，/>表示初始化时刻的主车位置坐标，/>表示t时刻被测车辆的位置坐标和/>表示t时刻主车的位置坐标，为碰撞奖励函数，/>表示被测车辆与主车之间的距离度量值。

根据上述技术特征，本实施例中基于建立的对抗性奖励函数实现对被测车辆与主车之间的对抗性测试，以生成对抗性的测试场景，从而实现生成的测试场景类型多样和覆盖率高的效果。

可选的，在本申请的一种实施例中，所述自然性奖励函数的公式为：

；

其中，表示人类驾驶行为策略模型的生成器根据仿真数据中的状态数据/>输出的动作分布，/>表示仿真数据中的状态数据/>输入预设强化学习算法模型输出的动作分布；KL为KL散度，M为预设常数值。

根据上述技术特征，本实施例中基于建立的自然性奖励函数实现对被测车辆与主车之间可能出现的有效场景，避免出现无效场景，保证了本实施例提供的自然对抗测试场景模型生成的测试场景更加合理。

可选的，在本申请的一种实施例中，所述由对抗性奖励函数和自然性奖励函数组合得到的对抗自然奖励函数的步骤包括：

按照预设权重系数，根据所述对抗性奖励函数和所述自然性奖励函数得到所述对抗自然奖励函数。

本实施例中，将对抗性奖励函数和自然性奖励函数相组合，得到仅能增加被测车辆与主车之间对抗性的，保证对抗场景多样性的同时，还增加了车辆之间对抗的自然性，在满足测试场景对抗性的同时保证自然性，因此避免了生成场景的单一性和测试场景偏离现实场景的缺点。

可选的，在本申请的一种实施例中，所述被测车辆与主车之间的距离度量值的计算公式为：

；

其中，表示初始化时刻的被测车辆位置坐标，/>表示初始化时刻的主车位置坐标，/>表示t时刻被测车辆的位置坐标和/>表示t时刻主车的位置坐标。

根据上述技术特征，本实施例设计出被测车辆与主车之间的距离度量值，设计距离越小则奖励越大，从而在保持与实际行驶场景相符合的前提下，生成更多危险极端的场景。

可选的，在本申请的一种实施例中，所述构建交通流仿真环境的步骤包括：

利用仿真工具使用交通流数据构建交通流仿真环境，并在交通流仿真环境初始化时，选定主车和被测车辆。

根据上述技术方案，本实施例所公开的上述交通仿真环境，可以实现两种不同的算法策略网络控制主车行驶。由于本实施例提供的交通流仿真环境采用了两种不同算法控制策略，可以较佳的对真实交通流交互场景进行仿真模拟，满足了生成场景更加合理有效的要求。

可选的，在本申请的一种实施例中，所述基于自然对抗测试场景模型来生成自动驾驶测试场景的步骤包括：

获取选定主车和被测车辆的状态数据；其中，状态数据由观测数据组成，所述观测数据包括：车辆的横向距离、纵向距离、横向速度、纵向速度及偏转角中的一种或多种；

将获取到的被测车辆和其他车辆的状态数据输入至所述自然对抗测试场景模型，得到所述自然对抗测试场景模型输出的动作数据；所述动作数据包括：加速度和偏转角；

以所述动作数据为运动策略控制主车和被测车辆在交通仿真环境中运动，得到自动驾驶测试场景。

根据上述技术特征，本实施例基于PPO算法模型和训练完成的人类行为驾驶策略模型来设计自然对抗测试场景生成算法，为了保证生成大量合理有效的自动驾驶测试场景，自然对抗场景生成算法既要保证主车的对抗性，又要保证其在真实交通场景中的自然性，因此同时具备对抗性和自然性的需求。

本实施例第二方面提供了一种自动驾驶测试场景的生成系统，其中，包括：

仿真数据采集模块，用于基于交通流数据集构建交通流仿真环境，从交通流仿真环境中采集仿真数据；

模型构建模块，用于基于所述仿真数据对人类驾驶行为策略模型进行训练，并将训练完成的人类驾驶行为策略模型中的生成器作为自然对抗测试场景模型，其中，所述人类驾驶行为策略模型包括生成器和判别器，所述生成器采用的预设强化学习算法模型；

场景生成模块，用于基于自然对抗测试场景模型来生成自动驾驶测试场景。

可选的，所述生成系统，还包括：

策略模型生成模块，用于在交通流仿真环境下生成得到多个车辆的轨迹数据，从生成的轨迹数据中采样构建专家轨迹数据集，以及从所述交通流数据集中采样得到训练数据集；利用所述训练数据集和所述专家轨迹数据集对预设生成对抗网络模型进行训练，得到人类驾驶行为策略模型。

可选的，所述策略模型生成模块包括：

专家轨迹数据生成单元，用于根据场景数据集，随机选取预设个数的车辆，对于每台选取的车辆，对其场景长度以预设步长为间隔进行均匀划分，并选择出采样场景，以及对每一段采样场景，各个仿真场景下执行运动策略控制，提取运动策略控制下各个车辆的状态动作对，将提取得到的状态动作对作为专家轨迹数据。

可选的，所述模型构建模块包括：

动作数据获取单元，用于将仿真数据输入至人类驾驶行为策略模型的生成器，得到人类驾驶行为策略模型的生成器输出的动作数据；所述仿真数据包括：被测车辆和主车的状态数据，所述状态数据包括：初始化时刻的位置坐标，仿真环境运行到目标时刻的位置坐标及被测车辆与主车之间的距离；

参数获取单元，根据所述仿真数据和所述动作数据计算出奖励函数对应的奖励值，并根据奖励值调节所述人类驾驶行为策略模型生成器的参数；预设奖励函数包括：对抗性奖励函数、自然性奖励函数或者构建由对抗性奖励函数和自然性奖励函数组合得到的对抗自然奖励函数；

重复训练单元，用于重复执行将所述仿真数据输入至人类驾驶行为策略模型的生成器，根据仿真数据和输出的动作数据计算奖励值，利用奖励值调节人类驾驶行为策略模型生成器参数的步骤，直至所述奖励值满足预设条件，得到基于仿真数据训练完成的人类驾驶行为策略模型。

可选的，所述对抗性奖励函数的公式为：

；

可选的，所述自然性奖励函数的公式为：

；

可选的，所述由对抗性奖励函数和自然性奖励函数组合得到的对抗自然奖励函数的步骤包括：

可选的，所述距离度量值的计算公式为：

；

可选的，所述仿真数据采集模块包括：

仿真构建单元，用于利用仿真工具使用交通流数据构建交通流仿真环境，并在交通流仿真环境初始化时，选定主车和被测车辆。

可选的，所述场景生成模块包括：

状态数据获取单元，用于获取选定主车和被测车辆的状态数据；其中，状态数据由观测数据组成，所述观测数据包括：车辆的横向距离、纵向距离、横向速度、纵向速度及偏转角中的一种或多种；

动作数据获取单元，用于将获取到的被测车辆和其他车辆的状态数据输入至所述自然对抗测试场景模型，得到所述自然对抗测试场景模型输出的动作数据；所述动作数据包括：加速度和偏转角；

场景测试单元，用于以所述动作数据为运动策略控制主车和被测车辆在交通仿真环境中运动，得到自动驾驶测试场景。

本实施例第三方面提供了一种计算机可读存储介质，其中，所述计算机可读存储介质存储有自动驾驶测试场景的生成程序，所述自动驾驶测试场景的生成程序被处理器执行时实现所述的自动驾驶测试场景的生成方法的步骤。

本发明的有益效果：

本发明涉及一种自动驾驶测试场景的生成方法、系统及存储介质，基于交通流数据集构建交通流仿真环境，从交通流仿真环境中采集仿真数据；基于所述仿真数据对人类驾驶行为策略模型进行训练，并将训练完成的人类驾驶行为策略模型中的生成器作为自然对抗测试场景模型，其中，所述人类驾驶行为策略模型包括生成器和判别器，所述生成器采用的预设强化学习算法模型；基于自然对抗测试场景模型来生成自动驾驶测试场景。本实施例基于已知的交通流数据集建立交通流仿真环境，基于人类驾驶策略的先验经验和强化学习算法构建自然对抗测试场景的框架，基于构建出的自然对抗测试场景的框架生成大量的对抗测试场景，因此克服了现有技术中测试场景单一的问题，并且本实施例提供的自然对抗测试层场景的框架结构简单，避免了模型训练过度拟合的同时，数据处理效率高，因此具有较好的实用性。

附图说明

图1是本实施例中自动驾驶自然对抗测试场景生成方法的原理框架图；

图2为本实施例所提供自动驾驶测试场景的生成方法的步骤示意图；

图3a是本实施例中基于Highway-env仿真工具和GAIL算法策略网络交通流仿真环境场景样例；

图3b是本实施例中基于Highway-env仿真工具和PPO算法策略网络交通流仿真环境场景样例

图4是本发明实施例中PPO算法Actor网络与Critic网络的更新过程；

图5是本实施例中PPO算法的生成对抗模仿学习模型的网络结构设计；

图6是本实施例中仿真环境运行步长随训练轮次的变化；

图7是本实施例中基线与所提方法的对抗性与自然性平均累计奖励变化；

图8a是本实施例中生成的高速路上自然对抗场景；

图8b是本实施例中生成的城区十字路况自然对抗场景；

图9是本实施例中自动驾驶测试场景的生成系统原理框图。

具体实施方式

以下将参照附图和优选实施例来说明本发明的实施方式，本领域技术人员可由本说明书中所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。应当理解，优选实施例仅为了说明本发明，而不是为了限制本发明的保护范围。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

随着物联网、人工智能和边缘计算等技术的发展，推动了自动驾驶技术的进步。而自动驾驶技术也将改变人们的出行方式，提高通行效率和减少交通事故的发生。但是由于自动驾驶系统的复杂性及真实世界场景具有长尾分布的特点，随着越复杂的场景解决起来越困难，因此目前自动驾驶车辆的进一步产业化存在挑战。为了提高自动驾驶的安全性，在自动驾驶车辆产业化之前必须要经过大量极端场景的测试与验证。

现有技术中测试场景的生成方法一般有以下几种方式，第一种，选择仿真环境，确定普通场景及其参数，在普通场景中增加多个扰动，以构建多种极限场景，从而最终生成交通极限场景，但是这种方式构建出的极限场景无法保证其合理性，因此与现实中的自然环境脱离。第二种方式为先建立仿真测试场景，再建立评估模型对仿真测试场景进行评估，根据评估结果调整仿真测试场景的参数，形成下一次的仿真测试场景，建立单目标优化模型，并以启发式搜索算法作为搜索策略，实现简单场景演变为挑战场景，由于其中无法保证生成场景在真实世界的发生概率，因此同样无法保证挑战场景的在自然环境中的合理性。另外，第三种方式为通过对场景的简化和关键参数定义，减少重复场景测试和低效场景的测试，遗传算法迭代优化种群所需的数据较少，利用种群适应度的反馈数据，解决了自然驾驶数据的获取困难问题；危险场景的分布区域连通，可以采用暴力搜索的方式获取更多的危险场景。但是该方式生成的测试场景类型单一，计算复杂性高，效率低，无法保证生成场景的有效性。

为了克服上述问题，本实施例提供了一种自动驾驶测试场景的生成方法、系统及存储介质，结合图1所示，本实施例方法基于已知的交通流数据，也即是从人类驾驶车辆获取到的交通流数据，分别对交通流仿真环境进行建模和对人类驾驶行为策略进行建模，得到交通流仿真环境和人类驾驶行为策略模型，再将交通流仿真环境和人类驾驶行为策略模型相结合，在交通流仿真环境下通过人类驾驶行为策略模型构建自然对抗行为策略模型，最终基于构建出的自然对抗行为策略模型生成自然对抗测试场景。由于本实施例公开的方法基于强化学习算法对真实的人类驾驶数据集中的数据进行学习，并且在构建的人类驾驶行为策略模型中使用了生成对抗模仿人类驾驶策略，从而可以实现生成更为合理，更为多样的测试场景。

下面结合附图对本实施例所提供的方法、系统及存储介质做进一步更为详细的说明。

如图2所示，本实施例提供了一种自动驾驶策略场景生成方法、系统及存储介质，包括：

步骤S1、基于交通流数据集构建交通流仿真环境，从交通流仿真环境中采集仿真数据。

本步骤中利用场景仿真工具，根据已知的交通流数据库中的数据，构建交通流仿真环境。在一种实施方式中基于US-101场景数据集。使用Highway-env仿真工具进行城区高速交通流仿真环境的构建。具体的，Highway-env仿真工具为一种可以构建自由驾驶仿真场景的虚拟软件，其具有可交互、可定制和构建出的仿真环境可以直观显示的特点。由于Highway-env仿真工具能够快速的进行交通场景设计，因此非常适用于强化学习自动驾驶决策任务的研究。在交通流仿真过程中，可以选择：设置环境运行频率为10Hz，与US-101场景数据采样频率保持一致，每辆车的行驶时间大约在50~70秒之间，选取3000辆车参与仿真。

本步骤中利用仿真工具构建交通流仿真环境的步骤还具体包括：

利用仿真工具使用交通流数据构建交通流仿真环境，并在交通流仿真环境初始化时，选定主车和被测车辆。在具体实施时，可以采用随机选取一辆车作为主车，所述主车根据GAIL策略网络输出的动作进行行驶，背景车辆按照预设轨迹行驶；或者，利用仿真工具使用交通流数据构建交通流仿真环境，在交通流仿真环境初始化时，随机选取一辆车作为主车，所述主车根据PPO算法策略网络输出的动作进行行驶，背景车辆由替代模型进行运行控制。

为了实现构建出的交通流仿真环境符合强化学习的需求，满足对GAIL算法和PPO算法的训练条件本步骤中分别采用GAIL算法和PPO算法，这两种不同的算法策略对仿真环境中的车辆进行行驶控制。

对于GAIL算法，在仿真环境车辆初始化时，随机选取一辆车作为主车，主车根据GAIL策略网络输出的动作进行行驶，其他背景车辆按照预处理的轨迹进行行驶，不对主车的行为产生响应，这样能够保证主车更好的模拟人类驾驶行为策略，其交通流仿真场景样例如图3a所示，其中浅白色车辆为主车，灰色车辆为背景车辆。

对于PPO算法，主车选择方式与GAIL算法一致，对于被测车辆的选择，在仿真环境车辆初始化时，首先查找主车周围50米范围内的所有车辆，然后选择在主车车道或相邻车道上且离主车最近的车作为被测车辆，如果选择失败，则选择离主车最近的车作为被测车辆；选择的主车根据PPO策略网络输出的动作进行行驶，被测车辆和其他背景车辆均由替代模型进行纵/横向控制，替代模型能够对周围车辆的状态进行响应，具有主动制动、变道等行为。PPO算法交通流仿真场景样例如图3b所示，其中亮白色车辆为主车，浅白色车辆为被测车辆，灰色车辆为背景车辆。

进一步的，由于IDM模型（Intelligent driver model，汽车控制模型）和MOBIL模型（换道模型）具有参数数量少、意义明确的特点，比较容易对其极限性能进行分析，因此，替代模型由校准的IDM模型和MOBIL模型组成。

另外，由于US-101场景数据集中车辆的原始轨迹存在噪声，因此本步骤中还包括：使用卡尔曼滤波对获取到的交通流数据进行预处理，得到去除噪声后的交通流数据，以实现利用更高质量的数据进行交通流仿真环境的构建，提高了交通流仿真环境的准确性。

步骤S2、基于所述仿真数据对人类驾驶行为策略模型进行训练，并将训练完成的人类驾驶行为策略模型中的生成器作为自然对抗测试场景模型，其中，所述人类驾驶行为策略模型包括生成器和判别器，所述生成器采用的预设强化学习算法模型。

当上述步骤S1中构建得到交通流场景后，则基于构建的交通流仿真环境得到仿真数据，仿真数据进行采集，得到采集仿真数据。本步骤中构建出基于车辆的状态输出对车辆行驶控制策略的人类驾驶行驶策略模型，以实现对基于模型中输出的动作对各个车辆进行行驶控制，从而生成自动驾驶场景。本步骤中，具体的，基于强化学习算法模型和预设生成对抗网络模型，用于控制车辆行驶的人类驾驶行为策略模型进行构建，以实现人类驾驶行为策略模型输出的控制行为更加贴近人类的驾驶行为。

在一种实施方式中，本步骤中使用的预设强化学习算法模型为基于Actor-critic的PPO强化学习算法，预设生成对抗网络模型为生成对抗模仿学习（GenerativeAdversarial Imitation Learning，GAIL）框架，将PPO强化学习算法和GAIL框架相结合对人类驾驶行为策略进行建模。PPO算法（Proximal Policy Optimization，近端策略优化）是一种基于Actor-critic框架的无模型、在线策略更新深度强化学习算法，同时面向离散控制和连续控制，能够很好处理自动驾驶决策控制任务输出连续动作空间的问题。

详细的，本步骤中基于强化学习算法和预设生成对抗网络模型，训练得到人类驾驶行为策略模型的步骤包括：

步骤S21、在交通流仿真环境下生成得到多个车辆的轨迹数据，从生成的轨迹数据中采样构建专家轨迹数据集，以及从所述交通流数据集中采样得到训练数据集；所述专家轨迹数据集中包括多组专家轨迹数据。

利用步骤S1中构建出的交通流仿真环境，生成多个车辆的轨迹数据，轨迹数据包括：各个车辆当前的状态和当前动作，还包括下一时刻的状态和下一个时刻对应的动作。各个车辆在不同时刻的状态和动作拼接组成轨迹数据，构成由多组状态动作拼接的状态动作对组成的轨迹数据库。从轨迹数据库中采样得到专家轨迹数据。

同时，从交通流数据中获取与专家轨迹数据相同数目的状态动作对数据，将状态动作对数据组成训练数据集，利用训练数据集中包含的车辆运动状态数据和专家轨迹数据中的运动状态对数据对预设生成对抗网络模型进行训练。

在一种实施方式中，专家轨迹数据的生成方法包括：

根据场景数据集，随机选取预设个数的车辆；

具体的，专家轨迹数据由仿真环境生成的100个时间步长的状态动作对组成，采样间隔为0.1s。其中，状态由56维的观测特征组成，包括自车的车身长度与宽度、车道中心线横向偏离位移、横向速度、纵向速度及偏转角等6个特征，以及与周围50米范围内最近10辆车的相对横向距离、相对纵向距离、相对横向速度、相对纵向速度及相对偏转角50个特征，如果距离最近车辆个数小于10，则以0进行补充；动作是一个包括加速度和偏转角的二维向量，其中加速度取值区间为(-5 m/s2, 5 m/s2)，偏转角取值区间为(-π/3 rad, π/3 rad)。

在具体实施例中，以选择100辆车举例，采集专家轨迹的步骤如下：

1）根据US-101场景数据集选择车辆用于生成专家轨迹。US-101场景数据集包含车辆在高速公路上的行驶轨迹，高速公路，采集信息的摄像头视野覆盖的路段长度为640m，其中有5条高速公路车道，因此其中含有大量场景数据。

2）对于每一个选择的车辆，对其场景长度以预设间隔进行均匀划分，划分出预设个数的场景，比如以100为间隔，如果划分个数大于4，则从中随机采样4段长度为100的场景。

3）对于采样的每一段场景，在仿真环境进行车辆初始化时，如果车辆个数大于40或平均速度小于5 m/s，则跳过本次仿真；

4）在仿真环境运行过程中，对一个时间步，如果主车发生碰撞，或驶出道路，或运行时间超过10s，则结束仿真；否则，则进行状态动作对的提取，以生成专家轨迹数据。

步骤S22、利用所述训练数据集对所述预设生成对抗网络模型进行训练，得到训练完成的人类驾驶行为策略模型。

利用上述中获取到的训练数据集和专家轨迹数据对预设生成对抗网络模型进行训练，以得到训练完成的人类驾驶行为策略模型。

具体的，所述预设生成对抗网络模型包括：生成器和判别器。生成器中输出的状态动作信息和另专家轨迹数据信息同步输入至判别器，由判别器输出上述两种输入信息的来源判断结果。

在一种实施方式中，预设生成对抗网络模型使用GAIL算法结构构建。GAIL算法结构与GAN类似，其由生成器和判别器/>两部分组成。生成器用于对人类专家驾驶行为策略进行建模，根据输入状态/>输出动作/>。判别器用于接收生成器状态动作对和专家轨迹状态动作对/>作为输入，输出一个0~1的实数，用于判别输入的状态动作对是来自生成器策略还是专家策略。

在训练过程中，判别器的目标是最大化对生成器策略与专家策略分类精度，可表示为：

（1）

其中，为生成器网络参数，/>为判别器网络参数。

生成器的目标是使交互产生的轨迹能被判别器误认为是专家轨迹，因此可以利用判别器的输出作为损失函数来训练生成器策略。本实施例中使用PPO算法作为GAIL算法的生成器，其损失函数设计为：

（2）

最后，通过生成器与判别器的不断对抗训练，生成器策略生成的数据分布会越来越接近真实的专家数据分布，进一步实现对人类专家驾驶行为策略的建模，得到训练完成的人类驾驶行为策略模型。

进一步的，本步骤中基于PPO算法模型和训练完成的GAIL模型来设计自然对抗测试场景模型，为了保证生成大量合理有效的自动驾驶测试场景，自然对抗场景生成模型既要保证主车与被测车辆之间的对抗性，又要保证对抗事件在真实交通场景中的发生概率的自然性。本文通过使用PPO强化学习算法并设计自然对抗奖励函数来训练主车和被测车辆，同时使用预训练的GAIL算法模型监督主车与被测车辆之间行驶的自然性。

对于每一轮次的训练，PPO算法Actor网络与Critic网络的更新过程如图4所示。首先PPO算法运行交通流仿真环境来获得由组成的不同轨迹数据，组成轨迹数据库，然后PPO算法从轨迹数据库中进行小批量采样，对Actor网络与Critic网络进行优化训练。

进一步的，由于车辆行驶状态空间的输入维度较低，因此本实施例中选用简单的全连接层和ReLU激活函数设计轻量化的网络结构，以避免模型训练过拟合及加速网络训练。PPO与GAIL算法模型的网络结构如图5所示，PPO算法模型由Actor网络和Critic网络组成，GAIL算法模型由PPO算法网络与判别器网络组成。

对于Actor网络，其输入为状态，首先经过输入层，输入层神经元个数等于/>的维度，然后经过两个隐藏层，其神经元个数均为128个，并进一步分解成两个头部网络，用于生成高斯分布的均值/>和方差/>，最终输出层对高斯分布进行采样，输出动作/>；对于Critic网络，其输入为/>，输入层与隐藏层和Actor网络一样，输出层输出对当前状态/>的价值估计/>；判别器网络与Critic的网络结构类似，只是其输入为动作状态对，即/>与的拼接，输出为动作状态对的分类概率/>。在一种实施方式中，输入状态由10维的观测特征组成，包括主车与被测车辆的横向距离、纵向距离、横向速度、纵向速度及偏转角；动作输出是一个包括加速度和偏转角的二维向量，由于其目的是产生对抗性行为，因此，对其动作空间不做约束。

进一步的，基于所述仿真数据对人类驾驶行为策略模型进行训练，并将训练完成的人类驾驶行为策略模型中的生成器作为自然对抗测试场景模型的步骤包括：

将仿真数据输入至人类驾驶行为策略模型的生成器，得到人类驾驶行为策略模型的生成器输出的动作数据；所述仿真数据包括：被测车辆和主车的状态数据，所述状态数据包括：初始化时刻的位置坐标，仿真环境运行到目标时刻的被测车辆和主车的位置坐标；

由于为了满足测试场景的多样化和多类型的要求，在测试场景中设置主车对被测车辆产生干扰动作，如紧急刹车、突然便道等，以生成更多危险极端的场景，本实施例中设计对抗性奖励函数对模型参数进行调整，以保证生成场景中的对抗性，另外，本实施例中还设计了自然性奖励函数，以保证生成场景中的自然性。

具体的，对于仿真环境运行的第t个时间步，本实施例中设计出的所述对抗性奖励函数的公式为：

（3）

其中，表示初始化时刻的被测车辆位置坐标，/>表示初始化时刻的主车位置坐标，/>表示t时刻被测车辆的位置坐标和/>表示t时刻主车的位置坐标，为碰撞奖励函数，/>表示被测车辆与主车之间的距离。在具体实施时，被测车辆为距离所述主车最近的车辆，或距离所述主车最近且与主车位于同一车道或相邻车道的车辆。

由于被测车辆与主车之间的距离越小，则说明越危险，奖励也越大，可被测车辆与主车之间距离的度量值表示为：

（4）

在仿真环境中，由于被测车辆与主车为两个刚体，其L2距离总是大于0，即总是小于1，对碰撞信号反馈较弱。因此，为了增加碰撞机率，设计/>作为碰撞奖励函数，如果主车成功与被测车辆发生碰撞，则给予奖励；如果主车与其他车辆发生碰撞，则进行惩罚，碰撞奖励函数具体可表示为：

（5）

为了避免生成不合理的场景，增加生成测试场景在真实世界的发生概率，本步骤中还设置了自然性奖励函数，该自然性奖励函数用于监督主车行为的自然性，保证生成更为有效合理的测试场景。

本实施例中，所设计自然性奖励函数的公式为：

（6）

其中，表示生成器根据状态/>输出的动作分布，/>表示状态/>输入至预设强化学习模型（PPO算法模型）输出的动作分布；KL为KL散度。进一步的，由于PPO算法模型与GAIL算法模型输出动作同属于多元高斯分布，因此选用KL散度来度量这两个分布的差异。M为模型初始训练时模型输出的主车动作在不同算法模型之间的KL散度度量，在实验中M可以取25。

所述由对抗性奖励函数和自然性奖励函数组合得到的对抗自然奖励函数的步骤包括：

按照预设权重系数，根据所述对抗性奖励函数和所述自然性奖励函数得到所述对抗自然奖励函数，也即对抗自然奖励函数的公式为：

（7）

其中，为权重系数，/>为对抗性奖励函数，/>为自然性奖励函数。

因此，最终可以根据公式（3）、（6）和（7）计算得到自然对抗奖励函数的数值。

本实施例在具体实施时，采用对抗自然奖励函数对自动对抗测试场景模型的参数进行调节，以实现生成的测试场景满足对抗性的同时，还满足自然性，平衡了对抗和自然性，保证了生成多样化极端场景的同时，生成更为有效合理的场景。

步骤S3、基于自然对抗测试场景模型来生成自动驾驶测试场景。

当构建得到自然对抗测试场景模型后，则使用构建出的自然对抗测试场景模型生成多个自动驾驶测试场景，具体的，结合图5所示，生成多个自动驾驶测试场景的步骤包括：

获取交通流仿真环境中，获取目标时刻被测车辆和其他车辆的状态数据；

将获取到的被测车辆和其他车辆的状态数据输入至所述自然对抗测试场景模型，得到所述自然对抗测试场景模型输出的运动数据；

以所述运动数据为运动策略控制被测车辆在交通仿真环境中运动，得到所述目标时刻对应的自动驾驶测试场景。

将获取到的被测车辆和主车某一个时间段的状态数据输入至构建得到的自然对抗测试场景模型，所述自然对抗测试场景模型的生成器根据接收到的状态数据输出该时间段内的动作数据，也即动作轨迹数据。

被测车辆和主车基于该动作数据在交通流仿真环境下执行相应的动作，从而得被测车辆和主车在仿真场景下生成的自动驾驶测试场景。

将不同时刻的状态信息输入至自然对抗测试场景模型生成对应的动作，执行相应的驾驶策略，从而得到多种不同的测试场景。

对于GAIL算法，仿真环境运行步长随训练轮次的变化如图6所示。由图6可知，随着训练轮次的增加，主车在仿真环境的运行时间步长也在增加，最高能够达到约98个时间步长，说明了GAIL算法策略模型对人类驾驶行为策略建模的有效性。

在利用GAIL算法对人类驾驶行为策略建模之后，选取第300个训练轮次的GAIL算法策略模型对PPO算法进行监督训练，为了验证GAIL算法自然性监督的有效性，将只使用对抗性奖励函数训练的模型作为基线，然后与提出的自然对抗训练方法进行对比，基线与所提方法两种训练方式的对抗性与自然性平均累计奖励变化曲线如图7所示。由图7可以看出，基线方法的对抗性奖励高于所提方法，而自然性奖励低于所提方法，说明基线模型在训练过程中过于重视对抗性奖励，而忽略自然性奖励，这往往会造成不合理碰撞的发生，而所提方法能够有效平衡模型的自然性与对抗性，为生成大量多样的自然对抗测试场景提供重要保障。

本实施例中根据提出的自然对抗测试场景模型，生成的高速自然对抗场景如图8a，城区十字路口自然对抗场景图8b所示。

本实施例所提供的方法，实现基于构建出的人类驾驶行为测量模型输出对车辆的驾驶运行策略，从而实现车辆在交通流仿真环境中实现多种不同测试场景。由于本实施例所提供的方法利用强度学习算法为人类驾驶行为策略模型的生成器，进行人类驾驶策略的学习和训练，为生成大量的不同类型的测试场景提供了保障。

本实施例第二方面提供了一种自动驾驶测试场景的生成系统，如图9所示，包括：

仿真环境构建模块100，用于基于交通流数据集构建交通流仿真环境，从交通流仿真环境中采集仿真数据；其功能如步骤S1所述。

模型构建模块200，用于基于所述仿真数据对人类驾驶行为策略模型进行训练，并将训练完成的人类驾驶行为策略模型中的生成器作为自然对抗测试场景模型，其中，所述人类驾驶行为策略模型包括生成器和判别器，所述生成器采用的预设强化学习算法模型；其功能如步骤S2所述。

场景生成模块300，用于基于自然对抗测试场景模型来生成自动驾驶测试场景；其功能如步骤S3所述。

在一种实施方式中，所述生成系统，还包括：

可选的，所述策略模型生成模块包括：

在一种实施方式中，所述模型构建模块包括：

动作数据获取单元，用于将仿真数据输入至人类驾驶行为策略模型的生成器，得到人类驾驶行为策略模型的生成器输出的动作数据；所述仿真数据包括：被测车辆和主车的状态数据，所述状态数据包括：初始化时刻的位置坐标和目标时刻的位置坐标；

在一种实施方式中，所述对抗性奖励函数的公式为：

；

其中，和/>分别表示被测车辆和主车在仿真环境初始化t0时刻的位置坐标，/>和/>分别表示被测车辆和主车在仿真环境运行到t时刻的位置坐标，/>为碰撞奖励函数，/>表示被测车辆与主车之间的距离度量值。

在一种实施方式中，所述自然性奖励函数的公式为：

；

其中，表示人类驾驶行为策略模型的生成器根据仿真数据中的状态数据/>输出的动作分布，/>表示仿真数据中的状态数据/>输入PPO算法模型输出的动作分布；KL为KL散度，M为预设常数值。

在一种实施方式中，所述由对抗性奖励函数和自然性奖励函数组合得到的对抗自然奖励函数的步骤包括：

在一种实施方式中，所述被测车辆与主车之间的距离度量值的计算公式为：

；

其中，和/>分别表示被测车辆和主车在仿真环境初始化t0时刻的位置坐标，/>和/>分别表示被测车辆和主车在仿真环境运行到t时刻的位置坐标。/>

在一种实施方式中，所述仿真数据采集模块包括：

在一种实施方式中，所述场景生成模块包括：

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能模块可以集成在一个设备中，也可以是各个模块单独物理存在。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

以上实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。

Claims

1.一种自动驾驶测试场景的生成方法，其特征在于，包括：

基于自然对抗测试场景模型来生成自动驾驶测试场景。

2.根据权利要求1所述的自动驾驶测试场景的生成方法，其特征在于，所述基于所述仿真数据对人类驾驶行为策略模型进行训练的步骤之前，还包括：

3.根据权利要求2所述的自动驾驶测试场景的生成方法，其特征在于，所述专家轨迹数据的生成方法包括：

根据场景数据集，随机选取预设个数的车辆；

4.根据权利要求1所述的自动驾驶测试场景的生成方法，其特征在于，所述基于所述仿真数据对人类驾驶行为策略模型进行训练步骤包括：

5.根据权利要求4所述的自动驾驶测试场景的生成方法，其特征在于，所述对抗性奖励函数的公式为：

；

其中，表示初始化时刻的被测车辆位置坐标，/>表示初始化时刻的主车位置坐标，/>表示t时刻被测车辆的位置坐标和/>表示t时刻主车的位置坐标，/>为碰撞奖励函数，/>表示被测车辆与主车之间的距离度量值。

6.根据权利要求5所述的自动驾驶测试场景的生成方法，其特征在于，所述自然性奖励函数的公式为：

；

7.根据权利要求5所述的自动驾驶测试场景的生成方法，其特征在于，所述由对抗性奖励函数和自然性奖励函数组合得到的对抗自然奖励函数的步骤包括：

8.根据权利要求5所述的自动驾驶测试场景的生成方法，其特征在于，所述被测车辆与主车之间的距离度量值的计算公式为：

；

9.根据权利要求1所述的自动驾驶测试场景的生成方法，其特征在于，所述构建交通流仿真环境的步骤包括：

利用仿真工具使用交通流数据构建交通流仿真环境，并在交通流仿真环境初始化时选定主车和被测车辆。

10.根据权利要求1所述的自动驾驶测试场景的生成方法，其特征在于，所述基于自然对抗测试场景模型来生成自动驾驶测试场景的步骤包括：

11.一种自动驾驶测试场景的生成系统，其特征在于，包括：

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有自动驾驶测试场景的生成程序，所述自动驾驶测试场景的生成程序被处理器执行时实现如权利要求1-10任一项所述的自动驾驶测试场景的生成方法的步骤。