CN115358415A

CN115358415A - 自动驾驶学习模型的分布式训练方法及自动驾驶方法

Info

Publication number: CN115358415A
Application number: CN202210907983.1A
Authority: CN
Inventors: 徐勋农; 刘轩; 莘祯睿
Original assignee: DeepRoute AI Ltd
Current assignee: DeepRoute AI Ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-11-18

Abstract

本申请公开了一种自动驾驶学习模型的分布式训练方法和自动驾驶方式，训练方法包括：自多个模拟结果数据组，获取用于训练的至少一个模拟结果数据组，其中，多个模拟结果数据组是通过分布式模拟自动驾驶路测场景而得到的，自动驾驶路测场景包括目标车辆以及环境动态物体，每个模拟结果数据组包括目标车辆在不同时间点处的第一状态信息总集、环境动态物体在不同时间点处的第二状态信息总集以及目标车辆在任意相邻两个时间点之间的时间段内的奖励数值集；利用第一状态信息总集、第二状态信息总集以及奖励数值集，执行分布式训练操作，得到经训练的自动驾驶学习模型。上述方案，通过对模型结果数据进行分布式训练，提高了模型训练的效率。

Description

自动驾驶学习模型的分布式训练方法及自动驾驶方法

技术领域

本申请涉及自动驾驶技术领域，特别是涉及一种自动驾驶学习模型的分布式训练方法及自动驾驶方法。

背景技术

强化学习是机器学习中的一个重要方向，它主要研究一个智能体(Agent)与周围环境交互的过程中如何最大化预期的利益。应用在自动驾驶领域，强化学习可以作为一种数据驱动的决策和规划控制的模型框架。但是相关技术中，随着训练数据的积累，强化学习模型的训练效率要进行相应的提升。

发明内容

本申请至少提供一种自动驾驶学习模型的分布式训练方法及自动驾驶方法，用于解决相关技术中自动化驾驶模型训练效率低的问题。

本申请第一方面提供了一种自动驾驶学习模型的分布式训练方法，包括：

自多个模拟结果数据组，获取用于训练的至少一个模拟结果数据组，其中，所述多个模拟结果数据组是通过分布式模拟自动驾驶路测场景而得到的，所述自动驾驶路测场景包括目标车辆以及环境动态物体，每个所述模拟结果数据组包括所述目标车辆在不同时间点处的第一状态信息总集、所述环境动态物体在不同时间点处的第二状态信息总集以及所述目标车辆在任意相邻两个时间点之间的时间段内的奖励数值集；

利用所述第一状态信息总集、所述第二状态信息总集以及所述奖励数值集，执行分布式训练操作，得到经训练的自动驾驶学习模型。

其中，通过分布式模拟所述自动驾驶路测场景，得到所述多个模拟结果数据组，包括：

并行执行多个模拟任务，其中，每个所述模拟任务用于输出一个所述模拟结果数据组，包括：

获取用于描述所述自动驾驶路测场景的路测场景片段，其中，所述路测场景片段包括位于多个时间点处的路测数据；依据所述多个时间点处的路测数据，获取并输出所述目标车辆在当前时间点和下一时间点处的第一状态信息集、所述环境动态物体在所述当前时间点和所述下一时间点处的第二状态信息集以及所述目标车辆在所述当前时间点与所述下一时间点之间的时间段内的奖励数值。

其中，所述获取所述目标车辆在当前时间点和下一时间点处的第一状态信息集，包括：

从所述当前时间点的路测数据，获取所述目标车辆在所述当前时间点处的当前状态信息；依据所述目标车辆在所述当前时间点处的当前状态信息、所述当前时间点与所述下一时间点之间的时间段及预定动作信息，获取所述目标车辆在所述下一时间点处的下一状态信息。

其中，所述获取所述环境动态物体在所述当前时间点和所述下一时间点处的第二状态信息集，包括：

从所述当前时间点的路测数据，获取所述环境动态物体在所述当前时间点处的当前状态信息；从所述下一时间点的路测数据，获取所述环境动态物体在所述下一时间点处的下一状态信息。

其中，所述获取所述目标车辆在所述当前时间点与所述下一时间点之间的时间段内的奖励数值，包括：

根据所述第一状态信息集与所述第二状态信息集，确定所述目标车辆在所述当前时间点与所述下一时间点之间的时间段内的奖励数值。

其中，所述奖励数值集包括：

第一奖励数值子集，所述第一奖励数值子集中的第一奖励数值之和用于表征所述目标车辆在所述不同时间点中最后一个时间点是否达到目的地；其中，所述第一奖励数值之和为0，表示所述目标车辆在所述最后一个时间点未达到目的地；所述第一奖励数值之和不为0，表示所述目标车辆在所述最后一个时间点达到目的地以及达到目的地所花费的时间；和/或

第二奖励数值子集，所述第二奖励数值子集中的第二奖励数值用于表征所述目标车辆在任意相邻两个时间点之间的时间段内是否有碰撞、是否闯红灯、是否偏离道路中心线以及是否超速。

其中，所述利用所述第一状态信息总集、所述第二状态信息总集以及所述奖励数值集，执行分布式训练操作，得到经训练的自动驾驶学习模型，包括：

利用所述第一状态信息集、所述第二状态信息集以及所述奖励数值，对所述当前时间点对应的自动驾驶学习模型进行训练，以得到所述下一时间点对应的自动驾驶学习模型，并保存所述下一时间点对应的自动驾驶学习模型的模型参数；

所述并行执行多个所述模拟任务，包括：

获取所述下一时间点对应的所述自动驾驶学习模型的模型参数，并利用所述模型参数，执行所述模拟任务，以得到所述目标车辆在所述下一时间点的下一个时间点的第一状态信息。

本申请第二方面提供了一种自动驾驶方法，应用于目标车辆，包括：

获取所述目标车辆在自动驾驶路测场景中当前时间点的第一状态信息以及所述自动驾驶路测场景中环境动态物体的第二状态信息；

将所述第一状态信息和所述第二状态信息输入至自动驾驶学习模型，以得到所述目标车辆的行驶动作，使得所述目标车辆根据所述行驶动作进行行驶；

其中，所述自动驾驶学习模型是利用第一方面所述的自动驾驶学习模型的分布式训练方法训练得到的。

本申请第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述第一方面中的自动驾驶学习模型的分布式训练方法，或实现上述第二方面中的自动驾驶方法。

本申请第四方面提供了一种非易失性计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述第一方面中的自动驾驶学习模型的分布式训练方法，或实现上述第二方面中的自动驾驶方法。

上述方案，通过分布式模拟自动驾驶路测场景得到多个模拟结果数据组，节省了仿真时间，再通过对每个模拟结果数据组进行分布式训练，进一步提高了自动驾驶学习模型的训练效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1是本申请自动驾驶学习模型的分布式训练方法一实施例的流程示意图；

图2是本申请自动驾驶方法一实施例的流程示意图；

图3是本申请电子设备一实施例的框架示意图；

图4是本申请非易失性计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

请参阅图1，图1是本申请实施例的自动驾驶学习模型的分布式训练方法的流程示意图，该方法用于电子设备，该电子设备可以安装在车辆上，可以为车载设备。在一些可能的实现方式中，该自动驾驶学习模型的分布式训练方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。具体而言，可以包括如下步骤：

步骤S10、自多个模拟结果数据组，获取用于训练的至少一个模拟结果数据组，其中，多个模拟结果数据组是通过分布式模拟自动驾驶路测场景而得到的，自动驾驶路测场景包括目标车辆以及环境动态物体，每个模拟结果数据组包括目标车辆在不同时间点处的第一状态信息总集、环境动态物体在不同时间点处的第二状态信息总集以及目标车辆在任意相邻两个时间点之间的时间段内的奖励数值集。

为了便于读取数据，本实施例中的多个模拟结果数据组可以预先存储在缓存模块中，当进行模型训练时，从缓存模块中分批次依次或者多批次并行获取模拟结果数据组进行训练。

可以在仿真环境中模拟自动驾驶路测场景进行自动驾驶的测试，得到模拟结果数据组。每个自动驾驶路测场景包括多个时间点对应的场景片段，每个场景片段中包括目标车辆以及环境动态物体，环境动态物体包括行人、除目标车辆外的车辆以及交通灯等动态物体。

本实施例中的第一状态信息总集包括多个模拟结果数据组的目标车辆在每个时间点的状态信息，第一状态信息集包括每个模拟结果数据组中目标车辆在每个时间点的状态信息。第二状态信息总集包括多个模拟结果数据组的环境动态物体在每个时间点的状态信息，第二状态信息集包括每个模拟结果数据组中环境动态物体在每个时间点的状态信息。奖励数值集包括多个模拟结果数据组中目标车辆在每个时间段的奖励数值，每个时间段为任意两个相邻时间点之间的时间段。

步骤S11、利用第一状态信息总集、第二状态信息总集以及奖励数值集，执行分布式训练操作，得到经训练的自动驾驶学习模型。

为了提高训练的效率，可以通过单机或者多机的模式进行分布式训练：通过单机的模式进行分布式的模型训练时，从缓存模块中分批次获取模拟结果数据组进行训练时；通过多机的模式进行分布式训练时，从缓存模块中多批次并行获取模拟结果数据组进行训练；训练的模型为强化学习模型，通过第一状态信息总集、第二状态信息总集以及奖励数值集训练强化学习模型，得到自动驾驶学习模型。

以每个模拟结果数据组的当前时间点与下一时间点为例，训练的步骤为：

将当前时间点的目标车辆的当前状态信息与环境物体的当前状态信息输入至当前时间点的自动驾驶学习模型中，输出目标车辆的预测动作；根据当前时间点的目标车辆的当前状态信息与环境物体的当前状态信息、预测动作、当前时间点与下一时间点之间的时间差值，获取目标车辆与环境动态物体在下一时间点的预测状态信息；根据预测状态信息、目标车辆与环境动态物体在下一时间点的下一状态信息的对比结果，计算奖励值；若预测动作预测正确，则奖励值计算正确；若预测动作预测错误，根据奖励值计算的结果调整强化学习模型的模型参数，直至满足预设条件，例如奖励值达到预设值等，从而得到下一时间点的自动驾驶学习模型。

本实施例中，通过自多个模拟结果数据组，获取用于训练的至少一个模拟结果数据组，其中，多个模拟结果数据组是通过分布式模拟自动驾驶路测场景而得到的，节省了仿真时间，再通过对每个模拟结果数据组进行分布式训练，进一步提高了自动驾驶学习模型的训练效率。

在示例性地实施例中，获取多个模拟结果数据组包括如下步骤：

并行执行多个模拟任务，其中，每个模拟任务用于输出一个模拟结果数据组。

每个模拟任务的执行步骤可以包括：

获取用于描述自动驾驶路测场景的路测场景片段，其中，路测场景片段包括位于多个时间点处的路测数据；及

依据多个时间点处的路测数据，获取并输出目标车辆在当前时间点和下一时间点处的第一状态信息集、环境动态物体在当前时间点和下一时间点处的第二状态信息集以及目标车辆在当前时间点与下一时间点之间的时间段内的奖励数值。

本实施例中的路测场景片段包括一系列的时间点处的路测数据，可以包括地图数据、环境动态物体和目标车辆在该路测场景片段的轨迹数据、交通灯相关数据等。根据当前时间点处的路测数据，可以获取目标车辆在当前时间点的当前状态信息和环境动态物体在当前时间点的当前状态信息；根据下一时间点处的路测数据，可以获取环境动态物体在下一时间点处的下一状态信息；目标车辆在下一时间点处的下一状态信息通过车辆运动学模型根据目标车辆在当前时间点的当前状态信息进行计算得到。

第一状态信息集包括目标车辆在当前时间点处的当前状态信息与目标车辆在下一时间点处的下一状态信息；第二状态信息集包括环境动态物体在当前时间点处的当前状态信息与环境动态物体在下一时间点处的下一状态信息。为了便于整理，为环境动态物体设置响应的id和类型，例如，轿车的id为car01，类型为0A；自行车的id为bike01，类型为0B，在此不做赘述。

本实施例中路测场景片段包可以为10-30秒的片段，依据时间点数组对该片段进行分割，得到多个时间段的路测数据。时间点数组可以为[0,0.1,0.2，……]，任意两个时间点之间的时间差值不固定，可根据需要进行设置。

每个时间点处的路测数据还包括目标车辆与环境动态物体在该时间点的状态信息，每个状态信息包括位置信息(x，y，z)、速度信息(Vx，Vy，Vz)、长宽高信息(l，w，h)、朝向角(theta)，朝向角可以根据位置信息对应的坐标系进行确定，在此不做赘述。

每个时间点处的路测数据还包括若干条道路的道路信息，每条道路的道路信息包括该道路的限速、中心线信息、边线信息等，中心线的线长为一系列的坐标点(x，y，z)，边线的线长也为一系列的坐标点(x，y，z)。

每个时间点处的路测数据还包括交通灯信息，交通灯信息包括交通灯对应的颜色状态、该交通灯的起止线的终点和起点，起点和终点以坐标点表示。根据交通路线的不同，交通灯的起止线可以有多条，每条起止线的长宽不一致，起点和终点的坐标为一系列的坐标点。

在示例性地实施例中，步骤S11中获取所述目标车辆在当前时间点和下一时间点处的第一状态信息集的步骤，可以包括：

从当前时间点的路测数据，获取目标车辆在当前时间点处的当前状态信息；及依据目标车辆在当前时间点处的当前状态信息、当前时间点与下一时间点之间的时间差值及预定动作信息，获取目标车辆在下一时间点处的下一状态信息。

本实施例中，通过当前时间点的路测数据，可以获取目标车辆在当前时间点的当前状态；通过车辆运动学模型对目标车辆在当前时间点的当前状态信息、时间差值、预定动作信息进行计算，得到目标车辆在下一时间点处的下一状态信息。预定动作信息包括加速度和转向角，加速度表征目标车辆的纵向加速度，纵向加速度就是沿着目标车辆的走向的加速度，与刹车/油门的数据相关。车辆运动学模型可以根据目标车辆的当前状态信息、时间差值、预定动作信息计算出，目标车辆在下一时间点下一状态信息，下一状态信息包括目标车辆在下一时间点的位置坐标、速度、朝向角等数据。

在示例性地实施例中，获取所述环境动态物体在所述当前时间点和所述下一时间点处的第二状态信息集的步骤，可以包括：

从当前时间点的路测数据，获取环境动态物体在当前时间点处的当前状态信息；及从下一时间点的路测数据，获取环境动态物体在下一时间点处的下一状态信息。

本实施例是从当前时间点的路测数与下一时间点的路测数据中获取环境动态物体在当前时间点处的当前状态信息及下一时间点处的下一状态信息，使得环境动态物体的状态不随目标车辆的状态发生改变，训练环境更真实。

在示例性地实施例中，步骤S11中，获取所述目标车辆在所述当前时间点与所述下一时间点之间的时间段内的奖励数值的步骤，可以包括：

根据第一状态信息集与第二状态信息集，确定目标车辆在当前时间点与下一时间点之间的时间段内的奖励数值。

本实施例中，可以预先确定奖惩规则，通过奖惩规则基于第一状态信息集与第二状态信息集之间的状态变化，确定目标车辆在当前时间点与下一时间点之间的时间段内的奖励数值。奖惩规则中包括奖励规则与惩罚规则，相应的设置奖励函数与惩罚函数，包括是否到达目的地、是否闯红灯、碰撞、沿道路行驶等。通过设置奖励/惩罚函数，实现对模型参数的调整，以使自动驾驶强化模型按照预期的结果进行输出。

本实施例中的奖励数值是单个时间段的，多个时间段的奖励数值得到奖励数值集。

在示例性地实施例中，本申请实施例步骤S11中的奖励数值集可以包括：

第一奖励数值子集，第一奖励数值子集中的第一奖励数值之和用于表征目标车辆在不同时间点中最后一个时间点是否达到目的地；其中，第一奖励数值之和为0，表示目标车辆在最后一个时间点未达到目的地；第一奖励数值之和不为0，表示目标车辆在最后一个时间点达到目的地以及达到目的地所花费的时间；和/或

第二奖励数值子集，第二奖励数值子集中的第二奖励数值用于表征目标车辆在任意相邻两个时间点之间的时间段内是否有碰撞、是否闯红灯、是否偏离道路中心线以及是否超速。

本实施例中的第一奖励数值子集用于表示在该模拟结果数据组的总时间段目标车辆是否达到目的地的奖励值。第一奖励数值用于表示一个模拟任务执行后目标车辆是否达到目的地，多个模拟任务得到多个第一奖励数值，第一奖励数值子集包括多个第一奖励数值。根据需求设置的奖励函数的计算规则为：1.0-0.5*(花费时间占总时间的百分比)，其中，总时间为模拟结果数据组的总时间段。

在一些实施例中，奖励数值集可以包括第一奖励数值子集，或者包括第一奖励数值子集和第二奖励数值子集。

第一奖励数值的计算方式可以为：

例如，当一个模拟任务的总时间段为[1.0，3.0](单位为秒)时，获取目标车辆在3.0秒的路测数据以及目标车辆在3.0秒的状态信息，将两者进行判断。若没有到达目的地，则第一奖励值为0；若达到了目的地，根据达到的时间，确定第一奖励值，目标车辆到达目的地的时间越短第一奖励值越高。目标车辆是否达到目的地的标准以3.0秒的路测数据为标准对目标车辆在3.0秒处的状态信息进行判断，目标车辆在3.0秒处的状态信息通过1.0秒的状态信息、2秒的时间差值以及1.0秒至3.0秒之间的动作信息计算得到。根据3.0秒时目标车辆所处的位置信息进行判断，若3.0秒的路测数据中模板车辆的位置信息与3.0秒的状态信息中目标车辆的位置信息相同，则表示达到了目的地。若不相同，可以根据两者位置信息的差值与坐标方位，确定是没有达到还是超过了，从而确定第一奖励数值。

第二奖励数值子集包括每个模拟任务的第二奖励数值，第二奖励数值用于表征目标车辆在任意相邻两个时间点之间的时间段内是否有碰撞、是否闯红灯、是否偏离道路中心线以及是否超速等不安全或者不遵守交通规则行为的程度，不安全或者不遵守交通规则行为在此不做限制，每个模拟任务中的第二奖励数值可以通过以下函数计算得到：

碰撞函数：若目标车辆agent与任何其他环境物体有碰撞则会有一定的惩罚，有碰撞则第二奖励数值为-1.0，无碰撞则第二奖励数值为0。

偏离道路中心线函数：有偏离则第二奖励数值为：(-0.01*偏离距离平方)，没有偏离则第二奖励数值为0。

闯红灯函数为：闯红灯则第二奖励数值为：-1.0，没有闯红灯则第二奖励数值为0。

超速函数：若超速第二奖励数值为：(-1.0*超速百分比)；没有超速则第二奖励数值为0。

本实施例中对奖励/惩罚函数设置简单、直观、全面而且很容易实现。

在示例性地实施例中，每个模拟任务的执行步骤还可以包括：

获取用于描述自动驾驶路测场景的路测场景片段，其中，路测场景片段包括位于多个时间点处的路测数据；依据多个时间点处的路测数据，获取并输出目标车辆在当前时间点和下一时间点处的第一状态信息集、环境动态物体在当前时间点和下一时间点处的第二状态信息集以及目标车辆在当前时间点与下一时间点之间的时间段内的奖励数值；利用第一状态信息集、第二状态信息集以及奖励数值，对当前时间点对应的自动驾驶学习模型进行训练，以得到下一时间点对应的自动驾驶学习模型，并保存下一时间点对应的自动驾驶学习模型的模型参数；及获取下一时间点对应的自动驾驶学习模型的模型参数，并利用下一时间点对应的自动驾驶学习模型的模型参数，执行模拟任务，以得到目标车辆在下一时间点的下一个时间点的第一状态信息。

为了更好的理解该训练步骤，通过具体的实施方式进行说明。若当前时间点为1.0秒，下一时间点为2.0秒，下一时间点的下一时间点为3.0秒。从共享存储(shared storage)中获取1.0秒的模型参数，再基于模型参数设置强化学习模型得到1.0秒的自动驾驶学习模型。根据从回放缓存(replay buffer)获取的1.0秒与2.0秒的第一状态信息集、第二状态信息集以及奖励数值对1.0秒的自动驾驶学习模型进行训练，得到2.0秒的自动驾驶学习模型，并保存2.0秒时得到的模型参数，可以保存在共享存储(shared storage)中。

进行后续训练时，再从回放缓存(replay buffer)中获取2.0秒的模型参数，得到2.0秒的自动驾驶学习模型。根据2.0秒与3.0秒的第一状态信息集、第二状态信息集以及奖励数值对2.0秒的自动驾驶学习模型进行训练，得到3.0秒的自动驾驶学习模型，并保存3.0秒时得到的模型参数。依次类推执行模型训练的步骤，在此不做赘述。

本实施例中，按照时间点顺序进行模型训练，并保存每个时间点训练的自动驾驶学习模型的模型参数。可以获取当前最新得到的模型参数构建自动驾驶学习模型进行后续的模拟任务。若突然中断训练时，也可根据最新保存的模型参数，继续根据模拟任务进行模型训练，不用重新开始训练，提高了模型训练的效率。

请参阅图2，图2是本申请实施例的自动驾驶方法的流程示意图，应用于目标车辆，具体地，该方法应用于安装在目标车辆上的电子设备。在一些可能的实现方式中，该自动驾驶学习模型的分布式训练方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。具体而言，可以包括如下步骤：

步骤S20、获取目标车辆在自动驾驶路测场景中当前时间点的第一状态信息以及自动驾驶路测场景中环境动态物体的第二状态信息。

本实施例中，目标车辆为无人驾驶车辆，目标车辆上可以设置摄像头，采集目标车辆在当前时间点的第一状态信息及环境动态物体在当前时间点的第二状态信息。

步骤S21、将第一状态信息和第二状态信息输入至自动驾驶学习模型，以得到目标车辆的行驶动作，使得目标车辆根据行驶动作进行行驶；其中，自动驾驶学习模型是利用上述实施例的自动驾驶学习模型的训练方法进行训练得到的。

本实施例中，自动驾驶学习模型被训练为根据输入的当前时间点的状态信息预测对应的行驶动作，目标车辆根据行驶动作进行行驶，得到下一时间点的状态信息及奖励数值。由于自动驾驶学习模型是一直在学习更新的，可以通过当前计算得到的奖励数值更新自动驾驶学习模型的模型参数，得到最新的下一时间点的自动驾驶学习模型。再通过下一时间点的自动驾驶学习模型根据目标车辆在下一时间点的状态信息，对目标车辆在下一时间点的行驶动作进行预测，依此类推，在此不做赘述。

本实施例中，通过自动驾驶的强化学习模型训练方法实施例训练得到自动驾驶学习模型，再通过自动驾驶学习模型结合目标车辆与环境动态物体的状态数据对实际操作的目标车辆进行自动驾驶的行驶路线预测，可以有效避免交通事故的发生，并提高了预测准确性。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

请参阅图3，图3是本申请电子设备30一实施例的框架示意图。电子设备30安装在车辆上，可以为车载设备。电子设备30包括相互耦接的存储器31和处理器32，处理器32用于执行存储器31中存储的程序指令，以实现上述任一自动驾驶学习模型的分布式训练方法实施例的步骤，或实现上述任一自动驾驶方法实施例中的步骤。在一个具体的实施场景中，电子设备30可以包括但不限于：微型计算机、服务器，在此不做限定。

具体而言，处理器32用于控制其自身以及存储器31以实现上述任一自动驾驶学习模型的增强方法实施例的步骤，或实现上述任一自动驾驶方法实施例中的步骤。处理器32还可以称为CPU(Central Processing Unit，中央处理单元)。处理器32可能是一种集成电路芯片，具有信号的处理能力。处理器32还可以是通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器32可以由集成电路芯片共同实现。

请参阅图4，图4为本申请非易失性计算机可读存储介质40一实施例的框架示意图。非易失性计算机可读存储介质40存储有能够被处理器运行的程序指令401，程序指令401用于实现上述任一自动驾驶学习模型的分布式训练方法实施例的步骤，或实现上述任一自动驾驶方法实施例中的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种自动驾驶学习模型的分布式训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，通过分布式模拟所述自动驾驶路测场景，得到所述多个模拟结果数据组，包括：

获取用于描述所述自动驾驶路测场景的路测场景片段，其中，所述路测场景片段包括位于多个时间点处的路测数据；

依据所述多个时间点处的路测数据，获取并输出所述目标车辆在当前时间点和下一时间点处的第一状态信息集、所述环境动态物体在所述当前时间点和所述下一时间点处的第二状态信息集以及所述目标车辆在所述当前时间点与所述下一时间点之间的时间段内的奖励数值。

3.根据权利要求2所述的方法，其特征在于，所述获取所述目标车辆在当前时间点和下一时间点处的第一状态信息集，包括：

从所述当前时间点的路测数据，获取所述目标车辆在所述当前时间点处的当前状态信息；

依据所述目标车辆在所述当前时间点处的当前状态信息、所述当前时间点与所述下一时间点之间的时间段及预定动作信息，获取所述目标车辆在所述下一时间点处的下一状态信息。

4.根据权利要求2所述的方法，其特征在于，所述获取所述环境动态物体在所述当前时间点和所述下一时间点处的第二状态信息集，包括：

从所述当前时间点的路测数据，获取所述环境动态物体在所述当前时间点处的当前状态信息；

从所述下一时间点的路测数据，获取所述环境动态物体在所述下一时间点处的下一状态信息。

5.根据权利要求2所述的方法，其特征在于，所述获取所述目标车辆在所述当前时间点与所述下一时间点之间的时间段内的奖励数值，包括：

6.根据权利要求1所述的方法，其特征在于，

所述奖励数值集包括：

7.根据权利要求2所述的方法，其特征在于，所述利用所述第一状态信息总集、所述第二状态信息总集以及所述奖励数值集，执行分布式训练操作，得到经训练的自动驾驶学习模型，包括：

所述并行执行多个所述模拟任务，包括：

获取所述下一时间点对应的自动驾驶学习模型的模型参数，并利用所述模型参数，执行所述模拟任务，以得到所述目标车辆在所述下一时间点的下一个时间点的第一状态信息。

8.一种自动驾驶方法，其特征在于，应用于目标车辆，包括：

其中，所述自动驾驶学习模型是利用权利要求1至7任一项所述的自动驾驶学习模型的分布式训练方法训练得到的。

9.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1至7任一项所述的自动驾驶学习模型的分布式训练方法，或实现权利要求8所述的自动驾驶方法。

10.一种非易失性计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1至7任一项所述的自动驾驶学习模型的分布式训练方法，或实现权利要求8所述的自动驾驶方法。