CN113449823A

CN113449823A - 自动驾驶模型训练方法及数据处理设备

Info

Publication number: CN113449823A
Application number: CN202111017730.9A
Authority: CN
Inventors: 沈庆阳
Original assignee: Chengdu Deep Blue Thinking Information Technology Co ltd
Current assignee: Chengdu Deep Blue Thinking Information Technology Co ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-09-28
Anticipated expiration: 2041-08-31
Also published as: CN113449823B

Abstract

本申请提供的自动驾驶模型训练方法及数据处理设备，通过由多个学习模块中的第二自动驾驶模型并行地进行探索学习获得经验数据，然后将经过筛选后的经验数据存储至共享的目标回放缓存，多个第二自动驾驶模型又根据共享的目标回放缓存中的经验数据及第一自动驾驶模型的网络参数更新自身的网络参数继续进行探索学习。并且在满足一定更新条件时，结合各第二自动驾驶模型的网络参数对第一自动驾驶模型进行更新。如此，在整个训练过程中，由多个并行的第二自动驾驶模型进行探索学习并进行经验数据共享，提高了训练的效率，并且通过对共享经验数据的筛选以及控制更新所述第一自动驾驶模型网络参数的参数更新条件，可以使整个学习过程更稳定。

Description

自动驾驶模型训练方法及数据处理设备

技术领域

本申请涉及自动驾驶技术领域，具体而言，涉及一种自动驾驶模型训练方法及数据处理设备。

背景技术

自动驾驶技术是人工智能在现实世界中最具有实际意义的应用之一，大规模地实现自动驾驶技术可以有效地减少由人类驾驶员的过失，如疲劳驾驶、注意力分散、超速和危险驾驶等不安全行为所造成的经济及社会损失。

自动驾驶技术的实现目前主要依赖于基于机器学习的自动驾驶模型，由自动驾驶模型根据驾驶时采集的行驶环境数据确定出动作策略，从而控制车辆自动地执行相应的动作。在一些针对自动驾驶模型的训练方案中，采用设置虚拟驾驶场景（包括虚拟的道路、障碍或天气物等），获取虚拟车辆在虚拟驾驶场景中行驶时通过虚拟传感器采集的行驶环境数据，然后训练自动驾驶模型根据行驶环境数据确定出合适的动作策略来控制虚拟车辆，从而使自动驾驶模型学习到针对不同环境时需要采用的驾驶动作。

但是，这些自动驾驶模型的训练方案中，或存在训练速度较快但训练过程不稳定的问题，或存在训练过程较稳定但训练速度较慢的问题，难以兼顾训练速度和训练过程的稳定性。

发明内容

为了克服现有技术中的上述不足，本申请的目的在于提供一种自动驾驶模型训练方法，所述方法应用于数据处理设备，所述数据处理设备中预先配置有多个并行运行的学习模块；所述方法包括：

针对多个并行运行的学习模块中的每个所述学习模块，在启动一轮次模型训练时，通过复制第一自动驾驶模型的网络参数获得第二自动驾驶模型；所述第一自动驾驶模型包括目标动作确定网络及目标动作评价网络，所述第二自动驾驶模型包括在线动作确定网络及在线动作评价网络；其中，每一轮次的模型训练包括多个训练步骤；

在每个训练步骤中，通过所述第二自动驾驶模型获取模型训练过程中产生的在线经验数据，并将所述在线经验数据存储至所述学习模块的在线回放缓存中；其中，所述在线经验数据包括第一行驶环境数据、第一执行动作、实际动作奖励值及第二行驶环境数据，所述第一行驶环境数据为虚拟车辆在虚拟驾驶场景中行驶时，由所述虚拟车辆对应虚拟传感器从所述虚拟驾驶场景中采集到的当前的行驶环境数据；所述第一执行动作为所述第二自动驾驶模型的在线动作确定网络根据所述第一行驶环境数据得出的所述虚拟车辆的执行动作；所述第二行驶环境数据为所述虚拟车辆执行所述第一执行动作之后的行驶环境数据；所述实际动作奖励值为在执行所述第一执行动作后从所述第一行驶环境数据变更至第二行驶环境数据获得的奖励值；

在每个训练步骤中，通过所述第二自动驾驶模型的在线动作评价网络及所述第一自动驾驶模型的目标动作评价网络，根据多个所述学习模块共享的目标回放缓存中的多条共享经验数据，对所述第二自动驾驶模型的网络参数进行更新；

在完成一轮次模型训练后，根据所述目标回放缓存中各共享经验数据，以及所述在线回放缓存中各在线经验数据的第一执行动作的方差，对所述学习模块的在线经验数据进行筛选，将满足预设的动作方差条件的在线经验数据存入所述目标回放缓存中作为新的共享经验数据；

针对任意一个所述学习模块，在训练过程中，当满足预设模型参数更新条件时，获取所述第一自动驾驶模型当前的第一网络参数及该学习模块对应的第二自动驾驶模型的第二网络参数；

对所述第一网络参数和所述第二网络参数进行加权平均，将加权平均后获得的值作为所述第一自动驾驶模型的新的第一网络参数。

在一种可能的实现方式中，所述在每个训练步骤中，通过所述第二自动驾驶模型的在线动作评价网络及所述第一自动驾驶模型的目标动作评价网络，根据多个所述学习模块共享的目标回放缓存中的多条共享经验数据，对所述第二自动驾驶模型的网络参数进行更新的步骤，包括：

在每个训练步骤中，所述学习模块从所述目标回放缓存中采样获取多条共享经验数据；

针对采样获得的每条所述共享经验数据，通过所述第二自动驾驶模型的在线动作评价网络确定当前时刻的第一预测奖励值，通过所述第一自动驾驶模型的目标动作评价网络确定下一时刻的第二预测奖励值；根据所述第一预测奖励值和第二预测奖励值确定所述共享经验数据的时间差分参数；

根据所述多条共享经验数据对应的时间差分参数对所述第二自动驾驶模型的网络参数进行更新。

在一种可能的实现方式中，所述针对采样获得的每条所述共享经验数据，通过所述第二自动驾驶模型的在线动作评价网络确定当前时刻的第一预测奖励值，通过所述第一自动驾驶模型的目标动作评价网络确定下一时刻的第二预测奖励值的步骤，包括：

通过所述第二自动驾驶模型的在线动作评价网络，根据所述共享经验数据中的第一行驶环境数据和第一执行动作，确定相应的第一预测奖励值；

根据所述共享经验数据中的第二行驶环境数据，确定相应的第二执行动作；

通过所述第一自动驾驶模型的目标动作评价网络，根据所述第二行驶环境数据及所述第二执行动作，确定相应的第二预测奖励值。

在一种可能的实现方式中，所述根据所述第一预测奖励值和第二预测奖励值确定所述共享经验数据的时间差分参数的步骤，包括：

根据所述第二预测奖励值和所述实际动作奖励值确定时间差分标识值；

根据所述第一预测奖励值和所述时间差分标识值确定时间差分误差值作为所述时间差分参数；

所述根据所述多条共享经验数据对应的时间差分参数对所述第二自动驾驶模型的网络参数进行更新的步骤，包括：

计算所述多条共享经验数据对应的时间差分误差值的平均值，根据所述平均值，采用随机梯度下降的方式对所述第二自动驾驶模型的在线动作评价网络的网络参数进行更新。

在一种可能的实现方式中，在采样获取多条共享经验数据中，第i条共享经验数据对应的时间差分标识值的计算方式如下：

其中，

为所述时间差分标识值，

为所述实际动作奖励值，

为所述第二行驶环境数据，

为所述目标动作确定网络的网络参数，

为所述目标动作确定网络基于其网络参数根据所述第二行驶环境数据得出的所述第二执行动作，

为所述在线动作评价网络的网络参数，

为所述目标动作评价网络基于其网络参数根据所述第二行驶环境数据和所述第二执行动作得到的所述第二预测奖励值，

为预设的折扣系数；

所述多条共享经验数据对应的时间差分误差值的平均值的计算方式如下：

其中，

为所述时间差分误差值的平均值，N为采样的共享经验数据数量，

为所述第一行驶环境数据，

为所述第一执行动作，

为所述第二自动驾驶模型的在线动作评价网络的网络参数，

为所述第二自动驾驶模型的在线动作评价网络基于其网络参数根据所述第一行驶环境数据和所述第一执行动作得到的所述第一预测奖励值。

在一种可能的实现方式中，在完成一轮次模型训练后，根据所述目标回放缓存中各共享经验数据，以及所述在线回放缓存中各在线经验数据的第一执行动作的方差，对所述学习模块的在线经验数据进行筛选，将满足预设的动作方差条件的在线经验数据存入所述目标回放缓存中作为新的共享经验数据的步骤，包括：

在完成一轮次模型训练后，计算所述目标回放缓存中各共享经验数据的中第一执行动作的第一方差的平均值；

计算所述在线回放缓存中各在线经验数据的第一执行动作的第二方差；

若所述第二方差小于所述第一方差的平均值，则将对应的在线经验数据存入所述目标回放缓存；

若所述第二方差大于所述第一方差的平均值，则将对应的在线经验数据丢弃。

在一种可能的实现方式中，所述针对任意一个所述学习模块，在训练过程中，当满足预设模型参数更新条件时，获取所述第一自动驾驶模型当前的第一网络参数及该学习模块对应的第二自动驾驶模型的第二网络参数的步骤，包括：

针对每个所述学习模块，在完成每个训练步骤后，对一全局步骤计数值进行增值更新；

在所述全局步骤计数值满足预设条件时，获取所述第一自动驾驶模型当前的第一网络参数及最近一次更新所述全局步骤计数值的学习模块的第二自动驾驶模型的第二网络参数。

在一种可能的实现方式中，所述针对每个所述学习模块，在完成每个训练步骤后，对一全局步骤计数值进行增值更新的步骤，包括：

所述针对每个所述学习模块，在完成每个训练步骤后，对一全局步骤计数值加1；

所述在所述全局步骤计数值满足预设条件时，获取所述第一自动驾驶模型当前的第一网络参数及最近一次更新所述全局步骤计数值的学习模块的第二自动驾驶模型的第二网络参数的步骤，包括：

在所述全局步骤计数值为n的倍数时，获取所述第一自动驾驶模型当前的第一网络参数及最近一次更新所述全局步骤计数值的学习模块的第二自动驾驶模型的第二网络参数；其中，n为大于等于2的整数。

在一种可能的实现方式中，所述方法还包括：

获取车辆行驶过程中采集的真实行驶环境数据；

通过训练完成的所述第一自动驾驶模型根据所述真实行驶环境数据确定实际执行动作；

根据所述实际执行动作控制车辆的行驶。

本申请的另一目的在于提供一种数据处理设备，包括机器可读存储介质及处理器，所述机器可读存储介质存储有机器可执行的指令，所述机器可执行的指令在被所述处理器执行时，实现本申请提供的所述自动驾驶模型训练方法。

相对于现有技术而言，本申请具有以下有益效果：

本申请提供的自动驾驶模型训练方法及数据处理设备，通过由多个学习模块中的第二自动驾驶模型并行地进行探索学习获得经验数据，然后将经过筛选后的经验数据存储至共享的目标回放缓存，多个第二自动驾驶模型又根据共享的目标回放缓存中的经验数据及第一自动驾驶模型的网络参数更新自身的网络参数继续进行探索学习。并且在满足一定更新条件时，结合各第二自动驾驶模型的网络参数对第一自动驾驶模型进行更新。如此，在整个训练过程中，由多个并行的第二自动驾驶模型进行探索学习并进行经验数据共享，提高了训练的效率，并且通过对共享经验数据的筛选以及控制更新所述第一自动驾驶模型网络参数的条件，可以使整个学习过程更稳定。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的数据设备的示意图；

图2为本申请实施例提供的数据设备集群的示意图；

图3为本申请实施例提供的自动驾驶模型训练方法的示意图；

图4为本申请实施例提供的自动驾驶模型的结构示意图；

图5为本申请实施例提供的动作确定网络的结构示意图；

图6为本申请实施例提供的动作评价网络的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

本实施例提供了一种用于训练自动驾驶模型的数据处理设备，该数据处理设备可以具有一定数据处理能力。

在一种可能的实现方式中，请参照图1，该数据处理设备100可以为一台独立的电子设备，该数据处理设备100可以包括机器可读存储介质120、处理器130。

其中，该数据处理设备100可以包括多个可独立运行的处理器130，所述处理器130可以为中央处理器（Central Processing Unit，CPU）或图像处理器（Graphics ProcessingUnit，GPU），所述数据处理设备100可以通过多个所述处理器130采用共享的经验数据进行并行的模型训练。

所述机器可读存储介质120存储有机器可执行指令，通过读取并执行机器可读存储介质120中与自动驾驶模型训练逻辑对应的机器可执行指令，处理器130可执行本实施例提供的自动驾驶模型训练方法。

所述机器可读存储介质120可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM（RadomAccess Memory，随机存取存储器）、易失存储器、非易失性存储器、闪存、存储驱动器（如硬盘驱动器）、固态硬盘、任何类型的存储盘（如光盘、dvd等），或者类似的存储介质，或者它们的组合。

在另一种可能的实现方式中，请参照图2，所述数据处理设备也可以为由多个相对独立的数据处理设备100组成的集群，多个所述数据处理设备100可以进行并行的模型训练和经验数据共享动作，所述数据处理设备100共同协作完成自动驾驶模型能的训练过程。

请参照图3，图3为本实施例的一种自动驾驶模型训练方法的流程图，以下将对所述方法包括各个步骤进行详细阐述。

步骤S110，针对多个并行运行的学习模块中的每个所述学习模块，在启动一轮次模型训练时，通过复制第一自动驾驶模型的网络参数获得第二自动驾驶模型，并配置一虚拟驾驶场景；所述第一自动驾驶模型包括目标动作确定网络及目标动作评价网络，所述第二自动驾驶模型包括在线动作确定网络及在线动作评价网络。其中，每一轮次的模型训练包括多个训练步骤。

在本实施例中主要涉及动作确定网络和动作评价网络两种类型的网络，动作确定网络和动作评价网络的基本结构可以分别对应于Actor-Critic算法中的Actor神经网络和Critic神经网络。在此基础上，本实施例提供的自动驾驶模型训练方法对模型训练过程中的模型并行训练流程、训练数据的使用及模型参数的调整过程进行了改进。

另外，在本实施例中，训练完成后实际被使用的模型被称为第一自动驾驶模型，用于在训练过程中进行探索学习的模型被称为第二自动驾驶模型，所述第二自动驾驶模型用于进行并行的探索学习以更新所述第一自动驾驶模型的网络参数。为了进行区分，在本实施例中，将所述第一自动驾驶模型中的动作确定网络称为目标动作确定网络，将所述第一自动驾驶模型中的动作评价网络称为目标动作评价网络，将所述第二自动驾驶模型中的动作确定网络称为在线动作确定网络，将所述第二自动驾驶模型中的动作评价网络称为在线动作评价网络。

在本实施例中，所述第一自动驾驶模型为训练完成后需要使用到实际自动驾驶场景中的模型，所述第二自动驾驶模型为在训练过程中为提高训练效率进行并行的经验数据探索学习的模型。所述数据处理设备中预先配置有多个并行运行的学习模块，各个所述学习模块可以相对独立地通过第二自动驾驶模型执行模型训练，每个所述学习模块可以对应于图1中所示的一个处理器，或者图2中所示的一个数据处理设备。每个所述学习模块还对应有一用于存储所述第二自动驾驶模型训练过程中产生的经验数据的在线回放缓存。

同时本实施例中还配置有各所述学习模块均可以共享访问的目标回放缓存，所述目标回放缓存中存储的数据为共享经验数据。各所述学习模块可以将筛选后的经验数据存储至所述目标回放缓存作为所述共享经验数据，并可以从所述目标回放缓存中获取其他学习模块存储的经验数据，从而使各所述学习模块均能使用所述目标回放缓存中的经验数据进行模型参数的调整。

在本实施例中，由于最终需要使用的是所述第一自动驾驶模型，而所述第二自动驾驶模型的主要作用为并行进行探索学习获取经验数据，因此在本实施例中，每个所述学习模块在开始一轮次模型训练时，都需要通过复制第一自动驾驶模型的网络参数获得第二自动驾驶模型。同时，在开始一轮次模型训练时，所述学习模块可以清空对应的在线回放缓存。

请参照图4，在本实施例中，所述第一自动驾驶模型可以包括目标动作确定网络及目标动作评价网络，所述目标动作确定网络可以用于获取到的行驶环境数据确定出需要做出的执行动作，所述目标动作评价网络用于对所述执行动作进行评价。根据所述第一自动驾驶模型复制获得的所述第二自动驾驶模型可以包括在线动作确定网络及在线动作评价网络。

为了提高数据丰富程度，在本实施例中，各所述学习模块可以在不同的虚拟驾驶场景中执行所述第二自动驾驶模型的训练。其中，可以在开始一轮次模型训练时，随机地生成一个虚拟驾驶场景以供本次训练使用。

步骤S120，在每个训练步骤中，通过所述第二自动驾驶模型获取模型训练过程中产生的在线经验数据，并将所述在线经验数据存储至所述学习模块的在线回放缓存中；其中，所述在线经验数据包括第一行驶环境数据、第一执行动作、实际动作奖励值及第二行驶环境数据，所述第一行驶环境数据为所述学习模块控制虚拟车辆在虚拟驾驶场景中行驶时，由所述虚拟车辆对应虚拟传感器从所述虚拟驾驶场景中采集到的当前的行驶环境数据；所述第一执行动作为所述第二自动驾驶模型的在线动作确定网络根据所述第一行驶环境数据得出的所述虚拟车辆的执行动作；所述第二行驶环境数据为所述虚拟车辆执行所述第一执行动作之后的行驶环境数据；所述实际动作奖励值为在执行所述第一执行动作后从所述第一行驶环境数据变更至第二行驶环境数据获得的奖励值。

在本实施例中，所述学习模块可以获取到虚拟车辆在所述虚拟驾驶场景中行驶时，所述虚拟车辆上的虚拟传感器采集的行驶环境数据。可选地，行驶环境数据可以包括车辆速度、车辆距离当前路线中心的距离、车体与路线夹角、车辆周围多个距离传感器采集的数据、车辆发动机转速等数据。

在一个训练步骤中，可以包括一次根据行驶环境数据做出相应动作的过程。具体地，所述学习模块可以将t时刻的行驶环境数据作为第一行驶环境数据输入所述第二自动驾驶模型，由所述第二自动驾驶模型的在线动作确定网络根据所述第一行驶环境数据确定出相应的第一执行动作。可选地，所述第一执行动作可以包括转向角度、油门动作和刹车动作。

然后所述学习模块控制所述虚拟车辆执行所述第一执行动作，并获得执行所述第一执行动作后的行驶环境数据作为所述第二行驶环境数据。同时，所述学习模块可以获取由所述虚拟驾驶场景返回的从所述第一行驶环境数据变化至所述第二行驶环境数据时产生的实际动作奖励值。其中，所述实际动作奖励值可以为由所述虚拟驾驶场景提供的，例如，所述虚拟驾驶场景可以为TORCS虚拟环境，TORCS虚拟环境可以根据其预先设置的奖励函数及当前的虚拟车辆状态得出。

所述学习模块可以将上述获取数据记为一个在线经验数据

，其中，

为t时刻的第一行驶环境数据，

为t时刻的第一执行动作，

为t+1时刻的第二行驶环境数据，

为t时刻虚拟驾驶场景返回的实际动作奖励值。

在一轮次的训练中，可能包括多个训练步骤，所述学习模块可以将每个学习步骤获得的在线经验数据存储至该学习模块对应的在线回放缓存中。

可选地，在一个示例中，请参照图5，本实施例提供的目标动作确定网络或在线动作确定网络的输入可以为23个行驶环境数据，输出可以为3个执行动作数据。网络包括2个隐藏层，隐藏层A1由300个节点组成，隐藏层A2由600个节点组成，所有的隐藏层激活函数使用的是ReLU激活函数。根据不同动作的值域分别选择Tanh激活函数和Sigmoid激活函数。

请参照图6，本实施例提供的目标动作评价网络或在线动作评价网络的输入可以为3个动作执行数据以及23个行驶环境数据，输出可以为3个执行动作对应的预测评价结果。网络包括3个隐藏层，隐藏层C1由300个节点组成，隐藏层C2和隐藏层C3均由600个节点组成。隐藏层C1和隐藏层C3均使用ReLU作为激活函数，而隐藏层C2对经过线性激活后的动作输入和状态输入进行求和，之后将求和的结果输入到隐藏层C3。

步骤S130，在每个训练步骤中，通过所述第二自动驾驶模型的在线动作评价网络及所述第一自动驾驶模型的目标动作评价网络，根据多个所述学习模块共享的目标回放缓存中的多条共享经验数据，对所述第二自动驾驶模型的网络参数进行更新。

在本实施例中，针对所述在线动作确定网络，其网络参数调整过程是让其确定出的执行动作能让所述在线动作评价网络给出更好评价。而针对所述在线动作评价网络的网络参数更新过程，可以在每个训练步骤中，所述学习模块可以在所述目标回放缓存中通过随机采样的方式获取多条共享经验数据，然后结合所述第一自动驾驶模型的目标动作评价网络及所述第二自动驾驶模型的在线动作评价网络，对多条所述共享经验数据进行处理，然后根据处理结果更新所述在线动作评价网络的网络参数。

具体地，步骤S130可以包括以下子步骤。

步骤S131，在每个训练步骤中，所述学习模块从所述目标回放缓存中采样获取多条共享经验数据。

步骤S132，针对采样获得的每条所述共享经验数据，通过所述第二自动驾驶模型的在线动作评价网络确定当前时刻的第一预测奖励值

，通过所述第一自动驾驶模型的目标动作评价网络确定下一时刻的第二预测奖励值

，并根据所述第一预测奖励值

和第二预测奖励值

确定所述共享经验数据的时间差分参数。

例如，记每条所述共享经验数据为

；记所述第二自动驾驶模型的在线动作评价网络记为

，

为所述在线动作评价网络的网络参数。针对采样获得的每条所述共享经验数据

，通过所述第二自动驾驶模型的在线动作评价网络

，根据所述共享经验数据中的第一行驶环境数据

和第一执行动作

，确定相应的第一预测奖励值

。

同时，记所述第一自动驾驶模型的目标动作确定网络为

，

为所述目标动作确定网络的网络参数。可以通过所述目标动作确定网络

，根据所述共享经验数据中的第二行驶环境数据

，确定相应的第二执行动作

。

记所述第一自动驾驶模型的目标动作评价网络为

，

为所述目标动作评价网络的网络参数。通过所述目标动作评价网络

，根据所述第二行驶环境数据

及所述第二执行动作

，确定相应的第二预测奖励值

。

接着，可以根据所述第二预测奖励值和所述实际动作奖励值确定时间差分标识值。具体地，所述时间差分标识值

。

然后，根据所述第一预测奖励值和所述时间差分标识值确定时间差分误差值作为所述时间差分参数。具体地，时间差分误差值

。

步骤S133，根据所述多条共享经验数据对应的时间差分参数对所述第二自动驾驶模型的网络参数进行更新。

具体地，可以计算所述多条共享经验数据对应的时间差分误差值的平均值，根据所述平均值，采用随机梯度下降的方式对所述第二自动驾驶模型的在线动作评价网络的网络参数进行更新。

例如，在采样获取多条共享经验数据中，第i条共享经验数据对应的时间差分标识值的计算方式如下：

其中，

为所述时间差分标识值，

为所述实际动作奖励值，

为所述第二行驶环境数据，

为所述目标动作确定网络的网络参数，

为所述在线动作评价网络的网络参数，

为预设的折扣系数。

其中，

为所述第一行驶环境数据，

为所述第一执行动作，

为所述第二自动驾驶模型的在线动作评价网络的网络参数，

基于上述设计，在本实施例中，在所述第二自动驾驶模型的在线动作评价网络的网络参数更新过程中，由所述在线动作评价网络得出所述第一预测奖励值

，而由所述目标动作确定网络进行第二执行动作的预测，并由所述目标动作评价网络的出所述第二预测奖励值

，从而可以避免自助法学习引起的误差。

步骤S140，在完成一轮次模型训练后，根据所述目标回放缓存中各共享经验数据的第一执行动作的方差，以及所述在线回放缓存中各在线经验数据的第一执行动作的方差，对所述学习模块的在线经验数据进行筛选，将满足预设的动作方差条件的在线经验数据存入所述目标回放缓存中作为新的共享经验数据。

其中，所述动作方差条件为所述在线经验数据的第一执行动作的方差与各所述共享经验数据的第一执行动作的方差之间的大小关系是否满足预设条件。

具体地，在完成一轮次模型训练后，计算所述目标回放缓存中各共享经验数据的中第一执行动作的第一方差的平均值。接着，计算所述在线回放缓存中各在线经验数据的第一执行动作的第二方差。

若所述第二方差小于所述第一方差的平均值，则将对应的在线经验数据存入所述目标回放缓存。

在一个例子中，完成一轮次模型训练的条件可以包括，虚拟车辆行驶过程发生碰撞、行驶时间达到阈值、行驶至设定位置或行驶里程达到阈值等。

基于上述设计，在本实施例中，可以由多个所述学习模块并行地进行经验数据的探索学习，提高了训练效率。同时，每个学习模块通过动作方差进行经验数据的动作方差筛选（例如，根据所述目标回放缓存中各共享经验数据的第一执行动作的方差，以及所述在线回放缓存中各在线经验数据的第一执行动作的方差，判断所述在线经验数据是否满足预设的动作方差条件），使得加入到目标回放缓存中的经验数据的动作空间符合方差较小的正态分布，即保留了更加符合安全驾驶的经验，加快算法的训练过程。换句话说，多个所述学习模块并行地极性经验数据的探索学习，并且利用加入到所述目标回放缓存中的优质稳定的经验数据进行第二自动驾驶模型的网络参数更新，如此，大大提高了模型的训练效率，并且使梯度更新过程更加平稳。

步骤S150，针对任意一个所述学习模块，在训练过程中，当满足预设模型参数更新条件时，获取所述第一自动驾驶模型当前的第一网络参数及该学习模块对应的第二自动驾驶模型的第二网络参数。

步骤S160，对所述第一网络参数和所述第二网络参数进行加权平均，将加权平均后获得的值作为所述第一自动驾驶模型的新的第一网络参数。

在本实施例中，多个学习模块需要按照一定的规则将其自身的第二自动驾驶模型的网络参数更新至所述第一自动驾驶模型。但是，多个并行学习模块较为频繁地对第一自动驾驶模型的网络参数进行更新，可能会造成训练过程的不稳定。因此，在本实施例中，设置所述学习模块在训练过程中，当满足预设模型参数更新条件时，才对所述第一自动驾驶模型的网络参数进行更新。

具体地，针对每个所述学习模块，可以在完成每个训练步骤后，对一全局步骤计数值进行增值更新。在所述全局步骤计数值满足预设条件时，获取所述第一自动驾驶模型当前的第一网络参数及最近一次更新所述全局步骤计数值的学习模块的第二自动驾驶模型的第二网络参数。根据对所述第一网络参数和所述第二网络参数，通过进行加权平均，将加权平均后获得的值的方式更新所述作为新的第一网络参数。

例如，所述针对每个所述学习模块，在完成每个训练步骤后，对一全局步骤计数值加1。然后，在每当所述全局步骤计数值为n的倍数时，获取所述第一自动驾驶模型当前的第一网络参数及最近一次更新所述全局步骤计数值的学习模块的第二自动驾驶模型的第二网络参数；其中，n为大于等于2的整数。

示例性地，n=8为例，当某个学习模块下完成一个训练步骤后，对所述全局步骤计数值加1，然后检测该全局步骤计数值是否可以整除8。若可以整除，则根据该学习模块的第二自动驾驶模型的第二网络参数更新所述第一自动驾驶模型的第一网络参数。若不能整除，则不对所述第一网络参数进行更新。

同时，为了使训练的过程更稳定，在本实施例中使用超参数

（即软更新系数）控制第一自动驾驶模型的更新。具体地，在根据所述在线动作确定网络的网络参数

更新所述目标动作确定网络的网络参数

，以及根据所述在线动作评价网络的网络参数

更新所述目标动作评价网络的网络参数

时，结合超参数

按照下述方式进行加权平均更新：

基于上述设计，在本实施例中，通过采用设定模型参数更新条件及采用加权平均的方式更新所述第一网络参数，可以使所述第一自动驾驶模型的网络参数更新过程更加平稳。

另外，在本实施例中，还可以通过对环境状态归一化和动作修剪来进一步稳定训练过程。为了实现对环境的探索，会在动作确定网络的输出动作上添加噪声。但是，由于添加噪声会造成动作的值大于其本身的值域，所以在本实施例中增加了对动作的裁剪操作，使动作输出处于对应的值域中，因此神经网络的训练更加稳定。

另外，在训练完成后的使用过程中，通常使用所述第一自动驾驶模型。

具体地，在实际使用时，可以获取车辆行驶过程中采集的真实行驶环境数据。接着，通过训练完成的所述第一自动驾驶模型根据所述真实行驶环境数据确定实际执行动作。然后，根据所述实际执行动作控制车辆的行驶。

综上所述，本申请提供的自动驾驶模型训练方法数据处理设备，通过由多个学习模块中的第二自动驾驶模型并行地进行探索学习获得经验数据，然后将经过筛选后的经验数据存储至共享的目标回放缓存，多个第二自动驾驶模型又根据共享的目标回放缓存中的经验数据及第一自动驾驶模型的网络参数更新自身的网络参数继续进行探索学习。并且在满足一定更新条件时，结合各第二自动驾驶模型的网络参数对第一自动驾驶模型进行更新。如此，在整个训练过程中，由多个并行的第二自动驾驶模型进行探索学习并进行经验数据共享，提高了训练的效率，并且通过对共享经验数据的筛选以及控制更新所述第一自动驾驶模型网络参数的条件，可以使整个学习过程更稳定。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种自动驾驶模型训练方法，其特征在于，所述方法应用于数据处理设备，所述数据处理设备中预先配置有多个并行运行的学习模块，所述方法包括：

针对多个并行运行的学习模块中的每个所述学习模块，在启动一轮次模型训练时，通过复制第一自动驾驶模型的网络参数获得第二自动驾驶模型，并配置一虚拟驾驶场景；所述第一自动驾驶模型包括目标动作确定网络及目标动作评价网络，所述第二自动驾驶模型包括在线动作确定网络及在线动作评价网络；其中，每一轮次的模型训练包括多个训练步骤；

在每个训练步骤中，通过所述第二自动驾驶模型获取模型训练过程中产生的在线经验数据，并将所述在线经验数据存储至所述学习模块的在线回放缓存中；其中，所述在线经验数据包括第一行驶环境数据、第一执行动作、实际动作奖励值及第二行驶环境数据，所述第一行驶环境数据为所述学习模块控制虚拟车辆在所述虚拟驾驶场景中行驶时，由所述虚拟车辆对应的虚拟传感器从所述虚拟驾驶场景中采集到的当前的行驶环境数据；所述第一执行动作为所述第二自动驾驶模型的在线动作确定网络根据所述第一行驶环境数据得出的所述虚拟车辆的执行动作；所述第二行驶环境数据为所述虚拟车辆执行所述第一执行动作之后的行驶环境数据；所述实际动作奖励值为在执行所述第一执行动作后从所述第一行驶环境数据变更至第二行驶环境数据获得的奖励值；

在每个训练步骤中，通过所述第二自动驾驶模型的在线动作评价网络及所述第一自动驾驶模型的目标动作评价网络，根据多个所述学习模块共享的目标回放缓存中的多条共享经验数据，对所述第二自动驾驶模型的网络参数进行更新；所述共享经验数据为所述目标回放缓存中存储的数据；

在完成一轮次模型训练后，根据所述目标回放缓存中各共享经验数据的第一执行动作的方差，以及所述在线回放缓存中各在线经验数据的第一执行动作的方差，对所述学习模块的在线经验数据进行筛选，将满足预设的动作方差条件的在线经验数据存入所述目标回放缓存中作为新的共享经验数据；所述动作方差条件为所述在线经验数据的第一执行动作的方差与所述共享经验数据的第一执行动作的方差之间的大小关系是否满足预设条件；

2.根据权利要求1所述的方法，其特征在于，所述在每个训练步骤中，通过所述第二自动驾驶模型的在线动作评价网络及所述第一自动驾驶模型的目标动作评价网络，根据多个所述学习模块共享的目标回放缓存中的多条共享经验数据，对所述第二自动驾驶模型的网络参数进行更新的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，所述针对采样获得的每条所述共享经验数据，通过所述第二自动驾驶模型的在线动作评价网络确定当前时刻的第一预测奖励值，通过所述第一自动驾驶模型的目标动作评价网络确定下一时刻的第二预测奖励值的步骤，包括：

通过所述第一自动驾驶模型的目标动作确定网络，根据所述共享经验数据中的第二行驶环境数据，确定相应的第二执行动作；

4.根据权利要求3所述的方法，其特征在于，

所述根据所述第一预测奖励值和第二预测奖励值确定所述共享经验数据的时间差分参数的步骤，包括：

5.根据权利要求4所述的方法，其特征在于，在采样获取的多条共享经验数据中，第i条共享经验数据对应的时间差分标识值的计算方式如下：