CN110647839B

CN110647839B - 自动驾驶策略的生成方法、装置及计算机可读存储介质

Info

Publication number: CN110647839B
Application number: CN201910885590.3A
Authority: CN
Inventors: 孔令晶; 黄国伟; 王辉静; 刘云霞
Original assignee: Shenzhen Institute of Information Technology
Current assignee: Chongqing Youchenxu Intelligent Technology Co ltd
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2022-08-12
Anticipated expiration: 2039-09-18
Also published as: CN110647839A

Abstract

本发明公开了一种自动驾驶策略的生成方法，包括：实时获取目标车辆的道路场景语义分割图像和状态信息，将目标车辆的道路场景语义分割图像输入卷积神经网络进行处理，得到目标车辆对应的道路特征，将目标车辆对应的道路特征和目标车辆的状态信息输入深度强化学习网络进行处理，以得到自动驾驶策略信息，根据自动驾驶策略信息控制所述目标车辆行驶。本发明还公开了一种自动驾驶策略的生成装置和计算机可读存储介质。本发明通过卷积神经网络提取车辆的道路场景语义分割图像的特征，将该特征和车辆状态信息输入到深度强化学习网络进行处理，从而得到可靠性高的自动驾驶策略信息，以准确控制车辆行驶。

Description

自动驾驶策略的生成方法、装置及计算机可读存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种自动驾驶策略的生成方法、装置及计算机可读存储介质。

背景技术

当前，自动驾驶系统运行时的输入数据为车辆上的摄像头拍摄的原始道路场景图像，然而，原始道路场景图像存在较大的噪音，对系统产生的自动驾驶策略有很大的干扰，使得自动驾驶系统产生的自动驾驶策略并不可靠，不能很好的应用于真实世界驾驶场景当中。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种自动驾驶策略的生成方法、装置及计算机可读存储介质，旨在解决现有技术中自动驾驶系统产生的自动驾驶策略不可靠的技术问题。

为实现上述目的，本发明提供一种自动驾驶策略的生成方法，所述自动驾驶策略的生成方法包括如下步骤：

实时获取目标车辆的运行信息，其中，所述运行信息包括所述目标车辆的道路场景语义分割图像和所述目标车辆的状态信息；

将所述目标车辆的道路场景语义分割图像输入所述卷积神经网络进行处理，得到所述目标车辆对应的道路特征；

将所述目标车辆对应的道路特征和所述目标车辆的状态信息输入所述深度强化学习网络进行处理，以得到自动驾驶策略信息；

根据所述自动驾驶策略信息控制所述目标车辆行驶。

可选地，所述实时获取目标车辆的运行信息的步骤包括：

实时接收目标车辆的道路图像；

将所述目标车辆的道路图像输入语义分割网络，得到所述目标车辆的道路场景语义分割图像；

获取所述目标车辆的状态信息。

可选地，所述深度强化学习网络包括行动者网络和批判者网络，所述实时获取目标车辆的运行信息的步骤之前还包括：

训练所述深度强化学习网络；

所述训练所述深度强化学习网络的步骤包括：

实时获取模拟车辆的运行信息，其中，所述运行信息包括所述模拟车辆的道路场景语义分割图像和所述模拟车辆的状态信息；

将所述模拟车辆的道路场景语义分割图像输入所述卷积神经网络进行处理，得到所述模拟车辆对应的道路特征；

将所述模拟车辆对应的道路特征和所述模拟车辆的状态信息输入所述行动者网络进行处理，根据所述行动者网络输出的自动驾驶策略信息控制所述模拟车辆行驶；

获取所述模拟车辆当前的行驶状态信息，根据所述模拟车辆当前的行驶状态信息更新所述批判者网络和所述行动者网络的参数。

可选地，所述获取所述模拟车辆当前的行驶状态信息，根据所述模拟车辆当前的行驶状态信息更新所述批判者网络和所述行动者网络的参数的步骤包括：

获取所述模拟车辆当前的行驶状态信息，并根据所述行驶状态信息计算奖励值；

根据所述奖励值更新所述批判者网络的参数；

根据更新后的所述批判者网络的参数更新所述行动者网络的参数。

可选地，所述模拟车辆当前的行驶状态信息包括所述模拟车辆距离目的地的距离和所述模拟车辆的车速。

可选地，所述模拟车辆状态信息包括所述模拟车辆的方向盘转向角度、当前加速度、行驶速度以及车辆档位。

可选地，所述自动驾驶策略信息包括方向盘转向度数、油门踏板数以及刹车踏板数。

可选地，训练所述深度强化学习网络的步骤还包括：

获取所述模拟车辆在预设的各个训练场景下的驾驶结果；

根据所述驾驶结果计算所述模拟车辆到达目的地的比率；

当所述模拟车辆到达目的地的比率超过预设比率阈值时，标记所述自动驾驶系统训练成功。

此外，为实现上述目的，本发明还提供一种自动驾驶策略的生成装置，该自动驾驶策略的生成装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的自动驾驶策略的生成处理程序，所述自动驾驶策略的生成处理程序被所述处理器执行时实现如上所述的自动驾驶策略的生成方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有自动驾驶策略的生成处理程序，所述自动驾驶策略的生成处理程序被处理器执行时实现如上所述的自动驾驶策略的生成方法的步骤。

本发明实施例提出的一种自动驾驶策略的生成方法、装置和计算机可读存储介质，本发明通过卷积神经网络提取车辆的道路场景语义分割图像的特征，将该特征和车辆状态信息输入到深度强化学习网络进行处理，从而得到可靠性高的自动驾驶策略信息，以准确控制车辆行驶。

附图说明

图1是本发明实施例方案涉及的硬件结构示意图；

图2为本发明实施例方案涉及的自动驾驶系统的结构示意图；

图3为本发明实施例方案设计的自动驾驶系统的训练流程和测试流程示意图；

图4为本发明自动驾驶策略的生成方法第一实施例的流程示意图；

图5为本发明自动驾驶策略的生成方法第一实施例中的道路场景语义分割图像示意图；

图6为本发明自动驾驶策略的生成方法第二实施例的流程示意图；

图7为本发明自动驾驶策略的生成方案第二实施例设计的自动驾驶系统的训练流程和测试流程示意图；

图8为本发明自动驾驶策略的生成方法第三实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：实时获取目标车辆的运行信息，其中，所述运行信息包括所述目标车辆的道路场景语义分割图像和所述目标车辆的状态信息；将所述目标车辆的道路场景语义分割图像输入所述卷积神经网络进行处理，得到所述目标车辆对应的道路特征；将所述目标车辆对应的道路特征和所述目标车辆的状态信息输入所述深度强化学习网络进行处理，以得到自动驾驶策略信息；根据所述自动驾驶策略信息控制所述目标车辆行驶。

本发明通过卷积神经网络提取车辆的道路场景语义分割图像的特征，将该特征和车辆状态信息输入到深度强化学习网络进行处理，从而得到可靠性高的自动驾驶策略信息，以准确控制车辆行驶。

如图1所示，图1是本发明实施例方案涉及的硬件结构示意图。

如图1所示，该自动驾驶策略的生成装置可以包括：处理器1001，例如CPU，通信总线1002，存储器1003。其中，通信总线1002用于实现这些组件之间的连接通信。存储器1003可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1003可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的自动驾驶策略的生成装置的结构并不构成限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1003中可以包括操作系统和自动驾驶策略的生成处理程序。

在图1所示的装置中，处理器1001可以用于调用存储器1003中存储的自动驾驶策略的生成处理程序，并执行以下操作：

根据所述自动驾驶策略信息控制所述目标车辆行驶。

进一步地，处理器1001可以调用存储器1003中存储的自动驾驶策略的生成处理程序，还执行以下操作：

实时接收目标车辆的道路图像；

获取所述目标车辆的状态信息。

训练所述深度强化学习网络；

所述训练所述深度强化学习网络的步骤包括：

根据所述奖励值更新所述批判者网络的参数；

获取所述模拟车辆在预设的各个训练场景下的驾驶结果；

根据所述驾驶结果计算所述模拟车辆到达目的地的比率；

在对本发明实施例进行详细的解释说明之前，先对本发明涉及到的自动驾驶系统的架构进行说明。

如图2所示，自动驾驶系统包括模拟器、卷积神经网络以及深度学习强化学习网络：

模拟器：一种仿真系统，提供自动驾驶策略训练所需要的驾驶环境条件和作为驾驶控制目标的模拟车辆的运行信息。

卷积神经网络：与模拟器连接，接收模拟器输出的车前视图图像信息，基于车前视图图像信息提取车前视图图像信息的特征。

深度强化学习网络：与卷积神经网络和模拟器连接，接收卷积神经网络提取的车前视图图像信息的特征和模拟器输出的模拟车辆的行驶状态信息并进行处理，输出自动驾驶策略信息。

具体的，在一种自动驾驶系统中，运行深度强化学习网络执行程序的服务器称为智能代理，如图3中上图所示，自动驾驶系统的训练过程中包含模拟器和智能代理的交互，即模拟器输出模拟车辆的车前视图图像信息、模拟车辆的运行信息以及奖励值到智能代理进行处理，智能代理输出模拟车辆的驾驶策略信息反馈给模拟器，模拟器根据该驾驶策略信息控制模拟车辆行驶，这个过程经过多次迭代反复进行直至模拟车辆到达目的地。如图3中下图所示，自动驾驶系统的测试过程中包含真实车辆和智能代理的交互，即真实车辆上的摄像头拍摄到的车前视图图像传输至卷积神经网络，卷积神经网络提取出的道路特征信息输入到智能代理，智能代理输出驾驶策略信息反馈给真实车辆，真实车辆受该驾驶策略信息的控制而在道路上行进。

参照图4，本发明第一实施例提供一种自动驾驶策略的生成方法，所述方法包括：

步骤S10，实时获取目标车辆的运行信息，其中，所述运行信息包括所述目标车辆的道路场景语义分割图像和所述目标车辆的状态信息；

目标车辆即装载着自动驾驶系统的车辆，使用本发明所生成的自动驾驶策略对其进行驾驶控制。目标车辆上装载有摄像头，可以实时获取目标车辆所在的道路场景图像。

如果直接使用目标车辆的道路场景图像作为输入数据，由于该图像存在较大的噪音，会对后续产生自动驾驶策略信息带来极大的干扰，因此，本实施例中自动驾驶系统还包括语义分割网络，用于将目标车辆的道路图像输入语义分割网络，得到目标车辆的道路场景语义分割图像。道路场景的语义分割图像相比起原始的道路场景图像具有更好的结构化信息，包含更少的噪音。

需要说明的是，语义分割技术可以像素级地识别图像，即以类标签的形式标注出图像中每个像素所属的对象类别。由语义分割技术处理器的语义分割图像中，类标签就是一种颜色。例如图5所示，左边是原始图像，右边是语义分割的图像。左图中车有多种不同颜色，右图语义分割后车都变成了紫色，这里紫色就是车的类标签。再比如，左边原始图像中存在各种颜色的房子，但在右边语义分割结果中房子都是红色的，红色就是房子的类标签。对应地，所得到的语义分割图像数据由每个像素所属的类型所对应的颜色的RGB值组成。

目标车辆的状态信息包括车辆的方向盘转向角度、当前加速度、行驶速度以及车辆档位等。

步骤S20，将所述目标车辆的道路场景语义分割图像输入所述卷积神经网络进行处理，得到所述目标车辆对应的道路特征；

卷积神经网络用于提取道路场景的语义分割图像的特征，即目标车辆对应的道路特征。具体地，卷积神经网络可以包括多个卷积层和一个全连接层，维度为h*w*channels的语义分割的图像经过三个卷积层和一个全连接层输出一个维度为m*1的向量，该向量中包含了描述道路车道线、停止线、交通灯颜色、道路上的行人和其他车辆等特征信息。

步骤S30，将所述目标车辆对应的道路特征和所述目标车辆的状态信息输入所述深度强化学习网络进行处理，以得到自动驾驶策略信息；

在现有技术中，自动驾驶策略学习算法通常会把行为进行空间离散化。然而，离散化会带来两个方面的问题：一方面离散化太细会导致计算的维度剧烈增加，另一方面离散化太粗略可能会丢失掉行为空间的结构化信息。尤其对于车辆控制策略学习，更多的是需要在连续的行为空间来建模。因此，在本实施例中采用应用于连续行为策略学习的深度强化学习网络(DDPG：Deep Deterministic Policy Gradient)对连续的车辆驾驶行为建模，在利用样本对深度强化学习网络进行训练，以达到对自动驾驶策略的学习。

在本步骤中，将目标车辆对应的道路特征和目标车辆的状态信息输入训练好的深度强化学习网络进行处理，获取深度强化学习网络输出的自动驾驶策略信息，其中，自动驾驶策略信息包括方向盘转向度数、油门踏板数以及刹车踏板数。

步骤S40，根据所述自动驾驶策略信息控制所述目标车辆行驶。

在本实施例中，通过利用卷积神经网络提取车辆的道路场景语义分割图像的特征，将该特征和车辆状态信息输入到深度强化学习网络进行处理，从而得到可靠性高的自动驾驶策略信息，以准确控制车辆行驶。

参照图6，本发明的第二实施例基于第一实施例提供一种自动驾驶策略的生成方法，深度强化学习网络包括行动者网络和批判者网络，所述方法包括训练深度强化学习网络的步骤，具体包括如下步骤：

步骤S50，实时获取模拟车辆的运行信息，其中，所述运行信息包括道路场景的语义分割图像和所述模拟车辆的状态信息；

在真实的自动驾驶场景中，利用深度强化学习技术学习自动驾驶策略高成本、耗时并且危险。当前，在模拟器中学习自动驾驶策略则成为了本领域越来越普遍的方法，例如TORCS模拟器。然而该模拟器却存在以下主要缺陷：场景不能很好模拟城市道路交通场景，画面保真度不高，未能包括城市驾驶场景中的各种复杂状况(随机行人，随机车辆，建筑，交通灯，交通牌，十字路口等)。这些缺陷使得基于TORCS模拟器所学习到的控制策略与基于真实世界城市道路所学习到的控制策略差异巨大，控制准确度低，并不可靠。

在本实施例中，使用CARLA(car learning to act)模拟器进行自动驾驶策略的学习。CARLA所提供的驾驶环境条件包括多种道路模型、建筑模型、车辆运动模型、行人模型、天气模型以及光照模型，所提供的模拟车辆的运行信息包括模拟车辆行驶的道路场景的语义分割图像和模拟车辆的行驶状态信息等。

在本步骤中，在CARLA模拟器中设置模拟车辆的驾驶环境条件并启动模拟车辆后，CARLA模拟器采用语义分割技术对所获取的模拟车辆的车前视图图像进行处理，得到模拟车辆行驶的道路场景的语义分割图像。

步骤S60，将所述模拟车辆的道路场景语义分割图像输入所述卷积神经网络进行处理，得到所述模拟车辆对应的道路特征；

卷积神经网络包括多个卷积层，优选地，包含三个卷积层和一个全连接层。相比起直接基于道路场景的语义分割图像进行驾驶策略的训练，基于卷积神经网络提取的道路特征进行训练，可以提高训练的准确性。

步骤S70，将所述模拟车辆对应的道路特征和所述模拟车辆的状态信息输入所述行动者网络进行处理，获取所述行动者网络输出的自动驾驶策略信息控制所述模拟车辆行驶；

深度强化学习是一个反复迭代的过程，每一次迭代要解决两个问题：给定一个策略求值函数和根据值函数来更新策略。深度强化学习网络包括两个神经网络：行动者网络和批判者网络，其中，使用批判者(critic)网络来近似值函数，使用行动者网络(actor)来近似策略函数。

具体地，在本步骤中，先将模拟车辆对应的道路特征和模拟车辆的状态信息输入行动者网络进行处理，根据行动者网络输出的自动驾驶策略信息控制模拟车辆行驶，其中，自动驾驶策略信息包括方向盘转向度数、油门踏板数以及刹车踏板数。

步骤S80，获取所述模拟车辆当前的行驶状态信息，根据所述模拟车辆当前的行驶状态信息更新所述批判者网络和所述行动者网络的参数。

在本步骤中，先获取模拟车辆当前的行驶状态信息，并根据行驶状态信息计算奖励值，再根据奖励值更新批判者网络的参数，最后根据更新后的批判者网络的参数更新行动者网络的参数。

需要说明的是，在本实施例中，在深度强化学习网络中计算奖励值的目的就是为了让强化学习算法能够学习到最优化驾驶行为(即最优化的驾驶策略信息)，因为强化学习算法总是期望输出能够让奖励值取得最大值的行为，其中，正的奖励值为对应奖励，负的奖励值对应惩罚。在强化学习中，计算奖励值的方式非常重要，往往决定了行动网络是否能够收敛到一个高效解决方案。一般的模拟器往往会提供一些奖励值的计算方式，但这些奖励值的计算方式过于简单从而不能准确地刻画任务的目的。

因此，经过研究确定了本实施例中计算奖励值的方式为：根据模拟车辆当前的行驶状态信息计算奖励值。一种方式可以为，模拟车辆当前的行驶状态信息包括模拟车辆距离目的地的距离和模拟车辆的车速，根据下述公式计算t时刻的奖励值r_t，其中，v表示车辆的速度，v*cosθ代表车辆沿着车道向前行驶的速度(需要奖励，系数为正)，v*sinθ代表沿着车辆垂直于车道的速度(这个速度会导致车辆偏离车道，需要惩罚，系数为负)，d代表车辆距离目的地的距离(单位为公里)，a为可调整的参数，当(d_t-1-d_t)>0时，表明车辆在靠近目的地，需要奖励，当(d_t-1-d_t)<0时，表明车辆在远离目的地，需要惩罚。

r_t＝a*(d_t-1-d_t)+v*cosθ-v*sinθ

另一种方式可以为，模拟车辆当前的行驶状态信息在包括模拟车辆距离目的地的距离和模拟车辆的车速之外，还可以包括一些不合理的驾驶行为信息，以在计算奖励值的公式中体现对这些不合理的驾驶行为的惩罚。例如，不合理的驾驶行为信息可以包括车辆偏离了车道中线的驾驶行为、车辆与其他车辆、行人、障碍物碰撞的驾驶行为等等。

为了清楚的展示本步骤中批判者网络和行动者网络的参数更新过程，接下来带着时间的维度说明步骤S50至步骤S80的实现过程：

步骤1：在t时刻，模拟器输出模拟车辆在t时刻的运行信息，包括车辆所在道路场景的语义分割图像Pt和模拟车辆的状态信息St；

步骤2：Pt被输入卷积神经网络进行处理，得到模拟车辆对应的道路特征Wt；

步骤3：Wt和St被输入行动者网络，得到t时刻的自动驾驶策略信息At；

步骤4：At被输入模拟器，控制模拟车辆驾驶，模拟器根据模拟车辆当前的行驶状态信息计算t时刻的奖励值Rt，同时输出模拟车辆在t+1时刻的状态信息St+1；

步骤5：At、Rt、St、St+1被缓存在存储空间中，形成训练行动者网络和批判者网络的参数的数据集；

步骤6：根据上一个步骤中的数据集先更新批判者网络的参数，其中，根据预设的代价函数和梯度下降算法更新批判者网络的参数；需要说明的是，批判者网络包括策略Q函数，更新的参数为Q函数的参数；

步骤7：根据预设的目标函数和梯度下降算法更新行动者网络的参数，其中，在进行梯度下降计算时需要使用更新后的Q函数；

步骤8：返回步骤1获取下一时刻的模拟车辆的运行信息，重复运行步骤1～7，直至模拟车辆到达目的地。

如图7所示，展示了一种自动驾驶系统在训练过程与测试过程中的执行流程。具体地，在训练过程中，维度为600*800*3通道的道路场景语义分割图像输入卷积神经网络进行处理，其中，先以步长2经过7*7的卷积核的处理得到297*397*64通道的道路特征信息，接着以步长1经过5*5的卷积核的处理得到293*393*32通道的道路特征信息，再以步长1经过5*5的卷积核的处理得到289*389*32通道的道路特征信息，最后经过全连接层的处理得到最终的道路特征信息，该道路特征信息与车辆状态信息一起输入到行动者网络；在行动者网络中，道路特征信息与车辆状态信息先后经过两个256维的全连接层的处理得到三维驾驶策略信息，其中，三维驾驶策略信息包括方向盘转向度数、油门踏板数以及刹车踏板数；三维驾驶策略信息输入批判者网络继续进行处理，先后经过两个256维的全连接层的处理得到策略Q函数的三维Q值信息，其中，三维Q值信息包括方向盘转向度数、油门踏板数以及刹车踏板数这三个维度的信息。

在测试过程中，在真实道路上行驶的车辆上的摄像头拍摄真实道路场景图像，该真实道路场景图像对应的语义分割图像被输入上述的卷积神经网络进行同样的上述处理，得到真实道路场景特征，该真实道路场景特征与车辆状态信息一起输入到上述行动者网络进行同样的处理，输出当前车辆状态下的驾驶策略信息，此时自动驾驶系统根据该驾驶策略信息控制车辆行进。

在本实施例中，一方面，利用CARLA模拟器在训练中提供了对人类真实驾驶场景的模拟，并利用了语义分割技术，极大地减少了训练场景和真实世界的差异，使在模拟器里面训练的控制策略可以更好更容易直接适配真实驾驶场景。另一方面，行动者网络输出的自动驾驶策略信息可以反馈给CARLA里面的模拟车辆，让模拟车辆在模拟器里面开动起来，批判者网络接收来自模拟器的状态信息并会根据最大化奖励值更新自身的参数，进而更新行动者网络的参数，更新后的行动者网络又输出自动驾驶策略信息，整体形成一个闭环，其中，所设置的奖励值计算方法往往能够更好地描述任务，可以帮助驾驶策略的训练学习得以更好地收敛，得到自动驾驶系统的最优参数，以在被迁移到真实车辆上应用时进行准确的自动驾驶控制。

进一步的，参照图8，本发明第三实施例基于第一实施例或第二实施例提供一种自动驾驶策略的生成方法，本实施例中在步骤S40之后还包括以下步骤：

步骤S90，当所述目标车辆到达目的时，获取所述目标车辆从出发地到所述目的地的道路场景语义分割图像和驾驶信息；

当目标车辆在自动驾驶系统的控制下达到目的地时，表明自动驾驶系统在目标车辆从出发地到目的地这段时间内所生成的自动驾驶策略信息是有准确有效的。但由于自动驾驶系统训练时所用的道路样本场景与真实的场景仍然存在一定的差异，上述生成的自动驾驶策略信息未必是最优的，即其准确性可以进一步地提高。

因此，在本步骤中，获取目标车辆从出发地到目的地的语义分割图像和驾驶信息，以根据这些数据优化自动驾驶系统中的深度强化学习网络的参数，其中，驾驶信息包括驾驶时间、违章记录以及避让记录等。

步骤S100，根据所述目标车辆从出发地到所述目的地的道路场景语义分割图像和驾驶信息训练所述深度强化学习网络的参数。

具体地，在本步骤中，先根据驾驶信息确定是否需要对深度强化学习网络的参数进行增量训练。例如，若驾驶时间高于预测的驾驶时间(指从出发地到目的地的平均驾驶时间)，或者出现了闯红灯、压实线等违章记录，或者行驶当中出现了过多的避让行为等，则判断需要对深度强化学习网络的参数进行增量训练。接着就将目标车辆从出发地到目的地的道路场景语义分割图像输入模拟器，以更新模拟器的道路场景模型。模拟器在更新后的道路场景模型下，依照原来的流程将道路场景语义分割图像输入卷积神经网络，得到对应的道路场景特征，道路场景特征和模拟车辆的状态信息输入到深度强化学习网络中，对其进行参数的训练。

在本实施例中，通过根据真实环境中的车辆从出发地到目的地的道路场景语义分割图像和驾驶信息对深度强化学习网络的参数进行优化训练，可以进一步提高自动驾驶系统所生成的驾驶策略信息的准确性。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有自动驾驶策略的生成处理程序，所述自动驾驶策略的生成处理程序被处理器执行时实现所述的自动驾驶策略的生成方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种自动驾驶策略的生成方法，应用于自动驾驶系统，其特征在于，所述自动驾驶系统包括卷积神经网络和深度强化学习网络，所述自动驾驶策略的生成方法包括以下步骤：

通过CARLA模拟器训练所述深度强化学习网络；

其中，所述通过CARLA模拟器训练所述深度强化学习网络的步骤包括：

将所述模拟车辆对应的道路特征和所述模拟车辆的状态信息输入所述行动者网络进行处理，根据行动者网络输出的自动驾驶策略信息控制所述模拟车辆行驶；

获取所述模拟车辆当前的行驶状态信息，其中，所述行驶状态信息包括模拟车辆距离目的地的距离、模拟车辆的车速，或者，所述行驶状态信息包括模拟车辆距离目的地的距离、模拟车辆的车速和不合理的驾驶行为信息；

若所述行驶状态信息包括模拟车辆距离目的地的距离、模拟车辆的车速，则根据所述行驶状态信息和公式rt＝a*(dt-1-dt)+v*cosθ-v*sinθ计算奖励值，其中，rt表示所述奖励值，v表示速度，d表示距离，a为可调整的参数；

根据所述奖励值更新批判者网络的参数；

根据更新后的所述批判者网络的参数更新所述行动者网络的参数；

将所述目标车辆的道路场景语义分割图像输入所述卷积神经网络进行处理，得到所述目标车辆对应的维度为m*1的向量，其中，所述向量包含道路特征，所述卷积神经网络包括三个卷积层和一个全连接输出层，所述道路特征包括：道路车道线、停止线、交通灯颜色、道路上的行人和其他车辆；

根据所述自动驾驶策略信息控制所述目标车辆行驶。

2.如权利要求1所述的自动驾驶策略的生成方法，其特征在于，所述实时获取目标车辆的运行信息的步骤包括：

实时接收目标车辆的道路图像；

获取所述目标车辆的状态信息。

3.如权利要求1所述的自动驾驶策略的生成方法，其特征在于，所述自动驾驶策略信息包括方向盘转向度数、油门踏板数以及刹车踏板数。

4.如权利要求1至3任一项所述的自动驾驶策略的生成方法，其特征在于，通过CARLA模拟器训练所述深度强化学习网络的步骤还包括：

获取所述模拟车辆在预设的各个训练场景下的驾驶结果；

根据所述驾驶结果计算所述模拟车辆到达目的地的比率；

5.一种自动驾驶策略的生成装置，其特征在于，所述自动驾驶策略的生成装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的自动驾驶策略的生成处理程序，所述自动驾驶策略的生成处理程序被所述处理器执行时实现如权利要求1至4中任一项所述的自动驾驶策略的生成方法的步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有自动驾驶策略的生成处理程序，所述自动驾驶策略的生成处理程序被处理器执行时实现如权利要求1至4中任一项所述的自动驾驶策略的生成方法的步骤。