CN108227710B

CN108227710B - 自动驾驶控制方法和装置、电子设备、程序和介质

Info

Publication number: CN108227710B
Application number: CN201711479690.3A
Authority: CN
Inventors: 马政; 刘春晓; 张伟; 谢思锐; 曾仕元
Original assignee: Sensetime Group Ltd
Current assignee: Sensetime Group Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2022-10-04
Anticipated expiration: 2037-12-29
Also published as: CN108227710A

Abstract

本发明实施例公开了一种自动驾驶控制方法和装置、电子设备、程序和介质，其中，自动驾驶控制方法包括以下任意一项或多项：获取车辆周围的障碍物分布图和所述车辆的行驶状态，所述车辆的行驶状态包括：所述车辆的速度、车体方向、车轮方向、所述车体与所述车辆所在车道的方向的偏差角、以及所述车体偏离所述所在车道中心线的距离；利用深度学习网络，根据所述障碍物分布图和所述车辆的行驶状态获取用于控制所述车辆行驶状态的动作指令。本发明实施例可以输出用于控制车辆行驶的多步动作指令，从而实现对车辆行驶路径的多步预测和规划。

Description

自动驾驶控制方法和装置、电子设备、程序和介质

技术领域

本发明涉及人工智能技术，尤其是一种自动驾驶控制方法和装置、电子设备、程序和介质。

背景技术

随着科学技术的不断发展和社会的进步，人工智能技术越来越快地走进了人们的生活，它已经渗透到工业生产制造、日常生活和医疗教育及娱乐等各个领域。其中，为了减少高速公路上频发的因驾驶员疲劳、醉酒引起的交通事故，智能汽车以及自动驾驶技术开始被广泛关注并逐步普及。车辆自动驾驶技术的提出旨在让车辆的驾驶从传统的人来控制变为由计算机控制，从而减少交通事故，提高汽车驾驶的安全性和可靠性。

发明内容

本发明实施例提供一种车辆自动驾驶技术方案。

根据本发明实施例的一个方面，提供的一种自动驾驶控制方法，包括：

获取车辆周围的障碍物分布图和所述车辆的行驶状态，所述车辆的行驶状态包括以下任意一项或多项：所述车辆的速度、车体方向、车轮方向、所述车体与所述车辆所在车道的方向的偏差角、以及所述车体偏离所述所在车道中心线的距离；

利用深度学习网络，根据所述障碍物分布图和所述车辆的行驶状态获取用于控制所述车辆行驶状态的动作指令。

可选地，在本发明上述各方法实施例中，获取所述车辆的行驶状态，包括：

利用所述车辆上的传感器，获取所述车辆的行驶状态。

可选地，在本发明上述各方法实施例中，所述障碍物分布图包括：二维障碍物分布图；

所述获取车辆周围的障碍物分布图，包括：

利用所述车辆上的传感器，获取所述车辆的三维驾驶环境分布图；

基于所述三维驾驶环境分布图获取所述二维障碍物分布图。

可选地，在本发明上述各方法实施例中，所述深度学习网络包括：深度神经网络和强化学习网络；

所述利用深度学习网络，根据所述障碍物分布图和所述车辆的行驶状态获取用于控制所述车辆行驶状态的动作指令，包括：

利用所述深度神经网络对所述二维障碍物分布图进行特征提取；

利用所述强化学习网络，获取提取到的特征和所述车辆的行驶状态对应于动作指令集合中各动作指令的概率，从各动作指令的概率中选取一个概率最大的动作指令作为所述用于控制所述车辆行驶状态的动作指令。

可选地，在本发明上述各方法实施例中，所述障碍物分布图包括：一维距离分布图；

所述获取车辆周围的障碍物分布图，包括：

以所述车辆为中心，利用所述车辆上的激光测距雷达扫描所述车辆与障碍物之间的距离，获得一维距离所述分布图。

可选地，在本发明上述各方法实施例中，所述深度学习网络包括：强化学习网络；

利用所述深度学习网络，获取所述一维距离所述分布图和所述车辆的行驶状态对应于动作指令集合中各动作指令的概率，从各动作指令的概率中选取一个概率最大的动作指令作为所述用于控制所述车辆行驶状态的动作指令。

可选地，在本发明上述各方法实施例中，所述动作指令集包括以下动作指令：不变、加速、减速、右转、左转、加速右转、加速左转、减速右转、减速左转。

可选地，在本发明上述各方法实施例中，还包括：

根据所述车辆的行驶状态和所述用于控制所述车辆行驶状态的动作指令，获取下一时刻的所述车辆周围的障碍物分布图和所述车辆的行驶状态；

利用所述深度学习网络，根据所述下一时刻的所述障碍物分布图和所述车辆的行驶状态，获取所述下一时刻用于控制所述车辆行驶状态的动作指令。

可选地，在本发明上述各方法实施例中，还包括：

利用训练样本对所述深度学习网络进行训练，直至满足预设训练完成条件；

其中，所述训练样本包括：模拟车辆的当前状态，当前用于控制所述模拟车辆行驶状态的控制动作指令，针对当前控制动作指令的奖励值，所述模拟车辆的下一个状态；所述状态包括：模拟车辆周围的障碍物分布图和行驶状态。

可选地，在本发明上述各方法实施例中，所述利用训练样本对所述深度学习网络进行训练，包括：

所述深度学习网络根据所述模拟车辆的当前状态，获取用于控制所述模拟车辆行驶状态的当前控制动作指令；

获取所述模拟车辆执行所述当前控制动作指令后达到的下一个状态，并根据所述模拟车辆执行所述当前控制动作指令后的行驶情况获取针对所述当前控制动作指令的奖励值；

基于针对所述当前控制动作指令的奖励值，对所述深度学习网络进行训练。

可选地，在本发明上述各方法实施例中，还包括：

在仿真环境中搭建所述模拟车辆模型和所述模拟车辆的模拟驾驶环境；

基于所述模拟车辆模型和所述模拟车辆的模拟驾驶环境，获取所述模拟驾驶环境中障碍物分布图。

可选地，在本发明上述各方法实施例中，还包括：获取所述模拟车辆的当前状态。

可选地，在本发明上述各方法实施例中，根据所述模拟车辆执行所述当前控制动作指令后的行驶情况获取针对所述当前控制动作指令的奖励值，包括：

获取所述模拟车辆执行所述当前控制动作指令后的行驶情况，所述行驶情况包括以下任意一项或多项：所述模拟车辆是否与所述模拟驾驶环境中的障碍物发生碰撞，所述模拟车辆的当前位置与预设运动路线的偏移、行驶方向与基于所述预设运动路线确定的方向之间的偏角；

按照预设计算方式，由所述模拟车辆执行所述当前动作指令后的行驶情况获取针对所述当前控制动作指令的奖励值。

可选地，在本发明上述各方法实施例中，所述满足预设训练完成条件，包括以下任意一项或多项：对所述深度学习网络的训练次数达到预设次数，所述奖励值大于预设阈值。

根据本发明实施例的另一个方面，提供的一种自动驾驶控制装置，包括：

第一获取模块，用于获取车辆周围的障碍物分布图和所述车辆的行驶状态，所述车辆的行驶状态包括以下任意一项或多项：所述车辆的速度、车体方向、车轮方向、所述车体与所述车辆所在车道的方向的偏差角、以及所述车体偏离所述所在车道中心线的距离；

第二获取模块，用于利用深度学习网络，根据所述障碍物分布图和所述车辆的行驶状态获取用于控制所述车辆行驶状态的动作指令。

可选地，在本发明上述各装置实施例中，所述第一获取模块包括：

位于所述车辆上的传感器，用于获取所述车辆的行驶状态。

可选地，在本发明上述各装置实施例中，所述障碍物分布图包括：二维障碍物分布图；

所述传感器，还用于获取所述车辆的三维驾驶环境分布图；

所述第一获取模块还包括：获取单元，用于基于所述三维驾驶环境分布图获取所述二维障碍物分布图。

可选地，在本发明上述各装置实施例中，所述深度学习网络包括：

深度神经网络，用于对所述二维障碍物分布图进行特征提取；

强化学习网络，用于获取所述深度神经网络提取到的特征和所述车辆的行驶状态对应于动作指令集合中各动作指令的概率，从各动作指令的概率中选取一个概率最大的动作指令作为所述用于控制所述车辆行驶状态的动作指令。

可选地，在本发明上述各装置实施例中，所述障碍物分布图包括：一维距离分布图；

所述传感器包括：位于所述车辆上的激光测距雷达，用于以所述车辆为中心，扫描所述车辆与障碍物之间的距离，获得一维距离所述分布图。

强化学习网络，用于获取所述一维距离所述分布图和所述车辆的行驶状态对应于动作指令集合中各动作指令的概率，从各动作指令的概率中选取一个概率最大的动作指令作为所述用于控制所述车辆行驶状态的动作指令。

可选地，在本发明上述各装置实施例中，所述动作指令集包括以下动作指令：不变、加速、减速、右转、左转、加速右转、加速左转、减速右转、减速左转。

可选地，在本发明上述各装置实施例中，还包括：

第三获取模块，用于根据所述车辆的行驶状态和所述用于控制所述车辆行驶状态的动作指令，获取下一时刻的所述车辆周围的障碍物分布图和所述车辆的行驶状态；

所述深度学习网络，还用于根据所述下一时刻的所述障碍物分布图和所述车辆的行驶状态，获取所述下一时刻用于控制所述车辆行驶状态的动作指令。

可选地，在本发明上述各装置实施例中，还包括：

训练模块，用于利用训练样本对所述深度学习网络进行训练，直至满足预设训练完成条件；

可选地，在本发明上述各装置实施例中，所述深度学习网络具体用于根据所述模拟车辆的当前状态，获取用于控制所述模拟车辆行驶状态的当前控制动作指令；

所述训练模块具体用于：获取所述模拟车辆执行所述当前控制动作指令后达到的下一个状态，并根据所述模拟车辆执行所述当前控制动作指令后的行驶情况获取针对所述当前控制动作指令的奖励值；以及基于针对所述当前控制动作指令的奖励值，对所述深度学习网络进行训练。

可选地，在本发明上述各装置实施例中，还包括：

第四获取模块，用于基于在仿真环境中搭建的所述模拟车辆模型和所述模拟车辆的模拟驾驶环境，获取所述模拟驾驶环境中障碍物分布图。

可选地，在本发明上述各装置实施例中，还包括：

第五获取模块，用于获取所述模拟车辆的当前状态。

可选地，在本发明上述各装置实施例中，所述训练模块根据所述模拟车辆执行所述当前控制动作指令后的行驶情况获取针对所述当前控制动作指令的奖励值时，具体用于：

可选地，在本发明上述各装置实施例中，所述满足预设训练完成条件，包括以下任意一项或多项：对所述深度学习网络的训练次数达到预设次数，所述奖励值大于预设阈值。

根据本发明实施例的又一个方面，提供的一种电子设备，包括：本发明任一实施例所述的自动驾驶控制装置。

根据本发明实施例的再一个方面，提供的另一种电子设备，包括：

处理器和本发明任一实施例所述的自动驾驶控制装置；

在处理器运行所述自动驾驶控制装置时，本发明任一实施例所述的自动驾驶控制装置中的单元被运行。

根据本发明实施例的再一个方面，提供的一种电子设备，包括：处理器和存储器；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器本发明任一实施例所述的自动驾驶控制方法中各步骤的操作。

根据本发明实施例的再一个方面，提供的一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现本发明任一实施例所述的自动驾驶控制方法中各步骤的指令。

根据本发明实施例的再一个方面，提供的一种计算机可读介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时实现本发明任一实施例所述的自动驾驶控制方法中各步骤的操作。

基于本发明上述实施例提供的自动驾驶控制方法和装置、电子设备、程序和介质，可以获取车辆周围的障碍物分布图和车辆的行驶状态，例如：车辆的速度、车体方向、车轮方向、车体与车辆所在车道的方向的偏差角、以及车体偏离所在车道中心线的距离等，利用深度学习网络，根据障碍物分布图和车辆的行驶状态获取用于控制车辆行驶状态的动作指令。本发明实施例利用深度学习网络，基于车辆周围的障碍物分布图和车辆的行驶状态实现了对车辆行驶状态的自动控制，通过不断执行上述控制流程，便可以输出用于控制车辆行驶的多步动作指令，从而实现对车辆行驶路径的多步预测和规划。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明自动驾驶控制方法一个实施例的流程图。

图2为本发明实施例中的一个示例性2D障碍物分布图。

图3-图5为本发明实施例中获取2D障碍物分布图的一个示例性过程图。

图6为本发明实施例中获取1D距离分布图的一个示例图。

图7为本发明实施例中1D距离分布图的一个示例。

图8为本发明自动驾驶控制方法另一个实施例的流程图。

图9为本发明实施例中利用利用深度学习网络基于2D障碍物分布图获取各动作指令的概率的一个示例图。

图10为本发明自动驾驶控制方法又一个实施例的流程图。

图11为本发明实施例中利用利用深度学习网络基于1D距离分布图获取各动作指令的概率的一个示例图。

图12为本发明实施例中9个动作指令的示意图。

图13为基于本发明实施例对车辆进行多步控制实现的一个行驶路径示意图。

图14为本发明实施例中利用训练样本对深度学习网络进行训练的一个实施例的流程图。

图15为本发明实施例中利用训练样本对深度学习网络进行训练的一个应用实施例的示意图。

图16为本发明自动驾驶控制装置一个实施例的结构示意图。

图17为本发明自动驾驶控制装置另一个实施例的结构示意图。

图18为本发明电子设备一个应用实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

图1为本发明自动驾驶控制方法一个实施例的流程图。如图1所示，该实施例的自动驾驶控制方法包括：

102，获取车辆周围的障碍物分布图和该车辆的行驶状态。

本发明各实施例中，车辆的行驶状态例如可以包括但不限于以下任意一项或多项：车辆的速度、车体方向、车轮方向、车体与车辆所在车道的方向的偏差角、以及车体偏离所在车道中心线的距离。

在本发明各实施例的一个实施方式中，可以利用车辆上的传感器获取车辆的行驶状态。

104，利用深度学习网络，根据障碍物分布图和车辆的行驶状态获取用于控制车辆行驶状态的动作指令。

基于本发明上述实施例提供的自动驾驶控制方法，可以获取车辆周围的障碍物分布图和车辆的行驶状态，包括：车辆的速度、车体方向、车轮方向、车体与车辆所在车道的方向的偏差角、以及车体偏离所在车道中心线的距离，利用深度学习网络，根据障碍物分布图和车辆的行驶状态获取用于控制车辆行驶状态的动作指令。本发明实施例利用深度学习网络，基于车辆周围的障碍物分布图和车辆的行驶状态实现了对车辆行驶状态的自动控制，通过不断执行上述控制流程，便可以输出用于控制车辆行驶的多步动作指令，从而实现对车辆行驶路径的多步预测和规划。

在本发明自动驾驶控制方法各实施例的一个实施方式中，上述障碍物分布图可以是二维(2D)障碍物分布图，也可以是一维(1D)距离分布图。如图2所示，为本发明实施例中的一个示例性2D障碍物分布图。

在本发明自动驾驶控制方法各实施例的一个实施方式中，可以通过如下方式获取车辆周围的2D障碍物分布图：

利用车辆上的传感器，获取车辆的3D驾驶环境分布图；基于该3D驾驶环境分布图获取2D障碍物分布图。

如图3所示，通过安装在车辆上的传感器获取该车辆的周围环境信息，例如图像信息、距离信息等，然后将该车辆及其周围环境信息进行融合得到图4所示的3D驾驶环境分布图，最后再将3D驾驶环境分布图中不规则的物体抽象成规则形状物体，将对自动驾驶控制的决策无关的信息，例如物体形状的细节、物体的颜色、纹理舍弃掉，只保留物体的位置、速度、外接多边形等信息，得到如图5所示的一个示例性2D障碍物分布图。

在本发明自动驾驶控制方法各实施例的一个实施方式中，可以通过如下方式获取车辆周围的1D距离分布图：以车辆为中心，利用车辆上的激光测距雷达扫描车辆与障碍物之间的距离，获得1D距离分布图。

如图6所示，为本发明实施例中获取1D距离分布图的一个示例图，以车辆为中心，用该车辆上的激光测距雷达顺时针扫描一周得到该车辆与周围障碍物(包括：其他车辆及障碍物)之间的距离分布图。如图7所示，为本发明实施例中1D距离分布图的一个示例。

图8为本发明自动驾驶控制方法另一个实施例的流程图。该实施例中的障碍物分布图为2D障碍物分布图。如图8所示，该实施例的自动驾驶控制方法包括：

202，利用车辆上的传感器，获取该车辆周围的2D障碍物分布图和该车辆的行驶状态。

本发明各实施例中，车辆的行驶状态例如可以包括但不限于：车辆的速度、车体方向、车轮方向、车体与车辆所在车道的方向的偏差角、以及车体偏离所在车道中心线的距离。

204，利用深度学习网络中的深度神经网络，对上述2D障碍物分布图进行特征提取，以获取用于表示障碍物分布情况的特征。

可选地，对上述2D障碍物分布图进行特征提取前，可以先对2D障碍物分布图进行数据降维，去除其中与障碍物分布情况无关的冗余信息。

206，利用深度学习网络中的强化学习网络，获取提取到的特征和该车辆的行驶状态对应于动作指令集合中各动作指令的概率。

208，从各动作指令的概率中选取一个概率最大的动作指令作为用于控制车辆行驶状态的动作指令。

如图9所示，为本发明实施例中利用利用深度学习网络基于2D障碍物分布图获取各动作指令的概率的一个示例图。如9所示，深度神经网络包括三个卷积层：卷积层1、卷积层2和卷积层3，依次对输入的2D障碍物分布图进行特征提取，并将提取到的特征输入至强化学习网络；强化学习网络包括两个全连接层：全连接层1和全连接层2，通过这两个全连接层基于深度神经网络提取到的特征和该车辆的行驶状态进行动作指令分类，输出对应于动作指令集合中各动作指令的概率。

图10为本发明自动驾驶控制方法又一个实施例的流程图。该实施例中的障碍物分布图为1D距离分布图。如图10所示，该实施例的自动驾驶控制方法包括：

302，利用车辆上的传感器，获取该车辆周围的1D距离分布图和该车辆的行驶状态。

304，利用深度学习网络，获取1D距离分布图和车辆的行驶状态对应于动作指令集合中各动作指令的概率。

306，从各动作指令的概率中选取一个概率最大的动作指令作为用于控制车辆行驶状态的动作指令。

如图11所示，为本发明实施例中利用利用深度学习网络基于1D距离分布图获取各动作指令的概率的一个示例图。如11所示，深度学习网络包括两个全连接层：全连接层1和全连接层2，通过这两个全连接层对距离分布向量(即：1D距离分布图)和该车辆的行驶状态进行动作指令分类，输出对应于动作指令集合中各动作指令的概率。

在本发明自动驾驶控制方法各实施例的一个实施方式中，上述动作指令集中的动作指令例如可以包括但不限于如下9个动作指令：不变、加速、减速、右转、左转、加速右转、加速左转、减速右转、减速左转。如图12所示，为本发明实施例中9个动作指令的示意图。

在基于本发明上述各自动驾驶控制方法的又一个实施例中，还可以包括：

根据上述车辆的行驶状态和用于控制该车辆行驶状态的动作指令，获取下一时刻的该车辆周围的障碍物分布图和车辆的行驶状态；

利用深度学习网络，根据下一时刻的障碍物分布图和该车辆的行驶状态，获取下一时刻用于控制该车辆行驶状态的动作指令。

基于该实施例，通过不断执行上述控制流程，便可以输出用于控制车辆行驶的多步动作指令，从而实现对车辆行驶路径的多步预测和规划。如图13所示，为基于本发明实施例对车辆进行多步控制实现的一个行驶路径示意图。在t时刻对车辆执行本发明实施例的自动驾驶控制方法所示流程后，车辆将在t时刻深度学习网络输出的控制动作指令下行驶到t+1时刻所在位置，根据t时刻车辆周围的障碍物分布图和该车辆的行驶状态、和控制动作指令可以获知t+1时刻该车辆周围的障碍物分布图和该车辆的行驶状态；再针对t+1时刻该车辆周围的障碍物分布图和该车辆的行驶状态执行本发明实施例的自动驾驶控制方法所示流程后，车辆将在t+1时刻深度学习网络输出的控制动作指令下行驶到t+2时刻所在位置，根据t+1时刻车辆周围的障碍物分布图和该车辆的行驶状态、和控制动作指令可以获知t+2时刻该车辆周围的障碍物分布图和该车辆的行驶状态，……，依次类推，可以预测车辆在未来一段时间内的行驶路径。

另外，在本发明上述各自动驾驶控制方法实施例的流程之前，还可以包括：预先利用训练样本对深度学习网络进行训练，直至满足预设训练完成条件，得到训练好的深度学习网络以用于本发明上述各实施例的自动驾驶控制方法。

其中，训练样本包括：模拟车辆的当前状态，当前用于控制模拟车辆行驶状态的控制动作指令，针对当前控制动作指令的奖励值，模拟车辆的下一个状态。其中，当前状态是指该模拟车辆当前时刻的状态，包括：当前时刻该模拟车辆周围的障碍物分布图和行驶状态。控制动作指令是指用于控制该模拟车辆行驶状态的动作指令，下一个状态是指下一个时刻的状态，即，基于当前时刻该模拟车辆周围的障碍物分布图和行驶状态，对该模拟车辆执行当前控制动作指令后可以达到的下一个状态。本实施例中，关于模拟车辆的障碍物分布图、行驶状态、动作指令的含义，与本发明上述各实施例中关于车辆的障碍物分布图、行驶状态、动作指令相同，此处不再赘述。

在其中一个实施方式中，利用训练样本对深度学习网络进行训练，可以包括：

深度学习网络根据模拟车辆的当前状态，获取用于控制模拟车辆行驶状态的当前控制动作指令；

获取模拟车辆执行当前控制动作指令后达到的下一个状态，并根据模拟车辆执行当前控制动作指令后的行驶情况获取针对当前控制动作指令的奖励值；

基于针对当前控制动作指令的奖励值，对深度学习网络进行训练。

图14为本发明实施例中利用训练样本对深度学习网络进行训练的一个实施例的流程图。如图14所示，该实施例利用训练样本对深度学习网络进行训练包括：

402，在仿真环境中搭建模拟车辆模型和该模拟车辆的模拟驾驶环境。

其中模拟车辆模型例如可以包括该模拟车辆的形状、机械模型等。在本发明各实施例的一个可选示例中，模拟驾驶环境可以包括动态场景和静态场景。其中的动态场景例如可以包括：模拟车辆的起止位置和运动路线、行驶状态，以及模拟车辆的模拟驾驶环境中运动目标的运动状态。其中的动态场景例如可以包括：道路、建筑物等。可以构建该模拟车辆模型和该模拟车辆的模拟驾驶环境周围环境的一个三维(3D)栅格图。

404，基于模拟车辆模型和该模拟车辆的模拟驾驶环境，获取该模拟车辆的当前状态和该模拟驾驶环境中障碍物分布图。可以针对模拟车辆模型和该模拟车辆的模拟驾驶环境的3D栅格图，截取其俯视图，得到一个2D障碍物分布图，或是利用仿真环境中虚拟的激光雷达得到该模拟车辆周围障碍物到该模拟车辆的一个1D距离分布图。

406，深度学习网络根据模拟车辆的当前状态，获取用于控制该模拟车辆行驶状态的当前控制动作指令。

408，获取模拟车辆执行当前控制动作指令后达到的下一个状态，并根据模拟车辆执行当前控制动作指令后的行驶情况获取针对该当前控制动作指令的奖励值。

在本发明实施例的一个实施方式中，根据模拟车辆执行当前控制动作指令后的行驶情况获取针对当前控制动作指令的奖励值，可以包括：

获取模拟车辆执行当前控制动作指令后的行驶情况，该行驶情况包括以下任意一项或多项：模拟车辆是否与模拟驾驶环境中的障碍物发生碰撞，模拟车辆的当前位置与预设运动路线的偏移、行驶方向与基于预设运动路线确定的方向之间的偏角；

按照预设计算方式，由模拟车辆执行当前动作指令后的行驶情况获取针对当前控制动作指令的奖励值。

例如，当模拟车辆没有撞到其他行驶的车辆、障碍物并且也没有离开道路时，可以给一个正的奖励值，否则给一个负的惩罚值；当模拟车辆碰撞到其他行驶的车辆、障碍物或离开道路时，可以给一个负数的惩罚值，并结束本次训练。

410，基于针对该当前控制动作指令的奖励值，对深度学习网络进行训练，例如，采用随机梯度下降算法更新深度学习网络中网络参数的参数值。

迭代执行上述操作404-410，直至满足预设训练完成条件。

在其中一个实施方式中，满足预设训练完成条件，例如可以包括但不限于以下任意一项或多项：对深度学习网络的训练次数达到预设次数，奖励值大于预设阈值。

在本发明上述各实施例中，由模拟车辆的每一当前状态、当前动作指令、针对当前控制动作指令的奖励值、下一个状态组成的元组(当前状态、当前动作指令、奖励值、下一个状态)作为一个训练样本，存储在样本数据库中。利用训练样本对深度学习网络进行训练时，可以依次从样本数据库中选取一个样本输入深度学习网络进行训练。

如图15所示，为本发明实施例中利用训练样本对深度学习网络进行训练的一个应用实施例的示意图。参见图15，根据各训练样本对深度学习网络进行训练，包括：

针对模拟车辆，从样本数据库中选取一次动作指令对应的训练样本作为当前训练样本；

基于当前训练样本中的当前状态和当前控制动作指令，计算获得当前训练样本的预测评分值(预测Q值)；以及基于当前训练样本中的鼓励值和下一个状态，计算获得当前训练样本的目标评分值(目标Q值)；

根据当前训练样本的预测评分值与目标评分值计算本次控制动作指令的损失函数值；

基于该损失函数值，采用随机梯度下算法对深度学习网络的网络参数进行调整；

迭代执行上述过程，即：从样本数据库中选取下一次动作指令对应的训练样本作为当前训练样本，并执行上述流程，直至满足预设训练完成条件，活动最终的深度学习网络(可以称为，目标深度学习网络)。

通过本发明上述各实施例，对深度学习网络训练完成后，可以将训练好的深度学习网络放在实物上进行测试，即考虑到真实场景下其他车辆的行驶具有一定的随机性，将在仿真平台上训练好的深度学习网络放进真实场景下进行微调，通过真实场景下车辆上的传感器获取该车辆周围的2D障碍物分布图和该车辆的行驶状态输入深度学习网络，由该深度学习网络输出控制动作指令，然后采用类似上述利用训练样本对深度学习网络进行训练的各实施例，对该深度学习网络中网络参数的参数值进行微调，直至在真实场景下可以达到预期的驾驶效果，例如，车辆与真实驾驶环境中的障碍物未发生碰撞等。微调完成后的深度学习网络中网络参数的参数值已经固定，不再更新，可直接用于汽车自动驾驶任务，例如用于上述图1至图13任一所述实施例的自动驾驶控制方法。

本发明实施例提供的任一种自动驾驶控制方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本发明实施例提供的任一种自动驾驶控制方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本发明实施例提及的任一种自动驾驶控制方法。下文不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图16为本发明自动驾驶控制装置一个实施例的结构示意图。该实施例的自动驾驶控制装置可用于实现本发明上述各自动驾驶控制方法实施例。如图16所示，该实施例的自动驾驶控制装置包括：

第一获取模块，用于获取车辆周围的障碍物分布图和车辆的行驶状态，车辆的行驶状态包括以下任意一项或多项：车辆的速度、车体方向、车轮方向、车体与车辆所在车道的方向的偏差角、以及车体偏离所在车道中心线的距离；

第二获取模块，用于利用深度学习网络，根据障碍物分布图和车辆的行驶状态获取用于控制车辆行驶状态的动作指令。

基于本发明上述实施例提供的自动驾驶控制装置，可以获取车辆周围的障碍物分布图和车辆的行驶状态，例如：车辆的速度、车体方向、车轮方向、车体与车辆所在车道的方向的偏差角、以及车体偏离所在车道中心线的距离等，利用深度学习网络，根据障碍物分布图和车辆的行驶状态获取用于控制车辆行驶状态的动作指令。本发明实施例利用深度学习网络，基于车辆周围的障碍物分布图和车辆的行驶状态实现了对车辆行驶状态的自动控制，通过不断执行上述控制流程，便可以输出用于控制车辆行驶的多步动作指令，从而实现对车辆行驶路径的多步预测和规划。

在本发明自动驾驶控制装置各实施例的一个实施方式中，第一获取模块可以包括：位于车辆上的传感器，用于获取车辆的行驶状态。

本发明自动驾驶控制装置各实施例中的障碍物分布图可以是2D障碍物分布图，也可以是1D距离分布图。在本发明自动驾驶控制装置各实施例的一个实施方式中，障碍物分布图为2D障碍物分布图时，上述车辆上的传感器还可用于获取车辆的三维驾驶环境分布图。相应地，该实施方式中，第一获取模块还可以包括：获取单元，用于基于三维驾驶环境分布图获取二维障碍物分布图。

在本发明自动驾驶控制装置各实施例的另一个实施例中，障碍物分布图为2D障碍物分布图时，深度学习网络可以包括：

深度神经网络，用于对二维障碍物分布图进行特征提取；

强化学习网络，用于获取深度神经网络提取到的特征和车辆的行驶状态对应于动作指令集合中各动作指令的概率，从各动作指令的概率中选取一个概率最大的动作指令作为用于控制车辆行驶状态的动作指令。

在本发明自动驾驶控制装置各实施例的又一个实施方式中，障碍物分布图为1D距离分布图时，上述车辆上的传感器包括：位于车辆上的激光测距雷达，用于以车辆为中心，扫描车辆与障碍物之间的距离，获得一维距离分布图。

在本发明自动驾驶控制装置各实施例的又一个实施例中，障碍物分布图为1D距离分布图时，深度学习网络可以包括：强化学习网络，用于获取一维距离分布图和车辆的行驶状态对应于动作指令集合中各动作指令的概率，从各动作指令的概率中选取一个概率最大的动作指令作为用于控制车辆行驶状态的动作指令。

在本发明自动驾驶控制装置各实施例的一个实施方式中，上述动作指令集中的动作指令例如可以包括但不限于如下9个动作指令：不变、加速、减速、右转、左转、加速右转、加速左转、减速右转、减速左转。

图17为本发明自动驾驶控制装置另一个实施例的结构示意图。如图17所示，与图16所示的实施例相比，该实施例的自动驾驶控制装置还包括：第三获取模块，用于根据车辆的行驶状态和用于控制车辆行驶状态的动作指令，获取下一时刻的车辆周围的障碍物分布图和车辆的行驶状态。相应地，该实施例中，深度学习网络还可用于根据下一时刻的障碍物分布图和车辆的行驶状态，获取下一时刻用于控制车辆行驶状态的动作指令。

另外，再参见图17，本发明自动驾驶控制装置还可以包括：训练模块，用于利用训练样本对深度学习网络进行训练，直至满足预设训练完成条件。

其中，训练样本包括：模拟车辆的当前状态，当前用于控制模拟车辆行驶状态的控制动作指令，针对当前控制动作指令的奖励值，模拟车辆的下一个状态；状态包括：模拟车辆周围的障碍物分布图和行驶状态。

在其中一个实施方式中，深度学习网络具体用于根据模拟车辆的当前状态，获取用于控制模拟车辆行驶状态的当前控制动作指令。相应地，训练模块具体用于：获取模拟车辆执行当前控制动作指令后达到的下一个状态，并根据模拟车辆执行当前控制动作指令后的行驶情况获取针对当前控制动作指令的奖励值；以及基于针对当前控制动作指令的奖励值，对深度学习网络进行训练。

另外，在本发明自动驾驶控制装置又一个实施例中，还可以包括：第四获取模块，用于基于在仿真环境中搭建的模拟车辆模型和模拟车辆的模拟驾驶环境，获取模拟驾驶环境中障碍物分布图。

另外，在本发明自动驾驶控制装置再一个实施例中，还可以包括：第五获取模块，用于获取模拟车辆的当前状态。

在其中一个实施方式中，训练模块根据模拟车辆执行当前控制动作指令后的行驶情况获取针对当前控制动作指令的奖励值时，具体用于：获取模拟车辆执行当前控制动作指令后的行驶情况，行驶情况包括以下任意一项或多项：模拟车辆是否与模拟驾驶环境中的障碍物发生碰撞，模拟车辆的当前位置与预设运动路线的偏移、行驶方向与基于预设运动路线确定的方向之间的偏角；以及按照预设计算方式，由模拟车辆执行当前动作指令后的行驶情况获取针对当前控制动作指令的奖励值。

另外，本发明实施例还提供了一种电子设备，包括本发明上述任一实施例的自动驾驶控制装置。

另外，本发明实施例还提供了另一种电子设备，包括：

处理器和本发明上述任一实施例的自动驾驶控制装置；

在处理器运行自动驾驶控制装置时，本发明上述任一实施例的自动驾驶控制装置中的单元被运行。

另外，本发明实施例还提供了又一种电子设备，包括：处理器和存储器；

存储器用于存放至少一可执行指令，可执行指令使处理器执行本发明上述任一实施例的自动驾驶控制方法中各步骤的操作。

图18为本发明电子设备一个应用实施例的结构示意图。下面参考图18，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。如图18所示，该电子设备包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)，和/或一个或多个图像处理器(GPU)等，处理器可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而执行各种适当的动作和处理。通信部可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，处理器可与只读存储器和/或随机访问存储器中通信以执行可执行指令，通过总线与通信部相连、并经通信部与其他目标设备通信，从而完成本申请实施例提供的任一方法对应的操作，例如，通过神经网络的第一网络层对当前帧进行特征提取，获得当前帧的低层特征；

根据所述当前帧相邻的前一关键帧的低层特征和所述当前帧的低层特征，获取所述当前帧被调度为关键帧的调度概率值；其中，所述前一关键帧的低层特征由所述第一网络层对所述前一关键帧进行特征提取得到；根据所述当前帧的调度概率值确定所述当前帧是否被调度为关键帧；若确定所述当前帧被调度为关键帧，通过所述神经网络的第二网络层对当前关键帧的低层特征进行特征提取，获得所述当前关键帧的高层特征；其中，所述神经网络中，所述第一网络层的网络深度浅于所述第二网络层的网络深度。

此外，在RAM中，还可存储有装置操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。在有RAM的情况下，ROM为可选模块。RAM存储可执行指令，或在运行时向ROM中写入可执行指令，可执行指令使处理器执行本发明上述任一方法对应的操作。输入/输出(I/O)接口也连接至总线。通信部可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

需要说明的，如图18所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图18的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

另外，本发明实施例还提供了一种计算机存储介质，用于存储计算机可读取的指令，该指令被执行时实现本发明上述任一实施例自动驾驶控制方法的操作。

另外，本发明实施例还提供了一种计算机程序，包括计算机可读取的指令，当计算机可读取的指令在设备中运行时，设备中的处理器执行用于实现本发明上述任一实施例自动驾驶控制方法中的步骤的可执行指令。

在一个可选实施方式中，所述计算机程序具体为软件产品，例如软件开发包(Software Development Kit，SDK)，等等。

在一个或多个可选实施方式中，本发明实施例还提供了一种计算机程序程序产品，用于存储计算机可读指令，所述指令被执行时使得计算机执行上述任一可能的实现方式中所述的自动驾驶控制方法。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选例子中，所述计算机程序产品具体体现为软件产品，例如SDK等等。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本发明的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种自动驾驶控制方法，其特征在于，包括：

利用深度学习网络，根据所述障碍物分布图和所述车辆的行驶状态获取用于控制所述车辆行驶状态的动作指令，其中，所述根据所述障碍物分布图和所述车辆的行驶状态获取用于控制所述车辆行驶状态的动作指令，包括：对所述障碍物分布图进行特征提取；获取提取到的特征和所述车辆的行驶状态对应于动作指令集合中各动作指令的概率，从各动作指令的概率中选取一个概率最大的动作指令作为所述用于控制所述车辆行驶状态的动作指令；所述障碍物分布图为二维障碍物分布图；

利用所述深度学习网络，根据所述根据所述车辆的行驶状态和所述用于控制所述车辆行驶状态的动作指令，获取的所述下一时刻的所述障碍物分布图和所述车辆的行驶状态，获取所述下一时刻用于控制所述车辆行驶状态的动作指令；

其中，所述控制所述车辆行驶状态的动作指令用于所述车辆行驶到所述下一时刻所述车辆所在的位置；所述下一时刻用于控制所述车辆行驶状态的动作指令用于所述车辆行驶到再下一时刻所述车辆所在的位置。

2.根据权利要求1所述的方法，其特征在于，获取所述车辆的行驶状态，包括：

利用所述车辆上的传感器，获取所述车辆的行驶状态。

3.根据权利要求1所述的方法，其特征在于，所述障碍物分布图包括：二维障碍物分布图；

所述获取车辆周围的障碍物分布图，包括：

基于所述三维驾驶环境分布图获取所述二维障碍物分布图。

4.根据权利要求3所述的方法，其特征在于，所述深度学习网络包括：深度神经网络和强化学习网络；

5.根据权利要求4所述的方法，其特征在于，所述动作指令集包括以下动作指令：不变、加速、减速、右转、左转、加速右转、加速左转、减速右转、减速左转。

6.根据权利要求1所述的方法，其特征在于，所述障碍物分布图包括：一维距离分布图；

所述获取车辆周围的障碍物分布图，包括：

以所述车辆为中心，利用所述车辆上的激光测距雷达扫描所述车辆与障碍物之间的距离，获得所述一维距离分布图。

7.根据权利要求6所述的方法，其特征在于，所述深度学习网络包括：强化学习网络；

利用所述深度学习网络，获取所述一维距离分布图和所述车辆的行驶状态对应于动作指令集合中各动作指令的概率，从各动作指令的概率中选取一个概率最大的动作指令作为所述用于控制所述车辆行驶状态的动作指令。

8.根据权利要求7所述的方法，其特征在于，所述动作指令集包括以下动作指令：不变、加速、减速、右转、左转、加速右转、加速左转、减速右转、减速左转。

9.根据权利要求1-8任一所述的方法，其特征在于，还包括：

10.根据权利要求9所述的方法，其特征在于，所述利用训练样本对所述深度学习网络进行训练，包括：

11.根据权利要求10所述的方法，其特征在于，还包括：

12.根据权利要求10所述的方法，其特征在于，还包括：获取所述模拟车辆的当前状态。

13.根据权利要求11所述的方法，其特征在于，根据所述模拟车辆执行所述当前控制动作指令后的行驶情况获取针对所述当前控制动作指令的奖励值，包括：

14.根据权利要求10所述的方法，其特征在于，所述满足预设训练完成条件，包括以下任意一项或多项：对所述深度学习网络的训练次数达到预设次数，所述奖励值大于预设阈值。

15.一种自动驾驶控制装置，其特征在于，包括：

第二获取模块，用于利用深度学习网络，根据所述障碍物分布图和所述车辆的行驶状态获取用于控制所述车辆行驶状态的动作指令；

所述深度学习网络，还用于根据所述根据所述车辆的行驶状态和所述用于控制所述车辆行驶状态的动作指令，获取的所述下一时刻的所述障碍物分布图和所述车辆的行驶状态，获取所述下一时刻用于控制所述车辆行驶状态的动作指令，所述深度学习网络用于对所述障碍物分布图进行特征提取；所述深度学习网络还用于获取所述深度神经网络提取到的特征和所述车辆的行驶状态对应于动作指令集合中各动作指令的概率，从各动作指令的概率中选取一个概率最大的动作指令作为所述用于控制所述车辆行驶状态的动作指令；所述障碍物分布图为二维障碍物分布图；

16.根据权利要求15所述的装置，其特征在于，所述第一获取模块包括：

位于所述车辆上的传感器，用于获取所述车辆的行驶状态。

17.根据权利要求16所述的装置，其特征在于，所述障碍物分布图包括：二维障碍物分布图；

所述传感器，还用于获取所述车辆的三维驾驶环境分布图；

18.根据权利要求17所述的装置，其特征在于，所述深度学习网络包括：

19.根据权利要求18所述的装置，其特征在于，所述动作指令集包括以下动作指令：不变、加速、减速、右转、左转、加速右转、加速左转、减速右转、减速左转。

20.根据权利要求16所述的装置，其特征在于，所述障碍物分布图包括：一维距离分布图；

所述传感器包括：位于所述车辆上的激光测距雷达，用于以所述车辆为中心，扫描所述车辆与障碍物之间的距离，获得所述一维距离分布图。

21.根据权利要求20所述的装置，其特征在于，所述深度学习网络包括：

强化学习网络，用于获取所述一维距离分布图和所述车辆的行驶状态对应于动作指令集合中各动作指令的概率，从各动作指令的概率中选取一个概率最大的动作指令作为所述用于控制所述车辆行驶状态的动作指令。

22.根据权利要求21所述的装置，其特征在于，所述动作指令集包括以下动作指令：不变、加速、减速、右转、左转、加速右转、加速左转、减速右转、减速左转。

23.根据权利要求15-22任一所述的装置，其特征在于，还包括：

24.根据权利要求23所述的装置，其特征在于，所述深度学习网络具体用于根据所述模拟车辆的当前状态，获取用于控制所述模拟车辆行驶状态的当前控制动作指令；

25.根据权利要求24所述的装置，其特征在于，还包括：

26.根据权利要求24所述的装置，其特征在于，还包括：

第五获取模块，用于获取所述模拟车辆的当前状态。

27.根据权利要求25所述的装置，其特征在于，所述训练模块根据所述模拟车辆执行所述当前控制动作指令后的行驶情况获取针对所述当前控制动作指令的奖励值时，具体用于：

28.根据权利要求23所述的装置，其特征在于，所述满足预设训练完成条件，包括以下任意一项或多项：对所述深度学习网络的训练次数达到预设次数，所述奖励值大于预设阈值。

29.一种电子设备，其特征在于，包括：权利要求15-28任一所述的自动驾驶控制装置。

30.一种电子设备，其特征在于，包括：

处理器和权利要求15-28任一所述的自动驾驶控制装置；

在处理器运行所述自动驾驶控制装置时，权利要求15-28任一所述的自动驾驶控制装置中的单元被运行。

31.一种电子设备，其特征在于，包括：处理器和存储器；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行权利要求1-14任一所述的自动驾驶控制方法中各步骤的操作。

32.一种计算机可读介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时实现权利要求1-14任一所述的自动驾驶控制方法中各步骤的操作。