CN112947466A

CN112947466A - 一种面向自动驾驶的平行规划方法、设备及存储介质

Info

Publication number: CN112947466A
Application number: CN202110254316.3A
Authority: CN
Inventors: 胡学敏; 陈龙
Original assignee: Hubei University
Current assignee: Hubei University
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2021-06-11
Anticipated expiration: 2041-03-09
Also published as: CN112947466B

Abstract

本发明涉及一种面向自动驾驶的平行规划方法、设备及存储介质，方法包括：获取虚拟驾驶场景数据和真实驾驶场景数据，并基于所述虚拟驾驶场景数据和真实驾驶场景数据建立联合数据集；构建端到端的自动驾驶运动规划模型；构建用于预测各种虚拟未来驾驶场景的平行时空视频生成模型；采用所述联合数据集对所述自动驾驶运动规划模型和平行时空视频生成模型进行训练，以得到平行规划模型；采用所述平行规划模型对各种虚拟未来驾驶场景进行平行规划。本发明解决了目前自动驾驶领域中规划算法无法应对紧急驾驶场景的问题。

Description

一种面向自动驾驶的平行规划方法、设备及存储介质

技术领域

本发明涉及自动驾驶技术领域，尤其涉及一种面向自动驾驶的平行规划方法、设备及存储介质。

背景技术

运动规划是自动驾驶领域的一个重要研究方向，而运动规划的本质是持续感知的序列数据到运动操控参数的映射。公开号为CN105487537A的中国专利申请中提出了一种车辆运动规划方法和无人车，该方法将实际路径转换为概率表示，并根据车辆的状态信息计算转换到对应栅格的概率，提高了路径搜索效率；公开号为CN111665853A的中国专利申请中提出了一种面向规划控制联合优化的无人车辆运动规划方法，将车辆动力学模型引入规划算法中，提高规划效率，保证规划与控制的一致性。这类基于规则的运动规划方法，在规则之内的场景能够做出很好的规划结果，对于规则之外的场景却难以取得理想的效果，并且不具备自主学习的能力，难以应对自动驾驶中不断变化的复杂场景。

将深度学习技术引入运动规划领域，可以实现从感知数据到运动参数的端到端的运动规划，让算法具备学习能力。然而深度学习强烈依赖于大规模标记的数据集，样本数通常在百万级或以上才能够覆盖足够大的特征空间。对于自动驾驶运动规划，获取大量多样化的交通数据，是一个极为耗费人力和物力、时间和金钱成本的过程，并且具有一定危险性，特别是对于一些紧急驾驶场景。此外，目前自动驾驶运动规划算法都是针对当前场景进行规划，并未考虑潜在的紧急事件，存在一定的安全隐患。

发明内容

有鉴于此，有必要提供一种面向自动驾驶的平行规划方法、设备及存储介质，用以解决目前自动驾驶领域中规划算法无法应对紧急驾驶场景的问题。

第一方面，本发明提供一种面向自动驾驶的平行规划方法，包括如下步骤：

获取虚拟驾驶场景数据和真实驾驶场景数据，并基于所述虚拟驾驶场景数据和真实驾驶场景数据建立联合数据集；

构建端到端的自动驾驶运动规划模型；

构建用于预测各种虚拟未来驾驶场景的平行时空视频生成模型；

采用所述联合数据集对所述自动驾驶运动规划模型和平行时空视频生成模型进行训练，以得到平行规划模型；

采用所述平行规划模型对各种虚拟未来驾驶场景进行平行规划。

优选的，所述的面向自动驾驶的平行规划方法中，所述自动驾驶运动规划模型的基础模型为深度强化模型，其中，所述深度强化模型采用深度Q网络与Actor-Critic框架融合的算法建立，Actor网络采用分层的结构，高层决策输出为驾驶行为，低层决策输出为具体的规划指令；Critic网络输出Q值，用于评价动作的好坏和计算梯度，更新网络。

优选的，所述的面向自动驾驶的平行规划方法中，所述自动驾驶运动规划模型的状态提取网络由卷积神经网络与长短时记忆网络级联构成。

优选的，所述的面向自动驾驶的平行规划方法中，所述自动驾驶运动规划模型的输入为自动驾驶汽车中左、中、右三个前向RGB车载相机采集的序列图像，所述自动驾驶运动规划模型的输出包括高层输出和低层输出，其中，所述高层输出为驾驶决策，所述低层输出为具体的规划指令。

优选的，所述的面向自动驾驶的平行规划方法中，所述平行时空视频生成模型由改进的条件生成对抗网络构成。

优选的，所述的面向自动驾驶的平行规划方法中，所述改进的条件生成对抗网络由生成器、判别器和分类器构成，其中，所述生成器用于生成多个未来驾驶场景的视频片段，所述判别器用于判别输入的视频片段是训练所用的真实视频片段还是生成器生成的视频片段，所述分类器用于对不同类别的紧急事件视频片段进行分类。

优选的，所述的面向自动驾驶的平行规划方法中，利用监督学习的方法，并结合迁移学习的思想训练所述自动驾驶运动规划模型中的状态提取网络，利用强化学习的方法在虚拟场景中训练端到端的自动驾驶运动规划模型；采用对抗学习的方法训练所述平行时空视频生成模型，所述平行规划模型包括训练完成的端到端的自动驾驶运动规划模型和训练完成的平行时空视频生成模型。

优选的，所述的面向自动驾驶的平行规划方法中，所述采用所述平行规划模型对各种虚拟未来驾驶场景进行平行规划的步骤具体包括：

利用训练完成的平行时空视频生成模型预测出多种未来的虚拟驾驶场景视频片段；

利用训练完成的端到端的自动驾驶运动规划模型对各个未来的虚拟驾驶场景视频片段进行规划，以得到多个规划结果；

通过场景匹配选出合适的规划结果。

第二方面，本发明还提供一种面向自动驾驶的平行规划设备，包括：处理器和存储器；

所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述处理器执行所述计算机可读程序时实现如上所述的面向自动驾驶的平行规划方法中的步骤。

第三方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上所述的面向自动驾驶的平行规划方法中的步骤。

相较于现有技术，本发明提供的面向自动驾驶的平行规划方法、设备及存储介质，通过构建端到端的自动驾驶运动规划模型和预测多种虚拟未来场景的平行时空视频生成模型，利用虚拟驾驶场景和真实驾驶场景联合训练规划模型和平行时空视频生成器，让规划模型能够针对不同驾驶场景提前规划，因此规划算法能应对紧急和复杂的驾驶场景，其可靠性和安全性更高。

附图说明

图1为本发明提供的面向自动驾驶的平行规划方法的一较佳实施例的流程图；

图2为本发明提供的面向自动驾驶的平行规划方法中，所述端到端的自动驾驶运动规划模型的一较佳实施例的示意图；

图3为本发明提供的面向自动驾驶的平行规划方法中，所述平行时空视频生成模型的一较佳实施例的示意图；

图4为本发明提供的面向自动驾驶的平行规划方法中，联合数据集构建和模型训练的一较佳实施例的示意图；

图5为本发明提供的面向自动驾驶的平行规划方法中，平行规划的一较佳实施例的示意图；

图6为本发明面向自动驾驶的平行规划程序的较佳实施例的运行环境示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

S100、获取虚拟驾驶场景数据和真实驾驶场景数据，并基于所述虚拟驾驶场景数据和真实驾驶场景数据建立联合数据集。

本实施例中，所述虚拟驾驶场景数据来源于驾驶模拟器，在具体实施时，可利用现有的驾驶模拟器，如Carla、GTA5、ETS2等，设置左、中、右3个相机参数的参数，并且设计和构建所需的虚拟场景，模拟真实场景中可能出现的多种场景和事件，例如前车紧急制动、前车突然变道、“鬼探头”等场景和事件；在虚拟场景中控制车辆行驶，通过虚拟相机采集行驶的序列图像，同时采集同步的方向盘转向角、油门和刹车数据作为模拟人工的标注信息，以实现虚拟驾驶场景数据的获取。

所述真实驾驶场景数据来源于公开数据集和自主采集的真是道路场景。在真是车辆中安装有左、中、右三个标定好的前向相机，利用真实车辆、驾驶控制器、车载相机等设备获取真实场景的感知数据，以及同步的人工驾驶运动参数和车辆状态，分别作为训练样本和标注信息。在驾驶场景选取方面，选取多种实验路段，包括普通单车道、多车道、环岛、路口、高速道路、校园道路、以及密集和稀疏车辆等。

S200、构建端到端的自动驾驶运动规划模型。

本实施例中，所述端到端的自动驾驶运动规划模型用于实现自动驾驶汽车的运动规划。如图2所示，所述自动驾驶运动规划模型的基础模型为深度强化模型，其中，所述深度强化模型采用深度Q网络(Deep Q-Network,DQN)与Actor-Critic框架融合的算法建立，Actor网络采用分层的结构，高层决策输出为驾驶行为，低层决策输出为具体的规划指令；Critic网络输出Q值，用于评价动作的好坏和计算梯度，更新网络。所述自动驾驶运动规划模型的状态提取网络由卷积神经网络(Convolutional Neural Network，CNN)与长短时记忆网络(Long Short-Term Memory，LSTM)级联构成。所述自动驾驶运动规划模型的输入为自动驾驶汽车中左、中、右三个前向RGB车载相机采集的序列图像，所述自动驾驶运动规划模型的输出包括高层输出和低层输出，其中，所述高层输出为驾驶决策，所述低层输出为具体的规划指令。为了方便理解，以下结合图2对所述端到端的自动驾驶运动规划模型的建立过程进行详细说明：

第一步、状态提取网络设计：本发明实施例中状态提取网络由CNN和LSTM级联组成。其中CNN由VGG-16网络构成，将CNN输出的特征向量输入到LSTM网络中，并设置LSTM网络以n(n＝10)帧展开来关联前后帧的时间信息，最后输出一个包含驾驶场景时间和空间特征的状态特征。

第二步、分层策略的体系结构设计：分层强化学习决策框架由两部分组成，包括高层动作选择和低层运动规划。在高层的行为选择级别，主策略选择当前状态下要执行的动作。在低层的运动规划级别，激活相应的行为策略，并向执行器输出方向盘转向角和油门、刹车指令。在图2所示的一个具体实施例中，主策略选择行为1作为当前行为，然后激活相应的行为策略，并向执行器输出方向盘转向角和油门、刹车指令。

第三步、整车控制的体系结构设计：车辆的运动由横向和纵向执行器共同控制，两种执行器相对独立。每一个策略都包含一个转向策略网络(SP-Net)和一个加速策略网络(AP-Net)，分别执行横向和纵向控制。此外，采用的模型在满足车辆动力学的条件下考虑横向和纵向控制器之间的耦合，分别称为SV网和AV网。即SP网和SV网负责横向控制，AP网和AV网负责纵向控制。另一方面，主策略只包含一个行为策略网络和一个行为值网络。因此，如果主策略选择了一个行为，则相关的SP-Net和AP-Net将同时工作以控制车辆。

第四步、异步并行强化网络的设计：采用异步并行学习器训练策略π(a|s；θ)并估计状态值V(s；w)，如图2所示。车辆智能体具有一个策略网络和一个价值网络，并根据策略输出做出决策。车辆智能体与环境的不同部分交互，同时在每一步都会计算出与价值网络和策略网络参数相关的梯度。然后，在每一步应用平均梯度对共享策略网络和共享价值网络进行更新。车辆智能体在做出新的决策之前，会从共享网络同步他们的本地网络参数。

其中，时间步t的损失函数定义为：

L_t(w)＝(R_t-V(s_t；w))²，

其中，(R_t-V(s_t；w))²表示时间误差。在前向网络中使用N步收益而不是全部收益估算预期累计收益：

即在n次操作之后，估计时间t处价值和策略网络的更新梯度。状态s_t之后，V(s；w)的参数w的梯度更新为：

Actor-Critic方法的策略梯度是

此外，在目标函数中加入策略的熵∑_a(-π(a_t|s_t)logπ_θ(a_t|s_t))，从而使策略走向更大的熵，通过阻止过早收敛到次优策略来促进探索。总梯度由策略梯度项和熵正则化项组成。因此，在状态s_t之后，策略网络的参数θ的梯度更新为：

其中，β是权衡不同损失成分重要性的超参数，w和θ分别是共享价值和策略网络的参数，w’和θ’分别是车辆智能体的价值和策略网络的参数。

S300、构建用于预测各种虚拟未来驾驶场景的平行时空视频生成模型。

其中，所述平行时空视频生成模型由改进的条件生成对抗网络(ConditionalGenerative Adversarial Network,CGAN)构成，所述改进的条件生成对抗网络通过一段历史场景的驾驶视频片段为输入，预测多个虚拟未来场景的平行时空视频。所述改进的条件生成对抗网络由生成器、判别器和分类器构成，其中，所述生成器用于生成多个未来驾驶场景的视频片段，所述判别器用于判别输入的视频片段是训练所用的真实视频片段还是生成器生成的视频片段，所述分类器用于对不同类别的紧急事件视频片段进行分类。为了方便理解，以下结合图3对所述平行时空视频生成模型的建立过程进行详细说明：

第一步、视频生成的数学描述：视频预测和生成的目的是基于当前视频帧、车辆状态和行为来产生新的视频帧，其过程如下式所示：

x_t+1＝F(X_t,S_t,A_t)，

其中，x_t为时刻t的图像帧；X_t＝{x_t-n+1,x_t-n+2,…,x_t}为连续n帧的视频片段；S_t＝{s_t-n+1,s_t-n+2,…,s_t}和A_t＝{a_t-n+1,a_t-n+2,…,a_t}分别对应的运动参数和车辆状态。

第二步、基于改进的条件生成对抗网络的平行时空视频生成模型：如图3所示，设计编码器E，采用编码器E对视频进行编码和降维，并将不同的紧急事件视频片段编码为特征矢量，作为区分不同类别事件的条件；在CGAN模型中，从服从高斯分布的隐矢量中进行采样，再利用设计的生成器G，结合不同紧急类别事件的条件，产生不同种类的虚拟紧急交通视频片段。在对抗训练时，从虚拟驾驶场景中设置相应参数，获取多种紧急交通场景视频片段，构建紧急场景样本库，并利用判别器D、生成器G和分类器C进行对抗学习：生成器G接受隐矢量，对该隐矢量进行参数学习，得到一个虚拟的视频片段，并将该视频片段与从紧急场景库中的视频片段进行比较，判别器D判断这两个视频片段是紧急场景库中的真实视频片段(真)还是由生成器G生成的视频片段(假)；与此同时，分类器C对不同类别的紧急事件视频片段进行分类，判断属于哪一类紧急场景。其中，生成器G的目的是尽量使得生成的紧急场景视频片段接近于指定类别的真实紧急场景库中的视频片段，以此来欺骗判别器D和分类器D；而判别器D的目的是通过学习不断提高自己的判别能力，尽可能地将生成器G生成的紧急场景视频片段识别出来；分类器C的目的则是通过学习不断提高自己的分类能力，尽可能地将生成器G生成的紧急场景视频片段分类正确。因此，在三方对抗的训练中，训练的结果最终使得生成器G、判别器D和分类器C达到平衡状态，此时生成器G具有较强的生成能力，不仅能够让生成的视频片段最大限度地逼近真实场景，而且还具有特定类别的视频生成能力。因此，综合编码器E、判别器D、生成器G和分类器C，基于改进的条件生成对抗网络的平行时空视频生成器的目标函数设计为：

S400、采用所述联合数据集对所述自动驾驶运动规划模型和平行时空视频生成模型进行训练，以得到平行规划模型。

本实施例中，如图4所示，利用监督学习的方法，并结合迁移学习的思想训练所述自动驾驶运动规划模型中的状态提取网络，利用强化学习的方法在虚拟场景中训练端到端的自动驾驶运动规划模型；采用对抗学习的方法训练所述平行时空视频生成模型，所述平行规划模型包括训练完成的端到端的自动驾驶运动规划模型和训练完成的平行时空视频生成模型。

具体的，在进行端到端的自动驾驶运动规划模型的模仿训练时，综合采用虚拟交通场景和真实交通场景对模型进行混合训练。从构建的虚拟驾驶场景数据集中，抽取带标签的数据，利用监督学习的方法训练步骤S200中设计的深度级联神经网络的端到端的自动驾驶运动规划模型；待模型收敛之后，利用真实驾驶场景数据集中的带标签的数据，利用监督学习方法，结合迁移学习的思想，将深度级联网络的模型迁移到真实驾驶场景的数据中。在进行端到端的自动驾驶运动规划模型的强化训练时，将在模仿学习中训练好的深度级联神经网络作为状态提取网络，设计强化学习三元组构建强化学习方法。首先让模型在虚拟场景中进行交互式自学习，等模型基本收敛之后再在真实场景中进行学习。为了保证安全，在真实场景中学习时，人类驾驶员可以随时接入修正系统的规划结果，将修正的次数作为奖励函数(负奖励)，并将人类修正的数据纳入经验池中，采用步骤S200中设计好的分层结构的强化学习模型进行训练。

在进行平行时空视频生成模型训练时，在驾驶模拟平台中设置相应的模型和参数，采集常见的多种大规模的紧急交通场景，比如前方车辆紧急刹车、前方车辆紧急变道、行人冲入机动车道等，构建紧急交通场景数据集，然后利用该数据集训练步骤S300中设计的平行时空视频生成器，如图4所示。

S500、采用所述平行规划模型对各种虚拟未来驾驶场景进行平行规划。

具体的，所述步骤S500具体包括：

通过场景匹配选出合适的规划结果。

具体实施时，如图5所示，首先将车载相机采集的序列图像，输入已训练好的平行时空视频生成模型中，预测未来多种虚拟的驾驶场景(包括正常驾驶场景和紧急驾驶场景)视频片段；然后将多种未来的虚拟驾驶场景片段输入已训练好的端到端运动规划模型，得到多种规划结果；最后将当前场景与虚拟场景进行场景匹配，选择对应的规划结果输出作为最后的规划结果。

如图6所示，基于上述面向自动驾驶的平行规划方法，本发明还相应提供了一种面向自动驾驶的平行规划设备，所述面向自动驾驶的平行规划设备可以是移动终端、桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该面向自动驾驶的平行规划设备包括处理器10、存储器20及显示器30。图6仅示出了面向自动驾驶的平行规划设备的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器20在一些实施例中可以是所述面向自动驾驶的平行规划设备的内部存储单元，例如面向自动驾驶的平行规划设备的硬盘或内存。所述存储器20在另一些实施例中也可以是所述面向自动驾驶的平行规划设备的外部存储设备，例如所述面向自动驾驶的平行规划设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器20还可以既包括面向自动驾驶的平行规划设备的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述面向自动驾驶的平行规划设备的应用软件及各类数据，例如所述安装面向自动驾驶的平行规划设备的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有面向自动驾驶的平行规划程序40，该面向自动驾驶的平行规划程序40可被处理器10所执行，从而实现本申请各实施例的面向自动驾驶的平行规划方法。

所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述面向自动驾驶的平行规划方法等。

所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。所述显示器30用于显示在所述面向自动驾驶的平行规划设备的信息以及用于显示可视化的用户界面。所述面向自动驾驶的平行规划设备的部件10-30通过系统总线相互通信。

在一实施例中，当处理器10执行所述存储器20中面向自动驾驶的平行规划程序40时实现如上述各实施例所述的面向自动驾驶的平行规划方法，由于上文已对所述面向自动驾驶的平行规划方法进行详细描述，在此不再赘述。

综上所述，本发明提供的面向自动驾驶的平行规划方法、设备及存储介质，通过构建端到端的自动驾驶运动规划模型和预测多种虚拟未来场景的平行时空视频生成模型，利用虚拟驾驶场景和真实驾驶场景联合训练规划模型和平行时空视频生成器，让规划模型能够针对不同驾驶场景提前规划，因此规划算法能应对紧急和复杂的驾驶场景，其可靠性和安全性更高。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件(如处理器，控制器等)来完成，所述的程序可存储于一计算机可读取的存储介质中，该程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种面向自动驾驶的平行规划方法，其特征在于，包括如下步骤：

构建端到端的自动驾驶运动规划模型；

2.根据权利要求1所述的面向自动驾驶的平行规划方法，其特征在于，所述自动驾驶运动规划模型的基础模型为深度强化模型，其中，所述深度强化模型采用深度Q网络与Actor-Critic框架融合的算法建立，Actor网络采用分层的结构，高层决策输出为驾驶行为，低层决策输出为具体的规划指令；Critic网络输出Q值，用于评价动作的好坏和计算梯度，更新网络。

3.根据权利要求2所述的面向自动驾驶的平行规划方法，其特征在于，所述自动驾驶运动规划模型的状态提取网络由卷积神经网络与长短时记忆网络级联构成。

4.根据权利要求3所述的面向自动驾驶的平行规划方法，其特征在于，所述自动驾驶运动规划模型的输入为自动驾驶汽车中左、中、右三个前向RGB车载相机采集的序列图像，所述自动驾驶运动规划模型的输出包括高层输出和低层输出，其中，所述高层输出为驾驶决策，所述低层输出为具体的规划指令。

5.根据权利要求1所述的面向自动驾驶的平行规划方法，其特征在于，所述平行时空视频生成模型由改进的条件生成对抗网络构成。

6.根据权利要求5所述的面向自动驾驶的平行规划方法，其特征在于，所述改进的条件生成对抗网络由生成器、判别器和分类器构成，其中，所述生成器用于生成多个未来驾驶场景的视频片段，所述判别器用于判别输入的视频片段是训练所用的真实视频片段还是生成器生成的视频片段，所述分类器用于对不同类别的紧急事件视频片段进行分类。

7.根据权利要求3所述的面向自动驾驶的平行规划方法，其特征在于，利用监督学习的方法，并结合迁移学习的思想训练所述自动驾驶运动规划模型中的状态提取网络，利用强化学习的方法在虚拟场景中训练端到端的自动驾驶运动规划模型；采用对抗学习的方法训练所述平行时空视频生成模型，所述平行规划模型包括训练完成的端到端的自动驾驶运动规划模型和训练完成的平行时空视频生成模型。

8.根据权利要求7所述的面向自动驾驶的平行规划方法，其特征在于，所述采用所述平行规划模型对各种虚拟未来驾驶场景进行平行规划的步骤具体包括：

通过场景匹配选出合适的规划结果。

9.一种面向自动驾驶的平行规划设备，其特征在于，包括：处理器和存储器；

所述处理器执行所述计算机可读程序时实现如权利要求1-8任意一项所述的面向自动驾驶的平行规划方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-8任意一项所述的面向自动驾驶的平行规划方法中的步骤。