CN109991987A

CN109991987A - 自动驾驶决策方法及装置

Info

Publication number: CN109991987A
Application number: CN201910354778.5A
Authority: CN
Inventors: 张双琳; 徐成; 张放; 李晓飞; 王肖; 张德兆; 霍舒豪
Original assignee: Beijing Idriverplus Technologies Co Ltd
Current assignee: Beijing Idriverplus Technologies Co Ltd
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2019-07-09
Anticipated expiration: 2039-04-29
Also published as: CN109991987B

Abstract

本发明提供了一种自动驾驶决策方法，包括：获取车辆周围的环境感知信息；根据环境感知信息和预设的地图文件，进行决策，生成多个决策节点；通过第一模型计算每个决策节点的输出，生成第一决策结果；通过第二模型计算每个决策节点的输出，生成第二决策结果；根据环境预测信息，分别计算第一决策结果的第一收益和第二决策结果的第二收益；比较第一收益和第二收益，并将收益值高的对应的决策结果作为目标决策结果。由此，避免产生“维度爆炸”现象，并且可以直观反映各个阶段的决策结果，充分结合了规则方法和强化学习方法各自的优势，在某个场景的决策结果不一致时能够快速定位问题，实现两个模型的相互促进和共同提升。

Description

自动驾驶决策方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种自动驾驶决策方法及装置。

背景技术

随着科学技术的飞速发展，自动驾驶车辆的应用领域日益扩大，各个国家都对其投入了大量科研力量。自动驾驶车辆是一个集导航、环境感知、决策规划和人机交互等多项功能于一体的综合智能系统，而决策模块是自动驾驶系统的重要组成部分，直接反映了自动驾驶车辆的智能性。

决策模块作为“自动驾驶大脑”需要结合驾驶任务和行驶环境输出合理的驾驶行为，然而由于驾驶场景的多样化和复杂性，很难保证决策结果的可行性和一致性，因此设计一种安全有效且鲁棒性强的自动驾驶决策方法具有非常重要的意义。

目前应用较多的自动驾驶决策方法可大致分为规则方法、学习方法以及二者相结合的方法。基于规则的方法通常采用状态机或行为树实现，将行驶环境划分为不同的子场景并调用对应的处理程序对场景中的目标提出建议行为，通过预设的优先级和约束条件做出驾驶决策。

基于学习的方法将行驶环境抽象为特征状态空间，采用机器学习或强化学习算法根据奖励模型生成状态空间到驾驶行为的映射，通过仿真或真实驾驶数据训练网络得到驾驶策略。

规则与学习相结合的方法首先通过学习方法做出驾驶决策，将决策结果进行安全性校验或者与规则方法得到的结果进行比较，若决策结果不满足安全性或者与规则方法得到的决策结果差距较大则采用规则方法生成的驾驶行为。

然而，基于规则的方法需要设计非常复杂的逻辑，参数过多导致调试困难。针对特定场景设计的方法容易产生过拟合，无法适应所有场景。而各种行为和场景之间存在一定的冲突和依赖，耦合性严重不利于功能扩展。基于学习的方法依赖大量的数据和计算资源，模型存在“维数灾难”问题且不具有可解释性。而决策结果无法保证绝对安全，难以应用到实际的自动驾驶中。现有规则与学习相结合的方法只是单独实现两种方法并进行简单的校验，仍存在学习算法训练成本较高以及规则方法复杂且不智能的问题。

发明内容

本发明实施例的目的是提供一种自动驾驶决策方法及装置，以解决现有技术中存在的参数过多导致调试困难、无法适应所有场景、学习算法训练成本较高以及规则方法复杂且不智能等的问题。

为解决上述问题，第一方面，本发明提供了一种自动驾驶决策方法，所述方法包括：

获取车辆周围的环境感知信息；

根据所述环境感知信息和预设的地图文件，进行决策，生成多个决策节点；

通过第一模型计算每个决策节点的输出，生成第一决策结果；

通过第二模型计算每个决策节点的输出，生成第二决策结果；

根据环境预测信息，分别计算所述第一决策结果的第一收益和所述第二决策结果的第二收益；

比较所述第一收益和所述第二收益，并将收益值高的对应的决策结果作为目标决策结果。

在一种可能的实现方式中，所述第一模型为规则模型，所述通过第一模型计算每个决策节点的输出，生成第一决策结果，具体包括：

通过规则方法，计算每个决策节点的输出，多个所述决策节点的输出，构成第一决策结果。

在一种可能的实现方式中，所述第二模型为混合模型，所述通过第二模型计算每个决策节点的输出，生成第二决策结果，具体包括：

通过规则方法，计算多个所述决策节点中的第一数量个第一类型决策节点的输出；所述多个决策节点包括第一数量个第一类型决策节点和第二数量个第二类型决策节点；

通过强化学习方法，计算多个所述决策节点中的第二数量个第二类型决策节点的输出；

通过所述第一数量个第一类型决策节点的输出和所述第二数量个第二类型决策节点的输出，生成第二决策结果。

在一种可能的实现方式中，所述根据环境预测信息，分别计算所述第一决策结果的第一收益和所述第二决策结果的第二收益，具体包括：

根据所述第一决策结果，计算第一规划轨迹；

根据所述环境预测信息和所述第一规划轨迹，计算第一收益；

根据所述第二决策结果，计算第二规划轨迹；

根据所述环境预测信息和所述第二规划轨迹，计算第二收益。

在一种可能的实现方式中，所述根据所述环境预测信息和所述第一规划轨迹，计算第一收益；或者，根据所述环境预测信息和所述第二规划轨迹，计算第二收益，具体包括：

计算车辆第一规划轨迹、第二规划轨迹分别与障碍物预测轨迹的最小值，并将最小值作为安全性指标；

分别计算车辆第一规划轨迹、第二规划轨迹的横摆角速度和加速度，并将其作为舒适性指标；

分别计算车辆第一规划轨迹、第二规划轨迹的目标速度，并将其作为效率指标；

根据第一规划轨迹的安全性指标、舒适性指标和效率指标，计算第一收益；

根据第二规划轨迹的安全性指标、舒适性指标和效率指标，计算第二收益。

在一种可能的实现方式中，所述方法之后还包括：

当所述第一收益大于所述第二收益时，迭代的设置所述第二模型的参数，直至所述第一收益与第二收益的差值不大于预设阈值；或者，

当所述第一收益小于所述第二收益时，迭代的设置所述第一模型的参数，直至所述第一收益与第二收益的差值不大于预设阈值。

第二方面，本发明提供了一种自动驾驶决策装置，所述装置包括：

决策节点创建模块，所述决策节点创建模块用于获取车辆周围的环境感知信息；

所述决策节点创建模块还用于，根据所述环境感知信息和预设的地图文件，进行决策，生成多个决策节点；

决策模型实现模块，所述决策模型实现模块用于通过第一模型计算每个决策节点的输出，生成第一决策结果；

所述决策模型实现模块用于还用于，通过第二模型计算每个决策节点的输出，生成第二决策结果；

执行模拟模块，所述执行模拟模块用于根据环境预测信息，分别计算所述第一决策结果的第一收益和所述第二决策结果的第二收益；

决策评价模块，所述决策评价模块用于比较所述第一收益和所述第二收益，并将收益值高的对应的决策结果作为目标决策结果。

第三方面，本发明提供了一种设备，包括存储器和处理器，所述存储器用于存储程序，所述处理器用于执行第一方面任一所述的方法。

第四方面，本发明提供了一种包含指令的计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如第一方面任一所述的方法。

第五方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一所述的方法。

通过应用本发明提供的自动驾驶决策方法及装置，具有如下技术效果：

1、基于分层框架将驾驶决策分解为若干子问题分别进行求解，降低了状态空间的维度(比如先确定向左换道后，确定换道间隙的模型只需要输入当前车道和左侧车道的车辆即可，不需要输入右侧车道的车辆)，避免产生“维度爆炸”现象，并且可以直观反映各个阶段的决策结果，简化了问题复杂度的同时实现了逻辑的可视化。

2、混合模型中的每个决策节点可以采用规则方法或强化学习方法实现，充分结合了规则方法和强化学习方法各自的优势，同时保证了决策模型的模块化和灵活性。

3、规则模型和混合模型结构完全相同，在某个场景的决策结果不一致时能够快速定位问题，并基于此场景对表现不好的模型进行完善，可以实现二者的相互促进和共同提升。

附图说明

图1为本发明实施例一提供的自动驾驶决策方法流程示意图；

图2为本发明实施例一提供的分层决策框架示意图；

图3A为本发明实施例一提供的第一模型示意图；

图3B为为本发明实施例一提供的第二模型示意图；

图4为本发明实施例一提供的模型更新流程图；

图5为本发明实施例二提供的自动驾驶决策装置结构示意图；

图6为本发明实施例二提供的自动驾驶决策装置又一结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1为本发明实施例一提供的自动驾驶决策方法流程示意图。该方法应用在车辆中，该方法的执行主体为车辆控制单元。如图1所示，该方法包括以下步骤：

步骤101，获取车辆周围的环境感知信息。

具体的，自动驾驶车辆在行驶过程中，车辆控制单元可以接收安装在车辆上的激光雷达、超声波雷达、摄像头、AVT相机等传感器测量到的信息，通过对该些信息进行融合处理，得到环境感知信息。

步骤102，根据环境感知信息和预设的地图文件，进行决策，生成多个决策节点。

具体的，车辆控制单元可以通过向服务器发送消息，从而获取到地图文件，也可以直接调用车辆的存储单元中的地图文件。其中，该存储单元可以设置在车辆控制单元中，也可以不设置在车辆控制单元中，而通过控制器局域网络(Controller Area Network，CAN)总线和车辆控制单元进行交互。

可以根据环境感知信息和预设的地图文件，进行决策，在进行决策时，可以根据人类驾驶经验，将决策逻辑分解为若干子步骤，并采用分层决策框架将每个子步骤作为一个决策节点。

步骤103，通过第一模型计算每个决策节点的输出，生成第一决策结果。

具体的，参见图2，图2为将决策过程分解为多个子步骤的示意图。图2中每个圆圈表示一个决策节点，每个决策节点的输出可以是起步、停车、换道和让行等驾驶行为，或者，车辆的方向，或者车道等。

参见图3A，第一模型可以是规则模型，规则模型中，对于每个决策节点，采用规则方法计算每个决策节点的输出，多个决策节点的输出，构成第一决策结果。

步骤104，通过第二模型计算每个决策节点的输出，生成第二决策结果。

参见图3B，第二模型可以是混合模型，在混合模型中，首先，可以通过规则方法，计算多个决策节点中的第一数量个第一类型决策节点(参见图3B中的白色决策节点)的输出；多个决策节点包括第一数量个第一类型决策节点和第二数量个第二类型决策节点。然后，可以通过强化学习方法，计算多个决策节点中的第二数量个第二类型决策节点(参见图3B中的黑色决策节点)的输出。最后，通过第一数量个第一类型决策节点的输出和第二数量个第二类型决策节点的输出，生成第二决策结果。

具体的，对于混合模型中的决策节点，可以采用更加适合的方法得到决策节点的输出，例如换道意图等直观灵活的决策节点，可以采用规则方法进行计算，而对于换道时机等模糊的决策节点，则可以采用强化学习方法进行计算。

步骤105，根据环境预测信息，分别计算第一决策结果的第一收益和第二决策结果的第二收益。

其中，环境预测信息包括但不限于：车辆周围的车辆和行人等交通参与者的预测轨迹。可以根据环境感知信息，进行预测分析，从而得到环境预测信息。

在一个实施例中，可以根据环境预测信息分别和第一决策结果、第二决策结果，计算连续或离散的奖励值，将第一决策结果对应的奖励值作为第一收益，将第二决策结果对应的奖励值作为第二收益。

在另一个实施例中，首先，可以根据第一决策结果，计算第一规划轨迹；同时，根据第二决策结果，计算第二规划轨迹；然后，根据环境预测信息和第一规划轨迹，计算第一收益；同时，根据环境预测信息和第二规划轨迹，计算第二收益。

其中，第一收益或者第二收益包括三个指标，即安全性指标、舒适性指标和效率指标。在计算第一收益时，可以计算自车第一规划轨迹与障碍物预测轨迹，将两者的最小值作为安全性指标；计算自车第一规划轨迹的横摆角速度和加速度作为舒适性指标；计算自车第一规划轨迹的目标速度作为效率指标。然后计算安全性指标、舒适性指标和效率指标的加权平均值作为第一收益。

其中，可以根据真实驾驶数据得到障碍物预测轨迹。横摆角速度为速度与曲率半径的比值。第一规划轨迹中路点的速度会逐渐趋于稳定，目标速度为稳定后的速度。

同理，在计算第二收益时，仅将上述第一规划轨迹更换为第二规划轨迹即可，此处不再赘述。

步骤106，比较第一收益和第二收益，并将收益值高的对应的决策结果作为目标决策结果。

具体的，可以计算第一收益和第二收益的大小，选择收益高的决策结果作为目标决策结果。

进一步的，在步骤106之后，还包括：

当第一收益大于第二收益时，迭代的设置第二模型的参数，直至第一收益与第二收益的差值不大于预设阈值；或者，

当第一收益小于第二收益时，迭代的设置第一模型的参数，直至第一收益与第二收益的差值不大于预设阈值。

由此，对于收益小的模型进行了完善，实现了两个模型的相互促进和共同提升。

具体的，参见图4，若一个决策结果的综合收益值为零或与另一个决策结果的差距较大，说明对应的决策核心基于当前场景需要进行提升，可以基于分层框架采用从上之下的策略对该模型进行更新，具体流程如图4所示。

首先比较两种决策核心的每个中间决策结果，找到最初产生差异的子节点。然后分析两个子节点决策结果不一致的原因并对该子节点的决策模型进行修正，若强化学习节点需要优化则采用监督方法提升模型，若规则方法需要优化则调节模型参数尽可能接近强化学习的输出。当对应子节点的输出一致时再基于此场景运行两个决策核心，若最终输出仍存在较大偏差继续完善当前最初产生差异的子节点，重复此过程直到二者决策结果一致。

通过应用本发明实施例一提供的自动驾驶决策方法，具有以下技术效果：

图5为本发明实施例二提供的自动驾驶决策装置结构示意图。该自动驾驶决策装置应用在自动驾驶决策方法中，如图5所示，该自动驾驶决策装置500包括：决策节点创建模块501、决策模型实现模块502、执行模拟模块503和决策评价模块504。

决策节点创建模块501用于获取车辆周围的环境感知信息；

决策节点创建模块501还用于，根据环境感知信息和预设的地图文件，进行决策，生成多个决策节点；

决策模型实现模块502用于通过第一模型计算每个决策节点的输出，生成第一决策结果；

决策模型实现模块502还用于，通过第二模型计算每个决策节点的输出，生成第二决策结果；

执行模拟模块503用于根据环境预测信息，分别计算第一决策结果的第一收益和第二决策结果的第二收益；

决策评价模块504用于比较第一收益和第二收益，并将收益值高的对应的决策结果作为目标决策结果。

进一步的，第一模型为规则模型，决策模型实现模块502具体用于：

通过规则方法，计算每个决策节点的输出，多个决策节点的输出，构成第一决策结果。

进一步的，第二模型为混合模型，决策模型实现模块502具体用于：

通过规则方法，计算多个决策节点中的第一数量个第一类型决策节点的输出；多个决策节点包括第一数量个第一类型决策节点和第二数量个第二类型决策节点；

通过强化学习方法，计算多个决策节点中的第二数量个第二类型决策节点的输出；

通过第一数量个第一类型决策节点的输出和第二数量个第二类型决策节点的输出，生成第二决策结果。

进一步的，执行模拟模块503具体用于：

根据第一决策结果，计算第一规划轨迹；

根据环境预测信息和第一规划轨迹，计算第一收益；

根据第二决策结果，计算第二规划轨迹；

根据环境预测信息和第二规划轨迹，计算第二收益。

进一步的，执行模拟模块503具体用于：

进一步的，参见图6，图6为本发明实施例二提供的自动驾驶决策装置又一结构示意图，如图6所示，自动驾驶决策装置还包括:决策模型更新模块601。该决策模型更新模块601具体用于：

通过应用本发明实施例二提供的自动驾驶决策装置，具有以下技术效果：

本发明实施例二提供了一种设备，包括存储器和处理器，存储器用于存储程序，存储器可通过总线与处理器连接。存储器可以是非易失存储器，例如硬盘驱动器和闪存，存储器中存储有软件程序和设备驱动程序。软件程序能够执行本发明实施例提供的上述方法的各种功能；设备驱动程序可以是网络和接口驱动程序。处理器用于执行软件程序，该软件程序被执行时，能够实现本发明实施例提供的方法。

本发明实施例三提供了一种包含指令的计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行本发明实施例一提供的方法。

本发明实施例四提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现本发明实施例一提供的方法。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自动驾驶决策方法，其特征在于，所述方法包括：

获取车辆周围的环境感知信息；

2.根据权利要求1所述的方法，其特征在于，所述第一模型为规则模型，所述通过第一模型计算每个决策节点的输出，生成第一决策结果，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述第二模型为混合模型，所述通过第二模型计算每个决策节点的输出，生成第二决策结果，具体包括：

4.根据权利要求1所述的方法，其特征在于，所述根据环境预测信息，分别计算所述第一决策结果的第一收益和所述第二决策结果的第二收益，具体包括：

根据所述第一决策结果，计算第一规划轨迹；

根据所述第二决策结果，计算第二规划轨迹；

5.根据权利要求1所述的方法，其特征在于，所述根据所述环境预测信息和所述第一规划轨迹，计算第一收益；或者，根据所述环境预测信息和所述第二规划轨迹，计算第二收益，具体包括：

6.根据权利要求1所述的方法，其特征在于，所述方法之后还包括：

7.一种自动驾驶决策装置，其特征在于，所述装置包括：

8.一种设备，其特征在于，所述设备包括存储器和处理器，所述存储器用于存储程序，所述处理器用于执行权利要求1-7任一所述的方法。

9.一种包含指令的计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行权利要求1-7任一所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法。