CN108803609B

CN108803609B - 基于约束在线规划的部分可观察自动驾驶决策方法

Info

Publication number: CN108803609B
Application number: CN201810595164.1A
Authority: CN
Inventors: 姜冲; 章宗长
Original assignee: Suzhou University
Current assignee: NANQI XIANCE (NANJING) TECHNOLOGY Co.,Ltd.
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2020-05-01
Anticipated expiration: 2038-06-11
Also published as: WO2019237474A1; CN108803609A

Abstract

本发明涉及一种基于约束在线规划的部分可观察自动驾驶决策方法及系统。该决策方法主要用于自动驾驶中，使得车辆拥有多种驾驶模式。本发明包括：驾驶环境状态单元单元、搜索单元、模拟单元、成本约束单元。该决策方法不仅能够针对当前驾驶环境产生驾驶方案，还可以根据实时的路况车况来实时的调整方案，以增强其灵活性。该方法构建了一个基于历史的蒙特卡罗搜索树，使得模拟解决方案是在真实情况的基础上进行的，增强了可靠性。同时，该方法满足一定的最优选择条件，以确保得到的策略是随机策略，弥补了确定性策略的不足。该决策方法完全满足目前一般用户的驾驶需求，尤其是提供了多种模式可以选择，极大的提升了用户体验。

Description

基于约束在线规划的部分可观察自动驾驶决策方法

技术领域

本发明涉及自动驾驶技术领域，特别是涉及基于约束在线规划的部分可观察自动驾驶决策方法。

背景技术

目前来说，自动驾驶包含有三个问题：第一个是我在哪？第二个是我要去哪？第三个是怎么去？真正的自动驾驶需要完美的解决这三个问题。第一个问题指的是定位问题，在现实中，驾驶的路况通常都会比较复杂，所以我们需要厘米级的定位。第二个问题是路径规划问题，也就是本专利所要解决的问题。第三个问题是车辆执行结构，也就是线控系统，主要执行的操作包括线控制动、转向以及油门，即根据规划模块所得出的方案来操控车辆。

传统技术存在以下技术问题：

在目前的无人驾驶领域中，常用的决策模型是POMDP(PartiallyObservableMarkovDecisionProcess，部分可观测马尔科夫决策过程)。POMDP将驾驶过程看作是一个决策过程，将驾驶过程中可能出现的情况视为一个状态，即驾驶环境状态单元。在驾驶过程中，我们假设驾驶环境状态单元是无法完全获取的，即状态是部分可观察的。在每个状态下，我们需要对其后可能出现的状态进行奖赏设定，并通过特定的动作选择策略来选择一个动作，再使用值更新或策略更新等方法来寻找一个能够获取最大累积奖赏的驾驶策略。对于POMDP来说，直接求解它是比较困难的，所以通常的做法是使用信念状态将POMDP问题转化为MDP问题来求解。信念状态b是关于状态s的一个概率分布，在每一次决策并执行动作a之后，系统都会获得一个观察o，然后使用贝叶斯更新方法对信念状态进行更新：

其中p(o|s′，a)和p(o|b，a)分别是由模型参数T和O决定的，并且：

这是一个标准化常量。这种方法的缺点是计算量较大，无法适用于规模较大的自动驾驶场景。因为POMDP的运算量会随着状态维度以及历史数据的增加而增加，即会产生维度诅咒(curse ofdimensionality)与历史诅咒(curse of history)。

发明内容

基于此，有必要针对上述技术问题，提供一种基于约束在线规划的部分可观察自动驾驶决策方法，基于部分可观察蒙特卡罗规划的，可以同时考虑主要目标与次要目标约束条件来进行策略规划的方法，解决了驾驶模式单一，用户只能被动接受驾驶方案的问题，提升了用户体验，该方法具有驾驶方案灵活、可靠性高、考虑全面等优点，在自动驾驶领域具有广泛的应用场景。

一种基于约束在线规划的部分可观察自动驾驶决策方法，包括：

接收用户选择的驾驶模式；

根据用户所选的驾驶模式来规划驾驶方案，规划决策过程具体为：

从给定初始状态分布I或者历史h的信念状态B(h)中选择模拟规划的起始状态s，用以构建蒙特卡罗搜索树，进行模拟规划：

根据成本约束贪心动作选择策略，从所构建的蒙特卡罗搜索树中选择满足约束条件的，同时还要使V_R(ha)最大的动作a；

将所述动作a输入到线控系统中来驾驶车辆，同时系统的感知模块获得一个新的环境状态观察o，将新的历史hao加入历史h中,所述历史hao是指在所述历史h下采取动作a获得观察o；

重复上述步骤直至到达目的地。

在另外的一个实施例中，所述驾驶模式包括以下至少之一：快速模式、平缓模式、节能模式。

在另外的一个实施例中，在步骤“从给定初始状态分布或者历史的信念状态中选择模拟规划的起始状态，用以构建蒙特卡罗搜索树，进行模拟规划：”中，所述模拟规划包括：

选取模拟起始状态s，若历史为空，则从给定初始状态分布I中进行选择；若历史不为空，则从历史h的信念状态分布中进行选择；

模拟过程的输入是粒子起始状态s，历史h，以及深度depth，当满足γ^depth＜ε时，模拟结束，否则继续模拟；

从起始状态s开始根据约束贪心动作选择策略选取模拟动作a；

将状态s以及动作a输入到环境状态黑盒模拟器中，得到下一模拟状态s′以及相应的环境状态观察o，将hao作为蒙特卡罗搜索树的新节点；

使用蒙特卡罗方法更新模型中历史h的信念状态B(h)以及其它相关参数，然后返回本轮模拟规划的奖赏R以及成本C。

在另外的一个实施例中，步骤“根据成本约束贪心动作选择策略，从所构建的蒙特卡罗搜索树中选择满足约束条件的，同时还要使V_R(ha)最大的动作a；”中，所述成本约束贪心动作选择策略包括：

(1)加入了条件约束的UCB1动作选择方法：

(2)对于次要目标约束条件的凸优化：

输入一个状态s以及探索系数k，系统会根据UCB1来评估动作值Q(s，a)，并从中选取Q值最高的动作，同时，还要求解成本的凸优化问题以确保满足成本约束，最后得到的最优策略π即为GREEDYPOLICY的输出。

在另外的一个实施例中，在步骤“使用蒙特卡罗方法更新模型中历史h的信念状态B(h)以及其它相关参数，然后返回本轮模拟规划的奖赏R以及成本C。”中，

在信念状态更新时，首先从初始状态分布中抽取K个粒子

，每个粒子都对应着一个抽样状态，而信念状态B(h)就是所有粒子的集合。在执行过一个动作a并且获得一个观察o之后，就使用蒙特卡罗模拟来更新粒子。通过随机的选取一个粒子的方式从当前信念状态B(s，h)中抽取一个状态，这个粒子作为输入传进一个黑盒模拟器中，可以获得一个连续的状态s′，观察o以及对应的奖赏和成本，如果模拟的观察o与真实的观察相匹配，那么就将粒子s′加入信念状态B(h)中，重复上述步骤直到所有的粒子都已被加入信念状态B(h)。

在另外的一个实施例中，在步骤“将状态s以及动作a输入到环境状态黑盒模拟器中，得到下一模拟状态s′以及相应的环境状态观察o，将hao作为蒙特卡罗搜索树的新节点；”中，

环境的状态观察o由感知模块采集过滤并进行预处理，然后输入到决策模型中，决策模型再根据输入的环境状态进行模拟以及决策。

在另外的一个实施例中，在步骤“将状态以及动作输入到环境状态黑盒模拟器中，得到下一模拟状态以及相应的环境状态观察，将作为蒙特卡罗搜索树的新节点；”中，基于历史的搜索树中每个节点都会使用蒙特卡罗(MC)模拟来估计历史的奖赏值以及成本值；模型中包含一个关于驾驶环境的黑盒模拟器，而不需要明确的关于状态的概率分布。

在另外的一个实施例中，在步骤“使用蒙特卡罗方法更新模型中历史h的信念状态B(h)以及其它相关参数，然后返回本轮模拟规划的奖赏R以及成本C。”中，状态的模拟分为两层，第一层是指当处于搜索树中时，使用UCB1方法来进行动作选择，第二层是指超出搜索树范围时，使用一个基于历史的rollout策略来进行动作选择。

一种基于约束在线规划的部分可观察自动驾驶决策系统，包括：

驾驶环境状态单元，用于接收感知模块所获取的实时驾驶环境，并由感知模块进行过滤以及预处理，输出决策模块所需要的状态；

模拟单元，用于根据当前历史进行驾驶轨迹模拟，构建基于历史的蒙特卡罗搜索树；模拟分为两个阶段，在第一阶段中，所有的孩子都不存在子节点，此时使用UCB1算法选择动作，在第二阶段中，使用基于历史的回滚(rollout)算法选择动作；

搜索单元，用于从历史的信念状态中选取模拟单元的起始状态，然后根据模拟单元所得出的结果，从中选择最优的，同时还满足用户选择的约束条件的动作作为实际的驾驶动作，并将选择的结果输出至自动驾驶系统中的线控系统；以及

成本约束单元，用于约束驾驶过程中所产生的各种成本，不同的约束条件即对应着不同的驾驶模式，所述决策模型在给出最优决策的同时还需要满足用户所提出的约束条件；

其中，所述模拟单元的输入是当前历史h、模拟的起始状态s以及当前搜索树的深度depth，以此在模拟中构建基于历史h的搜索树T(h)，所述模拟单元会根据模型的动作选择策略选取一个最优动作a，然后以(s，a)作为驾驶环境黑盒模拟器的输入，输出新的状态s′、采取动作a后的观察o、奖赏R、成本C，下一轮模拟的输入为新状态s′、新历史hao、深度depth+1；输出为本轮模拟的奖赏R、成本C；所述搜索单元的输入是当前历史h，输出为在当前情况下能够获得最大累积奖赏并满足次要目标约束条件的最优策略π；所述成本约束单元输入为状态s、动作a，然后由此求解关于约束条件的一个凸优化问题。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

上述基于约束在线规划的部分可观察自动驾驶决策方法，具有下列有益效果：(1)本发明公开的基于部分可观察蒙特卡罗规划的策略规划方法，适用于大规模的有条件约束的部分可观察马尔科夫过程中，能够很好的解决传统贝叶斯更新方法计算困难的问题，大大的减轻了系统对于设备的过分依赖。(2)决策模型能够做到实时规划，通过蒙特卡罗规划能够及时的调整驾驶策略，极具灵活性。(3)模型中所求解的成本约束的凸优化问题能够确保得到的策略为随机策略，可以考虑到大部分可能遇到的问题，不会忽视各种故障的发生，使得系统更加的安全可靠。(4)该决策模型不需要关于驾驶环境的显式模型，而只需要一个黑盒模拟器，增加了驾驶策略的可行性。(5)系统感知的状态具有马尔科夫性质，具有马尔科夫性质的状态的未来状态只与当前状态有关，与之前的状态没有关系，因此无需保存过去的信息，节约了成本。

附图说明

图1为本申请实施例提供的一种基于约束在线规划的部分可观察自动驾驶决策方法的系统架构图。

图2为本申请实施例提供的一种基于约束在线规划的部分可观察自动驾驶决策方法的流程图。

图3为本申请实施例提供的一种基于约束在线规划的部分可观察自动驾驶决策方法中模拟规划过程的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参阅图1到图3，一种基于约束在线规划的部分可观察自动驾驶决策方法，包括：

接收用户选择的驾驶模式；

重复上述步骤直至到达目的地。

(1)加入了条件约束的UCB1动作选择方法：

(2)对于次要目标约束条件的凸优化：

在信念状态更新时，首先从初始状态分布中抽取K个粒子

模拟单元，用于根据当前历史进行驾驶轨迹模拟，构建基于历史的蒙特卡罗搜索树；模拟分为两个阶段，在第一阶段中，所有的孩子(children)都不存在子节点，此时使用UCB1算法选择动作，在第二阶段中，使用基于历史的回滚(rollout)算法选择动作；

下面介绍一个本发明具体的应用场景：

S1、在所述模型需构建基于历史的蒙特卡罗搜索树，而非基于状态的搜索树。

S2、用户选定驾驶模式之后，历史h的初值为空，此时模型会根据一个初始状态分布来选取起始状态，当执行过一系列决策之后，历史不再为空，此时的模拟需要从历史h的信念状态B(h)中抽取一个起始状态s。选定起始状态之后，从这个起始状态s开始向后模拟出一系列的决策轨迹。每次模拟都使用一个GREEDYPOLICY动作选择策略来选择一个动作a，然后将状态s与动作a输入到一个黑盒模拟器中，得到下一个模拟状态s′以及一个观察o，使用hao来构建搜索树的下一节点并将s加入到关于历史h的信念状态B(h)中,最后用蒙特卡罗方法更新状态和状态动作对的奖赏值V_R以及成本值V_C。

S3、GREEDYPOLICY动作选择策略中包含了UCB1动作选择以及对于次要目标约束条件的凸优化，输入一个状态s以及探索系数k，系统会根据UCB1来评估动作值Q(s，a)，并从中选取Q值最高的动作，同时，还要求解成本的凸优化问题以确保满足成本约束，最后得到的最优策略π即为GREEDYPOLICY的输出。

S4、状态的模拟分为两层，第一层是指当处于搜索树中时，使用UCB1方法来进行动作选择，第二层是指超出搜索树范围时，使用一个基于历史的rollout策略来进行动作选择。

S5、在信念状态更新时，首先从初始状态分布中抽取K个粒子

S6、模拟过程的输入是粒子起始状态s，历史h，以及深度depth，当满足γ^depth＜ε时，模拟结束最终模拟过程的输出是一个奖赏成本对[R，C]。

S7、该决策模型最终从所有模拟中挑选出满足约束条件的，同时还要使V_R(hb)最大的动作b作为实际执行的动作。

本发明中利用了UCB1动作选择以及无权重粒子过滤器，在驾驶过程中，系统根据历史h实时的进行模拟规划来调整驾驶策略，先根据当前历史的信念状态B(h)来初始化模拟规划的起始状态s，其后从s开始进行模拟，初始模拟的深度为0，随着模拟的进行，深度会逐步的增加，当满足γ^depth＜ε时，模拟规划终止，否则继续进行。如果当前历史h不在搜索树中，那么在搜索树中新增一个节点，其中包括该历史的访问次数N(h)，奖赏值V_R(h)，成本值V_c(h)以及其信念分布B(h)，初始时B(h)为空，将新节点加入之后，采用rollout策略来选择动作。如果当前历史在搜索树中，那么就使用UCB1并求解条件约束的凸优化问题来进行动作选择，将得到的动作a以及当前状态s放入黑盒模拟器，可以得到连续的下一状态s′以及观察o，然后将s′用于下一轮模拟，下一轮模拟的深度加1。最后将状态s归并到信念状态B(h)中并且使用蒙特卡罗方法更新信念状态。在驾驶过程中，用户只需要选择驾驶的模式，决策模型可以自动的选择相应的驾驶策略，不需要过多的操作，具有很好的用户体验；同时决策模型会实时的根据驾驶环境调整驾驶策略，所以具有很强的灵活性与可靠性；这个模型可以通过不断的驾驶训练来调整优化，对于新遇到的驾驶环境，只需要将其加入历史搜索树并更新历史，即可完成模型的升级，所以具有可持续使用性。

为达到上述发明目的，本发明基于约束在线规划的部分可观察自动驾驶决策模型及系统，包括：搜索单元、模拟单元、成本约束单元、驾驶环境状态。

驾驶环境状态，用于接收感知模块所获取的实时驾驶环境，并由感知模块进行过滤以及预处理，输出决策模块所需要的状态。

模拟单元，用于根据当前历史进行驾驶轨迹模拟，构建基于历史的蒙特卡罗搜索树。模拟分为两个阶段，在第一阶段中，所有的孩子都不存在子节点，此时使用UCB1算法选择动作，在第二阶段中，使用基于历史的回滚(rollout)算法选择动作。

搜索单元，用于从历史的信念状态中选取模拟单元的起始状态，然后根据模拟单元所得出的结果，从中选择最优的，同时还满足用户选择的约束条件的动作作为实际的驾驶动作，并将选择的结果输出至自动驾驶系统中的线控系统。

成本约束单元，用于约束驾驶过程中所产生的各种成本，不同的约束条件即对应着不同的驾驶模式。如，本专利所提出的油耗、时间、车辆平稳度，就对应着节能模式、快速模式、平缓模式。所述决策模型在给出最优决策的同时还需要满足用户所提出的约束条件。

所述模拟单元的输入是当前历史h、模拟的起始状态s以及当前搜索树的深度depth，以此在模拟中构建基于历史h的搜索树T(h)。所述模拟单元会根据模型的动作选择策略选取一个最优动作a，然后以(s，a)作为驾驶环境黑盒模拟器的输入，输出新的状态s′、采取动作a后的观察o、奖赏R、成本C。下一轮模拟的输入为新状态s′、新历史hao、深度depth+1。输出为本轮模拟的奖赏R、成本C。

所述搜索单元的输入是当前历史h，输出为在当前情况下能够获得最大累积奖赏并满足次要目标约束条件的最优策略π。

所述成本约束单元输入为状态s、动作a，然后由此求解关于约束条件的一个凸优化问题。

其中，模拟的起始状态是从历史h的信念状态中抽样得到，若历史h为空，则从一个初始状态分布I中进行抽样。

其中，在当前驾驶环境中执行驾驶动作a后得到一个观察o，下一时刻的历史即为hao，重复上述模拟过程。

本发明基于约束在线规划的部分可观察自动驾驶决策模型及系统的优点在于:(1)本发明公开的基于部分可观察蒙特卡罗规划的策略规划方法，适用于大规模的有条件约束的部分可观察马尔科夫过程中，能够很好的解决传统贝叶斯更新方法计算困难的问题，大大的减轻了系统对于设备的过分依赖。(2)决策模型能够做到实时规划，通过蒙特卡罗规划能够及时的调整驾驶策略，极具灵活性。(3)模型中所求解的成本约束的凸优化问题能够确保得到的策略为随机策略，可以考虑到大部分可能遇到的问题，不会忽视各种故障的发生，使得系统更加的安全可靠。(4)该决策模型不需要关于驾驶环境的显式模型，而只需要一个黑盒模拟器，增加了驾驶策略的可行性。(5)系统感知的状态具有马尔科夫性质，具有马尔科夫性质的状态的未来状态只与当前状态有关，与之前的状态没有关系，因此无需保存过去的信息，节约了成本。

本专利的创新点之一在于，传统的POMDP模型由于维度诅咒与历史诅咒导致计算量过大而无法很好的适用于自动驾驶领域，而本专利应用了POMCP方法，打破了维度诅咒，解决了计算量过大的问题。本专利的创新点之二在于，在POMCP的基础上添加了成本约束的概念，使得驾驶系统在决策时可以选择多种驾驶模式，解决了普通驾驶系统驾驶模式单一的问题，更加的灵活多变，能在很大的程度上提升用户体验。

本发明公开了一种基于约束在线规划的部分可观察自动驾驶决策模型及系统。该决策模型主要用于自动驾驶中，车辆在启动前，用户可以从快速、平缓、节能三种模式中进行选择。根据选定的模式，模型会选择相应的最优驾驶策略，如果选择了快速模式，系统会选择能够使汽车尽可能快速的到达目的地，此时主要的受限因素就是时间；如果选择了平缓模式，系统会选择使用户感觉最舒适平缓的驾驶策略，此时主要的受限因素就是车辆的颠簸程度；如果选择了节能模式，模型会选择最节省油耗的方式，尽量减少频繁的启动、熄火、刹车等操作，此时主要的受限因素就是耗油量。该决策模型不仅能够针对当前驾驶环境产生驾驶方案，还可以根据实时的路况车况来实时的调整方案，以增强其灵活性。该模型构建了一个基于历史的蒙特卡罗搜索树，使得模拟解决方案是在真实情况的基础上进行的，增强了可靠性。同时，该模型满足一定的最优选择条件，以确保得到的策略是随机策略，弥补了确定性策略的不足。该决策模型完全满足目前一般用户的驾驶需求，尤其是提供了多种模式可以选择，极大的提升了用户体验。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于约束在线规划的部分可观察自动驾驶决策方法，其特征在于，包括：

接收用户选择的驾驶模式；

将所述动作a输入到线控系统中来驾驶车辆，同时系统的感知模块获得一个新的环境状态观察o，将新的历史hao加入历史h中，所述历史hao是指在历史h下采取动作a获得观察o；

重复上述步骤直至到达目的地；

在步骤“从给定初始状态分布或者历史的信念状态中选择模拟规划的起始状态，用以构建蒙特卡罗搜索树，进行模拟规划”中，所述模拟规划包括：

使用蒙特卡罗方法更新模型中历史h的信念状态B(h)以及其它相关参数，然后返回本轮模拟规划的奖赏R以及成本C；

步骤“根据成本约束贪心动作选择策略，从所构建的蒙特卡罗搜索树中选择满足约束条件的，同时还要使V_R(ha)最大的动作a”中，所述成本约束贪心动作选择策略包括：

(1)加入了条件约束的UCB1动作选择方法：

(2)对于次要目标约束条件的凸优化：

2.根据权利要求1所述的基于约束在线规划的部分可观察自动驾驶决策方法，其特征在于，所述驾驶模式包括以下至少之一：快速模式、平缓模式、节能模式。

3.根据权利要求1所述的基于约束在线规划的部分可观察自动驾驶决策方法，其特征在于，在步骤“使用蒙特卡罗方法更新模型中历史h的信念状态B(h)以及其它相关参数，然后返回本轮模拟规划的奖赏R以及成本C”中，

在信念状态更新时，首先从初始状态分布中抽取K个粒子

每个粒子都对应着一个抽样状态，而信念状态B(h)就是所有粒子的集合；在执行过一个动作a并且获得一个观察o之后，就使用蒙特卡罗模拟来更新粒子；通过随机的选取一个粒子的方式从当前信念状态B(s，h)中抽取一个状态，这个粒子作为输入传进一个黑盒模拟器中，可以获得一个连续的状态s′，观察o以及对应的奖赏和成本，如果模拟的观察o与真实的观察相匹配，那么就将粒子s′加入信念状态B(h)中，重复上述步骤直到所有的粒子都已被加入信念状态B(h)。

4.根据权利要求1所述的基于约束在线规划的部分可观察自动驾驶决策方法，其特征在于，在步骤“将状态s以及动作a输入到环境状态黑盒模拟器中，得到下一模拟状态s′以及相应的环境状态观察o，将hao作为蒙特卡罗搜索树的新节点”中，

5.根据权利要求1所述的基于约束在线规划的部分可观察自动驾驶决策方法，其特征在于，在步骤“将状态以及动作输入到环境状态黑盒模拟器中，得到下一模拟状态以及相应的环境状态观察，将作为蒙特卡罗搜索树的新节点”中，基于历史的搜索树中每个节点都会使用蒙特卡罗(MC)模拟来估计历史的奖赏值以及成本值；模型中包含一个关于驾驶环境的黑盒模拟器，而不需要明确的关于状态的概率分布。

6.根据权利要求1所述的基于约束在线规划的部分可观察自动驾驶决策方法，其特征在于，在步骤“使用蒙特卡罗方法更新模型中历史h的信念状态B(h)以及其它相关参数，然后返回本轮模拟规划的奖赏R以及成本C”中，状态的模拟分为两层，第一层是指当处于搜索树中时，使用UCB1方法来进行动作选择，第二层是指超出搜索树范围时，使用一个基于历史的rollout策略来进行动作选择。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1到6任一项所述方法的步骤。