CN112198794A

CN112198794A - 一种基于类人驾驶规则与改进深度确定性策略梯度的无人驾驶方法

Info

Publication number: CN112198794A
Application number: CN202010986168.XA
Authority: CN
Inventors: 翟元盛; 吕迪; 赵文凯; 苏晗; 孙亚洲
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2021-01-08

Abstract

本发明公开了一种基于类人驾驶规则与改进深度确定性策略梯度的无人驾驶方法，包括：使用基于规则而非基于样本的方式进行类人驾驶行为建模，并基于添加类人行为约束的深度确定性策略梯度算法进行无人驾驶策略探索。本发明所改进的无人驾驶策略能够输出连续的类人驾驶行为，具备更优秀的控制效果，并能解决传统模仿学习依赖样本的问题。

Description

一种基于类人驾驶规则与改进深度确定性策略梯度的无人驾驶方法

技术领域

本发明涉及车辆的无人驾驶技术领域，更具体地，涉及一种基于类人驾驶规则与改进深度确定性策略梯度的无人驾驶方法。

背景技术

从上世纪70年代开始,美国、英国等国率先开展了自动驾驶汽车的研究。进入21世纪之后,随着计算能力加强、传感器精度提升、机器学习与模式识别算法的突破,自动驾驶汽车取得突破的条件逐渐成熟。2004 年,美国国防高级研究计划局(Defense AdvancedResearch Projects Agency,DARPA)开始举办一系列自动驾驶比赛,自动驾驶汽车的研究得到空前关注。2009年,Google开始其无人车研究计划,于2012年获得美国首个自动驾驶汽车路测许可证,引爆自动驾驶热潮。随后,Tesla、Uber、百度、美团、滴滴等公司相继宣布自己的自动驾驶计划；2016年至今，随着人工智能技术取得较大进展，在资本的助推下，中美两国也诞生了大量的自动驾驶初创公司；传统汽车产业的整车企业(如吉利、通用、丰田、上汽等)和Tire1(如Bosch、Aptiv等)也在加速推动自动驾驶技术的进步和产业化。

无人驾驶是未来车辆发展的必然趋势，也是人工智能所面临的诸多任务中的一个极具挑战的场景。理想无人驾驶策略的输出应该由一系列符合类人逻辑的连续有序行为组成。然而，现有的无人驾驶策略过于依赖感知- 控制映射过程的“正确性”，在一定程度上忽视了人类驾驶汽车时所普遍遵循的驾驶逻辑，这一问题使得无人驾驶策略会输出大量非类人化的危险行为，可能会导致灾难性的后果。

针对“无人驾驶策略缺乏类人逻辑”的问题，当前技术的解决方案有：

1、放弃基于强化学习的端到端方式，使用人为建立的基于规则的控制方式进行控制。

例如，将车辆行为进行细分，建立具有13个状态的有限状态机组成决策系统，其状态分别为：初始状态、前向驾驶、车道跟随、避障、停止标志前等待、路口处理、等待路口空闲、U-Turn、车辆在U-Turn前停止、越过黄线行驶、在停车区域内行驶、通过交通阻塞路段、在不匹配RNDF路网文件的情况下在路上行驶、任务结束。这种方式更侧重于实现功能，而不是实现高驾驶性能，而由于无人驾驶汽车数据来源的不确定性与先验环境建模的局限性，使得这种依赖精准的环境判断的方案无法拥有足以应对真实路面环境的决策鲁棒性与泛化性。

2、模仿学习，模仿学习是目前针对“无人驾驶策略缺乏类人逻辑”这一问题使用最普遍的解决方案，其属于基于数据/学习的建模方法，其基本思路是通过收集大量人类专家的样本来逼近某一场景下的最优解，然后以此为基准训练智能体的控制策略，使策略具备类人逻辑。但是其仍存在如下问题：

数据难收集、难筛选，且很难收集到多到足够消除误差的数据量：

以人类动作为基准的训练会限制网络对环境与策略的自由探索，易导致局部极值；

复合误差(compounding errors)的存在，会使得训练好的策略模型执行的轨迹和训练轨迹的误差会随时间的增加而越变越大。

只是根据人类提供的状态动作对进行的行为克隆(Behavior Cloning) 来习得驾驶策略，仍未关注类人驾驶行为所形成的动作序列中的内在逻辑。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种基于类人驾驶规则与改进深度确定性策略梯度的无人驾驶方法，能够输出连续的类人驾驶行为，具备更优秀的控制效果，并能解决传统模仿学习依赖样本的问题。

与现有技术相比，本发明的优点在于，使用基于规则而非基于样本的方式进行类人驾驶行为建模，解决了传统模仿学习中对类人驾驶行文的建模依赖样本的问题；基于添加类人行为约束的深度确定性策略梯度算法进行无人驾驶策略探索，使无人驾驶策略能够输出连续的类人驾驶行为，而并非仅改善在某些决策时间上输出的离散概率；在确保策略输出类人行为与不依赖样本的基础上，保留了端到端控制方式的鲁棒性。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是本发明提出的基于类人驾驶规则与改进深度确定性策略梯度的无人驾驶方法的运行流程示意图；

图2是现有技术中“感知-控制”映射过程的示意图；

图3是根据本发明一个实施例的“感知+类人逻辑－控制”的过程示意图；

图4是根据本发明一个实施例的进行巡航任务的效果对比图；

图5是根据本发明一个实施例的训练中收敛情况对比图；

图6是根据本发明一个实施例的控制效果对比图；

附图中，imitation learning-模仿学习算法；Comparative Result- 比较结果；steer variance-转向方差；steer stdev-转向标准差；Step- 步长；Step Reward-步骤奖励，对应episode Reward-剧情奖励；Reward- 奖励；primeval-原始；Improve-改进；Carla-Carla仿真工具。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

一种基于类人驾驶规则与改进深度确定性策略梯度的无人驾驶方法，整体上包括信息输入、类人建模、策略更新、控制输出等功能。

类人建模是指使用基于先验知识，包括模型、数据、规则、学习等方式，将人类驾驶行为抽象为智能体的学习经验的方法。例如，类人建模包括的关键步骤有：

S1，基于先验知识，建立不同场景下融合类人逻辑的驾驶规则集 {τ₁,τ₂,…,τ_m}，

S2，约束先验建立的类人驾驶规则关注智能体动作序列本身的合理性：

其中，＜s₁,s₂,…s_n＞表示驾驶过程中智能体状态(State)的集合，＜a₁,a₂,…a_n＞表示驾驶过程中智能体动作(Action)的集合，{τ₁,τ₂,…,τ_m}代表不同场景下融合类人逻辑的驾驶规则，{λ₁,λ₂,…,λ_n}为连续动作序列 A＝＜a₀,a₁,…,a_n＞中时序动作上的前后关联。

S3，将模仿学习方式将抽取出的「状态-动作对」的集合形式改进为：

其中，D表示抽取出的「状态-动作对」的集合。

策略更新是指基于添加类人行为约束的深度确定性策略梯度算法进行无人驾驶策略探索的过程，策略更新包括的关键步骤有：

S1，定义添加类人行为约束后的动作价值函数为：

其中，η表示折扣系数，取值范围为[0,1]，π为策略，λ_t为约束规则， s_t表示当前时刻状态。

S2，定义状态-动作对的价值函数：

其中，a_t表示当前时刻动作。

S3，改进智能体的动作选取方式为：

N_t表示OU噪声。

S4，改进算法的动作网络更新方式为：

其中，θ^Q为评价网络(critic network)的权值，θ^μ为动作网络(Actor network)的权值，{λ₁,λ₂,…,λ_n}为连续动作序列A＝＜a₀,a₁,…,a_n＞中时序动作上的前后关联，

是当前的无人驾驶策略梯度，

是在添加类人行为约束后，评价网络的Q值对于当前动作a的梯度。

S5，改进算法的评价网络更新方式为：

其中，y_i＝r_i+ηQ'(s_i+1,μ'(s_i+1；θ^μ')；θ^Q').

算法的整体实现流程为：

为了进一步理解本发明，以下具体说明现有技术中存在的问题以及本发明针对这些技术问题所作的改进。

对于端到端控制领域无人驾驶策略缺乏类人逻辑与社会智能这一问题的探索中，目前使用最普遍的方式是模仿学习，模仿学习属于基于数据/ 学习的建模方法，其基本思路是通过收集大量人类专家的样本来逼近某一场景下的最优解，然后以此为基准训练智能体的控制策略。其实现步骤为：

1、提供人类专家的决策数据(专家轨迹){γ₁,γ₂,…,γ_m}，每个决策包含状态和动作序列

2、将所有「状态-动作对」抽取出来构造新的集合

3、以理想轨迹

拟合出的理想集合

为基准，训练策略π_θ(a_t|s_t)。

这种方式虽然关注了驾驶策略的类人逻辑，但是存在如下问题：

1、数据难收集、难筛选，且很难收集到多到足够消除误差的数据量：

用γ_i(i＝1,2,…,N)来简单表示专家轨迹，用

和γ^*来分别表示实际轨迹和期望中的理想轨迹，已知存在

实际轨迹

由对采集的专家轨迹统计得出：

其中，Avg[·]表示平均，也表示统计意义上的期望，是一种典型的对专家轨迹数据的处理方式。此时，实际策略和期望策略的误差

存在：

Avg[(γ_i-γ^*)²]∝1/N&Avg[(γ_i-γ^*)²]＞0；

2、以人类动作为基准的训练会限制网络对环境与策略的自由探索，易导致局部极值；

3、复合误差(compounding errors)的存在，会使得训练好的策略模型执行的轨迹和训练轨迹的误差会随时间的增加而越变越大： E[errors]≤ε(T+(T-1)+(T-2)+...+1)∝εT²，ε代表在t时刻存在误差的概率。

4、只是根据人类提供的状态动作对进行的行为克隆(Behavior Cloning)来习得驾驶策略，仍未关注类人驾驶行为所形成的动作序列中的内在逻辑。

综上，目前应用于端到端控制领域的对类人驾驶行为的建模方式仍未关注类人驾驶行为所形成的动作序列中的内在逻辑，且要求样本量大，数据采集工作量大，难以获得理想的实际策略，且易造成策略陷入过拟合或局部极值。本研究的目的是，提出一种基于规则的类人驾驶行为建模方式，在不依赖样本集的基础上，实现类人驾驶。

为进一步验证本发明的效果，借助Carla仿真环境，在一条长约110 米的直道上分别进行了无人车的直线巡航实验与碰撞实验。

对于直线巡航实验，在无障碍的直线场景下的巡航任务是最能体现无人驾驶策略是否拥有类人逻辑的验证场景。本发明统计了直线巡航任务中改进前后两种算法控制过程中横向控制量的方差与标准差，并对比了两种算法完成任务所需的控制步数，如图4所示。由图4中的统计结果可以看出，本发明改进后的算法比原始算法展示出了更平顺的控制过程和更高的任务执行效率，这充分验证了本发明的改进对于策略输出的改进效果。

图5示出了本发明提出的算法在训练中的收敛情况，并和原始模仿学习算法的收敛情况进行了对比，其中图5(a)是原始算法在训练中的收敛情况，图5(b)是本发明改进后的算法在训练中的收敛情况。由图5可以看出，相比于改进前的原始算法，本发明改进后的算法明显展现出了更稳定的收敛过程，并在算法收敛后具有更稳定的策略表现。

为对本发明改进后算法的控制效果进行更精确的量化展示，分别使用原始算法和本发明改进后的算法进行了无人车巡航实验。本发明对两种算法的实验结果进行了统计，实验结果如图6所示。由图6可以看出，相比于原始模仿学习算法，本发明改进后的算法任务成功率提高了19％，任务执行效率提高了15.45％，并产生了更少的碰撞事故。

综上，本发明通过添加类人驾驶规则约束实现了更优秀的控制性能，并且改进的奖励塑造方式对稀疏的灾难性事件的建模更符合控制策略对目标函数的优化期望，比改进前提高了85.57％。本发明所提出的无人驾驶策略，相比传统算法，训练效率提高了21％，任务成功率提高了19％，任务执行效率提高了15.45％，并显著减少了碰撞事故。

综上所述，本发明所改进的无人驾驶策略能够输出连续的类人驾驶行为，具备更优秀的控制效果，并能解决传统模仿学习依赖样本的问题。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/ 或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构 (ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种基于类人驾驶规则与改进深度确定性策略梯度的无人驾驶方法，包括以下步骤：

使用基于规则而非基于样本的方式进行类人驾驶行为建模；

基于添加类人行为约束的深度确定性策略梯度算法进行无人驾驶策略探索。

2.根据权利要求1所述的方法，其中，在所述无人驾驶方法中，对类人驾驶行为的建模方式为：

其中，＜s₁,s₂,…s_n＞表示驾驶过程中智能体状态(State)的集合，＜a₁,a₂,…a_n＞表示驾驶过程中智能体动作(Action)的集合，{τ₁,τ₂,…,τ_m}代表不同场景下融合类人逻辑的驾驶规则，{λ₁,λ₂,…,λ_n}为连续动作序列A＝＜a₀,a₁,…,a_n＞中时序动作上的前后关联。

相应的，本发明改进的模仿学习方式将抽取出的「状态-动作对」的集合形式改进为：

其中，D表示抽取出的「状态-动作对」的集合。

3.根据权利要求1所述的方法，其中，在所述无人驾驶方法中，基于添加类人行为约束的深度确定性策略梯度算法的策略更新方式为:

是当前的无人驾驶策略梯度，

4.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1所述方法的步骤。

5.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1所述的方法的步骤。