CN111679660A

CN111679660A - 一种融合类人驾驶行为的无人驾驶深度强化学习方法

Info

Publication number: CN111679660A
Application number: CN202010548665.1A
Authority: CN
Inventors: 徐坤; 吕迪; 李慧云
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2020-09-18
Anticipated expiration: 2040-06-16
Also published as: CN111679660B

Abstract

本发明公开了一种融合类人驾驶行为的无人驾驶深度强化学习方法，包括：通过先验知识建立类人驾驶规则，所述类人驾驶规则用于反映人类的驾驶逻辑；将对车辆的驾驶作为连续且有状态的过程，基于所述类人驾驶规则约束，通过对无人驾驶策略进行后验约束，将约束结果塑造为奖惩函数，利用深度强化学习探索满足设定标准的无人驾驶策略。本发明能够输出具备类人逻辑的无人驾驶策略，具备更优秀的控制性能和训练效率。

Description

一种融合类人驾驶行为的无人驾驶深度强化学习方法

技术领域

本发明涉及车辆的无人驾驶技术领域，更具体地，涉及一种融合类人驾驶行为的无人驾驶深度强化学习方法。

背景技术

无人驾驶是未来车辆发展的必然趋势，是避免人为驾驶失误和提高交通效率的有效途径。现有通信、电子与计算机技术的日新月异为无人驾驶技术的开发奠定了坚实的基础。美国电气和电子工程师协会(IEEE)预测，至2040年，75％的车辆将是无人驾驶汽车。无人驾驶车辆的市场增速将是其他车辆的10倍，并且无人驾驶车辆的出现会将交通事故率降至10％。

在人工智能所面临的诸多任务中，无人驾驶是一个极具挑战的场景，必须能应对车辆与环境的动态交互特性，面临车-路(环境)交互频繁、场景复杂多变、实时性要求高、容错率低等重大挑战。近年来，深度强化学习将具有感知抽象特征能力的深度学习与能实现自适应决策的强化学习相结合，实现从感知输入到控制输出的端到端功能。目前，深度强化学习方法(Deep Reinforcement Learning，DRL)，包括DQN、DDPG、RDPG等方法，也已经逐渐应用到无人驾驶车辆的决策控制任务，一些仿真和实验结果都验证了该研究思路在实现无人驾驶复杂决策控制方面的潜力。

理想无人驾驶策略的输出应该由一系列符合类人逻辑的连续有序行为组成。然而，现有的无人驾驶策略过于依赖感知-控制映射过程的“正确性”，在一定程度上忽视了人类驾驶汽车时所普遍遵循的驾驶逻辑，即无人驾驶策略缺乏“类人(human-l ike)逻辑”，这一缺陷可能会导致灾难性的后果。

在现有的无人驾驶控制算法中，输出策略不符合类人逻辑的情况普遍存在。造成该问题的原因是：当前的无人驾驶策略遵循感知-控制的逻辑映射过程，但人类驾驶行为是长期驾驶经验和实践获得的知识法则，其不存在于无人驾驶系统此刻或任何之前时刻的环境观测中，也无法通过车辆对自身驾驶行为的观测统计得出。但是保证无人驾驶策略输出遵循基本的类人逻辑又是十分重要的，因为不符合类人逻辑的驾驶行为通常会导致车辆陷入非常危险的境地，如刹车油门连续交替，方向盘的连续反向变向等，在某些环境下，这些行为仍然能够达成策略网络所规定的驾驶任务，但会极大的影响行车安全性与舒适性，使无人汽车的驾驶行为像是“醉驾”。

车辆在现实的道路条件中的驾驶行为是一个连续的过程，所以无人驾驶策略的类人逻辑输出的应该是贯穿整个驾驶任务的连续规则，而并非只是在需要做出某些重大判断时的离散概率。无人驾驶策略系统所作出的每一个决策都决定着任务的成败，驾驶策略输出的每一个危险行为都有可能导致难以承受的后果。在保证驾驶任务顺利完成的过程中，正确驾驶决策与连续的、类人化的控制规则都是至关重要的。

针对“无人驾驶策略缺乏类人逻辑”的问题，现有技术主要存在以下方案：

第一、将传统的端到端控制中的“决策”与“控制”两项任务分开处理，使用基于类人逻辑建立的决策规则对策略进行先验优化，以对无人驾驶策略在某些重要时刻的逻辑判断进行改进，使无人驾驶汽车在一些复杂的情况下，具备类人决策和判断能力。

例如，引入条件反射概念，将“决策—驾驶”任务分开处理，以人类驾驶经验对无人驾驶的决策输出进行先验优化。这种方式所改进的仍然是无人车对关键驾驶行为的决策规划问题，其输出的依旧是对驾驶过程中某些重大决策事件做出的离散概率，并未能在整个无人驾驶任务中形成连续的合理动作序列。

又如，针对现行无人驾驶决策算法中决策思维与人类思维不符合(AI决策思维非类人化)的问题，提出了类人驾驶系统，通过先验建立的车辆决策规则使无人驾驶汽车的决策思维更贴合人类思维。这种方式虽然通过建立类人化的先验数据集与仿真环境，在训练过程中对算法的策略逻辑进行了前验约束，但种方案主要指的是在变道、超车等行为发生时，智能车所做出的决策判断，其输出的仍然是离散的选取动作概率值。这种方式，只关注了决策控制的正确性，而忽视了无人驾驶行为的类人特性。

第二、放弃基于强化学习的端到端方式，使用人为建立的基于规则的控制方式进行控制。

例如，将车辆行为进行细分，建立具有13个状态的有限状态机组成决策系统，其状态分别为：初始状态、前向驾驶、车道跟随、避障、停止标志前等待、路口处理、等待路口空闲、U-Turn、车辆在U-Turn前停止、越过黄线行驶、在停车区域内行驶、通过交通阻塞路段、在不匹配RNDF路网文件的情况下在路上行驶、任务结束。这种方式更侧重于实现功能，而不是实现高驾驶性能，而由于无人驾驶汽车数据来源的不确定性，使得这种依赖精准的环境判断的方案无法拥有足以应对真实路面环境的决策鲁棒性。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种融合类人驾驶行为的无人驾驶深度强化学习方法，能够输出具备类人逻辑的无人驾驶策略，具备更优秀的控制性能和训练效率。

本发明提供一种融合类人驾驶行为的无人驾驶深度强化学习方法。该方法包括以下步骤：

通过先验知识建立类人驾驶规则，所述类人驾驶规则用于反映人类的驾驶逻辑；

将对车辆的驾驶作为连续且有状态的过程，基于所述类人驾驶规则约束，通过对无人驾驶策略进行后验约束，将约束结果塑造为奖惩函数，利用深度强化学习探索满足设定标准的无人驾驶策略。

在一个实施例中，在所述深度强化学习中，无人驾驶策略的更新方式为：

其中，h_a＝[a₁,a₂,……,a_t]是历史时序上的连续行为数据集，

是当前的无人驾驶策略梯度，

是考虑在时序上的连续动作逻辑性后，评价网络的Q值对于当前动作a的梯度。

在一个实施例中，使用驾驶逻辑惩罚有安全隐患的危险驾驶行为，将灾难事件的概率构造成连续的奖惩函数，以对输出的无人驾驶策略进行连续反馈。

在一个实施例中，在所述深度强化学习中，将奖励函数设置为:

Reward＝r_environment+r_self

其中，r_environment是环境反馈评价，r_self是智能体自身动作评价反馈，包括全局动作状态空间合理性评价与瞬时动作状态空间合理性评价。

在一个实施例中，在所述深度强化学习中，基于车辆的横向和纵向控制量，构建即时的奖励约束，表示为：

其中，u₁、u₂、c₁、c₂为预选的比例常数，ζ2＝[va，α]来源于智能体历史时序上的连续行为数据集：h_a＝[a₁,a₂,……,a_t]，其中，va为智能体当前时刻的纵向控制量变化值，α为智能体当前时刻的横向控制量变化值。

在一个实施例中，根据以下步骤构建环境反馈评价：

构造环境反馈评价：r_obstacles∈r_environment，其中，r_environment为环境反馈评价，r_obstacles是对当前时刻的碰撞风险进行的实时建模；

确定当前状态s_t下车辆与周边障碍物的最小距离d_min，记录当前时刻动作a_t；

基于任务场景预设存在碰撞风险的临界阈值d_threshold；

根据公式

计算r_obstacles值，其中，μ、c为预选的比例常数。

在一个实施例中，在所述深度强化学习中，构建有条件触发的奖励约束r_reverse＝κ，更新当前时刻的纵向和横向控制量的反向加速度奖励约束为：

κ为反向约束常数，u₁、u₂、c₁、c₂为预选的比例常数，va为智能体当前时刻的纵向控制量变化值，α为智能体当前时刻的横向控制量变化值。

在一个实施例中，在深度强化学习中，构造的环境反馈评价r_environment＝r_trance+r_step+r_obstacles，r_trance是智能体对任务目标的密集奖励，添加r_step＝-|λ|的时序惩罚，r_obstacles是对当前时刻的碰撞风险进行的实时建模。

与现有技术相比，本发明的优点在于，改进了无人驾驶行为的类人特性，使无人驾驶策略输出具备类人逻辑的连续行为，而并非仅改善在某些决策时间上输出的离散概率；在确保输出具备类人逻辑的无人驾驶策略的基础上，保留了端到端控制方式的鲁棒性。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是现有技术中“感知-控制”映射过程的示意图；

图2是现有技术中输出的无人驾驶策略的示意图；

图3是根据本发明一个实施例的“感知+类人逻辑－控制”的过程示意图；

图4是根据本发明一个实施例的车身坐标系的示意图；

图5是根据本发明一个实施例的端到端控制方法的示意图；

图6是根据本发明一个实施例的智能体与环境的交互模式的示意图；

图7是根据本发明一个实施例的对驾驶行为的评价方法的示意图；

图8是根据本发明一个实施例的用于执行巡航任务的直线场景的示意图；

图9是根据本发明一个实施例的进行巡航任务的效果对比图；

图10是根据本发明一个实施例的在开放场景下进行移动机器人避障导航任务的控制效果对比图；

图11是根据本发明一个实施例的无人车碰撞实验示意图；

图12是根据本发明一个实施例的不同碰撞过程的奖励塑造下环境给予智能体的反馈示意图；

图13是根据本发明一个实施例的奖励塑造方式的拟合结果示意图；

图14是根据本发明一个实施例的奖励塑造方式对目标函数优化期望的近似程度示意图；

图15是根据本发明一个实施例的训练中收敛情况对比图；

图16是根据本发明一个实施例的控制效果对比图；

附图中，primeval track-原始轨迹；Improve track-改进后轨迹；primevaltrack-steer-原始轨迹转向；Improve track-steer-改进后轨迹转向；primeval step-steer-原始的时序上的转向；Improve step-steer-改进后时序上的转向；ComparativeResult-比较结果；steer variance-转向方差；steer stdev-转向标准差；Step-步长；StepReward-步骤奖励；episode Reward-剧情奖励；Reward fitting–奖励拟合；Reward-奖励；fit-拟合；primeval-原始；Improve-改进；Reward Similarity-奖励的近似程度；Carla-Carla仿真工具。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明提出一种融合类人驾驶行为的无人驾驶深度强化学习方法(或简称HumanLike-DDPG，HL-DDPG或Huli-DDPG)，整体上包括信息输入、逻辑约束、策略更新、控制输出、后验反馈、灾难建模等功能。

逻辑约束是指基于类人驾驶规则约束无人驾驶策略的规范动作空间。例如，逻辑约束包括的关键步骤有：

S1，基于先验类人驾驶经验建立类人驾驶规则；

S2，定义包含智能体历史时序上的连续行为数据集h_a＝[a₁,a₂,……,a_t]；

S3，基于先验建立的类人驾驶规则，约束无人驾驶策略的规范动作空间a∈Std_a＝[a₁,a₂,……,a_n]，定义符合规范动作的智能体连续动作序列为类人逻辑区间；

S4，约束智能体对策略的随机探索过程至类人逻辑区间内；

S5，拓展学习网络的策略更新方式为：

其中，h_a＝[a₁,a₂,……,a_t]为包含智能体历史时序上的连续行为数据集，

为当前策略梯度，

为考虑智能体在时序上的连续动作逻辑性后，评价网络的Q值对于当前动作a的梯度。

后验反馈是指对每一对状态和动作，会有一个Reward(奖励或称回报)表示从经验中学习到的知识，后验反馈包括的关键步骤有：

S1，拓展奖励r设置为Reward＝r_environment+r_self

其中，r_environment为环境反馈评价，除此之外，本发明还添加了r_self为智能体自身动作评价反馈，r_self分全局动作状态空间合理性评价

与原始DDPG算法中的瞬时动作状态空间合理性评价Q_μ(s,a)；

灾难建模包括的关键步骤有：

S1，构造环境反馈评价：r_obstacles∈r_environment，其中，为环r_environment境反馈评价，r_obstacles对当前时刻的碰撞风险进行的实时建模；

S2，观测当前环境信息s_t，确定为当前状态s_t下无人车与周边障碍物的最小距离d_min，记录智能体当前时刻动作a_t；

S3，基于任务场景，预设存在碰撞风险的临界阈值d_threshold，d_threshold(s_t)＝Es_t+1～E[r(s_t,a_t)]；

S4，由公式

求解r_obstacles值，并以即时奖惩的形式对策略网络进行回馈。其中，μ、c为根据任务场景预选的比例常数。

算法的整体实现流程为：

在本发明实施例中，奖励r设置为Reward＝r_environment+r_self，其中，r_environment为环境反馈评价，r_self为智能体自身动作评价。r_environment中，包含对当前时刻的碰撞风险进行的实时建模r_obstacles。

为了进一步理解本发明，以下具体说明现有技术中存在的问题以及本发明针对这些技术问题所作的改进。

在现有技术中，无人驾驶策略所依赖的感知-控制映射过程，具有模糊性，导致了无人驾驶策略缺乏类人逻辑。

具体地，强化学习(RL)本质上是一个序贯决策问题，智能体(agent)如何根据当前可观测到的状态(state)选择一个动作或行为(action)，来使获得的累积回报(reward)最大，将状态映射为动作的函数即为策略(π)。

参见图1所示，目前主流的端到端控制算法是感知-控制的逻辑映射过程，控制器接收来自环境的观测值o_t和命令c_t，并接收环境对当前动作的反馈信息进入下一步，即控制策略的输出取决于智能体在此刻对于环境的观测。

这一状态可描述为典型的马尔可夫决策过程(Markov Decision Process，MDP)：

马尔可夫决策过程(MDP)常用元组(S，A，P，R，γ)进行描述，其中S为有限状态集,s_i表示第i步的状态，A为有限动作集；a_i表示第i步的动作；P为状态转移概率；R为奖励函数；γ是计算累积回报时的折扣因子。

然而，马尔可夫决策过程(MDP)的应用场景必须是完全可观测的，且满足关系：

而当环境状态集S无法被完全观测，即智能体无法直接得到s_t，而得到的是一个具有分布的条件观察概率P(o_t|s_t)，显然，此时：

p(o_t+1|a_t,o_t,a_t-1,o_t-1,...,o₀)≠p(o_t+1|o_t,a_t) (3)

公式(3)不再满足马尔可夫性。由于对环境S的不完全观测导致下一时刻转换到状态s'的环境概率为P(s'|s,a)，智能体接收到的观察量为o∈Ω，其取决于环境的新状态，概率为O(o|s',a)。此时，需要完全可观测的应用场景的马尔可夫决策过程(MDP)就变成了部分可观察马尔可夫决策过程(POMDP)，其表示形式拓展为元组(S，A，P，R，Ω，O，γ)，其中，Ω表示一组观察，O表示一组条件观察概率。

在现实道路环境下，图1的感知-控制的逻辑映射过程往往会具有模糊性。所谓端到端的驾驶任务感知-控制映射过程中的模糊性，可描述为：完成驾驶任务的所需的正确决策，往往无法仅凭感知输入来单独推断。例如，当汽车接近十字路口时，仅凭汽车传感器的输入并不足以预测汽车应该向左、向右转还是直行。又如，在多车行驶的道路系统中，单一车辆无法仅凭自己的传感器数据去判断其它车辆何时会进行超车、变道或其它突发行为。从数学上讲，在这种情况下，从信息输入到控制命令输出的映射不再是一个明确的映射函数，因此，算法策略梯度的拟合函数逼近必然会遇到困难。即使现有算法的训练网络可以解决一些有利于行动的模糊性，但是无法推断出最优解，因为训练者无法直接控制网络决策行为判断的方式。同样的，这种感知-控制映射过程中的模糊性，同样会造成控制网络输出不符合类人逻辑的危险动作，参见图2所示，其中图2(a)是移动机器人导航场景下DDPG算法的驾驶策略，图2(b)是无人机导航下RDPG算法的驾驶策略。可见，在这种场景下，应用马尔可夫决策过程(MDP)的前提条件不再成立。

然而，感知-控制映射过程中的模糊性也无法通过拓展端到端控制算法至时序问题上的方式完全解决。例如，现有技术的RDPG算法，利用经过时间反向传播训练的递归神经网络来求解部分观测域，使得端到端深度强化学习控制算法可以在真实环境状态的不确定性下通过时序记忆做出决策，这一问题可描述为部分可观察马尔可夫决策过程(PartiallyObservable Markov Decision Process，POMDP)，其表示形式拓展为元组(S，A，P，R，Ω，O，γ)，其中，Ω表示一组观察，O表示一组条件观察概率。

部分可观察马尔可夫决策过程(POMDP)中，在智能体必须在真实环境状态的不确定性下做出决策。在这种情况下，智能体可通过记录历史状态来更新当前状态的概率分布，以改善对当前状态s_t的估计准确度。但驾驶行为中的类人逻辑是人类社会经过长期驾驶实践得来的经验法则，其不存在于无人驾驶系统当前时刻或任何之前时刻的观测中，也无法通过车辆对自身驾驶行为的观测统计得出。因此，通过记录历史状态也无法真正解决感知-控制映射过程中的模糊性问题。

在本发明实施例中，通过基于类人逻辑建立的类人逻辑约束，解决驾驶行为中的类人逻辑无法被观测得知的问题，将无人驾驶策略所依赖的感知-控制映射过程拓展为“感知+类人逻辑－控制”的映射。参见图3所示，控制器接收来自环境的观测值o_t和命令c_t，同时接受自身在之前时序上已产生的行为状态a_t-，在考虑类人逻辑(即驾驶规程)后，输出符合类人逻辑的有序行为，并接收环境对当前动作的反馈信息进入下一步。

需要注意的是，在现有的强化学习算法中，智能体策略的更新完全依赖于环境所给予的奖励回馈：π(a|s)＝argmaxE[R]，策略梯度是得分函数和价值函数乘积的期望：

式中，

为策略梯度，其中J(θ)为策略目标函数，

为得分函数(score function)，

为价值函数(value function)

此外，在本发明所使用的DDPG算法中，确定性策略也包含两部分，Critic估计行为价值函数，Actor估计行为价值函数的梯度。Actor根据策略梯度调整μ_θ(s)的参数θ，并且用Q^ω(s,a)≈εQ^π(s,a)来逼近真实值。对无人车碰撞事故所构建的稀疏的、严重离群的灾难性惩罚，除了易导致策略的过拟合问题外，对策略梯度的下降也会造成严重的不良影响。对此，本发明实施例将驾驶过程中出现的稀疏的、灾难性的离散事件视为一个有状态的连续过程，并建立了在时序上连续的奖惩机制，避免其产生的策略出现过拟合问题，并加速了训练策略向目标函数的收敛。对环境奖励的塑造，可以使用二次函数逼近器对奖励塑造方式进行拟合，记为Q^ω(s,a)＝εQ^π(s,a)，ε为episode_reward拟合的保真度，偏离值可表述为|1-ε|。

其中，Q^π(s,a)为塑造的奖励，Q^Fit.ω(s,a)为拟合后的奖励，d为时序上分布的实验过程。

具体地，在一个实施例中，本发明提供的融合类人驾驶行为的无人驾驶深度强化学习方法包括如下步骤：

步骤S110，建立无人车运动模型与控制模型。

例如，使用6个独立坐标的大地坐标系描述无人车的绝对位姿φ＝[x，y，z，vx，vy，vz]，使用车身坐标系描述无人车自身的线速度与角速度μ＝[a，b，c，va，vb，vc]，如图4所示。

本发明假设了无人车在平直路面上的形式工况，无人车在行驶时的活动区域仅限于x-y平面，不会产生纵向偏移。因此可将无人车状态简化为ζ1＝[x，y，v，ω]。x，y是无人车在x-y平面内的位置坐标，v是当前时刻无人车的速度，ω是当前时刻无人车的横摆角速度。

步骤S210，搭建训练网络。

本发明搭建了如图5所示的端到端控制网络，其是基于分支结构的训练策略，在分支结构中，感知图像、自身状态、训练任务三个输入由三个模块独立处理，即图像感知模块I(i)、状态模块M(m)和任务模块T(t)。图像感知模块由卷积网络实现(包括多个卷积层和全连接层)，状态模块和任务模块为全连接网络，所有模块的输出联合表示为:

j＝J(i,m,t)＝<I(i),M(m),T(t)> (7)

本发明所构建的所有控制器共享的感知流都来源于RGB图像，m为汽车的当前状态量，i为输入的图像数据，t为当前的驾驶任务。所有网络都由具有相同架构的模块组成,不同之处在于模块和分支的配置。如图5所示,图像感知模块由8个卷积层和2个全连接层组成。例如，第一层卷积核尺寸为5，第二层卷积核尺寸为3，第1、3、5个卷积层的步长为2。通道的数量从首层32个递增至末层256个，在卷积层之后进行归一化处理。全连接层各包含512个单元。除图像感知模块外，状态模块和任务模块都实现为标准的多层感知器。本发明实施例使用对所有隐藏层进行ReLU非线性处理，在全连接层后设置dropout为50％，在卷积层后设置dropout为20％。需说明的是，也可采用其他的网络架构，本发明对网络的层数、卷积核尺寸、通道数等不进行限制。

在一个实施例中，无人车辆输出的动作是一组二维矢量：[speed,steering]，分别表示速度和转向。给定一个预测动作a和一个真实动作a_gt，每个样本的损失函数定义为：

步骤S130，基于先验建立的类人驾驶规则，向无人驾驶策略添加类人的逻辑约束。

在本发明实施例中，向端到端无人驾驶控制算法中引入了基于类人逻辑的规则约束，拓展无人驾驶策略所依赖“感知-控制”映射过程为“感知+X－控制”映射。

为确保无人车的驾驶行为是一个连续有逻辑的过程，本发明向无人驾驶策略添加了类人的类人逻辑约束，基于先验建立的类人驾驶规则。除原有的环境-控制映射机制外，本发明将智能体在时序上输出的连续动作行为的逻辑性也纳入控制输出的考量范围。通过先验知识对策略网络建立基于类人逻辑的规则约束，以智能体自身已产生的行为状态为基准，对输出的无人驾驶策略进行后验约束，并将约束结果塑造为奖惩函数反馈给训练网络，以对网络的策略输出进行改善，如图6所示的智能体与环境交互模式示意，其中图6(a)是原始算法智能体与环境交互示意图，图6(b)是本发明实施例的过程，其将无人车的驾驶行为视为一个连续的、有状态的过程，使用符合类人逻辑的规则对策略输出进行约束，并引构造了新的奖惩机制。

本发明实施例的具体实现是：基于先验建立的类人逻辑，约束无人驾驶策略的规范动作空间Std_a＝[a₁,.....,a_n]，定义包含智能体历史时序上的连续行为数据集h_t＝[a₁,.....,a_t]，拓展其策略更新方式为：

为当前策略梯度，

在奖惩反馈方面，塑造设置奖惩评价机制为Reward＝r_environment+r_self。其中，r_environment为环境反馈评价，除此之外，还添加了r_self为智能体自身动作评价反馈，r_self包括全局动作状态空间合理性评价r_long与瞬时动作状态空间合理性评价r_instant。

针对现有基于典型DDPG算法的自动驾驶策略的进行策略更新时不考虑无人车类人逻辑与自身连续动作合理性的问题，本发明实施例构建了对智能体自身动作合理性的评价标准，设定r_self＝r_long+r_instant:

考虑无人驾驶策略的类人逻辑，急转工况会加大无人车辆的事故风险，策略网络的动作输出应重点考虑控制量在连续动作空间中的合理性，平顺的控制量输出可以避免无人车新行驶状态的突变。本发明实施例使用ζ2＝[va，α]评估控制策略输出平顺度。对无人车横向或纵向控制量，构建即时的奖励约束：

其中，u₁、u₂、c₁、c₂为根据任务场景预选的比例常数，ζ2＝[va，α]来源于智能体历史时序上的连续行为数据集：h_a＝[a₁,a₂,……,a_t]，其中，va为智能体当前时刻的纵向控制量变化值，α为智能体当前时刻的横向控制量变化值。

对智能车横向控制量与纵向控制量的连续行为合理性的约束组合，构成对智能体全局动作状态空间合理性评价标准：r_instant＝r_linear+r_angle。

由于汽车行驶操稳性约束，急转工况中，“S”型转向会带更大的来汽车失稳风险，在汽车行驶过程中，纵向控制量的紧急制动加速状态转换也会带来事故风险，因此，构建有条件触发的奖励约束：r_reverse＝κ，并更新当前时刻的纵向或横向控制量的反向加速度奖励约束为：

κ为反向约束常数，r_reverse与r_{linear_reverse}、r_{angle_reverse}的约束组合，构成对智能体瞬时动作的评价标准。

步骤S140,将驾驶过程中出现的稀疏的、灾难性的离散事件视为一个有状态的连续过程，并建立了在时序上连续的奖惩机制。

参见图7所示，其中图7(a)是以对环境反馈的结果为基准，对智能体的行为构造一些大的、稀疏的奖惩条件；图7(b)是将无人车的驾驶行为视为一个连续的、有状态的过程，使用驾驶规程去惩罚有安全隐患的危险行为，将灾难事件的概率构造成连续的奖惩函数，在碰撞风险产生之初就对策略输出进行连续反馈。

构造的环境反馈评价表示为：r_environment＝r_trance+r_step+r_obstacles，其中，r_trance是一个智能体对任务目标的密集奖励，描述为r_trance＝σd_dist，以促使随机产生的策略不断向任务目标逼近，或是保持稳定的任务执行状态；为促使智能体达成最优的执行效率，对其添加r_step＝-|λ|的时序惩罚，λ为预设常数。

r_obstacles是借助当前时刻环境信息s_t，对当前时刻的碰撞风险进行的实时建模，并以即时奖惩的形式对策略网络进行回馈，其数学描述为：

其中，μ、c为根据任务场景预选的比例常数，d_threshold是存在碰撞风险的临界阈值，也是连续的碰撞风险反馈r_obstacles向策略网络进行反馈的生效阈值，d_threshold(s_t)＝Es_t+1～E[r(s_t,a_t)]，d_min为当前状态s_t下无人车与周边障碍物的最小距离，当d_min≤d_threshold时，r_obstacles开始向策略网络进行反馈。

为进一步验证本发明的效果，借助Carla仿真环境，在一条长约110米的直道上分别进行了无人车的直线巡航实验与碰撞实验，实验场景如图8所示。

对于直线巡航实验，在无障碍的直线场景下的巡航任务是最能体现无人驾驶策略是否拥有类人逻辑的验证场景。图9中详细记录了无人车使用本发明改进后的算法执行巡航任务时的运动轨迹与控制过程，并与原始算法的实验效果进行了对比，其中图9(a)是改进前后无人车的运动轨迹，图9(b)是算法改进前后无人车在不同运动位置的横向控制量输出情况对比，图9(c)是算法改进前后无人车在时序的横向控制量输出情况对比。由图9中所统计的数据可以直观地看出，改进的类人逻辑的控制算法(Carla(Improve))在实验过程中明显表现出来了比未进行类人逻辑改进的原始控制算法(Carla(primeval))的控制曲线更为平顺，在任务中展现出了更合理的控制过程，并对任务表现出了更高的执行效率。平顺的驾驶过程有利于行驶安全性与舒适性，并能够避免额外的能量损失，提高任务的执行效率。

为了更好的对实验结果进行量化展示，本发明统计了改进前后两种算法控制过程中横向控制量的方差与标准差，并对比了两种算法完成任务所需的控制步数，如图10所示。由图10中的统计结果可以看出，本发明改进后的算法比原始DDPG算法展示出了更平顺的控制过程和更高的任务执行效率，这充分验证了本发明的改进对于策略输出的改进效果。

针对碰撞实验，仍使用如图8所示的Carla环境模拟了汽车的碰撞过程，为排除其它因素对本发明改进的有过程的碰撞建模结论与原始建模结论对比的干扰，在这次实验中，设定汽车做匀速直线运动，碰撞过程如图11所示。

图12示出了不同的碰撞过程的奖励塑造下环境对智能体碰撞事故产生的反馈，其中图12(a)为原始建模，图12(b)为本发明改进的带有过程状态的碰撞建模。

如图12所示，在两种不同的奖励塑造条件下，在维持巡航奖励与碰撞峰值惩罚不变的情况下，本发明改进的带有过程状态的碰撞建模对产生碰撞的无人车给出了更为平顺与密集的惩罚。此外，本发明使用了二次函数逼近器对图12中两种奖励塑造方式进行了拟合，拟合结果如图13所示。

为进一步量化说明本发明的研究，根据公式(5)，对两种奖励塑造方式的ε值进行了计算，计算结果如图14所示。由图14可以看出，改进前的奖励塑造方式所带来的拟合结果是完全失真的，这使智能体无法理解奖励环境的塑造意图，并使策略偏离原定的朝向目标函数的递归方向，结合图13与图14可以看出，相较于为改进前的方式，本发明改进后的带有过程状态的碰撞奖励塑造方式的奖励曲线更为密集、平滑，而且拥有更高的保真度，对稀疏的灾难性事件的建模更符合控制策略对目标函数的优化期望，比改进前的方式提高了85.57％，这种将无人驾驶任务中大的、灾难性的事件视为有状态的过程的改进方式，不仅可以有效避免由稀疏奖励带来的过拟合现象，也使得智能体的优化目标更符合期望，为算法带来了更快的收敛速度。

图15示出了改进后的算法(HL-DDPG)在训练中的收敛情况，并和原始算法的收敛情况进行了对比，其中图15(a)是原始DDPG算法在训练中的收敛情况，图15(b)是本发明改进后的算法在训练中的收敛情况。由图15可以看出，相比于改进前的原始DDPG算法，本发明改进后的算法明显展现出了更稳定的收敛过程，并在算法收敛后具有更稳定的策略表现。原始算法训练至基本收敛状态耗时约2900步，本发明改进后的算法训练至基本收敛状态耗时约2400步，训练效率提高了21％。

为对本发明改进后算法的控制效果进行更精确的量化展示，分别使用原始算法和本发明改进后的算法进行了无人车巡航实验，实验任务设置为要求无人车以规定车速完成指定距离的安全导航，在实验中，道路车辆与行人随机生成。本发明对两种算法的实验结果进行了统计，实验结果如图16所示。由图16可以看出，相比于原始DDPG算法，本发明改进后的算法任务成功率提高了19％，任务执行效率提高了15.45％，并产生了更少的碰撞事故。

综上，经过多个不同的仿真环境中进行实验表明，本发明通过添加类人驾驶规则约束实现了更优秀的控制性能，并且改进的奖励塑造方式对稀疏的灾难性事件的建模更符合控制策略对目标函数的优化期望，比改进前提高了85.57％。本发明所提出的HL-DDPG无人驾驶策略，相比传统DDPG算法，训练效率提高了21％，任务成功率提高了19％，任务执行效率提高了15.45％，并显著减少了碰撞事故。

综上所述，针对现有的端到端无人驾驶策略只考虑了驾驶正确性，而缺少了人类驾驶员遵循一定社会智能的驾驶逻辑的问题，本发明通过引入基于类人逻辑的规则约束，增强端到端无人驾驶策略的类人驾驶智能性，使端到端的无人驾驶策略能够输出符合类人逻辑的连续有序行为的无人驾驶到端控制网络，无人驾驶车辆的运动具备类人驾驶的平滑性、合理性和舒适性。通过基于环境与类人驾驶规则对驾驶策略的多维度后验反馈方法，降低了危险行为输出率。此外，针对目前端到端策略缺乏对稀疏的、灾难性的离散事件的训练学习能力的问题，本发明实施例将稀疏的、灾难性的离散事件构建为一个有状态的连续过程，并建立了在时序上连续的奖惩机制，避免其产生的策略过拟合问题，并加速了训练策略向目标函数的收敛。因此，本发明提供的方法可以输出具备类人逻辑的无人驾驶策略，比现有的深度强化学习端到端方法具备更优秀的控制性能和训练效率。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种融合类人驾驶行为的无人驾驶深度强化学习方法，包括以下步骤：

2.根据权利要求1所述的方法，其中，在所述深度强化学习中，无人驾驶策略的更新方式为：

是当前的无人驾驶策略梯度，

3.根据权利要求1所述的方法，其中，使用驾驶逻辑惩罚有安全隐患的危险驾驶行为，将灾难事件的概率构造成连续的奖惩函数，以对输出的无人驾驶策略进行连续反馈。

4.根据权利要求3所述的方法，其中，在所述深度强化学习中，将奖励函数设置为:

Reward＝r_environment+r_self

5.根据权利要求3所述的方法，其中，在所述深度强化学习中，基于车辆的横向和纵向控制量，构建即时的奖励约束，表示为：

6.根据权利要求3所述的方法，其中，根据以下步骤构建环境反馈评价：

基于任务场景预设存在碰撞风险的临界阈值d_threshold；

根据公式

计算r_obstacles值，其中，μ、c为预选的比例常数。

7.根据权利要求3所述的方法，其中，在所述深度强化学习中，构建有条件触发的奖励约束r_reverse＝κ，更新当前时刻的纵向和横向控制量的反向加速度奖励约束为：

8.根据权利要求6所述的方法，其中，在深度强化学习中，构造的环境反馈评价r_environment＝r_trance+r_step+r_obstacles，r_trance是智能体对任务目标的密集奖励，添加r_step＝-|λ|的时序惩罚，r_obstacles是对当前时刻的碰撞风险进行的实时建模。

9.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1所述的方法的步骤。