CN110989577B

CN110989577B - 自动驾驶决策方法及车辆的自动驾驶装置

Info

Publication number: CN110989577B
Application number: CN201911118758.4A
Authority: CN
Inventors: 李慧云
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2023-06-23
Anticipated expiration: 2039-11-15
Also published as: CN110989577A

Abstract

本发明公开了自动驾驶决策方法及车辆的自动驾驶装置，相比一般的前馈控制决策，本发明基于深度强化学习方法能使驾驶系统在充分的数据条件下进行训练，训练后能在更高速及复杂的路面环境下快速准确地进行决策。而不同于现有强化学习方法存在因对轨迹生成和跟踪任务集中处理而产生巨大负荷以及针对车辆当前状态执行而造成系统不收敛的问题，其直接以目标车辆的前馈误差量作为目标车辆的状态，设定在当前状态执行最优策略映射的动作获得的立即回报为当前的前馈误差量的相反数以进行深度强化学习，解耦了轨迹规划与动作规划，以轨迹规划完成为前提，集中解决轨迹规划后的跟踪问题，获得最优策略并构建策略网络模型，能实现模型的收敛和自适应。

Description

自动驾驶决策方法及车辆的自动驾驶装置

技术领域

本发明涉及自动驾驶技术领域，尤其是涉及自动驾驶决策方法及车辆的自动驾驶装置。

背景技术

自动驾驶是未来车辆发展的必然趋势，是避免人为驾驶失误和提高交通效率的有效途径。为了实现无人车在真实道路上的安全行驶，不但需要车体感知端对物体进行精确的识别与追踪，而且需要决策控制端能够根据当前的道路状况做出合理的动作，包括行为预测，避障，轨迹规划、动作规划和执行机构等内容。

由于驾驶场景相对复杂，驾驶行为通常又是复杂多变的，交通道路突发情况亦时有发生，难以进行准确而完整的建模。传统的前馈/反馈控制决策，对动力学模型简化过度，只能用于低速平整路面。参照图1所示的基于深度强化学习的自动驾驶决策方法的原理框图，深度强化学习能够在充分数据条件下进行训练，训练完毕然后在实际高度复杂、易变的环境下快速准确地进行决策。然而，现有强化学习方法将生成和执行/跟踪任务集成到一个优化问题中，这种方法通常用于最优时间应用，例如常规应用强化学习的棋类运动和电脑游戏，但是当这样的强化学习方法应用在自动驾驶中时，由于硬件处理能力有限，实时运行轨迹生成和跟踪任务的集中优化问题相当困难，在驾驶时面对的复杂环境下进行这样的规划并不有利，甚至可能导致错误决策的产生。

而且，参照图2所示的强化学习基本原理框架图，对于自动驾驶的现有强化学习方法，车辆当前的状态量为

S_t＝f(S_t，a_t)＝f(f(S_t-1，a_t-1)，a_t)＝F(S₀，a₁，a₂，......，a_t)，

当前的状态是由初始状态和所有以前的动作所决定的，初始状态S₀已知，通过使所有以前动作产生的累计回报值最大，来确定最佳的决策，从而构建出图1中的策略模型。但是，现有技术针对例如航向角度、纵向速度等车辆当前状态执行强化学习，没有预瞄点，无模型，经常会导致系统不收敛或不能自适应，获得的策略并不准确。

发明内容

有鉴于此，本发明的目的在于提供自动驾驶决策方法及车辆的自动驾驶装置，来解决上述问题。

为了实现上述的目的，本发明采用了如下的技术方案：

本发明提供了一种自动驾驶决策方法，所述自动驾驶决策方法包括步骤：以目标车辆的前馈误差量作为目标车辆的状态；设定目标车辆在当前状态执行最优策略映射的动作获得的立即回报为当前的前馈误差量的相反数；根据动作价值函数为从当前时刻起所累积的立即回报的折算和，并根据通过最小化损失函数值计算获得的期望最大化的动作价值函数值，确认所述期望最大化的动作价值函数值对应的所述最优策略；采用所述最优策略构建策略网络模型，并基于所述策略网络模型进行自动驾驶决策。

优选地，所述前馈误差量包括目标车辆的前轮中心横向位置跟踪偏差、目标车辆的后轮中心横向位置跟踪偏差、目标车辆的横摆角偏差、目标车辆的质心侧偏角偏差以及目标车辆的航向角偏差中的任意一种前馈误差。

优选地，设定目标车辆在当前状态执行最优策略获得的立即回报为：r＝-e_t；其中，e_t为目标车辆在当前时刻t的前馈误差量。

优选地，目标车辆在当前状态执行最优策略后所累积的立即回报折算和为：

其中，T为终止时刻，γ为回报折扣因子，γ∈[0，1]。

优选地，所述动作价值函数为：

其中，k为迭代次数，S_t为目标车辆的当前状态，a_t为目标车辆在当前状态执行策略所映射的动作。

优选地，通过计算目标车辆在下一时刻能达到最大化的目标动作价值函数值与目标车辆在当前状态执行策略后的预估价值函数值之差来获得损失函数，所述损失函数为：

其中，目标车辆在下一时刻能达到最大化的目标动作价值函数值/>

目标车辆执行策略π_θ(S_t，a_t)后的预估价值函数值Q_eval＝Q(S_t，a_t)|π_θ(S_t，a_t)。

本发明还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有自动驾驶决策程序，所述自动驾驶决策程序用于被处理器执行以实现如上所述的自动驾驶决策方法。

本发明还提供了一种车辆的自动驾驶装置，所述自动驾驶装置包括处理器和存储器，所述存储器存储有可在所述处理器上运行的自动驾驶决策程序，所述自动驾驶决策程序用于被所述处理器执行以实现如上所述的自动驾驶决策方法

本发明提供的自动驾驶决策方法及车辆的自动驾驶装置，通过以前馈误差量作为目标车辆的状态，同时设定目标车辆在当前状态执行最优策略映射的动作获得的立即回报为当前的前馈误差量的相反数，解决了现有强化学习方法存在因对轨迹生成和跟踪任务集中处理而产生巨大负荷以及针对车辆当前状态执行而造成系统不收敛的问题，能够将稀疏反馈增密，获得能应用于复杂环境的自动驾驶决策的策略网络模型。

附图说明

图1是基于深度强化学习方法的自动驾驶决策方法的原理框图；

图2是强化学习基本原理框架图；

图3是本发明提供的自动驾驶决策方法的流程图；

图4是目标车辆模拟在规划路径上行驶的前后轮示例性图示。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明的具体实施方式进行详细说明。这些优选实施方式的示例在附图中进行了例示。附图中所示和根据附图描述的本发明的实施方式仅仅是示例性的，并且本发明并不限于这些实施方式。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了关系不大的其他细节。

本发明提供了一种自动驾驶决策方法，参照图3所示，所述自动驾驶决策方法包括：

S1、以目标车辆的前馈误差量作为目标车辆的状态；

S2、设定目标车辆在当前状态执行最优策略映射的动作获得的立即回报为当前的前馈误差量的相反数；

S3、根据动作价值函数为从当前时刻起所累积的立即回报的折算和，并根据通过最小化损失函数值计算获得的期望最大化的动作价值函数值，确认所述期望最大化的动作价值函数值对应的所述最优策略；

S4、采用所述最优策略构建策略网络模型，并基于所述策略网络模型进行自动驾驶决策。

本发明基于深度强化学习方法能使驾驶系统能够在充分数据条件下进行训练，训练完毕然后在实际高度复杂、易变的环境下快速准确地进行决策的优点，提供上述自动驾驶决策方法来解决现有的自动驾驶决策方案的问题。首先，上述步骤S1和S2中，本发明直接以目标车辆在前馈误差量作为目标车辆的状态，设定目标车辆在当前状态执行最优策略获得的立即回报为当前的前馈误差量的相反数，由此，目标车辆在当前状态执行最优策略后所累积的立即回报的折算和为累积的所述前馈误差量的折算和的相反数，执行的最优策略能使车辆以误差最小的方式沿规划轨迹行走，即通过解耦轨迹规划与动作规划，以轨迹规划完成为前提，集中解决轨迹规划后的跟踪问题，避免了将生成和执行/跟踪任务集成到一起优化而由于目标车辆的状态和行为维数高造成运行困难。

因为基于前馈控制可以对目标的实际状况与原先设计的动作要求之间的偏差进行比较，再进行针对调整，在以后再指令作同样的动作时，控制就更加准确，使动作能更接近设计的要求。不同于现有强化学习方法以车辆当前状态执行强化学习导致系统不收敛或不能自适应以及获得的策略并不准确，本发明利用前馈量满足收敛要求的特性，能够将稀疏反馈增密，实现了所获得模型的收敛和自适应，即为能极好地实现轨迹规划后的跟踪。

每次在某种状态量S_t下，执行某一动作a_t，基于深度强化学习方法的智能体(Agent)会立即收到一个回报r(S_t，a_t)，它表示此“状态-动作”转换的立即值，如此持续执行产生一连串累积的“状态-动作-立即回报”值R_t，智能体通过学习到一个最优的自动驾驶决策π：S_t→a_t，使得累积回报值r₀+γr₁+γ²r₂+…(其中，回报折扣因子γ为0≤γ＜1)的期望最大化。根据上述思路，结合图1所示，所述步骤S3根据通过最小化损失函数值计算获得的期望最大化的动作价值函数值，由于动作价值函数为从当前时刻起所累积的立即回报的折算和，即最大化的动作价值函数值对应的为采取最优策略后所累积获得的立即回报的折算和，因此能确定所述最优策略。在步骤S4中根据所获得的最优策略，以状态S_t和动作a_t作为输入层，动作价值函数Q(S_t，a_t)作为输出层，便能构建策略网络模型，进而可以应用所述策略网络模型得到目标车辆在不同状态下采用最优策略映射的最优选动作，达到自动驾驶决策控制的目的，示例性地，自动驾驶的动作可包括但不限于下表1中的内容。

表1自动驾驶的动作(action)列表

示例性地，所述步骤S1中，前馈误差量e包括但不限于目标车辆的前轮中心横向位置跟踪偏差、目标车辆的后轮中心横向位置跟踪偏差、目标车辆的横摆角偏差、目标车辆的质心侧偏角偏差以及目标车辆的航向角偏差中的任意一种前馈误差。例如，本发明实施例采用前馈误差量e中的前轮中心横向位置跟踪偏差作为目标车辆的状态，参照图4所示，曲线代表路径的中线，目标车辆前轮中心距离路径中线的横向位置跟踪偏差的数值为|e|，目标车辆的前轮中心横向位置跟踪偏差的变化率为：

其中，v_f为目标车辆的前轮行进速度，δ为前轮转角，ψ_e为横摆角偏差。可以看出，前轮横向位置偏差的变化率

可以直接通过前轮转角δ进行控制，在变曲率路径且路径连续可导的的条件下，可以满足局部指数收敛特性。

具体地，所述步骤S2中，设定目标车辆在当前状态执行最优策略获得的立即回报为：r＝-e_t；

其中，e_t为目标车辆在当前时刻t的前馈误差量。

由此，目标车辆在当前状态执行最优策略后所累积的立即回报折算和为：

其中，T为终止时刻，γ为回报折扣因子，γ∈[0，1]。

通过设定以在当前状态执行最优策略获得的立即回报r为r＝-e_t，则期望或者要求目标车辆在当前状态执行最优策略后所累积的立即回报折算和应当为

使得在学习过程中，能够尽可能地减小前馈误差，比如前轮中心横向位置跟踪偏差越小，目标车辆越能更准确地跟踪路径的中线行驶。以下说明如何求出能够使得累积的立即回报折算和为/>

的最优策略：

具体地，所述步骤S3中，所述动作价值函数为：

只要获得期望最大化的动作价值函数值，即可确定其所对应的最优策略，进一步地，通过计算目标车辆在下一时刻能达到最大化的目标动作价值函数值与目标车辆在当前状态执行策略后的预估价值函数值之差来获得损失函数，所述损失函数为：

其中，目标车辆在下一时刻能达到最大化的目标动作价值函数值

目标车辆执行策略π_θ(S_t，a_t)后的预估价值函数值Q_eval＝Q(S_t，a_t)|π_θ(S_t，a_t)。损失函数L(θ)用于评估做出决策的风险，通过确保决策的损失函数L(θ)最小化，使构建策略网络模型的动作值函数Q(S_t，a_t)逼近期望最大化的动作价值函数，即可获得所述期望最大化的动作价值函数对应的最优策略。所述步骤S4便可利用获得的最优策略构建策略网络模型，并基于所述策略网络模型进行自动驾驶决策。

本发明还提供了一种计算机存储介质，所述计算机存储介质上存储有自动驾驶决策程序，所述自动驾驶决策程序用于被处理器执行以实现如上所述的自动驾驶决策方法。

本发明还提供了一种车辆的自动驾驶装置，所述自动驾驶装置包括处理器和存储器，所述存储器存储有可在所述处理器上运行的自动驾驶决策程序，所述自动驾驶决策程序用于被所述处理器执行以实现如上所述的自动驾驶决策方法。

综上所述，本发明提供的自动驾驶决策方法及车辆的自动驾驶装置，通过以前馈误差量作为目标车辆的状态，同时设定目标车辆在当前状态执行最优策略映射的动作获得的立即回报为当前的前馈误差量的相反数，由此进行深度强化学习来获得最优策略并基于所述最优策略构建的策略网络模型进行自动驾驶决策，避免了现有强化学习方法存在因对轨迹生成和跟踪任务集中处理而产生巨大负荷以及针对车辆当前状态执行而造成系统不收敛的问题。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种自动驾驶决策方法，其特征在于，包括：

以目标车辆的前馈误差量作为目标车辆的状态；

设定目标车辆在当前状态执行最优策略映射的动作获得的立即回报为当前的前馈误差量的相反数；

根据动作价值函数为从当前时刻起所累积的立即回报的折算和，并根据通过最小化损失函数值计算获得的期望最大化的动作价值函数值，确认所述期望最大化的动作价值函数值对应的所述最优策略；

采用所述最优策略构建策略网络模型，并基于所述策略网络模型进行自动驾驶决策；

其中，所述动作价值函数为：

其中，k为迭代次数，S_t为目标车辆的当前状态，a_t为目标车辆在当前状态执行策略所映射的动作，γ为回报折扣因子；

其中，通过计算目标车辆在下一时刻能达到最大化的目标动作价值函数值与目标车辆在当前状态执行策略后的预估价值函数值之差来获得损失函数，所述损失函数为：

2.根据权利要求1所述的自动驾驶决策方法，其特征在于，所述前馈误差量包括目标车辆的前轮中心横向位置跟踪偏差、目标车辆的后轮中心横向位置跟踪偏差、目标车辆的横摆角偏差、目标车辆的质心侧偏角偏差以及目标车辆的航向角偏差中的任意一种前馈误差。

3.根据权利要求1所述的自动驾驶决策方法，其特征在于，设定目标车辆在当前状态执行最优策略获得的立即回报为：

r＝-e_t；

其中，e_t为目标车辆在当前时刻t的前馈误差量。

4.根据权利要求3所述的自动驾驶决策方法，其特征在于，目标车辆在当前状态执行最优策略后所累积的立即回报折算和为：

其中，T为终止时刻，γ为回报折扣因子，γ∈[0，1]。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有自动驾驶决策程序，所述自动驾驶决策程序用于被处理器执行以实现如权利要求1至4任一项所述的自动驾驶决策方法。

6.一种车辆的自动驾驶装置，其特征在于，包括处理器和存储器，所述存储器存储有可在所述处理器上运行的自动驾驶决策程序，所述自动驾驶决策程序用于被所述处理器执行以实现如权利要求1至4任一项所述的自动驾驶决策方法。