CN117302204A

CN117302204A - 依托强化学习的多风格车辆轨迹跟踪避撞控制方法及装置

Info

Publication number: CN117302204A
Application number: CN202311625357.4A
Authority: CN
Inventors: 段京良; 肖礼明; 张发旺; 陈良发; 闫昊琪; 于光远; 李轩; 马飞
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2023-11-30
Filing date: 2023-11-30
Publication date: 2023-12-29
Anticipated expiration: 2043-11-30
Also published as: CN117302204B

Abstract

本发明公开了一种依托强化学习的多风格车辆轨迹跟踪避撞控制方法及装置，涉及自动驾驶车辆控制及智能算法技术领域。包括：获取待控制车辆的信息；将信息输入到构建好的基于强化学习框架的车辆轨迹跟踪避撞最优控制模型，输出多风格参数化策略网络；将信息中的自车状态、车辆观测信息以及风格指标系数输入到多风格参数化策略网络，输出动作量；根据动作量，实现多风格车辆轨迹跟踪避撞控制。本发明能够实现车辆轨迹跟踪避撞控制高精度、高实时性、高安全性且控制风格多样性的在线计算。

Description

依托强化学习的多风格车辆轨迹跟踪避撞控制方法及装置

技术领域

本发明涉及自动驾驶车辆控制及智能算法技术领域，尤其涉及一种依托强化学习的多风格车辆轨迹跟踪避撞控制方法及装置。

背景技术

智能化是当代汽车的核心变革技术，具有提升道路交通安全、减少燃油消耗、提高道路通畅性的巨大潜力，将彻底改变人类的出行方式与社会结构。轨迹跟踪避撞控制是汽车智能化的核心模块，近年来得到了国内外学者的广泛研究。主流控制方法可以分为两大类，一类是以PID（比例-积分-微分控制, Proportional-Integral-Derivative）、LQR (线性二次调节控制, Linear Quadratic Regulator)和MPC（Model Predictive Control, 模型预测控制）为代表的在线控制方法。MPC等方法因其结构简单、可直接处理约束和滚动时域优化等优势被广泛应用于轨迹跟踪避撞控制，但其需要在每个控制周期内在线优化求解控制策略，这导致了较高的计算成本和控制延迟，并且无法处理复杂的系统约束或者由于忽略了系统的非线性特性，因而在实际应用中往往难以达到理想的跟踪效果。

近年来，另一类离线求解、在线应用的控制模式得到了广泛的研究和应用，典型的方法为通过模仿人类学习模式实现控制策略自我进化的RL（Reinforcement learning, 强化学习）。深度强化学习是一种基于动态规划求解框架的无模型马尔可夫决策过程处理方法，通过与环境的交互来指导智能体在不同的状态下进行回报最大化的动作，从而得到最优决策。由于其具有智能、有效解决高维状态输入、数据可重用等特点，是解决现阶段自动驾驶决策面临的交通场景动态性、随机性以及复杂性难题的重要途径。目前已广泛应用于自动驾驶车辆的智能控制和策略分析等领域。

强化学习不依赖于带有驾驶操作标签的驾驶数据，所需数据源于策略自身的探索试错过程，这与人类的学习方式极为相似。强化学习方法在探索试错过程中完成驾驶策略的学习，该过程无法保证行驶安全性。因此，难以直接利用实车和实际交通场景进行探索试错学习，现有研究通常依托仿真平台离线学习得到驾驶策略网络，然后将其部署在测试任务中。

然而，现有的应用于车辆跟踪避撞场景的强化学习方法在面对同一场景时，只能实现单一风格的控制策略输出。但在实际应用中，从乘车人的驾乘舒适性而言：乘车人有着不同的驾驶风格喜好，引入多样化的驾驶风格策略可为乘车人提供更多的选择；另一方面，从人车系统的安全性出发：安全是驾乘的第一要点，多样化的避撞方式是保障人车系统安全性的重要途径。

发明内容

本发明针对现有车辆轨迹跟踪避撞控制方法风格单一的问题，提出了本发明。

为解决上述技术问题，本发明提供如下技术方案：

一方面，本发明提供了一种依托强化学习的多风格车辆轨迹跟踪避撞控制方法，该方法由电子设备实现，该方法包括：

S1、获取待控制车辆的信息。

S2、将信息输入到构建好的基于强化学习框架的车辆轨迹跟踪避撞最优控制模型，输出多风格参数化策略网络。

S3、将信息中的自车状态、车辆观测信息以及风格指标系数输入到多风格参数化策略网络，输出动作量。

S4、根据动作量，实现多风格车辆轨迹跟踪避撞控制。

可选地，S2中的基于强化学习框架的车辆轨迹跟踪避撞最优控制模型的构建过程，包括：

S21、构建基于强化学习框架的车辆轨迹跟踪避撞最优控制模型的输入。

S22、建立车辆轨迹跟踪避撞最优控制模型的约束条件。

S23、构造车辆轨迹跟踪避撞最优控制模型的目标函数。

可选地，S21中的构建基于强化学习框架的车辆轨迹跟踪避撞最优控制模型的输入，包括：

S211、获取给定的初始条件，进行参数初始化。

S212、根据给定的初始条件，计算得到期望误差信息；通过观测得到周车的相对信息；随机获取风格指标系数。

S213、根据期望误差信息，构建奖励函数。

S214、根据自车状态、期望误差信息、周车的相对信息、风格指标系数和奖励函数，构建车辆轨迹跟踪避撞最优控制模型输入。

可选地，S212中的根据给定的初始条件，计算得到期望误差信息，包括：

根据获取的当前时刻的自车状态、车辆离散时间运动学方程以及基于当前策略输出的动作/>，得到/>时刻自车状态量/>；

根据时刻自车状态量/>以及初始条件，计算得到期望误差信息。

可选地，S213中的奖励函数包括碰撞奖励函数和非碰撞奖励函数；

奖励函数，如下式（1）-（3）所示：

（1）

（2）

（3）

其中，表示奖励函数，/>表示自车与周车发生碰撞时的惩罚量，/>表示训练步数，/>表示常数激励项，/>表示轨迹跟踪奖励，/>表示权重系数，/>表示自车对参考轨迹的轨迹误差，/>表示自车对参考轨迹的航向角误差，/>表示自车对参考轨迹的期望速度误差，/>表示控制动作奖励，/>表示车辆的角速度，/>表示车辆的速度动作，/>表示车辆的角速度动作。

可选地，S22中的约束条件包括运动约束以及控制约束；

其中，以车辆的离散时间运动学方程作为运动约束，以控制分量幅值约束为控制约束，如下式（4）-（5）所示：

（4）

（5）

其中，表示/>时刻自车状态，/>表示/>时刻自车状态，/>表示/>时刻车辆的纵向加速度，/>表示/>时刻车辆的角加速度，/>表示纵向速度，/>表示航向角，/>表示角速度，/>表示控制频率，/>表示自车动作量最小值，/>表示动作/>时刻的自车动作量，/>表示自车动作量最大值。

可选地，S23中的目标函数包括多风格值分布目标函数，如下式（6）-（9）所示：

（6）

（7）

（8）

（9）

其中，表示车辆轨迹跟踪避撞最优控制模型的多风格值分布目标函数，/>表示无穷时域内任意时刻的自车状态，/>表示无穷时域内任意时刻的自车动作，/>表示风格指标系数，/>表示风格指标系数的取值范围，/>表示当前值分布网络的待优化参数，表示奖励函数，/>表示策略与环境交互产生的训练样本，/>表示经验池，/>表示由另一策略网络/>输出的动作，/>表示另一策略网络，/>表示目标值分布网络的待优化参数，/>表示柔性/>值的概率密度函数，/>表示Bellman自洽算子，/>表示大于/>的时刻，/>表示时刻，/>表示多风格参数化策略网络，/>表示参数化策略网络中待优化的参数，/>表示基于柔性策略/>产生的累计回报为状态动作回报，记为/>，/>表示折扣因子，/>表示 />时刻及/>时刻之后的累计奖励，/>表示值分布函数的标准差。

可选地，S23中的目标函数还包括多风格策略函数目标函数，如下式（10）所示：

（10）

其中，表示多风格策略函数目标函数，/>表示策略熵系数，/>表示值分布函数的标准差。

另一方面，本发明提供了一种依托强化学习的多风格车辆轨迹跟踪避撞控制装置，该装置应用于实现依托强化学习的多风格车辆轨迹跟踪避撞控制方法，该装置包括：

获取模块，用于获取待控制车辆的信息。

输入模块，用于将信息输入到构建好的基于强化学习框架的车辆轨迹跟踪避撞最优控制模型，输出多风格参数化策略网络。

动作量输出模块，用于将信息中的自车状态、车辆观测信息以及风格指标系数输入到多风格参数化策略网络，输出动作量。

输出模块，用于根据动作量，实现多风格车辆轨迹跟踪避撞控制。

可选地，输入模块，进一步用于：

S22、建立车辆轨迹跟踪避撞最优控制模型的约束条件。

S23、构造车辆轨迹跟踪避撞最优控制模型的目标函数。

可选地，输入模块，进一步用于：

S211、获取给定的初始条件，进行参数初始化。

S213、根据期望误差信息，构建奖励函数。

可选地，输入模块，进一步用于：

可选地，奖励函数包括碰撞奖励函数和非碰撞奖励函数；

奖励函数，如下式（1）-（3）所示：

（1）

（2）

（3）

其中，表示奖励函数，/>表示自车与周车发生碰撞时的惩罚量，/>表示训练步数，/>表示常数激励项，/>表示轨迹跟踪奖励，/>表示权重系数，/>表示自车对参考轨迹的轨迹误差，/>表示自车对参考轨迹的航向角误差，/>表示自车对参考轨迹的期望速度误差，/>表示控制动作奖励，/>表示车辆的角速度，/>表示车辆的速度动作，表示车辆的角速度动作。

可选地，约束条件包括运动约束以及控制约束；

（4）

（5）

其中，表示 />时刻自车状态，/>表示/>时刻自车状态，/>表示/>时刻车辆的纵向加速度，/>表示/>时刻车辆的角加速度，/>表示纵向速度，/>表示航向角，/>表示角速度，/>表示控制频率，/>表示自车动作量最小值，/>表示动作/>时刻的自车动作量，/>表示自车动作量最大值。

可选地，目标函数包括多风格值分布目标函数，如下式（6）-（9）所示：

（6）

（7）

（8）

（9）

其中，表示车辆轨迹跟踪避撞最优控制模型的多风格值分布目标函数，/>表示无穷时域内任意时刻的自车状态，/>表示无穷时域内任意时刻的自车动作，/>表示风格指标系数，/>表示风格指标系数的取值范围，/>表示当前值分布网络的待优化参数，/>表示奖励函数，/>表示策略与环境交互产生的训练样本，/>表示经验池，/>表示由另一策略网络/>输出的动作，/>表示另一策略网络，/>表示目标值分布网络的待优化参数，/>表示柔性/>值的概率密度函数，/>表示Bellman自洽算子，/>表示大于/>的时刻，/>表示时刻，/>表示多风格参数化策略网络，/>表示参数化策略网络中待优化的参数，/>表示基于柔性策略/>产生的累计回报为状态动作回报，记为/>，/>表示折扣因子，/>表示 />时刻及/>时刻之后的累计奖励，/>表示值分布函数的标准差。

可选地，目标函数还包括多风格策略函数目标函数，如下式（10）所示：

（10）

一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述依托强化学习的多风格车辆轨迹跟踪避撞控制方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述依托强化学习的多风格车辆轨迹跟踪避撞控制方法。

上述技术方案，与现有技术相比至少具有如下有益效果：

上述方案，利用期望速度、期望航向角、期望跟踪轨迹得到参考轨迹上的其他参考控制量，适用于复杂轨迹的跟踪，适用范围广；本发明利用策略函数根据车辆当前状态与观测耦合量以及风格指标系数直接输出近似最优控制量，求解效率高；本发明构建最优控制问题时保留了被控对象模型的非线性特性，控制精度高；本发明依托策略训练过程中进行范围性控制风格训练，在单一策略网络的基础上实现了面向同一场景可完成多风格的策略输出，满足多风格驾乘需求；本发明在轨迹跟踪任务中引入碰撞干扰，可在保证避撞需求的前提下完成轨迹跟踪任务，保证了人车系统的高安全性；本发明通过设计离线训练策略网络的奖励函数，将在线优化问题转化为策略网络参数的离线求解，不需要存储大量的状态到控制量映射关系，可节省内存资源。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种依托强化学习的多风格车辆轨迹跟踪避撞控制方法流程示意图；

图2是本发明实施例提供的一种依托强化学习的多风格车辆轨迹跟踪避撞方法的整体流程框示意图

图3是本发明实施例提供的依托强化学习的多风格车辆轨迹跟踪避撞方法的单步平均求解时间对比图；

图4是本发明实施例提供的保守风格车辆轨迹跟踪避撞方法的多风格控制效果示意图；

图5是本发明实施例提供的中性风格车辆轨迹跟踪避撞方法的多风格控制效果示意图；

图6是本发明实施例提供的激进风格车辆轨迹跟踪避撞方法的多风格控制效果示意图；

图7是本发明实施例提供的一种依托强化学习的多风格车辆轨迹跟踪避撞控制装置框图；

图8是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种依托强化学习的多风格车辆轨迹跟踪避撞控制方法，该方法可以由电子设备实现。如图1所示的依托强化学习的多风格车辆轨迹跟踪避撞控制方法流程图，该方法的处理流程可以包括如下的步骤：

为了便于理解，需对强化学习的相关术语进行解释说明。强化学习主要包括环境、智能体、状态、观测、动作等要素，即智能体基于当前的状态以及动作与环境进行交互，得到智能体下一刻状态，同时基于智能体的状态和动作计算回报，利用回报构造相关目标函数，利用得到的目标函数改进智能体的策略，最终实现回报总和的最大化。

在本发明中，环境可以是基于物理定律、运动学和几何约束等规律而对其中物体进行状态推演的系统，由智能体、障碍物、地图约束等组成。智能体是环境中可以自主行动的物体元素，接受观测，给出动作，例如自动驾驶车辆。状态是环境中的元素的基础属性，例如车辆位置、朝向、速度等。观测是智能体给定状态的视角下对环境中的其他元素的状态进行编码得到的特征。动作是智能体的输出，即由智能体的策略决定。推演是给定动作序列和物体初始状态，迭代地应用状态转移模型，不断得到每一步的状态，最终得到状态序列作为输出，其中状态转移模型是定义在物体上，给定当前时刻物体的状态和动作，输出物体下一时刻将转移到状态，往往由运动学约束等规律决定。回报用于表示当前时间步对环境中元素的状态和动作做出的评价，是标量，进一步地，累计回报是由当前状态出发，直到推演结束，所有时间步上的回报的总合。

在强化学习框架下构建自动驾驶车辆轨迹跟踪避撞最优控制模型，旨在让自动驾驶车辆与所在环境交互来学习到一个最优的控制策略，使得从初始时刻开始执行该控制策略得到的目标函数最大化。自动驾驶车辆轨迹跟踪避撞最优控制模型即训练所得策略网络和状态转移模型，策略网路根据输入的自车状态以及环境信息，输出当前状态下最优的车辆动作，动作包括车辆纵向加速度以及角加速度；状态转移模型是给定当前时刻车辆的状态和动作，输出车辆下一时刻的状态，往往由运动学约束等规律决定。

S1、获取待控制车辆的信息。

一种可行的实施方式中，待控制车辆的信息可以包括大地坐标系下连续的期望参考轨迹信息、期望速度曲线、期望航向角曲线、系统的控制频率、自车位置、周车的相对位置及周车的速度信息以及风格指标系数等。

可选地，S2中的基于强化学习框架的车辆轨迹跟踪避撞最优控制模型的构建过程，包括S21- S23：

S21、构建基于强化学习框架的车辆轨迹跟踪避撞最优控制模型的输入，可以包括S211- S214：

S211、获取给定的初始条件，进行参数初始化。

一种可行的实施方式中，如图2所示，假设在时刻，车辆轨迹跟踪避撞最优控制模型已获得大地坐标系下连续的期望参考轨迹信息、期望速度曲线/>、期望航向角曲线、系统的控制频率/>、自车位置/>以及周车的相对位置/>和/>及周车的速度信息/>；其中，参考轨迹信息以及期望速度曲线一般由上层轨迹规划模块给出；期望速度可以是恒定的速度也可以是变化的速度；自车位置由导航定位模块给出；周车的相对位置及速度信息通过自动驾驶车辆感知模块获取。

进一步地，假设初始时刻，车辆跟踪的参考轨迹为大地坐标系下/>的直线，期望速度曲线/>, 期望航向角曲线/>, 系统的控制频率。

根据获取的当前时刻的自车状态、车辆离散时间运动学方程以及基于当前策略输出的动作/>，得到/>时刻自车状态量/>，根据/>时刻自车状态量/>以及初始条件，计算得到期望误差信息。

一种可行的实施方式中，进行采样，具体地，在时刻基于自车状态/>、车辆离散时间运动学方程以及当前策略输出的动作/>获取/>时刻自车状态量/>，通过计算得到期望误差信息，通过观测得到障碍周车的相对信息；其中，/>时刻的自车状态/>包含/>时刻车辆在自车坐标系上横纵向位置/>，/>、航向角/>、纵向速度/>和角速度/>，即；时刻/>的自车动作/>包含/>时刻车辆的纵向加速度/>和车辆角加速度/>；/>时刻的期望误差信息包括自车对参考轨迹的横向误差/>、航向角误差/>和速度误差/>；/>时刻的周车的相对信息包括自车与障碍周车（obstacle）的相对横坐标/>、相对纵坐标/>、相对航向角/>和周车速度/>；以及如下随机获取的风格指标系数/>。获取方法如下：

（1）

（2）

（3）

（4）

（5）

（6）

（7）

上式中表示风格指标系数的取值范围，视具体轨迹跟踪任务复杂程度进行确定，比如在本发明的具体实施方法中/>取值为100，若是更复杂或者更简单的任务，/>的值根据任务进行调整。其用途是：在策略改进阶段/>选取/>范围内的随机数，选取的随机数会与值分布的标准差进行耦合，参与梯度计算，完成策略改进。

S213、根据期望误差信息，构建奖励函数。

可选地，利用得到的时刻自车状态量与期望信息的差值、构建奖励函数；其中，奖励函数/>分碰撞和非碰撞两种情况：

（8）

（9）

（10）

其中，表示奖励函数，/>表示自车与周车发生碰撞时的惩罚量，通常为一个绝对值较大的负值，/>表示该训练幕下的训练步数，后续量为单步奖励，/>表示常数激励项，推动智能体学会不倾向于提前终止的行为，通常为一个合适的正值，/>表示轨迹跟踪奖励，包含常数激励项、轨迹误差项/>、航向角误差项/>和期望速度误差项/>，/>表示/>项的权重系数，通常为一个合适的负值，/>表示控制动作奖励，包括角速度项/>、速度动作项/>和角速度动作项/>。

具体地，奖励函数可以是：

（8a）

式中，表示自车与周车发生碰撞时惩罚量，取-500；200表示该训练幕下的训练步数，后续量为单步奖励；/>为常数激励项，推动智能体学会不倾向于提前终止的行为，取5。

（9a）

（10a）

S214、根据自车状态、期望误差信息、周车的相对信息、风格指标系数和奖励函数，构建车辆轨迹跟踪避撞最优控制模型输入：

（11）

式中：依次分别为时刻的自车速度/>、角速度/>、自车对参考轨迹的横向误差、朝向角误差/>、速度误差/>、与障碍物相对横坐标/>和纵坐标/>、相对航向角/>、障碍物速度/>和风格指标系数/>。

S22、建立车辆轨迹跟踪避撞最优控制模型的约束条件。

可选地，S22中的约束条件包括运动约束以及控制约束；

其中，以车辆的离散时间运动学方程作为运动约束，以控制分量幅值约束为控制约束，如下：

（12）

即：

（13）

（14）

具体地，

（14a）

S23、构造车辆轨迹跟踪避撞最优控制模型的目标函数。

一种可行的实施方式中，车辆轨迹跟踪避撞最优控制模型采用一种值分布柔性执行评价强化学习算法，算法采用ActorCritic结构以学习独立的值分布函数以及策略函数，本发明引入风格指标至值分布函数以及策略函数中，不同风格指标对应了不同控制风格，从而实现了强化学习所得策略的输出多样化。

其中，目标函数包括多风格值分布目标函数，如下：

（15）

（16）

（17）

（18）

式（15）中，为车辆轨迹跟踪避撞最优控制模型的目标值函数，/>，/>， />分别为无穷时域内任意时刻的自车状态、自车动作和风格指标系数/>，/>为参数化目标值网络中待优化的参数，/>为经验池，用于存放策略与环境交互产生的训练样本/>，/>为奖励函数，/>为Bellman自洽算子。

式（16）中，为多风格参数化策略网络，即由任意时刻自车状态/>和风格指标系数/>可得到自车的动作/>，/>为参数化策略网络中待优化的参数，/>表示由另一策略网络/>输出的动作，/>表示在/>时刻之后，式（16）表示/>时刻之后的动作选取是依据策略/>，括号内的为策略/>的相关参数。

式（17）与式（18）中，为基于柔性策略/>产生的累计回报为状态动作回报，记为，/>为折扣因子；/>为柔性/>值的概率密度函数，/>为该值分布函数的标准差，表示强化学习中/>时刻及/>时刻之后的累计奖励回报，也就是上述的/>的一直累加的值，/>就表示/>时刻及/>时刻之后的累计奖励。

目标函数还包括多风格策略函数目标函数，如下式（19）所示：

（19）

其中，由值分布函数给出，/>从/>中随机选取，/>为状态/>，动作/>，风格指标/>输入下的值分布函数的标准差。

为策略熵系数，其更新规则如下：

（20）

其中，为策略熵学习率，/>为给定的策略熵目标值。

在一些实施例中，对车辆轨迹跟踪避撞最优控制模型进行迭代求解，具体包括以下步骤：

步骤6-1、给定相关初始条件及参数初始化

自车初始状态可直接给定，如，也可以在一定范围内随机生成；给定参考轨迹信息/>、参考期望速度/>，控制频率/>，参考轨迹/>；初始化时间/>，给定经验池/>大小为/>并随机初始化，用来存放策略与环境交互产生的训练样本/>；初始化值分布网络参数/>、策略网络参数/>和策略熵系数/>；初始化目标网络参数/>和/>；给定合适的学习率/>、、/>、目标网络学习率/>以及误差/>；初始化迭代步数/>。其中，值分布网络和策略网络均采用全连接的多层感知机（MLP），隐层大小为256×256。

步骤6-2、获取参考数据

获取参考期望轨迹、参考期望速度和参考期望航向角数据。

步骤6-3、采样

循环指示变量，随机选取/>，在当前状态/>下使用策略/>执行动作/>与环境交互采样，得到一个奖励函数以及观测下一时刻状态/>，将组成一个经验样本，将样本存入经验池/>；

步骤6-4、求解值分布目标函数值

从经验回放池中采样得到的多个经验样本作为前向求解过程的初值，利用式（15）所示值分布网络分别计算目标函数值，为后向求解值分布网络梯度以及更新参数提供初值。

步骤6-5、值分布网络参数更新

利用求解得到的目标函数值求梯度，对于批量计算的值网络梯度求平均后，对网络参数实施梯度下降。第次迭代中值网络的更新规则为：

（21）

（22）

步骤6-6、策略网络参数更新

如果为正整数/>的整数倍，则利用式（19）批量计算多风格策略目标函数并求解策略梯度，利用求平均后的策略梯度对策略参数实施梯度下降。第/>次迭代中策略网络的更新规则为：

（23）

步骤6-7、策略熵系数更新

如果为正整数/>的整数倍，则利用式（20）进行更新。

步骤6-8、目标值网络以及目标策略网络更新

如果为正整数/>的整数倍，则根据以下规则进行更新：

（24）

（25）

步骤6-9、判断结果是否收敛

如果，则表明策略还未收敛，返回步骤6-3继续求解；反之则表明在误差范围内策略已收敛，输出即为最优参数化策略。

一种可行的实施方式中，以多风格参数化策略网络作为车辆轨迹跟踪避撞最优控制模型的输出，多风格策略网络可以根据车辆观测信息以及风格指标系数直接输出近似的动作量，如车辆的纵向加速度/>和车辆角加速度/>；不同的风格指标系数输入将会对应不同的动作量输出，从而实现了单一策略网络实现多风格控制输出。

本发明的强化学习控制算法更新伪代码如下表1：

S4、根据动作量，实现多风格车辆轨迹跟踪避撞控制。

本发明假设给定期望速度、期望航向角和期望参考轨迹的情况下，通过当前自车状态量与观测信息耦合以获取决策所需信息；基于车辆离散运动学模型以及当前策略网络获取车辆下一时刻的状态量，并以此构造目标函数并设计离线训练策略网络的奖励函数；以车辆自车状态、期望信息差值、周车相对信息、风格指标作为模型的输入，以参数化网络作为模型输出，将在线优化问题转化为策略网络参数的离线求解；并在在线应用时，车载控制器根据每一时刻的车辆状态以及观测信息由策略网络直接输出近似控制策略，从而得到每个时间步的车辆状态，实现在线高实时计算的车辆轨迹追踪。

本发明考虑完整的随机回报值分布来更新策略，并进行完整的状态转移建模，便于量化系统的不确定性，能够从样本中获取更多信息，可有效地解决强化学习探索不充分和同一场景控制风格单一的难题。

本发明采用一种依托强化学习的多风格车辆轨迹跟踪避撞控制方法，利用离线训练得到的多风格参数化策略网络根据车辆当前状态以及环境信息直接输出车辆的最优控制量，使得车辆实现空间状态的改变，不断根据自车状态与观测耦合量和风格指标系数输出控制量，实现车辆多风格、高实时、高精度和高安全性的轨迹跟踪避撞任务。

本发明利用车辆轨迹跟踪避撞最优控制模型迭代5万次后学习到的最优多风格参数化策略网络进行仿真，控制车辆以的期望速度跟踪给定的参考线，在参考轨迹、参考航向角与参考速度相同的情况下，本发明提出的依托强化学习的多风格车辆轨迹跟踪避撞控制方法与模型预测控制（MPC）相比，如图3所示，本发明的方法在整个跟踪过程的单步平均求解时间均小于1ms，远远低于模型预测控制输出单步控制量的平均求解时间，稳态轨迹跟踪误差小于2cm， (自车体型为长/>宽/>高为/>cm)，实现了车辆轨迹跟踪避撞任务的高实时、高精度在线求解；另一方面，在不同的风格指标系数/>输入下，自车可实现多风格的车辆轨迹跟踪避撞控制，如图4（保守风格避撞）、图5（中性风格避撞）和图6（激进风格避撞），避撞成功率为100%，可保证多风格驾乘需求和高安全性。

本发明实施例中，利用期望速度、期望航向角、期望跟踪轨迹得到参考轨迹上的其他参考控制量，适用于复杂轨迹的跟踪，适用范围广；本发明利用策略函数根据车辆当前状态与观测耦合量以及风格指标系数直接输出近似最优控制量，求解效率高；本发明构建最优控制问题时保留了被控对象模型的非线性特性，控制精度高；本发明依托策略训练过程中进行范围性控制风格训练，在单一策略网络的基础上实现了面向同一场景可完成多风格的策略输出，满足多风格驾乘需求；本发明在轨迹跟踪任务中引入碰撞干扰，可在保证避撞需求的前提下完成轨迹跟踪任务，保证了人车系统的高安全性；本发明通过设计离线训练策略网络的奖励函数，将在线优化问题转化为策略网络参数的离线求解，不需要存储大量的状态到控制量映射关系，可节省内存资源。

如图7所示，本发明实施例提供了一种依托强化学习的多风格车辆轨迹跟踪避撞控制装置700，该装置700应用于实现依托强化学习的多风格车辆轨迹跟踪避撞控制方法，该装置700包括：

获取模块710，用于获取待控制车辆的信息。

输入模块720，用于将信息输入到构建好的基于强化学习框架的车辆轨迹跟踪避撞最优控制模型，输出多风格参数化策略网络。

动作量输出模块730，用于将信息中的自车状态、车辆观测信息以及风格指标系数输入到多风格参数化策略网络，输出动作量。

输出模块740，用于根据动作量，实现多风格车辆轨迹跟踪避撞控制。

可选地，输入模块720，进一步用于：

S22、建立车辆轨迹跟踪避撞最优控制模型的约束条件。

S23、构造车辆轨迹跟踪避撞最优控制模型的目标函数。

可选地，输入模块720，进一步用于：

S211、获取给定的初始条件，进行参数初始化。

S213、根据期望误差信息，构建奖励函数。

可选地，输入模块720，进一步用于：

可选地，奖励函数包括碰撞奖励函数和非碰撞奖励函数；

奖励函数，如下式（1）-（3）所示：

（1）

（2）

（3）

可选地，约束条件包括运动约束以及控制约束；

（4）

（5）

（6）

（7）

（8）

（9）

其中，表示车辆轨迹跟踪避撞最优控制模型的多风格值分布目标函数，/>表示无穷时域内任意时刻的自车状态，/>表示无穷时域内任意时刻的自车动作，/>表示风格指标系数，/>表示风格指标系数的取值范围，/>表示当前值分布网络的待优化参数，/>表示奖励函数，/>表示策略与环境交互产生的训练样本，/>表示经验池，表示由另一策略网络/>输出的动作，/>表示另一策略网络，/>表示目标值分布网络的待优化参数，/>表示柔性/>值的概率密度函数，/>表示Bellman自洽算子，/>表示大于/>的时刻，/>表示时刻，/>表示多风格参数化策略网络，/>表示参数化策略网络中待优化的参数，/>表示基于柔性策略/>产生的累计回报为状态动作回报，记为，/>表示折扣因子，/>表示 />时刻及/>时刻之后的累计奖励，/>表示值分布函数的标准差。

（10）

图8是本发明实施例提供的一种电子设备800的结构示意图，该电子设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）801和一个或一个以上的存储器802，其中，存储器802中存储有至少一条指令，至少一条指令由处理器801加载并执行以实现下述依托强化学习的多风格车辆轨迹跟踪避撞控制方法：

S1、获取待控制车辆的信息。

S4、根据动作量，实现多风格车辆轨迹跟踪避撞控制。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述依托强化学习的多风格车辆轨迹跟踪避撞控制方法。例如，计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种依托强化学习的多风格车辆轨迹跟踪避撞控制方法，其特征在于，所述方法包括：

S1、获取待控制车辆的信息；

S2、将所述信息输入到构建好的基于强化学习框架的车辆轨迹跟踪避撞最优控制模型，输出多风格参数化策略网络；

S3、将信息中的自车状态、车辆观测信息以及风格指标系数输入到所述多风格参数化策略网络，输出动作量；

S4、根据所述动作量，实现多风格车辆轨迹跟踪避撞控制。

2.根据权利要求1所述的方法，其特征在于，所述S2中的基于强化学习框架的车辆轨迹跟踪避撞最优控制模型的构建过程，包括：

S21、构建基于强化学习框架的车辆轨迹跟踪避撞最优控制模型的输入；

S22、建立车辆轨迹跟踪避撞最优控制模型的约束条件；

S23、构造车辆轨迹跟踪避撞最优控制模型的目标函数。

3.根据权利要求2所述的方法，其特征在于，所述S21中的构建基于强化学习框架的车辆轨迹跟踪避撞最优控制模型的输入，包括：

S211、获取给定的初始条件，进行参数初始化；

S212、根据所述给定的初始条件，计算得到期望误差信息；通过观测得到周车的相对信息；随机获取风格指标系数；

S213、根据所述期望误差信息，构建奖励函数；

4.根据权利要求3所述的方法，其特征在于，所述S212中的根据所述给定的初始条件，计算得到期望误差信息，包括：

根据所述时刻自车状态量/>以及所述初始条件，计算得到期望误差信息。

5.根据权利要求3所述的方法，其特征在于，所述S213中的奖励函数包括碰撞奖励函数和非碰撞奖励函数；

所述奖励函数，如下式（1）-（3）所示：

（1）

（2）

（3）

6.根据权利要求2所述的方法，其特征在于，所述S22中的约束条件包括运动约束以及控制约束；

（4）

（5）

其中，表示 />时刻自车状态，/>表示/>时刻自车状态，/>表示/>时刻车辆的纵向加速度，/>表示/>时刻车辆的角加速度，/>表示纵向速度，/>表示航向角，表示角速度，/>表示控制频率，/>表示自车动作量最小值，/>表示动作/>时刻的自车动作量，/>表示自车动作量最大值。

7.根据权利要求2所述的方法，其特征在于，所述S23中的目标函数包括多风格值分布目标函数，如下式（6）-（9）所示：

（6）

（7）

（8）

（9）

其中，表示车辆轨迹跟踪避撞最优控制模型的多风格值分布目标函数，/>表示无穷时域内任意时刻的自车状态，/>表示无穷时域内任意时刻的自车动作，/>表示风格指标系数，/>表示风格指标系数的取值范围，/>表示当前值分布网络的待优化参数，/>表示奖励函数，/>表示策略与环境交互产生的训练样本，/>表示经验池，/>表示由另一策略网络/>输出的动作，/>表示另一策略网络，/>表示目标值分布网络的待优化参数，/>表示柔性/>值的概率密度函数，/>表示Bellman自洽算子，/>表示大于的时刻，/>表示时刻，/>表示多风格参数化策略网络，/>表示参数化策略网络中待优化的参数，/>表示基于柔性策略/>产生的累计回报为状态动作回报，记为/>，表示折扣因子，/>表示 />时刻及/>时刻之后的累计奖励，/>表示值分布函数的标准差。

8.根据权利要求7所述的方法，其特征在于，所述S23中的目标函数还包括多风格策略函数目标函数，如下式（10）所示：

（10）

9.一种依托强化学习的多风格车辆轨迹跟踪避撞控制装置，其特征在于，所述装置包括：

获取模块，用于获取待控制车辆的信息；

输入模块，用于将所述信息输入到构建好的基于强化学习框架的车辆轨迹跟踪避撞最优控制模型，输出多风格参数化策略网络；

动作量输出模块，用于将信息中的自车状态、车辆观测信息以及风格指标系数输入到所述多风格参数化策略网络，输出动作量；

输出模块，用于根据所述动作量，实现多风格车辆轨迹跟踪避撞控制。

10.根据权利要求9所述的装置，其特征在于，所述输入模块，用于：

S22、建立车辆轨迹跟踪避撞最优控制模型的约束条件；

S23、构造车辆轨迹跟踪避撞最优控制模型的目标函数。