CN116300977B

CN116300977B - 一种依托强化学习的铰接车轨迹跟踪控制方法及装置

Info

Publication number: CN116300977B
Application number: CN202310572466.8A
Authority: CN
Inventors: 段京良; 陈良发; 刘童; 肖礼明; 闫昊琪; 高路路; 马飞
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-07-21
Anticipated expiration: 2043-05-22
Also published as: CN116300977A

Abstract

本发明公开了一种依托强化学习的铰接车轨迹跟踪控制方法及装置，涉及自动驾驶技术领域。包括：获取待控制铰接车的车辆状态以及环境观测量；将车辆状态以及环境观测量输入到构建好的铰接车轨迹跟踪最优控制模型；根据车辆状态、环境观测量以及铰接车轨迹跟踪最优控制模型，得到每个时间步的车辆状态，实现铰接车轨迹跟踪控制。本发明提供了一种依托强化学习的铰接车轨迹跟踪控制方法的构建及求解方法，以实现铰接车轨迹跟踪控制高实时、高精度的在线计算。

Description

一种依托强化学习的铰接车轨迹跟踪控制方法及装置

技术领域

本发明涉及自动驾驶技术领域，尤其涉及一种依托强化学习的铰接车轨迹跟踪控制方法及装置。

背景技术

铰接车是一种在矿山、山地等恶劣地形环境中有着广泛应用的车辆，其前后车体通过铰接点与摆动环连接，并依靠液压缸的伸缩来实现车体航向角的改变。相较于一般的轮式车辆，铰接车具有转弯半径小、通过性强以及使用成本低的优点。然而，铰接车由于特殊的车体结构，导致其运动学特性相较于一般轮式车辆更为复杂，无人驾驶实现难度更大。因此，实现铰接车自动驾驶对于降低企业生产成本、减少生产安全事故以及提高生产效率等方面有着巨大的潜力。其中，运动控制作为铰接车自动驾驶的核心技术之一，近年来随着人工智能技术的不断发展，学习型的自主决控方法在自动驾驶领域得到了广泛的应用。

自动驾驶领域的运动控制主要分为纵向以及横向控制。纵向控制主要是针对车辆油门以及刹车的控制，相对技术比较成熟，而横向控制是给出控制量来控制车辆方向盘朝着一定的参考轨迹逼近，以实现轨迹跟踪的目的。现有的运动控制方法主要存在以下缺陷：一方面：一些典型的控制方法如比例-积分-微分控制PID（Proportional-Integral-Derivative，比例-积分-微分控制）、线性二次调节控制LQR(Linear QuadraticRegulator，线性二次调节控制)等，虽然结构简单，但是无法处理复杂的系统约束或者由于忽略了系统的非线性特性，因而在实际应用中往往难以达到理想的跟踪效果。另一方面：对于预测型运动控制方法，车载控制器需要基于预测模型及约束条件，在线求解每一采样周期的最优控制序列。当求解难度增加以及车载计算资源不足时，求解的速度难以满足控制器的控制实时性要求。此外，对于预测型轨迹跟踪方法，参考轨迹点的信息通常难以获取，在跟踪复杂轨迹时难以保证被控对象能以期望速度准确跟踪参考轨迹。

发明内容

本发明针对现有运动控制方法无法处理复杂的系统约束或者由于忽略了系统的非线性特性，因而在实际应用中往往难以达到理想的跟踪效果的问题，当求解难度增加以及车载计算资源不足时，求解的速度难以满足控制器的控制实时性要求的问题，以及参考轨迹点的信息通常难以获取，在跟踪复杂轨迹时难以保证被控对象能以期望速度准确跟踪参考轨迹的问题，提出了本发明。

为解决上述技术问题，本发明提供如下技术方案：

一方面，本发明提供了一种依托强化学习的铰接车轨迹跟踪控制方法，该方法由电子设备实现，该方法包括：

S1、获取待控制铰接车的车辆状态以及环境观测量。

S2、将车辆状态以及环境观测量输入到构建好的铰接车轨迹跟踪最优控制模型。

S3、根据车辆状态、环境观测量以及铰接车轨迹跟踪最优控制模型，得到每个时间步的车辆状态，实现铰接车轨迹跟踪控制。

可选地，S2中的铰接车轨迹跟踪最优控制模型的构建过程包括：

S21、获取预设的初始条件以及初始化参数。

S22、根据初始条件以及初始化参数，得到预测时域内各参考点的横坐标。

S23、以t时刻自车位置为原点建立自车坐标系，基于铰接车离散时间运动学方程以及t时刻策略输出的动作，获取t+1时刻的自车状态量。

S24、根据t+1时刻的自车状态量以及预测时域内各参考点的横坐标构建奖励函数。

S25、更新参考点信息。

S26、根据更新后的参考点信息，获取基于自车坐标系的车辆状态及环境观测量。

S27、将奖励函数、基于自车坐标系的车辆状态及环境观测量作为铰接车轨迹跟踪最优控制模型的输入，建立约束条件，计算目标函数，得到构建好的铰接车轨迹跟踪最优控制模型。

可选地，S21中的预设的初始条件以及初始化参数，包括：

在t时刻，获取大地坐标系下连续的参考轨迹信息、期望速度曲线、系统的控制频率、预测时域以及自车位置。

可选地，S22中的根据初始条件以及初始化参数，得到预测时域内各参考点的横坐标，包括：

在大地坐标系下，基于当前自车位置，利用期望速度对不同时间步的积分，求得预测时域内各参考点的横坐标。

可选地，求得预测时域内各参考点的横坐标，如下式（1）所示：

（1）

其中，j表示参考点的位置，N为预测时域，f为控制频率,t为时刻，v _ref为期望速度。

可选地，S24中的奖励函数，如下式（2）所示：

（2）

其中，X为自车状态量，X _ref为环境信息，u为自车动作，e为状态跟踪误差，T为矩阵转置，Q为状态效用矩阵，R为动作效用矩阵。

可选地，S25中的更新参考点信息，包括：

利用预设的期望速度对一个时间步进行积分，得到参考轨迹上一个新的参考点，并删除参考量队列中的第一个参考点的信息，将新的参考点添加至参考量队列末端。

可选地，S27中的建立约束条件，包括：

以铰接车的离散时间运动学方程作为铰接车轨迹跟踪最优控制模型的运动约束，以控制分量幅值约束为控制约束，建立约束条件，如下式（3）-（4）所示：

（3）

（4）

其中，A为状态矩阵，B为输入矩阵，X _k表示k时刻的自车状态量，X _k+1表示k+1时刻的自车状态量；a为动作空间下界，b为动作空间上界，u为自车动作，u _k为k时刻自车动作。

可选地，S27中的计算目标函数，包括：

采用值分布柔性执行评价强化学习算法学习独立的值分布函数以及策略函数。

其中，值分布函数，如下式（5）-（8）所示：

（5）

（6）

（7）

（8）

其中，X为自车状态量，X _ref为环境信息，u为自车动作，为参数化目标值网络中待优化的参数，/>表示求期望，r为奖励函数，/>为下一刻自车状态，/>为下一时刻环境信息，B为经验池，/>为由第二策略网络/>输出的动作，/>为第二策略网络，Z为基于柔性策略/>产生的累计回报为状态动作回报，/>为柔性Z值的概率密度函数，/>为目标值网络中的待优化参数，/>为Bellman 自洽算子，/>为第一策略网络，/>为参数化策略中待优化的参数，/>为折扣因子，/>为t+1时刻的累计回报，σ_Z为值分布标准差；

策略函数，如下式（9）所示：

（9）

其中，Q由值分布函数给出，α为策略熵系数。

另一方面，本发明提供了一种依托强化学习的铰接车轨迹跟踪控制装置，该装置应用于实现依托强化学习的铰接车轨迹跟踪控制方法，该装置包括：

获取模块，用于获取待控制铰接车的车辆状态以及环境观测量。

输入模块，用于将车辆状态以及环境观测量输入到构建好的铰接车轨迹跟踪最优控制模型。

输出模块，用于根据车辆状态、环境观测量以及铰接车轨迹跟踪最优控制模型，得到每个时间步的车辆状态，实现铰接车轨迹跟踪控制。

可选地，输入模块，进一步用于：

S21、获取预设的初始条件以及初始化参数。

S25、更新参考点信息。

可选地，输入模块，进一步用于：

（1）

可选地，输入模块，进一步用于：

（2）

可选地，输入模块，进一步用于：

（3）

（4）

可选地，输入模块，进一步用于：

其中，值分布函数，如下式（5）-（8）所示：

（5）

（6）

（7）

（8）

策略函数，如下式（9）所示：

(9)

其中，Q由值分布函数给出，α为策略熵系数。

一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述依托强化学习的铰接车轨迹跟踪控制方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述依托强化学习的铰接车轨迹跟踪控制方法。

上述技术方案，与现有技术相比至少具有如下有益效果：

上述方案，利用期望速度对时间积分来计算参考轨迹的横向坐标，进而得到参考轨迹上的其他参考控制量，适用于复杂轨迹的跟踪，适用范围广；本发明利用策略函数根据车辆当前状态以及参考量关系直接输出近似最优控制量，求解效率高；本发明构建最优控制问题时保留了被控对象模型的非线性特性，控制精度高；本发明通过设计离线训练策略网络的损失函数，将在线优化问题转化为策略网络参数的离线求解，不需要存储大量的状态到控制量映射关系，可节省内存资源。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的依托强化学习的铰接车轨迹跟踪控制方法流程示意图；

图2是本发明实施例提供的依托强化学习的铰接车轨迹跟踪方法的整体流程框示意图；

图3是本发明实施例提供的依托强化学习的铰接车轨迹跟踪方法的示意图；

图4是本发明实施例提供的依托强化学习的铰接车轨迹跟踪方法的轨迹跟踪效果示意图；

图5是本发明实施例提供的依托强化学习的铰接车轨迹跟踪方法的轨迹跟踪效果示意图；

图6是本发明实施例提供的依托强化学习的铰接车轨迹跟踪方法的单步平均求解时间对比图；

图7是本发明实施例提供的依托强化学习的铰接车轨迹跟踪控制装置框图；

图8是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种依托强化学习的铰接车轨迹跟踪控制方法，该方法可以由电子设备实现。如图1所示的依托强化学习的铰接车轨迹跟踪控制方法流程图，该方法的处理流程可以包括如下的步骤：

S1、获取待控制铰接车的车辆状态以及环境观测量。

一种可行的实施方式中，为了便于理解，需对强化学习的相关术语进行解释说明。强化学习主要包括环境、智能体、状态、观测、动作等要素，即智能体基于当前的状态以及动作与环境进行交互，得到智能体下一刻状态，同时基于智能体的状态和动作计算回报，利用回报构造相关目标函数，利用得到的目标函数改进智能体的策略，最终实现回报总和的最大化。

在本发明中，环境可以是基于物理定律、运动学和几何约束等规律而对其中物体进行状态推演的系统，由智能体、障碍物、地图约束等组成。智能体是环境中可以自主行动的物体元素，接受观测，给出动作，例如自动驾驶车辆。状态是环境中的元素的基础属性，例如车辆位置、朝向、速度等。观测是智能体给定状态的视角下对环境中的其他元素的状态进行编码得到的特征。动作是智能体的输出，即由智能体的策略决定。推演是给定动作序列和物体初始状态，迭代地应用状态转移模型，不断得到每一步的状态，最终得到状态序列作为输出，其中状态转移模型是定义在物体上，给定当前时刻物体的状态和动作，输出物体下一时刻将转移到状态，往往由运动学约束等规律决定。回报用于表示当前时间步对环境中元素的状态和动作做出的评价，是标量，进一步地，累计回报是由当前状态出发，直到推演结束，所有时间步上的回报的总合。

在强化学习框架下构建铰接车轨迹跟踪最优控制模型，旨在让铰接车与所在环境交互来学习到一个最优的控制策略，使得从初始时刻开始执行该控制策略得到的目标函数最大化。铰接车轨迹跟踪最优控制模型包括策略网络和状态转移模型，策略网络即根据输入的自车状态以及环境信息，输出当前状态下最优的铰接车动作，动作包括铰接车铰接角角速度以及纵向加速度；状态转移模型是给定当前时刻铰接车的状态和动作，输出铰接车下一时刻的状态，往往由运动学约束等规律决定。

S21、在t时刻，获取大地坐标系下连续的参考轨迹信息、期望速度曲线、系统的控制频率、预测时域以及自车位置。

一种可行的实施方式中，假设在t时刻，铰接车轨迹跟踪最优控制模型已获得大地坐标系下连续的参考轨迹信息、期望速度曲线、系统的控制频率、预测时域以及自车位置；其中，参考轨迹信息以及期望速度曲线一般由上层轨迹规划模块给出；期望速度可以是恒定的速度也可以是变化的速度；自车位置由导航定位模块给出，如初始时刻自车位置为。

可选地，在大地坐标系下，基于当前自车位置，利用期望速度对不同时间步的积分，求得预测时域内各参考点的横坐标。

一种可行的实施方式中，在大地坐标系下，基于当前自车位置利用期望速度对不同时间步的积分求得预测时域内各参考点的横坐标，进而获取参考轨迹上的其他参考量并存储成队列。

(1)

其中，j表示参考点的位置，j=0即第一个参考点，N为预测时域，f为控制频率,t为时刻，v _ref为期望速度，根据预测时域可求得，将/>代入/>中即可求得参考轨迹上的其他参考量，如纵坐标以及航向角。例如，假设在t=0时，系统控制频率为10Hz、期望参考速度为8.8m/s，参考轨迹为/>，预测时域为N=20；第一个参考点参考信息中横坐标为：/>纵坐标为：，航向角为：/>。

一种可行的实施方式中，以t时刻自车位置为原点建立自车坐标系，基于铰接车离散时间运动学方程以及当前策略输出的动作获取t+1时刻自车状态量；其中，t时刻的自车状态X _t包含t时刻铰接车在自车坐标系上横纵向位置x _t，y _t，纵向速度v _xt、航向角和铰接角/>，即/>；时刻t的自车动作u _t包含t时刻铰接车前车体的纵向加速度a _t和前后车体铰接角角速度/>。

一种可行的实施方式中，利用得到的 t+1时刻自车状态量与参考轨迹上对应时刻参考点的差值构建奖励函数；其中，奖励函数为状态跟踪误差e和动作的二次型加权求和，如下式（2）所示：

（2）

其中，X为自车状态量，X _ref为环境信息，u为自车动作，e为状态跟踪误差，T为矩阵转置，Q为状态效用矩阵，R为动作效用矩阵，数学形式上均为对角正定矩阵，状态跟踪误差满足：

（3）

S25、更新参考点信息。

可选地，S25中的更新参考点信息，包括：

基于大地坐标系，利用步骤S22所示方法，利用期望参考速度对一个时间步进行积分获取参考轨迹上一个新的参考点，同时删除参考量队列中第一个参考点信息，添加新获取的参考点至队列末端，每个参考点信息包含自车前车体位置、速度以及航向角等信息。

一种可行的实施方式中，基于自车坐标系，将参考队列的第一个参考点作为铰接车自车的观测量，预测时域内剩余参考点作为铰接车预瞄距离内的环境观测量，即环境信息；其中，环境信息X _ref中含有N个参考值，分别为,对应t+1时刻参考点为。

可选地，S27中的建立约束条件，包括：

以铰接车的离散时间运动学方程作为铰接车轨迹跟踪最优控制模型的运动约束，以控制分量幅值约束为控制约束，建立约束条件，如下式（4）-（5）所示：

（4）

（5a)

其中，A为状态矩阵，B为输入矩阵，X _k表示k时刻的自车状态量，X _k+1表示k+1时刻的自车状态量；a为动作空间下界，b为动作空间上界。

具体地，铰接车两个动作量具体的约束范围可以是：

（5b)

其中，为前车体加速度，/>铰接角角速度。

可选地，S27中的计算目标函数，包括：

铰接车轨迹跟踪最优控制模型采用一种值分布柔性执行评价强化学习算法，算法采用ActorCritic（演员-评价者）结构以学习独立的值分布函数以及策略函数，其中值分布目标函数数学表达式如下式（6）-（9）所示：

(6)

(7)

(8)

(9)

其中，Q为铰接车轨迹跟踪最优控制模型的目标值函数，X、X _ref和u分别为无穷时域内任意时刻的自车状态、环境信息和自车动作，为参数化目标值网络中待优化的参数,B为经验池，用于存放策略与环境交互产生的训练样本/>，r为奖励函数，/>为 Bellman 自洽算子。/>表示求期望；/>表示为下一个时刻自车的状态量，包含铰接车5维状态；/>表示进入下一时刻后，铰接车获得的新的环境信息，即参考轨迹信息，通常与预测时域N相关。/>为目标值网络中的待优化参数；/>为t+1时刻后的累计回报，σ_Z为值分布标准差，用于动态调整Q值学习率。

为参数化策略网络，即由任意时刻自车状态X以及环境状态X _ref可得到自车的动作u，/>为参数化策略中待优化的参数, />表示由另一策略网络/>输出的动作。

Z为基于柔性策略产生的累计回报为状态动作回报，记为Z(X,X _ref,u)，/>为折扣因子，/>为柔性Z值的概率密度函数。

策略函数，如下式（10）所示：

(10)

其中，Q由值分布函数给出，α为策略熵系数，其更新规则如下：

(11)

其中，为学习率，/>为给定的策略熵目标值。

进一步地，如图2所示，对铰接车轨迹跟踪最优控制模型进行迭代求解，具体包括以下步骤：

A1、给定相关初始条件及参数初始化：

如图3所示，自车初始状态可直接给定，如，也可以在一定范围内随机生成；给定参考轨迹/>，参考期望速度，控制频率/>，参考轨迹N=20；初始化时间t，给定经验池B大小为10⁶并随机初始化，用来存放策略与环境交互产生的训练样本；初始化值分布网络参数/>、策略网络参数/>和策略熵系数α；初始化目标网络参数/>和/>；给定合适的学习率以及误差/>；初始化迭代步数k=0。其中，值分布网络和策略网络均采用全连接的多层感知机（MLP），隐层大小为256×256。

A2、获取预测时域内的参考量：

利用期望速度对时间的积分获取预测时域内大地坐标系下的N个参考轨迹点，分别为。

A3、采样：

循环指示变量k=k+1，在当前状态下使用策略/>与环境交互采样，得到一个奖励函数以及观测下一时刻状态/>，同时获取一个新的参考点/>，将组成一个经验样本，将样本存入经验池B。

A4、求解值分布目标函数值：

从经验回放池B中采样得到的多个经验样本作为前向求解过程的初值，利用式(6)所示值分布网络分别计算目标函数值，为后向求解值分布网络梯度以及更新参数提供初值。

A5、值分布网络参数更新：

利用求解得到的目标函数值求梯度，对于批量计算的值网络梯度求平均后，对网络参数实施梯度下降。第K次迭代中值网络的更新规则为：

(12)

(13)

A6、策略网络参数更新：

如果K为正整数的m的整数倍，则利用式（10）批量计算目标函数并求解策略梯度，利用求平均后的策略梯度对策略参数实施梯度下降。第K次迭代中策略网络的更新规则为：

(14)

A7、策略熵系数更新：

如果K为正整数的m的整数倍，则利用式（11）进行更新。

A8、目标值网络以及目标策略网络更新：

如果K为正整数的m的整数倍，则根据以下规则进行更新：

(15)

(16)

A9、判断结果是否收敛：

如果，则表明策略还未收敛，返回步骤A3继续求解；反之则表明在误差范围内策略已收敛，输出即为最优参数化策略。

一种可行的实施方式中，以参数化策略网络作为铰接车轨迹跟踪最优控制模型的输出，策略网络可以根据铰接车自车状态以及环境信息直接输出近似的动作量，如铰接车前车体的纵向加速度和前后车体铰接角角速度。

本发明采用一种值分布柔性执行评价强化学习算法，利用离线训练得到的参数化策略网络根据车辆当前状态以及环境信息直接输出铰接车的最优控制量，使得铰接车实现空间状态的改变，不断根据自车状态以及环境信息输出控制量，实现铰接车高实时、高精度的轨迹跟踪任务。

本发明利用铰接车轨迹跟踪最优控制模型迭代19万次后学习到的最优参数化策略网络进行仿真，控制铰接车以的期望速度跟踪给定的参考曲线，将得到的结果在预测时域、参考轨迹以及参考速度相同的情况下与模型预测控制的结果进行对比，如图4、5所示，结果表明，本公开提出的方法在整个轨迹跟踪过程，位置量以及速度量均实现了较为准确的跟踪；与模型预测控制相比，如图6所示，本公开提出的依托强化学习的铰接车轨迹跟踪控制方法在整个跟踪过程的单步平均求解时间均小于/>，远远低于模型预测控制输出单步控制量的平均求解时间，实现了铰接车轨迹跟踪任务的高实时、高精度在线求解。

本发明在假设给定期望速度以及期望参考轨迹的情况下，通过期望速度对时间积分获取预测时域内各参考点的参考量；基于铰接车离散运动学模型以及当前策略网络获取铰接车下一时刻的状态量，并以此构造目标函数并设计离线训练策略网络的损失函数；以铰接车自车状态量、环境信息以及目标函数作为模型的输入，以参数化网络作为模型输出，将在线优化问题转化为策略网络参数的离线求解；在线应用时，车载控制器根据每一时刻的车辆状态以及周围环境信息由策略网络直接输出近似控制策略，从而得到每个时间步的车辆状态，实现在线高实时计算的铰接车轨迹追踪；其中，每个时间步的车辆状态用于形成所述车辆预测轨迹对应的跟踪轨迹。

本发明具有适用范围广（期望速度对时间积分直接得到轨迹横坐标，适用于复杂轨迹）、计算效率高（策略函数直接近似最优控制量）、精度高（保留被控对象模型的非线性特性）、省内存（不存储大量状态到控制量的映射关系）的优点，突破了现有的铰接车轨迹跟踪控制问题在线求解效率低、轨迹参考点不易获取的瓶颈。

本发明实施例中，利用期望速度对时间积分来计算参考轨迹的横向坐标，进而得到参考轨迹上的其他参考控制量，适用于复杂轨迹的跟踪，适用范围广；本发明利用策略函数根据车辆当前状态以及参考量关系直接输出近似最优控制量，求解效率高；本发明构建最优控制问题时保留了被控对象模型的非线性特性，控制精度高；本发明通过设计离线训练策略网络的损失函数，将在线优化问题转化为策略网络参数的离线求解，不需要存储大量的状态到控制量映射关系，可节省内存资源。

如图7所示，本发明实施例提供了一种依托强化学习的铰接车轨迹跟踪控制装置700，该装置700应用于实现依托强化学习的铰接车轨迹跟踪控制方法，该装置700包括：

可选地，输入模块，进一步用于：

S21、获取预设的初始条件以及初始化参数。

S25、更新参考点信息。

可选地，输入模块，进一步用于：

（1）

可选地，输入模块，进一步用于：

（2）

可选地，输入模块，进一步用于：

（3）

（4）

可选地，输入模块，进一步用于：

其中，值分布函数，如下式（5）-（8）所示：

（5）

（6）

（7）

（8）

策略函数，如下式（9）所示：

（9）

其中，Q由值分布函数给出，α为策略熵系数。

图8是本发明实施例提供的一种电子设备800的结构示意图，该电子设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）801和一个或一个以上的存储器802，其中，存储器802中存储有至少一条指令，至少一条指令由处理器801加载并执行以实现下述依托强化学习的铰接车轨迹跟踪控制方法：

S1、获取待控制铰接车的车辆状态以及环境观测量。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述依托强化学习的铰接车轨迹跟踪控制方法。例如，计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种依托强化学习的铰接车轨迹跟踪控制方法，其特征在于，所述方法包括：

S1、获取待控制铰接车的车辆状态以及环境观测量；

S2、将所述车辆状态以及环境观测量输入到构建好的铰接车轨迹跟踪最优控制模型；

S3、根据所述车辆状态、环境观测量以及铰接车轨迹跟踪最优控制模型，得到每个时间步的车辆状态，实现铰接车轨迹跟踪控制；

所述S2中的铰接车轨迹跟踪最优控制模型的构建过程包括：

S21、获取预设的初始条件以及初始化参数；

S22、根据所述初始条件以及初始化参数，得到预测时域内各参考点的横坐标；

S23、以 t时刻自车位置为原点建立自车坐标系，基于铰接车离散时间运动学方程以及t时刻策略输出的动作，获取 t+1时刻的自车状态量；

S24、根据所述t+1时刻的自车状态量以及预测时域内各参考点的横坐标构建奖励函数；

S25、更新参考点信息；

S26、根据更新后的参考点信息，获取基于自车坐标系的车辆状态及环境观测量；

S27、将所述奖励函数、基于自车坐标系的车辆状态及环境观测量作为铰接车轨迹跟踪最优控制模型的输入，建立约束条件，计算目标函数，得到构建好的铰接车轨迹跟踪最优控制模型；

所述S27中的计算目标函数，包括：

采用值分布柔性执行评价强化学习算法学习独立的值分布函数以及策略函数；

其中，所述值分布函数，如下式（1）-（4）所示：

（1）

（2）

（3）

（4）

其中，X为自车状态量，X _ref为环境信息，u为自车动作，为参数化目标值网络中待优化的参数，/>表示求期望，r为奖励函数，/>为下一刻自车状态量，/>为下一时刻环境信息，B为经验池，/>为由第二策略网络/>输出的动作，/>为第二策略网络，Z为基于柔性策略产生的累计回报为状态动作回报，/>为柔性Z值的概率密度函数，/>为目标值网络中的待优化参数，/> 为Bellman 自洽算子，/>为第一策略网络，/>为参数化策略中待优化的参数，/>为折扣因子，/>为t+1时刻的累计回报，σ_Z为值分布标准差：

所述策略函数，如下式（5）所示：

（5）

其中，Q由值分布函数给出，α为策略熵系数。

2.根据权利要求1所述的方法，其特征在于，所述S21中的预设的初始条件以及初始化参数，包括：

在 t时刻，获取大地坐标系下连续的参考轨迹信息、期望速度曲线、系统的控制频率、预测时域以及自车位置。

3.根据权利要求1所述的方法，其特征在于，所述S22中的根据所述初始条件以及初始化参数，得到预测时域内各参考点的横坐标，包括：

4.根据权利要求3所述的方法，其特征在于，所述求得预测时域内各参考点的横坐标，如下式（6）所示：

（6）

其中，j表示参考点的位置，N为预测时域，f为控制频率, t为时刻，v _ref为期望速度。

5.根据权利要求1所述的方法，其特征在于，所述S24中的奖励函数，如下式（7）所示：

（7）

6.根据权利要求1所述的方法，其特征在于，所述S25中的更新参考点信息，包括：

利用预设的期望速度对一个时间步进行积分，得到参考轨迹上一个新的参考点，并删除参考量队列中的第一个参考点的信息，将所述新的参考点添加至参考量队列末端。

7.根据权利要求1所述的方法，其特征在于，所述S27中的建立约束条件，包括：

以铰接车的离散时间运动学方程作为铰接车轨迹跟踪最优控制模型的运动约束，以控制分量幅值约束为控制约束，建立约束条件，如下式（8）-（9）所示：

（8）

（9）

其中，A为状态矩阵，B′为输入矩阵，X _k表示k时刻的自车状态量，X _k+1表示k+1时刻的自车状态量；a为动作空间下界，b为动作空间上界，u为自车动作，u _k为k时刻自车动作。

8.一种依托强化学习的铰接车轨迹跟踪控制装置，其特征在于，所述装置包括：

获取模块，用于获取待控制铰接车的车辆状态以及环境观测量；

输入模块，用于将所述车辆状态以及环境观测量输入到构建好的铰接车轨迹跟踪最优控制模型；

输出模块，用于根据所述车辆状态、环境观测量以及铰接车轨迹跟踪最优控制模型，得到每个时间步的车辆状态，实现铰接车轨迹跟踪控制；

所述铰接车轨迹跟踪最优控制模型的构建过程包括：

S21、获取预设的初始条件以及初始化参数；

S25、更新参考点信息；

所述S27中的计算目标函数，包括：

其中，所述值分布函数，如下式（1）-（4）所示：

（1）

（2）

（3）

（4）

其中，X为自车状态量，X _ref为环境信息，u为自车动作，为参数化目标值网络中待优化的参数，/>表示求期望，r为奖励函数，/>为下一刻自车状态量，/>为下一时刻环境信息，B为经验池，/>为由第二策略网络/>输出的动作，/>为第二策略网络，Z为基于柔性策略产生的累计回报为状态动作回报，/>为柔性Z值的概率密度函数，/>为目标值网络中的待优化参数，/> 为Bellman 自洽算子，/>为第一策略网络，/>为参数化策略中待优化的参数，/>为折扣因子，/>为t+1时刻的累计回报，σ_Z为值分布标准差；

所述策略函数，如下式（5）所示：

（5）

其中，Q由值分布函数给出，α为策略熵系数。