CN114359349B

CN114359349B - 一种用于车辆自适应路径跟踪的终身学习方法及系统

Info

Publication number: CN114359349B
Application number: CN202210274209.1A
Authority: CN
Inventors: 龚建伟; 龚乘; 吕超; 臧政; 刘喆
Original assignee: Huidong Planet Beijing Technology Co ltd; Beijing Institute of Technology BIT
Current assignee: Huidong Planet Beijing Technology Co ltd; Beijing Institute of Technology BIT
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-06-17
Anticipated expiration: 2042-03-21
Also published as: CN114359349A

Abstract

本发明涉及一种用于车辆自适应路径跟踪的终身学习方法及系统，属于路径跟踪技术领域，该方法包括：采集车辆运动状态数据和与运动状态数据对应的操控数据；将采集的数据集分为多个驾驶任务训练集；初始化轨迹跟踪策略模型和梯度暂时记忆；基于平均梯度暂时记忆的学习策略，根据多个驾驶任务训练集对轨迹跟踪策略模型进行迭代训练：对每个驾驶任务训练集，根据梯度暂时记忆确定参考梯度下降方向并以参考梯度下降方向为约束训练轨迹跟踪策略模型；当每个训练集训练后，基于知识分布和知识质量，对当前梯度暂时记忆中知识进行更新；采用训练好的轨迹跟踪策略模型对待控制车辆进行路径跟踪。本发明提高了车辆自适应路径跟踪的适应性。

Description

一种用于车辆自适应路径跟踪的终身学习方法及系统

技术领域

本发明涉及路径跟踪技术领域，特别是涉及一种用于车辆自适应路径跟踪的终身学习方法及系统。

背景技术

对于智能车辆而言，准确的执行路径跟踪是保证车辆驾驶安全性、稳定性和乘坐舒适性的基本技术。传统的路径跟踪方法大多基于静态线性模型预测控制算法或基于专家先验知识的传统控制算法，包括PID控制算法、反馈前馈控制算法、最优控制算法等。尽管这些方法可以在设计工况下较好地执行路径跟踪任务，但通常对工况或模型参数的变化较为敏感，进而导致这些方法对于不同车辆、驾驶任务和驾驶环境方面的适应性能较差。

在提高路径跟踪控制方法的适应性方面，智能控制方法在模型识别和参数调整方面展现出了极大的优越性。许多研究者基于专家知识和先验经验，提出了基于模糊的方法和自适应规律等的自适应路径跟踪控制方法，从而使建立的车辆动力学模型具备更强的自适应性。这些方法的准确性在很大程度上依赖于模糊逻辑和自适应规则的建模精度，然而随着场景与工况复杂程度的增加，这些方法的建模难度也将倍数增加。为了更精确地建模复杂或难以准确表达的车辆与场景模型，一些研究者提出了基于机器学习方法利用后验知识学习车辆和环境的特性。比如，采用人工神经网络近似轮胎侧偏刚度、采用神经网络对滑移转向机器人的动力学模型进行更新，抑或是将高斯混合模型和高斯混合回归与纯追踪方法相结合从而构建路径跟踪控制策略。然而，这些方法只能局部的学习模型且仍然依赖显式模型表征，因而在这种情况下，要适应不同的车辆和环境仍需对模型参数进行一系列调整。

相比于反复微调或修改参数模型，许多研究人员也试图通过模拟学习或强化学习直接学习驾驶经验来提高模型适应性。这些方法通过拟合收集到的后验驾驶经验，可以自适应地学习车辆模型与对应的控制策略，避免复杂的模型修改和参数调整。但仍有一些关键问题阻碍了它们在实际应用中的应用，其中一个主要问题是缺乏在线适应性，无法持续学习多个任务或场景中的控制策略。虽然基于强化学习的方法可以充分挖掘行为空间并学习近似策略，但策略探索可能会非常耗时，从而阻碍了策略的在线调整。同时，模拟学习方法是实现在线控制策略调整的理想方法，因为它们直接从历史经验中学习控制策略。随着经验的积累，基于模仿学习的策略有望进化并推广到不同的情况。然而对于模仿学习而言，在这种持续的策略学习过程中可能会发生灾难性的遗忘，即当策略模型中的神经网络学习新知识时，先前学到的知识可能会被遗忘，从而失去对先前场景的适应能力。

发明内容

本发明的目的是提供一种用于车辆自适应路径跟踪的终身学习方法及系统，提高了车辆自适应路径跟踪的适应性。

为实现上述目的，本发明提供了如下方案：

一种用于车辆自适应路径跟踪的终身学习方法，包括：

采集数据集，所述数据集包括车辆运动状态数据和与所述运动状态数据对应的操控数据；

将采集的所述数据集分为多个驾驶任务训练集；

初始化轨迹跟踪策略模型和梯度暂时记忆；所述梯度暂时记忆用于存储知识，所述知识包括所述轨迹跟踪策略模型的输入量和输出量；

基于平均梯度暂时记忆的学习策略，根据多个驾驶任务训练集对轨迹跟踪策略模型进行迭代训练，获得训练好的轨迹跟踪策略模型：对于每个驾驶任务训练集，根据梯度暂时记忆确定参考梯度下降方向并以所述参考梯度下降方向为约束训练轨迹跟踪策略模型；当每个驾驶任务训练集训练轨迹跟踪策略模型后，基于知识分布和知识质量，对当前梯度暂时记忆中知识进行更新；

采用训练好的轨迹跟踪策略模型对待控制车辆进行路径跟踪。

可选地，所述运动状态数据包括车辆速度，所述操控数据包括跟踪路径信息，所述跟踪路径信息包括预览点。

可选地，所述轨迹跟踪策略模型表示为：

δ=π _θ(P _ref，ξ)；

其中，δ表示车辆前轮偏角，π _θ表示由参数θ确定的车辆路径跟踪策略模型，P _ref表示预览点，P _ref=[x _ref，y _ref]，x _ref表示预览点的x轴坐标，y _ref表示预览点的y轴坐标，ξ表示车辆的动态状态数据，ξ=[v _x，v _y，

]，v _x表示车辆x轴速度，v _y表示车辆y轴速度，

表示车辆航向角变化率。

可选地，所述轨迹跟踪策略模型进行训练的损失函数的计算公式表示为：

l(π _θ，M)=

(π _θ(s _k)-a _k)²，(s _k，a _k)∈M；

其中，l(π _θ，M)表示所述损失函数，M表示梯度暂时记忆，s _k=[x _ref，y _ref，v _x，v _y，v _r]，v _r表示车辆横摆角速度，N表示一个驾驶任务训练集中的数据量，a _k表示第k个驾驶任务数据中的车辆前轮偏角。

可选地，所述平均梯度暂时记忆的学习策略表示为：

(π _θ，D _t) s.t. l(π _θ，M)≤l(

，M)；

其中，D _t表示第t个驾驶任务训练集中的知识，D _t={(s _k,a _k)|k=1,…,N}，

表示第t-1次训练时车辆路径跟踪策略，s.t.表示约束条件。

可选地，所述基于知识分布和知识质量，对当前梯度暂时记忆中知识进行更新，具体包括：

所述轨迹跟踪策略模型的训练过程中，满足sim(s _k,s _j)=

>η，(s _k,a _k)∈D _t，∀(s _j,a _j)∈M；

其中，η表示相似阈值，j不等于k，j=1,…,N；

根据公式

确定最佳知识，并将最佳知识(s _o,a _o)存储到当前梯度暂时记忆中；

其中，S _k表示知识的集合，EVAL()表示知识质量评估函数。

本发明公开了一种用于车辆自适应路径跟踪的终身学习系统，包括：

数据集采集模块，用于采集数据集，所述数据集包括车辆运动状态数据和与所述运动状态数据对应的操控数据；

多个驾驶任务训练集确定模块，用于将采集的所述数据集分为多个驾驶任务训练集；

轨迹跟踪策略模型和梯度暂时记忆初始化模块，用于初始化轨迹跟踪策略模型和梯度暂时记忆；所述梯度暂时记忆用于存储知识，所述知识包括所述轨迹跟踪策略模型的输入量和输出量；

轨迹跟踪策略模型训练模块，用于基于平均梯度暂时记忆的学习策略，根据多个驾驶任务训练集对轨迹跟踪策略模型进行迭代训练，获得训练好的轨迹跟踪策略模型：对于每个驾驶任务训练集，根据梯度暂时记忆确定参考梯度下降方向并以所述参考梯度下降方向为约束训练轨迹跟踪策略模型；当每个驾驶任务训练集训练轨迹跟踪策略模型后，基于知识分布和知识质量，对当前梯度暂时记忆中知识进行更新；

轨迹跟踪策略模型应用模块，用于采用训练好的轨迹跟踪策略模型对待控制车辆进行路径跟踪。

可选地，所述运动状态数据包括车辆速度，所述操控数据包括跟踪路径信息，所述跟踪路径信息包括预览点；

所述轨迹跟踪策略模型表示为：

δ=π _θ(P _ref，ξ)；

]，v _x表示车辆x轴速度，v _y表示车辆y轴速度，

表示车辆航向角变化率。

l(π _θ，M)=

(π _θ(s _k)-a _k)²，(s _k，a _k)∈M；

可选地，所述平均梯度暂时记忆的学习策略表示为：

(π _θ，D _t) s.t. l(π _θ，M)≤l(

，M)；

表示第t-1次训练时车辆路径跟踪策略，s.t.表示约束条件。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了一种用于车辆自适应路径跟踪的终身学习方法及系统，基于平均梯度暂时记忆的学习策略，确保知识均匀分布，根据所期望的记忆空间进行调整，基于知识分布和知识质量，对当前梯度暂时记忆中知识进行更新，从而进一步提升知识分布的均匀性和知识质量，使梯度暂时记忆保持性能最好的知识，提高了车辆自适应路径跟踪的适应性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种用于车辆自适应路径跟踪的终身学习方法流程示意图一；

图2为本发明一种用于车辆自适应路径跟踪的终身学习方法流程示意图二；

图3为本发明实施例采用的实验预设场景弯曲道路示意图；

图4为本发明实施例采用的实验环境可视化示意图；

图5为本发明实施例参考路径分段S1示意图；

图6为本发明实施例参考路径分段S2示意图；

图7为本发明实施例参考路径分段S3示意图；

图8为不同学习方法的学习性能对比示意图；

图9为对于参考路径分段S1使用三个学习策略执行路径跟踪的最大横向偏差对比示意图；

图10为对于参考路径分段S1使用不同学习策略进行路径跟踪任务的横向跟踪误差对比示意图；

图11为对于参考路径分段S1使用不同学习策略进行路径跟踪任务的车辆航向角和参考航向角对比示意图；

图12为对于参考路径分段S1使用不同学习策略进行路径跟踪任务的车辆转向控制输出对比示意图；

图13为本发明一种用于车辆自适应路径跟踪的终身学习系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明一种用于车辆自适应路径跟踪的终身学习方法流程示意图一，图2为本发明一种用于车辆自适应路径跟踪的终身学习方法流程示意图二

，如图1-图2所示，一种用于车辆自适应路径跟踪的终身学习方法包括：

步骤101：采集数据集，数据集包括车辆运动状态数据和与运动状态数据对应的操控数据。

运动状态数据包括车辆速度，操控数据包括跟踪路径信息，跟踪路径信息包括预览点。

其中，步骤101具体包括：采用任意传统轨迹跟踪策略采集车辆运动状态数据及对应的操控数据。

任意传统轨迹跟踪策略通常采用纯跟踪（pure pursuit）和动态模型预测控制（MPC）策略。

采集的车辆运动状态数据及对应的操控数据具体包含以下内容：在要跟踪的路径的信息方面，本发明采用了类似于纯追踪法的预览点方案，其中参考路径由前方的预览点表示。并且，使用距车辆的前进方向的特定距离从参考路径确定预览点。通过使用预览点表示，可以将连续参考曲线分解为每个控制周期的一个简单位置，这是一种非常方便有效的表示参考路径的方法。在车辆动态特性表示方面，将使用直接的车辆动态状态（如速度）来确定车辆动态特性。

步骤102：将采集的数据集分为多个驾驶任务训练集。

其中，步骤102具体包括：基于驾驶任务特征与时间特征将采集的数据分为不同的驾驶任务训练集。

步骤103：初始化轨迹跟踪策略模型π _θ和梯度暂时记忆M；梯度暂时记忆用于存储知识，知识包括轨迹跟踪策略模型的输入量和输出量。

结合数据采集中对应的路径跟踪信息与车辆动态特性两个方面的知识，车辆在路径跟踪任务中的横向控制量对应的车辆路径跟踪策略可以表示为：

δ=π _θ(P _ref，ξ)；

其中，δ表示车辆前轮偏角即车辆对应的横向控制量，π _θ表示由参数θ确定的车辆路径跟踪策略模型，P _ref表示预览点，P _ref=[x _ref，y _ref]，x _ref表示预览点的x轴坐标，y _ref表示预览点的y轴坐标，ξ表示车辆的动态状态数据，ξ=[v _x,v _y,

]，v _x表示车辆x轴速度，v _y表示车辆y轴速度，

表示车辆航向角变化率。

梯度暂时记忆M的初始化方法为初始化10000组空白数据单元，其中每一个数据单元对应训练集中对应的一组输入量[P _ref，ξ]与输出量δ。由于策略从收集到的驾驶经验中学习，因此可以获得历史控制动作和相应的车辆轨迹作为后验知识进而去学习与优化控制策略。因此，在策略学习中可以排除路径跟踪知识的现实控制误差，并可以学习真实的车辆响应和相应的动作。

对于自主系统，不同的任务通常指在不同环境中或具有不同目标的任务。因此，在这个问题中，任务可以通过不同的道路几何信息和不同的车辆动态状态来确定。然后，以不同路段和不同跟踪速度为指标，将不同任务从采集的数据中分离为时间连续集，这非常方便车载在线策略学习和更新。

步骤104：基于平均梯度暂时记忆的学习策略，根据多个驾驶任务训练集对轨迹跟踪策略模型进行迭代训练，获得训练好的轨迹跟踪策略模型：对于每个驾驶任务训练集，根据梯度暂时记忆确定参考梯度下降方向并以参考梯度下降方向为约束训练轨迹跟踪策略模型；当每个驾驶任务训练集训练轨迹跟踪策略模型后，基于知识分布和知识质量，对当前梯度暂时记忆中知识进行更新。

其中，步骤104具体包括：

对于一个驾驶任务训练集，根据梯度暂时记忆M计算参考梯度下降方向g _ref，并以梯度下降方向为约束并根据该驾驶任务训练集训练轨迹跟踪策略模型π _θ。

进一步地，计算参考梯度下降方向g _ref为策略模型π _θ对应的参数θ对于梯度暂时记忆M中储存的数据的优化方向，即在优化问题

中对应参数θ的梯度下降方向，其中路径跟踪策略训练的损失函数l(π _θ，M)通过均方误差（MSE）测量：

l(π _θ，M)=

(π _θ(s _k)-a _k)²，(s _k，a _k)∈M。

进一步地，以梯度下降方向g _ref为约束并根据该驾驶任务训练集训练轨迹跟踪策略模型π _θ过程如下：

在学习的第t个驾驶任务训练集中的知识可以描述为：

D _t={(s _k,a _k)|k=1,…,N}；

其中s _k=[x _ref，y _ref，v _x，v _y，v _r]表示模型状态，包括车辆动态状态和路径跟踪目标，a _k=δ _k表示相应的控制动作。

v _r表示车辆横摆角速度，N表示一个驾驶任务训练集中的数据量，a _k表示第k个驾驶任务数据中的车辆前轮偏角。

为了使策略随着更多的任务经验积累而不忘记之前的任务知识，本发明提出基于平均梯度梯度暂时记忆（A-GEM）进行路径跟踪策略持续多任务的学习与训练，即在学习新的路径跟踪策略知识时避免遗忘过往学习过的知识。具体地，基于A-GEM的策略学习过程为：

(π _θ，D _t) s.t. l(π _θ，M)≤l(

，M)；

其中，π _θ是带参数θ的策略模型，

是训练到任务t-1的模型，即表示第t-1次训练时车辆路径跟踪策略，s.t.表示约束条件。上式的优化目标是通过学习对应的最优参数θ使策略π _θ与D _t种知识的差异最小，即使路径跟踪策略π _θ能够学习任务t中的操控策略知识，同时该学习过程也应满足策略模型在当前学习过程中不降低其在先前任务中收集的梯度暂时记忆中的性能，即当前策略学习的损失不应高于之前任务学习的损失。上述策略学习过程可以简化为优化问题中梯度的优化，即找到一个上述学习过程中的参数梯度下降方向使得策略模型在当前训练数据中的损失降低同时不增加模型在已学习知识中的损失，其中用于减少训练损失的梯度应与参考梯度下降方向一致以确保策略进化的同时不遗忘已学习的知识：

；

其中g是在训练当前任务时计算的梯度下降方向，

表示期望的用于减少训练损失的梯度，T表示转置。上述优化问题可以当两个梯度的方向发生冲突时，通过以下方式得出解决方案：

；

其中梯度可以直接计算，并且与解决QP问题相比非常节省时间。通过使用

对策略学习过程进行优化，即可以实现策略在学习新任务时不遗忘已学习的知识，从而实现策略的持续学习与进化。

基于知识分布和知识质量，对当前梯度暂时记忆中知识进行更新，具体包括：

轨迹跟踪策略模型的训练过程中，满足sim(s _k,s _j)=

>η，(s _k,a _k)∈D _t，∀(s _j,a _j)∈M；

其中，η表示相似阈值，j不等于k，j=1,…,N；

根据公式

确定最佳知识，并将最佳知识(s _o,a _o)存储到当前梯度暂时记忆中。

其中，S _k表示知识的集合，EVAL()表示知识质量评估函数。

步骤104中，基于记忆评估和更新方法优化梯度暂时记忆M，过程如下：

通过应用平均梯度暂时记忆（A-GEM），在从新任务中学习新知识时，可以缓解灾难性的遗忘问题。但在路径跟踪问题中，不能保证新任务知识的质量总是超过已学习知识的质量，因此相比于直接对知识采样更新梯度暂时记忆，本发明提出了一种新的记忆更新方法。一方面，希望策略的持续学习能够推广到更多不同的环境去进行使用。另一方面，希望学习策略在新任务中学习新知识的同时，提高其在新任务中的表现。因此，记忆需要被构造为均匀分布的并尽可能覆盖状态空间，同时新知识应该与记忆中现有的知识的质量进行对比与替换，从而始终保持性能最好的知识。

进一步的，梯度暂时记忆M在每次完成对应策略学习后更新，并根据上述两方面规则，即知识分布与知识质量两方面进行更新，从而可以高效存储策略学习中的过往知识。对于知识分布而言，可以通过衡量不同数据之间的相似性从而对大量训练数据进行筛选，进而使得有限的记忆空间能够储存尽可以更大分布的数据。不同数据之间的相似性可以通过计算新数据与梯度暂时记忆内数据之间的欧氏距离而得到：

sim(s _k,s _j)=

>η，(s _k,a _k)∈D _t，∀(s _j,a _j)∈M

其中η为确保知识均匀分布的相似阈值，并可根据所期望的记忆空间进行调整。

进一步的，在保障了记忆中知识的均匀分布后，来自新任务的知识可能与梯度暂时记忆中存储的先验知识的相似度小于阈值η。在此基础上，将对知识的质量进行评估，并存储评价得分较高的知识：

；

其中，知识质量评估函数EVAL()可以根据策略需求的不同选取不同的质量评估函数，从而实现策略质量特性（如跟踪误差、侧向加速度等）的提升，S _k存储类似知识的集合对应于(s _k,a _k)∈D _t；

S _k={(s _k,a _k)U(s _j,a _j)|sim(s _k,s _j)≤η,(s _j,a _j)∈M}；

其中，(s _o,a _o)是S _k中最佳知识，(s _o,a _o)将被存储到梯度暂时记忆M中，而S _k中的其他记忆将不被保存在梯度暂时记忆M之中。

重复步骤104直至轨迹跟踪策略模型π _θ收敛且稳定。

步骤105：采用训练好的轨迹跟踪策略模型对待控制车辆进行路径跟踪。

其中，步骤105具体包括：在仿真或实车环境应用步骤104中训练完成的策略模型π _θ，并采集车辆运动状态数据及对应的操控数据，构建新的驾驶任务训练集，重复步骤104，从而使得智能车辆策略模型能够根据驾驶经验与场景变化进行实时调整与优化。

下面以具体实施例说明本发明一种用于车辆自适应路径跟踪的终身学习方法的技术效果。

本发明的一个具体实施例，为了获取策略训练和策略评估的数据，在MATLAB/SIMULINK和Vehicle Dynamic Toolbox的基础上，建立了一个可以近似复杂车辆动态的仿真环境。实验环境的说明如图3和图4所示，采用3DOF的车辆双轨模型进行车辆仿真，并选择曲线道路预设场景作为实验场景，其中具有不同道路曲率的丰富道路特征。参考路径是基于从弯曲道路中手动选择的一组选定路径点的插值来提取的。从参考路径中分割出三个具有不同特征的路段，以检验学习到的策略的适应性，避免过拟合，参考路径分段S1、S2和S3分别如图5、图6和图7所示。

为了收集策略学习的数据，采用基于车辆动态模型的模型预测控制(MPC)来跟踪路径并提供驾驶数据。为了收集尽可能多的驱动信息，在每个路段使用不同的速度剖面进行路径跟踪。由于本发明没有考虑纵向速度规划，而跟踪速度在3m/s到15m/s之间变化，因此基线方法可能无法在急转弯中进行路径跟踪，而在收集的数据集中将忽略失败的数据。将两层64个单元的神经网络应用于学习策略π _θ。将展望前方的距离设置为展望前方2米。

本发明的一个具体实施例，为了验证终身学习策略在无灾难性遗忘的多任务策略学习中的有效性，对不同学习方法在多任务知识持续学习中的策略学习性能进行了评估和比较。在实验环境中，以不同的参考速度从不同路段收集不同任务的知识，并应用于不同的学习方法，进行顺序多任务训练，对三种不同的学习方法进行评估和比较：

非终身学习方法（Non LL）：使用梯度下降法的常规策略学习方法，不考虑梯度下降方向为约束。

不考虑记忆评价的终身学习方法（LL No ME）：考虑梯度下降为约束的终身学习方法，但不考虑存储器将随机抽样而不是评估的存储器评估方案。

记忆评估终身学习法（LL-ME）：考虑梯度下降为约束并考虑记忆评估的终身学习法，其中评估被选为最小转向力：

EVAL(s,a)=

；

其中，s表示数据中的状态参量，a表示数据中的动作参量。

结果如图8所示，图8为不同策略学习方法在测试集中的平均MSE，其中收集的25组任务知识首先被划分为训练集和测试集，并且训练集被应用于使用上述三种学习方法学习策略。而这些方法的学习性能是通过所有学习任务测试集中的平均MSE来评估的。图8中横坐标表示学习任务的数量，纵坐标表示平均MSE(均方误差)。持续学习到k ^th任务的平均MSE可计算为：

；

其中，b _k,j是学习k ^th任务后j ^th任务测试集上的平均MSE。

结果表明，学习三到四个任务后，三种方法在所有任务中的性能都可以收敛。然而，随着学习到更多的新知识，非LL方法（Non-LL）可能会遇到灾难性遗忘问题，其中策略可能不再适用于先前的任务。与LL-no-ME和LL-ME相比，学习第15个任务和第40个任务后，非LL方法的表现更差，这主要是由于灾难性遗忘问题。这个问题使得非LL方法无法持续学习多任务知识。通过使用终身学习的方法，LL-no-ME和LL-ME可以在所有任务中保持学习性能的同时学习新知识，使其能够应用于在线算法自适应和进化。但LL-ME的性能比LL-no ME稍不稳定，后者可能是内存的评估和选择造成的。

本发明的一个具体实施例，路径跟踪任务中的策略评估，为了评估所提出的策略学习方法在路径跟踪场景中的适用性，对策略进行迭代训练并在实验环境中应用。为避免过度拟合，训练过程在两条分段路径S2和S3中进行，参考速度不同，而分段路径S1仅用作测试场景。在不断学习每个新任务后，该策略将应用于测试场景S1，以10m/s的参考速度执行路径跟踪。应用于测试场景S1的结果如图9所示，横坐标表示学习任务数量（tasklearned），纵坐标表示偏差（deviation），其中显示并比较了三种学习方法的性能。采用不同策略路径跟踪的平均偏差和最大偏差作为性能指标。

结果表明，终身学习方法经过一定数量的任务进化后，可以将策略性能保持在相对稳定的水平。而非LL方案即使在策略性能收敛后也可能遇到灾难性的遗忘问题。

本发明的一个具体实施例，为了进一步分析所提出方法的性能，将详细分析学习策略的性能，并将其与两种基线方法进行比较，这两种方法是纯追踪（PP）和用于数据收集的MPC（dynamic MPC）。由于非LL方法在第40个任务前后遇到了灾难性遗忘问题，在测试场景S1中它不再能够完成路径跟踪任务，因此在学习第39个任务后，所有方法的性能都进行了比较，如图10-图12所示。如图10所示，与两种基线方法相比，学习策略可以实现较小的横向跟踪误差。这证明了策略学习方法在学习更真实的车辆动力学模型时的适应性，其中，通过从真实驾驶体验中学习，可以更好地逼近动力学模型的非线性。图11中Reference表示参考线，参考线为跟踪目标在路径中航向角的变化。

在学习的策略中，LL-ME实现了最小的跟踪误差，其中非LL可以实现类似的性能，而LL-no-ME显示出更大的误差。通过应用记忆评估方案，跟踪误差的减少表明，对情节记忆的评估和调节有利于更好的策略性能。由于梯度暂时记忆被用作策略学习方向的约束，记忆结构和质量的更新和优化可以通过不断学习多任务知识帮助策略更好地进化。尽管非LL在遇到灾难性遗忘问题之前也能取得足够的表现，但在从新任务中学习知识后，它也可能在一定程度上失去对先前学习知识的忠实性。如图12所示，与其他方法相比，非LL的转向控制在转向时稍微不稳定，而通过使用终身学习方法LL-ME和LL-no-ME，可以保证更平稳的转向控制。

本发明能够有效地利用连续的多任务知识进行进化，并能适应新的环境，进化后的性能也能超过两种常用的基线方法，具有较强的新颖性、自适应性、实用性。

图13为本发明一种用于车辆自适应路径跟踪的终身学习系统结构示意图，如图13所示，一种用于车辆自适应路径跟踪的终身学习系统，包括：

数据集采集模块201，用于采集数据集，数据集包括车辆运动状态数据和与运动状态数据对应的操控数据。

多个驾驶任务训练集确定模块202，用于将采集的数据集分为多个驾驶任务训练集。

轨迹跟踪策略模型和梯度暂时记忆初始化模块203，用于初始化轨迹跟踪策略模型和梯度暂时记忆；梯度暂时记忆用于存储知识，知识包括轨迹跟踪策略模型的输入量和输出量。

轨迹跟踪策略模型训练模块204，用于基于平均梯度暂时记忆的学习策略，根据多个驾驶任务训练集对轨迹跟踪策略模型进行迭代训练，获得训练好的轨迹跟踪策略模型：对于每个驾驶任务训练集，根据梯度暂时记忆确定参考梯度下降方向并以参考梯度下降方向为约束训练轨迹跟踪策略模型；当每个驾驶任务训练集训练轨迹跟踪策略模型后，基于知识分布和知识质量，对当前梯度暂时记忆中知识进行更新。

轨迹跟踪策略模型应用模块205，用于采用训练好的轨迹跟踪策略模型对待控制车辆进行路径跟踪。

轨迹跟踪策略模型表示为：

δ=π _θ(P _ref，ξ)；

]，v _x表示车辆x轴速度，v _y表示车辆y轴速度，

表示车辆航向角变化率。

轨迹跟踪策略模型进行训练的损失函数的计算公式表示为：

l(π _θ，M)=

(π _θ(s _k)-a _k)²，(s _k，a _k)∈M；

其中，l(π _θ，M)表示损失函数，M表示梯度暂时记忆，s _k=[x _ref，y _ref，v _x，v _y，v _r]，v _r表示车辆横摆角速度，N表示一个驾驶任务训练集中的数据量，a _k表示第k个驾驶任务数据中的车辆前轮偏角。

平均梯度暂时记忆的学习策略表示为：

(π _θ，D _t) s.t. l(π _θ，M)≤l(

，M)；

表示第t-1次训练时车辆路径跟踪策略，s.t.表示约束条件。

轨迹跟踪策略模型的训练过程中，满足sim(s _k,s _j)=

>η，(s _k,a _k)∈D _t，∀(s _j,a _j)∈M；

其中，η表示相似阈值，j不等于k，j=1,…,N；

根据公式

其中，S _k表示知识的集合，EVAL()表示知识质量评估函数。

本领域技术人员可以理解，实现上述实施例中方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。