CN110221611A

CN110221611A - 一种轨迹跟踪控制方法、装置及无人驾驶车辆

Info

Publication number: CN110221611A
Application number: CN201910502179.3A
Authority: CN
Inventors: 付圣; 颜诗涛; 任冬淳; 钱德恒; 丁曙光
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2019-09-10
Anticipated expiration: 2039-06-11
Also published as: CN110221611B

Abstract

本申请公开了一种轨迹跟踪控制方法、装置及无人驾驶车辆，轨迹跟踪控制方法包括：获取所述无人驾驶车辆的第一状态信息；所述第一状态信息包括指示第一时刻所述无人驾驶车辆与期望轨迹的位置偏差量；将所述第一状态信息输入至长短期记忆神经网络，获得所述长短期记忆神经网络输出的第一控制量；依据预测的一段时间内的多个所述第一状态信息评价所述第一控制量，当评价结果为好评时，控制所述无人驾驶车辆根据所述第一控制量执行动作，实现轨迹跟踪。利用长短期记忆神经网络输出控制量并对长短期记忆神经网络输出的结果进行预测评价，防止出现危险动作情况，提高了轨迹跟踪控制的安全性、鲁棒性和稳定性。

Description

一种轨迹跟踪控制方法、装置及无人驾驶车辆

技术领域

本申请涉及无人驾驶技术领域，具体涉及一种轨迹跟踪控制方法、装置及无人驾驶车辆。

背景技术

无人驾驶车辆是通过车载传感系统感知道路环境，自动规划行车路线并根据感知的道路、车辆位置和障碍物信息，控制车辆的转向和速度，使车辆能够安全、可靠地在道路上行驶的智能系统。轨迹跟踪控制是车辆自动转向过程中的基本控制问题之一，它要求无人驾驶车辆在指定的时间到达给定的或规划的轨迹点。目前，轨迹跟踪控制算法主要有基于跟踪误差反馈控制以及基于车辆动力学模型控制。基于跟踪误差反馈控制主要是由跟踪误差乘以一个比例系数来得到控制量，控制量包括油门刹车和方向盘转角，代表算法有PID(比例-积分-微分控制器)，LQR(Linear Quadratic Regulator，线性二次型调节器)等。而基于车辆动力学模型控制是选择一个动作，预测未来一段时间的跟踪误差，优化选择的动作，使得预测的跟踪误差最小。

这两种算法都有其缺点，比如，基于跟踪误差反馈控制参数难以调节，无法适应所有场景；基于车辆动力学模型控制的缺点是无法精确建模车辆动力学模型，导致控制效果有限；对不同场景的适应性不同，比如曲率较小的轨迹跟踪效果好，但是曲率较大时跟踪效果变差。

因此，有必要对轨迹跟踪控制进行改进。

发明内容

有鉴于此，本申请提供了一种轨迹跟踪控制方法、装置及无人驾驶车辆，无需进行车辆动力学建模，使无人驾驶车辆不断探索自我学习，适应各种新环境，并且使动作输出更加稳定，平顺。

根据本申请的一个方面，提供了一种轨迹跟踪控制方法，应用于无人驾驶车辆，包括：

获取所述无人驾驶车辆的第一状态信息；所述第一状态信息包括指示第一时刻所述无人驾驶车辆与期望轨迹的位置偏差量；

将所述第一状态信息输入至长短期记忆神经网络，获得所述长短期记忆神经网络输出的第一控制量；

依据预测的一段时间内的多个所述第一状态信息评价所述第一控制量，当评价结果为好评时，控制所述无人驾驶车辆根据所述第一控制量执行动作，实现轨迹跟踪。

根据本申请的另一个方面，提供了一种轨迹跟踪控制装置，应用于无人驾驶车辆，包括：

状态获取模块，用于获取所述无人驾驶车辆内的期望轨迹的第一状态信息，所述第一状态信息包括指示第一时刻所述期望轨迹与所述无人驾驶车辆的位置偏差量；

控制量获取模块，用于将所述第一状态信息输入至长短期记忆神经网络，获得所述长短期记忆神经网络输出的第一控制量；

跟踪控制模块，用于依据预测的一段时间内的多个所述第一状态信息评价所述第一控制量，当评价结果为好评时，控制所述无人驾驶车辆根据所述第一控制量执行动作，实现轨迹跟踪。

根据本申请的又一个方面，提供了一种无人驾驶车辆，包括处理器和存储器，所述存储器中存储有可执行代码；

所述处理器，执行所述可执行代码时实现本申请一个方面所述的方法。

根据本申请的再一个方面，提供了一种非瞬时性计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本申请一个方面所述的方法。

有益效果：应用本申请实施例的轨迹跟踪控制方法，获取无人驾驶车辆的第一状态信息，将第一状态信息输入至长短期记忆神经网络，获得长短期记忆神经网络输出的第一控制量；依据预测的一段时间内的多个第一状态信息评价第一控制量，当评价结果为好评时，控制无人驾驶车辆动作实现轨迹跟踪。首先，由于使用与期望轨迹的跟踪误差(即第一状态信息)作为神经网络的输入，在仿真环境和真实环境下，跟踪误差都是一样的，因此在仿真环境中训练好的轨迹跟踪控制模型，更容易迁移到实际场景中。其次，对环境的适应性更好，通过长短期记忆神经网络将历史时刻的信息作为当前输入，使得输出更加平顺，舒适性提升，并且不需要建立车辆动力学模型。最后，对长短期记忆神经网络输出的结果进行预测评价，防止长短期记忆神经网络输出结果可能出现的稳态跟踪误差及危险动作情况，使得长短期记忆神经网络的输出动作更加鲁棒，稳定，提高了轨迹跟踪控制的安全性。本申请实施例的无人驾驶车辆使用本实施例的轨迹跟踪控制，从而行驶更安全、可靠。

附图说明

图1是本申请一个实施例的轨迹跟踪控制方法的流程图；

图2是本申请一个实施例的轨迹跟踪控制方法的整体架构示意图；

图3是本申请一个实施例的轨迹跟踪控制装置的框图；

图4是本申请一个实施例无人驾驶车辆的框图；

图5是本申请一个实施例非瞬时性计算机可读存储介质的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请一个实施例的轨迹跟踪控制方法的流程图，参见图1，本实施例的轨迹跟踪控制方法包括下列步骤：

步骤S101，获取所述无人驾驶车辆的第一状态信息；所述第一状态信息包括指示第一时刻所述无人驾驶车辆与期望轨迹的位置偏差量；

步骤S102，将所述第一状态信息输入至长短期记忆神经网络，获得所述长短期记忆神经网络输出的第一控制量；

步骤S103，依据预测的一段时间内的多个所述第一状态信息评价所述第一控制量，当评价结果为好评时，控制所述无人驾驶车辆根据所述第一控制量执行动作，实现轨迹跟踪。

由图1所示可知，本实施例的轨迹跟踪控制方法，通过获取第一时刻无人驾驶车辆与期望轨迹的位置偏差量，将位置偏差量输入到长短期记忆神经网络中，得到第一控制量，对第一控制量进行评价，当评价结果为好评时才控制无人驾驶车辆执行动作实现轨迹跟踪。由于仿真环境和真实环境下，跟踪误差相同，所以在仿真环境中训练好的模型更容易迁移到实际应用场景中。并且使用长短期记忆神经网路LSTM来泛化跟踪误差，使得本实施例的方法对环境的适应性更好，输出动作更加平顺，舒适性提升。最后，对LSTM输出结果进行评价，防止可能出现的稳态跟踪误差及危险动作情况，使得整个系统的输出动作更加鲁棒，稳定，提高了轨迹跟踪控制的安全性。

这里的控制量是一些用于驱动车辆跟踪期望轨迹的车辆控制信号，比如油门，刹车，方向盘转角中的一个或多个的组合。

图2是本申请一个实施例的轨迹跟踪控制方法的整体架构示意图，以下结合图2对本实施例的轨迹跟踪控制方法的整体架构和实现步骤进行说明。

如图2所示，本实施例的轨迹跟踪控制方法包含离线训练和在线计算两大步骤。其中，离线训练步骤又包括：A3C深度强化学习模型训练、LSTM模型的训练。在线计算步骤包括：LSTM计算以及MPC预测评价两部分。

需要说明的是，在一次轨迹跟踪控制过程中，离线训练不是必须的，可以在轨迹跟踪控制之前预先进行离线训练并保存训练结果。为便于理解，这里先对离线训练过程进行说明。

如图2所示，离线训练包括A3C深度强化学习模型训练、LSTM模型的训练。A3C是一种深度强化学习算法，强化学习是一种自学习的方法，该算法主要包括两个主体：智能体agent以及与agent交互的环境，具体到本实施例中智能体即无人驾驶车辆，环境即无人驾驶车辆要跟踪的轨迹x。强化学习的基本思想是使具备强化学习能力的智能体(Agent)逐渐的从自身的经验中学习到与环境之间最有效的交互方式，而不是事先告诉智能体如何与环境交互。具体的，当无人车在状态s(t)时，采取一个动作action a(t)，然后会获得一个回报r(t)，并跳到下一个状态s(t+1)，智能体与环境不断的交互，反复进行以上过程，训练智能体以采取累计回报高的动作。

A3C深度强化学习算法的agent包含动作器actor和评价器critic，actor根据环境观测到的状态state，输出一个动作action，评价器对输出的动作进行好坏评估，如果动作被认为是好的，那么就调整动作器网络(Actor Network)使该动作出现的可能性增加。反之如果动作被认为是坏的，则使该动作出现的可能性减少。通过反复的训练，不断调整行动网络找到最优的动作。

图2所示的A3C深度强化学习模型训练包括与期望跟踪的轨迹进行交互，获取经验数据，进行actor-critic网络参数的更新不断增强学习能力。A3C模型训练完成之后，用其中的actor去跟踪轨迹，获得经验数据。接着用这些经验数据(s(t)，a(t))作为长短期记忆神经网络(Long Short-Term Memory，简称LSTM)LSTM模型的训练数据，根据LSTM的损失函数即loss函数完成对LSTM的训练。至此，离线训练阶段完成。

本实施例中通过与期望轨迹的跟踪误差作为A3C深度强化学习模型的输入，A3C训练更快，更容易收敛到全局最优解，对于无人驾驶模块间的分工更加明确，可解释性更强。

继续参见图2，在线计算时，根据获得的第一状态信息，即跟踪误差s(t)，由离线阶段训练完成的长短期记忆神经网络LSTM先输出一个控制量a(t)，模型预测控制器(ModelPredictive Control，简称MPC)MPC利用模型预测功能预测评价LSTM输出动作(对轨迹跟踪控制而言，动作即控制量)的好坏，如果MPC评价该动作好，则直接输出当前控制量给车辆底层机构去执行，如果MPC评价该动作不好，则由MPC重新计算一个更优的动作a'(t)输出给车辆底层机构执行。如果采用MPC重新计算最优控制量a'(t)，则设置s(t)采取a'(t)获得积极的回报r'(t)，s(t)采取a(t)获得惩罚r(t)，保存数据序列(s(t),a(t),r(t),s(t+1))及(s(t),a'(t),r'(t),s'(t+1))，供actor-critic网络再次训练更新策略，并用长短期记忆神经网络LSTM泛化无人车轨迹跟踪的策略，以提高轨迹跟踪控制方法模型对各种应用场景的适应性。

一次轨迹跟踪控制过程中，如前述，在线计算步骤具体包括LSTM计算以及MPC预测评价两部分；LSTM计算包括：获取无人驾驶车辆的第一状态信息s(t)；第一状态信息包括指示第一时刻所述无人驾驶车辆与期望轨迹的位置偏差量；将第一状态信息s(t)输入至长短期记忆神经网络LSTM，获得长短期记忆神经网络LSTM输出的第一控制量a(t)。这里的长短期记忆神经网络LSTM是离线阶段训练完成的长短期记忆神经网络LSTM。

MPC预测评价包括：通过模型预测控制器MPC依据预测的一段时间内的多个第一状态信息评价第一控制量a(t)，当评价结果为好评时，控制无人驾驶车辆根据第一控制量a(t)执行动作，实现轨迹跟踪。在依据预测的一段时间内的多个第一状态信息评价所述第一控制量之后，当评价结果为差评时，通过模型预测控制器MPC根据获取的第一状态信息s(t)生成第二控制量a’(t)，控制无人驾驶车辆根据第二控制量a’(t)执行动作，实现轨迹跟踪，其中，第二控制量a’(t)的评价结果为好评。

需要强调的是，如图2中所示，本实施例的离线训练步骤中根据A3C深度强化学习模型输出的经验数据训练长短期记忆神经网络LSTM，也就是说，本实施例中在将第一状态信息输入至长短期记忆神经网络之前，方法进一步包括：预先训练深度强化学习模型，确定出深度强化学习模型的策略参数；深度强化学习模型用于将状态信息映射为无人驾驶车辆的控制量；根据深度强化学习模型输出的经验数据，训练长短期记忆神经网络。

深度强化学习模型训练过程简言之是与环境交互获取经验数据(第一状态，动作，回报，下一个状态)→计算网络梯度更新网络参数。具体来说，预先训练深度强化学习模型包括：获取样本数据，样本数据是由第一样本状态信息S(t)，第一样本控制量A(t)，奖励分数R(t)和第二样本状态信息S(t+1)组成的序列(S(t)，A(t)，R(t)，S(t+1))；其中，第二样本状态S(t+1)是所述无人驾驶车辆在第一样本状态S(t)下，根据所述第一样本控制量A(t)执行动作后迁移到的状态，所述第一样本状态信息S(t)包括指示第一样本时刻所述无人驾驶车辆与样本轨迹的位置偏差量；将样本数据(S(t)，A(t)，R(t)，S(t+1))输入至A3C深度强化学习模型中进行训练，得到A3C深度强化学习模型的策略参数。

策略参数决定了A3C深度强化学习模型对一个输入的状态信息输出何种动作/控制量。

由上可知，本实施例中使用深度强化学习A3C算法来学习无人驾驶车辆轨迹跟踪策略参数从而无需进行车辆动力学建模，强化学习不断探索自我学习的特性。

参见图2，根据深度强化学习模型输出的经验数据，训练长短期记忆神经网络，具体包括：将A3C深度强化学习模型输出的经验数据(S(t)，A(t))作为训练数据，具体的是输入状态S(t)至长短期记忆神经网络LSTM并训练长短期记忆神经网络输出动作/控制量A(t)；其中，经验数据(S(t)，A(t))是由第一样本状态信息S(t)以及第一样本控制量A(t)组成的序列。

本实施例中之所以根据深度强化学习模型输出的经验数据，训练长短期记忆神经网络是为了通过长短期记忆神经网络LSTM泛化A3C得到的轨迹跟踪策略，使得学习到的策略(即A3C深度强化学习模型的参数)可以适应更多的场景。

具体的，将深度强化学习模型输出的经验数据作为训练数据，输入至长短期记忆神经网络并训练所述长短期记忆神经网络包括：将经验数据中的所述第一样本状态信息，所述长短期记忆神经网络在第二样本时刻输出的长期记忆信息以及短期记忆信息共同作为输入数据，输入到所述长短期记忆神经网络中训练所述长短期记忆神经网络，得到输出的控制量；其中，所述控制量与第一样本控制量的差值小于第一阈值，且所述控制量与第一均值的差值小于第二阈值，所述第一均值根据第一样本时刻之前的预设时间段内多个第一样本控制量确定，所述第二样本时刻是与所述第一样本时刻相邻的上一个时刻。

比如，输入状态S(t)以及S(t-1)时刻，长短期记忆神经网络LSTM输出的长期记忆项、短期记忆项到长短期记忆神经网络中以训练长短期记忆神经网络LSTM用于输出S(t)状态下的动作a(t)。长短期记忆神经网络LSTM优化的目标是a(t)与经验数据中的A(t)尽可能接近，并且使a(t)与a(t-N)，a(t-N+1)，...a(t-1)的均值之差不超过预设阈值，即a(t)与a(t-N)，a(t-N+1)，...a(t-1)的均值相差不能过大。由此，通过将历史状态和历史输出动作作为当前时刻的输入进行当前时刻动作的计算使得长短期记忆神经网络LSTM输出的动作更加平顺，提升舒适性。

另外，前述第一状态信息以及所述第一样本状态信息中还包括：附着系数，所述附着系数指示所述无人驾驶车辆的轮胎在路面上的附着能力。与现有技术相比，本实施例在模型训练阶段即考虑到地面附着性能对控制效果的影响，因此，本实施例的轨迹跟踪控制增强了对各种路面情况的适应性。这里的路面情况比如积水路面、积雪路面等。

本实施例中，依据预测的一段时间内的多个所述第一状态信息，对所述第一控制量进行评价得到评价结果包括：通过模型预测控制器MPC预测所述第一时刻之后的一段时间内的所述第一状态信息；将各所述第一状态信息进行归一化处理后相加，得到跟踪误差值；比较所述跟踪误差值与预设误差阈值的大小；如果所述跟踪误差值小于所述预设误差阈值，则确定所述第一控制量的评价结果为好评；如果所述跟踪误差值大于或等于所述预设误差阈值，则确定所述第一控制量的评价结果为差评。

比如，通过模型预测控制器MPC预测第一时刻之后的一段时间内的所述第一状态信息，即，预测未来N时刻以内总的跟踪误差，也就是S＝s(t+1)+s(t+2)+...+s(t+N)，然后比较这段时间以内总的跟踪误差S与设定的阈值SP的大小，如果总的跟踪误差S比阈值SP小，则直接输出第一控制量a(t)，若总的跟踪误差S比阈值SP大，则MPC重新计算最优控制量，即第二控制量a'(t)输出。这里的模型预测控制器MPC基于运动学模型实现，运动学模型是一种通用的能够描述车辆的运动规律的模型，该运动学模型是一个简化的模型。

需要说明的是，本实施例中，在通过模型预测控制器MPC根据获取的所述第一状态信息生成第二控制量之后，方法还包括：记录在第一状态下，所述无人驾驶车辆根据所述第二控制量执行动作后获得的第一奖励分数，以及所述无人驾驶车辆根据所述第一控制量执行动作后获得的第二奖励分数，保存由所述第一状态信息，所述第一控制量，所述第一奖励分数和第二状态信息组成的第一序列，以及由所述第一状态信息，所述第二控制量，所述第二奖励分数和第二状态信息组成的第二序列；其中，所述第二奖励分数小于所述第一奖励分数，所述第二状态是所述无人驾驶车辆在第一状态下，根据所述第一控制量执行动作后迁移到的状态；将所述第一序列和所述第二序列作为样本数据，输入到所述深度强化学习模型中进行训练，以更新所述深度强化学习模型的策略参数。

也就是说，当MPC评价该动作(即第一控制量)不好并重新计算最优控制量a'(t)之后，设置在跟踪误差s(t)下采取动作a'(t)获得积极回报r'(t)，在跟踪误差s(t)下采取动作a(t)获得惩罚r(t)，保存数据序列(s(t)，a(t)，r(t)，s(t+1))及(s(t)，a'(t)，r'(t)，s'(t+1))并反馈回A3C actor-critic网络供再次训练A3C深度强化学习模型更新其策略，避免不好的动作再次产生，以此循环，让好的动作重复，坏的动作淘汰。

与前述轨迹跟踪控制方法同属于一个技术构思，本实施例还提供了一种轨迹跟踪控制装置，参见图3，本实施例的轨迹跟踪控制装置300，应用于无人驾驶车辆，包括：

状态获取模块301，用于获取所述无人驾驶车辆内的期望轨迹的第一状态信息，所述第一状态信息包括指示第一时刻所述期望轨迹与所述无人驾驶车辆的位置偏差量；

控制量获取模块302，用于将所述第一状态信息输入至长短期记忆神经网络，获得所述长短期记忆神经网络输出的第一控制量；

跟踪控制模块303，用于依据预测的一段时间内的多个所述第一状态信息评价所述第一控制量，当评价结果为好评时，控制所述无人驾驶车辆根据所述第一控制量执行动作，实现轨迹跟踪。

在本申请的一个实施例中，跟踪控制模块303还用于当评价结果为差评时，通过模型预测控制器MPC根据获取的所述第一状态信息生成第二控制量，控制所述无人驾驶车辆根据所述第二控制量执行动作，实现轨迹跟踪，其中，所述第二控制量的评价结果为好评。

在本申请的一个实施例中，控制量获取模块302具体用于预先训练深度强化学习模型，确定出深度强化学习模型的策略参数；所述深度强化学习模型用于将状态信息映射为所述无人驾驶车辆的控制量；根据所述深度强化学习模型输出的经验数据，训练所述长短期记忆神经网络。

在本申请的一个实施例中，跟踪控制模块303具体用于记录在第一状态下，所述无人驾驶车辆根据所述第二控制量执行动作后获得的第一奖励分数，以及所述无人驾驶车辆根据所述第一控制量执行动作后获得的第二奖励分数，保存由所述第一状态信息，所述第一控制量，所述第一奖励分数和第二状态信息组成的第一序列，以及由所述第一状态信息，所述第二控制量，所述第二奖励分数和第二状态信息组成的第二序列；其中，所述第二奖励分数小于所述第一奖励分数，所述第二状态是所述无人驾驶车辆在第一状态下，根据所述第一控制量执行动作后迁移到的状态；将所述第一序列和所述第二序列作为样本数据，输入到所述深度强化学习模型中进行训练，以更新所述深度强化学习模型的策略参数。

在本申请的一个实施例中，控制量获取模块302具体用于获取样本数据，所述样本数据是由第一样本状态信息，第一样本控制量，奖励分数和第二样本状态信息组成的序列；其中，所述第二样本状态是所述无人驾驶车辆在第一样本状态下，根据所述第一样本控制量执行动作后迁移到的状态，所述第一样本状态信息包括指示第一样本时刻所述无人驾驶车辆与样本轨迹的位置偏差量；将所述样本数据输入至所述深度强化学习模型中进行训练，得到所述深度强化学习模型的策略参数。

在本申请的一个实施例中，第一状态信息以及所述第一样本状态信息中还包括：附着系数，所述附着系数指示所述无人驾驶车辆的轮胎在路面上的附着能力。

在本申请的一个实施例中，控制量获取模块302具体用于将所述深度强化学习模型输出的经验数据作为训练数据，输入至所述长短期记忆神经网络并训练所述长短期记忆神经网络；其中，所述经验数据是由第一样本状态信息以及第一样本控制量组成的序列。

在本申请的一个实施例中，控制量获取模块302具体用于，将经验数据中的所述第一样本状态信息，所述长短期记忆神经网络在第二样本时刻输出的长期记忆信息以及短期记忆信息共同作为输入数据，输入到所述长短期记忆神经网络中训练所述长短期记忆神经网络，得到输出的控制量；其中，所述控制量与第一样本控制量的差值小于第一阈值，且所述控制量与第一均值的差值小于第二阈值，所述第一均值根据第一样本时刻之前的预设时间段内多个第一样本控制量确定，所述第二样本时刻是与所述第一样本时刻相邻的上一个时刻。

在本申请的一个实施例中，跟踪控制模块303具体用于，通过模型预测控制器MPC预测所述第一时刻之后的一段时间内的所述第一状态信息；将各所述第一状态信息进行归一化处理后相加，得到跟踪误差值；比较所述跟踪误差值与预设误差阈值的大小；如果所述跟踪误差值小于所述预设误差阈值，则确定所述第一控制量的评价结果为好评；如果所述跟踪误差值大于或等于所述预设误差阈值，则确定所述第一控制量的评价结果为差评。

综上所述，本实施例的轨迹跟踪控制方法和装置，将第一状态信息即当前位置与期望轨迹的跟踪误差作为长短期记忆神经网络的输入，由于仿真环境和真实环境下，跟踪误差都是一样的，因此在仿真环境中训练好的长短期记忆神经网络，更容易迁移到实际应用场景中。使用长短期记忆神经网络模型LSTM来泛化A3C深度强化学习的策略，使得本实施例的轨迹跟踪控制对环境的适应性更好，并且将历史时刻的信息也作为当前输入，使得长短期记忆神经网络LSTM输出更加平顺，提升舒适性。采取模型预测控制器MPC对长短期记忆神经网络LSTM输出的结果进行预测评价，防止LSTM输出结果可能出现的稳态跟踪误差及危险动作情况，并纠正误差，使得整个系统的输出动作更加鲁棒，稳定，提高了轨迹跟踪控制的安全性。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的页面性能测试装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图4是本申请一个实施例无人驾驶车辆的框图，该无人驾驶车辆400包括：处理器410，以及存储有可在所述处理器410上运行的计算机程序的存储器420。处理器410，用于在执行所述存储器420中的计算机程序时执行本申请中方法的各步骤。存储器420可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器420具有存储用于执行上述方法中的任何方法步骤的计算机程序431的存储空间430。计算机程序431可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图5所述的计算机可读存储介质。

图5是本申请一个实施例非瞬时性计算机可读存储介质的结构示意图。该计算机可读存储介质500存储有用于执行根据本申请的方法步骤的计算机程序431，可以被无人驾驶车辆400的处理器410读取，当计算机程序431由无人驾驶车辆400运行时，导致该无人驾驶车辆400执行上面所描述的方法中的各个步骤，具体来说，该计算机可读存储介质存储的计算程序431可以执行上述任一实施例中示出的方法。计算机程序431可以以适当形式进行压缩。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种轨迹跟踪控制方法，应用于无人驾驶车辆，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述在依据预测的一段时间内的多个所述第一状态信息评价所述第一控制量之后，所述方法进一步包括：

当评价结果为差评时，通过模型预测控制器MPC根据获取的所述第一状态信息生成第二控制量，控制所述无人驾驶车辆根据所述第二控制量执行动作，实现轨迹跟踪，

其中，所述第二控制量的评价结果为好评。

3.如权利要求2所述的方法，其特征在于，所述在将所述第一状态信息输入至长短期记忆神经网络之前，所述方法进一步包括：

预先训练深度强化学习模型，确定出深度强化学习模型的策略参数；所述深度强化学习模型用于将状态信息映射为所述无人驾驶车辆的控制量；

根据所述深度强化学习模型输出的经验数据，训练所述长短期记忆神经网络。

4.如权利要求3所述的方法，其特征在于，在通过模型预测控制器MPC根据获取的所述第一状态信息生成第二控制量之后，所述方法还包括：

记录在第一状态下，所述无人驾驶车辆根据所述第二控制量执行动作后获得的第一奖励分数，以及所述无人驾驶车辆根据所述第一控制量执行动作后获得的第二奖励分数，

保存由所述第一状态信息，所述第一控制量，所述第一奖励分数和第二状态信息组成的第一序列，以及由所述第一状态信息，所述第二控制量，所述第二奖励分数和第二状态信息组成的第二序列；其中，所述第二奖励分数小于所述第一奖励分数，所述第二状态是所述无人驾驶车辆在第一状态下，根据所述第一控制量执行动作后迁移到的状态；

将所述第一序列和所述第二序列作为样本数据，输入到所述深度强化学习模型中进行训练，以更新所述深度强化学习模型的策略参数。

5.如权利要求3所述的方法，其特征在于，所述预先训练深度强化学习模型包括：

获取样本数据，所述样本数据是由第一样本状态信息，第一样本控制量，奖励分数和第二样本状态信息组成的序列；其中，所述第二样本状态是所述无人驾驶车辆在第一样本状态下，根据所述第一样本控制量执行动作后迁移到的状态，所述第一样本状态信息包括指示第一样本时刻所述无人驾驶车辆与样本轨迹的位置偏差量；

将所述样本数据输入至所述深度强化学习模型中进行训练，得到所述深度强化学习模型的策略参数。

6.如权利要求5所述的方法，其特征在于，所述第一状态信息以及所述第一样本状态信息中还包括：附着系数，

所述附着系数指示所述无人驾驶车辆的轮胎在路面上的附着能力。

7.如权利要求3所述的方法，其特征在于，所述根据所述深度强化学习模型输出的经验数据，训练所述长短期记忆神经网络包括：

将所述深度强化学习模型输出的经验数据作为训练数据，输入至所述长短期记忆神经网络并训练所述长短期记忆神经网络；

其中，所述经验数据是由第一样本状态信息以及第一样本控制量组成的序列。

8.如权利要求7所述的方法，其特征在于，所述将所述深度强化学习模型输出的经验数据作为训练数据，输入至所述长短期记忆神经网络并训练所述长短期记忆神经网络包括：

将经验数据中的所述第一样本状态信息，所述长短期记忆神经网络在第二样本时刻输出的长期记忆信息以及短期记忆信息共同作为输入数据，输入到所述长短期记忆神经网络中训练所述长短期记忆神经网络，得到输出的控制量；

其中，所述控制量与第一样本控制量的差值小于第一阈值，且所述控制量与第一均值的差值小于第二阈值，

所述第一均值根据第一样本时刻之前的预设时间段内多个第一样本控制量确定，

所述第二样本时刻是与所述第一样本时刻相邻的上一个时刻。

9.如权利要求1-8中任一项所述的方法，其特征在于，所述依据预测的一段时间内的多个所述第一状态信息，对所述第一控制量进行评价得到评价结果包括：

通过模型预测控制器MPC预测所述第一时刻之后的一段时间内的所述第一状态信息；

将各所述第一状态信息进行归一化处理后相加，得到跟踪误差值；

比较所述跟踪误差值与预设误差阈值的大小；

如果所述跟踪误差值小于所述预设误差阈值，则确定所述第一控制量的评价结果为好评；

如果所述跟踪误差值大于或等于所述预设误差阈值，则确定所述第一控制量的评价结果为差评。

10.一种轨迹跟踪控制装置，应用于无人驾驶车辆，其特征在于，包括：

11.一种无人驾驶车辆，包括处理器和存储器，其特征在于，

所述存储器中存储有可执行代码；

所述处理器，执行所述可执行代码时实现权利要求1-9中任一项所述的方法。

12.一种非瞬时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-9中任一项所述的方法。