CN112906882B

CN112906882B - 利用模型预测控制的逆向强化学习

Info

Publication number: CN112906882B
Application number: CN202010472645.0A
Authority: CN
Inventors: 赵金鑫; 张良俊
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2019-12-03
Filing date: 2020-05-29
Publication date: 2024-01-16
Anticipated expiration: 2040-05-29
Also published as: US11579575B2; US20210165375A1; CN112906882A

Abstract

本文描述了用于逆向强化学习以利用基于模型的优化方法和无模型学习方法的优势的系统和方法。提出了将人类行为模型与模型预测控制相结合的框架的实施方式。该框架利用神经网络的特征识别能力来确定模型预测控制的奖励函数。此外，实施本方法的实施方式，以解决实际的自动驾驶纵向控制问题，同时优先考虑安全执行和乘客舒适度。

Description

利用模型预测控制的逆向强化学习

技术领域

本公开总体上涉及具有改进的性能、特征和用途的用于机器学习的系统和方法。

背景技术

通过预见未来而选择最具成效的选项，是模型预测控制(MPC)的性质的描述。MPC意欲在每个时间点通过对优化问题进行求解来找到控制输入。从工业和研究这两个角度，都对MPC产生极大的关注。MPC的工业应用始于化学过程控制领域。除了工业应用，MPC还是大量研究项目中正在进行的研究主题。实时MPC方案被描述为用于控制人形机器人，其中MPC基于接收到的子任务产生用于全身动力学的轨迹。随着当今自动驾驶车辆的迅猛发展，MPC在这些领域看起来愈发重要。纵向控制方法被描述为用于自适应巡航控制和车辆牵引控制，以改善车辆排放和燃料消耗效率。同时，主动转向侧向车辆控制侧重于避免碰撞，其通过具有用于预测的合理的动力学模型的MPC实施而实现。

除去MPC所有优点和成功的应用，它仍然存在某些缺点，例如难以选择参数和缺乏适应性。在实施MPC期间，诸如预测范围和优化增益的参数的选择需要进行大量的试验，并且在环(HIL)测试时无论在仿真还是硬件中都会出现错误。另外，先前经过微调的MPC控制器在大多数情况下都无法适应系统的变化。例如，试验(受控的)系统(plant system)参数的变化导致状态预测模型无法提供有意义的预测。此外，参考轨迹模式的改变可能导致预定义的成本函数不再能够推断出令人满意的跟踪性能。此外，在自动驾驶领域，像MPC这样的基于模型的方法的另一问题在于，所产生的行为并不总是与人类的期望一致，从而导致一定程度的不适。根本原因在于，成本/奖励函数是预先定义的，并且缺少变化。

因此，需要一种能够利用MPC进行机器学习的、能够提供改善的性能、特征和用途的系统和方法。

发明内容

根据本申请的一方面，公开了用于通过神经网络来预测用于成本函数的参数的计算机实施的方法，包括：

给定记录的训练数据的集合，所述训练数据包括状态、控制输入和观察值；

响应尚未达到停止条件，迭代包括以下的一组步骤：

使用所述神经网络和所述观察值的集合来预测将由模型预测控制过程使用的用于所述成本函数的参数集，以预测用于系统的未来控制输入，从而实现期望的行为；

根据所述系统的动力学和所述记录的训练数据来计算代表矩阵；

计算所述代表矩阵的零空间矩阵；

通过使用于所述成本函数的近似参数集与用于所述成本函数的预测参数集之间的差最小化，来更新辅助参数，其中，所述用于所述成本函数的近似参数集在所述辅助参数与所述零空间矩阵相乘时生成；

使用所更新的辅助参数来计算所述神经网络的损失；以及

通过反向传播使用所述损失来更新所述神经网络的参数；以及

响应已达到停止条件，输出所述神经网络作为经训练的神经网络。

根据本申请的另一方面，公开了用于使用神经网络进行模型预测控制的系统，包括：

神经网络，所述神经网络在给定环境的观察值的输入的情况下生成成本函数，所述神经网络通过以下步骤进行预训练：

接收记录的训练数据的集合，所述训练数据包括状态、控制输入和观察值；

初始化用于所述神经网络的辅助参数和损失；

响应于所述损失不小于预定的损失阈值，迭代包括以下的一组步骤：

使用所述神经网络和所述观察值的集合来预测用于所述成本函数的参数集；

计算所述代表矩阵的零空间矩阵；

通过使用于所述成本函数的近似参数集与用于所述成本函数的预测参数集之间的差最小化，来更新所述辅助参数，其中，所述用于所述成本函数的近似参数集在所述辅助参数与所述零空间矩阵相乘时生成；

使用所更新的辅助参数来计算所述神经网络的损失；以及

响应于所述损失小于所述预定的损失阈值，输出所述神经网络作为经训练的神经网络；以及

模型预测控制模块，所述模型预测控制模块联接至所述神经网络，所述模型预测控制模块基于观察值的输入和所述成本函数，生成用于所述系统的未来控制输入，以实现期望的行为。

根据本申请的又一方面，公开了一种非暂时性计算机可读介质或媒介，包括一个或多个指令的序列，所述指令在由一个或多个处理器运行时，导致执行利用模型预测控制进行逆向强化学习的步骤，所述步骤包括：

给定接收记录的训练数据的集合，所述训练数据包括状态、控制输入和观察值；

响应尚未达到停止条件，迭代包括以下的一组步骤：

计算所述代表矩阵的零空间矩阵；

使用所更新的辅助参数来计算所述神经网络的损失；以及

附图说明

将参考本发明的实施方式，它们的示例可以示出在附图中。这些附图旨在是说明性的而非限制性的。虽然本发明大体上在这些实施方式的上下文中描述，但应理解，本发明的范围并不旨在限于这些特定实施方式。附图中的项目未按比例绘制。

图1描绘了根据本文件的实施方式的利用MPC的逆向强化学习的模型训练的过程。

图2描绘了根据本文件的实施方式的神经网络布局。

图3描绘了根据本文件的实施方式的在仿真时在训练阶段期间的损失历史。

图4描绘了根据本文件的实施方式的仿真数据与方法生成的命令之间的结果比较。

图5描绘了根据本文件的实施方式的用于实词数据的方法方案。

图6描绘了根据本文件的实施方式的样本结果比较。

图7描绘了根据本文件的实施方式的计算装置/信息处理系统的简化框图。

具体实施方式

在以下描述中，出于说明的目的，阐明了具体细节以提供对本发明的理解。然而，将对本领域的技术人员显而易见的是，可以在没有这些细节的情况下实践本发明。此外，本领域的技术人员将认识到，下文描述的本发明的实施方式可以以各种方式(例如过程、设备、系统、装置或方法)在有形的计算机可读介质上实施。

附图中示出的部件或模块是本发明实施方式的示例性说明，并且旨在避免使本发明不清楚。还应理解，在本论述的全文中，部件可以描述为单独的功能单元(可以包括子单元)，但是本领域的技术人员将认识到，各种部件或其部分可以划分成单独部件，或者可以整合在一起(包括整合在单个的系统或部件内)。应注意，本文中论述的功能或操作可以实施为部件。部件可以以软件、硬件或其组合实施。

此外，附图内的部件或系统之间的连接并不旨在限于直接连接。相反，在这些部件之间的数据可以由中间部件修改、重格式化或以其它方式改变。另外，可以使用另外或更少的连接。还应注意，术语“联接”、“连接”、或“通信地联接”应理解为包括直接连接、通过一个或多个中间装置来进行的间接连接以及无线连接。

在本说明书中对“一个实施方式”、“优选实施方式”、“实施方式”或“多个实施方式”的提及表示结合实施方式所描述的具体特征、结构、特性或功能被包括在本发明的至少一个实施方式中，以及可以包括在多于一个的实施方式中。另外，在本说明书的各个地方出现以上所提到的短语并不一定全都是指相同的实施方式或多个相同实施方式。

在本说明书的各个地方使用某些术语是为了进行说明，而且不应被理解为进行限制。服务、功能或资源并不限于单个服务、单个功能或单个资源；这些术语的使用可以表示相关服务、功能或资源的可分布或聚合的集合。“层”可以包括一个或多个操作。词语“最佳”、“对……进行优化”、“优化”等表示对结果或过程的改进，并且不需要特定的结果或过程达到“最佳”或峰值状态。

术语“包括”、“包括有”、“包含”和“包含有”应理解为开放性的术语，并且其后任何列出内容都是示例，而不旨在限于所列项目。

在本文中的包括停止条件的一个或多个实施方式中，停止条件可以包括以下项中的一项或多项：(1)已经执行了设定的迭代次数；(2)已达到一定的处理时间；(3)收敛(例如，连续迭代之间的差小于第一阈值)；(4)发散；以及(5)已达到可接受的结果。

本文中所使用的任何标题仅是出于组织的目的，并且不应被用于限制说明书或权利要求的范围。本专利文献中提到的每个参考文献通过引用以其整体并入本文中。

此外，本领域的技术人员应认识到：(1)某些步骤可以可选地执行；(2)步骤可以不限于本文中所阐述的特定顺序；(3)某些步骤可以以不同顺序执行；以及(4)某些步骤可以同时进行。

A.引言

通过预见未来来选择最具成效的选项，是对模型预测控制(MPC)的性质的描述。MPC意欲在每个时间点通过对优化问题进行求解来找到控制输入。该优化考虑了未来步骤的成本/奖励，并且可以通过开发状态空间模型来实现预测。从工业和研究这两个角度，都对MPC产生极大的关注。MPC的工业应用始于化学过程控制领域。几十年来，像Shell、Honeywell这样的许多公司一直在开发用于工业用途的MPC封装。如今，MPC也在电力电子领域中的不同方面成功实施，包括有源前端(AFE)、连接到电阻-电感(RL)负载的电力转换器。除了工业应用，MPC还是大量研究项目中正在进行的研究主题。有人提出了实时MPC方案来用于控制人形机器人，其中MPC基于接收到的子任务产生用于全身动力学的轨迹。空中和地面移动机器人研究人员也利用MPC方法来抵抗动态环境并应对系统约束。此外，随着当今自动驾驶车辆的迅猛发展，MPC在这些领域中看起来愈发重要。有人提出了纵向控制方法来用于自适应巡航控制和车辆牵引控制，以改善车辆排放和燃料消耗效率。同时，主动转向侧向车辆控制侧重于避免碰撞，其通过具有用于预测的合理的动力学模型的MPC实施而实现。

除去MPC所有优点和成功的应用，它仍然存在某些缺点，例如难以选择参数和缺乏适应性。在实施MPC期间，诸如预测范围和优化增益的参数的选择需要进行大量的试验，并且在环(HIL)测试时无论在仿真还是硬件中都会出现错误。另外，先前经过微调的MPC控制器在大多数情况下都无法适应系统的变化。例如，试验(受控的)系统参数的变化导致状态预测模型无法提供有意义的预测。此外，参考轨迹模式的改变可能导致预定义的成本函数不再能够推断出令人满意的跟踪性能。此外，在自动驾驶领域，像MPC这样的基于模型的方法的另一问题在于，所产生的行为并不总是与人类的期望一致，从而导致一定程度的不适。根本原因在于，成本/奖励函数是预先定义的，并且缺少变化。

B.相关工作

克服这些问题的选择之一是利用MPC来开发有限状态机(FSM)以更新预测模型或成本函数参数。然而，对多个参数集进行组合的这种简单方法无法避免在参数调整上付出的大量劳动力，并且仍然需要对状态和转换进行精细的人工设计。另一方面，深度学习技术在诸如对象检测、预测和分类的领域上表现出巨大的潜力。利用深度学习技术的能力来制造自动驾驶车辆的积极研究主题之一是端到端驾驶。然而，这样的方法可能受到振荡的控制输入信号的影响，并且不利于在现实生活中的实施。

另一方面，利用数据驱动方法的识别能力来完成基于模型的优化方法，提供了另一可行的观点。在逆向强化学习(IRL)主题中研究了类似的思想，其旨在通过观察期望的系统轨迹或策略来恢复成本函数。然而，在IRL的环境中进行公式化的大多数问题是利用贝叶斯概率状态转移模型的有限状态马尔可夫决策过程(MDP)，MPC方法在大多数情况下是涉及连续状态空间系统。一些人提出了值得关注的结果，将状态特征(观察值)转换成成本函数的行为模型是从演示中学习的。

在本专利公开中，提出了用于将神经网络(NN)模型与MPC方法相结合的框架的实施方式，其中针对环境的观察值来对NN进行预训练以恢复MPC的成本函数。这种方法的一个主要挑战是不完全确定性，其中观察值不能提供从观察值到标签的足够双向映射。另一主要挑战在于，具有零参数的行为模型也满足利用观察数据的最佳条件，这一点理应避免，以提供有意义的成本/奖励函数。通过学习人类意图的行为，自动驾驶车辆纵向控制问题可以在很大程度上受益于所提出的框架。提供了利用所提出的方法的实施方式来解决这种问题的演示方案。

C.MPC的逆向强化学习的实施方式

1.问题公式化

在一个或多个实施方式中，针对具有MPC框架的系统，来对逆向强化学习的问题进行公式化。模型预测控制通过对优化问题进行求解来为试验(受控的)系统生成控制输入。可以在每个时间点重复此过程，并将获得的控制序列的第一元素提供给系统。与经典的反馈控制律相比，MPC的主要优势有二。其一在于，MPC控制输入是从更通用的空间中搜索的，而非在经典控制中的仅从状态误差的线性组合中搜索，其二在于，还考虑了未来的系统状态和参考，而非仅考虑当前状态和当前参考信号。

MPC方法通常被公式化为如下形式，假设当前状态为x_k，且预测范围为N，

服从x_i+1＝f(x_i,u_i)

其中，且处于下阈值u与上阈值/>之间的跨度内；C_θ是成本函数，并且θ表示函数参数；F表示成本函数的最终状态；f是在给定当前系统状态x_i和当前控制输入u_i的情况下生成系统状态x_i+1下一步骤的函数。

在本专利公开中，公开了使用神经网络的新颖框架的实施方式，以预测用于MPC方法的合适成本函数，即，

C_θ＝g_ψ(y_k) (2)

其中，y_k是步骤k的观察信息。在一个或多个实施方式中，y_k可以是x_k、u_k或具有附加观察信息的x_k。

如上所述，这种架构的有益效果在于，神经网络模型能够根据对环境的观察提供合适且不同的成本函数。然而，这也给训练过程带来了困难。一个目标在于，利用良好的记录轨迹来训练该神经网络模型，以使整个方法能够生成期望的行为，同时保证在之后的使用中具有最优性。该问题可以被公式化为如下形式。

问题1：在给定公式(1)中描述的MPC方法和公式(2)中的神经网络结构的情况下，设计具有预先记录的期望轨迹的训练过程，以使得可以对成本函数进行重建，并且与所记录的轨迹相比，该方法的输出共享相似的行为。

2.方法实施方式

在正常的模仿学习问题中，记录的数据可以精确地提供模型的输入/观察与输出/标签之间的对应关系。然而，问题1并非如此，因为可能没有明确地获知或记录MPC成本函数C_θ的直接输出。

本公开通过提出如何通过记录的轨迹数据来启用模型训练过程来提供对问题1的解决方案。本公开的实施方式涉及利用Karush-Kuhn-Tucker(KKT)条件，以便可以构建观察值与标签之间的双射映射。

在一个或多个实施方式中，考虑到等式(1)中的MPC系统配置，成本函数还可以被限制为具有二次形式，并且省略最终状态成本函数F(·)，

按照该公式，神经网络的输出可以是矩阵Q_i和R_i，即：

θ＝(Q_k,R_k)＝g_ψ(y_k) 4)

其中，ψ表示神经网络g_ψ(·)的参数。沿着时间的维度，受控系统物理上位于步骤k处，并且成本函数参数(Q_k,R_k)对于预测步骤i(其表示等式(1)中的k+1、k+2直至k+N-1的所有步骤)保持恒定。在生成控制输入并将其应用于实际系统且实际系统进入步骤k+1之后，则将重新调整成本函数参数，并针对步骤k+1再次求解优化问题。

现在，原始问题1已进一步具体化，可能有必要引入使用神经网络基于观察序列y_k来预测成本函数的参数(Q_k,R_k)这样一种机制。在给定数据序列的观察样本的情况下，目标在于对神经网络进行训练，使其根据观察值改变MPC成本函数参数，从而模仿在数据内部编码的行为。此处，可以假设硬约束无效，这意味着不等式约束在应用前已得到满足。在一个或多个实施方式中，考虑到公式(1)中描述的优化与公式(3)中定义的成本函数，拉格朗日量可以写成：

其中，变量定义如下：

X＝col(x_k,x_k+1,…,x_k+N-1),U＝col(u_k,u_k+1,…,u_k+N-1)

λ(k)＝col(λ₀(k),λ₁(k),…,λ_N-1(k)),and

F(X,U)＝col(f(x_k,u_k)-x_k+1,…,f(x_k+N-1,u_k+N-1)-x_k+N)

在一个或多个实施方式中，用于最佳求解问题(1)的充分必要条件是将KKT条件限定如下：

其中，Q＝diag(Q_k,Q_k,…,Q_k)、R＝diag(R_k,R_k,…,R_k)和λ(k)是语言乘法器。

当在每个时刻对MPC优化问题进行求解时，可以生成控制输入的序列，其中，在一个或多个实施方式中，仅第一控制输入实际上被馈送给系统并由系统执行。因此，在记录的轨迹中，每个控制输入数据点代表在每个时间步长处对优化问题(1)进行求解的第一要素。

假设是系统轨迹的记录序列，而/> 是记录的系统控制输入的记录序列。假设那些记录的轨迹是通过MPC求解器生成的，则每个数据对应满足以下条件：

此时，可以看到对问题1进行求解的第一个挑战。即使给定了已知的系统动力学f(x,u)，一个数据对也不足以恢复Q_k和R_k的矩阵。

在一个或多个实施方式中，矩阵Q_k和R_k的形式被进一步限制为对角线式，这意味着Q_k＝diag(q_k),R_k＝diag(r_k)。

其中，col(q,r)应由预测神经网络模型生成。这些对角线形式的矩阵可以用于MPC应用中。因此，神经网络模型可以表示为：

3.模型训练的实施方式

在一个或多个实施方式中，在给定数据对的序列的情况下，趋向于满足等式(7)中描述的最佳条件(例如，假设观察到的序列是最佳的)，则损失函数/>可以选择为：

其中，矩阵G和H可以定义为：

在一个或多个实施方式中，矩阵G是可以从系统动力学获得的系统行为矩阵，而矩阵H是可以从记录的轨迹数据构建的历史矩阵。在一个或多个实施方式中，历史矩阵H是从和/>扩充的块对角矩阵。在一个或多个实施方式中，在限定矩阵G时的系统动力学被称为函数f相对于系统状态x和控制输入u的一阶偏导数，其中f是用于在给定当前系统状态x_i和当前控制输入u_i的情况下生成系统状态x_i+1的下一步骤的系统动力学函数。

此处，可以看到对所提出问题进行求解的另一挑战，即λ₀(k)^*＝0,col(q_k,r_k)＝0是方程(8)中极小化问题的最优解，但其是平凡解。

在一个或多个实施方式中，为了避免最优解陷入零，引入以下过程来更新神经网络g_ψ(·)的参数ψ。等式(8)中的损失函数中的项J(λ₀(k))可以重写为：

J(λ₀(k))＝‖Uv‖,U＝[G H],v＝col(λ₀(k),q_k,r_k) (9)

等式(9)中的U是由G和H组合而成的代表矩阵。U的行维是n+m，且U的列维是2n+m，其中，n是系统状态空间的维，m是系统输入空间的维。从等式(9)可以看出，只要v位于U的零空间内，J就被最小化。现在，让矩阵W的列跨过U的零空间，即，

Null(U)＝span(w₁,w₂,…) 10)

其中，w₁,w₂,…是矩阵W的列。因此，对于任何矢量η，令v＝Wη，则v是等式(8)中的问题的最优解。

在一个或多个实施方式中，可以将期望最大化(EM)方法用于训练过程。图1描绘了根据本文件的实施方式的利用MPC的逆向强化学习进行模型训练的过程。接收包括状态控制输入/>和观察值/>的记录的训练数据集(105)。首先，将辅助参数η和损失/>分别初始化为η＝η₀和/>(110)，其中，η₀和/>可以是预定值。响应于尚未达到停止条件(例如，/>不大于预定的损失阈值/>)(115)，迭代一组步骤。在给定已知的系统动力学f和数据对/>的情况下，通过使用观察值集/>进行正向传播/>来获得神经网络的输出o(成本函数的预定参数)(120)，并根据G和H来构建代表矩阵U(125)，其中矩阵G是可以从系统动力学获得的系统行为矩阵，且矩阵H是可以从记录的轨迹数据构建的历史矩阵。从U计算零空间矩阵W(130)，其中矩阵W的列跨越U的零空间。可以从/>计算神经网络的近似输出/>(成本函数的近似参数)(135)。最后，可以根据以下公式计算神经网络的损失：

同时，通过使输出o与近似输出之间的差(例如，最小平方差：minimize_η‖Wη-o‖)最小化来更新η(140)。利用更新后的η，使用公式(11)计算损失/>(145)，并且然后使之反向传播以更新神经网络的参数g_ψ(·)。

在一个或多个实施方式中，迭代这些步骤，直到神经网络参数收敛或满足停止条件为止。停止条件可以被称为损失不大于损失阈值损失阈值/>可以是绝对值或相对值，例如10％。响应于已经达到停止条件，输出该神经网络作为经训练的神经网络(150)。根据本专利公开的一个或多个实施方式，在方法1中示出了该方法的概述。

方法1：逆向强化学习MPC

输入：和/>

输出：g_ψ(·)

1.η＝η₀,以及/>

2.当时，执行：

3.正向传播

4.构建矩阵U；

5.计算零空间矩阵W；

6.将η更新为η＝minimize_η‖Wη-o‖；

7.利用更新后的η计算损失

8.反向传播以更新网络参数g_ψ(·)

9.结束

D.自动驾驶车辆纵向控制的实施方式

在该小节中，本文中公开的方法的实施方式应用于自动驾驶车辆的纵向控制器的设计。首先，将通过仿真生成的数据集用于训练，并且然后利用可公开获得的数据集进行性能比较。

1.方法公式化

诸如线性二次调节器(LQR)和MPC的基于模型的优化方法已得到很大发展，并被部署用于自动纵向车辆控制。然而，由于该方法生成的行为与人类预期的行为之间存在不一致，因此反馈到了大量投诉。一个值得关注的示例是如何使静态车辆停在试验车辆(受控)前方。人类驾驶员可能在距静态车辆很远的位置处减速，然后以较低的速度驶近静态车辆；相反，基于优化的方法通常对试验(受控)车辆施加命令使其以相当快的速度接近静态车辆，然后在较晚时间进行制动以停止在静态车辆后面。原因是成本函数对到达时间施以惩罚，以使得车辆尽可能快地行驶以降低成本。调整成本函数可以是改善乘客体验的一种选择，但是手动参数调整会花费很多精力，而相同的成本函数可能不一定会改善每种驾驶场景的驾驶性能。

另一方面，本专利公开中的方案实施方式旨在通过在训练阶段中通过记录数据来模仿人类的行为，来减轻这种缺陷，并且基于稍后在部署阶段的观察来重新构建成本函数。

在一个或多个实施方式中，对于这样的纵向控制问题，受控的自动驾驶车辆定义为“ego车辆”，并且将前方的车辆称为“前方车辆”。此外，系统状态和系统更新函数可以描述为：

其中，dt是系统的时间步长或采样时间，并且变量的物理含义定义为：表示前方车辆的速度；/>表示ego车辆的速度；/>表示ego车辆与前方车辆之间的距离；/>表示ego车辆与前方车辆之间的期望距离值；/>表示ego车辆的期望速度；/>表示ego车辆的加速度，这也是该方法生成的控制命令。

至于预测模型g_ψ(y_k)，在该示例中，选择观察值y_k作为先前10帧的轨迹历史，即，

y_k＝col(x_k,x_k-1,…,x_k-9) (13)

在一个或多个实施方式中，使用了四层全连接神经网络模型200，并且将其在图2中示出为具有多个节点。神经网络接收观察值y_k并输出成本函数的参数(Q_k,R_k)。对于前三个层210、220和230，将激活函数选择为tanh(·)，而对于最后一个输出层240，将激活函数选择为sigmoid(·)，以确保Q_k和R_k为半正定。在一个或多个实施方式中，以100的批量大小和1e-4的学习率来训练模型。训练数据的大小在不同实验之间有所不同。

2.一些仿真结果

在该小节中，训练数据是通过仿真生成的。仿真方案定义如下。首先将前方车辆以20m/s的速度置于ego车辆的前方50米处。然后在时间t＝100s时，前方车辆变成位于ego车辆前方40米处但具有15m/s的较慢速度的另一车辆。再次在时间t＝200s处，前方车辆变成在ego车辆前方仅20米处且速度为18m/s的车辆。在人类驾驶数据生成期间，前方车辆的速度与初始速度的偏离呈正态分布。ego车辆以25m/s的速度启动。

图3描绘了在仿真时在训练阶段期间的损失历史，且图4描绘了仿真数据与方法生成的命令之间的结果比较。从图3所示的损失的历史可以看出，参数实际上以相当快的速率收敛。通过另一种仿真来展示方法实施方式的性能，其中利用在本专利公开中的方法实施方式来代替MPC控制器。记录的ego车辆加速度与生成的ego车辆加速度的比较如图4所示，其中线405和线410示出了速度比较；线415和线420示出了加速命令比较。当面对相似场景时，所公开方法的一个或多个实施方式能够相对于所记录的轨迹产生相似行为。

3.实际数据验证

为了进一步说明该方法，使用了从“下一代仿真(NGSIM)”数据集中提取的几个数据集。在NGSIM工程中，使用相机装置在特定位置处收集了详细的车辆轨迹数据，这些位置包括加利福尼亚州的洛杉矶的US 101和Landershim Bounlevard往南、加利福尼亚州的埃默里维尔的I-80往东以及乔治亚州的亚特兰大的Peachtree街道。每个轨迹均以0.1秒的时间分辨率提供车辆的精确位置、速度和相对距离的信息。

在一个或多个验证集中，从NGSIM数据提取了7个数据集，以评估所提出的方法。训练过程可能类似于仿真数据情况。然而，所需距离dd无法从数据集中明确获知，因此在训练过程中同时针对该值训练了另一预测模型。为了稍后查验该方法的性能，通过记录的数据对前方车辆的速度和位置的序列进行重建。通过将ego车辆放置在相同的初始位置处来进行仿真，同时经由控制方法的实施方式对其进行完全控制。在图5中示出了所实施的方法的方案。神经网络510接收观察值集合505，并且向MPC模块520输出优化后的成本函数参数515，以使得MPC模块基于环境的观察值505和成本函数参数515来生成控制命令525。在一个或多个实施方式中，基于期望的车辆距离(例如，在前方车辆与ego车辆之间的车辆距离)，来优化成本函数参数515。

在图6中，示出了记录数据与仿真数据之间的比较的示例，其中，仿真车辆距离605和仿真车辆速度615分别接近记录数据中的距离610和速度620。

在一个或多个验证集中，选择了Kesting和Treiber(Calibrating car-followingmodels by using trajectory data：Methodological study(通过使用轨迹数据校准车辆跟随模型：方法研究).Transportation Research Record,2088(1)：148–156,2008)的基准结果作为基线方法，其研究了两种流行的车辆跟随模型，即智能驾驶员模型(IDM)和速度差异模型(VDIFF)。IDM可以在数学上描述为：

其中，v是当前车辆速度，v0是期望速度，Δv是v₀和v的速度差，s是到前一辆车的当前距离，以及s^*是期望距离；在该IDM模型中，a、b、s₀、v₀、T是参数。

同时，VDIFF模型可以定义为：

/>

其中，v、s、Δv的定义与IDM模型相同，而τ、λ、l_int、β是模型参数。在Kesting和Treiber中，通过使用通用方法近似解决非线性优化问题来对模型进行校准。在这种方法中，通过对两个经学术选择的老一代个体进行重组而生成每个新一代个体。此进程在达到收敛标准时终止。

在一个或多个验证集中，还利用相同的性能指标(例如相对误差和绝对误差)，以如下所述地度量数据之间的相似性：

其中，符号<·>表示数据序列的平均值，而s表示位置数据。另外，绝对差测量定义如下：

ε_mean(s)＝<|s^sim-s^data|> ε_var(s)＝<(s^sim-s^data)²> (19)

表1中示出了性能评估结果。为了进行比较，表2中示出了Kesting和Treiber的结果。在基线结果中，相对误差和绝对误差范围为20％到30％，而表1中的结果表明约为10％或更小。此外，表1还表明位置差约为2米，且记录的数据与仿真轨迹之间的速度差小于1m/s。

表1：性能评估

表2：基线结果

E.一些结论

在本专利公开中，公开了一种框架的实施方式，其通过将神经网络预测与MPC控制方法相结合以模仿编码在记录数据内部的行为，从而利用MPC进行逆向强化学习。这种方法的主要挑战在于标签和模型参数的模糊性，其中本专利公开的实施方式通过在记录的数据和预测模型输出之间建立双向映射来解决该问题。如今，基于优化和动力学模型的自动驾驶车辆纵向控制方法具有与人类意图不相符的问题。因此，所提出的方法实施方式提供了一种解决方案。提出了使用所提出的方法的这种控制方法的实施方式。将该结果与现有方法进行比较，并且该结果表明，通过重现编码在人类驾驶的车辆轨迹内的相似行为而改进了性能。

在本公开的一个或多个实施方式中，假设可以观察到不止一个生成控制信号，或者可以观察到所有的生成控制信号，以便完全恢复成本函数和约束。在用于自动驾驶应用的实施方式中，可以显著增强特征提取以增加人类驾驶员与自动驾驶车辆之间的驾驶风格的相似性。一种方法是提供更多的周围交通信息，不限于前方车辆，还包括本地地图信息，例如到车道边界的距离和交通路口的位置。本领域的技术人员将认识到的是，可以通过反馈如人类在驾驶时所接收的相当的观察值，而容易地调整或改变本文中的实施方式以使自动驾驶车辆更像人类。

F.系统实施方式

在实施方式中，本专利文献的方面可以涉及、可以包括一个或多个信息处理系统/计算系统或者可以在一个或多个信息处理系统/计算系统上实施。计算系统可以包括可操作来计算、运算、确定、分类、处理、传输、接收、检索、发起、路由、交换、存储、显示、通信、显现、检测、记录、再现、处理或利用任何形式信息、智能或数据的任何手段或手段的组合。例如，计算系统可以是或可以包括个人计算机(例如，膝上型计算机)、平板电脑、平板手机、个人数字助理(PDA)、智能手机、智能手表、智能包装、服务器(例如，刀片式服务器或机架式服务器)、网络存储装置、相机或任何其他合适装置，并且可以在大小、形状、性能、功能和价格方面改变。计算系统可以包括随机存取存储器(RAM)、一个或多个处理资源(例如，中央处理单元(CPU)或硬件或软件控制逻辑)、ROM和/或其他类型的存储器。计算系统的另外部件可以包括一个或多个盘驱动器、用于与外部装置通信的一个或多个网络端口、以及各种输入和输出(I/O)装置(例如键盘、鼠标、触摸屏和/或视频显示器)。计算系统还可以包括可操作为在各种硬件部件之间传输通信的一个或多个总线。

图7描绘了根据本公开的实施方式的计算装置/信息处理系统(或是计算系统)的简化框图。应理解，计算系统可以被不同地配置并且包括不同部件，包括如图7中所示的更少或更多的部件，但应理解，针对系统700所示出的功能可以操作为支持计算系统的各种实施方式。

如图7所示，计算系统700包括一个或多个中央处理单元(CPU)701，CPU701提供计算资源并控制计算机。CPU701可以利用微处理器等进行实施，并且还可以包括一个或多个图形处理单元(GPU)719和/或用于数学计算的浮点协处理器。系统700还可以包括系统存储器702，系统存储器702可以具有随机存取存储器(RAM)、只读存储器(ROM)或两者的形式。

如图7所示，还可以提供多个控制器和外围装置。输入控制器703表示至各种输入装置704的接口，例如键盘、鼠标、触摸屏和/或触笔。计算系统700还可以包括存储控制器707，该存储控制器707用于与一个或多个存储装置708对接，存储装置中的每个包括存储介质(诸如磁带或盘)或光学介质(其可用于记录用于操作系统、实用工具和应用程序的指令的程序，它们可以包括实施本发明的各方面的程序的实施方式)。存储装置708还可以用于存储经处理的数据或是将要根据本发明处理的数据。系统700还可以包括显示控制器709，该显示控制器707用于为显示装置711提供接口，显示装置711可以是阴极射线管(CRT)、薄膜晶体管(TFT)显示器、有机发光二极管、电致发光面板、等离子面板或其他类型的显示器。计算系统700还可以包括用于一个或多个外围装置706的一个或多个外围控制器或接口705。外围装置的示例可以包括一个或多个打印机、扫描仪、输入装置、输出装置、传感器等。通信控制器714可以与一个或多个通信装置715对接，这使系统700能够通过各种网络(包括互联网、云资源(例如以太云、经以太网的光纤通道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网络(SAN))中的任一网络，或通过任何合适电磁载波信号(包括红外信号)来连接至远程装置。

在示出的系统中，所有主要系统部件可以连接至总线716，总线716可以表示多于一个的物理总线。然而，各种系统部件可以在物理上彼此接近或可以不在物理上彼此接近。例如，输入数据和/或输出数据可以远程地从一个物理位置传输到另一物理位置。另外，实现本发明的各方面的程序可以经由网络从远程位置(例如，服务器)访问。此类数据和/或程序可以通过各种机器可读介质中的任一机器可读介质来传送，机器可读介质包括但不限于：诸如硬盘、软盘和磁带的磁性介质；诸如CD-ROM和全息装置的光学介质；磁光介质；以及硬件装置，该硬件装置专门被配置成存储或存储并执行程序代码，该硬件装置例如专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存装置、以及ROM和RAM装置。

本发明的方面可以利用用于一个或多个处理器或处理单元以使步骤执行的指令在一个或多个非暂态计算机可读介质上编码。应注意，一个或多个非暂态计算机可读介质应当包括易失性存储器和非易失性存储器。应注意，替代实现方式是可能的，其包括硬件实现方式或软件/硬件实现方式。硬件实施的功能可使用ASIC、可编程的阵列、数字信号处理电路等来实现。因此，任何权利要求中的术语“手段”旨在涵盖软件实现方式和硬件实现方式两者。类似地，如本文使用的术语“计算机可读媒介或介质”包括具有实施在其上的指令程序的软件和/或硬件或它们的组合。利用所构想的这些替代性实施方式，应理解，附图以及随附描述提供本领域的技术人员编写程序代码(即，软件)和/或制造电路(即，硬件)以执行所需处理所要求的功能信息。

应当注意，本发明的实施方式还可以涉及具有其上具有用于执行各种计算机实施的操作的计算机代码的非暂态有形计算机可读介质的计算机产品。介质和计算机代码可为出于本发明的目的而专门设计和构建的介质和计算机代码，或者它们可为相关领域中的技术人员已知或可用的。有形计算机可读介质的示例包括但不限于：诸如硬盘、软盘和磁带的磁性介质；诸如CD-ROM和全息装置的光学介质；磁光介质；以及专门配置成存储或存储并执行程序代码的硬件装置，例如，专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存装置、以及ROM20和RAM装置。计算机代码的示例包括机器代码(例如，编译器产生的代码)以及包含可由计算机使用解释器来执行的更高级代码的文件。本发明的实施方式可整体地或部分地实施为可在由处理装置执行的程序模块中的机器可执行指令。程序模块的示例包括库、程序、例程、对象、部件和数据结构。在分布的计算环境中，程序模块可物理上定位在本地、远程或两者的设定中。

本领域的技术人员将认识到，计算系统或编程语言对本发明的实践来说均不重要。本领域的技术人员将还将认识到，多个上述元件可物理地和/或在功能上划分成子模块或组合在一起。

本领域技术人员将理解，前文的示例和实施方式是示例性的，并且不限制本公开的范围。旨在说明的是，在本领域的技术人员阅读本说明书并研究附图后将对本领域的技术人员显而易见的本发明的所有、置换、增强、等同、组合或改进包括在本公开的真实精神和范围内。还应注意，任何权利要求书的元素可不同地布置，包括具有多个从属、配置和组合。

Claims

1.用于通过神经网络来预测用于成本函数的参数的计算机实施的方法，包括：

给定记录的训练数据的集合，所述训练数据包括前方车辆和受控车辆的系统状态、所述受控车辆的控制输入和环境的观察值；

响应尚未达到停止条件，迭代包括以下的一组步骤：

使用神经网络和所述观察值的集合来预测用于成本函数的预测参数集，以预测用于系统的未来控制输入，从而实现期望的行为；

根据系统的动力学和所述记录的训练数据来计算代表矩阵；

计算所述代表矩阵的零空间矩阵；

使用所更新的辅助参数来计算所述神经网络的损失；

通过反向传播使用所述损失来更新所述神经网络的参数；

响应已达到停止条件，输出所述神经网络作为经训练的神经网络；

通过经训练的所述神经网络输出优化后的所述成本函数的参数集；以及

在模型预测控制过程中基于所述观察值和优化后的所述成本函数的参数集生成所述受控车辆的系统的控制输入。

2.根据权利要求1所述的计算机实施方法，其中，所述零空间矩阵具有跨越所述代表矩阵的零空间的列。

3.根据权利要求1所述的计算机实施方法，其中，所述代表矩阵是系统行为矩阵和历史矩阵的组合，所述系统行为矩阵使用所述系统的动力学、记录的当前系统状态和记录的当前控制输入来构建，并且所述历史矩阵根据所述记录的系统状态和控制输入来构建。

4.根据权利要求3所述的计算机实施方法，其中，所述系统的动力学是系统动力学函数相对于所述系统状态和所述控制输入的一阶偏导数，所述系统动力学函数在给定当前系统状态和当前控制输入的情况下生成下一步的系统状态。

5.根据权利要求3所述的计算机实施方法，其中，所述历史矩阵是从当前状态和当前控制输入扩充的块对角矩阵。

6.根据权利要求1所述的计算机实施方法，其中，所述停止条件是所述损失不大于损失阈值。

7.根据权利要求1所述的计算机实施方法，其中，用于所述成本函数的所述近似参数集与用于所述成本函数的所述预测参数集之间的差是最小二乘方差。

8.用于使用神经网络进行模型预测控制的系统，包括：

接收记录的训练数据的集合，所述训练数据包括前方车辆和受控车辆的系统状态、所述受控车辆的控制输入和环境的观察值；

初始化用于所述神经网络的辅助参数和损失；

使用所述神经网络和所述观察值的集合来预测用于成本函数的预测参数集；

计算所述代表矩阵的零空间矩阵；

使用所更新的辅助参数来计算所述神经网络的损失；

通过反向传播使用所述损失来更新所述神经网络的参数；

响应于所述损失小于所述预定的损失阈值，输出所述神经网络作为经训练的神经网络；

通过经训练的所述神经网络输出优化后的所述成本函数的参数集；

以及

模型预测控制模块，所述模型预测控制模块联接至所述神经网络，所述模型预测控制模块基于观察值的输入和优化后的所述成本函数的参数集，生成用于所述受控车辆的系统的未来控制输入，以实现期望的行为。

9.根据权利要求8所述的系统，其中，所述零空间矩阵具有跨越所述代表矩阵的零空间的列。

10.根据权利要求8所述的系统，其中，所述代表矩阵是系统行为矩阵和历史矩阵的组合，所述系统行为矩阵使用所述系统的动力学、记录的当前系统状态和记录的当前控制输入来构建，并且所述历史矩阵根据所述记录的系统状态和控制输入来构建。

11.根据权利要求10所述的系统，其中，所述系统的动力学是系统动力学函数相对于所述系统状态和所述控制输入的一阶偏导数，所述系统动力学函数在给定当前系统状态和当前控制输入的情况下生成下一步的系统状态。

12.根据权利要求10所述的系统，其中，所述历史矩阵是从当前状态和当前控制输入扩充的块对角矩阵。

13.根据权利要求8所述的系统，其中，用于所述成本函数的所述近似参数集与用于所述成本函数的所述预测参数集之间的差是最小二乘方差。

14.一种非暂时性计算机可读介质或媒介，包括一个或多个指令的序列，所述指令在由一个或多个处理器运行时，导致执行利用模型预测控制进行逆向强化学习的步骤，所述步骤包括：

给定接收记录的训练数据的集合，所述训练数据包括前方车辆和受控车辆的系统状态、所述受控车辆的控制输入和环境的观察值；

响应尚未达到停止条件，迭代包括以下的一组步骤：

根据系统的动力学和所述记录的训练数据来计算代表矩阵；

计算所述代表矩阵的零空间矩阵；

使用所更新的辅助参数来计算所述神经网络的损失；

通过反向传播使用所述损失来更新所述神经网络的参数；

15.根据权利要求14所述的非暂时性计算机可读介质或媒介，其中，所述零空间矩阵具有跨越所述代表矩阵的零空间的列。

16.根据权利要求14所述的非暂时性计算机可读介质或媒介，其中，所述代表矩阵是系统行为矩阵和历史矩阵的组合，所述系统行为矩阵使用所述系统的动力学、记录的当前系统状态和记录的当前控制输入来构建，并且所述历史矩阵根据所述记录的系统状态和控制输入来构建。

17.根据权利要求16所述的非暂时性计算机可读介质或媒介，其中，所述系统的动力学是系统动力学函数相对于所述系统状态和所述控制输入的一阶偏导数，所述系统动力学函数在给定当前系统状态和当前控制输入的情况下生成下一步的系统状态。

18.根据权利要求16所述的非暂时性计算机可读介质或媒介，其中，所述历史矩阵是从当前状态和当前控制输入扩充的块对角矩阵。

19.根据权利要求14所述的非暂时性计算机可读介质或媒介，其中，所述停止条件是所述损失不大于损失阈值。

20.根据权利要求14所述的非暂时性计算机可读介质或媒介，其中，用于所述成本函数的所述近似参数集与用于所述成本函数的所述预测参数集之间的差是最小二乘方差。