CN108873692A

CN108873692A - 用于提供对复杂动力系统的优化控制的方法和系统

Info

Publication number: CN108873692A
Application number: CN201810461464.0A
Authority: CN
Inventors: D.哈特曼; B.奥布斯特; E.O.J.万纳贝格
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2017-05-15
Filing date: 2018-05-15
Publication date: 2018-11-23
Anticipated expiration: 2038-05-15
Also published as: US10953891B2; US20190031204A1; EP3404497B1; JP2018195307A; JP6564905B2; EP3404497A1; CN108873692B

Abstract

公开了用于提供对复杂动力系统的优化控制的方法和系统。方法包括：提供（S1）仿真模型（f）以基于当前场景参数矢量（p）和控制矢量（u）预测动力系统（sys）的系统状态矢量（x）；在每次使用仿真模型（f）对动力系统（sys）仿真期间，使用（S2）模型预测控制MPC算法来提供控制矢量（u）；通过MPC算法针对场景参数矢量（p）和初始系统状态矢量（x₀）的每个仿真组合计算（S3）所得到的优化控制值（u*（p,x₀））；使用机器学习算法针对优化控制值（u*（p,x₀））生成（S4）对场景参数矢量（p）和初始系统状态矢量（x₀）之间的关系进行近似的机器学习的控制启发（u_a（p,x₀））；和使用控制启发来控制（S5）由仿真模型（f）建模的动力系统（sys）。

Description

用于提供对复杂动力系统的优化控制的方法和系统

本发明涉及一种用于使用机器学习的、基于场景的控制启发（heuristics）来提供对诸如车辆的复杂动力系统的优化控制的系统和方法。

诸如工厂或车辆的系统正变得越来越复杂。作为结果，对系统进行控制的对应的控制也变得更复杂。这导致针对对应的控制系统的编程和配置的增加的要求。此外，计算要求变得更严苛并且执行系统控制的必要的计算时间确实增加。

相应地，本发明的目的是提供一种用于控制复杂动力系统的方法系统，所述方法系统高度地高效并且要求更少的计算资源用于执行对复杂动力系统的控制。

根据本发明的第一方面通过包括权利要求1的特征的用于执行对复杂动力系统的优化控制的方法来实现该目的。

本发明根据第一方面提供了一种用于使用机器学习的、基于场景的控制启发来执行对复杂动力系统的优化控制的方法，所述方法包括如下步骤：

提供用于基于当前场景参数矢量和控制矢量来及时预测所述动力系统的系统状态矢量的仿真模型；

在每次在针对不同的场景参数矢量和初始系统状态矢量使用所述仿真模型来对动力系统进行仿真期间，使用模型预测控制MPC算法来提供控制矢量，

通过模型预测控制MPC算法来针对场景参数矢量和初始系统状态矢量的每个仿真组合计算所得到的优化控制值，并且保存所得到的优化控制值；

使用机器学习算法针对保存的所得到的优化控制值来生成对对应的场景参数矢量和初始系统状态矢量之间的关系进行近似的机器学习的控制启发，以及

使用生成的机器学习的控制启发来控制由所述仿真模型建模的复杂动力系统。

在根据本发明的第一方面的方法的可能的实施例中，机器学习算法使用扩散映射。

在根据本发明的第一方面的方法的另一个可能的实施例中，机器学习算法使用具有闭合可观察量（closed observable）的扩散映射以用于对动力系统进行近似。

在根据本发明的第一方面的方法的另一个可能的实施例中，机器学习算法使用支持矢量机。

在根据本发明的第一方面的方法的进一步的可能的实施例中，所生成的机器学习的控制启发被传递到控制器，所述控制器根据所传递的机器学习的控制启发来在线控制动力系统。

在根据本发明的第一方面的方法的另一个可能的实施例中，机器学习的控制启发包括用于控制由所述仿真模型建模的复杂动力系统的近似法则。

根据进一步的方面本发明提供了包括权利要求7的特征的控制启发生成平台。

根据第二方面本发明提供了一种控制启发生成平台，用于提供使用于控制由仿真模型f建模的动力系统的机器学习的控制启发，所述仿真模型f存储在模型存储中并且被适配于基于当前场景参数矢量和控制矢量来及时预测动力系统的系统状态矢量，

其中所述控制启发生成系统包括：

第一计算单元，其在每次在针对不同的场景参数矢量和初始系统状态矢量使用所述仿真模型f来对所述动力系统进行仿真期间时，使用模型预测控制MPC算法来提供控制矢量，并且被适配为使用所述模型预测控制MPC算法针对场景参数矢量和初始系统状态矢量的每个仿真组合来计算所得到的优化控制值并且将所得到的优化控制值保存在存储器中，

第二计算单元，其被适配为

使用机器学习算法针对保存的所得到的优化控制值来生成对对应的场景参数矢量和初始系统状态矢量之间的关系进行近似的机器学习的控制启发，

其中所生成的机器学习的控制启发是经由所述控制启发生成平台的接口可传递到所述动力系统的控制器的。

在根据本发明的第二方面的控制启发生成平台的可能的实施例中，控制启发生成平台被实现为云平台。

在根据本发明的第二方面的控制启发生成平台的进一步的可能的实施例中，机器学习的控制启发包括用于控制由所述仿真模型f建模的复杂动力系统的近似法则。

在根据本发明的第二方面的控制启发生成平台的进一步的可能的实施例中，动力系统包括由控制器根据所传递的机器学习的控制启发在线控制的车辆。

在下面参照所附各图更详细地描述了根据本发明的第一方面的用于执行对复杂动力系统的优化控制的方法和根据本发明的第二方面的控制启发生成平台的可能的实施例。

图1示意性地示出根据本发明的方面的控制启发生成平台的可能的示例性实施例；

图2示出用于图示控制启发生成平台的可能的示例性实施例的进一步的示意图，控制启发生成平台提供由用于控制动力系统的控制器使用的机器学习的控制启发；

图3示出根据本发明的方面的用于执行对复杂动力系统的优化控制的方法的可能的示例性实施例的流程图；

图4A、图4B、图4C、图4D示出根据本发明的方面的用于图示用于如下的方法的可能的示例性实施例的示图，该方法用于执行对复杂系统的优化控制；

图5示出根据本发明的用于图示系统的可能的使用情况的模型预测控制结果的示图；

图6示出针对图5的使用情况的可能的系统的响应。

如可以在图1的示例性实施例中看到的那样，根据本发明的方面的控制启发生成平台1可以包括不同的组件。如在图1中图示的控制启发生成平台1可以被使用于提供机器学习的控制启发。这些控制启发被使用于在线控制由仿真模型f建模的动力系统sys，并且被存储在控制启发生成平台1的模型存储2中。存储在模型存储2中的仿真模型f被适配为基于当前场景参数矢量p和控制矢量u来及时预测动力系统sys的系统状态矢量x。仿真模型f可以是动力系统sys的工程模型。动力系统可以是例如在路上驾驶的车辆。控制启发生成平台1包括第一计算单元3，其被适配为在每次在针对不同的场景参数矢量p和初始系统状态矢量x₀使用仿真模型f对动力系统进行仿真期间，使用模型预测控制MPC算法来提供控制矢量u。控制启发生成平台1的第一计算单元3具有对存储场景参数矢量p的数据库4的访问。进一步地，控制启发生成平台1的计算单元3具有对其中存储系统sys的初始系统状态矢量x₀的进一步的数据库5的访问。计算单元3被适配为使用MPC算法针对场景参数矢量p和初始系统状态矢量x₀的每个仿真组合来计算所得到的优化控制值u*。所得到的优化控制值u*然后由计算单元3保存到存储器6，所述存储器6存储所计算的优化控制值。

控制启发生成平台1进一步包括第二计算单元7，其被适配为使用机器学习算法MLA针对所得到的优化控制值来生成对对应的场景参数矢量p和初始系统状态矢量x₀之间的关系进行近似的机器学习的控制启发。在可能的实施例中，生成的机器学习的控制启发u_a可以经由控制启发生成平台1的接口被传递到动力系统sys的控制器9。如在图1中示出的那样，所生成的机器学习的控制启发u_a是在经由方式8传递到在线控制由仿真模型f建模的动力系统sys的控制器9的完成之后。它们被通过不同的方式线缆传输，诸如通过线缆电地传输或通过诸如USB棒之类的物理存储器传输。在可能的实现中，控制启发生成平台1可以被实现为远程平台，例如实现为云平台。实现为云平台允许使用在离线、启发生产阶段中的几乎无限制的计算资源。

图2示出用于图示根据本发明的系统的进一步的示图。在图2的图示的实施例中，远程平台1包括存储2，存储2用于存储动力系统sys的工程模型或仿真模型f。在图示的实施例中，平台1包括模型降阶单元2a，模型降阶单元2a用于自动地减少所使用的仿真模型f的复杂度或阶。数据库4存储预期的使用情况或场景参数矢量（例如历史数据、之前的产品生成或产品要求）的组。计算单元3使用模型预测控制MPC执行仿真来提供控制矢量u。因此，计算单元3提供模型预测控制MPC用于预期的场景的组。模型预测控制MPC算法被用来在每次在针对不同的场景参数矢量p和从数据库5读取的初始系统状态矢量x₀使用仿真模型f对动力系统sys进行仿真期间提供控制矢量u。对场景参数矢量p和初始系统状态矢量x₀的每个仿真组合使用MPC算法来计算所得到的优化控制值u*。所得到的优化控制值u*被存储在平台1的存储器6中。平台1的第二计算单元7使用机器学习算法MLA针对保存的得到的优化控制值u*来生成对对应的场景参数矢量p和初始系统状态矢量x₀之间的关系进行近似的机器学习的控制启发u_a。通过在存储的控制行为和/或控制曲线的基础上的机器学习的方式、例如通过神经网络的方式来学习控制值。生成的机器学习的控制启发u_a然后可以被传递到如在图2中图示的控制器9的内部存储器9A。控制启发生成平台1使用基于仿真模型f、使用模型预测控制MPC算法的参数场景的集合的机器学习来执行离线预处理。因此，控制启发生成平台1在离线阶段中、即在对系统sys的操作之前提供预处理。

在控制启发u_a已经被传递到控制器9的内部存储器9A之后，在系统sys的操作期间发起在线控制阶段。系统sys可以包括如在图2中示出的一个或若干处理10A。系统的处理可以是基于在也如在图2中图示的处理的当前状态处的预测的负载9B而使用控制启发u_a来控制的。附加的使用情况或场景可以被存储在平台1的数据库4中，如在图2中图示那样。可以通过在在线阶段期间保存参数和状态值来收集这些附加的使用情况或场景。还可能的是，在诸如通过降级的参数的改变的附加传感器信息的基础上执行仿真模型f的更新。当前负载（一些场景参数的当前值）10B被供给到动力系统sys的处理10A，如在图2中示出那样。

存在根据对数据库的操作来学习的场景的反馈。该反馈随时间的经过显著地改进控制。

基于该数据，

A)仿真模型的输入参数可以被校准，导致更好的仿真模型，例如学习磨损如何影响马达特性、检测具有比假设的低的压力的轮胎、检测导致不同的空气动力学的装箱的车顶顶部、……。

B)如果可以确定例如机器的系统在哪些负载下操作。在可以通过从地图读取轨迹来完成的汽车的情况下。在船的情况下，工厂或泵薄（pump thin）可能是更复杂的。例如，对于泵而言可以确定通过管线泵送了具有不同粘度的什么种类的油。例如不同的粘度可能意味着不同的负载。

动力系统是具有状态矢量（x）的系统，其中状态矢量根据状态的某函数而随时间t演化（f（x）=dx/dt）。附加地，函数可以接受采用矢量p的一些参数（dx/dt=f（x, p））。在可控制的动力系统中，附加的控制矢量（u）表示系统的可以由控制器9直接地改变的部分，该控制器9可以影响动力系统的演化（dx/dt=f（x, u, p））。动力系统sys的示例是沿着山路驾驶的车辆，其中状态矢量x的状态矢量条目可以是诸如车辆的高度、倾斜、位置、速度、加速度以及车辆的马达的角速度的量。输出矢量条目可以包括车辆的仪表板上的速度和消耗的读数。可以从这些直接地或间接地推断状态矢量x。控制矢量u的控制矢量条目可以例如指示供给了多少气以及制动踏板被压下多远。参数矢量p的参数矢量条目可以例如包括车辆的质量、空气阻力和滚动阻力轮廓以及马达扭矩轮廓。进一步的参数矢量条目可以描述路的高度轮廓，诸如具有描述高度曲线的某函数的位置或系数的高度的制表值。

模型预测控制（MPC）是用于计算控制可控制的动力系统sys的优化方式的算法。模型预测控制（MPC）采取如下作为输入：演化函数；在时间t=0处的估计的状态矢量x和参数矢量p；可能地一些约束d（x, u, p）以及应当尽可能低的成本函数C（t, x, u, p），并且使用优化算法来找到从t=0至t=T_h的优化控制u*，其确切地或近似地给出在被称为预测范围的该时间段期间积分的成本函数C的最低值，同时如果可能的话满足约束。T_h被称为预测范围长度。针对时间步长∆T_c实现该计算的优化控制u*，其中0<∆T_c<T_h，在其之后使用在时间t=∆T_c处的状态矢量x的新估计针对从t=∆T_c至t=T_h+∆T_c的时间再次找到优化控制u*。只要想要，这然后可以被针对从∆T_c至2∆T_c以及以此类推的接下来的时间间隔重复。

图3示出根据本发明的方面的用于执行对复杂动力系统sys的优化控制的方法的可能的示例性实施例的流程图。

在第一步骤S1中，提供仿真模型f用于基于场景参数矢量p和控制矢量u来及时预测动力系统的系统状态矢量x。

在进一步的步骤S2中，在每次在针对不同的场景参数矢量p和初始系统状态矢量x₀使用仿真模型f对动力系统进行仿真期间，使用模型预测控制MPC算法用来提供控制矢量u。

在进一步的步骤S3中，针对场景参数矢量p和初始系统状态矢量x₀的每个仿真组合，通过MPC算法来计算所得到的优化控制值u*并且将所得到的优化控制值u*保存到存储器。

在进一步的步骤S4中，使用机器学习算法MLA针对保存的所得到的优化控制值u*来生成对对应的场景参数矢量p和初始系统状态矢量x₀之间的关系进行近似的机器学习的控制启发u_a。机器学习算法MLA可以使用例如扩散映射。在可能的实施例中，机器学习算法MLA使用具有闭合可观察量的扩散映射用于近似动力系统sys。

在进一步的步骤S5中，生成的机器学习启发u_a被用于在线控制由仿真模型f建模的复杂动力系统sys。

可控制的动力系统sys可以由用于系统的动力学的仿真模型f表示为如下：

ẋ = f(t, x, u, p)

其中，t是时间，x是状态变量矢量，u是控制变量矢量并且p是参数矢量。

图4A至图4D示出根据本发明的方法的步骤。

图4A示出针对一维状态x（t）和控制u（t）的MPC优化。基于用于x和u的已知数据（实线）和系统的动力学ẋ = f(x, u)，针对预测范围t∈[t₀, t₀+T_hor]将成本函数C（未示出）最小化。针对u的所得到的优化控制值和对应的预测状态x（虚线）然后可以被使用于接下来的∆T_c直到t₁，在这点过程被针对间隔t∈[t₀, t₀ + T_hor]重复。

如在图4B中图示的那样，然后通过使用扩散映射在更低维的流形（manifold）上参数化高维MPC数据，造成扩散映射坐标ψ₀和ψ₁。扩散映射是用于参数化嵌入在更高维中的更低维流形的数据分析工具。根据扩散映射进行映射基于在根据某核或度量测量的附近的邻近量之间的距离。构成扩散映射基础的思想是，针对在基础流形中采样的各点，在高维空间中到最接近的点的距离将近似地与在流形中的或沿着流形的距离相同。这可以被使用于点之间的扩散运算符的类型，其在无限数据的极限下可以被使得近似连续的拉普拉斯一贝尔特拉米(Laplace-Beltrami)运算符。由于该运算符的特征矢量或特征函数提供基础流形的有用的参数化，所以可能的是针对离散量同样地做并且因而获得参数化。特征矢量值可以被解释为在流形内在最显著的方向上或者在对距离提供最多贡献的方向上的坐标。作为特征矢量，它们还对数据形成函数的空间的正交基础。这还可以通过几何谐波形成用于插值和扩展函数的基础。

如在图4C中图示的那样，扩散映射的坐标可以被扩展和插值到位于由扩散映射近似的低维流形上或在由扩散映射近似的低维流形附近的非采样点。

进一步地，如在图4D中图示的那样，输出启发可以被在之前的未采样点处插值并且然后可以被使用于例如用于验证或控制。

合并系统的动力学的另一个可能性是通过经过时间延迟的嵌入来扩展每个数据点，即把整个时间系列合并为一个数据点。以这种方式，距离度量对各整体轨迹之间而不是对各单个点之间的差异进行比较。

在可能的实施例中，复杂动力系统包括在路上驾驶的车辆。在应用示例中，这样的系统包括基于当前速度（状态x）关于预先提供的高度轮廓（场景p）的车辆的能量优化的加速和中断。

例如，控制启发可以由如在图5中图示的地图路线的高度轮廓（诸如由Google地图或其它地图服务和导航系统提供的那些）来训练。模型预测控制（MPC）算法可以递送针对该高度轮廓的优化的控制策略或优化的控制值。图5示出随着距离d的高度轮廓、速度V、加速度A、温度T和马达中断力F以及瞬时成本/时间值c。

在图6中示出对于由标准偏差1000、高度200并且中心相距3000的高斯组成的两个相继的山的具有来自MPC的优化控制值的系统响应。

控制启发生成平台1包括用于存储场景参数矢量的数据库4。场景参数矢量是描述系统的外部因素的参数的矢量。这些外部因素不因为系统的演化而改变。这些参数可以包括处理要求、物理常数、系统特性或特定设置的特性。

进一步的平台1具有对系统的初始系统状态矢量的访问。系统状态矢量x是描述动力系统sys的状态并且影响动力系统sys的未来以及还随时间演化的变量的矢量。演化由根据dx/dt=f（x, u, p）而取决于系统状态矢量x、场景参数的矢量p和控制变量的矢量u的数学模型f来描述。在每次在针对不同的场景参数矢量p和初始系统状态矢量x₀使用仿真模型f对动力系统sys进行仿真期间，使用模型预测控制MPC来提供控制矢量u。针对场景参数矢量p和初始系统状态矢量x₀的每个仿真组合，计算所得到的优化控制值u*并且将所得到的优化控制值u*保存在存储器6中，如在图1中示出那样。机器学习算法MLA被用于针对保存的所得到的优化控制值u*来生成对对应的场景参数矢量p和初始系统状态矢量x₀之间的关系进行近似的机器学习的控制启发u_a。机器学习启发是由机器学习算法MLA生成的启发（经验法则或近似法则）。机器学习启发因此包括用于控制的近似法则。机器学习的控制启发u_a是指从输入的系统矢量x和场景参数矢量p到由模型预测控制MPC算法生成的优化控制矢量u的关于输入/输出关系的近似法则。因此，像这样的机器学习的控制启发u_a是取得输入状态矢量x和场景参数矢量p并且输出控制矢量u的数学函数。控制启发提供所计算的优化控制值。所得到的优化控制值u*可以被保存并且然后关系（启发）可以被插值。

在进一步的可能的实施例中，还可以使用线性回归或最近的邻近量插值来产生关于变量的近似法则。

在由仅使用生成的机器学习的控制启发u_a的控制器9进行操作期间可以控制系统sys本身。因此，控制器9本身的计算要求是低的。进一步地，与常规的模型预测控制MPC相比较，控制是鲁棒的。甚至复杂的处理或系统sys可以由简单的控制启发u_a来表示，从而增加了控制方法的效率。

Claims

1.一种用于使用机器学习的基于场景的控制启发来执行对复杂动力系统（sys）的优化控制的方法，所述方法包括步骤：

a）提供（S1）仿真模型（f），仿真模型（f）用于基于当前场景参数矢量（p）和控制矢量（u）及时预测所述动力系统（sys）的系统状态矢量（x）；

b）在每次在针对不同的场景参数矢量（p0, p1, p2, ..）和初始系统状态矢量（x00,x01, x02, ..）使用仿真模型（f）对动力系统（sys）进行仿真期间，使用（S2）模型预测控制MPC算法来提供控制矢量（u）；

c)通过MPC算法针对场景参数矢量（p）和初始系统状态矢量（x₀）的每个仿真组合来计算（S3）所得到的优化控制值（u*（p, x₀））并且保存所得到的优化控制值；

d)使用机器学习算法针对保存的所得到的优化控制值（u*（p, x₀））来生成（S4）对对应的场景参数矢量（p）和初始系统状态矢量（x₀）之间的关系进行近似的机器学习的控制启发（u_a（p, x₀））；以及

e）使用生成的机器学习的控制启发来控制（S5）由所述仿真模型（f）建模的复杂动力系统（sys）。

2.根据权利要求1所述的方法，其中机器学习算法使用扩散映射。

3.根据权利要求1或2所述的方法，其中机器学习算法使用具有闭合可观察量的扩散映射用于近似所述动力系统。

4.根据权利要求1所述的方法，其中机器学习算法使用支持矢量机。

5.根据前述权利要求1至4中的任一项所述的方法，其中生成的机器学习的控制启发被传递到控制器，所述控制器根据传递的机器学习的控制启发在线控制动力系统。

6.根据前述权利要求1至5中的任一项所述的方法，其中机器学习的控制启发包括用于控制由所述仿真模型建模的复杂动力系统的近似法则。

7.一种控制启发生成平台（1），用于提供使用于控制由仿真模型（f）建模的动力系统（sys）的机器学习的控制启发，所述仿真模型（f）存储在模型存储（2）中，并且被适配为基于当前场景参数矢量（p）和控制矢量（u）及时预测所述动力系统（sys）的系统状态矢量（x），

其中所述控制启发生成系统（1）包括：

第一计算单元（3），其在每次在针对不同的场景参数矢量和初始系统状态矢量使用所述仿真模型（f）对所述动力系统（sys）进行仿真期间，使用模型预测控制MPC算法来提供控制矢量（u），并且被适配为通过MPC算法针对场景参数矢量（p）和初始系统状态矢量（x₀）的每个仿真组合计算所得到的优化控制值（u*（p, x₀））并且将所得到的优化控制值保存到存储器（6）；

第二计算单元（7），其被适配为使用机器学习算法针对保存的所得到的优化控制值（u*（p, x₀））来生成对对应的场景参数矢量（p）和初始系统状态矢量（x₀）之间的关系进行近似的机器学习的控制启发（u_a（p, x₀）），

其中，生成的机器学习的控制启发是经由所述控制启发生成平台（1）的接口而可传递到所述动力系统的控制器（9）的。

8.根据权利要求7所述的控制启发生成平台，其中，在在线操作期间观察和保存的初始系统状态（x₀）和场景参数矢量（p）被附加地供给到第一计算单元（3）以构造更新的机器学习的控制启发，所述更新的机器学习的控制启发是可传递到控制器（9）的。

9.根据权利要求7或8所述的控制启发生成平台，其中，控制启发生成平台（1）被实现为云平台。

10.根据权利要求7、8或9所述的控制启发生成平台，其中，机器学习的控制启发包括用于控制由所述仿真模型（f）建模的复杂动力系统（sys）的近似法则。

11.根据前述权利要求7至10中的任一项所述的控制启发生成平台，其中，动力系统（sys）包括由所述控制器（9）根据传递的机器学习的控制启发在线控制的车辆。