CN113614652A

CN113614652A - 模型预测控制装置、模型预测控制程序、模型预测控制系统及模型预测控制方法

Info

Publication number: CN113614652A
Application number: CN201980094472.9A
Authority: CN
Inventors: 濑川秀一; 摄津敦; 外山正胜; 小中裕喜
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2021-11-05
Also published as: WO2020202316A1; JP6929488B2; DE112019006928T5; US20210365033A1; JPWO2020202316A1

Abstract

操作路径生成部(210)基于从状态传感器(101)输出的计测状态量，生成针对致动器(111)的操作量时间序列。预测模型部(220)将所述计测状态量和所述操作量时间序列作为输入来运算预测模型，由此，生成状态量预测时间序列。神经网络部(230)将从环境传感器(102)输出的计测环境量和所述状态量预测时间序列作为输入来运算神经网络，由此，校正所述状态量预测时间序列。状态量评价部(240)生成针对所述校正后的状态量时间序列的评价结果。操作路径生成部在所述评价结果满足适当基准的情况下，将所述操作量时间序列的前头的操作量向所述致动器输出。

Description

模型预测控制装置、模型预测控制程序、模型预测控制系统及模型预测控制方法

技术领域

本发明涉及模型预测控制。

背景技术

已知有使用预测模型对控制对象进行控制的模型预测控制。

例如，模型预测控制能够用于车辆的自动驾驶控制。

在专利文献1中公开了一种与外部环境匹配地自动变更模型的模型预测控制系统。

在该系统中，从按照不同天气而准备的模型中选择与预测时的天气对应的模型，基于外部气温对选择出的模型进行校正，使用校正后的模型进行模型预测控制。

现有技术文献

专利文献

专利文献1：日本特开2000-99107号公报

发明内容

发明要解决的问题

在专利文献1所公开的系统中，无法应对设想以外的外部环境。

例如，即便准备了晴天用模型、阴天用模型、雨天用模型及雪天用模型，也无法针对台风这样的特殊天气而选择适当的模型。此外，即便能够选择适合于预测时的天气的模型，在预测时的外部气温为设想范围外的温度的情况下，也无法适当地校正模型。

其结果是，模型预测控制的精度会下降。

本发明的目的在于，即便在设想以外的环境中，也能够维持模型预测控制的精度。

用于解决问题的手段

本发明的模型预测控制装置具备：操作量时间序列生成部，其基于从计测控制对象的状态的状态传感器输出的计测状态量，生成针对致动器的操作量时间序列，以使所述控制对象的状态变化；预测模型部，其将所述计测状态量和所述操作量时间序列作为输入来运算预测模型，由此生成所述控制对象的预测的状态量时间序列即状态量预测时间序列；神经网络部，其将从计测所述控制对象的动作环境的环境传感器输出的计测环境量和所述状态量预测时间序列作为输入来运算神经网络，由此校正所述状态量预测时间序列；状态量评价部，其将校正后的状态量预测时间序列作为输入来运算评价函数由此，生成针对所述校正后的状态量时间序列的评价结果；以及操作量决定部，其在所述评价结果满足适当基准的情况下，将所述操作量时间序列的前头的操作量向所述致动器输出。

发明的效果

根据本发明，将由预测模型得到的状态量预测时间序列和从环境传感器输出的计测环境量作为输入来运算神经网络，从而校正状态量预测时间序列。因此，即便在设想以外的环境中，也能够校正状态量预测时间序列。因此，即便在设想以外的环境中，也能够维持模型预测控制的精度。

附图说明

图1是实施方式1中的模型预测控制系统100的结构图。

图2是实施方式1中的模型预测控制装置200的结构图。

图3是实施方式1中的模型预测控制的说明图。

图4是实施方式1中的模型预测控制的说明图。

图5是实施方式1中的模型预测控制方法的流程图。

图6是示出实施方式1中的神经网络231的图。

图7是不使用神经网络231的模型预测控制系统190的结构图。

图8是在车辆的自动驾驶控制中使用的模型预测控制系统190的结构图。

图9是示出通过模型预测控制系统190进行的车辆的自动驾驶控制的图。

图10是车辆的自动驾驶控制的说明图。

图11是实施方式2中的模型预测控制系统100的结构图。

图12是实施方式2中的模型预测控制装置200的结构图。

图13是实施方式2中的历史部280的结构图。

图14是实施方式2中的学习方法的概要图。

图15是实施方式2中的学习方法的流程图。

图16是实施方式3中的模型预测控制系统300的结构图。

图17是实施方式3中的模型预测控制装置400的结构图。

图18是实施方式3中的模型预测控制方法的流程图。

图19是示出实施方式3中的神经网络411的图。

图20是实施方式中的模型预测控制装置200的硬件结构图。

图21是实施方式中的模型预测控制装置400的硬件结构图。

具体实施方式

在实施方式及附图中，针对相同要素或者对应的要素标注相同的标号。适当省略或简化标注有与已说明的要素相同的标号的要素的说明。图中的箭头主要表示数据流或者处理的流程。

实施方式1.

基于图1至图10对使用神经网络的模型预测控制系统100进行说明。

模型预测控制系统100是用于通过模型预测控制(MPC)对控制对象进行控制的系统。之后叙述模型预测控制。

例如，模型预测控制系统100能够用于实现车辆的自动驾驶。

＊＊＊结构的说明＊＊＊

基于图1对模型预测控制系统100的结构进行说明。

模型预测控制系统100具备状态传感器组、环境传感器组、致动器组以及模型预测控制装置200。

状态传感器组是1个以上的状态传感器101。

状态传感器101是用于计测控制对象的状态的传感器。

例如，控制对象是车辆，状态传感器101是速度传感器或位置传感器。速度传感器计测车辆的速度。位置传感器对车辆进行测位。

环境传感器组是1个以上的环境传感器102。

环境传感器102是用于计测控制对象的动作环境的传感器。

例如，控制对象是车辆，环境传感器102是车重传感器或姿势传感器。车重传感器计测车辆的重量(包含乘客及货物的重量)。姿势传感器计测车辆的姿势(倾斜度)。车辆的姿势相当于路面的倾斜。

致动器组是1个以上的致动器111。

致动器111使控制对象的状态变化。

例如，控制对象是车辆，致动器111是方向盘、马达或制动器。

模型预测控制装置200是用于通过模型预测控制(MPC)对控制对象进行控制的装置。之后叙述模型预测控制。

例如，模型预测控制装置200进行针对车辆的自动驾驶控制。

模型预测控制装置200的特征在于，具备神经网络部230。

基于图2对模型预测控制装置200的结构进行说明。

模型预测控制装置200是具备处理器201、存储器202、辅助存储装置203、输入输出接口204及通信装置205这样的硬件的计算机。这些硬件经由信号线相互连接。

处理器201是进行运算处理的IC，对其他硬件进行控制。例如，处理器201是CPU、DSP或GPU。

IC是Integrated Circuit(集成电路)的简称。

CPU是Central Processing Unit(中央处理单元)的简称。

DSP是Digital Signal Processor(数字信号处理器)的简称。

GPU是Graphics Processing Unit(图形处理单元)的简称。

存储器202是易失性的存储装置。存储器202也被称为主存储装置或主存储器。例如，存储器202是RAM。根据需要，将存储于存储器202的数据保存于辅助存储装置203。

RAM是Random Access Memory(随机访问储存器)的简称。

辅助存储装置203是非易失性的存储装置。例如，辅助存储装置203是ROM、HDD或闪存。根据需要，将存储于辅助存储装置203的数据加载到存储器202中。

ROM是Read Only Memory(只读存储器)的简称。

HDD是Hard Disk Drive(硬盘驱动器)的简称。

输入输出接口204是与输入装置及输出装置连接的端口。例如，在输入输出接口204连接有状态传感器组、环境传感器组及致动器组。

USB是Universal Serial Bus(通用串行总线)的简称。

通信装置205是接收器及发送器。例如，通信装置205是通信芯片或NIC。

NIC是Network Interface Card(网络接口卡)的简称。

模型预测控制装置200具备操作路径生成部210、预测模型部220、神经网络部230及状态量评价部240这样的要素。这些要素由软件实现。

操作路径生成部210具备操作量时间序列生成部211和操作量决定部212。

在辅助存储装置203中存储有模型预测控制装程序，该模型预测控制程序用于使计算机作为操作路径生成部210、预测模型部220、神经网络部230及状态量评价部240发挥功能。模型预测控制程序被加载到存储器202中，由处理器201执行。

在辅助存储装置203中还存储有OS。OS的至少一部分被加载到存储器202中，由处理器201执行。

处理器201一边执行OS，一边执行模型预测控制程序。

OS是Operating System(操作系统)的简称。

模型预测控制程序的输入输出数据存储在存储部290中。

存储器202作为存储部290发挥功能。但是，辅助存储装置203、处理器201内的寄存器及处理器201内的高速缓冲存储器等存储装置也可以代替存储器202或者与存储器202一起作为存储部290发挥功能。

模型预测控制装置200也可以具备代替处理器201的多个处理器。多个处理器分担处理器201的作用。

模型预测控制程序能够以计算机可读取的方式记录(存储)在光盘或闪存等非易失性的记录介质中。

基于图3及图4对模型预测控制(MPC)进行说明。模型预测控制是现有技术。

首先，基于图3对模型预测控制进行说明。

模型预测控制是指使用控制对象的预测估计来计算最优的控制输入的控制方法之一。

在模型预测控制中，使用预测模型和优化器。预测模型是用于模仿控制对象的模型。优化器对预测模型的动作进行评价，计算最优的控制输入。

操作路径生成部210和状态量评价部240的组相当于优化器。

接着，基于图4对模型预测控制进行说明。操作量u相当于图3的控制输入u(t)。

在模型预测控制中，基于操作量的候选的时间序列ui而生成预测状态量的时间序列xi，通过评价函数来判定预测状态量的好坏。反复进行该处理，直至得到评价高的预测状态量为止。然后，输出与评价高的预测状态量对应的操作量u1。

＊＊＊动作的说明＊＊＊

模型预测控制系统100的动作相当于模型预测控制方法。此外，基于模型预测控制装置200的模型预测控制方法的步骤相当于模型预测控制程序的步骤。

基于图5对模型预测控制方法进行说明。

为了容易理解说明，设状态传感器组为1个状态传感器101、环境传感器组为1个环境传感器102、致动器组为1个致动器111来进行说明。

状态传感器101定期地计测控制对象的状态，输出计测状态量。计测状态量是通过计测控制对象的状态而得到的状态量。状态量表示控制对象的状态。

环境传感器102定期地计测控制对象的动作环境，输出计测环境量。计测环境量是通过计测控制对象的动作环境而得到的环境量。环境量表示控制对象的动作环境。

反复执行步骤S110至步骤S160。

在步骤S110中，操作量时间序列生成部211受理从状态传感器101输出的计测状态量。

操作量时间序列生成部211基于受理到的计测状态量，生成操作量时间序列。

然后，操作量时间序列生成部211输出计测状态量和操作量时间序列。

操作量时间序列是按照时刻顺序排列的多个操作量，相当于以往的模型预测控制中的操作量的候选的时间序列ui(参照图4)。

生成操作量时间序列的方法与在以往的模型预测控制中生成操作量的候选的时间序列ui的方法相同。

在步骤S120中，预测模型部220受理从操作量时间序列生成部211输出的计测状态量和操作量时间序列。

预测模型部220将计测状态量和操作量时间序列作为输入来运算预测模型。由此，生成状态量预测时间序列。

然后，预测模型部220输出状态量预测时间序列。

状态量预测时间序列是通过预测模型而预测的状态量时间序列。

状态量时间序列是按照时刻顺序排列的多个状态量，相当于以往的模型预测控制中的预测状态量的时间序列xi(参照图4)。

生成状态量预测时间序列的方法与在以往的模型预测控制中生成预测状态量的时间序列xi的方法相同。

在步骤S130中，神经网络部230受理从环境传感器102输出的计测环境量和从预测模型部220输出的状态量预测时间序列。

神经网络部230将计测环境量和状态量预测时间序列作为输入来运算神经网络231。由此校正状态量预测时间序列。

然后，神经网络部230输出校正后的状态量预测时间序列。

之后叙述神经网络231。

在步骤S140中，状态量评价部240受理从神经网络部230输出的校正后的状态量预测时间序列。

神经网络部230将校正后的状态量预测时间序列作为输入来运算评价函数。由此生成状态量评价结果。

然后，状态量评价部240输出状态量评价结果。

状态量评价结果是针对校正后的状态量预测时间序列的评价结果，相当于以往的模型预测控制中的针对预测状态量的时间序列xi的评价结果(参照图4)。

生成状态量评价结果的方法与在以往的模型预测控制中生成针对预测状态量的时间序列xi的评价结果的方法相同。

在步骤S150中，操作量决定部212受理从状态量评价部240输出的状态量评价结果。

然后，操作量决定部212判定状态量评价结果是否满足适当基准。适当基准是预先决定的基准。判定方法与以往的模型预测控制中的方法相同。

在状态量评价结果满足适当基准的情况下，在步骤S110中生成的操作量时间序列是最优的操作量时间序列，即，最优解。

在步骤S110中生成的操作量时间序列是最优解的情况下，处理进入步骤S160。

在步骤S110中生成的操作量时间序列不是最优解的情况下，处理进入步骤S110。然后，在步骤S110中生成另外的操作量时间序列。

在步骤S160中，操作量决定部212将在步骤S110中生成的操作量时间序列(最优解)的前头的操作量向致动器111输出。将前头的操作量称为“第1操作量”。

致动器111受理从操作量决定部212输出的第1操作量。然后，致动器111按照受理到的第1操作量进行动作。其结果是，控制对象的状态发生变化。

基于图6对神经网络231进行说明。

神经网络231是模型预测控制系统100用的神经网络。

对神经网络的结构进行说明。

神经网络具有输入层、隐藏层以及输出层。

各个层具有1个以上的节点。圆表示节点。

层间的节点通过边而连结。虚线表示边。

在各个边设定有权重。

基于前一层的节点的值和设定于边的权重，决定后一层的节点的值。

在神经网络231中，状态量预测时间序列(x1，…，xk)和计测环境量(y0)成为针对输入层的输入。而且，校正后的状态量预测时间序列(x’1，…，x’k)成为来自输出层的输出。

＊＊＊实施方式1的效果＊＊＊

基于图7至图10，对不使用神经网络231的模型预测控制装置191的问题进行说明。

图7示出不使用神经网络231的模型预测控制系统190的结构。

模型预测控制系统190不具备环境传感器组。

此外，模型预测控制装置191不具备相当于神经网络部230的功能。

因此，模型预测控制装置191无法基于计测环境量来校正状态量预测时间序列。

但是，状态传感器组及致动器组暴露在外部环境中。因此，由状态传感器组计测的状态量及通过致动器组而变化的状态量并不一定与状态量预测时间序列一致。

图8示出在车辆的自动驾驶控制中利用的模型预测控制系统190的结构。

模型预测控制系统190具备车速传感器和位置传感器这样的状态传感器。此外，模型预测控制系统190具备方向盘、马达及制动器这样的致动器。

模型预测控制装置191基于车辆的速度和车辆的位置，来决定转向量、马达输出及制动器输出。

当普及该模型预测控制系统190时，能够考虑模型预测控制系统190是基于状态量而输出操作量的系统。

图9示出基于模型预测控制系统190的车辆的自动驾驶控制的情形。

模型预测控制装置191为了使状态量x_i(车速、车辆位置)变动而输出操作量u_i。由此，控制车辆的行驶路径。

基于图10对车辆的自动驾驶控制进行说明。

在车辆中产生基于车重的重力、来自路面的应力及推进机的推进力等。

车辆的加速量Δ_v能够由式(1)表示。

“M”表示车重。“θ”表示车辆的倾斜度。“F”表示推进机的操作量。“g”表示重力加速度。

“X_gain”表示增益校正量。“X_sens”表示计测状态量。“X_ofs”表示偏移校正量。

[数式1]

θ＝Θ_gainθ_sens+Θ_ofs

M＝M_gainM_sens+M_ofs

但是，需要在实施了各状态传感器的校正后进行考虑了其他误差的校正。此外，在计测状态量中存在非线性特性的情况下，需要另外进行考虑。

此外，增益校正量X_gain及偏移校正量X_ofs依赖于动作环境。

因此，如果不考虑动作环境，则针对车辆的自动驾驶控制的精度可能变差。

另一方面，实施方式1中的模型预测控制装置200通过使用神经网络231来实现考虑了动作环境的控制。其结果是，能够以高精度进行各种控制。

例如，即便不实施针对车辆的状态传感器的准确的校准，也能够实现精度高的自动驾驶控制。

实施方式2.

关于学习神经网络231的权重参数的方式，主要基于图11至图15来说明与实施方式1的不同点。

＊＊＊结构的说明＊＊＊

基于图11对模型预测控制系统100的结构进行说明。

模型预测控制系统100的结构除了模型预测控制装置200的结构之外与实施方式1中的结构相同(参照图1)。

基于图12对模型预测控制装置200的结构进行说明。

模型预测控制装置200还具备学习部250。学习部250具备模型运算部251和权重参数学习部252。学习部250由软件实现。

模型预测控制程序还使计算机作为学习部250发挥功能。

模型预测控制装置200还具备历史部280。历史部280由存储器202等存储装置实现。

基于图13对历史部280的结构进行说明。

在历史部280中存储有状态量历史281、环境量历史282、操作量历史283及状态量学习历史284这样的数据。

状态量历史281是计测状态量的历史即过去的计测状态量的集合。将过去的计测状态量称为“过去状态量”。将过去状态量的时间序列称为“状态量过去时间序列”。

环境量历史282是计测环境量的历史即过去的计测环境量的集合。将过去的计测环境量称为“过去环境量”。

操作量历史283是操作量的历史即过去的操作量的集合。将过去的操作量称为“过去操作量”。将过去操作量的时间序列称为“操作量过去时间序列”。

状态量学习历史284是状态量学习时间序列的历史即过去的状态量学习时间序列的集合。

状态量学习时间序列是为了学习在神经网络231中使用的权重参数而生成的状态量学习时间序列。

＊＊＊动作的说明＊＊＊

基于图14对学习部250的学习方法的概要进行说明。

“预测”是指生成状态量学习时间序列的处理。

状态量学习时间序列相当于状态量预测时间序列。即，状态量学习时间序列是通过运算与用于生成状态量预测时间序列的预测模型相同的预测模型而生成的。

在“预测”中使用操作量过去时间序列及过去状态量。

操作量过去时间序列是过去操作量的时间序列。

作为操作量过去时间序列的操作量u0，使用第1时刻(t＝1)的操作量u0。

作为操作量过去时间序列的操作量u1，使用第2时刻(t＝2)的操作量u0。

作为操作量过去时间序列的操作量u0，使用第3时刻(t＝3)的操作量u0。

作为过去状态量，使用第1时刻(t＝1)的状态量x0。

“学习”是指学习在神经网络231中使用的权重参数的处理。

在“学习”中，使用状态量学习时间序列及状态量过去时间序列。

作为状态量过去时间序列的状态量x1，使用第2时刻(t＝2)的状态量x0。

作为状态量过去时间序列的状态量x2，使用第3时刻(t＝3)的状态量x0。

基于图15对学习部250的学习方法进行说明。

学习方法被反复实施。例如，定期地或者在每次向致动器111输出操作量时实施学习方法。

在学习方法中，历史部280如以下那样进行动作。

在每次从状态传感器101输出计测状态量时，历史部280保存被输出的计测状态量。

在每次从环境传感器102输出计测环境量时，历史部280保存被输出的计测环境量。

在每次从操作量决定部212向致动器111输出操作量时，历史部280保存被输出的操作量。

在步骤S210中，模型运算部251从历史部280取得过去状态量和操作量过去时间序列。

然后，模型运算部251将过去状态量和操作量过去时间序列作为输入来运算预测模型。由模型运算部251运算的预测模型与由预测模型部220运算的预测模型相同。

由此，生成与状态量预测时间序列相当的状态量时间序列。将生成的状态量时间序列称为“状态量学习时间序列”。

模型运算部251将状态量学习时间序列保存于历史部280。

在步骤S220中，权重参数学习部252从历史部280取得过去环境量、状态量过去时间序列及状态量学习时间序列。

然后，权重参数学习部252使用状态量学习时间序列、过去环境量及状态量过去时间序列，进行针对神经网络231的权重参数的机器学习。

具体而言，权重参数学习部252以将状态量学习时间序列和过去环境量作为输入而执行神经网络231从而得到的校正后的状态量学习时间序列与状态量过去时间序列一致的方式，进行神经网络231的权重参数。

在步骤S230中，权重参数学习部252对在机器学习中得到的权重参数(学习结果)进行评价。

学习结果的评价如以下那样进行。

在步骤S210中，模型运算部251使用学习对象期间的多个过去状态量和学习对象期间的多个操作量过去时间序列，生成学习对象期间的多个状态量学习时间序列。

在步骤S220中，权重参数学习部252使用第一期间的多个状态量学习时间序列、第一期间的多个过去环境量及第一期间的多个状态量过去时间序列，进行针对神经网络231的权重参数的机器学习。第一期间是学习对象期间的一部分。例如，第一期间是学习对象期间的前半部分。

在步骤S230中，权重参数学习部252将在机器学习中得到的权重参数临时设定于神经网络231。接着，权重参数学习部252将第二期间的多个状态量学习时间序列和第二期间的多个过去环境量作为输入来运算神经网络231。由此，得到第二期间的多个状态量校正时间序列。第二期间是学习对象期间的一部分。例如，第二期间是学习对象期间的后半部分。状态量校正时间序列是校正后的状态量学习时间序列。然后，权重参数学习部252基于第二期间的多个状态量校正时间序列与第二期间的多个状态量过去时间序列的误差量，对学习结果进行评价。使用深度学习中的通常指标来进行针对学习结果的评价。

在得到了得到适当的学习结果这样的评价结果的情况下，处理进入步骤S240。

在得到了未得到适当的学习结果这样的评价结果的情况下，废弃在步骤S220中得到的权重参数，学习方法的处理结束。在该情况下，神经网络231的权重参数没有被更新。

在步骤S240中，权重参数学习部252将在步骤S220中得到的权重参数设定于神经网络231。由此，神经网络231的权重参数被更新。

在步骤S240之后，神经网络部230通过运算更新后的神经网络231来进行状态量预测时间序列的校正。

＊＊＊实施方式2的效果＊＊＊

能够学习神经网络231的权重参数。因此，基于神经网络231的校正的精度提高。其结果是，模型预测控制的精度提高。

实施方式3.

基于图16至图19，对使用二次规划法计算操作量的模型预测控制系统300进行说明。

模型预测控制系统300是用于通过模型预测控制(MPC)对控制对象进行控制的系统。关于模型预测控制，如实施方式1的说明所述。

例如，能够为了实现车辆的自动驾驶而利用模型预测控制系统300。

＊＊＊结构的说明＊＊＊

基于图16对模型预测控制系统300的结构进行说明。

模型预测控制系统300具备状态传感器组、环境传感器组、致动器组及模型预测控制装置400。

状态传感器组是1个以上的状态传感器301。

状态传感器301是用于计测控制对象的状态的传感器。

例如，控制对象是车辆，状态传感器301是速度传感器或位置传感器。速度传感器计测车辆的速度。位置传感器对车辆进行测位。

环境传感器组是1个以上的环境传感器302。

环境传感器302是用于计测控制对象的动作环境的传感器。

例如，控制对象是车辆，环境传感器302是车重传感器或姿势传感器。车重传感器计测车辆的重量(包含乘客及货物的重量)。姿势传感器计测车辆的姿势(倾斜度)。车辆的姿势相当于路面的倾斜。

致动器组是1个以上的致动器311。

致动器311使控制对象的状态变化。

例如，控制对象是车辆，致动器311是方向盘、马达或制动器。

模型预测控制装置400是用于通过模型预测控制(MPC)对控制对象进行控制的装置。

例如，模型预测控制装置400进行针对车辆的自动驾驶控制。

模型预测控制装置400的特征在于，具备神经网络部410。

基于图17对模型预测控制装置400的结构进行说明。

模型预测控制装置400是具备处理器401、存储器402、辅助存储装置403、输入输出接口404及通信装置405这样的硬件的计算机。这些硬件经由信号线相互连接。

处理器401是进行运算处理的IC，对其他硬件进行控制。例如，处理器401是CPU、DSP或GPU。

存储器402是易失性的存储装置。存储器402也被称为主存储装置或主存储器。例如，存储器402是RAM。根据需要，将存储于存储器402的数据保存于辅助存储装置403。

辅助存储装置403是非易失性的存储装置。例如，辅助存储装置403是ROM、HDD或闪存。根据需要，将存储于辅助存储装置403的数据加载到存储器402中。

输入输出接口404是与输入装置及输出装置连接的端口。例如，在输入输出接口404连接有状态传感器组、环境传感器组及致动器组。

通信装置405是接收器及发送器。例如，通信装置405是通信芯片或NIC。

模型预测控制装置400具备神经网络部410、评价式生成部420及求解器部430这样的要素。这些要素由软件实现。

在辅助存储装置403中存储有模型预测控制程序，该模型预测控制程序用于使计算机作为神经网络部410、评价式生成部420及求解器部430发挥功能。模型预测控制程序被加载到存储器402中，由处理器401执行。

在辅助存储装置403中还存储有OS。OS的至少一部分被加载到存储器402中，由处理器401执行。

处理器401一边执行OS，一边执行模型预测控制程序。

模型预测控制程序的输入输出数据存储在存储部490中。

存储器402作为存储部490发挥功能。但是，辅助存储装置403、处理器401内的寄存器及处理器401内的高速缓冲存储器等存储装置也可以代替存储器402或者与存储器402一起作为存储部490发挥功能。

模型预测控制装置400也可以具备代替处理器401的多个处理器。多个处理器分担处理器401的作用。

＊＊＊动作的说明＊＊＊

基于图18对模型预测控制方法进行说明。

状态传感器301定期地计测控制对象的状态，输出计测状态量。计测状态量是通过对控制对象的状态进行计测而得到的状态量。状态量表示控制对象的状态。

环境传感器302定期地计测控制对象的动作环境，输出计测环境量。计测环境量是通过计测控制对象的动作环境而得到的环境量。环境量表示控制对象的动作环境。

反复执行步骤S310至步骤S330。

在步骤S310中，神经网络部410受理从状态传感器301输出的计测状态量。

此外，神经网络部410受理从环境传感器302输出的计测环境量。

神经网络部410将计测状态量和计测环境量作为输入来运算神经网络411。由此，计算在用于预测控制对象的状态的变化的预测模型中设定的模型参数。

然后，神经网络部410输出计算出的模型参数。

预测模型能够由式(2)表示。

x_k+1＝Ax_k+Bu_k…(2)

“x_n”是控制对象的第n个状态量。

“u_n”是针对致动器311的第n个操作量。

“A”是作为模型参数之一的矩阵。

“B”是作为模型参数之一的向量。

基于图19对神经网络411进行说明。

神经网络411是模型预测控制系统300用的神经网络。

神经网络的结构如实施方式1的说明所述。

在神经网络411中，计测状态量x0和计测环境量y0成为针对输入层的输入。而且，模型参数(A，B)成为来自输出层的输出。

(A₀₀，…，A_ij，…，A_nn)构成矩阵A。

(B₀，…，B_i，…，B_n)构成向量B。

返回图18，从步骤S320继续进行说明。

在步骤S320中，评价式生成部420基于设定有计算出的模型参数的预测模型，生成二次规划法中的评价式。所生成的评价式是用于对针对致动器311的操作量时间序列进行评价的式子。

然后，评价式生成部420输出二次规划法中的评价式。

对二次规划法中的评价式进行说明。

针对预测模型的评价函数能够由式(3)表示。

“E₁”是通过评价函数得到的评价值。

“x_Tk”是状态量的目标值。

“x_k”是通过运算设定有矩阵A和向量B的预测模型而计算出的状态量。

[数式2]

优化评价函数的评价值E₁的问题相当于优化评价式的评价值E₂。评价式能够由式(4)表示。

(u₁，…，u_n)是操作量时间序列。

“Q”是矩阵。

“R”是向量。

[数式3]

评价式生成部420基于设定有矩阵A和向量B的预测模型来计算评价式的矩阵Q和评价式的向量R。

然后，评价式生成部420将矩阵Q和向量R设定于评价式。设定有矩阵Q和向量R的评价式是二次规划法中的评价式。

在步骤S330中，求解器部430通过求解二次规划法中的评价式来计算向致动器311提供的操作量。

具体而言，求解器部430通过执行优化求解器(二次规划求解器)，求解二次规划法中的评价式。

然后，求解器部430将计算出的操作量提供给致动器311。

＊＊＊实施方式3的效果＊＊＊

在使用二次规划法计算操作量的模型预测控制系统300中，也能够起到与实施方式1相同的效果。即，在设想以外的环境中，也能够维持模型预测控制的精度。

＊＊＊实施方式的补充＊＊＊

基于图20对模型预测控制装置200的硬件结构进行说明。

模型预测控制装置200具备处理电路209。

处理电路209是实现操作路径生成部210、预测模型部220、神经网络部230、状态量评价部240及学习部250的硬件。

处理电路209可以是专用的硬件，也可以是执行存储器202所存储的程序的处理器201。

在处理电路209为专用的硬件的情况下，处理电路209例如是单一电路、复合电路、程序化的处理器、并行程序化的处理器、ASIC、FPGA或者它们的组合。

ASIC是Application Specific Integrated Circuit(专用集成电路)的简称。

FPGA是Field Programmable Gate Array(现场可编程门阵列)的简称。

模型预测控制装置200也可以具备代替处理电路209的多个处理电路。多个处理电路分担处理电路209的作用。

在模型预测控制装置200中，也可以是一部分功能由专用的硬件实现，剩余的功能由软件或固件实现。

这样，处理电路209能够通过硬件、软件、固件或者它们的组合来实现。

基于图21对模型预测控制装置400的硬件结构进行说明。

模型预测控制装置400具备处理电路409。

处理电路409是实现神经网络部410、评价式生成部420及求解器部430的硬件。

处理电路409可以是专用的硬件，也可以是执行存储器402所存储的程序的处理器401。

在处理电路409是专用的硬件的情况下，处理电路409例如是单一电路、复合电路、程序化的处理器、并行程序化的处理器、ASIC、FPGA或者它们的组合。

模型预测控制装置400也可以具备代替处理电路409的多个处理电路。多个处理电路分担处理电路409的作用。

在模型预测控制装置400中，也可以是，一部分功能由专用的硬件实现，剩余的功能由软件或固件实现。

这样，处理电路409能够通过硬件、软件、固件或者它们的组合来实现。

实施方式是优选方式的例示，并非意在限制本发明的技术范围。实施方式可以部分地实施，也可以与其他方式组合来实施。使用流程图等说明的步骤也可以适当变更。

模型预测控制装置(200、400)也可以由多个装置构成。例如也可以是，设置于云端的服务器装置具备学习部250，在云端中执行学习方法的处理。

作为模型预测控制装置(200、400)的要素的“部”也可以改写为“处理”或“工序”。

标号说明

100模型预测控制系统，101状态传感器，102环境传感器，111致动器，190模型预测控制系统，191模型预测控制装置，200模型预测控制装置，201处理器，202存储器，203辅助存储装置，204输入输出接口，209处理电路，210操作路径生成部，211操作量时间序列生成部，212操作量决定部，220预测模型部，230神经网络部，231神经网络，240状态量评价部，250学习部，251模型运算部，252权重参数学习部，280历史部，281状态量历史，282环境量历史，283操作量历史，284状态量学习历史，290存储部，300模型预测控制系统，301状态传感器，302环境传感器，311致动器，400模型预测控制装置，401处理器，402存储器，403辅助存储装置，404输入输出接口，409处理电路，410神经网络部，411神经网络，420评价式生成部，430求解器部，490存储部。

Claims

1.一种模型预测控制装置，其中，

所述模型预测控制装置具备：

操作量时间序列生成部，其基于从计测控制对象的状态的状态传感器输出的计测状态量，生成针对致动器的操作量时间序列，以使所述控制对象的状态变化；

预测模型部，其将所述计测状态量和所述操作量时间序列作为输入来运算预测模型，由此生成所述控制对象的预测的状态量时间序列即状态量预测时间序列；

神经网络部，其将从计测所述控制对象的动作环境的环境传感器输出的计测环境量和所述状态量预测时间序列作为输入来运算神经网络，由此校正所述状态量预测时间序列；

状态量评价部，其将校正后的状态量预测时间序列作为输入来运算评价函数，由此生成针对所述校正后的状态量时间序列的评价结果；以及

操作量决定部，其在所述评价结果满足适当基准的情况下，将所述操作量时间序列的前头的操作量向所述致动器输出。

2.根据权利要求1所述的模型预测控制装置，其中，

所述模型预测控制装置具备：

模型运算部，其将从所述状态传感器输出的计测状态量即过去状态量和输入到所述致动器的操作量的时间序列即操作量过去时间序列作为输入来运算所述预测模型，由此生成学习用的状态量时间序列即状态量学习时间序列；以及

权重参数学习部，其使用所述状态量学习时间序列、从所述环境传感器输出的计测环境量即过去环境量、以及从所述状态传感器输出的计测状态量的时间序列即状态量过去时间序列，进行针对所述神经网络的权重参数的机器学习，

所述神经网络部运算设定有通过所述机器学习得到的权重参数的神经网络。

3.根据权利要求1或2所述的模型预测控制装置，其中，

所述控制对象是车辆，

所述模型预测控制装置用于所述车辆的自动驾驶控制。

4.一种模型预测控制程序，其中，

所述模型预测控制程序用于使计算机执行如下处理：

操作量时间序列生成处理，基于从计测控制对象的状态的状态传感器输出的计测状态量，生成针对致动器的操作量时间序列，以使所述控制对象的状态变化；

预测模型处理，将所述计测状态量和所述操作量时间序列作为输入来运算预测模型，由此生成所述控制对象的预测的状态量时间序列即状态量预测时间序列；

神经网络处理，将从计测所述控制对象的动作环境的环境传感器输出的计测环境量和所述状态量预测时间序列作为输入来运算神经网络，由此校正所述状态量预测时间序列；

状态量评价处理，将校正后的状态量预测时间序列作为输入来运算评价函数，由此生成针对所述校正后的状态量时间序列的评价结果；以及

操作量决定处理，在所述评价结果满足适当基准的情况下，将所述操作量时间序列的前头的操作量向所述致动器输出。

5.一种模型预测控制系统，其中，

所述模型预测控制系统具备：

状态传感器，其计测控制对象的状态；

环境传感器，其计测所述控制对象的动作环境；

致动器，其用于使所述控制对象的状态变化；

操作量时间序列生成部，其基于从所述状态传感器输出的计测状态量，生成针对所述致动器的操作量时间序列；

神经网络部，其将从所述环境传感器输出的计测环境量和所述状态量预测时间序列作为输入来运算神经网络，由此校正所述状态量预测时间序列；

6.根据权利要求5所述的模型预测控制系统，其中，

所述模型预测控制系统具备：

7.根据权利要求5或6所述的模型预测控制系统，其中，

所述控制对象是车辆，

所述模型预测控制系统用于所述车辆的自动驾驶控制。

8.一种模型预测控制方法，其中，

状态传感器计测控制对象的状态，

环境传感器计测所述控制对象的动作环境，

操作量时间序列生成部基于从所述状态传感器输出的计测状态量，生成针对致动器的操作量时间序列，该致动器用于使所述控制对象的状态变化，

预测模型部将所述计测状态量和所述操作量时间序列作为输入来运算预测模型，由此生成所述控制对象的预测的状态量时间序列即状态量预测时间序列，

神经网络部将从所述环境传感器输出的计测环境量和所述状态量预测时间序列作为输入来运算神经网络，由此校正所述状态量预测时间序列，

状态量评价部将校正后的状态量预测时间序列作为输入来运算评价函数，由此生成针对所述校正后的状态量时间序列的评价结果，

操作量决定部在所述评价结果满足适当基准的情况下，将所述操作量时间序列的前头的操作量向所述致动器输出。

9.一种模型预测控制装置，其向用于使控制对象的状态变化的致动器提供操作量，其中，

所述模型预测控制装置具备：

神经网络部，其将从计测所述控制对象的状态的状态传感器输出的计测状态量和从计测所述控制对象的动作环境的环境传感器输出的计测环境量作为输入来运算神经网络，由此计算模型参数，其中，该模型参数被设定于用于预测所述控制对象的状态的变化的预测模型；

评价式生成部，其基于设定有计算出的模型参数的预测模型，生成二次规划法中的评价式，作为用于评价针对所述致动器的操作量时间序列的式子；以及

求解器部，其通过求解二次规划法中的所述评价式来计算向所述致动器提供的操作量。

10.根据权利要求9所述的模型预测控制装置，其中，

所述控制对象是车辆，

所述模型预测控制装置用于所述车辆的自动驾驶控制。

11.一种模型预测控制程序，其用于向使控制对象的状态变化用的致动器提供操作量，其中，

所述模型预测控制程序使计算机执行如下处理：

神经网络处理，将从计测所述控制对象的状态的状态传感器输出的计测状态量和从计测所述控制对象的动作环境的环境传感器输出的计测环境量作为输入来运算神经网络，由此计算模型参数，其中，该模型参数被设定于用于预测所述控制对象的状态的变化的预测模型；

评价式生成处理，基于设定有计算出的模型参数的预测模型，生成二次规划法中的评价式，作为用于评价针对所述致动器的操作量时间序列的式子；以及

求解器处理，通过求解二次规划法中的所述评价式来计算向所述致动器提供的操作量。

12.一种模型预测控制系统，其中，

所述模型预测控制系统具备：

状态传感器，其计测控制对象的状态；

环境传感器，其计测所述控制对象的动作环境；

致动器，其用于使所述控制对象的状态变化；

13.根据权利要求12所述的模型预测控制系统，其中，

所述控制对象是车辆，

所述模型预测控制系统用于所述车辆的自动驾驶控制。

14.一种模型预测控制方法，其是向用于使控制对象的状态变化的致动器提供操作量的模型预测控制方法，其中，

状态传感器计测所述控制对象的状态，

环境传感器计测所述控制对象的动作环境，

神经网络部将从计测所述控制对象的状态的状态传感器输出的计测状态量和从计测所述控制对象的动作环境的环境传感器输出的计测环境量作为输入来运算神经网络，由此计算模型参数，其中，该模型参数被设定于用于预测所述控制对象的状态的变化的预测模型，

评价式生成部基于设定有计算出的模型参数的预测模型，生成二次规划法中的评价式，作为用于评价针对所述致动器的操作量时间序列的式子，

求解器部通过求解二次规划法中的所述评价式来计算向所述致动器提供的操作量。