JP7336425B2

JP7336425B2 - モデル学習装置、制御装置、モデル学習方法、および、コンピュータプログラム

Info

Publication number: JP7336425B2
Application number: JP2020173380A
Authority: JP
Inventors: 竜大森安; 太郎池田; 幹人竹内
Original assignee: Toyota Industries Corp; Toyota Central R&D Labs Inc
Current assignee: Toyota Industries Corp; Toyota Central R&D Labs Inc
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2023-08-31
Anticipated expiration: 2040-10-14
Also published as: AU2021240175B2; AU2021240175A1; JP2022064643A; EP3985461A1; US20220114461A1

Description

本発明は、モデル学習装置、制御装置、モデル学習方法、および、コンピュータプログラムに関する。

従来から、システムを制御するための入力と、この入力に対するシステムからの出力との関係を表すモデルを学習するモデル学習装置が知られている。例えば、特許文献１には、システムの将来の状態を予測し制御するモデル予測制御に用いられるモデルを、機械学習によって学習するモデル学習装置が記載されている。非特許文献１には、特殊なモデルを用いたモデル予測制御によって、システムの出力を最大化させる技術が記載されている。

特願２０１８－１７９８８８号公報

"ＯｐｔｉｍａｌＣｏｎｔｒｏｌＶｉａＮｅｕｒａｌＭｅｔｗｏｒｋｓ：ＡＣｏｎｖｅｘＡｐｐｒｏａｃｈ"、［ｏｎｌｉｎｅ］、ＹｉｚｅＣｈｅｎ、ＹｕａｎｙｕａｎＳｈｉ、ＢａｏｓｅｎＺｈａｎｇ、［令和２年９月２８日検索］、インターネット（ＵＲＬ：ｈｔｔｐｓ：／／ａｒｘｉｖ.ｏｒｇ／ａｂｓ／１８０５.１１８３）

しかしながら、上述したような先行技術によっても、モデル学習装置において、システムを安定的に制御しつつ出力の目標値に対する追従性を向上させる入力を決定することができる制御装置を構築可能なモデルを学習する技術については、なお改善の余地があった。モデルを用いるモデル予測制御では、システムの制御周期ごとに、最適制御問題（ＯＣＰ）と呼ばれる一種の最適化問題を解く。この最適制御問題では、モデルからシステムの将来の状態やシステムにおける出力変化を予測できることを利用して、システムの状態や出力変化が最も望ましい挙動となるように、最適な入力の時系列を求める。具体的には、設計者が任意に設定する目的関数を最小化するような入力の時系列を求める最適化（最小化）問題として解くことになる。

特許文献１の技術では、機械学習を用いて学習されたモデルは、非線形性が強いため、最適制御問題は、非凸最適化問題となりやすい。このため、解の一意性を保証することができない。また、設定される初期条件によっては、入力に不規則なばらつきが発生するおそれがあり、信頼性を担保することが困難である。また、非特許文献１の技術では、特殊なモデルを用いて制御装置を構築することで、ある出力や状態そのものを最大化ないし最小化するための入力を決定することができるものの、出力の目標値を与えて、それに追従させる場合、出力の偏差を最小化することができる入力を一意に決定することは困難である。したがって、出力の目標値に追従させる制御では不安定になりやすい。

本発明は、上述した課題を解決するためになされたものであり、システムにおける入力と出力との関係を表すモデルを学習するモデル学習装置において、システムを安定的に制御しつつ出力の目標値に対する追従性を向上させる入力を決定することができるモデルを学習する技術を提供することを目的とする。

本発明は、上述の課題を解決するためになされたものであり、以下の形態として実現できる。

（１）本発明の一形態によれば、システムに入力される入力変数ｖと、前記システムから出力される出力変数ｙとの関係を表すモデルを学習するモデル学習装置が提供される。このモデル学習装置は、前記入力変数ｖを用いて前記出力変数ｙを予測するための非線形の状態方程式の学習に用いられるモデルを記憶するモデル記憶部と、前記モデルと、前記モデルに対する入力変数データと出力変数データの組を複数含んだ入出力データセットと、を用いて前記状態方程式を学習する学習部と、を備え、前記モデルは、前記入力変数ｖを入力とする全単射な写像Ψと、前記出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式である。

この構成によれば、モデルは、システムに入力される入力変数ｖを入力とする全単射な写像Ψと、システムから出力される出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式である。このような状態方程式は、写像Ψ、Φのそれぞれを内部変数とすることで、線形化することができるため、非線形な構造をしているモデルを用いた制御問題においても、解が一意であることを保証することができる。これにより、システムに入力される入力変数ｖの最適値を１つに決めることができるため、システムを制御する制御装置にこのモデル学習装置を適用した場合、入力変数ｖの最適値を用いて、システムを安定的に制御しつつ、システムからの出力の目標値に対する追従性を向上することができる。したがって、システムを安定的に制御しつつ出力の目標値に対する追従性を向上させる入力を決定することができる制御装置を構築可能なモデルを学習することができる。

（２）上記形態のモデル学習装置において、前記モデルは、式（１）によって定義されてもよい。

上記式において、等号の左辺は、前記出力変数ｙを表すｎ（ｎは整数）次元ベクトルの時間微分であり、等号の右辺のうち、前記入力変数ｖは、ｍ（ｍは整数）次元ベクトルであり、外生入力ｄは、前記出力変数ｙの変化に影響を与える制御不可能な入力を示すｐ（ｐは整数）次元ベクトルであり、前記写像Ψは、前記入力変数ｖと前記外生入力ｄを入力としてｍ次元のベクトルを返す関数であり、前記写像Φは、前記出力変数ｙと前記外生入力ｄを入力としてｎ次元のベクトルを返す関数であり、関数Ａ’、関数Ｂ’、関数ｃ’のそれぞれは、前記外生入力ｄを入力として、ｎ×ｎ行列、ｎ×ｍ行列、ｎ次元ベクトルのそれぞれを返す関数である。この構成によれば、写像Ψ、Φのそれぞれは、入力変数ｖ、出力変数ｙを入力とする全単射な写像であるため、例えば、関数Ｆ、Ｇを用いて、Ｆ^-1＝Ψ、Ｇ^-1＝Φとするように、式（１）を形式的に書き換えることが可能である。また、式（１）のモデルに含まれる写像Ψ、Φのそれぞれには、出力変数ｙの変化に影響を与える制御不可能な入力である外生入力ｄが含まれている。さらに、式（１）のモデルでは、外生入力ｄを入力とする関数Ａ’（ｄ）と関数Ｂ’（ｄ）とのそれぞれが写像Ψ、Φのそれぞれの係数となっている。また、式（１）のモデルには、外生入力ｄを入力とする関数ｃ’（ｄ）と、外生入力ｄの時間微分の項と、が含まれている。これらによって、式（１）のモデルは、出力変数ｙの変化に影響を与える制御不可能な外生入力ｄによる影響も考慮した状態方程式となるため、このモデルを用いることで、システムの将来の状態を高精度に予測することができる。したがって、システムを高精度に制御することができるモデルを学習することができる。

（３）上記形態のモデル学習装置において、前記式（１）において、前記写像Ψを内部変数ｕと定義し、前記写像Φを内部変数ｘと定義すると、前記学習部は、式（２）～式（４）によって定義される前記状態方程式を学習してもよい。

この構成によれば、式（１）の状態方程式において、写像Ψを内部変数ｕと定義し、写像Φを内部変数ｘと定義することで、式（１）の状態方程式を線形化することができる。これにより、式（１）に示す状態方程式は、それを用いた最適制御問題の解が一意となることを保証することができる。したがって、システムを安定的に制御しつつ出力の目標値に対する追従性を向上させる入力を決定することができる制御装置を構築可能なモデルを学習することができる。

（４）上記形態のモデル学習装置において、前記写像Ψは、式（５）～式（８）によって定義されてもよい。

また、前記写像Φは、式（９）～式（１２）によって定義されてもよい。

式（５）～式（１２）において、ｉは、多層ニューラルネットワークにおける層の番号であり、Ｌ_Ψ、Ｌ_Φのそれぞれは、多層ニューラルネットワークの層数であり、Ｗ_Ψ、Ｗ_Φのそれぞれは重みであり、ｂ_Ψ、ｂ_Φはバイアスであり、ψ_Ψ、φ_Φのそれぞれは、活性化関数であって、入力と同次元の出力を返す任意の全単射な写像である。この構成によれば、写像Ψ、Φのそれぞれは、多層ニューラルネットワークを用いて定義されている。これにより、モデルを用いて計算される入力変数ｖに対する出力変数ｙが実際のシステムの出力に近づくように、多層ニューラルネットワークの各層における重みＷ_Ψ、Ｗ_Φやバイアスｂ_Ψ、ｂ_Φを調整することで、実際のシステムの出力を高精度に予測するモデルを学習することができる。したがって、出力の目標値に対する追従性をさらに向上させる入力を決定することができる制御装置を構築可能なモデルを学習することができる。

（５）上記形態のモデル学習装置において、前記学習部は、前記モデルに対して、前記入出力データセットのうちの前記入力変数データのセットを与えて出力を推定し、推定された出力と、前記入出力データセットのうちの前記出力変数データのセットと、の一致度を評価し、評価の結果に応じて前記モデルの学習パラメータ、例えば、式（５）～式（１２）に含まれる重みＷ_Ψ、Ｗ_Φやバイアスｂ_Ψ、ｂ_Φを更新することで、前記状態方程式を学習してもよい。この構成によれば、学習部は、入出力データセットのうちの入力変数データセットを用いて推定された出力と、出力変数データセットとの一致度を評価する。学習部は、この一致度の評価に応じて、モデルについての学習パラメータを更新し、状態方程式を学習する。すなわち、学習部は、予め準備された入出力データセットを教師データとした学習手法に沿って、非線形の状態方程式を学習することができる。これにより、実際のシステムに沿ったモデルを学習することができるため、システムをさらに安定的に制御しつつ、システムからの出力の目標値に対する追従性がさらに向上された制御装置を構築可能なモデルを学習することができる。

（６）上記形態のモデル学習装置において、前記学習部は、前記式（２）～式（４）を、離散時刻ｋの時間ステップで離散化した式（１３）～式（１５）に示す状態方程式を学習してもよい。

この構成によれば、学習部は、式（２）～式（４）に示す状態方程式を、離散時刻ｋの時間ステップで離散化した式（１３）～式（１５）に示す状態方程式を学習する。これにより、内部変数ｘ、ｕの数を有限とすることができるため、モデルの学習に要する時間を短くすることができる。したがって、システムを安定的に制御しつつ出力の目標値に対する追従性を向上させる入力を決定することができる制御装置を構築可能なモデルを比較的短時間で学習することができる。

（７）本発明の別の形態によれば、システムを制御する制御装置が提供される。この制御装置は、上記（６）に記載のモデル学習装置と、前記学習部が学習した前記状態方程式を用いて、前記出力変数ｙの目標値に対応する前記入力変数ｖの目標値を決定する決定部と、を備え、前記決定部は、前記学習部が学習した式（１３）～式（１５）に示す状態方程式を用いた最適制御問題を解くことで前記入力変数ｖの目標値を決定してもよい。この構成によれば、決定部は、学習部が学習した式（１３）～式（１５）に示す状態方程式を用いて、最適制御問題を解くことで入力変数ｖの目標値を決定する。このとき、式（１５）が線形モデルであることを利用することで、式（１３）～式（１５）を用いた最適制御問題を凸最適化問題とすることができる。これにより、システムに入力される入力変数ｖの最適値を１つに決めることができるため、制御装置は、システムを安定的に制御しつつ、システムからの出力の目標値に対する追従性を向上することができる。

（８）本発明のさらに別の形態によれば、システムに入力される入力変数ｖと、前記システムから出力される出力変数ｙとの関係を表すモデルを学習するモデル学習方法が提供される。このモデル学習方法は、前記入力変数ｖを用いて前記出力変数ｙを予測するための非線形の状態方程式の学習に用いられるモデルを取得する工程と、前記モデルと、前記モデルに対する入力変数データと出力変数データの組を複数含んだ入出力データセットと、を用いて前記状態方程式を学習する工程と、を備え、前記モデルは、前記入力変数ｖを入力とする全単射な写像Ψと、前記出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式である。この構成によれば、モデルを取得する工程において取得するモデルは、システムに入力される入力変数ｖを入力とする全単射な写像Ψと、システムから出力される出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式である。このような状態方程式は、写像Ψ、Φのそれぞれを内部変数とすることで、線形化することができるため、非線形な構造をしているモデルを用いた制御問題においても、解が一意であることを保証することができる。これにより、システムに入力される入力変数ｖの最適値を１つに決めることができるため、システムを制御する制御装置にこのモデル学習方法を適用した場合、入力変数ｖの最適値を用いて、システムを安定的に制御しつつ、システムからの出力の目標値に対する追従性を向上することができる。したがって、システムを安定的に制御しつつ出力の目標値に対する追従性を向上させる入力を決定することができる制御装置を構築可能なモデルを学習することができる。

（９）本発明のさらに別の形態によれば、システムに入力される入力変数ｖと、前記システムから出力される出力変数ｙとの関係を表すモデルの学習を情報処理装置に実行させるコンピュータプログラムが提供される。このコンピュータプログラムは、前記入力変数ｖを用いて前記出力変数ｙを予測するための非線形の状態方程式の学習に用いられるモデルを取得する機能と、前記モデルと、前記モデルに対する入力変数データと出力変数データの組を複数含んだ入出力データセットと、を用いて前記状態方程式を学習する機能と、を前記情報処理装置に実行させ、前記モデルは、前記入力変数ｖを入力とする全単射な写像Ψと、前記出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式である。この構成によれば、コンピュータプログラムでは、モデルを取得する機能において取得するモデルは、システムに入力される入力変数ｖを入力とする全単射な写像Ψと、システムから出力される出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式である。このような状態方程式は、写像Ψ、Φのそれぞれを内部変数とすることで、線形化することができるため、非線形な構造をしているモデルを用いた制御問題においても、解が一意であることを保証することができる。これにより、システムに入力される入力変数ｖの最適値を１つに決めることができるため、システムを制御する制御装置の情報処理装置にこのコンピュータプログラムを適用した場合、入力変数ｖの最適値を用いて、システムを安定的に制御しつつ、システムからの出力の目標値に対する追従性を向上することができる。したがって、情報処理装置は、システムを安定的に制御しつつ出力の目標値に対する追従性を向上させる入力を決定することができる制御装置を構築可能なモデルを学習することができる。

なお、本発明は、種々の態様で実現することが可能であり、例えば、非線形システムのモデルを学習する装置および方法、学習により得られたモデルを用いて状態を推定する装置および方法、これらの装置が含まれるシステム、これらの装置およびシステムにおいて実行されるコンピュータプログラム、そのコンピュータプログラムを配布するためのサーバ装置、そのコンピュータプログラムを記憶した一時的でない記憶媒体等の形態で実現することができる。

第１実施形態のモデル学習装置の構成を示す模式図である。第１実施形態のモデル学習方法のフローチャートである。第２実施形態の制御装置の構成を示す模式図である。第２実施形態の予測制御方法のフローチャートである。凸関数と非凸関数の一例を説明する模式図である。モデル学習装置における計算結果を説明する第１の模式図である。２つのモデル学習装置における計算結果を説明する第２の模式図である。

＜第１実施形態＞
図１は、第１実施形態のモデル学習装置１００の構成を示す模式図である。本実施形態のモデル学習装置１００は、非線形システムのモデルを学習する装置である。ここで、「非線形システム」とは、任意の制御対象物（システム）に対する入出力パラメータの関係性が一次式では表せない、または、近似できない性質を持つシステムを意味する。また、本実施形態では「モデル」として、非線形の状態方程式を例示する。すなわち、モデル学習装置１００は、任意のシステムの状態を、該システムから出力される出力変数ｙとみなすことで、システムに入力される入力変数ｖによって制御された結果、システムの出力変数ｙを予測する非線形の状態方程式を学習する。なお、「状態方程式」とは、「ｙ・（ｔ）＝ｆ（ｙ（ｔ）、・・・）」のように、現時刻ｔにおける出力変数ｙ（ｔ）によって、それ自身の出力変数ｙ・（ｔ）を決定する方程式を意味する。以降、表記の便宜上、任意の変数ｚの時間微分を「ｚ・」と記載する。

システムは、例えば、内燃機関、ハイブリッド機関、パワートレインなどが含まれる。内燃機関、ハイブリッド機関、パワートレインなどの駆動機関をシステムとした場合、モデル学習装置１００により学習されるモデルは、システムの駆動に関する種々のパラメータ、例えば、制御対象部のアクチュエータの操作量、制御対象部に対する外乱、制御対象部の状態、制御対象部の出力、制御対象部の出力目標値などの関係を表す非線形の状態方程式となる。

モデル学習装置１００は、例えば、パーソナルコンピュータ（ＰＣ：ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）であり、ＣＰＵ１１０と、記憶部１２０と、ＲＯＭ／ＲＡＭ１３０と、通信部１４０と、入出力部１５０と、を備えている。モデル学習装置１００の各部は、バスにより相互に接続されている。

ＣＰＵ１１０は、制御部１１１と、学習部１１２と、を備えている。制御部１１１は、ＲＯＭ１３０に格納されているコンピュータプログラムをＲＡＭ１３０に展開して実行することにより、モデル学習装置１００の各部を制御する。学習部１１２は、任意のシステム（非線形システム）の状態を表す出力変数ｙを予測するための非線形の状態方程式を学習する。学習部１１２の機能の詳細は、後述する。

記憶部１２０は、ハードディスク、フラッシュメモリ、メモリカードなどで構成される記憶媒体である。記憶部１２０は、モデル記憶部１２１と、データセット記憶部１２２と、を有している。モデル記憶部１２１は、学習部１１２による状態方程式の学習のために用いられるモデルを予め記憶している。本実施形態では、モデル記憶部１２１に記憶されたモデルは、入力変数ｖを入力とする全単射な写像Ψと、出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式であって、式（１）により定義される。ここで、「全単射」とは、集合Ａの写像の結果が集合Ｂであるとした場合に、ＡとＢの各要素が必ず一対一の対応関係を持つことを意味する。これは、例えば、関数ｆが全単射である場合、一意の逆関数ｆ^-1が存在することと同義である。

上記式において、等号の左辺は、出力変数ｙを表すｎ（ｎは整数）次元ベクトルの時間微分であり、等号の右辺のうち、入力変数ｖは、ｍ（ｍは整数）次元ベクトルであり、外生入力ｄは、出力変数ｙの変化に影響を与える制御不可能な入力を示すｐ（ｐは整数）次元ベクトルであり、写像Ψは、入力変数ｖと外生入力ｄを入力としてｍ次元のベクトルを返す関数であり、写像Φは、出力変数ｙと外生入力ｄを入力としてｎ次元のベクトルを返す関数であり、関数Ａ’、関数Ｂ’、関数ｃ’のそれぞれは、外生入力ｄを入力として、ｎ×ｎ行列、ｎ×ｍ行列、ｎ次元ベクトルのそれぞれを返す関数である。

データセット記憶部１２２は、式（１）で表されるモデルに対する入力変数データと出力変数データの組を複数含んでいる入出力データセットを予め記憶している。この入力変数データと出力変数データの組は、システムに対する実験や計算により予め求められている。入出力データセットは、学習部１１２による状態方程式の学習のために用いられる教師データとして用いられる。以降、入出力データセットのうち、複数の入力変数データをまとめて「入力変数データセット」とも呼び、複数の出力変数データをまとめて「出力変数データセット」とも呼ぶ。

通信部１４０は、モデル学習装置１００と他の装置との間における、通信インターフェースを介した通信を制御する。他の装置としては、例えば、システムを制御する制御装置や、他の情報処理装置、および、データセット記憶部１２２から入出力データセットを取得するための計測器などが挙げられる。入出力部１５０は、モデル学習装置１００と、利用者との間の情報の入出力に使用される種々のインターフェースである。入出力部１５０としては、例えば、入力部としてのタッチパネル、キーボード、マウス、操作ボタン、マイクや、出力部としてのタッチパネル、モニタ、スピーカー、ＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）インジケータなどが挙げられる。

図２は、第１実施形態のモデル学習方法のフローチャートである。モデル学習装置１００におけるモデル学習方法は、例えば、所定のアプリケーションの起動などの利用者からの要求などによって実行される。本実施形態では、式（１）に示す状態方程式において、出力変数ｙ、入力変数ｖ、システムにおける外生入力ｄ、出力変数ｙの時間微分ｙ・、および、外生入力ｄの時間微分ｄ・を含む既知の入出力データセットを用いて、式（１６）に示す関数Ｆの関数形を学習（推定）する。ここで、出力変数ｙは、ｎ次元ベクトルであり、入力変数ｖは、ｍ次元ベクトルであり、外生入力ｄは、ｐ次元ベクトルである。

最初に、学習部１１２は、モデル記憶部１２１に記憶されているモデルを取得する（ステップＳ１１）。具体的には、学習部１１２は、関数Ｆを学習するためのモデルを式（１）に示す状態方程式と想定する。学習部１１２は、式（１）に示す状態方程式において、各変数の値をゼロまたはランダムな値とすることで、各変数を初期化する。

本実施形態では、学習部１１２は、式（１）に含まれる写像Ψを式（２）で示す内部変数ｕと定義し、式（１）に含まれる写像Φを式（３）で示す内部変数ｘと定義する。これにより、学習部１１２は、式（１）を内部変数ｕ、ｘで示した式（４）の状態方程式を学習することとなる。式（１）の状態方程式に含まれる写像Φ、Ψのそれぞれを内部変数ｘ、ｕのそれぞれで定義する効果は、後述する。

さらに、本実施形態では、学習部１１２は、多層ニューラルネットワークの考え方を用いて、写像Ψについての式（５）～式（８）を定義する。

また、本実施形態では、学習部１１２は、写像Ψについての式（５）～式（８）と同様に、多層ニューラルネットワークの考え方を用いて、写像Φについての式（９）～式（１２）を定義する。

ここで、ｉは、多層ニューラルネットワークにおける層の番号であり、Ｌ_Ψ、Ｌ_Φのそれぞれは、多層ニューラルネットワークの層数であり、Ｗ_Ψ、Ｗ_Φのそれぞれは重みであり、ｂ_Ψ、ｂ_Φはバイアスであり、ψ_Ψ、φ_Φのそれぞれは、活性化関数であり、入力と同次元の出力を返す任意の全単射な写像である。重みＷ_Ψ、Ｗ_Φ、バイアスｂ_Ψ、ｂ_Φ、活性関数、ψ_Ψ、φ_Φのそれぞれは、多層ニューラルネットワークの層ごとに設定されてもよい。

次に、学習部１１２は、データセット記憶部１２２から、出力変数ｙ、入力変数ｖ、外生入力ｄ、出力変数ｙの時間微分ｙ・、外生入力ｄの時間微分ｄ・についての入出力データセット［ｙ、ｖ、ｄ、ｙ・、ｄ・］を取得する（ステップＳ１２）。本実施形態では、入出力データセット［ｙ、ｖ、ｄ、ｙ・、ｄ・］の各データは、ｊ組（ｊは自然数、ｊ＝１～Ｎ）含まれている。取得した入出力データセットのうち、［ｙ_j、ｖ_j、ｄ_j、ｄ・_j］は、入力変数データセットに相当し、［ｙ・_j］は、出力変数データセットに相当する。

次に、学習部１１２は、モデルに入力データセットを与えて出力を推定する（ステップＳ１３）。具体的には、学習部１１２は、ステップＳ１１で取得し初期化した式（１）の状態方程式に対して、ステップＳ１２で取得した入力変数データセット［ｙ_j、ｖ_j、ｄ_j、ｄ・_j］を与える。これにより、出力変数ｙ・ｊの推定値（式（１７）の左辺）を得ることができる。なお、（∂Φ／∂ｙ）^-1は、出力変数ｙおよび外生入力ｄの関数であるため、出力変数ｙ_jおよび外生入力ｄ_jを代入することで評価可能である。また、式（１７）の右辺の（∂Φ／∂ｄ）は、入力変数ｖおよび外生入力ｄの関数であるため、入力変数ｖ_jおよび外生入力ｄ_jを代入することで評価可能である。

次に、学習部１１２は、推定された出力と出力変数データセットとの一致度を評価する（ステップＳ１４）。具体的には、学習部１１２は、ステップＳ１３で得られた出力変数ｙ・_jの推定値と、ステップＳ１２で取得した出力変数データセット［ｙ・_j］との一致度を評価する。学習部１１２は、例えば、式（１８）に示す二乗平均誤差（ＭＳＥ：ＭｅａｎＳｑｕａｒｅＥｒｒｏｒ）を一致度の指標として用いることができる。ＭＳＥの場合、等号の左辺Ｊの値が小さければ小さいほど、一致度が高い。なお、学習部１１２は、二乗平均誤差の代わりに、例えば、絶対平均誤差率や、交差エントロピーなどの指標を用いて、一致度を評価してもよい。

次に、学習部１１２は、一致度が十分であるか否かを判定する（ステップＳ１５）。例えば、式（１８）のＭＳＥを用いる場合、学習部１１２は、Ｊの値が所定値以下である場合に、一致度が十分であると判定できる。なお、学習部１１２は、Ｊの値の変化率が所定値以下である場合に、一致度が十分であると判定してもよい。所定値は任意に決定できる。

一致度が十分でない場合（ステップＳ１５：ＮＯ）、学習部１１２は、ステップＳ１６に進み、ステップＳ１１で定義した式（１）のモデルにおける、例えば、式（１）に含まれる関数Ａ’、関数Ｂ’、関数ｃ’、式（５）～式（１２）に含まれる重みＷ_Ψ、Ｗ_Φやバイアスｂ_Ψ、ｂ_Φなどの学習パラメータを更新する。学習部１１２は、例えば、バックプロパゲーションにより各学習パラメータに対するＪの勾配を評価し、各種の勾配法に基づいて、各学習パラメータを更新してもよい。その後、学習部１１２は、ステップＳ１３に進み、出力の推定および評価を繰り返す。

一致度が十分である場合（ステップＳ１５：ＹＥＳ）、学習部１１２は、処理を終了する。この際、学習部１１２は、学習した関数Ｆについて、入出力部１５０に出力してもよく、記憶部１２０に記憶してもよく、通信部１４０を介して他の装置に送信してもよい。

本実施形態のモデル学習装置１００がシステムの操作量を制御する制御装置と組み合わされている場合、モデル学習装置１００は、学習部１１２において学習した関数Ｆを制御装置に出力する。制御装置では、出力された関数Ｆを用いて、システムの現在時刻の出力から、将来の出力を制御するための入力を計算する。制御装置は、計算された入力をシステムに出力し、システムを制御する。

次に、図２で説明したモデル学習方法で学習されるモデル（状態方程式）において、解の一意性を保証できる理由について説明する。一般に、過渡的な現象を再現できる動的なモデルをニューラルネットワーク（機械学習）で構築する場合、当該モデルが安定である、言い換えれば、発散しない、保証はない。しかし、上述した式（１）に示した状態方程式を、出力変数ｙを写像Φによって変換した内部変数ｘを用いることで等価変換した式（４）は、内部変数ｘについて線形な微分方程式を含んでいる。このとき、入力変数ｖを写像Ψを用いて変換した内部変数ｕも同様に、微分方程式の線形項となる。写像Φ、Ψのそれぞれは、全単射な写像であるため、一意の逆関数が存在する。すなわち、内部変数ｘと出力変数ｙ、および、入力変数ｖと内部変数ｕのそれぞれは、相互に変換が可能であることから、線形化された式（４）を解くことで、非線形の式（１）の解を求めることができる。したがって、モデル学習装置１００を備える制御装置は、図２で説明したモデル学習方法で学習されるモデルを用いて、システムを安定的に制御しつつ、システムからの出力の目標値に対する追従性を向上することができる。

以上説明した、本実施形態のモデル学習装置１００によれば、モデルは、システムに入力される入力変数ｖを入力とする全単射な写像Ψと、システムから出力される出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式である。このような状態方程式は、写像Ψ、Φのそれぞれを内部変数とすることで、線形化することができるため、非線形な構造をしているモデルを用いた制御問題においても、解が一意であることを保証することができる。これにより、システムに入力される入力変数ｖの最適値を１つに決めることができるため、システムを制御する制御装置にこのモデル学習装置１００を適用した場合、入力変数ｖの最適値を用いて、システムを安定的に制御しつつ、システムからの出力の目標値に対する追従性を向上することができる。したがって、システムを安定的に制御しつつ出力の目標値に対する追従性を向上させる入力を決定することができるモデルを学習することができる。

また、一般的に、機械学習を用いて学習されたモデルは、比較的非線形性が強いため、このモデルを用いて予測される出力を何らかの目標に適切に追従させる最適制御問題は、非凸最適化問題になりやすい。このため、その問題を解く際の初期条件によって、得られる解が大きく変化してしまう可能性があり、入力のばたつきなどの信頼性問題に繋がるため、最適解を得ることが非常に難しい。本実施形態のモデル学習装置１００は、解が一意であることを保証することができるため、システムの出力（状態）の目標値に追従させる制御問題に対応する最適制御問題を、凸最適化問題とすることができる。これにより、解が、初期条件によらず最適な一意となることが保証されるため、システムを安定的に制御しつつ、システムからの出力の目標値に対する追従性を向上することができる。

また、本実施形態のモデル学習装置１００によれば、式（１）のモデルに含まれる写像Ψ、Φのそれぞれには、出力変数ｙの変化に影響を与える制御不可能な入力である外生入力ｄが含まれている。また、式（１）のモデルでは、外生入力ｄを入力とする関数Ａ’（ｄ）と関数Ｂ’（ｄ）とのそれぞれが写像Ψ、Φのそれぞれの係数となっている。さらに、式（１）のモデルには、外生入力ｄを入力とする関数ｃ’（ｄ）と、外生入力ｄの時間微分の項と、が含まれている。これらによって、式（１）のモデルは、出力変数ｙの変化に影響を与える制御不可能な外生入力ｄによる影響も考慮した状態方程式となるため、このモデルを用いることで、システムの将来の状態を高精度に予測することができる。したがって、システムを高精度に制御することができる制御装置を構築可能なモデルを学習することができる。

また、本実施形態のモデル学習装置１００によれば、式（１）の状態方程式において、写像Ψを内部変数ｕと定義し、写像Φを内部変数ｘと定義することで、式（４）に示すように、状態方程式を線形化することができる。これにより、式（１）に示す状態方程式において、解が一意であることを保証することができる。したがって、システムを安定的に制御しつつ出力の目標値に対する追従性を向上させる入力を決定することができる制御装置を構築可能なモデルを学習することができる。

また、本実施形態のモデル学習装置１００によれば、写像Ψ、Φのそれぞれは、多層ニューラルネットワークを用いて定義されている（式（５）～式（１２））。これにより、多層ニューラルネットワークの各層における重みＷΨ、ＷΦやバイアスｂΨ、ｂΦを調整することで、モデルを用いて計算される入力変数ｖの入力によるシステムの出力を実際の値に近づけることができる。したがって、出力の目標値に対する追従性をさらに向上させる入力を決定することができる制御装置を構築可能なモデルを学習することができる。

また、本実施形態のモデル学習装置１００によれば、学習部１１２は、入出力データセットのうちの入力変数データセットを用いて推定された出力と、出力変数データセットとの一致度を評価する。学習部１１２は、この一致度の評価に応じて、モデルについての学習パラメータを更新し、状態方程式を学習する。すなわち、学習部１１２は、予め準備された入出力データセットを教師データとした学習手法に沿って、非線形の状態方程式を学習することができる。これにより、実際のシステムに沿ったモデルを学習することができるため、システムをさらに安定的に制御しつつ、システムからの出力の目標値に対する追従性をさらに向上させる制御装置を構築可能なモデルを学習することができる。

また、本実施形態のモデル学習方法によれば、モデルを取得するステップＳ１１において取得するモデルは、システムに入力される入力変数ｖを入力とする全単射な写像Ψと、システムから出力される出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式である。このような状態方程式は、写像Ψ、Φのそれぞれを内部変数ｕ、ｘとすることで、線形化することができるため、非線形な構造をしているモデルを用いた制御問題においても、解が一意であることを保証することができる。これにより、システムに入力される入力変数ｖの最適値を１つに決めることができるため、システムを制御する制御装置にこのモデル学習方法を適用した場合、入力変数ｖの最適値を用いて、システムを安定的に制御しつつ、システムからの出力の目標値に対する追従性を向上することができる。したがって、システムを安定的に制御しつつ出力の目標値に対する追従性を向上させる入力を決定することができる制御装置を構築可能なモデルを学習することができる。

＜第２実施形態＞
図３は、第２実施形態の制御装置２００の構成を示す模式図である。第２実施形態の制御装置２００は、学習部２１２と決定部２１３を有するＣＰＵ２１０を備える。

制御装置２００は、車載ＥＣＵ（ＥｌｅｃｔｒｏｎｉｃＣｏｎｔｒｏｌＵｎｉｔ）として実現され得る。本実施形態の制御装置２００は、システム３００の制御のために用いることができる。システム３００とは、第１実施形態と同様に、例えば、内燃機関、ハイブリッド機関、パワートレインなどである。なお、制御装置２００は、例えば、パーソナルコンピュータであって、システム３００の分析のために用いてもよい。

制御装置２００は、ＣＰＵ２１０と、記憶部１２０と、ＲＯＭ／ＲＡＭ１３０と、通信部１４０と、入出力部１５０と、を備えている。制御装置２００の各部は、バスにより相互に接続されている。なお、制御装置２００の機能部のうちの少なくとも一部は、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃａｔｉｏｎＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）により実現されてもよい。

ＣＰＵ２１０は、制御部１１１と、学習部２１２と、決定部２１３と、を備えている。制御部１１１は、第１実施形態の制御部１１１と同様に、ＲＯＭ１３０に格納されているコンピュータプログラムをＲＡＭ１３０に展開して実行することにより、制御装置２００の各部を制御する。学習部２１２は、後述する予測制御方法において、システム３００の状態を表す出力変数ｙを予測するための非線形の状態方程式を学習する。決定部２１３は、学習部２１２が学習した状態方程式を用いて、出力変数ｙの目標値に対応する入力変数ｖの目標値を決定する。

図４は、第２実施形態の予測制御方法のフローチャートである。システム３００の予測制御方法は、例えば、所定のアプリケーションの起動などの利用者からの要求などによって実行される。

最初に、学習部２１２は、モデル、目的関数、および、制約関数を取得する（ステップＳ２１）。具体的には、学習部２１２は、モデル記憶部１２１に記憶されている非線形の状態方程式を読み込むとともに、システム３００を最適に制御するための目的関数Ｊと、制約関数Ｇとを読み込む。本実施形態では、学習部２１２は、式（２）～式（４）を、離散時刻ｋにおいて所定の時間ステップΔｔで離散化した式（１３）～式（１５）に示す状態方程式を読み込む。

式（１５）に含まれるＡ（ｄ_k）、Ｂ（ｄ_k）、Ｃ（ｄ_k）のそれぞれは、例えば、式（２）～式（４）の関数Ａ’（ｄ）、関数Ｂ’（ｄ）、および、関数ｃ’（ｄ）を用いて、以下の式（１９）～式（２１）としてもよい。

次に、学習部２１２は、現在時刻の最適制御問題のパラメータを決定する（ステップＳ２２）。具体的には、学習部２１２は、現在時刻を時刻ｋとして、システム３００の各所に事前に設けられているセンサなどから取得された出力変数ｙ_k、制御入力ｖ_k-1、外生入力ｄ_k、および、目標値ｙ_ktを読み込む。学習部２１２は、式（１３）～式（１５）を用いて、内部変数ｘ_k、内部変数ｘ_kの目標値ｘ_kt、および、内部変数ｕ_k-1を計算する。

次に、決定部２１３は、最適化の初期入力時系列を読み込む（ステップＳ２３）。具体的には、決定部２１３は、離散時刻ｋを起点として、時刻ｋ_f=ｋ＋Ｎ（Ｎは所定の自然数）までの入力時系列ｕ_k、・・・ｕ_kfの初期値を決定する。

次に、決定部２１３は、最適制御問題を解く（ステップＳ２４）。具体的には、決定部２１３は、式（２２）、（２３）に示す最適制御問題を解く。

ｘκ（κ＝ｋ、・・・ｋ_f＋１）は、式（１５）に従う。ｇは、ｘ_k、・・・ｘ_kf+1、ｕ_k-1、・・・ｕ_kfに対して凸となる任意のスカラー関数である。制約関数Ｇは、ｘ_k、・・・ｘ_kf+1、ｕ_k-1、・・・ｕ_kfに対して凸となる任意のベクトル関数である。Ｑは、ｎ×ｎの正定値対称行列であり、目標値ｘ_ktは、離散時刻ｋにおけるｘの目標値であり、離散時刻ｋにおける出力変数ｙの目標値ｙ_ktからｘ_kt＝Φ（ｙ_kt、ｄ_k）によって変換されたものである。

式（２２）および式（２３）に示す最適制御問題では、目的関数Ｊを最小化するｕκ（κ＝ｋ、・・・ｋ_f）の時系列を求める。このとき、式（２２）に含まれる式（２４）を小さくするため、目標値に素早く追従するようなｕκ（κ＝ｋ、・・・ｋ_f）でなければならない。そのため、式（２４）を含む目的関数Ｊを最小化するｕκ（κ＝ｋ、・・・ｋ_f）の解は、目標値に素早く追従させる制御を実現するものとなっている。

スカラー関数ｇは、副次的な機能を持たせるために自由に設定できる。例えば、次のように設定してもよい。

Ｒ、Ｓのそれぞれは、ｍ×ｍの正定値対称行列である。式（２５）に含まれる式（２６）は、内部変数ｕが０に近いほど小さくなり、式（２５）に含まれる式（２７）は、内部変数ｕの時間的な変化が小さいほど小さくなる。これにより、目的関数Ｊを最小化する解は、内部変数ｕをできるだけ０に近づけ、かつ、内部変数ｕをできるだけ変化させないものとなる。

ベクトル関数である制約関数Ｇには、所望の制約条件を設定できる。例えば、次のように設定してもよい。

式（２８）は、以下の式（２９）に示す上下限制約を表す。

決定部２１３は、以上の問題を解いて、内部変数ｕ_kを求めれば、そこから式（１３）を用いて、入力変数ｖ_kの目標値を決定することができる。

図５は、凸関数と非凸関数の一例を説明する模式図である。ここで、凸関数とは、任意の０＜ｔ＜１、および、任意のｘ、ｙに対して、以下の式（３０）が成り立つ関数のことを言う。

直感的には、図５（ａ）に示すような形の関数が凸関数であり、図５（ｂ）に示すような形の関数が、非凸関数である。凸関数の場合、最適値（図５（ａ）では最小値Ｌ０）を、一意に決定することができる。しかしながら、非凸関数の場合、図５（ｂ）に示すように、局所的に最小値となる値が複数（図５（ｂ）の場合、値Ｌ１、Ｌ２、Ｌ３、Ｌ４、Ｌ５、Ｌ６）存在するため、最適値が決定されるとは限らない。

ステップＳ２４では、ステップＳ２２で決定した条件において、ステップＳ２３の初期値を用いて、式（２２）、（２３）の最適制御問題を解く。この問題は、たとえば逐次二次計画法などの数理計画法を用いて解くことができる。

次に、得られた解をシステム３００への入力として反映する（ステップＳ２５）。具体的には、制御部１１１は、ステップＳ２４で得られるｕ_k、・・・ｕ_kfの最適解と、式（１３）のΨを用いて、ｖ_k、・・・ｖ_kfに変換し、このうちのｖ_kを実際の制御入力ｖ_kとする。

次に、制御部１１１は、制御を終了するか否かを判定する（ステップＳ２６）。具体的には、制御部１１１は、制御を終了する外部信号の受信の状態に応じて制御を終了するか否かを判定する。制御部１１１が外部信号を受信している場合、予測した制御入力ｖ_kを外部に出力し、今回の制御処理を終了する。出力は、入出力部１５０に対して行ってもよく、記憶部１２０に記憶させてもよく、通信部１４０を介して他の装置、例えば、呼び出し元のＥＣＵなどに送信してもよい。制御部１１１が外部信号を受信しない場合、ステップＳ２７に進む。

ステップＳ２６において制御部１１１が外部信号を受信しない場合、制御部１１１は、時刻を進める（ステップＳ２７）。制御部１１１は、時刻を進め、ステップＳ２２に戻る。その後、ステップＳ２２からステップＳ２５を繰り返し、ステップＳ２６において、制御部１１１が制御を終了する外部信号を受信しているか否かを判定する。

図６は、モデル学習装置１００における計算結果を説明する第１の模式図である。ここで、第１実施形態のモデル学習装置１００を用いて、仮想のシステムの出力から入力の予測処理を行った計算結果を説明する。図６は、今回の計算結果において、仮想のシステムにおける複数の出力の時間変化を示したものである。図６には、４種類の出力（「出力１」、「出力２」、「出力３」、「出力４」）の時間変化が実線ＯＰ１、ＯＰ２、ＯＰ３、ＯＰ４で示されている。４種類の出力のうち、出力１、出力２、および、出力３は、異なる種類の出力を示しており、それぞれの出力において、目標値が設定されている（出力１、出力２、および、出力３の点線Ｄｏ１、Ｄｏ２、Ｄｏ３参照）。また、出力４においては、上限制約が点線Ｄｏ４で示されている。

図７は、２つのモデル学習装置における計算結果を説明する第２の模式図である。図７には、図６で示す４種類の出力が仮想のシステムから出力されるための入力を計算した結果が示されている。図７には、本実施形態のモデル学習装置を用いて計算された３種類の入力（「入力１」、「入力２」、「入力３」）の時間変化を、一点鎖線で囲んだ内側に示している。また、図７には、比較例のモデル学習装置を用いて計算された３種類の入力の時間変化を、二点鎖線で囲んだ内側に示している。比較例のモデル学習装置では、本実施形態のモデル学習装置のように、モデルとして、入力変数および出力変数を入力とする写像に、全単射な写像が用いられていない。

図７に示す入力１～入力３は、図６で示した４種類の出力に対して、複数の異なる初期条件で計算された結果である。比較例のモデル学習装置では、初期条件が異なることで、入力１～入力３の値がそれぞれ変動し、例えば、入力２だけを見ても安定せず、ばらついている。このため、比較例の予測処理では、出力１～出力４を実現するための入力を１つに決定することが難しい。一方、本実施形態のモデル学習装置では、初期条件が異なっていても、入力１～入力３の値がばらつくことがない。すなわち、入力を１つに決定することができるため、入力が安定する。

以上説明した、本実施形態の制御装置２００によれば、学習部２１２が取得するモデルは、システム３００に入力される入力変数ｖを入力とする全単射な写像Ψと、システム３００から出力される出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式である。このような状態方程式は、写像Ψ、Φのそれぞれを内部変数とすることで、線形化することができるため、非線形な構造をしているモデルを用いた制御問題においても、解が一意であることを保証することができる。これにより、システム３００を安定的に制御しつつ出力の目標値に対する追従性を向上させる入力を決定することができる制御装置を構築可能なモデルを学習することができる。

また、本実施形態の制御装置２００によれば、学習部２１２は、式（２）～式（４）に示す状態方程式を、離散時刻ｋの時間ステップで離散化した式（１３）～式（１５）として学習する。これにより、内部変数ｘ、ｕの数を有限とすることができるため、モデルの学習に要する時間を短くすることができる。したがって、システム３００を安定的に制御しつつ出力の目標値に対する追従性を向上させる入力を決定することができる制御装置を構築可能なモデルを比較的短時間で学習することができる。

また、本実施形態の制御装置２００によれば、決定部２１３は、学習部２１２が学習した式（１３）～式（１５）に示す状態方程式を用いて、式（２２）および式（２３）に示す最適制御問題を解くことで入力変数ｖを決定する。これにより、最適制御問題は、線形モデルに対する制御問題となり、式（１３）～式（１５）を用いた最適制御問題を凸最適化問題とすることができる。したがって、システム３００に入力される入力変数ｖの最適値を１つに決めることができるため、制御装置は、システム３００を安定的に制御しつつ、システム３００からの出力の目標値に対する追従性を向上することができる。

＜本実施形態の変形例＞
本発明は上記の実施形態に限られるものではなく、その要旨を逸脱しない範囲において種々の態様において実施することが可能であり、例えば次のような変形も可能である。また、上記実施形態において、ハードウェアによって実現されるとした構成の一部をソフトウェアに置き換えるようにしてもよく、逆に、ソフトウェアによって実現されるとした構成の一部をハードウェアに置き換えるようにしてもよい。

［変形例１］
上記実施形態では、モデル学習装置、または、モデル学習装置を備える制御装置の構成の一例を示した。しかしながら、モデル学習装置および制御装置の構成は、種々の変形が可能であり、これらの構成に限定されない。例えば、モデル学習装置および制御装置の少なくとも一方は、ネットワーク上に配置された複数の情報処理装置（サーバ装置や、車載ＥＣＵ等を含む）が協働することによって構成されてもよい。

［変形例２］
上記実施形態では、モデル学習方法（図２参照）、および、予測制御方法（図４参照）の手順の一例を示した。しかしながら、これらの方法は、種々の変形が可能であり、これらの手順に限定されない。例えば、一部のステップを省略してもよく、説明しない他のステップを追加してもよい。また、一部のステップの実行順序を変更してもよい。

［変形例３］
第１実施形態において、状態方程式を式（１）と定義し、式（１）に含まれる写像Ψ、Φのそれぞれを式（２）、（３）で示す内部変数ｕ、ｘのそれぞれで定義した。しかしながら、写像Ψ、Φのそれぞれの定義は、あくまで一例であり、これらは、任意の形に定義してよい。このとき、内部変数とともに、出力変数ｙの変化に影響を与える制御不可能な外生入力ｄを入力とする写像とすることで、システムの将来の状態を高精度に予測することができるモデルとすることができる。

［変形例４］
第１実施形態では、モデル学習方法（図２参照）のステップＳ１４において、学習部１１２は、一致度を用いてモデルを学習するとした。このとき、学習部１１２は、一致度に加えて、制約条件を満たしているか否かを判断してもよい。例えば、式（１）の状態方程式に含まれる関数Ａ’（ｄ）、関数Ｂ’（ｄ）、関数ｃ’（ｄ）のそれぞれに制約条件を設定してもよい。

［変形例５］
第１実施形態では、写像Ψ、写像Φ、関数Ａ’（ｄ）、関数Ｂ’（ｄ）、および、関数ｃ’（ｄ）は、外生入力ｄが入力されることで出力されるとした。しかしながら、写像Ψ、写像Φ、関数Ａ’（ｄ）、関数Ｂ’（ｄ）、および、関数ｃ’（ｄ）は、外生入力ｄに依存して出力が変化しなくてもよい。

［変形例６］
第２実施形態では、学習部２１２は、式（２）～式（４）を離散化した式（１３）～式（１５）に変換した状態方程式を用いて、最適制御問題を解くとした。しかしながら、学習部２１２は、状態方程式を離散化せずに、最適制御問題を解いてもよい。式（１３）～式（１５）に変換した状態方程式を用いて最適制御問題を解くことで、内部変数ｘ、ｕの数を有限とすることができるため、モデルの学習に要する時間を比較的短くすることができる。

以上、実施形態、変形例に基づき本態様について説明してきたが、上記した態様の実施の形態は、本態様の理解を容易にするためのものであり、本態様を限定するものではない。本態様は、その趣旨並びに特許請求の範囲を逸脱することなく、変更、改良され得ると共に、本態様にはその等価物が含まれる。また、その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜、削除することができる。

１００…モデル学習装置
１１０，２１０…ＣＰＵ
１１１…制御部
１１２，２１２…学習部
１２０…記憶部
１２１…モデル記憶部
１２２…データセット記憶部
１３０…ＲＯＭ／ＲＡＭ
１４０…通信部
１５０…入出力部
２００…制御装置
２１３…決定部
３００…システム

Claims

システムに入力される入力変数ｖと、前記システムから出力される出力変数ｙとの関係を表すモデルを学習するモデル学習装置であって、
前記入力変数ｖを用いて前記出力変数ｙを予測するための非線形の状態方程式の学習に用いられるモデルを記憶するモデル記憶部と、
前記モデルと、前記モデルに対する入力変数データと出力変数データの組を複数含んだ入出力データセットと、を用いて前記状態方程式を学習する学習部と、
を備え、
前記モデルは、前記入力変数ｖを入力とする全単射な写像Ψと、前記出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式である、
モデル学習装置。
請求項１に記載のモデル学習装置であって、
前記モデルは、式（１）によって定義され、

上記式において、
等号の左辺は、前記出力変数ｙを表すｎ（ｎは整数）次元ベクトルの時間微分であり、
等号の右辺のうち、
前記入力変数ｖは、ｍ（ｍは整数）次元ベクトルであり、
外生入力ｄは、前記出力変数ｙの変化に影響を与える制御不可能な入力を示すｐ（ｐは整数）次元ベクトルであり、
前記写像Ψは、前記入力変数ｖと前記外生入力ｄを入力としてｍ次元のベクトルを返す関数であり、
前記写像Φは、前記出力変数ｙと前記外生入力ｄを入力としてｎ次元のベクトルを返す関数であり、
関数Ａ’、関数Ｂ’、関数ｃ’のそれぞれは、前記外生入力ｄを入力として、ｎ×ｎ行列、ｎ×ｍ行列、ｎ次元ベクトルのそれぞれを返す関数である、
モデル学習装置。
請求項２に記載のモデル学習装置であって、
前記式（１）において、前記写像Ψを内部変数ｕと定義し、前記写像Φを内部変数ｘと定義すると、
前記学習部は、式（２）～式（４）によって定義される前記状態方程式を学習する、
モデル学習装置。
請求項３に記載のモデル学習装置であって、
前記写像Ψは、式（５）～式（８）によって定義され、

前記写像Φは、式（９）～式（１２）によって定義され、

ｉは、多層ニューラルネットワークにおける層の番号であり、Ｌ_Ψ、Ｌ_Φのそれぞれは、多層ニューラルネットワークの層数であり、Ｗ_Ψ、Ｗ_Φのそれぞれは重みであり、ｂ_Ψ、ｂ_Φはバイアスであり、ψ_Ψ、φ_Φのそれぞれは、活性化関数であり、入力と同次元の出力を返す任意の全単射な写像である、
モデル学習装置。
請求項１から請求項４のいずれか一項に記載のモデル学習装置であって、
前記学習部は、
前記モデルに対して、前記入出力データセットのうちの前記入力変数データのセットを与えて出力を推定し、
推定された出力と、前記入出力データセットのうちの前記出力変数データのセットと、の一致度を評価し、
評価の結果に応じて前記モデルの学習パラメータを更新することで、前記状態方程式を学習する、
モデル学習装置。
請求項３に記載のモデル学習装置であって、
前記学習部は、前記式（２）～式（４）を、離散時刻ｋの時間ステップで離散化した式（１３）～式（１５）に示す状態方程式を学習する、
モデル学習装置。
システムを制御する制御装置であって、
請求項６に記載のモデル学習装置と、
前記学習部が学習した前記状態方程式を用いて、前記出力変数ｙの目標値に対応する前記入力変数ｖの目標値を決定する決定部と、を備え、
前記決定部は、前記学習部が学習した式（１３）～式（１５）に示す状態方程式を用いた最適制御問題を解くことで前記入力変数ｖの目標値を決定する、
制御装置。
システムに入力される入力変数ｖと、前記システムから出力される出力変数ｙとの関係を表すモデルを学習するモデル学習方法であって、
前記入力変数ｖを用いて前記出力変数ｙを予測するための非線形の状態方程式の学習に用いられるモデルを取得する工程と、
前記モデルと、前記モデルに対する入力変数データと出力変数データの組を複数含んだ入出力データセットと、を用いて前記状態方程式を学習する工程と、
を備え、
前記モデルは、前記入力変数ｖを入力とする全単射な写像Ψと、前記出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式である、モデル学習方法。
システムに入力される入力変数ｖと、前記システムから出力される出力変数ｙとの関係を表すモデルの学習を情報処理装置に実行させるコンピュータプログラムであって、
前記入力変数ｖを用いて前記出力変数ｙを予測するための非線形の状態方程式の学習に用いられるモデルを取得する機能と、
前記モデルと、前記モデルに対する入力変数データと出力変数データの組を複数含んだ入出力データセットと、を用いて前記状態方程式を学習する機能と、を前記情報処理装置に実行させ、
前記モデルは、前記入力変数ｖを入力とする全単射な写像Ψと、前記出力変数ｙを入力とする全単射な写像Φと、を含む状態方程式である、コンピュータプログラム。