JP7410901B2

JP7410901B2 - モデル学習装置、制御装置、モデル学習方法、および、コンピュータプログラム

Info

Publication number: JP7410901B2
Application number: JP2021044033A
Authority: JP
Inventors: 竜大森安; 太郎池田; 幹人竹内
Original assignee: Toyota Industries Corp; Toyota Central R&D Labs Inc
Current assignee: Toyota Industries Corp; Toyota Central R&D Labs Inc
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2024-01-10
Anticipated expiration: 2041-03-17
Also published as: US20220300683A1; JP2022143499A

Description

本発明は、モデル学習装置、制御装置、モデル学習方法、および、コンピュータプログラムに関する。

従来から、制御対象であるシステムへの入力とシステムからの出力との関係を表すモデルを学習するモデル学習装置が知られている。例えば、特許文献１には、システムの入出力の関係を示す時系列データから、システムの状態を予測するモデルを学習する技術が開示されている。

特願２０１８－１１６６９３号公報

しかしながら、上述したような先行技術によっても、モデル学習装置において、定常状態のシステムが出力する定常値の予測精度を向上させることができるモデルを学習する技術については、なお改善の余地があった。例えば、特許文献１の技術では、過渡状態のシステムにおける時系列データからモデルを学習するため、ある入力に対して出力が最終的に収束する値、すなわち、出力の定常値をこのモデルから推定した値は、定常状態のシステムが実際に出力する定常値とは異なるおそれがある。このように、出力が過渡的に変化しているシステムの時系列データに近づけるように学習されたモデルでは、過渡的な変化を学習した結果として、定常値をモデルで予測した結果が実際の定常値と良好に一致するとは限らない。

本発明は、上述した課題を解決するためになされたものであり、モデル学習装置において、定常状態のシステムが出力する定常値の予測精度を向上させることができるモデルを学習する技術を提供することを目的とする。

本発明は、上述の課題を解決するためになされたものであり、以下の形態として実現できる。

（１）本発明の一形態によれば、システムに入力される入力変数と、システムから出力される出力変数との関係を表すモデルを学習するモデル学習装置が提供される。このモデル学習装置は、前記入力変数ｕを用いて前記出力変数ｙを予測するための非線形の状態方程式の学習に用いられるモデルを記憶するモデル記憶部と、前記モデルと、前記出力変数ｙの定常値のデータと前記定常値に対応する前記入力変数ｕのデータとの組を含んだ入出力データセットと、を用いて前記状態方程式を学習する学習部と、を備え、前記モデルは、前記出力変数ｙを入力とする全単射な写像Φを含む状態方程式である。

この構成によれば、学習部は、出力変数ｙの定常値のデータと、定常値のデータに対応する入力変数ｕのデータとの組を含んだ入出力データセットを用いて、モデルとなる状態方程式を学習する。すなわち、学習部は、過渡状態のシステムにおける出力変数のデータと入力変数のデータとの組に加えて、定常状態のシステムにおける出力変数のデータと入力変数のデータとの組も用いて、状態方程式を学習する。これにより、このモデル学習装置によって学習されるモデルは、定常状態のシステムでの出力の予測精度を考慮したモデルとなる。さらに、上述の構成では、システムの入力変数と出力変数との関係を示すモデルは、出力変数ｙを入力とする全単射な写像Φを含む状態方程式となっているため、入力変数に対する出力変数の定常値を一意に求めることができる。これにより、上述のモデル学習装置が学習するモデルでは、一意に求められる定常値の推測値と実際の定常値とのずれが比較的小さくなる。したがって、上述のモデル学習装置は、定常値の予測精度を向上させることができるモデルを学習することができる。

（２）上記形態のモデル学習装置において、前記モデルは、式（１）によって定義されてもよい。

上記式において、等号の左辺は、前記出力変数ｙを表すｎ（ｎは整数）次元ベクトルの時間微分であり、等号の右辺のうち、前記入力変数ｕは、前記出力変数ｙの変化に影響を与える入力変数を表すｍ（ｍは整数）次元ベクトルであり、関数Ａは、前記入力変数ｕを入力として、ｎ×ｎ行列を返す関数であり、前記写像Φは、前記出力変数ｙと前記入力変数ｕを入力としてｎ次元のベクトルを返す関数であり、関数ｆは、前記入力変数ｕを入力としてｎ次元のベクトルを返す関数であり、前記入力変数ｕの上にドットが付された記号は、前記入力変数ｕの時間微分である。この構成によれば、写像Φは、出力変数ｙと入力変数ｕを入力とする全単射な写像であるため、例えば、関数Ｇを用いた場合、Ｇ^-1＝Φとなるように、式（１）を形式的に書き換えることができる。また、式（１）のモデルには、入力変数ｕを入力とする関数Ａ（ｕ）、ｆ（ｕ）が含まれており、入力変数ｕの時間微分の項も含まれている。これらによって、式（１）のモデルは、入力変数ｕに対応する出力変数ｙの定常値を陽的に表現可能となるため、過渡状態のシステムが出力する出力変数ｙだけでなく、定常状態のシステムが出力する出力変数ｙの定常値を精度よく求めることができる。したがって、定常状態のシステムが出力する定常値の予測精度を向上させることができるモデルを学習することができる。

（３）上記形態のモデル学習装置において、前記式（１）において、前記出力変数ｙと前記入力変数ｕを入力とする前記写像Φの出力を内部変数ｘと定義すると、前記学習部は、式（２）および式（３）によって定義される前記状態方程式を学習してもよい。

この構成によれば、式（１）の状態方程式において、出力変数ｙと入力変数ｕを入力とする写像Φの出力を内部変数ｘと定義することで、式（１）の状態方程式を内部変数ｘについて線形化することができる。これにより、式（１）に示す状態方程式を、定常状態のシステムにおける入力変数に対する出力変数の定常値を陽的に表現可能なモデルとすることができる。したがって、定常状態のシステムが出力する定常値の予測精度を向上させることができるモデルを学習することができる。

（４）上記形態のモデル学習装置において、前記写像Φは、式（４）～式（７）によって定義されてもよい。

ｉは、多層ニューラルネットワークにおける層の番号であり、Ｌ_Φは、多層ニューラルネットワークの層数であり、φ_Φは、活性化関数であり、入力と同次元の出力を返す任意の全単射な写像であり、Ｗ_Φは重みであり、ｂ_Φはバイアスである。この構成によれば、写像Φは、多層ニューラルネットワークを用いて定義されている。これにより、多層ニューラルネットワークの各層における重みＷ_Φやバイアスｂ_Φを調整することで、式（１）で推定される出力変数ｙの値を、実際のシステムの出力に近づけることができる。これにより、実際のシステムの出力を高精度に予測するモデルを学習することができる。

（５）上記形態のモデル学習装置において、前記学習部は、前記モデルに対して、前記入出力データセットに含まれる、前記定常値のデータに対応する入力変数ｕのデータを含む前記入力変数のデータセットを与えて出力を推定し、推定された出力と、前記入出力データセットに含まれる、前記入力変数ｙの定常値のデータを含む前記出力変数のデータセットとの一致度を評価し、評価の結果に応じて前記モデルの学習パラメータを更新することで、前記状態方程式を学習してもよい。この構成によれば、学習部は、入出力データセットに含まれる、出力変数ｙの定常値のデータに対応する入力変数ｕのデータを含む入力変数のデータセットを用いて、出力を推定する。学習部は、推定された出力と、入出力データセットに含まれる、入力変数ｙの定常値のデータを含む出力変数ｙのデータセットとの一致度を評価し、評価の結果に応じてモデルの学習パラメータを更新することで、状態方程式を学習する。学習部は、このようにして、定常値のデータに対応する入力変数ｕのデータを含む入力変数ｙのデータセットを用いて学習した状態方程式を評価することで、学習したモデルを予測精度が高いモデルとなるように修正することができる。これにより、定常値の予測精度をさらに向上させることができるモデルを学習することができる。

（６）上記形態のモデル学習装置において、前記学習部は、前記モデルに対して、前記入出力データセットに含まれる、前記定常値のデータに対応する入力変数のデータを含む前記入力変数のデータセットを与えて出力を推定し、推定された出力と、前記入出力データセットに含まれる、前記入力変数ｙの定常値のデータを含む前記出力変数のデータセットとの一致度を評価し、評価の結果に応じて、前記出力の推定と前記一致度の評価に用いた前記入出力データセットに、前記出力変数ｙの定常値のデータと前記定常値のデータに対応する前記入力変数ｕのデータとの新たな組を追加することで、新たな入出力データセットを作成し、前記新たな入出力データセットを用いて、前記状態方程式を学習してもよい。この構成によれば、学習部は、モデルに対して、入出力データセットに含まれる入力変数のデータセットを与えて出力を推定し、推定された出力と、入出力データセットに含まれる出力変数のデータセットとの一致度を評価する。学習部は、評価の結果に応じて、出力の推定と一致度の評価に用いた入出力データセットに、出力変数ｙの定常値のデータと定常値のデータに対応する入力変数ｕのデータとの新たな組を追加することで新たに作成した入出力データセットを用いて状態方程式を新たに学習する。これにより、例えば、定常状態のシステムにおける出力変数ｙとの一致度が十分でない場合、定常値に関する学習データを追加することで定常値の予測精度を向上させることができる。これにより、定常値の予測精度をさらに向上させることができるモデルを学習することができる。

（７）本発明の別の形態によれば、システムを制御する制御装置が提供される。この制御装置は、上述のモデル学習装置と、前記学習部が学習した前記状態方程式を用いて、前記出力変数ｙの目標値に対応する前記入力変数ｕを決定する決定部と、を備える。この構成によれば、決定部は、上述のモデル学習装置が学習した状態方程式を用いて、出力変数の目標値に対応する入力変数を決定する。制御装置は、決定部で決定された入力変数をシステムに入力することで、特に、定常状態のシステムにおいて、出力が目標とした定常値となるように、システムを制御することができる。

（８）本発明のさらに別の形態によれば、システムに入力される入力変数ｕと、前記システムから出力される出力変数ｙとの関係を表すモデルを学習するモデル学習方法が提供される。このモデル学習方法は、前記入力変数ｕを用いて前記出力変数ｙを予測するための非線形の状態方程式の学習に用いられるモデルを取得する工程と、前記モデルと、前記出力変数ｙの定常値のデータと前記定常値のデータに対応する前記入力変数ｕのデータとの組を含んだ入出力データセットと、を用いて前記状態方程式を学習する工程と、を備え、前記モデルは、前記出力変数ｙを入力とする全単射な写像Φを含む状態方程式である。この構成によれば、学習する工程では、出力変数ｙの定常値のデータと、定常値のデータに対応する入力変数ｕのデータとの組を含んだ入出力データセットを用いて、出力変数ｙを入力とする全単射な写像Φを含む状態方程式を学習する。これにより、学習されるモデルは、入力変数に対する出力変数の定常値を一意に求めることができるとともに、定常状態のシステムでの出力の予測精度を考慮したモデルとなる。したがって、定常値の予測精度を向上させることができるモデルを学習することができる。

（９）本発明のさらに別の形態によれば、システムに入力される入力変数ｕと、前記システムから出力される出力変数ｙとの関係を表すモデルの学習を情報処理装置に実行させるコンピュータプログラムが提供される。この構成によれば、前記入力変数ｕを用いて前記出力変数ｙを予測するための非線形の状態方程式の学習に用いられるモデルを取得する機能と、前記モデルと、前記出力変数ｙの定常値のデータと前記定常値のデータに対応する前記入力変数ｕのデータとの組を含んだ入出力データセットと、を用いて前記状態方程式を学習する機能と、を前記情報処理装置に実行させ、前記モデルは、前記出力変数ｙを入力とする全単射な写像Φを含む状態方程式である。この構成によれば、学習する機能によって、出力変数ｙの定常値のデータと、定常値のデータに対応する入力変数ｕのデータとの組を含んだ入出力データセットを用いて、出力変数ｙを入力とする全単射な写像Φを含む状態方程式が学習される。これにより、情報処理装置によって学習されるモデルは、入力変数に対する出力変数の定常値を一意に求めることができるとともに、定常状態のシステムでの出力の予測精度を考慮したモデルとなる。したがって、定常値の予測精度を向上させることができるモデルを学習することができる。

なお、本発明は、種々の態様で実現することが可能であり、例えば、非線形システムのモデルを学習する装置および方法、学習により得られたモデルを用いて状態を推定する装置および方法、これらの装置が含まれるシステム、これらの装置およびシステムにおいて実行されるコンピュータプログラム、そのコンピュータプログラムを配布するためのサーバ装置、そのコンピュータプログラムを記憶した一時的でない記憶媒体等の形態で実現することができる。

第１実施形態のモデル学習装置の構成を示す模式図である。第１実施形態のモデル学習方法のフローチャートである。比較例の学習方法で学習したモデルの予測結果の図である。第１実施形態の学習方法で学習したモデルの予測結果の図である。第２実施形態のモデル学習方法のフローチャートである。第２実施形態の学習方法で学習したモデルの予測結果の第１図である。第２実施形態の学習方法で学習したモデルの予測結果の第２図である。第３実施形態の制御装置の構成を示す模式図である。

＜第１実施形態＞
図１は、第１実施形態のモデル学習装置１００の構成を示す模式図である。本実施形態のモデル学習装置１００は、入出力パラメータの関係性が一次式では表せない、または、近似できない性質を持つ、非線形の制御対象物（システム）のモデルを学習する。本実施形態では、「モデル」とは、非線形の状態方程式であって、実験データやシミュレーションデータなどから学習され、システムへの入力に対する出力に関する時間変化を近似的に表現できる状態方程式である。すなわち、モデル学習装置１００は、非線形のシステムの状態を、該システムから出力される出力変数ｙとみなすことで、システムに入力される入力変数ｕによって制御された結果、システムの出力変数ｙを予測する非線形の状態方程式を学習する。なお、「状態方程式」とは、「ｙ・（ｔ）＝ｆ（ｙ（ｔ）、・・・）」のように、現時刻ｔにおける出力変数ｙ（ｔ）によって、それ自身の出力変数ｙ・（ｔ）を決定する方程式を意味する。以降、表記の便宜上、任意の変数ｚの時間微分を［ｚ・］と記載し、任意の変数ｚについて、時間微分が０となるｚの値を［ｚ-］と記載する。

本実施形態において、モデル学習装置１００でのモデル学習の対象となるシステムとしては、例えば、内燃機関、ハイブリッド機関、パワートレインなどが含まれる。内燃機関、ハイブリッド機関、パワートレインなどの駆動機関をシステムとした場合、モデル学習装置１００により学習されるモデルは、システムの駆動に関する種々のパラメータ、例えば、アクチュエータの操作量、システムに対する外乱、システムの状態、システムの出力、システムの出力目標値などの関係を表す非線形の状態方程式となる。

モデル学習装置１００は、例えば、パーソナルコンピュータ（ＰＣ：ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）であり、ＣＰＵ１１０と、記憶部１２０と、ＲＯＭ／ＲＡＭ１３０と、通信部１４０と、入出力部１５０と、を備えている。モデル学習装置１００の各部は、バスにより相互に接続されている。モデル学習装置１００は、特許請求の範囲に記載の「情報処理装置」に相当する。

ＣＰＵ１１０は、制御部１１１と、学習部１１２と、を有している。制御部１１１は、ＲＯＭ１３０に格納されているコンピュータプログラムをＲＡＭ１３０に展開して実行することにより、モデル学習装置１００の各部を制御する。学習部１１２は、任意のシステム（非線形システム）の状態を表す出力変数ｙを予測するための非線形の状態方程式を学習する。学習部１１２の機能の詳細は、後述する。

記憶部１２０は、ハードディスク、フラッシュメモリ、メモリカードなどで構成される記憶媒体である。記憶部１２０は、モデル記憶部１２１と、データセット記憶部１２２と、を有している。モデル記憶部１２１は、学習部１１２による状態方程式の学習のために用いられるモデルを予め記憶している。本実施形態では、モデル記憶部１２１に記憶されているモデルは、出力変数ｙを入力とする全単射な写像Φを含む状態方程式であって、式（１）により定義される。ここで、「全単射」とは、集合Ａの写像の結果が集合Ｂであるとした場合に、ＡとＢの各要素が必ず一対一の対応関係を持つことを意味する。これは、例えば、関数ｇが全単射である場合、一意の逆関数ｇ^-1が存在することと同義である。

上記式において、等号の左辺は、出力変数ｙを表すｎ（ｎは整数）次元ベクトルの時間微分である。等号の右辺のうち、入力変数ｕは、出力変数ｙの変化に影響を与える入力変数を表すｍ（ｍは整数）次元ベクトルである。関数Ａは、入力変数ｕを入力として、ｎ×ｎ行列を返す関数であり、写像Φは、出力変数ｙと入力変数ｕを入力としてｎ次元のベクトルを返す関数である。関数ｆは、入力変数ｕを入力としてｎ次元のベクトルを返す関数である。

データセット記憶部１２２は、式（１）で表されるモデルに対する、出力変数ｙの定常値のデータと、定常値のデータに対応する入力変数ｕのデータとの組を含んだ入出力データセットを記憶する。ここで、「出力変数ｙの定常値」とは、システムにおいて、ある入力に対して出力が最終的に収束する値であって、例えば、システムの出力が安定しているときの出力値を指す。「定常値のデータに対応する入力変数ｕのデータ」とは、ある時刻において、システムの出力が定常値である場合に、同じ時刻に、該システムに入力されている入力値のデータを指す。また、「出力変数ｙのデータと、入力変数ｕのデータとの組」とは、ある時刻において、システムに入力される値と、同じ時刻にシステムから出力される値とを組み合わせたものを指す。入出力データセットは、システムに対する実験や計算により予め求められる。データセット記憶部１２２に記憶されている入出力データセットは、学習部１１２による状態方程式の学習のために用いられる教師データとして用いられる。入出力データセットの詳細は、後述する。

通信部１４０は、モデル学習装置１００と他の装置との間における、通信インターフェースを介した通信を制御する。他の装置としては、例えば、システムを制御する制御装置や、他の情報処理装置、および、データセット記憶部１２２から入出力データセットを取得するための計測器などが挙げられる。入出力部１５０は、利用者による情報の入出力に使用される種々のインターフェースである。入出力部１５０としては、例えば、入力部としてのタッチパネル、キーボード、マウス、操作ボタン、マイクや、出力部としてのタッチパネル、モニタ、スピーカー、ＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）インジケータなどが挙げられる。

図２は、第１実施形態のモデル学習方法のフローチャートである。モデル学習装置１００におけるモデル学習方法は、例えば、所定のアプリケーションの起動など、利用者からの要求などによって実行される。本実施形態では、式（１）に示す状態方程式において、出力変数ｙ、入力変数ｕ、出力変数ｙの時間微分ｙ・、および、入力変数ｕの時間微分ｕ・を含む既知の入出力データセットを用いて、式（８）に示す関数Ｆの関数形を学習（推定）する。ここで、出力変数ｙは、ｎ次元ベクトルであり、入力変数ｕは、ｍ次元ベクトルである。

第１実施形態のモデル学習方法では、最初に、データセット記憶部１２２は、入出力データセットを記憶する（ステップＳ１１）。具体的には、データセット記憶部１２２は、入出力部１５０を介してモデル学習装置１００に入力される、一定の長さの時間におけるシステムへの入力値のデータとシステムの出力値のデータとの組を入出力データセットとして記憶する。これにより、入出力データセットには、出力値のデータを含む出力変数のデータセットと、入力値のデータを含む入力変数のデータセットとが含まれる。ここで、システムの作動状態を、出力値が時間変動している状態を「過渡状態」と定義し、出力値が時間変動していない状態を「定常状態」と定義する。出力変数のデータセットには、過渡状態のシステムから出力された出力値（以下、「過渡時出力値」という）のデータと、過渡時出力値の時間微分値のデータと、定常状態のシステムから出力された出力値、すなわち、定常値のデータと、が含まれる。また、入力変数のデータセットには、過渡状態のシステムに入力された入力値（以下、「過渡時入力値」という）のデータと、過渡時入力値の時間微分値のデータと、定常状態のシステムに入力された入力値（以下、「定常時入力値」という）のデータと、定常時入力値の時間微分値のデータと、が含まれる。すなわち、入力変数のデータセットには、定常値のデータに対応する入力変数ｕのデータが含まれる。ここで、データセット記憶部１２２に記憶される、過渡時入力値と、過渡時入力値の時間微分値と、過渡時出力値と、過渡時出力値の時間微分値とのセットを、「過渡データのデータセット」という。また、データセット記憶部１２２に記憶される、定常時入力値と、定常値とのセットを、「定常データのデータセット」という。

次に、学習部１１２は、モデル記憶部１２１に記憶されているモデルを取得する（ステップＳ１２）。具体的には、学習部１１２は、上述した関数Ｆを学習するためのモデルを式（１）に示す状態方程式と想定する。学習部１１２は、式（１）に示す状態方程式において、各変数の値をゼロまたはランダムな値とすることで、各変数を初期化する。

本実施形態では、学習部１１２は、式（１）に含まれる、出力変数ｙと入力変数ｕを入力とする写像Φの出力を式（９）で示す内部変数ｘと定義する。

これにより、学習部１１２は、式（１）を内部変数ｘと入力変数ｕとで示した式（２）および式（３）の状態方程式を学習することとなる。

したがって、式（１）と、式（２）および式（３）とから、ある与えられた入力変数ｕに対応する出力変数ｙの定常状態、すなわち、出力変数ｙの時間微分［ｙ・］が０となる出力変数ｙの値［ｙ-］は、式（１０）および式（１１）で求められる。

式（１）の状態方程式に含まれる写像Φの出力を内部変数ｘと入力変数ｕとのそれぞれで定義する効果は、後述する。

さらに、本実施形態では、学習部１１２は、多層ニューラルネットワークの考え方を用いて、写像Φについての式（４）～式（７）を定義する。

ここで、ｉは、多層ニューラルネットワークにおける層の番号であり、Ｌ_Φは、多層ニューラルネットワークの層数である。φ_Φは、活性化関数であり、入力と同次元の出力を返す任意の全単射な写像である。Ｗ_Φは重みであり、ｂ_Φはバイアスである。活性化関数φ_Φと、重みＷ_Φと、バイアスｂ_Φとのそれぞれは、多層ニューラルネットワークの層ごとに設定されてもよい。

次に、学習部１１２は、データセット記憶部１２２から、出力変数ｙと、入力変数ｕと、出力変数ｙの時間微分ｙ・と、入力変数ｕの時間微分ｕ・を含む入出力データセット［ｙ、ｕ、ｙ・、ｕ・］を取得する（ステップＳ１３）。本実施形態では、入出力データセット［ｙ、ｕ、ｙ・、ｕ・］には、過渡データのデータセット［ｙ_j、ｕ_j、ｙ・_j、ｕ・_j］（ｊ＝１～Ｎ_t）と、定常データのデータセット［ｙ－_j、ｕ－_j］（ｊ＝１～Ｎ_s）が含まれている。取得した入出力データセットのうち、［ｕ_j、ｕ・_j、ｕ－_j］は、入力変数のデータセットに相当し、［ｙ_j、ｙ・_j、ｙ－_j］は、出力変数のデータセットに相当する。なお、ｙ－_jは、出力変数ｙの定常値のデータであり、ｕ－_jは、定常値のデータに対応する入力変数ｕのデータである。

次に、学習部１１２は、モデルに入力変数のデータセットを与えて出力を推定する（ステップＳ１４）。具体的には、学習部１１２は、ステップＳ１２で取得し初期化した式（１）の状態方程式に対して、ステップＳ１３で取得した入力変数のデータセット［ｕ_j、ｕ・_j、ｕ－_j］のうちの過渡データにあたる部分のデータ［ｕ_j、ｕ・_j］を与える。これにより、過渡状態のシステムにおける出力変数ｙ・ｊの推定値（式（１２）の左辺）を得ることができる。なお、（∂Φ／∂ｙ）^-1は、出力変数ｙの関数であるため、出力変数ｙ_jを代入することで評価可能である。また、式（１２）の右辺の（∂Φ／∂ｕ）は、入力変数ｕの関数であるため、入力変数ｕ_jを代入することで評価可能である。

また、学習部１１２は、ステップＳ１３で取得した入力変数のデータセット［ｕ_j、ｕ・_j、ｕ－_j］のうちの定常データにあたる部分のデータ［ｕ－_j］を、式（１３）に与えることで、定常状態のシステムにおける出力変数ｙ－ｊの推定値（式（１３）の左辺）を得ることができる。

次に、学習部１１２は、推定された出力と出力変数のデータセットとの一致度を評価する（ステップＳ１５）。具体的には、学習部１１２は、ステップＳ１４で得られた出力変数の推定値と、ステップＳ１３で取得した出力変数のデータセット［ｙ_j、ｙ・_j、ｙ－_j］との一致度を評価する。学習部１１２は、例えば、過渡状態のシステムにおける出力変数ｙ・ｊの推定値については式（１４）を用いて、二乗平均誤差（ＭＳＥ：ＭｅａｎＳｑｕａｒｅＥｒｒｏｒ）によって一致度を評価することができる。定常状態のシステムにおける出力変数ｙ－ｊの推定値については式（１５）を用いて、二乗平均誤差（ＭＳＥ：ＭｅａｎＳｑｕａｒｅＥｒｒｏｒ）によって一致度を評価することができる。

本実施形態では、式（１４）の左辺の一致度Ｊ_tと、式（１５）の左辺の一致度Ｊ_sとから、式（１６）に示すように、重みづけを加味した計算式を用いて、一致度の合計値Ｊ_aを算出する。

式（１６）のαとβとは、任意に設定可能な重みづけのための係数である。式（１６）の左辺の一致度の合計値Ｊ_aの値が小さければ小さいほど、一致度が高いことを示している。なお、学習部１１２は、二乗平均誤差の代わりに、例えば、絶対平均誤差率や、交差エントロピーなどの指標を用いて、一致度を評価してもよい。

次に、学習部１１２は、一致度が十分であるか否かを判定する（ステップＳ１６）。例えば、式（１６）を用いる場合、学習部１１２は、一致度の合計値Ｊ_aが所定値以下である場合に、一致度が十分であると判定できる。また、学習部１１２は、一致度の合計値Ｊ_aの変化率が所定値以下である場合に、一致度が十分であると判定してもよく、所定値は、任意に決定できる。

一致度が十分でない場合（ステップＳ１６：ＮＯ）、学習部１１２は、ステップＳ１７に進み、ステップＳ１２で定義した式（１）のモデルにおける学習パラメータ、例えば、式（１）に含まれる関数Ａ（ｕ）、関数ｆ（ｕ）、式（５）に含まれる活性化関数φΦ、式（６）に含まれる重みＷΦやバイアスｂΦなどを更新する。学習部１１２は、例えば、バックプロパゲーションにより各学習パラメータに対する一致度の合計値Ｊ_aの勾配を評価し、各種の勾配法に基づいて、各学習パラメータを更新してもよい。その後、学習部１１２は、ステップＳ１４に進み、出力の推定および評価を繰り返す。

一致度が十分である場合（ステップＳ１６：ＹＥＳ）、学習部１１２は、処理を終了する。この際、学習部１１２は、学習した関数Ｆについて、入出力部１５０に出力してもよく、記憶部１２０に記憶してもよく、通信部１４０を介して他の装置に送信してもよい。

次に、図２で説明したモデル学習方法で学習されるモデル（状態方程式）において、解の一意性を保証できる理由について説明する。一般に、過渡的な現象を再現できる動的なモデルをニューラルネットワーク（機械学習）で構築する場合、該モデルが安定である、言い換えれば、発散しない、保証はない。しかし、上述した式（１）に示した状態方程式を、出力変数ｙを写像Φによって変換した内部変数ｘを用いることで等価変換した式（２）は、内部変数ｘについて線形な微分方程式を含んでいる。写像Φは、全単射な写像であるため、一意の逆関数が存在する。すなわち、内部変数ｘと出力変数ｙ、および、内部変数ｘと入力変数ｕとのそれぞれは、相互に変換が可能であることから、線形化された式（２）を解くことで、非線形の式（１）の解を求めることができる。これにより、モデル学習装置１００で学習されるモデルは、システムの出力の予測精度が向上させることができる。

次に、本実施形態のモデル学習装置１００におけるモデル学習方法の効果について、比較例との対比を使って説明する。本実施形態のモデル学習方法では、学習データとして、過渡状態のシステムの入力値と出力値に加え、定常状態のシステムの入力値と出力値を含む入出力データセットを用いる。一方、比較例のモデル学習方法では、学習データとして、定常状態のシステムにおける入力値と出力値とが含まれていない入出力データを用いる。

図３は、比較例の学習方法で学習したモデルの予測結果の図である。図３には、１つのシステムから出力される５つのパラメータ（パラメータＡ、Ｂ、Ｃ、Ｄ、Ｅ）の時間変化を示している。図３に示すグラフでは、システムの実際の出力変化、すなわち、モデルによって予測されることが期待される出力変化を実線で示し、本実施形態のモデル学習方法によって学習したモデルを用いて予測した出力変化を鎖線で示している。比較例のモデル学習方法では、図３に示す、例えば、時刻ｔ７から時刻ｔ８までの時間帯に見られる定常状態での出力では、実際の出力変化（実線）と、予測した出力変化（鎖線）との間に大きなずれがあることがわかる（二点鎖線で囲む領域Ａ０、Ｃ０参照）。

図４は、第１実施形態の学習方法で学習したモデルの予測結果の図である。図４には、図３で示したシステムの実際の出力変化（実線）に対して、本実施形態のモデル学習方法によって学習したモデルを用いて予測した出力変化（鎖線）を示している。図４に示す本実施形態のモデル学習方法では、時刻ｔ７から時刻ｔ８までの間のシステムへの入力値のデータとシステムからの出力値のデータとが含まれている入出力データを用いてモデルを学習している。図４に示すように、時刻ｔ７から時刻ｔ８までの時間帯（図４のドットハッチ部分Ａｄ１）では、定常状態のシステムにおける、実際の出力変化と学習したモデルによる出力変数の推定値とのずれが図３に比べ小さくなっていることがわかる。したがって、本実施形態のモデル学習方法では、定常状態のシステムの予測精度（定常精度）が向上していることが明らかとなった。

以上説明した、本実施形態のモデル学習装置１００によれば、学習部１１２は、出力変数ｙの定常値のデータと、定常値のデータに対応する入力変数ｕのデータとの組を含んだ入出力データセットを用いて、モデルとなる状態方程式を学習する。すなわち、学習部１１２は、過渡状態のシステムにおける出力変数のデータと入力変数のデータとの組に加えて、定常状態のシステムにおける出力変数のデータと入力変数のデータとの組も用いて、状態方程式を学習する。これにより、このモデル学習装置１００によって学習されるモデルは、定常状態のシステムでの出力の予測精度を考慮したモデルとなる。さらに、モデル学習装置１００によって学習される、システムの入力変数ｕと出力変数ｙとの関係を示すモデルは、出力変数ｙを入力とする全単射な写像Φを含む状態方程式となっている。これにより、モデル学習装置１００が学習するモデルでは、一意に求められる定常値の推測値と実際の定常値とのずれが比較的小さくなる。したがって、モデル学習装置１００は、定常値の予測精度を向上させることができるモデルを学習することができる。

また、本実施形態のモデル学習装置１００によれば、式（１）に含まれる写像Φは、出力変数ｙと入力変数ｕを入力とする全単射な写像であるため、例えば、関数Ｇを用いた場合、Ｇ^-1＝Φとなるように、式（１）を形式的に書き換えることができる。また、式（１）のモデルには、入力変数ｕを入力とする関数Ａ（ｕ）、ｆ（ｕ）が含まれており、入力変数ｕの時間微分の項も含まれている。これらによって、式（１）のモデルは、入力変数に対応する出力変数の定常値を陽的に表現可能なモデルとなるため、過渡状態のシステムが出力する出力変数だけでなく、定常状態のシステムが出力する出力変数ｙの定常値を精度よく求めることができる。したがって、定常状態のシステムが出力する定常値の予測精度を向上させることができるモデルを学習することができる。

また、本実施形態のモデル学習装置１００によれば、式（１）の状態方程式において、出力変数ｙと入力変数ｕを入力とする写像Φの出力を内部変数ｘと定義することで、式（１）の状態方程式を線形化することができる。これにより、式（１）に示す状態方程式を定常状態のシステムにおける入力変数に対する出力変数の定常値を陽的に表現可能なモデルとすることができる。したがって、定常状態のシステムが出力する定常値の予測精度を向上させることができるモデルを学習することができる。

また、本実施形態のモデル学習装置１００によれば、式（１）に含まれる写像Φは、多層ニューラルネットワークを用いて定義されている。これにより、多層ニューラルネットワークの各層における活性化関数φ_Φ、重みＷ_Φ、バイアスｂ_Φを調整することで、式（１）で推定される出力変数ｙの値を、実際のシステムの出力に近づけることができる。これにより、実際のシステムの出力を高精度に予測するモデルを学習することができる。

また、本実施形態のモデル学習装置１００によれば、学習部１１２は、入出力データセットに含まれる、定常値のデータに対応する入力変数ｕのデータを含む入力変数のデータセットを用いて、出力を推定する。学習部１１２は、推定された出力と、入出力データセットに含まれる、出力変数ｙの定常値のデータを含む出力変数ｙのデータセットとの一致度を評価し、評価の結果に応じてモデルの学習パラメータを更新することで、状態方程式を学習する。学習部１１２は、このようにして、定常値のデータに対応する入力変数ｕのデータを含む入力変数ｙのデータセットを用いて学習した状態方程式を評価することで、学習したモデルを予測精度が高いモデルとなるように修正することができる。これにより、定常値の予測精度をさらに向上させることができるモデルを学習することができる。

＜第２実施形態＞
図５は、第２実施形態のモデル学習方法のフローチャートである。第２実施形態のモデル学習方法は、学習するモデルを修正する方法が第１実施形態と異なる。

第２実施形態のモデル学習方法では、最初に、第１実施形態のステップＳ１１と同様に、データセット記憶部１２２は、入出力データセットを記憶する（ステップＳ２１）。次に、第１実施形態のステップＳ１２と同様に、学習部１１２は、モデル記憶部１２１に記憶されているモデルを取得する。学習部１１２は、取得したモデルに含まれる変数を初期化する（ステップＳ２２）。

次に、第１実施形態のステップＳ１３およびステップＳ１４と同様に、学習部１１２は、データセット記憶部１２２から入出力データセットを取得し（ステップＳ２３）、モデルに入力データセットを与えて出力を推定する（ステップＳ２４）。ステップＳ２４において、学習部１１２は、過渡状態のシステムにおける出力変数ｙ・ｊの推定値と、定常状態のシステムにおける出力変数ｙ－ｊの推定値を算出する。

次に、学習部１１２は、第１実施形態のステップＳ１５と同様に、ステップＳ２４で得られた出力変数ｙ・_jの推定値と、ステップＳ２３で取得した出力変数のデータセット［ｙ_j、ｙ・_j、ｙ－_j］との一致度を評価する（ステップＳ２５）。ステップＳ２５での一致度の評価は、第１実施形態と同様に、過渡状態のシステムにおける出力変数ｙ・ｊの推定値の一致度Ｊ_tと、定常状態のシステムにおける出力変数ｙ－ｊの推定値の一致度Ｊ_sとから算出される一致度の合計値Ｊ_aを評価する。

次に、学習部１１２は、第１実施形態のステップＳ１６と同様に、一致度の合計値が十分であるか否かを判定する（ステップＳ２６）。一致度の合計値が十分でない場合（ステップＳ２６：ＮＯ）、学習部１１２は、ステップＳ２７に進み、ステップＳ２２で定義したモデルにおける学習パラメータを更新し、ステップＳ２４に進み、出力の推定および評価を繰り返す。

ステップＳ２６での判定において、一致度の合計値が十分であると判定される場合（ステップＳ２６：ＹＥＳ）、学習部１１２は、出力変数ｙ・_jの推定値と出力変数のデータセット［ｙ_j、ｙ・_j、ｙ－_j］との一致度を、過渡状態のシステムにおける出力変数ｙ・ｊの推定値の一致度Ｊ_tと、定常状態のシステムにおける出力変数ｙ－ｊの推定値の一致度Ｊ_sとで別々に評価する（ステップＳ２８）。推定値の一致度については、過渡状態と定常状態とのそれぞれに、例えば、下限値を設けられているとして、一致度Ｊ_t、Ｊ_sのいずれかがその下限値を下回っている場合（ステップＳ２８：ＮＯ）、直前のステップＳ２３からステップＳ２５までで用いられた入出力データセットに、過渡データまたは定常データを追加し、新たな入出力データセットを作成する（ステップＳ２９）。具体的には、一致度Ｊ_tが下限値を下回っている場合、過渡データを追加し、新たな入出力データセットを作成する。一致度Ｊ_sが下限値を下回っている場合、定常データを追加し、新たな入出力データセットを作成する。

ステップＳ２９において新たに作成された入出力データセットは、次のステップＳ２４においてモデルに与えられ、出力を推定する（ステップＳ２４）。その後、ステップＳ２５において、ステップＳ２３で取得した新たな入出力データに含まれる出力変数のデータセット［ｙ_j、ｙ・_j、ｙ－_j］との一致度の合計値Ｊ_aを評価する。一致度の合計値Ｊ_aが十分である場合（ステップＳ２６：ＹＥＳ）、ステップＳ２８において、過渡状態のシステムにおける出力変数ｙ・ｊの推定値の一致度Ｊ_tと、定常状態のシステムにおける出力変数ｙ－ｊの推定値の一致度Ｊ_sとを別々に評価する。過渡状態のシステムにおける一致度Ｊ_tと定常状態のシステムにおける一致度Ｊ_sとのそれぞれが十分である場合、学習部１１２は、処理を終了する。一致度Ｊ_t、Ｊ_sのいずれかがその下限値を下回っている場合（ステップＳ２８：ＮＯ）、新たな入出力データに過渡データや定常データをさらに加えて、さらに新たな入出力データセットを作成する（ステップＳ２９）。

図６は、第２実施形態の学習方法で学習したモデルの予測結果の第１図である。図６に示すモデルの予測結果（鎖線）は、第１実施形態の図４と同じ図であって、時刻ｔ７から時刻ｔ８までの間のシステムへの入力値のデータとシステムからの出力値のデータとが含まれている入出力データを用いて、一度学習したモデルでの予測結果である。図６に示すように、時刻ｔ７から時刻ｔ８までの間（図６のドットハッチ部分Ａｄ１）では、定常状態のシステムの実際の出力変化と、モデルによって予測された出力変化とがほぼ一致しているが、時刻ｔ２１から時刻ｔ２２までの時間帯での出力では、実際の出力変化（実線）と、予測した出力変化（鎖線）との間に比較的大きなずれがあることがわかる（二点鎖線で囲む領域Ａ１、Ｄ１参照）。

図７は、第２実施形態の学習方法で学習したモデルの予測結果の第２図である。図７に示すモデルの予測結果（鎖線）は、図６の予測を行ったモデルの学習データであった入出力データに定常データを追加して作成した新たな入出力データを用いて、学習したモデルの予測結果を示している。具体的には、実際の出力変化（実線）と、予測した出力変化（鎖線）との間に誤差があった時刻ｔ２１から時刻ｔ２２までの間の定常データを追加し、新たに作成した入出力データを用いて学習したモデルの予測結果を示している。図７に示すように、時刻ｔ２１から時刻ｔ２２までの時間帯（図７のドットハッチ部分Ａｄ２）において、実際の出力変化と学習したモデルによる出力変数の推定値とのずれが図６に比べ小さくなり、パラメータによっては、ほぼ一致していることがわかる。したがって、本実施形態のモデル学習方法のように、定常データを追加することで作成した新たな入出力データを用いてモデルを学習することで、定常状態のシステムの予測精度が向上することが明らかとなった。

以上説明した、本実施形態のモデル学習装置１００によれば、学習部１１２は、モデルに対して、入出力データセットに含まれる入力変数のデータセットを与えて出力を推定し、推定された出力と、入出力データセットに含まれる出力変数のデータセットとの一致度を評価する。学習部１１２は、評価の結果に応じて、出力の推定と一致度の評価に用いた入出力データセットに、出力変数ｙの定常値のデータと定常値のデータに対応する入力変数ｕのデータとの新たな組を追加することで新たに作成した入出力データセットを用いて状態方程式を新たに学習する。これにより、例えば、定常状態のシステムにおける出力変数ｙとの一致度が十分でない場合、定常値に関する学習データを追加することで定常値の予測精度を向上させることができる。これにより、定常値の予測精度をさらに向上させることができるモデルを学習することができる。

また、本実施形態のモデル学習装置１００によれば、ステップＳ２８の評価において、過渡状態での一致度Ｊ_tを評価することで、過渡データを追加し、新たにモデルを学習するための新たな入出力データを作成する。これにより、過渡状態のシステムでの出力値の予測精度を向上させることができる。

＜第３実施形態＞
図８は、第３実施形態の制御装置２００の構成を示す模式図である。第３実施形態の制御装置２００は、制御部１１１と、学習部１１２と、決定部２１３を有するＣＰＵ２１０を備える。

制御装置２００は、例えば、車載ＥＣＵ（ＥｌｅｃｔｒｏｎｉｃＣｏｎｔｒｏｌＵｎｉｔ）として用いられる。本実施形態の制御装置２００は、制御装置２００をシステム３００の制御のために用いることができる。システム３００とは、第１実施形態と同様に、例えば、内燃機関、ハイブリッド機関、パワートレインなどである。なお、制御装置２００は、例えば、パーソナルコンピュータであって、システム３００の分析のために用いてもよい。

制御装置２００は、ＣＰＵ２１０と、記憶部１２０と、ＲＯＭ／ＲＡＭ１３０と、通信部１４０と、入出力部１５０と、を備えている。制御装置２００の各部は、バスにより相互に接続されている。なお、制御装置２００の機能部のうちの少なくとも一部は、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃａｔｉｏｎＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）により実現されてもよい。

ＣＰＵ２１０は、制御部１１１と、学習部１１２と、決定部２１３と、を備えている。制御部１１１は、第１実施形態の制御部１１１と同様に、ＲＯＭ１３０に格納されているコンピュータプログラムをＲＡＭ１３０に展開して実行することにより、モデル学習装置１００の各部を制御する。学習部１１２は、第１実施形態や第２実施形態で説明したモデル学習方法を用いて、システム３００の状態を表す出力変数ｙを予測するための非線形の状態方程式を学習する。決定部２１３は、学習部１１２が学習した状態方程式を用いて、システムの現在時刻の出力から、将来の出力が目標値となるように制御するための入力を計算する。制御装置２００は、計算された入力をシステムに出力し、システムを制御する。

以上説明した、本実施形態の制御装置２００によれば、決定部２１３は、学習部１１２が学習した状態方程式を用いて、出力変数ｙの目標値に対応する入力変数ｕを決定する。制御装置２００では、決定部２１３で決定された入力変数をシステム３００に入力することで、特に、定常状態のシステム３００において出力が目標とした定常値となるように、システム３００を制御することができる。

＜本実施形態の変形例＞
本発明は上記の実施形態に限られるものではなく、その要旨を逸脱しない範囲において種々の態様において実施することが可能であり、例えば次のような変形も可能である。また、上記実施形態において、ハードウェアによって実現されるとした構成の一部をソフトウェアに置き換えるようにしてもよく、逆に、ソフトウェアによって実現されるとした構成の一部をハードウェアに置き換えるようにしてもよい。

［変形例１］
上記実施形態では、モデル学習装置、または、制御装置の構成の一例を示した。しかしながら、モデル学習装置および制御装置の構成は、種々の変形が可能であり、これらの構成に限定されない。例えば、モデル学習装置および制御装置の少なくとも一方は、ネットワーク上に配置された複数の情報処理装置（サーバ装置や、車載ＥＣＵ等を含む）が協働することによって構成されてもよい。

［変形例２］
上記実施形態では、モデル学習方法（図２および図５参照）の手順の一例を示した。しかしながら、これらの方法は、種々の変形が可能であり、これらの手順に限定されない。例えば、一部のステップを省略してもよく、説明しない他のステップを追加してもよい。また、一部のステップの実行順序を変更してもよい。

［変形例３］
上記実施形態では、状態方程式を式（１）と定義し、式（１）に含まれる写像Φの出力を式（２）で示す内部変数ｘで定義した。しかしながら、写像Φのそれぞれの定義は、あくまで一例であり、これらは、任意の形に定義してよい。

［変形例４］
第１実施形態および第２実施形態では、モデル学習方法（図２参照）において、学習部１１２は、式（１４）～式（１６）に記載の式によって算出される一致度を用いてモデルを学習するとした。このとき、学習部１１２は、一致度に加えて、制約条件を満たしているか否かを判断してもよい。例えば、式（１）の状態方程式に含まれる関数Ａ（ｕ）や関数ｆ（ｕ）のそれぞれに制約条件を設定してもよい。

［変形例５］
第１実施形態および第２実施形態では、写像Φをニューラルネットワークの考え方を用いて式（４）～式（７）で定義するとした。しかしながら、写像Φの定義はこれに限定されない。写像Φは、出力変数ｙを入力とする全単射な写像であればよい。

［変形例６］
上述の実施形態では、学習したモデルによる推定値の評価結果があらかじめ設定された評価の基準を満たさない場合、第１実施形態では、学習パラメータを変更することで、モデルを再学習し、出力を推定するとした。第２実施形態では、学習パラメータを変更するとともに、入出力データセットに渡過データまたは定常データを追加することで新たな入出力データセットを作成し、モデルを再学習することで出力を推定するとした。しかしながら、モデルを再学習するための判定の方法は、これらに限定されない。出力の推定値が入出力データセットに含まれる出力値に近いか否かを判定する方法であればよい。

［変形例７］
第２実施形態のモデル学習方法では、過渡状態での一致度Ｊ_tと、定常状態の一致度Ｊ_sとのそれぞれを評価するとした。しかしながら、第１実施形態の式（１６）のように、重みづけを加味した計算式を用いて評価してもよい。また、第２実施形態では、過渡状態での一致度Ｊ_tを評価することで、過渡データを追加し、新たにモデルを学習するための新たな入出力データを作成するとした。定常値の予測精度を向上させるため、定常状態での一致度Ｊ_sの評価のみとし、過渡状態での一致度Ｊ_tの評価は行わなくてもよい。

以上、実施形態、変形例に基づき本態様について説明してきたが、上記した態様の実施の形態は、本態様の理解を容易にするためのものであり、本態様を限定するものではない。本態様は、その趣旨並びに特許請求の範囲を逸脱することなく、変更、改良され得ると共に、本態様にはその等価物が含まれる。また、その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜、削除することができる。

１００…モデル学習装置
１１０，２１０…ＣＰＵ
１１１…制御部
１１２…学習部
１２０…記憶部
１２１…モデル記憶部
１２２…データセット記憶部
１３０…ＲＯＭ／ＲＡＭ
１４０…通信部
１５０…入出力部
２００…制御装置
２１３…決定部
３００…システム

Claims

システムに入力される入力変数ｕと、前記システムから出力される出力変数ｙとの関係を表すモデルを学習するモデル学習装置であって、
前記入力変数ｕを用いて前記出力変数ｙを予測するための非線形の状態方程式の学習に用いられるモデルを記憶するモデル記憶部と、
前記モデルと、前記出力変数ｙの定常値のデータと前記定常値のデータに対応する前記入力変数ｕのデータとの組を含んだ入出力データセットと、を用いて前記状態方程式を学習する学習部と、を備え、
前記モデルは、前記出力変数ｙを入力とする全単射な写像Φを含む状態方程式である、
モデル学習装置。
請求項１に記載のモデル学習装置であって、
前記モデルは、式（１）によって定義され、

上記式において、
等号の左辺は、前記出力変数ｙを表すｎ（ｎは整数）次元ベクトルの時間微分であり、
等号の右辺のうち、
前記入力変数ｕは、前記出力変数ｙの変化に影響を与える入力変数を表すｍ（ｍは整数）次元ベクトルであり、
関数Ａは、前記入力変数ｕを入力として、ｎ×ｎ行列を返す関数であり、
前記写像Φは、前記出力変数ｙと前記入力変数ｕを入力としてｎ次元のベクトルを返す関数であり、
関数ｆは、前記入力変数ｕを入力としてｎ次元のベクトルを返す関数であり、
前記入力変数ｕの上にドットが付された記号は、前記入力変数ｕの時間微分である、
モデル学習装置。
請求項２に記載のモデル学習装置であって、
前記式（１）において、前記出力変数ｙと前記入力変数ｕを入力とする前記写像Φの出力を内部変数ｘと定義すると、
前記学習部は、式（２）および式（３）によって定義される前記状態方程式を学習する、
モデル学習装置。
請求項３に記載のモデル学習装置であって、
前記写像Φは、式（４）～式（７）によって定義され、

ｉは、多層ニューラルネットワークにおける層の番号であり、Ｌ_Φは、多層ニューラルネットワークの層数であり、φ_Φは、活性化関数であり、入力と同次元の出力を返す任意の全単射な写像であり、Ｗ_Φは重みであり、ｂ_Φはバイアスである、
モデル学習装置。
請求項１から請求項４のいずれか一項に記載のモデル学習装置であって、
前記学習部は、
前記モデルに対して、前記入出力データセットに含まれる、前記定常値のデータに対応する入力変数ｕのデータを含む前記入力変数のデータセットを与えて出力を推定し、
推定された出力と、前記入出力データセットに含まれる、前記入力変数ｙの定常値のデータを含む前記出力変数のデータセットとの一致度を評価し、
評価の結果に応じて前記モデルの学習パラメータを更新することで、前記状態方程式を学習する、
モデル学習装置。
請求項１から請求項４のいずれか一項に記載のモデル学習装置であって、
前記学習部は、
前記モデルに対して、前記入出力データセットに含まれる、前記定常値のデータに対応する入力変数ｕのデータを含む前記入力変数のデータセットを与えて出力を推定し、
推定された出力と、前記入出力データセットに含まれる、前記入力変数ｙの定常値のデータを含む前記出力変数のデータセットとの一致度を評価し、
評価の結果に応じて、前記出力の推定と前記一致度の評価に用いた前記入出力データセットに、前記出力変数ｙの定常値のデータと前記定常値のデータに対応する前記入力変数ｕのデータとの新たな組を追加することで、新たな入出力データセットを作成し、
前記新たな入出力データセットを用いて、前記状態方程式を学習する、
モデル学習装置。
システムを制御する制御装置であって、
請求項１から請求項６のいずれか一項に記載のモデル学習装置と、
前記学習部が学習した前記状態方程式を用いて、前記出力変数ｙの目標値に対応する前記入力変数ｕを決定する決定部と、を備える、
制御装置。
システムに入力される入力変数ｕと、前記システムから出力される出力変数ｙとの関係を表すモデルを学習するモデル学習方法であって、
前記入力変数ｕを用いて前記出力変数ｙを予測するための非線形の状態方程式の学習に用いられるモデルを取得する工程と、
前記モデルと、前記出力変数ｙの定常値のデータと前記定常値のデータに対応する前記入力変数ｕのデータとの組を含んだ入出力データセットと、を用いて前記状態方程式を学習する工程と、を備え、
前記モデルは、前記出力変数ｙを入力とする全単射な写像Φを含む状態方程式である、モデル学習方法。
システムに入力される入力変数ｕと、前記システムから出力される出力変数ｙとの関係を表すモデルの学習を情報処理装置に実行させるコンピュータプログラムであって、
前記入力変数ｕを用いて前記出力変数ｙを予測するための非線形の状態方程式の学習に用いられるモデルを取得する機能と、
前記モデルと、前記出力変数ｙの定常値のデータと前記定常値のデータに対応する前記入力変数ｕのデータとの組を含んだ入出力データセットと、を用いて前記状態方程式を学習する機能と、を前記情報処理装置に実行させ、
前記モデルは、前記出力変数ｙを入力とする全単射な写像Φを含む状態方程式である、コンピュータプログラム。