JP7410901B2 - モデル学習装置、制御装置、モデル学習方法、および、コンピュータプログラム - Google Patents

モデル学習装置、制御装置、モデル学習方法、および、コンピュータプログラム Download PDF

Info

Publication number
JP7410901B2
JP7410901B2 JP2021044033A JP2021044033A JP7410901B2 JP 7410901 B2 JP7410901 B2 JP 7410901B2 JP 2021044033 A JP2021044033 A JP 2021044033A JP 2021044033 A JP2021044033 A JP 2021044033A JP 7410901 B2 JP7410901 B2 JP 7410901B2
Authority
JP
Japan
Prior art keywords
output
input
variable
model
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021044033A
Other languages
English (en)
Other versions
JP2022143499A (ja
Inventor
竜大 森安
太郎 池田
幹人 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Industries Corp
Toyota Central R&D Labs Inc
Original Assignee
Toyota Industries Corp
Toyota Central R&D Labs Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Industries Corp, Toyota Central R&D Labs Inc filed Critical Toyota Industries Corp
Priority to JP2021044033A priority Critical patent/JP7410901B2/ja
Priority to US17/683,981 priority patent/US20220300683A1/en
Publication of JP2022143499A publication Critical patent/JP2022143499A/ja
Application granted granted Critical
Publication of JP7410901B2 publication Critical patent/JP7410901B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Neurology (AREA)
  • Feedback Control In General (AREA)

Description

本発明は、モデル学習装置、制御装置、モデル学習方法、および、コンピュータプログラムに関する。
従来から、制御対象であるシステムへの入力とシステムからの出力との関係を表すモデルを学習するモデル学習装置が知られている。例えば、特許文献1には、システムの入出力の関係を示す時系列データから、システムの状態を予測するモデルを学習する技術が開示されている。
特願2018-116693号公報
しかしながら、上述したような先行技術によっても、モデル学習装置において、定常状態のシステムが出力する定常値の予測精度を向上させることができるモデルを学習する技術については、なお改善の余地があった。例えば、特許文献1の技術では、過渡状態のシステムにおける時系列データからモデルを学習するため、ある入力に対して出力が最終的に収束する値、すなわち、出力の定常値をこのモデルから推定した値は、定常状態のシステムが実際に出力する定常値とは異なるおそれがある。このように、出力が過渡的に変化しているシステムの時系列データに近づけるように学習されたモデルでは、過渡的な変化を学習した結果として、定常値をモデルで予測した結果が実際の定常値と良好に一致するとは限らない。
本発明は、上述した課題を解決するためになされたものであり、モデル学習装置において、定常状態のシステムが出力する定常値の予測精度を向上させることができるモデルを学習する技術を提供することを目的とする。
本発明は、上述の課題を解決するためになされたものであり、以下の形態として実現できる。
(1)本発明の一形態によれば、システムに入力される入力変数と、システムから出力される出力変数との関係を表すモデルを学習するモデル学習装置が提供される。このモデル学習装置は、前記入力変数uを用いて前記出力変数yを予測するための非線形の状態方程式の学習に用いられるモデルを記憶するモデル記憶部と、前記モデルと、前記出力変数yの定常値のデータと前記定常値に対応する前記入力変数uのデータとの組を含んだ入出力データセットと、を用いて前記状態方程式を学習する学習部と、を備え、前記モデルは、前記出力変数yを入力とする全単射な写像Φを含む状態方程式である。
この構成によれば、学習部は、出力変数yの定常値のデータと、定常値のデータに対応する入力変数uのデータとの組を含んだ入出力データセットを用いて、モデルとなる状態方程式を学習する。すなわち、学習部は、過渡状態のシステムにおける出力変数のデータと入力変数のデータとの組に加えて、定常状態のシステムにおける出力変数のデータと入力変数のデータとの組も用いて、状態方程式を学習する。これにより、このモデル学習装置によって学習されるモデルは、定常状態のシステムでの出力の予測精度を考慮したモデルとなる。さらに、上述の構成では、システムの入力変数と出力変数との関係を示すモデルは、出力変数yを入力とする全単射な写像Φを含む状態方程式となっているため、入力変数に対する出力変数の定常値を一意に求めることができる。これにより、上述のモデル学習装置が学習するモデルでは、一意に求められる定常値の推測値と実際の定常値とのずれが比較的小さくなる。したがって、上述のモデル学習装置は、定常値の予測精度を向上させることができるモデルを学習することができる。
(2)上記形態のモデル学習装置において、前記モデルは、式(1)によって定義されてもよい。
Figure 0007410901000001
上記式において、等号の左辺は、前記出力変数yを表すn(nは整数)次元ベクトルの時間微分であり、等号の右辺のうち、前記入力変数uは、前記出力変数yの変化に影響を与える入力変数を表すm(mは整数)次元ベクトルであり、関数Aは、前記入力変数uを入力として、n×n行列を返す関数であり、前記写像Φは、前記出力変数yと前記入力変数uを入力としてn次元のベクトルを返す関数であり、関数fは、前記入力変数uを入力としてn次元のベクトルを返す関数であり、前記入力変数uの上にドットが付された記号は、前記入力変数uの時間微分である。この構成によれば、写像Φは、出力変数yと入力変数uを入力とする全単射な写像であるため、例えば、関数Gを用いた場合、G-1=Φとなるように、式(1)を形式的に書き換えることができる。また、式(1)のモデルには、入力変数uを入力とする関数A(u)、f(u)が含まれており、入力変数uの時間微分の項も含まれている。これらによって、式(1)のモデルは、入力変数uに対応する出力変数yの定常値を陽的に表現可能となるため、過渡状態のシステムが出力する出力変数yだけでなく、定常状態のシステムが出力する出力変数yの定常値を精度よく求めることができる。したがって、定常状態のシステムが出力する定常値の予測精度を向上させることができるモデルを学習することができる。
(3)上記形態のモデル学習装置において、前記式(1)において、前記出力変数yと前記入力変数uを入力とする前記写像Φの出力を内部変数xと定義すると、前記学習部は、式(2)および式(3)によって定義される前記状態方程式を学習してもよい。
Figure 0007410901000002
Figure 0007410901000003
この構成によれば、式(1)の状態方程式において、出力変数yと入力変数uを入力とする写像Φの出力を内部変数xと定義することで、式(1)の状態方程式を内部変数xについて線形化することができる。これにより、式(1)に示す状態方程式を、定常状態のシステムにおける入力変数に対する出力変数の定常値を陽的に表現可能なモデルとすることができる。したがって、定常状態のシステムが出力する定常値の予測精度を向上させることができるモデルを学習することができる。
(4)上記形態のモデル学習装置において、前記写像Φは、式(4)~式(7)によって定義されてもよい。
Figure 0007410901000004
Figure 0007410901000005
Figure 0007410901000006
Figure 0007410901000007
iは、多層ニューラルネットワークにおける層の番号であり、LΦは、多層ニューラルネットワークの層数であり、φΦは、活性化関数であり、入力と同次元の出力を返す任意の全単射な写像であり、WΦは重みであり、bΦはバイアスである。この構成によれば、写像Φは、多層ニューラルネットワークを用いて定義されている。これにより、多層ニューラルネットワークの各層における重みWΦやバイアスbΦを調整することで、式(1)で推定される出力変数yの値を、実際のシステムの出力に近づけることができる。これにより、実際のシステムの出力を高精度に予測するモデルを学習することができる。
(5)上記形態のモデル学習装置において、前記学習部は、前記モデルに対して、前記入出力データセットに含まれる、前記定常値のデータに対応する入力変数uのデータを含む前記入力変数のデータセットを与えて出力を推定し、推定された出力と、前記入出力データセットに含まれる、前記入力変数yの定常値のデータを含む前記出力変数のデータセットとの一致度を評価し、評価の結果に応じて前記モデルの学習パラメータを更新することで、前記状態方程式を学習してもよい。この構成によれば、学習部は、入出力データセットに含まれる、出力変数yの定常値のデータに対応する入力変数uのデータを含む入力変数のデータセットを用いて、出力を推定する。学習部は、推定された出力と、入出力データセットに含まれる、入力変数yの定常値のデータを含む出力変数yのデータセットとの一致度を評価し、評価の結果に応じてモデルの学習パラメータを更新することで、状態方程式を学習する。学習部は、このようにして、定常値のデータに対応する入力変数uのデータを含む入力変数yのデータセットを用いて学習した状態方程式を評価することで、学習したモデルを予測精度が高いモデルとなるように修正することができる。これにより、定常値の予測精度をさらに向上させることができるモデルを学習することができる。
(6)上記形態のモデル学習装置において、前記学習部は、前記モデルに対して、前記入出力データセットに含まれる、前記定常値のデータに対応する入力変数のデータを含む前記入力変数のデータセットを与えて出力を推定し、推定された出力と、前記入出力データセットに含まれる、前記入力変数yの定常値のデータを含む前記出力変数のデータセットとの一致度を評価し、評価の結果に応じて、前記出力の推定と前記一致度の評価に用いた前記入出力データセットに、前記出力変数yの定常値のデータと前記定常値のデータに対応する前記入力変数uのデータとの新たな組を追加することで、新たな入出力データセットを作成し、前記新たな入出力データセットを用いて、前記状態方程式を学習してもよい。この構成によれば、学習部は、モデルに対して、入出力データセットに含まれる入力変数のデータセットを与えて出力を推定し、推定された出力と、入出力データセットに含まれる出力変数のデータセットとの一致度を評価する。学習部は、評価の結果に応じて、出力の推定と一致度の評価に用いた入出力データセットに、出力変数yの定常値のデータと定常値のデータに対応する入力変数uのデータとの新たな組を追加することで新たに作成した入出力データセットを用いて状態方程式を新たに学習する。これにより、例えば、定常状態のシステムにおける出力変数yとの一致度が十分でない場合、定常値に関する学習データを追加することで定常値の予測精度を向上させることができる。これにより、定常値の予測精度をさらに向上させることができるモデルを学習することができる。
(7)本発明の別の形態によれば、システムを制御する制御装置が提供される。この制御装置は、上述のモデル学習装置と、前記学習部が学習した前記状態方程式を用いて、前記出力変数yの目標値に対応する前記入力変数uを決定する決定部と、を備える。この構成によれば、決定部は、上述のモデル学習装置が学習した状態方程式を用いて、出力変数の目標値に対応する入力変数を決定する。制御装置は、決定部で決定された入力変数をシステムに入力することで、特に、定常状態のシステムにおいて、出力が目標とした定常値となるように、システムを制御することができる。
(8)本発明のさらに別の形態によれば、システムに入力される入力変数uと、前記システムから出力される出力変数yとの関係を表すモデルを学習するモデル学習方法が提供される。このモデル学習方法は、前記入力変数uを用いて前記出力変数yを予測するための非線形の状態方程式の学習に用いられるモデルを取得する工程と、前記モデルと、前記出力変数yの定常値のデータと前記定常値のデータに対応する前記入力変数uのデータとの組を含んだ入出力データセットと、を用いて前記状態方程式を学習する工程と、を備え、前記モデルは、前記出力変数yを入力とする全単射な写像Φを含む状態方程式である。この構成によれば、学習する工程では、出力変数yの定常値のデータと、定常値のデータに対応する入力変数uのデータとの組を含んだ入出力データセットを用いて、出力変数yを入力とする全単射な写像Φを含む状態方程式を学習する。これにより、学習されるモデルは、入力変数に対する出力変数の定常値を一意に求めることができるとともに、定常状態のシステムでの出力の予測精度を考慮したモデルとなる。したがって、定常値の予測精度を向上させることができるモデルを学習することができる。
(9)本発明のさらに別の形態によれば、システムに入力される入力変数uと、前記システムから出力される出力変数yとの関係を表すモデルの学習を情報処理装置に実行させるコンピュータプログラムが提供される。この構成によれば、前記入力変数uを用いて前記出力変数yを予測するための非線形の状態方程式の学習に用いられるモデルを取得する機能と、前記モデルと、前記出力変数yの定常値のデータと前記定常値のデータに対応する前記入力変数uのデータとの組を含んだ入出力データセットと、を用いて前記状態方程式を学習する機能と、を前記情報処理装置に実行させ、前記モデルは、前記出力変数yを入力とする全単射な写像Φを含む状態方程式である。この構成によれば、学習する機能によって、出力変数yの定常値のデータと、定常値のデータに対応する入力変数uのデータとの組を含んだ入出力データセットを用いて、出力変数yを入力とする全単射な写像Φを含む状態方程式が学習される。これにより、情報処理装置によって学習されるモデルは、入力変数に対する出力変数の定常値を一意に求めることができるとともに、定常状態のシステムでの出力の予測精度を考慮したモデルとなる。したがって、定常値の予測精度を向上させることができるモデルを学習することができる。
なお、本発明は、種々の態様で実現することが可能であり、例えば、非線形システムのモデルを学習する装置および方法、学習により得られたモデルを用いて状態を推定する装置および方法、これらの装置が含まれるシステム、これらの装置およびシステムにおいて実行されるコンピュータプログラム、そのコンピュータプログラムを配布するためのサーバ装置、そのコンピュータプログラムを記憶した一時的でない記憶媒体等の形態で実現することができる。
第1実施形態のモデル学習装置の構成を示す模式図である。 第1実施形態のモデル学習方法のフローチャートである。 比較例の学習方法で学習したモデルの予測結果の図である。 第1実施形態の学習方法で学習したモデルの予測結果の図である。 第2実施形態のモデル学習方法のフローチャートである。 第2実施形態の学習方法で学習したモデルの予測結果の第1図である。 第2実施形態の学習方法で学習したモデルの予測結果の第2図である。 第3実施形態の制御装置の構成を示す模式図である。
<第1実施形態>
図1は、第1実施形態のモデル学習装置100の構成を示す模式図である。本実施形態のモデル学習装置100は、入出力パラメータの関係性が一次式では表せない、または、近似できない性質を持つ、非線形の制御対象物(システム)のモデルを学習する。本実施形態では、「モデル」とは、非線形の状態方程式であって、実験データやシミュレーションデータなどから学習され、システムへの入力に対する出力に関する時間変化を近似的に表現できる状態方程式である。すなわち、モデル学習装置100は、非線形のシステムの状態を、該システムから出力される出力変数yとみなすことで、システムに入力される入力変数uによって制御された結果、システムの出力変数yを予測する非線形の状態方程式を学習する。なお、「状態方程式」とは、「y・(t)=f(y(t)、・・・)」のように、現時刻tにおける出力変数y(t)によって、それ自身の出力変数y・(t)を決定する方程式を意味する。以降、表記の便宜上、任意の変数zの時間微分を[z・]と記載し、任意の変数zについて、時間微分が0となるzの値を[z-]と記載する。
本実施形態において、モデル学習装置100でのモデル学習の対象となるシステムとしては、例えば、内燃機関、ハイブリッド機関、パワートレインなどが含まれる。内燃機関、ハイブリッド機関、パワートレインなどの駆動機関をシステムとした場合、モデル学習装置100により学習されるモデルは、システムの駆動に関する種々のパラメータ、例えば、アクチュエータの操作量、システムに対する外乱、システムの状態、システムの出力、システムの出力目標値などの関係を表す非線形の状態方程式となる。
モデル学習装置100は、例えば、パーソナルコンピュータ(PC:Personal Computer)であり、CPU110と、記憶部120と、ROM/RAM130と、通信部140と、入出力部150と、を備えている。モデル学習装置100の各部は、バスにより相互に接続されている。モデル学習装置100は、特許請求の範囲に記載の「情報処理装置」に相当する。
CPU110は、制御部111と、学習部112と、を有している。制御部111は、ROM130に格納されているコンピュータプログラムをRAM130に展開して実行することにより、モデル学習装置100の各部を制御する。学習部112は、任意のシステム(非線形システム)の状態を表す出力変数yを予測するための非線形の状態方程式を学習する。学習部112の機能の詳細は、後述する。
記憶部120は、ハードディスク、フラッシュメモリ、メモリカードなどで構成される記憶媒体である。記憶部120は、モデル記憶部121と、データセット記憶部122と、を有している。モデル記憶部121は、学習部112による状態方程式の学習のために用いられるモデルを予め記憶している。本実施形態では、モデル記憶部121に記憶されているモデルは、出力変数yを入力とする全単射な写像Φを含む状態方程式であって、式(1)により定義される。ここで、「全単射」とは、集合Aの写像の結果が集合Bであるとした場合に、AとBの各要素が必ず一対一の対応関係を持つことを意味する。これは、例えば、関数gが全単射である場合、一意の逆関数g-1が存在することと同義である。
Figure 0007410901000008
上記式において、等号の左辺は、出力変数yを表すn(nは整数)次元ベクトルの時間微分である。等号の右辺のうち、入力変数uは、出力変数yの変化に影響を与える入力変数を表すm(mは整数)次元ベクトルである。関数Aは、入力変数uを入力として、n×n行列を返す関数であり、写像Φは、出力変数yと入力変数uを入力としてn次元のベクトルを返す関数である。関数fは、入力変数uを入力としてn次元のベクトルを返す関数である。
データセット記憶部122は、式(1)で表されるモデルに対する、出力変数yの定常値のデータと、定常値のデータに対応する入力変数uのデータとの組を含んだ入出力データセットを記憶する。ここで、「出力変数yの定常値」とは、システムにおいて、ある入力に対して出力が最終的に収束する値であって、例えば、システムの出力が安定しているときの出力値を指す。「定常値のデータに対応する入力変数uのデータ」とは、ある時刻において、システムの出力が定常値である場合に、同じ時刻に、該システムに入力されている入力値のデータを指す。また、「出力変数yのデータと、入力変数uのデータとの組」とは、ある時刻において、システムに入力される値と、同じ時刻にシステムから出力される値とを組み合わせたものを指す。入出力データセットは、システムに対する実験や計算により予め求められる。データセット記憶部122に記憶されている入出力データセットは、学習部112による状態方程式の学習のために用いられる教師データとして用いられる。入出力データセットの詳細は、後述する。
通信部140は、モデル学習装置100と他の装置との間における、通信インターフェースを介した通信を制御する。他の装置としては、例えば、システムを制御する制御装置や、他の情報処理装置、および、データセット記憶部122から入出力データセットを取得するための計測器などが挙げられる。入出力部150は、利用者による情報の入出力に使用される種々のインターフェースである。入出力部150としては、例えば、入力部としてのタッチパネル、キーボード、マウス、操作ボタン、マイクや、出力部としてのタッチパネル、モニタ、スピーカー、LED(Light Emitting Diode)インジケータなどが挙げられる。
図2は、第1実施形態のモデル学習方法のフローチャートである。モデル学習装置100におけるモデル学習方法は、例えば、所定のアプリケーションの起動など、利用者からの要求などによって実行される。本実施形態では、式(1)に示す状態方程式において、出力変数y、入力変数u、出力変数yの時間微分y・、および、入力変数uの時間微分u・を含む既知の入出力データセットを用いて、式(8)に示す関数Fの関数形を学習(推定)する。ここで、出力変数yは、n次元ベクトルであり、入力変数uは、m次元ベクトルである。
Figure 0007410901000009
第1実施形態のモデル学習方法では、最初に、データセット記憶部122は、入出力データセットを記憶する(ステップS11)。具体的には、データセット記憶部122は、入出力部150を介してモデル学習装置100に入力される、一定の長さの時間におけるシステムへの入力値のデータとシステムの出力値のデータとの組を入出力データセットとして記憶する。これにより、入出力データセットには、出力値のデータを含む出力変数のデータセットと、入力値のデータを含む入力変数のデータセットとが含まれる。ここで、システムの作動状態を、出力値が時間変動している状態を「過渡状態」と定義し、出力値が時間変動していない状態を「定常状態」と定義する。出力変数のデータセットには、過渡状態のシステムから出力された出力値(以下、「過渡時出力値」という)のデータと、過渡時出力値の時間微分値のデータと、定常状態のシステムから出力された出力値、すなわち、定常値のデータと、が含まれる。また、入力変数のデータセットには、過渡状態のシステムに入力された入力値(以下、「過渡時入力値」という)のデータと、過渡時入力値の時間微分値のデータと、定常状態のシステムに入力された入力値(以下、「定常時入力値」という)のデータと、定常時入力値の時間微分値のデータと、が含まれる。すなわち、入力変数のデータセットには、定常値のデータに対応する入力変数uのデータが含まれる。ここで、データセット記憶部122に記憶される、過渡時入力値と、過渡時入力値の時間微分値と、過渡時出力値と、過渡時出力値の時間微分値とのセットを、「過渡データのデータセット」という。また、データセット記憶部122に記憶される、定常時入力値と、定常値とのセットを、「定常データのデータセット」という。
次に、学習部112は、モデル記憶部121に記憶されているモデルを取得する(ステップS12)。具体的には、学習部112は、上述した関数Fを学習するためのモデルを式(1)に示す状態方程式と想定する。学習部112は、式(1)に示す状態方程式において、各変数の値をゼロまたはランダムな値とすることで、各変数を初期化する。
Figure 0007410901000010
本実施形態では、学習部112は、式(1)に含まれる、出力変数yと入力変数uを入力とする写像Φの出力を式(9)で示す内部変数xと定義する。
Figure 0007410901000011
これにより、学習部112は、式(1)を内部変数xと入力変数uとで示した式(2)および式(3)の状態方程式を学習することとなる。
Figure 0007410901000012
Figure 0007410901000013
したがって、式(1)と、式(2)および式(3)とから、ある与えられた入力変数uに対応する出力変数yの定常状態、すなわち、出力変数yの時間微分[y・]が0となる出力変数yの値[y-]は、式(10)および式(11)で求められる。
Figure 0007410901000014
Figure 0007410901000015
式(1)の状態方程式に含まれる写像Φの出力を内部変数xと入力変数uとのそれぞれで定義する効果は、後述する。
さらに、本実施形態では、学習部112は、多層ニューラルネットワークの考え方を用いて、写像Φについての式(4)~式(7)を定義する。
Figure 0007410901000016
Figure 0007410901000017
Figure 0007410901000018
Figure 0007410901000019
ここで、iは、多層ニューラルネットワークにおける層の番号であり、LΦは、多層ニューラルネットワークの層数である。φΦは、活性化関数であり、入力と同次元の出力を返す任意の全単射な写像である。WΦは重みであり、bΦはバイアスである。活性化関数φΦと、重みWΦと、バイアスbΦとのそれぞれは、多層ニューラルネットワークの層ごとに設定されてもよい。
次に、学習部112は、データセット記憶部122から、出力変数yと、入力変数uと、出力変数yの時間微分y・と、入力変数uの時間微分u・を含む入出力データセット[y、u、y・、u・]を取得する(ステップS13)。本実施形態では、入出力データセット[y、u、y・、u・]には、過渡データのデータセット[yj、uj、y・j、u・j](j=1~Nt)と、定常データのデータセット[y-j、u-j](j=1~Ns)が含まれている。取得した入出力データセットのうち、[uj、u・j、u-j]は、入力変数のデータセットに相当し、[yj、y・j、y-j]は、出力変数のデータセットに相当する。なお、y-jは、出力変数yの定常値のデータであり、u-jは、定常値のデータに対応する入力変数uのデータである。
次に、学習部112は、モデルに入力変数のデータセットを与えて出力を推定する(ステップS14)。具体的には、学習部112は、ステップS12で取得し初期化した式(1)の状態方程式に対して、ステップS13で取得した入力変数のデータセット[uj、u・j、u-j]のうちの過渡データにあたる部分のデータ[uj、u・j]を与える。これにより、過渡状態のシステムにおける出力変数y・jの推定値(式(12)の左辺)を得ることができる。なお、(∂Φ/∂y)-1は、出力変数yの関数であるため、出力変数yjを代入することで評価可能である。また、式(12)の右辺の(∂Φ/∂u)は、入力変数uの関数であるため、入力変数ujを代入することで評価可能である。
Figure 0007410901000020
また、学習部112は、ステップS13で取得した入力変数のデータセット[uj、u・j、u-j]のうちの定常データにあたる部分のデータ[u-j]を、式(13)に与えることで、定常状態のシステムにおける出力変数y-jの推定値(式(13)の左辺)を得ることができる。
Figure 0007410901000021
次に、学習部112は、推定された出力と出力変数のデータセットとの一致度を評価する(ステップS15)。具体的には、学習部112は、ステップS14で得られた出力変数の推定値と、ステップS13で取得した出力変数のデータセット[yj、y・j、y-j]との一致度を評価する。学習部112は、例えば、過渡状態のシステムにおける出力変数y・jの推定値については式(14)を用いて、二乗平均誤差(MSE:Mean Square Error)によって一致度を評価することができる。定常状態のシステムにおける出力変数y-jの推定値については式(15)を用いて、二乗平均誤差(MSE:Mean Square Error)によって一致度を評価することができる。
Figure 0007410901000022
Figure 0007410901000023
本実施形態では、式(14)の左辺の一致度Jtと、式(15)の左辺の一致度Jsとから、式(16)に示すように、重みづけを加味した計算式を用いて、一致度の合計値Jaを算出する。
Figure 0007410901000024
式(16)のαとβとは、任意に設定可能な重みづけのための係数である。式(16)の左辺の一致度の合計値Jaの値が小さければ小さいほど、一致度が高いことを示している。なお、学習部112は、二乗平均誤差の代わりに、例えば、絶対平均誤差率や、交差エントロピーなどの指標を用いて、一致度を評価してもよい。
次に、学習部112は、一致度が十分であるか否かを判定する(ステップS16)。例えば、式(16)を用いる場合、学習部112は、一致度の合計値Jaが所定値以下である場合に、一致度が十分であると判定できる。また、学習部112は、一致度の合計値Jaの変化率が所定値以下である場合に、一致度が十分であると判定してもよく、所定値は、任意に決定できる。
一致度が十分でない場合(ステップS16:NO)、学習部112は、ステップS17に進み、ステップS12で定義した式(1)のモデルにおける学習パラメータ、例えば、式(1)に含まれる関数A(u)、関数f(u)、式(5)に含まれる活性化関数φΦ、式(6)に含まれる重みWΦやバイアスbΦなどを更新する。学習部112は、例えば、バックプロパゲーションにより各学習パラメータに対する一致度の合計値Jaの勾配を評価し、各種の勾配法に基づいて、各学習パラメータを更新してもよい。その後、学習部112は、ステップS14に進み、出力の推定および評価を繰り返す。
一致度が十分である場合(ステップS16:YES)、学習部112は、処理を終了する。この際、学習部112は、学習した関数Fについて、入出力部150に出力してもよく、記憶部120に記憶してもよく、通信部140を介して他の装置に送信してもよい。
次に、図2で説明したモデル学習方法で学習されるモデル(状態方程式)において、解の一意性を保証できる理由について説明する。一般に、過渡的な現象を再現できる動的なモデルをニューラルネットワーク(機械学習)で構築する場合、該モデルが安定である、言い換えれば、発散しない、保証はない。しかし、上述した式(1)に示した状態方程式を、出力変数yを写像Φによって変換した内部変数xを用いることで等価変換した式(2)は、内部変数xについて線形な微分方程式を含んでいる。写像Φは、全単射な写像であるため、一意の逆関数が存在する。すなわち、内部変数xと出力変数y、および、内部変数xと入力変数uとのそれぞれは、相互に変換が可能であることから、線形化された式(2)を解くことで、非線形の式(1)の解を求めることができる。これにより、モデル学習装置100で学習されるモデルは、システムの出力の予測精度が向上させることができる。
次に、本実施形態のモデル学習装置100におけるモデル学習方法の効果について、比較例との対比を使って説明する。本実施形態のモデル学習方法では、学習データとして、過渡状態のシステムの入力値と出力値に加え、定常状態のシステムの入力値と出力値を含む入出力データセットを用いる。一方、比較例のモデル学習方法では、学習データとして、定常状態のシステムにおける入力値と出力値とが含まれていない入出力データを用いる。
図3は、比較例の学習方法で学習したモデルの予測結果の図である。図3には、1つのシステムから出力される5つのパラメータ(パラメータA、B、C、D、E)の時間変化を示している。図3に示すグラフでは、システムの実際の出力変化、すなわち、モデルによって予測されることが期待される出力変化を実線で示し、本実施形態のモデル学習方法によって学習したモデルを用いて予測した出力変化を鎖線で示している。比較例のモデル学習方法では、図3に示す、例えば、時刻t7から時刻t8までの時間帯に見られる定常状態での出力では、実際の出力変化(実線)と、予測した出力変化(鎖線)との間に大きなずれがあることがわかる(二点鎖線で囲む領域A0、C0参照)。
図4は、第1実施形態の学習方法で学習したモデルの予測結果の図である。図4には、図3で示したシステムの実際の出力変化(実線)に対して、本実施形態のモデル学習方法によって学習したモデルを用いて予測した出力変化(鎖線)を示している。図4に示す本実施形態のモデル学習方法では、時刻t7から時刻t8までの間のシステムへの入力値のデータとシステムからの出力値のデータとが含まれている入出力データを用いてモデルを学習している。図4に示すように、時刻t7から時刻t8までの時間帯(図4のドットハッチ部分Ad1)では、定常状態のシステムにおける、実際の出力変化と学習したモデルによる出力変数の推定値とのずれが図3に比べ小さくなっていることがわかる。したがって、本実施形態のモデル学習方法では、定常状態のシステムの予測精度(定常精度)が向上していることが明らかとなった。
以上説明した、本実施形態のモデル学習装置100によれば、学習部112は、出力変数yの定常値のデータと、定常値のデータに対応する入力変数uのデータとの組を含んだ入出力データセットを用いて、モデルとなる状態方程式を学習する。すなわち、学習部112は、過渡状態のシステムにおける出力変数のデータと入力変数のデータとの組に加えて、定常状態のシステムにおける出力変数のデータと入力変数のデータとの組も用いて、状態方程式を学習する。これにより、このモデル学習装置100によって学習されるモデルは、定常状態のシステムでの出力の予測精度を考慮したモデルとなる。さらに、モデル学習装置100によって学習される、システムの入力変数uと出力変数yとの関係を示すモデルは、出力変数yを入力とする全単射な写像Φを含む状態方程式となっている。これにより、モデル学習装置100が学習するモデルでは、一意に求められる定常値の推測値と実際の定常値とのずれが比較的小さくなる。したがって、モデル学習装置100は、定常値の予測精度を向上させることができるモデルを学習することができる。
また、本実施形態のモデル学習装置100によれば、式(1)に含まれる写像Φは、出力変数yと入力変数uを入力とする全単射な写像であるため、例えば、関数Gを用いた場合、G-1=Φとなるように、式(1)を形式的に書き換えることができる。また、式(1)のモデルには、入力変数uを入力とする関数A(u)、f(u)が含まれており、入力変数uの時間微分の項も含まれている。これらによって、式(1)のモデルは、入力変数に対応する出力変数の定常値を陽的に表現可能なモデルとなるため、過渡状態のシステムが出力する出力変数だけでなく、定常状態のシステムが出力する出力変数yの定常値を精度よく求めることができる。したがって、定常状態のシステムが出力する定常値の予測精度を向上させることができるモデルを学習することができる。
また、本実施形態のモデル学習装置100によれば、式(1)の状態方程式において、出力変数yと入力変数uを入力とする写像Φの出力を内部変数xと定義することで、式(1)の状態方程式を線形化することができる。これにより、式(1)に示す状態方程式を定常状態のシステムにおける入力変数に対する出力変数の定常値を陽的に表現可能なモデルとすることができる。したがって、定常状態のシステムが出力する定常値の予測精度を向上させることができるモデルを学習することができる。
また、本実施形態のモデル学習装置100によれば、式(1)に含まれる写像Φは、多層ニューラルネットワークを用いて定義されている。これにより、多層ニューラルネットワークの各層における活性化関数φΦ、重みWΦ、バイアスbΦを調整することで、式(1)で推定される出力変数yの値を、実際のシステムの出力に近づけることができる。これにより、実際のシステムの出力を高精度に予測するモデルを学習することができる。
また、本実施形態のモデル学習装置100によれば、学習部112は、入出力データセットに含まれる、定常値のデータに対応する入力変数uのデータを含む入力変数のデータセットを用いて、出力を推定する。学習部112は、推定された出力と、入出力データセットに含まれる、出力変数yの定常値のデータを含む出力変数yのデータセットとの一致度を評価し、評価の結果に応じてモデルの学習パラメータを更新することで、状態方程式を学習する。学習部112は、このようにして、定常値のデータに対応する入力変数uのデータを含む入力変数yのデータセットを用いて学習した状態方程式を評価することで、学習したモデルを予測精度が高いモデルとなるように修正することができる。これにより、定常値の予測精度をさらに向上させることができるモデルを学習することができる。
<第2実施形態>
図5は、第2実施形態のモデル学習方法のフローチャートである。第2実施形態のモデル学習方法は、学習するモデルを修正する方法が第1実施形態と異なる。
第2実施形態のモデル学習方法では、最初に、第1実施形態のステップS11と同様に、データセット記憶部122は、入出力データセットを記憶する(ステップS21)。次に、第1実施形態のステップS12と同様に、学習部112は、モデル記憶部121に記憶されているモデルを取得する。学習部112は、取得したモデルに含まれる変数を初期化する(ステップS22)。
次に、第1実施形態のステップS13およびステップS14と同様に、学習部112は、データセット記憶部122から入出力データセットを取得し(ステップS23)、モデルに入力データセットを与えて出力を推定する(ステップS24)。ステップS24において、学習部112は、過渡状態のシステムにおける出力変数y・jの推定値と、定常状態のシステムにおける出力変数y-jの推定値を算出する。
次に、学習部112は、第1実施形態のステップS15と同様に、ステップS24で得られた出力変数y・jの推定値と、ステップS23で取得した出力変数のデータセット[yj、y・j、y-j]との一致度を評価する(ステップS25)。ステップS25での一致度の評価は、第1実施形態と同様に、過渡状態のシステムにおける出力変数y・jの推定値の一致度Jtと、定常状態のシステムにおける出力変数y-jの推定値の一致度Jsとから算出される一致度の合計値Jaを評価する。
次に、学習部112は、第1実施形態のステップS16と同様に、一致度の合計値が十分であるか否かを判定する(ステップS26)。一致度の合計値が十分でない場合(ステップS26:NO)、学習部112は、ステップS27に進み、ステップS22で定義したモデルにおける学習パラメータを更新し、ステップS24に進み、出力の推定および評価を繰り返す。
ステップS26での判定において、一致度の合計値が十分であると判定される場合(ステップS26:YES)、学習部112は、出力変数y・jの推定値と出力変数のデータセット[yj、y・j、y-j]との一致度を、過渡状態のシステムにおける出力変数y・jの推定値の一致度Jtと、定常状態のシステムにおける出力変数y-jの推定値の一致度Jsとで別々に評価する(ステップS28)。推定値の一致度については、過渡状態と定常状態とのそれぞれに、例えば、下限値を設けられているとして、一致度Jt、Jsのいずれかがその下限値を下回っている場合(ステップS28:NO)、直前のステップS23からステップS25までで用いられた入出力データセットに、過渡データまたは定常データを追加し、新たな入出力データセットを作成する(ステップS29)。具体的には、一致度Jtが下限値を下回っている場合、過渡データを追加し、新たな入出力データセットを作成する。一致度Jsが下限値を下回っている場合、定常データを追加し、新たな入出力データセットを作成する。
ステップS29において新たに作成された入出力データセットは、次のステップS24においてモデルに与えられ、出力を推定する(ステップS24)。その後、ステップS25において、ステップS23で取得した新たな入出力データに含まれる出力変数のデータセット[yj、y・j、y-j]との一致度の合計値Jaを評価する。一致度の合計値Jaが十分である場合(ステップS26:YES)、ステップS28において、過渡状態のシステムにおける出力変数y・jの推定値の一致度Jtと、定常状態のシステムにおける出力変数y-jの推定値の一致度Jsとを別々に評価する。過渡状態のシステムにおける一致度Jtと定常状態のシステムにおける一致度Jsとのそれぞれが十分である場合、学習部112は、処理を終了する。一致度Jt、Jsのいずれかがその下限値を下回っている場合(ステップS28:NO)、新たな入出力データに過渡データや定常データをさらに加えて、さらに新たな入出力データセットを作成する(ステップS29)。
図6は、第2実施形態の学習方法で学習したモデルの予測結果の第1図である。図6に示すモデルの予測結果(鎖線)は、第1実施形態の図4と同じ図であって、時刻t7から時刻t8までの間のシステムへの入力値のデータとシステムからの出力値のデータとが含まれている入出力データを用いて、一度学習したモデルでの予測結果である。図6に示すように、時刻t7から時刻t8までの間(図6のドットハッチ部分Ad1)では、定常状態のシステムの実際の出力変化と、モデルによって予測された出力変化とがほぼ一致しているが、時刻t21から時刻t22までの時間帯での出力では、実際の出力変化(実線)と、予測した出力変化(鎖線)との間に比較的大きなずれがあることがわかる(二点鎖線で囲む領域A1、D1参照)。
図7は、第2実施形態の学習方法で学習したモデルの予測結果の第2図である。図7に示すモデルの予測結果(鎖線)は、図6の予測を行ったモデルの学習データであった入出力データに定常データを追加して作成した新たな入出力データを用いて、学習したモデルの予測結果を示している。具体的には、実際の出力変化(実線)と、予測した出力変化(鎖線)との間に誤差があった時刻t21から時刻t22までの間の定常データを追加し、新たに作成した入出力データを用いて学習したモデルの予測結果を示している。図7に示すように、時刻t21から時刻t22までの時間帯(図7のドットハッチ部分Ad2)において、実際の出力変化と学習したモデルによる出力変数の推定値とのずれが図6に比べ小さくなり、パラメータによっては、ほぼ一致していることがわかる。したがって、本実施形態のモデル学習方法のように、定常データを追加することで作成した新たな入出力データを用いてモデルを学習することで、定常状態のシステムの予測精度が向上することが明らかとなった。
以上説明した、本実施形態のモデル学習装置100によれば、学習部112は、モデルに対して、入出力データセットに含まれる入力変数のデータセットを与えて出力を推定し、推定された出力と、入出力データセットに含まれる出力変数のデータセットとの一致度を評価する。学習部112は、評価の結果に応じて、出力の推定と一致度の評価に用いた入出力データセットに、出力変数yの定常値のデータと定常値のデータに対応する入力変数uのデータとの新たな組を追加することで新たに作成した入出力データセットを用いて状態方程式を新たに学習する。これにより、例えば、定常状態のシステムにおける出力変数yとの一致度が十分でない場合、定常値に関する学習データを追加することで定常値の予測精度を向上させることができる。これにより、定常値の予測精度をさらに向上させることができるモデルを学習することができる。
また、本実施形態のモデル学習装置100によれば、ステップS28の評価において、過渡状態での一致度Jtを評価することで、過渡データを追加し、新たにモデルを学習するための新たな入出力データを作成する。これにより、過渡状態のシステムでの出力値の予測精度を向上させることができる。
<第3実施形態>
図8は、第3実施形態の制御装置200の構成を示す模式図である。第3実施形態の制御装置200は、制御部111と、学習部112と、決定部213を有するCPU210を備える。
制御装置200は、例えば、車載ECU(Electronic Control Unit)として用いられる。本実施形態の制御装置200は、制御装置200をシステム300の制御のために用いることができる。システム300とは、第1実施形態と同様に、例えば、内燃機関、ハイブリッド機関、パワートレインなどである。なお、制御装置200は、例えば、パーソナルコンピュータであって、システム300の分析のために用いてもよい。
制御装置200は、CPU210と、記憶部120と、ROM/RAM130と、通信部140と、入出力部150と、を備えている。制御装置200の各部は、バスにより相互に接続されている。なお、制御装置200の機能部のうちの少なくとも一部は、ASIC(Application Specification Integrated Circuit)により実現されてもよい。
CPU210は、制御部111と、学習部112と、決定部213と、を備えている。制御部111は、第1実施形態の制御部111と同様に、ROM130に格納されているコンピュータプログラムをRAM130に展開して実行することにより、モデル学習装置100の各部を制御する。学習部112は、第1実施形態や第2実施形態で説明したモデル学習方法を用いて、システム300の状態を表す出力変数yを予測するための非線形の状態方程式を学習する。決定部213は、学習部112が学習した状態方程式を用いて、システムの現在時刻の出力から、将来の出力が目標値となるように制御するための入力を計算する。制御装置200は、計算された入力をシステムに出力し、システムを制御する。
以上説明した、本実施形態の制御装置200によれば、決定部213は、学習部112が学習した状態方程式を用いて、出力変数yの目標値に対応する入力変数uを決定する。制御装置200では、決定部213で決定された入力変数をシステム300に入力することで、特に、定常状態のシステム300において出力が目標とした定常値となるように、システム300を制御することができる。
<本実施形態の変形例>
本発明は上記の実施形態に限られるものではなく、その要旨を逸脱しない範囲において種々の態様において実施することが可能であり、例えば次のような変形も可能である。また、上記実施形態において、ハードウェアによって実現されるとした構成の一部をソフトウェアに置き換えるようにしてもよく、逆に、ソフトウェアによって実現されるとした構成の一部をハードウェアに置き換えるようにしてもよい。
[変形例1]
上記実施形態では、モデル学習装置、または、制御装置の構成の一例を示した。しかしながら、モデル学習装置および制御装置の構成は、種々の変形が可能であり、これらの構成に限定されない。例えば、モデル学習装置および制御装置の少なくとも一方は、ネットワーク上に配置された複数の情報処理装置(サーバ装置や、車載ECU等を含む)が協働することによって構成されてもよい。
[変形例2]
上記実施形態では、モデル学習方法(図2および図5参照)の手順の一例を示した。しかしながら、これらの方法は、種々の変形が可能であり、これらの手順に限定されない。例えば、一部のステップを省略してもよく、説明しない他のステップを追加してもよい。また、一部のステップの実行順序を変更してもよい。
[変形例3]
上記実施形態では、状態方程式を式(1)と定義し、式(1)に含まれる写像Φの出力を式(2)で示す内部変数xで定義した。しかしながら、写像Φのそれぞれの定義は、あくまで一例であり、これらは、任意の形に定義してよい。
[変形例4]
第1実施形態および第2実施形態では、モデル学習方法(図2参照)において、学習部112は、式(14)~式(16)に記載の式によって算出される一致度を用いてモデルを学習するとした。このとき、学習部112は、一致度に加えて、制約条件を満たしているか否かを判断してもよい。例えば、式(1)の状態方程式に含まれる関数A(u)や関数f(u)のそれぞれに制約条件を設定してもよい。
[変形例5]
第1実施形態および第2実施形態では、写像Φをニューラルネットワークの考え方を用いて式(4)~式(7)で定義するとした。しかしながら、写像Φの定義はこれに限定されない。写像Φは、出力変数yを入力とする全単射な写像であればよい。
[変形例6]
上述の実施形態では、学習したモデルによる推定値の評価結果があらかじめ設定された評価の基準を満たさない場合、第1実施形態では、学習パラメータを変更することで、モデルを再学習し、出力を推定するとした。第2実施形態では、学習パラメータを変更するとともに、入出力データセットに渡過データまたは定常データを追加することで新たな入出力データセットを作成し、モデルを再学習することで出力を推定するとした。しかしながら、モデルを再学習するための判定の方法は、これらに限定されない。出力の推定値が入出力データセットに含まれる出力値に近いか否かを判定する方法であればよい。
[変形例7]
第2実施形態のモデル学習方法では、過渡状態での一致度Jtと、定常状態の一致度Jsとのそれぞれを評価するとした。しかしながら、第1実施形態の式(16)のように、重みづけを加味した計算式を用いて評価してもよい。また、第2実施形態では、過渡状態での一致度Jtを評価することで、過渡データを追加し、新たにモデルを学習するための新たな入出力データを作成するとした。定常値の予測精度を向上させるため、定常状態での一致度Jsの評価のみとし、過渡状態での一致度Jtの評価は行わなくてもよい。
以上、実施形態、変形例に基づき本態様について説明してきたが、上記した態様の実施の形態は、本態様の理解を容易にするためのものであり、本態様を限定するものではない。本態様は、その趣旨並びに特許請求の範囲を逸脱することなく、変更、改良され得ると共に、本態様にはその等価物が含まれる。また、その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜、削除することができる。
100…モデル学習装置
110,210…CPU
111…制御部
112…学習部
120…記憶部
121…モデル記憶部
122…データセット記憶部
130…ROM/RAM
140…通信部
150…入出力部
200…制御装置
213…決定部
300…システム

Claims (9)

  1. システムに入力される入力変数uと、前記システムから出力される出力変数yとの関係を表すモデルを学習するモデル学習装置であって、
    前記入力変数uを用いて前記出力変数yを予測するための非線形の状態方程式の学習に用いられるモデルを記憶するモデル記憶部と、
    前記モデルと、前記出力変数yの定常値のデータと前記定常値のデータに対応する前記入力変数uのデータとの組を含んだ入出力データセットと、を用いて前記状態方程式を学習する学習部と、を備え、
    前記モデルは、前記出力変数yを入力とする全単射な写像Φを含む状態方程式である、
    モデル学習装置。
  2. 請求項1に記載のモデル学習装置であって、
    前記モデルは、式(1)によって定義され、
    Figure 0007410901000025
    上記式において、
    等号の左辺は、前記出力変数yを表すn(nは整数)次元ベクトルの時間微分であり、
    等号の右辺のうち、
    前記入力変数uは、前記出力変数yの変化に影響を与える入力変数を表すm(mは整数)次元ベクトルであり、
    関数Aは、前記入力変数uを入力として、n×n行列を返す関数であり、
    前記写像Φは、前記出力変数yと前記入力変数uを入力としてn次元のベクトルを返す関数であり、
    関数fは、前記入力変数uを入力としてn次元のベクトルを返す関数であり、
    前記入力変数uの上にドットが付された記号は、前記入力変数uの時間微分である、
    モデル学習装置。
  3. 請求項2に記載のモデル学習装置であって、
    前記式(1)において、前記出力変数yと前記入力変数uを入力とする前記写像Φの出力を内部変数xと定義すると、
    前記学習部は、式(2)および式(3)によって定義される前記状態方程式を学習する、
    モデル学習装置。
    Figure 0007410901000026
    Figure 0007410901000027
  4. 請求項3に記載のモデル学習装置であって、
    前記写像Φは、式(4)~式(7)によって定義され、
    Figure 0007410901000028
    Figure 0007410901000029
    Figure 0007410901000030
    Figure 0007410901000031
    iは、多層ニューラルネットワークにおける層の番号であり、LΦは、多層ニューラルネットワークの層数であり、φΦは、活性化関数であり、入力と同次元の出力を返す任意の全単射な写像であり、WΦは重みであり、bΦはバイアスである、
    モデル学習装置。
  5. 請求項1から請求項4のいずれか一項に記載のモデル学習装置であって、
    前記学習部は、
    前記モデルに対して、前記入出力データセットに含まれる、前記定常値のデータに対応する入力変数uのデータを含む前記入力変数のデータセットを与えて出力を推定し、
    推定された出力と、前記入出力データセットに含まれる、前記入力変数yの定常値のデータを含む前記出力変数のデータセットとの一致度を評価し、
    評価の結果に応じて前記モデルの学習パラメータを更新することで、前記状態方程式を学習する、
    モデル学習装置。
  6. 請求項1から請求項4のいずれか一項に記載のモデル学習装置であって、
    前記学習部は、
    前記モデルに対して、前記入出力データセットに含まれる、前記定常値のデータに対応する入力変数uのデータを含む前記入力変数のデータセットを与えて出力を推定し、
    推定された出力と、前記入出力データセットに含まれる、前記入力変数yの定常値のデータを含む前記出力変数のデータセットとの一致度を評価し、
    評価の結果に応じて、前記出力の推定と前記一致度の評価に用いた前記入出力データセットに、前記出力変数yの定常値のデータと前記定常値のデータに対応する前記入力変数uのデータとの新たな組を追加することで、新たな入出力データセットを作成し、
    前記新たな入出力データセットを用いて、前記状態方程式を学習する、
    モデル学習装置。
  7. システムを制御する制御装置であって、
    請求項1から請求項6のいずれか一項に記載のモデル学習装置と、
    前記学習部が学習した前記状態方程式を用いて、前記出力変数yの目標値に対応する前記入力変数uを決定する決定部と、を備える、
    制御装置。
  8. システムに入力される入力変数uと、前記システムから出力される出力変数yとの関係を表すモデルを学習するモデル学習方法であって、
    前記入力変数uを用いて前記出力変数yを予測するための非線形の状態方程式の学習に用いられるモデルを取得する工程と、
    前記モデルと、前記出力変数yの定常値のデータと前記定常値のデータに対応する前記入力変数uのデータとの組を含んだ入出力データセットと、を用いて前記状態方程式を学習する工程と、を備え、
    前記モデルは、前記出力変数yを入力とする全単射な写像Φを含む状態方程式である、モデル学習方法。
  9. システムに入力される入力変数uと、前記システムから出力される出力変数yとの関係を表すモデルの学習を情報処理装置に実行させるコンピュータプログラムであって、
    前記入力変数uを用いて前記出力変数yを予測するための非線形の状態方程式の学習に用いられるモデルを取得する機能と、
    前記モデルと、前記出力変数yの定常値のデータと前記定常値のデータに対応する前記入力変数uのデータとの組を含んだ入出力データセットと、を用いて前記状態方程式を学習する機能と、を前記情報処理装置に実行させ、
    前記モデルは、前記出力変数yを入力とする全単射な写像Φを含む状態方程式である、コンピュータプログラム。
JP2021044033A 2021-03-17 2021-03-17 モデル学習装置、制御装置、モデル学習方法、および、コンピュータプログラム Active JP7410901B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021044033A JP7410901B2 (ja) 2021-03-17 2021-03-17 モデル学習装置、制御装置、モデル学習方法、および、コンピュータプログラム
US17/683,981 US20220300683A1 (en) 2021-03-17 2022-03-01 Model learning apparatus, control apparatus, model learning method and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021044033A JP7410901B2 (ja) 2021-03-17 2021-03-17 モデル学習装置、制御装置、モデル学習方法、および、コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2022143499A JP2022143499A (ja) 2022-10-03
JP7410901B2 true JP7410901B2 (ja) 2024-01-10

Family

ID=83283601

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021044033A Active JP7410901B2 (ja) 2021-03-17 2021-03-17 モデル学習装置、制御装置、モデル学習方法、および、コンピュータプログラム

Country Status (2)

Country Link
US (1) US20220300683A1 (ja)
JP (1) JP7410901B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180268288A1 (en) 2017-03-14 2018-09-20 General Electric Company Neural Network for Steady-State Performance Approximation
WO2020243756A1 (en) 2019-05-31 2020-12-03 Abiomed, Inc. Intra-aortic pressure forecasting

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180268288A1 (en) 2017-03-14 2018-09-20 General Electric Company Neural Network for Steady-State Performance Approximation
WO2020243756A1 (en) 2019-05-31 2020-12-03 Abiomed, Inc. Intra-aortic pressure forecasting

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
木村 駿介, 中村 文一, 伊吹 竜也, 三平 満司,状態制約を有する非線形システムに対する状態方程式を保持する変換,計測自動制御学会論文集,第53巻 第6号,公益社団法人 計測自動制御学会,2017年06月30日,pp.337-345

Also Published As

Publication number Publication date
US20220300683A1 (en) 2022-09-22
JP2022143499A (ja) 2022-10-03

Similar Documents

Publication Publication Date Title
JP5345551B2 (ja) 計算機支援による技術システムの開ループ制御および/または閉ループ制御のための方法
Hou et al. Data-efficient hierarchical reinforcement learning for robotic assembly control applications
JP5768834B2 (ja) プラントモデル管理装置及び方法
JP3743247B2 (ja) ニューラルネットワークによる予測装置
Narendra et al. Fast reinforcement learning using multiple models
JP2010524104A (ja) 技術システムをコンピュータ支援により制御および/または調整するための方法
JP2010514986A (ja) 技術システムの、とりわけガスタービンの、計算機支援による閉ループ制御および/または開ループ制御のための方法
JPWO2002063402A1 (ja) エージェント学習装置、方法、プログラム
CN111684695B (zh) 电力变换器的控制装置
WO2018143019A1 (ja) 情報処理装置、情報処理方法およびプログラム記録媒体
KR102266620B1 (ko) 로봇 물체 조작 학습 시스템
JP7410901B2 (ja) モデル学習装置、制御装置、モデル学習方法、および、コンピュータプログラム
JP7336425B2 (ja) モデル学習装置、制御装置、モデル学習方法、および、コンピュータプログラム
JP7264845B2 (ja) 制御システム及び制御方法
JP6947029B2 (ja) 制御装置、それを使用する情報処理装置、制御方法、並びにコンピュータ・プログラム
JP7196935B2 (ja) 演算装置、アクション決定方法、及び制御プログラム
WO2019142728A1 (ja) 制御装置、制御方法およびプログラム記録媒体
JP2020035325A (ja) 設計システム、学習済みモデル生成方法、および設計プログラム
JP2019125021A (ja) 情報処理装置、情報処理方法、コンピュータプログラム、内燃機関の制御装置
CN104537224A (zh) 基于自适应学习算法的多状态系统可靠性分析方法及系统
JP7227940B2 (ja) モデル学習装置、モデル学習方法、制御装置、制御方法、及びコンピュータプログラム
de Lope Ex< α>: An effective algorithm for continuous actions reinforcement learning problems
JP2020179438A (ja) 計算機システム及び機械学習方法
JP2021012600A (ja) 診断方法、学習方法、学習装置およびプログラム
Wang et al. A Traffic Prediction Method for Tactical Communication Intelligent Network Based on Cross-Domain Synergy

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231222

R150 Certificate of patent or registration of utility model

Ref document number: 7410901

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150