JP2021064222A

JP2021064222A - 方策改善方法、方策改善プログラム、および方策改善装置

Info

Publication number: JP2021064222A
Application number: JP2019188989A
Authority: JP
Inventors: 淳一重住; Junichi Shigezumi; 智丈佐々木; Tomotake Sasaki; 秀直岩根; Hidenao Iwane; 仁史屋並; Hitoshi Yanami
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2021-04-22
Also published as: US20210109491A1

Abstract

【課題】強化学習にかかる処理時間を短縮すること。【解決手段】方策改善装置１００は、制御対象１１０の状態ｘに対する状態価値関数ｖ（ｘ：θ）のパラメータＰθを推定した推定パラメータＰ＾θを算出する。方策改善装置１００は、算出した推定パラメータＰ＾θを用いて、制御対象１１０の状態ｘの空間Ｘを縮約する。方策改善装置１００は、縮約した制御対象１１０の状態ｘ〜の空間Ｘ〜に対して、方策を規定するパラメータθ〜に関する状態価値関数ｖ（ｘ：θ）の勾配∇θ〜ｖ（ｘ〜：θ〜）を推定した推定勾配∇＾θ〜ｖ（ｘ〜：θ〜）を生成する。そして、方策改善装置１００は、生成した推定勾配∇＾θ〜ｖ（ｘ〜：θ〜）を用いて、方策を規定するパラメータθ〜を更新する。【選択図】図１

Description

本発明は、方策改善方法、方策改善プログラム、および方策改善装置に関する。

従来、制御対象に対する入力に応じて発生する即時コストまたは即時報酬に基づき、累積コストまたは累積報酬によって方策を評価するための価値関数を改善し、累積コストや累積報酬が最適化されるように方策を改善していく強化学習（Ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）の技術がある。価値関数は、例えば、状態−行動価値関数（Ｑ関数）、または、状態価値関数（Ｖ関数）などである。方策の改善は、例えば、方策のパラメータを更新することに対応する。

先行技術としては、例えば、方策のパラメータを更新するための技術がある。具体的には、コンピュータが、状態価値関数を推定した推定状態価値関数に対するＴＤ誤差（ＴｅｍｐｏｒａｌＤｉｆｆｅｒｅｎｃｅＥｒｒｏｒ）を、方策を与えるフィードバック係数行列の成分それぞれに摂動を与えることにより生成する。そして、コンピュータが、ＴＤ誤差および摂動に基づき、状態に対するフィードバック係数行列に関する状態価値関数の勾配関数行列を推定した推定勾配関数行列を生成し、推定勾配関数行列を用いて、フィードバック係数行列を更新する。また、例えば、制御信号を制御対象に与え、制御対象の状態量を観測し、観測結果によりＴＤ誤差を求め、ＴＤ誤差近似器を更新し、方策を更新する技術がある。

特開２０１９−０５３５９３号公報特開２００７−０６５９２９号公報

しかしながら、従来技術では、強化学習にかかる処理時間の増加を招くことがある。例えば、制御対象の状態の次元数が大きいほど、方策のパラメータの数が多くなり、強化学習により、適切と判断される方策を得るまでにかかる処理時間の増加を招くことになる。

１つの側面では、本発明は、強化学習にかかる処理時間を短縮することを目的とする。

１つの実施態様によれば、状態価値関数による強化学習の方策改善において、前記強化学習における制御対象の即時コストまたは即時報酬が状態および入力によって規定される場合、前記制御対象の状態に対する前記状態価値関数のパラメータを推定した推定パラメータを算出し、算出した前記推定パラメータを用いて、前記制御対象の状態の空間を縮約し、縮約した前記制御対象の状態の空間に対して、前記状態価値関数を推定した推定状態価値関数に対するＴＤ誤差を、前記方策を規定するパラメータそれぞれに摂動を与えることにより生成し、生成した前記ＴＤ誤差および前記摂動に基づき、前記方策を規定するパラメータに関する前記状態価値関数の勾配を推定した推定勾配を生成し、生成した前記推定勾配を用いて、前記方策を規定するパラメータを更新する方策改善方法、方策改善プログラム、および方策改善装置が提案される。

一態様によれば、強化学習にかかる処理時間を短縮することが可能になる。

図１は、実施の形態にかかる方策改善方法の一実施例を示す説明図である。図２は、方策改善装置１００のハードウェア構成例を示すブロック図である。図３は、履歴テーブル３００の記憶内容の一例を示す説明図である。図４は、方策改善装置１００の機能的構成例を示すブロック図である。図５は、強化学習の実施例を示す説明図である。図６は、制御対象１１０の具体例を示す説明図（その１）である。図７は、制御対象１１０の具体例を示す説明図（その２）である。図８は、制御対象１１０の具体例を示す説明図（その３）である。図９は、バッチ処理形式の強化学習処理手順の一例を示すフローチャートである。図１０は、逐次処理形式の強化学習処理手順の一例を示すフローチャートである。図１１は、方策改善処理手順の一例を示すフローチャートである。図１２は、推定処理手順の一例を示すフローチャートである。図１３は、更新処理手順の一例を示すフローチャートである。

以下に、図面を参照して、本発明にかかる方策改善方法、方策改善プログラム、および方策改善装置の実施の形態を詳細に説明する。

（実施の形態にかかる方策改善方法の一実施例）
図１は、実施の形態にかかる方策改善方法の一実施例を示す説明図である。方策改善装置１００は、方策（ｐｏｌｉｃｙ）を改善し、方策によって制御対象１１０に対する入力（ｉｎｐｕｔ）を決定することにより、制御対象１１０を制御するコンピュータである。方策改善装置１００は、例えば、サーバやＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、マイクロコントローラなどである。

制御対象１１０は、何らかの事象であり、例えば、現実に存在する物理系である。制御対象１１０は、環境（ｅｎｖｉｒｏｎｍｅｎｔ）とも呼ばれる。制御対象１１０は、具体的には、サーバルーム、空調設備、発電設備、または、産業用機械などである。方策は、所定のパラメータにより、制御対象１１０に対する入力値を決定する方程式である。方策は、制御則（ｃｏｎｔｒｏｌｌａｗ）とも呼ばれる。所定のパラメータは、例えば、フィードバック係数行列である。

方策の改善は、方策のパラメータの更新に対応する。方策の改善は、例えば、累積コストや累積報酬がより効率よく最適化されるように方策を変更することである。入力（ｉｎｐｕｔ）は、制御対象１１０に対する操作である。入力は、行動（ａｃｔｉｏｎ）とも呼ばれる。制御対象１１０に対する入力に応じて、制御対象１１０の状態（ｓｔａｔｅ）が変化し、また、即時コストまたは即時報酬が発生する。制御対象１１０の状態、および、即時コストまたは即時報酬は、観測可能である。

従来、方策を改善する様々な手法が考えられているが、いずれの手法でも、強化学習を効率よく行うことは難しく、強化学習にかかる処理時間の増加を抑制することは難しい。

例えば、上記特許文献１を参考に、方策のパラメータそれぞれに摂動を与え、ＴＤ誤差を求め、ＴＤ誤差および摂動に基づき、方策のパラメータを更新していくことにより、方策を改善する手法が考えられる。この手法でも、強化学習を効率よく行うことは難しく、強化学習にかかる処理時間の増加を抑制することは難しい。例えば、制御対象１１０の状態の次元数が大きいほど、方策のパラメータの数が多くなり、強化学習により、適切と判断される方策を得るまでにかかる処理時間の増加を抑制することができない。

これに対し、下記参考文献１を参考に、フルランク行列を用いて、状態の空間を射影し、制御対象１１０を表すＬＱＲ問題（ＬｉｎｅａｒＱｕａｄｒａｔｉｃＲｅｇｕｌａｔｏｒｐｒｏｂｌｅｍ）を射影ＬＱＲ問題に変換することにより、方策のパラメータの数を低減した上で、方策のパラメータを更新していく手法が考えられる。

参考文献１：Ｇｕｌｄｏｇａｎ，Ｙａｐｒａｋ，ｅｔａｌ． “Ｌｏｗｒａｎｋａｐｐｒｏｘｉｍａｔｅｓｏｌｕｔｉｏｎｓｔｏｌａｒｇｅ−ｓｃａｌｅｄｉｆｆｅｒｅｎｔｉａｌｍａｔｒｉｘＲｉｃｃａｔｉｅｑｕａｔｉｏｎｓ．” ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１６１２．００４９９（２０１６）．

しかしながら、この手法は、ＬＱＲ問題を規定する具体的な方程式が未知である場合には適用することができず、強化学習を効率よく行うことは難しく、強化学習にかかる処理時間の増加を抑制することはできない。例えば、この手法は、ＬＱＲ問題における、線形状態方程式を規定する係数行列と、コスト関数を規定する係数行列とが未知である場合には適用することができない。

そこで、本実施の形態では、問題が既知な場合や問題が線形な場合などに限らず、状態の空間を縮約し、方策のパラメータの数を低減することにより、強化学習を効率よく行い、強化学習にかかる処理時間を短縮することができる方策改善方法について説明する。

図１の例では、制御対象１１０の状態をｘとし、制御対象１１０への入力をｕとし、制御対象１１０の即時コストをｃとする。また、時刻ｔにおける、制御対象１１０の状態をｘ_ｔとし、制御対象１１０への入力をｕ_ｔとし、制御対象１１０の即時コストをｃ_ｔとする。制御対象１１０の状態ｘ_ｔは、直接観測可能である。

ここでは、制御対象１１０の状態変化の仕方は、未知であるとする。制御対象１１０の状態変化は、状態関数（出力関数）で規定される。状態関数は、関数の形が既知であるものの、係数などといった関数のパラメータが未知である関数である。

また、即時コストｃ_ｔの発生の仕方は、未知であるとする。即時コストｃ_ｔの発生の仕方は、状態ｘ_ｔおよび入力ｕ_ｔを用いて、コスト関数で規定される。コスト関数は、関数の形が既知であるものの、係数などといった関数のパラメータが未知である関数である。

方策改善装置１００は、ｎ次元の状態ｘを、ｎ’次元の状態ｘ^〜に縮約する縮約関数Ｖ（ｘ）を記憶する。ここで、ｎ＞ｎ’である。便宜上、例えば図中および式中などに表記されるｘの上部に〜を付した記号を、文中では「ｘ^〜」と示す。以下の説明では、状態ｘが存在する多次元空間を、「状態ｘの空間Ｘ」と表記する場合がある。また、状態ｘ^〜が存在する多次元空間を、「状態ｘ^〜の空間Ｘ^〜」と表記する場合がある。

また、方策改善装置１００は、制御対象１１０の状態ｘに対する状態価値関数ｖ（ｘ：θ）を記憶する。また、方策改善装置１００は、方策を記憶する。方策は、下記式（１）が示す状態フィードバック関数ｆ（ｘ^〜：θ^〜）で規定される。便宜上、例えば図中および式中などに表記されるθの上部に〜を付した記号を、文中では「θ^〜」と示す。θ^〜は、状態フィードバック関数ｆ（ｘ^〜：θ^〜）のパラメータである。θ^〜は、例えば、複数のパラメータ要素の配列である。

図１において、（１−１）方策改善装置１００は、制御対象１１０の状態ｘに対する状態価値関数ｖ（ｘ：θ）のパラメータＰ_θを推定した推定パラメータＰ＾_θを算出する。便宜上、例えば図中および式中などに表記されるＰ_θの上部に∧を付した記号を、文中では「Ｐ＾_θ」と示す。そして、方策改善装置１００は、算出した推定パラメータＰ＾_θを用いて、制御対象１１０の状態ｘの空間Ｘを縮約する。

方策改善装置１００は、例えば、データ｛ｘ_ｔ，ｃ_ｔ｝を取得する都度、データベースに蓄積する。ここで、方策改善装置１００は、データ｛ｘ_ｔ，ｃ_ｔ｝が一定以上蓄積されるまでは、現状の方策ｕ_ｔ＝ｆ（ｘ^〜：θ^〜）と、現状の縮約関数Ｖ（ｘ）とに基づいて、入力ｕ_ｔを決定し、制御対象１１０に対して出力することを繰り返す。これにより、方策改善装置１００は、新たなデータ｛ｘ_ｔ，ｃ_ｔ｝を取得していく。

その後、方策改善装置１００は、データ｛ｘ_ｔ，ｃ_ｔ｝が一定以上蓄積されると、蓄積したデータ｛ｘ_ｔ，ｃ_ｔ｝_ｔから、推定パラメータＰ＾_θを算出する。データ｛・｝_ｔは、複数の時刻のデータ｛・｝の集まりを示す。そして、方策改善装置１００は、算出した推定パラメータＰ＾_θを用いて、縮約関数Ｖ（ｘ）を更新し、制御対象１１０の状態ｘの空間Ｘを制御対象１１０の状態ｘ^〜の空間Ｘ^〜に縮約する。

（１−２）方策改善装置１００は、縮約した制御対象１１０の状態ｘ^〜の空間Ｘ^〜に対して、方策を規定するパラメータθ^〜に関する状態価値関数ｖ（ｘ：θ）の勾配∇_θ〜ｖ（ｘ^〜：θ^〜）を推定した推定勾配∇＾_θ〜ｖ（ｘ^〜：θ^〜）を生成する。便宜上、例えば図中および式中などに表記される∇に下付文字θ^〜を付した記号を、文中では「∇_θ〜」と示す。また、便宜上、例えば図中および式中などに表記される∇_θ〜ｖの上部に∧を付した記号を、文中では「∇＾_θ〜ｖ」と示す。そして、方策改善装置１００は、生成した推定勾配∇＾_θ〜ｖ（ｘ^〜：θ^〜）を用いて、下記式（２）によって、方策を規定するパラメータθ^〜を更新する。

方策改善装置１００は、例えば、縮約した制御対象１１０の状態ｘ^〜の空間Ｘ^〜におけるデータ｛（ｘ^〜 _ｔ＝Ｖ（ｘ_ｔ）），ｃ_ｔ｝_ｔから、推定状態価値関数ｖ＾_θ〜（ｘ^〜：θ^〜）を求め、推定勾配∇＾_θ〜ｖ（ｘ^〜：θ^〜）を求める。便宜上、例えば図中および式中などに表記されるｖに下付文字θ^〜を付した記号を、文中では「ｖ_θ〜」と示す。また、便宜上、例えば図中および式中などに表記されるｖ_θ〜の上部に∧を付した記号を、文中では「ｖ＾_θ〜」と示す。そして、方策改善装置１００は、求めた推定勾配∇＾_θ〜ｖ（ｘ^〜：θ^〜）を用いて、上記式（２）によって、方策を規定するパラメータθ^〜を更新する。

方策改善装置１００は、具体的には、方策を規定するパラメータθ^〜に摂動を与え、縮約した制御対象１１０の状態ｘ^〜の空間Ｘ^〜に対して、データ｛（ｘ^〜 _ｔ＝Ｖ（ｘ_ｔ）），ｃ_ｔ｝_ｔから、推定状態価値関数ｖ＾（ｘ^〜：θ^〜）を求め、ＴＤ誤差を生成する。次に、方策改善装置１００は、生成したＴＤ誤差および摂動に基づき、推定勾配∇＾_θ〜ｖ（ｘ^〜：θ^〜）を生成する。そして、方策改善装置１００は、生成した推定勾配∇＾_θ〜ｖ（ｘ^〜：θ^〜）を用いて、上記式（２）によって、方策を規定するパラメータθ^〜を更新する。

（１−３）方策改善装置１００は、更新後の方策ｕ_ｔ＝ｆ（ｘ^〜：θ^〜）と、更新後の縮約関数Ｖ（ｘ）とに基づいて、入力ｕ_ｔを算出し、制御対象１１０に対して出力する。これによれば、方策改善装置１００は、更新後の方策ｕ_ｔ＝ｆ（ｘ^〜：θ^〜）に従って、制御対象１１０を制御することができる。

これにより、方策改善装置１００は、制御対象１１０を表す問題が線形ではない場合や制御対象１１０を表す問題が既知ではない場合などにも、方策を規定するパラメータθ^〜の要素数の低減化を図ることができる。このため、方策改善装置１００は、強化学習における学習効率の向上を図ることができ、強化学習にかかる処理時間の短縮化を図ることができる。

ここでは、方策改善装置１００が、方策ｕ_ｔ＝ｆ（ｘ^〜：θ^〜）に従って、入力ｕ_ｔを決定し、制御対象１１０に対して出力する場合について説明したが、これに限らない。例えば、方策改善装置１００が、方策ｕ_ｔ＝ｆ（ｘ^〜：θ^〜）に従って、入力ｕ_ｔを決定し、制御対象１１０に対して出力する他のコンピュータと協働する場合があってもよい。

また、ここでは、方策改善装置１００が、制御対象１１０での即時コストを取得し、強化学習に用いる場合について説明したが、これに限らない。例えば、方策改善装置１００が、制御対象１１０での即時報酬を取得し、強化学習に用いる場合があってもよい。

（方策改善装置１００のハードウェア構成例）
次に、図２を用いて、図１に示した方策改善装置１００のハードウェア構成例について説明する。

図２は、方策改善装置１００のハードウェア構成例を示すブロック図である。図２において、方策改善装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１と、メモリ２０２と、ネットワークＩ／Ｆ（Ｉｎｔｅｒｆａｃｅ）２０３と、記録媒体Ｉ／Ｆ２０４と、記録媒体２０５とを有する。また、各構成部は、バス２００によってそれぞれ接続される。

ここで、ＣＰＵ２０１は、方策改善装置１００の全体の制御を司る。メモリ２０２は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびフラッシュＲＯＭなどを有する。具体的には、例えば、フラッシュＲＯＭやＲＯＭが各種プログラムを記憶し、ＲＡＭがＣＰＵ２０１のワークエリアとして使用される。メモリ２０２に記憶されるプログラムは、ＣＰＵ２０１にロードされることで、コーディングされている処理をＣＰＵ２０１に実行させる。

ネットワークＩ／Ｆ２０３は、通信回線を通じてネットワーク２１０に接続され、ネットワーク２１０を介して他のコンピュータに接続される。そして、ネットワークＩ／Ｆ２０３は、ネットワーク２１０と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークＩ／Ｆ２０３は、例えば、モデムやＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）アダプタなどである。

記録媒体Ｉ／Ｆ２０４は、ＣＰＵ２０１の制御に従って記録媒体２０５に対するデータのリード／ライトを制御する。記録媒体Ｉ／Ｆ２０４は、例えば、ディスクドライブ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポートなどである。記録媒体２０５は、記録媒体Ｉ／Ｆ２０４の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体２０５は、例えば、ディスク、半導体メモリ、ＵＳＢメモリなどである。記録媒体２０５は、方策改善装置１００から着脱可能であってもよい。

方策改善装置１００は、上述した構成部の他、例えば、キーボード、マウス、ディスプレイ、タッチパネル、プリンタ、スキャナ、マイク、スピーカーなどを有してもよい。また、方策改善装置１００は、記録媒体Ｉ／Ｆ２０４や記録媒体２０５を複数有していてもよい。また、方策改善装置１００は、記録媒体Ｉ／Ｆ２０４や記録媒体２０５を有していなくてもよい。

（履歴テーブル３００の記憶内容）
次に、図３を用いて、履歴テーブル３００の記憶内容の一例について説明する。履歴テーブル３００は、例えば、図２に示した方策改善装置１００のメモリ２０２や記録媒体２０５などの記憶領域により実現される。

図３は、履歴テーブル３００の記憶内容の一例を示す説明図である。図３に示すように、履歴テーブル３００は、時刻と、状態と、縮約状態と、入力と、コストとのフィールドを有する。履歴テーブル３００は、時刻ごとに各フィールドに情報を設定することにより、履歴情報がレコード３００−ａとして記憶される。ａは、任意の整数である。

時刻のフィールドには、制御対象１１０に入力を印加する時刻が設定される。時刻のフィールドには、例えば、単位時間の倍数で示される時刻が設定される。状態のフィールドには、時刻のフィールドに設定された時刻における制御対象１１０の状態が設定される。縮約状態のフィールドには、状態のフィールドに設定された状態を、縮約関数により縮約して得られる状態が設定される。入力のフィールドには、時刻のフィールドに設定された時刻において制御対象１１０に印加された入力が設定される。コストのフィールドには、時刻のフィールドに設定された時刻において観測された即時コストが設定される。

履歴テーブル３００は、強化学習において、即時コストではなく即時報酬を用いるような場合には、コストのフィールドに代わり、報酬のフィールドを有してもよい。報酬のフィールドには、時刻のフィールドに設定された時刻において観測された即時報酬が設定される。

（方策改善装置１００の機能的構成例）
次に、図４を用いて、方策改善装置１００の機能的構成例について説明する。

図４は、方策改善装置１００の機能的構成例を示すブロック図である。方策改善装置１００は、記憶部４００と、観測部４０１と、縮約部４０２と、更新部４０３と、決定部４０４と、出力部４０５とを含む。

記憶部４００は、例えば、図２に示したメモリ２０２や記録媒体２０５などの記憶領域によって実現される。以下では、記憶部４００が、方策改善装置１００に含まれる場合について説明するが、これに限らない。例えば、記憶部４００が、方策改善装置１００とは異なる装置に含まれ、記憶部４００の記憶内容が方策改善装置１００から参照可能である場合があってもよい。

観測部４０１〜出力部４０５は、制御部の一例として機能する。観測部４０１〜出力部４０５は、具体的には、例えば、図２に示したメモリ２０２や記録媒体２０５などの記憶領域に記憶されたプログラムをＣＰＵ２０１に実行させることにより、または、ネットワークＩ／Ｆ２０３により、その機能を実現する。各機能部の処理結果は、例えば、図２に示したメモリ２０２や記録媒体２０５などの記憶領域に記憶される。

記憶部４００は、各機能部の処理において参照され、または更新される各種情報を記憶する。記憶部４００は、制御対象１１０の入力と、状態と、即時コストまたは即時報酬とを蓄積する。即時コストまたは即時報酬は、例えば、状態および入力によって規定される。即時コストまたは即時報酬は、具体的には、状態および入力の２次形式で規定される。制御対象１１０の状態変化は、例えば、線形な差分方程式で規定される。また、記憶部４００は、縮約した状態を蓄積してもよい。記憶部４００は、例えば、時刻ごとに、制御対象１１０の入力と、状態と、縮約した状態と、即時コストまたは即時報酬とを、図３に示した履歴テーブル３００を用いて記憶する。これにより、記憶部４００は、制御対象１１０の入力と、状態と、縮約した状態と、即時コストまたは即時報酬とを、各機能部が参照可能にすることができる。

制御対象１１０は、例えば、空調設備である場合がある。この場合、入力は、例えば、空調設備の設定温度と、空調設備の設定風量との少なくともいずれかである。状態は、例えば、空調設備がある部屋の内部の温度と、空調設備がある部屋の外部の温度と、気候との少なくともいずれかである。コストは、例えば、空調設備の消費電力量である。制御対象１１０が、空調設備である場合については、具体的には、図６を用いて後述する。

制御対象１１０は、例えば、発電設備である場合がある。発電設備は、例えば、風力発電設備である。この場合、入力は、例えば、発電設備の発電機トルクである。状態は、例えば、発電設備の発電量と、発電設備のタービンの回転量と、発電設備のタービンの回転速度と、発電設備に対する風向と、発電設備に対する風速との少なくともいずれかである。報酬は、例えば、発電設備の発電量である。制御対象１１０が、発電設備である場合については、具体的には、図７を用いて後述する。

制御対象１１０は、例えば、産業用ロボットである場合がある。この場合、入力は、例えば、産業用ロボットのモータートルクである。状態は、例えば、産業用ロボットの撮影した画像と、産業用ロボットの関節位置と、産業用ロボットの関節角度と、産業用ロボットの関節角速度との少なくともいずれかである。報酬は、例えば、産業用ロボットの生産量である。生産量は、例えば、組み立て数である。組み立て数は、例えば、産業用ロボットが組み立てた製品の数である。制御対象１１０が、産業用ロボットである場合については、具体的には、図８を用いて後述する。

記憶部４００は、方策パラメータを記憶してもよい。記憶部４００は、例えば、方策のパラメータを記憶する。パラメータは、例えば、フィードバック係数行列である。これにより、記憶部４００は、所定のタイミングで更新される、方策のパラメータを記憶しておくことができる。また、記憶部４００は、方策のパラメータを、各機能部が参照可能にすることができる。記憶部４００は、縮約関数を記憶してもよい。これにより、記憶部４００は、縮約関数を、各機能部が参照可能にすることができる。

観測部４０１は、各機能部の処理に用いられる各種情報を取得する。観測部４０１は、取得した各種情報を、記憶部４００に記憶し、または、各機能部に出力する。また、観測部４０１は、記憶部４００に記憶しておいた各種情報を、各機能部に出力してもよい。観測部４０１は、例えば、利用者の操作入力に基づき、各種情報を取得する。観測部４０１は、例えば、方策改善装置１００とは異なる装置から、各種情報を受信してもよい。

観測部４０１は、制御対象１１０の状態と、即時コストまたは即時報酬とを観測し、記憶部４００に出力する。観測部４０１は、具体的には、図９に後述するステップＳ９０２または図１１に後述するステップＳ１１０３において、制御対象１１０の状態と、即時コストまたは即時報酬とを観測する。これにより、観測部４０１は、制御対象１１０の状態と、即時コストまたは即時報酬とを記憶部４００に蓄積させることができる。

縮約部４０２は、制御対象１１０の状態に対する状態価値関数のパラメータを推定した推定パラメータを算出する。縮約部４０２は、例えば、一括最小二乗法、逐次最小二乗法、一括ＬＳＴＤアルゴリズム、逐次ＬＳＴＤアルゴリズムなどを用いて、推定状態価値関数の推定パラメータを更新することにより、推定状態価値関数を更新する。これにより、縮約部４０２は、推定状態価値関数を、方策を規定するパラメータを更新するために参照可能にすることができる。また、縮約部４０２は、状態価値関数を改善することができる。

一括最小二乗法、逐次最小二乗法、一括ＬＳＴＤアルゴリズム、逐次ＬＳＴＤアルゴリズムなどについては、下記参考文献２や下記参考文献３を参照することができる。

参考文献２：Ｙ．ＺｈｕａｎｄＸ．Ｒ．Ｌｉ．Ｒｅｃｕｒｓｉｖｅｌｅａｓｔｓｑｕａｒｅｓｗｉｔｈｌｉｎｅａｒｃｏｎｓｔｒａｉｎｔｓ．ＣｏｍｍｕｎｉｃａｔｉｏｎｓｉｎＩｎｆｏｒｍａｔｉｏｎａｎｄＳｙｓｔｅｍｓ，ｖｏｌ．７，ｎｏ．３，ｐｐ．２８７−３１２，２００７．

参考文献３：ＣｈｒｉｓｔｏｐｈＤａｎｎａｎｄＧｅｒｈａｒｄＮｅｕｍａｎｎａｎｄＪａｎＰｅｔｅｒｓ．ＰｏｌｉｃｙＥｖａｌｕａｔｉｏｎｗｉｔｈＴｅｍｐｏｒａｌＤｉｆｆｅｒｅｎｃｅｓ：ＡＳｕｒｖｅｙａｎｄＣｏｍｐａｒｉｓｏｎ．ＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，ｖｏｌ．１５，ｐｐ．８０９−８８３，２０１４．

また、縮約部４０２は、線形問題であれば、制御対象１１０の状態に対する状態価値関数の係数行列を推定した推定係数行列を生成する。縮約部４０２は、例えば、一括最小二乗法、逐次最小二乗法、一括ＬＳＴＤアルゴリズム、逐次ＬＳＴＤアルゴリズムなどを用いて、推定状態価値関数の推定係数行列を更新することにより、推定状態価値関数を更新する。縮約部４０２は、具体的には、図９に後述するステップＳ９０４において、推定状態価値関数の推定係数行列を更新することにより、推定状態価値関数を更新する。これにより、縮約部４０２は、推定状態価値関数を、方策を規定するフィードバック係数行列を更新するために参照可能にすることができる。また、縮約部４０２は、状態価値関数を改善することができる。

縮約部４０２は、算出した推定パラメータを用いて、制御対象１１０の状態の空間を縮約する。縮約部４０２は、例えば、算出した推定パラメータを用いて、縮約関数を更新することにより、制御対象１１０の状態の空間を縮約する。これにより、縮約部４０２は、縮約関数により、制御対象１１０の状態の空間を縮約し、強化学習を効率よく行うことを可能にすることができる。

また、縮約部４０２は、線形問題であれば、生成した推定係数行列を用いて、制御対象１１０の状態の空間を縮約する。縮約部４０２は、具体的には、図９に後述するステップＳ９０４において、推定係数行列から、対角化または特異値分解などにより、基底行列を生成し、基底行列の列のうち、固有値または特異値が０である列を除去することにより、縮約行列を生成する。縮約行列を生成する具体例については、例えば、図５を用いて後述する。これにより、縮約部４０２は、縮約関数により、制御対象１１０の状態の空間を縮約し、強化学習を効率よく行うことを可能にすることができる。

更新部４０３は、縮約した制御対象１１０の状態の空間に対して、状態価値関数を推定した推定状態価値関数に対するＴＤ誤差を、方策を規定するパラメータそれぞれに摂動を与えることにより生成する。これにより、更新部４０３は、方策を規定するパラメータそれぞれについて、摂動に対する反応度合いを示す偏微分の結果を取得可能にすることができる。

更新部４０３は、線形問題であれば、縮約した制御対象１１０の状態の空間に対して、状態価値関数を推定した推定状態価値関数に対するＴＤ誤差を、方策を規定するフィードバック係数行列の成分それぞれに摂動を与えることにより生成する。更新部４０３は、例えば、図１１に後述するステップＳ１１０２〜Ｓ１１０４において、方策を与えるフィードバック係数行列の成分それぞれに摂動を与える。そして、更新部４０３は、図１１に後述するステップＳ１１０５、および図１２に後述するステップＳ１２０１において、摂動に対応する、状態価値関数を推定した推定状態価値関数に対するＴＤ誤差を生成する。これにより、更新部４０３は、フィードバック係数行列の各成分について、摂動に対する反応度合いを示す偏微分の結果を取得可能にすることができる。

更新部４０３は、縮約した制御対象１１０の状態の空間に対して、生成したＴＤ誤差および摂動に基づき、方策を規定するパラメータに関する状態価値関数の勾配を推定した推定勾配を生成する。更新部４０３は、例えば、即時コストまたは即時報酬が状態および入力によって規定されることを利用し、ＴＤ誤差および摂動に基づき、推定勾配を生成する。これにより、更新部４０３は、推定勾配に基づいて、方策のパラメータを更新可能にすることができる。

更新部４０３は、線形問題であれば、縮約した制御対象１１０の状態の空間に対して、生成したＴＤ誤差および摂動に基づき、フィードバック係数行列に関する状態価値関数の勾配関数行列を推定した推定勾配関数行列を生成する。更新部４０３は、例えば、制御対象１１０の状態変化が線形な差分方程式で規定され、かつ、制御対象１１０の即時コストまたは即時報酬が状態および入力の２次形式で規定されることを利用し、ＴＤ誤差および摂動に基づき、推定勾配関数行列を生成する。

更新部４０３は、具体的には、フィードバック係数行列の各成分について生成されたＴＤ誤差を摂動で除算した結果と、状態価値関数をフィードバック係数行列の各成分で微分した結果とを対応付けて、勾配関数行列の各成分を推定した推定成分を生成する。ここで、更新部４０３は、状態価値関数をフィードバック係数行列の各成分で微分した結果を、状態に依存するベクトルと、状態に依存しないベクトルとの積で規定する。

更新部４０３は、より具体的には、図１２に後述するステップＳ１２０２〜Ｓ１２０５において、勾配関数行列の各成分を推定した推定成分を、任意の状態を代入可能な形式で生成する。そして、更新部４０３は、図１３に後述するステップＳ１３０１において、勾配関数行列を推定した推定勾配関数行列を生成する。ここで、更新部４０３は、フィードバック係数行列の各成分について生成されたＴＤ誤差を摂動で除算した結果と、状態価値関数をフィードバック係数行列の各成分で微分した結果とを対応付けて形成される後述する式（２７）を用いる。

ここで、更新部４０３は、勾配関数行列の各成分を推定した推定成分を生成する際に、一括最小二乗法、逐次最小二乗法、一括ＬＳＴＤアルゴリズム、逐次ＬＳＴＤアルゴリズムなどを用いてもよい。これにより、更新部４０３は、任意の状態を代入可能な推定勾配関数行列を生成することができる。また、更新部４０３は、推定勾配関数行列に基づいて、フィードバック係数行列を更新可能にすることができる。

更新部４０３は、生成した推定勾配を用いて、方策を規定するパラメータを更新する。更新部４０３は、例えば、上記式（２）によって、推定勾配を用いて、方策を規定するパラメータを更新する。これにより、更新部４０３は、推定勾配に基づき、方策を規定するパラメータを更新し、方策を改善することができる。

更新部４０３は、線形問題であれば、生成した推定勾配関数行列を用いて、フィードバック係数行列を更新する。更新部４０３は、例えば、図１３に後述するステップＳ１３０２において、推定勾配関数行列を用いて、フィードバック係数行列を更新する。これにより、更新部４０３は、状態を代入した推定勾配関数行列の推定値に基づき、フィードバック係数行列を更新し、方策を改善することができる。

決定部４０４は、更新したパラメータを用いた方策に基づいて、制御対象１１０に対する入力値を決定し、制御対象１１０に対して出力する。これにより、決定部４０４は、累積コストや累積報酬を最適化することができる入力値を決定することができ、制御対象１１０を制御することができる。

決定部４０４は、線形問題であれば、更新したフィードバック係数行列を用いた方策に基づいて、制御対象１１０に対する入力値を決定し、制御対象１１０に対して出力する。これにより、決定部４０４は、累積コストや累積報酬を最適化することができる入力値を決定することができ、制御対象１１０を制御することができる。

出力部４０５は、少なくともいずれかの機能部の処理結果を出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、ネットワークＩ／Ｆ２０３による外部装置への送信、または、メモリ２０２や記録媒体２０５などの記憶領域への記憶である。出力部４０５は、例えば、更新した方策を出力する。出力部４０５は、例えば、更新した方策のパラメータを出力する。出力部４０５は、具体的には、更新したフィードバック係数行列を出力する。これにより、出力部４０５は、他のコンピュータで、制御対象１１０を制御可能にすることができる。

（強化学習の実施例）
次に、図５を用いて、強化学習の実施例について説明する。

図５は、強化学習の実施例を示す説明図である。実施例は、制御対象１１０が、線形システムであり、強化学習により解かれる、制御対象１１０を表す問題が、線形問題である場合に対応する。

実施例において、制御対象１１０の状態変化が、線形差分方程式で規定され、かつ、制御対象１１０の即時コストまたは即時報酬が、制御対象１１０の状態および制御対象１１０への入力の２次形式で規定される。例えば、下記式（３）〜下記式（１１）によって、制御対象１１０の状態方程式と、即時コストの２次形式の方程式と、方策とが規定され、問題設定が行われる。実施例において、制御対象１１０の状態は、直接観測可能である。

上記式（３）は、制御対象１１０の状態方程式である。ｔは、単位時間の倍数で示される時刻である。ｔ＋１は、時刻ｔから単位時間経過した次の時刻である。ｘ_ｔ＋１は、次の時刻ｔ＋１における状態である。ｘ_ｔは、時刻ｔにおける状態である。ｕ_ｔは、時刻ｔにおける入力である。Ａ、Ｂは、係数行列である。上記式（３）は、次の時刻ｔ＋１における状態ｘ_ｔ＋１が、時刻ｔにおける状態ｘ_ｔと、時刻ｔにおける入力ｕ_ｔによって決定される関係があることを示す。係数行列Ａ，Ｂは、未知である。

上記式（４）は、状態ｘ_０が、ｎ次元であることを示す。ｎは、既知である。

上記式（５）は、入力ｕ_ｔが、ｍ次元であることを示す。

上記式（６）は、係数行列Ａが、ｎ×ｎ次元である（ｎ行ｎ列である）ことを示し、係数行列Ｂが、ｎ×ｍ次元である（ｎ行ｍ列である）ことを示す。

上記式（７）は、制御対象１１０の即時コストの方程式である。ｃ_ｔは、時刻ｔにおける入力ｕ_ｔに応じて単位時間後に発生する即時コストである。上付き文字Ｔは、転置を示す。上記式（７）は、即時コストｃ_ｔが、時刻ｔにおける状態ｘ_ｔと、時刻ｔにおける入力ｕ_ｔとの２次形式によって決定される関係があることを示す。係数行列Ｑ，Ｒは、未知である。即時コストｃ_ｔは、直接観測可能である。

上記式（８）は、係数行列Ｑが、ｎ×ｎ次元であることを示す。≧０は、半正定値対称行列を示す。また、上記式（８）は、係数行列Ｒが、ｍ×ｍ次元であることを示す。＞０は、正定値対称行列を示す。

上記式（９）は、方策を示す。Ｆ^〜は、フィードバック係数行列であって、状態ｘ_ｔに関する係数行列を示す。上記式（９）は、時刻ｔにおける状態ｘ_ｔに基づいて、時刻ｔにおける入力ｕ_ｔを決定する方程式である。

上記式（１０）は、フィードバック係数行列Ｆ^〜が、ｍ×ｎ’次元であることを示す。

上記式（１１）は、状態価値関数を示す。制御対象１１０の状態変化が、線形差分方程式で規定され、かつ、制御対象１１０の即時コストまたは即時報酬が、制御対象１１０の状態および制御対象１１０への入力の２次形式で規定される場合、状態価値関数は、上記式（１１）のように２次形式で表現される。Ｐ_Ｆは、状態価値関数の係数行列である。

方策改善装置１００は、ｎ次元の状態ｘを、ｎ’次元の状態ｘ^〜に縮約する縮約行列Ｖを記憶する。縮約行列Ｖは、ｎ×ｎ’次元行列である。ここで、ｎ＞ｎ’である。縮約行列Ｖは、例えば、初期状態では、単位行列である。次に、方策改善装置１００が、状態ｘの空間Ｘを縮約し、フィードバック係数行列Ｆ^〜を更新する流れについて説明する。

図５において、（５−１）方策改善装置１００は、状態価値関数ｖ（ｘ：Ｆ）の係数行列Ｐ_Ｆを推定した推定係数行列Ｐ＾_Ｆを生成する。便宜上、例えば図中および式中などに表記されるＰ_Ｆの上部に∧を付した記号を、文中では「Ｐ＾_Ｆ」と示す。

方策改善装置１００は、例えば、データ｛ｘ_ｔ，ｃ_ｔ｝を取得する都度、データベースに蓄積する。ここで、方策改善装置１００は、データ｛ｘ_ｔ，ｃ_ｔ｝が一定以上蓄積されるまでは、現状の方策ｕ_ｔ＝Ｆ^〜ｘ^〜 _ｔと、現状の縮約行列Ｖとに基づいて、状態ｘ_ｔを状態ｘ^〜 _ｔに縮約し、入力ｕ_ｔを決定し、制御対象１１０に対して出力することを繰り返す。これにより、方策改善装置１００は、新たなデータ｛ｘ_ｔ，ｃ_ｔ｝を取得していく。その後、方策改善装置１００は、データ｛ｘ_ｔ，ｃ_ｔ｝が一定以上蓄積されると、蓄積したデータ｛ｘ_ｔ，ｃ_ｔ｝_ｔから、推定係数行列Ｐ＾_Ｆを生成する。

（５−２）方策改善装置１００は、生成した推定係数行列Ｐ＾_Ｆを用いて、制御対象１１０の状態ｘの空間Ｘを縮約する。方策改善装置１００は、例えば、生成した推定係数行列Ｐ＾_Ｆを用いて、縮約行列Ｖを更新し、制御対象１１０の状態ｘの空間Ｘを制御対象１１０の状態ｘ^〜の空間Ｘ^〜に縮約する。

方策改善装置１００は、具体的には、下記式（１２）によって、推定係数行列Ｐ＾_Ｆについて、対角化または特異値分解などを行い、基底行列Ｖ_０を生成する。そして、方策改善装置１００は、基底行列Ｖ_０の列のうち、対応するΣの固有値または特異値が０である列を除去した結果を、新たな縮約行列Ｖとして生成し、現状の縮約行列Ｖを更新する。方策改善装置１００は、更新した縮約行列Ｖを用いて、制御対象１１０の状態ｘの空間Ｘを制御対象１１０の状態ｘ^〜の空間Ｘ^〜に縮約する。

（５−３）方策改善装置１００は、縮約した制御対象１１０の状態ｘ^〜の空間Ｘ^〜に対して、フィードバック係数行列Ｆ^〜に関する状態価値関数ｖ（ｘ：Ｆ）の勾配行列∇_Ｆ〜ｖ（ｘ^〜：Ｆ^〜）を推定した推定勾配関数行列∇＾_Ｆ〜ｖ（ｘ^〜：Ｆ^〜）を生成する。便宜上、例えば図中および式中などに表記される∇に下付文字Ｆ^〜を付した記号を、文中では「∇_Ｆ〜」と示す。また、便宜上、例えば図中および式中などに表記される∇_Ｆ〜ｖの上部に∧を付した記号を、文中では「∇＾_Ｆ〜ｖ」と示す。

方策改善装置１００は、例えば、縮約した制御対象１１０の状態ｘ^〜の空間Ｘ^〜におけるデータ｛（ｘ^〜 _ｔ＝Ｖ^Ｔｘ_ｔ），ｃ_ｔ｝_ｔから、推定状態価値関数ｖ＾_Ｆ〜（ｘ^〜：Ｆ^〜）を求め、推定勾配関数行列∇＾_Ｆ〜ｖ（ｘ^〜：Ｆ^〜）を求める。便宜上、例えば図中および式中などに表記されるｖに下付文字Ｆ^〜を付した記号を、文中では「ｖ_Ｆ〜」と示す。また、便宜上、例えば図中および式中などに表記されるｖ_Ｆ〜の上部に∧を付した記号を、文中では「ｖ＾_Ｆ〜」と示す。

方策改善装置１００は、具体的には、フィードバック係数行列Ｆ^〜の成分それぞれに摂動を与えることにより、縮約した制御対象１１０の状態ｘ^〜の空間Ｘ^〜に対して、データ｛ｘ^〜 _ｔ＝Ｖ^Ｔｘ_ｔ），ｃ_ｔ｝_ｔを収集する。次に、方策改善装置１００は、収集したデータ｛ｘ^〜 _ｔ＝Ｖ^Ｔｘ_ｔ），ｃ_ｔ｝_ｔから、推定状態価値関数ｖ＾_Ｆ〜（ｘ^〜：Ｆ^〜）を求め、推定状態価値関数ｖ＾_Ｆ〜（ｘ^〜：Ｆ^〜）に対するＴＤ誤差を生成する。そして、方策改善装置１００は、生成したＴＤ誤差および摂動に基づき、推定勾配関数行列∇＾_Ｆ〜ｖ（ｘ^〜：Ｆ^〜）を生成する。

（５−４）方策改善装置１００は、生成した推定勾配関数行列∇＾_Ｆ〜ｖ（ｘ^〜：Ｆ^〜）を用いて、方策を規定するフィードバック係数行列Ｆ^〜を更新する。方策改善装置１００は、例えば、生成した推定勾配関数行列∇＾_Ｆ〜ｖ（ｘ^〜：Ｆ^〜）を用いて、下記式（１３）によって、方策を規定するフィードバック係数行列Ｆ^〜を更新する。下記式（１３）は、例えば、強化学習に即時コストを用いる場合に対応する更新則である。αは、重みである。

ここで、方策改善装置１００は、強化学習に即時報酬を用いる場合には、生成した推定勾配関数行列∇＾_Ｆ〜ｖ（ｘ^〜：Ｆ^〜）を用いて、下記式（１４）によって、方策を規定するフィードバック係数行列Ｆ^〜を更新するようにしてもよい。αは、重みである。

（５−５）方策改善装置１００は、更新後の方策ｕ_ｔ＝Ｆ^〜ｘ^〜 _ｔと、更新後の縮約行列Ｖとに基づいて、入力ｕ_ｔを算出し、制御対象１１０に対して出力する。これによれば、方策改善装置１００は、更新後の方策ｕ_ｔ＝Ｆ^〜ｘ^〜 _ｔに従って、制御対象１１０を制御することができる。次に、方策改善装置１００が、推定勾配関数行列∇＾_Ｆ〜ｖ（ｘ^〜：Ｆ^〜）を生成し、フィードバック係数行列Ｆ^〜を更新する具体例について説明する。

（フィードバック係数行列Ｆ^〜を更新する具体例）
方策改善装置１００は、縮約した制御対象１１０の状態ｘ^〜の空間Ｘ^〜において、フィードバック係数行列Ｆ^〜の（ｉ，ｊ）の成分Ｆ^〜 _ｉｊに摂動を加える。便宜上、例えば図中および式中などに表記されるＦ_ｉｊの上部に〜を付した記号を、文中では「Ｆ^〜 _ｉｊ」と示す。（ｉ，ｊ）は、行列の成分を特定するインデックスである。インデックス（ｉ，ｊ）は、例えば、フィードバック係数行列Ｆ^〜のｉ行ｊ列の成分を特定する。

方策改善装置１００は、具体的には、フィードバック係数行列Ｆ^〜＋εＥ^〜 _ｉｊの数式によって、フィードバック係数行列Ｆ^〜の（ｉ，ｊ）の成分Ｆ^〜 _ｉｊに摂動を加える。便宜上、例えば図中および式中などに表記されるＥ_ｉｊの上部に〜を付した記号を、文中では「Ｅ^〜 _ｉｊ」と示す。Ｅ^〜 _ｉｊは、インデックス（ｉ，ｊ）で特定される成分が１、その成分以外の成分が０であるｍ×ｎ’次元行列である。εは、実数である。

方策改善装置１００は、上記式（９）のフィードバック係数行列Ｆ^〜に代わり、摂動を加えたフィードバック係数行列Ｆ^〜＋εＥ^〜 _ｉｊを用いて、入力を生成する。ここで、ＴＤ誤差は、フィードバック係数行列Ｆ^〜の（ｉ，ｊ）の成分Ｆ^〜 _ｉｊに関する状態価値関数の偏微分係数（ｐａｒｔｉａｌｄｉｆｆｅｒｅｎｔｉａｌｃｏｅｆｆｉｃｉｅｎｔ）によって表現することができる。

さらに、状態価値関数が、上記式（１１）のように２次形式で表現されるため、状態価値関数を、フィードバック係数行列Ｆ^〜の（ｉ，ｊ）の成分Ｆ^〜 _ｉｊで偏微分した関数∂ｖ／∂Ｆ^〜 _ｉｊ（ｘ^〜：Ｆ^〜）は、下記式（１５）のように２次形式で表現される。以下の説明では、偏微分した関数を「偏導関数（ｐａｒｔｉａｌｄｅｒｉｖａｔｉｖｅ）」と表記する場合がある。

方策改善装置１００は、上記式（１５）を利用し、フィードバック係数行列Ｆ^〜の（ｉ，ｊ）の成分Ｆ^〜 _ｉｊに関する偏導関数∂ｖ／∂Ｆ^〜 _ｉｊ（ｘ^〜：Ｆ^〜）を推定した推定関数∂ｖ＾／∂Ｆ^〜 _ｉｊ（ｘ^〜：Ｆ^〜）を算出する。便宜上、例えば図中および式中などに表記される∂ｖ／∂Ｆ^〜 _ｉｊの上部に∧を付した記号を、文中では「∂ｖ＾／∂Ｆ^〜 _ｉｊ」と示す。推定関数∂ｖ＾／∂Ｆ^〜 _ｉｊ（ｘ^〜：Ｆ^〜）は、例えば、偏導関数∂ｖ／∂Ｆ^〜 _ｉｊ（ｘ^〜：Ｆ^〜）の上部に∧を付して、下記式（１６）のように記載される場合がある。

方策改善装置１００は、フィードバック係数行列Ｆ^〜のそれぞれの成分に摂動を加え、同様に、偏導関数∂ｖ／∂Ｆ^〜 _ｉｊ（ｘ^〜：Ｆ^〜）を推定した推定関数∂ｖ＾／∂Ｆ^〜 _ｉｊ（ｘ^〜：Ｆ^〜）を算出する。そして、方策改善装置１００は、算出した推定関数∂ｖ＾／∂Ｆ^〜 _ｉｊ（ｘ^〜：Ｆ^〜）を用いて、フィードバック係数行列Ｆ^〜の勾配関数行列∇_Ｆ〜ｖ（ｘ^〜：Ｆ^〜）を推定した推定勾配関数行列∇＾_Ｆ〜ｖ（ｘ^〜：Ｆ^〜）を生成する。以下、推定勾配関数行列∇＾_Ｆ〜ｖ（ｘ^〜：Ｆ^〜）は、例えば、勾配関数行列∇_Ｆ〜ｖ（ｘ^〜：Ｆ^〜）の上部に∧を付して、下記式（１７）のように記載される場合がある。

これにより、方策改善装置１００は、ある時刻に、勾配関数行列∇_Ｆ〜ｖ（ｘ^〜：Ｆ^〜）を推定した推定勾配関数行列∇＾_Ｆ〜ｖ（ｘ^〜：Ｆ^〜）を任意の状態ｘを代入可能な形式で算出することができる。そして、方策改善装置１００は、その時刻以降は、ある状態ｘについて勾配関数行列∇_Ｆ〜ｖ（ｘ^〜：Ｆ^〜）の推定値を算出する場合、算出済みの推定勾配関数行列∇＾_Ｆ〜ｖ（ｘ^〜：Ｆ^〜）に、その状態ｘを代入すればよくなる。

このように、方策改善装置１００は、ある状態ｘに対する勾配関数行列∇_Ｆ〜ｖ（ｘ^〜：Ｆ^〜）の推定値ではなく、ある時刻以降に利用可能である勾配関数行列∇_Ｆ〜ｖ（ｘ^〜：Ｆ^〜）を推定した推定勾配関数行列∇＾_Ｆ〜ｖ（ｘ^〜：Ｆ^〜）を生成することができる。このため、方策改善装置１００は、様々な状態ｘについて勾配関数行列∇_Ｆ〜ｖ（ｘ^〜：Ｆ^〜）の推定値を算出することを比較的容易にすることができ、処理量の低減化を図ることができる。

これにより、方策改善装置１００は、制御対象１１０を表す問題が線形ではない場合や制御対象１１０を表す問題が既知ではない場合などにも、方策を規定するフィードバック係数行列Ｆ^〜の成分数の低減化を図ることができる。このため、方策改善装置１００は、強化学習における学習効率の向上を図ることができ、強化学習にかかる処理時間の短縮化を図ることができる。

次に、状態の空間を縮約する妥当性について説明する。以上の説明では、縮約行列Ｖを生成する際に、状態価値関数ｖ（ｘ：Ｆ）の係数行列Ｐ_Ｆを推定した推定係数行列Ｐ＾_Ｆを用いている。ここで、係数行列Ｐ_Ｆと、フィードバック係数行列Ｆとの間には、下記式（１８）で示す関係が成立するため、係数行列Ｐ_Ｆは、フィードバック係数行列Ｆと無関係ではなく、フィードバック係数行列Ｆとの比較的強い関係を有することになる。

また、推定係数行列Ｐ＾_Ｆは、実データから直接推定した行列である。例えば、推定係数行列Ｐ＾_Ｆは、過去の状態ｘ_１，・・・と過去の即時コストｃ_１，・・・との実データから、最小二乗法などにより直接推定した行列であり、制御対象１１０と無関係ではなく、制御対象１１０との関係を有する。

また、係数行列Ｐ_Ｆは、フィードバック係数行列Ｆとの比較的強い関係を有するため、係数行列Ｐ_Ｆを縮約することと、フィードバック係数行列Ｆを縮約することとは関係を有する。例えば、係数行列Ｐ_Ｆの縮約を表す左辺と、フィードバック係数行列Ｆの縮約を表す右辺とが等しいという下記式（１９）が成立する。このため、状態ｘの空間Ｘが縮約行列Ｖで縮約可能な場合、Ｖ^＋Ｐ_ＦＶによって縮約可能である。ここで、上付の＋は、疑似逆行列を示す。

ここで、下記式（２０）によれば、遷移行列Ａ＋ＢＦは、制御対象１１０である線形システムに関連し、下記式（２１）によれば、目的関数Ｑ＋Ｆ^ＴＲＦは、目的関数に関連する。そして、上記式（１８）によれば、係数行列Ｐ_Ｆは、遷移行列Ａ＋ＢＦと、目的関数Ｑ＋Ｆ^ＴＲＦとを用いて規定される。γは、係数である。

このため、遷移行列Ａ＋ＢＦと、目的関数Ｑ＋Ｆ^ＴＲＦとの両方のランクが小さければ、係数行列Ｐ_Ｆのランクも小さくなるという性質が存在する。換言すれば、遷移行列Ａ＋ＢＦと、目的関数Ｑ＋Ｆ^ＴＲＦとの両方が縮約可能であれば、係数行列Ｐ_Ｆも縮約可能であるという性質がある。以上から、推定係数行列Ｐ＾_Ｆを用いれば、状態の空間を縮約し、フィードバック係数行列Ｆを縮約する目的に適した縮約行列Ｖが得られやすいと考えられる。

（制御対象１１０の具体例）
次に、図６〜図８を用いて、制御対象１１０の具体例について説明する。

図６〜図８は、制御対象１１０の具体例を示す説明図である。図６の例では、制御対象１１０は、熱源であるサーバ６０１と、ＣＲＡＣ（ＣｏｍｐｕｔｅｒＲｏｏｍＡｉｒＣｏｎｄｉｔｉｏｎｅｒ）やＣｈｉｌｌｅｒなどの冷却器６０２とを含むサーバルーム６００である。入力は、冷却器６０２に対する設定温度や設定風量である。状態は、サーバルーム６００に設けられたセンサ装置からのセンサデータなどであり、例えば、温度などである。状態は、制御対象１１０以外から得られる制御対象１１０に関するデータであってもよく、例えば、気温や天気などであってもよい。即時コストは、例えば、サーバルーム６００の単位時間ごとの消費電力量である。単位時間は、例えば、５分である。目標は、サーバルーム６００の累積消費電力量の最小化である。状態価値関数は、例えば、サーバルーム６００の累積消費電力量についての状態の価値を表す。

方策改善装置１００は、フィードバック係数行列Ｆの成分数を低減した上で、累積コストである累積消費電力量を効率よく最小化するように、フィードバック係数行列Ｆを更新することができる。このため、方策改善装置１００は、制御対象１１０の累積消費電力量が最小化されるまでにかかる時間の低減化を図ることができ、サーバルーム６００の運営コストの低減化を図ることができる。また、方策改善装置１００は、サーバ６０１の使用状況の変化および気温の変化などが発生した場合も、その変化から比較的短い時間で、累積消費電力量を効率よく最小化することができる。

ここでは、即時コストが、サーバルーム６００の単位時間ごとの消費電力量である場合について説明したが、これに限らない。即時コストは、例えば、サーバルーム６００の目標とする室温と現在の室温との誤差の二乗和であってもよい。目標は、例えば、サーバルーム６００の目標とする室温と現在の室温との誤差の二乗和の累積値の最小化であってもよい。状態価値関数は、例えば、目標とする室温と現在の室温との誤差に関する状態の価値を表す。

図７の例では、制御対象１１０は、発電機７００である。発電機７００は、例えば、風力発電機である。入力は、発電機７００に対する指令値である。指令値は、例えば、発電機トルクである。状態は、発電機７００に設けられたセンサ装置からのセンサデータであり、例えば、発電機７００の発電量や発電機７００のタービンの回転量または回転速度などである。状態は、発電機７００に対する風向や風速などであってもよい。即時報酬は、例えば、発電機７００の単位時間ごとの発電量である。単位時間は、例えば、５分である。目標は、例えば、発電機７００の累積発電量の最大化である。状態価値関数は、例えば、発電機７００の累積発電量についての状態の価値を表す。

方策改善装置１００は、フィードバック係数行列Ｆの成分数を低減した上で、累積報酬である累積発電量を効率よく最大化するように、フィードバック係数行列Ｆを更新することができる。このため、方策改善装置１００は、制御対象１１０の累積発電量が最大化されるまでにかかる時間の低減化を図ることができ、発電機７００の利益の増大化を図ることができる。また、方策改善装置１００は、発電機７００の状況の変化などが発生した場合も、その変化から比較的短い時間で、累積発電量を効率よく最大化することができる。

図８の例では、制御対象１１０は、産業用ロボット８００である。産業用ロボット８００は、例えば、ロボットアームである。入力は、産業用ロボット８００に対する指令値である。指令値は、例えば、産業用ロボット８００のモータートルクなどである。状態は、産業用ロボット８００に設けられたセンサ装置からのセンサデータであり、例えば、産業用ロボット８００の撮影した画像、産業用ロボット８００の関節位置や関節角度や関節角速度などである。即時報酬は、例えば、産業用ロボット８００の単位時間ごとの組み立て数などである。目標は、産業用ロボット８００の生産性の最大化である。状態価値関数は、例えば、産業用ロボット８００の累積組み立て数についての状態の価値を表す。

方策改善装置１００は、フィードバック係数行列Ｆの成分数を低減した上で、累積報酬である累積組み立て数を効率よく最大化するように、フィードバック係数行列Ｆを更新することができる。このため、方策改善装置１００は、制御対象１１０の累積組み立て数が最大化されるまでにかかる時間の低減化を図ることができ、産業用ロボット８００の利益の増大化を図ることができる。また、方策改善装置１００は、産業用ロボット８００の状況の変化などが発生した場合も、その変化から比較的短い時間で、累積組み立て数を効率よく最大化することができる。

また、制御対象１１０は、上述した具体例のシミュレータであってもよい。また、制御対象１１０は、風力発電以外の発電設備であってもよい。また、制御対象１１０は、例えば、化学プラントなどであってもよい。また、制御対象１１０は、例えば、自律移動体などであってもよい。自律移動体は、例えば、ドローン、ヘリコプター、自律移動ロボット、自動車などである。また、制御対象１１０は、ゲームであってもよい。

（強化学習処理手順の一例）
次に、図９および図１０を用いて、強化学習処理手順の一例について説明する。

図９は、バッチ処理形式の強化学習処理手順の一例を示すフローチャートである。図９において、まず、方策改善装置１００は、フィードバック係数行列Ｆ^〜と、基底行列Ｖとを初期化し、状態ｘ_０を観測し、入力ｕ_０を決定する（ステップＳ９０１）。基底行列Ｖは、例えば、単位行列に初期化される。基底行列Ｖは、縮約行列Ｖとして扱われ、更新される。

次に、方策改善装置１００は、前回の入力ｕ_ｔ−１に応じた、状態ｘ_ｔと、即時コストｃ_ｔ−１とを観測し、入力ｕ_ｔ＝Ｆ^〜ｘ^〜 _ｔ（ｘ^〜 _ｔ＝Ｖ^Ｔｘ_ｔ）を算出する（ステップＳ９０２）。そして、方策改善装置１００は、ステップＳ９０２をＮ回繰り返したか否かを判定する（ステップＳ９０３）。

ここで、Ｎ回繰り返していない場合（ステップＳ９０３：Ｎｏ）、方策改善装置１００は、ステップＳ９０２の処理に戻る。一方で、Ｎ回繰り返している場合（ステップＳ９０３：Ｙｅｓ）、方策改善装置１００は、ステップＳ９０４の処理に移行する。

方策改善装置１００は、状態ｘ_ｔ，ｘ_ｔ−１，・・・，ｘ_{ｔ−Ｎ−１}と、即時コストｃ_ｔ−１，ｃ_ｔ−２，・・・，ｃ_{ｔ−Ｎ−２}とに基づいて、状態価値関数の推定関数と、基底行列Ｖとを更新する。また、方策改善装置１００は、下記式（２２）に基づいて、フィードバック係数行列Ｆ^〜を更新する（ステップＳ９０４）。Ｖ_ｏｌｄは、更新前の基底行列Ｖであり、Ｖ_ｎｅｗは、更新後の基底行列Ｖである。

次に、方策改善装置１００は、状態価値関数の推定関数に基づいて、フィードバック係数行列Ｆ^〜を更新する（ステップＳ９０５）。そして、方策改善装置１００は、ステップＳ９０２の処理に戻る。これにより、方策改善装置１００は、制御対象１１０を制御することができる。

図１０は、逐次処理形式の強化学習処理手順の一例を示すフローチャートである。図１０において、まず、方策改善装置１００は、フィードバック係数行列Ｆ^〜と状態価値関数の推定関数と基底行列Ｖとを初期化し、状態ｘ_０を観測し、入力ｕ_０を決定する（ステップＳ１００１）。基底行列Ｖは、例えば、単位行列に初期化される。基底行列Ｖは、縮約行列Ｖとして扱われ、更新される。

次に、方策改善装置１００は、前回の入力ｕ_ｔ−１に応じた、状態ｘ_ｔと、即時コストｃ_ｔ−１とを観測し、入力ｕ_ｔ＝Ｆ^〜ｘ^〜 _ｔ（ｘ^〜 _ｔ＝Ｖ^Ｔｘ_ｔ）を算出する（ステップＳ１００２）。そして、方策改善装置１００は、状態ｘ_ｔ，ｘ_ｔ−１と、即時コストｃ_ｔ−１とに基づいて、状態価値関数の推定関数と、基底行列Ｖとを更新し、また、上記式（２２）に基づいて、フィードバック係数行列Ｆ^〜を更新する（ステップＳ１００３）。

次に、方策改善装置１００は、ステップＳ１００３をＮ回繰り返したか否かを判定する（ステップＳ１００４）。ここで、Ｎ回繰り返していない場合（ステップＳ１００４：Ｎｏ）、方策改善装置１００は、ステップＳ１００２の処理に戻る。一方で、Ｎ回繰り返している場合（ステップＳ１００４：Ｙｅｓ）、方策改善装置１００は、ステップＳ１００５の処理に移行する。

次に、方策改善装置１００は、状態価値関数の推定関数に基づいて、フィードバック係数行列Ｆ^〜を更新する（ステップＳ１００５）。そして、方策改善装置１００は、ステップＳ１００２の処理に戻る。これにより、方策改善装置１００は、制御対象１１０を制御することができる。

（方策改善処理手順の一例）
次に、図１１を用いて、ステップＳ９０５の具体例であって、方策改善装置１００がフィードバック係数行列Ｆ^〜を更新し、方策を改善する方策改善処理手順の一例について説明する。

図１１は、方策改善処理手順の一例を示すフローチャートである。図１１において、まず、方策改善装置１００は、下記式（２３）に基づいて、インデックスセットＳを初期化する（ステップＳ１１０１）。

（ｉ，ｊ）は、行列の成分を特定するインデックスである。インデックス（ｉ，ｊ）は、例えば、行列のｉ行ｊ列の成分を特定する。以下の説明では、ｍは、フィードバック係数行列Ｆ^〜の行数である。ｎは、フィードバック係数行列Ｆ^〜の列数である。

次に、方策改善装置１００は、インデックスセットＳから、インデックス（ｉ，ｊ）を取り出す（ステップＳ１１０２）。そして、方策改善装置１００は、コストｃ_ｔ−１と状態ｘ_ｔとを観測し、下記式（２４）に基づいて、入力ｕ_ｔを算出する（ステップＳ１１０３）。

次に、方策改善装置１００は、ステップＳ１１０３をＮ’回繰り返したか否かを判定する（ステップＳ１１０４）。ここで、Ｎ’回繰り返していない場合（ステップＳ１１０４：Ｎｏ）、方策改善装置１００は、ステップＳ１１０３の処理に戻る。一方で、Ｎ’回繰り返している場合（ステップＳ１１０４：Ｙｅｓ）、方策改善装置１００は、ステップＳ１１０５の処理に移行する。

次に、方策改善装置１００は、係数Ｆ^〜 _ｉｊに関する状態価値関数の偏導関数の推定関数を、状態ｘ_ｔ，ｘ_ｔ−１，・・・，ｘ_{ｔ−Ｎ’−１}と即時コストｃ_ｔ−１，ｃ_ｔ−２，・・・，ｃ_{ｔ−Ｎ’−２}と状態価値関数の推定関数とを用いて算出する（ステップＳ１１０５）。

そして、方策改善装置１００は、インデックスセットＳが空であるか否かを判定する（ステップＳ１１０６）。ここで、空ではない場合（ステップＳ１１０６：Ｎｏ）、方策改善装置１００は、ステップＳ１１０２の処理に戻る。一方で、空である場合（ステップＳ１１０６：Ｙｅｓ）、方策改善装置１００は、ステップＳ１１０７の処理に移行する。

次に、方策改善装置１００は、推定勾配関数行列を用いて、フィードバック係数行列Ｆ^〜を更新する（ステップＳ１１０７）。そして、方策改善装置１００は、方策改善処理を終了する。ここでは、方策改善装置１００が、上記式（２４）に基づいて、フィードバック係数行列Ｆ^〜に摂動を加えることにより、入力ｕ_ｔを算出する場合について説明したが、これに限らない。例えば、方策改善装置１００が、摂動を加える他の手法を用いる場合があってもよい。

（推定処理手順の一例）
次に、図１２を用いて、ステップＳ１１０５の具体例であって、係数Ｆ_ｉｊに関する状態価値関数の偏導関数の推定関数を算出する推定処理手順の一例について説明する。

図１２は、推定処理手順の一例を示すフローチャートである。図１２において、まず、方策改善装置１００は、状態ｘ_ｔ，ｘ_ｔ−１，・・・，ｘ_{ｔ−Ｎ’−１}を縮約し、下記式（２５）に基づいて、ＴＤ誤差δ_ｔ−１，・・・，δ_{ｔ−Ｎ’−２}を算出する（ステップＳ１２０１）。

次に、方策改善装置１００は、下記式（２６）に基づいて、ＴＤ誤差δ_ｔ−１，・・・，δ_{ｔ−Ｎ’−２}を、摂動εで除算した結果を取得する（ステップＳ１２０２）。

次に、方策改善装置１００は、下記式（２７）に基づいて、一括最小二乗法によって、ベクトルθ_Ｆ〜ｉｊ ^Ｆ〜の推定ベクトルθ＾_Ｆ〜ｉｊ ^Ｆ〜を算出する（ステップＳ１２０３）。便宜上、例えば図中および式中などに表記されるθに下付文字Ｆ^〜 _ｉｊと上付文字Ｆ^〜とを付した記号を、文中では「θ_Ｆ〜ｉｊ ^Ｆ〜」と示す。また、便宜上、例えば図中および式中などに表記されるθ_Ｆ〜ｉｊ ^Ｆ〜の上部に∧を付した記号を、文中では「θ＾_Ｆ〜ｉｊ ^Ｆ〜」と示す。

Ｔは、転置を示す。○と×を重ねた記号は、クロネッカー積を示す。†は、ムーア−ペンローズ（Ｍｏｏｒｅ−Ｐｅｎｒｏｓｅ）の一般化逆行列を示す。

上記式（２７）は、上記式（２６）に対応するベクトルと、状態に依存しないベクトルθ_Ｆ〜ｉｊ ^Ｆ〜の推定ベクトルθ＾_Ｆ〜ｉｊ ^Ｆ〜および下記式（２８）で規定される状態に依存する行列の積との近似等式を形成し、その近似等式を変形することにより得られる。

ここで、状態に依存しないベクトルθ_Ｆ〜ｉｊ ^Ｆ〜の推定ベクトルθ＾_Ｆ〜ｉｊ ^Ｆ〜および上記式（２８）で規定される状態に依存する行列の積は、状態価値関数をフィードバック係数行列Ｆ^〜の（ｉ，ｊ）成分で微分した結果に対応する。

次に、方策改善装置１００は、下記式（２９）に基づいて、ベクトルθ_Ｆ〜ｉｊ ^Ｆ〜の推定ベクトルθ＾_Ｆ〜ｉｊ ^Ｆ〜を用いて、行列∂Ｐ_Ｆ〜／∂Ｆ^〜 _ｉｊの推定行列∂Ｐ＾_Ｆ〜／∂Ｆ^〜 _ｉｊを生成する（ステップＳ１２０４）。便宜上、例えば図中および式中などに表記される∂Ｐ_Ｆ〜／∂Ｆ^〜 _ｉｊの上部に∧を付した記号を、文中では「∂Ｐ＾_Ｆ〜／∂Ｆ^〜 _ｉｊ」と示す。

ｖｅｃ^−１は、ベクトルを行列に逆変換する記号である。

次に、方策改善装置１００は、下記式（３０）に基づいて、状態価値関数をＦ^〜 _ｉｊによって偏微分した偏導関数∂ｖ／∂Ｆ^〜 _ｉｊの推定関数∂ｖ＾／∂Ｆ^〜 _ｉｊを算出する（ステップＳ１２０５）。そして、方策改善装置１００は、推定処理を終了する。

（更新処理手順の一例）
次に、図１３を用いて、ステップＳ１１０７の具体例であって、方策改善装置１００がフィードバック係数行列Ｆ^〜を更新する更新処理手順の一例について説明する。

図１３は、更新処理手順の一例を示すフローチャートである。図１３において、方策改善装置１００は、下記式（３１）に基づいて、偏導関数∂ｖ／∂Ｆ^〜 _ｉｊの推定関数∂ｖ＾／∂Ｆ^〜 _ｉｊを用いて、フィードバック係数行列Ｆ^〜の勾配関数行列∇_Ｆ〜ｖ（ｘ^〜：Ｆ^〜）を推定した推定勾配関数行列∇＾_Ｆ〜ｖ（ｘ^〜：Ｆ^〜）を生成する（ステップＳ１３０１）。

次に、方策改善装置１００は、上記式（１３）に基づいて、フィードバック係数行列Ｆ^〜を更新する（ステップＳ１３０２）。そして、方策改善装置１００は、更新処理を終了する。これにより、方策改善装置１００は、状態価値関数を改善し、累積コストや累積報酬が効率よく最適化されるように、フィードバック係数行列Ｆ^〜を更新することができる。また、方策改善装置１００は、任意のｘが代入可能な推定勾配関数行列を生成することができる。

ここでは、方策改善装置１００が、即時コストに基づく強化学習を実現する場合について説明したが、これに限らない。例えば、方策改善装置１００が、即時報酬に基づく強化学習を実現する場合があってもよい。この場合、方策改善装置１００は、上記式（１３）に代わり、上記式（１４）を用いるようにする。

ここで、図９および図１０に示した強化学習処理を開始する開始トリガーは、例えば、利用者による所定の操作入力があったことである。開始トリガーは、例えば、他のコンピュータから、所定の信号を受信したことであってもよい。開始トリガーは、例えば、方策改善装置１００内で所定の信号が生成されたことであってもよい。

以上説明したように、方策改善装置１００によれば、制御対象１１０の状態に対する状態価値関数のパラメータを推定した推定パラメータを算出することができる。方策改善装置１００によれば、算出した推定パラメータを用いて、制御対象１１０の状態の空間を縮約することができる。方策改善装置１００によれば、縮約した制御対象１１０の状態の空間に対して、状態価値関数を推定した推定状態価値関数に対するＴＤ誤差を、方策を規定するパラメータそれぞれに摂動を与えることにより生成することができる。方策改善装置１００によれば、生成したＴＤ誤差および摂動に基づき、方策を規定するパラメータに関する状態価値関数の勾配を推定した推定勾配を生成することができる。方策改善装置１００によれば、生成した推定勾配を用いて、方策を規定するパラメータを更新することができる。これにより、方策改善装置１００は、制御対象１１０を表す問題が線形ではない場合や制御対象１１０を表す問題が既知ではない場合などにも、方策を規定するパラメータの要素数の低減化を図ることができる。このため、方策改善装置１００は、強化学習における学習効率の向上を図ることができ、強化学習にかかる処理時間の短縮化を図ることができる。

方策改善装置１００によれば、制御対象１１０の状態に対する状態価値関数の係数行列を推定した推定係数行列を生成することができる。方策改善装置１００によれば、生成した推定係数行列を用いて、制御対象１１０の状態の空間を縮約することができる。方策改善装置１００によれば、縮約した制御対象１１０の状態の空間に対して、状態価値関数を推定した推定状態価値関数に対するＴＤ誤差を、方策を規定するフィードバック係数行列の成分それぞれに摂動を与えることにより生成することができる。方策改善装置１００によれば、生成したＴＤ誤差および摂動に基づき、フィードバック係数行列に関する状態価値関数の勾配関数行列を推定した推定勾配関数行列を生成することができる。方策改善装置１００によれば、生成した推定勾配関数行列を用いて、フィードバック係数行列を更新することができる。これにより、方策改善装置１００は、制御対象１１０を表す問題が線形である場合に適用することができる。

方策改善装置１００によれば、空調設備の設定温度と空調設備の設定風量との少なくともいずれかを入力として用いることができる。方策改善装置１００によれば、空調設備がある部屋の内部の温度と空調設備がある部屋の外部の温度と気候との少なくともいずれかを状態として用いることができる。方策改善装置１００によれば、空調設備の消費電力量をコストとして用いることができる。これにより、方策改善装置１００は、制御対象１１０が空調設備である場合に適用することができる。

方策改善装置１００によれば、発電設備の発電機トルクを入力として用いることができる。方策改善装置１００によれば、発電設備の発電量と発電設備のタービンの回転量と発電設備のタービンの回転速度と発電設備に対する風向と発電設備に対する風速との少なくともいずれかを状態として用いることができる。方策改善装置１００によれば、発電設備の発電量を報酬として用いることができる。これにより、方策改善装置１００は、制御対象１１０が、発電設備である場合に適用することができる。

方策改善装置１００によれば、産業用ロボットのモータートルクを入力として用いることができる。方策改善装置１００によれば、産業用ロボットの撮影した画像と産業用ロボットの関節位置と産業用ロボットの関節角度と産業用ロボットの関節角速度との少なくともいずれかを状態として用いることができる。方策改善装置１００によれば、産業用ロボットの生産量を報酬として用いることができる。これにより、方策改善装置１００は、制御対象１１０が、産業用ロボットである場合に適用することができる。

方策改善装置１００によれば、更新後の方策のパラメータを出力することができる。これにより、方策改善装置１００は、更新後の方策のパラメータを他のコンピュータで参照可能にすることができ、他のコンピュータで制御対象１１０を制御可能にすることができる。

なお、本実施の形態で説明した方策改善方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本実施の形態で説明した方策改善プログラムは、ハードディスク、フレキシブルディスク、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）−ＲＯＭ、ＭＯ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本実施の形態で説明した方策改善プログラムは、インターネット等のネットワークを介して配布してもよい。

上述した実施の形態に関し、さらに以下の付記を開示する。

（付記１）状態価値関数による強化学習の方策改善方法であって、
前記強化学習における制御対象の即時コストまたは即時報酬が状態および入力によって規定される場合、前記制御対象の状態に対する前記状態価値関数のパラメータを推定した推定パラメータを算出し、
算出した前記推定パラメータを用いて、前記制御対象の状態の空間を縮約し、
縮約した前記制御対象の状態の空間に対して、前記状態価値関数を推定した推定状態価値関数に対するＴＤ誤差を、前記方策を規定するパラメータそれぞれに摂動を与えることにより生成し、
生成した前記ＴＤ誤差および前記摂動に基づき、前記方策を規定するパラメータに関する前記状態価値関数の勾配を推定した推定勾配を生成し、
生成した前記推定勾配を用いて、前記方策を規定するパラメータを更新する、
処理をコンピュータが実行することを特徴とする方策改善方法。

（付記２）前記制御対象の状態変化が線形な差分方程式で規定され、かつ、前記制御対象の即時コストまたは即時報酬が状態および入力の２次形式で規定される場合、前記制御対象の状態に対する前記状態価値関数の係数行列を推定した推定係数行列を生成し、
生成した前記推定係数行列を用いて、前記制御対象の状態の空間を縮約し、
縮約した前記制御対象の状態の空間に対して、前記状態価値関数を推定した推定状態価値関数に対するＴＤ誤差を、前記方策を規定するフィードバック係数行列の成分それぞれに摂動を与えることにより生成し、
生成した前記ＴＤ誤差および前記摂動に基づき、前記フィードバック係数行列に関する前記状態価値関数の勾配関数行列を推定した推定勾配関数行列を生成し、
生成した前記推定勾配関数行列を用いて、前記フィードバック係数行列を更新する、
処理を前記コンピュータが実行することを特徴とする付記１に記載の方策改善方法。

（付記３）前記制御対象は、空調設備であり、
前記強化学習は、前記空調設備の設定温度と前記空調設備の設定風量との少なくともいずれかを入力とし、前記空調設備がある部屋の内部の温度と前記空調設備がある部屋の外部の温度と気候との少なくともいずれかを状態とし、前記空調設備の消費電力量をコストとする、ことを特徴とする付記１または２に記載の方策改善方法。

（付記４）前記制御対象は、発電設備であり、
前記強化学習は、前記発電設備の発電機トルクを入力とし、前記発電設備の発電量と前記発電設備のタービンの回転量と前記発電設備のタービンの回転速度と前記発電設備に対する風向と前記発電設備に対する風速との少なくともいずれかを状態とし、前記発電設備の発電量を報酬とする、ことを特徴とする付記１または２に記載の方策改善方法。

（付記５）前記制御対象は、産業用ロボットであり、
前記強化学習は、前記産業用ロボットのモータートルクを入力とし、前記産業用ロボットの撮影した画像と前記産業用ロボットの関節位置と前記産業用ロボットの関節角度と前記産業用ロボットの関節角速度との少なくともいずれかを状態とし、前記産業用ロボットの生産量を報酬とする、ことを特徴とする付記１または２に記載の方策改善方法。

（付記６）更新後の前記方策のパラメータを出力する、
処理を前記コンピュータが実行することを特徴とする付記１または２に記載の方策改善方法。

（付記７）状態価値関数による強化学習の方策改善プログラムであって、
前記強化学習における制御対象の即時コストまたは即時報酬が状態および入力によって規定される場合、前記制御対象の状態に対する前記状態価値関数のパラメータを推定した推定パラメータを算出し、
算出した前記推定パラメータを用いて、前記制御対象の状態の空間を縮約し、
縮約した前記制御対象の状態の空間に対して、前記状態価値関数を推定した推定状態価値関数に対するＴＤ誤差を、前記方策を規定するパラメータそれぞれに摂動を与えることにより生成し、
生成した前記ＴＤ誤差および前記摂動に基づき、前記方策を規定するパラメータに関する前記状態価値関数の勾配を推定した推定勾配を生成し、
生成した前記推定勾配を用いて、前記方策を規定するパラメータを更新する、
処理をコンピュータに実行させることを特徴とする方策改善プログラム。

（付記８）状態価値関数による強化学習の方策改善装置であって、
前記強化学習における制御対象の即時コストまたは即時報酬が状態および入力によって規定される場合、前記制御対象の状態に対する前記状態価値関数のパラメータを推定した推定パラメータを算出し、
算出した前記推定パラメータを用いて、前記制御対象の状態の空間を縮約し、
縮約した前記制御対象の状態の空間に対して、前記状態価値関数を推定した推定状態価値関数に対するＴＤ誤差を、前記方策を規定するパラメータそれぞれに摂動を与えることにより生成し、
生成した前記ＴＤ誤差および前記摂動に基づき、前記方策を規定するパラメータに関する前記状態価値関数の勾配を推定した推定勾配を生成し、
生成した前記推定勾配を用いて、前記方策を規定するパラメータを更新する、
制御部を有することを特徴とする方策改善装置。

１００方策改善装置
１１０制御対象
２００バス
２０１ＣＰＵ
２０２メモリ
２０３ネットワークＩ／Ｆ
２０４記録媒体Ｉ／Ｆ
２０５記録媒体
２１０ネットワーク
３００履歴テーブル
４００記憶部
４０１観測部
４０２縮約部
４０３更新部
４０４決定部
４０５出力部
６００サーバルーム
６０１サーバ
６０２冷却器
７００発電機
８００産業用ロボット

Claims

状態価値関数による強化学習の方策改善方法であって、
前記強化学習における制御対象の即時コストまたは即時報酬が状態および入力によって規定される場合、前記制御対象の状態に対する前記状態価値関数のパラメータを推定した推定パラメータを算出し、
算出した前記推定パラメータを用いて、前記制御対象の状態の空間を縮約し、
縮約した前記制御対象の状態の空間に対して、前記状態価値関数を推定した推定状態価値関数に対するＴＤ誤差を、前記方策を規定するパラメータそれぞれに摂動を与えることにより生成し、
生成した前記ＴＤ誤差および前記摂動に基づき、前記方策を規定するパラメータに関する前記状態価値関数の勾配を推定した推定勾配を生成し、
生成した前記推定勾配を用いて、前記方策を規定するパラメータを更新する、
処理をコンピュータが実行することを特徴とする方策改善方法。
前記制御対象の状態変化が線形な差分方程式で規定され、かつ、前記制御対象の即時コストまたは即時報酬が状態および入力の２次形式で規定される場合、前記制御対象の状態に対する前記状態価値関数の係数行列を推定した推定係数行列を生成し、
生成した前記推定係数行列を用いて、前記制御対象の状態の空間を縮約し、
縮約した前記制御対象の状態の空間に対して、前記状態価値関数を推定した推定状態価値関数に対するＴＤ誤差を、前記方策を規定するフィードバック係数行列の成分それぞれに摂動を与えることにより生成し、
生成した前記ＴＤ誤差および前記摂動に基づき、前記フィードバック係数行列に関する前記状態価値関数の勾配関数行列を推定した推定勾配関数行列を生成し、
生成した前記推定勾配関数行列を用いて、前記フィードバック係数行列を更新する、
処理を前記コンピュータが実行することを特徴とする請求項１に記載の方策改善方法。
前記制御対象は、空調設備であり、
前記強化学習は、前記空調設備の設定温度と前記空調設備の設定風量との少なくともいずれかを入力とし、前記空調設備がある部屋の内部の温度と前記空調設備がある部屋の外部の温度と気候との少なくともいずれかを状態とし、前記空調設備の消費電力量をコストとする、ことを特徴とする請求項１または２に記載の方策改善方法。
前記制御対象は、発電設備であり、
前記強化学習は、前記発電設備の発電機トルクを入力とし、前記発電設備の発電量と前記発電設備のタービンの回転量と前記発電設備のタービンの回転速度と前記発電設備に対する風向と前記発電設備に対する風速との少なくともいずれかを状態とし、前記発電設備の発電量を報酬とする、ことを特徴とする請求項１または２に記載の方策改善方法。
前記制御対象は、産業用ロボットであり、
前記強化学習は、前記産業用ロボットのモータートルクを入力とし、前記産業用ロボットの撮影した画像と前記産業用ロボットの関節位置と前記産業用ロボットの関節角度と前記産業用ロボットの関節角速度との少なくともいずれかを状態とし、前記産業用ロボットの生産量を報酬とする、ことを特徴とする請求項１または２に記載の方策改善方法。
状態価値関数による強化学習の方策改善プログラムであって、
前記強化学習における制御対象の即時コストまたは即時報酬が状態および入力によって規定される場合、前記制御対象の状態に対する前記状態価値関数のパラメータを推定した推定パラメータを算出し、
算出した前記推定パラメータを用いて、前記制御対象の状態の空間を縮約し、
縮約した前記制御対象の状態の空間に対して、前記状態価値関数を推定した推定状態価値関数に対するＴＤ誤差を、前記方策を規定するパラメータそれぞれに摂動を与えることにより生成し、
生成した前記ＴＤ誤差および前記摂動に基づき、前記方策を規定するパラメータに関する前記状態価値関数の勾配を推定した推定勾配を生成し、
生成した前記推定勾配を用いて、前記方策を規定するパラメータを更新する、
処理をコンピュータに実行させることを特徴とする方策改善プログラム。
状態価値関数による強化学習の方策改善装置であって、
前記強化学習における制御対象の即時コストまたは即時報酬が状態および入力によって規定される場合、前記制御対象の状態に対する前記状態価値関数のパラメータを推定した推定パラメータを算出し、
算出した前記推定パラメータを用いて、前記制御対象の状態の空間を縮約し、
縮約した前記制御対象の状態の空間に対して、前記状態価値関数を推定した推定状態価値関数に対するＴＤ誤差を、前記方策を規定するパラメータそれぞれに摂動を与えることにより生成し、
生成した前記ＴＤ誤差および前記摂動に基づき、前記方策を規定するパラメータに関する前記状態価値関数の勾配を推定した推定勾配を生成し、
生成した前記推定勾配を用いて、前記方策を規定するパラメータを更新する、
制御部を有することを特徴とする方策改善装置。