JP7188194B2

JP7188194B2 - 方策改善方法、方策改善プログラム、および方策改善装置

Info

Publication number: JP7188194B2
Application number: JP2019041997A
Authority: JP
Inventors: 智丈佐々木
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2022-12-13
Anticipated expiration: 2039-03-07
Also published as: JP2020144713A; US20200285205A1; US11385604B2

Description

本発明は、方策改善方法、方策改善プログラム、および方策改善装置に関する。

従来、制御対象に対する入力に応じて発生する即時コストまたは即時報酬に基づき、累積コストまたは累積報酬を示す価値関数を改善し、累積コストや累積報酬が最適化されるように方策を改善していく強化学習の技術がある。価値関数は、状態－行動価値関数（Ｑ関数）または状態価値関数（Ｖ関数）などである。

先行技術としては、例えば、状態情報ｓ_tと、状態情報ｓ_t+1と、行動情報ａ_tと、行動情報ａ_t+1と、報酬情報ｒ_t+1とを入力として、線形モデルで近似した方策関数のモデルパラメータの更新幅を求め、モデルパラメータを更新するものがある。また、例えば、制御信号を制御対象に与える処理を行って、制御対象の状態量を観測器で観測した結果によりＴＤ誤差（ＴｅｍｐｏｒａｌＤｉｆｆｅｒｅｎｃｅｅｒｒｏｒ）を求め、ＴＤ誤差近似器を更新して、方策を更新する技術がある。

特開２０１４－２０６７９５号公報特開２００７－６５９２９号公報

しかしながら、従来技術では、方策を与えるパラメータを更新する過程における入力決定の回数が増大しやすく、処理負担が増大しやすいという問題がある。例えば、パラメータの成分を１つずつ選び、選んだ成分にだけ摂動が加えられた状態で入力決定することを複数回行った結果に基づき、パラメータを更新する場合、パラメータの成分数が増加するほど、入力決定の回数が増大する。

１つの側面では、本発明は、パラメータ更新にかかる入力決定回数の低減化を図ることを目的とする。

１つの実施態様によれば、状態価値関数による強化学習の方策を改善する場合、前記方策を与える第１のパラメータの複数の成分に対して摂動を加え、前記複数の成分に対して摂動を加えて得られた第２のパラメータを用いた方策により、前記強化学習における制御対象に対する入力決定を行った結果に基づいて、前記第１のパラメータに関する前記状態価値関数の勾配関数を推定し、推定した前記勾配関数を用いて、前記第１のパラメータを更新する方策改善方法、方策改善プログラム、および方策改善装置が提案される。

一態様によれば、パラメータ更新にかかる入力決定回数の低減化を図ることが可能になる。

図１は、実施の形態にかかる方策改善方法の一実施例を示す説明図である。図２は、方策改善装置１００のハードウェア構成例を示すブロック図である。図３は、方策改善装置１００の機能的構成例を示すブロック図である。図４は、強化学習の実施例を示す説明図である。図５は、制御対象１１０の具体例を示す説明図（その１）である。図６は、制御対象１１０の具体例を示す説明図（その２）である。図７は、制御対象１１０の具体例を示す説明図（その３）である。図８は、バッチ処理形式の強化学習処理手順の一例を示すフローチャートである。図９は、逐次処理形式の強化学習処理手順の一例を示すフローチャートである。図１０は、方策改善処理手順の一例を示すフローチャートである。図１１は、推定処理手順の一例を示すフローチャートである。図１２は、更新処理手順の一例を示すフローチャートである。

以下に、図面を参照して、本発明にかかる方策改善方法、方策改善プログラム、および方策改善装置の実施の形態を詳細に説明する。

（実施の形態にかかる方策改善方法の一実施例）
図１は、実施の形態にかかる方策改善方法の一実施例を示す説明図である。方策改善装置１００は、所定のタイミングで、方策（ｐｏｌｉｃｙ）を改善し、方策によって制御対象１１０に対する入力（ｉｎｐｕｔ）を決定することにより、制御対象１１０を制御するコンピュータである。方策改善装置１００は、例えば、サーバやＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、マイクロコントローラなどである。

制御対象１１０は、何らかの事象であり、例えば、現実に存在する物理系である。制御対象１１０は環境（ｅｎｖｉｒｏｎｍｅｎｔ）とも呼ばれる。制御対象１１０は、具体的には、サーバルーム、発電設備、または、産業用機械などである。方策は、所定のパラメータにより、制御対象１１０に対する入力値を決定する方程式である。方策は、制御則（ｃｏｎｔｒｏｌｌａｗ）とも呼ばれる。所定のパラメータは、例えば、フィードバック係数行列である。

方策の改善は、方策を与えるパラメータの更新に対応する。方策の改善は、累積コストや累積報酬がより効率よく最適化されるように方策を変更することである。入力（ｉｎｐｕｔ）は、制御対象１１０に対する操作である。入力は、行動（ａｃｔｉｏｎ）とも呼ばれる。制御対象１１０に対する入力に応じて、制御対象１１０の状態（ｓｔａｔｅ）が変化する。

ここで、累積コストや累積報酬を最適化するためには、状態価値関数の勾配に沿った方向に、方策を与えるパラメータを変化させることが好ましいという性質がある。これに対し、下記非特許文献１を参考に、方策を与えるパラメータを更新していくことにより方策の改善を図り、制御対象１１０を制御する第１の制御手法が考えられる。

非特許文献１：Ｔ．Ｓａｓａｋｉ，Ｅ．Ｕｃｈｉｂｅ，Ｈ．Ｉｗａｎｅ，Ｈ．Ｙａｎａｍｉ，Ｈ．ＡｎａｉａｎｄＫ．Ｄｏｙａ， “Ｐｏｌｉｃｙｇｒａｄｉｅｎｔｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｍｅｔｈｏｄｆｏｒｄｉｓｃｒｅｔｅ－ｔｉｍｅｌｉｎｅａｒｑｕａｄｒａｔｉｃｒｅｇｕｌａｔｉｏｎｐｒｏｂｌｅｍｕｓｉｎｇｅｓｔｉｍａｔｅｄｓｔａｔｅｖａｌｕｅｆｕｎｃｔｉｏｎ，” ２０１７５６ｔｈＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＳｏｃｉｅｔｙｏｆＩｎｓｔｒｕｍｅｎｔａｎｄＣｏｎｔｒｏｌＥｎｇｉｎｅｅｒｓｏｆＪａｐａｎ（ＳＩＣＥ），Ｋａｎａｚａｗａ，２０１７，ｐｐ．６５３－６５７．

第１の制御手法は、例えば、方策を与えるパラメータの成分を１つずつ選び、選んだ成分にだけ摂動が加えられた状態で入力決定することを複数回行った結果に基づき、状態価値関数の勾配関数行列を推定し、方策を与えるパラメータを更新する制御手法である。これによれば、第１の制御手法は、状態価値関数の勾配に沿った方向に、方策を与えるパラメータを変化させることができる。

しかしながら、第１の制御手法は、方策を与えるパラメータを更新する過程において入力決定を行う回数が増大しやすく、処理負担が増大しやすいという問題がある。第１の制御手法は、例えば、方策を与えるパラメータの成分ごとに複数回の入力決定を行うため、方策を与えるパラメータの成分数に比例して入力決定の回数の増大化を招き、処理負担および処理時間の増大化を招く。そして、第１の制御手法は、入力決定に応じて所定時間待機して即時コストまたは即時報酬を観測する処理回数の増大化も招き、処理負担および処理時間の増大化を招く。

そこで、本実施の形態では、方策を与えるパラメータの複数の成分に纏めて摂動を加え、制御対象１１０に対する入力決定を行った結果に基づき、状態価値関数の勾配関数行列を推定し、方策を与えるパラメータを更新する方策改善方法について説明する。この方策改善方法によれば、方策を与えるパラメータを更新する過程において入力決定を行う回数の低減化を図ることができる。

図１の例では、制御対象１１０は、制御対象１１０の状態変化が離散時間線形時不変確定状態方程式で表され、制御対象１１０の状態方程式と、即時コストまたは即時報酬の発生の仕方を表す２次形式の方程式とにおける係数行列が未知である状況である。また、制御対象１１０は、制御対象１１０の状態が出力（ｏｕｔｐｕｔ）になり、制御対象１１０の状態が直接観測可能である状況である。

図１の例では、制御対象１１０の状態変化が、線形差分方程式で規定され、かつ、制御対象１１０の即時コストまたは即時報酬が、制御対象１１０の状態および制御対象１１０への入力の２次形式で規定される。

（１－１）方策改善装置１００は、方策を与える第１のパラメータの複数の成分に対して摂動を加える。第１のパラメータは、例えば、フィードバック係数行列である。複数の成分は、例えば、第１のパラメータのすべての成分である。方策改善装置１００は、例えば、フィードバック係数行列に摂動行列を加えることにより、フィードバック係数行列のすべての成分に対して摂動を加える。摂動を加える具体例は、例えば、図１０を用いて後述する。これによれば、状態価値関数の勾配関数を推定可能にすることができる。

（１－２）方策改善装置１００は、複数の成分に対して摂動を加えて得られた第２のパラメータを用いた方策により、制御対象１１０に対する入力決定を行う。そして、方策改善装置１００は、制御対象１１０に対する入力決定を行った結果に基づいて、第１のパラメータに関する状態価値関数の勾配関数を推定する。第２のパラメータは、第１のパラメータの複数の成分に対して摂動を加えた結果に対応する。

方策改善装置１００は、例えば、制御対象１１０に対する入力決定を行った結果に基づいて、状態価値関数を推定した推定状態価値関数に対するＴＤ誤差を算出する。次に、方策改善装置１００は、ＴＤ誤差および摂動に基づき、状態に対するフィードバック係数行列に関する状態価値関数の勾配関数行列を推定した推定勾配関数行列を生成する。推定勾配関数行列を生成する具体例は、例えば、図１０および図１１を用いて後述する。

ここで、方策改善装置１００は、第１のパラメータの複数の成分に対して摂動を加え、制御対象１１０に対する入力決定を行うことを、複数回繰り返してもよい。そして、方策改善装置１００は、それぞれの回に応じて得られた制御対象１１０に対する入力決定を行った結果に基づいて、勾配関数を推定する。これによれば、方策改善装置１００は、フィードバック係数行列の各成分について摂動に対する反応度合いを示す偏微分の推定結果を取得することができ、取得した偏微分の推定結果を利用して、任意の状態を代入可能な推定勾配関数行列を生成することができる。

（１－３）方策改善装置１００は、推定した勾配関数を用いて、第１のパラメータを更新する。方策改善装置１００は、例えば、生成した推定勾配関数行列を用いて、フィードバック係数行列を更新する。フィードバック係数行列を更新する具体例は、例えば、図１２を用いて後述する。これによれば、方策改善装置１００は、任意の状態を代入した推定勾配関数行列の推定値に基づき、フィードバック係数行列を更新することができる。

これにより、方策改善装置１００は、フィードバック係数行列に、どのような摂動行列を加えれば、累積コストや累積報酬が最適化されていくかを判断することができるようになる。また、方策改善装置１００は、フィードバック係数行列の更新にかかる入力決定回数の低減化を図ることができ、入力決定に応じて所定時間待機して即時コストまたは即時報酬を観測する処理回数の低減化も図ることができる。このため、方策改善装置１００は、処理負担および処理時間の低減化を図ることができる。

結果として、方策改善装置１００は、状態価値関数を改善し、累積コストや累積報酬が効率よく最適化されるように、フィードバック係数行列を更新することができ、方策を効率よく改善していくことができる。状態価値関数の改善は、累積コストの場合はすべての状態で価値関数の値がより小さくなることであり、累積報酬の場合はすべての状態で価値関数の値がより大きくなることである。

ここでは、方策改善装置１００が、第１のパラメータのすべての成分に対して摂動を加える場合について説明したが、これに限らない。例えば、方策改善装置１００が、第１のパラメータの成分をグループ分けし、グループごとに複数の成分に対して摂動を加える場合があってもよい。グループは、例えば、行単位の成分のグループまたは列単位の成分のグループなどである。グループは、例えば、上三角部分や下三角部分の成分のグループなどであってもよい。

（方策改善装置１００のハードウェア構成例）
次に、図２を用いて、図１に示した方策改善装置１００のハードウェア構成例について説明する。

図２は、方策改善装置１００のハードウェア構成例を示すブロック図である。図２において、方策改善装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１と、メモリ２０２と、ネットワークＩ／Ｆ（Ｉｎｔｅｒｆａｃｅ）２０３と、記録媒体Ｉ／Ｆ２０４と、記録媒体２０５とを有する。また、各構成部は、バス２００によってそれぞれ接続される。

ここで、ＣＰＵ２０１は、方策改善装置１００の全体の制御を司る。メモリ２０２は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびフラッシュＲＯＭなどを有する。具体的には、例えば、フラッシュＲＯＭやＲＯＭが各種プログラムを記憶し、ＲＡＭがＣＰＵ２０１のワークエリアとして使用される。メモリ２０２に記憶されるプログラムは、ＣＰＵ２０１にロードされることで、コーディングされている処理をＣＰＵ２０１に実行させる。

ネットワークＩ／Ｆ２０３は、通信回線を通じてネットワーク２１０に接続され、ネットワーク２１０を介して他のコンピュータに接続される。そして、ネットワークＩ／Ｆ２０３は、ネットワーク２１０と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークＩ／Ｆ２０３は、例えば、モデムやＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）アダプタなどである。

記録媒体Ｉ／Ｆ２０４は、ＣＰＵ２０１の制御に従って記録媒体２０５に対するデータのリード／ライトを制御する。記録媒体Ｉ／Ｆ２０４は、例えば、ディスクドライブ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポートなどである。記録媒体２０５は、記録媒体Ｉ／Ｆ２０４の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体２０５は、例えば、ディスク、半導体メモリ、ＵＳＢメモリなどである。記録媒体２０５は、方策改善装置１００から着脱可能であってもよい。

方策改善装置１００は、上述した構成部の他、例えば、キーボード、マウス、ディスプレイ、タッチパネル、プリンタ、スキャナ、マイク、スピーカーなどを有してもよい。また、方策改善装置１００は、記録媒体Ｉ／Ｆ２０４や記録媒体２０５を複数有していてもよい。また、方策改善装置１００は、記録媒体Ｉ／Ｆ２０４や記録媒体２０５を有していなくてもよい。

（方策改善装置１００の機能的構成例）
次に、図３を用いて、方策改善装置１００の機能的構成例について説明する。

図３は、方策改善装置１００の機能的構成例を示すブロック図である。方策改善装置１００は、記憶部３００と、観測部３０１と、推定部３０２と、決定部３０３と、出力部３０４とを含む。

記憶部３００は、例えば、図２に示したメモリ２０２や記録媒体２０５などの記憶領域によって実現される。以下では、記憶部３００が、方策改善装置１００に含まれる場合について説明するが、これに限らない。例えば、記憶部３００が、方策改善装置１００とは異なる装置に含まれ、記憶部３００の記憶内容が方策改善装置１００から参照可能である場合があってもよい。

観測部３０１～出力部３０４は、制御部の一例として機能する。観測部３０１～出力部３０４は、具体的には、例えば、図２に示したメモリ２０２や記録媒体２０５などの記憶領域に記憶されたプログラムをＣＰＵ２０１に実行させることにより、または、ネットワークＩ／Ｆ２０３により、その機能を実現する。各機能部の処理結果は、例えば、図２に示したメモリ２０２や記録媒体２０５などの記憶領域に記憶される。

記憶部３００は、各機能部の処理において参照され、または更新される各種情報を記憶する。記憶部３００は、制御対象１１０の入力と、状態と、即時コストまたは即時報酬とを蓄積する。これにより、記憶部３００は、制御対象１１０の入力と、状態と、即時コストまたは即時報酬とを、推定部３０２や決定部３０３に参照させることができる。

制御対象１１０は、例えば、空調設備である場合がある。この場合、入力は、例えば、空調設備の設定温度と、空調設備の設定風量との少なくともいずれかである。状態は、例えば、空調設備がある部屋の内部の温度と、空調設備がある部屋の外部の温度と、気候との少なくともいずれかである。コストは、例えば、空調設備の消費電力量である。制御対象１１０が、空調設備である場合については、具体的には、図５を用いて後述する。

制御対象１１０は、例えば、発電設備である場合がある。発電設備は、例えば、風力発電設備である。この場合、入力は、例えば、発電設備の発電機トルクである。状態は、例えば、発電設備の発電量と、発電設備のタービンの回転量と、発電設備のタービンの回転速度と、発電設備に対する風向と、発電設備に対する風速との少なくともいずれかである。報酬は、例えば、発電設備の発電量である。制御対象１１０は、例えば、発電設備である場合については、具体的には、図６を用いて後述する。

制御対象１１０は、例えば、産業用ロボットである場合がある。この場合、入力は、例えば、産業用ロボットのモータートルクである。状態は、例えば、産業用ロボットの撮影した画像と、産業用ロボットの関節位置と、産業用ロボットの関節角度と、産業用ロボットの関節角速度との少なくともいずれかである。報酬は、例えば、産業用ロボットの生産量である。生産量は、例えば、組み立て数である。組み立て数は、例えば、産業用ロボットが組み立てた製品の数である。制御対象１１０が、産業用ロボットである場合については、具体的には、図７を用いて後述する。

記憶部３００は、方策を与えるパラメータを記憶してもよい。例えば、記憶部３００は、方策を与える第１のパラメータを記憶する。第１のパラメータは、例えば、フィードバック係数行列である。これにより、記憶部３００は、所定のタイミングで更新される、方策を与える第１のパラメータを記憶しておくことができる。また、記憶部３００は、方策を与える第１のパラメータを、推定部３０２に参照させることができる。

観測部３０１は、制御対象１１０の状態と、即時コストまたは即時報酬とを観測し、記憶部３００に出力する。これにより、観測部３０１は、制御対象１１０の状態と、即時コストまたは即時報酬とを記憶部３００に蓄積させることができる。

推定部３０２は、状態価値関数を推定した推定状態価値関数を更新する。例えば、推定部３０２は、一括最小二乗法、逐次最小二乗法、一括ＬＳＴＤ（Ｌｅａｓｔ－ＳｑｕａｒｅｓＴｅｍｐｏｒａｌＤｉｆｆｅｒｅｎｃｅ）アルゴリズム、逐次ＬＳＴＤアルゴリズムなどを用いて、推定状態価値関数の係数を更新することにより、推定状態価値関数を更新する。

具体的には、推定部３０２は、図８に後述するステップＳ８０４において、推定状態価値関数の係数を更新することにより、推定状態価値関数を更新する。これにより、推定部３０２は、推定状態価値関数を、方策を与える第１のパラメータを更新するために用いることができる。また、推定部３０２は、状態価値関数を改善することができる。

一括最小二乗法、逐次最小二乗法、一括ＬＳＴＤアルゴリズム、逐次ＬＳＴＤアルゴリズムなどについては、下記非特許文献２や下記非特許文献３を参照することができる。

非特許文献２：Ｙ．ＺｈｕａｎｄＸ．Ｒ．Ｌｉ．Ｒｅｃｕｒｓｉｖｅｌｅａｓｔｓｑｕａｒｅｓｗｉｔｈｌｉｎｅａｒｃｏｎｓｔｒａｉｎｔｓ．ＣｏｍｍｕｎｉｃａｔｉｏｎｓｉｎＩｎｆｏｒｍａｔｉｏｎａｎｄＳｙｓｔｅｍｓ，ｖｏｌ．７，ｎｏ．３，ｐｐ．２８７－３１２，２００７．

非特許文献３：ＣｈｒｉｓｔｏｐｈＤａｎｎａｎｄＧｅｒｈａｒｄＮｅｕｍａｎｎａｎｄＪａｎＰｅｔｅｒｓ．ＰｏｌｉｃｙＥｖａｌｕａｔｉｏｎｗｉｔｈＴｅｍｐｏｒａｌＤｉｆｆｅｒｅｎｃｅｓ：ＡＳｕｒｖｅｙａｎｄＣｏｍｐａｒｉｓｏｎ．ＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，ｖｏｌ．１５，ｐｐ．８０９－８８３，２０１４．

推定部３０２は、方策を与える第１のパラメータの複数の成分に対して摂動を加える。複数の成分のそれぞれの成分に対して加えられる摂動は、互いに独立に決定され、かつ、等確率で絶対値が等しい正値と負値とのいずれかに決定される。推定部３０２は、複数の成分に対して摂動を加えて得られた第２のパラメータを用いた方策により、制御対象１１０に対する入力決定を行う。

例えば、推定部３０２は、第１のパラメータのすべての成分に対して摂動を加える。具体的には、推定部３０２は、フィードバック係数行列と同じ大きさの摂動行列を生成し、フィードバック係数行列に摂動行列を加えることにより、フィードバック係数行列のすべての成分に対して摂動を加える。

また、推定部３０２は、第１のパラメータの複数の成分に対して摂動を加え、複数の成分に対して摂動を加えて得られた第２のパラメータを用いた方策により、制御対象１１０に対する入力決定を行うことを、複数回繰り返してもよい。以下の説明では、推定部３０２が、入力決定を行うことを複数回繰り返す場合について説明する。

例えば、推定部３０２は、第１のパラメータのすべての成分に対して摂動を加え、入力決定を行うことを、複数回繰り返す。具体的には、推定部３０２は、フィードバック係数行列と同じ大きさの摂動行列を生成し、フィードバック係数行列に摂動行列を加えることにより、フィードバック係数行列のすべての成分に対して摂動を加え、入力決定を行うことを、複数回繰り返す。より具体的には、推定部３０２は、図１０に後述するステップＳ１００１，Ｓ１００３において、フィードバック係数行列のすべての成分に対して摂動を与えることを、複数回繰り返す。

また、例えば、推定部３０２は、第１のパラメータの成分を複数のグループに分け、グループごとに成分に対して摂動を加える場合があってもよい。複数のグループのうち、少なくともいずれかのグループは、複数の成分を含む。複数のグループは、２以上の成分を含まず１つの成分を含むグループを含んでもよい。グループは、例えば、行単位の成分のグループまたは列単位の成分のグループなどである。グループは、例えば、上三角部分や下三角部分の成分のグループなどであってもよい。

次に、推定部３０２は、複数の成分に対して摂動を加えて得られた第２のパラメータを用いた方策により、強化学習における制御対象１１０に対する入力決定を行った結果に基づいて、第１のパラメータに関する状態価値関数の勾配関数を推定する。第２のパラメータは、第１のパラメータの複数の成分に対して摂動を加えた結果に対応する。例えば、推定部３０２は、それぞれの回に応じて得られた制御対象１１０に対する入力決定を行った結果に基づいて、勾配関数を推定する。

具体的には、推定部３０２は、それぞれの回に応じて得られた制御対象１１０に対する入力決定を行った結果に基づいて、それぞれの回に対応するＴＤ誤差を算出する。次に、推定部３０２は、第１のパラメータのそれぞれの成分について、それぞれの回に対応するＴＤ誤差を、当該回において当該成分に加えた摂動で除算する。そして、推定部３０２は、除算した結果と、状態価値関数をそれぞれの成分で微分した結果とを対応付けて、勾配関数を推定する。

より具体的には、推定部３０２は、それぞれの回に応じて得られた制御対象１１０に対する入力決定を行った結果に基づいて、それぞれの回に対応するＴＤ誤差を算出する。次に、推定部３０２は、フィードバック係数行列の各成分について、それぞれの回に対応するＴＤ誤差を、当該回において当該成分に加えた摂動で除算する。

そして、推定部３０２は、除算した結果と、状態価値関数をフィードバック係数行列の各成分で微分した結果とを対応付けて、勾配関数行列の各成分を推定した推定成分を生成する。推定勾配関数行列は、制御対象１１０の状態に対する第１のパラメータに関する状態価値関数の勾配関数行列を推定した行列である。

ここで、推定部３０２は、状態価値関数をフィードバック係数行列の各成分で微分した結果を、状態に依存するベクトルと、状態に依存しないベクトルとの積で規定する。また、推定部３０２は、制御対象１１０の状態変化が線形な差分方程式で規定され、かつ、制御対象１１０の即時コストまたは即時報酬が状態および入力の２次形式で規定されることを利用する。

より具体的には、例えば、推定部３０２は、図１０に後述するステップＳ１００４、および図１１に後述するステップＳ１１０１，Ｓ１１０２において、摂動に対応する、状態価値関数を推定した推定状態価値関数に対するＴＤ誤差を生成することができる。これにより、推定部３０２は、方策を与える第１のパラメータの各成分について、摂動に対する反応度合いを示す偏微分の推定結果を取得することができる。

より具体的には、例えば、推定部３０２は、図１１に後述するステップＳ１１０３～Ｓ１１０７において、勾配関数行列の各成分を推定した推定成分を、任意の状態を代入可能な形式で生成する。そして、推定部３０２は、図１２に後述するステップＳ１２０１において、勾配関数行列を推定した推定勾配関数行列を生成する。

ここで、推定部３０２は、フィードバック係数行列の各成分について生成されたＴＤ誤差を摂動で除算した結果と、状態価値関数をフィードバック係数行列の各成分で微分した結果とを対応付けて形成される後述する式（２４）を用いる。

ここで、推定部３０２は、勾配関数行列の各成分を推定した推定成分を生成する際に、一括最小二乗法、逐次最小二乗法、一括ＬＳＴＤアルゴリズム、逐次ＬＳＴＤアルゴリズムなどを用いてもよい。これにより、推定部３０２は、任意の状態を代入可能な推定勾配関数行列を生成することができる。

推定部３０２は、推定した勾配関数を用いて、第１のパラメータを更新する。例えば、推定部３０２は、生成した推定勾配関数行列を用いて、フィードバック係数行列を更新する。具体的には、推定部３０２は、図１２に後述するステップＳ１２０２において、推定勾配関数行列を用いて、フィードバック係数行列を更新する。これにより、推定部３０２は、状態を代入した推定勾配関数行列の推定値に基づき、フィードバック係数行列を更新することができる。

決定部３０３は、更新したフィードバック係数行列を用いた方策に基づいて、制御対象１１０に対する入力値を決定する。これにより、決定部３０３は、累積コストや累積報酬を最適化することができる入力値を決定することができる。

出力部３０４は、少なくともいずれかの機能部の処理結果を出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、ネットワークＩ／Ｆ２０３による外部装置への送信、または、メモリ２０２や記録媒体２０５などの記憶領域への記憶である。

例えば、出力部３０４は、決定した入力値を制御対象１１０に対して出力する。これにより、出力部３０４は、制御対象１１０を制御することができる。また、例えば、出力部３０４は、決定した入力値を記憶部３００に対して出力する。これにより、出力部３０４は、入力値を記憶部３００に記憶し、推定部３０２や決定部３０３に参照させることができる。

（強化学習の実施例）
次に、図４を用いて、強化学習の実施例について説明する。

図４は、強化学習の実施例を示す説明図である。図４に示すように、実施例において、下記式（１）～下記式（９）によって、制御対象１１０の状態方程式と、即時コストの２次形式の方程式と、目的と、方策とが規定され、問題設定が行われる。実施例において、制御対象１１０の状態は、直接観測可能である。

上記式（１）は、制御対象１１０の状態方程式である。ｔは、単位時間の倍数で示される時刻である。ｔ＋１は、時刻ｔから単位時間経過した次の時刻である。ｘ_t+1は、次の時刻ｔ＋１における状態である。ｘ_tは、時刻ｔにおける状態である。ｕ_tは、時刻ｔにおける入力である。Ａ、Ｂは、係数行列である。上記式（１）は、次の時刻ｔ＋１における状態ｘ_t+1が、時刻ｔにおける状態ｘ_tと、時刻ｔにおける入力ｕ_tによって決定される関係があることを示す。係数行列Ａ，Ｂは、未知である。

上記式（２）は、状態ｘ₀が、ｎ次元であることを示す。ｎは、既知である。中抜き文字のＲは、実数空間を示す。中抜き文字のＲの上付文字は次元数を示す。

上記式（３）は、入力ｕ_tが、ｍ次元であることを示す。

上記式（４）は、係数行列Ａが、ｎ×ｎ次元である（ｎ行ｎ列である）ことを示し、係数行列Ｂが、ｎ×ｍ次元である（ｎ行ｍ列である）ことを示す。（Ａ，Ｂ）は可安定（ｓｔａｂｉｌｉｚａｂｌｅ）である。

上記式（５）は、制御対象１１０で発生する即時コストの方程式である。ｃ_tは、時刻ｔにおける入力ｕ_tに応じて単位時間後に発生する即時コストである。上付き文字Ｔは、転置を示す。上記式（５）は、即時コストｃ_tが、時刻ｔにおける状態ｘ_tと、時刻ｔにおける入力ｕ_tとの２次形式によって決定される関係があることを示す。係数行列Ｑ，Ｒは、未知である。即時コストｃ_tは、直接観測可能である。

上記式（６）は、係数行列Ｑが、ｎ×ｎ次元であることを示す。≧０は、半正定値行列であることを示す。また、上記式（６）は、係数行列Ｒが、ｍ×ｍ次元であることを示す。＞０は、正定値行列であることを示す。

上記式（７）は、累積コストＶを示す方程式である。強化学習の目的は、累積コストＶの最小化である。γは、割引率（ｄｉｓｃｏｕｎｔｒａｔｅ）である。γは、０～１の値である。

上記式（１）～上記式（７）の下では、累積コストＶを最小化する方策は、上記式（８）により表現される。従って、以下の説明では、方策が、上記式（８）により表現される場合について説明する。Ｆ_tは、時刻ｔに用いられるフィードバック係数行列であって、状態ｘ_tに関する係数行列を示す。上記式（８）は、時刻ｔにおける状態ｘ_tに基づいて、時刻ｔにおける入力ｕ_tを決定する方程式である。

上記式（９）は、フィードバック係数行列Ｆ_tが、ｍ×ｎ次元であることを示す。以下の説明では、フィードバック係数行列Ｆ_tを単に「フィードバック係数行列Ｆ」と表記する場合がある。次に、上述した非特許文献１を参考に、フィードバック係数行列Ｆを更新する具体例について説明する。

（上述した非特許文献１を参考に、フィードバック係数行列Ｆを更新する具体例）
方策が、上記式（８）により表現される場合、時刻０で状態ｘから強化学習による制御対象１１０の制御を開始すると、累積コストＶは、フィードバック係数行列Ｆと状態ｘとの関数である状態価値関数ν（ｘ：Ｆ）によって表現される。

ここで、累積コストＶを最小化するためには、状態価値関数ν（ｘ：Ｆ）のフィードバック係数行列Ｆに関する勾配関数行列▽_Fν（ｘ：Ｆ）に沿った方向に、フィードバック係数行列Ｆを変化させることが好ましい。

これに対し、上述した非特許文献１によれば、フィードバック係数行列Ｆの成分を１つずつ選び、選んだ成分にだけ摂動が加えられた状態で入力決定を行い、勾配関数行列▽_Fν（ｘ：Ｆ）を推定し、フィードバック係数行列Ｆを更新する制御手法αが考えられる。ここで、制御手法αについて、具体的に説明する。

制御手法αは、フィードバック係数行列Ｆ＋εＥ_ijの数式によって、フィードバック係数行列Ｆの（ｉ，ｊ）成分Ｆ_ijに摂動を加え、入力決定を行うことをＮ’回繰り返す。（ｉ，ｊ）は、行列の成分を特定するインデックスである。インデックス（ｉ，ｊ）は、例えば、行列Ｆのｉ行ｊ列の成分を特定する。Ｅ_ijは、インデックス（ｉ，ｊ）で特定される成分が１、その成分以外の成分が０であるｍ×ｎ次元行列である。εは、０ではない実数である。

制御手法αは、上記式（８）のＦ_tに代わり、フィードバック係数行列Ｆ＋εＥ_ijを用いて、入力決定を行う。この場合、状態価値関数ν（ｘ：Ｆ）は、下記式（１０）により表現される。

結果として、決定した入力に対応するＴＤ誤差は、フィードバック係数行列Ｆの（ｉ，ｊ）の成分Ｆ_ijに関する状態価値関数の偏微分係数（ｐａｒｔｉａｌｄｉｆｆｅｒｅｎｔｉａｌｃｏｅｆｆｉｃｉｅｎｔ）によって表現することができる。

さらに、制御対象１１０の状態変化が線形時不変確定ダイナミクスに従い、即時コストが２次形式で表現される場合、状態価値関数ν（ｘ：Ｆ）は、下記式（１１）のように２次形式で表現される。

このため、状態価値関数ν（ｘ：Ｆ）を、フィードバック係数行列Ｆの（ｉ，ｊ）の成分Ｆ_ijで偏微分した関数∂ν／∂Ｆ_ij（ｘ：Ｆ）は、下記式（１２）のように２次形式で表現される。以下の説明では、偏微分した関数を「偏導関数（ｐａｒｔｉａｌｄｅｒｉｖａｔｉｖｅ）」と表記する場合がある。

制御手法αは、上記式（１２）および下記式（１３）により求められるベクトルθ_Fij ^Fを利用し、フィードバック係数行列Ｆの（ｉ，ｊ）の成分Ｆ_ijに関する偏導関数∂ν／∂Ｆ_ij（ｘ：Ｆ）の推定関数を算出する。○と×を重ねた記号は、クロネッカー積を示す。上付文字のクロネッカー積は、同じ変数同士のクロネッカー積を示す。上付文字のクロネッカー積に付された数字は、クロネッカー積の回数を示す。δ_F（ｘ：εＥ_ij）は、ＴＤ誤差である。

以下の説明では、推定関数は、例えば、数式中では、偏導関数∂ν／∂Ｆ_ij（ｘ：Ｆ）の上部に＾を付して、下記式（１４）のように記載する場合がある。また、推定関数は、文中では、ｈａｔ｛∂ν／∂Ｆ_ij（ｘ：Ｆ）｝と記載する場合がある。

制御手法αは、同様に、フィードバック係数行列Ｆの他の成分についても、摂動を加え、入力決定を行うことをＮ’回繰り返し、偏導関数∂ν／∂Ｆ_ij（ｘ：Ｆ）の推定関数ｈａｔ｛∂ν／∂Ｆ_ij（ｘ：Ｆ）｝を算出する。そして、制御手法αは、偏導関数∂ν／∂Ｆ_ijの推定関数ｈａｔ｛∂ν／∂Ｆ_ij（ｘ：Ｆ）｝を用いて、フィードバック係数行列の勾配関数行列▽_Fν（ｘ：Ｆ）を推定した推定勾配関数行列を生成する。

以下の説明では、推定勾配関数行列は、例えば、数式中では、勾配関数行列▽_Fν（ｘ：Ｆ）の上部に＾を付して、下記式（１５）のように記載する場合がある。また、推定勾配関数行列は、例えば、文中では、ｈａｔ｛▽_Fν（ｘ：Ｆ）｝と記載する場合がある。

これにより、制御手法αは、勾配関数行列▽_Fν（ｘ：Ｆ）を推定した推定勾配関数行列ｈａｔ｛▽_Fν（ｘ：Ｆ）｝に基づき、フィードバック係数行列Ｆを更新することができる。

しかしながら、制御手法αは、フィードバック係数行列Ｆの成分ごとに、入力決定をＮ’回行うことになるため、フィードバック係数行列Ｆを更新するまでに、入力決定をｎ×ｍ×Ｎ’回行うことになる。また、制御手法αは、入力決定をｎ×ｍ×Ｎ’回行うため、入力決定に応じて所定時間待機して即時コストまたは即時報酬を観測する処理回数の増大化も招くことになる。結果として、制御手法αは、処理負担および処理時間の増大化を招く。

従って、入力決定の回数の低減化を図り、処理負担および処理時間の低減化を図ることが望まれる。これに対し、方策改善装置１００により、フィードバック係数行列Ｆのすべての成分に纏めて摂動を加えて入力決定を行うことにより、入力決定の回数の低減化を図りつつ、フィードバック係数行列Ｆを更新することができる具体例について説明する。

（方策改善装置１００がフィードバック係数行列Ｆを更新する具体例）
ここで、例えば、フィードバック係数行列Ｆと同じ大きさの摂動行列ρを加えることにより、フィードバック係数行列Ｆのすべての成分に纏めて摂動を加える場合が考えられる。この場合、上記式（８）のＦ_tに代わり、フィードバック係数行列Ｆ＋ρを用いて、入力決定を行うことになるため、状態価値関数ν（ｘ：Ｆ）は、下記式（１６）により表現される。ρ＝［ρ_ij］∈Ｒ^m×ⁿである。｜ρ_ij｜≦ε≦１である。

上記式（１６）は、フィードバック係数行列Ｆの（ｉ，ｊ）の成分Ｆ_ijに関する偏微分係数∂ν／∂Ｆ_ij（ｘ：Ｆ）ρ_ijの和が、余計な項として含まれる。余計な項は、勾配関数行列▽_Fν（ｘ：Ｆ）の推定に悪影響を与える項である。このため、ＴＤ誤差に基づき、フィードバック係数行列Ｆの勾配関数行列▽_Fν（ｘ：Ｆ）を推定した推定勾配関数行列ｈａｔ｛▽_Fν（ｘ：Ｆ）｝を求める際に、余計な項を無視可能にすることが望まれる。

これに対し、方策改善装置１００は、摂動行列ρとして、下記第１の性質および下記第２の性質を有する摂動行列Δ＝［Δ_ij］を確率的に生成し、上記式（８）のＦ_tに代わり、フィードバック係数行列Ｆ＋εΔを用いて、入力決定をＮ’回繰り返すようにする。

第１の性質は、Ｐｒｏｂ（Δ_ij＝１）＝Ｐｒｏｂ（Δ_ij＝－１）＝１／２，ｆｏｒａｌｌｉ＝１，・・・，ｍｊ＝１，・・・，ｎという性質である。換言すれば、摂動Δ_ijは、等確率で、絶対値が等しい正値と負値とのいずれかに決定される。ここでは、絶対値＝１である。第２の性質は、摂動Δ_ijが、互いに独立に決定されるという性質である。以下の説明では、摂動行列Δまたは摂動Δ_ijを、生成された時刻ｔを明示する場合、下付文字ｔを付して表記する場合がある。

上記式（８）のＦ_tに代わり、フィードバック係数行列Ｆ＋εΔを用いて、入力決定を行う場合、状態価値関数ν（ｘ：Ｆ）は、下記式（１７）により表現される。

これに対し、上記式（１７）の両辺をΔ_ij＝１ｏｒ－１で除算すると、下記式（１８）が求められる。下記式（１８）は、余計な係数がない∂ν／∂Ｆ_ij（ｘ：Ｆ）εが現れる。∂ν／∂Ｆ_ij（ｘ：Ｆ）εは、上記式（１０）に現れる項と同様である。

さらに、上記式（１８）に基づき、上記式（１３）に対応する下記式（１９）を求めることができる。

上記式（１９）は、上記式（１３）と同様の項を含む。一方で、上記式（１９）は、上記式（１３）とは異なる余計な項を含む。ここでは、余計な項は、Σの項である。しかしながら、上述した第１の性質および第２の性質から、Σの項は、任意のｘに対して期待値０かつ異なるｘに関して独立である。

このため、方策改善装置１００は、ガウスマルコフの定理によれば、上記式（１９）を、上記式（１３）の代わりに用いても、偏導関数∂ν／∂Ｆ_ij（ｘ：Ｆ）の推定関数ｈａｔ｛∂ν／∂Ｆ_ij（ｘ：Ｆ）｝を精度よく算出可能になる。

そして、方策改善装置１００は、偏導関数∂ν／∂Ｆ_ijの推定関数ｈａｔ｛∂ν／∂Ｆ_ij（ｘ：Ｆ）｝を用いて、フィードバック係数行列の勾配関数行列▽_Fν（ｘ：Ｆ）を推定した推定勾配関数行列を生成可能になる。

このため、方策改善装置１００は、勾配関数行列▽_Fν（ｘ：Ｆ）を推定した推定勾配関数行列ｈａｔ｛▽_Fν（ｘ：Ｆ）｝に基づき、フィードバック係数行列Ｆを更新することができる。フィードバック係数行列Ｆを更新する具体例は、図８～図１２を用いて後述する。

これにより、方策改善装置１００は、状態ｘと分離された形式で、行列∂Ｐ_F／∂Ｆ_ijの推定行列を生成することができる。このため、方策改善装置１００は、ある時刻に、勾配関数行列▽_Fν（ｘ：Ｆ）を推定した推定勾配関数行列ｈａｔ｛▽_Fν（ｘ：Ｆ）｝を任意の状態ｘを代入可能な形式で算出することができる。そして、方策改善装置１００は、その時刻以降は、ある状態について勾配関数行列▽_Fν（ｘ：Ｆ）の推定値を算出する場合、算出済みの推定勾配関数行列ｈａｔ｛▽_Fν（ｘ：Ｆ）｝に、その状態を代入すれば算出可能になる。

このように、方策改善装置１００は、ある状態ｘに対する勾配関数行列▽_Fν（ｘ：Ｆ）の推定値ではなく、ある時刻以降に利用可能である勾配関数行列▽_Fν（ｘ：Ｆ）を推定した推定勾配関数行列ｈａｔ｛▽_Fν（ｘ：Ｆ）｝を生成することができる。このため、方策改善装置１００は、様々な状態について勾配関数行列▽_Fν（ｘ：Ｆ）の推定値を算出することを比較的容易にすることができ、処理量の低減化を図ることができる。

また、方策改善装置１００は、実際に観測した状態や即時コスト、入力に基づいて勾配関数行列▽_Fν（ｘ：Ｆ）を推定した推定勾配関数行列ｈａｔ｛▽_Fν（ｘ：Ｆ）｝を生成することができる。このため、方策改善装置１００は、勾配関数行列▽_Fν（ｘ：Ｆ）を推定した推定勾配関数行列ｈａｔ｛▽_Fν（ｘ：Ｆ）｝を精度よく生成することができる。

また、方策改善装置１００は、累積コストを効率よく最小化するように、フィードバック係数行列Ｆを更新することができる。このため、方策改善装置１００は、制御対象１１０の状態が好ましい状態になるまでにかかる時間の低減化を図ることができる。方策改善装置１００は、例えば、勾配関数行列▽_Fν（ｘ：Ｆ）を用いない強化学習の技術に比べて、制御対象１１０の状態が好ましい状態になるまでにかかる時間の低減化を図ることができる。

また、方策改善装置１００は、勾配関数行列▽_Fν（ｘ：Ｆ）を推定した推定勾配関数行列ｈａｔ｛▽_Fν（ｘ：Ｆ）｝に基づき、フィードバック係数行列Ｆを更新する際に、フィードバック係数行列Ｆの変化度合いを調整することができる。このため、方策改善装置１００は、フィードバック係数行列Ｆの急変化による制御対象１１０への悪影響などを防止することができる。

例えば、状態価値関数が精度よく推定されていない段階でも、フィードバック係数行列Ｆの変化度合いを調整することができない場合が考えられる。この場合、フィードバック係数行列Ｆが急変化し、好ましくない係数行列になり、累積コストや累積報酬が最適化されるように制御対象１１０を制御することが難しく、制御対象１１０の安定性を損なう可能性がある。これに対し、方策改善装置１００は、フィードバック係数行列Ｆの変化度合いを調整することができる。このため、方策改善装置１００は、状態価値関数が精度よく推定されていない段階でも、フィードバック係数行列Ｆの変化度合いを調整することができ、フィードバック係数行列Ｆを急変化しづらくすることができる。

また、方策改善装置１００は、様々な時刻の状態について勾配関数行列▽_Fν（ｘ：Ｆ）の推定値を算出した結果に基づいて、勾配関数行列▽_Fν（ｘ：Ｆ）の推定値の統計値を算出することができる。また、方策改善装置１００は、フィードバック係数行列Ｆを更新するまでに、入力決定を１×Ｎ’回行えばよくなり、処理負担および処理時間の低減化を図ることができる。

（制御対象１１０の具体例）
次に、図５～図７を用いて、制御対象１１０の具体例について説明する。

図５～図７は、制御対象１１０の具体例を示す説明図である。図５の例では、制御対象１１０は、熱源であるサーバ５０１と、ＣＲＡＣやＣｈｉｌｌｅｒなどの冷却器５０２とを含むサーバルーム５００である。入力は、冷却器５０２に対する設定温度や設定風量である。状態は、サーバルーム５００に設けられたセンサ装置からのセンサデータなどであり、例えば、温度などである。状態は、制御対象１１０以外から得られる制御対象１１０に関するデータであってもよく、例えば、気温や天気などであってもよい。即時コストは、例えば、サーバルーム５００の単位時間ごとの消費電力量である。単位時間は、例えば、５分である。目標は、サーバルーム５００の累積消費電力量の最小化である。状態価値関数は、例えば、サーバルーム５００の累積消費電力量についての状態の価値を表す。

方策改善装置１００は、累積コストである累積消費電力量を効率よく最小化するように、フィードバック係数行列Ｆを更新することができる。また、方策改善装置１００は、フィードバック係数行列Ｆの更新にかかる入力決定回数の低減化を図ることができる。このため、方策改善装置１００は、制御対象１１０の累積消費電力量が最小化されるまでにかかる時間の低減化を図ることができ、サーバルーム５００の運営コストの低減化を図ることができる。また、方策改善装置１００は、サーバ５０１の使用状況の変化および気温の変化などが発生した場合も、その変化から比較的短い時間で、累積消費電力量を効率よく最小化することができる。

図６の例では、制御対象１１０は、発電機６００である。発電機６００は、例えば、風力発電機である。入力は、発電機６００に対する指令値である。指令値は、例えば、発電機トルクである。状態は、発電機６００に設けられたセンサ装置からのセンサデータであり、例えば、発電機６００の発電量や発電機６００のタービンの回転量または回転速度などである。状態は、発電機６００に対する風向や風速などであってもよい。即時報酬は、例えば、発電機６００の単位時間ごとの発電量である。単位時間は、例えば、５分である。目標は、例えば、発電機６００の累積発電量の最大化である。状態価値関数は、例えば、発電機６００の累積発電量についての状態の価値を表す。

方策改善装置１００は、累積報酬である累積発電量を効率よく最大化するように、フィードバック係数行列Ｆを更新することができる。また、方策改善装置１００は、フィードバック係数行列Ｆの更新にかかる入力決定回数の低減化を図ることができる。このため、方策改善装置１００は、制御対象１１０の累積発電量が最大化されるまでにかかる時間の低減化を図ることができ、発電機６００の利益の増大化を図ることができる。また、方策改善装置１００は、発電機６００の状況の変化などが発生した場合も、その変化から比較的短い時間で、累積発電量を効率よく最大化することができる。

図７の例では、制御対象１１０は、産業用ロボット７００である。産業用ロボット７００は、例えば、ロボットアームである。入力は、産業用ロボット７００に対する指令値である。指令値は、例えば、産業用ロボット７００のモータートルクなどである。状態は、産業用ロボット７００に設けられたセンサ装置からのセンサデータであり、例えば、産業用ロボット７００の撮影した画像、産業用ロボット７００の関節位置や関節角度や関節角速度などである。即時報酬は、例えば、産業用ロボット７００の単位時間ごとの組み立て数などである。目標は、産業用ロボット７００の生産性の最大化である。状態価値関数は、例えば、産業用ロボット７００の累積組み立て数についての状態の価値を表す。

方策改善装置１００は、累積報酬である累積組み立て数を効率よく最大化するように、フィードバック係数行列Ｆを更新することができる。また、方策改善装置１００は、フィードバック係数行列Ｆの更新にかかる入力決定回数の低減化を図ることができる。このため、方策改善装置１００は、制御対象１１０の累積組み立て数が最大化されるまでにかかる時間の低減化を図ることができ、産業用ロボット７００の利益の増大化を図ることができる。また、方策改善装置１００は、産業用ロボット７００の状況の変化などが発生した場合も、その変化から比較的短い時間で、累積組み立て数を効率よく最大化することができる。

また、制御対象１１０は、上述した具体例のシミュレータであってもよい。また、制御対象１１０は、風力発電以外の発電設備であってもよい。また、制御対象１１０は、例えば、化学プラントや自律移動ロボットなどであってもよい。また、制御対象１１０は、ゲームであってもよい。

（強化学習処理手順の一例）
次に、図８および図９を用いて、強化学習処理手順の一例について説明する。

図８は、バッチ処理形式の強化学習処理手順の一例を示すフローチャートである。図８において、まず、方策改善装置１００は、フィードバック係数行列Ｆを初期化し、状態ｘ₀を観測し、入力ｕ₀を決定する（ステップＳ８０１）。

次に、方策改善装置１００は、前回の入力ｕ_t-1に応じた、状態ｘ_tと、即時コストｃ_t-1とを観測し、入力ｕ_t＝Ｆｘ_tを算出する（ステップＳ８０２）。そして、方策改善装置１００は、ステップＳ８０２をＮ回繰り返したか否かを判定する（ステップＳ８０３）。

ここで、Ｎ回繰り返していない場合（ステップＳ８０３：Ｎｏ）、方策改善装置１００は、ステップＳ８０２の処理に戻る。一方で、Ｎ回繰り返している場合（ステップＳ８０３：Ｙｅｓ）、方策改善装置１００は、ステップＳ８０４の処理に移行する。

ステップＳ８０４では、方策改善装置１００は、状態ｘ_t，ｘ_t-1，・・・，ｘ_t-N-1と、即時コストｃ_t-1，ｃ_t-2，・・・，ｃ_t-N-2とに基づいて、状態価値関数の推定関数を算出する（ステップＳ８０４）。

次に、方策改善装置１００は、状態価値関数の推定関数に基づいて、フィードバック係数行列Ｆを更新する（ステップＳ８０５）。フィードバック係数行列Ｆを更新する一例については、具体的には、図１０を用いて後述する。そして、方策改善装置１００は、ステップＳ８０２の処理に戻る。これにより、方策改善装置１００は、制御対象１１０を制御することができる。

図９は、逐次処理形式の強化学習処理手順の一例を示すフローチャートである。図９において、まず、方策改善装置１００は、フィードバック係数行列Ｆと状態価値関数の推定関数とを初期化し、状態ｘ₀を観測し、入力ｕ₀を決定する（ステップＳ９０１）。

次に、方策改善装置１００は、前回の入力ｕ_t-1に応じた、状態ｘ_tと、即時コストｃ_t-1とを観測し、入力ｕ_t＝Ｆｘ_tを算出する（ステップＳ９０２）。そして、方策改善装置１００は、状態ｘ_t，ｘ_t-1と、即時コストｃ_t-1とに基づいて、状態価値関数の推定関数を更新する（ステップＳ９０３）。

次に、方策改善装置１００は、ステップＳ９０３をＮ回繰り返したか否かを判定する（ステップＳ９０４）。ここで、Ｎ回繰り返していない場合（ステップＳ９０４：Ｎｏ）、方策改善装置１００は、ステップＳ９０２の処理に戻る。一方で、Ｎ回繰り返している場合（ステップＳ９０４：Ｙｅｓ）、方策改善装置１００は、ステップＳ９０５の処理に移行する。

ステップＳ９０５では、方策改善装置１００は、状態価値関数の推定関数に基づいて、フィードバック係数行列Ｆを更新する（ステップＳ９０５）。フィードバック係数行列Ｆを更新する一例については、具体的には、図１０を用いて後述する。そして、方策改善装置１００は、ステップＳ９０２の処理に戻る。これにより、方策改善装置１００は、制御対象１１０を制御することができる。

（方策改善処理手順の一例）
次に、図１０を用いて、ステップＳ８０５の具体例であって、方策改善装置１００がフィードバック係数行列Ｆを更新し、方策を改善する方策改善処理手順の一例について説明する。ステップＳ９０５の具体例も、ステップＳ８０５の具体例と同様である。

図１０は、方策改善処理手順の一例を示すフローチャートである。図１０において、摂動行列Δ_tを生成する（ステップＳ１００１）。そして、方策改善装置１００は、コストｃ_t-1と状態ｘ_tとを観測し、下記式（２０）に基づいて、入力ｕ_tを算出する（ステップＳ１００２）。

次に、方策改善装置１００は、ステップＳ１００２をＮ’回繰り返したか否かを判定する（ステップＳ１００３）。ここで、Ｎ’回繰り返していない場合（ステップＳ１００３：Ｎｏ）、方策改善装置１００は、ステップＳ１００１の処理に戻る。一方で、Ｎ’回繰り返している場合（ステップＳ１００３：Ｙｅｓ）、方策改善装置１００は、ステップＳ１００４の処理に移行する。

ステップＳ１００４では、方策改善装置１００は、係数Ｆ_ijに関する状態価値関数の偏導関数の推定関数を、状態ｘ_t，ｘ_t-1，・・・，ｘ_t-N'-1と即時コストｃ_t-1，ｃ_t-2，・・・，ｃ_t-N'-2と状態価値関数の推定関数とを用いて算出する（ステップＳ１００４）。係数Ｆ_ijに関する状態価値関数の偏導関数の推定関数を算出する一例については、具体的には、図１１を用いて後述する。

次に、方策改善装置１００は、推定勾配関数行列を用いて、フィードバック係数行列Ｆを更新する（ステップＳ１００５）。フィードバック係数行列Ｆを更新する一例については、具体的には、図１２を用いて後述する。そして、方策改善装置１００は、方策改善処理を終了する。

（推定処理手順の一例）
次に、図１１を用いて、ステップＳ１００５の具体例であって、係数Ｆ_ijに関する状態価値関数の偏導関数の推定関数を算出する推定処理手順の一例について説明する。

図１１は、推定処理手順の一例を示すフローチャートである。図１１において、まず、方策改善装置１００は、下記式（２１）に基づいて、インデックスセットＳを初期化する（ステップＳ１１０１）。

（ｉ，ｊ）は、行列の成分を特定するインデックスである。インデックス（ｉ，ｊ）は、例えば、行列のｉ行ｊ列の成分を特定する。以下の説明では、ｍは、フィードバック係数行列Ｆの行数である。ｎは、フィードバック係数行列Ｆの列数である。

次に、方策改善装置１００は、下記式（２２）に基づいて、ＴＤ誤差δ_t-1，・・・，δ_t-N'-2を算出する（ステップＳ１１０２）。

そして、方策改善装置１００は、インデックスセットＳから、インデックス（ｉ，ｊ）を取り出す（ステップＳ１１０３）。

次に、方策改善装置１００は、下記式（２３）に基づいて、ＴＤ誤差δ_t-1，・・・，δ_t-N'-2を、それぞれ、摂動εΔ_ij:t-1，・・・，εΔ_ij:t-N'-2で除算した結果を取得する（ステップＳ１１０４）。

次に、方策改善装置１００は、一括最小二乗法に基づいて、下記式（２４）によって、ベクトルθ_Fij ^Fの推定ベクトルを算出する（ステップＳ１１０５）。

Ｔは、転置を示す。○と×を重ねた記号は、クロネッカー積を示す。†は、ムーア－ペンローズ（Ｍｏｏｒｅ－Ｐｅｎｒｏｓｅ）の一般化逆行列を示す。

上記式（２４）は、上記式（２３）に対応するベクトルと、状態に依存しないベクトルθ_Fij ^Fおよび下記式（２５）で規定される状態に依存する行列の積との近似等式を形成し、その近似等式に一括最小二乗法を適用することにより得られる。

ここで、状態に依存しないベクトルθ_Fij ^Fの推定ベクトルおよび上記式（２５）で規定される状態に依存する行列の積は、状態価値関数をフィードバック係数行列Ｆの（ｉ，ｊ）成分で微分した結果に対応する。

次に、方策改善装置１００は、下記式（２６）に基づいて、ベクトルθ_Fij ^Fの推定ベクトルを用いて、行列∂Ｐ_F／∂Ｆ_ijの推定行列を生成する（ステップＳ１１０６）。

ｖｅｃ^-1は、ベクトルを行列に逆変換する記号である。

次に、方策改善装置１００は、下記式（２７）に基づいて、状態価値関数をＦ_ijによって偏微分した偏導関数∂ν／∂Ｆ_ijの推定関数を算出する（ステップＳ１１０７）。

そして、方策改善装置１００は、インデックスセットＳが空であるか否かを判定する（ステップＳ１１０８）。ここで、空ではない場合（ステップＳ１１０８：Ｎｏ）、方策改善装置１００は、ステップＳ１１０３の処理に戻る。一方で、空である場合（ステップＳ１１０８：Ｙｅｓ）、方策改善装置１００は、推定処理を終了する。

（更新処理手順の一例）
次に、図１２を用いて、ステップＳ１００５の具体例であって、方策改善装置１００がフィードバック係数行列Ｆを更新する更新処理手順の一例について説明する。

図１２は、更新処理手順の一例を示すフローチャートである。図１２において、まず、方策改善装置１００は、下記式（２８）に基づいて、偏導関数∂ν／∂Ｆ_ijの推定関数を用いて、フィードバック係数行列の勾配関数行列▽_Fν（ｘ：Ｆ）を推定した推定勾配関数行列を生成する（ステップＳ１２０１）。

次に、方策改善装置１００は、下記式（２９）に基づいて、フィードバック係数行列Ｆを更新する（ステップＳ１２０２）。

αは、重みである。そして、方策改善装置１００は、更新処理を終了する。これにより、方策改善装置１００は、状態価値関数を改善し、累積コストや累積報酬が効率よく最適化されるように、フィードバック係数行列Ｆを更新することができる。また、方策改善装置１００は、任意のｘが代入可能な推定勾配関数行列を生成することができる。

ここでは、方策改善装置１００が、即時コストに基づく強化学習を実現する場合について説明したが、これに限らない。例えば、方策改善装置１００が、即時報酬に基づく強化学習を実現する場合があってもよい。この場合、方策改善装置１００は、上記式（２９）に代わり、下記式（３０）を用いるようにする。

ここでは、方策改善装置１００が、フィードバック係数行列Ｆのすべての成分に対して摂動を加える場合について説明したが、これに限らない。例えば、方策改善装置１００が、フィードバック係数行列Ｆの成分をグループ分けし、グループごとに複数の成分に対して摂動を加える場合があってもよい。グループは、例えば、行単位の成分のグループまたは列単位の成分のグループなどである。グループは、例えば、上三角部分や下三角部分の成分のグループなどであってもよい。この場合も、摂動は、同様に、上述した第１の性質および第２の性質に基づいて決定される。この場合、方策改善装置１００は、グループごとに、図１１に示した処理を実行することにより、状態価値関数をＦ_ijによって偏微分した偏導関数∂ν／∂Ｆ_ijの推定関数を算出する。

以上説明したように、方策改善装置１００によれば、方策を与える第１のパラメータの複数の成分に対して摂動を加えることができる。方策改善装置１００によれば、複数の成分に対して摂動を加えて得られた第２のパラメータを用いた方策により、制御対象１１０に対する入力決定を行った結果に基づいて、第１のパラメータに関する状態価値関数の勾配関数を推定することができる。方策改善装置１００によれば、推定した勾配関数を用いて、第１のパラメータを更新することができる。これにより、方策改善装置１００は、フィードバック係数行列の更新にかかる入力決定回数の低減化を図ることができ、入力決定に応じて所定時間待機して即時コストまたは即時報酬を観測する処理回数の低減化も図ることができる。このため、方策改善装置１００は、処理負担および処理時間の低減化を図ることができる。

方策改善装置１００によれば、第１のパラメータのすべての成分に対して摂動を加えることができる。これにより、方策改善装置１００は、フィードバック係数行列の更新にかかる入力決定回数をさらに低減することができる。

方策改善装置１００によれば、複数の成分のそれぞれの成分に対して加えられる摂動を、互いに独立に決定し、かつ、等確率で絶対値が等しい正値と負値とのいずれかに決定することができる。これにより、方策改善装置１００は、フィードバック係数行列を精度よく更新することができる。

方策改善装置１００によれば、第１のパラメータの複数の成分に対して摂動を加え、複数の成分に対して摂動を加えて得られた第２のパラメータを用いた方策により、制御対象１１０に対する入力決定を行うことを複数回繰り返すことができる。方策改善装置１００によれば、複数回のそれぞれの回に応じて得られた制御対象１１０に対する入力決定を行った結果に基づいて、勾配関数を推定することができる。これにより、方策改善装置１００は、フィードバック係数行列を精度よく更新することができる。

方策改善装置１００によれば、それぞれの回に応じて得られた制御対象１１０に対する入力決定を行った結果に基づいて、それぞれの回に対応するＴＤ誤差を算出することができる。方策改善装置１００によれば、第１のパラメータのそれぞれの成分について、それぞれの回に対応するＴＤ誤差を、当該回において当該成分に加えた摂動で除算することができる。方策改善装置１００によれば、除算した結果と、状態価値関数をそれぞれの成分で微分した結果とを対応付けて、勾配関数を推定することができる。これにより、方策改善装置１００は、状態を代入可能な形式で、推定勾配関数行列を生成することができる。

方策改善装置１００によれば、制御対象１１０として、空調設備を設定することができる。これにより、方策改善装置１００は、空調設備を制御することができる。

方策改善装置１００によれば、制御対象１１０として、発電設備を設定することができる。これにより、方策改善装置１００は、発電設備を制御することができる。

方策改善装置１００によれば、制御対象１１０として、産業用ロボットを設定することができる。これにより、方策改善装置１００は、産業用ロボットを制御することができる。

なお、本実施の形態で説明した方策改善方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本実施の形態で説明した方策改善プログラムは、ハードディスク、フレキシブルディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本実施の形態で説明した方策改善プログラムは、インターネット等のネットワークを介して配布してもよい。

上述した実施の形態に関し、さらに以下の付記を開示する。

（付記１）状態価値関数による強化学習の方策を改善する方策改善方法であって、
前記方策を与える第１のパラメータの複数の成分に対して摂動を加え、
前記複数の成分に対して摂動を加えて得られた第２のパラメータを用いた方策により、前記強化学習における制御対象に対する入力決定を行った結果に基づいて、前記第１のパラメータに関する前記状態価値関数の勾配関数を推定し、
推定した前記勾配関数を用いて、前記第１のパラメータを更新する、
処理をコンピュータが実行することを特徴とする方策改善方法。

（付記２）前記加える処理は、
前記第１のパラメータのすべての成分に対して摂動を加える、ことを特徴とする付記１に記載の方策改善方法。

（付記３）前記複数の成分のそれぞれの成分に対して加えられる摂動は、互いに独立に決定され、かつ、等確率で絶対値が等しい正値と負値とのいずれかに決定される、ことを特徴とする付記１または２に記載の方策改善方法。

（付記４）前記加える処理は、
前記第１のパラメータの複数の成分に対して摂動を加え、前記複数の成分に対して摂動を加えて得られた第２のパラメータを用いた方策により、前記制御対象に対する入力決定を行うことを複数回繰り返し、
前記推定する処理は、
前記複数回のそれぞれの回に応じて得られた前記制御対象に対する入力決定を行った結果に基づいて、前記勾配関数を推定する、ことを特徴とする付記１～３のいずれか一つに記載の方策改善方法。

（付記５）前記推定する処理は、
前記それぞれの回に応じて得られた前記制御対象に対する入力決定を行った結果に基づいて、前記それぞれの回に対応するＴＤ誤差を算出し、
前記第１のパラメータのそれぞれの成分について、前記それぞれの回に対応するＴＤ誤差を、当該回において当該成分に加えた摂動で除算し、
除算した結果と、前記状態価値関数を前記それぞれの成分で微分した結果とを対応付けて、前記勾配関数を推定する、ことを特徴とする付記４に記載の方策改善方法。

（付記６）前記制御対象は、空調設備であり、
前記強化学習は、前記空調設備の設定温度と前記空調設備の設定風量との少なくともいずれかを入力とし、前記空調設備がある部屋の内部の温度と前記空調設備がある部屋の外部の温度と気候との少なくともいずれかを状態とし、前記空調設備の消費電力量をコストとする、ことを特徴とする付記１～５のいずれか一つに記載の方策改善方法。

（付記７）前記制御対象は、発電設備であり、
前記強化学習は、前記発電設備の発電機トルクを入力とし、前記発電設備の発電量と前記発電設備のタービンの回転量と前記発電設備のタービンの回転速度と前記発電設備に対する風向と前記発電設備に対する風速との少なくともいずれかを状態とし、前記発電設備の発電量を報酬とする、ことを特徴とする付記１～５のいずれか一つに記載の方策改善方法。

（付記８）前記制御対象は、産業用ロボットであり、
前記強化学習は、前記産業用ロボットのモータートルクを入力とし、前記産業用ロボットの撮影した画像と前記産業用ロボットの関節位置と前記産業用ロボットの関節角度と前記産業用ロボットの関節角速度との少なくともいずれかを状態とし、前記産業用ロボットの生産量を報酬とする、ことを特徴とする付記１～５のいずれか一つに記載の方策改善方法。

（付記９）前記制御対象の状態変化は、線形な差分方程式で規定され、かつ、前記制御対象の即時コストまたは即時報酬は、状態および入力の２次形式で規定される、ことを特徴とする付記１～８のいずれか一つに記載の方策改善方法。

（付記１０）状態価値関数による強化学習の方策を改善する方策改善プログラムであって、
前記方策を与える第１のパラメータの複数の成分に対して摂動を加え、
前記複数の成分に対して摂動を加えて得られた第２のパラメータを用いた方策により、前記強化学習における制御対象に対する入力決定を行った結果に基づいて、前記第１のパラメータに関する前記状態価値関数の勾配関数を推定し、
推定した前記勾配関数を用いて、前記第１のパラメータを更新する、
処理をコンピュータに実行させることを特徴とする方策改善プログラム。

（付記１１）状態価値関数による強化学習の方策を改善する方策改善装置であって、
前記方策を与える第１のパラメータの複数の成分に対して摂動を加え、
前記複数の成分に対して摂動を加えて得られた第２のパラメータを用いた方策により、前記強化学習における制御対象に対する入力決定を行った結果に基づいて、前記第１のパラメータに関する前記状態価値関数の勾配関数を推定し、
推定した前記勾配関数を用いて、前記第１のパラメータを更新する、
制御部を有することを特徴とする方策改善装置。

１００方策改善装置
１１０制御対象
２００バス
２０１ＣＰＵ
２０２メモリ
２０３ネットワークＩ／Ｆ
２０４記録媒体Ｉ／Ｆ
２０５記録媒体
２１０ネットワーク
３００記憶部
３０１観測部
３０２推定部
３０３決定部
３０４出力部
５００サーバルーム
５０１サーバ
５０２冷却器
６００発電機
７００産業用ロボット

Claims

状態価値関数による強化学習の方策を改善する方策改善方法であって、
前記方策を与える第１のパラメータの複数の成分に対して摂動を加え、
前記複数の成分に対して摂動を加えて得られた第２のパラメータを用いた方策により、前記強化学習における制御対象に対する入力決定を行った結果に基づいて、前記第１のパラメータに関する前記状態価値関数の勾配関数を推定し、
推定した前記勾配関数を用いて、前記第１のパラメータを更新する、
処理をコンピュータが実行することを特徴とする方策改善方法。
前記加える処理は、
前記第１のパラメータのすべての成分に対して摂動を加える、ことを特徴とする請求項１に記載の方策改善方法。
前記複数の成分のそれぞれの成分に対して加えられる摂動は、互いに独立に決定され、かつ、等確率で絶対値が等しい正値と負値とのいずれかに決定される、ことを特徴とする請求項１または２に記載の方策改善方法。
前記加える処理は、
前記第１のパラメータの複数の成分に対して摂動を加え、前記複数の成分に対して摂動を加えて得られた第２のパラメータを用いた方策により、前記制御対象に対する入力決定を行うことを複数回繰り返し、
前記推定する処理は、
前記複数回のそれぞれの回に応じて得られた前記制御対象に対する入力決定を行った結果に基づいて、前記勾配関数を推定する、ことを特徴とする請求項１～３のいずれか一つに記載の方策改善方法。
前記推定する処理は、
前記それぞれの回に応じて得られた前記制御対象に対する入力決定を行った結果に基づいて、前記それぞれの回に対応するＴＤ誤差を算出し、
前記第１のパラメータのそれぞれの成分について、前記それぞれの回に対応するＴＤ誤差を、当該回において当該成分に加えた摂動で除算し、
除算した結果と、前記状態価値関数を前記それぞれの成分で微分した結果とを対応付けて、前記勾配関数を推定する、ことを特徴とする請求項４に記載の方策改善方法。
前記制御対象は、空調設備であり、
前記強化学習は、前記空調設備の設定温度と前記空調設備の設定風量との少なくともいずれかを入力とし、前記空調設備がある部屋の内部の温度と前記空調設備がある部屋の外部の温度と気候との少なくともいずれかを状態とし、前記空調設備の消費電力量をコストとする、ことを特徴とする請求項１～５のいずれか一つに記載の方策改善方法。
前記制御対象は、発電設備であり、
前記強化学習は、前記発電設備の発電機トルクを入力とし、前記発電設備の発電量と前記発電設備のタービンの回転量と前記発電設備のタービンの回転速度と前記発電設備に対する風向と前記発電設備に対する風速との少なくともいずれかを状態とし、前記発電設備の発電量を報酬とする、ことを特徴とする請求項１～５のいずれか一つに記載の方策改善方法。
前記制御対象は、産業用ロボットであり、
前記強化学習は、前記産業用ロボットのモータートルクを入力とし、前記産業用ロボットの撮影した画像と前記産業用ロボットの関節位置と前記産業用ロボットの関節角度と前記産業用ロボットの関節角速度との少なくともいずれかを状態とし、前記産業用ロボットの生産量を報酬とする、ことを特徴とする請求項１～５のいずれか一つに記載の方策改善方法。
状態価値関数による強化学習の方策を改善する方策改善プログラムであって、
前記方策を与える第１のパラメータの複数の成分に対して摂動を加え、
前記複数の成分に対して摂動を加えて得られた第２のパラメータを用いた方策により、前記強化学習における制御対象に対する入力決定を行った結果に基づいて、前記第１のパラメータに関する前記状態価値関数の勾配関数を推定し、
推定した前記勾配関数を用いて、前記第１のパラメータを更新する、
処理をコンピュータに実行させることを特徴とする方策改善プログラム。
状態価値関数による強化学習の方策を改善する方策改善装置であって、
前記方策を与える第１のパラメータの複数の成分に対して摂動を加え、
前記複数の成分に対して摂動を加えて得られた第２のパラメータを用いた方策により、前記強化学習における制御対象に対する入力決定を行った結果に基づいて、前記第１のパラメータに関する前記状態価値関数の勾配関数を推定し、
推定した前記勾配関数を用いて、前記第１のパラメータを更新する、
制御部を有することを特徴とする方策改善装置。