JP7351135B2

JP7351135B2 - 方策改善方法、方策改善プログラム、および方策改善装置

Info

Publication number: JP7351135B2
Application number: JP2019148638A
Authority: JP
Inventors: 智丈佐々木; 秀直岩根
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2023-09-27
Anticipated expiration: 2039-08-13
Also published as: US20210049486A1; US11983642B2; JP2021033332A

Description

本発明は、方策改善方法、方策改善プログラム、および方策改善装置に関する。

従来、制御対象に対する入力に応じて発生する即時コストまたは即時報酬に基づき、累積コストまたは累積報酬を示す価値関数を改善し、累積コストや累積報酬が最適化されるように方策を改善していく強化学習（Ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）の技術がある。価値関数は、例えば、状態－行動価値関数（Ｑ関数）、または、状態価値関数（Ｖ関数）などである。方策の改善は、例えば、方策のパラメータを更新することに対応する。

先行技術としては、例えば、入力を制御対象に印加し、制御対象の状態を観測し、観測結果により定常分布の対数の偏微分を推定し、推定した結果に基づいて、方策パラメータを更新するものがある。また、例えば、取引収支を含む報酬値が最大化するように、蓄電残量から取引条件を決定するための方策を強化学習する技術がある。また、例えば、火力プラントの現在の状態が、記録された、火力プラントの特性が悪化したと判定された状態に至った第２の操作信号を生成したときの状態である場合、火力プラントに出力している現在の第１の操作信号を継続して出力する技術がある。

特開２００９－２８９１９９号公報特開２０１１－２２９０２号公報特開２０１４－５２９２９号公報

しかしながら、従来技術では、方策のパラメータを更新する過程における入力決定の回数が増加し、処理負担が増大するという問題がある。例えば、パラメータの成分を１つずつ選び、選んだ成分にだけ摂動が加えられた状態で入力決定することを複数回行った結果に基づいて、パラメータを更新する場合が考えられるが、パラメータの成分数が増加するほど、入力決定の回数が増加する。

１つの側面では、本発明は、パラメータ更新にかかる入力決定回数の低減化を図ることを目的とする。

１つの実施態様によれば、状態価値関数に基づいて強化学習の方策を改善する場合、前記方策と、前記強化学習における制御対象に対する入力を探索する所定の探索方法とに基づいて、前記制御対象に対する入力を算出し、算出した前記入力を前記制御対象に印加した結果に基づいて、前記制御対象に対する入力と、前記制御対象の状態に関する一般化逆行列とを用いて、前記方策のパラメータを更新する方策改善方法、方策改善プログラム、および方策改善装置が提案される。

一態様によれば、パラメータ更新にかかる入力決定回数の低減化を図ることが可能になる。

図１は、実施の形態にかかる方策改善方法の一実施例を示す説明図である。図２は、方策改善装置１００のハードウェア構成例を示すブロック図である。図３は、方策改善テーブル３００の記憶内容の一例を示す説明図である。図４は、方策評価テーブル４００の記憶内容の一例を示す説明図である。図５は、方策改善装置１００の機能的構成例を示すブロック図である。図６は、強化学習の実施例を示す説明図である。図７は、入力決定の回数を比較した一例を示す説明図である。図８は、制御対象１１０の具体例を示す説明図（その１）である。図９は、制御対象１１０の具体例を示す説明図（その２）である。図１０は、制御対象１１０の具体例を示す説明図（その３）である。図１１は、バッチ処理形式の強化学習処理手順の一例を示すフローチャートである。図１２は、逐次処理形式の強化学習処理手順の一例を示すフローチャートである。

以下に、図面を参照して、本発明にかかる方策改善方法、方策改善プログラム、および方策改善装置の実施の形態を詳細に説明する。

（実施の形態にかかる方策改善方法の一実施例）
図１は、実施の形態にかかる方策改善方法の一実施例を示す説明図である。方策改善装置１００は、所定のタイミングで、方策（ｐｏｌｉｃｙ）を改善し、方策によって制御対象１１０に対する入力（ｉｎｐｕｔ）を決定することにより、制御対象１１０を制御するエージェントとなるコンピュータである。方策改善装置１００は、例えば、サーバやＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、マイクロコントローラなどである。

制御対象１１０は、何らかの事象であり、例えば、現実に存在する物理系である。制御対象１１０は環境（ｅｎｖｉｒｏｎｍｅｎｔ）とも呼ばれる。制御対象１１０は、具体的には、サーバルーム、空調設備、発電設備、または、産業用機械などである。方策は、所定のパラメータにより、制御対象１１０に対する入力値を決定する方程式である。方策は、制御則（ｃｏｎｔｒｏｌｌａｗ）とも呼ばれる。所定のパラメータは、例えば、フィードバック係数行列である。

方策の改善は、方策のパラメータの更新に対応する。方策の改善は、累積コストや累積報酬がより効率よく最適化されるように方策を変更することである。入力（ｉｎｐｕｔ）は、制御対象１１０に対する操作である。入力は、行動（ａｃｔｉｏｎ）とも呼ばれる。制御対象１１０に対する入力に応じて、制御対象１１０の状態（ｓｔａｔｅ）が変化し、また、即時コストまたは即時報酬が発生する。制御対象１１０の状態および即時コストまたは即時報酬は、観測可能である。

ここで、下記参考文献１を参考に、方策のパラメータを更新していくことにより方策の改善を図り、制御対象１１０を制御する第１の制御手法が考えられる。

参考文献１：Ｓ．Ｊ．Ｂｒａｄｔｋｅ，Ｂ．Ｅ．ＹｄｓｔｉｅａｎｄＡ．Ｇ．Ｂａｒｔｏ， “Ａｄａｐｔｉｖｅｌｉｎｅａｒｑｕａｄｒａｔｉｃｃｏｎｔｒｏｌｕｓｉｎｇｐｏｌｉｃｙｉｔｅｒａｔｉｏｎ”，ＩｎＰｒｏｃ．ｏｆｔｈｅ１９９４ＡｍｅｒｉｃａｎＣｏｎｔｒｏｌＣｏｎｆｅｒｅｎｃｅ，ｐｐ．３４７５－３４７９，Ｂａｌｔｉｍｏｒｅ，ＵＳＡ，１９９４．

第１の制御手法は、例えば、適応方策反復法（ａｄａｐｔｉｖｅｐｏｌｉｃｙｉｔｅｒａｔｉｏｎ）と呼ばれる制御手法である。第１の制御手法は、具体的には、入力または方策のパラメータに対して摂動を与え、入力に対するＴＤ誤差（ＴｅｍｐｏｒａｌＤｉｆｆｅｒｅｎｃｅｅｒｒｏｒ）を算出し、算出したＴＤ誤差に基づき方策のパラメータを更新する。

しかしながら、第１の制御手法では、状態－行動価値関数（Ｑ関数）に基づいて強化学習の方策を改善するため、入力または方策のパラメータに対して、どのような摂動を与えれば、累積コストや累積報酬が最適化されていくかを判断することが難しく、方策のパラメータを改善していくことが難しい場合がある。換言すれば、第１の制御手法は、入力または方策のパラメータに与える摂動を適切に設定する設定方法が明らかではない場合には、方策のパラメータを改善していくことができない。

ところで、累積コストや累積報酬を最適化するためには、状態価値関数（Ｖ関数）の勾配に沿った方向に、方策のパラメータを変化させることが好ましいという性質がある。この性質を利用し、下記参考文献２および下記参考文献３を参考に、方策のパラメータを更新していくことにより方策の改善を図り、制御対象１１０を制御する第２の制御手法が考えられる。

参考文献２：Ｔ．Ｓａｓａｋｉ，Ｅ．Ｕｃｈｉｂｅ，Ｈ．Ｉｗａｎｅ，Ｈ．Ｙａｎａｍｉ，Ｈ．ＡｎａｉａｎｄＫ．Ｄｏｙａ， “Ｐｏｌｉｃｙｇｒａｄｉｅｎｔｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｍｅｔｈｏｄｆｏｒｄｉｓｃｒｅｔｅ－ｔｉｍｅｌｉｎｅａｒｑｕａｄｒａｔｉｃｒｅｇｕｌａｔｉｏｎｐｒｏｂｌｅｍｕｓｉｎｇｅｓｔｉｍａｔｅｄｓｔａｔｅｖａｌｕｅｆｕｎｃｔｉｏｎ，” ２０１７５６ｔｈＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＳｏｃｉｅｔｙｏｆＩｎｓｔｒｕｍｅｎｔａｎｄＣｏｎｔｒｏｌＥｎｇｉｎｅｅｒｓｏｆＪａｐａｎ（ＳＩＣＥ），Ｋａｎａｚａｗａ，２０１７，ｐｐ．６５３－６５７．

参考文献３：特開２０１９－０５３５９３号公報

第２の制御手法は、例えば、方策のパラメータの成分を１つずつ選び、選んだ成分にだけ摂動が加えられた状態で入力決定することを複数回行った結果に基づき、状態価値関数の勾配関数行列を推定し、方策のパラメータを更新する制御手法である。これによれば、第２の制御手法は、状態価値関数の勾配に沿った方向に、方策のパラメータを変化させることができる。

しかしながら、第２の制御手法では、方策のパラメータを更新する過程において入力決定を行う回数が増加しやすく、処理負担が増大しやすいという問題がある。第２の制御手法は、例えば、状態価値関数の勾配関数行列を推定するために、方策のパラメータの成分ごとに複数回の入力決定を行うため、方策のパラメータの成分数に比例して入力決定の回数の増加を招き、処理負担および処理時間の増大化を招く。そして、第２の制御手法は、入力決定に応じて所定時間待機して即時コストまたは即時報酬を観測する処理回数の増大化も招き、処理負担および処理時間の増大化を招く。

以上から、状態価値関数に基づいて強化学習の方策を改善する場合に、方策のパラメータを更新する過程において入力決定を行う回数の増加を抑制しつつ、方策のパラメータを更新することができる新たな制御方法が望まれる。

そこで、本実施の形態では、制御対象１１０の状態に関する一般化逆行列を用いて、方策のパラメータを更新することにより、方策のパラメータを更新する過程において入力決定を行う回数の低減化を図ることができる方策改善方法について説明する。

図１の例では、制御対象１１０の状態および制御対象１１０に対する入力が連続値を取り、制御対象１１０の状態変化と、即時コストまたは即時報酬の発生の仕方が未知であるという状況である。また、制御対象１１０は、制御対象１１０の状態が出力（ｏｕｔｐｕｔ）になり、制御対象１１０の状態が直接観測可能である状況である。また、方策は、確定的であり、連続値を取る入力を算出する制御則であり、方策のパラメータについて線形である状況である。

（１－１）方策改善装置１００は、方策と、制御対象１１０に対する入力を探索する所定の探索方法とに基づいて、制御対象１１０に対する入力を算出する。所定の探索方法は、例えば、方策から算出される入力に摂動を加える探索方法である。方策改善装置１００は、例えば、方策から算出される入力に摂動を加え、摂動を加えた入力を、制御対象１１０に対する入力に決定する。

（１－２）方策改善装置１００は、算出した入力を制御対象１１０に印加した結果に基づいて、制御対象１１０に対する入力と、制御対象１１０の状態に関する一般化逆行列とを用いて、方策のパラメータを更新する。パラメータは、例えば、フィードバック係数行列である。方策改善装置１００は、例えば、制御対象１１０に対する入力と、制御対象１１０の状態に関する一般化逆行列とを用いた更新則により、方策のパラメータを更新する。更新則は、例えば、後述する式（２５）に示す更新式に対応する。

このように、方策改善装置１００は、制御対象１１０の状態に関する一般化逆行列を用いれば、状態価値関数の勾配関数行列を推定せずとも、方策のパラメータを更新することができる。これにより、方策改善装置１００は、状態価値関数の勾配関数行列を推定せずに済むため、方策のパラメータの成分数に依らず、方策のパラメータの更新にかかる入力決定回数の低減化を図ることができる。そして、方策改善装置１００は、入力決定に応じて所定時間待機して即時コストまたは即時報酬を観測する処理回数の低減化も図ることができる。このため、方策改善装置１００は、処理負担および処理時間の低減化を図ることができる。

また、方策改善装置１００は、累積コストや累積報酬が効率よく最適化されるように、方策のパラメータを更新することができ、方策を効率よく改善していくことができる。また、方策改善装置１００は、状態－行動価値関数ではなく状態価値関数に基づいて強化学習の方策を改善する場合にも方策のパラメータを更新することができ、方策を効率よく改善していくことができる。

ここでは、所定の探索方法が、方策から算出される入力に摂動を加える探索方法である場合について説明したが、これに限らない。例えば、所定の探索方法が、方策のパラメータに摂動を加える探索方法である場合があってもよい。また、例えば、所定の探索方法が、ε貪欲法である場合があってもよい。

（方策改善装置１００のハードウェア構成例）
次に、図２を用いて、図１に示した方策改善装置１００のハードウェア構成例について説明する。

図２は、方策改善装置１００のハードウェア構成例を示すブロック図である。図２において、方策改善装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１と、メモリ２０２と、ネットワークＩ／Ｆ（Ｉｎｔｅｒｆａｃｅ）２０３と、記録媒体Ｉ／Ｆ２０４と、記録媒体２０５とを有する。また、各構成部は、バス２００によってそれぞれ接続される。

ここで、ＣＰＵ２０１は、方策改善装置１００の全体の制御を司る。メモリ２０２は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびフラッシュＲＯＭなどを有する。具体的には、例えば、フラッシュＲＯＭやＲＯＭが各種プログラムを記憶し、ＲＡＭがＣＰＵ２０１のワークエリアとして使用される。メモリ２０２に記憶されるプログラムは、ＣＰＵ２０１にロードされることで、コーディングされている処理をＣＰＵ２０１に実行させる。メモリ２０２は、例えば、図３および図４に後述する各種テーブルを記憶する。

ネットワークＩ／Ｆ２０３は、通信回線を通じてネットワーク２１０に接続され、ネットワーク２１０を介して他のコンピュータに接続される。そして、ネットワークＩ／Ｆ２０３は、ネットワーク２１０と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークＩ／Ｆ２０３は、例えば、モデムやＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）アダプタなどである。

記録媒体Ｉ／Ｆ２０４は、ＣＰＵ２０１の制御に従って記録媒体２０５に対するデータのリード／ライトを制御する。記録媒体Ｉ／Ｆ２０４は、例えば、ディスクドライブ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポートなどである。記録媒体２０５は、記録媒体Ｉ／Ｆ２０４の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体２０５は、例えば、図３および図４に後述する各種テーブルを記憶してもよい。記録媒体２０５は、例えば、ディスク、半導体メモリ、ＵＳＢメモリなどである。記録媒体２０５は、方策改善装置１００から着脱可能であってもよい。

方策改善装置１００は、上述した構成部の他、例えば、キーボード、マウス、ディスプレイ、タッチパネル、プリンタ、スキャナ、マイク、スピーカーなどを有してもよい。また、方策改善装置１００は、記録媒体Ｉ／Ｆ２０４や記録媒体２０５を複数有していてもよい。また、方策改善装置１００は、記録媒体Ｉ／Ｆ２０４や記録媒体２０５を有していなくてもよい。

（方策改善テーブル３００の記憶内容）
次に、図３を用いて、方策改善テーブル３００の記憶内容の一例について説明する。方策改善テーブル３００は、例えば、図２に示した方策改善装置１００のメモリ２０２や記録媒体２０５などの記憶領域により実現される。

図３は、方策改善テーブル３００の記憶内容の一例を示す説明図である。図３に示すように、方策改善テーブル３００は、時刻と、状態と、よい入力とのフィールドを有する。方策改善テーブル３００は、時刻ごとに各フィールドに情報を設定することにより、方策改善情報がレコード３００－ａとして記憶される。ａは、任意の整数である。図３の例では、ａは、０～Ｎ_i ^acの任意の整数である。

時刻のフィールドには、制御対象１１０に入力を印加する時刻が設定される。時刻のフィールドには、例えば、単位時間の倍数で示される時刻が設定される。状態のフィールドには、時刻のフィールドに設定された時刻における制御対象１１０の状態が設定される。よい入力のフィールドには、時刻のフィールドに設定された時刻において、好ましい効果が得られると判断された制御対象１１０への入力が設定される。よい入力のフィールドには、例えば、方策と探索方法とに基づいて算出される制御対象１１０への入力と、方策から算出される制御対象１１０への入力とのうち、好ましい効果が得られると判断された制御対象１１０への入力が設定される。

（方策評価テーブル４００の記憶内容）
次に、図４を用いて、方策評価テーブル４００の記憶内容の一例について説明する。方策評価テーブル４００は、例えば、図２に示した方策改善装置１００のメモリ２０２や記録媒体２０５などの記憶領域により実現される。

図４は、方策評価テーブル４００の記憶内容の一例を示す説明図である。図４に示すように、方策評価テーブル４００は、時刻と、状態と、入力と、コストとのフィールドを有する。方策評価テーブル４００は、時刻ごとに各フィールドに情報を設定することにより、方策改善情報がレコード４００－ｂとして記憶される。ｂは、任意の整数である。図４の例では、ｂは、０～Ｎ_eの任意の整数である。

時刻のフィールドには、制御対象１１０に入力を印加する時刻が設定される。時刻のフィールドには、例えば、単位時間の倍数で示される時刻が設定される。状態のフィールドには、時刻のフィールドに設定された時刻における制御対象１１０の状態が設定される。入力のフィールドには、時刻のフィールドに設定された時刻において制御対象１１０に印加された入力が設定される。入力のフィールドには、例えば、方策と探索方法とに基づいて算出され、制御対象１１０に印加された入力が設定される。コストのフィールドには、時刻のフィールドに設定された時刻において観測された即時コストが設定される。

方策評価テーブル４００は、強化学習において、即時コストではなく即時報酬を用いるような場合には、コストのフィールドに代わり、報酬のフィールドを有してもよい。報酬のフィールドには、時刻のフィールドに設定された時刻において観測された即時報酬が設定される。

（方策改善装置１００の機能的構成例）
次に、図５を用いて、方策改善装置１００の機能的構成例について説明する。

図５は、方策改善装置１００の機能的構成例を示すブロック図である。方策改善装置１００は、記憶部５００と、観測部５０１と、推定部５０２と、算出部５０３と、判定部５０４と、更新部５０５と、出力部５０６とを含む。

記憶部５００は、例えば、図２に示したメモリ２０２や記録媒体２０５などの記憶領域によって実現される。以下では、記憶部５００が、方策改善装置１００に含まれる場合について説明するが、これに限らない。例えば、記憶部５００が、方策改善装置１００とは異なる装置に含まれ、記憶部５００の記憶内容が方策改善装置１００から参照可能である場合があってもよい。

観測部５０１～出力部５０６は、制御部の一例として機能する。観測部５０１～出力部５０６は、具体的には、例えば、図２に示したメモリ２０２や記録媒体２０５などの記憶領域に記憶されたプログラムをＣＰＵ２０１に実行させることにより、または、ネットワークＩ／Ｆ２０３により、その機能を実現する。各機能部の処理結果は、例えば、図２に示したメモリ２０２や記録媒体２０５などの記憶領域に記憶される。

記憶部５００は、各機能部の処理において参照され、または更新される各種情報を記憶する。記憶部５００は、制御対象１１０の入力と、状態と、即時コストまたは即時報酬とを蓄積する。記憶部５００は、例えば、時刻ごとに、制御対象１１０の入力と、状態と、即時コストまたは即時報酬とを、図４に示した方策評価テーブル４００を用いて記憶する。これにより、記憶部５００は、制御対象１１０の入力と、状態と、即時コストまたは即時報酬とを、各機能部が参照可能にすることができる。

制御対象１１０は、例えば、空調設備である場合がある。この場合、入力は、例えば、空調設備の設定温度と、空調設備の設定風量との少なくともいずれかである。状態は、例えば、空調設備がある部屋の内部の温度と、空調設備がある部屋の外部の温度と、気候との少なくともいずれかである。コストは、例えば、空調設備の消費電力量である。制御対象１１０が、空調設備である場合については、具体的には、図８を用いて後述する。

制御対象１１０は、例えば、発電設備である場合がある。発電設備は、例えば、風力発電設備である。この場合、入力は、例えば、発電設備の発電機トルクである。状態は、例えば、発電設備の発電量と、発電設備のタービンの回転量と、発電設備のタービンの回転速度と、発電設備に対する風向と、発電設備に対する風速との少なくともいずれかである。報酬は、例えば、発電設備の発電量である。制御対象１１０が、発電設備である場合については、具体的には、図９を用いて後述する。

制御対象１１０は、例えば、産業用ロボットである場合がある。この場合、入力は、例えば、産業用ロボットのモータートルクである。状態は、例えば、産業用ロボットの撮影した画像と、産業用ロボットの関節位置と、産業用ロボットの関節角度と、産業用ロボットの関節角速度との少なくともいずれかである。報酬は、例えば、産業用ロボットの生産量である。生産量は、例えば、組み立て数である。組み立て数は、例えば、産業用ロボットが組み立てた製品の数である。制御対象１１０が、産業用ロボットである場合については、具体的には、図１０を用いて後述する。

記憶部５００は、方策のパラメータを記憶してもよい。方策は、確定的であり、連続値を取る入力を算出する制御則であり、方策のパラメータについて線形である。記憶部５００は、例えば、方策のパラメータを記憶する。パラメータは、例えば、フィードバック係数行列である。これにより、記憶部５００は、所定のタイミングで更新される、方策のパラメータを記憶しておくことができる。また、記憶部５００は、方策のパラメータを、算出部５０３、および、更新部５０５が参照可能にすることができる。

記憶部５００は、強化学習における制御対象１１０に対する入力を探索する所定の探索方法を記憶する。所定の探索方法は、例えば、方策から算出される入力に摂動を加える探索方法である。所定の探索方法は、例えば、方策のパラメータに摂動を加える探索方法である。所定の探索方法は、例えば、ε貪欲法である。これにより、記憶部５００は、所定の探索方法を、算出部５０３が参照可能にすることができる。

記憶部５００は、好ましい効果が得られると判定部５０４が判断した、制御対象１１０への入力を記憶する。記憶部５００は、例えば、時刻ごとに、好ましい効果が得られると判定部５０４が判断した、制御対象１１０への入力を記憶する。記憶部５００は、具体的には、時刻ごとに、方策と探索方法とに基づいて算出される入力と、方策から算出される入力とのうち、好ましい効果が得られると判定部５０４が判断した入力を、図３に示した方策改善テーブル３００を用いて記憶する。これにより、記憶部５００は、好ましい効果が得られると判断された入力を、更新部５０５が参照可能にすることができる。記憶部５００は、例えば、更新部５０５が、好ましい効果が得られると判断された入力を出力する傾向が現れるように、方策を更新可能にすることができる。

観測部５０１は、制御対象１１０の状態と、即時コストまたは即時報酬とを観測し、記憶部５００に出力する。これにより、観測部５０１は、制御対象１１０の状態と、即時コストまたは即時報酬とを記憶部５００に蓄積させることができる。

推定部５０２は、状態価値関数を推定する。推定部５０２は、例えば、状態価値関数を推定した推定状態価値関数を更新する。推定部５０２は、具体的には、一括最小二乗法、逐次最小二乗法などを用いて、推定状態価値関数の係数を更新することにより、推定状態価値関数を更新する。推定部５０２は、具体的には、一括ＬＳＴＤ（Ｌｅａｓｔ－ＳｑｕａｒｅｓＴｅｍｐｏｒａｌＤｉｆｆｅｒｅｎｃｅ）アルゴリズム、逐次ＬＳＴＤアルゴリズムなどを用いて、推定状態価値関数の係数を更新することにより、推定状態価値関数を更新してもよい。これにより、推定部５０２は、更新部５０５が、方策のパラメータを更新するために、推定状態価値関数を参照可能にすることができる。また、推定部５０２は、状態価値関数を改善することができる。

一括最小二乗法、逐次最小二乗法、一括ＬＳＴＤアルゴリズム、逐次ＬＳＴＤアルゴリズムなどについては、下記参考文献４や下記参考文献５を参照することができる。

参考文献４：Ｙ．ＺｈｕａｎｄＸ．Ｒ．Ｌｉ．Ｒｅｃｕｒｓｉｖｅｌｅａｓｔｓｑｕａｒｅｓｗｉｔｈｌｉｎｅａｒｃｏｎｓｔｒａｉｎｔｓ．ＣｏｍｍｕｎｉｃａｔｉｏｎｓｉｎＩｎｆｏｒｍａｔｉｏｎａｎｄＳｙｓｔｅｍｓ，ｖｏｌ．７，ｎｏ．３，ｐｐ．２８７－３１２，２００７．

参考文献５：ＣｈｒｉｓｔｏｐｈＤａｎｎａｎｄＧｅｒｈａｒｄＮｅｕｍａｎｎａｎｄＪａｎＰｅｔｅｒｓ．ＰｏｌｉｃｙＥｖａｌｕａｔｉｏｎｗｉｔｈＴｅｍｐｏｒａｌＤｉｆｆｅｒｅｎｃｅｓ：ＡＳｕｒｖｅｙａｎｄＣｏｍｐａｒｉｓｏｎ．ＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，ｖｏｌ．１５，ｐｐ．８０９－８８３，２０１４．

算出部５０３は、制御対象１１０に対する入力を算出し、制御対象１１０に印加する。算出部５０３は、例えば、方策と、所定の探索方法とに基づいて、制御対象１１０への入力を算出し、制御対象１１０に印加する。算出部５０３は、具体的には、所定の探索方法が、方策から算出される入力に摂動を加える探索方法であれば、方策から算出される入力に摂動を加え、摂動を加えた入力を、制御対象１１０への入力に決定し、制御対象１１０に印加する。これにより、算出部５０３は、現状最適と判断される入力以外に、より適切な入力が存在するか否かを探索するために、制御対象１１０に、現状最適と判断される入力以外を印加することができる。

算出部５０３は、具体的には、所定の探索方法が、方策のパラメータに摂動を加える探索方法であれば、方策のパラメータに摂動を加え、パラメータに摂動を加えた方策から算出される入力を、制御対象１１０への入力に決定し、制御対象１１０に印加する。ここで、方策のパラメータに摂動を加えるとは、方策のパラメータに摂動を加えた場合の別の方策を生成することに対応し、更新の対象である方策は変更されない。これにより、算出部５０３は、現状最適と判断される入力以外に、より適切な入力が存在するか否かを探索するために、制御対象１１０に、現状最適と判断される入力以外を印加することができる。

算出部５０３は、所定の探索方法がε貪欲法であれば、１－εの確率で、方策から算出される入力を制御対象１１０に対する入力に決定し、制御対象１１０に印加し、εの確率で、ランダムな入力を制御対象１１０に対する入力に決定し、制御対象１１０に印加する。これにより、算出部５０３は、現状最適と判断される入力以外に、より適切な入力が存在するか否かを探索するために、制御対象１１０に、現状最適と判断される入力以外を印加することができる。

判定部５０４は、算出部５０３が算出した入力を制御対象１１０に印加した結果に基づいて、方策のパラメータの更新に、算出部５０３が算出した入力を利用するか否かを判定する。印加した結果は、例えば、算出部５０３が算出した入力を制御対象１１０に印加したことに応じて、観測部５０１に観測される制御対象１１０の即時コストである。

ここで、判定部５０４は、算出部５０３が算出した入力を利用すると判定した場合には、算出部５０３が算出した入力を記録する。記録先は、例えば、記憶部５００であり、具体的には、図３に示した方策改善テーブル３００である。一方で、判定部５０４は、算出部５０３が算出した入力を利用しないと判定した場合には、方策から算出される、制御対象１１０に対する他の入力を記録する。他の入力は、例えば、所定の探索方法が、方策から算出される入力に摂動を加える探索方法であれば、算出部５０３が算出した入力から、摂動を減算することによって算出されてもよい。記録先は、例えば、記憶部５００であり、具体的には、図３に示した方策改善テーブル３００である。

判定部５０４は、例えば、算出部５０３が算出した入力を制御対象１１０に印加した結果と、推定部５０２が状態価値関数を推定した結果とに基づいて、ＴＤ誤差を算出する。そして、判定部５０４は、算出したＴＤ誤差に基づいて、算出部５０３が算出した入力により好ましい効果が得られたと判断した場合には、算出部５０３が算出した入力を利用すると判定し、記録する。一方で、判定部５０４は、算出したＴＤ誤差に基づいて、算出部５０３が算出した入力により好ましい効果が得られなかったと判断した場合には、算出部５０３が算出した入力を利用しないと判定し、方策から算出される他の入力を記録する。

判定部５０４は、具体的には、ＴＤ誤差が０未満である場合に、算出部５０３が算出した入力により好ましい効果が得られたと判断し、算出部５０３が算出した入力を記録する。一方で、判定部５０４は、ＴＤ誤差が０以上である場合に、算出部５０３が算出した入力により好ましい効果が得られなかったと判断し、方策から算出される他の入力を記録する。これにより、判定部５０４は、好ましい効果が得られたと判断した、制御対象１１０への入力を、更新部５０５が参照可能にすることができる。判定部５０４は、例えば、更新部５０５が、好ましい効果が得られると判断された入力を出力する傾向が現れるように、方策を更新可能にすることができる。

判定部５０４は、算出部５０３が入力を算出した際の制御対象１１０の状態を記録する。判定部５０４は、例えば、算出部５０３が入力を算出した際の制御対象１１０の状態を、図３に示した方策改善テーブル３００を用いて記録する。これにより、判定部５０４は、制御対象１１０の状態を、各機能部が参照可能にすることができる。

更新部５０５は、方策のパラメータを更新する。更新部５０５は、算出した入力を制御対象１１０に印加した結果に基づいて、制御対象１１０に対する入力と、制御対象１１０の状態に関する一般化逆行列とを用いて、方策のパラメータを更新する。制御対象１１０の状態に関する一般化逆行列は、例えば、ムーア－ペンローズ（Ｍｏｏｒｅ－Ｐｅｎｒｏｓｅ）の一般化逆行列（擬似逆行列、ｐｓｅｕｄｏ－ｉｎｖｅｒｓｅｍａｔｒｉｘ）である。

更新部５０５は、例えば、算出部５０３と判定部５０４とが処理を１回ずつ実行する都度、方策のパラメータを更新する。更新部５０５は、具体的には、算出部５０３と判定部５０４とが処理を１回ずつ実行した後、入力を利用すると判定部５０４が判定した場合に、方策のパラメータを更新する。更新部５０５は、より具体的には、判定部５０４が記録した入力と、判定部５０４が記録した状態に関する一般化逆行列とを用いて、方策のパラメータを更新する。これにより、更新部５０５は、方策のパラメータの成分数に依らず、入力決定の回数が１回でも、方策のパラメータを更新することができる。

更新部５０５は、例えば、算出部５０３と判定部５０４とが処理を複数回ずつ実行する都度、方策のパラメータを更新する。更新部５０５は、具体的には、算出部５０３と判定部５０４とが処理を複数回ずつ実行した後、入力を利用すると判定部５０４が１回以上判定している場合に、方策のパラメータを更新する。更新部５０５は、より具体的には、判定部５０４が記録した複数回分の制御対象１１０に対する入力と、判定部５０４が記録した複数回分の制御対象１１０の状態に関する一般化逆行列とを用いて、方策のパラメータを更新する。この際、更新部５０５は、判定部５０４が好ましい効果が得られたと判断した入力を出力し、かつ、判定部５０４が好ましい効果が得られなかったと判断した入力を出力しない傾向が現れるように、方策のパラメータを更新する。

更新部５０５は、さらに具体的には、記録した複数回分の制御対象１１０に対する入力を並べて形成した行列と、記録した複数回分の制御対象１１０の状態を並べて形成した行列の一般化逆行列とにより表現される更新式を用いて、方策のパラメータを更新する。これにより、更新部５０５は、方策のパラメータの成分数に依らず、入力決定の回数の低減化を図りつつ、方策のパラメータを更新することができる。

出力部５０６は、少なくともいずれかの機能部の処理結果を出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、ネットワークＩ／Ｆ２０３による外部装置への送信、または、メモリ２０２や記録媒体２０５などの記憶領域への記憶である。出力部５０６は、例えば、更新した方策を出力する。これにより、出力部５０６は、他のコンピュータで、制御対象１１０を制御可能にすることができる。

（強化学習の実施例）
次に、図６を用いて、強化学習の実施例について説明する。この実施例は、強化学習において、制御対象１１０の即時コストを用いる場合に対応するものとする。

図６は、強化学習の実施例を示す説明図である。図６に示すように、実施例において、下記式（１）～下記式（９）によって、制御対象１１０の離散時間線形時不変確定状態方程式と、即時コストの２次形式の方程式と、目的と、方策とが規定され、問題設定が行われる。実施例において、制御対象１１０の状態は、直接観測可能である。

上記式（１）は、制御対象１１０の状態方程式である。ｔは、単位時間の倍数で示される時刻である。ｔ＋１は、時刻ｔから単位時間経過した次の時刻である。ｘ_t+1は、次の時刻ｔ＋１における状態である。ｘ_tは、時刻ｔにおける状態である。ｕ_tは、時刻ｔにおける入力である。Ａ、Ｂは、係数行列である。上記式（１）は、次の時刻ｔ＋１における状態ｘ_t+1が、時刻ｔにおける状態ｘ_tと、時刻ｔにおける入力ｕ_tによって決定される関係があることを示す。係数行列Ａ，Ｂは、未知である。

上記式（２）は、状態ｘ₀が、ｎ次元であることを示す。ｎは、既知である。中抜き文字のＲは、実数空間を示す。中抜き文字のＲの上付文字は次元数を示す。

上記式（３）は、入力ｕ_tが、ｍ次元であることを示す。

上記式（４）は、係数行列Ａが、ｎ×ｎ次元である（ｎ行ｎ列である）ことを示し、係数行列Ｂが、ｎ×ｍ次元である（ｎ行ｍ列である）ことを示す。（Ａ，Ｂ）は可制御である。

上記式（５）は、制御対象１１０で発生する即時コストの方程式である。ｃ_tは、時刻ｔにおける入力ｕ_tに応じて単位時間後に発生する即時コストである。上付き文字Ｔは、転置を示す。上記式（５）は、即時コストｃ_tが、時刻ｔにおける状態ｘ_tと、時刻ｔにおける入力ｕ_tとの２次形式によって決定される関係があることを示す。係数行列Ｑ，Ｒは、未知である。即時コストｃ_tは、直接観測可能である。

上記式（６）は、係数行列Ｑが、ｎ×ｎ次元であることを示す。≧０は、半正定値行列であることを示す。また、上記式（６）は、係数行列Ｒが、ｍ×ｍ次元であることを示す。＞０は、正定値行列であることを示す。

上記式（７）は、累積コストＶを示す方程式である。強化学習の目的は、累積コストＶの最小化である。γは、割引率（ｄｉｓｃｏｕｎｔｒａｔｅ）である。γは、０～１の値である。

上記式（１）～上記式（７）の下では、累積コストＶを最小化する方策は、上記式（８）により表現される。従って、以下の説明では、方策が、上記式（８）により表現される場合について説明する。Ｆ_tは、時刻ｔに用いられるフィードバック係数行列であって、状態ｘ_tに関する係数行列を示す。上記式（８）は、時刻ｔにおける状態ｘ_tに基づいて、時刻ｔにおける入力ｕ_tを決定する方程式である。方策は、状態ｘ_tについて線形、かつ、フィードバック係数行列Ｆ_tについて線形である特徴を有する。

上記式（９）は、フィードバック係数行列Ｆ_tが、ｍ×ｎ次元であることを示す。以下の説明では、フィードバック係数行列Ｆ_tを単に「フィードバック係数行列Ｆ」と表記する場合がある。次に、上述した参考文献２および参考文献３を参考に、フィードバック係数行列Ｆを更新する具体例について説明する。

〈参考文献２および参考文献３を参考に、フィードバック係数行列Ｆを更新する具体例〉
方策が、上記式（８）により表現される場合、時刻０で状態ｘから強化学習による制御対象１１０の制御を開始すると、累積コストＶは、フィードバック係数行列Ｆと状態ｘとの関数である状態価値関数ν（ｘ：Ｆ）によって表現される。

ここで、累積コストＶを最小化するためには、状態価値関数ν（ｘ：Ｆ）のフィードバック係数行列Ｆに関する勾配関数行列▽_Fν（ｘ：Ｆ）に沿った方向に、フィードバック係数行列Ｆを変化させることが好ましい。

これに対し、上述した参考文献２および参考文献３によれば、制御手法αが考えられる。制御手法αは、例えば、フィードバック係数行列Ｆの成分を１つずつ選び、選んだ成分にだけ摂動が加えられた状態で入力決定を行い、勾配関数行列▽_Fν（ｘ：Ｆ）を推定し、フィードバック係数行列Ｆを更新する。ここで、制御手法αについて、具体的に説明する。

制御手法αは、フィードバック係数行列Ｆ＋εＥ_ijの数式によって、フィードバック係数行列Ｆの（ｉ，ｊ）成分Ｆ_ijに摂動を加え、入力決定を行うことをＮ_i回繰り返す。（ｉ，ｊ）は、行列の成分を特定するインデックスである。インデックス（ｉ，ｊ）は、例えば、行列Ｆのｉ行ｊ列の成分を特定する。Ｅ_ijは、インデックス（ｉ，ｊ）で特定される成分が１、その成分以外の成分が０であるｍ×ｎ次元行列である。εは、０ではない実数である。

制御手法αは、上記式（８）のＦ_tに代わり、フィードバック係数行列Ｆ＋εＥ_ijを用いて、入力決定を行う。この場合、状態価値関数ν（ｘ：Ｆ＋εＥ_ij）は、下記式（１０）により表現される。

結果として、決定した入力に対応するＴＤ誤差は、フィードバック係数行列Ｆの（ｉ，ｊ）の成分Ｆ_ijに関する状態価値関数の偏微分係数（ｐａｒｔｉａｌｄｉｆｆｅｒｅｎｔｉａｌｃｏｅｆｆｉｃｉｅｎｔ）によって表現することができる。

さらに、制御対象１１０の状態変化が線形時不変確定ダイナミクスに従い、即時コストが２次形式で表現される場合、状態価値関数ν（ｘ：Ｆ）は、下記式（１１）のように２次形式で表現される。

このため、状態価値関数ν（ｘ：Ｆ）を、フィードバック係数行列Ｆの（ｉ，ｊ）の成分Ｆ_ijで偏微分した関数∂ν／∂Ｆ_ij（ｘ：Ｆ）は、下記式（１２）のように２次形式で表現される。以下の説明では、偏微分した関数を「偏導関数（ｐａｒｔｉａｌｄｅｒｉｖａｔｉｖｅ）」と表記する場合がある。

制御手法αは、上記式（１２）および下記式（１３）により求められるベクトルθ_Fij ^Fを利用し、フィードバック係数行列Ｆの（ｉ，ｊ）の成分Ｆ_ijに関する偏導関数∂ν／∂Ｆ_ij（ｘ：Ｆ）の推定関数を算出する。○と×を重ねた記号は、クロネッカー積を示す。上付文字のクロネッカー積は、同じ変数同士のクロネッカー積を示す。上付文字のクロネッカー積に付された数字は、クロネッカー積の回数を示す。δ_F（ｘ：εＥ_ij）は、ＴＤ誤差である。

制御手法αは、同様に、フィードバック係数行列Ｆの他の成分についても、摂動を加え、入力決定を行うことをＮ_i回繰り返し、偏導関数∂ν／∂Ｆ_ij（ｘ：Ｆ）の推定関数を算出する。そして、制御手法αは、偏導関数∂ν／∂Ｆ_ijの推定関数を用いて、フィードバック係数行列の勾配関数行列▽_Fν（ｘ：Ｆ）を推定した推定勾配関数行列を生成する。これにより、制御手法αは、勾配関数行列▽_Fν（ｘ：Ｆ）を推定した推定勾配関数行列に基づき、フィードバック係数行列Ｆを更新することができる。

しかしながら、制御手法αは、勾配関数行列▽_Fν（ｘ：Ｆ）を推定するために、フィードバック係数行列Ｆの成分ごとに、入力決定をＮ_i回行うことになるため、フィードバック係数行列Ｆを更新するまでに、入力決定をｎ×ｍ×Ｎ_i回行うことになる。また、制御手法αは、入力決定をｎ×ｍ×Ｎ_i回行うため、入力決定に応じて所定時間待機して即時コストまたは即時報酬を観測する処理回数の増大化も招くことになる。結果として、制御手法αは、処理負担および処理時間の増大化を招く。

従って、入力決定の回数の低減化を図り、処理負担および処理時間の低減化を図ることが望まれる。これに対し、方策改善装置１００により、入力決定の回数の低減化を図りつつ、フィードバック係数行列Ｆを更新することができる具体例について説明する。

〈方策改善装置１００がフィードバック係数行列Ｆを更新する具体例〉
この具体例は、方策改善装置１００が、バッチ処理形式により、フィードバック係数行列Ｆを更新する場合に対応するものとする。

以下の説明では、上記式（１）～上記式（９）によって、問題設定が行われており、方策が、上記式（８）により表現される場合において、状態価値関数ν（・；Ｆ）を、例えば、下記式（１４）のように規定する。

また、状態価値関数ν（・；Ｆ）を推定した推定状態価値関数を、例えば、上部に＾を付して、下記式（１５）のように規定する。θ_Fは、推定状態価値関数のパラメータである。θ_Fは、例えば、実数ベクトルまたは実数行列である。状態価値関数の推定は、例えば、θ_Fを更新することに対応する。

《方策改善装置１００がフィードバック係数行列Ｆを更新する流れ》
ここで、まず、方策改善装置１００がフィードバック係数行列Ｆを更新する流れについて説明する。

（６－１）方策改善装置１００は、方策と、所定の探索方法とに基づいて、制御対象１１０への入力を算出し、制御対象１１０に印加する。探索は、現状の方策により最適と判断される入力とは異なる入力を算出することである。

所定の探索方法は、例えば、方策から算出される入力に、摂動項ε_tを加える探索方法であり、下記式（１６）によって規定される。

摂動項ε_tは、例えば、下記式（１７）によって規定される。下記式（１７）は、摂動項ε_tが、ｍ次元であることを示す。

ここでは、方策改善装置１００は、上記式（１６）により、摂動項ε_tを含む入力を算出し、制御対象１１０に印加したとする。

（６－２）方策改善装置１００は、状態価値関数ν（・；Ｆ）を推定した推定状態価値関数に基づいて、ＴＤ誤差を算出する。

（６－３）方策改善装置１００は、ＴＤ誤差に基づいて、算出した摂動項ε_tを含む入力により、好ましい効果が得られたか否かを判断する。好ましい効果とは、累積コストの観点から判断される。方策改善装置１００は、例えば、ＴＤ誤差が０未満である場合に、好ましい効果が得られたと判断する。

ここで、方策改善装置１００は、摂動項ε_tを含む入力により好ましい効果が得られた場合には、摂動項ε_tを含む入力を、図３に示した方策改善テーブル３００に記録する。そして、方策改善装置１００は、入力を算出した際の制御対象１１０の状態を、図３に示した方策改善テーブル３００に記録する。

一方で、方策改善装置１００は、摂動項ε_tを含む入力により好ましい効果が得られなかった場合には、方策から算出される、摂動項ε_tを含まない入力を、図３に示した方策改善テーブル３００に記録する。そして、方策改善装置１００は、入力を算出した際の制御対象１１０の状態を、図３に示した方策改善テーブル３００に記録する。

（６－４）方策改善装置１００は、バッチ処理形式によりフィードバック係数行列Ｆを更新するため、（６－１）～（６－３）の処理を複数回繰り返し、（６－５）の処理に移行する。

（６－５）方策改善装置１００は、好ましい効果が得られたと判断された摂動項ε_tを含む入力が１つ以上存在した場合、フィードバック係数行列Ｆを更新する。方策改善装置１００は、例えば、ＴＤ誤差が０未満になる摂動項ε_tを含む入力が１つ以上存在した場合、記録した入力を並べた行列と、記録した状態を並べた行列の一般化逆行列とを用いた更新式により、フィードバック係数行列Ｆを更新する。

一方で、方策改善装置１００は、好ましい効果が得られたと判断された摂動項ε_tを含む入力が存在しなかった場合、フィードバック係数行列Ｆを更新しない。方策改善装置１００は、例えば、ＴＤ誤差が０未満になる摂動項ε_tを含む入力が存在しなかった場合、フィードバック係数行列Ｆを更新しない。

（６－６）方策改善装置１００は、（６－１）～（６－５）の処理を繰り返す。方策改善装置１００は、例えば、（６－１）～（６－５）の処理を所定回数繰り返す。方策改善装置１００は、例えば、更新前後のフィードバック係数行列Ｆの差分が一定以下になるまで、（６－１）～（６－５）の処理を繰り返してもよい。

これにより、方策改善装置１００は、フィードバック係数行列Ｆの大きさに依らず、入力決定の回数の低減化を図りつつ、フィードバック係数行列Ｆを更新することができる。

《方策改善装置１００がフィードバック係数行列Ｆを更新する詳細》
次に、方策改善装置１００がフィードバック係数行列Ｆを更新する詳細について説明する。ここでは、初期状態で、時刻ｔ＝１とする。

（６－１０）方策改善装置１００は、時刻ｔで、状態ｘ_tを観測する。

（６－１１）方策改善装置１００は、時刻ｔで、上記式（１６）により、摂動項ε_tを含む入力ｕ_tを算出し、制御対象１１０に印加する。

（６－１２）方策改善装置１００は、時刻ｔで、即時コストｃ_tを観測する。その後、方策改善装置１００は、次の時刻ｔ＋１になると、状態ｘ_t+1を観測する。

（６－１３）方策改善装置１００は、下記式（１８）により、観測した即時コストｃ_tと、観測した状態ｘ_tと、観測した状態ｘ_t+1と、状態価値関数ν（・；Ｆ）を推定した推定状態価値関数とに基づいて、ＴＤ誤差δ_tを算出する。

（６－１４）方策改善装置１００は、ＴＤ誤差δ_t＜０である場合には、摂動項ε_tを含む入力ｕ_tにより好ましい効果が得られたと判断し、摂動項ε_tを含む入力ｕ_tと、観測した状態ｘ_tとを、図３に示した方策改善テーブル３００に記録する。一方で、方策改善装置１００は、ＴＤ誤差δ_t≧０である場合には、摂動項ε_tを含む入力ｕ_tにより好ましい効果が得られなかったと判断し、摂動項ε_tを含まない入力ｕ_t－ε_tと、観測した状態ｘ_tとを、図３に示した方策改善テーブル３００に記録する。

（６－１５）方策改善装置１００は、時刻ｔ＝２，３，・・・，Ｎ_i ^acでも、（６－１１）～（６－１４）の処理を実行し、（６－１６）の処理に移行する。これにより、方策改善装置１００は、（６－１１）～（６－１４）の処理を、Ｎ_i ^ac回繰り返すことになる。この際、方策改善装置１００は、ＴＤ誤差δ_t＜０であった回数Ｍを計測しておく。

（６－１６）方策改善装置１００は、Ｍ＞０である場合には、フィードバック係数行列Ｆを更新する。ここで、説明の簡略化のため、例えば、ＴＤ誤差δ_t＜０である場合に記録したＭ個の状態ｘ_tを、下記式（１９）によって規定する。上付文字（・）は、状態ｘ_tに付した便宜上の番号である。

また、例えば、ＴＤ誤差δ_t＜０である場合に記録したＭ個の入力ｕ_tを、下記式（２０）によって規定する。上付文字（・）は、入力ｕ_tに付した便宜上の番号である。

また、例えば、ＴＤ誤差δ_t≧０である場合に記録したＮ_i ^ac－Ｍ個の状態ｘ_tを、下記式（２１）によって規定する。下付文字（・）は、状態ｘ_tに付した便宜上の番号であり、時刻ｔとは異なる意味を表す。

また、例えば、ＴＤ誤差δ_t＜０である場合に記録したＮ_i ^ac－Ｍ個の入力ｕ_tを、下記式（２２）によって規定する。下付文字（・）は、入力ｕ_tに付した便宜上の番号であり、時刻ｔとは異なる意味を表す。

また、例えば、上記式（１９）によって規定されたＭ個の状態ｘ_tと、上記式（２１）によって規定されたＮ_i ^ac－Ｍ個の状態ｘ_tとを並べた行列Ｘを、下記式（２３）によって規定する。

また、例えば、上記式（２０）によって規定されたＭ個の状態ｕ_tと、上記式（２２）によって規定されたＮ_i ^ac－Ｍ個の状態ｕ_tとを並べた行列Ｕ^betterを、下記式（２４）によって規定する。

方策改善装置１００は、例えば、上記式（２３）によって規定された行列Ｘと、上記式（２４）によって規定された行列Ｕ^betterとに基づいて、下記式（２５）に示す更新式により、フィードバック係数行列Ｆを更新する。βは、０より大きく１以下の値を取る重みである。β＝１の場合があってもよい。†は、ムーア－ペンローズの一般化逆行列を示す。

そして、方策改善装置１００は、（６－１７）の処理に移行する。

一方で、方策改善装置１００は、Ｍ＝０である場合には、フィードバック係数行列Ｆを更新せず、（６－１７）の処理に移行する。

（６－１７）方策改善装置１００は、上記式（１５）によって規定された推定状態価値関数のパラメータθ_Fを推定する。方策改善装置１００は、例えば、時刻ｔ＝１，２，・・・，Ｎ_i ^acに対する状態ｘ_tと即時コストｃ_t+1とに基づいて、一括最小二乗法、逐次最小二乗法、一括ＬＳＴＤアルゴリズム、逐次ＬＳＴＤアルゴリズムなどを用いて、パラメータθ_Fを推定する。その後、方策改善装置１００は、（６－１１）の処理に戻る。

これにより、方策改善装置１００は、状態価値関数ν（・；Ｆ）の勾配関数行列を推定せずに済むため、フィードバック係数行列Ｆの大きさに依らず、入力決定の回数の低減化を図りつつ、フィードバック係数行列Ｆを更新することができる。そして、方策改善装置１００は、入力決定に応じて所定時間待機して即時コストを観測する処理回数の低減化も図ることができる。このため、方策改善装置１００は、処理負担および処理時間の低減化を図ることができる。

また、方策改善装置１００は、累積コストが効率よく最適化されるように、フィードバック係数行列Ｆを更新することができ、方策を効率よく改善していくことができる。また、方策改善装置１００は、入力またはフィードバック係数行列Ｆに、どのような摂動項ε_tを与えることが適切であるかが明らかではなくても、フィードバック係数行列Ｆを更新することができ、方策を効率よく改善していくことができる。

次に、上記式（２５）に示す更新式により、状態ｘ_tを並べた行列Ｘの一般化逆行列Ｘ†を用いて、フィードバック係数行列Ｆが更新可能になる理論的背景について説明する。

（一般化逆行列Ｘ†を用いてフィードバック係数行列Ｆが更新可能になる理論的背景）
ここで、状態価値関数ν（・；Ｆ）の推定精度が比較的高ければ、摂動項ε_tを加えた入力ｕ_tに対するＴＤ誤差δ_t＜０である場合には、摂動項ε_tは、累積コストを減少させる観点から好ましい効果が得られる有用な項であると判断される。この場合には、摂動項ε_tを加えた入力ｕ_tが、累積コストを減少させる観点から好ましい効果が得られる有用な入力であると判断される。

一方で、摂動項ε_tを加えた入力ｕ_tに対するＴＤ誤差δ_t≧０である場合には、摂動項ε_tは、累積コストを減少させる観点から好ましい効果が得られない有用ではない項であると判断される。この場合には、摂動項ε_tを加えた入力ｕ_tが、累積コストを減少させる観点から好ましい効果が得られない有用ではない入力であると判断される。そして、摂動項ε_tを含まない入力ｕ_t－ε_tが、累積コストを減少させる観点から好ましい効果が得られる有用な入力であると判断される。

ここで、以下の説明では、方策により、有用である摂動項ε_tを加えた入力ｕ_tと、有用である摂動項ε_tを含まない入力ｕ_t－ε_tとを出力可能にする、理想的なフィードバック係数行列Ｆ＝Ｆ_new ^idealとする。フィードバック係数行列Ｆ_new ^idealは、下記式（２６）によって規定する。

フィードバック係数行列Ｆ_new ^idealによれば、下記式（２７）および下記式（２８）が成立することになる。

従って、フィードバック係数行列Ｆを、理想的なフィードバック係数行列Ｆ_new ^idealに更新することが望まれる。例えば、上記式（２７）および上記式（２８）が成立するように、フィードバック係数行列Ｆを更新することが望まれる。

ここで、上記式（２７）および上記式（２８）は、１つの式に纏めると、下記式（２９）によって規定される。

上記式（２９）は、上記式（２３）によって規定された行列Ｘと、上記式（２４）によって規定された行列Ｕ^betterとを用いれば、下記式（３０）によって規定される。

ここで、上記式（３０）を成立させる理想的なフィードバック係数行列Ｆ_new ^idealが存在するとは限らない。

しかしながら、下記式（３１）によって規定される、フロベニウスノルム｜｜・｜｜_Fで算出した誤差の二乗を最小化するフィードバック係数行列Ｆ_newの中で、｜｜Ｆ_new｜｜_Fを最小化するフィードバック係数行列Ｆ_newは１つ存在する。そして、｜｜Ｆ_new｜｜_Fを最小化するフィードバック係数行列Ｆ_newは、下記式（３２）により算出可能である。また、フィードバック係数行列Ｆ_newは、下記式（３３）によって規定する。

以上から、Ｕ^betterＸ†によれば、理想的なフィードバック係数行列Ｆ_new ^idealに比較的近いフィードバック係数行列Ｆ_newを算出可能であると判断される。このため、Ｕ^betterＸ†を用いれば、フィードバック係数行列Ｆを、理想的なフィードバック係数行列Ｆ_new ^idealに近づくように更新可能であると判断される。

上記式（２５）に示す更新式は、更新前のフィードバック係数行列Ｆと、フィードバック係数行列Ｆ_newを算出可能なＵ^betterＸ†とに重みを付けて、フィードバック係数行列Ｆを更新する数式である。このため、上記式（２５）に示す更新式は、フィードバック係数行列Ｆを、理想的なフィードバック係数行列Ｆ_new ^idealに近づくように更新することができる。上記式（２５）に示す更新式は、方策が、状態ｘ_tについても、フィードバック係数行列Ｆについても線形であることに基づいて導出することができる。

上記実施例では、方策改善装置１００が、バッチ処理形式により、フィードバック係数行列Ｆを更新する場合について説明したが、これに限らない。例えば、方策改善装置１００が、逐次処理形式により、フィードバック係数行列Ｆを更新する場合があってもよい。

この場合、方策改善装置１００は、（６－１１）～（６－１４）の処理を、１回ずつ実行する都度、（６－１６’）の処理に移行する。

（６－１６’）方策改善装置１００は、ＴＤ誤差δ_t＜０である場合には、フィードバック係数行列Ｆを更新する。方策改善装置１００は、例えば、状態ｘ_tと、入力ｕ_tとに基づいて、下記式（３４）に示す更新式により、フィードバック係数行列Ｆを更新する。βは、重みである。β＝１の場合があってもよい。†は、ムーア－ペンローズの一般化逆行列を示す。

そして、方策改善装置１００は、（６－１７’）の処理に移行する。

一方で、方策改善装置１００は、ＴＤ誤差δ_t≧０である場合には、フィードバック係数行列Ｆを更新せず、（６－１７’）の処理に移行する。

（６－１７’）方策改善装置１００は、下記式（３５）によって規定された推定状態価値関数のパラメータθ_Fを推定する。αは、重みである。その後、方策改善装置１００は、（６－１１）の処理に戻る。

上記実施例では、強化学習において、制御対象１１０の即時コストを用いる場合について説明したが、これに限らない。例えば、強化学習において、制御対象１１０の即時報酬を用いる場合があってもよい。

上記実施例では、方策改善装置１００が、Ｍ＞０であれば、フィードバック係数行列Ｆを更新するようにする場合について説明したが、これに限らない。例えば、方策改善装置１００が、Ｍ＞閾値であれば、フィードバック係数行列Ｆを更新するようにする場合があってもよい。

上記実施例では、方策が、状態ｘ_tについても、フィードバック係数行列Ｆについても線形である場合について説明したが、これに限らない。例えば、方策改善装置１００は、方策が、確定的であり、フィードバック係数行列Ｆについて線形であり、かつ、状態ｓ_tから計算される特徴量について線形である場合にも適用することができる。ここで、状態ｓ_tは、状態ｘ_tのように連続値を取るとは限らない、より一般の状態である。

具体的には、方策改善装置１００は、ｎ次元実数ベクトル空間とは限らない状態集合Ｓが存在し、各状態ｓ∈Ｓに対して、ｎ次元実数ベクトル空間上の特徴量φ（ｓ）を与える関数が、下記式（３６）によって定義され、方策が、下記式（３７）によって規定される場合にも適用することができる。この場合、方策改善装置１００は、状態ｘ_tに代わり、特徴量φ（ｓ_t）を用いればよい。

上記実施例では、方策改善装置１００が、上記式（１６）により、摂動項ε_tを含む入力ｕ_tを算出する場合について説明したが、これに限らない。例えば、方策改善装置１００が、下記式（３８）により、フィードバック係数行列Ｆに摂動行列Δ_tを加えて、入力ｕ_tを算出する場合があってもよい。摂動行列Δ_tは、下記式（３９）によって規定される。

上記実施例では、方策改善装置１００が、状態に関する一般化逆行列として、ムーア－ペンローズの一般化逆行列を用いる場合について説明したが、これに限らない。例えば、方策改善装置１００が、状態に関する一般化逆行列として、他の形式の一般化逆行列を用いる場合があってもよい。他の形式の一般化逆行列については、下記参考文献６、下記参考文献７、および下記参考文献８を参照することができる。

参考文献６：Ｂｅｎ－Ｉｓｒａｅｌ，Ａｄｉ，ａｎｄＴｈｏｍａｓＮＥＧｒｅｖｉｌｌｅ．Ｇｅｎｅｒａｌｉｚｅｄｉｎｖｅｒｓｅｓ：ｔｈｅｏｒｙａｎｄａｐｐｌｉｃａｔｉｏｎｓ．Ｖｏｌ．１５．ＳｐｒｉｎｇｅｒＳｃｉｅｎｃｅ＆ＢｕｓｉｎｅｓｓＭｅｄｉａ，２００３．

参考文献７：Ｙａｎａｉ，Ｈａｒｕｏ，ＫｅｉＴａｋｅｕｃｈｉ，ａｎｄＹｏｓｈｉｏＴａｋａｎｅ． “ＰｒｏｊｅｃｔｉｏｎＭａｔｒｉｃｅｓ．” ＰｒｏｊｅｃｔｉｏｎＭａｔｒｉｃｅｓ，ＧｅｎｅｒａｌｉｚｅｄＩｎｖｅｒｓｅＭａｔｒｉｃｅｓ，ａｎｄＳｉｎｇｕｌａｒＶａｌｕｅＤｅｃｏｍｐｏｓｉｔｉｏｎ．Ｓｐｒｉｎｇｅｒ，ＮｅｗＹｏｒｋ，ＮＹ，２０１１．２５－５４．

参考文献８：Ｂｅｒｎｓｔｅｉｎ，ＤｅｎｎｉｓＳ．Ｍａｔｒｉｘｍａｔｈｅｍａｔｉｃｓ：ｔｈｅｏｒｙ，ｆａｃｔｓ，ａｎｄｆｏｒｍｕｌａｓ．Ｐｒｉｎｃｅｔｏｎｕｎｉｖｅｒｓｉｔｙｐｒｅｓｓ，２００９．

（入力決定の回数を比較した一例）
次に、図７を用いて、方策改善装置１００と、方策改善装置１００以外との入力決定の回数を比較した一例について説明する。

図７は、入力決定の回数を比較した一例を示す説明図である。図７に示す表７００は、上述した参考文献１を参考にした第１の制御手法、上述した参考文献２および参考文献３を参考にした第２の制御手法（制御手法α）、および、方策改善装置１００の入力決定の回数を比較した結果を表す。

第１の制御手法では、状態－行動価値関数に基づいて方策を改善しており、方策評価にかかる入力決定の回数は、Ｎ_e回であり、方策更新にかかる入力決定の回数は、０回であるが、入力に適切に摂動項を加える方法が明らかでなければ、方策更新が難しくなるという問題がある。

第２の制御手法では、状態価値関数に基づいて方策を改善しており、方策評価にかかる入力決定の回数は、Ｎ’_e回であり、方策更新にかかる入力決定の回数は、ｍｎＮ_i回であり、入力決定の回数が、フィードバック係数行列Ｆの大きさｍｎに比例して大きくなるという問題がある。ここで、Ｎ_e＞Ｎ’_eである。

これに対し、方策改善装置１００は、バッチ処理形式により、状態価値関数に基づいて方策を改善する装置であり、方策評価にかかる入力決定の回数を、Ｎ’_e回として、方策更新にかかる入力決定の回数を、Ｎ_i ^ac回とすることができる。ここで、Ｎ_i ^ac＜ｍｎＮ_iである。これにより、方策改善装置１００は、第１の制御手法とは異なり、状態価値関数に基づいて、方策更新を実施することができる。また、方策改善装置１００は、第２の制御手法とは異なり、入力決定の回数の低減化を図りつつ、方策更新を実施することができる。

また、方策改善装置１００は、逐次処理形式により、状態価値関数に基づいた方策評価および方策更新にかかる入力決定の回数を、１回とすることができる。これにより、方策改善装置１００は、第１の制御手法とは異なり、状態価値関数に基づいて、方策更新を実施することができる。また、方策改善装置１００は、第２の制御手法とは異なり、入力決定の回数の低減化を図りつつ、方策更新を実施することができる。

（制御対象１１０の具体例）
次に、図８～図１０を用いて、制御対象１１０の具体例について説明する。

図８～図１０は、制御対象１１０の具体例を示す説明図である。図８の例では、制御対象１１０は、熱源であるサーバ８０１と、ＣＲＡＣやＣｈｉｌｌｅｒなどの冷却器８０２とを含むサーバルーム８００である。入力は、冷却器８０２に対する設定温度や設定風量である。状態は、サーバルーム８００に設けられたセンサ装置からのセンサデータなどであり、例えば、温度などである。状態は、制御対象１１０以外から得られる制御対象１１０に関するデータであってもよく、例えば、気温や天気などであってもよい。即時コストは、例えば、サーバルーム８００の単位時間ごとの消費電力量である。単位時間は、例えば、５分である。目標は、サーバルーム８００の累積消費電力量の最小化である。状態価値関数は、例えば、サーバルーム８００の累積消費電力量についての状態の価値を表す。

方策改善装置１００は、累積コストである累積消費電力量を効率よく最小化するように、フィードバック係数行列Ｆを更新することができる。また、方策改善装置１００は、フィードバック係数行列Ｆの更新にかかる入力決定回数の低減化を図ることができる。このため、方策改善装置１００は、制御対象１１０の累積消費電力量が最小化されるまでにかかる時間の低減化を図ることができ、サーバルーム８００の運営コストの低減化を図ることができる。また、方策改善装置１００は、サーバ８０１の使用状況の変化および気温の変化などが発生した場合も、その変化から比較的短い時間で、累積消費電力量を効率よく最小化することができる。

ここでは、即時コストが、サーバルーム８００の単位時間ごとの消費電力量である場合について説明したが、これに限らない。即時コストは、例えば、サーバルーム８００の目標とする室温と現在の室温との誤差の二乗和であってもよい。目標は、例えば、サーバルーム８００の目標とする室温と現在の室温との誤差の二乗和の累積値の最小化であってもよい。状態価値価数は、例えば、目標とする室温と現在の室温との誤差に関する状態の価値を表す。

図９の例では、制御対象１１０は、発電機９００である。発電機９００は、例えば、風力発電機である。入力は、発電機９００に対する指令値である。指令値は、例えば、発電機トルクである。状態は、発電機９００に設けられたセンサ装置からのセンサデータであり、例えば、発電機９００の発電量や発電機９００のタービンの回転量または回転速度などである。状態は、発電機９００に対する風向や風速などであってもよい。即時報酬は、例えば、発電機９００の単位時間ごとの発電量である。単位時間は、例えば、５分である。目標は、例えば、発電機９００の累積発電量の最大化である。状態価値関数は、例えば、発電機９００の累積発電量についての状態の価値を表す。

方策改善装置１００は、累積報酬である累積発電量を効率よく最大化するように、フィードバック係数行列Ｆを更新することができる。また、方策改善装置１００は、フィードバック係数行列Ｆの更新にかかる入力決定回数の低減化を図ることができる。このため、方策改善装置１００は、制御対象１１０の累積発電量が最大化されるまでにかかる時間の低減化を図ることができ、発電機９００の利益の増大化を図ることができる。また、方策改善装置１００は、発電機９００の状況の変化などが発生した場合も、その変化から比較的短い時間で、累積発電量を効率よく最大化することができる。

図１０の例では、制御対象１１０は、産業用ロボット１０００である。産業用ロボット１０００は、例えば、ロボットアームである。入力は、産業用ロボット１０００に対する指令値である。指令値は、例えば、産業用ロボット１０００のモータートルクなどである。状態は、産業用ロボット１０００に設けられたセンサ装置からのセンサデータであり、例えば、産業用ロボット１０００の撮影した画像、産業用ロボット１０００の関節位置や関節角度や関節角速度などである。即時報酬は、例えば、産業用ロボット１０００の単位時間ごとの組み立て数などである。目標は、産業用ロボット１０００の生産性の最大化である。状態価値関数は、例えば、産業用ロボット１０００の累積組み立て数についての状態の価値を表す。

方策改善装置１００は、累積報酬である累積組み立て数を効率よく最大化するように、フィードバック係数行列Ｆを更新することができる。また、方策改善装置１００は、フィードバック係数行列Ｆの更新にかかる入力決定回数の低減化を図ることができる。このため、方策改善装置１００は、制御対象１１０の累積組み立て数が最大化されるまでにかかる時間の低減化を図ることができ、産業用ロボット１０００の利益の増大化を図ることができる。また、方策改善装置１００は、産業用ロボット１０００の状況の変化などが発生した場合も、その変化から比較的短い時間で、累積組み立て数を効率よく最大化することができる。

また、制御対象１１０は、上述した具体例のシミュレータであってもよい。また、制御対象１１０は、風力発電以外の発電設備であってもよい。また、制御対象１１０は、例えば、化学プラントなどであってもよい。また、制御対象１１０は、例えば、自律移動体などであってもよい。自律移動体は、例えば、ドローン、ヘリコプター、自律移動ロボット、自動車などである。また、制御対象１１０は、ゲームであってもよい。

（バッチ処理形式の強化学習処理手順）
次に、図１１を用いて、方策改善装置１００が実行する、バッチ処理形式の強化学習処理手順の一例について説明する。バッチ処理形式の強化学習処理は、例えば、図２に示したＣＰＵ２０１と、メモリ２０２や記録媒体２０５などの記憶領域と、ネットワークＩ／Ｆ２０３とによって実現される。

図１１は、バッチ処理形式の強化学習処理手順の一例を示すフローチャートである。方策改善装置１００は、例えば、ユーザの所定の操作入力を受け付けた場合などに、バッチ処理形式の強化学習処理を開始する。

図１１において、方策改善装置１００は、フィードバック係数行列Ｆを初期化する（ステップＳ１１０１）。そして、方策改善装置１００は、ステップＳ１１０２の処理に移行する。

ステップＳ１１０２では、方策改善装置１００は、状態価値関数を推定し、方策を評価する（ステップＳ１１０２）。次に、方策改善装置１００は、現在の方策と所定の探索方法とに基づいて、入力ｕ_tを算出し、制御対象１１０に印加する（ステップＳ１１０３）。そして、方策改善装置１００は、状態価値関数を推定した推定状態価値関数を用いて、入力ｕ_tに対するＴＤ誤差δ_tを算出する（ステップＳ１１０４）。

次に、方策改善装置１００は、ＴＤ誤差δ_t＜０であるか否かを判定する（ステップＳ１１０５）。ここで、ＴＤ誤差δ_t＜０である場合（ステップＳ１１０５：Ｙｅｓ）、方策改善装置１００は、ステップＳ１１０６の処理に移行する。一方で、ＴＤ誤差δ_t≧０である場合（ステップＳ１１０５：Ｎｏ）、方策改善装置１００は、ステップＳ１１０７の処理に移行する。

ステップＳ１１０６では、方策改善装置１００は、入力ｕ_tを記録し、状態ｘ_tを記録する（ステップＳ１１０６）。そして、方策改善装置１００は、ステップＳ１１０８の処理に移行する。

ステップＳ１１０７では、方策改善装置１００は、入力ｕ_t－ε_tを記録し、状態ｘ_tを記録する（ステップＳ１１０７）。そして、方策改善装置１００は、ステップＳ１１０８の処理に移行する。

ステップＳ１１０８では、方策改善装置１００は、ステップＳ１１０２～Ｓ１１０７の処理を、Ｎ_i ^ac回繰り返したか否かを判定する（ステップＳ１１０８）。ここで、Ｎ_i ^ac回繰り返していない場合（ステップＳ１１０８：Ｎｏ）、方策改善装置１００は、ステップＳ１１０２の処理に戻る。一方で、Ｎ_i ^ac回繰り返している場合（ステップＳ１１０８：Ｙｅｓ）、方策改善装置１００は、ステップＳ１１０９の処理に移行する。

ステップＳ１１０９では、方策改善装置１００は、Ｎ_i ^ac回のうちＴＤ誤差δ_t＜０であった回数Ｍ＞０であるか否かを判定する（ステップＳ１１０９）。ここで、回数Ｍ＝０である場合（ステップＳ１１０９：Ｎｏ）、方策改善装置１００は、ステップＳ１１０２の処理に戻る。一方で、回数Ｍ＞０である場合（ステップＳ１１０９：Ｙｅｓ）、方策改善装置１００は、ステップＳ１１１０の処理に移行する。

ステップＳ１１１０では、方策改善装置１００は、記録された入力ｕ_tや入力ｕ_t－ε_tを並べた行列と、状態ｘ_tを並べた行列の一般化逆行列とを用いた更新式により、方策を更新する（ステップＳ１１１０）。そして、方策改善装置１００は、ステップＳ１１０２の処理に戻る。

方策改善装置１００は、例えば、方策の更新が所定回数実行された場合、更新前後の方策の差異が一定以下である場合、または、ユーザの所定の操作入力を受け付けた場合などに、バッチ処理形式の強化学習処理を終了する。これにより、方策改善装置１００は、制御対象１１０を制御することができる。

（逐次処理形式の強化学習処理手順）
次に、図１２を用いて、方策改善装置１００が実行する、逐次処理形式の強化学習処理手順の一例について説明する。逐次処理形式の強化学習処理は、例えば、図２に示したＣＰＵ２０１と、メモリ２０２や記録媒体２０５などの記憶領域と、ネットワークＩ／Ｆ２０３とによって実現される。

図１２は、逐次処理形式の強化学習処理手順の一例を示すフローチャートである。方策改善装置１００は、例えば、ユーザの所定の操作入力を受け付けた場合などに、逐次処理形式の強化学習処理を開始する。

図１２において、方策改善装置１００は、フィードバック係数行列Ｆを初期化する（ステップＳ１２０１）。そして、方策改善装置１００は、ステップＳ１２０２の処理に移行する。

ステップＳ１２０２では、方策改善装置１００は、現在の方策と所定の探索方法とに基づいて、入力ｕ_tを算出し、制御対象１１０に印加する（ステップＳ１２０２）。次に、方策改善装置１００は、状態価値関数を推定した推定状態価値関数を用いて、入力ｕ_tに対するＴＤ誤差δ_tを算出する（ステップＳ１２０３）。そして、方策改善装置１００は、状態価値関数を推定し、方策を評価する（ステップＳ１２０４）。

次に、方策改善装置１００は、ＴＤ誤差δ_t＜０であるか否かを判定する（ステップＳ１２０５）。ここで、ＴＤ誤差δ_t＜０である場合（ステップＳ１２０５：Ｙｅｓ）、方策改善装置１００は、ステップＳ１２０６の処理に移行する。一方で、ＴＤ誤差δ_t≧０である場合（ステップＳ１２０５：Ｎｏ）、方策改善装置１００は、ステップＳ１２０２の処理に戻る。

ステップＳ１２０６では、方策改善装置１００は、入力ｕ_tと、状態ｘ_tの一般化逆行列とを用いた更新式により、方策を更新する（ステップＳ１２０６）。そして、方策改善装置１００は、ステップＳ１２０２の処理に戻る。

方策改善装置１００は、方策の更新が所定回数実行された場合、更新前後の方策の差異が一定以下である場合、または、ユーザの所定の操作入力を受け付けた場合などに、バッチ処理形式の強化学習処理を終了する。これにより、方策改善装置１００は、制御対象１１０を制御することができる。

以上説明したように、方策改善装置１００によれば、方策と、強化学習における制御対象１１０に対する入力を探索する所定の探索方法とに基づいて、制御対象１１０に対する入力を算出することができる。方策改善装置１００によれば、算出した入力を制御対象１１０に印加した結果に基づいて、制御対象１１０に対する入力と、制御対象１１０の状態に関する一般化逆行列とを用いて、方策のパラメータを更新することができる。これにより、方策改善装置１００は、方策のパラメータの成分数に依らず、方策のパラメータの更新にかかる入力決定回数の低減化を図ることができる。

方策改善装置１００によれば、方策と探索方法とに基づいて、制御対象１１０に対する入力を算出することができる。方策改善装置１００によれば、算出した入力を制御対象１１０に印加した結果に基づいて、方策のパラメータの更新に、入力を利用するか否かを判定することができる。方策改善装置１００によれば、入力を利用すると判定した場合に、入力と、入力を算出した際の制御対象１１０の状態に関する一般化逆行列とを用いて、方策のパラメータを更新することができる。これにより、方策改善装置１００は、逐次処理形式で強化学習を実施することができる。

方策改善装置１００によれば、方策と探索方法とに基づいて、制御対象１１０に対する入力を算出することができる。方策改善装置１００によれば、算出した入力を制御対象１１０に印加した結果に基づいて、方策のパラメータの更新に、算出した入力を利用するか否かを判定することができる。方策改善装置１００によれば、算出した入力を利用すると判定した場合には、算出した入力を記録し、算出した入力を利用しないと判定した場合には、方策から算出される、制御対象１１０に対する他の入力を記録することができる。方策改善装置１００によれば、入力を算出した際の制御対象１１０の状態を記録することができる。方策改善装置１００によれば、記録した複数回分の制御対象１１０に対する入力と、記録した複数回分の制御対象１１０の状態に関する一般化逆行列とを用いて、方策のパラメータを更新することができる。これにより、方策改善装置１００は、バッチ処理形式で強化学習を実施することができる。

方策改善装置１００によれば、状態価値関数を推定し、算出した入力を制御対象１１０に印加した結果と、状態価値関数を推定した結果とに基づいて、ＴＤ誤差を算出することができる。方策改善装置１００によれば、算出したＴＤ誤差に基づいて、入力を利用するか否かを判定することができる。これにより、方策改善装置１００は、ＴＤ誤差に基づいて、入力を利用するか否かを精度よく判定することができる。

方策改善装置１００によれば、状態価値関数を推定し、算出した入力を制御対象１１０に印加した結果と、状態価値関数を推定した結果とに基づいて、ＴＤ誤差を算出することができる。方策改善装置１００によれば、算出したＴＤ誤差に基づいて、入力により好ましい効果が得られたと判断した場合には、入力を利用すると判定し、入力により好ましい効果が得られなかったと判断した場合には、入力を利用しないと判定することができる。方策改善装置１００によれば、好ましい効果が得られたと判断した入力を出力し、かつ、好ましい効果が得られなかったと判断した入力を出力しない傾向が現れるように、方策のパラメータを更新することができる。これにより、方策改善装置１００は、好ましい効果が得られたと判断した入力を出力可能に、方策のパラメータを更新することができ、方策を効率よく改善することができる。

方策改善装置１００によれば、記録した複数回分の入力を並べて形成した行列と、記録した複数回分の状態を並べて形成した行列の一般化逆行列とにより表現される更新式を用いて、方策のパラメータを更新することができる。これにより、方策改善装置１００は、好ましい効果が得られたと判断した入力を出力可能に、方策のパラメータを精度よく更新することができる。

方策改善装置１００によれば、方策と、方策から算出される入力に摂動を加える探索方法とに基づいて、制御対象１１０に対する入力を算出することができる。これにより、方策改善装置１００は、現状最適と判断される入力以外に、より適切な入力が存在するか否かを探索するために、制御対象１１０に、現状最適と判断される入力以外を印加することができる。

方策改善装置１００によれば、方策と、方策のパラメータに摂動を加える探索方法とに基づいて、制御対象１１０に対する入力を算出することができる。これにより、方策改善装置１００は、現状最適と判断される入力以外に、より適切な入力が存在するか否かを探索するために、制御対象１１０に、現状最適と判断される入力以外を印加することができる。

方策改善装置１００によれば、方策と、ε貪欲法とに基づいて、制御対象１１０に対する入力を算出することができる。これにより、方策改善装置１００は、現状最適と判断される入力以外に、より適切な入力が存在するか否かを探索するために、制御対象１１０に、現状最適と判断される入力以外を印加することができる。

方策改善装置１００によれば、一括最小二乗法、逐次最小二乗法、一括ＬＳＴＤアルゴリズム、または、逐次ＬＳＴＤアルゴリズムのいずれかを用いて、状態価値関数を推定することができる。これにより、方策改善装置１００は、状態価値関数を精度よく推定することができる。

方策改善装置１００によれば、確定的であり、連続値を取る入力を算出する制御則であり、方策のパラメータについて線形である方策を用いることができる。これにより、方策改善装置１００は、パラメータを更新する更新式を導出しやすい方策を用いることができる。

方策改善装置１００によれば、空調設備の設定温度と空調設備の設定風量との少なくともいずれかを入力として用いることができる。方策改善装置１００によれば、空調設備がある部屋の内部の温度と空調設備がある部屋の外部の温度と気候との少なくともいずれかを状態として用いることができる。方策改善装置１００によれば、空調設備の消費電力量をコストとして用いることができる。これにより、方策改善装置１００は、制御対象１１０が空調設備である場合に適用することができる。

方策改善装置１００によれば、発電設備の発電機トルクを入力として用いることができる。方策改善装置１００によれば、発電設備の発電量と発電設備のタービンの回転量と発電設備のタービンの回転速度と発電設備に対する風向と発電設備に対する風速との少なくともいずれかを状態として用いることができる。方策改善装置１００によれば、発電設備の発電量を報酬として用いることができる。これにより、方策改善装置１００は、制御対象１１０が、発電設備である場合に適用することができる。

方策改善装置１００によれば、産業用ロボットのモータートルクを入力として用いることができる。方策改善装置１００によれば、産業用ロボットの撮影した画像と産業用ロボットの関節位置と産業用ロボットの関節角度と産業用ロボットの関節角速度との少なくともいずれかを状態として用いることができる。方策改善装置１００によれば、産業用ロボットの生産量を報酬として用いることができる。これにより、方策改善装置１００は、制御対象１１０が、産業用ロボットである場合に適用することができる。

なお、本実施の形態で説明した方策改善方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本実施の形態で説明した方策改善プログラムは、ハードディスク、フレキシブルディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本実施の形態で説明した方策改善プログラムは、インターネット等のネットワークを介して配布してもよい。

上述した実施の形態に関し、さらに以下の付記を開示する。

（付記１）状態価値関数に基づいて強化学習の方策を改善する方策改善方法であって、
前記方策と、前記強化学習における制御対象に対する入力を探索する所定の探索方法とに基づいて、前記制御対象に対する入力を算出し、
算出した前記入力を前記制御対象に印加した結果に基づいて、前記制御対象に対する入力と、前記制御対象の状態に関する一般化逆行列とを用いて、前記方策のパラメータを更新する、
処理をコンピュータが実行することを特徴とする方策改善方法。

（付記２）前記方策と前記探索方法とに基づいて、前記制御対象に対する入力を算出し、
算出した前記入力を前記制御対象に印加した結果に基づいて、前記方策のパラメータの更新に、前記入力を利用するか否かを判定し、
前記入力を利用すると判定した場合に、前記入力と、前記入力を算出した際の前記制御対象の状態に関する一般化逆行列とを用いて、前記方策のパラメータを更新する、
処理を前記コンピュータが実行することを特徴とする付記１に記載の方策改善方法。

（付記３）前記方策と前記探索方法とに基づいて、前記制御対象に対する入力を算出し、
算出した前記入力を前記制御対象に印加した結果に基づいて、前記方策のパラメータの更新に、前記入力を利用するか否かを判定し、
前記入力を利用すると判定した場合には、前記入力を記録し、
前記入力を利用しないと判定した場合には、前記方策から算出される、前記制御対象に対する他の入力を記録し、
前記入力を算出した際の前記制御対象の状態を記録する、
処理を前記コンピュータが複数回実行し、
前記更新する処理は、
記録した複数回分の前記制御対象に対する入力と、記録した複数回分の前記制御対象の状態に関する一般化逆行列とを用いて、前記方策のパラメータを更新する、ことを特徴とする付記１または２に記載の方策改善方法。

（付記４）前記状態価値関数を推定し、
算出した前記入力を前記制御対象に印加した結果と、前記状態価値関数を推定した結果とに基づいて、ＴＤ誤差を算出する、
処理を前記コンピュータが実行し、
前記判定する処理は、
算出した前記ＴＤ誤差に基づいて、前記入力を利用するか否かを判定する、ことを特徴とする付記２または３に記載の方策改善方法。

（付記５）前記状態価値関数を推定し、
算出した前記入力を前記制御対象に印加した結果と、前記状態価値関数を推定した結果とに基づいて、ＴＤ誤差を算出する、
処理を前記コンピュータが実行し、
前記判定する処理は、
算出した前記ＴＤ誤差に基づいて、前記入力により好ましい効果が得られたと判断した場合には、前記入力を利用すると判定し、前記入力により好ましい効果が得られなかったと判断した場合には、前記入力を利用しないと判定し、
前記更新する処理は、
好ましい効果が得られたと判断した前記制御対象に対する入力を出力し、かつ、好ましい効果が得られなかったと判断した前記制御対象に対する入力を出力しない傾向が現れるように、記録した複数回分の前記制御対象に対する入力と、記録した複数回分の前記制御対象の状態に関する一般化逆行列とを用いて、前記方策のパラメータを更新する、ことを特徴とする付記３に記載の方策改善方法。

（付記６）前記更新する処理は、
記録した複数回分の前記制御対象に対する入力を並べて形成した行列と、記録した複数回分の前記制御対象の状態を並べて形成した行列の一般化逆行列とにより表現される更新式（数２５）を用いて、前記方策のパラメータを更新する、ことを特徴とする付記５に記載の方策改善方法。

（付記７）前記算出する処理は、
前記方策と、前記方策から算出される入力に摂動を加える探索方法とに基づいて、前記制御対象に対する入力を算出する、ことを特徴とする付記１～６のいずれか一つに記載の方策改善方法。

（付記８）前記算出する処理は、
前記方策と、前記方策のパラメータに摂動を加える探索方法とに基づいて、前記制御対象に対する入力を算出する、ことを特徴とする付記１～７のいずれか一つに記載の方策改善方法。

（付記９）前記算出する処理は、
前記方策と、ε貪欲法とに基づいて、前記制御対象に対する入力を算出する、ことを特徴とする付記１～８のいずれか一つに記載の方策改善方法。

（付記１０）前記推定する処理は、
一括最小二乗法、逐次最小二乗法、一括ＬＳＴＤアルゴリズム、または、逐次ＬＳＴＤアルゴリズムのいずれかを用いて、前記状態価値関数を推定する、ことを特徴とする付記４～６のいずれか一つに記載の方策改善方法。

（付記１１）前記方策は、確定的であり、連続値を取る入力を算出する制御則であり、前記方策のパラメータについて線形である、ことを特徴とする付記１～１０のいずれか一つに記載の方策改善方法。

（付記１２）前記制御対象は、空調設備であり、
前記強化学習は、前記空調設備の設定温度と前記空調設備の設定風量との少なくともいずれかを入力とし、前記空調設備がある部屋の内部の温度と前記空調設備がある部屋の外部の温度と気候との少なくともいずれかを状態とし、前記空調設備の消費電力量をコストとする、ことを特徴とする付記１～１１のいずれか一つに記載の方策改善方法。

（付記１３）前記制御対象は、発電設備であり、
前記強化学習は、前記発電設備の発電機トルクを入力とし、前記発電設備の発電量と前記発電設備のタービンの回転量と前記発電設備のタービンの回転速度と前記発電設備に対する風向と前記発電設備に対する風速との少なくともいずれかを状態とし、前記発電設備の発電量を報酬とする、ことを特徴とする付記１～１２のいずれか一つに記載の方策改善方法。

（付記１４）前記制御対象は、産業用ロボットであり、
前記強化学習は、前記産業用ロボットのモータートルクを入力とし、前記産業用ロボットの撮影した画像と前記産業用ロボットの関節位置と前記産業用ロボットの関節角度と前記産業用ロボットの関節角速度との少なくともいずれかを状態とし、前記産業用ロボットの生産量を報酬とする、ことを特徴とする付記１～１３のいずれか一つに記載の方策改善方法。

（付記１５）状態価値関数に基づいて強化学習の方策を改善する方策改善プログラムであって、
前記方策と、前記強化学習における制御対象に対する入力を探索する所定の探索方法とに基づいて、前記制御対象に対する入力を算出し、
算出した前記入力を前記制御対象に印加した結果に基づいて、前記制御対象に対する入力と、前記制御対象の状態に関する一般化逆行列とを用いて、前記方策のパラメータを更新する、
処理をコンピュータに実行させることを特徴とする方策改善プログラム。

（付記１６）状態価値関数に基づいて強化学習の方策を改善する方策改善装置であって、
前記方策と、前記強化学習における制御対象に対する入力を探索する所定の探索方法とに基づいて、前記制御対象に対する入力を算出し、
算出した前記入力を前記制御対象に印加した結果に基づいて、前記制御対象に対する入力と、前記制御対象の状態に関する一般化逆行列とを用いて、前記方策のパラメータを更新する、
制御部を有することを特徴とする方策改善装置。

１００方策改善装置
１１０制御対象
２００バス
２０１，２０１ＣＰＵ
２０２，３０２メモリ
２０３，３０３ネットワークＩ／Ｆ
２０４記録媒体Ｉ／Ｆ
２０５，３０５記録媒体
２１０ネットワーク
３００方策改善テーブル
４００方策評価テーブル
５００記憶部
５０１観測部
５０２推定部
５０３算出部
５０４判定部
５０５更新部
５０６出力部
７００表
８００サーバルーム
８０１サーバ
８０２冷却器
９００発電機
１０００産業用ロボット

Claims

状態価値関数に基づいて強化学習の方策を改善する方策改善方法であって、
前記方策と、前記強化学習における制御対象に対する入力を探索する所定の探索方法とに基づいて、前記制御対象に対する入力を算出し、
算出した前記入力を前記制御対象に印加した結果に基づいて、前記方策のパラメータの更新に、算出した前記入力を利用するか否かを判定し、
利用すると判定した前記入力と、利用すると判定した前記入力を算出した際の前記制御対象の状態に関する一般化逆行列とを用いて、前記方策のパラメータを更新する、
処理をコンピュータが実行することを特徴とする方策改善方法。
前記方策と前記探索方法とに基づいて、前記制御対象に対する入力を算出し、
算出した前記入力を前記制御対象に印加した結果に基づいて、前記方策のパラメータの更新に、前記入力を利用するか否かを判定し、
前記入力を利用すると判定した場合に、前記入力と、前記入力を算出した際の前記制御対象の状態に関する一般化逆行列とを用いて、前記方策のパラメータを更新する、
処理を前記コンピュータが実行することを特徴とする請求項１に記載の方策改善方法。
前記方策と前記探索方法とに基づいて、前記制御対象に対する入力を算出し、
算出した前記入力を前記制御対象に印加した結果に基づいて、前記方策のパラメータの更新に、前記入力を利用するか否かを判定し、
前記入力を利用すると判定した場合には、前記入力を記録し、
前記入力を利用しないと判定した場合には、前記方策から算出される、前記制御対象に対する他の入力を記録し、
前記入力を算出した際の前記制御対象の状態を記録する、
処理を前記コンピュータが複数回実行し、
前記更新する処理は、
記録した複数回分の前記制御対象に対する入力と、記録した複数回分の前記制御対象の状態に関する一般化逆行列とを用いて、前記方策のパラメータを更新する、ことを特徴とする請求項１または２に記載の方策改善方法。
前記状態価値関数を推定し、
算出した前記入力を前記制御対象に印加した結果と、前記状態価値関数を推定した結果とに基づいて、ＴＤ誤差を算出する、
処理を前記コンピュータが実行し、
前記判定する処理は、
算出した前記ＴＤ誤差に基づいて、前記入力を利用するか否かを判定する、ことを特徴とする請求項２または３に記載の方策改善方法。
前記状態価値関数を推定し、
算出した前記入力を前記制御対象に印加した結果と、前記状態価値関数を推定した結果とに基づいて、ＴＤ誤差を算出する、
処理を前記コンピュータが実行し、
前記判定する処理は、
算出した前記ＴＤ誤差に基づいて、前記入力により好ましい効果が得られたと判断した場合には、前記入力を利用すると判定し、前記入力により好ましい効果が得られなかったと判断した場合には、前記入力を利用しないと判定し、
前記更新する処理は、
好ましい効果が得られたと判断した前記制御対象に対する入力を出力し、かつ、好ましい効果が得られなかったと判断した前記制御対象に対する入力を出力しない傾向が現れるように、記録した複数回分の前記制御対象に対する入力と、記録した複数回分の前記制御対象の状態に関する一般化逆行列とを用いて、前記方策のパラメータを更新する、ことを特徴とする請求項３に記載の方策改善方法。
前記更新する処理は、
記録した複数回分の前記制御対象に対する入力を並べて形成した行列と、記録した複数回分の前記制御対象の状態を並べて形成した行列の一般化逆行列とにより表現される更新式を用いて、前記方策のパラメータを更新する、ことを特徴とする請求項５に記載の方策改善方法。
前記算出する処理は、
前記方策と、前記方策から算出される入力に摂動を加える探索方法とに基づいて、前記制御対象に対する入力を算出する、ことを特徴とする請求項１～６のいずれか一つに記載の方策改善方法。
前記算出する処理は、
前記方策と、前記方策のパラメータに摂動を加える探索方法とに基づいて、前記制御対象に対する入力を算出する、ことを特徴とする請求項１～７のいずれか一つに記載の方策改善方法。
前記方策は、確定的であり、連続値を取る入力を算出する制御則であり、前記方策のパラメータについて線形である、ことを特徴とする請求項１～８のいずれか一つに記載の方策改善方法。
前記制御対象は、空調設備であり、
前記強化学習は、前記空調設備の設定温度と前記空調設備の設定風量との少なくともいずれかを入力とし、前記空調設備がある部屋の内部の温度と前記空調設備がある部屋の外部の温度と気候との少なくともいずれかを状態とし、前記空調設備の消費電力量をコストとする、ことを特徴とする請求項１～９のいずれか一つに記載の方策改善方法。
前記制御対象は、発電設備であり、
前記強化学習は、前記発電設備の発電機トルクを入力とし、前記発電設備の発電量と前記発電設備のタービンの回転量と前記発電設備のタービンの回転速度と前記発電設備に対する風向と前記発電設備に対する風速との少なくともいずれかを状態とし、前記発電設備の発電量を報酬とする、ことを特徴とする請求項１～１０のいずれか一つに記載の方策改善方法。
前記制御対象は、産業用ロボットであり、
前記強化学習は、前記産業用ロボットのモータートルクを入力とし、前記産業用ロボットの撮影した画像と前記産業用ロボットの関節位置と前記産業用ロボットの関節角度と前記産業用ロボットの関節角速度との少なくともいずれかを状態とし、前記産業用ロボットの生産量を報酬とする、ことを特徴とする請求項１～１１のいずれか一つに記載の方策改善方法。
状態価値関数に基づいて強化学習の方策を改善する方策改善プログラムであって、
前記方策と、前記強化学習における制御対象に対する入力を探索する所定の探索方法とに基づいて、前記制御対象に対する入力を算出し、
算出した前記入力を前記制御対象に印加した結果に基づいて、前記方策のパラメータの更新に、算出した前記入力を利用するか否かを判定し、
利用すると判定した前記入力と、利用すると判定した前記入力を算出した際の前記制御対象の状態に関する一般化逆行列とを用いて、前記方策のパラメータを更新する、
処理をコンピュータに実行させることを特徴とする方策改善プログラム。
状態価値関数に基づいて強化学習の方策を改善する方策改善装置であって、
前記方策と、前記強化学習における制御対象に対する入力を探索する所定の探索方法とに基づいて、前記制御対象に対する入力を算出し、
算出した前記入力を前記制御対象に印加した結果に基づいて、前記方策のパラメータの更新に、算出した前記入力を利用するか否かを判定し、
利用すると判定した前記入力と、利用すると判定した前記入力を算出した際の前記制御対象の状態に関する一般化逆行列とを用いて、前記方策のパラメータを更新する、
制御部を有することを特徴とする方策改善装置。