JP6940830B2

JP6940830B2 - パラメタ算出装置、パラメタ算出方法、パラメタ算出プログラム

Info

Publication number: JP6940830B2
Application number: JP2019565102A
Authority: JP
Inventors: 拓也平岡
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-01-10
Filing date: 2018-01-10
Publication date: 2021-09-29
Anticipated expiration: 2038-01-10
Also published as: JPWO2019138457A1; US20210065056A1; WO2019138457A1

Description

本発明は、パラメタ算出装置に関し、特に、階層プランナにおけるパラメタ算出装置に関する。

強化学習（Reinforcement Learning）とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種である。エージェントは行動を選択することで環境から報酬を得る。強化学習は、一連の行動を通じて報酬が最も多く得られるような方策（policy）を学習する。環境は制御対象や対象システムとも呼ばれる。

複雑な環境における強化学習においては、学習にかかる計算時間の長大化が大きなボトルネックとなりがちである。そのような問題を解決するための強化学習のバリエーションの一つとして、予め別のモデルで探索すべき範囲を限定した上で、強化学習エージェントはその限定された探索空間で学習を行うことで、学習を効率化する、「階層強化学習」と呼ばれる枠組みがある。探索空間を限定するためのモデルを上位プランナと呼び、上位プランナから提示された探索空間上で学習を行う強化学習モデルを下位プランナと呼ぶ。上位プランナと下位プランナとの組み合わせは、階層プランナと呼ばれる。下位プランナと環境との組み合わせは、シミュレータとも呼ばれる。

例えば、非特許文献１は、Meta-ControllerとControllerとの２つの強化学習エージェントからなる「階層強化学習」を提案している。開始状態から目標状態（Goal）までの間に複数の中間状態がある状況において、開始状態から最短経路で目標状態（目的状態）まで到達したい場合を想定する。ここで、各中間状態はサブゴール(Subgoal)とも呼ばれる。非特許文献１においては、Meta-Controllerは、あらかじめ与えられた複数のサブゴール（但し、非特許文献１では、”goal”と記している）の中から、次に達成すべきサブゴールをControllerへ提示している。

Meta-Controllerは上記上位プランナとも呼ばれ、Controllerは上記下位プランナとも呼ばれる。したがって、非特許文献１では、上位プランナが複数のサブゴールの中から特定のサブゴールを決定し、下位プランナが特定のサブゴールに基づいて環境に対する実際のアクションを決めている。

上位プランナは、知識中の記号的表現でプランを生成する。例えば、環境がタンクであったとする。この場合、上位プランナは、例えば、タンクの温度が高温の時は、タンクの温度を下げてください、のようにプランニングをする。

これに対して、シミュレータは、実世界の連続量でシミュレーションを行う。その為、シミュレータでは、高温って何度であるかや、何度まで下げるのか、等を理解することができない。換言すれば、シミュレータでは、記号的表現を数値表現（連続量）に対応づけないとシミュレーションできない。このような知識中の記号的表現（左右、高低など）とシミュレータでの連続量（物の位置、制御閾値など）との間の対応づけを、この技術分野では、記号接地関数（記号接地問題）と呼んでいる。すなわち、記号接地問題とは、記号がいかに実世界との関わりにおいて意味を持つかという問題である。

上記記号接地関数には、第１の記号接地関数と第２の記号接地関数との２種類ある。第１の記号接地関数は、環境と上位プランナとの間に設けられる。一方、第２の記号接地関数は、上位プランナと下位プランナとの間に設けられる。例えば、環境がタンクであるとする。この場合、第１の記号接地関数は、タンクの温度である数値表現（連続量）を受けて、その温度（連続量）がＸＸ℃以上のときに、「高温」の記号表現に対応付ける（変換する）関数である。第２の記号接地関数は、上位プランナから受け取った「タンクの温度を下げて下さい」の記号表現を、ＹＹ℃以下に下げる数値表現（連続量）に対応付ける（変換する）関数である。

本発明に関連する、そのような記号接地を行う階層プランナの一例が、非特許文献２，３に記載されている。後で図面を参照して説明するように、この関連技術では、相互作用履歴のみに基づいて、階層プランナ用のパラメタを最適化している。

Tejas D. Kulkarni, et al. "Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation." 30th Conference on Neural Information Processing Systems (NIPS 2016), Barcelona, Spain. George Konidaris, et al. "Constructing Symbolic Representations for High-Level Planning." AAAI. 2014. George Konidaris, et al. "Symbol acquisition for probabilistic high-level planning." AAAI, 2015 Sutton, Richard S, et al. "Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning." Artificial Intelligence 112.1-2 (1999): 181-211 Williams, Ronald J. "Simple statistical gradient-following algorithms for connectionist reinforcement learning." Machine learning 8.3-4 (1992): 229-256.

上記関連技術の問題点は、関連技術では、記号接地を行う階層プランナにおいて、最適化後の各モジュールの動作を人間が容易に理解できない、ということである。その理由は、関連技術は相互作用履歴のみに基づいて階層プランナ用パラメタを最適化しているためである。

［発明の目的］
本発明の目的は、上述した課題を解決できるパラメタ算出装置を提供することにある。

本発明の１つの態様として、パラメタ算出装置は、対象システムに関する複数の状態と、前記複数の状態のうち２つの状態が関連付けされた関連情報と、少なくとも一部の状態に関する報酬と、該対象システムの状態を表すパラメタを含むモデル情報と、該パラメタに関する所与の範囲とに基づき、ある状態から目的状態までの中間状態と、該中間状態に関する報酬とを特定する特定手段と；特定した報酬と、前記パラメタの値及び前記所与の範囲の差異の程度とが所定の条件を満たしている場合における、該パラメタの値を算出するパラメタ算出手段と；を備える。

本発明の効果は、最適化後の各モジュールの動作を人間が容易に理解できることである。

関連技術の記号接地を行う階層プランナを含む制御システムの構成を示すブロック図である。図１の階層プランナに用いられる上位プランナの内部構成を示すブロック図である。本発明の実施形態に係る記号接地を行う階層プランナを含む制御システムの構成を示すブロック図である。図３の階層プランナに用いられる上位プランナの内部構成を示すブロック図である。図４中の第１の記号接地関数用パラメタ更新部の構成を示すブロック図である。図４中の第２の記号接地関数用パラメタ更新部の構成を示すブロック図である。本発明の実施形態に係る階層プランナの動作を説明するためのフローチャートである。本発明の実施例で使用される、上位プランニングと接地過程のための動的ベイジアンネットワークを示す図である。本発明の実施例で使用される、Mountain Carタスクを示す図である。図７における「階層プランナと環境との間で相互作用を行い、相互作用履歴を集積する」の実施例を示す図である。図４に示す上位プランナ用の記号知識の一例を示す図である。図４に示す知識記録媒体６０に記録された事前知識の一例を示す図である。非特許文献５において提案されている、REINFORCE Algorithmsを示す図である。本実施例において提案される、階層プランナ用のパラメタ更新方法を示す図である。本実施例において、車の位置を確率変数とするガウス分布に基づいて実装した方策の一例を示す図である。図１２に示された事前知識から得られる、平均と標準偏差を示す図である。関連技術と本発明の実施例による更新後のパラメタを比較して示す図である。

［関連技術］
本発明の理解を容易にするために、最初に関連技術について説明する。

図１は関連技術の記号接地を行う階層プランナを含む制御システムを示すブロック図である。図１に示すように、この関連技術の制御システムは、階層プランナ１０と、環境５０とから成る。尚、環境５０は、制御対象や対象システムとも呼ばれる。

階層プランナ１０は、上位プランナ１２と、第１の変換部１４と、第２の変換部１６と、下位プランナ１８とから成る。

図２は、図１の階層プランナ１０に用いられる上位プランナ１２の内部構成を示すブロック図である。上位プランナ１２は、パラメタ計算回路部２０と、階層プランナ用パラメタを格納するパラメタ格納部３０と、相互作用履歴を記録する履歴記録媒体４０とを有する。

このような構成を有する関連技術の制御システムは、次のように動作する。

環境５０は、行動ａを受け付け、状態集合Ｓに属する数値状態情報ｓと報酬ｒとを出力する。ここで、数値状態情報ｓは、環境５０の状態を数値表現で表した連続量である。

第１の変換部１４は、数値状態情報ｓと報酬ｒと第１の記号接地用パラメタとを受け付け、第１の記号接地関数に基づいて、状態記号集合Ｓ_ｈに属する状態記号ｓ_ｈと報酬ｒとを出力する。ここで、状態記号ｓ_ｈは知識中の記号的表現で表された記号である。第１の変換部１４は、下位／上位変換部とも呼ばれる。

上位プランナ１２は、状態記号ｓ_ｈと報酬ｒと上位プランナ用パラメタとを受け付け、状態記号集合Ｓ_ｈに属するサブゴール記号ｇ_ｈを出力する。ここで、サブゴール記号ｇ_ｈは、知識中の記号的表現で表された中間状態を示す記号である。尚、本明細書では、サブゴール記号ｇ_ｈは単に「中間状態」とも呼ばれる。また、開始状態、目標状態（目的状態）、および中間状態は、総称して単に「状態」とも呼ばれる。

第２の変換部１６は、サブゴール記号ｇ_ｈと第２の記号接地用パラメタとを受け取り、第２の記号接地関数に基づいて、状態集合Ｓに属するサブゴールｇを出力する。ここで、サブゴールｇは中間状態を表す数値情報から成る。第２の変換部１６は、上位／下位変換部とも呼ばれる。

関連技術においては、第１の記号接地関数および第２の記号接地関数として、予め人手で注意深く設計されたものを利用している。

下位プランナ１８は、数値状態情報ｓとサブゴールｇと下位プランナ用パラメタとを受け取り、行動集合Ａに属する行動ａを出力する。

これらの一連の処理を1処理とすると、履歴記録媒体４０は、１処理ごとの数値状態情報ｓ、報酬ｒ、サブゴール記号ｇ_ｈ、サブゴールｇ、および行動ａを受け取り、これらを相互作用履歴として記録する。

パラメタ計算回路部２０は、履歴記録媒体４０から相互作用履歴として保存されている数値状態情報ｓ,報酬ｒ、サブゴール記号ｇ_ｈ、サブゴールｇ、行動ａを受け取り、階層プランナ１０のパラメタを更新し、その更新後のパラメタを出力する。

パラメタ格納部３０は、パラメタ計算回路部２０から更新後のパラメタを受け取り、それを階層プランナ用パラメタとして保存し、読み出し要求に応じて保存した階層プランナ用パラメタを出力する。

前述したように、上記関連技術の問題点は、関連技術では、記号接地を行う階層プランナ１０において、最適化後の各モジュール（すなわち、第１の変換部１４、上位プランナ１２、第２の変換部１６、下位プランナ１８）の動作を人間が容易に理解できない、ということである。その理由は、関連技術は相互作用履歴のみに基づいて階層プランナ用パラメタを最適化しているためである。

［実施形態］
本発明の実施形態について図面を参照して以下、詳細に説明する。

[構成の説明]
図３は、本発明の実施形態に係る記号接地を行う階層プランナを含む制御システムを含むブロック図である。図３に示すように、本実施形態に係る制御システムは、階層プランナ１０Ａと、環境５０とを有する。尚、環境５０は、制御対象や対象システムとも呼ばれる。

階層プランナ１０Ａは、上位プランナ１２Ａと、第１の変換部１４Ａと、第２の変換部１６Ａと、下位プランナ１８とを有する。

図４は、図３の階層プランナ１０Ａに用いられる上位プランナ１２Ａの内部構成を示すブロック図である。上位プランナ１２Ａは、パラメタ計算回路部２０Ａと、階層プランナ用パラメタを格納するパラメタ格納部３０と、相互作用履歴を記録する履歴記録媒体４０と、事前知識を記録する知識記録媒体６０とを有する。

パラメタ計算回路部２０Ａは、特定部２２Ａと、パラメタ算出部２４Ａと、第１の記号接地関数用パラメタ更新部２６Ａと、第２の記号接地関数用パラメタ更新部２８Ａとを有する。

図５を参照すると、第１の記号接地関数用パラメタ更新部２６Ａは、事前知識に基づく第１の記号接地関数用パラメタ更新部２６２Ａと、相互作用履歴に基づく第１の記号接地関数用パラメタ更新部２６４Ａと、パラメタ更新合成部２６６Ａとを含む。

図６を参照すると、第２の記号接地関数用パラメタ更新部２８Ａは、事前知識に基づく第２の記号接地関数用パラメタ更新部２８２Ａと、相互作用履歴に基づく第２の記号接地関数用パラメタ更新部２８４Ａと、パラメタ更新合成部２８６Ａとを含む。

これらの手段はそれぞれ次のように動作する。

環境５０は、行動ａを受け付け、状態集合Ｓに属する数値状態情報ｓと報酬ｒとを出力する。

第１の変換部１４Ａは、数値状態情報ｓと報酬ｒと後述する第１の記号接地関数用事前知識付きパラメタとを受け付け、第１の記号接地関数に基づき、状態記号集合Ｓ_ｈに属する状態記号ｓ_ｈと報酬ｒとを出力する。ここで、第１の記号接地関数は、数値状態情報と、その数値状態情報に対応する状態との関連性を表す第１の関連情報である。従って、第１の変換部１４は、第１の関連情報に基づき、数値状態情報に対応する状態を算出する。

上位プランナ１２Ａは、状態記号ｓ_ｈと報酬ｒと上位プランナ用事前知識付きパラメタとを受け付け、状態記号集合Ｓ_ｈに属するサブゴール記号ｇ_ｈを出力する。

第２の変換部１６Ａは、サブゴール記号ｇ_ｈと後述する第２の記号接地関数用事前知識付きパラメタとを受け取り、第２の記号接地関数に基づき、状態集合Ｓに属するサブゴールｇを出力する。ここで、第２の記号接地関数は、状態と、その状態を表す数値情報との関連性を表す第２の関連情報である。従って、第２の変換部１６Ａは、第２の関連情報に基づき、上記中間状態を表す数値情報を算出する。

下位プランナ１８は、数値状態情報ｓとサブゴールｇと下位プランナ用事前知識付きパラメタとを受け取り、行動集合Ａに属する行動ａを出力する。換言すれば、下位プランナ１８は、中間状態を表す数値情報と、対象システム５０に関して観測された観測情報との差異に基づき、対象システム５０を制御する制御情報を作成する。具体的には、下位プランナ１８は、例えば、ＰＩＤ（proportional integral and differential）制御を行う制御器であってよい。

パラメタ計算回路部２０Ａは、知識記録媒体６０から事前知識を受け取ると共に、履歴記録媒体４０から相互作用履歴として保存されている数値状態情報ｓ、報酬ｒ、サブゴール記号ｇ_ｈ、サブゴールｇ、および行動ａを受け取り、階層プランナ１０Ａのパラメタを更新し、その更新後の階層プランナ用パラメタを出力する。

特定部２２Ａは、対象システム５０に関する複数の状態と、複数の状態のうち２つの状態が関連付けされた関連情報と、少なくとも一部の状態に関する報酬と、対象システム５０の状態を表すパラメタを含むモデル情報と、このパラメタに関する所与の範囲とに基づき、ある状態から目的状態（最終目標）までの中間状態（サブゴール記号）と、その中間状態に関する報酬とを特定する。ここで、複数の状態のうち２つの状態が関連付けされた関連情報とは、上位プランナ用記号知識である。パラメタを含むモデル情報とは、例えば、正規分布である。

パラメタ算出部２４Ａは、特定した報酬と、パラメタの値及び上記所与の範囲の差異の程度とが所定の条件を満たしている場合における、該パラメタの値を算出する。ここで、所定の条件とは、たとえば、最適化手法として最急降下法を採用した場合、微分値が最も大きいという条件が想定される。

図５に示されるように、第１の記号接地関数用パラメタ更新部２６Ａでは、事前知識に基づく第１の記号接地関数用パラメタ更新部２６２Ａは、知識記録媒体６０から事前知識を受け取り、第１の記号接地関数用事前知識付きパラメタの第１のパラメタ更新信号を出力する。相互作用履歴に基づく第１の記号接地関数用パラメタ更新部２６４Ａは、履歴記録媒体４０から相互作用履歴を受け取り、第１の記号接地関数用相互作用履歴付きパラメタの第２のパラメタ更新信号を出力する。パラメタ更新合成部２６６Ａは、第１のパラメタ更新信号と第２のパラメタ更新信号とを受け取り、それらを合成して、合成後の第１の記号接地関数用事前知識付きパラメタを出力する。

図６に示されるように、第２の記号接地関数用パラメタ更新部２８Ａは、第１の記号接地関数用パラメタ更新部２６Ａと同様の動作を行う。すなわち、事前知識に基づく第２の記号接地関数用パラメタ更新部２８２Ａは、知識記録媒体６０から事前知識を受け取り、第２の記号接地関数用事前知識付きパラメタの第３のパラメタ更新信号を出力する。相互作用履歴に基づく第２の記号接地関数用パラメタ更新部２８４Ａは、履歴記録媒体４０から相互作用履歴を受け取り、第２の記号接地関数用相互作用履歴付きパラメタの第４のパラメタ更新信号を出力する。パラメタ更新合成部２８６Ａは、第３のパラメタ更新信号と第４のパラメタ更新信号とを受け取り、それらを合成して、合成後の第２の記号接地関数用事前知識付きパラメタを出力する。

上述したように、第１の記号接地関数用パラメタ更新部２６Ａおよび第２の記号接地関数用パラメタ更新部２８Ａの各々は、関連情報（記号接地関数）を、算出されたパラメタの値に基づき更新する。換言すれば、第１の記号接地関数用パラメタ更新部２６Ａおよび第２の記号接地関数用パラメタ更新部２８Ａは、それぞれ、算出された上記パラメタを第１および第２の関連情報（第１および第２の記号接地関数）のパラメタとして利用することで、第１および第２の関連情報（第１および第２の記号接地関数）を更新する。

パラメタ格納部３０は、パラメタ計算回路部２０Ａから事前知識付きパラメタを受け取り、それを階層プランナ用パラメタとして保存する。

これらの手段は、相互に1)階層プランナ１０Ａを用いた相互作用履歴の集積と2)集積した相互作用履歴と事前知識とを用いたパラメタ更新を繰り返す様に作用することで、事前知識と相互作用履歴との両方を考慮して階層プランナ１０Ａを最適化できるという効果が得られる。

[動作の説明]
次に、図７のフローチャートを参照して、本実施形態の階層プランナ１０Ａを含む制御システム全体の動作について説明する。

制御システムでは、まず、階層プランナ１０Ａと環境５０との間で相互作用を行い、相互作用履歴を集積する（ステップＳ１０１）。この相互作用履歴は、履歴記録媒体４０に記録される。

次に、パラメタ計算回路部２０Ａは、知識記録媒体６０に記録された事前知識と履歴記録媒体４０に記録された相互作用履歴とを参照して、階層プランナ用パラメタを更新する（ステップＳ１０２）。更新後の階層プランナ用パラメタは、パラメタ格納部３０に格納される。

制御システムは、これら処理を指定回数繰り返す（ステップＳ１０３）。

[効果の説明]
次に、本実施形態の効果について説明する。

本実施形態では、1)階層プランナ１０Ａと環境５０との相互作用履歴の集積と2)集積した相互作用履歴と事前知識とを用いたパラメタ更新を繰り返すというように構成されているため、事前知識と相互作用履歴との両方を考慮した階層プランナ用パラメタの最適化ができる。

尚、階層プランナ１０Ａの各部は、ハードウェアとソフトウェアとの組み合わせを用いて実現すればよい。ハードウェアとソフトウェアとを組み合わせた形態では、ＲＡＭ（random access memory）にパラメタ算出プログラムが展開され、該パラメタ算出プログラムに基づいて制御部（ＣＰＵ（central processing unit））等のハードウェアを動作させることによって、各部を各種手段として実現する。また、該パラメタ算出プログラムは、記録媒体に記録されて頒布されても良い。当該記録媒体に記録されたパラメタ算出プログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。尚、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。

上記実施形態を別の表現で説明すれば、階層プランナ１０Ａとして動作させるコンピュータを、ＲＡＭに展開されたパラメタ算出プログラムに基づき、パラメタ計算回路部２０Ａ（特定部２２Ａ、パラメタ算出部２４Ａ、第１の記号接地関数用パラメタ更新部２６Ａ、第２の記号接地関数用パラメタ更新部２８Ａ）として動作させることで実現することが可能である。

次に、具体的な実施例を用いて、本発明を実施するための形態の動作について説明する。

本実施例では、非特許文献４に記載の semi-Markov decision processes (SMDPs)を想定している。図８は、上位プランニングと接地過程のための動的ベイジアンネットワークを示している。図８に示す動的ベイジアンネットワークは、上位プランナ１２Ａが第２の変換部１６Ａを介してサブゴールｇを下位プランナ１８に入力後、状態遷移は下位プランナ１８と環境５０との相互作用結果によって決定されることを示している。相互作用結果は、履歴記録媒体４０に相互作用履歴として保存される。尚、図８において、θはパラメタである。

本実施例では、「Mountain Car」タスクを想定している。Mountain Carタスクでは、図９に示されるように、車に対してトルクを加えて、丘の上にあるゴールに到達させる。このタスクにおいて、報酬ｒは、ゴールに到達すれば１００、それ以外は−１である。状態集合Ｓは、車の速度（velocity）と車の位置（position）である。したがって、数値状態情報ｓおよびサブゴールｇは、この状態集合Ｓに属する。行動集合Ａは、車のトルクである。行動ａはこの行動集合Ａに属する。状態記号集合Ｓ_ｈは、｛Bottom_of_hills, On_right_side_hill, On_left_side_hill, At_top_of_right_side_hill｝である。状態記号ｓ_ｈおよびサブゴール記号ｇ_ｈは、この状態記号集合Ｓ_ｈに属する。本実施例では、[Bottom_of_hills]が開始状態を示している。[At_top_of_right_side_hill]が目標状態（目的状態）を示している。そして、[On_right_side_hill]および[On_left_side_hill]が中間状態を示している。本実施例では、環境５０は丘中にある車の動作シミュレータである。また、本実施例では、階層プランナ１０Ａは、車の位置、速度から車のトルクの掛け方をプランニングする。図１０では、単位時間ごとに環境５０と階層プランナ１０Ａとの間の相互作用結果が履歴記録媒体４０に相互作用履歴として保存される。

また、本実施例における上位プランナ１２Ａは、Strips調の記号知識に基づくプランナである。図１１に、上位プランナ１２Ａ用の記号知識の例を示す。この図１１に示す上位プランナ１２Ａ用の記号知識は、複数の状態のうち２つの状態が関連付けされた関連情報である。一方、本実施例における下位プランナ１８は、モデル予測制御で実装される。

さらに、本実施例では、知識記録媒体６０に記録された事前知識を、人手で作成した記号接地関数に基づいて構築している。図１２に、その人手で作成した記号接地関数に基づいて構築した事前知識の一例を示す。

図１２において、「記号の発火条件」中の平均Meanおよび標準偏差Stdの組み合わせが、上記パラメタθを示している。したがって、「記号の発火条件」中の平均Meanおよび標準偏差Stdの値が、対象システム５０の状態を表すパラメタθを含むモデル情報（正規分布）を表している。なお、後で詳述するように、このパラメタθは、後述する制約付き強化学習によって学習され、変更される。また、図１２中の「記号の発火条件」中のpositionの範囲は、パラメタθに関する所与の範囲を示している。

次に、本実施例に係る制約付き強化学習を用いて記号接地関数を学習する方法について説明する。

制約付き強化学習では、下記式

に示されるように、Ｅ_πθ［Σ_ｔ＝０ｒ_ｔ］が最大になるように、事前知識付き記号接地関数を含む上位プランニングの方策π（ｇ_ｔ、ｇ_ｈ、ｓ_ｈ、θ｜ｓ）のパラメタθを学習する。方策π（ｇ_ｔ、ｇ_ｈ、ｓ_ｈ、θ｜ｓ）は、次式で表される。

ここで、Ｐ（θ）は事前知識を表す。数２の式では、第１の記号接地関数は

で表され、第２の記号接地関数は

で表され、上位プランナ１２ＡはＰ（ｇ_ｈ｜ｓ_ｈ）で表される。

非特許文献５は、図１３に示されるような、REINFORCE Algorithmsを提案している。

これに対して、本実施例では、図１４に示されるような、階層プランナ１０Ａ用のパラメタ更新方法を提案する。図１４の式において、右辺の第１項が、相互作用履歴に基づいてパラメタθを更新する項であって、図１３に示したREINFORCE Algorithmsを変形して得られたものである。一方、図１４の式における右辺の第２項が、事前知識に基づいてパラメタθを更新する制約項を示している。したがって、図１４に示すΔθの更新式は、報酬ｒとパラメタθに関する制約条件が重み付けされた関数に関して、最急降下法等の最適化手法を適用することによって得られる更新式である。

また、本実施例では、図１５に示されるように、方策π（ｇ_ｔ、ｇ_ｈ、ｓ_ｈ、θ｜ｓ）を、車の位置を確率変数とするガウス分布に基づいて実装している。

したがって、本実施例では、第１の記号接地関数と第２の記号接地関数とは共通のパラメタθに従い、最適化を通じてそのパラメタが求められる。

図１５に示されるように、本実施例では、第１の記号接地関数と第２の記号接地関数とはガウス分布

で表され、平均

と標準偏差

が最適化対象のパラメタθとなる。

図１６は、図１２に示された事前知識から得られる、上記平均と上記標準偏差を示す図である。

本実施例では、パラメタ計算回路部２０Ａは、それらのパラメタに関する事前知識を参照して最適化を行う。例えば、パラメタ計算回路部２０Ａは、

に対応する平均および標準偏差

がそれぞれ「0.6」と「0.1」であるという事前知識を参照する。

本実施例では、相互作用履歴に基づく第１の記号接地関数用パラメタ更新部２６４Ａおよび相互作用履歴に基づく第２の記号接地関数用パラメタ更新部２８４Ａは、上記非特許文献５に開示されているREINFORCE Algorithmsを変形したものを利用する（図１４中の式の右辺の第１項参照）。

また、本実施例では、事前知識に基づく第１の記号接地関数用パラメタ更新部２６２Ａと、事前知識に基づく第２の記号接地関数用パラメタ更新部２８２Ａとでは、パラメタを事前知識で定義したものに近づけるようにパラメタを更新する（図１４中の式の右辺の第２項参照）。パラメタ更新合成部２６６Ａおよび２８６Ａは両更新を加算して実現する。

本発明者は、これらの方法に基づいて、事前知識を考慮してパラメタθの最適化を学習した場合（Proposed）が、事前知識を考慮しない場合(Baseline)に比べて、実際に人間にとって以下に各モジュールの動作が容易に解釈可能であるかを実験的に評価した。

図１７は学習によって得られたパラメタを示す図である。図１７において、下段の表が平均を示し、上段の表が標準偏差を示している。この表の上部では、各列はシンボルを表し、表の要素は環境５０中の車の尤もらしい位置（-1.8, 0.9）を表している。

Baselineでは、「Bottom_of_hills」の平均が「-0.5」であり、「On_right_side_hill」の平均が「-0.73」である。これは、「右の丘」が、「左と右の谷間」よりも左側に存在することを示唆しており、人間にとって理解しがたい結果となっている。一方で、Proposedでは、そのような問題は起きていない。

なお、本発明の具体的な構成は前述の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の変更があってもこの発明に含まれる。

以上、実施形態（実施例）を参照して本願発明を説明したが、本願発明は上記実施形態（実施例）に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

本発明は、プラント運転支援システムといった用途に適用できる。また、本発明は、インフラ運用支援システムといった用途にも適用可能である。

５０環境（対象システム）
１０、１０Ａ階層プランナ
１４、１４Ａ第１の変換部
１２、１２Ａ上位プランナ
１６、１６Ａ第２の変換部
１８下位プランナ
２０、２０Ａパラメタ計算回路部
２２Ａ特定部
２４Ａパラメタ算出部
２６Ａ第１の記号接地関数用パラメタ更新部
２８Ａ第２の記号接地関数用パラメタ更新部
２６２Ａ事前知識に基づく第１の記号接地関数用パラメタ更新部
２６４Ａ相互作用履歴に基づく第１の記号接地関数用パラメタ更新部
２６６Ａパラメタ更新合成部
２８２Ａ事前知識に基づく第２の記号接地関数用パラメタ更新部
２８４Ａ相互作用履歴に基づく第２の記号接地関数用パラメタ更新部
２８６Ａパラメタ更新合成部
４０履歴記録媒体
６０知識記録媒体
３０パラメタ格納部

Claims

対象システムに関する複数の状態と、前記複数の状態のうち２つの状態が関連付けされた関連情報と、少なくとも一部の状態に関する報酬と、該対象システムの状態を表すパラメタを含むモデル情報と、該パラメタに関する所与の範囲とに基づき、ある状態から目的状態までの中間状態と、該中間状態に関する報酬とを特定する特定手段と、
特定した報酬と、前記パラメタの値及び前記所与の範囲の差異の程度とが所定の条件を満たしている場合における、該パラメタの値を算出するパラメタ算出手段と、
を備えるパラメタ算出装置。
前記状態と、前記状態を表す数値情報との関連性を表す関連情報に基づき、前記中間状態又は前記中間状態を表す数値情報を算出する変換手段を含む、請求項１に記載のパラメタ算出装置。
前記中間状態を表す数値情報と、前記対象システムに関して観測された観測情報との差異に基づき、前記対象システムを制御する制御情報を作成する下位プランナを含む、請求項２に記載のパラメタ算出装置。
前記関連情報を、算出された前記パラメタの値に基づき更新する更新手段を含む、請求項１乃至３のいずれか１項に記載のパラメタ算出装置。
前記関連情報は、前記数値情報を前記状態に対応付ける第１の記号接地関数を含む、請求項２または請求項３に記載のパラメタ算出装置。
前記関連情報は、前記状態を前記数値情報に対応付ける第２の記号接地関数を含む、請求項２、請求項３、または、請求項５に記載のパラメタ算出装置。
情報処理装置によって、対象システムに関する複数の状態と、前記複数の状態のうち２つの状態が関連付けされた関連情報と、少なくとも一部の状態に関する報酬と、該対象システムの状態を表すパラメタを含むモデル情報と、該パラメタに関する所与の範囲とに基づき、ある状態から目的状態までの中間状態と、該中間状態に関する報酬とを特定し、
特定した報酬と、前記パラメタの値及び前記所与の範囲の差異の程度とが所定の条件を満たしている場合における、該パラメタの値を算出する、
パラメタ算出方法。
前記状態と、前記状態を表す数値情報との関連性を表す関連情報に基づき、前記中間状態又は前記中間状態を表す数値情報を算出する、請求項７に記載のパラメタ算出方法。
前記中間状態を表す数値情報と、前記対象システムに関して観測された観測情報との差異に基づき、前記対象システムを制御する制御情報を作成する、請求項８に記載のパラメタ算出方法。
対象システムに関する複数の状態と、前記複数の状態のうち２つの状態が関連付けされた関連情報と、少なくとも一部の状態に関する報酬と、該対象システムの状態を表すパラメタを含むモデル情報と、該パラメタに関する所与の範囲とに基づき、ある状態から目的状態までの中間状態と、該中間状態に関する報酬とを特定する特定手順と、
特定した報酬と、前記パラメタの値及び前記所与の範囲の差異の程度とが所定の条件を満たしている場合における、該パラメタの値を算出するパラメタ算出手順と、
をコンピュータに実行させるパラメタ算出プログラム。