JP6940830B2 - パラメタ算出装置、パラメタ算出方法、パラメタ算出プログラム - Google Patents

パラメタ算出装置、パラメタ算出方法、パラメタ算出プログラム Download PDF

Info

Publication number
JP6940830B2
JP6940830B2 JP2019565102A JP2019565102A JP6940830B2 JP 6940830 B2 JP6940830 B2 JP 6940830B2 JP 2019565102 A JP2019565102 A JP 2019565102A JP 2019565102 A JP2019565102 A JP 2019565102A JP 6940830 B2 JP6940830 B2 JP 6940830B2
Authority
JP
Japan
Prior art keywords
parameter
state
parameter calculation
symbol
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019565102A
Other languages
English (en)
Other versions
JPWO2019138457A1 (ja
Inventor
拓也 平岡
拓也 平岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2019138457A1 publication Critical patent/JPWO2019138457A1/ja
Application granted granted Critical
Publication of JP6940830B2 publication Critical patent/JP6940830B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/043Distributed expert systems; Blackboards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/32Operator till task planning
    • G05B2219/32334Use of reinforcement learning, agent acts, receives reward
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40499Reinforcement learning algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、パラメタ算出装置に関し、特に、階層プランナにおけるパラメタ算出装置に関する。
強化学習(Reinforcement Learning)とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種である。エージェントは行動を選択することで環境から報酬を得る。強化学習は、一連の行動を通じて報酬が最も多く得られるような方策(policy)を学習する。環境は制御対象や対象システムとも呼ばれる。
複雑な環境における強化学習においては、学習にかかる計算時間の長大化が大きなボトルネックとなりがちである。そのような問題を解決するための強化学習のバリエーションの一つとして、予め別のモデルで探索すべき範囲を限定した上で、強化学習エージェントはその限定された探索空間で学習を行うことで、学習を効率化する、「階層強化学習」と呼ばれる枠組みがある。探索空間を限定するためのモデルを上位プランナと呼び、上位プランナから提示された探索空間上で学習を行う強化学習モデルを下位プランナと呼ぶ。上位プランナと下位プランナとの組み合わせは、階層プランナと呼ばれる。下位プランナと環境との組み合わせは、シミュレータとも呼ばれる。
例えば、非特許文献1は、Meta-ControllerとControllerとの2つの強化学習エージェントからなる「階層強化学習」を提案している。開始状態から目標状態(Goal)までの間に複数の中間状態がある状況において、開始状態から最短経路で目標状態(目的状態)まで到達したい場合を想定する。ここで、各中間状態はサブゴール(Subgoal)とも呼ばれる。非特許文献1においては、Meta-Controllerは、あらかじめ与えられた複数のサブゴール(但し、非特許文献1では、”goal”と記している)の中から、次に達成すべきサブゴールをControllerへ提示している。
Meta-Controllerは上記上位プランナとも呼ばれ、Controllerは上記下位プランナとも呼ばれる。したがって、非特許文献1では、上位プランナが複数のサブゴールの中から特定のサブゴールを決定し、下位プランナが特定のサブゴールに基づいて環境に対する実際のアクションを決めている。
上位プランナは、知識中の記号的表現でプランを生成する。例えば、環境がタンクであったとする。この場合、上位プランナは、例えば、タンクの温度が高温の時は、タンクの温度を下げてください、のようにプランニングをする。
これに対して、シミュレータは、実世界の連続量でシミュレーションを行う。その為、シミュレータでは、高温って何度であるかや、何度まで下げるのか、等を理解することができない。換言すれば、シミュレータでは、記号的表現を数値表現(連続量)に対応づけないとシミュレーションできない。このような知識中の記号的表現(左右、高低など)とシミュレータでの連続量(物の位置、制御閾値など)との間の対応づけを、この技術分野では、記号接地関数(記号接地問題)と呼んでいる。すなわち、記号接地問題とは、記号がいかに実世界との関わりにおいて意味を持つかという問題である。
上記記号接地関数には、第1の記号接地関数と第2の記号接地関数との2種類ある。第1の記号接地関数は、環境と上位プランナとの間に設けられる。一方、第2の記号接地関数は、上位プランナと下位プランナとの間に設けられる。例えば、環境がタンクであるとする。この場合、第1の記号接地関数は、タンクの温度である数値表現(連続量)を受けて、その温度(連続量)がXX℃以上のときに、「高温」の記号表現に対応付ける(変換する)関数である。第2の記号接地関数は、上位プランナから受け取った「タンクの温度を下げて下さい」の記号表現を、YY℃以下に下げる数値表現(連続量)に対応付ける(変換する)関数である。
本発明に関連する、そのような記号接地を行う階層プランナの一例が、非特許文献2,3に記載されている。後で図面を参照して説明するように、この関連技術では、相互作用履歴のみに基づいて、階層プランナ用のパラメタを最適化している。
Tejas D. Kulkarni, et al. "Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation." 30th Conference on Neural Information Processing Systems (NIPS 2016), Barcelona, Spain. George Konidaris, et al. "Constructing Symbolic Representations for High-Level Planning." AAAI. 2014. George Konidaris, et al. "Symbol acquisition for probabilistic high-level planning." AAAI, 2015 Sutton, Richard S, et al. "Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning." Artificial Intelligence 112.1-2 (1999): 181-211 Williams, Ronald J. "Simple statistical gradient-following algorithms for connectionist reinforcement learning." Machine learning 8.3-4 (1992): 229-256.
上記関連技術の問題点は、関連技術では、記号接地を行う階層プランナにおいて、最適化後の各モジュールの動作を人間が容易に理解できない、ということである。その理由は、関連技術は相互作用履歴のみに基づいて階層プランナ用パラメタを最適化しているためである。
[発明の目的]
本発明の目的は、上述した課題を解決できるパラメタ算出装置を提供することにある。
本発明の1つの態様として、パラメタ算出装置は、対象システムに関する複数の状態と、前記複数の状態のうち2つの状態が関連付けされた関連情報と、少なくとも一部の状態に関する報酬と、該対象システムの状態を表すパラメタを含むモデル情報と、該パラメタに関する所与の範囲とに基づき、ある状態から目的状態までの中間状態と、該中間状態に関する報酬とを特定する特定手段と;特定した報酬と、前記パラメタの値及び前記所与の範囲の差異の程度とが所定の条件を満たしている場合における、該パラメタの値を算出するパラメタ算出手段と;を備える。
本発明の効果は、最適化後の各モジュールの動作を人間が容易に理解できることである。
関連技術の記号接地を行う階層プランナを含む制御システムの構成を示すブロック図である。 図1の階層プランナに用いられる上位プランナの内部構成を示すブロック図である。 本発明の実施形態に係る記号接地を行う階層プランナを含む制御システムの構成を示すブロック図である。 図3の階層プランナに用いられる上位プランナの内部構成を示すブロック図である。 図4中の第1の記号接地関数用パラメタ更新部の構成を示すブロック図である。 図4中の第2の記号接地関数用パラメタ更新部の構成を示すブロック図である。 本発明の実施形態に係る階層プランナの動作を説明するためのフローチャートである。 本発明の実施例で使用される、上位プランニングと接地過程のための動的ベイジアンネットワークを示す図である。 本発明の実施例で使用される、Mountain Carタスクを示す図である。 図7における「階層プランナと環境との間で相互作用を行い、相互作用履歴を集積する」の実施例を示す図である。 図4に示す上位プランナ用の記号知識の一例を示す図である。 図4に示す知識記録媒体60に記録された事前知識の一例を示す図である。 非特許文献5において提案されている、REINFORCE Algorithmsを示す図である。 本実施例において提案される、階層プランナ用のパラメタ更新方法を示す図である。 本実施例において、車の位置を確率変数とするガウス分布に基づいて実装した方策の一例を示す図である。 図12に示された事前知識から得られる、平均と標準偏差を示す図である。 関連技術と本発明の実施例による更新後のパラメタを比較して示す図である。
[関連技術]
本発明の理解を容易にするために、最初に関連技術について説明する。
図1は関連技術の記号接地を行う階層プランナを含む制御システムを示すブロック図である。図1に示すように、この関連技術の制御システムは、階層プランナ10と、環境50とから成る。尚、環境50は、制御対象や対象システムとも呼ばれる。
階層プランナ10は、上位プランナ12と、第1の変換部14と、第2の変換部16と、下位プランナ18とから成る。
図2は、図1の階層プランナ10に用いられる上位プランナ12の内部構成を示すブロック図である。上位プランナ12は、パラメタ計算回路部20と、階層プランナ用パラメタを格納するパラメタ格納部30と、相互作用履歴を記録する履歴記録媒体40とを有する。
このような構成を有する関連技術の制御システムは、次のように動作する。
環境50は、行動aを受け付け、状態集合Sに属する数値状態情報sと報酬rとを出力する。ここで、数値状態情報sは、環境50の状態を数値表現で表した連続量である。
第1の変換部14は、数値状態情報sと報酬rと第1の記号接地用パラメタとを受け付け、第1の記号接地関数に基づいて、状態記号集合Sに属する状態記号sと報酬rとを出力する。ここで、状態記号sは知識中の記号的表現で表された記号である。第1の変換部14は、下位/上位変換部とも呼ばれる。
上位プランナ12は、状態記号sと報酬rと上位プランナ用パラメタとを受け付け、状態記号集合Sに属するサブゴール記号gを出力する。ここで、サブゴール記号gは、知識中の記号的表現で表された中間状態を示す記号である。尚、本明細書では、サブゴール記号gは単に「中間状態」とも呼ばれる。また、開始状態、目標状態(目的状態)、および中間状態は、総称して単に「状態」とも呼ばれる。
第2の変換部16は、サブゴール記号gと第2の記号接地用パラメタとを受け取り、第2の記号接地関数に基づいて、状態集合Sに属するサブゴールgを出力する。ここで、サブゴールgは中間状態を表す数値情報から成る。第2の変換部16は、上位/下位変換部とも呼ばれる。
関連技術においては、第1の記号接地関数および第2の記号接地関数として、予め人手で注意深く設計されたものを利用している。
下位プランナ18は、数値状態情報sとサブゴールgと下位プランナ用パラメタとを受け取り、行動集合Aに属する行動aを出力する。
これらの一連の処理を1処理とすると、履歴記録媒体40は、1処理ごとの数値状態情報s、報酬r、サブゴール記号g、サブゴールg、および行動aを受け取り、これらを相互作用履歴として記録する。
パラメタ計算回路部20は、履歴記録媒体40から相互作用履歴として保存されている数値状態情報s,報酬r、サブゴール記号g、サブゴールg、行動aを受け取り、階層プランナ10のパラメタを更新し、その更新後のパラメタを出力する。
パラメタ格納部30は、パラメタ計算回路部20から更新後のパラメタを受け取り、それを階層プランナ用パラメタとして保存し、読み出し要求に応じて保存した階層プランナ用パラメタを出力する。
前述したように、上記関連技術の問題点は、関連技術では、記号接地を行う階層プランナ10において、最適化後の各モジュール(すなわち、第1の変換部14、上位プランナ12、第2の変換部16、下位プランナ18)の動作を人間が容易に理解できない、ということである。その理由は、関連技術は相互作用履歴のみに基づいて階層プランナ用パラメタを最適化しているためである。
[実施形態]
本発明の実施形態について図面を参照して以下、詳細に説明する。
[構成の説明]
図3は、本発明の実施形態に係る記号接地を行う階層プランナを含む制御システムを含むブロック図である。図3に示すように、本実施形態に係る制御システムは、階層プランナ10Aと、環境50とを有する。尚、環境50は、制御対象や対象システムとも呼ばれる。
階層プランナ10Aは、上位プランナ12Aと、第1の変換部14Aと、第2の変換部16Aと、下位プランナ18とを有する。
図4は、図3の階層プランナ10Aに用いられる上位プランナ12Aの内部構成を示すブロック図である。上位プランナ12Aは、パラメタ計算回路部20Aと、階層プランナ用パラメタを格納するパラメタ格納部30と、相互作用履歴を記録する履歴記録媒体40と、事前知識を記録する知識記録媒体60とを有する。
パラメタ計算回路部20Aは、特定部22Aと、パラメタ算出部24Aと、第1の記号接地関数用パラメタ更新部26Aと、第2の記号接地関数用パラメタ更新部28Aとを有する。
図5を参照すると、第1の記号接地関数用パラメタ更新部26Aは、事前知識に基づく第1の記号接地関数用パラメタ更新部262Aと、相互作用履歴に基づく第1の記号接地関数用パラメタ更新部264Aと、パラメタ更新合成部266Aとを含む。
図6を参照すると、第2の記号接地関数用パラメタ更新部28Aは、事前知識に基づく第2の記号接地関数用パラメタ更新部282Aと、相互作用履歴に基づく第2の記号接地関数用パラメタ更新部284Aと、パラメタ更新合成部286Aとを含む。
これらの手段はそれぞれ次のように動作する。
環境50は、行動aを受け付け、状態集合Sに属する数値状態情報sと報酬rとを出力する。
第1の変換部14Aは、数値状態情報sと報酬rと後述する第1の記号接地関数用事前知識付きパラメタとを受け付け、第1の記号接地関数に基づき、状態記号集合Sに属する状態記号sと報酬rとを出力する。ここで、第1の記号接地関数は、数値状態情報と、その数値状態情報に対応する状態との関連性を表す第1の関連情報である。従って、第1の変換部14は、第1の関連情報に基づき、数値状態情報に対応する状態を算出する。
上位プランナ12Aは、状態記号sと報酬rと上位プランナ用事前知識付きパラメタとを受け付け、状態記号集合Sに属するサブゴール記号gを出力する。
第2の変換部16Aは、サブゴール記号gと後述する第2の記号接地関数用事前知識付きパラメタとを受け取り、第2の記号接地関数に基づき、状態集合Sに属するサブゴールgを出力する。ここで、第2の記号接地関数は、状態と、その状態を表す数値情報との関連性を表す第2の関連情報である。従って、第2の変換部16Aは、第2の関連情報に基づき、上記中間状態を表す数値情報を算出する。
下位プランナ18は、数値状態情報sとサブゴールgと下位プランナ用事前知識付きパラメタとを受け取り、行動集合Aに属する行動aを出力する。換言すれば、下位プランナ18は、中間状態を表す数値情報と、対象システム50に関して観測された観測情報との差異に基づき、対象システム50を制御する制御情報を作成する。具体的には、下位プランナ18は、例えば、PID(proportional integral and differential)制御を行う制御器であってよい。
これらの一連の処理を1処理とすると、履歴記録媒体40は、1処理ごとの数値状態情報s、報酬r、サブゴール記号g、サブゴールg、および行動aを受け取り、これらを相互作用履歴として記録する。
パラメタ計算回路部20Aは、知識記録媒体60から事前知識を受け取ると共に、履歴記録媒体40から相互作用履歴として保存されている数値状態情報s、報酬r、サブゴール記号g、サブゴールg、および行動aを受け取り、階層プランナ10Aのパラメタを更新し、その更新後の階層プランナ用パラメタを出力する。
特定部22Aは、対象システム50に関する複数の状態と、複数の状態のうち2つの状態が関連付けされた関連情報と、少なくとも一部の状態に関する報酬と、対象システム50の状態を表すパラメタを含むモデル情報と、このパラメタに関する所与の範囲とに基づき、ある状態から目的状態(最終目標)までの中間状態(サブゴール記号)と、その中間状態に関する報酬とを特定する。ここで、複数の状態のうち2つの状態が関連付けされた関連情報とは、上位プランナ用記号知識である。パラメタを含むモデル情報とは、例えば、正規分布である。
パラメタ算出部24Aは、特定した報酬と、パラメタの値及び上記所与の範囲の差異の程度とが所定の条件を満たしている場合における、該パラメタの値を算出する。ここで、所定の条件とは、たとえば、最適化手法として最急降下法を採用した場合、微分値が最も大きいという条件が想定される。
図5に示されるように、第1の記号接地関数用パラメタ更新部26Aでは、事前知識に基づく第1の記号接地関数用パラメタ更新部262Aは、知識記録媒体60から事前知識を受け取り、第1の記号接地関数用事前知識付きパラメタの第1のパラメタ更新信号を出力する。相互作用履歴に基づく第1の記号接地関数用パラメタ更新部264Aは、履歴記録媒体40から相互作用履歴を受け取り、第1の記号接地関数用相互作用履歴付きパラメタの第2のパラメタ更新信号を出力する。パラメタ更新合成部266Aは、第1のパラメタ更新信号と第2のパラメタ更新信号とを受け取り、それらを合成して、合成後の第1の記号接地関数用事前知識付きパラメタを出力する。
図6に示されるように、第2の記号接地関数用パラメタ更新部28Aは、第1の記号接地関数用パラメタ更新部26Aと同様の動作を行う。すなわち、事前知識に基づく第2の記号接地関数用パラメタ更新部282Aは、知識記録媒体60から事前知識を受け取り、第2の記号接地関数用事前知識付きパラメタの第3のパラメタ更新信号を出力する。相互作用履歴に基づく第2の記号接地関数用パラメタ更新部284Aは、履歴記録媒体40から相互作用履歴を受け取り、第2の記号接地関数用相互作用履歴付きパラメタの第4のパラメタ更新信号を出力する。パラメタ更新合成部286Aは、第3のパラメタ更新信号と第4のパラメタ更新信号とを受け取り、それらを合成して、合成後の第2の記号接地関数用事前知識付きパラメタを出力する。
上述したように、第1の記号接地関数用パラメタ更新部26Aおよび第2の記号接地関数用パラメタ更新部28Aの各々は、関連情報(記号接地関数)を、算出されたパラメタの値に基づき更新する。換言すれば、第1の記号接地関数用パラメタ更新部26Aおよび第2の記号接地関数用パラメタ更新部28Aは、それぞれ、算出された上記パラメタを第1および第2の関連情報(第1および第2の記号接地関数)のパラメタとして利用することで、第1および第2の関連情報(第1および第2の記号接地関数)を更新する。
パラメタ格納部30は、パラメタ計算回路部20Aから事前知識付きパラメタを受け取り、それを階層プランナ用パラメタとして保存する。
これらの手段は、相互に1)階層プランナ10Aを用いた相互作用履歴の集積と2)集積した相互作用履歴と事前知識とを用いたパラメタ更新を繰り返す様に作用することで、事前知識と相互作用履歴との両方を考慮して階層プランナ10Aを最適化できるという効果が得られる。
[動作の説明]
次に、図7のフローチャートを参照して、本実施形態の階層プランナ10Aを含む制御システム全体の動作について説明する。
制御システムでは、まず、階層プランナ10Aと環境50との間で相互作用を行い、相互作用履歴を集積する(ステップS101)。この相互作用履歴は、履歴記録媒体40に記録される。
次に、パラメタ計算回路部20Aは、知識記録媒体60に記録された事前知識と履歴記録媒体40に記録された相互作用履歴とを参照して、階層プランナ用パラメタを更新する(ステップS102)。更新後の階層プランナ用パラメタは、パラメタ格納部30に格納される。
制御システムは、これら処理を指定回数繰り返す(ステップS103)。
[効果の説明]
次に、本実施形態の効果について説明する。
本実施形態では、1)階層プランナ10Aと環境50との相互作用履歴の集積と2)集積した相互作用履歴と事前知識とを用いたパラメタ更新を繰り返すというように構成されているため、事前知識と相互作用履歴との両方を考慮した階層プランナ用パラメタの最適化ができる。
尚、階層プランナ10Aの各部は、ハードウェアとソフトウェアとの組み合わせを用いて実現すればよい。ハードウェアとソフトウェアとを組み合わせた形態では、RAM(random access memory)にパラメタ算出プログラムが展開され、該パラメタ算出プログラムに基づいて制御部(CPU(central processing unit))等のハードウェアを動作させることによって、各部を各種手段として実現する。また、該パラメタ算出プログラムは、記録媒体に記録されて頒布されても良い。当該記録媒体に記録されたパラメタ算出プログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。尚、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。
上記実施形態を別の表現で説明すれば、階層プランナ10Aとして動作させるコンピュータを、RAMに展開されたパラメタ算出プログラムに基づき、パラメタ計算回路部20A(特定部22A、パラメタ算出部24A、第1の記号接地関数用パラメタ更新部26A、第2の記号接地関数用パラメタ更新部28A)として動作させることで実現することが可能である。
次に、具体的な実施例を用いて、本発明を実施するための形態の動作について説明する。
本実施例では、非特許文献4に記載の semi-Markov decision processes (SMDPs)を想定している。図8は、上位プランニングと接地過程のための動的ベイジアンネットワークを示している。図8に示す動的ベイジアンネットワークは、上位プランナ12Aが第2の変換部16Aを介してサブゴールgを下位プランナ18に入力後、状態遷移は下位プランナ18と環境50との相互作用結果によって決定されることを示している。相互作用結果は、履歴記録媒体40に相互作用履歴として保存される。尚、図8において、θはパラメタである。
本実施例では、「Mountain Car」タスクを想定している。Mountain Carタスクでは、図9に示されるように、車に対してトルクを加えて、丘の上にあるゴールに到達させる。このタスクにおいて、報酬rは、ゴールに到達すれば100、それ以外は−1である。状態集合Sは、車の速度(velocity)と車の位置(position)である。したがって、数値状態情報sおよびサブゴールgは、この状態集合Sに属する。行動集合Aは、車のトルクである。行動aはこの行動集合Aに属する。状態記号集合Sは、{Bottom_of_hills, On_right_side_hill, On_left_side_hill, At_top_of_right_side_hill}である。状態記号sおよびサブゴール記号gは、この状態記号集合Sに属する。本実施例では、[Bottom_of_hills]が開始状態を示している。[At_top_of_right_side_hill]が目標状態(目的状態)を示している。そして、[On_right_side_hill]および[On_left_side_hill]が中間状態を示している。本実施例では、環境50は丘中にある車の動作シミュレータである。また、本実施例では、階層プランナ10Aは、車の位置、速度から車のトルクの掛け方をプランニングする。図10では、単位時間ごとに環境50と階層プランナ10Aとの間の相互作用結果が履歴記録媒体40に相互作用履歴として保存される。
また、本実施例における上位プランナ12Aは、Strips調の記号知識に基づくプランナである。図11に、上位プランナ12A用の記号知識の例を示す。この図11に示す上位プランナ12A用の記号知識は、複数の状態のうち2つの状態が関連付けされた関連情報である。一方、本実施例における下位プランナ18は、モデル予測制御で実装される。
さらに、本実施例では、知識記録媒体60に記録された事前知識を、人手で作成した記号接地関数に基づいて構築している。図12に、その人手で作成した記号接地関数に基づいて構築した事前知識の一例を示す。
図12において、「記号の発火条件」中の平均Meanおよび標準偏差Stdの組み合わせが、上記パラメタθを示している。したがって、「記号の発火条件」中の平均Meanおよび標準偏差Stdの値が、対象システム50の状態を表すパラメタθを含むモデル情報(正規分布)を表している。なお、後で詳述するように、このパラメタθは、後述する制約付き強化学習によって学習され、変更される。また、図12中の「記号の発火条件」中のpositionの範囲は、パラメタθに関する所与の範囲を示している。
次に、本実施例に係る制約付き強化学習を用いて記号接地関数を学習する方法について説明する。
制約付き強化学習では、下記式
Figure 0006940830
に示されるように、Eπθ[Σt=0]が最大になるように、事前知識付き記号接地関数を含む上位プランニングの方策π(g、g、s、θ|s)のパラメタθを学習する。方策π(g、g、s、θ|s)は、次式で表される。
Figure 0006940830
ここで、P(θ)は事前知識を表す。数2の式では、第1の記号接地関数は
Figure 0006940830
で表され、第2の記号接地関数は
Figure 0006940830
で表され、上位プランナ12AはP(g|s)で表される。
非特許文献5は、図13に示されるような、REINFORCE Algorithmsを提案している。
これに対して、本実施例では、図14に示されるような、階層プランナ10A用のパラメタ更新方法を提案する。図14の式において、右辺の第1項が、相互作用履歴に基づいてパラメタθを更新する項であって、図13に示したREINFORCE Algorithmsを変形して得られたものである。一方、図14の式における右辺の第2項が、事前知識に基づいてパラメタθを更新する制約項を示している。したがって、図14に示すΔθの更新式は、報酬rとパラメタθに関する制約条件が重み付けされた関数に関して、最急降下法等の最適化手法を適用することによって得られる更新式である。
また、本実施例では、図15に示されるように、方策π(g、g、s、θ|s)を、車の位置を確率変数とするガウス分布に基づいて実装している。
したがって、本実施例では、第1の記号接地関数と第2の記号接地関数とは共通のパラメタθに従い、最適化を通じてそのパラメタが求められる。
図15に示されるように、本実施例では、第1の記号接地関数と第2の記号接地関数とはガウス分布
Figure 0006940830
で表され、平均
Figure 0006940830
と標準偏差
Figure 0006940830
が最適化対象のパラメタθとなる。
図16は、図12に示された事前知識から得られる、上記平均と上記標準偏差を示す図である。
本実施例では、パラメタ計算回路部20Aは、それらのパラメタに関する事前知識を参照して最適化を行う。例えば、パラメタ計算回路部20Aは、
Figure 0006940830
に対応する平均および標準偏差
Figure 0006940830
がそれぞれ「0.6」と「0.1」であるという事前知識を参照する。
本実施例では、相互作用履歴に基づく第1の記号接地関数用パラメタ更新部264Aおよび相互作用履歴に基づく第2の記号接地関数用パラメタ更新部284Aは、上記非特許文献5に開示されているREINFORCE Algorithmsを変形したものを利用する(図14中の式の右辺の第1項参照)。
また、本実施例では、事前知識に基づく第1の記号接地関数用パラメタ更新部262Aと、事前知識に基づく第2の記号接地関数用パラメタ更新部282Aとでは、パラメタを事前知識で定義したものに近づけるようにパラメタを更新する(図14中の式の右辺の第2項参照)。パラメタ更新合成部266Aおよび286Aは両更新を加算して実現する。
本発明者は、これらの方法に基づいて、事前知識を考慮してパラメタθの最適化を学習した場合(Proposed)が、事前知識を考慮しない場合(Baseline)に比べて、実際に人間にとって以下に各モジュールの動作が容易に解釈可能であるかを実験的に評価した。
図17は学習によって得られたパラメタを示す図である。図17において、下段の表が平均を示し、上段の表が標準偏差を示している。この表の上部では、各列はシンボルを表し、表の要素は環境50中の車の尤もらしい位置(-1.8, 0.9)を表している。
Baselineでは、「Bottom_of_hills」の平均が「-0.5」であり、「On_right_side_hill」の平均が「-0.73」である。これは、「右の」が、「左と右の谷間」よりも左側に存在することを示唆しており、人間にとって理解しがたい結果となっている。一方で、Proposedでは、そのような問題は起きていない。
なお、本発明の具体的な構成は前述の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の変更があってもこの発明に含まれる。
以上、実施形態(実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
本発明は、プラント運転支援システムといった用途に適用できる。また、本発明は、インフラ運用支援システムといった用途にも適用可能である。
50 環境(対象システム)
10、10A 階層プランナ
14、14A 第1の変換部
12、12A 上位プランナ
16、16A 第2の変換部
18 下位プランナ
20、20A パラメタ計算回路部
22A 特定部
24A パラメタ算出部
26A 第1の記号接地関数用パラメタ更新部
28A 第2の記号接地関数用パラメタ更新部
262A 事前知識に基づく第1の記号接地関数用パラメタ更新部
264A 相互作用履歴に基づく第1の記号接地関数用パラメタ更新部
266A パラメタ更新合成部
282A 事前知識に基づく第2の記号接地関数用パラメタ更新部
284A 相互作用履歴に基づく第2の記号接地関数用パラメタ更新部
286A パラメタ更新合成部
40 履歴記録媒体
60 知識記録媒体
30 パラメタ格納部

Claims (10)

  1. 対象システムに関する複数の状態と、前記複数の状態のうち2つの状態が関連付けされた関連情報と、少なくとも一部の状態に関する報酬と、該対象システムの状態を表すパラメタを含むモデル情報と、該パラメタに関する所与の範囲とに基づき、ある状態から目的状態までの中間状態と、該中間状態に関する報酬とを特定する特定手段と、
    特定した報酬と、前記パラメタの値及び前記所与の範囲の差異の程度とが所定の条件を満たしている場合における、該パラメタの値を算出するパラメタ算出手段と、
    を備えるパラメタ算出装置。
  2. 前記状態と、前記状態を表す数値情報との関連性を表す関連情報に基づき、前記中間状態又は前記中間状態を表す数値情報を算出する変換手段を含む、請求項1に記載のパラメタ算出装置。
  3. 前記中間状態を表す数値情報と、前記対象システムに関して観測された観測情報との差異に基づき、前記対象システムを制御する制御情報を作成する下位プランナを含む、請求項2に記載のパラメタ算出装置。
  4. 前記関連情報を、算出された前記パラメタの値に基づき更新する更新手段を含む、請求項1乃至3のいずれか1項に記載のパラメタ算出装置。
  5. 前記関連情報は、前記数値情報を前記状態に対応付ける第1の記号接地関数を含む、請求項2または請求項3に記載のパラメタ算出装置。
  6. 前記関連情報は、前記状態を前記数値情報に対応付ける第2の記号接地関数を含む、請求項2、請求項3、または、請求項5に記載のパラメタ算出装置。
  7. 情報処理装置によって、対象システムに関する複数の状態と、前記複数の状態のうち2つの状態が関連付けされた関連情報と、少なくとも一部の状態に関する報酬と、該対象システムの状態を表すパラメタを含むモデル情報と、該パラメタに関する所与の範囲とに基づき、ある状態から目的状態までの中間状態と、該中間状態に関する報酬とを特定し、
    特定した報酬と、前記パラメタの値及び前記所与の範囲の差異の程度とが所定の条件を満たしている場合における、該パラメタの値を算出する、
    パラメタ算出方法。
  8. 前記状態と、前記状態を表す数値情報との関連性を表す関連情報に基づき、前記中間状態又は前記中間状態を表す数値情報を算出する、請求項7に記載のパラメタ算出方法。
  9. 前記中間状態を表す数値情報と、前記対象システムに関して観測された観測情報との差異に基づき、前記対象システムを制御する制御情報を作成する、請求項8に記載のパラメタ算出方法。
  10. 対象システムに関する複数の状態と、前記複数の状態のうち2つの状態が関連付けされた関連情報と、少なくとも一部の状態に関する報酬と、該対象システムの状態を表すパラメタを含むモデル情報と、該パラメタに関する所与の範囲とに基づき、ある状態から目的状態までの中間状態と、該中間状態に関する報酬とを特定する特定手順と、
    特定した報酬と、前記パラメタの値及び前記所与の範囲の差異の程度とが所定の条件を満たしている場合における、該パラメタの値を算出するパラメタ算出手順と、
    をコンピュータに実行させるパラメタ算出プログラム
JP2019565102A 2018-01-10 2018-01-10 パラメタ算出装置、パラメタ算出方法、パラメタ算出プログラム Active JP6940830B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/000261 WO2019138457A1 (ja) 2018-01-10 2018-01-10 パラメタ算出装置、パラメタ算出方法、パラメタ算出プログラムが記録された記録媒体

Publications (2)

Publication Number Publication Date
JPWO2019138457A1 JPWO2019138457A1 (ja) 2020-12-03
JP6940830B2 true JP6940830B2 (ja) 2021-09-29

Family

ID=67218234

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019565102A Active JP6940830B2 (ja) 2018-01-10 2018-01-10 パラメタ算出装置、パラメタ算出方法、パラメタ算出プログラム

Country Status (3)

Country Link
US (1) US20210065056A1 (ja)
JP (1) JP6940830B2 (ja)
WO (1) WO2019138457A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7507712B2 (ja) 2021-03-18 2024-06-28 株式会社日本製鋼所 強化学習方法、コンピュータプログラム、強化学習装置及び成形機

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4853997B2 (ja) * 2005-08-17 2012-01-11 株式会社国際電気通信基礎技術研究所 エージェント学習装置、エージェント学習方法及びエージェント学習プログラム
US9298172B2 (en) * 2007-10-11 2016-03-29 International Business Machines Corporation Method and apparatus for improved reward-based learning using adaptive distance metrics
CN108431549B (zh) * 2016-01-05 2020-09-04 御眼视觉技术有限公司 具有施加的约束的经训练的系统
WO2018184666A1 (en) * 2017-04-04 2018-10-11 Telefonaktiebolaget Lm Ericsson (Publ) Training a software agent to control a communication network
US20190146469A1 (en) * 2017-11-16 2019-05-16 Palo Alto Research Center Incorporated System and method for facilitating comprehensive control data for a device

Also Published As

Publication number Publication date
JPWO2019138457A1 (ja) 2020-12-03
US20210065056A1 (en) 2021-03-04
WO2019138457A1 (ja) 2019-07-18

Similar Documents

Publication Publication Date Title
Shin et al. Reinforcement learning–overview of recent progress and implications for process control
Acı et al. A modified dragonfly optimization algorithm for single‐and multiobjective problems using Brownian motion
Sugiyama Statistical reinforcement learning: modern machine learning approaches
Papageorgiou et al. Methods and algorithms for fuzzy cognitive map-based modeling
Faria Machine learning safety: An overview
US20200311556A1 (en) Process and System Including an Optimization Engine With Evolutionary Surrogate-Assisted Prescriptions
JP6963511B2 (ja) 解探索処理装置および解探索処理方法
Zhou et al. Learning the Car‐following Behavior of Drivers Using Maximum Entropy Deep Inverse Reinforcement Learning
CN115066694A (zh) 计算图优化
US11900236B2 (en) Interpretable neural network
Quesada et al. Long-term forecasting of multivariate time series in industrial furnaces with dynamic Gaussian Bayesian networks
Wang et al. A proactive decision support method based on deep reinforcement learning and state partition
CN113196308B (zh) 用于控制移动平台的系统、方法和计算机程序产品
CN116210010A (zh) 用于评估工程系统的一致性的方法和系统
JP6940830B2 (ja) パラメタ算出装置、パラメタ算出方法、パラメタ算出プログラム
Bastani et al. Interpretable, verifiable, and robust reinforcement learning via program synthesis
US20210374612A1 (en) Interpretable imitation learning via prototypical option discovery
Gregor et al. Novelty detector for reinforcement learning based on forecasting
Boularias et al. Apprenticeship learning with few examples
JP6912760B2 (ja) 関連情報改善装置、関連情報改善方法、および関連情報改善プログラム
Lee et al. Instant Inverse Modeling of Stochastic Driving Behavior With Deep Reinforcement Learning
Wei et al. Tabu temporal difference learning for robot path planning in uncertain environments
Yu et al. Deep Q‐Network with Predictive State Models in Partially Observable Domains
Hu Monte Carlo Methods
Chen et al. Building a Belief–Desire–Intention agent for modeling neural networks

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200617

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210817

R150 Certificate of patent or registration of utility model

Ref document number: 6940830

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150