JP6940831B2

JP6940831B2 - 決定装置、決定方法、及び、決定プログラム

Info

Publication number: JP6940831B2
Application number: JP2019565103A
Authority: JP
Inventors: 風人山本
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-01-10
Filing date: 2018-01-10
Publication date: 2021-09-29
Anticipated expiration: 2038-01-10
Also published as: WO2019138458A1; JPWO2019138458A1; US20210065027A1

Description

本発明は決定装置及び決定方法に関し、更には、これらを実現するための決定プログラムに関する。

強化学習（Reinforcement Learning）とは、ある環境におかれたエージェントが、環境の現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種である。エージェントは行動を選択することで、その行動に応じた報酬を環境から得る。強化学習は、一連の行動を通じて報酬が最も多く得られるような方策（Policy）を学習する。なお、環境は制御対象や対象システムとも呼ばれる。

複雑な環境における強化学習においては、学習にかかる計算時間の長大化が大きなボトルネックとなりがちである。そのような問題を解決するための強化学習のバリエーションの一つとして、予め別のモデルで探索すべき範囲を限定した上で、強化学習エージェントはその限定された探索空間で学習を行うことで、学習を効率化する、「階層強化学習」と呼ばれる枠組みがある。探索空間を限定するためのモデルをハイレベルプランナと呼び、ハイレベルプランナから提示された探索空間上で学習を行う強化学習モデルをローレベルプランナと呼ぶ。

階層強化学習手法の一つとして、自動プランニングのシステムをハイレベルプランナとして用いることで、強化学習の学習効率を向上するような手法が提案されている。例えば、非特許文献１はその強化学習の学習効率を向上する手法の一つを開示している。非特許文献１では、ハイレベルプランナとして論理的な演繹推論モデルの一つであるAnswer Set Programmingを用いている。環境に関する知識が推論ルールとして予め与えられており、環境（対象システム）を開始状態から目標状態に到達させるための方策を強化学習によって学習するような状況を想定したとする。このとき、非特許文献１では、まずハイレベルプランナは、Answer Set Programmingと推論ルールとを用いて、環境（対象システム）を開始状態から目標状態に至る上で経由しうる中間状態の集合を推論によって列挙する。それぞれの中間状態をサブゴールと呼ぶ。ローレベルプランナは、ハイレベルプランナから提示されたサブゴール群を考慮しながら、環境（対象システム）を開始状態から目標状態に至らせるような方策を学習する。ここで、サブゴール群は、集合であってもよいし、順序を持った配列や木構造であってもよい。

仮説推論は、既存の知識に基づいて、観測した事実を説明付けるような仮説を導く推論方法である。換言すれば、仮説推論は、与えられた観測に対する最良の説明を導くような推論である。近年においては、処理速度の飛躍的な向上により、仮説推論は、計算機を用いて行われるようになっている。

非特許文献２は、計算機を用いた仮説推論の方式の一例を開示している。非特許文献２では、仮説推論は、仮説候補生成手段と、仮説候補評価手段とを用いて行なわれる。具体的には、仮説候補生成手段は、観測論理式（Observation）と知識ベース（Background knowledge）とを受けて、仮説候補の集合（Candidate hypotheses）を生成する。仮説候補評価手段は、個々の仮説候補の蓋然性を評価することにより、生成された仮説候補の集合の中から、観測論理式を最も過不足なく説明できる仮説候補を選出し、これを出力する。そのような、観測論理式に対する説明として最も良い仮説候補を、解仮説(Solution hypothesis）などと呼ぶ。

また、仮説推論の多くにおいて、観測論理式には「どの観測情報を重視するか」を表すパラメータ（コスト）が与えられる。知識ベースには、推論知識が格納されており、個々の推論知識（Axiom）には「後件が成り立つ時に前件が成り立つ信頼度」を表すパラメータ（重み，Weights）が与えられている。そして、仮説候補の蓋然性の評価においては、それらのパラメータを考慮して評価値（Evaluation）が計算される。

Matteo Leonetti, et al. "A Synthesis of Automated Planning and Reinforcement Learning for Efficient, Robust Decision-Making", Artificial Intelligence (AIJ), Volume 241, pp. 103-130, December 2016. Naoya Inoue and Kentaro Inui, " ILP-based Reasoning for Weighted Abduction", In Proceedings of AAAI Workshop on Plan, Activity and Intent Recognition, pp. 25-32, August 2011.

階層強化学習において、これまでハイレベルプランナとして用いられてきた推論モデルは、前提条件として、推論に必要な情報が全て揃っている必要がある。そのため、部分観測マルコフ決定過程に基づくタスクに適用する場合など、観測が全て与えられない環境では適切なサブゴールを与えることができないという課題がある。

これは、それらの推論モデルがいずれも命題論理に基づくモデルであり、観測に存在しない実体を推論の途中で必要に応じて仮定するということが不可能であることに起因している。例えば非特許文献２ではAnswer Set Programmingが用いられている。Answer Set Programmingにおける一階述語論理に基づく推論は、エルブランの定理を用いて等価な命題論理に変換することによって実現されている。そのため、Answer Set Programmingにおいても、観測されていない実体を推論の途中で必要に応じて仮定することは不可能である。

［発明の目的］
本発明の目的の１つは、上述した課題を解決するような決定装置を提供することである。

本発明の１つの態様として、決定装置は、対象システムに関する複数の状態のうち、ある状態を表す第１情報と、該対象システムに関する目標状態を表す第２情報との間の関係性を表す複数の論理式を含む仮説を、所定の仮説作成手順に従い作成する仮説作成部と；前記仮説に含まれる前記複数の論理式のうち、前記第１情報に関する論理式とは異なる論理式が表す中間状態を、所定の変換手順に従い求める変換部と；前記ある状態から求めた前記中間状態までの行動を、前記複数の状態における状態に関する報酬に基づき決定するローレベルプランナと；を備える。

本発明によれば、試行回数を減らして学習時間を短縮することができる。

談話と観測と背景知識のルールとの一例を示す図である。図１の例の場合に対して、第２のルールを逆向きに遡って仮説を立てて得られる例を示す図である。図１の例の場合に対して、図２の状態から更に、第１のルールを逆向きに遡って仮説を立て、かつ単一化を施して得られる例を示す図である。図１の例の場合に対して、図２乃至図３の状態を経由して、最終的に推論されたモデルを示す図である。プランニングタスクにおける、現在の状態と最終的な状態とから、モデル化した一例を示す図である。強化学習を実現する、関連技術の決定装置を含む強化学習システムを示すブロック図である。本発明の全体像を示す、決定装置を含む階層強化学習システムを示すブロック図である。図７に示した階層強化学習システムの動作を説明するためのフローチャートである。本発明の第１の実施形態に係る決定装置の構成を示すブロック図である。本発明の第１の実施形態に係る決定装置の動作を示す流れ図である。図９中のハイレベルプランナの動作を示す流れ図である。本発明の第２の実施形態に係る決定装置の動作を示す流れ図である。本発明の第３の実施形態に係る決定装置の動作を示す流れ図である。実施例のトイタスクにおけるフィールドの例を示す図である。報酬テーブルの一例を示す図である。クラフティングルールの一例を示す図である。実施例のハイレベルプランナにおいて用いられる述語（環境やエージェントの状態を表すための述語とアイテムの状態を表すための述語）の定義のリストを示す図である。実施例のハイレベルプランナにおいて用いられる述語（アイテムの種別を表すための述語）の定義のリストを示す図である。実施例のハイレベルプランナにおいて用いられる述語（アイテムの使われ方を表すための述語）の定義のリストを示す図である。実施例において用いられる背景知識の世界知識の一例を示す図である。実施例において用いられる推論ルールのクラフティングルールの一例を示す図である。実施例において仮説推論部が出力する仮説の一例（試行序盤）を示す図である。実施例において仮説推論部が出力する仮説の一例（試行終盤）を示す図である。本実施形態による決定装置の提案手法による実験結果（Proposed）と、関連技術の決定装置による階層強化学習法による２つの実験結果（Baseline-1、Baseline-2）とを示す図である。

［関連技術］
本発明の理解を容易にするために、最初に関連技術について説明する。

前述したように、仮説推論とは、与えられた観測に対する最良の説明を導くような推論である。仮説推論は、観測Ｏと背景知識Ｂとを受けて、最良の説明（解仮説）Ｈ^＊を出力する。観測Ｏは、一階述語論理リテラルの連語である。背景知識Ｂは、含意型の論理式の集合から成る。解仮説Ｈ^＊は、次の数１で表される。

数１において、Ｅ（Ｈ）は、仮説Ｈの、説明としての良さを評価する何らかの評価関数を表す。また、数１の右辺のＨ∪Ｂの式は、仮説Ｈは観測Ｏを説明するものであり、かつ背景知識Ｂと矛盾しないものでなければならないことを表している。

仮説推論モデルの一つとして、上記非特許文献２に記載されているような、“Weighted Abduction”が知られている。Weighted Abductionは、仮説推論による談話理解におけるデファクトスタンダードである。Weighted Abductionでは、後ろ向き推論操作と単一化操作を適用していくことで仮説候補を生成する。Weighted Abductionは、評価関数Ｅ（Ｈ）として、下記の数２を用いる。

数２に示す評価関数Ｅ（Ｈ）は、全体のコストの総和が小さい仮説候補ほど、良い説明であることを表している。

図１は、談話と観測Ｏと背景知識Ｂのルールとの一例を示す図である。本例では、談話は”A police arrested the murderer.”、すなわち、「警察官は殺人者を逮捕した。」である。この場合、観測Ｏは、murderer(A)、police(B)、およびarrest(B, A)である。図１に示されるように、観測Ｏには、その右肩に、コスト（本例では、＄１０）が割り当てられている。この例においては、背景知識Ｂのルールとして、第１のルール”kill(x, y)⇒arrest(z, x)”と、第２のルール”kill(x, y)⇒murderer(x)とが存在している。すなわち、第１のルールは、「ｘがｙを殺害したので、ｚはｘを逮捕する」であり、第２のルールは「ｘがｙを殺害したので、ｘは殺人者である」である。図１に示されるように、背景知識Ｂの各ルールには、その右肩に、重みが割り当てられている。重みは信頼度を表しており、重みが高い程、信頼度が低いことを示す。本例では、第１のルールには、「１．４」の重みが割り当てられており、第２のルールには「１．２」の重みが割り当てられている。

図１の例の場合、まず、図２に示されるように、第２のルールを逆向きに遡って仮説を立てる。この場合の仮説は、「殺人者Ａがある人u1を殺害した」と、後ろ向き推論する。推論の根拠が持つコストは仮説に全て伝播する。推論の根拠が持つコストに、第２のルールの重みをかけたものが仮説の持つコストとなる。

また、図１の例の場合に対して、図２の状態から更に、同様に、図３に示されるように、第１のルールを逆向きに遡って仮説を立てる。この場合の仮説は、「警察官Ｂは、殺人者Ａがある人u2を殺害したので逮捕した」と、後ろ向き推論する。この場合も、推論の根拠が持つコストは仮説に全て伝播する。推論の根拠が持つコストに、第１のルールの重みをかけたものが仮説の持つコストとなる。そして、同じ述語（この場合、”kill”）を持つリテラル対が互いに同一のものであると仮説する。この場合、殺害された人が同一人物であると仮説する（u1＝u2）。このように単一化されると、より高い方のコストがキャンセルされる。

最終的に、図４に示されるように、「警察官Ｂは、殺人者Ａがある人（u1＝u2）を殺害したので、殺人者Ａを逮捕した。」と推論する。この場合の仮説のコストは、＄１０＋＄１２＝＄２２となる。

次に、「仮説推論で問題をどう解くのか」の例として、プランニングタスクを例に挙げて説明する。プランニングタスクは、現在の状態と最終的な状態とを観測として与えることで、自然な形でモデル化することができる。

図５は、プランニングタスクにおける、現在の状態と最終的な状態とから、モデル化した一例を示す図である。

図５のプランニングタスクの例では、現在の状態は、”have(John, Apple)”、”have(Tom, Money)”、および”food(Apple)”である。すなわち、現在の状態は、「ＪｏｎｅはＡｐｐｌｅを持っている。」、「ＴｏｍはＭｏｎｅｙを持っている。」、および「Ａｐｐｌｅは食べ物である。」である。

図５のプランニングタスクの例では、最終的な状態は、”get(Tom, x)”および”food(x)”である。すなわち、最終的な状態は、「Ｔｏｍは何か食べ物が欲しい。」である。

図５のプランニングタスクの例においては、次のようなモデル化が可能である。すなわち、現在の状態の”have(Tom, Money)”から、「Ｔｏｍはお金を持っているなら、何かを買うことができる。」と推論できる。すなわち、”buy(Tom, x)”である。また、現在の状態の”have(John, Apple)”から、ｕ＝Ｊｏｈｎとし、ｘ＝Ａｐｐｌｅとすると、”have(u, x) ”となるので、これから「何かを持っているなら、その何かを売ることができる。」と推論できる。すなわち、”sell(u, x)”である。”buy(Tom, x)”の推論と”sell(u, x)”の推論とから、「誰かから何かを買ったなら、その何かを得る。」と推論できる。この推論から、ｘ＝Ａｐｐｌｅが導けるので、目的状態に達するためのプランニングとして「ＪｏｈｎからＡｐｐｌｅを買う」とう行動を導くことができる。

次に、強化学習について説明する。前述したように、強化学習とは、ある環境にけるエージェントが、環境の現在の状態を観測し、取るべき行動を決定するような問題を扱う機械学習の一種である。

図６は、強化学習を実現する、関連技術の決定装置を含む強化学習システムを示すブロック図である。強化学習システムは、環境２００と、エージェント１００’とを備える。環境２００は、制御対象や対象システムとも呼ばれる。一方、エージェント１００’は、コントローラとも呼ばれる。エージェント１００’は、関連技術の決定装置として働く。

まず、エージェント１００’は、環境２００の現在の状態を観測する。すなわち、エージェント１００’は、環境２００から状態観測Ｓ_ｔを取得する。引き続いて、エージェント１００’は行動ａ_ｔを選択することで、その行動ａ_ｔに応じた報酬ｒ_ｔを環境２００から得る。強化学習では、エージェント１００’の一連の行動ａ _ｔを通じて得られる報酬ｒ _ｔが最大となるような、行動ａの方策（Policy）π（ｓ）を学習する（π（ｓ）→ａ）。

関連技術の決定装置では、対象システム２００が複雑なため、現実的な時間で最善操作手順が求まらない。シミュレータや仮想環境があれば、強化学習による試行錯誤的なアプローチを取ることも可能である。しかしながら、関連技術の決定装置では、探索空間が膨大なため、現実的な時間での探索が不可能である。

また、関連技術の決定装置では、その強化学習により見つけた手順（プランニング結果）が示されても、人にとってはその手順（プランニング結果）を理解することが困難である。何故なら、人が理解できる抽象度と、システム操作の抽象度とは、異なるからである。

このような課題を解決するために、上記非特許文献１に開示されているような、階層強化学習手法が提案されている。階層強化学習手法では、人が理解できる抽象度（ハイレベル）と、対象システム２００の具体的な操作手順（ローレベル）との、少なくとも２つのレイヤに分けてプランニングを行っている。階層強化学習手法において、探索空間を限定するためのモデルをハイレベルプランナと呼び、ハイレベルプランナから提示された探索空間上で学習を行う強化学習モデルをローレベルプランナと呼ぶ。

環境２００に関する知識が推論ルールとして予め与えられており、環境（対象システム）２００を開始状態から目標状態に到達させるための方策を強化学習によって学習するような状況を想定する。このとき、前述したように、非特許文献１では、まずハイレベルプランナは、Answer Set Programmingと推論ルールとを用いて、環境（対象システム）２００を開始状態から目標状態に至る上で経由しうる中間状態の集合を推論によって列挙する。それぞれの中間状態をサブゴールと呼ぶ。ローレベルプランナは、ハイレベルプランナから提示されたサブゴール群を考慮しながら、環境（対象システム）２００を開始状態から目標状態に至らせるような方策を学習する。

しかしながら、前述したように、非特許文献１に開示された技術においては、観測が全て与えられていない環境２００に対して適切なサブゴール（中間状態）を与えることができないという課題がある。

また、前述したように、非特許文献２は、計算機を用いた仮説推論の方式の一例を開示している。非特許文献２でも、論理的な演繹推論モデルとして、上記Answer Set Programmingを用いている。前述したように、Answer Set Programmingでは、観測されていない実体を推論の途中で必要に応じて仮定することは不可能である。

本発明は、このような課題を解決可能な、決定装置を提供することを目的の１つとしている。

［発明の全体像］
次に、図面を参照して、本発明の全体像について説明する。図７は、本発明の全体像を示す、決定装置１００を含む階層強化学習システムを示すブロック図である。図８は、図７に示した階層強化学習システムの動作を説明するためのフローチャートである。

図７に示されるように、階層強化学習システムは、決定装置１００と環境２００とを備える。環境２００は制御対象や対象システムとも呼ばれる。決定装置１００はコントローラとも呼ばれる。

決定装置１００は、強化学習エージェント１１０と、仮説推論モデル１２０と、背景知識（背景知識情報）１４０とを備える。強化学習エージェント１１０はローレベルプランナとして働く。強化学習エージェント１１０は機械学習モデルとも呼ばれる。仮説推論モデル１２０はハイレベルプランナとして働く。背景知識１４０は知識ベース（知識ベース情報）とも呼ばれる。

仮説推論モデル１２０は、強化学習エージェント１１０の状態を観測として受け取り、「報酬を最大化するために行うべき行動」を抽象レベルで推論する。この「報酬を最大化するために行うべき行動」は、サブゴールや中間状態とも呼ばれる。仮説推論モデル１２０は、推論時に背景知識１４０を利用する。仮説推論モデル１２０は、ハイレベルプラン（推論結果）を出力する。

一方、強化学習エージェント１１０は、環境２００に対して行動し、環境２００から報酬を得る。強化学習エージェント１１０は、仮説推論モデル１２０から与えられるサブゴールを達成するための操作系列を、強化学習を通じて学習する。このとき、強化学習エージェント１１０は、ハイレベルプラン（推論結果）をサブゴールとして利用する。

次に、図８を参照して、図７に示した階層強化学習システムの動作について説明する。

先ず、仮説推論モデル１２０は、環境２００の現在状態および背景知識１４０を受けて、現在状態から目的状態までのハイレベルプランを決定する（ステップＳ１０１）。目的状態は、目標状態またはゴールとも呼ばれる。換言すれば、強化学習エージェント１１０は、強化学習エージェント１１０の現在の状態を観測として、仮説推論モデル１２０に与える。仮説推論モデル１２０は、背景知識１４０を用いて推論を行い、ハイレベルプランを出力する。

引き続いて、強化学習エージェント１１０である機械学習モデルは、ハイレベルプランをサブコールとして受けて、次の方策を決定し、実行する（ステップＳ１０２）。これに対して、環境２００は、現在状態と直近の行動を受けて、報酬値を出力する（ステップＳ１０３）。すなわち、強化学習エージェント１１０は、直近のサブゴールに向けて行動を行う。このとき、ハイレベルプランのうち、たとえば、最もゴールから遠い行動がサブゴールとなる。このサブゴールとしては、基本的には、現在位置から指定された位置に移動することだけを指示される。

次に、強化学習エージェント１１０である機械学習モデルは、報酬値を受けて、パラメータを更新する（ステップＳ１０４）。そして、仮説推論モデル１２０は、環境２００が目的状態に達したか否かを判断する（ステップＳ１０５）。目的状態に達していなければ（ステップＳ１０５のＮＯ）、決定装置１００は、処理をステップＳ１０１に戻す。すなわち、サブゴールが達成できたら、決定装置１００は、ステップＳ１０１に戻る。したがって、仮説推論モデル１２０は、サブゴール達成後の状態を観測として、もう一度ハイレベルプランを立てる。

一方、目的状態に達していれば（ステップＳ１０５のＹＥＳ）、決定装置１００は処理を終了する。すなわち、終了条件を満たしていたら、決定装置１００は処理を終了する。ここで、終了条件としては、例えばコンピュータゲームが学習対象である場合は、何らかのゴールに到達することや、ゲームオーバーになることなどが考えられる。

次に、決定装置１００の効果について説明する。

先ず、階層的強化学習手法を採用しているので、適切なサブゴールを与えることが可能となり、強化学習が効率化できる。

次に、ハイレベルプランナとして論理推論モデル１２０を用いているので、次に述べるような効果がある。

第１に、シンボリックな背景知識１４０を用いることができることである。したがって、知識そのものの解釈性が高く、メンテナンスしやすい。また、マニュアルなどの「人間向けのドキュメント」を自然な形で再利用できる。

第２に、学習に使えるデータが少ない状況でも機能できることである。ただし、そのぶん、背景知識１４０を与える必要がある。したがって、マニュアルが充実しているが、学習データが少ないような場合に有用である。

第３に、統計的手法と比べて、より高度な意思決定を行うことができることである。具体的には、観測情報の間に潜在する相関関係など、単純な試行錯誤から学習することが難しい概念であっても、論理推論であれば自然に扱うことができる。

また、仮説推論をハイレベルプランナに用いているので、次に述べるような効果がある。

第１に、出力の解釈性が高いことである。その理由は、推論結果（ハイレベルプラン）が、単なる論理式の連言ではなく、構造を持った証明木の形で得られるからである。それにより、どんな推論を経てその結果に至ったのか、を自然な形で提示できる。

第２に、自由変数を推論中に持ち込むことができることである。それにより、観測に含まれない変数を自由に仮定することができる。また、観測が不足している状況であっても、適宜仮説を立てながらプラン全体を生成することが可能となる。これによって、学習の並列化が可能となる。さらに、対象タスクがＭＤＰ（Markov Decision Process）であるか、ＰＯＭＤＰ（Partially Observable Markov Decision Process）であるかに依存しないという利点もある。

第３に、評価関数を柔軟に定義できることである。詳述すると、仮説推論の評価関数は、特定の理論（確率論など）に基づいていない。その結果、タスクに応じて「仮説の良さ」の基準を自由に定義できる。また、確率的な推論モデルとは異なり、プランの良さの評価に「プランの実行可能性」以外の要素が絡む場合でも自然に適用可能である。なお、評価関数の具体例については後述する。

次に、発明を実施するための形態について図面を参照して詳細に説明する。

[第1の実施形態]
[構成の説明]
図９を参照すると、本発明の第１の実施形態に係る決定装置１００は、ローレベルプランナ１１０と、ハイレベルプランナ１２０とから成る。ハイレベルプランナ１２０は、観測論理式生成部１２２、仮説推論部１２４、およびサブゴール生成部１２６から成る。仮説推論部１２４は知識ベース１４０に接続されている。これら構成要素の全ては、図示はしないが、入出力装置、記憶装置、ＣＰＵ（central processing unit）、およびＲＡＭ（random access memory）を中心に構成されたマイクロコンピュータが実行する処理によって実現される。

ハイレベルプランナ１２０は、後述するように、ローレベルプランナ１１０が目標状態Ｓｔに達するために経由すべき複数のサブゴールＳＧを出力する。ローレベルプランナ１１０は、そのサブゴールＳＧに従って実際の行動を決定する。

対象システム（環境）２００（図７参照）は、複数の状態に関係している。ここでは、それら複数の状態のうち、ある状態を表す情報を「第１情報」と呼び、対象システム（環境）２００に関する目標状態を表す情報を「第２情報」と呼ぶことにする。複数の状態のうち、開始状態と目標状態とを除く状態は、中間状態と呼ばれる。なお、前述したように、各中間状態はサブゴールＳＧと呼ばれ、目標状態はゴールと呼ばれる。

したがって、換言すれば、ローレベルプランナ１１０は、上記ある状態から求めた上記中間状態までの行動を、上記複数の状態における状態に関する報酬に基づき決定する。

観測論理式生成部１２２は、上記目標状態や、ローレベルプランナ１１０自身の現在状態や、ローレベルプランナ１１０が観測できる環境２００に関する上記ある状態を表す第１情報を、一階述語論理式の連言、即ち観測論理式Ｌｏに変換する。ここで、仮説が、上記第１情報と上記第２情報との間の関係性を表す複数の論理式を含むとする。この場合、観測論理式Ｌｏは、上記複数の論理式から選択されることになる。この時の変換方法については、適用対象のシステムに応じたものをユーザが定義してもよい。

仮説推論部１２４は、上記非特許文献２に示すような、一階述語論理に基づく仮説推論モデルである。仮説推論部１２４は、知識ベース１４０と観測論理式Ｌｏとを受け取り、観測論理式Ｌｏに対する説明として最も良い上記仮説Ｈｓを出力する。この時に用いる評価関数については、適用対象のシステムに応じたものをユーザが定義してもよい。評価関数は、所定の仮説作成手順を規定する関数である。

したがって、上記観測論理式生成部１２２と上記仮説推論部１２４との組み合わせは、第１情報と第２情報との間の関係性を表す複数の論理式を含む仮説Ｈｓを、所定の仮説作成手順に従い作成する仮説作成部（１２２；１２４）として働く。

サブゴール生成部１２６は、仮説推論部１２４が出力した仮説Ｈｓを受け取り、ローレベルプランナ１１０が目標状態Ｓｔに達するために、経由すべき複数のサブゴールＳＧを出力する。この時の変換方法（所定の変換手順）については、適用対象のシステムに応じたものをユーザが定義してもよい。したがって、サブゴール生成部１２６は、上記仮説Ｈｓに含まれる複数の論理式のうち、第１情報に関する論理式とは異なる論理式が表す中間状態（サブゴール）を、所定の変換手順に従い求める変換部として働く。

[動作の説明]
次に、図１０、図１１のフローチャートを参照して、本実施の形態の決定装置１００全体の動作について詳細に説明する。

まず、図１０は、開始状態Ｓｓおよび目標状態Ｓｔが与えられたとき、ハイレベルプランナ１２０によって、開始状態Ｓｓから目標状態Ｓｔに至るための複数のサブゴールＳＧがローレベルプランナ１１０に与えられるまでのフローを表している。

図１１は、ハイレベルプランナ１１０において、現在状態Ｓｃから目標状態Ｓｔに至るための複数のサブゴールＳＧを導出するためのフローチャートを表している。試行開始時においては、現在状態Ｓｃとは開始状態Ｓｓに等しい。

観測論理式生成部１２２は、開始状態Ｓｓと、目標状態Ｓｔとを、それぞれ一階述語論理式に変換する。これらの論理式を連言として繋げたものが観測論理式Ｌｏとして扱われる。

次に、仮説推論部１２４が、この観測論理式Ｌｏと知識ベース１４０とを受けて、仮説Ｈｓを出力する。この時、仮説推論部１２４で行われている推論とは、直感的には、現在状態Ｓｃと、未来のある時点で目標状態Ｓｔに到達することを、それぞれ既定としたときに、その間の説明を立てることに等しい。知識ベース１４０は、環境（対象システム）２００に関する事前知識を一階述語論理式で表した推論ルールの集合から成る。

次に、サブゴール生成部１２６は、この仮説Ｈｓを受けて、開始状態Ｓｓから目標状態Ｓｔに到達するために経由すべきサブゴールＳＧ群を生成する。この時、個々のサブゴールＳＧ間に順序関係が存在するなら、それを考慮した形式で出力しても良い。

ローレベルプランナ１１０は、提示されたサブゴールＳＧ群に到達できるように行動を選択し、環境（対象システム）２００から得られた報酬に応じて方策を学習する。この時、基本的には、既存の階層強化学習と同様に、ローレベルプランナ１１０がサブゴールＳＧに到達するごとに内部的な報酬を与えることによって、学習を制御する。

[効果の説明]
次に、本第１の実施形態の効果について説明する。

本第１の実施形態では、ハイレベルプランナ１２０として一階述語論理に基づく仮説推論モデルを用いている。このため、仮説推論モデル１２０を用いることで、観測が不十分な環境であっても、開始状態Ｓｓから目標状態Ｓｔに至るための一連のサブゴールＳＧを、必要に応じて仮説を立てながら生成することができる。従って、ローレベルプランナ１１０はこのサブゴールＳＧ列を経由するように行動選択することによって、目標状態Ｓｔに至るための方策を効率的に学習することが可能である。また、そのプランを実行することで得られる報酬を、仮説の評価において勘案することが可能である。

尚、決定装置１００の各部は、ハードウェアとソフトウェアとの組み合わせを用いて実現すればよい。ハードウェアとソフトウェアとを組み合わせた形態では、ＲＡＭに決定プログラムが展開され、該決定プログラムに基づいて制御部（ＣＰＵ）等のハードウェアを動作させることによって、各部を各種手段として実現する。また、該決定プログラムは、記録媒体に記録されて頒布されても良い。当該記録媒体に記録された決定プログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。尚、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。

上記第１の実施形態を別の表現で説明すれば、決定装置１００として動作させるコンピュータを、ＲＡＭに展開された決定プログラムに基づき、ローレベルプランナ１１０、およびハイレベルプランナ１２０（観測論理式生成部１２２、仮説推論部１２４、およびサブゴール生成部１２６）として動作させることで実現することが可能である。

[第２の実施形態]
[構成の説明]
次に、本発明の第２の実施形態に係る決定装置１００Ａについて、図面を参照して詳細に説明する。

図１２は、開始状態Ｓｓおよび目標状態Ｓｔが与えられたとき、決定装置１００Ａが、強化学習のある一試行において、ローレベルプランナ１１０が開始状態Ｓｓから目標状態Ｓｔに至るまでのフローを表している。

図示の決定装置１１０Ａは、ローレベルプランナ１１０とハイレベルプランナ１２０とに加えて、更に、エージェント初期化部１５０と現在状態取得部１６０とを備えている。ローレベルプランナ１１０は行動実行部１１２を含む。

エージェント初期化部１５０では、ローレベルプランナ１１０の状態を開始状態Ｓｓに初期化する。

現在状態取得部１６０では、ローレベルプランナ１１０の現在状態Ｓｃをハイレベルプランナ１２０（観測論理式生成部１２２）の入力として抽出する。

行動実行部１１２では、サブコール生成部（変換部）１２６から提示された中間状態（サブゴールＳＧ）に従って、行動を決定および実行し、環境（対象システム）２００から報酬を受け取る。

[動作の説明]
これらの手段は、それぞれ概略つぎのように動作する。

まず、エージェント初期化部１５０が、ローレベルプランナ１１０の状態を開始状態Ｓｓに初期化する。

次に、現在状態取得部１６０がローレベルプランナ１１０の現在状態Ｓｃを取得し、現在状態Ｓｃをハイレベルプランナ１２０へ供給する。試行開始時においては、現在状態Ｓｃとは開始状態Ｓｓに等しい。

次に、ハイレベルプランナ１２０が、現在状態Ｓｃから目標状態Ｓｔに至るためのサブゴールＳＧ列を出力する。

次に、ローレベルプランナ１１０の行動実行部１１２が、ハイレベルプランナ１２０から提示されたサブゴールＳＧ列に従って、行動を決定および実行し、環境から報酬を受け取る。

最後に、ローレベルプランナ１１０は、現在状態Ｓｃが目標状態Ｓｔに至ったかどうかを判定する（ステップＳ２０１）。現在状態Ｓｃが目標状態Ｓｔに至っていれば（ステップＳ２０１のＹＥＳ）、ローレベルプランナ１１０は試行を終了する。現在状態Ｓｃが目標状態Ｓｔに至っていないならば（ステップＳ２０１のＮＯ）、決定装置１１０Ａは、現在状態取得部１６０へと処理をループする。そして、ハイレベルプランナ１２０は、現在状態Ｓｃから目標状態Ｓｔへ至るためのサブゴールＳＧ列を再度計算する。

[効果の説明]
次に、本第２の実施形態の効果について説明する。

本第２の実施形態では、ローレベルプランナ１１０が行動のたびにサブゴールＳＧを再計算するように構成されている。このため、試行の途中で新たな情報が観測され、それによって最良のプランが変化してしまう場合であっても、それぞれの時点での最良のサブゴールＳＧに基づいて、行動を選択できる。

尚、決定装置１００Ａの各部は、ハードウェアとソフトウェアとの組み合わせを用いて実現すればよい。ハードウェアとソフトウェアとを組み合わせた形態では、ＲＡＭに決定プログラムが展開され、該決定プログラムに基づいて制御部（ＣＰＵ）等のハードウェアを動作させることによって、各部を各種手段として実現する。また、該決定プログラムは、記録媒体に記録されて頒布されても良い。当該記録媒体に記録された決定プログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。尚、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。

上記第２の実施形態を別の表現で説明すれば、決定装置１００Ａとして動作させるコンピュータを、ＲＡＭに展開された決定プログラムに基づき、ローレベルプランナ１１０（行動実行部１１２）、ハイレベルプランナ１２０、エージェント初期化部１５０、および現在状態取得部１６０として動作させることで実現することが可能である。

[第３の実施形態]
[構成の説明]
次に、本発明の第３の実施形態に係る決定装置１００Ｂについて、図面を参照して詳細に説明する。

図１３は、決定装置１００Ｂにおけるローレベルプランナ１１０Ａの学習を並列的に実行する場合のフローチャートである。ローレベルプランナ１１０Ａは、状態取得部１１２Ａとローレベルプランナ学習部１１４Ａとを備える。ここでは、前提として、ハイレベルプランナ１２０から出力されるサブゴールＳＧは、経由すべき順序でソートされた配列であり、その要素数はＮであるとする。また、配列の先頭要素は開始状態Ｓｓであり、配列の末尾要素は目標状態Ｓｔであるとする。

状態取得部１１２Ａは、インデックス値ｉおよびサブゴールＳＧ列を受けて、ｉ番目のサブゴールＳＧ_ｉと、ｉ＋１番目のサブゴールＳＧ_ｉ＋１とを、それぞれ取得する。ここでは、取得されたエージェント状態をそれぞれ状態［ｉ］、状態［ｉ＋１］と表す。

ローレベルプランナ学習部１１４Ａでは、状態［ｉ］を開始状態Ｓｓ、状態［ｉ＋１］を目標状態Ｓｔとして、ローレベルプランナ１１０Ａの方策を並列的に学習する。

まず、ハイレベルプランナ１２０が、開始状態Ｓｓおよび目標状態Ｓｔを受けて、開始状態Ｓｓから目標状態Ｓｔに至るまでの一連のサブゴールＳＧを、時系列に沿った配列として出力する。

次に、ローレベルプランナ１１０Ａでは、これらサブゴールＳＧ列の、それぞれ隣り合った要素対について、ローレベルプランナ１１０Ａの学習を実行する。具体的には、まず、状態取得部１１２Ａにおいて対象とするサブゴール対ＳＧ_ｉ、ＳＧ_ｉ＋１を取得する。次に、ローレベルプランナ学習部１１４Ａは、それらを開始状態Ｓｓおよび目標状態Ｓｔと見做して、ローレベルプランナ１１０Ａの学習を実行する。

[効果の説明]
次に、本第３の実施形態の効果について説明する。

本第３の実施形態では、各サブゴールＳＧ間の方策の学習を、それぞれ独立に行っている。そのため、それぞれの学習を並列的に実行することにより、学習に係る時間を削減することが可能である。

尚、決定装置１００Ｂの各部は、ハードウェアとソフトウェアとの組み合わせを用いて実現すればよい。ハードウェアとソフトウェアとを組み合わせた形態では、ＲＡＭに決定プログラムが展開され、該決定プログラムに基づいて制御部（ＣＰＵ）等のハードウェアを動作させることによって、各部を各種手段として実現する。また、該決定プログラムは、記録媒体に記録されて頒布されても良い。当該記録媒体に記録された決定プログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。尚、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。

上記第３の実施形態を別の表現で説明すれば、決定装置１００Ｂとして動作させるコンピュータを、ＲＡＭに展開された決定プログラムに基づき、ローレベルプランナ１１０Ａ（状態取得部１１２Ａ、およびローレベルプランナ学習部１１４Ａ）、およびハイレベルプランナ１２０として動作させることで実現することが可能である。

次に、本発明の第１の実施形態に係る決定装置１００を、具体的な対象システム２０に適用した場合の実施例について説明する。実施例に係る対象システム２０は、トイタスクである。トイタスクとは、Minecraft（登録商標）を模したクラフトゲームである。すなわち、トイタスクは、フィールドにある材料を収集／クラフトし、目標となるアイテムをクラフトするタスクである。

以下において、本実施例におけるトイタスクにおけるミッション定義について説明する。開始状態Ｓｓは、マップのある座標（Sと表す）に居り、アイテムを何も持っておらず、フィールドに関する情報も何も持っていない状態である。目標状態Ｓｔは、マップのある座標（Gと表す）に到達することである。ただし、フィールド上に存在するいくつかの座標（Xと表す）を通過してしまうと、その時点で失敗となる。これは、プラント運転などで言い換えるなら、適切な手順で操作しなかった場合に爆発してしまうような状況に対応する。

フィールドは、１３×１３升目の二次元空間であり、その中に様々なアイテムを配置している。図１４は、そのアイテム配置の一例を示している。

図示のトイタスクは、マップ上に落ちているアイテムを集めて、食べ物を作成するタスクである。アイテムの配置は固定で、マップのサイズは、上述したように１３×１３である。

食べ物を持った状態でスタート地点（S）に戻った時点で、所持している食べ物に応じた報酬が与えられる。所持品の中で最も報酬が大きくなる一つに対して報酬が与えられる。図１５に報酬テーブルの一例を示す。

エージェントがとれる行動は、東西南北の４方向のいずれかに移動するのみである。アイテムのクラフティングについては、素材が集まった時点で自動的に行われる。元々のゲームと異なり、クラフティングテーブルは必要としないもととする。図１６にクラフティングルールの一例を示す。これらクラフティングルールのうち、例えば、三番目iii.のルールは、「potato, rabbitを両方持っているなら、coal一つで両方を調理できる。」ことを示している。アイテムの拾得やクラフティングは自動で行われるため、「いつ何を作るか」は、「どのタイミングでどのアイテムの位置に移動するか」という問題に帰着される。１００回行動するか、スタート地点で報酬を得た時点で終了する。

エージェントは、自身の周囲２マスの範囲にあるアイテムの有無を知覚することができるものとする。各アイテムの位置を知覚しているかどうかは、エージェントの状態として表される。

このタスクにおける知識ベース１４０は、クラフトに関するルールや、常識的なルールなどが、一階述語論理式で表現された推論ルールで構成される。仮説推論モデル１２０で扱うためには、各種の状態を論理表現で表す必要がある。図１７、図１８、および図１９に、本実施例の論理表現において定義した述語のリストを示す。

図１７は環境やエージェントの状態を表すための述語の定義と、アイテムの状態を表すための述語の定義とを示すリストの図である。図１８はアイテムの種別を表すための述語の定義を示すリストの図である。図１９はアイテムの使われ方を表すための述語の定義を示すリストの図である。

本実施例では、現在の状態と最終ゴールを論理表現で表したものを観測として用いた。現在の状態とは、エージェントが何を所持しているか、マップ上のどこに何が落ちているか等である。例えば、エージェントがcarrotを保持している場合の論理表現は、carrot(X1)∧have(X1, Now)である。また、例えば、座標（４，４）にcoalが落ちている場合の論理表現は、coal(X2)∧at(X2, P_4_4)である。最終ゴールは、例えば、将来のある時点でエージェントが何らかの食べ物somethingに応じた報酬を得ることである場合の論理表現は、eat(something, Future)である。

また、本実施例では、知識ベース１４０として、人手で作成したものを用いた。なお、「背景知識」はそのタスクを解くために使わる知識情報である。「世界知識」は背景知識のうち、そのタスクにおける原理・法則に関する知識（世界に関する知識）情報である。「推論ルール」は個々の背景知識を論理表現の形で表したものである。「知識ベース」は推論ルールの集合である。図２０は、本タスクで用いられた背景知識の世界知識を記述したものであり、図２１は、本タスクで用いられた推論ルールのクラフティングルールを記述したものである。

次に、本実施例で用いる仮説推論モデルの評価関数を、関連技術の仮説推論モデルの評価関数と比較しつつ説明する。

最初に、関連技術の仮説推論モデルの評価関数について説明する。関連技術の仮説推論モデルにおける評価関数は、「説明としての良さ」を評価する関数である。このような評価関数では、生成されたプランの効率性など、「説明としての良さ」とは異なる評価指標の元での「仮説の良さ」を評価することは出来ない。したがって、生成したプランによって得られる報酬の高さを評価関数の中で勘案することが出来ない。

これに対して、本実施例では、仮説のプランとしての良さを評価できるように、仮説推論モデルの評価関数を拡張している。下記の数３は、本実施例で用いる評価関数Ｅ（Ｈ）を表す式である。

数３の右辺のＥ_ｅ（Ｈ）は、仮説Ｈの、観測に対する説明として良さを評価する第１の評価関数である。この第１の評価関数は、関連技術の仮説推論モデルの評価関数に等しい。また、数３の右辺のＥ_ｒ（Ｈ）は、仮説Ｈの、プランとしての良さを評価する第２の評価関数である。また、数３の右辺のλは、どちらを重視するかの重み付けを行うハイパーパラメータである。

数３から分かるように、本実施例で用いる評価関数Ｅ（Ｈ）は、第１の評価関数Ｅ_ｅ（Ｈ）と第２の評価関数Ｅ_ｒ（Ｈ）との組み合わせから成る。

なお、本実施例では、下記の数４で示されるように、評価関数Ｅ（Ｈ）を定義した。

数４の右辺のＲ（Ｈ）は、仮説Ｈによって表されるハイレベルプランが実行されたときに得られる報酬の値を表している。

以下では、本実施例において、ハイレベルプランナ１２０が、ローレベルプランナ１１０の現在状態Ｓｃから目標状態Ｓｔに至るためのサブゴールＳＧを導出するフローについて説明する。

まず、観測論理式生成部１２２において、開始状態Ｓｓおよび現在状態Ｓｃがそれぞれ論理式に変換される。このとき、開始状態Ｓｓを表す論理式には、強化学習エージェント１１０がどのアイテムの位置を知っているか、強化学習エージェント１１０が何を持っているか、強化学習エージェント１１０がどの座標の情報を持っていないか、などを表す論理式が含まれる。また目標状態Ｓｔを表す論理式は、将来のある時点において強化学習エージェント１１０がゴール地点で報酬を得る、という情報を表す論理式である。

次に、仮説推論部１２４は、これらの論理式を観測論理式Ｌｏとして、仮説推論を適用する。そして、サブゴール生成部１２６においては、仮説推論部１２４から得られた仮説ＨｓからサブゴールＳＧを生成する。

本タスクにおいて、各種の意思決定は「いつ何処に行くか」で表現される。例えば、「どのアイテムによって報酬を貰うか」は、「いつスタート地点に戻るか」と表現される。また、例えば、「どのアイテムを作るか」は、「どの順番でアイテムの落ちている座標に移動するか」と表現される。そのため、移動先だけをサブゴールとして与える系では、移動経路で思わぬ意思決定が行われる場合があり、不十分である。具体的には、材料を集めている途中で、スタート地点を通ってしまい、うっかりゴールしてしまう、などである。

そこで、本実施例では、サブゴール生成部１２６は、強化学習エージェント１１０に渡されるサブゴールを、以下の要素で構成する。すなわち、次に移動してほしい座標の集合（positive subgoals）をＰとし、移動してほしくない座標の集合（negative subgoals）をＮとする。

強化学習エージェント１１０は、Ｎ中の座標を通過せず、Ｐ中の座標のどれかに移動するように学習する。尚、強化学習エージェント１１０の具体的な学習方法については、後で詳細に説明する。

次に、サブゴール生成部１２６におけるサブゴールの抽出について説明する。

最初に、positive subgoalsの決定方法について説明する。この場合、サブゴール生成部１２６は、推論結果のうち、述語moveを持つ論理式をサブゴールとして考える。したがって、サブゴール生成部１２６は、強化学習エージェント１１０に、その論理式が表す移動先をサブゴールとして与える。ここで、サブゴールが複数ある場合、サブゴール生成部１２６は、最終状態eat(something, Future)からの距離が最も遠いサブゴールを直近のサブゴールとして扱う。ここでの距離とは、証明木の上で経由するルールの数である。

次に、negative subgoalsの決定方法について説明する。この場合、サブゴール生成部１２６は、以下の条件を満たす座標の全てをnegative subgoalsとして扱う。すなわち、第１の条件は、スタート地点であるか、又は何らかのアイテムが落ちている座標である。第２の条件は、positive subgoalsに含まれていないことである。

次に、ハイレベルプランナ１２０で行われる推論の具体例について説明する。

図２２は、前記トイタスクにおいて、試行序盤のある時点で仮説推論部１２４から得られる仮説Ｈｓである。実線の矢印はルールの適用を表しており、点線で結ばれた論理式のペアは、それぞれこの仮説Ｈｓにおいて論理的に等価であることを表している。図中下部の四角で囲まれた論理式が観測論理式Ｌｏであるが、これらの論理式は、石炭（変数X1で表される）が座標４，４に存在することと、兎肉（変数Ｘ２で表される）が座標４，−４に存在することを、強化学習エージェント１１０が知覚していることを表している。また、論理式eat(something, Future)は、目標状態Ｓｔを表した論理式である。

図２２の仮説Ｈｓは、次のように解釈される。まず、将来的に最も高い報酬を得るという観測情報から、それより手前のある時点（ｔ１と表す）で兎のシチュー（rabbit_stew）を所持しているという仮説を立てる。次に、rabbit_stewをクラフトするためのルールより、強化学習エージェント１１０が、時刻ｔ１よりも前のある時点（ｔ２と表す）で、調理した兎肉（cooked_rabbit）を手に入れているという仮説を立てる。更に、cooked_rabbitをクラフトするためのルールより、エージェントが、時刻ｔ２よりも前のある時点（ｔ３と表す）で、石炭（coal）と兎肉（rabbit）を手に入れているという仮説を立てる。最後に、それぞれのアイテムを拾得するものであると仮定することで、強化学習エージェント１１０自身が持っている「石炭と兎肉がフィールドに落ちている」という知識と結びつく。

サブゴール生成部１２６においては、この仮説ＨｓからサブゴールＳＧを生成する。ここでは、図２２の仮説ＨｓからサブゴールＳＧを生成する場合を考える。仮説ＨｓからサブゴールＳＧを生成する際に、何をサブゴールとして考えるかは様々な可能性が考えられる。例えば、サブゴール生成部１２６において、特定の座標へ移動することをサブゴールＳＧとして置いたとする。この場合には、図２２の仮説Ｈｓからは「座標４，４に移動する」「座標４，−４に移動する」といったサブゴール列が得られる。

図２３は、前記トイタスクにおいて、試行終盤のある時点で仮説推論部１２４から得られる仮説Ｈｓである。この試行終盤においては、仮説推論部１２４は、rabbit-stewを手に入れたので、あとはスタート地点に向かえばよいと推論する。これにより、図２３の仮説Ｈｓからは「ゴール地点に移動する」といったサブゴールが得られる。

一方、サブゴール生成部１２６において、所持しているアイテムの種別をサブゴールＳＧとして置いたとする。この場合には、図２２および図２３の仮説Ｈｓからは「石炭を所持している」「兎肉を所持している」「調理した兎肉を所持している」「ラビットシチューを所持している」「ゴールする」といったサブゴールＳＧ列が得られる。

最後に、ローレベルプランナ（強化学習エージェント）１１０は、こうして得られたサブゴールＳＧ列を考慮しながら、試行錯誤を行い、方策を学習する。

次に、強化学習エージェント１１０で実施される、具体的な学習方法について説明する。

強化学習エージェント１１０は、移動方向（上下左右の４方向）を決定する。強化学習エージェント１１０では、サブゴールごとに個別のＱ関数を用いる。個々のＱ関数の学習は、下記の数５で表される、強化学習の一般的な学習法であるＳＡＲＳＡ（State, Action, Reward, State(next), Action(next)）法によって行う。

数５において、Ｓはstateを表し、ａはactionを表し、αは学習率を表し、Ｒは報酬を表し、γは報酬の割引率を表し、ｓ’はnext-stateを表し、ａ’はnext-actionを表す。

次に、本発明の実施形態に係る決定装置１００によって上記トイタスクを実験した場合と、関連技術の決定装置によって上記トイタスクを実験した場合との実験結果について説明する。

トイタスクのその他の設定は次の通りである。強化学習のエピソード数は１００，０００であるとする。また、実験はモデルごとに５回行い、その平均を実験結果として扱った。

図２４は、本実施形態による決定装置１００の提案手法による実験結果（Proposed）と、関連技術の決定装置の階層強化学習法による２つの実験結果（Baseline-1、Baseline-2）とを示す図である。

関連技術の決定装置による階層強化学習法では、サブゴールを決定するためのＱ関数と、サブゴールに従って行動を決定するＱ関数とを、それぞれ学習する。また、サブゴールについては、次の２パターンを用いた。Baseline-1では、図１４のマップを９つに分割した各エリアに到達することをサブゴールとした。Baseline-2では、図１４におけるアイテム位置、スタート地点の各座標に到達することをサブゴールとした。

図２４より、本提案手法では、関連技術の階層強化学習法と比較して、局所最適解を回避して、最適なプランを学習できていることが確かめられた。すなわち、本提案手法（Proposed）では、関連技術の手法（Baseline-1、Baseline-2）より遙かに効率的に方策を学習していることが分かる。また、提案手法（Proposed）では、最適な方策を学習しているのに対して、関連技術の手法（Baseline-1、Baseline-2）では、どちらも局所最適に陥っていることが分かる。

なお、本発明の具体的な構成は前述の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の変更があってもこの発明に含まれる。

以上、実施形態（実施例）を参照して本願発明を説明したが、本願発明は上記実施形態（実施例）に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）対象システムに関する複数の状態のうち、ある状態を表す第１情報と、該対象システムに関する目標状態を表す第２情報との間の関係性を表す複数の論理式を含む仮説を、所定の仮説作成手順に従い作成する仮説作成部と；前記仮説に含まれる前記複数の論理式のうち、前記第１情報に関する論理式とは異なる論理式が表す中間状態を、所定の変換手順に従い求める変換部と；前記ある状態から求めた前記中間状態までの行動を、前記複数の状態における状態に関する報酬に基づき決定するローレベルプランナと；を備える決定装置。

（付記２）前記仮説作成部は、前記目標状態、及び、前記ある状態を、前記複数の論理式から選択された観測論理式に変換する観測論理式生成部と；前記対象システムに関する事前知識である知識ベースと前記観測論理式とから、前記所定の仮説作成手順を規定する評価関数に基づき、前記仮説を推論する仮説推論部と；を備える付記１に記載の決定装置。

（付記３）前記評価関数は、前記仮説の観測に対する説明としての良さを評価する第１の評価関数と、前記仮説のプランとしての良さを評価する第２の評価関数と、の組み合わせから成る、付記２に記載の決定装置。

（付記４）前記観測論理式は、一階述語論理式の連言から成り；前記知識ベースは、前記対象システムに関する前記事前知識を一階述語論理式で表した推論ルールの集合から成る、付記２又は３に記載の決定装置。

（付記５）前記ローレベルプランナの状態を開始状態に初期化するエージェント初期化部と；前記ローレベルプランナの現在状態を前記仮説作成部の入力として抽出する現在状態取得部と；を更に備える、付記１乃至４のいずれか１項に記載の決定装置。

（付記６）前記ローレベルプランナは、前記変換部から提示された前記中間状態に従って、前記行動を決定および実行し、前記対象システムから前記報酬を受け取る行動実行部を含む、付記１乃至５のいずれか１項に記載の決定装置。

（付記７）前記ローレベルプランナは、前記中間状態の列から隣接する２つの中間状態を取得する状態取得部と；前記２つの中間状態間における前記ローレベルプランナの方策を並列的に学習するローレベルプランナ学習部と；を備えたことを特徴とする付記１乃至６のいずれか１項に記載の決定装置。

（付記８）情報処理装置によって、対象システムに関する複数の状態のうち、ある状態を表す第１情報と、該対象システムに関する目標状態を表す第２情報との間の関係性を表す複数の論理式を含む仮説を、所定の仮説作成手順に従い作成し；前記仮説に含まれる前記複数の論理式のうち、前記第１情報に関する論理式とは異なる論理式が表す中間状態を、所定の変換手順に従い求め；前記ある状態から求めた前記中間状態までの行動を、前記複数の状態における状態に関する報酬に基づき決定する；決定方法。

（付記９）前記作成することは、前記情報処理装置によって、前記目標状態、及び、前記ある状態を、前記複数の論理式から選択された観測論理式に変換し；前記対象システムに関する事前知識である知識ベースと前記観測論理式とから、前記所定の仮説作成手順を規定する評価関数に基づき、前記仮説を推論する；ことを含む付記８に記載の決定方法。

（付記１０）前記評価関数は、前記仮説の観測に対する説明としての良さを評価する第１の評価関数と、前記仮説のプランとしての良さを評価する第２の評価関数と、の組み合わせから成る、付記９に記載の決定方法。

（付記１１）前記観測論理式は、一階述語論理式の連言から成り；前記知識ベースは、前記対象システムに関する前記事前知識を一階述語論理式で表した推論ルールの集合から成る、付記９または１０に記載の決定方法。

（付記１２）前記決定することは、前記情報処理装置によって、前記求められた中間状態に従って、前記行動を決定および実行し、前記対象システムから前記報酬を受け取る、ことを含む付記８乃至１１のいずれか１項に記載の決定方法。

（付記１３）前記決定することは、前記情報処理装置によって、前記中間状態の列から隣接する２つの中間状態を取得し、前記２つの中間状態間における前記決定することの方策を並列的に学習する、ことを含む付記８乃至１２のいずれか１項に記載の決定方法。

（付記１４）対象システムに関する複数の状態のうち、ある状態を表す第１情報と、該対象システムに関する目標状態を表す第２情報との間の関係性を表す複数の論理式を含む仮説を、所定の仮説作成手順に従い作成する仮説作成手順と；前記仮説に含まれる前記複数の論理式のうち、前記第１情報に関する論理式とは異なる論理式が表す中間状態を、所定の変換手順に従い求める変換手順と；前記ある状態から求めた前記中間状態までの行動を、前記複数の状態における状態に関する報酬に基づき決定する決定手順と；をコンピュータに実行させる決定プログラム。

（付記１５）前記仮説作成手順は、前記目標状態、及び、前記ある状態を、前記複数の論理式から選択された観測論理式に変換する観測論理式生成手順と；前記対象システムに関する事前知識である知識ベースと前記観測論理式とから、前記所定の仮説作成手順を規定する評価関数に基づき、前記仮説を推論する仮説推論手順と；を含む付記１４に記載の決定プログラム。

（付記１６）前記評価関数は、前記仮説の観測に対する説明としての良さを評価する第１の評価関数と、前記仮説のプランとしての良さを評価する第２の評価関数と、の組み合わせから成る、付記１５に記載の決定プログラム。

（付記１７）前記観測論理式は、一階述語論理式の連言から成り；前記知識ベースは、前記対象システムに関する前記事前知識を一階述語論理式で表した推論ルールの集合から成る、付記１５又は１６に記載の決定プログラム。

（付記１８）前記決定プログラムは、前記コンピュータに、前記決定手順の状態を開始状態に初期化するエージェント初期化手順と、前記決定手順の現在状態を前記仮説作成手順の入力として抽出する現在状態取得手順と、を更に実行させる、付記１４乃至１７のいずれか１項に記載の決定プログラム。

（付記１９）前記決定手順は、前記変換手順から提示された前記中間状態に従って、前記行動を決定および実行し、前記対象システムから前記報酬を受け取る行動実行手順を含む、付記１４乃至１８のいずれか１項に記載の決定プログラム。

（付記２０）前記決定手順は、前記中間状態の列から隣接する２つの中間状態を取得する状態取得手順と；前記２つの中間状態間における前記決定手順の方策を並列的に学習する学習手順と；を含む付記１４乃至１９のいずれか１項に記載の決定プログラム。

本発明の係る決定装置は、プラント運転支援システムや、インフラ運転支援システム等の用途に適用可能である。

１００、１００Ａ、１００Ｂ決定装置
１１０ローレベルプランナ（強化学習エージェント）
１１２行動実行部
１１０Ａローレベルプランナ
１１２Ａ状態取得部
１１４Ａローレベルプランナ学習部
１２０ハイレベルプランナ（仮説推論モデル）
１２２観測論理式生成部
１２４仮説推論部
１２６サブゴール生成部
１４０知識ベース（背景知識）
１５０エージェント初期化部
１６０現在状態取得部

Claims

対象システムに関する複数の状態のうち、ある状態を表す第１情報と、該対象システムに関する目標状態を表す第２情報との間の関係性を表す複数の論理式を含む仮説を、所定の仮説作成手順に従い作成する仮説作成部と、
前記仮説に含まれる前記複数の論理式のうち、前記第１情報に関する論理式とは異なる論理式が表す中間状態を、所定の変換手順に従い求める変換部と、
前記ある状態から求めた前記中間状態までの行動を、前記複数の状態における状態に関する報酬に基づき決定するローレベルプランナと、
を備える決定装置。
前記仮説作成部は、
前記目標状態、及び、前記ある状態を、前記複数の論理式から選択された観測論理式に変換する観測論理式生成部と、
前記対象システムに関する事前知識である知識ベースと前記観測論理式とから、前記所定の仮説作成手順を規定する評価関数に基づき、前記仮説を推論する仮説推論部と、
を備える請求項１に記載の決定装置。
前記評価関数は、前記仮説の観測に対する説明としての良さを評価する第１の評価関数と、前記仮説のプランとしての良さを評価する第２の評価関数と、の組み合わせから成る、請求項２に記載の決定装置。
前記観測論理式は、一階述語論理式の連言から成り、
前記知識ベースは、前記対象システムに関する前記事前知識を一階述語論理式で表した推論ルールの集合から成る、
請求項２または３に記載の決定装置。
前記ローレベルプランナの状態を開始状態に初期化するエージェント初期化部と、
前記ローレベルプランナの現在状態を前記仮説作成部の入力として抽出する現在状態取得部と、
を更に備える、請求項１乃至４のいずれか１項に記載の決定装置。
前記ローレベルプランナは、前記変換部から提示された前記中間状態に従って、前記行動を決定および実行し、前記対象システムから前記報酬を受け取る行動実行部を含む、請求項１乃至５のいずれか１項に記載の決定装置。
前記ローレベルプランナは、
前記中間状態の列から隣接する２つの中間状態を取得する状態取得部と、
前記２つの中間状態間における前記ローレベルプランナの方策を並列的に学習するローレベルプランナ学習部と、
を備えたことを特徴とする請求項１乃至６のいずれか１項に記載の決定装置。
情報処理装置によって、対象システムに関する複数の状態のうち、ある状態を表す第１情報と、該対象システムに関する目標状態を表す第２情報との間の関係性を表す複数の論理式を含む仮説を、所定の仮説作成手順に従い作成し、
前記仮説に含まれる前記複数の論理式のうち、前記第１情報に関する論理式とは異なる論理式が表す中間状態を、所定の変換手順に従い求め、
前記ある状態から求めた前記中間状態までの行動を、前記複数の状態における状態に関する報酬に基づき決定する、
決定方法。
前記作成することは、前記情報処理装置によって、
前記目標状態、及び、前記ある状態を、前記複数の論理式から選択された観測論理式に変換し、
前記対象システムに関する事前知識である知識ベースと前記観測論理式とから、前記所定の仮説作成手順を規定する評価関数に基づき、前記仮説を推論する、
ことを含む請求項８に記載の決定方法。
対象システムに関する複数の状態のうち、ある状態を表す第１情報と、該対象システムに関する目標状態を表す第２情報との間の関係性を表す複数の論理式を含む仮説を、所定の仮説作成手順に従い作成する仮説作成手順と、
前記仮説に含まれる前記複数の論理式のうち、前記第１情報に関する論理式とは異なる論理式が表す中間状態を、所定の変換手順に従い求める変換手順と、
前記ある状態から求めた前記中間状態までの行動を、前記複数の状態における状態に関する報酬に基づき決定する決定手順と、
をコンピュータに実行させる決定プログラム。