JP7315007B2

JP7315007B2 - 学習装置、学習方法および学習プログラム

Info

Publication number: JP7315007B2
Application number: JP2021541890A
Authority: JP
Inventors: 力江藤; 悠輝中口
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2023-07-26
Anticipated expiration: 2039-08-29
Also published as: US20220343180A1; JPWO2021038781A1; WO2021038781A1

Description

本発明は、逆強化学習を行う学習装置、学習方法および学習プログラムに関する。

近年、様々な業務における最適な意思決定を自動で定式化し、機械化する技術がより重要視されている。一般に、最適な意思決定を行うためには、最適化対象を数理最適化問題として定式化し、その問題を解くことで、最適な行動を決定する。その際、数理最適化問題の定式化がポイントになるが、人手でこの定式化を行うことは難しい。そこで、この定式化を簡素にすることで、技術をさらに発展させる試みが行われている。

数理最適化問題を定式化する方法の一つとして、逆強化学習が知られている。逆強化学習は、熟練者が行った意思決定の履歴に基づいて、状態ごとに行動を評価する目的関数（報酬関数）を学習する方法である。逆強化学習では、意思決定の履歴を熟練者のものへ近づけるように報酬関数を更新していくことで、熟練者の報酬関数を推定する。

逆強化学習では、通常、熟練者の意思決定履歴、実際に動作させた場合の状態を表わすシミュレータもしくは実機、および、状態に応じて予測される遷移先を表わす状態遷移（予測）モデルを用いて学習が行われる。

まず、報酬関数の初期値が設定され、この報酬関数を用いた意思決定シミュレーションが行われる。具体的には、強化学習に基づく意思決定シミュレーションとして、状態遷移モデルと報酬関数とシミュレータを用いて方策を決定する最適化計算が行われ、方策に基づき出力される状態と行動の履歴として、意思決定履歴が決定される。なお、この意思決定シミュレーションとして、最適制御を実行してもよい。この報酬関数に基づく意思決定履歴と熟練者の意思決定履歴との差を小さくするように報酬関数が更新される。そして、この報酬関数を用いて意思決定シミュレーションを行い、意思決定履歴を決定し、同様に報酬関数を更新する。上記処理を繰り返すことにより、報酬関数と熟練者の意思決定との差をなくすように熟練者の報酬関数が推定される。

一方、状態遷移モデルの精緻化は、一般に困難である。そこで、状態遷移モデルを用いずに報酬関数を推定可能なモデルフリー逆強化学習の方法も提案されている。例えば、特許文献１には、モデルフリーを考慮した逆強化学習について記載されている。特許文献１に記載された方法では、制御対象の数学的モデルである環境ダイナミクスを事前に知る必要はない。そのため、モデル化に伴う誤差の影響をなくすことができ、さらに、上述する学習時の方策を決定する最適化計算が不要になるため、計算コストを削減することも可能になる。

国際公開第２０１７／１５９１２６号

モデルフリー逆強化学習の方法として、相対エントロピー逆強化学習が挙げられる。相対エントロピー逆強化学習は、ランダム方策による意思決定履歴からのサンプリングを用いることで、報酬関数をモデルフリーに学習できる方法である。ただし、相対エントロピー逆強化学習では、ランダム方策に基づく重点サンプリングを用いているため、行動空間が高次元になる場合、報酬関数の学習効率が悪化するという問題がある。

特許文献１には、モデルフリーを考慮した逆強化学習について記載されているが、具体的な学習方法が明示されておらず、このようなサンプリングの課題については考慮されていない。そのため、モデルフリーな学習を実現可能な相対エントロピー逆強化学習において、サンプリング空間が高次元になるような場合であっても、推定量の分散を抑制して学習効率の悪化を抑制できることが好ましい。

そこで、本発明は、相対エントロピー逆強化学習を行う際の学習効率の悪化を抑制できる学習装置、学習方法および学習プログラムを提供することを目的とする。

本発明による学習装置は、対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより報酬関数を推定する報酬関数推定部と、推定された報酬関数を用いた強化学習により方策を推定する方策推定部とを備え、報酬関数推定部が、方策推定部により推定された方策を新たなサンプリング方策とし、対象者の意思決定履歴と、そのサンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより、報酬関数を推定することを特徴とする。

本発明による学習方法は、コンピュータが、対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより報酬関数を推定し、コンピュータが、推定された報酬関数を用いた強化学習により方策を推定し、コンピュータが、推定された方策を新たなサンプリング方策とし、対象者の意思決定履歴と、そのサンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより、報酬関数を推定することを特徴とする。

本発明による学習プログラムは、コンピュータに、対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより、報酬関数を推定する報酬関数推定処理、および、推定された報酬関数を用いた強化学習により方策を推定する方策推定処理を実行させ、報酬関数推定処理で、方策推定処理で推定された方策を新たなサンプリング方策とし、対象者の意思決定履歴と、そのサンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより、報酬関数を推定させることを特徴とする。

本発明によれば、相対エントロピー逆強化学習を行う際の学習効率の悪化を抑制できる。

本発明による学習装置の一実施形態の構成例を示すブロック図である。算出対象の値の推移の例を示す説明図である。学習装置の動作例を示す説明図である。学習装置の他の動作例を示す説明図である。本発明による学習装置の概要を示すブロック図である。少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

以下、本発明の実施形態を図面を参照して説明する。

図１は、本発明による学習装置の一実施形態の構成例を示すブロック図である。本実施形態の学習装置１００は、記憶部１０と、入力部２０と、報酬関数推定部３０と、方策推定部４０と、出力部５０とを備えている。

学習装置１００は、対象者の行動から報酬（関数）を推定する逆強化学習を行う装置であり、特に、状態遷移モデルを用いないで（すなわち、モデルフリーに）報酬関数を学習できる相対エントロピー逆強化学習を行う装置である。対象者の例として、その分野のエキスパート（熟練者）が挙げられる。

以下、モデルフリー逆強化学習について、詳細に説明する。逆強化学習では、Feature Matchingに基づく履歴（状態ｓに対する行動ａの履歴）の確率モデルを導入することが一般的である。今、意思決定履歴（トラジェクトリとも言う。）をτ＝ｓ_１ａ_１，…，ｓ_Ｈａ_Ｈとしたとき、報酬関数ｒ（τ）は、以下に示す式１で表すことができる。

式１において、ｒ（ｓ，ａ）は、状態に対してとった行動により得られる報酬を表わす。また、θは、逆強化学習により最適化するパラメータであり、ｆ_τは、意思決定履歴の特徴量（すなわち、トラジェクトリの特徴量）、ｆ_ｓ，ａは、個々の意思決定に対する特徴量である。

ここで、熟練者のトラジェクトリの集合をＤ_Ｅとしたとき、逆強化学習では、Feature Matchingを表わす制約条件

を満たすように、以下の式２または式３を満たすＰ（τ）を求めることが目的とされる。具体的には、式２では、エントロピーが最大になる分布Ｐ（τ）を求めることを目的とし、式３では、相対エントロピーが最小になる分布Ｐ（τ）を求めることを目的とする。なお、Ｑ（τ）は、ベースライン分布である。

ラグランジュの未定乗数法より、θを未定乗数とした場合、上記に示す式２を用いた最大エントロピー逆強化学習での確率分布は、以下の式４で表される。また、上記に示す式３を用いた相対エントロピー逆強化学習での確率分布は、以下の式５で表される。

モデルフリー逆強化学習を行うためには、上記に示す式５が用いられる。具体的には、式５を用いて、ランダム方策による意思決定履歴からのサンプリングを行うことで、報酬関数をモデルフリーで学習できる。以下、上述する状態遷移モデルを用いずに、報酬関数を学習する方法を説明する。今、状態遷移モデルをＤ（τ）、ベースライン方策をπ_ｂ（τ）としたとき、ベースライン分布Ｑ（τ）は、状態遷移モデルとベースライン方策との積で表される。すなわち、Ｑ（τ）＝Ｄ（τ）π_ｂ（τ）である。なお、ベースライン方策π_ｂ（τ）およびベースライン分布Ｑ（τ）は、以下のように定義できる。

このとき、最尤推定に基づく報酬関数の重みベクトルθの第ｋ成分の更新式は、以下の式６で表される。

重点サンプリングを行う場合、サンプリング方策π_ｓ（ａ_ｔ｜ｓ_ｔ）でサンプリングしたトラジェクトリの集合をＤ_ｓａｍｐとすると、上記に示す式６のカッコ内の第二項は、以下の式７に示す式に変換できる。

そして、π_ｓ（ａ_ｔ｜ｓ_ｔ）とπ_ｂ（ａ_ｔ｜ｓ_ｔ）のいずれも一様分布であるとすると、上記の式７は、以下の式８に示す式に変換できる。

上記処理の結果、式６および式８に示すように、状態遷移モデルＤ（τ）を用いずに、報酬関数の重み係数ベクトルθを更新することができる。

しかし、上述するように、相対エントロピー逆強化学習では、ランダム方策に基づく重点サンプリングを用いているため、行動空間が高次元になる場合、報酬関数の学習効率が悪化するという問題がある。その理由について、以下、具体的に説明する。

π_ｓ（ａ_ｔ｜ｓ_ｔ）に基づく重点サンプリングによる推定を行う場合、上記に示す式６のカッコ内の第二項は、以下の式９に示す式に近似できる。

ここで、式９における分母に着目する。式９における分母は、ｅｘｐ（θ^Ｔｆ_τ）の期待値（平均的な和）を重点サンプリングで算出する式である。また、図２は、算出対象の値の推移の例を示す説明図である。ｅｘｐ（θ^Ｔｆ_τ）は、指数関数であるため、図２に示すように推移する。

効率的に学習するためには、図２に例示する部分Ｐ１のサンプルを用いて期待値（平均的な和）を算出できることが好ましい。しかし、サンプリング方策π_ｓ（τ）を一様分布と仮定しているため、ｅｘｐ（θ^Ｔｆ_τ）の値が小さい部分Ｐ２からも満遍なくサンプリングされる。そして、サンプリング空間が高次元の場合、部分Ｐ２からサンプリングされてしまう可能性がさらに高くなり、重点サンプリングにおける推定量の分散がより大きくなってしまう。

そこで、本実施形態では、相対エントロピー逆強化学習を行う際の学習効率の悪化を抑制できる方法を説明する。

記憶部１０は、学習装置１００が各種処理を行うために必要な情報を記憶する。記憶部１０は、後述する報酬関数推定部３０および方策推定部４０が、推定処理に用いる各種パラメータを記憶してもよい。また、記憶部１０は、後述する入力部２０が受け付けた対象者の意思決定履歴を記憶してもよい。記憶部１０は、例えば、磁気ディスク等により実現される。

入力部２０は、対象者の意思決定履歴（トラジェクトリ）の入力を受け付ける。例えば、自動運転を目的とした学習を行う場合、入力部２０は、ドライバの複雑な意図に基づく大量の運転履歴データの入力を意思決定履歴として受け付けてもよい。具体的には、意思決定履歴は、時刻ｔでの状態ｓ_ｔと、時刻ｔでの行動ａ_ｔとの組み合わせの時系列データ｛ｓ_ｔ，ａ_ｔ｝_ｔ＝１ ^Ｈとして表される。

報酬関数推定部３０は、入力された対象者の意思決定履歴から、サンプリング方策π_ｓ（ａ_ｔ｜ｓ_ｔ）に基づく重点サンプリングによる推定を行う。本実施形態では、重点サンプリングにおける推定量の分散が大きくなることを防ぐため、各時点における報酬関数の推定値により算出されたサンプリング方策が用いられる。

ここで、報酬関数の推定値を用いて算出されるサンプリング方策は、各時点における報酬関数の推定値を用いて誘導された方策とも言える。そのため、報酬関数の推定値を用いて算出（誘導）されたサンプリング方策のことを、誘導サンプリング方策ということができる。本実施形態では、報酬関数推定部３０による報酬関数の推定処理と、後述する方策推定部４０による誘導サンプリング方策の推定処理とを交互に行う。このような処理を行うのは、以下の理由による。

例えば、熟練者の行動は、報酬関数の値をほぼ最大にするように行われるはずである。逆強化学習では、熟練者の報酬関数を求めるように学習する。そのため、推定途中の報酬関数に基づいて、強化学習等による学習を行えば、報酬を最大化する方策が学習されることになる。そして、この方策を用いることで、例えば、図２における部分Ｐ１からサンプリングされる確率がより高くなる。すなわち、現在推定中の報酬関数を使って方策を推定し、それをサンプリング方策として切り替えて逆強化学習を行うことで、そのサンプリング方策が、より効率的なサンプリング（図２における部分Ｐ１からのサンプリング）を行うことが期待される。

本実施形態では、各時点における方策に基づいて報酬関数を推定するため、報酬関数推定部３０は、多重重点サンプリングにより報酬関数を推定する。まず、報酬関数推定部３０は、サンプリング方策π_ｓ（τ）に基づきシミュレータから生成した意思決定履歴のサンプルＤを生成する。なお、処理の開始時、報酬関数推定部３０は、サンプリング方策π_ｓ（τ）を一様分布として初期化しておけばよい。

報酬関数推定部３０は、多重重点サンプリングにより、生成された意思決定履歴のサンプルＤ_ｓａｍｐを用いて報酬関数を推定する。報酬関数推定部３０が推定に用いる多重重点サンプリング法は任意である。報酬関数推定部３０は、例えば、各分布の重みが調整可能なバランスヒューリスティック多重重点サンプリングを用いてもよい。バランスヒューリスティック多重重点サンプリングにおいて、ｉ番目のサンプリング方策をπ_ｓ ^［ｉ］（τ）とし、ｉ番目のサンプリング方策から生成されるｊ番目のトラジェクトリをτ^［ｉｊ］としたとき、上記に示す式６のカッコ内の第二項は、以下に示す式１０で表される。

報酬関数推定部３０は、例えば、上記の式６に示すように、最尤推定に基づき報酬関数の重み係数ベクトルθを更新することにより、報酬関数を推定してもよい。また、すでに生成された意思決定履歴のサンプルが存在する場合、報酬関数推定部３０は、そのサンプルを含めて報酬関数を推定すればよい。

すなわち、報酬関数推定部３０は、元のサンプリング方策に基づいてすでに生成された意思決定履歴のサンプルＤ_ｓａｍｐに対して、新たなサンプリング方策に基づき生成された意思決定履歴のサンプルＤ_ｉを加え、加えられた意思決定履歴のサンプル群（すなわち、Ｄ_ｓａｍｐ∪Ｄ_ｉ）を用いて報酬関数を推定してもよい。ここで、ｉは繰り返し処理の回数を表わす。

方策推定部４０は、推定された報酬関数に基づいて最適な方策を推定する。具体的には、方策推定部４０は、推定された報酬関数を用いた強化学習（ＲＬ：Reinforcement Learning）や、推定された報酬関数を用いた最適制御問題（ＯＣ：Optimal Control ）を解くことにより方策を推定する。ここで、式９におけるｅｘｐ（θ^Ｔｆ_τ）は、以下に示す式１０のように書き換えられる。そこで、方策推定部４０は、累積報酬を大きくするように方策を推定してもよい。

なお、以下の説明では、推定された報酬関数を用いた強化学習や、推定された報酬関数を用いた最適制御により方策を推定する問題のことを、逆強化学習に対する用語として順問題と記すこともある。

方策推定部４０が方策を推定する方法（順問題を解く方法）は、状態遷移モデルを用いない手法（モデルフリーな方法）であれば、任意である。方策推定部４０は、例えば、ソフトＱ学習により方策を推定してもよい。Ｑ学習は、状態ｓのときに行動ａを行った場合の累積報酬を返却する関数である行動価値関数Ｑ（ｓ，ａ）（Ｑ関数とも言う。）を求める方法である。Ｑ学習では、行動ａを示す値に離散値が用いられ、Ｑ関数がテーブル（表）形式で実装される。なお、Ｑ学習のＱ関数をディープニューラルネットワークで表したＱネットワークが用いられてもよい。

なお、本実施形態では、現状よりもより適切な方策が推定できればよいため、方策推定部４０は、必ずしも収束するまで上記Ｑ関数の更新処理を行う必要はない。そのため、方策推定部４０は、最適な評価値（例えば、Ｑ値）が収束する前に、方策を推定する処理を終了してもよい。言い換えると、方策推定部４０は、評価値（例えば、Ｑ値）が予め定めた条件よりも増加した場合に、方策を推定する処理を終了してもよい。予め定めた条件として、具体的な増加の値や割合などが設定される。

一方、Ｑ学習では、上述するように、行動ａを示す値に離散値が用いられる。そこで、行動ａを示す値に連続値を用いることができるように、方策推定部４０は、ソフトアクタークリティック（Soft Actor-Critic ）により、方策を推定してもよい。

このように、方策が推定された後、報酬関数推定部３０は、推定された方策を新たなサンプリング方策とし、このサンプリング方策に基づき生成された意思決定履歴のサンプルを用いて報酬関数を推定する。以降、報酬関数推定部３０が、報酬関数が収束したと判断するまで、上記処理が繰り返される。

出力部５０は、推定された報酬関数および方策を出力する。

入力部２０と、報酬関数推定部３０と、方策推定部４０と、出力部５０とは、プログラム（学習プログラム）に従って動作するコンピュータのプロセッサ（例えば、ＣＰＵ（Central Processing Unit ）、ＧＰＵ（Graphics Processing Unit））によって実現される。

例えば、プログラムは、学習装置１００が備える記憶部１０に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、入力部２０、報酬関数推定部３０、方策推定部４０および出力部５０として動作してもよい。また、学習装置１００の機能がＳａａＳ（Software as a Service ）形式で提供されてもよい。

入力部２０と、報酬関数推定部３０と、方策推定部４０と、出力部５０とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路（circuitry ）、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。

また、学習装置１００の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

次に、本実施形態の学習装置１００の動作を説明する。図３は、本実施形態の学習装置１００の動作例を示す説明図である。入力部２０は、対象者の意思決定履歴Ｄ_Ｅを入力する（ステップＳ１１）。方策推定部４０は、方策π_ｓ（τ）を初期化する（ステップＳ１２）。ここでは、方策推定部４０は、一様分布として方策π_ｓ（τ）を初期化する。以下、予め定めた条件を満たすまで、ステップＳ１３からステップＳ１６までの処理が繰り返される。なお、図３では、繰り返し回数をＩとして説明する。

報酬関数推定部３０は、方策π_ｓ（τ）から意思決定履歴のサンプルＤ_ｉを生成する（ステップＳ１３）。報酬関数推定部３０は、すでに生成されたサンプルＤ_ｓａｍｐに対して、生成されたサンプルＤ_ｉを付け加える（ステップＳ１４）。報酬関数推定部３０は、付け加えられたサンプルＤ_ｓａｍｐを用いて、多重重点サンプリングにより報酬関数θを更新する（ステップＳ１５）。そして、方策推定部４０は、更新された報酬関数θにより順問題を解くことで、方策π_ｓ（τ）を更新する（ステップＳ１６）。そして、出力部５０は、推定された報酬関数θおよび方策π_ｓ（τ）を出力する（ステップＳ１７）。

なお、図３では、相対エントロピー逆強化学習の枠組みで誘導サンプリング方策を逐次推定する処理を示していることから、図３に例示するアルゴリズムのことを、誘導相対エントロピー逆強化学習アルゴリズムということができる。

図４は、本実施形態の学習装置１００の他の動作例を示す説明図である。報酬関数推定部３０は、多重重点サンプリングにより、対象者の意思決定履歴からサンプリング方策に基づき生成された意思決定履歴のサンプルを用いて報酬関数を推定する（ステップＳ２１）。方策推定部４０は、推定された報酬関数を用いた順問題を解くことにより方策を推定する（ステップＳ２２）。そして、報酬関数推定部３０は、推定された方策を新たなサンプリング方策とし、そのサンプリング方策に基づき生成された意思決定履歴のサンプルを用いて報酬関数を推定する（ステップＳ２３）。以降、報酬関数が収束した場合（ステップＳ２４におけるＹｅｓ）、処理を終了し、報酬関数が収束していない場合（ステップＳ２４におけるＮｏ）、ステップＳ２２およびステップＳ２３の処理が繰り返される。

以上のように、本実施形態では、報酬関数推定部３０が、対象者の意思決定履歴とサンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより報酬関数を推定し、方策推定部４０が、推定された報酬関数を用いた強化学習により方策を推定する。そして、報酬関数推定部３０が、推定された方策を新たなサンプリング方策とし、対象者の意思決定履歴と、そのサンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより報酬関数を推定する。よって、相対エントロピー逆強化学習を行う際の学習効率の悪化を抑制できる。

次に、本発明の概要を説明する。図５は、本発明による学習装置の概要を示すブロック図である。本発明による学習装置８０は、対象者（例えば、熟練者）の意思決定履歴（例えば、Ｄ_Ｅ）とサンプリング方策（例えば、π_ｓ（τ））に基づき生成された意思決定履歴のサンプル（例えば、Ｄ_ｓａｍｐ）を用いた多重重点サンプリングにより報酬関数（例えばθ）を推定する報酬関数推定部８１（例えば、報酬関数推定部３０）と、推定された報酬関数を用いた強化学習により方策を推定する方策推定部８２（例えば、方策推定部４０）とを備えている。

報酬関数推定部８１は、方策推定部８２により推定された方策を新たなサンプリング方策とし、そのサンプリング方策に基づき生成された意思決定履歴のサンプル（例えばＤ_ｉ∪Ｄ_ｓａｍｐ）を用いた多重重点サンプリングにより報酬関数を推定する。

そのような構成により、相対エントロピー逆強化学習を行う際の学習効率の悪化を抑制できる。

その際、方策推定部８２は、推定された報酬関数から得られる累積報酬を増加させる方策を推定してもよい。

また、方策推定部８２は、評価値（例えば、Ｑ値）が予め定めた条件よりも増加した場合に、方策を推定する処理を終了してもよい。このように、収束するまで方策を最適化しなくてよいため、学習の効率を向上させることができる。

また、報酬関数推定部８１は、元のサンプリング方策に基づいてすでに生成された意思決定履歴のサンプル（例えば、Ｄ_ｓａｍｐ）に対して、新たなサンプリング方策に基づき生成された意思決定履歴のサンプル（例えばＤ_ｉ）を加え、加えられた意思決定履歴のサンプル群（例えばＤ_ｉ∪Ｄ_ｓａｍｐ）を用いて報酬関数を推定してもよい。そのような構成により、分散を小さくすることが可能になる。

具体的には、報酬関数推定部８１は、最尤推定に基づき報酬関数の重み係数ベクトルを更新することにより（例えば、上記に示す式６を用いて）報酬関数を推定してもよい。

また、方策推定部８２は、状態遷移モデルを用いない（すなわち、モデルフリーの）強化学習により、方策を決定すればよい。

また、方策推定部８２は、ソフトＱ学習（例えば、行動を示す値が離散値の場合）またはソフトアクタークリティック（例えば、行動を示す値が連続値の場合）により方策を推定してもよい。

また、報酬関数推定部８１は、バランスヒューリスティック多重重点サンプリングにより報酬関数を推定してもよい。

図６は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ１０００は、プロセッサ１００１、主記憶装置１００２、補助記憶装置１００３、インタフェース１００４を備える。

上述の学習装置８０は、コンピュータ１０００に実装される。そして、上述した各処理部の動作は、プログラム（学習プログラム）の形式で補助記憶装置１００３に記憶されている。プロセッサ１００１は、プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、当該プログラムに従って上記処理を実行する。

なお、少なくとも１つの実施形態において、補助記憶装置１００３は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（Compact Disc Read-only memory ）、ＤＶＤ－ＲＯＭ（Read-only memory）、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００が当該プログラムを主記憶装置１００２に展開し、上記処理を実行してもよい。

また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置１００３に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であってもよい。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより報酬関数を推定する報酬関数推定部と、推定された報酬関数を用いた強化学習により方策を推定する方策推定部とを備え、前記報酬関数推定部は、前記方策推定部により推定された方策を新たなサンプリング方策とし、前記対象者の意思決定履歴と、当該サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた前記多重重点サンプリングにより、報酬関数を推定することを特徴とする学習装置。

（付記２）方策推定部は、推定された報酬関数から得られる累積報酬を増加させる方策を推定する付記１記載の学習装置。

（付記３）方策推定部は、評価値が予め定めた条件よりも増加した場合に、方策を推定する処理を終了する付記１または付記２記載の学習装置。

（付記４）報酬関数推定部は、元のサンプリング方策に基づいてすでに生成された意思決定履歴のサンプルに対して、新たなサンプリング方策に基づき生成された意思決定履歴のサンプルを加え、加えられた意思決定履歴のサンプル群を用いて報酬関数を推定する付記１から付記３のうちのいずれか１つに記載の学習装置。

（付記５）報酬関数推定部は、最尤推定に基づき報酬関数の重み係数ベクトルを更新することにより報酬関数を推定する付記１から付記４のうちのいずれか１つに記載の学習装置。

（付記６）方策推定部は、状態遷移モデルを用いない強化学習により、方策を決定する付記１から付記５のうちのいずれか１つに記載の学習装置。

（付記７）方策推定部は、ソフトＱ学習またはソフトアクタークリティックにより方策を推定する付記１から付記６のうちのいずれか１つに記載の学習装置。

（付記８）報酬関数推定部は、バランスヒューリスティック多重重点サンプリングにより報酬関数を推定する付記１から付記７のうちのいずれか１つに記載の学習装置。

（付記９）対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより報酬関数を推定し、推定された報酬関数を用いた強化学習により方策を推定し、推定された方策を新たなサンプリング方策とし、前記対象者の意思決定履歴と、当該サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた前記多重重点サンプリングにより、報酬関数を推定することを特徴とする学習方法。

（付記１０）推定された報酬関数から得られる累積報酬を増加させる方策を推定する付記９記載の学習方法。

（付記１１）コンピュータに、対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより、報酬関数を推定する報酬関数推定処理、および、推定された報酬関数を用いた強化学習により方策を推定する方策推定処理を実行させ、前記報酬関数推定処理で、前記方策推定処理で推定された方策を新たなサンプリング方策とし、前記対象者の意思決定履歴と、当該サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた前記多重重点サンプリングにより、報酬関数を推定させるための学習プログラム。

（付記１２）コンピュータに、方策推定処理で、推定された報酬関数から得られる累積報酬を増加させる方策を推定させる付記１１記載の学習プログラム。

１０記憶部
２０入力部
３０報酬関数推定部
４０方策推定部
５０出力部

Claims

対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより報酬関数を推定する報酬関数推定部と、
推定された報酬関数を用いた強化学習により方策を推定する方策推定部とを備え、
前記報酬関数推定部は、前記方策推定部により推定された方策を新たなサンプリング方策とし、前記対象者の意思決定履歴と、当該サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた前記多重重点サンプリングにより、報酬関数を推定する
ことを特徴とする学習装置。
方策推定部は、推定された報酬関数から得られる累積報酬を増加させる方策を推定する
請求項１記載の学習装置。
方策推定部は、評価値が予め定めた条件よりも増加した場合に、方策を推定する処理を終了する
請求項１または請求項２記載の学習装置。
報酬関数推定部は、元のサンプリング方策に基づいてすでに生成された意思決定履歴のサンプルに対して、新たなサンプリング方策に基づき生成された意思決定履歴のサンプルを加え、加えられた意思決定履歴のサンプル群を用いて報酬関数を推定する
請求項１から請求項３のうちのいずれか１項に記載の学習装置。
報酬関数推定部は、最尤推定に基づき報酬関数の重み係数ベクトルを更新することにより報酬関数を推定する
請求項１から請求項４のうちのいずれか１項に記載の学習装置。
方策推定部は、状態遷移モデルを用いない強化学習により、方策を決定する
請求項１から請求項５のうちのいずれか１項に記載の学習装置。
方策推定部は、ソフトＱ学習またはソフトアクタークリティックにより方策を推定する
請求項１から請求項６のうちのいずれか１項に記載の学習装置。
報酬関数推定部は、バランスヒューリスティック多重重点サンプリングにより報酬関数を推定する
請求項１から請求項７のうちのいずれか１項に記載の学習装置。
コンピュータが、対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより報酬関数を推定し、
前記コンピュータが、推定された報酬関数を用いた強化学習により方策を推定し、
前記コンピュータが、推定された方策を新たなサンプリング方策とし、前記対象者の意思決定履歴と、当該サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた前記多重重点サンプリングにより、報酬関数を推定する
ことを特徴とする学習方法。
コンピュータに、
対象者の意思決定履歴と、サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた多重重点サンプリングにより、報酬関数を推定する報酬関数推定処理、および、
推定された報酬関数を用いた強化学習により方策を推定する方策推定処理を実行させ、
前記報酬関数推定処理で、前記方策推定処理で推定された方策を新たなサンプリング方策とし、前記対象者の意思決定履歴と、当該サンプリング方策に基づき生成された意思決定履歴のサンプルを用いた前記多重重点サンプリングにより、報酬関数を推定させる
ための学習プログラム。