JP7327512B2

JP7327512B2 - 学習装置、学習方法および学習プログラム

Info

Publication number: JP7327512B2
Application number: JP2021566647A
Authority: JP
Inventors: 力江藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2023-08-16
Anticipated expiration: 2039-12-25
Also published as: WO2021130915A1; US20230040914A1; JPWO2021130915A1

Description

本発明は、階層型混合エキスパートモデルを学習する学習装置、学習方法および学習プログラムに関する。

近年、様々な業務における最適な意思決定を自動で定式化し、機械化する技術がより重要視されている。一般に、最適な意思決定を行うためには、最適化対象を数理最適化問題として定式化し、その問題を解くことで、最適な行動を決定する。その際、数理最適化問題の定式化がポイントになるが、人手でこの定式化を行うことは難しい。そこで、この定式化を簡素にすることで、技術をさらに発展させる試みが行われている。

数理最適化問題を定式化する方法の一つとして、逆強化学習が知られている。逆強化学習は、熟練者が行った意思決定の履歴に基づいて、状態ごとに行動を評価する目的関数（報酬関数）を学習する方法である。

なお、熟練者が想定する意図は複雑であり、状況に応じて様々に変化する。そのため、複数の意図を単純にモデル化した場合、報酬関数も複雑化するため、推定された報酬関数から熟練者の意図を判断することは難しい。そこで、複雑な意図を複数のシンプルな意図の組合せという、人間にとって解釈可能な形で表現された報酬関数として学習する方法が求められている。

人間にとって解釈可能な形式での学習方法に関し、非特許文献１には、場合に応じた予測モデルを選択可能な区分疎線形回帰モデルについて記載されている。非特許文献１に記載された区分疎線形回帰モデルは、階層型混合エキスパートモデル（ＨＭＥ：Hierarchical Mixtures of Experts）の一種であり、葉ノードにコンポーネント（報酬関数、予測モデル）、それ以外のノードに門関数と呼ばれるノードを割り当てた木構造で表される。

国際公開第２０１７／１５９１２６号

Riki Eto, Ryohei Fujimakiy, Satoshi Morinaga, Hiroshi Tamano, "Fully-Automatic Bayesian Piecewise Sparse Linear Models", AISTATS, pp.238-246, 2014.

特許文献１に記載されたシステムでは、階層型混合エキスパートモデルを用いることを想定していない。また、非特許文献１に記載された方法では、逆強化学習を考慮した学習方法については記載されていない。そのため、特許文献１に記載の逆強化学習と、非特許文献１に記載の階層型混合エキスパートモデル学習とを組み合わせても、十分な精度の学習結果を得られない場合がある。

そこで、本発明は、逆強化学習によって階層型混合エキスパートモデルを学習する際に、モデルの推定精度を向上できる学習装置、学習方法および学習プログラムを提供することを目的とする。

本発明による学習装置は、対象者の意思決定履歴の入力を受け付ける入力部と、意思決定履歴に基づいて、逆強化学習により階層型混合エキスパートモデルを学習する学習部と、学習された階層型混合エキスパートモデルを出力する出力部とを備え、学習部が、ＥＭアルゴリズムを用いて階層型混合エキスパートモデルを学習し、そのＥＭアルゴリズムにより算出される、意思決定履歴の対数尤度が単調増加している場合に、階層型混合エキスパートモデルを因子化漸近ベイズ推論により学習することを特徴とする。

本発明による学習方法は、対象者の意思決定履歴の入力を受け付け、意思決定履歴に基づいて、逆強化学習により階層型混合エキスパートモデルを学習し、学習された階層型混合エキスパートモデルを出力し、学習の際、ＥＭアルゴリズムを用いて階層型混合エキスパートモデルを学習し、そのＥＭアルゴリズムにより算出される、意思決定履歴の対数尤度が単調増加している場合に、階層型混合エキスパートモデルを因子化漸近ベイズ推論により学習することを特徴とする。

本発明による学習プログラムは、コンピュータに、対象者の意思決定履歴の入力を受け付ける入力処理、意思決定履歴に基づいて、逆強化学習により階層型混合エキスパートモデルを学習する学習処理、および、学習された階層型混合エキスパートモデルを出力する出力処理を実行させ、学習処理で、ＥＭアルゴリズムを用いて階層型混合エキスパートモデルを学習させ、そのＥＭアルゴリズムにより算出される、意思決定履歴の対数尤度が単調増加している場合に、階層型混合エキスパートモデルを因子化漸近ベイズ推論により学習させることを特徴とする。

本発明によれば、逆強化学習によって階層型混合エキスパートモデルを学習する際に、モデルの推定精度を向上できる。

本発明による学習装置の一実施形態の構成例を示すブロック図である。階層型混合エキスパートモデルの概要を説明する説明図である。階層型混合エキスパートモデルの例を示す説明図である。学習装置の動作例を示す説明図である。本発明による学習装置の概要を示すブロック図である。少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

以下、本発明の実施形態を図面を参照して説明する。本発明では、逆強化学習によって階層型混合エキスパートモデルを学習する状況を想定する。

逆強化学習は、意思決定の履歴を熟練者のものへ近づけるように報酬関数を更新していくことで、熟練者の報酬関数を推定する学習方法である。逆強化学習では、通常、熟練者の意思決定履歴、実際に動作させた場合の状態を表わすシミュレータもしくは実機、および、状態に応じて予測される遷移先を表わす状態遷移（予測）モデルを用いて学習が行われる。

より詳細には、まず、報酬関数の初期値が設定され、この報酬関数を用いた意思決定シミュレーションが行われる。具体的には、強化学習に基づく意思決定シミュレーションとして、状態遷移モデルと報酬関数とシミュレータを用いて方策を決定する最適化計算が行われ、方策に基づき出力される状態と行動の履歴として、意思決定履歴が決定される。なお、この意思決定シミュレーションとしては、最適制御を実行してもよい。この報酬関数に基づく意思決定履歴と、熟練者の意思決定履歴との差を小さくするように報酬関数が更新される。そして、この報酬関数を用いて意思決定シミュレーションを行い、意思決定履歴を決定し、同様に報酬関数を更新する。上記処理を繰り返すことにより、目的関数と熟練者の意思決定との差をなくすように熟練者の報酬関数が推定される。

ただし、状態遷移モデルの精緻化は、一般に困難である。そこで、例えば、特許文献１に記載されているように、状態遷移モデルを用いずに報酬関数を推定可能なモデルフリー逆強化学習の方法が提案されている。

一方、様々な状況下で取得される意思決定履歴は、熟練者の様々な意図を含むデータと言える。例えば、ドライバの走行データの中には、特徴の異なるドライバの走行データや、運転シーンの異なる状況での走行データが含まれる。これらの走行データを様々な状況や特徴で分類して学習させようとすると、非常にコストがかかってしまうため、条件に応じて適用する報酬関数を選択可能なモデルを推定することが好ましい。

このような推定方法として、上述するモデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法が考えられる。この学習方法により、熟練者の意思決定履歴を場合分けし、各場合の報酬関数および分岐ルールの学習を、熟練者の意思決定履歴を精度よく再現できるまで交互に繰り返すことで、分岐条件および各場合における報酬関数を推定できる。

さらに、複数のモデルを切り替えながら予測をする、いわゆる特異モデルを評価する基準として、因子化情報量基準が知られている。因子化情報量基準は、探索の指針となるモデルの良さを測る基準である。この因子化情報量基準を最大化するモデルを見つけ出すことにより、適切なモデルを推定することが可能になる。

因子化情報量基準を最大化するモデルを見つける探索アルゴリズムとして、因子化漸近ベイズ推論（ＦＡＢ（Factorized Asymptotic Bayesian）推論）が挙げられる。因子化漸近ベイズ推論では、因子化情報量基準を最大化するパラメータ及びモデルを、隠れ変数の変分確率を更新する処理（以下、Ｅステップと記す。）と、分岐条件および報酬関数を更新する処理（以下、Ｍステップと記す。）を繰り返し実行することで、因子化情報量基準を最大化する。

また、モデルフリー逆強化学習の方法として、相対エントロピー逆強化学習が挙げられる。相対エントロピー逆強化学習は、ランダム方策による意思決定履歴からのサンプリングを用いることで、報酬関数をモデルフリーに学習できる方法である。相対エントロピー逆強化学習は、ランダム方策に基づく重点サンプリングを用いる。

モデルフリー逆強化学習によって階層型混合エキスパートモデルを学習することで、モデルの推定精度を向上できることが想定できる。ただし、重点サンプリングによる近似を用いて、因子化情報量基準を更新する際、考慮すべき点が存在する。因子化漸近ベイズ推論では、各処理において因子化情報量基準の値が改善されることを想定する。しかし、重点サンプリングによる近似の影響で、因子化情報量基準が改善しない可能性がある。この場合、必ずしもモデルの推定程度を向上できるとは限らない。

そのため、状態遷移モデルを用いないモデルフリー逆強化学習によって階層型混合エキスパートモデルを学習する際に、重点サンプリングによる近似を用いる場合であっても、モデルの推定精度を向上できることが望ましい。そこで、本実施形態では、モデルフリー逆強化学習によって階層型混合エキスパートモデルを学習する際に、重点サンプリングによる近似を用いる場合であっても、モデルの推定精度を向上できる構成を中心に説明する。

図１は、本発明による学習装置の一実施形態の構成例を示すブロック図である。本実施形態の学習装置１００は、記憶部１０と、入力部２０と、学習部３０と、出力部４０とを備えている。

学習装置１００は、対象者の行動から報酬（関数）を推定する逆強化学習を行う装置であり、階層型混合エキスパートモデルを学習する装置である。対象者の例として、その分野のエキスパート（熟練者）が挙げられる。また、本実施形態の学習装置１００が行う逆強化学習の一つとして、状態遷移モデルを用いずに（すなわち、モデルフリーに）報酬関数を学習する相対エントロピー逆強化学習が挙げられる。

ここで、上述するモデルフリー逆強化学習について説明する。逆強化学習では、Feature Matchingに基づく履歴（状態ｓに対する行動ａの履歴）の確率モデルを導入することが一般的である。今、意思決定履歴（トラジェクトリとも言う。）をτ＝ｓ_１ａ_１，…，ｓ_Ｈａ_Ｈとしたとき、報酬関数ｒ（τ）は、以下に示す式１で表すことができる。

式１において、ｒ（ｓ，ａ）は、状態に対してとった行動により得られる報酬を表わす。また、θは、逆強化学習により最適化するパラメータであり、ｆ_τは、意思決定履歴の特徴量（すなわち、トラジェクトリの特徴量）、ｆ_ｓ，ａは、個々の意思決定に対する特徴量である。

ここで、熟練者のトラジェクトリの集合をＤ_Ｅとしたとき、逆強化学習では、Feature Matchingを表わす制約条件

を満たすように、以下の式２または式３を満たすＰ（τ）を求めることが目的とされる。具体的には、式２では、エントロピーが最大になる分布Ｐ（τ）を求めることを目的とし、式３では、相対エントロピーが最小になる分布Ｐ（τ）を求めることを目的とする。なお、Ｑ（τ）は、ベースライン分布である。

ラグランジュの未定乗数法より、θを未定乗数とした場合、上記に示す式２を用いた最大エントロピー逆強化学習での確率分布は、以下の式４で表される。また、上記に示す式３を用いた相対エントロピー逆強化学習での確率分布は、以下の式５で表される。

モデルフリー逆強化学習を行うためには、上記に示す式５が用いられる。具体的には、式５を用いて、ランダム方策による意思決定履歴からのサンプリングを行うことで、報酬関数をモデルフリーで学習できる。以下、上述する状態遷移モデルを用いずに、報酬関数を学習する方法を説明する。今、状態遷移モデルをＤ（τ）、ベースライン方策をπ_ｂ（τ）としたとき、ベースライン分布Ｑ（τ）は、状態遷移モデルとベースライン方策との積で表される。すなわち、Ｑ（τ）＝Ｄ（τ）π_ｂ（τ）である。なお、ベースライン方策π_ｂ（τ）およびベースライン分布Ｑ（τ）は、以下のように定義できる。

このとき、最尤推定に基づく報酬関数の重みベクトルθの第ｋ成分の更新式は、以下の式６で表される。

重点サンプリングを行う場合、サンプリング方策π_ｓ（ａ_ｔ｜ｓ_ｔ）でサンプリングしたトラジェクトリの集合をＤ_ｓａｍｐとすると、上記に示す式６のカッコ内の第二項は、以下の式７に示す式に変換できる。

そして、π_ｓ（ａ_ｔ｜ｓ_ｔ）とπ_ｂ（ａ_ｔ｜ｓ_ｔ）のいずれも一様分布であるとすると、上記の式７は、以下の式８に示す式に変換できる。

上記処理の結果、式６および式８に示すように、状態遷移モデルＤ（τ）を用いずに、報酬関数の重み係数ベクトルθを更新することができる。

記憶部１０は、学習装置１００が各種処理を行うために必要な情報を記憶する。記憶部１０は、後述する学習部３０が処理に用いる各種パラメータを記憶してもよい。また、記憶部１０は、後述する入力部２０が受け付けた対象者の意思決定履歴を記憶してもよい。記憶部１０は、例えば、磁気ディスク等により実現される。

入力部２０は、対象者の意思決定履歴（トラジェクトリ）の入力を受け付ける。例えば、自動運転を目的とした学習を行う場合、入力部２０は、ドライバの複雑な意図に基づく大量の運転履歴データの入力を意思決定履歴として受け付けてもよい。具体的には、意思決定履歴は、時刻ｔでの状態ｓ_ｔと、時刻ｔでの行動ａ_ｔとの組み合わせの時系列データ｛ｓ_ｔ，ａ_ｔ｝_ｔ＝１ ^Ｈとして表される。

学習部３０は、受け付けた意思決定履歴に基づいて、逆強化学習により階層型混合エキスパートモデルを学習する。特に、本実施形態の学習部３０は、ＥＭ（expectation?maximization）アルゴリズムを用いて階層型混合エキスパートモデルを学習し、ＥＭアルゴリズムを用いた学習結果が所定の条件を満たす場合に、階層型混合エキスパートモデルを因子化漸近ベイズ推論により学習する。

以下、学習部３０による具体的な学習方法の一例として、ランダム方策に基づく重点サンプリングを用いた相対エントロピー逆強化学習により階層型混合エキスパートモデルを学習する方法を説明する。上述するように、相対エントロピー逆強化学習は、ランダム方策による意思決定履歴からのサンプリングを用いて、状態遷移モデルを用いずに（すなわち、モデルフリーで）報酬関数を学習する方法である。

図２は、階層型混合エキスパートモデルの概要を説明する説明図である。図２（ａ）に示すモデルは、階層型混合エキスパートモデルの一例であり、状態および観測情報を示す入力データｆ_τ∈Ｒ^Ｄに対して、各門で分岐確率が算出され、状態および観測情報に応じて最もたどりつく確率の高い葉に対応する報酬関数が選択される。

例えば、図２（ｂ）に例示するベルヌーイ型の門関数が用いられる場合、門関数は、以下に示す式９のように定義できる。式９において、ｇ_ｉ∈［０，１］であり、Ｕはステップ関数、γ_ｉは、ｆ_τ∈Ｒ^Ｄの次元に対するインデックス、Ｄはｆ_τの次元、ｔ_ｉ∈Ｒは任意の値を表わす。例えば、図２（ｂ）に示すように、ｆ_τ,γｉ＜ｔ_ｉであればｇ（ｆ_τ，α_ｉ）＝ｇ_ｉであり、それ以外では、ｇ（ｆ_τ，α_ｉ）＝１－ｇ_ｉになる。

式９に示す門関数を利用すると、ＨＭＥモデルは、以下の式１０に示す確率モデルとして表される。式１０において、τ∈｛１，－１｝は報酬関数、θ＝（φ_１，…，φ_Ｅ）はモデルのパラメータ、Ｅは報酬関数の数を表わす。なお、ε_ｊ（ｊ＝１，…，Ｅ）は、最上位の門関数とｊ番目の報酬関数を結ぶパス上に存在する門関数（最上位の門関数を含む）のインデックス集合である。

また、ψ_ｇ（ｆ_τ，ｉ，ｊ）：＝ψ（ｇ（ｆ_τ，α_ｉ），ｉ，ｊ）は、ｉ番目の門関数の確率であり、ｆ_τに対してｊ番目の門関数が選択される確率は、Π_ｉ∈εｊψ_ｇ ^{（ｉ，ｊ）}（ｆ_τ）になる。これは、式１０における波下線部に対応する。なお、ψ（ａ，ｉ，ｊ）は、ｊ番目の報酬関数がｉ番目の門関数の左部分木にある場合にψ（ａ，ｉ，ｊ）＝ａになり、右部分木にある場合にψ（ａ，ｉ，ｊ）＝１－ａになる。

次に、ｊ番目のパスに対応する隠れ変数（すなわち、ｊ番目の報酬関数が選択されることを表わす隠れ変数）をζ_ｊとする。ζ_ｊは、以下に示す式１１のように定義される。また、ｉ番目のノードは、バイナリ変数ｚ_i∈｛０，１}を有する。ｚ_i＝１はデータが左側の分岐から生成され、ｚ_i＝０はその逆であることを示す。このとき、ｚ_ｉの確率は、以下に示す式１２で与えられる。

このとき、ＨＭＥモデルの完全尤度関数は、以下の式１３のように定義される。

ここで、因子化情報量基準の下限の近似値を用いることで、ＦＡＢ推論を実行することが可能である。具体的には、ｑ_ｊ ^Ｎを、ζ_ｊ ^Ｎの変分確率とすると、因子化情報量基準の下限は、以下の式１４で表される。

そして、重点サンプリングによる因子化情報量基準の近似値は、以下に示す式１５および式１６を用いて算出される。

また、ＦＡＢ推論において、隠れ変数の変分確率の更新処理（Ｅステップ）では、以下に例示する式１７により期待値の計算が行われ、分岐条件や報酬関数の更新（Ｍステップ）では、以下に示す式１８および式１９によりパラメータの更新処理が行われる。

一方、上述するように、重点サンプリングによる近似の影響で、因子化情報量基準が単調増加しない恐れがある。そこで、学習部３０は、まずは、ＥＭアルゴリズムに基づいてモデルの学習を行い、対数尤度の単調増加性が確認された段階で、重点サンプリングの近似精度が向上したと考えて、ＦＡＢ推論へ学習方法を切り替える。すなわち、学習部３０は、対数尤度の単調増加性を所定の条件として判断する。

学習部３０は、第一学習部３１と、第二学習部３２とを含む。

第一学習部３１は、ＨＭＥに対するＥＭアルゴリズムを用いてモデルの学習を行い、対数尤度を算出する。具体的には、第一学習部３１は、入力された意思決定履歴に基づいてパラメータθを更新し、意思決定履歴の対数尤度を最大化するように学習を行う。

ここで、上記の式１７における波下線部は、ＦＡＢ推論の正則化効果を表わす式であり、この項を除いた式は、ＨＭＥに対する通常のＥＭアルゴリズムのＥステップにおける更新式に一致する。そのため、第一学習部３１は、ＦＡＢ推論で用いられる隠れ変数の変分確率の更新時に用いられる式から、当該ＦＡＢ推論の正則化効果を表わす式を除いた式を用いて、ＥＭアルゴリズムによるモデルの学習を行ってもよい。

また、同様に、上記の式１８および式１９において破線部を除くと、除かれた式は、ＨＭＥに対する通常のアルゴリズムのＭステップにおける更新式に一致する。第一学習部３１は、この更新式に基づいてＥＭアルゴリズムによるモデルの学習を行ってもよい。なお、ＨＭＥに対するＥＭアルゴリズムを用いた学習方法は広く知られており、ここでは具体的な説明は省略する。

第二学習部３２は、第一学習部３１が行う学習時の対数尤度が単調増加しているか否かを判断する。そして、対数尤度が単調増加していると判断した場合、第二学習部３２は、ＥＭアルゴリズムからＦＡＢ推論へ学習方法を切り替え、ＦＡＢ推論による学習を行う。

具体的には、第二学習部３２は、対数尤度が単調増加していると判断した場合、因子化情報量基準を最大化するように、上記の式１７を用いて隠れ変数の変分確率を更新し、上記の式１８および式１９を用いてモデルのパラメータ（分岐条件や報酬関数のパラメータ）を更新する。第二学習部３２は、例えば、非特許文献１に記載された方法でＦＡＢ推論を実行してもよい。

出力部４０は、学習された階層型混合エキスパートモデルを出力する。具体的には、出力部４０は、因子化情報量基準を最大にするモデル（ＨＭＥモデル）を出力する。図３は、出力されるＨＭＥモデルの例を示す説明図である。図３に例示するＨＭＥモデルは、状態・観測情報に応じて報酬関数を１つ選択するモデルである。図３に示す例では、入力される状態・観測情報が条件１を満たし、条件２を満たさずに、スパースな線形報酬関数２が選択されたことを示す。

入力部２０と、学習部３０（より詳しくは、第一学習部３１と第二学習部３２）と、出力部４０とは、プログラム（学習プログラム）に従って動作するコンピュータのプロセッサ（例えば、ＣＰＵ（Central Processing Unit ）、ＧＰＵ（Graphics Processing Unit））によって実現される。

例えば、プログラムは、学習装置１００が備える記憶部１０に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、入力部２０、学習部３０（より詳しくは、第一学習部３１と第二学習部３２）および出力部４０として動作してもよい。また、学習装置１００の機能がＳａａＳ（Software as a Service ）形式で提供されてもよい。

入力部２０と、学習部３０（より詳しくは、第一学習部３１と第二学習部３２）と、出力部４０とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路（circuitry ）、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。

また、学習装置１００の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

次に、本実施形態の学習装置１００の動作を説明する。図４は、本実施形態の学習装置１００の動作例を示す説明図である。学習部３０は、隠れ変数および変分事後確率の初期化を行う（ステップＳ１１）。入力部２０は、対象者の意思決定履歴の入力を受け付ける（ステップＳ１２）。学習部３０（第一学習部３１）は、ＥＭアルゴリズムを用いてＨＭＥモデルを学習し、意思決定履歴の対数尤度を算出する（ステップＳ１３）。学習部３０（第二学習部３２）は、対数尤度が単調増加しているか否か判断する（ステップＳ１４）。対数尤度が単調増加していないと判断された場合（ステップＳ１４におけるＮｏ）、ステップＳ１３の処理を繰り返す。

一方、対数尤度が単調増加していると判断された場合（ステップＳ１４におけるＹｅｓ）、学習部３０（第二学習部３２）は、ＥＭアルゴリズムによる学習方法を因子化漸近ベイズ推論に切り替える（ステップＳ１５）。そして、学習部３０（第二学習部３２）は、因子化情報量基準の下限の近似値を用いて、切り替えた因子化漸近ベイズ推論によりＨＭＥモデルを学習する（ステップＳ１６）。

以上のように、本実施形態では、入力部２０が、対象者の意思決定履歴の入力を受け付け、学習部３０が、意思決定履歴に基づいて、逆強化学習によりＨＭＥモデルを学習し、出力部４０が、学習されたＨＭＥモデルを出力する。そして、上記学習の際、学習部３０が、ＥＭアルゴリズムを用いてＨＭＥモデルを学習し、そのＥＭアルゴリズムを用いた学習結果が所定の条件を満たす場合に、ＨＭＥモデルをＦＡＢ推論により学習する。より具体的には、第一学習部３１が、ＥＭアルゴリズムを用いてＨＭＥモデルを学習して、意思決定履歴の対数尤度を算出し、対数尤度が単調増加していると判断した場合、第二学習部３２が、ＥＭアルゴリズムによる学習方法をＦＡＢ推論に切り替え、因子化情報量基準の下限の近似値を用いてＨＭＥモデルをそのＦＡＢ推論により学習する。

よって、逆強化学習によって階層型混合エキスパートモデルを学習する際に、モデルの推定精度を向上できる。

次に、本発明の概要を説明する。図５は、本発明による学習装置の概要を示すブロック図である。本発明による学習装置８０は、対象者の意思決定履歴の入力を受け付ける入力部８１（例えば、入力部２０）と、意思決定履歴に基づいて、逆強化学習により階層型混合エキスパートモデルを学習する学習部８２（例えば、学習部３０）と、学習された階層型混合エキスパートモデルを出力する出力部８３（例えば、出力部４０）とを備えている。

学習部８２は、ＥＭアルゴリズムを用いて階層型混合エキスパートモデルを学習し、そのＥＭアルゴリズムを用いた学習結果が所定の条件を満たす場合に、階層型混合エキスパートモデルを因子化漸近ベイズ推論により学習する。

そのような構成により、逆強化学習によって階層型混合エキスパートモデルを学習する際に、モデルの推定精度を向上できる。

具体的には、学習部８２は、ＥＭアルゴリズムを用いて階層型混合エキスパートモデルを学習して、意思決定履歴の対数尤度を算出する第一学習部（例えば、第一学習部３１）と、対数尤度が単調増加していると判断した場合、ＥＭアルゴリズムによる学習方法を因子化漸近ベイズ推論に切り替え、因子化情報量基準の下限の近似値を用いて階層型混合エキスパートモデルをその因子化漸近ベイズ推論により学習する第二学習部（例えば、第二学習部３２）とを含んでいてもよい。

そして、第一学習部は、対数尤度が単調増加していると判断されるまで、ＥＭアルゴリズムによる階層型混合エキスパートモデルの学習を繰り返してもよい。

また、第一学習部は、因子化漸近ベイズ推論で用いられる隠れ変数の変分確率の更新時に用いられる式（例えば、上記に示す式１７～１９）から、その因子化漸近ベイズ推論の正則化効果を表わす項（例えば、上記に示す式１７～１９の波下線部）を除いた式を用いて、ＥＭアルゴリズムによるモデルの学習を行ってもよい。

図６は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ１０００は、プロセッサ１００１、主記憶装置１００２、補助記憶装置１００３、インタフェース１００４を備える。

上述の学習装置８０は、コンピュータ１０００に実装される。そして、上述した各処理部の動作は、プログラム（学習プログラム）の形式で補助記憶装置１００３に記憶されている。プロセッサ１００１は、プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、当該プログラムに従って上記処理を実行する。

なお、少なくとも１つの実施形態において、補助記憶装置１００３は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（Compact Disc Read-only memory ）、ＤＶＤ－ＲＯＭ（Read-only memory）、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００が当該プログラムを主記憶装置１００２に展開し、上記処理を実行してもよい。

また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置１００３に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であってもよい。

１０記憶部
２０入力部
３０学習部
３１第一学習部
３２第二学習部
４０出力部

Claims

対象者の意思決定履歴の入力を受け付ける入力部と、
前記意思決定履歴に基づいて、逆強化学習により階層型混合エキスパートモデルを学習する学習部と、
学習された前記階層型混合エキスパートモデルを出力する出力部とを備え、
前記学習部は、ＥＭアルゴリズムを用いて前記階層型混合エキスパートモデルを学習し、当該ＥＭアルゴリズムにより算出される、意思決定履歴の対数尤度が単調増加している場合に、前記階層型混合エキスパートモデルを因子化漸近ベイズ推論により学習する
ことを特徴とする学習装置。
学習部は、
ＥＭアルゴリズムを用いて階層型混合エキスパートモデルを学習して、意思決定履歴の対数尤度を算出する第一学習部と、
前記対数尤度が単調増加していると判断した場合、前記ＥＭアルゴリズムによる学習方法を因子化漸近ベイズ推論に切り替え、因子化情報量基準の下限の近似値を用いて階層型混合エキスパートモデルを当該因子化漸近ベイズ推論により学習する第二学習部とを含む
請求項１記載の学習装置。
第一学習部は、対数尤度が単調増加していると判断されるまで、ＥＭアルゴリズムによる階層型混合エキスパートモデルの学習を繰り返す
請求項２記載の学習装置。
第一学習部は、因子化漸近ベイズ推論で用いられる隠れ変数の変分確率の更新時に用いられる式から、当該因子化漸近ベイズ推論の正則化効果を表わす項を除いた式を用いて、ＥＭアルゴリズムによるモデルの学習を行う
請求項２または請求項３記載の学習装置。
対象者の意思決定履歴の入力を受け付け、
前記意思決定履歴に基づいて、逆強化学習により階層型混合エキスパートモデルを学習し、
学習された前記階層型混合エキスパートモデルを出力し、
前記学習の際、
ＥＭアルゴリズムを用いて前記階層型混合エキスパートモデルを学習し、当該ＥＭアルゴリズムにより算出される、意思決定履歴の対数尤度が単調増加している場合に、前記階層型混合エキスパートモデルを因子化漸近ベイズ推論により学習する
ことを特徴とする学習方法。
ＥＭアルゴリズムを用いて階層型混合エキスパートモデルを学習して、意思決定履歴の対数尤度を算出し、
前記対数尤度が単調増加していると判断した場合、前記ＥＭアルゴリズムによる学習方法を因子化漸近ベイズ推論に切り替え、因子化情報量基準の下限の近似値を用いて階層型混合エキスパートモデルを当該因子化漸近ベイズ推論により学習する
請求項５記載の学習方法。
コンピュータに、
対象者の意思決定履歴の入力を受け付ける入力処理、
前記意思決定履歴に基づいて、逆強化学習により階層型混合エキスパートモデルを学習する学習処理、および、
学習された前記階層型混合エキスパートモデルを出力する出力処理を実行させ、
前記学習処理で、
ＥＭアルゴリズムを用いて前記階層型混合エキスパートモデルを学習させ、当該ＥＭアルゴリズムにより算出される、意思決定履歴の対数尤度が単調増加している場合に、前記階層型混合エキスパートモデルを因子化漸近ベイズ推論により学習させる
ための学習プログラム。
コンピュータに、
学習処理で、
ＥＭアルゴリズムを用いて階層型混合エキスパートモデルを学習して、意思決定履歴の対数尤度を算出する第一学習処理、および、
前記対数尤度が単調増加していると判断した場合、前記ＥＭアルゴリズムによる学習方法を因子化漸近ベイズ推論に切り替え、因子化情報量基準の下限の近似値を用いて階層型混合エキスパートモデルを当該因子化漸近ベイズ推論により学習する第二学習処理を実行させる
請求項７記載の学習プログラム。