JP3703822B2

JP3703822B2 - 内部変数推定装置、内部変数推定方法及び内部変数推定プログラム

Info

Publication number: JP3703822B2
Application number: JP2003310408A
Authority: JP
Inventors: 和行鮫島; 賢治銅谷
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2003-09-02
Filing date: 2003-09-02
Publication date: 2005-10-05
Anticipated expiration: 2023-09-02
Also published as: JP2005078519A

Description

本発明は、学習者の学習プロセスをモデル化した学習モデルの内部変数を推定する内部変数推定装置、内部変数推定方法及び内部変数推定プログラムに関するものである。

計算論的神経科学は、脳で行っている情報処理過程を計算モデルとして仮定し、そのモデルの振る舞いを解析することにより、生理学実験や心理学実験によって得られるデータを説明し且つ知られていないデータに対する予測を行い、より深く脳の働きを知ろうとするアプローチである。この場合、神経活動の特性に対する計算モデルの妥当性を測定し、計算モデルを評価することが不可欠となる。

上記のアプローチとして、直接観測できる物理量、例えば、刺激強度や運動強度などの直接観測可能な量と神経活動との相関を計算し、計算モデルの妥当性を評価することが行われている（例えば、非特許文献１〜３参照）。このため、従来の計算論的神経科学では、直接観測可能な量と相関が取りやすい、より入力に近い皮質領野である感覚野と、より出力に近い運動野や小脳とから理解が進んできている。
オザワアイ（Ohzawa I.）他、ニューロフィジオロジージャーナル（Journal of Neurophysiology）、１９９６年、７５（５）、ｐ．１７７９−ｐ．１８０５ゴミエイチ（Gomi H.）他、ニューロフィジオロジージャーナル（Journal of Neurophysiology）、１９９８年、８０（２）、ｐ．８１８−ｐ．８３１カケイエス（Kakei S.）他、ネーチャーニューロサイエンス（Nature Neuroscience）、２００１年、４（１０）、ｐ．１０２０−ｐ．１００５

しかしながら、記憶や報酬による行動決定などのより高次な脳機能を説明するための学習モデルは、直接観測できない内部状態やパラメータを持つため、上記のアプローチでは、高次な脳機能を説明するための学習モデルの内部状態やパラメータを推定することができない。また、学習系では、パラメータはダイナミックに変化し、その変化は学習率などのメタパラメータに依存する場合があり、上記のアプローチでは、このメタパラメータも推定することができない。

本発明の目的は、学習者の学習プロセスをモデル化した学習モデルの直接観測できない内部変数を推定することができる内部変数推定装置、内部変数推定方法及び内部変数推定プログラムを提供することである。

本発明に係る内部変数推定装置は、学習者の学習プロセスをモデル化した学習モデルの内部変数を推定する内部変数推定装置であって、学習モデルの観測可能な外部変数を取得する取得手段と、学習モデルをベイジアンネットワークにより表現して外部変数からベイズ推定を用いて内部変数を推定する推定手段とを備え、外部変数は、学習者の行動を表す変数と、行動に対して得られる報酬を表す変数とを含み、内部変数は、行動選択の乱雑さを表すメタパラメータと、学習率を表すメタパラメータと、行動価値関数を表すパラメータとを含み、ベイジアンネットワークは、行動を表す変数と、報酬を表す変数と、行動選択の乱雑さを表すメタパラメータと、学習率を表すメタパラメータと、行動価値関数を表すパラメータとを含み、推定手段は、行動を表す変数及び報酬を表す変数からベイズ推定を用いて行動選択の乱雑さを表すメタパラメータ、学習率を表すメタパラメータ及び行動価値関数を表すパラメータを推定するものである。

本発明に係る内部変数推定装置では、学習者の学習プロセスをモデル化した学習モデルの観測可能な外部変数を取得するとともに、学習モデルをベイジアンネットワークにより表現し、取得した外部変数からベイズ推定を用いて内部変数を推定しているので、学習者の学習プロセスをモデル化した学習モデルの直接観測できない内部変数を推定することが
できる。また、メタパラメータも推定することができるので、学習者のより高次な脳機能を正確にモデル化することができる。

推定手段は、ベイズ推定による内部変数の推定処理をシーケンシャルモンテカルロ法により数値解析的に行うことが好ましい。この場合、シーケンシャルモンテカルロ法により数値解析的にベイズ推定を行うことができる。

学習モデルは、強化学習モデルであることが好ましい。この場合、確率的に与えられる報酬を最大化する行動を、試行を通して学習する学習モデルの直接観測できない内部変数を推定することができる。

外部変数は、行動を決定したときの環境の状態を表す変数をさらに含み、内部変数は、未来の報酬に対する割引率を表すメタパラメータをさらに含み、ベイジアンネットワークは、環境の状態を表す変数と、割引率を表すメタパラメータとをさらに含み、推定手段は、環境の状態を表す変数、行動を表す変数及び報酬を表す変数からベイズ推定を用いて割引率を表すメタパラメータ、行動選択の乱雑さを表すメタパラメータ、学習率を表すメタパラメータ及び行動価値関数を表すパラメータを推定することが好ましい。この場合、学習モデルの割引率も推定することができるので、長期の報酬を考慮したより高次な脳機能を正確にモデル化することができる。

本発明に係る内部変数推定方法は、コンピュータを用いて、学習者の学習プロセスをモデル化した学習モデルの内部変数を推定する内部変数推定方法であって、コンピュータの取得部が、学習モデルの観測可能な外部変数を取得するステップと、コンピュータの推定部が、学習モデルをベイジアンネットワークにより表現して外部変数からベイズ推定を用いて内部変数を推定するステップとを含み、外部変数は、学習者の行動を表す変数と、行動に対して得られる報酬を表す変数とを含み、内部変数は、行動選択の乱雑さを表すメタパラメータと、学習率を表すメタパラメータと、行動価値関数を表すパラメータとを含み、ベイジアンネットワークは、行動を表す変数と、報酬を表す変数と、行動選択の乱雑さを表すメタパラメータと、学習率を表すメタパラメータと、行動価値関数を表すパラメータとを含み、内部変数を推定するステップは、行動を表す変数及び報酬を表す変数からベイズ推定を用いて行動選択の乱雑さを表すメタパラメータ、学習率を表すメタパラメータ及び行動価値関数を表すパラメータを推定するステップを含むものである。

本発明に係る内部変数推定プログラムは、学習者の学習プロセスをモデル化した学習モデルの内部変数を推定するための内部変数推定プログラムであって、学習モデルの観測可能な外部変数を取得する取得手段と、学習モデルをベイジアンネットワークにより表現して外部変数からベイズ推定を用いて内部変数を推定する推定手段としてコンピュータを機能させ、外部変数は、学習者の行動を表す変数と、行動に対して得られる報酬を表す変数とを含み、内部変数は、行動選択の乱雑さを表すメタパラメータと、学習率を表すメタパラメータと、行動価値関数を表すパラメータとを含み、ベイジアンネットワークは、行動を表す変数と、報酬を表す変数と、行動選択の乱雑さを表すメタパラメータと、学習率を表すメタパラメータと、行動価値関数を表すパラメータとを含み、推定手段は、行動を表す変数及び報酬を表す変数からベイズ推定を用いて行動選択の乱雑さを表すメタパラメータ、学習率を表すメタパラメータ及び行動価値関数を表すパラメータを推定するものである。

本発明によれば、学習者の学習プロセスをモデル化した学習モデルの観測可能な外部変数を取得するとともに、学習モデルをベイジアンネットワークにより表現し、取得した外部変数から学習ベイズ推定を用いて内部変数を推定しているので、学習者の学習プロセスをモデル化した学習モデルの直接観測できない内部変数を推定することができる。

以下、本発明の一実施の形態による内部変数推定装置について図面を参照しながら説明する。図１は、本発明の一実施の形態による内部変数推定装置の構成を示すブロック図である。

図１に示す内部変数推定装置は、通常のコンピュータ等から構成され、入力装置１、ＲＯＭ（リードオンリメモリ）２、ＣＰＵ（中央演算処理装置）３、ＲＡＭ（ランダムアクセスメモリ）４、外部記憶装置５、表示装置６、記録媒体駆動装置７及び通信装置９を備える。各ブロックは内部のバスを介して接続され、このバスを介して種々のデータ等が入出力され、ＣＰＵ３の制御の下、種々の処理が実行される。

入力装置１は、キーボード、マウス等から構成され、操作者が種々のデータ及び操作指令等を入力するために使用される。例えば、入力装置１は、操作者が入力した外部変数である観測可能な状態及び行動等のデータを取得し、ＣＰＵ３の制御の下、ＲＡＭ４又は外部記憶装置５に出力する。なお、外部変数の取得方法は、上記の例に特に限定されず、外部変数が後述する記録媒体８に記録されている場合、記録媒体駆動装置７を用いて外部変数を取得するようにしてもよいし、所定のセンサ及び計測装置等と図１に示す内部変数推定装置とが所定の通信規格に適合したインターフェースボード等から構成される通信装置９を介して通信可能に接続されている場合、計測装置等から通信装置９を介して外部変数を取得するようにしてもよい。

ＲＯＭ２には、ＢＩＯＳ（Basic Input/Output System）等のシステムプログラム等が記憶される。外部記憶装置５は、ハードディスクドライブ等から構成され、外部記憶装置５には所定のＯＳ（Operating System）及び後述する内部変数推定プログラム等が記憶される。ＣＰＵ３は、外部記憶装置５から内部変数推定プログラム等を読み出し、後述する内部変数推定処理等を実行し、各ブロックの動作を制御する。ＲＡＭ４は、ＣＰＵ３の作業領域等として用いられる。

ＣＰＵ３は、学習者の学習プロセスをモデル化した学習モデルをベイジアンネットワークにより表現し、入力装置１により取得された外部変数からベイズ推定を用いて観測不可能な内部変数を推定する。このとき、ＣＰＵ３は、学習モデルとして強化学習モデルを用い、シーケンシャルモンテカルロ（Sequential Monte Carlo）法（Particle filter）によりベイズ推定を行い、内部変数として学習モデルの内部状態及びメタパラメータを推定する。

表示装置６は、液晶表示装置等から構成され、ＣＰＵ３の制御の下に種々の操作画面及び推定結果画面等を表示する。また、必要に応じて推定結果等を印字する印刷装置を付加してもよい。

記録媒体駆動装置７は、ＤＶＤドライブ、ＣＤ−ＲＯＭドライブ、フレキシブルディスクドライブ等から構成される。なお、内部変数推定プログラムを、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等のコンピュータ読み取り可能な記録媒体８に記録し、記録媒体駆動装置７により記録媒体８から内部変数推定プログラムを読み出して外部記憶装置５にインストールして実行するようにしてもよい。また、所定のネットワークを介して図１に示す内部変数推定装置に接続された他のコンピュータ等に内部変数推定プログラムが記憶されている場合、通信装置９を用い、当該コンピュータからネットワークを介して内部変数推定プログラムをダウンロードして実行するようにしてもよい。

本実施の形態では、入力装置１及びＣＰＵ３が取得手段に相当し、ＣＰＵ３等が推定手段に相当する。

次に、図１に示す内部変数推定装置に用いられる強化学習モデルについて説明する。確率的に与えられる報酬を最大化する行動を、試行を通して学習するモデルとして強化学習モデルがある。強化学習モデルは、ある時刻ｔにおいて環境の状態ｓ_ｔを観測し、その状態に対して行動ａ_ｔを決定したときに、報酬ｒ_ｔが得られるような環境で長期にわたる報酬の期待値を最大化するような行動ａの系列を学習するものである。本実施の形態では、強化学習モデルとして、ある状態ｓ_ｔからある行動ａ_ｔをとった後に得られる長期報酬の期待値である下記の行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）を自らの試行を通じて学習するＱ−学習を用いている。

ここで、γは未来の報酬に対する割引率であり、人間又は動物がどれだけ長期の報酬を考慮して行動を決定するのかを決めるメタパラメータであり、０≦γ≦１である。

理想的な行動価値関数の値（Ｑ値）に関して、現在の状態の行動価値関数と次の状態の行動価値関数との間に以下の関係が成り立つ。

上記の関係を成り立たせるために、下記の時間差誤差（ＴＤ誤差）を用いると、

Ｑ値は、下記の更新則によって学習される。ここで、αは、学習率を表すメタパラメータであり、０＜α＜１である。

本実施の形態では、上記のＱ値を基に人間又は動物が行動を確率的に選択するとして学習者の学習プロセスをモデル化している。また、確率選択として、例えば、下記のボルツマン選択を用いることができる。ここで、βはボルツマン分布の逆温度メタパラメータであり、行動選択の乱雑さを決定し、β＞０である。

なお、本発明に用いられる学習モデルは、上記の例に特に限定されず、他の学習モデルを用いてもよい。

次に、ベイズ推定による内部変数の推定処理について説明する。本実施の形態では、観測可能な外部変数である行動選択系列からパラメータＱ値およびメタパラメータα、β、γの系列をベイズ推定の枠組みを用いて推定しており、まず、ベイズ推定による内部変数の推定原理について説明する。

ベイズ推定の枠組みでは、過去のデータから推定された事前分布と現在の観測データを用いて、以下に説明するようにベイズ則を用いて事後分布を更新することによって、より確実な推定分布を求めていく。学習モデルは、内部状態やパラメータなどの観測できない内部変数列を｛ｘ_ｔ；ｔ∈Ｎ｝、観測可能な外部変数を｛ｙ_ｔ；ｔ∈Ｎ｝として、（１）内部変数ｘ_ｔの初期分布ｐ（ｘ_０）、（２）ダイナミクスを表す状態遷移確率ｐ（ｘ_ｔ＋１｜ｘ_ｔ）、（３）内部変数ｘ_ｔから観測可能な外部変数ｙ_ｔを決める観測分布ｐ（ｙ_ｔ｜ｘ_ｔ）の３種類の確率分布により与えられる。ここで、観測系列ｙ_１：ｔ≡｛ｙ_１，…，ｙ_ｔ｝が与えられたときに、内部変数列ｘ_０：ｔ≡｛ｘ_０，…，ｘ_ｔ｝の分布ｐ（ｘ_０：ｔ｜ｙ_１：ｔ）を推定する。

すなわち、ある時刻ｔにおける内部変数の事後分布は、ベイズの定理から下式で与えられる。

この結合分布は、時刻にともなう再帰的計算で更新することができ、次の時刻ｔ＋１の分布は、下式で与えられる。

同様にして、周辺分布ｐ（ｘ_ｔ｜ｙ_１：ｔ）も下式を再帰的に計算することによって求めることができる。

上記ベイズ推定によってＱ値及びメタパラメータを推定するためには、まず各変数間の確率的な依存関係を明確にモデル化する必要があり、本実施の形態では、下記のベイジアンネットワークを用いている。図２は、図１に示す内部変数推定装置に用いられる強化学習モデルのベイジアンネットワークの一例を示す図である。

強化学習モデルは、図２に示す動的ベイジアンネットワークにより表現され、この動的ベイジアンネットワークは、変数の確率的な依存関係を表現する上で有用である。図２において、丸ブロックは連続変数を示し、四角ブロックは離散値変数を示し、このうち二重線ブロックは観測可能な変数を示し、一重線ブロックは隠れた変数を示している。また、太い実線の矢印はメタパラメータのダイナミックスを示し、破線の矢印は更新の流れを示し、一点鎖線の矢印は行動決定の流れを示し、二点鎖線の矢印は報酬プロセスの流れを示し、二重線の矢印は状態遷移を示している。

図２に示すように、現在の行動ａ_ｔは、現在の状態ｓ_ｔ、現在の近似的なＱ値Ｑ_ｔ及び現在の逆温度パラメータβ_ｔによって決定される。報酬ｒは、環境の報酬プロセスによって決定され、状態ｓは、環境のダイナミックスによって遷移する。強化学習モデルにおいて現在の状態及び行動と次の状態とは更新に使用され、割引率γ及び学習率αはこの項に影響する。全てのメタパラメータα，β，γは、ランダムウォークモデルによって少量変化する。

なお、本発明に用いられるベイジアンネットワークは、上記の例に特に限定されず、他のベイジアンネットワークを用いることもできる。図３は、他のベイジアンネットワークの例を示す図である。図３では、簡略化のため、状態ｓは固定され、γ＝０の場合を示し、（ａ）は、メタパラメータを状態遷移に入れた場合の強化学習モデルのベイジアンネットワークを示し、（ｂ）は、メタパラメータを内部変数と考えた場合の強化学習モデルのベイジアンネットワークを示している。

図３の（ａ）の例では、内部変数はｘ_ｔ＝（Ｑ_ｔ（ａ_１），Ｑ_ｔ（ａ_２），…，Ｑ_ｔ（ａ_ｎ））（ここで、ｎは取り得る行動の候補数）であり、観測可能な外部変数はｙ_ｔ＝（ａ_ｔ，ｒ_ｔ）であり、Ｑ値の現在の値と行動ａ_ｔ及び報酬ｒ_ｔとからＴＤ誤差δ_ＴＤが計算される。Ｑ値に関する状態遷移確率ｐ（ｘ_ｔ＋１｜ｘ_ｔ）は、式（４）によりＴＤ誤差δ_ＴＤ及びαによって与えられる。また、観測分布ｐ（ｙ_ｔ｜ｘ_ｔ）のうち行動ａ_ｔは式（５）の分布に従ってＱ値及びβに依存して選択され、報酬ｒ_ｔは行動に依存して課題に応じた既知のＰ（ｒ｜ａ）により与えられる。

図３の（ｂ）の例は、メタパラメータα，βを内部変数に含め、ｘ_ｔ＝（Ｑ_ｔ（ａ_１），Ｑ_ｔ（ａ_２），…，Ｑ_ｔ（ａ_ｎ），α_ｔ，β_ｔ）と拡張し、メタパラメータα，βを同時に推定する。ここで、メタパラメータの状態遷移は未知であるため、ランダムウォークモデルを状態遷移確率ｐ（ｘ_ｔ＋１｜ｘ_ｔ）とする。また、メタパラメータは常に正の値であるため、下記のように、その値を対数空間での遷移とする。

ここで、σ_αは、メタパラメータの変動の大きさを表すメタメタパラメータであり、βに関しても同様に状態遷移をモデル化できる。なお、Ｑ値とメタパラメータの初期分布ｐ（ｘ_０）は、事前知識がないため、広い範囲を覆える正規分布を仮定する。

次に、上記のベイズ推定をシーケンシャルモンテカルロ（Sequential Monte Carlo）法（Particle filter）により数値解析的に求める内部変数推定処理について説明する（本手法に関しては、Doucet A, de Freitas N and Gordon. N, An introduction to sequential Monte Carlo methods, In Sequential Monte Carlo Methods in Practice, Doucet A, de Freitas N & Gordon N eds, Springer-Verlag, pp.3-14, 2001を参照）。シーケンシャルモンテカルロ法では、事前分布と事後分布とをパーティクルと呼ばれるＮ個のＤｉｒａｃδ関数によって下式のように近似する。ここで、δｘ_ｔ ^（ｉ）（ｘ_ｔ）は、ｘ_ｔ ^（ｉ）を中心とするＤｉｒａｃδ関数である。

図４は、図１に示す内部変数推定装置のシーケンシャルモンテカルロ法による内部変数推定処理を説明するためのフローチャートであり、図５は、図４に示すシーケンシャルモンテカルロ法による内部変数推定処理を模式的に示す図である。

まず、操作者が入力装置１を用いて観測可能な外部変数列ｙ_１：Ｔを入力すると、ＣＰＵ３は、外部変数列ｙ_１：Ｔを取得してＲＡＭ４等に記憶する（ステップＳ１１）。次に、図５のＳｔｅｐ１に示すように、ＣＰＵ３は、時刻ｔを１にセットし、内部変数ｘ_ｔの初期分布パーティクルを初期化する（ステップＳ１２，Ｓ１３）。

次に、図５のＳｔｅｐ２に示すように、ＣＰＵ３は、内部状態の更新則ｐ（ｘ_ｔ｜ｘ_ｔ−１）による事前分布を予測し（ステップＳ１４）、その後、取得した外部変数列ｙ_１：Ｔを用いてベイズ則及び行動選択モデルｐ（ｙ_ｔ｜ｘ_ｔ）によりパーティクルの重み付けを行う（ステップＳ１５）。

次に、図５のＳｔｅｐ３に示すように、ＣＰＵ３は、重み付けに基づいてパーティクルを再サンプリングし、内部変数ｘ_ｔの事後分布を更新する（ステップＳ１６）。このようにして、Ｎ個のパーティクルの位置が式（８）、（９）によって更新される。ここで、ベイズ推定は式（９）の分母の積分計算の計算コストが高いが、シーケンシャルモンテカルロ法では各パーティクルの事後分布で重み付けられた和によって表現できるため、比較的簡単な並列計算によってこの計算を行うことができる。

次に、ＣＰＵ３は、ｔが最終時間Ｔ以上になったか否かを判断し（ステップＳ１７）、ｔが最終時間Ｔ未満の場合にｔをインクリメントして（ステップＳ１８）ステップＳ１４以降の処理を繰り返し、ｔが最終時間Ｔ以上になった場合に推定分布の期待値を算出し（ステップＳ１９）、内部変数の推定値ｘ’_１：Ｔを表示装置６へ出力して推定結果を表示する。

なお、上記の説明では、外部変数の取得処理（ステップＳ１１）において、観測可能な外部変数列ｙ_１：Ｔを予め取得し、一度にすべての内部状態列を推定する処理を例としたが、この例に特に限定されず、逐次的に内部状態ｘ_ｔを推定するため、観測可能な外部変数ｙ_ｔを逐次的に取得するようにしてもよい。この場合、パーティクルの重み付け処理（ステップＳ１５）の直前に、各時刻ｔにおける外部変数ｙ_ｔを入力装置１から取得したり、所定のコンピュータネットワーク等を通じて、同様な構成の他のコンピュータの入力装置によって取得された外部変数を通信装置９を用いて逐次取得するようにしてもよい。また、逐次的に結果を表示する場合には、推定分布の期待値の算出処理（ステップＳ１９）を終了判定処理（ステップＳ１７）より前に移動し、そこで得られた期待値を表示装置６によって表示したり、記録媒体駆動装置７を用いて記録媒体８に記録してもよい。

図６は、図１に示す内部変数推定装置による動物の学習プロセスをモデル化した強化学習モデルと移動平均モデルとの比較結果を示す図である。本例は、サルに対して訓練した強化学習課題においてＱ値及びメタパラメータの推定を行うものであり、既知のメタパラメータを用いた強化学習モデルにこの課題を学習させ、その行動系列を人工データとして推定を行った後、実際のサルの行動データに適用したものである。また、比較対象となる移動平均モデルは、過去ｍ試行の行動選択の移動平均を次の行動選択確率の予測として用いたものである。

図６には、試行数で正規化した１日のデータに対する下記の対数尤度を算出し、その７７日分の平均と標準偏差とが示されており、図中の右側が本発明による強化学習モデルを示し、左側が移動平均モデルを示している。

ここで、ｐ’（ａ_ｔ｜ｘ_ｔ）は推定された内部変数ｘ_ｔのときの実際の行動ａ_ｔに関する予測行動選択確率であり、Ｎは１日の試行数である。なお、移動平均モデルの場合、内部変数ｘ_ｔは過去ｍ試行に行動ａ_ｔを取った割合である。

図６に示すように、移動平均モデルの尤度をｍ＝｛１０，１５，２０，３０，６０｝について計算した結果、最大となるｍ＝２０の尤度がシーケンシャルモンテカルロ法による推定を用いた強化学習モデルよりも低くなり、本発明による強化学習モデルの推定精度が移動平均モデルよりも充分に高いことがわかった。

図７は、脳の活動部位を表すｆＭＲＩ画像を模式的に示す図であり、（ａ）は図１に示す内部変数推定装置により内部変数を推定した場合の画像を示し、（ｂ）は比較例による画像を示している。本発明による強化学習モデルは、４つの状態、２つの行動及び２つの異なる状態遷移ダイナミックス（レギュラー状態、ランダム状態）から構成される４ステップマルコフ決定タスクに適用され、割引率γをも推定して使用されている脳部位を推定するものである。比較例は、様々なパラメータγの値を固定して設定し、内部変数を推定したものと相関のある脳部位を表しており、被験者の用いているγの値がわからないため、各γ値に対して網羅的に調べ、その重ね合わせにより、使用されている脳部位を推定するものである。

図７の右側の各画像に示されるように、本発明による強化学習モデルでは、動物実験などから報酬の予測に関与することが知られている尾状核Ｐ１及び前頭前野内側面Ｐ２のみが有意（ｐ＜０．００１）に相関を持つことがわかった。一方、比較例では、尾状核Ｐ１及び前頭前野内側面Ｐ２も含まれているが他の部位も有意であるという結果となり、求められた活動範囲には、実際の内部変数と相関する脳部位も含まれるが、関係のない部位も含まれた。この結果、本発明による強化学習モデルでは、内部変数を高精度に推定できることがわかった。

また、図７の左側の各画像（δ：報酬予測誤差との相関）に示されるように、比較例では閾値を下げなければ（ｐ＜０．００４）、相関する部位である腹側線条体Ｐ３が見えてこないのに対し、本発明による強化学習モデルでは、値を下げなくても相関する部位である腹側線条体Ｐ３が明瞭に現れた。この結果、本発明による強化学習モデルでは、被験者の内部状態を正確に推定でき、より強い相関を検出することができることがわかった。

上記のように、本実施の形態では、学習者の学習プロセスをモデル化した強化学習モデルの観測可能な外部変数を取得するとともに、学習モデルをベイジアンネットワークにより表現し、取得した外部変数からベイズ推定を用いてシーケンシャルモンテカルロ法により内部変数を推定しているので、学習モデルの直接観測できない内部変数を推定することができる。この結果、推定した内部変数と人間又は動物の脳内の活動計測結果とを比較することにより、脳内情報処理メカニズムを解析することができる。

なお、上記の実施形態では、人間又は動物の脳を対象に説明したが、本発明の適用対象は上記の例に特に限定されず、学習モデルと等価に扱うことができる確率的に変化する他のモデル等にも適用可能である。また、内部変数推定処理も、上記の例に特に限定されず、種々の変更が可能であり、シーケンシャルモンテカルロ法によってすべての隠れ変数やパラメータが推定できない場合にパラメータが持つ初期分布やパラメータのダイナミクスに仮定した探索ノイズの強さ等などのメタメタパラメータを設定したり、事前知識がある場合は初期分布に導入したり、時間と逆方向の推定としてスムーシング等を用いてもよい。

また、本発明の応用例は、上記の例に特に限定されず、種々の応用が可能である。例えば、教育への応用として、学習者の学習進行の程度に応じた問題を提示することにより、学習者の学習意欲を維持させて学習を支援する学習支援装置を作成することができる。また、学習者が用いている内部状態（学習の進み具合）やパラメータ（学習の早さ）等を推定し、これらを用いて人間の教師に近いコンピュータ学習装置を作成することもできる。

さらに、リハビリテーションへの応用として、脳の一部の損傷により機能を失った患者に対して、本発明による自動診断や診断結果を用いて機能回復の程度に応じた訓練を提示することにより、患者の訓練意欲を維持させてリハビリテーションを支援するリハビリテーション支援装置を作成することができる。また、金融への応用として、各ディーラや消費者、企業等の行動モデルを作成し、これらの混合分布として市場をモデル化することにより、市場動向の先行き感を客観的基準で推定する市場予測装置を作成することができる。

本発明の一実施の形態による内部変数推定装置の構成を示すブロック図である。図１に示す内部変数推定装置に用いられる強化学習モデルのベイジアンネットワークの一例を示す図である。他のベイジアンネットワークの例を示す図である。図１に示す内部変数推定装置のシーケンシャルモンテカルロ法による内部変数推定処理を説明するためのフローチャートである。図４に示すシーケンシャルモンテカルロ法による内部変数推定処理を模式的に示す図である。図１に示す内部変数推定装置による動物の学習プロセスをモデル化した強化学習モデルと移動平均モデルとの比較結果を示す図である。脳の活動部位を表すｆＭＲＩ画像を模式的に示す図である。

符号の説明

１入力装置
２ＲＯＭ
３ＣＰＵ
４ＲＡＭ
５外部記憶装置
６表示装置
７記録媒体駆動装置
８記録媒体
９通信装置

Claims

学習者の学習プロセスをモデル化した学習モデルの内部変数を推定する内部変数推定装置であって、
前記学習モデルの観測可能な外部変数を取得する取得手段と、
前記学習モデルをベイジアンネットワークにより表現して前記外部変数からベイズ推定を用いて前記内部変数を推定する推定手段とを備え、
前記外部変数は、学習者の行動を表す変数と、前記行動に対して得られる報酬を表す変数とを含み、
前記内部変数は、行動選択の乱雑さを表すメタパラメータと、学習率を表すメタパラメータと、行動価値関数を表すパラメータとを含み、
前記ベイジアンネットワークは、前記行動を表す変数と、前記報酬を表す変数と、前記行動選択の乱雑さを表すメタパラメータと、前記学習率を表すメタパラメータと、前記行動価値関数を表すパラメータとを含み、
前記推定手段は、前記行動を表す変数及び前記報酬を表す変数からベイズ推定を用いて前記行動選択の乱雑さを表すメタパラメータ、前記学習率を表すメタパラメータ及び前記行動価値関数を表すパラメータを推定することを特徴とすることを特徴とする内部変数推定装置。
前記推定手段は、前記ベイズ推定による内部変数の推定処理をシーケンシャルモンテカルロ法により数値解析的に行うことを特徴とする請求項１記載の内部変数推定装置。
前記学習モデルは、強化学習モデルであることを特徴とする請求項１又は２記載の内部変数推定装置。
前記外部変数は、前記行動を決定したときの環境の状態を表す変数をさらに含み、
前記内部変数は、未来の報酬に対する割引率を表すメタパラメータをさらに含み、
前記ベイジアンネットワークは、前記環境の状態を表す変数と、前記割引率を表すメタパラメータとをさらに含み、
前記推定手段は、前記環境の状態を表す変数、前記行動を表す変数及び前記報酬を表す変数からベイズ推定を用いて前記割引率を表すメタパラメータ、前記行動選択の乱雑さを表すメタパラメータ、前記学習率を表すメタパラメータ及び前記行動価値関数を表すパラメータを推定することを特徴とする請求項１〜３のいずれかに記載の内部変数推定装置。
コンピュータを用いて、学習者の学習プロセスをモデル化した学習モデルの内部変数を推定する内部変数推定方法であって、
前記コンピュータの取得部が、前記学習モデルの観測可能な外部変数を取得するステップと、
前記コンピュータの推定部が、前記学習モデルをベイジアンネットワークにより表現して前記外部変数からベイズ推定を用いて前記内部変数を推定するステップとを含み、
前記外部変数は、学習者の行動を表す変数と、前記行動に対して得られる報酬を表す変数とを含み、
前記内部変数は、行動選択の乱雑さを表すメタパラメータと、学習率を表すメタパラメータと、行動価値関数を表すパラメータとを含み、
前記ベイジアンネットワークは、前記行動を表す変数と、前記報酬を表す変数と、前記行動選択の乱雑さを表すメタパラメータと、前記学習率を表すメタパラメータと、前記行動価値関数を表すパラメータとを含み、
前記内部変数を推定するステップは、前記行動を表す変数及び前記報酬を表す変数からベイズ推定を用いて前記行動選択の乱雑さを表すメタパラメータ、前記学習率を表すメタパラメータ及び前記行動価値関数を表すパラメータを推定するステップを含むことを特徴とする内部変数推定方法。
学習者の学習プロセスをモデル化した学習モデルの内部変数を推定するための内部変数推定プログラムであって、
前記学習モデルの観測可能な外部変数を取得する取得手段と、
前記学習モデルをベイジアンネットワークにより表現して前記外部変数からベイズ推定を用いて前記内部変数を推定する推定手段としてコンピュータを機能させ、
前記外部変数は、学習者の行動を表す変数と、前記行動に対して得られる報酬を表す変数とを含み、
前記内部変数は、行動選択の乱雑さを表すメタパラメータと、学習率を表すメタパラメータと、行動価値関数を表すパラメータとを含み、
前記ベイジアンネットワークは、前記行動を表す変数と、前記報酬を表す変数と、前記行動選択の乱雑さを表すメタパラメータと、前記学習率を表すメタパラメータと、前記行動価値関数を表すパラメータとを含み、
前記推定手段は、前記行動を表す変数及び前記報酬を表す変数からベイズ推定を用いて前記行動選択の乱雑さを表すメタパラメータ、前記学習率を表すメタパラメータ及び前記行動価値関数を表すパラメータを推定することを特徴とする内部変数推定プログラム。