JP3703822B2 - 内部変数推定装置、内部変数推定方法及び内部変数推定プログラム - Google Patents

内部変数推定装置、内部変数推定方法及び内部変数推定プログラム Download PDF

Info

Publication number
JP3703822B2
JP3703822B2 JP2003310408A JP2003310408A JP3703822B2 JP 3703822 B2 JP3703822 B2 JP 3703822B2 JP 2003310408 A JP2003310408 A JP 2003310408A JP 2003310408 A JP2003310408 A JP 2003310408A JP 3703822 B2 JP3703822 B2 JP 3703822B2
Authority
JP
Japan
Prior art keywords
variable
representing
estimation
parameter
internal variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003310408A
Other languages
English (en)
Other versions
JP2005078519A (ja
Inventor
和行 鮫島
賢治 銅谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2003310408A priority Critical patent/JP3703822B2/ja
Publication of JP2005078519A publication Critical patent/JP2005078519A/ja
Application granted granted Critical
Publication of JP3703822B2 publication Critical patent/JP3703822B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、学習者の学習プロセスをモデル化した学習モデルの内部変数を推定する内部変数推定装置、内部変数推定方法及び内部変数推定プログラムに関するものである。
計算論的神経科学は、脳で行っている情報処理過程を計算モデルとして仮定し、そのモデルの振る舞いを解析することにより、生理学実験や心理学実験によって得られるデータを説明し且つ知られていないデータに対する予測を行い、より深く脳の働きを知ろうとするアプローチである。この場合、神経活動の特性に対する計算モデルの妥当性を測定し、計算モデルを評価することが不可欠となる。
上記のアプローチとして、直接観測できる物理量、例えば、刺激強度や運動強度などの直接観測可能な量と神経活動との相関を計算し、計算モデルの妥当性を評価することが行われている(例えば、非特許文献1〜3参照)。このため、従来の計算論的神経科学では、直接観測可能な量と相関が取りやすい、より入力に近い皮質領野である感覚野と、より出力に近い運動野や小脳とから理解が進んできている。
オザワ アイ(Ohzawa I.)他、ニューロフィジオロジージャーナル(Journal of Neurophysiology)、1996年、75(5)、p.1779−p.1805 ゴミ エイチ(Gomi H.)他、ニューロフィジオロジージャーナル(Journal of Neurophysiology)、1998年、80(2)、p.818−p.831 カケイ エス(Kakei S.)他、ネーチャー ニューロサイエンス(Nature Neuroscience)、2001年、4(10)、p.1020−p.1005
しかしながら、記憶や報酬による行動決定などのより高次な脳機能を説明するための学習モデルは、直接観測できない内部状態やパラメータを持つため、上記のアプローチでは、高次な脳機能を説明するための学習モデルの内部状態やパラメータを推定することができない。また、学習系では、パラメータはダイナミックに変化し、その変化は学習率などのメタパラメータに依存する場合があり、上記のアプローチでは、このメタパラメータも推定することができない。
本発明の目的は、学習者の学習プロセスをモデル化した学習モデルの直接観測できない内部変数を推定することができる内部変数推定装置、内部変数推定方法及び内部変数推定プログラムを提供することである。
本発明に係る内部変数推定装置は、学習者の学習プロセスをモデル化した学習モデルの内部変数を推定する内部変数推定装置であって、学習モデルの観測可能な外部変数を取得する取得手段と、学習モデルをベイジアンネットワークにより表現して外部変数からベイズ推定を用いて内部変数を推定する推定手段とを備え、外部変数は、学習者の行動を表す変数と、行動に対して得られる報酬を表す変数とを含み、内部変数は、行動選択の乱雑さを表すメタパラメータと、学習率を表すメタパラメータと、行動価値関数を表すパラメータとを含み、ベイジアンネットワークは、行動を表す変数と、報酬を表す変数と、行動選択の乱雑さを表すメタパラメータと、学習率を表すメタパラメータと、行動価値関数を表すパラメータとを含み、推定手段は、行動を表す変数及び報酬を表す変数からベイズ推定を用いて行動選択の乱雑さを表すメタパラメータ、学習率を表すメタパラメータ及び行動価値関数を表すパラメータを推定するものである。
本発明に係る内部変数推定装置では、学習者の学習プロセスをモデル化した学習モデルの観測可能な外部変数を取得するとともに、学習モデルをベイジアンネットワークにより表現し、取得した外部変数からベイズ推定を用いて内部変数を推定しているので、学習者の学習プロセスをモデル化した学習モデルの直接観測できない内部変数を推定することが
できる。また、メタパラメータも推定することができるので、学習者のより高次な脳機能を正確にモデル化することができる。
推定手段は、ベイズ推定による内部変数の推定処理をシーケンシャルモンテカルロ法により数値解析的に行うことが好ましい。この場合、シーケンシャルモンテカルロ法により数値解析的にベイズ推定を行うことができる。
学習モデルは、強化学習モデルであることが好ましい。この場合、確率的に与えられる報酬を最大化する行動を、試行を通して学習する学習モデルの直接観測できない内部変数を推定することができる。
外部変数は、行動を決定したときの環境の状態を表す変数をさらに含み、内部変数は、未来の報酬に対する割引率を表すメタパラメータをさらに含み、ベイジアンネットワークは、環境の状態を表す変数と、割引率を表すメタパラメータとをさらに含み、推定手段は、環境の状態を表す変数、行動を表す変数及び報酬を表す変数からベイズ推定を用いて割引率を表すメタパラメータ、行動選択の乱雑さを表すメタパラメータ、学習率を表すメタパラメータ及び行動価値関数を表すパラメータを推定することが好ましい。この場合、学習モデルの割引率も推定することができるので、長期の報酬を考慮したより高次な脳機能を正確にモデル化することができる。
本発明に係る内部変数推定方法は、コンピュータを用いて、学習者の学習プロセスをモデル化した学習モデルの内部変数を推定する内部変数推定方法であって、コンピュータの取得部が、学習モデルの観測可能な外部変数を取得するステップと、コンピュータの推定部が、学習モデルをベイジアンネットワークにより表現して外部変数からベイズ推定を用いて内部変数を推定するステップとを含み、外部変数は、学習者の行動を表す変数と、行動に対して得られる報酬を表す変数とを含み、内部変数は、行動選択の乱雑さを表すメタパラメータと、学習率を表すメタパラメータと、行動価値関数を表すパラメータとを含み、ベイジアンネットワークは、行動を表す変数と、報酬を表す変数と、行動選択の乱雑さを表すメタパラメータと、学習率を表すメタパラメータと、行動価値関数を表すパラメータとを含み、内部変数を推定するステップは、行動を表す変数及び報酬を表す変数からベイズ推定を用いて行動選択の乱雑さを表すメタパラメータ、学習率を表すメタパラメータ及び行動価値関数を表すパラメータを推定するステップを含むものである。
本発明に係る内部変数推定プログラムは、学習者の学習プロセスをモデル化した学習モデルの内部変数を推定するための内部変数推定プログラムであって、学習モデルの観測可能な外部変数を取得する取得手段と、学習モデルをベイジアンネットワークにより表現して外部変数からベイズ推定を用いて内部変数を推定する推定手段としてコンピュータを機能させ、外部変数は、学習者の行動を表す変数と、行動に対して得られる報酬を表す変数とを含み、内部変数は、行動選択の乱雑さを表すメタパラメータと、学習率を表すメタパラメータと、行動価値関数を表すパラメータとを含み、ベイジアンネットワークは、行動を表す変数と、報酬を表す変数と、行動選択の乱雑さを表すメタパラメータと、学習率を表すメタパラメータと、行動価値関数を表すパラメータとを含み、推定手段は、行動を表す変数及び報酬を表す変数からベイズ推定を用いて行動選択の乱雑さを表すメタパラメータ、学習率を表すメタパラメータ及び行動価値関数を表すパラメータを推定するものである。
本発明によれば、学習者の学習プロセスをモデル化した学習モデルの観測可能な外部変数を取得するとともに、学習モデルをベイジアンネットワークにより表現し、取得した外部変数から学習ベイズ推定を用いて内部変数を推定しているので、学習者の学習プロセスをモデル化した学習モデルの直接観測できない内部変数を推定することができる。
以下、本発明の一実施の形態による内部変数推定装置について図面を参照しながら説明する。図1は、本発明の一実施の形態による内部変数推定装置の構成を示すブロック図である。
図1に示す内部変数推定装置は、通常のコンピュータ等から構成され、入力装置1、ROM(リードオンリメモリ)2、CPU(中央演算処理装置)3、RAM(ランダムアクセスメモリ)4、外部記憶装置5、表示装置6、記録媒体駆動装置7及び通信装置9を備える。各ブロックは内部のバスを介して接続され、このバスを介して種々のデータ等が入出力され、CPU3の制御の下、種々の処理が実行される。
入力装置1は、キーボード、マウス等から構成され、操作者が種々のデータ及び操作指令等を入力するために使用される。例えば、入力装置1は、操作者が入力した外部変数である観測可能な状態及び行動等のデータを取得し、CPU3の制御の下、RAM4又は外部記憶装置5に出力する。なお、外部変数の取得方法は、上記の例に特に限定されず、外部変数が後述する記録媒体8に記録されている場合、記録媒体駆動装置7を用いて外部変数を取得するようにしてもよいし、所定のセンサ及び計測装置等と図1に示す内部変数推定装置とが所定の通信規格に適合したインターフェースボード等から構成される通信装置9を介して通信可能に接続されている場合、計測装置等から通信装置9を介して外部変数を取得するようにしてもよい。
ROM2には、BIOS(Basic Input/Output System)等のシステムプログラム等が記憶される。外部記憶装置5は、ハードディスクドライブ等から構成され、外部記憶装置5には所定のOS(Operating System)及び後述する内部変数推定プログラム等が記憶される。CPU3は、外部記憶装置5から内部変数推定プログラム等を読み出し、後述する内部変数推定処理等を実行し、各ブロックの動作を制御する。RAM4は、CPU3の作業領域等として用いられる。
CPU3は、学習者の学習プロセスをモデル化した学習モデルをベイジアンネットワークにより表現し、入力装置1により取得された外部変数からベイズ推定を用いて観測不可能な内部変数を推定する。このとき、CPU3は、学習モデルとして強化学習モデルを用い、シーケンシャルモンテカルロ(Sequential Monte Carlo)法(Particle filter)によりベイズ推定を行い、内部変数として学習モデルの内部状態及びメタパラメータを推定する。
表示装置6は、液晶表示装置等から構成され、CPU3の制御の下に種々の操作画面及び推定結果画面等を表示する。また、必要に応じて推定結果等を印字する印刷装置を付加してもよい。
記録媒体駆動装置7は、DVDドライブ、CD−ROMドライブ、フレキシブルディスクドライブ等から構成される。なお、内部変数推定プログラムを、CD−ROM、DVD−ROM等のコンピュータ読み取り可能な記録媒体8に記録し、記録媒体駆動装置7により記録媒体8から内部変数推定プログラムを読み出して外部記憶装置5にインストールして実行するようにしてもよい。また、所定のネットワークを介して図1に示す内部変数推定装置に接続された他のコンピュータ等に内部変数推定プログラムが記憶されている場合、通信装置9を用い、当該コンピュータからネットワークを介して内部変数推定プログラムをダウンロードして実行するようにしてもよい。
本実施の形態では、入力装置1及びCPU3が取得手段に相当し、CPU3等が推定手段に相当する。
次に、図1に示す内部変数推定装置に用いられる強化学習モデルについて説明する。確率的に与えられる報酬を最大化する行動を、試行を通して学習するモデルとして強化学習モデルがある。強化学習モデルは、ある時刻tにおいて環境の状態sを観測し、その状態に対して行動aを決定したときに、報酬rが得られるような環境で長期にわたる報酬の期待値を最大化するような行動aの系列を学習するものである。本実施の形態では、強化学習モデルとして、ある状態sからある行動aをとった後に得られる長期報酬の期待値である下記の行動価値関数Q(s,a)を自らの試行を通じて学習するQ−学習を用いている。
ここで、γは未来の報酬に対する割引率であり、人間又は動物がどれだけ長期の報酬を考慮して行動を決定するのかを決めるメタパラメータであり、0≦γ≦1である。
理想的な行動価値関数の値(Q値)に関して、現在の状態の行動価値関数と次の状態の行動価値関数との間に以下の関係が成り立つ。
上記の関係を成り立たせるために、下記の時間差誤差(TD誤差)を用いると、
Q値は、下記の更新則によって学習される。ここで、αは、学習率を表すメタパラメータであり、0<α<1である。
本実施の形態では、上記のQ値を基に人間又は動物が行動を確率的に選択するとして学習者の学習プロセスをモデル化している。また、確率選択として、例えば、下記のボルツマン選択を用いることができる。ここで、βはボルツマン分布の逆温度メタパラメータであり、行動選択の乱雑さを決定し、β>0である。
なお、本発明に用いられる学習モデルは、上記の例に特に限定されず、他の学習モデルを用いてもよい。
次に、ベイズ推定による内部変数の推定処理について説明する。本実施の形態では、観測可能な外部変数である行動選択系列からパラメータQ値およびメタパラメータα、β、γの系列をベイズ推定の枠組みを用いて推定しており、まず、ベイズ推定による内部変数の推定原理について説明する。
ベイズ推定の枠組みでは、過去のデータから推定された事前分布と現在の観測データを用いて、以下に説明するようにベイズ則を用いて事後分布を更新することによって、より確実な推定分布を求めていく。学習モデルは、内部状態やパラメータなどの観測できない内部変数列を{x;t∈N}、観測可能な外部変数を{y;t∈N}として、(1)内部変数xの初期分布p(x)、(2)ダイナミクスを表す状態遷移確率p(xt+1|x)、(3)内部変数xから観測可能な外部変数yを決める観測分布p(y|x)の3種類の確率分布により与えられる。ここで、観測系列y1:t≡{y,…,y}が与えられたときに、内部変数列x0:t≡{x,…,x}の分布p(x0:t|y1:t)を推定する。
すなわち、ある時刻tにおける内部変数の事後分布は、ベイズの定理から下式で与えられる。
この結合分布は、時刻にともなう再帰的計算で更新することができ、次の時刻t+1の分布は、下式で与えられる。
同様にして、周辺分布p(x|y1:t)も下式を再帰的に計算することによって求めることができる。
上記ベイズ推定によってQ値及びメタパラメータを推定するためには、まず各変数間の確率的な依存関係を明確にモデル化する必要があり、本実施の形態では、下記のベイジアンネットワークを用いている。図2は、図1に示す内部変数推定装置に用いられる強化学習モデルのベイジアンネットワークの一例を示す図である。
強化学習モデルは、図2に示す動的ベイジアンネットワークにより表現され、この動的ベイジアンネットワークは、変数の確率的な依存関係を表現する上で有用である。図2において、丸ブロックは連続変数を示し、四角ブロックは離散値変数を示し、このうち二重線ブロックは観測可能な変数を示し、一重線ブロックは隠れた変数を示している。また、太い実線の矢印はメタパラメータのダイナミックスを示し、破線の矢印は更新の流れを示し、一点鎖線の矢印は行動決定の流れを示し、二点鎖線の矢印は報酬プロセスの流れを示し、二重線の矢印は状態遷移を示している。
図2に示すように、現在の行動aは、現在の状態s、現在の近似的なQ値Q及び現在の逆温度パラメータβによって決定される。報酬rは、環境の報酬プロセスによって決定され、状態sは、環境のダイナミックスによって遷移する。強化学習モデルにおいて現在の状態及び行動と次の状態とは更新に使用され、割引率γ及び学習率αはこの項に影響する。全てのメタパラメータα,β,γは、ランダムウォークモデルによって少量変化する。
なお、本発明に用いられるベイジアンネットワークは、上記の例に特に限定されず、他のベイジアンネットワークを用いることもできる。図3は、他のベイジアンネットワークの例を示す図である。図3では、簡略化のため、状態sは固定され、γ=0の場合を示し、(a)は、メタパラメータを状態遷移に入れた場合の強化学習モデルのベイジアンネットワークを示し、(b)は、メタパラメータを内部変数と考えた場合の強化学習モデルのベイジアンネットワークを示している。
図3の(a)の例では、内部変数はx=(Q(a),Q(a),…,Q(a))(ここで、nは取り得る行動の候補数)であり、観測可能な外部変数はy=(a,r)であり、Q値の現在の値と行動a及び報酬rとからTD誤差δTDが計算される。Q値に関する状態遷移確率p(xt+1|x)は、式(4)によりTD誤差δTD及びαによって与えられる。また、観測分布p(y|x)のうち行動aは式(5)の分布に従ってQ値及びβに依存して選択され、報酬rは行動に依存して課題に応じた既知のP(r|a)により与えられる。
図3の(b)の例は、メタパラメータα,βを内部変数に含め、x=(Q(a),Q(a),…,Q(a),α,β)と拡張し、メタパラメータα,βを同時に推定する。ここで、メタパラメータの状態遷移は未知であるため、ランダムウォークモデルを状態遷移確率p(xt+1|x)とする。また、メタパラメータは常に正の値であるため、下記のように、その値を対数空間での遷移とする。
ここで、σαは、メタパラメータの変動の大きさを表すメタメタパラメータであり、βに関しても同様に状態遷移をモデル化できる。なお、Q値とメタパラメータの初期分布p(x)は、事前知識がないため、広い範囲を覆える正規分布を仮定する。
次に、上記のベイズ推定をシーケンシャルモンテカルロ(Sequential Monte Carlo)法(Particle filter)により数値解析的に求める内部変数推定処理について説明する(本手法に関しては、Doucet A, de Freitas N and Gordon. N, An introduction to sequential Monte Carlo methods, In Sequential Monte Carlo Methods in Practice, Doucet A, de Freitas N & Gordon N eds, Springer-Verlag, pp.3-14, 2001を参照)。シーケンシャルモンテカルロ法では、事前分布と事後分布とをパーティクルと呼ばれるN個のDiracδ関数によって下式のように近似する。ここで、δx (i)(x)は、x (i)を中心とするDiracδ関数である。
図4は、図1に示す内部変数推定装置のシーケンシャルモンテカルロ法による内部変数推定処理を説明するためのフローチャートであり、図5は、図4に示すシーケンシャルモンテカルロ法による内部変数推定処理を模式的に示す図である。
まず、操作者が入力装置1を用いて観測可能な外部変数列y1:Tを入力すると、CPU3は、外部変数列y1:Tを取得してRAM4等に記憶する(ステップS11)。次に、図5のStep1に示すように、CPU3は、時刻tを1にセットし、内部変数xの初期分布パーティクルを初期化する(ステップS12,S13)。
次に、図5のStep2に示すように、CPU3は、内部状態の更新則p(x|xt−1)による事前分布を予測し(ステップS14)、その後、取得した外部変数列y1:Tを用いてベイズ則及び行動選択モデルp(y|x)によりパーティクルの重み付けを行う(ステップS15)。
次に、図5のStep3に示すように、CPU3は、重み付けに基づいてパーティクルを再サンプリングし、内部変数xの事後分布を更新する(ステップS16)。このようにして、N個のパーティクルの位置が式(8)、(9)によって更新される。ここで、ベイズ推定は式(9)の分母の積分計算の計算コストが高いが、シーケンシャルモンテカルロ法では各パーティクルの事後分布で重み付けられた和によって表現できるため、比較的簡単な並列計算によってこの計算を行うことができる。
次に、CPU3は、tが最終時間T以上になったか否かを判断し(ステップS17)、tが最終時間T未満の場合にtをインクリメントして(ステップS18)ステップS14以降の処理を繰り返し、tが最終時間T以上になった場合に推定分布の期待値を算出し(ステップS19)、内部変数の推定値x’1:Tを表示装置6へ出力して推定結果を表示する。
なお、上記の説明では、外部変数の取得処理(ステップS11)において、観測可能な外部変数列y1:Tを予め取得し、一度にすべての内部状態列を推定する処理を例としたが、この例に特に限定されず、逐次的に内部状態xを推定するため、観測可能な外部変数yを逐次的に取得するようにしてもよい。この場合、パーティクルの重み付け処理(ステップS15)の直前に、各時刻tにおける外部変数yを入力装置1から取得したり、所定のコンピュータネットワーク等を通じて、同様な構成の他のコンピュータの入力装置によって取得された外部変数を通信装置9を用いて逐次取得するようにしてもよい。また、逐次的に結果を表示する場合には、推定分布の期待値の算出処理(ステップS19)を終了判定処理(ステップS17)より前に移動し、そこで得られた期待値を表示装置6によって表示したり、記録媒体駆動装置7を用いて記録媒体8に記録してもよい。
図6は、図1に示す内部変数推定装置による動物の学習プロセスをモデル化した強化学習モデルと移動平均モデルとの比較結果を示す図である。本例は、サルに対して訓練した強化学習課題においてQ値及びメタパラメータの推定を行うものであり、既知のメタパラメータを用いた強化学習モデルにこの課題を学習させ、その行動系列を人工データとして推定を行った後、実際のサルの行動データに適用したものである。また、比較対象となる移動平均モデルは、過去m試行の行動選択の移動平均を次の行動選択確率の予測として用いたものである。
図6には、試行数で正規化した1日のデータに対する下記の対数尤度を算出し、その77日分の平均と標準偏差とが示されており、図中の右側が本発明による強化学習モデルを示し、左側が移動平均モデルを示している。
ここで、p’(a|x)は推定された内部変数xのときの実際の行動aに関する予測行動選択確率であり、Nは1日の試行数である。なお、移動平均モデルの場合、内部変数xは過去m試行に行動aを取った割合である。
図6に示すように、移動平均モデルの尤度をm={10,15,20,30,60}について計算した結果、最大となるm=20の尤度がシーケンシャルモンテカルロ法による推定を用いた強化学習モデルよりも低くなり、本発明による強化学習モデルの推定精度が移動平均モデルよりも充分に高いことがわかった。
図7は、脳の活動部位を表すfMRI画像を模式的に示す図であり、(a)は図1に示す内部変数推定装置により内部変数を推定した場合の画像を示し、(b)は比較例による画像を示している。本発明による強化学習モデルは、4つの状態、2つの行動及び2つの異なる状態遷移ダイナミックス(レギュラー状態、ランダム状態)から構成される4ステップマルコフ決定タスクに適用され、割引率γをも推定して使用されている脳部位を推定するものである。比較例は、様々なパラメータγの値を固定して設定し、内部変数を推定したものと相関のある脳部位を表しており、被験者の用いているγの値がわからないため、各γ値に対して網羅的に調べ、その重ね合わせにより、使用されている脳部位を推定するものである。
図7の右側の各画像に示されるように、本発明による強化学習モデルでは、動物実験などから報酬の予測に関与することが知られている尾状核P1及び前頭前野内側面P2のみが有意(p<0.001)に相関を持つことがわかった。一方、比較例では、尾状核P1及び前頭前野内側面P2も含まれているが他の部位も有意であるという結果となり、求められた活動範囲には、実際の内部変数と相関する脳部位も含まれるが、関係のない部位も含まれた。この結果、本発明による強化学習モデルでは、内部変数を高精度に推定できることがわかった。
また、図7の左側の各画像(δ:報酬予測誤差との相関)に示されるように、比較例では閾値を下げなければ(p<0.004)、相関する部位である腹側線条体P3が見えてこないのに対し、本発明による強化学習モデルでは、値を下げなくても相関する部位である腹側線条体P3が明瞭に現れた。この結果、本発明による強化学習モデルでは、被験者の内部状態を正確に推定でき、より強い相関を検出することができることがわかった。
上記のように、本実施の形態では、学習者の学習プロセスをモデル化した強化学習モデルの観測可能な外部変数を取得するとともに、学習モデルをベイジアンネットワークにより表現し、取得した外部変数からベイズ推定を用いてシーケンシャルモンテカルロ法により内部変数を推定しているので、学習モデルの直接観測できない内部変数を推定することができる。この結果、推定した内部変数と人間又は動物の脳内の活動計測結果とを比較することにより、脳内情報処理メカニズムを解析することができる。
なお、上記の実施形態では、人間又は動物の脳を対象に説明したが、本発明の適用対象は上記の例に特に限定されず、学習モデルと等価に扱うことができる確率的に変化する他のモデル等にも適用可能である。また、内部変数推定処理も、上記の例に特に限定されず、種々の変更が可能であり、シーケンシャルモンテカルロ法によってすべての隠れ変数やパラメータが推定できない場合にパラメータが持つ初期分布やパラメータのダイナミクスに仮定した探索ノイズの強さ等などのメタメタパラメータを設定したり、事前知識がある場合は初期分布に導入したり、時間と逆方向の推定としてスムーシング等を用いてもよい。
また、本発明の応用例は、上記の例に特に限定されず、種々の応用が可能である。例えば、教育への応用として、学習者の学習進行の程度に応じた問題を提示することにより、学習者の学習意欲を維持させて学習を支援する学習支援装置を作成することができる。また、学習者が用いている内部状態(学習の進み具合)やパラメータ(学習の早さ)等を推定し、これらを用いて人間の教師に近いコンピュータ学習装置を作成することもできる。
さらに、リハビリテーションへの応用として、脳の一部の損傷により機能を失った患者に対して、本発明による自動診断や診断結果を用いて機能回復の程度に応じた訓練を提示することにより、患者の訓練意欲を維持させてリハビリテーションを支援するリハビリテーション支援装置を作成することができる。また、金融への応用として、各ディーラや消費者、企業等の行動モデルを作成し、これらの混合分布として市場をモデル化することにより、市場動向の先行き感を客観的基準で推定する市場予測装置を作成することができる。
本発明の一実施の形態による内部変数推定装置の構成を示すブロック図である。 図1に示す内部変数推定装置に用いられる強化学習モデルのベイジアンネットワークの一例を示す図である。 他のベイジアンネットワークの例を示す図である。 図1に示す内部変数推定装置のシーケンシャルモンテカルロ法による内部変数推定処理を説明するためのフローチャートである。 図4に示すシーケンシャルモンテカルロ法による内部変数推定処理を模式的に示す図である。 図1に示す内部変数推定装置による動物の学習プロセスをモデル化した強化学習モデルと移動平均モデルとの比較結果を示す図である。 脳の活動部位を表すfMRI画像を模式的に示す図である。
符号の説明
1 入力装置
2 ROM
3 CPU
4 RAM
5 外部記憶装置
6 表示装置
7 記録媒体駆動装置
8 記録媒体
9 通信装置

Claims (6)

  1. 学習者の学習プロセスをモデル化した学習モデルの内部変数を推定する内部変数推定装置であって、
    前記学習モデルの観測可能な外部変数を取得する取得手段と、
    前記学習モデルをベイジアンネットワークにより表現して前記外部変数からベイズ推定を用いて前記内部変数を推定する推定手段とを備え
    前記外部変数は、学習者の行動を表す変数と、前記行動に対して得られる報酬を表す変数とを含み、
    前記内部変数は、行動選択の乱雑さを表すメタパラメータと、学習率を表すメタパラメータと、行動価値関数を表すパラメータとを含み、
    前記ベイジアンネットワークは、前記行動を表す変数と、前記報酬を表す変数と、前記行動選択の乱雑さを表すメタパラメータと、前記学習率を表すメタパラメータと、前記行動価値関数を表すパラメータとを含み、
    前記推定手段は、前記行動を表す変数及び前記報酬を表す変数からベイズ推定を用いて前記行動選択の乱雑さを表すメタパラメータ、前記学習率を表すメタパラメータ及び前記行動価値関数を表すパラメータを推定することを特徴とすることを特徴とする内部変数推定装置。
  2. 前記推定手段は、前記ベイズ推定による内部変数の推定処理をシーケンシャルモンテカルロ法により数値解析的に行うことを特徴とする請求項1記載の内部変数推定装置。
  3. 前記学習モデルは、強化学習モデルであることを特徴とする請求項1又は2記載の内部変数推定装置。
  4. 前記外部変数は、前記行動を決定したときの環境の状態を表す変数をさらに含み、
    前記内部変数は、未来の報酬に対する割引率を表すメタパラメータをさらに含み、
    前記ベイジアンネットワークは、前記環境の状態を表す変数と、前記割引率を表すメタパラメータとをさらに含み、
    前記推定手段は、前記環境の状態を表す変数、前記行動を表す変数及び前記報酬を表す変数からベイズ推定を用いて前記割引率を表すメタパラメータ、前記行動選択の乱雑さを表すメタパラメータ、前記学習率を表すメタパラメータ及び前記行動価値関数を表すパラメータを推定することを特徴とする請求項1〜3のいずれかに記載の内部変数推定装置。
  5. コンピュータを用いて、学習者の学習プロセスをモデル化した学習モデルの内部変数を推定する内部変数推定方法であって、
    前記コンピュータの取得部が、前記学習モデルの観測可能な外部変数を取得するステップと、
    前記コンピュータの推定部が、前記学習モデルをベイジアンネットワークにより表現して前記外部変数からベイズ推定を用いて前記内部変数を推定するステップとを含み、
    前記外部変数は、学習者の行動を表す変数と、前記行動に対して得られる報酬を表す変数とを含み、
    前記内部変数は、行動選択の乱雑さを表すメタパラメータと、学習率を表すメタパラメータと、行動価値関数を表すパラメータとを含み、
    前記ベイジアンネットワークは、前記行動を表す変数と、前記報酬を表す変数と、前記行動選択の乱雑さを表すメタパラメータと、前記学習率を表すメタパラメータと、前記行動価値関数を表すパラメータとを含み、
    前記内部変数を推定するステップは、前記行動を表す変数及び前記報酬を表す変数からベイズ推定を用いて前記行動選択の乱雑さを表すメタパラメータ、前記学習率を表すメタパラメータ及び前記行動価値関数を表すパラメータを推定するステップを含むことを特徴とする内部変数推定方法。
  6. 学習者の学習プロセスをモデル化した学習モデルの内部変数を推定するための内部変数推定プログラムであって、
    前記学習モデルの観測可能な外部変数を取得する取得手段と、
    前記学習モデルをベイジアンネットワークにより表現して前記外部変数からベイズ推定を用いて前記内部変数を推定する推定手段としてコンピュータを機能させ、
    前記外部変数は、学習者の行動を表す変数と、前記行動に対して得られる報酬を表す変数とを含み、
    前記内部変数は、行動選択の乱雑さを表すメタパラメータと、学習率を表すメタパラメータと、行動価値関数を表すパラメータとを含み、
    前記ベイジアンネットワークは、前記行動を表す変数と、前記報酬を表す変数と、前記行動選択の乱雑さを表すメタパラメータと、前記学習率を表すメタパラメータと、前記行動価値関数を表すパラメータとを含み、
    前記推定手段は、前記行動を表す変数及び前記報酬を表す変数からベイズ推定を用いて前記行動選択の乱雑さを表すメタパラメータ、前記学習率を表すメタパラメータ及び前記行動価値関数を表すパラメータを推定することを特徴とする内部変数推定プログラム。
JP2003310408A 2003-09-02 2003-09-02 内部変数推定装置、内部変数推定方法及び内部変数推定プログラム Expired - Fee Related JP3703822B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003310408A JP3703822B2 (ja) 2003-09-02 2003-09-02 内部変数推定装置、内部変数推定方法及び内部変数推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003310408A JP3703822B2 (ja) 2003-09-02 2003-09-02 内部変数推定装置、内部変数推定方法及び内部変数推定プログラム

Publications (2)

Publication Number Publication Date
JP2005078519A JP2005078519A (ja) 2005-03-24
JP3703822B2 true JP3703822B2 (ja) 2005-10-05

Family

ID=34412290

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003310408A Expired - Fee Related JP3703822B2 (ja) 2003-09-02 2003-09-02 内部変数推定装置、内部変数推定方法及び内部変数推定プログラム

Country Status (1)

Country Link
JP (1) JP3703822B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4929449B2 (ja) 2005-09-02 2012-05-09 国立大学法人横浜国立大学 強化学習装置および強化学習方法
KR102132529B1 (ko) * 2018-07-31 2020-07-09 한국과학기술원 뇌 기반 인공지능 기술을 이용한 행동 및 신경 수준에서의 인간의 학습/추론 과정 비침습적 제어 방법 및 시스템
CN111859946B (zh) * 2019-04-22 2023-09-29 百度在线网络技术(北京)有限公司 对评论进行排序的方法和装置及机器可读存储介质
WO2021033315A1 (ja) 2019-08-22 2021-02-25 日本電気株式会社 ロボット制御システム、ロボット制御方法、及び、記録媒体
WO2021105716A1 (en) 2019-11-27 2021-06-03 Instadeep Ltd Electrical circuit design
GB2589352A (en) * 2019-11-27 2021-06-02 Instadeep Ltd Electrical circuit design
GB2589353A (en) * 2019-11-27 2021-06-02 Instadeep Ltd Electrical circuit design
GB2589351A (en) * 2019-11-27 2021-06-02 Instadeep Ltd Machine learning

Also Published As

Publication number Publication date
JP2005078519A (ja) 2005-03-24

Similar Documents

Publication Publication Date Title
Reddy et al. Where do you think you're going?: Inferring beliefs about dynamics from behavior
CN110119844B (zh) 引入情绪调控机制的机器人运动决策方法、系统、装置
Daunizeau et al. VBA: a probabilistic treatment of nonlinear models for neurobiological and behavioural data
Ossen et al. Heterogeneity in car-following behavior: Theory and empirics
Hula et al. Monte carlo planning method estimates planning horizons during interactive social exchange
JP3703822B2 (ja) 内部変数推定装置、内部変数推定方法及び内部変数推定プログラム
CN104182378A (zh) 信息处理设备、信息处理方法以及程序
JP2021501433A (ja) ターゲットシステム用制御システムの生成
Shokri Knowledge of opposite actions for reinforcement learning
Ma et al. Statistical learning and adaptive decision-making underlie human response time variability in inhibitory control
WO2020235631A1 (ja) モデル生成装置、システム、パラメータ算出装置、モデル生成方法、パラメータ算出方法および記録媒体
Molter et al. GLAMbox: A Python toolbox for investigating the association between gaze allocation and decision behaviour
WO2021090413A1 (ja) 制御装置、制御システム、制御方法及びプログラム
JP2020086778A (ja) 機械学習モデル構築装置および機械学習モデル構築方法
EP4315008A1 (en) Improved health management through causal relationship based feedback on behavior and health metrics captured by iot
Liu Leave-group-out cross-validation for latent Gaussian models
Sequeira Socio-emotional reward design for intrinsically motivated learning agents
JP6818701B2 (ja) 状態遷移予測モデル学習装置、方法およびプログラム
WO2020235625A1 (ja) モデル生成装置、パラメータ算出装置、モデル生成方法、パラメータ算出方法および記録媒体
Turner et al. A tutorial on joint modeling
WO2023026342A1 (ja) 動作規則決定装置、動作規則決定方法および記録媒体
KR102590791B1 (ko) 불확실성 조건부 심층 강화 학습 방법 및 그 처리 장치
WO2022234625A1 (ja) 推定装置、推定方法および記録媒体
CN116779150B (zh) 基于多智能体互动的个性化医疗决策方法、装置及应用
Shokri et al. The concept of opposition and its use in Q-learning and Q (λ) techniques

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050412

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050720

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees