JP2021192141A

JP2021192141A - 学習装置、学習方法、および学習プログラム

Info

Publication number: JP2021192141A
Application number: JP2020098286A
Authority: JP
Inventors: 康夫國吉; Yasuo Kuniyoshi; 諒也荻島; Ryoya Ogishima; 泉実狩野; Izumi Karino
Original assignee: University of Tokyo NUC
Current assignee: University of Tokyo NUC
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2021-12-16

Abstract

【課題】エージェントを制御するための学習モデルの学習装置を提供する。【解決手段】学習装置は、エキスパートデータ取得部と、エージェントデータ取得部と、エージェントの状態に対してエージェントがどう動くべきかを記述した方策の事前分布に関する自由エネルギーを算出し、エキスパートデータに基づいて第１期待自由エネルギーを算出し、エージェントデータに基づいて第２期待自由エネルギーを算出する自由エネルギー算出部と、自由エネルギーの最小化により事前分布を更新し、第１期待自由エネルギーの最小化により事後分布が事前分布に一致するように事後分布を更新することで模倣学習を行い、第２期待自由エネルギーの最小化により将来の報酬値の最大化をするように事後分布を更新することで強化学習を行うことにより、学習モデルの学習を行う学習部と、を備える。【選択図】図２０

Description

本発明は、学習装置、学習方法、および学習プログラムに関する。

ロボット学習は、すでにタスクを達成できるエキスパートの真似により行動獲得を目指す模倣学習、環境の中で試行錯誤をする中で高い報酬値を得られる良い行動戦略を自ら学んでいく強化学習の二つに分けられる。

模倣学習はエキスパートが不完全な場合により最適な行動を獲得するのが難しいこと、エキスパートとは異なる環境や外乱等への適応能力が低いことが課題である。強化学習は報酬値を低頻度でしか与えないスパース報酬系で探索量が膨大になり現実的な時間で最適解を見つけるのが難しいこと、必ずしも高い報酬値に向けて報酬関数を最適化した結果がロボットに動いて欲しい結果と一致するとは限らないことが課題である。

本発明者らは、エキスパートから効率的な行動例を教わりながら学習できる模倣学習と、自らが世界を探索して新しい情報にもロバストに対処していく強化学習の組み合わせを実現することが必要であると考えた。

上記を鑑みて、本発明は、模倣学習と強化学習を同時に行う新しい手法を提案することを目的とする。

本発明のある態様は、エージェントを制御するための学習モデルの学習装置であって、エキスパートの行動によって変化し得る、前記エキスパート自身およびその環境の状態について前記エキスパートにより観測されたある時刻における観測値と、ある時刻における観測値に対する前記エキスパートの行動と、前記エキスパートの行動の結果として前記エキスパート自身およびその環境の状態について前記エキスパートにより観測された次の時刻における観測値とを含むエキスパートデータを取得するエキスパートデータ取得部と、前記エージェントの行動によって変化し得る、前記エージェント自身およびその環境の状態について前記エージェントにより観測されたある時刻における観測値と、ある時刻における観測値に対する前記エージェントの行動と、前記エージェントの行動を通じて得られた報酬値と、前記エージェントの行動の結果として前記エージェント自身およびその環境の状態について前記エージェントにより観測された次の時刻における観測値とを含むエージェントデータを取得するエージェントデータ取得部と、前記エージェント自身およびその環境の状態に対して前記エージェントがどう動くべきかを記述した方策の事前分布に関する自由エネルギーを算出し、前記エキスパートデータ及び前記エージェントデータをそれぞれ前記エキスパートデータ及び前記エージェントデータの確率分布からサンプリングした結果として捉えたときに、前記エキスパートデータに基づいて前記自由エネルギーの前記事前分布及び前記方策の事後分布に関する期待値である第１期待自由エネルギーを算出し、前記エージェントデータに基づく前記期待値である第２期待自由エネルギーを算出する自由エネルギー算出部と、前記自由エネルギーの最小化により前記事前分布を更新し、前記第１期待自由エネルギーの最小化により前記事後分布が前記事前分布に一致するように前記事後分布を更新することで模倣学習を行い、前記第２期待自由エネルギーの最小化により将来の前記報酬値の最大化をするように前記事後分布を更新することで強化学習を行うことにより、前記学習モデルの学習を行う学習部と、を備える。
。

本発明のある態様では、時刻ｔにおいて、前記観測値をｏ_ｔ、隠れ変数をｓ_ｔ、前記報酬値をｒ、前記自由エネルギーをＦ_ｔ、前記第１及び第２期待自由エネルギーをＧ_ｔ、前記事前分布をｐ、前記事後分布をｑ、割引率をγ、カルバックライブラー情報量をＤ_ＫＬ、前記期待値を

、エントロピーを

すると、前記学習部は、

の値を最小化するように、前記学習モデルの前記学習を行い、前記自由エネルギーＦ_ｔは、

であり、前記第１期待自由エネルギーは

であり、前記第２期待自由エネルギーは

である。

本発明のある態様では、前記状態は複数の次元を有するデータであり、前記行動は連続行動空間におけるタスクである。ここで一例として挙げるのは、前記観測値は画像観測値であり、前記行動はロボットアームの関節角指令であるが、これに限定されるものではない。ロボット制御の場合で言えば、観測値は任意の多次元のセンサ値とそれらの必要な階数の時間微分値などがあり、行動には速度指令や関節トルク指令など様々なものが考えられる。

なお、以上の構成要素の任意の組合せ、本発明の表現を装置、方法、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、模倣による探索の効率化と強化学習による新規環境への適応及び外乱等へのロバスト性の長所を兼ね備えた手法を実現することが可能となる。

図１は、Predictive Codingを説明するための図である。図２は、モデルベースのアーキテクチャを示す図である。図３は、世界モデルを例示する図である。図４は、Universal Planning Networksを例示する図である。図５は、本発明者らの卒業論文の提案モデルを示す図である。図６は、Recurrent State Space Modelを例示する図である。図７は、提案モデルであるDeepFEを例示する図である。左側は、手元のデータを用いて自由エネルギーを計算する方法を示す。右側は、latent imaginationを用いて期待自由エネルギーを計算する方法を示す。図８は、シンプルなDeepFEのグラフィカルモデルを例示する図である。図９は、DeepMind Control Suiteのタスクを示す。図９（ａ）はCheetah-runを示し、図９（ｂ）はWalker-walkを示す。図１０は、PlaNetでのエキスパート学習曲線を例示する図である。図１０（ａ）はCheetah-runの場合を示し、図１０（ｂ）はWalker-walkの場合を示す。図１１は、シンプルなDeepFEを用いた模倣学習を例示する図である。図１１（ａ）はCheetah-runの場合を示し、図１１（ｂ）はWalker-walkの場合を示す。図１２は、DeepFEを用いた模倣学習を例示する図である。図１２（ａ）はCheetah-runの場合を示し、図１２（ｂ）はWalker-walkの場合を示す。図１３は、DeepFEの模倣（Cheetah-run）のエキスパートサイズ分析を例示する図である。図１４は、DeepFEの強化学習（Cheetah-run）のホライズン距離分析を例示する図である。図１５は、DeepFEの事前模倣学習（Cheetah-run）でのＲＬを例示する図である。図１６は、DeepFEでの模倣ＲＬを例示する図である。図１６（ａ）はCheetah-runの場合を示し、図１６（ｂ）はWalker-walkの場合を示す。図１７は、不完全なエキスパート（Cheetah-run）での模倣ＲＬ DeepFEを例示する図である。ノイズが発生するテスト環境（Cheetah-run）での模倣ＲＬ DeepFEを例示する図である。図１８（ａ）はノイズstdが０．１の場合を示し、図１８（ｂ）はノイズstdが０．２の場合を示す。スパース報酬系における模倣ＲＬ DeepFEを例示する図である。図１９（ａ）はCheetah-runの場合を示し、図１９（ｂ）はWalker-walkの場合を示す。本発明の実施形態に係る学習装置の構成を例示する図である。本発明の実施形態に係る学習方法のフローチャートを例示する図である。

以下、本発明を好適な実施の形態をもとに図面を参照しながら説明する。各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。また、実施の形態は、発明を限定するものではなく例示であって、実施の形態に記述されるすべての特徴やその組み合わせは、必ずしも発明の本質的なものであるとは限らない。

第１章序論
１．１背景
ロボットはセンサ入力を通じて環境を認識し、その認識をもとにして行動計画を立て、計画を実現するための動作をアクチュエータを通じて出力することで世界で行動を実現する。この認識と行動という一連のサイクルの中でどのように賢い行動戦略を立て、具体的なタスクを達成する合目的行動を実現できるかがロボット学習の研究において問われている。

ロボット学習のアプローチは大きく分けて二つあり、一つはすでにタスクを達成できる人間などのエキスパートの真似により行動獲得を目指す模倣学習、もう一つは環境の中で試行錯誤をする中で高い報酬値を得られる良い行動戦略を自ら学んでいく強化学習がある。

模倣学習はさらに二つに分けられ、教師あり学習を用いて方策を学習するBahavioral Cloning[8]と呼ばれる手法と逆強化学習によりエキスパートの行動系列が高い報酬値となるような報酬関数を推定した上でそのもとでの報酬最大化を強化学習等で目指す手法[9、10]がある。Behavioral Cloningは人間の運転データから自動運転に応用する研究[11]に使われており、逆強化学習系模倣学習は主に画像処理分野で高解像度の画像を生成できるとして活躍している敵対的生成ネットワーク(Generative Adversarial Networks，GANs)[12]を用いてエキスパートの行動かエージェントの行動かを見分ける識別器とエージェントの方策を交互最適で敵対的に学習するGenerative Adversarial Imitation Learning(GAIL)[13]という手法に発展して、性能向上に向けた研究が盛んに行われている。

強化学習も大きく２つに分けられ、環境のモデルを学習することなく試行錯誤により得られる報酬値を頼りに方策を更新するモデルフリー強化学習と、環境のモデルを学習してそのモデルの上でプランニングをするモデルベース強化学習がある。近年の強化学習はビデオゲームにおいて人間よりも高いスコアを獲得[14]したり、AlphaGo[15]が人間の棋士に勝利を収めたりと進歩は目覚ましいものであるが、多くの手法はエージェントが環境のすべての状態を観測できる完全観測問題の枠組みを前提として設計されており、特に画像入力などの高次元な部分観測問題を解くために有効な手法は限られている。

また、スパース報酬系でHard Exploration Problem[16]と呼ばれる、ランダムに動くだけではなかなか報酬値を得ることができない複雑な環境で強化学習がうまくいかない問題や、そもそもロボットに行って欲しい動作の実現のために必要な報酬関数の設計が難しいという問題があり、強化学習のみでゼロから試行錯誤をさせるのではなく、模倣学習によりエキスパートから効率的な行動例を教わりながら学習するといった強化学習と模倣学習の組み合わせで考えていくことが次世代のロボット学習には必要になってくる。

部分観測問題を解くためには、環境の真の状態を部分的な観測から推定する認識モデルを精度よく獲得し、それを行動決定に活かすことが必要である。環境の真の状態を推定するためには、環境がそもそもどのような生成モデル(これを世界モデル[3]と言う)として構成されるのかをあらかじめ学習していること(すなわちモデルベース強化学習の問題設定)が重要であるが、計算論的神経科学で提唱されている自由エネルギー原理[17]はこの世界モデルの学習過程から世界モデルを用いた認識モデルの獲得および合目的な行動選択を統一的に自由エネルギーという量の最小化として定式化することに成功している。

しかし、現状の自由エネルギー原理を用いたシミュレーション実験は低次元の問題設定かつ世界モデルの関数形があらかじめ一部与えられている限定的な設定になっており、ゼロから学習することはなされていない。自由エネルギー原理は人間をはじめとする動物の意思決定過程を数学モデルとして説明するだけにとどまらず、脳のシナプスレベルでの計算プロセスをもPredictive Coding[18]という形で説明することができるという証拠が示されており、自由エネルギー原理に基づいた強化学習の課題解決の試みに成功すれば、神経科学および計算機科学の両分野に対する貢献があると考えられる。

１．２目的と方法
上記の背景から、本発明では自由エネルギー原理を深層モデルベース強化学習の文脈で捉え直し、模倣学習と強化学習を組み合わせられるよう拡張した手法を提案し、既存手法が苦手とする高次元部分観測問題に適用できることを示すことが目的である。まず、自由エネルギー最小化によりエキスパートを通じて世界モデルを獲得することで将来を正しく予測しながら模倣ができる手法を提案する。次に、獲得した世界モデルをベースに自由エネルギー最小化により、自ら探索および報酬最大化の合目的行動ができる手法を提案する。模倣学習および強化学習はどちらも共通の目的関数である自由エネルギーの最小化により達成されるため、シームレスな移行が可能であることが特徴である。提案手法が高次元画像入力かつ連続行動空間のタスクにおいて有効であることをシミュレーション実験により示す。また、エキスパートの軌道がそのまま与えられる問題設定においては、通常の模倣学習の一つとして上述したBehavioral Cloningでもエキスパートと同環境であれば高性能が得られるが、提案手法はエキスパートが不完全な場合や観測ノイズが含まれて観測値がエキスパートの身体や環境の真の値又は状態と一致しない場合においてBehavioral Cloningよりも高い性能を得られることをシミュレーション実験により示す。さらに、スパース報酬系において提案手法が既存のモデルベース強化学習手法よりも高い性能を得られることを示す。

１．３明細書の構成
本明細書では、”自由エネルギー原理による世界モデルの獲得と合目的プランニング”と題した研究についてその詳細を述べる。本明細書は５章からなる。以下に各章の概要を示す。第１章は本章、序論であり、研究の背景と目的および着目点と方法論を述べ、本発明の概要をまとめた。第２章は、自由エネルギー原理について先行研究で得られている知見をまとめるとともに、強化学習分野における世界モデルの先行研究および課題について述べる。第３章では、自由エネルギー原理を拡張し、模倣学習と強化学習を組み合わせた手法を提案する。第４章では、具体的な実験の設定と結果及び考察を述べる。強化学習のベンチマークであるDeepMind Control Suite[7]にある高次元画像入力連続行動空間タスクにおいて提案手法と既存手法の性能評価実験とその解析を行い、結果を考察する。最後に、第５章では、本明細書の結論を述べ、将来へのさらなる課題を示す。

第２章自由エネルギー原理と世界モデル
本章では、計算論的神経科学において脳の情報処理理論として提唱されている自由エネルギー原理、および計算機科学において部分観測の強化学習問題にて性能が期待されている深層モデルベース強化学習の中の世界モデル研究について概観する。

２．１自由エネルギー原理(Free Energy Principle)
脳は内部に持つモデルを使って、現在の感覚入力からそのような感覚が何によって生じているのかの原因をベイズ推定しているのであるというBayesian Brain仮説[19]に端を発して、Fristonらが自由エネルギー原理[17]という脳の情報処理理論を提唱した。自由エネルギー原理は、環境の認識をするPerceptual Inference、その認識のもとで行動をするActive Inference、認識と行動を繰り返す中で環境の生成モデルを学習するPerceptual Learningの3つからなり、環境の理解から認識、行動までの一連のループを統一的に扱うことができる原理である。

２．１．１基本的な数学の確認
自由エネルギー原理を理解するためには確率分布の計算方法を理解している必要がある。ここでは本明細書に出てくる数式を理解するために必要な確率に関する基本的な数学について解説する。確率分布p(x)についての確率変数xの期待値は

と書ける。よく出てくる形として別の確率分布q(x)の負の対数尤度の期待値を考えて

となる。ここでqがpに置き換わった場合はエントロピーと呼ばれ

となる。確率分布同士の近さを表す量として使われるKL divergence(カルバックライブラー情報量)は

と変形できる。以上のように

とKL divergence D_KLを自在に行ったり来たりできるように慣れておくと以降の式展開が追いやすくなるだろう。

２．１．２ Perceptual Inference
自由エネルギー原理の一つ目であるPerceptual Inferenceとは、agentが環境の生成モデルを持っているという仮定のもとで、感覚入力からそれを引き起こした原因をベイズ推定することを指す。感覚入力(sensory observation)をo、それを引き起こす原因の推定である信念(belief)と呼ばれる隠れ状態(hidden state)をｓとしたときに、事前分布prior p(s)と尤度likelihood p(o|s)から構成される生成モデルp(s，o)=p(s)p(o|s)はすでに分かっている仮定のもとで、あるoが得られた下での原因の推定sを表す事後分布posterior p(s|o)はベイズの定理より

のように計算できる。

しかし、現実にはp(o)=∫p(s)p(o|s)dsの積分を解析的に計算することは困難であり、近似手法として変分ベイズ法を用いる。今、補助的に任意の形状をした確率分布q(s)を考え、これを事後分布p(s|o)に近づけていくことで近似的に事後分布を得るというプロセスを考える。２つの確率分布pとqの近さを表す量としてKL divergenceを用いると、補助確率分布q(s)を事後分布p(s|o)に近づけていくことはD_KL(q(s)||p(s|o))の最小化問題に他ならない。積分できない項p(o)を分離すると、
D_KL(q(s)||p(s|o))=lnp(o)+D_KL(q(s)||p(s，o)) (2．6)
となり、計算できる
F=D_KL(q(s)||p(s，o)) (2．7)
の項が現れ、これを(変分)自由エネルギーと呼ぶ。このFの最小化によりq(s)がp(s|o)の近似となるため、q(s)を変分事後分布と呼ぶ。これは今、観測している感覚入力oの原因に対する脳内での推定sの分布なので、認識確率分布とも呼ばれる。すなわち、脳内の認識であるq(s)を正しい認識にするために自由エネルギーが最小化するように変化させる過程がPerceptual Inferenceである。

２．１．３ Active Inference
自由エネルギー原理の二つ目であるActive Inferenceとは、エージェントが環境の生成モデルp(s，o)および、感覚入力oがどのような行動aの関数として書けるのか表したinverse modelo(a)を持っているという仮定のもと、エージェントが自らの信念を実現するような行動をする過程を自由エネルギー最小化で記述することである。自由エネルギーFは数学的に等価な以下のように書き換えると、
F=D_KL(q(s)||p(s))+E_q(s)[-lnp(o|s)] (2．8)
となり、Active Inferenceによる行動によって変えられるのは観測値oのみなので、上式の第二項の最小化をしているのだと解釈できる。これは信念について観測値の負の対数尤度の期待値となっており、信念を実現するよう観測値の尤度を最大化する行動をとることが自由エネルギーを最小化によるActive Inferenceの結果となる。

２．１．４ Perceptual Learning
自由エネルギー原理の三つ目であるPerceptual Learningとは、上記Perceptual InferenceおよびActive Inferenceにおいてエージェントがすでに獲得していると仮定していた環境の生成モデル自体p_θ(s，o)=p_θ(s)p_θ(o|s)(θでパラメトライズする)をエージェントが経験する観測値を最もよく説明できる形になるように自由エネルギー最小化で学習していく過程である。積分計算できないゆえに(2．6)式で分離していたp(o)はBayesian Model Evidenceと呼ばれ、今、得られた感覚入力が現在のモデルのもとに生成される確率を表しており、これを最大化するようにモデルを変化させることでエージェントが経験する観測値を正しく生成、説明できるよう環境のモデルを学習したことになる。(2．6)式でKL divergenceは定義より０以上の値をとることを利用して式変形すると、
0≦-lnp(o)≦F (2．9)
となる。-lnp(o)はsurprisal(Shannonのサプライズとも言う)と呼ばれ、感覚入力oのめずらしさを表す。Bayesian Model Evidenceを最大化することはその負の対数尤度であるsurprisalを最小化することと同値であり、正しいモデルを学習して環境変化に適応する過程は生物が驚く状態を避けるというhomeostasisとのアナロジーで理解できる。surprisalを最小化(Bayesian Model Evidence 最大化)するには、(2．9)式より上界の自由エネルギーFを生成モデルのパラメータθに関して最小化すればよい。

２．１．５自由エネルギー原理の定式化
以上よりPerceptual Inference、Active Inference、Perceptual Learningはそれぞれq(s)の平均値μ_s、行動a、パラメータθに関して、全て自由エネルギーFを最小化する最適化問題となっていることが理解できた。

また、自由エネルギーは式変形により３つの形があるのでここで紹介する。
F=-lnp(o)+D_KL(q(s)||p(s|o)) (Surprisal+Divergence) (2．11)
=D_KL(q(s)||p(s))-E_q(s)[lnp(o|s)] (Complexity-Accuracy) (2．12)
=E_q(s)[-lnp(o，s)]-E_q(s)[-lnq(s)] (Energy-Entropy) (2．13)

この３つ目の表式が熱力学の自由エネルギーと形が似ていることが、その名前の由来となっている。また、２つ目の式は(2．8)式であり、Accuracyの最大化がActive Inferenceであったことを思い出して欲しい。ComplexityはBayesian Surpriseとも呼ばれる。

２．１．６ Predictive Codingと自由エネルギー原理
ここでは、Predictive Codingとして知られる自由エネルギー原理の生体との整合性について述べる。これこそが、自由エネルギー原理がProcess Theoryとも言われる所以である。(2．7)式において３変数に関する同時最適化であることを述べたが、生体においてはθは他２つの変数と比べて更新のタイムスケールが長いシナプスの結合強度に対応し、素早く更新されるμ_sはニューロンの活動に対応づけられる。

ある階層の事前分布が一つ上の階層の事後分布となっているような階層性を導入すると図１のように、上位の階層が下位の階層の活動を予測し、下位の活動の予測誤差によって上位の階層の活動が更新されるネットワークが構成される。ここで予測誤差は、上位からの予測値の精度(precisionとも言い、標準偏差の逆数により記述)および下位からの感覚値の精度を用いて誤差を重み付けしたprecision-weighted prediction errorとなっている。

各ニューロンの活動は隣接するニューロンの活動のみから決まるHebb則を満たしており、これは生体のモデルの要件としていわれるlocal plasticity(局所可塑性)に対応する。このような階層的な予測、予測誤差で学習するネットワークのことをPredictive Codingと呼ぶ。もともとは自由エネルギー原理とは独立してRaoが実際の脳の視覚野のモデルとして提唱[18]し、Kilnerらにより低次の視覚野と上位のミラーニューロンとの双方向型の階層構造としても補強[20]された枠組みであり、近年も脳がPredictive Codingを行っているという生理学的な証拠が多く報告されている。

図１にて、皮質表面部L2/3での活動は、γ波が支配的でこれはprediction errorとして皮質の深い部分L4/5へ伝えられる。一方、L4/5ではより周波数の遅いβ波が支配的でこれはpredictionとして一つ下の階層のL2/3へ伝えられる[21]。精神医学との関係も議論されており、Van BoxtelらはASDの患者は上位層の働きが悪くなるために下位層の予測が雑(precisionが低くなる)になり、下位からの感覚値のprecisionが過大評価され、感覚入力の予測誤差が大きくなって常に驚かされる状態になるために感覚過敏になると説明した[22]。工学的にも応用されており、Predictive Codingの階層構造および、上位の層が下位の層の活動を予測して、その予測誤差を上位に伝播する仕組みをDeep Learningで実装したPredNet[23]は、教師なしで動画の未来予測に使えることが示されている。

２．２プランニングのためのExpected Free Energyへの拡張
上述した自由エネルギー原理のActive Inferenceでは、行動aはinverse model o(a)を通して間接的にFを最小化するよう各時刻ごとに選択されており、反射的な行動選択をモデル化していると言える。しかし、実際の生物は各時刻の反射的な行動だけではなく、将来を予測した上でプランニングをする。将来の自由エネルギーの期待値を最小化するような行動選択の理論へと拡張したものをExpected Free Energy(期待自由エネルギー)[24]といい、本節で詳しく解説する。

２．２．１ Expected Free Energyの導出
前節までは事前分布をp(s)とその時刻の隠れ状態sのみで表していたが、本節では事前分布を時系列に発展するものとして考えて直前の隠れ状態sに依存し、さらに行動aの信念に当たるcontrol state uにも依存すると考える。ここで、uはあくまで脳内での状態に相当し、実際の行動として現れる時に初めて行動aとなる。事前分布は以下のようにs_t、u_tの条件付き確率としてかける。
s_t+1〜p(s_t+1|s_t，u_t) (2．14)

時刻tにおける自由エネルギーは前節(2．13)式より
F_t=-E_q(s)[lnp(o，s)]-E_q(s)[-lnq(s)] (2．15)
=E_q(s)[lnq(s)-lnp(o，s)] (2．16)
これを時刻τ=t+1というまだ経験していない将来における自由エネルギーに拡張すると、

とかけるはずである。しかし、時刻τにおける観測値はエージェントがまだ観測していないため分からない。そこで、尤度に関する期待値を取ることで以下のように拡張する。

ここで、q(s_τ|u_t)p(o_τ|s_τ)=q(s_τ，o_τ|u_t)と書くことにすると、以下のような式を得られ、これをExpected Free Energy Gと呼ぶ。

上式において、p(s_τ，o_τ|u_t)=p(s_τ|o_τ，u_t)p(o_τ)を適用することで、

を得る。ここでp(o_τ)は将来におけるBayesian Model Evidenceであるが、ここにエージェントが経験して欲しい観測値に関するpriorを与えると、このような観測値を実現すべくエージェントが動こうとするゴールとして機能する。上式のp(s_τ|o_τ，u_t)は、(2．18)式においてp(o_τ|s_τ)で仮想的に生成した将来の観測値o_τのもとでの真の事後分布であり、直接計算することができないため、

により変分事後分布で近似する。これは(Expected Free Energyとは関係ない)通常の時刻tでの自由エネルギー最小化により求まる変分事後分布をo_τについて計算した分布である。以上より、Expected Free Energyの完成形として

を得る。第一項を認識的価値、

と言い、新しい観測値を得た時にどれだけ信念に関して不確かさがなくなるのか、信念の分布の形が変わるのかを表している。これを最小化する行動とは、あらゆる観測値に対して計算した信念に関する不確かさが減る行動、信念の分布に変化を引き起こすような観測値を得る探索行動である。第二項を外在的価値または期待効用、

といって、合目的性を表している。これを最小化する行動とは、観測値に関するprior p(o)に書かれた情報を実現するような目標達成行動である。

２．２．２ Expected Free Energyによる行動選択
期待自由エネルギーGは以下のようにさらに式変形できる。

三行目において尤度は行動に依存せず、q(o_τ|s_τ，u_t)=p(o_τ|s_τ)が成立することを使用した。また、

はエントロピーを表す。(2．28)式の第一項はPredicted UncertaintyまたはAmbiguityといい、これを最小化する時、信念と観測値のマッピング(尤度)の不確かさが小さいような信念に至る行動を選択する。第二項をPredicted DivergenceまたはRiskといい、これを最小化する時、観測値の事前分布p(o_τ)とできるだけ近い観測値を得られるような行動を選択する。つまり、Expected Free Energyを最小化する行動とはゴールとして与えられる観測値の事前分布を実現するような行動のうち最も確信が高いような行動のことである。

を用いることで、結局、Gは通常の自由エネルギー原理で求められるq(s_tt)、事前分布p(s_τ|s_t，u_t)、尤度p(o_t|s_t)を用いて計算できることがわかった。以上より、あるu_tが与えられた時、Expected Free Energy G(u_t)が計算できることがわかる。今、行動の選択肢が複数あるとするとその中でExpected Free Energyを最小化する行動がエージェントが選択すべき行動であり、方策はソフトマックス関数を用いて、
a〜σ(−G) (2．31)
と書くことができる。ここまでのアルゴリズムはAlgorithm 1も参照されたい。今回はτ=t+1の話に限定していたが、将来のすべてのタイムステップについて同様のことを繰り返せば将来に渡る自由エネルギーの期待値としてGが計算できる。

同様に、ある方策πについても

のようにExpected Free Energyを定義することができ、いくつかある方策の候補の中で最もGが小さくなるものがエージェントが従うべき方策と言える。

２．３世界モデル研究
自由エネルギー原理ではPerceptual Learningにより環境の生成モデルを学習し、そのモデルを用いることで部分観測下でも環境の認識を行い、行動決定をすることができる。計算機科学においても環境の生成モデルを学習してプランニングに生かす研究は行われており、これはモデルベース強化学習に相当する。モデルの学習の研究自体は古くからなされているが、HaらがWorld Models[3]の論文を発表して以来、複雑な環境であっても行動決定に活かせるだけの情報を保持したモデルとはどのようなものであるか(特に深層生成モデルを用いたものが多い)という問いに答えようとする研究の流れが盛んであり、これらをまとめて世界モデル研究と呼ぶ。本節ではまず、モデルベース強化学習一般について説明し、次に最近の世界モデル研究の流れについて概観する。

２．３．１モデルベース強化学習
モデルフリーとモデルベース
モデルフリー強化学習はビデオゲームにおいて人間よりも高いスコアを獲得[14]するなどシミュレーション上で様々なタスクを解くことに成功してきたが、学習には何百万という非常に多くのサンプルを必要とし、学習完了まで何週間もかかってしまうため、時間的制約やロボットの耐久性という観点から実世界で使うのは難しいと言える。

それに対し、モデルベース強化学習は多様なデータを使ってモデルを作ることができるためにサンプル効率が良く、実世界でも数時間程度で学習することができることに加えて、モデル学習とタスク学習を別々に行えるため転移学習との親和性も高い。歴史的にはPILCO[25]という確率的な環境のダイナミクスモデルを作り、モデルの不確実性を長期のプランニングに用いる手法が有名であるが、高次元で非線形な環境においては機能しない。そこで、NagabandiらはDeep Neural Networksによる表現力豊かなモデルを用いて図２のような高次元で非線形なタスクにも適用できる学習システムを提案した[2]。

のように状態s_tで行動a_tをとるとどれだけ状態が変化するかΔs_tをモデルf_θで予測できるように学習し、このモデルを用いてModel Predictive Control (MPC)という手法で行動を選択する。MPCとは各タイムステップでランダムにn_cand個のHタイムステップ先までの行動系列を生成し、その中で累積報酬最大となる行動系列を選んで、現在時刻での行動を実行するという制御方法である。

モデルベース強化学習の問題点として、環境の完全なモデルを作ることは難しく、その不完全性からくるモデルバイアスゆえに誤差が蓄積し、最終的なパフォーマンスはモデルフリー強化学習には劣ってしまうことがあげられる。そこで、環境のモデルを使ってモデルフリー強化学習を加速させることで、サンプル効率性と最終的なパフォーマンスの高さを両立させる試みがなされてきた。歴史的には、Dyna[26]というモデルによるシミュレーションでサンプルを生成し、それをモデルフリー強化学習に組み込むという手法が有名である。Nagabandiらはモデルベース強化学習で得られた軌道のデータセットD*をエキスパート軌道として方策

を教師あり学習(模倣学習の分野ではbehavioral cloningと言う)させ、

この方策を初期値としてモデルフリー強化学習でfine-tuningすると高いサンプル効率でモデルフリーと同じだけの性能を得られることを示した[2]。ただし、ここで共分散Σ_πφは定数行列である。Pongらはgoal-conditioned value functionを導入することで、長期のプランニングはモデルベースで、短期の学習はモデルフリーというように組み合わせることでどちらか単体でやるよりも性能を上げることに成功した[27]。

Visuomotor Control
画像入力をもとに環境のモデルを作るのはさらに難しい。視覚から方策を獲得するvisuomotor controlを行うためには、環境とそのダイナミクスの表象を学習することが必要である。ゴールを画像で提示する際にピクセルがどれだけ一致しているかで考えるのではなく、オートエンコーダにより画像を特徴空間に落としてからその空間上で方策を学習することが試されてきた[28]。HaらはWorld Models[3]において図３のように、環境のモデルをVision Model(V)という画像入力を変分オートエンコーダ[29]により低次元の潜在空間に変換(空間情報の抽象化)し、変換された潜在空間上でMemoryとしてのRNN(M)をつかって時系列変化を予測(時間情報の抽象化)するという２つのステップでモデルが構成されている。ある時刻で予測された潜在変数と行動をもとにさらに次の時刻を予測するということを繰り返すと何タイムステップ先まででも実世界で動かずにメンタルシミュレーションをすることができる。これをHaらは夢と表現しており、エージェントは実世界で試行することなく夢の中で学習した方策を実世界に転移させfine-tuningすることでサンプル効率を上げられると主張している。

オートエンコーダによる画像からの特徴量抽出を上記の例のように事前に独立に学習させると、方策獲得に必要な特徴量が正しく抽出されているかはわからない。そこで、Srinivasらは方策獲得と同時に使える表象も獲得するように学習するUniversal Planning Networksを提案した[4]。図４のようなアーキテクチャをしており、各観測値は
x_t=f_φ(o_t) (2．36)
としてCNNであるf_φによりエンコードする。また、forward dynamics modelとして

のような全結合ニューラルネットワークg_θを用意し、これらを同時に学習させるのである。

２．３．２最近の世界モデル研究の流れ
世界モデル研究は、モデル学習とタスク(プランニング)学習の二つの要素からなる。モデル学習は主に深層生成モデルによる空間情報の圧縮とリカレントニューラルネットワークなどの時系列モデルによる時間情報の圧縮をどのように効率的に行うかが着目点になっている。HaらのWorld Modelsでは上述した通り、空間圧縮と時間圧縮は順番に独立に行われ同時ではないため、効率的なモデル獲得になっているとは言えないだろう。

モデル学習のみに特化した研究としては、ある複数の視点の画像を元に別の視点の画像を生成するGenerative Query Network(GQN)[30]や任意の時間ステップ飛び越えて(１ステップずつ予測を繰り返すのではなく)将来を推論することができるTemporal Difference Variational Autoencoder(TD-VAE)[31]といった空間情報と時間情報を同時に圧縮して高い説明能力を持つ深層生成モデルが提案されている。タスク学習はモデルの上でModel Predictive Control(MPC)によるプランニングを行う場合と、別途モデル上の潜在空間を入力とする方策を用意して学習する場合がある。ここではモデル学習とタスク学習をどちらも行っている最近の主要な世界モデル研究を紹介する。

HafnerらのPlaNet(Deep Planning Network)[6]では、Recurrent State Space Model(RSSM)という複数タイムステップにわたる情報記憶のための決定的経路と部分観測性やノイズへの対処のための確率的経路を両方持たせたモデルを用いて、潜在空間上でMPCにより全てのプランニングを行っている。RSSMによる将来予測は潜在空間内部だけで行われ、逐次画像生成を伴わないため計算が素早いことに加えて、モデルフリー強化学習手法(A3C[32]、D4PG[33])と同等かそれ以上の性能を50倍のサンプル効率で達成した。

長期予測精度を上げる他の試みとしてKeらのモデル[34]では、将来を予測する決定的および確率的ダイナミクス予測モデルに加えて、未来から過去に向かう後ろ向きのダイナミクスを記述する決定的な経路をRNNで用意して、そのRNNの隠れ変数を潜在変数から予測する対数尤度最大化する補助的なLossを加えるZ-forcing[35]という手法を用いることでモデルフリーの手法より高性能を達成した。また、この手法はモデルとして観測値だけでなくアクションも学習する点がその他の世界モデル研究と違っている。

Stochastic Latent Actor-Critic(SLAC)[36]では、決定的な予測を行わず全て確率的な潜在変数で構成されたモデルを学習し、2020年1月、一般的な強化学習手法の中で最も高い性能を誇っているエントロピー最大化強化学習のSoft Actor Critic[37]をモルの潜在空間の上でCriticを学習させることで多くの高次元画像入力タスクにおいて高性能を実現した。ただし、SLACのActorの入力は潜在変数ではなく、画像を直接入力として使っており、厳密には方策の更新はモデルフリー強化学習に分類される。

Dreamer[38]はHafnerらが自分たちのPlaNetをさらに改良して作った新しい手法で、行動決定の方法をMPCではなく方策に変えることで、現在の方策のもとで将来がどうなるかを報酬値を含めて予測し、予測に基づいて価値関数を学習できるようになり、PlaNetよりも高性能でSLACと同等の性能を実現した。

第３章自由エネルギー原理による模倣と強化学習
本章では自由エネルギー原理を拡張することで、エキスパートを通じて世界モデルを獲得し、将来を正しく予測しながら模倣ができるようになる手法および、獲得した世界モデルをベースに自ら探索と報酬最大化の合目的行動ができるようになる強化学習手法を提案する。模倣と強化学習はいずれも自由エネルギーという同じ目的関数の最小化で達成されるためシームレスな移行または同時学習が可能である。まず本発明の位置付けを述べた後に、確率モデルの観点から数学的な理論解説を行い、続いて実装の観点からモデルアーキテクチャの説明を行う。

３．１本発明の位置付けと概要
３．１．１自由エネルギー原理の立場での位置付け
自由エネルギー原理が提唱されて以来、眼球運動から意思決定まで様々な特に認知に関わる現象のモデル化においてその有効性は検証されてきたもののいずれも低次元な環境であり、モデルの一部(信念の事前分布の関数形など)をあらかじめエージェントに与えた上で実験を行い、世界モデル全てをゼロから学習する実験というのは未だなされていない。これは確率分布の計算を厳密に行おうとすると高次元の空間にスケールしないからであるが、深層学習の発展により確率分布をDeep Neural Networksで近似的に表すことが可能になってきたため、自由エネルギー原理を機械学習の問題として捉え直し、高次元の問題設定においても有用であることを示す必要がある。

自由エネルギー原理を深層学習により実装した先行研究として

のDeep Active Inference[39]があり、エージェントが位置と速度を観測値としながら山登りを目指すMountain Car Problem[40]を解くことに成功した。しかし、この先行研究には自由エネルギー原理として不適切な点が以下の二点存在した。
・事前分布には人工的にゴールとして目指して欲しい場所の観測値(位置と速度の値)を、変分事後分布にはエージェントの現在の観測値を、本来信念だけで構成される分布の一部の次元に観測値を人工的に埋め込むという実装をすることで合目的行動を誘発させていた
・自由エネルギー原理では事前分布が過去の情報から現在の信念を計算し、そのもとで事後分布を計算するという流れであるが、先行研究では変分事後分布が事前分布により時系列予測とは独立に過去の情報を使った予測をしており、自由エネルギー原理を忠実に再現したものではない

そこで、発明者らの2018年の論文「自由エネルギー原理による生成モデル理解と環境認識に基づく適応的行動」[5，41]においては、これらの不適切な点を解消し、図５のような自由エネルギー原理に忠実に従う手法を提案した。卒業論文の提案手法では、全ての確率分布を同時に自由エネルギー最小化で学習することはできず、学習対象を一つに絞って他の確率分布を固定することでPerceptual InferenceおよびActive Inferenceを再現することができたが、Perceptual Learningすなわち世界モデルの学習については自由エネルギー最小化で獲得することはできなかった。

その後、2019年にMillidgeによるDeep Active Inference[42]が発表され、こちらの先行研究ではExpected Free Energyが方策の事前分布の形を決めるという最近の自由エネルギー原理のアイデア[24]を実装することで

の先行研究にあった信念空間に観測値を埋め込むという不適切な処理をせずに合目的行動をさせることに成功した。またこの研究ではOpenAIGym[43]のCartpole-v1、Acrobot-v1、LunarLander-v2という強化学習ベンチマークタスクを扱うことに成功しており、Mountain Car Problemよりも複雑な問題にも適用できている点で貢献がある。このMillidgeによるDeep Active Inferenceの課題としては、
・離散行動空間にのみ適用できる手法になっており、連続行動空間は扱えていない
・入力はエージェントの位置などの情報を使っており、画像入力による高次元タスクには適用できていない
が挙げられ、本発明の提案手法ではこれらの課題を解決することも可能な形で提案する。すなわち、連続行動空間でかつ高次元な画像入力のタスクにおいて自由エネルギー原理が有効であることを示す。

３．１．２模倣学習および強化学習の立場での位置付け
第二章で最近の世界モデル研究の流れは、深層生成モデルを使ったモデル学習とそのモデルの上でのタスク学習の二つの要素に分けられると述べた。Keらのモデル[34]を除くその他の世界モデル研究では、モデル学習とは観測値に関するモデルであり、タスク学習とは報酬最大化の強化学習のことのみを考えている。

Keらのモデルは観測値だけでなくアクションも説明できる構成になっており、エキスパートの行動を軌道としてモデルに埋め込むことが可能であり、模倣という切り口でも世界モデルを学習できることを示した重要な研究である。第一章で背景として述べた通り、
・スパース報酬系でランダムに動くだけではなかなか報酬値をつかむことができない複雑な環境では強化学習がうまくいかない
・そもそもロボットに行って欲しい動作の実現のために必要な報酬関数の設計が難しい
という理由により、強化学習のみでゼロから試行錯誤をさせるのではなく、模倣学習によりエキスパートから効率的な行動例を教わりながら学習するといった強化学習と模倣学習の組み合わせで考えていくことが次世代のロボット学習には必要になってくると考えられる。

Keらのモデルは世界モデルが模倣にも使えることを示したが、強化学習と同時に学習できる構成にはなっておらず、模倣で獲得した情報と強化学習による探索で獲得した情報を合わせてよりよい行動戦略につなげる試みは未だ行われていない。

そこで、本発明の提案手法では模倣学習と強化学習がいずれも自由エネルギーという同じ目的関数の最小化で達成されるような理論を提案し、両者の間でのシームレスな移行または同時学習が可能であり、有効であることを示す。また、第4章ではスパース報酬系において、提案手法が既存のモデルベース強化学習手法より優れていることを示す。強化学習問題においてエキスパートの情報を利用できることのメリットは上で述べた通りだが、模倣学習において強化学習的探索要素も利用できることのメリットも以下の二つ存在する。
・エキスパートが完全ではない場合、模倣学習、特にBehavioral Cloningではエキスパートよりも高い性能を出すことができないが、強化学習的探索と組み合わせることでエキスパートの性能を超えた模倣を実現することができる
・エキスパートのデータが集められた訓練環境とエージェントが実際に動くテスト環境が完全に一致しない場合、強化学習的探索と組み合わせることでデータの分布の不一致を吸収してロバストな模倣を実現できる

これら二点について模倣学習単体の手法よりも提案手法が優れていると考えられ、第4章ではシミュレーション実験によりこれらのメリットを示す。

３．２提案手法
３．２．１問題設定
部分観測マルコフ決定過程Partially Observable Markov Decision Process (POMDP)の問題設定を考える。離散タイムステップt、隠れ変数s_t、画像観測値o_t、連続値の行動ベクトルa_t、スカラー値の報酬値r_tを定義し、以下のような生成プロセスを考える。

方策

ここで初期状態をs₀と仮定しても一般性を失わない。模倣学習においてはエキスパート軌道p_expert(o_0:T)をできるだけ再現するように、強化学習においては

を最大化するように、方策

を学習することが目的である。エージェントは環境に関する知識は全く持っておらず、環境中を試行錯誤して動く中でモデル獲得と方策の学習を同時に行う必要がある。

３．２．２自由エネルギー最小化エージェント
アクションを含む生成モデルにおける自由エネルギー
自由エネルギーは(2．7)式より、
F=D_KL(q(s)||p(s，o)) (3．5)
であった。ここで、アクションaを明示的に生成モデルに織り込むように拡張すると、

のような自由エネルギーを得る。これを時刻tにおいてエージェントが行動した際に得られるデータ(o_t、a_t、r_t、o_t+1)について計算した自由エネルギーだと考えると、

と書き直すことができる。ここでp(a|s)は方策の事前分布に相当するもので、エージェントが観測している動きを最も実現するように方策の事前分布をF最小化で書き換えていく過程は、Expertの軌道を観測し続けることで自らもその方策の獲得を目指す模倣学習と相性が良い。学習が進むにつれ、方策の事前分布p(a|s)はエキスパートの行動をエンコードしたものに書き換わっていくのである。Fの計算はすでにエージェントが獲得したデータまたはエキスパートとして与えられたデータに対して計算できる量であるが、自らが主体的に動くためには別途方策が必要である。これを方策の事後分布q(a|s)とおき、まだ観測していない時刻t+1以降では、この分布から行動をサンプリングすることで動いていく手法を提案する。

模倣学習における期待自由エネルギー
時刻t+1における信念に関する事前分布は、q(a|s)について期待値を考えることで、

として計算できる。この事前分布のもとで時刻t+1の期待自由エネルギーは(3．10)式を拡張して、

を得る。このような期待自由エネルギーを最小化することで方策の事後分布q(a|s)を推定していくのである。ここで、

より、期待自由エネルギーを最小化する際に方策の

最大化の項が現れる。強化学習分野においてSoft Actor Critic[37]などのエントロピー最大化強化学習が近年、高い性能を誇っていることが知られているが、自由エネルギー原理の自然な帰結として方策のエントロピー最大化が現れるのは面白い事実であろう。すなわち、自由エネルギー最小化とは、方策の事後分布はそのエントロピーを最大化しながら、方策の事前分布に近づけていく過程であることがわかる。

強化学習における期待自由エネルギー
模倣学習の際と同様に(3．13)式のような時刻t+1における信念に関する事前分布を考える。この事前分布のもとで時刻t+1の期待自由エネルギーは(2．22)式と同様の変形により、

となる。Complete class theorem[44]によると、どのような観測値に対してもそれがベイズ最適になるような事前分布が存在する、すなわちどんな時も事前分布を使って目的の行動を描くことができるのである。よって、強化学習における報酬値を観測値に関する事前分布と結びつけることができる。たとえば、報酬値rを
p(o)=expr(o) (3．23)
とすると、観測値に関する事前分布に書き換えることができる。ここで、p(o)は確率なので報酬値は負の値をとるとする(通常、報酬値は正の値をとるが、例えばそのタスクにおける報酬値の最大値をいつも引いておけば、エージェントはいつも負の報酬値をもらうように変換できる)。期待自由エネルギーを報酬値を含む形で書き換えると、

となる。強化学習の場合も(3．19)式からエントロピー最大化項が存在することがわかる。すなわち、期待自由エネルギーを最小化とは、方策の事後分布はそのエントロピーを最大化しながら、報酬値を最大化する過程である。

提案手法まとめ
模倣学習の場合も強化学習の場合も時刻tにおける自由エネルギーFと時刻t+1以降の期待自由エネルギーGを最小化することで達成される。すなわち、

を最小化すれば良い。ここでγは割引率である。無限級数を計算するのは現実的ではないため実装上は期待自由エネルギーの価値関数Vを用意して、

をそれぞれ最小化することで、自由エネルギーおよび価値関数を学習していく。学習を安定化させるためにDeep Q Network[14]で用いられるテクニックであるターゲット価値関数V_targを用意し、一定の間隔ごとに学習が進んだVのパラメータを取り入れていくようにする。第４章で検証する際に実装したモデルにおいては、自由エネルギーの価値関数は強化学習の場合にのみ使うことにし、模倣学習ではG_t+1だけを考えるという設計上の選択を行なった。すなわち、(o_t，a_t，r_t，o_t+1)というデータに対して以下のような目的関数を計算する。

エージェントはエキスパートデータに対しては

を最小化し、自ら動いて集めたエージェントデータに対しては

を最小化する。また、価値関数を学習するために

も最小化する。以上の提案手法により、模倣学習単体、強化学習単体、模倣学習で事前学習したのちに強化学習、模倣学習と強化学習を同時学習といったすべての組み合わせが実現できる。両者で使用するモデルは共通しているためp(s)、p(o|s)、p(a|s)、q(s)、q(a|s)、Vの全てのネットワークを使いまわすことができる。本提案手法をdeep FEと名付けることとする。アルゴリズム全体の流れはAlgorithm 2を参照されたい。

３．２．３モデルアーキテクチャ
ここまで提案手法の理論に関する部分の解説をした。続いて、提案手法を計算機上でどのようなモデルアーキテクチャを用いて実装するかに関して述べる。

生成プロセスのアーキテクチャ
先行研究として第二章で紹介したPlaNet[6]にも用いられている確率的な潜在変数sと決定的な潜在変数hを組み合わせることで環境の不確実性の説明能力を保ちつつも長期にわたって情報を保持することができる図６のようなRecurrent State Space Model (RSSM)を用いてモデルを作る。決定的潜在変数h_tは
決定的潜在変数の更新則h_t=f(h_t-1，s_t-1，a_t-1) (3．31)
のように直前のタイムステップのh_t-1および確率的な潜在変数s_t-1、アクションa_t-1を用いて更新されるようにデザインする。(3．11)式に登場する各条件付き確率を以下のようなネットワークで用意することで生成モデルの学習を目指す。
観測モデルo_t〜p(o_t|s_t，h_t) (3．32)
方策の事前分布a_t〜p(a_t|s_t，h_t) (3．33)
確率的潜在変数の事前分布s_t〜p(s_t|h_t) (3．34)

それぞれ確率分布の条件に当たる変数を入力、確率変数の平均と標準偏差を出力とするようなディープニューラルネットワークにより実装し、確率変数は出力された統計量をもちいた正規分布に従うとする。決定的潜在変数は確率分布ではなく決定的な関数fを用いて表すことができ、リカレントニューラルネットワークを用いて実装する。

推論プロセスのアーキテクチャ
エージェントが各時刻の観測値o_tから確率的潜在変数s_tを正しく推論することに使われる変分事後分布は以下のように書ける。

すなわち、前の時刻の決定的潜在変数h_t-1および現時刻の観測値o_tを入力として、現時刻の確率的潜在変数の事後分布の平均と標準偏差を出力とするディープニューラルネットワークにより実装し、出力された統計量をもちいた正規分布に従うとする。方策の事後分布q(a|s)に関しては、
a_t〜q(a_t|s_t，h_t) (3．37)
のように、確率的潜在変数と決定的潜在変数を入力としてアクションの平均と標準偏差を出力とするディープニューラルネットワークにより実装し、出力統計量をもちいた正規分布に従うとする。以上の確率分布同士の関係は図７のようなグラフィカルモデルとして表すことができる。

学習を安定化させるための工夫
リカレントニューラルネットワーク(RNN)により実装した方策を使った強化学習手法としてR2D2[45]という先行研究がある。RNNには隠れ変数があり、エピソード内でどのように初期化するかにより性能に影響することが考えられる。そこで、R2D2ではBurn-inという隠れ変数を復元する期間を設けて、その間に得られた勾配は学習に使わないという手法を提案し、RNNを用いた強化学習で高い性能を出すことに成功した。本発明の提案手法でも決定的潜在変数はRNNにより実装されているため隠れ変数をうまく復元する必要があるため、Burn-inを採用した。

第４章
第４章提案手法の実験と考察
第三章では自由エネルギー原理を拡張して、模倣学習と強化学習をどちらも同じ目的関数Fの最小化で統一的に説明する手法deepFEを提案した。本章ではまず、予備実験として自由エネルギー最小化により方策の事前分布を模倣により獲得できることを確認したのち、提案手法を模倣学習のみ、強化学習のみ、模倣学習をしたのちに強化学習に転移、模倣強化同時学習の四通りについて実験し、既存の手法と比較して考察する。

４．１簡易モデルを用いた予備実験
４．１．１実験の目的
提案手法は自由エネルギー最小化によりエキスパート軌道を最もよく説明するように方策の事前分布を更新することで模倣学習をおこない、期待自由エネルギー最小化により将来の報酬最大化をするように方策の事後分布を更新することで強化学習を行う。まず部分問題として、方策の事前分布が正しく獲得できるものであるのかを予備実験で検証したい。そこで予備実験の目的は、自由エネルギー最小化により方策の事前分布がエキスパートを観測することによって正しく獲得されるかについて提案手法よりも簡易なモデルを用いて検証することである。

４．１．２簡易モデルの説明
模倣学習ができるかどうかという問題にフォーカスするため、方策の事後分布を持たない簡易モデルを用いた実験を行う。簡易モデルを以下、simple deepFEという名前で呼ぶことにする。強化学習への応用可能性を捨てて模倣学習に特化しているため、提案手法と一部モデルアーキテクチャのデザインに違いがあるため以下で違いを説明する。

簡易モデルの生成プロセスアーキテクチャ
提案手法と同様、Recurrent State Space Model (RSSM)[6]を用いてモデルを作った。決定的潜在変数h_tは
決定的潜在変数の更新則h_t=f(h_t-1，s_t-1) (4．1)
のように直前のタイムステップのh_t-1および確率的な潜在変数s_t-1を用いて更新されるようにデザインし、アクションa_t-1には依存しないことが提案手法と違う。

軌道の尤度を確率的な潜在変数s_tを用いて周辺化し、以下のように条件付き確率の積に分解する。

各条件付き確率を以下のようなネットワークで用意することで生成モデルの学習を目指す。
観測モデルo_t〜p(o_t|a_t-1，s_t、h_t) (4．4)
方策の事前分布a_t-1〜p(a_t-1|s_t，h_t) (4．5)
確率的潜在変数の事前分布s_t〜p(s_t|h_t) (4．6)

以上の確率分布同士の関係は図８のようなグラフィカルモデルとして表すことができる。方策の事前分布は入力となる潜在変数の時刻tより一つ前の時刻でのアクションa_t-1が出力となっていることが提案手法と違う。

簡易モデルの推論プロセスアーキテクチャ
エージェントが各時刻の観測値o_tおよび行動a_tから確率的潜在変数s_tを正しく推論することに使われる変分事後分布は以下のように書ける。

変分事後分布の推定にアクションa_t-1を使うことが提案手法と違う。

簡易モデルの目的関数
ここまでに導入した確率分布を用いることで、将来の観測値と行動のペアの生成モデルを学習することができる。p(o_1:T，a_1:T|o₀)の値を最大化するようにネットワークを学習することが生成モデルの獲得に他ならない。決定的潜在変数の初期値h₀を条件に加えても一般性を失わず、また計算しやすいように対数を取ることで以下のような目的関数を得る。

この右辺の最大化をすればよい。(4.4，4.5，4.6，4.8)式を用いて書き直すことで、最小化すべき損失関数は以下のようになる。

行動選択方法
簡易モデルでは方策の事後分布がなく、方策の事前分布しか持たないため、事前分布からアクションをサンプリングする必要がある。方策の事前分布は提案手法の場合と違って入力される潜在変数の時刻より一つ前の時刻でのアクションを出すようにモデル化したので、あらかじめ一つ先の時刻の信念を予測しておいて、そこからさかのぼるようにアクションをサンプルする必要がある。具体的な計算プロセスとしては、
1．各時刻tにエージェントは直前のアクションa_t-1とその結果の観測値o_tから現在時刻の信念s_tに関する事後分布q(s_t|h_t，o_t，a_t-1)を計算する
2．事後分布からサンプリングしたs_tを使って次の時刻の信念を事前分布p(s_t+1|h_t+1)を使って予測する。ここで、h_t+1=f(h_t，s_t)を利用。
3．次の時刻の信念の予測値s_t+1を行動モデルp(a_t|s_t+1，h_t+1)に入力してエージェントが選択すべきアクションa_tを得る
4．アクションを使って環境を動くことで次の時刻の観測値o_t+1を得る
この事後分布推定から事前分布による予測と行動選択という流れを繰り返すことでエージェントは環境中を動き回ることができる。

４．１．３実験設定
実験環境
強化学習のベンチマークタスクとして用いられるDeepMind Control Suite[7]のCheetah-runおよびWalker-walkのタスク(図９)を用いた。いずれもシミュレータが内部に持つ状態数は18、行動は6次元の連続空間で、エージェントは64x64x3の画像を観測値として得る設定となっている。身体形状の違いによりCheetah-runよりもWalker-walkの方が転倒しやすいためにタスクとしての難しさはWalker-walkの方が上だと言える。エキスパート軌道は先行研究であるPlaNet[6]による強化学習の結果、図１０のようになり、収益が収束した時点のモデルを使って10000エピソードの軌道を用意した。ただし、図１０の縦軸は収益、横軸は学習中に新しく集められたエピソード数を表す。環境を動いて１エピソード分の新規エージェントデータを獲得するごとに学習を行うため、学習回数とも一致する。図１０以降の結果の図の軸も同様だが、模倣しか行わない手法の場合は、自分で動いて集めたエピソードは使わないため、横軸を単に学習回数と読み替えて差し支えない。１エピソードは1000タイムステップからなるが、学習の安定性を高めるために同じアクションを繰り返すアクションリピートをCheetah-runでは4、Walker-walkでは2に設定する工夫を行なっているため、１エピソードあたりのデータ数はCheetah-runは250、Walker-walkは500である。

ニューラルネットワークの記述には深層学習のフレームワークであるPyTorch[46]を用い、計算はGeForce GTX TITAN X、GeForce GTX 1080Ti、GeForce RTX 2080Ti、Tesla V100などのGPUを用いて行った。活性化関数はReLUを用い、潜在空間のサイズは300、RNNの隠れ変数のサイズは200、フィードフォワードNNの隠れ層のサイズは200、画像入力をエンコードした際のサイズは1024、ミニバッチ数は50、1バッチあたりのタイムステップ数は70でその中の20をBurn-in期間に指定、バッチを一度サンプルするごとに勾配降下は100回行い、アクションに関するロスは10倍の係数をかけ、OptimizerはAdam[47]を使用し

に設定、学習率は1e-3、勾配クリッピングは1000を使用した。第３章での説明では方策の事前分布を確率的方策であるとして説明したが、実験では簡単のため決定的方策を用いた。

比較対象手法
Behavioral Cloningによる以下の三種類の模倣学習手法を比較対象とした。
・Feedforward policy p_f(a|encoder(o))
・Recurrent policy p_r(a|encoder(o))
・Recurrent decoder p_d(a，o|encoder(o))
ただし、各方策ネットワークの入力は64x64x3次元の画像oを直接入れるのではなく、簡易提案手法と同様のエンコーダを通すことで1024次元の中間状態にまで次元圧縮したうえで方策の入力として使用した。Feedforward policyは現在の観測値を基にFeedforwardネットワークによりアクションを選択する方策であり、Recurrent policyは現在の観測値およびこれまでの履歴をもとにRecurrentネットワークによりアクションを選択する方策で、Recurrent decoderは現在の観測値およびこれまでの履歴をもとにRecurrentネットワークによりアクションだけでなく次の時刻の観測値の予測も行う方策である。Recurrent policyと比較することで複数タイムステップに渡る情報を使うことの重要性がわかり、Recurrent decoderと比較することで複数タイムステップの軌道(アクションだけでなく観測値も)を予測することの重要性が理解できる。

４．１．４結果
簡易モデルによる模倣学習の結果は図１１のようになった。図でsimple deepFEと書いてある曲線が簡易提案手法であり、横向きの緑色の破線はエキスパートが獲得した収益である。実線の周りについている影は、獲得した方策を使ってテスト環境で動いた際に得られた収益の標準偏差の範囲を表している。結果より、簡易提案手法を用いるとCheetah-run、Walker-walkのどちらのタスクでもエキスパート軌道を観測するだけでそれを事前分布として学習できることがわかった。比較手法と比べると、feedforward policyはうまくいっておらず、Cheetah-runタスクは複数タイムステップの履歴を使わないと解けないことがわかる。Recurrent policyおよびRecurrent decoderはエキスパートと同等の性能にまで模倣をすることに成功しており、Cheetah-runタスクは複雑なモデルを使わなくても模倣を行うことができるタスクであると言えるだろう。

４．２提案手法による模倣学習実験
４．２．１実験の目的
予備実験により、エキスパート軌道を観測し続けるだけで自由エネルギー最小化により方策の事前分布を獲得できることがわかった。そこで、本節では方策の事後分布をモデルに含む前章で説明した提案手法を用いた模倣学習実験を行う。模倣学習実験の目的は
・提案手法によりエキスパート軌道は方策の事前分布に獲得されたのち方策の事後分布へと伝わり模倣学習を達成できるか
・学習に使用するエキスパート数と模倣性能の関係はどうなっているかについて検証する。

４．２．２実験設定
実験環境
簡易提案手法実験の場合と同じくCheetah-runおよびWalker-walkタスクを用いて、エキスパートにはPlaNetの収束時点の軌道を10000エピソード分使用した。ハイパーパラメータに関しても簡易提案手法実験の場合と同じである。

比較対象手法
簡易提案手法実験と同じくFeedforward policy、Recurrent policy、Recurrent decoderによるBehavioral Cloningを比較対象とした。また、ここでは提案手法deepFEは自由エネルギー原理から自然に導かれる数式を拡張したものであるが、模倣学習において高い性能を出すために一部、工学的な改良を施したmodified deepFEについても性能を調べた。(3．17)式の第一項はq(s_t+1，o_t+1)についての期待値であるため、実際の観測値ではなく、事前分布による観測値の予測を用いて計算しなければならず提案手法では理論通りの計算を行なっている。しかし、模倣学習においては手元にエキスパートデータを軌道として持っているため未来の観測値を予測せずとも実際の観測値を使って更新することも可能であり、そのような計算をするように改良したものをmodified deepFEと名付け、提案手法と比較する。

４．２．３結果
提案手法による模倣学習の結果は図１２のようになった。図でdeep FEと書いてある曲線が提案手法、modified deepFEと書いてある曲線が上で述べた性能向上のために一部理論を無視した改良手法、横向きの緑色の破線はエキスパートの収益を表す。結果より、提案手法はCheetah-runでは模倣に成功したがWalker-walkでは失敗した。Cheetah-runにおいて獲得した収益は600程度であり、比較手法であるrecurrent policyやrecurrent decoderには及ばなかった。提案手法は強化学習とのシームレスな連携にむけて方策の事後分布の分、モデルパラメータが増えたために、学習が難しくなったのだと考えられる。Recurrent policyやRecurrent decoderといった単純なモデルで単純な入出力関係で解くことができるタスクでも、モデルパラメータが増えすぎると学習コストが高くなり、十分な性能が発揮できなくなるのだと考えられる。

しかし、改良手法であるmodified deepFEはエキスパートと同等の性能の獲得に成功した。未来の観測値の情報も使ってモデルを更新するために、モデルが複雑になっても学習に使うことができる情報も増えたために性能が下がらずに済んだのだと考えられる。以上より、提案手法を模倣学習のみに使う場合には単純なモデルと比べて少し性能が劣ってしまうものの、例えば強化学習と組み合わせるなど学習に使えるデータや情報量が増えるならば高い性能を出してくれることが期待される。詳しくは本章の模倣強化同時学習実験を参照されたい。

４．２．４世界モデルが保持するデータの解析
解析の目的模倣学習を通じて信念の事前分布、変分事後分布、観測値の尤度、方策の事前分布、方策の事後分布からなる世界モデルが獲得されているはずである。エージェントが初期状態から環境とのインタラクションをせずに将来を信念の事前分布により予測してどのような観測値が得られそうか生成した結果と、実際に環境とのインタラクションを通じて得られる観測値が持つ情報の違いについて調べることが目的である。具体的には信念の事前分布による予測に基づいて生成画像と実際に環境中を動いた際の画像の違いを定量的に評価する。

解析の結果
世界モデルの定量的な評価として、30タイムステップのランダムな行動系列に対し、世界モデルが事前分布を使って環境とのインタラクションなしに未来について想像した結果および実際にそのランダムな行動系列で環境を動いて得られる観測値とのピクセル誤差を用いる。世界モデルが十分に獲得されていればピクセル予測誤差は小さくなるはずである。ここで、エージェントの持つ方策の事後分布を用いて生成される行動系列ではなく、ランダムな行動系列を用いた理由としては、予測誤差を下げるために全く動かないことを選択したエージェントの予測誤差が低くなることを避けるためである。ここではあらゆる行動系列に対して世界モデルが十分な予測ができることを評価したいためランダムな行動系列を用いた。分散が大きいため50回計算した結果の平均を考えることにする。結果は表１のようになり、提案手法による模倣学習が進むにつれて、世界モデルの精度が高まっていることが確認できる。

表１：Accuracy of world models(imitation)

４．２．５エキスパート数に関する解析
解析の目的
一般にBehavioral Cloningはエキスパート数が少ないと、学習した軌道からエージェントが少しでも外れるとどのように復帰していいかがわからずに失敗することが知られており、エキスパート数が十分多い場合にしか成功しない。提案手法による模倣学習がどの程度のエキスパートが必要であるかを調べるためにエキスパート数が700、1500、10000の三条件について学習を行い性能を比較することが目的である。

解析の結果
エキスパートサイズのみを変えて提案手法を実験した結果は図１３のようになった。エキスパート数が1500の時に最も性能が高くエキスパート同じだけの収益を得られるようになり、エキスパート数が700の時に最も性能が低くなった。エキスパート数が多いほど多様な軌跡を含むためにロバストな学習ができるはずであるという仮説に反する結果となった。得られた結果に対して考えられる理由としては、エキスパート数が多すぎると学習対象が多様になる分、学習に時間がかかってしまう可能性や、エキスパート数が多くなった分、データセットに含まれる外れ値の数が多くなり、そちらに対しても最適化をしようとしたために性能が悪くなった可能性もあるだろう。方策が持つモデルパラメータの量に対して最適なデータセットの大きさが存在するのか、単純にデータセット内でのエキスパート軌道の偏りが引き起こした結果なのかはさらに検討する必要があると思われる。

４．３提案手法による強化学習実験
４．３．１実験の目的
ここまでで提案手法により模倣学習を実現できることがわかった。続いて、本節では模倣学習と同じモデルを使い、自由エネルギー最小化により強化学習ができることを示す。本実験の目的は
・提案手法により強化学習を達成できるか
・期待自由エネルギー計算時のホライズン(何ステップ先まで計算して価値関数を学習するか)の違いが性能に影響を与えるか
・模倣を事前学習したエージェントを強化学習に切り替えた場合にどのような学習をするのか
について検証することである。

４．３．２実験設定
実験環境
強化学習タスクにはCheetah-runを用いて学習を行なった。Cheetah-runは前進する速度に対して報酬値が与えられるタスクとなっている。ハイパーパラメータは模倣学習実験と同じものに加えて、報酬値に関するロスには100倍の係数をかけた。

比較対象手法
本実験では既存手法との比較は行わずに、提案手法で各種条件を変えた時の比較を行う。具体的には期待自由エネルギー計算時のホライズン長別の強化学習性能比較、modified deepFEにより模倣事前学習した後に強化学習を始める場合にoptimizerを引き継ぐ場合と引き継がない場合の性能比較を行う。

４．３．３結果
強化学習の実験結果は図１４のようになり、報酬値が上がっていることが確認でき、ホライズンが長すぎると学習がうまくいかないことが分かった。エージェントは各タイムステップにその時点での自由エネルギーと1タイムステップ将来の期待自由エネルギーを計算し、2タイムステップ以降先の未来については価値関数として推定する場合が最も安定して学習できると言えるだろう。

続いて、modified deepFEにより模倣事前学習したモデルを使って強化学習に切り替えた場合の実験結果を図１５に示す。模倣学習の時点で高い報酬値を得ていたのにも関わらず、強化学習に転移させた直後は一度報酬値が0付近にまで落ち込んでから再び上がっていく挙動を示すことがわかった。Optimizerを模倣学習の時から引き継ぐ場合と引き継がない場合で比較すると、引き継がない場合はそれまでの勾配の履歴についての情報を持たないために学習初期段階での報酬値が低くなるものの、最終的な性能はOptimizerを引継いだ場合と変わらないことがわかった。すなわち、模倣事前学習がどのように行われてきたかの情報は転移する際に必要ではなく、模倣事前学習の結果さえシェアできれば強化学習のスタートダッシュをきることができると言えるだろう。図１４と図１５を見比べると、模倣事前学習をした上で強化学習をしたほうが強化学習単体の場合と比べて最終性能は二倍近く変わってくることがわかり、模倣と強化学習を一体に行うことのできる提案手法の有用性が理解できる。

４．４提案手法による模倣強化同時学習実験
４．４．１実験の目的
前節では強化学習単体および模倣事前学習をした上での強化学習について述べたが、本節ではエージェントが最初から模倣と強化学習を同時に行う模倣強化同時学習に関する実験について説明する。本実験の目的は、
・模倣強化同時学習は模倣単体、強化学習単体、模倣事前学習と強化学習の組み合わせと比べて性能に違いがあるか
・エキスパートが不完全な問題設定において模倣強化同時学習が比較手法と比べて優位性があるか
・エキスパート環境とは違うテスト環境で観測ノイズがある場合に模倣強化同時学習が比較手法と比べて優位性があるか
を検証することである。

４．４．２実験設定
実験環境
強化学習タスクとしてCheetah-runおよびWalker-walkを用いて学習を行った。Walkerwalkの報酬関数はCheetah-runと同様に前進する速度に対して報酬値が与えられる仕様になっている。ハイパーパラメータは強化学習実験の時と同じである。エキスパートが不完全な問題設定の実験では、Cheetah-runタスクで収益200程度を獲得する不完全なエキスパートとしてPlaNetの150エピソード学習時点のモデルを用いた。観測ノイズのあるテスト環境として、エージェントへの画像入力に標準偏差0.１および0．2のガウシアンノイズを加える環境を使用する。スパース報酬系の環境として、通常、各タイムステップに0から1の範囲の報酬値が与えられるCheetah-runおよびWalker-walkにおいて0．5に満たない報酬値を全て0にしたタスクを用いた。これはエージェントがある程度まで自力で動けるようにならないと全く報酬値がもらえない問題設定となっていて、設計者側からすると大まかな報酬設計のみでエージェントに学習をさせる場合に対応している。

比較対象手法
模倣強化同時学習の性能については模倣単体、強化学習単体、模倣事前学習と強化学習の組み合わせとの比較に加えて、エキスパートとして用いていた先行研究PlaNetの学習曲線とも比較する。エキスパートが不完全である場合の実験においては模倣学習実験で比較対象として使ったRecurrent policyおよびRecurrent decoderによるBehavioral Cloningを再び比較対象に用いる。テスト環境に観測ノイズがある場合の実験においては、feedforward policy、recurrent policy、recurrent decoderと比較する。スパース報酬系での実験においては先行研究PlaNetと比較する。

４．４．３結果
模倣強化同時学習の実験結果は図１６のようになった。Cheetah-runタスクにおいては模倣学習(エキスパートサンプル数1500の結果)が最も性能が良く、模倣強化同時学習は先行研究PlaNetと概ね同じ学習スピードと最終性能であった。Walker-walkタスクにおいては前述の通り模倣学習は失敗に終わっていたが、模倣強化同時学習は先行研究PlaNetの三倍のスピードで収益1000を獲得し、極めて有効な手法であると言えるだろう。

次に、エキスパートが不完全な問題設定における模倣強化同時学習の結果は図１７のようになった。比較手法であるrecurrent decoderおよびrecurrent policyはBehavioral Cloning、すなわち教師あり学習のためエキスパートの性能を大きく超えることがないのに対し、模倣同時強化学習では模倣学習による素早いエキスパート地点までの収益増加とそこから先の強化学習としての探索がシームレスに結びついており、エキスパートが不完全であってもそれを超える性能を獲得することができると分かった。

次に、テスト環境にエキスパート軌道を観測した際には存在しなかったノイズが発生する問題設定で模倣強化同時学習を行った場合の結果は図１８のようになった。比較手法であるfeedforward policy、recurrent policy、recurrent decoderはノイズが大きくなればなるほど性能悪化の幅が大きくなるのに対し、模倣強化同時学習ではテスト環境に発生するノイズの大きさにはあまり関係なくロバストな方策を獲得できていると言える。理由として三つ考えられ、第一に強化学習を通じて集めたテスト環境の観測値も学習に使われているため、エキスパート軌道の分布との乖離を和らげた学習になっているということ、第二に提案手法は方策の事前分布と事後分布というアクションに関する確率分布を二つ持っているため学習してきたデータと違うデータに遭遇しても急激に崩壊する可能性が低いということ、第三に提案手法は観測値の空間を抽象化した信念の空間を別にもっていることからノイズを吸収できるアーキテクチャになっていることが挙げられる。三つ目の理由に関して機械学習分野ではDenoising Autoencoder[48]という手法があり、エンコーダーデコーダーモデルが入力に含まれるノイズを除去する能力を持っていることが知られていることからも、提案手法はモデルの構成からしてノイズに対してロバストな手法である可能性が高いだろう。

最後に、スパース報酬系での模倣強化同時学習の結果は図１９のようになった。CheetahrunおよびWalker-runどちらのタスクにおいても提案手法が先行研究のPlaNetに対して勝っていることがわかる。Cheetah-runではPlaNetは全く学習できておらず、Walker-walkにおいては提案手法の方がPlaNetに比べて約3倍のスピードで収益1000を達成している。この理由として、スパース報酬系においては学習初期にどのような行動が高い報酬値につながるのかのシグナルが全く得られないために必要な探索量が膨大になる傾向があるが、模倣強化同時学習をすると大まかな方向性は模倣学習により獲得することができ、素早く最終性能に向かって収束することができるからであると考えられる。

４．５まとめ
以上の実験により、提案手法が模倣学習、強化学習、模倣強化同時学習すべてに対して有効であることがわかった。その中でも特に模倣強化同時学習は模倣学習と強化学習のいいところどりによる高性能を実現できている。すなわち、エキスパートの情報を参考にした素早い収束スピードの実現およびエキスパート軌道だけに頼らずに自らの探索を通じた最終性能の向上を同時に達成している。またノイズに対してもロバストな学習を行えて、スパース報酬系にも強いという性質もあり、実世界におけるロボット学習との相性も良さそうである。

５．１結論
本発明では、自由エネルギー原理を拡張することで模倣学習と強化学習を同時に実現できる手法の提案を行った。さらに、提案手法と既存手法を比較して性能評価を行い、提案手法がエキスパートの情報を参考にした素早い収束スピードの実現およびエキスパート軌道だけに頼らずに自らの探索を通じた最終性能の向上を両立することを示した。

通常の自由エネルギー原理はエージェントが現在までに観測した情報を用いて世界モデル獲得から環境認識、行動決定までを統一的に説明する枠組みである。将来の自由エネルギーの期待値にまで最適化の範囲を広げることで、どのような観測値が来ても説明できるような信念空間を構成するための探索行動と、報酬最大化による合目的行動を両立するようになる。

本発明ではアクションに関する事前分布と事後分布をモデルの中に明示的に持たせるグラフィカルモデルおよびアーキテクチャを提案した。提案手法のもとではエキスパートを観測すると、その観測値を最もよく説明できるように世界モデル、特に行動に関する事前分布が更新されるようになる。モデルが別に持つ行動に関する事後分布は、行動に関する事前分布から離れすぎないようにしながらも、獲得した世界モデルを使って自ら探索および報酬最大化の合目的行動をする強化学習を行う。

性能評価の実験としては、強化学習のベンチマークタスクとして用いられる画像入力連続行動空間のCheetah-runおよびWalker-walk環境においてシミュレーションを行った。提案手法により模倣のみ、強化学習のみ、模倣による事前学習の後に強化学習へ転移、模倣と強化学習を同時学習の全てが可能であることを実験的に示した。特に模倣強化同時学習はそのほかの条件と比べて性能が高く、模倣による探索の効率化と強化学習による新規環境への適応及び外乱等へのロバスト性の長所を兼ね備えた手法になっていることがわかった。さらに、現実的な問題設定としてエキスパートが不完全な場合の模倣強化学習においては、その他の模倣学習手法がエキスパートと同等の性能しか出せない中、自ら探索することで高い性能を出すことに成功した。

また、エージェントが実際に動くテスト環境にはエキスパートの軌道にはなかった観測ノイズが含まれるケースでの実験も行い、その他の模倣学習手法の性能が悪化する中、提案手法は外乱に強いことを実験的に確かめた。外乱への強さは第一に強化学習を通じて集めたテスト環境の観測値も学習に使われているためにエキスパート軌道の分布との乖離を和らげた学習になっているということ、第二に提案手法は方策の事前分布と事後分布というアクションに関する確率分布を二つ持っているため学習してきたデータと違うデータに遭遇しても急激に崩壊する可能性が低いということ、第三に提案手法は観測値の空間を抽象化した信念の空間を別にもっていることから機械学習分野で提案されているDenoising Autoencoderのようにノイズを吸収できるアーキテクチャになっていることが理由として考えられる。

最後に、スパース報酬系においても実験を行い、モデルベース強化学習の先行研究が全く学習できないか収束に時間がかかる中、提案手法は安定的に素早く高性能を達成できることを確かめた。エキスパート軌道を参考にすることで報酬値がもらえるまでの大まかな方向性を外さないため、探索量を削減できたからであると考えられる。

５．２課題とさらなる課題
本発明では、模倣学習と強化学習の間のバランスは自由エネルギー最小化の中で自動的に決められていた。しかし、現実的にはタスクによってどちらかを重要視した方が最終的な性能が高くなる場合が考えられる。現状、模倣学習と強化学習のどちらが優先されるかに関しては制御することができず、自由エネルギーを構成する各項の重みづけがハイパーパラメータになっていることが課題である。環境で動いた際に得られた知識を活かして動的な更新をしていく仕組みが必要である。

今後のさらなる課題としては自由エネルギーをモニターすることで模倣学習と強化学習のどちらをより優先するか自動で決定する仕組みの開発が挙げられる。また、提案手法が不完全なエキスパート、観測ノイズ、スパース報酬といったロボット学習の現実的な問題設定において高い性能を出すことに成功したことから、実世界でのロボット学習においても有効であることが予想されるため、シミュレーションではない実世界での検証も行う必要があると考えられる。さらに、本発明では模倣および強化学習という達成すべき目標がある合目的行動を対象にしていたが、自由エネルギー最小化により世界の探索行動を創発することで、目標を与えられる前の事前学習としての世界モデル獲得がどの程度可能であるかを検証する必要もあると考えられる。事前学習まで含めて自由エネルギーで説明できればさらに統一的な理論としての側面を押し出すことができるであろう。

＜構成＞
図２０は、本発明の一実施形態に係る学習装置の構成図である。学習装置１００は、エージェントを制御するための学習モデルの学習装置である。図２０に示すように、学習装置１００は、処理部１１０及び記憶部１２０を備える。

処理部１１０は、例えば、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）等によって構成される。処理部１１０は、エキスパートデータ取得部１１１と、エージェントデータ取得部１１２と、自由エネルギー算出部１１３と、学習部１１４と、を備える。

エキスパートデータ取得部１１１は、エキスパートデータを取得する。エキスパートデータは、エキスパートの行動によって変化し得る、エキスパート自身およびその環境の状態（例えば画像、センサの検出パラメータ）についてエキスパートにより観測されたある時刻における観測値と、エキスパートによるある時刻における観測値に対するエキスパートの行動と、エキスパートの行動の結果としてエキスパート自身およびその環境の状態についてエキスパートにより観測された次の時刻での観測値とを含む。エキスパートデータは、記憶部１２０に記憶される。

エージェントデータ取得部１１２は、エージェントデータを取得する。エージェントデータは、エージェントの行動によって変化し得る、エージェント自身およびその環境の状態についてについてエージェントにより観測されたある時刻における観測値と、ある時刻における観測値に対するエージェントの行動と、エージェントの行動を通じて得られた報酬値と、エージェントの行動の結果としてエージェント自身およびその環境の状態についてエージェントにより観測された次の時刻での観測値とを含む。エージェントデータは、記憶部１２０に記憶される。

自由エネルギー算出部１１３は、エージェント自身およびその環境のに対してエージェントがどう動くべきかを記述した方策の事前分布に関する自由エネルギーを算出する。自由エネルギー算出部１１３は、エキスパートデータをエキスパートデータの確率分布からサンプリングした結果として捉えたときに、エキスパートデータに基づいて自由エネルギーの方策の事前分布および事後分布に関する期待値である第１期待自由エネルギーを算出する。自由エネルギー算出部１１３は、エージェントデータをエージェントデータの確率分布からサンプリングした結果として捉えたときに、エージェントデータに基づいて自由エネルギーの方策の事前分布および事後分布に関する期待値である第２期待自由エネルギーを算出する。

第１期待自由エネルギーは、上記の式（３．１８）で表される。第２期待自由エネルギーは、上記の式（３．２４）で表される。

学習部１１４は、自由エネルギーの最小化により事前分布を更新し、第１期待自由エネルギーの最小化により事後分布が事前分布に一致するように事後分布を更新することで模倣学習を行う。学習部１１４は、第２期待自由エネルギーの最小化により将来の報酬値の最大化をするように事後分布を更新することで強化学習を行うことにより、学習モデルの学習（ニューラルネットワークの重みの学習等）を行う。学習結果は、記憶部１２０に記憶される。

記憶部１２０は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）などの各種メモリによって構成される。また、記憶部１２０は、本実施形態に係る各種処理を実行するための各種プログラムを記憶している。

本実施形態では、学習部１１４は、上記の式（３．２５）で示される値を最小化するように、学習モデルの学習（ニューラルネットワークの重みの学習等）を行う。例えば、学習部１１４は、学習モデルの特性又はパラメータを修正する。

また、本実施形態では、観測対象は複数の次元を有するデータであり、行動は連続行動空間におけるタスクである。具体的には、観測値は例えば画像観測値やセンサ値とそれらの必要な階数の時間微分値であり、行動は例えばロボットアームの関節角指令、速度指令、関節トルク指令である。本実施形態によると、このような高次元データ入力かつ連続行動空間の複雑タスクにおいても、既存のモデルベース強化学習手法よりも高い性能を得られる。

＜フローチャート＞
図２１は、本発明の一実施形態に係る学習方法のフローチャートである。

エキスパートデータ取得部１１１は、エキスパートデータを取得する（Ｓ１１）。

エージェントデータ取得部１１２は、エージェントデータを取得する（Ｓ１２）。

自由エネルギー算出部１１３は、自由エネルギーと、第１自由エネルギーと、第２自由エネルギーと、を算出する（Ｓ１３）。

学習部１１４は、学習モデルの学習（本実施形態では、ニューラルネットワークの重みの学習）を行う（Ｓ１４）。この学習は、自由エネルギーの最小化により事前分布を更新し、第１期待自由エネルギーの最小化により事後分布が事前分布に一致するように事後分布を更新することで模倣学習を行い、第２期待自由エネルギーの最小化により将来の報酬値の最大化をするように事後分布を更新することで強化学習を行うことにより行われる。

＜本発明の優位性＞
上述したように、ロボット等の行動学習の公知技術として強化学習と模倣学習がある。強化学習は、行動の良さに応じた報酬値（評価点）を外から与えつつロボットが自律的に試行錯誤して報酬値を最大化する行動戦略を発見する。模倣学習は、人間等が行動の手本を示し、ロボットはそれを極力忠実に再現する行動戦略を学習する。

しかし、強化学習は、適切な報酬値設計の困難さ、白紙状態からの試行錯誤回数の膨大さ、人間の期待と違う行動となる可能性、等の問題があり、模倣学習は、手本の良し悪しをそのまま受け継いでしまう、ノイズや条件変動に弱い、手本と異なる状況（例：物の配置や作業台の位置形状等）に適応できない、などの問題を抱え、実ロボットへの適用には限界があった。

強化学習と模倣学習を統合すればこれらの問題の多くが解決するが、両者は基盤となる理論やデータ構造が異質のため、相乗効果を生むようにうまく統合することができなかった。

本発明は、計算論的神経科学における「自由エネルギー原理」を拡張して、強化学習と模倣学習を統一的に扱う理論と手法を構築し、上記の問題を一挙に解決した。これにより、上述の問題点を孕む現実的な条件下でのロボット行動学習の性能を大きく向上させた。この基本特許に基づき具体的なロボットシステムと作業種別を対象とした応用技術開発を行い、個別の応用特許と実用に展開すれば、様々な作業現場で実際に人間が作業の手本を示せば、ロボットがそれを真似つつ自ら練習してより確実により速く作業をするように学習することが可能となる。

＜本発明の応用性＞
本発明は、最近急速に事業開拓が進みつつある、従来の製造ラインを超えた多様な作業へのロボット応用や欧米で開発が先行する人と協働する人間協働型のロボット応用に最適な技術の基本特許となりうる。このような応用では、作業の内容や条件が頻繁に変化するため、ロボットの行動プログラミングコストを低減しつつ、人間の技能の写し取りや作業変更や変化に対応する性能が不可欠で、本発明に基づく行動学習技術が重要となる。

本発明を適用することのできる産業分野として、ものづくり現場での人間機械協働技術の分野や、また、上述の人間協働型ロボットの製造販売の分野がありうる。

本発明は、ロボットに限らず、人間の技能を要する作業を自動化するためにセンサ情報により判断して操作や制御を最適に切り替えるあらゆる自動システムに適用可能であり、自動運転や自動建機、自動農機、物流システム、環境制御システム等を含む多様な応用先がある。

＜まとめ＞
本実施形態によると、高次元画像入力連続行動空間の複雑タスクにおいて、環境のモデルを構築し、そのモデル上で模倣学習と強化学習を同時に行う手法を提供することが可能となる。ここで、画像入力タスクにおいて環境の真の状態を推定するためには、環境がそもそもどのような生成モデル(これを世界モデルと言う)として構成されるのかを学習することが重要であり、計算論的神経科学で提唱されている自由エネルギー原理はこの世界モデルの獲得過程、および世界モデルを用いた合目的な行動選択を自由エネルギーという量の最小化問題として定式化している。自由エネルギー原理は意思決定過程を数学モデルとして説明するだけでなく、脳のシナプスレベルの計算プロセスをも説明できる証拠が示されており、自由エネルギー原理と強化学習を統一的に俯瞰する試みは神経科学および計算機科学の両分野に対する貢献があると考えられる。

そこで、本実施形態では、自由エネルギー原理を拡張し、世界モデル上での行動選択に関わる確率分布として方策の事前分布および事後分布を導入することで、エキスパートを通じて世界モデルを獲得して将来を正しく予測しながら方策の事前分布を模倣学習により獲得すると同時に、自ら探索および報酬最大化の合目的行動をする強化学習により方策の事後分布を学習する、模倣学習と強化学習を同時に行う。模倣による探索の効率化と強化学習による新規環境への適応及び外乱等へのロバスト性の長所を兼ね備えた手法になっており、エキスパートが不完全な場合、スパース報酬系の場合、環境に観測ノイズが含まれる場合といったロボット学習の現実的な問題設定において提案手法が有効である。

参考文献
[1] R.Bogacz,“A tutorial on the free-energy framework for modelling perception and learning,” Journal of mathematical psychology, vol.76, pp.198-211, 2017.
[2] A. Nagabandi, G. Kahn, R. S. Fearing, et al., “Neural network dynamics for model-based deep reinforcement learning with model-free fine-tuning,” arXiv preprint arXiv:1708.02596, 2017.
[3] D.Ha and J.Schmidhuber,“World models,”arXiv preprint arXiv:1803.10122,2018.
[4] A. Srinivas, A. Jabri, P. Abbeel, et al., “Universal planning networks,” arXiv preprint arXiv:1804.00645, 2018.
[5] 荻島諒也,“自由エネルギー原理による生成モデル理解と環境認識に基づく適応的行動,” 卒業論文, 2018.
[6] D.Hafner,T.Lillicrap,I.Fischer,etal.,“Learning latent dynamics for planning from pixels,” arXiv preprint arXiv:1811.04551, 2018.
[7] Y. Tassa, Y. Doron, A. Muldal, et al., “Deepmind control suite,” arXiv preprint arXiv:1801.00690, 2018.
[8] D.A.Pomerleau,“Efficient training of artificial neural networks for autonomous navigation,” Neural Computation, vol.3, no.1, pp.88-97, 1991.
[9] A. Y. Ng, S. J. Russell, et al., “Algorithms for inverse reinforcement learning.” in International Conference on Machine Learning, vol.1, pp.663-670, 2000.
[10] B. D. Ziebart, A. L. Maas, J. A. Bagnell, et al., “Maximum entropy inverse reinforcement learning.” inAAAI, vol.8, pp.1433-1438. Chicago, IL, USA, 2008.

[12] I.Goodfellow, J.Pouget-Abadie, M.Mirza, et al.,“Generative adversarial nets,”in Advances in Neural Information Processing Systems, pp.2672-2680, 2014.
[13] J. Ho and S. Ermon, “Generative adversarial imitation learning,” in Advances in Neural Information Processing Systems, pp.4565-4573, 2016.
[14] V.Mnih, K.Kavukcuoglu, D.Silver, et al.,“Playing Atari with deep reinforcement learning,” arXiv preprint arXiv:1312.5602, 2013.
[15] D. Silver, A. Huang, C. J. Maddison, et al., “Mastering the game of go with deep neural networks and tree search,” Nature, vol.529, no.7587, p.484, 2016.
[16] T. L. Paine, C. Gulcehre, B. Shahriari, et al., “Making efficient use of demonstrations to solve hard exploration problems,” arXiv preprint arXiv:1909.01387, 2019.
[17] K. Friston, J. Kilner, and L. Harrison, “A free energy principle for the brain,” Journal of Physiology-Paris, vol.100, no.1, pp.70-87, 2006.
[18] R. P. Rao and D. H. Ballard, “Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects,” Nature neuroscience, vol. 2, no. 1, pp. 79-87, 1999.
[19] D.C.Knill and A.Pouget,“The Bayesian brain: the role of uncertainty in neural coding and computation,”TRENDS in Neurosciences, vol.27, no.12, pp.712-719, 2004.
[20] J. M. Kilner, K. J. Friston, and C. D. Frith, “Predictive coding: an account of the mirror neuron system,” Cognitive processing, vol.8, no.3, pp.159-166, 2007.
[21] A.G.Lewis and M.Bastiaansen,“A predictive coding framework for rapid neural dynamics during sentence-level language comprehension,”Cortex, vol.68, pp.155-168, 2015.
[22] J.J.Van Boxtel and H.Lu,“A predictive coding perspective on autism spectrum disorders,” Frontiers in psychology, vol.4, p.19, 2013.
[23] W. Lotter, G. Kreiman, and D. Cox, “Deep predictive coding networks for video prediction and unsupervised learning,” arXiv preprint arXiv:1605.08104, 2016.
[24] K. Friston, F. Rigoli, D. Ognibene, et al., “Active inference and epistemic value,” Cognitive neuroscience, vol.6, no.4, pp.187-214, 2015.
[25] M. Deisenroth and C. E. Rasmussen, “Pilco: A model-based and data-effcient approach to policy search,” in Proceedings of the 28th International Conference on Machine Learning (ICML-11), pp.465-472, 2011.
[26] R. S. Sutton, “Dyna, an integrated architecture for learning, planning, and reacting,” ACM SIGART Bulletin, vol.2, no.4, pp.160-163, 1991.
[27] V.Pong, S.Gu, M.Dalal, et al.,“Temporal difference models: Model-free deep rl for model-based control,”arXiv preprint arXiv:1802.09081, 2018.
[28] C. Finn, X. Y. Tan, Y. Duan, et al., “Deep spatial autoencoders for visuomotor learning,” in IEEE International Conference on Robotics and Automation (ICRA), pp. 512-519. IEEE, 2016.
[29] D. P. Kingma and M. Welling, “Auto-encoding variational bayes,” arXiv preprint arXiv:1312.6114, 2013.
[30] S. A. Eslami, D. J. Rezende, F. Besse, et al., “Neural scene representation and rendering,” Science, vol.360, no.6394, pp.1204-1210, 2018.
[31] K.Gregor, G.Papamakarios, F.Besse, et al.,“Temporal difference variational auto-encoder,” arXiv preprint arXiv:1806.03107, 2018.
[32] V. Mnih, A. P. Badia, M. Mirza, et al., “Asynchronous methods for deep reinforcement learning,”in International Conference on Machine Learning, pp.1928-1937, 2016.
[33] G.Barth-Maron, M.W.Hoffman, D.Budden, et al.,“Distributed distributional deterministic policy gradients,”arXiv preprint arXiv:1804.08617, 2018.
[34] N. R. Ke, A. Singh, A. Touati, et al., “Modeling the long term future in model-based reinforcement learning,” 2018.

[36] A. X. Lee, A. Nagabandi, P. Abbeel, et al., “Stochastic latent actor-critic: Deep reinforcement learning with a latent variable model,” arXiv preprint arXiv:1907.00953, 2019.
[37] T.Haarnoja, A.Zhou, P.Abbeel, et al.,“Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor,”arXiv preprint arXiv:1801.01290, 2018.
[38] D. Hafner, T. Lillicrap, J. Ba, et al., “Dream to control: Learning behaviors by latent imagination,” arXivpreprintarXiv:1912.01603, 2019.

[40] A. W. Moore, “Variable resolution dynamic programming: Efficiently learning action maps in multivariate real-valued state-spaces,” in Machine Learning Proceedings 1991. Elsevier, 1991, pp.333-337.
[41] 荻島諒也，米倉将吾，國吉康夫,“自由エネルギー原理による生成モデル理解と環境認識に基づく適応的行動,” in ロボティクス・メカトロニクス講演会講演概要集 2018, pp. 1A1-F16. 一般社団法人日本機械学会, 2018.
[42] B. Millidge, “Deep active inference as variational policy gradients,” arXiv preprint arXiv:1907.03876, 2019.
[43] G. Brockman, V. Cheung, L. Pettersson, et al., “Openai gym,” arXiv preprint arXiv:1606.01540, 2016.
[44] L. D. Brown, “A complete class theorem for statistical problems with finite sample spaces,” The Annals of Statistics, pp.1289-1300, 1981.
[45] S. Kapturowski, G. Ostrovski, J. Quan, et al., “Recurrent experience replay in distributed reinforcement learning,” 2018.
[46] A.Paszke, S.Gross, S.Chintala, et al.,“Automatic differentiation in pytorch,” 2017.
[47] D. P. Kingma and J. Ba, “Adam: A method for stochastic optimization,” arXiv preprint arXiv:1412.6980, 2014.
[48] P.Vincent, H. Larochelle, Y.Bengio, et al., “Extracting and composing robust features with denoising autoencoders,” in Proceedings of the 25th International Conference on Machine Learning, pp.1096-1103, 2008.

１００学習装置、１１０処理部、１１１エキスパートデータ取得部、１１２エージェントデータ取得部、１１３自由エネルギー算出部、１１４学習部、１２０記憶部。

Claims

エージェントを制御するための学習モデルの学習装置であって、
エキスパートの行動によって変化し得る、前記エキスパート自身およびその環境の状態について前記エキスパートにより観測されたある時刻における観測値と、ある時刻における観測値に対する前記エキスパートの行動と、前記エキスパートの行動の結果として前記エキスパート自身およびその環境の状態について前記エキスパートにより観測された次の時刻における観測値とを含むエキスパートデータを取得するエキスパートデータ取得部と、
前記エージェントの行動によって変化し得る、前記エージェント自身およびその環境の状態について前記エージェントにより観測されたある時刻における観測値と、ある時刻における観測値に対する前記エージェントの行動と、前記エージェントの行動を通じて得られた報酬値と、前記エージェントの行動の結果として前記エージェント自身およびその環境の状態について前記エージェントにより観測された次の時刻における観測値とを含むエージェントデータを取得するエージェントデータ取得部と、
前記エージェント自身およびその環境の状態に対して前記エージェントがどう動くべきかを記述した方策の事前分布に関する自由エネルギーを算出し、前記エキスパートデータ及び前記エージェントデータをそれぞれ前記エキスパートデータ及び前記エージェントデータの確率分布からサンプリングした結果として捉えたときに、前記エキスパートデータに基づいて前記自由エネルギーの前記事前分布及び前記方策の事後分布に関する期待値である第１期待自由エネルギーを算出し、前記エージェントデータに基づく前記期待値である第２期待自由エネルギーを算出する自由エネルギー算出部と、
前記自由エネルギーの最小化により前記事前分布を更新し、前記第１期待自由エネルギーの最小化により前記事後分布が前記事前分布に一致するように前記事後分布を更新することで模倣学習を行い、前記第２期待自由エネルギーの最小化により将来の前記報酬値の最大化をするように前記事後分布を更新することで強化学習を行うことにより、前記学習モデルの学習を行う学習部と、
を備える、学習装置。
時刻ｔにおいて、前記観測値をｏ_ｔ、隠れ変数をｓ_ｔ、前記報酬値をｒ、前記自由エネルギーをＦ_ｔ、前記第１及び第２期待自由エネルギーをＧ_ｔ、前記事前分布をｐ、前記事後分布をｑ、割引率をγ、カルバックライブラー情報量をＤ_ＫＬ、前記期待値を

、エントロピーを

すると、
前記学習部は、

の値を最小化するように、前記学習モデルの前記学習を行い、前記自由エネルギーＦ_ｔは、

であり、前記第１期待自由エネルギーは

であり、前記第２期待自由エネルギーは

である、請求項１に記載の学習装置。
前記状態は複数の次元を有するデータであり、前記行動は連続行動空間におけるタスクである、請求項１又は２に記載の学習装置。
前記観測値は画像観測値であり、前記行動はロボットアームの関節角指令である、請求項３に記載の学習装置。
エージェントを制御するための学習モデルの学習方法であって、
エキスパートの行動によって変化し得る、前記エキスパート自身およびその環境の状態について前記エキスパートにより観測されたある時刻における観測値と、ある時刻における観測値に対する前記エキスパートの行動と、前記エキスパートの行動の結果として前記エキスパート自身およびその環境の状態について前記エキスパートにより観測された次の時刻における観測値とを含むエキスパートデータを取得するステップと、
前記エージェントの行動によって変化し得る、前記エージェント自身およびその環境の状態について前記エージェントにより観測されたある時刻における観測値と、ある時刻における観測値に対する前記エージェントの行動と、前記エージェントの行動を通じて得られた報酬値と、前記エージェントの行動の結果として前記エージェント自身およびその環境の状態について前記エージェントにより観測された次の時刻における観測値とを含むエージェントデータを取得するステップと、
前記エージェント自身およびその環境の状態に対して前記エージェントがどう動くべきかを記述した方策の事前分布に関する自由エネルギーを算出するステップと、
前記エキスパートデータ及び前記エージェントデータをそれぞれ前記エキスパートデータ及び前記エージェントデータの確率分布からサンプリングした結果として捉えたときに、前記エキスパートデータに基づいて前記自由エネルギーの前記事前分布及び前記方策の事後分布に関する期待値である第１期待自由エネルギーを算出し、前記エージェントデータに基づく前記期待値である第２期待自由エネルギーを算出するステップと、
前記自由エネルギーの最小化により前記事前分布を更新し、前記第１期待自由エネルギーの最小化により前記事後分布が前記事前分布に一致するように前記事後分布を更新することで模倣学習を行い、前記第２期待自由エネルギーの最小化により将来の前記報酬値の最大化をするように前記事後分布を更新することで強化学習を行うことにより、前記学習モデルの学習を行うステップと、
を含む学習方法。
エージェントを制御するための学習モデルの学習プログラムであって、
エキスパートの行動によって変化し得る、前記エキスパート自身およびその環境の状態について前記エキスパートにより観測されたある時刻における観測値と、ある時刻における観測値に対する前記エキスパートの行動と、前記エキスパートの行動の結果として前記エキスパート自身およびその環境の状態について前記エキスパートにより観測された次の時刻における観測値とを含むエキスパートデータを取得するステップと、
前記エージェントの行動によって変化し得る、前記エージェント自身およびその環境の状態について前記エージェントにより観測されたある時刻における観測値と、ある時刻における観測値に対する前記エージェントの行動と、前記エージェントの行動を通じて得られた報酬値と、前記エージェントの行動の結果として前記エージェント自身およびその環境の状態について前記エージェントにより観測された次の時刻における観測値とを含むエージェントデータを取得するステップと、
前記エージェント自身およびその環境の状態に対して前記エージェントがどう動くべきかを記述した方策の事前分布に関する自由エネルギーを算出するステップと、
前記エキスパートデータ及び前記エージェントデータをそれぞれ前記エキスパートデータ及び前記エージェントデータの確率分布からサンプリングした結果として捉えたときに、前記エキスパートデータに基づいて前記自由エネルギーの前記事前分布及び前記方策の事後分布に関する期待値である第１期待自由エネルギーを算出し、前記エージェントデータに基づく前記期待値である第２期待自由エネルギーを算出するステップと、
前記自由エネルギーの最小化により前記事前分布を更新し、前記第１期待自由エネルギーの最小化により前記事後分布が前記事前分布に一致するように前記事後分布を更新することで模倣学習を行い、前記第２期待自由エネルギーの最小化により将来の前記報酬値の最大化をするように前記事後分布を更新することで強化学習を行うことにより、前記学習モデルの学習を行うステップと、
をコンピュータに実行させるための学習プログラム。