JP6417629B2 - 逆強化学習の方法、逆強化学習用アルゴリズムをプロセッサに実行させる指示を記憶する記憶媒体、逆強化学習用システム、及び逆強化学習用システムを含む予測システム - Google Patents
逆強化学習の方法、逆強化学習用アルゴリズムをプロセッサに実行させる指示を記憶する記憶媒体、逆強化学習用システム、及び逆強化学習用システムを含む予測システム Download PDFInfo
- Publication number
- JP6417629B2 JP6417629B2 JP2017504116A JP2017504116A JP6417629B2 JP 6417629 B2 JP6417629 B2 JP 6417629B2 JP 2017504116 A JP2017504116 A JP 2017504116A JP 2017504116 A JP2017504116 A JP 2017504116A JP 6417629 B2 JP6417629 B2 JP 6417629B2
- Authority
- JP
- Japan
- Prior art keywords
- reinforcement learning
- equation
- estimating
- density ratio
- cost function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 106
- 230000002787 reinforcement Effects 0.000 title claims description 49
- 230000008569 process Effects 0.000 title claims description 16
- 238000003860 storage Methods 0.000 title claims description 6
- 238000003874 inverse correlation nuclear magnetic resonance spectroscopy Methods 0.000 title 4
- 230000006870 function Effects 0.000 claims description 131
- 230000007704 transition Effects 0.000 claims description 37
- 230000006399 behavior Effects 0.000 claims description 35
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 230000002441 reversible effect Effects 0.000 claims description 16
- 238000007477 logistic regression Methods 0.000 claims description 4
- 238000002474 experimental method Methods 0.000 description 10
- 230000009471 action Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 230000001419 dependent effect Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 238000002790 cross-validation Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000009827 uniform distribution Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- NJPPVKZQTLUDBO-UHFFFAOYSA-N novaluron Chemical compound C1=C(Cl)C(OC(F)(F)C(OC(F)(F)F)F)=CC=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F NJPPVKZQTLUDBO-UHFFFAOYSA-N 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
ここで、q(x)とV(x)はそれぞれ状態xのコスト関数及び価値関数を示しており、γは割引率を表しており、p(y|x)とπ(y|x)はそれぞれ学習前後の状態遷移確率を示している。方程式(1)における密度比π(y|x)/p(y|x)を推定し、推定された前記密度比π(y|x)/p(y|x)に従って最小二乗法を使用して方程式(1)におけるq(x)及びV(x)を推定し、推定された前記q(x)及び前記V(x)を出力する、ことを特徴とする方法を提供する。
ここで、q(x)とV(x)はそれぞれ状態xのコスト関数及び価値関数を示しており、γは割引率を表しており、p(y|x)とπ(y|x)はそれぞれ学習前後の状態遷移確率を示している。方程式(1)における密度比π(y|x)/p(y|x)を推定し、推定された前記密度比π(y|x)/p(y|x)に従って最小二乗法を使用して方程式(1)におけるq(x)及びV(x)を推定し、推定された前記q(x)及び前記V(x)を出力する、ステップを行わせることを特徴とする記憶媒体を提供する。
別の点では、本発明は、被験者の挙動についてのコスト関数及び価値関数を推定するための逆強化学習用システムであって、前記被験者の挙動を定義する状態変数の変化を表すデータを取得するデータ取得手段と、プロセッサとメモリが、方程式(1)によって与えられる修正ベルマン方程式を、取得した前記データに適用し、
ここで、q(x)とV(x)はそれぞれ状態xのコスト関数及び価値関数を示しており、γは割引率を表しており、p(y|x)とπ(y|x)はそれぞれ学習前後の状態遷移確率を示している。方程式(1)における密度比π(y|x)/p(y|x)を推定し、推定された前記密度比π(y|x)/p(y|x)に従って最小二乗法を使用して方程式(1)におけるq(x)及びV(x)を推定する、ように構成されたメモリ付きのプロセッサと、推定された前記q(x)及び前記V(x)を出力する出力インタフェースと、有するシステムを提供する。
別の点では、本発明は、インターネットのウェブサーフィンでユーザが選んだ一連の記事から前記ユーザが読みそうな記事の嗜好を予測するためのシステムであって、前記インターネットに接続されたコンピュータで実施される、上述した逆強化学習用システムを含み、前記被験者は前記ユーザであり、前記被験者の挙動を定義する前記状態変数は各ウェブページを閲覧している間に前記ユーザによって選ばれた記事のトピックスを含み、前記プロセッサは、前記ユーザがインターネットウェブサイトを閲覧しているインタフェースに、推定された前記コスト関数及び前記価値関数に従って前記ユーザが読むための推奨記事を表示させる、システムを提供する。
ここで、q(x)とV(x)は状態xのコスト関数及び価値関数を示しており、γは割引率を表している。p(y|x)とπ(y|x)はそれぞれ学習前の状態遷移確率と学習後の状態遷移確率を示している。上記方程式の左手側、密度比は密度比推定法により、観察された挙動から効率良く計算されている。いったん密度比が推定されると、コスト関数及び価値関数は正則化最小二乗法によって推定することができる。重要な特徴は、我々の方法が、たいてい高い計算コストで算出される積分の計算を回避できるということである。本発明者らはこの方法をポールバランシングタスク実行時の人間の挙動に適用し、制御システム、機械学習、オペレーションズリサーチ、情報理論などにおいてよく認識された広い利用可能性を有する逆強化学習でこの新たな計算技術の万能な利用可能性及び有効性を確かめながら、推定されたコスト関数が新たな試行や環境で被験者のパフォーマンスを予測できることを示している。
<1.1.順強化学習>
本開示はマルコフ決定過程と離散時間連続空間のためのその単純化について簡単に紹介する。連続的な状態と連続的な行動空間をそれぞれXとUとする。ある時間ステップtで、学習エージェントは環境の現在の状態
を観察し、確率的方策からサンプリングされた行動
を実行する。その結果として、中間コストc(xt,ut)がその環境から与えられ、行動utの下でxtから
までの状態遷移確率PT(y|xt,ut)に従って環境が状態遷移を作成する。強化学習のゴールは所定の目的関数を最小化する最適な方策π(u|x)を構築することである。いくつもの目的関数が存在するが、最も広く使用されるものは
によって与えられた割り引かれたコストの和である。ここで、
は、割引率と呼ばれる。最適価値関数は以下のベルマン方程式を満たすことが知られている。
方程式(2)はminの作用素に起因する非線形な方程式である。
によって構築することができる。ここで、π0(u|x)はランダムな方策である。他方は、π(y|x)によって示され、最適な状態遷移として解釈することができるcontrolled probabilityである。その際、コスト関数は以下の形式に制限される。
ここで、q(x)とKL(p(・|x)||p(・|x))はそれぞれ状態依存コスト関数と制御された状態遷移密度と制御されてない状態遷移密度の間のカルバック・ライブラー情報量を示している。この場合、ベルマン方程式(2)は以下の方程式に簡略化される。
最適なcontrolled probabilityは
によって与えられる。注目すべきは、たとえ希望関数Z(x)=exp(−V(x))が導入されても、割引率γが存在するので、方程式(4)が依然として非線形であるということである。LMDPの枠組みの下での順強化学習では、V(x)は方程式(4)を解くことによって計算され、その際にπ(y|x)が計算される(Todorov,2009,非特許文献25)。
LMDP下における逆強化学習(IRL)アルゴリズムはDvijotham and Todorov(2010)(非特許文献6)により提案された。特に、OptVは離散状態問題に極めて効率的である。OptVの利点は、価値関数の推定に最尤法が適用できるように、最適な状態遷移が価値関数によって明確に表されることである。観察された軌道が最適な状態遷移密度(5)によって生成されると仮定する。価値関数は以下の線形モデルによって近似される。
ここで、wVとψV(x)はそれぞれ学習の重みと基底関数ベクトルを示している。
を持つと仮定する。ここで、Nπはcontrolled probabilityからのデータ数を示している。その際、対数尤度とその微分係数は
によって与えられる。ここで、π(y|x;wV)は価値関数が方程式(6)によってパラメータ化される制御された方策である。いったん勾配が評価されると、重みベクトルwVは勾配上昇法に従って更新される。
とγが与えられ、コスト関数q(x)が価値関数で使用される基底関数によって表現されると、q(x)が一意的に決定されることを意味している。コスト関数の表明が模倣学習の場合に重要でない一方、分析のためには我々はもっと単純なコストの表現を発見したい。それゆえ、本発明者らは近似器を導入する。
ここで、wqとψV(x)はそれぞれ学習の重みと基底関数ベクトルを示している。wqを最適化するためのL1型正則化付き目的関数は
によって与えられる。ここで、λqは正則化定数である。単純な勾配降下アルゴリズムが採用され、J(wq)が観察された状態で評価される。
<2.1.IRLのためのベルマン方程式>
方程式(4)及び(5)から、本発明者らは割引コスト問題に対し以下の重要な関係を導き出した。
方程式(11)は本発明の実施形態に係るIRLアルゴリズムで重要な役割を果たす。最初の出口問題、平均コスト問題、及び有限範囲問題に対する類似の方程式を導き出すことができる。注意すべきは、q(x)が方程式(3)で示されるコスト関数の状態依存部分であるため、方程式(11)の左手側がTD誤差(Temporal Difference error)でないということである。
コスト関数の形式がLMDP下で方程式(3)によって束縛されるが、我々のIRLは依然として不良設定問題であり、コスト関数は一意に決定されない。より具体的には、状態依存コスト関数が
によって修正される場合、対応する価値関数が
に変更される。ここで、Cは定数値である。その際、V(x)から導き出されたcontrolled probabilityはV´(x)から導き出されたものと全く同じである。この特性は後述するようにコスト関数を推定する際に役に立つ。本発明の1つの態様では、開示されたIRL法は2つの部分からなる。一方は後述する方程式(11)の右手側の密度比を推定することである。他方は以下に示すように、正則化付き最小二乗法によってq(x)とV(x)を推定することである。
まず、一般的な場合を考える。状態遷移の2つのデータセットを持つと仮定する。一方は方程式(7)で示されるDπであり、他方はuncontrolled probabilityからのデータセット
である。ここで、Npはデータ数を示している。その際、DpとDπから比π(y|x)/p(y|x)を推定することに我々は関心がある。
はじめの分解(14)は条件付き確率密度の対数の差を示している。方程式(14)を推定するために、本開示は2つの実施を考える。はじめはπ(y|x)及びp(y|x)を推定するために最小二乗条件付き密度推定(LSCDE)(Sugiyamaら,2010)を採用するLSCDE−IRLである。他方は方程式(14)の状態密度を推定するためにガウシアン過程(Rasmussen and Williams,2006,非特許文献15)を使用するGauss−IRLである。
状態遷移確率Pt(y|x,u)は標準的なIRL問題の場合では事前に知られていると想定され、これはuncontrolled probability p(y|x)がLMDPの場合に与えられるという想定に対応する。これはモデルベースのIRLとして取り扱うことできる。この場合、方程式(14)がふさわしく、データセットDpからcontrolled probability π(y|x)を推定するのに十分である。
この章はこの開示で開示されるIRL法にふさわしい密度比推定アルゴリズムについて述べる。
<2.3.1.uLSIF>
uLSIF(Kanamoriら,2009,非特許文献9)は密度比直接推定法のための最小二乗法である。uLSIFのゴールは2つの密度比π(x)/p(x)及びπ(x,y)/p(x,y)を推定することである。以後、本開示は簡略化のためにz=(x,y)の場合においてDpとDπからr(z)=π(z)/p(z)を推定するやり方について説明する。線形モデルによって比率を近似させる。
ここで、それぞれφ(z)は基底関数ベクトルを示しており、αは学習されるパラメータである。目的関数は
によって与えられる。ここで、λは正則化定数であり、
である。注意すべきは、hはDπから推定される一方で、HはDpから推定されるということである。方程式(16)は解析的に
として最小化することができるが、この最小化は密度比の非負の拘束を無視する。この問題を補償するために、uLSIFは
によって解を修正する。ここで、上記maxの作用素は要素ごとの方式に適用される。Kanamoriら(2009)(非特許文献9)によって推奨されるように、Dπの状態を中心とするガウシアン関数は
によって記述される基底関数として使用される。ここで、σは幅パラメータである。
はDπから無作為に選択される状態である。パラメータλ及びσは一個抜き交差検証によって選択される。
LSCDE(Sugiyamaら,2010,非特許文献19)は条件付き確率密度関数を推定するuLSIFの特別な場合と扱われる。例えば、Dπからからπ(y|x)=π(x,y)/π(x)を推定するための目的関数は
によって与えられる。ここで
は線形モデルであり、λは正則化定数である。LSCDEでHとhを計算することはuLSIFでこれらを計算することとわずかに異なり、以下のように計算される。
ここで、
は以下のように定義される。
方程式(18)で示す基底関数が使用されるので、この積分は解析的に計算することができる。LSCDEの推定重みは方程式(17)によって与えられる。推定比が条件付き密度であると想定するために、解がコスト関数と価値関数を推定するために使用されるときには、解は正規化されるべきである。
LogRegはロジスティック回帰を使用する密度推定の方法である。uncontrolled probabilityからのサンプルにセレクタ変数η=−1を割り当て、controlled probabilityからのサンプルにセレクタ変数η=1を割り当てよう。
密度比は、以下のようにベイズのルールを利用することによって表すことができる。
1番目の比率Pr(η=−1)/Pr(η=1)はNp/Nπによって推定され、2番目の比率はロジスティック回帰分類器
によって条件付き確率P(η|z)を推定した後に計算される。ここで、ηはラベルとして扱われる。注意すべきことは、密度比の対数がLogReg
の場合に線形モデルによって与えられるということである。第2項ln N p /Nπは方程式(15)に示す我々のIRLの定式化で無視することができる。目的関数は
によって表される負の正則化対数尤度から導き出される。閉形式解は導き出されないが、この目的関数が凸関数であるので標準的な非線形最適化法によって効率良く最小化することができる。
いったん密度比π(y|x)/p(y|x)が推定されると、正則化付き最小二乗法は状態依存のコスト関数q(x)及び価値関数V(x)を推定するために利用される。
が負の対数比
の近似であると仮定し、方程式(6)及び(9)でそれぞれ定義されるように、q(x)及びV(x)の線形近似を考慮する。目的関数は
によって与えられる。ここで、λq及びλVは正則化定数である。L2型正則化は数値安定性を達成する効果的な手段であるため、L2型正則化はwVのために使用される。他方、L1型正則化は実験者によってより容易に解釈される疎性モデルをwqが生み出すために使用される。スパース性が重要でない場合、wqに対してL2型正則化を使用することは可能である。また、wqとwVの非負の拘束は導入されない。なぜなら、方程式(12)は非負のコスト関数を効率良く満足させるための設定
により使用することができるからである。
理論上、我々は任意の基底関数を選ぶことができる。本発明の一つの実施形態では、方程式(18)に示すガウシアン関数が簡略化ために使用される。
ここで、σは幅パラメータである。中央の位置
はDPから無作為に選択される。
<3.1.倒立振子の振り上げ>
<3.1.1.タスク記述>
本発明の上述した実施形態の有効性を実演して確認するために、本発明者らは状態ベクトルが2次元ベクトルx=[q,w]Tによって与えられる倒立振子振り上げ問題を研究した。ここで、qとwはそれぞれポールの角度と角速度を示している。運動方程式は以下の確率差分方程式
によって与えられる。ここで、l、m、g、κ、σ e、及びωは、それぞれ、ポールの長さ、質量、重力加速度、摩擦係数、ノイズ用スケーリングパラメータ、及びブラウニアンノイズを示している。以前の研究(Deisenrothら、2009、非特許文献4;Doya、2000、非特許文献5)とは対照的に、利用されたトルクは制限されておらず、直接振り上げることが可能である。時間軸をステップhで離散化することによって、ガウス分布によって表される、対応する状態遷移確率PT(y|x,u)が得られる。このシミュレーションでは、パラメータが以下のように与えられる。l=1[m]、m=1[kg]、g=9.8[m/s2]、κ=0.05[kgm2/s]、h=0.01[s]、σ e=4、及び
本発明者らは、以下のように(1)状態依存のコスト関数q(x)、(2)uncontrolled probability p(y|x)、及び(3)データセットDp及びDπを変更することによって、一連の実験を行った。
到達点はポールを直立状態に維持することであり、以下の3つのコスト関数
が用意される。ここで、Q=diag[1,0.2]。qexp(x)はDeisenrothら(2009)(非特許文献4)によって使用される一方で、qcost(x)はDoya(2000)によって使用される。
2つの密度pG(y|x)とpm(y|x)を考える。pG(y|x)はガウス分布によって表される確率的方策π(u|x)を使用することにより構築される。離散時間の運動方程式はガウス分布によって与えられるので、pG(y|x)もまたガウス分布である。pm(y|x)の場合では、混合ガウス分布が確率的方策として使用される。
2つのサンプリング方法を考える。一方は一様のサンプリングであり、他方は軌道に基づいたサンプリングである。一様のサンプリング方法では、xが状態空間全体で定義される一様分布からサンプリングされる。言い換えれば、p(x)及びπ(x)は一様分布として扱われる。その際、yはDp及びDπを構築するためにuncontrolled probabilityとcontrolled probabilityからそれぞれサンプリングされる。軌道に基づいたサンプリング方法では、p(y|x)及びπ(y|x)は同じ開始状態xから状態の軌道を生成するために使用される。その際、Dp及びDπを構築するために一対の状態遷移が軌道から無作為に選択される。p(x)はπ(x)と異なると期待される。
及び
から交差検証によって最適化される。ここで、linspace(xmin,xmax,n)はxminとxmaxの間で等間隔である一式のnポイントを生成する。
推定されたコスト関数の精度はテストサンプル
に対する正規化二乗誤差によって測定される。ここで、それぞれq(xj)は方程式(19)に示す状態xjにおける1つの真のコスト関数である一方、
は推定されたコスト関数である。図1(a)−(d)は本実施形態のIRL方法の精度を比べている。我々の方法(1)−(4)は全ての設定でOptVの方法(5)−(6)より良い成績を収めたことが示されている。より具体的には、LogReg−IRLは最良の成績を示したが、我々の方法(1)−(3)の中では大した差はなかった。もし確率的方策π(u|x)が混合ガウスによって与えられたなら、Gauss―IRLによって推定されたコストの精度は大幅に増加した。なぜなら、標準的なガウス過程は混合ガウスを表すことができないからである。
で最小であった。図2に示すように、また、上記図1でも説明したように、本発明の実施形態が十分に小さな誤差を有することが判明し、本発明の効果の有効性を確認した。
<3.2.1.タスク詳解>
我々のIRLアルゴリズムを現実の状況で評価するために、本発明者らはモーターで動的に制御するポールバランシング問題を行った。図3は実験手順を示している。被験者はポールを何回も揺らすために台座を左右上下に動かすことができ、倒立位置でバランスするようにポールを減速させる。ダイナミクスは6次元状態ベクトル
によって記載される。ここで、θと
はポールの角度と角速度であり、xとyは台座の水平位置と垂直位置である。そして、
と
はそれぞれその時間微分である。
とi番目の被験者のテスト用
を構築するために、軌道に基づいたサンプリング法が使用された。全ての被験者が、無作為な方策によって生成された、一様なuncontrolled probability p(y|x)を持ったと仮定する。これはトレーニング用
とテスト用
というデータセットが被験者間で共有されることを意味している。データセットのサンプル数は300だった。
図4は7つの被験者の学習曲線を示しているが、これは学習過程が被験者間で全く異なったことを示している。No.1とNo.3の2人の被験者はタスクを達成できなかった。成功軌道一式はIRLアルゴリズムによって使用されるべきであるので、我々はNo.2及びNo.4−No.7の5人の被験者からデータを拾い上げた。
に投影された、被験者4、5、及び7の推定されたコスト関数を示している一方で、x、y、
及び
は視覚化のためにゼロに設定されている。被験者7の場合、ロングポール条件のコスト関数はショートポール条件のコスト関数とそんなに異ならなかった一方、図4に示すようなショートポール条件ではうまくいかなかった、被験者5の場合とは顕著な違いがあった。
に対する負の対数尤度を計算した。ここで、
は、
のサンプル数である。図6は結果を示している。左の挿絵(a)で、我々はロングポール条件における被験者4のテストデータセット
を使用した。最小の負の対数尤度は同じ条件のトレーニングデータセット
及び
から推定されたコスト関数によって達成された。図6の右のパネル(b)は、ロングポール条件とショートポール条件の両方における被験者7のテストデータがロングポール条件だけにおける同じ被験者7のトレーニングデータセットから推定されたコスト関数によって最も良く予測されたことを示している。すなわち、本発明の実施形態の有効性及び有用性がこの実験によって同様に確認され、実証された。
A)モデルにとらわれない方法/システム:本発明の実施形態に係る方法及びシステムは環境ダイナミクスを事前に知る必要がない。すなわち、先行技術のいくつかのやり方は環境ダイナミクスが事前に知られているということを前提としているが、この方法/システムはモデルにとらわれない方法と扱われ、対象のダイナミクスをはっきりと作る必要がない。
B)データ効率:以前の多くの方法は状態の軌道一式を要求するが、本発明の実施形態に係る方法及びシステムのためのデータセットは状態遷移一式からなる。したがって、本発明の実施形態に係る方法及びシステムでは、データを集め易い。
C)計算効率(1):本発明の実施形態に係る方法及びシステムは(順)強化学習の問題を解く必要がない。対照的に、以前のいくつの方法は推定された報酬関数・推定されたコスト関数で何度もこのような順強化学習の問題を解くことを要求した。その計算は各候補に対して行わなければならず、最適解を発見するためには通常長い時間がかかる。
D)計算効率(2):本発明の実施形態に係る方法及びシステムは2つの最適化プログラム:(a)密度比推定、及び(b)正則化最小二乗、を使用する。対照的に、以前のいくつの方法は、最小二乗法と比較してたいてい最適化のための時間がかかる、確率的勾配法やマルコフ連鎖モンテカルロ法を使用している。
複雑なタスクを行うためのロボットをプログラミングすることは、モーションプランニングといった標準的な方法とともに困難である。多くの状況で、ロボットに対して設計された挙動を実演することの方がはるかに易しい。しかしながら、古典的な模倣学習の大きな欠点は、獲得したコントローラが実演された動作をただ再現するだけだから新しい状況に対処できないことである。本発明の実施形態は実演された挙動から目的関数を推定でき、その際、推定された目的関数は異なる状況に対する異なる挙動を学習するために使用することができる。
挙動の背後にある人間の意図を理解することはユーザフレンドリーな支援システムを構築する際に基本的な論点である。一般的に、挙動は、動作追跡システムによって抽出される、一連の状態によって表される。本発明の実施形態に係る逆強化学習の方法/システムによって推定されたコスト関数は、所定の挙動のデータセットを説明するためにコンパクトな表現として扱うことができる。推定されたコスト関数のパターン分類を通じて、ユーザの専門知識又は嗜好を推定することが可能になる。図9は本発明の実施形態に係るこの実施を概略的に示している。
ビジターに対して提供される記事を読むためのビジター用見込みを増加させるために、例えば、オンラインニュースサイトの設計者は意思決定の観点からビジターのWebエクスペリエンスを調査すべきである。特に、推奨システムは個人向けサービスに対する重要なビジネスアプリとして注目を浴びている。しかしながら、協調フィルタリングといった以前の方法は明らかに意思決定の順序を考慮していない。本発明の実施形態は、ネットサーフィン中のビジターの挙動をモデル化するための別の効果的な手法を提供することができる。図10は、トピックスがどんな順序でユーザによってアクセスされたかを示す、ユーザによる一連のクリックアクションの一例を示している。ビジターが読んでいるトピックスは状態として扱われ、リンクをクリックすることはアクションとして考慮される。その際、本発明の実施形態に係る逆強化学習はユーザのネットサーフィンでの意思決定を分析することができる。推定されたコスト関数はビジターの嗜好を表すので、ユーザ向けの記事のリストを推奨することができる。
Claims (9)
- 被験者の挙動についてのコスト関数及び価値関数を推定するための逆強化学習の方法であって、コンピュータが、
前記被験者の挙動を定義する状態変数の変化を表すデータを取得し、
方程式(1)によって与えられる修正ベルマン方程式を、取得した前記データに適用し、
ここで、q(x)とV(x)はそれぞれ状態xのコスト関数及び価値関数を示しており、γは割引率を表しており、p(y|x)とπ(y|x)はそれぞれ学習前後の状態遷移確率を示している。
方程式(1)における密度比π(y|x)/p(y|x)を推定し、
推定された前記密度比π(y|x)/p(y|x)に従って最小二乗法を使用して方程式(1)におけるq(x)及びV(x)を推定し、
推定された前記q(x)及び前記V(x)を出力する、
ことを特徴とする方法。 - 前記密度比π(y|x)/p(y|x)を推定するステップは、uLSIFを使用することを含む、
ことを特徴とする請求項1に記載の方法。 - 前記密度比π(y|x)/p(y|x)を推定するステップは、最小二乗条件付き密度推定(LSCDE)を使用することを含む、
ことを特徴とする請求項1に記載の方法。 - 前記密度比π(y|x)/p(y|x)を推定するステップは、ロジスティック回帰を使用することを含む、
ことを特徴とする請求項1に記載の方法。 - 前記密度比π(y|x)/p(y|x)を推定するステップは、ガウス過程を使用することを含む、
ことを特徴とする請求項1に記載の方法。 - 前記コスト関数q(x)及び前記価値関数V(x)を推定するステップは、正則化付き最小二乗法を使用することを含む、
ことを特徴とする請求項1に記載の方法。 - 被験者の挙動についてのコスト関数及び価値関数を推定するための逆強化学習用アルゴリズムをプロセッサに実行させる指示を記憶する非一時的な記憶媒体であって、前記指示は前記プロセッサに、
前記被験者の挙動を定義する状態変数の変化を表すデータを取得し、
方程式(1)によって与えられる修正ベルマン方程式を、取得した前記データに適用し、
ここで、q(x)とV(x)はそれぞれ状態xのコスト関数及び価値関数を示しており、γは割引率を表しており、p(y|x)とπ(y|x)はそれぞれ学習前後の状態遷移確率を示している。
方程式(1)における密度比π(y|x)/p(y|x)を推定し、
推定された前記密度比π(y|x)/p(y|x)に従って最小二乗法を使用して方程式(1)におけるq(x)及びV(x)を推定し、
推定された前記q(x)及び前記V(x)を出力する、
ステップを行わせることを特徴とする記憶媒体。 - 被験者の挙動についてのコスト関数及び価値関数を推定するための逆強化学習用システムであって、
前記被験者の挙動を定義する状態変数の変化を表すデータを取得するデータ取得手段と、
プロセッサとメモリが、
方程式(1)によって与えられる修正ベルマン方程式を、取得した前記データに適用し、
ここで、q(x)とV(x)はそれぞれ状態xのコスト関数及び価値関数を示しており、γは割引率を表しており、p(y|x)とπ(y|x)はそれぞれ学習前後の状態遷移確率を示している。
方程式(1)における密度比π(y|x)/p(y|x)を推定し、
推定された前記密度比π(y|x)/p(y|x)に従って最小二乗法を使用して方程式(1)におけるq(x)及びV(x)を推定する、
ように構成されたメモリ付きのプロセッサと、
推定された前記q(x)及び前記V(x)を出力する出力インタフェースと、
有するシステム。 - インターネットのウェブサーフィンでユーザが選んだ一連の記事から前記ユーザが読みそうな記事の嗜好を予測するためのシステムであって、
前記インターネットに接続されたコンピュータで実施される、請求項8に記載の逆強化学習用システムを含み、
前記被験者は前記ユーザであり、前記被験者の挙動を定義する前記状態変数は各ウェブページを閲覧している間に前記ユーザによって選ばれた記事のトピックスを含み、
前記プロセッサは、前記ユーザがインターネットウェブサイトを閲覧しているインタフェースに、推定された前記コスト関数及び前記価値関数に従って前記ユーザが読むための推奨記事を表示させる、
システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462034510P | 2014-08-07 | 2014-08-07 | |
US62/034,510 | 2014-08-07 | ||
PCT/JP2015/004001 WO2016021210A1 (en) | 2014-08-07 | 2015-08-07 | Inverse reinforcement learning by density ratio estimation |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017527022A JP2017527022A (ja) | 2017-09-14 |
JP6417629B2 true JP6417629B2 (ja) | 2018-11-07 |
Family
ID=55263500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017504116A Active JP6417629B2 (ja) | 2014-08-07 | 2015-08-07 | 逆強化学習の方法、逆強化学習用アルゴリズムをプロセッサに実行させる指示を記憶する記憶媒体、逆強化学習用システム、及び逆強化学習用システムを含む予測システム |
Country Status (6)
Country | Link |
---|---|
US (1) | US10896382B2 (ja) |
EP (1) | EP3178040A4 (ja) |
JP (1) | JP6417629B2 (ja) |
KR (1) | KR101966564B1 (ja) |
CN (1) | CN106575382B (ja) |
WO (1) | WO2016021210A1 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10896383B2 (en) | 2014-08-07 | 2021-01-19 | Okinawa Institute Of Science And Technology School Corporation | Direct inverse reinforcement learning with density ratio estimation |
EP3178040A4 (en) | 2014-08-07 | 2018-04-04 | Okinawa Institute of Science and Technology School Corporation | Inverse reinforcement learning by density ratio estimation |
US11077555B1 (en) * | 2015-12-07 | 2021-08-03 | AI Incorporated | Method to minimize collisions of mobile robotic device |
KR102198733B1 (ko) * | 2016-03-15 | 2021-01-05 | 각코호진 오키나와가가쿠기쥬츠다이가쿠인 다이가쿠가쿠엔 | 밀도 비 추정을 이용한 직접 역 강화 학습 |
US11188821B1 (en) * | 2016-09-15 | 2021-11-30 | X Development Llc | Control policies for collective robot learning |
US10902347B2 (en) | 2017-04-11 | 2021-01-26 | International Business Machines Corporation | Rule creation using MDP and inverse reinforcement learning |
JP6850678B2 (ja) * | 2017-05-22 | 2021-03-31 | 日本電信電話株式会社 | 動的潜在コスト推定装置、方法、及びプログラム |
GB2564668B (en) * | 2017-07-18 | 2022-04-13 | Vision Semantics Ltd | Target re-identification |
US10678241B2 (en) * | 2017-09-06 | 2020-06-09 | GM Global Technology Operations LLC | Unsupervised learning agents for autonomous driving applications |
KR102110791B1 (ko) * | 2018-02-27 | 2020-05-14 | 광주과학기술원 | 감정 인식 시스템 및 그 방법 |
US20210116930A1 (en) * | 2018-02-28 | 2021-04-22 | Sony Corporation | Information processing apparatus, information processing method, program, and mobile object |
US10586546B2 (en) | 2018-04-26 | 2020-03-10 | Qualcomm Incorporated | Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding |
US10734006B2 (en) | 2018-06-01 | 2020-08-04 | Qualcomm Incorporated | Audio coding based on audio pattern recognition |
US10580424B2 (en) * | 2018-06-01 | 2020-03-03 | Qualcomm Incorporated | Perceptual audio coding as sequential decision-making problems |
US11042640B2 (en) * | 2018-08-27 | 2021-06-22 | Vmware, Inc. | Safe-operation-constrained reinforcement-learning-based application manager |
US11231717B2 (en) * | 2018-11-08 | 2022-01-25 | Baidu Usa Llc | Auto-tuning motion planning system for autonomous vehicles |
CN110238855B (zh) * | 2019-06-24 | 2020-10-16 | 浙江大学 | 一种基于深度逆向强化学习的机器人乱序工件抓取方法 |
JP7171520B2 (ja) * | 2019-07-09 | 2022-11-15 | 株式会社日立製作所 | 機械学習システム |
US20220343180A1 (en) * | 2019-08-29 | 2022-10-27 | Nec Corporation | Learning device, learning method, and learning program |
CN110900598B (zh) * | 2019-10-15 | 2022-09-23 | 合肥工业大学 | 机器人三维运动空间动作模仿学习方法和系统 |
CN113706018A (zh) * | 2021-08-27 | 2021-11-26 | 广东电网有限责任公司 | 一种用户调峰行为的评估模型建立方法、评估方法及装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8359226B2 (en) | 2006-01-20 | 2013-01-22 | International Business Machines Corporation | System and method for marketing mix optimization for brand equity management |
GB0613955D0 (en) * | 2006-07-13 | 2007-01-10 | Bae Systems Plc | Controller |
DE102008020380B4 (de) * | 2008-04-23 | 2010-04-08 | Siemens Aktiengesellschaft | Verfahren zum rechnergestützten Lernen einer Steuerung und/oder Regelung eines technischen Systems |
US8478642B2 (en) | 2008-10-20 | 2013-07-02 | Carnegie Mellon University | System, method and device for predicting navigational decision-making behavior |
FR2947923B1 (fr) * | 2009-07-10 | 2016-02-05 | Aldebaran Robotics | Systeme et procede pour generer des comportements contextuels d'un robot mobile |
FR2963132A1 (fr) * | 2010-07-23 | 2012-01-27 | Aldebaran Robotics | Robot humanoide dote d'une interface de dialogue naturel, methode d'utilisation et de programmation de ladite interface |
CN102521205B (zh) * | 2011-11-23 | 2014-12-10 | 河海大学常州校区 | 基于多Agent强化学习的机器人联合搜索方法 |
US9090255B2 (en) | 2012-07-12 | 2015-07-28 | Honda Motor Co., Ltd. | Hybrid vehicle fuel efficiency using inverse reinforcement learning |
EP3178040A4 (en) | 2014-08-07 | 2018-04-04 | Okinawa Institute of Science and Technology School Corporation | Inverse reinforcement learning by density ratio estimation |
-
2015
- 2015-08-07 EP EP15829111.2A patent/EP3178040A4/en not_active Ceased
- 2015-08-07 CN CN201580042022.7A patent/CN106575382B/zh active Active
- 2015-08-07 US US15/329,690 patent/US10896382B2/en active Active
- 2015-08-07 WO PCT/JP2015/004001 patent/WO2016021210A1/en active Application Filing
- 2015-08-07 JP JP2017504116A patent/JP6417629B2/ja active Active
- 2015-08-07 KR KR1020177003433A patent/KR101966564B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
EP3178040A4 (en) | 2018-04-04 |
US20170213151A1 (en) | 2017-07-27 |
CN106575382A (zh) | 2017-04-19 |
KR20170037615A (ko) | 2017-04-04 |
WO2016021210A1 (en) | 2016-02-11 |
US10896382B2 (en) | 2021-01-19 |
KR101966564B1 (ko) | 2019-08-13 |
EP3178040A1 (en) | 2017-06-14 |
CN106575382B (zh) | 2021-12-21 |
JP2017527022A (ja) | 2017-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6417629B2 (ja) | 逆強化学習の方法、逆強化学習用アルゴリズムをプロセッサに実行させる指示を記憶する記憶媒体、逆強化学習用システム、及び逆強化学習用システムを含む予測システム | |
JP7157154B2 (ja) | 性能予測ニューラルネットワークを使用したニューラルアーキテクチャ探索 | |
US10896383B2 (en) | Direct inverse reinforcement learning with density ratio estimation | |
Böhmer et al. | Autonomous learning of state representations for control: An emerging field aims to autonomously learn state representations for reinforcement learning agents from their real-world sensor observations | |
CN113302605B (zh) | 鲁棒且数据效率的黑盒优化 | |
Bechtle et al. | Curious ilqr: Resolving uncertainty in model-based rl | |
US10885432B1 (en) | Selecting actions from large discrete action sets using reinforcement learning | |
US20220366247A1 (en) | Training action selection neural networks using q-learning combined with look ahead search | |
US12008077B1 (en) | Training action-selection neural networks from demonstrations using multiple losses | |
Todescato et al. | Multi-robots gaussian estimation and coverage control: From client–server to peer-to-peer architectures | |
CN110447041A (zh) | 噪声神经网络层 | |
US12005580B2 (en) | Method and device for controlling a robot | |
Andersen et al. | Active exploration for learning symbolic representations | |
Michini et al. | Scalable reward learning from demonstration | |
Yuvaraj et al. | Analysis on improving the response time with PIDSARSA-RAL in ClowdFlows mining platform | |
Wang et al. | Focused model-learning and planning for non-Gaussian continuous state-action systems | |
Hafez et al. | Topological Q-learning with internally guided exploration for mobile robot navigation | |
Theodoropoulos et al. | Cyber-physical systems in non-rigid assemblies: A methodology for the calibration of deformable object reconstruction models | |
JP6910074B2 (ja) | 密度比推定による直接逆強化学習 | |
JP2024522051A (ja) | 重み付けされたポリシー投影を使用した多目的強化学習 | |
Esposito et al. | Bellman residuals minimization using online support vector machines | |
Li et al. | A Method for Security Traffic Patrolling Based on Structural Coordinated Proximal Policy Optimization | |
Pathak et al. | Beyond games: Bringing exploration to robots in real-world | |
Yamaguchi et al. | Model-based reinforcement learning with missing data | |
Hwang et al. | Adaptive model learning based on dyna-Q learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170710 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170713 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180417 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180601 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180918 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180920 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6417629 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |