JP6910074B2 - 密度比推定による直接逆強化学習 - Google Patents
密度比推定による直接逆強化学習 Download PDFInfo
- Publication number
- JP6910074B2 JP6910074B2 JP2018546050A JP2018546050A JP6910074B2 JP 6910074 B2 JP6910074 B2 JP 6910074B2 JP 2018546050 A JP2018546050 A JP 2018546050A JP 2018546050 A JP2018546050 A JP 2018546050A JP 6910074 B2 JP6910074 B2 JP 6910074B2
- Authority
- JP
- Japan
- Prior art keywords
- equation
- estimated
- learning
- function
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims description 73
- 230000006870 function Effects 0.000 claims description 154
- 238000000034 method Methods 0.000 claims description 131
- 230000006399 behavior Effects 0.000 claims description 43
- 230000007704 transition Effects 0.000 claims description 42
- 230000008569 process Effects 0.000 claims description 26
- 238000004422 calculation algorithm Methods 0.000 claims description 25
- 230000009471 action Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 12
- 238000002474 experimental method Methods 0.000 description 10
- 230000008901 benefit Effects 0.000 description 9
- 230000001419 dependent effect Effects 0.000 description 9
- 238000005070 sampling Methods 0.000 description 7
- 230000006641 stabilisation Effects 0.000 description 7
- 238000011105 stabilization Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000002790 cross-validation Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000009827 uniform distribution Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 241000473391 Archosargus rhomboidalis Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 241000243621 Vandenboschia maxima Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004540 process dynamic Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
Description
他の側面では、本発明は、被験者の行動の報酬関数及び価値関数を推定する逆強化学習の方法であって、前記被験者の行動を定義する行為付き状態遷移を表すデータを取得し、式(3)により与えられる修正ベルマン方程式を、取得した前記データに適用し、
また、他の側面では、被験者の行動の報酬関数及び価値関数を推定する逆強化学習のシステムであって、前記被験者の行動を定義する状態変数の変化を表すデータを取得するデータ取得部と、メモリを備えるプロセッサであって、式(1)によって与えられる修正ベルマン方程式を取得した前記データに適用し、
他の側面では、本発明は、ユーザがインターネットウェブサーフィンにおいて選択した一連の記事から前記ユーザが読む可能性が高い記事のトピックの好みを予測するシステムであって、インターネットに接続されたコンピュータに実装された、請求項8に記載の逆強化学習のシステムを備え、前記被験者は前記ユーザであり、前記被験者の行動を定義する前記状態変数には、各ウェブページを閲覧中に前記ユーザが選択した記事のトピックが含まれ、前記プロセッサは、前記ユーザが前記ウェブページを閲覧しているインタフェースに、前記推定された報酬関数及び価値関数に従って前記ユーザが読むお勧めの記事を表示させる、システムを提供する。
他の側面では、本発明は、複雑なタスクを実行するようにロボットをプログラミングする方法であって、一連の状態及び動作を記録するようにタスクを達成するように第1のロボットを制御し、記録された状態及び動作のシーケンスに基づいて請求項8に記載の逆強化学習のシステムを使用して報酬関数及び価値関数を推定し、推定された報酬関数及び価値関数を第2のロボットの順強化学習制御装置に提供して、前記推定された報酬関数及び価値関数を用いて前記第2のロボットをプログラムする、処理を含む方法を提供する。
<1.線形可解マルコフ決定過程>
<1.1.順強化学習>
本開示は、マルコフ決定過程及び離散時間連続空間領域に対するその単純化を簡単に紹介する。X及びUをそれぞれ連続状態空間及び連続行為空間であるとする。タイムステップtにおいて、学習エージェントは、環境の現在の状態xt∈Xを観測し、確率的な制御則π(ut|xt)からサンプリングされた行為ut∈Uを実行する。その結果、環境から即時コストc(xt,ut)が与えられ、環境は、行為utの下でのxtからy∈Xへの状態遷移確率PT(y|xt,ut)に従って、状態を遷移させる。強化学習の目的は、与えられた目的関数を最小にする最適な制御則π(u|x)を構築することである。いくつかの目的関数が存在し、最も広く使用されているものは、
LMDP下の逆強化学習(IRL)アルゴリズムは、Dvijotham及びTodorov(2010)(非特許文献6)により提案された。特に、OptVは、離散状態問題に対して非常に効率的である。OptVの利点は、最尤法を適用して価値関数を推定できるように最適な状態遷移が明示的に価値関数によって表されることである。観測された軌道が最適状態遷移密度(5)によって生成されるとする。価値関数は、以下の線形モデルにより近似される。
<2.1.IRLのためのベルマン方程式>
式(4)及び(5)から、本発明者らは、割引コスト問題に対して次の重要な関係を導いた。
制御された遷移確率密度と制御されていない遷移確率密度との比を推定することは、密度比推定の問題とみなすことができる(Sugiyama et al.,2012,非特許文献20)。この問題の設定によれば、本開示は、以下の定式化を考慮する。
まず、一般的な設定を考慮する。状態遷移の2つのデータセットがあると仮定する。1つは、式(7)に示されるDπであり、もう1つは、制御されていない確率からのデータセット
状態遷移確率PT(y|x,u)は、標準的なIRL問題の場合には既知であると仮定され、これは、制御されていない確率p(y|x)がLMDPの場合に与えられているという仮定に対応する。これは、モデルベースのIRLと見なすことができる。この場合には、式(14)は、適切であり、データセットDπから制御された確率π(y|x)を推定すれば十分である。
この節では、本開示で開示されるIRL法に適した密度比推定アルゴリズムについて説明する。
<2.3.1.uLSIF>
uLSIF(Kanamori et al.,2009,非特許文献9)は、直接密度比推定方法のための最小二乗法である。uLSIFの目的は、2つの密度π(x)/p(x)とπ(x,y)/p(x,y)との比を推定することである。以下、簡略化のため、本開示では、Dp及びDπからr(z)=π(z)/p(z)(ここでz=(x,y))を推定する方法について説明する。線形モデル
LSCDE(Sugiyama et al.,2010,非特許文献19)は、条件付き確率密度関数を推定するためのuLSIFの特別なケースとみなされている。例えば、Dπからπ(y|x)=π(x,y)/π(x)を推定するための目的関数は、
LogRegはロジスティック回帰を用いた密度推定の方法である。セレクタ変数η=−1を制御されていない確率からのサンプルに割り当て、セレクタ変数η=1を制御された確率からのサンプルに割り当てる。
密度比π(y|x)/p(y|x)が推定されると、状態依存コスト関数q(x)及び状態依存価値関数V(x)を推定するために、正則化付き最小二乗法が適用される。
理論的には、任意の基底関数を選択することができる。発明の一実施形態では、式(18)に示されるガウス関数は簡略化のために使用される。
<3.1.振り上げ倒立振子>
<3.1.1.課題説明>
本発明の実施例1に属する上記実施形態の有効性を実証し確認するために、本発明者らは、状態ベクトルが2次元ベクトルx=[θ,ω]Tによって与えられる振り上げ倒立振子問題を研究した。ここで、θ及びωはそれぞれ、ポールの角度及び角速度を表す。運動方程式は、以下の確率微分方程式によって与えられる。
目標は、ポールを直立状態に保つことであり、次の3つのコスト関数を準備する。
2つの密度pG(y|x)及びpM(y|x)を考える。pG(y|x)は、ガウス分布で表される確率的制御則π(u|x)を用いて構築される。離散時間における運動方程式はガウス関数で与えられるので、pG(y|x)もガウス関数である。pM(y|x)の場合、ガウス分布の混合物が確率的制御則として使用される。
2つのサンプリング方法が考慮される。1つは均一なサンプリングであり、もう1つは軌道ベースのサンプリングである。均一サンプリング法では、xは状態空間全体にわたって定義された一様分布からサンプリングされる。つまり、p(x)及びπ(x)は、一様分布とみなされる。次に、制御されていない確率と制御された確率とからyをサンプリングして、Dp及びDπをそれぞれ構築する。軌道ベースのサンプリング方法では、同じ開始状態x0からの状態の軌道を生成するためにp(y|x)及びπ(y|x)を使用する。次に、Dp及びDπを構築するために、軌道から1組の状態遷移が無作為に選択される。p(x)は、π(x)とは異なることが予想される。
推定コスト関数の精度は、テストサンプルの正規化二乗誤差:
<3.2.1.課題説明>
IRLアルゴリズムを現実的な状況で評価するために、本発明者らは、動的モータ制御、ポール安定化問題を実施した。図3に実験設定を示す。被験者は、土台を左、右、上、下に動かしてポールを揺らし、ポールを減速させて直立位置でバランスさせる。ダイナミクスは、6次元の状態ベクトル
図4は、7人の被験者の学習曲線を示しており、被験者間で学習プロセスがかなり異なることを示している。2人の被験者番号1及び3はこの課題を達成できなかった。成功した軌道の集合はIRLアルゴリズムによって使用されるべきであるので、我々は5つの被験者番号2及び4〜7からデータを収集した。
図6は、結果を示す。左図(a)において、我々は、長いポールの条件における被験者の試験データセット
A)モデルフリーな方法/システム:本発明の実施形態による方法及びシステムは、環境ダイナミクスを事前に知る必要はない。すなわち、この方法/システムは、モデルフリーな方法――いくつかの先行技術のアプローチは環境ダイナミクスが事前に既知であると仮定しているが、目標ダイナミクスを明示的にモデル化する必要はない――と見なされる。
B)データ効率が良い:多くの従来の方法は状態の軌跡の集合を必要とする一方、本発明の実施形態による方法及びシステムのデータセットは状態遷移の集合からなる。したがって、本発明の実施形態による方法及びシステムでは、データを収集することがより容易である。
C)計算効率が良い(1):本発明の実施形態による方法及びシステムは、(順)強化学習問題を解く必要はない。対照的に、いくつかの従来の方法では、推定報酬/コスト関数を用いてこのような順強化学習問題を何度も解く必要があった。その計算は各候補について実行されなければならず、通常、最適解を見つけるのに長い時間がかかる。
D)計算効率が良い(2):本発明の実施形態による方法及びシステムは、(a)密度比推定及び(b)正則化最小二乗の2つの最適化アルゴリズムを使用する。対照的に、いくつかの従来の方法は、確率的勾配法またはマルコフ連鎖モンテカルロ法を使用するが、これは通常、最小二乗法と比較して最適化に時間がかかる。
ことが含まれる。
複雑なタスクを実行するようロボットをプログラミングすることは、運動計画などの標準的な方法では困難である。多くの場合、望まれる動作をロボットに示す方がはるかに容易である。しかし、古典的な模倣学習の主な欠点は、得られたコントローラが実演された動きを再現するだけなので、新しい状況に対処できないことである。本発明の実施形態は、実演された行動から目的関数を推定することができ、推定された目的関数を、異なる状況に対する異なる行動を学習するために使用することができる。
行動の背後にある人間の意図を理解することは、ユーザーフレンドリーな支援システムを構築する上で基本的な問題である。一般に、行動は、動作追跡システムによって抽出される一連の状態によって表される。本発明の一実施形態による逆強化学習方法/システムによって推定されたコスト関数は、与えられた行動データセットを説明するコンパクトな表現とみなすことができる。推定コスト関数のパターン分類により、ユーザの専門知識や好みを推定することが可能となる。図9は、本発明の一実施形態によるこの実装を概略的に示す図である。
訪問者が、訪問者に提示された記事を読む可能性を高めるために、例えば、オンラインニュースウェブサイトの設計者は、意思決定の観点から訪問者のウェブ体験を調査すべきである。特に、個人化されたサービスの重要なビジネスアプリケーションとして、リコメンドシステムが注目されている。しかし、協調フィルタリングのような従来の方法では、意思決定のシーケンスを明示的に考慮していない。本発明の実施形態は、ネットサーフィン中の訪問者の行動をモデル化する異なる効果的な方法を提供することができる。図10は、ユーザによる一連のクリック行為の例を示し、どのトピックがどの順序でユーザによってアクセスされたかを示している。訪問者が読んでいるトピックは状態とみなされ、リンクをクリックすることが行為とみなされる。次に、本発明の一実施形態による逆強化学習は、ユーザのネットサーフィンにおける意思決定を分析することができる。推定コスト関数は訪問者の好みを表すので、ユーザのための記事のリストを推薦することが可能となる。
いくつかの側面で実施例1よりも優れた特徴を有する実施例2について以下に説明する。図12は、実施例1と実施例2との相違点を模式的に示す図である。上述し、図12の(a)に示すように、実施例1では、密度比推定アルゴリズムを2回使用し、正則化最小二乗法を用いた。これに対し、本発明の実施例2では、標準密度比推定(DRE:density ratio estimation)アルゴリズムを用いて密度比π(x)/b(x)を推定し、それぞれ報酬関数及び価値関数であるr(x)及びV(x)を、ベルマン方程式を用いた密度比π(x,y)/b(x,y)の対数の推定により計算する。詳細には、実施例1では、次の3つのステップが必要であった。(1)標準DREアルゴリズムによりπ(x)/b(x)を推定し、(2)標準DREアルゴリズムによりπ(x,y)/b(x,y)を推定し、(3)ベルマン方程式を用いて正則化最小二乗法によりr(x)及びV(x)を計算する。これに対し、本発明の実施例2は、2段階最適化のみを使用する。(1)標準密度比推定(DRE)アルゴリズムによってlnπ(x)/b(x)を推定し、(2)ベルマン方程式を用いて、lnπ(x,y)/b(x,y)のDRE(2回目)によりr(x)及びV(x)を計算する。
本発明の実施例2の有効性をさらに実証し確認するために、実施例2、実施例1、及びRelEt−IRLについて、ロボットナビゲーションタスクを検討した。赤(r)、緑(g)、及び青(b)の3つのターゲットオブジェクトを、カメラの目を有するプログラム可能なロボットの前に置いた。目標は、3つのターゲットのうち緑(g)のターゲットに到達することであった。3つのターゲットの前に、5つの所定の開始位置A〜Eが並べられた。訓練データは開始位置A〜C及びEから収集し、試験データは開始位置Dを使用して取得した。状態ベクトルは以下の通りであった。x=[θr,Nr,θg,Ng,θb,Nb,θpan,θtilt]T。ここで、θi(i=r,g,b)は、ターゲットに対する角度、Ni(i=r,g,b)はブロブサイズ、θpan及びθtiltは、ロボットのカメラの角度である。V(x)の基底関数は、次のように与えられる。
Claims (10)
- 被験者の行動の報酬関数及び価値関数を推定する逆強化学習の方法であって、
前記被験者の行動を定義する状態変数の変化を表すデータを取得し、
式(1)によって与えられる修正ベルマン方程式を取得した前記データに適用し、
式(2)における密度比π(x)/b(x)の対数を推定し、
密度比π(x,y)/b(x,y)の対数の推定結果から、式(2)におけるr(x)及びV(x)を推定し、
推定されたr(x)及びV(x)を出力する、
処理を含む方法。 - 前記比π(x)/b(x)及びπ(x,y)/b(x,y)の対数を推定する処理は、対数線形モデルを有するカルバック・ライブラー重要度推定過程(KLIEP:Kullback-Leibler Importance Estimation Procedure)を使用する処理を含む、
請求項1記載の方法。 - 前記比π(x)/b(x)及びπ(x,y)/b(x,y)の対数を推定する処理は、ロジスティクス回帰を使用する処理を含む、
請求項1記載の方法。 - 被験者の行動の報酬関数及び価値関数を推定する逆強化学習の方法であって、
前記被験者の行動を定義する行為付き状態遷移を表すデータを取得し、
式(3)により与えられる修正ベルマン方程式を、取得した前記データに適用し、
式(3)における密度比π(x)/b(x)の対数を推定し、
密度比π(x,u)/b(x,u)の対数の推定結果から、式(4)におけるr(x)及びV(x)を推定し、
推定したr(x)及びV(x)を出力する、
処理を含む方法。 - 前記比π(x)/b(x)及びπ(x,u)/b(x,u)の対数を推定する処理は、対数線形モデルを有するカルバック・ライブラー重要度推定過程(KLIEP:Kullback-Leibler Importance Estimation Procedure)を使用する処理を含む、
請求項4記載の方法。 - 前記比π(x)/b(x)及びπ(x,u)/b(x,u)の対数を推定する処理は、ロジスティクス回帰を使用する処理を含む、
請求項4記載の方法。 - プロセッサに、被験者の行動の報酬関数及び価値関数を推定するための逆強化学習アルゴリズムを実行させる命令を記憶する非一時記憶媒体であって、前記命令は、
前記被験者の行動を定義する状態変数の変化を表すデータを取得し、
式(1)によって与えられる修正ベルマン方程式を取得した前記データに適用し、
式(2)における密度比π(x)/b(x)の対数を推定し、
密度比π(x,y)/b(x,y)の対数の推定結果から、式(2)におけるr(x)及びV(x)を推定し、
推定されたr(x)及びV(x)を出力する、
処理を前記プロセッサに実行させる、非一時記憶媒体。 - 被験者の行動の報酬関数及び価値関数を推定する逆強化学習のシステムであって、
前記被験者の行動を定義する状態変数の変化を表すデータを取得するデータ取得部と、
メモリを備えるプロセッサであって、
式(1)によって与えられる修正ベルマン方程式を取得した前記データに適用し、
式(2)における密度比π(x)/b(x)の対数を推定し、
密度比π(x,y)/b(x,y)の対数の推定結果から、式(2)におけるr(x)及びV(x)を推定するよう構成された、前記プロセッサと、
推定されたr(x)及びV(x)を出力する出力インタフェースと、
を備えるシステム。 - ユーザがインターネットウェブサーフィンにおいて選択した一連の記事から前記ユーザが読む可能性が高い記事のトピックの好みを予測するシステムであって、
インターネットに接続されたコンピュータに実装された、請求項8に記載の逆強化学習のシステムを備え、
前記被験者は前記ユーザであり、前記被験者の行動を定義する前記状態変数には、各ウェブページを閲覧中に前記ユーザが選択した記事のトピックが含まれ、
前記プロセッサは、前記ユーザが前記ウェブページを閲覧しているインタフェースに、前記推定された報酬関数及び価値関数に従って前記ユーザが読むお勧めの記事を表示させる、
システム。 - 複雑なタスクを実行するようにロボットをプログラミングする方法であって、
一連の状態及び動作を記録するようにタスクを達成するように第1のロボットを制御し、
記録された状態及び動作のシーケンスに基づいて請求項8に記載の逆強化学習のシステムを使用して報酬関数及び価値関数を推定し、
推定された報酬関数及び価値関数を第2のロボットの順強化学習制御装置に提供して、前記推定された報酬関数及び価値関数を用いて前記第2のロボットをプログラムする、
処理を含む方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662308722P | 2016-03-15 | 2016-03-15 | |
US62/308,722 | 2016-03-15 | ||
PCT/JP2017/004463 WO2017159126A1 (en) | 2016-03-15 | 2017-02-07 | Direct inverse reinforcement learning with density ratio estimation |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019508817A JP2019508817A (ja) | 2019-03-28 |
JP6910074B2 true JP6910074B2 (ja) | 2021-07-28 |
Family
ID=59851115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018546050A Active JP6910074B2 (ja) | 2016-03-15 | 2017-02-07 | 密度比推定による直接逆強化学習 |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP3430578A4 (ja) |
JP (1) | JP6910074B2 (ja) |
KR (1) | KR102198733B1 (ja) |
CN (1) | CN108885721B (ja) |
WO (1) | WO2017159126A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230186099A1 (en) * | 2020-05-11 | 2023-06-15 | Nec Corporation | Learning device, learning method, and learning program |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8359226B2 (en) * | 2006-01-20 | 2013-01-22 | International Business Machines Corporation | System and method for marketing mix optimization for brand equity management |
US8756177B1 (en) * | 2011-04-18 | 2014-06-17 | The Boeing Company | Methods and systems for estimating subject intent from surveillance |
US9090255B2 (en) * | 2012-07-12 | 2015-07-28 | Honda Motor Co., Ltd. | Hybrid vehicle fuel efficiency using inverse reinforcement learning |
EP3178040A4 (en) * | 2014-08-07 | 2018-04-04 | Okinawa Institute of Science and Technology School Corporation | Inverse reinforcement learning by density ratio estimation |
CN104573621A (zh) * | 2014-09-30 | 2015-04-29 | 李文生 | 基于Chebyshev神经网络的动态手势学习和识别方法 |
-
2017
- 2017-02-07 KR KR1020187026764A patent/KR102198733B1/ko active IP Right Grant
- 2017-02-07 CN CN201780017406.2A patent/CN108885721B/zh active Active
- 2017-02-07 WO PCT/JP2017/004463 patent/WO2017159126A1/en active Application Filing
- 2017-02-07 JP JP2018546050A patent/JP6910074B2/ja active Active
- 2017-02-07 EP EP17766134.5A patent/EP3430578A4/en not_active Ceased
Also Published As
Publication number | Publication date |
---|---|
KR20180113587A (ko) | 2018-10-16 |
CN108885721A (zh) | 2018-11-23 |
WO2017159126A1 (en) | 2017-09-21 |
EP3430578A4 (en) | 2019-11-13 |
KR102198733B1 (ko) | 2021-01-05 |
JP2019508817A (ja) | 2019-03-28 |
CN108885721B (zh) | 2022-05-06 |
EP3430578A1 (en) | 2019-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6417629B2 (ja) | 逆強化学習の方法、逆強化学習用アルゴリズムをプロセッサに実行させる指示を記憶する記憶媒体、逆強化学習用システム、及び逆強化学習用システムを含む予測システム | |
US10896383B2 (en) | Direct inverse reinforcement learning with density ratio estimation | |
Rafailov et al. | Offline reinforcement learning from images with latent space models | |
Mandlekar et al. | Learning to generalize across long-horizon tasks from human demonstrations | |
Levine | Reinforcement learning and control as probabilistic inference: Tutorial and review | |
Siekmann et al. | Learning memory-based control for human-scale bipedal locomotion | |
Böhmer et al. | Autonomous learning of state representations for control: An emerging field aims to autonomously learn state representations for reinforcement learning agents from their real-world sensor observations | |
Andersen et al. | Active exploration for learning symbolic representations | |
Wang et al. | Focused model-learning and planning for non-Gaussian continuous state-action systems | |
Chen et al. | Flow-based recurrent belief state learning for pomdps | |
Amini et al. | POMCP-based decentralized spatial task allocation algorithms for partially observable environments | |
JP6910074B2 (ja) | 密度比推定による直接逆強化学習 | |
Mo et al. | Multi-step motion learning by combining learning-from-demonstration and policy-search | |
Matsumoto et al. | Mobile robot navigation using learning-based method based on predictive state representation in a dynamic environment | |
Li et al. | Bellman gradient iteration for inverse reinforcement learning | |
JP2024522051A (ja) | 重み付けされたポリシー投影を使用した多目的強化学習 | |
Gorodetskiy et al. | Model-Based Policy Optimization with Neural Differential Equations for Robotic Arm Control | |
Zhou et al. | Bayesian inference for data-efficient, explainable, and safe robotic motion planning: A review | |
Xu et al. | Decision-making among bounded rational agents | |
Angelov et al. | From demonstrations to task-space specifications. Using causal analysis to extract rule parameterization from demonstrations | |
Okadome et al. | Predictive control method for a redundant robot using a non-parametric predictor | |
Gottschalk | Differential Equation Based Framework for Deep Reinforcement Learning | |
Pinto et al. | One-shot learning in the road sign problem | |
Bosch et al. | Planning from Images with Deep Latent Gaussian Process Dynamics | |
Keurulainen | Improving the sample efficiency of few-shot reinforcement learning with policy embeddings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181101 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210312 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210622 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210629 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6910074 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |