JP6417629B2 - 逆強化学習の方法、逆強化学習用アルゴリズムをプロセッサに実行させる指示を記憶する記憶媒体、逆強化学習用システム、及び逆強化学習用システムを含む予測システム - Google Patents

逆強化学習の方法、逆強化学習用アルゴリズムをプロセッサに実行させる指示を記憶する記憶媒体、逆強化学習用システム、及び逆強化学習用システムを含む予測システム Download PDF

Info

Publication number
JP6417629B2
JP6417629B2 JP2017504116A JP2017504116A JP6417629B2 JP 6417629 B2 JP6417629 B2 JP 6417629B2 JP 2017504116 A JP2017504116 A JP 2017504116A JP 2017504116 A JP2017504116 A JP 2017504116A JP 6417629 B2 JP6417629 B2 JP 6417629B2
Authority
JP
Japan
Prior art keywords
reinforcement learning
equation
estimating
density ratio
cost function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017504116A
Other languages
English (en)
Other versions
JP2017527022A (ja
Inventor
英治 内部
英治 内部
賢治 銅谷
賢治 銅谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
kinawa Institute of Science and Technology Graduate University
Original Assignee
kinawa Institute of Science and Technology Graduate University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by kinawa Institute of Science and Technology Graduate University filed Critical kinawa Institute of Science and Technology Graduate University
Publication of JP2017527022A publication Critical patent/JP2017527022A/ja
Application granted granted Critical
Publication of JP6417629B2 publication Critical patent/JP6417629B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、密度比推定による逆強化学習、特に、逆強化学習のシステム及び方法に関する。この出願は、参考として、2014年8月7日に出願された米国特許仮出願番号第62/034,510号の全体をここに組み込んでいる。
観察から人間の挙動を理解することは、人間と相互作用できる人工システムを発展させるために、とても重要である。我々の意思決定の過程は、選択されたアクションと関連付けられた報酬や費用に影響を受けるので、観察した挙動から報酬/費用の推定として問題を定式化することができる。
逆強化学習の発想は、元はNg and Russel(2000)(非特許文献14)によって提案されている。Dvijotham and Todorov(2010)(非特許文献6)によって提案されたOptVアルゴリズムは事前作業であり、デモンストレータの方策が、線形ベルマン方程式の解である価値関数によって近似されることを示している。
一般的に言えば、強化学習(RL)は、環境と相互作用することによって最適な方策を学習できる生体システム及び人工システム双方の意思決定過程を調査するための計算の枠組みである。RLには解決されていないいくつもの疑問が存在しており、1つの重大な問題は適切な報酬関数/コスト関数を設計し用意する方法である。タスクが成し遂げられるときには正の報酬を与え、そうでなければゼロを与える、疎な報酬関数を設計することは易しいが、それが最適な方策の発見を困難にしている。
いくつかの状況では、所望の挙動の例を用意することは適切な報酬関数/コスト関数を手作りすることより易しい。近年、デモンストレータのパフォーマンスから報酬関数/コスト関数を導き出すために、かつ、模倣学習を実施するために、逆強化学習(IRL)(Ng and Russel、2000、非特許文献14)と徒弟学習(Abbeel & Ng、2004、非特許文献1)のいくつもの方法が提案されてきた。しかしながら、現行の研究(Abbeel & Ng、2004、非特許文献1;Ratliffら、2009、非特許文献16;Ziebartら、2008、非特許文献26)のほとんどは推定された報酬関数/コスト関数と共に順強化学習の問題を解くためのルーティンを要求する。この処理はたとえ環境のモデルが利用可能であるときでも、通常、とても時間を食う。
最近では、線形可解マルコフ決定過程(LMDP)のコンセプトが紹介されている(Todorov,2007;2009,NPLs23−24)。LMDPはコスト関数の形式を制限することによるマルコフ決定過程の下位分類である。この制限はIRLにおいて重要な役割を果たす。LMDPはKL制御や経路積分型アプローチ(Kappenら,2012,非特許文献10;Theodorouら,2010,非特許文献21)としても知られており、類似の考えが制御理論の分野で提案されている(Fleming and Soner,2006,非特許文献7)。経路積分法に基づくモデルフリーなIRLアルゴリズムはAghasadeghi&Bretl(2011)(非特許文献2);Kalakrishnanら(2013)(非特許文献8)によって提案されている。最適な軌跡の尤度はコスト関数によってパラメータ化されるので、コストのパラメータを最大化尤度によって最適化することができる。しかしながら、これらの方法は軌跡全体のデータを要求する。モデルベースのIRL法はLMDPの枠組みに基づくDvijotham and Todorov(2010)(非特許文献6)によって提案されている。この中で、最適な状態遷移の尤度が価値関数により表わされている。IRLの経路積分型アプローチとは対照的に、状態遷移のあらゆるデータセットから最適化することができる。大きな欠点は、解析的に解決できない積分を評価することである。実際、これらは積分を総和と交換するために状態空間を離散化したが、高次元の連続問題で実現不可能である。
Abbeel, P. and Ng, A.Y., "Apprenticeship learning via inverse reinforcement learning", The 21st International Conference on Machine Learning, 2004. Aghasadeghi, N. and Bretl, T., "Maximum entropy inverse reinforcement learning in continuous state spaces with path integrals", IEEE/RSJ International Conference on Intelligent Robots and Systems, pp.1561-1566, 2011. Boularias, A., Kober, J. and Peters, J., "Relative entropy inverse reinforcement learning", The 14th International Conference on Artificial Intelligence and Statistics, volume 15, 2011. Deisenroth, M.P., Rasmussen, C.E and Peters, J., "Gaussian process dynamic programming", Neurocomputing, 72(7-9):1508-1524, 2009. Doya, K. "Reinforcement learning in continuous time and space", Neural Computation, 12:219-245, 2000. Dvijotham, K. and Todorov, E., "Inverse optimal control with linearly solvable MDPs", The 27th International Conference on Machine Learning, 2010. Fleming, W.H. and Soner, H.M., "Controlled Markov Processes and Viscosity Solutions", Springer, second edition, 2006. Kalakrishnan, M., Pastor, P., Righetti, L. and Schaal, S., "Learning objective functions for manipulation", IEEE International Conference on Robotics and Automation, pp.1331-1336, 2013. Kanamori, T., Hido, S. and Sugiyama, M., "A Least-squares Approach to Direct Importance Estimation", Journal of Machine Learning Research, 10:1391-1445, 2009. Kappen, H.J., Gomez, V. and Opper, M., "Optimal control as a graphical model inference problem", Machine Learning, 87(2):159-182, 2012. Kinjo, K., Uchibe, E. and Doya, K., "Evaluation of linearly solvable Markov decision process with dynamic model learning in a mobile robot navigation task", Frontiers in Neurorobotics, 7(7), 2013. Levine, S. and Koltun, V., "Continuous inverse optimal control with locally optimal examples", The 27th International Conference on Machine Learning, 2012. Levine, S., Popovi?, Z. and Koltun, V., "Nonlinear inverse reinforcement learning with Gaussian processes", Advances in Neural Information Processing Systems 24, pp.19-27. 2011. Ng, A.Y. and Russell, S., "Algorithms for inverse reinforcement learning", The 17th International Conference on Machine Learning, 2000. Rasmussen, C.E. and Williams, C.K.I., "Gaussian Processes for Machine Learning", MIT Press, 2006. Ratliff, N.D., Silver, D and Bagnell, J.A., "Learning to search: Functional gradient techniques for imitation learning", Autonomous Robots, 27(1):25-53, 2009. Stulp, F. and Sigaud, O., "Path integral policy improvement with covariance matrix adaptation", The 10th European Workshop on Reinforcement Learning, 2012. Sugimoto, N. and Morimoto, J., "Phase-dependent trajectory optimization for periodic movement using path integral reinforcement learning", The 21st Annual Conference of the Japanese Neural Network Society, 2011. Sugiyama, M., Takeuchi, I., Suzuki, T., Kanamori, T., Hachiya, H. and Okanohara, D., "Least-squares conditional density estimation", IEICE Transactions on Information and Systems, E93-D(3):583-594, 2010. Sugiyama, M., Suzuki, T. and Kanamori, T., "Density ratio estimation in machine learning", Cambridge University Press, 2012. Theodorou, E., Buchli, J. and Schaal, S., "A generalized path integral control approach to reinforcement learning", Journal of Machine Learning Research, 11:3137-3181, 2010. Theodorou, E.A and Todorov, E., "Relative entropy and free energy dualities: Connections to path integral and KL control", The 51st IEEE Conference on Decision and Control, pp.1466-1473, 2012. Todorov, E., "Linearly-solvable Markov decision problems", Advances in Neural Information Processing Systems 19, pp.1369-1376. MIT Press, 2007. Todorov, E., "Efficient computation of optimal actions", Proceedings of the National Academy of Sciences of the United States of America, 106(28): 11478-83, 2009. Todorov, E., "Eigenfunction approximation methods for linearly-solvable optimal control problems", The 2nd IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning, pp.161-168, 2009. Ziebart, B.D., Maas, A., Bagnell, J.A. and Dey, A.K., "Maximum entropy inverse reinforcement learning", The 23rd AAAI Conference on Artificial Intelligence, 2008.
逆強化学習は上記課題を解決するための枠組みであるが、上述したように、現行の方法は以下の欠点がある(1)状態が連続するときの解決困難、(2)計算コストが高い、(3)推定のために状態の軌跡全体を必要とすべき。この開示に開示される方法はこれらの欠点を解決する。特に、非特許文献14で提案された以前の方法は、報告された以前の多くの研究のようにはうまくはいかない。さらに、これらのアルゴリズムは積分の複雑な評価を含むので、実際、非特許文献6で提案された方法は連続問題を解決できない。
本発明は、逆強化学習のためのシステム及び方法を対象とする。
本発明の目的は、従来技術の1以上の課題を除去するように新規で改良された逆強化学習のシステム及び方法を提供することである。
本発明の目的に従って、且つ、これらの利点及びその他の利点を達成するために、具現化しかつ広く記載されているように、1つの態様では、本発明は、被験者の挙動についてのコスト関数及び価値関数を推定するための逆強化学習の方法であって、コンピュータが、前記被験者の挙動を定義する状態変数の変化を表すデータを取得し、方程式(1)によって与えられる修正ベルマン方程式を、取得した前記データに適用し、
ここで、q(x)とV(x)はそれぞれ状態xのコスト関数及び価値関数を示しており、γは割引率を表しており、p(y|x)とπ(y|x)はそれぞれ学習前後の状態遷移確率を示している。方程式(1)における密度比π(y|x)/p(y|x)を推定し、推定された前記密度比π(y|x)/p(y|x)に従って最小二乗法を使用して方程式(1)におけるq(x)及びV(x)を推定し、推定された前記q(x)及び前記V(x)を出力する、ことを特徴とする方法を提供する。
別の点では、本発明は、被験者の挙動についてのコスト関数及び価値関数を推定するための逆強化学習用アルゴリズムをプロセッサに実行させる指示を記憶する、CD−ROMや他の形式の非一時的な記憶媒体といった、非一時的な記憶媒体であって、前記指示は前記プロセッサに、前記被験者の挙動を定義する状態変数の変化を表すデータを取得し、方程式(1)によって与えられる修正ベルマン方程式を、取得した前記データに適用し、
ここで、q(x)とV(x)はそれぞれ状態xのコスト関数及び価値関数を示しており、γは割引率を表しており、p(y|x)とπ(y|x)はそれぞれ学習前後の状態遷移確率を示している。方程式(1)における密度比π(y|x)/p(y|x)を推定し、推定された前記密度比π(y|x)/p(y|x)に従って最小二乗法を使用して方程式(1)におけるq(x)及びV(x)を推定し、推定された前記q(x)及び前記V(x)を出力する、ステップを行わせることを特徴とする記憶媒体を提供する。
別の点では、本発明は、被験者の挙動についてのコスト関数及び価値関数を推定するための逆強化学習用システムであって、前記被験者の挙動を定義する状態変数の変化を表すデータを取得するデータ取得手段と、プロセッサとメモリが、方程式(1)によって与えられる修正ベルマン方程式を、取得した前記データに適用し、
ここで、q(x)とV(x)はそれぞれ状態xのコスト関数及び価値関数を示しており、γは割引率を表しており、p(y|x)とπ(y|x)はそれぞれ学習前後の状態遷移確率を示している。方程式(1)における密度比π(y|x)/p(y|x)を推定し、推定された前記密度比π(y|x)/p(y|x)に従って最小二乗法を使用して方程式(1)におけるq(x)及びV(x)を推定する、ように構成されたメモリ付きのプロセッサと、推定された前記q(x)及び前記V(x)を出力する出力インタフェースと、有するシステムを提供する。
別の点では、本発明は、インターネットのウェブサーフィンでユーザが選んだ一連の記事から前記ユーザが読みそうな記事の嗜好を予測するためのシステムであって、前記インターネットに接続されたコンピュータで実施される、上述した逆強化学習用システムを含み、前記被験者は前記ユーザであり、前記被験者の挙動を定義する前記状態変数は各ウェブページを閲覧している間に前記ユーザによって選ばれた記事のトピックスを含み、前記プロセッサは、前記ユーザがインターネットウェブサイトを閲覧しているインタフェースに、推定された前記コスト関数及び前記価値関数に従って前記ユーザが読むための推奨記事を表示させる、システムを提供する。
本発明の1以上の態様によれば、逆強化学習を効果的かつ効率良く行うことが可能になる。いくつかの実施形態では、環境ダイナミクスを事前に知る必要がなく、積分を実行する必要がない。
本発明の追加の又は個々の特徴と利点は、以下の記載において説明され、一部はその記載から明らかであり、あるいは、本発明の実施により習得することができる。本発明の目的と他の利点は添付図面だけでなくその明細書及び特許請求の範囲において特に指摘される構成によって実現され、達成されることになる。
上述の一般的な説明及び後述の詳細な説明は、いずれも具体例であって例示を目的としており、特許請求されている本発明の範囲の詳しい説明を提供することが意図されていることを理解すべきである。
図1は、本発明の実施形態が以下の密度比推定法(1)LSCDE−IRL、(2)uLSIF−IRL、(3)LogReg−IRL、(4)Gauss−IRL、(5)LSCDE−OptV、及び(6)Gauss−OptVの各々に適用された、倒立振り子の振り上げ実験の結果に対する正規化二乗誤差を示している。 図2は、倒立振り子の振り上げ実験の交差検証誤差をさまざまな密度比推定法に対して示したグラフである。 図3は、ロングポールに対するポールバランシングタスクの実験手順を示しており、左がスタート位置、中央がゴール位置、右が状態変数を示している。 図4は、本発明の実施形態に係る、さまざまな対象者に関するポールバランシングタスク実験の学習曲線を示しており、実線がロングポールを示し、破線がショートポールを示している。 図5は、規定部分空間に投影された、対象者番号4、5及び7に対する本発明の実施形態に係るポールバランシングタスク実験に対して導き出された推定コスト関数を示している。 図6は、推定コスト関数を評価する、対象者番号4及び7のポールバランシングタスク実験のテストデータセットに対する負の対数尤度値を示している。 図7は、デモンストレータによって生成された観察した状態遷移から目的関数を推測できる、本発明の実施形態に係る逆強化学習の枠組みを概略的に示している。 図8は、ロボットの挙動を模倣学習する際の本発明の逆強化学習の実施例を示す概略的なブック図である。 図9は、人間の挙動を解釈する際の本発明の逆強化学習の実施例を示す概略的なブック図である。 図10は、ウェブビジターによる、ウェブサーフィンの際のトピックスにおけるビジターの嗜好を示す一連のクリックアクションを概略的に示している。 図11は、本発明の実施形態に係る逆強化学習システムの一例を概略的に示している。
本開示は、線形可解マルコフ決定過程(LMDP)の枠組みの下における密度比推定に基づく新規な逆強化学習方法及びシステムを提供する。LMDPでは、制御された状態遷移密度と制御されていない状態遷移密度の対数比が状態依存のコスト関数と価値関数によって表される。本発明の1つの態様では、密度比推定方法は遷移密度比を推定するために使用され、正則化付き最小二乗法はその関係を満足する状態依存のコスト関数と価値関数を推定するために使用される。この方法は分配関数を評価するといった積分の計算を回避することができる。後述するように、振り子の振り上げの簡易な数値シミュレーションが行われ、慣用的な方法を超えるその優位性が実証された。本発明者らはさらにその方法をポールバランシングタスク実行時の人間の挙動に適用し、満足のいくやり方で推定されたコスト関数が新たな試行や環境において被験者のパフォーマンスを予測できることを示す。
本発明の1つの態様はOptVアルゴリズムのような線形可解マルコフ決定過程の枠組みに基づいている。本発明者らは以下によって与えられる新規なベルマン方程式を導き出した。
ここで、q(x)とV(x)は状態xのコスト関数及び価値関数を示しており、γは割引率を表している。p(y|x)とπ(y|x)はそれぞれ学習前の状態遷移確率と学習後の状態遷移確率を示している。上記方程式の左手側、密度比は密度比推定法により、観察された挙動から効率良く計算されている。いったん密度比が推定されると、コスト関数及び価値関数は正則化最小二乗法によって推定することができる。重要な特徴は、我々の方法が、たいてい高い計算コストで算出される積分の計算を回避できるということである。本発明者らはこの方法をポールバランシングタスク実行時の人間の挙動に適用し、制御システム、機械学習、オペレーションズリサーチ、情報理論などにおいてよく認識された広い利用可能性を有する逆強化学習でこの新たな計算技術の万能な利用可能性及び有効性を確かめながら、推定されたコスト関数が新たな試行や環境で被験者のパフォーマンスを予測できることを示している。
<1.線形可解マルコフ決定過程>
<1.1.順強化学習>
本開示はマルコフ決定過程と離散時間連続空間のためのその単純化について簡単に紹介する。連続的な状態と連続的な行動空間をそれぞれXとUとする。ある時間ステップtで、学習エージェントは環境の現在の状態
を観察し、確率的方策からサンプリングされた行動
を実行する。その結果として、中間コストc(x,u)がその環境から与えられ、行動uの下でxから
までの状態遷移確率P(y|x,u)に従って環境が状態遷移を作成する。強化学習のゴールは所定の目的関数を最小化する最適な方策π(u|x)を構築することである。いくつもの目的関数が存在するが、最も広く使用されるものは
によって与えられた割り引かれたコストの和である。ここで、
は、割引率と呼ばれる。最適価値関数は以下のベルマン方程式を満たすことが知られている。
方程式(2)はminの作用素に起因する非線形な方程式である。
線形可解マルコフ決定過程(LMDP)はいくつかの仮定の下で方程式(2)を簡略化する(Todorov,2007;2009a,非特許文献23−24)。LMDPのキートリックは、方策を最適化する代わりに状態遷移確率を直接最適化することである。より具体的に、2つの条件付き確率密度関数を紹介する。一方は、p(y|x)によって示され、固有の状態遷移として扱うことができるuncontrolled probabilityである。p(y|x)は任意であり、
によって構築することができる。ここで、π(u|x)はランダムな方策である。他方は、π(y|x)によって示され、最適な状態遷移として解釈することができるcontrolled probabilityである。その際、コスト関数は以下の形式に制限される。
ここで、q(x)とKL(p(・|x)||p(・|x))はそれぞれ状態依存コスト関数と制御された状態遷移密度と制御されてない状態遷移密度の間のカルバック・ライブラー情報量を示している。この場合、ベルマン方程式(2)は以下の方程式に簡略化される。
最適なcontrolled probabilityは
によって与えられる。注目すべきは、たとえ希望関数Z(x)=exp(−V(x))が導入されても、割引率γが存在するので、方程式(4)が依然として非線形であるということである。LMDPの枠組みの下での順強化学習では、V(x)は方程式(4)を解くことによって計算され、その際にπ(y|x)が計算される(Todorov,2009,非特許文献25)。
<1.2.逆強化学習>
LMDP下における逆強化学習(IRL)アルゴリズムはDvijotham and Todorov(2010)(非特許文献6)により提案された。特に、OptVは離散状態問題に極めて効率的である。OptVの利点は、価値関数の推定に最尤法が適用できるように、最適な状態遷移が価値関数によって明確に表されることである。観察された軌道が最適な状態遷移密度(5)によって生成されると仮定する。価値関数は以下の線形モデルによって近似される。
ここで、wとψ(x)はそれぞれ学習の重みと基底関数ベクトルを示している。
controlled probabilityは方程式(5)によって与えられるので、重みベクトルwは尤度を最大化することによって最適化することができる。状態遷移のデータセット
を持つと仮定する。ここで、Nπはcontrolled probabilityからのデータ数を示している。その際、対数尤度とその微分係数は
によって与えられる。ここで、π(y|x;w)は価値関数が方程式(6)によってパラメータ化される制御された方策である。いったん勾配が評価されると、重みベクトルwは勾配上昇法に従って更新される。
価値関数が推定された後、コスト関数を抽出するために簡略化されたベルマン方程式(4)を使用することができる。
とγが与えられ、コスト関数q(x)が価値関数で使用される基底関数によって表現されると、q(x)が一意的に決定されることを意味している。コスト関数の表明が模倣学習の場合に重要でない一方、分析のためには我々はもっと単純なコストの表現を発見したい。それゆえ、本発明者らは近似器を導入する。
ここで、wとψ(x)はそれぞれ学習の重みと基底関数ベクトルを示している。wを最適化するためのL1型正則化付き目的関数は
によって与えられる。ここで、λは正則化定数である。単純な勾配降下アルゴリズムが採用され、J(w)が観察された状態で評価される。
Dvijotham and Todorov(2010)(非特許文献6)の最も重大な問題は、解析的に解決できない、方程式(8)及び(10)の積分であり、彼らは状態空間を離散化し、積分を総和で置換した。しかしながら、彼らが示唆したように、高次元の問題では実行不可能である。また、uncontrolled probability p(y|x)は必ずしもガウシアンではない。本発明の少なくともいくつかの実施形態では、対数尤度の勾配を評価するためにメトロポリスハスティングアルゴリズムが適用され、そこではuncontrolled probability p(y|x)が因果密度として使用されている。
<2.密度比推定による逆強化学習>
<2.1.IRLのためのベルマン方程式>
方程式(4)及び(5)から、本発明者らは割引コスト問題に対し以下の重要な関係を導き出した。
方程式(11)は本発明の実施形態に係るIRLアルゴリズムで重要な役割を果たす。最初の出口問題、平均コスト問題、及び有限範囲問題に対する類似の方程式を導き出すことができる。注意すべきは、q(x)が方程式(3)で示されるコスト関数の状態依存部分であるため、方程式(11)の左手側がTD誤差(Temporal Difference error)でないということである。
コスト関数の形式がLMDP下で方程式(3)によって束縛されるが、我々のIRLは依然として不良設定問題であり、コスト関数は一意に決定されない。より具体的には、状態依存コスト関数が
によって修正される場合、対応する価値関数が
に変更される。ここで、Cは定数値である。その際、V(x)から導き出されたcontrolled probabilityはV´(x)から導き出されたものと全く同じである。この特性は後述するようにコスト関数を推定する際に役に立つ。本発明の1つの態様では、開示されたIRL法は2つの部分からなる。一方は後述する方程式(11)の右手側の密度比を推定することである。他方は以下に示すように、正則化付き最小二乗法によってq(x)とV(x)を推定することである。
制御された遷移確率密度と制御されていない遷移確率密度の比を推定することは密度比推定の問題として扱われる(Sugiyamaら,2012,非特許文献20)。問題の設定に従い、本開示は以下の公式化を考える。
<2.2.1.一般的な場合>
まず、一般的な場合を考える。状態遷移の2つのデータセットを持つと仮定する。一方は方程式(7)で示されるDπであり、他方はuncontrolled probabilityからのデータセット
である。ここで、Nはデータ数を示している。その際、DとDπから比π(y|x)/p(y|x)を推定することに我々は関心がある。
方程式(11)から、我々は以下の2つの分析を考えることができる。
はじめの分解(14)は条件付き確率密度の対数の差を示している。方程式(14)を推定するために、本開示は2つの実施を考える。はじめはπ(y|x)及びp(y|x)を推定するために最小二乗条件付き密度推定(LSCDE)(Sugiyamaら,2010)を採用するLSCDE−IRLである。他方は方程式(14)の状態密度を推定するためにガウシアン過程(Rasmussen and Williams,2006,非特許文献15)を使用するGauss−IRLである。
第2の分解(15)は密度比の対数の差を示している。第2の分析の利点はπ(x)=p(x)なら、ln π(x)/p(x)を無視できるということである。設定によりこの条件を満たしてもよい。今回、π(x)/p(x)及びπ(x,y)/p(x,y)を推定するために、2つの方法が実施される。一方は拘束なし最小二乗重要度適合法(uLSIF)(Kanamoriら,2009,非特許文献9)を使用するuLSIF−IRLである。他方は、異なるやり方でロジスティック回帰を利用する、LogRegである。以下の2.3章はこれらの実施について述べる。
<2.2.2 p(y|x)が未知のとき>
状態遷移確率P(y|x,u)は標準的なIRL問題の場合では事前に知られていると想定され、これはuncontrolled probability p(y|x)がLMDPの場合に与えられるという想定に対応する。これはモデルベースのIRLとして取り扱うことできる。この場合、方程式(14)がふさわしく、データセットDからcontrolled probability π(y|x)を推定するのに十分である。
状況によっては、我々は制御されていな確率密度から分析モデルもデータセットももっていない。その際、p(y|x)は、未束縛変数のための不正分布である一様分布に置き換わる。コスト関数と価値関数を方程式(12)及び(13)により移行することによって補うことができるので、一般性を失うことなく、p(y|x)は1に設定される。
<2.3.密度比推定アルゴリズム>
この章はこの開示で開示されるIRL法にふさわしい密度比推定アルゴリズムについて述べる。
<2.3.1.uLSIF>
uLSIF(Kanamoriら,2009,非特許文献9)は密度比直接推定法のための最小二乗法である。uLSIFのゴールは2つの密度比π(x)/p(x)及びπ(x,y)/p(x,y)を推定することである。以後、本開示は簡略化のためにz=(x,y)の場合においてDとDπからr(z)=π(z)/p(z)を推定するやり方について説明する。線形モデルによって比率を近似させる。
ここで、それぞれφ(z)は基底関数ベクトルを示しており、αは学習されるパラメータである。目的関数は
によって与えられる。ここで、λは正則化定数であり、
である。注意すべきは、hはDπから推定される一方で、HはDから推定されるということである。方程式(16)は解析的に
として最小化することができるが、この最小化は密度比の非負の拘束を無視する。この問題を補償するために、uLSIFは
によって解を修正する。ここで、上記maxの作用素は要素ごとの方式に適用される。Kanamoriら(2009)(非特許文献9)によって推奨されるように、Dπの状態を中心とするガウシアン関数は
によって記述される基底関数として使用される。ここで、σは幅パラメータである。
はDπから無作為に選択される状態である。パラメータλ及びσは一個抜き交差検証によって選択される。
<2.3.2.LSCDE>
LSCDE(Sugiyamaら,2010,非特許文献19)は条件付き確率密度関数を推定するuLSIFの特別な場合と扱われる。例えば、Dπからからπ(y|x)=π(x,y)/π(x)を推定するための目的関数は
によって与えられる。ここで
は線形モデルであり、λは正則化定数である。LSCDEでHとhを計算することはuLSIFでこれらを計算することとわずかに異なり、以下のように計算される。
ここで、
は以下のように定義される。
方程式(18)で示す基底関数が使用されるので、この積分は解析的に計算することができる。LSCDEの推定重みは方程式(17)によって与えられる。推定比が条件付き密度であると想定するために、解がコスト関数と価値関数を推定するために使用されるときには、解は正規化されるべきである。
<2.3.3.LogReg>
LogRegはロジスティック回帰を使用する密度推定の方法である。uncontrolled probabilityからのサンプルにセレクタ変数η=−1を割り当て、controlled probabilityからのサンプルにセレクタ変数η=1を割り当てよう。
密度比は、以下のようにベイズのルールを利用することによって表すことができる。
1番目の比率Pr(η=−1)/Pr(η=1)はN/Nπによって推定され、2番目の比率はロジスティック回帰分類器
によって条件付き確率P(η|z)を推定した後に計算される。ここで、ηはラベルとして扱われる。注意すべきことは、密度比の対数がLogReg
の場合に線形モデルによって与えられるということである。第2項ln /Nπは方程式(15)に示す我々のIRLの定式化で無視することができる。目的関数は
によって表される負の正則化対数尤度から導き出される。閉形式解は導き出されないが、この目的関数が凸関数であるので標準的な非線形最適化法によって効率良く最小化することができる。
<2.4.コスト関数及び価値関数の推定>
いったん密度比π(y|x)/p(y|x)が推定されると、正則化付き最小二乗法は状態依存のコスト関数q(x)及び価値関数V(x)を推定するために利用される。
が負の対数比
の近似であると仮定し、方程式(6)及び(9)でそれぞれ定義されるように、q(x)及びV(x)の線形近似を考慮する。目的関数は
によって与えられる。ここで、λ及びλは正則化定数である。L2型正則化は数値安定性を達成する効果的な手段であるため、L2型正則化はwのために使用される。他方、L1型正則化は実験者によってより容易に解釈される疎性モデルをwが生み出すために使用される。スパース性が重要でない場合、wに対してL2型正則化を使用することは可能である。また、wとwの非負の拘束は導入されない。なぜなら、方程式(12)は非負のコスト関数を効率良く満足させるための設定
により使用することができるからである。
理論上、我々は任意の基底関数を選ぶことができる。本発明の一つの実施形態では、方程式(18)に示すガウシアン関数が簡略化ために使用される。
ここで、σは幅パラメータである。中央の位置
はDから無作為に選択される。
<3.実験>
<3.1.倒立振子の振り上げ>
<3.1.1.タスク記述>
本発明の上述した実施形態の有効性を実演して確認するために、本発明者らは状態ベクトルが2次元ベクトルx=[q,w]によって与えられる倒立振子振り上げ問題を研究した。ここで、qとwはそれぞれポールの角度と角速度を示している。運動方程式は以下の確率差分方程式
によって与えられる。ここで、l、m、g、κσ 、及びωは、それぞれ、ポールの長さ、質量、重力加速度、摩擦係数、ノイズ用スケーリングパラメータ、及びブラウニアンノイズを示している。以前の研究(Deisenrothら、2009、非特許文献4;Doya、2000、非特許文献5)とは対照的に、利用されたトルクは制限されておらず、直接振り上げることが可能である。時間軸をステップhで離散化することによって、ガウス分布によって表される、対応する状態遷移確率P(y|x,u)が得られる。このシミュレーションでは、パラメータが以下のように与えられる。l=1[m]、m=1[kg]、g=9.8[m/s]、κ=0.05[kgm/s]、h=0.01[s]、σ =4、及び
本発明者らは、以下のように(1)状態依存のコスト関数q(x)、(2)uncontrolled probability p(y|x)、及び(3)データセットD及びDπを変更することによって、一連の実験を行った。
<コスト関数>
到達点はポールを直立状態に維持することであり、以下の3つのコスト関数
が用意される。ここで、Q=diag[1,0.2]。qexp(x)はDeisenrothら(2009)(非特許文献4)によって使用される一方で、qcost(x)はDoya(2000)によって使用される。
<Uncontrolled Probability>
2つの密度p(y|x)とp(y|x)を考える。p(y|x)はガウス分布によって表される確率的方策π(u|x)を使用することにより構築される。離散時間の運動方程式はガウス分布によって与えられるので、p(y|x)もまたガウス分布である。p(y|x)の場合では、混合ガウス分布が確率的方策として使用される。
<データセットの用意>
2つのサンプリング方法を考える。一方は一様のサンプリングであり、他方は軌道に基づいたサンプリングである。一様のサンプリング方法では、xが状態空間全体で定義される一様分布からサンプリングされる。言い換えれば、p(x)及びπ(x)は一様分布として扱われる。その際、yはD及びDπを構築するためにuncontrolled probabilityとcontrolled probabilityからそれぞれサンプリングされる。軌道に基づいたサンプリング方法では、p(y|x)及びπ(y|x)は同じ開始状態xから状態の軌道を生成するために使用される。その際、Dp及びDπを構築するために一対の状態遷移が軌道から無作為に選択される。p(x)はπ(x)と異なると期待される。
各コスト関数に対し、方程式(4)を解くことによって対応する価値関数が算出され、方程式(5)によって対応する最適なcontrolled probabilityが評価される。以前の方法(Todorov、2009b、非特許文献25)では、exp(−V(x))が線形モデルによって表されるが、目的関数(1)の下では困難である。なぜならば、割引率γが線形モデルを複雑にするからである。それゆえ、価値関数は方程式(6)に示す線形モデルにより近似され、積分を評価するためにメトロポリス・ヘイスティングアルゴリズムが使用される。
本発明の実施形態に係る方法をOptVと比較することができる。なぜなら、OptVの前提は本発明の実施形態に係る我々の前提と同じだからである。密度比推定方法の選択によれば、上述したようにいくつもの変形が存在する。より具体的には、以下の6つのアルゴリズムを考える。(1)LSCDE−IRL、(2)uLSIF−IRL、(3)LogReg−IRL、(4)Gauss−IRL、(5)LSCDE−OptV、これはp(y|x)がLSCDEによって推定されるOptVの方法である、及び(6)Gauss−OptV、ここで、ガウス過程の方法はp(y|x)を推定するために使用される。
我々はDとDπのサンプル数をN=Nπ=300で設定する。パラメータλ、λ、σ、及びγは以下の領域log λq、
及び
から交差検証によって最適化される。ここで、linspace(xmin,xmax,n)はxminとxmaxの間で等間隔である一式のnポイントを生成する。
<3.1.2.実験結果>
推定されたコスト関数の精度はテストサンプル
に対する正規化二乗誤差によって測定される。ここで、それぞれq(x)は方程式(19)に示す状態xjにおける1つの真のコスト関数である一方、
は推定されたコスト関数である。図1(a)−(d)は本実施形態のIRL方法の精度を比べている。我々の方法(1)−(4)は全ての設定でOptVの方法(5)−(6)より良い成績を収めたことが示されている。より具体的には、LogReg−IRLは最良の成績を示したが、我々の方法(1)−(3)の中では大した差はなかった。もし確率的方策π(u|x)が混合ガウスによって与えられたなら、Gauss―IRLによって推定されたコストの精度は大幅に増加した。なぜなら、標準的なガウス過程は混合ガウスを表すことができないからである。
図2はλ、λ、及びσといった他のパラメータが最適値に設定された場合における割引率γの交差検証誤差を示している。このシミュレーションでは、交差検証誤差は全ての方法において真の割引率
で最小であった。図2に示すように、また、上記図1でも説明したように、本発明の実施形態が十分に小さな誤差を有することが判明し、本発明の効果の有効性を確認した。
<3.2.人間の挙動の分析>
<3.2.1.タスク詳解>
我々のIRLアルゴリズムを現実の状況で評価するために、本発明者らはモーターで動的に制御するポールバランシング問題を行った。図3は実験手順を示している。被験者はポールを何回も揺らすために台座を左右上下に動かすことができ、倒立位置でバランスするようにポールを減速させる。ダイナミクスは6次元状態ベクトル
によって記載される。ここで、θと
はポールの角度と角速度であり、xとyは台座の水平位置と垂直位置である。そして、

はそれぞれその時間微分である。
タスクは2つの条件:ロングポール(73cm)とショートポール(29cm)の下で行われた。各被験者について各条件でポールをバランスさせるための試行を15回行った。各被験者がポールを3秒間又は40秒間経過して直立状態を維持できたときに各試行が終了した。我々は7人の被験者(内、5人が右利き、2人が左利き)からデータを収集し、controlling probabilityの以下の2つのデータセット、i番目の被験者のトレーニング用
とi番目の被験者のテスト用
を構築するために、軌道に基づいたサンプリング法が使用された。全ての被験者が、無作為な方策によって生成された、一様なuncontrolled probability p(y|x)を持ったと仮定する。これはトレーニング用
とテスト用
というデータセットが被験者間で共有されることを意味している。データセットのサンプル数は300だった。
<4.2.2.実験結果>
図4は7つの被験者の学習曲線を示しているが、これは学習過程が被験者間で全く異なったことを示している。No.1とNo.3の2人の被験者はタスクを達成できなかった。成功軌道一式はIRLアルゴリズムによって使用されるべきであるので、我々はNo.2及びNo.4−No.7の5人の被験者からデータを拾い上げた。
LogReg−IRLを使用した場合の実験結果を以下に記載する(LSCDE−IRLとuLSIF−IRLは似たような結果を示した)。図5は部分空間
に投影された、被験者4、5、及び7の推定されたコスト関数を示している一方で、x、y、
及び
は視覚化のためにゼロに設定されている。被験者7の場合、ロングポール条件のコスト関数はショートポール条件のコスト関数とそんなに異ならなかった一方、図4に示すようなショートポール条件ではうまくいかなかった、被験者5の場合とは顕著な違いがあった。
トレーニングデータセットから推定されたコスト関数を評価するために、我々は推定されたコスト関数に対して最適に制御された遷移確率を発見するために、順強化学習を利用し、その際、テストデータセット
に対する負の対数尤度を計算した。ここで、
は、
のサンプル数である。図6は結果を示している。左の挿絵(a)で、我々はロングポール条件における被験者4のテストデータセット
を使用した。最小の負の対数尤度は同じ条件のトレーニングデータセット
及び
から推定されたコスト関数によって達成された。図6の右のパネル(b)は、ロングポール条件とショートポール条件の両方における被験者7のテストデータがロングポール条件だけにおける同じ被験者7のトレーニングデータセットから推定されたコスト関数によって最も良く予測されたことを示している。すなわち、本発明の実施形態の有効性及び有用性がこの実験によって同様に確認され、実証された。
本開示はLMDPの枠組みの下での新規な逆強化学習を示した。本発明の特徴の1つは方程式(11)を示すことであるが、これは最適な価値関数にとって対応するコスト関数と共にTD誤差がゼロであることを示している。方程式(11)の右手側はサンプルから密度比推定の効率的な方法によって推定できるので、結果的に本発明のIRLは簡易な正則化付き最小二乗法になる。また、本発明の実施形態に係る方法は、高次元の連続問題では通常扱いにくい、積分を計算する必要がない。結果として、開示された方法はOptVより計算的に安上がりになる。
LMDPと経路積分法はロボットの分野及び機械学習の分野で近年注目を浴びてきた(Theodorou & Todorov、2012、非特許文献22)。なぜなら、線形ベルマン方程式には多くの興味深い性質が存在するからである(Todorov、2009a、非特許文献24)。これらは大きな自由度とともにロボットに対する確率的方策の学習にうまく利用されてきた(Kinjoら、2013、非特許文献11;Stulp & Sigaud、2012、非特許文献17;Sugimoto and Morimoto、2011、非特許文献18;Theodorouら、2010、非特許文献21)。本発明の実施形態に係るIRL法は複雑なコントローラを設計するために現行の順強化学習と一体化してもよい。
上述したように、本発明の少なくともいくつかの態様では、本開示は観察された挙動から効果的に報酬関数/コスト関数を推測できる計算アルゴリズムを提供する。本発明の実施形態のアルゴリズムは、特別に設計された専用のハードウェア/ソフトウェアと同様に、適切なハードウェア及びソフトウェアを備えている汎用のコンピュータシステムで実施可能である。本発明の少なくともいくつかの実施形態に係るさまざまな利点は以下を含んでいる。
A)モデルにとらわれない方法/システム:本発明の実施形態に係る方法及びシステムは環境ダイナミクスを事前に知る必要がない。すなわち、先行技術のいくつかのやり方は環境ダイナミクスが事前に知られているということを前提としているが、この方法/システムはモデルにとらわれない方法と扱われ、対象のダイナミクスをはっきりと作る必要がない。
B)データ効率:以前の多くの方法は状態の軌道一式を要求するが、本発明の実施形態に係る方法及びシステムのためのデータセットは状態遷移一式からなる。したがって、本発明の実施形態に係る方法及びシステムでは、データを集め易い。
C)計算効率(1):本発明の実施形態に係る方法及びシステムは(順)強化学習の問題を解く必要がない。対照的に、以前のいくつの方法は推定された報酬関数・推定されたコスト関数で何度もこのような順強化学習の問題を解くことを要求した。その計算は各候補に対して行わなければならず、最適解を発見するためには通常長い時間がかかる。
D)計算効率(2):本発明の実施形態に係る方法及びシステムは2つの最適化プログラム:(a)密度比推定、及び(b)正則化最小二乗、を使用する。対照的に、以前のいくつの方法は、最小二乗法と比較してたいてい最適化のための時間がかかる、確率的勾配法やマルコフ連鎖モンテカルロ法を使用している。
上述したように、1つの態様では、本発明はデモンストレータによって生成された観察された状態遷移から目的関数を推測できる逆強化学習を提供する。図7は本発明の実施形態に係る方法の枠組みを概略的に示している。本発明に係る逆強化学習の実施形態は2つの構成要素、(1)密度比推定を伴う状態遷移確率と密度比推定を伴わない状態遷移確率の比、及び(2)正則化付き最小二乗法による遷移確率比と矛盾しないコスト関数と価値関数の推定、を含んでいる。各ステップのための効率的なアルゴリズムを使用することにより、本発明の実施形態は他の逆強化学習法よりデータ及び計算の点で効率的である。
逆強化学習の産業上の利用可能性及び有用性は十分に理解され認められた。以下では、本発明の実施形態を適用できるシステム例及び構成例を記載する。
<ロボット挙動の模倣学習>
複雑なタスクを行うためのロボットをプログラミングすることは、モーションプランニングといった標準的な方法とともに困難である。多くの状況で、ロボットに対して設計された挙動を実演することの方がはるかに易しい。しかしながら、古典的な模倣学習の大きな欠点は、獲得したコントローラが実演された動作をただ再現するだけだから新しい状況に対処できないことである。本発明の実施形態は実演された挙動から目的関数を推定でき、その際、推定された目的関数は異なる状況に対する異なる挙動を学習するために使用することができる。
図8はこのような本発明の実施を概略的に示している。まず、デモンストレータはロボットにタスクを遂行させると、状態と行動の順序が記録される。次いで、本発明の実施形態に係る逆強化学習部はコスト関数と価値関数を推定する。その後、これらは異なるロボットに対する順強化学習のコントローラに与えられる。
<人間の挙動の解釈>
挙動の背後にある人間の意図を理解することはユーザフレンドリーな支援システムを構築する際に基本的な論点である。一般的に、挙動は、動作追跡システムによって抽出される、一連の状態によって表される。本発明の実施形態に係る逆強化学習の方法/システムによって推定されたコスト関数は、所定の挙動のデータセットを説明するためにコンパクトな表現として扱うことができる。推定されたコスト関数のパターン分類を通じて、ユーザの専門知識又は嗜好を推定することが可能になる。図9は本発明の実施形態に係るこの実施を概略的に示している。
<Webエクスペリエンスの分析>
ビジターに対して提供される記事を読むためのビジター用見込みを増加させるために、例えば、オンラインニュースサイトの設計者は意思決定の観点からビジターのWebエクスペリエンスを調査すべきである。特に、推奨システムは個人向けサービスに対する重要なビジネスアプリとして注目を浴びている。しかしながら、協調フィルタリングといった以前の方法は明らかに意思決定の順序を考慮していない。本発明の実施形態は、ネットサーフィン中のビジターの挙動をモデル化するための別の効果的な手法を提供することができる。図10は、トピックスがどんな順序でユーザによってアクセスされたかを示す、ユーザによる一連のクリックアクションの一例を示している。ビジターが読んでいるトピックスは状態として扱われ、リンクをクリックすることはアクションとして考慮される。その際、本発明の実施形態に係る逆強化学習はユーザのネットサーフィンでの意思決定を分析することができる。推定されたコスト関数はビジターの嗜好を表すので、ユーザ向けの記事のリストを推奨することができる。
上述したように、本発明の実施形態に係る逆強化学習スキームは、広く様々な産業上、及び/又は、商業上のシステムに適用可能である。図11は汎用コンピュータシステム及びセンサシステムを使用する実施例を示している。数学の方程式と共に以上説明した方法は、例えばこのような汎用コンピュータシステムで実施可能である。挿絵に示すように、この例のシステムは、状態遷移についての情報、すなわち観察した挙動、を観察されている対象から受信するセンサシステム111(データ取得手段の一例)を含んでいる。センサシステム111は画像処理ソフト/画像処理ハード、変位センサ、速度センサ、加速度センサ、マイク、キーボード、及び他のあらゆる入力装置と共に、一以上の画像キャプチャ装置を含んでいてもよい。センサシステム111は、本発明の実施形態に従って受信データを分析できるような、プロセッサ113を適切なメモリ114と共に備えるコンピュータ112に接続される。分析の結果は、表示モニタ、コントローラ、ドライバなど(出力インタフェースの例)、又は、その結果をコントロール用に活用する場合にコントロールされるべき対象といった、あらゆる出力システム115に出力される。上述したように、結果はプログラムに使用できたり、ユーザの相互作用に応答する別のロボット、コンピュータ、又はウェブサイトのソフトといった、別のシステムに転送できたりする。
上述したユーザのWeb記事嗜好を予測する場合、実施システムは、インターネットに接続されたコンピュータで実施される、上記実施形態のいずれか1つで述べたような逆強化学習用システムを含んでいてもよい。ここで、ユーザの挙動を定義する状態変数は、各ウェブページを閲覧している間にユーザによって選択された記事のトピックスを含んでいる。その際、逆強化学習の結果は、ユーザがインターネットのWebサイトを閲覧する、携帯用のスマートフォンやパーソナルコンピュータなどといったインタフェースに、ユーザ向けの推奨記事を表示させるために使用される。
本発明の趣旨又は範囲から逸脱することなく本発明に対して様々な修正及び変形を行えることは当業者には自明である。すなわち、本発明は添付の特許請求の範囲とその均等物の範囲内で生じる修正及び変形を包含することが意図されている。特に、上述したいずれか2以上の実施形態及びその修正のいずれかの一部又は全体が結合されて本発明の範囲内でみなされることは明示的に熟慮される。

Claims (9)

  1. 被験者の挙動についてのコスト関数及び価値関数を推定するための逆強化学習の方法であって、コンピュータが、
    前記被験者の挙動を定義する状態変数の変化を表すデータを取得し、
    方程式(1)によって与えられる修正ベルマン方程式を、取得した前記データに適用し、
    ここで、q(x)とV(x)はそれぞれ状態xのコスト関数及び価値関数を示しており、γは割引率を表しており、p(y|x)とπ(y|x)はそれぞれ学習前後の状態遷移確率を示している。
    方程式(1)における密度比π(y|x)/p(y|x)を推定し、
    推定された前記密度比π(y|x)/p(y|x)に従って最小二乗法を使用して方程式(1)におけるq(x)及びV(x)を推定し、
    推定された前記q(x)及び前記V(x)を出力する、
    ことを特徴とする方法。
  2. 前記密度比π(y|x)/p(y|x)を推定するステップは、uLSIFを使用することを含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記密度比π(y|x)/p(y|x)を推定するステップは、最小二乗条件付き密度推定(LSCDE)を使用することを含む、
    ことを特徴とする請求項1に記載の方法。
  4. 前記密度比π(y|x)/p(y|x)を推定するステップは、ロジスティック回帰を使用することを含む、
    ことを特徴とする請求項1に記載の方法。
  5. 前記密度比π(y|x)/p(y|x)を推定するステップは、ガウス過程を使用することを含む、
    ことを特徴とする請求項1に記載の方法。
  6. 前記コスト関数q(x)及び前記価値関数V(x)を推定するステップは、正則化付き最小二乗法を使用することを含む、
    ことを特徴とする請求項1に記載の方法。
  7. 被験者の挙動についてのコスト関数及び価値関数を推定するための逆強化学習用アルゴリズムをプロセッサに実行させる指示を記憶する非一時的な記憶媒体であって、前記指示は前記プロセッサに、
    前記被験者の挙動を定義する状態変数の変化を表すデータを取得し、
    方程式(1)によって与えられる修正ベルマン方程式を、取得した前記データに適用し、
    ここで、q(x)とV(x)はそれぞれ状態xのコスト関数及び価値関数を示しており、γは割引率を表しており、p(y|x)とπ(y|x)はそれぞれ学習前後の状態遷移確率を示している。
    方程式(1)における密度比π(y|x)/p(y|x)を推定し、
    推定された前記密度比π(y|x)/p(y|x)に従って最小二乗法を使用して方程式(1)におけるq(x)及びV(x)を推定し、
    推定された前記q(x)及び前記V(x)を出力する、
    ステップを行わせることを特徴とする記憶媒体。
  8. 被験者の挙動についてのコスト関数及び価値関数を推定するための逆強化学習用システムであって、
    前記被験者の挙動を定義する状態変数の変化を表すデータを取得するデータ取得手段と、
    プロセッサとメモリが、
    方程式(1)によって与えられる修正ベルマン方程式を、取得した前記データに適用し、
    ここで、q(x)とV(x)はそれぞれ状態xのコスト関数及び価値関数を示しており、γは割引率を表しており、p(y|x)とπ(y|x)はそれぞれ学習前後の状態遷移確率を示している。
    方程式(1)における密度比π(y|x)/p(y|x)を推定し、
    推定された前記密度比π(y|x)/p(y|x)に従って最小二乗法を使用して方程式(1)におけるq(x)及びV(x)を推定する、
    ように構成されたメモリ付きのプロセッサと、
    推定された前記q(x)及び前記V(x)を出力する出力インタフェースと、
    有するシステム。
  9. インターネットのウェブサーフィンでユーザが選んだ一連の記事から前記ユーザが読みそうな記事の嗜好を予測するためのシステムであって、
    前記インターネットに接続されたコンピュータで実施される、請求項8に記載の逆強化学習用システムを含み、
    前記被験者は前記ユーザであり、前記被験者の挙動を定義する前記状態変数は各ウェブページを閲覧している間に前記ユーザによって選ばれた記事のトピックスを含み、
    前記プロセッサは、前記ユーザがインターネットウェブサイトを閲覧しているインタフェースに、推定された前記コスト関数及び前記価値関数に従って前記ユーザが読むための推奨記事を表示させる、
    システム。
JP2017504116A 2014-08-07 2015-08-07 逆強化学習の方法、逆強化学習用アルゴリズムをプロセッサに実行させる指示を記憶する記憶媒体、逆強化学習用システム、及び逆強化学習用システムを含む予測システム Active JP6417629B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462034510P 2014-08-07 2014-08-07
US62/034,510 2014-08-07
PCT/JP2015/004001 WO2016021210A1 (en) 2014-08-07 2015-08-07 Inverse reinforcement learning by density ratio estimation

Publications (2)

Publication Number Publication Date
JP2017527022A JP2017527022A (ja) 2017-09-14
JP6417629B2 true JP6417629B2 (ja) 2018-11-07

Family

ID=55263500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017504116A Active JP6417629B2 (ja) 2014-08-07 2015-08-07 逆強化学習の方法、逆強化学習用アルゴリズムをプロセッサに実行させる指示を記憶する記憶媒体、逆強化学習用システム、及び逆強化学習用システムを含む予測システム

Country Status (6)

Country Link
US (1) US10896382B2 (ja)
EP (1) EP3178040A4 (ja)
JP (1) JP6417629B2 (ja)
KR (1) KR101966564B1 (ja)
CN (1) CN106575382B (ja)
WO (1) WO2016021210A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10896383B2 (en) 2014-08-07 2021-01-19 Okinawa Institute Of Science And Technology School Corporation Direct inverse reinforcement learning with density ratio estimation
EP3178040A4 (en) 2014-08-07 2018-04-04 Okinawa Institute of Science and Technology School Corporation Inverse reinforcement learning by density ratio estimation
US11077555B1 (en) * 2015-12-07 2021-08-03 AI Incorporated Method to minimize collisions of mobile robotic device
KR102198733B1 (ko) * 2016-03-15 2021-01-05 각코호진 오키나와가가쿠기쥬츠다이가쿠인 다이가쿠가쿠엔 밀도 비 추정을 이용한 직접 역 강화 학습
US11188821B1 (en) * 2016-09-15 2021-11-30 X Development Llc Control policies for collective robot learning
US10902347B2 (en) 2017-04-11 2021-01-26 International Business Machines Corporation Rule creation using MDP and inverse reinforcement learning
JP6850678B2 (ja) * 2017-05-22 2021-03-31 日本電信電話株式会社 動的潜在コスト推定装置、方法、及びプログラム
GB2564668B (en) * 2017-07-18 2022-04-13 Vision Semantics Ltd Target re-identification
US10678241B2 (en) * 2017-09-06 2020-06-09 GM Global Technology Operations LLC Unsupervised learning agents for autonomous driving applications
KR102110791B1 (ko) * 2018-02-27 2020-05-14 광주과학기술원 감정 인식 시스템 및 그 방법
US20210116930A1 (en) * 2018-02-28 2021-04-22 Sony Corporation Information processing apparatus, information processing method, program, and mobile object
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10734006B2 (en) 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
US10580424B2 (en) * 2018-06-01 2020-03-03 Qualcomm Incorporated Perceptual audio coding as sequential decision-making problems
US11042640B2 (en) * 2018-08-27 2021-06-22 Vmware, Inc. Safe-operation-constrained reinforcement-learning-based application manager
US11231717B2 (en) * 2018-11-08 2022-01-25 Baidu Usa Llc Auto-tuning motion planning system for autonomous vehicles
CN110238855B (zh) * 2019-06-24 2020-10-16 浙江大学 一种基于深度逆向强化学习的机器人乱序工件抓取方法
JP7171520B2 (ja) * 2019-07-09 2022-11-15 株式会社日立製作所 機械学習システム
US20220343180A1 (en) * 2019-08-29 2022-10-27 Nec Corporation Learning device, learning method, and learning program
CN110900598B (zh) * 2019-10-15 2022-09-23 合肥工业大学 机器人三维运动空间动作模仿学习方法和系统
CN113706018A (zh) * 2021-08-27 2021-11-26 广东电网有限责任公司 一种用户调峰行为的评估模型建立方法、评估方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8359226B2 (en) 2006-01-20 2013-01-22 International Business Machines Corporation System and method for marketing mix optimization for brand equity management
GB0613955D0 (en) * 2006-07-13 2007-01-10 Bae Systems Plc Controller
DE102008020380B4 (de) * 2008-04-23 2010-04-08 Siemens Aktiengesellschaft Verfahren zum rechnergestützten Lernen einer Steuerung und/oder Regelung eines technischen Systems
US8478642B2 (en) 2008-10-20 2013-07-02 Carnegie Mellon University System, method and device for predicting navigational decision-making behavior
FR2947923B1 (fr) * 2009-07-10 2016-02-05 Aldebaran Robotics Systeme et procede pour generer des comportements contextuels d'un robot mobile
FR2963132A1 (fr) * 2010-07-23 2012-01-27 Aldebaran Robotics Robot humanoide dote d'une interface de dialogue naturel, methode d'utilisation et de programmation de ladite interface
CN102521205B (zh) * 2011-11-23 2014-12-10 河海大学常州校区 基于多Agent强化学习的机器人联合搜索方法
US9090255B2 (en) 2012-07-12 2015-07-28 Honda Motor Co., Ltd. Hybrid vehicle fuel efficiency using inverse reinforcement learning
EP3178040A4 (en) 2014-08-07 2018-04-04 Okinawa Institute of Science and Technology School Corporation Inverse reinforcement learning by density ratio estimation

Also Published As

Publication number Publication date
EP3178040A4 (en) 2018-04-04
US20170213151A1 (en) 2017-07-27
CN106575382A (zh) 2017-04-19
KR20170037615A (ko) 2017-04-04
WO2016021210A1 (en) 2016-02-11
US10896382B2 (en) 2021-01-19
KR101966564B1 (ko) 2019-08-13
EP3178040A1 (en) 2017-06-14
CN106575382B (zh) 2021-12-21
JP2017527022A (ja) 2017-09-14

Similar Documents

Publication Publication Date Title
JP6417629B2 (ja) 逆強化学習の方法、逆強化学習用アルゴリズムをプロセッサに実行させる指示を記憶する記憶媒体、逆強化学習用システム、及び逆強化学習用システムを含む予測システム
JP7157154B2 (ja) 性能予測ニューラルネットワークを使用したニューラルアーキテクチャ探索
US10896383B2 (en) Direct inverse reinforcement learning with density ratio estimation
Böhmer et al. Autonomous learning of state representations for control: An emerging field aims to autonomously learn state representations for reinforcement learning agents from their real-world sensor observations
CN113302605B (zh) 鲁棒且数据效率的黑盒优化
Bechtle et al. Curious ilqr: Resolving uncertainty in model-based rl
US10885432B1 (en) Selecting actions from large discrete action sets using reinforcement learning
US20220366247A1 (en) Training action selection neural networks using q-learning combined with look ahead search
US12008077B1 (en) Training action-selection neural networks from demonstrations using multiple losses
Todescato et al. Multi-robots gaussian estimation and coverage control: From client–server to peer-to-peer architectures
CN110447041A (zh) 噪声神经网络层
US12005580B2 (en) Method and device for controlling a robot
Andersen et al. Active exploration for learning symbolic representations
Michini et al. Scalable reward learning from demonstration
Yuvaraj et al. Analysis on improving the response time with PIDSARSA-RAL in ClowdFlows mining platform
Wang et al. Focused model-learning and planning for non-Gaussian continuous state-action systems
Hafez et al. Topological Q-learning with internally guided exploration for mobile robot navigation
Theodoropoulos et al. Cyber-physical systems in non-rigid assemblies: A methodology for the calibration of deformable object reconstruction models
JP6910074B2 (ja) 密度比推定による直接逆強化学習
JP2024522051A (ja) 重み付けされたポリシー投影を使用した多目的強化学習
Esposito et al. Bellman residuals minimization using online support vector machines
Li et al. A Method for Security Traffic Patrolling Based on Structural Coordinated Proximal Policy Optimization
Pathak et al. Beyond games: Bringing exploration to robots in real-world
Yamaguchi et al. Model-based reinforcement learning with missing data
Hwang et al. Adaptive model learning based on dyna-Q learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170710

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180417

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180601

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180918

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180920

R150 Certificate of patent or registration of utility model

Ref document number: 6417629

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250