JP2019508817A - 密度比推定による直接逆強化学習 - Google Patents

密度比推定による直接逆強化学習 Download PDF

Info

Publication number
JP2019508817A
JP2019508817A JP2018546050A JP2018546050A JP2019508817A JP 2019508817 A JP2019508817 A JP 2019508817A JP 2018546050 A JP2018546050 A JP 2018546050A JP 2018546050 A JP2018546050 A JP 2018546050A JP 2019508817 A JP2019508817 A JP 2019508817A
Authority
JP
Japan
Prior art keywords
equation
function
learning
state
logarithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018546050A
Other languages
English (en)
Other versions
JP6910074B2 (ja
Inventor
英治 内部
英治 内部
賢治 銅谷
賢治 銅谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
kinawa Institute of Science and Technology Graduate University
Original Assignee
kinawa Institute of Science and Technology Graduate University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by kinawa Institute of Science and Technology Graduate University filed Critical kinawa Institute of Science and Technology Graduate University
Publication of JP2019508817A publication Critical patent/JP2019508817A/ja
Application granted granted Critical
Publication of JP6910074B2 publication Critical patent/JP6910074B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

被験者の行動の報酬関数及び価値関数を推定する逆強化学習の方法であって、前記被験者の行動を定義する状態変数の変化を表すデータを取得し、式(1)によって与えられる修正ベルマン方程式を取得した前記データに適用し
【数77】
Figure 2019508817

ここで、r(x)及びV(x)は、状態xにおける報酬関数及び価値関数をそれぞれ示し、γは割引率を表し、b(y|x)及びπ(y|x)は、学習前の状態遷移確率及び学習後の状態遷移確率をそれぞれ示し、式(2)における密度比π(x)/b(x)の対数を推定し、前記密度比π(x,y)/b(x,y)の対数の推定結果から、式(2)におけるr(x)及びV(x)を推定し、推定されたr(x)及びV(x)を出力する、処理を含む。

Description

本発明は、逆強化学習に関し、特に、逆強化学習のシステム及び方法に関する。本出願は、2016年3月15日に出願された米国仮出願62/308,722の利益を主張し、ここに、参照により本明細書に組み込む。
観測から人間の行動を理解することは、人間と交流できる人工システムを開発する上で非常に重要である。我々の意思決定プロセスは選択された行動に伴う報酬/コストに影響されるため、この問題は、観測された行動から報酬/コストの推定として定式化することができる。
逆強化学習の考え方は、もともとは、Ng及びRussel(2000)(非特許文献14)により提案されている。Dvijotham及びTodorov(2010)(非特許文献6)により提案されたOptVアルゴリズムは、事前作業であり、彼らは、デモンストレータの制御則は、線形化ベルマン方程式の解である価値関数によって近似されることを示している。
一般に、強化学習(RL:Reinforcement Learning)は、環境との相互作用を通して最適な制御則を学ぶことができる生物学的及び人工的システム両方の意思決定プロセスを調査するための計算の枠組みである。RLにはいくつかの未解決の問題が存在し、重要な問題の1つは、どのように適切な報酬/コスト関数を設計し準備すればよいかということである。タスクが完了すると肯定的な報酬を与え、それ以外の場合はゼロになる疎報酬関数を設計するのは簡単であるが、最適な制御則を見つけるのが難しくなる。
場合によっては、適切な報酬/コスト関数を手作りするよりも望ましい行動の例を用意する方が簡単である。近年、デモンストレータの動作から報酬/コスト関数を導出し、模倣学習を実装するために、逆強化学習(IRL:Inverse Reinforcement Learning)(Ng & Russell,2000,非特許文献14)及び徒弟学習(Abbeel & Ng,2004,非特許文献1)が提案されている。しかしながら、既存の研究(Abbeel & Ng,2004,非特許文献1;Ratliff et al.,2009,非特許文献16;Ziebart et al.,2008,非特許文献26)のほとんどは、推定報酬/コスト関数を用いて順強化学習問題を解くルーチンを必要とする。この処理は、環境のモデルが利用可能であっても、通常、非常に時間がかかる。
近年、コスト関数の形式を制限することによるマルコフ決定過程のサブクラスである線形可解マルコフ決定過程(LMDP:Linearly solvable Markov Decision Process)(Todorov,2007;2009,非特許文献23〜24)のコンセプトが導入されている。この制限はIRLにおいて重要な役割を果たす。LMDPは、KL制御及び経路積分アプローチ(Kappen et al.,2012,非特許文献10;Theodorou et al.,2010,非特許文献21)としても知られており、制御理論の分野(Fleming and Soner,2006,非特許文献7)において同様の考え方が提案されている。経路積分法に基づくモデルフリーIRLアルゴリズムが、Aghasadeghi & Bretl(2011)(非特許文献2);Kalakrishnan et al.(2013)(非特許文献8)により提案されている。最適軌道の尤度はコスト関数によってパラメータ化されるので、コストのパラメータは尤度を最大化することによって最適化することができる。しかしながら、それらの方法は軌道データ全体を必要とする。最適な状態遷移の尤度が価値関数によって表されるLMDPの枠組みに基づいて、モデルベースIRL法が、Dvijotham及びTodorov(2010)(非特許文献6)により提案されている。IRLの経路積分アプローチとは対照的に、それは状態遷移の任意のデータセットから最適化することができる。大きな欠点は、解析的には解けない積分を評価することである。実際には、積分を和で置き換えるために状態空間を離散化したが、高次の連続問題では実現可能ではない。
米国特許第8,756,177号,観察から対象の意図を推測する方法及びシステム 米国特許第7,672,739号,ラン−バイ−ラン制御への多重解像度解析により支援される強化学習アプローチシステム 特許第5815458号,報酬関数推定装置、報酬関数推定方法、及びプログラム
Abbeel, P. and Ng, A.Y. Apprenticeship learning via inverse reinforcement learning. In Proc. of the 21st International Conference on Machine Learning, 2004 Aghasadeghi, N. and Bretl, T. Maximum entropy inverse reinforcement learning in continuous state spaces with path integrals. In Proc. of IEEE/RSJ International Conference on Intelligent Robots and Systems, pp.1561-1566, 2011 Boularias, A., Kober, J., and Peters, J. Relative entropy inverse reinforcement learning. In Proc. of the 14th International Conference on Artificial Intelligence and Statistics, volume 15, 2011 Deisenroth, M.P., Rasmussen, C.E, and Peters, J. Gaussian process dynamic programming. Neurocomputing, 72(7-9):1508-1524, 2009 Doya, K. Reinforcement learning in continuous time and space. Neural Computation, 12:219-245, 2000G. Li and Z. Tang, Nanoscale, 2014, 6, 3995-4011 Dvijotham, K. and Todorov, E. Inverse optimal control with linearly solvable MDPs. In Proc. of the 27th International Conference on Machine Learning, 2010 Fleming, W.H. and Soner, H.M. Controlled Markov Processes and Viscosity Solutions. Springer, second edition, 2006 Kalakrishnan, M., Pastor, P., Righetti, L., and Schaal, S. Learning objective functions for manipulation. In Proc. of IEEE International Conference on Robotics and Automation, pp.1331-1336, 2013 Kanamori, T., Hido, S., and Sugiyama, M. A Least-squares Approach to Direct Importance Estimation. Journal of Machine Learning Research, 10:1391-1445, 2009 Kappen, H.J., Gomez, V., and Opper, M. Optimal control as a graphical model inference problem. Machine Learning, 87(2):159-182, 2012 Kinjo, K., Uchibe, E., and Doya, K. Evaluation of linearly solvable Markov decision process with dynamic model learning in a mobile robot navigation task. Frontiers in Neurorobotics, 7(7), 2013 Levine, S. and Koltun, V. Continuous inverse optimal control with locally optimal examples. In Proc. of the 27th International Conference on Machine Learning, 2012 Levine, S., Popovic, Z., and Koltun, V. Nonlinear inverse reinforcement learning with Gaussian processes. Advances in Neural Information Processing Systems 24, pp.19-27. 2011 Ng, A.Y. and Russell, S. Algorithms for inverse reinforcement learning. In Proc. of the 17th International Conference on Machine Learning, 2000 Rasmussen, C.E. and Williams, C. K.I. Gaussian Processes for Machine Learning. MIT Press, 2006 Ratliff, N.D., Silver, D, and Bagnell, J.A. Learning to search: Functional gradient techniques for imitation learning. Autonomous Robots, 27(1): 25-53, 2009 Stulp, F. and Sigaud, O. Path integral policy improvement with covariance matrix adaptation. In Proc. of the 10th European Workshop on Reinforcement Learning, 2012 Sugimoto, N. and Morimoto, J. Phase-dependent trajectory optimization for periodic movement using path integral reinforcement learning. In Proc. of the 21st Annual Conference of the Japanese Neural Network Society, 2011 Sugiyama, M., Takeuchi, I., Suzuki, T., Kanamori, T., Hachiya, H., and Okanohara, D. Least-squares conditional density estimation. IEICE Transactions on Information and Systems, E93-D(3): 583-594, 2010 Sugiyama, M., Suzuki, T., and Kanamori, T. Density ratio estimation in machine learning. Cambridge University Press, 2012. Theodorou, E., Buchli, J., and Schaal, S. A generalized path integral control approach to reinforcement learning. Journal of Machine Learning Research, 11: 3137--3181, 2010 Theodorou, E.A and Todorov, E. Relative entropy and free energy dualities: Connections to path integral and KL control. In Proc. of the 51st IEEE Conference on Decision and Control, pp. 1466-1473, 2012 Todorov, E. Linearly-solvable Markov decision problems. Advances in Neural Information Processing Systems 19, pp. 1369-1376. MIT Press, 2007 Todorov, E. Efficient computation of optimal actions. Proceedings of the National Academy of Sciences of the United States of America, 106(28): 11478-83, 2009 Todorov, E. Eigenfunction approximation methods for linearly-solvable optimal control problems. In Proc. of the 2nd IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning, pp. 161-168, 2009 Ziebart, B.D., Maas, A., Bagnell, J.A., and Dey, A.K. Maximum entropy inverse reinforcement learning. In Proc. of the 23rd AAAI Conference on Artificial Intelligence, 2008 Vroman, M. (2014). Maximum likelihood inverse reinforcement learning. PhD Thesis, Rutgers University, 2014 Raita, H. (2012). On the performance of maximum likelihood inverse reinforcement learning. arXiv preprint Choi, J. and Kim, K. (2012). Nonparametric Bayesian inverse reinforcement learning for multiple reward functions. NIPS 25 Choi, J. and Kim, J. (2011). Inverse reinforcement learning in partially observable environments. Journal of Machine Learning Research Neu, and Szepesvari, C. (2007). Apprenticeship learning using inverse reinforcement learning and gradient methods. In Proc. of UAI Mahadevan, S. (2005). Proto-value functions: developmental reinforcement learning. In Proc. of the 22nd ICML
逆強化学習は、上記問題を解決する枠組みであるが、上述したように、既存の方法は、(1)状態が連続していると扱いにくく、(2)計算コストが高く、(3)状態の全軌道が推定に必要であるという欠点を有する。本開示で開示される方法は、これらの欠点を解決する。特に、非特許文献14において提案された従来の方法は、これまでの多くの研究が報告したようにうまく機能しない。さらに、非特許文献6で提案された方法はアルゴリズムが積分の複雑な評価を伴うため、実際には連続問題を解くことができない。
本発明は、逆強化学習のシステム及び方法を対象にする。
本発明の目的は、既存の技術の問題の1つ以上を除去するために、新規かつ改良された逆強化学習のシステム及び方法を提供することである。
これらの利点及びその他の利点を達成するために、本発明の目的に従って、具現化され広範に記載されているように、1つの側面では、本発明は、被験者の行動の報酬関数及び価値関数を推定する逆強化学習の方法であって、前記被験者の行動を定義する状態変数の変化を表すデータを取得し、式(1)によって与えられる修正ベルマン方程式を取得した前記データに適用し、
Figure 2019508817
ここで、r(x)及びV(x)は、状態xにおける報酬関数及び価値関数をそれぞれ示し、γは割引率を表し、b(y|x)及びπ(y|x)は、学習前の状態遷移確率及び学習後の状態遷移確率をそれぞれ示し、式(2)における密度比π(x)/b(x)の対数を推定し、密度比π(x,y)/b(x,y)の対数の推定結果から、式(2)におけるr(x)及びV(x)を推定し、推定されたr(x)及びV(x)を出力する、処理を含む方法を提供する。
他の側面では、本発明は、被験者の行動の報酬関数及び価値関数を推定する逆強化学習の方法であって、前記被験者の行動を定義する行為付き状態遷移を表すデータを取得し、式(3)により与えられる修正ベルマン方程式を、取得した前記データに適用し、
Figure 2019508817
ここで、r(x)及びV(x)は、状態xにおける報酬関数及び価値関数をそれぞれ示し、γは割引率を表し、b(u|x)及びπ(u|x)は、状態xで行為uを選択する確率を表す、学習前の確率的制御則及び学習後の確率的制御則をそれぞれ表し、式(3)における密度比π(x)/b(x)の対数を推定し、密度比π(x,u)/b(x,u)の対数の推定結果から、式(4)におけるr(x)及びV(x)を推定し、推定したr(x)及びV(x)を出力する、処理を含む方法を提供する。
他の側面では、本発明は、プロセッサに、被験者の行動のコスト関数及び価値関数を推定するための逆強化学習アルゴリズムを実行させる命令を記憶する非一時記憶媒体であって、前記命令は、前記被験者の行動を定義する状態変数の変化を表すデータを取得し、式(1)によって与えられる修正ベルマン方程式を取得した前記データに適用し、
Figure 2019508817
ここで、r(x)及びV(x)は、状態xにおける報酬関数及び価値関数をそれぞれ示し、γは割引率を表し、b(y|x)及びπ(y|x)は、学習前の状態遷移確率及び学習後の状態遷移確率をそれぞれ示し、式(2)における密度比π(x)/b(x)の対数を推定し、密度比π(x,y)/b(x,y)の対数の推定結果から、式(2)におけるr(x)及びV(x)を推定し、推定されたr(x)及びV(x)を出力する、ステップを前記プロセッサに実行させる、非一時記憶媒体を提供する。
また、他の側面では、被験者の行動のコスト関数及び価値関数を推定する逆強化学習のシステムであって、前記被験者の行動を定義する状態変数の変化を表すデータを取得するデータ取得部と、メモリを備えるプロセッサであって、式(1)によって与えられる修正ベルマン方程式を取得した前記データに適用し、
Figure 2019508817
ここで、r(x)及びV(x)は、状態xにおける報酬関数及び価値関数をそれぞれ示し、γは割引率を表し、b(y|x)及びπ(y|x)は、学習前の状態遷移確率及び学習後の状態遷移確率をそれぞれ示し、式(2)における密度比π(x)/b(x)の対数を推定し、密度比π(x,y)/b(x,y)の対数の推定結果から、式(2)におけるr(x)及びV(x)を推定するよう構成された、前記プロセッサと、推定されたr(x)及びV(x)を出力する出力インタフェースと、を備えるシステムを提供する。
他の側面では、本発明は、ユーザがインターネットウェブサーフィンにおいて選択した一連の記事から前記ユーザが読む可能性が高い記事のトピックの好みを予測するシステムであって、インターネットに接続されたコンピュータに実装された、請求項8に記載の逆強化学習のシステムを備え、前記被験者は前記ユーザであり、前記被験者の行動を定義する前記状態変数には、各ウェブページを閲覧中に前記ユーザが選択した記事のトピックが含まれ、前記プロセッサは、前記ユーザが前記インターネットウェブサイトを閲覧しているインタフェースに、前記推定されたコスト関数及び価値関数に従って前記ユーザが読むお勧めの記事を表示させる、システムを提供する。
他の側面では、本発明は、複雑なタスクを実行するようにロボットをプログラミングする方法であって、一連の状態及び動作を記録するようにタスクを達成するように第1のロボットを制御し、記録された状態及び動作のシーケンスに基づいて請求項8に記載の逆強化学習のシステムを使用して報酬関数及び価値関数を推定し、推定された報酬関数及び価値関数を第2のロボットの順強化学習制御装置に提供して、前記推定された報酬関数及び価値関数を用いて前記第2のロボットをプログラムする、処理を含む方法を提供する。
本発明の1以上の側面によれば、効果的かつ効率的に逆強化学習を実行することができるようになる。いくつかの実施形態では、環境ダイナミクスを事前に知る必要はなく、積分を実行する必要はない。
本発明の付加的または別個の特徴及び利点は、以下の説明に記載され、一部はその説明から明らかになるか、または本発明の実施によって習得される。本発明の目的及び他の利点は、明細書及び特許請求の範囲ならびに添付の図面で特に指摘された構造によって実現され、達成されるであろう。
前述の一般的な説明及び以下の詳細な説明は、例示的かつ説明的なものであり、特許請求の範囲に記載された本発明のさらなる説明を提供することが意図されていることを理解されたい。
図1は、以下の密度比推定方法(1)LSCDE−IRL、(2)uLSIF−IRL、(3)LogReg−IRL、(4)Gauss−IRL、(5)LSCDE−OptV、及び(6)Gauss−OptVのそれぞれについて、本発明の実施形態が適用された振り上げ倒立振子実験の結果に対する正規化二乗誤差を示す図である。図に示すように、(a)〜(d)は、サンプリング方法及び他のパラメータに関して互いに異なる。 図2は、種々の密度比推定方法について、振り上げ倒立振子実験における交差検証誤差を示すグラフである。 図3は、長いポールのポール安定化課題の実験設定を示す図であり、左:スタート位置、中央:ゴール位置、及び右:状態変数である。 図4は、本発明の一実施形態に係る様々な被験者に対するポール安定化課題実験における学習曲線を示す図であり、実線は長いポールの場合を示し、点線は短いポールの場合を示す。 図5は、定義された部分空間に投影された被験者番号4,5及び7について、本発明の実施形態に係るポール安定化課題実験に対して導かれた推定コスト関数を示す。 図6は、被験者番号4及び7のポール安定化課題実験におけるテストデータセットの負の対数尤度値を示す図であり、推定コスト関数を評価する。 図7は、デモンストレータにより生成された観測された状態遷移から目的関数を推論することができる本発明の実施例1に係る逆強化学習の枠組みを模式的に示す図である。 図8は、ロボット挙動の模倣学習に本発明の逆強化学習を実装する例を示す概略ブロック図である。 図9は、人間の行動を解釈するのに本発明の逆強化学習を実装する例を示す概略ブロック図である。 図10は、ウェブ訪問者による一連のクリック動作を概略的に示し、ウェブサーフィンにおけるトピックの訪問者の好みを示す図である。 図11は、本発明の一実施形態に係る逆強化学習システムの一例を概略的に示す図である。 図12は、本発明の実施例1と実施例2との相違点を模式的に示す図である。 図13は、実施例2におけるステップ(2)の2回目のDREの計算方式を模式的に説明する図である。 図14は、実施例2と実施例1及び他の方法とを比較した振り上げ倒立振子問題の実験結果を示す図である。 図15は、実施例1及び2並びにRelEnt−IRLを用いたロボットナビゲーションタスクの実験結果を示す図である。
本開示は、線形可解マルコフ決定過程(LMDP)の枠組みの下で密度比推定に基づく新規な逆強化学習方法及びシステムを提供する。LMDPでは、制御された状態遷移密度と制御されていない状態遷移密度との間の比の対数は、状態依存のコスト関数及び価値関数によって表される。従来、密度比推定方法を用いて遷移密度比を推定し、正則化付き最小二乗法を用いて関係を満たす状態依存のコスト関数及び価値関数を推定するPCT国際出願PCT/JP2015/004001に記載されているように、本発明者たちは、新たな逆強化学習方法及びシステムを考案した。この方法は、分配関数の評価などの積分の計算を避けることができる。本開示は、以下の実施例1としてPCT/JP2015/004001に記載された発明の説明を含み、実施例1よりもいくつかの態様において改善された特徴を有する実施例2として新規な実施形態をさらに説明する。地域の国の法律に応じて、PCT/JP2015/004001に記載及び/または特許請求される主題は、実施例2に対する先行技術であってもなくてもよい。以下に説明するように、実施例1では、振り子の振り上げの簡単な数値シミュレーションを行い、従来の方法に対するその優位性が実証された。本発明者らは、この方法をさらにポール安定化課題を実行する際の人間の行動に適用し、推定されたコスト関数が、新しい試行または環境における被験者の動作を、申し分のないやり方で予測できることを示す。
本発明の1つの態様は、OptVアルゴリズムのような線形可解マルコフ決定過程の枠組みに基づくものである。実施例1では、本発明者らは、
Figure 2019508817
により与えられる新規なベルマン方程式を導き出した。ここで、q(x)及びV(x)は、状態xでのコスト関数び価値関数を表し、γは割引率を表す。p(y|x)及びπ(y|x)はそれぞれ、学習前の状態遷移確率及び学習後の状態遷移確率を表す。上記の式の左辺である密度比は、観測された行動から密度比推定法により効率的に計算される。一旦密度比が推定されると、コスト関数及び価値関数は正則化最小二乗法によって推定することができる。重要な特徴は、我々の方法は、通常は高い計算コストで計算される積分の計算を避けることができることである。本発明者らは、ポール安定化課題を実行する際の人間の行動にこの方法を適用し、推定されたコスト関数が新しい試行または環境における被験者の動作を予測することができることを示し、普遍的な適用可能性及び制御システム、機械学習、オペレーションリサーチ、情報理論などにおいてよく認識された広い適用可能性を有する逆強化学習におけるこの新たな計算技術の有効性を検証する。
<I.実施例1>
<1.線形可解マルコフ決定過程>
<1.1.順強化学習>
本開示は、マルコフ決定過程及び離散時間連続空間領域に対するその単純化を簡単に紹介する。X及びUをそれぞれ連続状態空間及び連続行為空間であるとする。タイムステップtにおいて、学習エージェントは、環境の現在の状態x∈Xを観測し、確率的な制御則π(u|x)からサンプリングされた行為u∈Uを実行する。その結果、環境から即時コストc(x,u)が与えられ、環境は、行為uの下でのxからy∈Xへの状態遷移確率P(y|x,u)に従って、状態を遷移させる。強化学習の目的は、与えられた目的関数を最小にする最適な制御則π(u|x)を構築することである。いくつかの目的関数が存在し、最も広く使用されているものは、
Figure 2019508817
により与えられるコストの割引和であり、ここで、γ∈(0,1)は割引率と呼ばれる。最適な価値関数は、次のベルマン方程式を満足することが知られている。
Figure 2019508817
式(2)は、min演算子により非線形方程式である。
線形可解マルコフ決定過程(LMDP)は、いくつかの仮定(Todorov,2007;2009a,非特許文献23〜24)の下で式(2)を単純化する。LMDPの重要なトリックは、制御則を最適化する代わりに、状態遷移確率を直接最適化することである。具体的には,2つの条件付き確率密度関数が導入される。1つは、元の状態遷移とみなすことができるp(y|x)によって示される制御されていない確率である。p(y|x)は任意であり、p(y|x)=∫P(y|x,u)π(u|x)duによって構築することができる。ここで、π(u|x)は、ランダムな制御則である。もう1つは、最適な状態遷移として解釈することができるπ(y|x)により表される制御された確率である。そして、コスト関数は、次の形式に制限される。
Figure 2019508817
ここで、q(x)及び
Figure 2019508817
はそれぞれ、状態依存コスト関数と、制御された状態遷移密度と制御されていない状態遷移密度との間のカルバック・ライブラー情報量と、を示す。この場合、ベルマン方程式(2)は、以下の式に単純化される。
Figure 2019508817
最適な制御された確率は、
Figure 2019508817
で与えられる。式(4)は、割引率γが存在するため好適度関数(desirability function)Z(x)=exp(−V(x))を導入したとしても、依然として非線形であることに注意されたい。LMDPの枠組み下での順強化学習において、V(x)は、式(4)を解くことにより計算され、次に、π(y|x)が計算される(Todorov,2009,非特許文献25)。
<1.2.逆強化学習>
LMDP下の逆強化学習(IRL)アルゴリズムは、Dvijotham及びTodorov(2010)(非特許文献6)により提案された。特に、OptVは、離散状態問題に対して非常に効率的である。OptVの利点は、最尤法を適用して価値関数を推定できるように最適な状態遷移が明示的に価値関数によって表されることである。観測された軌道が最適状態遷移密度(5)によって生成されるとする。価値関数は、以下の線形モデルにより近似される。
Figure 2019508817
ここで、w及びΨ(x)はそれぞれ、学習重み及び基底関数ベクトルを表す。
制御された確率は、式(5)により与えられ、重みベクトルwは、尤度を最大化することにより最適化することができる。状態遷移のデータセット
Figure 2019508817
があると仮定する。ここで、Nπは、制御された確率からのデータの数を示す。次に、対数尤度と、その導関数とは、
Figure 2019508817
で与えられる。ここで、π(y|x;w)は、価値関数が式(6)によりパラメータ化される制御された制御則である。一旦勾配が評価されると、勾配上昇法に従って重みベクトルwが更新される。
価値関数が推定された後、単純化されたベルマン方程式(4)を使用してコスト関数を読み出すことができる。これは、
Figure 2019508817
及びγが与えられた場合、コスト関数q(x)が、一意に決定され、q(x)が価値関数において使用される基底関数によって表されることを意味する。模倣学習の場合、コスト関数の表現は重要ではないが、解析のため、コストのより簡単な表現を見つけたい。したがって、本発明者らは、近似器:
Figure 2019508817
を導入する。ここで、w及び
Figure 2019508817
はそれぞれ、学習重み及び基底関数ベクトルを表す。wを最適化するためのL1正則化付き目的関数は、
Figure 2019508817
で与えられる。ここで、λは、正則化定数である。簡単な勾配降下アルゴリズムが適用され、J(w)が観測された状態において評価される。
Dvijotham及びTodorov(2010)(非特許文献6)の最も重大な問題は、解析的に解くことができない方程式(8)及び(10)における積分であり、彼らは、状態空間を離散化し、その積分を和で置き換えた。しかしながら、彼らが示唆したように、高次の問題では実現不可能である。さらに、制御されていない確率p(y|x)は、必ずしもガウス分布ではない。本発明の少なくともいくつかの実施形態では、制御されていない確率p(y|x)が因果密度として使用される対数尤度の勾配を評価するためにメトロポリス・ヘイスティングス法が適用される。
<2.密度比推定による逆強化学習>
<2.1.IRLのためのベルマン方程式>
式(4)及び(5)から、本発明者らは、割引コスト問題に対して次の重要な関係を導いた。
Figure 2019508817
式(11)は、本発明の実施形態に係るIRLアルゴリズムにおいて重要な役割を果たす。第1出口問題、平均コスト問題、及び有限地平線問題について、同様の方程式を導くことができる。q(x)は、式(3)で示されるコスト関数の状態依存部分であるため、式(11)の左辺は、時間差誤差ではないことに注意されたい。我々のIRLは依然として不良設定問題であり、コスト関数の形式はLMDPの下、式(3)により制約されるが、コスト関数は一意的に決定されない。具体的には、状態依存コスト関数が、
Figure 2019508817
によって修正されるならば、対応する価値関数は、
Figure 2019508817
となる。ここで、Cは、一定値である。次に、V(x)から導かれる制御された確率は、V´(x)から導かれる制御された確率と同一である。この特性は、以下に説明するようにコスト関数を推定する場合に有用である。本発明の一つの側面において、開示されるIRL法は、2つのパートからなる。1つは、以下に示す式(11)の右辺の密度比を推定することである。もう1つは、以下に示すように、正則化付き最小二乗法によってq(x)及びV(x)を推定することである。
<2.2.IRLのための密度比推定>
制御された遷移確率密度と制御されていない遷移確率密度との比を推定することは、密度比推定の問題とみなすことができる(Sugiyama et al.,2012,非特許文献20)。この問題の設定によれば、本開示は、以下の定式化を考慮する。
<2.2.1.一般的なケース>
まず、一般的な設定を考慮する。状態遷移の2つのデータセットがあると仮定する。1つは、式(7)に示されるDπであり、もう1つは、制御されていない確率からのデータセット
Figure 2019508817
である。ここで、Nは、データの数を示す。次に、我々は、D及びDπから比π(y|x)/p(y|x)を推定することに関心がある。
式(11)から、以下の2通りの分解を考えることができる。
Figure 2019508817
最初の分解(14)は、条件付き確率密度の対数の差を示す。式(14)を推定するために、本開示は、2つの実装を考慮する。1つは、LSCDE−IRLであり、これは、最小二乗条件付き密度推定(LSCDE:Least Squares Conditional Density Estimation)(Sugiyama et al.,2010)を用いて、π(y|x)及びp(y|x)を推定するものである。もう1つは、ガウス過程(Rasmussen & Williams,2006,非特許文献15)を用いて式(14)における条件付き密度を推定するGauss−IRLである。
2つめの分解(15)は、密度比の対数の差を示す。2つめの分解の利点は、π(x)=p(x)であるならば、lnπ(x)/p(x)を無視できることである。この条件は、設定によって満足できる。現在のところ、2つの方法がπ(x)/p(x)及びπ(x,y)/p(x,y)を推定するために実装されている。1つは、unconstrained Least Squares Importance Fitting(uLSIF)(Kanamori et al.,2009,非特許文献9)を用いるuLSIF−IRLである。もう1つは、LogRegであり、これは、ロジスティック回帰を別の方法で利用する。以下の2.3節ではその実装について説明する。
<2.2.2.p(y|x)が未知の場合>
状態遷移確率P(y|x,u)は、標準的なIRL問題の場合には既知であると仮定され、これは、制御されていない確率p(y|x)がLMDPの場合に与えられているという仮定に対応する。これは、モデルベースのIRLと見なすことができる。この場合には、式(14)は、適切であり、データセットDπから制御された確率π(y|x)を推定すれば十分である。
分析モデルも、制御されていない確率密度からのデータセットもない状況もある。そして、p(y|x)は、無限変数に対する不適切な分布である一様分布に置き換えられる。コスト関数及び価値関数を式(12)及び(13)によってシフトすることによって補償できるため、一般性を失うことなく、p(y|x)は1に設定される。
<2.3.密度比推定アルゴリズム>
この節では、本開示で開示されるIRL法に適した密度比推定アルゴリズムについて説明する。
<2.3.1.uLSIF>
uLSIF(Kanamori et al.,2009,非特許文献9)は、直接密度比推定方法のための最小二乗法である。uLSIFの目的は、2つの密度π(x)/p(x)とπ(x,y)/p(x,y)との比を推定することである。以下、簡略化のため、本開示では、D及びDπからr(z)=π(z)/p(z)(ここでz=(x,y))を推定する方法について説明する。線形モデル
Figure 2019508817
により比を近似する。ここで、
Figure 2019508817
は、基底関数ベクトルを示し、それぞれ、学習されるパラメータである。目的関数は、
Figure 2019508817
により与えられる。ここで、λは正則化定数であり、
Figure 2019508817
である。Hは、Dから推定され、hはDπから推定されることに注意されたい。式(16)は、
Figure 2019508817
として解析的に最小化されることができる。しかし、このミニマイザは、密度比の非負制約を無視する。この問題を補償するために、uLSIFは
Figure 2019508817
により解を修正する。ここで、上記のmax演算子は、要素ごとに適用される。Kanamori et al.(2009)(非特許文献9)により推奨されるように、Dπの状態を中心とするガウス関数が、
Figure 2019508817
により記載される基底関数として使用される。ここで、σは幅パラメータである。
Figure 2019508817
は、Dπから無作為に選択された状態である。パラメータλ及びσは、一個抜き交差検証により選択される。
<2.3.2.LSCDE>
LSCDE(Sugiyama et al.,2010,非特許文献19)は、条件付き確率密度関数を推定するためのuLSIFの特別なケースとみなされている。例えば、Dπからπ(y|x)=π(x,y)/π(x)を推定するための目的関数は、
Figure 2019508817
で与えられる。ここで、
Figure 2019508817
は線形モデルであり、λは正則化定数である。LSCDEのHとhの計算は、uLSIFの計算とわずかに異なり、次のように計算される。
Figure 2019508817
ここで、
Figure 2019508817
は、
Figure 2019508817
として定義される。式(18)に示される基底関数が使用されるため、この積分は、解析的に計算することができる。LSCDEの推定重みは式(17)で与えられる。推定された比が条件付き密度であることを保証するためには、コスト関数及び価値関数を推定するのに使用される場合に解を正規化すべきである。
<2.3.3.LogReg>
LogRegはロジスティック回帰を用いた密度推定の方法である。セレクタ変数η=−1を制御されていない確率からのサンプルに割り当て、セレクタ変数η=1を制御された確率からのサンプルに割り当てる。
Figure 2019508817
密度比は、以下のようにベイズ規則を適用することによって表すことができる。
Figure 2019508817
1番目の比Pr(η=−1)/Pr(η=1)は、N/Nπにより推定され、2番目の比は、条件付き確率π(η|z)をロジスティック回帰分類子:
Figure 2019508817
により推定した後に計算される。ここで、ηは、ラベルとみなすことができる。LogRegの場合、密度比の対数は線形モデル:
Figure 2019508817
によって与えられることに注意されたい。第2項のlnN/Nπは、式(15)に示される我々のIRL定式化では無視することができる。目的関数は、
Figure 2019508817
により表される負の正則化対数尤度から導かれる。閉形式解は導出されないが、この目的関数が凸であるため、標準の非線形最適化方法により効率的に最小化することが可能である。
<2.4.コスト関数及び価値関数の推定>
密度比π(y|x)/p(y|x)が推定されると、状態依存コスト関数q(x)及び状態依存価値関数V(x)を推定するために、正則化付き最小二乗法が適用される。
Figure 2019508817
が、負の対数比の近似:
Figure 2019508817
であると仮定し、それぞれ式(6)及び(9)において定義されるようなq(x)及びV(x)の線形近似器を考える。目的関数は、
Figure 2019508817
により与えられ、λ及びλは、正則化定数である。L2正則化は、数値安定性を達成する有効な手段であるため、wに使用される。一方、L1正則化は、実験者によってより簡単に解釈される疎モデルを生成するためにwに使用される。スパースネスが重要でない場合、L2正則化をwに使用することができる。さらに、式(12)は、
Figure 2019508817
を設定することによって使用され、コスト関数の非負性を効率的に満足することができるので、w及びwの非負制約は導入されない。
理論的には、任意の基底関数を選択することができる。発明の一実施形態では、式(18)に示されるガウス関数は簡略化のために使用される。
Figure 2019508817
ここで、σは幅パラメータである。中心位置
Figure 2019508817
は、Dπから無作為に選択される。
<3.実験>
<3.1.振り上げ倒立振子>
<3.1.1.課題説明>
本発明の実施例1に属する上記実施形態の有効性を実証し確認するために、本発明者らは、状態ベクトルが2次元ベクトルx=[θ,ω]によって与えられる振り上げ倒立振子問題を研究した。ここで、θ及びωはそれぞれ、ポールの角度及び角速度を表す。運動方程式は、以下の確率微分方程式によって与えられる。
Figure 2019508817
ここで、l、m、g、κ、σ、及びωは、ポールの長さ、質量、重力加速度、摩擦係数、ノイズのスケーリングパラメータ、及びブラウンノイズをそれぞれ表す。これまでの研究(Deisenroth et al.,2009,非特許文献4;Doya,2000,非特許文献5)とは対照的に、加えられたトルクuは制限されず、直接振り上げることが可能である。ステップhで時間軸を離散化することにより、ガウス分布で表される対応する状態遷移確率P(y|x,u)が得られる。このシミュレーションでは、パラメータは次のように与えられる。
Figure 2019508817
本発明者らは、(1)状態依存コスト関数q(x)、(2)制御されていない確率p(y|x)、及び(3)データセットD及びDπを次のように変化させて、一連の実験を行った。
<コスト関数>
目標は、ポールを直立状態に保つことであり、次の3つのコスト関数を準備する。
Figure 2019508817
ここで、Q=diag[1,0.2]である。qcost(x)は、Doya(2000)により使用され、qexp(x)はDeisenroth et al.(2009)(非特許文献4)により使用される。
<制御されていない確率>
2つの密度p(y|x)及びp(y|x)を考える。p(y|x)は、ガウス分布で表される確率的制御則π(u|x)を用いて構築される。離散時間における運動方程式はガウス関数で与えられるので、p(y|x)もガウス関数である。p(y|x)の場合、ガウス分布の混合物が確率的制御則として使用される。
<データセットの準備>
2つのサンプリング方法が考慮される。1つは均一なサンプリングであり、もう1つは軌道ベースのサンプリングである。均一サンプリング法では、xは状態空間全体にわたって定義された一様分布からサンプリングされる。つまり、p(x)及びπ(x)は、一様分布とみなされる。次に、制御されていない確率と制御された確率とからyをサンプリングして、D及びDπをそれぞれ構築する。軌道ベースのサンプリング方法では、同じ開始状態xからの状態の軌道を生成するためにp(y|x)及びπ(y|x)を使用する。次に、D及びDπを構築するために、軌道から1組の状態遷移が無作為に選択される。p(x)は、π(x)とは異なることが予想される。
各コスト関数について、対応する価値関数は、式(4)を解くことによって計算され、対応する最適な制御された確率は、式(5)により評価される。従来の方法(Todorov,2009b,非特許文献25)では、exp(−V(x))は線形モデルで表されているが、割引率γが線形モデルを複雑にするため、目的関数(1)の下では難しい。したがって、価値関数は、式(6)に示される線形モデルによって近似され、メトロポリス・ヘイスティングス法を用いて積分を評価する。
実施例1における本発明の実施形態による方法は、OptVの仮定が本発明の実施形態による方法のものと同一であるため、OptVと比較することができる。密度比推定方法の選択によれば、上記のようないくつかの変形が存在する。具体的には、以下の6つのアルゴリズム:(1)LSCDE−IRL、(2)uLSIF−IRL、(3)LogReg−IRL、(4)Gauss−IRL、(5)p(y|x)がLSCDEによって推定されるOptV法であるLSCDE−OptV、及び(6)p(y|x)を推定するのにガウス過程法を使用するGauss−OptVが考慮される。
及びDπのサンプル数をN=Nπ=300に設定した。パラメータλ、λ、σ、及びγは、次の領域:logλ、logλ∈linspace(−3,1,9)、logσ∈linspace(−1.5,1.5,9)、及びlogγ∈linspace(−0.2,0,9)からの交差検証により最適化される。ここで、linspace(xmin,xmax,n)は、xminとxmaxとの間で等間隔に置かれたn点の集合を生成する。
<3.1.2.実験結果>
推定コスト関数の精度は、テストサンプルの正規化二乗誤差:
Figure 2019508817
によって測定される。ここで、q(x)は、状態xでの式(19)に示される真のコスト関数の1つであり、
Figure 2019508817
は、推定コスト関数である。図1(a)〜(d)は、本実施形態のIRL法の精度を比較する。我々の方法(1)〜(4)は全ての設定においてOptV法(5)〜(6)より優れていることが示されている。具体的には、LogReg−IRLが最も優れた性能を示したが、我々の方法(1)〜(3)の間に有意差はなかった。標準ガウス過程がガウス分布の混合を表すことができないため、Gauss−IRLによって推定されたコストの精度は、確率的制御則π(u|x)がガウス分布の混合によって与えられた場合に、大幅に増加した。
図2は、割引率γの交差検証誤差を表し、λ、λ、及び1σ等の他のパラメータは、最適値に設定されている。このシミュレーションでは、交差検証誤差は、全ての方法において、真の割引率
Figure 2019508817
で最小であった。図2に示すように、また先に図1で説明したように、本発明の実施形態は、十分に小さい誤差を有することが実証されており、本発明の有効性が確認されている。
<3.2.人間の行動分析>
<3.2.1.課題説明>
IRLアルゴリズムを現実的な状況で評価するために、本発明者らは、動的モータ制御、ポール安定化問題を実施した。図3に実験設定を示す。被験者は、土台を左、右、上、下に動かしてポールを揺らし、ポールを減速させて直立位置でバランスさせる。ダイナミクスは、6次元の状態ベクトル
Figure 2019508817
により記述される。ここで、θ及び
Figure 2019508817
はそれぞれ、ポールの角度及び角速度であり、x及びyはそれぞれ、土台の水平位置及び垂直位置であり、
Figure 2019508817
及び
Figure 2019508817
は、それらの時間微分である。
この課題は、長いポール(73cm)及び短いポール(29cm)の2つの条件下で実施した。各被験者は、各条件においてポールをバランスさせる15回の試行を行った。各試行は、被験者が3秒間ポールを直立状態に保つことができた場合、又は、40秒が経過した場合に終了した。我々は7人の被験者(右きき5人と左きき2人)からデータを収集し、軌道ベースのサンプリング法を用いて、制御された確率の以下の2つのデータセットを構築した。i番目の被験者の訓練についてのデータセット
Figure 2019508817
と、i番目の被験者の試験についてのデータセット
Figure 2019508817
である。すべての被験者は、ランダムな制御則によって生成された一意的な制御されていない確率p(y|x)を有すると仮定する。これは、訓練についてのデータセット
Figure 2019508817
及び試験についてのデータセット
Figure 2019508817
が被験者間で共有されることを意味する。データセット内のサンプル数は300であった。
<3.2.2.実験結果>
図4は、7人の被験者の学習曲線を示しており、被験者間で学習プロセスがかなり異なることを示している。2人の被験者番号1及び3はこの課題を達成できなかった。成功した軌道の集合はIRLアルゴリズムによって使用されるべきであるので、我々は5つの被験者番号2及び4〜7からデータを収集した。
LogReg−IRLを用いた場合の実験結果を以下に示す(LSCDE−IRLとuLSIF−IRLとは同様の結果を示した)。図5は、部分空間
Figure 2019508817
に投影された被験者4、5、及び7の推定コスト関数を示し、
Figure 2019508817
は、視覚化のためにゼロに設定される。被験者7の場合、長いポールの条件のコスト関数は短いポールの条件のそれと大きく変わらず、図4に示すように短いポールの条件においてうまくいかなかった被験者5では、コスト関数に有意差があった。
訓練のデータセットから推定されたコスト関数を評価するために、本発明者らは、推定コスト関数に対して最適な制御された遷移確率を見つけるために順強化学習を適用し、次に試験データセットについて負の対数尤度:
Figure 2019508817
を計算した。ここで、
Figure 2019508817
は、
Figure 2019508817
におけるサンプル数である。
図6は、結果を示す。左図(a)において、我々は、長いポールの条件における被験者の試験データセット
Figure 2019508817
を用いた。最小の負の対数尤度は、同条件の訓練データセット
Figure 2019508817
及び
Figure 2019508817
から推定されたコスト関数によって達成された。図6の右のパネル(b)は、長いポール及び短いポールの両条件における被験者7の試験データが、長いポールの条件のみで同一の被験者7の訓練データセットから推定されたコスト関数によって最もよく予測されたことを示している。したがって、この実験によって本発明の実施形態の有効性及び有用性が確認され、実証された。
本開示は、LMDPの枠組みの下で新規な逆強化学習を提示した。本発明の特徴の1つは、式(11)を示すことであり、これは、対応するコスト関数を有する最適価値数に対して、時間差誤差がゼロであることを意味する。式(11)の右辺は、密度比推定の効率的な方法によってサンプルから推定できるので、本発明のIRLは、正則化付き単純最小二乗法につながる。また、実施例1における本発明の実施形態に係る方法は、高次の連続問題においては通常困難である積分を計算する必要がない。結果として、開示された方法は、OptVよりも計算上安価である。
線形化ベルマン方程式(Todorov,2009a,非特許文献24)には数多くの興味深い特性が存在するため、LMDPと経路積分法は、近年、ロボット工学及び機械学習分野(Theodorou & Todorov,2012,非特許文献22)において注目を集めている。それらは、大きな自由度を持つロボットのための確率的制御則の学習にうまく適用されている(Kinjo et al.,2013,非特許文献11;Stulp & Sigaud,2012,非特許文献17;Sugimoto and Morimoto,2011,非特許文献18;Theodorou et al.,2010,非特許文献21)。本発明の実施形態によるIRL方法は、複雑なコントローラを設計するために既存の順強化学習方法と統合されてもよい。
上述したように、本発明の実施例1の少なくともいくつかの態様において、本開示は、観測された行動から報酬/コスト関数を効果的に推論することができる計算アルゴリズムを提供する。本発明の実施形態のアルゴリズムは、適切なハードウェア及びソフトウェア、ならびに特別に設計されたプロプライエタリなハードウェア/ソフトウェアを有する汎用コンピュータシステムに実装されることができる。本発明の少なくともいくつかの実施形態による様々な利点には、
A)モデルフリーな方法/システム:本発明の実施形態による方法及びシステムは、環境ダイナミクスを事前に知る必要はない。すなわち、この方法/システムは、モデルフリーな方法――いくつかの先行技術のアプローチは環境ダイナミクスが事前に既知であると仮定しているが、目標ダイナミクスを明示的にモデル化する必要はない――と見なされる。
B)データ効率が良い:多くの従来の方法は状態の軌跡の集合を必要とする一方、本発明の実施形態による方法及びシステムのデータセットは状態遷移の集合からなる。したがって、本発明の実施形態による方法及びシステムでは、データを収集することがより容易である。
C)計算効率が良い(1):本発明の実施形態による方法及びシステムは、(順)強化学習問題を解く必要はない。対照的に、いくつかの従来の方法では、推定報酬/コスト関数を用いてこのような順強化学習問題を何度も解く必要があった。その計算は各候補について実行されなければならず、通常、最適解を見つけるのに長い時間がかかる。
D)計算効率が良い(2):本発明の実施形態による方法及びシステムは、(a)密度比推定及び(b)正則化最小二乗の2つの最適化アルゴリズムを使用する。対照的に、いくつかの従来の方法は、確率的勾配法またはマルコフ連鎖モンテカルロ法を使用するが、これは通常、最小二乗法と比較して最適化に時間がかかる。
ことが含まれる。
上述したように、一態様では、本発明は、デモンストレータによって生成された観測された状態遷移から目的関数を推論することができる逆強化学習を提供する。図7は、本発明の実施例1に係る方法の枠組みを模式的に示す図である。本発明の実施例1に係る逆強化学習の実施形態は2つの要素:(1)密度比推定により制御付き及び制御無し状態遷移確率の比を学習すること、(2)正則化最小二乗法により遷移確率の比と互換性があるコスト関数及び価値関数を推定すること、を含む。各ステップに効率的なアルゴリズムを使用することにより、本発明の実施形態は、他の逆強化学習方法よりもデータ及び計算においてより効率的である。
工業的な適用性と逆強化学習の有用性はよく理解され、認識されている。本発明の実施形態が適用されるシステム/構成の例を以下に説明する。
<ロボット挙動の模倣学習>
複雑なタスクを実行するようロボットをプログラミングすることは、運動計画などの標準的な方法では困難である。多くの場合、望まれる動作をロボットに示す方がはるかに容易である。しかし、古典的な模倣学習の主な欠点は、得られたコントローラが実演された動きを再現するだけなので、新しい状況に対処できないことである。本発明の実施形態は、実演された行動から目的関数を推定することができ、推定された目的関数を、異なる状況に対する異なる行動を学習するために使用することができる。
図8は、このような本発明の実装を概略的に示す。まず、デモンストレータは、ロボットがタスクを達成するように制御し、状態と動作のシーケンスが記録される。次に、本発明の一実施形態による逆強化学習コンポーネントは、コスト関数及び価値関数を推定し、それらは異なるロボットの順強化学習コントローラに与えられる。
<人間の行動の解釈>
行動の背後にある人間の意図を理解することは、ユーザーフレンドリーな支援システムを構築する上で基本的な問題である。一般に、行動は、動作追跡システムによって抽出される一連の状態によって表される。本発明の一実施形態による逆強化学習方法/システムによって推定されたコスト関数は、与えられた行動データセットを説明するコンパクトな表現とみなすことができる。推定コスト関数のパターン分類により、ユーザの専門知識や好みを推定することが可能となる。図9は、本発明の一実施形態によるこの実装を概略的に示す図である。
<ウェブ体験の分析>
訪問者が、訪問者に提示された記事を読む可能性を高めるために、例えば、オンラインニュースウェブサイトの設計者は、意思決定の観点から訪問者のウェブ体験を調査すべきである。特に、個人化されたサービスの重要なビジネスアプリケーションとして、リコメンドシステムが注目されている。しかし、協調フィルタリングのような従来の方法では、意思決定のシーケンスを明示的に考慮していない。本発明の実施形態は、ネットサーフィン中の訪問者の行動をモデル化する異なる効果的な方法を提供することができる。図10は、ユーザによる一連のクリック行為の例を示し、どのトピックがどの順序でユーザによってアクセスされたかを示している。訪問者が読んでいるトピックは状態とみなされ、リンクをクリックすることが行為とみなされる。次に、本発明の一実施形態による逆強化学習は、ユーザのネットサーフィンにおける意思決定を分析することができる。推定コスト関数は訪問者の好みを表すので、ユーザのための記事のリストを推薦することが可能となる。
以上説明したように、本発明の実施例1における実施形態に係る逆強化学習方式は、広範囲の産業及び/又は商業システムに適用可能である。図11は、一般的なコンピュータシステムとセンサーシステムとを用いた実装例を示す図である。例えば、数学的方程式を用いて上述した方法は、このような一般的なコンピュータシステムにおいて実施することができる。図示されているように、この例のシステムは、観測されている対象から、状態遷移、すなわち観測された行動に関する情報を受け取るセンサーシステム111(データ取得ユニットの一例)を含む。センサーシステム111は、画像処理ソフトウェア/ハードウェア、変位センサ、速度センサ、加速度センサ、マイクロホン、キーボード、及び任意の他の入力装置を備えた1または複数の撮像装置を含むことができる。センサシステム111は、適切なメモリ114を備えたプロセッサ113を有するコンピュータ112に接続され、受信したデータを本発明の実施形態に従って分析することができる。分析の結果は、ディスプレイモニタ、コントローラ、ドライバなど(出力インタフェースの例)の任意の出力システム115、あるいは結果を制御に利用する場合には制御対象に出力される。結果は、上述のように、別のロボットまたはコンピュータ等の別のシステム、又は、ユーザの対話に応答するウェブサイトソフトウェア等をプログラムするのに使用したり、転送されることができる。
上述のユーザのウェブ記事の好みを予測する場合、実装されるシステムは、インターネットに接続されたコンピュータに実装された、上記の実施形態のいずれか1つに記載された逆強化学習のシステムを含んでもよい。ここで、ユーザの行動を定義する状態変数には、各ウェブページを閲覧しながらユーザが選択した記事のトピックが含まれる。そして、逆強化学習の結果を用いて、ユーザがインターネットウェブサイトを閲覧している携帯型スマートフォン、パーソナルコンピュータなどのインタフェースに、ユーザに対するお勧めの記事を表示させる。
<II.実施例2>
いくつかの側面で実施例1よりも優れた特徴を有する実施例2について以下に説明する。図12は、実施例1と実施例2との相違点を模式的に示す図である。上述し、図12の(a)に示すように、実施例1では、密度比推定アルゴリズムを2回使用し、正則化最小二乗法を用いた。これに対し、本発明の実施例2では、標準密度比推定(DRE:density ratio estimation)アルゴリズムを用いて密度比π(x)/b(x)を推定し、それぞれ報酬関数及び価値関数であるr(x)及びV(x)を、ベルマン方程式を用いた密度比π(x,y)/b(x,y)の対数の推定により計算する。詳細には、実施例1では、次の3つのステップが必要であった。(1)標準DREアルゴリズムによりπ(x)/b(x)を推定し、(2)標準DREアルゴリズムによりπ(x,y)/b(x,y)を推定し、(3)ベルマン方程式を用いて正則化最小二乗法によりr(x)及びV(x)を計算する。これに対し、本発明の実施例2は、2段階最適化のみを使用する。(1)標準密度比推定(DRE)アルゴリズムによってlnπ(x)/b(x)を推定し、(2)ベルマン方程式を用いて、lnπ(x,y)/b(x,y)のDRE(2回目)によりr(x)及びV(x)を計算する。
図13は、実施例2のステップ(2)の2回目のDREの計算方式を模式的に説明する図である。図13に示すように、1回目のDREがlnπ(x)/b(x)を推定するため、lnπ(x,y)/b(x,y)の2回目のDREは、以下の方程式
Figure 2019508817
を用いてr(x)+γV(y)−V(x)の推定を行うことになる。このように、本実施例2では、実施例1の第3のステップ(3)を正則化最小二乗法によって計算する必要がなく、実施例1に比べて計算コストを大幅に削減することができる。実施例2では、ベルマン方程式を用いてlnπ(x,y)/b(x,y)のDRE(2回目)によりr(x)及びV(x)を計算する第2のステップ(2)を実行するために、基底関数は状態空間において設計され、最適化されるパラメータの数が減少する。これに対し、実施例1では、標準DREアルゴリズムにより、π(x,y)/b(x,y)を推定するステップ(2)において、基底関数を状態空間の積で設計する必要があり、比較的多数のパラメータを最適化する必要がある。このように実施例2によれば、実施例1に比べて、メモリ使用量が比較的少なくて済む。したがって、実施例2は、実施例1よりもこれらの様々な重要な利点を有する。実施例2の他の特徴及び構成は、以下に特に明記しない限り、実施例1について上述した様々な方法及び方式と同じである。
以下の表1は、実施例2と従来の様々な方法との一般的な比較を示す。具体的には、上述したOptV、最大エントロピーIRL(MaxEnt−IRL)、及び相対エントロピーIPL(RelEnt−IRL)について、実施例2と様々な特徴を比較する。表1に示すように、本発明の実施例1は、従来の方法に比べて様々な利点を有する。
Figure 2019508817
本発明の実施例2の有効性を実証し確認するために、上述の振り上げ倒立振子問題を検討した。実施例2を実施例1、MaxEnt−IRL、RelEnt−IRL、及びOptVと比較した実験結果を図14に示す。図中、実施例2は、「新規発明」として示され、実施例1は、「PCT/JP2015/004001」として示されている。図14に示すように、実施例2は、サンプル数が少ないにもかかわらず、実施例1を含む他の方法よりも良好に観測された制御則を復元することに成功している。
<ロボットナビゲーションタスク実験>
本発明の実施例2の有効性をさらに実証し確認するために、実施例2、実施例1、及びRelEt−IRLについて、ロボットナビゲーションタスクを検討した。赤(r)、緑(g)、及び青(b)の3つのターゲットオブジェクトを、カメラの目を有するプログラム可能なロボットの前に置いた。目標は、3つのターゲットのうち緑(g)のターゲットに到達することであった。3つのターゲットの前に、5つの所定の開始位置A〜Eが並べられた。訓練データは開始位置A〜C及びEから収集し、試験データは開始位置Dを使用して取得した。状態ベクトルは以下の通りであった。x=[θ,N,θ,N,θ,N,θpan,θtilt。ここで、θi(i=r,g,b)は、ターゲットに対する角度、Ni(i=r,g,b)はブロブサイズ、θpan及びθtiltは、ロボットのカメラの角度である。V(x)の基底関数は、次のように与えられる。
Figure 2019508817
ここで、cは、データセットから選択された中心位置である。r(x)の基底関数は、
Figure 2019508817
として与えられる。ここで、fはガウス関数であり、fはシグモイド関数である。この実験では、実験者がπ及びbを与え、出発点ごとに10個の軌跡を収集してデータセットを作成した。図15に実験結果を示す。図中、実施例2は、「新規発明」として示され、実施例1は、「PCT/JP2015/004001」として示されている。図15に示すように、実施例2の方が格段に良好な結果が得られた。これはまた、実施例2による推定価値関数が、報酬を形成するための潜在的関数として使用され得ることを示す。
上述の倒立振子課題における計算時間(分)を評価した。実施例2におけるLogReg IRL及びKLIEP IRLは、計算に約2.5分しか必要としなかった。実施例1のuLSIF IRL、LSCDE IRL、及びLogReg IRLは、それぞれ約4分〜9.5分を必要とした。したがって、実施例2は、上述の実施例1の様々なバージョンよりも大幅に少ない計算時間を必要とした。
容易に理解できるように、実施例2の応用は、上述の実施例1の様々な応用と本質的に同じである。特に、上述したように、実施例2の様々な変形例は、とりわけ、人間の行動の解釈、ウェブ体験の分析、及びいくつかの理想的な行動を示すことによって対応する目的関数が即時報酬として推定される模倣によるロボットコントローラの設計に適用可能である。ロボットは、順強化学習を用いた推定報酬を用いて予想外の状況に対する行動を一般化することができる。このように、本発明の実施例2に従って、非常に経済的で信頼性の高いシステム及び方法を構築することができる。特に、上述したように、実施例2は、他の方法よりも良好に、少ない観測で、観測された制御則を復元することができる。これは大きな利点である。
本発明の精神または範囲から逸脱することなく、本発明に様々な変更及び変形を加えることができることは、当業者には明らかであろう。したがって、本発明は、添付の特許請求の範囲及びそれらの均等の範囲内に入る改変及び変形を包含することが意図される。特に、上述した実施形態及びその変形のうちの任意の2つ以上の任意の一部または全部を組み合わせて、本発明の範囲内で考えることができることは、明白に意図されている。
他の側面では、本発明は、プロセッサに、被験者の行動の報酬関数及び価値関数を推定するための逆強化学習アルゴリズムを実行させる命令を記憶する非一時記憶媒体であって、前記命令は、前記被験者の行動を定義する状態変数の変化を表すデータを取得し、式(1)によって与えられる修正ベルマン方程式を取得した前記データに適用し、
Figure 2019508817
ここで、r(x)及びV(x)は、状態xにおける報酬関数及び価値関数をそれぞれ示し、γは割引率を表し、b(y|x)及びπ(y|x)は、学習前の状態遷移確率及び学習後の状態遷移確率をそれぞれ示し、式(2)における密度比π(x)/b(x)の対数を推定し、密度比π(x,y)/b(x,y)の対数の推定結果から、式(2)におけるr(x)及びV(x)を推定し、推定されたr(x)及びV(x)を出力する、ステップを前記プロセッサに実行させる、非一時記憶媒体を提供する。
また、他の側面では、被験者の行動の報酬関数及び価値関数を推定する逆強化学習のシステムであって、前記被験者の行動を定義する状態変数の変化を表すデータを取得するデータ取得部と、メモリを備えるプロセッサであって、式(1)によって与えられる修正ベルマン方程式を取得した前記データに適用し、
Figure 2019508817
ここで、r(x)及びV(x)は、状態xにおける報酬関数及び価値関数をそれぞれ示し、γは割引率を表し、b(y|x)及びπ(y|x)は、学習前の状態遷移確率及び学習後の状態遷移確率をそれぞれ示し、式(2)における密度比π(x)/b(x)の対数を推定し、密度比π(x,y)/b(x,y)の対数の推定結果から、式(2)におけるr(x)及びV(x)を推定するよう構成された、前記プロセッサと、推定されたr(x)及びV(x)を出力する出力インタフェースと、を備えるシステムを提供する。
他の側面では、本発明は、ユーザがインターネットウェブサーフィンにおいて選択した一連の記事から前記ユーザが読む可能性が高い記事のトピックの好みを予測するシステムであって、インターネットに接続されたコンピュータに実装された、請求項8に記載の逆強化学習のシステムを備え、前記被験者は前記ユーザであり、前記被験者の行動を定義する前記状態変数には、各ウェブページを閲覧中に前記ユーザが選択した記事のトピックが含まれ、前記プロセッサは、前記ユーザが前記インターネットウェブサイトを閲覧しているインタフェースに、前記推定された報酬関数及び価値関数に従って前記ユーザが読むお勧めの記事を表示させる、システムを提供する。
他の側面では、本発明は、複雑なタスクを実行するようにロボットをプログラミングする方法であって、一連の状態及び動作を記録するようにタスクを達成するように第1のロボットを制御し、記録された状態及び動作のシーケンスに基づいて請求項8に記載の逆強化学習のシステムを使用して報酬関数及び価値関数を推定し、推定された報酬関数及び価値関数を第2のロボットの順強化学習制御装置に提供して、前記推定された報酬関数及び価値関数を用いて前記第2のロボットをプログラムする、処理を含む方法を提供する。

Claims (10)

  1. 被験者の行動の報酬関数及び価値関数を推定する逆強化学習の方法であって、
    前記被験者の行動を定義する状態変数の変化を表すデータを取得し、
    式(1)によって与えられる修正ベルマン方程式を取得した前記データに適用し、
    Figure 2019508817
    ここで、r(x)及びV(x)は、状態xにおける報酬関数及び価値関数をそれぞれ示し、γは割引率を表し、b(y|x)及びπ(y|x)は、学習前の状態遷移確率及び学習後の状態遷移確率をそれぞれ示し、
    式(2)における密度比π(x)/b(x)の対数を推定し、
    密度比π(x,y)/b(x,y)の対数の推定結果から、式(2)におけるr(x)及びV(x)を推定し、
    推定されたr(x)及びV(x)を出力する、
    処理を含む方法。
  2. 前記比π(x)/b(x)及びπ(x,y)/b(x,y)の対数を推定する処理は、対数線形モデルを有するカルバック・ライブラー重要度推定過程(KLIEP:Kullback-Leibler Importance Estimation Procedure)を使用する処理を含む、
    請求項1記載の方法。
  3. 前記比π(x)/b(x)及びπ(x,y)/b(x,y)の対数を推定する処理は、ロジスティクス回帰を使用する処理を含む、
    請求項1記載の方法。
  4. 被験者の行動の報酬関数及び価値関数を推定する逆強化学習の方法であって、
    前記被験者の行動を定義する行為付き状態遷移を表すデータを取得し、
    式(3)により与えられる修正ベルマン方程式を、取得した前記データに適用し、
    Figure 2019508817
    ここで、r(x)及びV(x)は、状態xにおける報酬関数及び価値関数をそれぞれ示し、γは割引率を表し、b(u|x)及びπ(u|x)は、状態xでの行為uを選択する確率を表す、学習前の確率的制御則及び学習後の確率的制御則をそれぞれ表し、
    式(3)における密度比π(x)/b(x)の対数を推定し、
    密度比π(x,u)/b(x,u)の対数の推定結果から、式(4)におけるr(x)及びV(x)を推定し、
    推定したr(x)及びV(x)を出力する、
    処理を含む方法。
  5. 前記比π(x)/b(x)及びπ(x,u)/b(x,u)の対数を推定する処理は、対数線形モデルを有するカルバック・ライブラー重要度推定過程(KLIEP:Kullback-Leibler Importance Estimation Procedure)を使用する処理を含む、
    請求項4記載の方法。
  6. 前記比π(x)/b(x)及びπ(x,u)/b(x,u)の対数を推定する処理は、ロジスティクス回帰を使用する処理を含む、
    請求項4記載の方法。
  7. プロセッサに、被験者の行動のコスト関数及び価値関数を推定するための逆強化学習アルゴリズムを実行させる命令を記憶する非一時記憶媒体であって、前記命令は、
    前記被験者の行動を定義する状態変数の変化を表すデータを取得し、
    式(1)によって与えられる修正ベルマン方程式を取得した前記データに適用し、
    Figure 2019508817
    ここで、r(x)及びV(x)は、状態xにおける報酬関数及び価値関数をそれぞれ示し、γは割引率を表し、b(y|x)及びπ(y|x)は、学習前の状態遷移確率及び学習後の状態遷移確率をそれぞれ示し、
    式(2)における密度比π(x)/b(x)の対数を推定し、
    密度比π(x,y)/b(x,y)の対数の推定結果から、式(2)におけるr(x)及びV(x)を推定し、
    推定されたr(x)及びV(x)を出力する、
    処理を前記プロセッサに実行させる、非一時記憶媒体。
  8. 被験者の行動のコスト関数及び価値関数を推定する逆強化学習のシステムであって、
    前記被験者の行動を定義する状態変数の変化を表すデータを取得するデータ取得部と、
    メモリを備えるプロセッサであって、
    式(1)によって与えられる修正ベルマン方程式を取得した前記データに適用し、
    Figure 2019508817
    ここで、r(x)及びV(x)は、状態xにおける報酬関数及び価値関数をそれぞれ示し、γは割引率を表し、b(y|x)及びπ(y|x)は、学習前の状態遷移確率及び学習後の状態遷移確率をそれぞれ示し、
    式(2)における密度比π(x)/b(x)の対数を推定し、
    密度比π(x,y)/b(x,y)の対数の推定結果から、式(2)におけるr(x)及びV(x)を推定するよう構成された、前記プロセッサと、
    推定されたr(x)及びV(x)を出力する出力インタフェースと、
    を備えるシステム。
  9. ユーザがインターネットウェブサーフィンにおいて選択した一連の記事から前記ユーザが読む可能性が高い記事のトピックの好みを予測するシステムであって、
    インターネットに接続されたコンピュータに実装された、請求項8に記載の逆強化学習のシステムを備え、
    前記被験者は前記ユーザであり、前記被験者の行動を定義する前記状態変数には、各ウェブページを閲覧中に前記ユーザが選択した記事のトピックが含まれ、
    前記プロセッサは、前記ユーザが前記インターネットウェブサイトを閲覧しているインタフェースに、前記推定されたコスト関数及び価値関数に従って前記ユーザが読むお勧めの記事を表示させる、
    システム。
  10. 複雑なタスクを実行するようにロボットをプログラミングする方法であって、
    一連の状態及び動作を記録するようにタスクを達成するように第1のロボットを制御し、
    記録された状態及び動作のシーケンスに基づいて請求項8に記載の逆強化学習のシステムを使用して報酬関数及び価値関数を推定し、
    推定された報酬関数及び価値関数を第2のロボットの順強化学習制御装置に提供して、前記推定された報酬関数及び価値関数を用いて前記第2のロボットをプログラムする、
    処理を含む方法。
JP2018546050A 2016-03-15 2017-02-07 密度比推定による直接逆強化学習 Active JP6910074B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662308722P 2016-03-15 2016-03-15
US62/308,722 2016-03-15
PCT/JP2017/004463 WO2017159126A1 (en) 2016-03-15 2017-02-07 Direct inverse reinforcement learning with density ratio estimation

Publications (2)

Publication Number Publication Date
JP2019508817A true JP2019508817A (ja) 2019-03-28
JP6910074B2 JP6910074B2 (ja) 2021-07-28

Family

ID=59851115

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018546050A Active JP6910074B2 (ja) 2016-03-15 2017-02-07 密度比推定による直接逆強化学習

Country Status (5)

Country Link
EP (1) EP3430578A4 (ja)
JP (1) JP6910074B2 (ja)
KR (1) KR102198733B1 (ja)
CN (1) CN108885721B (ja)
WO (1) WO2017159126A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021229626A1 (ja) * 2020-05-11 2021-11-18 日本電気株式会社 学習装置、学習方法および学習プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8359226B2 (en) 2006-01-20 2013-01-22 International Business Machines Corporation System and method for marketing mix optimization for brand equity management
US8756177B1 (en) * 2011-04-18 2014-06-17 The Boeing Company Methods and systems for estimating subject intent from surveillance
US9090255B2 (en) * 2012-07-12 2015-07-28 Honda Motor Co., Ltd. Hybrid vehicle fuel efficiency using inverse reinforcement learning
EP3178040A4 (en) * 2014-08-07 2018-04-04 Okinawa Institute of Science and Technology School Corporation Inverse reinforcement learning by density ratio estimation
CN104573621A (zh) * 2014-09-30 2015-04-29 李文生 基于Chebyshev神经网络的动态手势学习和识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021229626A1 (ja) * 2020-05-11 2021-11-18 日本電気株式会社 学習装置、学習方法および学習プログラム
JPWO2021229626A1 (ja) * 2020-05-11 2021-11-18
JP7464115B2 (ja) 2020-05-11 2024-04-09 日本電気株式会社 学習装置、学習方法および学習プログラム

Also Published As

Publication number Publication date
EP3430578A4 (en) 2019-11-13
KR102198733B1 (ko) 2021-01-05
JP6910074B2 (ja) 2021-07-28
WO2017159126A1 (en) 2017-09-21
KR20180113587A (ko) 2018-10-16
CN108885721B (zh) 2022-05-06
EP3430578A1 (en) 2019-01-23
CN108885721A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
US10896382B2 (en) Inverse reinforcement learning by density ratio estimation
US10896383B2 (en) Direct inverse reinforcement learning with density ratio estimation
Zhang et al. Solar: Deep structured representations for model-based reinforcement learning
Kurutach et al. Learning plannable representations with causal infogan
Spaan et al. Decision-theoretic planning under uncertainty with information rewards for active cooperative perception
Chatzis et al. Echo state Gaussian process
Ferguson et al. Real-time predictive modeling and robust avoidance of pedestrians with uncertain, changing intentions
Rothkopf et al. Modular inverse reinforcement learning for visuomotor behavior
Wang et al. Focused model-learning and planning for non-Gaussian continuous state-action systems
Osa Motion planning by learning the solution manifold in trajectory optimization
Mohanty et al. Application of deep Q-learning for wheel mobile robot navigation
Švaco et al. A reinforcement learning based algorithm for robot action planning
Imohiosen et al. Active inference or control as inference? A unifying view
Ognibene et al. Proactive intention recognition for joint human-robot search and rescue missions through monte-carlo planning in pomdp environments
JP6910074B2 (ja) 密度比推定による直接逆強化学習
Alatabani et al. Machine learning and deep learning approaches for robotics applications
Matsumoto et al. Mobile robot navigation using learning-based method based on predictive state representation in a dynamic environment
CN113158539A (zh) 交通参与者的长期轨迹预测的方法
Sosic et al. Policy recognition via expectation maximization
Okadome et al. Predictive control method for a redundant robot using a non-parametric predictor
Angelov et al. From demonstrations to task-space specifications. Using causal analysis to extract rule parameterization from demonstrations
Ridge et al. Convolutional encoder-decoder networks for robust image-to-motion prediction
Li et al. Glance and glimpse network: A stochastic attention model driven by class saliency
Ghosh et al. Visual Search as a Probabilistic Sequential Decision Process in Software Autonomous System
Gamarra Utilizing gaze behavior for inferring task transitions using abstract hidden markov models

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181101

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210629

R150 Certificate of patent or registration of utility model

Ref document number: 6910074

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250