JP2019508817A

JP2019508817A - 密度比推定による直接逆強化学習

Info

Publication number: JP2019508817A
Application number: JP2018546050A
Authority: JP
Inventors: 英治内部; 賢治銅谷
Original assignee: kinawa Institute of Science and Technology Graduate University
Current assignee: kinawa Institute of Science and Technology Graduate University
Priority date: 2016-03-15
Filing date: 2017-02-07
Publication date: 2019-03-28
Anticipated expiration: 2037-02-07
Also published as: EP3430578A4; KR102198733B1; JP6910074B2; WO2017159126A1; KR20180113587A; CN108885721B; EP3430578A1; CN108885721A

Abstract

被験者の行動の報酬関数及び価値関数を推定する逆強化学習の方法であって、前記被験者の行動を定義する状態変数の変化を表すデータを取得し、式（１）によって与えられる修正ベルマン方程式を取得した前記データに適用し
【数７７】

ここで、ｒ（ｘ）及びＶ（ｘ）は、状態ｘにおける報酬関数及び価値関数をそれぞれ示し、γは割引率を表し、ｂ（ｙ｜ｘ）及びπ（ｙ｜ｘ）は、学習前の状態遷移確率及び学習後の状態遷移確率をそれぞれ示し、式（２）における密度比π（ｘ）／ｂ（ｘ）の対数を推定し、前記密度比π（ｘ，ｙ）／ｂ（ｘ，ｙ）の対数の推定結果から、式（２）におけるｒ（ｘ）及びＶ（ｘ）を推定し、推定されたｒ（ｘ）及びＶ（ｘ）を出力する、処理を含む。

Description

本発明は、逆強化学習に関し、特に、逆強化学習のシステム及び方法に関する。本出願は、２０１６年３月１５日に出願された米国仮出願６２／３０８，７２２の利益を主張し、ここに、参照により本明細書に組み込む。

観測から人間の行動を理解することは、人間と交流できる人工システムを開発する上で非常に重要である。我々の意思決定プロセスは選択された行動に伴う報酬／コストに影響されるため、この問題は、観測された行動から報酬／コストの推定として定式化することができる。

逆強化学習の考え方は、もともとは、Ng及びRussel（２０００）（非特許文献１４）により提案されている。Dvijotham及びTodorov（２０１０）（非特許文献６）により提案されたＯｐｔＶアルゴリズムは、事前作業であり、彼らは、デモンストレータの制御則は、線形化ベルマン方程式の解である価値関数によって近似されることを示している。

一般に、強化学習（ＲＬ：Reinforcement Learning）は、環境との相互作用を通して最適な制御則を学ぶことができる生物学的及び人工的システム両方の意思決定プロセスを調査するための計算の枠組みである。ＲＬにはいくつかの未解決の問題が存在し、重要な問題の１つは、どのように適切な報酬／コスト関数を設計し準備すればよいかということである。タスクが完了すると肯定的な報酬を与え、それ以外の場合はゼロになる疎報酬関数を設計するのは簡単であるが、最適な制御則を見つけるのが難しくなる。

場合によっては、適切な報酬／コスト関数を手作りするよりも望ましい行動の例を用意する方が簡単である。近年、デモンストレータの動作から報酬／コスト関数を導出し、模倣学習を実装するために、逆強化学習（ＩＲＬ：Inverse Reinforcement Learning）（Ng & Russell，２０００，非特許文献１４）及び徒弟学習（Abbeel & Ng，２００４，非特許文献１）が提案されている。しかしながら、既存の研究（Abbeel & Ng，２００４，非特許文献１；Ratliff et al.，２００９，非特許文献１６；Ziebart et al.，２００８，非特許文献２６）のほとんどは、推定報酬／コスト関数を用いて順強化学習問題を解くルーチンを必要とする。この処理は、環境のモデルが利用可能であっても、通常、非常に時間がかかる。

近年、コスト関数の形式を制限することによるマルコフ決定過程のサブクラスである線形可解マルコフ決定過程（ＬＭＤＰ：Linearly solvable Markov Decision Process）（Todorov，２００７；２００９，非特許文献２３〜２４）のコンセプトが導入されている。この制限はＩＲＬにおいて重要な役割を果たす。ＬＭＤＰは、ＫＬ制御及び経路積分アプローチ（Kappen et al.，２０１２，非特許文献１０；Theodorou et al.，２０１０，非特許文献２１）としても知られており、制御理論の分野（Fleming and Soner，２００６，非特許文献７）において同様の考え方が提案されている。経路積分法に基づくモデルフリーＩＲＬアルゴリズムが、Aghasadeghi & Bretl（２０１１）（非特許文献２）；Kalakrishnan et al.（２０１３）（非特許文献８）により提案されている。最適軌道の尤度はコスト関数によってパラメータ化されるので、コストのパラメータは尤度を最大化することによって最適化することができる。しかしながら、それらの方法は軌道データ全体を必要とする。最適な状態遷移の尤度が価値関数によって表されるＬＭＤＰの枠組みに基づいて、モデルベースＩＲＬ法が、Dvijotham及びTodorov（２０１０）（非特許文献６）により提案されている。ＩＲＬの経路積分アプローチとは対照的に、それは状態遷移の任意のデータセットから最適化することができる。大きな欠点は、解析的には解けない積分を評価することである。実際には、積分を和で置き換えるために状態空間を離散化したが、高次の連続問題では実現可能ではない。

米国特許第８，７５６，１７７号，観察から対象の意図を推測する方法及びシステム米国特許第７，６７２，７３９号，ラン−バイ−ラン制御への多重解像度解析により支援される強化学習アプローチシステム特許第５８１５４５８号，報酬関数推定装置、報酬関数推定方法、及びプログラム

Abbeel, P. and Ng, A.Y. Apprenticeship learning via inverse reinforcement learning. In Proc. of the 21st International Conference on Machine Learning, 2004 Aghasadeghi, N. and Bretl, T. Maximum entropy inverse reinforcement learning in continuous state spaces with path integrals. In Proc. of IEEE/RSJ International Conference on Intelligent Robots and Systems, pp.1561-1566, 2011 Boularias, A., Kober, J., and Peters, J. Relative entropy inverse reinforcement learning. In Proc. of the 14th International Conference on Artificial Intelligence and Statistics, volume 15, 2011 Deisenroth, M.P., Rasmussen, C.E, and Peters, J. Gaussian process dynamic programming. Neurocomputing, 72(7-9):1508-1524, 2009 Doya, K. Reinforcement learning in continuous time and space. Neural Computation, 12:219-245, 2000G. Li and Z. Tang, Nanoscale, 2014, 6, 3995-4011 Dvijotham, K. and Todorov, E. Inverse optimal control with linearly solvable MDPs. In Proc. of the 27th International Conference on Machine Learning, 2010 Fleming, W.H. and Soner, H.M. Controlled Markov Processes and Viscosity Solutions. Springer, second edition, 2006 Kalakrishnan, M., Pastor, P., Righetti, L., and Schaal, S. Learning objective functions for manipulation. In Proc. of IEEE International Conference on Robotics and Automation, pp.1331-1336, 2013 Kanamori, T., Hido, S., and Sugiyama, M. A Least-squares Approach to Direct Importance Estimation. Journal of Machine Learning Research, 10:1391-1445, 2009 Kappen, H.J., Gomez, V., and Opper, M. Optimal control as a graphical model inference problem. Machine Learning, 87(2):159-182, 2012 Kinjo, K., Uchibe, E., and Doya, K. Evaluation of linearly solvable Markov decision process with dynamic model learning in a mobile robot navigation task. Frontiers in Neurorobotics, 7(7), 2013 Levine, S. and Koltun, V. Continuous inverse optimal control with locally optimal examples. In Proc. of the 27th International Conference on Machine Learning, 2012 Levine, S., Popovic, Z., and Koltun, V. Nonlinear inverse reinforcement learning with Gaussian processes. Advances in Neural Information Processing Systems 24, pp.19-27. 2011 Ng, A.Y. and Russell, S. Algorithms for inverse reinforcement learning. In Proc. of the 17th International Conference on Machine Learning, 2000 Rasmussen, C.E. and Williams, C. K.I. Gaussian Processes for Machine Learning. MIT Press, 2006 Ratliff, N.D., Silver, D, and Bagnell, J.A. Learning to search: Functional gradient techniques for imitation learning. Autonomous Robots, 27(1): 25-53, 2009 Stulp, F. and Sigaud, O. Path integral policy improvement with covariance matrix adaptation. In Proc. of the 10th European Workshop on Reinforcement Learning, 2012 Sugimoto, N. and Morimoto, J. Phase-dependent trajectory optimization for periodic movement using path integral reinforcement learning. In Proc. of the 21st Annual Conference of the Japanese Neural Network Society, 2011 Sugiyama, M., Takeuchi, I., Suzuki, T., Kanamori, T., Hachiya, H., and Okanohara, D. Least-squares conditional density estimation. IEICE Transactions on Information and Systems, E93-D(3): 583-594, 2010 Sugiyama, M., Suzuki, T., and Kanamori, T. Density ratio estimation in machine learning. Cambridge University Press, 2012. Theodorou, E., Buchli, J., and Schaal, S. A generalized path integral control approach to reinforcement learning. Journal of Machine Learning Research, 11: 3137--3181, 2010 Theodorou, E.A and Todorov, E. Relative entropy and free energy dualities: Connections to path integral and KL control. In Proc. of the 51st IEEE Conference on Decision and Control, pp. 1466-1473, 2012 Todorov, E. Linearly-solvable Markov decision problems. Advances in Neural Information Processing Systems 19, pp. 1369-1376. MIT Press, 2007 Todorov, E. Efficient computation of optimal actions. Proceedings of the National Academy of Sciences of the United States of America, 106(28): 11478-83, 2009 Todorov, E. Eigenfunction approximation methods for linearly-solvable optimal control problems. In Proc. of the 2nd IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning, pp. 161-168, 2009 Ziebart, B.D., Maas, A., Bagnell, J.A., and Dey, A.K. Maximum entropy inverse reinforcement learning. In Proc. of the 23rd AAAI Conference on Artificial Intelligence, 2008 Vroman, M. (2014). Maximum likelihood inverse reinforcement learning. PhD Thesis, Rutgers University, 2014 Raita, H. (2012). On the performance of maximum likelihood inverse reinforcement learning. arXiv preprint Choi, J. and Kim, K. (2012). Nonparametric Bayesian inverse reinforcement learning for multiple reward functions. NIPS 25 Choi, J. and Kim, J. (2011). Inverse reinforcement learning in partially observable environments. Journal of Machine Learning Research Neu, and Szepesvari, C. (2007). Apprenticeship learning using inverse reinforcement learning and gradient methods. In Proc. of UAI Mahadevan, S. (2005). Proto-value functions: developmental reinforcement learning. In Proc. of the 22nd ICML

逆強化学習は、上記問題を解決する枠組みであるが、上述したように、既存の方法は、（１）状態が連続していると扱いにくく、（２）計算コストが高く、（３）状態の全軌道が推定に必要であるという欠点を有する。本開示で開示される方法は、これらの欠点を解決する。特に、非特許文献１４において提案された従来の方法は、これまでの多くの研究が報告したようにうまく機能しない。さらに、非特許文献６で提案された方法はアルゴリズムが積分の複雑な評価を伴うため、実際には連続問題を解くことができない。

本発明は、逆強化学習のシステム及び方法を対象にする。

本発明の目的は、既存の技術の問題の１つ以上を除去するために、新規かつ改良された逆強化学習のシステム及び方法を提供することである。

これらの利点及びその他の利点を達成するために、本発明の目的に従って、具現化され広範に記載されているように、１つの側面では、本発明は、被験者の行動の報酬関数及び価値関数を推定する逆強化学習の方法であって、前記被験者の行動を定義する状態変数の変化を表すデータを取得し、式（１）によって与えられる修正ベルマン方程式を取得した前記データに適用し、

ここで、ｒ（ｘ）及びＶ（ｘ）は、状態ｘにおける報酬関数及び価値関数をそれぞれ示し、γは割引率を表し、ｂ（ｙ｜ｘ）及びπ（ｙ｜ｘ）は、学習前の状態遷移確率及び学習後の状態遷移確率をそれぞれ示し、式（２）における密度比π（ｘ）／ｂ（ｘ）の対数を推定し、密度比π（ｘ，ｙ）／ｂ（ｘ，ｙ）の対数の推定結果から、式（２）におけるｒ（ｘ）及びＶ（ｘ）を推定し、推定されたｒ（ｘ）及びＶ（ｘ）を出力する、処理を含む方法を提供する。
他の側面では、本発明は、被験者の行動の報酬関数及び価値関数を推定する逆強化学習の方法であって、前記被験者の行動を定義する行為付き状態遷移を表すデータを取得し、式（３）により与えられる修正ベルマン方程式を、取得した前記データに適用し、

ここで、ｒ（ｘ）及びＶ（ｘ）は、状態ｘにおける報酬関数及び価値関数をそれぞれ示し、γは割引率を表し、ｂ（ｕ｜ｘ）及びπ（ｕ｜ｘ）は、状態ｘで行為ｕを選択する確率を表す、学習前の確率的制御則及び学習後の確率的制御則をそれぞれ表し、式（３）における密度比π（ｘ）／ｂ（ｘ）の対数を推定し、密度比π（ｘ，ｕ）／ｂ（ｘ，ｕ）の対数の推定結果から、式（４）におけるｒ（ｘ）及びＶ（ｘ）を推定し、推定したｒ（ｘ）及びＶ（ｘ）を出力する、処理を含む方法を提供する。

他の側面では、本発明は、プロセッサに、被験者の行動のコスト関数及び価値関数を推定するための逆強化学習アルゴリズムを実行させる命令を記憶する非一時記憶媒体であって、前記命令は、前記被験者の行動を定義する状態変数の変化を表すデータを取得し、式（１）によって与えられる修正ベルマン方程式を取得した前記データに適用し、

ここで、ｒ（ｘ）及びＶ（ｘ）は、状態ｘにおける報酬関数及び価値関数をそれぞれ示し、γは割引率を表し、ｂ（ｙ｜ｘ）及びπ（ｙ｜ｘ）は、学習前の状態遷移確率及び学習後の状態遷移確率をそれぞれ示し、式（２）における密度比π（ｘ）／ｂ（ｘ）の対数を推定し、密度比π（ｘ，ｙ）／ｂ（ｘ，ｙ）の対数の推定結果から、式（２）におけるｒ（ｘ）及びＶ（ｘ）を推定し、推定されたｒ（ｘ）及びＶ（ｘ）を出力する、ステップを前記プロセッサに実行させる、非一時記憶媒体を提供する。
また、他の側面では、被験者の行動のコスト関数及び価値関数を推定する逆強化学習のシステムであって、前記被験者の行動を定義する状態変数の変化を表すデータを取得するデータ取得部と、メモリを備えるプロセッサであって、式（１）によって与えられる修正ベルマン方程式を取得した前記データに適用し、

ここで、ｒ（ｘ）及びＶ（ｘ）は、状態ｘにおける報酬関数及び価値関数をそれぞれ示し、γは割引率を表し、ｂ（ｙ｜ｘ）及びπ（ｙ｜ｘ）は、学習前の状態遷移確率及び学習後の状態遷移確率をそれぞれ示し、式（２）における密度比π（ｘ）／ｂ（ｘ）の対数を推定し、密度比π（ｘ，ｙ）／ｂ（ｘ，ｙ）の対数の推定結果から、式（２）におけるｒ（ｘ）及びＶ（ｘ）を推定するよう構成された、前記プロセッサと、推定されたｒ（ｘ）及びＶ（ｘ）を出力する出力インタフェースと、を備えるシステムを提供する。
他の側面では、本発明は、ユーザがインターネットウェブサーフィンにおいて選択した一連の記事から前記ユーザが読む可能性が高い記事のトピックの好みを予測するシステムであって、インターネットに接続されたコンピュータに実装された、請求項８に記載の逆強化学習のシステムを備え、前記被験者は前記ユーザであり、前記被験者の行動を定義する前記状態変数には、各ウェブページを閲覧中に前記ユーザが選択した記事のトピックが含まれ、前記プロセッサは、前記ユーザが前記インターネットウェブサイトを閲覧しているインタフェースに、前記推定されたコスト関数及び価値関数に従って前記ユーザが読むお勧めの記事を表示させる、システムを提供する。
他の側面では、本発明は、複雑なタスクを実行するようにロボットをプログラミングする方法であって、一連の状態及び動作を記録するようにタスクを達成するように第１のロボットを制御し、記録された状態及び動作のシーケンスに基づいて請求項８に記載の逆強化学習のシステムを使用して報酬関数及び価値関数を推定し、推定された報酬関数及び価値関数を第２のロボットの順強化学習制御装置に提供して、前記推定された報酬関数及び価値関数を用いて前記第２のロボットをプログラムする、処理を含む方法を提供する。

本発明の１以上の側面によれば、効果的かつ効率的に逆強化学習を実行することができるようになる。いくつかの実施形態では、環境ダイナミクスを事前に知る必要はなく、積分を実行する必要はない。

本発明の付加的または別個の特徴及び利点は、以下の説明に記載され、一部はその説明から明らかになるか、または本発明の実施によって習得される。本発明の目的及び他の利点は、明細書及び特許請求の範囲ならびに添付の図面で特に指摘された構造によって実現され、達成されるであろう。

前述の一般的な説明及び以下の詳細な説明は、例示的かつ説明的なものであり、特許請求の範囲に記載された本発明のさらなる説明を提供することが意図されていることを理解されたい。

図１は、以下の密度比推定方法（１）ＬＳＣＤＥ−ＩＲＬ、（２）ｕＬＳＩＦ−ＩＲＬ、（３）ＬｏｇＲｅｇ−ＩＲＬ、（４）Ｇａｕｓｓ−ＩＲＬ、（５）ＬＳＣＤＥ−ＯｐｔＶ、及び（６）Ｇａｕｓｓ−ＯｐｔＶのそれぞれについて、本発明の実施形態が適用された振り上げ倒立振子実験の結果に対する正規化二乗誤差を示す図である。図に示すように、（ａ）〜（ｄ）は、サンプリング方法及び他のパラメータに関して互いに異なる。図２は、種々の密度比推定方法について、振り上げ倒立振子実験における交差検証誤差を示すグラフである。図３は、長いポールのポール安定化課題の実験設定を示す図であり、左：スタート位置、中央：ゴール位置、及び右：状態変数である。図４は、本発明の一実施形態に係る様々な被験者に対するポール安定化課題実験における学習曲線を示す図であり、実線は長いポールの場合を示し、点線は短いポールの場合を示す。図５は、定義された部分空間に投影された被験者番号４，５及び７について、本発明の実施形態に係るポール安定化課題実験に対して導かれた推定コスト関数を示す。図６は、被験者番号４及び７のポール安定化課題実験におけるテストデータセットの負の対数尤度値を示す図であり、推定コスト関数を評価する。図７は、デモンストレータにより生成された観測された状態遷移から目的関数を推論することができる本発明の実施例１に係る逆強化学習の枠組みを模式的に示す図である。図８は、ロボット挙動の模倣学習に本発明の逆強化学習を実装する例を示す概略ブロック図である。図９は、人間の行動を解釈するのに本発明の逆強化学習を実装する例を示す概略ブロック図である。図１０は、ウェブ訪問者による一連のクリック動作を概略的に示し、ウェブサーフィンにおけるトピックの訪問者の好みを示す図である。図１１は、本発明の一実施形態に係る逆強化学習システムの一例を概略的に示す図である。図１２は、本発明の実施例１と実施例２との相違点を模式的に示す図である。図１３は、実施例２におけるステップ（２）の２回目のＤＲＥの計算方式を模式的に説明する図である。図１４は、実施例２と実施例１及び他の方法とを比較した振り上げ倒立振子問題の実験結果を示す図である。図１５は、実施例１及び２並びにＲｅｌＥｎｔ−ＩＲＬを用いたロボットナビゲーションタスクの実験結果を示す図である。

本開示は、線形可解マルコフ決定過程（ＬＭＤＰ）の枠組みの下で密度比推定に基づく新規な逆強化学習方法及びシステムを提供する。ＬＭＤＰでは、制御された状態遷移密度と制御されていない状態遷移密度との間の比の対数は、状態依存のコスト関数及び価値関数によって表される。従来、密度比推定方法を用いて遷移密度比を推定し、正則化付き最小二乗法を用いて関係を満たす状態依存のコスト関数及び価値関数を推定するＰＣＴ国際出願ＰＣＴ／ＪＰ２０１５／００４００１に記載されているように、本発明者たちは、新たな逆強化学習方法及びシステムを考案した。この方法は、分配関数の評価などの積分の計算を避けることができる。本開示は、以下の実施例１としてＰＣＴ／ＪＰ２０１５／００４００１に記載された発明の説明を含み、実施例１よりもいくつかの態様において改善された特徴を有する実施例２として新規な実施形態をさらに説明する。地域の国の法律に応じて、ＰＣＴ／ＪＰ２０１５／００４００１に記載及び／または特許請求される主題は、実施例２に対する先行技術であってもなくてもよい。以下に説明するように、実施例１では、振り子の振り上げの簡単な数値シミュレーションを行い、従来の方法に対するその優位性が実証された。本発明者らは、この方法をさらにポール安定化課題を実行する際の人間の行動に適用し、推定されたコスト関数が、新しい試行または環境における被験者の動作を、申し分のないやり方で予測できることを示す。

本発明の１つの態様は、ＯｐｔＶアルゴリズムのような線形可解マルコフ決定過程の枠組みに基づくものである。実施例１では、本発明者らは、

により与えられる新規なベルマン方程式を導き出した。ここで、ｑ（ｘ）及びＶ（ｘ）は、状態ｘでのコスト関数び価値関数を表し、γは割引率を表す。ｐ（ｙ｜ｘ）及びπ（ｙ｜ｘ）はそれぞれ、学習前の状態遷移確率及び学習後の状態遷移確率を表す。上記の式の左辺である密度比は、観測された行動から密度比推定法により効率的に計算される。一旦密度比が推定されると、コスト関数及び価値関数は正則化最小二乗法によって推定することができる。重要な特徴は、我々の方法は、通常は高い計算コストで計算される積分の計算を避けることができることである。本発明者らは、ポール安定化課題を実行する際の人間の行動にこの方法を適用し、推定されたコスト関数が新しい試行または環境における被験者の動作を予測することができることを示し、普遍的な適用可能性及び制御システム、機械学習、オペレーションリサーチ、情報理論などにおいてよく認識された広い適用可能性を有する逆強化学習におけるこの新たな計算技術の有効性を検証する。

＜Ｉ．実施例１＞
＜１．線形可解マルコフ決定過程＞
＜１．１．順強化学習＞
本開示は、マルコフ決定過程及び離散時間連続空間領域に対するその単純化を簡単に紹介する。Ｘ及びＵをそれぞれ連続状態空間及び連続行為空間であるとする。タイムステップｔにおいて、学習エージェントは、環境の現在の状態ｘ_ｔ∈Ｘを観測し、確率的な制御則π（ｕ_ｔ｜ｘ_ｔ）からサンプリングされた行為ｕ_ｔ∈Ｕを実行する。その結果、環境から即時コストｃ（ｘ_ｔ，ｕ_ｔ）が与えられ、環境は、行為ｕ_ｔの下でのｘ_ｔからｙ∈Ｘへの状態遷移確率Ｐ_Ｔ（ｙ｜ｘ_ｔ，ｕ_ｔ）に従って、状態を遷移させる。強化学習の目的は、与えられた目的関数を最小にする最適な制御則π（ｕ｜ｘ）を構築することである。いくつかの目的関数が存在し、最も広く使用されているものは、

により与えられるコストの割引和であり、ここで、γ∈（０，１）は割引率と呼ばれる。最適な価値関数は、次のベルマン方程式を満足することが知られている。

式（２）は、ｍｉｎ演算子により非線形方程式である。

線形可解マルコフ決定過程（ＬＭＤＰ）は、いくつかの仮定（Todorov，２００７；２００９ａ，非特許文献２３〜２４）の下で式（２）を単純化する。ＬＭＤＰの重要なトリックは、制御則を最適化する代わりに、状態遷移確率を直接最適化することである。具体的には，２つの条件付き確率密度関数が導入される。１つは、元の状態遷移とみなすことができるｐ（ｙ｜ｘ）によって示される制御されていない確率である。ｐ（ｙ｜ｘ）は任意であり、ｐ（ｙ｜ｘ）＝∫Ｐ_Ｔ（ｙ｜ｘ，ｕ）π_０（ｕ｜ｘ）ｄｕによって構築することができる。ここで、π_０（ｕ｜ｘ）は、ランダムな制御則である。もう１つは、最適な状態遷移として解釈することができるπ（ｙ｜ｘ）により表される制御された確率である。そして、コスト関数は、次の形式に制限される。

ここで、ｑ（ｘ）及び

はそれぞれ、状態依存コスト関数と、制御された状態遷移密度と制御されていない状態遷移密度との間のカルバック・ライブラー情報量と、を示す。この場合、ベルマン方程式（２）は、以下の式に単純化される。

最適な制御された確率は、

で与えられる。式（４）は、割引率γが存在するため好適度関数（desirability function）Ｚ（ｘ）＝ｅｘｐ（−Ｖ（ｘ））を導入したとしても、依然として非線形であることに注意されたい。ＬＭＤＰの枠組み下での順強化学習において、Ｖ（ｘ）は、式（４）を解くことにより計算され、次に、π（ｙ｜ｘ）が計算される（Todorov，２００９，非特許文献２５）。

＜１．２．逆強化学習＞
ＬＭＤＰ下の逆強化学習（ＩＲＬ）アルゴリズムは、Dvijotham及びTodorov（２０１０）（非特許文献６）により提案された。特に、ＯｐｔＶは、離散状態問題に対して非常に効率的である。ＯｐｔＶの利点は、最尤法を適用して価値関数を推定できるように最適な状態遷移が明示的に価値関数によって表されることである。観測された軌道が最適状態遷移密度（５）によって生成されるとする。価値関数は、以下の線形モデルにより近似される。

ここで、ｗ_Ｖ及びΨ_Ｖ（ｘ）はそれぞれ、学習重み及び基底関数ベクトルを表す。

制御された確率は、式（５）により与えられ、重みベクトルｗ_Ｖは、尤度を最大化することにより最適化することができる。状態遷移のデータセット

があると仮定する。ここで、Ｎ^πは、制御された確率からのデータの数を示す。次に、対数尤度と、その導関数とは、

で与えられる。ここで、π（ｙ｜ｘ；ｗ_Ｖ）は、価値関数が式（６）によりパラメータ化される制御された制御則である。一旦勾配が評価されると、勾配上昇法に従って重みベクトルｗ_Ｖが更新される。

価値関数が推定された後、単純化されたベルマン方程式（４）を使用してコスト関数を読み出すことができる。これは、

及びγが与えられた場合、コスト関数ｑ（ｘ）が、一意に決定され、ｑ（ｘ）が価値関数において使用される基底関数によって表されることを意味する。模倣学習の場合、コスト関数の表現は重要ではないが、解析のため、コストのより簡単な表現を見つけたい。したがって、本発明者らは、近似器：

を導入する。ここで、ｗ_ｑ及び

はそれぞれ、学習重み及び基底関数ベクトルを表す。ｗ_ｑを最適化するためのＬ１正則化付き目的関数は、

で与えられる。ここで、λ_ｑは、正則化定数である。簡単な勾配降下アルゴリズムが適用され、Ｊ（ｗ_ｑ）が観測された状態において評価される。

Dvijotham及びTodorov（２０１０）（非特許文献６）の最も重大な問題は、解析的に解くことができない方程式（８）及び（１０）における積分であり、彼らは、状態空間を離散化し、その積分を和で置き換えた。しかしながら、彼らが示唆したように、高次の問題では実現不可能である。さらに、制御されていない確率ｐ（ｙ｜ｘ）は、必ずしもガウス分布ではない。本発明の少なくともいくつかの実施形態では、制御されていない確率ｐ（ｙ｜ｘ）が因果密度として使用される対数尤度の勾配を評価するためにメトロポリス・ヘイスティングス法が適用される。

＜２．密度比推定による逆強化学習＞
＜２．１．ＩＲＬのためのベルマン方程式＞
式（４）及び（５）から、本発明者らは、割引コスト問題に対して次の重要な関係を導いた。

式（１１）は、本発明の実施形態に係るＩＲＬアルゴリズムにおいて重要な役割を果たす。第１出口問題、平均コスト問題、及び有限地平線問題について、同様の方程式を導くことができる。ｑ（ｘ）は、式（３）で示されるコスト関数の状態依存部分であるため、式（１１）の左辺は、時間差誤差ではないことに注意されたい。我々のＩＲＬは依然として不良設定問題であり、コスト関数の形式はＬＭＤＰの下、式（３）により制約されるが、コスト関数は一意的に決定されない。具体的には、状態依存コスト関数が、

によって修正されるならば、対応する価値関数は、

となる。ここで、Ｃは、一定値である。次に、Ｖ（ｘ）から導かれる制御された確率は、Ｖ´（ｘ）から導かれる制御された確率と同一である。この特性は、以下に説明するようにコスト関数を推定する場合に有用である。本発明の一つの側面において、開示されるＩＲＬ法は、２つのパートからなる。１つは、以下に示す式（１１）の右辺の密度比を推定することである。もう１つは、以下に示すように、正則化付き最小二乗法によってｑ（ｘ）及びＶ（ｘ）を推定することである。

＜２．２．ＩＲＬのための密度比推定＞
制御された遷移確率密度と制御されていない遷移確率密度との比を推定することは、密度比推定の問題とみなすことができる（Sugiyama et al.，２０１２，非特許文献２０）。この問題の設定によれば、本開示は、以下の定式化を考慮する。

＜２．２．１．一般的なケース＞
まず、一般的な設定を考慮する。状態遷移の２つのデータセットがあると仮定する。１つは、式（７）に示されるＤ^πであり、もう１つは、制御されていない確率からのデータセット

である。ここで、Ｎ^ｐは、データの数を示す。次に、我々は、Ｄ^ｐ及びＤ^πから比π（ｙ｜ｘ）／ｐ（ｙ｜ｘ）を推定することに関心がある。

式（１１）から、以下の２通りの分解を考えることができる。

最初の分解（１４）は、条件付き確率密度の対数の差を示す。式（１４）を推定するために、本開示は、２つの実装を考慮する。１つは、ＬＳＣＤＥ−ＩＲＬであり、これは、最小二乗条件付き密度推定（ＬＳＣＤＥ：Least Squares Conditional Density Estimation）（Sugiyama et al.，２０１０）を用いて、π（ｙ｜ｘ）及びｐ（ｙ｜ｘ）を推定するものである。もう１つは、ガウス過程（Rasmussen & Williams，２００６，非特許文献１５）を用いて式（１４）における条件付き密度を推定するＧａｕｓｓ−ＩＲＬである。

２つめの分解（１５）は、密度比の対数の差を示す。２つめの分解の利点は、π（ｘ）＝ｐ（ｘ）であるならば、ｌｎπ（ｘ）／ｐ（ｘ）を無視できることである。この条件は、設定によって満足できる。現在のところ、２つの方法がπ（ｘ）／ｐ（ｘ）及びπ（ｘ，ｙ）／ｐ（ｘ，ｙ）を推定するために実装されている。１つは、unconstrained Least Squares Importance Fitting（ｕＬＳＩＦ）（Kanamori et al.，２００９，非特許文献９）を用いるｕＬＳＩＦ−ＩＲＬである。もう１つは、ＬｏｇＲｅｇであり、これは、ロジスティック回帰を別の方法で利用する。以下の２．３節ではその実装について説明する。

＜２．２．２．ｐ（ｙ｜ｘ）が未知の場合＞
状態遷移確率Ｐ_Ｔ（ｙ｜ｘ，ｕ）は、標準的なＩＲＬ問題の場合には既知であると仮定され、これは、制御されていない確率ｐ（ｙ｜ｘ）がＬＭＤＰの場合に与えられているという仮定に対応する。これは、モデルベースのＩＲＬと見なすことができる。この場合には、式（１４）は、適切であり、データセットＤ^πから制御された確率π（ｙ｜ｘ）を推定すれば十分である。

分析モデルも、制御されていない確率密度からのデータセットもない状況もある。そして、ｐ（ｙ｜ｘ）は、無限変数に対する不適切な分布である一様分布に置き換えられる。コスト関数及び価値関数を式（１２）及び（１３）によってシフトすることによって補償できるため、一般性を失うことなく、ｐ（ｙ｜ｘ）は１に設定される。

＜２．３．密度比推定アルゴリズム＞
この節では、本開示で開示されるＩＲＬ法に適した密度比推定アルゴリズムについて説明する。
＜２．３．１．ｕＬＳＩＦ＞
ｕＬＳＩＦ（Kanamori et al.，２００９，非特許文献９）は、直接密度比推定方法のための最小二乗法である。ｕＬＳＩＦの目的は、２つの密度π（ｘ）／ｐ（ｘ）とπ（ｘ，ｙ）／ｐ（ｘ，ｙ）との比を推定することである。以下、簡略化のため、本開示では、Ｄ^ｐ及びＤ^πからｒ（ｚ）＝π（ｚ）／ｐ（ｚ）（ここでｚ＝（ｘ，ｙ））を推定する方法について説明する。線形モデル

により比を近似する。ここで、

は、基底関数ベクトルを示し、それぞれ、学習されるパラメータである。目的関数は、

により与えられる。ここで、λは正則化定数であり、

である。Ｈは、Ｄ^ｐから推定され、ｈはＤ^πから推定されることに注意されたい。式（１６）は、

として解析的に最小化されることができる。しかし、このミニマイザは、密度比の非負制約を無視する。この問題を補償するために、ｕＬＳＩＦは

により解を修正する。ここで、上記のｍａｘ演算子は、要素ごとに適用される。Kanamori et al.（２００９）（非特許文献９）により推奨されるように、Ｄ^πの状態を中心とするガウス関数が、

により記載される基底関数として使用される。ここで、σは幅パラメータである。

は、Ｄ^πから無作為に選択された状態である。パラメータλ及びσは、一個抜き交差検証により選択される。

＜２．３．２．ＬＳＣＤＥ＞
ＬＳＣＤＥ（Sugiyama et al.，２０１０，非特許文献１９）は、条件付き確率密度関数を推定するためのｕＬＳＩＦの特別なケースとみなされている。例えば、Ｄ^πからπ（ｙ｜ｘ）＝π（ｘ，ｙ）／π（ｘ）を推定するための目的関数は、

で与えられる。ここで、

は線形モデルであり、λは正則化定数である。ＬＳＣＤＥのＨとｈの計算は、ｕＬＳＩＦの計算とわずかに異なり、次のように計算される。

ここで、

は、

として定義される。式（１８）に示される基底関数が使用されるため、この積分は、解析的に計算することができる。ＬＳＣＤＥの推定重みは式（１７）で与えられる。推定された比が条件付き密度であることを保証するためには、コスト関数及び価値関数を推定するのに使用される場合に解を正規化すべきである。

＜２．３．３．ＬｏｇＲｅｇ＞
ＬｏｇＲｅｇはロジスティック回帰を用いた密度推定の方法である。セレクタ変数η＝−１を制御されていない確率からのサンプルに割り当て、セレクタ変数η＝１を制御された確率からのサンプルに割り当てる。

密度比は、以下のようにベイズ規則を適用することによって表すことができる。

１番目の比Ｐｒ（η＝−１）／Ｐｒ（η＝１）は、Ｎ^Ｐ／Ｎ^πにより推定され、２番目の比は、条件付き確率π（η｜ｚ）をロジスティック回帰分類子：

により推定した後に計算される。ここで、ηは、ラベルとみなすことができる。ＬｏｇＲｅｇの場合、密度比の対数は線形モデル：

によって与えられることに注意されたい。第２項のｌｎＮ^Ｐ／Ｎ^πは、式（１５）に示される我々のＩＲＬ定式化では無視することができる。目的関数は、

により表される負の正則化対数尤度から導かれる。閉形式解は導出されないが、この目的関数が凸であるため、標準の非線形最適化方法により効率的に最小化することが可能である。

＜２．４．コスト関数及び価値関数の推定＞
密度比π（ｙ｜ｘ）／ｐ（ｙ｜ｘ）が推定されると、状態依存コスト関数ｑ（ｘ）及び状態依存価値関数Ｖ（ｘ）を推定するために、正則化付き最小二乗法が適用される。

が、負の対数比の近似：

であると仮定し、それぞれ式（６）及び（９）において定義されるようなｑ（ｘ）及びＶ（ｘ）の線形近似器を考える。目的関数は、

により与えられ、λ_ｑ及びλ_Ｖは、正則化定数である。Ｌ２正則化は、数値安定性を達成する有効な手段であるため、ｗ_Ｖに使用される。一方、Ｌ１正則化は、実験者によってより簡単に解釈される疎モデルを生成するためにｗ_ｑに使用される。スパースネスが重要でない場合、Ｌ２正則化をｗ_ｑに使用することができる。さらに、式（１２）は、

を設定することによって使用され、コスト関数の非負性を効率的に満足することができるので、ｗ_ｑ及びｗ_Ｖの非負制約は導入されない。
理論的には、任意の基底関数を選択することができる。発明の一実施形態では、式（１８）に示されるガウス関数は簡略化のために使用される。

ここで、σは幅パラメータである。中心位置

は、Ｄ^πから無作為に選択される。

＜３．実験＞
＜３．１．振り上げ倒立振子＞
＜３．１．１．課題説明＞
本発明の実施例１に属する上記実施形態の有効性を実証し確認するために、本発明者らは、状態ベクトルが２次元ベクトルｘ＝［θ，ω］^Ｔによって与えられる振り上げ倒立振子問題を研究した。ここで、θ及びωはそれぞれ、ポールの角度及び角速度を表す。運動方程式は、以下の確率微分方程式によって与えられる。

ここで、ｌ、ｍ、ｇ、κ、σ_ｅ、及びωは、ポールの長さ、質量、重力加速度、摩擦係数、ノイズのスケーリングパラメータ、及びブラウンノイズをそれぞれ表す。これまでの研究（Deisenroth et al.，２００９，非特許文献４；Doya，２０００，非特許文献５）とは対照的に、加えられたトルクｕは制限されず、直接振り上げることが可能である。ステップｈで時間軸を離散化することにより、ガウス分布で表される対応する状態遷移確率Ｐ_Ｔ（ｙ｜ｘ，ｕ）が得られる。このシミュレーションでは、パラメータは次のように与えられる。

本発明者らは、（１）状態依存コスト関数ｑ（ｘ）、（２）制御されていない確率ｐ（ｙ｜ｘ）、及び（３）データセットＤ^ｐ及びＤ^πを次のように変化させて、一連の実験を行った。

＜コスト関数＞
目標は、ポールを直立状態に保つことであり、次の３つのコスト関数を準備する。

ここで、Ｑ＝ｄｉａｇ［１，０．２］である。ｑ_ｃｏｓｔ（ｘ）は、Doya（２０００）により使用され、ｑ_ｅｘｐ（ｘ）はDeisenroth et al.（２００９）（非特許文献４）により使用される。

＜制御されていない確率＞
２つの密度ｐ_Ｇ（ｙ｜ｘ）及びｐ_Ｍ（ｙ｜ｘ）を考える。ｐ_Ｇ（ｙ｜ｘ）は、ガウス分布で表される確率的制御則π（ｕ｜ｘ）を用いて構築される。離散時間における運動方程式はガウス関数で与えられるので、ｐ_Ｇ（ｙ｜ｘ）もガウス関数である。ｐ_Ｍ（ｙ｜ｘ）の場合、ガウス分布の混合物が確率的制御則として使用される。

＜データセットの準備＞
２つのサンプリング方法が考慮される。１つは均一なサンプリングであり、もう１つは軌道ベースのサンプリングである。均一サンプリング法では、ｘは状態空間全体にわたって定義された一様分布からサンプリングされる。つまり、ｐ（ｘ）及びπ（ｘ）は、一様分布とみなされる。次に、制御されていない確率と制御された確率とからｙをサンプリングして、Ｄ^ｐ及びＤ^πをそれぞれ構築する。軌道ベースのサンプリング方法では、同じ開始状態ｘ_０からの状態の軌道を生成するためにｐ（ｙ｜ｘ）及びπ（ｙ｜ｘ）を使用する。次に、Ｄ^ｐ及びＤ^πを構築するために、軌道から１組の状態遷移が無作為に選択される。ｐ（ｘ）は、π（ｘ）とは異なることが予想される。

各コスト関数について、対応する価値関数は、式（４）を解くことによって計算され、対応する最適な制御された確率は、式（５）により評価される。従来の方法（Todorov，２００９ｂ，非特許文献２５）では、ｅｘｐ（−Ｖ（ｘ））は線形モデルで表されているが、割引率γが線形モデルを複雑にするため、目的関数（１）の下では難しい。したがって、価値関数は、式（６）に示される線形モデルによって近似され、メトロポリス・ヘイスティングス法を用いて積分を評価する。

実施例１における本発明の実施形態による方法は、ＯｐｔＶの仮定が本発明の実施形態による方法のものと同一であるため、ＯｐｔＶと比較することができる。密度比推定方法の選択によれば、上記のようないくつかの変形が存在する。具体的には、以下の６つのアルゴリズム：（１）ＬＳＣＤＥ−ＩＲＬ、（２）ｕＬＳＩＦ−ＩＲＬ、（３）ＬｏｇＲｅｇ−ＩＲＬ、（４）Ｇａｕｓｓ−ＩＲＬ、（５）ｐ（ｙ｜ｘ）がＬＳＣＤＥによって推定されるＯｐｔＶ法であるＬＳＣＤＥ−ＯｐｔＶ、及び（６）ｐ（ｙ｜ｘ）を推定するのにガウス過程法を使用するＧａｕｓｓ−ＯｐｔＶが考慮される。

Ｄ^ｐ及びＤ^πのサンプル数をＮ^ｐ＝Ｎ^π＝３００に設定した。パラメータλ_ｑ、λ_Ｖ、σ、及びγは、次の領域：ｌｏｇλ_ｑ、ｌｏｇλ_Ｖ∈ｌｉｎｓｐａｃｅ（−３，１，９）、ｌｏｇσ∈ｌｉｎｓｐａｃｅ（−１．５，１．５，９）、及びｌｏｇγ∈ｌｉｎｓｐａｃｅ（−０．２，０，９）からの交差検証により最適化される。ここで、ｌｉｎｓｐａｃｅ（ｘ_ｍｉｎ，ｘ_ｍａｘ，ｎ）は、ｘ_ｍｉｎとｘ_ｍａｘとの間で等間隔に置かれたｎ点の集合を生成する。

＜３．１．２．実験結果＞
推定コスト関数の精度は、テストサンプルの正規化二乗誤差：

によって測定される。ここで、ｑ（ｘ_ｊ）は、状態ｘ_ｊでの式（１９）に示される真のコスト関数の１つであり、

は、推定コスト関数である。図１（ａ）〜（ｄ）は、本実施形態のＩＲＬ法の精度を比較する。我々の方法（１）〜（４）は全ての設定においてＯｐｔＶ法（５）〜（６）より優れていることが示されている。具体的には、ＬｏｇＲｅｇ−ＩＲＬが最も優れた性能を示したが、我々の方法（１）〜（３）の間に有意差はなかった。標準ガウス過程がガウス分布の混合を表すことができないため、Ｇａｕｓｓ−ＩＲＬによって推定されたコストの精度は、確率的制御則π（ｕ｜ｘ）がガウス分布の混合によって与えられた場合に、大幅に増加した。

図２は、割引率γの交差検証誤差を表し、λ_ｑ、λ_Ｖ、及び１σ等の他のパラメータは、最適値に設定されている。このシミュレーションでは、交差検証誤差は、全ての方法において、真の割引率

で最小であった。図２に示すように、また先に図１で説明したように、本発明の実施形態は、十分に小さい誤差を有することが実証されており、本発明の有効性が確認されている。

＜３．２．人間の行動分析＞
＜３．２．１．課題説明＞
ＩＲＬアルゴリズムを現実的な状況で評価するために、本発明者らは、動的モータ制御、ポール安定化問題を実施した。図３に実験設定を示す。被験者は、土台を左、右、上、下に動かしてポールを揺らし、ポールを減速させて直立位置でバランスさせる。ダイナミクスは、６次元の状態ベクトル

により記述される。ここで、θ及び

はそれぞれ、ポールの角度及び角速度であり、ｘ及びｙはそれぞれ、土台の水平位置及び垂直位置であり、

及び

は、それらの時間微分である。

この課題は、長いポール（７３ｃｍ）及び短いポール（２９ｃｍ）の２つの条件下で実施した。各被験者は、各条件においてポールをバランスさせる１５回の試行を行った。各試行は、被験者が３秒間ポールを直立状態に保つことができた場合、又は、４０秒が経過した場合に終了した。我々は７人の被験者（右きき５人と左きき２人）からデータを収集し、軌道ベースのサンプリング法を用いて、制御された確率の以下の２つのデータセットを構築した。ｉ番目の被験者の訓練についてのデータセット

と、ｉ番目の被験者の試験についてのデータセット

である。すべての被験者は、ランダムな制御則によって生成された一意的な制御されていない確率ｐ（ｙ｜ｘ）を有すると仮定する。これは、訓練についてのデータセット

及び試験についてのデータセット

が被験者間で共有されることを意味する。データセット内のサンプル数は３００であった。

＜３．２．２．実験結果＞
図４は、７人の被験者の学習曲線を示しており、被験者間で学習プロセスがかなり異なることを示している。２人の被験者番号１及び３はこの課題を達成できなかった。成功した軌道の集合はＩＲＬアルゴリズムによって使用されるべきであるので、我々は５つの被験者番号２及び４〜７からデータを収集した。

ＬｏｇＲｅｇ−ＩＲＬを用いた場合の実験結果を以下に示す（ＬＳＣＤＥ−ＩＲＬとｕＬＳＩＦ−ＩＲＬとは同様の結果を示した）。図５は、部分空間

に投影された被験者４、５、及び７の推定コスト関数を示し、

は、視覚化のためにゼロに設定される。被験者７の場合、長いポールの条件のコスト関数は短いポールの条件のそれと大きく変わらず、図４に示すように短いポールの条件においてうまくいかなかった被験者５では、コスト関数に有意差があった。

訓練のデータセットから推定されたコスト関数を評価するために、本発明者らは、推定コスト関数に対して最適な制御された遷移確率を見つけるために順強化学習を適用し、次に試験データセットについて負の対数尤度：

を計算した。ここで、

は、

におけるサンプル数である。
図６は、結果を示す。左図（ａ）において、我々は、長いポールの条件における被験者の試験データセット

を用いた。最小の負の対数尤度は、同条件の訓練データセット

及び

から推定されたコスト関数によって達成された。図６の右のパネル（ｂ）は、長いポール及び短いポールの両条件における被験者７の試験データが、長いポールの条件のみで同一の被験者７の訓練データセットから推定されたコスト関数によって最もよく予測されたことを示している。したがって、この実験によって本発明の実施形態の有効性及び有用性が確認され、実証された。

本開示は、ＬＭＤＰの枠組みの下で新規な逆強化学習を提示した。本発明の特徴の１つは、式（１１）を示すことであり、これは、対応するコスト関数を有する最適価値数に対して、時間差誤差がゼロであることを意味する。式（１１）の右辺は、密度比推定の効率的な方法によってサンプルから推定できるので、本発明のＩＲＬは、正則化付き単純最小二乗法につながる。また、実施例１における本発明の実施形態に係る方法は、高次の連続問題においては通常困難である積分を計算する必要がない。結果として、開示された方法は、ＯｐｔＶよりも計算上安価である。

線形化ベルマン方程式（Todorov，２００９ａ，非特許文献２４）には数多くの興味深い特性が存在するため、ＬＭＤＰと経路積分法は、近年、ロボット工学及び機械学習分野（Theodorou & Todorov，２０１２，非特許文献２２）において注目を集めている。それらは、大きな自由度を持つロボットのための確率的制御則の学習にうまく適用されている（Kinjo et al.，２０１３，非特許文献１１；Stulp & Sigaud，２０１２，非特許文献１７；Sugimoto and Morimoto，２０１１，非特許文献１８；Theodorou et al.，２０１０，非特許文献２１）。本発明の実施形態によるＩＲＬ方法は、複雑なコントローラを設計するために既存の順強化学習方法と統合されてもよい。

上述したように、本発明の実施例１の少なくともいくつかの態様において、本開示は、観測された行動から報酬／コスト関数を効果的に推論することができる計算アルゴリズムを提供する。本発明の実施形態のアルゴリズムは、適切なハードウェア及びソフトウェア、ならびに特別に設計されたプロプライエタリなハードウェア／ソフトウェアを有する汎用コンピュータシステムに実装されることができる。本発明の少なくともいくつかの実施形態による様々な利点には、
Ａ）モデルフリーな方法／システム：本発明の実施形態による方法及びシステムは、環境ダイナミクスを事前に知る必要はない。すなわち、この方法／システムは、モデルフリーな方法――いくつかの先行技術のアプローチは環境ダイナミクスが事前に既知であると仮定しているが、目標ダイナミクスを明示的にモデル化する必要はない――と見なされる。
Ｂ）データ効率が良い：多くの従来の方法は状態の軌跡の集合を必要とする一方、本発明の実施形態による方法及びシステムのデータセットは状態遷移の集合からなる。したがって、本発明の実施形態による方法及びシステムでは、データを収集することがより容易である。
Ｃ）計算効率が良い（１）：本発明の実施形態による方法及びシステムは、（順）強化学習問題を解く必要はない。対照的に、いくつかの従来の方法では、推定報酬／コスト関数を用いてこのような順強化学習問題を何度も解く必要があった。その計算は各候補について実行されなければならず、通常、最適解を見つけるのに長い時間がかかる。
Ｄ）計算効率が良い（２）：本発明の実施形態による方法及びシステムは、（ａ）密度比推定及び（ｂ）正則化最小二乗の２つの最適化アルゴリズムを使用する。対照的に、いくつかの従来の方法は、確率的勾配法またはマルコフ連鎖モンテカルロ法を使用するが、これは通常、最小二乗法と比較して最適化に時間がかかる。
ことが含まれる。

上述したように、一態様では、本発明は、デモンストレータによって生成された観測された状態遷移から目的関数を推論することができる逆強化学習を提供する。図７は、本発明の実施例１に係る方法の枠組みを模式的に示す図である。本発明の実施例１に係る逆強化学習の実施形態は２つの要素：（１）密度比推定により制御付き及び制御無し状態遷移確率の比を学習すること、（２）正則化最小二乗法により遷移確率の比と互換性があるコスト関数及び価値関数を推定すること、を含む。各ステップに効率的なアルゴリズムを使用することにより、本発明の実施形態は、他の逆強化学習方法よりもデータ及び計算においてより効率的である。

工業的な適用性と逆強化学習の有用性はよく理解され、認識されている。本発明の実施形態が適用されるシステム／構成の例を以下に説明する。

＜ロボット挙動の模倣学習＞
複雑なタスクを実行するようロボットをプログラミングすることは、運動計画などの標準的な方法では困難である。多くの場合、望まれる動作をロボットに示す方がはるかに容易である。しかし、古典的な模倣学習の主な欠点は、得られたコントローラが実演された動きを再現するだけなので、新しい状況に対処できないことである。本発明の実施形態は、実演された行動から目的関数を推定することができ、推定された目的関数を、異なる状況に対する異なる行動を学習するために使用することができる。

図８は、このような本発明の実装を概略的に示す。まず、デモンストレータは、ロボットがタスクを達成するように制御し、状態と動作のシーケンスが記録される。次に、本発明の一実施形態による逆強化学習コンポーネントは、コスト関数及び価値関数を推定し、それらは異なるロボットの順強化学習コントローラに与えられる。

＜人間の行動の解釈＞
行動の背後にある人間の意図を理解することは、ユーザーフレンドリーな支援システムを構築する上で基本的な問題である。一般に、行動は、動作追跡システムによって抽出される一連の状態によって表される。本発明の一実施形態による逆強化学習方法／システムによって推定されたコスト関数は、与えられた行動データセットを説明するコンパクトな表現とみなすことができる。推定コスト関数のパターン分類により、ユーザの専門知識や好みを推定することが可能となる。図９は、本発明の一実施形態によるこの実装を概略的に示す図である。

＜ウェブ体験の分析＞
訪問者が、訪問者に提示された記事を読む可能性を高めるために、例えば、オンラインニュースウェブサイトの設計者は、意思決定の観点から訪問者のウェブ体験を調査すべきである。特に、個人化されたサービスの重要なビジネスアプリケーションとして、リコメンドシステムが注目されている。しかし、協調フィルタリングのような従来の方法では、意思決定のシーケンスを明示的に考慮していない。本発明の実施形態は、ネットサーフィン中の訪問者の行動をモデル化する異なる効果的な方法を提供することができる。図１０は、ユーザによる一連のクリック行為の例を示し、どのトピックがどの順序でユーザによってアクセスされたかを示している。訪問者が読んでいるトピックは状態とみなされ、リンクをクリックすることが行為とみなされる。次に、本発明の一実施形態による逆強化学習は、ユーザのネットサーフィンにおける意思決定を分析することができる。推定コスト関数は訪問者の好みを表すので、ユーザのための記事のリストを推薦することが可能となる。

以上説明したように、本発明の実施例１における実施形態に係る逆強化学習方式は、広範囲の産業及び／又は商業システムに適用可能である。図１１は、一般的なコンピュータシステムとセンサーシステムとを用いた実装例を示す図である。例えば、数学的方程式を用いて上述した方法は、このような一般的なコンピュータシステムにおいて実施することができる。図示されているように、この例のシステムは、観測されている対象から、状態遷移、すなわち観測された行動に関する情報を受け取るセンサーシステム１１１（データ取得ユニットの一例）を含む。センサーシステム１１１は、画像処理ソフトウェア／ハードウェア、変位センサ、速度センサ、加速度センサ、マイクロホン、キーボード、及び任意の他の入力装置を備えた１または複数の撮像装置を含むことができる。センサシステム１１１は、適切なメモリ１１４を備えたプロセッサ１１３を有するコンピュータ１１２に接続され、受信したデータを本発明の実施形態に従って分析することができる。分析の結果は、ディスプレイモニタ、コントローラ、ドライバなど（出力インタフェースの例）の任意の出力システム１１５、あるいは結果を制御に利用する場合には制御対象に出力される。結果は、上述のように、別のロボットまたはコンピュータ等の別のシステム、又は、ユーザの対話に応答するウェブサイトソフトウェア等をプログラムするのに使用したり、転送されることができる。

上述のユーザのウェブ記事の好みを予測する場合、実装されるシステムは、インターネットに接続されたコンピュータに実装された、上記の実施形態のいずれか１つに記載された逆強化学習のシステムを含んでもよい。ここで、ユーザの行動を定義する状態変数には、各ウェブページを閲覧しながらユーザが選択した記事のトピックが含まれる。そして、逆強化学習の結果を用いて、ユーザがインターネットウェブサイトを閲覧している携帯型スマートフォン、パーソナルコンピュータなどのインタフェースに、ユーザに対するお勧めの記事を表示させる。

＜ＩＩ．実施例２＞
いくつかの側面で実施例１よりも優れた特徴を有する実施例２について以下に説明する。図１２は、実施例１と実施例２との相違点を模式的に示す図である。上述し、図１２の（ａ）に示すように、実施例１では、密度比推定アルゴリズムを２回使用し、正則化最小二乗法を用いた。これに対し、本発明の実施例２では、標準密度比推定（ＤＲＥ：density ratio estimation）アルゴリズムを用いて密度比π（ｘ）／ｂ（ｘ）を推定し、それぞれ報酬関数及び価値関数であるｒ（ｘ）及びＶ（ｘ）を、ベルマン方程式を用いた密度比π（ｘ，ｙ）／ｂ（ｘ，ｙ）の対数の推定により計算する。詳細には、実施例１では、次の３つのステップが必要であった。（１）標準ＤＲＥアルゴリズムによりπ（ｘ）／ｂ（ｘ）を推定し、（２）標準ＤＲＥアルゴリズムによりπ（ｘ，ｙ）／ｂ（ｘ，ｙ）を推定し、（３）ベルマン方程式を用いて正則化最小二乗法によりｒ（ｘ）及びＶ（ｘ）を計算する。これに対し、本発明の実施例２は、２段階最適化のみを使用する。（１）標準密度比推定（ＤＲＥ）アルゴリズムによってｌｎπ（ｘ）／ｂ（ｘ）を推定し、（２）ベルマン方程式を用いて、ｌｎπ（ｘ，ｙ）／ｂ（ｘ，ｙ）のＤＲＥ（２回目）によりｒ（ｘ）及びＶ（ｘ）を計算する。

図１３は、実施例２のステップ（２）の２回目のＤＲＥの計算方式を模式的に説明する図である。図１３に示すように、１回目のＤＲＥがｌｎπ（ｘ）／ｂ（ｘ）を推定するため、ｌｎπ（ｘ，ｙ）／ｂ（ｘ，ｙ）の２回目のＤＲＥは、以下の方程式

を用いてｒ（ｘ）＋γＶ（ｙ）−Ｖ（ｘ）の推定を行うことになる。このように、本実施例２では、実施例１の第３のステップ（３）を正則化最小二乗法によって計算する必要がなく、実施例１に比べて計算コストを大幅に削減することができる。実施例２では、ベルマン方程式を用いてｌｎπ（ｘ，ｙ）／ｂ（ｘ，ｙ）のＤＲＥ（２回目）によりｒ（ｘ）及びＶ（ｘ）を計算する第２のステップ（２）を実行するために、基底関数は状態空間において設計され、最適化されるパラメータの数が減少する。これに対し、実施例１では、標準ＤＲＥアルゴリズムにより、π（ｘ，ｙ）／ｂ（ｘ，ｙ）を推定するステップ（２）において、基底関数を状態空間の積で設計する必要があり、比較的多数のパラメータを最適化する必要がある。このように実施例２によれば、実施例１に比べて、メモリ使用量が比較的少なくて済む。したがって、実施例２は、実施例１よりもこれらの様々な重要な利点を有する。実施例２の他の特徴及び構成は、以下に特に明記しない限り、実施例１について上述した様々な方法及び方式と同じである。

以下の表１は、実施例２と従来の様々な方法との一般的な比較を示す。具体的には、上述したＯｐｔＶ、最大エントロピーＩＲＬ（ＭａｘＥｎｔ−ＩＲＬ）、及び相対エントロピーＩＰＬ（ＲｅｌＥｎｔ−ＩＲＬ）について、実施例２と様々な特徴を比較する。表１に示すように、本発明の実施例１は、従来の方法に比べて様々な利点を有する。

本発明の実施例２の有効性を実証し確認するために、上述の振り上げ倒立振子問題を検討した。実施例２を実施例１、ＭａｘＥｎｔ−ＩＲＬ、ＲｅｌＥｎｔ−ＩＲＬ、及びＯｐｔＶと比較した実験結果を図１４に示す。図中、実施例２は、「新規発明」として示され、実施例１は、「ＰＣＴ／ＪＰ２０１５／００４００１」として示されている。図１４に示すように、実施例２は、サンプル数が少ないにもかかわらず、実施例１を含む他の方法よりも良好に観測された制御則を復元することに成功している。

＜ロボットナビゲーションタスク実験＞
本発明の実施例２の有効性をさらに実証し確認するために、実施例２、実施例１、及びＲｅｌＥｔ−ＩＲＬについて、ロボットナビゲーションタスクを検討した。赤（ｒ）、緑（ｇ）、及び青（ｂ）の３つのターゲットオブジェクトを、カメラの目を有するプログラム可能なロボットの前に置いた。目標は、３つのターゲットのうち緑（ｇ）のターゲットに到達することであった。３つのターゲットの前に、５つの所定の開始位置Ａ〜Ｅが並べられた。訓練データは開始位置Ａ〜Ｃ及びＥから収集し、試験データは開始位置Ｄを使用して取得した。状態ベクトルは以下の通りであった。ｘ＝［θ_ｒ，Ｎ_ｒ，θ_ｇ，Ｎ_ｇ，θ_ｂ，Ｎ_ｂ，θ_ｐａｎ，θ_ｔｉｌｔ］^Ｔ。ここで、θｉ（ｉ＝ｒ，ｇ，ｂ）は、ターゲットに対する角度、Ｎｉ（ｉ＝ｒ，ｇ，ｂ）はブロブサイズ、θ_ｐａｎ及びθ_ｔｉｌｔは、ロボットのカメラの角度である。Ｖ（ｘ）の基底関数は、次のように与えられる。

ここで、ｃ_ｉは、データセットから選択された中心位置である。ｒ（ｘ）の基底関数は、

として与えられる。ここで、ｆ_ｇはガウス関数であり、ｆ_ｓはシグモイド関数である。この実験では、実験者がπ及びｂを与え、出発点ごとに１０個の軌跡を収集してデータセットを作成した。図１５に実験結果を示す。図中、実施例２は、「新規発明」として示され、実施例１は、「ＰＣＴ／ＪＰ２０１５／００４００１」として示されている。図１５に示すように、実施例２の方が格段に良好な結果が得られた。これはまた、実施例２による推定価値関数が、報酬を形成するための潜在的関数として使用され得ることを示す。

上述の倒立振子課題における計算時間（分）を評価した。実施例２におけるＬｏｇＲｅｇＩＲＬ及びＫＬＩＥＰＩＲＬは、計算に約２．５分しか必要としなかった。実施例１のｕＬＳＩＦＩＲＬ、ＬＳＣＤＥＩＲＬ、及びＬｏｇＲｅｇＩＲＬは、それぞれ約４分〜９．５分を必要とした。したがって、実施例２は、上述の実施例１の様々なバージョンよりも大幅に少ない計算時間を必要とした。

容易に理解できるように、実施例２の応用は、上述の実施例１の様々な応用と本質的に同じである。特に、上述したように、実施例２の様々な変形例は、とりわけ、人間の行動の解釈、ウェブ体験の分析、及びいくつかの理想的な行動を示すことによって対応する目的関数が即時報酬として推定される模倣によるロボットコントローラの設計に適用可能である。ロボットは、順強化学習を用いた推定報酬を用いて予想外の状況に対する行動を一般化することができる。このように、本発明の実施例２に従って、非常に経済的で信頼性の高いシステム及び方法を構築することができる。特に、上述したように、実施例２は、他の方法よりも良好に、少ない観測で、観測された制御則を復元することができる。これは大きな利点である。

本発明の精神または範囲から逸脱することなく、本発明に様々な変更及び変形を加えることができることは、当業者には明らかであろう。したがって、本発明は、添付の特許請求の範囲及びそれらの均等の範囲内に入る改変及び変形を包含することが意図される。特に、上述した実施形態及びその変形のうちの任意の２つ以上の任意の一部または全部を組み合わせて、本発明の範囲内で考えることができることは、明白に意図されている。

他の側面では、本発明は、プロセッサに、被験者の行動の報酬関数及び価値関数を推定するための逆強化学習アルゴリズムを実行させる命令を記憶する非一時記憶媒体であって、前記命令は、前記被験者の行動を定義する状態変数の変化を表すデータを取得し、式（１）によって与えられる修正ベルマン方程式を取得した前記データに適用し、

ここで、ｒ（ｘ）及びＶ（ｘ）は、状態ｘにおける報酬関数及び価値関数をそれぞれ示し、γは割引率を表し、ｂ（ｙ｜ｘ）及びπ（ｙ｜ｘ）は、学習前の状態遷移確率及び学習後の状態遷移確率をそれぞれ示し、式（２）における密度比π（ｘ）／ｂ（ｘ）の対数を推定し、密度比π（ｘ，ｙ）／ｂ（ｘ，ｙ）の対数の推定結果から、式（２）におけるｒ（ｘ）及びＶ（ｘ）を推定し、推定されたｒ（ｘ）及びＶ（ｘ）を出力する、ステップを前記プロセッサに実行させる、非一時記憶媒体を提供する。
また、他の側面では、被験者の行動の報酬関数及び価値関数を推定する逆強化学習のシステムであって、前記被験者の行動を定義する状態変数の変化を表すデータを取得するデータ取得部と、メモリを備えるプロセッサであって、式（１）によって与えられる修正ベルマン方程式を取得した前記データに適用し、

ここで、ｒ（ｘ）及びＶ（ｘ）は、状態ｘにおける報酬関数及び価値関数をそれぞれ示し、γは割引率を表し、ｂ（ｙ｜ｘ）及びπ（ｙ｜ｘ）は、学習前の状態遷移確率及び学習後の状態遷移確率をそれぞれ示し、式（２）における密度比π（ｘ）／ｂ（ｘ）の対数を推定し、密度比π（ｘ，ｙ）／ｂ（ｘ，ｙ）の対数の推定結果から、式（２）におけるｒ（ｘ）及びＶ（ｘ）を推定するよう構成された、前記プロセッサと、推定されたｒ（ｘ）及びＶ（ｘ）を出力する出力インタフェースと、を備えるシステムを提供する。
他の側面では、本発明は、ユーザがインターネットウェブサーフィンにおいて選択した一連の記事から前記ユーザが読む可能性が高い記事のトピックの好みを予測するシステムであって、インターネットに接続されたコンピュータに実装された、請求項８に記載の逆強化学習のシステムを備え、前記被験者は前記ユーザであり、前記被験者の行動を定義する前記状態変数には、各ウェブページを閲覧中に前記ユーザが選択した記事のトピックが含まれ、前記プロセッサは、前記ユーザが前記インターネットウェブサイトを閲覧しているインタフェースに、前記推定された報酬関数及び価値関数に従って前記ユーザが読むお勧めの記事を表示させる、システムを提供する。
他の側面では、本発明は、複雑なタスクを実行するようにロボットをプログラミングする方法であって、一連の状態及び動作を記録するようにタスクを達成するように第１のロボットを制御し、記録された状態及び動作のシーケンスに基づいて請求項８に記載の逆強化学習のシステムを使用して報酬関数及び価値関数を推定し、推定された報酬関数及び価値関数を第２のロボットの順強化学習制御装置に提供して、前記推定された報酬関数及び価値関数を用いて前記第２のロボットをプログラムする、処理を含む方法を提供する。

Claims

被験者の行動の報酬関数及び価値関数を推定する逆強化学習の方法であって、
前記被験者の行動を定義する状態変数の変化を表すデータを取得し、
式（１）によって与えられる修正ベルマン方程式を取得した前記データに適用し、

ここで、ｒ（ｘ）及びＶ（ｘ）は、状態ｘにおける報酬関数及び価値関数をそれぞれ示し、γは割引率を表し、ｂ（ｙ｜ｘ）及びπ（ｙ｜ｘ）は、学習前の状態遷移確率及び学習後の状態遷移確率をそれぞれ示し、
式（２）における密度比π（ｘ）／ｂ（ｘ）の対数を推定し、
密度比π（ｘ，ｙ）／ｂ（ｘ，ｙ）の対数の推定結果から、式（２）におけるｒ（ｘ）及びＶ（ｘ）を推定し、
推定されたｒ（ｘ）及びＶ（ｘ）を出力する、
処理を含む方法。
前記比π（ｘ）／ｂ（ｘ）及びπ（ｘ，ｙ）／ｂ（ｘ，ｙ）の対数を推定する処理は、対数線形モデルを有するカルバック・ライブラー重要度推定過程（ＫＬＩＥＰ：Kullback-Leibler Importance Estimation Procedure）を使用する処理を含む、
請求項１記載の方法。
前記比π（ｘ）／ｂ（ｘ）及びπ（ｘ，ｙ）／ｂ（ｘ，ｙ）の対数を推定する処理は、ロジスティクス回帰を使用する処理を含む、
請求項１記載の方法。
被験者の行動の報酬関数及び価値関数を推定する逆強化学習の方法であって、
前記被験者の行動を定義する行為付き状態遷移を表すデータを取得し、
式（３）により与えられる修正ベルマン方程式を、取得した前記データに適用し、

ここで、ｒ（ｘ）及びＶ（ｘ）は、状態ｘにおける報酬関数及び価値関数をそれぞれ示し、γは割引率を表し、ｂ（ｕ｜ｘ）及びπ（ｕ｜ｘ）は、状態ｘでの行為ｕを選択する確率を表す、学習前の確率的制御則及び学習後の確率的制御則をそれぞれ表し、
式（３）における密度比π（ｘ）／ｂ（ｘ）の対数を推定し、
密度比π（ｘ，ｕ）／ｂ（ｘ，ｕ）の対数の推定結果から、式（４）におけるｒ（ｘ）及びＶ（ｘ）を推定し、
推定したｒ（ｘ）及びＶ（ｘ）を出力する、
処理を含む方法。
前記比π（ｘ）／ｂ（ｘ）及びπ（ｘ，ｕ）／ｂ（ｘ，ｕ）の対数を推定する処理は、対数線形モデルを有するカルバック・ライブラー重要度推定過程（ＫＬＩＥＰ：Kullback-Leibler Importance Estimation Procedure）を使用する処理を含む、
請求項４記載の方法。
前記比π（ｘ）／ｂ（ｘ）及びπ（ｘ，ｕ）／ｂ（ｘ，ｕ）の対数を推定する処理は、ロジスティクス回帰を使用する処理を含む、
請求項４記載の方法。
プロセッサに、被験者の行動のコスト関数及び価値関数を推定するための逆強化学習アルゴリズムを実行させる命令を記憶する非一時記憶媒体であって、前記命令は、
前記被験者の行動を定義する状態変数の変化を表すデータを取得し、
式（１）によって与えられる修正ベルマン方程式を取得した前記データに適用し、

ここで、ｒ（ｘ）及びＶ（ｘ）は、状態ｘにおける報酬関数及び価値関数をそれぞれ示し、γは割引率を表し、ｂ（ｙ｜ｘ）及びπ（ｙ｜ｘ）は、学習前の状態遷移確率及び学習後の状態遷移確率をそれぞれ示し、
式（２）における密度比π（ｘ）／ｂ（ｘ）の対数を推定し、
密度比π（ｘ，ｙ）／ｂ（ｘ，ｙ）の対数の推定結果から、式（２）におけるｒ（ｘ）及びＶ（ｘ）を推定し、
推定されたｒ（ｘ）及びＶ（ｘ）を出力する、
処理を前記プロセッサに実行させる、非一時記憶媒体。
被験者の行動のコスト関数及び価値関数を推定する逆強化学習のシステムであって、
前記被験者の行動を定義する状態変数の変化を表すデータを取得するデータ取得部と、
メモリを備えるプロセッサであって、
式（１）によって与えられる修正ベルマン方程式を取得した前記データに適用し、

ここで、ｒ（ｘ）及びＶ（ｘ）は、状態ｘにおける報酬関数及び価値関数をそれぞれ示し、γは割引率を表し、ｂ（ｙ｜ｘ）及びπ（ｙ｜ｘ）は、学習前の状態遷移確率及び学習後の状態遷移確率をそれぞれ示し、
式（２）における密度比π（ｘ）／ｂ（ｘ）の対数を推定し、
密度比π（ｘ，ｙ）／ｂ（ｘ，ｙ）の対数の推定結果から、式（２）におけるｒ（ｘ）及びＶ（ｘ）を推定するよう構成された、前記プロセッサと、
推定されたｒ（ｘ）及びＶ（ｘ）を出力する出力インタフェースと、
を備えるシステム。
ユーザがインターネットウェブサーフィンにおいて選択した一連の記事から前記ユーザが読む可能性が高い記事のトピックの好みを予測するシステムであって、
インターネットに接続されたコンピュータに実装された、請求項８に記載の逆強化学習のシステムを備え、
前記被験者は前記ユーザであり、前記被験者の行動を定義する前記状態変数には、各ウェブページを閲覧中に前記ユーザが選択した記事のトピックが含まれ、
前記プロセッサは、前記ユーザが前記インターネットウェブサイトを閲覧しているインタフェースに、前記推定されたコスト関数及び価値関数に従って前記ユーザが読むお勧めの記事を表示させる、
システム。
複雑なタスクを実行するようにロボットをプログラミングする方法であって、
一連の状態及び動作を記録するようにタスクを達成するように第１のロボットを制御し、
記録された状態及び動作のシーケンスに基づいて請求項８に記載の逆強化学習のシステムを使用して報酬関数及び価値関数を推定し、
推定された報酬関数及び価値関数を第２のロボットの順強化学習制御装置に提供して、前記推定された報酬関数及び価値関数を用いて前記第２のロボットをプログラムする、
処理を含む方法。