CN106575382A

CN106575382A - 通过密度比率估计的逆向强化学习

Info

Publication number: CN106575382A
Application number: CN201580042022.7A
Authority: CN
Inventors: 内部英治; 铜谷贤治
Original assignee: Okinawa Institute of Science and Technology School Corp
Current assignee: Okinawa Institute of Science and Technology School Corp
Priority date: 2014-08-07
Filing date: 2015-08-07
Publication date: 2017-04-19
Anticipated expiration: 2035-08-07
Also published as: KR101966564B1; CN106575382B; JP6417629B2; EP3178040A1; KR20170037615A; JP2017527022A; US20170213151A1; WO2016021210A1; US10896382B2; EP3178040A4

Abstract

一种用于估计对象的成本函数和价值函数的逆向强化学习的方法包括：获取表示限定所述对象的行为的状态变量的改变的数据；将通过方程(1)给出的修改后的贝尔曼方程应用至所获取的数据：q(x)+gV(y)‑V(x)＝‑ln{pi(y|x))/(p(y|x)}(1)，其中，q(x)和V(x)分别指代状态x下的成本函数和价值函数，g表示贴现因子，并且p(y|x)和pi(y|x)分别指代学习前和学习后的状态转变概率；估计方程(1)中的密度比率pi(y|x)/p(y|x)；根据所估计的密度比率pi(y|x)/p(y|x)，使用最小二乘法来估计方程(1)中的q(x)和V(x)；以及输出所估计的q(x)和V(x)。

Description

通过密度比率估计的逆向强化学习

技术领域

本发明涉及逆向强化学习，更具体地，涉及逆向强化学习的系统和方法。本申请由此通过引用完全结合2014年8月7日提交的美国临时申请No.62/034,510。

背景技术

对于开发可以与人类进行交互的人造系统而言，通过观测理解人类的行为是非常关键的。由于我们的决策作出处理受与所选动作关联的奖惩/成本影响，因此问题可以用公式表达为根据观测到的行为的奖惩/成本的估计。

逆向强化学习的思想起初是由Ng和Russel提出的(2000)(NPL 14)。Dvijotham和Todorov(2010)(NPL 6)提出的OptV算法是现有技术，它们表明示教器(demonstrator)的策略由价值函数逼近(approximate)，该价值函数是线性贝尔曼方程的解。

一般来说，强化学习(reinforcement Learning，RL)是用于调查可通过与环境交互来学习最佳策略的生物和人造系统二者的决策作出处理的计算框架。在RL中存在许多开放性问题，关键问题之一是如何设计并且准备合适奖惩/成本函数。容易设计出当完成任务时给出正奖惩并且否则给出0的稀疏奖惩函数，但是这样使得难以找到最佳策略。

在某些情形下，相比于手工得到合适奖惩/成本函数，更容易准备期望行为的示例。近来，已经提出了许多逆向强化学习(IRL)(Ng&Russell,2000,NPL 14)和学徒式学习(Abbeel&Ng,2004,NPL 1)的方法，以根据示教器的性能来推导奖惩/成本函数并且实现模仿学习。然而，现有研究中的大部分(Abbeel&Ng，2004，NPL 1；Ratliff等人，2009，NPL 16；Ziebart等人，2008，NPL 26)要求用所估计的奖惩/成本函数来解决正向强化学习问题的例程。即使当环境的模型可用时，该处理也常常是非常耗时的。

近来，引入了线性可求解马尔可夫决策处理(Linearly solvable MarkovDecision Process，LMDP)(Todorov,2007；2009,NPLs 23-24)的概念，该概念是通过限制成本函数的形式的马尔可夫决策处理的子类。该限制在IRL中扮演重要角色。LMDP也被称为KL控制，并且在控制理论领域中提出了路径积分方法(Kappen等人，2012，NPL 10；Theodorou等人，2010，NPL 21)和类似的思想。Aghasadeghi&Bretl(2011)(NPL 2)和Kalakrishnan等人(2013)(NPL 8)提出了基于路径积分方法的无模型IRL算法。由于由成本函数参数化最佳轨迹的似然，因此通过将似然最大化来优化成本的参数。然而，它们的方法要求整个轨迹数据。Dvijotham和Todorov(2010)(NPL 6)基于LMDP的框架提出了基于模型的IRL方法，在该方法中，由价值函数来表示最佳状态转变的似然。与IRL的路径积分方法相对照，可以从状态转变的任何数据集对其进行优化。主要缺点是评估不能够通过分析来求解的积分。实际上，它们将状态空间离散化，以用总和来代替积分，但是在高维度连续问题中是不可行的。

引用列表

非专利文献

NPL 1：Abbeel,P.and Ng,A.Y.Apprenticeship learning via inversereinforcement learning.In Proc.of the 21st International Conference onMachine Learning,2004。

NPL 2：Aghasadeghi,N.and Bretl,T.Maximum entropy inverse reinforcementlearning in continuous state spaces with path integrals.In Proc.of IEEE/RSJInternational Conference on Intelligent Robots and Systems,pp.1561-1566,2011。

NPL 3：Boularias,A.,Kober,J.,and Peters,J.Relative entropy inversereinforcement learning.In Proc.of the 14th International Conference onArtificial Intelligence and Statistics,volume 15,2011。

NPL 4：Deisenroth,M.P.,Rasmussen,C.E,and Peters,J.Gaussian processdynamic programming.Neurocomputing,72(7-9):1508-1524,2009。

NPL 5：Doya,K.Reinforcement learning in continuous time andspace.Neural Computation,12:219-245,2000。

NPL 6：Dvijotham,K.and Todorov,E.Inverse optimal control with linearlysolvable MDPs.In Proc.of the 27th International Conference on MachineLearning,2010。

NPL 7：Fleming,W.H.and Soner,H.M.Controlled Markov Processes andViscosity Solutions.Springer,second edition,2006。

NPL 8：Kalakrishnan,M.,Pastor,P.,Righetti,L.,and Schaal,S.Learningobjective functions for manipulation.In Proc.of IEEE International Conferenceon Robotics and Automation,pp.1331-1336,2013。

NPL 9：Kanamori,T.,Hido,S.,and Sugiyama,M.A Least-squares Approach toDirect Importance Estimation.Journal of Machine Learning Research,10:1391-1445,2009。

NPL 10：Kappen,H.J.,Gomez,V.,and Opper,M.Optimal control as agraphical model inference problem.Machine Learning,87(2):159-182,2012。

NPL 11：Kinjo,K.,Uchibe,E.,and Doya,K.Evaluation of linearly solvableMarkov decision process with dynamic model learning in a mobile robotnavigation task.Frontiers in Neurorobotics,7(7),2013。

NPL 12：Levine,S.and Koltun,V.Continuous inverse optimal control withlocally optimal examples.In Proc.of the 27th International Conference onMachine Learning,2012。

NPL 13：Levine,S.,Popovic,Z.,and Koltun,V.Nonlinear inversereinforcement learning with Gaussian processes.Advances in Neural InformationProcessing Systems 24,pp.19-27.2011。

NPL 14：Ng,A.Y.and Russell,S.Algorithms for inverse reinforcementlearning.In Proc.of the 17th International Conference on Machine Learning,2000。

NPL 15：Rasmussen,C.E.and Williams,C.K.I.Gaussian Processes forMachine Learning.MIT Press,2006。

NPL 16：Ratliff,N.D.,Silver,D,and Bagnell,J.A.Learning to search:Functional gradient techniques for imitation learning.Autonomous Robots,27(1):25-53,2009。

NPL 17：Stulp,F.and Sigaud,O.Path integral policy improvement withcovariance matrix adaptation.In Proc.of the 10th European Workshop onReinforcement Learning,2012。

NPL 18：Sugimoto,N.and Morimoto,J.Phase-dependent trajectoryoptimization for periodic movement using path integral reinforcementlearning.In Proc.of the 21st Annual Conference of the Japanese Neural NetworkSociety,2011。

NPL 19：Sugiyama,M.,Takeuchi,I.,Suzuki,T.,Kanamori,T.,Hachiya,H.,andOkanohara,D.Least-squares conditional density estimation.IEICE Transactionson Information and Systems,E93-D(3):583-594,2010。

NPL 20：Sugiyama,M.,Suzuki,T.,and Kanamori,T.Density ratio estimationin machine learning.Cambridge University Press,2012。

NPL 21：Theodorou,E.,Buchli,J.,and Schaal,S.A generalized pathintegral control approach to reinforcement learning.Journal of MachineLearning Research,11:3137--3181,2010。

NPL 22：Theodorou,E.A and Todorov,E.Relative entropy and free energydualities:Connections to path integral and KL control.In Proc.of the 51stIEEE Conference on Decision and Control,pp.1466-1473,2012。

NPL 23：Todorov,E.Linearly-solvable Markov decision problems.Advancesin Neural Information Processing Systems 19,pp.1369-1376.MIT Press,2007。

NPL 24：Todorov,E.Efficient computation of optimal actions.Proceedingsof the National Academy of Sciences of the United States of America,106(28):11478-83,2009。

NPL 25：Todorov,E.Eigenfunction approximation methods for linearly-solvable optimal control problems.In Proc.of the 2nd IEEE Symposium onAdaptive Dynamic Programming and Reinforcement Learning,pp.161-168,2009。

NPL 26：Ziebart,B.D.,Maas,A.,Bagnell,J.A.,and Dey,A.K.Maximum entropyinverse reinforcement learning.In Proc.of the 23rd AAAI Conference onArtificial Intelligence,2008。

发明内容

技术问题

逆向强化学习是用于解决以上问题的框架，但是如以上提到的，现有方法具有以下缺点：(1)当状态是连续的时，难以处理，(2)计算成本昂贵，以及(3)应该必须估计状态的整个轨迹。本公开中公开的方法解决了这些缺点。特别地，NPL 14中提出的先前方法不像许多之前研究报告那样运行良好。此外，NPL 6中提出的方法实际上不能解决连续问题，因为它们的算法涉及复杂的积分计算。

本发明涉及用于逆向强化学习的系统和方法。

本发明的目的是提供新型改进的逆向强化学习系统和方法，以消除现有技术的问题中的一个或更多个。

问题的解决方案

为了实现这些和其它优点并且根据本发明的目的，如所具体实现和广泛描述的，在一个方面，本发明提供了一种用于估计对象的行为的成本函数和价值函数的逆向强化学习的方法，该方法包括：获取表示限定所述对象的行为的状态变量的改变的数据；将通过方程(1)给出的修改后的贝尔曼方程应用至所获取的数据：

在另一个方面，本发明提供了一种非暂时性存储介质(诸如，CD-ROM或其它形式的非暂时性存储介质)，所述非暂时性存储介质存储致使处理器执行用于估计对象的行为的成本函数和价值函数的逆向强化学习的算法的指令，所述指令致使所述处理器执行以下步骤：获取表示限定所述对象的行为的状态变量的改变的数据；将通过方程(1)给出的修改后的贝尔曼方程应用至所获取的数据：

在另一个方面，本发明提供了一种用于估计对象的行为的成本函数和价值函数的逆向强化学习的系统，该系统包括：数据获取单元，其用于获取表示限定所述对象的行为的状态变量的改变的数据；处理器，其具有存储器，所述处理器和所述存储器被配置成：将通过方程(1)给出的修改后的贝尔曼方程应用至所获取的数据：

在另一个方面，本发明提供了一种用于预测用户很可能从所述用户在互联网网上冲浪时选择的一系列文章阅读的文章主题的偏好的系统，该系统包括：用于如上阐述的逆向强化学习的系统，所述系统在连接至互联网的计算机中实现，其中，所述对象是所述用户，并且限定所述对象的行为的所述状态变量包括所述用户在浏览每个网页的同时选择的文章的主题，并且其中，所述处理器致使所述用户浏览互联网网站的界面显示根据所估计的成本函数和价值函数为用户推荐的文章以进行阅读。

本发明的有益效果

根据本发明的一个或更多个方面，变得可以有效且高效地执行逆向强化学习。在一些实施方式中，不需要预先得知环境动态并且不需要执行积分。

本发明的另外或单独特征和优点将在随后描述中阐述并且部分地将根据该描述而清楚，或者可通过实践本发明而学习。将通过所编写的说明书及其权利要求以及附图中特别指出的结构来实现和获取本发明的目的和其它优点。

要理解，以上总体描述和以下详细描述都是示例性和说明性的，并且旨在提供对所要求的本发明的进一步解释。

附图说明

[图1]图1示出针对以下密度比率估计方法中的每个应用本发明的实施方式的摆起倒立摆试验的结果的归一化平方误差：(1)LSCDE-IRL、(2)uLSIF-IRL、(3)LogReg-IRL、(4)Gauss-IRL、(5)LSCDE-OptV和(6)Gauss-OptV。如在附图中指示的，就取样方法和其它参数而言，(a)至(d)彼此不相同。

[图2]图2是示出针对各种密度比率估计方法的摆起倒立摆试验中的交叉验证误差的曲线图。

[图3]图3示出长杆的杆平衡任务的试验设置：左边：开始位置，中间：目标位置；右边：状态变量。

[图4]图4示出根据本发明的实施方式的关于各种对象的杆平衡任务试验中的学习曲线；实线：长杆，虚线：短杆。

[图5]图5示出投影到限定子空间的、针对第4号、第5号和第7号对象的根据本发明的实施方式的针对杆平衡任务试验推导的所估计的成本函数。

[图6]图6示出评估所估计的成本函数的、针对第4号和第7号对象的杆平衡任务试验中的针对测试数据集的负对数似然值。

[图7]图7示意性地示出可从由示教器生成的所观测的状态转变来推导目标函数的根据本发明的实施方式的逆向强化学习的框架。

[图8]图8是示出在机器人行为的模仿学习中的本发明的逆向强化学习的实现的示例的示意性黑图。

[图9]图9是示出在解释人类行为时本发明的逆向强化学习的实现的示例的示意性黑图。

[图10]图10示意性地示出网络访问者进行的一系列点击动作，这些动作表明了访问者在上网冲浪时的主题的偏好。

[图11]图11示意性地示出根据本发明的实施方式的逆向强化学习系统的示例。

具体实施方式

本公开提供了在线性可求解马尔可夫决策处理(LMDP)的框架下基于密度比率估计的新型逆向强化学习方法和系统。在LMDP中，通过状态依赖成本函数和价值函数来表示受控制和不受控制状态转变密度之间的比率的对数。在本发明的一个方面中，使用密度比率估计方法来估计转变密度比率，并且使用经过正则化的最小二乘法来估计满足该关系的状态依赖成本函数和价值函数。这种方法可以避免计算积分(诸如，评估配分函数)。如下所述，执行钟摆摆起的简单数值模拟，并且已经证实了其优于传统方法。本发明的发明人还在执行杆平衡任务时将该方法应用至人类行为并且表明所估计的成本函数可以以令人满意的方式预测对象在新尝试或环境中的性能。

本发明的一个方面基于像OptV算法的线性可求解马尔可夫决策处理的框架。本发明的发明人已经推导出通过下式给出的新型贝尔曼(Bellman)方程：

其中，q(x)和V(x)指代状态x下的成本函数和价值函数，并且γ表示贴现因子。p(y|x)和π(y|x)分别指代学习前和学习后的状态转变概率。通过密度比率估计方法，从所观测的行为来有效地计算密度比率(以上方程的左手侧)。一旦估计出密度比率，就可以通过正则化的最小二乘法来估计成本函数和价值函数。重要特征是，我们的方法可以避免计算积分，该积分的计算常常带来高计算成本。本发明的发明人已经在执行杆平衡任务时将该方法应用于人类行为并且表明所估计的成本函数可以预测对象在新尝试或环境中的性能，从而验证这种新计算技术在逆向强化学习中的通用可应用性和有效性，公认这种技术在控制系统、机器学习、操作研究、信息理论等中的广泛可应用性。

<1.线性可求解马尔可夫决策处理>

<1.1.正向强化学习>

本公开提供针对离散时间连续空间域的马尔可夫决策处理及其简化的简单介绍。假设X和U分别是连续状态和连续动作空间。在时间步长t处，学习智能体(learning agent)观测环境当前状态x_t∈X，并且执行从随机型策略p(u_t|x_t)中取样的动作u_t∈U。因此，从环境给出即时成本(immediate cost)c(x_t，u_t)，并且该环境使得在动作u_t下根据状态转变概率P_T(y|x_t，u_t)从x_t到y∈X进行状态转变。强化学习的目标是构造使给定目标函数最小化的最佳策略π(u|x)。存在许多目标函数并且最广泛使用的函数是通过下式给出的成本的贴现总和：

其中，γ∈[0，1)被称为贴现因子。已知最佳价值函数满足以下贝尔曼方程：

方程(2)是由于最小算子导致的非线性方程。

线性可求解马尔可夫决策处理(LMDP)在一些假设前提下简化方程(2)(Todorov,2007；2009a,NPLs 23-24)。LMDP的关键诀窍是直接优化状态转变概率，而非优化策略。更具体地，引入了两个条件概率密度函数。一个是用p(y|x)指代的不受控制概率，该概率可被视为固有状态转变。p(y|x)是任意的并且它可以通过下式来构造：

p(y|x)＝∫P_T(y|x，u)π₀(u|x)du，

其中，π₀(u|x)是随机策略。另一个是由π(y|x)指代的受控制概率，该概率可被解释为最佳状态转变。然后，成本函数限于以下形式：

c(x，u)＝q(x)+KL(π(·|x)||p(·|x))，　　 (3)

其中，q(x)和KL(p(×|x)||p(×|x))分别指代状态依赖成本函数和在受控制和不受控制状态转变密度之间的Kullback Leibler散度。在这种情况下，贝尔曼方程(2)被简化成以下方程：

exp(-V(x))

＝exp(-q(x))∫p(y|x)exp(-γV(y))dy (4)。

最佳受控制概率通过下式给出：

应该注意，即使引入了满意度函数Z(x)＝exp(-V(x))，方程(4)也仍然是非线性的，因为存在贴现因子γ。在LMDP的框架下的正向强化学习中，通过求解方程(4)来计算V(x)，然后计算π(y|x)(Todorov,2009,NPL 25)。

<1.2.逆向强化学习>

由Dvijotham和Todorov提出在LMDP下的逆向强化学习(IRL)算法(2010)(NPL 6)。特别地，OptV对于离散状态问题是十分有效的。OptV的优点在于，由价值函数来明确表示最佳状态转变，使得最大似然方法可以被应用以估计价值函数。假定所观测的轨迹通过最佳状态转变密度(5)产生。价值函数通过以下线性模型来逼近：

其中，w_v和ψ_v(x)分别指代学习权重和基函数矢量。

由于由方程(5)给出了受控制概率，因此可以通过将似然最大化来优化权重矢量w_v。假定具有状态转变的数据集：

其中，N^π指代来自受控制概率的数据的数量。然后，通过下式给出对数似然及其导数：

其中，π(y|x；w_v)是受控制策略，在该策略中，由方程(6)参数化价值函数。一旦梯度被评估，就根据梯度上升方法来更新权重矢量w_v。

在估计价值函数之后，可以使用简化的贝尔曼方程(4)来获取成本函数。这意味着，当给定和γ时唯一地确定成本函数q(x)，并且通过价值函数中使用的基函数来表达q(x)。虽然在模仿学习的情况下，成本函数的表示并不重要，但想要寻求成本的更简单表示，以便进行分析。因此，本发明的发明人引入了逼近器：

其中，w_q和ψ_v(x)分别指代学习权重和基函数矢量。通过下式给出经过L1正则化以优化w_q的目标函数：

其中，λ_q是正则化常数。采用简单梯度下降算法，并且在所观测的状态下评估J(w_q)。

Dvijotham和Todorov(2010)(NPL 6)的最明显问题是不能够通过分析来求解的方程(8)和(10)中的积分，它们将状态空间离散化并且用总和来代替积分。然而，如它们所提出的，在高维度问题中这是不可行的。另外，不受控制概率p(y|x)不必须是高斯。在本发明的至少一些实施方式中，应用Metropolis Hastings算法来评估对数似然的梯度，其中，使用不受控制概率p(y|x)作为因果密度。

<2.通过密度比率估计的逆向强化学习>

<2.1.针对IRL的贝尔曼方程>

根据方程(4)和(5)，本发明的发明人已经推导出针对贴现成本问题的以下重要关系：

方程(11)在根据本发明的实施方式的IRL算法中起到重要作用。可以针对第一出口(first-exit)、平均成本和有限范围问题推导出类似方程。应该注意，方程(11)的左手侧不是时间差误差，因为q(x)是方程3中示出的成本函数的状态依赖部分。

虽然成本函数的形式在LMDP下受方程(3)限制，但是我们的IRL仍然是病态问题并且成本函数不被唯一地确定。更具体地，如果通过下式来改变状态依赖成本函数：

q′(x)＝q(x)+C， (12)

则对应价值函数改变成：

其中，C是恒定值。然后，从V(x)推导出的受控制概率与从V'(x)推导的受控制概率相同。如下所述，当估计成本函数时，该特性可用。在本发明的一个方面，所公开的IRL方法由两个部分组成。一个是估计下述方程(11)的右手侧的密度比率。另一个是通过如下示出的经过正则化的最小二乘法来估计q(x)和V(x)。

<2.2.针对IRL的密度比率估计>

估计受控制和不受控制转变概率密度的比率可以被视为密度比率估计的问题(Sugiyama等人,2012,NPL 20)。根据该问题的设置，本公开考虑以下公式化。

<2.2.1.一般情况>

首先，考虑一般设置。假定有状态转变的两个数据集：一个是方程(7)中示出的D^π，而另一个是来自不受控制概率的数据集：

其中，N^p指代数据的数量。然后，我们对根据N^p和D^π来估计比率π(y|x)/p(y|x)感兴趣。

根据方程(11)，可以考虑以下两个分解：

第一分解(14)表明条件概率密度的对数的差。为了估计方程(14)，本公开考虑两个实现。第一个是LSCDE-IRL，LSCDE-IRL采用最小二乘条件密度估计(LSCDE)(Sugiyama等人，2010)来估计π(y|x)和p(y|x)。另一个是高斯IRL，高斯IRL使用高斯处理(Rasmussen&Williams，2006，NPL15)来估计方程(14)中的条件密度。

第二分解(15)表明密度比率的对数的差。第二分解的优点在于，如果π(x)＝p(x)，则可忽略lnπ(x)/p(x)。根据该设置，可满足该条件。当前，实现两种方法来估计π(x)/p(x)和π(x，y)/p(x，y)。一个是使用不受约束最小二乘重要度拟合(uLSIF)的uLSIF-IRL(Kanamori等人，2009，NPL9)。另一个是以不同方式利用逻辑回归的LogReg。以下的部分2.3描述了它们的实现。

<2.2.2.当p(y|x)是未知的时>

假定在标准IRL问题的情况下，状态转变概率P_t(y|x，u)是预先已知的，并且这对应于在LMDP的情况下给出不受控制概率p(y|x)的假设。这可被视为基于模型的IRL。在这种情况下，方程(14)是合适的并且足以根据数据集D^p来估计受控制概率π(y|x)。

在某些情形下，既没有根据不受控制概率密度的分析模型，也没有根据其的数据集。然后，p(y|x)由均匀分布来代替，均匀分布对于无界变量是不适当的分布。在不损失一般性的情况下，p(y|x)被设置成1，这是因为其可以通过用方程(12)和(13)使成本函数和价值函数移位被补偿。

<2.3.密度比率估计算法>

该部分描述了适于本公开中公开的IRL方法的密度比率估计算法。

<2.3.1.uLSIF>

uLSIF(Kanamori等人，2009，NPL9)是用于直接密度比率估计方法的最小二乘法。uLSIF的目标是估计两个密度的比率π(x)/p(x)和π(x，y)/p(x，y)。此后，本公开说明了如何用D^p和D^π来估计r(z)＝π(z)/p(z)，其中，为了简便起见，z＝(x，y)。通过以下线性模型来逼近该比率：

其中，分别地，指代基函数矢量并且α是待学习的参数。通过下式给出目标函数：

其中，l是正则化常数并且

应该注意，分别地，从D^p来估计H，而从D^π来估计h。方程(16)可通过分析被最小化为但是该最小解忽略了密度比率的非负性约束。为了补偿该问题，uLSIF通过下式修改该解：

其中，以元素智能方式应用以上max算子。

如Kanamori等人(2009)(NPL 9)推荐的，通过下式将集中于D^π的状态的高斯函数用作基函数：

其中，σ是宽度参数，是从D^π随机选择的状态。通过留一交叉验证法来选择参数λ和σ。

<2.3.2.LSCDE>

LSCDE(Sugiyama等人，2010，NPL 19)被视为用于估计条件概率密度函数的uLSIF的特殊情况。例如，通过下式给出从D^π估计π(ylx)＝π(x，y)/π(x)的目标函数：

其中，是线性模型并且λ是正则化常数。计算LSCDE中的H和h略不同于uLSIF中的那些，并且它们被如下计算：

其中，被限定为：

由于使用了方程(18)中示出的基函数，因此可通过分析来计算该积分。通过方程(17)来给出所估计的LSCDE的权重。为了确保所估计的比率是条件密度，当解被用于估计成本函数和价值函数时，该解应该被归一化。

<2.3.3.LogReg>

LogReg是使用逻辑回归进行密度估计的方法。将选择器变量η＝-1分配给来自不受控制概率的样本，并且将η＝1分配给来自受控制概率的样本：

p(z)＝Pr(z|η＝-1)，π(z)＝Pr(z|η＝1)。

通过如下地应用Bayes规则来表示密度比率：

通过N^p/N^π来估计第一比率Pr(η＝-1)/Pr(η＝1)，并且在通过逻辑回归分类器估计条件概率P(η|z)之后，计算第二比率：

其中，η可被视为标签。应该注意，在LogReg的情况下，通过线性模型来给出密度比率的对数：

可以在方程(15)中示出的IRL公式中忽略第二项lnNp/N^π。通过用下式表达的负正则化对数似然来推导目标函数：

不推导闭式解，但是可以通过标准非线性优化方法有效地最小化，因为该目标函数是凸的。

<2.4.估计成本函数和价值函数>

一旦估计出密度比率π(y|x)/p(y|x)，就应用经过正则化的最小二乘法，以估计状态依赖成本函数q(x)和价值函数V(x)。假定是负对数比率的逼近并且分别如方程(6)和(9)中限定的，考虑q(x)和V(x)的线性逼近器。通过下式给出目标函数：

其中，λ_q和λ_v是正则化常数。L2正则化被用于w_v，这是因为L2正则化是实现数值稳定性的有效方式。另一方面，L1正则化被用于w_q，以产生更容易通过试验来解释的稀疏模型。如果稀疏性不重要，则可以使用L2正则化用于w_q。另外，因为通过设置来使用方程(12)以有效地满足成本函数的非负性，所以不引入w_q和w_v的非负约束。

理论上，可选择任意基函数。在本发明的一个实施方式中，方程(18)中示出的高斯函数被用于简化：

其中，σ是宽度参数。中心位置从D^p随机地选择。

<3.试验>

<3.1.摆起倒立摆>

<3.1.1.任务描述>

为了证实并且确认本发明的上述实施方式的有效性，本发明的发明人已经研究了摆起倒立摆问题，在该问题中，通过二维矢量x＝[q,w]T来给出状态矢量，其中，q和w分别表示杆的角度和角速率。通过以下随机型微分方程来给出运动的方程：

其中，l、m、g、k、S_e和w分别表示杆的长度、质量、重力加速度、摩擦系数、噪声的换算因数和布朗噪声。与之前研究(Deisenroth等人，2009，NPL 4；Doya，2000，NPL 5)相反，所施加的力矩u不受限制并且可以直接摆起。通过用步长h将时间轴离散化，得到由高斯分布表示的对应状态转变概率P_T(y|x，u)。在该模拟中，如下给出参数：l＝1[m]，m＝1[kg]，g＝9.8[m/s²]，k＝0.05[kgm²/s],h＝0.01[s]，S_e＝4，并且γ＝10^-0.025≈0.94。

本发明的发明人已经如下通过改变(1)状态依赖成本函数q(x)、(2)不受控制概率p(y|x)和(3)数据集D^p和D^π来进行一系列试验。

<成本函数>

目标是保持杆直立并且准备以下三个成本函数：

q_cos(x)＝1-cosθ，

其中，Q＝diag[1,0.2]。q_cost(x)由Doya(2000)使用，而q_exp(x)由Deisenroth等人(2009)使用(NPL4)。

<不受控制概率>

<数据集的准备>

考虑两种取样方法。一种是均匀取样，而另一种是基于轨迹的取样。在均匀取样方法中，从在整个状态空间内限定的均匀分布对x进行取样。换句话讲，p(x)和π(x)被视为均匀分布。然后，从不受控制和受控制概率对y进行取样，以分别构造D^p和D^π。在基于轨迹的取样方法中，使用p(y|x)和π(y|x)从相同开始状态x生成状态的轨迹。然后，从这些轨迹中随机选择一对状态转变以构造D^p和D^π。期望p(x)不同于π(x)。

对于每个成本函数，通过对方程(4)进行求解来计算对应价值函数，并且通过方程(5)来评估对应最佳受控制概率。在先前方法(Todorov,2009b,NPL25)中，由线性模型来表示exp(-V(x))，但是在目标函数(1)下是困难的，这是因为贴现因子γ使线性模型变复杂。因此，通过方程(6)中示出的线性模型来逼近价值函数，并且使用Metropolis Hastings算法来评估积分。

可以将根据本发明的实施方式的方法与OptV进行比较，这是因为OptV的假设与根据本发明的实施方式的方法相同。根据密度比率估计方法的选择，存在如上所述的许多变型。更具体地，考虑以下六种算法：(1)LSCDE-IRL、(2)uLSIF-IRL、(3)LogReg-IRL、(4)Gauss-IRL、(5)LSCDE-OptV(其是通过LSCDE估计p(y|x)的OptV方法)和(6)使用高斯处理方法来估计p(y|x)的Gauss-OptV。

将D^p和D^π的样本的数量设置为N^p＝N^π＝300。根据以下区域通过交叉验证来优化参数λ_q、λ_V、σ和γ：logλ_q、logλ_V∈linspace(-3，1，9)、logσ∈linspace(-1.5，1.5，9)，和logγ∈linspace(-0.2，0，9)，其中，linspace(x_min，x_max，n)生成在x_min和x_max之间相等间隔的一组n个点。

<3.1.2.试验结果>

通过测试样本的归一化平方差来测量所估计的成本函数的精度：

其中，分别地，q(x_j)是在状态x_j下的方程(19)中示出的真实成本函数，而是所估计的成本函数。图1的(a)至(d)将本发明的实施方式的IRL方法的精度进行比较；已表明，我们的方法(1)至(4)在所有设置方面执行得比OptV方法(5)-(6)更好。更具体地，LogReg-IRL表现出最佳性能，但在方法(1)至(3)之间并没有显著差异。如果通过高斯的混合来给出随机型策略π(u|x)，则通过高斯-IRL估计的成本的精度显著增加，这是因为标准高斯处理不能够表示高斯的混合。

图2示出贴现因子λ的交叉验证误差，其中诸如λ_q、λ_V和σ的其它参数被设置成最佳值。在该模拟中，在所有方法中在真实贴现因子为γ＝10^-0.025≈0.94处，交叉校验误差最小。如图2中所示，另外，如以上图1中说明的，已经证实本发明的实施方式具有足够小的误差，从而确认了本发明的效果是有效的。

<3.2.人类行为分析>

<3.2.1任务描述>

为了评估真实情形下的我们的IRL算法，本发明的发明人已经进行了动态电机控制、杆平衡问题。图3示出试验设置。对象可以移动到左底部、右、上(up)和下(bottom)，以将杆摆动多次并且使杆减速以使其在直立位置平衡。通过六维状态矢量来描述动力学，其中，θ和是杆的角度和角速率，x和y是底部(base)的水平位置和垂直位置，并且和分别是其时间导数。

在两个条件下执行任务：长杆(73cm)和短杆(29cm)。每个对象在每个条件下进行15次杆平衡试验。当对象可以保持杆直立经过3秒或40秒时，每个试验结束。从7个对象(5个惯用右手的和2个惯用左手的)收集数据并且使用基于轨迹的取样方法来构造受控制概率的以下两个数据集：针对第i个对象的用于训练的和用于测试的假设所有对象具有唯一不受控制概率p(y|x)，该概率p(y|x)由随机策略生成。这意味着，用于训练的和用于测试的在对象之间被共享。数据集中的样本数量是300。

<4.2.2试验结果>

图4示出七个对象的学习曲线，这些曲线表明学习处理在不同对象之间非常不同。1号和3号这两个对象不能完成任务。由于由IRL算法使用一组成功轨迹，因此从2号和4号至7号五个对象拾取数据。

以下，将描述使用LogReg-IRL的情况下的试验结果(LSCDE-IRL和uLSIF-IRL表现出相近结果)。图5示出投影到子空间的对象4、5和7的所估计的成本函数，而为了可视化，x、y、和被设置成零。在对象7的情况下，长杆条件的成本函数与短杆条件的成本函数不是非常不同，而在短杆条件中表现得不好的对象5的成本函数有明显差异，如图4中所示。

为了评估从训练数据集估计的成本函数，应用正向强化学习来找到针对所估计的成本函数的最佳受控制转变概率，然后计算针对测试数据集的负对数似然：

其中，是中的样本的数量。

图6示出结果。在左图(a)中，在长杆条件下，使用对象4的测试数据集通过从相同条件的训练数据集和估计的成本函数来实现最小负对数似然。图6的右面板(b)示出通过仅在长杆条件下从相同对象7的训练数据集估计的成本函数来最佳地预测对象7在长杆条件和短杆条件二者下对象的测试数据。因此，通过该试验也确认和证实了本发明的实施方式的有效性和可用性。

本公开提出了在LMDP的框架下的新型逆向强化学习。本发明的特征之一是示出方程(11)，方程(11)意味着对于最佳价值函数连同对应成本函数，时间差误差是零。由于可以通过密度比率估计的有效方法从样本来估计方程(11)的右手侧，因此本发明的IRL导致经过正则化的简单最小二乘法。另外，根据本发明的实施方式的方法不需要计算积分，该积分在高维度连续问题中通常是难对付的。结果，所公开的方法在计算上比OptV更便宜。

在机器人领域和机器学习领域中，LMDP和路径积分方法近来已经备受关注(Theodorou&Todorov，2012，NPL 22)，这是因为在线性化贝尔曼方程中存在多个感兴趣的性质(Todorov，2009a，NPL 24)。它们已经成功应用于具有大自由度的针对机器人的随机型策略的学习(Kinjo等人，2013，NPL 11；Stulp&Sigaud，2012，NPL 17；Sugimoto和Morimoto，2011，NPL 18；Theodorou等人，2010，NPL 21)。根据本发明的实施方式的IRL方法可以与现有正向强化学习方法结合，以设计复杂的控制器。

如上所述，在本发明的至少一些方面，本公开提供了可有效地从所观测的行为来推导奖惩/成本函数的计算算法。本发明的实施方式的算法可以在具有合适硬件和软件以及特别设计的专用硬件/软件的通用计算机系统中来实现。根据本发明的至少一些实施方式的各种优点包括：

A)无模型方法/系统：本发明的实施方式的方法和系统不需要预先知道环境动态；即，尽管某些现有技术方法假设环境动态是预先已知的，但是该方法/系统被视为无模型方法—不必明确地对目标动态建模。

B)数据有效：用于根据本发明的实施方式的方法和系统的数据集由一组状态转变组成，而许多先前方法要求一组状态轨迹。因此，在本发明的实施方式的方法和系统中，更容易收集数据。

C)计算上有效(1)：根据本发明的实施方式的方法和系统不需要解决(正向)强化学习问题。相比之下，某些先前方法要求用所估计的奖惩/成本函数来多次解决这样的正向强化学习问题。必须针对每个候选来执行该计算并且通常花费很长时间来找到最佳解。

D)计算上有效(2)：根据本发明的实施方式的方法和系统使用两种优化算法：(a)密度比率估计和(b)正则化最小二乘。相比之下，某些先前方法使用相比于最小二乘法花费时间进行优化的随机型梯度方法或马尔可夫链蒙特卡尔(Markov chain Monte Garlo)方法。

如上所述，在一个方面，本发明提供了逆向强化学习，该逆向强化学习可以从由示教器生成的所观测的状态转变来推导目标函数。图7示意性地示出根据本发明的实施方式的方法的框架。根据本发明的逆向强化学习的实施方式包括两个组成：(1)在有和没有由密度比率估计的控制的情况下学习状态转变概率的比率，和(2)通过正则化最小二乘法估计与转变概率的比率兼容的成本函数和价值函数。通过使用针对每个步骤的有效算法，相比于其它逆向强化学习方法，本发明的实施方式在数据和计算方面更有效。

已经很好地理解并且认识到逆向强化学习的行业可应用性和可用性。以下，描述可应用本发明的实施方式的系统/构造的示例。

<机器人行为的模仿学习>

执行复杂任务的编程机器人难以使用诸如运动规划的标准方法。在许多情形下，证实对于机器人的期望行为容易得多。然而，经典模仿学习的主要缺点是，所得到的控制器不能应对新情形，这是因为它只是再现所证实的移动。本发明的实施方式可以从所证实的行为来估计目标函数，然后所估计的目标函数可用于学习不同情形下的不同行为。

图8示意性地示出本发明的这种实现。首先，示教器控制机器人来实现任务并且记录状态和动作的顺序。然后，本发明的实施方式的逆向强化学习组件估计成本函数和价值函数，成本函数和价值函数被赋予用于不同机器人的正向强化学习控制器。

<对人类行为的解释>

理解行为背后的人类意图是建立用户友好支持系统的基本问题。通常，由运动跟踪系统提取的一系列状态来表示行为。通过根据本发明的实施方式的逆向强化学习方法/系统估计的成本函数可被视为用于解释给定行为数据集的紧凑表示。通过所估计的成本函数的图案分类，变得可以估计用户的专长或偏好。图9示意性地示出根据本发明的实施方式的该实现。

<对网络体验的分析>

为了增加访问者阅读向访问者展示的文章的可能性，在线新闻网站的设计方例如应该从决策作出的角度调查访问者的网络体验。特别地，推荐系统作为用于个性化服务的重要商务应用而备受关注。然而，诸如协同过滤的先前方法不明确考虑决策作出的顺序。本发明的实施方式可提供在网上冲浪期间对访问者的行为建模的不同且有效方式。图10示出用户进行的一系列点击动作的示例，指示用户以什么次序访问什么主题。访问者正在阅读的主题被视为状态并且点击链路被视为动作。然后，根据本发明的实施方式的逆向强化学习可以在用户网上冲浪时分析决策作出。由于所估计的成本函数表示访问者的偏好，因此变得可以为用户推荐文章的列表。

如上所述，根据本发明的实施方式的逆向强化学习可应用于广泛多种工业和/或商业系统。图11示出使用通用计算机系统和传感器系统的实现的示例。例如，以上用算术方程解释的方法可以在这样的通用计算机中实现。如在图中所示，该示例的系统包括传感器系统111(数据获取单元的示例)，传感器系统111用于从正在被观测的对象接收有关状态转变(即，观测到的行为)的信息。传感器系统111可以包括具有图像处理软件/硬件的图像捕获装置、位移传感器、速率传感器、加速度传感器、麦克风、键盘和任何其它输入装置中的一个或更多个。传感器系统111连接到具有处理器113连同合适存储器114的计算机112，使得可以根据本发明的实施方式来分析接收到的数据。分析结果被输出到诸如显示监视器、控制器、驱动器等(输出界面的示例)的任何输出系统115或在利用这些结果进行控制的情况下被控制的对象。可以使用该结果对另一个系统(诸如，另一个机器人或计算机、或响应于用户的交互的网站软件)编程或者被传递到另一个系统，如上所述。

在预测上述用户的网络文章偏好的情况下，所实现的系统可包括在与互联网连接的计算机中实现的如在以上实施方式中的任一个中描述的用于逆向强化学习的系统。这里，限定用户行为的状态变量包括在浏览每个网页的同时由用户选择的文章的主题。然后，使用逆向强化学习的结果来使得用户浏览互联网网站的界面(诸如，便携式智能电话、个人计算机等)为用户显示所推荐的文章。

本领域技术人员将清楚的是，可以在不脱离本发明的精神或范围的情况下，在本发明中进行各种修改和变形。因此，本发明旨在覆盖落入随附权利要求及其等同物的范围内的修改和变形。特别地，明确料想到，可以在本发明的范围内组合和考虑上述实施方式及其修改中的任两个或更多个中的任何部分或全部。

Claims

1.一种用于估计对象的行为的成本函数和价值函数的逆向强化学习的方法，所述方法包括：

获取表示限定所述对象的所述行为的状态变量的改变的数据；

将通过方程(1)给出的修改后的贝尔曼方程应用至所获取的数据：

q (x) + γ V (y) - V (x) = - l n \frac{π (y | x)}{p (y | x)}, - - - (1)

其中，q(x)和V(x)分别指代状态x下的成本函数和价值函数，并且γ表示贴现因子，并且p(y|x)和π(y|x)分别指代学习前和学习后的状态转变概率；

估计方程(1)中的密度比率π(y|x)/p(y|x)；

根据所估计的密度比率π(y|x)/p(y|x)，使用最小二乘法来估计方程(1)中的q(x)和V(x)；以及

输出所估计的q(x)和V(x)。

2.根据权利要求1所述的方法，其中，估计所述比率π(y|x)/p(y|x)的步骤包括使用uLSIF。

3.根据权利要求1所述的方法，其中，估计所述比率π(y|x)/p(y|x)的步骤包括使用最小二乘条件密度估计(LSCDE)。

4.根据权利要求1所述的方法，其中，估计所述比率π(y|x)/p(y|x)的步骤包括使用逻辑回归。

5.根据权利要求1所述的方法，其中，估计所述比率π(y|x)/p(y|x)的步骤包括使用高斯处理。

6.根据权利要求1所述的方法，其中，估计所述成本函数q(x)和价值函数V(x)的步骤包括使用经过正则化的最小二乘法。

7.一种非暂时性存储介质，所述非暂时性存储介质存储致使处理器执行用于估计对象的行为的成本函数和价值函数的逆向强化学习的算法的指令，所述指令致使所述处理器执行以下步骤：

q (x) + γ V (y) - V (x) = - l n \frac{π (y | x)}{p (y | x)}, - - - (1)

估计方程(1)中的密度比率π(y|x)/p(y|x)；

根据所估计的密度比率π(y|x)/p(y|x)，使用最小二乘法来估计方程(1)中的q(x)和V(x)；

输出所估计的q(x)和V(x)。

8.一种用于估计对象的行为的成本函数和价值函数的逆向强化学习的系统，所述系统包括：

数据获取单元，所述数据获取单元获取表示限定所述对象的所述行为的状态变量的改变的数据；

处理器，所述处理器具有存储器，所述处理器和所述存储器被配置成：

q (x) + γ V (y) - V (x) = - l n \frac{π (y | x)}{p (y | x)}, - - - (1)

估计方程(1)中的密度比率π(y|x)/p(y|x)；以及

输出界面，所述输出界面输出所估计的q(x)和V(x)。

9.一种用于预测用户很可能从所述用户在互联网网上冲浪时选择的一系列文章中阅读的文章主题的偏好的系统，所述系统包括：

根据权利要求8所述的用于逆向强化学习的系统，所述系统在连接到所述互联网的计算机中实现，

其中，所述对象是所述用户，并且限定所述对象的所述行为的所述状态变量包括由所述用户在浏览每个网页的同时选择的文章主题，以及

其中，所述处理器致使所述用户浏览互联网网站的界面显示根据所估计的成本函数和价值函数为所述用户推荐文章以进行阅读。