CN102109820A

CN102109820A - 用于将连续系统转换成马尔可夫决策过程的方法

Info

Publication number: CN102109820A
Application number: CN2010106031518A
Authority: CN
Inventors: 丹尼尔·N·尼科夫斯基
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2009-12-29
Filing date: 2010-12-23
Publication date: 2011-06-29
Also published as: JP2011138489A; EP2341447A3; JP5562216B2; EP2341447A2; US20110161258A1; US8412649B2

Abstract

本发明涉及用于将连续系统转换成马尔可夫决策过程的方法。连续动态系统被转换成具有离散状态的马尔可夫决策过程(MDP)。选择连续系统的预定个数的连续状态，其中各连续状态对应于MDP的一个离散状态。将德罗内三角剖分应用到连续状态，以制作一组三角形，其中各三角形的顶点代表连续状态。对于各离散状态，确定下一个离散状态y＝f(x，a)，其中x代表与离散状态相对应的连续状态，a是控制动作，并且f是用于连续状态的非线性转移函数。识别包含下一个离散状态y的特定三角形，并且下一个离散状态y被表示为转移到与由特定三角形的顶点代表的连续状态x相对应的离散状态的概率。

Description

用于将连续系统转换成马尔可夫决策过程的方法

技术领域

本发明涉及动态系统的最优顺序控制，更具体地涉及将具有连续状态空间的非线性动态系统转换成具有离散状态空间的马尔可夫决策过程(MDP)。

背景技术

通常通过指定在控制动作的影响下的系统状态的时间依赖性和展开的一组方程式来描述动态系统的工作。在任意给定时间，动态系统具有由实数矢量给定的状态，可以在合适的状态空间中表示该实数矢量。动态系统状态中的小变化对应于实数的小变化。连续的动态系统通常根据一组微分方程式工作。

本发明涉及在具有通过一组离散控制动作控制的任意转移函数的连续状态空间中的任意非线性动态系统的自动控制和自动调用。

示例性的动态系统包括机器人、车辆、加热及暖通空调(HVAC)系统、发电机和家用电器。通常地，这些系统由发动机来操作，发动机具有例如导通和断开的相对较少量的离散设置，或者可以合理地限制可能的设置个数，如仅在整数温度设置恒温器。

这样的系统的状态通常是动态系统的连续状态空间X中的实值矢量x。集合A的控制动作a是离散的。可以用下面的一组方程式描述控制系统的动态：

x_k+1＝f(x_k，a_k)，

其中，x_k是在时刻t_k的系统状态，a_k是在时刻t_k应用的控制动作，f是任意的非线性转移函数，并且系统在离散时间展开，使得在所选间隔Δt，t_k＝kΔt。必须选择动作序列a₀，a₁，a₂...，使得最优化性能的指标。例如，通过以最小的能量消耗将环境逐渐带入期望的温度可以最优化HVAC系统。

一个性能指标是K个步骤的累积成本J：

J = Σ_{k = 0}^{K} g (x_{k}, a_{k}) + h (x_{K}),

其中，g是所选操作成本，并且h是与最终状态x_K关联的终端成本。

用于为任意函数f、g和h解决该最优化问题的方法是不存在的，仅知道了用于特殊情况的方案。例如，在线性二次型调节器(LQR)中，a是实数，f是线性的，并且g和h在状态x和控制a中是二次的。但是，在通常情况下，函数f不是线性的，并且成本函数g和h在状态和控制中不是二次的。在这样的情况下，通过数值方法可以找到最优控制。

描述时间的动态系统的展开的另一种方法是将其表示为马尔可夫决策过程(MDP)。通过四元组(S、A、R、P)来描述MDP，其中S是状态s的有限集合；A是动作a的有限集合；R是报酬函数，使得R(s，a)代表动作a在状态s中执行的报酬(分别地，成本)；并且P是马尔可夫转移模型，其中P(s′|s，a)代表动作a在状态s中执行的情况下以状态s’结束的概率。

类似于上述情况，目标是找到最优化以累积报酬R(s，a)的角度所限定的性能指标的动作序列a0、a1、a2...。对于任意的转移模型P(s′|s，a)存在用于找到这样的最优动作序列的方法。

但是，MDP和描述连续状态空间动态系统的一组微分方程式之间的主要区别在于MDP的状态空间是离散的，即，该系统在任意给定时间仅可以处于有限个数的离散状态。因此，期望的是，将给定的连续状态空间动态系统转换成具有离散状态空间的马尔可夫决策过程(MDP)，使得可以为MDP，并且为连续状态空间系统找到最优控制序列。

发明内容

连续动态系统被转换成具有离散状态的马尔可夫决策过程(MDP)。选择连续系统的预定个数的连续状态，其中各连续状态对应于MDP的一个离散状态。

将德罗内三角剖分(Delaunay triangulation)应用到连续状态，以制作一组三角形，其中各三角形的顶点代表连续状态。

对于各离散状态，确定下一个离散状态y＝f(x，a)，其中x代表与离散状态相对应的连续状态，a是控制动作，并且f是用于连续状态的非线性转移函数。

识别包含下一个离散状态y的特定三角形，并且下一个离散状态y被表示为转移到与由特定三角形的顶点代表的连续状态x相对应的离散状态的概率。

附图说明

图1是根据本发明的实施方式的用于将动态系统转换成马尔可夫决策过程的方法的框图；

图2是根据本发明的实施方式的用于将连续状态转换成离散状态的步骤的框图；

图3是根据本发明的实施方式的用于遍历(traversing)代表所选连续状态的三角形的框图；以及

图4是根据本发明的实施方式的被三角剖分的连续状态的示意图。

具体实施方式

如图1所示，本发明的实施方式提供一种用于将具有连续状态的集合X＝{xⁱ}101的非线性动态系统转换成具有离散状态的集合S＝{s⁽¹⁾，s⁽²⁾，...，s^(N)}109的马尔可夫决策过程(MDP)的方法。可以通过从原始系统X的状态空间(随机或遵循系统顺序地)取出N个样本来获得离散状态的集合S。一种采样方法是在X之上从均匀的随机分布取出样本。另一种方法是使用X之上的规则网格。

由于控制动作a_k在离散时间从当前的离散状态S_k转移成下一状态S_k+1的概率是p(S_k+1|S _k，a_k)。该方法构成用于每个三元组(s_k+1，s_k，a_k)的转移概率，使得状态S_k+1和S_k在S中。对于所构成的MDP，使用策略迭代或值，对于每个状态S_k，可以找到最优策略a＝π(s_k)，该最优策略将状态s映射到最优控制a上。

构成方法基于条件概率质量函数和凸组合的特性的相似性。条件概率质量函数指定随机变量等于某一指定值的概率。对于MDP，转移函数是以当前状态和控制动作为条件的概率函数。

指定概率函数的随机变量是下一状态S_k+1。转移函数的要素是：

p_{i} \overset{\cdot}{=} \Pr (s_{k + 1} = s^{(i)} | s_{k}, a_{k}) = p (s^{(i)} | s_{k}, a_{k}) .

根据条件概率质量函数的公理特性，

Σ_{i = 1}^{N} p_{i} = 1

并且

p_i≥0，i＝1，N。

另一方面，N个矢量y_i的凸组合是

Σ_{i = 1}^{N} c_{i} = 1

并且

c_i≥0，i＝1，N。

因此，条件概率质量函数和凸组合具有相同的约束，即，函数的概率和组合的系数都是非负的，并且加合为1。条件概率质量函数的概率可以用作有效凸组合的系数，反之亦然。因此，MDP的转移函数可以被构造为用于适当限定的凸组合的系数集合。

系统转换方法

如图1-3所示，动态系统具有连续状态x⁽ⁱ⁾的集合X101。通过d维矢量来表示各状态。如图4所示，用于示例性HVAC系统的状态x包括连续变化的温度401和湿度402。

方法从集合X选择(110)N个连续状态x⁽ⁱ⁾111，使得各状态x⁽ⁱ⁾对应于集合S中N个离散状态s⁽ⁱ⁾中的一个。选择可以均匀地并且随机地对连续的状态空间进行采样。在d×N矩阵B112中存储所选状态，其中各列是一个所选状态。

德罗内三角剖分DT(X)应用到该集合(120)。三角剖分制作M个三角形m。以矩阵D121存储三角形，其中各列对应于一个三角形，并且三个行对应于三角形的顶点。

单形

通常地，在说明书和权利要求书中，各三角形可以用更一般的术语单形来代替，其是任意维d的状态空间X中三角形的概括。例如，如果维数d＝2，则单形(或三角形)中的顶点数是d+1＝3，并且对于d＝3，单形是具有d+1＝4个顶点的四面体。

如图2所示，状态s一次转换一个状态(200)。对于各状态s⁽ⁱ⁾203，检索对应的状态x⁽ⁱ⁾111和控制a^(l)202(210)，并且对应的状态x⁽ⁱ⁾111和控制a^(l)202用于确定下一个状态y＝f(x⁽ⁱ⁾，a^(l))204(210)，其中f是描述连续状态空间系统的展开的任意非线性函数。图2示出了对于某个动作a，i＝0并且y＝f(x⁽⁰⁾，a)的情况。

通常地，下一个状态y 204不与任意所选状态x⁽ⁱ⁾一致。如图3中在下面所描述的，通过遍历所有M个三角形来定位包含下一个状态y 204的DT(X)中的特定三角形m410(300)。

对于当前三角形m，检索三角形m的最后顶点v_m，d+1，并且存储在矢量q中(310)。构造d×d差分矩阵E321(320)。在矩阵E中，对于j＝1、d，列j包含差分v_m，j-q。确定d维矢量c，使得通过求解一组联立线性方程，Ec＝(y-q)。

确定矢量c的最终要素c_d+1 341是

c_{d + 1} = 1 - Σ_{j = 1}^{D} c_{j} .

对于每个要素c_j，j＝1...d+1，测试c_j是否为负，即，c_j，＜0。如果是真实的，则三角形m不包含状态y，增加m并且为下一个三角形进行重复。

以其它方式，如果所有的c_j，都是正的，则三角形m包含状态y。d+1维矢量c包含限定有效凸组合的系数，使得在步骤220，

因此，矢量c限定有效概率转移函数，因为其所有的数列值都是非负的并且加合为1。

为了为所有可能的N个下一个状态构成完整的转移概率分布，为l＝1...N的各离散状态s^(l)执行下面的步骤。

如果状态s^(l)对应于三角形m的多个顶点中的一个顶点，即，对于某一j，x^(l)＝v_m，j(230)，则MDP的对应的转移概率p_l 411是

p_{l} = \Pr (s_{k + 1} = s^{(l)} | s_{k}, = s^{(i)} a_{k}) | s_{k}, a_{k}) \overset{\cdot}{=} c_{j} 231,

并且

以其它方式，p_l＝0232。

概念地，由与仅涉及离散状态s⁽ⁱ⁾的小集合的概率表现等同的函数f所代表的动态系统被嵌入在动态系统的连续状态X中。

如果以这些状态中的一个状态启动系统，则下一个状态y通常将不与这些状态中的另一个状态一致。限定三角形的顶点的d+1状态完全包含下一个状态y。即，系统已经不转移到状态y，而转移到具有各种概率的对应三角形的顶点。

概率等于相对于(含有状态y的三角形的)顶点的状态y的凸分解。这些概率也可以被看作是相对于包含三角形的顶点的状态y的重心坐标。通过凸组合和MDP的概率质量函数之间的相似性使得上述一点成为可能。

为了缩短处理时间，可以为德罗内三角剖分中的每个三角形存储矩阵E的逆矩阵E^-1，然后矩阵E的逆矩阵E^-1用于步骤330中以确定

c＝E^-1(y-q)，

而不是反复求解一组线性方程式。

还可以改善德罗内三角剖分的三角形遍历。合理的是，期望包含下一个状态y的三角形接近用于当前状态的三角形。如果预定了当前状态和各三角形的重心之间的距离，则以距离的升序可以遍历德罗内三角剖分的三角形。

尽管以优选实施方式的示例的方式已经描述了本发明，将理解的是，可以在本发明的精神和范围之内做出各种其它改变和修改例。因此，所附权利要求书的目的是覆盖所有落入本发明的真的精神和范围之内的这样的变化和修改例。

Claims

1.一种用于将连续系统转换成马尔可夫决策过程MDP的方法，其中所述连续系统是动态的并且所述MDP具有离散状态，所述方法包括以下步骤：

选择(110)所述连续系统的预定个数的连续状态，其中各连续状态对应于所述MDP的一个离散状态；以及

将德罗内三角剖分应用(120)到所述连续状态，以生成一组三角形，其中各三角形的顶点代表所述连续状态，并且对于各离散状态还包括以下步骤：

确定(210)下一个离散状态y＝f(x，a)，其中x代表与所述离散状态相对应的所述连续状态，a是控制动作，并且f是所述连续状态的非线性转移函数；

识别(300)含有所述下一个离散状态y的特定三角形(410)；以及

将所述下一个离散状态y表示(230、231、232)为转移到与由所述特定三角形(410)的所述顶点所代表的所述连续状态x相对应的所述离散状态的概率，其中在处理器中执行上述步骤。

2.根据权利要求1所述的方法，其中通过对所述连续系统的状态空间X进行均匀随机采样来选择所述MDP的所述离散状态。

3.根据权利要求1所述的方法，其中通过将规则网格施加到所述连续系统的状态空间X上来选择所述MDP的所述离散状态。

4.根据权利要求1所述的方法，其中通过形成d×d差分矩阵E，使得对于j＝1...d，差分矩阵E的列j含有三角形m的第j个顶点v_m，j和三角形m的第d+1个顶点q＝v_m，d+1之间的差分v_m，j-v_m，d+1，并且对于矢量c求解方程式Ec＝(y-q)的线性系统，来执行识别所述特定三角形的步骤，并且其中如果所有c_j＞0，j＝1，d，并且

则所述三角形m被识别为含有y。

5.根据权利要求4所述的方法，其中预先计算并且存储所述矩阵E的逆矩阵E^-1，使得可以作为c＝E^-1(y-q)而求解所述线性方程。

6.根据权利要求4所述的方法，其中按照从所述顶点的重心到所述状态y的距离的升序遍历所述德罗内三角剖分中的所述三角形。

7.根据权利要求1所述的方法，其中所述三角形被一般化为单形。