CN102109820A - 用于将连续系统转换成马尔可夫决策过程的方法 - Google Patents

用于将连续系统转换成马尔可夫决策过程的方法 Download PDF

Info

Publication number
CN102109820A
CN102109820A CN2010106031518A CN201010603151A CN102109820A CN 102109820 A CN102109820 A CN 102109820A CN 2010106031518 A CN2010106031518 A CN 2010106031518A CN 201010603151 A CN201010603151 A CN 201010603151A CN 102109820 A CN102109820 A CN 102109820A
Authority
CN
China
Prior art keywords
state
continuous
triangle
discrete
discrete state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010106031518A
Other languages
English (en)
Inventor
丹尼尔·N·尼科夫斯基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN102109820A publication Critical patent/CN102109820A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0205Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
    • G05B13/024Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • G06F17/13Differential equations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Air Conditioning Control Device (AREA)
  • Feedback Control In General (AREA)
  • Image Generation (AREA)

Abstract

本发明涉及用于将连续系统转换成马尔可夫决策过程的方法。连续动态系统被转换成具有离散状态的马尔可夫决策过程(MDP)。选择连续系统的预定个数的连续状态,其中各连续状态对应于MDP的一个离散状态。将德罗内三角剖分应用到连续状态,以制作一组三角形,其中各三角形的顶点代表连续状态。对于各离散状态,确定下一个离散状态y=f(x,a),其中x代表与离散状态相对应的连续状态,a是控制动作,并且f是用于连续状态的非线性转移函数。识别包含下一个离散状态y的特定三角形,并且下一个离散状态y被表示为转移到与由特定三角形的顶点代表的连续状态x相对应的离散状态的概率。

Description

用于将连续系统转换成马尔可夫决策过程的方法
技术领域
本发明涉及动态系统的最优顺序控制,更具体地涉及将具有连续状态空间的非线性动态系统转换成具有离散状态空间的马尔可夫决策过程(MDP)。
背景技术
通常通过指定在控制动作的影响下的系统状态的时间依赖性和展开的一组方程式来描述动态系统的工作。在任意给定时间,动态系统具有由实数矢量给定的状态,可以在合适的状态空间中表示该实数矢量。动态系统状态中的小变化对应于实数的小变化。连续的动态系统通常根据一组微分方程式工作。
本发明涉及在具有通过一组离散控制动作控制的任意转移函数的连续状态空间中的任意非线性动态系统的自动控制和自动调用。
示例性的动态系统包括机器人、车辆、加热及暖通空调(HVAC)系统、发电机和家用电器。通常地,这些系统由发动机来操作,发动机具有例如导通和断开的相对较少量的离散设置,或者可以合理地限制可能的设置个数,如仅在整数温度设置恒温器。
这样的系统的状态通常是动态系统的连续状态空间X中的实值矢量x。集合A的控制动作a是离散的。可以用下面的一组方程式描述控制系统的动态:
xk+1=f(xk,ak),
其中,xk是在时刻tk的系统状态,ak是在时刻tk应用的控制动作,f是任意的非线性转移函数,并且系统在离散时间展开,使得在所选间隔Δt,tk=kΔt。必须选择动作序列a0,a1,a2...,使得最优化性能的指标。例如,通过以最小的能量消耗将环境逐渐带入期望的温度可以最优化HVAC系统。
一个性能指标是K个步骤的累积成本J:
J = Σ k = 0 K g ( x k , a k ) + h ( x K ) ,
其中,g是所选操作成本,并且h是与最终状态xK关联的终端成本。
用于为任意函数f、g和h解决该最优化问题的方法是不存在的,仅知道了用于特殊情况的方案。例如,在线性二次型调节器(LQR)中,a是实数,f是线性的,并且g和h在状态x和控制a中是二次的。但是,在通常情况下,函数f不是线性的,并且成本函数g和h在状态和控制中不是二次的。在这样的情况下,通过数值方法可以找到最优控制。
描述时间的动态系统的展开的另一种方法是将其表示为马尔可夫决策过程(MDP)。通过四元组(S、A、R、P)来描述MDP,其中S是状态s的有限集合;A是动作a的有限集合;R是报酬函数,使得R(s,a)代表动作a在状态s中执行的报酬(分别地,成本);并且P是马尔可夫转移模型,其中P(s′|s,a)代表动作a在状态s中执行的情况下以状态s’结束的概率。
类似于上述情况,目标是找到最优化以累积报酬R(s,a)的角度所限定的性能指标的动作序列a0、a1、a2...。对于任意的转移模型P(s′|s,a)存在用于找到这样的最优动作序列的方法。
但是,MDP和描述连续状态空间动态系统的一组微分方程式之间的主要区别在于MDP的状态空间是离散的,即,该系统在任意给定时间仅可以处于有限个数的离散状态。因此,期望的是,将给定的连续状态空间动态系统转换成具有离散状态空间的马尔可夫决策过程(MDP),使得可以为MDP,并且为连续状态空间系统找到最优控制序列。
发明内容
连续动态系统被转换成具有离散状态的马尔可夫决策过程(MDP)。选择连续系统的预定个数的连续状态,其中各连续状态对应于MDP的一个离散状态。
将德罗内三角剖分(Delaunay triangulation)应用到连续状态,以制作一组三角形,其中各三角形的顶点代表连续状态。
对于各离散状态,确定下一个离散状态y=f(x,a),其中x代表与离散状态相对应的连续状态,a是控制动作,并且f是用于连续状态的非线性转移函数。
识别包含下一个离散状态y的特定三角形,并且下一个离散状态y被表示为转移到与由特定三角形的顶点代表的连续状态x相对应的离散状态的概率。
附图说明
图1是根据本发明的实施方式的用于将动态系统转换成马尔可夫决策过程的方法的框图;
图2是根据本发明的实施方式的用于将连续状态转换成离散状态的步骤的框图;
图3是根据本发明的实施方式的用于遍历(traversing)代表所选连续状态的三角形的框图;以及
图4是根据本发明的实施方式的被三角剖分的连续状态的示意图。
具体实施方式
如图1所示,本发明的实施方式提供一种用于将具有连续状态的集合X={xi}101的非线性动态系统转换成具有离散状态的集合S={s(1),s(2),...,s(N)}109的马尔可夫决策过程(MDP)的方法。可以通过从原始系统X的状态空间(随机或遵循系统顺序地)取出N个样本来获得离散状态的集合S。一种采样方法是在X之上从均匀的随机分布取出样本。另一种方法是使用X之上的规则网格。
由于控制动作ak在离散时间从当前的离散状态Sk转移成下一状态Sk+1的概率是p(Sk+1|S k ,ak)。该方法构成用于每个三元组(sk+1,sk,ak)的转移概率,使得状态Sk+1和Sk在S中。对于所构成的MDP,使用策略迭代或值,对于每个状态Sk,可以找到最优策略a=π(sk),该最优策略将状态s映射到最优控制a上。
构成方法基于条件概率质量函数和凸组合的特性的相似性。条件概率质量函数指定随机变量等于某一指定值的概率。对于MDP,转移函数是以当前状态和控制动作为条件的概率函数。
指定概率函数的随机变量是下一状态Sk+1。转移函数的要素是:
p i = · Pr ( s k + 1 = s ( i ) | s k , a k ) = p ( s ( i ) | s k , a k ) .
根据条件概率质量函数的公理特性,
Σ i = 1 N p i = 1 并且
pi≥0,i=1,N。
另一方面,N个矢量yi的凸组合是
Σ i = 1 N c i = 1 并且
ci≥0,i=1,N。
因此,条件概率质量函数和凸组合具有相同的约束,即,函数的概率和组合的系数都是非负的,并且加合为1。条件概率质量函数的概率可以用作有效凸组合的系数,反之亦然。因此,MDP的转移函数可以被构造为用于适当限定的凸组合的系数集合。
系统转换方法
如图1-3所示,动态系统具有连续状态x(i)的集合X101。通过d维矢量来表示各状态。如图4所示,用于示例性HVAC系统的状态x包括连续变化的温度401和湿度402。
方法从集合X选择(110)N个连续状态x(i)111,使得各状态x(i)对应于集合S中N个离散状态s(i)中的一个。选择可以均匀地并且随机地对连续的状态空间进行采样。在d×N矩阵B112中存储所选状态,其中各列是一个所选状态。
德罗内三角剖分DT(X)应用到该集合(120)。三角剖分制作M个三角形m。以矩阵D121存储三角形,其中各列对应于一个三角形,并且三个行对应于三角形的顶点。
单形
通常地,在说明书和权利要求书中,各三角形可以用更一般的术语单形来代替,其是任意维d的状态空间X中三角形的概括。例如,如果维数d=2,则单形(或三角形)中的顶点数是d+1=3,并且对于d=3,单形是具有d+1=4个顶点的四面体。
如图2所示,状态s一次转换一个状态(200)。对于各状态s(i)203,检索对应的状态x(i)111和控制a(l)202(210),并且对应的状态x(i)111和控制a(l)202用于确定下一个状态y=f(x(i),a(l))204(210),其中f是描述连续状态空间系统的展开的任意非线性函数。图2示出了对于某个动作a,i=0并且y=f(x(0),a)的情况。
通常地,下一个状态y 204不与任意所选状态x(i)一致。如图3中在下面所描述的,通过遍历所有M个三角形来定位包含下一个状态y 204的DT(X)中的特定三角形m410(300)。
对于当前三角形m,检索三角形m的最后顶点vm,d+1,并且存储在矢量q中(310)。构造d×d差分矩阵E321(320)。在矩阵E中,对于j=1、d,列j包含差分vm,j-q。确定d维矢量c,使得通过求解一组联立线性方程,Ec=(y-q)。
确定矢量c的最终要素cd+1 341是 c d + 1 = 1 - Σ j = 1 D c j .
对于每个要素cj,j=1...d+1,测试cj是否为负,即,cj,<0。如果是真实的,则三角形m不包含状态y,增加m并且为下一个三角形进行重复。
以其它方式,如果所有的cj,都是正的,则三角形m包含状态y。d+1维矢量c包含限定有效凸组合的系数,使得在步骤220,
Figure BDA0000040215840000052
因此,矢量c限定有效概率转移函数,因为其所有的数列值都是非负的并且加合为1。
为了为所有可能的N个下一个状态构成完整的转移概率分布,为l=1...N的各离散状态s(l)执行下面的步骤。
如果状态s(l)对应于三角形m的多个顶点中的一个顶点,即,对于某一j,x(l)=vm,j(230),则MDP的对应的转移概率pl 411是
p l = Pr ( s k + 1 = s ( l ) | s k , = s ( i ) a k ) | s k , a k ) = · c j 231 , 并且
以其它方式,pl=0232。
概念地,由与仅涉及离散状态s(i)的小集合的概率表现等同的函数f所代表的动态系统被嵌入在动态系统的连续状态X中。
如果以这些状态中的一个状态启动系统,则下一个状态y通常将不与这些状态中的另一个状态一致。限定三角形的顶点的d+1状态完全包含下一个状态y。即,系统已经不转移到状态y,而转移到具有各种概率的对应三角形的顶点。
概率等于相对于(含有状态y的三角形的)顶点的状态y的凸分解。这些概率也可以被看作是相对于包含三角形的顶点的状态y的重心坐标。通过凸组合和MDP的概率质量函数之间的相似性使得上述一点成为可能。
为了缩短处理时间,可以为德罗内三角剖分中的每个三角形存储矩阵E的逆矩阵E-1,然后矩阵E的逆矩阵E-1用于步骤330中以确定
c=E-1(y-q),
而不是反复求解一组线性方程式。
还可以改善德罗内三角剖分的三角形遍历。合理的是,期望包含下一个状态y的三角形接近用于当前状态的三角形。如果预定了当前状态和各三角形的重心之间的距离,则以距离的升序可以遍历德罗内三角剖分的三角形。
尽管以优选实施方式的示例的方式已经描述了本发明,将理解的是,可以在本发明的精神和范围之内做出各种其它改变和修改例。因此,所附权利要求书的目的是覆盖所有落入本发明的真的精神和范围之内的这样的变化和修改例。

Claims (7)

1.一种用于将连续系统转换成马尔可夫决策过程MDP的方法,其中所述连续系统是动态的并且所述MDP具有离散状态,所述方法包括以下步骤:
选择(110)所述连续系统的预定个数的连续状态,其中各连续状态对应于所述MDP的一个离散状态;以及
将德罗内三角剖分应用(120)到所述连续状态,以生成一组三角形,其中各三角形的顶点代表所述连续状态,并且对于各离散状态还包括以下步骤:
确定(210)下一个离散状态y=f(x,a),其中x代表与所述离散状态相对应的所述连续状态,a是控制动作,并且f是所述连续状态的非线性转移函数;
识别(300)含有所述下一个离散状态y的特定三角形(410);以及
将所述下一个离散状态y表示(230、231、232)为转移到与由所述特定三角形(410)的所述顶点所代表的所述连续状态x相对应的所述离散状态的概率,其中在处理器中执行上述步骤。
2.根据权利要求1所述的方法,其中通过对所述连续系统的状态空间X进行均匀随机采样来选择所述MDP的所述离散状态。
3.根据权利要求1所述的方法,其中通过将规则网格施加到所述连续系统的状态空间X上来选择所述MDP的所述离散状态。
4.根据权利要求1所述的方法,其中通过形成d×d差分矩阵E,使得对于j=1...d,差分矩阵E的列j含有三角形m的第j个顶点vm,j和三角形m的第d+1个顶点q=vm,d+1之间的差分vm,j-vm,d+1,并且对于矢量c求解方程式Ec=(y-q)的线性系统,来执行识别所述特定三角形的步骤,并且其中如果所有cj>0,j=1,d,并且
Figure FDA0000040215830000011
Figure FDA0000040215830000012
则所述三角形m被识别为含有y。
5.根据权利要求4所述的方法,其中预先计算并且存储所述矩阵E的逆矩阵E-1,使得可以作为c=E-1(y-q)而求解所述线性方程。
6.根据权利要求4所述的方法,其中按照从所述顶点的重心到所述状态y的距离的升序遍历所述德罗内三角剖分中的所述三角形。
7.根据权利要求1所述的方法,其中所述三角形被一般化为单形。
CN2010106031518A 2009-12-29 2010-12-23 用于将连续系统转换成马尔可夫决策过程的方法 Pending CN102109820A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/649,244 US8412649B2 (en) 2009-12-29 2009-12-29 Method for converting dynamical systems with continuous states into Markov decision processes with discrete states
US12/649,244 2009-12-29

Publications (1)

Publication Number Publication Date
CN102109820A true CN102109820A (zh) 2011-06-29

Family

ID=43902618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010106031518A Pending CN102109820A (zh) 2009-12-29 2010-12-23 用于将连续系统转换成马尔可夫决策过程的方法

Country Status (4)

Country Link
US (1) US8412649B2 (zh)
EP (1) EP2341447A3 (zh)
JP (1) JP5562216B2 (zh)
CN (1) CN102109820A (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5868104B2 (ja) * 2011-09-30 2016-02-24 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 周期性を有するマルコフ決定過程を用いて最適施策を決定する方法、装置及びコンピュータプログラム
US8938348B2 (en) * 2011-12-13 2015-01-20 Mitsubishi Electric Research Laboratories, Inc. Method for optimizing run curve of vehicles
JP6451152B2 (ja) * 2014-09-03 2019-01-16 株式会社国際電気通信基礎技術研究所 駆動システム
CN111008238B (zh) * 2019-11-15 2023-10-10 武汉楚誉科技股份有限公司 基于关联演化大数据的关键模式自动定位与预警方法
CN111031613B (zh) * 2019-11-20 2022-04-19 南京理工大学 一种复杂对流环境下的功率器件主动热控制方法
CN115017720A (zh) * 2022-06-22 2022-09-06 东南大学 一种基于巢式动态离散选择的出行活动链生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI113410B (fi) * 2002-05-31 2004-04-15 Ekahau Oy Probabilistinen malli paikannustekniikkaa varten

Also Published As

Publication number Publication date
JP2011138489A (ja) 2011-07-14
EP2341447A3 (en) 2013-01-30
JP5562216B2 (ja) 2014-07-30
EP2341447A2 (en) 2011-07-06
US20110161258A1 (en) 2011-06-30
US8412649B2 (en) 2013-04-02

Similar Documents

Publication Publication Date Title
US10956842B2 (en) Central plant with asset allocator
CN102109820A (zh) 用于将连续系统转换成马尔可夫决策过程的方法
Shu et al. Optimal operation strategy of energy storage system for grid-connected wind power plants
US10955800B2 (en) Central plant control system, method, and controller with multi-level granular and non-granular asset allocation
Nürnberg et al. A two-stage planning model for power scheduling in a hydro-thermal system under uncertainty
US20210158975A1 (en) Building control system with smart edge devices having embedded model predictive control
González-Vidal et al. Towards energy efficiency smart buildings models based on intelligent data analytics
Mohammadi et al. Optimal scheduling of energy hubs in the presence of uncertainty-a review
Gallego-Castillo et al. On-line quantile regression in the RKHS (Reproducing Kernel Hilbert Space) for operational probabilistic forecasting of wind power
Liu et al. Evaluation of reinforcement learning for optimal control of building active and passive thermal storage inventory
WO2018122392A1 (en) State of charge estimation of energy storage systems
Sanaye et al. A novel energy management method based on Deep Q Network algorithm for low operating cost of an integrated hybrid system
CN112966883A (zh) 综合能源系统运行优化方法及终端设备
Guo et al. Distributed optimal energy scheduling based on a novel PD pricing strategy in smart grid
US20110295585A1 (en) Optimal self-maintained energy management system and use
Chen et al. Reinforcement learning based two‐timescale energy management for energy hub
Sarkar et al. Concurrent carbon footprint reduction (c2fr) reinforcement learning approach for sustainable data center digital twin
CN112052987B (zh) 一种计及风电的综合能源系统优化规划方法及系统
US20150097531A1 (en) System and method for controlling networked, grid-level energy storage devices
Zavala et al. Computational and economic limitations of dispatch operations in the next-generation power grid
Standardi et al. Computational efficiency of economic MPC for power systems operation
Adika et al. Short term energy consumption prediction using bio-inspired fuzzy systems
Wu et al. Robust day‐ahead dispatch of CAES for mitigating fluctuation of net load in the distribution network
CN113988578A (zh) 计及可靠性的微电网群源网荷储协同优化调度方法及系统
Mast et al. A computational intelligence based approach for optimized operation scheduling of energy plants

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110629