JP5562216B2

JP5562216B2 - 連続システムをマルコフ決定過程に変換するための方法

Info

Publication number: JP5562216B2
Application number: JP2010257949A
Authority: JP
Inventors: ダニエル・エヌ・ニコヴスキ
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2009-12-29
Filing date: 2010-11-18
Publication date: 2014-07-30
Anticipated expiration: 2030-11-18
Also published as: EP2341447A3; US8412649B2; JP2011138489A; US20110161258A1; CN102109820A; EP2341447A2

Description

本発明は、動的システムの最適な逐次制御に関し、より詳細には、連続状態空間を有する非線形動的システムを、離散状態空間を有するマルコフ決定過程（ＭＤＰ）に変換することに関する。

動的システムの動作は、通例、制御動作の影響を受けたシステムの状態の時間依存性及び展開を指定する一組の方程式によって記述される。どの所与の時刻においても、動的システムは、実数のベクトルによって与えられる状態を有する。この実数のベクトルは、適切な状態空間において表すことができる。動的システムの状態における小さな変化は、これらの実数における小さな変化に対応する。連続動的システムは、通例、一組の微分方程式に従って動作する。

本発明は、一組の離散制御動作によって制御される任意の遷移関数を有する連続状態空間における任意の非線形動的システムの自動制御及び自動スケジューリングに関係する。

例示的な動的システムには、ロボット、車両、熱換気空調（ＨＶＡＣ）システム、発電機、及び家庭用機器が含まれる。通常、これらのシステムは、モータによって動作される。モータは、例えばオン及びオフといった比較的少数の離散的な設定を有する。或いは、可能な設定の数は適度に制限することができ、例えば、サーモスタットを整数の温度にのみ設定することができる。

このようなシステムの状態は、通常、その動的システムの連続状態空間Ｘの実数値ベクトルｘである。集合Ａの制御動作ａは離散的である。制御システムのダイナミクスは、以下の一組の方程式によって記述することができる。
ｘ_ｋ＋１＝ｆ（ｘ_ｋ，ａ_ｋ）
ここで、ｘ_ｋは時刻ｔ_ｋにおけるシステムの状態であり、ａ_ｋは時刻ｔ_ｋにおいて適用される制御動作であり、ｆは任意の非線形遷移関数であり、システムは、選択された間隔Δｔについてｔ_ｋ＝ｋΔｔとなるような離散時間で展開する。動作シーケンスａ_０，ａ_１，ａ_２，…は、性能の指標が最適化されるように選択しなければならない。例えば、ＨＶＡＣシステムは、最小のエネルギー消費で、環境を所望の温度に徐々に持って行くことによって最適化することができる。

１つの性能指標は、Ｋ個のステップにわたる累積コストＪである。

ここで、ｇは、選択された動作コストであり、ｈは最終状態ｘ_Ｋに関連付けられた終端コストである。

任意の関数ｆ、ｇ、及びｈのこの最適化問題を解くための方法は存在せず、特別な場合の解決法のみが知られている。例えば、線形二次レギュレータ（ＬＱＲ）では、ａは実数であり、ｆは線形であり、ｇ及びｈは、状態ｘ及び制御ａにおいて二次である。しかしながら、一般的な場合に、関数ｆは線形ではなく、コスト関数ｇ及びｈは、その状態及び制御において二次ではない。このような場合、最適な制御は数値的方法によって見つけることができる。

時間的な動的システムの展開を記述する別の方法は、マルコフ決定過程（ＭＤＰ）として展開を表すことである。ＭＤＰは、４つの要素（Ｓ，Ａ，Ｒ，Ｐ）によって記述される。ここで、Ｓは、状態ｓの有限集合であり、Ａは動作ａの有限集合であり、Ｒは、Ｒ（ｓ，ａ）が、動作ａが状態ｓで行われた場合の報酬（個々にはコスト）を表すような報酬関数であり、Ｐはマルコフ遷移モデル（Markovian transition model）である。このマルコフ遷移モデルでは、Ｐ（ｓ’｜ｓ，ａ）は、動作ａが状態ｓで行われた場合に状態ｓ’で終了する確率を表する。

上記の場合と同様に、目標は、累積報酬Ｒ（ｓ，ａ）の点から定義される性能指標を最適化する動作シーケンスａ_０，ａ_１，ａ_２，…を見つけることである。このような最適な動作シーケンスを見つけるための方法は、任意の遷移モデルＰ（ｓ’｜ｓ，ａ）について存在する。

しかしながら、ＭＤＰと、連続状態空間動的システムを記述する一組の微分方程式との間の主な差異は、ＭＤＰの状態空間が離散的であるということである。すなわち、システムは、どの所与の時刻においても、限られた数の離散状態にのみ存在することができるということである。したがって、最適な制御シーケンスをＭＤＰ及び連続状態空間システムについて見つけることができるように、所与の連続状態空間動的システムを、離散状態空間を有するマルコフ決定過程（ＭＤＰ）に変換することが望まれている。

連続動的システムが、離散状態を有するマルコフ決定過程（ＭＤＰ）に変換される。連続システムの所定の数の連続状態が選択される。各連続状態は、ＭＤＰの１つの離散状態に対応する。

ドローネ三角形分割が連続状態に適用されて、一組の三角形が作成される。各三角形の頂点は連続状態を表す。

各離散状態について、次の離散状態ｙ＝ｆ（ｘ，ａ）が求められる。ｘは、その離散状態に対応する連続状態を表し、ａは制御動作であり、ｆは、連続状態の非線形遷移関数である。

次の離散状態ｙを含む特定の三角形が識別され、次の離散状態ｙは、その特定の三角形の頂点によって表された連続状態ｘに対応する離散状態に遷移する確率として表される。

本発明の実施形態による、動的システムをマルコフ決定過程に変換するための方法のブロック図である。本発明の実施形態による、連続状態を離散状態に変換するためのステップのブロック図である。本発明の実施形態による、選択された連続状態を表す三角形をトラバースするためのブロック図である。本発明の実施形態による、三角形分割された連続状態の概略図である。

図１に示すように、本発明の実施形態は、連続状態の集合Ｘ＝｛ｘ^ｉ｝１０１を有する非線形動的システムを、離散状態の集合Ｓ＝｛ｓ^（１），ｓ^（２），…，ｓ^（Ｎ）｝１０９を有するマルコフ決定過程（ＭＤＰ）に変換するための方法を提供する。離散状態の集合Ｓは、オリジナルのシステムの状態空間ＸからＮ個のサンプルを（ランダム又は系統的な順序に従って）取り出すことによって取得することができる。１つのサンプリング方法は、Ｘ全体にわたる一様ランダム分布からサンプルを取り出すことである。もう１つの方法は、Ｘ全体にわたる規則的なグリッドを使用することである。

制御動作ａ_ｋに起因して離散時間で現在の離散状態ｓ_ｋから次の状態ｓ_ｋ＋１へ遷移する確率は

である。この方法は、状態ｓ_ｋ＋１、ｓ_ｋがＳに存在するように、あらゆる３重項（ｓ_ｋ＋１，ｓ_ｋ，ａ_ｋ）の遷移確率ｐを構成する。次に、構成されたＭＤＰに対して、ポリシー反復又はポリシー値を使用して、あらゆる状態ｓ_ｋについて、状態ｓを最適な制御ａにマッピングする最適なポリシーａ＝π（ｓ_ｋ）を見つけることができる。

この構成方法は、条件付き確率関数及び凸結合の特性における類似点に基づいている。条件付き確率関数は、確率変数が或る指定された値に等しい確率を指定する。ＭＤＰの場合、遷移関数が、現在の状態及び制御動作を条件としたこのような確率関数となる。

この確率関数が指定される確率変数は、次の状態ｓ_ｋ＋１である。遷移関数の要素は、

である。

条件付き確率関数の公理的性質から、

となる。

他方、Ｎ個のベクトルｙ_ｉの凸結合は、

である。

したがって、条件付き確率関数及び凸結合は同じ制約を有する。すなわち、この関数の確率及びこの結合の係数は、すべて非負であり、合計すると１になる。条件付き確率関数の確率は、有効な凸結合の係数として使用することができ、その逆も同様である。したがって、ＭＤＰの遷移関数は、適切に定義された凸結合の係数の集合として構成することができる。

システム変換方法
図１〜図３に示すように、動的システムは、連続状態ｘ^（ｉ）の集合Ｘ１０１を有する。各状態は、ｄ次元ベクトルによって表すことができる。図４に示すように、例示的なＨＶＡＣシステムの状態ｘは、連続的に変化する温度４０１及び湿度４０２を含む。

本方法は、各状態ｘ^（ｉ）が集合ＳのＮ個の離散状態ｓ^（ｉ）の１つに対応するように、集合ＸからＮ個の連続状態ｘ^（ｉ）１１１を選択する（１１０）。この選択によって、連続状態空間を一様かつランダムにサンプリングすることができる。選択された状態は、ｄ×Ｎ行列Ｂ１１２に格納される。この行列Ｂ１１２において、各列は、選択された状態の１つである。

ドローネ三角形分割ＤＴ（Ｘ）をこの集合に適用する（１２０）。この三角形分割によって、Ｍ個の三角形ｍが作成される。これらの三角形は、行列Ｄ１２１に格納される。この行列Ｄ１２１において、各列は１つの三角形に対応し、３つの行はこれらの三角形の頂点に対応する。

シンプレックス
本明細書及び特許請求の範囲では一般に、各三角形は、より一般的な項であるシンプレックスに置き換えることができる。シンプレックスは、任意の次元ｄの状態空間Ｘにおいて三角形を一般化したものである。例えば、次元数ｄ＝２である場合、シンプレックス（又は三角形）における頂点の数はｄ＋１＝３であり、ｄ＝３の場合、シンプレックスは、ｄ＋１＝４個の頂点を有する四面体である。

状態ｓは、図２に示すように一度に１つの状態が変換される（２００）。各状態ｓ^（ｉ）２０３について、対応する状態ｘ^（ｉ）１１１及び制御ａ^（ｌ）２０２がリトリーブされ（２１０）、次の状態ｙ＝ｆ（ｘ^（ｉ），ａ^（ｌ））２０４を求める（２１０）のに使用される。ここで、ｆは、連続状態空間システムの展開を記述する任意の非線形関数である。図２は、或る動作ａについて、ｉ＝０及びｙ＝ｆ（ｘ^（０），ａ）である場合を示す。

一般に、次の状態ｙ２０４は、選択された状態ｘ^（ｉ）のいずれとも一致しない。次の状態ｙ２０４を含むＤＴ（Ｘ）の特定の三角形ｍ４１０は、図３について以下で説明するようにすべてのＭ個の三角形をトラバースすることによって突き止められる（３００）。

現在の三角形ｍについて、この三角形ｍの最後の頂点ｖ_{ｍ，ｄ＋１}がリトリーブされ、ベクトルｑに格納される（３１０）。ｄ×ｄ差分行列Ｅ３２１が構成される（３２０）。行列Ｅにおいて、列ｊは、ｊ＝１、ｄについて差分ｖ_{ｍ，ｊ−ｑ}を含む。一組の連立一次方程式を解くことによって、Ｅｃ＝（ｙ−ｑ）となるようなｄ次元ベクトルｃが求められる。

ベクトルｃの最後の要素ｃ_ｄ＋１３４１が、

として求められる（３４０）。

ｊ＝１…ｄ＋１のあらゆる要素ｃ_ｊについて、ｃ_ｊが負であるか否か、すなわちｃ_ｊ＜０であるか否かが確認される。真である場合、三角形ｍは状態ｙを含まず、ｍがインクリメントされ、次の三角形について繰り返される。

そうではなく、すべてのｃ_ｊが正である場合、三角形ｍは状態ｙを含む。ｄ＋１次元ベクトルｃは、ステップ２２０における

となるような有効な凸結合を定義する係数を含む。したがって、ベクトルｃは、そのエントリのすべてが非負であり、合計すると１になるので、有効な確率遷移関数を定義する。

すべての可能なＮ個の次の状態について完全な遷移確率分布を構成するために、以下のステップが、ｌ＝１…Ｎの各離散状態ｓ^（ｌ）について実行される。

状態ｓ^（ｌ）が三角形ｍの頂点の１つに対応する場合、すなわち、或るｊについてｘ^（ｌ）＝ｖ_ｍ，ｊである場合（２３０）、ＭＤＰの対応する遷移確率ｐ_ｌ４１１は、

であり、そうでない場合、ｐ_ｌ＝０である（２３２）。

概念的には、離散状態ｓ^（ｉ）の小さな集合のみを伴う確率的表現と等価な関数ｆによって表される動的システムは、動的システムの連続状態Ｘに組み込まれる。

システムがこれらの状態の１つで始動する場合、次の状態ｙは、一般に、これらの状態の別の１つと一致しない。三角形の頂点を定義するｄ＋１個の状態は、次の状態ｙを完全に取り囲む。すなわち、システムは、状態ｙでなく、さまざまな確率を有する対応する三角形の頂点に遷移している。

これらの確率は、（状態ｙを含む三角形の）頂点に関する状態ｙの凸分解に等しい。これらの確率は、取り囲む三角形の頂点に関する状態ｙの重心座標とみなすこともできる。これは、凸結合とＭＤＰの確率関数との間の類似点によって可能にされる。

処理時間を減らすために、行列Ｅの逆行列Ｅ^−１を、ドローネ三角形分割のあらゆる三角形について格納することができ、次いで、各反復で一組の一次方程式を解くのではなく、ステップ３３０においてこの逆行列を使用して、
ｃ＝Ｅ^−１（ｙ−ｑ）
を求めることができる。

ドローネ三角形分割の三角形のトラバースも改善することができる。次の状態ｙを取り囲む三角形が現在の状態の三角形の近くにあると予想することが妥当である。現在の状態と各三角形の重心との間の距離が予め求められている場合、ドローネ三角形分割の三角形は、距離の昇順でトラバースすることができる。

本発明を、好ましい実施形態の例として説明してきたが、本発明の精神及び範囲内で他のさまざまな適合及び変更を行えることが理解されるべきである。したがって、本発明の真の精神及び範囲内に入るすべての変形及び変更を包含することが、添付の特許請求の範囲の目的である。

Claims

連続システムをマルコフ決定過程（ＭＤＰ）に変換するための方法であって、前記連続システムは動的であり、前記ＭＤＰは離散状態を有し、該方法は、
前記連続システムの所定の数の連続状態を選択するステップであって、各連続状態は前記ＭＤＰの１つの離散状態に対応する、選択するステップと、
ドローネ三角形分割を前記連続状態に適用するステップであって、一組の三角形を作成し、各三角形の頂点は前記連続状態を表す、適用するステップと、
を含み、
各離散状態について、
次の離散状態ｙ＝ｆ（ｘ，ａ）を求めるステップであって、ｘはその離散状態に対応する前記連続状態を表し、ａは制御動作であり、ｆは前記連続状態の非線形遷移関数である、求めるステップと、
前記次の離散状態ｙを含む特定の三角形を識別するステップと、
前記次の離散状態ｙを、前記特定の三角形の前記頂点によって表された前記連続状態ｘに対応する前記離散状態に遷移する確率として表すステップと、
をさらに含み、
前記特定の三角形を識別するステップは、差分行列Ｅの列ｊが、ｊ＝１，・・・，ｄについて、三角形ｍのｊ番目の頂点ｖ_ｍ，ｊと該三角形ｍのｄ＋１番目の頂点ｑ＝ｖ_{ｍ，ｄ＋１}との間の差分ｖ_ｍ，ｊ−ｖ_{ｍ，ｄ＋１}を含むようなｄ×ｄ差分行列Ｅを形成し、ベクトルｃについて方程式Ｅｃ＝（ｙ−ｑ）の線形システムを解くことによって実行され、前記三角形ｍは、すべてｃ_ｊ＞０、ｊ＝１，・・・，ｄであり、かつ

である場合にｙを含むものとして識別され、
前記ステップは、プロセッサにおいて実行される、
方法。
前記ＭＤＰの前記離散状態は、前記連続システムの状態空間Ｘの一様ランダムサンプリングによって選択される、請求項１に記載の方法。
前記ＭＤＰの前記離散状態は、前記連続システムの状態空間Ｘに規則的なグリッドを使用することによって選択される、請求項１に記載の方法。
ｃ＝Ｅ^−１（ｙ−ｑ）として線形方程式を解くことができるように、前記行列Ｅの逆行列Ｅ^−１が事前に計算されて格納される、請求項１に記載の方法。
前記特定の三角形を識別するステップは、前記ドローネ三角形分割により作成された前記一組の三角形のすべてについて、前記頂点の重心から前記状態ｙまでの距離の昇順で移動していくことによって前記特定の三角形を突き止める、請求項１に記載の方法。
前記三角形はシンプレックスに一般化される、請求項１に記載の方法。