JP5868104B2 - 周期性を有するマルコフ決定過程を用いて最適施策を決定する方法、装置及びコンピュータプログラム - Google Patents

周期性を有するマルコフ決定過程を用いて最適施策を決定する方法、装置及びコンピュータプログラム Download PDF

Info

Publication number
JP5868104B2
JP5868104B2 JP2011218556A JP2011218556A JP5868104B2 JP 5868104 B2 JP5868104 B2 JP 5868104B2 JP 2011218556 A JP2011218556 A JP 2011218556A JP 2011218556 A JP2011218556 A JP 2011218556A JP 5868104 B2 JP5868104 B2 JP 5868104B2
Authority
JP
Japan
Prior art keywords
subspace
cost
value
selection
partial space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011218556A
Other languages
English (en)
Other versions
JP2013080280A (ja
Inventor
貴行 恐神
貴行 恐神
ルディー・レイモンド・ハリー・プテラ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2011218556A priority Critical patent/JP5868104B2/ja
Priority to US13/586,385 priority patent/US9135563B2/en
Priority to US13/589,407 priority patent/US9135564B2/en
Publication of JP2013080280A publication Critical patent/JP2013080280A/ja
Application granted granted Critical
Publication of JP5868104B2 publication Critical patent/JP5868104B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Description

本発明は、周期性を有するマルコフ決定過程を用いて、演算処理負荷を軽減しつつ平均コストが最小となる最適施策を決定する方法、装置及びコンピュータプログラムに関する。
いわゆる「マルコフ決定過程」として定式化されている制御問題を解く方法は、ロボット、プラント、鉄道等の自律的制御問題を解決する手段として、様々な分野に適用することが可能な技術の1つである。「マルコフ決定過程」では、解決対象となる事象の時間に依存する状態遷移の制御問題を、理想とする状態遷移からの距離(コスト)を評価基準として解く。
例えば特許文献1では、発電装置、蓄電装置、電気機器、電力ルータ他等で構成されるミニマル・クラスターのような発電、電力消費拠点において自動的な電力融通を担う電力取引管理システムが開示されており、マルコフ決定過程を用いて最適な取引施策を求めている。また、特許文献2では、被制御機器が状態遷移確率分布に従って次の状態へ遷移するマルコフ決定過程を用いた適応型制御器が開示されており、制御器を確率的制御器とすることにより、期待累積コストを計算する動的計画法、直接方策を探索する網羅的探索法等における計算量の削減を図っている。
また、マルコフ決定過程を用いて最適施策を求める方法としては、価値反復(Value Iteration)、施策反復(Policy Iteration)、非特許文献1に開示されている、いわゆる線形計画等がある。また、マルコフ決定過程が特殊な構造を有する場合には、非特許文献2に開示されているように、特殊な構造自体を利用して最適施策を効率的に求めている。
特開2011−022902号公報 特開2005−084834号公報
エム・エル・パターマン、マルコフ決定過程:ディスクリート ストカステック ダイナミック プログラミング、ウィリー、2005年(M.L.Puterman,Markov Decision Processes:Discrete Stochastic Dynamic Programming,Wiley,2005) ジェイ・ランバート、ビー・ファン・フート、シー・ブロンディア、「ア ポリシー イタレーション アルゴリズム フォー マルコフ デシジョン プロセスイズ スキップフリー イン ワン ディレクション」、エスエムシーツールス、2007年(J.Lambert,B.Van Houdt, and C.Blondia,"A policy iteration algorithm for Markov decision processes skip−free in one direction",SMCtools,2007)
しかし、価値反復(Value Iteration)、施策反復(Policy Iteration)、線形計画等の方法では、解くことが可能な問題の規模が極めて限定的であり、一般的な問題に適用することは困難であるという問題点があった。また、非特許文献2に開示されている特殊な構造を利用する方法であっても、逆行列を算出する処理が煩雑であり、適用することが可能な問題の規模に制約があるという問題点もあった。
本発明は斯かる事情に鑑みてなされたものであり、マルコフ決定過程が周期性を有する場合に、既存の計算方法よりも効率的に最適施策を決定する方法、装置及びコンピュータプログラムを提供することを目的とする。
上記目的を達成するために第1発明に係る方法は、少なくとも一の状態を有するT(Tは自然数)個の部分空間が周期構造を有するマルコフ決定過程を用いて最適施策を決定する装置のコンピュータで実行する方法であって、前記コンピュータが、状態空間の一部である部分空間を特定する工程と、特定された部分空間のうち、t(tは自然数、t≦T)番目の部分空間の選択を受け付ける工程と、選択を受け付けたt番目の部分空間における一又は複数の状態から一周期後のt番目の部分空間における一又は複数の状態に到達する確率とコストの期待値とを算出する工程と、算出したt番目の部分空間における確率とコストの期待値とに基づいて、(t−1)番目の部分空間における価値とコストの期待値とを算出し、以下、tを順次1までデクリメントし、次にtをTから順次デクリメントして(t+1)になるまで、すべてのtについて(t−1)番目の部分空間における価値とコストの期待値とを再帰的に算出する工程とを含む。
また、第2発明に係る方法は、第1発明において、前記コンピュータが、T個の部分空間のうちt番目の部分空間として、最も状態数が少ない部分空間の選択を受け付ける。
また、第3発明に係る方法は、第1又は第2発明において、前記コンピュータが、t番目の部分空間における一又は複数の状態の価値及びコストの期待値の平均値を算出する。
また、第4発明に係る方法は、第1乃至第3発明のいずれか1つにおいて、前記コンピュータが、T個の部分空間それぞれに対して価値変数を算出し、マルコフ決定過程を最適化する。
次に、上記目的を達成するために第5発明に係る装置は、少なくとも一の状態を有するT(Tは自然数)個の部分空間が周期構造を有するマルコフ決定過程を用いて最適施策を決定する装置であって、状態空間の一部である部分空間を特定する部分空間特定部と、特定された部分空間のうち、t(tは自然数、t≦T)番目の部分空間の選択を受け付ける選択受付部と、選択を受け付けたt番目の部分空間における一又は複数の状態から一周期後のt番目の部分空間における一又は複数の状態に到達する確率とコストの期待値とを算出する確率・コスト算出部と、算出したt番目の部分空間における確率とコストの期待値とに基づいて、(t−1)番目の部分空間における価値とコストの期待値とを算出し、以下、tを順次1までデクリメントし、次にtをTから順次デクリメントして(t+1)になるまで、すべてのtについて(t−1)番目の部分空間における価値とコストの期待値とを再帰的に算出する再帰算出部とを備える。
また、第6発明に係る装置は、第5発明において、T個の部分空間のうちt番目の部分空間として、最も状態数が少ない部分空間の選択を受け付ける。
また、第7発明に係る装置は、第5又は第6発明において、t番目の部分空間における一又は複数の状態の価値及びコストの期待値の平均値を算出する。
また、第8発明に係る装置は、第5乃至第7発明のいずれか1つにおいて、T個の部分空間それぞれに対して価値変数を算出し、マルコフ決定過程を最適化する。
次に、上記目的を達成するために第9発明に係るコンピュータプログラムは、少なくとも一の状態を有するT(Tは自然数)個の部分空間が周期構造を有するマルコフ決定過程を用いて最適施策を決定する装置で実行することが可能なコンピュータプログラムであって、前記装置を、状態空間の一部である部分空間を特定する部分空間特定手段、特定された部分空間のうち、t(tは自然数、t≦T)番目の部分空間の選択を受け付ける選択受付手段、選択を受け付けたt番目の部分空間における一又は複数の状態から一周期後のt番目の部分空間における一又は複数の状態に到達する確率とコストの期待値とを算出する確率・コスト算出手段、及び算出したt番目の部分空間における確率とコストの期待値とに基づいて、(t−1)番目の部分空間における価値とコストの期待値とを算出し、以下、tを順次1までデクリメントし、次にtをTから順次デクリメントして(t+1)になるまで、すべてのtについて(t−1)番目の部分空間における価値とコストの期待値とを再帰的に算出する再帰算出手段として機能させる。
本発明によれば、マルコフ決定過程が周期性を有する場合には、最適施策を求めることが可能な問題の規模を拡大することができ、従来の価値反復(Value Iteration)、施策反復(Policy Iteration)、リニアプログラミング等の方法では解くことができない問題であっても、最適施策を求めることが可能となる。
本発明の実施の形態に係る情報処理装置の構成を模式的に示すブロック図である。 本発明の実施の形態に係る情報処理装置の機能ブロック図である。 本発明の実施の形態に係る情報処理装置のCPUの処理手順を示すフローチャートである。 本発明の実施の形態に係る情報処理装置で、マルコフ決定過程を用いて最適施策を求めた場合の演算処理時間を比較した表である。
以下、本発明の実施の形態に係る、周期性を有するマルコフ決定過程を用いて、演算処理負荷を軽減しつつ平均コストが最小となる最適施策を決定する装置について、図面に基づいて具体的に説明する。以下の実施の形態は、特許請求の範囲に記載された発明を限定するものではなく、実施の形態の中で説明されている特徴的事項の組み合わせの全てが解決手段の必須事項であるとは限らないことは言うまでもない。
また、本発明は多くの異なる態様にて実施することが可能であり、実施の形態の記載内容に限定して解釈されるべきものではない。実施の形態を通じて同じ要素には同一の符号を付している。
以下の実施の形態では、コンピュータシステムにコンピュータプログラムを導入した情報処理装置について説明するが、当業者であれば明らかな通り、本発明はその一部をコンピュータで実行することが可能なコンピュータプログラムとして実施することができる。したがって、本発明は、周期性を有するマルコフ決定過程に対して演算処理負荷を軽減し平均コストが最小となる最適施策を決定する装置というハードウェアとしての実施の形態、ソフトウェアとしての実施の形態、又はソトウェアとハードウェアとの組み合わせの実施の形態をとることができる。コンピュータプログラムは、ハードディスク、DVD、CD、光記憶装置、磁気記憶装置等の任意のコンピュータで読み取ることが可能な記録媒体に記録することができる。
本発明の実施の形態によれば、マルコフ決定過程が周期性を有する場合には、最適施策を求めることが可能な問題の規模を拡大することができ、従来の価値反復(Value Iteration)、施策反復(Policy Iteration)、線形計画等の方法では解くことができない問題であっても、最適施策を求めることが可能となる。なお、マルコフ決定過程が周期性を有するとは、状態空間をT(Tは自然数)個の部分空間に分割することができ、どの施策を用いた場合であっても、t(tは自然数、t≦T)番目の部分空間からは(t+1)番目の部分空間にしか空間遷移しないことを意味している。ただし、(T+1)番目の部分空間は1番目の部分空間を意味するものとする。この場合、マルコフ決定過程は、長さTの周期を有すると定義し、t番目の部分空間は、時点tにおける状態空間と言い換えることもできる。
図1は、本発明の実施の形態に係る情報処理装置の構成を模式的に示すブロック図である。本発明の実施の形態に係る情報処理装置1は、少なくともCPU(中央演算装置)11、メモリ12、記憶装置13、I/Oインタフェース14、ビデオインタフェース15、可搬型ディスクドライブ16、通信インタフェース17及び上述したハードウェアを接続する内部バス18で構成されている。
CPU11は、内部バス18を介して情報処理装置1の上述したようなハードウェア各部と接続されており、上述したハードウェア各部の動作を制御するとともに、記憶装置13に記憶されたコンピュータプログラム100に従って、種々のソフトウェア的機能を実行する。メモリ12は、SRAM、SDRAM等の揮発性メモリで構成され、コンピュータプログラム100の実行時にロードモジュールが展開され、コンピュータプログラム100の実行時に発生する一時的なデータ等を記憶する。
記憶装置13は、内蔵される固定型記憶装置(ハードディスク)、ROM等で構成されている。記憶装置13に記憶されたコンピュータプログラム100は、プログラム及びデータ等の情報を記録したDVD、CD−ROM等の可搬型記録媒体90から、可搬型ディスクドライブ16によりダウンロードされ、実行時には記憶装置13からメモリ12へ展開して実行される。もちろん、通信インタフェース17を介して接続されている外部コンピュータからダウンロードされたコンピュータプログラムであっても良い。
通信インタフェース17は内部バス18に接続されており、インターネット、LAN、WAN等の外部のネットワークに接続されることにより、外部コンピュータ等とデータ送受信を行うことが可能となっている。
I/Oインタフェース14は、キーボード21、マウス22等の入力装置と接続され、データの入力を受け付ける。ビデオインタフェース15は、CRTディスプレイ、液晶ディスプレイ等の表示装置23と接続され、所定の画像を表示する。
図2は、本発明の実施の形態に係る情報処理装置1の機能ブロック図である。図2において、情報処理装置1の部分空間特定部201は、状態空間の一部であるT(Tは自然数)個の部分空間を特定する。(式1)は、t(tは自然数、t≦T)番目の部分空間(部分空間t)を用いて表した、マルコフ決定過程が周期性を有する場合の、従来の方法の施策評価で解く連立方程式である。
Figure 0005868104
(式1)において、ベクトルct (t=1、・・・、T)は、T個の部分空間のうち部分空間tの各状態のコストを表しており、ベクトルctの第i成分は、部分空間tのi番目の状態のコストを示している。
また、行列Pt,t+1 (t=1、・・・T)は、部分空間tの各状態から部分空間t+1の各状態への遷移確率を示している。行列Pt,t+1の第i、j成分は、部分空間tのi番目の状態にいる場合に、次に遷移する状態が部分空間t+1のj番目の状態である確率を表している。なお、行列PT,T+1は行列PT,1 と定義している。
gは、ゲインを示す変数である。ここで、ゲインとは、当該施策においてマルコフ決定過程の1ステップ当たりで平均して得ることができる利得を表す。ベクトルht (t=1、・・・、T)は、部分空間tの各状態のバイアスを表す変数を示している。バイアスは各状態について定義され、ある状態からのバイアスとは、十分に大きいステップ数Nにおいて、その状態からNステップで得ることができる利得と平均的な状態からNステップで得ることができる利得gNとの差を表す。ベクトルhをT個のベクトル(h1 、h2 、・・・、hT )で構成されたベクトルと定義した場合、ベクトルhが求める解であるときには、ベクトルh+t×ベクトル1(「ベクトル1」は全ての成分が1であるベクトル)も解となる。連立方程式(式1)を解くことは、変数gとベクトルhを求めることになる。
選択受付部202は、特定された部分空間のうち、t番目の部分空間の選択を受け付ける。本実施の形態では、T個の部分空間のうちt番目の部分空間として、最も状態数が少ない部分空間の選択を受け付ける。説明を簡単にするために、以下の説明ではt=1である場合を例に説明する。
確率・コスト算出部203は、選択を受け付けたt番目の部分空間における一又は複数の状態から一周期後のt番目の部分空間における一又は複数の状態に到達する確率とコストの期待値とを算出する。
(式2)は、選択を受け付けた部分空間(t番目の部分空間)の状態iから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態jに遷移する確率を(i、j)成分に含む行列Qを示している。(式2)では、一の状態から次の状態へと遷移する遷移確率行列Pを順次掛け合わせた行列Qを定義している。
Figure 0005868104
次に、(式3)では、選択を受け付けた部分空間(t番目の部分空間)の状態iから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態のいずれかに遷移するまでのコストの期待値を第i成分に含むベクトルbを定義している。
Figure 0005868104
そして、選択を受け付けた部分空間(t番目の部分空間)の状態iから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態jに遷移する確率を(i、j)成分に含む行列Q(式2)、及び選択を受け付けた部分空間(t番目の部分空間)の状態iから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態のいずれかに遷移するまでのコストの期待値を第i成分に含むベクトルbを用いて、ゲインを示す変数g、部分空間tの各状態のバイアスを表す変数であるベクトルht (t=1)を、(式4)に示す連立方程式の解として求める。
Figure 0005868104
(式4)において、行列Iは単位行列を、ベクトル1は全ての成分が1であるベクトルを、それぞれ示している。そして、ゲインを示す変数g、部分空間tの各状態のバイアスを表す変数であるベクトルht (t=1)を求めることができ、再帰算出部204は、ゲインを示す変数g、部分空間tの各状態のバイアスを表す変数であるベクトルht (t=1)で定まる確率とコストの期待値とに基づいて、(t−1)番目の部分空間から順に価値とコストの期待値とを再帰的に算出する。
具体的にはt=1であるので、次はベクトルht (t=T)を算出し、以下順次再帰的に算出する。すなわち、まず部分空間t(t=T)の各状態のバイアスを表す変数であるベクトルht (t=T)を求めることができ、以下(式5)に示すように、順次再帰的にベクトルht (t=T−1)、ベクトルht (t=T−2)、・・・、ベクトルht (t=2)を求めることができる。
Figure 0005868104
(式5)において、ベクトル1は、全ての成分が1であるベクトルを示す。(式1)に示すように、逆行列を計算してベクトルht (t=1、・・・、T)を直接求めるのではなく、まず最も状態数が少ない部分空間tについてベクトルht を算出し、そこから再帰的に他の部分空間についてのベクトルht を算出する。したがって、演算処理負荷を大幅に軽減することが可能となる。
図3は、本発明の実施の形態に係る情報処理装置1のCPU11の処理手順を示すフローチャートである。図3において、情報処理装置1のCPU11は、状態空間の一部であるT(Tは自然数)個の部分空間を特定する(ステップS301)。CPU11は、特定された部分空間のうち、t(tは自然数、t≦T)番目の部分空間の選択を受け付ける(ステップS302)。本実施の形態では、T個の部分空間のうちt番目の部分空間として、最も状態数が少ない部分空間の選択を受け付ける。
CPU11は、選択を受け付けたt番目の部分空間における一又は複数の状態から一周期後のt番目の部分空間における一又は複数の状態に到達する遷移確率行列Qを算出する(ステップS303)。CPU11は、選択を受け付けた部分空間(t番目の部分空間)の状態iから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態jに遷移するまでのコストの期待値を第i成分に含むベクトルbを算出する(ステップS304)。
そして、CPU11は、算出した行列Q、及びベクトルbを用いて、ゲインを示す変数g、部分空間tの各状態のバイアスを表す変数であるベクトルht (t=1)を算出する(ステップS305)。CPU11は、ゲインを示す変数g、部分空間tの各状態のバイアスを表す変数であるベクトルht を用いて、部分空間t−1の各状態のバイアスを表す変数であるベクトルht-1 を算出する(ステップS306)。なお、t=1の場合は、ベクトルht-1 はベクトルh0 =ベクトルhT を算出する。周期性を有するからである。
CPU11は、ベクトルht+1 (t=1)を算出したか否かを判断する(ステップS307)。ベクトルht+1 まで算出した時点で一周期分のすべての部分空間について再帰的にベクトルhを算出したことになるからである。
CPU11が、ベクトルht+1 を算出していないと判断した場合(ステップS307:NO)、CPU11は、ベクトルhの引数tを‘1’デクリメントし(ステップS308)、処理をステップS306へ戻して、上述した処理を繰り返す。CPU11が、ベクトルht+1 を算出したと判断した場合(ステップS307:YES)、CPU11は、処理を終了する。
なお、選択を受け付けた部分空間(t番目の部分空間)の状態iから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態のいずれかに遷移するまでのコストの期待値を第i成分に含むベクトルbを定義する場合、将来的に発生するコストを割り引いても良い。すなわち、上述した(式3)に割引率λ(0<λ<1)を、状態遷移に応じて乗算すれば良い。(式6)に、将来的に発生するコストを割り引く場合の、選択を受け付けた部分空間(t番目の部分空間)の状態iから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態のいずれかに遷移するまでのコストの期待値を第i成分に含むベクトルbの定義を示す。
Figure 0005868104
この場合、選択を受け付けた部分空間(t番目の部分空間)の状態iから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態jに遷移する確率を(i、j)成分に含む行列Q(式2)、及び選択を受け付けた部分空間(t番目の部分空間)の状態iから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態のいずれかに遷移するまでのコストの期待値を第i成分に含むベクトルbを用いて、ゲインを示す変数g、部分空間tの各状態のバイアスを表す変数であるベクトルht (t=1)を、(式7)に示す連立方程式の解として求める。
Figure 0005868104
(式7)において、行列Iは単位行列を示している。そして、ゲインを示す変数g、部分空間tの各状態のバイアスを表す変数であるベクトルht (t=1)を求めることができ、再帰算出部204は、ゲインを示す変数g、部分空間tの各状態のバイアスを表す変数であるベクトルht (t=1)で定まる確率とコストの期待値とに基づいて、(t−1)番目の部分空間から順に価値とコストの期待値とを再帰的に算出する。
具体的にはt=1であるので、次はベクトルht (t=T)を算出し、以下順次再帰的に算出する。すなわち、まず部分空間t(t=T)の各状態のバイアスを表す変数であるベクトルht (t=T)を求めることができ、以下(式8)に示すように、順次再帰的にベクトルht (t=T−1)、ベクトルht (t=T−2)、・・・、ベクトルht (t=2)を求めることができる。
Figure 0005868104
(式8)では(式5)とは異なり、ゲインgを用いない。これは、将来的に発生するコストを事前に割り引いているので、ゲインgは0(ゼロ)と考えても良いからである。
以上のように本実施の形態によれば、マルコフ決定過程が周期性を有する場合には、最適施策を求めることが可能な問題の規模を拡大することができ、従来の価値反復(Value Iteration)、施策反復(Policy Iteration)、リニアプログラミング等の方法では解くことができない問題であっても、最適施策を求めることが可能となる。
なお、上述した実施の形態では、ゲインgをマルコフ決定過程の1状態遷移当たりの平均利得として求めており、すべての状態に対してゲインが一意に定まると仮定している。しかし、現実の問題では、ゲインが状態ごとに異なる場合も想定される。この場合、ゲインgも、部分空間tごとのベクトル値として算出される。つまり、T(Tは自然数)個の部分空間それぞれに対する価値変数としてゲインベクトルgを算出し、マルコフ決定過程を最適化しても良い。
したがって、選択を受け付けた部分空間(t番目の部分空間)の状態iから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態jに遷移する確率を(i、j)成分に含む行列Q(式2)、及び選択を受け付けた部分空間(t番目の部分空間)の状態iから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態のいずれかに遷移するまでのコストの期待値を第i成分に含むベクトルbを用いて、ゲインを示す変数ベクトルgr (t=1)、部分空間tの各状態のバイアスを表す変数であるベクトルht (t=1)を、(式9)に示す連立方程式の解として求める。
Figure 0005868104
(式9)において、行列Iは単位行列を示している。そして、ゲインを示す変数ベクトルgt (t=1)、部分空間tの各状態のバイアスを表す変数であるベクトルht (t=1)を求めることができ、再帰算出部204は、ゲインを示す変数ベクトルgt (t=1)、部分空間tの各状態のバイアスを表す変数であるベクトルht (t=1)で定まる確率とコストの期待値とに基づいて、(t−1)番目の部分空間から順に価値とコストの期待値とを再帰的に算出する。
具体的にはt=1であるので、次はベクトルgt (t=T)を算出し、以下順次再帰的に算出する。すなわち、まず部分空間t(t=T)のゲインベクトルgt (t=T)を求めることができ、ゲインベクトルgt (t=T)を用いて、ベクトルht (t=T)を算出する。以下(式10)に示すように、順次再帰的にゲインベクトルgt (t=T−1)とベクトルht (t=T−1)とを算出し、ゲインベクトルgt (t=T−2)とベクトルht (t=T−2)とを算出し、以下順次ゲインベクトルgt とベクトルht とを一対として、再帰的に算出することができる。
Figure 0005868104
従来の価値反復(Value Iteration)、施策反復(Policy Iteration)、線形計画等の方法では解くことができない規模の問題に対して、上述した演算方法を適用した結果を図4に示す。図4は、本発明の実施の形態に係る情報処理装置1で、マルコフ決定過程を用いて最適施策を求めた場合の演算処理時間を比較した表である。
図4では、解くべき問題の規模を、状態数と状態アクションペア数との積で示している。いわゆる汎用的な最適化エンジンであるCPLEXを使用する場合、問題4までが限界であり、問題5以上の規模となると解くことができない。周知の技術である施策反復(Policy Iteration)を適用した場合、規模が大きくなっても問題を解くことはできる。
しかし、問題7では、20078秒と5時間近い演算処理時間を要し、実際に施策を決定する時間としては長すぎる。しかし、本実施の形態に係る方法を適用した場合、最も規模が大きい問題7でも3分強で最適施策を決定することができる。そして、問題の規模が大きくなるほど、演算処理の高速化効果は高まることがわかる。したがって、本実施の形態に係る方法は、マルコフ決定過程が周期性を有する場合には、問題の規模が大きくなるほど演算処理負荷を大きく軽減することができ、適用することが可能な問題の規模を拡大することが可能となる。
上述した本実施の形態に係る、マルコフ決定過程が周期性を有する場合に、既存の計算方法よりも効率的に最適施策を決定する方法は、電力会社における発電計画にも適用することができる。例えば、発電計画として、次の30分間に発電する発電量を15分前に決定し、3分ごとの蓄電池の充放電量を決定することを想定する。この場合、は30分/3分=10の周期Tを有することになる。
また、状態空間は、時刻tにおける「状態」を部分空間とするように分割され、時刻tの部分空間からは時刻(t+1)の部分空間にしか遷移しない。ここで「状態」は、時間t、予定発電量と使用電力量との差x、蓄電量y、設定済み発電ターゲット量zにより定義されるものとする。
時刻tは、1、2、・・・、Tのいずれかであり、xは周期T内の時刻0から時刻tまでの発電予定量と使用電力実績量との差を、yは蓄電池の蓄電量を、zはt=5で決定された発電予定量と次の30分間の使用電力予測量との差を、それぞれ意味することになる。
上記モデルにマルコフ決定過程を用いることで、各状態について最適なアクション、例えば次の3分間の充放電量と、t=5の時には次の30分間に発電する電力量を決定することができる。
なお、(式1)における行列Pt,t+1 は、時点tの状態から時点t+1の状態への遷移確率を要素に含む行列を、ベクトルct は、時点tの各状態のコストを、それぞれ示す。本モデルにおけるコストとは、例えばアクションが充電である場合には、充電効率が1より小さいことによる次の3分間の電力損失に相当するコストを、あるいはt=Tである場合、充電による電力損失コストに加えて、発電予定量と使用電力実績の差に応じて発生するコストを、それぞれ意味する。発電予定量と使用電力実績の差に応じて発生するコストとは、例えば追加の電力を購入するコスト、余剰電力が生じたことによるペナルティー等である。
なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨の範囲内であれば多種の変更、改良等が可能である。例えば、上述した実施の形態では、t番目の部分空間における一又は複数の状態の価値及びコストの期待値を算出しているが、それぞれ平均値を算出して代表値としても良い。
1 情報処理装置
11 CPU
12 メモリ
13 記憶装置
14 I/Oインタフェース
15 ビデオインタフェース
16 可搬型ディスクドライブ
17 通信インタフェース
18 内部バス
90 可搬型記録媒体
100 コンピュータプログラム

Claims (9)

  1. 少なくとも一の状態を有するT(Tは自然数)個の部分空間が周期構造を有するマルコフ決定過程を用いて最適施策を決定する装置のコンピュータで実行する方法であって、
    前記コンピュータが、
    状態空間の一部である部分空間を特定する工程と、
    特定された部分空間のうち、t(tは自然数、t≦T)番目の部分空間の選択を受け付ける工程と、
    選択を受け付けたt番目の部分空間における一又は複数の状態から一周期後のt番目の部分空間における一又は複数の状態に到達する確率とコストの期待値とを算出する工程と、
    算出したt番目の部分空間における確率とコストの期待値とに基づいて、(t−1)番目の部分空間における価値とコストの期待値とを算出し、以下、tを順次1までデクリメントし、次にtをTから順次デクリメントして(t+1)になるまで、すべてのtについて(t−1)番目の部分空間における価値とコストの期待値とを再帰的に算出する工程と
    を含む方法。
  2. 前記コンピュータが、
    T個の部分空間のうちt番目の部分空間として、最も状態数が少ない部分空間の選択を受け付ける請求項1に記載の方法。
  3. 前記コンピュータが、
    t番目の部分空間における一又は複数の状態の価値及びコストの期待値の平均値を算出する請求項1又は2に記載の方法。
  4. 前記コンピュータが、
    T個の部分空間それぞれに対して価値変数を算出し、マルコフ決定過程を最適化する請求項1乃至3のいずれか一項に記載の方法。
  5. 少なくとも一の状態を有するT(Tは自然数)個の部分空間が周期構造を有するマルコフ決定過程を用いて最適施策を決定する装置であって、
    状態空間の一部である部分空間を特定する部分空間特定部と、
    特定された部分空間のうち、t(tは自然数、t≦T)番目の部分空間の選択を受け付ける選択受付部と、
    選択を受け付けたt番目の部分空間における一又は複数の状態から一周期後のt番目の部分空間における一又は複数の状態に到達する確率とコストの期待値とを算出する確率・コスト算出部と、
    算出したt番目の部分空間における確率とコストの期待値とに基づいて、(t−1)番目の部分空間における価値とコストの期待値とを算出し、以下、tを順次1までデクリメントし、次にtをTから順次デクリメントして(t+1)になるまで、すべてのtについて(t−1)番目の部分空間における価値とコストの期待値とを再帰的に算出する再帰算出部と
    を備える装置。
  6. T個の部分空間のうちt番目の部分空間として、最も状態数が少ない部分空間の選択を受け付ける請求項5に記載の装置。
  7. t番目の部分空間における一又は複数の状態の価値及びコストの期待値の平均値を算出する請求項5又は6に記載の装置。
  8. T個の部分空間それぞれに対して価値変数を算出し、マルコフ決定過程を最適化する請求項5乃至7のいずれか一項に記載の装置。
  9. 少なくとも一の状態を有するT(Tは自然数)個の部分空間が周期構造を有するマルコフ決定過程を用いて最適施策を決定する装置で実行することが可能なコンピュータプログラムであって、
    前記装置を、
    状態空間の一部である部分空間を特定する部分空間特定手段、
    特定された部分空間のうち、t(tは自然数、t≦T)番目の部分空間の選択を受け付ける選択受付手段、
    選択を受け付けたt番目の部分空間における一又は複数の状態から一周期後のt番目の部分空間における一又は複数の状態に到達する確率とコストの期待値とを算出する確率・コスト算出手段、及び
    算出したt番目の部分空間における確率とコストの期待値とに基づいて、(t−1)番目の部分空間における価値とコストの期待値とを算出し、以下、tを順次1までデクリメントし、次にtをTから順次デクリメントして(t+1)になるまで、すべてのtについて(t−1)番目の部分空間における価値とコストの期待値とを再帰的に算出する再帰算出手段
    として機能させるコンピュータプログラム。
JP2011218556A 2011-09-30 2011-09-30 周期性を有するマルコフ決定過程を用いて最適施策を決定する方法、装置及びコンピュータプログラム Expired - Fee Related JP5868104B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2011218556A JP5868104B2 (ja) 2011-09-30 2011-09-30 周期性を有するマルコフ決定過程を用いて最適施策を決定する方法、装置及びコンピュータプログラム
US13/586,385 US9135563B2 (en) 2011-09-30 2012-08-15 Using cyclic Markov decision process to determine optimum policy
US13/589,407 US9135564B2 (en) 2011-09-30 2012-08-20 Using cyclic Markov decision process to determine optimum policy

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011218556A JP5868104B2 (ja) 2011-09-30 2011-09-30 周期性を有するマルコフ決定過程を用いて最適施策を決定する方法、装置及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2013080280A JP2013080280A (ja) 2013-05-02
JP5868104B2 true JP5868104B2 (ja) 2016-02-24

Family

ID=47993560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011218556A Expired - Fee Related JP5868104B2 (ja) 2011-09-30 2011-09-30 周期性を有するマルコフ決定過程を用いて最適施策を決定する方法、装置及びコンピュータプログラム

Country Status (2)

Country Link
US (2) US9135563B2 (ja)
JP (1) JP5868104B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6103540B2 (ja) * 2014-03-14 2017-03-29 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 生成装置、生成方法、情報処理方法、及び、プログラム
US10528883B2 (en) 2015-09-09 2020-01-07 International Business Machines Corporation Hybrid estimation of transition probability values in markov decision processes
US11657310B2 (en) * 2016-01-06 2023-05-23 International Business Machines Corporiation Utilizing stochastic controller to provide user-controlled notification rate of wearable-based events
US11034019B2 (en) * 2018-04-19 2021-06-15 Brown University Sequence-to-sequence language grounding of non-Markovian task specifications

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3960286B2 (ja) 2003-09-05 2007-08-15 独立行政法人科学技術振興機構 適応型制御器、適応型制御方法および適応型制御プログラム
JP5413831B2 (ja) * 2009-07-17 2014-02-12 学校法人立命館 電力取引管理システム、管理装置、電力取引方法、及び電力取引用コンピュータプログラム
US8412649B2 (en) * 2009-12-29 2013-04-02 Mitsubishi Electric Research Laboratories, Inc. Method for converting dynamical systems with continuous states into Markov decision processes with discrete states

Also Published As

Publication number Publication date
US20130085974A1 (en) 2013-04-04
US9135563B2 (en) 2015-09-15
US20130085983A1 (en) 2013-04-04
JP2013080280A (ja) 2013-05-02
US9135564B2 (en) 2015-09-15

Similar Documents

Publication Publication Date Title
Li et al. An accumulative error based adaptive design of experiments for offline metamodeling
US20230237375A1 (en) Dynamic placement of computation sub-graphs
US9058216B2 (en) Method for estimating job run time
JP4661250B2 (ja) 予測方法、予測装置および予測プログラム
US20110131163A1 (en) Managing a Portfolio of Experts
US20210081763A1 (en) Electronic device and method for controlling the electronic device thereof
Bülbül et al. A linear programming-based method for job shop scheduling
JP7003753B2 (ja) 探索点決定プログラム、探索点決定方法および探索点決定装置
JP5868104B2 (ja) 周期性を有するマルコフ決定過程を用いて最適施策を決定する方法、装置及びコンピュータプログラム
CN113283671B (zh) 一种预测补货量的方法、装置、计算机设备及存储介质
Kumar et al. Benchmarking stochastic and deterministic MPC: A case study in stationary battery systems
Wang et al. Robust scheduling optimization for flexible manufacturing systems with replenishment under uncertain machine failure disruptions
US11562210B2 (en) Stochastically determining to accept a state transition for an optimization device
US20160364684A1 (en) Incremental estimation for probabilistic forecaster
Cheng et al. A comparison of optimal control and stochastic programming from a formulation and computation perspective
JP2014520340A (ja) パラメータ推定を用いた小売予測
US8346704B2 (en) Controlled constraint sharing in parallel problem solvers
Wang Retrospective optimization of mixed-integer stochastic systems using dynamic simplex linear interpolation
US20210026853A1 (en) Combination search system, information processing device, method, and program
CN110826814A (zh) 备件库存确定方法、备件库存确定装置和电子设备
JP2010108078A (ja) 需要予測装置
Bermúdez et al. Forecasting time series with missing data using Holt's model
CN114079953A (zh) 无线网络系统的资源调度方法、装置、终端及存储介质
JP2004110300A (ja) データ予測方法、データ予測装置、コンピュータプログラム、及び記録媒体
Bagheri et al. SACOBRA: Self-adjusting constrained black-box optimization with RBF

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140507

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150731

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150925

TRDD Decision of grant or rejection written
RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20151208

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160105

R150 Certificate of patent or registration of utility model

Ref document number: 5868104

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees