JP5868104B2

JP5868104B2 - 周期性を有するマルコフ決定過程を用いて最適施策を決定する方法、装置及びコンピュータプログラム

Info

Publication number: JP5868104B2
Application number: JP2011218556A
Authority: JP
Inventors: 貴行恐神; ルディー・レイモンド・ハリー・プテラ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2011-09-30
Filing date: 2011-09-30
Publication date: 2016-02-24
Anticipated expiration: 2031-09-30
Also published as: US20130085974A1; US9135563B2; US20130085983A1; JP2013080280A; US9135564B2

Description

本発明は、周期性を有するマルコフ決定過程を用いて、演算処理負荷を軽減しつつ平均コストが最小となる最適施策を決定する方法、装置及びコンピュータプログラムに関する。

いわゆる「マルコフ決定過程」として定式化されている制御問題を解く方法は、ロボット、プラント、鉄道等の自律的制御問題を解決する手段として、様々な分野に適用することが可能な技術の１つである。「マルコフ決定過程」では、解決対象となる事象の時間に依存する状態遷移の制御問題を、理想とする状態遷移からの距離（コスト）を評価基準として解く。

例えば特許文献１では、発電装置、蓄電装置、電気機器、電力ルータ他等で構成されるミニマル・クラスターのような発電、電力消費拠点において自動的な電力融通を担う電力取引管理システムが開示されており、マルコフ決定過程を用いて最適な取引施策を求めている。また、特許文献２では、被制御機器が状態遷移確率分布に従って次の状態へ遷移するマルコフ決定過程を用いた適応型制御器が開示されており、制御器を確率的制御器とすることにより、期待累積コストを計算する動的計画法、直接方策を探索する網羅的探索法等における計算量の削減を図っている。

また、マルコフ決定過程を用いて最適施策を求める方法としては、価値反復（ＶａｌｕｅＩｔｅｒａｔｉｏｎ）、施策反復（ＰｏｌｉｃｙＩｔｅｒａｔｉｏｎ）、非特許文献１に開示されている、いわゆる線形計画等がある。また、マルコフ決定過程が特殊な構造を有する場合には、非特許文献２に開示されているように、特殊な構造自体を利用して最適施策を効率的に求めている。

特開２０１１−０２２９０２号公報特開２００５−０８４８３４号公報

エム・エル・パターマン、マルコフ決定過程：ディスクリートストカステックダイナミックプログラミング、ウィリー、２００５年（Ｍ．Ｌ．Ｐｕｔｅｒｍａｎ，ＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓｅｓ：ＤｉｓｃｒｅｔｅＳｔｏｃｈａｓｔｉｃＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ，Ｗｉｌｅｙ，２００５）ジェイ・ランバート、ビー・ファン・フート、シー・ブロンディア、「アポリシーイタレーションアルゴリズムフォーマルコフデシジョンプロセスイズスキップフリーインワンディレクション」、エスエムシーツールス、２００７年（Ｊ．Ｌａｍｂｅｒｔ，Ｂ．ＶａｎＨｏｕｄｔ，ａｎｄＣ．Ｂｌｏｎｄｉａ，"ＡｐｏｌｉｃｙｉｔｅｒａｔｉｏｎａｌｇｏｒｉｔｈｍｆｏｒＭａｒｋｏｖｄｅｃｉｓｉｏｎｐｒｏｃｅｓｓｅｓｓｋｉｐ−ｆｒｅｅｉｎｏｎｅｄｉｒｅｃｔｉｏｎ"，ＳＭＣｔｏｏｌｓ，２００７）

しかし、価値反復（ＶａｌｕｅＩｔｅｒａｔｉｏｎ）、施策反復（ＰｏｌｉｃｙＩｔｅｒａｔｉｏｎ）、線形計画等の方法では、解くことが可能な問題の規模が極めて限定的であり、一般的な問題に適用することは困難であるという問題点があった。また、非特許文献２に開示されている特殊な構造を利用する方法であっても、逆行列を算出する処理が煩雑であり、適用することが可能な問題の規模に制約があるという問題点もあった。

本発明は斯かる事情に鑑みてなされたものであり、マルコフ決定過程が周期性を有する場合に、既存の計算方法よりも効率的に最適施策を決定する方法、装置及びコンピュータプログラムを提供することを目的とする。

上記目的を達成するために第１発明に係る方法は、少なくとも一の状態を有するＴ（Ｔは自然数）個の部分空間が周期構造を有するマルコフ決定過程を用いて最適施策を決定する装置のコンピュータで実行する方法であって、前記コンピュータが、状態空間の一部である部分空間を特定する工程と、特定された部分空間のうち、ｔ（ｔは自然数、ｔ≦Ｔ）番目の部分空間の選択を受け付ける工程と、選択を受け付けたｔ番目の部分空間における一又は複数の状態から一周期後のｔ番目の部分空間における一又は複数の状態に到達する確率とコストの期待値とを算出する工程と、算出したｔ番目の部分空間における確率とコストの期待値とに基づいて、（ｔ−１）番目の部分空間における価値とコストの期待値とを算出し、以下、ｔを順次１までデクリメントし、次にｔをＴから順次デクリメントして（ｔ＋１）になるまで、すべてのｔについて（ｔ−１）番目の部分空間における価値とコストの期待値とを再帰的に算出する工程とを含む。

また、第２発明に係る方法は、第１発明において、前記コンピュータが、Ｔ個の部分空間のうちｔ番目の部分空間として、最も状態数が少ない部分空間の選択を受け付ける。

また、第３発明に係る方法は、第１又は第２発明において、前記コンピュータが、ｔ番目の部分空間における一又は複数の状態の価値及びコストの期待値の平均値を算出する。

また、第４発明に係る方法は、第１乃至第３発明のいずれか１つにおいて、前記コンピュータが、Ｔ個の部分空間それぞれに対して価値変数を算出し、マルコフ決定過程を最適化する。

次に、上記目的を達成するために第５発明に係る装置は、少なくとも一の状態を有するＴ（Ｔは自然数）個の部分空間が周期構造を有するマルコフ決定過程を用いて最適施策を決定する装置であって、状態空間の一部である部分空間を特定する部分空間特定部と、特定された部分空間のうち、ｔ（ｔは自然数、ｔ≦Ｔ）番目の部分空間の選択を受け付ける選択受付部と、選択を受け付けたｔ番目の部分空間における一又は複数の状態から一周期後のｔ番目の部分空間における一又は複数の状態に到達する確率とコストの期待値とを算出する確率・コスト算出部と、算出したｔ番目の部分空間における確率とコストの期待値とに基づいて、（ｔ−１）番目の部分空間における価値とコストの期待値とを算出し、以下、ｔを順次１までデクリメントし、次にｔをＴから順次デクリメントして（ｔ＋１）になるまで、すべてのｔについて（ｔ−１）番目の部分空間における価値とコストの期待値とを再帰的に算出する再帰算出部とを備える。

また、第６発明に係る装置は、第５発明において、Ｔ個の部分空間のうちｔ番目の部分空間として、最も状態数が少ない部分空間の選択を受け付ける。

また、第７発明に係る装置は、第５又は第６発明において、ｔ番目の部分空間における一又は複数の状態の価値及びコストの期待値の平均値を算出する。

また、第８発明に係る装置は、第５乃至第７発明のいずれか１つにおいて、Ｔ個の部分空間それぞれに対して価値変数を算出し、マルコフ決定過程を最適化する。

次に、上記目的を達成するために第９発明に係るコンピュータプログラムは、少なくとも一の状態を有するＴ（Ｔは自然数）個の部分空間が周期構造を有するマルコフ決定過程を用いて最適施策を決定する装置で実行することが可能なコンピュータプログラムであって、前記装置を、状態空間の一部である部分空間を特定する部分空間特定手段、特定された部分空間のうち、ｔ（ｔは自然数、ｔ≦Ｔ）番目の部分空間の選択を受け付ける選択受付手段、選択を受け付けたｔ番目の部分空間における一又は複数の状態から一周期後のｔ番目の部分空間における一又は複数の状態に到達する確率とコストの期待値とを算出する確率・コスト算出手段、及び算出したｔ番目の部分空間における確率とコストの期待値とに基づいて、（ｔ−１）番目の部分空間における価値とコストの期待値とを算出し、以下、ｔを順次１までデクリメントし、次にｔをＴから順次デクリメントして（ｔ＋１）になるまで、すべてのｔについて（ｔ−１）番目の部分空間における価値とコストの期待値とを再帰的に算出する再帰算出手段として機能させる。

本発明によれば、マルコフ決定過程が周期性を有する場合には、最適施策を求めることが可能な問題の規模を拡大することができ、従来の価値反復（ＶａｌｕｅＩｔｅｒａｔｉｏｎ）、施策反復（ＰｏｌｉｃｙＩｔｅｒａｔｉｏｎ）、リニアプログラミング等の方法では解くことができない問題であっても、最適施策を求めることが可能となる。

本発明の実施の形態に係る情報処理装置の構成を模式的に示すブロック図である。本発明の実施の形態に係る情報処理装置の機能ブロック図である。本発明の実施の形態に係る情報処理装置のＣＰＵの処理手順を示すフローチャートである。本発明の実施の形態に係る情報処理装置で、マルコフ決定過程を用いて最適施策を求めた場合の演算処理時間を比較した表である。

以下、本発明の実施の形態に係る、周期性を有するマルコフ決定過程を用いて、演算処理負荷を軽減しつつ平均コストが最小となる最適施策を決定する装置について、図面に基づいて具体的に説明する。以下の実施の形態は、特許請求の範囲に記載された発明を限定するものではなく、実施の形態の中で説明されている特徴的事項の組み合わせの全てが解決手段の必須事項であるとは限らないことは言うまでもない。

また、本発明は多くの異なる態様にて実施することが可能であり、実施の形態の記載内容に限定して解釈されるべきものではない。実施の形態を通じて同じ要素には同一の符号を付している。

以下の実施の形態では、コンピュータシステムにコンピュータプログラムを導入した情報処理装置について説明するが、当業者であれば明らかな通り、本発明はその一部をコンピュータで実行することが可能なコンピュータプログラムとして実施することができる。したがって、本発明は、周期性を有するマルコフ決定過程に対して演算処理負荷を軽減し平均コストが最小となる最適施策を決定する装置というハードウェアとしての実施の形態、ソフトウェアとしての実施の形態、又はソトウェアとハードウェアとの組み合わせの実施の形態をとることができる。コンピュータプログラムは、ハードディスク、ＤＶＤ、ＣＤ、光記憶装置、磁気記憶装置等の任意のコンピュータで読み取ることが可能な記録媒体に記録することができる。

本発明の実施の形態によれば、マルコフ決定過程が周期性を有する場合には、最適施策を求めることが可能な問題の規模を拡大することができ、従来の価値反復（ＶａｌｕｅＩｔｅｒａｔｉｏｎ）、施策反復（ＰｏｌｉｃｙＩｔｅｒａｔｉｏｎ）、線形計画等の方法では解くことができない問題であっても、最適施策を求めることが可能となる。なお、マルコフ決定過程が周期性を有するとは、状態空間をＴ（Ｔは自然数）個の部分空間に分割することができ、どの施策を用いた場合であっても、ｔ（ｔは自然数、ｔ≦Ｔ）番目の部分空間からは（ｔ＋１）番目の部分空間にしか空間遷移しないことを意味している。ただし、（Ｔ＋１）番目の部分空間は１番目の部分空間を意味するものとする。この場合、マルコフ決定過程は、長さＴの周期を有すると定義し、ｔ番目の部分空間は、時点ｔにおける状態空間と言い換えることもできる。

図１は、本発明の実施の形態に係る情報処理装置の構成を模式的に示すブロック図である。本発明の実施の形態に係る情報処理装置１は、少なくともＣＰＵ（中央演算装置）１１、メモリ１２、記憶装置１３、Ｉ／Ｏインタフェース１４、ビデオインタフェース１５、可搬型ディスクドライブ１６、通信インタフェース１７及び上述したハードウェアを接続する内部バス１８で構成されている。

ＣＰＵ１１は、内部バス１８を介して情報処理装置１の上述したようなハードウェア各部と接続されており、上述したハードウェア各部の動作を制御するとともに、記憶装置１３に記憶されたコンピュータプログラム１００に従って、種々のソフトウェア的機能を実行する。メモリ１２は、ＳＲＡＭ、ＳＤＲＡＭ等の揮発性メモリで構成され、コンピュータプログラム１００の実行時にロードモジュールが展開され、コンピュータプログラム１００の実行時に発生する一時的なデータ等を記憶する。

記憶装置１３は、内蔵される固定型記憶装置（ハードディスク）、ＲＯＭ等で構成されている。記憶装置１３に記憶されたコンピュータプログラム１００は、プログラム及びデータ等の情報を記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体９０から、可搬型ディスクドライブ１６によりダウンロードされ、実行時には記憶装置１３からメモリ１２へ展開して実行される。もちろん、通信インタフェース１７を介して接続されている外部コンピュータからダウンロードされたコンピュータプログラムであっても良い。

通信インタフェース１７は内部バス１８に接続されており、インターネット、ＬＡＮ、ＷＡＮ等の外部のネットワークに接続されることにより、外部コンピュータ等とデータ送受信を行うことが可能となっている。

Ｉ／Ｏインタフェース１４は、キーボード２１、マウス２２等の入力装置と接続され、データの入力を受け付ける。ビデオインタフェース１５は、ＣＲＴディスプレイ、液晶ディスプレイ等の表示装置２３と接続され、所定の画像を表示する。

図２は、本発明の実施の形態に係る情報処理装置１の機能ブロック図である。図２において、情報処理装置１の部分空間特定部２０１は、状態空間の一部であるＴ（Ｔは自然数）個の部分空間を特定する。（式１）は、ｔ（ｔは自然数、ｔ≦Ｔ）番目の部分空間（部分空間ｔ）を用いて表した、マルコフ決定過程が周期性を有する場合の、従来の方法の施策評価で解く連立方程式である。

（式１）において、ベクトルｃ_t（ｔ＝１、・・・、Ｔ）は、Ｔ個の部分空間のうち部分空間ｔの各状態のコストを表しており、ベクトルｃ_tの第ｉ成分は、部分空間ｔのｉ番目の状態のコストを示している。

また、行列Ｐ_t,t+1（ｔ＝１、・・・Ｔ）は、部分空間ｔの各状態から部分空間ｔ＋１の各状態への遷移確率を示している。行列Ｐ_t,t+1の第ｉ、ｊ成分は、部分空間ｔのｉ番目の状態にいる場合に、次に遷移する状態が部分空間ｔ＋１のｊ番目の状態である確率を表している。なお、行列Ｐ_T,T+1は行列Ｐ_T,1と定義している。

ｇは、ゲインを示す変数である。ここで、ゲインとは、当該施策においてマルコフ決定過程の１ステップ当たりで平均して得ることができる利得を表す。ベクトルｈ_t（ｔ＝１、・・・、Ｔ）は、部分空間ｔの各状態のバイアスを表す変数を示している。バイアスは各状態について定義され、ある状態からのバイアスとは、十分に大きいステップ数Ｎにおいて、その状態からＮステップで得ることができる利得と平均的な状態からＮステップで得ることができる利得ｇＮとの差を表す。ベクトルｈをＴ個のベクトル（ｈ₁、ｈ₂、・・・、ｈ_T）で構成されたベクトルと定義した場合、ベクトルｈが求める解であるときには、ベクトルｈ＋ｔ×ベクトル１（「ベクトル１」は全ての成分が１であるベクトル）も解となる。連立方程式（式１）を解くことは、変数ｇとベクトルｈを求めることになる。

選択受付部２０２は、特定された部分空間のうち、ｔ番目の部分空間の選択を受け付ける。本実施の形態では、Ｔ個の部分空間のうちｔ番目の部分空間として、最も状態数が少ない部分空間の選択を受け付ける。説明を簡単にするために、以下の説明ではｔ＝１である場合を例に説明する。

確率・コスト算出部２０３は、選択を受け付けたｔ番目の部分空間における一又は複数の状態から一周期後のｔ番目の部分空間における一又は複数の状態に到達する確率とコストの期待値とを算出する。

（式２）は、選択を受け付けた部分空間（ｔ番目の部分空間）の状態ｉから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態ｊに遷移する確率を（ｉ、ｊ）成分に含む行列Ｑを示している。（式２）では、一の状態から次の状態へと遷移する遷移確率行列Ｐを順次掛け合わせた行列Ｑを定義している。

次に、（式３）では、選択を受け付けた部分空間（ｔ番目の部分空間）の状態ｉから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態のいずれかに遷移するまでのコストの期待値を第ｉ成分に含むベクトルｂを定義している。

そして、選択を受け付けた部分空間（ｔ番目の部分空間）の状態ｉから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態ｊに遷移する確率を（ｉ、ｊ）成分に含む行列Ｑ（式２）、及び選択を受け付けた部分空間（ｔ番目の部分空間）の状態ｉから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態のいずれかに遷移するまでのコストの期待値を第ｉ成分に含むベクトルｂを用いて、ゲインを示す変数ｇ、部分空間ｔの各状態のバイアスを表す変数であるベクトルｈ_t（ｔ＝１）を、（式４）に示す連立方程式の解として求める。

（式４）において、行列Ｉは単位行列を、ベクトル１は全ての成分が１であるベクトルを、それぞれ示している。そして、ゲインを示す変数ｇ、部分空間ｔの各状態のバイアスを表す変数であるベクトルｈ_t（ｔ＝１）を求めることができ、再帰算出部２０４は、ゲインを示す変数ｇ、部分空間ｔの各状態のバイアスを表す変数であるベクトルｈ_t（ｔ＝１）で定まる確率とコストの期待値とに基づいて、（ｔ−１）番目の部分空間から順に価値とコストの期待値とを再帰的に算出する。

具体的にはｔ＝１であるので、次はベクトルｈ_t（ｔ＝Ｔ）を算出し、以下順次再帰的に算出する。すなわち、まず部分空間ｔ（ｔ＝Ｔ）の各状態のバイアスを表す変数であるベクトルｈ_t（ｔ＝Ｔ）を求めることができ、以下（式５）に示すように、順次再帰的にベクトルｈ_t（ｔ＝Ｔ−１）、ベクトルｈ_t（ｔ＝Ｔ−２）、・・・、ベクトルｈ_t（ｔ＝２）を求めることができる。

（式５）において、ベクトル１は、全ての成分が１であるベクトルを示す。（式１）に示すように、逆行列を計算してベクトルｈ_t（ｔ＝１、・・・、Ｔ）を直接求めるのではなく、まず最も状態数が少ない部分空間ｔについてベクトルｈ_tを算出し、そこから再帰的に他の部分空間についてのベクトルｈ_tを算出する。したがって、演算処理負荷を大幅に軽減することが可能となる。

図３は、本発明の実施の形態に係る情報処理装置１のＣＰＵ１１の処理手順を示すフローチャートである。図３において、情報処理装置１のＣＰＵ１１は、状態空間の一部であるＴ（Ｔは自然数）個の部分空間を特定する（ステップＳ３０１）。ＣＰＵ１１は、特定された部分空間のうち、ｔ（ｔは自然数、ｔ≦Ｔ）番目の部分空間の選択を受け付ける（ステップＳ３０２）。本実施の形態では、Ｔ個の部分空間のうちｔ番目の部分空間として、最も状態数が少ない部分空間の選択を受け付ける。

ＣＰＵ１１は、選択を受け付けたｔ番目の部分空間における一又は複数の状態から一周期後のｔ番目の部分空間における一又は複数の状態に到達する遷移確率行列Ｑを算出する（ステップＳ３０３）。ＣＰＵ１１は、選択を受け付けた部分空間（ｔ番目の部分空間）の状態ｉから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態ｊに遷移するまでのコストの期待値を第ｉ成分に含むベクトルｂを算出する（ステップＳ３０４）。

そして、ＣＰＵ１１は、算出した行列Ｑ、及びベクトルｂを用いて、ゲインを示す変数ｇ、部分空間ｔの各状態のバイアスを表す変数であるベクトルｈ_t（ｔ＝１）を算出する（ステップＳ３０５）。ＣＰＵ１１は、ゲインを示す変数ｇ、部分空間ｔの各状態のバイアスを表す変数であるベクトルｈ_tを用いて、部分空間ｔ−１の各状態のバイアスを表す変数であるベクトルｈ_t-1を算出する（ステップＳ３０６）。なお、ｔ＝１の場合は、ベクトルｈ_t-1はベクトルｈ₀＝ベクトルｈ_Tを算出する。周期性を有するからである。

ＣＰＵ１１は、ベクトルｈ_t+1（ｔ＝１）を算出したか否かを判断する（ステップＳ３０７）。ベクトルｈ_t+1まで算出した時点で一周期分のすべての部分空間について再帰的にベクトルｈを算出したことになるからである。

ＣＰＵ１１が、ベクトルｈ_t+1を算出していないと判断した場合（ステップＳ３０７：ＮＯ）、ＣＰＵ１１は、ベクトルｈの引数ｔを‘１’デクリメントし（ステップＳ３０８）、処理をステップＳ３０６へ戻して、上述した処理を繰り返す。ＣＰＵ１１が、ベクトルｈ_t+1を算出したと判断した場合（ステップＳ３０７：ＹＥＳ）、ＣＰＵ１１は、処理を終了する。

なお、選択を受け付けた部分空間（ｔ番目の部分空間）の状態ｉから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態のいずれかに遷移するまでのコストの期待値を第ｉ成分に含むベクトルｂを定義する場合、将来的に発生するコストを割り引いても良い。すなわち、上述した（式３）に割引率λ（０＜λ＜１）を、状態遷移に応じて乗算すれば良い。（式６）に、将来的に発生するコストを割り引く場合の、選択を受け付けた部分空間（ｔ番目の部分空間）の状態ｉから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態のいずれかに遷移するまでのコストの期待値を第ｉ成分に含むベクトルｂの定義を示す。

この場合、選択を受け付けた部分空間（ｔ番目の部分空間）の状態ｉから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態ｊに遷移する確率を（ｉ、ｊ）成分に含む行列Ｑ（式２）、及び選択を受け付けた部分空間（ｔ番目の部分空間）の状態ｉから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態のいずれかに遷移するまでのコストの期待値を第ｉ成分に含むベクトルｂを用いて、ゲインを示す変数ｇ、部分空間ｔの各状態のバイアスを表す変数であるベクトルｈ_t（ｔ＝１）を、（式７）に示す連立方程式の解として求める。

（式７）において、行列Ｉは単位行列を示している。そして、ゲインを示す変数ｇ、部分空間ｔの各状態のバイアスを表す変数であるベクトルｈ_t（ｔ＝１）を求めることができ、再帰算出部２０４は、ゲインを示す変数ｇ、部分空間ｔの各状態のバイアスを表す変数であるベクトルｈ_t（ｔ＝１）で定まる確率とコストの期待値とに基づいて、（ｔ−１）番目の部分空間から順に価値とコストの期待値とを再帰的に算出する。

具体的にはｔ＝１であるので、次はベクトルｈ_t（ｔ＝Ｔ）を算出し、以下順次再帰的に算出する。すなわち、まず部分空間ｔ（ｔ＝Ｔ）の各状態のバイアスを表す変数であるベクトルｈ_t（ｔ＝Ｔ）を求めることができ、以下（式８）に示すように、順次再帰的にベクトルｈ_t（ｔ＝Ｔ−１）、ベクトルｈ_t（ｔ＝Ｔ−２）、・・・、ベクトルｈ_t（ｔ＝２）を求めることができる。

（式８）では（式５）とは異なり、ゲインｇを用いない。これは、将来的に発生するコストを事前に割り引いているので、ゲインｇは０（ゼロ）と考えても良いからである。

以上のように本実施の形態によれば、マルコフ決定過程が周期性を有する場合には、最適施策を求めることが可能な問題の規模を拡大することができ、従来の価値反復（ＶａｌｕｅＩｔｅｒａｔｉｏｎ）、施策反復（ＰｏｌｉｃｙＩｔｅｒａｔｉｏｎ）、リニアプログラミング等の方法では解くことができない問題であっても、最適施策を求めることが可能となる。

なお、上述した実施の形態では、ゲインｇをマルコフ決定過程の１状態遷移当たりの平均利得として求めており、すべての状態に対してゲインが一意に定まると仮定している。しかし、現実の問題では、ゲインが状態ごとに異なる場合も想定される。この場合、ゲインｇも、部分空間ｔごとのベクトル値として算出される。つまり、Ｔ（Ｔは自然数）個の部分空間それぞれに対する価値変数としてゲインベクトルｇを算出し、マルコフ決定過程を最適化しても良い。

したがって、選択を受け付けた部分空間（ｔ番目の部分空間）の状態ｉから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態ｊに遷移する確率を（ｉ、ｊ）成分に含む行列Ｑ（式２）、及び選択を受け付けた部分空間（ｔ番目の部分空間）の状態ｉから、選択を受け付けた部分空間外の状態への遷移を経て、選択を受け付けた部分空間の状態のいずれかに遷移するまでのコストの期待値を第ｉ成分に含むベクトルｂを用いて、ゲインを示す変数ベクトルｇ_r（ｔ＝１）、部分空間ｔの各状態のバイアスを表す変数であるベクトルｈ_t（ｔ＝１）を、（式９）に示す連立方程式の解として求める。

（式９）において、行列Ｉは単位行列を示している。そして、ゲインを示す変数ベクトルｇ_t（ｔ＝１）、部分空間ｔの各状態のバイアスを表す変数であるベクトルｈ_t（ｔ＝１）を求めることができ、再帰算出部２０４は、ゲインを示す変数ベクトルｇ_t（ｔ＝１）、部分空間ｔの各状態のバイアスを表す変数であるベクトルｈ_t（ｔ＝１）で定まる確率とコストの期待値とに基づいて、（ｔ−１）番目の部分空間から順に価値とコストの期待値とを再帰的に算出する。

具体的にはｔ＝１であるので、次はベクトルｇ_t（ｔ＝Ｔ）を算出し、以下順次再帰的に算出する。すなわち、まず部分空間ｔ（ｔ＝Ｔ）のゲインベクトルｇ_t（ｔ＝Ｔ）を求めることができ、ゲインベクトルｇ_t（ｔ＝Ｔ）を用いて、ベクトルｈ_t（ｔ＝Ｔ）を算出する。以下（式１０）に示すように、順次再帰的にゲインベクトルｇ_t（ｔ＝Ｔ−１）とベクトルｈ_t（ｔ＝Ｔ−１）とを算出し、ゲインベクトルｇ_t（ｔ＝Ｔ−２）とベクトルｈ_t（ｔ＝Ｔ−２）とを算出し、以下順次ゲインベクトルｇ_tとベクトルｈ_tとを一対として、再帰的に算出することができる。

従来の価値反復（ＶａｌｕｅＩｔｅｒａｔｉｏｎ）、施策反復（ＰｏｌｉｃｙＩｔｅｒａｔｉｏｎ）、線形計画等の方法では解くことができない規模の問題に対して、上述した演算方法を適用した結果を図４に示す。図４は、本発明の実施の形態に係る情報処理装置１で、マルコフ決定過程を用いて最適施策を求めた場合の演算処理時間を比較した表である。

図４では、解くべき問題の規模を、状態数と状態アクションペア数との積で示している。いわゆる汎用的な最適化エンジンであるＣＰＬＥＸを使用する場合、問題４までが限界であり、問題５以上の規模となると解くことができない。周知の技術である施策反復（ＰｏｌｉｃｙＩｔｅｒａｔｉｏｎ）を適用した場合、規模が大きくなっても問題を解くことはできる。

しかし、問題７では、２００７８秒と５時間近い演算処理時間を要し、実際に施策を決定する時間としては長すぎる。しかし、本実施の形態に係る方法を適用した場合、最も規模が大きい問題７でも３分強で最適施策を決定することができる。そして、問題の規模が大きくなるほど、演算処理の高速化効果は高まることがわかる。したがって、本実施の形態に係る方法は、マルコフ決定過程が周期性を有する場合には、問題の規模が大きくなるほど演算処理負荷を大きく軽減することができ、適用することが可能な問題の規模を拡大することが可能となる。

上述した本実施の形態に係る、マルコフ決定過程が周期性を有する場合に、既存の計算方法よりも効率的に最適施策を決定する方法は、電力会社における発電計画にも適用することができる。例えば、発電計画として、次の３０分間に発電する発電量を１５分前に決定し、３分ごとの蓄電池の充放電量を決定することを想定する。この場合、は３０分／３分＝１０の周期Ｔを有することになる。

また、状態空間は、時刻ｔにおける「状態」を部分空間とするように分割され、時刻ｔの部分空間からは時刻（ｔ＋１）の部分空間にしか遷移しない。ここで「状態」は、時間ｔ、予定発電量と使用電力量との差ｘ、蓄電量ｙ、設定済み発電ターゲット量ｚにより定義されるものとする。

時刻ｔは、１、２、・・・、Ｔのいずれかであり、ｘは周期Ｔ内の時刻０から時刻ｔまでの発電予定量と使用電力実績量との差を、ｙは蓄電池の蓄電量を、ｚはｔ＝５で決定された発電予定量と次の３０分間の使用電力予測量との差を、それぞれ意味することになる。

上記モデルにマルコフ決定過程を用いることで、各状態について最適なアクション、例えば次の３分間の充放電量と、ｔ＝５の時には次の３０分間に発電する電力量を決定することができる。

なお、（式１）における行列Ｐ_t,t+1は、時点ｔの状態から時点ｔ＋１の状態への遷移確率を要素に含む行列を、ベクトルｃ_tは、時点ｔの各状態のコストを、それぞれ示す。本モデルにおけるコストとは、例えばアクションが充電である場合には、充電効率が１より小さいことによる次の３分間の電力損失に相当するコストを、あるいはｔ＝Ｔである場合、充電による電力損失コストに加えて、発電予定量と使用電力実績の差に応じて発生するコストを、それぞれ意味する。発電予定量と使用電力実績の差に応じて発生するコストとは、例えば追加の電力を購入するコスト、余剰電力が生じたことによるペナルティー等である。

なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨の範囲内であれば多種の変更、改良等が可能である。例えば、上述した実施の形態では、ｔ番目の部分空間における一又は複数の状態の価値及びコストの期待値を算出しているが、それぞれ平均値を算出して代表値としても良い。

１情報処理装置
１１ＣＰＵ
１２メモリ
１３記憶装置
１４Ｉ／Ｏインタフェース
１５ビデオインタフェース
１６可搬型ディスクドライブ
１７通信インタフェース
１８内部バス
９０可搬型記録媒体
１００コンピュータプログラム

Claims

少なくとも一の状態を有するＴ（Ｔは自然数）個の部分空間が周期構造を有するマルコフ決定過程を用いて最適施策を決定する装置のコンピュータで実行する方法であって、
前記コンピュータが、
状態空間の一部である部分空間を特定する工程と、
特定された部分空間のうち、ｔ（ｔは自然数、ｔ≦Ｔ）番目の部分空間の選択を受け付ける工程と、
選択を受け付けたｔ番目の部分空間における一又は複数の状態から一周期後のｔ番目の部分空間における一又は複数の状態に到達する確率とコストの期待値とを算出する工程と、
算出したｔ番目の部分空間における確率とコストの期待値とに基づいて、（ｔ−１）番目の部分空間における価値とコストの期待値とを算出し、以下、ｔを順次１までデクリメントし、次にｔをＴから順次デクリメントして（ｔ＋１）になるまで、すべてのｔについて（ｔ−１）番目の部分空間における価値とコストの期待値とを再帰的に算出する工程と
を含む方法。
前記コンピュータが、
Ｔ個の部分空間のうちｔ番目の部分空間として、最も状態数が少ない部分空間の選択を受け付ける請求項１に記載の方法。
前記コンピュータが、
ｔ番目の部分空間における一又は複数の状態の価値及びコストの期待値の平均値を算出する請求項１又は２に記載の方法。
前記コンピュータが、
Ｔ個の部分空間それぞれに対して価値変数を算出し、マルコフ決定過程を最適化する請求項１乃至３のいずれか一項に記載の方法。
少なくとも一の状態を有するＴ（Ｔは自然数）個の部分空間が周期構造を有するマルコフ決定過程を用いて最適施策を決定する装置であって、
状態空間の一部である部分空間を特定する部分空間特定部と、
特定された部分空間のうち、ｔ（ｔは自然数、ｔ≦Ｔ）番目の部分空間の選択を受け付ける選択受付部と、
選択を受け付けたｔ番目の部分空間における一又は複数の状態から一周期後のｔ番目の部分空間における一又は複数の状態に到達する確率とコストの期待値とを算出する確率・コスト算出部と、
算出したｔ番目の部分空間における確率とコストの期待値とに基づいて、（ｔ−１）番目の部分空間における価値とコストの期待値とを算出し、以下、ｔを順次１までデクリメントし、次にｔをＴから順次デクリメントして（ｔ＋１）になるまで、すべてのｔについて（ｔ−１）番目の部分空間における価値とコストの期待値とを再帰的に算出する再帰算出部と
を備える装置。
Ｔ個の部分空間のうちｔ番目の部分空間として、最も状態数が少ない部分空間の選択を受け付ける請求項５に記載の装置。
ｔ番目の部分空間における一又は複数の状態の価値及びコストの期待値の平均値を算出する請求項５又は６に記載の装置。
Ｔ個の部分空間それぞれに対して価値変数を算出し、マルコフ決定過程を最適化する請求項５乃至７のいずれか一項に記載の装置。
少なくとも一の状態を有するＴ（Ｔは自然数）個の部分空間が周期構造を有するマルコフ決定過程を用いて最適施策を決定する装置で実行することが可能なコンピュータプログラムであって、
前記装置を、
状態空間の一部である部分空間を特定する部分空間特定手段、
特定された部分空間のうち、ｔ（ｔは自然数、ｔ≦Ｔ）番目の部分空間の選択を受け付ける選択受付手段、
選択を受け付けたｔ番目の部分空間における一又は複数の状態から一周期後のｔ番目の部分空間における一又は複数の状態に到達する確率とコストの期待値とを算出する確率・コスト算出手段、及び
算出したｔ番目の部分空間における確率とコストの期待値とに基づいて、（ｔ−１）番目の部分空間における価値とコストの期待値とを算出し、以下、ｔを順次１までデクリメントし、次にｔをＴから順次デクリメントして（ｔ＋１）になるまで、すべてのｔについて（ｔ−１）番目の部分空間における価値とコストの期待値とを再帰的に算出する再帰算出手段
として機能させるコンピュータプログラム。