JP2005108147A

JP2005108147A - 最適意思決定支援方法とプログラム

Info

Publication number: JP2005108147A
Application number: JP2003344264A
Authority: JP
Inventors: Yasushi Fujiwara; 靖藤原
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2003-10-02
Filing date: 2003-10-02
Publication date: 2005-04-21

Abstract

【課題】多数の不確実性要因を含み多期間にわたる逐次的意思決定問題についても、少ない計算機資源で最適計画の立案・評価を効率よく高速に行う。
【解決手段】状態データ決定ステップＳ１００においては、対象期間において考慮すべき複数の離散成分／選択肢組を決定する（Ｓ１０１）と共に、対象期間における意思決定に使用する複数のサンプルパスを決定する（Ｓ１０２）。回帰的評価ステップＳ１１０においては、評価対象時点ｔを、最終時点「Ｔ」からさかのぼって各時点毎に回帰的近似処理と評価計算処理（Ｓ１１２，Ｓ１１３）を繰り返す。回帰的近似処理においては、各離散成分／選択肢組毎に、回帰手法により価値関数を近似して近似関数を算出し、評価計算処理においては、各サンプルパス／離散成分組毎に、近似関数により選択肢の評価値を計算し、算出した評価値に基づき当該組の選択肢を決定する。
【選択図】図１

Description

本発明は、不確実性要因を含む逐次的意思決定問題として与えられる最適計画の立案・評価に関するものであり、特に、多数の不確実性要因を含み多期間にわたる設備投資計画の立案・評価に関する。

近年、製造業や電力供給事業等の各種の事業において、設備投資案件の大型化と事業環境の不確実性の増大が同時進行しており、最適な設備投資計画の立案・評価が重要になっている。小規模な投資計画の場合には、スプレッドシート上で容易に価値を評価できるが、現実の設備投資計画は、タイミング最適化など逐次的意思決定であり、一般には動的計画法を用いて解く必要がある。

動的計画法によれば、不確実性要因を考慮することは可能であるが、多数の不確実性要因を含み多期間にわたる逐次的意思決定問題においては、不確実性要因数および期間数に応じて状態数が指数関数的に増大する結果、価値評価に必要な処理時間・記憶容量が指数関数的に増大してしまい、動的計画法問題を厳密に解くことはほとんど不可能となる。

一方、特許文献１は、数理計画手法を生産計画や設備投資などに適用する技術を提案している。この技術は、将来の不確実性要因に対して想定される複数の状況と複数の意思決定案を組み合わせ、各意思決定案について、各状況における最適生産活動価値指標と複数の状況により生じる価値変動リスク指標を求めることにより、将来の不確実性に起因するリスクを評価しながら同時に利益最大という生産活動の経済性を目指した合理的な意思決定を実現できるようにしたものである。しかしながら、この特許文献１の技術は、複数の各期間毎に、かつ、各意思決定案（選択肢）毎に、複数の状況の各々における最適生産活動モデルを構築して最適生産活動価値指標を算出しなければならないため、多数の不確実性要因および多段階の意思決定期間を含む逐次的意思決定問題への適用は実際上困難である。

また、非特許文献１は、オプションの継続価値を関数近似することで、アメリカ型オプションの価値がモンテカルロシミュレータで評価できることを開示している（経営学の分野においては、オプションのうち、どの時点でも権利行使できるオプションをアメリカ型と呼び、満期日にのみ権利行使できるオプションをヨーロッパ型と呼ぶ）。この手法は、従来のアメリカ型オプション評価手法と比べて高速に計算が可能であり、必要な計算機資源も少なくて済む。

特願２００２−２１８７７７ Longstaff-Schwartz "Valuing American options by simulation: a simple least-squares approach", Review of Financial Studies, 2001, V. 14, no.1

上記のように、従来の動的計画法によれば、多数の不確実性要因を含み多期間にわたる逐次的意思決定問題においては、不確実性要因数および期間数に応じて状態数が指数関数的に増大する結果、価値評価に必要な処理時間・記憶容量が指数関数的に増大してしまい、動的計画法問題を厳密に解くことはほとんど不可能となる。このことは、周知の事実であり、従来の設備投資計画の立案・評価における大きな障害となっている。

本発明は、以上のような従来技術の問題を解決するために提案されたものであり、その目的は、多数の不確実性要因を含み多期間にわたる逐次的意思決定問題についても、少ない計算機資源で最適計画の立案・評価を効率よく高速に行うことが可能な最適意思決定支援方法とプログラムを提供することである。

本発明は、状態を離散成分と連続成分に分類し、対象期間にわたる連続成分の複数のサンプルパスを使用して、各意思決定時点での価値関数を回帰手法により近似することにより、複数のサンプルパスから近似的に最適な意思決定規則を抽出して、状態数の指数的増加の問題を回避し、高速な計算を可能としたものである。また、サンプルパスについては、モンテカルロシミュレータや過去データ等から容易に入手可能なデータを用いることができるため、確率分布をモデル化する等の作業を行う必要なしに、最適な意思決定規則が容易に得られることも本発明の大きな利点である。

請求項１の発明は、入出力部、記憶部、演算処理部を有するコンピュータを利用して、不確実性要因を含みかつ対象となる期間にわたる逐次的意思決定問題として与えられる最適計画の立案・評価を支援する最適意思決定支援方法において、状態データ決定ステップと回帰的評価ステップを含むことを特徴としている。ここで、状態データ決定ステップは、前記期間の各意思決定時点で想定される各状態を、意思決定結果に応じて決定される離散成分と前記不確実性要因に対して想定される連続成分とに分類した場合に、前記入出力部により与えられたユーザの指示に基づき、前記演算処理部により、状態に関するデータを決定して、その決定内容を状態データとして前記記憶部に格納するステップである。状態に関するデータとしては、当該期間において考慮すべき複数の離散成分と意思決定結果となる複数の選択肢との組み合わせを示す複数の離散成分／選択肢組を決定すると共に、当該期間にわたる連続成分の変化パターンを示すデータとして、各意思決定時点に当該時点での連続成分の値をそれぞれ対応させた複数のサンプルパスを決定する。また、回帰的評価ステップは、前記記憶部に格納された前記状態データに基づき、前記演算処理部により、前記期間の各意思決定時点毎に、各時点での意思決定による価値を各前記離散成分／選択肢組毎に前記連続成分の関数として示す価値関数を、回帰手法により前記複数のサンプルパスを用いて近似し、得られた近似関数に基づいて当該時点での意思決定を評価し、評価結果を前記記憶部に保存するステップである。

請求項８の発明は、請求項１の発明をコンピュータプログラムの観点から把握したものであり、入出力部、記憶部、演算処理部を有するコンピュータを利用して、不確実性要因を含みかつ対象となる期間にわたる逐次的意思決定問題として与えられる最適計画の立案・評価を支援するための最適意思決定支援プログラムにおいて、請求項１の発明における各ステップの機能に対応する状態データ決定機能、回帰的評価機能をコンピュータに実現させることを特徴としている。

請求項２の発明は、請求項１の最適意思決定支援方法において、前記複数のサンプルパスが、モンテカルロシミュレーションによって発生させた複数のサンプルパスであることを特徴としている。

請求項３の発明は、請求項１の最適意思決定支援方法において、前記複数のサンプルパスが、過去に採取したデータであることを特徴としている。

以上のような発明によれば、複数のサンプルパスを使用して、各意思決定時点毎に、各離散成分／選択肢組毎の価値関数を回帰手法で近似することにより、用意した複数のサンプルパスから近似的に最適な意思決定規則（近似関数）を効率よく抽出できるため、通常の動的計画法による解法における状態数の指数的増加の問題を回避し、必要な処理時間・記憶容量を低減できる。この場合、状態を離散成分と連続成分に分類して、対象期間において考慮すべき複数の離散成分／選択肢組と、対象期間にわたる連続成分の変化パターンを示す複数のサンプルパスという２種類のデータを使用することにより、不確実性要因と各期間の意思決定による状態の変化を統計学的に合理的に表現することができる。しかも、既存のモンテカルロシミュレータによって多数発生させたサンプルパスや、過去に採取した多数のデータ等の、容易に入手可能なサンプルパスを使用することにより、確率分布をモデル化する等の複雑な計算アルゴリズムを使用することなしに最適な意思決定規則を得ることができる。

したがって、多数の不確実性要因を含み多期間にわたる逐次的意思決定問題についても、複数のサンプルパスから近似的に最適な意思決定規則を効率よく抽出することにより、必要な処理時間・記憶容量をできるだけ低減することができるため、少ない計算機資源で最適計画の立案・評価を効率よく高速に行うことができる。

請求項４の発明は、請求項１乃至請求項３のいずれかの最適意思決定支援方法において、回帰的評価ステップが、回帰的近似ステップと評価計算ステップを含むことを特徴としている。ここで、回帰的近似ステップは、各意思決定時点毎に、各離散成分／選択肢組毎に、回帰手法により複数のサンプルパスを用いて価値関数を近似し、近似関数を得るステップである。また、評価計算ステップは、各意思決定時点毎に、サンプルパスと離散成分との各組み合わせ毎に、当該組み合わせに対して選択可能な各選択肢を選択した場合の各評価値を、近似関数により計算し、算出した評価値に基づいて当該組み合わせの選択肢を決定するステップである。

請求項５の発明は、請求項４の最適意思決定支援方法において、回帰的評価ステップが、評価結果出力ステップを含むことを特徴としている。ここで、評価結果出力ステップは、期間の最終時点から初期時点まで、近似ステップと評価計算ステップを繰り返した後に、当該初期時点における全ての前記サンプルパスについての前記評価値の平均を算出し、当該期間における意思決定結果として得られる計画の評価値として出力するステップである。

以上のような発明によれば、各意思決定時点で、近似的に最適な意思決定規則に基づき、状態の各離散成分に対して選択可能な選択肢を選択した場合の評価値を計算し、算出した評価値に基づいて選択肢を自動的に決定することにより、ユーザ自身が算出された評価値の評価を行う必要なしに、各意思決定時点における最適な意思決定の評価を効率よく高速に行うことができる。また、各意思決定時点について得られた評価値の平均を算出し、当該計画の評価値として自動的に出力することにより、ユーザ自身が対象期間にわたる各時点の評価値の総合的評価を行う必要なしに、最適計画の立案・評価を効率よく高速に行うことができる。

請求項６の発明は、請求項１乃至請求項５のいずれかの最適意思決定支援方法において、回帰手法が最小二乗法であることを特徴としている。
本発明で使用する回帰手法としては、各種の回帰手法が使用可能であるが、一般的には、最小二乗法を使用することにより、計算に必要な処理時間・記憶容量を節約することができるため、計算機資源の節約、最適計画の立案評価の効率化・高速化に貢献できる。

請求項７の発明は、請求項１乃至請求項６のいずれかの最適意思決定支援方法において、最適計画が設備投資計画であることを特徴としている。
本発明は各種の最適計画の立案・評価に適用可能であるが、特に、多数の不確実性要因を含み多期間にわたる設備投資計画の立案・評価の効率化・高速化に好適である。

以上説明したように、本発明によれば、状態を離散成分と連続成分に分類し、対象期間にわたる連続成分の複数のサンプルパスを使用して、各意思決定時点での価値関数を回帰手法により近似することにより、複数のサンプルパスから近似的に最適な意思決定規則を抽出できるため、状態数の指数的増加の問題を回避し、高速な計算が可能となる。また、サンプルパスについては、モンテカルロシミュレータや過去データ等から容易に入手可能なデータを用いることができるため、確率分布をモデル化する等の作業を行う必要なしに、最適な意思決定規則が容易に得られる。したがって、本発明によれば、多数の不確実性要因を含み多期間にわたる逐次的意思決定問題についても、少ない計算機資源で高速に最適計画の立案・評価を行うことが可能な最適意思決定支援方法とプログラムを提供することができる。

以下に、本発明の実施形態を図面に沿って具体的に説明する。ただし、ここで記載する実施形態は、本発明を何ら限定するものではなく、本発明の一態様を例示するものにすぎない。

本発明は、典型的には、コンピュータをソフトウェアで制御することにより実現される。この場合のソフトウェアは、コンピュータのハードウェアを物理的に活用することで本発明の作用効果を実現するものであり、また、従来技術を適用可能な部分には好適な従来技術が適用される。さらに、本発明を実現するハードウェアやソフトウェアの具体的な種類や構成、ソフトウェアで処理する範囲などは自由に変更可能であり、例えば、本発明を実現するプログラムは本発明の一態様である。

［一般の逐次的意思決定問題の定式化］
本発明が扱う設備投資計画は、逐次的意思決定問題と呼ばれ、前述した通り、一般には動的計画法で解けることが知られている。本発明は、状態を離散成分と連続成分に分類するというその特徴から、扱える問題の範囲は限られており、全ての逐次的意思決定問題を扱えるわけではないが、扱える場合は高速な解法が可能になる。本発明が扱えるための条件を明確にするために、ここではまず、一般の逐次的意思決定問題の定式化を行う。

最初に、次の状態方程式（１）で定義される系を考える。
ここで、ｘ_tは時点tでの状態（一般にベクトル値）、ｕ_tは選択肢、ｗ_tはノイズである。逐次的意思決定の目的は、与えられた初期値ｘ₀に対して、次の式（２）で示される報酬が最大となるような選択肢の列ｕ_t（ｔ＝１，２，…，Ｔ）を選ぶことである。
ただし、ｕ_tは、時点t、状態ｘ_t-1で選択可能な選択肢の集合Ｕ_t（ｘ_t-1）に属する。簡単のため、任意の時点tと状態ｘ_t-1に対し、次の式（３）が成立するものとする。

動的計画法では、時点t、状態ｘ_tでの価値関数Ｖ_t（ｘ_t）が重要である。価値関数は次の方程式（４）で帰納的に決定される。

動的計画法の一般論より、状態ｘ_t-1での選択肢ｕ_tを、次の式（５）に示すように取ることで、上記の逐次的意思決定問題の解が得られることが知られている。

すなわち、上記の方程式（４）を最終時点Ｔから時点０にさかのぼって解いて関数Ｖ_t（ｔ＝Ｔ，…，１，０）を求めたとき、Ｖ₀（ｘ₀）が最大報酬を実現する。具体的な意思決定においては、時点０、状態ｘ₀に対し、上で定義された選択肢ｕ₀を採用する。その結果得られた時点１での状態ｘ₁に対し、同様な方法で選択肢ｕ₁を採用する。以下、この操作を繰り返すことで、具体的な意思決定を行うことができる。関数Ｖｔは価値関数と呼ばれ、状態の時点ｔからＴまでの最大期待報酬を与える。

［適用対象となる逐次的意思決定問題の範囲］
上記のように、本発明は、状態を離散成分と連続成分に分類するというその特徴から、扱える問題の範囲は限られている。以下には、本発明で扱える問題の範囲、すなわち、本発明の適用対象となる逐次的意思決定問題の範囲、について具体的な例を挙げて説明する。

まず、一例として、ある保有株式（保有事業部門でも良いが）をどの時点で売却するかという問題を想定する。簡単のため、売却する際は全額を売却し、その後は何の行動も取らないとする。これは、逐次的意思決定問題として定式化できる。状態としては、株価と「売却済みかどうか」を表すブール変数の組を取る。「売却済みかどうか」を表すブール変数は意思決定を行う都合上導入される。この問題で重要なのは、多数の不確実性要因によって変動する株価である。これに対し、売却するという意思決定は、実際の大口の取引では株式の売却が株価に及ぼす影響は無視できないが、それ以外の通常の場合、株価に影響しないと考えることができる。

本発明が取り扱うのは、このような状況、すなわち、売却等の意思決定によって変化する株式の保有・非保有等の状態と、不確実性要因によって変化する株価等の状態との間に依存関係がなく、互いに独立しているような状況、を一般化した場合である。すなわち、本発明においてはまず、次の式（６）に示すように、状態ｘ_tを、意思決定によって変化する離散成分ｘ_t ^(d)と、不確実性要因によって変化する連続成分ｘ_t ^(c)に分類する。なお、離散成分は、意思決定を行う都合上導入したもので、連続成分が本来の興味の対象である。

さらに、時点ｔ、状態ｘ_t-1で選択可能な選択肢の集合Ｕ_t（ｘ_t-1）は時点ｔと離散成分ｘ_t-1 ^(d)にのみ依存すると仮定する（このことを強調するため、Ｕ_t（ｘ_t-1）をＵ_t（ｘ_t-1 ^(d)）とも書く）。簡単のため、状態方程式も離散成分と連続成分に分かれるとする。すなわち、関数ｈ_t ^(d)とｈ_t ^(c)が存在し、次の式（７）で表せるものとする。

この場合に、初期状態が与えられると、状態の離散成分は、選択肢列で決定され、連続成分やノイズには影響されない。一方、状態の連続成分は、選択肢に影響されず、前の状態の連続成分とノイズのみに影響されるので、ある確率分布にしたがって生成されるものとみなせる。最後に、離散成分全体の集合Ｄ、選択肢全体の集合Ｕは、ともに有限集合であると仮定しても、一般性を失わない。

上の例について説明すれば、可能な選択肢は、「売却済みかどうか」を表すブール変数にのみ依存し、株価に依存しない。売却済みでなければ（ブール変数の値が「ｎｏ」ならば）、株価に関わらず、「売却する」と「保持し続ける」の選択肢が共に利用可能である。また、「売却済みかどうか」を表すブール変数の値は、その前の時点におけるブール変数の値と意思決定（「売却する」か「保持し続ける」か）のみで決定され、状態の連続成分に依存しない。

なお、会社が株式を保有している場合など、一定の水準を株価が割り込むと社内規定で強制的に売却することがある。このような場合には、利用可能な選択肢が状態の連続成分である株価に依存することになり、ここで考える方法では一見扱えない。しかし、一定の水準以下の株価で「保持し続ける」という選択を下したときの報酬を非常に大きな負の数（たとえばマイナス無限大）にすれば、「売却する」しか選択されないので、本発明が扱える問題に実質的に帰着できる。

［近似的に最適な意思決定規則を抽出するための原理］
以下には、本発明において逐次的意思決定問題を解くための重要な原理、すなわち、近似的に最適な意思決定規則を抽出するための原理について説明する。

本発明の扱う逐次的意思決定問題では、状態の連続成分はある確率分布により生成されるので、既存のモンテカルロシミュレータにより、サンプルパスを多数発生させることが可能である。なお、サンプルパスは、各意思決定時点ｔ＝０，…，Ｔにその時点での状態（の連続成分）を対応させたものである。また、過去に採取したデータが十分な数あれば、サンプルパスとして過去データを使うことも可能である。

まず、サンプルパスｐの時点ｔにおける状態をｐ［ｔ］で表す。また、サンプルパスｐを時点ｔ以降に制限したものを、ｐ｜_tで表す。ｔ以降Ｔ以前の時点ｔ’に対し、次の式（８）が成立する。

次に、サンプルパスの集合と状態（の離散成分）ｓが与えられたとする。ｓを初期状態（の離散成分）としてサンプルパスｐに意思決定規則Ｒを適用して選択肢列ｕ_tと状態（の離散成分）列ｓ_t（ｓ₀＝ｓ）が得られた時の報酬reward（ｐ，ｓ，Ｒ）を、次の式（９）で定義する。

すでに述べたように、動的計画法は、最適な意思決定規則を与える（ＤＰと書く）。このことより、初期状態（の離散成分）がｓである場合、最適な意思決定による価値の期待値は、サンプルパス全体の集合を式（１０）で定義した場合、動的計画法による報酬のサンプル平均で近似できる。式（１１）は、この場合のサンプル平均を定義している。
なお、サンプル数Ｍが大きくなると、上のサンプル平均は最適な意思決定による価値の期待値に収束する。

本発明の基本的な技術思想は、近似的に最適な意思決定ＡＤＰを用いて、最適な意思決定による価値の期待値の近似値を計算することである。最適な意思決定による価値の期待値の近似値は、次の式（１２）で定義できる。

近似的な意思決定規則ＡＤＰを求める中間段階として、時点ｔ以降で定義される近似的に最適な意思決定規則ＡＤＰ_tをｔ＝Ｔ，…，０に対し順次構成する。ＡＤＰはＡＤＰ₀として求まる。サンプルパスが時点ｔで状態（の離散成分が）ｓであった場合に意思決定規則ＡＤＰ_tを適用した際の報酬をreward（ｐ｜_t，ｓ，ＡＤＰ_t）で表す。

まず、最終時点Ｔでは、reward（ｐ｜_T，ｓ，ＡＤＰ_T）＝ｇ（ｘ_T）である。時点ｔ＋１までの近似的意思決定規則が得られたと仮定して、時点ｔのＡＤＰ_tを構成する。時点ｔでのサンプルパスｐの状態をｓとする。Ｅ［Ｖ_t+1（ｘ_t+1）｜ｘ_t，ｕ］の近似式Ｗ（ｘ_t，ｕ）が利用できれば、次の式（１３）で定義されるｖ_t+1を選択することで、最適な意思決定規則が近似できる。時点ｔのこの規則でＡＤＰ_t+1を拡張したものを、ＡＤＰ_tとすればよい。

Ｅ［Ｖ_t+1（ｘ_t+1）｜ｘ_t，ｕ］の回帰手法による近似について考える。まず、サンプルパスｐ、時点ｔ＋１での連続状態ｐ［ｔ＋１］と選択肢ｕの結果である後続の離散状態ｓ’からの期待報酬reward（ｐ｜_t+1，ｓ’，ＡＤＰ_t+1）を、ｐ［ｔ］の関数と考える。状態の連続成分が実ｒ次元ならば、実ｒ次元空間Ｒ^r上の関数基底を一つ固定し、次の式（１４）で示される（十分大きい）有限個の関数基底の線形和でreward（ｐ｜_t+1，ｓ’，ＡＤＰ_t+1）を最小二乗回帰する。

これにより得られた回帰関数をregr［ｔ］^{(s, u)}と書くと、Ｅ［Ｖ_t+1（ｘ_t+1）｜ｘ_t，ｕ］はregr［ｔ］^{(s, u)}（ｐ［ｔ］）と近似できるので、次の式で表される選択肢ｖ_t+1を選択すればよい。

ＡＤＰ_t+1をこの規則で拡張した規則をＡＤＰ_tで表わす。選択肢ｖ_t+1による後続（離散）状態をｓ’とすると、時点ｔ、離散状態ｓの報酬reward（ｐ｜_t，ｓ，ＡＤＰ_t）は、次の式（１６）で表される。
このように、時点ｔと離散状態ｓに対し、報酬reward（ｐ｜_t，ｓ，ＡＤＰ_t）が帰納的に算出できる。ｔ＝０の場合から、既に述べた方法で意思決定の価値の近似値が求められる。

［最適意思決定支援処理の概要］
図１は、以上のような原理に基づく一つの実施形態に係る最適意思決定支援処理の概要を示すフローチャートである。また、図２は、図１に示すような最適意思決定支援処理を行うためのシステム構成の一例を示すブロック図である。この図２に示すように、メインシステム２００は、コンピュータが基本的に備えているＣＰＵ等の演算処理部２０１、主メモリや各種メモリ等の記憶部２０２、キーボードやマウス、ディスプレイ等の入出力部２０３、といったハードウェア資源を、記憶部２０２に記憶されている特化された最適意思決定支援プログラム２０４により制御することで実現される。

図２のシステムは、このようなメインシステム２００に加えて、さらに、モンテカルロシミュレータ２１１、データベース（ＤＢ）２１２、回帰分析器２１３、等を備えている。ここで、モンテカルロシミュレータ２１１は、サンプルパスを発生させるためにメインシステム２００が使用する手段であり、データベース（ＤＢ）２１２は、モンテカルロシミュレータ２１１で発生したサンプルパスや、サンプルパスとして使用可能な過去データ等を保存する手段である。また、回帰分析器２１３は、サンプルパスを使用して回帰分析を行うためにメインシステム２００が使用する手段である。なお、モンテカルロシミュレータ２１１と回帰分析器２１３は、いずれも、既存の特化されたプログラムにより、メインシステム２００上あるいは外部のコンピュータ上で、仮想的な装置として実現される。

以下には、図２に示すシステム構成により、図１に示す最適意思決定支援処理を行う場合について説明する。まず、図１に示すように、本実施形態の最適意思決定支援処理においては、状態データ決定ステップＳ１００と回帰的評価ステップＳ１１０を行うようになっている。すなわち、状態データ決定ステップＳ１００においては、入出力部２０３により与えられたユーザの指示に基づき、演算処理部２０１により、Ｔ期間（Ｔは自然数）の対象期間において考慮すべき複数の離散成分と複数の選択肢との組み合わせを示す複数の離散成分／選択肢組を決定決定して、その決定内容を状態データとして記憶部２０２に格納する（Ｓ１０１）。同時に、入出力部２０３により与えられたユーザの指示に基づき、演算処理部２０１により、既存のモンテカルロシミュレータ２１１によって発生させたサンプルパスや過去データをデータベース２１２から読み込み、その中から、Ｔ期間の対象期間における意思決定に使用する複数のサンプルパスを決定して、その決定内容を状態データとして記憶部２０２に格納する（Ｓ１０２）。

次に、回帰的評価ステップＳ１１０においては、評価対象時点ｔを、最終時点「Ｔ」からさかのぼって各時点毎に回帰的近似処理と評価計算処理（Ｓ１１２，Ｓ１１３）を繰り返す。ここで、回帰的近似処理においては、記憶部２０２に格納された状態データに基づき、演算処理部２０１により、各離散成分／選択肢組毎に、回帰分析器２１３を利用した回帰手法により価値関数を近似して近似関数、すなわち、「近似された最適な意思決定規則」を算出して、記憶部２０２に格納する（Ｓ１１２）。また、評価計算処理においては、記憶部２０２に格納された状態データと意思決定規則に基づき、演算処理部２０１により、各サンプルパス／離散成分組毎に、「近似された最適な意思決定規則」により選択肢の評価値を計算し、算出した評価値に基づき当該各サンプルパス／離散成分組の選択肢を決定して、記憶部２０２に格納する（Ｓ１１３）。

そして、対象時点を逐次的にさかのぼって（Ｓ１１４，Ｓ１１５のＮＯ）、初期時点「０」までこれらの処理を行った（Ｓ１１５のＹＥＳ）後、記憶部２０２に格納された状態データ、意思決定規則、評価値、に基づき、初期時点からの評価値の平均を算出して、計画の評価値として出力すると共に、記憶部２０２に格納する（Ｓ１１６）。

なお、この図１においては、状態データ決定ステップとして、複数の離散成分／選択肢組を決定した後に複数のサンプルパスを決定した場合について示したが、本発明の状態データ決定ステップはこれに限らず、逆にサンプルパスを決定した後に離散成分／選択肢組を決定してもよく、さらに、サンプルパスと離散成分／選択肢組を同時に決定してもよい。すなわち、状態データ決定ステップにおいては、使用する複数の離散成分／選択肢組と複数のサンプルパスを決定する限り、その具体的な手順は自由に選択可能である。

また、回帰的評価ステップとして、各意思決定時点毎に、回帰的近似処理と評価計算処理を順次繰り返した場合について示したが、本発明の回帰的評価ステップはこれに限らず、各意思決定時点毎の回帰的近似処理を最終時点「Ｔ」から初期時点「０」まで繰り返した後に、各時点毎の評価計算処理を最終時点「Ｔ」から初期時点「０」まで繰り返してもよい。すなわち、回帰的評価ステップにおいては、各意思決定時点について、回帰的近似処理の後に評価計算処理が行なわれる限り、具体的な手順は自由に選択可能である。

［簡単な意思決定問題の処理例］
以下には、図１に示す最適意思決定支援処理を、極めて簡略化された意思決定問題に適用した場合の処理について説明する。まず、状態の連続成分が一次元、期間の数が３とし、状態方程式の連続成分は、次の式（１７）で定義する。

状態の離散成分は「alive」と「halt」であるとする。そして、離散成分「alive」の選択肢は「stop」と「continue」で、選択肢「stop」で「halt」に進み、「continue」だと「alive」のままであるとし、また、離散成分「halt」の選択肢は「continue」のみで、その結果も「halt」であるとする。すなわち、考慮すべき状態の連続成分と選択肢の組は、(alive, stop)、(alive, continue)、(halt, continue)、の３組である。最後に、報酬関数（価値関数）は、次の式（１８）で定義する。この問題の目的は、最大値と思われるところで停止することである。

図３は、使用する複数のサンプルパスとして、各時点に状態の連続成分の値を対応させた３つのサンプルパス「１」〜「３」を表している。各サンプルパスの最大値は、サンプルパス「１」では時点「３」の「１．３４」、サンプルパス「２」では時点「２」の「１．２６」、サンプルパス「３」では時点「０」の「１．００」、である。この意思決定問題において、各時点での回帰的近似処理、評価計算処理は、それぞれ次のようになる。

時点「ｔ＝３」では、状態の離散成分が「alive」なら、ｔ＝３でのサンプルパスの値が、その後の継続価値であり、それぞれ、「１．３４」、「１．２４」、「０．９０」、である。状態の離散成分が「halt」なら、継続価値は「０」である。

次に、時点「ｔ＝２」での回帰的近似処理を行い、各離散成分／選択肢組毎に回帰関数（近似関数）を求める。考慮すべき状態の離散成分と選択肢の組は(alive, stop)、(alive, continue)、(halt, continue)、の３組であるが、状態の離散成分が「halt」の場合、および状態の離散成分が「alive」でも選択肢が「stop」の場合は、その後の継続価値は「０」なので、回帰関数も「０」（定数関数）である。一方、離散成分／選択肢組(alive, continue)の場合は、後続状態は「alive」であり、図３に示すサンプルパスの時点「２」、「３」の各値から、回帰を行うペアは、（１．０８，１．３４）、（１．２６，１．２４）、（０．７７，０．９０）、である。最小二乗回帰を行うことにより、回帰関数「ｙ＝０．７７３ｘ＋０．３５８」が得られる。

続いて、時点「ｔ＝２」での評価計算処理として、サンプルパスと状態の離散成分（この例では「alive」のみ）の各組み合わせ毎に、以上のように得られた回帰関数に基づく意思決定を行った際に期待される報酬値（評価値）を計算し、算出された報酬値に基づき、各サンプルパスの選択肢を決定する。時点「２」で「stop」と「continue」のどちらの選択肢を選択するか、各サンプルパスについて順次考える。サンプルパス「１」では、選択肢「stop」を選択した場合に期待される報酬値は、「１．０８＋０＝１．０８」となる。一方、選択肢「continue」を選択した場合に期待される報酬値は、「０．７７３＊１．０８＋０．３５８＝１．１９３」となるため、「continue」が選択される。その選択により実際に得られる報酬値は「１．３４」である。

サンプルパス「２」については、選択肢「stop」を選択した場合に期待される報酬値は「１．２６」、選択肢「continue」の場合は「０．７７３＊１．２６＋０．３５８＝１．３３２」となるため、「continue」が選択され、この選択による報酬値は「１．２４」（時点「３」）である。最後に、サンプルパス「３」については、選択肢「stop」を選択すると「０．７７」、選択肢「continue」の場合は「０．７７３＊０．７７＋０．３５８＝０．９５３」となるため、「continue」が選択され、この選択による実際の報酬値は「０．９０」である。

このような時点「２」でのデータを受けて、時点「ｔ＝１」での回帰的近似処理を行い、各離散成分／選択肢組毎に回帰関数（近似関数）を求める。時点「１」において考慮すべき状態の離散成分と選択肢の組は(alive, continue)だけであるため、時点「２」での各サンプルパスの報酬値と、図３に示すサンプルパスの時点「１」の各値から得られるペア（１．０９，１．３４）、（１．１６，１．２４）、（０．７６，０．９０）、に対して最小二乗回帰を行うことにより、回帰関数「ｙ＝１．００１ｘ＋０．１５５」が得られる。

続いて、時点「ｔ＝１」での評価計算処理として、以上のように得られた回帰関数に基づく意思決定を行った際の報酬値（評価値）を計算し、算出された報酬値に基づき、各サンプルパスの選択肢を決定する。時点「１」で「stop」と「continue」のどちらの選択肢を選ぶか、各サンプルパスについて順次考える。サンプルパス「１」では、選択肢「stop」を選択した場合に期待される報酬値は「１．０９＋０＝１．０９」となる。一方、選択肢「continue」を選択した場合に期待される報酬値は、「１．００１＊１．０９＋０．１５５＝１．２４６」となるため、「continue」が選択され、実際に得られる報酬値は「１．３４」（時点「３」）である。実際、回帰関数の全係数が正で、ｘの係数が「１」より大であることから、サンプルパス「２」と「３」についても選択肢「continue」が選択され、この選択による実際の報酬値はそれぞれ「１．２４」と「０．９０」である。

最後に、時点「ｔ＝０」については、サンプルパスの値がすべて「１」であることから、離散成分／選択肢組(alive, continue)についての回帰関数は、定数関数「（１．３４＋１．２４＋０．９０）／３＝１．１６」である。「１．１６＞１」であることから、すべてのパス上で「continue」が選択され、この意思決定問題の期待値（評価値）は、初期時点からの継続価値である報酬値の平均「（１．３４＋１．２４＋０．９０）／３＝１．１６」となる。

図４は、以上のような処理によって求めた各時点の回帰関数（近似関数）を示す図であり、また、図５は、各時点におけるサンプルパスと状態の離散成分「alive」の各組み合わせ毎の報酬値（評価値）を示す図である。

［設備投資計画の立案・評価処理例］
以下には、図１に示す最適意思決定支援処理を、より具体的な設備投資計画に適用した場合の処理について説明する。ここでは、ある会社の生産力が需要に比べて十分でないため、生産キャパシティを増強しようとする場合の設備投資計画を想定する。

簡単のため、全体の需要がｘ億円分、工場の生産キャパシティがｙ億円であるとき、会社の出荷額は、ｍｉｎ（ｘ／１０，ｙ）億円とする。毎年、生産キャパシティに比例してｙ／２億円のコストがかかるものとし、さらに、生産キャパシティをｚ億円分増強する意思決定を行った場合には、ｚ億円のコストがかかり、生産キャパシティには翌年度から反映されるとする。簡単のため、設備増強は一度しか行わず、増強した際は１億円分の生産キャパシティが２億円に倍増する（１億円だけ増強する）ものとする。この問題の目的は、このような設備投資計画を持つ会社の期待される総利益を評価することである。

この設備投資計画でも、前記の意思決定問題と同様に、意思決定は一度だけ行われるが、意思決定を行った後の状態が収益等に影響する。例えば、設備を増強した後に需要が急減すれば、大きな赤字が計上される。その意味で、簡単ではあるが、より現実的な設定である。

また、この設備投資計画において、状態の離散成分は「増強前(before)」と「増強後(after)」の２つである。そして、状態の離散成分が「増強前(before)」ならば、２つの選択肢「増強(add)」、「現状維持(keep)」、が選択可能だが、状態が「増強後(after)」であれば１つの選択肢「現状維持(keep)」しか選択できない。すなわち、考慮すべき状態の連続成分と選択肢の組は、(before, keep)、(before, add)、(after, keep)、の３組である。この場合の報酬関数（価値関数）は、次の式（１９）で表される。

ここでｘ_t-1は（ｔ−１）期の需要量である。また、最終時点では意思決定は行われないため、報酬関数は、次の式（２０）で表される。

図６は、この設備投資計画において使用する複数のサンプルパスとして、各時点に状態の連続成分である需要量の値を対応させた３つのサンプルパス「１」〜「３」を表している。この設備投資計画において、各時点での回帰的近似処理、評価計算処理は、それぞれ次のようになる。

時点「ｔ＝２」についての回帰的近似処理を行い、各離散成分／選択肢組毎に回帰関数（近似関数）を求める。時点「２」の場合、考慮すべき離散成分／選択肢組は、(before, keep)、(before, add)、(after, keep)、の３組である。まず、離散成分／選択肢組(before, keep)の場合、時点「３」での状態の離散成分は「before」となるため、図６に示すサンプルパスの時点「２」、「３」の各値と式（２０）から、回帰すべきペアは、「（２０，ｍｉｎ（１５／１０，１）−１／２）＝（２０，１／２）」、「（２０，ｍｉｎ（２５／１０，１）−１／２）＝（２０，１／２）」、「（２５，ｍｉｎ（３０／１０，１）−１／２）＝（２５，１／２）」、であり、回帰関数は「１／２」（定数関数）となる。

また、離散成分／選択肢組(before, add)の場合、時点「３」での状態の離散成分は「after」となるため、図６に示すサンプルパスの時点「２」、「３」の各値と式（２０）から、回帰すべきペアは「（２０，ｍｉｎ（１５／１０，２）−１）＝（２０，０．５）」、「（２０，ｍｉｎ（２５／１０，２）−１）＝（２０，１）」、「（２５，ｍｉｎ（３０／１０，２）−１）＝（２５，１）」、であり、回帰関数は、「ｙ＝０．０５ｘ−０．２５」となる。さらに、離散成分／選択肢組(after, keep)の場合は、回帰ペアは離散成分／選択肢組(before, add)の場合と同じ（２０，０．５）、（２０，１）、（２５，１）、なので、回帰関数も「ｙ＝０．０５ｘ−０．２５」となる。

続いて、時点「ｔ＝２」についての評価計算処理として、サンプルパスと状態の離散成分の各組み合わせ毎に、以上のように得られた回帰関数に基づく意思決定を行った際に期待される報酬値（評価値）を計算し、算出された報酬値に基づき、各組み合わせの選択肢を決定する。すなわち、時点「２」、状態の離散成分「before」で、選択肢「keep」と「add」のどちらを選択するか、各サンプルパスについてそれぞれ期待される報酬値を式（１９）により計算し、得られた報酬値を比較・判定する。

サンプルパス「１」で状態の離散成分が「before」である場合に、選択肢「keep」を選択すると、期待される報酬値は、「ｍｉｎ（２０／１０，１）−１／２＋１／２＝１」となる。一方、選択肢「add」を選択すると、期待される報酬値は、「ｍｉｎ（２０／１０，１）−３／２＋（０．０５＊２０−０．２５）＝１−１．５＋０．７５＝０．２５」となるため、「keep」が選択され、この選択による実際の報酬値は、「０．５＋０．５＝１」となる。時点「２」で状態の離散成分が「after」であれば、選択可能な選択肢は「keep」のみであり、この場合の実際の報酬値は、「１＋ｍｉｎ（２０／１０，２）−１＝１＋２−１＝２」となる。

サンプルパス「２」で状態の離散成分が「before」である場合には、時点「２」の状態の連続成分が「２０」とサンプルパス「１」の値と同一であることから、「keep」が選択され、実際の報酬値も「１」となる。サンプルパス「２」で状態の離散成分が「after」であれば、選択可能な選択肢は「keep」のみであり、この場合の実際の報酬値もサンプルパス「１」の場合と同様に、「１＋ｍｉｎ（２０／１０，２）−１＝２」となる。

サンプルパス「３」で状態の離散成分が「before」である場合に、選択肢「keep」を選択すると、期待される報酬値は、「ｍｉｎ（２５／１０，１）−１／２＋１／２＝１」となる。一方、選択肢「add」を選択すると、期待される報酬値は、「ｍｉｎ（２５／１０，１）−３／２＋（０．０５＊２５−０．２５）＝１−１．５＋１＝０．５」となるため、この場合にも「keep」が選択され、実際の報酬値は「０．５＋０．５＝１」となる。最後に、サンプルパス「３」で状態の離散成分が「after」であれば、選択可能な選択肢は「keep」のみであり、この場合の実際の報酬値は、「０．５＋ｍｉｎ（２５／１０，２）−１＝０．５＋２−１＝１．５」となる。

次に、時点「ｔ＝１」についての回帰的近似処理を行い、各離散成分／選択肢組毎に回帰関数（近似関数）を求める。時点「１」の場合、考慮すべき離散成分／選択肢組は、(before, keep)、(before, add)、(after, keep)、の３組である。まず、離散成分／選択肢組(before, keep)の場合、時点「２」での各サンプルパスの報酬値と図６に示すサンプルパスの時点「１」の各値から、回帰すべきペアは、（２５，１）、（３０，１）、（３０，１）、であり、回帰関数は「１」（定数関数）となる。離散成分／選択肢組(before, add)の場合を考えると、回帰すべきペアは、（２５，２）、（３０，２）、（３０，１．５）、であり、回帰関数は「ｙ＝−０．０５ｘ＋３．２５」となる。離散成分／選択肢組(after, keep)の場合は、回帰ペアは(before, add)の場合と同じ（２０，０．５）、（２０，１）、（２５，１）なので、回帰関数も同じく「ｙ＝−０．０５ｘ＋３．２５」となる。

続いて、時点「ｔ＝１」についての評価計算処理として、以上のように得られた回帰関数に基づく意思決定を行った際に期待される報酬値（評価値）を計算し、算出された報酬値に基づき、サンプルパスと状態の離散成分の各組み合わせの選択肢を決定する。まず、サンプルパス「１」について、時点「１」で状態の離散成分が「before」である場合に、「keep」と「add」のどちらを選択するかを調べる。この場合に、選択肢「keep」を選択すると、期待される報酬値は、「ｍｉｎ（２５／１０，１）−１／２＋１＝１．５」となる。一方、選択肢「add」を選択した場合に期待される報酬値は、「ｍｉｎ（２５／１０，１）−３／２＋（−０．０５＊２５＋３．２５）＝１−１．５＋２＝１．５」となり、結局どちらを選択しても同じである。ここでは仮に、選択肢「keep」を選択したとすると、実際の報酬値は「１．５」である。なお、この場合に、選択肢「add」を選択しても、実際の報酬値は「ｍｉｎ（２５／１０，１）−３／２＋２＝１．５」であり、どちらを選択しても実際の報酬値は同じである。

サンプルパス「１」について、時点「１」で状態の離散成分が「after」であれば、選択可能な選択肢は「keep」のみであり、この場合の実際の報酬値は、「２＋ｍｉｎ（２５／１０，２）−１＝２＋２−１＝３」となる。

次に、サンプルパス「２」について、時点「１」で状態の離散成分が「before」である場合に、「keep」と「add」のどちらを選択するかを調べる。この場合に、選択肢「keep」を選択すると、期待される報酬値は、「ｍｉｎ（３０／１０，１）−１／２＋１＝１．５」となる。一方、選択肢「add」を選択した場合に期待される報酬値は、「ｍｉｎ（３０／１０，１）−３／２＋（−０．０５＊３０＋３．２５）＝１−１．５＋１．７５＝１．２５」となるため、「keep」が選択される。「keep」を選択した場合には、実際の報酬値も「１．５」となる。

サンプルパス「２」について、時点「１」で状態の離散成分が「after」であれば、選択可能な選択肢は「keep」のみであり、この場合の実際の報酬値は、「２＋ｍｉｎ（３０／１０，２）−１＝２＋２−１＝３」となる。

次に、サンプルパス「３」について考えると、時点１で状態の離散成分が「before」である場合に、「keep」と「add」のどちらを選択するかについては、サンプルパス「２」の時点「１」、状態の離散成分「before」の場合と同じであり、報酬も同じになる。また、サンプルパス「３」について、時点「１」で状態の離散成分が「after」であれば、選択可能な選択肢は「keep」のみであり、その時の報酬は「１．５＋ｍｉｎ（３０／１０，２）−１＝１．５＋２−１＝２．５」となる。

最後に、時点「ｔ＝０」についての処理を行う。時点「ｔ＝０」では、状態の離散成分は「before」であるため、考慮すべき離散成分／選択肢組は、(before, keep)、(before, add)、の２組のみである。まず、離散成分／選択肢組(before, keep)の場合、回帰すべきペアは、（３０，１．５）、（２５，１．５）、（２０，１．５）、であり、回帰関数は「１．５」（定数関数）となる。また、離散成分／選択肢組(before, add)の場合、回帰すべきペアは、（３０，３）、（２５，３）、（２０，２．５）、であり、回帰関数は「ｙ＝０．０５ｘ＋１．５８３」となる。

続いて、時点「ｔ＝０」についての評価計算処理として、以上のように得られた回帰関数に基づく意思決定を行った際に期待される報酬値（評価値）を計算し、算出された報酬値に基づき、サンプルパスと状態の離散成分の各組み合わせの選択肢を決定する。まず、サンプルパス「１」について、時点「０」で状態の離散成分が「before」である場合に、「keep」と「add」のどちらを選択するかを調べる。この場合に、選択肢「keep」を選択すると、期待される報酬値は、「ｍｉｎ（３０／１０，１）−１／２＋１．５＝２」である。一方、選択肢「add」を選択した場合には、期待される報酬値は、「ｍｉｎ（３０／１０，１）−３／２＋（０．０５＊３０＋１．５８３）＝１−１．５＋３．０８３＝２．５８３」となるため、「add」が選択される。この場合の実際の報酬値は、「ｍｉｎ（３０／１０，１）−３／２＋３＝１−１．５＋３＝２．５」となる。

次に、サンプルパス「２」について、時点「０」で状態の離散成分が「before」である場合に、「keep」と「add」のどちらを選択するかを調べる。この場合に、選択肢「keep」を選択すると、期待される報酬値は、「ｍｉｎ（２５／１０，１）−１／２＋１．５＝２」となる。一方、選択肢「add」を選択した場合には、期待される報酬値は、「ｍｉｎ（２５／１０，１）−３／２＋（０．０５＊２５＋１．５８３）＝１−１．５＋２．８３３＝２．３３３」となるため、「add」が選択される。この場合の実際の報酬値は、「ｍｉｎ（２５／１０，１）−３／２＋３＝１−１．５＋３＝２．５」となる。

最後に、サンプルパス「３」について、時点「０」で状態の離散成分が「before」である場合に、「keep」と「add」のどちらを選択するかを調べる。この場合に、選択肢「keep」を選択すると、期待される報酬値は、「ｍｉｎ（２０／１０，１）−１／２＋１．５＝２」となる。一方、選択肢「add」を選択した場合には、期待される報酬値は、「ｍｉｎ（２０／１０，１）−３／２＋（０．０５＊２０＋１．５８３）＝１−１．５＋２．５８３＝２．０８３」となるため、ここでも「add」が選択される。この場合の実際の報酬値は、「ｍｉｎ（２０／１０，１）−３／２＋２．５＝１−１．５＋２．５＝２」となる。

最後に、この意思決定問題に基づく設備投資計画の期待値（評価値）は、初期時点からの継続価値である報酬値の平均「（２．５＋２．５＋２）／３＝７／３＝２．３３億円」となる。

図７は、以上のような処理によって求めた各時点の回帰関数（近似関数）を示す図であり、また、図８は、各時点におけるサンプルパスと状態の離散成分との各組み合わせの報酬値（評価値）を示す図である。

［別の処理例］
なお、上記の処理例においては、処理手順の説明に重点を置くため、過度に簡略化したが、より現実的な意思決定問題において、サンプルパス数が増え、高次の関数近似を導入した場合にも、同様の方針で評価できることは明らかである。

［実施形態の作用効果］
以上のような本実施形態の最適意思決定支援処理によれば、次のような作用効果が得られる。

まず、複数のサンプルパスを使用して、各意思決定時点毎に、各離散成分／選択肢組毎の価値関数を回帰手法で近似することにより、用意した複数のサンプルパスから近似的に最適な意思決定規則（近似関数）を効率よく抽出できるため、通常の動的計画法による解法における状態数の指数的増加の問題を回避し、必要な処理時間・記憶容量を低減できる。この場合、状態を離散成分と連続成分に分類して、対象期間において考慮すべき複数の離散成分／選択肢組と、対象期間にわたる連続成分の変化パターンを示す複数のサンプルパスという２種類のデータを使用することにより、不確実性要因と各期間の意思決定による状態の変化を統計学的に合理的に表現することができる。しかも、既存のモンテカルロシミュレータによって多数発生させたサンプルパスや、過去に採取した多数のデータ等の、容易に入手可能なサンプルパスを使用することにより、確率分布をモデル化する等の複雑な計算アルゴリズムを使用することなしに最適な意思決定規則を得ることができる。

したがって、多数の不確実性要因を含み多期間にわたる逐次的意思決定問題についても、複数のサンプルパスから近似的に最適な意思決定規則を効率よく抽出することにより、必要な処理時間・記憶容量をできるだけ低減することができるため、少ない計算機資源で最適計画の立案・評価を効率よく高速に行うことができる。特に、多数の不確実性要因を含み多期間にわたる設備投資計画の立案・評価の効率化・高速化に好適である。

また、各意思決定時点で、近似的に最適な意思決定規則に基づき、状態の各離散成分に対して選択可能な選択肢を選択した場合の評価値を計算し、算出した評価値に基づいて選択肢を自動的に決定することにより、ユーザ自身が算出された評価値の評価を行う必要なしに、各意思決定時点における最適な意思決定の評価を効率よく高速に行うことができる。また、各意思決定時点について得られた評価値の平均を算出し、当該計画の評価値として自動的に出力することにより、ユーザ自身が対象期間にわたる各時点の評価値の総合的評価を行う必要なしに、最適計画の立案・評価を効率よく高速に行うことができる。

さらに、回帰手法として、最小二乗法を使用することにより、計算に必要な処理時間・記憶容量を節約することができるため、計算機資源の節約、最適計画の立案評価の効率化・高速化に貢献できる。

［他の実施形態］
なお、本発明は、前述した実施形態に限定されるものではなく、本発明の範囲内で他にも多種多様な形態が実施可能である。例えば、本発明において使用する回帰手法は、最小二乗法に限定されず、他の回帰手法を使用した場合にも同様に優れた効果が得られるものである。また、本発明は、多数の不確実性要因を含み多期間にわたる設備投資計画の立案・評価に最適であるが、それに限らず、不確実性要因を含み、複数の期間にわたる各種の最適計画の立案・評価に同様に適用可能であり、同様に優れた効果が得られるものである。

本発明を適用した一つの実施形態に係る最適意思決定支援処理の概要を示すフローチャート。図１に示す最適意思決定支援処理を行うためのシステム構成の一例を示すブロック図。図１に示す最適意思決定支援処理を簡単な意思決定問題に適用した場合に使用する複数のサンプルパスを示す図。図１に示す最適意思決定支援処理により図３のサンプルパスを使用して求めた各時点の回帰関数を示す図。図１に示す最適意思決定支援処理により図３のサンプルパスを使用して求めた各時点におけるサンプルパスと状態の離散成分の各組み合わせ毎の報酬値を示す図。図１に示す最適意思決定支援処理を具体的な設備投資計画に適用した場合に使用する複数のサンプルパスを示す図。図１に示す最適意思決定支援処理により図６のサンプルパスを使用して求めた各時点の回帰関数を示す図。図１に示す最適意思決定支援処理により図６のサンプルパスを使用して求めた各時点におけるサンプルパスと状態の離散成分の各組み合わせ毎の報酬値を示す図。

符号の説明

２００…メインシステム
２０１…演算処理部
２０２…記憶部
２０３…入出力部
２０４…最適意思決定支援プログラム
２１１…モンテカルロシミュレータ
２１２…データベース（ＤＢ）
２１３…回帰分析器

Claims

入出力部、記憶部、演算処理部を有するコンピュータを利用して、不確実性要因を含みかつ対象となる期間にわたる逐次的意思決定問題として与えられる最適計画の立案・評価を支援する最適意思決定支援方法において、
前記期間の各意思決定時点で想定される各状態を、意思決定結果に応じて決定される離散成分と前記不確実性要因に対して想定される連続成分とに分類した場合に、前記入出力部により与えられたユーザの指示に基づき、前記演算処理部により、当該期間において考慮すべき複数の離散成分と意思決定結果となる複数の選択肢との組み合わせを示す複数の離散成分／選択肢組を決定すると共に、当該期間にわたる連続成分の変化パターンを示すデータとして、各意思決定時点に当該時点での連続成分の値をそれぞれ対応させた複数のサンプルパスを決定して、その決定内容を状態データとして前記記憶部に格納する状態データ決定ステップと、
前記記憶部に格納された前記状態データに基づき、前記演算処理部により、前記期間の各意思決定時点毎に、各時点での意思決定による価値を各前記離散成分／選択肢組毎に前記連続成分の関数として示す価値関数を、回帰手法により前記複数のサンプルパスを用いて近似し、得られた近似関数に基づいて当該時点での意思決定を評価し、評価結果を前記記憶部に格納する回帰的評価ステップ、
を含むことを特徴とする最適意思決定支援方法。
前記複数のサンプルパスは、モンテカルロシミュレーションによって発生させた複数のサンプルパスである、
ことを特徴とする請求項１に記載の最適意思決定支援方法。
前記複数のサンプルパスは、過去に採取したデータである、
ことを特徴とする請求項１に記載の最適意思決定支援方法。
前記回帰的評価ステップは、
前記各意思決定時点毎に、前記各離散成分／選択肢組毎に、前記回帰手法により前記複数のサンプルパスを用いて前記価値関数を近似し、前記近似関数を得る回帰的近似ステップと、
前記各意思決定時点毎に、前記サンプルパスと前記離散成分との各組み合わせ毎に、当該組み合わせに対して選択可能な各前記選択肢を選択した場合の各評価値を、前記近似関数により計算し、算出した評価値に基づいて当該組み合わせの選択肢を決定する評価計算ステップを含む、
ことを特徴とする請求項１乃至請求項３のいずれかに記載の最適意思決定支援方法。
前記回帰的評価ステップは、
前記期間の最終時点から初期時点まで、前記近似ステップと評価計算ステップを繰り返した後に、当該初期時点における全ての前記サンプルパスについての前記評価値の平均を算出し、当該期間における意思決定結果として得られる計画の評価値として出力する評価結果出力ステップを含む、
ことを特徴とする請求項４に記載の最適意思決定支援方法。
前記回帰手法は最小二乗法である、
ことを特徴とする請求項１乃至請求項５のいずれかに記載の最適意思決定支援方法。
前記最適計画は設備投資計画である、
ことを特徴とする請求項１乃至請求項６のいずれかに記載の最適意思決定支援方法。
入出力部、記憶部、演算処理部を有するコンピュータを利用して、不確実性要因を含みかつ対象となる期間にわたる逐次的意思決定問題として与えられる最適計画の立案・評価を支援するための最適意思決定支援プログラムにおいて、
前記期間の各意思決定時点で想定される各状態を、意思決定結果に応じて決定される離散成分と前記不確実性要因に対して想定される連続成分とに分類した場合に、前記入出力部により与えられたユーザの指示に基づき、前記演算処理部により、当該期間において考慮すべき複数の離散成分と意思決定結果となる複数の選択肢との組み合わせを示す複数の離散成分／選択肢組を決定すると共に、当該期間にわたる連続成分の変化パターンを示すデータとして、各意思決定時点に当該時点での連続成分の値をそれぞれ対応させた複数のサンプルパスを決定して、その決定内容を状態データとして前記記憶部に格納する状態データ決定機能と、
前記記憶部に格納された前記状態データに基づき、前記演算処理部により、前記期間の各意思決定時点毎に、各時点での意思決定による価値を各前記離散成分／選択肢組毎に前記連続成分の関数として示す価値関数を、回帰手法により前記複数のサンプルパスを用いて近似し、得られた近似関数に基づいて当該時点での意思決定を評価し、評価結果を前記記憶部に格納する回帰的評価機能、
をコンピュータに実現させることを特徴とする最適意思決定支援プログラム。