JP2005108147A - 最適意思決定支援方法とプログラム - Google Patents

最適意思決定支援方法とプログラム Download PDF

Info

Publication number
JP2005108147A
JP2005108147A JP2003344264A JP2003344264A JP2005108147A JP 2005108147 A JP2005108147 A JP 2005108147A JP 2003344264 A JP2003344264 A JP 2003344264A JP 2003344264 A JP2003344264 A JP 2003344264A JP 2005108147 A JP2005108147 A JP 2005108147A
Authority
JP
Japan
Prior art keywords
decision
evaluation
value
making
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003344264A
Other languages
English (en)
Inventor
Yasushi Fujiwara
靖 藤原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003344264A priority Critical patent/JP2005108147A/ja
Publication of JP2005108147A publication Critical patent/JP2005108147A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 多数の不確実性要因を含み多期間にわたる逐次的意思決定問題についても、少ない計算機資源で最適計画の立案・評価を効率よく高速に行う。
【解決手段】 状態データ決定ステップS100においては、対象期間において考慮すべき複数の離散成分/選択肢組を決定する(S101)と共に、対象期間における意思決定に使用する複数のサンプルパスを決定する(S102)。回帰的評価ステップS110においては、評価対象時点tを、最終時点「T」からさかのぼって各時点毎に回帰的近似処理と評価計算処理(S112,S113)を繰り返す。回帰的近似処理においては、各離散成分/選択肢組毎に、回帰手法により価値関数を近似して近似関数を算出し、評価計算処理においては、各サンプルパス/離散成分組毎に、近似関数により選択肢の評価値を計算し、算出した評価値に基づき当該組の選択肢を決定する。
【選択図】 図1

Description

本発明は、不確実性要因を含む逐次的意思決定問題として与えられる最適計画の立案・評価に関するものであり、特に、多数の不確実性要因を含み多期間にわたる設備投資計画の立案・評価に関する。
近年、製造業や電力供給事業等の各種の事業において、設備投資案件の大型化と事業環境の不確実性の増大が同時進行しており、最適な設備投資計画の立案・評価が重要になっている。小規模な投資計画の場合には、スプレッドシート上で容易に価値を評価できるが、現実の設備投資計画は、タイミング最適化など逐次的意思決定であり、一般には動的計画法を用いて解く必要がある。
動的計画法によれば、不確実性要因を考慮することは可能であるが、多数の不確実性要因を含み多期間にわたる逐次的意思決定問題においては、不確実性要因数および期間数に応じて状態数が指数関数的に増大する結果、価値評価に必要な処理時間・記憶容量が指数関数的に増大してしまい、動的計画法問題を厳密に解くことはほとんど不可能となる。
一方、特許文献1は、数理計画手法を生産計画や設備投資などに適用する技術を提案している。この技術は、将来の不確実性要因に対して想定される複数の状況と複数の意思決定案を組み合わせ、各意思決定案について、各状況における最適生産活動価値指標と複数の状況により生じる価値変動リスク指標を求めることにより、将来の不確実性に起因するリスクを評価しながら同時に利益最大という生産活動の経済性を目指した合理的な意思決定を実現できるようにしたものである。しかしながら、この特許文献1の技術は、複数の各期間毎に、かつ、各意思決定案(選択肢)毎に、複数の状況の各々における最適生産活動モデルを構築して最適生産活動価値指標を算出しなければならないため、多数の不確実性要因および多段階の意思決定期間を含む逐次的意思決定問題への適用は実際上困難である。
また、非特許文献1は、オプションの継続価値を関数近似することで、アメリカ型オプションの価値がモンテカルロシミュレータで評価できることを開示している(経営学の分野においては、オプションのうち、どの時点でも権利行使できるオプションをアメリカ型と呼び、満期日にのみ権利行使できるオプションをヨーロッパ型と呼ぶ)。この手法は、従来のアメリカ型オプション評価手法と比べて高速に計算が可能であり、必要な計算機資源も少なくて済む。
特願2002−218777 Longstaff-Schwartz "Valuing American options by simulation: a simple least-squares approach", Review of Financial Studies, 2001, V. 14, no.1
上記のように、従来の動的計画法によれば、多数の不確実性要因を含み多期間にわたる逐次的意思決定問題においては、不確実性要因数および期間数に応じて状態数が指数関数的に増大する結果、価値評価に必要な処理時間・記憶容量が指数関数的に増大してしまい、動的計画法問題を厳密に解くことはほとんど不可能となる。このことは、周知の事実であり、従来の設備投資計画の立案・評価における大きな障害となっている。
本発明は、以上のような従来技術の問題を解決するために提案されたものであり、その目的は、多数の不確実性要因を含み多期間にわたる逐次的意思決定問題についても、少ない計算機資源で最適計画の立案・評価を効率よく高速に行うことが可能な最適意思決定支援方法とプログラムを提供することである。
本発明は、状態を離散成分と連続成分に分類し、対象期間にわたる連続成分の複数のサンプルパスを使用して、各意思決定時点での価値関数を回帰手法により近似することにより、複数のサンプルパスから近似的に最適な意思決定規則を抽出して、状態数の指数的増加の問題を回避し、高速な計算を可能としたものである。また、サンプルパスについては、モンテカルロシミュレータや過去データ等から容易に入手可能なデータを用いることができるため、確率分布をモデル化する等の作業を行う必要なしに、最適な意思決定規則が容易に得られることも本発明の大きな利点である。
請求項1の発明は、入出力部、記憶部、演算処理部を有するコンピュータを利用して、不確実性要因を含みかつ対象となる期間にわたる逐次的意思決定問題として与えられる最適計画の立案・評価を支援する最適意思決定支援方法において、状態データ決定ステップと回帰的評価ステップを含むことを特徴としている。ここで、状態データ決定ステップは、前記期間の各意思決定時点で想定される各状態を、意思決定結果に応じて決定される離散成分と前記不確実性要因に対して想定される連続成分とに分類した場合に、前記入出力部により与えられたユーザの指示に基づき、前記演算処理部により、状態に関するデータを決定して、その決定内容を状態データとして前記記憶部に格納するステップである。状態に関するデータとしては、当該期間において考慮すべき複数の離散成分と意思決定結果となる複数の選択肢との組み合わせを示す複数の離散成分/選択肢組を決定すると共に、当該期間にわたる連続成分の変化パターンを示すデータとして、各意思決定時点に当該時点での連続成分の値をそれぞれ対応させた複数のサンプルパスを決定する。また、回帰的評価ステップは、前記記憶部に格納された前記状態データに基づき、前記演算処理部により、前記期間の各意思決定時点毎に、各時点での意思決定による価値を各前記離散成分/選択肢組毎に前記連続成分の関数として示す価値関数を、回帰手法により前記複数のサンプルパスを用いて近似し、得られた近似関数に基づいて当該時点での意思決定を評価し、評価結果を前記記憶部に保存するステップである。
請求項8の発明は、請求項1の発明をコンピュータプログラムの観点から把握したものであり、入出力部、記憶部、演算処理部を有するコンピュータを利用して、不確実性要因を含みかつ対象となる期間にわたる逐次的意思決定問題として与えられる最適計画の立案・評価を支援するための最適意思決定支援プログラムにおいて、請求項1の発明における各ステップの機能に対応する状態データ決定機能、回帰的評価機能をコンピュータに実現させることを特徴としている。
請求項2の発明は、請求項1の最適意思決定支援方法において、前記複数のサンプルパスが、モンテカルロシミュレーションによって発生させた複数のサンプルパスであることを特徴としている。
請求項3の発明は、請求項1の最適意思決定支援方法において、前記複数のサンプルパスが、過去に採取したデータであることを特徴としている。
以上のような発明によれば、複数のサンプルパスを使用して、各意思決定時点毎に、各離散成分/選択肢組毎の価値関数を回帰手法で近似することにより、用意した複数のサンプルパスから近似的に最適な意思決定規則(近似関数)を効率よく抽出できるため、通常の動的計画法による解法における状態数の指数的増加の問題を回避し、必要な処理時間・記憶容量を低減できる。この場合、状態を離散成分と連続成分に分類して、対象期間において考慮すべき複数の離散成分/選択肢組と、対象期間にわたる連続成分の変化パターンを示す複数のサンプルパスという2種類のデータを使用することにより、不確実性要因と各期間の意思決定による状態の変化を統計学的に合理的に表現することができる。しかも、既存のモンテカルロシミュレータによって多数発生させたサンプルパスや、過去に採取した多数のデータ等の、容易に入手可能なサンプルパスを使用することにより、確率分布をモデル化する等の複雑な計算アルゴリズムを使用することなしに最適な意思決定規則を得ることができる。
したがって、多数の不確実性要因を含み多期間にわたる逐次的意思決定問題についても、複数のサンプルパスから近似的に最適な意思決定規則を効率よく抽出することにより、必要な処理時間・記憶容量をできるだけ低減することができるため、少ない計算機資源で最適計画の立案・評価を効率よく高速に行うことができる。
請求項4の発明は、請求項1乃至請求項3のいずれかの最適意思決定支援方法において、回帰的評価ステップが、回帰的近似ステップと評価計算ステップを含むことを特徴としている。ここで、回帰的近似ステップは、各意思決定時点毎に、各離散成分/選択肢組毎に、回帰手法により複数のサンプルパスを用いて価値関数を近似し、近似関数を得るステップである。また、評価計算ステップは、各意思決定時点毎に、サンプルパスと離散成分との各組み合わせ毎に、当該組み合わせに対して選択可能な各選択肢を選択した場合の各評価値を、近似関数により計算し、算出した評価値に基づいて当該組み合わせの選択肢を決定するステップである。
請求項5の発明は、請求項4の最適意思決定支援方法において、回帰的評価ステップが、評価結果出力ステップを含むことを特徴としている。ここで、評価結果出力ステップは、期間の最終時点から初期時点まで、近似ステップと評価計算ステップを繰り返した後に、当該初期時点における全ての前記サンプルパスについての前記評価値の平均を算出し、当該期間における意思決定結果として得られる計画の評価値として出力するステップである。
以上のような発明によれば、各意思決定時点で、近似的に最適な意思決定規則に基づき、状態の各離散成分に対して選択可能な選択肢を選択した場合の評価値を計算し、算出した評価値に基づいて選択肢を自動的に決定することにより、ユーザ自身が算出された評価値の評価を行う必要なしに、各意思決定時点における最適な意思決定の評価を効率よく高速に行うことができる。また、各意思決定時点について得られた評価値の平均を算出し、当該計画の評価値として自動的に出力することにより、ユーザ自身が対象期間にわたる各時点の評価値の総合的評価を行う必要なしに、最適計画の立案・評価を効率よく高速に行うことができる。
請求項6の発明は、請求項1乃至請求項5のいずれかの最適意思決定支援方法において、回帰手法が最小二乗法であることを特徴としている。
本発明で使用する回帰手法としては、各種の回帰手法が使用可能であるが、一般的には、最小二乗法を使用することにより、計算に必要な処理時間・記憶容量を節約することができるため、計算機資源の節約、最適計画の立案評価の効率化・高速化に貢献できる。
請求項7の発明は、請求項1乃至請求項6のいずれかの最適意思決定支援方法において、最適計画が設備投資計画であることを特徴としている。
本発明は各種の最適計画の立案・評価に適用可能であるが、特に、多数の不確実性要因を含み多期間にわたる設備投資計画の立案・評価の効率化・高速化に好適である。
以上説明したように、本発明によれば、状態を離散成分と連続成分に分類し、対象期間にわたる連続成分の複数のサンプルパスを使用して、各意思決定時点での価値関数を回帰手法により近似することにより、複数のサンプルパスから近似的に最適な意思決定規則を抽出できるため、状態数の指数的増加の問題を回避し、高速な計算が可能となる。また、サンプルパスについては、モンテカルロシミュレータや過去データ等から容易に入手可能なデータを用いることができるため、確率分布をモデル化する等の作業を行う必要なしに、最適な意思決定規則が容易に得られる。したがって、本発明によれば、多数の不確実性要因を含み多期間にわたる逐次的意思決定問題についても、少ない計算機資源で高速に最適計画の立案・評価を行うことが可能な最適意思決定支援方法とプログラムを提供することができる。
以下に、本発明の実施形態を図面に沿って具体的に説明する。ただし、ここで記載する実施形態は、本発明を何ら限定するものではなく、本発明の一態様を例示するものにすぎない。
本発明は、典型的には、コンピュータをソフトウェアで制御することにより実現される。この場合のソフトウェアは、コンピュータのハードウェアを物理的に活用することで本発明の作用効果を実現するものであり、また、従来技術を適用可能な部分には好適な従来技術が適用される。さらに、本発明を実現するハードウェアやソフトウェアの具体的な種類や構成、ソフトウェアで処理する範囲などは自由に変更可能であり、例えば、本発明を実現するプログラムは本発明の一態様である。
[一般の逐次的意思決定問題の定式化]
本発明が扱う設備投資計画は、逐次的意思決定問題と呼ばれ、前述した通り、一般には動的計画法で解けることが知られている。本発明は、状態を離散成分と連続成分に分類するというその特徴から、扱える問題の範囲は限られており、全ての逐次的意思決定問題を扱えるわけではないが、扱える場合は高速な解法が可能になる。本発明が扱えるための条件を明確にするために、ここではまず、一般の逐次的意思決定問題の定式化を行う。
最初に、次の状態方程式(1)で定義される系を考える。
ここで、xtは時点tでの状態(一般にベクトル値)、utは選択肢、wtはノイズである。逐次的意思決定の目的は、与えられた初期値x0に対して、次の式(2)で示される報酬が最大となるような選択肢の列ut(t=1,2,…,T)を選ぶことである。
ただし、utは、時点t、状態xt-1で選択可能な選択肢の集合Ut(xt-1)に属する。簡単のため、任意の時点tと状態xt-1に対し、次の式(3)が成立するものとする。
動的計画法では、時点t、状態xtでの価値関数Vt(xt)が重要である。価値関数は次の方程式(4)で帰納的に決定される。
動的計画法の一般論より、状態xt-1での選択肢utを、次の式(5)に示すように取ることで、上記の逐次的意思決定問題の解が得られることが知られている。
すなわち、上記の方程式(4)を最終時点Tから時点0にさかのぼって解いて関数Vt(t=T,…,1,0)を求めたとき、V0(x0)が最大報酬を実現する。具体的な意思決定においては、時点0、状態x0に対し、上で定義された選択肢u0を採用する。その結果得られた時点1での状態x1に対し、同様な方法で選択肢u1を採用する。以下、この操作を繰り返すことで、具体的な意思決定を行うことができる。関数Vtは価値関数と呼ばれ、状態の時点tからTまでの最大期待報酬を与える。
[適用対象となる逐次的意思決定問題の範囲]
上記のように、本発明は、状態を離散成分と連続成分に分類するというその特徴から、扱える問題の範囲は限られている。以下には、本発明で扱える問題の範囲、すなわち、本発明の適用対象となる逐次的意思決定問題の範囲、について具体的な例を挙げて説明する。
まず、一例として、ある保有株式(保有事業部門でも良いが)をどの時点で売却するかという問題を想定する。簡単のため、売却する際は全額を売却し、その後は何の行動も取らないとする。これは、逐次的意思決定問題として定式化できる。状態としては、株価と「売却済みかどうか」を表すブール変数の組を取る。「売却済みかどうか」を表すブール変数は意思決定を行う都合上導入される。この問題で重要なのは、多数の不確実性要因によって変動する株価である。これに対し、売却するという意思決定は、実際の大口の取引では株式の売却が株価に及ぼす影響は無視できないが、それ以外の通常の場合、株価に影響しないと考えることができる。
本発明が取り扱うのは、このような状況、すなわち、売却等の意思決定によって変化する株式の保有・非保有等の状態と、不確実性要因によって変化する株価等の状態との間に依存関係がなく、互いに独立しているような状況、を一般化した場合である。すなわち、本発明においてはまず、次の式(6)に示すように、状態xtを、意思決定によって変化する離散成分xt (d)と、不確実性要因によって変化する連続成分xt (c)に分類する。なお、離散成分は、意思決定を行う都合上導入したもので、連続成分が本来の興味の対象である。
さらに、時点t、状態xt-1で選択可能な選択肢の集合Ut(xt-1)は時点tと離散成分xt-1 (d)にのみ依存すると仮定する(このことを強調するため、Ut(xt-1)をUt(xt-1 (d))とも書く)。簡単のため、状態方程式も離散成分と連続成分に分かれるとする。すなわち、関数ht (d)とht (c)が存在し、次の式(7)で表せるものとする。
この場合に、初期状態が与えられると、状態の離散成分は、選択肢列で決定され、連続成分やノイズには影響されない。一方、状態の連続成分は、選択肢に影響されず、前の状態の連続成分とノイズのみに影響されるので、ある確率分布にしたがって生成されるものとみなせる。最後に、離散成分全体の集合D、選択肢全体の集合Uは、ともに有限集合であると仮定しても、一般性を失わない。
上の例について説明すれば、可能な選択肢は、「売却済みかどうか」を表すブール変数にのみ依存し、株価に依存しない。売却済みでなければ(ブール変数の値が「no」ならば)、株価に関わらず、「売却する」と「保持し続ける」の選択肢が共に利用可能である。また、「売却済みかどうか」を表すブール変数の値は、その前の時点におけるブール変数の値と意思決定(「売却する」か「保持し続ける」か)のみで決定され、状態の連続成分に依存しない。
なお、会社が株式を保有している場合など、一定の水準を株価が割り込むと社内規定で強制的に売却することがある。このような場合には、利用可能な選択肢が状態の連続成分である株価に依存することになり、ここで考える方法では一見扱えない。しかし、一定の水準以下の株価で「保持し続ける」という選択を下したときの報酬を非常に大きな負の数(たとえばマイナス無限大)にすれば、「売却する」しか選択されないので、本発明が扱える問題に実質的に帰着できる。
[近似的に最適な意思決定規則を抽出するための原理]
以下には、本発明において逐次的意思決定問題を解くための重要な原理、すなわち、近似的に最適な意思決定規則を抽出するための原理について説明する。
本発明の扱う逐次的意思決定問題では、状態の連続成分はある確率分布により生成されるので、既存のモンテカルロシミュレータにより、サンプルパスを多数発生させることが可能である。なお、サンプルパスは、各意思決定時点t=0,…,Tにその時点での状態(の連続成分)を対応させたものである。また、過去に採取したデータが十分な数あれば、サンプルパスとして過去データを使うことも可能である。
まず、サンプルパスpの時点tにおける状態をp[t]で表す。また、サンプルパスpを時点t以降に制限したものを、p|tで表す。t以降T以前の時点t’に対し、次の式(8)が成立する。
次に、サンプルパスの集合と状態(の離散成分)sが与えられたとする。sを初期状態(の離散成分)としてサンプルパスpに意思決定規則Rを適用して選択肢列utと状態(の離散成分)列st(s0=s)が得られた時の報酬reward(p,s,R)を、次の式(9)で定義する。
すでに述べたように、動的計画法は、最適な意思決定規則を与える(DPと書く)。このことより、初期状態(の離散成分)がsである場合、最適な意思決定による価値の期待値は、サンプルパス全体の集合を式(10)で定義した場合、動的計画法による報酬のサンプル平均で近似できる。式(11)は、この場合のサンプル平均を定義している。
なお、サンプル数Mが大きくなると、上のサンプル平均は最適な意思決定による価値の期待値に収束する。
本発明の基本的な技術思想は、近似的に最適な意思決定ADPを用いて、最適な意思決定による価値の期待値の近似値を計算することである。最適な意思決定による価値の期待値の近似値は、次の式(12)で定義できる。
近似的な意思決定規則ADPを求める中間段階として、時点t以降で定義される近似的に最適な意思決定規則ADPtをt=T,…,0に対し順次構成する。ADPはADP0として求まる。サンプルパスが時点tで状態(の離散成分が)sであった場合に意思決定規則ADPtを適用した際の報酬をreward(p|t,s,ADPt)で表す。
まず、最終時点Tでは、reward(p|T,s,ADPT)=g(xT)である。時点t+1までの近似的意思決定規則が得られたと仮定して、時点tのADPtを構成する。時点tでのサンプルパスpの状態をsとする。E[Vt+1(xt+1)|xt,u]の近似式W(xt,u)が利用できれば、次の式(13)で定義されるvt+1を選択することで、最適な意思決定規則が近似できる。時点tのこの規則でADPt+1を拡張したものを、ADPtとすればよい。
E[Vt+1(xt+1)|xt,u]の回帰手法による近似について考える。まず、サンプルパスp、時点t+1での連続状態p[t+1]と選択肢uの結果である後続の離散状態s’からの期待報酬reward(p|t+1,s’,ADPt+1)を、p[t]の関数と考える。状態の連続成分が実r次元ならば、実r次元空間Rr上の関数基底を一つ固定し、次の式(14)で示される(十分大きい)有限個の関数基底の線形和でreward(p|t+1,s’,ADPt+1)を最小二乗回帰する。
これにより得られた回帰関数をregr[t](s, u)と書くと、E[Vt+1(xt+1)|xt,u]はregr[t](s, u)(p[t])と近似できるので、次の式で表される選択肢vt+1を選択すればよい。
ADPt+1をこの規則で拡張した規則をADPtで表わす。選択肢vt+1による後続(離散)状態をs’とすると、時点t、離散状態sの報酬reward(p|t,s,ADPt)は、次の式(16)で表される。
このように、時点tと離散状態sに対し、報酬reward(p|t,s,ADPt)が帰納的に算出できる。t=0の場合から、既に述べた方法で意思決定の価値の近似値が求められる。
[最適意思決定支援処理の概要]
図1は、以上のような原理に基づく一つの実施形態に係る最適意思決定支援処理の概要を示すフローチャートである。また、図2は、図1に示すような最適意思決定支援処理を行うためのシステム構成の一例を示すブロック図である。この図2に示すように、メインシステム200は、コンピュータが基本的に備えているCPU等の演算処理部201、主メモリや各種メモリ等の記憶部202、キーボードやマウス、ディスプレイ等の入出力部203、といったハードウェア資源を、記憶部202に記憶されている特化された最適意思決定支援プログラム204により制御することで実現される。
図2のシステムは、このようなメインシステム200に加えて、さらに、モンテカルロシミュレータ211、データベース(DB)212、回帰分析器213、等を備えている。ここで、モンテカルロシミュレータ211は、サンプルパスを発生させるためにメインシステム200が使用する手段であり、データベース(DB)212は、モンテカルロシミュレータ211で発生したサンプルパスや、サンプルパスとして使用可能な過去データ等を保存する手段である。また、回帰分析器213は、サンプルパスを使用して回帰分析を行うためにメインシステム200が使用する手段である。なお、モンテカルロシミュレータ211と回帰分析器213は、いずれも、既存の特化されたプログラムにより、メインシステム200上あるいは外部のコンピュータ上で、仮想的な装置として実現される。
以下には、図2に示すシステム構成により、図1に示す最適意思決定支援処理を行う場合について説明する。まず、図1に示すように、本実施形態の最適意思決定支援処理においては、状態データ決定ステップS100と回帰的評価ステップS110を行うようになっている。すなわち、状態データ決定ステップS100においては、入出力部203により与えられたユーザの指示に基づき、演算処理部201により、T期間(Tは自然数)の対象期間において考慮すべき複数の離散成分と複数の選択肢との組み合わせを示す複数の離散成分/選択肢組を決定決定して、その決定内容を状態データとして記憶部202に格納する(S101)。同時に、入出力部203により与えられたユーザの指示に基づき、演算処理部201により、既存のモンテカルロシミュレータ211によって発生させたサンプルパスや過去データをデータベース212から読み込み、その中から、T期間の対象期間における意思決定に使用する複数のサンプルパスを決定して、その決定内容を状態データとして記憶部202に格納する(S102)。
次に、回帰的評価ステップS110においては、評価対象時点tを、最終時点「T」からさかのぼって各時点毎に回帰的近似処理と評価計算処理(S112,S113)を繰り返す。ここで、回帰的近似処理においては、記憶部202に格納された状態データに基づき、演算処理部201により、各離散成分/選択肢組毎に、回帰分析器213を利用した回帰手法により価値関数を近似して近似関数、すなわち、「近似された最適な意思決定規則」を算出して、記憶部202に格納する(S112)。また、評価計算処理においては、記憶部202に格納された状態データと意思決定規則に基づき、演算処理部201により、各サンプルパス/離散成分組毎に、「近似された最適な意思決定規則」により選択肢の評価値を計算し、算出した評価値に基づき当該各サンプルパス/離散成分組の選択肢を決定して、記憶部202に格納する(S113)。
そして、対象時点を逐次的にさかのぼって(S114,S115のNO)、初期時点「0」までこれらの処理を行った(S115のYES)後、記憶部202に格納された状態データ、意思決定規則、評価値、に基づき、初期時点からの評価値の平均を算出して、計画の評価値として出力すると共に、記憶部202に格納する(S116)。
なお、この図1においては、状態データ決定ステップとして、複数の離散成分/選択肢組を決定した後に複数のサンプルパスを決定した場合について示したが、本発明の状態データ決定ステップはこれに限らず、逆にサンプルパスを決定した後に離散成分/選択肢組を決定してもよく、さらに、サンプルパスと離散成分/選択肢組を同時に決定してもよい。すなわち、状態データ決定ステップにおいては、使用する複数の離散成分/選択肢組と複数のサンプルパスを決定する限り、その具体的な手順は自由に選択可能である。
また、回帰的評価ステップとして、各意思決定時点毎に、回帰的近似処理と評価計算処理を順次繰り返した場合について示したが、本発明の回帰的評価ステップはこれに限らず、各意思決定時点毎の回帰的近似処理を最終時点「T」から初期時点「0」まで繰り返した後に、各時点毎の評価計算処理を最終時点「T」から初期時点「0」まで繰り返してもよい。すなわち、回帰的評価ステップにおいては、各意思決定時点について、回帰的近似処理の後に評価計算処理が行なわれる限り、具体的な手順は自由に選択可能である。
[簡単な意思決定問題の処理例]
以下には、図1に示す最適意思決定支援処理を、極めて簡略化された意思決定問題に適用した場合の処理について説明する。まず、状態の連続成分が一次元、期間の数が3とし、状態方程式の連続成分は、次の式(17)で定義する。
状態の離散成分は「alive」と「halt」であるとする。そして、離散成分「alive」の選択肢は「stop」と「continue」で、選択肢「stop」で「halt」に進み、「continue」だと「alive」のままであるとし、また、離散成分「halt」の選択肢は「continue」のみで、その結果も「halt」であるとする。すなわち、考慮すべき状態の連続成分と選択肢の組は、(alive, stop)、(alive, continue)、(halt, continue)、の3組である。最後に、報酬関数(価値関数)は、次の式(18)で定義する。この問題の目的は、最大値と思われるところで停止することである。
図3は、使用する複数のサンプルパスとして、各時点に状態の連続成分の値を対応させた3つのサンプルパス「1」〜「3」を表している。各サンプルパスの最大値は、サンプルパス「1」では時点「3」の「1.34」、サンプルパス「2」では時点「2」の「1.26」、サンプルパス「3」では時点「0」の「1.00」、である。この意思決定問題において、各時点での回帰的近似処理、評価計算処理は、それぞれ次のようになる。
時点「t=3」では、状態の離散成分が「alive」なら、t=3でのサンプルパスの値が、その後の継続価値であり、それぞれ、「1.34」、「1.24」、「0.90」、である。状態の離散成分が「halt」なら、継続価値は「0」である。
次に、時点「t=2」での回帰的近似処理を行い、各離散成分/選択肢組毎に回帰関数(近似関数)を求める。考慮すべき状態の離散成分と選択肢の組は(alive, stop)、(alive, continue)、(halt, continue)、の3組であるが、状態の離散成分が「halt」の場合、および状態の離散成分が「alive」でも選択肢が「stop」の場合は、その後の継続価値は「0」なので、回帰関数も「0」(定数関数)である。一方、離散成分/選択肢組(alive, continue)の場合は、後続状態は「alive」であり、図3に示すサンプルパスの時点「2」、「3」の各値から、回帰を行うペアは、(1.08,1.34)、(1.26,1.24)、(0.77,0.90)、である。最小二乗回帰を行うことにより、回帰関数「y=0.773x+0.358」が得られる。
続いて、時点「t=2」での評価計算処理として、サンプルパスと状態の離散成分(この例では「alive」のみ)の各組み合わせ毎に、以上のように得られた回帰関数に基づく意思決定を行った際に期待される報酬値(評価値)を計算し、算出された報酬値に基づき、各サンプルパスの選択肢を決定する。時点「2」で「stop」と「continue」のどちらの選択肢を選択するか、各サンプルパスについて順次考える。サンプルパス「1」では、選択肢「stop」を選択した場合に期待される報酬値は、「1.08+0=1.08」となる。一方、選択肢「continue」を選択した場合に期待される報酬値は、「0.773*1.08+0.358=1.193」となるため、「continue」が選択される。その選択により実際に得られる報酬値は「1.34」である。
サンプルパス「2」については、選択肢「stop」を選択した場合に期待される報酬値は「1.26」、選択肢「continue」の場合は「0.773*1.26+0.358=1.332」となるため、「continue」が選択され、この選択による報酬値は「1.24」(時点「3」)である。最後に、サンプルパス「3」については、選択肢「stop」を選択すると「0.77」、選択肢「continue」の場合は「0.773*0.77+0.358=0.953」となるため、「continue」が選択され、この選択による実際の報酬値は「0.90」である。
このような時点「2」でのデータを受けて、時点「t=1」での回帰的近似処理を行い、各離散成分/選択肢組毎に回帰関数(近似関数)を求める。時点「1」において考慮すべき状態の離散成分と選択肢の組は(alive, continue)だけであるため、時点「2」での各サンプルパスの報酬値と、図3に示すサンプルパスの時点「1」の各値から得られるペア(1.09,1.34)、(1.16,1.24)、(0.76,0.90)、に対して最小二乗回帰を行うことにより、回帰関数「y=1.001x+0.155」が得られる。
続いて、時点「t=1」での評価計算処理として、以上のように得られた回帰関数に基づく意思決定を行った際の報酬値(評価値)を計算し、算出された報酬値に基づき、各サンプルパスの選択肢を決定する。時点「1」で「stop」と「continue」のどちらの選択肢を選ぶか、各サンプルパスについて順次考える。サンプルパス「1」では、選択肢「stop」を選択した場合に期待される報酬値は「1.09+0=1.09」となる。一方、選択肢「continue」を選択した場合に期待される報酬値は、「1.001*1.09+0.155=1.246」となるため、「continue」が選択され、実際に得られる報酬値は「1.34」(時点「3」)である。実際、回帰関数の全係数が正で、xの係数が「1」より大であることから、サンプルパス「2」と「3」についても選択肢「continue」が選択され、この選択による実際の報酬値はそれぞれ「1.24」と「0.90」である。
最後に、時点「t=0」については、サンプルパスの値がすべて「1」であることから、離散成分/選択肢組(alive, continue)についての回帰関数は、定数関数「(1.34+1.24+0.90)/3=1.16」である。「1.16>1」であることから、すべてのパス上で「continue」が選択され、この意思決定問題の期待値(評価値)は、初期時点からの継続価値である報酬値の平均「(1.34+1.24+0.90)/3=1.16」となる。
図4は、以上のような処理によって求めた各時点の回帰関数(近似関数)を示す図であり、また、図5は、各時点におけるサンプルパスと状態の離散成分「alive」の各組み合わせ毎の報酬値(評価値)を示す図である。
[設備投資計画の立案・評価処理例]
以下には、図1に示す最適意思決定支援処理を、より具体的な設備投資計画に適用した場合の処理について説明する。ここでは、ある会社の生産力が需要に比べて十分でないため、生産キャパシティを増強しようとする場合の設備投資計画を想定する。
簡単のため、全体の需要がx億円分、工場の生産キャパシティがy億円であるとき、会社の出荷額は、min(x/10,y)億円とする。毎年、生産キャパシティに比例してy/2億円のコストがかかるものとし、さらに、生産キャパシティをz億円分増強する意思決定を行った場合には、z億円のコストがかかり、生産キャパシティには翌年度から反映されるとする。簡単のため、設備増強は一度しか行わず、増強した際は1億円分の生産キャパシティが2億円に倍増する(1億円だけ増強する)ものとする。この問題の目的は、このような設備投資計画を持つ会社の期待される総利益を評価することである。
この設備投資計画でも、前記の意思決定問題と同様に、意思決定は一度だけ行われるが、意思決定を行った後の状態が収益等に影響する。例えば、設備を増強した後に需要が急減すれば、大きな赤字が計上される。その意味で、簡単ではあるが、より現実的な設定である。
また、この設備投資計画において、状態の離散成分は「増強前(before)」と「増強後(after)」の2つである。そして、状態の離散成分が「増強前(before)」ならば、2つの選択肢「増強(add)」、「現状維持(keep)」、が選択可能だが、状態が「増強後(after)」であれば1つの選択肢「現状維持(keep)」しか選択できない。すなわち、考慮すべき状態の連続成分と選択肢の組は、(before, keep)、(before, add)、(after, keep)、の3組である。この場合の報酬関数(価値関数)は、次の式(19)で表される。
ここでxt-1は(t−1)期の需要量である。また、最終時点では意思決定は行われないため、報酬関数は、次の式(20)で表される。
図6は、この設備投資計画において使用する複数のサンプルパスとして、各時点に状態の連続成分である需要量の値を対応させた3つのサンプルパス「1」〜「3」を表している。この設備投資計画において、各時点での回帰的近似処理、評価計算処理は、それぞれ次のようになる。
時点「t=2」についての回帰的近似処理を行い、各離散成分/選択肢組毎に回帰関数(近似関数)を求める。時点「2」の場合、考慮すべき離散成分/選択肢組は、(before, keep)、(before, add)、(after, keep)、の3組である。まず、離散成分/選択肢組(before, keep)の場合、時点「3」での状態の離散成分は「before」となるため、図6に示すサンプルパスの時点「2」、「3」の各値と式(20)から、回帰すべきペアは、「(20,min(15/10,1)−1/2)=(20,1/2)」、「(20,min(25/10,1)−1/2)=(20,1/2)」、「(25,min(30/10,1)−1/2)=(25,1/2)」、であり、回帰関数は「1/2」(定数関数)となる。
また、離散成分/選択肢組(before, add)の場合、時点「3」での状態の離散成分は「after」となるため、図6に示すサンプルパスの時点「2」、「3」の各値と式(20)から、回帰すべきペアは「(20,min(15/10,2)−1)=(20,0.5)」、「(20,min(25/10,2)−1)=(20,1)」、「(25,min(30/10,2)−1)=(25,1)」、であり、回帰関数は、「y=0.05x−0.25」となる。さらに、離散成分/選択肢組(after, keep)の場合は、回帰ペアは離散成分/選択肢組(before, add)の場合と同じ(20,0.5)、(20,1)、(25,1)、なので、回帰関数も「y=0.05x−0.25」となる。
続いて、時点「t=2」についての評価計算処理として、サンプルパスと状態の離散成分の各組み合わせ毎に、以上のように得られた回帰関数に基づく意思決定を行った際に期待される報酬値(評価値)を計算し、算出された報酬値に基づき、各組み合わせの選択肢を決定する。すなわち、時点「2」、状態の離散成分「before」で、選択肢「keep」と「add」のどちらを選択するか、各サンプルパスについてそれぞれ期待される報酬値を式(19)により計算し、得られた報酬値を比較・判定する。
サンプルパス「1」で状態の離散成分が「before」である場合に、選択肢「keep」を選択すると、期待される報酬値は、「min(20/10,1)−1/2+1/2=1」となる。一方、選択肢「add」を選択すると、期待される報酬値は、「min(20/10,1)−3/2+(0.05*20−0.25)=1−1.5+0.75=0.25」となるため、「keep」が選択され、この選択による実際の報酬値は、「0.5+0.5=1」となる。時点「2」で状態の離散成分が「after」であれば、選択可能な選択肢は「keep」のみであり、この場合の実際の報酬値は、「1+min(20/10,2)−1=1+2−1=2」となる。
サンプルパス「2」で状態の離散成分が「before」である場合には、時点「2」の状態の連続成分が「20」とサンプルパス「1」の値と同一であることから、「keep」が選択され、実際の報酬値も「1」となる。サンプルパス「2」で状態の離散成分が「after」であれば、選択可能な選択肢は「keep」のみであり、この場合の実際の報酬値もサンプルパス「1」の場合と同様に、「1+min(20/10,2)−1=2」となる。
サンプルパス「3」で状態の離散成分が「before」である場合に、選択肢「keep」を選択すると、期待される報酬値は、「min(25/10,1)−1/2+1/2=1」となる。一方、選択肢「add」を選択すると、期待される報酬値は、「min(25/10,1)−3/2+(0.05*25−0.25)=1−1.5+1=0.5」となるため、この場合にも「keep」が選択され、実際の報酬値は「0.5+0.5=1」となる。最後に、サンプルパス「3」で状態の離散成分が「after」であれば、選択可能な選択肢は「keep」のみであり、この場合の実際の報酬値は、「0.5+min(25/10,2)−1=0.5+2−1=1.5」となる。
次に、時点「t=1」についての回帰的近似処理を行い、各離散成分/選択肢組毎に回帰関数(近似関数)を求める。時点「1」の場合、考慮すべき離散成分/選択肢組は、(before, keep)、(before, add)、(after, keep)、の3組である。まず、離散成分/選択肢組(before, keep)の場合、時点「2」での各サンプルパスの報酬値と図6に示すサンプルパスの時点「1」の各値から、回帰すべきペアは、(25,1)、(30,1)、(30,1)、であり、回帰関数は「1」(定数関数)となる。離散成分/選択肢組(before, add)の場合を考えると、回帰すべきペアは、(25,2)、(30,2)、(30,1.5)、であり、回帰関数は「y=−0.05x+3.25」となる。離散成分/選択肢組(after, keep)の場合は、回帰ペアは(before, add)の場合と同じ(20,0.5)、(20,1)、(25,1)なので、回帰関数も同じく「y=−0.05x+3.25」となる。
続いて、時点「t=1」についての評価計算処理として、以上のように得られた回帰関数に基づく意思決定を行った際に期待される報酬値(評価値)を計算し、算出された報酬値に基づき、サンプルパスと状態の離散成分の各組み合わせの選択肢を決定する。まず、サンプルパス「1」について、時点「1」で状態の離散成分が「before」である場合に、「keep」と「add」のどちらを選択するかを調べる。この場合に、選択肢「keep」を選択すると、期待される報酬値は、「min(25/10,1)−1/2+1=1.5」となる。一方、選択肢「add」を選択した場合に期待される報酬値は、「min(25/10,1)−3/2+(−0.05*25+3.25)=1−1.5+2=1.5」となり、結局どちらを選択しても同じである。ここでは仮に、選択肢「keep」を選択したとすると、実際の報酬値は「1.5」である。なお、この場合に、選択肢「add」を選択しても、実際の報酬値は「min(25/10,1)−3/2+2=1.5」であり、どちらを選択しても実際の報酬値は同じである。
サンプルパス「1」について、時点「1」で状態の離散成分が「after」であれば、選択可能な選択肢は「keep」のみであり、この場合の実際の報酬値は、「2+min(25/10,2)−1=2+2−1=3」となる。
次に、サンプルパス「2」について、時点「1」で状態の離散成分が「before」である場合に、「keep」と「add」のどちらを選択するかを調べる。この場合に、選択肢「keep」を選択すると、期待される報酬値は、「min(30/10,1)−1/2+1=1.5」となる。一方、選択肢「add」を選択した場合に期待される報酬値は、「min(30/10,1)−3/2+(−0.05*30+3.25)=1−1.5+1.75=1.25」となるため、「keep」が選択される。「keep」を選択した場合には、実際の報酬値も「1.5」となる。
サンプルパス「2」について、時点「1」で状態の離散成分が「after」であれば、選択可能な選択肢は「keep」のみであり、この場合の実際の報酬値は、「2+min(30/10,2)−1=2+2−1=3」となる。
次に、サンプルパス「3」について考えると、時点1で状態の離散成分が「before」である場合に、「keep」と「add」のどちらを選択するかについては、サンプルパス「2」の時点「1」、状態の離散成分「before」の場合と同じであり、報酬も同じになる。また、サンプルパス「3」について、時点「1」で状態の離散成分が「after」であれば、選択可能な選択肢は「keep」のみであり、その時の報酬は「1.5+min(30/10,2)−1=1.5+2−1=2.5」となる。
最後に、時点「t=0」についての処理を行う。時点「t=0」では、状態の離散成分は「before」であるため、考慮すべき離散成分/選択肢組は、(before, keep)、(before, add)、の2組のみである。まず、離散成分/選択肢組(before, keep)の場合、回帰すべきペアは、(30,1.5)、(25,1.5)、(20,1.5)、であり、回帰関数は「1.5」(定数関数)となる。また、離散成分/選択肢組(before, add)の場合、回帰すべきペアは、(30,3)、(25,3)、(20,2.5)、であり、回帰関数は「y=0.05x+1.583」となる。
続いて、時点「t=0」についての評価計算処理として、以上のように得られた回帰関数に基づく意思決定を行った際に期待される報酬値(評価値)を計算し、算出された報酬値に基づき、サンプルパスと状態の離散成分の各組み合わせの選択肢を決定する。まず、サンプルパス「1」について、時点「0」で状態の離散成分が「before」である場合に、「keep」と「add」のどちらを選択するかを調べる。この場合に、選択肢「keep」を選択すると、期待される報酬値は、「min(30/10,1)−1/2+1.5=2」である。一方、選択肢「add」を選択した場合には、期待される報酬値は、「min(30/10,1)−3/2+(0.05*30+1.583)=1−1.5+3.083=2.583」となるため、「add」が選択される。この場合の実際の報酬値は、「min(30/10,1)−3/2+3=1−1.5+3=2.5」となる。
次に、サンプルパス「2」について、時点「0」で状態の離散成分が「before」である場合に、「keep」と「add」のどちらを選択するかを調べる。この場合に、選択肢「keep」を選択すると、期待される報酬値は、「min(25/10,1)−1/2+1.5=2」となる。一方、選択肢「add」を選択した場合には、期待される報酬値は、「min(25/10,1)−3/2+(0.05*25+1.583)=1−1.5+2.833=2.333」となるため、「add」が選択される。この場合の実際の報酬値は、「min(25/10,1)−3/2+3=1−1.5+3=2.5」となる。
最後に、サンプルパス「3」について、時点「0」で状態の離散成分が「before」である場合に、「keep」と「add」のどちらを選択するかを調べる。この場合に、選択肢「keep」を選択すると、期待される報酬値は、「min(20/10,1)−1/2+1.5=2」となる。一方、選択肢「add」を選択した場合には、期待される報酬値は、「min(20/10,1)−3/2+(0.05*20+1.583)=1−1.5+2.583=2.083」となるため、ここでも「add」が選択される。この場合の実際の報酬値は、「min(20/10,1)−3/2+2.5=1−1.5+2.5=2」となる。
最後に、この意思決定問題に基づく設備投資計画の期待値(評価値)は、初期時点からの継続価値である報酬値の平均「(2.5+2.5+2)/3=7/3=2.33億円」となる。
図7は、以上のような処理によって求めた各時点の回帰関数(近似関数)を示す図であり、また、図8は、各時点におけるサンプルパスと状態の離散成分との各組み合わせの報酬値(評価値)を示す図である。
[別の処理例]
なお、上記の処理例においては、処理手順の説明に重点を置くため、過度に簡略化したが、より現実的な意思決定問題において、サンプルパス数が増え、高次の関数近似を導入した場合にも、同様の方針で評価できることは明らかである。
[実施形態の作用効果]
以上のような本実施形態の最適意思決定支援処理によれば、次のような作用効果が得られる。
まず、複数のサンプルパスを使用して、各意思決定時点毎に、各離散成分/選択肢組毎の価値関数を回帰手法で近似することにより、用意した複数のサンプルパスから近似的に最適な意思決定規則(近似関数)を効率よく抽出できるため、通常の動的計画法による解法における状態数の指数的増加の問題を回避し、必要な処理時間・記憶容量を低減できる。この場合、状態を離散成分と連続成分に分類して、対象期間において考慮すべき複数の離散成分/選択肢組と、対象期間にわたる連続成分の変化パターンを示す複数のサンプルパスという2種類のデータを使用することにより、不確実性要因と各期間の意思決定による状態の変化を統計学的に合理的に表現することができる。しかも、既存のモンテカルロシミュレータによって多数発生させたサンプルパスや、過去に採取した多数のデータ等の、容易に入手可能なサンプルパスを使用することにより、確率分布をモデル化する等の複雑な計算アルゴリズムを使用することなしに最適な意思決定規則を得ることができる。
したがって、多数の不確実性要因を含み多期間にわたる逐次的意思決定問題についても、複数のサンプルパスから近似的に最適な意思決定規則を効率よく抽出することにより、必要な処理時間・記憶容量をできるだけ低減することができるため、少ない計算機資源で最適計画の立案・評価を効率よく高速に行うことができる。特に、多数の不確実性要因を含み多期間にわたる設備投資計画の立案・評価の効率化・高速化に好適である。
また、各意思決定時点で、近似的に最適な意思決定規則に基づき、状態の各離散成分に対して選択可能な選択肢を選択した場合の評価値を計算し、算出した評価値に基づいて選択肢を自動的に決定することにより、ユーザ自身が算出された評価値の評価を行う必要なしに、各意思決定時点における最適な意思決定の評価を効率よく高速に行うことができる。また、各意思決定時点について得られた評価値の平均を算出し、当該計画の評価値として自動的に出力することにより、ユーザ自身が対象期間にわたる各時点の評価値の総合的評価を行う必要なしに、最適計画の立案・評価を効率よく高速に行うことができる。
さらに、回帰手法として、最小二乗法を使用することにより、計算に必要な処理時間・記憶容量を節約することができるため、計算機資源の節約、最適計画の立案評価の効率化・高速化に貢献できる。
[他の実施形態]
なお、本発明は、前述した実施形態に限定されるものではなく、本発明の範囲内で他にも多種多様な形態が実施可能である。例えば、本発明において使用する回帰手法は、最小二乗法に限定されず、他の回帰手法を使用した場合にも同様に優れた効果が得られるものである。また、本発明は、多数の不確実性要因を含み多期間にわたる設備投資計画の立案・評価に最適であるが、それに限らず、不確実性要因を含み、複数の期間にわたる各種の最適計画の立案・評価に同様に適用可能であり、同様に優れた効果が得られるものである。
本発明を適用した一つの実施形態に係る最適意思決定支援処理の概要を示すフローチャート。 図1に示す最適意思決定支援処理を行うためのシステム構成の一例を示すブロック図。 図1に示す最適意思決定支援処理を簡単な意思決定問題に適用した場合に使用する複数のサンプルパスを示す図。 図1に示す最適意思決定支援処理により図3のサンプルパスを使用して求めた各時点の回帰関数を示す図。 図1に示す最適意思決定支援処理により図3のサンプルパスを使用して求めた各時点におけるサンプルパスと状態の離散成分の各組み合わせ毎の報酬値を示す図。 図1に示す最適意思決定支援処理を具体的な設備投資計画に適用した場合に使用する複数のサンプルパスを示す図。 図1に示す最適意思決定支援処理により図6のサンプルパスを使用して求めた各時点の回帰関数を示す図。 図1に示す最適意思決定支援処理により図6のサンプルパスを使用して求めた各時点におけるサンプルパスと状態の離散成分の各組み合わせ毎の報酬値を示す図。
符号の説明
200…メインシステム
201…演算処理部
202…記憶部
203…入出力部
204…最適意思決定支援プログラム
211…モンテカルロシミュレータ
212…データベース(DB)
213…回帰分析器

Claims (8)

  1. 入出力部、記憶部、演算処理部を有するコンピュータを利用して、不確実性要因を含みかつ対象となる期間にわたる逐次的意思決定問題として与えられる最適計画の立案・評価を支援する最適意思決定支援方法において、
    前記期間の各意思決定時点で想定される各状態を、意思決定結果に応じて決定される離散成分と前記不確実性要因に対して想定される連続成分とに分類した場合に、前記入出力部により与えられたユーザの指示に基づき、前記演算処理部により、当該期間において考慮すべき複数の離散成分と意思決定結果となる複数の選択肢との組み合わせを示す複数の離散成分/選択肢組を決定すると共に、当該期間にわたる連続成分の変化パターンを示すデータとして、各意思決定時点に当該時点での連続成分の値をそれぞれ対応させた複数のサンプルパスを決定して、その決定内容を状態データとして前記記憶部に格納する状態データ決定ステップと、
    前記記憶部に格納された前記状態データに基づき、前記演算処理部により、前記期間の各意思決定時点毎に、各時点での意思決定による価値を各前記離散成分/選択肢組毎に前記連続成分の関数として示す価値関数を、回帰手法により前記複数のサンプルパスを用いて近似し、得られた近似関数に基づいて当該時点での意思決定を評価し、評価結果を前記記憶部に格納する回帰的評価ステップ、
    を含むことを特徴とする最適意思決定支援方法。
  2. 前記複数のサンプルパスは、モンテカルロシミュレーションによって発生させた複数のサンプルパスである、
    ことを特徴とする請求項1に記載の最適意思決定支援方法。
  3. 前記複数のサンプルパスは、過去に採取したデータである、
    ことを特徴とする請求項1に記載の最適意思決定支援方法。
  4. 前記回帰的評価ステップは、
    前記各意思決定時点毎に、前記各離散成分/選択肢組毎に、前記回帰手法により前記複数のサンプルパスを用いて前記価値関数を近似し、前記近似関数を得る回帰的近似ステップと、
    前記各意思決定時点毎に、前記サンプルパスと前記離散成分との各組み合わせ毎に、当該組み合わせに対して選択可能な各前記選択肢を選択した場合の各評価値を、前記近似関数により計算し、算出した評価値に基づいて当該組み合わせの選択肢を決定する評価計算ステップを含む、
    ことを特徴とする請求項1乃至請求項3のいずれかに記載の最適意思決定支援方法。
  5. 前記回帰的評価ステップは、
    前記期間の最終時点から初期時点まで、前記近似ステップと評価計算ステップを繰り返した後に、当該初期時点における全ての前記サンプルパスについての前記評価値の平均を算出し、当該期間における意思決定結果として得られる計画の評価値として出力する評価結果出力ステップを含む、
    ことを特徴とする請求項4に記載の最適意思決定支援方法。
  6. 前記回帰手法は最小二乗法である、
    ことを特徴とする請求項1乃至請求項5のいずれかに記載の最適意思決定支援方法。
  7. 前記最適計画は設備投資計画である、
    ことを特徴とする請求項1乃至請求項6のいずれかに記載の最適意思決定支援方法。
  8. 入出力部、記憶部、演算処理部を有するコンピュータを利用して、不確実性要因を含みかつ対象となる期間にわたる逐次的意思決定問題として与えられる最適計画の立案・評価を支援するための最適意思決定支援プログラムにおいて、
    前記期間の各意思決定時点で想定される各状態を、意思決定結果に応じて決定される離散成分と前記不確実性要因に対して想定される連続成分とに分類した場合に、前記入出力部により与えられたユーザの指示に基づき、前記演算処理部により、当該期間において考慮すべき複数の離散成分と意思決定結果となる複数の選択肢との組み合わせを示す複数の離散成分/選択肢組を決定すると共に、当該期間にわたる連続成分の変化パターンを示すデータとして、各意思決定時点に当該時点での連続成分の値をそれぞれ対応させた複数のサンプルパスを決定して、その決定内容を状態データとして前記記憶部に格納する状態データ決定機能と、
    前記記憶部に格納された前記状態データに基づき、前記演算処理部により、前記期間の各意思決定時点毎に、各時点での意思決定による価値を各前記離散成分/選択肢組毎に前記連続成分の関数として示す価値関数を、回帰手法により前記複数のサンプルパスを用いて近似し、得られた近似関数に基づいて当該時点での意思決定を評価し、評価結果を前記記憶部に格納する回帰的評価機能、
    をコンピュータに実現させることを特徴とする最適意思決定支援プログラム。
JP2003344264A 2003-10-02 2003-10-02 最適意思決定支援方法とプログラム Pending JP2005108147A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003344264A JP2005108147A (ja) 2003-10-02 2003-10-02 最適意思決定支援方法とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003344264A JP2005108147A (ja) 2003-10-02 2003-10-02 最適意思決定支援方法とプログラム

Publications (1)

Publication Number Publication Date
JP2005108147A true JP2005108147A (ja) 2005-04-21

Family

ID=34537955

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003344264A Pending JP2005108147A (ja) 2003-10-02 2003-10-02 最適意思決定支援方法とプログラム

Country Status (1)

Country Link
JP (1) JP2005108147A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014524063A (ja) * 2011-06-02 2014-09-18 サポーテッド インテリジェンス、エルエルシー 意思決定機会の評価方法及びシステム
JP2018109890A (ja) * 2017-01-05 2018-07-12 株式会社日立製作所 意思決定支援システム、意思決定支援方法、及び意思決定支援プログラム
CN109919359A (zh) * 2019-02-01 2019-06-21 陕西科技大学 一种基于adp算法的车辆路径规划方法
CN113673750A (zh) * 2021-07-28 2021-11-19 广西大学 一种基于物流业务响应过程的资源调度优化控制方法
CN116467997A (zh) * 2023-05-10 2023-07-21 南京邮电大学 基于决策协商算法的多实例化分块布图下的顶层布线方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014524063A (ja) * 2011-06-02 2014-09-18 サポーテッド インテリジェンス、エルエルシー 意思決定機会の評価方法及びシステム
JP2018109890A (ja) * 2017-01-05 2018-07-12 株式会社日立製作所 意思決定支援システム、意思決定支援方法、及び意思決定支援プログラム
CN109919359A (zh) * 2019-02-01 2019-06-21 陕西科技大学 一种基于adp算法的车辆路径规划方法
CN109919359B (zh) * 2019-02-01 2024-06-04 武汉天之然知识产权运营有限公司 一种基于adp算法的车辆路径规划方法
CN113673750A (zh) * 2021-07-28 2021-11-19 广西大学 一种基于物流业务响应过程的资源调度优化控制方法
CN113673750B (zh) * 2021-07-28 2023-10-20 广西大学 一种基于物流业务响应过程的资源调度优化控制方法
CN116467997A (zh) * 2023-05-10 2023-07-21 南京邮电大学 基于决策协商算法的多实例化分块布图下的顶层布线方法
CN116467997B (zh) * 2023-05-10 2023-09-26 南京邮电大学 基于决策协商算法的多实例化分块布图下的顶层布线方法

Similar Documents

Publication Publication Date Title
JP6771751B2 (ja) リスク評価方法およびシステム
US20180182037A1 (en) Systems and methods for crowdsourcing of algorithmic forecasting
US7389211B2 (en) System and method of predictive modeling for managing decisions for business enterprises
JP5484968B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US20090177612A1 (en) Method and Apparatus for Analyzing Data to Provide Decision Making Information
Tran et al. A contractor's classification of owner payment practices
US7698196B1 (en) Method and system for modeling and benchmarking private equity and applications of same
CN117786131A (zh) 一种产业链安全监测分析方法、介质及设备
TWI781461B (zh) 資訊處理裝置、資訊處理方法及程式
Rogers et al. Valuation and design of pharmaceutical R&D licensing deals
US20200226305A1 (en) System and method for performing simulations of uncertain future events
JP2005108147A (ja) 最適意思決定支援方法とプログラム
JP2004013382A (ja) 事業価値評価システム、および事業価値評価装置
US20160267583A1 (en) Electronic data modelling tool
Cheng et al. A GA mechanism for optimizing the design of attribute double sampling plan
Kołodziej et al. Control sharing analysis and simulation
US20110225103A1 (en) Efficiency of computer modeling and analysis of complex processes
Kuzmina et al. Risk Analysis of the Company's Activities by Means of Simulation.
Lawal et al. A simulation-based binomial model for building development appraisal
Bekhradi et al. Decision support for R&D activities of innovative technologies
Shirai et al. PROFIT AND LOSS ANALYSIS ON A PRODUCTION BUSINESS USING LEADTIME FUNCTION
Turetsky Making heads and tails of distributional patterns: A value-creation-type and sector-based analysis among private-equity-owned companies
Sakas et al. SUPPLY CHAIN FIRMS'FINANCIAL PERFORMANCE CONNECTION WITH DIGITAL MARKETING WEBSITE DATA
Chueh et al. CSTEP: a HPC Platform for Scenario Reduction Research on Efficient Stochastic Modeling--Representative Scenario Approach
CN112632923B (zh) 一种基于多叉树的公式模型求解编辑器