JP5552009B2

JP5552009B2 - リスクを考慮した最適なアクションを決定するための方法、プログラム、および装置

Info

Publication number: JP5552009B2
Application number: JP2010211588A
Authority: JP
Inventors: 貴行恐神; 哲郎森村
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2010-09-22
Filing date: 2010-09-22
Publication date: 2014-07-16
Anticipated expiration: 2030-09-22
Also published as: US8639556B2; US20120072259A1; JP2012068780A

Description

本発明は、最適なアクションを決定する方法、プログラム、および装置に関する。特に、本発明は、リスク指標を繰り返し計算することによって、リスクを考慮した最適なアクションを決定するための方法、プログラム、および装置に関する。

従来、マルコフ決定過程（ＭＤＰ）に関する研究が進められている（例として、非特許文献１〜７を参照）。マルコフ決定過程問題は、状態遷移し得る対象に対して対象期間の各時点において所定の規則に従ってアクションを実行した場合に、その対象から得られる累積報酬を算出する問題である。マルコフ決定過程は、マルコフ性、すなわち将来の状態遷移が現在の状態のみに依存し過去の状態推移には無関係に決定される性質を有する。マルコフ決定過程を使用して対象期間の各時点における最適なアクションを決定することができる。

また、従来、ポートフォリオ理論についての研究も進められている（例として、非特許文献８を参照）。さらに、資産ポートフォリオの管理などに用いることなどを目的として、リスク管理の手法がたとえば金融業界の各社などによって研究されている（例として、特許文献１〜８を参照）。また、リスク管理のための動的リスク指標が研究されている（例として、非特許文献９〜１５を参照）。

特開２００８−００４０５２２号公報特開２００１−０１２５９５３号公報特開２００２−００４１７７８号公報特開２００２−０１５７４２５号公報特開２００２−０１８３４２９号公報特開２００３−０００６４３１号公報特開２００３−０３４５９８１号公報特開２００５−０１０７９９４号公報特開２００６−０５００６９２号公報

G. Tirenni, A. Labbi, A.Elisseeff, and C. Berrospi,"Efficient allocation of marketing resources using dynamicprogramming," in Proceedings of the SIAM International Conference on DataMining, 2005. J. A. Filar, L. C. M. Kallenberg,and H. Lee, "Variance-penalized Markov decision processes,"Mathematics of Operations Research, vol. 14, pp. 147-161, 1989. D. J. White, "Mean, variance, and probabilistic criteria in finiteMarkov decision processes: A review," Journal of Optimization Theory andApplications, vol. 56, no. 1, pp. 1-29, 1988. R. Munos and A. W. Moore, "Variable resolutiondiscretization for high-accuracy solutions of optimalcontrol problems," in Proceedings of the International Joint Conference onArtificial Intelligence, 1999, pp. 1348-1355. R. Neuneier, "Enhancing Q-learning for optimalasset allocation," in Advances in Neural Information Processing Systems,1998, vol. 10, pp. 936-942. H. Kawai, "A variance minimization problem for a Markov decisionprocess," European Journal of Operational Research, vol. 31, pp. 140-145,1987. M. L. Puterman, Markov Decision Processes, JohnWiley and Sons, 1994. H. Markowitz, "Portfolio Selection,"Journal of Finance, vol. 7, pp. 77-91, Mar. 1952. M.R. Hardy and J. L. Wirch, "The iterated CTE: Adynamic risk measure," The North American Actuarial Journal, 62-75, 2004. P.Boyle, M. Hardy, and T. Vorst, "Life after VaR," Journal of Derivatives, 13(1):48-, 2005. B. Acciaio and I. Penner, "Dynamicrisk measures," February 17, 2010. M. Kupper and W. Schachermayer,"Representation results for law invariant time consistent functions," August 24, 2009. F.Riedel, "Dynamic coherent risk measures," Stochastic Processes and theirApplications 112:185 – 200, 2004. P.Artzner, F.Delbaen,J.-M.Eber, D.Heath, and H.Ku,"Coherent multiperiod risk adjusted values andBellman’s principle," Annals of Operations Research, 152(1):5-22, 2007. T.Wang, "A class of dynamic risk measures," September, 1999.

通常、マルコフ決定過程におけるアクションは期待値（expectation）また指数型効用（exponential utility）を用いて最適化される。なぜならば、期待値や指数型効用を用いて得られた最適アクションは時間的一貫性（time-consistency）が確保されており、かつ、期待値や指数型効用を用いれば最適アクションを動的計画法（DynamicProgramming）によって効率的に得ることができるからである。

しかし、期待値や指数型効用によるアクションの最適化については、得られる最適アクションが既に受けた報酬の量から独立であること、バリュー・アット・リスク（”value at risk”。以下、VaRと表記されることがある）のようなリスク指標を考慮したプリファレンス（好み）を表現することができないこと、などの制約が存在する。

一方、バリュー・アット・リスクやCTE（Conditional Tail Expectation）のような既知のリスク指標を用いてマルコフ決定過程を最適化することは困難である。なぜならば、そのようなリスク指標を用いて求められた最適なアクションは時間的一貫性が確保できない場合があり、その結果として、あるアクションを、将来において最適でない可能性があるにもかかわらず、ある時点の価値指標を最適化するために最適アクションとして決定することがあり得るからである。

そこで本発明は、上記の課題を解決することのできる方法、システムおよびプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。

上記課題を解決するために、コンピュータ装置を用いて、対象期間の各期に渡って所定のアクションを実行した場合に所定の遷移確率に従って遷移し得る各期の状態それぞれについて、リスクを考慮した最適アクションを決定するための方法が提供される。方法は、
ａ）対象期間のある期（「今期」という）において取り得る状態の１つを選択するステップと、
ｂ）選択された状態の１つにおいて実行可能な１以上のアクション候補のうちの１つを選択するステップと、
ｃ）選択された状態の１つにおいて、選択されたアクション候補のうちの１つを実行したことによって得られる報酬および来期の状態における最適アクションに対応する価値指標に依存する評価値の確率分布を算出するステップと、
ｄ）前期評価値の確率分布を用いて、リスク指標を算出するステップと、
ｅ）前記リスク指標を考慮した所定のプリファレンスに従って、前記１以上のアクション候補のうちの１つが実行された場合の価値指標を算出するステップと、
ｆ）選択された状態の１つにおいて実行可能な未選択のアクション候補について、ステップｂ）〜ｆ）を繰り返すステップと、
ｇ）選択された状態の１つについて１以上のアクション候補のうちの１つを最適アクションとして決定するために、１以上のアクション候補それぞれの価値指標を比較するステップと、を含む。

好ましくは、方法は、ｈ）未選択の状態について、ステップａ）〜ｇ）を繰り返すステップ、をさらに含む。

好ましくは、方法では、今期において取り得る状態それぞれについて、最適アクションに対応する価値指標が対応する状態と関連付けて記憶され、ｉ）今期の一つ前の前期を今期と設定し、新たに設定された今期について、今期に取り得る状態それぞれについて最適アクションを決定するために、ステップａ）〜ｈ）を繰り返すステップをさらに含む。さらに、好ましくは、今期が対象期間の第１期となるまで、ステップａ）〜ｉ）を繰り返すステップを含む。

好ましくは、ステップｅ）が、所定のプリファレンスに従う重み付け関数をリスク指標を用いて決定するステップと、重み付け関数を用いて加重和を算出することで、１以上のアクション候補のうちの１つが実行された場合の価値指標を計算するステップと、を含む。

好ましくは、コンピュータ装置は、複数の状態それぞれについて、当該状態においてそれぞれのアクションを実行した場合にそれぞれの状態に遷移する遷移確率を記憶する遷移確率記憶部と、複数の状態それぞれについて、当該状態においてそれぞれのアクションを実行した結果それぞれの状態に遷移した場合に得られる報酬の確率分布を示すパラメータを記憶する報酬パラメータ記憶部にアクセス可能とされる。そのようなコンピュータ装置が、遷移確率および報酬パラメータを参照して、以下の１）〜３）を含むグラフデータを生成することが好ましい。
１）今期において取り得る状態を表すノードデータ、
２）今期において取り得る状態から来期において取り得る状態を表す状態への遷移を表す有向エッジデータ、および
３）今期において取り得る状態それぞれにおいて取り得るアクション、それぞれのアクションを実行した場合のそれぞれの遷移先に遷移する確率、および、それぞれのアクションを実行した場合に得られる報酬の確率分布を表す属性データ、

好ましくは、評価値の確率分布が、今期における報酬と来期における最適アクションと関連する価値指標の和を実現値とし、今期のある状態においてあるアクションを実行した場合にある遷移先状態およびある報酬を得ることができる確率を確率とする。

リスク指標が、評価値の確率分布のバリュー・アット・リスク（value at risk）を用いることによって計算されることが好ましい。

以上、コンピュータ装置を用いてリスクを考慮した最適アクションを決定するための方法として本発明の概要を説明したが、本発明は、コンピュータ・システム、装置、プログラム、ソフトウェア、プログラム製品、ソフトウェア製品などとしても把握することができる。プログラム製品ないしソフトウェア製品は、例えば、前述のプログラム、ソフトウェアを格納した記憶媒体を含み、あるいはプログラム、ソフトウェアを伝送する媒体を含むことができる。

また、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの構成要素のコンビネーションまたはサブコンビネーションもまた、発明となり得ることに留意すべきである。

本発明の実施形態の情報システム１０の全体構成である。本発明の実施形態の遷移確率記憶部２０のデータ構造の一例である。本発明の実施形態の報酬パラメータ記憶部３０のデータ構造の一例である。本発明の実施形態の最適アクション決定システム４０の機能構成図である。本発明の実施形態の最適アクション決定システム４０によって最適アクションが決定される処理のフローチャートである。本発明の実施形態における、最適アクションが決定されるデータ処理の流れを説明するための図である。本発明の実施形態における、最適アクションが決定されるデータ処理の流れを説明するための図である。本発明の実施形態における、最適アクションが決定されるデータ処理の流れを説明するための図である。本発明の実施形態における、最適アクションが決定されるデータ処理の流れを説明するための図である。本発明の実施形態における、最適アクションが決定されるデータ処理の流れを説明するための図である。本発明の実施形態における、最適アクションが決定されるデータ処理の流れを説明するための図である。本発明の実施形態における、最適アクションが決定されるデータ処理の流れを説明するための図である。本発明の実施形態における、最適アクションが決定されるデータ処理の流れを説明するための図である。本発明の実施形態における、最適アクションが決定されるデータ処理の流れを説明するための図である。本発明の実施形態における、最適アクションが決定されるデータ処理の流れを説明するための図である。最適アクション決定システム１２０として機能する情報処理装置のハードウェア構成の一例を示す。本発明の実施形態の遷移確率記憶部２０のデータ構造の他の一例である。

以下、発明を実施するための形態（以下、本発明の実施形態と称す）を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

最初に本発明の実施形態の概要を説明し、次いで、実施例を詳細に説明する。本発明の実施形態の情報システム１００では、状態の遷移確率やある状態において実行するアクションに対する報酬のパラメータなどに関するデータがあらかじめ与えられる。ユーザのリクエストに応じて、対象期間の各期（T₁、T₂、…T_n）について、後の期からより前の期に向かう順番で最適アクションを決定していく。決定された最適アクションは、最終的にリクエストしたユーザに判断材料として提示される。

具体的には、本発明の実施形態では、ある期において取りえる状態それぞれにおいて実行可能なアクション候補についてそれぞれ所定のプリファレンス（好み）に従うリスクを考慮した価値指標を算出し、最良の価値指標を有するアクション候補を最適なアクションと決定する。ある状態について決定された最適アクションは、その最適アクションに対応する価値指標（以下、「最適価値」といい、v* (s, t) と表記することがある）とともに当該状態と関連付けられ記憶される。記憶された最適価値は、一つ前の期の最適アクションを決定するために使用される。

本発明の実施形態では、まず今期（t）を対象期間の最終期（T_n）とし、今期（t= T_n）において取り得る状態が生成される。また、最終期（T_n）においてアクションを実行することはないので、最終期（T_n）における最適アクションは決定されない。同様の理由により、最終期（T_n）の各状態における最適価値には、あらかじめ定められた初期値が代入される。

次いで、最後から２番目の期（T_n-1）を今期（t）とし、今期（t= T_n-1）に取り得る状態を生成したうえで、それぞれの状態において実行可能なアクション候補のすべてについて価値指標VM（value measure）が算出される。価値指標はアクションを評価するための指標となり得るものであればいかなるものをも採用することができるが、本発明の実施形態では後述する手法を用いて計算されたものが使用される。次いで、算出されたアクション候補の価値指標同士を比較し、最良の価値指標を有するアクション候補を当該状態における最適アクションと決定する。また、決定された最適アクションの価値指標を、当該状態における最適価値と決定する。状態について決定された最適アクションと最適価値は、当該状態と関連付けて記憶される。

アクション候補の価値指標の算出は以下のデータ処理を通じて行われる。まず、当該アクション候補を実行した場合に得られる報酬と、遷移先と関連付けて記憶された最適価値に依存する評価値の確率分布Ｘを求め、当該評価値の確率分布Ｘのリスク指標V_αを算出する。そして、最適アクションの決定においてリスクが考慮されるように、所定のプリファレンスに従ってリスク指標V_αを用いて重み付け関数w(x) を決定する。次いで、重み付け関数w(x) を用いた加重和Σw(x) * xを算出してアクション候補の価値指標VMが算出される。

今期における他の状態について、上述の最適アクションと最適価値の決定および記憶が繰り返される。今期において取り得る状態すべてについて最適アクションと最適価値の決定および記憶が完了した場合、今期を１つ前の期とし、今期において取り得る状態すべてについて最適アクションと最適価値の決定および記憶を実行する。これらの処理が、第１期（t= T₁）まで繰り返され、対象期間の各期に対して、それぞれ取り得る状態すべてについて最適アクションが決定され、ユーザの判断材料の用に供されることとなる。

図１は、本発明の実施形態の情報システム１００の全体構成を示す。情報システム１００は、ユーザのコンピュータ１１０、最適アクション決定システム１２０、遷移確率記憶部１３０と、報酬パラメータ記憶部１４０を有する。本発明の実施形態のユーザのコンピュータ１１０は、最適アクション決定システム１２０にリクエストを送信し、返された最適アクションに関する情報を受けるものとする。

ユーザのコンピュータ１１０からのリクエストは、アクションを決定する対象期間の第１期、最終期、期の間隔、および、最終期において取り得る状態その他の制約情報を含む。具体的には、例えば、リクエストは、対象期間の第１期が２０１０年の９月であること、最終期が２０１１年の８月であること、期の間隔が３ヶ月（四半期ごと）であること、最終期において取り得る状態がs₁、s₂、s₃であること、などを含むようにすることができる。また、最適アクション決定システム１２０がユーザ・コンピュータに返す最適アクションに関する情報は、対象期間（T₁、T₂、…T_n）に渡って、各期において取り得る状態それぞれについて、最適なアクションがいずれであるかの情報を含む。

遷移確率記憶部１３０は、取り得る複数の状態のそれぞれについて、当該状態においてそれぞれのアクションを実行した場合にそれぞれの状態に状態遷移する遷移確率を記憶している。状態とは、例えば、ある主体が保有する資産ポートフォリオの総額、ポートフォリオの構成比率などの種々の属性の組み合わせである。すなわち、かかる属性の組み合わせによって当該主体があるセグメントに分類される場合を状態s₁、他のセグメントに分類される場合を状態s₂などとすることができる。アクションとは、例えば、ある主体が保有する資産ポートフォリオの内容を変動させる行為（典型的には、資産の一部の売買などが含まれるがこれに限らない）を含む。すなわち、本発明の実施形態における状態遷移とは、例えば、あるセグメントに属する主体があるアクションを実行した結果、他のセグメントに属することとなることをいい、かかる変動が生じる確率を遷移確率という。

本発明の実施形態の報酬パラメータ記憶部１４０は、これら複数の状態のそれぞれについて、各状態においてアクションを実行した結果それぞれの状態に遷移した場合に得られる報酬の確率分布を示すパラメータを記憶している。報酬は、例えば、保有する資産ポートフォリオの一部を売買したときに得られる利益あるいは損失とすることができる。報酬の確率分布を示すパラメータとは、例えば、確率分布が正規分布に従う場合の平均値および分散値などとすることができる。

なお、これら遷移確率記憶部１３０または報酬パラメータ記憶部１３０に記憶されたデータは、過去の調査履歴などの情報を分析して予め生成および更新されるようにすることができる。かかるデータは、ユーザがコンピュータ１１０を操作して最適アクション決定システム１２０を通じて遷移確率記憶部１３０、報酬パラメータ記憶部１４０にアクセスして編集を行うことによって生成、更新してもよいし、管理者が移確率記憶部１３０、報酬パラメータ記憶部１４０に直接アクセスして編集を行うことによって生成、更新するようにしてもよい。さらに、コンピュータによって自動的に外部の情報源に定期的にアクセスして得た情報について分析を行うことによって、かかるデータの生成、更新を自動的に行うようにしてもよい。かかるデータの生成、更新の手法の詳細については、いわゆる当業者が適宜なし得ることであるので、ここではこれ以上詳細には説明されない。

本発明の実施形態の最適アクション決定システム１４０は、対象期間（T₁、T₂、…T_n）に渡って、特定のプリファレンス（好み）に従って各期において取り得る状態それぞれについてリスクが考慮された最適アクションを決定する。決定された最適アクションに関する情報はユーザのコンピュータ１１０を介してユーザに提示される。

このように、本実施形態に係る情報システム１００は、状態の遷移確率やある状態において実行するアクションに対する報酬などのデータがあらかじめ与えられた場合に、ユーザのリクエストに応じて、所定のプリファレンス（好みに従うリスクを考慮した最適なアクションを出力してユーザに提示することを目的としている。

図２は、本発明の実施形態の遷移確率記憶部１３０のデータ構造の一例を示す。遷移確率記憶部１３０は、採り得る複数の状態のそれぞれについて、当該状態においてそれぞれのアクションを実行した場合に各状態に遷移する遷移確率を記憶している。状態を変数s、具体的には、状態はs₁、s₂、…、s_mなどと表すこととする。また、採り得る状態の集合をＳとする。即ち、s∈Ｓである。また、実行可能なアクションを変数aによって表し、具体的には、アクションはa₁、a₂、…a_nなどと表すこととする。また、実行可能なアクションの集合をAとする。即ちa∈Aである。

具体的には、本発明の実施形態の遷移確率記憶部１３０は、遷移元の状態とアクションとの組（s, a）と、遷移先の状態sとの組合せ毎に、その遷移確率を記憶する。例えば、状態s₁においてアクションa₁を実行した結果状態s₁のまま状態遷移しない確率は２５％であり、状態s₂に遷移する確率は４０％である。なお、図２の表の各行の遷移確率の総和（例えば、(s₁, a₁)の行については、0.25+0.40+…+0.30）が1となることに留意されたい。

図３は、本発明の実施形態の報酬パラメータ記憶部１４０のデータ構造の一例を示す。報酬パラメータ記憶部１４０は、これら複数の状態のそれぞれについて、それぞれのアクションを実行した結果それぞれの状態に遷移した場合に得られる報酬の確率分布を示すパラメータを記憶している。

具体的には、本発明の実施形態のパラメータ記憶部１４０は、遷移元の状態とアクションとの組（s, a）と、遷移先の状態sとの組合せ毎に、その遷移元の状態からその遷移先の状態に遷移した結果として得られる報酬の平均値を記憶しているものとする。例えば、状態s₁においてアクションa₁を実行した結果として状態s₂に遷移した場合に得られる報酬の平均値は＄４．５であり、状態s₂に遷移した場合に得られる報酬の平均値は＄２．１である。

なお、報酬の分布によっては平均値のみでは確率分布が定められないので、報酬パラメータ記憶部１４０は、図３と同様の表を分散値その他の必要なパラメータそれぞれについて記憶するものとする（図示せず）。その他の必要なパラメータは、例えば、安定分布における特性指数や歪度などが考えられる。これらのパラメータを記憶するためのデータ構造は、データの内容が平均値の代わりにそのようなパラメータとなるほかは同様であるので、これ以上の詳細な説明は省略する。

図４は、本発明の実施形態の最適アクション決定システム１２０の機能構成図である。なお、図１の機能構成図に示す各要素は、後述する図１６に例示したハードウェア構成を有する情報処理装置において、ハードディスク装置１３などに格納されたオペレーティング・システムやオーサリング・ソフトウェアなどのコンピュータ・プログラムをメインメモリ４にロードした上でＣＰＵ１に読み込ませ、ハードウェア資源とソフトウェアを協働させることによって実現することができる。

最適アクション決定システム１２０は、ユーザ・インターフェース部４０５と、状態遷移パターン生成部４１０、状態遷移パターン記憶部４１５、確率分布算出部４２０、リスク指標算出部４２５、重み付け関数決定部４３０、価値指標算出部４３５、最適アクション決定部４４０、および、最適アクション／価値指標記憶部４４５を備える。

本発明の実施形態のユーザ・インターフェース部４０５は、ユーザのコンピュータ１１０との情報データのやり取りを行うインターフェースとして機能する。具体的には、ユーザ・インターフェース部４０５は、ユーザのコンピュータ１１０から最適アクションに関する情報のリクエストを受けたことに応じて、状態遷移パターン生成部４１０に状態遷移パターンを生成させ、生成した状態遷移パターンについて最適アクションを決定する一連の処理をトリガする。また、ユーザ・インターフェース部４０５は、決定された最適アクションに関する情報をユーザのコンピュータ１１０に返信する機能を有する。

本発明の実施形態の状態遷移パターン生成部４１０は、ユーザ・インターフェース部４０５から受けた命令に従って、遷移確率記憶部１３０および報酬パラメータ記憶部１４０に記憶されたデータを参照して、状態遷移パターンを生成する。本発明の実施形態では、状態遷移パターン生成部４１０によって生成される状態遷移パターンは、下記を含むグラフデータである。
１）対象期間（T₁、T₂、…T_n）において取り得る状態の一部または全部を表すノード、
２）遷移元の状態から遷移先の状態への遷移を表す有向エッジ、および
３）それぞれの状態において実行可能なアクション、それぞれのアクションを実行した場合のそれぞれの遷移先に遷移する確率、および、それぞれのアクションを実行した場合に得られる報酬の確率分布を表す属性データ

本発明の実施形態の状態遷移パターン生成部４１０は、以下の手順に従って上述した状態遷移パターンを生成する。まず、ユーザが最終期（T_n）を今期とし、今期において取り得ると指定した状態を生成する。次に、その１つ前の期（T_n-1）を今期とし、今期において取り得る状態を生成し、生成した各状態において実行可能なアクションの候補および各アクション候補を実行した場合の遷移先ごとの遷移確率を各状態に付加する。次いで、今期T_n-1における各状態について最適アクションおよび最適価値が求められたことを条件に、さらに１つ前の期（T_n-2）を今期とし、今期において取り得る状態を生成し、生成した各状態において取り得るアクションの候補および各アクション候補を実行した場合の遷移先ごとの遷移確率を各状態に付加する。本発明の実施形態では、かかる処理が第１期（T₁）まで繰り返されることとなる。状態遷移パターンの生成処理のさらなる詳細が後述される。

本発明の実施形態の状態遷移パターン記憶部４１５は、状態遷移パターン生成部４１０が生成した状態遷移パターンを順次記憶する。記憶された状態遷移パターンは、確率分布算出部４２０などによって読み取られ、使用される。

本発明の実施形態の確率分布算出部４２０は、任意の時点において取り得る状態において実行可能なアクション候補それぞれについて、当該アクション候補を実行したことによって得られる報酬および来期の状態における最適アクションに対応する価値指標（最適価値）に依存する評価値の確率分布Ｘを算出する。確率分布算出部４２０によって算出される評価値の確率分布Ｘの詳細は後述される。

本発明の実施形態のリスク指標計算部４２５は、確率分布算出部４２０によって算出された評価値の確率分布Ｘに基づいて、所定のリスク指標が計算される。本発明の実施形態においては、所定のリスク指標V_αは、一例として、バリュー・アット・リスク（value atrisk、VaRとも表記する）を用いて求められる。リスク指標V_αの算出方法およびバリュー・アット・リスクの詳細が後述される。

本発明の実施形態の重み付け関数決定部４３０は、ユーザのリスクに関するプリファレンス（好み）およびリスク指標計算部４２５が算出した所定のリスク指標V_αに基づいて、後述する価値指標算出部４３５によって計算される価値指標の算出において用いられる重み付け関数w(x) を決定する。

本発明の実施形態の価値指標算出部４３５は、重み付け関数決定部４３０によって決された重み付け関数w(x) の加重和を求めることによって、任意の時点において取り得る状態において実行可能なアクション候補それぞれについて価値指標VM（value measure）を算出する。

本発明の実施形態の最適アクション決定部４４０は、価値指標算出部４３５によって計算された任意の時点において取り得る状態において実行可能なアクション候補ごとに価値指標を比較し、その状態における最適アクションを決定する。また、最適アクション決定部４４０は、今期において取り得る状態のすべてについて最適アクションが決定されたことに応じて、今期の１つ前の期を新たに今期とし、次いで今期において取り得る状態遷移パターンを生成するように状態遷移パターン生成部４１０に命令を送る。

本発明の実施形態の最適アクション／価値指標記憶部４４５は、最適アクション決定部４４０が決定をした各状態における最適アクションと、当該最適アクションに関連する価値指標（すなわち、最適価値）をそれぞれの状態と関連付けて記憶する。

図５は、本発明の実施形態におけるデータ処理システムの全体動作を表現するフローチャート５００である。処理はステップ５０５でスタートし、ステップ５１０でユーザ・インターフェース部４０５がユーザからのリクエストを受領したことに応じて、対象期間の最終期（T_n）を今期（t）にセットする（t= T_n）。次にステップ５１５で、今期（t= T_n）おいて取り得る状態S= s₁、s₂、…、s_m のノードを含むグラフデータ生成する。

処理はステップ５２０に進み、生成された状態S= s₁、s₂、…、s_mそれぞれの最適価値v* (s, T_n) に初期値を代入する。例えば、代入される初期値は、0とすることができる。また、代入される初期値をユーザまたは管理者に都度設定させることもできる。

次に、ステップ５２５において、１つ前の期（T_n-1）を今期（t）とする（t= T_n-1）。次いで、ステップ５３０において今期（t= T_n-1）において取りえる状態S= s₁、s₂、…、s_mを生成する。この場合、今期（t= T_n-1）において取りえる状態S= s₁、s₂、…、s_mを表すノード、今期（t= T_n-1）における状態から来期（t= T_n）の状態への遷移を表す有向エッジ、今期（t= T_n-1）において取りえる状態S= s₁、s₂、…、s_mそれぞれにおいて取り得るアクションA= a₁、a₂、…、a_n、それぞれのアクションを実行した場合のそれぞれの遷移先に遷移する確率、および、それぞれのアクションを実行した場合に得られる報酬の確率分布を表す属性データを含むグラフデータを既に生成済みの来期（t= T_n）おいて取り得る状態S= s₁、s₂、…、s_m のノードを含むグラフデータに追加する。

処理はステップ５３５に進み、今期（t= T_n-1）において取り得る状態S= s₁、s₂、…、s_mのうち、まだ選択されていない要素sを選択する。次にステップ５４０に進み、ステップ５３５において選択された状態sにおいて取り得るアクション候補のうちまだ選択されていないもののうちの1つであるaを選択する。

次にステップ５４５において、ステップ５４０において選択されたaについて下記の数式に従う評価値の確率分布Ｘを求める。なお、下記の数式においては、r は報酬、v* (s´, t+1) は来期（tの１つ次の期、ここでは T_n）の状態s´に関する最適価値であるとものする。また、p_t（s´, r| s, a）は、今期（t= T_n-1）において状態sにおいてアクションaを実行した場合に、状態s´ に遷移し、かつ、報酬 rが得られる確率であるものとする。また、Σで示される和は、r+v*(s´,t+1)=xとなる全てのs´とrの組について、p_t(s´, r | s, a)を足し合わせるものとする。要するに、Ｘは値xを所定の確率で取るような離散分布であり、この実施例においては今期に得られる報酬と来期の最適価値の和に相当する。

次に、処理はステップ５５０に進み、ステップ５４５において求められた確率分布Ｘについて所定のリスク指標V_αを計算する。本発明の実施形態においては、リスク指標V_αはバリュー・アット・リスクを用いて求められる。本発明の実施形態では、リスク指標V_αは予め定められた確率α（たとえば、α＝1%）で生じる損失の最大額をいうものとし、かかる場合のリスク指標V_αは確率分布Ｘを用いて下記の数式２に従って求めることができる（たとえば、確率分布Ｘに対して、α＝1%の割合で生じる損失額をV_αであるとすることができる）。

処理はステップ５５５に進み、ステップ５５０において求められたリスク指標Vαに依存する重み付け関数w(x) を決定する。重み付け関数w(x) は、リスクに対するプリファレンス（好み）に基づいて様々なものを採用することができる。たとえば、最終的に得られる累積報酬の最大化とリスクの最小化をバランスするプリファレンスの場合、以下の重み付け関数w(x)を決定することができる。ここでPr(X=z) は、確率分布Ｘにおいて実現値zの値を取る確率であるものとする。この場合、数式中のbの値を変化させることによって、どの程度リスクを取るかを調整することができる。

また、２００４年にHardyらによって提案されたICTE（Iterated CTE）とよばれる時間的一貫性を有する動的リスク指標（非特許文献９参照）を用いて最適化を行うプリファレンスも考えられる。ここで、ICTEは、投資の実行の際に銀行がされるリスクに適切な資本準備金を決定するために銀行によって使用されること等を意図して考案されたものである。

ICTEはCTE (Conditional TailExpectation)を繰り返し適用することで計算される。CTEは、Conditional Value at Risk, ExpectedShort Fall等とも呼ばれ、バリュー・アット・リスクを用いて計算される。具体的には、CTEは、α（0<α<1）の確率で損失がV_αを超えないことを表すバリュー・アット・リスクV_αを用いて、下記数式によって損失YがV_αを超えた時のYの期待値として求められる（ただし、下記の数式ではYの確率分布が連続と仮定している）。

そして、ICTEは、次のように計算される。すなわち、ある時点T_k-1から見た将来の損失YのCTEを計算する。ここで、時点T_k-1におけるCTEは時点T_k-2から見れば確率変数と考えることができ、T_k-2からT_k-1にかけて何が起こるかによって時点T_k-1のCTEが変化する。そこで、時点T_k-1のCTEを「損失」とみてその「損失」のCTEを時点T_k-2において計算することができる。また、時点T_k-2におけるCTEは時点T_k-3から見れば確率変数であり、時点T_k-2のCTEのCTEを時点T_k-3において計算することができる。このような処理を繰り返して、CTEのCTEを反復的に計算して得られるリスク指標がICTEである（詳細は非特許文献９参照）。

かかるICTEを用いて最適化を行うプリファレンス、例えば、損失YのICTEであるICTE[Y]を最小化するプリファレンスを採用する場合、以下の重み付け関数w(y) を決定することができる。ここで、V_αはYのバリュー・アット・リスクである。なお、この場合も、αの値を変化させることによって、どの程度リスクを取るかを調整することができる。なお、ここではICTEの理解を容易にするために上述の確率分布Ｘのかわりに損失Yを用いたが、一般にXにマイナスを掛けたものがYであることに留意されたい。

処理はステップ５６０に進み、下記の数式に従ってステップ５５５で決定した重み付け関数w(x) の加重和を求めることによって、価値指標（value measure、VM(s, a, t)）を求める。なお、上述のICTEを用いて最適化を行うプリファレンスの場合は、確率分布Ｘのかわりに損失Yを用い、w(y) として重み付け関数を決定したが、この場合は下記数式を適宜変更する必要があることに留意されたい。当業者は、適宜かかる変更をなし得るので、ここではこれ以上の詳細は説明されない。

処理はステップ５６５に進み、状態sにおいて実行可能なアクション候補すべてについて、価値指標VMが算出されたかどうかが判断される。算出されていない場合、Ｎｏの矢印からステップ５４０に戻り、まだ価値指標VMが算出されていない未選択のアクションが選択され、選択された当該アクションについてステップ５４５〜５６０のループが実行されて価値指標VMが算出される。

上記を繰り返すことによって状態sにおいて実行可能なアクション候補すべてについて価値指標VMが算出されることとなる。状態sにおいて実行可能なアクション候補すべてについて価値指標VMが算出された場合、処理はステップ５６５からＹｅｓの矢印を通じてステップ５７０に進むこととなる。

ステップ５７０においては、ステップ５４０〜５６０のループにおいて算出された状態sにおいて実行可能なアクション候補について価値指標VM同士を比較し、最良の価値指標を持つアクションを状態sにおける最適アクションとして決定する。次いで、ステップ５７５においてステップ５７０において決定された最適アクションと、当該最適アクションに関連する価値指標を最適価値v*(s, t) として記憶する。

次にステップ５８０に進み、今期において取り得る状態すべてについて、最適アクションが決定されたかどうかが判断される。決定されていないと判断された場合、処理はNoの矢印を通じてステップ５３５に戻り、他の取り得る状態が選択され、選択された状態についてステップ５４０〜５７５のループが繰り返されて最適アクションが決定され、当該最適価値が記憶される。この繰り返しによって、今期（t= T_n-1）において取り得る状態すべてについて最適アクションが得られることとなる。

ステップ５８０において今期において取り得る状態すべてについて、最適アクションが決定されたと判断された場合、処理はＹＥＳの矢印を通じてステップ５８５へ進む。ステップ５８５では、今期が第１期（t= T₁）であるかどうかが判断される。第１期と判断されなかった場合、処理はＮＯの矢印を通じてステップ５３０に戻り、１つ前の期（T_n-2）を今期（t）とし（t= T_n-2）、新しい今期（T_n-2）についてステップ５３５〜５８０のループを繰り返す。これを繰り返すことによって、第１期（T₁）から最終期（T_n）に渡って、取り得る状態それぞれについて最適アクションが得られることとなる。

ステップ５８５で、今期（t）が第１期（t= T₁）であるかどうかが判断された場合、ＹＥＳの矢印を通じてステップ５９０へ進む。ステップ５９０では、第１期（t= T₁）から最終期（t= T_n）までのすべてに渡るすべての取り得る状態について最適アクションがユーザに提示され、ユーザの判断材料の用に供される。そして、処理はＮＯの矢印からステップ５９５へ進み終了する。

次に、最適アクションの決定においてどのようなデータ処理がなされるのかをより詳細に説明するために、最適アクションを決定する対象期間におけるある時点（t=T_kとする）において最適アクションが決定される過程を、図６〜図１５を用いて説明する。まず、t=T_kにおいて最適アクションが決定される過程の前提として、t= T_k+1 の時点においてt= T_n-1…T_k+1において取り得る状態について最適アクションa* (s, t) および最適価値 v*(s, t) が求められ、グラフデータとして記憶されているものとする（図６参照）。

なお、図６〜１５においては、説明を簡単にするために、各期において取り得る状態はs₁、s₂、s₃の３種類、各状態おいて実行可能なアクションはa₁、a₂、a₃の３種類に限定されているものとする。また、T_nにおける最適アクションは対象期間の最終期であるために存在せず、また、価値v* (s, T_n) はあらかじめ初期値が設定されているものとする。さらに、図８〜１４においては、T_kにおける状態s₂、s₃に接続されている有向エッジは、T_kにおける状態s₁に接続されている有向エッジを見易くするために省略されていることに留意されたい。

この状態で、フローチャート５００のステップ５２５に対応する処理として、今期（t）を一つ前の期（T_k）とする処理が行われる（t= T_k）。そして、ステップ５３０に対応する処理として、今期（t=T_k）において取り得る状態S（ここでは、s₁、s₂、s₃とする）のデータがグラフのノードとして生成される。生成された状態ノードは、有向エッジによって遷移先の状態ノードと接続される。また、各有向エッジには、エッジによって結ばれる遷移元の状態において実行可能なアクションそれぞれについて、当該アクションを実行した場合に当該遷移元状態から遷移先状態に遷移する遷移確率、および当該アクションを実行した場合に得られる報酬の確率分布のデータが付加されるものとする（図７参照）。

次に、ステップ５３５に対応する処理として、今期（t=T_k）において取り得る状態の１つとして状態s₁が選択され、ステップ５４０に対応する処理として、状態s₁において実行可能なアクション候補の１つとしてa₁が選択される。次いで、ステップ５４５に対応する処理として、今期（t=T_k）における状態s₁から来期（T_k+1）における状態s₁、s₂、s₃に向かう有向エッジのそれぞれに付されたアクション候補a₁についての遷移確率および報酬の確率分布を参照して確率分布Ｘのデータが生成される（図８参照）。そして、ステップ５５０に対応する処理として、生成された確率分布Ｘのデータを用いて、アクション候補a₁についてリスク指標V_αが計算される（図９参照）。

次いで、ステップ５５５に対応する処理として、重み付け関数w(x) がリスク指標V_αを用いて決定される（図１０参照）。既に述べた通り、重み付け関する w(x) は様々なプリファレンスに基づいて決定される。プリファレンスは、ユーザがリクエストを送信するときに指定してもよいし、システム管理者があらかじめしておいてもよいし、また、最適アクション決定システムがユーザからリクエストを受けたときに、所定のアルゴリズムに従って自動的に決定するようにしてもよい。次いで、ステップ５６０に対応する処理として、重み付け関数w(x) を用いてアクション候補a₁についての価値指標（value measure）VM (a₁,s₁, T_k) が計算される（図１１参照）。

上記の処理が、その他のアクション候補（a₂、a₃）についても実行され（ステップ５４０〜５６５のループ）、T_kにおいて取り得る状態s₁で実行可能なアクション候補a₁、a₂、a₃のそれぞれについての価値指標（value measure）であるVM(a₁, s₁, T_k)、VM (a₂, s₁, T_k)、VM (a₃, s₁, T_k)が得られることとなる（図１２参照）。これらの価値指標同士を比較し、最良の価値指標に対応するアクション候補をT_kにおいて取り得る状態s₁における最適アクションとして決定し（ステップ５７０）、決定された最適アクションおよび対応する価値指標（最適価値）を記憶する（ステップ５７５）。この例では、３つの価値指標のうちVM (a₂, s₁, T_k)が最良のものであり、その結果、アクションa₂が最適アクションとして決定されたものとする（図１３参照）。

さらに、上記の処理が今期（t=T_k）において取り得る他の状態（s₂、s₃）についても実行され（ステップ５３５〜５８０のループ）、今期（t=T_k）において取り得る状態S=s₁、 s₂、s₃のそれぞれについて、最適アクションおよび最適価値が決定され記憶されることとなる。このようなデータ処理によって、今期（t=T_k）における最適アクションが決定されたこととなる。今期（t）を一つ前の期（T_k-1）とする処理が行われ（t= T_k）、新しい今期（t= T_k）について同様に取り得る状態のデータの生成がされ（図１５参照）、取り得る状態すべてについて最適アクションが決定されることとなる。以降、同様の繰り返しが対象期間の第１期（T₁）まで繰り返される（ステップ５２５〜５７０のループ）。

図１６は、本発明の実施の形態の最適アクション決定システム１２０を実現するのに好適な情報処理装置のハードウェア構成の一例を示した図である。情報処理装置は、バス２に接続されたＣＰＵ（中央処理装置）１とメインメモリ４を含んでいる。本発明の実施形態におけるＣＰＵ１はマルチコアのプロセッサであるものとする。ＣＰＵ１の各コアに分割されたＸＭＬ文書内の部分が送られ、並列処理がなされるものとする。

ハードディスク装置１３、３０、およびＣＤ−ＲＯＭ装置２６、２９、フレキシブル・ディスク装置２０、ＭＯ装置２８、ＤＶＤ装置３１のようなリムーバブル・ストレージ（記録メディアを交換可能な外部記憶システム）がフロッピーディスクコントローラ１９、ＩＤＥコントローラ２５、ＳＣＳＩコントローラ２７などを経由してバス２へ接続されている。

フレキシブル・ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭのような記憶メディアが、リムーバブル・ストレージに挿入される。これらの記憶メディアやハードディスク装置１３、３０、ＲＯＭ１４には、オペレーティング・システムと協働してＣＰＵ等に命令を与え、本発明を実施するためのコンピュータ・プログラムのコードを記録することができる。メインメモリ４にロードされることによってコンピュータ・プログラムは実行される。コンピュータ・プログラムは圧縮し、また複数に分割して複数の媒体に記録することもできる。

情報処理装置は、キーボード／マウス・コントローラ５を経由して、キーボード６やマウス７のような入力デバイスからの入力を受ける。情報処理装置は、視覚データをユーザに提示するための表示装置１１にＤＡＣ／ＬＣＤＣ１０を経由して接続される。

情報処理装置は、ネットワーク・アダプタ１８（イーサネット（Ｒ）・カードやトークンリング・カード）等を介してネットワークに接続し、他のコンピュータ等と通信を行うことが可能である。図示はされていないが、パラレルポートを介してプリンタと接続することや、シリアルポートを介してモデムを接続することも可能である。

以上の説明により、本発明の実施の形態の最適アクション決定システム１２０を実現するのに好適な情報処理装置は、通常のパーソナルコンピュータ、ワークステーション、メインフレームなどの情報処理装置、または、これらの組み合わせによって実現されることが容易に理解されるであろう。ただし、これらの構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。

本発明の実施の形態において使用される情報処理装置の各ハードウェア構成要素を、複数のマシンを組み合わせ、それらに機能を配分し実施する等の種々の変更は当業者によって容易に想定され得ることは勿論である。それらの変更は、当然に本発明の思想に包含される概念である。

本発明の実施の形態のデータ処理システムは、マイクロソフト・コーポレーションが提供するＷｉｎｄｏｗｓ（Ｒ）オペレーティング・システム、アップル・コンピュータ・インコーポレイテッドが提供するＭａｃＯＳ（Ｒ）、ＸＷｉｎｄｏｗＳｙｓｔｅｍを備えるＵＮＩＸ（Ｒ）系システム（たとえば、インターナショナル・ビジネス・マシーンズ・コーポレーションが提供するＡＩＸ（Ｒ））のような、ＧＵＩ（グラフィカル・ユーザー・インターフェース）マルチウインドウ環境をサポートするオペレーティング・システムを採用する。

以上から、本発明の実施の形態において使用されるデータ処理システムは、特定のマルチウインドウ・オペレーティング・システム環境に限定されるものではないことを理解することができる。

以下、本発明の第２の実施例について説明する。第２の実施例では、最初期から今期までに得た報酬の累積額である累積報酬cが最適アクションの決定の際に考慮される。ある期における最適アクションを決定する際に累積報酬cを考慮することが望まれる場合がある。例えば、ある状態において自己が保有する資産が少ない場合に、破産の危険がある高リスクのアクションを実行せず、低リスクのアクションを実行することが望まれる場合などである。このような場合、自己が保有する資産として累積報酬cを考慮して最適アクションを決定することが好ましい。

本発明の実施形態（第２の実施例）の全体構成は第１の実施例と同様である（図１参照）。ただし、遷移確率記憶部１３０において、累積報酬cが新たな係数として追加されており（図１７、報酬パラメータ記憶部１４０は利用しない。

図１７は、本発明の実施形態（第２の実施例）の遷移確率記憶部１３０のデータ構造の一例を示す。遷移確率記憶部１３０は、複数の状態および複数の累積報酬の組み合わせのそれぞれについて、当該組み合わせにおいてそれぞれのアクションを実行した場合に特定の状態と累積報酬の組に遷移する遷移確率を記憶している。なお、累積報酬を変数c、具体的にはc₁、c₂、…、c_qなどと表すこととする。取り得る累積報酬の集合をCとする。即ち、c∈Cである。状態およびアクションに関する表記については、第１の実施例と同様であるので詳細な説明は省略する。本発明の実施形態の遷移確率記憶部１３０は、遷移元の状態、累積報酬とアクションとの組（s, c, a）と、遷移先の状態および累積報酬の組(s´, c´)の組合せ毎に、その遷移確率を記憶する。

また、本発明の実施形態（第２の実施例）における機能構成、処理の流れ、ハードウェア構成は、ほぼ第１の実施例と同様である（図４、図５、図１６参照）。よって、ここでは詳細は述べられない。

もっとも、第２の実施例は、評価値の確率分布Ｘの算出において第１の実施例と相違する。具体的には、確率分布算出部４２０によって、ステップ５４５において算出される評価値の確率分布Ｘは、図１７に一例が示されている累積報酬cを考慮した遷移確率記憶部１３０を参照し、選択されたaについて下記の数式に従って算出される。下記の数式においては、v* (s´, c´, t+1) は来期の状態s´および累積報酬c´の組に関する最適価値であるとものする。また、p_t（s´, c´ |s, c, a）は、今期において状態sおよび累積報酬cの組においてアクションaを実行した場合に、状態s´ および累積報酬c´の組に遷移する確率であるものとする。また、Σで示される和は、v*(s´,c´,t+1)=xとなる全てのs´とc´の組について、p_t(s´,c´ | s,c,a)を足し合わせるものとする。第２の実施例においては、第１の実施例とは異なり、Ｘは、来期の最適価値に相当することに留意されたい。

本発明の実施形態の第２の実施例では、上述のように算出された確率分布を用いて、対象期間の各期について、状態sおよび累積報酬cの組について網羅的にステップ５３５からステップ５８０のループを繰り返し、取り得る状態sおよび累積報酬cの組それぞれについて最適アクションを決定することとなる。

このとき、第２の実施例では、プリファレンスとして、バリュー・アット・リスク（VaR）で表現されるリスクを制約に、期待値E[X] を最大化するプリファレンスを採用することができる。このとき最適化される目的関数ρ_t(X) は以下の数式で表される。ここで、E[X] は期待値である。また、I{V_α>δ} は、{V_α>δ} が真であるときは１を、偽であるときは０を返すことを意味していることに留意されたい。この場合、数式中のα、λ、δの値を変化させることによって、どの程度リスクを取るかを調整することができる。

そして、上記のプリファレンスを採用する場合、以下の重み付け関数w(x) を決定するようにすることができる。

本発明の実施形態の第２の実施例では、累積報酬cをも考慮した最適アクションの決定が実現されるので、ある期における最適アクションを決定する際に累積報酬cを考慮することが望まれる場合により好ましいアクションに関する情報を得ることができる。

なお、本発明の実施形態の第２の実施例は、有限個の累積報酬cを用いて算出された最適価値v* (s´, c´, t+1) を用いることを想定してこれまでの説明をしたが、最適価値v* (s´, c´,t+1) を線形補間などの手法を用いて連続値とし、連続となった最適価値v* (s´, c´,t+1) を用いるようにしてもよい。

以上、本実施形態に係る情報システム１００によれば、対象期間の各期（t₁、t₂、…t_n）に渡って所定のアクションを実行した場合に所定の遷移確率に従って遷移し得る各期の状態それぞれについて、所定のプリファレンス（好み）に従って、リスクを考慮した時間的一貫性のある最適アクションを決定することができる。

また、本発明は、ハードウェア、ソフトウェア、またはハードウェア及びソフトウェアの組み合わせとして実現可能である。ハードウェアとソフトウェアの組み合わせによる実行において、所定のプログラムを有するデータ処理システムにおける実行が典型的な例として挙げられる。かかる場合、該所定プログラムが該データ処理システムにロードされ実行されることにより、該プログラムは、データ処理システムを制御し、本発明にかかる処理を実行させる。このプログラムは、任意の言語・コード・表記によって表現可能な命令群から構成される。そのような命令群は、システムが特定の機能を直接、または１．他の言語・コード・表記への変換、２．他の媒体への複製、のいずれか一方もしくは双方が行われた後に、実行することを可能にするものである。

もちろん、本発明は、そのようなプログラム自体のみならず、プログラムを記録した媒体もその範囲に含むものである。本発明の機能を実行するためのプログラムは、フレキシブル・ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＤＶＤ、ハードディスク装置、ＲＯＭ、ＭＲＡＭ、ＲＡＭ等の任意のコンピュータ読み取り可能な記録媒体に格納することができる。かかるプログラムは、記録媒体への格納のために、通信回線で接続する他のデータ処理システムからダウンロードしたり、他の記録媒体から複製したりすることができる。また、かかるプログラムは、圧縮し、または複数に分割して、単一または複数の記録媒体に格納することもできる。また、様々な形態で、本発明を実施するプログラム製品を提供することも勿論可能であることにも留意されたい。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。例えば、本発明の実施形態では、リスク指標V_αはバリュー・アット・リスクを用いて求められることとしたが、バリュー・アット・リスク以外の他のリスク指標を用いるようにすることができる。そのような他のリスク指標の例は、Ｘがあらかじめ定められた値ｄを超える確率Ｐｒ（Ｘ＞ｄ）（超過確率とも言われる）である。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

１００情報システム
１１０ユーザ・コンピュータ
１２０最適アクション決定システム
１３０遷移確率記憶部
１４０報酬パラメータ記憶部
４０５ユーザ・インターフェース部
４１０状態遷移パターン生成部
４１５状態遷移パターン記憶部
４２０確率分布算出部
４２５リスク指標算出部
４３０重み付け決定部
４３５価値指標算出部
４４０最適アクション決定部
４４５最適アクション／最適価値記憶部

Claims

コンピュータ装置を用いて、対象期間の各期に渡って所定のアクションを実行した場合に所定の遷移確率に従って遷移し得る各期の状態それぞれについて、リスクを考慮した最適アクションを決定するための方法であって、
ａ）前記対象期間のある期（「今期」という）において取り得る状態の１つを選択するステップと、
ｂ）前記選択された状態の１つにおいて実行可能な１以上のアクション候補のうちの１つを選択するステップと、
ｃ）前記選択された状態の１つにおいて前記選択されたアクション候補のうちの１つを実行したことによって得られる報酬および来期の状態における最適アクションに対応する価値指標に依存する評価値の確率分布を算出するステップと、
ｄ）前記評価値の確率分布を用いて、リスク指標を算出するステップと、
ｅ）前記リスク指標を考慮した所定のプリファレンスに従って重み付けを行って、前記１以上のアクション候補のうちの１つが実行された場合の価値指標を算出するステップと、
ｆ）前記選択された状態の１つにおいて実行可能な未選択のアクション候補について、ステップｂ）〜ｅ）を繰り返すステップと、
ｇ）前記選択された状態の１つについて前記１以上のアクション候補のうちの１つを最適アクションとして決定するために、前記１以上のアクション候補それぞれの価値指標を比較するステップと、
を含む、方法。
ｈ）今期において取り得る状態のうちの未選択の状態について、ステップａ）〜ｇ）を繰り返すステップ、をさらに含む、請求項１に記載の方法。
今期において取り得る状態それぞれについて、前記最適アクションに対応する価値指標が対応する状態と関連付けて記憶され、
ｉ）今期の一つ前の期を今期と設定し、新たに設定された今期について、今期に取り得る状態それぞれについて最適アクションを決定するために、ステップａ）〜ｈ）を繰り返すステップと、
をさらに含む、請求項２に記載の方法。
今期が前記対象期間の第１期となるまで、ステップａ）〜ｉ）を繰り返すステップを含む、請求項３に記載の方法。
前記ステップｅ）が、所定のプリファレンスに従う重み付け関数を前記リスク指標を用いて決定するステップと、前記重み付け関数を用いて加重和を算出することで、前記１以上のアクション候補のうちの１つが実行された場合の価値指標を計算するステップと、を含む、請求項１に記載の方法。
前記コンピュータ装置は、
複数の状態それぞれについて、当該状態においてそれぞれのアクションを実行した場合にそれぞれの状態に遷移する遷移確率を記憶する遷移確率記憶部と、
複数の状態それぞれについて、当該状態においてそれぞれのアクションを実行した結果それぞれの状態に遷移した場合に得られる報酬の確率分布を示すパラメータを記憶する報酬パラメータ記憶部と、
にアクセス可能をされており、
前記コンピュータ装置が、前記遷移確率および前記報酬パラメータを参照して、
１）今期において取り得る状態を表すノードデータ、
２）今期において取り得る状態から来期において取り得る状態を表す状態への遷移を表す有向エッジデータ、および
３）今期において取り得る状態それぞれにおいて実行可能なアクション、それぞれのアクションを実行した場合のそれぞれの遷移先に遷移する確率、および、それぞれのアクションを実行した場合に得られる報酬の確率分布を表す属性データ、
を含むグラフデータを生成する、請求項１に記載の方法。
前記評価値の確率分布が、今期における報酬と来期における最適アクションと関連する価値指標の和を実現値とし、今期のある状態においてあるアクションを実行した場合にある遷移先状態およびある報酬を得ることができる確率を確率とする、請求項１に記載の方法。
前記リスク指標が、前記評価値の確率分布のバリュー・アット・リスク（value at risk）を用いることによって計算される、請求項１に記載の方法。
前記所定のプリファレンスが、最終的に得られる累積報酬の最大化とリスクの最小化をバランスするプリファレンスであり、前記重み付け関数が下記式によって定義される、請求項７に記載の方法。
前記所定のプリファレンスが、ICTEの値を最小化するプリファレンスであり、前記重み付け関数が、前記重み付け関数が下記式によって定義される、請求項７に記載の方法。
前記所定のプリファレンスが、バリュー・アット・リスク（VaR）で表現されるリスクを制約に期待値E[X] を最大化するプリファレンスであり、このとき最適化される目的関数ρ_t(X) が下記式で定義され、

前記重み付け関数が下記式によって定義される、請求項７に記載の方法。
請求項１〜１０のいずれかに記載の方法の各ステップをコンピュータに実行させる、プログラム。
対象期間の各期に渡って所定のアクションを実行した場合に所定の遷移確率に従って遷移し得る各期の状態それぞれについて、リスクを考慮した最適アクションを決定するためのコンピュータ・システムであって、
ａ）前記対象期間のある期（「今期」という）において取り得る状態の１つを選択する第１の選択部と、
ｂ）前記選択された状態の１つにおいて実行可能な１以上のアクション候補のうちの１つを選択する第２の選択部と、
ｃ）選択された状態の１つにおいて、前記選択されたアクション候補のうちの１つを実行したことによって得られる報酬および来期の状態における最適アクションに対応する価値指標に依存する評価値の確率分布を算出する確率分布算出部と、
ｄ）前記評価値の確率分布を用いて、リスク指標を算出するリスク指標算出部と、
ｅ）所定のプリファレンスに従う重み付け関数を、前記リスク指標を用いて決定する決定部と、
ｆ）前記所定のプリファレンスに従う重み付け関数を用いて重み付けを行って、前記１以上のアクション候補のうちの１つを実行した場合の価値指標を算出する価値指標算出部と、
ｆ）前記選択された状態の１つにおいて実行可能な未選択のアクション候補について、ステップｂ）〜ｅ）を繰り返す制御部と、
ｇ）前記選択された状態の１つについて前記１以上のアクション候補のうちの１つを最適アクションとして決定するために、前記１以上のアクション候補それぞれの価値指標を比較する決定部と、
を備える、コンピュータ・システム。