JP5552009B2 - リスクを考慮した最適なアクションを決定するための方法、プログラム、および装置 - Google Patents

リスクを考慮した最適なアクションを決定するための方法、プログラム、および装置 Download PDF

Info

Publication number
JP5552009B2
JP5552009B2 JP2010211588A JP2010211588A JP5552009B2 JP 5552009 B2 JP5552009 B2 JP 5552009B2 JP 2010211588 A JP2010211588 A JP 2010211588A JP 2010211588 A JP2010211588 A JP 2010211588A JP 5552009 B2 JP5552009 B2 JP 5552009B2
Authority
JP
Japan
Prior art keywords
action
state
period
value
risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010211588A
Other languages
English (en)
Other versions
JP2012068780A (ja
Inventor
貴行 恐神
哲郎 森村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2010211588A priority Critical patent/JP5552009B2/ja
Priority to US13/235,642 priority patent/US8639556B2/en
Publication of JP2012068780A publication Critical patent/JP2012068780A/ja
Application granted granted Critical
Publication of JP5552009B2 publication Critical patent/JP5552009B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、最適なアクションを決定する方法、プログラム、および装置に関する。特に、本発明は、リスク指標を繰り返し計算することによって、リスクを考慮した最適なアクションを決定するための方法、プログラム、および装置に関する。
従来、マルコフ決定過程(MDP)に関する研究が進められている(例として、非特許文献1〜7を参照)。マルコフ決定過程問題は、状態遷移し得る対象に対して対象期間の各時点において所定の規則に従ってアクションを実行した場合に、その対象から得られる累積報酬を算出する問題である。マルコフ決定過程は、マルコフ性、すなわち将来の状態遷移が現在の状態のみに依存し過去の状態推移には無関係に決定される性質を有する。マルコフ決定過程を使用して対象期間の各時点における最適なアクションを決定することができる。
また、従来、ポートフォリオ理論についての研究も進められている(例として、非特許文献8を参照)。さらに、資産ポートフォリオの管理などに用いることなどを目的として、リスク管理の手法がたとえば金融業界の各社などによって研究されている(例として、特許文献1〜8を参照)。また、リスク管理のための動的リスク指標が研究されている(例として、非特許文献9〜15を参照)。
特開2008−0040522号公報 特開2001−0125953号公報 特開2002−0041778号公報 特開2002−0157425号公報 特開2002−0183429号公報 特開2003−0006431号公報 特開2003−0345981号公報 特開2005−0107994号公報 特開2006−0500692号公報
G. Tirenni, A. Labbi, A.Elisseeff, and C. Berrospi,"Efficient allocation of marketing resources using dynamicprogramming," in Proceedings of the SIAM International Conference on DataMining, 2005. J. A. Filar, L. C. M. Kallenberg,and H. Lee, "Variance-penalized Markov decision processes,"Mathematics of Operations Research, vol. 14, pp. 147-161, 1989. D. J. White, "Mean, variance, and probabilistic criteria in finiteMarkov decision processes: A review," Journal of Optimization Theory andApplications, vol. 56, no. 1, pp. 1-29, 1988. R. Munos and A. W. Moore, "Variable resolutiondiscretization for high-accuracy solutions of optimalcontrol problems," in Proceedings of the International Joint Conference onArtificial Intelligence, 1999, pp. 1348-1355. R. Neuneier, "Enhancing Q-learning for optimalasset allocation," in Advances in Neural Information Processing Systems,1998, vol. 10, pp. 936-942. H. Kawai, "A variance minimization problem for a Markov decisionprocess," European Journal of Operational Research, vol. 31, pp. 140-145,1987. M. L. Puterman, Markov Decision Processes, JohnWiley and Sons, 1994. H. Markowitz, "Portfolio Selection,"Journal of Finance, vol. 7, pp. 77-91, Mar. 1952. M.R. Hardy and J. L. Wirch, "The iterated CTE: Adynamic risk measure," The North American Actuarial Journal, 62-75, 2004. P.Boyle, M. Hardy, and T. Vorst, "Life after VaR," Journal of Derivatives, 13(1):48-, 2005. B. Acciaio and I. Penner, "Dynamicrisk measures," February 17, 2010. M. Kupper and W. Schachermayer,"Representation results for law invariant time consistent functions," August 24, 2009. F.Riedel, "Dynamic coherent risk measures," Stochastic Processes and theirApplications 112:185 – 200, 2004. P.Artzner, F.Delbaen,J.-M.Eber, D.Heath, and H.Ku,"Coherent multiperiod risk adjusted values andBellman’s principle," Annals of Operations Research, 152(1):5-22, 2007. T.Wang, "A class of dynamic risk measures," September, 1999.
通常、マルコフ決定過程におけるアクションは期待値(expectation)また指数型効用(exponential utility)を用いて最適化される。なぜならば、期待値や指数型効用を用いて得られた最適アクションは時間的一貫性(time-consistency)が確保されており、かつ、期待値や指数型効用を用いれば最適アクションを動的計画法(DynamicProgramming)によって効率的に得ることができるからである。
しかし、期待値や指数型効用によるアクションの最適化については、得られる最適アクションが既に受けた報酬の量から独立であること、バリュー・アット・リスク(”value at risk”。以下、VaRと表記されることがある)のようなリスク指標を考慮したプリファレンス(好み)を表現することができないこと、などの制約が存在する。
一方、バリュー・アット・リスクやCTE(Conditional Tail Expectation)のような既知のリスク指標を用いてマルコフ決定過程を最適化することは困難である。なぜならば、そのようなリスク指標を用いて求められた最適なアクションは時間的一貫性が確保できない場合があり、その結果として、あるアクションを、将来において最適でない可能性があるにもかかわらず、ある時点の価値指標を最適化するために最適アクションとして決定することがあり得るからである。
そこで本発明は、上記の課題を解決することのできる方法、システムおよびプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
上記課題を解決するために、コンピュータ装置を用いて、対象期間の各期に渡って所定のアクションを実行した場合に所定の遷移確率に従って遷移し得る各期の状態それぞれについて、リスクを考慮した最適アクションを決定するための方法が提供される。方法は、
a)対象期間のある期(「今期」という)において取り得る状態の1つを選択するステップと、
b)選択された状態の1つにおいて実行可能な1以上のアクション候補のうちの1つを選択するステップと、
c)選択された状態の1つにおいて、選択されたアクション候補のうちの1つを実行したことによって得られる報酬および来期の状態における最適アクションに対応する価値指標に依存する評価値の確率分布を算出するステップと、
d)前期評価値の確率分布を用いて、リスク指標を算出するステップと、
e)前記リスク指標を考慮した所定のプリファレンスに従って、前記1以上のアクション候補のうちの1つが実行された場合の価値指標を算出するステップと、
f)選択された状態の1つにおいて実行可能な未選択のアクション候補について、ステップb)〜f)を繰り返すステップと、
g)選択された状態の1つについて1以上のアクション候補のうちの1つを最適アクションとして決定するために、1以上のアクション候補それぞれの価値指標を比較するステップと、を含む。
好ましくは、方法は、h)未選択の状態について、ステップa)〜g)を繰り返すステップ、をさらに含む。
好ましくは、方法では、今期において取り得る状態それぞれについて、最適アクションに対応する価値指標が対応する状態と関連付けて記憶され、i)今期の一つ前の前期を今期と設定し、新たに設定された今期について、今期に取り得る状態それぞれについて最適アクションを決定するために、ステップa)〜h)を繰り返すステップをさらに含む。さらに、好ましくは、今期が対象期間の第1期となるまで、ステップa)〜i)を繰り返すステップを含む。
好ましくは、ステップe)が、所定のプリファレンスに従う重み付け関数をリスク指標を用いて決定するステップと、重み付け関数を用いて加重和を算出することで、1以上のアクション候補のうちの1つが実行された場合の価値指標を計算するステップと、を含む。
好ましくは、コンピュータ装置は、複数の状態それぞれについて、当該状態においてそれぞれのアクションを実行した場合にそれぞれの状態に遷移する遷移確率を記憶する遷移確率記憶部と、複数の状態それぞれについて、当該状態においてそれぞれのアクションを実行した結果それぞれの状態に遷移した場合に得られる報酬の確率分布を示すパラメータを記憶する報酬パラメータ記憶部にアクセス可能とされる。そのようなコンピュータ装置が、遷移確率および報酬パラメータを参照して、以下の1)〜3)を含むグラフデータを生成することが好ましい。
1)今期において取り得る状態を表すノードデータ、
2)今期において取り得る状態から来期において取り得る状態を表す状態への遷移を表す有向エッジデータ、および
3)今期において取り得る状態それぞれにおいて取り得るアクション、それぞれのアクションを実行した場合のそれぞれの遷移先に遷移する確率、および、それぞれのアクションを実行した場合に得られる報酬の確率分布を表す属性データ、
好ましくは、評価値の確率分布が、今期における報酬と来期における最適アクションと関連する価値指標の和を実現値とし、今期のある状態においてあるアクションを実行した場合にある遷移先状態およびある報酬を得ることができる確率を確率とする。
リスク指標が、評価値の確率分布のバリュー・アット・リスク(value at risk)を用いることによって計算されることが好ましい。
以上、コンピュータ装置を用いてリスクを考慮した最適アクションを決定するための方法として本発明の概要を説明したが、本発明は、コンピュータ・システム、装置、プログラム、ソフトウェア、プログラム製品、ソフトウェア製品などとしても把握することができる。プログラム製品ないしソフトウェア製品は、例えば、前述のプログラム、ソフトウェアを格納した記憶媒体を含み、あるいはプログラム、ソフトウェアを伝送する媒体を含むことができる。
また、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの構成要素のコンビネーションまたはサブコンビネーションもまた、発明となり得ることに留意すべきである。
本発明の実施形態の情報システム10の全体構成である。 本発明の実施形態の遷移確率記憶部20のデータ構造の一例である。 本発明の実施形態の報酬パラメータ記憶部30のデータ構造の一例である。 本発明の実施形態の最適アクション決定システム40の機能構成図である。 本発明の実施形態の最適アクション決定システム40によって最適アクションが決定される処理のフローチャートである。 本発明の実施形態における、最適アクションが決定されるデータ処理の流れを説明するための図である。 本発明の実施形態における、最適アクションが決定されるデータ処理の流れを説明するための図である。 本発明の実施形態における、最適アクションが決定されるデータ処理の流れを説明するための図である。 本発明の実施形態における、最適アクションが決定されるデータ処理の流れを説明するための図である。 本発明の実施形態における、最適アクションが決定されるデータ処理の流れを説明するための図である。 本発明の実施形態における、最適アクションが決定されるデータ処理の流れを説明するための図である。 本発明の実施形態における、最適アクションが決定されるデータ処理の流れを説明するための図である。 本発明の実施形態における、最適アクションが決定されるデータ処理の流れを説明するための図である。 本発明の実施形態における、最適アクションが決定されるデータ処理の流れを説明するための図である。 本発明の実施形態における、最適アクションが決定されるデータ処理の流れを説明するための図である。 最適アクション決定システム120として機能する情報処理装置のハードウェア構成の一例を示す。 本発明の実施形態の遷移確率記憶部20のデータ構造の他の一例である。
以下、発明を実施するための形態(以下、本発明の実施形態と称す)を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
最初に本発明の実施形態の概要を説明し、次いで、実施例を詳細に説明する。本発明の実施形態の情報システム100では、状態の遷移確率やある状態において実行するアクションに対する報酬のパラメータなどに関するデータがあらかじめ与えられる。ユーザのリクエストに応じて、対象期間の各期(T1、T2、…Tn)について、後の期からより前の期に向かう順番で最適アクションを決定していく。決定された最適アクションは、最終的にリクエストしたユーザに判断材料として提示される。
具体的には、本発明の実施形態では、ある期において取りえる状態それぞれにおいて実行可能なアクション候補についてそれぞれ所定のプリファレンス(好み)に従うリスクを考慮した価値指標を算出し、最良の価値指標を有するアクション候補を最適なアクションと決定する。ある状態について決定された最適アクションは、その最適アクションに対応する価値指標(以下、「最適価値」といい、v* (s, t) と表記することがある )とともに当該状態と関連付けられ記憶される。記憶された最適価値は、一つ前の期の最適アクションを決定するために使用される。
本発明の実施形態では、まず今期(t)を対象期間の最終期(Tn)とし、今期(t= Tn)において取り得る状態が生成される。また、最終期(Tn)においてアクションを実行することはないので、最終期(Tn)における最適アクションは決定されない。同様の理由により、最終期(Tn)の各状態における最適価値には、あらかじめ定められた初期値が代入される。
次いで、最後から2番目の期(Tn-1)を今期(t)とし、今期(t= Tn-1)に取り得る状態を生成したうえで、それぞれの状態において実行可能なアクション候補のすべてについて価値指標VM(value measure)が算出される。価値指標はアクションを評価するための指標となり得るものであればいかなるものをも採用することができるが、本発明の実施形態では後述する手法を用いて計算されたものが使用される。次いで、算出されたアクション候補の価値指標同士を比較し、最良の価値指標を有するアクション候補を当該状態における最適アクションと決定する。また、決定された最適アクションの価値指標を、当該状態における最適価値と決定する。状態について決定された最適アクションと最適価値は、当該状態と関連付けて記憶される。
アクション候補の価値指標の算出は以下のデータ処理を通じて行われる。まず、当該アクション候補を実行した場合に得られる報酬と、遷移先と関連付けて記憶された最適価値に依存する評価値の確率分布Xを求め、当該評価値の確率分布Xのリスク指標Vαを算出する。そして、最適アクションの決定においてリスクが考慮されるように、所定のプリファレンスに従ってリスク指標Vαを用いて重み付け関数w(x) を決定する。次いで、重み付け関数w(x) を用いた加重和Σw(x) * xを算出してアクション候補の価値指標VMが算出される。
今期における他の状態について、上述の最適アクションと最適価値の決定および記憶が繰り返される。今期において取り得る状態すべてについて最適アクションと最適価値の決定および記憶が完了した場合、今期を1つ前の期とし、今期において取り得る状態すべてについて最適アクションと最適価値の決定および記憶を実行する。これらの処理が、第1期(t= T1)まで繰り返され、対象期間の各期に対して、それぞれ取り得る状態すべてについて最適アクションが決定され、ユーザの判断材料の用に供されることとなる。
図1は、本発明の実施形態の情報システム100の全体構成を示す。情報システム100は、ユーザのコンピュータ110、最適アクション決定システム120、遷移確率記憶部130と、報酬パラメータ記憶部140を有する。本発明の実施形態のユーザのコンピュータ110は、最適アクション決定システム120にリクエストを送信し、返された最適アクションに関する情報を受けるものとする。
ユーザのコンピュータ110からのリクエストは、アクションを決定する対象期間の第1期、最終期、期の間隔、および、最終期において取り得る状態その他の制約情報を含む。具体的には、例えば、リクエストは、対象期間の第1期が2010年の9月であること、最終期が2011年の8月であること、期の間隔が3ヶ月(四半期ごと)であること、最終期において取り得る状態がs1、s2、s3であること、などを含むようにすることができる。また、最適アクション決定システム120がユーザ・コンピュータに返す最適アクションに関する情報は、対象期間(T1、T2、…Tn)に渡って、各期において取り得る状態それぞれについて、最適なアクションがいずれであるかの情報を含む。
遷移確率記憶部130は、取り得る複数の状態のそれぞれについて、当該状態においてそれぞれのアクションを実行した場合にそれぞれの状態に状態遷移する遷移確率を記憶している。状態とは、例えば、ある主体が保有する資産ポートフォリオの総額、ポートフォリオの構成比率などの種々の属性の組み合わせである。すなわち、かかる属性の組み合わせによって当該主体があるセグメントに分類される場合を状態s1、他のセグメントに分類される場合を状態s2などとすることができる。アクションとは、例えば、ある主体が保有する資産ポートフォリオの内容を変動させる行為(典型的には、資産の一部の売買などが含まれるがこれに限らない)を含む。すなわち、本発明の実施形態における状態遷移とは、例えば、あるセグメントに属する主体があるアクションを実行した結果、他のセグメントに属することとなることをいい、かかる変動が生じる確率を遷移確率という。
本発明の実施形態の報酬パラメータ記憶部140は、これら複数の状態のそれぞれについて、各状態においてアクションを実行した結果それぞれの状態に遷移した場合に得られる報酬の確率分布を示すパラメータを記憶している。報酬は、例えば、保有する資産ポートフォリオの一部を売買したときに得られる利益あるいは損失とすることができる。報酬の確率分布を示すパラメータとは、例えば、確率分布が正規分布に従う場合の平均値および分散値などとすることができる。
なお、これら遷移確率記憶部130または報酬パラメータ記憶部130に記憶されたデータは、過去の調査履歴などの情報を分析して予め生成および更新されるようにすることができる。かかるデータは、ユーザがコンピュータ110を操作して最適アクション決定システム120を通じて遷移確率記憶部130、報酬パラメータ記憶部140にアクセスして編集を行うことによって生成、更新してもよいし、管理者が移確率記憶部130、報酬パラメータ記憶部140に直接アクセスして編集を行うことによって生成、更新するようにしてもよい。さらに、コンピュータによって自動的に外部の情報源に定期的にアクセスして得た情報について分析を行うことによって、かかるデータの生成、更新を自動的に行うようにしてもよい。かかるデータの生成、更新の手法の詳細については、いわゆる当業者が適宜なし得ることであるので、ここではこれ以上詳細には説明されない。
本発明の実施形態の最適アクション決定システム140は、対象期間(T1、T2、…Tn)に渡って、特定のプリファレンス(好み)に従って各期において取り得る状態それぞれについてリスクが考慮された最適アクションを決定する。決定された最適アクションに関する情報はユーザのコンピュータ110を介してユーザに提示される。
このように、本実施形態に係る情報システム100は、状態の遷移確率やある状態において実行するアクションに対する報酬などのデータがあらかじめ与えられた場合に、ユーザのリクエストに応じて、所定のプリファレンス(好みに従うリスクを考慮した最適なアクションを出力してユーザに提示することを目的としている。
図2は、本発明の実施形態の遷移確率記憶部130のデータ構造の一例を示す。遷移確率記憶部130は、採り得る複数の状態のそれぞれについて、当該状態においてそれぞれのアクションを実行した場合に各状態に遷移する遷移確率を記憶している。状態を変数s、具体的には、状態はs1、s2、…、smなどと表すこととする。また、採り得る状態の集合をSとする。即ち、s∈Sである。また、実行可能なアクションを変数aによって表し、具体的には、アクションはa1、a2、…anなどと表すこととする。また、実行可能なアクションの集合をAとする。即ちa∈Aである。
具体的には、本発明の実施形態の遷移確率記憶部130は、遷移元の状態とアクションとの組(s, a)と、遷移先の状態sとの組合せ毎に、その遷移確率を記憶する。例えば、状態s1においてアクションa1を実行した結果状態s1のまま状態遷移しない確率は25%であり、状態s2に遷移する確率は40%である。なお、図2の表の各行の遷移確率の総和(例えば、(s1, a1)の行については、0.25+0.40+…+0.30)が1となることに留意されたい。
図3は、本発明の実施形態の報酬パラメータ記憶部140のデータ構造の一例を示す。報酬パラメータ記憶部140は、これら複数の状態のそれぞれについて、それぞれのアクションを実行した結果それぞれの状態に遷移した場合に得られる報酬の確率分布を示すパラメータを記憶している。
具体的には、本発明の実施形態のパラメータ記憶部140は、遷移元の状態とアクションとの組(s, a)と、遷移先の状態sとの組合せ毎に、その遷移元の状態からその遷移先の状態に遷移した結果として得られる報酬の平均値を記憶しているものとする。例えば、状態s1においてアクションa1を実行した結果として状態s2に遷移した場合に得られる報酬の平均値は$4.5であり、状態s2に遷移した場合に得られる報酬の平均値は$2.1である。
なお、報酬の分布によっては平均値のみでは確率分布が定められないので、報酬パラメータ記憶部140は、図3と同様の表を分散値その他の必要なパラメータそれぞれについて記憶するものとする(図示せず)。その他の必要なパラメータは、例えば、安定分布における特性指数や歪度などが考えられる。これらのパラメータを記憶するためのデータ構造は、データの内容が平均値の代わりにそのようなパラメータとなるほかは同様であるので、これ以上の詳細な説明は省略する。
図4は、本発明の実施形態の最適アクション決定システム120の機能構成図である。なお、図1の機能構成図に示す各要素は、後述する図16に例示したハードウェア構成を有する情報処理装置において、ハードディスク装置13などに格納されたオペレーティング・システムやオーサリング・ソフトウェアなどのコンピュータ・プログラムをメインメモリ4にロードした上でCPU1に読み込ませ、ハードウェア資源とソフトウェアを協働させることによって実現することができる。
最適アクション決定システム120は、ユーザ・インターフェース部405と、状態遷移パターン生成部410、状態遷移パターン記憶部415、確率分布算出部420、リスク指標算出部425、重み付け関数決定部430、価値指標算出部435、最適アクション決定部440、および、最適アクション/価値指標記憶部445を備える。
本発明の実施形態のユーザ・インターフェース部405は、ユーザのコンピュータ110との情報データのやり取りを行うインターフェースとして機能する。具体的には、ユーザ・インターフェース部405は、ユーザのコンピュータ110から最適アクションに関する情報のリクエストを受けたことに応じて、状態遷移パターン生成部410に状態遷移パターンを生成させ、生成した状態遷移パターンについて最適アクションを決定する一連の処理をトリガする。また、ユーザ・インターフェース部405は、決定された最適アクションに関する情報をユーザのコンピュータ110に返信する機能を有する。
本発明の実施形態の状態遷移パターン生成部410は、ユーザ・インターフェース部405から受けた命令に従って、遷移確率記憶部130および報酬パラメータ記憶部140に記憶されたデータを参照して、状態遷移パターンを生成する。本発明の実施形態では、状態遷移パターン生成部410によって生成される状態遷移パターンは、下記を含むグラフデータである。
1)対象期間(T1、T2、…Tn)において取り得る状態の一部または全部を表すノード、
2)遷移元の状態から遷移先の状態への遷移を表す有向エッジ、および
3)それぞれの状態において実行可能なアクション、それぞれのアクションを実行した場合のそれぞれの遷移先に遷移する確率、および、それぞれのアクションを実行した場合に得られる報酬の確率分布を表す属性データ
本発明の実施形態の状態遷移パターン生成部410は、以下の手順に従って上述した状態遷移パターンを生成する。まず、ユーザが最終期(Tn)を今期とし、今期において取り得ると指定した状態を生成する。次に、その1つ前の期(Tn-1)を今期とし、今期において取り得る状態を生成し、生成した各状態において実行可能なアクションの候補および各アクション候補を実行した場合の遷移先ごとの遷移確率を各状態に付加する。次いで、今期Tn-1における各状態について最適アクションおよび最適価値が求められたことを条件に、さらに1つ前の期(Tn-2)を今期とし、今期において取り得る状態を生成し、生成した各状態において取り得るアクションの候補および各アクション候補を実行した場合の遷移先ごとの遷移確率を各状態に付加する。本発明の実施形態では、かかる処理が第1期(T1)まで繰り返されることとなる。状態遷移パターンの生成処理のさらなる詳細が後述される。
本発明の実施形態の状態遷移パターン記憶部415は、状態遷移パターン生成部410が生成した状態遷移パターンを順次記憶する。記憶された状態遷移パターンは、確率分布算出部420などによって読み取られ、使用される。
本発明の実施形態の確率分布算出部420は、任意の時点において取り得る状態において実行可能なアクション候補それぞれについて、当該アクション候補を実行したことによって得られる報酬および来期の状態における最適アクションに対応する価値指標(最適価値)に依存する評価値の確率分布Xを算出する。確率分布算出部420によって算出される評価値の確率分布Xの詳細は後述される。
本発明の実施形態のリスク指標計算部425は、確率分布算出部420によって算出された評価値の確率分布Xに基づいて、所定のリスク指標が計算される。本発明の実施形態においては、所定のリスク指標Vαは、一例として、バリュー・アット・リスク(value atrisk、VaRとも表記する)を用いて求められる。リスク指標Vαの算出方法およびバリュー・アット・リスクの詳細が後述される。
本発明の実施形態の重み付け関数決定部430は、ユーザのリスクに関するプリファレンス(好み)およびリスク指標計算部425が算出した所定のリスク指標Vαに基づいて、後述する価値指標算出部435によって計算される価値指標の算出において用いられる重み付け関数w(x) を決定する。
本発明の実施形態の価値指標算出部435は、重み付け関数決定部430によって決された重み付け関数w(x) の加重和を求めることによって、任意の時点において取り得る状態において実行可能なアクション候補それぞれについて価値指標VM(value measure)を算出する。
本発明の実施形態の最適アクション決定部440は、価値指標算出部435によって計算された任意の時点において取り得る状態において実行可能なアクション候補ごとに価値指標を比較し、その状態における最適アクションを決定する。また、最適アクション決定部440は、今期において取り得る状態のすべてについて最適アクションが決定されたことに応じて、今期の1つ前の期を新たに今期とし、次いで今期において取り得る状態遷移パターンを生成するように状態遷移パターン生成部410に命令を送る。
本発明の実施形態の最適アクション/価値指標記憶部445は、最適アクション決定部440が決定をした各状態における最適アクションと、当該最適アクションに関連する価値指標(すなわち、最適価値)をそれぞれの状態と関連付けて記憶する。
図5は、本発明の実施形態におけるデータ処理システムの全体動作を表現するフローチャート500である。処理はステップ505でスタートし、ステップ510でユーザ・インターフェース部405がユーザからのリクエストを受領したことに応じて、対象期間の最終期(Tn)を今期(t)にセットする(t= Tn)。次にステップ515で、今期(t= Tn)おいて取り得る状態S= s1、s2、…、sm のノードを含むグラフデータ生成する。
処理はステップ520に進み、生成された状態S= s1、s2、…、smそれぞれの最適価値v* (s, Tn) に初期値を代入する。例えば、代入される初期値は、0とすることができる。また、代入される初期値をユーザまたは管理者に都度設定させることもできる。
次に、ステップ525において、1つ前の期(Tn-1)を今期(t)とする(t= Tn-1)。次いで、ステップ530において今期(t= Tn-1)において取りえる状態S= s1、s2、…、smを生成する。この場合、今期(t= Tn-1)において取りえる状態S= s1、s2、…、smを表すノード、今期(t= Tn-1)における状態から来期(t= Tn)の状態への遷移を表す有向エッジ、今期(t= Tn-1)において取りえる状態S= s1、s2、…、smそれぞれにおいて取り得るアクションA= a1、a2、…、an、それぞれのアクションを実行した場合のそれぞれの遷移先に遷移する確率、および、それぞれのアクションを実行した場合に得られる報酬の確率分布を表す属性データを含むグラフデータを既に生成済みの来期(t= Tn)おいて取り得る状態S= s1、s2、…、sm のノードを含むグラフデータに追加する。
処理はステップ535に進み、今期(t= Tn-1)において取り得る状態S= s1、s2、…、smのうち、まだ選択されていない要素sを選択する。次にステップ540に進み、ステップ535において選択された状態sにおいて取り得るアクション候補のうちまだ選択されていないもののうちの1つであるaを選択する。
次にステップ545において、ステップ540において選択されたaについて下記の数式に従う評価値の確率分布Xを求める。なお、下記の数式においては、r は報酬、v* (s´, t+1) は来期(tの1つ次の期、ここでは Tn) の状態s´に関する最適価値であるとものする。また、pt(s´, r| s, a)は、今期(t= Tn-1)において状態sにおいてアクションaを実行した場合に、状態s´ に遷移し、かつ、報酬 rが得られる確率であるものとする。また、Σで示される和は、r+v*(s´,t+1)=xとなる全てのs´とrの組について、pt(s´, r | s, a)を足し合わせるものとする。要するに、Xは値xを所定の確率で取るような離散分布であり、この実施例においては今期に得られる報酬と来期の最適価値の和に相当する。
Figure 0005552009

次に、処理はステップ550に進み、ステップ545において求められた確率分布Xについて所定のリスク指標Vαを計算する。本発明の実施形態においては、リスク指標Vαはバリュー・アット・リスクを用いて求められる。本発明の実施形態では、リスク指標Vαは予め定められた確率α(たとえば、α=1%)で生じる損失の最大額をいうものとし、かかる場合のリスク指標Vαは確率分布Xを用いて下記の数式2に従って求めることができる(たとえば、確率分布Xに対して、α=1%の割合で生じる損失額をVαであるとすることができる)。
Figure 0005552009

処理はステップ555に進み、ステップ550において求められたリスク指標Vαに依存する重み付け関数w(x) を決定する。重み付け関数w(x) は、リスクに対するプリファレンス(好み)に基づいて様々なものを採用することができる。たとえば、最終的に得られる累積報酬の最大化とリスクの最小化をバランスするプリファレンスの場合、以下の重み付け関数w(x)を決定することができる。ここでPr(X=z) は、確率分布Xにおいて実現値zの値を取る確率であるものとする。この場合、数式中のbの値を変化させることによって、どの程度リスクを取るかを調整することができる。
Figure 0005552009

また、2004年にHardyらによって提案されたICTE(Iterated CTE)とよばれる時間的一貫性を有する動的リスク指標(非特許文献9参照)を用いて最適化を行うプリファレンスも考えられる。ここで、ICTEは、投資の実行の際に銀行がされるリスクに適切な資本準備金を決定するために銀行によって使用されること等を意図して考案されたものである。
ICTEはCTE (Conditional TailExpectation)を繰り返し適用することで計算される。CTEは、Conditional Value at Risk, ExpectedShort Fall等とも呼ばれ、バリュー・アット・リスクを用いて計算される。具体的には、CTEは、α(0<α<1)の確率で損失がVαを超えないことを表すバリュー・アット・リスクVαを用いて、下記数式によって損失YがVαを超えた時のYの期待値として求められる(ただし、下記の数式ではYの確率分布が連続と仮定している)。
Figure 0005552009

そして、ICTEは、次のように計算される。すなわち、ある時点Tk-1から見た将来の損失YのCTEを計算する。ここで、時点Tk-1におけるCTEは時点Tk-2から見れば確率変数と考えることができ、Tk-2からTk-1にかけて何が起こるかによって時点Tk-1のCTEが変化する。そこで、時点Tk-1のCTEを「損失」とみてその「損失」のCTEを時点Tk-2において計算することができる。また、時点Tk-2におけるCTEは時点Tk-3から見れば確率変数であり、時点Tk-2のCTEのCTEを時点Tk-3において計算することができる。このような処理を繰り返して、CTEのCTEを反復的に計算して得られるリスク指標がICTEである(詳細は非特許文献9参照)。
かかるICTEを用いて最適化を行うプリファレンス、例えば、損失YのICTEであるICTE[Y]を最小化するプリファレンスを採用する場合、以下の重み付け関数w(y) を決定することができる。ここで、VαはYのバリュー・アット・リスクである。なお、この場合も、αの値を変化させることによって、どの程度リスクを取るかを調整することができる。なお、ここではICTEの理解を容易にするために上述の確率分布Xのかわりに損失Yを用いたが、一般にXにマイナスを掛けたものがYであることに留意されたい。
Figure 0005552009

処理はステップ560に進み、下記の数式に従ってステップ555で決定した重み付け関数w(x) の加重和を求めることによって、価値指標(value measure、VM(s, a, t))を求める。なお、上述のICTEを用いて最適化を行うプリファレンスの場合は、確率分布Xのかわりに損失Yを用い、w(y) として重み付け関数を決定したが、この場合は下記数式を適宜変更する必要があることに留意されたい。当業者は、適宜かかる変更をなし得るので、ここではこれ以上の詳細は説明されない。
Figure 0005552009

処理はステップ565に進み、状態sにおいて実行可能なアクション候補すべてについて、価値指標VMが算出されたかどうかが判断される。算出されていない場合、Noの矢印からステップ540に戻り、まだ価値指標VMが算出されていない未選択のアクションが選択され、選択された当該アクションについてステップ545〜560のループが実行されて価値指標VMが算出される。
上記を繰り返すことによって状態sにおいて実行可能なアクション候補すべてについて価値指標VMが算出されることとなる。状態sにおいて実行可能なアクション候補すべてについて価値指標VMが算出された場合、処理はステップ565からYesの矢印を通じてステップ570に進むこととなる。
ステップ570においては、ステップ540〜560のループにおいて算出された状態sにおいて実行可能なアクション候補について価値指標VM同士を比較し、最良の価値指標を持つアクションを状態sにおける最適アクションとして決定する。次いで、ステップ575においてステップ570において決定された最適アクションと、当該最適アクションに関連する価値指標を最適価値v*(s, t) として記憶する。
次にステップ580に進み、今期において取り得る状態すべてについて、最適アクションが決定されたかどうかが判断される。決定されていないと判断された場合、処理はNoの矢印を通じてステップ535に戻り、他の取り得る状態が選択され、選択された状態についてステップ540〜575のループが繰り返されて最適アクションが決定され、当該最適価値が記憶される。この繰り返しによって、今期(t= Tn-1)において取り得る状態すべてについて最適アクションが得られることとなる。
ステップ580において今期において取り得る状態すべてについて、最適アクションが決定されたと判断された場合、処理はYESの矢印を通じてステップ585へ進む。ステップ585では、今期が第1期(t= T1)であるかどうかが判断される。第1期と判断されなかった場合、処理はNOの矢印を通じてステップ530に戻り、1つ前の期(Tn-2)を今期(t)とし(t= Tn-2)、新しい今期(Tn-2)についてステップ535〜580のループを繰り返す。これを繰り返すことによって、第1期(T1)から最終期(Tn)に渡って、取り得る状態それぞれについて最適アクションが得られることとなる。
ステップ585で、今期(t)が第1期(t= T1)であるかどうかが判断された場合、YESの矢印を通じてステップ590へ進む。ステップ590では、第1期(t= T1)から最終期(t= Tn)までのすべてに渡るすべての取り得る状態について最適アクションがユーザに提示され、ユーザの判断材料の用に供される。そして、処理はNOの矢印からステップ595へ進み終了する。
次に、最適アクションの決定においてどのようなデータ処理がなされるのかをより詳細に説明するために、最適アクションを決定する対象期間におけるある時点(t=Tkとする)において最適アクションが決定される過程を、図6〜図15を用いて説明する。まず、t=Tkにおいて最適アクションが決定される過程の前提として、t= Tk+1 の時点においてt= Tn-1…Tk+1において取り得る状態について最適アクションa* (s, t) および最適価値 v*(s, t) が求められ、グラフデータとして記憶されているものとする(図6参照)。
なお、図6〜15においては、説明を簡単にするために、各期において取り得る状態はs1、s2、s3の3種類、各状態おいて実行可能なアクションはa1、a2、a3の3種類に限定されているものとする。また、Tnにおける最適アクションは対象期間の最終期であるために存在せず、また、価値v* (s, Tn) はあらかじめ初期値が設定されているものとする。さらに、図8〜14においては、Tkにおける状態s2、s3に接続されている有向エッジは、Tkにおける状態s1に接続されている有向エッジを見易くするために省略されていることに留意されたい。
この状態で、フローチャート500のステップ525に対応する処理として、今期(t)を一つ前の期(Tk)とする処理が行われる(t= Tk)。そして、ステップ530に対応する処理として、今期(t=Tk)において取り得る状態S(ここでは、s1、s2、s3とする)のデータがグラフのノードとして生成される。生成された状態ノードは、有向エッジによって遷移先の状態ノードと接続される。また、各有向エッジには、エッジによって結ばれる遷移元の状態において実行可能なアクションそれぞれについて、当該アクションを実行した場合に当該遷移元状態から遷移先状態に遷移する遷移確率、および当該アクションを実行した場合に得られる報酬の確率分布のデータが付加されるものとする(図7参照)。
次に、ステップ535に対応する処理として、今期(t=Tk)において取り得る状態の1つとして状態s1が選択され、ステップ540に対応する処理として、状態s1において実行可能なアクション候補の1つとしてa1が選択される。次いで、ステップ545に対応する処理として、今期(t=Tk)における状態s1から来期(Tk+1)における状態s1、s2、s3に向かう有向エッジのそれぞれに付されたアクション候補a1についての遷移確率および報酬の確率分布を参照して確率分布Xのデータが生成される(図8参照)。そして、ステップ550に対応する処理として、生成された確率分布Xのデータを用いて、アクション候補a1についてリスク指標Vαが計算される(図9参照)。
次いで、ステップ555に対応する処理として、重み付け関数w(x) がリスク指標Vαを用いて決定される(図10参照)。既に述べた通り、重み付け関する w(x) は様々なプリファレンスに基づいて決定される。プリファレンスは、ユーザがリクエストを送信するときに指定してもよいし、システム管理者があらかじめしておいてもよいし、また、最適アクション決定システムがユーザからリクエストを受けたときに、所定のアルゴリズムに従って自動的に決定するようにしてもよい。次いで、ステップ560に対応する処理として、重み付け関数w(x) を用いてアクション候補a1についての価値指標(value measure)VM (a1,s1, Tk) が計算される(図11参照)。
上記の処理が、その他のアクション候補(a2、a3)についても実行され(ステップ540〜565のループ)、Tkにおいて取り得る状態s1で実行可能なアクション候補a1、a2、a3のそれぞれについての価値指標(value measure)であるVM(a1, s1, Tk)、VM (a2, s1, Tk)、VM (a3, s1, Tk)が得られることとなる(図12参照)。これらの価値指標同士を比較し、最良の価値指標に対応するアクション候補をTkにおいて取り得る状態s1における最適アクションとして決定し(ステップ570)、決定された最適アクションおよび対応する価値指標(最適価値)を記憶する(ステップ575)。この例では、3つの価値指標のうちVM (a2, s1, Tk)が最良のものであり、その結果、アクションa2が最適アクションとして決定されたものとする(図13参照)。
さらに、上記の処理が今期(t=Tk)において取り得る他の状態(s2、s3)についても実行され(ステップ535〜580のループ)、今期(t=Tk)において取り得る状態S=s1、 s2、s3のそれぞれについて、最適アクションおよび最適価値が決定され記憶されることとなる。このようなデータ処理によって、今期(t=Tk)における最適アクションが決定されたこととなる。今期(t)を一つ前の期(Tk-1)とする処理が行われ(t= Tk)、新しい今期(t= Tk)について同様に取り得る状態のデータの生成がされ(図15参照)、取り得る状態すべてについて最適アクションが決定されることとなる。以降、同様の繰り返しが対象期間の第1期(T1)まで繰り返される(ステップ525〜570のループ)。
図16は、本発明の実施の形態の最適アクション決定システム120を実現するのに好適な情報処理装置のハードウェア構成の一例を示した図である。情報処理装置は、バス2に接続されたCPU(中央処理装置)1とメインメモリ4を含んでいる。本発明の実施形態におけるCPU1はマルチコアのプロセッサであるものとする。CPU1の各コアに分割されたXML文書内の部分が送られ、並列処理がなされるものとする。
ハードディスク装置13、30、およびCD−ROM装置26、29、フレキシブル・ディスク装置20、MO装置28、DVD装置31のようなリムーバブル・ストレージ(記録メディアを交換可能な外部記憶システム)がフロッピーディスクコントローラ19、IDEコントローラ25、SCSIコントローラ27などを経由してバス2へ接続されている。
フレキシブル・ディスク、MO、CD−ROM、DVD−ROMのような記憶メディアが、リムーバブル・ストレージに挿入される。これらの記憶メディアやハードディスク装置13、30、ROM14には、オペレーティング・システムと協働してCPU等に命令を与え、本発明を実施するためのコンピュータ・プログラムのコードを記録することができる。メインメモリ4にロードされることによってコンピュータ・プログラムは実行される。コンピュータ・プログラムは圧縮し、また複数に分割して複数の媒体に記録することもできる。
情報処理装置は、キーボード/マウス・コントローラ5を経由して、キーボード6やマウス7のような入力デバイスからの入力を受ける。情報処理装置は、視覚データをユーザに提示するための表示装置11にDAC/LCDC10を経由して接続される。
情報処理装置は、ネットワーク・アダプタ18(イーサネット(R)・カードやトークンリング・カード)等を介してネットワークに接続し、他のコンピュータ等と通信を行うことが可能である。図示はされていないが、パラレルポートを介してプリンタと接続することや、シリアルポートを介してモデムを接続することも可能である。
以上の説明により、本発明の実施の形態の最適アクション決定システム120を実現するのに好適な情報処理装置は、通常のパーソナルコンピュータ、ワークステーション、メインフレームなどの情報処理装置、または、これらの組み合わせによって実現されることが容易に理解されるであろう。ただし、これらの構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。
本発明の実施の形態において使用される情報処理装置の各ハードウェア構成要素を、複数のマシンを組み合わせ、それらに機能を配分し実施する等の種々の変更は当業者によって容易に想定され得ることは勿論である。それらの変更は、当然に本発明の思想に包含される概念である。
本発明の実施の形態のデータ処理システムは、マイクロソフト・コーポレーションが提供するWindows(R)オペレーティング・システム、アップル・コンピュータ・インコーポレイテッドが提供するMacOS(R)、X Window Systemを備えるUNIX(R)系システム(たとえば、インターナショナル・ビジネス・マシーンズ・コーポレーションが提供するAIX(R))のような、GUI(グラフィカル・ユーザー・インターフェース)マルチウインドウ環境をサポートするオペレーティング・システムを採用する。
以上から、本発明の実施の形態において使用されるデータ処理システムは、特定のマルチウインドウ・オペレーティング・システム環境に限定されるものではないことを理解することができる。
以下、本発明の第2の実施例について説明する。第2の実施例では、最初期から今期までに得た報酬の累積額である累積報酬cが最適アクションの決定の際に考慮される。ある期における最適アクションを決定する際に累積報酬cを考慮することが望まれる場合がある。例えば、ある状態において自己が保有する資産が少ない場合に、破産の危険がある高リスクのアクションを実行せず、低リスクのアクションを実行することが望まれる場合などである。このような場合、自己が保有する資産として累積報酬cを考慮して最適アクションを決定することが好ましい。
本発明の実施形態(第2の実施例)の全体構成は第1の実施例と同様である(図1参照)。ただし、遷移確率記憶部130において、累積報酬cが新たな係数として追加されており(図17、報酬パラメータ記憶部140は利用しない。
図17は、本発明の実施形態(第2の実施例)の遷移確率記憶部130のデータ構造の一例を示す。遷移確率記憶部130は、複数の状態および複数の累積報酬の組み合わせのそれぞれについて、当該組み合わせにおいてそれぞれのアクションを実行した場合に特定の状態と累積報酬の組に遷移する遷移確率を記憶している。なお、累積報酬を変数c、具体的にはc1、c2、…、cqなどと表すこととする。取り得る累積報酬の集合をCとする。即ち、c∈Cである。状態およびアクションに関する表記については、第1の実施例と同様であるので詳細な説明は省略する。本発明の実施形態の遷移確率記憶部130は、遷移元の状態、累積報酬とアクションとの組(s, c, a)と、遷移先の状態および累積報酬の組(s´, c´)の組合せ毎に、その遷移確率を記憶する。
また、本発明の実施形態(第2の実施例)における機能構成、処理の流れ、ハードウェア構成は、ほぼ第1の実施例と同様である(図4、図5、図16参照)。よって、ここでは詳細は述べられない。
もっとも、第2の実施例は、評価値の確率分布Xの算出において第1の実施例と相違する。具体的には、確率分布算出部420によって、ステップ545において算出される評価値の確率分布Xは、図17に一例が示されている累積報酬cを考慮した遷移確率記憶部130を参照し、選択されたaについて下記の数式に従って算出される。下記の数式においては、v* (s´, c´, t+1) は来期の状態s´および累積報酬c´の組に関する最適価値であるとものする。また、pt(s´, c´ |s, c, a)は、今期において状態sおよび累積報酬cの組においてアクションaを実行した場合に、状態s´ および累積報酬c´の組に遷移する確率であるものとする。また、Σで示される和は、v*(s´,c´,t+1)=xとなる全てのs´とc´の組について、pt(s´,c´ | s,c,a)を足し合わせるものとする。第2の実施例においては、第1の実施例とは異なり、Xは、来期の最適価値に相当することに留意されたい。
Figure 0005552009

本発明の実施形態の第2の実施例では、上述のように算出された確率分布を用いて、対象期間の各期について、状態sおよび累積報酬cの組について網羅的にステップ535からステップ580のループを繰り返し、取り得る状態sおよび累積報酬cの組それぞれについて最適アクションを決定することとなる。
このとき、第2の実施例では、プリファレンスとして、バリュー・アット・リスク(VaR)で表現されるリスクを制約に、期待値E[X] を最大化するプリファレンスを採用することができる。このとき最適化される目的関数ρt (X) は以下の数式で表される。ここで、E[X] は期待値である。また、I{Vα>δ} は、{Vα>δ} が真であるときは1を、偽であるときは0を返すことを意味していることに留意されたい。この場合、数式中のα、λ、δの値を変化させることによって、どの程度リスクを取るかを調整することができる。
Figure 0005552009

そして、上記のプリファレンスを採用する場合、以下の重み付け関数w(x) を決定するようにすることができる。
Figure 0005552009

本発明の実施形態の第2の実施例では、累積報酬cをも考慮した最適アクションの決定が実現されるので、ある期における最適アクションを決定する際に累積報酬cを考慮することが望まれる場合により好ましいアクションに関する情報を得ることができる。
なお、本発明の実施形態の第2の実施例は、有限個の累積報酬cを用いて算出された最適価値v* (s´, c´, t+1) を用いることを想定してこれまでの説明をしたが、最適価値v* (s´, c´,t+1) を線形補間などの手法を用いて連続値とし、連続となった最適価値v* (s´, c´,t+1) を用いるようにしてもよい。
以上、本実施形態に係る情報システム100によれば、対象期間の各期(t1、t2、…tn)に渡って所定のアクションを実行した場合に所定の遷移確率に従って遷移し得る各期の状態それぞれについて、所定のプリファレンス(好み)に従って、リスクを考慮した時間的一貫性のある最適アクションを決定することができる。
また、本発明は、ハードウェア、ソフトウェア、またはハードウェア及びソフトウェアの組み合わせとして実現可能である。ハードウェアとソフトウェアの組み合わせによる実行において、所定のプログラムを有するデータ処理システムにおける実行が典型的な例として挙げられる。かかる場合、該所定プログラムが該データ処理システムにロードされ実行されることにより、該プログラムは、データ処理システムを制御し、本発明にかかる処理を実行させる。このプログラムは、任意の言語・コード・表記によって表現可能な命令群から構成される。そのような命令群は、システムが特定の機能を直接、または1.他の言語・コード・表記への変換、2.他の媒体への複製、のいずれか一方もしくは双方が行われた後に、実行することを可能にするものである。
もちろん、本発明は、そのようなプログラム自体のみならず、プログラムを記録した媒体もその範囲に含むものである。本発明の機能を実行するためのプログラムは、フレキシブル・ディスク、MO、CD−ROM、DVD、ハードディスク装置、ROM、MRAM、RAM等の任意のコンピュータ読み取り可能な記録媒体に格納することができる。かかるプログラムは、記録媒体への格納のために、通信回線で接続する他のデータ処理システムからダウンロードしたり、他の記録媒体から複製したりすることができる。また、かかるプログラムは、圧縮し、または複数に分割して、単一または複数の記録媒体に格納することもできる。また、様々な形態で、本発明を実施するプログラム製品を提供することも勿論可能であることにも留意されたい。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。例えば、本発明の実施形態では、リスク指標Vαはバリュー・アット・リスクを用いて求められることとしたが、バリュー・アット・リスク以外の他のリスク指標を用いるようにすることができる。そのような他のリスク指標の例は、Xがあらかじめ定められた値dを超える確率Pr(X>d)(超過確率とも言われる)である。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
100 情報システム
110 ユーザ・コンピュータ
120 最適アクション決定システム
130 遷移確率記憶部
140 報酬パラメータ記憶部
405 ユーザ・インターフェース部
410 状態遷移パターン生成部
415 状態遷移パターン記憶部
420 確率分布算出部
425 リスク指標算出部
430 重み付け決定部
435 価値指標算出部
440 最適アクション決定部
445 最適アクション/最適価値記憶部

Claims (13)

  1. コンピュータ装置を用いて、対象期間の各期に渡って所定のアクションを実行した場合に所定の遷移確率に従って遷移し得る各期の状態それぞれについて、リスクを考慮した最適アクションを決定するための方法であって、
    a)前記対象期間のある期(「今期」という)において取り得る状態の1つを選択するステップと、
    b)前記選択された状態の1つにおいて実行可能な1以上のアクション候補のうちの1つを選択するステップと、
    c)前記選択された状態の1つにおいて前記選択されたアクション候補のうちの1つを実行したことによって得られる報酬および来期の状態における最適アクションに対応する価値指標に依存する評価値の確率分布を算出するステップと、
    d)前記評価値の確率分布を用いて、リスク指標を算出するステップと、
    e)前記リスク指標を考慮した所定のプリファレンスに従って重み付けを行って、前記1以上のアクション候補のうちの1つが実行された場合の価値指標を算出するステップと、
    f)前記選択された状態の1つにおいて実行可能な未選択のアクション候補について、ステップb)〜e)を繰り返すステップと、
    g)前記選択された状態の1つについて前記1以上のアクション候補のうちの1つを最適アクションとして決定するために、前記1以上のアクション候補それぞれの価値指標を比較するステップと、
    を含む、方法。
  2. h)今期において取り得る状態のうちの未選択の状態について、ステップa)〜g)を繰り返すステップ、をさらに含む、請求項1に記載の方法。
  3. 今期において取り得る状態それぞれについて、前記最適アクションに対応する価値指標が対応する状態と関連付けて記憶され、
    i)今期の一つ前の期を今期と設定し、新たに設定された今期について、今期に取り得る状態それぞれについて最適アクションを決定するために、ステップa)〜h)を繰り返すステップと、
    をさらに含む、請求項2に記載の方法。
  4. 今期が前記対象期間の第1期となるまで、ステップa)〜i)を繰り返すステップを含む、請求項3に記載の方法。
  5. 前記ステップe)が、所定のプリファレンスに従う重み付け関数を前記リスク指標を用いて決定するステップと、前記重み付け関数を用いて加重和を算出することで、前記1以上のアクション候補のうちの1つが実行された場合の価値指標を計算するステップと、を含む、請求項1に記載の方法。
  6. 前記コンピュータ装置は、
    複数の状態それぞれについて、当該状態においてそれぞれのアクションを実行した場合にそれぞれの状態に遷移する遷移確率を記憶する遷移確率記憶部と、
    複数の状態それぞれについて、当該状態においてそれぞれのアクションを実行した結果それぞれの状態に遷移した場合に得られる報酬の確率分布を示すパラメータを記憶する報酬パラメータ記憶部と、
    にアクセス可能をされており、
    前記コンピュータ装置が、前記遷移確率および前記報酬パラメータを参照して、
    1)今期において取り得る状態を表すノードデータ、
    2)今期において取り得る状態から来期において取り得る状態を表す状態への遷移を表す有向エッジデータ、および
    3)今期において取り得る状態それぞれにおいて実行可能なアクション、それぞれのアクションを実行した場合のそれぞれの遷移先に遷移する確率、および、それぞれのアクションを実行した場合に得られる報酬の確率分布を表す属性データ、
    を含むグラフデータを生成する、請求項1に記載の方法。
  7. 前記評価値の確率分布が、今期における報酬と来期における最適アクションと関連する価値指標の和を実現値とし、今期のある状態においてあるアクションを実行した場合にある遷移先状態およびある報酬を得ることができる確率を確率とする、請求項1に記載の方法。
  8. 前記リスク指標が、前記評価値の確率分布のバリュー・アット・リスク(value at risk)を用いることによって計算される、請求項1に記載の方法。
  9. 前記所定のプリファレンスが、最終的に得られる累積報酬の最大化とリスクの最小化をバランスするプリファレンスであり、前記重み付け関数が下記式によって定義される、請求項7に記載の方法。
    Figure 0005552009
  10. 前記所定のプリファレンスが、ICTEの値を最小化するプリファレンスであり、前記重み付け関数が、前記重み付け関数が下記式によって定義される、請求項7に記載の方法。
    Figure 0005552009
  11. 前記所定のプリファレンスが、バリュー・アット・リスク(VaR)で表現されるリスクを制約に期待値E[X] を最大化するプリファレンスであり、このとき最適化される目的関数ρt (X) が下記式で定義され、
    Figure 0005552009

    前記重み付け関数が下記式によって定義される、請求項7に記載の方法。
    Figure 0005552009
  12. 請求項1〜10のいずれかに記載の方法の各ステップをコンピュータに実行させる、プログラム。
  13. 対象期間の各期に渡って所定のアクションを実行した場合に所定の遷移確率に従って遷移し得る各期の状態それぞれについて、リスクを考慮した最適アクションを決定するためのコンピュータ・システムであって、
    a)前記対象期間のある期(「今期」という)において取り得る状態の1つを選択する第1の選択部と、
    b)前記選択された状態の1つにおいて実行可能な1以上のアクション候補のうちの1つを選択する第2の選択部と、
    c)選択された状態の1つにおいて、前記選択されたアクション候補のうちの1つを実行したことによって得られる報酬および来期の状態における最適アクションに対応する価値指標に依存する評価値の確率分布を算出する確率分布算出部と、
    d)前記評価値の確率分布を用いて、リスク指標を算出するリスク指標算出部と、
    e)所定のプリファレンスに従う重み付け関数を、前記リスク指標を用いて決定する決定部と、
    f)前記所定のプリファレンスに従う重み付け関数を用いて重み付けを行って、前記1以上のアクション候補のうちの1つを実行した場合の価値指標を算出する価値指標算出部と、
    f)前記選択された状態の1つにおいて実行可能な未選択のアクション候補について、ステップb)〜e)を繰り返す制御部と、
    g)前記選択された状態の1つについて前記1以上のアクション候補のうちの1つを最適アクションとして決定するために、前記1以上のアクション候補それぞれの価値指標を比較する決定部と、
    を備える、コンピュータ・システム。
JP2010211588A 2010-09-22 2010-09-22 リスクを考慮した最適なアクションを決定するための方法、プログラム、および装置 Expired - Fee Related JP5552009B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010211588A JP5552009B2 (ja) 2010-09-22 2010-09-22 リスクを考慮した最適なアクションを決定するための方法、プログラム、および装置
US13/235,642 US8639556B2 (en) 2010-09-22 2011-09-19 Determining optimal action in consideration of risk

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010211588A JP5552009B2 (ja) 2010-09-22 2010-09-22 リスクを考慮した最適なアクションを決定するための方法、プログラム、および装置

Publications (2)

Publication Number Publication Date
JP2012068780A JP2012068780A (ja) 2012-04-05
JP5552009B2 true JP5552009B2 (ja) 2014-07-16

Family

ID=45818560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010211588A Expired - Fee Related JP5552009B2 (ja) 2010-09-22 2010-09-22 リスクを考慮した最適なアクションを決定するための方法、プログラム、および装置

Country Status (2)

Country Link
US (1) US8639556B2 (ja)
JP (1) JP5552009B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8909590B2 (en) * 2011-09-28 2014-12-09 Nice Systems Technologies Uk Limited Online asynchronous reinforcement learning from concurrent customer histories
US8914314B2 (en) 2011-09-28 2014-12-16 Nice Systems Technologies Uk Limited Online temporal difference learning from incomplete customer interaction histories
JP2013242761A (ja) * 2012-05-22 2013-12-05 Internatl Business Mach Corp <Ibm> マルコフ決定過程システム環境下における方策パラメータを更新するための方法、並びに、その制御器及び制御プログラム
US10789563B2 (en) 2014-04-11 2020-09-29 International Business Machines Corporation Building confidence of system administrator in productivity tools and incremental expansion of adoption
US20150370848A1 (en) * 2014-06-23 2015-12-24 Auvik Networks Inc. System and method for managing data integrity in electronic data storage
JP6511333B2 (ja) * 2015-05-27 2019-05-15 株式会社日立製作所 意思決定支援システム及び意思決定支援方法
US20170032417A1 (en) * 2015-08-01 2017-02-02 International Business Machines Corporation Detecting and generating online behavior from a clickstream
JP6477551B2 (ja) * 2016-03-11 2019-03-06 トヨタ自動車株式会社 情報提供装置及び情報提供プログラム
US11810038B2 (en) * 2016-07-06 2023-11-07 International Business Machines Corporation Risk optimization through reinforcement learning
US11176473B2 (en) * 2017-01-06 2021-11-16 International Business Machines Corporation Partially observed Markov decision process model and its use
US20180225583A1 (en) * 2017-02-09 2018-08-09 Coursera, Inc. Proactive user experience
WO2019220479A1 (ja) * 2018-05-14 2019-11-21 日本電気株式会社 施策決定システム、施策決定方法および施策決定プログラム
CN112258039B (zh) * 2020-10-23 2022-07-22 贵州电网有限责任公司 一种基于强化学习的电力系统缺陷物资智能调度方法
US20220374795A1 (en) * 2021-05-19 2022-11-24 Optum, Inc. Utility determination predictive data analysis solutions using mappings across risk domains and evaluation domains
US11947323B2 (en) 2021-10-16 2024-04-02 International Business Machines Corporation Reward to risk ratio maximization in operational control problems

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125953A (ja) 1999-10-26 2001-05-11 Ibj-Dl Financial Technology Co Ltd 倒産確率及び回収率の計測システム
JP2002041778A (ja) 2000-07-26 2002-02-08 Bank Of Tokyo-Mitsubishi Ltd 企業の格付け推移確率を推定するシステム、方法、および、この方法をコンピュータに実行させるためのプログラムを記録した記録媒体
JP2002157425A (ja) 2000-11-21 2002-05-31 Toshiba Corp デリバティブ評価システム、記録媒体及びデリバティブ取引支援方法
JP2002183429A (ja) 2000-12-15 2002-06-28 Asahi Life Asset Management Co Ltd ポートフォリオにおけるリスク管理方法、及びポートフォリオ構築方法
JP2003006431A (ja) 2001-06-26 2003-01-10 Daiwa Securities Smbc Co Ltd リスク算出システム、リスク算出方法、およびプログラム
JP2003345981A (ja) 2002-05-30 2003-12-05 Keio Gijuku 年金資産配分算出装置
JP2004021352A (ja) * 2002-06-12 2004-01-22 Hiroshi Ishijima ポートフォリオの評価・制御・計測方法およびそのシステム
US20040133492A1 (en) 2002-09-25 2004-07-08 Markus Stricker Method and apparatus for public information dynamic financial analysis
US7720761B2 (en) * 2002-11-18 2010-05-18 Jpmorgan Chase Bank, N. A. Method and system for enhancing credit line management, price management and other discretionary levels setting for financial accounts
JP2005107994A (ja) 2003-09-30 2005-04-21 Hitachi Ltd 証券化商品情報の提供システム、提供方法、それに用いる投資家用の装置及び証券化商品情報の価格付け方法
JP5046149B2 (ja) * 2006-08-01 2012-10-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 報酬を得るための最適な施策を決定する技術

Also Published As

Publication number Publication date
US8639556B2 (en) 2014-01-28
US20120072259A1 (en) 2012-03-22
JP2012068780A (ja) 2012-04-05

Similar Documents

Publication Publication Date Title
JP5552009B2 (ja) リスクを考慮した最適なアクションを決定するための方法、プログラム、および装置
Gutjahr et al. Stochastic multi-objective optimization: a survey on non-scalarizing methods
Homem-de-Mello et al. Monte Carlo sampling-based methods for stochastic optimization
US7389211B2 (en) System and method of predictive modeling for managing decisions for business enterprises
Steeger et al. Dynamic convexification within nested Benders decomposition using Lagrangian relaxation: An application to the strategic bidding problem
Chen et al. Ranking and selection: Efficient simulation budget allocation
Ramalho et al. Multicriteria decision making under conditions of uncertainty in application to multiobjective allocation of resources
US20070129981A1 (en) Business solution management
US20150006433A1 (en) Resource Allocation Based on Available Predictions
Angara et al. DevOPs project management tools for sprint planning, estimation and execution maturity
Forsyth et al. $\epsilon $-Monotone Fourier Methods for Optimal Stochastic Control in Finance
Werner et al. Risk measures in multi-horizon scenario trees
WO2016205153A1 (en) Incremental estimation for probabilistic forecaster
Burdett et al. A stochastic programming approach to perform hospital capacity assessments
Fan et al. Novel integer L-shaped method for parallel machine scheduling problem under uncertain sequence-dependent setups
Gribkova et al. Weighted allocations, their concomitant-based estimators, and asymptotics
US20110282801A1 (en) Risk-sensitive investment strategies under partially observable market conditions
US20210374628A1 (en) Systems and methods for visual financial modeling
van der Schans et al. Time-dependent black–litterman
Szwarcfiter et al. Project scheduling in a lean environment to maximize value and minimize overruns
JP5046149B2 (ja) 報酬を得るための最適な施策を決定する技術
John et al. Optimization of software development life cycle process to minimize the delivered defect density
Huang et al. A cutting plane method for risk-constrained traveling salesman problem with random arc costs
Alves et al. An Accelerated Fixed‐Point Algorithm Applied to Quadratic Convex Separable Knapsack Problems
Valente et al. Bayesian inference for long memory term structure models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140415

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140523

R150 Certificate of patent or registration of utility model

Ref document number: 5552009

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees