JP5552009B2 - リスクを考慮した最適なアクションを決定するための方法、プログラム、および装置 - Google Patents
リスクを考慮した最適なアクションを決定するための方法、プログラム、および装置 Download PDFInfo
- Publication number
- JP5552009B2 JP5552009B2 JP2010211588A JP2010211588A JP5552009B2 JP 5552009 B2 JP5552009 B2 JP 5552009B2 JP 2010211588 A JP2010211588 A JP 2010211588A JP 2010211588 A JP2010211588 A JP 2010211588A JP 5552009 B2 JP5552009 B2 JP 5552009B2
- Authority
- JP
- Japan
- Prior art keywords
- action
- state
- period
- value
- risk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000009471 action Effects 0.000 title claims description 219
- 238000000034 method Methods 0.000 title claims description 60
- 230000007704 transition Effects 0.000 claims description 109
- 238000003860 storage Methods 0.000 claims description 50
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000011156 evaluation Methods 0.000 claims description 18
- 230000001186 cumulative effect Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 description 33
- 238000012545 processing Methods 0.000 description 31
- 230000006870 function Effects 0.000 description 25
- 230000010365 information processing Effects 0.000 description 10
- 230000004044 response Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
a)対象期間のある期(「今期」という)において取り得る状態の1つを選択するステップと、
b)選択された状態の1つにおいて実行可能な1以上のアクション候補のうちの1つを選択するステップと、
c)選択された状態の1つにおいて、選択されたアクション候補のうちの1つを実行したことによって得られる報酬および来期の状態における最適アクションに対応する価値指標に依存する評価値の確率分布を算出するステップと、
d)前期評価値の確率分布を用いて、リスク指標を算出するステップと、
e)前記リスク指標を考慮した所定のプリファレンスに従って、前記1以上のアクション候補のうちの1つが実行された場合の価値指標を算出するステップと、
f)選択された状態の1つにおいて実行可能な未選択のアクション候補について、ステップb)〜f)を繰り返すステップと、
g)選択された状態の1つについて1以上のアクション候補のうちの1つを最適アクションとして決定するために、1以上のアクション候補それぞれの価値指標を比較するステップと、を含む。
1)今期において取り得る状態を表すノードデータ、
2)今期において取り得る状態から来期において取り得る状態を表す状態への遷移を表す有向エッジデータ、および
3)今期において取り得る状態それぞれにおいて取り得るアクション、それぞれのアクションを実行した場合のそれぞれの遷移先に遷移する確率、および、それぞれのアクションを実行した場合に得られる報酬の確率分布を表す属性データ、
1)対象期間(T1、T2、…Tn)において取り得る状態の一部または全部を表すノード、
2)遷移元の状態から遷移先の状態への遷移を表す有向エッジ、および
3)それぞれの状態において実行可能なアクション、それぞれのアクションを実行した場合のそれぞれの遷移先に遷移する確率、および、それぞれのアクションを実行した場合に得られる報酬の確率分布を表す属性データ
110 ユーザ・コンピュータ
120 最適アクション決定システム
130 遷移確率記憶部
140 報酬パラメータ記憶部
405 ユーザ・インターフェース部
410 状態遷移パターン生成部
415 状態遷移パターン記憶部
420 確率分布算出部
425 リスク指標算出部
430 重み付け決定部
435 価値指標算出部
440 最適アクション決定部
445 最適アクション/最適価値記憶部
Claims (13)
- コンピュータ装置を用いて、対象期間の各期に渡って所定のアクションを実行した場合に所定の遷移確率に従って遷移し得る各期の状態それぞれについて、リスクを考慮した最適アクションを決定するための方法であって、
a)前記対象期間のある期(「今期」という)において取り得る状態の1つを選択するステップと、
b)前記選択された状態の1つにおいて実行可能な1以上のアクション候補のうちの1つを選択するステップと、
c)前記選択された状態の1つにおいて前記選択されたアクション候補のうちの1つを実行したことによって得られる報酬および来期の状態における最適アクションに対応する価値指標に依存する評価値の確率分布を算出するステップと、
d)前記評価値の確率分布を用いて、リスク指標を算出するステップと、
e)前記リスク指標を考慮した所定のプリファレンスに従って重み付けを行って、前記1以上のアクション候補のうちの1つが実行された場合の価値指標を算出するステップと、
f)前記選択された状態の1つにおいて実行可能な未選択のアクション候補について、ステップb)〜e)を繰り返すステップと、
g)前記選択された状態の1つについて前記1以上のアクション候補のうちの1つを最適アクションとして決定するために、前記1以上のアクション候補それぞれの価値指標を比較するステップと、
を含む、方法。 - h)今期において取り得る状態のうちの未選択の状態について、ステップa)〜g)を繰り返すステップ、をさらに含む、請求項1に記載の方法。
- 今期において取り得る状態それぞれについて、前記最適アクションに対応する価値指標が対応する状態と関連付けて記憶され、
i)今期の一つ前の期を今期と設定し、新たに設定された今期について、今期に取り得る状態それぞれについて最適アクションを決定するために、ステップa)〜h)を繰り返すステップと、
をさらに含む、請求項2に記載の方法。 - 今期が前記対象期間の第1期となるまで、ステップa)〜i)を繰り返すステップを含む、請求項3に記載の方法。
- 前記ステップe)が、所定のプリファレンスに従う重み付け関数を前記リスク指標を用いて決定するステップと、前記重み付け関数を用いて加重和を算出することで、前記1以上のアクション候補のうちの1つが実行された場合の価値指標を計算するステップと、を含む、請求項1に記載の方法。
- 前記コンピュータ装置は、
複数の状態それぞれについて、当該状態においてそれぞれのアクションを実行した場合にそれぞれの状態に遷移する遷移確率を記憶する遷移確率記憶部と、
複数の状態それぞれについて、当該状態においてそれぞれのアクションを実行した結果それぞれの状態に遷移した場合に得られる報酬の確率分布を示すパラメータを記憶する報酬パラメータ記憶部と、
にアクセス可能をされており、
前記コンピュータ装置が、前記遷移確率および前記報酬パラメータを参照して、
1)今期において取り得る状態を表すノードデータ、
2)今期において取り得る状態から来期において取り得る状態を表す状態への遷移を表す有向エッジデータ、および
3)今期において取り得る状態それぞれにおいて実行可能なアクション、それぞれのアクションを実行した場合のそれぞれの遷移先に遷移する確率、および、それぞれのアクションを実行した場合に得られる報酬の確率分布を表す属性データ、
を含むグラフデータを生成する、請求項1に記載の方法。 - 前記評価値の確率分布が、今期における報酬と来期における最適アクションと関連する価値指標の和を実現値とし、今期のある状態においてあるアクションを実行した場合にある遷移先状態およびある報酬を得ることができる確率を確率とする、請求項1に記載の方法。
- 前記リスク指標が、前記評価値の確率分布のバリュー・アット・リスク(value at risk)を用いることによって計算される、請求項1に記載の方法。
- 請求項1〜10のいずれかに記載の方法の各ステップをコンピュータに実行させる、プログラム。
- 対象期間の各期に渡って所定のアクションを実行した場合に所定の遷移確率に従って遷移し得る各期の状態それぞれについて、リスクを考慮した最適アクションを決定するためのコンピュータ・システムであって、
a)前記対象期間のある期(「今期」という)において取り得る状態の1つを選択する第1の選択部と、
b)前記選択された状態の1つにおいて実行可能な1以上のアクション候補のうちの1つを選択する第2の選択部と、
c)選択された状態の1つにおいて、前記選択されたアクション候補のうちの1つを実行したことによって得られる報酬および来期の状態における最適アクションに対応する価値指標に依存する評価値の確率分布を算出する確率分布算出部と、
d)前記評価値の確率分布を用いて、リスク指標を算出するリスク指標算出部と、
e)所定のプリファレンスに従う重み付け関数を、前記リスク指標を用いて決定する決定部と、
f)前記所定のプリファレンスに従う重み付け関数を用いて重み付けを行って、前記1以上のアクション候補のうちの1つを実行した場合の価値指標を算出する価値指標算出部と、
f)前記選択された状態の1つにおいて実行可能な未選択のアクション候補について、ステップb)〜e)を繰り返す制御部と、
g)前記選択された状態の1つについて前記1以上のアクション候補のうちの1つを最適アクションとして決定するために、前記1以上のアクション候補それぞれの価値指標を比較する決定部と、
を備える、コンピュータ・システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010211588A JP5552009B2 (ja) | 2010-09-22 | 2010-09-22 | リスクを考慮した最適なアクションを決定するための方法、プログラム、および装置 |
US13/235,642 US8639556B2 (en) | 2010-09-22 | 2011-09-19 | Determining optimal action in consideration of risk |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010211588A JP5552009B2 (ja) | 2010-09-22 | 2010-09-22 | リスクを考慮した最適なアクションを決定するための方法、プログラム、および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012068780A JP2012068780A (ja) | 2012-04-05 |
JP5552009B2 true JP5552009B2 (ja) | 2014-07-16 |
Family
ID=45818560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010211588A Expired - Fee Related JP5552009B2 (ja) | 2010-09-22 | 2010-09-22 | リスクを考慮した最適なアクションを決定するための方法、プログラム、および装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8639556B2 (ja) |
JP (1) | JP5552009B2 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8909590B2 (en) * | 2011-09-28 | 2014-12-09 | Nice Systems Technologies Uk Limited | Online asynchronous reinforcement learning from concurrent customer histories |
US8914314B2 (en) | 2011-09-28 | 2014-12-16 | Nice Systems Technologies Uk Limited | Online temporal difference learning from incomplete customer interaction histories |
JP2013242761A (ja) * | 2012-05-22 | 2013-12-05 | Internatl Business Mach Corp <Ibm> | マルコフ決定過程システム環境下における方策パラメータを更新するための方法、並びに、その制御器及び制御プログラム |
US10789563B2 (en) | 2014-04-11 | 2020-09-29 | International Business Machines Corporation | Building confidence of system administrator in productivity tools and incremental expansion of adoption |
US20150370848A1 (en) * | 2014-06-23 | 2015-12-24 | Auvik Networks Inc. | System and method for managing data integrity in electronic data storage |
JP6511333B2 (ja) * | 2015-05-27 | 2019-05-15 | 株式会社日立製作所 | 意思決定支援システム及び意思決定支援方法 |
US20170032417A1 (en) * | 2015-08-01 | 2017-02-02 | International Business Machines Corporation | Detecting and generating online behavior from a clickstream |
JP6477551B2 (ja) * | 2016-03-11 | 2019-03-06 | トヨタ自動車株式会社 | 情報提供装置及び情報提供プログラム |
US11810038B2 (en) * | 2016-07-06 | 2023-11-07 | International Business Machines Corporation | Risk optimization through reinforcement learning |
US11176473B2 (en) * | 2017-01-06 | 2021-11-16 | International Business Machines Corporation | Partially observed Markov decision process model and its use |
US20180225583A1 (en) * | 2017-02-09 | 2018-08-09 | Coursera, Inc. | Proactive user experience |
WO2019220479A1 (ja) * | 2018-05-14 | 2019-11-21 | 日本電気株式会社 | 施策決定システム、施策決定方法および施策決定プログラム |
CN112258039B (zh) * | 2020-10-23 | 2022-07-22 | 贵州电网有限责任公司 | 一种基于强化学习的电力系统缺陷物资智能调度方法 |
US20220374795A1 (en) * | 2021-05-19 | 2022-11-24 | Optum, Inc. | Utility determination predictive data analysis solutions using mappings across risk domains and evaluation domains |
US11947323B2 (en) | 2021-10-16 | 2024-04-02 | International Business Machines Corporation | Reward to risk ratio maximization in operational control problems |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001125953A (ja) | 1999-10-26 | 2001-05-11 | Ibj-Dl Financial Technology Co Ltd | 倒産確率及び回収率の計測システム |
JP2002041778A (ja) | 2000-07-26 | 2002-02-08 | Bank Of Tokyo-Mitsubishi Ltd | 企業の格付け推移確率を推定するシステム、方法、および、この方法をコンピュータに実行させるためのプログラムを記録した記録媒体 |
JP2002157425A (ja) | 2000-11-21 | 2002-05-31 | Toshiba Corp | デリバティブ評価システム、記録媒体及びデリバティブ取引支援方法 |
JP2002183429A (ja) | 2000-12-15 | 2002-06-28 | Asahi Life Asset Management Co Ltd | ポートフォリオにおけるリスク管理方法、及びポートフォリオ構築方法 |
JP2003006431A (ja) | 2001-06-26 | 2003-01-10 | Daiwa Securities Smbc Co Ltd | リスク算出システム、リスク算出方法、およびプログラム |
JP2003345981A (ja) | 2002-05-30 | 2003-12-05 | Keio Gijuku | 年金資産配分算出装置 |
JP2004021352A (ja) * | 2002-06-12 | 2004-01-22 | Hiroshi Ishijima | ポートフォリオの評価・制御・計測方法およびそのシステム |
US20040133492A1 (en) | 2002-09-25 | 2004-07-08 | Markus Stricker | Method and apparatus for public information dynamic financial analysis |
US7720761B2 (en) * | 2002-11-18 | 2010-05-18 | Jpmorgan Chase Bank, N. A. | Method and system for enhancing credit line management, price management and other discretionary levels setting for financial accounts |
JP2005107994A (ja) | 2003-09-30 | 2005-04-21 | Hitachi Ltd | 証券化商品情報の提供システム、提供方法、それに用いる投資家用の装置及び証券化商品情報の価格付け方法 |
JP5046149B2 (ja) * | 2006-08-01 | 2012-10-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 報酬を得るための最適な施策を決定する技術 |
-
2010
- 2010-09-22 JP JP2010211588A patent/JP5552009B2/ja not_active Expired - Fee Related
-
2011
- 2011-09-19 US US13/235,642 patent/US8639556B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US8639556B2 (en) | 2014-01-28 |
US20120072259A1 (en) | 2012-03-22 |
JP2012068780A (ja) | 2012-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5552009B2 (ja) | リスクを考慮した最適なアクションを決定するための方法、プログラム、および装置 | |
Gutjahr et al. | Stochastic multi-objective optimization: a survey on non-scalarizing methods | |
Homem-de-Mello et al. | Monte Carlo sampling-based methods for stochastic optimization | |
US7389211B2 (en) | System and method of predictive modeling for managing decisions for business enterprises | |
Steeger et al. | Dynamic convexification within nested Benders decomposition using Lagrangian relaxation: An application to the strategic bidding problem | |
Chen et al. | Ranking and selection: Efficient simulation budget allocation | |
Ramalho et al. | Multicriteria decision making under conditions of uncertainty in application to multiobjective allocation of resources | |
US20070129981A1 (en) | Business solution management | |
US20150006433A1 (en) | Resource Allocation Based on Available Predictions | |
Angara et al. | DevOPs project management tools for sprint planning, estimation and execution maturity | |
Forsyth et al. | $\epsilon $-Monotone Fourier Methods for Optimal Stochastic Control in Finance | |
Werner et al. | Risk measures in multi-horizon scenario trees | |
WO2016205153A1 (en) | Incremental estimation for probabilistic forecaster | |
Burdett et al. | A stochastic programming approach to perform hospital capacity assessments | |
Fan et al. | Novel integer L-shaped method for parallel machine scheduling problem under uncertain sequence-dependent setups | |
Gribkova et al. | Weighted allocations, their concomitant-based estimators, and asymptotics | |
US20110282801A1 (en) | Risk-sensitive investment strategies under partially observable market conditions | |
US20210374628A1 (en) | Systems and methods for visual financial modeling | |
van der Schans et al. | Time-dependent black–litterman | |
Szwarcfiter et al. | Project scheduling in a lean environment to maximize value and minimize overruns | |
JP5046149B2 (ja) | 報酬を得るための最適な施策を決定する技術 | |
John et al. | Optimization of software development life cycle process to minimize the delivered defect density | |
Huang et al. | A cutting plane method for risk-constrained traveling salesman problem with random arc costs | |
Alves et al. | An Accelerated Fixed‐Point Algorithm Applied to Quadratic Convex Separable Knapsack Problems | |
Valente et al. | Bayesian inference for long memory term structure models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130606 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140415 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140523 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5552009 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |