JP5046149B2 - Technology to determine the most appropriate measures to get rewards - Google Patents
Technology to determine the most appropriate measures to get rewards Download PDFInfo
- Publication number
- JP5046149B2 JP5046149B2 JP2006209593A JP2006209593A JP5046149B2 JP 5046149 B2 JP5046149 B2 JP 5046149B2 JP 2006209593 A JP2006209593 A JP 2006209593A JP 2006209593 A JP2006209593 A JP 2006209593A JP 5046149 B2 JP5046149 B2 JP 5046149B2
- Authority
- JP
- Japan
- Prior art keywords
- parameter
- probability
- state
- term
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、リスクを抑えて報酬を最大化するための施策を決定するシステムに関する。特に、本発明は、施策の実行により状態遷移する対象に対し、将来の累積報酬が最大化するように施策を決定するシステムに関する。 The present invention relates to a system for determining measures for minimizing risk and maximizing reward. In particular, the present invention relates to a system for determining a measure so that a future accumulated reward is maximized for an object whose state is changed by executing the measure.
従来、ポートフォリオ理論についての研究が進められている(非特許文献1を参照。)。ポートフォリオ理論は、株式や債券などリターンにリスクが伴う商品が複数存在する状況下で、それぞれの商品の運用割合を決定するための理論である。即ち例えば、利用者が期待値として所望のリターンを得たい場合に、ポートフォリオ理論を応用すれば、そのリターンを得るためにリスクを最小化する運用割合を決定することができる。また、従来、マルコフ決定過程についての研究が進められている(非特許文献2から8を参照。)。マルコフ決定過程問題は、状態遷移し得る対象に対し、所定の規則に従って複数回の行動を取った場合に、その対象から得られる累積の収益を算出する問題である。マルコフ決定過程問題の既存解法によれば、行動を定める施策を与えると、累積の収益の期待値を算出することができる。
Conventionally, research on portfolio theory has been carried out (see Non-Patent Document 1). The portfolio theory is a theory for determining the operation ratio of each product in a situation where there are a plurality of products such as stocks and bonds that have a risk in return. That is, for example, when a user wants to obtain a desired return as an expected value, by applying portfolio theory, it is possible to determine an operation ratio that minimizes risk in order to obtain the return. Conventionally, research on the Markov decision process has been carried out (see
多数のエージェント(たとえば顧客)がいる環境で、各エージェントに対しどの様な施策(マーケティング・キャンペーンなど)を打つべきかを決定しようとする場合、短期的な報酬を最大化する施策は長期的に最適とは限らない。施策はエージェントの状態変化をもたらすからである。また、エージェントのもたらす報酬は一定でなく確率変数としてモデル化するのが妥当である。したがって、報酬の期待値を最大化したのでは大きなリスクを伴う危険性がある。実際には、リターンとリスクの双方の観点から最適な施策を決めるのが望ましい。 In an environment with a large number of agents (for example, customers), when trying to decide what measures (marketing campaigns, etc.) should be applied to each agent, measures to maximize short-term rewards are long-term. Not necessarily optimal. This is because the policy changes the state of the agent. Also, it is reasonable to model the rewards that the agent brings as a random variable instead of being constant. Therefore, maximizing the expected value of remuneration has a risk with a large risk. In practice, it is desirable to determine the most appropriate measure from the viewpoints of both return and risk.
このような課題に対し、多数の施策のそれぞれについてその施策によって得られる累積報酬のリスクを算出し、算出した中でリスクを最小とする施策を最適施策として決定する手法も考えられる。しかしながら、従来、ある施策から所定の期待値を得ようとした結果として発生するリスクを算出するためには、計算に長時間を要するシミュレーションが必要であった。更に、施策は対象となるエージェントの状態毎に異なり、また、施策は決定的でなく確率的でもよいとすると、シミュレーションの回数が爆発的に増加して現実的な時間で完了しないことが想定される。 For such a problem, a method of calculating the risk of the accumulated reward obtained by the measure for each of a large number of measures and determining the measure that minimizes the risk as the optimum measure among the calculated risks is conceivable. However, conventionally, in order to calculate a risk that occurs as a result of trying to obtain a predetermined expected value from a certain measure, a simulation that requires a long time for calculation has been required. Furthermore, if the measure differs depending on the state of the target agent, and if the measure may be deterministic and probabilistic, it is assumed that the number of simulations will increase explosively and will not be completed in a realistic time. The
同様の課題を解決するために、顧客の状態変化はマルコフモデルとしてモデル化でき、リターンとリスクを考慮した施策決定はポートフォリオ理論が応用できるとも考えられる。しかしながら、従来、マルコフ決定過程問題とポートフォリオ理論とを組み合わせた技術は充分に研究されていない。例えば、従来、マルコフモデルとしてモデル化された対象から所定の報酬を得るためにリスクを軽減する技術が提案されている(非特許文献2から6を参照。)。しかしながら、非特許文献2の技術では、リスクをある程度軽減できる場合もあるが、特定の状況において極端にリスクが高くなってしまう場合があった。また、非特許文献3から6の技術では、極端な高いリスクを回避することはできるものの、求めることができるのは、ある状態のエージェントに対して取る行動を一意に定める施策(以下、決定的施策)であって、ある状態のエージェントに対する行動を複数の行動の候補の中から所定の確率で選択させる施策(以下、確率的施策)ではなかった。
In order to solve the same problem, it can be considered that the change in the state of customers can be modeled as a Markov model, and portfolio theory can be applied to decision making considering return and risk. However, the technology that combines the Markov decision process problem and portfolio theory has not been sufficiently studied. For example, techniques for reducing risk in order to obtain a predetermined reward from an object modeled as a Markov model have been proposed (see
これに対し、非特許文献7の技術では、1人のエージェントから得られる定常状態における1期あたりの報酬のリスクを最小化する確率的施策を求めることができる。しかしながら、この技術では、定常状態のみに着目した報酬に伴うリスクのみを最小化しており、定常状態にいたるまでの途中段階も含めた累積報酬に伴うリスクを最小化していない。このため問題設定が現実に解決すべき課題とは異なっており妥当でない。また、マーケティングの施策を決定する場合等の、現実の課題においては、複数のエージェントが互いに相関を持ちながら状態遷移する場合があり、エージェントを1人に限定するのは適切ではない。 On the other hand, in the technique of Non-Patent Document 7, it is possible to obtain a probabilistic measure that minimizes the risk of reward per period in a steady state obtained from one agent. However, in this technique, only the risk associated with the reward focusing only on the steady state is minimized, and the risk associated with the accumulated reward including the intermediate stage until the steady state is reached is not minimized. For this reason, the problem setting is different from the problem to be solved in reality and is not appropriate. Further, in an actual problem such as when a marketing measure is determined, a plurality of agents may make a state transition while having correlation with each other, and it is not appropriate to limit the number of agents to one.
そこで本発明は、上記の課題を解決することのできるシステム、方法およびプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。 Therefore, an object of the present invention is to provide a system, a method, and a program that can solve the above-described problems. This object is achieved by a combination of features described in the independent claims. The dependent claims define further advantageous specific examples of the present invention.
上記課題を解決するために、本発明においては、行動に応じ状態遷移する複数のエージェントに対し、複数の行動を順次取った結果として得られる累積報酬の確率分布を算出するシステムであって、エージェントが採り得る複数の状態のそれぞれについて、当該状態のエージェントに対しそれぞれの行動を取った場合にそれぞれの状態に遷移する遷移確率を記憶している確率記憶部と、前記複数の状態のそれぞれについて、それぞれが共に当該状態である前記複数のエージェントに対しそれぞれの行動を取った結果それぞれの状態に遷移した場合に得られる報酬の確率分布のパラメータを記憶しているパラメータ記憶部と、前記複数の状態のそれぞれに対応付けて、当該状態のエージェントに対しそれぞれの行動を取る行動確率を定めた施策の入力を受け付ける施策取得部と、前記複数のエージェントから今期以降に得られる累積報酬の確率分布のパラメータを、今期の行動の前記行動確率および来期の状態への前記遷移確率により、今期の行動によって得られる報酬の確率分布のパラメータおよび来期の状態から来期以降に得られる累積報酬の確率分布を示すパラメータに基づく値を重み付けして、それぞれの行動および来期の状態について合計して算出する漸化式を生成し、当該漸化式において今期以降と来期以降とで初期状態が同一ならば累積報酬の確率分布のパラメータが同一値に収束するとみなした方程式を解くことにより、当該パラメータを算出する第1算出部と、算出した前記パラメータを、累積報酬の確率分布を示す情報として出力する出力部とを備えるシステム。当該システムとしてコンピュータを機能させるプログラム、および、当該システムによって確率分布を算出する方法を提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
In order to solve the above-mentioned problem, in the present invention, a system for calculating a probability distribution of cumulative rewards obtained as a result of sequentially taking a plurality of actions for a plurality of agents that change state according to the action, comprising: For each of the plurality of states that can be taken, for each of the plurality of states, a probability storage unit that stores transition probabilities of transitioning to each state when each action is taken with respect to the agent of the state, A parameter storage unit storing parameters of probability distribution of rewards obtained when transitioning to each state as a result of taking respective actions with respect to the plurality of agents each of which is in the state; and the plurality of states Measures that determine the probability of taking each action for an agent in that state in association with each A measure acquiring unit that receives an input, the parameters of the probability distribution of the cumulative reward obtained after this term from the plurality of agents, by the transition probability to the behavior probability and the next term of the state of this term behavior, obtained by this term actions The recursion formula is calculated by weighting the values based on the parameters of the probability distribution of the rewards and the parameters indicating the probability distribution of the cumulative rewards obtained from the next period onward, and summing up each action and the state of the next period. If the initial state is the same in the recurrence formula after this term and the following term in the recurrence formula, a first calculation is performed to calculate the parameter by solving an equation that the cumulative reward probability distribution parameter is assumed to converge to the same value And an output unit that outputs the calculated parameter as information indicating the probability distribution of the accumulated reward A program for causing a computer to function as the system and a method for calculating a probability distribution by the system are provided.
The above summary of the invention does not enumerate all the necessary features of the present invention, and sub-combinations of these feature groups can also be the invention.
本発明によれば、状態遷移する複数の対象から得られる累積報酬のリスクを最小化する確率的施策を求めることができる。 According to the present invention, it is possible to obtain a probabilistic measure that minimizes the risk of cumulative reward obtained from a plurality of objects that undergo state transition.
以下、発明を実施するための最良の形態(以下、実施形態と称す)を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。 Hereinafter, the present invention will be described through the best mode for carrying out the invention (hereinafter referred to as an embodiment). However, the following embodiment does not limit the invention according to the claims, and Not all the combinations of features described therein are essential to the solution of the invention.
図1は、情報システム10の全体構成を示す。情報システム10は、確率記憶部20と、パラメータ記憶部30と、施策決定システム40とを有する。確率記憶部20は、エージェントが採り得る複数の状態のそれぞれについて、当該状態のエージェントに対しそれぞれの行動を取った場合にそれぞれの状態に遷移する遷移確率を記憶している。エージェントとは、例えば、マーケティングの対象となる消費者であり、行動とは、例えば、それらの消費者に対して行うマーケティングの行動である。また、状態とは、消費者の行動特性を示し、例えば消費者の変化し得る属性などである。たとえば、マーケティングにおいては、1ヶ月の消費額がある範囲の金額である顧客セグメントに属することが状態1であり、1ヶ月の消費額が他の範囲の金額である他の顧客セグメントに属することが状態2などとなる。即ち、状態遷移とは、たとえば、ある消費者に対し割引やキャンペーンなどの行動をとった結果としてその消費者が他の顧客セグメントに属することとなることをいう。
FIG. 1 shows the overall configuration of the
パラメータ記憶部30は、これら複数の状態のそれぞれについて、それぞれが共に当該状態である複数のエージェントに対しそれぞれの行動を取った結果それぞれの状態に遷移した場合に得られる報酬の確率分布を示すパラメータを記憶している。報酬とは、例えば売上や利益の額をいう。上述のマーケティングにおいて、たとえば、報酬とは、ある状態である複数の消費者に対しあるキャンペーンを行った結果として当該複数の消費者から得られる売上の大きさである。そして、報酬の確率分布を示すパラメータとは、例えば確率分布が正規分布に従う場合の平均値および分散値などである。これら確率記憶部20またはパラメータ記憶部30に記憶されたデータは、過去のマーケティングの履歴などの情報を分析することによって予め生成されたものであってよい。
The
施策決定システム40は、これら複数のエージェントに対し複数の行動を順次取った結果として得られる累積報酬について、複数の期待値を予め選択する。そして、施策決定システム40は、これらそれぞれの期待値に対してリスクを最小化するための行動を定める施策を決定する。施策決定システム40は、期待値とリスク指標とを示す座標軸によって構成される平面上に、期待値とその累積報酬を得るための最小リスク指標とを示す点を描画し、それぞれの点を結ぶことによって効率的フロンティア曲線60を描画して利用者に表示する。利用者は、効率的フロンティア曲線60上の点の中から、所望の期待値とリスク指標とを選択する。施策決定システム40は、選択された期待値を得るための施策を、リスクを最小化するための最適施策70として利用者に出力する。
The
このように、本実施形態に係る情報システム10は、エージェントの状態遷移確率や1回の行動に対する報酬などのデータが予め与えられた場合に、複数のエージェントから所望の累積報酬を得るためにリスクを最小化する最適な施策を出力することを目的とする。
As described above, the
図2は、確率記憶部20のデータ構造の一例を示す。確率記憶部20は、エージェントが採り得る複数の状態のそれぞれについて、当該状態のエージェントに対しそれぞれの行動を取った場合にそれぞれの状態に遷移する遷移確率を記憶している。エージェントの状態を変数sによって表し、具体的には、状態はs1、s2、…、smなどとする。また、エージェントが採り得る状態の集合をSとする。即ち、s∈Sである。また、取り得る行動を変数aによって表し、具体的には、行動はa1、a2、…anなどとする。また、取り得る行動の集合をAとする。即ちa∈Aである。そして、確率記憶部20は、遷移元の状態と行動との組(s,a)と、遷移先の状態sとの組合せ毎に、その遷移確率を記憶する。例えば、状態s1のエージェントに対し行動a1を取った結果状態s1のまま状態遷移しない確率は25%であり、状態s2に遷移する確率は40%である。以降の説明において、この遷移確率をps´|s,aと表記する。但し、この表記においてsは遷移元の状態を示し、aは行動を示し、s´は遷移先の状態を示すものとする。
FIG. 2 shows an example of the data structure of the
図3は、パラメータ記憶部30のデータ構造の一例を示す。パラメータ記憶部30は、これら複数の状態のそれぞれについて、それぞれが共に当該状態である複数のエージェントに対しそれぞれの行動を取った結果それぞれの状態に遷移した場合に得られる報酬の確率分布を示すパラメータを記憶している。図3には、確率分布を定めるパラメータの一例として報酬の平均値を示す。パラメータ記憶部30は、遷移元の状態と行動との組(s,a)と、遷移先の状態sとの組合せ毎に、その遷移元の状態からその遷移先の状態に遷移した結果として得られる報酬の平均値を記憶している。
FIG. 3 shows an exemplary data structure of the
一例として、エージェントが10,000人の場合、10,000人の全てがある状態s1にあるとしたときに、それら全てのエージェントに対して行動a1を取った結果それら全てのエージェントの状態が状態s2に遷移した場合に得られる報酬の平均値は$2.10である。ここでいう平均値とは、確率分布のパラメータとしての平均値であり、上記と同一条件で複数回行動a1を取った結果得られる報酬の平均値をいう。なお、報酬の分布によっては平均値のみでは確率分布が定められないので、パラメータ記憶部30は、図3と同様の表を分散値やその他のパラメータのそれぞれについて更に記憶する。その他のパラメータとは、例えば、安定分布における特性指数や歪度などである。これらのパラメータを記憶するためのデータ構造は、データの内容が平均値に代えてその他のパラメータとなることのほか、図3と略同一であるので説明を省略する。
As an example, if there are 10,000 agents, and all 10,000 agents are in a state s 1 , the state of all the agents as a result of taking action a 1 for all those agents The average value of the reward obtained when the state transits to state s 2 is $ 2.10. The average value here is an average value as a parameter of the probability distribution, and means an average value of rewards obtained as a result of taking action a 1 a plurality of times under the same conditions as described above. Note that, depending on the reward distribution, the probability distribution cannot be determined only by the average value, so the
以降の説明において、状態sのエージェントに対し行動aを取った結果状態s´に遷移した結果として得られる報酬をrs´|s,aと表記する。また、その確率分布をP(rs´|s,a)と表記し、その平均値または位置パラメータをμs´|s,aと表記する。 In the following description, the reward obtained as a result of the transition to the state s ′ as a result of taking the action a for the agent in the state s is expressed as r s ′ | s, a . The probability distribution is expressed as P (r s ′ | s, a ), and the average value or the position parameter is expressed as μ s ′ | s, a .
図4は、最適施策70の一例を示す。最適施策70は、それぞれの状態のエージェントについてそれぞれの行動をとるべき行動確率を定める。例えば図4中で、状態s1の行と行動a1の列との交差部分の確率値20%が、状態s1のエージェントについて行動a1を取る行動確率である。利用者は、状態s1のエージェントが100人の場合、そのうち20人に対し行動a1を取ってもよいし、その100人のエージェントのそれぞれについて、20%の確率で行動a1を取ってもよい。この最適施策70に従って行動することにより、所望の期待値に対するリスクを最小化することができる。
以降の説明において、状態sのエージェントに対し行動aを取る行動確率を定めた施策をπs、aと表記する。また、全ての状態s∈Sおよび行動a∈Aに対するπs,aのπの値をまとめてπ={πs,a; s∈S, a∈A}と表記する。
FIG. 4 shows an example of the
In the following description, a measure that defines an action probability of taking action a for an agent in state s is denoted as π s, a . Further, the values of π s, a for all states s ∈ S and action a ∈ A are collectively expressed as π = {π s, a ; s ∈ S, a ∈ A}.
続いて、これらの遷移確率およびパラメータに基づき、施策決定システム40が最適施策を求める処理機能の詳細を説明する。説明に先立って、まず累積報酬の期待値を定義する。累積報酬は、全てのエージェントから今期および今期以降の将来に渡って得られる報酬の合計である。なお、今期とは、順次経過する複数の期間のうち、いま求めようとする最適施策を実行開始する期間をいい、来期とは、今期の次の期間をいう。現実の課題において、同一の金額であっても早く得られる報酬の方が価値が高いので、将来の報酬については割引率を乗じて価値を低く評価するものとする。具体的には、ある施策πについて期間0から期間(T−1)までの累積報酬の期待値は以下の式(1)のように表される。
図5は、施策決定システム40の機能構成を示す。施策決定システム40は、位置パラメータ範囲算出部400と、位置パラメータ取得部410と、施策取得部420と、第1算出部430と、第2算出部440と、収束判定部450と、出力部460と、表示制御部470とを有する。位置パラメータ範囲算出部400は、確率記憶部20に記憶された遷移確率、および、パラメータ記憶部30に記憶されたパラメータに基づいて、複数のエージェントから得られる累積報酬の確率分布を示す位置パラメータの最大値および最小値を算出する。算出処理の詳細については後述するが、来期以降に得られる累積報酬の位置パラメータと、今期の報酬の位置パラメータとに基づき、今期以降に得られる累積報酬の位置パラメータの最小値(または最大値)求める漸化式を生成し、バリュー・イテレーションによりその値の収束値を求めることによって実現される。
FIG. 5 shows a functional configuration of the
以下、位置パラメータをどのように定めるかによって処理が異なるため、それぞれについて説明する。
エージェントは、既に述べたように、状態s1からsmを採り得る。そして、エージェントから得られる報酬は、遷移元の状態によって異なっている。したがって、例え同一の施策に従って行動しても、初期状態が異なるエージェントから得られる累積報酬は異なる。このため、累積報酬の位置パラメータは、初期状態毎に定めたい場合がある。これは、マーケティングの例では、顧客セグメントの種類が少なく、そのそれぞれから得たい報酬を顧客セグメント毎にきめ細かく定めたい場合に有効である。一方で、様々な状態を初期状態とする複数のエージェントから得られる総報酬額の確率分布の位置パラメータを定めたい場合がある。これは、マーケティングの例では、顧客セグメントの種類が多くてそのそれぞれから得たい報酬を定めるのは困難な場合に有効である。以下、これらのそれぞれの場合について説明する。
In the following, since the process differs depending on how the position parameter is determined, each will be described.
The agent can take states s 1 to s m as described above. The reward obtained from the agent differs depending on the state of the transition source. Therefore, even if it acts according to the same measure, the accumulated rewards obtained from agents with different initial states are different. For this reason, the position parameter of the accumulated reward may be desired to be determined for each initial state. This is effective when there are few types of customer segments in the marketing example and it is desired to finely determine the rewards to be obtained from each of the customer segments. On the other hand, there is a case where it is desired to determine the position parameter of the probability distribution of the total reward amount obtained from a plurality of agents having various states as initial states. This is effective in the marketing example when there are many types of customer segments and it is difficult to determine a reward to be obtained from each of them. Hereinafter, each of these cases will be described.
(1)それぞれの初期状態について位置パラメータを定める場合
位置パラメータ取得部410は、複数の状態のそれぞれについて、位置パラメータ範囲算出部400によって算出された最小値から最大値までの範囲内の値を、当該状態を初期状態とする複数のエージェントから得られるべき報酬の確率分布を示す位置パラメータとして取得する。位置パラメータ取得部410は、位置パラメータの指定の入力を利用者から受け付けてもよいし、当該最小値から最大値までの値の中から所定の規則に従って複数の値を取得してもよい。
(1) When Position Parameters are Determined for Each Initial State The position
施策取得部420は、複数の状態のそれぞれについて、当該状態を初期状態とする複数のエージェントから得られる累積報酬の確率分布の位置パラメータを、取得した位置パラメータに一致させる施策のうち1つを生成し、その施策を初期施策として取得する。この初期施策は、位置パラメータを与えられた値と一致させれば充分であり、リスクを最小化するものであるかどうかは問わない。第1算出部430は、それぞれの状態について、当該状態を初期状態とする複数のエージェントから初期施策に従って行動した結果として得られる累積報酬の確率分布を示す位置パラメータおよびスケールパラメータを算出する。これらのパラメータの算出方法については後述する。
For each of a plurality of states, the
第2算出部440は、複数の状態のそれぞれについて、エージェントに対し取り得るそれぞれの行動の行動確率を変数とし、第1算出部430によって算出されたスケールパラメータに基づき累積報酬の確率分布のスケールパラメータを求める目的関数の値を最小化する線形計画問題を解くことにより、それぞれの行動確率を定める施策を算出する。この線形計画問題は、それぞれの行動の行動確率に従って行動した結果として得られる累積報酬の確率分布の位置パラメータが、第1算出部430によって算出された位置パラメータに一致することを制約とする。また、同一状態に対するそれぞれの行動確率の和が1であり、それぞれの行動確率が0以上であることを制約とする。
The
収束判定部450は、第1算出部430により算出されたスケールパラメータと第2算出部440により算出されたスケールパラメータとが予め定められた範囲内の値に収束したことを条件に、第2算出部440により算出された施策を出力部460に対し出力し、収束していないことを条件に、第2算出部440により算出された施策を初期施策に代えて第1算出部430に与える。この結果、第1算出部430は、与えられたこの施策に従い行動した結果として得られる累積報酬の確率分布の位置パラメータおよびスケールパラメータを更に算出する。
The
出力部460は、収束したスケールパラメータとはじめに取得した位置パラメータとを利用者に対し出力する。出力部460は、また、収束したスケールパラメータおよび取得した位置パラメータに基づいてリスク指標値、例えばバリューアットリスクなどを算出して出力してもよい。さらに、出力部460は、複数の位置パラメータが取得された場合に、それぞれの位置パラメータおよび対応するスケールパラメータを表示制御部470に出力する。
The
表示制御部470は、出力部460から入力を受けた位置パラメータおよびスケールパラメータに基づき効率的フロンティア曲線を描画し、利用者に出力する。即ちたとえば、表示制御部470は、位置パラメータ取得部410によって位置パラメータが取得される毎に、位置パラメータを示す座標軸、および、リスク指標値を示す座標軸とからなる平面上において、当該位置パラメータ、および、当該位置パラメータに対応して第2算出部440により算出されて収束判定部450によって収束が判定されたスケールパラメータに基づくリスク指標値によって表される座標値に点を描画する。そして、表示制御部470は、描画された点と点との間を補完することにより曲線を描画して表示する。
The
この場合、出力部460は、表示された曲線上の座標値の指定を利用者から受け付けてもよい。座標値の指定に応じ、出力部460は、当該座標値によって表される位置パラメータおよびリスク指標の組を、当該位置パラメータおよび当該リスク指標によって示される確率分布の累積報酬を得るために第2算出部440により算出された施策に対応付けて出力する。このように、利用者は、単に指定した位置パラメータに対応する最適施策を得るだけでなく、曲線上に表された様々な位置パラメータの中から所望の報酬額を任意に選択して、それに対応する施策を得ることができる。
In this case, the
(2)全ての初期状態についての総報酬の位置パラメータを定める場合
位置パラメータ取得部410は、それぞれが異なる状態を初期状態として取り得る複数のエージェントから得られる累積報酬の合計の確率分布を示す位置パラメータを取得する。この位置パラメータは、それぞれの状態を初期状態とするエージェントから得られる報酬の確率分布の位置パラメータの最小値に、当該状態を初期状態とするエージェントの割合として予め与えられた値によって重み付けした合計以上の値であることが望ましい。また、この位置パラメータは、それぞれの状態を初期状態とするエージェントから得られる報酬の確率分布の位置パラメータの最大値に、当該状態を初期状態とするエージェントの割合として予め与えられた値によって重み付けした合計以下の値であることが望ましい。
(2) When determining the position parameter of the total reward for all initial states The position
施策取得部420は、複数のエージェントから得られる累積報酬の合計の確率分布を示す位置パラメータを、取得した位置パラメータと一致させる施策のうち1つを生成し、初期施策として取得する。この初期施策は、位置パラメータを与えられた値と一致させれば充分であり、リスクを最小化するものであるかどうかは問わない。第1算出部430は、初期施策に従って行動した結果として複数のエージェントから得られる累積報酬の確率分布を示す位置パラメータおよびスケールパラメータを算出する。
The
第2算出部440は、複数の状態のそれぞれについて、エージェントに対して取り得るそれぞれの行動の行動確率を変数とし、第1算出部430によって算出されたスケールパラメータに基づきそれぞれの状態を初期状態として当該行動確率に従って行動した結果として得られる累積報酬の確率分布のスケールパラメータを、当該状態を初期状態とするエージェントの数で重み付けして合計する目的関数の値を最小化する線形計画問題を解くことにより、それぞれの行動確率を定める施策を算出する。この線形計画問題は、それぞれの状態を初期状態として当該行動確率に従って行動した結果として得られる累積報酬の確率分布の位置パラメータを、当該状態を初期状態とするエージェントの数で重み付けして合計した値が、第1算出部430によって算出された位置パラメータに一致する制約を有する。また、同一状態に対する行動確率の合計が1となり、それぞれの行動確率が0以上となる制約を有する。
For each of the plurality of states, the
収束判定部450は、第1算出部430により算出されたスケールパラメータと第2算出部440により算出されたスケールパラメータとが予め定められた範囲内の値に収束したことを条件に、第2算出部440により算出された施策を出力する。一方で、収束判定部450は、収束していないことを条件に、第2算出部440により算出された施策を初期施策に代えて第1算出部430に与える。これにより、第1算出部430は、この施策に従い行動した結果として得られる累積報酬の確率分布の位置パラメータおよびスケールパラメータを更に算出する。
なお、出力部460および表示制御部470の機能は(1)で説明したものと同様である。処理内容は(1)の場合と一部異なるが詳細についてはフローチャートを参照して後に説明する。
The
The functions of the
図6は、第1算出部430の機能構成を示す。第1算出部430は、第1ユニット500と、第2ユニット530と、第3ユニット570とを有する。第1ユニット500は、平均値算出部510と、分散値算出部520とを有する。第1ユニット500は、複数のエージェントのそれぞれから確率的に得られる報酬額が独立に定まり、かつ同一状態にある複数のエージェントから1期間に得られる総報酬が正規分布に従う場合において、与えられた施策(例えば初期施策)に対して累積報酬の確率分布を定める平均値および分散値を算出することを目的とする。この場合、全員が状態sにいたときに行動aを取った上で全員が状態s´に移動した場合に得られる報酬の確率分布は以下の式(2)のように表される。
1期間毎の報酬が正規分布に従う場合には、累積報酬Rs(π)も正規分布に従うため、累積報酬Rs(π)は以下の式(3)のように表される。
この平均値Ms(π)は、複数のエージェント全体から今期以降に得られる累積報酬の平均値を表す。そして、平均値(あるいは期待値)は線形性を有するから、この平均値は、今期の報酬の平均値と来期以降に得られる累積報酬の平均値とを合計する漸化式として表される。具体的には、この漸化式は、今期の行動の行動確率πs,aおよび来期の状態への遷移確率ps´|s,aにより、来期の状態s´から来期以降に得られる累積報酬の平均値に割引率rを乗じて今期の行動によって得られる報酬の平均値μs´|s,aを加えた値を重み付けして、それぞれの行動a(∈A)および来期の状態s´(∈S)について合計することで、今期以降の累積報酬の平均値を求める式となる。 This average value M s (π) represents an average value of accumulated rewards obtained from the plurality of agents after this term. And since an average value (or expected value) has linearity, this average value is represented as a recurrence formula which totals the average value of the reward of this term and the average value of the accumulated reward obtained in the following term. Specifically, this recurrence formula is an accumulation obtained from the state s ′ of the next period onward by the action probability π s, a of the action of the current period and the transition probability p s ′ | s, a of the next period. Multiplying the average reward value by the discount rate r and adding the average reward value μ s ′ | s, a obtained by the action of the current term, weights each action a (∈A) and the state s of the next period By summing up ′ (∈S), an equation for obtaining an average value of accumulated rewards from this term is obtained.
この漸化式において、今期以降と来期以降とで初期状態が同一ならば累積報酬の確率分布の平均値が同一値に収束するとみなすと、累積報酬の平均値Ms(π)についての、状態の数|S|元の連立方程式が生成され、これはベルマン方程式となる。この方程式を式(4)に示す。
また、標準偏差Ss(π)は、複数のエージェント全体から今期以降に得られる累積報酬の標準偏差を表す。そして、この標準偏差の2乗である分散値は、今期の報酬の分散値と来期以降に得られる累積報酬の分散値とに基づく計算をする漸化式として表される。具体的には、この漸化式は、今期の行動の行動確率πs,aおよび来期の状態への遷移確率ps´|s,aにより、来期の状態s´から来期以降に得られる累積報酬の分散値に割引率rの2乗を乗じて今期の行動によって得られる報酬の分散値σ2 s´|s,aを加えた値を重み付けして、それぞれの行動a(∈A)および来期の状態s´(∈S)について合計することで、今期以降の累積報酬の分散値を求める式となる。 The standard deviation S s (π) represents the standard deviation of accumulated rewards obtained from the plurality of agents after this term. The variance value, which is the square of the standard deviation, is expressed as a recurrence formula that performs calculations based on the variance value of the current term reward and the variance value of the accumulated reward obtained in the following term. Specifically, this recurrence formula is an accumulation obtained from the state s ′ of the next period onward by the action probability π s, a of the action of the current period and the transition probability p s ′ | s, a of the next period. Weighting the value obtained by multiplying the variance value of the reward by the square of the discount rate r and adding the variance value σ 2 s ′ | s, a of the reward obtained by the action of the current term, each action a (∈A) and By summing up the state s ′ (∈S) in the next term, the equation for obtaining the variance value of the accumulated rewards from this term is obtained.
この漸化式において、今期以降と来期以降とで初期状態が同一ならば累積報酬の確率分布の分散値が同一値に収束するとみなすと、累積報酬の分散値S2 s(π)についての、状態の数|S|元の連立方程式が生成され、これはベルマン方程式となる。この方程式を式(5)に示す。
第2ユニット530は、歪度算出部540と、位置パラメータ算出部550と、スケールパラメータ算出部560とを有する。第2ユニット530は、複数のエージェントのそれぞれから確率的に得られる報酬額が独立に定まり、かつ同一状態にある複数のエージェントから1期間に得られる総報酬が安定分布に従う場合において、与えられた施策(例えば初期施策)に対して累積報酬の確率分布を定める平均値および分散値を算出することを目的とする。報酬の分布を正規分布から安定分布に拡張することで、ヘビー・テイル性を有する分布を取り扱うことができる。ヘビー・テイル性を有する分布とは、正規分布よりも裾野が厚く、分散値が有限値とならない分布をいう。これにより、株価の暴落や連鎖倒産に対する貸し倒れ額など、考慮しなければならない現実的な課題を解決することができる。
この場合、全員が状態sにいたときに行動aを取った上で全員が状態s´に移動した場合に得られる報酬の確率分布は以下の式(6)のように表される。
In this case, the probability distribution of the reward obtained when everyone moves to the state s ′ after taking action a when they are in the state s is expressed as the following equation (6).
αs´|s,aは安定分布の特性指数であり、報酬が大きな領域における確率密度の減衰の程度を示す。βs´|s,aは歪度であり、分布の非対称性を示す。μs´|s,aは正規分布における期待値・平均値に対応し、安定分布の場合は期待値が定まらない場合があるので位置パラメータと呼ぶ。σs´|s,aはスケール・パラメータである。なおα=2の場合には分散値が有限となり安定分布は正規分布に一致する。また、1<α≦2の場合には期待値が存在し、位置パラメータは期待値を示す。同一状態にある複数のエージェントからの合計報酬は、互いに独立な無数のエージェントによる微小報酬の合計となり、拡張された中心極限定理が適用できる。即ち、全てのs、s´、aに関しαs´|s,aが同一と仮定すると(この値を単にαと表記する)、累積報酬は安定分布に従う。この仮定の下、累積報酬Rs(π)は、以下の式(7)によって表される。
この歪度Βs(π)は、今期の報酬の確率分布を示す歪度と、来期以降の報酬の確率分布を示す歪度とに基づく漸化式によって表される。具体的には、この漸化式は、今期の行動の行動確率πs,aおよび来期の状態への遷移確率ps´|s,aにより、今期の行動によって得られる報酬の確率分布の歪度βs´|s,aおよびスケールパラメータのα乗σα s´|s,a並びに来期の状態s´から来期以降に得られる累積報酬の確率分布の歪度およびスケールパラメータに基づく値を重み付けして、それぞれの行動aおよび来期の状態s´について合計することで、今期以降の累積報酬の確率分布の歪度Βs(π)を算出する式となる。 The skewness Β s (π) is expressed by a recurrence formula based on the skewness indicating the probability distribution of the reward for the current period and the skewness indicating the probability distribution of the reward for the next period or later. Specifically, this recurrence formula is obtained by calculating the distortion of the probability distribution of the reward obtained by the current period action by the action probability π s, a of the current period action and the transition probability p s ′ | s, a to the next period state. Degree β s ′ | s, a and α of the scale parameter σ α s ′ | s, a , and the value based on the skewness of the probability distribution of the cumulative reward obtained from the next period s ′ onwards and the scale parameter and the scale parameter Then, by summing up each action a and the state s ′ of the next term, an equation for calculating the skewness Β s (π) of the probability distribution of the cumulative reward after this term is obtained.
この漸化式において、今期以降と来期以降とで初期状態が同一ならば累積報酬の確率分布の歪度が同一値に収束するとみなすと、累積報酬の確率分布の歪度Βs(π)についての、状態の数|S|元の連立方程式が生成され、これはベルマン方程式となる。この方程式を式(8)に示す。
また、位置パラメータMs(π)は、今期の報酬の確率分布を示す位置パラメータと、来期以降の報酬の確率分布を示す位置パラメータとに基づく漸化式によって表される。具体的には、この漸化式は、今期の行動の行動確率πs,aおよび来期の状態への遷移確率ps´|s,aにより、来期の状態から来期以降に得られる累積報酬の位置パラメータに割引率rを乗じて今期の行動によって得られる報酬の位置パラメータμs´|s,aを加えた値を重み付けして、それぞれの行動aおよび来期の状態s´について合計することで、今期以降の累積報酬の確率分布の位置パラメータMs(π)を算出する式となる。 Further, the position parameter M s (π) is represented by a recurrence formula based on a position parameter indicating the probability distribution of the reward for the current period and a position parameter indicating the probability distribution of the reward for the next period or later. Specifically, this recurrence formula is based on the behavioral probability π s, a of the current period and the transition probability p s ′ | s, a of the next period. By multiplying the position parameter by the discount rate r and weighting the value obtained by adding the position parameter μ s ′ | s, a of the reward obtained by this period's action, the total is obtained for each action a and the state s ′ of the next period. This is an expression for calculating the position parameter M s (π) of the probability distribution of the cumulative reward from this term.
この漸化式において、今期以降と来期以降とで初期状態が同一ならば累積報酬の確率分布の位置パラメータが同一値に収束するとみなすと、累積報酬の確率分布の位置パラメータMs(π)についての、状態の数|S|元の連立方程式が生成され、これはベルマン方程式と成る。この方程式を式(9)に示す。
同様に、スケールパラメータのα乗Ss α(π)は、今期の報酬の確率分布を示すスケールパラメータのα乗と、来期以降の報酬の確率分布を示すスケールパラメータのα乗とに基づく漸化式によって表される。具体的には、この漸化式は、今期の行動の行動確率πs,aおよび来期の状態への遷移確率ps´|s,aにより、来期の状態から来期以降に得られる累積報酬のスケールパラメータのα乗に割引率γのα乗を乗じて今期の行動によって得られる報酬のスケールパラメータのα乗σα s´|s,aを加えた値を重み付けして、それぞれの行動aおよび来期の状態s´について合計することで、今期以降の累積報酬の確率分布のスケールパラメータのα乗Ss α(π)を算出する式となる。この方程式を式(10)に示す。
第3ユニット570は、平均値算出部580と、スケールパラメータ算出部590とを有する。第3ユニット570は、複数のエージェントのそれぞれから確率的に得られる報酬額に相関があり、かつ同一状態にある複数のエージェントから1期間に得られる総報酬が正規分布に従う場合において、与えられた施策(例えば初期施策)に対して累積報酬の確率分布を定める平均値および分散値を算出することを目的とする。1期間毎の報酬が正規分布に従うため、独立で相関がない場合と同様に、全員が状態sにいたときに行動aを取った上で全員が状態s´に移動した場合に得られる報酬は式(11)のようにモデル化できる。
同一状態にある複数のエージェントは互いに相関するため、同一状態にある複数のエージェントから得られる合計報酬は、互いに相関をもった無数のエージェントによる微小報酬の合計となる。この場合には、中心極限定理をそのまま適用することができない。
このような相互に相関するエージェントから得られる合計報酬の分布をモデル化するべく、まず、互いに相関する確率変数X1,X2,…,Xnの和が従う確率分布がどの様になるかを考える。その1つのモデル化として次のような式(12)を用いることができる。
Or in order to model the distribution of total rewards from agents that correlates to such other, firstly, the random variables X 1, X 2, which correlate with each other, ..., the probability distribution of the sum follows a X n will look like think of. As one modeling, the following equation (12) can be used.
Hは、それぞれのエージェントから得られる報酬が他のそれぞれのエージェントから得られる報酬と相関と相関する程度を示す相関指標値であり、これをハースト指数と呼ぶ。H=1/2は報酬額が互いに独立の場合を示し、中心極限定理が適用される状況と一致する。逆に極端な場合には、Xiの挙動に他の全てのXj(i≠j)が連動する状況が想定できる。それぞれの確率変数は何れも単独では同一の平均と分散であるから、これは結局「X2、X3、…、Xnのそれぞれが常にX1に等しい」という状況である。このときはH=1となる。つまり、X1の標準偏差のn倍が合計値にもそのまま現れる。逆相関の場合も含めてHの定義域は0<H≦1となる。 H is a correlation index value indicating the degree to which the reward obtained from each agent correlates with the reward obtained from each other agent, and this is called a Hurst index. H = 1/2 indicates a case where the remuneration amounts are independent from each other, which is consistent with the situation where the central limit theorem is applied. On the other hand, in an extreme case, it can be assumed that all other X j (i ≠ j) are linked to the behavior of X i . Since each random variable alone has the same mean and variance, this is a situation where “X 2 , X 3 ,..., X n are always equal to X 1 ”. At this time, H = 1. That, n times the standard deviation of X 1 is as appears in the sum. Including the case of inverse correlation, the domain of H is 0 <H ≦ 1.
このモデルを応用する。つまり、状態sにns個のエージェントがいるとした場合に、施策πs,aを行うns・πs,a個のエージェントの中で来期の状態がs´のものの合計報酬に関する分布が、ハースト指数Hs´|s,aの依存性を持っていると考える。全てのs´、aに関しHs´|s,aが等しい場合には(この値をHsとする)、分布の形は比較的容易となり、施策πsを行ったときの1期間あたりの報酬rs´|s,πsは、以下の式(13)のように表される。
これは、分散σ2 s´|s,aの代わりに標準偏差をHs −1乗したσ1/Hs s´|s,a
の領域で加法性が成り立つことを意味する。式(13)を前提に累積報酬Rs(π)の性質を知る必要があるが、時間発展を考慮する場合の着眼点は2つある。以下にそれらを示す。
1.異なる状態s1,s2のもたらす報酬間に相関があるかどうか。つまり、状態s1のエージェントから高い報酬が得られるときには状態s2のエージェントからも高い報酬が得られ、状態s1のエージェントから低い報酬が得られるときには状態s2のエージェントからも低い報酬が得られる、といった相関が見られるかどうか。
2.t期とt+1期の報酬は独立か、それとも連動しているか。つまり、同一の現状態であってもt期の報酬が高い場合にはt+1期の報酬が高く、t期の報酬が低い場合にはt+1期の報酬も低いという状況が存在するかどうかである。
これらの着眼点に基づく相関は、マーケティングなどの分野においてはどちらも存在することが確かめられている。例えば、全ての状態に対し影響するようなグローバルな現象が生じ、それが状態の定義において考慮されていない場合には、上記1に示す相関が存在する。また、季節的な変動や上昇・下降トレンドがあり、それらが状態の定義において考慮されていない場合には、上記2に示す相関が存在する。
This is because, instead of the variance σ 2 s ′ | s, a , σ 1 / Hs s ′ | s, a obtained by raising the standard deviation to the power of H s −1.
It means that additivity holds in the domain of. Although it is necessary to know the property of the accumulated reward R s (π) on the premise of the equation (13), there are two points to consider when considering time evolution. They are shown below.
1. Whether there is a correlation between rewards brought by different states s 1 and s 2 . That is, when a high reward is obtained from the agent in the state s 1, a high reward is also obtained from the agent in the state s 2 , and when a low reward is obtained from the agent in the state s 1, a low reward is also obtained from the agent in the state s 2. Whether there is a correlation such as
2. Are the rewards for period t and period t + 1 independent or linked? In other words, even in the same current state, if the reward for t period is high, the reward for t + 1 period is high, and if the reward for t period is low, the reward for t + 1 period is also low. .
It has been confirmed that both correlations based on these points of interest exist in fields such as marketing. For example, when a global phenomenon that affects all states occurs and is not considered in the definition of the state, the correlation shown in the above 1 exists. Further, when there are seasonal fluctuations and up / down trends, and these are not taken into account in the definition of the state, the correlation shown in 2 above exists.
Hsは、同一期において状態sに所属するエージェント同士の相関を示すハースト指数である。これが全ての状態sに関してHs=Hであるとする。この条件下で更に、このハースト指数Hが上記1、2に関する連動性を示すハースト指数と同一である場合には、以下の式(14)に示すベルマン方程式を導くことができる。
即ちこの方程式は、今期以降に得られる累積報酬のスケールパラメータS1/H s(πs)を、今期の行動によって得られる報酬のスケールパラメータσ1/H s´|s,aと、来期以降に得られる累積報酬のスケールパラメータとに基づいて算出する漸化式において、今期以降と来期以降とで累積報酬のスケールパラメータが同一値に収束するとみなすことにより生成される。そしてこの漸化式は、具体的には、今期の行動の行動確率πs,aおよび来期の状態への遷移確率ps´|s,aにより、来期の状態から来期以降に得られる累積報酬のスケールパラメータに割引率rをハースト指数Hの逆数で累乗した値を乗じて今期の行動によって得られる報酬のスケールパラメータσ1/H s´|s,aを加えた値を重み付けして、それぞれの行動aおよび来期の状態s´について合計することで、今期以降の累積報酬の確率分布のスケールパラメータS1/H s(π)を算出する式となる。 In other words, the equation shows that the cumulative reward scale parameter S 1 / H s (π s ) obtained from the current period, the reward scale parameter σ 1 / H s ′ | In the recurrence formula calculated based on the scale parameter of the accumulated reward obtained in the above, it is generated by regarding that the scale parameter of the accumulated reward converges to the same value in and after this term. The recurrence formula is, specifically, the cumulative reward obtained from the next period to the next period on the basis of the action probability π s, a of the current period and the transition probability p s ′ | s, a to the next period. Is multiplied by the value obtained by multiplying the scale parameter of the discount rate r by the reciprocal of the Hearst index H, and the value obtained by adding the scale parameter σ 1 / H s ′ | By summing up the action a and the state s ′ of the next term, the equation for calculating the scale parameter S 1 / H s (π) of the cumulative reward probability distribution from this term onwards is obtained.
スケールパラメータ算出部590は、この式(14)を解くことにより、今期以降の累積報酬の確率分布のスケールパラメータであるS1/H s(π)を算出することができる。なお、平均値算出部580による平均値の算出処理は、平均値算出部510による算出処理と同一であるから説明を省略する。
以上、図6を参照して説明したように、本実施形態に係る施策決定システム40によれば、与えられた施策に対し累積報酬の確率分布を定めるパラメータを解析的に算出できる。これにより、様々な施策に対して繰返しパラメータを算出した場合であっても、計算に要する時間を少なくすることができる。
The scale
As described above with reference to FIG. 6, according to the
図7は、効率的フロンティア曲線60の一例を示す。表示制御部470は、複数の位置パラメータのそれぞれについて、位置パラメータとそれに対応して算出したスケールパラメータに基づくリスク指標値とによって表される座標に点を描画する。そして、描画した点と点とをスプライン補完などで結んだ曲線が効率的フロンティア曲線60となる。図7には、各エージェントから得られる報酬に相関がある場合において、ハースト指数の値を変化させた3つの場合について効率的フロンティア曲線を示す。詳細には、図の横軸は期待値を示し、縦軸はバリュー・アット・リスクを示し、ハースト指数が0.5の場合、0.556の場合、および、0.667の場合の3つの場合について効率的フロンティア曲線を図示する。
FIG. 7 shows an example of an
即ちたとえば、H=0.667について、効率的フロンティア曲線60上の点を選択すれば、何れの点を選択した場合であっても所定の期待値を得るためにリスクを最小化する施策を得ることができる。
このように、本実施形態における情報システム10によれば、遷移確率や1期間の報酬の分布などが与えられると、その環境下でリスクを最小化する施策を求めて、それら施策の集合をフロンティア曲線として表示することができる。これにより、利用者が自己のリスク許容度に応じて利益を最大化する施策を選択できるようになるなど、施策決定の柔軟性を高めることができる。
That is, for example, for H = 0.667, if a point on the
As described above, according to the
以下、図8から図9を参照しながら、更に詳細な処理について説明する。
図8は、施策決定システム40によって最適施策が決定される処理のフローチャートを示す。位置パラメータ範囲算出部400は、確率記憶部20に記憶された遷移確率、および、パラメータ記憶部30に記憶されたパラメータに基づいて、複数のエージェントから得られる累積報酬の確率分布を示す位置パラメータの最大値および最小値を算出する(S800)。この算出処理を式(15)に示す。
FIG. 8 shows a flowchart of processing in which the optimum measure is determined by the
以下、図4の場合分けと同様、位置パラメータの与え方に応じて異なる処理となるから、場合を分けて説明する。 Hereinafter, similar to the case of FIG. 4, different processing is performed depending on how the position parameter is given, and therefore the case will be described separately.
(1)それぞれの初期状態について位置パラメータを定める場合
位置パラメータ取得部410は、複数の状態のそれぞれについて、位置パラメータ範囲算出部400によって算出された最小値から最大値までの範囲内の値を、当該状態を初期状態とする複数のエージェントから得られるべき報酬の確率分布を示す位置パラメータとして取得する(S810)。取得する位置パラメータをMs objとし、その最小値をMs minとし、その最大値をMs maxとすると、以下の式(16)が満たされる。
次に、施策取得部420は、複数の状態のそれぞれについて、当該状態を初期状態とする複数のエージェントから得られる累積報酬の確率分布の位置パラメータを、取得した位置パラメータに一致させる施策のうち1つを生成し、その施策を初期施策として取得する(S820)。この初期施策は、位置パラメータを与えられた値と一致させれば充分であり、リスクを最小化するものであるかどうかは問わない。具体的には、例えば、施策取得部420は、以下の式(17)に示す制約を有し、所定の目的関数を有する線形計画問題を解くことにより、初期施策π(0) s,aを求めることができる。
次に、第1算出部430は、それぞれの状態について、当該状態を初期状態とする複数のエージェントから初期施策に従って行動した結果として得られる累積報酬の確率分布を示す位置パラメータおよびスケールパラメータを算出する(S830)。これは、1期間における報酬の確率分布に応じ、図6において説明した第1ユニット500、第2ユニット530または第3ユニット570によって算出される。次に、第2算出部440は、複数の状態のそれぞれについて、エージェントに対し取り得るそれぞれの行動の行動確率を変数とし、来期以降の累積報酬の確率分布におけるスケールパラメータが第1算出部430によって算出されたスケールパラメータに一致することを前提に当該スケールパラメータの値および当該変数に基づいて今期以降のスケールパラメータを求める目的関数の値を最小化する線形計画問題を解くことにより、それぞれの行動確率を定める施策を算出する(S840)。この線形計画問題は、それぞれの行動の行動確率に従って行動した結果として得られる累積報酬の確率分布の位置パラメータが、第1算出部430によって算出された位置パラメータに一致することを制約とする。また、同一状態に対するそれぞれの行動確率の和が1であり、それぞれの行動確率が0以上であることが制約となる。
Next, the
具体的には、第2算出部440は、まず、式(18)および式(19)の値を求める。
そして、これらの式の値を用いて、線形計画問題の目的関数は式(20)のように表される。また、線形計画問題の制約は式(21)のように表される。
なお、第2算出部440が最小化する目的関数の値は必ずしも論理的に最小値である必要は無い。例えば、第2算出部440は、この目的関数の値を最小化する方向で改善していくことにより、即ち、前回に第2算出部440によって算出されたスケールパラメータよりも小さい値を求めることにより、結果としてスケールパラメータを最小値の近傍に収束させればよい。
また、この線形計画問題は、行動に要する費用を当該行動の行動確率で重み付けして各行動について合計した値が予め定められた基準の予算(Cs)以下であることを更に制約としてもよい。この制約は式(22)として表される。
In addition, the linear programming problem may be further constrained by the fact that a value obtained by weighting the cost required for an action by the action probability of the action and totaling the actions is equal to or less than a predetermined reference budget (Cs). This constraint is expressed as equation (22).
収束判定部450は、第1算出部430により算出されたスケールパラメータと第2算出部440により算出されたスケールパラメータとが予め定められた範囲内の値に収束したかを判定する(S850)。収束したことを条件に(S850)、第2算出部440により算出された施策を出力部460に対し出力する。この際、第2算出部440は、算出されたスケールパラメータとそれに対応する位置パラメータとは、後にフロンティア曲線の描画に用いるため別途記録しておく。
The
一方、収束判定部450は、収束していないことを条件に(S850:NO)、第2算出部440により算出された施策を、前回に第2算出部440によって算出された施策(初回の場合には初期施策)に代えて第1算出部430に与える。この結果、第1算出部430は、与えられたこの施策に従い行動した結果として得られる累積報酬の確率分布の位置パラメータおよびスケールパラメータを更に算出する(S830)。また、式(20)および式(19)に示す目的関数において来期以降の累積報酬の前提としていた施策は、今回に第2算出部440によって算出された施策に置換えられ、新たな線形計画問題が生成され、当該新たな線形計画問題が第2算出部440によって解かれることとなる(S840)。
以上のS830からS850までの処理の繰返しにより、スケールパラメータが収束するまで施策π(1) s,a、π(2) s,a、…、π(n) s,aが順次算出される。スケールパラメータが収束したとき、そのスケールパラメータはリスクを最小化する施策によって得られる報酬のスケールパラメータとなる。
On the other hand, on the condition that the convergence is not converged (S850: NO), the
By repeating the processes from S830 to S850, measures π (1) s, a , π (2) s, a ,..., Π (n) s, a are sequentially calculated until the scale parameters converge. When the scale parameter converges, the scale parameter becomes a scale parameter of a reward obtained by a measure for minimizing the risk.
スケールパラメータが収束すると(S850:YES)、続いて、位置パラメータ範囲算出部400は、位置パラメータの値が取り得る範囲内において取得するべき位置パラメータが残っているかを判断する(S860)。残っていれば(S860:NO)、位置パラメータ範囲算出部400は、S810に処理を戻して次の位置パラメータを取得し、それに対応する最適施策を算出する。一方で、残っていなければ(S860:YES)、表示制御部470は、効率的フロンティア曲線を描画して利用者に表示する(S870)。この効率的フロンティア曲線は、エージェントの初期状態毎に描画される。
When the scale parameter converges (S850: YES), the position parameter
出力部460は、表示された曲線上の座標値が利用者により指定されたことに応じ、当該座標値によって表される位置パラメータおよびリスク指標の組を、当該位置パラメータおよび当該リスク指標によって示される確率分布の累積報酬を得るために第2算出部440によって算出された施策に対応付けて出力する(S880)。施策は、S850において収束が判定される毎に記録されたものであってもよいし、曲線上の座標値が指定されたことに応じて算出されるものであってもよい。例えば、出力部460は、利用者により指定された座標値が示す位置パラメータを位置パラメータ取得部410に与えて取得させることにより、S810からS850までの処理を再度行わせ、スケールパラメータが収束した時点の施策を出力してもよい。
The
以上が、それぞれの初期状態について位置パラメータを定める(1)の場合の処理である。これにより、利用者は、例えば顧客セグメント(即ち初期状態)毎に最適施策を決定することができる。
続いて、全ての初期状態についての総報酬の位置パラメータを定める場合について説明する。
The above is the processing in the case of (1) for determining the position parameter for each initial state. Thereby, the user can determine the optimum measure for each customer segment (that is, the initial state), for example.
Next, the case where the position parameter of the total reward for all initial states is determined will be described.
(2)全ての初期状態についての総報酬の位置パラメータを定める場合
位置パラメータ取得部410は、それぞれが異なる状態を初期状態として取り得る複数のエージェントから得られる累積報酬の合計の確率分布を示す位置パラメータの取得する(S810)。この位置パラメータMobjは以下の式(23)によって表される。ただし、wsを、初期状態を状態sとするエージェントの割合とする。wsは、例えばマーケティング等の例における顧客の人数であってよい。
また、この位置パラメータは、それぞれの状態を初期状態とするエージェントから得られる報酬の確率分布の位置パラメータの最小値に、当該状態を初期状態とするエージェントの割合として予め与えられた値によって重み付けした合計以上の値であることが望ましい。また、この位置パラメータは、それぞれの状態を初期状態とするエージェントから得られる報酬の確率分布の位置パラメータの最大値に、当該状態を初期状態とするエージェントの割合として予め与えられた値によって重み付けした合計以下の値であることが望ましい。即ち、この位置パラメータMobjの範囲は以下の式(24)によって表される。
施策取得部420は、複数のエージェントから得られる累積報酬の合計の確率分布を示す位置パラメータを、取得した位置パラメータと一致させる施策のうち1つを生成し、初期施策として取得する(S820)。この初期施策は、位置パラメータを与えられた値と一致させれば充分であり、リスクを最小化するものであるかどうかは問わない。例えば、施策取得部420は、まず、それぞれの状態sについて、その状態を初期状態とする場合の累積報酬の確率分布の位置パラメータが採りうる範囲内の値であって、それぞれの値を重みwsで重み付けして合計すると位置パラメータMobjとなるMs tmpを生成する。例えば、施策取得部420は、以下の式(25)によってMs tmpを算出することができる。
そして、施策取得部420は、以下の式(26)に示す制約を満たす初期施策π(0) s,aを状態s毎に求める。これは、式(26)に示す制約を有する線形計画問題を解くことによって実現される。
そして、第2算出部440は、エージェントに対して取り得るそれぞれの行動の行動確率を変数とし、複数の状態のそれぞれを初期状態とするエージェントから得られる総報酬の確率分布におけるスケールパラメータを求める目的関数の値を最小化する線形計画問題を解く。そしてこの目的関数は、複数の状態のそれぞれについて、来期以降の累積報酬の確率分布におけるスケールパラメータが第1算出部430によって算出されたスケールパラメータに一致することを前提に当該スケールパラメータの値に基づきそれぞれの状態を初期状態として当該行動確率に従って行動した結果として得られる今期以降の累積報酬の確率分布のスケールパラメータを求め、当該状態を初期状態とするエージェントの数で重み付けして合計する関数である。この結果、第2算出部440は、目的関数の値を最小化するそれぞれの行動確率を定める施策を算出することができる。詳細には、この線形計画問題の目的関数は式(29)によって表される。
この目的関数は、来期以降の累積報酬の確率分布におけるスケールパラメータを固定、つまり、来期以降の行動確率は、前回に第2算出部440で算出された施策(初回の場合は初期施策)によって定められることを前提としている。そして、この目的関数は、今期の行動確率のみを変数である行動確率で置換えた場合に得られる新たな累積報酬の確率分布におけるスケールパラメータを算出している。
また、この線形計画問題は、それぞれの状態を初期状態として当該行動確率に従って行動した結果として得られる累積報酬の確率分布の位置パラメータを、当該状態を初期状態とするエージェントの数で重み付けして合計した値が、第1算出部430によって算出された位置パラメータに一致する制約を有する。また、同一状態に対する行動確率の合計が1となり、それぞれの行動確率が0以上となる制約を有する。これらの制約は式(30)によって表される。
In addition, this linear programming problem is calculated by weighting the position parameter of the probability distribution of the cumulative reward obtained as a result of acting according to the action probability with each state as the initial state, weighted by the number of agents having the state as the initial state. The obtained value has a constraint that matches the position parameter calculated by the
また、この線形計画問題は、行動に要する費用を当該行動の行動確率およびそれぞれの状態を初期状態とするエージェントの割合で重み付けして、それぞれの状態および行動の組合せについて合計した値が、予め定められた基準の予算Ctotal以下であることを更に制約として有していてもよい。この制約は以下の式(31)として表される。
収束判定部450は、第1算出部430により算出されたスケールパラメータと第2算出部440により算出されたスケールパラメータとが予め定められた範囲内の値に収束したかを判定する(S850)。収束判定部450は、収束していないことを条件に(S850:NO)、第2算出部440により算出された施策を第2算出部440により前回に算出された施策(初回の場合には初期施策)に代えて第1算出部430に与える。これにより、第1算出部430は、この施策に従い行動した結果として得られる累積報酬の確率分布の位置パラメータおよびスケールパラメータを更に算出する(S830)。また、式(29)および式(28)に示す目的関数おいて来期以降の累積報酬の前提としていた施策は、今回に第2算出部440によって算出された施策に置換えられ、新たな線形計画問題が生成され、当該新たな線形計画問題が第2算出部440によって解かれることとなる(S840)。
The
一方、スケールパラメータが収束したことを条件に(S850:YES)、収束判定部450は、収束したスケールパラメータおよびそれに対応する位置パラメータを、S840において算出された施策に対応付けて別途記憶する。続いて、位置パラメータ範囲算出部400は、位置パラメータの値が取り得る範囲内において取得するべき位置パラメータが残っているかを判断する(S860)。残っていれば(S860:NO)、位置パラメータ範囲算出部400は、S810に処理を戻して次の位置パラメータを取得し、それに対応する最適施策を算出する。一方で、残っていなければ(S860:YES)、表示制御部470は、効率的フロンティア曲線を描画して利用者に表示する(S870)。この効率的フロンティア曲線は、上記(1)の場合とは異なり1つのみが描画される。
On the other hand, on the condition that the scale parameter has converged (S850: YES), the
出力部460は、表示された曲線上の座標値が利用者により指定されたことに応じ、当該座標値によって表される位置パラメータおよびリスク指標の組を、当該位置パラメータおよび当該リスク指標によって示される確率分布の累積報酬を得るために第2算出部440によって算出された施策に対応付けて出力する(S880)。施策は、S850において収束が判定される毎に記録されたものであることが望ましい。S830からS850までに示した計算手順については、リスクを最小化することは保証されるものの、S810において取得された位置パラメータが、S840において算出された施策によってもたらされる報酬の確率分布の位置パラメータと必ずしも一致しないからである。
The
以上が、様々な初期状態を有するエージェントから得られる総報酬について位置パラメータを定める(2)の場合の処理である。これにより、利用者は、顧客セグメントが多いため個々に位置パラメータを定めるのが困難な場合であっても、報酬額全体とリスクとの関係を最適とする施策を決定することができる。 The above is the processing in the case of (2) for determining the position parameter for the total reward obtained from the agent having various initial states. As a result, the user can determine a measure that optimizes the relationship between the entire reward amount and the risk even when it is difficult to determine the position parameters individually because there are many customer segments.
図9は、S830における処理の詳細を示すフローチャートである。図9で対象とするのは、複数のエージェントから1期間に得られる報酬の合計について、(A)分散が有限(即ち正規分布)でありエージェント同士が独立の場合、(B)分散が無限大でもよいがエージェント同士が独立の場合、(C)分散が有限でありエージェント同士がハースト指数に従って相関を有する場合について、施策からスケールパラメータを求める処理である。以下、それぞれについて述べる。 FIG. 9 is a flowchart showing details of the processing in S830. The target in FIG. 9 is (A) when the variance is finite (that is, normal distribution) and the agents are independent with respect to the total reward obtained from a plurality of agents in one period. (B) The variance is infinite. However, in the case where the agents are independent, (C) a process for obtaining a scale parameter from the measure in the case where the variance is finite and the agents have a correlation according to the Hurst index. Each will be described below.
第1算出部430は、複数のエージェントから1期間に得られる報酬の分散値が有限かを判断する(S900)。分散値が有限の場合は(S900:YES)、第1算出部430は、それぞれのエージェントから得られる報酬の報酬額が独立かを判断する(S910)。報酬額が独立の場合(S910:YES)、第1算出部430は、第1ユニット500によって累積報酬の確率分布の平均値および分散値を算出させる(S920)。この算出処理は、上述の式(4)および式(5)の連立方程式を解くことによって実現される。これらの方程式は式(32)として表される。即ち、第1ユニット500は、式(32)に示すMについての方程式と、Sについての方程式とを、LU分解法やガウスの消去法などの既存の数値解法によって解くことにより、累積報酬の確率分布を定めるパラメータを算出することができる。
但し、式(33)に示すように、M、S2、μ、およびσは、状態の数|S|次のベクトルであり、Pは|S|×|S|の行列である。
一方、分散が有限でなくともよい場合には(S900:NO)、第1算出部430は、第2ユニット530によって累積報酬の確率分布を定めるパラメータを算出させる(S930)。この算出処理は、上述の式(9)および式(10)に示す方程式を解くことによって実現される。これらの方程式は以下の式(34)として表される。即ち、第2ユニット530は、式(34)に示すMについての方程式と、Sについての方程式とを、LU分解法やガウスの消去法などの既存の数値解法によって解くことにより、累積報酬の確率分布を定める位置パラメータおよびスケールパラメータを算出することができる。
また、第2ユニット530は、以下の式(36)に示す方程式を解くことによって、歪度ΒとスケールパラメータSとの積を算出する。但し、各変数の定義は式(37)に定める。
そして、第2ユニット530は、式(38)を計算することによって歪度Βを算出することができる。
一方、エージェント同士に相関がある場合には(S910:NO)、第1算出部430は、第3ユニット570によって累積報酬の確率分布を定めるパラメータを算出させる(S940)。この算出処理は、上記の式(4)と式(14)との連立方程式を解くことによって実現される。これらの方程式は式(39)として表される。即ち、第3ユニット570は、式(39)に示すMについての方程式と、Sについての方程式とを、LU分解法やガウスの消去法などの既存の数値解法によって解くことにより、累積報酬の確率分布を定めるパラメータを算出することができる。
但し、式(40)に示すように、M、S2、μ、およびσは、状態の数|S|次のベクトルであり、Pは|S|×|S|の行列である。
図10は、情報システム10として機能する情報処理装置600のハードウェア構成の一例を示す。情報処理装置600は、ホストコントローラ1082により相互に接続されるCPU1000、RAM1020、及びグラフィックコントローラ1075を有するCPU周辺部と、入出力コントローラ1084によりホストコントローラ1082に接続される通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を有する入出力部と、入出力コントローラ1084に接続されるROM1010、フレキシブルディスクドライブ1050、及び入出力チップ1070を有するレガシー入出力部とを備える。
FIG. 10 illustrates an example of a hardware configuration of the
ホストコントローラ1082は、RAM1020と、高い転送レートでRAM1020をアクセスするCPU1000及びグラフィックコントローラ1075とを接続する。CPU1000は、ROM1010及びRAM1020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ1075は、CPU1000等がRAM1020内に設けたフレームバッファ上に生成する画像データを取得し、表示装置1080上に表示させる。これに代えて、グラフィックコントローラ1075は、CPU1000等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。
The
入出力コントローラ1084は、ホストコントローラ1082と、比較的高速な入出力装置である通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を接続する。通信インターフェイス1030は、ネットワークを介して外部の装置と通信する。ハードディスクドライブ1040は、情報処理装置600が使用するプログラム及びデータを格納する。CD−ROMドライブ1060は、CD−ROM1095からプログラム又はデータを読み取り、RAM1020又はハードディスクドライブ1040に提供する。
The input /
また、入出力コントローラ1084には、ROM1010と、フレキシブルディスクドライブ1050や入出力チップ1070等の比較的低速な入出力装置とが接続される。ROM1010は、情報処理装置600の起動時にCPU1000が実行するブートプログラムや、情報処理装置600のハードウェアに依存するプログラム等を格納する。フレキシブルディスクドライブ1050は、フレキシブルディスク1090からプログラム又はデータを読み取り、入出力チップ1070を介してRAM1020またはハードディスクドライブ1040に提供する。入出力チップ1070は、フレキシブルディスク1090や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。
The input /
情報処理装置600に提供されるプログラムは、フレキシブルディスク1090、CD−ROM1095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、入出力チップ1070及び/又は入出力コントローラ1084を介して、記録媒体から読み出され情報処理装置600にインストールされて実行される。プログラムが情報処理装置600等に働きかけて行わせる動作は、図1から図9において説明した情報システム10における動作と同一であるから、説明を省略する。
A program provided to the
以上に示したプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1090、CD−ROM1095の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムを情報処理装置600に提供してもよい。
The program shown above may be stored in an external storage medium. As the storage medium, in addition to the
以上、本実施形態に係る情報システム10によれば、複数のエージェントに対する最適な施策を求めることができるので、マーケティングなどの現実の課題に対し適切な解を与えることができる。また、期待するリターンのみならずリスクや予算を充分に考慮した施策を求めることができ、現実の課題への適用を容易とすることができる。また、決定的施策ではなく確率的施策を求めることができるので、同一状態に対し取り得る行動を混在させることができる。これにより、より最適な施策を求めることを可能とすることができる。また、それぞれのエージェントが独立の場合のみならず相関を持って行動する場合も考慮し、より現実に即した課題について施策を決定できる。
As described above, according to the
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。 As mentioned above, although this invention was demonstrated using embodiment, the technical scope of this invention is not limited to the range as described in the said embodiment. It will be apparent to those skilled in the art that various modifications or improvements can be added to the above-described embodiment. It is apparent from the scope of the claims that the embodiments added with such changes or improvements can be included in the technical scope of the present invention.
10 情報システム
20 確率記憶部
30 パラメータ記憶部
40 施策決定システム
60 効率的フロンティア曲線
70 最適施策
400 位置パラメータ範囲算出部
410 位置パラメータ取得部
420 施策取得部
430 第1算出部
440 第2算出部
450 収束判定部
460 出力部
470 表示制御部
500 第1ユニット
510 平均値算出部
520 分散値算出部
530 第2ユニット
540 歪度算出部
550 位置パラメータ算出部
560 スケールパラメータ算出部
570 第3ユニット
580 平均値算出部
590 スケールパラメータ算出部
600 情報処理装置
10
Claims (11)
エージェントが採り得る複数の状態のそれぞれについて、当該状態のエージェントに対しそれぞれの行動を取った場合にそれぞれの状態に遷移する遷移確率を記憶している確率記憶部と、
前記複数の状態のそれぞれについて、それぞれが共に当該状態である前記複数のエージェントに対しそれぞれの行動を取った結果それぞれの状態に遷移した場合に得られる報酬の確率分布のパラメータを記憶しているパラメータ記憶部と、
前記複数の状態のそれぞれに対応付けて、当該状態のエージェントに対しそれぞれの行動を取る行動確率を定めた施策を取得する施策取得部と、
前記複数のエージェントから今期以降に得られる累積報酬の確率分布のパラメータを、今期の行動の前記行動確率および来期の状態への前記遷移確率により、今期の行動によって得られる報酬の確率分布のパラメータおよび来期の状態から来期以降に得られる累積報酬の確率分布のパラメータに基づく値を重み付けして、それぞれの行動および来期の状態について合計して算出する漸化式を生成し、当該漸化式において今期以降と来期以降とで初期状態が同一ならば累積報酬の確率分布のパラメータが同一値に収束するとみなした方程式を解くことにより、当該パラメータを算出する第1算出部と、
算出した前記パラメータを、累積報酬の確率分布を示す情報として出力する出力部と
を備えるシステム。 A system for calculating a probability distribution of cumulative rewards obtained as a result of sequentially taking a plurality of actions for a plurality of agents,
For each of a plurality of states that an agent can take, a probability storage unit that stores transition probabilities of transition to each state when each action is taken with respect to the agent in the state;
For each of the plurality of states, a parameter storing a parameter of a probability distribution of rewards obtained when transition is made to each state as a result of taking action for each of the plurality of agents that are in the state. A storage unit;
In association with each of the plurality of states, a measure acquisition unit that acquires a measure that determines the action probability of taking each action against the agent in the state,
The probability distribution parameters of cumulative rewards obtained from the plurality of agents from this term onward are the parameters of the probability distribution of the rewards obtained by this term behavior based on the behavior probability of this term behavior and the transition probability to the state of the next term, and by weighting the value based on the parameters of the probability distribution of the cumulative reward from next term of the state obtained after the next fiscal year, to generate a recurrence formula to calculate the sum for each of the behavior and the next term of the state, this term in the recurrence formula A first calculation unit that calculates the parameter by solving an equation that the parameters of the cumulative reward probability distribution converge to the same value if the initial state is the same in the following and subsequent periods;
An output unit that outputs the calculated parameter as information indicating a probability distribution of cumulative reward.
前記第1算出部は、
前記複数のエージェントから今期以降に得られる累積報酬の平均値を、今期の行動の前記行動確率および来期の状態への前記遷移確率により、来期の状態から来期以降に得られる累積報酬の平均値に割引率を乗じて今期の行動によって得られる報酬の平均値を加えた値を重み付けして、それぞれの行動および来期の状態について合計して算出する漸化式に基づき、今期以降の累積報酬の平均値を算出する平均値算出部と、
前記複数のエージェントから今期以降に得られる累積報酬の分散値を、今期の行動の前記行動確率および来期の状態への前記遷移確率により、来期の状態から来期以降に得られる累積報酬の分散値に割引率の2乗を乗じて今期の行動によって得られる報酬の分散値を加えた値を重み付けして、それぞれの行動および来期の状態について合計して算出する漸化式に基づき、今期以降の累積報酬の分散値を算出する分散値算出部と
を有する請求項1に記載のシステム。 The parameter storage unit stores an average value and a variance value of rewards as the parameters of the probability distribution of rewards when the sum of rewards obtained from the plurality of agents follows a normal distribution.
The first calculation unit includes:
The average value of accumulated rewards obtained from the plurality of agents after this term is changed to the average value of accumulated rewards obtained from the next term to the next term based on the behavior probability of this term and the transition probability to the next term. Based on a recurrence formula that is calculated by multiplying the discount rate and adding the average value of rewards for this period's actions and summing up each action and the state of the next period, the average of accumulated rewards for this period and beyond An average value calculation unit for calculating a value;
The variance value of the cumulative reward obtained from the plurality of agents after this term is changed to the variance value of the cumulative reward obtained from the next term to the next term based on the behavior probability of the behavior of this term and the transition probability to the next term. Accumulated after the current term based on a recurrence formula that is calculated by multiplying the discount rate squared and adding the variance value of the rewards obtained by this term's behavior and summing up the status of each behavior and next term The system according to claim 1, further comprising: a variance value calculation unit that calculates a variance value of the reward.
前記第1算出部は、
前記複数のエージェントから今期以降に得られる累積報酬の平均値を、今期の行動の前記行動確率および来期の状態への前記遷移確率により、来期の状態から来期以降に得られる累積報酬の平均値に割引率を乗じて今期の行動によって得られる報酬の平均値を加えた値を重み付けして、それぞれの行動および来期の状態について合計して算出する漸化式に基づき、今期以降の累積報酬の平均値を算出する平均値算出部と、
前記複数のエージェントから今期以降に得られる累積報酬の確率分布のスケールパラメータを、今期の行動の前記行動確率および来期の状態への前記遷移確率により、来期の状態から来期以降に得られる累積報酬の確率分布のスケールパラメータに割引率を前記相関指標値の逆数で累乗した値を乗じて今期の行動によって得られる報酬の確率分布のスケールパラメータを加えた値を重み付けして、それぞれの行動および来期の状態について合計して算出する漸化式に基づき、今期以降の累積報酬の確率分布のスケールパラメータを算出するスケールパラメータ算出部と
を有する請求項2に記載のシステム。 The parameter storage unit obtains the average value of the reward, the variance value, and the reward obtained from each of the agents from each of the other agents when the total of the rewards obtained from the plurality of agents follows a normal distribution. Memorize the correlation index value indicating the degree of correlation with the reward,
The first calculation unit includes:
The average value of accumulated rewards obtained from the plurality of agents after this term is changed to the average value of accumulated rewards obtained from the next term to the next term based on the behavior probability of this term and the transition probability to the next term. Based on a recurrence formula that is calculated by multiplying the discount rate and adding the average value of rewards for this period's actions and summing up each action and the state of the next period, the average of accumulated rewards for this period and beyond An average value calculation unit for calculating a value;
The scale parameter of the probability distribution of cumulative rewards obtained from the plurality of agents from this term onward is used to calculate the cumulative rewards obtained from the next term from the next term onwards, based on the behavior probability of the current term and the transition probability to the next state . by weighting the value obtained by adding the scale parameter of the probability distribution of compensation obtained by this term behavioral scale parameter to the discount rate of the probability distribution is multiplied by the value raised to the power of a reciprocal of the correlation index value of each behavior and the next term The system according to claim 2, further comprising: a scale parameter calculation unit that calculates a scale parameter of a probability distribution of cumulative rewards from this term on the basis of a recurrence formula that is calculated by summing up the states.
前記第1算出部は、
前記複数のエージェントから今期以降に得られる累積報酬の確率分布の歪度を、今期の行動の前記行動確率および来期の状態への前記遷移確率により、今期の行動によって得られる報酬の確率分布の歪度およびスケールパラメータ並びに来期の状態から来期以降に得られる累積報酬の確率分布の歪度およびスケールパラメータに基づく値を重み付けして、それぞれの行動および来期の状態について合計して算出する漸化式に基づき、今期以降の累積報酬の確率分布の歪度を算出する歪度算出部と、
前記複数のエージェントから今期以降に得られる累積報酬の確率分布の位置パラメータを、今期の行動の前記行動確率および来期の状態への前記遷移確率により、来期の状態から来期以降に得られる累積報酬の確率分布の位置パラメータに割引率を乗じて今期の行動によって得られる報酬の確率分布の位置パラメータを加えた値を重み付けして、それぞれの行動および来期の状態について合計して算出する漸化式に基づき、今期以降の累積報酬の確率分布の位置パラメータを算出する位置パラメータ算出部と、
前記複数のエージェントから今期以降に得られる累積報酬の確率分布のスケールパラメータを、今期の行動の前記行動確率および来期の状態への前記遷移確率により、来期の状態から来期以降に得られる累積報酬の確率分布のスケールパラメータに割引率を特性指数の値で累乗した値を乗じて今期の行動によって得られる報酬の確率分布のスケールパラメータを加えた値を重み付けして、それぞれの行動および来期の状態について合計して算出する漸化式に基づき、今期以降の累積報酬の確率分布のスケールパラメータを算出するスケールパラメータ算出部と
を有する請求項1に記載のシステム。 When the probability distribution of rewards obtained from the plurality of agents follows a stable distribution, the parameter storage unit includes a characteristic index indicating a degree of probability density attenuation in a region where the reward is large in the stable distribution, and an asymmetry of the distribution in the stable distribution Memorizes the skewness indicating the stability, the position parameter of the stable distribution, and the scale parameter of the stable distribution,
The first calculation unit includes:
The skewness of the probability distribution of cumulative rewards obtained from the plurality of agents from this term onward is calculated based on the behavior probability of the current term and the transition probability to the state of the next term. The recurrence formula is calculated by weighting the degree and scale parameters and the value based on the skewness of the probability distribution of cumulative rewards obtained from the next term onward and the scale parameters and the scale parameters, and summing up each behavior and next state. Based on the skewness calculation unit that calculates the skewness of the probability distribution of the cumulative reward from this term,
The position parameter of the probability distribution of cumulative rewards obtained from the plurality of agents from the current term onward is calculated based on the behavioral probability of the current behavior and the transition probability to the next state . A recurrence formula that calculates the sum of each behavior and the state of the next term by weighting the value obtained by multiplying the location parameter of the probability distribution by the discount rate and adding the location parameter of the probability distribution of the reward obtained by this behavior. Based on the position parameter calculation unit for calculating the position parameter of the cumulative reward probability distribution from this term,
The scale parameter of the probability distribution of cumulative rewards obtained from the plurality of agents from this term onward is used to calculate the cumulative rewards obtained from the next term from the next term onwards, based on the behavior probability of the current term and the transition probability to the next state . by weighting the value obtained by adding the scale parameter of the probability distribution of compensation obtained by this term behavior is multiplied by the value raised to the power of the scale parameter to the discount rate of the probability distribution in the value of the quality index for each of the behavior and the next term of the state The system according to claim 1, further comprising: a scale parameter calculation unit that calculates a scale parameter of a probability distribution of cumulative rewards from this term on the basis of a recurrence formula calculated in total.
前記施策取得部は、前記複数の状態のそれぞれについて、当該状態を初期状態とする前記複数のエージェントから得られる累積報酬の確率分布の位置パラメータを、取得した前記位置パラメータに一致させる施策のうち1つを生成し、初期施策として取得し、
前記第1算出部は、前記初期施策に従って行動した結果として前記複数のエージェントから得られる累積報酬の確率分布の位置パラメータおよびスケールパラメータを算出し、
当該システムは、
前記複数の状態のそれぞれについて、エージェントに対し取り得るそれぞれの行動の行動確率を変数とし、当該行動確率に従って行動した結果として得られる累積報酬の確率分布の位置パラメータが、前記第1算出部によって算出された位置パラメータに一致する制約の下、来期以降の累積報酬の確率分布のスケールパラメータが前記第1算出部によって算出されたスケールパラメータに一致することを前提に当該スケールパラメータの値に基づき今期以降の累積報酬の確率分布のスケールパラメータを算出する目的関数の値を最小化する線形計画問題を解くことにより、それぞれの行動確率を定める施策を算出する第2算出部と、
前記第1算出部により算出されたスケールパラメータと前記第2算出部により算出されたスケールパラメータとが予め定められた範囲内の値に収束したことを条件に、前記第2算出部により算出された施策を出力し、収束していないことを条件に、前記第2算出部により算出された施策を前記初期施策に代えて前記第1算出部に与え、当該施策に従い行動した結果として得られる累積報酬の確率分布の位置パラメータおよびスケールパラメータを算出させる収束判定部と
を更に備える請求項1に記載のシステム。 For each of the plurality of states, further comprising a position parameter acquisition unit that acquires a position parameter of a probability distribution of rewards to be obtained from the plurality of agents having the state as an initial state,
For each of the plurality of states, the measure acquisition unit includes one of the measures for matching the position parameter of the probability distribution of the cumulative reward obtained from the plurality of agents having the state as an initial state with the acquired position parameter. Generated as an initial measure,
The first calculation unit calculates a position parameter and a scale parameter of a probability distribution of cumulative rewards obtained from the plurality of agents as a result of acting according to the initial measure,
The system
With respect to each of the plurality of states, the behavior probability of each action that can be taken with respect to the agent is used as a variable, and the position parameter of the probability distribution of the cumulative reward obtained as a result of acting according to the action probability is calculated by the first calculation unit. Based on the value of the scale parameter based on the value of the scale parameter on the assumption that the scale parameter of the probability distribution of the cumulative reward from the next period matches the scale parameter calculated by the first calculation unit by solving the linear programming problem to minimize the value of the objective function for calculating the scale parameter of the probability distribution of cumulative rewards, a second calculation unit for calculating a measure for determining the respective action probability,
Calculated by the second calculation unit on condition that the scale parameter calculated by the first calculation unit and the scale parameter calculated by the second calculation unit have converged to a value within a predetermined range. Cumulative reward obtained as a result of giving a measure calculated by the second calculation unit to the first calculation unit instead of the initial measure and acting in accordance with the measure, on the condition that the measure is output and has not converged The system according to claim 1, further comprising: a convergence determination unit that calculates a position parameter and a scale parameter of the probability distribution.
前記位置パラメータ取得部は、算出された前記最小値から前記最大値までの範囲内の値の入力を受け付け、当該範囲外の値の入力を受け付けない
請求項5に記載のシステム。 Based on the transition probability stored in the probability storage unit and the parameter stored in the parameter storage unit, the maximum value and the minimum value of the position parameter of the probability distribution of the cumulative reward obtained from the plurality of agents are determined. A position parameter range calculation unit for calculating,
The system according to claim 5, wherein the position parameter acquisition unit accepts an input of a value within a range from the calculated minimum value to the maximum value, and does not accept an input of a value outside the range.
請求項5または6に記載のシステム。 The second calculation unit further adds a constraint that a value obtained by weighting the cost required for an action by the action probability of the action and totaling each action is equal to or less than a predetermined reference budget, and the linear programming problem The system according to claim 5 or 6 .
前記施策取得部は、前記複数のエージェントから得られる累積報酬の合計の確率分布の位置パラメータを、取得した前記位置パラメータと一致させる施策のうち1つを生成し、初期施策として取得し、
前記第1算出部は、前記初期施策に従って行動した結果として前記複数のエージェントから得られる累積報酬の確率分布の位置パラメータおよびスケールパラメータを算出し、
当該システムは、
前記複数の状態のそれぞれについて、エージェントに対し取り得るそれぞれの行動の行動確率を変数とし、それぞれの状態を初期状態として当該行動確率に従って行動した結果として得られる累積報酬の確率分布の位置パラメータを、当該状態を初期状態とするエージェントの数で重み付けして合計した値が、前記第1算出部によって算出された位置パラメータに一致する制約の下、来期以降の累積報酬の確率分布のスケールパラメータが前記第1算出部によって算出されたスケールパラメータに一致することを前提に当該スケールパラメータの値に基づきそれぞれの状態を初期状態として当該行動確率に従って行動した結果として得られる今期以降の累積報酬の確率分布のスケールパラメータを求め、当該状態を初期状態とするエージェントの数で重み付けして合計する目的関数の値を最小化する線形計画問題を解くことにより、それぞれの行動確率を定める施策を算出する第2算出部と、
前記第1算出部により算出されたスケールパラメータと前記第2算出部により算出されたスケールパラメータとが予め定められた範囲内の値に収束したことを条件に、前記第2算出部により算出された施策を出力し、収束していないことを条件に、前記第2算出部により算出された施策を前記初期施策に代えて前記第1算出部に与え、当該施策に従い行動した結果として得られる累積報酬の確率分布の位置パラメータおよびスケールパラメータを算出させる収束判定部と
を更に備える請求項1に記載のシステム。 A position parameter acquisition unit that acquires a position parameter of a probability distribution of a total cumulative reward obtained from the plurality of agents, each of which can take a different state as an initial state;
The measure acquisition unit generates one of the measures for matching the position parameter of the total probability distribution of cumulative rewards obtained from the plurality of agents with the acquired position parameter, and acquires it as an initial measure,
The first calculation unit calculates a position parameter and a scale parameter of a probability distribution of cumulative rewards obtained from the plurality of agents as a result of acting according to the initial measure,
The system
For each of the plurality of states, the action probability of each action that can be taken with respect to the agent as a variable, the position parameter of the probability distribution of the cumulative reward obtained as a result of acting according to the action probability with each state as an initial state, The scale parameter of the probability distribution of the cumulative reward from the next term is the constraint that the sum of weighted by the number of agents having the state as the initial state matches the position parameter calculated by the first calculation unit. Based on the value of the scale parameter on the assumption that it matches the scale parameter calculated by the first calculation unit, the probability distribution of cumulative rewards from this term obtained as a result of acting according to the action probability with each state as the initial state An agent that obtains the scale parameter and sets that state as the initial state By solving the linear programming problem to minimize the value of the objective function of total weighted by the number, a second calculation unit for calculating a measure for determining the respective action probability,
Calculated by the second calculation unit on condition that the scale parameter calculated by the first calculation unit and the scale parameter calculated by the second calculation unit have converged to a value within a predetermined range. Cumulative reward obtained as a result of giving a measure calculated by the second calculation unit to the first calculation unit instead of the initial measure and acting in accordance with the measure, on the condition that the measure is output and has not converged The system according to claim 1, further comprising: a convergence determination unit that calculates a position parameter and a scale parameter of the probability distribution.
前記出力部は、表示された曲線上の座標値が利用者により指定されたことに応じ、当該座標値によって表される位置パラメータおよびリスク指標の組を、当該位置パラメータおよび当該リスク指標によって示される確率分布の累積報酬を得るために前記第2算出部により算出された施策に対応付けて出力する
請求項5から8のいずれか一項に記載のシステム。 Each time the position parameter is acquired, on the plane composed of the coordinate axis indicating the position parameter and the coordinate axis indicating the risk index value, the coordinates represented by the acquired risk parameter value based on the acquired position parameter and the converged scale parameter It further includes a display control unit that sequentially draws points on the value and draws and displays a curve by complementing between the drawn points.
The output unit indicates a set of a position parameter and a risk index represented by the coordinate value by the position parameter and the risk index when a coordinate value on the displayed curve is designated by the user. The system according to any one of claims 5 to 8, wherein an output is made in association with the measure calculated by the second calculation unit in order to obtain a cumulative reward of the probability distribution.
前記システムは、
エージェントが採り得る複数の状態のそれぞれについて、当該状態のエージェントに対しそれぞれの行動を取った場合にそれぞれの状態に遷移する遷移確率を確率記憶部に記憶し、
前記複数の状態のそれぞれについて、それぞれが共に当該状態である前記複数のエージェントに対しそれぞれの行動を取った結果それぞれの状態に遷移した場合に得られる報酬の確率分布のパラメータをパラメータ記憶部に記憶し、
当該方法は、
前記システムの施策取得部が、前記複数の状態のそれぞれに対応付けて、当該状態のエージェントに対しそれぞれの行動を取る行動確率を定めた施策を取得するステップと、
前記システムの第1算出部が、前記複数のエージェントから今期以降に得られる累積報酬の確率分布のパラメータを、今期の行動の前記行動確率および来期の状態への前記遷移確率により、今期の行動によって得られる報酬の確率分布のパラメータおよび来期の状態から来期以降に得られる累積報酬の確率分布のパラメータに基づく値を重み付けして、それぞれの行動および来期の状態について合計して算出する漸化式を生成し、当該漸化式において今期以降と来期以降とで初期状態が同一ならば累積報酬の確率分布のパラメータが同一値に収束するとみなした方程式を解くことにより、当該パラメータを算出するステップと、
前記システムの出力部が、算出した前記パラメータを、累積報酬の確率分布を示す情報として出力するステップと
を備える方法。 A method of calculating a probability distribution of cumulative rewards obtained as a result of sequentially taking a plurality of actions for a plurality of agents by a system ,
The system
For each of a plurality of states in which the agent can take stores the transition probabilities of transition to each state when taking the respective actions to the agent of the state probability memory unit,
For each of said plurality of states, each stored together with parameters of the probability distribution of reward obtained when the transition to the plurality of agents is the state to each of the actions of taking the results of each state in the parameter storage unit And
The method is
A step in which the measure acquisition unit of the system associates with each of the plurality of states and acquires a measure that defines an action probability of taking an action with respect to the agent in the state;
The first calculation unit of the system determines a parameter of a probability distribution of cumulative rewards obtained from the plurality of agents from this term onward, based on the behavior probability of this term and the transition probability to the state of the next term, according to the behavior of this term. A recurrence formula that weights values based on the probability distribution parameter of the reward and the value based on the parameter of the probability distribution of the cumulative reward obtained from the next period onward, and sums up each action and the state of the next period. Generating and calculating the parameter by solving the equation that the probability distribution parameter of the cumulative reward converges to the same value if the initial state is the same in the recurrence formula from the current term and the next term in the recurrence formula; and
A method in which the output unit of the system outputs the calculated parameter as information indicating a probability distribution of a cumulative reward.
前記情報処理装置を、
エージェントが採り得る複数の状態のそれぞれについて、当該状態のエージェントに対しそれぞれの行動を取った場合にそれぞれの状態に遷移する遷移確率を記憶している確率記憶部と、
前記複数の状態のそれぞれについて、それぞれが共に当該状態である前記複数のエージェントに対しそれぞれの行動を取った結果それぞれの状態に遷移した場合に得られる報酬の確率分布のパラメータを記憶しているパラメータ記憶部と、
前記複数の状態のそれぞれに対応付けて、当該状態のエージェントに対しそれぞれの行動を取る行動確率を定めた施策を取得する施策取得部と、
前記複数のエージェントから今期以降に得られる累積報酬の確率分布のパラメータを、今期の行動の前記行動確率および来期の状態への前記遷移確率により、今期の行動によって得られる報酬の確率分布のパラメータおよび来期の状態から来期以降に得られる累積報酬の確率分布のパラメータに基づく値を重み付けして、それぞれの行動および来期の状態について合計して算出する漸化式を生成し、当該漸化式において今期以降と来期以降とで初期状態が同一ならば累積報酬の確率分布のパラメータが同一値に収束するとみなした方程式を解くことにより、当該パラメータを算出する第1算出部と、
算出した前記パラメータを、累積報酬の確率分布を示す情報として出力する出力部と
して機能させるプログラム。 A program for causing an information processing device to function as a system for calculating a probability distribution of cumulative rewards obtained as a result of sequentially taking a plurality of actions for a plurality of agents,
The information processing apparatus;
For each of a plurality of states that an agent can take, a probability storage unit that stores transition probabilities of transition to each state when each action is taken with respect to the agent in the state;
For each of the plurality of states, a parameter storing a parameter of a probability distribution of rewards obtained when transition is made to each state as a result of taking action for each of the plurality of agents that are in the state. A storage unit;
In association with each of the plurality of states, a measure acquisition unit that acquires a measure that determines the action probability of taking each action against the agent in the state,
The probability distribution parameters of cumulative rewards obtained from the plurality of agents from this term onward are the parameters of the probability distribution of the rewards obtained by this term behavior based on the behavior probability of this term behavior and the transition probability to the state of the next term, and by weighting the value based on the parameters of the probability distribution of the cumulative reward from next term of the state obtained after the next fiscal year, to generate a recurrence formula to calculate the sum for each of the behavior and the next term of the state, this term in the recurrence formula A first calculation unit that calculates the parameter by solving an equation that the parameters of the cumulative reward probability distribution converge to the same value if the initial state is the same in the following and subsequent periods;
A program that causes the calculated parameter to function as an output unit that outputs information indicating a probability distribution of accumulated rewards.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006209593A JP5046149B2 (en) | 2006-08-01 | 2006-08-01 | Technology to determine the most appropriate measures to get rewards |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006209593A JP5046149B2 (en) | 2006-08-01 | 2006-08-01 | Technology to determine the most appropriate measures to get rewards |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008040522A JP2008040522A (en) | 2008-02-21 |
JP5046149B2 true JP5046149B2 (en) | 2012-10-10 |
Family
ID=39175494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006209593A Expired - Fee Related JP5046149B2 (en) | 2006-08-01 | 2006-08-01 | Technology to determine the most appropriate measures to get rewards |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5046149B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5552009B2 (en) * | 2010-09-22 | 2014-07-16 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Method, program, and apparatus for determining optimal action in consideration of risk |
KR102082522B1 (en) * | 2011-06-02 | 2020-04-16 | 서포티드 인텔레전스, 엘엘씨 | System and method for evaluating decision opportunities |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0013011D0 (en) * | 2000-05-26 | 2000-07-19 | Ncr Int Inc | Method and apparatus for determining one or more statistical estimators of customer behaviour |
JP2004145396A (en) * | 2002-10-21 | 2004-05-20 | Toshiba Corp | Electric power transaction risk management method and system |
JP3960286B2 (en) * | 2003-09-05 | 2007-08-15 | 独立行政法人科学技術振興機構 | Adaptive controller, adaptive control method, and adaptive control program |
-
2006
- 2006-08-01 JP JP2006209593A patent/JP5046149B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008040522A (en) | 2008-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9646075B2 (en) | Segmentation and stratification of data entities in a database system | |
Bae et al. | Dynamic asset allocation for varied financial markets under regime switching framework | |
Corrado et al. | How do you measure a “technological revolution”? | |
JP5552009B2 (en) | Method, program, and apparatus for determining optimal action in consideration of risk | |
JP4465417B2 (en) | Customer segment estimation device | |
US8706596B2 (en) | Account portfolio risk characterization | |
US10191888B2 (en) | Segmentation and stratification of data entities in a database system | |
US10515123B2 (en) | Weighted analysis of stratified data entities in a database system | |
US20220138280A1 (en) | Digital Platform for Trading and Management of Investment Securities | |
Mihova et al. | A customer segmentation approach in commercial banks | |
Kao et al. | An analysis of the market risk to participants in the compound protocol | |
JP5963320B2 (en) | Information processing apparatus, information processing method, and program | |
AU2016102483A4 (en) | Segmentation and stratification of composite portfolios of investment securities | |
US11037236B1 (en) | Algorithm and models for creditworthiness based on user entered data within financial management application | |
Nha et al. | Determinants of capital structure choice: Empirical evidence from Vietnamese listed companies | |
JP2015191375A (en) | Information processing device, information processing method, and program | |
Suzuki et al. | Islamic bank rent: A case study of Islamic banking in Bangladesh | |
CN111242356A (en) | Wealth trend prediction method, device, equipment and storage medium | |
JP5046149B2 (en) | Technology to determine the most appropriate measures to get rewards | |
van der Schans et al. | Time-dependent black–litterman | |
WO2022064894A1 (en) | Information processing device, information processing method, and program | |
Villena et al. | Global and local advertising strategies: A dynamic multi-market optimal control model. | |
WO2021192196A1 (en) | Growth potential estimation system, growth potential estimation device, growth potential estimation method, and recording medium in which growth potential estimation program is stored | |
Chen et al. | Funding and investment decisions in a stochastic defined benefit pension plan with regime switching | |
EP3048575A1 (en) | Segmentation and stratification of composite portfolios of investment securities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090427 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110517 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110524 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110601 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111129 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120104 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120612 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20120613 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120706 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150727 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |