JP2023118523A

JP2023118523A - 均衡解探索プログラム、均衡解探索方法および情報処理装置

Info

Publication number: JP2023118523A
Application number: JP2022021516A
Authority: JP
Inventors: 菜月石川; Natsuki Ishikawa; 雅俊小川; Masatoshi Ogawa; 隼人檀; Hayato Dan; 克己本間; Katsumi Honma
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2022-02-15
Filing date: 2022-02-15
Publication date: 2023-08-25
Also published as: US20230259510A1

Abstract

【課題】均衡解探索における評価値計算の負荷を軽減する。
【解決手段】情報処理装置１０は、複数の行動のうちの１つをそれぞれ示す複数のレコードを含むデータ集合１３を生成する。情報処理装置１０は、データ集合１３に出現する行動ＳＴ１，ＳＴ２，ＳＴ３に対する評価値１５－１，１５－２，１５－３を、データ集合１３における行動ＳＴ１，ＳＴ２，ＳＴ３の出現頻度の分布１４に基づいて算出する。情報処理装置１０は、評価値が閾値より大きい行動の出現頻度が増加するように、少なくとも一部のレコードを更新する。情報処理装置１０は、更新されたデータ集合１３に出現する行動ＳＴ１，ＳＴ２に対する評価値１７－１，１７－２を、更新されたデータ集合１３における行動ＳＴ１，ＳＴ２の出現頻度の分布１６に基づいて算出する。
【選択図】図１

Description

本発明は均衡解探索プログラム、均衡解探索方法および情報処理装置に関する。

情報処理装置は、複数のプレイヤーそれぞれが複数の行動の候補の中から１つの行動を確率的に選択する状況について、それら複数の行動の確率分布の均衡解を探索することがある。上記のシミュレーション構造は、進化ゲーム理論と呼ばれることがある。ある確率分布のもとで組み合わされる複数の行動は、混合戦略と呼ばれることがある。

例えば、離散時間レプリケータダイナミクスは、ある確率分布のもとで複数の行動それぞれの評価値を算出し、平均評価値より大きい評価値をもつ行動の確率を増加させ、平均評価値より小さい評価値をもつ行動の確率を減少させる。離散時間レプリケータダイナミクスは、評価値計算と確率分布の更新とを繰り返す。

なお、遺伝的アルゴリズムを用いて利益が最大になるように製品ポートフォリオおよび製品供給スケジュールを最適化する最適化システムが提案されている。また、遺伝的アルゴリズムや線形プログラミングなどの最適化モジュールを有するサプライチェーン最適化システムが提案されている。また、遺伝的アルゴリズムを用いて種々の需要に対するジョブの優先度を決定する供給計画生成システムが提案されている。また、遺伝的アルゴリズムを用いて分散スケジューリングを行うマルチエージェントシステムが提案されている。

国際公開第２００２／００７０４５号国際公開第２００６／１１１８２１号米国特許出願公開第２０１１／０１７３０３４号明細書米国特許出願公開第２０１１／０２２４８１６号明細書

複数の行動の評価値計算と確率分布の更新とを含む均衡解探索を単純に実装すると、情報処理装置は、確率分布を更新する毎に全ての行動の評価値を再計算することになる。しかし、行動の候補が多い場合や評価値を１回算出する毎に負荷の高いシミュレーションが行われる場合など、評価値計算の負荷が高くなることがある。そこで、１つの側面では、本発明は、均衡解探索における評価値計算の負荷を軽減することを目的とする。

１つの態様では、コンピュータに以下の処理を実行させる均衡解探索プログラムが提供される。複数の行動のうちの１つをそれぞれ示す複数のレコードを含むデータ集合を生成する。複数の行動のうちデータ集合に出現する２以上の第１の行動それぞれに対する第１の評価値を、データ集合における２以上の第１の行動の出現頻度の分布に基づいて算出する。第１の評価値が閾値より大きい第１の行動の出現頻度が増加するように、データ集合に含まれる複数のレコードのうちの少なくとも一部のレコードを更新する。複数の行動のうち更新されたデータ集合に出現する２以上の第２の行動それぞれに対する第２の評価値を、更新されたデータ集合における２以上の第２の行動の出現頻度の分布に基づいて算出する。また、１つの態様では、コンピュータが実行する均衡解探索方法が提供される。また、１つの態様では、記憶部と処理部とを有する情報処理装置が提供される。

１つの側面では、均衡解探索における評価値計算の負荷が軽減される。

第１の実施の形態の情報処理装置を説明するための図である。第２の実施の形態の情報処理装置のハードウェア例を示す図である。改良遺伝的アルゴリズムによる個体集合の更新例を示す図である。シミュレーション上のプレイヤーの例を示す図である。シミュレーション上の戦略および利得の定義例を示す図である。１回のシミュレーションの結果例を示す図である。収束後の混合戦略の確率分布の例を示す図である。利得を算出する戦略の個数の変化例を示すグラフである。情報処理装置の機能例を示すブロック図である。均衡解探索の手順例を示すフローチャートである。均衡解探索の手順例を示すフローチャート（続き）である。

以下、本実施の形態を図面を参照して説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

図１は、第１の実施の形態の情報処理装置を説明するための図である。
第１の実施の形態の情報処理装置１０は、複数のプレイヤーそれぞれが複数の行動の候補の中から１つの行動を確率的に選択する状況について、それら複数の行動の確率分布の均衡解を探索する。第１の実施の形態の均衡解探索には、遺伝的アルゴリズムおよび離散時間レプリケータダイナミクスの考え方が組み込まれてもよい。情報処理装置１０は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１０が、コンピュータ、均衡解探索装置またはシミュレーション装置と呼ばれてもよい。

情報処理装置１０は、記憶部１１および処理部１２を有する。記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性半導体メモリでもよいし、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性ストレージでもよい。処理部１２は、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）などのプロセッサである。ただし、処理部１２が、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの電子回路を含んでもよい。プロセッサは、例えば、ＲＡＭなどのメモリ（記憶部１１でもよい）に記憶されたプログラムを実行する。プロセッサの集合が、マルチプロセッサまたは単に「プロセッサ」と呼ばれてもよい。

記憶部１１は、データ集合１３を記憶する。データ集合１３は、プレイヤーが取り得る複数の行動のうちの１つをそれぞれ示す複数のレコードを含む。行動は戦略と呼ばれてもよい。個々の行動は純粋戦略と呼ばれてもよく、ある確率分布のもとで組み合わせる複数の行動は混合戦略と呼ばれてもよい。レコードは個体または遺伝子と呼ばれてもよい。データ集合１３は個体集合、遺伝子集合または母集団と呼ばれてもよい。異なるレコードが同一の行動を示してもよい。全ての行動がデータ集合１３に出現するとは限らない。

処理部１２は、プレイヤーが取り得る複数の行動のうちデータ集合１３に出現する２以上の行動それぞれに対する評価値を、データ集合１３における行動の出現頻度の分布１４に基づいて算出する。評価値は適応度または利得と呼ばれてもよい。出現頻度は確率と呼ばれてもよい。データ集合１３に出現する行動は、データ集合１３に含まれる複数のレコードのうちの少なくとも１つのレコードが示す行動である。このとき、処理部１２は、データ集合１３に出現しない行動の評価値を算出しなくてもよい。

図１の例では、データ集合１３に行動ＳＴ１，ＳＴ２，ＳＴ３が出現する。分布１４は、行動ＳＴ１の出現頻度が４０％であり、行動ＳＴ２の出現頻度が３０％であり、行動ＳＴ３の出現頻度が３０％であることを示す。処理部１２は、行動ＳＴ１に対して評価値１５－１（評価値Ｐ１）を算出し、行動ＳＴ２に対して評価値１５－２（評価値Ｐ２）を算出し、行動ＳＴ３に対して評価値１５－３（評価値Ｐ３）を算出する。

例えば、処理部１２は、自プレイヤーの行動としてデータ集合１３に出現する１つの行動を選択し、分布１４に従って他プレイヤーの行動をランダムに選択する。他プレイヤーの行動は、データ集合１３からランダムに選択したレコードが示す行動であってもよい。処理部１２は、選択された自プレイヤーの行動および他プレイヤーの行動のもとで、シミュレーションによって自プレイヤーの行動の評価値を算出する。評価値を算出する評価関数は、適応度関数または利得関数と呼ばれてもよい。

処理部１２は、評価値が閾値より大きい行動の出現頻度が増加するようにデータ集合１３を更新する。このとき、処理部１２は、データ集合１３に含まれる複数のレコードのうちの少なくとも一部のレコードを更新して、それら少なくとも一部のレコードが示す行動を変更する。処理部１２は、評価値が閾値より小さい行動の出現頻度が減少するようにデータ集合１３を更新してもよい。例えば、処理部１２は、あるレコードが示す行動を、評価値が小さい行動から評価値が大きい行動に変更する。閾値は、データ集合１３に出現する２以上の行動の評価値を出現頻度で重み付けした加重平均評価値であってもよい。

評価値に応じて出現頻度の分布を変更することで、データ集合１３から一部の行動が淘汰されて消滅することがある。例えば、処理部１２は、個々の行動の更新後の出現頻度を評価値に基づいて決定する。データ集合１３のサイズ、すなわち、データ集合１３に含まれるレコードの個数は有限であるため、出現頻度が下限を下回った行動はデータ集合１３から消滅し得る。これにより、データ集合１３に出現する行動が減少することがある。ただし、処理部１２は、データ集合１３に出現する行動が少なくなり過ぎないように、データ集合１３に出現していなかった行動をデータ集合１３に追加してもよい。

例えば、処理部１２は、２つのレコードが示す２つのベクトルの一部分を交換する交叉を行い、交叉によって生じた新たな行動を示すレコードをデータ集合１３に追加する。また、例えば、処理部１２は、１つのレコードが示す１つのベクトルの一部分をランダムに変更する突然変異を行い、突然変異によって生じた新たな行動を示すレコードをデータ集合１３に追加する。また、例えば、処理部１２は、データ集合１３に出現していない行動をランダムに選択し、選択した行動を示すレコードをデータ集合１３に追加する。

処理部１２は、プレイヤーが取り得る複数の行動のうち更新されたデータ集合１３に出現する２以上の行動それぞれに対する評価値を、更新されたデータ集合１３における行動の出現頻度の分布１６に基づいて算出する。このとき、処理部１２は、更新されたデータ集合１３に出現しない行動の評価値を算出しなくてもよい。分布１６は分布１４と異なるため、各行動の評価値は原則として更新前後で変化する。

図１の例では、更新されたデータ集合１３に行動ＳＴ１，ＳＴ２が出現する。分布１６は、行動ＳＴ１の出現頻度が６０％であり、行動ＳＴ２の出現頻度が４０％であることを示す。行動ＳＴ３は、データ集合１３から淘汰されている。処理部１２は、行動ＳＴ１に対して評価値１７－１（評価値Ｐ１１）を算出し、行動ＳＴ２に対して評価値１７－２（評価値Ｐ１２）を算出する。行動ＳＴ３はデータ集合１３に出現しないため、処理部１２は、行動ＳＴ３に対する評価値を算出しなくてもよい。

処理部１２は、最新の評価値に応じてデータ集合１３を更に更新してもよい。処理部１２は、上記の評価値の算出およびデータ集合１３の更新を、停止条件が満たされるまで繰り返してもよい。停止条件は、イテレーション回数が上限に達したことでもよいし、出現頻度の分布が収束したことでもよい。停止時点の出現頻度の分布が均衡解と解釈されてもよい。データ集合１３に出現しない行動の出現頻度は０と解釈されてもよい。

以上説明したように、第１の実施の形態の情報処理装置１０は、データ集合１３に出現する２以上の行動に対する評価値を、それら２以上の行動の出現頻度の分布に基づいて算出する。情報処理装置１０は、評価値が閾値より大きい行動の出現頻度が増加するようにデータ集合１３を更新する。情報処理装置１０は、更新されたデータ集合１３に出現する２以上の行動に対する評価値を、更新後の出現頻度の分布に基づいて算出する。

これにより、データ集合１３に出現する行動が評価値に基づいて淘汰され、評価対象の行動が減少する。よって、確率分布を更新する毎に全ての行動の評価値を再計算する純粋な離散時間レプリケータダイナミクスと比べて、評価値計算の負荷が減少する。その結果、均衡解探索の実行時間が短縮する。また、データ集合１３における行動の出現頻度の分布は評価値を反映しており、プレイヤーが取り得る行動全体の確率分布を近似する。よって、均衡解として十分に高い精度の近似解が算出される。

なお、情報処理装置１０は、データ集合１３の出現頻度の分布を更新する際に新しい行動をデータ集合１３に追加してもよい。これにより、評価対象の行動が少なくなり過ぎることが抑制され、均衡解の精度を向上する。また、情報処理装置１０は、個々の行動の更新後の出現頻度を決定する際、今回の評価値のもとで算出される出現頻度と前回の出現頻度との加重平均を、更新後の評価値として採用してもよい。前回の出現頻度は、新しい行動を追加する前の出現頻度でもよい。今回の評価値のもとで算出される出現頻度は、新しい行動を追加した後の出現頻度を、評価値を用いて修正することで算出されてもよい。これにより、出現頻度の急激な変化が抑制され、均衡解の精度が向上する。

また、情報処理装置１０は、ある行動の評価値を再計算する際、今回の出現頻度の分布のもとで算出される評価値と更新前の評価値との加重平均を、更新後の評価値として採用してもよい。これにより、過去に他プレイヤーが選択した行動や過去に選択された乱数のもとでの評価結果も最新の評価値に適度に反映され、評価値のロバスト性が向上する。その結果、少ないシミュレーション回数で評価値の精度が向上する。

［第２の実施の形態］
次に、第２の実施の形態を説明する。
複数のプレイヤーがそれぞれ利得の最大化を目指して１つの純粋戦略を確率的に選択する状況においては、プレイヤー集団がとる混合戦略の確率分布が一定の均衡解に収束することがある。第２の実施の形態の情報処理装置１００は、シミュレーションを通じてこの均衡解を探索する。情報処理装置１００が行う均衡解探索は、サプライチェーンのような大規模な社会システムの分析や制度設計に適用され得る。

情報処理装置１００は、後述するように、離散時間レプリケータダイナミクスに基づいて遺伝的アルゴリズムを改良した改良遺伝的アルゴリズムを実行する。情報処理装置１００は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１００が、コンピュータ、均衡解探索装置またはシミュレーション装置と呼ばれてもよい。情報処理装置１００は、第１の実施の形態の情報処理装置１０に対応する。

図２は、第２の実施の形態の情報処理装置のハードウェア例を示す図である。
情報処理装置１００は、バスに接続されたＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、ＧＰＵ１０４、入力インタフェース１０５、媒体リーダ１０６および通信インタフェース１０７を有する。ＣＰＵ１０１は、第１の実施の形態の処理部１２に対応する。ＲＡＭ１０２またはＨＤＤ１０３は、第１の実施の形態の記憶部１１に対応する。

ＣＰＵ１０１は、プログラムの命令を実行するプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムおよびデータの少なくとも一部をＲＡＭ１０２にロードし、プログラムを実行する。情報処理装置１００は、複数のプロセッサを有してもよい。プロセッサの集合が、マルチプロセッサまたは単に「プロセッサ」と呼ばれてもよい。

ＲＡＭ１０２は、ＣＰＵ１０１で実行されるプログラムおよびＣＰＵ１０１で演算に使用されるデータを一時的に記憶する揮発性半導体メモリである。情報処理装置１００は、ＲＡＭ以外の種類の揮発性メモリを有してもよい。

ＨＤＤ１０３は、ＯＳ（Operating System）、ミドルウェア、アプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性ストレージである。情報処理装置１００は、フラッシュメモリやＳＳＤ（Solid State Drive）などの他の種類の不揮発性ストレージを有してもよい。

ＧＰＵ１０４は、ＣＰＵ１０１と連携して画像処理を行い、情報処理装置１００に接続された表示装置１１１に画像を出力する。表示装置１１１は、例えば、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイまたはプロジェクタである。なお、情報処理装置１００に、プリンタなどの他の種類の出力デバイスが接続されてもよい。

また、ＧＰＵ１０４は、ＧＰＧＰＵ（General Purpose Computing on Graphics Processing Unit）として使用されてもよい。ＧＰＵ１０４は、ＣＰＵ１０１からの指示に応じてプログラムを実行し得る。このプログラムは、後述する遺伝的アルゴリズムを実装したプログラムであってもよい。情報処理装置１００は、ＲＡＭ１０２以外の揮発性半導体メモリを、ＧＰＵ１０４が使用するＧＰＵメモリとして有してもよい。

入力インタフェース１０５は、情報処理装置１００に接続された入力デバイス１１２から入力信号を受け付ける。入力デバイス１１２は、例えば、マウス、タッチパネルまたはキーボードである。情報処理装置１００に複数の入力デバイスが接続されてもよい。

媒体リーダ１０６は、記録媒体１１３に記録されたプログラムおよびデータを読み取る読み取り装置である。記録媒体１１３は、例えば、磁気ディスク、光ディスクまたは半導体メモリである。磁気ディスクには、フレキシブルディスク（ＦＤ：Flexible Disk）およびＨＤＤが含まれる。光ディスクには、ＣＤ（Compact Disc）およびＤＶＤ（Digital Versatile Disc）が含まれる。媒体リーダ１０６は、記録媒体１１３から読み取られたプログラムおよびデータを、ＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、ＣＰＵ１０１によって実行されることがある。

記録媒体１１３は、可搬型記録媒体であってもよい。記録媒体１１３は、プログラムおよびデータの配布に用いられることがある。また、記録媒体１１３およびＨＤＤ１０３が、コンピュータ読み取り可能な記録媒体と呼ばれてもよい。

通信インタフェース１０７は、ネットワーク１１４を介して他の情報処理装置と通信する。通信インタフェース１０７は、スイッチやルータなどの有線通信装置に接続される有線通信インタフェースでもよいし、基地局やアクセスポイントなどの無線通信装置に接続される無線通信インタフェースでもよい。

次に、離散時間レプリケータダイナミクス（以下では単にレプリケータダイナミクスと言うことがある）について説明する。レプリケータダイナミクスは、個々の戦略の利得を算出して混合戦略の確率分布を更新することを繰り返す。

レプリケータダイナミクスは、現在の確率分布のもとで複数の戦略それぞれの利得を算出する。レプリケータダイナミクスは、複数の戦略全体の平均利得より大きい利得をもつ戦略について、平均利得に対する個別の利得の倍率に従って確率を増加させる。また、レプリケータダイナミクスは、平均利得より小さい利得をもつ戦略について、平均利得に対する個別の利得の倍率に従って確率を減少させる。これにより、相対的に利得の大きい戦略は選択されやすくなり、相対的に利得の小さい戦略は選択されづらくなる。

確率分布が変化すると、複数の戦略それぞれの利得も変化する。このため、レプリケータダイナミクスは、確率分布を更新する毎に全ての戦略の利得を再計算する。しかし、イテレーション毎に全ての戦略の利得を再計算することは、利得計算の負荷が高い。

そこで、情報処理装置１００は、改良遺伝的アルゴリズムによって、レプリケータダイナミクスの近似解を効率的に算出する。情報処理装置１００は、遺伝的アルゴリズムで使用される個体集合を用いて、混合戦略の確率分布を近似する。遺伝的アルゴリズムでは、個体集合に含まれる戦略が段階的に淘汰されるため、利得を算出する戦略が段階的に減少する。また、交叉や突然変異を通じて新しい戦略が個体集合に確率的に追加されるため、絞り込まれた戦略以外の新しい戦略を評価する機会が確保される。

図３は、改良遺伝的アルゴリズムによる個体集合の更新例を示す図である。
情報処理装置１００は、個体集合３１を生成する。個体集合３１は、一定個数の個体を含むデータ集合である。図３の例では、個体集合３１は１００個の個体を含む。個体は、遺伝的アルゴリズムにおける遺伝子に相当する。１つの個体は、事前に規定された複数の戦略のうちの何れか１つの戦略を示す。戦略は、例えば、複数次元の数値を含むベクトルで表現される。個体集合３１に含まれる個体のうち、ある戦略を示す個体が占める割合は、その戦略が選択される確率に相当する。個体集合３１に出現する２以上の戦略の確率を並べたものは、混合戦略の確率分布に相当する。

図３の例では、個体集合３１は、第１戦略を示す１つの個体と、第２戦略を示す１０個の個体と、第１０戦略を示す１０個の個体とを含む。よって、第１戦略の確率は１％であり、第２戦略の確率は１０％であり、第１０戦略の確率は１０％である。

情報処理装置１００は、交叉、突然変異およびランダム追加を通じて、個体集合３１に個体を追加して個体集合３２を生成する。個体集合３２のサイズは個体集合３１よりも大きい。交叉は、個体集合３１からランダムに２つの個体を選択し、選択した２つの個体が示す２つのベクトルの間で一部次元の数値を入れ替える。交叉によって生じた戦略が個体集合３１に含まれていない新しい戦略である場合、情報処理装置１００は、その新しい戦略を示す個体を個体集合３１に追加する。交叉によって生じた戦略が個体集合３１に含まれている場合、情報処理装置１００は新しい個体を追加しなくてよい。

突然変異は、個体集合３１からランダムに１つの個体を選択し、選択した１つの個体が示すベクトルの中で一部次元の数値をランダムに書き換える。突然変異によって生じた戦略が個体集合３１に含まれていない新しい戦略である場合、情報処理装置１００は、その新しい戦略を示す個体を個体集合３１に追加する。突然変異によって生じた戦略が個体集合３１に含まれている場合、情報処理装置１００は新しい個体を追加しなくてよい。

ランダム追加は、個体集合３１に含まれていない新しい戦略をランダムに生成する。情報処理装置１００は、その新しい戦略を示す個体を個体集合３１に追加する。確率分布を反復的に更新するにあたり、戦略の個数が極端に少ないと確率分布が不安定になることがあるため、ランダム追加によって戦略の個数が一定以上に維持される。

図３の例では、個体集合３２は、個体集合３１の個体に加えて、第１１戦略を示す個体や第１２戦略を示す個体などの新しい個体を含む。個体集合３２では、第１戦略の確率は０．９％であり、第２戦略の確率は９％であり、第１０戦略の確率は９％であり、第１１戦略の確率は０．９％であり、第１２戦略の確率は０．９％である。

情報処理装置１００は、事前に規定された利得関数を用いて、個体集合３２に含まれる戦略それぞれの利得を算出する。このとき、情報処理装置１００は、個体集合３２に含まれない戦略については利得を算出しなくてよい。利得関数が算出する利得は、個体集合３１が示す確率分布に依存する。利得関数の具体例については後述する。

例えば、情報処理装置１００は、個体集合３２の中から着目する自プレイヤーの戦略を１つ選択する。また、情報処理装置１００は、個体集合３１からランダムに個体を抽出することで、他プレイヤーの戦略を確率分布に従って選択する。情報処理装置１００は、選択された自プレイヤーの戦略および他プレイヤーの戦略に基づいてシミュレーションを行い、自プレイヤーの利得を算出する。このとき、シミュレーションは、プレイヤーが意思決定を行わない外部環境の変動を、乱数を用いて表現することがある。また、他プレイヤーの戦略や乱数を変えながら、シミュレーションが複数回行われることがある。

個体集合３１の中から個体を抽出するため、交叉、突然変異またはランダム追加によって追加された直後の新しい戦略は、他プレイヤーの戦略として選択されない。新しい戦略はまだ利得関数によって評価されておらず、信頼性の高い確率が付与されていないためである。ただし、情報処理装置１００は、個体集合３２から個体を抽出することで、新しい戦略を他プレイヤーの戦略として選択すること許容してもよい。

情報処理装置１００は、算出された利得に基づいて、数式（１）に従い、個体集合３２に含まれる戦略それぞれの次世代における確率を決定する。数式（１）において、ｋは自然数であり、ｐ_ｉ（ｋ）は戦略ｉの第ｋ世代の利得である。ｘ_ｉ（ｋ）は戦略ｉの第ｋ世代における新たな戦略を追加する前の確率であり、個体集合３１での確率に相当する。ｘ’_ｉ（ｋ）は戦略ｉの第ｋ世代における新たな戦略を追加した後の確率であり、個体集合３２での確率に相当する。Σｐ_ｊ（ｋ）ｘ’_ｊ（ｋ）は、第ｋ世代の個体集合に出現する２以上の戦略の利得を確率で重み付けした平均利得である。ｌｒは事前に規定される学習率であり、０より大きく１より小さい数値である。

数式（１）に示すように、平均利得を超える利得をもつ戦略の確率は、平均利得に対する個別の利得の倍率に従って増加する。一方、平均利得を下回る利得をもつ戦略の確率は、平均利得に対する個別の利得の倍率に従って減少する。また、第ｋ世代の利得に基づいて調整された確率と第ｋ世代の確率との加重平均が、第ｋ＋１世代の確率になる。学習率ｌｒを用いることで、確率の急激な変動が抑制されて確率分布が安定する。学習率ｌｒが大きいほど、直近の利得が確率に強く反映される。

なお、直近の交叉、突然変異またはランダム追加によって追加された新しい戦略については、ｘ_ｉ（ｋ）＝０である。また、ｋ＝１の場合は交叉、突然変異およびランダム追加がまだ行われていないため、ｘ_ｉ（ｋ）＝ｘ’_ｉ（ｋ）である。また、ある戦略ｊの利得ｐ_ｊ（ｋ）が負である場合、情報処理装置１００は、ｐ_ｊ（ｋ）ｘ’_ｊ（ｋ）＝０とみなしてΣｐ_ｊ（ｋ）ｘ’_ｊ（ｋ）を算出する。

情報処理装置１００は、決定された確率に従い、個体集合３２に対して選択操作を行って個体集合３３を生成する。選択操作は、ある個体が削除されてその個体が示す戦略の個体数が減少する淘汰と、ある個体が複製されてその個体が示す戦略の個体数が増加する繁殖とを含む。個体集合３３のサイズは、個体集合３１と同じである。図３の例では、個体集合３３は１００個の個体を含む。個体集合３３に含まれる戦略それぞれの個体数は、確率に基づいて算出され、個体集合３３のサイズに確率を乗じた数に相当する。ただし、各戦略の個体数は、個体集合３３のサイズに確率を乗じた数に厳密に一致しなくてもよい。

個体集合３３が有する個体の数は有限であるため、確率が十分小さい戦略は個体集合３３に残らずに消滅する。個体集合３３が１００個の個体を含む場合、確率が１％未満の戦略は消滅する可能性がある。図３の例では、第２戦略の確率は１５％であり、第１０戦略の確率は８％であり、第１２戦略の確率は２％である。よって、個体集合３３は、第２戦略を示す１５個の個体と、第１０戦略を示す８個の個体と、第１２戦略を示す２個の個体とを含む。個体集合３２に含まれる第１戦略や第１１戦略は、決定された確率が十分小さいため淘汰され、個体集合３３に含まれていない。

ここで、ある戦略が第ｋ－１世代の個体集合に含まれ、かつ、第ｋ世代の個体集合にも含まれる場合、情報処理装置１００は、数式（２）に従って第ｋ世代の利得を算出する。数式（２）において、ｐ（ｋ）は第ｋ世代の利得であり、ｐ（ｋ－１）は第ｋ－１世代の利得であり、ｐ^ｔｍｐ（ｋ）は第ｋ世代のシミュレーションによって算出される利得である。ｗは事前に規定された重みであり、０より大きく１より小さい数値である。

よって、第ｋ世代の利得は、第ｋ－１世代の利得と第ｋ世代のシミュレーション結果との加重平均となる。これにより、利得の急激な変動が抑制される。また、異なる他プレイヤーの戦略や異なる乱数のもとで行われた過去のシミュレーションの結果が、最新世代の利得にある程度反映される。このため、１つの利得を算出するためのシミュレーションの試行回数が少なくても、妥当な利得が算出され得る。

また、情報処理装置１００は、第１世代の個体集合を以下のように生成する。まず、情報処理装置１００は、プレイヤーが取り得る全ての戦略を含む仮の個体集合を生成する。このとき、複数の戦略の確率は均等であると仮定される。例えば、情報処理装置１００は、１つの戦略につき１つの個体を含む仮の個体集合を生成する。ただし、戦略数が非常に多い場合、情報処理装置１００は、全戦略の中から一部の戦略を抽出してもよい。例えば、情報処理装置１００は、ラテン超方格法などの実験計画法を用いて、全戦略の中から偏りが小さい一部の戦略をサンプリングする。

情報処理装置１００は、上記の仮の個体集合に含まれる戦略それぞれの利得を、シミュレーションによって算出する。このとき、自プレイヤーの戦略と他プレイヤーの戦略は、均一な確率分布をもつ同一の個体集合から選択される。そして、情報処理装置１００は、算出された利得と前述の数式（１）とに基づいて各戦略の第１世代の確率を決定し、決定された第１世代の確率に従って第１世代の個体集合を生成する。第１世代までに幅広い戦略（好ましくは全ての戦略）が検討されるため、好ましい戦略が第１世代の個体集合に含まれないリスクが低下し、最終的な均衡解の信頼性が向上する。

次に、シミュレーションの例としてサプライチェーンについて説明する。
図４は、シミュレーション上のプレイヤーの例を示す図である。
サプライチェーンは、行動主体として原料生産者４１、製造業者４２，４３，４４、小売業者４５，４６，４７および消費者群４８を含む。原料生産者４１は、製造業者４２，４３，４４に原料を販売する。製造業者４２，４３，４４は、原料生産者４１から原料を仕入れて商品を製造し、小売業者４５，４６，４７に商品を販売する。小売業者４５，４６，４７は、製造業者４２，４３，４４から商品を仕入れて消費者群４８に販売する。消費者群４８は、小売業者４５，４６，４７から商品を購入する。

情報処理装置１００は、製造業者４２，４３，４４と小売業者４５，４６，４７との取引を通じて決まる商品の取引量および取引価格を算出する。製造業者４２，４３，４４と小売業者４５，４６，４７との間の取引は、製造業者側と小売業者側とがそれぞれ希望の取引量および取引価格を指定するダブルオークション方式によってモデル化される。

製造業者４２，４３，４４および小売業者４５，４６，４７はプレイヤーである。製造業者４２，４３，４４は、同一の混合戦略に基づいて確率的に戦略を選択するプレイヤー集団を形成する。また、小売業者４５，４６，４７は、同一の混合戦略に基づいて確率的に戦略を選択するプレイヤー集団を形成する。製造業者側の個体集合と小売業者側の個体集合とが別個に形成され、前述の改良遺伝的アルゴリズムによってそれぞれ最適化される。ただし、製造業者側の混合戦略と小売業者側の混合戦略とは相互に影響を与えるため、利得計算にあたっては、情報処理装置１００は、製造業者４２，４３，４４および小売業者４５，４６，４７それぞれの戦略を選択してシミュレーションを行う。

製造業者側の１つの戦略の利得を算出する場合、情報処理装置１００は、製造業者４２を自プレイヤーとみなし、製造業者４３，４４および小売業者４５，４６，４７を他プレイヤーとみなす。情報処理装置１００は、製造業者側の個体集合から製造業者４３，４４の戦略をランダムに選択し、小売業者側の個体集合から小売業者４５，４６，４７の戦略をランダムに選択する。また、小売業者側の１つの戦略の利得を算出する場合、情報処理装置１００は、小売業者４５を自プレイヤーとみなし、製造業者４２，４３，４４および小売業者４６，４７を他プレイヤーとみなす。情報処理装置１００は、製造業者側の個体集合から製造業者４２，４３，４４の戦略をランダムに選択し、小売業者側の個体集合から小売業者４６，４７の戦略をランダムに選択する。

製造業者側の戦略および小売業者側の戦略それぞれの利得が算出されると、情報処理装置１００は、製造業者側の戦略それぞれの確率を決定し、製造業者側の個体集合を更新する。また、製造業者側とは独立に、情報処理装置１００は、小売業者側の戦略それぞれの確率を決定し、小売業者側の個体集合を更新する。ただし、第２の実施の形態の改良遺伝的アルゴリズムは、プレイヤー集団が２以上ある場合に限定されず、プレイヤー集団が１つのみである場合にも適用され得る。

原料生産者４１および消費者群４８は非プレイヤーである。ただし、原料生産者４１が販売する原料の原料価格はランダムに変動しており、製造業者４２，４３，４４にとってそれら製造業者がコントロールしない外部環境に相当する。また、消費者群４８が購入する商品の需要量はランダムに変動しており、小売業者４５，４６，４７にとってそれら小売業者がコントロールしない外部環境に相当する。消費者群４８が小売業者４５，４６，４７から購入する商品の商品価格は、固定である。情報処理装置１００は、同一の戦略のもとで３０回の取引（例えば、１日１回の取引を３０日分）を連続して行った場合の製造業者４２の利得および小売業者４５の利得を算出する。

図５は、シミュレーション上の戦略および利得の定義例を示す図である。
原料生産者４１の原料価格は、事前に規定された正規分布に従って１日毎に変動する。原料価格を決定するために乱数が使用される。消費者群４８の需要量は、事前に規定された正規分布に従って１日毎に変動する。需要量を決定するために乱数が使用される。

製造業者４２，４３，４４の戦略は、出荷価格と出荷量を含む二次元ベクトルである。出荷価格は商品単価であり、１００円、１２５円、１５０円、１７５円および２００円から選択される。１００円は０に、１２５円は１に、１５０円は２に、１７５円は３に、２００円は４にエンコードされてもよい。出荷量は１日毎の出荷量であり、６０個、７０個、８０個、９０個および１００個から選択される。６０個は０に、７０個は１に、８０個は２に、９０個は３に、１００個は４にエンコードされてもよい。製造業者４２，４３，４４の利得は、３０日分の売上高から３０日分の原料仕入高を引いた粗利益である。

小売業者４５，４６，４７の戦略は、仕入価格と仕入量を含む二次元ベクトルである。仕入価格は商品単価であり、１００円、１２５円、１５０円、１７５円および２００円から選択される。１００円は０に、１２５円は１に、１５０円は２に、１７５円は３に、２００円は４にエンコードされてもよい。仕入量は１日毎の仕入量であり、１００個、１２０個、１４０個、１６０個および１８０個から選択される。１００個は０に、１２０個は１に、１４０個は２に、１６０個は３に、１８０個は４にエンコードされてもよい。

小売業者４５，４６，４７の利得は、３０日分の売上高から３０日分の商品仕入高を引いた粗利益である。なお、小売業者４５，４６，４７にとって、現在の在庫量に仕入量を加えた商品量が販売可能量である。販売可能量を超える需要がある場合、その差は機会損失となる。販売可能量を下回る需要しかない場合、その差は翌日の在庫となる。

製造業者４２，４３，４４および小売業者４５，４６，４７がそれぞれ戦略を選択して希望の取引価格と取引量を提示すると、ダブルオークション方式によって適正な取引価格と取引量が決定される。取引量は事業者によって異なる一方、取引価格は製造業者４２，４３，４４および小売業者４５，４６，４７に共通な相場として決定される。相場は、証券取引の板寄せに準ずる方法で決定されてもよい。

例えば、情報処理装置１００は、製造業者４２，４３，４４を希望出荷価格の小さい順にソートし、小売業者４５，４６，４７を希望仕入価格の大きい順にソートする。情報処理装置１００は、順位の高い製造業者から優先的に出荷権利を付与し、順位の高い小売業者から優先的に仕入権利を付与する。情報処理装置１００は、出荷権利のある製造業者の希望出荷価格と仕入権利のある小売業者の希望仕入価格とを比較し、希望出荷価格が希望仕入価格より小さい場合に、その製造業者と小売業者との間の取引を成立させる。取引量は、希望出荷量の未充足部分と希望仕入量の未充足部分とのうちの小さい方である。

情報処理装置１００は、出荷権利のある製造業者の希望出荷量が取引成立によって全て充足されると、出荷権利を次の順位の製造業者に付与する。また、情報処理装置１００は、仕入権利のある小売業者の希望仕入量が取引成立によって全て充足されると、仕入権利を次の順位の小売業者に付与する。情報処理装置１００は、製造業者４２，４３，４４全ての希望出荷量が充足されるか、または、小売業者４５，４６，４７全ての希望仕入量が充足されると、オークションを終了する。また、情報処理装置１００は、希望価格が合わずに取引が成立しなくなった場合、オークションを終了する。

製造業者４２，４３，４４および小売業者４５，４６，４７の取引量は、上記の手順を通じて事業者毎に成立した取引の取引量である。一方、製造業者４２，４３，４４および小売業者４５，４６，４７の取引価格は、取引の成立状況から算出される単一の相場である。製造業者４２，４３，４４の希望出荷量の合計が小売業者４５，４６，４７の希望仕入価格の合計より小さい場合、取引価格は、最後に仕入権利をもっていた小売業者の希望仕入価格である。希望出荷量の合計が希望仕入価格の合計より大きい場合、取引価格は、最後に出荷権利をもっていた製造業者の希望出荷価格である。

図６は、１回のシミュレーションの結果例を示す図である。
テーブル５１は、１回のシミュレーションについて、製造業者４２，４３，４４および小売業者４５，４６，４７それぞれが選択した戦略と獲得した利得を示す。

製造業者４２は、出荷価格が１２５円かつ出荷量が９０個という戦略を選択し、１１２５０円の利得を獲得している。製造業者４３は、出荷価格が１００円かつ出荷量が６０個という戦略を選択し、７５００円の利得を獲得している。製造業者４４は、出荷価格が１００円かつ出荷量が１００個という戦略を選択し、１２５００円の利得を獲得している。

小売業者４５は、仕入価格が１２５円かつ仕入量が１６０個という戦略を選択し、７５１円の利得を獲得している。小売業者４６は、仕入価格が２００円かつ仕入量が１２０個という戦略を選択し、９００１円の利得を獲得している。小売業者４７は、仕入価格が１７５円かつ仕入量が１２０個という戦略を選択し、９００１円の利得を獲得している。

図７は、収束後の混合戦略の確率分布の例を示す図である。
テーブル５２は、図４のサプライチェーンに対して、通常のレプリケータダイナミクスおよび改良遺伝的アルゴリズムそれぞれによって最適化された混合戦略を示す。ここでは、改良遺伝的アルゴリズムのパラメータ値として、次のような数値が使用されている。製造業者側の個体集合および小売業者側の個体集合それぞれの個体数は、１００個である。交叉確率は３０％、突然変異確率は３０％、ランダム追加の個体数は５個である。学習率ｌｒは０．７であり、重みｗは０．５である。

レプリケーションダイナミクスは、均衡解として、次のような製造業者の混合戦略を算出する。この混合戦略は、出荷価格が１００円かつ出荷量が１００個という戦略を３１％で含み、出荷価格が１２５円かつ出荷量が１００個という戦略を３２％で含む。また、この混合戦略は、出荷価格が１５０円かつ出荷量が１００個という戦略を２４％で含み、出荷価格が１７５円かつ出荷量が１００個という戦略を１３％で含む。

一方、第２の実施の形態の改良遺伝的アルゴリズムは、均衡解として、次のような製造業者の混合戦略を算出する。この混合戦略は、出荷価格が１００円かつ出荷量が１００個という戦略を２５％で含み、出荷価格が１２５円かつ出荷量が１００個という戦略を２６％で含む。また、この混合戦略は、出荷価格が１５０円かつ出荷量が１００個という戦略を２９％で含み、出荷価格が１７５円かつ出荷量が１００個という戦略を２０％で含む。

また、レプリケーションダイナミクスは、均衡解として、次のような小売業者の混合戦略を算出する。この混合戦略は、仕入価格が２００円かつ仕入量が１４０個という戦略を９３％で含み、仕入価格が１７５円かつ仕入量が１８０個という戦略を６％で含む。一方、第２の実施の形態の改良遺伝的アルゴリズムは、均衡解として、次のような小売業者の混合戦略を算出する。この混合戦略は、仕入価格が２００円かつ仕入量が１４０個という戦略を８９％で含み、仕入価格が１７５円かつ仕入量が１８０個という戦略を４％で含み、仕入価格が１７５円かつ仕入量が１００個という戦略を５％で含む。

このように、第２の実施の形態の改良遺伝的アルゴリズムは、レプリケーションダイナミクスによって算出される製造業者の混合戦略の均衡解を、高い精度で近似する。同様に、改良遺伝的アルゴリズムは、レプリケーションダイナミクスによって算出される小売業者の混合戦略の均衡解を、高い精度で近似する。

図８は、利得を算出する戦略の個数の変化例を示すグラフである。
直線５３および曲線５４は、世代数と利得を算出する戦略の個数との関係を示す。直線５３はレプリケーションダイナミクスの戦略数の変化を示し、曲線５４は第２の実施の形態の改良遺伝的アルゴリズムの戦略数の変化を示す。

図４のサプライチェーンでは、製造業者側の戦略の候補が２５個あり、小売業者側の戦略の候補が２５個あるため、戦略総数は５０個である。直線５３に示すように、通常のレプリケーションダイナミクスは、全ての世代でこれら５０個の戦略の利得を算出する。一方、曲線５４に示すように、改良遺伝的アルゴリズムは、最初の数十世代で淘汰によって戦略を２０個程度に絞り込み、以降は各世代で約２０個の戦略の利得を算出する。

直線５３の下側の面積、すなわち、直線５３が示す戦略数の積分値は、レプリケーションダイナミクスの利得計算の計算量や計算時間に相当する。曲線５４の下側の面積、すなわち、曲線５４が示す戦略数の積分値は、改良遺伝的アルゴリズムの利得計算の計算量や計算時間に相当する。よって、通常のレプリケーションダイナミクスと比べて、改良遺伝的アルゴリズムは、小さい計算量および短い計算時間で実行される。

次に、情報処理装置１００の機能および処理手順について説明する。
図９は、情報処理装置の機能例を示すブロック図である。
情報処理装置１００は、設定情報記憶部１２１、個体集合記憶部１２２、利得算出部１２３、確率分布算出部１２４および個体集合更新部１２５を有する。設定情報記憶部１２１および個体集合記憶部１２２は、例えば、ＲＡＭ１０２またはＨＤＤ１０３を用いて実装される。利得算出部１２３、確率分布算出部１２４および個体集合更新部１２５は、例えば、ＣＰＵ１０１およびプログラムを用いて実装される。

設定情報記憶部１２１は、改良遺伝的アルゴリズムを実行するための設定情報を記憶する。設定情報は、個体集合のサイズ、交叉確率、突然変異確率、ランダム追加個体数、学習率ｌｒ、重みｗ、上限世代数などのパラメータ値を含む。また、設定情報は、戦略を示すベクトルの定義や利得関数を含む。個体集合記憶部１２２は、個体集合を記憶する。また、個体集合記憶部１２２は、各戦略に対して算出された利得や確率を記憶する。

利得算出部１２３は、個体集合に含まれる戦略毎に、複数回のシミュレーションを行って利得を算出する。利得算出部１２３は、１回のシミュレーション毎に、個体集合からランダムに個体を抽出することで、現在の確率分布に従って他プレイヤーの戦略を選択する。また、利得算出部１２３は、乱数を選択してシミュレーション上の外部環境を決定する。利得算出部１２３は、自プレイヤーの戦略と他プレイヤーの戦略と外部環境とから、利得関数を用いて自プレイヤーの利得を算出する。複数回のシミュレーションの利得は平均化される。確率分布算出部１２４は、利得算出部１２３によって算出された利得に基づいて、個体集合に含まれる戦略それぞれの確率を更新する。

個体集合更新部１２５は、第１世代の個体集合を生成するために、全ての戦略を網羅的に含む仮の個体集合、または、偏りが小さくなるように選択された一部の戦略のみを含む仮の個体集合を生成する。また、個体集合更新部１２５は、確率分布算出部１２４によって算出された確率分布が示す割合で複数の戦略の個体が含まれるように、一定サイズの個体集合を生成する。この選択操作によって、一部の戦略が個体集合から淘汰されることがある。個体集合更新部１２５は、選択操作後の個体集合に対して、交叉、突然変異およびランダム追加によって新しい戦略の個体を追加する。

図１０は、均衡解探索の手順例を示すフローチャートである。
（Ｓ１０）個体集合更新部１２５は、全ての戦略について個体を１つずつ含む仮の個体集合を生成する。以下では、この個体集合を個体集合ａと表記する。

（Ｓ１１）利得算出部１２３は、個体集合ａから個体を１つ選択し、選択した個体が示す戦略を自プレイヤーの戦略として決定する。
（Ｓ１２）利得算出部１２３は、他プレイヤー毎に個体集合ａからランダムに個体を１つ選択し、選択した個体が示す戦略を当該他プレイヤーの戦略として決定する。個体集合ａの個体数をＮ_ａとすると、各戦略は１／Ｎ_ａの確率で選択されることになる。

（Ｓ１３）利得算出部１２３は、決定された自プレイヤーの戦略および他プレイヤーの戦略のもとでシミュレーションを行い、自プレイヤーの利得を１回算出する。
（Ｓ１４）利得算出部１２３は、ステップＳ１２～Ｓ１５のイテレーションが複数回行われた場合、ステップＳ１３で算出された利得を平均化する。

（Ｓ１５）利得算出部１２３は、ステップＳ１１の自プレイヤーの戦略について、利得が収束条件を満たすか判断する。収束条件は、ステップＳ１２～Ｓ１５のイテレーション回数が事前に規定された第１閾値を超えており、かつ、前イテレーションの平均化利得に対する現イテレーションの平均化利得の変化割合が事前に規定された第２閾値未満であることである。第２閾値は、例えば、個体集合ａの個体数の逆数である。収束条件を満たす場合はステップＳ１６に処理が進み、収束条件を満たさない場合はステップＳ１２に処理が戻る。なお、収束条件を満たす場合、現イテレーションの平均化利得が、ステップＳ１１の戦略の利得とみなされる。

（Ｓ１６）利得算出部１２３は、個体集合ａに含まれる全ての個体を選択したか判断する。全ての個体を選択した場合はステップＳ１７に処理が進み、個体集合ａに未選択の個体がある場合はステップＳ１１に処理が戻る。

（Ｓ１７）確率分布算出部１２４は、直近の個体集合に含まれる複数の戦略の利得を確率で重み付けした平均利得を算出する。確率分布算出部１２４は、直近の個体集合に含まれる戦略それぞれの確率を、個別の利得と平均利得とに基づいて更新する。第１世代については、直近の個体集合はステップＳ１０の個体集合ａである。第２世代以降については、直近の個体集合は後述する個体集合ｃである。ただし、更新前の確率として、後述する個体集合ｂにおける確率と個体集合ｃにおける確率の両方が使用される。

個体集合ａの個体数をＮ_ａとすると、個体集合ａにおける更新前の確率は１／Ｎ_ａである。個体集合ｂの個体数をＮ_ｂとし、個体集合ｂでの戦略の個体数をＮ_ｂｉとすると、個体集合ｂにおける更新前の確率はＮ_ｂｉ／Ｎ_ｂである。個体集合ｃの個体数をＮ_ｃとし、個体集合ｃでの戦略の個体数をＮ_ｃｉとすると、個体集合ｃにおける更新前の確率はＮ_ｃｉ／Ｎ_ｃである。確率分布算出部１２４は、個体集合ｃにおける確率を個別の利得と平均利得とに基づいて修正し、個体集合ｂにおける確率と修正した確率とを学習率ｌｒで合成する。

（Ｓ１８）個体集合更新部１２５は、ステップＳ１７で更新された確率分布に基づいて、直近の個体集合に対して淘汰および繁殖を含む選択操作を行い、個体集合ｂを生成する。個体集合ｂに含まれる戦略それぞれの個体数は、その戦略の確率に合わせられる。ただし、個体集合ｂの個体数が有限であるため、個体集合ｂにおける各戦略の割合はステップＳ１７で算出された確率と厳密に一致するとは限らない。各戦略の確率は、個体集合ｂにおける個体数の比率で近似されることになる。確率が低下した戦略の個体の比率が０％に近似されると、その戦略が個体集合ｂから消滅する。

（Ｓ１９）個体集合更新部１２５は、一定の確率で個体集合ｂに対して交叉を行う。交叉は、個体集合ｂからランダムに２つの個体を選択し、選択した２つの個体の間で一部次元の数値を入れ替える。交叉によって生じた戦略が個体集合ｂに含まれない新しい戦略である場合、個体集合更新部１２５は、新しい戦略の個体を個体集合ｂに追加する。追加される個体の数は、新しい戦略毎に１つでよい。なお、新しい戦略は、２世代以上前の個体集合に出現済みの戦略であってもよい。

（Ｓ２０）個体集合更新部１２５は、一定の確率で個体集合ｂに対して突然変異を行う。突然変異は、個体集合ｂからランダムに１つの個体を選択し、選択した個体の一部次元の数値を書き換える。突然変異によって生じた戦略が個体集合ｂに含まれない新しい戦略である場合、個体集合更新部１２５は、新しい戦略の個体を個体集合ｂに追加する。追加される個体の数は、新しい戦略毎に１つでよい。

（Ｓ２１）個体集合更新部１２５は、個体集合ｂに含まれない新しい戦略をランダムに一定個数だけ生成し、新しい戦略の個体を個体集合ｂに追加する。追加される個体の数は、新しい戦略毎に１つでよい。ステップＳ１９～Ｓ２１により個体集合ｃが生成される。

図１１は、均衡解探索の手順例を示すフローチャート（続き）である。
（Ｓ２２）利得算出部１２３は、直近の個体集合ｃから個体を１つ選択し、選択した個体が示す戦略を自プレイヤーの戦略として決定する。

（Ｓ２３）利得算出部１２３は、ステップＳ２２の自プレイヤーの戦略がステップＳ２２～Ｓ２９のイテレーションの間に既出であるか、すなわち、ステップＳ２２の戦略に対して利得が算出済みであるか判断する。既出の戦略である場合はステップＳ２９に処理が進み、既出の戦略でない場合はステップＳ２４に処理が進む。

（Ｓ２４）利得算出部１２３は、他プレイヤー毎に直近の個体集合ｂからランダムに個体を１つ選択し、選択した個体が示す戦略を当該他プレイヤーの戦略として決定する。個体集合ｂの個体数をＮ_ｂとし、ある戦略の個体数をＮ_ｂｉとすると、その戦略はＮ_ｂｉ／Ｎ_ｂの確率で選択されることになる。

（Ｓ２５）利得算出部１２３は、決定された自プレイヤーの戦略および他プレイヤーの戦略のもとでシミュレーションを行い、自プレイヤーの利得を１回算出する。
（Ｓ２６）利得算出部１２３は、ステップＳ２４～Ｓ２７のイテレーションが複数回行われた場合、ステップＳ２５で算出された利得を平均化する。

（Ｓ２７）利得算出部１２３は、ステップＳ２２の自プレイヤーの戦略について、利得が収束条件を満たすか判断する。収束条件は、ステップＳ２４～Ｓ２７のイテレーション回数が第１閾値を超えており、かつ、前イテレーションの平均化利得に対する現イテレーションの平均化利得の変化割合が第２閾値未満であることである。第２閾値は、例えば、個体集合ｃの個体数の逆数である。第１閾値は、ステップＳ１５と同じでもよいし異なってもよい。収束条件を満たす場合はステップＳ２８に処理が進み、収束条件を満たさない場合はステップＳ２４に処理が戻る。

（Ｓ２８）利得算出部１２３は、収束した平均化利得を用いて、ステップＳ２２の自プレイヤーの戦略の利得を更新する。ステップＳ２２の戦略が前世代の個体集合に含まれない場合、更新後の利得は、シミュレーションを通じて算出された平均化利得である。ステップＳ２２の戦略が前世代の個体集合に含まれる場合、更新後の利得は、上記の平均化利得と前世代の利得とを重みｗで合成したものである。

（Ｓ２９）利得算出部１２３は、直近の個体集合ｃに含まれる全ての個体を選択したか判断する。全ての個体を選択した場合はステップＳ３０に処理が進み、個体集合ｃに未選択の個体がある場合はステップＳ２２に処理が戻る。

（Ｓ３０）個体集合更新部１２５は、個体集合の世代数が事前に規定された上限世代数に達したか判断する。世代数が上限世代数に達した場合はステップＳ３１に処理が進み、世代数が上限世代数に達していない場合はステップＳ１７に処理が戻る。

（Ｓ３１）確率分布算出部１２４は、直近の個体集合ｃに含まれる戦略それぞれの確率を、個別の利得と平均利得とに基づいて更新する。個体集合更新部１２５は、個体集合ｃに含まれる戦略についての最新の確率分布を、混合戦略の確率分布の均衡解とみなして出力する。個体集合更新部１２５は、混合戦略の確率分布を表示装置１１１に表示してもよいし、不揮発性ストレージに保存してもよいし、他の情報処理装置に送信してもよい。

以上説明したように、第２の実施の形態の情報処理装置１００は、複数のプレイヤーの合理的な意思決定の結果として生じる混合戦略の確率分布の均衡解を算出する。これにより、複雑な社会システムの分析や制度設計にとって有用な情報が生成される。

また、情報処理装置１００は、遺伝的アルゴリズムの個体集合によって混合戦略の確率分布を近似する。情報処理装置１００は、個体集合に含まれる戦略の利得を最新の確率分布に従って算出し、算出された利得に基づいて個体集合に含まれる個体の淘汰および繁殖を行う。また、情報処理装置１００は、交叉、突然変異およびランダム追加によって、少数の新しい戦略を個体集合に確率的に追加する。

利得は最新の個体集合に含まれる戦略に対してのみ算出される。このため、全ての世代で全ての戦略の利得を算出するレプリケータダイナミクスと比べて、シミュレーションの計算量が減少して計算時間が短縮する。また、各世代で少数の新しい戦略が追加されるため、絞り込まれた戦略以外の新しい戦略を検討する機会がある程度確保される。このため、レプリケータダイナミクスに対して精度の高い近似解が算出される。

また、情報処理装置１００は、第１世代の個体集合を生成するにあたり、原則として全ての戦略の利得を算出して確率を求める。これにより、好ましい戦略が第１世代の個体集合に含まれないリスクが低下し、均衡解の収束が早くなると共に均衡解の精度が向上する。また、情報処理装置１００は、交叉および突然変異に加えて、ランダム追加によって各世代で新しい戦略を個体集合に追加する。これにより、交叉や突然変異のみでは新しい戦略が発生しづらくなって戦略数が極端に少なくなるリスクが低下する。その結果、戦略数の減少に伴って確率分布が不安定になるリスクが低下する。

また、情報処理装置１００は、学習率ｌｒを用いて、利得に基づいて修正された確率と前世代の確率との加重平均を算出する。これにより、確率分布の急激な変化が抑制されて精度の高い均衡解が算出されやすくなる。また、情報処理装置１００は、重みｗを用いて、シミュレーションによって算出された利得と前世代の利得との加重平均を算出する。これにより、過去の世代のシミュレーションで選択された他プレイヤーの戦略や乱数の影響が最新の利得にある程度引き継がれる。その結果、シミュレーションによって算出される利得の偶然性が抑制され、信頼性の高い利得が算出される。

また、情報処理装置１００は、ある戦略の利得を算出するにあたり、他プレイヤーの戦略は新しい戦略を追加する前の個体集合の中から選択する。新しい戦略はまだ利得関数によって評価されておらず、その確率の信頼性は低い。このため、新しい戦略を追加する前の個体集合を用いることで、利得計算のノイズが減少する。

１０情報処理装置
１１記憶部
１２処理部
１３データ集合
１４，１６分布
１５－１，１５－２，１５－３，１７－１，１７－２評価値

Claims

複数の行動のうちの１つをそれぞれ示す複数のレコードを含むデータ集合を生成し、
前記複数の行動のうち前記データ集合に出現する２以上の第１の行動それぞれに対する第１の評価値を、前記データ集合における前記２以上の第１の行動の出現頻度の分布に基づいて算出し、
前記第１の評価値が閾値より大きい第１の行動の出現頻度が増加するように、前記データ集合に含まれる前記複数のレコードのうちの少なくとも一部のレコードを更新し、
前記複数の行動のうち更新された前記データ集合に出現する２以上の第２の行動それぞれに対する第２の評価値を、更新された前記データ集合における前記２以上の第２の行動の出現頻度の分布に基づいて算出する、
処理をコンピュータに実行させる均衡解探索プログラム。
前記少なくとも一部のレコードの更新は、前記第１の評価値が前記閾値より小さい第１の行動の少なくとも一部を前記データ集合から消去する処理を含む、
請求項１記載の均衡解探索プログラム。
前記少なくとも一部のレコードの更新は、前記複数の行動のうち前記データ集合に出現しない新しい行動を前記データ集合に追加する処理を含む、
請求項１記載の均衡解探索プログラム。
前記新しい行動の追加前における第１の出現頻度と、前記新しい行動の追加後における第２の出現頻度と、前記第２の評価値とに基づいて、前記２以上の第２の行動それぞれの更新後の出現頻度を決定する処理を前記コンピュータに更に実行させる、
請求項３記載の均衡解探索プログラム。
前記第２の評価値の算出は、前記２以上の第１の行動のうちの１つと同一である第２の行動に対する前記第２の評価値を、前記第１の評価値を更に用いて算出する処理を含む、
請求項１記載の均衡解探索プログラム。
複数の行動のうちの１つをそれぞれ示す複数のレコードを含むデータ集合を生成し、
前記複数の行動のうち前記データ集合に出現する２以上の第１の行動それぞれに対する第１の評価値を、前記データ集合における前記２以上の第１の行動の出現頻度の分布に基づいて算出し、
前記第１の評価値が閾値より大きい第１の行動の出現頻度が増加するように、前記データ集合に含まれる前記複数のレコードのうちの少なくとも一部のレコードを更新し、
前記複数の行動のうち更新された前記データ集合に出現する２以上の第２の行動それぞれに対する第２の評価値を、更新された前記データ集合における前記２以上の第２の行動の出現頻度の分布に基づいて算出する、
処理をコンピュータが実行する均衡解探索方法。
複数の行動のうちの１つをそれぞれ示す複数のレコードを含むデータ集合を記憶する記憶部と、
前記複数の行動のうち前記データ集合に出現する２以上の第１の行動それぞれに対する第１の評価値を、前記データ集合における前記２以上の第１の行動の出現頻度の分布に基づいて算出し、前記第１の評価値が閾値より大きい第１の行動の出現頻度が増加するように、前記データ集合に含まれる前記複数のレコードのうちの少なくとも一部のレコードを更新し、前記複数の行動のうち更新された前記データ集合に出現する２以上の第２の行動それぞれに対する第２の評価値を、更新された前記データ集合における前記２以上の第２の行動の出現頻度の分布に基づいて算出する処理部と、
を有する情報処理装置。