JP2023105374A

JP2023105374A - 均衡解探索プログラム、均衡解探索方法および情報処理装置

Info

Publication number: JP2023105374A
Application number: JP2022006158A
Authority: JP
Inventors: 菜月石川; Natsuki Ishikawa; 雅俊小川; Masatoshi Ogawa
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2023-07-31

Abstract

【課題】均衡解を効率的に探索する。【解決手段】情報処理装置１０は、第１のノードの行動の候補を示す複数の第１のレコードを含む候補データ１３を各第１のレコードの評価値に基づいて更新し、新しい第１のレコードの評価値を第２のノードの行動の候補を示す候補データ１４に基づいて算出する、ことをそれぞれ含む複数のイテレーションを実行する。情報処理装置１０は、候補データ１４が更新される場合、候補データ１４における評価値の変化の大きさを示す変化指標値１７が閾値１８を超えるか判定する。情報処理装置１０は、変化指標値１７が閾値１８を超える場合、更新された候補データ１３に含まれる新しい第１のレコード以外の他の第１のレコードの評価値を、更新された候補データ１４に基づいて更新する。【選択図】図１

Description

本発明は均衡解探索プログラム、均衡解探索方法および情報処理装置に関する。

情報処理装置は、ノードの行動の候補を生成して評価関数で評価することを繰り返すことによって、ノードの行動を最適化するシミュレーションを実行することがある。例えば、遺伝的アルゴリズムでは、情報処理装置は、複数の遺伝子を含む遺伝子集合を生成し、適応度関数を用いて各遺伝子の適応度を算出する。情報処理装置は、適応度に応じて一部の遺伝子を次世代の遺伝子集合にコピーし、交叉や突然変異によって一部の遺伝子を確率的に改変して新しい遺伝子を追加する。これにより、様々な遺伝子の適応度が検討され、適応度の小さい遺伝子が淘汰されて適応度の大きい遺伝子が最終的に残る。

なお、複数のボリュームにファイルを分配する場合に、ボリューム間でファイル数、データ総量およびアクセス回数が平準化されるような最適なファイル配置を、遺伝的アルゴリズムを用いて決定するファイル再配置システムが提案されている。また、文字認識に使用する特徴量を、認識率が閾値を超える範囲で特徴量の個数ができる限り少なくなるように、遺伝的アルゴリズムを用いて選択する文字認識装置が提案されている。

また、複数のプレイヤーがそれぞれ遺伝的アルゴリズムに従って戦略を選択することで、プレイヤー間の均衡状態を探索する戦略ゲーム型遺伝的アルゴリズムが提案されている。各プレイヤーは、交叉や突然変異によって新しい戦略を生成すると、他のプレイヤーがもつ同世代の戦略を参照して当該新しい戦略の利得を算出する。各プレイヤーは、現世代の戦略それぞれの利得に基づいて、次世代に残す戦略を選択する。

特開２００３－２９６１４９号公報特開２００８－７１２１４号公報

有村幹治、田村亨、井田直人、「土木計画分野における遺伝的アルゴリズム：最適化と適応学習」、土木学会論文集Ｄ、第６２巻第４号、５０５～５１８頁、２００６年１０月

前述の戦略ゲーム型遺伝的アルゴリズムのようにノード間の均衡解を探索する場合、情報処理装置は、あるノードの行動の候補に対する評価値を、他のノードの行動の候補を参照して算出することがある。ただし、あるノードの候補集合を反復的に更新する間に、他のノードの行動の候補が変化する可能性がある。

その場合、候補集合の世代が進む毎に全ての候補の評価値を再度算出することは、計算量が大きく非効率である。一方、新しい候補に対してのみ評価値を算出して、既存の候補の評価値を更新しないと、他のノードの行動が評価値に適切に反映されないおそれがある。そこで、１つの側面では、本発明は、均衡解を効率的に探索することを目的とする。

１つの態様では、以下の処理をコンピュータに実行させる均衡解探索プログラムが提供される。第１のノードの行動の候補をそれぞれ示す複数の第１のレコードを含む第１の候補データを、各第１のレコードの評価値に基づいて更新し、更新された第１の候補データに含まれる新しい第１のレコードの評価値を、第２のノードの行動の候補を示す第２の候補データに基づいて算出する、ことをそれぞれ含む複数のイテレーションを実行する。複数のイテレーションの間に第２の候補データが更新される場合、第２の候補データにおける評価値の変化の大きさを示す変化指標値が閾値を超えるか判定する。変化指標値が閾値を超える場合、更新された第１の候補データに含まれる第１のレコードのうち新しい第１のレコード以外の他の第１のレコードの評価値を、更新された第２の候補データに基づいて更新する。また、１つの態様では、コンピュータが実行する均衡解探索方法が提供される。また、１つの態様では、記憶部と処理部とを有する情報処理装置が提供される。

１つの側面では、均衡解が効率的に探索される。

第１の実施の形態の情報処理装置を説明するための図である。情報処理装置のハードウェア例を示すブロック図である。複数プレイヤーの遺伝的アルゴリズムの実行例を示す図である。複数プレイヤーの遺伝的アルゴリズムの実行例を示す図（続き１）である。複数プレイヤーの遺伝的アルゴリズムの実行例を示す図（続き２）である。シミュレーション対象のプレイヤーの例を示す図である。シミュレーション上の戦略および利得の定義例を示す図である。遺伝的アルゴリズムの実行中の戦略テーブルの例を示す図である。世代の進行に対する最大利得の変化例を示すグラフである。利得の比較例を示すグラフである。情報処理装置の機能例を示すブロック図である。均衡解探索の手順例を示すフローチャートである。

以下、本実施の形態を図面を参照して説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

図１は、第１の実施の形態の情報処理装置を説明するための図である。
第１の実施の形態の情報処理装置１０は、複数のノードの行動の均衡解を探索するシミュレーションを行う。シミュレーションには遺伝的アルゴリズムが用いられてもよいし、粒子群最適化（ＰＳＯ：Particle Swarm Optimization）が用いられてもよい。情報処理装置１０は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１０が、コンピュータ、均衡解探索装置またはシミュレーション装置と呼ばれてもよい。

情報処理装置１０は、記憶部１１および処理部１２を有する。記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性半導体メモリでもよいし、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性ストレージでもよい。処理部１２は、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）などのプロセッサである。ただし、処理部１２が、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの電子回路を含んでもよい。プロセッサは、例えば、ＲＡＭなどのメモリ（記憶部１１でもよい）に記憶されたプログラムを実行する。プロセッサの集合が、マルチプロセッサまたは単に「プロセッサ」と呼ばれてもよい。

記憶部１１は、第１のノードに関する候補データ１３と、第２のノードに関する候補データ１４とを記憶する。第１のノードおよび第２のノードは、シミュレーション上の行動主体を表してもよく、プレイヤーまたはエージェントと呼ばれてもよい。第１のノードおよび第２のノードが、それぞれプロセッサまたはコンピュータに対応してもよい。

候補データ１３は、第１のノードの行動の候補をそれぞれ示す複数の第１のレコードを含む。例えば、候補データ１３は、レコード１５ａ，１５ｂを含む。候補データ１４は、第２のノードの行動の候補を示す。候補データ１４が、第２のノードの行動の候補をそれぞれ示す複数の第２のレコードを含んでもよい。レコードは遺伝子または戦略と呼ばれてもよく、候補データは遺伝子集合または戦略集合と呼ばれてもよい。レコードは、複数の次元の数値を列挙したベクトルであってもよい。

また、記憶部１１は、複数の第１のレコードそれぞれの評価値を記憶する。例えば、記憶部１１は、レコード１５ａに対する評価値１６ａと、レコード１５ｂに対する評価値１６ｂとを記憶する。ある第１のレコードの評価値は、特定の評価関数に基づいて、当該第１のレコードと候補データ１４とから算出される。評価関数は適応度関数または利得関数と呼ばれてもよく、評価値は適応度または利得と呼ばれてもよい。評価関数は、評価値を算出する毎に選択される乱数を含んでもよい。

処理部１２は、候補データ１３に対して複数のイテレーションを実行する。イテレーションは、各第１のレコードの評価値に基づいて候補データ１３を更新することを含む。例えば、イテレーションは、評価値の大きい方から優先的に選択される一部の第１のレコードを残して選択されなかった第１のレコードを削除すると共に、交叉または突然変異によって生成される新しい第１のレコードを追加することを含む。よって、候補データ１３の更新により、一部の第１のレコードが残り、他の第１のレコードが置換されることがある。候補データ１３を更新することが、候補データ１３の世代が進むと呼ばれてもよい。

また、イテレーションは、更新された候補データ１３に含まれる新しい第１のレコードの評価値を、候補データ１４に基づいて算出することを含む。このとき、処理部１２は、後述する条件が成立する場合を除き、更新前から候補データ１３に含まれている既存の第１のレコードの評価値を再度算出しなくてもよい。例えば、評価値１６ａが評価値１６ｂより高く、レコード１５ａが残ってレコード１５ｂが置換されることがある。この場合、処理部１２は、レコード１５ａの評価値１６ａを再度算出せず、置換後の新しい第１のレコードに対する評価値のみを算出することがある。

なお、処理部１２は、候補データ１４に対して候補データ１３と同様の複数のイテレーションを実行してもよい。その場合、処理部１２は、更新された候補データ１４に含まれる新しい第２のレコードの評価値を、候補データ１３に基づいて算出してもよい。候補データ１３に対するイテレーションと候補データ１４に対するイテレーションとは、逐次的に実行されてもよいし並列に実行されてもよい。情報処理装置１０が有する複数のプロセッサまたは複数の情報処理装置が、候補データ１３に対するイテレーションと候補データ１４に対するイテレーションとを並列に実行してもよい。

上記のように、複数のイテレーションの実行中に候補データ１４が更新される場合がある。その場合、処理部１２は、候補データ１４における評価値の変化の大きさを示す変化指標値１７を算出し、変化指標値１７が閾値１８を超えるか判定する。

変化指標値１７は、基準のイテレーションでの評価値と現在のイテレーションでの評価値との差分（例えば、両者の差の絶対値）でもよい。また、変化指標値１７は、基準のイテレーションでの評価値に対する差分の比率を示す変化率であってもよい。基準のイテレーションは、候補データ１４に含まれる全ての第２のレコードに対して評価値が算出されたイテレーションのうち直近のイテレーションであってもよい。

変化を監視する評価値は、候補データ１４に含まれる第２のレコードの平均評価値でもよい。例えば、処理部１２は、候補データ１４が更新される毎に、更新された候補データ１４に含まれる全ての第２のレコードの平均評価値を算出する。また、変化を監視する評価値は、候補データ１４からサンプリングされる第２のレコードに対する最新の評価値でもよい。例えば、処理部１２は、候補データ１４が更新される毎に、候補データ１４から一部の第２のレコードを抽出する。処理部１２は、抽出された第２のレコードの評価値を最新の候補データ１３に基づいてそれぞれ算出し直し、その最大値、平均値、または、変化指標値１７が最大化されるもの（最大値と最小値の何れか一方）を採用する。

変化指標値１７が閾値１８を超える場合、処理部１２は、更新された候補データ１３に含まれる第１のレコードのうち新しい第１のレコードでない既存の第１のレコードの評価値を、更新された候補データ１４に基づいて更新する。例えば、処理部１２は、更新された候補データ１４に基づいて既存の第１のレコードの評価値を再度算出し、元の評価値を、元の評価値と新しい評価値との加重平均に置換する。

なお、既存の第１のレコードの評価値を再度算出する場合、処理部１２は、候補データ１４からランダムに１以上の第２のレコードを選択し、既存の第１のレコードと選択された第２のレコードとの組み合わせに基づいて評価値を算出してもよい。その場合、処理部１２は、新しい第１のレコードの評価値についても、既存の第１のレコードと同じ方法で算出してもよい。一方、新しい第１のレコードの評価値のみを算出する場合、処理部１２は、候補データ１４から評価値に応じて（例えば、評価値の大きい方から優先的に）１以上の第２のレコードを選択し、新しい第１のレコードと選択された第２のレコードとの組み合わせに基づいて評価値を算出してもよい。

また、前述のように、第１の実施の形態の均衡解探索は、粒子群最適化に適応することもできる。粒子群最適化は、移動する複数の粒子それぞれの位置および速度を反復的に更新して、それら複数の粒子の位置を最適化する。粒子群最適化は、適応度関数を用いて各位置の適応度を評価し、各粒子が確率的に最良位置へ向かうように速度を変更する。粒子群最適化は、粒子全体から見たグローバルの最良位置の情報と、各粒子から見たローカルの最良位置の情報と、乱数とを用いて、各粒子の速度を更新する。粒子群最適化では、処理部１２は、ある粒子集合における評価値の変化の大きさを示す変化指標値が閾値を超えた場合、全ての粒子の最良位置に対する評価値を更新すればよい。

以上説明したように、第１の実施の形態の情報処理装置１０は、候補データ１３を更新して新しい第１のレコードの評価値を候補データ１４に基づいて算出するイテレーションを、反復的に実行する。情報処理装置１０は、候補データ１４の変化指標値１７が閾値１８を超えるか判定し、変化指標値１７が閾値１８を超える場合、候補データ１３に含まれる既存の第１のレコードの評価値を候補データ１４に基づいて更新する。

これにより、情報処理装置１０は、複数のノードの間の均衡解を探索することができる。また、候補データ１３が更新される毎に全ての第１のレコードの評価値を再度算出する場合と比べて、計算量が減少して均衡解探索が効率化される。また、新しい第１のレコードに対してのみ評価値を算出して既存の第１のレコードの評価値を更新しない場合と比べて、候補データ１４の大きな変化が候補データ１３の全ての第１のレコードの評価値に適切に反映される。よって、均衡解探索の精度や収束速度が向上する。

なお、変化指標値１７は、候補データ１４に含まれる複数の第２のレコードの平均評価値の変化の大きさを示すものであってもよい。これにより、候補データ１４の変化の程度が効率的に推定される。また、変化指標値１７は、候補データ１４からサンプリングされる一部の第２のレコードに対する最新の評価値の変化の大きさを示すものであってもよい。これにより、候補データ１４の変化の程度が高精度に推定される。

また、既存の第１のレコードに対する更新後の評価値は、元の評価値と最新の候補データ１４に基づく新しい評価値との加重平均であってもよい。これにより、評価関数が乱数を使用する場合、乱数のみを変えながら評価値を繰り返し算出しなくても、異なる乱数の影響が評価値に反映されて評価値の妥当性が向上する。

また、情報処理装置１０は、新しい第１のレコードに対してのみ評価値を算出するイテレーションでは、候補データ１４から評価値に応じて一部の第２のレコードを選択し、選択した第２のレコードに基づいて新しい第１のレコードの評価値を算出してもよい。これにより、候補データ１４が大きく変化しない状況では、第２のノードが選択する可能性の高い行動に基づいて評価値が算出され、評価値の妥当性が向上する。

［第２の実施の形態］
次に、第２の実施の形態を説明する。
第２の実施の形態の情報処理装置１００は、戦略ゲーム型遺伝的アルゴリズムを用いたシミュレーションを行う。情報処理装置１００は、遺伝的アルゴリズムによって複数のプレイヤーそれぞれの戦略を利得の最大化を目指して最適化し、その結果として生じるプレイヤー間の均衡状態を探索する。このシミュレーションは、サプライチェーンのような大規模な社会システムの分析や制度設計に適用され得る。情報処理装置１００は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１００が、コンピュータ、均衡解探索装置またはシミュレーション装置と呼ばれてもよい。情報処理装置１００は、第１の実施の形態の情報処理装置１０に対応する。

図２は、情報処理装置のハードウェア例を示すブロック図である。
情報処理装置１００は、バスに接続されたＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、ＧＰＵ１０４、入力インタフェース１０５、媒体リーダ１０６および通信インタフェース１０７を有する。ＣＰＵ１０１は、第１の実施の形態の処理部１２に対応する。ＲＡＭ１０２またはＨＤＤ１０３は、第１の実施の形態の記憶部１１に対応する。

ＣＰＵ１０１は、プログラムの命令を実行するプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムやデータの少なくとも一部をＲＡＭ１０２にロードし、プログラムを実行する。ＣＰＵ１０１は、コア１０１ａ，１０１ｂ，１０１ｃなどの複数のコアを有する。複数のコアは、プログラムの命令を並列に実行する。ＣＰＵ１０１は、後述する３つのプレイヤーに関する遺伝的アルゴリズムを、コア１０１ａ，１０１ｂ，１０１ｃを用いて並列に実行してもよい。

ＲＡＭ１０２は、ＣＰＵ１０１で実行されるプログラムおよびＣＰＵ１０１で演算に使用されるデータを一時的に記憶する揮発性半導体メモリである。情報処理装置１００は、ＲＡＭ以外の種類の揮発性メモリを有してもよい。

ＨＤＤ１０３は、ＯＳ（Operating System）、ミドルウェア、アプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性ストレージである。情報処理装置１００は、フラッシュメモリやＳＳＤ（Solid State Drive）などの他の種類の不揮発性ストレージを有してもよい。

ＧＰＵ１０４は、ＣＰＵ１０１と連携して画像処理を行い、情報処理装置１００に接続された表示装置１１１に画像を出力するプロセッサである。表示装置１１１は、例えば、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイまたはプロジェクタである。

ＧＰＵ１０４は、ＧＰＧＰＵ（General Purpose Computing on Graphics Processing Units）として使用されてもよい。その場合、ＧＰＵ１０４は、ＣＰＵ１０１からの指示に応じてプログラムの命令を実行する。ＧＰＵ１０４は、コア１０４ａ，１０４ｂ，１０４ｃなどの複数のコアを有してもよい。複数のコアは、プログラムの命令を並列に実行する。ＧＰＵ１０４は、後述する３つのプレイヤーに関する遺伝的アルゴリズムを、コア１０４ａ，１０４ｂ，１０４ｃを用いて並列に実行してもよい。また、ＧＰＵ１０４は、ＲＡＭ１０２とは別個の揮発性半導体メモリをＧＰＵメモリとして有してもよい。

入力インタフェース１０５は、情報処理装置１００に接続された入力デバイス１１２から入力信号を受け付ける。入力デバイス１１２は、例えば、マウス、タッチパネルまたはキーボードである。情報処理装置１００に複数の入力デバイスが接続されてもよい。

媒体リーダ１０６は、記録媒体１１３に記録されたプログラムやデータを読み取る読み取り装置である。記録媒体１１３は、例えば、磁気ディスク、光ディスクまたは半導体メモリである。磁気ディスクには、フレキシブルディスク（ＦＤ：Flexible Disk）およびＨＤＤが含まれる。光ディスクには、ＣＤ（Compact Disc）およびＤＶＤ（Digital Versatile Disc）が含まれる。媒体リーダ１０６は、記録媒体１１３から読み取られたプログラムおよびデータを、ＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、ＣＰＵ１０１によって実行されることがある。

記録媒体１１３は、可搬型記録媒体であってもよい。記録媒体１１３は、プログラムおよびデータの配布に用いられることがある。また、記録媒体１１３およびＨＤＤ１０３が、コンピュータ読み取り可能な記録媒体と呼ばれてもよい。

通信インタフェース１０７は、ネットワーク１１４を介して他の情報処理装置と通信する。通信インタフェース１０７は、スイッチやルータなどの有線通信装置に接続される有線通信インタフェースでもよいし、基地局やアクセスポイントなどの無線通信装置に接続される無線通信インタフェースでもよい。

次に、第２の実施の形態の戦略ゲーム型遺伝的アルゴリズムについて説明する。
図３は、複数プレイヤーの遺伝的アルゴリズムの実行例を示す図である。
ここでは、３つのプレイヤーが遺伝的アルゴリズムに従って並列に、自身の利得が最大になるように戦略集合を反復的に更新する。第２の実施の形態において、プレイヤーは自らの意思で戦略を選択する個人または企業としての行動主体であり、エージェントまたはノードと呼ばれてもよい。戦略、戦略集合、利得および利得関数は、遺伝的アルゴリズムの遺伝子、遺伝子集合、適応度および適応度関数に相当する。戦略集合が反復的に更新されることで、戦略集合の世代が進行する。３つのプレイヤーの間で、世代の進行は同期して行われる。情報処理装置１００は、世代数が事前に設定された上限世代数Ｇに達した時点で、遺伝的アルゴリズムを停止する。

３つのプレイヤーの遺伝的アルゴリズムは、同一のプロセッサによって時分割で実行されてもよいし、異なるプロセッサによって並列に実行されてもよい。例えば、プレイヤーＡの遺伝的アルゴリズムがコア１０１ａまたはコア１０４ａで実行され、プレイヤーＢの遺伝的アルゴリズムがコア１０１ｂまたはコア１０４ｂで実行され、プレイヤーＣの遺伝的アルゴリズムがコア１０１ｃまたはコア１０４ｃで実行される。

情報処理装置１００は、プレイヤーＡについて第１世代（初期世代）の戦略集合１３０を生成し、プレイヤーＢについて第１世代の戦略集合１４０を生成し、プレイヤーＣについて第１世代の戦略集合１５０を生成する。戦略集合１３０，１４０，１５０は、それぞれＰ個の戦略を含む。Ｐ個の戦略の中に同一の戦略が重複して含まれていてもよい。

各戦略は、利得を得るための行動の方針を示しており、複数次元の数値を列挙したベクトルである。情報処理装置１００は、第１世代の戦略をランダムに生成してもよいし、偏りが小さくなるように一定の規則で生成してもよい。例えば、情報処理装置１００は、プレイヤー毎に、各次元の数値の候補を列挙してベクトル空間を定義し、ベクトル空間の中からラテン超方格法によってＰ個のベクトルを選択する。ラテン超方格法は、偏りが小さくなるように複数のサンプルを選択する実験計画法の１つである。ラテン超方格法は、各次元について同一の数値をもつベクトルの個数が少なくなるように、Ｐ個のベクトルそれぞれの複数次元の数値の組み合わせを決定する。

情報処理装置１００は、第１世代の戦略集合１３０，１４０，１５０に対して一斉利得算出を実行する。一斉利得算出は、プレイヤーＡ，Ｂ，Ｃの間で同期して行われる。一斉利得算出は、各プレイヤーがもつ戦略集合の中の全ての戦略の利得を、利得関数を用いて、他のプレイヤーがもつ戦略集合を参照しつつ算出する。

一斉利得算出では、情報処理装置１００は、あるプレイヤーの１つの戦略の利得を算出するために、他のプレイヤーそれぞれの戦略集合からランダムに異なるＫ個の相手戦略を抽出する。情報処理装置１００は、１つの戦略につき相手戦略の組み合わせをＫ通り生成し、自戦略および相手戦略を利得関数に入力することでＫ個の利得を算出する。情報処理装置１００は、Ｋ個の利得の平均を、当該１つの戦略の利得として採用する。

例えば、情報処理装置１００は、戦略集合１３０の第１戦略の利得を算出するために、戦略集合１４０からランダムに異なるＫ個の相手戦略を抽出し、戦略集合１５０からランダムに異なるＫ個の相手戦略を抽出する。情報処理装置１００は、プレイヤーＡ，Ｂ，Ｃの戦略の組み合わせをＫ通り生成し、Ｋ通りの組み合わせをそれぞれ利得関数に入力する。情報処理装置１００は、Ｋ個の利得の平均を第１戦略の利得として採用する。同様にして、情報処理装置１００は、戦略集合１３０の他のＰ－１個の戦略それぞれの利得を算出する。また、情報処理装置１００は、戦略集合１４０のＰ個の戦略それぞれの利得を算出し、戦略集合１５０のＰ個の戦略それぞれの利得を算出する。

なお、利得関数は、プレイヤーＡ，Ｂ，Ｃの行動以外の外部環境を示す乱数を使用することがある。利得関数は、利得を算出する毎に新しい乱数を選択する。ただし、利得関数は、同一プレイヤーかつ同一世代の戦略に対して同一の乱数を使用してもよい。異なるプレイヤーの戦略に対しては異なる乱数が使用されることが好ましい。これにより、複数のプレイヤーの戦略集合が過度に早期に収束して局所解に陥るリスクが低下する。

一斉利得算出によって、情報処理装置１００は、戦略集合１３０のＰ個の戦略に対応するＰ個の利得を含む利得集合１３１を生成する。また、情報処理装置１００は、戦略集合１４０のＰ個の戦略に対応するＰ個の利得を含む利得集合１４１を生成し、戦略集合１５０のＰ個の戦略に対応するＰ個の利得を含む利得集合１５１を生成する。

次に、情報処理装置１００は、戦略集合１３０，１４０，１５０に対して選択を実行する。プレイヤーＡ，Ｂ，Ｃに対する選択は、同期せずに互いに独立に実行可能である。選択は、戦略集合に含まれる一部の戦略を次世代に残して他の戦略を削除する淘汰と、残した戦略を確率的に複製して戦略数をＰ個に増やす繁殖とを含む。

選択では、情報処理装置１００は、各戦略の利得に基づいて、エリート選択付きのランキング選択を実行する。情報処理装置１００は、エリート選択として、戦略集合の中から利得の大きい上位一定個数の戦略を選択して次世代に残す。情報処理装置１００は、ランキング選択として、エリート選択で選択されなかった戦略に対して利得に比例する選択確率を設定し、選択確率に従って確率的に一定個数の戦略を選択して次世代に残す。よって、利得が大きい上位数個の戦略は選択される一方、それ以外の戦略は利得の高い順に選択されるわけではない。ただし、情報処理装置１００は、ルーレット選択やトーナメント選択など他の選択アルゴリズムを実行してもよい。

選択を通じて、情報処理装置１００は、プレイヤーＡについて戦略集合１３０から戦略集合１３２を生成する。例えば、戦略集合１３２では、戦略集合１３０の第２戦略が削除されて第１戦略が複製される。また、情報処理装置１００は、プレイヤーＢについて戦略集合１４０から戦略集合１４２を生成する。例えば、戦略集合１４２では、戦略集合１４０の第１戦略および第３戦略が削除されて第２戦略が複製される。また、情報処理装置１００は、プレイヤーＣについて戦略集合１５０から戦略集合１５２を生成する。例えば、戦略集合１５２では、戦略集合１５０の第３戦略が削除されて第２戦略が複製される。

図４は、複数プレイヤーの遺伝的アルゴリズムの実行例を示す図（続き１）である。
次に、情報処理装置１００は、戦略集合１３０，１４０，１５０が戦略集合１３２，１４２，１５２に更新されたことに合わせて、利得集合１３１，１４１，１５１を利得集合１３３，１４３，１５３に更新する。利得集合１３３，１４３，１５３は、算出済みの利得の並べ替えによって生成可能である。利得集合１３３は、戦略集合１３２のＰ個の戦略に対応するＰ個の利得を含む。利得集合１４３は、戦略集合１４２のＰ個の戦略に対応するＰ個の利得を含む。利得集合１５３は、戦略集合１５２のＰ個の戦略に対応するＰ個の利得を含む。情報処理装置１００は、この時点の戦略集合１３２，１４２，１５２および利得集合１３３，１４３，１５３を一時的に保存する。

次に、情報処理装置１００は、プレイヤー毎にこの時点の平均利得を算出して保存する。情報処理装置１００は、利得集合１３３に含まれるＰ個の利得の平均を平均利得１３４として算出する。また、情報処理装置１００は、利得集合１４３に含まれるＰ個の利得の平均を平均利得１４４として算出する。また、情報処理装置１００は、利得集合１５３に含まれるＰ個の利得の平均を平均利得１５４として算出する。

ただし、情報処理装置１００は、平均利得に代えて代表利得を算出して保存してもよい。例えば、情報処理装置１００は、プレイヤー毎に、戦略集合から幾つかの戦略をサンプル戦略として抽出し、サンプル戦略の最新の利得を一斉利得算出と同様の方法で算出し直す。情報処理装置１００は、サンプル戦略の最新の利得のうち最大利得を保存する。

次に、情報処理装置１００は、戦略集合１３２，１４２，１５２に対して交叉および突然変異を実行する。例えば、交叉が先に実行され、その後に突然変異が実行される。プレイヤーＡ，Ｂ，Ｃに対する交叉および突然変異は、同期せずに互いに独立に実行可能である。交叉は、戦略集合の中から２つの戦略を選択し、選択した２つの戦略の間で一部の次元の数値を入れ替える。突然変異は、戦略集合から１つの戦略を選択し、選択した戦略に含まれる一部の次元の数値をランダムに書き換える。交叉および突然変異によって確率的に変更される戦略は、戦略集合の中の少数の戦略である。交叉および突然変異によって、前世代の戦略集合にない新しい戦略が生成されることがある。

交叉および突然変異を通じて、情報処理装置１００は、プレイヤーＡについて戦略集合１３２から戦略集合１３５を生成する。例えば、戦略集合１３５では、戦略集合１３２の第１戦略が新しい戦略に変更される。また、情報処理装置１００は、プレイヤーＢについて戦略集合１４２から戦略集合１４５を生成する。例えば、戦略集合１４５では、戦略集合１４２の第３戦略が新しい戦略に変更される。また、情報処理装置１００は、プレイヤーＣについて戦略集合１５２から戦略集合１５５を生成する。例えば、戦略集合１５５では、戦略集合１５２の第２戦略が新しい戦略に変更される。

戦略集合１３５，１４５，１５５は、第２世代の戦略集合である。第２世代の戦略集合は、第１世代の戦略集合と同じ戦略を含むことがある。また、第２世代の戦略集合は、第１世代の戦略集合と異なる戦略を含むことがある。

次に、情報処理装置１００は、第２世代の戦略集合１３５，１４５，１５５に対して差分利得算出を実行する。差分利得算出は、プレイヤーＡ，Ｂ，Ｃの間で同期して行われる。差分利得算出は、各プレイヤーがもつ戦略集合の中の新しい戦略の利得を、利得関数を用いて、他のプレイヤーがもつ戦略集合を参照しつつ算出する。差分利得算出は、一斉利得算出と異なり、既存の戦略の利得を算出し直さなくてよい。

ここで、新しい戦略は、同一プレイヤーの前世代の戦略集合にない戦略を意味してもよく、既存の戦略は、同一プレイヤーの前世代の戦略集合にある戦略を意味してもよい。また、新しい戦略は、同一プレイヤーの過去の戦略集合に１回も出現したことのない戦略を意味してもよく、既存の戦略は、同一プレイヤーの過去の戦略集合に出現したことのある戦略を意味してもよい。新しい戦略は、利得を１回も算出したことのない戦略を意味してもよく、既存の戦略は、利得を算出したことのある戦略を意味してもよい。

差分利得算出では、情報処理装置１００は、あるプレイヤーの１つの戦略の利得を算出するために、他のプレイヤーそれぞれの戦略集合から利得の大きい上位Ｅ個の相手戦略を抽出する。ＥはＫより小さくてもよい。相手戦略を抽出する戦略集合は、直前に一時保存された戦略集合、すなわち、利得が未算出の戦略を含まない戦略集合である。ここでは、情報処理装置１００は、戦略集合１３２，１４２，１５２から相手戦略を抽出する。情報処理装置１００は、１つの戦略につき相手戦略の組み合わせをランダムにＥ通り生成し、自戦略および相手戦略を利得関数に入力することでＥ個の利得を算出する。情報処理装置１００は、Ｅ個の利得の平均を、当該１つの戦略の利得として採用する。

例えば、情報処理装置１００は、戦略集合１３５の第１戦略の利得を算出するために、戦略集合１４２から上位Ｅ個の相手戦略を抽出し、戦略集合１５２から上位Ｅ個の相手戦略を抽出する。情報処理装置１００は、プレイヤーＡ，Ｂ，Ｃの戦略の組み合わせをＥ通り生成し、Ｅ通りの組み合わせをそれぞれ利得関数に入力する。情報処理装置１００は、Ｅ個の利得の平均を第１戦略の利得として採用する。同様にして、情報処理装置１００は、戦略集合１４５の第３戦略の利得および戦略集合１５５の第２戦略の利得を算出する。

差分利得算出によって、情報処理装置１００は、戦略集合１３５のＰ個の戦略に対応するＰ個の利得を含む利得集合１３６を生成する。また、情報処理装置１００は、戦略集合１４５のＰ個の戦略に対応するＰ個の利得を含む利得集合１４６を生成し、戦略集合１５５のＰ個の戦略に対応するＰ個の利得を含む利得集合１５６を生成する。

次に、情報処理装置１００は、選択に戻り、交叉および突然変異を通じて第３世代の戦略集合を生成する。情報処理装置１００は、最新の世代数ｇが上限世代数Ｇに達するまで、上記のイテレーションを繰り返す。よって、第２世代以降の戦略集合に対しては、原則として一斉利得算出ではなく差分利得算出が実行される。

ただし、少なくとも１つのプレイヤーの戦略集合が大きく変化したと判断される場合、情報処理装置１００は、そのイテレーションでは差分利得算出に代えて一斉利得算出を実行する。２回目以降の一斉利得算出は、既存の戦略に対する利得を更新する。戦略集合が大きく変化したことは、変化指標値が閾値Δを超えたことによって判定される。第２の実施の形態の変化指標値は、前回の一斉利得算出からの平均利得の差分、すなわち、最新の平均利得と前回の一斉利得算出の直後の平均利得との差の絶対値である。ただし、変化指標値は、前回の一斉利得算出からの平均利得の変化率であってもよい。また、変化指標値は、前述の代表利得の差分または変化率であってもよい。

図５は、複数プレイヤーの遺伝的アルゴリズムの実行例を示す図（続き２）である。
情報処理装置１００は、第ｎ世代（ｎは３以上の整数）の選択を実行し、その時点のプレイヤーＡ，Ｂ，Ｃの戦略集合および利得集合を一時保存し、プレイヤーＡ，Ｂ，Ｃに対応する平均利得１３７，１４７，１５７を算出する。情報処理装置１００は、第ｎ世代の交叉および突然変異を実行し、プレイヤーＡ，Ｂ，Ｃに対応する戦略集合１３８，１４８，１５８を生成する。戦略集合１３８，１４８，１５８は、第ｎ世代の戦略集合である。例えば、戦略集合１３８の第３戦略は、第１世代から引き継がれたものである。戦略集合１４８の第３戦略は、第２世代から引き継がれたものである。戦略集合１５８の第１戦略は、第１世代から引き継がれたものである。

次に、情報処理装置１００は、平均利得１３７，１４７，１５７に基づいて、少なくとも１つのプレイヤーの戦略集合が前回の一斉利得算出から大きく変化したか判定し、差分利得算出と一斉利得算出の何れか一方を選択する。平均利得の変化量が閾値Δを超える場合、情報処理装置１００は、一斉利得算出を選択する。

ここでは、情報処理装置１００は、戦略集合１３８，１４８，１５８に含まれる全ての戦略の利得を算出する一斉利得算出を実行する。情報処理装置１００は、１つの戦略の利得を算出するために、他のプレイヤーそれぞれの戦略集合からランダムに異なるＫ個の相手戦略を抽出する。相手戦略を抽出する戦略集合は、直近に一時保存された戦略集合、すなわち、平均利得１３７，１４７，１５７の算出に用いられた戦略集合である。情報処理装置１００は、１つの戦略につきＫ個の利得を算出する。

新しい戦略については、情報処理装置１００は、１回目の一斉利得算出と同様に、算出されたＫ個の利得の平均を新しい戦略の利得として採用する。一方、既存の戦略については、情報処理装置１００は、１回目の一斉利得算出と異なり、算出されたＫ個の利得に加えて更新前の利得も用いて既存の戦略の利得を更新する。更新後の利得は、更新前の利得と新しい利得の加重平均である。具体的には、更新後の利得は、更新前の利得と今回算出されたＫ個の利得との合計をＫ＋１で割ったものである。これにより、更新前の利得の算出に使用された乱数の影響が、更新後の利得に間接的に反映される。

例えば、情報処理装置１００は、戦略集合１３８の第１戦略の利得を算出するために、一時保存されたプレイヤーＢの戦略集合からＫ個の相手戦略を抽出し、一時保存されたプレイヤーＣの戦略集合からＫ個の相手戦略を抽出する。情報処理装置１００は、プレイヤーＡ，Ｂ，Ｃの戦略の組み合わせをＫ通り生成し、更新前の利得および利得関数によって算出されるＫ個の利得の平均を、第１戦略の利得として採用する。同様にして、情報処理装置１００は、戦略集合１３８，１４８，１５８の全ての戦略の利得を算出する。

一斉利得算出によって、情報処理装置１００は、戦略集合１３８のＰ個の戦略に対応するＰ個の利得を含む利得集合１３９を生成する。また、情報処理装置１００は、戦略集合１４８のＰ個の戦略に対応するＰ個の利得を含む利得集合１４９を生成し、戦略集合１５８のＰ個の戦略に対応するＰ個の利得を含む利得集合１５９を生成する。

次に、シミュレーション対象の例としてサプライチェーンについて説明する。
図６は、シミュレーション対象のプレイヤーの例を示す図である。
シミュレーション対象のサプライチェーンは、行動主体として原料生産者３１、製造業者３２，３３，３４、小売業者３５，３６，３７および消費者群３８を含む。原料生産者３１は、製造業者３２，３３，３４に原料を販売する。製造業者３２，３３，３４は、原料生産者３１から原料を仕入れて商品を製造し、小売業者３５，３６，３７に商品を販売する。小売業者３５，３６，３７は、製造業者３２，３３，３４から商品を仕入れて消費者群３８に販売する。消費者群３８は、小売業者３５，３６，３７から商品を購入する。

このシミュレーションでは、情報処理装置１００は、製造業者３２，３３，３４と小売業者３５，３６，３７との間の取引を通じて決まる商品の取引量および取引価格の均衡解を探索する。製造業者３２，３３，３４と小売業者３５，３６，３７との間の取引は、製造業者側と小売業者側とがそれぞれ希望の取引量および取引価格を指定するダブルオークション方式によってモデル化される。また、シミュレーション上、製造業者３２および小売業者３５は取引戦略を最適化するプレイヤーであり、製造業者３３，３４および小売業者３６，３７は簡単な固定ルールで取引戦略を選択する非プレイヤーである。

原料生産者３１および消費者群３８も非プレイヤーである。ただし、原料生産者３１が販売する原料の原料価格はランダムに変動しており、製造業者３２，３３，３４にとってそれら製造業者がコントロールしない外部環境に相当する。また、消費者群３８が購入する商品の需要量はランダムに変動しており、小売業者３５，３６，３７にとってそれら小売業者がコントロールしない外部環境に相当する。消費者群３８が小売業者３５，３６，３７から購入する商品の商品価格は、固定である。

情報処理装置１００は、同一の戦略のもとで３０回の取引（例えば、１日１回の取引を３０日分）を連続して行った場合の製造業者３２の利得および小売業者３５の利得を算出する。情報処理装置１００は、製造業者３２および小売業者３５それぞれについて、遺伝的アルゴリズムを用いて利得が最大になる戦略を探索する。

図７は、シミュレーション上の戦略および利得の定義例を示す図である。
原料生産者３１の原料価格は、事前に規定された正規分布に従って１日毎に変動する。原料価格を決定するために乱数が使用される。消費者群３８の需要量は、事前に規定された正規分布に従って１日毎に変動する。需要量を決定するために乱数が使用される。

製造業者３２の戦略は、出荷量と出荷価格を含む二次元ベクトルである。第１次元の出荷量は１日毎の出荷量であり、５００個、６００個、７００個、８００個、９００個の中から選択される。５００個は０に、６００個は１に、７００個は２に、８００個は３に、９００個は４にエンコードされる。第２次元の出荷価格は商品単価である。出荷価格は、原料価格＋７５円、原料価格＋６５円、原料価格＋５５円、原料価格＋４５円、原料価格＋３５円の中から選択される。＋７５円は０に、＋６５円は１に、＋５５円は２に、＋４５円は３に、＋３５円は４にエンコードされる。製造業者３２の利得は、３０日分の売上高から３０日分の原料仕入高を引いた粗利益である。

小売業者３５の戦略は、安全在庫量と仕入価格を含む二次元ベクトルである。第１次元の安全在庫量は、１日の需要量だけ消費者群３８に商品を販売した後に小売業者３５のもとに残る商品の個数である。小売業者３５は、その日の予想需要量から前日の在庫量を引いて安全在庫量を足した数量だけ、その日に商品を仕入れようとする。安全在庫量は、０個、１００個、２００個、３００個、４００個の中から選択される。０個は０に、１００個は１に、２００個は２に、３００個は３に、４００個は４にエンコードされる。

第２次元の仕入価格は商品単価である。仕入価格は、１８０円、１７０円、１６０円、１５０円、１４０円の中から選択される。１８０円は０に、１７０円は１に、１６０円は２に、１５０円は３に、１４０円は４にエンコードされる。小売業者３５の利得は、３０日分の売上高から３０日分の商品仕入高を引いた粗利益である。

製造業者３２，３３，３４および小売業者３５，３６，３７がそれぞれ戦略を選択して希望の取引量および取引価格を提示すると、ダブルオークション方式によって取引量および取引価格が決定される。取引量は業者によって異なる一方、取引価格は製造業者３２，３３，３４および小売業者３５，３６，３７に共通な相場として決定される。相場は、証券取引の板寄せに準ずる方法で決定されてもよい。

例えば、情報処理装置１００は、製造業者３２，３３，３４を希望出荷価格の小さい順にソートし、小売業者３５，３６，３７を希望仕入価格の大きい順にソートする。情報処理装置１００は、順位の高い製造業者から優先的に出荷権利を付与し、順位の高い小売業者から優先的に仕入権利を付与する。情報処理装置１００は、出荷権利のある製造業者の希望出荷価格と仕入権利のある小売業者の希望仕入価格とを比較し、希望出荷価格が希望仕入価格より小さい場合に、その製造業者と小売業者との間の取引を成立させる。取引量は、希望出荷量の未充足部分と希望仕入量の未充足部分とのうちの小さい方である。

情報処理装置１００は、出荷権利のある製造業者の希望出荷量が取引成立によって全て充足されると、出荷権利を次の順位の製造業者に付与する。また、情報処理装置１００は、仕入権利のある小売業者の希望仕入量が取引成立によって全て充足されると、仕入権利を次の順位の小売業者に付与する。情報処理装置１００は、製造業者３２，３３，３４全ての希望出荷量が充足されるか、または、小売業者３５，３６，３７全ての希望仕入量が充足されると、オークションを終了する。また、情報処理装置１００は、希望価格が合わずに取引が成立しなくなった場合、オークションを終了する。

製造業者３２，３３，３４および小売業者３５，３６，３７の取引量は、上記の手順を通じて業者毎に成立した取引の取引量である。一方、製造業者３２，３３，３４および小売業者３５，３６，３７の取引価格は、取引の成立状況から算出される単一の相場である。製造業者３２，３３，３４の希望出荷量の合計が小売業者３５，３６，３７の希望仕入価格の合計より小さい場合、取引価格は、最後に仕入権利をもっていた小売業者の希望仕入価格である。希望出荷量の合計が希望仕入価格の合計より大きい場合、取引価格は、最後に出荷権利をもっていた製造業者の希望出荷価格である。

図８は、遺伝的アルゴリズムの実行中の戦略テーブルの例を示す図である。
戦略テーブル１２６は、情報処理装置１００に記憶される。戦略テーブル１２６は、プレイヤーである製造業者３２の戦略集合および利得集合を含む。また、戦略テーブル１２６は、プレイヤーである小売業者３５の戦略集合および利得集合を含む。

前述のように製造業者３２の戦略は、出荷量および出荷価格を含む二次元ベクトルである。出荷量は０以上４以下の整数にエンコードされ、出荷価格は０以上４以下の整数にエンコードされる。交叉は、２つの戦略の間で出荷量と出荷価格の何れか一方を入れ替える。突然変異は、出荷量と出荷価格の何れか一方をランダムに書き換える。戦略テーブル１２６は、各戦略に対して粗利益を示す利得を対応付ける。

また、前述のように小売業者３５の戦略は、安全在庫量および仕入価格を含む二次元ベクトルである。安全在庫量は０以上４以下の整数にエンコードされ、仕入価格は０以上４以下の整数にエンコードされる。交叉は、２つの戦略の間で安全在庫量と仕入価格の何れか一方を入れ替える。突然変異は、安全在庫量と仕入価格の何れか一方をランダムに書き換える。戦略テーブル１２６は、各戦略に対して粗利益を示す利得を対応付ける。

図９は、世代の進行に対する最大利得の変化例を示すグラフである。
曲線４１，４２は、以下の条件でシミュレーションを行った場合の世代数と最大利得との関係を示す。最大利得は、戦略集合に含まれる戦略の利得のうちの最大値である。上限世代数Ｇは３００、戦略集合の戦略数Ｐは５０、一斉利得算出時の相手戦略数Ｋは２０、差分利得算出時の相手戦略数Ｅは３、変化指標値の閾値Δは２０００である。また、交叉確率は３０％、突然変異確率は５％、エリート選択の個数は５である。曲線４１は、小売業者３５の最大利得の変化を示す。曲線４２は、製造業者３２の最大利得の変化を示す。

曲線４１，４２に示すように、世代の進行に伴って、製造業者３２の最大利得および小売業者３５の最大利得が収束している。このシミュレーション例では、第２世代から第３００世代の間に、一斉利得算出が７回行われている。７回の一斉利得算出ではそれぞれ、相手戦略の変化が認識されることで既存の戦略の評価が下がり、最大利得が大きく低下している。以下では、時点４３，４４における製造業者３２，３３，３４および小売業者３５，３６，３７の利得を比較する。時点４４は時点４３よりも後の世代である。

図１０は、利得の比較例を示すグラフである。
グラフ４５は、時点４３における小売業者３５，３６，３７の利得を示す。グラフ４６は、時点４３における製造業者３２，３３，３４の利得を示す。グラフ４７は、時点４４における小売業者３５，３６，３７の利得を示す。グラフ４８は、時点４４における製造業者３２，３３，３４の利得を示す。グラフ４５，４７に示すように、前述の遺伝的アルゴリズムによって、小売業者３５は小売業者３６，３７よりも安定して大きい利得を得ている。また、グラフ４６，４８に示すように、前述の遺伝的アルゴリズムによって、製造業者３２は製造業者３３，３４よりも安定して大きい利得を得ている。

次に、情報処理装置１００の機能および処理手順について説明する。
図１１は、情報処理装置の機能例を示すブロック図である。
情報処理装置１００は、設定情報記憶部１２１、戦略記憶部１２２、戦略生成部１２３、利得算出部１２４および世代制御部１２５を有する。設定情報記憶部１２１および戦略記憶部１２２は、例えば、ＲＡＭ１０２またはＨＤＤ１０３を用いて実装される。戦略生成部１２３、利得算出部１２４および世代制御部１２５は、例えば、ＣＰＵ１０１またはＧＰＵ１０４とプログラムとを用いて実装される。

設定情報記憶部１２１は、戦略ゲーム型遺伝的アルゴリズムを実行するための設定情報を記憶する。設定情報は、前述のＧ，Ｐ，Ｋ，Ｅ，Δなどのパラメータを含む。また、設定情報は、戦略を示すベクトルの定義および利得関数を含む。戦略記憶部１２２は、複数のプレイヤーそれぞれがもつ戦略集合を記憶する。また、戦略記憶部１２２は、各戦略に対して算出された利得およびある時点の平均利得を記憶する。

戦略生成部１２３は、ラテン超方格法によって、複数のプレイヤーそれぞれの第１世代の戦略集合を生成する。また、戦略生成部１２３は、複数のプレイヤーそれぞれの第ｎ世代の戦略集合に対して、その戦略集合に含まれる各戦略の利得に応じて選択を実行し、更に交叉および突然変異を実行して第ｎ＋１世代の戦略集合を生成する。

利得算出部１２４は、複数のプレイヤーの第１世代の戦略集合に対して、利得関数を用いて一斉利得算出を実行する。また、利得算出部１２４は、複数のプレイヤーの第ｎ世代の戦略集合に対して、利得関数を用いて差分利得算出と一斉利得算出の何れか一方を選択的に実行する。差分利得算出か一斉利得算出かは、世代制御部１２５から指定される。

世代制御部１２５は、戦略生成部１２３および利得算出部１２４のイテレーションを制御する。世代制御部１２５は、複数のプレイヤーの間で利得算出部１２４による利得の算出を同期させる。また、世代制御部１２５は、現在の世代数ｇが上限世代数Ｇに達したか判断し、世代数ｇが上限世代数Ｇに達した時点でシミュレーションを終了する。また、世代制御部１２５は、複数のプレイヤーそれぞれの戦略集合の変化指標値を監視する。少なくとも１つのプレイヤーについて変化指標値が閾値Δを超えたイテレーションでは、世代制御部１２５は、利得算出部１２４に一斉利得算出を指示する。それ以外のイテレーションでは、世代制御部１２５は、利得算出部１２４に差分利得算出を指示する。

図１２は、均衡解探索の手順例を示すフローチャートである。
ここでは、１つのプレイヤーに着目して処理を説明する。
（Ｓ１０）戦略生成部１２３は、ラテン超方格法によってベクトル空間から偏りの小さいＰ個の戦略を抽出し、Ｐ個の戦略を含む戦略集合を生成する。

（Ｓ１１）利得算出部１２４は、ステップＳ１０の戦略集合の戦略毎に、他のプレイヤーの戦略集合からランダムに異なるＫ個の相手戦略を抽出する。
（Ｓ１２）利得算出部１２４は、ステップＳ１０の戦略集合の戦略毎に、その戦略とＫ個の相手戦略と乱数からＫ個の利得を算出する。利得算出部１２４は、算出されたＫ個の利得の平均をその戦略の利得として採用する。

（Ｓ１３）戦略生成部１２３は、現在の戦略集合に対して選択を実行する。選択は、利得に応じて一部の戦略を残して他の戦略を削除する淘汰と、戦略数がＰになるまで、削除された戦略の代わりに残った戦略を複製する繁殖とを含む。

（Ｓ１４）戦略生成部１２３は、この時点の戦略集合を一時保存する。利得算出部１２４は、この時点の戦略集合に含まれる戦略の平均利得を算出して一時保存する。
（Ｓ１５）戦略生成部１２３は、ステップＳ１３の選択の後の戦略集合に対して、交叉および突然変異を順に実行する。交叉は、一定確率で２つの戦略の一部次元の数値を入れ替える。突然変異は、一定確率で戦略の一部次元の数値をランダムに変更する。

（Ｓ１６）世代制御部１２５は、ステップＳ１５の交叉および突然変異の後の戦略集合の世代が第３世代以降であるか判断する。第３世代以降である場合、世代制御部１２５は、直近のステップＳ１４の平均利得と前回の一斉利得算出の直後の平均利得との差分が、閾値Δを超えるか判断する。平均利得の差分が閾値Δを超える場合はステップＳ１９に処理が進む。それ以外の場合、ステップＳ１７に処理が進む。

（Ｓ１７）利得算出部１２４は、直前に一時保存された他のプレイヤーの戦略集合から、利得が大きい上位Ｅ個の相手戦略を抽出する。
（Ｓ１８）利得算出部１２４は、ステップＳ１５の交叉および突然変異によって生成された新しい戦略毎に、新しい戦略とＥ個の相手戦略と乱数からＥ個の利得を算出する。利得算出部１２４は、算出されたＥ個の利得の平均を新しい戦略の利得として採用する。そして、ステップＳ２１に処理が進む。

（Ｓ１９）利得算出部１２４は、ステップＳ１５の戦略集合の戦略毎に、直前に一時保存された他のプレイヤーの戦略集合からランダムに異なるＫ個の相手戦略を抽出する。
（Ｓ２０）利得算出部１２４は、ステップＳ１５の戦略集合の戦略毎に、その戦略とＫ個の相手戦略と乱数からＫ個の利得を算出する。利得算出部１２４は、更新前の利得および算出されたＫ個の利得の平均を、その戦略の更新後の利得として採用する。

（Ｓ２１）世代制御部１２５は、現在の戦略集合の世代数が上限世代数Ｇに達したか判断する。世代数が上限世代数Ｇに達した場合、均衡解探索が終了する。世代数が上限世代数Ｇに達していない場合、ステップＳ１３に処理が戻る。

以上説明したように、第２の実施の形態の情報処理装置１００は、遺伝的アルゴリズムによって複数のプレイヤーそれぞれの戦略集合を反復的に更新し、プレイヤー間の均衡状態を探索する。これにより、社会システムの分析や制度設計に有用なシミュレーション結果が得られる。また、情報処理装置１００は、異なるプレイヤーの遺伝的アルゴリズムを異なるプロセッサで並列に実行できる。これにより、シミュレーションが高速化される。

また、情報処理装置１００は、各イテレーションにおいて原則として、新しい戦略に対してのみ利得を算出する差分利得算出を行う。これにより、計算量が減少してシミュレーションが効率化される。一方、情報処理装置１００は、何れかのプレイヤーの戦略集合の変化指標値が閾値を超えたイテレーションでは、既存の戦略の利得も更新する一斉利得算出を行う。これにより、相手戦略が大きく変化した場合にはその変化が既存の戦略の利得に反映され、シミュレーションの精度が向上する。

また、情報処理装置１００は、第１世代の戦略集合をラテン超方格法によって生成する。これにより、第１世代の戦略の偏りが小さくなり、複数のプレイヤーの戦略が不適切な均衡解に収束してしまうリスクが低減する。また、情報処理装置１００は、一斉利得算出ではＫ個の相手戦略をランダムに抽出する。これにより、ある程度の相手戦略の変化に対してロバストな利得が算出される。一方、情報処理装置１００は、差分利得算出では利得の大きい方からＥ個の相手戦略を抽出する。これにより、他のプレイヤーが選択する可能性の高い相手戦略のもとで妥当な利得が算出される。

また、情報処理装置１００は、プレイヤーによって異なる乱数を用いて利得を算出する。これにより、複数のプレイヤーの戦略にばらつきが与えられ、不適切な均衡解に早期に収束してしまうリスクが低減する。また、情報処理装置１００は、第２世代以降の一斉利得算出では、更新前の利得と新たに算出した利得との加重平均を更新後の利得とする。これにより、同一世代で乱数を変えながら利得を繰り返し算出しなくても、異なる乱数の影響を更新後の利得に反映させることができ、利得の信頼性が向上する。

なお、情報処理装置１００は、第２の実施の形態における一斉利得算出と差分利得算出の選択適用を、粒子群最適化に応用することもできる。これにより、粒子群最適化の計算量が減少して効率化されると共に、最適化精度が向上する。

１０情報処理装置
１１記憶部
１２処理部
１３，１４候補データ
１５ａ，１５ｂレコード
１６ａ，１６ｂ評価値
１７変化指標値
１８閾値

Claims

第１のノードの行動の候補をそれぞれ示す複数の第１のレコードを含む第１の候補データを、各第１のレコードの評価値に基づいて更新し、更新された前記第１の候補データに含まれる新しい第１のレコードの評価値を、第２のノードの行動の候補を示す第２の候補データに基づいて算出する、ことをそれぞれ含む複数のイテレーションを実行し、
前記複数のイテレーションの間に前記第２の候補データが更新される場合、前記第２の候補データにおける評価値の変化の大きさを示す変化指標値が閾値を超えるか判定し、
前記変化指標値が前記閾値を超える場合、更新された前記第１の候補データに含まれる第１のレコードのうち前記新しい第１のレコード以外の他の第１のレコードの評価値を、更新された前記第２の候補データに基づいて更新する、
処理をコンピュータに実行させる均衡解探索プログラム。
前記第２の候補データは、前記第２のノードの行動の候補をそれぞれ示す複数の第２のレコードを含み、前記変化指標値は、更新された前記第２の候補データに含まれる第２のレコードの平均評価値の変化の大きさを示す、
請求項１記載の均衡解探索プログラム。
前記第２の候補データは、前記第２のノードの行動の候補をそれぞれ示す複数の第２のレコードを含み、前記変化指標値は、更新された前記第２の候補データからサンプリングされる一部の第２のレコードの評価値の変化の大きさを示す、
請求項１記載の均衡解探索プログラム。
前記更新された評価値は、更新前の評価値と、更新された前記第２の候補データに基づいて算出される新しい評価値との加重平均である、
請求項１記載の均衡解探索プログラム。
前記第２の候補データは、前記第２のノードの行動の候補をそれぞれ示す複数の第２のレコードを含み、
前記他の第１のレコードの評価値を更新しないイテレーションでは、各第２のレコードの評価値に応じて前記第２の候補データから選択される一部の第２のレコードに基づいて、前記新しい第１のレコードの評価値を算出し、
前記他の第１のレコードの評価値の更新では、前記第２の候補データからランダムに選択される一部の第２のレコードに基づいて前記他の第１のレコードの評価値を更新する、
請求項１記載の均衡解探索プログラム。
第１のノードの行動の候補をそれぞれ示す複数の第１のレコードを含む第１の候補データを、各第１のレコードの評価値に基づいて更新し、更新された前記第１の候補データに含まれる新しい第１のレコードの評価値を、第２のノードの行動の候補を示す第２の候補データに基づいて算出する、ことをそれぞれ含む複数のイテレーションを実行し、
前記複数のイテレーションの間に前記第２の候補データが更新される場合、前記第２の候補データにおける評価値の変化の大きさを示す変化指標値が閾値を超えるか判定し、
前記変化指標値が前記閾値を超える場合、更新された前記第１の候補データに含まれる第１のレコードのうち前記新しい第１のレコード以外の他の第１のレコードの評価値を、更新された前記第２の候補データに基づいて更新する、
処理をコンピュータが実行する均衡解探索方法。
第１のノードの行動の候補をそれぞれ示す複数の第１のレコードを含む第１の候補データと、各第１のレコードの評価値とを記憶する記憶部と、
前記第１の候補データを前記各第１のレコードの評価値に基づいて更新し、更新された前記第１の候補データに含まれる新しい第１のレコードの評価値を、第２のノードの行動の候補を示す第２の候補データに基づいて算出する、ことをそれぞれ含む複数のイテレーションを実行し、前記複数のイテレーションの間に前記第２の候補データが更新される場合、前記第２の候補データにおける評価値の変化の大きさを示す変化指標値が閾値を超えるか判定し、前記変化指標値が前記閾値を超える場合、更新された前記第１の候補データに含まれる第１のレコードのうち前記新しい第１のレコード以外の他の第１のレコードの評価値を、更新された前記第２の候補データに基づいて更新する処理部と、
を有する情報処理装置。