JP6103683B2

JP6103683B2 - ロールプレイングゲームの攻略法算出装置、算出方法、算出プログラム及びこのプログラムを記録した記録媒体

Info

Publication number: JP6103683B2
Application number: JP2012128918A
Authority: JP
Inventors: 前田　康成; 康成前田
Original assignee: Kitami Institute of Technology NUC
Current assignee: Kitami Institute of Technology NUC
Priority date: 2012-06-06
Filing date: 2012-06-06
Publication date: 2017-03-29
Anticipated expiration: 2032-06-06
Also published as: JP2013252247A

Description

本発明は、ロールプレイングゲーム（ＲＰＧ）をモデル化してゲームの攻略法（行動選択の仕方）を算出するための攻略法算出装置、算出方法、算出プログラム及びこのプログラムを記録した記録媒体に関する。

近年、コンピュータの低価格化に伴い、テレビゲーム機が広く普及し、ゲームの一分野として、ＲＰＧも広く普及している。このようなＲＰＧの開発を行う場合、従来は以下のような問題点を有していた。
（１）プレイヤーが遊ぶ際にどのようにプレイするかを把握するためには、多くの被験者に遊んでもらいプレイヤーの体験データを取得することが行われる。しかしながら、これは、多くの被験者を雇う必要があるため、コストが大幅に高くなるのみならず、データを得るのに多大な時間を要する。
（２）日々販売されるＲＰＧは多数あるが、その中でヒットするＲＰＧは非常に少数である。そのようにヒットしたＲＰＧには、人間が楽しいと感じる要素が多数含まれていると考えられるが、どのような要素が楽しいと感じる要素であるのか工学的には未だ把握されていない。
（３）最近は、プレイヤーの補佐を行うキャラクタ（お仲間キャラクタ）をコンピュータが操作するＲＰＧも多いが、このようなお仲間キャラクタの賢い行動（コマンド）選択の仕方をプログラミングすることはかなり難しい。

一方、ゲーム情報学等の工学分野においては、ＲＰＧをマルコフ決定過程（ＭＤＰ）等の確率モデルを用いてモデル化し、ゲームを攻略する戦略について数理工学的に扱う研究がなされ、報告されている（例えば、非特許文献１及び２）。

高木幸一郎、雨宮真人、「ロールプレイングゲーム（ＲＰＧ）の戦闘におけるバランス自動調整システム開発のための基礎的考察」、情報処理学会研究報告、ＧＩ、２００１（２８）、ｐｐ．３１−３８（２００１）高木幸一郎、雨宮真人、「ロールプレイングゲーム（ＲＰＧ）のバランスとは何か、分析およびその調整に関する提案」、情報処理学会研究報告、ＧＩ、２００１（５８）、ｐｐ．６７−７４（２００１）

非特許文献１及び２に開示されているごとき、従来のモデル化は、ＲＰＧの一部のみのモデル化であった。即ち、プレイヤーがマップ上を移動するマップモードと、マップモードにおいて敵と遭遇した際に開始される戦闘モードとからなる冒険型のＲＰＧにおいて、戦闘モードのみのモデル化であり、これでは、ＲＰＧ全体の攻略法（行動選択の仕方）を算出することができず、前述した（１）〜（３）のごとき開発支援上の問題点を解決することができなかった。

従って本発明の目的は、被験者の体験データを取得することなく、ＲＰＧの攻略法（行動選択の仕方）を算出することができるＲＰＧの攻略法算出装置、算出方法、算出プログラム及びこのプログラムを記録した記録媒体を提供することにある。

本発明の他の目的は、人間が楽しいと感じるゲーム要素を工学的に把握することができるＲＰＧの攻略法算出装置、算出方法、算出プログラム及びこのプログラムを記録した記録媒体を提供することにある。

本発明のさらに目的は、コンピュータによって操作されるキャラクタの行動選択の仕方を容易にプログラミングすることができるＲＰＧの攻略法（行動選択の仕方）を算出することができるＲＰＧの攻略法算出装置、算出方法、算出プログラム及びこのプログラムを記録した記録媒体を提供することにある。

本発明によれば、ＲＰＧのプレイヤーのゲーム開始時点における初期状態と制御期間の長さとが与えられた際に、この制御期間中に得られる総報酬に相当する期待総利得を最大にする政策を出力する最適政策算出部と、プレイヤーの状態及び時点が与えられるとその時点のその状態においてそれ以降の期待総利得を最大にする最適行動及び期待総利得の最大値を出力する行動決定部とを備えており、プレイヤーの初期状態及び制御期間の長さに対して制御期間における期待総利得を最大にすることが保証された最適政策を出力するＲＰＧの攻略法算出装置が提供される。

ＲＰＧの自動開発に資する研究開発としてＭＤＰなる確率モデルを用いた定式化は従来より行われていたが、従来技術では、ＲＰＧの一部のイベントを定式化するのみの不充分なものであった。

本発明によれば、ＲＰＧ全体をＭＤＰで定式化している。これにより、
（Ａ）開発者のみが知っている情報を既知と仮定したもとでの攻略法の算出を行い、
（Ｂ）開発者のみが知っている情報を未知と仮定した（一般のプレイヤーと同様の立場を仮定した）もとでの攻略法の算出を行っている。

これは、ゲーム情報学分野における学際的な知見を与えるのみならず、ゲーム産業においても以下のごとく有用である。

第１に、本発明で算出される目的（お金の獲得等）のもとでの攻略法（行動選択の仕方）をコンピュータにシミュレーションさせることによって、その目的におけるプレイヤーのゲーム結果をシミュレートできる。このシミュレーションを利用することによって、マップ上に隠されたアイテムやイベントに遭遇する割合（仮にプレイヤーが１万人いた場合に何人が遭遇できるか）等を把握でき、その割合を見ながら適切な隠し場所を設定することができる。

第２に、本発明で算出される数理工学的に最適な攻略法と実際のプレイヤーによる攻略法との比較を行うことにより、人間が楽しいと感じるゲーム要素を工学的に把握できる可能性がある。人間が楽しいと感じるゲーム要素を確率モデル上のパラメータ設定のある種のパターンとして把握できれば、そのような要素を多く含むゲーム開発を行うことができる。

第３に、近年では、ゲーム中にプレイヤーに協力するコンピュータ操作のキャラクタの登場が多い。このようなコンピュータによって操作されるキャラクタの行動選択の仕方をプログラミングするのは難しかったが、本発明により種々の目的毎の攻略法を算出することによって、各目的に適した（プレイヤーに協力する）キャラクタの行動選択の仕方（攻略法）をプログラミングすることが可能となる。

最適政策算出部は、制御期間におけるＭＤＰ問題を動的計画法（ＤＰ）で求めるように構成されていることが好ましい。

本発明によれば、さらに、ＲＰＧのプレイヤーのゲーム開始時点における初期状態と制御期間の長さとが与えられた際に、この制御期間中に得られる総報酬に相当する期待総利得を最大にする政策を出力する最適政策算出工程と、プレイヤーの状態及び時点が与えられるとその時点のその状態においてそれ以降の期待総利得を最大にする最適行動及び期待総利得の最大値を出力する行動決定工程とを備えており、プレイヤーの初期状態及び制御期間の長さに対して制御期間における期待総利得を最大にすることが保証された最適政策を出力するＲＰＧの攻略法算出方法が提供される。

最適政策算出工程は、制御期間におけるＭＤＰ問題をＤＰで求めるように構成されていることが好ましい。

本発明によれば、さらにまた、ＲＰＧのプレイヤーのゲーム開始時点における初期状態と制御期間の長さとが与えられた際に、この制御期間中に得られる総報酬に相当する期待総利得を最大にする政策を出力する最適政策算出手順と、プレイヤーの状態及び時点が与えられるとその時点のその状態においてそれ以降の期待総利得を最大にする最適行動及び期待総利得の最大値を出力する行動決定手順とをコンピュータで実行させ、プレイヤーの初期状態及び制御期間の長さに対して制御期間における期待総利得を最大にすることが保証された最適政策を出力するＲＰＧの攻略法算出プログラムが提供される。

最適政策算出手順は、制御期間におけるＭＤＰ問題をＤＰで求めるように構成されていることが好ましい。

本発明によれば、さらに、ＲＰＧのプレイヤーのゲーム開始時点における初期状態と制御期間の長さとが与えられた際に、この制御期間中に得られる総報酬に相当する期待総利得を最大にする政策を出力する最適政策算出手順と、プレイヤーの状態及び時点が与えられるとその時点のその状態においてそれ以降の期待総利得を最大にする最適行動及び期待総利得の最大値を出力する行動決定手順とをコンピュータで実行させる攻略法算出プログラムを記録したコンピュータ読み取り可能な記録媒体であり、プレイヤーの初期状態及び制御期間の長さに対して制御期間における期待総利得を最大にすることが保証された最適政策を出力するＲＰＧの攻略法算出プログラムを記録した記録媒体が提供される。

本発明によれば、制御期間における期待総利得を最大にすることが保証された政策が出力されるので、プレイヤーの初期状態と制御期間長とに対して制御期間における期待総利得を最大にする政策を出力することが可能となり、そのＲＰＧに関する攻略法（行動選択の仕方）を算出することができる。

即ち、本発明によれば、攻略法をコンピュータにシミュレーションさせることによって、被験者の体験データを取得することができ、算出される数理工学的に最適な攻略法と実際のプレイヤーによる攻略法との比較を行うことにより、人間が楽しいと感じるゲーム要素を工学的に把握することができ、さらに、人間が楽しいと感じるゲーム要素を確率モデル上のパラメータ設定のある種のパターンとして把握できれば、そのような要素を多く含むゲーム開発を行うことができる。また、種々の目的毎の攻略法を算出することによって、各目的に適したプレイヤーに協力するキャラクタの攻略法を容易にプログラミングすることが可能となる。

本発明の第１の実施形態として、ＲＰＧの開発支援に用いる攻略法算出装置の全体構成を概略的に示すブロック図である。図１の実施形態における攻略法算出装置の主要部の動作を説明するフローチャートである。図１の実施形態における攻略法算出装置の主要部の構成を概略的に示すブロック図である。図１の実施形態におけるＤＰグラフの一例を示す図である。図１の実施形態における攻略法算出装置の行動決定部の動作を説明するフローチャートである。第１の実施形態及び第２の実施形態の実施例におけるマップの構成例を示す図である。

図１は本発明の第１の実施形態としてＲＰＧの開発支援に用いる攻略法算出装置の全体構成を概略的に示しており、図２は本実施形態における攻略法算出装置の主要部の動作を説明しており、図３は本実施形態における攻略法算出装置の主要部の構成を概略的に示しており、図４は本実施形態におけるＤＰグラフの一例を示しており、図５は本実施形態における攻略法算出装置の行動決定部の動作を説明している。この第１の実施形態は、各種確率分布を支配する真のパラメータθ^＊が既知の場合である。

図１に示すように、本実施形態における攻略法算出装置は、バス１０を介して互いに接続された中央処理装置（ＣＰＵ）１１と、リードオンリメモリ（ＲＯＭ）１２と、ランダムアクセスメモリ（ＲＡＭ）１３と、ハードディスク駆動装置（ＨＤＤ）１４と、サウンド処理部１５と、画像処理部１６と、ブルーレイディスク／デジタルバーサタイルディスク（ＢＲ／ＤＶＤ）駆動装置１７と、入出力インタフェース１８と、通信インタフェース１９とを備えたコンピュータ及びこれを作動させるプログラムから構成される。

サウンド処理部１５はスピーカ２０に接続されており、画像処理部１６は表示ディスプレイ２１に接続されている。ＢＲ／ＤＶＤ駆動装置１７はブルーレイディスク／デジタルバーサタイルディスク／コンパクトディスク（ＢＲ／ＤＶＤ／ＣＤ）２２が装着可能となっており、入出力インタフェース１８にはコントローラ２３、キーボード２４及びマウス２５が接続されている。

ＣＰＵ１１は、ＲＯＭ１２に記憶されているオペレーションシステム（ＯＳ）やブートプログラム等の基本プログラムに従ってＲＡＭ１３に記憶されているプログラムを実行して本実施形態の処理を行う。また、ＣＰＵ１１は、ＲＡＭ１３、ＨＤＤ１４、音声処理部１５、画像処理部１６、ＢＲ／ＤＶＤ駆動装置１７、入出力インタフェース１８、及び通信インタフェース１９の動作を制御する。

ＲＡＭ１３は攻略法算出装置のメインメモリとして使用され、ＨＤＤ１４やＢＲ／ＤＶＤ駆動装置１７から転送されたプログラムやデータを記憶する。また、ＲＡＭ１３は、プログラム実行時の各種データが一時的に記憶されるワークエリアとしても使用される。

ＨＤＤ１４は、プログラム及びデータがあらかじめ記憶されているか、又は通信インタフェース１９を介して外部のネットワーク取り込んだプログラム及びデータが記憶される。

サウンド処理部１５は、ＣＰＵ１１の指示に従ってゲームの背景音や効果音等のサウンドデータを再生するための処理を行い、スピーカ２０へその音声信号を出力する。

画像処理部１６は、ＣＰＵ１１の指示に従って２次元又は３次元グラフィック処理を行い、画像データを生成する。生成された画像データは、表示ディスプレイ２１に出力される。表示ディスプレイ２１ではなく図示しないＴＶの画面に表示する場合には、同期信号を付加したビデオ信号を出力する。

ＢＲ／ＤＶＤ駆動装置１７は、ＣＰＵ１１の指示に従って、セットされたＢＲ／ＤＶＤ／ＣＤ２２からゲームに関連するプログラムやデータを読出し、ＲＡＭ１３へ転送する。また、セットされたＢＲ／ＤＶＤ／ＣＤ２２へプログラムやデータの書き込みをすることも可能である。

入出力インタフェース１８は、コントローラ２３、キーボード２４及びマウス２５とＣＰＵ１１又はＲＡＭ１３との間のデータのやり取りを制御する。コントローラ２３には、ゲームを行う際に操作される方向キーやボタン等を備えている。

通信インタフェース１９は、通信回線を介して外部ネットワークに接続されており、ＣＰＵ１１の指示に従って、外部ネットワークとの間でプログラムやデータのやり取りが可能となっている。

このような構成の攻略法算出装置において、ＣＰＵ１１は、作動時は、まず、ＲＡＭ１３内にプログラム記憶領域、データ記憶領域及びワークエリアを確保し、ＨＤＤ１４又は外部からプログラム及びデータを取り込んで、プログラム記憶領域及びデータ記憶領域に格納する。次いで、このプログラム記憶領域に格納されたプログラムに基づいて、図２に示す処理を実行する。ＣＰＵ１１がプログラムを実行することによって、図３に概略的に示すごとき攻略法算出装置が構築される。

即ち、図３に示すように、本実施形態の攻略法算出装置は、最適政策算出部３０と、行動決定部３１とを備えるように構築される。ここで、最適政策算出部３０はＤＰグラフ作成器３０ａと、ＤＰ実施器３０ｂとを備え、行動決定部３１は行動決定器３１ａと、遷移確率テーブル３１ｂと、利得テーブル３１ｃとを備えるように構築される。

この攻略法算出装置の各部説明を行う前に、本実施形態で用いるマルコフ決定過程（ＭＤＰ）を利用したロールプレイイングゲーム（ＲＰＧ）の数理モデルと、その数理モデルで表現されるＲＰＧの仕様とについて説明する。

まず、本実施形態におけるＲＰＧの仕様について説明する。

プレイヤーはヒットポイント（ＨＰ)と呼ばれる数値を持ち、ＨＰが０となると、次の期にマップ上のスタート位置から再開する。再開時には、ＨＰは、スタート時と同じ最大値Ｍ_ｈｐまで回復する。

ｓｍ_ｉはマップ上の位置を示し、ＳＭ、ＳＭ＝｛ｓｍ_１，ｓｍ_２，・・・，ｓｍ_｜ＳＭ｜｝は、マップ上の位置の集合である。ここで、ゲーム開始時のスタート位置をｓｍ_１とする。なお、本実施形態においては、スタート位置及び現在のプレイヤーの位置は、プレイヤーによって既知であるとする。ｆ_ｉは、マップ上の地形の種類を示し、Ｆ、Ｆ＝｛ｆ_１，ｆ_２，・・・，ｆ_｜Ｆ｜｝はマップ上の地形の種類の集合である。マップ上の各位置がどの地形に該当するかは、関数Ｆ（ｓｍ_ｉ）∈Ｆで分かる。

ｅ_ｉは、敵の種類を示し、Ｅ、Ｅ＝｛ｅ_１，ｅ_２，・・・，ｅ_｜Ｅ｜｝は敵の種類の集合である。Ｍ(ｅ_ｉ）は、敵ｅ_ｉの出現時のこの敵ｅ_ｉのＨＰを示す。プレイヤーは、敵を攻撃することによって敵のＨＰを０以下にすると、その敵を倒し、その敵に該当する報酬Ｇ（ｅ_ｉ）を得る。

プレイヤーが選択できる行動（コマンド）は、マップモードと戦闘モードとでは異なり、マップモードではａ_１からａ_４が選択可能であり、戦闘モードではａ_５及びａ_６が選択可能である。ａ_１，ａ_２，ａ_３，ａ_４は、マップ上でそれぞれ右、左、上、下に移動するための行動である。ｍｖ（ｓｍ_ｉ，ａ_ｊ）はプレイヤーが位置ｓｍ_ｉで行動ａ_ｊを選択した際の移動先位置である。プレイヤーの移動に際して、確率ｐ（ｅ_ｋ｜Ｆ（ｍｖ（ｓｍ_ｉ，ａ_ｊ）），θ^＊）で移動先ｍｖ（ｓｍ_ｉ，ａ_ｊ）に敵ｅ_ｋが出現し、戦闘モードになる。敵は同時に複数出現することはなく、確率１−Σ_ｅｋ∈Ｅｐ（ｅ_ｋ｜Ｆ（ｍｖ（ｓｍ_ｉ，ａ_ｊ）），θ^＊）で何も出現せずにマップモードが続く。

戦闘モードの行動ａ_５はプレイヤーが戦うための行動であり、確率ｐ（Ｃ（ｅ_ｉ）｜ａ_５，ｅ_ｉ，θ^＊）で敵ｅ_ｉへの攻撃に成功し、その場合、敵ｅ_ｉのＨＰがＣ（ｅ_ｉ）だけ減少する。プレイヤーは、確率１−ｐ（Ｃ（ｅ_ｉ）｜ａ_５，ｅ_ｉ，θ^＊）で敵ｅ_ｉへの攻撃に失敗する。また、行動ａ_５の選択とは直接的に関係しないが、戦闘モードでは敵もプレイヤーに対して攻撃し、確率ｐ（Ｂ（ｅ_ｉ）｜ｅ_ｉ，θ^＊）で敵ｅ_ｉがプレイヤーへの攻撃に成功し、その場合、プレイヤーのＨＰがＢ（ｅ_ｉ）だけ減少する。攻撃は、プレイヤーが常に先攻すると仮定する。敵ｅ_ｉは、確率１−ｐ（Ｂ（ｅ_ｉ）｜ｅ_ｉ，θ^＊）でプレイヤーへの攻撃に失敗する。行動ａ_６は、プレイヤーが敵から逃げるための行動であり、確率ｐ（ｍａｐ｜ａ_６，θ^＊）でプレイヤーは次の期にマップモードで移動し、確率１−ｐ（ｍａｐ｜ａ_６，θ^＊）で戦闘モードが続く。行動ａ_６を選択した場合にも、敵は攻撃してくる。よって、プレイヤーが逃げることに失敗し、かつ敵が攻撃に成功すると、プレイヤーはダメージを受ける。θ^＊は、上述の各確率分布を支配する真のパラメータであり、本実施形態では既知であるとする。

次に、確率システムの動的な最適化問題を定式化する優れた能力を有する数理モデルであるＭＤＰについてその概要を説明する。

ＭＤＰについては、例えば、金子哲夫、「マルコフ決定理論入門」、槙書店（１９７３）や森村英典、高橋幸雄、「マルコフ解析」、日科技連、東京（１９７９）等に記載されている。

ＭＤＰは、状態ｓ_ｉ、ｓ_ｉ∈Ｓ、Ｓ＝｛ｓ_１，ｓ_２，・・・，ｓ_｜Ｓ｜｝（｜Ｓ｜は有限）、各状態で選択できる行動ａ_ｉ、ａ_ｉ∈Ａ、Ａ＝｛ａ_１，ａ_２，・・・，ａ_｜Ａ｜｝（｜Ａ｜は有限）、状態ｓ_ｉで行動ａ_ｊを選択したもとで、状態ｓ_ｋへ遷移する遷移確率ｐ（ｓ_ｋ｜ｓ_ｉ，ａ_ｊ，ξ^＊）（ξ^＊は遷移確率分布を支配する真のパラメータ）、遷移に伴って発生する利得ｒ（ｓ_ｉ，ａ_ｊ，ｓ_ｋ）で構成される。ＭＤＰの目的は、行動を選び、状態が遷移し、利得を得るという一連のプロセスを繰り返しながら総利得を最大化することである。プロセスの繰り返し回数が有限の場合には、総利得の期待値（期待総利得）を最大化する最適な決定関数を動的計画法（ＤＰ）によって求めることができる。具体的には、真のパラメータξ^＊が既知の場合であれば、下記の式（１）を用いて、ｔ期の状態がｓ_ｉという条件下におけるｔ期以降の期待総利得の最大値Ｖ（ｓ_ｉ，ｔ）を逐次的に計算できる。決定関数は、状態と期とを受け取って、その期で選ぶべき行動を返す関数である。

次に、ＭＤＰと本実施形態におけるＲＰＧとの対応について説明する。

ｘ_ｔは、ＭＤＰにおけるｔ期の状態を示す変数であり、式（２）のように構成される。

ｘ_ｔ＝（ｘ_ｔ，１，ｘ_ｔ，２，ｘ_ｔ，３，ｘ_ｔ，４）（２）
ただし、ｘ_ｔ，１はｔ期におけるプレイヤーのＨＰ、ｘ_ｔ，２はｔ期におけるプレイヤーのマップ上での位置、ｘ_ｔ，３はｔ期における敵の種類、ｘ_ｔ，４はｔ期における敵のＨＰをそれぞれ示し、マップモードの場合には敵は存在せず、ｘ_ｔ，３-＝ｘ_ｔ，４＝０とする。

Ａ（ｘ_ｔ）は、状態ｘ_ｔにおいて選択可能なＭＤＰの行動集合を示す。ｙ_ｔはＭＤＰにおけるｔ期に選択した行動を示す変数である。

次に、マップモードのｔ期の状態ｘ_ｔで行動ｙ_ｔを選択したときの状態遷移について説明する。ｔ＋１期には、確率ｐ（ｅ_ｉ｜Ｆ（ｍｖ（ｘ_ｔ，２，ｙ_ｔ）），θ^＊）で敵ｅ_ｉが出現し、戦闘モードの状態ｘ_ｔ＋１、
ｘ_ｔ＋１＝（ｘ_{ｔ＋１，１}，ｘ_{ｔ＋１，２}，ｘ_{ｔ＋１，３}，ｘ_{ｔ＋１，４}）
＝（ｘ_ｔ，１，ｍｖ（ｘ_ｔ，２，ｙ_ｔ），ｅ_ｉ，Ｍ(ｅ_ｉ））（３）
に遷移する。ただし、ゲームのスタート位置であるｓｍ_１が、移動先ｍｖ（ｘ_ｔ，２，ｙ_ｔ）の場合には敵は出現しない（ｐ（ｅ_ｉ｜Ｆ（ｍｖ（ｘ_ｔ，２，ｙ_ｔ）），θ^＊）＝０）とする。また、確率１−Σ_ｅｉ∈Ｅｐ（ｅ_ｉ｜Ｆ（ｍｖ（ｘ_ｔ，２，ｙ_ｔ）），θ^＊）で敵が出現せずにマップモードの状態ｘ_ｔ＋１に遷移する。このときの状態ｘ_ｔ＋１は、移動先ｍｖ（ｘ_ｔ，２，ｙ_ｔ）がｓｍ_１の場合には、
ｘ_ｔ＋１＝（ｘ_{ｔ＋１，１}，ｘ_{ｔ＋１，２}，ｘ_{ｔ＋１，３}，ｘ_{ｔ＋１，４}）
＝（Ｍ_ｈｐ，ｓｍ_１，ｘ_ｔ，３，ｘ_ｔ，４）（４）
移動先ｍｖ（ｘ_ｔ，２，ｙ_ｔ）がｓｍ_１以外の場合には、
ｘ_ｔ＋１＝（ｘ_{ｔ＋１，１}，ｘ_{ｔ＋１，２}，ｘ_{ｔ＋１，３}，ｘ_{ｔ＋１，４}）
＝（ｘ_ｔ，１，ｍｖ（ｘ_ｔ，２，ｙ_ｔ），ｘ_ｔ，３，ｘ_ｔ，４）（５）
である。式（４）の場合は、プレイヤーがスタート位置ｓｍ_１に戻り、ＨＰを最大値Ｍ_ｈｐまで回復した状態である。

次に、戦闘モードのｔ期の状態ｘ_ｔで行動ｙ_ｔを選択したときの状態遷移について、行動ｙ_ｔが行動ａ_５（戦う）の場合と行動ａ_６（逃げる）の場合とに分けて説明する。

まず、行動ａ_５（戦う）の場合について説明する。確率１−ｐ（Ｃ（ｘ_ｔ，３）｜ａ_５，ｘ_ｔ，３，θ^＊）（１−ｐ（Ｂ（ｘ_ｔ，３）｜ｘ_ｔ，３，θ^＊）でプレイヤーと敵との両方が攻撃に失敗し、状態ｘ_ｔ＋１、
ｘ_ｔ＋１＝（ｘ_{ｔ＋１，１}，ｘ_{ｔ＋１，２}，ｘ_{ｔ＋１，３}，ｘ_{ｔ＋１，４}）
＝（ｘ_ｔ，１，ｘ_ｔ，２，ｘ_ｔ，３，ｘ_ｔ，４）（６）
に遷移する。確率（１−ｐ（Ｃ（ｘ_ｔ，３）｜ａ_５，ｘ_ｔ，３，θ^＊））ｐ（Ｂ（ｘ_ｔ，３）｜ｘ_ｔ，３，θ^＊）でプレイヤーは攻撃に失敗し、敵は攻撃に成功し、状態ｘ_ｔ＋１へ遷移する。
このときの状態ｘ_ｔ＋１は、ｘ_ｔ，１＞Ｂ（ｘ_ｔ，３）の場合には、
ｘ_ｔ＋１＝（ｘ_{ｔ＋１，１}，ｘ_{ｔ＋１，２}，ｘ_{ｔ＋１，３}，ｘ_{ｔ＋１，４}）
＝（ｘ_ｔ，１−Ｂ（ｘ_ｔ，３），ｘ_ｔ，２，ｘ_ｔ，３，ｘ_ｔ，４）（７）
で、ｘ_ｔ，１≦Ｂ（ｘ_ｔ，３）の場合には、
ｘ_ｔ＋１＝（ｘ_{ｔ＋１，１}，ｘ_{ｔ＋１，２}，ｘ_{ｔ＋１，３}，ｘ_{ｔ＋１，４}）
＝（Ｍ_ｈｐ，ｓｍ_１，０，０）（８）
である。式（８）の場合には、プレイヤーが敵に倒されて、ゲームのスタート位置ｓｍ_１からの再開である。確率ｐ（Ｃ（ｘ_ｔ，３）｜ａ_５，ｘ_ｔ，３，θ^＊）（１−ｐ（Ｂ（ｘ_ｔ，３）｜ｘ_ｔ，３，θ^＊））でプレイヤーは攻撃に成功し、敵は攻撃に失敗し、状態ｘ_ｔ＋１へ遷移する。このときの状態ｘ_ｔ＋１は、ｘ_ｔ，４＞Ｃ（ｘ_ｔ，３）の場合には、
ｘ_ｔ＋１＝（ｘ_{ｔ＋１，１}，ｘ_{ｔ＋１，２}，ｘ_{ｔ＋１，３}，ｘ_{ｔ＋１，４}）
＝（ｘ_ｔ，１，ｘ_ｔ，２，ｘ_ｔ，３，ｘ_ｔ，４−Ｃ（ｘ_ｔ，３））（９）
で、ｘ_ｔ，４≦Ｃ（ｘ_ｔ，３）の場合には、
ｘ_ｔ＋１＝（ｘ_{ｔ＋１，１}，ｘ_{ｔ＋１，２}，ｘ_{ｔ＋１，３}，ｘ_{ｔ＋１，４}）
＝（ｘ_ｔ，１，ｘ_ｔ，２，０，０）（１０）
である。式（１０）の場合には、敵ｘ_ｔ，３を倒すことに成功しているので、この状態遷移に伴い、利得ｒ（ｘ_ｔ，ａ_５，ｘ_ｔ＋１）＝Ｇ（ｘ_ｔ，３）を得る。確率ｐ（Ｃ（ｘ_ｔ，３）｜ａ_５，ｘ_ｔ，３，θ^＊）ｐ（Ｂ（ｘ_ｔ，３）｜ｘ_ｔ，３，θ^＊）でプレイヤーと敵の両方が攻撃に成功し、状態ｘ_ｔ＋１へ遷移する。このときの状態ｘ_ｔ＋１は、ｘ_ｔ，４≦Ｃ（ｘ_ｔ，３）の場合には、
ｘ_ｔ＋１＝（ｘ_{ｔ＋１，１}，ｘ_{ｔ＋１，２}，ｘ_{ｔ＋１，３}，ｘ_{ｔ＋１，４}）
＝（ｘ_ｔ，１，ｘ_ｔ，２，０，０）（１１）
で、ｘ_ｔ，４＞Ｃ（ｘ_ｔ，３）かつｘ_ｔ，１＞Ｂ（ｘ_ｔ，３）の場合には、
ｘ_ｔ＋１＝（ｘ_{ｔ＋１，１}，ｘ_{ｔ＋１，２}，ｘ_{ｔ＋１，３}，ｘ_{ｔ＋１，４}）
＝（ｘ_ｔ，１−Ｂ（ｘ_ｔ，３），ｘ_ｔ，２，ｘ_ｔ，３，ｘ_ｔ，４−Ｃ（ｘ_ｔ，３））（１２）
で、ｘ_ｔ，４＞Ｃ（ｘ_ｔ，３）かつｘ_ｔ，１≦Ｂ（ｘ_ｔ，３）の場合には、
ｘ_ｔ＋１＝（ｘ_{ｔ＋１，１}，ｘ_{ｔ＋１，２}，ｘ_{ｔ＋１，３}，ｘ_{ｔ＋１，４}）
＝（Ｍ_ｈｐ，ｓｍ_１，０，０）（１３）
である。式（１１）の場合には、敵ｘ_ｔ，３を倒すことに成功しているので、この状態遷移に伴い、利得ｒ（ｘ_ｔ，ａ_５，ｘ_ｔ＋１）＝Ｇ（ｘ_ｔ，３）を得る。式（１３）の場合はプレイヤーが敵に倒されて、ゲームのスタート位置ｓｍ_１からの再開である。

次に、戦闘モードのｔ期の状態ｘ_ｔで行動ａ_６（逃げる）を選択したときの状態遷移について説明する。確率ｐ（ｍａｐ｜ａ_６，θ^＊）でプレイヤーが逃げることに成功し、状態ｘ_ｔ＋１、
ｘ_ｔ＋１＝（ｘ_{ｔ＋１，１}，ｘ_{ｔ＋１，２}，ｘ_{ｔ＋１，３}，ｘ_{ｔ＋１，４}）
＝（ｘ_ｔ，１，ｘ_ｔ，２，０，０）（１４）
に遷移する。確率１−ｐ（ｍａｐ｜ａ_６，θ^＊）（１−ｐ（Ｂ（ｘ_ｔ，３）｜ｘ_ｔ，３，θ^＊））でプレイヤーが逃げることに失敗し、敵が攻撃に失敗し、状態ｘ_ｔ＋１、
ｘ_ｔ＋１＝（ｘ_{ｔ＋１，１}，ｘ_{ｔ＋１，２}，ｘ_{ｔ＋１，３}，ｘ_{ｔ＋１，４}）
＝（ｘ_ｔ，１，ｘ_ｔ，２，ｘ_ｔ，３，ｘ_ｔ，４）（１５）
に遷移する。確率（１−ｐ（ｍａｐ｜ａ_６，θ^＊））ｐ（Ｂ（ｘ_ｔ，３）｜ｘ_ｔ，３，θ^＊）でプレイヤーが逃げることに失敗し、敵が攻撃に成功し、状態ｘ_ｔ＋１へ遷移する。このときの状態ｘ_ｔ＋１は、ｘ_ｔ，１＞Ｂ（ｘ_ｔ，３）の場合には、
ｘ_ｔ＋１＝（ｘ_{ｔ＋１，１}，ｘ_{ｔ＋１，２}，ｘ_{ｔ＋１，３}，ｘ_{ｔ＋１，４}）
＝（ｘ_ｔ，１−Ｂ（ｘ_ｔ，３），ｘ_ｔ，２，ｘ_ｔ，３，ｘ_ｔ，４）（１６）
で、ｘ_ｔ，１≦Ｂ（ｘ_ｔ，３）の場合には、
ｘ_ｔ＋１＝（ｘ_{ｔ＋１，１}，ｘ_{ｔ＋１，２}，ｘ_{ｔ＋１，３}，ｘ_{ｔ＋１，４}）
＝（Ｍ_ｈｐ，ｓｍ_１，０，０）（１７）
である。式（１７）の場合には、プレイヤーが敵に倒されて、ゲームのスタート位置ｓｍ_１からの再開である。

前述した通り、プレイヤーが敵ｘ_ｔ，３を倒した状態遷移に伴う利得は、ｒ（ｘ_ｔ，ａ_５，ｘ_ｔ＋１）＝Ｇ（ｘ_ｔ，３）である。その他の状態遷移に伴う利得は、ｒ（ｘ_ｔ，ａ_５，ｘ_ｔ＋１）＝０である。本実施形態では、初期状態ｘ_１がｘ_１＝（Ｍ_ｈｐ，ｓｍ_１，０，０）であり、各期の状態は観測可能である。また、プレイヤーや敵の攻撃力Ｃ（ｅ_ｉ），Ｂ（ｅ_ｉ）及び敵を倒したときの報酬Ｇ（ｅ_ｉ）等は全て既知であるとする。このもとで、Ｔ期間のプレイを行って総利得
の最大化を目的とする。

次に、図２に示されたフローチャート、図３に示されたブロック図、図４に示された図、及び図５に示されたフローチャートを参照して、本実施形態の攻略法算出装置の動作を説明する。

図２及び図３に示すように、まず、構築された最適政策算出部３０におけるＤＰグラフ作成器３０ａにプレイヤーの初期状態ｘ_１と制御期間長Ｔとが入力される（ステップＳ１）。この初期状態ｘ_１と制御期間長ＴとはＨＤＤ１４に格納されているデフォルト値又は前回のプレイ結果値をＲＡＭ１３のデータ記憶領域に格納したものであっても良いし、キーボード２４から入力した値であっても良い。

プレイヤーの初期状態ｘ_１と制御期間長Ｔとが入力されると、ＤＰグラフ作成器３０ａは、Ｔ期間の期待総利得を最大化するための動的計画法（ＤＰ）の問題を解くためのＤＰグラフを作成する（ステップＳ２）。例えば、想定されるプレイヤーの全状態を要素とする状態集合Ｓが、Ｓ＝｛ｓ_１，ｓ_２，ｓ_３，ｓ_４｝でｘ_１＝ｓ_１の場合であれば、図４のようなＤＰグラフが作成される。これは、１時点目（１期）はプレイヤーの初期状態で表現され、２時点目からＴ時点目まではプレイヤーの想定される各状態で表現されたグラフにおいて、末端のＴ時点目（Ｔ期）のノードから遡りながらＤＰでＴ期間のＭＤＰ問題を解くことによって、Ｔ期間の期待総利得を最大化する最適政策を求めるための準備である。

次いで、ＤＰ実施器３０ｂがＤＰによってＴ期間のＭＤＰ問題を解くことによって、Ｔ期間の期待総利得を最大化する最適政策が求められる（ステップＳ３）。ＤＰ実施器３０ｂは、ＤＰグラフの末端の各ノードから順にそのノードでの最適な行動（ＲＰＧにおけるプレイヤーのコマンド選択）とそのノード以降の期待総利得の最大値を、行動決定部３１における行動決定器３１ａと連携して求める（ステップＳ４）。

即ち、各ノード毎にそのノードの時点ｔ（何時点目かを示す自然数）とプレイヤーの状態ｘ_ｔ（ｔ時点目のプレイヤーの状態）とを行動決定器３１ａへ送ると、そのノードにおける最適な行動とそのノード以降の期待総利得の最大値とが求められて行動決定器３１ａから送り返される。

その後、ＤＰグラフの１時点目のノードまで全て解き終わったかどうかが判断され（ステップＳ５）、解き終わっていればＤＰグラフの全ノードにおける最適な行動とそのノード以降の期待総利得の最大値が最適政策として出力される（ステップＳ６）。

次に、図３及び図５に示されたフローチャートを参照して行動決定部３１の動作、即ち図２におけるステップＳ４の動作を説明する。

まず、最適政策算出部３０のＤＰ実施器３０ｂから行動決定部３１の行動決定器３１ａへ、時点ｔ（何時点目かを示す自然数）とプレイヤーの状態ｘ_ｔ（ｔ時点目のプレイヤーの状態）とが入力される（ステップＳ４１）。

次いで、入力された時点ｔとプレイヤーの状態ｘ_ｔとに応じてそのノード以降の期待総利得の最大値とそのノードにおける最適な行動とが算出される（ステップＳ４２）。ｔ＝Ｔの場合には、式（１８）で、そのノード以降の期待総利得の最大値が求められる。

ただし、Ｖ（ｘ_Ｔ，Ｔ）はＴ時点目の状態ｘ_Ｔから時点Ｔ＋１への状態遷移に伴う最後の１期間の期待総利得の最大値である。ｐ（ｘ_Ｔ＋１｜ｘ_Ｔ，ｙ_Ｔ，θ^＊）は遷移確率テーブル３１ｂから読み取ったものである。ｒ（ｘ_Ｔ，ｙ_Ｔ，ｘ_Ｔ＋１）は利得テーブル３１ｃから読み取ったものである。１≦ｔ≦Ｔ−１の場合には次の式（１９）でそのノード以降の期待総利得の最大値が求められる。

ただし、Ｖ（ｘ_Ｔ，Ｔ）はｔ時点目の状態がｘ_ｔという条件のもとでの、ｔ時点以降の期待総利得の最大値である。本実施形態ではＤＰを利用しているので、このように部分最適解を再利用している。ｔ＝Ｔの場合には次の式（２０）でそのノードにおける最適な行動が求められる。

ただし、ｄ^＊（ｘ_Ｔ，Ｔ）はＴ時点目の状態ｘ_Ｔにおいて選択すべき最適な行動である。１≦ｔ≦Ｔ−１の場合には次の式（２１）でそのノードにおける最適な行動が求められる。

ただし、ｄ^＊（ｘ_ｔ，ｔ）はｔ時点目の状態ｘ_ｔにおいて選択すべき最適な行動である。

その後、そのノードにおける最適な行動とそのノード以降の期待総利得の最大値が最適政策算出部３０のＤＰ実施器３０ｂへ出力され（ステップＳ４３）、前述の最適政策が出力されるのである。

以上説明したように、第１の実施形態によれば、ＤＰを用いて各時点のプレイヤーの各状態において、その時点以降の期待総利得を最大化し、最終的に制御期間における期待総利得を最大にすることが保証された政策が出力されるので、プレイヤーの初期状態と制御期間長とに対して制御期間における期待総利得を最大にする政策を出力することが可能となり、そのＲＰＧに関する攻略法（行動選択の仕方）を算出することができる。

即ち、本実施形態によれば、攻略法をコンピュータにシミュレーションさせることによって、被験者の体験データを取得することができる。例えば、プレイヤーのゲーム結果をシミュレーションすることによって、マップ上に隠されたアイテムやイベントに遭遇する割合等を把握でき、その割合を見ながら適切な隠し場所を設定する等のゲーム開発支援を行うことができる。また、算出される数理工学的に最適な攻略法と実際のプレイヤーによる攻略法との比較を行うことにより、人間が楽しいと感じるゲーム要素を工学的に把握することができる。人間が楽しいと感じるゲーム要素を確率モデル上のパラメータ設定のある種のパターンとして把握できれば、そのような要素を多く含むゲーム開発を行うことができる。また、種々の目的毎の攻略法を算出することによって、各目的に適したプレイヤーに協力するキャラクタの攻略法を容易にプログラミングすることが可能となる。

次に、各種確率分布を支配する真のパラメータθ^＊が未知である、本発明を拡張した第２の実施形態について説明する。

本実施形態における攻略法算出装置の構成は基本的には、第１の実施形態の場合と同様であり、従ってその構成の説明は省略する。

真のパラメータ未知の場合を説明するために、いくつかの新たな定義を行う。ｐ（θ）はパラメータθの事前分布であり、既知であるとする。Θはパラメータ空間であり、θ^＊∈Θ、θ∈Θである。ｘ^ｔｙ^ｔ−１はｔ期目の状態ｘ_ｔに至るまでの遷移系列であり、ｘ^ｔｙ^ｔ−１＝ｘ_１ｙ_１・・・ｘ_ｔである。

真のパラメータ既知の場合には、ＤＰでＴ時点から遡りながら各時点の各状態に対して行動選択を行うが、真のパラメータ未知の場合には、ＤＰでＴ時点から遡りながら各時点の各状態と１時点からその時点に至るまでの各遷移系列の組に対して行動選択を行う。

Ｔ時点目の状態ｘ_Ｔ（全ての状態の候補）と遷移系列ｘ^Ｔｙ^Ｔ−１（全ての遷移系列の候補）の組に対する処理は以下の通りである。

ただし、ｐ（θ｜ｘ^Ｔｙ^Ｔ−１）は１時点からＴ時点に遷移系列ｘ^Ｔｙ^Ｔ−１のように遷移した場合の事後分布である。

ｔ時点目（１≦ｔ≦Ｔ−１）の状態ｘ_ｔ（全ての状態の候補）と遷移系列ｘ^ｔｙ^ｔ−１（全ての遷移系列の候補）の組に対する処理は以下の通りである。

式（２２）から式（２５）を用いてｄ^＊ _Ｂ（ｘ_１，ｘ_１，１）まで求めることによって、１時点目からＴ時点目までの全ての状態と遷移系列の組とに対して、ベイズ基準のもとで総利得を最大にするという点で最適な行動選択の仕方を求めることができる。

式（２２）から式（２５）には積分計算が含まれており、一般的に、積分計算は計算量が多いが、二項分布（敵の出現以外の確率分布）の事前分布としてベータ分布を、多項分布（敵の出現の確率分布）の事前分布としてディリクレ分布をそれぞれ仮定すると、積分計算は四則演算で実施することができる（Ｍａｔｓｕｓｈｉｍａ，Ｔ．，Ｈｉｒａｓａｗａ，Ｓ．，ＡＢａｙｅｓｃｏｄｉｎｇａｌｇｏｒｉｔｈｍｆｏｒＭａｒｋｏｖｍｏｄｅｌｓ，ＴＥＣＨＮＩＣＡＬＲＥＰＯＲＴＯＦＩＥＩＣＥ，ＩＴ９５−１，ｐｐ．１−６（１９９５））。四則演算の一例として、マップモードのｔ期の状態ｘ_ｔにおいて行動ｙ_ｔを選択したもとで、敵ｅ_ｉが出現し、戦闘モードの状態ｘ_ｔ＋１に遷移する場合の
の計算を以下に示す。

ここで、Ｎ（Ｆ（ｍｖ（ｘ_ｔ，２，ｙ_ｔ）），ｅ_ｉ｜ｘ^ｔｙ^ｔ−１）は系列ｘ^ｔｙ^ｔ−１中で地形の種類がＦ（ｍｖ（ｘ_ｔ，２，ｙ_ｔ））の位置で敵ｅ_ｉが出現した回数、α（ｅ_ｉ｜Ｆ（ｍｖ（ｘ_ｔ，２，ｙ_ｔ）））はｐ（ｅ_ｉ｜Ｆ（ｍｖ（ｘ_ｔ，２，ｙ_ｔ）），θ）に対するディリクレ分布（事前分布）のパラメータ、α（ｍｖ（ｘ_ｔ，２，ｙ_ｔ）｜Ｆ（ｍｖ（ｘ_ｔ，２，ｙ_ｔ）））は
に対するディリクレ分布（事前分布）のパラメータを示す。このように、事前分布としてディリクレ分布やベータ分布を採用することにより、積分計算を四則演算で置き換えることができる。ディリクレ分布やベータ分布のパラメータの設定が事前分布の設定に相当するが、事前に何も情報が無い場合の設定の仕方についてはベイズ統計学やその応用分野で種々の方法が研究されている。多くの分野で良好な性質が報告されているジェフリーズの事前分布が有名であり、本実施形態に適用する場合は、各パラメータを０．５に設定することに相当する。例えば、Ｂｅｒｇｅｒ，Ｊ．Ｏ．，ＳｔａｔｉｓｔｉｃａｌＤｅｃｉｓｉｏｎＴｈｅｏｒｙａｎｄＢａｙｅｓｉａｎＡｎａｌｙｓｉｓ，Ｓｐｒｉｎｇ−Ｖｅｒｌａｇ，ＮｅｗＹｏｒｋ（１９８０）、繁桝算男，ベイズ統計入門，東京大学出版会（１９８５）、Ｍａｔｓｕｓｈｉｍａ，Ｔ．，Ｈｉｒａｓａｗａ，Ｓ．，ＡＢａｙｅｓｃｏｄｉｎｇａｌｇｏｒｉｔｈｍｆｏｒＭａｒｋｏｖｍｏｄｅｌｓ，ＴＥＣＨＮＩＣＡＬＲＥＰＯＲＴＯＦＩＥＩＣＥ，ＩＴ９５−１，ｐｐ．１−６（１９９５）、鈴木譲，ベイシアネットワーク入門，培風館，東京（２００９）を参照。事前分布にディリクレ分布やベータ分布を採用してジェフリーズの事前分布に設定し、式（２２）から式（２５）で処理することにより、真のパラメータ未知の場合にベイズ基準のもとで総利得を最大化することができる。

以上の説明では、真のパラメータ未知の場合のベイズ最適な行動選択の仕方を求めるアルゴリズムについて述べた。事前分布としてディリクレ分布やベータ分布を採用することにより、積分計算を四則演算に置き換えた。しかしながら、ベイズ最適な行動選択の仕方を求めるためには、多大な計算量が必要となる。真のパラメータ既知の場合には、ＤＰの各時点毎に式（１９）の処理を状態数分だけ実施すればよい。一方、真のパラメータ未知のベイズ最適の場合には、ＤＰの各時点毎に式（２５）の処理を状態数と遷移系列の個数との積分だけ実施する必要があり、処理の回数は時点の数（ｔ期のｔ）に対する指数オーダとなる。

そこで、本実施形態の望ましい態様として、真のパラメータ未知の場合に近似を行う例を説明する。ここで、学習データＬを新たに導入する。学習データは過去のゲームのプレイデータである遷移系列の集合であったり、敵の出現確率などの個々の確率分布について真のパラメータの分布から発生させたサンプルデータであったり、種々の形態が適用可能である。

前述したベイズ最適な方法では、各時点毎にその時点までの遷移系列ｘ^ｔｙ^ｔ−１に対する事後分布によって、
を計算したが、近似アルゴリズムでは、時点に関係なく学習データＬによる事後分布を用いて
を計算する。具体的には、
を真のパラメータ既知の場合の式（１８）から式（２１）に代入して行動選択の仕方を求める。

近似アルゴリズムにより、ＤＰの処理の回数は真のパラメータ既知の場合と同じ回数に軽減することができる。有限の学習データに対する理論的な精度保証はないが、漸近的には学習データによる事後分布を用いた推定値が真のパラメータに収束するので、求める行動選択の仕方も真のパラメータ既知の場合に収束する。

真のパラメータθ^＊が既知の場合の行動選択の仕方を求めるアルゴリズムに関する第１の実施形態について実験を行った実施例を説明する。図６にこの実施例におけるマップを示す。実験結果が理解しやすいように９マスからなる小規模のマップとした。以下の表１〜表５は地形の設定、確率の設定及びその他の設定を示している。

以上の設定で、真のパラメータ既知の場合のアルゴリズムを適用して、１０期間の期待総利得を最大化するための各期における行動選択の仕方を求めた。

結果の一部について述べると、例えば、時点３（３期）でプレイヤーのＨＰが６であり位置ｓｍ_４にいるマップモードの状態では、最適の行動選択はａ_３という上のマスｓｍ_７への移動であった。これは、プレイヤーのＨＰにまだ余裕があるので、弱くて報酬の小さい敵が出現する右（ａ_１）やＨＰを回復する下（ａ_４）ではなく、強くて報酬の大きい敵が出現する上（ａ_３）への移動を選択しているのである。他方、同じ時点３（３期）のマップモードであってもＨＰが１であり位置ｓｍ_４にいる状態では、行動ａ_４を選択して下のＨＰを回復してくれるスタート位置ｓｍ_１へ移動した。これは、プレイヤーのＨＰに余裕がないので回復するための行動選択である。また、時点９（９期）にＨＰが１であり位置ｓｍ_４にいるマップモードの状態では、行動ａ_１を選択して、弱くて報酬の小さい敵が出現する右のｓｍ_５へ移動した。これは、プレイヤーのＨＰに余裕はないが、残りの期間にも余裕がないため、弱い敵が出現するｓｍ_５への移動を選択しているのである。

このように、真のパラメータ既知の場合のアルゴリズムを適用することにより、開発者であれば知っている真のパラメータの情報を利用して対象期間の期待総利得を最大にする行動選択の仕方を求めることができる。

次に、真のパラメータが未知の場合の行動選択の仕方を求めるアルゴリズムに関する第２の実施形態について実験を行った実施例を説明する。真のパラメータ既知の場合の実施例と同じ設定のもとで、真のパラメータ未知の場合の近似アルゴリズムを適用した。学習データとして、各確率分布毎にサンプルデータを発生させた。そのもとで、近似アルゴリズムを適用し、各時点の各状態における行動選択が真のパラメータ既知の場合と比較して一致するかどうか調べた。各確率分布の学習データ数を１０、１００、１０００と変化させ、それぞれの学習データ数に対して１００パターンの学習データを発生させて適用実験を行った。真のパラメータ既知の場合の行動選択との一致率は１００パターンの平均で、学習データ数が１０の場合で約８８％、学習データ数が１００の場合で約９４％、学習データ数が１０００の場合で約９６％であった。

このように、学習データによる事後分布を利用する近似アルゴリズムを用いることにより、真のパラメータが未知の場合でも、ＤＰに必要な計算量を、真のパラメータ既知の場合の計算量と同程度とすることができる。また、少ない実験例ではあるが、学習データの増加に伴い真のパラメータ既知の場合との行動選択の一致率が高くなることが確認できた。

以上述べた実施形態は全て本発明を例示的に示すものであって限定的に示すものではなく、本発明は他の種々の変形態様及び変更態様で実施することができる。従って本発明の範囲は特許請求の範囲及びその均等範囲によってのみ規定されるものである。

１０バス
１１ＣＰＵ
１２ＲＯＭ
１３ＲＡＭ
１４ＨＤＤ
１５サウンド処理部
１６画像処理部
１７ＢＲ／ＤＶＤ駆動装置
１８入出力インタフェース
１９通信インタフェース
２０スピーカ
２１表示ディスプレイ
２２ＢＲ／ＤＶＤ／ＣＤ
２３コントローラ
２４キーボード
２５マウス
３０最適政策算出部
３０ａＤＰグラフ作成器
３０ｂＤＰ実施器
３１行動決定部
３１ａ行動決定器
３１ｂ遷移確率テーブル
３１ｃ利得テーブル

Claims

ロールプレイングゲームのプレイヤーのゲーム開始時点における初期状態と制御期間の長さと確率分布を支配する真のパラメータθ ^＊又は近似のための学習データＬとが与えられた際に、該制御期間におけるマルコフ決定過程問題を動的計画法で求めて該制御期間中に得られる総報酬に相当する期待総利得を最大にする政策を出力する最適政策算出部と、
前記プレイヤーの状態及び時点と確率分布を支配する真のパラメータθ ^＊又は近似のための学習データＬとが与えられると当該時点の当該状態においてマルコフ決定過程問題のそれ以降の期待総利得を最大にする最適行動及び期待総利得の最大値を出力する行動決定部とを備えており、
前記プレイヤーの初期状態及び制御期間の長さと確率分布を支配する真のパラメータθ ^＊又は近似のための学習データＬとに対して制御期間におけるマルコフ決定過程問題を動的計画法で求めて該制御期間における期待総利得を最大にすることが保証された最適政策を出力することを特徴とするロールプレイングゲームの攻略法算出装置。
ロールプレイングゲームのプレイヤーのゲーム開始時点における初期状態と制御期間の長さと確率分布を支配する真のパラメータθ ^＊又は近似のための学習データＬとが与えられた際に、該制御期間におけるマルコフ決定過程問題を動的計画法で求めて該制御期間中に得られる総報酬に相当する期待総利得を最大にする政策を出力する最適政策算出工程と、
前記プレイヤーの状態及び時点と確率分布を支配する真のパラメータθ ^＊又は近似のための学習データＬとが与えられると当該時点の当該状態においてマルコフ決定過程問題のそれ以降の期待総利得を最大にする最適行動及び期待総利得の最大値を出力する行動決定工程とを備えており、
前記プレイヤーの初期状態及び制御期間の長さと確率分布を支配する真のパラメータθ ^＊又は近似のための学習データＬとに対して制御期間におけるマルコフ決定過程問題を動的計画法で求めて該制御期間における期待総利得を最大にすることが保証された最適政策を出力することを特徴とするロールプレイングゲームの攻略法算出方法。
ロールプレイングゲームのプレイヤーのゲーム開始時点における初期状態と制御期間の長さと確率分布を支配する真のパラメータθ ^＊又は近似のための学習データＬとが与えられた際に、該制御期間におけるマルコフ決定過程問題を動的計画法で求めて該制御期間中に得られる総報酬に相当する期待総利得を最大にする政策を出力する最適政策算出手順と、
前記プレイヤーの状態及び時点と確率分布を支配する真のパラメータθ ^＊又は近似のための学習データＬとが与えられると当該時点の当該状態においてマルコフ決定過程問題のそれ以降の期待総利得を最大にする最適行動及び期待総利得の最大値を出力する行動決定手順とをコンピュータで実行させ、
前記プレイヤーの初期状態及び制御期間の長さと確率分布を支配する真のパラメータθ ^＊又は近似のための学習データＬとに対して制御期間におけるマルコフ決定過程問題を動的計画法で求めて該制御期間における期待総利得を最大にすることが保証された最適政策を出力することを特徴とするロールプレイングゲームの攻略法算出プログラム。
ロールプレイングゲームのプレイヤーのゲーム開始時点における初期状態と制御期間の長さと確率分布を支配する真のパラメータθ ^＊又は近似のための学習データＬとが与えられた際に、該制御期間におけるマルコフ決定過程問題を動的計画法で求めて該制御期間中に得られる総報酬に相当する期待総利得を最大にする政策を出力する最適政策算出手順と、
前記プレイヤーの状態及び時点と確率分布を支配する真のパラメータθ ^＊又は近似のための学習データＬとが与えられると当該時点の当該状態においてマルコフ決定過程問題のそれ以降の期待総利得を最大にする最適行動及び期待総利得の最大値を出力する行動決定手順とをコンピュータで実行させる攻略法算出プログラムを記録したコンピュータ読み取り可能な記録媒体であり、
前記プレイヤーの初期状態及び制御期間の長さと確率分布を支配する真のパラメータθ ^＊又は近似のための学習データＬとに対して制御期間におけるマルコフ決定過程問題を動的計画法で求めて該制御期間における期待総利得を最大にすることが保証された最適政策を出力することを特徴とするロールプレイングゲームの攻略法算出プログラムを記録した記録媒体。