JP6943458B2

JP6943458B2 - パラメータ最適化装置、パラメータ最適化方法及びコンピュータプログラム

Info

Publication number: JP6943458B2
Application number: JP2019077997A
Authority: JP
Inventors: 菊紀篠原; 哲朗櫻井; 克彦岡林
Original assignee: 一般財団法人パチンコ・パチスロＫａｉ総合研究所
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2021-09-29
Anticipated expiration: 2039-04-16
Also published as: JP2020174792A

Description

この発明は、パラメータ最適化装置、パラメータ最適化方法及びコンピュータプログラムに関する。

パチンコ、スロットマシンに代表される遊技機は、この遊技機を遊技する遊技者が、遊技の結果としていわゆる当たりを獲得し、この結果、遊技者が興趣を感じて遊技を繰り返すことによりその稼働率が上昇する。稼働率の高い遊技機を多数保有し、さらに、パチンコホール等の店舗内に設置される遊技機の稼働率を維持・向上させることが、この店舗の運営者にとっての経営課題であるので、店舗運営者は、遊技機の稼働率を日常的に把握することで、遊技者が感じている興趣を間接的に把握している。

また、遊技機の製造会社にとっても、遊技機の売れ行き向上のために、遊技機の稼働率を日常的に把握して、興趣性の高い遊技機製造に結びつけている。

かかる観点から、本発明者らは、遊技機を遊技者が遊技する際に実際に発生するイベントの発生頻度に基づいてこのイベントの発生頻度をシミュレーションにより取得し、取得したイベントの発生頻度に基づいて、遊技者の脳内に発生すると推定されるドーパミン量を算出することで遊技者の興趣を推定するパラメータ最適化装置を提案した（特許文献１参照）。

特開２０１８−１９７９６８号公報

上述した特許文献１に開示した技術では、遊技機において実際に発生するイベントの発生頻度に基づいてドーパミン量を算出していた。かかる技術を前提として、遊技者の製造会社を含むゲームの製造・制作会社では、ドーパミン量を最大化するゲームのパラメータを最適化する手法の実現が要望されていた。

本発明は上記の課題に鑑みてなされたもので、ゲームのパラメータを最適化することが可能なパラメータ最適化装置、パラメータ最適化方法及びコンピュータプログラムを提供することにある。

上記課題を解決すべく、本発明の一つの観点に従うパラメータ最適化装置は、予告を伴うゲームのイベントの発生確率、予告が演出された際のイベントの期待確率、及びイベントによる報酬の価値を含むゲームのパラメータの初期値が格納された記憶部と、予告及び報酬を報酬系における予告と報酬との組み合わせとみなした際の予告と報酬との関係に基づくドーパミン比の動物実験の結果を用いて定められた評価関数により、ゲームのパラメータに基づいてゲームのプレーヤがゲームをプレイした際にこのプレーヤの脳内に発生されると推定されるドーパミン量を推定するドーパミン量推定部と、パラメータのうち少なくとも発生確率を初期値から予め定めた変動範囲の間で変化させることでドーパミン量推定部により推定されるドーパミン量が最大値となるパラメータの最適値を算出するパラメータ最適化部とを有する。

本発明によれば、ゲームのパラメータを最適化することができる。

実施例のパラメータ最適化装置の概略構成を示すブロック図である。実施例のパラメータ最適化装置の動作の一例を説明するフローチャートである。本発明のパラメータ最適化装置に用いられる原理の一例を説明するための図である。本発明のパラメータ最適化装置に用いられる原理の一例を説明するための図である。本発明のパラメータ最適化装置に用いられる原理の一例を説明するための図である。信頼度とドーパミン量との関係の一例を示す図である。実験例における発生確率と評価関数の値との関係の一例を示す図である。

＜本発明に用いられる原理＞
本発明の実施の形態を説明する前に、本発明のパラメータ最適化装置に用いられる原理について、図３〜図５を参照して説明する。

近年の脳科学の進展により、ドーパミンと呼ばれる物質が脳内で生成され、このドーパミンを特定の神経系が受容することでヒトに快感が生起されることが判明してきた。

具体的には、ヒト・動物の脳において、欲求が満たされたとき、あるいは満たされることが分かったときに活性化し、その個体に快の感覚を与える、報酬系と呼ばれる神経系の存在が知られている。哺乳類の場合、報酬系は中脳の腹側被蓋野から大脳皮質に投射するドーパミン神経系（別名A10神経系）であると言われている。

報酬系が活性化するのは、必ずしも欲求が満たされたときだけではなく、報酬を得ることを期待して行動をしている時にも活性化する。例えば、喉が渇いているヒトが水を飲んだときには、脳内で報酬系が活性化し快の感覚を感じる。しかし、ヒトであれば歩いている途中に自動販売機を見つけた場合、その時点で水分が飲めることが当然推測できるので、見つけた時点で報酬系が活性化している（以上、"報酬系"，［online］、Wikipedia，［平成２９年５月１８日検索］，インターネット＜URL: https://ja.wikipedia.org/wiki/%E5%A0%B1%E9%85%AC%E7%B3%BB）。

このような報酬系において実際にヒトの脳内でどの程度のドーパミンが分泌されているかを推定するために、本発明者は、猿を使った動物実験の結果を使用することにした。

この実験では、猿の脳に電極を挿して、報酬となるジュースを与えたときのドーパミン量を計測した。また、報酬を与える前に予告を与え、その後に報酬を与える実験も行った。このとき、確率的に報酬を与えた場合でのドーパミン量の変化も計測した。

具体的には、報酬を与える前にランプの光や音などの報酬の予告を発生させ、その後ある一定の確率のもと報酬を与えるという行為を繰り返す学習をさせ、報酬の予告と報酬の関係性が学習されたもとでのドーパミン量を計測した。このとき、図３に示すような結果となった（Wolfram Schultz，" The Reward Signal of Midbrain Dopamine Neurons"，News Physiol. Sci.，（米），1999，Vol.14，No. 6，p.249-255、Wolfram Schultz，他６名，"Explicit neural signals reflecting reward uncertainty"，Phil. Trans. R. Soc. B，（英），2008， No.363，p.3801-3811）。

上記論文に開示された結果によれば、予告なしに報酬を与えた際のドーパミン値を１とすると、予告の信頼度、つまり確率が２５％、５０％、７５％、１００％のときのドーパミン値は図３のような結果となった。予告があった際には、予告時における前倒しのドーパミン値と実際に報酬が得られたときのドーパミン値の２つが発生し、またその際のドーパミンの分泌量の比もわかった。

図３において、１番上のグラフが信頼度０％の場合、２番目のグラフが信頼度２５％の場合、３番目のグラフが信頼度５０％の場合、４番目のグラフが信頼度７５％の場合、５番目のグラフが信頼度１００％の場合にあたる。そして、それぞれのグラフの山の高さおよび山頂付近に書かれている数値が計測されたドーパミン値である。

図３に示す実験結果では、例えばパチンコ等の遊技機において単一の予告があった後に大当たり＝報酬が得られる場合、つまり単一演出の場合であり、しかも、信頼度＝確率が０％、２５％、５０％、７５％及び１００％である場合についてのドーパミン量の計測値が開示されている。一方、遊技機で遊技される内容を含むゲームはより複雑なものがあり、しかも、確率も様々な数値を取りうる。

一例として、一般的なパチンコにおいて行われている演出について説明する。

パチンコを遊技して、スタートチャッカーにパチンコ玉が入賞すると所定の確率で抽選が開始されるが、この抽選動作中にさらにスタートチャッカーにパチンコ玉が入賞すると、この入賞についても抽選動作が行われる。しかしながら、抽選動作は順次行われるので、抽選動作中の入賞についても、遊技機は一定回数だけ記憶（保留）する。スタートチャッカーにパチンコ玉が入賞して、保留された入賞について一連の抽選動作が終了して抽選結果が判明する（通常は、遊技機が備える（メイン）デジタルと呼ばれるディスプレイの演出動作により判明する）までの一連の経過は、上述した報酬系における予告と報酬との組み合わせと考えることができる。

次に、抽選の結果、大当たりに至るまでの演出動作が所定の確率で生起する。多くの遊技機では、デジタルにスロットを表示し、このスロットに表示される図柄（例えば３×３の図柄）がいずれかの方向（３×３の図柄であれば横方向及び斜め方向×２）で揃えば大当たり判定への移行動作が行われる。

そして、これも多くの遊技機では、いずれかの方向に図柄が２つ揃った状態（これをリーチと称する）の演出表示をデジタルに表示させ、大当たり判定への期待度を高めるとともに、リーチ状態に突入してから最終的に大当たり判定を行うまでの予告演出動作（リーチ中フローと称する）をデジタルに表示させ、大当たり判定への期待度を高めている。

また、リーチ演出動作に至る前に、このリーチ演出動作が行われることを予告（リーチ前予告と称する）する演出動作が行われることがある。

リーチ演出動作に移行するか、さらに、リーチ後に大当たり演出動作に移行するかについても、やはり所定の確率に基づく抽選が行われる。従って、これらリーチ前予告演出、リーチ中フローの予告演出も、やはり上述した報酬系における予告と報酬との組み合わせと考えることができる。
従って、図３に示す実験結果を用いて、より複雑な予告演出及び大当たり演出に基づくドーパミン量を推定する手法を本発明者らは考案した。その詳細については後述する。

＜パラメータ最適化装置の概略構成＞
図１は、本実施例のパラメータ最適化装置を構成する情報処理装置１０の概略構成を示すブロック図である。

本実施例の情報処理装置１０は、例えばパーソナルコンピュータ等であり、制御部１１、記憶部１２、入力インタフェース（Ｉ／Ｆ）１３及び出力インタフェース（Ｉ／Ｆ）１４を備える。なお、以下の説明において、情報処理装置１０に代えてパラメータ最適化装置１０としても説明する。

制御部１１はＣＰＵ等の演算素子を備える。記憶部１２内に格納されている図略の制御用プログラムが情報処理装置１０の起動時に実行され、この制御用プログラムに基づいて、制御部１１は記憶部１２等を含む情報処理装置１０全体の制御を行うとともに、ドーパミン量推定部２０、パラメータ最適化部２１、データ取得部２２、確率推定部２３、及びシミュレーション部２４としての機能を実行する。これら各機能部の動作については後述する。

記憶部１２はハードディスクドライブ等の大容量記憶媒体、及びＲＯＭ、ＲＡＭ等の半導体記憶媒体を備える。この記憶部１２には上述の制御用プログラムが格納されているとともに、制御部１１の制御動作時に必要とされる各種データが一時的に格納される。また、この記憶部１２には、本実施例のパラメータ最適化装置（情報処理装置１０）によりパラメータの最適化動作が図られるゲームに関するパラメータ３０、及び試技データ３１が格納されている。

なお、本実施例のパラメータ最適化装置が適用される（最適化動作が図られる）ゲームの種類に大きな限定はなく、パチンコ等の遊技機、スマートフォン等でプレイされるいわゆるガチャを伴うソーシャルゲーム、スロットマシン（ビデオスロット）等が挙げられる。但し、上述したように、本発明のパラメータ最適化装置は、予告と報酬とからなる報酬系を前提とした実験結果に基づくものであるので、報酬に先立って何らかの予告が伴うものであることが好ましい。加えて、予告が提示されたときの報酬の信頼度＝確率を伴うものであることが好ましい。

パラメータ３０は、予告を伴うゲームのイベントの発生確率、予告が演出された際のイベントの期待確率、及びイベントによる報酬の価値を表す数値を含む。

パラメータ３０がこれらの数値を含むことについて以下説明する。単純化して考えると、個々の予告とイベント（報酬）との組み合わせにおけるドーパミン量は

ドーパミン量＝ｆ（期待の大きさ、報酬の有無、報酬の価値）

として定式化される。ここに、ｆ（）は括弧内をパラメータとする関数を示す。報酬が得られる条件が整うと期待しワクワクする。報酬が得られれば気分は高揚し、得られなければ残念と落ち込む。また得られた報酬の価値が高ければ高いほど、これらの喜びは増幅される。期待は予告として読み替えることができる。上述したゲームの例では、これらの項目は次のように対応する。

パチンコ・パチスロの場合
・期待の大きさ：特定演出における信頼度
・報酬の有無：当りを引いたか引いていないか
・報酬の価値：得られる球の個数またはコインの個数

ソーシャルゲームの場合
・期待の大きさ：特定演出における信頼度
・報酬の有無：当りを引いたか引いていないか
・報酬の価値：得られるアイテムのレアリティなど

スロットマシン（ビデオスロット）の場合
・期待の大きさ：特定演出における信頼度
・報酬の有無：当りを引いたか引いていないか
・報酬の価値：得られるコインの個数

そして、ゲーム全体のドーパミン量は、個々のドーパミン量がどの程度の割合で出現（発生）するかによって決定する。

ゲームのドーパミン量＝ｆ（発生確率、ドーパミン量）

つまり、先ほどの３つの項目を使えば

ゲームのドーパミン量＝ｆ（発生確率、期待の大きさ、報酬の有無、報酬の価値）

として表すことができる。

このときに注意が必要なのが、発生確率は高い方がドーパミン量は出やすくなるのだが安易に高く設定することはできないということである。例えば、パチンコ・パチスロやカジノのスロットマシン（ビデオスロット）では大当りを出せば出すほどユーザーに還元しなければいけなくなり運営を圧迫することになる。またソーシャルゲームでは報酬の価値をレアリティとして捉えるのであるならばレアリティとは手に入れにくさに関連するため発生確率をあげればその分レアリティが下がってしまう。そのため、これら発生確率、期待の大きさ、報酬の有無、報酬の価値に関する調整がゲームの面白くするためにはとても重要となってくる。

さらに、ゲームのドーパミン量はプレイヤー（ユーザーまたは遊技者）の遊び方にも依存する。つまり、個々人によってドーパミン量は異なり、また確率を伴ってゲームが進行するため１回の遊戯中のドーパミン量も異なる。これらを用いると

１人または１回の遊戯におけるゲームのドーパミン量
＝ｆ（遊び方、発生確率、期待の大きさ、報酬の有無、報酬の価値）

として定式化される。

期待の大きさは、信頼度＝確率で表すことができる。従って、本実施例では、上述したように、パラメータ３０は、予告を伴うゲームのイベントの発生確率、予告が演出された際のイベントの期待確率、及びイベントによる報酬の価値を表す数値を含む。

本実施例のパラメータ最適化装置（情報処理装置１０）によりパラメータの最適化動作が図られるゲームは複数のイベントを有することができる。そして、ゲームが複数のイベントを有する場合、記憶部１２には、各々のイベントの発生確率、各々のイベントの期待確率、及び各々のイベントによる報酬の価値を含むパラメータ３０がイベント毎に格納されている。

後に詳述するように、パラメータ最適化部２１はこのパラメータ３０の最適化を図る。従って、記憶部１２には、パラメータ３０の初期値と、パラメータ最適化部２１による最適化動作の途中経過である経過値と、そしてパラメータ最適化部２１により最適化がされた最適値とが格納されうる。

試技データ３１は、パラメータ最適化部２１によるパラメータ最適化の対象となる遊技機を実際に試技した結果得られるデータである。

本実施例のパラメータ最適化装置１０では、保留演出、リーチ前予告演出、リーチ中フローの予告演出を、遊技機で発生するイベントと考え、遊技機において３０００回の大当たりの予告が発生する状況を実際に遊技機で試技を行うことで発生させ、この試技の結果から試技毎に発生したイベントを記録して、これを試技データ３１として記憶部１２に格納している。

試技データ３１は、３０００回の大当たりの予告が発生した試技において発生したイベントを保留演出、リーチ前予告演出、リーチ中フローの予告演出の３つに大別し、さらに、リーチ前予告については、遊技機からセリフが発せられたかどうか、遊技機に設けられた役物が動作するか否かについてもイベントとして記録している。また、リーチ中フローについては、リーチ後の予告動作の有無、疑似連と呼ばれる、図柄を複数回回転させる動作の有無、特別なリーチ状態に突入することを示す演出動作であるリーチ発展動作の有無についてもイベントとして記録している。

どのようなイベントが存在するかは遊技機に依存するので、上述した例はあくまでも一例であり、パラメータ最適化の対象となる遊技機により適宜修正可能であることは言うまでもない。

特に、本実施例では、複数のイベントの発生頻度に関する複数の試技データ３１が格納されており、さらには、単一のイベントの終了頻度及び複数の異なるイベントの終了頻度を合計した終了頻度に基づくイベントの発生頻度に関する複数のイベント発生情報が格納されている。

つまり、本実施例の試技データ３１は、試技毎に発生したイベントを記録しており、かつ、上述したとおり、抽選結果により次のイベントに移行したかどうかについても記録しているので、結果として、単一のイベントの終了頻度及び複数の異なるイベントの終了頻度を合計した終了頻度に基づくイベントの発生頻度に関する複数の試技データ３１となっている。

入力インタフェース１３は、情報処理装置１０に接続された入力装置１５からの各種入力を受け入れ、これを制御部１１に出力する。本実施例の入力装置１５は例えばキーボードやマウス等であり、後述する表示装置１６の表示画面に対して座標指定入力を行いうるものである。

出力インタフェース１４は、制御部１１から出力された出力信号を受け入れ、これを表示装置１６及び印刷装置１７に出力する。本実施例の表示装置１６は例えば液晶ディスプレイ装置であり、出力インタフェース１４を介して出力された表示制御信号に基づいて図略の表示面に表示画面を表示する。また、本実施例の印刷装置１７は例えばプリンターであり、出力インタフェース１４を介して出力された印字制御信号に基づいて所定の文字や画像の印字動作を行う。

次に、制御部１１に構成される各機能部の説明をする。

ドーパミン量推定部２０は、予告及び報酬を報酬系における予告と報酬との組み合わせとみなした際の予告と前記報酬との関係に基づくドーパミン比の動物実験の結果を用いて、記憶部１２に格納されているパラメータ３０に基づいてゲームのプレーヤがゲームをプレイした際にこのプレーヤの脳内に発生されると推定されるドーパミン量を推定する。

特に、ゲームが複数のイベントを有する場合、本実施例のドーパミン量推定部２０は、各々のイベントのパラメータ３０に基づいてドーパミン量を推定する。

パラメータ最適化部２１は、パラメータ３０を初期値から変化させることでドーパミン量推定部２０により推定されるドーパミン量が最大値となる前記パラメータの最適値を算出する。

ここで、本実施例のパラメータ最適化部２１は、ドーパミン量推定部２０により推定されるドーパミン量を関数に持つ評価関数を定め、評価関数の値が最大値となるドーパミン量に基づいてパラメータの最適値を算出する。

データ取得部２２は、記憶部１２に格納されている試技データ３１を読み取り、これを確率推定部２３に提供する。特に、本実施例の試技データ３１は複数のイベントに関する試技データ３１であるので、データ取得部２２は、これら複数の試技データ３１を読み取って確率推定部２３に提供する。

確率推定部２３は、記憶部１２に格納され、データ取得部２２から提供された試技データ３１に基づいてイベントの発生確率を推定する。特に、本実施例の確率推定部２３は、複数の試技データ３１に基づいて複数のイベントのそれぞれの発生確率を推定する。

シミュレーション部２４は、確率推定部２３が推定したイベントの発生確率に基づいて、遊技機による遊技のシミュレーションを行うことで、イベントの発生頻度を取得する。

特に、本実施例のシミュレーション部２４は、確率推定部２３が推定した複数のイベントのそれぞれの発生確率に基づいて、複数のイベントのそれぞれの発生頻度を取得する。さらに、シミュレーション部２４は、複数のイベントのそれぞれの発生頻度に基づく期待出玉数を取得する。

そして、ドーパミン量推定部２０は、シミュレーション部２４がイベントの発生頻度を取得した場合、シミュレーション部２４が取得した発生頻度を、パラメータ３０に含まれるイベントの発生確率であるとしてドーパミン量を推定する。但し、データ取得部２２、確率推定部２３及びシミュレーション部２４は本実施例に必須の構成ではない。

これらドーパミン量推定部２０、パラメータ最適化部２１、データ取得部２２、確率推定部２３、及びシミュレーション部２４の動作の詳細については後述する。

＜パラメータ最適化装置の動作＞
次に、図２のフローチャートを参照して、本実施例のパラメータ最適化装置１０の動作について説明する。

パラメータ最適化装置１０の動作が開始されると、まず、ステップＳ１０では、制御部１１のドーパミン量推定部２０が、記憶部１２に格納されているパラメータ３０の初期値を読み取る。ステップＳ１１では、制御部１１のパラメータ最適化部２１が、後述するパラメータ最適化動作においてパラメータ３０を変動させる範囲を設定する。
次に、ステップＳ１２では、ドーパミン量推定部２０が、上述した原理の欄で説明した動物実験の結果を用いて、ステップＳ１０で読み取ったパラメータ３０に基づいてゲームのプレーヤがゲームをプレイした際にこのプレーヤの脳内に発生されると推定されるドーパミン量を推定する。

本実施例のドーパミン量推定部２０は、図３に示す実験結果の結果を用いて、以下に説明する手順によりドーパミン量を推定する。

図３に示す実験結果は、単一の予告演出及びこの予告に連なる大当たり＝報酬におけるドーパミン量の計測値であると考えることができる。このとき、図４に示すように、図３に示す実験結果に３つの領域Ａ１〜Ａ３を設定する。領域Ａ１、Ａ２にそれぞれ含まれるドーパミンは予告演出に伴って発生するドーパミンであり、領域Ａ３に含まれるドーパミンは大当たりに伴って発生するドーパミンである。

そして、領域Ａ１における信頼度＝確率が０％、２５％、５０％、７５％、１００％のときのドーパミン値を折れ線で結び、線形補間したものを予告におけるドーパミン量の関数ｐｒＤＡ１とする。同様に、領域Ａ２における信頼度＝確率が０％、２５％、５０％、７５％、１００％のときのドーパミン値を折れ線で結び、線形補間したものを予告におけるドーパミン量の関数ｐｒＤＡ２とする。そして、領域Ａ３における信頼度＝確率が０％、２５％、５０％、７５％、１００％のときのドーパミン値を折れ線で結び、線形補間したものを、大当たりにおけるドーパミン量のＤＡの関数ｂｂＤＡとする。それぞれの関数ｐｒＤＡ１、ｐｒＤＡ２、ｂｂＤＡの具体的な式は次式のようになる。このとき、関数の引数ｐは、その演出の信頼度＝確率である。

従って、大当たりしたときのドーパミン量の総量を表す関数ＤＡは次式のようになる。

同様に、外れたときのドーパミン量の総量を表す関数は次式のようになる。

以上の検討を基にして、図５を参照して、複数の予告演出がある場合のドーパミン量の総量を表す関数ＤＡ（ｐ）を導く。なお、以下の説明で予告演出を３つにしているのは、一般的に脳が覚えていられる期待の塊は３つであるという脳科学の知見に基づくものである。

３つの演出、演出Ａ、演出Ｂ、演出Ｃがあったとき、演出Ａから演出Ｂに発展する確率をｐ１、演出Ｂから演出Ｃに発展する確率をｐ２、演出Ｃから当たりに発展する確率をｐ３とする。図５に示す例では、図の左から演出Ａ、演出Ｂ、演出Ｃとなり、ｐ１が０．２５、ｐ２が０．２５、ｐ３が０．５である。

演出Ａで止まった（演出Ｂまで移行しない）ときの関数ＤＡは次式のようになる。

演出Ｂで止まった（演出Ａから演出Ｂに移行したものの演出Ｃまで移行しない）ときの関数ＤＡは次式のようになる。

演出Ｃで止まった（演出Ｂから演出Ｃに移行したものの当たりまで移行しない）ときの関数ＤＡは次式のようになる。

そして、当たりまで行ったときの関数ＤＡは次式のようになる。

以上の式で、Ｉ（ｘ）は１以上で１となり、１未満でｘの値を返す閾値関数である。

図２に戻って、ステップＳ１３では、パラメータ最適化部２１が、ステップＳ１２でドーパミン量推定部２０が算出したドーパミン量に基づいて、このドーパミン量を関数とする評価関数の値を算出する。

本実施例のパラメータ最適化部２１は、評価関数を用いてパラメータの最適化動作を行う。但し、評価関数を用いたパラメータの最適化動作はその一例であり、別の手法によりパラメータの最適化動作を行うこともできる。

一例として、単一の予告演出が行われるゲームにおいて、全てのプレーヤの遊び方が等しく、発生確率と報酬の価値とが一通りであるとして、上述した単一の予告演出におけるドーパミン量の関数ＤＡを、発生確率が０〜１．０まで変化させて算出した例を図６に示す。

図６の横軸は発生確率、縦軸はＤＡの値である。グラフ中、破線で示したものは図３の領域Ａ１におけるＤＡの値、一点鎖線で示したものは図３の領域Ａ２におけるＤＡの値、実線で示したものは図３の領域Ａ３におけるＤＡの値である。

図６のグラフから、次のことがわかる。
・予告演出のみのＤＡの最大値：２．９、その時の信頼度＝確率：０．７５
・大当たりのみのＤＡの最大値：１．６、その時の信頼度＝０．２５
・予告演出＋大当たりのＤＡの最大値３．４３、その時の信頼度＝０．７５

このように、ドーパミン量の関数ＤＡによっては、信頼度＝発生確率の最大値（最適値）を簡易に求めることができる。

他に、パラメータ最適化部２１がパラメータ３０の最適値を算出する手法としては、グリッドサーチ、確率的勾配降下法などにより評価関数の最適化（最適値を探索する）を図る手法が挙げられる。図３に示す例では、パラメータ最適化部２１はグリッドサーチにより評価関数の最適化を図り、これによりパラメータ３０の最適値を求める。評価関数はドーパミン量の関数ＤＡの最大値を適切に求められる関数であり、一例として、信頼度＝確率を変数とするドーパミン量の関数ＤＡの期待値である。

ステップＳ１４では、ステップＳ１２、Ｓ１３における算出動作に用いたパラメータの値が、ステップＳ１１で定めた変動範囲の最終値に至ったかどうかがパラメータ最適化部２１により判定される。そして、最終値に至ったと判定されたら（ステップＳ１４においてＹＥＳ）、プログラムはステップＳ１６に進む。一方、まだ最終値に至っていないと判定されたら（ステップＳ１４においてＮＯ）、プログラムはステップＳ１５に進む。

ステップＳ１５では、パラメータ最適化部２１がパラメータの値を更新する。グリッドサーチを用いる場合、パラメータ最適化部２１はパラメータの値を予め定めた微小値だけ増分させる。

ステップＳ１６では、パラメータ最適化部２１が、ステップＳ１３で繰り返し算出した評価関数の値に基づいてドーパミン量の最大値を求め、そして、ステップＳ１７では、ドーパミン量が最大値となるときのパラメータ３０の最適値を検出する。

＜本実施例の効果＞
このように構成される本実施例によれば、ドーパミン量推定部２０が、予告及び報酬を報酬系における予告と報酬との組み合わせとみなした際の予告と報酬との関係に基づくドーパミン比の動物実験の結果を用いて、記憶部１２に格納されたパラメータ３０に基づいて、ゲームのプレーヤがゲームをプレイした際にこのプレーヤの脳内に発生されると推定されるドーパミン量を推定し、パラメータ最適化部２１が、パラメータ３０を初期値から変化させることでドーパミン量推定部２０により推定されるドーパミン量が最大値となるパラメータの最適値を算出している。

従って、本実施例によれば、ゲームのパラメータを最適化することが可能となる。

加えて、本実施例のパラメータ最適化装置によれば、発売前のゲームに対して、実際にこのゲームがホール等に設置されてプレーヤによりプレイされた際に、このプレーヤに発生するであろうドーパミン量を推定することでパラメータ３０の最適値を求めている。これにより、ゲーム製造会社は、ゲームのパラメータ３０を最適値に調整することで、より興趣をプレーヤに感じさせるであろうゲームに調整することができる。

加えて、パラメータ３０を最適値に調整できることにより、ゲーム製造会社がゲームの開発コストを適切なものに収めることができる。

一方、本実施例のパラメータ最適化装置１０では、実際の稼働データに影響を与えるであろうゲームのブランド力、コンテンツ力、さらには市場全体の状況や季節の変動性については推定の対象としていない。つまり、本実施例のパラメータ最適化装置１０により求められたパラメータ３０の最適値に基づいてパラメータ３０の値を調整したゲームが市場に提供されたとき、他のゲームとの間で実際の稼働データに差が生じるとするならば、その傾向は上述したゲームのブランド力等であると推測することができる。つまり、本実施例のパラメータ最適化装置１０による算出結果を出発点として、ゲームのブランド力等を数値化する可能性を広げることができる。

ここで、上述した説明では、ゲームのイベントの発生確率等を含むパラメータ３０（少なくとも初期値）が既に記憶部１２に格納されているものとして説明した。

一方、遊技機製造会社により、各イベントの発生確率は予め設定されていることが多く、本実施例のパラメータ最適化装置１０においても、遊技機製造会社が設定した各イベントの発生確率を知ることができれば、ドーパミン量推定部２０が推定するドーパミン量はより正確なものとなり得る。しかしながら、遊技機製造会社が設定した各イベントの発生確率を必ず知りうるとは限らないので、本実施例のパラメータ最適化装置１０では、実際に遊技機で試技を行った結果得られた試技データ３１に基づいて複数のイベントのそれぞれの発生確率を推定できる構成を採用している。以下この手順を説明する。

ここで、「推定」としているのは、上述のように遊技機製造会社が設定した各イベントの発生確率が真の発生確率であり、試技データ３１から得られる各イベントの発生確率は、あくまでも推定された発生確率であることを示している。

まず、制御部１１のデータ取得部２２が、記憶部１２に格納されている試技データ３１を読み取り、これを確率推定部２３に提供する。

次に、制御部１１の確率推定部２３が、データ取得部２２から提供された試技データ３１に基づいてイベントの発生確率を推定する。

そして、確率推定部２３が推定したイベントの発生確率に基づいて、制御部１１のシミュレーション部２４が遊技機による遊技のシミュレーションを行うことで、イベントの発生頻度を取得する。

試技データ３１は３００回の大当たりの予告が発生する状況における、各イベントの発生頻度であり、確率推定部２３は、この試技データ３１に基づいて各イベントの発生確率を推定している。しかしながら、より正確な発生確率を求める観点から、本実施例のパラメータ最適化装置１０では、より多数の試技を擬似的に行うために、シミュレーション部２４により遊技のシミュレーションを行っている。

ドーパミン量推定部２０により推定されるドーパミン量は確率変数となり、その値はある確率分布に従っている。また、この値はスタート回数といわれる大当たりの予告が発生する状況が起こった回数に依存する。

そこで、本実施例のパラメータ最適化装置１０では、一般的な遊技時間や遊技金額において導かれるスタート回数１５０回を今回のスタート回数として、１００万回のシミュレーションをシミュレーション部２４により行い、それぞれのシミュレーションにおける遊技機のドーパミン量の確率分布をドーパミン量推定部２０により推定することで数値的に求めた。

一例として、シミュレーション部２４により行うシミュレーション動作では、当たりの確率を１／３２０に統一している。これは、遊技機毎に当たりの確率が異なる可能性があり、この当たりの確率が異なった状態でドーパミン量推定部２０によるドーパミン量推定動作を行うと、遊技機毎の客観的な比較がしづらいためである。

この後、ドーパミン量推定部２０は、シミュレーション部２４により得られたイベントの発生頻度をイベントの発生確率であるとして、ドーパミン量の推定動作を行えばよい。

実験例

ゲームの一例として、大当り確率が１／２００のくじを１００回引くことを考える。ただし、大当り確率１／２００は何回くじを引いても変わらないものとする。このとき、くじを引く際に鐘をならすことを考える。鐘が鳴ったときは確率ｐ１で当りとなっている。この時、鐘を何％の確率でならしたら、期待値的に最も高いドーパミンがでるかを求める。つまり、鐘をならす確率が発生確率であり、この鐘をならす確率（パラメータ）を最適化する。

このとき、一例としてドーパミン量の関数を次のように仮定する。なお、ここに示すドーパミン量の関数は単なる計算例であり、上述した動物実験の結果に基づくものとは限らない。

まず、鐘が鳴らなかったときのドーパミン量の関数ｆ１（ｐ１）を次式のように仮定する。ここに、ｐ１は鐘をならす確率を示す。

次に、鐘が鳴って当たったときのドーパミン量の関数ｆ２（ｐ１）を次式のように仮定する。

また、期待値である評価関数を次のように定義する。

ここに、Ｅ（）は期待値の関数である。Ｘ０、Ｘ１は確率変数であり、それぞれ確率ｐ０、ｐ１のベルヌーイ分布に従う。Ｘ０は鐘が鳴ったとき１をとり、ならなかったとき０をとる。また、Ｘ１は当ったとき１をとり、当らなかったとき０をとる。

この評価関数Ｑ（ｐ１）を最大にするｐ１を見つける。ここではグリッドサーチを用いる。まず、発生確率ｐ１の初期値ｘ０を０．０１として評価関数Ｑ（ｘ０）を算出する。

次に、発生確率ｐ１の値を０．０１だけ増分させた値ｘ１を作り、その時の評価関数Ｑ（ｘ１）を算出する。そして、Ｑ（ｘ０）とＱ（ｘ１）とを比較し、Ｑ（ｘ０）≧Ｑ（ｘ１）であればＱ（ｘ０）を保持し、Ｑ（ｘ０）＜Ｑ（ｘ１）であればＱ（ｘ１）を保持する。以上の動作を、ｘ１＝０．９９になるまで繰り返す。

動作が終了したときに保持されている評価関数Ｑ（）の最大値をもたらす発生確率ｐ１が発生確率ｐ１の最適値である。

図７は、横軸を発生確率ｐ１、縦軸を評価関数の値とするグラフである。このグラフに示すように、発生確率ｐ１の最適値はｐ１＝０．６７であった。
（その他）

本発明のパラメータ最適化装置は、その細部が上述の実施例に限定されず、本発明の要旨を変更しない範囲で適宜変更が可能である。一例として、本発明のパラメータ最適化装置が適用されるゲームはパチンコのみならずパチスロやスロットマシン、さらにはカードゲーム、ソーシャルゲーム等まで適用可能である。

また、実施例のパラメータ最適化装置ではドーパミン量を推定していたが、報酬系として他の物質、例えばＧＡＢＡ（γ−アミノ酪酸：γ(gamma)-amino butyric acid）等の物質についても推定可能である。

また、上述の実施例において、原理で紹介した動物実験において実際に実験を行った信頼度以外の信頼度（つまり確率）については線形補間を用いて求めたが、これ以外の補間法、例えば多項式補間やスプライン補間により信頼度を求めてもよい。また、動物実験の結果をそのまま流用せずに微調整を行ってもよい。

さらに、ドーパミン量の推定に使った計算は一例であり、他の計算手法についても好適に適用可能である。一例として、上述の実施例ではイベント毎のドーパミン比の合計値を用いたが、他にも加重平均や、または線形モデル・非線形モデル、ニューラルネットワークなど様々な方法が適用可能である。

そして、上述の実施例において、パラメータ最適化装置１０を動作させるプログラムは記憶部１２に格納されて提供されていたが、不図示の光学ディスクドライブ等を用いて、プログラムが格納されたＤＶＤ（Digital Versatile Disc）、ＵＳＢ外部記憶装置、メモリーカード等を接続し、このＤＶＤ等からプログラムをパラメータ最適化装置１０に読み込んで動作させてもよい。また、インターネット上のサーバ装置内にプログラムを格納しておき、パラメータ最適化装置１０に通信部を設けてこのプログラムをパラメータ最適化装置１０に読み込んで動作させてもよい。さらに、上述の実施例において、パラメータ最適化装置１０は複数のハードウェア要素により構成されていたが、これらハードウェア要素の一部の動作を制御部１１がプログラムの動作により実現することも可能である。

１０情報処理装置（パラメータ最適化装置）
１１制御部
１２記憶部
２０ドーパミン量推定部
２１パラメータ最適化部
２３データ取得部
２４確率推定部
２５シミュレーション部
３０パラメータ

Claims

予告を伴うゲームのイベントの発生確率、前記予告が演出された際の前記イベントの期待確率、及び前記イベントによる報酬の価値を含む前記ゲームのパラメータの初期値が格納された記憶部と、
前記予告及び前記報酬を報酬系における予告と報酬との組み合わせとみなした際の前記予告と前記報酬との関係に基づくドーパミン比の動物実験の結果を用いて定められた評価関数により、前記ゲームの前記パラメータに基づいて前記ゲームのプレーヤが前記ゲームをプレイした際にこのプレーヤの脳内に発生されると推定されるドーパミン量を推定するドーパミン量推定部と、
前記パラメータのうち少なくとも前記発生確率を前記初期値から予め定めた変動範囲の間で変化させることで前記ドーパミン量推定部により推定される前記ドーパミン量が最大値となる前記パラメータの最適値を算出するパラメータ最適化部と
を有することを特徴とするパラメータ最適化装置。
前記パラメータ最適化部は、前記ドーパミン量推定部により推定される前記ドーパミン量を関数の期待値を前記評価関数として定め、前記評価関数の値が最大値となる前記ドーパミン量に基づいて前記パラメータの最適値を算出することを特徴とする請求項１に記載のパラメータ最適化装置。
前記ゲームは複数の前記イベントを有し、
前記記憶部には、各々の前記イベントの発生確率、各々の前記イベントの期待確率、及び各々の前記イベントによる報酬の価値を含む前記パラメータの前記初期値が前記イベント毎に格納され、
前記ドーパミン量推定部は、各々の前記イベントの前記パラメータに基づいて前記ドーパミン量を推定することを特徴とする請求項１または２に記載のパラメータ最適化装置。
予告を伴うゲームのイベントの発生確率、前記予告が演出された際の前記イベントの期待確率、及び前記イベントによる報酬の価値を含む前記ゲームのパラメータの初期値が格納された記憶部を有する情報処理装置により実行されるパラメータ最適化方法であって、
前記予告及び前記報酬を報酬系における予告と報酬との組み合わせとみなした際の前記予告と前記報酬との関係に基づくドーパミン比の動物実験の結果を用いて定められた評価関数により、前記ゲームの前記パラメータに基づいて前記ゲームのプレーヤが前記ゲームをプレイした際にこのプレーヤの脳内に発生されると推定されるドーパミン量を推定し、
前記パラメータのうち少なくとも前記発生確率を前記初期値から予め定めた変動範囲の間で変化させることで推定される前記ドーパミン量が最大値となる前記パラメータの最適値を算出する
ことを特徴とするパラメータ最適化方法。
予告を伴うゲームのイベントの発生確率、前記予告が演出された際の前記イベントの期待確率、及び前記イベントによる報酬の価値を含む前記ゲームのパラメータの初期値が格納された記憶部を有するコンピュータにより実行されるコンピュータプログラムであって、
前記予告及び前記報酬を報酬系における予告と報酬との組み合わせとみなした際の前記予告と前記報酬との関係に基づくドーパミン比の動物実験の結果を用いて定められた評価関数により、前記ゲームの前記パラメータに基づいて前記ゲームのプレーヤが前記ゲームをプレイした際にこのプレーヤの脳内に発生されると推定されるドーパミン量を推定するドーパミン量推定機能と、
前記パラメータのうち少なくとも前記発生確率を前記初期値から予め定めた変動範囲の間で変化させることで前記ドーパミン量推定機能により推定される前記ドーパミン量が最大値となる前記パラメータの最適値を算出するパラメータ最適化機能と
を実現させるコンピュータプログラム。