JP7417451B2 - 電子ゲーム情報処理装置及び電子ゲーム情報処理プログラム - Google Patents

電子ゲーム情報処理装置及び電子ゲーム情報処理プログラム Download PDF

Info

Publication number
JP7417451B2
JP7417451B2 JP2020052475A JP2020052475A JP7417451B2 JP 7417451 B2 JP7417451 B2 JP 7417451B2 JP 2020052475 A JP2020052475 A JP 2020052475A JP 2020052475 A JP2020052475 A JP 2020052475A JP 7417451 B2 JP7417451 B2 JP 7417451B2
Authority
JP
Japan
Prior art keywords
feature vector
log
game
feature
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020052475A
Other languages
English (en)
Other versions
JP2021151320A (ja
Inventor
一樹 田中
勝彦 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DeNA Co Ltd
Original Assignee
DeNA Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DeNA Co Ltd filed Critical DeNA Co Ltd
Priority to JP2020052475A priority Critical patent/JP7417451B2/ja
Publication of JP2021151320A publication Critical patent/JP2021151320A/ja
Application granted granted Critical
Publication of JP7417451B2 publication Critical patent/JP7417451B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、電子ゲーム情報処理装置及び電子ゲーム情報処理プログラムに関する。
従来、電子ゲームを提供する電子ゲーム情報処理装置が知られている。電子ゲームでは、ゲームプレイ中にゲーム内の状態であるゲーム状態が刻々と変化するところ、電子ゲーム情報処理装置において、ゲーム状態を評価することが行われていた。ゲーム状態を評価することで、例えば、特定のゲーム状態においてプレイヤが行うべき操作の示唆などを行うことができる。
例えば、特許文献1には、あるゲーム状態において使用すべきキャラクタを出力するように学習器を学習させ、学習済みの学習器に現在のゲーム状態を入力すると、当該ゲーム状態で使用すべきキャラクタが出力される電子ゲーム情報処理装置が開示されている。
特開2019-95973号公報
上述のように、ゲームプレイを進めていくに応じてゲーム状態が刻々と変化するが、従来においては、ある特定のゲーム状態に対する評価が行われていた。換言すれば、従来は、複数のゲーム状態の遷移を考慮した上でゲーム状態の評価を行うことが難しかった。
さらに、ゲーム状態の遷移を考慮するに当たり、大局的なゲーム状態の遷移(より多くの複数のゲーム状態における状態の遷移)と、局所的なゲーム状態の遷移(より少ない複数のゲーム状態における状態の遷移)の一方又は両方を考慮するのが望ましい。例えば、大局的なゲーム状態の遷移を考慮することで、プレイヤのゲームプレイにおける大局的な傾向が把握でき、局所的なゲーム状態の遷移を考慮することで、プレイヤのゲームプレイにおける局所的な動向が把握でき、両方を考慮することで、大局的な傾向を鑑みつつ局所的な動向を把握することができる。
本発明の目的は、電子ゲームのプレイにより得られたゲーム状態列からなるプレイデータに関する、ゲーム状態列における大局的なゲーム状態の遷移を考慮した評価、ゲーム状態列における局所的なゲーム状態の遷移を考慮した評価、及び、ゲーム状態列における大局的なゲーム状態の遷移及び局所的なゲーム状態の遷移の双方を考慮した評価を、同じ処理によって実行可能とすることにある。
本発明は、電子ゲームのプレイ進行に応じて生じた順番に配列されたゲーム状態列を含む前記電子ゲームのログデータに含まれる、前記配列における第1範囲に含まれる複数のゲーム状態からなる第1ログと、前記第1範囲より狭い第2範囲に含まれるゲーム状態からなる第2ログを学習データとして用い、前記第1ログの特徴を表す第1特徴ベクトル及び前記第2ログの特徴を表す第2特徴ベクトルを生成し、前記第1特徴ベクトルと前記第2特徴ベクトルを同一の特徴空間に埋め込み、前記第1ログと前記第2ログとの間の関連度が高い程、前記特徴空間において前記第1特徴ベクトルと前記第2特徴ベクトルを近付け、前記第1ログと前記第2ログとの間の関連度が低い程、前記特徴空間において前記第1特徴ベクトルと前記第2特徴ベクトルを遠ざけるように学習モデルを学習するモデル学習部と、を備えることを特徴とする電子ゲーム情報処理装置である。
望ましくは、プレイヤによる前記電子ゲームのプレイにより得られた、ゲーム状態列からなるプレイデータを前記学習モデルに入力することで生成され前記特徴空間に埋め込まれた注目特徴ベクトルに基づいて、前記プレイデータを評価するプレイデータ評価部と、をさらに備えることを特徴とする。
望ましくは、前記プレイデータ評価部は、予め定められたイベントゲーム状態列を学習済みの前記学習モデルに入力することで生成され前記特徴空間に埋め込まれた、前記イベントゲーム状態列の特徴を表すイベント特徴ベクトルと、前記電子ゲーム内で発生するイベントに関するイベント情報とが関連付けられたイベントデータベースを参照し、前記注目特徴ベクトルと前記イベント特徴ベクトルとの類似度が所定の類似度閾値以上であると評価した場合に、前記電子ゲームにおいて、前記イベント特徴ベクトルに関連付けられた前記イベント情報が示すイベントを実行する、ことを特徴とする。
望ましくは、前記プレイデータ評価部は、前記注目特徴ベクトルと前記イベント特徴ベクトルとの類似度が所定の類似度閾値以上となり、且つ、現在の前記電子ゲームのプレイ状況が所定のプレイ状況条件を満たしたと評価した場合に、前記電子ゲームにおいて、前記イベント特徴ベクトルに関連付けられた前記イベントを実行する、ことを特徴とする。
望ましくは、前記イベント情報は、言語表現されたプレイヤへのアドバイスであり、前記イベントは、プレイヤに対する前記アドバイスの出力である、ことを特徴とする。
望ましくは、前記電子ゲームの前記ログデータに含まれる複数のゲーム状態を学習済みの前記学習モデルに入力することで生成され前記特徴空間に埋め込まれた複数の特徴ベクトルの一部であって、所定の学習用基準特徴ベクトルとの間の類似度が所定の類似度閾値以上である複数の学習用特徴ベクトルに基づいて、前記電子ゲームをプレイする人工知能エージェントを学習させるエージェント学習部と、をさらに備えることを特徴とする。
また、本発明は、コンピュータを、電子ゲームのプレイ進行に応じて生じた順番に配列されたゲーム状態列を含む前記電子ゲームのログデータに含まれる、前記配列における第1範囲に含まれる複数のゲーム状態からなる第1ログと、前記第1範囲より狭い第2範囲に含まれるゲーム状態からなる第2ログを学習データとして用い、前記第1ログの特徴を表す第1特徴ベクトル及び前記第2ログの特徴を表す第2特徴ベクトルを生成し、前記第1特徴ベクトルと前記第2特徴ベクトルを同一の特徴空間に埋め込み、前記第1ログと前記第2ログとの間の関連度が高い程、前記特徴空間において前記第1特徴ベクトルと前記第2特徴ベクトルを近付け、前記第1ログと前記第2ログとの間の関連度が低い程、前記特徴空間において前記第1特徴ベクトルと前記第2特徴ベクトルを遠ざけるように学習モデルを学習するモデル学習部と、として機能させることを特徴とする。
本発明によれば、電子ゲームのプレイにより得られたゲーム状態列からなるプレイデータに関する、ゲーム状態列における大局的なゲーム状態の遷移を考慮した評価、ゲーム状態列における局所的なゲーム状態の遷移を考慮した評価、及び、ゲーム状態列における大局的なゲーム状態の遷移及び局所的なゲーム状態の遷移の双方を考慮した評価を、同じ処理によって実行することができる。
本実施形態に係る電子ゲームシステムの構成概略図である。 本実施形態に係るゲームサーバの構成概略図である。 ログデータの例を示す概念図である。 学習モデルの構成概略図である。 戦略特徴ベクトルと戦術特徴ベクトルの特徴空間への埋め込み処理の概念を示す概念図である。 特徴空間の概念を示す概念図である。 学習済みの学習モデルにより得られた特徴空間の利用例を示す図である。 特徴空間内におけるイベント情報としてのアドバイスが関連付けられたイベント特徴ベクトルを示す概念図である。 プレイヤに向けて出力されたアドバイスの第1の例を示す図である。 プレイヤに向けて出力されたアドバイスの第2の例を示す図である。 AIエージェントの学習データをゲームログDBから抽出する処理の概念を示す概念図である。 本実施形態に係るゲームサーバの処理の流れを示すフローチャートである。
図1は、本実施形態に係るゲームシステム10の構成概略図が示されている。ゲームシステム10は、ゲームシステム10により提供される電子ゲーム(以下「本ゲーム」と記載する)のプレイヤが使用するプレイヤ端末12、及び、電子ゲーム情報処理装置としてのゲームサーバ14を含んで構成されている。プレイヤ端末12とゲームサーバ14は、通信回線16を介して互いに通信可能に接続されている。通信回線16は、例えばインターネットあるいはローカルエリアネットワーク(LAN)などによって構成される。なお、図1には、プレイヤ端末12が1つだけ示されているが、ゲームシステム10には、複数のプレイヤが使用する複数のプレイヤ端末12が設けられてよい。
本実施形態におけるゲームシステム10においては、本ゲームを動作させるためのゲームプログラムはゲームサーバに記憶されており、プレイヤ端末12からゲームサーバにアクセスすることで、プレイヤに本ゲームが提供される。
本ゲームは、複数のプレイヤが相互に影響し合うゲームであり、ゲームに参加した複数のプレイヤの利得の総和がゼロになる、いわゆるゼロサムゲームである。ゼロサムゲームとしては、例えば、自プレイヤが勝ちとなった場合、他プレイヤが負けとなるゲームが挙げられる。また、本ゲームとしては対戦型のゲームであってよい。対戦型のゲームにあっては、例えば、複数のプレイヤが交互にゲーム操作を行う(例えば自プレイヤのターンが来たら操作を行い、他プレイヤのターンの間は操作できない)ことを繰り返すゲームであってよい。そのような対戦型のゲームとしては、例えば、オセロ、将棋、囲碁、麻雀、ポーカーなどが挙げられる。対戦型ゲームにおいて、プレイヤの対戦相手は他のプレイヤであってもよいし、コンピュータであってもよい。
プレイヤ端末12は、一般的なコンピュータであってよく、例えばパーソナルコンピュータや携帯端末(例えばタブレット端末やスマートフォン)である。プレイヤ端末12は、例えばCPU(Central Processing Unit)あるいはマイクロコンピュータなどを含んで構成されるプロセッサ、例えばネットワークアダプタなどを含んで構成される通信インターフェイス、例えばマウス、キーボード、あるいはタッチパネルなどを含んで構成される入力インターフェイス、例えば液晶ディスプレイなどを含んで構成されるディスプレイ、例えばハードディスク、RAM(Random Access Memory)、あるいはROM(Read Only Memory)などを含んで構成されるメモリなどを含んで構成される。
図2には、ゲームサーバ14の構成概略図が示されている。本実施形態では、ゲームサーバ14はサーバコンピュータにより構成されるが、以下に説明する機能を発揮する限りにおいて、ゲームサーバ14はどのような装置であってもよい。
通信インターフェイス20は、例えばネットワークアダプタなどを含んで構成され、通信回線16を介してプレイヤ端末12と通信する機能を有するものである。
メモリ22は、例えばハードディスク、RAM、あるいはROMなどを含んで構成される。メモリ22には、ゲームサーバ14の各部を機能させるための電子ゲーム情報処理プログラムが記憶される。また、メモリ22には、本ゲームのゲームプログラムが記憶される。電子ゲーム情報処理プログラムとゲームプログラムは一体となったプログラムであってもよい。また、図2に示される通り、メモリ22には、ゲームログDB(データベース)24、学習モデル26、イベントDB28、及び、AI(人工知能;Artificial Intelligence)エージェント30が記憶される。
ゲームログDB24は、本ゲームをプレイヤがプレイすることで得られる、本ゲームのプレイ履歴を示すログデータを記憶するデータベースである。プレイヤが本ゲームをプレイする度に、ログデータがゲームログDB24に蓄積されていく。本ゲームは複数のプレイヤによってプレイされ得るところ、ゲームログDB24においては、プレイヤ毎に区別されてログデータが記憶されてもよい。
プレイヤが本ゲームのプレイを進めていくにつれ、本ゲーム内の状態であるゲーム状態が刻々と変化する。ゲームログDB24に記憶されるログデータには、本ゲームのプレイ進行に応じて生じた順番に配列された複数のゲーム状態からなるゲーム状態列が含まれる。
以下の説明においては、本ゲームがオセロゲームである場合の例に説明する。図3に、ゲームログDB24に記憶されるログデータLogの例が示されている。言うまでもなく、オセロゲームは、自プレイヤと対戦相手(敵プレイヤ又は敵コンピュータ)が1対1で対戦する対戦ゲームであり、自プレイヤと対戦相手が交互に盤に石を置いていくというゲームである。オセロゲームにおいては、ゲーム状態は盤の状態となる。自プレイヤ又は対戦相手が盤に石を置く度に盤の状態が変化し、すなわちゲーム状態が遷移する。ログデータLogは、複数のゲーム状態(盤の状態)を含んで構成される。
図3に示すように、ログデータLogにおいて、ゲーム状態列の配列における第1範囲に含まれる複数のゲーム状態からなる第1ログとしての戦略ログS、及び、第1範囲より狭い第2範囲に含まれる複数のゲーム状態からなる第2ログとしての戦術ログTを観念上定義し得る。第1範囲及び第2範囲は予め本ゲームのゲームプランナなどによって設定される。本実施形態では、戦略ログS及び戦術ログTはゲーム状態列において連続する複数のゲーム状態を含んで構成される。
戦略ログSを画定する第1範囲は、プレイヤ(自プレイヤ及び対戦相手を含む)の本ゲームにおけるプレイの大局的な傾向を把握するのに十分な数のゲーム状態を含むように設定される。換言すれば、戦略ログSに基づいて、プレイヤの本ゲームにおけるプレイの大局的な傾向を把握できる。本実施形態のように、対戦型の電子ゲームにあっては、電子ゲームにおけるプレイの大局的な傾向は、プレイヤの「戦略」と呼ぶことができる。戦略とは、電子ゲームにおいて勝つための長期的なゲーム進行方針とも言える。オセロゲームにおいては、戦略の例としては、例えば、「攻撃型」あるいは「守備型」などがある。なお、戦略は、本ゲームの開始から終了まで(オセロゲームなら初手から終局まで)一貫して変わらない場合もあるが、途中で変更される場合もある。
一方、戦術ログTを画定する第2範囲は、プレイヤの本ゲームにおけるプレイの局所的な動向を把握するのに十分な数のゲーム状態を含むように設定される。換言すれば、戦術ログTに基づいて、プレイヤの本ゲームにおけるプレイの局所的な動向を把握できる。もちろん、戦術ログTに含まれるゲーム状態の数は、戦略ログSに含まれるゲーム状態の数よりも少ない。本実施形態のように、対戦型の電子ゲームにあっては、電子ゲームにおけるプレイの局所的な傾向は、プレイヤの「戦術」と呼ぶことができる。戦術とは、短期的あるいは具体的な方策とも言える。オセロゲームにおいては、戦術の例としては、例えば、「右上を攻める」あるいは「左下を攻める」などがある。
学習モデル26は、ゲームログDB24に記憶されたログデータ、より詳しくは、上述の戦略ログS及び戦術ログTを学習データとして用い、戦略ログSの特徴を表す第1特徴ベクトルとしての戦略特徴ベクトル、及び、戦術ログTの特徴を表す第2特徴ベクトルとしての戦術特徴ベクトルを同一の特徴空間に埋め込むように出力するように学習される。特に学習モデル26は、戦略ログSと戦術ログTの関連性が高い程、当該特徴空間において戦略特徴ベクトルと戦術特徴ベクトルを近付け、戦略ログSと戦術ログTの関連性が低い程、当該特徴空間において戦略特徴ベクトルと戦術特徴ベクトルを遠ざけるように学習される。学習モデル26の学習は、後述のモデル学習部34によって実行される。学習モデル26の構成の詳細及び学習方法の詳細については、モデル学習部34の処理と共に後述する。
イベントDB28には、例えば本ゲームのゲームプランナなどによって予め定めされたゲーム状態列であるイベントゲーム状態列を、学習済みの学習モデル26に入力することで生成され上記特徴空間に埋め込まれたイベント特徴ベクトルと、本ゲーム内で発生するイベントに関するイベント情報が関連付けられて記憶される。イベントはゲームプランナによって様々なイベントが設定されてよい。イベントとしては種々のイベントを設定し得るが、本実施形態におけるイベントは、本ゲームをプレイ中のプレイヤに対するアドバイスを出力するイベントであり、イベント特徴ベクトルに関連付けられるイベント情報は、言語表現されたアドバイスである。なお、本実施形態では、イベントDB28には、イベント特徴ベクトルとイベント情報が関連付けられて記憶されるが、イベントゲーム状態列とイベント情報とを関連付けてイベントDB28に記憶するようにしてもよい。
AIエージェント30は、本ゲームをプレイする人工知能プログラムである。AIエージェント30は、種々の構造を取ることができ、例えば、多層ニューラルネットワークを含んで構成される。AIエージェント30は、後述のエージェント学習部38により学習される。AIエージェント30の学習方法の詳細については、エージェント学習部38の処理と共に後述する。
プロセッサ32は、例えばCPU、GPU(Graphics Processing Unit)あるいはマイクロコンピュータなどを含んで構成され、メモリ22に記憶された電子ゲーム情報処理プログラムに従ってゲームサーバ14の各部を制御する。また、図2に示される通り、プロセッサ32は、電子ゲーム情報処理プログラムによって、モデル学習部34、プレイデータ評価部36、及び、エージェント学習部38としても機能する。
モデル学習部34は、ゲームログDB24に記憶されたログデータにおいて定義された、戦略ログSと戦術ログTを学習データとして用いて、学習モデル26を学習させる。本実施形態では、モデル学習部34は、さらに、コンテキストデータを学習データに加える。コンテキストデータは、各ゲーム状態と関連付けられたデータであり、すなわちゲーム状態列に対応するデータ列から構成される。コンテキストデータとは、戦略ログS及び戦術ログTに含まれる各ゲーム状態に関連する、本ゲームに関するゲーム状態(オセロゲームの場合は盤の状態)以外の情報である。本明細書では、特に、コンテキストデータは、プレイヤの戦略又は戦術に関連するデータである。例えば、あるゲーム状態となったときのプレイヤの属性情報(例えばプレイヤのレベルなど)や、ゲーム内設定(例えばカードゲームであればプレイヤのデッキに入っているキャラクタなど)などがコンテキストデータに含まれる。以下、学習モデル26の構造の詳細と共に、モデル学習部34の処理を説明する。
図4は、学習モデル26の構成概略図である。図4において、学習モデル26の下部に記載されたS ,S は戦略ログSを表し、T ,T は戦術ログTを表し、C ,C はコンテキストデータを表す。変数iは学習データである戦略ログS、戦術ログT、及びコンテキストデータのセットを識別する変数である。pはポジティブサンプルを表し、nはネガティブサンプルを表す。ポジティブサンプルとは、後述するネガティブサンプルと対比される概念であり、本実施形態においては、戦略ログS に関連する(関連度が関連度閾値より高い)戦術ログがT であり、戦略ログS に関連しない(関連度が関連度閾値より低い)戦術ログがT であり、戦術ログT に関連する戦略ログがS であり、戦術ログT に関連しない戦略ログがS である。例えば、戦術ログTの特徴が戦略ログSに沿ったものである場合、両者の関連度が高くなり、戦術ログTの特徴が戦略ログSに沿ったものでない場合、両者の関連度が低くなる。例えば、戦略ログSが「攻撃型」の特徴を示す場合、戦術ログTの特徴が攻撃的である場合は両者の関連度が高いと言え、戦術ログTの特徴が守備的である場合は両者の関連度が低いと言える。
本実施形態では、P=(S ,T ,C )からなるポジティブサンプルと、N=(S ,T ,C )からなるネガティブサンプルとのセット(P,N)を学習データとして用いる。ポジティブサンプルとネガティブサンプルに対する学習モデル26の各部における処理は同様であるため、学習モデル26の各部の説明においては、ポジティブサンプルに対する処理を例に説明する。
なお、戦略ログS及び戦術ログTは、それぞれ複数のゲーム状態からなるところ、これらを学習モデル26に入力するに先立って、各ゲーム状態は、学習モデル26の入力に適したデータ、例えば、数値を要素とするベクトルに変換される。
ゲーム状態列からなる戦略ログS は、戦略側RNN(リカレントニューラルネットワーク;Recurrent Neural Network)50に入力される。具体的には、戦略側RNN50には、戦略ログS に含まれる複数のゲーム状態が順次入力される。戦略側RNN50は、あるゲーム状態を入力された時の出力が、次のゲーム状態と共に入力される再帰結合を持つニューラルネットワークである。つまり、戦略側RNN50は、順次入力されるゲーム状態から、それまでに入力された1又は複数のゲーム状態の特徴を表す中間出力を出力する。これにより、直前に入力されたゲーム状態に基づいて出力された中間出力を参照しながら、今回入力されたゲーム状態に対する中間出力を出力することができる。戦略ログS に含まれる最後のゲーム状態の中間出力が、戦略側RNN50の出力となる。また、複数のゲーム状態の中間出力を集約した出力が、戦略側RNN50の出力であってもよい。当該出力は戦略ログS 全体の特徴を表すものとなる。
ゲーム状態列からなる戦術ログT は、戦術側RNN52に入力される。具体的には、戦術側RNN52には、戦術ログT に含まれる複数のゲーム状態が順次入力される。戦術側RNN52の構造は戦略側RNN50と同様であり、戦術側RNN52の出力は、戦術ログT 全体の特徴を表す出力となる。
コンテキスト埋め込み層54は、例えばOne hotベクトルなどの離散的表現で表されたコンテキストデータに基づいて、その意味を表す分散表現であるコンテキスト特徴ベクトルを生成する。
戦略側埋め込み層56は、戦略側RNN50の出力(戦略ログS の特徴を表す出力)に基づいて、その特徴を表す分散表現である戦略特徴ベクトルを生成する。好適には、戦略側埋め込み層56は、コンテキスト埋め込み層54が出力したコンテキスト特徴ベクトルを考慮して、換言すればコンテキスト特徴ベクトルの特徴も表す、戦略特徴ベクトルを生成する。
戦術側埋め込み層58は、戦術側RNN52の出力(戦術ログT の特徴を表す出力)に基づいて、その特徴を表す分散表現である戦術特徴ベクトルを生成する。好適には、戦術側埋め込み層58は、コンテキスト埋め込み層54が出力したコンテキスト特徴ベクトルを考慮して、換言すればコンテキスト特徴ベクトルの特徴も表す、戦術特徴ベクトルを生成する。戦術特徴ベクトルの次元数は、戦略特徴ベクトルと同一となっている。
戦略側埋め込み層56及び戦術側埋め込み層58は、それぞれ、生成した戦略特徴ベクトル及び戦術特徴ベクトルを同一の特徴空間に埋め込む。戦略側埋め込み層56は、複数の学習データが入力されることで複数の戦略特徴ベクトルを特徴空間に埋め込むが、互いの特徴が類似している程、特徴空間において複数の戦略特徴ベクトルを近づけ、互いの特徴が類似していない程、特徴空間において複数の戦略特徴ベクトルを遠ざけるように埋め込む。戦術側埋め込み層58も同様に、複数の学習データが入力されることで複数の戦術特徴ベクトルを特徴空間に埋め込むが、互いの特徴が類似している程、特徴空間において複数の戦術特徴ベクトルを近づけ、互いの特徴が類似していない程、特徴空間において複数の戦術特徴ベクトルを遠ざけるようにする。
さらに、戦略側埋め込み層56は、自身が出力した戦略特徴ベクトルと、戦術側埋め込み層58が出力した戦術特徴ベクトルの関連度が高い程、特徴空間において当該戦略特徴ベクトルと当該戦術特徴ベクトルを近付け、当該戦略特徴ベクトルと当該戦術特徴ベクトルの関連度が低い程、特徴空間において当該戦略特徴ベクトルと当該戦術特徴ベクトルを遠ざけるようにする。戦略特徴ベクトルと戦術特徴ベクトルの関連度とは、すなわち、戦略ログSと戦術ログTの関連度である。
図5に、当該処理の概念が示されている。図5において、s は戦略特徴ベクトルを表し、t は戦術特徴ベクトルを表す。図5においては、互いに関連する戦略特徴ベクトルs と戦術特徴ベクトルt とが近付けられ、互いに関連しない戦略特徴ベクトルs と戦術特徴ベクトルt 、及び、戦略特徴ベクトルs と戦術特徴ベクトルt が遠ざけられる様子が示されている。
上記の条件に従って、各戦略特徴ベクトルと各戦術特徴ベクトルを同一の特徴空間に埋め込むこと(換言すれば、上記の条件に従って、各戦略特徴ベクトルと各戦術特徴ベクトルの特徴空間における位置を決定すること)は、所定の目的関数を最小化することで実現される。目的関数Lは、例えば以下の式1で表される。
Figure 0007417451000001
式1において、Lは戦略特徴ベクトルs に関する損失を表し、式2で算出される。式2において、Bは学習データの総数(バッチサイズ)を表す。また、αは調整項である。式2における||s -t || は、互いに関連している戦略特徴ベクトルs と戦術特徴ベクトルt との間の特徴空間におけるL2ノルム(ユークリッド距離)の2乗であり、||s -t || は、互いに関連していない戦略特徴ベクトルs と戦術特徴ベクトルt との間の特徴空間におけるL2ノルムの2乗である。なお、[x]は、max(x,0)を意味する。すなわち、xが正の値なら[x]=x、xが負の値なら[x]=0となる。式2によれば、Lを最小化することは、互いに関連している戦略特徴ベクトルs と戦術特徴ベクトルt との間の特徴空間におけるL2ノルムをより小さくし(すなわち両特徴ベクトルを近付け)、互いに関連していない戦略特徴ベクトルs と戦術特徴ベクトルt との間の特徴空間におけるL2ノルムをより大きくする(すなわち両特徴ベクトルを遠ざける)ことで実現される。
また、式1において、Lは戦術特徴ベクトルt に関する損失を表し、式3で算出される。式3における||s -t || は、互いに関連していない戦略特徴ベクトルs と戦術特徴ベクトルt との間の特徴空間におけるL2ノルムの2乗である。式3によれば、Lを最小化することは、互いに関連している戦略特徴ベクトルs と戦術特徴ベクトルt との間の特徴空間におけるL2ノルムをより小さくし(すなわち両特徴ベクトルを近付け)、互いに関連していない戦略特徴ベクトルs と戦術特徴ベクトルt との間の特徴空間におけるL2ノルムをより大きくする(すなわち両特徴ベクトルを遠ざける)ことで実現される。
また、式1におけるL及びLは、以下の式4及び式5で表されてもよい。
Figure 0007417451000002
式4におけるf(s ,t )は、互いに関連している戦略特徴ベクトルs と戦術特徴ベクトルt との間の特徴空間におけるコサイン類似度を表し、f(s ,t )は、互いに関連していない戦略特徴ベクトルs と戦術特徴ベクトルt との間の特徴空間におけるコサイン類似度を表す。なお、コサイン類似度を表す関数fは以下のとおりである。
Figure 0007417451000003
式4によれば、Lを最小化することは、互いに関連している戦略特徴ベクトルs と戦術特徴ベクトルt との間の特徴空間におけるコサイン類似度をより大きくし(すなわち両特徴ベクトルを近付け)、互いに関連していない戦略特徴ベクトルs と戦術特徴ベクトルt との間の特徴空間におけるコサイン類似度をより小さくする(すなわち両特徴ベクトルを遠ざける)ことで実現される。
式5におけるf(s ,t )は、互いに関連していない戦略特徴ベクトルs と戦術特徴ベクトルt との間の特徴空間におけるコサイン類似度を表す。式5によれば、Lを最小化することは、互いに関連している戦略特徴ベクトルs と戦術特徴ベクトルt との間の特徴空間におけるコサイン類似度をより大きくし(すなわち両特徴ベクトルを近付け)、互いに関連していない戦略特徴ベクトルs と戦術特徴ベクトルt との間の特徴空間におけるコサイン類似度をより小さくする(すなわち両特徴ベクトルを遠ざける)ことで実現される。
上述のように学習モデル26を学習することで、図6に示すように、互いに関連度が高い戦略特徴ベクトルと戦術特徴ベクトルとが近くに埋め込まれ、互いに関連度が低い戦略特徴ベクトルと戦術特徴ベクトルとが遠くに埋め込まれた特徴空間FSが形成される。また、特徴空間FSにおいては、類似する戦略特徴ベクトル同士が近くに埋め込まれ、類似する戦術特徴ベクトル同士も近くに埋め込まれる。なお、図6では、便宜上特徴空間FSが2次元で表現されているが、特徴空間FSはそれ以上の多次元の空間である。
特徴空間FSにおいて、どの領域がどの戦略あるいは戦術に対応する領域であるのかが、ゲームプランナなどによって定義されてもよい。例えば、図6の例において、特徴空間FSの左側上部の領域が「攻撃型で(戦略)左上を攻める(戦術)」の領域であり、右側上部の領域が「守備型で(戦略)左上を攻める(戦術)」の領域であり、左側下部の領域が「攻撃型で(戦略)右下を攻める(戦術)」の領域であり、中央下部の領域が「右下を攻める(戦術)」の領域であり、右側中央部の領域が「守備型で(戦略)右下を攻める(戦術)」の領域である、の如くである。
特徴空間FSを用いて、入力したゲーム状態列に類似するゲーム状態列をゲームログDB24の中から抽出することができる。例えば、プレイヤが所望のゲーム状態列からなるクエリを学習モデル26に入力することで、学習モデル26は、当該ゲーム状態列の特徴ベクトルを得て、特徴空間FSにおいて得られた特徴ベクトルと近い位置にある特徴ベクトルを特定する。特徴空間FSにおけるクエリと類似する特徴ベクトルの探索方法としては、既知の技術を用いることができる。例えば、最近傍探索を用いることができる。そして、特定された特徴ベクトルが示すゲーム状態列、すなわち入力したゲーム状態列と特徴が類似しているゲーム状態列をプレイヤに提示することができる。
例えば、図7に示すように、「攻撃型のゲーム状態列」を表す戦略クエリに基づいて、ゲームログDB24の中から、「攻撃型で左上を攻めるゲーム状態列」及び「攻撃型で右下を攻めるゲーム状態列」などを抽出することができる。また、「右下を攻めるゲーム状態列」を表す戦術クエリに基づいて、ゲームログDB24の中から、「攻撃型で右下を攻めるゲーム状態列」、「守備型で右下を攻めるゲーム状態列」及び「右下を攻めるゲーム状態列」などを抽出することができる。また、戦略及び戦術クエリとして「攻撃型で右下を攻めるゲーム状態列」を表す戦略+戦術クエリに基づいて、ゲームログDB24の中から、「攻撃型で右下を攻めるゲーム状態列」を抽出することができる。
上述のように、イベント情報が関連付けられたイベント特徴ベクトルが特徴空間FSに埋め込まれる。図8には、イベント特徴ベクトルが特徴空間FSに埋め込まれた様子を示す概念図が示されている。図8の例では、戦術「右下を攻める」という特徴を有するイベントゲーム状態列に対応するイベント特徴ベクトルが、特徴空間FSにおける、戦術「右下を攻める」に対応する領域に埋め込まれる。本実施形態では、当該イベント特徴ベクトルに、イベント情報である言語表現されたプレイヤへのアドバイス「右下を狙っていそうだから左に・・・」が関連付けられている。もちろん、特徴空間FSには、複数のイベント特徴ベクトルが埋め込まれてもよく、すなわち、イベントDB28には、それぞれイベント情報が関連付けられた複数のイベント特徴ベクトルが記憶されてもよい。
プレイデータ評価部36は、プレイヤ端末12から送信された、プレイヤによる本ゲームのプレイにより得られた、ゲーム状態列からなるプレイデータを学習済みの学習モデル26に入力することで、当該プレイデータの特徴を表す特徴ベクトルを生成する。本明細書では当該特徴ベクトルを注目特徴ベクトルと呼ぶ。注目特徴ベクトルは、特徴空間FSに埋め込まれる。プレイデータ評価部36は、注目特徴ベクトルに基づいて、当該プレイデータを評価する。また、プレイデータ評価部36は、注目特徴ベクトルの評価に基づいて、種々の処理を実行する。
本実施形態では、プレイデータ評価部36は、特徴空間FSにおける注目特徴ベクトルと各イベント特徴ベクトルとの類似度を演算する。当該類似度の演算方法は既知のいずれの方法であってよいが、例えば上述のコサイン類似度により演算する。そして、いずれかのイベント特徴ベクトルとの間で、当該類似度が所定の類似度閾値以上である、と評価した場合、プレイデータ評価部36は、イベントDB28を参照し、当該イベント特徴ベクトルに関連付けられたイベント情報が示すイベントを実行する。注目特徴ベクトルとの類似度が類似度閾値以上となるイベント特徴ベクトルが無い場合には、プレイデータ評価部36はイベントを実行しない。なお、類似度閾値は予めゲームプランナにより設定されてもよく、プレイヤによって変更可能であってもよい。また、イベント特徴ベクトル毎に異なる類似度閾値が設定可能であってもよい。
図9に、プレイヤがあるゲーム状態まで本ゲームを進めたとき、それまでのゲームプレイにより得られたプレイデータを示す注目特徴ベクトルと、第1イベント特徴ベクトルとの類似度が類似度閾値以上となって、当該プレイヤに対するアドバイスが出力された様子が示されている。図9に示す通り、本実施形態では、アドバイスの出力は、プレイヤ端末12のゲーム画面においてアドバイスを表示することにより実現されているが、アドバイスの出力は、表示に代えてあるいは加えて、プレイヤ端末12のスピーカからアドバイスを音声出力することで実現されてもよい。
対戦相手が一手進めてゲーム状態が変化すると、プレイデータ評価部36は、一手加えられたプレイデータを示す注目特徴ベクトルと各イベント特徴ベクトルとの類似度を演算する。図10には、注目特徴ベクトルと、第1イベント特徴ベクトルとは異なる第2イベント特徴ベクトルとの類似度が類似度閾値以上となって、当該プレイヤに対する他のアドバイスが出力された様子が示されている。
図10における破線の石で示されるように、プレイデータ評価部36は、プレイデータを学習モデル26に入力することで得られたプレイデータの特徴、すなわち当該プレイデータが示す、プレイヤ及び対戦相手の戦略及び戦術の少なくとも一方に基づいて、プレイヤに対して推奨操作(本例ではオセロゲームにおいてプレイヤが次に打つべき手)を提示するようにしてもよい。
なお、プレイデータ評価部36は、プレイヤによる本ゲームのプレイ進行によって、ゲーム状態が変更される度に、プレイデータの評価を行ってもよいし、特定の条件を満たした場合(例えばゲーム状態が所定回数変更された、プレイ状況が特定の条件を満たした、など)に、プレイデータの評価を行ってもよい。
プレイデータ評価部36は、注目特徴ベクトルと、イベント特徴ベクトルとの類似度が所定の類似度閾値以上となり、且つ、現在の本ゲームのプレイヤ状況が所定のプレイ状況条件を満たしたと評価した場合に、当該イベント特徴ベクトルに関連付けられたイベント情報が示すイベントを実行するようにしてもよい。ここで、プレイ状況とは、本ゲームの状況を示す、ゲーム状態を含む情報であって、例えば、ゲーム状態(本実施形態であればオセロの盤の状態)、本ゲームにおけるプレイヤに関する属性情報(例えばプレイヤのレベルなど)、ゲーム内設定(例えばカードゲームであればプレイヤのデッキに入っているキャラクタなど)、あるいは、本ゲームの進行状況(例えば現在のターン数など)などが含まれる。
プレイ状況条件としては、例えば、(プレイヤのレベル:初心者、ターン数:任意)であり、(プレイヤのレベル:全レベル、ターン数:任意)であり、(プレイヤのレベル:上級者、ターン数:10ターン以降、盤の状態が特定条件(角を取られているなど)を満たす)などである。当該プレイ状況条件も、予めゲームプランナにより設定されてもよく、プレイヤによって変更可能であってもよい。また、イベント特徴ベクトル毎に異なるプレイ状況条件が設定可能であってもよい。
上述のように、モデル学習部34が学習モデル26を学習させて上述の特徴空間FSを形成した上で、プレイデータ評価部36が、プレイデータを学習済みの学習モデル26に入力することで、当該プレイデータの評価を行うことができる。特に、特徴空間FSには、戦略ログSの特徴を表す戦略特徴ベクトルと、戦術ログTの特徴を表す戦術特徴ベクトルとの双方が埋め込まれるから、戦略(すなわちゲーム状態列における大局的なゲーム状態の遷移の特徴)を考慮したプレイデータの評価と、戦術(すなわちゲーム状態列における局所的なゲーム状態の遷移の特徴)を考慮したプレイデータの評価と、戦略及び戦術を考慮したプレイデータの評価とを、プレイデータを学習済みの学習モデル26に入力するという同じ処理によって実行可能となる。
また、イベント情報が関連付けられたイベント特徴ベクトルを特徴空間FSに埋め込んでおくことで、プレイデータ評価部36は、プレイデータを表す注目特徴ベクトルがイベント特徴ベクトルに類似する場合に、当該イベント情報に関するイベントを実行することができる。ここで、イベントを実行するには、注目特徴ベクトルとイベント特徴ベクトルは類似しているだけで足り、完全一致している必要がない。したがって、ゲームプランナは、プレイデータが、互いに類似する複数のゲーム状態列のいずれかとなった場合に、あるイベントを実行させたい場合、当該複数のゲーム状態列に対応するイベント特徴ベクトルの全てに対してイベント情報を関連付ける必要が無く、代表的なゲーム状態列に対応するイベント特徴ベクトルにイベント情報を関連付けるだけで足りる。そうすれば、注目特徴ベクトルが、当該イベント特徴ベクトルに類似するいずれかのベクトルとなった場合、すなわち、プレイデータが、互いに類似する複数のゲーム状態列にいずれかとなった場合に当該イベントを実行させることができる。これにより、イベント情報をイベント特徴ベクトルに関連付ける処理のコストを低減することができる。
図2に戻り、エージェント学習部38は、ゲームログDB24に記憶されたログデータに基づいて、AIエージェント30を学習させる。上述のように、学習モデル26により形成された特徴空間FSを用いることで、ゲームログDB24に記憶されたログデータから、特定の特徴を有するゲーム状態列を抽出することができる。これを利用して、エージェント学習部38は、ゲームログDB24から抽出された、特定の特徴(例えば「攻撃型」、「守備型」など)を有するゲーム状態列群に基づいて、AIエージェント30を学習させる。これにより、本ゲームのプレイ方法に関する特定の特徴(例えば「攻撃型」、「守備型」)を持つように、AIエージェント30が学習される。
図11に、特定の特徴を有するゲーム状態列がログデータから抽出される様子が示されている。まず、エージェント学習部38は、特定の特徴を有する学習用基準ゲーム状態列Logを学習済みの学習モデル26に入力して、特徴空間FSに埋め込まれた当該ゲーム状態列に対応する学習用基準特徴ベクトルを生成する。そして、エージェント学習部38は、既に特徴空間FSに埋め込まれた、ゲームログDB24に記憶された複数のログデータに対応する複数の特徴ベクトルの一部であって、当該学習用基準ベクトルとの間の類似度が所定の類似度閾値以上である複数の特徴ベクトルである学習用特徴ベクトルを抽出する。当該学習用特徴ベクトルに基づいて、複数の学習用ゲーム状態列Logを得ることができる。当該類似度の演算方法は既知のいずれの方法であってよいが、例えば上述のコサイン類似度により演算する。エージェント学習部38は、抽出した学習用特徴ベクトルに基づいてAIエージェント30を学習させる。例えば、抽出した学習用特徴ベクトル自体を学習データとしてAIエージェント30を学習させてもよいし、学習用特徴ベクトルから得られた学習用ゲーム状態列Logを学習用データとしてAIエージェント30を学習させてもよい。
以下、図12に示されたフローチャートに従って、ゲームサーバ14の処理の流れを説明する。
ステップS10において、モデル学習部34は学習モデル26を十分に学習させる。これにより、特徴空間FSが形成される。
ステップS12において、ゲームプランナは、本ゲーム内で実行させる複数のイベントを定義する。その上で、ゲームプランナは、各イベントに対応する代表的な複数のゲーム状態列を学習済みの学習モデル26に入力し、複数のイベント特徴ベクトルを得る。複数のイベント特徴ベクトルは特徴空間FSに埋め込まれ、それぞれイベント情報と関連付けられてイベントDB28に記憶される。
ステップS14において、プレイヤは本ゲームのプレイを開始する。
ステップS16において、プレイデータ評価部36は、プレイ開始から現在までにおける複数のゲーム状態からなるプレイデータを学習済みの学習モデル26に入力する。これにより、プレイデータの特徴を表す注目特徴データが生成され特徴空間FSに埋め込まれる。
ステップS18において、プレイデータ評価部36は、特徴空間FSにおいて、ステップS12で定義された複数のイベント特徴ベクトルの中に、ステップS16で得られた注目特徴データとの間の類似度が類似度閾値以上のものが有るか否かを判定する。有る場合はステップS20に進み、無い場合はステップS24に進む。
ステップS20において、プレイデータ評価部36は、現在のプレイ状況が、当該イベントに対して予め定められたプレイ状況条件を満たすか否かを判定する。プレイ状況条件を満たす場合はステップS22に進み、満たさない場合はステップS24に進む。
ステップS22において、プレイデータ評価部36は、注目特徴データとの間の類似度が類似度閾値以上と判定されたイベント特徴ベクトルに関連付けられたイベント情報に関するイベントを実行する。
ステップS24において、プレイデータ評価部36は、プレイヤ又はゲームサーバ14から本ゲームのプレイ終了指示を受けたか否かを判定する。プレイ終了指示を受けた場合は処理を終了する。プレイ終了指示を受けていない、すなわちプレイヤが本ゲームのプレイを続ける場合には、ステップS16に戻る。すなわち、プレイデータ評価部36は、プレイヤが本ゲームをプレイしている間、プレイデータの評価を繰り返し行う。
以上、本発明に係る実施形態を説明したが、本発明は上記実施形態に限られるものではなく、本発明の趣旨を逸脱しない限りにおいて種々の変更が可能である。
例えば、本実施形態においては、ゲームログDB24、学習モデル26、イベントDB28、及びAIエージェント30がゲームサーバ14のメモリ22に記憶されていたが、これらはゲームサーバ14ではなく他の装置のメモリに記憶されてもよい。また、本実施形態においては、本ゲームの進行がゲームサーバ14により行われ、モデル学習部34、プレイデータ評価部36、及びエージェント学習部38としての機能をゲームサーバ14が発揮していたが、本ゲームの進行をプレイヤ端末12が実行し(すなわち本ゲームがプレイヤ端末12でスタンドアロンで実行され)、上述の各機能をプレイヤ端末12が発揮するようにしてもよい。その場合、プレイヤ端末12が電子ゲーム情報処理装置として機能する。
10 ゲームシステム、12 プレイヤ端末、14 ゲームサーバ、20 通信インターフェイス、22 メモリ、24 ゲームログDB、26 学習モデル、28 イベントDB、30 AIエージェント、32 プロセッサ、34 モデル学習部、36 プレイデータ評価部、38 エージェント学習部。

Claims (7)

  1. 電子ゲームのプレイ進行に応じて生じた順番に配列されたゲーム状態列を含む前記電子ゲームのログデータに含まれる、前記配列における第1範囲に含まれる複数のゲーム状態からなる第1ログと、前記第1範囲より狭い第2範囲に含まれるゲーム状態からなる第2ログを学習データとして用い、前記第1ログの特徴を表す第1特徴ベクトル及び前記第2ログの特徴を表す第2特徴ベクトルを生成し、前記第1特徴ベクトルと前記第2特徴ベクトルを同一の特徴空間に埋め込み、前記第1ログと前記第2ログとの間の関連度が高い程、前記特徴空間において前記第1特徴ベクトルと前記第2特徴ベクトルを近付け、前記第1ログと前記第2ログとの間の関連度が低い程、前記特徴空間において前記第1特徴ベクトルと前記第2特徴ベクトルを遠ざけるように学習モデルを学習するモデル学習部と、
    を備えることを特徴とする電子ゲーム情報処理装置。
  2. プレイヤによる前記電子ゲームのプレイにより得られた、ゲーム状態列からなるプレイデータを前記学習モデルに入力することで生成され前記特徴空間に埋め込まれた注目特徴ベクトルに基づいて、前記プレイデータを評価するプレイデータ評価部と、
    をさらに備えることを特徴とする請求項1に記載の電子ゲーム情報処理装置。
  3. 前記プレイデータ評価部は、予め定められたイベントゲーム状態列を学習済みの前記学習モデルに入力することで生成され前記特徴空間に埋め込まれた、前記イベントゲーム状態列の特徴を表すイベント特徴ベクトルと、前記電子ゲーム内で発生するイベントに関するイベント情報とが関連付けられたイベントデータベースを参照し、前記注目特徴ベクトルと前記イベント特徴ベクトルとの類似度が所定の類似度閾値以上であると評価した場合に、前記電子ゲームにおいて、前記イベント特徴ベクトルに関連付けられた前記イベント情報が示すイベントを実行する、
    ことを特徴とする請求項2に記載の電子ゲーム情報処理装置。
  4. 前記プレイデータ評価部は、前記注目特徴ベクトルと前記イベント特徴ベクトルとの類似度が所定の類似度閾値以上となり、且つ、現在の前記電子ゲームのプレイ状況が所定のプレイ状況条件を満たしたと評価した場合に、前記電子ゲームにおいて、前記イベント特徴ベクトルに関連付けられた前記イベントを実行する、
    ことを特徴とする請求項3に記載の電子ゲーム情報処理装置。
  5. 前記イベント情報は、言語表現されたプレイヤへのアドバイスであり、
    前記イベントは、プレイヤに対する前記アドバイスの出力である、
    ことを特徴とする請求項3又は4に記載の電子ゲーム情報処理装置。
  6. 前記電子ゲームの前記ログデータに含まれる複数のゲーム状態を学習済みの前記学習モデルに入力することで生成され前記特徴空間に埋め込まれた複数の特徴ベクトルの一部であって、所定の学習用基準特徴ベクトルとの間の類似度が所定の類似度閾値以上である複数の学習用特徴ベクトルに基づいて、前記電子ゲームをプレイする人工知能エージェントを学習させるエージェント学習部と、
    をさらに備えることを特徴とする請求項1に記載の電子ゲーム情報処理装置。
  7. コンピュータを、
    電子ゲームのプレイ進行に応じて生じた順番に配列されたゲーム状態列を含む前記電子ゲームのログデータに含まれる、前記配列における第1範囲に含まれる複数のゲーム状態からなる第1ログと、前記第1範囲より狭い第2範囲に含まれるゲーム状態からなる第2ログを学習データとして用い、前記第1ログの特徴を表す第1特徴ベクトル及び前記第2ログの特徴を表す第2特徴ベクトルを生成し、前記第1特徴ベクトルと前記第2特徴ベクトルを同一の特徴空間に埋め込み、前記第1ログと前記第2ログとの間の関連度が高い程、前記特徴空間において前記第1特徴ベクトルと前記第2特徴ベクトルを近付け、前記第1ログと前記第2ログとの間の関連度が低い程、前記特徴空間において前記第1特徴ベクトルと前記第2特徴ベクトルを遠ざけるように学習モデルを学習するモデル学習部と、
    として機能させることを特徴とする電子ゲーム情報処理プログラム。
JP2020052475A 2020-03-24 2020-03-24 電子ゲーム情報処理装置及び電子ゲーム情報処理プログラム Active JP7417451B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020052475A JP7417451B2 (ja) 2020-03-24 2020-03-24 電子ゲーム情報処理装置及び電子ゲーム情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020052475A JP7417451B2 (ja) 2020-03-24 2020-03-24 電子ゲーム情報処理装置及び電子ゲーム情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2021151320A JP2021151320A (ja) 2021-09-30
JP7417451B2 true JP7417451B2 (ja) 2024-01-18

Family

ID=77886827

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020052475A Active JP7417451B2 (ja) 2020-03-24 2020-03-24 電子ゲーム情報処理装置及び電子ゲーム情報処理プログラム

Country Status (1)

Country Link
JP (1) JP7417451B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010027034A1 (ja) 2008-09-05 2010-03-11 株式会社ソニー・コンピュータエンタテインメント コンテンツ推薦システム、コンテンツ推薦方法、コンテンツ推薦装置、プログラム及び情報記憶媒体
JP2013084175A (ja) 2011-10-12 2013-05-09 Sony Corp 情報処理装置、情報処理方法、及びプログラム
JP2019095973A (ja) 2017-11-21 2019-06-20 株式会社 ディー・エヌ・エー 情報処理装置及び情報処理プログラム
WO2020003670A1 (ja) 2018-06-29 2020-01-02 ソニー株式会社 情報処理装置、および情報処理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010027034A1 (ja) 2008-09-05 2010-03-11 株式会社ソニー・コンピュータエンタテインメント コンテンツ推薦システム、コンテンツ推薦方法、コンテンツ推薦装置、プログラム及び情報記憶媒体
JP2013084175A (ja) 2011-10-12 2013-05-09 Sony Corp 情報処理装置、情報処理方法、及びプログラム
JP2019095973A (ja) 2017-11-21 2019-06-20 株式会社 ディー・エヌ・エー 情報処理装置及び情報処理プログラム
WO2020003670A1 (ja) 2018-06-29 2020-01-02 ソニー株式会社 情報処理装置、および情報処理方法

Also Published As

Publication number Publication date
JP2021151320A (ja) 2021-09-30

Similar Documents

Publication Publication Date Title
JP5297204B2 (ja) プレイヤの相対的スキルの決定
JP6612306B2 (ja) 情報処理装置及び情報処理プログラム
JP7057536B1 (ja) 情報処理装置、情報処理方法及びプログラム
Zhang et al. Improving hearthstone AI by learning high-level rollout policies and bucketing chance node events
JP6760690B2 (ja) プログラム、制御方法、サーバ装置および端末装置
WO2015037732A1 (ja) ゲーム処理方法、ゲーム処理装置及びコンピュータプログラム
Rebstock et al. Learning policies from human data for skat
US10780351B2 (en) Information processing device and information processing program
JP7417451B2 (ja) 電子ゲーム情報処理装置及び電子ゲーム情報処理プログラム
Bisberg et al. Scope: Selective cross-validation over parameters for elo
JP6446213B2 (ja) プログラム及びゲームシステム
US20220379223A1 (en) Techniques for offering synergistic bundles in games involving game-sets of play-items
JP7299709B2 (ja) 情報処理装置、情報処理プログラム及び情報処理方法
JP4932331B2 (ja) レーティングプログラム、方法及び装置
Nielsen et al. Balanced map generation using genetic algorithms in the siphon board-game
JP2002263371A (ja) 通信ゲームシステム、記録媒体およびプログラム
Shen et al. Imperfect and cooperative guandan game system
EP3967378A1 (en) Method and system for recommending teammate for team game
US20090270178A1 (en) Method and apparatus for developing video game elements with automatic game element evaluation
TW400506B (en) A method of executing black-white chess in computer
JP6966609B2 (ja) プログラム、制御方法、サーバ装置および端末装置
de Almeida et al. An Intelligent Agent Playing Generic Action Games based on Deep Reinforcement Learning with Memory Restrictions
JP7454726B1 (ja) ゲーム媒体セットを生成するためのシステム、方法、及びプログラム
JP6561178B2 (ja) プログラム及びサーバ
Keller Improving MCTS and Neural Network Communication in Computer Go

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230310

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231213

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240105

R150 Certificate of patent or registration of utility model

Ref document number: 7417451

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150