JP2018175051A

JP2018175051A - 情報処理装置、ゲーム制御プログラム及びゲーム制御方法

Info

Publication number: JP2018175051A
Application number: JP2017075218A
Authority: JP
Inventors: 諒二宮; Ryo Ninomiya
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-04-05
Filing date: 2017-04-05
Publication date: 2018-11-15

Abstract

【課題】ターン制ゲームの現在の局面において複数の取り得る次のプレイに関する、注視すべき位置を知ることを目的とする。【解決手段】所定の順序のターン毎にプレイするターン制ゲームの現在の局面の評価値を算出し、現在の局面から取り得る次のプレイに対する次の局面の評価値を、複数の前記取り得る次のプレイについて算出する算出部と、算出した複数の前記取り得る次のプレイのそれぞれに対する、前記次の局面の評価値と前記現在の局面の評価値との差分に応じた情報を、複数の前記取り得る次のプレイのそれぞれにより移動する位置に、識別可能な態様で表示する表示部と、を有する情報処理装置が提供される。【選択図】図５

Description

本発明は、情報処理装置、ゲーム制御プログラム及びゲーム制御方法に関する。

近年、将棋や囲碁等のゲームでは、機械学習の発展によりコンピュータによる局面の評価や判断のレベルが向上しており、人間が将棋や囲碁の相手にコンピュータを利用して学習する機会が増えている。そこで、人間がコンピュータを利用して将棋等を行う際、学習を補助するさまざまな機能が提案されている（例えば、特許文献１〜４参照）。

例えば、特許文献１では、コンピュータが現在どの駒に対してどのような候補手を思考中であるかを画面の盤面に矢印で表示することが記載されている。

特開平１０−３１４４５３号公報特開昭６１−２６３４７０号公報特開２００３−４７７７０号公報特開２０１２−０６５８５２号公報

しかしながら、上記の手法では、盤面にコンピュータが計算した最良の手が表示されるために、コンピュータが示す候補手の手順をそのまま模倣してしまい学習が進まないという課題がある。

一方、コンピュータは、最良の手だけでなく、最良ではないがコンピュータが考える他の手を計算している。特に指し手に対する理解度が十分でない初心者の場合、プレイヤーは、最良の手だけでなく、コンピュータが考える他の手を知る方が、将棋等のゲームを学習する際に指し手に対する理解度が深まることがある。

そこで、１つの側面では、本発明は、ターン制ゲームの現在の局面において複数の取り得る次のプレイに関する、注視すべき位置を知ることを目的とする。

１つの実施態様では、所定の順序のターン毎にプレイするターン制ゲームの現在の局面の評価値を算出し、現在の局面から取り得る次のプレイに対する次の局面の評価値を、複数の前記取り得る次のプレイについて算出する算出部と、算出した複数の前記取り得る次のプレイのそれぞれに対する、前記次の局面の評価値と前記現在の局面の評価値との差分に応じた情報を、複数の前記取り得る次のプレイのそれぞれにより移動する位置に、識別可能な態様で表示する表示部と、を有する情報処理装置が提供される。

１つの側面では、本発明は、ターン制ゲームの現在の局面において複数の取り得る次のプレイに関する、注視すべき位置を知ることができる。

一実施形態に係る情報処理装置の機能構成の一例を示す図。一実施形態に係る将棋の一局面の例を示す図。一実施形態に係る評価関数ＤＢの一例を示す図。一実施形態に係る情報処理装置のハードウェア構成の一例を示す図。一実施形態に係るゲーム制御処理の一例を示すフローチャート。一実施形態に係る期待評価値を説明するための図。一実施形態に係るゲーム制御処理の効果の一例を示す図。一実施形態に係る変化局面の一例を示す図。一実施形態に係る変化局面の一例を示す図。

以下、本発明の実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省く。

［情報処理装置］
まず、本発明の一実施形態に係る情報処理装置１０の機能構成の一例について、図１を参照しながら説明する。図１は、本実施形態に係る情報処理装置１０の機能構成の一例を示す。

本実施形態に係る情報処理装置１０は、ゲーム機器、携帯用ゲーム機器、タブレットコンピュータ、パーソナルコンピュータ、スマートフォン、携帯電話、ＰＤＡ（Personal Digital Assistants）、ＨＭＤ（Head Mount Display）、ＦＭＤ（Face Mount Display）等の電子機器に適用され得る。

本実施形態に係る情報処理装置１０は、画面に表示されているゲームを所定の順序のターンでプレイヤーにプレイさせて、ゲームを進行させるターン制ゲームを実行する機器である。所定の順序は、ゲーム毎に定められており、必ずしも、自プレイヤーのターンと対戦相手のターンとが交互に来る対戦型ボードゲームに限らず、自プレイヤーのターンと対戦相手のターンとが所定の順番で来るゲームであればよい。

本実施形態では、情報処理装置１０が行うターン型ゲームの一例として「将棋ゲーム」を挙げて説明する。しかし、情報処理装置１０が行うターン型ゲームは、これに限らず、画面に表示されているゲームのプレイヤーと対戦相手とが所定の決まった順番でプレイするゲームであればよい。情報処理装置１０が行うターン型ゲームの他の例としては、囲碁、オセロ、チェス、麻雀、トランプ（例えばポーカー）等が挙げられる。

プレイヤーは、情報処理装置１０の画面に表示されている盤面を見て、自分のターン（順番）のときに、自駒をいずれかのマスに移動させる。対戦相手は、情報処理装置１０のコンピュータ自身であってもよいし、ネットワークを介して情報処理装置１０に接続される他の機器のプレイヤーであってもよい。

情報処理装置１０は、現在の局面の状態を示す情報の入力を受け付けると、次の打つ手の良し悪しを示す評価値を計算し、評価値に基づく注視点情報を出力する。本実施形態では、最良の手だけでなく、最良ではないが考え得る他の手を計算し、現在の局面において次のターンでプレイヤーが注視すべき情報としてプレイヤーに示す。本実施形態に係る情報処理装置１０によれば、複数の次の一手についての注視点情報をプレイヤーに提供することで、プレイヤーが次の一手をどこに打つかの学習効率を上げることができる。つまり、本実施形態に係る情報処理装置１０によるゲーム制御方法によれば、ゲーム中の局面毎にプレイヤーが行うことができる複数の手のそれぞれを、評価関数を用いて点数化し、複数の手のそれぞれが良手か悪手かを点数化した評価値を色の濃淡で表現し、プレイヤーに提示できるものである。

［機能構成］
本実施形態に係る情報処理装置１０は、入力部１１、記憶部１２、算出部１４及び表示部１５を有する。入力部１１は、現在の局面等、所定の局面のそれぞれの駒の配置位置を示す局面情報を入力する。

図２は、一実施形態に係る将棋の一局面の例を示す。図２の局面は、任意のタイミングにおける将棋の盤面の一例であり、情報処理装置１０のディスプレイに表示されている。ここでは、４０手目の盤面の一例が示されている。つまり、図２は、プレイヤーと対戦相手とが２０手ずつ打ったときの盤面の一例を示す。先手の駒は盤上の１７の駒と２つの持ち駒（金、銀）である。後手の駒は盤上の１７の駒と４つの持ち駒（角二、桂、歩）である。入力部１１が入力する局面情報は、ある局面における先手及び後手の駒の種類及び各駒の位置を示す座標情報である。

記憶部１２は、入力部１１が入力した局面情報を配置情報テーブル１６に格納する。加えて、記憶部１２は、評価関数ＤＢ１７を記憶している。図３は、一実施形態に係る評価関数ＤＢ１７の一例を示す。

評価関数ＤＢ１７には、任意の局面情報から評価値を算出する際の各駒の重み付けである評価値の係数ｋが定義されている。評価値の係数ｋは、各種の駒の評価を点数化するために記憶されている。評価値の係数ｋは、所有する駒の優劣を表現する。評価値の係数ｋは、駒が自プレイヤーの所属の場合はプラス値を有し、相手プレイヤー所属の場合はマイナス値を有する。

今回は、各駒の評価値の係数ｋにより示される重み付けは固定値に設定されているが、評価値の係数ｋの値には、設計者が任意のパラメータを与えることができ、また、公知の機械学習手法によって調整を行うことができる。

算出部１４は、評価関数ＤＢ１７を用いて、入力した局面情報に基づき評価値を計算する。算出部１４は、算出した評価値に基づき現在の局面から次の局面への一手を指す際の注視すべき情報（以下、「注視点情報」ともいう。）を算出する。算出部１４は、現在の局面情報を配置情報テーブル１６から取得し、算出された評価値を用いて４０マスの盤面に対する注視点情報を計算する。

表示部１５は、配置情報テーブル１６に格納されている現在の局面情報が示す盤面を表示し、算出した注視点情報を色情報に変換し、得られた４０マスの色情報を盤面に重畳させて表示する。

なお、本実施形態に係る評価値は、説明をわかり易くするために、駒の数だけ「駒×評価値の係数ｋ」を加算した合計値から算出される。しかし、実際には、評価値は、駒の数だけでなく、駒の位置、王の周囲の駒数、王手ができるパターン数、評価対象の盤面がこれまでに行われた対局に似ているか等の経験に基づく複数の評価パラメータを用いて算出される。つまり、それらの複数の評価パラメータにより評価値の係数ｋが算出され、評価値が求められる。

また、本実施形態に係る注視点情報は、現在の局面情報から評価値の係数ｋを用いて評価値を算出し、現在の局面の評価値と、現在の局面の評価値から変化可能な盤面のマスに対する次の局面の全局面の評価値との差分から導出され得る。

しかしながら、本実施形態に係る注視点情報は、これに限らず、現在の局面の評価値と、現在の局面の評価値から変化可能な盤面のマスに対する次の局面のうちの複数の取り得る手（すべての取り得る手でなくてもよい）の評価値との差分から導出してもよい。

［情報処理装置／ハードウェア構成］
次に、本発明の一実施形態に係る情報処理装置１０のハードウェア構成の一例について、図４を参照しながら説明する。図４は、本実施形態に係る情報処理装置１０のハードウェア構成の一例を示す。

情報処理装置１０は、入力装置１０１、出力装置１０２、外部Ｉ／Ｆ１０３、ＲＡＭ（Random Access Memory）１０４、ＲＯＭ（Read Only Memory）１０５、ＣＰＵ（Central Processing Unit）１０６、通信Ｉ／Ｆ１０７、及びＨＤＤ（Hard Disk Drive）１０８などを備え、それぞれがバスＢで相互に接続されている。

入力装置１０１は、キーボードやマウスなどを含み、情報処理装置１０に各操作信号を入力するために用いられる。出力装置１０２は、ＬＣＤ（Liquid crystal Display）モニタ等のディスプレイ、プリンタ、ＣＲＴ（Cathode Ray Tube）などを含み、各種の処理結果を出力する。通信Ｉ／Ｆ１０７は、情報処理装置１０をネットワークに接続するインターフェースである。これにより、情報処理装置１０は、通信Ｉ／Ｆ１０７を介して、他のゲーム機器などの電子機器とデータ通信を行うことができる。

ＨＤＤ１０８は、プログラムやデータを格納している不揮発性の記憶装置である。格納されるプログラムやデータには、情報処理装置１０の全体を制御する基本ソフトウェア及びアプリケーションソフトウェアがある。例えば、ＨＤＤ１０８には、各種のデータベースやプログラム等が格納されてもよい。

外部Ｉ／Ｆ１０３は、外部装置とのインターフェースである。外部装置には、記録媒体１０３ａなどがある。これにより、情報処理装置１０は、外部Ｉ／Ｆ１０３を介して記録媒体１０３ａの読み取り及び／又は書き込みを行うことができる。記録媒体１０３ａには、ＣＤ（Compact Disk）、及びＤＶＤ（Digital Versatile Disk）、ならびに、ＳＤメモリカード（SD Memory card）やＵＳＢメモリ（Universal Serial Bus memory）等がある。

ＲＯＭ１０５は、電源を切っても内部データを保持することができる不揮発性の半導体メモリである。ＲＯＭ１０５には、ネットワーク設定等のプログラム及びデータが格納されている。ＲＡＭ１０４は、プログラムやデータを一時保持する揮発性の半導体メモリである。ＣＰＵ１０６は、ＨＤＤ１０８やＲＯＭ１０５などの記憶装置から、プログラムやデータをＲＡＭ１０４上に読み出し、処理を実行することで、装置全体の制御や将棋のゲームを制御するための機能を実現する演算装置である。

かかる構成により、本実施形態に係る情報処理装置１０では、ＣＰＵ１０６が、例えばＲＡＭ１０４、ＲＯＭ１０５、ＨＤＤ１０８内に格納された将棋ゲームプログラム１８及びデータを用いてゲーム制御処理を実行する。なお、配置情報テーブル１６及び評価関数ＤＢ１７に記憶された情報は、ＲＡＭ１０４、ＨＤＤ１０８、又はネットワークを介して情報処理装置１０に接続されるクラウド上のサーバ等に格納され得る。

なお、図２は機能に着目したブロック図を描いており、これらの機能ブロックで示した各部のソフトウェアを実行するプロセッサはハードウェアである。例えば、図２の算出部１４は、情報処理装置１０にインストールされた将棋ゲーム制御プログラム１８が、ＣＰＵ１０６に実行させる処理により実現され得る。

また、入力部１１は、例えば入力装置１０１により実現可能である。記憶部１２は、例えばＲＡＭ１０４、ＲＯＭ１５、ＨＤＤ１０８により実現可能である。表示部１５は、例えば表示装置１０２により実現可能である。

［ゲーム制御処理］
次に、本実施形態に係るゲーム制御処理の一例について図５を参照して説明する。図５は、一実施形態に係るゲーム制御処理の一例を示したフローチャートである。なお、説明では、８１マス（＝９×９）の将棋の盤面を想定することがある。一方、盤面のマスの数を少なくして説明を行う場合があるが、これは説明の便宜のためであり、以下のゲーム制御処理に使用する各種の式による注視点情報の導出方法は、盤面のマスの数によらず同じである。

本処理が開始されると、入力部１１は、盤面の状態を示す局面情報『ｖ』を取得する(ステップＳ１０)。なお、説明において、局面情報『ｖ』は、ベクトルであり、以下、本明細書では、ベクトル表記は、文字を『』で括り、スカラーと区別する。また、ベクトルを含む式の場合は、ベクトル表記を『』で括るか又は太字で示す場合がある。

例えば、局面情報『ｖ_１』を取得した場合、局面情報『ｖ_１』は現在の局面（一手目）の盤面の状態を数値化したベクトルである。取得した局面情報『ｖ』は、配置情報テーブル１６に格納される。

また、以下の説明において、局面情報『ｖ_ｎ』が示す局面の情報は、駒の配置、持ち駒、現在どちらのプレイヤーの順番（ターン）であるかの情報を含む。局面情報『ｖ_ｎ』のｎは、現在の局面から何手進めたかを示し、例えば、ｎ＝１は現在の局面、ｎ＝２は一手先の局面である。現在の局面の情報『ｖ_１』と表示されるが、ｎの表記がない場合、つまり、局面情報『ｖ』は、現在の局面の情報『ｖ_１』と同じ意味とする。ある特定の局面の情報を『ｖ_ｎ』と表示する場合がある。

次に、算出部１４は、変数ｎに「１」を設定し(ステップＳ１２)、局面情報『ｖ_ｎ』を（１）式に代入し、ｎ手先の盤面の評価値『ｑ_ｎ』を算出する(ステップＳ１４)。

『ｑ_ｎ』＝ｆ（『ｖ_ｎ』）・・・（１）
ここでは、現在の局面情報『ｖ_１』を（１）式に代入することで一手先の盤面、つまり、現在の局面の盤面の評価値『ｑ_１』が算出される。評価値『ｑ_ｎ』は、局面情報『ｖ_ｎ』に対応する、プレイヤーの有利又は不利を数値化した値である。

ｆ（『ｖ_ｎ』）は局面情報『ｖ_ｎ』を入力とし、評価値『ｑ_ｎ』を算出する任意の評価関数であり、以下の（１）（２）により定義づけられる。
（１）ｆ（『ｖ』）の値の範囲を、[−∞、＋∞]とし、勝利を＋∞、敗北を−∞、引き分けを０と定義する。
（２）ｆ（『ｖ』）は、ベクトル『ｖ』を引数とする任意のスカラー関数である。

（１）式の評価関数は、設計者又はプレイヤーが任意で決定することができる。本実施形態では、評価関数ＤＢ１７に記憶されている各駒の評価値の係数ｋと駒の数とを乗算した値の合計とする。

次に、算出部１４は、次の局面（ｎ＋１手先）の局面情報『ｖ_ｎ＋１』を（１）式に代入し、ｎ＋１手先の盤面の評価値『ｑ_ｎ＋１』を算出する(ステップＳ１６)。

ここでは、二手先の局面情報『ｖ_２』を（１）式に代入することで現在の局面の次の局面の盤面の評価値『ｑ_２』が算出される。

次に、算出部１４は、評価値『ｑ_ｎ』と評価値『ｑ_ｎ＋１』との差分から期待評価値『ｐ_ｎ』を計算する（ステップＳ１８）。期待評価値『ｐ_ｎ』は、現在の局面の各マスへ駒を進めた場合の評価値を集約したベクトルである。期待評価値『ｐ_ｎ』は、盤面の各マスに対応する評価値を要素として持つ。例えば、盤面が８１（＝９×９）のマスを有する場合、期待評価値『ｐ_ｎ』は、盤面の各マスに対応する８１の評価値を要素として持つ。

説明の簡略化のために、要素数を減らした一例として、期待評価値『ｐ』を要素数９（＝３×３）のベクトルとすると、図６に示すように、盤面上の横の座標をｘ、縦の座標をｙとすると、期待評価値『ｐ』は（ｘ、ｙ）が（１、１）〜（３、３）で示される「１」〜「９」の９要素の評価値からなる。

例えば、図６の１〜９の数字が付与されたマトリクスで「８」の位置は（ｘ、ｙ）＝（３、２）で表される。期待評価値『ｐ』について、特定の座標（ｘ、ｙ）の要素を示す場合、期待評価値『ｐ_３、２』のように記す。期待評価値『ｐ_ｘ、ｙ』のようにｘ及びｙが代数のままの場合は、期待評価値の全要素を含み、期待評価値『ｐ』と等価とする。

図５に戻り、次に、算出部１４は、ステップＳ１４〜Ｓ１８の再帰的処理を、予め設定されたＮ回（再帰回数）繰り返したかを判定する（ステップＳ２０）。再帰回数は、設計者又はプレイヤーが決めることができる。また、Ｎは１でもよいし、２以上でもよい。

算出部１４は、ステップＳ１４〜Ｓ１８の再帰的処理をＮ回繰り返していないと判定した場合、繰り返し回数をカウントする変数ｎに「１」を加算し（ステップＳ２２）、ステップＳ１４に戻り、ステップＳ１４以降の処理を繰り返す。

一方、ステップＳ２０において、算出部１４は、ステップＳ１４〜Ｓ１８の再帰的処理をＮ回繰り返したと判定した場合、算出部１４は、繰り返し回数分算出したｎ手先までの期待評価値『ｐ_１』、『ｐ_２』、・・・『ｐ_ｎ』を足し合わせて注視点情報『Ｐ』を算出する（ステップＳ２４）。注視点情報『Ｐ』の計算は、盤面の（１，１）〜（９，９）のすべてのマスに対して、１〜ｎ手先までのｎ局面のそれぞれにおいて取り得る手の数だけ行われる。

次に、表示部１５は、（１，１）〜（９、９）の各マスに対して注視点情報『Ｐ』を色で表示する表示データに変換し、元の局面の盤面データに重ね合わせて出力し（ステップＳ２６）、本処理を終了する。例えば、図７に一実施形態に係るゲーム制御処理の効果の一例を示す。例えば、図７（ａ）の元の局面（現在の局面）データと、図７（ｂ）の（１，１）〜（９、９）の盤面の注視点情報『Ｐ』を色で表示する表示データとを重畳して、図７（ｃ）に示すように、現在の局面の盤面に注視すべき情報が表示される。

以上、本実施形態に係るゲーム制御処理によれば、ターン制ゲームの一例である将棋のゲームの現在の局面において次手でプレイヤーが注視すべき複数の情報を提供することができる。例えば、図７（ｃ）〜図７（ｅ）に示すように、図７（ｃ）〜図７（ｅ）のそれぞれの局面に対して各マスに対する注視点情報『Ｐ』が計算され、一手毎に注視点情報『Ｐ』の分布が変わっていることがわかる。例えば、注視点情報『Ｐ』が上がっていくと対応するマスの色が濃くなり、注視点情報『Ｐ』が下がっていくと対応するマスの色が薄くなる。これにより、プレイヤーは、注視すべき盤面の位置を容易に知ることができる。例えば、プレイヤーは、（１，１）〜（９、９）の各マスに対して次に取り得る手のうち、どの手がどれだけ評価されているかを簡単に知ることができる。

以上から、本実施形態に係る情報処理装置１０によれば、最良の手だけでなく、最良ではないが情報処理装置１０が考える他の手を、プレイヤーにわかり易いよう盤面に表示することができる。これにより、特に初心者のプレイヤーは、本実施形態のように、最良の手だけでなく情報処理装置１０が考える他の手を知ることで、将棋を学習する際に指し手に対する理解度を深めることができ、将棋を効率よく学習することができる。

[注視点情報『Ｐ』の具体的算出例]
次に、注視点情報『Ｐ』を求める具体的手順を以下に示す。まず、算出部１４は、現在の局面情報『ｖ_１』について盤面の各座標（ｘ、ｙ）に対する期待評価値『Ｐ』（＝『ｐ_ｘ、ｙ』）を算出する。

（評価関数ｆ（『ｖ』））
例えば、図２に示す仮想局面をＡとすると、仮想局面Ａの局面情報『ｖ_Ａ』を入力した際の評価関数ｆ（『ｖ_Ａ』）は、評価値の係数ｋを使用して線形結合で示した以下の（２）式により表される。

仮想局面Ａについて、局面情報『ｖ_Ａ』を（２）式に代入し計算した場合、図３の評価関数ＤＢ１７を用いて、ｆ（『ｖ_Ａ』）＝２３００−２６００＝−３００（＜０）と計算される。つまり、評価関数ｆ（『ｖ_Ａ』）によって、先手番が「−３００」不利、つまり、後手番が「＋３００」有利と判断される。

なお、（２）式における係数ｋ_ｉは、図３に一例を示した通り各駒の評価値の係数であり、図３に示す値に限らず、設計者が任意に調整し、設定可能な値である。調整の手法としては、機械学習等のパラメータ学習の手法を用いることができる。また、駒の所属だけでなく、駒の配置、駒の利きの関係など、上記条件（１）及び条件（２）の条件を満たす限り任意の関数を利用してもよい。なお、「駒の利き」とは、各駒を動かすことのできる範囲である。動かすことのできる範囲が多い程、得られる点数は高くなる。

また、図２の仮想局面Ａの例では、先手は１９個の駒を所有し、後手は２１個の駒を所有している。いずれも持ち駒を含んだ駒数である。このとき、（２）式の「ｎ」は、先手番であれば１９駒になり、後手番であれば２１駒になる。

（現在の局面の評価値『ｑ』）
次に、算出部１４は、現在の局面情報『ｖ_１』から着手ｍした場合の評価値『ｑ』を求める。「着手」とは、現在の局面から盤面上の座標（ｘ，ｙ）への着手可能な手のパターン数である。算出部１４は、評価関数ｆ（『ｖ_１、ｍ』）を用いて、現在の局面情報『ｖ_１』から着手ｍした場合の評価値『ｑ_１、ｍ』を算出する。評価値『ｑ_１、ｍ』は、（３）式により算出される。

『ｑ_１、ｍ』＝ｆ（『ｖ_１、ｍ』）・・・（３）
例えば、図２の仮想局面を現在の局面とした場合、評価値『ｑ_１、ｍ』は、先手番であれば、１９駒の駒毎に一手動かしたときの評価値を、動かせるパターン数ｍだけ算出した値となる。後手番であれば、２１駒の駒毎に一手動かしたときの評価値を、動かせるパターン数ｍだけ算出した値である。つまり、現在の局面から盤面上のある地点の座標（ｘ，ｙ）へ任意の駒を動かした操作を、代数化して着手ｍとする。

（期待評価値『ｐ』）
次に、現在の局面から何かの駒を動かしたときの期待評価値『ｐ』の算出方法について説明する。現在の局面から座標（ｘ，ｙ）への着手可能な合法手の集合をＭとし、現在の局面から盤面上の座標（ｘ，ｙ）に着手した場合の期待評価値『ｐ_ｘ，ｙ』を求める。現在の局面から盤面上の座標（ｘ，ｙ）に着手可能な手は複数通り存在する場合があるため、現在の局面から盤面上の座標（ｘ，ｙ）への合法手の集合を、Ｍ_ｘ、ｙ∋ｍとすると、期待評価値『ｐ_ｘ，ｙ』は（４）式を用いて算出される。

合法手の集合Ｍ_ｘ、ｙ∋ｍでは、着手ｍが反則を含まない盤面上の座標（ｘ、ｙ）への任意の一手であるとき、合法手の集合Ｍは、これら着手ｍのすべてを集めた集まりで、着手ｍを元とする集合とする。合法手の集合Ｍ_ｘ、ｙは、特定の座標（ｘ、ｙ）に対する合法手の集合を示す。つまり、合法手の集合Ｍ_ｘ、ｙは、ある座標（ｘ，ｙ）に注目して、その座標に動かせる手のうち反則を含まないパターン数を示し、例えば座標（３，２）については、Ｍ_３、２のように表記する。Ｍ_３、２のように代数のままの場合は全要素を含み、Ｍと等価とする。なお、本明細書において、Ｍ_ｎの表記は、ｎ手目のＭ_ｘ、ｙを示す。

ｎ局面から、盤面上のある地点の座標（ｘ、ｙ）へ任意の駒を動かした後の局面を、局面情報『ｖ_ｎ』から着手ｍをした局面として局面情報『ｖ_ｎｍ』で示す。着手ｍは、反則やルール外の操作を含まない。着手ｍには、盤面が９×９マスの場合、着手ｍには［（ｘ，ｙ）＝（１，１），（１，２），〜，（９，９）の８１通り]×[その地点へ進める駒(持ち駒を打てる駒)の数］通りのパターンが存在する。局面情報『ｖ_ｎｍ』は、着手ｍのパターンと同数存在する。例えば、現在の局面から、盤面上のある地点の座標（ｘ、ｙ）へ任意の駒を動かした後の次の局面を、局面情報『ｖ_１』から着手ｍをした局面情報として局面情報『ｖ_１ｍ』とする。

（４）式を説明するに当たって、座標（ｘ、ｙ）＝（５，５）の仮想局面を示す図８（ａ）を例に挙げ、（４）式を展開する。座標（ｘ、ｙ）＝（５，５）の仮想局面を現在の局面とし、局面情報『ｖ_１』から（４）式は、下記の式のように展開される。

図８（ａ）の仮想局面では、Ｍ_５，５には３パターンの着手ｍがある。具体的には、３パターンは、図８（ｂ−１）の「金」の駒を座標（５，５）に移動させる着手ｍ_１（金の横移動）、図８（ｂ−２）の「角」の駒を座標（５，５）に移動させる着手ｍ_２（角の斜め移動）、図８（ｂ−３）の「歩」の駒を座標（５，５）に移動させる着手ｍ_３（歩の前進）である。図８（ｂ−１）〜（ｂ−３）の局面情報『ｖ_{１Ｍ（５，５）}』は、局面情報『ｖ_１』からＭ_ｘ，ｙを指した場合を意味し、局面情報『ｖ_２』と等価である。

それぞれのパターンの着手ｍ_１，ｍ_２，ｍ_３に評価値『ｑ_1m1』，『ｑ_1m2』，『ｑ_1m3』が存在するため、期待評価値『ｐ_５、５』は以下の（４−１）式のように展開される。

実際には、座標（ｘ、ｙ）が（１，１）〜（９，９）までの全パターンに対して、期待評価値『ｐ_１，１』，『ｐ_１，２』，・・・，『ｐ_９，９』が算出される。

任意の座標（ｘ，ｙ）毎に着手可能な手、つまり、着手ｍの数に差がある。このため、（４）式の期待評価値『ｐ_ｘ，ｙ』に対してｗを用いて加重平均をとり、（５）式の期待評価値『ｐ_ｘ，ｙ』を導く。

（５）式を（４−１）式と同様に展開し、ｗ_ｍ＝１／３とすると下記の式が導かれる。

例えば、図８（ａ）の仮想局面では座標（ｘ、ｙ）＝（６，４）は、「金」の駒の前進の１パターンであり、例えば、手が増えていくと考えるパターン数が増えていくというように、手のパターン数は、各座標（ｘ、ｙ）で一定ではない。このように、手のパターンが各座標（ｘ、ｙ）で一定ではないため、（５）式では加重平均をとり、評価値を正規化する。

なお、上記（５）式を（４−１）式と同様に展開した式では、着手ｍの３つのパターンに対して平均をとっているが、例えば着手ｍ_ｋ＝［３／５，２／５，０／５］のように設計者が任意のルールで重み付けしてもよい。この例では、着手ｍ_１は重視され、着手ｍ_３は無視されるように重み付けがされているが、これは一例であり、各着手に対して様々な重み付けをすることが可能である。

（変化局面の期待評価値『ｐ』）
以上では、複数の手のパターンである着手ｍを用いて、着手ｍをした場合の現在の局面情報『ｖ_１，ｍ』についての期待評価値『ｐ_１，ｍ』が算出される。次に、算出部１４は、局面情報『ｖ_１』からの変化局面の局面情報『ｖ_２』について、盤面の各座標（ｘ、ｙ）に対する期待評価値『ｐ_２』を求める。局面情報『ｖ_２』は、現在の局面の次の局面に関する情報を示す。現在の局面情報『ｖ_１』における有効着手Ｍ_１についてそれぞれに期待評価値『ｐ_１，ｍ』があるため、期待評価値『ｐ_２』はＭ_１について和をとり、（６）式にて変化局面情報『ｖ_２』についての期待評価値『ｐ_２』を求める。

変化局面の局面情報『ｖ_２』は、一手先（ｎ＝２）の局面情報を数値化したベクトルである。ｎ＝１の現在の局面情報を数値化したベクトルであるｖ_１の状況から変化することのできるパターン数分の局面情報を持つ。局面情報『ｖ_{１Ｍｘ，ｙ}』は現在の局面情報『ｖ_１』から合法手の集合Ｍ_ｘ、ｙを指した場合を示し、変化局面の局面情報『ｖ_２』と等価である。

例えば、図８（ａ）の仮想局面の局面情報『ｖ_１』に対して、座標（ｘ、ｙ）＝（５，５）に注目した場合、変化局面の局面情報『ｖ_２』は、図８（ｂ−１）〜図８（ｂ−３）に示すように、３通りの局面の情報から成り立つ。着手ｍした場合の局面情報『ｖ_１、ｍ』は、局面情報『ｖ_{１Ｍｘ，ｙ}』のうち特定の１パターンのみの局面情報を示す。局面情報『ｖ_１、ｍ』は、図８（ｂ−１）〜図８（ｂ−３）に示す３通りの局面情報『ｖ_{１Ｍ５，５}』と等価である。

期待評価値『ｐ_２』は期待評価値『ｐ_１』に対して全有効着手Ｍ_１の総数倍となる。図９に示すように、座標（ｘ、ｙ）＝（５，５）、合法手の集合Ｍ_５，５に注目して（６）式の右辺を展開すると（６−１）式により座標（ｘ、ｙ）＝（５，５）の期待評価値『ｐ_{２（５，５）}』が導かれる。

図９（ａ）の局面の場合の着手ｍ_ａに注目して（５）式に代入したときの期待評価値『ｐ_１ｍ_ａ』は以下の式により算出される。

ここで、「ｌ」は、図９（ａ）の仮想局面からさらに一手進めた場合の着手ｌを示す。

以上に説明した（１）式〜（５）式を用いて行った計算を、図９（ｂ−１）に示す仮想局面と図９（ｃ）に示す仮想局面について行うことで、期待評価値『ｐ_１ｍ_ａ』が算出される。このようにして、図９（ｂ−１）〜図９（ｂ−３）の仮想局面のそれぞれについて、各仮想局面からさらに一手進めた図９（ｃ）に示す仮想局面について（１）式〜（５）式を用いて期待評価値の計算を行うことで、期待評価値『ｐ_{２（５，５）}』が算出される。

（６）式により求めようとする期待評価値『ｐ_２』は、すべての期待評価値『ｐ_{２（ｘ，ｙ）}』を要素に持つベクトルなので、期待評価値『ｐ_{２（５，５）}』と同様に期待評価値『ｐ_{２（１，１）}』から期待評価値『ｐ_{２（９，９）}』まで計算し、集約することで算出できる。

（６−１）式では、手の候補である合法手の集合Ｍ_５，５の座標の要素は３であるため、３項の和である。一方、合法手の集合Ｍ_ｘ，ｙの座標の要素は３であるとは限らないため、（７）式で正規化している。つまり、（５）式の場合と同様に、（６）式の右辺の期待評価値『ｐ_１、ｍ』を要素数で割って正規化したものが（７）式である。（７）式により、二手目の期待評価値『ｐ_２』が求められる。

ここで、｜Ｍ_１｜は、全有効着手を示し、合法手の集合Ｍ_ｘ，ｙと同じ意味で用いられる。つまり、｜Ｍ_１｜は、｜Ｍ_ｘ，ｙ｜に等しく、各座標（ｘ、ｙ）についての要素数（つまり、差し手ｍの数）である。

以下の（８）式は、（７）式をｉ手目までに拡張した式である。（８）式により、ｉ手目の期待評価値『ｐ_ｉ』が求められる。ｉは２よりも大きい。

ただし、ｉ手目の期待評価値『ｐ_ｉ』を計算する場合、ｉ乗に比例して計算量が増加するため、実際の計算では有効着手の集合Ｍ_ｉについてＭ_１の有効着手の場合の予想最善手順ｍ_ｍａｘに限って計算してもよい。予想最善手順ｍ_ｍａｘのｉ手目の評価値は、次式で示される着手ｍとして求められる。

（注視点情報『Ｐ』）
算出部１４は、算出したｉ手目の期待評価値『ｐ_ｉ』を（９）式に代入して注視点情報『Ｐ』を算出する。

算出結果は、ｎ手先まで考慮した注視点情報『Ｐ』であり、ｉは総和のインデックスでｉ手目の要素を表す。実際に計算する際には、ｉに反比例する重みづけや色相空間へ写像を行う。ｇ（ｘ）は、任意の変数関数であり、ｎの計算範囲によって注視点情報『Ｐ』の大きさが変わるため正規化を行っている。正規化の方法は任意であるが、（５）式のｗと同様に定義し、ｉの少ない（＝直近の手）に重みをもたせる方法がある。例えば、次式に示す三手目まで計算して一手目をより重視し、二手目がより軽視され、三手目が更に軽視されるように定義してもよい。

（注視点情報『Ｐ』の色によるマッピング）
表示部１５は、算出した注視点情報『Ｐ』に応じた情報を、次のプレイにより移動する駒の位置に、識別可能な態様で画面に表示する。識別可能な態様とは、例えば、注視点情報『Ｐ』を色情報に変換し、取り得る次のプレイのそれぞれにより移動する位置に、マッピングして表示してもよい。

この場合、算出部１４は、算出した注視点情報『Ｐ』の値について色の範囲の変換を行う。算出部１４は、色でマッピングする際には、注視点情報『Ｐ_ｘ、ｙ』の値の範囲を［０，２５５］とする場合、正規化と同時に値の範囲を変換する。注視点情報『Ｐ』が識別可能な態様で表示される例としては色の例を挙げて説明したが、これに限らず、記号、光、音等により注視点情報『Ｐ』が識別可能な態様で表示されてもよい。

上記条件（１）のように評価関数ｆ（ｘ）を［−∞，＋∞］と定義していると、注視点情報『Ｐ_ｘ、ｙ』の値の範囲も［−∞，＋∞］となってしまうため、算出部１４は、（１０）式によりｔａｎｈ（ｘ）を用いて［−１，＋１］の範囲に変換している。
ｇ（ｘ）＝２５５×（１＋ｔａｎｈ（ｘ））／２・・・（１０）

［実施例］
最後に、実施例として、（Ａ）同一局面で考慮手数（ｉ）を一〜五手で変化させた場合と、（Ｂ）五手目まで考慮した状態で数手進めた場合の例を示す。

（Ａ）同一局面で考慮手数（ｉ）を変化させた場合
仮想局面の一例を図７（ａ）に示す。従来の機械学習計算によって候補手順１，２，３…と各評価値『ｑ_ｉ』が求められているものとする。（９）式より、ｇ（ｘ）を（１０）式の形で置き、一手先の注視点情報『Ｐ』を盤面上の色の濃淡として出力を求めた場合（図７（ｂ）参照）、色の濃淡を描いた画像を、現在の局面の盤面の表示に重ねる。この結果、プレイヤー視点では図７（ｃ）〜図７（ｅ）のように表現される。

特に評価が高かった手順の上位３通りを例として抽出し、それぞれの評価値とそれに対応した表示を示す。
・評価手順例
１．▲２二角（＋５）△同銀（＋２）▲６五角（＋５）△５四角（＋４）▲同角（＋６）…
２．▲４八玉（＋５）△３五歩（＋３）▲２八銀（＋３）△６二玉（＋３）▲３八玉（＋３）△３六歩（＋３）…
３．▲６六歩（＋４）△６二玉（＋５）▲７八銀（＋５）△７二銀（＋５）▲７七角（＋５）△７一玉（＋２）…
…（１−３．以下の評価手順）
ただし、先手▲、後手△、盤上の座標と移動した駒を”ｘｙ駒”、その時点の局面の評価値『ｑ_ｉ』を”（）”内の数字で表す。

図７（ｃ）及び（ｄ）では次の着手において、「どこの位置に注目して着手する手が有力なのか」が色の濃淡で表されている。図７（ｃ）では一手先の状況を考慮して、注視すべき情報として（２二，６六，４八）の３つの候補手のマスの位置を濃く表示している。プレイヤーはこれを手掛かりに複数の候補手の中から着手を検討する。濃淡によって重要度の軽重が示されているので、プレイヤーは、もっとも濃い位置以外のマスの部分も候補手外の手も検討の基準として用いることができる。

また、図７（ｄ）ではさらに相手の手を含む数手の情報が示されている。図７（ｄ）ではｉ＝３、つまり三手先まで考慮した場合の表示となる。図７（ｃ）と同様だが色の濃淡により重要度と着手の連続性の情報を同時に示唆することが可能となっており、この手数の長さをより長くすることで相手の読みの深さを調整することが可能である。一手目で注目すべき位置となっていた手から予想される手（例△４八玉〜▲６二玉〜△２二玉）の部分がより強く表示されており、それ以外の部分は段階的に薄くなっている。

図７（ｅ）ではさらに５手目まで考慮した場合の表示であり、現在の局面からでは見えづらいパターン等も表示されている。

このように考慮する手数を伸ばしていくと、相手が考慮する手順も同時に増えるため、プレイヤーの理解度に応じて変化させることで難易度や補助の度合いの調整等に利用可能である。

（Ｂ）考慮手数（５）で継続した場合
仮想局面を図７（ａ）に示す。従来の機械学習計算によって候補手順１，２，３…と各評価値『ｑ_ｉ』が求められているものとする。（９）式より、ｇ（ｘ）を（１０）式の形で置き、一手先の注視点情報を盤面上の色の濃さとして出力を求めた場合、プレイヤー視点では図７（ｃ）〜図７（ｅ）のように表現される。

以上、本実施形態によれば、現在の局面から複数の手順情報を含めた注視点情報を導出することが可能であり、従来学習の補助情報としては問題のあった推奨手順の直接表示や次の一手候補の表示を用いることなく、プレイヤーにどこに注目すればよいかの思考補助情報を提示することができる。この結果、注視点情報により手順を示すことなく複数の候補手順を踏まえた思考補助情報を提供することができる。

以上、情報処理装置、ゲーム制御プログラム及びゲーム制御方法を上記実施形態により説明したが、本発明に係る情報処理装置、ゲーム制御プログラム及びゲーム制御方法は上記実施形態に限定されるものではなく、本発明の範囲内で種々の変形及び改良が可能である。また、上記実施形態及び変形例が複数存在する場合、矛盾しない範囲で組み合わせることができる。

例えば、取り得る次のプレイのすべてについて評価値を算出し、算出した評価値から注視点情報『Ｐ』を算出してもよい。しかしながら、これに限らず、取り得る次のプレイのうちの一部であり、かつ複数の取り得る次のプレイについて評価値を算出し、算出した評価値から注視点情報『Ｐ』を算出してもよい。

以上の説明に関し、更に以下の項を開示する。
（付記１）
所定の順序のターン毎にプレイするターン制ゲームの現在の局面の評価値を算出し、現在の局面から取り得る次のプレイに対する次の局面の評価値を、複数の前記取り得る次のプレイについて算出する算出部と、
算出した複数の前記取り得る次のプレイのそれぞれに対する、前記次の局面の評価値と前記現在の局面の評価値との差分に応じた情報を、複数の前記取り得る次のプレイのそれぞれにより移動する位置に、識別可能な態様で表示する表示部と、
を有する情報処理装置。
（付記２）
前記表示部は、算出した複数の前記取り得る次のプレイのそれぞれに対する、前記次の局面の評価値と前記現在の局面の評価値との差分に応じた情報を、複数の前記取り得る次のプレイのそれぞれにより移動する位置に、前記現在の局面に重畳して表示する、
付記１に記載の情報処理装置。
（付記３）
前記算出部は、第ｎ（ｎ≧１）局面の評価値と第（ｎ＋１）局面の評価値との差分から第ｎの期待評価値を算出することを、ｎの値を１ずつ加算して再帰的にＮ（Ｎ≧１）回繰り返し、
前記表示部は、前記Ｎ回繰り返して算出した第１〜第ｎの期待評価値の合計値に応じた情報を、識別可能な態様で表示する、
付記１又は２に記載の情報処理装置。
（付記４）
所定の順序のターン毎にプレイするターン制ゲームの現在の局面の評価値を算出し、現在の局面から取り得る次のプレイに対する次の局面の評価値を、複数の前記取り得る次のプレイについて算出し、
算出した複数の前記取り得る次のプレイのそれぞれに対する、前記次の局面の評価値と前記現在の局面の評価値との差分に応じた情報を、複数の前記取り得る次のプレイのそれぞれにより移動する位置に、識別可能な態様で表示する、
処理をコンピュータに実行させるためのゲーム制御プログラム。
（付記５）
算出した複数の前記取り得る次のプレイのそれぞれに対する、前記次の局面の評価値と前記現在の局面の評価値との差分に応じた情報を、複数の前記取り得る次のプレイのそれぞれにより移動する位置に、前記現在の局面情報に重畳して表示する、
付記４に記載のゲーム制御プログラム。
（付記６）
第ｎ（ｎ≧１）局面の評価値と第（ｎ＋１）局面の評価値との差分から第ｎの期待評価値を算出することを、ｎの値を１ずつ加算して再帰的にＮ（Ｎ≧１）回繰り返し、
前記Ｎ回繰り返して算出した第１〜第ｎの期待評価値の合計値に応じた情報を、識別可能な態様で表示する、
付記４又は５に記載のゲーム制御プログラム。
（付記７）
所定の順序のターン毎にプレイするターン制ゲームの現在の局面の評価値を算出し、現在の局面から取り得る次のプレイに対する次の局面の評価値を、複数の前記取り得る次のプレイについて算出し、
算出した複数の前記取り得る次のプレイのそれぞれに対する、前記次の局面の評価値と前記現在の局面の評価値との差分に応じた情報を、複数の前記取り得る次のプレイのそれぞれにより移動する位置に、識別可能な態様で表示する、
ことをコンピュータが実行するゲーム制御方法。
（付記８）
算出した複数の前記取り得る次のプレイのそれぞれに対する、前記次の局面の評価値と前記現在の局面の評価値との差分に応じた情報を、複数の前記取り得る次のプレイのそれぞれにより移動する位置に、前記現在の局面情報に重畳して表示する、
付記７に記載のゲーム制御方法。
（付記９）
第ｎ（ｎ≧１）局面の評価値と第（ｎ＋１）局面の評価値との差分から第ｎの期待評価値を算出することを、ｎの値を１ずつ加算して再帰的にＮ（Ｎ≧１）回繰り返し、
前記Ｎ回繰り返して算出した第１〜第ｎの期待評価値の合計値に応じた情報を、識別可能な態様で表示する、
付記７又は８に記載のゲーム制御方法。

１０情報処理装置
１１入力部
１２記憶部
１４算出部
１５表示部
１６配置情報テーブル
１７評価関数ＤＢ
１８将棋ゲーム制御プログラム
ｆ（『ｖ』）評価関数
『ｑ』評価値
『ｐ』期待評価値
『Ｐ』注視点情報

Claims

所定の順序のターン毎にプレイするターン制ゲームの現在の局面の評価値を算出し、現在の局面から取り得る次のプレイに対する次の局面の評価値を、複数の前記取り得る次のプレイについて算出する算出部と、
算出した複数の前記取り得る次のプレイのそれぞれに対する、前記次の局面の評価値と前記現在の局面の評価値との差分に応じた情報を、複数の前記取り得る次のプレイのそれぞれにより移動する位置に、識別可能な態様で表示する表示部と、
を有する情報処理装置。
前記表示部は、算出した複数の前記取り得る次のプレイのそれぞれに対する、前記次の局面の評価値と前記現在の局面の評価値との差分に応じた情報を、複数の前記取り得る次のプレイのそれぞれにより移動する位置に、前記現在の局面情報に重畳して表示する、
請求項１に記載の情報処理装置。
前記算出部は、第ｎ（ｎ≧１）局面の評価値と第（ｎ＋１）局面の評価値との差分から第ｎの期待評価値を算出することを、ｎの値を１ずつ加算して再帰的にＮ（Ｎ≧１）回繰り返し、
前記表示部は、前記Ｎ回繰り返して算出した第１〜第ｎの期待評価値の合計値に応じた情報を、識別可能な態様で表示する、
請求項１又は２に記載の情報処理装置。
所定の順序のターン毎にプレイするターン制ゲームの現在の局面の評価値を算出し、現在の局面から取り得る次のプレイに対する次の局面の評価値を、複数の前記取り得る次のプレイについて算出し、
算出した複数の前記取り得る次のプレイのそれぞれに対する、前記次の局面の評価値と前記現在の局面の評価値との差分に応じた情報を、複数の前記取り得る次のプレイのそれぞれにより移動する位置に、識別可能な態様で表示する、
処理をコンピュータに実行させるためのゲーム制御プログラム。
所定の順序のターン毎にプレイするターン制ゲームの現在の局面の評価値を算出し、現在の局面から取り得る次のプレイに対する次の局面の評価値を、複数の前記取り得る次のプレイについて算出し、
算出した複数の前記取り得る次のプレイのそれぞれに対する、前記次の局面の評価値と前記現在の局面の評価値との差分に応じた情報を、複数の前記取り得る次のプレイのそれぞれにより移動する位置に、識別可能な態様で表示する、
ことをコンピュータが実行するゲーム制御方法。