JP7065912B2

JP7065912B2 - ディープラーニングに基づく囲碁ゲームサービスシステム及びサービス方法

Info

Publication number: JP7065912B2
Application number: JP2020121161A
Authority: JP
Inventors: イ，ジュンヨプ; ハンパク，グン; ウンパク，チュ; ヒュンキム，チュン
Original assignee: NHN Corp; NHN Entertainment Corp
Current assignee: NHN Corp
Priority date: 2019-07-15
Filing date: 2020-07-15
Publication date: 2022-05-12
Anticipated expiration: 2040-07-15
Also published as: KR20210008757A; KR102299140B1; JP2021013750A

Description

本発明は、ディープラーニングに基づいて囲碁ゲームサービスを提供するシステム及びその方法に関するものである。より詳細には、ディープラーニングニューラルネットワークに基づいて囲碁形勢を判断し、囲碁ゲームプレイの際の特定気質や方式を表す棋風を活用する囲碁ゲームサービス提供方法及びそのサービスシステムに関するものである。

スマートフォン、タブレットＰＣ、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ノートブックなどのようなユーザ端末の利用が大衆化され、情報処理技術が発達するにつれて、ユーザ端末を利用してボードゲームの一種である囲碁を打つことができるようになり、さらに、人でないプログラムされた人工知能コンピュータと囲碁対局が可能なようになった。

囲碁は、チェスや将棋のようなボードゲームに比べて場合の数が多く、人工知能コンピュータが人の水準の対局をするのには限界があった。このような限界を克服するために、人工知能コンピュータの棋力を高めるための研究が活発に進まれている。最近、開発者らは、人工知能コンピュータにモンテカルロ木探索（ＭｏｎｔｅＣａｒｌｏＴｒｅｅＳｅａｒｃｈ；ＭＣＴＳ）アルゴリズムとディープラーニング技術とを適用して人工知能コンピュータの棋力をプロ棋士たちの水準以上に上げた。

しかしながら、一般的に既存の囲碁ＡＩプログラムは、単に勝つ方法だけを学習するようになって開発されたため、プレイヤ（ｐｌａｙｅｒ）とゲーム相手（ｏｐｐｏｎｅｎｔ）との間の点数差を考慮した着手には困難がある。すなわち、既存の囲碁ＡＩプログラムは、囲碁ゲームプレイの際、後半部へ行くほど、次第に点数差が縮まるようになり、非常に少ない点数差にて勝利する傾向（防御的な性向）が目立つという問題がある。

また、既存の囲碁ＡＩプログラムは、実際、囲碁ゲームプレイの際に実現されるプレイヤの特定気質や方式である棋風を実現するのに困難がある。ここで、棋風とは、囲碁や将棋のようなゲーム進行の際に現れる独特のプレイ方式や気質を意味する。すなわち、既存の囲碁ＡＩプログラムは、勝つように学習されて一貫的なプレイ方式だけで実現されることにより、様々な棋風で囲碁ゲームをプレイするのに限界がある。

さらに、人工知能コンピュータとの効果的な囲碁対局のためには、プレイヤのニーズ（ｎｅｅｄｓ）または能力値によって精密にゲーム難易度を調節する必要があるが、これを実現するための技術が足りず、新しい技術導入が必要な実情である。

大韓民国公開特許公報第１０－２０１５－０１２９２６５号

本発明は、前述した問題点を解決するために案出されたディープラーニングに基づいて囲碁ゲームサービスを提供するシステム及びサービス方法に関するものである。より詳細には、ディープラーニングニューラルネットワークに基づいて囲碁形勢を判断し、囲碁ゲームプレイの際の特定気質や方式を表す棋風を活用する囲碁ゲームサービスシステム及びサービス方法を提案しようとする。

具体的に、本発明は、囲碁規則による地、捨て石、石、駄目、関の予測に基づいて囲碁の形勢を判断して棋風を判断し、これを基に学習を行って囲碁ゲームプレイの際に棋風を適用した対局を進行するディープラーニングに基づく囲碁ゲームサービスシステム及びサービス方法を提供することをその目的とする。

ただし、本発明及び本発明の実施形態がなそうとする技術的課題は、上記したような技術的課題に限定されず、さらに他の技術的課題が存在しうる。

本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステムは、モンテカルロ木探索（ＭｏｎｔｅＣａｒｌｏＴｒｅｅＳｅａｒｃｈ；ＭＣＴＳ）に基づいて現在碁盤状態に基づいた２つ以上の着手候補手を含む第１の着手候補手情報を提供する着手モデルサーバと、前記第１の着手候補手情報の提供を受けて各着手候補手に対する棋風判断情報と前記棋風判断情報に基づいて棋風学習データを生成する形勢判断モデルサーバとを備え、前記形勢判断モデルサーバは、前記第１の着手候補手情報を受信したり、棋風学習データを送信する通信部と、前記第１の着手候補手情報に基づいて現在碁盤状態に対する形勢判断に関連した形勢値を生成する形勢判断モデルと前記形勢判断モデルが生成した形勢値に基づいて特定着手候補手に基づいた棋風を判断する棋風判断部を備える格納部と、前記形勢判断モデルを読み込んで現在碁盤状態の形勢で前記第１の着手候補手情報に対する形勢判断をし、前記形勢判断モデルによる形勢判断に基づいて前記第１の着手候補手情報の着手候補手に対するそれぞれの棋風判断情報を生成するプロセッサとを備え、前記形勢判断モデルは、前記形勢値に基づいて囲碁ゲームのプレイヤとゲーム相手に予測される確定地情報を算出できる。

また、前記棋風判断部は、前記形勢値と所定の閾値及び石の有無を利用してプレイヤとゲーム相手との地領域を判断して前記確定地情報を生成し、前記棋風判断部は、着手モデルが学習しようとする棋風を決定する目標棋風情報を設定できる。

また、前記棋風判断部は、前記着手候補手と前記目標棋風情報とに基づいて前記棋風判断情報を生成し、前記確定地情報に基づいてプレイヤの点数値とゲーム相手の点数値とを算出し、前記算出されたプレイヤの点数値とゲーム相手の点数値とに基づいて点数差値を生成し、前記棋風判断部は、前記形勢判断モデルで算出された確定地情報に基づいて前記プレイヤとゲーム相手の各々に対する点数値と、前記プレイヤの点数値と前記ゲーム相手の点数値との差値を算出し、前記算出された差値と予め設定された棋風判断閾値と比較して棋風判断情報を生成できる。

また、前記棋風判断部は、前記棋風判断情報に基づいて着手モデルの自家学習を補助する棋風学習データを生成し、前記棋風判断部は、前記棋風学習データに基づいて着手モデルから取得される棋風学習性能情報を基にして前記棋風判断閾値を調整できる。

また、前記着手モデルサーバは、前記第１の着手候補手情報と前記棋風学習データとを送受信する通信部と、前記棋風学習データに基づいて２つ以上の着手候補手を含む第２の着手候補手情報を生成するための学習を行う着手モデルを含む格納部と、前記着手モデルを読み込んで前記着手モデルの学習実行と現在碁盤状態に基づいた前記第２の着手候補手情報を生成するプロセッサとをさらに備えることができる。

また、前記着手モデルは、モンテカルロ木探索（ＭｏｎｔｅＣａｒｌｏＴｒｅｅＳｅａｒｃｈ；ＭＣＴＳ）に基づいて前記着手候補手を提供する探索部と、前記探索部をガイドする着手ニューラルネットワークと、セルフプレイを行って前記着手ニューラルネットワークが自家学習されるようにするセルフプレイ部と、前記棋風学習データに基づいた前記自家学習を補助する棋風学習補助部とを備え、前記セルフプレイ部は、前記棋風学習データを基に学習された上位バージョン着手モデルと下位バージョン着手モデルとの間の囲碁ゲームを行うことができる。

また、前記棋風学習補助部は、前記自家学習の結果に基づいて棋風判断情報を診断した情報である棋風学習性能情報を生成できる。

一方、本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、通信部、形勢判断モデル、及び棋風判断部が格納された格納部、前記形勢判断モデル及び前記棋風判断部を駆動するプロセッサを備える形勢判断モデルサーバにより碁盤状態の形勢を判断して棋風を判断し、棋風学習データを生成するディープラーニングに基づく囲碁ゲームサービス方法において、前記プロセッサが目標棋風情報を設定するステップと、前記棋風判断部が棋風判断閾値を設定するステップと、前記通信部が碁盤状態に基づいた２つ以上の着手候補手を取得するステップと、前記プロセッサが前記形勢判断モデルを用いて前記着手候補手が適用された碁盤状態の形勢を判断するステップと、前記プロセッサが前記棋風判断部を利用して前記判断された形勢に基づいて前記着手候補手の各々に対する点数差値を算出するステップと、前記プロセッサが前記棋風判断部を利用して前記算出された点数差値と前記棋風判断閾値とに基づいて前記着手候補手の各々に対する棋風判断情報を生成するステップと、前記通信部が前記生成された棋風判断情報と前記目標棋風情報とに基づいて前記着手候補手の各々に対する前記棋風学習データを生成して送信するステップとを含むことができる。

また、前記棋風判断情報は、前記着手候補手の着手によって実現される棋風のカテゴリを判断した情報でありうる。

また、本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、着手モデルサーバから棋風学習性能情報を受信するステップをさらに含み、前記棋風学習性能情報は、前記着手モデルサーバが前記棋風学習データに基づいて前記棋風判断情報を診断した情報でありうる。

また、前記棋風学習性能情報に基づいて前記棋風判断閾値を調整するステップをさらに含むことができる。

また、前記点数差値を算出するステップは、前記着手候補手の各々に対する形勢判断に基づいて形勢値を導出してプレイヤの地の数とゲーム相手の地の数とを算出した情報である確定地情報を生成するステップと、前記確定地情報に基づいてプレイヤの点数値とゲーム相手の点数値とを算出して前記点数差値を生成するステップとを含むことができる。

また、前記棋風のカテゴリは、攻撃的棋風、安定的棋風、及び防御的棋風を含み、前記攻撃的棋風は、前記点数差値が前記棋風判断閾値より大きい場合であり、前記安定的棋風は、前記点数差値が前記棋風判断閾値と同じ場合であり、前記防御的棋風は、前記点数差値が前記棋風判断閾値より小さい場合でありうる。

本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステム及びサービス方法は、囲碁規則による地、捨て石、石、駄目、関を正確に区分して囲碁の形勢を予測することにより、囲碁の形勢及び特定着手点に対する棋風を正確に判断できるという効果がある。

また、本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステム及びサービス方法は、囲碁ゲームプレイの際に様々な棋風に基づいて対局の進行を図ることにより、多角化されたプレイ方式に基づいて囲碁対局を行うことができ、精密に対局難易度を調節でき、これを通じて囲碁ゲームのクオリティ及び興味を増進させることができるという効果がある。

また、本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステム及びサービス方法は、プレイヤとゲーム相手との間の点数差に基づいて棋風を判断し、これに基づいた対局を行うことにより、単に勝つことだけでなく、点数の差まで考慮した囲碁ゲームプレイを行うことができるという効果がある。

また、本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステム及びサービス方法は、目標とする特定棋風に最適化された学習が行われるように動作することで、棋風を実現するための学習を効率的かつ体系的に実現することができるという効果がある。

ただし、本発明において得ることができる効果は、以上で言及した効果等に制限されず、言及していないさらに他の効果等は、下記の記載から明確に理解されることができる。

本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステムに対する例示図である。本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービスにおいて人工知能コンピュータの着手のための着手モデルサーバの着手モデル構造を説明するための図である。着手モデルの政策による着手点に対する移動確率分布を説明するための図である。着手モデルの着手点に対する価値と訪問回数を説明するための図である。着手モデルが探索部のパイプラインに沿って着手する過程を説明するための図である。本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービスの形勢判断機能を提供する画面を見せる例示図である。本発明の形勢判断モデルサーバの形勢判断モデル構造を説明するための図である。本発明の形勢判断モデルの複数のブロックからなるニューラルネットワーク構造のうち、１つのブロックを説明するための図である。本発明の形勢判断モデルを学習するために使用される正解ラベルを生成するための第１及び第２の前処理ステップを説明するための図である。本発明の形勢判断モデルを学習するために使用される正解ラベルを生成するための第１及び第２の前処理ステップを説明するための図である。本発明の形勢判断モデルを学習するために使用される正解ラベルを生成するための第３の前処理ステップを説明するための図である。本発明の形勢判断モデルの形勢判断結果を説明するための図である。本発明の形勢判断モデルの形勢判断結果と従来技術に係るディープラーニングモデルによる形勢判断結果とを比較した形状である。本発明の形勢判断モデルの形勢判断結果と従来技術に係るディープラーニングモデルによる形勢判断結果とを比較した形状である。本発明の形勢判断モデルの形勢判断結果と従来技術に係るディープラーニングモデルによる形勢判断結果とを比較した形状である。本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステムにおける信号フローに対する例示図である。本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法のうち、形勢判断方法である。図１７の形勢判断方法のうち、正解ラベルを生成するためのトレーニングデータの前処理方法である。本発明の形勢判断モデルサーバの棋風判断部構造を説明するための図である。本発明の実施形態に係るディープラーニングニューラルネットワークに基づいて囲碁形勢を判断し、囲碁ゲームプレイの際の特定気質や方式を表す棋風を活用する方法を説明するためのフローチャートである。本発明の実施形態に係る囲碁形勢を判断し、囲碁ゲームプレイの際の棋風を活用する方法を説明するための概念図である。本発明の実施形態に係る着手候補手情報の各々に対する棋風判断情報を生成する方法を説明するための図である。本発明の他の実施形態に係る囲碁形勢を判断し、囲碁ゲームプレイの際の棋風を活用する方法を説明するための概念図である。

本発明は、様々な変換を加えることができ、種々の実施形態を有することができるところ、特定の実施形態を図面に例示し、詳細な説明に詳しく説明しようとする。本発明の効果及び特徴、そして、それらを達成する方法は、図面とともに詳しく後述されている実施形態を参照すれば明確になるであろう。しかし、本発明は、以下において開示される実施形態等に限定されるものではなく、様々な形態で実現されることができる。以下の実施形態において、第１、第２などの用語は、限定的な意味ではなく、１つの構成要素を他の構成要素と区別する目的として使用された。また、単数の表現は、文脈上、明白に異なるように意味しない限り、複数の表現を含む。また、「含む」または「有する」などの用語は、明細書上に記載された特徴または構成要素が存在することを意味するものであり、１つ以上の他の特徴または構成要素が付加される可能性を予め排除するものではない。また、図面では、説明の都合上、構成要素等が、そのサイズが誇張または縮小され得る。例えば、図面に示された各構成のサイズ及び厚さは、説明の都合上、任意に示したので、本発明が必ずしも図示されたところに限定されない。

以下、添付された図面を参照して本発明の実施形態を詳しく説明し、図面を参照して説明するとき、同一であるか、対応する構成要素は同様の図面符号を付し、これについての重複する説明を省略する。

図１は、本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステムに対する例示図である。

図１に示すように、実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステムは、端末機１００、囲碁サーバ２００、着手モデルサーバ３００、形勢判断モデルサーバ４００、及びネットワーク５００を備えることができる。

図１の各構成要素は、ネットワーク５００を介して連結されることができる。端末機１００、囲碁サーバ２００、着手モデルサーバ３００、及び形勢判断モデルサーバ４００などのようなそれぞれのノード相互間に情報交換が可能な連結構造を意味するものであって、このようなネットワークの一例には、３ＧＰＰ（３ｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ）ネットワーク、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）ネットワーク、ＷＩＭＡＸ（ＷｏｒｌｄＩｎｔｅｒｏｐｅｒａｂｉｌｉｔｙｆｏｒＭｉｃｒｏｗａｖｅＡｃｃｅｓｓ）ネットワーク、インターネット（Ｉｎｔｅｒｎｅｔ）、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷｉｒｅｌｅｓｓＬＡＮ（ＷｉｒｅｌｅｓｓＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、ＰＡＮ（ＰｅｒｓｏｎａｌＡｒｅａＮｅｔｗｏｒｋ）、ブルートゥース（登録商標）（Ｂｌｕｅｔｏｏｔｈ）ネットワーク、衛星放送ネットワーク、アナログ放送ネットワーク、ＤＭＢ（ＤｉｇｉｔａｌＭｕｌｔｉｍｅｄｉａＢｒｏａｄｃａｓｔｉｎｇ）ネットワークなどが含まれるが、これに限定されるものではない。

・端末機
まず、端末機１００は、囲碁ゲームサービスの提供を受けようとするユーザの端末機である。また、端末機１００は、様々な作業を行うアプリケーションを実行するためにユーザが使用する１つ以上のコンピュータまたは他の電子装置である。例えば、コンピュータ、ラップトップコンピュータ、スマートフォン、モバイル電話機、ＰＤＡ、タブレットＰＣ、あるいは囲碁サーバ２００と通信するように動作可能な任意の他のデバイスを備える。ただし、これに限定されるものではなく、端末機１００は、様々なマシン上で実行され、複数のメモリ内に格納された命令語を解釈して実行するプロセッシングロジックを備え、外部入力／出力デバイス上にグラフィックユーザインターフェース（ＧＵＩ）のためのグラフィック情報をディスプレイするプロセスなどのように、様々なその他の要素を含むことができる。さらに、端末機１００は、入力装置（例えば、マウス、キーボード、タッチ感知表面等）及び出力装置（例えば、ディスプレイ装置、モニタ、スクリーン等）に接続されることができる。端末機１００により実行されるアプリケーションは、ゲームアプリケーション、ウェブブラウザ、ウェブブラウザで動作するウェブアプリケーション、ワードプロセッサ、メディアプレイヤ、スプレッドシート、イメージプロセッサ、保安ソフトウェア、またはその他のものを含むことができる。

また、端末機１００は、命令を格納する少なくとも１つのメモリ１０１、少なくとも１つのプロセッサ１０２、及び通信部１０３を備えることができる。

端末機１００のメモリ１０１は、端末機１００で駆動される複数の応用プログラム（ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍ）またはアプリケーション（ａｐｐｌｉｃａｔｉｏｎ）、端末機１００の動作のためのデータ、命令語を格納することができる。命令は、プロセッサ１０２をして動作を実行させるためにプロセッサ１０２により実行可能であり、動作は、囲碁ゲーム実行要請信号を送信、ゲームデータ送受信、着手情報送受信、形勢判断要請信号を送信、形勢判断結果受信、及び各種情報を受信する動作を含むことができる。また、メモリ１０１は、ハードウェア的に、ＲＯＭ、ＲＡＭ、ＥＰＲＯＭ、フラッシュドライブ、ハードドライブなどのような様々な格納機器でありうるし、メモリ１０１は、インターネット（ｉｎｔｅｒｎｅｔ）上で上記メモリ１０１の格納機能を果たすウェブストレージ（ｗｅｂｓｔｏｒａｇｅ）でありうる。

端末機１００のプロセッサ１０２は、全般的な動作を制御して囲碁ゲームサービスの提供を受けるためのデータ処理を行うことができる。端末機１００で囲碁ゲームアプリケーションが実行されれば、端末機１００で囲碁ゲーム環境が構成される。そして、囲碁ゲームアプリケーションは、ネットワーク５００を介して囲碁サーバ２００と囲碁ゲームデータとを交換して端末機１００上で囲碁ゲームサービスが実行されるようにする。このようなプロセッサ１０２は、ＡＳＩＣｓ（ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔｓ）、ＤＳＰｓ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒｓ）、ＤＳＰＤｓ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇｄｅｖｉｃｅｓ）、ＰＬＤｓ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅｓ）、ＦＰＧＡｓ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙｓ）、制御機（ｃｏｎｔｒｏｌｌｅｒｓ）、マイクロコントローラ（ｍｉｃｒｏ－ｃｏｎｔｒｏｌｌｅｒｓ）、マイクロプロセッサ（ｍｉｃｒｏｐｒｏｃｅｓｓｏｒｓ）、その他の機能実行のための任意の形態のプロセッサでありうる。

端末機１００の通信部１０３は、下記の通信方式（例えば、ＧＳＭ（ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ）、ＣＤＭＡ（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉＡｃｃｅｓｓ）、ＨＳＤＰＡ（ＨｉｇｈＳｐｅｅｄＤｏｗｎｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ）、ＨＳＵＰＡ（ＨｉｇｈＳｐｅｅｄＵｐｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ）、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、ＬＴＥ－Ａ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ－Ａｄｖａｎｃｅｄ）等）、ＷＬＡＮ（ＷｉｒｅｌｅｓｓＬＡＮ）、Ｗｉ－Ｆｉ（Ｗｉｒｅｌｅｓｓ－Ｆｉｄｅｌｉｔｙ）、Ｗｉ－Ｆｉ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）Ｄｉｒｅｃｔ、ＤＬＮＡ（登録商標）（ＤｉｇｉｔａｌＬｉｖｉｎｇＮｅｔｗｏｒｋＡｌｌｉａｎｃｅ）、ＷｉＢｒｏ（ＷｉｒｅｌｅｓｓＢｒｏａｄｂａｎｄ）、ＷｉＭＡＸ（ＷｏｒｌｄＩｎｔｅｒｏｐｅｒａｂｉｌｉｔｙｆｏｒＭｉｃｒｏｗａｖｅＡｃｃｅｓｓ）によって構築されたネットワーク網上で基地局、外部の端末、サーバのうち、少なくとも１つと無線信号を送受信できる。

・囲碁サーバ
囲碁サーバ２００が提供する囲碁ゲームサービスは、囲碁サーバ２００が提供する仮像のコンピュータユーザと実際ユーザとが共にゲームに参加する形態で構成されることができる。これは、ユーザ側端末機１００上で実現される囲碁ゲーム環境で１つの実際ユーザと１つのコンピュータユーザとが共にゲームをプレイする。他の側面において、囲碁サーバ２００が提供する囲碁ゲームサービスは、複数のユーザ側デバイスが参加して囲碁ゲームがプレイされる形態で構成されることもできる。

囲碁サーバ２００は、命令を格納する少なくとも１つのメモリ２０１、少なくとも１つのプロセッサ２０２、及び通信部２０３を備えることができる。

囲碁サーバ２００のメモリ２０１は、囲碁サーバ２００で駆動される複数の応用プログラム（ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍ）またはアプリケーション（ａｐｐｌｉｃａｔｉｏｎ）、囲碁サーバ２００の動作のためのデータ、命令語を格納することができる。命令は、プロセッサ２０２をして動作を実行させるためにプロセッサ２０２により実行可能であり、動作は、ゲーム実行要請信号受信、ゲームデータ送受信、着手情報送受信、形勢判断要請信号送受信、形勢判断結果送受信、及び各種送信動作を含むことができる。また、メモリ２０１は、囲碁サーバ２００で対局した複数の棋譜または既存に公開された複数の棋譜を格納することができる。複数の棋譜の各々は、対局開始の初めの着手情報である第１の着手から対局が終了される最終着手までの情報を全て含むことができる。すなわち、複数の棋譜は、着手に関するヒストリー情報を含むことができる。囲碁サーバ２００は、形勢判断モデルサーバ４００のトレーニングのために、格納された複数の棋譜を形勢判断モデルサーバ４００に提供できるようにする。また、メモリ２０１は、ハードウェア的に、ＲＯＭ、ＲＡＭ、ＥＰＲＯＭ、フラッシュドライブ、ハードドライブなどのような様々な格納機器でありうるし、メモリ２０１は、インターネット（ｉｎｔｅｒｎｅｔ）上で上記メモリ２０１の格納機能を果たすウェブストレージ（ｗｅｂｓｔｏｒａｇｅ）でありうる。

囲碁サーバ２００のプロセッサ２０２は、全般的な動作を制御して囲碁ゲームサービスを提供するためのデータ処理を行うことができる。このようなプロセッサ２０２は、ＡＳＩＣｓ（ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔｓ）、ＤＳＰｓ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒｓ）、ＤＳＰＤｓ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇｄｅｖｉｃｅｓ）、ＰＬＤｓ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅｓ）、ＦＰＧＡｓ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙｓ）、制御機（ｃｏｎｔｒｏｌｌｅｒｓ）、マイクロコントローラ（ｍｉｃｒｏ－ｃｏｎｔｒｏｌｌｅｒｓ）、マイクロプロセッサ（ｍｉｃｒｏｐｒｏｃｅｓｓｏｒｓ）、その他の機能実行のための任意の形態のプロセッサでありうる。

囲碁サーバ２００は、通信部２０３を介してネットワーク５００を経由して端末機１００、着手モデルサーバ３００、及び形勢判断モデルサーバ４００と通信を行うことができる。

・着手モデルサーバ
着手モデルサーバ３００は、別のクラウドサーバやコンピュータ装置を備えることができる。また、着手モデルサーバ３００は、端末機１００のプロセッサまたは囲碁サーバ２００のデータ処理部に設けられたニューラルネットワークシステムでありうるが、以下において着手モデルサーバ３００は、端末機１００または囲碁サーバ２００とは別の装置として説明する。

着手モデルサーバ３００は、命令を格納する少なくとも１つのメモリ３０１、少なくとも１つのプロセッサ３０２、及び通信部３０３を備えることができる。

着手モデルサーバ３００は、囲碁規則によって自ら学習してディープラーニングモデルである着手モデルを構築し、端末機１００のユーザと対局が可能な人工知能コンピュータであって、自分のターンにおいて対局で勝つことができるように碁石の着手を行うことができる。着手モデルサーバ３００が着手モデルでトレーニングする詳しい説明は、図２～図５の着手モデルに関する説明にしたがう。

着手モデルサーバ３００のメモリ３０１は、着手モデルサーバ３００で駆動される複数の応用プログラム（ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍ）またはアプリケーション（ａｐｐｌｉｃａｔｉｏｎ）、着手モデルサーバ３００の動作のためのデータ、命令語を格納することができる。命令は、プロセッサ３０２をして動作を実行させるためにプロセッサ３０２により実行可能であり、動作は、着手モデル学習（トレーニング）動作、着手情報送受信、及び各種送信動作を含むことができる。また、メモリ３０１は、ディープラーニングモデルである着手モデルを格納することができる。また、メモリ３０１は、ハードウェア的に、ＲＯＭ、ＲＡＭ、ＥＰＲＯＭ、フラッシュドライブ、ハードドライブなどのような様々な格納機器でありうるし、メモリ３０１は、インターネット（ｉｎｔｅｒｎｅｔ）上で上記メモリ３０１の格納機能を果たすウェブストレージ（ｗｅｂｓｔｏｒａｇｅ）でありうる。

着手モデルサーバ３００のプロセッサ３０２は、メモリ３０２に格納された着手モデルを読み出して、構築されたニューラルネットワークシステムにしたがって下記に記述する着手モデル学習及び碁石着手を行うようになる。実施形態として、着手モデルサーバ３００のプロセッサ３０２は、特定碁盤状態Ｓで最高の手であると判断される特定着手点を少なくとも２つ以上予測して導出することができる。また、プロセッサ３０２は、導出された少なくとも２つ以上の特定着手点を形勢判断モデルサーバ４００に送信することができる。また、着手モデルサーバ３００のプロセッサ３０２は、着手モデルを所定の特定棋風にて学習させるセルフプレイ（ｓｅｌｆ－ｐｌａｙ）学習を行うことができる。また、プロセッサ３０２は、セルフプレイ学習を介して棋風が正しく学習及び判断されたか否かの性能を診断できる。

一方、実施形態によってプロセッサ３０２は、全体ユニットを制御するメインプロセッサと、着手モデルによってニューラルネットワーク駆動の際に必要な大容量の演算を処理する複数のグラフィックプロセッサ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＧＰＵ）とを備えるように構成されることができる。

着手モデルサーバ３００は、通信部３０３を介してネットワーク５００を経由して囲碁サーバ２００と通信を行うことができる。さらに、着手モデルサーバ３００は、ネットワーク５００を経由して形勢判断モデルサーバ４００及び端末機１００とも通信を行うことができる。

・形勢判断モデルサーバ
形勢判断モデルサーバ４００は、別のクラウドサーバやコンピュータ装置を備えることができる。また、形勢判断モデルサーバ４００は、端末機１００のプロセッサまたは囲碁サーバ２００のデータ処理部に設けられたニューラルネットワークシステムでありうるが、以下において形勢判断モデルサーバ４００は、端末機１００または囲碁サーバ２００とは別の装置として説明する。

形勢判断モデルサーバ４００は、命令を格納する少なくとも１つのメモリ４０１、少なくとも１つのプロセッサ４０２、及び通信部４０３を備えることができる。

形勢判断モデルサーバ４００は、通信部４０３を介して囲碁サーバ２００からトレーニングデータセットを受信できる。トレーニングデータセットは、複数の棋譜と、当該複数の棋譜に対する形勢判断情報でありうる。形勢判断モデルサーバ４００は、受信したトレーニングデータセットを用いて碁石が置かれた碁盤の状態に対する形勢を判断できるように指導学習してディープラーニングモデルである形勢判断モデルを構築し、端末機１００ユーザの形勢判断要請に応じて形勢判断を行うことができる。形勢判断モデルサーバ４００が形勢判断モデルでトレーニングする詳しい説明は、図６～図１８の形勢判断モデルに関する説明にしたがう。

形勢判断モデルサーバ４００のメモリ４０１は、形勢判断モデルサーバ４００で駆動される複数の応用プログラム（ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍ）またはアプリケーション（ａｐｐｌｉｃａｔｉｏｎ）、形勢判断モデルサーバ４００の動作のためのデータ、命令語を格納することができる。命令は、プロセッサ４０２をして動作を実行させるためにプロセッサ４０２により実行可能であり、動作は、形勢判断モデル学習（トレーニング）動作、形勢判断実行、形勢判断結果送信、複数の棋譜情報受信、及び各種送信動作を含むことができる。また、図１９に示すように、実施形態においてメモリ４０１は、ディープラーニングモデルである形勢判断モデル４００ａと、ディープラーニングニューラルネットワークに基づいて囲碁形勢を判断し、学習して囲碁ゲームプレイの際、棋風を適用する一連の動作を実現するための棋風判断部４００ｂとを格納することができる。また、メモリ４０１は、ハードウェア的に、ＲＯＭ、ＲＡＭ、ＥＰＲＯＭ、フラッシュドライブ、ハードドライブなどのような様々な格納機器でありうるし、メモリ４０１は、インターネット（ｉｎｔｅｒｎｅｔ）上で上記メモリ４０１の格納機能を果たすウェブストレージ（ｗｅｂｓｔｏｒａｇｅ）でありうる。

形勢判断モデルサーバ４００のプロセッサ４０２は、メモリ４０１に格納された形勢判断モデル４００ａを読み込んだ後、構築されたニューラルネットワークシステムにしたがって下記に記述する形勢判断モデル４００ａ学習及び対局中、碁盤の形勢判断を行うようになる。そして、形勢判断モデルサーバ４００のプロセッサ４０２は、実行された形勢判断を基に囲碁の形勢及び特定着手点に対する棋風を判断できる。

具体的に、実施形態として、形勢判断モデルサーバ４００のプロセッサ４０２は、様々な棋風のうち、学習しようとする目標棋風を設定できる。また、プロセッサ４０２は、形勢判断を介して碁盤状態Ｓの形勢及び／又は特定着手点に対する棋風を判断するための所定の閾値を設定できる。また、形勢判断モデルサーバ４００のプロセッサ４０２は、着手モデルサーバ３００から導出された特定着手点が反映された特定碁盤状態Ｓに対する形勢判断を行い、当該特定着手点及び／又は当該特定碁盤状態Ｓに対する棋風を判断できる。また、プロセッサ４０２は、棋風を判断した情報を着手モデルサーバ３００に送信して囲碁ゲームプレイの際、棋風を適用するための着手モデルのセルフプレイ学習が効果的に行われるようにすることができる。また、形勢判断モデルサーバ４００のプロセッサ４０２は、棋風の判断が正しくなされたか否かの性能を確認し、これに基づいて棋風を判断するための所定の閾値を調整できる。

一方、実施形態によってプロセッサ４０２は、全体ユニットを制御するメインプロセッサと、形勢判断モデル４００ａによってニューラルネットワーク駆動の際に必要な大容量の演算を処理する複数のグラフィックプロセッサ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＧＰＵ）とを備えるように構成されることができる。

また、形勢判断モデルサーバ４００は、通信部４０３を介してネットワーク５００を経由して囲碁サーバ２００と通信を行うことができる。さらに、形勢判断モデルサーバ４００は、ネットワーク５００を経由して着手モデルサーバ３００及び端末機１００と通信を行うことができる。

・着手モデル
図２は、本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービスにおいて人工知能コンピュータの着手のための着手モデルサーバ３００の着手モデル構造を説明するための図であり、図３は、着手モデルの政策による着手点に対する移動確率分布を説明するための図であり、図４は、着手モデルの着手点に対する価値と訪問回数を説明するための図であり、図５は、着手モデルが探索部のパイプラインに沿って着手する過程を説明するための図である。

図２に示すように、本発明の実施形態に係る着手モデルは、着手モデルサーバ３００のディープラーニングモデルであって、探索部３１０、セルフプレイ部３２０、着手ニューラルネットワーク３３０、及び棋風学習補助部３４０を備えることができる。

着手モデルは、探索部３１０、セルフプレイ部３２０、着手ニューラルネットワーク３３０、及び棋風学習補助部３４０を用いて対局で勝つことができるように着手するモデルとして学習されることができ、囲碁対局を進行する際に特定気質や方式を表す棋風を活用できる。より具体的に、探索部３１０は、着手ニューラルネットワーク３３０のガイドによってモンテカルロ木探索（ＭｏｎｔｅＣａｒｌｏＴｒｅｅＳｅａｒｃｈ；ＭＣＴＳ）動作を行うことができる。ＭＣＴＳは、一種の意思決定のための体験的探索アルゴリズムである。すなわち、探索部３１０は、着手ニューラルネットワーク３３０が提供する移動確率値Ｐ及び／又は価値Ｖに基づいてＭＣＴＳを行うことができる。一例として、着手ニューラルネットワーク３３０によりガイドされた探索部３１０は、ＭＣＴＳを行って着手点等に対する確率分布値である探索確率値πを出力できる。セルフプレイ部３２０は、探索確率値πによって自ら囲碁対局をすることができる。セルフプレイ部３２０は、ゲームの勝敗が決定される時点まで自ら囲碁対局を進み、自家対局が終了されれば、碁盤状態Ｓ、探索確率値π、セルフプレイ価値Ｚを着手ニューラルネットワーク３３０に提供することができる。碁盤状態Ｓは、着手点等に碁石が置かれた状態である。セルフプレイ価値Ｚは、碁盤状態Ｓで自家対局したときの勝率値である。着手ニューラルネットワーク３３０は、移動確率値Ｐと価値Ｖを出力できる。移動確率値Ｐは、碁盤状態Ｓによって着手点等に対してどの着手点に着手することがゲームに勝つことができる良い手であるか数値として表した確率分布値である。価値Ｖは、当該着手点に着手時の勝率を表す。例えば、移動確率値Ｐが高い着手点が良い手でありうる。着手ニューラルネットワーク３３０は、移動確率値Ｐが探索確率値πと同一になるようにトレーニングされ、価値Ｖがセルフプレイ価値Ｚと同一になるようにトレーニングされることができる。その後、トレーニングされた着手ニューラルネットワーク３３０は、探索部３１０をガイドし、探索部３１０は、以前探索確率値πより良い手を探すようにＭＣＴＳを進行して新しい探索確率値πを出力させる。セルフプレイ部３２０は、新しい探索確率値πに基づいて碁盤状態Ｓによる新しいセルフプレイ価値Ｚを出力し、碁盤状態Ｓ、新しい探索確率値π、新しいセルフプレイ価値Ｚを着手ニューラルネットワーク３３０に提供することができる。着手ニューラルネットワーク３３０は、移動確率値Ｐと価値Ｖが新しい探索確率値πと新しいセルフプレイ価値Ｚで出力されるように再度トレーニングされることができる。すなわち、着手モデルは、このような過程を繰り返して、着手ニューラルネットワーク３３０が対局で勝つためのより良い着手点を探すようにトレーニングされることができる。一例として、着手モデルは、着手損失ｌを利用できる。着手損失ｌは、数式１のとおりである。

θは、ニューラルネットワークのパラメータであり、ｃは、非常に小さい定数である。

数式１の着手損失ｌにおいてｚ（セルフプレイ価値）とｖ（価値）とが同じになるようにすることは、平均二乗損失（ｍｅａｎｓｑｕａｒｅｌｏｓｓ）タームに該当し、πとｐ（移動確率値）とが同じになるようにすることは、クロスエントロピー損失（ｃｒｏｓｓｅｎｔｒｏｐｙｌｏｓｓ）タームに該当し、θにｃをかけることは、正規化タームであって、オーバーフィッティングを防止するためのものである。

例えば、図３に示すように、トレーニングされた着手モデルは、着手点等の移動確率値Ｐを図３のように確率分布値で表すことができる。図４に示すように、トレーニングされた着手モデルの価値Ｖは、図４の１つの着手点において上に表示された値で表すことができる。着手ニューラルネットワーク３３０は、ニューラルネットワーク構造で構成されることができる。一例として、着手ニューラルネットワーク３３０は、１個のコンボリューション（ｃｏｎｖｏｌｕｔｉｏｎ）ブロックと１９個のレシデュアル（ｒｅｓｉｄｕａｌ）ブロックとで構成されることができる。コンボリューションブロックは、３×３コンボリューションレイヤが複数個重なった形態でありうる。１つのレシデュアルブロックは、３×３コンボリューションレイヤが複数個重なり、スキップコネクションを含んだ形態でありうる。スキップコネクションは、所定のレイヤの入力が当該レイヤの出力値と合わせられて出力され、他のレイヤに入力される構造である。また、着手ニューラルネットワーク３３０の入力は、黒プレイヤの最近の８手に対する石の位置情報と白プレイヤの最近の８手に対する石の位置情報と、現在プレイヤが黒であるか白であるかに対する順序情報を含んだ１９＊１９＊１７のＲＧＢイメージが入力され得る。

図５に示すように、学習された着手モデルは、自分の順序で着手ニューラルネットワーク３３０と探索部３１０を用いて着手することができる。着手モデルは、選択過程ａを介して現在第１碁盤状態Ｓ、Ｓ１でＭＣＴＳを介して探索しなかった枝である第２碁盤状態Ｓ、Ｓ１－２で活動関数Ｑと信頼値Ｕとが高い着手点を選択する。活動関数Ｑは、当該枝を通る度に算出された価値Ｖの平均値である。信頼値Ｕは、当該枝を通る訪問回数Ｎに比例する。着手モデルは、拡張と評価過程ｂを介して選択された着手点での第３碁盤状態Ｓ、Ｓ１－２－１に拡張し、移動確率値Ｐを算出できる。着手モデルは、バックアップ過程ｃを介して拡張された第３碁盤状態Ｓ、Ｓ１－２－１の価値を算出し、通った枝等の活動関数Ｑ、訪問回数Ｎ、移動確率値Ｐを格納することができる。着手モデルは、選択ａ、拡張及び評価ｂ、バックアップｃ過程を繰り返し、各着手点に対する訪問回数Ｎを用いて確率分布を作って探索確率値πを出力できる。着手モデルは、着手点等のうち、最も高い探索確率値πを選択でき、選択された探索確率値πを有する着手点を当該碁盤状態Ｓでの最高の手であると判断することができる。このとき、着手モデルは、探索確率値πに基づいて最高の手であると判断された着手点を着手候補手と設定することができる。すなわち、本発明の実施形態において着手候補手とは、特定碁盤状態Ｓに対して着手モデルにより予測された最高の着手点でありうる。このとき、着手モデルは、探索確率値πに基づいて最高の手であると判断された着手候補手を少なくとも２つ以上導出することができ、これに基づいて少なくとも２つ以上の着手候補手情報を生成できる。具体的に、着手モデルは、決定された着手候補手に基づいて当該着手候補手と関連した情報（例えば、碁盤上での位置情報等）を含む着手候補手情報を少なくとも２つ以上生成することができる。ここで、着手モデルが少なくとも２つ以上の着手候補手情報を生成するのは、複数の着手候補手に基づいて棋風を判断した結果を介して特定棋風に最適化された着手候補手を合理的に導出するためである。

このとき、着手モデルサーバ３００は、生成された着手候補手情報を形勢判断モデルサーバ４００に送信することができ、形勢判断モデルサーバ４００から棋風学習データを受信できる。ここで、棋風学習データは、着手モデルを任意の特定棋風に学習させるために、形勢判断モデルサーバ４００の棋風判断部４００ｂが形勢判断に基づいて特定棋風学習に適していると判断した少なくとも１つの着手候補手に対する情報でありうる。これについての詳細な説明は後述する。

また、着手モデルは、形勢判断モデルサーバ４００から取得される棋風学習データに基づいてセルフプレイ（ｓｅｌｆ－ｐｌａｙ）学習を行うことができる。具体的に、着手モデルは、セルフプレイ部を介して棋風学習データを基に学習された上位バージョン着手モデルと、学習以前の下位バージョン着手モデルとの間の囲碁ゲームプレイを行うことができる。すなわち、着手モデルは、棋風学習データに基づいた自家学習を行うことができ、これを通じて棋風学習データの性能を診断できる。ここで、棋風学習データの性能を診断するとは、当該棋風学習データが特定棋風を学習するにあたって適したデータであるかを判断することでありうる。

続いて、着手モデルは、セルフプレイ学習に基づいた棋風学習データの性能診断を介して棋風学習性能情報を生成できる。すなわち、棋風学習性能情報は、取得された棋風学習データに基づいた着手モデルの自家学習を介して、当該棋風学習データが特定棋風を学習するのに適したデータであるか、すなわち、特定着手候補手及び／又は碁盤状態Ｓに対する棋風が正しく判断されたかを診断した情報でありうる。そして、このとき、着手モデルサーバ３００は、生成された棋風学習性能情報を形勢判断モデルサーバ４００に送信することができる。すなわち、着手モデルは、特定棋風を学習するための学習データの適合性を確認し、これに対するフィードバックを提供することにより、特定着手候補手及び／又は碁盤状態Ｓに対する棋風判断の正確性を向上させることができる。

一方、着手モデルは、本発明の実施形態によって囲碁ゲームプレイの際、特定気質や方式を表す棋風を活用する囲碁ゲームサービスを提供するために、棋風学習補助部３４０を備えることができる。具体的に、棋風学習補助部３４０は、形勢判断モデルサーバ４００から棋風学習データを入力データに受信することができる。また、棋風学習補助部３４０は、入力データに受信された棋風学習データに基づいて着手モデルサーバ３００がセルフプレイ学習を行うようにセルフプレイ部３２０を制御できる。さらに、棋風学習補助部３４０は、着手モデルのセルフプレイ部を介してのセルフプレイ学習の結果を基に棋風学習性能情報を生成できる。すなわち、棋風学習補助部３４０は、棋風学習データに基づいた着手モデルの自家学習結果を介して、当該棋風学習データが所定の目標棋風を学習するのに適したデータであるか、すなわち、特定着手候補手及び／又は碁盤状態Ｓに対する棋風を形勢判断モデルサーバ４００で正しく判断したかを診断した棋風学習性能情報を生成できる。例えば、棋風学習補助部３４０は、棋風学習データが含む特定着手候補手に対するプレイヤとゲーム相手との間の点数差値と、セルフプレイを介して導出された特定着手候補手に対するプレイヤとゲーム相手との間の点数差値とを比較して棋風学習性能情報を生成できる。そして、棋風学習補助部３４０は、生成された棋風学習性能情報を形勢判断モデルサーバ４００に送信し、これに基づいた形勢判断モデルサーバ４００の棋風の判断のための閾値調整動作を行わせることができる。

より詳細な説明は、以下において記述されるディープラーニングに基づいて棋風を判断して活用する方法の詳細な説明で後述する。また、本実施形態では、棋風学習補助部３４０が着手モデルサーバ３００に含まれて動作することと説明するが、他の実施形態では、棋風学習補助部３４０が囲碁サーバ２００または形勢判断モデルサーバ４００に含まれるか、別の装置で実現されるなど、様々な実施形態も可能である。

・形勢判断モデル
図６は、本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービスの形勢判断機能を提供する画面を見せる例示図であり、図７は、本発明の形勢判断モデルサーバ４００の形勢判断モデル４００ａ構造を説明するための図であり、図８は、本発明の形勢判断モデル４００ａの複数のブロックからなるニューラルネットワーク構造のうち、１つのブロックを説明するための図である。

図６に示すように、本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービスは、現在碁盤状態Ｓの形勢判断をすることができる。一例として、図６のように、ユーザが端末機１００の画面で囲碁対局中、形勢判断メニュＡをクリックして形勢判断を要請すれば、ディープラーニングに基づく囲碁ゲームサービスがポップアップウィンドウに形勢判断結果を提供できる。形勢判断は、囲碁対局中に相手方と自分の地を計算して、誰が何点で勝っているのか判断することである。例えば、ユーザは、形勢が自分に有利であるという判断がつくと、それ以上無理せずに、現在の有利な状況をそのまま維持したまま対局を終了する方向に戦略を立てるはずであり、仮に、不利であるという判断であれば、ゲーム局面を新しく転換できるように様々な戦略を模索することができる。形勢判断の基準は、碁石が碁盤に配置された状態による地、捨て石、石、駄目、関になる。石は、碁盤に置かれた石であり、韓国の規則では点数ではない。地は、１つの色の碁石で囲まれた空いた点から構成された領域であって、韓国の規則では点数である。駄目と関は、囲碁が終わったとき、黒地でも白地でもない領域であって、韓国の規則では点数ではない。碁盤上の捨て石は、碁盤上に置かれた石のうち、どのように打っても捕まえるしかなく、死んだ石であって、韓国の規則では、相手方の地を埋めるのに使用するので点数である。関は、囲碁が終わったとき、黒地でも白地でもない領域をいう。したがって、形勢判断は、碁石が置かれた碁盤状態Ｓで地、捨て石、石、駄目、関を正確に区分または予測してこそ正確な判断になることができる。このとき、地、捨て石、石、駄目、関を正確に区分することは、地、捨て石、石、駄目、関が完全になされた状態を区分することであり、地、捨て石、石、駄目、関を正確に予測することは、地、捨て石、石、駄目、関になる可能性が高い状態を予測することでありうる。

図７に示すように、本発明の実施形態に係る形勢判断モデル４００ａは、形勢判断モデルサーバ４００のディープラーニングモデルであって、形勢判断ニューラルネットワーク４１０、入力特徴抽出部４２０、及び正解ラベル生成部４３０を備えることができる。また、本発明の実施形態に係る形勢判断モデル４００ａは、ディープラーニングニューラルネットワークに基づいて囲碁形勢を判断し、学習して囲碁ゲームプレイの際、棋風を適用するプロセスを動作するために棋風判断部４００ｂと連動されることができる。これについての詳細な説明は後述する。

形勢判断モデル４００ａは、形勢判断ニューラルネットワーク４１０を用いて現在碁盤状態Ｓの形勢を判断できるように指導学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）することができる。より具体的に、形勢判断モデル４００ａの碁盤状態Ｓに関するトレーニングデータセットを生成し、生成されたトレーニングデータセットを用いて形勢判断ニューラルネットワーク４１０が現在碁盤状態Ｓによる形勢を判断できるように学習させることができる。形勢判断モデルサーバ４００は、囲碁サーバ２００から複数の棋譜を受信できる。複数の棋譜のうち各棋譜は、着手順序によるそれぞれの碁盤状態Ｓを含むことができる。

入力特徴抽出部４２０は、複数の棋譜の碁盤状態Ｓで入力特徴ＩＦを抽出して形勢判断ニューラルネットワーク４１０にトレーニングのための入力データとして提供することができる。碁盤状態Ｓの入力特徴ＩＦは、黒プレイヤの最近の８手に対する石の位置情報と白プレイヤの最近の８手に対する石の位置情報と現在プレイヤが黒であるか白であるかに対する順序情報を含んだ１９＊１９＊１８のＲＧＢイメージでありうる。一例として、入力特徴抽出部４２０は、ニューラルネットワーク構造からなっていることができ、一種のエンコーダを含むことができる。

形勢判断ニューラルネットワーク４１０は、ニューラルネットワーク構造で構成されることができる。一例として、形勢判断ニューラルネットワーク４２０は、１９個のレシデュアル（ｒｅｓｉｄｕａｌ）ブロックで構成されることができる。図８に示すように、任意の１つのレシデュアルブロック（８００：ｂｌｏｃｋｎ）は、２５６個の３×３コンボリューションレイヤ８０１、第１の一括正規化（ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ）レイヤ８０２、第１のＲｅｌｕ（整流線形ユニット）活性化関数レイヤ８０３、２５６個の３×３コンボリューションレイヤ８０４、第２の一括正規化（ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ）レイヤ８０５、スキップコネクション８０７、第２のＲｅｌｕ活性化関数レイヤ８０６の順に配置されることができる。第１及び第２の一括正規化（ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ）レイヤ８０２、８０５は、学習する途中に以前レイヤのパラメータ変化のため、現在レイヤの入力の分布が変わる現象である共変量シフト（ｃｏｖａｒｉａｔｅｓｈｉｆｔ）を防止するためのものである。スキップコネクション８０７は、ブロック層が厚くなってもニューラルネットワークの性能が減少することを防止し、ブロック層をさらに厚くして全体ニューラルネットワークの性能を高めることができるようにする。スキップコネクション８０７は、レシデュアルブロック８００の最初入力データが２番目の第２の一括正規化（ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ）レイヤ８０５の出力と合わせて２番目に配置された第２のＲｅｌｕ活性化関数レイヤ８０６に入力される形態でありうる。

図９及び図１０は、本発明の形勢判断モデル４００ａを学習するために使用される正解ラベルを生成するための第１及び第２の前処理ステップを説明するための図であり、図１１は、本発明の形勢判断モデル４００ａを学習するために使用される正解ラベルを生成するための第３の前処理ステップを説明するための図である。

正解ラベル生成部４３０は、形勢判断ニューラルネットワーク４１０が正確な形勢判断が可能なように学習するのに用いられる正解ラベルを生成できる。

より具体的に、正解ラベル生成部４３０は、入力データに基になる碁盤状態Ｓを入力として受け、現在碁盤状態Ｓでヨセをする第１の前処理を行って第１の前処理状態Ｐ１を生成できる。第１の前処理であるヨセは、地の計算をする前に地の境界が明確になるように所定の着手をしてゲームを仕上げる過程である。一例として、図９に示すように、正解ラベル生成部４３０は、図９の（ａ）の現在碁盤状態Ｓでヨセをして図９の（ｂ）の第１の前処理状態Ｐ１を生成できる。

正解ラベル生成部４３０は、第１の前処理状態Ｐ１で地の境界内に配置され、地の区分に不要な石を除去する第２の前処理を行って第２の前処理状態Ｐ２を生成できる。例えば、地の境界内に配置され、地の区分に不要な石は捨て石でありうる。捨て石は、地内に相手方の石が配置されて、どのように打っても捕まえるしかなくなり、死んだ石であることを先に説明した。また、地の境界内に配置され、地の区分に不要な石は地内に配置された自分の石でありうる。一例として、図９に示すように、正解ラベル生成部４３０は、図９の（ｂ）の第１の前処理状態Ｐ１で地の区分に不要な石を除去して、図９の（ｃ）の第２の前処理状態Ｐ２を生成できる。

他の例として、図１０に示すように、正解ラベル生成部４３０は、図１０の（ａ）の現在碁盤状態Ｓで第１の前処理であるヨセのために、図１０の（ｂ）のように赤色×に着手することができる。正解ラベル生成部４３０は、図１０の（ｂ）で青色×と表示された捨て石を除去するために、緑色×に着手して捨て石を除去し、捨て石除去のために使用された緑色×に着手した石も除去して第２の前処理を行うことができる。

正解ラベル生成部４３０は、第２の前処理状態Ｐ２で各交差点を－１から＋１まで表示された形勢値（ｇ、ただし、ｇは定数）に変更する第３の前処理を行うことができる。すなわち、第３の前処理は、正解ラベル生成部４３０がイメージ特徴である第２の前処理状態Ｐ２を数値特徴である第３の前処理状態Ｐ３に変更することである。一例として、第２の前処理状態Ｐ２で交差点に自分の石が配置されれば０、自分の地領域であれば＋１、相手の石が配置されれば０、相手の地領域であれば－１に対応することができる。この場合、形勢判断ニューラルネットワーク４１０は、形勢判断の際、地、石、捨て石を区分できるように学習されることができる。他の例として、第２の前処理状態Ｐ２で交差点に自分の石が配置されれば０、自分の地領域であれば＋１、相手の石が配置されれば０、相手の地領域であれば－１、関または駄目であれば０に対応することができる。他の例の場合、形勢判断ニューラルネットワーク４１０は、形勢判断の際、関または駄目を区分できるように学習されることができる。例えば、図１１に示すように、正解ラベル生成部４３０は、図１１の（ａ）の第２の前処理状態Ｐ２を図１１の（ｂ）の第３の前処理状態Ｐ３に特徴を変更することができる。

図１２は、本発明の形勢判断モデル４００ａの形勢判断結果を説明するための図である。

学習された形勢判断モデル４００ａは、碁盤状態Ｓが入力されれば、碁盤の全ての交差点に対する形勢値を提供できる。すなわち、碁盤交差点の３６１個地点に対して形勢値である－１ないし＋１の定数値を提供できる。

図１２に示すように、形勢判断モデルサーバ４００は、形勢判断モデル４００ａが提供した形勢値、所定の閾値、石の有無を利用して形勢を判断できる。一例として、形勢判断モデルサーバ４００は、石がない所であり、形勢値が第１閾値を越えると、自分の地になる可能性が高い所と判断し、＋１に近い値であれば、自分の地領域と判断することができる。形勢判断モデルサーバ４００は、自分の地である可能性が高いほど、次第に大きくなる自分の石と同じ色の四角形態で表示することができる。すなわち、白地である可能性が高いほど、白色四角形態と表示し、黒地である可能性が高いほど、黒色四角形態と表示することができる。形勢判断モデルサーバ４００は、石がない所であり、形勢値が第２閾値以下であれば、相手の地になる可能性が高い所と判断し、－１に近い値であれば、自分の地領域と判断することができる。形勢判断モデルサーバ４００は、相手の地である可能性が高いほど、次第に大きくなる相手の石と同じ色の四角形態と表示することができる。形勢判断モデルサーバ４００は、石がない所であり、形勢値が第３閾値範囲以内または０に近い値であれば、駄目または関と判断することができる。形勢判断モデルサーバ４００は、駄目または関と判断すれば、×と表示することができる。形勢判断モデルサーバ４００は、石がある所であり、形勢値が第３閾値範囲以内または０に近い値であれば、自分の石または相手の石と判断することができる。形勢判断モデルサーバ４００は、駄目または関と判断すれば、何らの表示もしないことができる。形勢判断モデルサーバ４００は、石がある所であり、形勢値が第１閾値を越えると、相手の石の捨て石になる可能性が高い所と判断し、＋１に近い値であれば、相手の石の捨て石と判断することができる。形勢判断モデルサーバ４００は、相手の石の捨て石である可能性が高いほど、次第に大きくなる自分の石と同じ色の四角形態と表示することができる。形勢判断モデルサーバ４００は、石がある所であり、形勢値が第２閾値以下であれば、自分の石の捨て石になる可能性が高い所と判断し、－１に近い値であれば、相手の石の捨て石と判断することができる。形勢判断モデルサーバ４００は、相手の石の捨て石である可能性が高いほど、次第に大きくなる相手の石と同じ色の四角形態と表示することができる。

また、形勢判断モデルサーバ４００は、各交差点で判断した形勢判断基準を利用して現在碁盤状態Ｓでの地計算結果を表示できる。

したがって、実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステムは、ディープラーニングニューラルネットワークを利用して囲碁形勢を判断できる。また、実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステムは、囲碁規則による地、捨て石、石、駄目、関を正確に区分して囲碁の形勢を正確に判断することができる。また、実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステムは、囲碁規則による地、捨て石、石、駄目、関を予測して囲碁の形勢を正確に判断することができる。また、実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステムは、囲碁対局中、速かに形勢を判断できる。

一方、形勢判断モデルサーバ４００は、ディープラーニングに基づいて囲碁対局の際に特定棋風を適用するための一連の動作を行うために、形勢判断モデル４００ａを介して形勢判断モデル４００ａから第１～第３の前処理過程を介して導出された形勢値に基づいて確定地情報を生成できる。ここで、確定地情報は、形勢判断を介して予測されたプレイヤ及びゲーム相手の各々の確定地数に基づいて生成された情報でありうる。すなわち、形勢判断モデルサーバ４００は、形勢判断モデル４００ａを介して、形勢判断モデル４００ａから予測された碁盤状態Ｓの全ての交差点に対する形勢値（実施形態において、－１～＋１の間の値）に基づいてプレイヤとゲーム相手の各々が保有することと予想される地の数を算出して確定地情報を生成できる。例えば、確定地情報は、プレイヤが８０地、ゲーム相手が７７地を保有することを予測した情報を含む形態で実現されることができる。このような確定地情報は、以下において後述される棋風の判断過程で所定の棋風判断閾値と比較されるパラメータである点数差値を生成するための基盤データとして利用されることができる。

実施形態として、形勢判断モデルサーバ４００は、形勢判断モデル４００ａを介して形勢判断を行って形勢値を導出し、導出された形勢値に基づいてプレイヤの確定地数とゲーム相手の確定地数とを算出して確定地情報を生成できる。そして、形勢判断モデルサーバ４００は、棋風判断部４００ｂを介して生成された確定地数情報に基づいてプレイヤの点数値及びゲーム相手の点数値を取得できる。また、形勢判断モデルサーバ４００は、棋風判断部４００ｂを介して、取得されたプレイヤの点数値とゲーム相手の点数値とに基づいて両点数値間の点数差値を算出できる。その後、形勢判断モデルサーバ４００は、棋風判断部４００ｂを介して算出された点数差値を所定の棋風判断閾値と比較して棋風判断情報を生成できる。これについての詳細な説明は、以下において後述する。

図１３は、本発明の形勢判断モデル４００ａの形勢判断結果と従来技術に係るディープラーニングモデルによる形勢判断結果とを比較した形状であり、図１４は、本発明の形勢判断モデル４００ａの形勢判断結果と従来技術に係るディープラーニングモデルによる形勢判断結果とを比較した形状であり、図１５は、本発明の形勢判断モデル４００ａの形勢判断結果と従来技術に係るディープラーニングモデルによる形勢判断結果とを比較した形状である。

図１３に示すように、本発明の形勢判断モデル４００ａは、図１３の（ａ）のＢ領域のように、交差点毎に地、石、捨て石を区分して形勢を判断する。しかし、従来技術に係るディープラーニングモデルによる形勢判断モデル４００ａは、図１３の（ｂ）で図１３の（ａ）と対応する領域の交差点に対して地、石、捨て石を区分できない。

同様に、図１４に示すように、本発明の形勢判断モデル４００ａは、図１４の（ａ）のＣ領域のように、交差点毎に地、石、捨て石を区分して形勢を判断する。しかし、従来技術に係るディープラーニングモデルによる形勢判断モデル４００ａは、図１４の（ｂ）で図１３の（ａ）と対応する領域の交差点に対して地、石、捨て石を区分できない。

図１５に示すように、本発明の形勢判断モデル４００ａは、図１５の（ａ）のＤ領域のように、白地を正しく認識する。しかし、従来技術に係るディープラーニングモデルによる形勢判断モデル４００ａは、図１５の（ｂ）で図１５の（ａ）と対応する領域で白地を区分できない。

図１６は、本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステムにおける信号フローに対する例示図である。

図１６に示すように、着手モデルサーバ３００は、人工知能コンピュータであって、自分のターンにおいて対局で勝つことができるように碁石の着手を行うことができるように囲碁規則によって自ら学習してディープラーニングモデルである着手モデルをトレーニングすることができる（Ｓ１１）。囲碁サーバ２００は、複数の棋譜を形勢判断モデルサーバ４００に送信することができる（Ｓ１２）。形勢判断モデルサーバ４００は、トレーニングデータセットを生成できる。まず、形勢判断モデルサーバ４００は、複数の棋譜の碁盤状態Ｓで入力特徴を抽出できる（Ｓ１３）。形勢判断モデルサーバ４００は、入力特徴を抽出した碁盤状態Ｓを利用して正解ラベルを生成できる（Ｓ１４）。形勢判断モデルサーバ４００は、入力特徴を入力データとし、正解ラベルをターゲットデータとしたトレーニングデータセットを用いて形勢判断モデル４００ａをトレーニングすることができる（Ｓ１５）。端末機１００は、囲碁サーバ２００に人工知能コンピュータを相手にしてまたは他のユーザ端末機を相手にして囲碁ゲームを要請できる（Ｓ１６）。囲碁サーバ２００は、端末機１００が人工知能コンピュータを相手にして囲碁ゲームを要請すれば、着手モデルサーバ３００に着手を要請できる（Ｓ１７）。囲碁サーバ２００は、囲碁ゲームを進行し、端末機１００と着手モデルサーバ３００とが自分のターンに着手を行うことができる（Ｓ１８～Ｓ２０）。対局中、端末機１００は、囲碁サーバ２００に形勢判断を要請できる（Ｓ２１）。囲碁サーバ２００は、形勢判断モデルサーバ４００に現在碁盤状態Ｓに対する形勢判断を要請できる（Ｓ２２）。形勢判断モデルサーバ４００は、現在碁盤状態Ｓの入力特徴を抽出し、ディープラーニングモデルである形勢判断モデル４００ａが入力特徴を利用して形勢値を生成し、碁盤状態Ｓと形勢値を用いて形勢判断を行うことができる（Ｓ２３）。形勢判断モデルサーバ４００は、形勢判断結果を囲碁サーバ２００に提供することができる（Ｓ２４）。囲碁サーバ２００は、端末機１００に形勢判断結果を提供できる（Ｓ２５）。

図１７は、本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法のうち、形勢判断方法であり、図１８は、図１７の形勢判断方法のうち、正解ラベルを生成するためのトレーニングデータの前処理方法である。

図１７に示すように、本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、形勢判断モデルサーバ４００が囲碁サーバから複数の棋譜を受信するステップ（Ｓ１００）を含むことができる。

本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、形勢判断モデルサーバ４００の形勢判断モデル４００ａのうち、入力特徴抽出部が複数の棋譜の碁盤状態Ｓで入力特徴を抽出するステップ（Ｓ２００）を含むことができる。入力特徴を抽出する方法は、図７の説明にしたがう。

本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、形勢判断モデル４００ａのうち、正解ラベル生成部が入力特徴を抽出した碁盤状態Ｓに基づいて正解ラベルを生成するステップ（Ｓ３００）を含むことができる。一例として、図１８に示すように、正解ラベル生成ステップ（Ｓ３００）は、正解ラベル生成部が現在碁盤状態Ｓでヨセをする第１の前処理するステップ（Ｓ３０１）を含むことができる。第１の前処理するステップ（Ｓ３０１）は、図９～図１０の説明にしたがう。正解ラベル生成ステップ（Ｓ３００）は、正解ラベル生成部が第１の前処理された碁盤状態Ｓで不要な石を除去する第２の前処理するステップ（Ｓ３０２）を含むことができる。第２の前処理するステップ（Ｓ３０２）は、図９～図１０の説明にしたがう。正解ラベル生成ステップ（Ｓ３００）は、正解ラベル生成部が第２の前処理された碁盤状態Ｓの各交差点を形勢値に変更する第３の前処理するステップ（Ｓ３０３）を含むことができる。第３の前処理するステップ（Ｓ３０３）は、図１１の説明にしたがう。正解ラベル生成ステップ（Ｓ３００）は、第３の前処理状態を正解ラベルとして形勢判断ニューラルネットワークにターゲットデータとして提供するステップ（Ｓ３０４）を含むことができる。ターゲットデータを提供するステップ（Ｓ３０４）は、図７及び図１１の説明にしたがう。

本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、トレーニングデータセットを用いて形勢判断モデル４００ａの形勢判断ニューラルネットワークをトレーニングするステップ（Ｓ４００）を含むことができる。形勢判断ニューラルネットワークをトレーニング（学習）する方法は、図７の説明にしたがう。

本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、形勢判断ニューラルネットワークのトレーニングが完了して形勢判断モデル４００ａを構築するステップ（Ｓ５００）を含む。一例として、形勢判断ニューラルネットワークのトレーニングの完了は、図７の形勢判断損失が所定の値以下になった場合でありうる。

本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、端末機の形勢判断要請により現在碁盤状態Ｓが形勢判断モデル４００ａに入力されるステップ（Ｓ６００）を含むことができる。

本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、形勢判断モデル４００ａが入力された現在碁盤状態Ｓの形勢判断を行うステップ（Ｓ７００）を含むことができる。形勢判断を行うステップ（Ｓ７００）は、図１２において説明した形勢判断モデル４００ａが現在碁盤状態Ｓの形勢値を生成する説明にしたがうことができる。

本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、形勢判断モデルサーバ４００が形勢判断結果を出力するステップ（Ｓ８００）を含むことができる。形勢判断結果を出力するステップ（Ｓ８００）は、図１２において説明した形勢判断モデルサーバ４００が形勢値、碁盤の状態、所定の閾値を用いて形勢判断結果を提供する説明にしたがうことができる。

したがって、実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、ディープラーニングニューラルネットワークを利用して囲碁形勢を判断できる。また、実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、囲碁規則による地、捨て石、石、駄目、関を正確に区分して囲碁の形勢を正確に判断することができる。また、実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、囲碁規則による地、捨て石、石、駄目、関を予測して囲碁の形勢を正確に判断することができる。また、実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、囲碁対局中、速かに形勢を判断できる。

・棋風判断部
本発明の実施形態に係る棋風判断部４００ｂは、形勢判断モデルサーバ４００が備える一構成要素であって、形勢判断モデル４００ａと連動して、形勢判断モデル４００ａを介して取得される碁盤状態Ｓの形勢値に基づいて特定着手点に基づいた棋風判断を行うことができる。また、棋風判断部４００ｂは、着手モデルをして判断された棋風に基づいた棋風学習を行うようにして、囲碁ゲームプレイの際、特定気質や方式を表す棋風を活用させることができる。ここで、棋風判断は、着手モデルにより予測された最善の手である着手候補手がいかなる棋風を実現するか、すなわち、いかなる棋風カテゴリに含まれるかを判断することである。実施形態において棋風は、所定の基準に基づいて、１）棋風種類カテゴリまたは２）１～ｎの棋風ステップ（ｎ＝１、２、３、・・・）カテゴリによって予め分類されることができる。例えば、棋風は、棋風種類カテゴリによって攻撃的棋風、安定的棋風、及び／又は防御的棋風などに予め分類されることができる。他の例において、棋風は、１～ｎの棋風ステップカテゴリによって第１の棋風ステップ、第２の棋風ステップ、・・・、第ｎの棋風ステップに予め分類されていることができる。具体的に、形勢判断モデル４００ａは、着手モデルサーバ３００から取得される着手候補手情報に対する形勢判断を行うことができ、その後、棋風判断部４００ｂは、形勢判断を介して導出されたデータに基づいて当該着手候補手情報が上記のように予め分類されている複数の棋風カテゴリのうち、いかなる棋風カテゴリに含まれるかを判断する棋風判断を行うことができる。

具体的に、棋風判断部４００ｂは、棋風判断を行うために、まず、どの棋風で学習を行うかに対して予め設定された情報である目標棋風情報を設定できる。ここで、目標棋風情報は、様々なカテゴリと分類されている複数の棋風のうち、いかなる棋風を目標として学習するか予め設定された情報であって、１）棋風種類カテゴリ（例えば、攻撃的棋風、安定的棋風、防御的棋風等）のうち、いずれか１つを選択して目標棋風を設定した情報、または２）１～ｎの棋風ステップカテゴリのうち、いずれか１つを選択して目標棋風を設定した情報でありうる。

また、棋風判断部４００ｂは、形勢判断モデル４００ａの形勢判断を介して導出された確定地数によるプレイヤの点数値とゲーム相手の点数値との間の点数差値に基づいて着手モデルサーバ３００から取得された着手候補手に対する棋風判断を行うための所定の棋風判断閾値を設定できる。すなわち、棋風判断部４００ｂは、予め設定された棋風判断閾値と着手候補手情報に対する形勢判断を介して導出された点数差値とを比較して棋風判断を行うことができる。

より具体的に、まず、形勢判断モデル４００ａは、着手モデルサーバ３００から少なくとも１つ以上の着手候補手情報を入力データとして取得することができる。そして、形勢判断モデル４００ａは、取得された着手候補手情報の各々に対して形勢判断を行って確定地情報を生成できる。その後、棋風判断部４００ｂは、形勢判断モデル４００ａから生成された確定地情報に基づいてプレイヤの点数値とゲーム相手の点数値とを算出できる。また、棋風判断部４００ｂは、算出されたプレイヤ及びゲーム相手の点数値に基づいてプレイヤの点数値とゲーム相手の点数値との差値を表す点数差値を算出できる。そして、棋風判断部４００ｂは、算出された点数差値を予め設定された棋風判断閾値と比較して、少なくとも１つ以上の着手候補手情報の各々に対する棋風判断情報を生成できる。ここで、棋風判断情報は、囲碁ゲームプレイの際、各着手候補手の着手によって実現される棋風のカテゴリを判断した情報でありうる。これについての詳細な説明は、以下において後述する。

また、棋風判断部４００ｂは、生成された棋風判断情報を基に棋風学習データを生成できる。具体的に、棋風判断部４００ｂは、受信された着手候補手情報の各々に対して導出された棋風判断情報のうち、予め設定された目標棋風情報と対応する棋風判断情報を判断できる。そして、棋風判断部４００ｂは、目標棋風情報と対応すると判断された当該棋風判断情報を導出した着手候補手情報に基づいて学習を実現させる棋風学習データを生成できる。また、棋風判断部４００ｂは、生成された棋風学習データを着手モデルサーバ３００に提供することができる。

さらに、棋風判断部４００ｂは、棋風学習データに基づいて学習を行った着手モデルサーバ３００から棋風学習性能情報を入力データとして取得することができ、取得された棋風学習性能情報を基に棋風判断閾値を調整できる。より詳細な説明は、以下において後述する。

一方、図１９は、本発明の形勢判断モデルサーバ４００の棋風判断部４００ｂ構造を説明するための図である。図１９に示すように、上記のような棋風判断のための一連の動作を行うために、形勢判断モデルサーバ４００は、上記で記述した形勢判断モデル４００ａと棋風判断部４００ｂとを備えることができ、形勢判断モデル４００ａと棋風判断部４００ｂとを相互連動して動作させることができる。実施形態において、棋風判断部４００ｂは、棋風判断閾値を設定し、プレイヤの点数値とゲーム相手の点数値とを導出して点数差値を算出し、算出された点数差値に基づいて棋風判断情報を生成できる。また、実施形態において棋風判断部４００ｂは、生成された棋風判断情報を基に棋風学習データを生成でき、着手モデルサーバ３００から取得される棋風学習性能情報に基づいて棋風判断閾値を調整できる。

すなわち、形勢判断モデルサーバ４００の棋風判断部４００ｂは、本発明の実施形態によって形勢判断モデル４００ａと連動して碁盤状態Ｓの形勢判断に基づいて棋風を判断し、これに基づいて学習を行って囲碁ゲームプレイの際に適用するプロセスを実現するための一構成要素でありうる。これについての詳細な説明は、以下のディープラーニングに基づいて棋風を判断して適用する方法の詳細な説明で後述する。また、本実施形態では、棋風判断部４００ｂが形勢判断モデルサーバ４００に含まれると説明するが、他の実施形態では、棋風判断部４００ｂが囲碁サーバ２００及び／又は着手モデルサーバ３００に含まれるか、別の装置で実現されるなど、様々な実施形態が可能であろう。

・ディープラーニングに基づいて棋風を判断して活用する方法
以下、図面を参照してディープラーニングニューラルネットワークに基づいて囲碁形勢を判断して棋風を判断し、これに基づいて囲碁ゲームプレイの際の特定気質や方式を表す棋風を活用する囲碁ゲームサービス提供方法について詳細に説明しようとする。

図２０は、本発明の実施形態に係るディープラーニングニューラルネットワークに基づいて囲碁形勢を判断し、囲碁ゲームプレイの際の特定気質や方式を表す棋風を活用する方法を説明するためのフローチャートであり、図２１は、本発明の実施形態に係る囲碁形勢を判断し、囲碁ゲームプレイの際の棋風を活用する方法を説明するための概念図である。

図２０及び図２１に示すように、形勢判断モデルサーバ４００は、まず、目標棋風情報を設定するステップ（Ｓ１０１）を含むことができる。具体的に、形勢判断モデルサーバ４００は、プロセッサ４０２を介してどの棋風で学習を行うかに対して予め設定された情報である目標棋風情報を設定できる。このとき、目標棋風情報は、棋風種類カテゴリまたは１～ｎの棋風ステップカテゴリを基準に予め分類されている複数の棋風カテゴリのうち、いずれか１つを選択した情報でありうる。例えば、目標棋風情報は、攻撃的棋風、安定的棋風、及び／又は防御的棋風のうち、いずれか１つでありうるし、第１の棋風ステップ、第２の棋風ステップ、・・・、第ｎの棋風ステップのうち、いずれか１つでありうる。このとき、棋風種類カテゴリは、実施形態によってより細分化されたカテゴリをさらに含むか、単純化されてカテゴリを少し含むなど、様々な方式で実現されることができ、１～ｎの棋風ステップカテゴリは、実施形態によって第１の棋風ステップに近いほど、防御的棋風と判断され、第ｎの棋風ステップに近いほど、攻撃的棋風と判断されるように予め設定されたり、その逆で予め設定されるなど、様々な方式で実現されることができる。

また、形勢判断モデルサーバ４００は、棋風判断閾値を設定するステップ（Ｓ１０３）を含むことができる。具体的に、形勢判断モデルサーバ４００は、棋風判断部４００ｂを介して棋風判断を行うための所定の棋風判断閾値を設定できる。例えば、形勢判断モデルサーバ４００は、棋風判断閾値を所定の数値と予め設定することができる。前述した目標棋風情報に対する棋風種類カテゴリのような予め分類された情報及び所定の数値と設定された棋風判断閾値は、ルックアップテーブル形態で格納されていることができる。

続いて、形勢判断モデルサーバ４００は、着手候補手情報を取得するステップ（Ｓ１０５）を含むことができる。具体的に、形勢判断モデルサーバ４００は、着手モデルサーバ３００から少なくとも２つ以上導出された着手候補手情報を受信できる。そして、形勢判断モデルサーバ４００は、受信された着手候補手情報を形勢判断モデル４００ａ及び／又は棋風判断部４００ｂの入力データとして利用することができる。

また、形勢判断モデルサーバ４００は、取得された着手候補手情報の各々に対する形勢判断を行って点数値を導出するステップ（Ｓ１０７）を含むことができる。具体的に、形勢判断モデルサーバ４００は、形勢判断モデル４００ａを介して、着手モデルサーバ３００から取得された着手候補手が適用された碁盤の全ての交差点に対して黒、白の各領域に対する形勢判断を行って形勢値を導出することができる。このとき、形勢判断の基準は、地、捨て石、石、駄目、関などになることができる。そして、形勢判断モデルサーバ４００は、導出された形勢値に基づいて確定地情報を生成できる。具体的に、形勢判断モデルサーバ４００は、形勢判断モデル４００ａを介して、プレイヤ及びゲーム相手が各々保有することと予想される地の数を算出してプレイヤの地の数とゲーム相手の地の数とを判断した情報である確定地情報を生成できる。

そして、確定地情報を生成した形勢判断モデルサーバ４００は、生成された確定地情報に基づいてプレイヤの点数値及びゲーム相手の点数値を導出することができる。具体的に、形勢判断モデルサーバ４００は、棋風判断部４００ｂを介して、確定地情報のプレイヤの地の数に基づいてプレイヤの点数値を導出し、ゲーム相手の地の数に基づいてゲーム相手の点数値を導出することができる。このとき、形勢判断モデルサーバ４００は、点数値を算出するためのプロセスを予め設定することができる。例えば、形勢判断モデルサーバ４００は、１地当たり＋１に点数値算出プロセスを決定できる。また、形勢判断モデルサーバ４００は、着手候補手情報に基づいて点数値を算出するので、プレイヤの点数値がゲーム相手の点数値より常に高いことができる。このとき、プレイヤの点数値がゲーム相手の点数値より低い場合、形勢判断モデルサーバ４００は、当該着手候補手を除いた後、棋風判断を行うこともできる。

図２２は、本発明の実施形態に係る着手候補手情報の各々に対する棋風判断情報を生成する方法を説明するための図である。このとき、図２２は、効果的な説明のために、プレイヤが黒の碁石を用い、ゲーム相手が白の碁石を用いることと限定されて表示されることができる。しかし、実施形態によってプレイヤが白の碁石を用い、ゲーム相手が黒の碁石を用いることもできることは自明であろう。例えば、図２２に示すように、形勢判断モデルサーバ４００は、着手モデルサーバ３００から取得された第１の着手候補手情報、第２の着手候補手情報、及び第３の着手候補手情報に基づいてそれぞれの点数値を算出できる。具体的に、形勢判断モデルサーバ４００は、まず、点数値を算出するためのプロセスを予め設定して１地当たり＋１に点数値算出プロセスを決定できる。そして、形勢判断モデルサーバ４００は、点数値算出プロセスを適用してそれぞれの着手候補手情報にマッチングされた確定地情報に基づいてプレイヤの点数値及びゲーム相手の点数値を導出することができる。具体的に、形勢判断モデルサーバ４００は、第１の着手候補手情報にマッチングされた確定地情報に基づいて、第１の着手候補手が碁盤に適用された場合、プレイヤの地の数が７９地であれば、プレイヤの点数値を＋７９に導出することができ、ゲーム相手の地の数が７７地であれば、ゲーム相手の点数値を＋７７に導出することができる。同様に、形勢判断モデルサーバ４００は、第２の着手候補手が碁盤に適用された場合、プレイヤの地の数が８０地であれば、プレイヤの点数値を＋８０に導出することができ、ゲーム相手の地の数が７７地であれば、ゲーム相手の点数値を＋７７に導出することができる。また、形勢判断モデルサーバ４００は、第３の着手候補手が碁盤に適用された場合、プレイヤの地の数が９１地であれば、プレイヤの点数値を＋９１に導出することができ、ゲーム相手の地の数が６８地であれば、ゲーム相手の点数値を＋６８に導出することができる。

次に、形勢判断モデルサーバ４００は、着手候補手情報の各々に対して導出されたプレイヤの点数値及びゲーム相手の点数値に基づいて点数差値を算出するステップ（Ｓ１０９）を含むことができる。具体的に、形勢判断モデルサーバ４００は、棋風判断部４００ｂを介して、着手モデルサーバ３００から取得された各着手候補手情報に対する点数差値を算出できる。実施形態として、形勢判断モデルサーバ４００は、各着手候補手情報に対してプレイヤの点数値とゲーム相手の点数値との差値を算出し、その結果値を当該着手候補手に対する点数差値と決定することができる。このとき、形勢判断モデルサーバ４００は、点数差値が負数と算出される場合、当該着手候補手を除いた後、棋風判断を行うことができる。

例えば、図２２に示すように、形勢判断モデルサーバ４００は、第１の着手候補手情報にマッチングされたプレイヤの点数値が＋７９であり、ゲーム相手の点数値が＋７７である場合、第１の着手候補手に対する点数差値を＋２に算出することができる。また、形勢判断モデルサーバ４００は、第２の着手候補手情報にマッチングされたプレイヤの点数値が＋８０であり、ゲーム相手の点数値が＋７７である場合、第２の着手候補手に対する点数差値を＋３に算出することができる。同様に、形勢判断モデルサーバ４００は、第３の着手候補手情報にマッチングされたプレイヤの点数値が＋９１であり、ゲーム相手の点数値が＋６８である場合、第３の着手候補手に対する点数差値を＋２３に算出することができる。

また、着手候補手の各々に対して点数差値を算出した形勢判断モデルサーバ４００は、算出された点数差値に基づいて着手候補手情報の各々に対する棋風判断情報を生成するステップ（Ｓ１１１）を含むことができる。具体的に、形勢判断モデルサーバ４００は、棋風判断部４００ｂを介して、囲碁ゲームプレイの際、各着手候補手の着手によって実現される棋風のカテゴリを判断した情報である棋風判断情報を生成できる。より具体的に、形勢判断モデルサーバ４００は、各着手候補手に対して、算出された点数差値と所定の棋風判断閾値に基づいて棋風判断情報を生成できる。例えば、形勢判断モデルサーバ４００は、点数差値と棋風判断閾値とを比較して点数差値が棋風判断閾値を超過する場合（点数差が大きい場合）、攻撃的棋風カテゴリに含まれると判断することができる。また、形勢判断モデルサーバ４００は、点数差値と棋風判断閾値とを比較して、点数差値が棋風判断閾値と対応する場合（点数差が小さい場合）、安定的棋風カテゴリに含まれると判断することができる。同様に、形勢判断モデルサーバ４００は、点数差値と棋風判断閾値とを比較して、点数差値が棋風判断閾値未満である場合（点数差がほとんどない場合）、防御的棋風カテゴリに含まれると判断することができる。

例えば、図２２に示すように、形勢判断モデルサーバ４００は、棋風判断閾値を「３」に予め設定した場合、第１の着手候補手情報にマッチングされた点数差値が＋２であれば、第１の着手候補手を防御的棋風カテゴリであると判断することができる。また、第２の着手候補手情報にマッチングされた点数差値が＋３であれば、第２の着手候補手を安定的棋風カテゴリであると判断することができる。同様に、第３の着手候補手情報にマッチングされた点数差値が＋２３であれば、第３の着手候補手を攻撃的棋風カテゴリであると判断できる。すなわち、形勢判断モデルサーバ４００は、着手モデルサーバ３００から取得された着手候補手情報の各々に対して点数差値に基づいた棋風判断情報を生成できる。

次に、各着手候補手情報に対して棋風判断情報を生成した形勢判断モデルサーバ４００は、生成された棋風判断情報と目標棋風情報とに基づいて棋風学習データを生成するステップ（Ｓ１１３）を含むことができる。具体的に、形勢判断モデルサーバ４００は、棋風判断部４００ｂを介して、各着手候補手情報に対して導出された棋風判断情報のうち、目標棋風情報と対応する棋風判断情報を判断できる。そして、形勢判断モデルサーバ４００は、棋風判断情報が目標棋風情報と対応すると判断された着手候補手情報を選択して、当該着手候補手情報を学習データとして決定する棋風学習データを生成できる。このとき、棋風学習データは、選択された着手候補手に基づいて生成される情報（例えば、着手候補手情報、形勢値、プレイヤの点数値、ゲーム相手の点数値、点数差値、棋風判断情報等）を含むデータでありうる。

例えば、図２２に示すように、形勢判断モデルサーバ４００は、予め設定された目標棋風情報が「攻撃的棋風カテゴリ」であり、第１の着手候補手情報にマッチングされた棋風判断情報が「防御的棋風カテゴリ」、第２の着手候補手情報にマッチングされた棋風判断情報が「安定的棋風カテゴリ」、第３の着手候補手情報にマッチングされた棋風判断情報が「攻撃的棋風カテゴリ」である場合、目標棋風情報である攻撃的棋風カテゴリに対応する棋風判断情報を有する第３の着手候補手情報を学習データとして決定する棋風学習データを生成できる。このとき、形勢判断モデルサーバ４００は、生成される棋風学習データに第３の着手候補手に基づいて生成された情報（例えば、第３の着手候補手に対する着手候補手情報、形勢値、プレイヤの点数値、ゲーム相手の点数値、点数差値、棋風判断情報等）を含んで棋風学習データを生成できる。

また、形勢判断モデルサーバ４００は、生成された棋風学習データを送信するステップ（Ｓ１１５）を含むことができる。具体的に、形勢判断モデルサーバ４００は、少なくとも２つ以上の着手候補手情報に基づいて棋風判断を行って導出された棋風学習データを着手モデルサーバ３００に送信することができる。

その後、形勢判断モデルサーバ４００は、棋風学習データを受信した着手モデルサーバ３００から棋風学習性能情報を取得するステップ（Ｓ１１７）を含むことができる。具体的に、形勢判断モデルサーバ４００は、着手モデルサーバ３００から棋風学習データに基づいてセルフプレイ学習を行って、当該棋風学習データが目標棋風を学習するのに適したデータであるか否か判断した情報である棋風学習性能情報を受信できる。

そして、形勢判断モデルサーバ４００は、取得された棋風学習性能情報に基づいて棋風判断閾値を調整するステップ（Ｓ１１９）を含むことができる。具体的に、形勢判断モデルサーバ４００は、棋風判断部４００ｂを介して、棋風学習性能情報に基づいた棋風判断閾値の調整を行うことができ、これを通じて棋風判断の正確性を向上させることができる。

例えば、まず、形勢判断モデルサーバ４００は、目標棋風情報を「安定的棋風カテゴリ」と予め設定し、棋風判断閾値を「３」に予め設定し、特定着手候補手に対する点数差値が当該棋風判断閾値である３と対応するとき、安定的棋風カテゴリであると判断するように予め設定されていることができる。その後、形勢判断モデルサーバ４００は、当該棋風判断閾値と着手候補手の点数差値とに基づいて棋風判断情報を生成でき、生成された棋風判断情報を基に棋風学習データを生成でき、生成された棋風学習データを着手モデルサーバ３００に送信することができる。

続いて、形勢判断モデルサーバ４００から棋風学習データを受信した着手モデルサーバ３００の棋風学習補助部３４０は、受信された棋風学習データが含む着手候補手に対する点数差値と、当該着手候補手を適用したセルフプレイ学習に基づいて導出された当該着手候補手に対する点数差値とを比較して棋風学習性能情報を生成できる。例えば、着手モデルサーバ３００は、棋風学習データ上の着手候補手に対する点数差値が＋３であるが、実際セルフプレイ学習に基づいて導出された当該着手候補手に対する最大点数差値が＋２．５であると判断された場合、予測された点数差値に所定の誤差があることを判断した誤差情報を含む棋風学習性能情報を生成できる。このとき、誤差情報は、誤差の有無及び／又は誤差の程度情報などを含むことができる。そして、着手モデルサーバ３００は、誤差情報を含む棋風学習性能情報を形勢判断モデルサーバ４００に送信することができる。

続いて、着手モデルサーバ３００から上記のような棋風学習性能情報を受信した形勢判断モデルサーバ４００は、受信された棋風学習性能情報に基づいて目標棋風を判断するために、予め設定された棋風判断閾値を調整できる。すなわち、例示において形勢判断モデルサーバ４００は、目標棋風として設定された安定的棋風カテゴリを判別するために、「３」に予め設定されていた棋風判断閾値を棋風学習性能情報に基づいて「３．５」と増加調整することができる。これは、棋風判断閾値が３に予め設定され、点数差値が３と対応する場合に安定的棋風であると判断される状況で、セルフプレイ学習の結果に基づいた最大点数差値が２．５であると判断された場合、予め設定された棋風判断閾値がさらに高まってはじめて、セルフプレイ学習に基づいた点数差値が増加されて３に近づく可能性が高まり得ることに起因する動作でありうる。本例示では、上記のように説明したが、その他、様々な実施形態が可能であることは自明であろう。

このように、形勢判断モデルサーバ４００は、着手モデルサーバ３００から取得された複数の着手候補手情報に基づいて棋風判断を行って棋風学習データを生成し、このような棋風学習データに基づいて自家学習を行った着手モデルサーバ３００から棋風学習性能情報を取得し、棋風判断閾値を調整する棋風判断を行うことにより、取得された着手候補手に対する棋風判断動作の正確性を向上させることができ、これを通じてディープラーニングに基づいて棋風を判断し、活用する囲碁ゲームサービスのクオリティを増大させることができる。

一方、以下では、本発明の他の実施形態に係るディープラーニングに基づく棋風判断及び活用方法について説明しようとする。後述される説明において、以上で記述された内容と重複する記載は省略されることができる。

図２３は、本発明の他の実施形態に係る囲碁形勢を判断し、囲碁ゲームプレイの際の棋風を活用する方法を説明するための概念図である。図２３に示すように、まず、他の実施形態に係る着手モデルサーバ３００は、プロセッサ３０２を介して学習しようとする棋風を決定する目標棋風情報を設定できる。ここで、目標棋風情報は、実施形態と同様に、棋風種類カテゴリまたは１～ｎの棋風ステップカテゴリを基準に予め分類されている複数の棋風カテゴリのうち、いずれか１つを選択した情報でありうる。

このとき、他の実施形態に係る着手モデルサーバ３００は、複数の着手モデルを含んでそれぞれの着手モデル別の目標棋風情報を設定できる。具体的に、着手モデルサーバ３００は、棋風が分類されたカテゴリの個数に比例して各棋風のカテゴリと１：１にマッチングされる少なくとも１つ以上の着手モデルを含むことができる。すなわち、着手モデルサーバ３００は、各棋風カテゴリに各着手モデルを１：１にマッチングさせることができ、各着手モデルの目標棋風情報を各着手モデルにマッチングされた棋風カテゴリとして設定することができる。これにより、着手モデルサーバ３００は、各着手モデル別に特定目標棋風に対する学習を行わせることができる。

例えば、着手モデルサーバ３００は、棋風カテゴリの個数がｎ個である場合、ｎ個の着手モデルを含むことができる。そして、着手モデルサーバ３００は、それぞれの棋風カテゴリと着手モデルとを１：１にマッチングして、第１の棋風カテゴリは、第１の着手モデルの目標棋風情報として設定され、第２の棋風カテゴリは、第２の着手モデルの目標棋風情報として設定され、同じ方式にて、第ｎの棋風カテゴリは、第ｎの着手モデルの目標棋風情報として設定されるようにすることができる。他の例として、着手モデルサーバ３００は、攻撃的棋風カテゴリ、安定的棋風カテゴリ、防御的棋風カテゴリが存在する場合、各棋風に１：１にマッチングされる少なくとも３個の着手モデルを含むことができる。すなわち、着手モデルサーバ３００は、攻撃的棋風カテゴリにマッチングされる第１の着手モデル、安定的棋風カテゴリにマッチングされる第２の着手モデル、防御的棋風カテゴリにマッチングされる第３の着手モデルを含むことができる。そして、着手モデルサーバ３００は、第１の着手モデルの目標棋風情報を攻撃的棋風カテゴリ、第２の着手モデルの目標棋風情報を安定的棋風カテゴリ、第３の着手モデルの目標棋風情報を防御的棋風カテゴリとして設定することができる。

また、他の実施形態に係る形勢判断モデルサーバ４００は、上記のような着手モデルサーバ３００から複数の着手モデルの各々に対する目標棋風情報を取得できる。さらに、形勢判断モデルサーバ４００は、各着手モデルから少なくとも２つ以上ずつ導出される着手候補手情報を取得できる。そして、形勢判断モデルサーバ４００は、取得された各着手モデル別の着手候補手情報に基づいて棋風判断を行って棋風判断情報を生成できる。また、形勢判断モデルサーバ４００は、生成された棋風判断情報と各着手モデル別の目標棋風情報とに基づいて各着手モデルに対する棋風学習データを生成できる。そして、形勢判断モデルサーバ４００は、生成された棋風学習データをマッチングされた各着手モデルに一括提供することができる。

例えば、第１の着手モデルが攻撃的棋風カテゴリを目標棋風とし、第２の着手モデルが安定的棋風カテゴリを目標棋風とし、第３の着手モデルが防御的棋風カテゴリを目標棋風とする場合、形勢判断モデルサーバ４００は、まず、各着手モデルから少なくとも２つ以上ずつ取得される着手候補手情報に基づいてそれぞれの着手候補手に対する棋風判断を行うことができる。そして、形勢判断モデルサーバ４００は、棋風判断を介して第１の着手モデルには、攻撃的棋風の学習に最適化された着手候補手に基づいた棋風学習データを送信し、第２の着手モデルには、安定的棋風の学習に最適化された着手候補手に基づいた棋風学習データを送信し、第３の着手モデルには、防御的棋風の学習に最適化された着手候補手に基づいた棋風学習データを送信して一括提供することができる。すなわち、形勢判断モデルサーバ４００は、複数の棋風に対して一括的に棋風判断を行い、学習するようにして、より効率的に棋風を適用した囲碁ゲームサービスを実現できる。

また、他の実施形態において上記のような着手モデルサーバ３００と形勢判断モデルサーバ４００とを備える及び／又は連動する囲碁ゲームサービス装置は、着手モデルサーバ３００のプロセッサ３０２及び／又は形勢判断モデルサーバ４００のプロセッサ４０２を介して、囲碁対局の進行状況（例えば、経過時間の程度等）またはプレイヤ選択によって各々異なる棋風を適用して囲碁ゲームプレイを行うことができる。具体的に、囲碁ゲームサービス装置は、予め設定された自動棋風制御のための設定情報（例えば、経過時間によって特定棋風で動作するように予め設定された情報等）またはプレイヤの選択入力によって囲碁対局の進行状況またはプレイヤ選択による棋風変換を行うことができる。このとき、囲碁ゲームサービス装置は、囲碁ゲームプレイに適用する棋風を変換するために、囲碁対局の進行状況に応じて用いられる着手モデルを変更できる。

例えば、囲碁ゲームサービス装置は、攻撃的棋風を学習した第１の着手モデル、安定的棋風を学習した第２の着手モデル、防御的棋風を学習した第３の着手モデルが存在する場合、予め設定された自動棋風制御設定情報またはプレイヤの選択によって囲碁対局の序盤には、第２の着手モデルを用いて安定的棋風で囲碁ゲームをプレイし、囲碁対局の中盤には、第３の着手モデルを用いて防御的棋風で囲碁ゲームをプレイし、囲碁対局の終盤には、第１の着手モデルを用いて攻撃的棋風で囲碁ゲームをプレイすることができる。すなわち、囲碁ゲームサービス装置は、囲碁対局の進行状況またはプレイヤ選択によって各々異なる棋風を利用することで、ディープラーニングニューラルネットワークに基づいて囲碁ゲームプレイの際、棋風を活用する囲碁ゲームサービスの使用性をより向上させることができる。

以上、本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステム及びサービス方法は、囲碁規則による地、捨て石、石、駄目、関を正確に区分して囲碁の形勢を予測することにより、囲碁の形勢及び特定着手点に対する棋風を正確に判断することができるという効果がある。

また、本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステム及びサービス方法は、目標とする特定棋風に最適化された学習が行われるように動作することにより、棋風を実現するための学習を効率的、体系的に実現することができるという効果がある。

また、以上で説明された本発明に係る実施形態は、様々なコンピュータ構成要素を介して実行され得るプログラム命令語の形態で実現され、コンピュータ読み取り可能な記録媒体に記録されることができる。上記コンピュータ読み取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含むことができる。上記コンピュータ読み取り可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知されて使用可能なものでありうる。コンピュータ読み取り可能な記録媒体の例には、ハードディスク、フロッピーディスク、及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ及びＤＶＤのような光気緑媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気－光媒体（ｍａｇｎｅｔｏ－ｏｐｔｉｃａｌｍｅｄｉｕｍ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのような、プログラム命令語を格納し、実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるような機械語コードだけでなく、インタプリタなどを使用してコンピュータにより実行され得る高級言語コードも含まれる。ハードウェア装置は、本発明に係る処理を行うために、１つ以上のソフトウェアモジュールに変更されることができ、その逆も同様である。

本発明において説明する特定実行等は、一実施形態であって、いかなる方法でも本発明の範囲を限定するものではない。明細書の簡潔さのために、従来の電子的な構成、制御システム、ソフトウェア、上記システムの他の機能的な側面等の記載は省略されることができる。また、図面に図示された構成要素間の線等の連結または連結部材などは、機能的な連結及び／又は物理的または回路的連結を例示的に示したものであって、実際装置では、代替可能であるか、追加の様々な機能的な連結、物理的な連結、または回路連結として表されることができる。また、「必須な」、「重要に」などのように、具体的な言及がなければ、本発明の適用のために必ず必要な構成要素でない場合がある。

また、説明した本発明の詳細な説明では、本発明の好ましい実施形態を参照して説明したが、当該技術分野の熟練された当業者または当該技術分野における通常の知識を有する者であれば、後述する特許請求の範囲に記載された本発明の思想及び技術領域から逸脱しない範囲内で本発明を様々に修正及び変更させ得ることが理解できるであろう。したがって、本発明の技術的範囲は、明細書の詳細な説明に記載された内容に限定されるものではなく、特許請求の範囲により決められなければならないであろう。

１００端末機
２００囲碁サーバ
３００着手モデルサーバ
３１０探索部
３２０セルフプレイ部
３３０着手ニューラルネットワーク
３４０棋風学習補助部
４００形勢判断モデルサーバ
４００ａ形勢判断モデル
４１０形勢判断ニューラルネットワーク
４２０入力特徴抽出部
４３０正解ラベル生成部
４００ｂ棋風判断部

Claims

モンテカルロ木探索（ＭｏｎｔｅＣａｒｌｏＴｒｅｅＳｅａｒｃｈ；ＭＣＴＳ）に基づいて現在碁盤状態に基づいた２つ以上の着手候補手を含む着手候補手情報を提供する着手モデルサーバと、
前記着手候補手情報の提供を受けて各着手候補手に対する棋風判断情報と前記棋風判断情報に基づいて棋風学習データを生成する形勢判断モデルサーバと、を備え、
前記形勢判断モデルサーバは、
前記着手候補手情報を受信し、棋風学習データを送信する通信部と、
前記着手候補手情報に基づいて現在碁盤状態に対する形勢判断に関連した形勢値を生成する形勢判断モデルと前記形勢判断モデルが生成した形勢値に基づいて特定着手候補手に基づいた棋風を判断する棋風判断部を備える格納部と、
前記形勢判断モデルを読み込んで現在碁盤状態の形勢で前記着手候補手情報に対する形勢判断を行い、前記形勢判断モデルによる形勢判断に基づいて前記着手候補手情報の着手候補手に対するそれぞれの棋風判断情報を生成するプロセッサと、を備え、
前記形勢判断モデルは、前記形勢値に基づいて囲碁ゲームのプレイヤとゲーム相手に予測される確定地情報を算出するディープラーニングに基づく囲碁ゲームサービスシステム。
前記形勢判断モデルサーバは、前記形勢値と所定の閾値及び石の有無を利用してプレイヤとゲーム相手との地領域を判断して前記確定地情報を生成する請求項１に記載のディープラーニングに基づく囲碁ゲームサービスシステム。
前記棋風判断部は、着手モデルが学習しようとする棋風を決定する目標棋風情報を設定する請求項１に記載のディープラーニングに基づく囲碁ゲームサービスシステム。
前記棋風判断部は、前記確定地情報に基づいてプレイヤの点数値とゲーム相手の点数値とを算出し、前記算出されたプレイヤの点数値とゲーム相手の点数値とに基づいて点数差値を生成する請求項３に記載のディープラーニングに基づく囲碁ゲームサービスシステム。
前記棋風判断部は、前記形勢判断モデルで算出された確定地情報に基づいて前記プレイヤとゲーム相手の各々に対する点数値と、前記プレイヤの点数値と前記ゲーム相手の点数値との差値を算出し、前記算出された差値と予め設定された棋風判断閾値と比較して棋風判断情報を生成する請求項４に記載のディープラーニングに基づく囲碁ゲームサービスシステム。
前記棋風判断部は、前記棋風判断情報に基づいて着手モデルの自家学習を補助する棋風学習データを生成する請求項５に記載のディープラーニングに基づく囲碁ゲームサービスシステム。
前記棋風判断部は、前記棋風学習データに基づいて着手モデルから取得される棋風学習性能情報を基にして前記棋風判断閾値を調整する請求項６に記載のディープラーニングに基づく囲碁ゲームサービスシステム。
前記着手モデルサーバは、
前記着手候補手情報を送信し、前記棋風学習データを受信する通信部と、
前記着手候補手情報を生成するための学習を行う着手モデルを含む格納部と、
前記着手モデルを読み込んで前記着手モデルの学習実行と現在碁盤状態に基づいた前記着手候補手情報を生成するプロセッサと、をさらに備え、
前記着手モデルは、
モンテカルロ木探索（ＭｏｎｔｅＣａｒｌｏＴｒｅｅＳｅａｒｃｈ；ＭＣＴＳ）に基づいて前記着手候補手を提供する探索部と、前記探索部をガイドする着手ニューラルネットワークと、セルフプレイを行って前記着手ニューラルネットワークが自家学習されるようにするセルフプレイ部と、前記棋風学習データに基づいた前記自家学習を補助する棋風学習補助部とを備え、
前記セルフプレイ部は、
前記棋風学習データを基に学習された上位バージョン着手モデルと下位バージョン着手モデルとの間の囲碁ゲームを行う請求項１に記載のディープラーニングに基づく囲碁ゲームサービスシステム。
前記棋風学習補助部は、前記自家学習の結果に基づいて棋風判断情報を診断した情報である棋風学習性能情報を生成する請求項８に記載のディープラーニングに基づく囲碁ゲームサービスシステム。
通信部、形勢判断モデル、及び棋風判断部が格納された格納部、前記形勢判断モデル及び前記棋風判断部を駆動するプロセッサを備える形勢判断モデルサーバにより碁盤状態の形勢を判断して棋風を判断し、棋風学習データを生成するディープラーニングに基づく囲碁ゲームサービス方法において、
前記プロセッサが目標棋風情報を設定するステップと、
前記棋風判断部が棋風判断閾値を設定するステップと、
前記通信部が碁盤状態に基づいた２つ以上の着手候補手を取得するステップと、
前記プロセッサが前記形勢判断モデルを用いて前記着手候補手が適用された碁盤状態の形勢を判断するステップと、
前記プロセッサが前記棋風判断部を利用して前記判断された形勢に基づいて前記着手候補手の各々に対する点数差値を算出するステップと、
前記プロセッサが前記棋風判断部を利用して前記算出された点数差値と前記棋風判断閾値とに基づいて前記着手候補手の各々に対する棋風判断情報を生成するステップと、
前記通信部が前記生成された棋風判断情報と前記目標棋風情報とに基づいて前記着手候補手の各々に対する前記棋風学習データを生成して送信するステップと、を含み、
前記棋風判断情報は、
前記着手候補手の着手によって実現される棋風のカテゴリを判断した情報であるディープラーニングに基づく囲碁ゲームサービス方法。
着手モデルサーバから棋風学習性能情報を受信するステップをさらに含み、
前記棋風学習性能情報は、前記着手モデルサーバが前記棋風学習データに基づいて前記棋風判断情報を診断した情報である請求項１０に記載のディープラーニングに基づく囲碁ゲームサービス方法。
前記棋風学習性能情報に基づいて前記棋風判断閾値を調整するステップをさらに含む請求項１１に記載のディープラーニングに基づく囲碁ゲームサービス方法。
前記点数差値を算出するステップは、前記着手候補手の各々に対する形勢判断に基づいて形勢値を導出してプレイヤの地の数とゲーム相手の地の数とを算出した情報である確定地情報を生成するステップと、前記確定地情報に基づいてプレイヤの点数値とゲーム相手の点数値とを算出して前記点数差値を生成するステップとを含む請求項１０に記載のディープラーニングに基づく囲碁ゲームサービス方法。
前記棋風のカテゴリは、攻撃的棋風、安定的棋風、及び防御的棋風を含み、
前記攻撃的棋風は、前記点数差値が前記棋風判断閾値より大きい場合であり、前記安定的棋風は、前記点数差値が前記棋風判断閾値と同じ場合であり、前記防御的棋風は、前記点数差値が前記棋風判断閾値より小さい場合である請求項１０に記載のディープラーニングに基づく囲碁ゲームサービス方法。