JP2021018819A

JP2021018819A - ディープラーニングに基づく囲碁ゲームサービスシステム及びサービス方法

Info

Publication number: JP2021018819A
Application number: JP2020122007A
Authority: JP
Inventors: フンパク，ジュン; Jung Hun Park
Original assignee: NHN Japan Corp
Current assignee: NHN Japan Corp
Priority date: 2019-07-17
Filing date: 2020-07-16
Publication date: 2021-02-15
Anticipated expiration: 2040-07-16
Also published as: KR20210009588A; KR102316930B1; JP7051946B2

Abstract

【課題】囲碁規則による地、捨て石、石、駄目、関を正確に区分して囲碁の形勢を正確に判断できるディープラーニングに基づく囲碁ゲームサービスを提供する。【解決手段】囲碁ゲームサービスシステムは、囲碁ゲームサービスと形勢判断を提供する囲碁サーバ２００と、囲碁サーバの着手要請に応答してユーザと囲碁対局を進行する着手モデルサーバ３００と、囲碁サーバから伝達された複数の棋譜情報を基にユーザの形勢判断要請に対応する形勢判断を行う形勢判断モデルサーバ４００とを備える。形勢判断モデルサーバは、形勢判断モデルの学習を行い、学習された形勢判断モデルを用いて、囲碁規則による地、捨て石、石、駄目及び関を区分して囲碁の形勢を判断する。【選択図】図１

Description

本発明は、ディープラーニングに基づく囲碁ゲームサービスシステム及びサービス方法に関するものである。より詳細には、ディープラーニングニューラルネットワークを利用して囲碁形勢を判断する方法及びその装置に関するものである。

スマートフォン、タブレットＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ノートブックなどのようなユーザ端末の利用が大衆化され、情報処理技術が発達するにつれて、ユーザ端末を利用してボードゲームの一種である囲碁を打つことができるようになり、さらに、人でないプログラムされた人工知能コンピュータと囲碁対局が可能なようになった。

囲碁は、チェスや将棋のようなボードゲームに比べて場合の数が多く、人工知能コンピュータが人の水準の対局をするのには限界があった。このような限界を克服するために、人工知能コンピュータの棋力を高めるための研究が活発に進まれている。最近、開発者らは、人工知能コンピュータにモンテカルロ木探索（ＭｏｎｔｅＣａｒｌｏＴｒｅｅＳｅａｒｃｈ、ＭＣＴＳ）アルゴリズムとディープラーニング技術とを適用して人工知能コンピュータの棋力をプロ棋士たちの水準以上に上げた。

特に、囲碁は、対局が進む間、誰がどれくらい勝っているかのような形勢を判断することが重要である。なぜなら、囲碁は、多くの場合の数があり、不利な形勢であるといえども、ゲーム戦略によって有利な形勢に変えることができるためである。しかし、囲碁は、規則による場合の数が多く、正確な形勢を判断することが難しい。囲碁をしきりに打つ一般人やアマチュア達も、場合の数の多い囲碁で形勢判断することが容易でなく、最近開発された人工知能コンピュータを利用して囲碁の形勢を判断させた場合、正確度が顕著に低いという問題があった。最近、対局中、囲碁形勢を判断するための人工知能コンピュータとして、影響力関数を実現する方法がある。しかし、影響力関数を用いた形勢判断方法は、囲碁ゲーム規則が反映されず、判断正確度が低いという問題がある。また、パターンを利用した形勢判断方法が開発されたが、この方法は、碁盤に置かれた碁石のパターンに対する影響力を計算して形勢を予測する方法である。しかし、パターンを利用した形勢判断方法は、特定状況では判断できないか、正確な判断ができないという問題がある。また、ロールアウトニューラルネットワークを利用した形勢判断方法は、現在碁盤の状態で一定の数の分だけゲームの終わりまでシミュレーションしてみた後、ゲーム終了状態の碁盤で各石の状態に対する平均値で形勢を予測する方法である。

しかし、ロールアウトニューラルネットワークを利用した形勢判断方法は、シミュレーションに多くの時間が必要であり、シミュレーション結果に基づいた形勢判断も正確でないという問題がある。また、ディープラーニング技術を利用した形勢判断方法は、ＣＮＮを使用して囲碁形勢を学習したモデルを用いた方法（ＧｏＣＮＮ）であるが、形勢予測と碁盤上の捨て石の予測正確度が低く、駄目や関の予測正確度が低いという問題点がある。

大韓民国公開特許公報第１０−２０１５−０１２９２６５号

本発明は、前述した問題点を解決するための、ディープラーニングに基づく囲碁ゲームサービスシステム及びサービス方法に関するものである。より詳細には、ディープラーニングニューラルネットワークを利用して囲碁形勢を判断する方法及びその装置を提案しようとする。

具体的に、本発明は、囲碁規則による地、捨て石、石、駄目、関を正確に区分して囲碁の形勢を正確に判断できるディープラーニングに基づく囲碁ゲームサービスシステム及びサービス方法を提供することを目的とする。

また、本発明は、囲碁規則による地、捨て石、石、駄目、関を予測して囲碁の形勢を正確に判断できるディープラーニングに基づく囲碁ゲームサービスシステム及びサービス方法を提供することを目的とする。

また、本発明は、囲碁対局中、速かに形勢を判断できるディープラーニングに基づく囲碁ゲームサービスシステム及びサービス方法を提供することを目的とする。

実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステムは、ユーザが端末機を介して囲碁ゲームを要請したり、囲碁対局中、形勢判断を要請することに応答して囲碁ゲームサービスと形勢判断を提供する囲碁サーバと、前記囲碁サーバの着手要請に応答して前記ユーザと囲碁対局を進行する着手モデルサーバと、前記囲碁サーバから伝達された複数の棋譜情報を基に前記ユーザの形勢判断要請に対応する形勢判断を行う形勢判断モデルサーバとを備えることができる。

また、形勢判断モデルサーバは、前記囲碁サーバから伝達された複数の棋譜情報を格納する格納部と、前記囲碁サーバからユーザが要請した形勢判断要請を受信し、形勢判断を前記囲碁サーバに提供する通信部と、前記格納部から形勢判断モデルを読み込んで前記形勢判断モデルの学習を行い、前記学習された形勢判断モデルを用いて碁盤状態の形勢を判断するプロセッサとを備えることができる。

また、形勢判断モデルは、前記複数の棋譜情報から第１碁盤状態に関する入力特徴を抽出する入力特徴抽出部と、前記抽出された入力特徴を基に現在進行中である対局の第２碁盤状態でヨセをすることができる正解ラベルを生成する正解ラベル生成部と、前記抽出された入力特徴に対する入力データが前記正解ラベルに対するターゲットデータと同じになるように、前記形勢判断モデルを学習させる形勢判断ニューラルネットワークとを備えることができる。

また、前記正解ラベルは、前記第２碁盤状態で交差点等に対して−１から＋１までの数値で表示された形勢値でありうるし（ただし、形勢値は定数）、前記正解ラベルは、前記第２碁盤状態でヨセのために地の境界が明確になるようにする第１の前処理と、前記第１の前処理状態で地の境界内に配置され、地の区分に不要な石を除去する第２の前処理を行って取得されることができる。

また、前記正解ラベルは、前記第２の前処理状態で前記第２碁盤状態の各交差点を−１、０、または＋１のうち、いずれか１つの数値からなる形勢値に変更する第３の前処理を介して取得されることができ、前記第３の前処理は、前記第２の前処理状態で所定の交差点で自分の石が配置されれば０、自分の地領域であれば＋１、相手の石が配置されれば０、相手の地領域であれば−１に対応した形勢値に変更することができる。

また、前記第３の前処理は、前記第２の前処理状態で所定の交差点で自分の石が配置されれば０、自分の地領域であれば＋１、相手の石が配置されれば０、相手の地領域であれば−１、関または駄目であれば０に対応した形勢値に変更することができ、前記形勢判断ニューラルネットワークは、複数のレシデュアルブロックを含み、前記複数のレシデュアルブロックの各々は、コンボリューションレイヤ、一括正規化レイヤ、Ｒｅｌｕ活性化関数レイヤ、スキップコネクションを含むことができる。

また、前記形勢判断ニューラルネットワークは、下記の数式による形勢判断損失Ｌ_ｐｒｅを用いてトレーニングすることができる。

また、前記入力特徴は、前記第１碁盤状態で黒プレイヤの最近の８手に対する石の位置情報と白プレイヤの最近の８手に対する石の位置情報と、現在プレイヤが黒であるか白であるかに対する順序情報を含むことができる。

実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、通信部、形勢判断モデルが格納された格納部、前記形勢判断モデルを駆動するプロセッサを備える形勢判断モデルサーバにより碁盤状態の形勢を判断するディープラーニングに基づく囲碁ゲームサービス方法において、前記通信部が複数の棋譜を受信するステップと、前記プロセッサが前記形勢判断モデルの入力特徴抽出部を利用して前記複数の棋譜の第１碁盤状態に関する入力特徴を抽出するステップと、前記プロセッサが前記形勢判断モデルの正解ラベル生成部を利用して前記入力特徴に基づいて現在進行中である対局の第２碁盤状態でヨセをすることができる正解ラベルを生成するステップと、前記プロセッサが、前記入力特徴に対する入力データが前記正解ラベルに対するターゲットデータと同じになるように前記形勢判断モデルをトレーニングするステップと、前記プロセッサがトレーニングを完了して形勢判断モデルを構築するステップと、前記プロセッサが前記トレーニングされた形勢判断モデルを用いて形勢判断が必要な第２碁盤状態が入力されれば、前記第２碁盤状態の交差点に対する形勢値を生成する形勢判断を行うステップとを含むことができる。

実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステム及びサービス方法は、ディープラーニングニューラルネットワークを利用して囲碁形勢を判断できる。

また、実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステム及びサービス方法は、囲碁規則による地、捨て石、石、駄目、関を正確に区分して囲碁の形勢を正確に判断することができる。

また、実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステム及びサービス方法は、囲碁規則による地、捨て石、石、駄目、関を予測して囲碁の形勢を正確に判断することができる。

また、実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステム及びサービス方法は、囲碁対局中、速かに形勢を判断できる。

本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステムに対する例示図である。本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービスにおいて人工知能コンピュータの着手のための着手モデルサーバの着手モデル構造を説明するための図である。着手モデルの政策による着手点に対する移動確率分布を説明するための図である。着手モデルの着手点に対する価値と訪問回数を説明するための図である。着手モデルが探索部のパイプラインに沿って着手する過程を説明するための図である。本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービスの形勢判断機能を提供する画面を見せる例示図である。本発明の形勢判断モデルサーバの形勢判断モデル構造を説明するための図である。本発明の形勢判断モデルの複数のブロックからなるニューラルネットワーク構造のうち、１つのブロックを説明するための図である。本発明の形勢判断モデルを学習するために使用される正解ラベルを生成するための第１及び第２の前処理ステップを説明するための図である。本発明の形勢判断モデルを学習するために使用される正解ラベルを生成するための第１及び第２の前処理ステップを説明するための図である。本発明の形勢判断モデルを学習するために使用される正解ラベルを生成するための第３の前処理ステップを説明するための図である。本発明の形勢判断モデルの形勢判断結果を説明するための図である。本発明の形勢判断モデルの形勢判断結果と従来技術に係るディープラーニングモデルによる形勢判断結果とを比較した形状である。本発明の形勢判断モデルの形勢判断結果と従来技術に係るディープラーニングモデルによる形勢判断結果とを比較した形状である。本発明の形勢判断モデルの形勢判断結果と従来技術に係るディープラーニングモデルによる形勢判断結果とを比較した形状である。本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステムにおける信号フローに対する例示図である。本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法のうち、形勢判断方法である。図１７の形勢判断方法のうち、正解ラベルを生成するためのトレーニングデータの前処理方法である。

本発明は、様々な変換を加えることができ、種々の実施形態を有することができるところ、特定の実施形態を図面に例示し、詳細な説明に詳しく説明しようとする。本発明の効果及び特徴、そして、それらを達成する方法は、図面とともに詳しく後述されている実施形態を参照すれば明確になるであろう。しかし、本発明は、以下において開示される実施形態等に限定されるものではなく、様々な形態で実現されることができる。以下の実施形態において、第１、第２などの用語は、限定的な意味ではなく、１つの構成要素を他の構成要素と区別する目的として使用された。また、単数の表現は、文脈上、明白に異なるように意味しない限り、複数の表現を含む。また、「含む」または「有する」などの用語は、明細書上に記載された特徴または構成要素が存在することを意味するものであり、１つ以上の他の特徴または構成要素が付加される可能性を予め排除するものではない。また、図面では、説明の都合上、構成要素等が、そのサイズが誇張または縮小され得る。例えば、図面に示された各構成のサイズ及び厚さは、説明の都合上、任意に示したので、本発明が必ずしも図示されたところに限定されない。

以下、添付された図面を参照して本発明の実施形態を詳しく説明し、図面を参照して説明するとき、同一であるか、対応する構成要素は同様の図面符号を付し、これについての重複する説明を省略する。

図１は、本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステムに対する例示図である。

図１に示すように、実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステムは、端末機１００、囲碁サーバ２００、着手モデルサーバ３００、形勢判断モデルサーバ４００、及びネットワーク５００を備えることができる。

図１の各構成要素は、ネットワーク５００を介して連結されることができる。端末機１００、囲碁サーバ２００、着手モデルサーバ３００、及び形勢判断モデルサーバ４００などのようなそれぞれのノード相互間に情報交換が可能な連結構造を意味するものであって、このようなネットワークの一例には、３ＧＰＰ（３ｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ）ネットワーク、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）ネットワーク、ＷＩＭＡＸ（ＷｏｒｌｄＩｎｔｅｒｏｐｅｒａｂｉｌｉｔｙｆｏｒＭｉｃｒｏｗａｖｅＡｃｃｅｓｓ）ネットワーク、インターネット（Ｉｎｔｅｒｎｅｔ）、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷｉｒｅｌｅｓｓＬＡＮ（ＷｉｒｅｌｅｓｓＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、ＰＡＮ（ＰｅｒｓｏｎａｌＡｒｅａＮｅｔｗｏｒｋ）、ブルートゥース（登録商標）（Ｂｌｕｅｔｏｏｔｈ）ネットワーク、衛星放送ネットワーク、アナログ放送ネットワーク、ＤＭＢ（ＤｉｇｉｔａｌＭｕｌｔｉｍｅｄｉａＢｒｏａｄｃａｓｔｉｎｇ）ネットワークなどが含まれるが、これに限定されるものではない。

＜端末機１００＞
まず、端末機１００は、囲碁ゲームサービスの提供を受けようとするユーザの端末機である。また、端末機１００は、様々な作業を行うアプリケーションを実行するためにユーザが使用する１つ以上のコンピュータまたは他の電子装置である。例えば、コンピュータ、ラップトップコンピュータ、スマートフォン、モバイル電話機、ＰＤＡ、タブレットＰＣ、あるいは囲碁サーバ２００と通信するように動作可能な任意の他のデバイスを備える。ただし、これに限定されるものではなく、端末機１００は、様々なマシン上で実行され、複数のメモリ内に格納された命令語を解釈して実行するプロセッシングロジックを備え、外部入力／出力デバイス上にグラフィックユーザインターフェース（ＧＵＩ）のためのグラフィック情報をディスプレイするプロセスなどのように、様々なその他の要素を含むことができる。さらに、端末機１００は、入力装置（例えば、マウス、キーボード、タッチ感知表面等）及び出力装置（例えば、ディスプレイ装置、モニタ、スクリーン等）に接続されることができる。端末機１００により実行されるアプリケーションは、ゲームアプリケーション、ウェブブラウザ、ウェブブラウザで動作するウェブアプリケーション、ワードプロセッサ、メディアプレイヤ、スプレッドシート、イメージプロセッサ、保安ソフトウェア、またはその他のものを含むことができる。

また、端末機１００は、命令を格納する少なくとも１つのメモリ１０１、少なくとも１つのプロセッサ１０２、及び通信部１０３を備えることができる。

端末機１００のメモリ１０１は、端末機１００で駆動される複数の応用プログラム（ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍ）またはアプリケーション（ａｐｐｌｉｃａｔｉｏｎ）、端末機１００の動作のためのデータ、命令語を格納することができる。命令は、プロセッサ１０２をして動作を実行させるためにプロセッサ１０２により実行可能であり、動作は、囲碁ゲーム実行要請信号を送信、ゲームデータ送受信、着手情報送受信、形勢判断要請信号を送信、形勢判断結果受信、及び各種情報を受信する動作を含むことができる。また、メモリ１０１は、ハードウェア的に、ＲＯＭ、ＲＡＭ、ＥＰＲＯＭ、フラッシュドライブ、ハードドライブなどのような様々な格納機器でありうるし、メモリ１０１は、インターネット（ｉｎｔｅｒｎｅｔ）上で前記メモリ１０１の格納機能を果たすウェブストレージ（ｗｅｂｓｔｏｒａｇｅ）でありうる。

端末機１００のプロセッサ１０２は、全般的な動作を制御して囲碁ゲームサービスの提供を受けるためのデータ処理を行うことができる。端末機１００で囲碁ゲームアプリケーションが実行されれば、端末機１００で囲碁ゲーム環境が構成される。そして、囲碁ゲームアプリケーションは、ネットワーク５００を介して囲碁サーバ２００と囲碁ゲームデータとを交換して端末機１００上で囲碁ゲームサービスが実行されるようにする。このようなプロセッサ１０２は、ＡＳＩＣｓ（ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔｓ）、ＤＳＰｓ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒｓ）、ＤＳＰＤｓ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇｄｅｖｉｃｅｓ）、ＰＬＤｓ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅｓ）、ＦＰＧＡｓ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙｓ）、制御機（ｃｏｎｔｒｏｌｌｅｒｓ）、マイクロコントローラ（ｍｉｃｒｏ−ｃｏｎｔｒｏｌｌｅｒｓ）、マイクロプロセッサ（ｍｉｃｒｏｐｒｏｃｅｓｓｏｒｓ）、その他の機能実行のための任意の形態のプロセッサでありうる。

端末機１００の通信部１０３は、下記の通信方式（例えば、ＧＳＭ（ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ）、ＣＤＭＡ（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉＡｃｃｅｓｓ）、ＨＳＤＰＡ（ＨｉｇｈＳｐｅｅｄＤｏｗｎｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ）、ＨＳＵＰＡ（ＨｉｇｈＳｐｅｅｄＵｐｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ）、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、ＬＴＥ−Ａ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ−Ａｄｖａｎｃｅｄ）等）、ＷＬＡＮ（ＷｉｒｅｌｅｓｓＬＡＮ）、Ｗｉ−Ｆｉ（Ｗｉｒｅｌｅｓｓ−Ｆｉｄｅｌｉｔｙ）、Ｗｉ−Ｆｉ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）Ｄｉｒｅｃｔ、ＤＬＮＡ（登録商標）（ＤｉｇｉｔａｌＬｉｖｉｎｇＮｅｔｗｏｒｋＡｌｌｉａｎｃｅ）、ＷｉＢｒｏ（ＷｉｒｅｌｅｓｓＢｒｏａｄｂａｎｄ）、ＷｉＭＡＸ（ＷｏｒｌｄＩｎｔｅｒｏｐｅｒａｂｉｌｉｔｙｆｏｒＭｉｃｒｏｗａｖｅＡｃｃｅｓｓ）によって構築されたネットワーク網上で基地局、外部の端末、サーバのうち、少なくとも１つと無線信号を送受信できる。

＜囲碁サーバ２００＞
囲碁サーバ２００が提供する囲碁ゲームサービスは、囲碁サーバ２００が提供する仮像のコンピュータユーザと実際ユーザとが共にゲームに参加する形態で構成されることができる。これは、ユーザ側端末機１００上で実現される囲碁ゲーム環境で１つの実際ユーザと１つのコンピュータユーザとが共にゲームをプレイする。他の側面において、囲碁サーバ２００が提供する囲碁ゲームサービスは、複数のユーザ側デバイスが参加して囲碁ゲームがプレイされる形態で構成されることもできる。

囲碁サーバ２００は、命令を格納する少なくとも１つのメモリ２０１、少なくとも１つのプロセッサ２０２、及び通信部２０３を備えることができる。

囲碁サーバ２００のメモリ２０１は、囲碁サーバ２００で駆動される複数の応用プログラム（ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍ）またはアプリケーション（ａｐｐｌｉｃａｔｉｏｎ）、囲碁サーバ２００の動作のためのデータ、命令語を格納することができる。命令は、プロセッサ２０２をして動作を実行させるためにプロセッサ２０２により実行可能であり、動作は、ゲーム実行要請信号受信、ゲームデータ送受信、着手情報送受信、形勢判断要請信号送受信、形勢判断結果送受信、及び各種送信動作を含むことができる。また、メモリ２０１は、囲碁サーバ２００で対局した複数の棋譜または既存に公開された複数の棋譜を格納することができる。複数の棋譜の各々は、対局開始の初めの着手情報である第１の着手から対局が終了される最終着手までの情報を全て含むことができる。すなわち、複数の棋譜は、着手に関するヒストリー情報を含むことができる。囲碁サーバ２００は、形勢判断モデルサーバ４００のトレーニングのために、格納された複数の棋譜を形勢判断モデルサーバ４００に提供できるようにする。また、メモリ２０１は、ハードウェア的に、ＲＯＭ、ＲＡＭ、ＥＰＲＯＭ、フラッシュドライブ、ハードドライブなどのような様々な格納機器でありうるし、メモリ２０１は、インターネット（ｉｎｔｅｒｎｅｔ）上で前記メモリ２０１の格納機能を果たすウェブストレージ（ｗｅｂｓｔｏｒａｇｅ）でありうる。

囲碁サーバ２００のプロセッサ２０２は、全般的な動作を制御して囲碁ゲームサービスを提供するためのデータ処理を行うことができる。このようなプロセッサ２０２は、ＡＳＩＣｓ（ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔｓ）、ＤＳＰｓ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒｓ）、ＤＳＰＤｓ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇｄｅｖｉｃｅｓ）、ＰＬＤｓ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅｓ）、ＦＰＧＡｓ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙｓ）、制御機（ｃｏｎｔｒｏｌｌｅｒｓ）、マイクロコントローラ（ｍｉｃｒｏ−ｃｏｎｔｒｏｌｌｅｒｓ）、マイクロプロセッサ（ｍｉｃｒｏｐｒｏｃｅｓｓｏｒｓ）、その他の機能実行のための任意の形態のプロセッサでありうる。

囲碁サーバ２００は、通信部２０３を介してネットワーク５００を経由して端末機１００、着手モデルサーバ３００、及び形勢判断モデルサーバ４００と通信を行うことができる。

＜着手モデルサーバ３００＞
着手モデルサーバ３００は、別のクラウドサーバやコンピュータ装置を備えることができる。また、着手モデルサーバ３００は、端末機１００のプロセッサまたは囲碁サーバ２００のデータ処理部に設けられたニューラルネットワークシステムでありうるが、以下において着手モデルサーバ３００は、端末機１００または囲碁サーバ２００とは別の装置として説明する。

着手モデルサーバ３００は、命令を格納する少なくとも１つのメモリ３０１、少なくとも１つのプロセッサ３０２、及び通信部３０３を備えることができる。

着手モデルサーバ３００は、囲碁規則によって自ら学習してディープラーニングモデルである着手モデルを構築し、端末機１００のユーザと対局が可能な人工知能コンピュータであって、自分のターンにおいて対局で勝つことができるように碁石の着手を行うことができる。着手モデルサーバ３００が着手モデルでトレーニングする詳しい説明は、図２〜図５の着手モデルに関する説明にしたがう。

着手モデルサーバ３００のメモリ３０１は、着手モデルサーバ３００で駆動される複数の応用プログラム（ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍ）またはアプリケーション（ａｐｐｌｉｃａｔｉｏｎ）、着手モデルサーバ３００の動作のためのデータ、命令語を格納することができる。命令は、プロセッサ３０２をして動作を実行させるためにプロセッサ３０２により実行可能であり、動作は、着手モデル学習（トレーニング）動作、着手情報送受信、及び各種送信動作を含むことができる。また、メモリ３０１は、ディープラーニングモデルである着手モデルを格納することができる。また、メモリ３０１は、ハードウェア的に、ＲＯＭ、ＲＡＭ、ＥＰＲＯＭ、フラッシュドライブ、ハードドライブなどのような様々な格納機器でありうるし、メモリ３０１は、インターネット（ｉｎｔｅｒｎｅｔ）上で前記メモリ３０１の格納機能を果たすウェブストレージ（ｗｅｂｓｔｏｒａｇｅ）でありうる。

着手モデルサーバ３００のプロセッサ３０２は、メモリ３０２に格納された着手モデルを読み出して、構築されたニューラルネットワークシステムにしたがって下記に記述する着手モデル学習及び碁石着手を行うようになる。実施形態によってプロセッサ３０２は、全体ユニットを制御するメインプロセッサと、着手モデルによってニューラルネットワーク駆動の際に必要な大容量の演算を処理する複数のグラフィックプロセッサ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＧＰＵ）とを備えるように構成されることができる。

着手モデルサーバ３００は、通信部３０３を介してネットワーク５００を経由して囲碁サーバ２００と通信を行うことができる。さらに、着手モデルサーバ３００は、ネットワーク５００を経由して形勢判断モデルサーバ４００及び端末機１００とも通信を行うことができる。

＜形勢判断モデルサーバ４００＞
形勢判断モデルサーバ４００は、別のクラウドサーバやコンピュータ装置を備えることができる。また、形勢判断モデルサーバ４００は、端末機１００のプロセッサまたは囲碁サーバ２００のデータ処理部に設けられたニューラルネットワークシステムでありうるが、以下において形勢判断モデルサーバ４００は、端末機１００または囲碁サーバ２００とは別の装置として説明する。

形勢判断モデルサーバ４００は、命令を格納する少なくとも１つのメモリ４０１、少なくとも１つのプロセッサ４０２、及び通信部４０３を備えることができる。

形勢判断モデルサーバ４００は、通信部４０３を介して囲碁サーバ２００からトレーニングデータセットを受信できる。トレーニングデータセットは、複数の棋譜と、当該複数の棋譜に対する形勢判断情報でありうる。形勢判断モデルサーバ４００は、受信したトレーニングデータセットを用いて碁石が置かれた碁盤の状態に対する形勢を判断できるように指導学習してディープラーニングモデルである形勢判断モデルを構築し、端末機１００ユーザの形勢判断要請に応じて形勢判断を行うことができる。形勢判断モデルサーバ４００が形勢判断モデルでトレーニングする詳しい説明は、図６〜図１８の形勢判断モデルに関する説明にしたがう。

形勢判断モデルサーバ４００のメモリ４０１は、形勢判断モデルサーバ４００で駆動される複数の応用プログラム（ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍ）またはアプリケーション（ａｐｐｌｉｃａｔｉｏｎ）、形勢判断モデルサーバ４００の動作のためのデータ、命令語を格納することができる。命令は、プロセッサ４０２をして動作を実行させるためにプロセッサ４０２により実行可能であり、動作は、形勢判断モデル学習（トレーニング）動作、形勢判断実行、形勢判断結果送信、複数の棋譜情報受信、及び各種送信動作を含むことができる。また、メモリ４０１は、ディープラーニングモデルである形勢判断モデルを格納できる。また、メモリ４０１は、ハードウェア的に、ＲＯＭ、ＲＡＭ、ＥＰＲＯＭ、フラッシュドライブ、ハードドライブなどのような様々な格納機器でありうるし、メモリ４０１は、インターネット（ｉｎｔｅｒｎｅｔ）上で前記メモリ４０１の格納機能を果たすウェブストレージ（ｗｅｂｓｔｏｒａｇｅ）でありうる。

形勢判断モデルサーバ４００のプロセッサ４０２は、メモリ４０１に格納された形勢判断モデルを読み込んだ後、構築されたニューラルネットワークシステムにしたがって下記に記述する形勢判断モデル学習及び対局中、碁盤の形勢判断を行うようになる。実施形態によってプロセッサ４０２は、全体ユニットを制御するメインプロセッサと、形勢判断モデルによってニューラルネットワーク駆動の際に必要な大容量の演算を処理する複数のグラフィックプロセッサ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＧＰＵ）とを備えるように構成されることができる。

形勢判断モデルサーバ４００は、通信部４０３を介してネットワーク５００を経由して囲碁サーバ２００と通信を行うことができる。さらに、形勢判断モデルサーバ４００は、ネットワーク５００を経由して着手モデルサーバ３００及び端末機１００と通信を行うことができる。

＜着手モデル＞
図２は、本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービスにおいて人工知能コンピュータの着手のための着手モデルサーバ３００の着手モデル構造を説明するための図であり、図３は、着手モデルの政策による着手点に対する移動確率分布を説明するための図であり、図４は、着手モデルの着手点に対する価値と訪問回数を説明するための図であり、図５は、着手モデルが探索部のパイプラインに沿って着手する過程を説明するための図である。

図２に示すように、本発明の実施形態に係る着手モデルは、着手モデルサーバ３００のディープラーニングモデルであって、探索部３１０、セルフプレイ部３２０、着手ニューラルネットワーク３３０を備えることができる。

着手モデルは、探索部３１０、セルフプレイ部３２０、及び着手ニューラルネットワーク３３０を用いて対局で勝つことができるように着手するモデルとして学習されることができる。より具体的に、探索部３１０は、着手ニューラルネットワーク３３０のガイドによってモンテカルロ木探索（ＭｏｎｔｅＣａｒｌｏＴｒｅｅＳｅａｒｃｈと、ＭＣＴＳ）動作を行うことができる。ＭＣＴＳは、一種の意思決定のための体験的探索アルゴリズムである。すなわち、探索部３１０は、着手ニューラルネットワーク３３０が提供する移動確率値Ｐ及び／又は価値Ｖに基づいてＭＣＴＳを行うことができる。一例として、着手ニューラルネットワーク３３０によりガイドされた探索部３１０は、ＭＣＴＳを行って着手点等に対する確率分布値である探索確率値πを出力できる。セルフプレイ部３２０は、探索確率値πによって自ら囲碁対局をすることができる。セルフプレイ部３２０は、ゲームの勝敗が決定される時点まで自ら囲碁対局を進み、自家対局が終了されれば、碁盤状態Ｓ、探索確率値π、自家プレイ価値Ｚを着手ニューラルネットワーク３３０に提供することができる。碁盤状態Ｓは、着手点等に碁石が置かれた状態である。自家プレイ価値Ｚは、碁盤状態Ｓで自家対局したときの勝率値である。着手ニューラルネットワーク３３０は、移動確率値Ｐと価値Ｖを出力できる。移動確率値Ｐは、碁盤状態Ｓによって着手点等に対してどの着手点に着手することがゲームに勝つことができる良い手であるか数値として表した確率分布値である。価値Ｖは、当該着手点に着手時の勝率を表す。例えば、移動確率値Ｐが高い着手点が良い手でありうる。着手ニューラルネットワーク３３０は、移動確率値Ｐが探索確率値πと同一になるようにトレーニングされ、価値Ｖが自家プレイ価値Ｚと同一になるようにトレーニングされることができる。その後、トレーニングされた着手ニューラルネットワーク３３０は、探索部３１０をガイドし、探索部３１０は、以前探索確率値πより良い手を探すようにＭＣＴＳを進行して新しい探索確率値πを出力させる。セルフプレイ部３２０は、新しい探索確率値πに基づいて碁盤状態Ｓによる新しい自家プレイ価値Ｚを出力し、碁盤状態Ｓ、新しい探索確率値π、新しい自家プレイ価値Ｚを着手ニューラルネットワーク３３０に提供することができる。着手ニューラルネットワーク３３０は、移動確率値Ｐと価値Ｖが新しい探索確率値πと新しい自家プレイ価値Ｚで出力されるように再度トレーニングされることができる。すなわち、着手モデルは、このような過程を繰り返して、着手ニューラルネットワーク３３０が対局で勝つためのより良い着手点を探すようにトレーニングされることができる。一例として、着手モデルは、着手損失ｌを利用できる。着手損失ｌは、数式１のとおりである。

θは、ニューラルネットワークのパラメータであり、ｃは、非常に小さい定数である。

数式１の着手損失ｌにおいてｚ（自家プレイ価値）とｖ（価値）とが同じになるようにすることは、平均二乗損失（ｍｅａｎｓｑｕａｒｅｌｏｓｓ）タームに該当し、πとｐ（移動確率値）とが同じになるようにすることは、クロスエントロピー損失（ｃｒｏｓｓｅｎｔｒｏｐｙｌｏｓｓ）タームに該当し、θにｃをかけることは、正規化タームであって、オーバーフィッティングを防止するためのものである。

例えば、図３に示すように、トレーニングされた着手モデルは、着手点等の移動確率値Ｐを図３のように確率分布値で表すことができる。図４に示すように、トレーニングされた着手モデルの価値Ｖは、図４の１つの着手点において上に表示された値で表すことができる。着手ニューラルネットワーク３３０は、ニューラルネットワーク構造で構成されることができる。一例として、着手ニューラルネットワーク３３０は、１個のコンボリューション（ｃｏｎｖｏｌｕｔｉｏｎ）ブロックと１９個のレシデュアル（ｒｅｓｉｄｕａｌ）ブロックとで構成されることができる。コンボリューションブロックは、３×３コンボリューションレイヤが複数個重なった形態でありうる。１つのレシデュアルブロックは、３×３コンボリューションレイヤが複数個重なり、スキップコネクションを含んだ形態でありうる。スキップコネクションは、所定のレイヤの入力が当該レイヤの出力値と合わせられて出力され、他のレイヤに入力される構造である。また、着手ニューラルネットワーク３３０の入力は、黒プレイヤの最近の８手に対する石の位置情報と百プレイヤの最近の８手に対する石の位置情報と、現在プレイヤが黒であるか白であるかに対する順序情報を含んだ１９＊１９＊１７のＲＧＢイメージが入力され得る。

図５に示すように、学習された着手モデルは、自分の順序で着手ニューラルネットワーク３３０と探索部３１０を用いて着手することができる。着手モデルは、選択過程ａを介して現在第１碁盤状態Ｓ、Ｓ１でＭＣＴＳを介して探索しなかった枝である第２碁盤状態Ｓ、Ｓ１−２で活動関数Ｑと信頼値Ｕとが高い着手点を選択する。活動関数Ｑは、当該枝を通る度に算出された価値Ｖの平均値である。信頼値Ｕは、当該枝を通る訪問回数Ｎに比例する。着手モデルは、拡張と評価過程ｂを介して選択された着手点での第３碁盤状態Ｓ、Ｓ１−２−１に拡張し、移動確率値Ｐを算出できる。着手モデルは、バックアップ過程ｃを介して拡張された第３碁盤状態Ｓ、Ｓ１−２−１の価値を算出し、通った枝等の活動関数Ｑ、訪問回数Ｎ、移動確率値Ｐを格納することができる。着手モデルは、選択ａ、拡張及び評価ｂ、バックアップｃ過程を繰り返し、各着手点に対する訪問回数Ｎを用いて確率分布を作って探索確率値πを出力できる。着手モデルは、着手点等のうち、最も高い探索確率値πを選択して着手することができる。

＜形勢判断モデル＞
図６は、本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービスの形勢判断機能を提供する画面を見せる例示図であり、図７は、本発明の形勢判断モデルサーバ４００の形勢判断モデル構造を説明するための図であり、図８は、本発明の形勢判断モデルの複数のブロックからなるニューラルネットワーク構造のうち、１つのブロックを説明するための図である。

図６に示すように、本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービスは、現在碁盤状態の形勢判断をすることができる。一例として、図６のように、ユーザが端末機１００の画面で囲碁対局中、形勢判断メニューＡをクリックして形勢判断を要請すれば、ディープラーニングに基づく囲碁ゲームサービスがポップアップウィンドウに形勢判断結果を提供できる。形勢判断は、囲碁対局中に相手方と自分の地を計算して、誰が何点で勝っているのか判断することである。例えば、ユーザは、形勢が自分に有利であるという判断がつくと、それ以上無理せずに、現在の有利な状況をそのまま維持したまま対局を終了する方向に戦略を立てるはずであり、仮りに、不利であるという判断であれば、ゲーム局面を新しく転換できるように様々な戦略を模索することができる。形勢判断の基準は、碁石が碁盤に配置された状態による地、捨て石、石、駄目、関になる。石は、碁盤に置かれた石であり、韓国の規則では点数ではない。地は、１つの色の碁石で囲まれた空いた点から構成された領域であって、韓国の規則では点数である。駄目と関は、囲碁が終わったとき、黒地でも百地でもない領域であって、韓国の規則では点数ではない。碁盤上の捨て石は、碁盤上に置かれた石のうち、どのように打っても捕まえるしかなく、死んだ石であって、韓国の規則では、相手方の地を埋めるのに使用するので点数である。関は、囲碁が終わったとき、黒地でも百地でもない領域をいう。したがって、形勢判断は、碁石が置かれた碁盤状態で地、捨て石、石、駄目、関を正確に区分または予測してこそ正確な判断になることができる。このとき、地、捨て石、石、駄目、関を正確に区分することは、地、捨て石、石、駄目、関が完全になされた状態を区分することであり、地、捨て石、石、駄目、関を正確に予測することは、地、捨て石、石、駄目、関になる可能性が高い状態を予測することでありうる。

図７に示すように、本発明の実施形態に係る形勢判断モデルは、形勢判断モデルサーバ４００のディープラーニングモデルであって、形勢判断ニューラルネットワーク４１０、入力特徴抽出部４２０、及び正解ラベル生成部４３０を備えることができる。

形勢判断モデルは、形勢判断ニューラルネットワーク４１０を用いて現在碁盤状態の形勢を判断できるように指導学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）することができる。より具体的に、形勢判断モデルの碁盤状態Ｓに関するトレーニングデータセットを生成し、生成されたトレーニングデータセットを用いて形勢判断ニューラルネットワーク４１０が現在碁盤状態Ｓによる形勢を判断できるように学習させることができる。形勢判断モデルサーバ４００は、囲碁サーバ２００から複数の棋譜を受信できる。複数の棋譜の各棋譜は、着手順序によるそれぞれの碁盤状態Ｓを含むことができる。

入力特徴抽出部４２０は、複数の棋譜の碁盤状態Ｓで入力特徴ＩＦを抽出して形勢判断ニューラルネットワーク４１０にトレーニングのための入力データとして提供することができる。碁盤状態Ｓの入力特徴ＩＦは、黒プレイヤの最近の８手に対する石の位置情報と白プレイヤの最近の８手に対する石の位置情報と、現在プレイヤが黒であるか白であるかに対する順序情報を含んだ１９＊１９＊１８のＲＧＢイメージでありうる。一例として、入力特徴抽出部４２０は、ニューラルネットワーク構造からなっていることができ、一種のエンコーダを含むことができる。

形勢判断ニューラルネットワーク４１０は、ニューラルネットワーク構造で構成されることができる。一例として、形勢判断ニューラルネットワーク４２０は、１９個のレシデュアル（ｒｅｓｉｄｕａｌ）ブロックで構成されることができる。図８に示すように、任意の１つのレシデュアルブロック（８００：ｂｌｏｃｋｎ）は、２５６個の３×３コンボリューションレイヤ８０１、第１の一括正規化（ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ）レイヤ８０２、第１のＲｅｌｕ活性化関数レイヤ８０３、２５６個の３×３コンボリューションレイヤ８０４、第２の一括正規化（ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ）レイヤ８０５、スキップコネクション８０７、第２のＲｅｌｕ活性化関数レイヤ８０６の順に配置されることができる。第１及び第２の一括正規化（ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ）レイヤ８０２、８０５は、学習する途中に以前レイヤのパラメータ変化のため、現在レイヤの入力の分布が変わる現象である共変量シフト（ｃｏｖａｒｉａｔｅｓｈｉｆｔ）を防止するためのものである。スキップコネクション８０７は、ブロック層が厚くなってもニューラルネットワークの性能が減少することを防止し、ブロック層をさらに厚くして全体ニューラルネットワークの性能を高めることができるようにする。スキップコネクション８０７は、レシデュアルブロック８００の最初入力データが２番目の第２の一括正規化（ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ）レイヤ８０５の出力と合わせて２番目に配置された第２のＲｅｌｕ活性化関数レイヤ８０６に入力される形態でありうる。

図９及び図１０は、本発明の形勢判断モデルを学習するために使用される正解ラベルを生成するための第１及び第２の前処理ステップを説明するための図であり、図１１は、本発明の形勢判断モデルを学習するために使用される正解ラベルを生成するための第３の前処理ステップを説明するための図である。

正解ラベル生成部４３０は、形勢判断ニューラルネットワーク４１０が正確な形勢判断が可能なように学習するのに用いられる正解ラベルを生成できる。

より具体的に、正解ラベル生成部４３０は、入力データに基になる碁盤状態Ｓを入力として受け、現在碁盤状態Ｓでヨセをする第１の前処理を行って第１の前処理状態Ｐ１を生成できる。第１の前処理であるヨセは、地の計算をする前に地の境界が明確になるように所定の着手をしてゲームを仕上げる過程である。一例として、図９に示すように、正解ラベル生成部４３０は、図９の（ａ）の現在碁盤状態Ｓでヨセをして図９の（ｂ）の第１の前処理状態Ｐ１を生成できる。

正解ラベル生成部４３０は、第１の前処理状態Ｐ１で地の境界内に配置され、地の区分に不要な石を除去する第２の前処理を行って第２の前処理状態Ｐ２を生成できる。例えば、地の境界内に配置され、地の区分に不要な石は捨て石でありうる。捨て石は、地内に相手方の石が配置されて、どのように打っても捕まえるしかなくなり、死んだ石であることを先に説明した。また、地の境界内に配置され、地の区分に不要な石は地内に配置された自分の石でありうる。一例として、図９に示すように、正解ラベル生成部４３０は、図９の（ｂ）の第１の前処理状態Ｐ１で地の区分に不要な石を除去して、図９の（ｃ）の第２の前処理状態Ｐ２を生成できる。

他の例として、図１０に示すように、正解ラベル生成部４３０は、図１０の（ａ）の現在碁盤状態Ｓで第１の前処理であるヨセのために、図１０の（ｂ）のように赤色×に着手することができる。正解ラベル生成部４３０は、図１０の（ｂ）で青色×と表示された捨て石を除去するために、緑色×に着手して捨て石を除去し、捨て石除去のために使用された緑色×に着手した石も除去して第２の前処理を行うことができる。

正解ラベル生成部４３０は、第２の前処理状態Ｐ２で各交差点を−１から＋１まで表示された形勢値（ｇ、ただし、ｇは定数）に変更する第３の前処理を行うことができる。すなわち、第３の前処理は、正解ラベル生成部４３０がイメージ特徴である第２の前処理状態Ｐ２を数値特徴である第３の前処理状態Ｐ３に変更することである。一例として、第２の前処理状態Ｐ２で交差点に自分の石が配置されれば０、自分の地領域であれば＋１、相手の石が配置されれば０、相手の地領域であれば−１に対応することができる。この場合、形勢判断ニューラルネットワーク４１０は、形勢判断の際、地、石、捨て石を区分できるように学習されることができる。他の例として、第２の前処理状態Ｐ２で交差点に自分の石が配置されれば０、自分の地領域であれば＋１、相手の石が配置されれば０、相手の地領域であれば−１、関または駄目であれば０に対応することができる。他の例の場合、形勢判断ニューラルネットワーク４１０は、形勢判断の際、関または駄目を区分できるように学習されることができる。例えば、図１１に示すように、正解ラベル生成部４３０は、図１１の（ａ）の第２の前処理状態Ｐ２を図１１の（ｂ）の第３の前処理状態Ｐ３に特徴を変更することができる。

図１２は、本発明の形勢判断モデルの形勢判断結果を説明するための図である。

学習された形勢判断モデルは、碁盤状態が入力されれば、碁盤の全ての交差点に対する形勢値を提供できる。すなわち、碁盤交差点の３６１個地点に対して形勢値である−１ないし＋１の定数値を提供できる。

図１２に示すように、形勢判断モデルサーバ４００は、形勢判断モデルが提供した形勢値、所定の閾値、石の有無を利用して形勢を判断できる。一例として、形勢判断モデルサーバ４００は、石がない所であり、形勢値が第１閾値を越えると、自分の地になる可能性が高い所と判断し、＋１に近い値であれば、自分の地領域と判断することができる。形勢判断モデルサーバ４００は、自分の地である可能性が高いほど、次第に大きくなる自分の石と同じ色の四角形態で表示することができる。すなわち、百地である可能性が高いほど、白色四角形態と表示し、黒地である可能性が高いほど、黒色四角形態と表示することができる。形勢判断モデルサーバ４００は、石がない所であり、形勢値が第２閾値以下であれば、相手の地になる可能性が高い所と判断し、−１に近い値であれば、自分の地領域と判断することができる。形勢判断モデルサーバ４００は、相手の地である可能性が高いほど、次第に大きくなる相手の石と同じ色の四角形態と表示することができる。形勢判断モデルサーバ４００は、石がない所であり、形勢値が第３閾値範囲以内または０に近い値であれば、駄目または関と判断することができる。形勢判断モデルサーバ４００は、駄目または関と判断すれば、Ｘと表示することができる。形勢判断モデルサーバ４００は、石がある所であり、形勢値が第３閾値範囲以内または０に近い値であれば、自分の石または相手の石と判断することができる。形勢判断モデルサーバ４００は、駄目または関と判断すれば、何らの表示もしないことができる。形勢判断モデルサーバ４００は、石がある所であり、形勢値が第１閾値を越えると、相手の石の捨て石になる可能性が高い所と判断し、＋１に近い値であれば、相手の石の捨て石と判断することができる。形勢判断モデルサーバ４００は、相手の石の捨て石である可能性が高いほど、次第に大きくなる自分の石と同じ色の四角形態と表示することができる。形勢判断モデルサーバ４００は、石がある所であり、形勢値が第２閾値以下であれば、自分の石の捨て石になる可能性が高い所と判断し、−１に近い値であれば、相手の石の捨て石と判断することができる。形勢判断モデルサーバ４００は、相手の石の捨て石である可能性が高いほど、次第に大きくなる相手の石と同じ色の四角形態と表示することができる。

また、形勢判断モデルサーバ４００は、各交差点で判断した形勢判断基準を利用して現在碁盤状態での地計算結果を表示できる。

したがって、実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステムは、ディープラーニングニューラルネットワークを利用して囲碁形勢を判断できる。また、実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステムは、囲碁規則による地、捨て石、石、駄目、関を正確に区分して囲碁の形勢を正確に判断することができる。また、実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステムは、囲碁規則による地、捨て石、石、駄目、関を予測して囲碁の形勢を正確に判断することができる。また、実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステムは、囲碁対局中、速やかに形勢を判断できる。

図１３は、本発明の形勢判断モデルの形勢判断結果と従来技術に係るディープラーニングモデルによる形勢判断結果とを比較した形状であり、図１４は、本発明の形勢判断モデルの形勢判断結果と従来技術に係るディープラーニングモデルによる形勢判断結果とを比較した形状であり、図１５は、本発明の形勢判断モデルの形勢判断結果と従来技術に係るディープラーニングモデルによる形勢判断結果とを比較した形状である。

図１３に示すように、本発明の形勢判断モデルは、図１３の（ａ）のＢ領域のように、交差点毎に地、石、捨て石を区分して形勢を判断する。しかし、従来技術に係るディープラーニングモデルによる形勢判断モデルは、図１３の（ｂ）で図１３の（ａ）と対応する領域の交差点に対して地、石、捨て石を区分できない。

同様に、図１４に示すように、本発明の形勢判断モデルは、図１４の（ａ）のＣ領域のように、交差点毎に地、石、捨て石を区分して形勢を判断する。しかし、従来技術に係るディープラーニングモデルによる形勢判断モデルは、図１４の（ｂ）で図１３の（ａ）と対応する領域の交差点に対して地、石、捨て石を区分できない。

図１５に示すように、本発明の形勢判断モデルは、図１５の（ａ）のＤ領域のように、白地を正しく認識する。しかし、従来技術に係るディープラーニングモデルによる形勢判断モデルは、図１５の（ｂ）で図１５の（ａ）と対応する領域で白地を区分できない。

図１６は、本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービスシステムにおける信号フローに対する例示図である。

図１６に示すように、着手モデルサーバ３００は、人工知能コンピュータであって、自分のターンにおいて対局で勝つことができるように碁石の着手を行うことができるように囲碁規則によって自ら学習してディープラーニングモデルである着手モデルをトレーニングすることができる（Ｓ１１）。囲碁サーバ２００は、複数の棋譜を形勢判断モデルサーバ４００に送信することができる（Ｓ１２）。形勢判断モデルサーバ４００は、トレーニングデータセットを生成できる。まず、形勢判断モデルサーバ４００は、複数の棋譜の碁盤状態で入力特徴を抽出できる（Ｓ１３）。形勢判断モデルサーバ４００は、入力特徴を抽出した碁盤状態を利用して正解ラベルを生成できる（Ｓ１４）。形勢判断モデルサーバ４００は、入力特徴を入力データとし、正解ラベルをターゲットデータとしたトレーニングデータセットを用いて形勢判断モデルをトレーニングすることができる（Ｓ１５）。端末機１００は、囲碁サーバ２００に人工知能コンピュータを相手にしてまたは他のユーザ端末機を相手にして囲碁ゲームを要請できる（Ｓ１６）。囲碁サーバ２００は、端末機１００が人工知能コンピュータを相手にして囲碁ゲームを要請すれば、着手モデルサーバ３００に着手を要請できる（Ｓ１７）。囲碁サーバ２００は、囲碁ゲームを進行し、端末機１００と着手モデルサーバ３００とが自分のターンに着手を行うことができる（Ｓ１８〜Ｓ２０）。対局中、端末機１００は、囲碁サーバ２００に形勢判断を要請できる（Ｓ２１）。囲碁サーバ２００は、形勢判断モデルサーバ４００に現在碁盤状態に対する形勢判断を要請できる（Ｓ２２）。形勢判断モデルサーバ４００は、現在碁盤状態の入力特徴を抽出し、ディープラーニングモデルである形勢判断モデルが入力特徴を利用して形勢値を生成し、碁盤状態と形勢値を用いて形勢判断を行うことができる（Ｓ２３）。形勢判断モデルサーバ４００は、形勢判断結果を囲碁サーバ２００に提供することができる（Ｓ２４）。囲碁サーバ２００は、端末機１００に形勢判断結果を提供できる（Ｓ２５）。

図１７は、本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法のうち、形勢判断方法であり、図１８は、図１７の形勢判断方法のうち、正解ラベルを生成するためのトレーニングデータの前処理方法である。

図１７に示すように、本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、形勢判断モデルサーバ４００が囲碁サーバから複数の棋譜を受信するステップ（Ｓ１００）を含むことができる。

本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、形勢判断モデルサーバ４００の形勢判断モデルのうち、入力特徴抽出部が複数の棋譜の碁盤状態で入力特徴を抽出するステップ（Ｓ２００）を含むことができる。入力特徴を抽出する方法は、図７の説明にしたがう。

本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、形勢判断モデルのうち、正解ラベル生成部が入力特徴を抽出した碁盤状態に基づいて正解ラベルを生成するステップ（Ｓ３００）を含むことができる。一例として、図１８に示すように、正解ラベル生成ステップ（Ｓ３００）は、正解ラベル生成部が現在碁盤状態でヨセをする第１の前処理するステップ（Ｓ３０１）を含むことができる。第１の前処理するステップ（Ｓ３０１）は、図９〜図１０の説明にしたがう。正解ラベル生成ステップ（Ｓ３００）は、正解ラベル生成部が第１の前処理された碁盤状態で不要な石を除去する第２の前処理するステップ（Ｓ３０２）を含むことができる。第２の前処理するステップ（Ｓ３０２）は、図９〜図１０の説明にしたがう。正解ラベル生成ステップ（Ｓ３００）は、正解ラベル生成部が第２の前処理された碁盤状態の各交差点を形勢値に変更する第３の前処理するステップ（Ｓ３０３）を含むことができる。第３の前処理するステップ（Ｓ３０３）は、図１１の説明にしたがう。正解ラベル生成ステップ（Ｓ３００）は、第３の前処理状態を正解ラベルとして形勢判断ニューラルネットワークにターゲットデータとして提供するステップ（Ｓ３０４）を含むことができる。ターゲットデータを提供するステップ（Ｓ３０４）は、図７及び図１１の説明にしたがう。

本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、トレーニングデータセットを用いて形勢判断モデルの形勢判断ニューラルネットワークをトレーニングするステップ（Ｓ４００）を含むことができる。形勢判断ニューラルネットワークをトレーニング（学習）する方法は、図７の説明にしたがう。

本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、形勢判断ニューラルネットワークのトレーニングが完了して形勢判断モデルを構築するステップ（Ｓ５００）を含む。一例として、形勢判断ニューラルネットワークのトレーニングの完了は、図７の形勢判断損失が所定の値以下になった場合でありうる。

本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、端末機の形勢判断要請により現在碁盤状態が形勢判断モデルに入力されるステップ（Ｓ６００）を含むことができる。

本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、形勢判断モデルが入力された現在碁盤状態の形勢判断を行うステップ（Ｓ７００）を含むことができる。形勢判断を行うステップ（Ｓ７００）は、図１２において説明した形勢判断モデルが現在碁盤状態の形勢値を生成する説明にしたがうことができる。

本発明の実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、形勢判断モデルサーバ４００が形勢判断結果を出力するステップ（Ｓ８００）を含むことができる。形勢判断結果を出力するステップ（Ｓ８００）は、図１２において説明した形勢判断モデルサーバが形勢値、碁盤の状態、所定の閾値を用いて形勢判断結果を提供する説明にしたがうことができる。

したがって、実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、ディープラーニングニューラルネットワークを利用して囲碁形勢を判断できる。また、実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、囲碁規則による地、捨て石、石、駄目、関を正確に区分して囲碁の形勢を正確に判断することができる。また、実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、囲碁規則による地、捨て石、石、駄目、関を予測して囲碁の形勢を正確に判断することができる。また、実施形態に係るディープラーニングに基づく囲碁ゲームサービス方法は、囲碁対局中、速やかに形勢を判断できる。

以上で説明された本発明に係る実施形態は、様々なコンピュータ構成要素を介して実行され得るプログラム命令語の形態で実現され、コンピュータ読み取り可能な記録媒体に記録されることができる。前記コンピュータ読み取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含むことができる。前記コンピュータ読み取り可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知されて使用可能なものでありうる。コンピュータ読み取り可能な記録媒体の例には、ハードディスク、フロッピーディスク、及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ及びＤＶＤのような光気緑媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気−光媒体（ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉｕｍ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのような、プログラム命令語を格納し、実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるような機械語コードだけでなく、インタプリタなどを使用してコンピュータにより実行され得る高級言語コードも含まれる。ハードウェア装置は、本発明に係る処理を行うために、１つ以上のソフトウェアモジュールに変更されることができ、その逆も同様である。

本発明において説明する特定実行等は、一実施形態であって、いかなる方法でも本発明の範囲を限定するものではない。明細書の簡潔さのために、従来の電子的な構成、制御システム、ソフトウェア、前記システムの他の機能的な側面等の記載は省略されることができる。また、図面に図示された構成要素間の線等の連結または連結部材などは、機能的な連結及び／又は物理的または回路的連結を例示的に示したものであって、実際装置では、代替可能であるか、追加の様々な機能的な連結、物理的な連結、または回路連結として表されることができる。また、「必須な」、「重要に」などのように、具体的な言及がなければ、本発明の適用のために必ず必要な構成要素でない場合がある。

また、説明した本発明の詳細な説明では、本発明の好ましい実施形態を参照して説明したが、当該技術分野の熟練された当業者または当該技術分野における通常の知識を有する者であれば、後述する特許請求の範囲に記載された本発明の思想及び技術領域から逸脱しない範囲内で本発明を様々に修正及び変更させ得ることが理解できるであろう。したがって、本発明の技術的範囲は、明細書の詳細な説明に記載された内容に限定されるものではなく、特許請求の範囲により決められなければならないであろう。

１００端末機
２００囲碁サーバ
３００着手モデルサーバ
３１０探索部
３２０セルフプレイ部
３３０着手ニューラルネットワーク
４００形勢判断モデルサーバ
４１０形勢判断ニューラルネットワーク
４２０入力特徴抽出部
４３０正解ラベル生成部

Claims

ユーザが端末機を介して囲碁ゲームを要請し、囲碁対局中、形勢判断を要請することに応答して囲碁ゲームサービスと形勢判断を提供する囲碁サーバと、
前記囲碁サーバの着手要請に応答して前記ユーザと囲碁対局を進行する着手モデルサーバと、
前記囲碁サーバから伝達された複数の棋譜情報を基に前記ユーザの形勢判断要請に対応する形勢判断を行う形勢判断モデルサーバと、
を備え、
前記形勢判断モデルサーバは、
前記囲碁サーバから伝達された複数の棋譜情報を格納する格納部と、
前記囲碁サーバからユーザが要請した形勢判断要請を受信し、形勢判断を前記囲碁サーバに提供する通信部と、
前記格納部から形勢判断モデルを読み込んで前記形勢判断モデルの学習を行い、前記学習された形勢判断モデルを用いて碁盤状態の形勢を判断するプロセッサと、
を備え、
前記形勢判断モデルは、
前記複数の棋譜情報から第１碁盤状態に関する入力特徴を抽出する入力特徴抽出部と、
前記抽出された入力特徴を基に現在進行中である対局の第２碁盤状態でヨセをすることができる正解ラベルを生成する正解ラベル生成部と、
前記抽出された入力特徴に対する入力データが前記正解ラベルに対するターゲットデータと同じになるように、前記形勢判断モデルを学習させる形勢判断ニューラルネットワークと、
を備えるディープラーニングに基づく囲碁ゲームサービスシステム。
前記正解ラベルは、前記第２碁盤状態で交差点等に対して−１から＋１までの数値で表示された形勢値である（ただし、形勢値は定数）請求項１に記載のディープラーニングに基づく囲碁ゲームサービスシステム。
前記正解ラベルは、前記第２碁盤状態でヨセのために地の境界が明確になるようにする第１の前処理と、
前記第１の前処理で地の境界内に配置され、地の区分に不要な石を除去する第２の前処理を行って取得された請求項１に記載のディープラーニングに基づく囲碁ゲームサービスシステム。
前記正解ラベルは、前記第２の前処理で前記第２碁盤状態の各交差点を−１、０、または＋１のうち、いずれか１つの数値からなる形勢値に変更する第３の前処理を介して取得される請求項３に記載のディープラーニングに基づく囲碁ゲームサービスシステム。
前記第３の前処理は、前記第２の前処理状態で所定の交差点で自分の石が配置されれば０、自分の地領域であれば＋１、相手の石が配置されれば０、相手の地領域であれば−１に対応した形勢値に変更する請求項４に記載のディープラーニングに基づく囲碁ゲームサービスシステム。
前記第３の前処理は、前記第２の前処理状態で所定の交差点で自分の石が配置されれば０、自分の地領域であれば＋１、相手の石が配置されれば０、相手の地領域であれば−１、関または駄目であれば０に対応した形勢値に変更する請求項４に記載のディープラーニングに基づく囲碁ゲームサービスシステム。
前記形勢判断ニューラルネットワークは、複数のレシデュアルブロックを含み、前記複数のレシデュアルブロックの各々は、コンボリューションレイヤ、一括正規化レイヤ、Ｒｅｌｕ活性化関数レイヤ、スキップコネクションを含む請求項１に記載のディープラーニングに基づく囲碁ゲームサービスシステム。
前記形勢判断ニューラルネットワークは、下記の数式による形勢判断損失Ｌ_ｐｒｅを用いてトレーニングする請求項２に記載のディープラーニングに基づく囲碁ゲームサービスシステム。
前記入力特徴は、前記第１碁盤状態で黒プレイヤの最近の８手に対する石の位置情報と白プレイヤの最近の８手に対する石の位置情報と、現在プレイヤが黒であるか白であるかに対する順序情報を含む請求項１に記載のディープラーニングに基づく囲碁ゲームサービスシステム。
通信部、形勢判断モデルが格納された格納部、前記形勢判断モデルを駆動するプロセッサを備える形勢判断モデルサーバにより碁盤状態の形勢を判断するディープラーニングに基づく囲碁ゲームサービス方法において、
前記通信部が複数の棋譜を受信するステップと、
前記プロセッサが前記形勢判断モデルの入力特徴抽出部を利用して前記複数の棋譜の第１碁盤状態に関する入力特徴を抽出するステップと、
前記プロセッサが前記形勢判断モデルの正解ラベル生成部を利用して前記入力特徴に基づいて現在進行中である対局の第２碁盤状態でヨセをすることができる正解ラベルを生成するステップと、
前記プロセッサが、前記入力特徴に対する入力データが前記正解ラベルに対するターゲットデータと同じになるように前記形勢判断モデルをトレーニングするステップと、
前記プロセッサがトレーニングを完了して形勢判断モデルを構築するステップと、
前記プロセッサが前記トレーニングされた形勢判断モデルを用いて形勢判断が必要な第２碁盤状態が入力されれば、前記第２碁盤状態の交差点に対する形勢値を生成する形勢判断を行うステップとを含み、
前記正解ラベルを生成するステップは、
前記第２碁盤状態でヨセのために地の境界が明確になるようにする第１の前処理状態を生成する第１の前処理ステップと、
前記第１の前処理状態で地の境界内に配置され、地の区分に不要な石を除去して第２の前処理状態を生成する第２の前処理ステップと、
前記第２の前処理状態で前記第２碁盤状態の各交差点を−１、０、または＋１のうち、いずれか１つの数値からなる形勢値に変更する第３の前処理状態を生成する第３の前処理ステップと、
を含むことを特徴とするディープラーニングに基づく囲碁ゲームサービス方法。
前記第３の前処理ステップは、前記第２の前処理状態で所定の交差点で自分の石が配置されれば０、自分の地領域であれば＋１、相手の石が配置されれば０、相手の地領域であれば−１に対応した形勢値に変更することを特徴とする請求項１０に記載のディープラーニングに基づく囲碁ゲームサービス方法。
前記第３の前処理ステップは、前記第２の前処理状態で所定の交差点で自分の石が配置されれば０、自分の地領域であれば＋１、相手の石が配置されれば０、相手の地領域であれば−１、関または駄目であれば０に対応した形勢値に変更することを特徴とする請求項１０に記載のディープラーニングに基づく囲碁ゲームサービス方法。
前記形勢判断モデルをトレーニングするステップ、下記の数式による形勢判断損失Ｌ_ｐｒｅを用いてトレーニングする請求項１０に記載のディープラーニングに基づく囲碁ゲームサービス方法。
前記入力特徴は、前記第１碁盤状態で黒プレイヤの最近の８手に対する石の位置情報と白プレイヤの最近の８手に対する石の位置情報と、現在プレイヤが黒であるか白であるかに対する順序情報を含む請求項１０に記載のディープラーニングに基づく囲碁ゲームサービス方法。