JP2002063562A

JP2002063562A - ニューラルネットワークの学習方法

Info

Publication number: JP2002063562A
Application number: JP2000249474A
Authority: JP
Inventors: Tsutomu Obata; 勉小畑; Hajime Ishii; 元石井
Original assignee: NEC Solution Innovators Ltd
Current assignee: NEC Solution Innovators Ltd
Priority date: 2000-08-21
Filing date: 2000-08-21
Publication date: 2002-02-28
Anticipated expiration: 2020-08-21
Also published as: JP3678636B2

Abstract

(57)【要約】【課題】ルールに従って状態が遷移するモデルのため
の状態評価に利用される多層ニューラルネットワークを
改良し、先読みによって評価点を修正する学習を繰り返
すことによって、予測を盛り込んだ判断が可能なニュー
ラルネットワークの学習方法を提供することを目的とす
る。【解決手段】遷移ルールに従って時系列的に状態が遷
移するモデルのためのニューラルネットワークの学習方
法であって、遷移ルールに従ってツリー構造に結合され
たノードの少なくとも一部に評価点を付ける工程と、出
発点のノードから先読みし、遷移ルールに従って１つ以
上の階層に亘ってノードを順次にたどる工程と、先読み
によって到達した最終ノードの評価点に基づいて、出発
点のノードの評価点を再評価し、該再評価に基づいて先
の評価点を修正する工程とを有する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ニューラルネット
ワークの学習方法に関し、更に詳しくは、遷移ルールに
従って時系列的に状態が遷移するモデルのためのニュー
ラルネットワークの学習方法に関する。

【０００２】

【従来の技術】従来の多層ニューラルネットワークの学
習方法は、人間が適当な基準で教師データを作成して多
層ニューラルネットワークに与え、予測が必要な事象に
ついて多層ニューラルネットワークに学習させることで
行われていた。

【０００３】

【発明が解決しようとする課題】例えば、コンピュータ
将棋プログラムでは、一般に将棋はルールが複雑で、現
局面における手順の選択肢（場合の数）が非常に大きい
ので、人力によって教師データを適時に生成している。
この場合、得られたデータが客観性に欠けるという問題
点があり、また、システム上での補正は事実上不可能で
あるという問題もあった。

【０００４】本発明は、上記に鑑み、ルールに従って状
態が遷移するモデルのための状態評価に利用される多層
ニューラルネットワークを改良し、先読みによって評価
点を修正する学習を繰り返すことによって、予測を盛り
込んだ判断が可能なニューラルネットワークの学習方法
を提供することを目的とする。

【０００５】

【課題を解決するための手段】上記目的を達成するため
に、本発明のニューラルネットワークの学習方法は、遷
移ルールに従って時系列的に状態が遷移するモデルのた
めのニューラルネットワークの学習方法であって、遷移
ルールに従ってツリー構造に結合されたノードの少なく
とも一部に評価点を付ける工程と、出発点のノードから
先読みし、遷移ルールに従って１つ以上の階層に亘って
ノードを順次にたどる工程と、先読みによって到達した
最終ノードの評価点に基づいて、出発点のノードの評価
点を再評価し、該再評価に基づいて先の評価点を修正す
る工程とを有することを特徴とする。

【０００６】本発明のニューラルネットワークの学習方
法によれば、ネットワーク自体で学習を繰り返してより
信頼性が高い解析が可能なネットワークが得られる。

【０００７】本発明の好ましいニューラルネットワーク
の学習方法では、教師データの作成個数、教師データに
対応するそれぞれの学習局面、先読みの階層数、及び、
学習の終了条件を予め設定する工程を有する。これによ
って、学習の効率が向上する。

【０００８】また、前記学習の終了条件は、出発点の静
的評価点と再評価による動的評価点とが同じであるとす
る場合、または、静的評価点と、動的評価点とがある一
定の許容誤差範囲内にある場合とすることも本発明の好
ましい態様である。

【０００９】また、前記学習の終了条件は、静的評価点
と、動的評価点とがあらかじめ設定した学習回数後に一
致しない場合とすることも本発明の好ましい態様であ
る。本発明のニューラルネットワークの学習方法は、特
に、将棋やゲーム等のプログラムに好適に利用できる。

【００１０】

【発明の実施の形態】以下、本発明の一実施形態につい
て図面を用いて説明する。図１は、本発明のニューラル
ネットワークの学習方法を実施するゲームモデルをツリ
ー構造で示している。出発点のノードＭは、先読みを必
要とする複数個ある学習対象局面の一つの学習局面を意
味している。この学習局面は、階層深さ１の節点又はノ
ード（Ａ１、Ａ２、Ａ３）、階層深さ２のノード（Ｂ
１、Ｂ２，Ｂ３，Ｂ４・・・）、階層深さＮのノード
（Ｎ１、Ｎ２、Ｎ３、Ｎ４・・・）のｎ層より構成され
る。各ノードには、そのノードの評価点（ａ１、ａ２、
ａ３、ｂ１、ｂ２、・・・、ｎ１、ｎ２、・・・）が示
してある。学習にあたってのゲームの局面分岐図の階層
は、あらかじめ何手先読みするかをプログラムするとき
に決めておく。例えば、将棋ゲームでは、３手先まで先
読みをするプログラムの場合には、階層深さ３までとす
る。

【００１１】学習局面Ｍより遷移ルール（ゲームのルー
ル）に従って、深さ１（ａ１、ａ２、ａ３）、及び、深
さ２（ｂ１、ｂ２，ｂ３，ｂ４・・・）の選択された複
数の判定ノードを経由して、深さＮの末端より複数の評
価点（ｎ１、ｎ２、ｎ３、ｎ４・・・）を出力する。

【００１２】所定の探索アルゴリズム、例えばミニマッ
クス法を利用することで、相手が自分にとって最も不利
な手順を打ったとき起こり得る最大の損失を確率的に予
想できるので、次の最善の一手を探索できるようにな
る。深さＮの末端から学習局面Ｍにもどって動的評価点
を決定し、これを教師データとする。ミニマックス法の
探索アルゴリズム及びゲームのルールは、あらかじめプ
ログラムしておく。

【００１３】図２は、図１のゲーム局面分岐図を前処理
とするゲームの自動学習機能付きニューラルネットワー
ク・プログラムのフローチャートである。同図を参照し
て、本実施形態例のプログラム構成を説明する。まず、
スタート時にオペレータは、教師データの作成個数、教
師データに対応するそれぞれの学習局面Ｍ、先読みの深
さ、及び、終了条件といった学習条件を１回だけ読み込
ませる。（ステップＳ１）

【００１４】明細書において、ゲームの学習局面Ｍ、及
び末端Ｎにおける現時点の評価点を静的評価点と呼ぶ。
一方、それぞれの学習局面について先読みした末端Ｎで
の静的評価点をもとに上記探索アルゴリズムで決定した
学習局面の評価点を動的評価点と呼ぶ。

【００１５】本実施形態例における終了条件として、次
の２つの条件を採用する。（１）静的評価点と、動的評価点とが一致したとき、ま
たは、静的評価点と、動的評価点とがある一定の許容誤
差範囲内において一致と見なしたときに終了とする。（２）静的評価点と、動的評価点とが一致しない場合で
あっても、あらかじめ設定した学習回数をもって終了と
する。

【００１６】次に、与えられた複数個の学習局面Ｍを一
つずつプログラムによって自動的に選択し、学習局面Ｍ
の静的評価点をニューラルネットワークにより算出す
る。（ステップＳ２）

【００１７】次に、選択された学習局面Ｍについて、図
１に示す、ゲームの局面分岐図の階層深さＮまで、すな
わちＮ手先までの先読みを実行する。ゲームのルールは
あらかじめプログラムしておく。（ステップＳ３）

【００１８】次に、ニューラルネットワークを使って図
１に示すツリー構造の学習局面Ｍより階層深さＮまでの
全末端での静的評価点（ｎ１、ｎ２，ｎ３、ｎ４・・
・）を算出する。（ステップＳ４）

【００１９】ミニマックス法等の探索アルゴリズムを使
って、学習局面での階層深さＮの末端から学習局面Ｍに
もどって動的評価点を決定し、これを教師データとす
る。ミニマックス法等の探索アルゴリズムは、あらかじ
めプログラムしておく。（ステップＳ５）

【００２０】次に、与えられた数の複数の学習局面Ｍの
全ての教師データがそろったか検証し、揃ったならば、
次のステップに進み、揃っていなければ学習局面の選択
ステップＳ２までもどり、複数個の学習局面Ｍについて
の処理を終了するまでステップＳ２にもどる「入れ子ル
ープ」（学習局面の個数分）を繰り返す。（ステップＳ
６）

【００２１】ここで、ニューラルネットワークを学習さ
せる必要があるかどうかを判定する。学習の終了条件に
一致した場合は、十分に学習済みと判定し、学習を終了
する。静的評価点と、動的評価点とが終了条件に一致し
た場合には、ニューラルネットワークをこれ以上学習さ
せる必要はない。（ステップＳ７）

【００２２】図１に示すゲームの局面分岐図に従って生
成された教師データを使ってニューラルネットワークを
学習させる。複数個の学習局面Ｍの個数の全ての学習が
終わったらステップＳ２までもどり、あらかじめ設定さ
れているニューラルネットワークによる学習回数（ニュ
ーラルネットワークに何回学習させるかを決めた終了条
件）を終了ステップＳ８よりステップＳ２にもどる「ル
ープ」を繰り返す。（ステップＳ８）

【００２３】図２のフローチャートに示すステップＳ１
〜Ｓ８は、すべてのアルゴリズムは、コンピュータプロ
グラムとして記録され、記録媒体に記憶して提供され
る。動作時には、このプログラムに従ってコンピュータ
は制御され、本発明による多層ニューラルネットワーク
の先読みによる自動学習を行う。

【００２４】図３は、本発明の実施形態例の将棋のルー
ルに基づくゲームの局面分岐図であり、図１を将棋のル
ールに基づいて１局面分岐図を示した応用例である。
本発明のコンピュータ将棋プログラムは、ゲームの局面
分岐図を生成し、このゲームの局面分岐図は、将棋のル
ールに基づく手順の組み合わせにより構成される。

【００２５】本発明によるゲームの局面分岐図は、現局
面の形勢を判断するために、探索アルゴリズム、例えば
ミニマックス法を利用して現局面より数手、先読みする
ことで選択される手順を数値にして得点化する。

【００２６】本発明によるコンピュータ将棋プログラム
に組み込まれる多層ニューラルネットワークにおいて、
入力層として、現局面の状態情報、例えば（Ａ）「玉の
堅さ」、（Ｂ）「持ち駒数」、（Ｃ）「盤上の駒の働
き」といった判断条件を、それぞれ将棋の局面ごとに数
値化したものをニューラルネットワークへの入力パラメ
ータとしてあらかじめ入力しておく。

【００２７】たとえば、現局面における「玉の堅さ」
は、自玉の周りにある味方の駒の枚数によって数値化す
る。出力層は現局面の評価点として、例えば１００点〜
０点の間で得点化し出力する。

【００２８】将棋のルール上勝ちの局面、即ち、相手玉
が詰んでいる状態では現局面の評価点を１００点とし、
負けの局面、即ち、自玉が詰んでいる状態では現局面の
評価点を０点とする。

【００２９】まず、現局面の静的評価点を、ニューラル
ネットワークにより算出しておきプログラムに入力して
おく、その結果を仮に７５点とする。

【００３０】学習局面Ｍの分岐局面の一つとして、深さ
２の左側「先手が７六歩として局面」に進み、深さ３の
右側「後手が８四歩とした局面」に進み、さらに深さ４
の右側「先手が２六歩とした局面」に進むことで得点は
６５点となる例である。

【００３１】また、学習局面Ｍの分岐局面の一つとし
て、深さ４の左側「先手が６八銀とした局面」に進んだ
場合には、得点は６０点となる例である。このように現
局面に対して複数個の手順を照合し、先読みすることで
それぞれの得点が算出される。照合された結果、最高値
が最適な教師データとして出力される。すなわち、図３
の場合、６５点となる。

【００３２】ゲームの局面分岐図における先読みにはミ
ニマックス法（α−β法）等の探索アルゴリズムを使い
る。評価点の学習には、多層ニューラルネットワークを
用いる。

【００３３】図４は、評価点を学習する多層（３層）入
力層と、中間層と、出力層より構成されるニューラルネ
ットワークの一般的な例である。ゲームの局面分岐図に
おいて指定された深さＮまでの先読みを実行した後、こ
のニューラルネットワークによって局面すべての評価点
を算出し、最適の教師データを出力する。

【００３４】ゲームの局面分岐図の探索による先読み評
価の結果、多層ニューラルネットワークの評価値が評価
点と一致しない場合、例えば、上記の探索アルゴリズム
による先読みによって算出された６５点は、現局面の静
的評価点、７５点と照合し、６５点となるように補正す
る。つまり６５点を教師データとして再学習を行う。

【００３５】図３の先読みのノードに将棋のルール上、
勝ち、または負けの局面が出現した場合、終了に至る判
定ノードが選択されるように評価点が与えられる。

【００３６】以上、本発明をその好適な実施形態例に基
づいて説明したが、本発明の自動学習機能付き多層ニュ
ーラルネットワークにおける学習方法は、上記実施形態
例の構成にのみ限定されるものではなく、上記実施形態
例の構成から種々の修正及び変更を施した自動学習機能
付き多層ニューラルネットワークも、本発明の範囲に含
まれる。例えば、本発明の自動学習機能付き多層ニュー
ラルネットワークにおける学習方法は、将棋に限られる
ものでなく、他のゲームにも適用できる。

【００３７】

【発明の効果】以上説明したように、ルールに従って局
面を変化させていくモデルの中で各局面の優劣判断に利
用される多層ニューラルネットワークにおいて、先読み
により自動生成、補正された教師データを使って学習を
繰り返すことによって、予測を盛り込んだ判断をする自
動学習機能付き多層ニューラルネットワークが提供でき
る。

【図面の簡単な説明】

【図１】本発明の実施形態例のゲームの局面分岐図。

【図２】本発明の実施形態例のゲームの局面分岐図を前
処理とするニューラルネットワーク・プログラムのフロ
ーチャート。

【図３】本発明の実施形態例の将棋のルールに基づくゲ
ームの局面分岐図。

【図４】一般的な多層（３層）ニューラルネットワーク
の一例。

【符号の説明】

Ｍ：学習局面Ａ１、Ａ２、Ａ３：階層深さ１のノードａ１、ａ２、ａ３：階層深さ１の各ノードの評価点Ｂ１、Ｂ２、Ｂ３、Ｂ４、・・・：階層深さ２のノードｂ１、ｂ２、ｂ３、ｂ４、・・・：階層深さ２の各ノー
ドの評価点Ｎ１、Ｎ２、Ｎ３、Ｎ４、・・・：階層深さＮのノードｎ１、ｎ２、ｎ３、ｎ４、・・・：階層深さＮの各ノー
ドの評価点

Claims

【特許請求の範囲】

【請求項１】遷移ルールに従って時系列的に状態が遷
移するモデルのためのニューラルネットワークの学習方
法であって、遷移ルールに従ってツリー構造に結合されたノードの少
なくとも一部に評価点を付ける工程と、出発点のノードから先読みし、遷移ルールに従って１つ
以上の階層に亘ってノードを順次にたどる工程と、先読みによって到達した最終ノードの評価点に基づい
て、出発点のノードの評価点を再評価し、該再評価に基
づいて先の評価点を修正する工程とを有することを特徴
とするニューラルネットワークの学習方法。
【請求項２】更に、教師データの作成個数、教師デー
タに対応するそれぞれの学習局面、先読みの階層数、及
び、学習の終了条件を予め設定する工程を有する、請求
項１に記載のニューラルネットワークの学習方法。
【請求項３】前記学習の終了条件を、出発点の静的評
価点と再評価による動的評価点とが同じ場合、または、
前記静的評価点と、前記動的評価点とがある一定の許容
誤差範囲内にある場合としたことを特徴とする、請求項
２に記載のニューラルネットワークの学習方法。
【請求項４】前記学習の終了条件を、出発点の静的評
価点と、再評価による動的評価点とがあらかじめ設定し
た学習回数の後にも一致しない場合としたことを特徴と
する、請求項２に記載のニューラルネットワークの学習
方法。
【請求項５】前記モデルがゲームモデルである、請求
項１〜４の何れかに記載のニューラルネットワークの学
習方法。