JP2002063562A - ニューラルネットワークの学習方法 - Google Patents

ニューラルネットワークの学習方法

Info

Publication number
JP2002063562A
JP2002063562A JP2000249474A JP2000249474A JP2002063562A JP 2002063562 A JP2002063562 A JP 2002063562A JP 2000249474 A JP2000249474 A JP 2000249474A JP 2000249474 A JP2000249474 A JP 2000249474A JP 2002063562 A JP2002063562 A JP 2002063562A
Authority
JP
Japan
Prior art keywords
learning
neural network
evaluation
evaluation point
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000249474A
Other languages
English (en)
Other versions
JP3678636B2 (ja
Inventor
Tsutomu Obata
勉 小畑
Hajime Ishii
元 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solution Innovators Ltd
Original Assignee
NEC Solution Innovators Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Solution Innovators Ltd filed Critical NEC Solution Innovators Ltd
Priority to JP2000249474A priority Critical patent/JP3678636B2/ja
Publication of JP2002063562A publication Critical patent/JP2002063562A/ja
Application granted granted Critical
Publication of JP3678636B2 publication Critical patent/JP3678636B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】 ルールに従って状態が遷移するモデルのため
の状態評価に利用される多層ニューラルネットワークを
改良し、先読みによって評価点を修正する学習を繰り返
すことによって、予測を盛り込んだ判断が可能なニュー
ラルネットワークの学習方法を提供することを目的とす
る。 【解決手段】 遷移ルールに従って時系列的に状態が遷
移するモデルのためのニューラルネットワークの学習方
法であって、遷移ルールに従ってツリー構造に結合され
たノードの少なくとも一部に評価点を付ける工程と、出
発点のノードから先読みし、遷移ルールに従って1つ以
上の階層に亘ってノードを順次にたどる工程と、先読み
によって到達した最終ノードの評価点に基づいて、出発
点のノードの評価点を再評価し、該再評価に基づいて先
の評価点を修正する工程とを有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ニューラルネット
ワークの学習方法に関し、更に詳しくは、遷移ルールに
従って時系列的に状態が遷移するモデルのためのニュー
ラルネットワークの学習方法に関する。
【0002】
【従来の技術】従来の多層ニューラルネットワークの学
習方法は、人間が適当な基準で教師データを作成して多
層ニューラルネットワークに与え、予測が必要な事象に
ついて多層ニューラルネットワークに学習させることで
行われていた。
【0003】
【発明が解決しようとする課題】例えば、コンピュータ
将棋プログラムでは、一般に将棋はルールが複雑で、現
局面における手順の選択肢(場合の数)が非常に大きい
ので、人力によって教師データを適時に生成している。
この場合、得られたデータが客観性に欠けるという問題
点があり、また、システム上での補正は事実上不可能で
あるという問題もあった。
【0004】本発明は、上記に鑑み、ルールに従って状
態が遷移するモデルのための状態評価に利用される多層
ニューラルネットワークを改良し、先読みによって評価
点を修正する学習を繰り返すことによって、予測を盛り
込んだ判断が可能なニューラルネットワークの学習方法
を提供することを目的とする。
【0005】
【課題を解決するための手段】上記目的を達成するため
に、本発明のニューラルネットワークの学習方法は、遷
移ルールに従って時系列的に状態が遷移するモデルのた
めのニューラルネットワークの学習方法であって、遷移
ルールに従ってツリー構造に結合されたノードの少なく
とも一部に評価点を付ける工程と、出発点のノードから
先読みし、遷移ルールに従って1つ以上の階層に亘って
ノードを順次にたどる工程と、先読みによって到達した
最終ノードの評価点に基づいて、出発点のノードの評価
点を再評価し、該再評価に基づいて先の評価点を修正す
る工程とを有することを特徴とする。
【0006】本発明のニューラルネットワークの学習方
法によれば、ネットワーク自体で学習を繰り返してより
信頼性が高い解析が可能なネットワークが得られる。
【0007】本発明の好ましいニューラルネットワーク
の学習方法では、教師データの作成個数、教師データに
対応するそれぞれの学習局面、先読みの階層数、及び、
学習の終了条件を予め設定する工程を有する。これによ
って、学習の効率が向上する。
【0008】また、前記学習の終了条件は、出発点の静
的評価点と再評価による動的評価点とが同じであるとす
る場合、または、静的評価点と、動的評価点とがある一
定の許容誤差範囲内にある場合とすることも本発明の好
ましい態様である。
【0009】また、前記学習の終了条件は、静的評価点
と、動的評価点とがあらかじめ設定した学習回数後に一
致しない場合とすることも本発明の好ましい態様であ
る。本発明のニューラルネットワークの学習方法は、特
に、将棋やゲーム等のプログラムに好適に利用できる。
【0010】
【発明の実施の形態】以下、本発明の一実施形態につい
て図面を用いて説明する。図1は、本発明のニューラル
ネットワークの学習方法を実施するゲームモデルをツリ
ー構造で示している。出発点のノードMは、先読みを必
要とする複数個ある学習対象局面の一つの学習局面を意
味している。この学習局面は、階層深さ1の節点又はノ
ード(A1、A2、A3)、階層深さ2のノード(B
1、B2,B3,B4・・・)、階層深さNのノード
(N1、N2、N3、N4・・・)のn層より構成され
る。各ノードには、そのノードの評価点(a1、a2、
a3、b1、b2、・・・、n1、n2、・・・)が示
してある。学習にあたってのゲームの局面分岐図の階層
は、あらかじめ何手先読みするかをプログラムするとき
に決めておく。例えば、将棋ゲームでは、3手先まで先
読みをするプログラムの場合には、階層深さ3までとす
る。
【0011】学習局面Mより遷移ルール(ゲームのルー
ル)に従って、深さ1(a1、a2、a3)、及び、深
さ2(b1、b2,b3,b4・・・)の選択された複
数の判定ノードを経由して、深さNの末端より複数の評
価点(n1、n2、n3、n4・・・)を出力する。
【0012】所定の探索アルゴリズム、例えばミニマッ
クス法を利用することで、相手が自分にとって最も不利
な手順を打ったとき起こり得る最大の損失を確率的に予
想できるので、次の最善の一手を探索できるようにな
る。深さNの末端から学習局面Mにもどって動的評価点
を決定し、これを教師データとする。ミニマックス法の
探索アルゴリズム及びゲームのルールは、あらかじめプ
ログラムしておく。
【0013】図2は、図1のゲーム局面分岐図を前処理
とするゲームの自動学習機能付きニューラルネットワー
ク・プログラムのフローチャートである。同図を参照し
て、本実施形態例のプログラム構成を説明する。まず、
スタート時にオペレータは、教師データの作成個数、教
師データに対応するそれぞれの学習局面M、先読みの深
さ、及び、終了条件といった学習条件を1回だけ読み込
ませる。(ステップS1)
【0014】明細書において、ゲームの学習局面M、及
び末端Nにおける現時点の評価点を静的評価点と呼ぶ。
一方、それぞれの学習局面について先読みした末端Nで
の静的評価点をもとに上記探索アルゴリズムで決定した
学習局面の評価点を動的評価点と呼ぶ。
【0015】本実施形態例における終了条件として、次
の2つの条件を採用する。 (1)静的評価点と、動的評価点とが一致したとき、ま
たは、静的評価点と、動的評価点とがある一定の許容誤
差範囲内において一致と見なしたときに終了とする。 (2)静的評価点と、動的評価点とが一致しない場合で
あっても、あらかじめ設定した学習回数をもって終了と
する。
【0016】次に、与えられた複数個の学習局面Mを一
つずつプログラムによって自動的に選択し、学習局面M
の静的評価点をニューラルネットワークにより算出す
る。(ステップS2)
【0017】次に、選択された学習局面Mについて、図
1に示す、ゲームの局面分岐図の階層深さNまで、すな
わちN手先までの先読みを実行する。ゲームのルールは
あらかじめプログラムしておく。(ステップS3)
【0018】次に、ニューラルネットワークを使って図
1に示すツリー構造の学習局面Mより階層深さNまでの
全末端での静的評価点(n1、n2,n3、n4・・
・)を算出する。(ステップS4)
【0019】ミニマックス法等の探索アルゴリズムを使
って、学習局面での階層深さNの末端から学習局面Mに
もどって動的評価点を決定し、これを教師データとす
る。ミニマックス法等の探索アルゴリズムは、あらかじ
めプログラムしておく。(ステップS5)
【0020】次に、与えられた数の複数の学習局面Mの
全ての教師データがそろったか検証し、揃ったならば、
次のステップに進み、揃っていなければ学習局面の選択
ステップS2までもどり、複数個の学習局面Mについて
の処理を終了するまでステップS2にもどる「入れ子ル
ープ」(学習局面の個数分)を繰り返す。(ステップS
6)
【0021】ここで、ニューラルネットワークを学習さ
せる必要があるかどうかを判定する。学習の終了条件に
一致した場合は、十分に学習済みと判定し、学習を終了
する。静的評価点と、動的評価点とが終了条件に一致し
た場合には、ニューラルネットワークをこれ以上学習さ
せる必要はない。(ステップS7)
【0022】図1に示すゲームの局面分岐図に従って生
成された教師データを使ってニューラルネットワークを
学習させる。複数個の学習局面Mの個数の全ての学習が
終わったらステップS2までもどり、あらかじめ設定さ
れているニューラルネットワークによる学習回数(ニュ
ーラルネットワークに何回学習させるかを決めた終了条
件)を終了ステップS8よりステップS2にもどる「ル
ープ」を繰り返す。(ステップS8)
【0023】図2のフローチャートに示すステップS1
〜S8は、すべてのアルゴリズムは、コンピュータプロ
グラムとして記録され、記録媒体に記憶して提供され
る。動作時には、このプログラムに従ってコンピュータ
は制御され、本発明による多層ニューラルネットワーク
の先読みによる自動学習を行う。
【0024】図3は、本発明の実施形態例の将棋のルー
ルに基づくゲームの局面分岐図であり、図1を将棋のル
ールに基づいて1局面分岐図を示した応用例である。
本発明のコンピュータ将棋プログラムは、ゲームの局面
分岐図を生成し、このゲームの局面分岐図は、将棋のル
ールに基づく手順の組み合わせにより構成される。
【0025】本発明によるゲームの局面分岐図は、現局
面の形勢を判断するために、探索アルゴリズム、例えば
ミニマックス法を利用して現局面より数手、先読みする
ことで選択される手順を数値にして得点化する。
【0026】本発明によるコンピュータ将棋プログラム
に組み込まれる多層ニューラルネットワークにおいて、
入力層として、現局面の状態情報、例えば(A)「玉の
堅さ」、(B)「持ち駒数」、(C)「盤上の駒の働
き」といった判断条件を、それぞれ将棋の局面ごとに数
値化したものをニューラルネットワークへの入力パラメ
ータとしてあらかじめ入力しておく。
【0027】たとえば、現局面における「玉の堅さ」
は、自玉の周りにある味方の駒の枚数によって数値化す
る。出力層は現局面の評価点として、例えば100点〜
0点の間で得点化し出力する。
【0028】将棋のルール上勝ちの局面、即ち、相手玉
が詰んでいる状態では現局面の評価点を100点とし、
負けの局面、即ち、自玉が詰んでいる状態では現局面の
評価点を0点とする。
【0029】まず、現局面の静的評価点を、ニューラル
ネットワークにより算出しておきプログラムに入力して
おく、その結果を仮に75点とする。
【0030】学習局面Mの分岐局面の一つとして、深さ
2の左側「先手が7六歩として局面」に進み、深さ3の
右側「後手が8四歩とした局面」に進み、さらに深さ4
の右側「先手が2六歩とした局面」に進むことで得点は
65点となる例である。
【0031】また、学習局面Mの分岐局面の一つとし
て、深さ4の左側「先手が6八銀とした局面」に進んだ
場合には、得点は60点となる例である。このように現
局面に対して複数個の手順を照合し、先読みすることで
それぞれの得点が算出される。照合された結果、最高値
が最適な教師データとして出力される。すなわち、図3
の場合、65点となる。
【0032】ゲームの局面分岐図における先読みにはミ
ニマックス法(α−β法)等の探索アルゴリズムを使い
る。評価点の学習には、多層ニューラルネットワークを
用いる。
【0033】図4は、評価点を学習する多層(3層)入
力層と、中間層と、出力層より構成されるニューラルネ
ットワークの一般的な例である。ゲームの局面分岐図に
おいて指定された深さNまでの先読みを実行した後、こ
のニューラルネットワークによって局面すべての評価点
を算出し、最適の教師データを出力する。
【0034】ゲームの局面分岐図の探索による先読み評
価の結果、多層ニューラルネットワークの評価値が評価
点と一致しない場合、例えば、上記の探索アルゴリズム
による先読みによって算出された65点は、現局面の静
的評価点、75点と照合し、65点となるように補正す
る。つまり65点を教師データとして再学習を行う。
【0035】図3の先読みのノードに将棋のルール上、
勝ち、または負けの局面が出現した場合、終了に至る判
定ノードが選択されるように評価点が与えられる。
【0036】以上、本発明をその好適な実施形態例に基
づいて説明したが、本発明の自動学習機能付き多層ニュ
ーラルネットワークにおける学習方法は、上記実施形態
例の構成にのみ限定されるものではなく、上記実施形態
例の構成から種々の修正及び変更を施した自動学習機能
付き多層ニューラルネットワークも、本発明の範囲に含
まれる。例えば、本発明の自動学習機能付き多層ニュー
ラルネットワークにおける学習方法は、将棋に限られる
ものでなく、他のゲームにも適用できる。
【0037】
【発明の効果】以上説明したように、ルールに従って局
面を変化させていくモデルの中で各局面の優劣判断に利
用される多層ニューラルネットワークにおいて、先読み
により自動生成、補正された教師データを使って学習を
繰り返すことによって、予測を盛り込んだ判断をする自
動学習機能付き多層ニューラルネットワークが提供でき
る。
【図面の簡単な説明】
【図1】本発明の実施形態例のゲームの局面分岐図。
【図2】本発明の実施形態例のゲームの局面分岐図を前
処理とするニューラルネットワーク・プログラムのフロ
ーチャート。
【図3】本発明の実施形態例の将棋のルールに基づくゲ
ームの局面分岐図。
【図4】一般的な多層(3層)ニューラルネットワーク
の一例。
【符号の説明】
M:学習局面 A1、A2、A3:階層深さ1のノード a1、a2、a3:階層深さ1の各ノードの評価点 B1、B2、B3、B4、・・・:階層深さ2のノード b1、b2、b3、b4、・・・:階層深さ2の各ノー
ドの評価点 N1、N2、N3、N4、・・・:階層深さNのノード n1、n2、n3、n4、・・・:階層深さNの各ノー
ドの評価点

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 遷移ルールに従って時系列的に状態が遷
    移するモデルのためのニューラルネットワークの学習方
    法であって、 遷移ルールに従ってツリー構造に結合されたノードの少
    なくとも一部に評価点を付ける工程と、 出発点のノードから先読みし、遷移ルールに従って1つ
    以上の階層に亘ってノードを順次にたどる工程と、 先読みによって到達した最終ノードの評価点に基づい
    て、出発点のノードの評価点を再評価し、該再評価に基
    づいて先の評価点を修正する工程とを有することを特徴
    とするニューラルネットワークの学習方法。
  2. 【請求項2】 更に、教師データの作成個数、教師デー
    タに対応するそれぞれの学習局面、先読みの階層数、及
    び、学習の終了条件を予め設定する工程を有する、請求
    項1に記載のニューラルネットワークの学習方法。
  3. 【請求項3】 前記学習の終了条件を、出発点の静的評
    価点と再評価による動的評価点とが同じ場合、または、
    前記静的評価点と、前記動的評価点とがある一定の許容
    誤差範囲内にある場合としたことを特徴とする、請求項
    2に記載のニューラルネットワークの学習方法。
  4. 【請求項4】 前記学習の終了条件を、出発点の静的評
    価点と、再評価による動的評価点とがあらかじめ設定し
    た学習回数の後にも一致しない場合としたことを特徴と
    する、請求項2に記載のニューラルネットワークの学習
    方法。
  5. 【請求項5】 前記モデルがゲームモデルである、請求
    項1〜4の何れかに記載のニューラルネットワークの学
    習方法。
JP2000249474A 2000-08-21 2000-08-21 ニューラルネットワークの学習方法 Expired - Fee Related JP3678636B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000249474A JP3678636B2 (ja) 2000-08-21 2000-08-21 ニューラルネットワークの学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000249474A JP3678636B2 (ja) 2000-08-21 2000-08-21 ニューラルネットワークの学習方法

Publications (2)

Publication Number Publication Date
JP2002063562A true JP2002063562A (ja) 2002-02-28
JP3678636B2 JP3678636B2 (ja) 2005-08-03

Family

ID=18739208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000249474A Expired - Fee Related JP3678636B2 (ja) 2000-08-21 2000-08-21 ニューラルネットワークの学習方法

Country Status (1)

Country Link
JP (1) JP3678636B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102135593A (zh) * 2010-12-28 2011-07-27 太原理工大学 大电机绝缘状态在线诊断评估方法
KR20180069877A (ko) * 2016-06-02 2018-06-25 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 머신 러닝 기반 네트워크 모델 구축 방법 및 장치
JP2020086616A (ja) * 2018-11-16 2020-06-04 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP7186321B1 (ja) 2022-04-11 2022-12-08 株式会社Cygames 形勢評価装置、形勢評価方法、およびプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102135593A (zh) * 2010-12-28 2011-07-27 太原理工大学 大电机绝缘状态在线诊断评估方法
CN102135593B (zh) * 2010-12-28 2016-01-20 太原理工大学 大电机绝缘状态在线诊断评估方法
KR20180069877A (ko) * 2016-06-02 2018-06-25 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 머신 러닝 기반 네트워크 모델 구축 방법 및 장치
KR102173555B1 (ko) 2016-06-02 2020-11-03 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 머신 러닝 기반 네트워크 모델 구축 방법 및 장치
JP2020086616A (ja) * 2018-11-16 2020-06-04 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP7186321B1 (ja) 2022-04-11 2022-12-08 株式会社Cygames 形勢評価装置、形勢評価方法、およびプログラム
WO2023199819A1 (ja) * 2022-04-11 2023-10-19 株式会社Cygames 形勢評価装置、形勢評価方法、およびプログラム
JP2023155679A (ja) * 2022-04-11 2023-10-23 株式会社Cygames 形勢評価装置、形勢評価方法、およびプログラム

Also Published As

Publication number Publication date
JP3678636B2 (ja) 2005-08-03

Similar Documents

Publication Publication Date Title
US20210365782A1 (en) Method and apparatus for generating neural network model, and computer-readable storage medium
Treanor et al. Game-o-matic: Generating videogames that represent ideas
CN108920221B (zh) 游戏难度调整的方法及装置、电子设备、存储介质
KR20040005068A (ko) 재생게임 기능이 부가된 게임 시스템 및 게임 진행 방법
CN110134375B (zh) 游戏角色行为的控制方法、装置及可读存储介质
Runarsson et al. Coevolution versus self-play temporal difference learning for acquiring position evaluation in small-board go
Soon et al. A comparison on the performance of crossover techniques in video game
CN112783781B (zh) 游戏测试方法、装置、电子设备及存储介质
CN107526682B (zh) 测试机器人的ai行为树的生成方法、装置及设备
JP2002169804A (ja) 模擬会話システム、模擬会話方法、および情報記憶媒体
CN111701246A (zh) 一种游戏ai的决策配置方法和装置
Matsuzaki Developing a 2048 player with backward temporal coherence learning and restart
CN110772794B (zh) 智能游戏处理方法、装置、设备及存储介质
Shu et al. A novel cnet-assisted evolutionary level repairer and its applications to Super Mario Bros
Apeldoorn et al. Exception-tolerant hierarchical knowledge bases for forward model learning
JP2002063562A (ja) ニューラルネットワークの学習方法
CN114155325A (zh) 一种虚拟角色动画生成方法和系统
KR100621559B1 (ko) 인공지능 학습을 통한 게이머의 게임 스타일 이식시스템및 그 이식방법
Willmott et al. Applying adversarial planning techniques to Go
Heeman Representing the reinforcement learning state in a negotiation dialogue
CN112870722B (zh) 对战格斗类ai游戏模型的生成方法、装置、设备及介质
Wan et al. Imitation learning for playing shogi based on generative adversarial networks
Lynch An application of temporal difference learning to draughts
CN112765242A (zh) 基于游戏树搜索算法的决策模型数据处理方法及系统
TW202134960A (zh) 強化學習系統及訓練方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041209

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050510

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees