JP3678636B2 - ニューラルネットワークの学習方法 - Google Patents
ニューラルネットワークの学習方法 Download PDFInfo
- Publication number
- JP3678636B2 JP3678636B2 JP2000249474A JP2000249474A JP3678636B2 JP 3678636 B2 JP3678636 B2 JP 3678636B2 JP 2000249474 A JP2000249474 A JP 2000249474A JP 2000249474 A JP2000249474 A JP 2000249474A JP 3678636 B2 JP3678636 B2 JP 3678636B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- evaluation
- computer
- evaluation point
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、ニューラルネットワークの学習方法に関し、更に詳しくは、遷移ルールに従って時系列的に状態が遷移するモデルのためのニューラルネットワークの学習方法に関する。
【0002】
【従来の技術】
従来の多層ニューラルネットワークの学習方法は、人間が適当な基準で教師データを作成して多層ニューラルネットワークに与え、予測が必要な事象について多層ニューラルネットワークに学習させることで行われていた。
【0003】
【発明が解決しようとする課題】
例えば、コンピュータ将棋プログラムでは、一般に将棋はルールが複雑で、現局面における手順の選択肢(場合の数)が非常に大きいので、人力によって教師データを適時に生成している。この場合、得られたデータが客観性に欠けるという問題点があり、また、システム上での補正は事実上不可能であるという問題もあった。
【0004】
本発明は、上記に鑑み、ルールに従って状態が遷移するモデルのための状態評価に利用される多層ニューラルネットワークを改良し、先読みによって評価点を修正する学習を繰り返すことによって、予測を盛り込んだ判断が可能なニューラルネットワークの学習方法を提供することを目的とする。
【0005】
【課題を解決するための手段】
上記目的を達成するために、本発明のニューラルネットワークの学習方法は、遷移ルールに従って時系列的に状態が遷移するモデルのためのニューラルネットワークの学習方法であって、
遷移ルールに従ってツリー構造に結合されたノードの少なくとも一部に評価点を付ける工程と、
出発点のノードから先読みし、遷移ルールに従って1つ以上の階層に亘ってノードを順次にたどる工程と、
先読みによって到達した最終ノードの評価点に基づいて、出発点のノードの評価点を再評価し、該再評価に基づいて先の評価点を修正する工程とを有することを特徴とする。
【0006】
本発明のニューラルネットワークの学習方法によれば、ネットワーク自体で学習を繰り返してより信頼性が高い解析が可能なネットワークが得られる。
【0007】
本発明の好ましいニューラルネットワークの学習方法では、教師データの作成個数、教師データに対応するそれぞれの学習局面、先読みの階層数、及び、学習の終了条件を予め設定する工程を有する。これによって、学習の効率が向上する。
【0008】
また、前記学習の終了条件は、出発点の静的評価点と再評価による動的評価点とが同じであるとする場合、または、静的評価点と、動的評価点とがある一定の許容誤差範囲内にある場合とすることも本発明の好ましい態様である。
【0009】
また、前記学習の終了条件は、静的評価点と、動的評価点とがあらかじめ設定した学習回数後に一致しない場合とすることも本発明の好ましい態様である。本発明のニューラルネットワークの学習方法は、特に、将棋やゲーム等のプログラムに好適に利用できる。
【0010】
【発明の実施の形態】
以下、本発明の一実施形態について図面を用いて説明する。
図1は、本発明のニューラルネットワークの学習方法を実施するゲームモデルをツリー構造で示している。出発点のノードMは、先読みを必要とする複数個ある学習対象局面の一つの学習局面を意味している。この学習局面は、階層深さ1の節点又はノード(A1、A2、A3)、階層深さ2のノード(B1、B2,B3,B4・・・)、階層深さNのノード(N1、N2、N3、N4・・・)のn層より構成される。各ノードには、そのノードの評価点(a1、a2、a3、b1、b2、・・・、n1、n2、・・・)が示してある。学習にあたってのゲームの局面分岐図の階層は、あらかじめ何手先読みするかをプログラムするときに決めておく。例えば、将棋ゲームでは、3手先まで先読みをするプログラムの場合には、階層深さ3までとする。
【0011】
学習局面Mより遷移ルール(ゲームのルール)に従って、深さ1(a1、a2、a3)、及び、深さ2(b1、b2,b3,b4・・・)の選択された複数の判定ノードを経由して、深さNの末端より複数の評価点(n1、n2、n3、n4・・・)を出力する。
【0012】
所定の探索アルゴリズム、例えばミニマックス法を利用することで、相手が自分にとって最も不利な手順を打ったとき起こり得る最大の損失を確率的に予想できるので、次の最善の一手を探索できるようになる。深さNの末端から学習局面Mにもどって動的評価点を決定し、これを教師データとする。ミニマックス法の探索アルゴリズム及びゲームのルールは、あらかじめプログラムしておく。
【0013】
図2は、図1のゲーム局面分岐図を前処理とするゲームの自動学習機能付きニューラルネットワーク・プログラムのフローチャートである。同図を参照して、本実施形態例のプログラム構成を説明する。まず、スタート時にオペレータは、教師データの作成個数、教師データに対応するそれぞれの学習局面M、先読みの深さ、及び、終了条件といった学習条件を1回だけ読み込ませる。(ステップS1)
【0014】
明細書において、ゲームの学習局面M、及び末端Nにおける現時点の評価点を静的評価点と呼ぶ。一方、それぞれの学習局面について先読みした末端Nでの静的評価点をもとに上記探索アルゴリズムで決定した学習局面の評価点を動的評価点と呼ぶ。
【0015】
本実施形態例における終了条件として、次の2つの条件を採用する。
(1)静的評価点と、動的評価点とが一致したとき、または、静的評価点と、動的評価点とがある一定の許容誤差範囲内において一致と見なしたときに終了とする。
(2)静的評価点と、動的評価点とが一致しない場合であっても、あらかじめ設定した学習回数をもって終了とする。
【0016】
次に、与えられた複数個の学習局面Mを一つずつプログラムによって自動的に選択し、学習局面Mの静的評価点をニューラルネットワークにより算出する。(ステップS2)
【0017】
次に、選択された学習局面Mについて、図1に示す、ゲームの局面分岐図の階層深さNまで、すなわちN手先までの先読みを実行する。ゲームのルールはあらかじめプログラムしておく。(ステップS3)
【0018】
次に、ニューラルネットワークを使って図1に示すツリー構造の学習局面Mより階層深さNまでの全末端での静的評価点(n1、n2,n3、n4・・・)を算出する。(ステップS4)
【0019】
ミニマックス法等の探索アルゴリズムを使って、学習局面での階層深さNの末端から学習局面Mにもどって動的評価点を決定し、これを教師データとする。ミニマックス法等の探索アルゴリズムは、あらかじめプログラムしておく。(ステップS5)
【0020】
次に、与えられた数の複数の学習局面Mの全ての教師データがそろったか検証し、揃ったならば、次のステップに進み、揃っていなければ学習局面の選択ステップS2までもどり、複数個の学習局面Mについての処理を終了するまでステップS2にもどる「入れ子ループ」(学習局面の個数分)を繰り返す。(ステップS6)
【0021】
ここで、ニューラルネットワークを学習させる必要があるかどうかを判定する。学習の終了条件に一致した場合は、十分に学習済みと判定し、学習を終了する。静的評価点と、動的評価点とが終了条件に一致した場合には、ニューラルネットワークをこれ以上学習させる必要はない。(ステップS7)
【0022】
図1に示すゲームの局面分岐図に従って生成された教師データを使ってニューラルネットワークを学習させる。
複数個の学習局面Mの個数の全ての学習が終わったらステップS2までもどり、あらかじめ設定されているニューラルネットワークによる学習回数(ニューラルネットワークに何回学習させるかを決めた終了条件)を終了ステップS8よりステップS2にもどる「ループ」を繰り返す。(ステップS8)
【0023】
図2のフローチャートに示すステップS1〜S8は、すべてのアルゴリズムは、コンピュータプログラムとして記録され、記録媒体に記憶して提供される。動作時には、このプログラムに従ってコンピュータは制御され、本発明による多層ニューラルネットワークの先読みによる自動学習を行う。
【0024】
図3は、本発明の実施形態例の将棋のルールに基づくゲームの局面分岐図であり、図1を将棋のルールに基づいて1局面分岐図を示した応用例である。 本発明のコンピュータ将棋プログラムは、ゲームの局面分岐図を生成し、このゲームの局面分岐図は、将棋のルールに基づく手順の組み合わせにより構成される。
【0025】
本発明によるゲームの局面分岐図は、現局面の形勢を判断するために、探索アルゴリズム、例えばミニマックス法を利用して現局面より数手、先読みすることで選択される手順を数値にして得点化する。
【0026】
本発明によるコンピュータ将棋プログラムに組み込まれる多層ニューラルネットワークにおいて、入力層として、現局面の状態情報、例えば(A)「玉の堅さ」、(B)「持ち駒数」、(C)「盤上の駒の働き」といった判断条件を、それぞれ将棋の局面ごとに数値化したものをニューラルネットワークへの入力パラメータとしてあらかじめ入力しておく。
【0027】
たとえば、現局面における「玉の堅さ」は、自玉の周りにある味方の駒の枚数によって数値化する。出力層は現局面の評価点として、例えば100点〜0点の間で得点化し出力する。
【0028】
将棋のルール上勝ちの局面、即ち、相手玉が詰んでいる状態では現局面の評価点を100点とし、負けの局面、即ち、自玉が詰んでいる状態では現局面の評価点を0点とする。
【0029】
まず、現局面の静的評価点を、ニューラルネットワークにより算出しておきプログラムに入力しておく、その結果を仮に75点とする。
【0030】
学習局面Mの分岐局面の一つとして、深さ2の左側「先手が7六歩として局面」に進み、深さ3の右側「後手が8四歩とした局面」に進み、さらに深さ4の右側「先手が2六歩とした局面」に進むことで得点は65点となる例である。
【0031】
また、学習局面Mの分岐局面の一つとして、深さ4の左側「先手が6八銀とした局面」に進んだ場合には、得点は60点となる例である。
このように現局面に対して複数個の手順を照合し、先読みすることでそれぞれの得点が算出される。照合された結果、最高値が最適な教師データとして出力される。すなわち、図3の場合、65点となる。
【0032】
ゲームの局面分岐図における先読みにはミニマックス法(α−β法)等の探索アルゴリズムを使いる。評価点の学習には、多層ニューラルネットワークを用いる。
【0033】
図4は、評価点を学習する多層(3層)入力層と、中間層と、出力層より構成されるニューラルネットワークの一般的な例である。ゲームの局面分岐図において指定された深さNまでの先読みを実行した後、このニューラルネットワークによって局面すべての評価点を算出し、最適の教師データを出力する。
【0034】
ゲームの局面分岐図の探索による先読み評価の結果、多層ニューラルネットワークの評価値が評価点と一致しない場合、例えば、上記の探索アルゴリズムによる先読みによって算出された65点は、現局面の静的評価点、75点と照合し、65点となるように補正する。つまり65点を教師データとして再学習を行う。
【0035】
図3の先読みのノードに将棋のルール上、勝ち、または負けの局面が出現した場合、終了に至る判定ノードが選択されるように評価点が与えられる。
【0036】
以上、本発明をその好適な実施形態例に基づいて説明したが、本発明の自動学習機能付き多層ニューラルネットワークにおける学習方法は、上記実施形態例の構成にのみ限定されるものではなく、上記実施形態例の構成から種々の修正及び変更を施した自動学習機能付き多層ニューラルネットワークも、本発明の範囲に含まれる。例えば、本発明の自動学習機能付き多層ニューラルネットワークにおける学習方法は、将棋に限られるものでなく、他のゲームにも適用できる。
【0037】
【発明の効果】
以上説明したように、ルールに従って局面を変化させていくモデルの中で各局面の優劣判断に利用される多層ニューラルネットワークにおいて、先読みにより自動生成、補正された教師データを使って学習を繰り返すことによって、予測を盛り込んだ判断をする自動学習機能付き多層ニューラルネットワークが提供できる。
【図面の簡単な説明】
【図1】本発明の実施形態例のゲームの局面分岐図。
【図2】本発明の実施形態例のゲームの局面分岐図を前処理とするニューラルネットワーク・プログラムのフローチャート。
【図3】本発明の実施形態例の将棋のルールに基づくゲームの局面分岐図。
【図4】一般的な多層(3層)ニューラルネットワークの一例。
【符号の説明】
M:学習局面
A1、A2、A3:階層深さ1のノード
a1、a2、a3:階層深さ1の各ノードの評価点
B1、B2、B3、B4、・・・:階層深さ2のノード
b1、b2、b3、b4、・・・:階層深さ2の各ノードの評価点
N1、N2、N3、N4、・・・:階層深さNのノード
n1、n2、n3、n4、・・・:階層深さNの各ノードの評価点
【発明の属する技術分野】
本発明は、ニューラルネットワークの学習方法に関し、更に詳しくは、遷移ルールに従って時系列的に状態が遷移するモデルのためのニューラルネットワークの学習方法に関する。
【0002】
【従来の技術】
従来の多層ニューラルネットワークの学習方法は、人間が適当な基準で教師データを作成して多層ニューラルネットワークに与え、予測が必要な事象について多層ニューラルネットワークに学習させることで行われていた。
【0003】
【発明が解決しようとする課題】
例えば、コンピュータ将棋プログラムでは、一般に将棋はルールが複雑で、現局面における手順の選択肢(場合の数)が非常に大きいので、人力によって教師データを適時に生成している。この場合、得られたデータが客観性に欠けるという問題点があり、また、システム上での補正は事実上不可能であるという問題もあった。
【0004】
本発明は、上記に鑑み、ルールに従って状態が遷移するモデルのための状態評価に利用される多層ニューラルネットワークを改良し、先読みによって評価点を修正する学習を繰り返すことによって、予測を盛り込んだ判断が可能なニューラルネットワークの学習方法を提供することを目的とする。
【0005】
【課題を解決するための手段】
上記目的を達成するために、本発明のニューラルネットワークの学習方法は、遷移ルールに従って時系列的に状態が遷移するモデルのためのニューラルネットワークの学習方法であって、
遷移ルールに従ってツリー構造に結合されたノードの少なくとも一部に評価点を付ける工程と、
出発点のノードから先読みし、遷移ルールに従って1つ以上の階層に亘ってノードを順次にたどる工程と、
先読みによって到達した最終ノードの評価点に基づいて、出発点のノードの評価点を再評価し、該再評価に基づいて先の評価点を修正する工程とを有することを特徴とする。
【0006】
本発明のニューラルネットワークの学習方法によれば、ネットワーク自体で学習を繰り返してより信頼性が高い解析が可能なネットワークが得られる。
【0007】
本発明の好ましいニューラルネットワークの学習方法では、教師データの作成個数、教師データに対応するそれぞれの学習局面、先読みの階層数、及び、学習の終了条件を予め設定する工程を有する。これによって、学習の効率が向上する。
【0008】
また、前記学習の終了条件は、出発点の静的評価点と再評価による動的評価点とが同じであるとする場合、または、静的評価点と、動的評価点とがある一定の許容誤差範囲内にある場合とすることも本発明の好ましい態様である。
【0009】
また、前記学習の終了条件は、静的評価点と、動的評価点とがあらかじめ設定した学習回数後に一致しない場合とすることも本発明の好ましい態様である。本発明のニューラルネットワークの学習方法は、特に、将棋やゲーム等のプログラムに好適に利用できる。
【0010】
【発明の実施の形態】
以下、本発明の一実施形態について図面を用いて説明する。
図1は、本発明のニューラルネットワークの学習方法を実施するゲームモデルをツリー構造で示している。出発点のノードMは、先読みを必要とする複数個ある学習対象局面の一つの学習局面を意味している。この学習局面は、階層深さ1の節点又はノード(A1、A2、A3)、階層深さ2のノード(B1、B2,B3,B4・・・)、階層深さNのノード(N1、N2、N3、N4・・・)のn層より構成される。各ノードには、そのノードの評価点(a1、a2、a3、b1、b2、・・・、n1、n2、・・・)が示してある。学習にあたってのゲームの局面分岐図の階層は、あらかじめ何手先読みするかをプログラムするときに決めておく。例えば、将棋ゲームでは、3手先まで先読みをするプログラムの場合には、階層深さ3までとする。
【0011】
学習局面Mより遷移ルール(ゲームのルール)に従って、深さ1(a1、a2、a3)、及び、深さ2(b1、b2,b3,b4・・・)の選択された複数の判定ノードを経由して、深さNの末端より複数の評価点(n1、n2、n3、n4・・・)を出力する。
【0012】
所定の探索アルゴリズム、例えばミニマックス法を利用することで、相手が自分にとって最も不利な手順を打ったとき起こり得る最大の損失を確率的に予想できるので、次の最善の一手を探索できるようになる。深さNの末端から学習局面Mにもどって動的評価点を決定し、これを教師データとする。ミニマックス法の探索アルゴリズム及びゲームのルールは、あらかじめプログラムしておく。
【0013】
図2は、図1のゲーム局面分岐図を前処理とするゲームの自動学習機能付きニューラルネットワーク・プログラムのフローチャートである。同図を参照して、本実施形態例のプログラム構成を説明する。まず、スタート時にオペレータは、教師データの作成個数、教師データに対応するそれぞれの学習局面M、先読みの深さ、及び、終了条件といった学習条件を1回だけ読み込ませる。(ステップS1)
【0014】
明細書において、ゲームの学習局面M、及び末端Nにおける現時点の評価点を静的評価点と呼ぶ。一方、それぞれの学習局面について先読みした末端Nでの静的評価点をもとに上記探索アルゴリズムで決定した学習局面の評価点を動的評価点と呼ぶ。
【0015】
本実施形態例における終了条件として、次の2つの条件を採用する。
(1)静的評価点と、動的評価点とが一致したとき、または、静的評価点と、動的評価点とがある一定の許容誤差範囲内において一致と見なしたときに終了とする。
(2)静的評価点と、動的評価点とが一致しない場合であっても、あらかじめ設定した学習回数をもって終了とする。
【0016】
次に、与えられた複数個の学習局面Mを一つずつプログラムによって自動的に選択し、学習局面Mの静的評価点をニューラルネットワークにより算出する。(ステップS2)
【0017】
次に、選択された学習局面Mについて、図1に示す、ゲームの局面分岐図の階層深さNまで、すなわちN手先までの先読みを実行する。ゲームのルールはあらかじめプログラムしておく。(ステップS3)
【0018】
次に、ニューラルネットワークを使って図1に示すツリー構造の学習局面Mより階層深さNまでの全末端での静的評価点(n1、n2,n3、n4・・・)を算出する。(ステップS4)
【0019】
ミニマックス法等の探索アルゴリズムを使って、学習局面での階層深さNの末端から学習局面Mにもどって動的評価点を決定し、これを教師データとする。ミニマックス法等の探索アルゴリズムは、あらかじめプログラムしておく。(ステップS5)
【0020】
次に、与えられた数の複数の学習局面Mの全ての教師データがそろったか検証し、揃ったならば、次のステップに進み、揃っていなければ学習局面の選択ステップS2までもどり、複数個の学習局面Mについての処理を終了するまでステップS2にもどる「入れ子ループ」(学習局面の個数分)を繰り返す。(ステップS6)
【0021】
ここで、ニューラルネットワークを学習させる必要があるかどうかを判定する。学習の終了条件に一致した場合は、十分に学習済みと判定し、学習を終了する。静的評価点と、動的評価点とが終了条件に一致した場合には、ニューラルネットワークをこれ以上学習させる必要はない。(ステップS7)
【0022】
図1に示すゲームの局面分岐図に従って生成された教師データを使ってニューラルネットワークを学習させる。
複数個の学習局面Mの個数の全ての学習が終わったらステップS2までもどり、あらかじめ設定されているニューラルネットワークによる学習回数(ニューラルネットワークに何回学習させるかを決めた終了条件)を終了ステップS8よりステップS2にもどる「ループ」を繰り返す。(ステップS8)
【0023】
図2のフローチャートに示すステップS1〜S8は、すべてのアルゴリズムは、コンピュータプログラムとして記録され、記録媒体に記憶して提供される。動作時には、このプログラムに従ってコンピュータは制御され、本発明による多層ニューラルネットワークの先読みによる自動学習を行う。
【0024】
図3は、本発明の実施形態例の将棋のルールに基づくゲームの局面分岐図であり、図1を将棋のルールに基づいて1局面分岐図を示した応用例である。 本発明のコンピュータ将棋プログラムは、ゲームの局面分岐図を生成し、このゲームの局面分岐図は、将棋のルールに基づく手順の組み合わせにより構成される。
【0025】
本発明によるゲームの局面分岐図は、現局面の形勢を判断するために、探索アルゴリズム、例えばミニマックス法を利用して現局面より数手、先読みすることで選択される手順を数値にして得点化する。
【0026】
本発明によるコンピュータ将棋プログラムに組み込まれる多層ニューラルネットワークにおいて、入力層として、現局面の状態情報、例えば(A)「玉の堅さ」、(B)「持ち駒数」、(C)「盤上の駒の働き」といった判断条件を、それぞれ将棋の局面ごとに数値化したものをニューラルネットワークへの入力パラメータとしてあらかじめ入力しておく。
【0027】
たとえば、現局面における「玉の堅さ」は、自玉の周りにある味方の駒の枚数によって数値化する。出力層は現局面の評価点として、例えば100点〜0点の間で得点化し出力する。
【0028】
将棋のルール上勝ちの局面、即ち、相手玉が詰んでいる状態では現局面の評価点を100点とし、負けの局面、即ち、自玉が詰んでいる状態では現局面の評価点を0点とする。
【0029】
まず、現局面の静的評価点を、ニューラルネットワークにより算出しておきプログラムに入力しておく、その結果を仮に75点とする。
【0030】
学習局面Mの分岐局面の一つとして、深さ2の左側「先手が7六歩として局面」に進み、深さ3の右側「後手が8四歩とした局面」に進み、さらに深さ4の右側「先手が2六歩とした局面」に進むことで得点は65点となる例である。
【0031】
また、学習局面Mの分岐局面の一つとして、深さ4の左側「先手が6八銀とした局面」に進んだ場合には、得点は60点となる例である。
このように現局面に対して複数個の手順を照合し、先読みすることでそれぞれの得点が算出される。照合された結果、最高値が最適な教師データとして出力される。すなわち、図3の場合、65点となる。
【0032】
ゲームの局面分岐図における先読みにはミニマックス法(α−β法)等の探索アルゴリズムを使いる。評価点の学習には、多層ニューラルネットワークを用いる。
【0033】
図4は、評価点を学習する多層(3層)入力層と、中間層と、出力層より構成されるニューラルネットワークの一般的な例である。ゲームの局面分岐図において指定された深さNまでの先読みを実行した後、このニューラルネットワークによって局面すべての評価点を算出し、最適の教師データを出力する。
【0034】
ゲームの局面分岐図の探索による先読み評価の結果、多層ニューラルネットワークの評価値が評価点と一致しない場合、例えば、上記の探索アルゴリズムによる先読みによって算出された65点は、現局面の静的評価点、75点と照合し、65点となるように補正する。つまり65点を教師データとして再学習を行う。
【0035】
図3の先読みのノードに将棋のルール上、勝ち、または負けの局面が出現した場合、終了に至る判定ノードが選択されるように評価点が与えられる。
【0036】
以上、本発明をその好適な実施形態例に基づいて説明したが、本発明の自動学習機能付き多層ニューラルネットワークにおける学習方法は、上記実施形態例の構成にのみ限定されるものではなく、上記実施形態例の構成から種々の修正及び変更を施した自動学習機能付き多層ニューラルネットワークも、本発明の範囲に含まれる。例えば、本発明の自動学習機能付き多層ニューラルネットワークにおける学習方法は、将棋に限られるものでなく、他のゲームにも適用できる。
【0037】
【発明の効果】
以上説明したように、ルールに従って局面を変化させていくモデルの中で各局面の優劣判断に利用される多層ニューラルネットワークにおいて、先読みにより自動生成、補正された教師データを使って学習を繰り返すことによって、予測を盛り込んだ判断をする自動学習機能付き多層ニューラルネットワークが提供できる。
【図面の簡単な説明】
【図1】本発明の実施形態例のゲームの局面分岐図。
【図2】本発明の実施形態例のゲームの局面分岐図を前処理とするニューラルネットワーク・プログラムのフローチャート。
【図3】本発明の実施形態例の将棋のルールに基づくゲームの局面分岐図。
【図4】一般的な多層(3層)ニューラルネットワークの一例。
【符号の説明】
M:学習局面
A1、A2、A3:階層深さ1のノード
a1、a2、a3:階層深さ1の各ノードの評価点
B1、B2、B3、B4、・・・:階層深さ2のノード
b1、b2、b3、b4、・・・:階層深さ2の各ノードの評価点
N1、N2、N3、N4、・・・:階層深さNのノード
n1、n2、n3、n4、・・・:階層深さNの各ノードの評価点
Claims (6)
- コンピュータを用いて、遷移ルールに従って時系列的に状態が遷移するモデルのためのニューラルネットワークを学習する方法であって、
前記コンピュータが、遷移ルールに従ってツリー構造に結合されたノードを学習局面として、該学習局面に評価点を付け、該評価点を静的評価点として記憶装置に記憶する工程と、
前記コンピュータが、前記学習局面から先読みし、遷移ルールに従って1つ以上の階層に亘ってノードを順次にたどり、先読みによって到達した最終ノードに評価点を付け、該最終ノードの評価点を記憶装置に記憶する工程と、
前記コンピュータが、前記最終ノードの評価点から所定のアルゴリズムに基づいて動的評価点を選択し、前記静的評価点と動的評価点とを比較して、学習を終了するか否か判断する工程と、
前記学習を終了するか否かを判断する工程で学習を終了しないと判断すると、前記コンピュータが、前記動的評価点を教師データとして出発点のノードの評価点を再評価し、該再評価に基づいて前記学習局面の評価点を修正し、記憶装置に記憶する工程とを備え、
前記学習を終了するか否かを判断する工程では、出発点の静的評価点と再評価による動的評価点とが同じ場合、又は、前記静的評価点と前記動的評価点とが所定の許容誤差範囲内にあるとき、前記コンピュータが、学習を終了すると判断することを特徴とするニューラルネットワークの学習方法。 - 前記学習プロセスを繰り返し実行させ、前記学習を終了するか否かを判断する工程では、繰返し回数が所定の回数に達したときに、前記コンピュータが学習を終了すると判断する、請求項1に記載のニューラルネットワークの学習方法。
- 前記モデルがゲームモデルである、請求項1又は2に記載のニューラルネットワークの学習方法。
- コンピュータに、遷移ルールに従って時系列的に状態が遷移するモデルのためのニューラルネットワークを学習するプログラムを記録した記録媒体であって、前記コンピュータに、
遷移ルールに従ってツリー構造に結合されたノードを学習局面として、該学習局面に評価点を付け、該評価点を静的評価点として記憶装置に記憶する処理と、
前記学習局面から先読みし、遷移ルールに従って1つ以上の階層に亘ってノードを順次にたどり、該先読みによって到達した最終ノードに評価点を付け、該最終ノードの評価点を記憶装置に記憶する処理と、
前記最終ノードの評価点から所定のアルゴリズムに基づいて動的評価点を選択し、前記静的評価点と動的評価点とを比較して、学習を終了するか否かを判断する処理と、
前記学習を終了するか否かを判断する処理で学習を終了しないと判断すると、前記動的評価点を教師データとして出発点のノードの評価点を再評価し、該再評価に基づいて前記学習局面の評価点を修正し、記憶装置に記憶する処理とを含む学習プロセスを実行させ、
前記学習を終了するか否かを判断する処理では、出発点の静的評価点と再評価による動的評価点とが同じ場合、又は、前記静的評価点と前記動的評価点とが所定の許容誤差範囲内にあるとき、前記コンピュータに、学習を終了すると判断させるプログラムを記録したことを特徴とするコンピュータ読取り可能な記録媒体。 - 前記学習プロセスを繰り返し実行させ、前記学習を終了するか否かを判断する処理では、繰返し回数が所定の回数に達したときに、前記コンピュータに、学習を終了すると判断させるプログラムを記録した、請求項4に記載のコンピュータ読取り可能な記録媒体。
- 前記モデルがゲームモデルである、請求項4又は5に記載のコンピュータ読取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000249474A JP3678636B2 (ja) | 2000-08-21 | 2000-08-21 | ニューラルネットワークの学習方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000249474A JP3678636B2 (ja) | 2000-08-21 | 2000-08-21 | ニューラルネットワークの学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002063562A JP2002063562A (ja) | 2002-02-28 |
JP3678636B2 true JP3678636B2 (ja) | 2005-08-03 |
Family
ID=18739208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000249474A Expired - Fee Related JP3678636B2 (ja) | 2000-08-21 | 2000-08-21 | ニューラルネットワークの学習方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3678636B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102135593B (zh) * | 2010-12-28 | 2016-01-20 | 太原理工大学 | 大电机绝缘状态在线诊断评估方法 |
CN106096727B (zh) * | 2016-06-02 | 2018-12-07 | 腾讯科技(深圳)有限公司 | 一种基于机器学习的网络模型构造方法及装置 |
JP6964570B2 (ja) * | 2018-11-16 | 2021-11-10 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
JP7186321B1 (ja) * | 2022-04-11 | 2022-12-08 | 株式会社Cygames | 形勢評価装置、形勢評価方法、およびプログラム |
-
2000
- 2000-08-21 JP JP2000249474A patent/JP3678636B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002063562A (ja) | 2002-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10042506B2 (en) | Interactive story development system and method for creating a narrative of a storyline | |
CN110882544B (zh) | 多智能体训练方法、装置和电子设备 | |
Soon et al. | A comparison on the performance of crossover techniques in video game | |
KR20040005068A (ko) | 재생게임 기능이 부가된 게임 시스템 및 게임 진행 방법 | |
CN110134375B (zh) | 游戏角色行为的控制方法、装置及可读存储介质 | |
CN107526682B (zh) | 测试机器人的ai行为树的生成方法、装置及设备 | |
JP6748170B2 (ja) | ビデオゲーム処理プログラム、ビデオゲーム処理装置及びビデオゲーム処理方法 | |
Baxter et al. | TDLeaf (lambda): Combining temporal difference learning with game-tree search | |
JP3678636B2 (ja) | ニューラルネットワークの学習方法 | |
Pereira et al. | Learning to speed up evolutionary content generation in physics-based puzzle games | |
Archibald et al. | Modeling billiards games | |
Gabora et al. | A computational model of two cognitive transitions underlying cultural evolution | |
JP3996125B2 (ja) | 文章生成装置及び生成方法 | |
CN110772794B (zh) | 智能游戏处理方法、装置、设备及存储介质 | |
KR100621559B1 (ko) | 인공지능 학습을 통한 게이머의 게임 스타일 이식시스템및 그 이식방법 | |
CN112765242A (zh) | 基于游戏树搜索算法的决策模型数据处理方法及系统 | |
Delmas et al. | From tabletop RPG to interactive storytelling: Definition of a story manager for videogames | |
US6547665B2 (en) | Game character generating method, storage medium and video game device | |
CN113689001A (zh) | 一种基于反事实遗憾最小化的虚拟自我对弈方法和装置 | |
Bangdiwala et al. | Using ML Models to Predict Points in Fantasy Premier League | |
US20070191095A1 (en) | Game development | |
Dameris et al. | Praxish: a rational reconstruction of a logic-based DSL for modeling social practices | |
KR102649304B1 (ko) | 대전형 게임 에이전트의 스타일 생성 방법 및 장치, 그리고 이를 이용한 게임 시스템 | |
AU2018101314A4 (en) | A MCST and deep neural network based FIR battle platform | |
CN112783781B (zh) | 游戏测试方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041209 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050411 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050510 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |