JPH05502531A

JPH05502531A - 神経ネットワーク

Info

Publication number: JPH05502531A
Application number: JP3501348A
Authority: JP
Inventors: ナイチンゲール、チャールズ; ウィアード、ペーター・ジョセフ
Original assignee: ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー
Priority date: 1989-12-22
Filing date: 1990-12-21
Publication date: 1993-04-28
Also published as: US5627942A; GB8929146D0; CA2070677C; CA2070677A1; EP0506730B1; AU6911191A; WO1991010196A1; DE69033358T2; DE69033358D1; EP0506730A1

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】神経ネットワーク本発明は（人工的な）神経ネットワーク（換言すると、複数の簡単な相互接続された神経プロセッサを含むまたはエミュレートする並列処理装置またはこの種の並列処理をエミュレートするように構成された装置）、特にそれに限定されないが、音声認識、文章・音声変換、母言語翻訳およびビデオスクリーン認識のようなパターン認識問題におけるそれらの使用に関する。

図１を参照すると、技術的に知られている１つのタイプの一般化された神経ネットは入力データシーケンスが入力手段（示されていない）から供給される複数の入力ノードｌａ。

ｌｂ、ｌｃおよび入力データシーケンスが予め定められた基準を満足させた（例えば、特定のワードまたはシーケンスが認識されたか、或は特定の対象に対応した画像が認識された）ことを示す各ネット出力信号をそれぞれ生成する複数の出力ノード２ａ、２ｂ、２ｃを含む。各出力ノードは上方の層（出力層）においてノードに入力を提供するように加重係数によってノードの出力をスケールする加重３ａ乃至３１を含む対応した接続によって下方の層（入力層）において１つ以上のノードに接続される。各ノード出力はまた一般に非直線（圧縮）段（示されていない）を含む。

多数のこのようなネットにおいて、下方の層から入力を受け、上方の層のための出力を発生する別の中間的な内部または“隠蔽“層が含まれる。一般にノードの出力は加重された入力の関数であり、典型的に関数は上記された後続的な非直線圧縮を有するこれらの入力の合計である。このようなネットの１例は良く知られた多層パーセプトロン（ＭＬＰ）である。

このようなネットは、予め定められた基準を満足させるために知られている訓練データシーケンスを入力し、ネット出力がこのような基準の所望の表示に近似するまで層を接続する加重値を反復的に修正することによって訓練位相において訓練される。訓練データの範囲で訓練しているため、このような訓練されたネットワークは種々の処理および認識作業を実行するためにリアルワールドデータで動作できることが認められている。

近年の神経ネットにおける関心の復活以来、処理があいまいさがなく並列で分配され（Ｒｕｍｅｌｈａｒｔ　１９８６　［８］）　、信号処理（例えばＬ７ｎｃｈ　＆　Ｒａｙｎ！ｒ　１９８９　）　、パターン認識（例えばＥｕｔｃｈｉＤｓｏｎ　＆　Ｗｅｌｓｈ　１９８９　）　（Ｗｏｏｄｌａｎｄ　＆　Ｓｍ７ｊｈｅ　１９９０）　およびロボット制御（例えばＳａ！ｒｅｎｓ　＆　５ｏｑｕｅｔ　１９８９　）における問題を解決するのに申し分なく適していることが最近判明したネットが非常に注目されている。また信号処理として理解されることができない問題に対しである注意が払われ、特に母言語に神経ネットワークを適用する種々の方法が種々の文献例えば（Ｒｕｍｅｌｈａｒｔ　１９８６　［９］）および（ＭｃＣＩｅｌｌａｎｄ　＆　Ｋａｗａｍｏ＋ｏ　１９８６）から近年の論文および報告（Ｓｈａｒｋｅｙ　１９８９）　。

（Ｗｅｂｅｒ　１９８９）および（Ｊａｇｏｔ＋＋　＆　ｌａｉｕｂｏｗｉｊ！１９８９）において説明されている。これらの場合における困難な問題はネットに入力を与える方法である。テキストのような制限されていないデータがこれらの種類の神経ネットによって処理されるべきである場合、それは例えばＣＲｕｍｅｌｈａ口氏他１９８６　［１０］）に示されたような文字またはマイクロ特性等のある組の低レベル特徴として入力されなければならず、１或は全体的なワードまたは大きな特徴が使用された場合、入力ノードの数は非常に大きくなければならない。後者の場合においてもまた各ワードは局部的に蓄積されるため、並列分配処理の純粋概念からのある後退は許容されなければならない。

換言すると、典型的に非常に少ないノード（その場合、ネットワークは選択された特徴が不適切ならば、良好に訓練されていない）を使用するか、または非常に多数のもの（その場合、ネットワークは簡単な検索蓄積部として動作する傾向されることであり、これは結果的に遅く労力を要する可能性ｃｏｎｎｅｅ＋１ｏｎｉｓｊ　ｎｅｔｗｏｒｋ　’″、神経ネットワークに関するＩＥＥＥ国際会議の議事録で公表、サンティエゴ、　１９８８年６月２４乃至カニニットおよび隠蔽ユニットが存在するある種の多層ＰＰである。対応したメモリユニットは各隠蔽ユニットと関連している。各メモリユニットはその関連した隠蔽ユニットの各状態の一時的な複写を行い、その後火のサイクルで隠蔽ユニットにこの複写を供給する（システムが次の刺激を処理したとき）。

メモリユニットは情報を一時的に蓄積するだけである。メモリユニットに蓄積された情報はここで特定された“新しい特徴″に対応するように現れない。メモリユニットに蓄積された情報は任意の方法で入力層を修正するために使用されなＴｅｎｃｒｉｏ氏他は、同じ会議の別の論文のＩ＋　２３５乃至＋１２４２頁においてスペイン語および英語に適用されたＮＥＴトークシステムを論じている。その論文の５．２章において、彼等は異なる数の隠蔽ユニットを有するネットワークを使用する効果を論じている。驚くべきことではないが、ネットワークが少数だけでなく非常に多数の隠蔽ユニットを有する場合（訓練パターンが存在しているのと同じ多数の隠蔽ユニットが少なくとも存在している）、後方伝播アルゴリズムにおける動作の劇的な変化が生じる。多数の隠蔽ユニットによりネットワークはもちろん効果的に検索表であるものとして動作することができる。最適な数の隠蔽ユニットが存在すること、または特定のネットワーク中の隠蔽ユニット数が劇的にまたは任意の別の方法で変化されることは示唆されていない。

論文（”Ａｕｔｏｍａｔｉｃ　ｇｅｎｅｒａｔｉｏｎ　ｏｆ　１ｎｔｅｒｎａｌ　＋ｅｐｒｅｓｅｎ４ａ＋１ｏｎｓ　ｉｎ　ａ　ｐｒｏｂａｂｉｌｉｓｔｉｃ　ａｒｔｉｆｉｃｉａｌ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋ　”　。

”ＮＣｕ＋ａｌ　Ｎｅｔｗｏｒｋｓ　ｆｒｏｍ　Ｍｏｄｅｌｓ　ｔｏ　Ａｐｐｌｉｃａｔｉｏｍｓ　”掲載。

１、Ｄ、Ｓ、Ｅ、Ｔ　Ｐａｒｉｓ　１９８９．　１７８乃至１８６頁）においてＥｋｅｂｅｒｇ氏は最初に単層フィードバックＰＰタイプネットワークであるものに層および特徴を付加することを考慮している。高レベル特徴コードは同時入カニニット活動の適切な組合せのためのものである。高レベル特徴は分離層中に存在しており、入力／出力層との接続を介して通信する。最初に、内部層は各内／外ユニットに対して１つのユニットを含み、すなわち内部コードは最初に外部と同じである。訓練中、内部層は入力／出力層において高次の共同活動を符号化するユニットと既存のユニットを置換することによって徐々に変形される。

Ｅｋ！ｂｐｒｇ氏は適切な内部ユニットがどのように選択されるかを説明している。彼は最高の相互依存性を備えた２つの内部ユニットを選択し、３つ以上の特定のものとそれらを置換し、古いもののうちの２つがあるならば１つはアクチブであり、１つだけがアクチブであるならば他のものはそれぞれアクチブである。

このような置換の後、サンプルパターンは関連した新しい確率の評価を得るために再度走査される。３つの内部ユニットによって２つの内部ユニットを置換するこのプロセスは、タスクが解決されるまで反復される。最悪の場合、有効な規則性が検出されない場合、個々の訓練パターンに対応したいわゆる“グランドマザーセル”が発達する。したがって、ネットワークはもちろん非常にメモリ集中的である実効的に検索表であるものに成長する。しかしながら、Ｅｋｅｂｅ＋ｇ氏は通常の場合において成功的な表示がもっと速く現れることを述べている。

Ｅｋｅｂｅｒｇ氏は通常のケースに対してユニットの置換を制限する確率および需要のどちらも示唆していない。Ｅｋｅｂｅｒｇ氏はまた“グランドマザーセル ”の生成が“通常の場合の”特徴の劣化を伴ってまたはそれを伴わずに限定または阻止されることができるか否か、またはその方法に関して述べていない。

欧州特許第０３２７８１７号明細書において、訓練中接続加重が予め定められた固定された最大および最小値間で調節される関連したパターン変換システムが示されている。最大および最小値は、簡単な回路が使用されることができるためにそれらの間で予め固定され小さい範囲だけによることが好ましくい。加重がその予め定められた最大または最小に達した場合、それは飽和したという。加重修正関数は単調に減少する関数である。高レベル特徴から得られる新しい特徴に応答するように内部ノードを付加するか、或は入力層を修正することは示唆されていない。

本発明の第１の観点によると、本発明は、入力信号を受信する入力手段と、対応したノード出力を発生するために予め定められた特徴の前記信号中の発生に応答する入力層手段と、少なくとも１つの出力を生成するために前記ノード出力の発生に応答し、各出力が対応した加重値によって加重される複数のこのようなノード出力の関数である出力層手段とを含んでいる人工神経ネットワークであって、入力層が応答する前記予め定められた特徴に対応しない入力信号から得られたデータを蓄積する手段と、蓄積されたデータから得られ、それに対応した新しい特徴に応答するように前記入力手段を変化する手段によって特徴付けられる訓練可能な人工神経ネットワークを提供する。

生成するネットは、好ましくは長い訓練プログラムで困難な訓練タスクを処理するために予備メモリ、（またはノード）を使用する。それはそうでも、使用されるメモリは制限が新しいノードを生成するネット傾向に与えられることが好ましいため余り過度ではない。

本発明のその他の観点および実施例は添付された請求の範囲に記載され、または以下説明される。

以下、添付図面を参照して実施例により本発明を説明する。

図１は一般的な（従来技術の）神経ネットを概略的に示す。

図２ａ乃至図２ｄは訓練の連続段階中の本発明の１観点によるネットの構造を概略的に示す。

図３は神経ネットの一般的な（従来技術の）出力または中間ノードを概略的に示す。

図４は図２ａ乃至図２ｄのネットを訓練する方法を概略的に示す。

図５は本発明の１観点による加重修正関数を概略的に示す。

図６は文法的に検査するための本発明の実施例を概略的に示す。

図７ａおよび図７ｂは訓練の連続的な段階中の本発明の別の観点によるネットを示す。

図８は１つの問題を解決するために訓練されたこの実施例によるネットを示す。

図９は排他的オア論理関数を実行するために訓練されたこの実施例によるネットを示す。

表１は図８に対する接続加重を示す。

表２は図９に対する接続加重を示す。

表３は排他的オア入力が与えられたときの図９におけるクラスタセルの励起に対する式を示す。

表４は排他的オア入力に対する図９の励起およびネット出力を示す。

図面を参照すると、簡単な例においてネットがその訓練位相を開始したとき、それは任意の入力に応答して点火するただ１つの出力ノードを構成する。それが新しく良く知られていない入力を受信すると、ネットは入力データにおいて認められる特徴にそれぞれ応答した新しいノードを必要に応じて例示する。したがって、本発明の簡単な形態がある時間の間ランした後、それは図２ａに示されるように１組の接続によって出力ノードの単一層に接続された入力ノードの層を構成する。入力から出力への接続は全ての入力／出力対の間にはなく、各接続は加重を所有する。入力信号は例えばテキスト、スピーチまたはビデオデータを含む。入力がテキストエンティティを構成する例において、ワードが最低レベル特徴として検出された場合、完全な訓練位相入力データシーケンスは句または文であることができる。入力中の各ノードは前にネットに与えられる入力シーケンスのある特徴に対応しくすなわち、応答して出力を生成する）、これらの低レベル特徴のいくつかを含む新しい入力データシーケンスが与えられた場合、これらのノートは励起される。したがって、入力に含まれた知られていない低レベル特徴を表した任意のデータはネットのａカの決定において役割りを果たさない。しかしなから、このようなデータは接続加重修正の後続サイクル期間中短い用語メモリ中に保持され、新しい入力ノードを形成するように最終的にある適切な出力にＺず接続される。各出力ノードは、励起が式１で与えられる図３に示されるように典型的な神経プロセッサである。

このような非直線付勢関数はここでは現れないが、最も強い点火８カセルを除いた全てを切離すように自動的に設定し、同じ関数を満足する概念上のしきい値動作か発生することを保証する競争アルゴリズムか現れる（しかしながら、非直線関数は使用されることができる）。

アルゴリズムは、以下に説明される図４に示されたフロー図に後続することによって簡単な単相モードで作用する。

図４を参照すると、アルゴリズムは次のように作用する準備上　相互作用サイクルの位置６において、システムは開始状態であり、利用者は１．２または３を介する処理の選択を有する。

質問　相互作用サイクルの位置１において、ネット構造は図２ａに示されたようなものであると仮定する。

る。管理プログラム、すなわち利用者はネットが正しいまだ新しい入力は入力層、例えばａ２、ａ４およびａ６においてセルのいくつかを励起するネットに与えられ、２つの新しいセルａ８およびａ９を例示する（すなわち、特徴データを蓄積することによって生成する）。全体入力データシーケンスを一緒に蓄積するセル（ａ２、ａ４、ａ６、ａ８およびａ９）は現在の短い用語メモリ（ＣＳＴＭ）としてネットにおいて知られており、ＲＡＭで構成されることが都合がよい。

出力層（ｂｌ、ｂ３およびｂ４）中のいくつかのセルは、適切な既存の相互接続（例えば、ａ２−ｂ３．ａ４−ｂ４．ａ６−ｂｌおよびａ６−ｂ３）を介して入力セルの点火によって励起される。出力層はその１つのセル中で競争学習時にクラスタのように正確に動作しくＲｕｍｐｌｈｘｒｔ　＆　２ｉｐｓｅ＋　１９８６　）、その地金てを占有し、それ自身を除く全ての出力を阻止する。

（原理的にはこれは出力層を阻止接続部と完全に接続し、単一のセルだけが点火状態であるときにネットを安定させるためにあるフィードバックシステムを使用することによって行なわれることができる。実際には、これは厄介であり、構成の簡単化およびネット特徴の理解のいずれにも貢献しないため、最も強く点火するセルを示した簡単な全体関数が簡明化のために与えられる）。この例を示すのはｂｌであるとする。

このセルは点火し、ネットにおいである動作を生成する。この作用は通常出力をプリントすることを意味するが、等しく別のことになってもよい。既知の競争学習アルゴリズムとは異なり、この段階には加重修正はない。プログラムは位置６に戻る。ネットの管理上の観点はこの段階で動作に移行されｈ　１　のよ　う　に始イヒ六　わ　ス−は正しくない応答を形成したかを決定する。応答か正しい場合、ネットは修正されないでいるか、或はそれは“報酬を与えられる”　（すなわちこの応答を助長するように修正される）かのいずれかであることが可能である。応答が正しくないと考えられた場合、ネットは処罰され、ここで処罰は所定の入力に対して確実性の低い正しくない応答を形成する加重修正プロセスである。応答が正しくも、また正しくなくもないと考えられた場合、ネットは修正されずに放置されることができ、別の入力が試みられることができる。

報酬：位置２において、ネットは図２ｂの例に示されており、正しい応答を出力している。利用者はネットに報酬を与え、接続は以下の方法で修正される：信号を伝送しない励起された出力ノードへの接続は例えばａｌ−ｂｌで弱くされる。

新しく例示されたノードへの接続は例えばａ８−ｂｌ、ａ９−ｂｌで形成される。

信号を伝送する励起された出力ノードへの接続はａ６−ｂｌで強化される。

他の接続は不変である。

その後アルゴリズムは６に戻る。

処罰：相互作用サイクルにおける位置３において、図２Ｃに示されたようなネットは正しくない応答を生成するため、利用者はネットを処罰し、接続は次のように修正される。

信号を伝送しない励起された出力ノードへの接続はａｌ−信号を伝送する励起された出力ノードへの接続はａ５−ｂｌのように弱くされる。

他の接続は不変である。

その後サイクルは位置５に進む。

準備２：この段において、位置４に進むか、或は位置６に戻るかのいずれかが可能である。

教示：位置４において、利用者は学習すべきネットに予測された出力を与える：例えばｂ３は図２ｄに示されたような予期された出力であると仮定する。

教示は上記の報酬の場合ののように進み、全Ｃ３ＴＭ入力セルと例えばａ４−ｂ３．　ａ８−ｂ３．　ａ９−ｂ３．　ａ６−ｂ３に既に存在しない予測出力セルとの間に接続を形成する。

所定のセルに対する他の接続は例えばａ７−ｂ３で弱くされる。その後、プログラムは位置６に戻される。

加重修正加重を変化する方法は、競争学習において行われたようにネットの既存の傾向を補強する方法で接続部を強化する代りに、工程が所望された応答だけが強化され、所望しない応答が弱くされるように制御されることを除き、競争学習（ＲｕｍｅＩｈａ目＆　２ｉｐｓ！ｒ　１９８９　）において使用された方法の修正である。

競争学習において、加重を正規化することは通常であるが、しかしＤＴＮでは式２に示されるような異なる方法が適合される。

ここで６＋＋１は強化を生じさせ、δ＝−１は弱くさせる。

μは最大値の位置を支配する。

図５は強化および弱化に対するこの加重修正関数のグラフを示す。この加重修正関数の効果は、最初に例示された加重か変化し易いとき（加重が関数の最小値の近くにあるため）であるが、多数の弱化または強化が強度を発生したときに飽和する傾向かあり、容易に増加または減少しないことである。

これは加重か優勢になり過ぎることを阻止するが、加重が一定に強化される場合、それは容易に弱くされないことを保証する。したがって、学習しないことは可能であるが困難である。この加重修正方法はまた既知のタイプの神経ネットワーク、例えばＭＬＰネットワークに適用可能である。

現状では、上記されたネットは有効な関連を可能にし、最初にシーン理解プログラムにおいて上から下への文脈として使用された。例えば船および水が検出されたシーンにおいて、シーンのタイプの候補（例えば港）全体はネットを使用して決定されることかでき、垂直および斜めの線を含む任意の大きい対象物は下から上へのプロセスを使用して試験される候補クレーンになることができる。ネットはこの段階において入力の構造の意味を持たないため、それは例えば（ボート、水、クレーン）と（クレーン、ボート、水）とを区別する二とができない。これは文脈をめる目的に関する限り決定的な欠点ではないか、制限された領域変換のような別の実験的な適用に対しては、（ロンドンからハワイまでの次の列車の何時か）と（ハワイからロンドンまでの次の列車の何時か）を区別できないことは許容されないであろう。

したがって、言語処理および類似の順序依存入力データに対する実施例において、ネットは順序依存性を保持する手段を必要とする。

１実施例において、このフレキシビリティはそれぞれ１つ以上の特徴に応答する新しい入力ノードを生成することによって達成される。したがって、一連の訓練データが入力されたとき、それは入力バッファに一時的に蓄積される。簡単に実施例のように、既知の特徴（例えば１文のワード）はある入力ノードを点火させ、新しい特徴に応答するある新しいノードが上記に論じられたように生成されることができる。その後、本発明のこの実施例において順序情報は入力データシーケンス中の複数の特徴にそれぞれ応答する別の新しいノードを形成することによって獲得され、複数の各特徴は連続したシーケンスであることが好ましい。

例えば、訓練データシーケンスが文である場合、この実施例はプレターミナル（またはワード）の連続した対、３つの組のもの、４つの組のもの等を形成し、入力ノードにこれらの各々を蓄積することによって順序情報を得る。

例えば、文’１ａｚｙｃａｔｓ　５ｌｅｅｐ　ｉｎ　ｔｈｅ　ｈｏｔ　ｓｕｎ” において、見”、”５ｌｅｅｐ　ｉｎ　ｔｈｅ”等；４つのもの”Ｉａ！ｙｃａｒｓい用語メモリ中に蓄積されることができ、対応したノードはいくつかまたは全てに対するいくつかに対して形成されてもよい。このようなノードは、訓練中に後続的に遭遇されない場合はネットから除去されることか好ましい。

図６は、所定の文が文法的であるか否かを決定する問題に関する訓練後のこの実施例によるネットの一部分を示す。

（典型的な場合、文法問題に関する訓練後に入力層に３０または４０個のノード、或は言語翻訳問題に関する訓練後に数十個のノードが存在することができる。

）訓練中のこの実施例の動作のアルゴリズムまたはノードは以下文法的な問題を例として概略的に説明される。訓練ファイルはプレターミナルの１組の正または負の文を構成し、各々がその正しい分類イエスまたはノーによって後続される（プログラム中の“所望の応答”）。文の１つの表示は後続する一連の動作（“主サイクル″）になる：（１）訓練データ（文）ストリングはファイルから読取られる。

（２）全ての可能な３つの組のものは短い用語（管理プログラムまたは利用者によって限定された最小と最大の３つの組のものの長さの間）蓄積部において生成される。

（３）これら３つの組のもののいくつかは入力層への内蔵のために選択される。

選択は以下詳細に論じられるが、本質的に疑似ランダムである：選択の確率は、以下論じられるいくつかの要因および３つの組のものの長さに依存する（３つの組のものが長くなるとそれたけ選択される傾向が少なくなる）。

（４）生成された３つの組のもののどれかに整合する各人力ノードは付勢（すなわち点火）され、出力ノードの付勢はアクチブ人力ノードの単純な加重合計によって計算される。

（５）３つの組のもの全てはステップ３で選択され、新しいノードを形成するために入力層に付加される（それらがまだ与えられていない場合）。

（６）入力層は非常の“有効”でない（すなわち先行したサイクルに対して希にしか付勢されない）ノードを除去される。

（７）最もアクチブな出力ノードが発見され、“現在の出力勝者”と表わされる。

（８）所望の応答はファイルから読取られる。これは現在の出力勝者と同じである場合、後者はただ“所望の応答ノード”と示されたほうがよい。それが同じでない場合、このノードは出力層に付加され、それがまだ存在しない場合には、それは“所望の応答ノード“として表される。

（９）リンクは必要ならば全てのアクチブな入力ノード（付加されたものを含む）と所望の応答ノードとの間に生成される。

（１０）リンクの加重は（例えばμ＝１で）上記された学習方法にしたがって調節される。

さらに文が訓練中に与えられると、入力層は最初に成長し、次にノードが付加されるのと同じ速さで失われるダイナミックな平衡の状態に達する。訓練型は、動作が満足できると判断されるまで全訓練セット時間を幾度もランするだけの“ブルートカ”、または完全な訓練セットからの文が現在の訓練セット上の動作が満足させられたときに現在の訓練セットに付加されるだけである“インクレメント的”のいずれかであることができる。“満足できる”とは試験セット上の動作への参照により実験的に発見されることである。これは著しく急速な訓練および試験セット上のほとんど劣化されない機能を与えたため、それは通常訓練セット上の１００％ではなく９０％の性能を要求することが最良であると認められている。

上記のように、訓練は“ブルー）・力”または“インクレメント的”である。ブルートカ訓練は、訓練セット全体を通じて反復的に循環するだけの訓練神経ネット（特にＭＬＰ）の標準モードである。これはＭＬＰに対して完全に良好に作用するようであるが、小型寸法より大きい訓練セントを持つこの実施例に対して全く作用しない（差は使用される異なる加重調節方法に結合されると考えられる）。４０個のストリングの訓練セットでさえもブルート力訓練を使用して容易に常に学習されることはできない。

したがって、ネットワークが訓練データシーケンスの最初のセットに関して訓練される“インクレメント的”訓練方法を使用することが好ましく、訓練が終了した後にのみ、セットは拡張される。訓練データシーケンスは一時に１つ、またはいくつかのシーケンスのステップでセットに付加されてもよい。ネットは訓練データシーケンスセットの各拡張の後保持する。一般に、インクレメント的ステップ寸法が大きくなると、それだけ訓練セットの学習のために要求される表示の合計数は小さくなるが、ステップ寸法が大きくされ過ぎた場合、学習は再度遅くなる。最適ステップ寸法はデータ依存性であるため試行およびエラーによって発見されなければならない。

インクレメント的訓練方法はまた本発明の別の実施例、および別のタイプの神経ネットワーク（例えばＭＬＰネットワーク）に対して適用可能であるが、上記の加重調節方法と組合わせて使用されることが好ましい。

ステップ３において上記で論じられたように、これが実行された場合には、多数の領域において人力ノード数が実際の計算にとって大きくなり過ぎるため、入力データシーケンスの３つの組のもの全てが常に蓄積されることはない。蓄積のために３つの組のもののい（つかだけを選択するある手段が要求される。最も簡単な解決方法は訓練中に遭遇された３つの組のものの全ての第２または全ての第３のものを蓄積することであるが、しかしこれは通常かなり不完全な基準である。

したがって、可能性のある蓄積方法は以下示されるように訓練中に変化する確率により開発された。

入力層中に長さｎの３つの組のものを含む確率はｐ（以下に示される全体的変数）およびｎに依存する。ここで、この実施例は簡単な累乗の法則を使用する：長さｎの３つの組のものを含む確率はｐ”である。したがって、ｐ−０，８ならば、シングルトンを発生する確率は（１，８であり、対を生成する確率は０．８’ 　＝　０．６４であり、３つの組のものを生成する確率は０、８’　＝０．５１２である。さらに精巧な確率分布は考慮されることができる。累乗の法則の背後の合理性は、長い３つのものはある意味でさらに“特別化”され、所望の出力ノードを選択するために短いものほど全体に有効ではない。

文法および翻訳上の簡単な問題に対して、佳０に固定されたｐを維持すること、すなわち３つの組のものの最大の長さまで訓練中に遭遇された３つの紹のもの全てを蓄積することが最も簡単であることが認められた。これは最大長、例えば３まで１つだけ蓄積された短い３つの組のものに限り計算上適切である。この方法の利点は、非常に有効な３つの組のものが偶然廃棄されることを心配する必要がないことである。

しかしながら、確率上の蓄積は、３つの組のものをもっと含んでいる大きいデータセットを学習するために要求される。

ｐはまた全体的なネットパラメータに依存する。第１のこのようなパラメータは “自己満足”と呼ばれる。自己満足は正しい答えの現在のシーケンスの長さに関連している。ネットか正しく応答している場合、多数の新しいノードを付加することは望まれない。この全体的な原理はまた本発明の全ての他の実施例に対して適用可能である。この実施例において、自己満足は正しいシーケンスが長さにおいて成長したときｐを指数関数的に低下させ、その後間違った答えが生成されたときに元の値に戻る。

“経験”と呼ばれる別のパラメータは入力層中のノードの合計数に関連している。ネットがすでに大きい場合、制限なしにノードを付加することは望まれず、そのため経験は入力ノート数に関して指数関数的にｐを低下させる。自己満足はネットがインクレメント的訓練中に非常に大きいデータセットの部分にさらされる状況において有効であり、これは特に問題のある領域において非常に高い１ノベルでネットを動作させるのにすてに十分であった。そのアイディアとは、データセットの残りかもっと多くの余分な入力ノードの付加を生じさせることによって入力層を“妨害”しないことである。しかしなから、多くの型式の状況において訓練しているデータセットは基本的に“自己満足”を利用するのに十分なほど大きくない。“経験”の使用は、ネットが既に大きく成長しており、したがって３つの組のものの蓄積の可能性を小さくするが、しかし依然として訓練セットを学習していない場合に潜在的に問題を生じる可能性が高い。このような場合、それは訓練セットを学習しない。したがって、ｐが経験により非常に遅く低下することだけを保証することが重要である。

前述したように、本発明のこの実施例は言語処理問題（それはまた特徴順序依存性を有する別のタイプのデータに対して使用されてもよいカリにおいて有効であり、例えば熟語集タイプの言語翻訳装置を訓練するために使用されてもよい。

翻訳に対するこのような神経ネットアプローチの利点は、ネットが適切なデータ収集方法により基本言語と目的言語の両方を話す人によって訓練され、言語熟練者による熟練したプログラミングを必要としないことである。例えば和英コンテキストのような多数の翻訳問題に多数のリソースを費やすことが経済的である場合、満足できる精密な伝統的な言語翻訳アルゴリズムを構成することは実現可能である。経済的に微力な少数グループによって話される言語が関連している場合、翻訳家を補助する神経ネットワークの使用が有益である。

もちろん、任意のこのようなネットは深刻な誤りを回避することができるため、目標言語だけでなく基本言語における意図された出力層を生成する。

各符号（一定した符号セラｌ−）に絶対的な位置を関連させることができる入力にある順序情報を与える別の簡単な方法を以下に示す。

例えば、多数の入力ＬＯＯＬＬＯＬＬが入力された場合、ネットはそれらをＬｌ　０２　０３　Ｌ４　Ｌ５　０６　Ｌ７　Ｌ８に変換し、したがって単一の２進入力（１００１１０１１）として処理することができるブリプロセッサを含んでいた。

これは、固定された長さの入力を考慮することを意味しているため、ネットに概念上の柔軟性をなくす欠点を有するが、しかしそれはもっとフレキシブルな順序導入方法が好ましいのだが、例えば多層バーセラトロンはど剛性ではない。

上記のタイプの入力層の使用は、ある種の問題に対して効果的であることが認められる。より高レベルの問題に対して、入力および出力層の間におけるノードの隠蔽層または中間層の使用は効果的な解決方法であることが多い。これは通常の種類のものであるが、本発明の別の実施例によるネットワークは矛盾した入力であるように単層ネットに現れたものと対抗するように（付加的な）内部ノード（すなわち中間層において）を生成する付加的な能力を有１−でいる。このようなノードがあまり頻繁に生成された場合、並びに単層ネットが十分訓練が与えられか否かに対処した場合、ネットは非常に多数の不必要な内部ノードで直ぐに満たされ、生成されたものはただ非常に大きいメモリと等価である。他方、このようなセル生成が通常複合データ処理するのに必要な時にだけ行われた場合、このような能力を備えたネットは過度に大量のメモリを使用せずに難解な問題を学習することができる。以下、このような余分なノードが分離的に、しかし適切に導入されるメカニズムを論じる。

上記の“自己満足”パラメータに等価な全体的パラメータが使用される（以下、自己満足パラメータのこの変形は“セル生成励起”または“ＣＣＥ”と称される。）ＣＣＥは、ネットワークが質問の数に比較されて訓練中に歴史的に受取った処罰の数と便利に関連している。ネットワークが多数の正しい答えを与え、したがって少数の処罰を受取った場合、ネットワークは低いＣＣＥを有し、任意の新しいセルを生成または例示するとは考えられない。多数の処罰を受取った場合、ネットワークは高い値のＣＣＥで励起状態となり、新しいセルを例示する。

図７は、２つの出力ノードＣＲ（正しい応答）およびＩＲ（正しくない応答）を含むこの実施例によるネットワークの一部分を示し、入力層は３つの入力ノードａｌ、ａ２．ａ３並びに各加重（示されていない）を介して３つの入力ノードにおよび出力ノードの１つにそれぞれ接続された２つの中間層ノードＣＲＩおよびＣＲ２を含む。一般に、いくつかの中間層ノードが１つの出力層ノードに接続されることができる。

共通の出力ノードに接続された中間ノードのグループは“クラスタ”と呼ばれる。短い用語メモリ中に保持された入力信号がａｌ、ａ２およびａ３が゛応答する３つの特徴を含んでいる場合、正しい応答はセルＣＲＩに対して点火されるべきであり、出力セルＣＲをトリガーするが、これはその場合ではなく、代りにＩＲＩが点火され、正しくない応答ＩＲをトリガーすると仮定する。管理プログラムはネットを処罰し、接続部は図５を参照して上記に示されたアルゴリズムにしたがって変化される。その後、ネットは、出力ＣＲが正しいことを“通知”され、次の試験が発生する。出力決定の時（この例において、１つだけ存在するため、それはＣＲＩのものである）にＣＲに接続されたクラスタにおけるそれらのノードの最高出力はＩＲＩのものである勝者励起のものと比較される。その後、以下の論理ステップが行われる：励起（ＣＲＩ、）＜Ｔ、（励起ＩＲＩ）であって、Ｔ−Ｔ（ＣＣＥ、別のパラメータ＊）ならば、新しいセルＣＲ２は例示され、ＣＲに接続され、図７ｂに示されるように適切な接続が形成されるため、ＣＲ２はＣＲを点火させることによって正しい応答を与える。

セル生成しきい値（ＣＣＴ）と呼ばれる別のパラメータ＊は、それが適用される特定のクラスタの寸法を増大することを要求され、その出力クラスタにおけるセルの数に関連する励起のレベルを支配する。クラスタが大きい場合、それは新しいセルの生成に抵抗する。これは、ネットが大きいクラスタにおいてセルを余り容易に例示しないため、経済的な利用に対する自然な傾向であることを意味する。１例において、上記のネットワークはｍｕＬＩＳＰを使用してＩＢＭ　ＡＴでシミュレートされた。２種類の入力はネットワーク：英語の文および文節並びに２進入力に関して試験された。

英語の文および文節ネットワークは、訓練入力からの偏差が許容可能な大きい範囲の入力に正しく応答することを学習することができ、さらに小さいが重要な入力への変化が正しく翻訳された。良好な訓練されたネットの簡単な例は図８に示されている。文節はネットが以下の応答のセットを学習するように教育された：″Ｗｈａｔ　ｉｓ　７ｏｕｒ　ｎａｍｅ　？：”−Ｔａｎ１ａ″＝Ｗｈａｊ　ｉｓ　７ｏｕｒ　ｓｉ＠ｔｅｒ’ｓ　ｎａｍｅ　？：　’　−”Ｇｉｎａ”“Ｗｈａｔ　ｉｓ　７ｏｕｒ　７ｏｕｎｇｅｒ　５ｉｓｔｅｒ’ｓ　ｎａｍｅ　？：　”　−”Ｄｏｌｏ＋ｅｓ　”Ｗｈａｔ　ｉｓ　７ｏｕｒ　ｊｏｂ　？：　”−Ｇｉｐａ７　”図６のネットに対する加重値は表工に示されている。この容易な入力のセットによりクラスタは形成されず、中間層は１組の単一セルであることに留意すべきである。

“Ｗｈａｔ’５ｙｏｕｒ　ｎａｍｅ　？”または”Ｗｈ［ｊｏｂ　ｄｏ　７ｏｕ　ｄｏ　７”のような小さい変形を持つ入力はもちろん正しく翻訳される。

ネットのいくつかの変形は後続的に教えずに処罰を行う。

このような場合、例えば入力“Ｗｈａｔ　目ｙｏｕｒ　ｎａｍｅ　？”に対して “Ｌｉｘｘｉｅ”と応答するようにネットを教えることができる。別の訓練期間は応答“Ｅｌｉｘａｂｅｔｈ”を教えることができる。ネットがその名前を提供するように反復的に要求され、答え“Ｅｌｉｘａｂｅｌｈ　”が与えられたときに処罰された場合、正しい応答は教えられていないにもかかわらず、それは必ずその前の名前”Ｌｉｘｘｉｅ”に戻る。

要約すると、ネットワーク訓練は誘雷を蓄積し、入力中の重要ではない変形が正しく無視される一方で、重要な変形は正しく翻訳されるように語索における項目間の関係を構成することができる。ネットワークは入力ワードの適度に大きい語雷（約４００）を学習した後でさえ、任意の入力に対して迅速に応答した。

２進入力排他的オア問題図９は、排他的オア問題を解決するように教えられたネットを示す。４つの入力Ｌｌ、Ｌ２．０１および０２は、例えば入力（Ｌｌ　０２）がＩＯを表すように、上記の例（ＬＯＯＬＬＯｌ、Ｌ）に示されたように論理人力１１１００１および００を発生するように使用される。（この表示は、数学的な２進入力が所望された場合は、２つの人力セルの予備層によりもつと神経らしくされることができる）。この場合、加重は表１１に与えられ、出力を計算する式は表１１１に与えられ、排他的オア関数に対して式を計算する結果は表ＩＶに与えられる。この場合、２つのセルの２つのクラスタはそれぞれ中間層において形成され間に重複はないため、実際に２つ完全に独立したサブネットることが認められるであろう。

この場合、排他的オア問題は単層のネットだけが使用された場合、必然的に発生しなければならない後方および前方探索を阻止するこれら４つの中間セルを例示し、排他的オア問題を解決する後方伝播による多層Ｐ　Ｐ　（ＭＬ　Ｐ）　（Ｒｕｍｅｌｈａ目、　１ｌｉｎｔｏｎ　＆　Ｗｉｌｌｉａｍｓ　１９８６）によって要求される数千の反復の必要性をなくすことによって解決される。処理時間の減少はメモリの増加との交換において実現されることが理解できる。実際に、３つの内部ノードはこの問題を解決するのに適切であることが多い。それより多い５つの不良訓練による別の極端な状態は明らかな冗長により例示される。したがって、このようにして浪費された再生利用されたメモリに対するアルゴリズムは望ましい（しかし必要ではない）。排他的オア問題を解決するために非常に多数のセルを使用することは一見して反生産的であり、単にメモリとして入力および出力だけを蓄積したほうがよい。

事実、特徴がそのパワーを与えるこの方法で蓄積する値がある場合を決定することはネットの性能である。以下に示されるように、かなり大きい入カバターンを含むいくつかの問題は明らかにそれらに含まれる排他的オア問題を有している。

このような場合、多数のへカソードは存在しているが、４つの中間ノードだけが形成されるため、解決方法は全てのパターンの認識を可能にするように生成された少数の記憶された場合を構成し、これはメモリの非常に効率的な使用方法である。

図８および図９の２つのネットは入力および出力のセットこれは、表■１に示された訓練セットにより明らかに認めらを形成する同じネットの一部分である。同じネットがある別の論理関数を解く訓練をすることを望む場合、例えば（ＬｉＯ２）だけを入力する代わりに訓練中に入力（排他的オアＬＩＬ２）が使用されてもよく、この入力は排他的オア出力と関連される。その後、例えばオア関数は適切な出力と共に（オアＬｌ　０２）のような入力を使用することによって訓練されることができる。この方法は、ネットが利用者の希望にしたがって異なる方法で入力を処理することを学習することを可能にする。

パリティ問題示されたネットワークは、８人力状態の表示の３乃至７つの完全なサイクルの間のいずれかにおいて同じ方法で訓練された場合、第３位のパリティ問題を解決することができる。

ビデオ画像におけるしみ発見０および１の各列が２次元入カバターンと考えられる表■の形態における入力を使用して、ネットワークはクラスタまたはじみがほぼ北、南、東または西であるかを決定するように訓練され、訓練の成功的な結果が示されている。

潜在する排他的オアネットワークはまたパターン認識問題を解決するように排他的オア問題を解決する能力を生成することができ、ここで２次元空間中の分離領域は１６個のディメンション空間に隠蔽されている。

れる。下方の２つのエントリイは正しく識別された雑音パターンを示す。この場合、４つの内部ノードは復号的な訓練セットと対抗するように例示されるが、全ての後続的な入力は内部ノードを増加せずに正しい出力を生成するようにこれら練するようにプログラムされることが訓練中必要である。

その代わりとして、本発明は並列ハードウェア機能（並列プログラム分枝のような）を順次実行するようにプログラムされた計算装置（マイクロプロセッサ、または好ましくはＤＳＰ装置）として構成されてもよい。

最後に、本発明にしたがって訓練されたネットワークは、熟語集翻訳のような特定の適用のために訓練手段を持たない訓練装置として市販されることができることは明らかである。

このような装置は一般にそれらが本発明を使用して訓練され、したがって構造において既知のネットワークに似ていないという事実を反映する１例えば訓練の最後に例示されるノードはまばらに接続される。

参考文献（１１ＡＬＩＩ！ｎ、ｊ、（１９８７１Ｎａｔｕｒａｌ　Ｌａｒｔｒｕａｇｅ　Ｕｎｄｅｒｚｔａｒ＋ｄｉｎｇ、（１９８７１Ｃａｌｉｆｏｒｎｉａ：　Ｂｅｎｌａｍｉｌ／Ｃｕｉ’ｒＪｎｌｎ（１５゜（２１Ａ１ｏｎｓｏ＋　；、　Ａ、　ａｒ６５ｃｎｎｅｉｄｅｒ、　’ｒ、（１９Ｂ９）　Ｍａｃｈｉｎｅ　Ｔｒａｎｓｌａｔｉｏｎｒｅｃｈ／ｌｏｔｏｇｙ：　ｏｎ　ｔｈｅ　ｗａｙ　ｔｏ　ｒｙｔａｒｋｅｔ　ｔｎＣｒｏｒｉｕＣｌｌｏ／Ｉ−、Ｉｎｔｅｒｎａｔｉｏｎ≠■ ｊｏｕｒｎａｌ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ａｐｐｌ上Ｃａセ１ｏｎｓ　ｉｎ　Ｔｅｃｈｎｏｊ、ｏｇｙ、２　ｏｐ　１８６−１９０゜［３１Ｈｕｔｃｈｉｎｓｏｎ、　Ｐ、、Ａ、　ａｎｄ　ＷｅｌＳｔｌ、　Ｗ、Ｊ、　（１９８９）　Ｃｏｒｎｐａｒｒｓｏｎ　ｏｆ　Ｎｅｕ窒≠■ Ｎｅｔｗｏｒｋｓ　ａｎｄ　ＣｏｎｖｅｒｕＩｏｎａｌ　Ｔｅｃｈｎｉｑｕｅｓ　ｆｏｒ　Ｆｅｒｙｒｕｒｅ　Ｌｏｃａｔｉｏｎ　ｉｎ　Ｆ≠モ奄＝I Ｉｒｎａｇｅｊ、　Ｆｉｒｓ：　ＩＥＥ　Ｉ；Ｉｔｅｒｎａｔｌｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　ＡｒｊｌｆｌＣｌａｌ　Ｎｅｕｒ≠■ Ｎｅｔｓ、Ｌｏｒ＋ｉｏｎ　１６−Ｌａ　０ｃセｏｖｅｒ　！９８９゜＋（ｅｕｒａｌ　Ｍｅｔｅ、　Ｗａｓｈｘｒ＋ｇｖｏｎ、　Ｊｕｎｅ　１９−２２゜［５］　Ｌｙｎｃｈ、Ｍ、Ｒ，ａｎｄ　Ｒａｙｎｅｒ、Ｐ、Ｊ、ｆ１９Ｂ９）　Ｔｈｅ　Ｐｒｏｐｅｒｔｌｅｓ　ａｎｄｌｍｐｒｅｒｎｅｎｒａｔｉｏｎ　ｏｆ　ｔｈｅ　Ｎｏｎ−Ｌｉｎｅａｒ　Ｖｅｃｌｏｒ　５ｐａｃｅ　Ｃｏｎｎｅｃｒｉｏｎｉｓｔ　Ｍｏр■戟B Ｆｉｒｓｔ　ＩＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｖｅｒｅｎｃｅ　ｏｎ　Ａｒｔｉｆｉｃｉａｌ　Ｎｅｕｒａｌ　Ｎｅｔｓ。

Ｌｏｎｄｏｎ　Ｌａ−１８０ｃｔｏｂｅｒ　１９８９゜（６］　ＭｃＣｌｅｌｌａｒｏｊ、Ｄ、Ｅ、ａｎｃｉ　Ｋａｗａｍｏｔ＋、Ａ、Ｈ，（１９８６）　Ｍｅｃｈａｎｉｓｍｓ　ｏｆＳｅｒ＋ｔｅｎｃｅ　？ｒｏｃｅｓｓ１ｒ＋ｇ：　Ａｓｓｉｇｎｉｎｇ　Ｒｏｌｅｓ　ｔｏ　Ｃｏｎ５ｔｉｔｕｅｎｔｓ　ｏｆＳｅｎｔｅｎＣ２Ｓ、　ＰａｒａｌｌｅｌＤＩｓｔｒｉｏｕｔｅｄ　Ｐｒｏｃｅｓｓｉｎｇ、２　ＭｃＣ１ｅｌｌａｎ６゜Ｊ−Ｌ、ａｎｃ　Ｒ印ｅ１ｈａｒＺｒ　Ｄ、Ｅ −（Ｅｄｓ、）　Ｃａｉ’１ＤｒｌＣ］ｑｅ＋　Ｍａｓｓａｃｈｕｓｅｔｓ：　ＭＩＴＰｒｅｓｓ。

［７］　＋ｏｒｔｏｎ　Ｋ、　Ｃｏｕｌｓｔｏｎ、　Ｍ　ａｒ６　Ｇｅｒｒｉｈｙ、　Ｇ　（１９８９）　Ｔｒａｎｓｌａｔｉｏｎ　Ｅｒ＋■撃窒唐■ ｔｏ　Ｆｒｅｎｃｈ　Ｌｒｍｒｒｅｄ　Ｄｏｍａｊｎ　ＴｒａＡｓｌａｔｉｏ／ｌｕｓｒｎｇ　Ｄｙｎａｍｉｃ　Ｔｏｐｏｌｏｇｙ　ＮｅｔＦ！ｅｏｏｒｔ　５ｃｒ　ａｒｘｔｘｓｎ　Ｔｅ１ｅＣ：Ｏｍ　Ｃ０ＮＮＥＸ　ｐｒｏｊｅｃｔ。

［８］　Ｒｕｍｅｌｈａｒｔ、ｏ、：、ａｎｄＭｃＣ！ｅＬｌａｎｄ、Ｊ、Ｌ、（１９８６）　Ｐａｒａｌｌｅｌ　ＤｉｓｔｒｉｂｕｔｅｄＰｒｏｃｅｓｓｉｎｇ、　Ｃａ１ＴＬＣ１ｒｌＯｑ２＋　ａａｓｓａｃｈｕｓｅｔｓ：　ＭＩＴ　Ｐｒｅｓｓ。

［９］　Ｒｕｍｅｌｈａｒｔ、　Ｄ、Ｅ、ａｎｄ　と口ＣＬｅｕａｎｌ：ｉ、；、Ｌ、　（１９８６）　Ｏｎ　Ｌｅａｒｎｉｎｇ　ｔｎｅＰａｓｔ　Ｔｓｎｓｅｓ　ｏｆ　Ｅｎｇｌ土ｓｈ　ＶｅｒＤｓ、　Ｐａｒａｌｌｅｌ　ＤｉｓｔｒＩｂｕｔｅｄ　Ｐｒｏｃｅｓｓｉｎｇ、　Q ＭｃＣ１ｅｌｌａｎｃ、Ｊ−Ｌ、ａｒ、ｄＦｌｕｍｅｉｈａｒｊ、Ｄ：Ｅ−（Ｅｄｓ、ｌ　Ｃａｍｂｒｌａｇｅ。

Ｍａｓｓａｃｎｕｓｅｖｓ：　ＨＩＴ　Ｐｒｅｓｓ。

［１０１Ｒｕｍｅｌｈａｒｔ、Ｄ、Ｅ、、Ｓｍｏｉｅｒ＋５ｉｃｙ、Ｐ、、ＭｃＣｌｅｌｌａｎｄ、Ｊ−Ｌ、ａｒ６　Ｈｉｎｔｏｎ。

Ｇ、Ｅ、　（１９日５１　Ｓｃｈｅｍａヒａ　ａｎｄ　５ｅｑｕｔｎｔ１ａｉ　Ｔ＋１０ｕｇＪ１ヒ　ｐｒｏｃｅｓｓｅｓ　ｉｎ　ｐｖｐｍｏ６ｅｌｓ、　Ｐａｒａｌｌｅｌ　Ｄｉｓｔｒｉｂｕｔｅｄ　Ｐｒｏｃｅｓｓｉｎｇ、　２　ＭｃＣｌｅｌｌａｎｃｉ、　ｌ〕、Ｌ、己ｎ■ Ｒｕｍｅｌｈａｒｔ、　Ｄ、Ｅ、　（Ｅｄｓ、）　Ｃａｒｌ＋Ｏｒｉｄｇｅ、　Ｍａｓｓａｃｉｕｓｅセｓ：　ＨＩＴ　Ｐｒｅｓｓ。

［Ｌｌ］　Ｒｕｍｅｌｈａｒ：＝、Ｄ、三、ａｎｃｉ　Ｚｉｏｓｅｒ　Ｄ、０９８６）　Ｆｅａｔｕｒｅ　Ｄｉｓｃｏｖｅｒｙ　ｂｙＣＯｍｐｅｔｉｊ二ｖｅ　Ｌｅａｒｎ上ｎｇ　、　Ｆａｒａｌｌｅｌ　Ｄｉｓｔｒｉｂｕｌｅｄ　Ｐｒｏｃｅｓｓｉｎｇ、　ｌＭＣＣ１ｆ！１１ａｎｃ、Ｊ、Ｌ、ａｎｏ　ｉｌｔｕｍｅｌｈａｒｔ、Ｄ、Ｅ、（Ｅｄｓ、）　Ｃａｍｂｒｘａｇｅ。

Ｍａｓｓａｃｈｕｓａｔｓ：　ＨＩＴ　Ｐｒｅｓｓ。

［１２］　Ｒｕｍｅｌｈａｒ−、Ｄ、Ｅ、、　Ｈｉｎ＝ｏｎ、　Ｇ、Ｅ、　ａｎｄ　Ｗｉｌｌｉａｍｓ、　Ｒ，Ｊ、　（１９臼６）Ｌ、＝ａｒｎｉｎｇ　Ｉｎｔｅｒｎａｌ　Ｒｅｐｒｅｓｅｎｔａヒ１０７１５．　Ｐａｒａｌｌｅｌ　ＤｉｓｔｒｉｂｕｔｅｄＰｒｏｃｅｓｓｉｎｇ、２　ＭｃＣｌｅｌｌａｎｃｉ、Ｊ−Ｌ、ａｎｄ　Ｒｕｍｅｌｈａｒｔ、Ｄ、Ｅ、（ＩＪｓ、）Ｃａｍｉｒｒｉ６ｇｅ、釉５ｓａｃｈｖｓｅ［ｓ二　ＨＩＴ　Ｐｒｅｓｓ。

１ユ３］’　５ａｅｒｅｎｓｒ　Ｍ、ａｎｄ　５ｏｏｅ＝、　Ａ、＋　（１９８９）　Ａ　Ｎｅｕｒａｌ　Ｃｏ／１ｔｒｏｒｌｅｒ　Ｆｉｒ唐■ ＩＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ａｒｔｉｆｉｃｉａｌ　Ｎｅｕｒａｌ　Ｎｅｔｓ、Ｌｏｎｃｌｏｎ１６−１８　０ｃセｏｂｅｒ　１９Ｂ９゜１ｉ４］　５ｈａｒＫｅｙ、　ｓ、三、（ユ９Ｅｉ９）　Ａ　？’Ｖ：？　ＬＥ！ａｒｎｉｎ９　ＡＤｐｒＯａＣｎ　ｔｏ　Ｎａ：ｕｒａｌＬａｎｑｖａｑｅ、　１ｖｅｕｒａｔ　ｃｏｍｐｕｔ＝ｇ　ＪＪ＆ｃ＝ｔｅｃｒｕｒｅｓ　ヱ、　ＡＬｅｘａｎｃｉｅｒ　（Ｅ６．ｌ。

Ｌｏｎｃｉｃｎ　：　にｃａａｎ−ｐａａｅ。

（４５］　５ＬＯＣｕｎＬ　ｊ、　１Ｌ９Ｓ９）　Ａ　５ｕｒｖｅｙ　ＯＥ　ＭａＣＭｎｅ　Ｔｒａｒ＋５ｌａｔｉｃｎ：　ｉｔＥ′！：、１ＳｔＯｒ　ｙ＋　 ’＋’ａｒｒｅｒ、Ｚ　Ｓｆ、ｅｅｕＳ　＋　ａｎＯＦｕヒｕｒｅ　？ｒＯ５ｐｅＣｔＳ”　ｒ’４ａｃｆｎｎ■ Ｔｒａｎｓｌａｔｊｏｎ　５ｙｓｔｅｎ：ｓ　Ｊ、　ＳｌＯ：ｕｍ＋　（三６．Ｉ　Ｃａ！ＴＣｒｌＯ＋Ｊｅ、　三ｒ＋ｇｌａｎビニ＋＋＋＋＋＋２＋　＋＋＋＋−＋＋７　、−＋＋５（ユｌ　Ｗｅｂｅｒ、　Ｓ、Ｈ，（！９Ｂ９）　、’、　Ｃｏｎｎｅｃｒｉｏｎｉｓｔ　Ｍｏｄｅｉ　ｏ；’　Ｃｏｎｃｅｐｒｕｔｒｔ；ｒｐｒｆｊ＋’！！！、！ｉ７＊’ｉ、　Ｔｎ：ａｒｎａ：＊＋ｎａＺ　’Ｓ二ｎ−：Ｓ二Ｆｅｒｅｎｒ、？　：曹　Ｎｅｕｒａｌ　ｒ＋■狽刀B 讐ａｓＩＩＬｎｑＺｓ７．ｒ　Ｊｕｎｅ　Ｌａ−２２゜［ニア！　Ｗｏｏｃｉｌａｒ、ｃ、　ｐ、ｃ、　こｎ（ｉ　Ｓｍｙｔｈ、　Ｓ、Ｇ、　（！９９０）　、 ’、ｎ　ＥｘｐｅｒｉｍｅｎｔａｌＣｏｍｐａｒｊｓｏｎ　ｏ、ｆ　Ｃｏｎｎｅｃｆｌｏｎｊｓｔ　ａｎｄ　ＣｏｎｖｅｎｔｉｏｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ　Ｓｙｓ狽■高刀@（１／１＼’ａｒｕｒａｌ　Ｄａｔａ、　Ｔｏ　ａｐｐｅａｒ　ｉｎ　５ｐｅｅｃｉ　ａｎｄ　ＣＯｍＪｎｕｎ工Ｃａｔｉｏｎ　−５ｐｅｃ１ａｌｒｓｓｕｅ　ｏｎ　Ｎｅｕｒｏｓｏｅ２ｃｉ。

］二：ｉ　Ｗ、、、：、？、呂１１９：’ｌ−ｉ！”、９ａｉｅ、Ｃ，ａｎｏ　ＭａｒＳｎ　Ｒ（ユ９Ｅ’９）　Ａ　Ｈｉｇｈｅｒ　０ｒｄ■■ Ｄｖｎａｒｎｊｃ　Ｔｏｐｏｌｏｇｙ　Ｎｅｕｒａｌ　八’ｅｔ　ａｎｄ　ｉｔｓ　ＡｐｐＨｅａｔｉｏｎ　ｔｏ　ｒ＋ａｒｕｒａｌ　Ｌａ獅■浮≠■■ りｒｏｏｌｅｒｎｓ、　ＴＯ’Ｄｅ　ｐ＝：’−二５ｆｉｅ６、’ｈｏｔ　ｉｓ　ｙｏｕｒ　ｎａｍｅ　５ｉｓｔｅｒ　ｊｏｂｓ　ｙｏｕｎｇｅｒＯ］０φ　１１　Ｌφ 要約す報酬、処罰、および教示によって訓練中入力層および中間層の両者において生成される神経ネットであり、これは、音声および母国語処理、ビデオ認識、および簡単な論理機能において適用可能な問題を長い訓練時間にわたって必要とすることをなくすためにメモリについての少量の増加を使用することができる。

国際調査報告１Ｍ１６Ｍｍ１ｅＰａｌ　Ａ峠ｈ＋ａｍ＋　Ｎ・　ＰＣＴ／ＧＢ　９０１０２００６国際調査報告ＧＢ　９００２００６Ｓ＾　４２９５８

Claims

【特許請求の範囲】

（１）入力信号を受信する入力手段と、対応したノード出力を発生するために予め定められた特徴の前記信号中の発生に応答する入力層手段と、少なくとも１つの出力を生成するために前記ノード出力の発注に応答し、各ネット出力が対応した加重値によって加重される複数のこのようなノード出力に依存している出力層手段とを含んでいる人工神経ネットワークにおいて、入力層が応答する前記予め定められた特徴に対応しない入力信号から得られたデータを蓄積する手段と、蓄積されたデータから得られ、それに対応した新しい特徴に応答するように前記入力層手段を変化する手段とを具備することを特徴とする訓練可能な人工神経ネットワーク
（２）前記変化手段は入力層が応答する複数の前記予め定められた特徴を含む予め定められたシーケンスの前記信号中の発生に応答してノード出力を生成するように前記入力手段を変化させるように構成される請求項１記載のネットワーク。
（３）前記シーケンスは前記入力信号において隣接して発生する特徴を含む請求項２記載のネットワーク。
（４）前記変化手段は予め定められた数より少ない前記特徴を含むシーケンスに応答してノード出力を生成するように前記入力層手段を変化させるように構成される請求項２または３記載のネットワーク。
（５）前記変化手段は前記入力信号中に発生する特徴のシーケンスからサブセットのシーケンスを選択し、そのように選択されている所定のシーケンスの確率がシーケンス長の増加と共に減少する前記サブセットに対応した出力ノード信号を生成するように前記入力層手段を変化させる請求項２または３記載のネットワーク。
（６）前記入力手段はさらに予め定められたデータのシーケンスに前記入力信号を分割し、入力層手段が符号に対応した特徴に応答するそのデータの識別子およびシーケンス中の位置を表す符号を各データに割当てる手段を含んでいる請求項１記載のネットワーク。
（７）可変基準に依存して前記変化手段を阻止する制御手段を含んでいる請求項１乃至６のいずれか１項記載のネットワーク。
（８）対応したノード出力を発生するために予め定められた特徴またはその組合わせの前記信号中の発生に応答する入力層手段と、少なくとも１つの中間出力を生成するために前記ノード出力の発生に応答し、各中間出力が対応した加重値によって加重される複数のこのようなノード出力または中間出力の関数である中間層手段と、少なくとも１つのそのような中間出力に応答して出力を生成する出力手段とを具備している人工神経ネットワークにおいて、加重されたノード出力または中間出力の新しい組合わせにそれぞれ対応する付加的な中間出力を発生するように前記中間層手段を変化させる手段と、可変基準にしたがって前記変化させる手段を阻止する制御手段とを具備していることを特徴とする訓練可能な人工神経ネットワーク。
（９）このような基準の１つはノードまたは中間出力の数に関連している請求項７記載のネットワーク。
（１０）基準は、所定の出力手段出力が応答し、それによって各所定の出力手段出力が予め定められた数以上の中間出力に応答しないように制限される中間出力の数に関連している請求項９記載のネットワーク。
（１１）請求項１乃至６のいずれか１項に従属された場合、基準は入力層手段が予め定められた数以上のこのようなノード出力を生成しないように現在のノード出力数に関連している請求項９記載のネットワーク。
（１２）このような基準の１つはネットワークの最近の歴史的特徴に関連しており、良好な歴史的特徴は前記変化手段を阻止する傾向を有する請求項７乃至１１のいずれか１項記載のネットワーク。
（１３）比較的長い間隔にわたって入力データ中に生じない特徴に前記入力層手段が応答できないように入力層手段を変化する手段を含んでいる請求項１乃至１２のいずれか１項記載のネットワーク。
（１４）比較的多数のネット出力が依存する入力ノード出力は前記依存の程度を対応的に弱くするように加重される請求項１乃至１３のいずれか１項記載のネットワーク。
（１５）入力層は前記特徴を蓄積する蓄積部を含み、蓄積するための手段は前記データを一時的に蓄積する蓄積部を含み、前記ネットワークは蓄積されたプログラム制御下で動作するデジタルコンピュータを含んでいる請求項１乃至７または９乃至１４のいずれか１項記載のネットワーク。
（１６）各層手段は少なくとも１つの入力および出力をそれぞれ含む複数のノードと、各入力に依存してノード出力信号を生成する手段とを含んでいる請求項１乃至１５のいずれか１項記載のネットワーク。
（１７）ノード出力信号を生成するために入力データにおける各予め定められた特徴の発生にそれぞれ応答する複数の入力ノードに対応する入力層と、それに依存する少なくとも１つの出力ノード信号を生成する出力手段とを具備している人工神経ネットワークの訓練方法において、入力層に入力として訓練データを供給し、前記予め定められた特徴に対応しない前記訓練データのデータを（少なくとも一時的に）蓄積し、前記出力ノード信号を検出し、予め定められた成功の基準に合致しない場合には、前記蓄積されたデータに対応した特徴に応答する少なくとも１つの付加的な入力ノードに対応するように前記入力層を修正するステップを含んでいる人工神経ネットワークを訓練する方法。
（１８）入力層、出力層および中間層を含み、少なくとも１つの別の中間ノードを提供するように中間層を修正するステップを含んでいる人工神経ネットワークの訓練方法。
（１９）訓練データを入力し、ネットワーク出力に無関係に加重値を調節するステップを含む複数の加重値によって限定された人工神経ネットワークの訓練方法において、所定の加重値が調節される量は、大きい加重値で量がゼロに向かうが、しかし低い加重値に対して大きいようにその現在の値に依存し、それによって同じ方向における頻繁な調節後に反対方向における調節は僅かな影響しか及ぼさないことを特徴とする人工神経ネットワークの訓練方法。
（２０）各加重Ｗｏｌｄは次のインクレメントΔ＝μδＷｏｌｄ／１＋（μδＷｏｌｄ）４によって調節され、ここでμは定数であり、δは±１である請求項１９記載の方法。
（２１）複数の訓練データシーケンスをそれぞれ入力し、それぞれに対して所望の応答を近似させるようにネットワークのパラメータを調節する神経ネットワークの訓練方法において、前記複数のシーケンスの各サブセットを反復的に入力し、前記パラメータを調節し、予め定められた訓練特性基準が満たされた後、前記サブセットの寸法を増加し、第１のステップを反復するステップを含んでいることを特徴とする神経ネットワークの訓練方法。
（２２）請求項１７乃至２０のいずれか１項記載の方法によって訓練されたネットワーク。
（２３）ビデオ画像の特徴を認識するように訓練された請求項２２記載のネットワーク。
（２４）プーリン論理動作を実行するように訓練された請求項２２記載のネットワーク。
（２５）入力テキストデータを認識するように訓練された請求項２２記載のネットワーク。
（２６）言語翻訳を実行するように訓練された請求項２５記載のネットワーク。
（２７）入力テキストが文法的か否かを示すように訓練された請求項２５記載のネットワーク。