JPH0363870A

JPH0363870A - 学習方法及びニューラル　ネットワーク構造

Info

Publication number: JPH0363870A
Application number: JP2150083A
Authority: JP
Inventors: Sherif Makram-Ebeid; シエリフ　マクラム‐エビード
Original assignee: Philips Gloeilampenfabrieken NV
Current assignee: Koninklijke Philips NV
Priority date: 1989-06-09
Filing date: 1990-06-11
Publication date: 1991-03-19
Also published as: DE69029538T2; DE69029538D1; FR2648251B1; FR2648251A1; EP0401927A1; EP0401927B1; US5630020A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】技逝光立本発明は、ニューラル　ネットワークにおいて、エラー
　グラディエント　バック　プロパゲーション　アルゴ
リズムによって、実例を基としてシナプス係数を定める
学習相（フェース）を遂行する学習方法に関するもので
ある。さらに本発明はニューラル　ネットワーク構造及
び上述の方法を遂行するようプログラムされたコンピュ
ータにも関するものである。

宜景挟歪ニューラル　ネットワークはイメージ　プロセシング、
スピーチ　プロセシング等に用いられる。

ニューラル　ネットワークは、対応のシナプス係数を有
するシナプスによって相互接続されている自動装置であ
る。これらのものは、従来のシーケンシャル　コンピュ
ータでは解を得ることが困難であった問題の解を導きう
る。

所定のプロセス　オペレーションを行うために、ニュー
ラル　ネットワークは、前もってかかるオペレーション
（演算）を如何にして行うかを学習する必要がある。こ
のいわゆる学習（ラーニング）フェースは実際の例（エ
クザンブル）を用いるが、学習ではある入力データに対
し、出力に得られるべき結果が前もって判明している。

第１周期では、ニューラル　ネットワークは未だ所望の
任務を遂行するに適して居らず、不正確な結果を生ずる
。

次で得られた結果と、得られるべき結果の間のエラーＥ
ｐを決定し、適用化（アダブチ−ジョン）の原理に基づ
いて、シナプス係数を変化させ、ニューラル　ネットワ
ークがある選択した例を学習しうるようにする。ニュー
ラル　ネットワークが満足な学習を行うに必要と考えら
れるだけの数の例に対し、このステップを反復して行う
。

かかる適応化を行うため、広く行われている方法は、グ
ラディエント　バック・プロパゲーションである。前位
のエラーＥ９　　（最終相りで計算されたもの）のグラ
ディエントｇｊ、Ｌの成分を、次で各ニューロン状態ｘ
、、　Ｌに対して決定する。

これらの成分を次でニューラル　ネットワーク内にバッ
ク・プロパゲーションを行わせる。これはまずすべての
内部成分ｇ＝、ｔ　　（ｆ≠Ｌ）を決定するため、その
出力より出発し、次で関連のニューロンのシナプス係数
’ｉｊ＋Ｌに加えるべき修正について行う。この方法は
、例えば次の文献に記載されている。

デイ−・イー・ルーメルハート（Ｄ、ＥｊＲｕｍｅｌｈ
ａｒｔ）デイ−・イーヒントン（Ｄ、ＥｊＨｉｎｔｏｎ
）及びアール・ジェー・ウィリアムス（Ｒ，Ｊ、Ｗｉｌ
ｌｉａｍｓ）著”Ｌｅａｒｎｉｎｇ　Ｉｎｔｅｒｎａｌ
　Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ　ｂｙ　ＥｒｒｏｒＰ
ｒｏｐａｇａｔｉｏｎデイ−・イー・ルーメルハート（Ｄ、ＥｊＲｕｍｅｌｈ
ａｒｔ）ジエー・エルーマｙクレランド（Ｊ、Ｌ、Ｍｃ
Ｃｌｅｌｌａｎｄ）著”Ｐａｒａｌｌｅｌ　Ｄｉｓｔｒ
ｉｂｕｔｅｄ　Ｐｒｏｃｅｓｓｔｎｇ　：　Ｅｘｐｌｏ
ｒａｔｉｏｎｉｎ　ｔｈｅ　Ｍｉｃｒｏｓｔｒｕｃｔｕ
ｒｅ　ｏｆ　Ｃｏｇｎｔｉｏｎ　”　ＶｏＩ！、、　Ｉ
Ｆｏｕｎｄａｔｉｏｎｓ、　ＭＩＴ　Ｐｒｅｓｓ　（１
９８６）デイ−・ジェー・バール（Ｄ、Ｊ、Ｂｕｒｒ　
）”Ｅｘｐｅｒｉｍｅｎｔｓ　ｏｎ　ｎｅｕｒａｌ　ｎ
ｅｔ　ｒｅｃｏｇｎｉｔｉｏｎ　ｏｆｓｐｏｋｅｎ　ａ
ｎｄ　ｗｒｉｔｔｅｎ　ｔｅｘｔ　”　、　ＴＥＥＥ　
Ｔｒａｎｓ、　ｏｎＡｃｏｕｓｔｉｃ、　５ｐｅｅｃｈ
　ａｎｄ　ｓｉｇｎａｌ　ｐｒｏｃｅｓｓｉｎｇ＋　Ｖ
ｏｌ。

３６、　Ｎｏ、７．１９８８年７月１１６２頁。

しかしこれらの方法がニューラル　ネットワーク内で行
われると、ある特定用途に対し学習期間が極めて長くな
る。例えばパリティ問題のとき、かかる困難が生ずる。

パリティ問題は、例えば、入力が２進信号Ｉ１項にリン
クし、出力は、入力“′１”の数が奇数のとき状態ｌを
出力し、反対に偶数のとき状態Ｏを出力するようになっ
ているニューラル　ネットワークで生ずる。この場合の
学習の問題は、入力のうちの僅か１つが状態を変化する
と出力の状態を変化させる必要があり、かつ偶数個の入
力状態が変化したときは出力は変化してはならないとい
う規定に起因する。

さらに、例えばニューラル・ネットワークを分類（クラ
シフィケーション）問題に使用するとき、最小距離の間
が小であるクラスを分離させることが困難である問題が
ある。これはこれらのクラスを弁別するのにニューラル
・ネットワークが学習に長時間を必要とするからである
。この欠陥により、連続的に符号化される入力データの
分離が困難となり、とくに例のいくつかが異なるクラス
に属する場合で、入力が互に極く僅かしか相違しないと
きこれは困難である。

発里生盟主従って本発明の課題は、必要とする追加のハードウェア
を最小としながら、ニューラル・ネットワークの学習時
間を減少させるというにある。

本発明は、　Ｌ層よりなるニューラル　ネットワークに
より行われる学習方法であって、次の各ステップすなわ
ち、・Ｎｌのニューロンにシナプス係数Ｗ（ｊ＋Ｌ′で接続
されている前位の層のニューロンより供給される出力電
位Ｙｉ＋Ｌ−１を基とするか、あるいは層ｅ＝１に対す
る入力データＹｊ、。を基として、層ｌのニューロンの
状態Ｘｊ、Ｌを、Ｘｊ＋Ｌ”’ΣｉＪ＋ｆ　’　　Ｙｔ＋＋−＋で決定す
るステップと、・非直線関数Ｆを用いて次の如く、出力ニューロンの電
位Ｙｊ１．を決定するステップで、Ｙｉ、、ｉ　＝Ｆ　
（Ｘ、ｔ　）ここにおいて、ｌ：１≦ｉ≦Ｌのときの層のインデックスｊ：出力層ｌ
のニューロンのインデックスに入力層乏−１のニューロ
ンのインデックスであるステ・・・ブを具える方法であ
って、本方法はニューラル　ネットワークの入力に連続
的に供給されるＰの例の反復による学習相を有し、かつ
これら学習相は。

６ニユーラル　ネットワークのシナプス係数のマトリッ
クスＷｉｊ＋１の設定、・学習しようどする各例ｐの入力データｙｊ、。の導入
、・部分エラー　Ｅｊを規定する為入力に提供されるこの
例ｐに対し７直視される出力Ｙｊによ１０、各層り内に
得られる結果Ｙｊ、Ｌの比較、・各出力ニューロン及び
各例ｐに対し観察される・出力層りに対する状１．Ｘｉ
、ｔ、に関するエラーＥの各グラディエント戊分ｇ４４．−θＥ　／’θＸｊ＋（の決定・グラディエントの成分ｇｌｔ、のバック　プロパゲー
ション方法を行い、これによりニューラルネソトワーク
による、置換されたシナプス係数７１リクスを基として
他の層に対するグラディエントの成分ｇ１Ｌの決定、・ニューラル　ネットワークに適用するため、対応の係
数ｇ１１．の符号と逆の符号を有する次の変化ΔＸｊ、
　Ｌの決定、・変化ΔＸｊ＋　Ｌを基として、シナプス係数のア・７
プデートの各相を含んでいる学習方法において、ニュー
ロン状態の次の変化を決定するため、グラディエント成
分ｇｊ，Ｌにパラメータθ１Ｌを乗するステップを有し
、これによって−θ１゜ｇｌ、′に比例する変化ΔＸｊ
＋Ｌを計算すること、ここにおいて、θ、、は層ｌのニ
ューロンｊの状態に応じて定まり、また０≦θ１゛≦１で、ｇ１９．とＸｊ＋Ｌが異なる符号を有するときは、θｊ
＋　１　＝１であり、ｇｊ＋　ｔ　とＸｊｒＬが同じ符号を有するときは、θ
ｊ＋Ｌ＝θＬ＋であることを特徴とする。

学習工程中において、所定の例ｐが提示される。

例ｐに付属し、ニューラル・ネットワークの入力を通じ
て導入されるデータは、ネットワークの最終層りにおい
て、所定の出力ニューロンｊに結果Ｙｊ＋　Ｌを生ずる
。このとき、スタート点で遂行すべき結果ＹＪが判明し
ている。このため、エラーは例えば次の如くして計算で
きる。

この式は自乗平均エラーに対する式である。他の比較基
準を用いることもできる。

既知のグラディエント　パック・プロパゲーション方法
によると、エラー　グラディエントの成分ｇ、ｔ　は、
ニューロンの状態ＸｊｒＬの各貢献に対し決定される。

従ってｇｊ、　ｔ　＝　ａ　Ｅ’７θｘ、、　ＬここでＸｊ、
Ｌ　は非直線関数適用前のニューロンの状態を表わす。

従って、成分ｇｊ、Ｌ＝θＥ’／θＸｊ、Ｌは出力層りに関するものであり、このため、ｇｊ、ｔ、
　＝　（ｙｊ、ｔ、　−Ｙｊ）　　・　Ｐ’ｊ＋Ｌ　と
なる。

ここでＦ’ｊ＋Ｌは非直線出力関数の導関数である。

このときニューラル・ネットワークは、置換されたシナ
プス係数マトリクス’ｊｉ＋Ｌをロードされ、成分ｇ、
Ｌはネットワークの出力よりパック・プロパゲートされ
る。ネットワークはこれによって、ｌ≠Ｌにおけるグラ
ディエントの他の成分を決定する。これらの成分ｇ＝＋
ｔを変化ΔＸｊ＋Ｌの決定のために使用し、これを用い
てシナプス係数Ｗｉｊ＋１を修正し、ネットワークを関
連の例（エクザンプル）に適合させる。

一般に云って、この既知の修正方法は、次の如くなるよ
うにして行う。

Ｗ＝ｊ、ｔ　（ｎｅｗ）　＝Ｗｉ　１ｔ　（ｏｌｄ）　
＋　ｋ　・ΔＸｊ、　、’　Ｙｉ、Ｌ−１本発明によれ
ば、成分ｇｊ＋　ｔ　は既知の方法の上述の如くは使用
せず、各戒Ｌｊ１・は、所定のニューロンｊの符号、す
なわち、・このニューロン状態Ｘｊ＋を及び・グラディエントｇＪ、Ｌ　の成分の符号にもとづいて
定まる関連のパラメータθｊ＋Ｌによって前もって増倍
しておく。

これらのパラメータは、ｇｌｔ　とＸｊｒＬが異なる符号のときは、θ１゜であ
り、 −ｇ、、とＸｊｒＬが同じ符号で、０≦θ１゛≦】のと
きは、θｊ＋Ｌ””θ１である。

しかし学習プロセスを促進するため、第１学習反復中に
おいて、各所定例に対し、θＬ＋を零に近くまたは零に
選定するを可とする。

さらに、後の学習反復コースにおいて、θ。

が各所定例に対し１に向って増加する。

本発明における符号の応用は、学習の開始時においては
、観察されるエラーの符号を考慮して修正を行い、かつ
学習が進むにつれ、より高精度で、より粗の程度の小な
い修正が徐々に行われるようにするを可とする。

出力電位を決定する非直線関数は僅かな非直線、または
強度の非直線に選定しうる。本発明による符号の採用の
効率を増加させるため、非直線関数の選択を学習工程中
に変更することができる。し。

かし、グラディエント　パック・プロパゲーション方法
により得られる変化Δｘ４７．は、シナプス係数に過剰
の変化を生じさせることはない。従って本発明による補
間バージョンでは、標準化が行われ、このためシナプス
係数の自乗の和は準・−定のままとなる。

このため、学習の開始時における非直線関数は僅かな非
直線に選択し、学習の終りには符号形に近づくようにす
る。この選択を可能にするため、シナプス係数は、所定
のニューロンｊに向って収斂する標準の、 Σ　（Ｙｉ７．ｔ）２の準安定値を保つようにする。

非直線関数Ｆが、Ｙｊｔ　＝　ｔａｎｈ　（ＸＪ、ｔ／
Ｔｔ）型であり、ここにＴ＋　は層に関するパラメータ
で、層ｌの温度と称されるパラメータである。

非直線関数の非直線性の程度について、学習中に印加さ
れた変化は、各層に対するパラメータＴＬの変化より得
られる如くした。

本発明による符号の応用原理は、エラー符号によって優
先的に粗修正（θ゛が小でかつ正）を行い、次で高精度
で修正を行うため、ｌに近いパラメータβ゛によって精
密修正を行い、構造全体のレベルにおいて類似の効果を
生せしめる。このたメータηｊ＋Ｌで増倍する。これに
より、すべてのニューロン状態に関し同時に加えられる
修正（パラメータηｊ＋Ｌ）は、各状態（パラメータθ
＋）に対し行われる各個別修正に重畳される。

前もって提出された符号の効果により、最終層りの各出
力ニューロンｊに応じた修正係数ηｊ＋Ｌを導入するこ
とができる。この場合のエラーＨｐは次式で定まる。

！ｇ　　＝’Ａ　　（ＹＪＹ４．Ｌ）２である。

このエラーは自乗関数となる。

一般的に云って、層Ｌ（所定の例ｐに対し）の各出力ニ
ューロンｊに対し、このエラーＥＪ　は、ＥＪ＝　Ｈ（
Ｙ７　　　Ｙｌｔ　）となり、ここで、Ｈは得られた結果Ｙｊ＋Ｌと所期の結果ＹＪとの差の関
数である。

かく得られた、エラーＥｐを上述の如くして形成された
グラディエントの成分ｇｊ、Ｌ及びｇｊ＋　Ｌ（ただし
ｌ≠Ｌ）を決定するに使用する。

本発明方法は、グラディエントｇｊ＋Ｌの成分を決定す
るため、前もって、最終層のニューロンｊによって定ま
る修正係数ηｊ＋Ｌを加えることにより、エラーＥ２を
決定するステップを有し、これによりここで、ｊ＝１として、学習の開始を有利にするステップを設ける。た
だし、Ｅ：及びｙｊ、　Ｌが異なる符号のときはη３．ｔ＝１
、Ｙｊ及びＹｊ、Ｌが同じ符号のときはηｊ＋Ｌ”η“
であり、ここに０≦η３≦ｌである。

現在の場合には、η、１＝θｊ＋Ｌである。

を可とする。

本発明の補足的バー・ジッダによれば９戦略はニューラ
ル　ネットワークの各層のレベルにおいて展開させるこ
とができる。学習は、入力層に対して付託された有力な
役割を考慮して、入力層に対しては加速し、出力層に対
しては減速するようにする。

グラディエント　バンク　プロパゲーション方法の一般
の適用において、ニューロンＸｊ、Ｌの状態はグラデイ
エン）ｇＪ、ｔの対応する成分を考慮した量−ΔＸｊ、
Ｌ　により修正している。これはニューロン　ネットワ
ークのすべての層に対して同一の比例係数（ｐｒｏｐｏ
ｒｔｉｏｎａｌｉｔｙ　ｃｏｅｆｆｉｃｉｅｎｔ　）に
よりグラディエントｇ４１．の各成分を増倍することに
より起る。

また補足的バージョンによれば、本発明は各階層の各ニ
ューロンに比例係数βｊ＋Ｌを割当てることにより修正
を行い、各修正−ΔＸｊ、Ｌをβ５．。

ｇｌｌに比例させるようにすることを提案している。

パラメータβｊ＋Ｌ　は、修正値Δχ４１．を決定する
のに役立つパラメータθｊ＋Ｌ　に比例するようそれを
設定することにより上述の符号戦略に関連させる。

このようにして、β４１．はβ、・θｊ＋Ｌに比例する
。ここで、β、は任意の所定の層ｌに対して同一である
。この補足バージョンによるときは、入力層における学
習速度の出力層における学習速度に対する制御を可能に
するパラメータβ、を各層ｌに割当てるようにしている
。したがって、パラメータβ、は、ｌが入力層から出力
層に向かって増加するにしたがって減少する。

このように、本発明方法は、各層に応じて定まる定数β
、によって、成分θ１２．・　ｇｊ＋ｔを倍数するステ
ップを有し、このステップによって−ΔＸ５９．をβ１
　・θｊ＋Ｌ　　’　　ｇｊ、ｔに比例させ、ここでβ
、は入力層よ１０、各層に向って層の数に応じて厳密に
減少する如くし、このためニューロン状態に加えられる
修正が、入力層の学習を加速し、かつ出力層の学習を減
速することを確保する。

〔実施例〕

以下図面により本発明を説明する。

第１図はそれぞれ入力信号Ｙｌ＋　Ｌ−１＋　ＹＺ＋　
Ｌ−１＋ｙ、　（Ｌ−１１，Ｌ−１をその状態がＸｊ＋
１の単一の出力ニューロンに供給する複数のニューロン
１０＋１０１（１−１１を含む入力層により形成した単
体のニューロン　ネットワークにより行われる一般の作
動図を示す。この場合、上記の状態は計算手段１工によ
り次のように決定される。

Ｘｊ・１＝ΣＷｉ＋ｊ・、′Ｙ・・Ｌ−１この状態χ４
１．は非直線関数（ブロック１２）の影響を受け、この
関数Ｆを適用された後、出力ポテンシャルＹ４．．を与
える。

Ｙｊ、Ｌ＝　Ｆ　（Ｘ１ｔ　）したがって、この出力ポテンシャルＹ４１．は後続の層
に対する入力状態として役立つことができる。

かくして、入力層ｉ＝１、隠蔽層（ｈｉｄｄｅｎ　１ａ
ｙｅｒ）１＝２．３および出力層１＝Ｌを含む第２図に
示すような複数の層が得られる。層のニューロンはシナ
プス係数’ｉｊ＋Ｌを介して後続の層のニューロンに排
他的に連接（リンク）させるようにする。

各ニューロンの状態は層２＝１からスタートして前述の
式により決められる。

学習プロセスを実行するため、すなわち、所定のタスク
に対してシナプス係数を適応させるため、出力層上の結
果ｙｊが前もって分っているような例（イグザンブル）
を入力に提供し、各実例に関して、すべての出力状態に
対しエラーＥｐを計算した後、各中間状態の微小変数θ
Ｘｊ、Ｌに関してその変数を決定する。この場合、グラ
ディエント成分ｇｊ、Ｌは次式で与えられる。

ｇｊｌ、＝θＥｐ／θｘｊ１かくして、出力層内の成分ｇ４．Ｌは計算された後、ニ
ューロン　ネットワークに逆転Ｔｔｉ（パックプロパゲ
ート）され、そこでエラー　グラディエントの他の成分
ｇｊ＋ｔが復元される。これらの成分はニューラル　ネ
ットワークを直面するタスクに適応させるため、状態χ
１１．用としてそれから推論される変数Δχｊ＋Ｌを決
定することを可能にする。この作動は、前述のように、
シナプス係数Ｗ＝＝、ｔの更新に先立って行われる。

本発明方法のこれらのステップは第３図に示すような専
用のニューロン　ネットワーク構造または本方法を実行
するようプログラムされたコンピュータ内で行うように
する。

メモリ３０は、例えば入力手段２９により最初に供給さ
れるシナプス係数マトリックス−１５，および順序を逆
にしたマトリックス−５ｉ１．を記憶する。

シナプス係数は、前の層から入力ポテンシャルＹｉ＋Ｌ
−１を受信する計算手段３１に供給されるようにし、こ
れらの手段３１はＸｊ＋Ｌ＝Σ　ｗｔｊ、ｔ　’　　Ｙｉ＋Ｌ−１を決定
する。

ネットワークの入力には、入力ニューロン状態Ｙｉ＋Ｌ
−１をベースにして、イグザンプル（例）Ｙよ、。

を供給する。これらの例はイグザンプル　メモリ（実例
メモリ）３２により供給されるようにする。

セレクタ３３はこの選定を可能にする技能を有する。

また、前記イグザンプル　メモリ３２は各イグザンブル
ｐおよし各出力ポテンシャルｊ用として得られるべき結
果Ｙｊをも記憶する。

出力ニューロンの状態Ｘ、、　ｔ　はメンバー３４にお
いて非直線関数に従わせる。前記メンバー３４は各イグ
ザンプルに対してシステムにより供給されるような最後
の層りの出力ポテンシャルＹｊ、　Ｌを供給する。層ｌ
の出力ポテンシャルＹｊ＋Ｌは、１つの層から他の層へ
の中間計算ステップの実行のためこれを状態メモリ（ス
テート　メモリ）３７に一時記憶させ、次の層に対する
入力状態として使用しうるようにする。各ポテンシャル
Ｙｊ＋Ｌは比較器３５において意図する状態Ｙｊと比較
する。前記比較器３５はさらにすべての検出エラーＥＪ
を記憶し、これらのエラーを加算して各イグザンブルに
関するエラーＥｐを与える。

グラディエントｇｊ＋Ｌの成分はホスト　コンピュータ
３６により決定するようにする。これがため、コンピュ
ータは、エラーＥ１１出力ポテンシャルＹｊ＋Ｌおよび
意図する状態ｙ、を受信する。ホスト　コンピュータ３
６に次式が成立するよう成分ｇｊ＋ｔを決定する。

ｇ；＋ｔ”θｊ＋Ｌ　　・（Ｙｊ、ｔ　−Ｙｊ）　　・
Ｆ’ｊ＋しただし、１≦ｊ≦Ｉ（Ｌ）、また、Ｆ’ｊ＋Ｌは出力層の各非直線関数の導関数であ
る。

これらの成分ｇｊ、Ｌはグラディエント逆伝搬方法（ク
ラデイエンド　パック　プロパゲーション方法）の実行
を可能にする計算手段３１に一供給するようにする。す
なわち、成分ｇｊ＋Ｌは出力層に供給され、これらの効
果が入力層に逆伝搬されるようにする。

かしくて、グラディエントｇｊ、、＝θＥ９／θし、。

（ただし、ｌ−＃Ｌ）は計算手段３１を用い、エラーＥ
’のグラディエントの逆伝搬により決定される。

この成分ｇｊ、ｔ　は各ニューロン状態に対して次の変
数ΔＸｊ，Ｌを決定するためホスト　コンピュータ３６
に供給するようにする。この目的のため本発明の場合、
コンピュータ３６は各成分ｇｊ＋ｔをそのパラメータθ
４．．により増倍させるようにする。

すべての変数ΔＸｊ＋Ｌ　はこれらを更新メンバー３８
に供給する。前記更新メンバー３８は新しいシナプス係
数Ｗｉｊ＋１を決定し、これらの係数をメモリ３項に供
給する機能を有する。

このプロセスは全学習フェーズを実行するため反復する
ようにする。その課程において、ホストコンピュータ３
６は最初の反復に対し、項に等しいか、項にほぼ等しい
修正パラメータ（コレクション　パラメータ）θどを供
給することができ、その後コンピュータ３６は爾後にお
ける反復の課程においてこのパラメータを値１に近付け
るよう増加させることができる。さらに、ホスト　コン
ピュータ３６は計算手段３１においてグラディエント逆
伝搬を行わせるため、成分ｇｊ、ｔを計算する前にＥｊ
のパラメータη１Ｌによる増倍を実施する。

β、・θｊ＋Ｌ　　’　　ｇｊ＋Ｌに比例する変数−Δ
×１．Ｌを決定するため各層に関する定数β、を修正値
θ１８．・　ｇｊ＋　１に供給する場合、ホスト　コン
ピュータは更新メンバー３８によるシナプス係数’１ｉ
ｒｔの更新前に進行する。

かくして、本発明による階層状のニューラルネットワー
ク構造は上述の学習方法を実行するための手段を含み、
その目的のため前記構造は一シナプス係数（連続係数）
を記憶する手段と、−学習し、ニューラル　ネットワー
ク内に導入すべきイグザンブル（例）を記憶する手段と
、−各イグザンプルごとに、出力に得られるニューロン
　ポテンシャルを各実例に対して直面する結果と比較し
、観察された差に一致するエラーを供給するための手段
と、一人カニューロン　ポテンシャルをベースにして出力ニ
ューロン状態を計算し、かつ該エラーのグラディエント
逆伝搬を行って、該グラディエントの成分ｇ１．．を与
えるための手段と、−出力において非直線関数を供給す
るための手段と、一グラディエントの成分ｇｊ，Ｌおよび本方法に関する
乗算器パラメータを考慮に入れて新しいシナプス係数を
計算し、反復サイクルの所定の反復に割当てられたシグ
ニフィカンス（ｓｉｇｎｉｆｉｃａｎｃｅ）あるいはニ
ューラル　ネットワークの所定のニューロンまたは所定
の層に割当てられたシグニ入れて新規なシナプス係数を
可能にする手段とを含む。

第３図示システムはホスト　コンピュータにより制御す
るようにした機能ブロックよりなるニューラル　ネット
ワーク構造の形で与えるようにしたもので、この場合、
実現すべき機能にコンピュータそれ自体の中に集積する
ことが好ましい。その場合には、本発明は前述の方法の
各ステップを実施するプロゲラミンクされたコンピュー
タにも関する。

表１は本発明によるプログラムの例の主要なスチップを
含むフローチャートを示す。

−２ｊ二乙１」−は小さい正の値にη゛およびθ°を初
期設定し、温度ＴＬを固定する。層（レア）ｊ２＝ｌに
対しては値ＴＬはイグザンプル（例）ｐに関する入力の
絶対値の平均に等しく、層ｌ≠１に対しては、値ＴＬは
１のオーダーである（ｌｏｏｐ　ｔｏ　１　）。

シナプス係数−ｉｊ＋Ｌは無作為選択により初期設定す
るか、既知の値に設定する（ｌｏｏｐ　ｔｏ　ｉ　ａｎ
ｄ　ｊ　）。

−ステップ２はイグザンプルｐに対する入力値Ｙｉ、。

をニューラル　ネットワーク内に挿入する。

−表土ヱ１工は状態Ｘ４１．および出力ポテンシャルＹ
ｊ＋Ｌを計算する。状態Ｘｊ＋１の計算はスレショール
ビＳ１１．を含む。前記スレショールドは非直線関数Ｆ
内に導くこともできる。

−２乙ｊ二と１」ユは出力エラーに符号戦略（ｓｉｇｎ
　ｓｔｒａｔｅｇｙ）を供給する。この目的のため積（
プロダクト）Ｙｊ−Ｙｊ、Ｌを形威し、その符号を考慮
する。積が負またはＯの場合は、ηｊ＋Ｌは値１をとり
、反対の場合、ηｊ＋Ｌは値η゛をとる。

出力層におけるエラーＥ’を決定し、グラディエントｇ
ｊ、Ｌの成分を計算する。

−ステップ５　非直線関数の導関数Ｆ’ｊ＋Ｌを計算す
る。次に、グラディエントの逆伝搬によりグラディエン
ト　ｇｊ、Ｌ−１の成分を計算する。積（プロダクト）
　　　ｇｌｔ　　・　Ｘ４９．をチエツクする。この積
が負または０の場合、θ、Ｌは１に等しくこの積が正の
場合、θ５１．はθ°　（ただし０≦θ１≦１）に等し
い。次に、β１．を計算する。

−ステップ６　次の変数ΔＸｊ＋Ｌを決定するため、グ
ラディエントｇｊ，Ｌの成分を使用する。このステップ
は、成分ｇｊ、　Ｌに変数ΔＸ、、　Ｌへの影響をもた
せることを可能にする自動応用関数例（ａｕｔｏ−ａｄ
ａｐｔｉｕｅ　ｆｕｎｃｔｉｏｎ　ｅｘａｍｐｌｅ　）
の選択を与える。

この関数はグラディエントｇｊ，ＬのモジュラスＧ２、
修正の振幅を制御する因子γ、ξおよび種々のニューロ
ンに関連する環β５．．の平均値Ｔを含む。

−ステップ７　このステップはイグザンプルＰに対して
計算された変数ΔＸｊ＋　Ｌのシナプス係数−□ｊ＋Ｌ
問およびスレショールドＳｊ＋Ｌ間の分配を可能にする
。分配係数（ディストリビューションファクタ）は基準
（ｎｏｒｍ） ΣＹ□、。

を適用するパラメータσ、により制御される。このステ
ップ７は、シナプス係数の基準を所定の出力ニューロン
に対して準一定値に保持することを可能にする分配の例
を表わす。変化はできるだけ、小さいスレショールドお
よび重み（ウェイト）のバリエーションにより実現され
る必要がある。

−ステップ８　すべてのイグザンプルに対する影表１さい場合は、学習を終了する。このエラーがεより大き
い場合は、次のステップにより手順を継続する。

一ステップ９　温度ＴＬを僅かに低下させる。したがっ
て、初期値はＯないし１間のパラメータｅ。

により増倍される。

一ステップ１０　　η゛およびθ“の値を再調整する。

−去±エフ”ｌｌ　　他のイグザンプルｐ′を選定し、
ステップ２により作動を再開させる。

【図面の簡単な説明】

第１図は入力ニューロンの層および単一出力ニューロン
を含む構造により実行される処理のメカニズムを示す図
、第２図は複数の層、すなわち入力層、隠蔽層および出力
層を含む構造を示す図、第３図は本発明方法を実行するニューラル　ネットワー
ク構造を示す図である。１０＋、　１０ｇ−−−１０１（Ｌ−１）”’ニーＬ−
ロン（神経の細胞）１１、３１・・・計算手段１２・・・非直線関数２９・・・入力手段３０・・・メモリ３２・・・イグザンプル　メモリ（実例メモリ）３３・
・・セレクタ３４・・・非線形メンバー３５・・・比較器３６・・・ホスト　コンピュータ３７・・・状態メモリ３８・・・更新メンバー

Claims

【特許請求の範囲】１、Ｌ層よりなるニューラルネットワークにより行われ
る学習方法であって、次の各ステップすなわち、・層ｌのニューロンにシナプス係数Ｗ＿ｉ＿ｊ＿，＿Ｌ
′で接続されている前位の層のニューロンより供給され
る出力電位Ｙ＿ｉ＿，＿Ｌ＿−＿１を基とするか、ある
いは層ｌ＝１に対する入力データＹ＿ｉ＿，＿０を基と
して、層ｌのニューロンの状態Ｘ＿ｊ＿，＿Ｌを、Ｘ＿ｊ＿，＿Ｌ＝Σｉｊ，ｌ・Ｙ＿ｉ＿，＿Ｌ＿−＿１
で決定するステップと、・非直線関数Ｆを用いて次の如く、出力ニューロンの電
位Ｙ＿ｉ＿，＿Ｌを決定するステップで、Ｙ＿ｉ＿，＿
Ｌ＝Ｆ（Ｘ＿ｊ＿，＿Ｌ）ここにおいて、ｌ：１≦ｌ≦Ｌのときの層のインデックスｊ：出力層ｌのニューロンのインデックスｉ：入力層ｌ−１のニューロンのインデックスであるス
テップを具える方法であって、本方法はニューラルネットワークの入力に連続的に供給されるｐの例の反復による学習相を有し
、かつこれら学習相は、・ニューラルネットワークのシナプス係数のマトリックスＷ＿ｉ＿ｊ＿，＿Ｌの設定、・学習しよ
うとする各例ｐの入力データＹ＿ｊ＿，＿０の導入、・部分エラーＥ＿ｊを規定する為入力に提供されるこの
例ｐに対し直視される出力Ｙ＿ｊにより出力層Ｌ内に得
られる結果Ｙ＿ｊ＿，＿Ｌの比較、・各出力ニューロン
及び各例ｐに対し観察されるすべての部分エラーＥ＿ｊ
の和Ｅの決定、・出力層Ｌに対する状態Ｘ＿ｊ＿，＿Ｌ
に関するエラーＥの各グラディエント成分ｇ＿ｊ＿，＿Ｌ＝∂Ｅ／∂Ｘ＿ｊ＿，＿Ｌの決定・グラディエントの成分ｇ＿ｊ＿，＿Ｌのバックプロパ
ゲーション方法を行い、これによりニューラルネットワ
ークによる、置換されたシナプス係数マトリクスを基として他の層に対するグラデ
ィエントの成分ｇ＿ｊ＿，＿Ｌの決定、・ニューラルネ
ットワークに適用するため、対応の係数ｇ＿ｊ＿，＿Ｌ
の符号と逆の符号を有する次の変化ΔＸ＿ｊ＿，＿Ｌの
決定、・変化ΔＸ＿ｊ＿，＿Ｌを基として、シナプス係数のア
ップデートの各相を含んでいる学習方法において、ニューロン状態の次の変化を決定するため、グラディエ
ント成分ｇ＿ｊ＿，＿Ｌにパラメータθ＿ｊ＿，＿Ｌを
乗するステップを有し、これによって−θ＿ｊ＿，＿Ｌ
・ｇ＿ｊ＿，＿Ｌ′に比例する変化ΔＸ＿ｊ＿，＿Ｌを
計算すること、ここにおいて、θ＿ｊ＿，＿Ｌは層ｌのニューロンｊの
状態に応じて定まり、また０≦θ＿１＾＋≦１で、 −ｇ＿ｊ＿，＿ＬとＸ＿ｊ＿，＿Ｌが異なる符号を有す
るときは、θ＿ｊ＿，＿Ｌ＝１であり、 −ｇ＿ｊ＿，＿ＬとＸ＿ｊ＿，＿Ｌが同じ符号を有する
ときは、θ＿ｊ＿，＿Ｌ＝θ＿Ｌ＾＋であることを特徴とする学習方法。２、第１学習反復θ＿Ｌ＾＋をほぼ零に等しくするか、
各所定値に対しほぼ零とするかの何れかとする請求項１
記載の方法。３、後の学習反復コースにおいて、θ＿Ｌ＾＋が各所定
例に対し１に向って増加する如くした請求項２記載の方
法。４、非直線関数を、学習の初めにおいて僅かな非直線に
選択し、然る後学習の終りにおいて符号形関数に近づく
如くし、またかかる選択を許容するため、所定のニュー
ロンｊに向って収斂するシナプス係数が、基準Σ（Ｗ＿
ｉ＿ｊ＿，＿Ｌ）＾２準定数を維持する如くした請求項
１ないし３のうちの１項記載の方法。５、非直線関数Ｆが、Ｙ＿ｊ＿，＿Ｌ＝ｔａｎｈ（Ｘ＿
ｊ＿，＿Ｌ／Ｔ＿Ｌ）型であり、ここにＴ＿Ｌは層に関
するパラメータで、層ｌの温度と称されるパラメータで
ある請求項４記載の方法。６、非直線関数の非直線性の程度について、学習中に印
加された変化は、各層に対するパラメータＴ＿Ｌの変化
より得られる如くした請求項５記載の方法。７、グラディエントｇ＿ｊ＿，＿Ｌの成分を決定するた
め、本方法は、前もって、最終層のニューロンｊによっ
て定まる修正係数η＿ｊ＿，＿Ｌを加えることにより、
エラーＥ＾ｐを決定するステップを有し、これによりＥ＾ｐ≒Σ＾Ｉ＾（＾Ｌ＾）＿ｊ＿＝＿１η＿ｊ＿，＿
Ｌ・Ｅ＾ｐ＿ｊとして、学習の開始を有利にするステッ
プ、ただし、Ｅ＿ｊ及びＹ＿ｊ＿，＿Ｌが異なる符号のときはη＿ｊ
＿，＿Ｌ＝１、Ｙ＿ｊ及びＹ＿ｊ＿，＿Ｌが同じ符号の
ときはη＿ｊ＿，＿Ｌ＝η＾＋であり、ここに０≦η＾＋≦１である請求項１ないし６のいずれか１項に記載の方法。８、η＿ｊ＿，＿Ｌ＝θ＿ｊ＿，＿Ｌとする請求項７記
載の方法。９、部分エラーＥ＿ｊが、自乗エラー１／２（Ｙ＿ｊ−Ｙ＿ｊ＿，＿Ｌ）＾２である請求項１ないし８のいずれか１項記載の方法。１０、各層に応じて定まる定数β＿Ｌによって、成分θ
＿ｊ＿，＿Ｌ・ｇ＿ｊ＿，＿Ｌを倍数するステップを有
し、このステップによって−ΔＸ＿ｊ＿，＿Ｌをβ＿Ｌ
・θ＿ｊ＿，＿Ｌ・ｇ＿ｊ＿，＿Ｌに比例させ、ここで
β＿Ｌは入力層より出力層に向って層の数に応じて厳密
に減少する如くし、このためニューロン状態に加えられ
る修正が、入力層の学習を加速し、かつ出力層の学習を
減速することを確保する請求項１ないし９のいずれか１
項に記載の方法。１１、請求項１ないし１０に記載の学習方法を行う手段
を有するニューラルネットワークにおいて、・シナプス係数を蓄積する手段、・学習すべき各例を蓄積し、これらの例をニューラルネ
ットワークに導入する手段、・各例に対し、ニューロンの出力に得られるニューロン
の電位を各例に対して直視される結果と比較し、観察さ
れた差に対応するエラーを供給する手段、・入力ニューロン電位を基礎として出力ニューロン状態
を計算し、前記エラーのグラディエントバック・プロパ
ゲーションを遂行し、当該グラディエントの成分ｇ＿ｊ
＿，＿Ｌ及び当該方法に割当られた増倍パラメータを考
慮に入れて新規なシナプス係数を計算し、これによって
反復サイクルの所定反復に貢献するシグニフィカンスの
制御を行うか、または所定の層またはニューラルネット
ワークの所定のニューロンに割当られたシグニフィカンスの制御を行う手
段を有することを特徴とするニューラルネットワーク構
造。１２、請求項１ないし１０のいずれかに記載の学習方法
を遂行するようプログラムされたコンピュータ。