JPH07302249A

JPH07302249A - フィードフォワードニューラルネットの学習方法

Info

Publication number: JPH07302249A
Application number: JP5194410A
Authority: JP
Inventors: Mitsuchieru Jiyon; ミッチェルジョン
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1992-08-11
Filing date: 1993-08-05
Publication date: 1995-11-14
Also published as: EP0583217B1; DE69328596T2; EP0583217A2; EP0583217A3; DE69328596D1

Abstract

(57)【要約】【目的】関数近似を行なうニューラルネットの構成及
び学習を最適化することを目的にしている。【構成】ネットワークの学習のステップ１を、動的解
析のステップ２監視し、ユーザー割り込みのステップ３
により、静的解析のステップ４を行ないそれに基づいて
ユーザーの判断のステップ５によりネットワークを最適
化する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ニューラルネットの構
成と学習を最適化する方法及び装置に関し、特に入力か
ら出力を決定する関数近似を行なうフィードフォワード
ニューラルネットの最適構成と学習の最適化を行なう方
法及び装置に関する。

【０００２】

【従来技術】意味のある処理をするニューラルネットワ
ークを構成するためには、重みを適正な値に調整する必
要がある。この操作を教師あり学習と呼ぶ。一例ではい
くつかの教師データをネットワークに提示して、教師デ
ータの全体の誤差が下がるように重みを調整する。この
ような学習法には確率的（例えば大域最適化）、あるい
は決定的（例えば逆伝播法）と呼ばれる方法がある。大
域最適化法は、ニューラルネットワークス、1989年第２
巻367ー374頁（Neural Networks, Vol. 2, pp.367-374,
1989)に述べられており、逆伝播法は、エムアイテープ
レス、パラレルディストリビューティドプロセシング
：エクスプロレーションズ・イン・ザ・マイクロスト
ラクチャー・オブ・コグニション、第１巻および第２
巻、1986年（Parallel Distributed Processing: Explo
rations in the Microstructure ofCognition, Vols 1
and 2, MIT Press, 1986) に示されている。多入力、単
一中間層、１出力のニューラルネットの逆伝播法での学
習では、教師データがネットワークに繰り返して提示
され、ネットワーク出力と望ましい出力との差から決ま
るある種の誤差の指標を減少させるように重みを調整す
る。通常の誤差の指標は二乗平均誤差である。

【０００３】フィードフォワードニューラルネットのハ
ードウエアは開発されてはいるが、多くの場合は逐次あ
るいは並列プロセッサー上のソフトウエアシミュレーシ
ョンで行なわれる。

【０００４】フィードフォワードニューラルネットは多
くの応用で離散データあるいは連続データを用いて使わ
れている。離散データの場合は、パターン認識／分類の
問題に用いられ、例えば画像データからりんごの品質の
決定、紙の質のテクスチャー解析、あるいは手書きの郵
便番号の自動認識などに用いられる。連続データの応用
例としては、時系列予測、及び非線形回帰がある。これ
らの分野におけるニューラルネットの最も有用な点は、
学習済みのネットの汎化能力である。即ち、学習で用い
なかったデータでも良い性能を実現できることである。
例えば、手書きの郵便番号認識にニューラルネットを応
用するときは、小人数のグループの手書きのデータを使
って学習を行なう。この時学習に用いなかった手書きデ
ータでも認識できれば非常に有用となる。

【０００５】

【発明が解決しようとする課題】しかしながら、ニュー
ラルネットを応用するときに次の問題がある。

【０００６】構造的難しさ：与えられた問題に対して
最適なネットワークの構成はどのようにして与えられる
か？問題により通常は適切な入力数と出力数は与えら
れるが、適切な中間層ユニットの数を与えるのは難し
い。中間層ユニットの数が少ないと、与えられた問題を
十分に表現できないし、また多すぎるとネットワークの
汎化能力を落とす結果となる。

【０００７】学習の難しさ：ニューラルネットワーク
の学習は遅く指定のレベルまで誤差を減少させるために
は何千回もの繰り返しを必要とする。比較的速い学習法
もあるが、どのような学習法を用いても遅いことには変
わりはない。

【０００８】欧州特許第 WO 91/02322号では、出力ユニ
ットのみならず中間層ユニットにも望ましい出力を提示
する学習法を開示している。しかしながら、学習中ある
いは学習の後で、ネットワーク即ち中間層ユニットの最
適化に関しては述べていない。構造が最適化されない
と、処理を実行するに必要な中間層ユニット以上に多く
の中間層ユニットを設定して学習を開始する傾向にあ
る。この結果ネットワークの学習に多くの時間を要し、
また学習後の認識にも時間がかかることになる。同様に
米国特許第 5,056,037号に多層ネットの学習法を開示し
ているが、構造の最適化に関しての開示はない。

【０００９】ニューラルネットワーク：コンピュテーシ
ョン・イン・ニューラルシステムズ、３巻、1992年２月
19ー25頁（Network : Computation in Neural System
s, Vol.3, pp. 19-25, February 1992)では多層ネット
の学習において中間層ユニットの幾何学的解析が開示さ
れている。そのような幾何学的解析は中間層ユニットの
大域的な作用によりネットワークを学習後の削除を困難
にするため、ネットワークの最適化は難しい。構造の最
適化が学習途中で行なわれていない他の理由は、各々の
重みが全体のネットワークの性能に度のような影響を与
えるかが明らかでないこと、したがってネットワークの
性能に関する有用な情報を作る処理に多くの時間を要す
るためである。

【００１０】ネットワークの学習において、誤差の指標
を最小化するネットワークのパラメーターを見つけるこ
とは難しい。これはネットワークの処理ユニットの非線
形性によるが、この非線形性はパターン分類あるいは関
数近似器として柔軟性を実現するために必要なものであ
る。例えば、パラメーターを代数的に解いて求めること
は可能ではない。ネットワークの処理ユニットが線形で
あるとすると、ネットワークのパラメーターは一組の線
形方程式を解くことにより求めることができる。しかし
ながら線形ユニットのネットワークでは、処理できる仕
事の種類が大幅に制限されてしまう。０、１の値をとる
２入力でどちらかの値が１のとき１を出力する排他的論
理和の問題を考える。この場合線形ユニットではいかに
たくさんのユニットをどの様な配置にしてもこの仕事を
することができない。したがってネットワークが非線形
の処理ユニットを使うことは重要である。直接的で一意
的なパラメーターの解はこの場合は求めることができな
い。解を求めるためには、パラメーターの推定を除々に
改善する逐次近似法を用いざるを得ない。

【００１１】このため次の性質を持った学習法がいくつ
か提案されている。

【００１２】（１）学習が成功したかどうかは全体の統
計量、あるいは統計量の集合を評価することにより行な
う。通常は学習データの平均二乗誤差が用いられる。こ
のような学習法は、教師あり学習と呼ばれる。

【００１３】（２）学習は教師データを提示してそれに
よりパラメーターを修正するというサイクルの繰り返し
で行なわれる。これは（１）における全体のネットワー
クの学習の基準が満たされるまで行なわれる。

【００１４】実際の学習法は以下に示すように最急降下
に基づいた方法と摂動に基づいた方法に分かれる。

【００１５】最急降下に基づいた方法では、ネットワー
クの重みを修正するパラメーターに対する誤差指標のグ
ラディアントにより決まる。摂動に基づいた方法では、
まずネットワークのパラメーターに小さなランダムな摂
動を与える。ついでネットワークを調べ、良くなってい
れば、そのパラメーターの変更は保存され、そうでなけ
れば変更を元に戻して新たな摂動を加える。確率的な摂
動法の例として大域最適化法がある。

【００１６】さらに教師データがネットワークに提示さ
れる毎に重みを更新する方法をオンライン学習と呼び、
全ての教師データを提示し終わってから重みを更新する
方法をオフライン学習と呼ぶ。例えば逆伝播法はオンラ
イン、オフラインどちらでも用いることができるが、Ｂ
ＦＧＳ学習法は逆伝播法との優位性を保つために通常オ
フラインで用いられる。

【００１７】上記の学習法の基本的な分類から性能を改
善する観点からいくつかの変形が行なわれている。

【００１８】パラメータ推定の難しさから、学習法の多
くの拡張は学習途中で次に何をするかに関してのヒュー
リスティックを基にしていることが多い。これらのヒュ
ーリスティックは例えば過去のシミュレーションの経験
に基づいて導かれる。そのような例は逆伝播法にモメン
タムの項をいれることである。この方式では、現在のグ
ラディエントの値に加えて過去のグラディエントに比例
した値を入れる。これは誤差曲面の形を観察することか
ら得られた。もし基本的な逆伝播法による重みの修正に
より誤差指標が下がる場合は、以前の重みの修正を加え
てもさらにこの減少は加速される。この単純なヒューリ
スティックを採用する人もいるが、例えば、アイキャン
ー91、605ー615頁、ニューラルネットワーク・アーキテ
クチャズ・アンド・アルゴリズムズ：ア・パースぺクテ
ィブ(NeuralNetwork Architecturesand Algorithms: A
Perspective, Proc. ICANN-91, pp 605-615)に開示され
るごとく、その有効性に疑問を持つ人もいる。

【００１９】一般にはどれが最適な方法かの合意は得ら
れていない。これは学習と収束の特性が複雑で、たくさ
んのパラメーターがあるときの誤差曲面の形についての
一般的な理論がないためである。実際の収束特性は問題
に依存して、排他的論理和でも学習法により学習時間は
大幅に異なる。

【００２０】本発明では、中間層ユニットを持つニュー
ラルネットの構造を最適化すると共に、学習を最適化す
る方法と装置に関する。

【００２１】

【課題を解決するための手段】構造を最適化するために
は、動的にネットワークの学習を解析する手段、内部構
造性能を示す指標を生成する手段、ネットの構造を変え
る手段を設ける。また学習を最適化するためには学習を
選択する手段、動的に特性を監視する手段、学習を切り
替える手段を設ける。

【００２２】

【作用】構造を最適化するための、動的にネットワーク
の学習を解析する手段により、学習が飽和しているか否
かを判定し、内部構造性能を示す指標を生成する手段に
より、どの中間層ユニットがどのような仕事を分担して
いるかを解析し、ネットの構造を変える手段により、不
要な中間層ユニットを削除する。また学習を最適化する
ための学習を選択する手段は、最初に用いる学習法を選
択し、動的に特性を監視する手段によりその学習法によ
る学習が飽和しているか否かを判定して、学習を切り替
える手段により、動的監視する手段の結果により学習法
を切りかえる。

【００２３】

【実施例】図１に本発明の実施例を示す。図１は中間層
ユニットの最適な数を決めることにより、フィードフォ
ワードニューラルネットの構造を最適化することを含ん
だ学習方式を示している。ネットワークは多入力、１出
力、１層の中間層を持っている。これは非線形回帰等の
実数値関数の近似に用いられる。手法は１から５までの
番号で示されている。図２に、入力ユニット７、中間層
ユニット８、単一出力ユニット９よりなる代表的なフィ
−ドフォワ−ドニュ−ラルネットが示されている。

【００２４】発明を説明する前に、ニューラルネットワ
ークの学習をさらに詳しく調べることにより発明の動機
を明らかにする。逆伝播法によるニューラルネットワー
クの学習の過程は次のようになる。ここで考えているア
ーキテクチャは多入力、単一出力、単一中間層のニュー
ラルネットワークである。これは実関数の近似に用いら
れる。

【００２５】（実数値の）問題に関して次のM個の教師
データの集合があるとする。

【００２６】

【数１】

【００２７】上記の各々は、学習においてネットワーク
への入力はベクトルxiでネットワークの望ましい出力は
yiとなる。この教師データの集合はネットワークに繰り
返して提示され、重みが教師データに対するネットワー
クの出力（Ｎ）とネットワークの望ましい出力yiとの差
を基にした何らかの誤差の指標を減少させるように変更
される。通常の誤差の指標としては次式の平均二乗誤差
(MSE)を用いる。

【００２８】

【数２】

【００２９】ここでネットワークの出力Ｎは、入力ベク
トルxiとネットワークの可変なパラメータｑで決まる。
これらのパラメータの値はある種の繰り返し法によるネ
ットワークの学習により調整される。多くのシミュレー
ション環境では（数２）は学習における唯一の指針であ
る。従って学習終了の判断はＭＳＥの値により行なわれ
る。明らかにこの指標はネットワークの内部構造を直接
的に考慮していないマクロな性能指標である。もっと詳
細な情報が用いられない理由はいろいろ考えられる。例
えば（１）どのような情報を監視したらよいかよく分からな
い。例えば各々の重みとネットワークの全体の性能との
関係が明らかでない。

【００３０】（２）有用な情報を得るための計算量が膨
大となる。

【００３１】従って学習途中でよりよいネットワークを
作るのに有用な情報を得るのが難しくまた解釈も難し
い。

【００３２】本発明においては、学習の過程で有用な幾
何学情報が作られる。これはネットワークの重みを用い
て効率的に求められるから、計算量もさほど必要としな
い。

【００３３】図１に戻って、本発明の装置は次の要素を
含んでいる。ニューラルネットワークシミュレータコア
あるいはプロセッサ15：多層のフィードフォワードニュ
ーラルネットワークシミュレータ。この要素の中には多
層ニューラルネットワークを実装するための回路および
ネットワークを学習する方法が含まれている。動的解析
手段16：シミュレーションの間ネットワークの内部状態
を解析する。これは幾何学的な手段で行なわれる。即
ち、中間層ユニットの幾何学的な形の特徴を用いる。静
的解析手段17：幾何学的な解析手段からの情報に基づい
て、学習を中断して内部のネットワークの構造を解析す
ることができる。静的なニューラルネット即ち変更のな
いネットワークの詳細な解析用いられる統計的手法はよ
く知られているが、完全を記すためそれらも以下では議
論する。

【００３４】ステップ１でニューラルネットワークの学
習はニューラルネットワークプロセッサ15で行なわれ
る。学習は逆伝播法のような適当な繰り返し法により行
なわれる。

【００３５】ステップ２で、学習の途中でニューラルネ
ットワークの構造の動的解析が行なわれる。つまり、微
細なレベルのネットワークの動的解析が行なわれる。こ
れは中間層ユニットに直接に接続している重みのみを用
いて、中間層ユニットの伝達関数の解析を含む。従っ
て、そのような動的解析に必要な処理の量は大きくな
い。ステップ２はさらに動的解析で生成された性能指標
も表示する。動的な解析は以下でさらに詳しく説明す
る。

【００３６】ステップ３で、表示された指標の解析によ
りユーザーによる割り込みが起きる。この実施例では指
標は幾何学的であり図３(a)に示される。キーボードあ
るいはマウスなどの入力機器が特定の表示の選択、及び
静的解析手段17の起動に用いられる。静的解析手段17は
動的解析手段16及びニューラルネットワークプロセッサ
15と交信して、ネットワークの学習を中断してマクロな
レベルでの静的なニューラルネットワークの詳細な解析
を実行する。

【００３７】ステップ４で、動的解析手段16で生成され
るよりももっと詳細なニューラルネットワークの構造を
示す指標を表示する。その例を図３(b)に示す。この例
では、中間層ユニットを削除する前後の最大誤差がその
ユニットの貢献度と共に表示される。従って、ユーザー
は特定の中間層ユニットの貢献度を詳細にかつ単純な指
標で一目のうちに了解できる。

【００３８】ステップ５で、特定のユニットをネットワ
ークから削除するかどうかを決定する。もし除くのな
ら、ニューラルネットワークプロセッサが中間層ユニッ
トを削除し、学習を再開し、ステップ１から５が繰り返
される。そのような判断は動的な解析による幾何学的な
指標が明快であれば、プロセッサ15 で静的な解析無し
で自動的にも行ないうる。

【００３９】ステップ２での中間層ユニットの解析は理
想的にはネットワークの他の中間層ユニットに関する情
報を必要とすべきでない。実際には、この情報は一般に
中間層ユニットに直接に接続する重みとデータの境界を
含めばよい。従って、動的解析は比較的計算量が少な
く、ネットワークの学習はそれほどは遅くはならない。

【００４０】単一の中間層と単一の出力を持つフィード
フォワードネットワークは入力から出力に対する次の変
換を行なう。

【００４１】

【数３】

【００４２】但し、ｋ個の入力ユニットは重みWijによ
りN個の中間層ユニットにつながり、さらに重みVjによ
り一つの出力につながる。bi, tはバイアス項で、出力
が常に１のユニットから中間層ユニット及び出力ユニッ
トへの重みと解釈できる。それらは学習において、構造
をより柔軟にするために用いる。このような構造による
能力はユニットが情報を非線形に処理するためである。
従って各々の中間層のユニットは伝達関数yiを持ち出力
ユニットは伝達関数yをもつ。これらの伝達関数は通常
同じものが設定されしかも最も良く用いられるのは次の
シグモイド関数である。

【００４３】

【数４】

【００４４】この関数は単調増加で出力は０と１の間の
値を取る。この関数はもともと生物学的な考察から生ま
れたものである。

【００４５】出力ユニットは線形あるいは区分線形の伝
達関数をもつと仮定する。しかしながら中間層ユニット
の近似に対する貢献度を評価することを目的にしている
から、中間層ユニットはシグモイド関数のような連続で
単調な非線形の伝達関数を含んでいる。次に入力が２次
元のときの動的な解析を説明する。

【００４６】ネットワークへの入力が２次元のときは、
中間層ユニットの入力空間への役割を関連づけるために
投影法が用いられる。伝達関数の微分値が漸近的に０と
仮定する。この仮定は厳しいものではなく、フィードフ
ォワードネットワークに提案された伝達関数はこの条件
を満たす。最急降下法では重みの変更の計算に伝達関数
の微分を用いるために、学習法が不安定とならないため
に必要な条件である。伝達関数は入力空間の部分集合に
投影される。これを中間層ユニットの幾何学的要素と呼
ぶことにする。次の例でシグモイド関数のときにどのよ
うに行なうかを示す。

【００４７】中間層ユニットHの出力は次式で与えられ
る。

【００４８】

【数５】

【００４９】但しネットワークへの入力はX = (x1, x2)
である。

【００５０】図４にそのような中間層ユニットの例を示
す。追加の項bはバイアス項で値が１の追加の入力と考
えることができる。しかしこのバイアス項があることは
必須ではない。

【００５１】動的解析の目的は、中間層ユニットが最も
重要な入力空間を領域を求めることである（図３の(Ａ)
参照）。直感的には伝達関数の変化率が大きい部分であ
る。もし伝達関数の変化率が非常に小さいときは、中間
層ユニットは重要な仕事をしておらず単にネットワーク
に定数項を与えているだけだある。ここで述べる中間層
ユニットの投影はこの特性を用いている。中間層ユニッ
トの出力に対する貢献度はnj(x)で与えられる。ただしn
は出力ユニットへの接続の重みである。伝達関数の微分
は漸近的に０であるから、小さな正の値をeとすると次
式を満たす領域が重要な入力空間となる。

【００５２】

【数６】

【００５３】あるいは等価的に小さな正の値をaとする
と次式を満たす領域となる。

【００５４】

【数７】

【００５５】あるいは

【００５６】

【数８】

【００５７】ここで伝達関数の出力の範囲は、[a, b]で
ある。

【００５８】このような領域は実際図５に示すように二
つの直線で示され、幾何学的には極めて単純である。次
の例では通常のシグモイド関数を用いる。

【００５９】数式５で与えられる伝達関数を持った中間
層ユニットを考える。これは[0, 1]の出力領域を持つ。
ここでt = w1 x1 + w2 x2 + bとする。このとき次式が
成り立つとき数７が成立する。

【００６０】

【数９】

【００６１】また次式が成り立つとき数式８が成立する
ことは容易に分かる。

【００６２】

【数１０】

【００６３】従って次式の領域で中間層ユニットは最も
重要になる。

【００６４】

【数１１】

【００６５】この領域は、数式９および１０の不等式を
等式で置き換えた二つの直線で挾まれた領域である。こ
のタイプの中間層ユニットの指標を幾何学的指標と呼ぶ
ことにする。この投影はシミュレーションの途中で中間
層ユニットの最も重要な部分がどこかを示すことができ
る。ａの値を変えるとユニットが動作している領域を検
出する感度を変えることになる。例えば、ユニットが５
％以上一定値から変わらないようにするには、ａを０．
０５に設定すればよい。図５にこの幾何学的指標の例を
示す。

【００６６】重要な点は幾何学的指標がユニットの現在
の状態とそれに接続する重みで決まることである。従っ
て効率よく決めることができる。この投影線は幾何学的
解析の過程としてスクリーンに表示される。

【００６７】一般の場合の動的解析を次に詳細に示す。

【００６８】中間層ユニットの出力ユニットに対する貢
献は次式で与えられる。

【００６９】

【数１２】

【００７０】ここでユニットへの入力としてバイアス項
がある場合もある。

【００７１】ネットワークの学習に用いられる教師デー
タの入力空間における領域は学習が始まる前に決定され
る。境界は矩形の領域からなる。K入力とする2K個の頂
点がある。ここでそのよう域が次式で与えられるとす
る。

【００７２】

【数１３】

【００７３】中間層ユニットがいかに重要かを決めるた
めに、次の処理を行なう。

【００７４】Ａ．領域の境界の点はそれらの点に関して
中間層ユニットの最大値と最小値をサーチして行なう。
このとき伝達関数が単調であれば極めて高速に行なうこ
とができる。最大値を求める処理はつぎのようになる。

【００７５】Ａ１ x = (x1, x2,..., xk)を求める頂点
とする。ここで

【００７６】

【数１４】

【００７７】

【数１５】

【００７８】とする。

【００７９】j(x1,1)とj(x2,1)とを比較して、前者が後
者より小さいときはｘの最初の座標はｘ１、１をとり、
それ以外はｘ２、１をとる。

【００８０】Ａ２求めたい頂点の最初の座標を見つけ
た後次式とおく。

【００８１】

【数１６】

【００８２】

【数１７】

【００８３】最初と同じようにj(x1,2)とj(x2,2)とを比
較して、ｘにａ２あるいはｂ２を割り当てる。

【００８４】Ａ３上記の処理をｘが全て決まるまで繰
り返す。

【００８５】Ａ４伝達関数が最小な領域の境界の点も
同様にして求めることができる。

【００８６】ＢステップＡにおいて求まる入力空間に
おける伝達関数の最大値、最小値をxmax, xminとする。
伝達関数の領域に関連したこれらの値は中間層ユニット
の重要性の推定に用いられる。

【００８７】Ｂ１伝達関数の出力の範囲を[a, b]と
し、次式を計算する。

【００８８】

【数１８】

【００８９】

【数１９】

【００９０】ここでの目的は、中間層ユニットが削除さ
れたときのネットワークの出力の最大の変化を計算する
ことにある。この変化を最小化するために出力ユニット
のバイアス項に適当な定数を加える。直感的には伝達関
数が考えている入力空間内で一定値ｃをとるとき、中間
層ユニットを削除して定数cを出力ユニットに加えれば
よい。

【００９１】Ｂ２数１８、１９の大小を比較する。も
し数１８が大きいときは、中間層ユニットを削除すると
きは、バイアス項にｂを加える。

【００９２】ここで

【００９３】

【数２０】

【００９４】とする。ｃを近似に対するユニットの貢献
度と呼ぶ。

【００９５】Ｂ３もし数１９が大きければ、出力ユニ
ットのバイアス項にａを加えて中間層ユニットを削除す
る。この時の貢献度指標は次式のようになる。

【００９６】

【数２１】

【００９７】Ｂ４中間層ユニットの貢献度の指標は、
そのユニットを削除することによるネットワークの状態
変化に対応する。Ｎ個の中間層ユニットのネットワーク
の出力に対する貢献度は次式で表現される。

【００９８】

【数２２】

【００９９】ここでτは出力ユニットのバイアス項であ
る。一般性を失うことなく、必要ならば番号を付替るこ
とにより、N番目のユニットを削除するユニットとす
る。もしこのユニットが上記の手順により削除されたと
すると、新しい貢献度は次式のようになる。

【０１００】

【数２３】

【０１０１】ここでｋは、ステップＢ３あるいはＢ４の
どちらを実行したかによりａあるいはｂとなる。ここで
次式が成り立つ。

【０１０２】

【数２４】

【０１０３】但し、ｃはＮ番目の中間層ユニットの貢献
度である。さらに対応するネットワークfN(x), fN-1(x)
は次式で関係づけられる。

【０１０４】

【数２５】

【０１０５】ここでλは出力ユニットの伝達関数の微分
値の最大値である。この式は中間層ユニットを削除した
ときの中間層ユニットの貢献度とネットワークの出力の
変化の上限の関係を陽に与える。

【０１０６】重要な点はＮ次元の入力空間で、2N個の頂
点があるにも関わらず、対象としている領域で２Ｎ個の
伝達関数の最大値と最小値の評価のみでよいことであ
る。このことはわずかの処理で必要な情報が生成できる
ことを意味している。従って、この情報をシミュレーシ
ョン途中で計算でき、いつ中間層ユニットを削除するか
を決める補助として表示することができる。

【０１０７】静的解析手段17の動作を、次に詳細に説明
する。

【０１０８】静的解析のステップ４は、例えば、ユニッ
トの削除の前後の二乗平均誤差などのネットワークに対
するより詳細な情報を提供する。即ち

【０１０９】

【数２６】

【０１１０】をＭ個の教師データを提示して計算する。
ここで、yiはのぞましい出力で、fiはネットワークの出
力である。汎化能力は教師データー以外のテストデータ
に対して数式２６を計算することにより求まる。

【０１１１】ネットワークの最大のノルム誤差は全ての
教師データに対する最大誤差の絶対値で次式で与えられ
る。

【０１１２】

【数２７】

【０１１３】繰り返しとなるがこのような誤差の指標は
教師データに限定されるものではない。これらの値はネ
ットワークのマクロな性能を示すものである。言い換え
れば、ネットワークの外から見える特徴を観察すること
によりによりネットワークの動作に関する情報を提供す
るものである。この情報は静的解析により自動的にある
いはユーザーの判断に従い、中間層ユニットの削除に用
いられる。

【０１１４】動的及び静的な解析、及びさらに必要な情
報を得るために学習を中断して、中間層ユニットを削除
するあるいは構造を変えることは非常に重要である。本
発明の重要な点はさらに幾何学的な解析あるいはネット
ワークの解析無しに学習後に最適なネットワークの構造
が決まることにある。ただ一つの欠点は学習に多少時間
がかかることである。ネットワークの構造が最適化され
るので応用分野でのネットワークの使用効率が大幅に向
上する。

【０１１５】発明の他の点は学習が改善されることであ
る。これは、単体でも実行可能であり、構造の最適化と
組み合わせても行なうことができる。

【０１１６】従来、学習法の改善は、学習法の特性を調
べ、ヒューリステックな方法を折り込むことにより行な
われていた。本発明では、異なった手法を同一システム
内で用いることにより、より高度な学習法が用いられ
る。

【０１１７】システムの構成を図６に示す。システム
（プロセッサ15でもよい）は、ネットワークの重みの値
を決める学習プロセッサー29のライブラリーを含む。こ
の例は以前にもいくつか説明したが、逆伝播法あるいは
グローバル最適化法などである。学習の各々の時点で
は、どれか一つの方法がネットワークのパラメーターを
決める。システムはさらにネットワーク31のパラメータ
ーの更新にどのプロセッサを使うかを制御ルールに従い
決める学習マネージャー30を含む。制御ルールの数は洗
練化された度合いにより少ない場合と多い場合とがあ
る。ルール自体は学習の一般的な特徴を含んだ一般的な
ルールと特定の問題に関する性能に関した個別のルール
からなる。

【０１１８】ルールは、いろいろな方法で獲得可能であ
る。第一に、一つの学習法によるシミュレーションによ
りその方法の一般的な特徴を得ることができる。これは
次の例で詳細に示す。第二に、方法が、既知のあるいは
推定できる計算量あるいは記憶容量に関する制約を持っ
ている場合がある。これはこの方法が使えるネットワー
クの構造の関する制約となる。この種のルールは、ネッ
トワークの重みの数がある指定値より大きいとき方法を
使うのを禁止することになる。従ってマネージャ30の役
割は学習マネージャのルールで定義された最も適切なプ
ロセッサーを選び学習を改善することにある。

【０１１９】これらのルールはいつ現われ、いかにして
学習マネージャ30でシミュレーション及びマネージャ自
身を制御するためにつかわれるかを示す実施例について
以下述べる。

【０１２０】学習が収束するまで一つの学習法を適用す
る従来の方法により、各々の学習法の個々の特徴を集め
ることにより、本発明の手法を実施するための有用な情
報が得られる。図７のグラフがある特定の問題に対する
異なる学習法の平均の特性を示すとする。シミュレーシ
ョンの特徴を調べることにより、次の結論を導くことが
できる。

【０１２１】学習法Ａは収束に失敗、学習法Ｂは最初の
収束はよいが、最終の収束は悪い。いいかえれば、Ａは
シミュレーションの最初で良いが、最初の段階を過ぎる
とうまく働らかない。

【０１２２】学習法ＣはＢよりもシミュレーショの最初
の段階で悪いが、最終段階ではよい。

【０１２３】この簡単な観察により、学習の制御に使え
る形にどのようにすれば変換できるかという問題が生じ
る。以下ではこの変換の問題を、単純な例で説明する。

【０１２４】与えられた学習法の特性に関する観察は制
御条件に変換される。制御条件の一般形は学習法を監視
するのに用いられるネットワークの特性の指標あるいは
統計量のある論理関数である。従って、制御条件の一般
形は次式で与えられる。

【０１２５】

【数２８】

【０１２６】ここで、Sはネットワークに依存するある
種の指標である。例えば、ネットワークの平均二乗誤
差、ネットワーク内部のユニット数、ネットワークの学
習法の繰り返し回数などである。指標は現在値のみなら
ず、格納された過去の値の関数でもよい。

【０１２７】以下にいくつかの例を示す。

【０１２８】（１）学習法は収束していない。二乗平均
誤差が減少を停止したらその学習法は用いない。このと
きの条件は

【０１２９】

【数２９】

【０１３０】ここで、ａは時刻tで学習法がもたらす誤
差の変化E(t) - E(t - 1)の最小の許容値を示す定数で
ある。従って、ａは０に近い値で正確な値は使用者が決
める。従って、この制御条件で用いられる学習法はこの
条件が成立しないと用いない。

【０１３１】さらに高度な方法としては、誤差指標の移
動平均を用いる。これにより学習法の小さな変動に対し
て応答しなくなり、大域的な傾向をとらえることができ
る。例えば、次の10サイクルの移動平均を用いる。

【０１３２】

【数３０】

【０１３３】上式では誤差指標の平均の変化が０に近け
れば、他の学習法に切り替える。

【０１３４】（２）ネットワークが大きいときはこの学
習法は用いない。ネットワークが大きくなると記憶容量
の制限からあるいはネットワークの規模により計算時間
が大幅にかかることからある種の学習法ではこの条件は
必要になる。２次の学習法これら二つともあてはまる方
法である。もしWをネットワークの重みの数とすると２
次微分であるヘシアン行列はW2の大きさとなり、また計
算量もo(W2）のオーダーとなる。このときの制御条件は
ネットワーク中の重みの数あるいはユニットの数に対す
る制限となる。ネットワーク中のユニットあるいは重み
の数はネットワークの統計量あるいは属性と考えられる
から、これも制御条件となる。このタイプの制御条件は
学習中の動的な特性に依存しない性質であり、マネージ
ャーの第一の目的は動的制御を行なうことであるから、
それを学習マネージャーの枠の外で組み込むことができ
る。しかし枠内で組み込むことも可能である。

【０１３５】以下に学習法Aと学習法Ｂとを制御する学
習マネージャーの例を示す。学習法Ａは例えば、逆伝播
法等の一次の最急降下法で学習法ＢとはＢＦＧＳ法等の
２次の最急降下法を示す。学習法Aはステップサイズの
パラメーターを用いる。ここで、受け入れ可能ではある
が最適ではないという意味での適切なパラメーターの値
が設定されたとする。

【０１３６】観察により学習過程について次の特性が分
かったとする。

【０１３７】（１）学習法Aは最初の段階で処理時間が
少なく、この段解では好ましい。

【０１３８】（２）学習法Bは学習の最終の段階で良い
収束特性を持ち、計算時間が多少かかるのは正当化され
る。

【０１３９】上記（１）は”最初はＡを用いる”という
ように容易に学習マネージャーのルールに変換される。
上記（２）は”ＡのあとはＢを用いる”というルールに
変換できる。難しいのはどの時点で切り替えるかといる
ルールである。これは学習の動特性に依存する。本実施
例ではこのルールは与えられた学習法に関連した特性が
成立したことを検出する制御条件とする。これらは学
習マネージャーにより学習法をいつ切り変えるかを決め
るのに使う。ここで使う特性とはＡが収束していないと
いうことである。これは移動平均の検出器で行なう。

【０１４０】図８に例を示す。例ではルールを命令の集
合として示している。最初に移動平均の制御条件が定義
されている。ついで制御条件は学習法Ａに付与される。
学習法Ａが実行されると、この制御条件はいつ学習を止
めるかを決めるモニターとしてはたらく。最後の２行は
最初に学習法Ａを実行して、ついで学習法Ｂを実行する
ことを示す。ここでＡからＢへの意向は制御条件で決め
られる。全ての学習法に適用される制御条件もある。例
えば、平均二乗誤差が小さいとき止るという条件は両方
の学習法に適用される。従って、この条件が成立すると
きシミュレーションは終了する。このとき学習法Ａで十
分であれば、学習法Ｂは適用されない。

【０１４１】

【発明の効果】以上説明した本発明の実施例の効果を説
明する。

【０１４２】中間層ユニットを削除しながらネットワー
クを最適化することにより、学習時間の短縮及び学習後
のネットワークの応答時間の高速化を図ることができ
る。また学習方法を学習途中で切り替えることにより、
学習の高速化を図ることができる。

【図面の簡単な説明】

【図１】本発明の具体的実施例を説明した図である。

【図２】フィードフォワードニューラルネットおよび
中間層ユニットの動作を説明した図である。

【図３】会話的及び静的解析ステップを説明した図で
ある。

【図４】入力が２次元の中間層ユニットを説明した図
である。

【図５】動的解析で生成された代表的な幾何学的指標
を説明した図である。

【図６】代替の学習法を説明した図である。

【図７】学習法の収束過程を説明した図である。

【図８】図６の学習法をさらに詳しく説明した図であ
る。

【符号の説明】

１はネットワークの学習のステップ、２は動的解析のス
テップ、３はユーザー割り込みのステップ、４は静的
解析のステップ、５はユーザーの判断のステップある。

Claims

【特許請求の範囲】

【請求項１】中間層ユニットを持ったフィードフォワ
ードニューラルネットを学習する方法であって、ニュー
ラルネットを学習するステップ、学習途中でネットワー
クの性能を動的に解析してネットワークの内部構造の性
能を示す第１の指標を生成するステップ、生成された指
標を表示するステップ、表示された指標の解析結果によ
りネットワークの構造を変えるステップとを含むことを
特徴とするニューラルネットの学習方法。
【請求項２】請求項１に記載の学習方法において、上
記表示された指標の解析結果により、学習過程を中断し
てネットワークの内部構造をさらに詳細に表現する第２
の指標を生成するためのネットワークの静的な解析を行
なうステップを含んでいることを特徴とするニューラル
ネットの学習方法。
【請求項３】請求項１または２に記載の学習方法であ
って、上記動的解析において、詳細な解析ができるよう
にネットワークのローカルな内部の特徴を解析すること
を特徴とするニューラルネットの学習方法。
【請求項４】請求項３に記載の学習方法であって、上
記中間層ユニットの動的解析が、その中間層ユニットに
関したネットワーク情報のみを解析することを特徴とす
るニューラルネットの学習方法。
【請求項５】請求項４に記載の学習方法であって、上
記動的解析において中間層ユニットの伝達関数を解析す
ることを特徴とするニューラルネットの学習方法。
【請求項６】請求項５に記載の学習方法であって、上
記動的解析における中間層ユニットの伝達関数の解析に
おいて、連続で単調な伝達関数を解析することを特徴と
するニューラルネットの学習方法。
【請求項７】請求項６に記載の学習方法であって、上
記中間層ユニットの伝達関数が漸近的に微分値が０とな
るものを解析することを特徴とするニューラルネットの
学習方法。
【請求項８】請求項１から７のいずれかに記載の学習
方法であって、上記第１の指標が幾何学的であることを
特徴とするニューラルネットの学習方法。
【請求項９】請求項１から８のいずれかに記載の学習
方法であって、上記動的および静的解析が中間層ユニッ
トを入力データに関連づける処理を含むことを特徴とす
るニューラルネットの学習方法。
【請求項１０】請求項２から９のいずれかに記載の学
習方法であって、上記ネットワークの性能に関した大域
的な情報を静的解析で解析することを特徴とするニュー
ラルネットの学習方法。
【請求項１１】中間層ユニットを持ったフィードフォ
ワードニューラルネットを学習する装置であって、学習
途中でネットワークの性能を動的に解析してネットワー
クの内部構造の性能を示す第１の指標を生成する手段、
生成された指標を表示する手段、表示された指標の解析
結果によりネットワークの構造を変える手段を備えたこ
とを特徴とするニューラルネットの学習装置。
【請求項１２】請求項１１に記載の学習装置におい
て、さらに、学習過程を中断する手段、ネットワークの
内部構造をさらに詳細に表現する第２の指標を生成する
ためのネットワークの静的な解析手段を備えていること
を特徴とするニューラルネットの学習装置。
【請求項１３】フィードフォワードニューラルネット
を学習する方法であって、異なった学習方法の特性を記
憶するステップ、最初の学習方法を選択してそれにより
学習するステップ、学習方法の特徴を動的に監視するス
テップ、制御条件により監視された特徴を評価するステ
ップ、制御条件によりその後の学習に対して異なった学
習方法を選択するステップとを含むことを特徴とするニ
ューラルネットの学習方法。
【請求項１４】請求項13に記載の学習方法であって、
上記監視された特徴を評価するために、複数の制御条件
を使用し、ある制御条件はある学習法に関わり、他の制
御条件は全ての方法に関わることを特徴とするニューラ
ルネットの学習方法。
【請求項１５】フィードフォワードニューラルネット
を学習する装置において、複数の学習プロセッサを備
え、学習コントローラが、学習方法の特性を記憶する手
段、最初の学習方法を選択してそれにより学習する手
段、学習方法の特徴を動的に監視する手段、制御条件に
より監視された特徴を評価する手段、制御条件によりそ
の後の学習に対して異なった学習方法を選択する手段を
備えたことを特徴とするニューラルネットの学習装置。
【請求項１６】中間層ユニットを持ったフィードフォ
ワードニューラルネットを学習する方法であって、異な
った学習方法の特性を記憶するステップ、最初の学習方
法を選択してそれにより学習するステップ、学習方法の
特徴を動的に監視するステップ、制御条件により監視さ
れた特徴を評価するステップ、制御条件によりその後の
学習に対して異なった学習方法を選択するステップより
なるニューラルネットを学習するステップ、学習途中で
ネットワークの性能を動的に解析してネットワークの内
部構造の性能を示す指標を生成するステップ、生成され
た指標を表示するステップ、表示された指標の解析結果
によりネットワークの構造を変えるステップ、とを含む
ことを特徴とするニューラルネットの学習方法。