JPH07302249A - フィードフォワードニューラルネットの学習方法 - Google Patents

フィードフォワードニューラルネットの学習方法

Info

Publication number
JPH07302249A
JPH07302249A JP5194410A JP19441093A JPH07302249A JP H07302249 A JPH07302249 A JP H07302249A JP 5194410 A JP5194410 A JP 5194410A JP 19441093 A JP19441093 A JP 19441093A JP H07302249 A JPH07302249 A JP H07302249A
Authority
JP
Japan
Prior art keywords
learning
network
learning method
index
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5194410A
Other languages
English (en)
Inventor
Mitsuchieru Jiyon
ミッチェル ジョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPH07302249A publication Critical patent/JPH07302249A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【目的】 関数近似を行なうニューラルネットの構成及
び学習を最適化することを目的にしている。 【構成】 ネットワークの学習のステップ1を、動的解
析のステップ2監視し、ユーザー割り込みのステップ3
により、静的解析のステップ4を行ないそれに基づいて
ユーザーの判断のステップ5によりネットワークを最適
化する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、ニューラルネットの構
成と学習を最適化する方法及び装置に関し、特に入力か
ら出力を決定する関数近似を行なうフィードフォワード
ニューラルネットの最適構成と学習の最適化を行なう方
法及び装置に関する。
【0002】
【従来技術】意味のある処理をするニューラルネットワ
ークを構成するためには、重みを適正な値に調整する必
要がある。この操作を教師あり学習と呼ぶ。一例ではい
くつかの教師データをネットワークに提示して、教師デ
ータの全体の誤差が下がるように重みを調整する。この
ような学習法には確率的(例えば大域最適化)、あるい
は決定的(例えば逆伝播法)と呼ばれる方法がある。大
域最適化法は、ニューラルネットワークス、1989年第2
巻367ー374頁(Neural Networks, Vol. 2, pp.367-374,
1989)に述べられており、逆伝播法は、エムアイテープ
レス、パラレルディストリビューティド プロセシング
:エクスプロレーションズ・イン・ザ・マイクロスト
ラクチャー・オブ・コグニション、第1巻および第2
巻、1986年(Parallel Distributed Processing: Explo
rations in the Microstructure ofCognition, Vols 1
and 2, MIT Press, 1986) に示されている。多入力、単
一中間層、1出力のニューラルネットの逆伝播法での学
習では 、教師データがネットワークに繰り返して提示
され、ネットワーク出力と望ましい出力との差から決ま
るある種の誤差の指標を減少させるように重みを調整す
る。通常の誤差の指標は二乗平均誤差である。
【0003】フィードフォワードニューラルネットのハ
ードウエアは開発されてはいるが、多くの場合は逐次あ
るいは並列プロセッサー上のソフトウエアシミュレーシ
ョンで行なわれる。
【0004】フィードフォワードニューラルネットは多
くの応用で離散データあるいは連続データを用いて使わ
れている。離散データの場合は、パターン認識/分類の
問題に用いられ、例えば画像データからりんごの品質の
決定、紙の質のテクスチャー解析、あるいは手書きの郵
便番号の自動認識などに用いられる。連続データの応用
例としては、時系列予測、及び非線形回帰がある。これ
らの分野におけるニューラルネットの最も有用な点は、
学習済みのネットの汎化能力である。即ち、学習で用い
なかったデータでも良い性能を実現できることである。
例えば、手書きの郵便番号認識にニューラルネットを応
用するときは、小人数のグループの手書きのデータを使
って学習を行なう。この時学習に用いなかった手書きデ
ータでも認識できれば非常に有用となる。
【0005】
【発明が解決しようとする課題】しかしながら、ニュー
ラルネットを応用するときに次の問題がある。
【0006】構造的難しさ: 与えられた問題に対して
最適なネットワークの構成はどのようにして与えられる
か? 問題により通常は適切な入力数と出力数は与えら
れるが、適切な中間層ユニットの数を与えるのは難し
い。中間層ユニットの数が少ないと、与えられた問題を
十分に表現できないし、また多すぎるとネットワークの
汎化能力を落とす結果となる。
【0007】学習の難しさ: ニューラルネットワーク
の学習は遅く指定のレベルまで誤差を減少させるために
は何千回もの繰り返しを必要とする。比較的速い学習法
もあるが、どのような学習法を用いても遅いことには変
わりはない。
【0008】欧州特許第 WO 91/02322号では、出力ユニ
ットのみならず中間層ユニットにも望ましい出力を提示
する学習法を開示している。しかしながら、学習中ある
いは学習の後で、ネットワーク即ち中間層ユニットの最
適化に関しては述べていない。構造が最適化されない
と、処理を実行するに必要な中間層ユニット以上に多く
の中間層ユニットを設定して学習を開始する傾向にあ
る。この結果ネットワークの学習に多くの時間を要し、
また学習後の認識にも時間がかかることになる。同様に
米国特許第 5,056,037号に多層ネットの学習法を開示し
ているが、構造の最適化に関しての開示はない。
【0009】ニューラルネットワーク:コンピュテーシ
ョン・イン・ニューラルシステムズ、3巻、1992年2月
19ー25頁(Network : Computation in Neural System
s, Vol.3, pp. 19-25, February 1992)では多層ネット
の学習において中間層ユニットの幾何学的解析が開示さ
れている。そのような幾何学的解析は中間層ユニットの
大域的な作用によりネットワークを学習後の削除を困難
にするため、ネットワークの最適化は難しい。構造の最
適化が学習途中で行なわれていない他の理由は、各々の
重みが全体のネットワークの性能に度のような影響を与
えるかが明らかでないこと、したがってネットワークの
性能に関する有用な情報を作る処理に多くの時間を要す
るためである。
【0010】ネットワークの学習において、誤差の指標
を最小化するネットワークのパラメーターを見つけるこ
とは難しい。これはネットワークの処理ユニットの非線
形性によるが、この非線形性はパターン分類あるいは関
数近似器として柔軟性を実現するために必要なものであ
る。例えば、パラメーターを代数的に解いて求めること
は可能ではない。ネットワークの処理ユニットが線形で
あるとすると、ネットワークのパラメーターは一組の線
形方程式を解くことにより求めることができる。しかし
ながら線形ユニットのネットワークでは、処理できる仕
事の種類が大幅に制限されてしまう。0、1の値をとる
2入力でどちらかの値が1のとき1を出力する排他的論
理和の問題を考える。この場合線形ユニットではいかに
たくさんのユニットをどの様な配置にしてもこの仕事を
することができない。したがってネットワークが非線形
の処理ユニットを使うことは重要である。直接的で一意
的なパラメーターの解はこの場合は求めることができな
い。解を求めるためには、パラメーターの推定を除々に
改善する逐次近似法を用いざるを得ない。
【0011】このため次の性質を持った学習法がいくつ
か提案されている。
【0012】(1)学習が成功したかどうかは全体の統
計量、あるいは統計量の集合を評価することにより行な
う。通常は学習データの平均二乗誤差が用いられる。こ
のような学習法は、教師あり学習と呼ばれる。
【0013】(2)学習は教師データを提示してそれに
よりパラメーターを修正するというサイクルの繰り返し
で行なわれる。これは(1)における全体のネットワー
クの学習の基準が満たされるまで行なわれる。
【0014】実際の学習法は以下に示すように最急降下
に基づいた方法と摂動に基づいた方法に分かれる。
【0015】最急降下に基づいた方法では、ネットワー
クの重みを修正するパラメーターに対する誤差指標のグ
ラディアントにより決まる。摂動に基づいた方法では、
まずネットワークのパラメーターに小さなランダムな摂
動を与える。ついでネットワークを調べ、良くなってい
れば、そのパラメーターの変更は保存され、そうでなけ
れば変更を元に戻して新たな摂動を加える。確率的な摂
動法の例として大域最適化法がある。
【0016】さらに教師データがネットワークに提示さ
れる毎に重みを更新する方法をオンライン学習と呼び、
全ての教師データを提示し終わってから重みを更新する
方法をオフライン学習と呼ぶ。例えば逆伝播法はオンラ
イン、オフラインどちらでも用いることができるが、B
FGS学習法は逆伝播法との優位性を保つために通常オ
フラインで用いられる。
【0017】上記の学習法の基本的な分類から性能を改
善する観点からいくつかの変形が行なわれている。
【0018】パラメータ推定の難しさから、学習法の多
くの拡張は学習途中で次に何をするかに関してのヒュー
リスティックを基にしていることが多い。これらのヒュ
ーリスティックは例えば過去のシミュレーションの経験
に基づいて導かれる。そのような例は逆伝播法にモメン
タムの項をいれることである。この方式では、現在のグ
ラディエントの値に加えて過去のグラディエントに比例
した値を入れる。これは誤差曲面の形を観察することか
ら得られた。もし基本的な逆伝播法による重みの修正に
より誤差指標が下がる場合は、以前の重みの修正を加え
てもさらにこの減少は加速される。この単純なヒューリ
スティックを採用する人もいるが、例えば、アイキャン
ー91、605ー615頁、ニューラルネットワーク・アーキテ
クチャズ・アンド・アルゴリズムズ:ア・パースぺクテ
ィブ(NeuralNetwork Architecturesand Algorithms: A
Perspective, Proc. ICANN-91, pp 605-615)に開示され
るごとく、その有効性に疑問を持つ人もいる。
【0019】一般にはどれが最適な方法かの合意は得ら
れていない。これは学習と収束の特性が複雑で、たくさ
んのパラメーターがあるときの誤差曲面の形についての
一般的な理論がないためである。実際の収束特性は問題
に依存して、排他的論理和でも学習法により学習時間は
大幅に異なる。
【0020】本発明では、中間層ユニットを持つニュー
ラルネットの構造を最適化すると共に、学習を最適化す
る方法と装置に関する。
【0021】
【課題を解決するための手段】構造を最適化するために
は、動的にネットワークの学習を解析する手段、内部構
造性能を示す指標を生成する手段、ネットの構造を変え
る手段を設ける。また学習を最適化するためには学習を
選択する手段、動的に特性を監視する手段、学習を切り
替える手段を設ける。
【0022】
【作用】構造を最適化するための、動的にネットワーク
の学習を解析する手段により、学習が飽和しているか否
かを判定し、内部構造性能を示す指標を生成する手段に
より、どの中間層ユニットがどのような仕事を分担して
いるかを解析し、ネットの構造を変える手段により、不
要な中間層ユニットを削除する。また学習を最適化する
ための学習を選択する手段は、最初に用いる学習法を選
択し、動的に特性を監視する手段によりその学習法によ
る学習が飽和しているか否かを判定して、学習を切り替
える手段により、動的監視する手段の結果により学習法
を切りかえる。
【0023】
【実施例】図1に本発明の実施例を示す。図1は中間層
ユニットの最適な数を決めることにより、フィードフォ
ワードニューラルネットの構造を最適化することを含ん
だ学習方式を示している。ネットワークは多入力、1出
力、1層の中間層を持っている。これは非線形回帰等の
実数値関数の近似に用いられる。手法は1から5までの
番号で示されている。図2に、入力ユニット7、中間層
ユニット8、単一出力ユニット9よりなる代表的なフィ
−ドフォワ−ドニュ−ラルネットが示されている。
【0024】発明を説明する前に、ニューラルネットワ
ークの学習をさらに詳しく調べることにより発明の動機
を明らかにする。逆伝播法によるニューラルネットワー
クの学習の過程は次のようになる。ここで考えているア
ーキテクチャは多入力、単一出力、単一中間層のニュー
ラルネットワークである。これは実関数の近似に用いら
れる。
【0025】(実数値の)問題に関して次のM個の教師
データの集合があるとする。
【0026】
【数1】
【0027】上記の各々は、学習においてネットワーク
への入力はベクトルxiでネットワークの望ましい出力は
yiとなる。この教師データの集合はネットワークに繰り
返して提示され、重みが教師データに対するネットワー
クの出力(N)とネットワークの望ましい出力yiとの差
を基にした何らかの誤差の指標を減少させるように変更
される。通常の誤差の指標としては次式の平均二乗誤差
(MSE)を用いる。
【0028】
【数2】
【0029】ここでネットワークの出力Nは、入力ベク
トルxiとネットワークの可変なパラメータqで決まる。
これらのパラメータの値はある種の繰り返し法によるネ
ットワークの学習により調整される。多くのシミュレー
ション環境では(数2)は学習における唯一の指針であ
る。従って学習終了の判断はMSEの値により行なわれ
る。明らかにこの指標はネットワークの内部構造を直接
的に考慮していないマクロな性能指標である。もっと詳
細な情報が用いられない理由はいろいろ考えられる。例
えば (1)どのような情報を監視したらよいかよく分からな
い。例えば各々の重みとネットワークの全体の性能との
関係が明らかでない。
【0030】(2)有用な情報を得るための計算量が膨
大となる。
【0031】従って学習途中でよりよいネットワークを
作るのに有用な情報を得るのが難しくまた解釈も難し
い。
【0032】本発明においては、学習の過程で有用な幾
何学情報が作られる。これはネットワークの重みを用い
て効率的に求められるから、計算量もさほど必要としな
い。
【0033】図1に戻って、本発明の装置は次の要素を
含んでいる。ニューラルネットワークシミュレータコア
あるいはプロセッサ15:多層のフィードフォワードニュ
ーラルネットワークシミュレータ。この要素の中には多
層ニューラルネットワークを実装するための回路および
ネットワークを学習する方法が含まれている。動的解析
手段16:シミュレーションの間ネットワークの内部状態
を解析する。これは幾何学的な手段で行なわれる。即
ち、中間層ユニットの幾何学的な形の特徴を用いる。静
的解析手段17:幾何学的な解析手段からの情報に基づい
て、学習を中断して内部のネットワークの構造を解析す
ることができる。静的なニューラルネット即ち変更のな
いネットワークの詳細な解析用いられる統計的手法はよ
く知られているが、完全を記すためそれらも以下では議
論する。
【0034】ステップ1でニューラルネットワークの学
習はニューラルネットワークプロセッサ15で行なわれ
る。学習は逆伝播法のような適当な繰り返し法により行
なわれる。
【0035】ステップ2で、学習の途中でニューラルネ
ットワークの構造の動的解析が行なわれる。つまり、微
細なレベルのネットワークの動的解析が行なわれる。こ
れは中間層ユニットに直接に接続している重みのみを用
いて、中間層ユニットの伝達関数の解析を含む。従っ
て、そのような動的解析に必要な処理の量は大きくな
い。ステップ2はさらに動的解析で生成された性能指標
も表示する。動的な解析は以下でさらに詳しく説明す
る。
【0036】ステップ3で、表示された指標の解析によ
りユーザーによる割り込みが起きる。この実施例では指
標は幾何学的であり図3(a)に示される。キーボードあ
るいはマウスなどの入力機器が特定の表示の選択、及び
静的解析手段17の起動に用いられる。静的解析手段17は
動的解析手段16及びニューラルネットワークプロセッサ
15と交信して、ネットワークの学習を中断してマクロな
レベルでの静的なニューラルネットワークの詳細な解析
を実行する。
【0037】ステップ4で、動的解析手段16で生成され
るよりももっと詳細なニューラルネットワークの構造を
示す指標を表示する。その例を図3(b)に示す。この例
では、中間層ユニットを削除する前後の最大誤差がその
ユニットの貢献度と共に表示される。従って、ユーザー
は特定の中間層ユニットの貢献度を詳細にかつ単純な指
標で一目のうちに了解できる。
【0038】ステップ5で、特定のユニットをネットワ
ークから削除するかどうかを決定する。もし除くのな
ら、ニューラルネットワークプロセッサが中間層ユニッ
トを削除し、学習を再開し、ステップ1から5が繰り返
される。そのような判断は動的な解析による幾何学的な
指標が明快であれば、プロセッサ15 で静的な解析無し
で自動的にも行ないうる。
【0039】ステップ2での中間層ユニットの解析は理
想的にはネットワークの他の中間層ユニットに関する情
報を必要とすべきでない。実際には、この情報は一般に
中間層ユニットに直接に接続する重みとデータの境界を
含めばよい。従って、動的解析は比較的計算量が少な
く、ネットワークの学習はそれほどは遅くはならない。
【0040】単一の中間層と単一の出力を持つフィード
フォワードネットワークは入力から出力に対する次の変
換を行なう。
【0041】
【数3】
【0042】但し、k個の入力ユニットは重みWijによ
りN個の中間層ユニットにつながり、さらに重みVjによ
り一つの出力につながる。bi, tはバイアス項で、出力
が常に1のユニットから中間層ユニット及び出力ユニッ
トへの重みと解釈できる。それらは学習において、構造
をより柔軟にするために用いる。このような構造による
能力はユニットが情報を非線形に処理するためである。
従って各々の中間層のユニットは伝達関数yiを持ち出力
ユニットは伝達関数yをもつ。これらの伝達関数は通常
同じものが設定されしかも最も良く用いられるのは次の
シグモイド関数である。
【0043】
【数4】
【0044】この関数は単調増加で出力は0と1の間の
値を取る。この関数はもともと生物学的な考察から生ま
れたものである。
【0045】出力ユニットは線形あるいは区分線形の伝
達関数をもつと仮定する。しかしながら中間層ユニット
の近似に対する貢献度を評価することを目的にしている
から、中間層ユニットはシグモイド関数のような連続で
単調な非線形の伝達関数を含んでいる。次に入力が2次
元のときの動的な解析を説明する。
【0046】ネットワークへの入力が2次元のときは、
中間層ユニットの入力空間への役割を関連づけるために
投影法が用いられる。伝達関数の微分値が漸近的に0と
仮定する。この仮定は厳しいものではなく、フィードフ
ォワードネットワークに提案された伝達関数はこの条件
を満たす。最急降下法では重みの変更の計算に伝達関数
の微分を用いるために、学習法が不安定とならないため
に必要な条件である。伝達関数は入力空間の部分集合に
投影される。これを中間層ユニットの幾何学的要素と呼
ぶことにする。次の例でシグモイド関数のときにどのよ
うに行なうかを示す。
【0047】中間層ユニットHの出力は次式で与えられ
る。
【0048】
【数5】
【0049】但しネットワークへの入力はX = (x1, x2)
である。
【0050】図4にそのような中間層ユニットの例を示
す。追加の項bはバイアス項で値が1の追加の入力と考
えることができる。しかしこのバイアス項があることは
必須ではない。
【0051】動的解析の目的は、中間層ユニットが最も
重要な入力空間を領域を求めることである(図3の(A)
参照)。直感的には伝達関数の変化率が大きい部分であ
る。もし伝達関数の変化率が非常に小さいときは、中間
層ユニットは重要な仕事をしておらず単にネットワーク
に定数項を与えているだけだある。ここで述べる中間層
ユニットの投影はこの特性を用いている。中間層ユニッ
トの出力に対する貢献度はnj(x)で与えられる。ただしn
は出力ユニットへの接続の重みである。伝達関数の微分
は漸近的に0であるから、小さな正の値をeとすると次
式を満たす領域が重要な入力空間となる。
【0052】
【数6】
【0053】あるいは等価的に小さな正の値をaとする
と次式を満たす領域となる。
【0054】
【数7】
【0055】あるいは
【0056】
【数8】
【0057】ここで伝達関数の出力の範囲は、[a, b]で
ある。
【0058】このような領域は実際図5に示すように二
つの直線で示され、幾何学的には極めて単純である。次
の例では通常のシグモイド関数を用いる。
【0059】数式5で与えられる伝達関数を持った中間
層ユニットを考える。これは[0, 1]の出力領域を持つ。
ここでt = w1 x1 + w2 x2 + bとする。このとき次式が
成り立つとき数7が成立する。
【0060】
【数9】
【0061】また次式が成り立つとき数式8が成立する
ことは容易に分かる。
【0062】
【数10】
【0063】従って次式の領域で中間層ユニットは最も
重要になる。
【0064】
【数11】
【0065】この領域は、数式9および10の不等式を
等式で置き換えた二つの直線で挾まれた領域である。こ
のタイプの中間層ユニットの指標を幾何学的指標と呼ぶ
ことにする。この投影はシミュレーションの途中で中間
層ユニットの最も重要な部分がどこかを示すことができ
る。aの値を変えるとユニットが動作している領域を検
出する感度を変えることになる。例えば、ユニットが5
%以上一定値から変わらないようにするには、aを0.
05に設定すればよい。図5にこの幾何学的指標の例を
示す。
【0066】重要な点は幾何学的指標がユニットの現在
の状態とそれに接続する重みで決まることである。従っ
て効率よく決めることができる。この投影線は幾何学的
解析の過程としてスクリーンに表示される。
【0067】一般の場合の動的解析を次に詳細に示す。
【0068】中間層ユニットの出力ユニットに対する貢
献は次式で与えられる。
【0069】
【数12】
【0070】ここでユニットへの入力としてバイアス項
がある場合もある。
【0071】ネットワークの学習に用いられる教師デー
タの入力空間における領域は学習が始まる前に決定され
る。境界は矩形の領域からなる。K入力とする2K個の頂
点がある。ここでそのよう域が次式で与えられるとす
る。
【0072】
【数13】
【0073】中間層ユニットがいかに重要かを決めるた
めに、次の処理を行なう。
【0074】A.領域の境界の点はそれらの点に関して
中間層ユニットの最大値と最小値をサーチして行なう。
このとき伝達関数が単調であれば極めて高速に行なうこ
とができる。最大値を求める処理はつぎのようになる。
【0075】A1 x = (x1, x2,..., xk)を求める頂点
とする。ここで
【0076】
【数14】
【0077】
【数15】
【0078】とする。
【0079】j(x1,1)とj(x2,1)とを比較して、前者が後
者より小さいときはxの最初の座標はx1、1をとり、
それ以外はx2、1をとる。
【0080】A2 求めたい頂点の最初の座標を見つけ
た後次式とおく。
【0081】
【数16】
【0082】
【数17】
【0083】最初と同じようにj(x1,2)とj(x2,2)とを比
較して、xにa2あるいはb2を割り当てる。
【0084】A3 上記の処理をxが全て決まるまで繰
り返す。
【0085】A4 伝達関数が最小な領域の境界の点も
同様にして求めることができる。
【0086】B ステップAにおいて求まる入力空間に
おける伝達関数の最大値、最小値をxmax, xminとする。
伝達関数の領域に関連したこれらの値は中間層ユニット
の重要性の推定に用いられる。
【0087】B1 伝達関数の出力の範囲を[a, b]と
し、次式を計算する。
【0088】
【数18】
【0089】
【数19】
【0090】ここでの目的は、中間層ユニットが削除さ
れたときのネットワークの出力の最大の変化を計算する
ことにある。この変化を最小化するために出力ユニット
のバイアス項に適当な定数を加える。直感的には伝達関
数が考えている入力空間内で一定値cをとるとき、中間
層ユニットを削除して定数cを出力ユニットに加えれば
よい。
【0091】B2 数18、19の大小を比較する。も
し数18が大きいときは、中間層ユニットを削除すると
きは、バイアス項にbを加える。
【0092】ここで
【0093】
【数20】
【0094】とする。cを近似に対するユニットの貢献
度と呼ぶ。
【0095】B3 もし数19が大きければ、出力ユニ
ットのバイアス項にaを加えて中間層ユニットを削除す
る。この時の貢献度指標は次式のようになる。
【0096】
【数21】
【0097】B4 中間層ユニットの貢献度の指標は、
そのユニットを削除することによるネットワークの状態
変化に対応する。N個の中間層ユニットのネットワーク
の出力に対する貢献度は次式で表現される。
【0098】
【数22】
【0099】ここでτは出力ユニットのバイアス項であ
る。一般性を失うことなく、必要ならば番号を付替るこ
とにより、N番目のユニットを削除するユニットとす
る。もしこのユニットが上記の手順により削除されたと
すると、新しい貢献度は次式のようになる。
【0100】
【数23】
【0101】ここでkは、ステップB3あるいはB4の
どちらを実行したかによりaあるいはbとなる。ここで
次式が成り立つ。
【0102】
【数24】
【0103】但し、cはN番目の中間層ユニットの貢献
度である。さらに対応するネットワークfN(x), fN-1(x)
は次式で関係づけられる。
【0104】
【数25】
【0105】ここでλは出力ユニットの伝達関数の微分
値の最大値である。この式は中間層ユニットを削除した
ときの中間層ユニットの貢献度とネットワークの出力の
変化の上限の関係を陽に与える。
【0106】重要な点はN次元の入力空間で、2N個の頂
点があるにも関わらず、対象としている領域で2N個の
伝達関数の最大値と最小値の評価のみでよいことであ
る。このことはわずかの処理で必要な情報が生成できる
ことを意味している。従って、この情報をシミュレーシ
ョン途中で計算でき、いつ中間層ユニットを削除するか
を決める補助として表示することができる。
【0107】静的解析手段17の動作を、次に詳細に説明
する。
【0108】静的解析のステップ4は、例えば、ユニッ
トの削除の前後の二乗平均誤差などのネットワークに対
するより詳細な情報を提供する。即ち
【0109】
【数26】
【0110】をM個の教師データを提示して計算する。
ここで、yiはのぞましい出力で、fiはネットワークの出
力である。汎化能力は教師データー以外のテストデータ
に対して数式26を計算することにより求まる。
【0111】ネットワークの最大のノルム誤差は全ての
教師データに対する最大誤差の絶対値で次式で与えられ
る。
【0112】
【数27】
【0113】繰り返しとなるがこのような誤差の指標は
教師データに限定されるものではない。これらの値はネ
ットワークのマクロな性能を示すものである。言い換え
れば、ネットワークの外から見える特徴を観察すること
によりによりネットワークの動作に関する情報を提供す
るものである。この情報は静的解析により自動的にある
いはユーザーの判断に従い、中間層ユニットの削除に用
いられる。
【0114】動的及び静的な解析、及びさらに必要な情
報を得るために学習を中断して、中間層ユニットを削除
するあるいは構造を変えることは非常に重要である。本
発明の重要な点はさらに幾何学的な解析あるいはネット
ワークの解析無しに学習後に最適なネットワークの構造
が決まることにある。ただ一つの欠点は学習に多少時間
がかかることである。ネットワークの構造が最適化され
るので応用分野でのネットワークの使用効率が大幅に向
上する。
【0115】発明の他の点は学習が改善されることであ
る。これは、単体でも実行可能であり、構造の最適化と
組み合わせても行なうことができる。
【0116】従来、学習法の改善は、学習法の特性を調
べ、ヒューリステックな方法を折り込むことにより行な
われていた。本発明では、異なった手法を同一システム
内で用いることにより、より高度な学習法が用いられ
る。
【0117】システムの構成を図6に示す。システム
(プロセッサ15でもよい)は、ネットワークの重みの値
を決める学習プロセッサー29のライブラリーを含む。こ
の例は以前にもいくつか説明したが、逆伝播法あるいは
グローバル最適化法などである。学習の各々の時点で
は、どれか一つの方法がネットワークのパラメーターを
決める。システムはさらにネットワーク31のパラメータ
ーの更新にどのプロセッサを使うかを制御ルールに従い
決める学習マネージャー30を含む。制御ルールの数は洗
練化された度合いにより少ない場合と多い場合とがあ
る。ルール自体は学習の一般的な特徴を含んだ一般的な
ルールと特定の問題に関する性能に関した個別のルール
からなる。
【0118】ルールは、いろいろな方法で獲得可能であ
る。第一に、一つの学習法によるシミュレーションによ
りその方法の一般的な特徴を得ることができる。これは
次の例で詳細に示す。第二に、方法が、既知のあるいは
推定できる計算量あるいは記憶容量に関する制約を持っ
ている場合がある。これはこの方法が使えるネットワー
クの構造の関する制約となる。この種のルールは、ネッ
トワークの重みの数がある指定値より大きいとき方法を
使うのを禁止することになる。従ってマネージャ30の役
割は学習マネージャのルールで定義された最も適切なプ
ロセッサーを選び学習を改善することにある。
【0119】これらのルールはいつ現われ、いかにして
学習マネージャ30でシミュレーション及びマネージャ自
身を制御するためにつかわれるかを示す実施例について
以下述べる。
【0120】学習が収束するまで一つの学習法を適用す
る従来の方法により、各々の学習法の個々の特徴を集め
ることにより、本発明の手法を実施するための有用な情
報が得られる。図7のグラフがある特定の問題に対する
異なる学習法の平均の特性を示すとする。シミュレーシ
ョンの特徴を調べることにより、次の結論を導くことが
できる。
【0121】学習法Aは収束に失敗、学習法Bは最初の
収束はよいが、最終の収束は悪い。いいかえれば、Aは
シミュレーションの最初で良いが、最初の段階を過ぎる
とうまく働らかない。
【0122】学習法CはBよりもシミュレーショの最初
の段階で悪いが、最終段階ではよい。
【0123】この簡単な観察により、学習の制御に使え
る形にどのようにすれば変換できるかという問題が生じ
る。以下ではこの変換の問題を、単純な例で説明する。
【0124】与えられた学習法の特性に関する観察は制
御条件に変換される。制御条件の一般形は学習法を監視
するのに用いられるネットワークの特性の指標あるいは
統計量のある論理関数である。従って、制御条件の一般
形は次式で与えられる。
【0125】
【数28】
【0126】ここで、Sはネットワークに依存するある
種の指標である。例えば、ネットワークの平均二乗誤
差、ネットワーク内部のユニット数、ネットワークの学
習法の繰り返し回数などである。指標は現在値のみなら
ず、格納された過去の値の関数でもよい。
【0127】以下にいくつかの例を示す。
【0128】(1)学習法は収束していない。二乗平均
誤差が減少を停止したらその学習法は用いない。このと
きの条件は
【0129】
【数29】
【0130】ここで、aは時刻tで学習法がもたらす誤
差の変化E(t) - E(t - 1)の最小の許容値を示す定数で
ある。従って、aは0に近い値で正確な値は使用者が決
める。従って、この制御条件で用いられる学習法はこの
条件が成立しないと用いない。
【0131】さらに高度な方法としては、誤差指標の移
動平均を用いる。これにより学習法の小さな変動に対し
て応答しなくなり、大域的な傾向をとらえることができ
る。例えば、次の10サイクルの移動平均を用いる。
【0132】
【数30】
【0133】上式では誤差指標の平均の変化が0に近け
れば、他の学習法に切り替える。
【0134】(2)ネットワークが大きいときはこの学
習法は用いない。ネットワークが大きくなると記憶容量
の制限からあるいはネットワークの規模により計算時間
が大幅にかかることからある種の学習法ではこの条件は
必要になる。2次の学習法これら二つともあてはまる方
法である。もしWをネットワークの重みの数とすると2
次微分であるヘシアン行列はW2の大きさとなり、また計
算量もo(W2)のオーダーとなる。このときの制御条件は
ネットワーク中の重みの数あるいはユニットの数に対す
る制限となる。ネットワーク中のユニットあるいは重み
の数はネットワークの統計量あるいは属性と考えられる
から、これも制御条件となる。このタイプの制御条件は
学習中の動的な特性に依存しない性質であり、マネージ
ャーの第一の目的は動的制御を行なうことであるから、
それを学習マネージャーの枠の外で組み込むことができ
る。しかし枠内で組み込むことも可能である。
【0135】以下に学習法Aと学習法Bとを制御する学
習マネージャーの例を示す。学習法Aは例えば、逆伝播
法等の一次の最急降下法で学習法BとはBFGS法等の
2次の最急降下法を示す。学習法Aはステップサイズの
パラメーターを用いる。ここで、受け入れ可能ではある
が最適ではないという意味での適切なパラメーターの値
が設定されたとする。
【0136】観察により学習過程について次の特性が分
かったとする。
【0137】(1)学習法Aは最初の段階で処理時間が
少なく、この段解では好ましい。
【0138】(2)学習法Bは学習の最終の段階で良い
収束特性を持ち、計算時間が多少かかるのは正当化され
る。
【0139】上記(1)は”最初はAを用いる”という
ように容易に学習マネージャーのルールに変換される。
上記(2)は”AのあとはBを用いる”というルールに
変換できる。難しいのはどの時点で切り替えるかといる
ルールである。これは学習の動特性に依存する。本実施
例ではこのルールは与えられた学習法に関連した特性が
成立したことを検出する制御条件とする。これらは学
習マネージャーにより学習法をいつ切り変えるかを決め
るのに使う。ここで使う特性とはAが収束していないと
いうことである。これは移動平均の検出器で行なう。
【0140】図8に例を示す。例ではルールを命令の集
合として示している。最初に移動平均の制御条件が定義
されている。ついで制御条件は学習法Aに付与される。
学習法Aが実行されると、この制御条件はいつ学習を止
めるかを決めるモニターとしてはたらく。最後の2行は
最初に学習法Aを実行して、ついで学習法Bを実行する
ことを示す。ここでAからBへの意向は制御条件で決め
られる。全ての学習法に適用される制御条件もある。例
えば、平均二乗誤差が小さいとき止るという条件は両方
の学習法に適用される。従って、この条件が成立すると
きシミュレーションは終了する。このとき学習法Aで十
分であれば、学習法Bは適用されない。
【0141】
【発明の効果】以上説明した本発明の実施例の効果を説
明する。
【0142】中間層ユニットを削除しながらネットワー
クを最適化することにより、学習時間の短縮及び学習後
のネットワークの応答時間の高速化を図ることができ
る。また学習方法を学習途中で切り替えることにより、
学習の高速化を図ることができる。
【図面の簡単な説明】
【図1】 本発明の具体的実施例を説明した図である。
【図2】 フィードフォワードニューラルネットおよび
中間層ユニットの動作を説明した図である。
【図3】 会話的及び静的解析ステップを説明した図で
ある。
【図4】 入力が2次元の中間層ユニットを説明した図
である。
【図5】 動的解析で生成された代表的な幾何学的指標
を説明した図である。
【図6】 代替の学習法を説明した図である。
【図7】 学習法の収束過程を説明した図である。
【図8】 図6の学習法をさらに詳しく説明した図であ
る。
【符号の説明】
1はネットワークの学習のステップ、2は動的解析のス
テップ、3はユーザー割り込みのステップ、 4は静的
解析のステップ、5はユーザーの判断のステップある。

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 中間層ユニットを持ったフィードフォワ
    ードニューラルネットを学習する方法であって、ニュー
    ラルネットを学習するステップ、学習途中でネットワー
    クの性能を動的に解析してネットワークの内部構造の性
    能を示す第1の指標を生成するステップ、生成された指
    標を表示するステップ、表示された指標の解析結果によ
    りネットワークの構造を変えるステップとを含むことを
    特徴とするニューラルネットの学習方法。
  2. 【請求項2】 請求項1に記載の学習方法において、上
    記表示された指標の解析結果により、学習過程を中断し
    てネットワークの内部構造をさらに詳細に表現する第2
    の指標を生成するためのネットワークの静的な解析を行
    なうステップを含んでいることを特徴とするニューラル
    ネットの学習方法。
  3. 【請求項3】 請求項1または2に記載の学習方法であ
    って、上記動的解析において、詳細な解析ができるよう
    にネットワークのローカルな内部の特徴を解析すること
    を特徴とするニューラルネットの学習方法。
  4. 【請求項4】 請求項3に記載の学習方法であって、上
    記中間層ユニットの動的解析が、その中間層ユニットに
    関したネットワーク情報のみを解析することを特徴とす
    るニューラルネットの学習方法。
  5. 【請求項5】 請求項4に記載の学習方法であって、上
    記動的解析において中間層ユニットの伝達関数を解析す
    ることを特徴とするニューラルネットの学習方法。
  6. 【請求項6】 請求項5に記載の学習方法であって、上
    記動的解析における中間層ユニットの伝達関数の解析に
    おいて、連続で単調な伝達関数を解析することを特徴と
    するニューラルネットの学習方法。
  7. 【請求項7】 請求項6に記載の学習方法であって、上
    記中間層ユニットの伝達関数が漸近的に微分値が0とな
    るものを解析することを特徴とするニューラルネットの
    学習方法。
  8. 【請求項8】 請求項1から7のいずれかに記載の学習
    方法であって、上記第1の指標が幾何学的であることを
    特徴とするニューラルネットの学習方法。
  9. 【請求項9】 請求項1から8のいずれかに記載の学習
    方法であって、上記動的および静的解析が中間層ユニッ
    トを入力データに関連づける処理を含むことを特徴とす
    るニューラルネットの学習方法。
  10. 【請求項10】 請求項2から9のいずれかに記載の学
    習方法であって、上記ネットワークの性能に関した大域
    的な情報を静的解析で解析することを特徴とするニュー
    ラルネットの学習方法。
  11. 【請求項11】 中間層ユニットを持ったフィードフォ
    ワードニューラルネットを学習する装置であって、学習
    途中でネットワークの性能を動的に解析してネットワー
    クの内部構造の性能を示す第1の指標を生成する手段、
    生成された指標を表示する手段、表示された指標の解析
    結果によりネットワークの構造を変える手段を備えたこ
    とを特徴とするニューラルネットの学習装置。
  12. 【請求項12】 請求項11に記載の学習装置におい
    て、さらに、学習過程を中断する手段、ネットワークの
    内部構造をさらに詳細に表現する第2の指標を生成する
    ためのネットワークの静的な解析手段を備えていること
    を特徴とするニューラルネットの学習装置。
  13. 【請求項13】 フィードフォワードニューラルネット
    を学習する方法であって、異なった学習方法の特性を記
    憶するステップ、最初の学習方法を選択してそれにより
    学習するステップ、学習方法の特徴を動的に監視するス
    テップ、制御条件により監視された特徴を評価するステ
    ップ、制御条件によりその後の学習に対して異なった学
    習方法を選択するステップとを含むことを特徴とするニ
    ューラルネットの学習方法。
  14. 【請求項14】 請求項13に記載の学習方法であって、
    上記監視された特徴を評価するために、複数の制御条件
    を使用し、ある制御条件はある学習法に関わり、他の制
    御条件は全ての方法に関わることを特徴とするニューラ
    ルネットの学習方法。
  15. 【請求項15】 フィードフォワードニューラルネット
    を学習する装置において 、複数の学習プロセッサを備
    え、学習コントローラが、学習方法の特性を記憶する手
    段、最初の学習方法を選択してそれにより学習する手
    段、学習方法の特徴を動的に監視する手段、制御条件に
    より監視された特徴を評価する手段、制御条件によりそ
    の後の学習に対して異なった学習方法を選択する手段を
    備えたことを特徴とするニューラルネットの学習装置。
  16. 【請求項16】 中間層ユニットを持ったフィードフォ
    ワードニューラルネットを学習する方法であって、異な
    った学習方法の特性を記憶するステップ、最初の学習方
    法を選択してそれにより学習するステップ、学習方法の
    特徴を動的に監視するステップ、制御条件により監視さ
    れた特徴を評価するステップ、制御条件によりその後の
    学習に対して異なった学習方法を選択するステップより
    なるニューラルネットを学習するステップ、学習途中で
    ネットワークの性能を動的に解析してネットワークの内
    部構造の性能を示す指標を生成するステップ、生成され
    た指標を表示するステップ、表示された指標の解析結果
    によりネットワークの構造を変えるステップ、とを含む
    ことを特徴とするニューラルネットの学習方法。
JP5194410A 1992-08-11 1993-08-05 フィードフォワードニューラルネットの学習方法 Pending JPH07302249A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IE922575 1992-08-11
IE922575 1992-08-11

Publications (1)

Publication Number Publication Date
JPH07302249A true JPH07302249A (ja) 1995-11-14

Family

ID=11039732

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5194410A Pending JPH07302249A (ja) 1992-08-11 1993-08-05 フィードフォワードニューラルネットの学習方法

Country Status (3)

Country Link
EP (1) EP0583217B1 (ja)
JP (1) JPH07302249A (ja)
DE (1) DE69328596T2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001174366A (ja) * 1999-11-26 2001-06-29 General Electric Co <Ge> モデルベースの診断方法と装置
JP2018010626A (ja) * 2016-06-30 2018-01-18 キヤノン株式会社 情報処理装置、情報処理方法
JP2019040365A (ja) * 2017-08-24 2019-03-14 富士通株式会社 情報処理装置、方法、及びプログラム
WO2020213670A1 (ja) * 2019-04-19 2020-10-22 国立大学法人北海道大学 ニューラル計算装置、および、ニューラル計算方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MY138544A (en) 2003-06-26 2009-06-30 Neuramatix Sdn Bhd Neural networks with learning and expression capability
JP6831347B2 (ja) * 2018-04-05 2021-02-17 日本電信電話株式会社 学習装置、学習方法および学習プログラム
CN110147873B (zh) * 2018-05-18 2020-02-18 中科寒武纪科技股份有限公司 卷积神经网络的处理器及训练方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5093899A (en) * 1988-09-17 1992-03-03 Sony Corporation Neural network with normalized learning constant for high-speed stable learning
WO1991002315A1 (en) * 1989-08-01 1991-02-21 E.I. Du Pont De Nemours And Company Methods relating to the configuration of a parallel distributed processing network

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001174366A (ja) * 1999-11-26 2001-06-29 General Electric Co <Ge> モデルベースの診断方法と装置
JP2018010626A (ja) * 2016-06-30 2018-01-18 キヤノン株式会社 情報処理装置、情報処理方法
JP2019040365A (ja) * 2017-08-24 2019-03-14 富士通株式会社 情報処理装置、方法、及びプログラム
WO2020213670A1 (ja) * 2019-04-19 2020-10-22 国立大学法人北海道大学 ニューラル計算装置、および、ニューラル計算方法

Also Published As

Publication number Publication date
EP0583217B1 (en) 2000-05-10
DE69328596T2 (de) 2001-01-04
EP0583217A2 (en) 1994-02-16
EP0583217A3 (en) 1995-03-15
DE69328596D1 (de) 2000-06-15

Similar Documents

Publication Publication Date Title
Bhat et al. Determining model structure for neural models by network stripping
Papadrakakis et al. Reliability-based structural optimization using neural networks and Monte Carlo simulation
Pearce et al. Expressive priors in Bayesian neural networks: Kernel combinations and periodic functions
Daubigney et al. A comprehensive reinforcement learning framework for dialogue management optimization
Suykens et al. NL/sub q/theory: checking and imposing stability of recurrent neural networks for nonlinear modeling
JP6896176B2 (ja) システム強化学習方法及び装置、電子機器、コンピュータ記憶媒体並びにコンピュータプログラム
Xie et al. Data-driven model reduction-based nonlinear MPC for large-scale distributed parameter systems
Obradovic On-line training of recurrent neural networks with continuous topology adaptation
JPH0390957A (ja) 学習型意思決定支援システム
WO2002061679A2 (en) Neural network training
Wei et al. A provably-efficient model-free algorithm for constrained markov decision processes
JPH06131188A (ja) ファジィルール獲得方法およびファジィ推論システム
Zheng12 et al. Self-adaptive double bootstrapped DDPG
Barto Reinforcement learning and dynamic programming
JPH07302249A (ja) フィードフォワードニューラルネットの学習方法
Cohen et al. Efficient training of recurrent neural network with time delays
Tutumlu et al. A MIP model and a hybrid genetic algorithm for flexible job-shop scheduling problem with job-splitting
JP6947108B2 (ja) データ予測装置、方法、及びプログラム
Wang et al. Solving non-permutation flow-shop scheduling problem via a novel deep reinforcement learning approach
Wang et al. Reinforcement learning for continuous-time optimal execution: actor-critic algorithm and error analysis
Kupwiwat et al. Deep deterministic policy gradient and graph convolutional network for bracing direction optimization of grid shells
Hwang et al. Option compatible reward inverse reinforcement learning
Vijaykumar et al. Introducing probabilities in statecharts to specify reactive systems for performance analysis
Li et al. Online optimization and learning in uncertain dynamical environments with performance guarantees
JP2021012600A (ja) 診断方法、学習方法、学習装置およびプログラム