JPH04253259A

JPH04253259A - ニューラルネットワークの学習方法

Info

Publication number: JPH04253259A
Application number: JP3009072A
Authority: JP
Inventors: Satoshi Maruyama; 智丸山
Original assignee: Kawasaki Steel Corp
Current assignee: JFE Steel Corp
Priority date: 1991-01-29
Filing date: 1991-01-29
Publication date: 1992-09-09

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、パターン識別、システ
ム同定などで用いられるニューラルネットワークの学習
方法に関し、さらに詳しくは学習時間の短縮を図る学習
方法に関する。

【０００２】

【従来の技術】計算機の発達に伴い、従来は難しいとさ
れていた非線形システムの同定が可能になってきている
。そこでパラメータによって適当な非線形関数を構成す
ることが必要になる。代表的な構成関数として、隠れ層
および非線形処理素子を持ったフィールドフォワード型
ニューラルネットワークがある。この関数はいくつかの
典型的な値に対して模範となる答えを持っているとする
。そしてそのような関数を構成するためには、ｎ（・）
を適当なノルムとして、

【０００３】

【数１】

【０００４】を最小とするようなパラメータの組ｘ＝（
ｘ１　，．．．，ｘＭ　）を求めることになる。ここで
はｔｐ　は教師パターンというべき所望の値であり、ｏ
ｐ　は学習用入力パターンからパラメータ化されたモデ
ルによって得られる出力パターンである。またＩは学習
用入力パターンと教師パターンの組みを表わす集合Ｔの
部分集合である。最終的には集合Ｉは集合Ｔを表すこと
になる。

【０００５】

【外１】

【０００６】って修正ベクトルを決めているが、第６図
に示す通り集合Ｉは修正回数τにかかわらず、Ｉ（τ）
＝Ｔと定める方法である。またパターンに着目した方式
として特開平１−２３２４６４がある。ここではパター
ン（識別対象）をあらかじめいくつかのグループに分け
、そのグループ内での個々のパターンのネットワークと
分けられた対象同士のネットワークを構成し、識別に両
者の情報を使う方法が提案されている。

【０００７】

【発明が解決しようとする課題】ところが修正回数τに
かかわらず、Ｉ（τ）＝Ｔと定める方法は、学習用入力
パターンが互いにパターンとして似ているものを含んで
いると、収束に要する計算回数が多くなってしまう。特
開平１−２３２４６４の方法は、学習時間の短縮は行え
るものの、規模の異なる複数のネットワークを構成しな
ければならないため、複雑さが増し、管理や判定に支障
を来たすおそれがある。本発明では以上述べた収束計算
の増加という問題点を除く方法を提供するものである。

【０００８】

【課題を解決するための手段】本発明者は学習用入力パ
ターンの距離（類似度）とその収束特性とが関連してい
ることを発見した。そしてそのパターン間の距離を何ら
かの手段により計算して、もっとも距離の近いパターン
同士を先に計算することによって学習の効果が上がるこ
とがわかった。従って、問題を解決するには、学習用パ
ターン同士の距離を計算する手順と、その距離に基づい
て更新パラメータを計算する範囲となる集合を求める手
順が必要不可欠である。

【０００９】本発明は、入力層、隠れ層及び出力層の結
合重みを示す初期パラメータ及び学習停止誤差を設定し
ておき、教師パターンと入力パターンから求められる出
力パターンに従って該パラメータを変化させ、該出力パ
ターンと該教師パターンの誤差の評価関数が該学習停止
誤差以下となるように学習を行わせるニューラルネット
ワークの学習方法に適用されるものであり、次の方法を
採った。

【００１０】すなわち、学習を開始する前の全入力パタ
ーンから以下（１）〜（４）条件を満足する各部分集合
と該各部分集合へ対応する学習停止誤差を設定しておき
、学習過程においては初期パラメータをランダムに設定
して最初の部分集合から該最初の部分集合の学習停止誤
差以下となるまで学習を行い、次いで、該学習停止時の
パラメータを次の部分集合の初期パラメータとして該次
の部分集合の学習を行い、以下同様に学習順序に従って
全部分集合について学習を行うことを特徴とするニュー
ラルネットワークの学習方法である。

【００１１】ただし、（１）各部分集合の要素は個々の入力パターンである。（２）該部分集合の学習順序は設定されている。（３）学習順序が最後の部分グループ集合は該全入力パ
ターンを要素とする集合である。（４）学習順序が最後の部分グループ集合は該全入力パ
ターンを要素とする集合である。

【００１２】また、部分集合は階層化クラスター分析に
よって求めてもよい。さらに全入力パターンに対応する
学習停止誤差と各部分グループに対応する学習停止誤差
との比をそれぞれ全入力パターンの数と各部分グループ
に含まれるパターンの数の比に等しくすることができる
。

【００１３】

【作用】以下に本発明の作用を説明する。図１は本発明
の概念を表すフローである。以下のこのフローにしたが
って説明する。誤差の評価関数が学習用入力パターンに
対して各学習用入力パターンごとの同一のノルムの線形
和になっている場合を考える。ここでノルムとしてはＬ
２　ノルム、すなわち二乗ノルムを考える。まず誤差の
評価関数が学習用入力パターンと教師パターンの二乗和
の１／２で表されているとする。これを式にすると次の
ようになる。

【００１４】

【数２】

【００１５】ここでｘはパラメータ、ｕｐ　はｐ番目の
教師パターン、ｏｐ　はｐ番目の学習用入力パターンの
組ｓｐ　を用いたニューラルネットワーク出力値である
。具体的には、学習用入力パターンｓｐに対する出力ユ
ニットｋの出力信号をｏｐｋ（ｘ）、そのときの中間ユ
ニットの出力信号をｈｐｋ（ｘ）とすると

【００１６】

【数３】

【００１７】

【数４】

【００１８】

【数５】

【００１９】

【数６】

【００２０】となる。学習には誤差の評価関数の勾配ベ
クトルを用いる。結果のみを記すと、教師ベクトルを表
すパターンのｔ番目の部分集合Ｉｔ　について

【００２
１】

【数７】

【００２２】

【数８】

【００２３】が成り立つ。次に階層的なクラスタリング
構成を求める。このために各パターンごとの距離を求め
る。距離の尺度として、通常のユークリッド距離、標準
化ユークリッド距離がある。これらの距離を求めた後、
各パターンを横軸に、クラスター間の距離を縦軸にして
、各クラスター毎の関係を表示した図（デンドログラム
）を描く。このためには各クラスター間の距離を定義し
なければならない。一つの方法として、二つのクラスタ
ーのそれぞれから取出した任意の個体の組合わせの中で
、距離が最小のものをもってこの二つのクラスター間の
距離と定義する方法（最短距離法）がある。

【００２４】デンドログラムによってグループを構成す
る方法は以下の通りである。まず最も距離の近いパター
ン二種類をひとつの集合Ｉ１　とする。つぎにデンドロ
グラムをＩ１　から上にたどり、隣接するクラスターを
含めて新しい集合Ｉ２　を作る。この操作を集合がすべ
てのパターンを含むまで続ける。このようにして集合の
列Ｉ１　，Ｉ２　，…，ＩＴ　を作る。注意すべきこと
は、任意のｉ，ｊ（ただしｉ＜ｊ）に対してＩｉ　⊂Ｉ
ｊ　が成り立つこと、およびＩＴ　＝Ｉとなることであ
る。

【００２５】またＩＴ　に応じて目標となる誤差も変更
すべきである。Ｉｔ　に応じて変更された目標誤差をε
ｔ　とすると、集合Ｉｔ　の場合と同じようにεｉ　＜
εｊ　およびεＴ　＝ε（学習停止誤差）が成り立つよ
うにするとよい。以上の準備の上で、学習を開始する。概要は集合Ｉｔ　と誤差εｔ　に対する学習（これを部
分学習と呼ぶ）を行わせ、収束と判断した場合に集合Ｉ
ｔ＋１　と誤差εｔ＋１　に対する部分学習を行わせる
操作を、集合Ｉｔ　がＩに一致するまで繰返すことであ
る。

【００２６】具体的な学習はモーメント付きバックプロ
パゲーションといわれる方法であり、手順は以下のとお
りである。なお、以下の記述ではパラメータのことをベ
クトルと呼ぶこともある。まず集合Ｉｔ　に基づく勾配
ベクトル∇ＥＩｔ（ｘ（τ））を求める。ここでτは更
新の回数を表す。次に修正ベクトルΔｘ（τ）を次の式
で求める。

【００２７】　　　　Δｘ（τ）＝η（−（１−α）∇ＥＩｔ（ｘ（
τ））＋αΔｘ（τ−１））ここでηは学習効率と呼ば
れる定数であり、この値が大きい程収束に必要な回数も
短くなるが、同時に不安定性も増す。またαはモーメン
トと呼ばれる定数であり、この値を大きくすると不安定
性が少なくなる。この修正ベクトルによって新しいパラ
メータを以下の式で求める。

【００２８】ｘ（τ＋１）＝ｘ（τ）＋Δｘ（τ）この
ようにして順次τを増し、∇ＥＩｔ（ｘ（τ））＜εｔ
　が成立したときに部分学習を終了したとみなす。この
ときｔ＝Ｔならば学習を終了し、そうでないならばｔ＝
ｔ＋１として新たな部分学習を開始する。注意すべきこ
とは、新しい部分学習の最初には前面学習済みのパラメ
ータをそのまま使うことである。この方法により、パラ
メータの更新を最小限度にとどめることができる。

【００２９】

【実施例】以下に本発明の実施例を説明する。この例で
は縦１２、横１４の計１６８の画素からなるパターンを
認識する問題をニューラルネットワークによって解くこ
ととする。ここでは入力ユニットが１６８、隠れユニッ
トが２０、出力ユニットが１０のニューラルネットを考
える。ただしこの数にはパターンにかかわらず絶えず１
を出力するユニットであるｓｐＩおよびｈｐＪは含んで
いない。

【００３０】パターンｓｐｉと教師信号ｕｐ　の対を図
３に示す。またパターンｓｐｉとニューラルネットワー
クの入力の対応を図４に示す。図３に示した教師信号ｕ
ｐ　について互いの標準化ユークリッド距離を計算した
。教師信号ｕｐ　の第ｋ成分をｕｐｋと書くと、教師信
号ｕｐ　と教師信号ｕｑ　の標準化ユークリッド距離ｄ
ｐｑは次の式で表される。

【００３１】

【数９】

【００３２】ただし、

【００３３】

【数１０】

【００３４】

【数１１】

【００３５】である。ｐはパターンの総数である。また
ｋ（０≦ｋ≦１６８）は入力ユニットを識別する添字で
ある。次にこの距離に基づいて階層的クラスタリングを
実施した。階層化の方法としては最近接法を用いた。こ
の方法によって階層化を図示したデンドログラムを図５
に示す。この図から、最も距離の近い順に集合を構成す
ると次のようになる。

【００３６】Ｉ１　＝｛６，８｝Ｉ２　＝｛１，３，６，７，８｝Ｉ３　＝｛０，１，３，５，６，７，８，９｝Ｉ４　＝
｛０，１，３，４，５，６，７，８，９｝Ｉ５　＝｛０
，１，２，３，４，５，６，７，８，９｝｝このように
して集合を構成したのちに、各集合に対する目標誤差（
部分誤差）を設定する。本実施例では全体の誤差をεと
したとき部分誤差εｔ　を以下の式で求めた。

【００３７】εｔ　＝Ｎ（Ｉｔ　）ε／Ｎ（Ｉ）ここで
Ｎ（・）は集合の数を求める関数である。このようにし
て本方法を適用し、従来方法と比較した。従来方法では
、図６のように入力パターンを変化させずに最初からＩ
Ｔ　＝Ｉのときの勾配ベクトルを利用した式で学習を行
った。

【００３８】本方法と従来方法を１０組の異なる初期パ
ラメータに適用し、収束に至るまでの電学習回数を調べ
た。ただし回数が５０００階を越えた場合は学習を打ち
切った。この結果を表１に示した。この表から本方法で
は１０組が全て収束しているのに対し、従来方法では殆
どの組が５０００回の学習でも収束しないことがわかる
。この結果、従来方法より本方法が優れていることは明
らかである。

【００３９】

【表１】

【００４０】

【発明の効果】本発明によれば、ネットワークの構造を
変更することなく学習回数を短縮することができるので
、複雑なパターン認識や最適化問題などの解を短時間で
得ることができ、その効果は大きい。

【図面の簡単な説明】

【図１】本発明の方法の概要を示すフローである。

【図２】本発明に用いた学習用入力パターンと教師信号
の一例の説明図である。

【図３】本発明に用いた学習用入力パターンと教師信号
の一例の説明図である。

【図４】学習用教師パターンとニューラルネットワーク
の入力の対応の説明図である。

【図５】階層的クラスタリングにより求めた教師データ
のデンドログラムである。

【図６】従来の方法を表すフローである。

【符号の説明】

ｘ　　　　　　パラメータ ε　　　　　　学習停止誤差ｓｐｉ　　　　学習用入力パターンｕ０　〜９　教師データ

Claims

【特許請求の範囲】

【請求項１】　　入力層、隠れ層及び出力層の結合重み
を示す初期パラメータ及び学習停止誤差を設定しておき
、教師パターンと学習用入力パターンから求められる出
力パターンに従って該パラメータを変化させ、該出力パ
ターンと該教師パターンの誤差の評価関数が該学習停止
誤差以下となるように学習を行わせるニューラルネット
ワークの学習方法において、学習を開始する前に、全入
力パターンから以下の（１）から（４）の条件を満足す
る各部分集合と、該各部分集合に対応する学習停止誤差
を設定しておき、学習過程においては、初期パラメータ
をランダムに設定して最初の部分集合から該最初の部分
集合の学習停止誤差以下となるまで学習を行い、次いで
該学習停止時のパラメータを次の部分集合の初期パラメ
ータとして該次の部分集合の学習を行い、以下同様に学
習順序に従って全部分集合について学習を行うことを特
徴とするニューラルネットワークの学習方法。ただし、
（１）各部分集合の要素は個々の入力パターンである。（２）該部分集合の学習順序は設定されている。（３）学習順序が先の部分集合は学習順序が後の部分集
合の真部分集合である。（４）学習順序が最後の部分集合は該全入力パターンを
要素とする集合である。
【請求項２】　　該部分集合を階層化クラスター分析に
よって求める請求項１記載のニューラルネットワークの
学習方法。
【請求項３】　　該全入力パターンに対応する学習停止
誤差と該各部分集合に対応する学習停止誤差との比がそ
れぞれ該全入力パターンの数と該各部分集合に含まれる
パターンの数の比に等しい請求項１記載のニューラルネ
ットワークの学習方法。