JPH07104848B2

JPH07104848B2 - ニューラルネットの学習効率化方法

Info

Publication number: JPH07104848B2
Application number: JP63153827A
Authority: JP
Inventors: 雅己中村; 清宏鹿野
Original assignee: 株式会社エイ・ティ・アール自動翻訳電話研究所
Priority date: 1988-06-22
Filing date: 1988-06-22
Publication date: 1995-11-13
Anticipated expiration: 2010-11-13
Also published as: JPH01320565A

Description

【発明の詳細な説明】［産業上の利用分野］この発明はニューラルネットの学習効率化方法に関し、
パターン認識、たとえば文字認識や音声認識、法則の発
見たとえば文章中に単語列予測等の問題をニューラルネ
ットにおいて、バックプロパゲーション法を用いて学習
を行なう際の学習効率化方法に関する。

［従来の技術］この発明が改善しようとするバックプロパゲーションの
学習アルゴリズムについて、以下に説明する。

第５図はバックプロパゲーションアルゴリズムが対象と
する多層ネットワークの構造を示す図であり、第６図は
第５図に示した各ユニットの入出力関係を示す図であ
る。

バックプロパゲーション学習アルゴリズムが対象とする
ネットワークは、第５図に示すように、入力層，出力層
およびHidden−Layerと呼ばれる中間層で形成される多
層ネットワークである。

ネットワークのユニット間は入力層から出力層に向かっ
て結合されており、第６図に示すように、それぞれのユ
ニットｊでは他のユニットｉからの入力、すなわちユニ
ットｉの出力とユニットi,j間の結合重み係数w_jiの積の
総和をとり、さらに入出力関数ｆ（ｘ）を通して、出力信号
o_j＝ｆ（net_j）を出す。すなわち、或る入力信号のパタ
ーンをネットワークの入力層に入れたときに、上述のよ
うな計算をすべてユニットで行ない（但し、入力層では
入出力関数を通さないことが多い）、最終的に出力層か
ら出た信号パターンが望ましいパターンになるように、
ユニット間の結合重み係数を決定する。

ここでは、評価関数として教師信号とニューラルネット
の出力信号の誤差の誤差の二乗和E_Pを用いている。

ここではt_Pjは入力パターンＰに対する出力ユニットｊ
の教師信号であり、o_Pjは出力ユニットｊの出力信号で
ある。この誤差関数E_Pをすべての入力パターンに対して
最小にする必要がある。よって問題はを最小にするような結合重み係数を決定するという最小
化問題となる。

この問題を解くために、バックプロパゲーション学習ア
ルゴリズムでは、再急降下法を用いている。すなわち、
入力パターンｐごとの結合重み係数w_jiの更新量Δ_Pw_ji
を次の値（２）式のようにエラー交換の勾配に比例した
形で与える。

Δ_Pw_jiα−∂E_P/∂w_ji …（２）まず、∂E_P/∂w_jiを求める。

∂E_P/∂w_ji＝∂E_P/∂net_Pj・net_Pj/∂W_ji …（３）であるから右辺の右側は ∂et_Pj/∂w_ji＝∂／∂w_ji・Σw_jk・o_Pk＝o_Pi …（４）である。次にユニットｊに対して、 δ_Pj＝−∂E_P/∂net_Pj …（５）と置くことにより、 −∂E_P/∂w_ji＝δ_Pj・o_Pi …（６）によって、第（２）式の学習規則は Δpw_ji＝η・δ_Pj・o_Pi …（７）となる。ここで、ηはステップサイズを決定する定数で
ある。

次に、δ_Pjを求め、 δ_Pj＝−∂E_P/∂net_Pj＝−∂E_P/∂o_Pj/net_Pj …（８）ここで、o_Pj＝ｆ（net_Pj）であるから右辺の右側は ∂o_Pj/∂net_Pj＝ｆ′（net_Pj） …（９）である。右辺の左側はユニットｊが出力ユニットかそう
でないかによって式は異なる。ユニットｊが出力ユニッ
トの場合、 E_P＝1/2・Σ（t_Pj−o_Pj）^２ …（１）であるから、 ∂E_P/∂o_Pj＝−（t_Pj−o_Pj） …（10）となり、直接δ_Pjが次の第（11）式のように求まる。

δ_Pj＝（t_Pj−o_Pj）・ｆ′（net_Pj）（ユニットj;出力
ユニット） …（11）一方、ユニットｊが出力ユニットでない場合、E_Pがo_Pj
の直接の関数とならない。したがって、次式のように変
形してδ_Pjの再帰関数として求めるという工夫を行な
う。

このように、Δ_Pw_jiを計算するのに必要な誤差情報σ_Pj
を出力層から入力層へ逆に伝搬しているのでバックプロ
パゲーションという。

バックプロパゲーション学習アルゴリズムでは、ユニッ
トの入出力関数ｆ（ｘ）として、上述の第（11）式およ
び第（13）式から明らかなように、微分可能な関数が必
要とされる。D.E.Rumelhart et al:Parallel Distribut
ed Processing,M.I.T.Press（1986）では、次のような
非線形単調増加のシグモイド関数を用いるのがよいとし
ている。

ｆ（ｘ）＝1/1＋e^-X …（14）すなわち、ユニットｊの出力は次のようになる。

ここで、入力の総和net_Pjはとしてバイアス成分θ_ｊを加える。実際のネットワーク
では、入力ユニット以外のすべてのユニットと結合す
る、出力が常に１のバイアスユニットを考え、θ_ｊをそ
の結合重み係数とみなして学習する。

ｆ（net_Pj）の導関数を求めると、ｆ′（net_Pj）＝∂o_Pj/∂net_Pj＝o_Pj・（１−o_Pj） …
（16）よって、結合重み係数w_jiの更新量Δ_Pw_jiは次の式で得
られる。

Δ_Pw_ji＝η・δ_Pj・o_Pi …（17）但し、ユニットｊが出力ユニットの場合は、 δ_Pj＝o_Pj・（１−o_Pj）・（t_Pj−o_Pj） …（18）であり、ユニットｊが中間ユニットの場合は、である。

結合重み係数w_jiの更新は、入力パターンが複数あるい
が一般的であるので、１つの入力パターン提示ごとに実
行するか、次式のように全入力パターン提示後にとして実行するか、２つの方法がある。

［発明が解決しようとする課題］上述のごとく、バックプロパゲーション学習アルゴリズ
ムの基本原理は最急降下法であるため、最短距離で最小
値に到達するためには、更新幅（Δw_ij）を無限小にす
る必要があるが、実際問題として、計算繰返し回数が増
加するため、収束速度は遅くなる。そこで、なるべく大
きな更新幅（Δw_ji）を得るために、上述の第（７）式
のηの値を大きくとりたいが、更新方向が振動しやすく
なる。前述のRumelhartの文献では、前回の更新幅をモ
ーメンタム量として次式のように加算することにより振
動を抑制することを提案している。

Δw_ji（ｎ＋１）＝η・σ_Pj・_Pi＋α・Δw_ji（ｎ） …
（21）ここで、αはモーメンタム量を調整するパラメータであ
る。このη，αは定数であるから、これらの最適な値
（収束が速くなる値）はエラー空間の形状、すなわちタ
スクの種類やサンブルデータの量によって異なるはずで
あり、さらに学習進行の程度によっても変化すると考え
られる。このように、従来はタクスに合ったη，αの値
を経験的に決めていたため、学習に時間がかかったり、
不適合な局所的最小値に陥りやすいという問題点があっ
た。

それゆえに、この発明の主たる目的は、学習繰返し計算
ごともしくは何回かの学習繰返し計算に１回の割合で、
エラーが最小となるようにη，αをダイナミックに変更
する方法を提供することである。

［課題を解決するための手段］この発明はユニットｊとユニットｉが結合重み係数W_ji
を有して階層的に接続され、バックプロパゲーション法
を用いた多層ニューラルネットの学習において、学習の
繰返し計算ごとに、更新ステップ幅（η）およびモーメ
ンタム（α）について、に従って出力誤差（Ep）を計算し、その中から一番小さ
い出力誤差（Ep）をとったときの更新ステップ幅（η）
をモーメンタム（α）のパラメータの値を選択すること
により、最小の繰返し計算回数で出力誤差（Ep）を最小
にするようにしたものである。

［作用］この発明に係るニューラルネットの学習効率化方法は、
学習計算繰返しごとに、次式によりエラーE_Pが最小とな
るようにη，αをダイナミックに変更する。

η，αの値を有限個用意して、その中からエラーE_Pが最
も小さくなるη，αを選択する。

［発明の実施例］第１図はこの発明の一実施例である単語列予測のための
多層ネットワークの構造を示す図である。

この発明を文章中の単語を予測するニューラルネットワ
ークモデルに適用した実施例を以下に示す。このモデル
は現在の単語の品詞から次の単語の品詞を予測しようと
するものである。実験条件を次に示す。

（１）タスクは単語列予測モデルである。

（２）ネットワーク入力は現在の単語の品詞番号（品
詞番号に相当するユニットのみ“1"であり、他はすべて
“0"である）。

（３）ネットワーク出力教師信号は次の単語の品詞番
号である。

（４）ネットワーク構造は第１図に示すように、バッ
クプロパゲーションアルゴリズムが対象とする多層ネッ
トワークであり、入力層は89個のユニット（品詞の数）
であり、中間層は16個のユニットが２層であり、出力層
は89個のユニット（品詞の数）である。

（５）サンプル数は１センテンス23である。

（６）パラメータは次のとおりである。

ステップ幅ηは従来方法では0.1または0.4の一定値であ
るのに対して、この発明では、（1/2,1,2）×η（ｋ−
１）、すなわち前回の値の1/2,1,2倍の３種類が選択さ
れる。

モーメンタムαは従来方法では０または0.9の一定値で
あるのに対して、この発明では0,0.9の２種類が選択さ
れる。

第２図は学習効果率法の効果を確認実験して結果を表に
表わした図であり、第３図および第４図は同じくグラフ
で示したものである。

第２図および第３図から明らかなように、この発明では
３種類のステップ幅ηおよび２種類のモーメンタムαに
ついて出力誤差Epを計算し、その中から一番小さい出力
誤差Epをとったときのステップ幅ηとモーメンタムαを
選択した場合には、収束するまでの繰返し計算回数が35
回（CASE1）であるのに対して、従来のように、ステッ
プ幅ηを0.1に固定しかつモーメンタムαを0.9に固定し
た場合、収束するまでの繰返し計算回数が153回（CASE
2）になり、この発明による方法の方が従来に比べて4.3
倍以上収束が速くなっている。

また、パラメータが一定の場合の、たとえばステップ幅
η＝0.4のときはエラーの振動が生じやすく（CASE3,CAS
E4）、ステップ幅η＝0.1であれば収束が遅くなる（CAS
E2,CASE5）。さらに、モーメンタムαについては、α＝
0.9の場合ステップ幅ηの値も大きければ不安定な状態
が持続し（CASE3）、α＝０の場合、学習が進んでも収
束速度が加速しない（CASE5）。

次に、この発明によるステップ幅η，モーメンタムαを
出力誤差Epが最も小さくなるように変更する方法によ
り、タスクに対してエラーの収束判定で学習サンプル数
を増加させる実験を行なった。ここでは、モーメンタム
αは（0,0.2,0.9）の３種類を選択することにした。そ
の結果を第４図に示す。モーメンタムαについては学習
初期およびサンプル数が増加した場合、α＝０あるいは
0.2をとり、それ以外はほとんどα＝0.9を選択してい
る。これは、学習の初期はリンクウェイトの修正方向が
不安定であるため、モーメンタムαによる加速はオーバ
シュートを起こしやすいからでいあり、サンプル数が増
加した場合も、エラー空間が変形するため、過去のリン
クウェイトの修正方向を引きずらない方が良いからであ
る。

一方、ステップ幅ηについてはサンプル数が増加するに
従って減少している。すなわち、この発明では、サンプ
ルの数の大きさに対して、サンプル数ｐを増加させれ
ば、第（20）式から明らかなようにステップ幅ηを減少
させる必要がある。この発明による実験結果から、サン
プル数の増加に伴ってパラメータηが結果的に減少して
いる（強制的に減少させていない。あくまでも出力誤差
Epが小さくなるようにパラメータηを変化させれば結果
的にパラメータηが減少していく）ので、適正なステッ
プ幅ηの値をとることができる。

［発明の効果］以上のように、この発明によれば、タスクの種類や学習
サンプルの量に対して最適に近いパラメータを値を自動
選択し、学習の進行状況に応じてパラメータを自動調整
しており、結果として学習の効率化を図ることができ
た。今回は１回の繰返し計算ごとにすべてのパラメータ
の組合わせに対して計算を行なったため、ステップ幅η
を３種類，モーメンタムαを２種類の場合、１回の繰返
し計算に６倍の時間を必要とした。しかし、実験結果か
ら明らかなように、或る程度学習が進めば毎回パラメー
タを変更する必要はないので、変更のインターバルを大
きくとることによりこの問題は解消される。

また、ここでは有限個のステップ幅η，モーメンタムα
の値から最小値を選んでいるが、二次元探索法などによ
り、ステップ幅η，モーメンタムαの値を決定してもよ
いのはもちろんのことである。

【図面の簡単な説明】

第１図はこの発明の実施例である単語列予測のための多
層ネットワークの構造を示す図である。第２図はこの発
明による効果の確認実験結果を表に表わした図である。
第３図および第４図はこの発明による効果の確認実験結
果をグラフに示した図である。第５図はバックプロパゲ
ーションアルゴリズムが対象とする多層ネットワークの
構造を示す図である。第６図は第５図に示した各ユニッ
トの入出力関係を示す図である。

Claims

【特許請求の範囲】

【請求項１】ユニットｊとユニットｉが結合重み係数W
_jiを有して階層的に接続され、バックプロパゲーション
法を用いた多層ニューラルネットの学習において、前記学習の繰返し計算ごとに、更新ステップ幅（η）お
よびモーメンタム（α）について、に従って出力誤差（Ep）を計算し、その中から一番小さ
い出力誤差（Ep）をとったときの更新ステップ幅（η）
とモーメンタム（α）のパラメータの値を選択すること
により、最小の繰返し計算回数で出力誤差（Ep）を最小
にすることを特徴とする、ニューラルネットの学習効率
化方法。