JPH07104848B2 - ニューラルネットの学習効率化方法 - Google Patents

ニューラルネットの学習効率化方法

Info

Publication number
JPH07104848B2
JPH07104848B2 JP63153827A JP15382788A JPH07104848B2 JP H07104848 B2 JPH07104848 B2 JP H07104848B2 JP 63153827 A JP63153827 A JP 63153827A JP 15382788 A JP15382788 A JP 15382788A JP H07104848 B2 JPH07104848 B2 JP H07104848B2
Authority
JP
Japan
Prior art keywords
unit
output
learning
momentum
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP63153827A
Other languages
English (en)
Other versions
JPH01320565A (ja
Inventor
雅己 中村
清宏 鹿野
Original Assignee
株式会社エイ・ティ・アール自動翻訳電話研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール自動翻訳電話研究所 filed Critical 株式会社エイ・ティ・アール自動翻訳電話研究所
Priority to JP63153827A priority Critical patent/JPH07104848B2/ja
Publication of JPH01320565A publication Critical patent/JPH01320565A/ja
Publication of JPH07104848B2 publication Critical patent/JPH07104848B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】 [産業上の利用分野] この発明はニューラルネットの学習効率化方法に関し、
パターン認識、たとえば文字認識や音声認識、法則の発
見たとえば文章中に単語列予測等の問題をニューラルネ
ットにおいて、バックプロパゲーション法を用いて学習
を行なう際の学習効率化方法に関する。
[従来の技術] この発明が改善しようとするバックプロパゲーションの
学習アルゴリズムについて、以下に説明する。
第5図はバックプロパゲーションアルゴリズムが対象と
する多層ネットワークの構造を示す図であり、第6図は
第5図に示した各ユニットの入出力関係を示す図であ
る。
バックプロパゲーション学習アルゴリズムが対象とする
ネットワークは、第5図に示すように、入力層,出力層
およびHidden−Layerと呼ばれる中間層で形成される多
層ネットワークである。
ネットワークのユニット間は入力層から出力層に向かっ
て結合されており、第6図に示すように、それぞれのユ
ニットjでは他のユニットiからの入力、すなわちユニ
ットiの出力とユニットi,j間の結合重み係数wjiの積の
総和 をとり、さらに入出力関数f(x)を通して、出力信号
oj=f(netj)を出す。すなわち、或る入力信号のパタ
ーンをネットワークの入力層に入れたときに、上述のよ
うな計算をすべてユニットで行ない(但し、入力層では
入出力関数を通さないことが多い)、最終的に出力層か
ら出た信号パターンが望ましいパターンになるように、
ユニット間の結合重み係数を決定する。
ここでは、評価関数として教師信号とニューラルネット
の出力信号の誤差の誤差の二乗和EPを用いている。
ここではtPjは入力パターンPに対する出力ユニットj
の教師信号であり、oPjは出力ユニットjの出力信号で
ある。この誤差関数EPをすべての入力パターンに対して
最小にする必要がある。よって問題は を最小にするような結合重み係数を決定するという最小
化問題となる。
この問題を解くために、バックプロパゲーション学習ア
ルゴリズムでは、再急降下法を用いている。すなわち、
入力パターンpごとの結合重み係数wjiの更新量ΔPwji
を次の値(2)式のようにエラー交換の勾配に比例した
形で与える。
ΔPwjiα−∂EP/∂wji …(2) まず、∂EP/∂wjiを求める。
∂EP/∂wji=∂EP/∂netPj・netPj/∂Wji …(3) であるから右辺の右側は ∂etPj/∂wji=∂/∂wji・Σwjk・oPk=oPi …(4) である。次にユニットjに対して、 δPj=−∂EP/∂netPj …(5) と置くことにより、 −∂EP/∂wji=δPj・oPi …(6) によって、第(2)式の学習規則は Δpwji=η・δPj・oPi …(7) となる。ここで、ηはステップサイズを決定する定数で
ある。
次に、δPjを求め、 δPj=−∂EP/∂netPj=−∂EP/∂oPj/netPj …(8) ここで、oPj=f(netPj)であるから右辺の右側は ∂oPj/∂netPj=f′(netPj) …(9) である。右辺の左側はユニットjが出力ユニットかそう
でないかによって式は異なる。ユニットjが出力ユニッ
トの場合、 EP=1/2・Σ(tPj−oPj …(1) であるから、 ∂EP/∂oPj=−(tPj−oPj) …(10) となり、直接δPjが次の第(11)式のように求まる。
δPj=(tPj−oPj)・f′(netPj)(ユニットj;出力
ユニット) …(11) 一方、ユニットjが出力ユニットでない場合、EPがoPj
の直接の関数とならない。したがって、次式のように変
形してδPjの再帰関数として求めるという工夫を行な
う。
このように、ΔPwjiを計算するのに必要な誤差情報σPj
を出力層から入力層へ逆に伝搬しているのでバックプロ
パゲーションという。
バックプロパゲーション学習アルゴリズムでは、ユニッ
トの入出力関数f(x)として、上述の第(11)式およ
び第(13)式から明らかなように、微分可能な関数が必
要とされる。D.E.Rumelhart et al:Parallel Distribut
ed Processing,M.I.T.Press(1986)では、次のような
非線形単調増加のシグモイド関数を用いるのがよいとし
ている。
f(x)=1/1+e-X …(14) すなわち、ユニットjの出力は次のようになる。
ここで、入力の総和netPjとしてバイアス成分θを加える。実際のネットワーク
では、入力ユニット以外のすべてのユニットと結合す
る、出力が常に1のバイアスユニットを考え、θをそ
の結合重み係数とみなして学習する。
f(netPj)の導関数を求めると、 f′(netPj)=∂oPj/∂netPj=oPj・(1−oPj) …
(16) よって、結合重み係数wjiの更新量ΔPwjiは次の式で得
られる。
ΔPwji=η・δPj・oPi …(17) 但し、ユニットjが出力ユニットの場合は、 δPj=oPj・(1−oPj)・(tPj−oPj) …(18) であり、ユニットjが中間ユニットの場合は、 である。
結合重み係数wjiの更新は、入力パターンが複数あるい
が一般的であるので、1つの入力パターン提示ごとに実
行するか、次式のように全入力パターン提示後に として実行するか、2つの方法がある。
[発明が解決しようとする課題] 上述のごとく、バックプロパゲーション学習アルゴリズ
ムの基本原理は最急降下法であるため、最短距離で最小
値に到達するためには、更新幅(Δwij)を無限小にす
る必要があるが、実際問題として、計算繰返し回数が増
加するため、収束速度は遅くなる。そこで、なるべく大
きな更新幅(Δwji)を得るために、上述の第(7)式
のηの値を大きくとりたいが、更新方向が振動しやすく
なる。前述のRumelhartの文献では、前回の更新幅をモ
ーメンタム量として次式のように加算することにより振
動を抑制することを提案している。
Δwji(n+1)=η・σPjPi+α・Δwji(n) …
(21) ここで、αはモーメンタム量を調整するパラメータであ
る。このη,αは定数であるから、これらの最適な値
(収束が速くなる値)はエラー空間の形状、すなわちタ
スクの種類やサンブルデータの量によって異なるはずで
あり、さらに学習進行の程度によっても変化すると考え
られる。このように、従来はタクスに合ったη,αの値
を経験的に決めていたため、学習に時間がかかったり、
不適合な局所的最小値に陥りやすいという問題点があっ
た。
それゆえに、この発明の主たる目的は、学習繰返し計算
ごともしくは何回かの学習繰返し計算に1回の割合で、
エラーが最小となるようにη,αをダイナミックに変更
する方法を提供することである。
[課題を解決するための手段] この発明はユニットjとユニットiが結合重み係数Wji
を有して階層的に接続され、バックプロパゲーション法
を用いた多層ニューラルネットの学習において、学習の
繰返し計算ごとに、更新ステップ幅(η)およびモーメ
ンタム(α)について、 に従って出力誤差(Ep)を計算し、その中から一番小さ
い出力誤差(Ep)をとったときの更新ステップ幅(η)
をモーメンタム(α)のパラメータの値を選択すること
により、最小の繰返し計算回数で出力誤差(Ep)を最小
にするようにしたものである。
[作用] この発明に係るニューラルネットの学習効率化方法は、
学習計算繰返しごとに、次式によりエラーEPが最小とな
るようにη,αをダイナミックに変更する。
η,αの値を有限個用意して、その中からエラーEPが最
も小さくなるη,αを選択する。
[発明の実施例] 第1図はこの発明の一実施例である単語列予測のための
多層ネットワークの構造を示す図である。
この発明を文章中の単語を予測するニューラルネットワ
ークモデルに適用した実施例を以下に示す。このモデル
は現在の単語の品詞から次の単語の品詞を予測しようと
するものである。実験条件を次に示す。
(1) タスクは単語列予測モデルである。
(2) ネットワーク入力は現在の単語の品詞番号(品
詞番号に相当するユニットのみ“1"であり、他はすべて
“0"である)。
(3) ネットワーク出力教師信号は次の単語の品詞番
号である。
(4) ネットワーク構造は第1図に示すように、バッ
クプロパゲーションアルゴリズムが対象とする多層ネッ
トワークであり、入力層は89個のユニット(品詞の数)
であり、中間層は16個のユニットが2層であり、出力層
は89個のユニット(品詞の数)である。
(5) サンプル数は1センテンス23である。
(6) パラメータは次のとおりである。
ステップ幅ηは従来方法では0.1または0.4の一定値であ
るのに対して、この発明では、(1/2,1,2)×η(k−
1)、すなわち前回の値の1/2,1,2倍の3種類が選択さ
れる。
モーメンタムαは従来方法では0または0.9の一定値で
あるのに対して、この発明では0,0.9の2種類が選択さ
れる。
第2図は学習効果率法の効果を確認実験して結果を表に
表わした図であり、第3図および第4図は同じくグラフ
で示したものである。
第2図および第3図から明らかなように、この発明では
3種類のステップ幅ηおよび2種類のモーメンタムαに
ついて出力誤差Epを計算し、その中から一番小さい出力
誤差Epをとったときのステップ幅ηとモーメンタムαを
選択した場合には、収束するまでの繰返し計算回数が35
回(CASE1)であるのに対して、従来のように、ステッ
プ幅ηを0.1に固定しかつモーメンタムαを0.9に固定し
た場合、収束するまでの繰返し計算回数が153回(CASE
2)になり、この発明による方法の方が従来に比べて4.3
倍以上収束が速くなっている。
また、パラメータが一定の場合の、たとえばステップ幅
η=0.4のときはエラーの振動が生じやすく(CASE3,CAS
E4)、ステップ幅η=0.1であれば収束が遅くなる(CAS
E2,CASE5)。さらに、モーメンタムαについては、α=
0.9の場合ステップ幅ηの値も大きければ不安定な状態
が持続し(CASE3)、α=0の場合、学習が進んでも収
束速度が加速しない(CASE5)。
次に、この発明によるステップ幅η,モーメンタムαを
出力誤差Epが最も小さくなるように変更する方法によ
り、タスクに対してエラーの収束判定で学習サンプル数
を増加させる実験を行なった。ここでは、モーメンタム
αは(0,0.2,0.9)の3種類を選択することにした。そ
の結果を第4図に示す。モーメンタムαについては学習
初期およびサンプル数が増加した場合、α=0あるいは
0.2をとり、それ以外はほとんどα=0.9を選択してい
る。これは、学習の初期はリンクウェイトの修正方向が
不安定であるため、モーメンタムαによる加速はオーバ
シュートを起こしやすいからでいあり、サンプル数が増
加した場合も、エラー空間が変形するため、過去のリン
クウェイトの修正方向を引きずらない方が良いからであ
る。
一方、ステップ幅ηについてはサンプル数が増加するに
従って減少している。すなわち、この発明では、サンプ
ルの数の大きさに対して、サンプル数pを増加させれ
ば、第(20)式から明らかなようにステップ幅ηを減少
させる必要がある。この発明による実験結果から、サン
プル数の増加に伴ってパラメータηが結果的に減少して
いる(強制的に減少させていない。あくまでも出力誤差
Epが小さくなるようにパラメータηを変化させれば結果
的にパラメータηが減少していく)ので、適正なステッ
プ幅ηの値をとることができる。
[発明の効果] 以上のように、この発明によれば、タスクの種類や学習
サンプルの量に対して最適に近いパラメータを値を自動
選択し、学習の進行状況に応じてパラメータを自動調整
しており、結果として学習の効率化を図ることができ
た。今回は1回の繰返し計算ごとにすべてのパラメータ
の組合わせに対して計算を行なったため、ステップ幅η
を3種類,モーメンタムαを2種類の場合、1回の繰返
し計算に6倍の時間を必要とした。しかし、実験結果か
ら明らかなように、或る程度学習が進めば毎回パラメー
タを変更する必要はないので、変更のインターバルを大
きくとることによりこの問題は解消される。
また、ここでは有限個のステップ幅η,モーメンタムα
の値から最小値を選んでいるが、二次元探索法などによ
り、ステップ幅η,モーメンタムαの値を決定してもよ
いのはもちろんのことである。
【図面の簡単な説明】
第1図はこの発明の実施例である単語列予測のための多
層ネットワークの構造を示す図である。第2図はこの発
明による効果の確認実験結果を表に表わした図である。
第3図および第4図はこの発明による効果の確認実験結
果をグラフに示した図である。第5図はバックプロパゲ
ーションアルゴリズムが対象とする多層ネットワークの
構造を示す図である。第6図は第5図に示した各ユニッ
トの入出力関係を示す図である。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】ユニットjとユニットiが結合重み係数W
    jiを有して階層的に接続され、バックプロパゲーション
    法を用いた多層ニューラルネットの学習において、 前記学習の繰返し計算ごとに、更新ステップ幅(η)お
    よびモーメンタム(α)について、 に従って出力誤差(Ep)を計算し、その中から一番小さ
    い出力誤差(Ep)をとったときの更新ステップ幅(η)
    とモーメンタム(α)のパラメータの値を選択すること
    により、最小の繰返し計算回数で出力誤差(Ep)を最小
    にすることを特徴とする、ニューラルネットの学習効率
    化方法。
JP63153827A 1988-06-22 1988-06-22 ニューラルネットの学習効率化方法 Expired - Fee Related JPH07104848B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63153827A JPH07104848B2 (ja) 1988-06-22 1988-06-22 ニューラルネットの学習効率化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63153827A JPH07104848B2 (ja) 1988-06-22 1988-06-22 ニューラルネットの学習効率化方法

Publications (2)

Publication Number Publication Date
JPH01320565A JPH01320565A (ja) 1989-12-26
JPH07104848B2 true JPH07104848B2 (ja) 1995-11-13

Family

ID=15570956

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63153827A Expired - Fee Related JPH07104848B2 (ja) 1988-06-22 1988-06-22 ニューラルネットの学習効率化方法

Country Status (1)

Country Link
JP (1) JPH07104848B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2643593B2 (ja) * 1989-11-28 1997-08-20 日本電気株式会社 音声・モデム信号識別回路
JPH04662A (ja) * 1990-04-18 1992-01-06 Matsushita Electric Ind Co Ltd 学習機械
JPH0786433B2 (ja) * 1990-05-22 1995-09-20 支朗 臼井 色覚情報変換方法及び装置
JP2924276B2 (ja) * 1991-05-13 1999-07-26 松下電器産業株式会社 電気カーペット
JPH0683792A (ja) * 1991-06-12 1994-03-25 Hitachi Ltd ニューラルネットワークの学習装置およびニューラルネットワークの学習パターン呈示方法

Also Published As

Publication number Publication date
JPH01320565A (ja) 1989-12-26

Similar Documents

Publication Publication Date Title
CN110073371A (zh) 用于以降低精度进行深度神经网络训练的损失缩放
US5592589A (en) Tree-like perceptron and a method for parallel distributed training of such perceptrons
WO2020009912A1 (en) Forward propagation of secondary objective for deep learning
EP0416173B1 (en) A method for adjusting network parameters in a multi-layer perceptron device, and perceptron device provided with means for executing the method
JP2021086371A (ja) 学習プログラム、学習方法および学習装置
JPH07104848B2 (ja) ニューラルネットの学習効率化方法
Palit et al. Efficient training algorithm for Takagi-Sugeno type Neuro-Fuzzy network
US5630020A (en) Learning method and neural network structure
Bishop A fast procedure for retraining the multilayer perceptron
KR102090109B1 (ko) 학습 및 추론 장치 및 그 방법
JP2699447B2 (ja) 信号処理装置
JP2606317B2 (ja) 学習処理装置
JP2979562B2 (ja) 学習処理装置
JP2000276459A (ja) 学習による変換関数を用いた乱数発生装置,乱数発生方法および乱数発生システム
JPH0635510A (ja) ニューラルネットワークを用いたモデル規範型適応制御装置
JP7436830B2 (ja) 学習プログラム、学習方法、および学習装置
Kim et al. Optical proximity correction with PID control through reinforcement learning
MAGOULAS et al. A framework for the development of globally convergent adaptive learning rate algorithms
JP2877413B2 (ja) 余剰ニューロン決定処理方式
Babri et al. Improving backpropagation learning under limited precision
JPH05324598A (ja) ニューラル・ネットワーク学習装置における学習方式
JPH07160659A (ja) 学習方式
JPH0713745A (ja) 神経回路網型パターン学習方法およびパターン処理装置
KR20240070774A (ko) 광학 근접 보정을 위한 딥 러닝 모델의 학습 방법 및 이를 이용한 광학 근접 보정 방법
Kim et al. Normalization Methods on Backpropagation for the Estimation of Drivers' Route Choice

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees