JPH07319844A

JPH07319844A - ニューラルネットワークの学習装置及びニューラルネットワークの学習方法

Info

Publication number: JPH07319844A
Application number: JP6110930A
Authority: JP
Inventors: Kiyoshi Nakabayashi; 清仲林
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1994-05-25
Filing date: 1994-05-25
Publication date: 1995-12-08

Abstract

(57)【要約】【目的】本発明の目的は、過剰学習を回避して、分類
精度を向上させ、誤差／荷重比率を調整した、学習を行
うことができるニューラルネットワークの学習装置及び
ニューラルネットワークの学習方法を提供することであ
る。【構成】本発明は、学習サンプルデータ２０を入力し
た時のニューラルネットワークの出力と教師信号の誤差
を算出する誤差算出手段１１と、荷重差分算出手段１２
と、出力誤差と荷重差分が均衡するように誤差／荷重比
率を調整する誤差／荷重比率調整手段１４と、出力誤差
と荷重差分の和が減少するようにニューラルネットワー
クの結合荷重を調整する結合荷重調整手段１３とを有す
る学習手段１０を有する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ニューラルネットワー
クの学習装置及びニューラルネットワークの学習方法に
係り、特に、データの分類処理を行うニューラルネット
ワークの学習において、既知である概略の分類規則とサ
ンプルデータから、学習を併用しデータを分類するニュ
ーラルネットワークの学習装置及びニューラルネットワ
ークの学習方法に関する。

【０００２】

【従来の技術】従来よりデータの分類処理のために多層
構造ニューラルネットワークが用いられている。図４
は、一般的な多層構造型ニューラルネットワークの構成
を示す。同図に示すニューラルネットワークの構成は、
分類対象データの特徴量を入力する入力層１０１、分類
結果を出力する出力層１０３、入力層１０１と出力層１
０３の間には１層乃至それ以上の層を有する中間層１０
２により構成される。

【０００３】各層のユニットの入力は、その前段の層の
各々のユニットの出力に結合されている。各々のユニッ
トの出力は、以下の式に従って決定される。

【０００４】

【数１】

【０００５】ここで、上記のｏ_kj は、ｋ層（ｋ≧１、
ｋ＝１）のｊ番目のユニットの出力値、ｗ_kijは、ｋ−
１層のｊ番目のユニットへの結合荷重、Ｎ_(k-1)は、ｋ
−１層のユニットの総数である。但し、ｗ_k0jは、ｋ層
のｊ番目のユニットにバイアスを与えるための結合荷重
で、ｏ_(k-1)0は常に１とする。また、入力層（ｋ＝１）
の各ユニットは、入力された特徴量をそのまま出力す
る。

【０００６】このようなニューラルネットワークにデー
タの分類を行わせるためには、入力層ユニットに分類対
象データの特徴量を与えた時に、そのデータの属する分
類カテゴリに対応する出力層ユニットのみが高い値を出
力し、他の出力層ユニットが低い値を出力するように、
上記の各ユニット間の結合荷重及びバイアス値を設定す
る必要がある。

【０００７】このために、従来の技術の第１の方法とし
て、結合荷重及びバイアス値をランダムな値に初期設定
しておき、分類結果が既知である学習サンプルデータの
特徴量を入力したときの実際の出力値と学習サンプルデ
ータの正しい分類を与える出力値（以下、教師信号と呼
ぶ）の誤差が減少するように、結合荷重及びバイアス値
を微少量ずつ繰り返し調整する逆誤差伝搬学習方法が知
られている。

【０００８】図５は、従来の第１の方法を説明するため
の図である。同図に示す構成は、学習部１０、ニューラ
ルネットワーク１及び学習サンプルデータ２０より構成
される。

【０００９】学習部１０は、ニューラルネットワーク１
に学習サンプルデータ２０の特徴量を入力した時の実際
の出力値と教師信号との誤差を算出する誤差算出部１１
と、誤差が減少するように逆誤差伝搬学習方式を用いて
結合荷重及びバイアス値を微少量ずつ調整する結合荷重
調整部１３から構成される。

【００１０】学習部１０の誤差算出部１１は、ニューラ
ルネットワークの入力層に学習サンプルデータ２０の特
徴量を入力した時のニューラルネットワークの出力値Ｅ
^Dと教師信号の二乗誤差ｅ_j ^D

【００１１】

【数２】

【００１２】を算出する。ここで、Ｋは、出力層の層番
号、即ち、ニューラルネットワーク１の全層数である。
また、ｙ_jは、出力層のｊ番目のユニットに対する当該
学習サンプルの教師信号である。

【００１３】次に、結合荷重調整部１３は、算出された
誤差が減少するように、ニューラルネットワーク１の結
合荷重及びバイアス値ｗ_kijを以下の式に従って微少量
調整する。

【００１４】 δ_kij ^D＝−ηｄ_kij ^Dｏ（ｋ−１）_i （５）ここで、δ_kij ^Dは、結合荷重ないしバイアス値ｗ_kij
の調整値、ηは１回の繰り返しでの調整量の大きさを決
めるパラメータである。ｄ_kj ^Dはｋ層が出力層（ｋ＝
Ｋ）の時、以下の式で算出される。

【００１５】ｄ_Kj ^D ＝ｅ_j ^D（１−ｏ_Kj）（１＋ｏ_Kj）（６）ここで、ｅ_j ^Dは、（４）式に従って誤差算出部１１で
算出された出力誤差である。ｋ層が中間層の時は、ｄ_kj
^Dは以下の式で与えられる。

【００１６】

【数３】

【００１７】以上の誤差算出部１１による誤差算出と結
合荷重調整部１３による結合荷重及びバイアス値の調整
を、学習サンプルを繰り返し与えて実行し、二乗誤差Ｅ
^Dの変化が一定値以下になった時、学習を終了する。

【００１８】次に従来の第２の方法について説明する。

【００１９】従来の第２の方法は、概ね正しいと考えら
れるデータ分類規則が既知である時にこの分類規則と等
価な分類機能を有するように、ニューラルネットワーク
の結合荷重及びバイアス値を初期設定し、その後、学習
サンプルデータを用いて教師信号に対する出力誤差と結
合荷重の初期設定値からのずれの和が減少するように結
合荷重及びバイアス値を調整する方式であり、本発明の
発明者らにより、特願平３−１８０号『ニューラルネッ
トワークの学習方式』に記載されている。

【００２０】以下、図６を用いて従来の第２の方法を説
明する。図６に示す方式は、既知である分類規則２２、
学習サンプルデータの特徴量と分類結果２０、データ分
類規則３０１を論理演算式に変換する論理演算式に変換
する論理演算変換部１５、得られた論理演算式と等価な
動作を行うようにニューラルネットワーク１の構造及び
結合荷重を設定する結合荷重設定部１６より構成され
る。また、この時の結合荷重は、初期結合荷重２１とし
て規則される。学習部１０は、ニューラルネットワーク
１に学習サンプルデータ２０の特徴量を入力したときの
出力値と教師信号との誤差に結合荷重の初期設定値から
のずれを加えた和が減少するように結合荷重及びバイア
ス値を微少量ずつ繰り返し調整する。

【００２１】次に、上記の各部の動作について説明す
る。

【００２２】今、既知であるデータ分類規則２２として
以下が論理演算変換部１５に与えられたとする。

【００２３】ＩＦ（ｘ₁＞ａ₁）ａｎｄ（ｘ₂＞ａ₂）ＴＨＥＮｙ（８）ＩＦ（ｘ₃＞ａ₃）ａｎｄ（ｘ₄＜ａ₄）ＴＨＥＮｙ（９）最初の式（８）は、「分類対象データの特徴量ｘ₁が定
数ａ₁より大きく、かつ、ｘ₂がａ₂より大きければ分
類対象データは、カテゴリｙに属する」ことを意味して
おり、二番目の式（９）は、「特徴量ｘ₃がａ₃より大
きく、かつｘ₄がａ₄より小さければ分類対象データは
カテゴリｙに属する」ことを意味している。これらの式
から論理演算変換部１５は、「（ｘ₁がａ₁より大き
く、かつｘ ₂がａ₂より大きい）または、（ｘ₃がａ₃
より大きく、かつｘ₄がａ₄より小さい）ならば、ｙが
真」を意味する以下の論理演算式を生成する。但し、＊
は論理関、＋は論理和、！は論理否定を表す。

【００２４】ｙ＝（ｘ₁＞ａ₁）＊（ｘ₂＞ａ₂）＋（ｘ₃＞ａ₃）＊！（ｘ₄＞ａ₄）（１０）次に、結合荷重設定部１６の動作について図７を用いて
説明する。図７は、第２の従来の方法の結合荷重設定部
の動作を説明するための図である。結合荷重設定部１６
は、論理演算変換部１５から与えられる論理演算式２３
に従ってニューラルネットワーク２４の結合構成及び結
合荷重を決定する。ニューラルネットワーク２４の結合
構成は、同図に示すように、論理演算式２３の右辺に現
れる変数毎に一つの入力層ユニットを、変数と定数の比
較項毎に一つの第１中間層ユニットを、乗法項毎に一つ
の第２中間層ユニットを割り当て、出力層で全乗法項の
加法を実現するように行う。

【００２５】結合荷重ｗの決定方法は、本発明の発明者
らによる特願平２−１８５５７０号『ニューラルネット
の学習方式』に詳細に記述されているがここでは、決定
のための計算式を示す。

【００２６】１．加法ユニット（出力層）ｎ−入力加法ユニットを考える。入力信号Ｉ_i（１≦ｉ
≦ｎ）が−１≦Ｉ_i≦−ｄの場合「偽」、ｄ≦Ｉ_i≦１
の場合「真」とする。出力信号ｏが−１≦ｏ≦−ｄ’の
場合「偽」、ｄ’≦ｏ≦１の場合「真」とする。以上の
条件で、加法機能を実現するには、結合荷重ｗ_i（１≦
ｉ≦ｎ）とバイアスｗ₀を以下のように設定する。

【００２７】

【数４】

【００２８】但し、入力が否定項（ｙ＝ａ＋！ｂのｂ）
である場合は、ｗ_i＝−ｗとする。

【００２９】また、ｄは、ｄ＞（ｎ−１）／（ｎ＋１）
という条件を満たす必要がある。

【００３０】２．乗法ユニット（第２中間層）ｎ，ｄ，ｄ’を加法の場合と同様に定義する。乗法機能
を実現するには、結合荷重ｗ_i（１≦ｉ≦ｎ）とバイア
スｗ₀を以下のように設定する。

【００３１】

【数５】

【００３２】但し、入力が否定項（ｙ＝ａ・！ｂのｂ）
である場合は、ｗ_i＝−ｗとする。また、ｄは、ｄ＞
（ｎ−１）／（ｎ＋１）という条件を満たす必要があ
る。

【００３３】３．比較ユニット（第１中間層）入力Ｉが定数Ａより大きい時に「真」を出力するユニッ
トの結合荷重ｗ₁とバイアスｗ₀の関係を以下のように
設定する。

【００３４】ｗ₀ ＝−ｗ₁Ａ（１５）なお、ユニット及びユニット間の結合として論理式に対
応しない余分のものがあってもよく、これらの結合は、
上で決定した結合荷重よりも絶対値の十分小さいランダ
ムな値に設定される。

【００３５】次に、学習部１０の動作について説明す
る。図６において、荷重差分算出部１２は、結合荷重の
初期設定値との差分を算出する。その他については、図
５に示した従来の第１の方法の学習部１０と同様であ
る。

【００３６】学習部１０の動作原理について説明する。

【００３７】学習部１０は、結合荷重設定部１６によっ
て、初期設定されたニューラルネットワーク１につい
て、以下の式で示される評価関数Ｅ^DWを減少させるよう
に結合荷重の値を変化させる。

【００３８】

【数６】

【００３９】ここで、右辺第１項の評価関数Ｅ^Dは、
（３）式に示した、学習サンプルデータ２０の特徴量を
入力した時のニューラルネットワーク１の出力値と教師
信号との二乗誤差である。また、第２項は、結合荷重の
初期設定値からのずれを表す項である。即ち、学習部１
０は、ニューラルネットワーク１の出力値の二乗誤差と
結合荷重の初期設定値からのずれの和が減少するように
結合荷重を調整する。

【００４０】右辺第２項において、Ｗ_kijは結合荷重ｗ
_kijの初期設定値である。ｆ（ｘ，ｙ）は、ｘとｙの差
が増加すると増加する関数で、例えば（ｘ−ｙ）²であ
る。λ_kijは、Ｅ^Dと各結合荷重の差分を加え合わせる
際の比率で誤差／荷重比率と呼ぶ。

【００４１】上の評価関数Ｅ^DWを減少させるための結合
荷重ｗ_kijの変化量δ_kij ^DWは、以下の式で与えられ
る。

【００４２】

【数７】

【００４３】ここで、δ_kij ^Dは（５）で算出される、
通常野逆誤差伝搬学習における結合荷重の調整量であ
る。上式により例えば、ｆ（ｘ，ｙ）＝（ｘ−ｙ）²と
した時には、 δ_kij ^DW ＝δ_kij ^D−２ηλ_kijｗ_kij（ｗ_kij− Ｗ_kij）（２１）となる。

【００４４】学習部１０は、以上の動作原理に従って動
作する。以下、ｆ（ｘ，ｙ）＝（ｘ−ｙ）² とした場
合、即ち、（２１）式に従って結合荷重の調整を行う場
合について説明する。

【００４５】誤差算出部１１は、ニューラルネットワー
ク１の入力層に学習サンプルデータ２０の特徴量を入力
した時のニューラルネットワークの出力値と教師信号の
誤差を、通常の逆誤差伝搬学習の場合と同様に（３）
式、（４）式に従って算出する。また、荷重差分算出部
１２は、初期結合荷重２１Ｗ_kijと現在の結合荷重の値
ｗ_kijを用いて（２１）式の右辺第２項、即ち、 −２ηλ_kijｗ_kij（ｗ_kij− Ｗ_kij）を算出する。結合荷重調整部１３は、誤差算出部１１で
算出された出力誤差値を用いて、従来の逆誤差伝搬手法
と同様に（２１）式の右辺第１項δ_kij ^Dを算出し、荷
重差分算出部１２で算出された右辺第２項と加え合わせ
て、結合荷重調整量δ_kij ^DWを算出して結合荷重の調整
を行う。

【００４６】以上の誤差算出部１１による誤差算出、荷
重差分算出部１２による結合荷重の初期設定値からのず
れの算出、及び、結合荷重調整部１３による結合荷重の
調整を学習サンプルを繰り返し与えて実行し、評価関数
Ｅ^DWの変化が一定値以下になったとき学習を終了する。

【００４７】次に、従来の第３の方法を説明する。従来
の第３の方法は、ニューラルネットワークのような非線
型システムではなく、通常の線型システムにおいて、シ
ステムのパラメータに関する概ね正しいと考えられる知
識が事前に与えられている場合に、この知識とシステム
の入出力サンプルデータの観測値からパラメータの決定
を行おうとするもので、辻、大森、佐野、『先験情報を
利用した一般化特異値分解に基づく信号外挿』、電子情
報通信学会論文誌Ａ，Vol.J75-A, No.4,pp.718-725に記
載されている。以下、本発明との本質的な部分での関連
が明確になるように簡略化して説明する。

【００４８】この文献においては、ｙ＝Ａｘで表現され
る行列Ａが既知でベクトルｘ＝（ｘ₁，ｘ₂，…）に関
して線形なシステムを対象に、ｘに関して概ね正しいと
考えられる事前知識及び観測されるベクトルｙ＝
（ｙ₁，ｙ₂，…）から、ｘを推定する問題を扱ってい
る。

【００４９】ベクトルｘの推定は以下の評価関数Ｅ^Lを
最小化するように行われる。

【００５０】

【数８】

【００５１】ここで、Ｘ＝（Ｘ₁，Ｘ₂，…）は、事前
知識で与えられるｘの概ね正しいと考えられている値で
ある。即ち、上の評価関数の右辺第１項は、観測値と推
定値の二乗誤差であり、第２項は、推定値の事前知識か
らのずれである。また、λ_jは第１項と第２項を加え合
わせる際の比率である。

【００５２】即ち、従来の第３の方法は、線形なシステ
ムを対象に、従来の技術の第２の方法と同様な問題解決
を行おうとしているものである。

【００５３】従来の第３の方法は、従来の第２の方法に
は含まれていなかった、上式の第１項と第２項を加え合
わせる際の比率λ_jの決定法も含んでいる。λ_jの決定
は、以下の式で表されるＡＢＩＣと呼ばれる基準を最小
化するように行われる。

【００５４】

【数９】

【００５５】ここで、Ｎは観測ベクトルｙの次元数、Λ
は比率λ_jを対角成分とする対角行列である。また、｜
Ｘ｜は行列Ｘの行列式、Ｘ^Tは行列の転置を表す。Ｅ＾
^L（Λ）は、あるΛの値のもとでの（２２）式の評価関
数Ｅ^Lの最小値である。

【００５６】ＡＢＩＣ基準の理論的な説明は、Akaike,
"Likelihood and the Bayes procedure", Trabajos de
Estadistica, Vol. 31, 1980, pp.143-166" に記載さ
れている。ＡＢＩＣ（Λ）^Lは、Λの対数尤度の−２倍
として定義される量であり、ＡＢＩＣ（Λ）^Lを最小化
してΛの推定値を得ることは、Λの最尤推定を行うこと
と等価である。

【００５７】従来の第３の方法では、通常のニュートン
法による数値計算によりＡＢＩＣ（Λ）^Lを最小化する
Λの推定値を求めている。

【００５８】定性的に（２３）式の意味を述べる。右辺
第１項を小さくすることは、Ｅ＾^L（Λ）が小さくなる
ように、λ_jを設定することに等しい。（２２）式から
明らかなように、Ｅ＾^L（Λ）が小さくなるためには、
λ_jは小さければよい。従って、右辺第１項を小さくす
ることは、λ_jを小さくすることと等価である。一方、
右辺第２項を小さくするためには、｜Λ｜が大きい、即
ち、λ_jが大きければよい。従って、第１項と第２項の
和を最小にするようなλ_jが存在して、これによって評
価関数Ｅ^L（Λ）の観測値と推定値の二乗誤差の項（第
１項）と推定値の事前知識からのずれを表す項（第２
項）の均衡が取られることになる。

【００５９】

【発明が解決しようとする問題点】しかしながら、上記
従来の第１の方法は、逆誤差伝搬学習法式により、学習
サンプルデータに対するニューラルネットワークの実際
の出力値と教師信号の誤差が減少するように学習を行っ
ている。このため、学習サンプルデータに対しては学習
を繰り返すことによって、正しい分類結果を与えるニュ
ーラルネットワークを得ることができるが、学習サンプ
ルデータ以外の未知データを入力した時に、正しい分類
結果が得られる保証は無い。特に、学習サンプルデータ
に偏りが有る場合や、学習サンプルデータの個数が十分
でない場合には、ニューラルネットワークの分類機能が
学習サンプルデータのみの分類に特化される過剰学習が
生じ易く、この問題は顕著となる。

【００６０】また、従来の第２の方法は、既知である概
ね正しいと考えられる分類規則と等価な分類機能を有す
るように、ニューラルネットワークの結合荷重を初期設
定しておき、これに対して、さらに学習サンプルデータ
に対する出力誤差と結合荷重の初期設定値からのずれの
和が減少するように学習を行っている。このため、初期
に与えた分類機能を極力保ったまま、学習サンプルに対
する誤差が減少するように学習が行われるので、従来の
第１の技術における過剰学習を回避して分類精度の向上
を図ることができる。

【００６１】しかし、（１７）式に示す学習の評価関数
において、ニューラルネットワークの出力値の二乗誤差
と結合荷重の初期設定値からのずれを加え合わせる割合
である誤差／荷重比率λ_kijの値によって学習結果が大
きく左右されるという問題点がある。即ち、誤差／荷重
比率が小さすぎる場合には、結合荷重の初期設定値から
のずれが過少評価されて過剰学習が生じ、逆に誤差／荷
重比率が大き過ぎる場合には、学習サンプルに対する誤
差が過少評価されて初期に与えた分類機能のまま学習が
進まないという状態を生じる可能性がある。しかし、誤
差／荷重比率を最適な値に設定する根拠が学習開始前に
得られないため、試行錯誤的にλ_kjiの値を替えて学習
を繰り返す必要がある。

【００６２】さらに、従来の第３の方法は、線形なシス
テムを対象に、従来の第２の方法と同様な問題の解決を
行っており、従来の第２の方法の誤差／荷重比率λ_kij
に相当する値を、観測値と推定値の二乗誤差項と推定値
の事前知識からのずれを表す項の均衡をとるように決定
する方法を示している。しかし、対象が線形なシステム
に限られているため、この方法をそのまま、ニューラル
ネットワークのような非線形なシステムに適用すること
はできない。

【００６３】本発明は、上記の点に鑑みなされたもの
で、初期に与えた分類機能を保ったまま、学習サンプル
に対する誤差が減少するように学習が行われて過剰学習
が回避されると共に、誤差／荷重比率を人手で試行錯誤
的に設定する必要がなく、分類精度を向上することが可
能なニューラルネットワークの学習装置及びニューラル
ネットワークの学習方法を提供することを目的とする。

【００６４】また、本発明の更なる目的は、ニューラル
ネットワークの出力値の二乗誤差と結合荷重の初期決定
値からのずれが均衡して減少するように、両者を加え合
わせる割合である誤差／荷重比率を調整した、学習を行
うことができるニューラルネットワークの学習装置及び
ニューラルネットワークの学習方法を提供することを目
的とする。

【００６５】

【課題を解決するための手段】図１は、本発明の原理構
成図である。

【００６６】本発明のニューラルネットワークの学習装
置は、既知である分類規則を論理演算式に変換する変換
手段と、得られた論理演算式と等価の分類機能を有する
ようにニューラルネットワークの構造及び結合荷重を初
期設定する手段と、得られたニューラルネットワークを
学習サンプルデータを用いて学習させる学習手段を有す
るニューラルネットワークの学習装置において、学習手
段１０は、学習サンプルデータ２０を入力した時のニュ
ーラルネットワークの出力と教師信号の出力誤差を算出
する誤差算出手段１１と、ニューラルネットワーク１の
結合荷重の初期設定値２１からのずれに適当な誤差／荷
重比率を掛け合わせた荷重差分を算出する荷重差分算出
手段１２と、出力誤差と荷重差分が均衡するように誤差
／荷重比率を調整する誤差／荷重比率調整手段１４と、
出力誤差と荷重差分の和が減少するように誤差／荷重比
率調整手段１４により調整された誤差／荷重に基づいて
ニューラルネットワークの結合荷重を調整する結合荷重
調整手段１３とを有する。

【００６７】また、上記の誤差／荷重比率調整手段１４
は、ある一つの誤差／荷重比率を選択して、微小量増加
または、微小量減少させる。

【００６８】さらに、本発明のニューラルネットワーク
の学習方法は、予め与えられた概ね正確であると考えら
れる分類規則と等価の分類機能を有するように初期設定
されたニューラルネットワークの評価関数を最小化する
結合荷重を求めるニューラルネットワークの学習方法に
おいて、評価関数が所定の値以下になるまで、教師信号
に対する出力誤差と結合荷重の初期設定値からのずれの
和である荷重差分が均衡するように加え合わせる比率
（誤差／荷重比率）を調整する。

【００６９】

【作用】本発明のニューラルネットワークの学習装置及
び学習方法は、予め与えられた概ね正確であると考えら
れる分類規則と等価の分類機能を有するように初期設定
されたニューラルネットワークを、教師信号に対する誤
差と結合荷重の初期設定値からのずれの和が減少するよ
うに調整する際に、両者の値が均衡するように、両者を
加え合わせる割合である誤差／荷重比率を調整すること
により、初期に与えた分類機能を保ったまま、学習サン
プルデータに対する誤差が減少するように学習が行われ
るので、過剰学習が回避されると共に、誤差／荷重比率
を人手で試行錯誤的に設定する必要がない。

【００７０】

【実施例】以下、図面と共に本発明の実施例を詳細に説
明する。

【００７１】図２は、本発明の一実施例のニューラルネ
ットワークの学習装置の構成を示す。同図において、図
６と同一構成部分には、同一符号を付し、その説明を省
略する。

【００７２】学習部１０は、学習サンプルデータ２０の
特徴量を入力した時のニューラルネットワーク１の出力
と教師信号（学習サンプルデータ２０の分類結果）との
誤差を算出する誤差算出部１１、ニューラルネットワー
ク１の結合荷重の初期設定値２１からのずれに誤差／荷
重比率を掛け合わせた荷重差分を算出する荷重差分算出
部１２、出力誤差と荷重差分の和が減少するように、ニ
ューラルネットワークの結合荷重を調整する結合荷重調
整部１３に加えて、出力誤差と荷重差分の値が均衡する
ように誤差／荷重比率を調整する誤差／荷重比率調整部
１４より構成される。

【００７３】最初に、学習部１０の動作原理について説
明する。学習部１０は、以下の尺度が減少するように誤
差／荷重比率λ_kijを調整しつつ、ニューラルネットワ
ークの結合荷重を調整する。

【００７４】

【数１０】

【００７５】ここで、Ｍはサンプルデータ数、Ｎ_Kはニ
ューラルネットワークの出力層ユニット数、即ち分類カ
テゴリ数である。Λは誤差／荷重比率λ_p＝λｋ_ijを対
角成分とする対角行列である。Ｅ＾^DW（Λ）は、あるΛ
の値のもとで、従来の第２の方法でニューラルネットワ
ークの結合荷重の調整を行って学習が完了した時点での
評価関数Ｅ^DWの値、即ち、あるΛの値のもとでの評価関
数Ｅ^DWの極小値である。

【００７６】Ｇ（Λ）は、（ｐ，ｑ）の成分が以下の値
になる行列である。

【００７７】

【数１１】

【００７８】ここで、ｏ_Kjはニューラルネットワークの
出力層のｊ番目のユニットの出力、ｗ _qはｑ番目の結合
荷重であり、

【００７９】

【数１２】

【００８０】は、あるΛの値のもとで従来の第２の方法
で学習が完了したニューラルネットワークの入力層に学
習データｘ_iを入力したときの偏微分

【００８１】

【数１３】

【００８２】の値である。即ち、（２４）式のＡＢＩＣ
^DW（Λ）は、従来の第２の方法でΛを決定するために用
いられた（２３）式のＡＢＩＣ^L（Λ）と同様なもので
あって、（２３）式のＡ^TＡをＧ（Λ）で置き換えたも
のになっている。これは、推定対象パメータ（従来の技
術の第３の方法では、ｘ、本発明では、ｗ_p）の微小な
変換が評価関数（従来の技術の第３の方法では、Ｅ^L、
本発明では、Ｅ_DW）の二乗誤差項に与える変化の大きさ
が、線形システムの場合はＡ^TＡに、本発明で扱うニュ
ーラルネットワークの場合は、Ｇ（Λ）に反映されてい
るからである。

【００８３】（２４）式の定性的な意味は、従来の第３
の方法と同様であって、右辺第１項を小さくすること
は、λ_pを小さくすることと等価である、右辺第２項を
小さくすることは、λ_pを大きくすることと等価であ
る。従って、第１項と第２項の和を最小にするようなλ
_pが存在して、これによって評価関数Ｅ^DWの出力誤差項
と荷重差分項の均衡が取られることになる。

【００８４】学習部１０は、以上のＡＢＩＣ^DW（Λ）を
最小にするように誤差／荷重比率λ _pを調整して、評価
関数Ｅ^DWの出力誤差項と荷重差分項の均衡を取りつつ、
評価関数Ｅ^DWが減少するように結合荷重を調整する。

【００８５】この時、従来の第３の方法と異なるのは、
ニューラルネットワークが非線形システムであるため、
ＡＢＩＣ^DW（Λ）に含まれるＥ＾^DW（Λ）から直接算出
できない点、及び従来の第３の方法では、Ａ^TＡが定数
であったのに対してＧ（Λ）がΛによって変化し、かつ
Ｅ＾^DW（Λ）から直接算出できない点である。このた
め、通常のニュートン法等の方法を用いてＡＢＩＣ
^DW（Λ）を最小化することはできない。

【００８６】そこで、学習部１０は、図３に示すような
動作によりＡＢＩＣ^DW（Λ）を最小化する。

【００８７】ステップ１）誤差／荷重比率調整部１１
は、誤差／荷重比率Λを適用な初期値に設定する。

【００８８】ステップ２−１）現在のΛを用い、従来の
第２の方法で評価関数Ｅ^DWを最小化するニューラルネッ
トワーク１の結合荷重を求める。即ち、誤差算出部１１
は、ニューラルネットワーク１の入力層に学習サンプル
データの特徴量を入力した時のニューラルネットワーク
１の出力値と教師信号の誤差を、通常の逆誤差伝搬学習
の場合と同様に、（３）式、（４）式に従って算出す
る。また、荷重差分算出部１２は、初期結合荷重２１Ｗ
_kijと現在の結合荷重の値ｗ_kijを用いて（２１）式の
右辺第２項、即ち、 −２ηλ_kijｗ_kij（ｗ_kij−Ｗ_kij）を算出する。結合荷重調整部１３は、誤差算出部１１で
算出された出力誤差値を用いて、従来の逆誤差伝搬手法
と同様に（２１）式の右辺第１項δ_kij ^Dを算出し、荷
重差分算出部１２で算出された右辺第２項と加え合わせ
て、結合荷重調整量δ_kij ^DWを算出して結合荷重の調整
を行う。

【００８９】以上の誤差算出部１１による誤差算出、荷
重差分算出部１２による結合荷重の初期設定値からのず
れの算出、及び結合荷重調整部１３による結合荷重の調
整を、学習サンプルを繰り返し与えて実行し、評価関数
Ｅ^DWの変化が一定値以下になったとき調整を終了する。

【００９０】ステップ２−２）誤差／荷重比率調整部１
４は、ステップ２により得られる現在のΛに対するＥ＾
^DW（Λ）及びＧ（Λ）の値からＡＢＩＣ^DW（Λ）を算出
する。

【００９１】ステップ３−１）誤差／荷重比率調整部１
４は、ある一つの誤差／比重比率Λ _pを選択して微小量
増加させる。これにより、決定されるΛを用いてステッ
プ２〜３を再度実行する。

【００９２】ステップ３−２）ＡＢＩＣ^DW（Λ）が減少
すれば、ステップ３−５へ、減少していなければ、ステ
ップ３−３に移行する。

【００９３】ステップ３−３）誤差／荷重比率調整部１
４は、ステップ３−１で選んだ誤差／荷重比率λ_pを逆
に微小量減少させる。これによって決まるΛを用いて、
ステップ２〜３を再度実行する。

【００９４】ステップ３−４）ＡＢＩＣ^DW（Λ）が減少
すれば、ステップ３−５へ移行し、減少していなければ
ステップ４−１に移行する。

【００９５】ステップ３−５）直前に使用したΛを現在
の値として以後使用する。

【００９６】ステップ４−１）誤差／荷重比率調整部１
４は、他の誤差／荷重比率Λ^pを選んでステップ３−１
〜３−２を実行する。これを全て誤差／荷重比率λ_pに
ついて繰り返す。

【００９７】ステップ４−２）ＡＢＩＣ^DW（Λ）が全て
の誤差／荷重比率λ_pについて減少しなくなったら終了
し、この時点でのニューラルネットワークの結合荷重を
最終的な値とする。

【００９８】

【発明の効果】上述のように、本発明のニューラルネッ
トワークの学習装置及び学習方法によれば、予め与えら
れた概ね正確であると考えられる分類規則と等価の分類
機能を有するように初期設定されたニューラルネットワ
ークを、教師信号に対する誤差と結合荷重の初期設定値
からのずれの和が減少するように調整する際に、両者の
値が均衡するように、両者を加え合わせる割合である誤
差／荷重比率調整するように構成したので、初期に与え
た分類機能を保ったまま、学習サンプルに対する誤差が
減少するように学習が行われて過剰学習が回避されると
共に、誤差／荷重比率を人手で試行錯誤的に設定する必
要が無くなる。

【図面の簡単な説明】

【図１】本発明の原理構成図である。

【図２】本発明の一実施例のニューラルネットワークの
学習装置の構成図である。

【図３】本発明の一実施例の学習部の動作の概要を示す
フローチャートである。

【図４】多層構造型ニューラルネットワークの構成図で
ある。

【図５】従来の第１の方法を説明するための図である。

【図６】従来の第２の方法を説明するための図である。

【図７】従来の第２の方法の結合荷重設定部の動作を説
明するための図である。

【符号の説明】

１ニューラルネットワーク１０学習手段、学習部１１誤差算出手段、誤差算出部１２荷重差分算出手段、荷重差分算出部１３結合荷重調整手段、結合荷重調整部１５論理演算変換部１６結合荷重設定部２０学習サンプルデータ２１初期結合荷重２２既知である事例データ分類規則

Claims

【特許請求の範囲】

【請求項１】既知である分類規則を既知である分類規
則を論理演算式に変換する変換手段と、得られた論理演
算式と等価の分類機能を有するように多層構造型ニュー
ラルネットワークの構造及び結合荷重を初期設定を行う
手段と、得られたニューラルネットワークを、分類結果
が既知となっている学習サンプルデータを用いて学習さ
せる学習手段を有するニューラルネットワークの学習装
置において、該学習手段は、該学習サンプルデータを入力した時の該ニューラルネッ
トワークの出力と教師信号の出力誤差を算出する誤差算
出手段と、ニューラルネットワークの結合荷重の初期設定値からの
ずれに適当な誤差／荷重比率を掛け合わせた荷重差分を
算出する荷重差分算出手段と、該出力誤差と該荷重差分が均衡するように該誤差／荷重
比率を調整する誤差／荷重比率調整手段と、該出力誤差と該荷重差分の和が減少するように、該誤差
／荷重比率調整手段により調整された該誤差／荷重比率
に基づいて、該ニューラルネットワークの結合荷重を調
整する結合荷重調整手段とを有することを特徴とするニ
ューラルネットワークの学習装置。
【請求項２】前記誤差／荷重比率調整手段は、ある一
つの前記誤差／荷重比率を選択して、微小量増加また
は、微小量減少させる請求項１記載のニューラルネット
ワークの学習装置。
【請求項３】予め与えられた概ね正確であると考えら
れる分類規則と等価の分類機能を有するように初期設定
されたニューラルネットワークの評価関数を最小化する
結合荷重を求めるニューラルネットワークの学習方法に
おいて、該評価関数が所定の値以下になるまで、教師信号に対す
る出力誤差と結合荷重の初期設定値からのずれの和であ
る荷重差分が均衡するように加え合わせる比率（誤差／
荷重比率）を調整することを特徴とするニューラルネッ
トワークの学習方法。