JP2000259598A

JP2000259598A - ニューラルネットワークの最適化学習方法

Info

Publication number: JP2000259598A
Application number: JP11066165A
Authority: JP
Inventors: Tatsuya Iizaka; 達也飯坂; Tetsuo Matsui; 哲郎松井
Original assignee: Fuji Electric Co Ltd
Current assignee: Fuji Electric Co Ltd
Priority date: 1999-03-12
Filing date: 1999-03-12
Publication date: 2000-09-22

Abstract

(57)【要約】【課題】ニューラルネットワークの最適化を高速かつ効
率的に行うニューラルネットワークの最適化学習方法を
提供する。【解決手段】通常の入力層ユニットにノイズ入力層ユニ
ットを付加し、このニューラルネットワークの評価用に
Ｊ_f＝（出力誤差評価項）＋ε’（ニューラルネットワ
ーク評価項）（ただし、ε’は忘却係数）として設計さ
れた評価関数Ｊ_fを用いて出力誤差が少なく、かつ、ニ
ューラルネットワークが単純であると評価できるように
結合係数を増減して学習を行い、学習途中でノイズ入力
層ユニットと中間層ユニットとの結合係数を用いる評価
指標値を残りの学習回数で割った値を新たな忘却係数
ε’として再設定する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、予測、診断、制御
などの情報処理を行うようにニューラルネットワークを
最適化するためのニューラルネットワークの最適化学習
方法に関する。

【０００２】

【従来の技術】ニューラルネットワークは、入出力のデ
ータパターンを与えるだけで入出力の非線形な相関関係
をモデル化することが可能であり、予測、制御、診断な
どの情報処理分野において研究・実用化されている。図
１０は、多層ニューラルネットワークを説明する概念図
である。一般にニューラルネットワークとは、図１０に
示すように入力層、中間層、出力層からなる多層ニュー
ラルネットワーク構造を有しており、さらに、入力層、
中間層、出力層にはユニットが設けられ、入力層と中間
層とのユニット間、中間層と出力層のユニット間に結合
を持つ。

【０００３】ここで、中間層は、図１０で示したような
１層のみに限ることなく複数層にわたるかもしれず、ま
た、ユニット数も不明である。このように中間層はブラ
ックボックスであるため隠れ層とも呼ばれている。な
お、説明上、本明細書において入力層におけるユニット
を入力層ユニットと、中間層におけるユニットを中間層
ユニットと、また、出力層におけるユニットを出力層ユ
ニットと称して説明する。

【０００４】ニューラルネットワークのユニット間の結
合の重みを表すため、結合係数が定義されている。結合
係数が大きければ、結合が重みを有している、つまり、
必要な結合であるとされ、結合係数が小さければ、結合
が重みを有していない、つまり、不要な結合であるとさ
れている。このようなニューラルネットワークの学習と
は、複数の入力層ユニットに入力された入力値に対し、
所望の出力値が得られるように入力層と中間層、また、
中間層と出力層との結合係数を変更することをいう。

【０００５】ニューラルネットワークの学習では、中間
層ユニット数が多ければより複雑な問題を学習すること
が可能になる。しかし、中間層ユニットが多すぎる場合
には過学習という問題が発生する。過学習がおきると汎
化能力が低下する。

【０００６】例えば、ニューラルネットワークを用いる
パターン分類問題で馬の絵のパターンを入力値として馬
に相当する値を出力させる場合において、中間層ユニッ
トが多すぎて過学習が起きると特定の馬の絵のパターン
からしか馬と判定できなくなり、それ以外の馬の絵のパ
ターンからは馬と判定できなくなる。このように過学習
がおきると、学習目標値にノイズがある場合、つまり、
学習した馬の絵が良くない場合や、学習目標値と相関の
低い入力値が入力された場合、つまり、入力された馬の
絵が学習した馬の絵と異なる場合に馬と判定できないと
いうような汎化能力が低下した状態を招く。中間層ユニ
ットは適切な数とするのが望ましい。

【０００７】このようなニューラルネットワークの学習
は、多数提案されている。過学習を考慮しない一般的な
学習方法として、従来例１：バックプロパゲーション法
（誤差逆伝搬法）がある。このバックプロパゲーション
法による学習アルゴリズムでは、ニューラルネットワー
クからの実際の出力（以下、ニューロ出力値という。）
から学習させたい出力（以下学習目標値という。）を引
いた値（以下、出力誤差という。）の２乗を評価関数と
し、この評価関数値が小さくなるように結合係数を増減
する。この評価関数は次式のようになる。

【０００８】

【数１】

【０００９】ここでニューロ出力値は、結合係数の増減
によって変化する値であり、評価関数は結合係数をパラ
メータとする関数である。学習は、目標値とニューロ出
力値が近い結合係数となるように評価関数の微分により
算出される修正量を用いて結合係数の修正を繰り返し行
い学習を行うものである。

【００１０】このバックプロパゲーション法では、ニュ
ーラルネットワークの階層数やユニット数を事前に決定
する必要がある。しかしながら、事前に最適な階層数や
ユニット数に関する情報が得られることはなく、ニュー
ラルネットワークの最適化のためには階層数およびユニ
ット数を試行錯誤的に探索する必要がある。ニューラル
ネットワークの内部構造が複雑な場合は、探索に時間と
手間が係る。また、バックプロパゲーション法により得
られた学習後のニューラルネットワークはブラックボッ
クスとなり、中間層ユニットの意味づけが困難なことが
多い。

【００１１】このように、バックプロパゲーション法
は、最適な学習・最適な構造を求めることが困難であ
り、この問題点を改良するために、多くの観点から各種
の学習アルゴリズムが提案されている。

【００１２】例えば、従来法２：ニューラルネットワー
クのユニット間の不要な結合を消滅させる忘却付き学習
（石川真澄：「ニューラルネットの忘却付き構造学
習」、日本ファジィ学会誌Vol.9,No.1,pp2-9(1997)）で
は、忘却付き学習アルゴリズムが提案されている。この
忘却付き学習アルゴリズムは出力誤差が小さく、かつ、
ユニット間の不要な結合の生成が抑制されたニューラル
ネットワークを構築するものである。評価関数は次式の
ようになる。

【００１３】

【数２】

【００１４】この評価関数では出力誤差を評価する項が
０に近いほど学習目標値に近い出力をしていることにな
り、また、ニューラルネットワークの複雑さを評価する
項が小さいほどニューラルネットワークが単純であるこ
とを表している。この評価関数値は小さければ小さい程
よい。具体的な評価関数には次式などがある。

【００１５】

【数３】

【００１６】ここに数式（３Ａ）および数式（３Ｂ）の
出力誤差を評価する項は共にニューロ出力値から学習目
標値を引いた出力誤差の２乗であるが、ニューラルネッ
トワークの複雑さを評価する項は、数式（３Ａ）では結
合係数の絶対値の和であり、数式（３Ｂ）では結合係数
の２乗和である。ネットワークの複雑さを評価するため
に結合係数を用いる理由は、例えば結合係数が０ならば
結合はないことになり、結合が少ないほどニューラルネ
ットワークが単純であるためである。この場合、数式
（３Ａ）の場合では実際の結合係数の修正には、次式を
用いる。

【００１７】

【数４】

【００１８】このような評価関数Ｊ_fを用い、結合係数
を増減させて最適な結合係数を見つけることとなる。

【００１９】また、従来法３：goodness factor,badnes
s factorなど中間層の重要度・不要度を判定し不要な中
間層を消滅させながら学習する削除的な学習方法（萩
原：「淘汰機能を有するバックプロパゲーション―学習
回数の低減と中間層ユニットの削減法―」、信学論(D-I
I)、Vol.J74-D-II,No.6,pp.812-818(1991)）では、学習
アルゴリズムとして削除的学習法による学習アルゴリズ
ムが提案されている。この学習アルゴリズムは、中間層
ユニットの重要度を判定して、学習中に重要度の低い中
間層を逐次削除しながら学習することで中間層ユニット
数の少ないネットワークを構築する学習法である。

【００２０】中間層ユニットの重要度の判定では、badn
ess factor, goodness factor,effectness factorなど
を用いるものである。badness factorは結合係数の修正
量が多い中間層ユニットを不良ユニット、修正量が小さ
い中間層ユニットを良ユニットとする基準である。good
ness factorは、情報伝達量が多い中間層ユニットを良
ユニット、少ない中間層ユニットを不良ユニットとする
基準である。effectness factorは、中間層ユニットに
つながる結合係数の絶対値の総和が多いものを良ユニッ
ト、小さいものを不良ユニットとする基準である。現在
では、goodness factorを使用することが多い。

【００２１】また、従来法４：中間層の重要度順に学習
する重畳エネルギー関数法（高橋：「重畳エネルギー関
数による多層パーセプトロンの冗長性削減」、電子情報
通信学会論文誌、Ｄ−II、Vol.J80-D-II,No.9,pp.2532-
2540(1997)）では、学習アルゴリズムとして中間層ユニ
ットの重要度順に学習する学習アルゴリズムが提案され
ている。この学習アルゴリズムにより学習されるニュー
ラルネットワークは、中間層ユニットがその重要度順に
並ぶ傾向があり、また、不要な中間層ユニットの生成が
抑制される。

【００２２】図１１は、重畳エネルギー関数法により学
習した中間層ユニットを説明する説明図である。図１１
で示すように、この学習アルゴリズムで学習したニュー
ラルネットワークは、重要度の高い中間層ユニットにつ
ながる結合係数が大きく、重要度の低い中間層ユニット
につながる結合係数は小さくなる傾向がある。また、そ
の結果不要な分散表現が抑制される。

【００２３】不要な分散表現について概略説明する。分
散表現とは、１つでも良い結合が複数の結合に分割され
ること、つまりその結果多くの結合が必要になることを
表す。図１２は不要な分散表現について説明する説明図
であり、簡単化のため、単純なニューラルネットワーク
を仮定している。このニューラルネットワークの出力層
ユニットへの入力値は共に計１．０であるが、図１２
（ａ）では２つの中間層ユニットに分散して情報が伝達
されるのに対し、図１２（ｂ）では１つの中間層ユニッ
トを経て情報が伝達されている点が相違する。図１２
（ｂ）のような場合を分散表現と呼んでいる。

【００２４】不要な分散表現を抑制する具体的な学習方
法の例としては、重畳エネルギー関数がある。この重畳
エネルギー関数について説明する。まず、重畳エネルギ
ー関数で用いる部分ニューロの概念について説明する。
図１３は、部分ニューロを説明する説明図である。図１
３に示すようにＨ個の中間層ユニットを持つニューラル
ネットワークにおいて、中間層ユニット１のみを残し、
中間層ユニット２〜Ｈの中間層ユニットを無視した構造
を部分ニューロ１とし、中間層ユニット１、２だけを残
し中間層ユニット３〜Ｈまでの中間層を無視した構造を
部分ニューロ２とし、以下同様に中間層ユニット１〜ｉ
だけを残し中間層ユニットｉ＋１〜Ｈまでの中間層を無
視した構造を部分ニューロｉとしたＨ個の部分ニューロ
ｉ（ｉ＝１、２、３・・・Ｈ）を仮定する。これら部分
ニューロの評価関数は、次式のようになる。

【００２５】

【数５】

【００２６】ニューラルネットワーク全体の評価関数Ｊ
は部分ニューロの評価関数を足して次式になる。

【００２７】

【数６】

【００２８】このニューラルネットワーク全体の評価関
数Ｊを重畳エネルギー関数と呼んでいる。この重畳エネ
ルギー関数が最小となるとき、分散表現が抑制され、か
つ中間層ユニットの重要度順に並んだニューラルネット
ワークとなる。前述の従来法２では分散表現が発生して
いたが本学習アルゴリズムでは分散表現の発生が抑えら
れ、より単純なニューラルネットワーク構造となる。

【００２９】また、従来法５：AICなどの情報量基準や
遺伝的アルゴリズムを用いて、多くのニューラルネット
ワークの中より最良の構造を選択する方法（栗田：「情
報量基準による３層ニューラルネットワークの隠れ層の
ユニット数の決定方法」、電子情報通信学会論文誌、Ｄ
−II、Vol.J73-D-II,No.11,pp.1872-1878(1990)）で
は、学習アルゴリズムとして情報量基準による学習アル
ゴリズムが提案されている。

【００３０】情報量基準には多くの評価指標があるが、
ニューラルネットワークに対しては、ＡＩＣ（An Infor
mation theoretical Criterion)を用いることが多い。
ＡＩＣとは、出力誤差が小さく、構造が単純（結合が少
ない）なネットワークを良と評価するものである。ＡＩ
Ｃは次式のように表される。

【００３１】ＡＩＣ＝−２（最大対数尤度）＋２×結合数・・・（ａ）

【００３２】ここで、最大対数尤度(ゆうど)とは、学習
誤差から算出される評価指標であり、誤差が正規分布に
従うときには、「学習パターン×ｌｏｇ（出力誤差の２
乗）」である。数式（ａ）の第１項は出力誤差を評価
し、第２項はユニット間の結合数を利用してニューラル
ネットワークの複雑さを評価する。

【００３３】数式（ａ）の傾向として、結合数を０から
増加させるとき、結合数がある値に達するまでは、ＡＩ
Ｃは減少を続け、結合数がある値を越えるとＡＩＣは増
加に転じる傾向を有している。この変化に転じる結合数
を最適な結合数として利用するものである。例えば、結
合数を中間層ユニットのみに限定すれば最適な中間層ユ
ニット数を求めることができる。このように、ＡＩＣの
値が小さいほど出力誤差が小さく単純なネットワークで
あると評価できる。

【００３４】図１４は、情報量基準によるニューラルネ
ットワークの選択の概念図である。図１４に示すよう
に、中間層ユニット数の異なる複数のニューラルネット
ワークから最良のニューラルネットワークを選択する場
合に情報量基準を使用する。具体的には、中間層ユニッ
ト数の異なるニューラルネットワークを多数用意し、Ａ
ＩＣを用いてこれらニューラルネットワークを評価し、
ＡＩＣが最良となるニューラルネットワークを最良とし
て選択する。

【００３５】また、従来法６：入力層ユニットを１つず
つ削除して最適な入力変数を選択する変数減少法（変数
減少法は、ニューラルネットワーク用の学習法というわ
けではなく、一般の回帰式などに使用する方法）という
学習アルゴリズムもある。この変数減少法とは、不要な
入力層ユニットを淘汰するための最適化手法である。図
１５は、変数減少法をニューラルネットワークに適用し
た場合のフローチャートである。この変数減少法は、全
ての入力層ユニットの中から１個の入力層ユニットのみ
を削除し、その残りの入力層ユニットを用いて入力され
た場合の出力誤差を求めて評価するという処理を全ての
入力層ユニットについて求め、出力誤差への影響が最も
少ない入力層ユニットを選んで削除する方法である。

【００３６】

【発明が解決しようとする課題】このように従来法２〜
６までの各種の学習アルゴリズムにおいて、基本的に
は、不要な結合・不要な中間層ユニットを削除したり、
その生成を抑制したりするもの（従来法２、３、４、
６）、もしくは、多くのニューラルネットワークから不
要な中間層ユニットが少ないニューラルネットワークを
情報量基準などを用いて選択するものである（従来法
５）。しかし、ニューラルネットワークの内部構造が複
雑で解析困難なことから、使い勝手も良い万能な学習ア
ルゴリズムは提案されていないのが実状である。

【００３７】以下に、本発明が解決しようとする課題を
具体的に示す。従来法２の問題点は、忘却係数ε’の設定方法がない。分散表現された結合を削除できない。という２点である。

【００３８】忘却係数ε’の設定方法がない。忘却係数ε’は、大きすぎると必要な結合までも消滅し
てしまい、また、小さすぎると不要な結合が残ってしま
うという性質を有しているため、ニューラルネットワー
クの学習に大きな影響を及ぼすが、最適な設定方法がな
く、操作者の経験等に頼らなくてはならないという問題
がある。忘却係数ε’の自動設定方法が必要とされてい
る。

【００３９】分散表現された結合を削除できない。従来法２では先に説明した分散表現が発生する。しか
し、分散表現が発生しても所定の情報伝達がなされる重
要な結合となり、もはや結合を消滅させることができな
い。２値問題（ディジタル問題）をあつかうニューラル
ネットワークでは、結合が１もしくは０になるように誘
導する方法が提案されている。これにより分散表現の解
消が可能であるが、アナログ問題を扱うニューラルネッ
トワークでは、微妙な結合の大きさが重要でありこの方
法を使用できない（結合がかならずしも1.0、0.0ではな
い）。このようにアナログ問題を取り扱うニューラルネ
ットワークにおいても、このような不要な分散表現の発
生を抑制し、単純なニューラルネットワーク構造にする
学習アルゴリズムが必要とされている。

【００４０】また、従来法５はＡＩＣを用いて最適なニ
ューラルネットワーク構造を選択する学習アルゴリズム
であるが、多くのニューラルネットワークを構築し、全
てのニューラルネットワークについて学習しなければな
らず、莫大な時間を要していた。例えば、１０個までの
中間層ユニットが存在するニューラルネットワークを想
定して、中間層ユニットが１の場合、２の場合・・・・
１０の場合という１０通りのニューラルネットワークに
ついてそれぞれ学習する必要がある。しかしながら、１
回でも莫大な時間を要する学習を１０回も行うため時間
の掛かるものであり、時間を短縮したいという要請があ
った。多くのニューラルネットワークを学習することな
しに最適な構造を求められ、かつ、学習時間の短縮が可
能な学習アルゴリズムが必要とされている。

【００４１】さらに、従来法６の通常の変数減少法は、
全ての入力層ユニットの中からある１個の入力層ユニッ
トのみを削除し、残りの入力層ユニットを用いて評価関
数値を求め、続いて全ての入力層ユニットの中から他の
１個の入力層ユニットのみを削除し、残りの入力層ユニ
ットの評価関数値を求めるというような動作を全ての入
力層ユニットについて行い、削除しても評価に影響がな
かった入力層ユニットを削除するというものであり、時
間の掛かるものであった。入力層ユニット数が多い場合
には評価回数が更に多くなる。不要な入力層ユニットを
少ない計算時間で判断することで、高速化する学習アル
ゴリズムが必要とされている。

【００４２】本発明は、以上の問題を改善するものであ
り、いくつかの有望な学習アルゴリズムを融合し、単体
で適用した場合に生じる弱点を他の学習アルゴリズムで
補ったり、適用方法を工夫することで、ニューラルネッ
トワークが最適となるように学習させるものである。そ
して、忘却係数を自動設定する学習アルゴリズム、分散
表現を防止しつつ不要な結合を減少する学習アルゴリズ
ム、中間層を最適化する学習アルゴリズム、または、入
力層を最適化する学習アルゴリズムを提供し、総じて高
速かつ効率的にニューラルネットワークを最適化するニ
ューラルネットワークの最適化学習方法を提供すること
を目的とする。

【００４３】

【課題を解決するための手段】上記課題を解決するた
め、請求項１に記載の発明は、ニューラルネットワーク
のユニット間の結合係数を増減してニューラルネットワ
ークを最適化するニューラルネットワークの最適化学習
方法において、通常の入力層ユニットとは別に少なくと
も１つのノイズ入力層ユニットを入力層において付加し
たニューラルネットワークとし、このニューラルネット
ワークを評価するために、Ｊ_f＝（出力誤差を評価する項）＋ε’（ニューラルネ
ットワークの複雑さを評価する項）（ただし、ε’は忘
却係数）で表され、かつ、結合係数をパラメータとする評価関数
Ｊ_fを設計し、学習回数および忘却係数ε’の初期値を
設定し、評価関数Ｊ_fを用いて出力誤差が少なく、か
つ、ニューラルネットワークが単純であると評価できる
評価関数値となるようにそれぞれの結合係数を増減して
学習を行い、学習途中においてノイズ入力層ユニットと
中間層ユニットとの結合係数を用いる評価指標値を残り
の学習回数で割った値を新たな忘却係数ε’とすること
を特徴とする。

【００４４】また、請求項２に記載の発明は、請求項１
に記載のニューラルネットワークの最適化学習方法にお
いて、前記評価指標値は、ノイズ入力層ユニットに結合
する全ての中間層ユニットとの結合係数の絶対値の平均
値とすることを特徴とする。

【００４５】また、請求項３に記載の発明は、請求項１
に記載のニューラルネットワークの最適化学習方法にお
いて、前記評価指標値は、ノイズ入力層ユニットに結合
する全ての中間層ユニットとの結合係数の絶対値のうち
最大値とすることを特徴とする。

【００４６】また、請求項４に記載の発明は、ニューラ
ルネットワークのユニットとユニットとの結合係数を増
減してニューラルネットワークを最適化するニューラル
ネットワークの最適化学習方法において、Ｊ_f＝（重畳エネルギー関数項）＋ε’（ニューラルネ
ットワークの複雑さを評価する項）（ただし、ε’は忘
却係数）で表され、かつ、結合係数をパラメータとする評価関数
Ｊ_fを設計し、評価関数Ｊ_fを用いて重畳エネルギーが少
なく、かつ、ニューラルネットワークが単純である評価
関数値となるようにそれぞれの結合係数を増減して学習
を行い、学習の結果増減した結合係数が所定値以下の場
合に不要な結合であると判断して不要な結合を消滅させ
ることで、複数のユニットに分散した結合を防止し、か
つ、ニューラルネットワークを単純化することを特徴と
する。

【００４７】また、請求項５に記載の発明は、ニューラ
ルネットワークのユニットとユニットとの結合係数を増
減してニューラルネットワークを最適化するニューラル
ネットワークの最適化学習方法において、学習されたニ
ューラルネットワークにおけるＨ個全ての中間層ユニッ
トの重要度を評価して最も重要度が高い中間素子ユニッ
トを先頭として中間層ユニットを並び換え、重要度が高
い順に並べられた中間層ユニットを先頭からｉ個（ｉ＝
１、２、・・・、Ｈ）含む部分ニューロをＨ個求め、こ
のＨ個の部分ニューロを評価する情報量基準をそれぞれ
求め、情報量基準により最良と評価される部分ニューロ
に含まれる中間層ユニットを中間層と決定し、それ以外
の中間層ユニットを重要度が低いとして削除することを
特徴とする。情報量基準は各種利用が可能であるが最も
好適な情報量基準は、ＡＩＣ＝−２（最大対数尤度）＋２×中間層ユニット数で表されるＡＩＣ（An Infornations theoretical Crit
erion：情報量基準）である。このＨ個の部分ニューロ
に対しそれぞれＡＩＣを求め、ＡＩＣが最小となる部分
ニューロに含まれる中間層ユニットを中間層と決定する
ものである。

【００４８】また、請求項６に記載の発明は、ニューラ
ルネットワークのユニットとユニットとの結合係数を増
減してニューラルネットワークを最適化するニューラル
ネットワークの最適化学習方法において、学習されたニ
ューラルネットワークにおける入力層ユニットとこの入
力層ユニットに結合される全ての中間層ユニットとのそ
れぞれの結合係数およびこの入力層ユニットへの入力値
を用いる評価指標値により入力層ユニットの重要度を評
価し、この重要度に基づいて不要な入力層ユニットを削
除することを特徴とする。

【００４９】また、請求項７に記載の発明は、請求項６
に記載のニューラルネットワークの最適化学習方法にお
いて、前記評価指標値は、入力層ユニットに結合する中
間層ユニットについての結合係数とこの入力層ユニット
への入力値との積を全ての中間層ユニットについて求
め、これら積を全部加算した値とすることを特徴とす
る。

【００５０】

【発明の実施の形態】以下、図に沿って本発明の実施形
態を説明する。図１は本発明の実施形態の学習アルゴリ
ズムのうち忘却係数ε’の決定を説明する説明図であ
る。本学習アルゴリズムＡでは従来法２を改良して評価
関数の忘却係数ε’を求めるようにした。図１で示すよ
うに、通常のニューラルネットワーク構造にノイズ入力
層ユニットを１つ付加する。もし忘却係数ε’の設定が
適切であるならば、付加した入力層ユニットへの結合は
学習が進むにつれ消滅する、つまり、ノイズ入力層ユニ
ットの結合係数は０へ収束する。この性質を利用して忘
却係数ε’を自動設定する。この学習アルゴリズムＡに
ついて概略説明する。

【００５１】具体的なニューラルネットワークとして、
入出力が排他的論理和となるニューラルネットワークを
考える。このニューラルネットワークはユニットとして
入力１、入力２および出力を備え、これら入力と出力と
の関係は以下のようになる。

【００５２】

【表１】

【００５３】このような入力１と入力２に対し排他的論
理和となる出力をするように学習する。この際、入力
１、入力２に加えてノイズ入力（０．０から１．０まで
の実数値による乱数）を付加する。したがって、入力層
では入力層ユニットが３個あり、出力層では出力層ユニ
ットが１個ある。

【００５４】実施時のニューラルネットワークの学習条
件は以下のようにした。ただし、忘却係数は自動算出と
した。

【００５５】

【表２】

【００５６】ここで、評価関数は前述の式（３Ａ）とし
た。また、学習回数は十分に余裕を考えて１０万回とす
る。また、慣性定数とはバックプロパゲーション法にお
いて、学習を高速化させるパラメータ（０．０〜１．０
の実数値）であり、前回の修正量と慣性定数との積の分
だけ、今回の結合係数に加算させるためのものである。
忘却係数ε’の決定は、以下のようになる。．学習１０００回ごとにノイズ入力につながる全ての
結合係数の絶対値平均であるaverage（Ｗ_ij）を求め
る。なお、絶対値平均の代わりにaverage（Ｗ_ij）とし
て複数ある結合係数の絶対値の中の最大値を用いてもよ
い。．次式で忘却係数ε’を設定する。

【００５７】

【数７】

【００５８】ただし、残り学習回数が少なくなると忘却
係数ε’の値が急激に大きくなることがある。そのた
め、通常、忘却係数ε’には上限を設け、忘却係数ε’
の最大値は１０^-5とする。また、学習回数が９万回以降
には、忘却係数ε’の値が急激に大きくなることを回避
するため忘却係数の再設定を行わなかった。忘却係数
ε’は大きすぎると必要な結合までも消滅するという性
質があるため、このような事態を防止する。

【００５９】図２は、忘却係数の変化を示す特性図であ
る。このように忘却係数ε’は値０で開始してから増加
基調で変化している。最初、忘却係数ε’は小さな値で
ある。忘却係数ε’が小さな値の場合、ニューラルネッ
トワーク内の不要な結合を一挙に除去するのではなく徐
々に結合係数を小さくしていく。そして、ニューラルネ
ットワークの学習状態により忘却係数を変化させ、学習
終了時までにノイズ入力につながる結合係数が０へ収束
するように不要な結合を除去していく。このような忘却
係数とすることで、必要な結合を消滅させることなく、
ニューラルネットワーク内の不要な結合を除去すること
ができる。

【００６０】続いて、本実施形態の学習アルゴリズムの
うち分散の抑制について説明する。この学習アルゴリズ
ムＢは、従来法２と従来法４との長所を併せ持つように
した。従来法２は、不要な結合を消滅させることはでき
るが、分散表現された結合は削除できない。従来法４
は、分散表現された結合は防止できるが、不要な結合は
消滅させることができない。そこで、分散表現された結
合をなくし、かつ、不要な結合を消滅させるという従来
法２と従来法４の長所を併せ持つように評価関数を設計
するものである。この評価関数について概略説明する。
評価関数Ｊ_fは以下のようになる。

【００６１】

【数８】

【００６２】ここに、数式（８）の第１項は、分散表現
を防ぐ項であり（従来法４による重畳エネルギー関数と
同一）、第２項は不要な結合を消滅させる項（従来法２
のネットワークの複雑さを表す項）である。評価関数Ｊ
_fを用いて重畳エネルギーが少なく、かつ、ニューラル
ネットワークが単純である評価関数値となるようにそれ
ぞれの結合係数を増減して学習を行い、学習の結果、結
合係数が所定値以下の場合に不要な結合であると判断し
て不要な結合を消滅させることで、複数のユニットに分
散した結合を防止し、かつ、ニューラルネットワークを
単純化する。

【００６３】この評価関数の有効性を検討するため、先
に述べた入出力が排他的論理和となるニューラルネット
ワークを考える。このニューラルネットワークの入力
１、入力２および出力との関係は前述の表１と同じであ
る。そして、入力１、入力２以外に、不要結合の削除能
力を検証するために、ノイズ入力（０．０から１．０ま
での実数値による乱数）を加える点も同じとする。した
がって、入力層では入力層ユニットが３個あり、出力層
では出力層ユニットが１個になる。

【００６４】他のアルゴリズムとの比較のため、従来法
１（バックプロパゲーション）、従来法２（忘却付き学
習）、従来法４（重畳エネルギー関数）による学習アル
ゴリズムでこのニューラルネットワークの最適化学習を
行った。図３〜図６は、学習後の結合状態を示す説明図
である。従来法１（バックプロパゲーション法）による
学習後の結合状態を図３に、従来法２（忘却付き学習）
による学習後の結合状態を図４に、従来法４（重畳エネ
ルギー関数）による学習後の結合状態を図５に、本発明
の学習アルゴリズムＢによる学習後の結合状態を図６に
それぞれ示す。図３〜図６において、太線は結合係数が
１．０以上を表し、細線は結合係数が０．１〜１．０を
表し、結合係数が０．１未満の結合は描画しないことと
した。

【００６５】図３に示すように従来法１（バックプロパ
ゲーション法）では、ノイズ入力層ユニット全ての結合
が残っており複雑なネットワーク構造から脱却できな
い。図４および図５に示すように従来法２（忘却付き学
習）および従来法４（重畳エネルギー関数法）は、ノイ
ズ入力層ユニットへの結合の一部が消滅しており単純化
されているが、充分ではない。本発明の学習アルゴリズ
ムＢでは、ノイズ入力層ユニットへの全ての結合が消滅
しておりニューラルネットワークが最も単純化されてい
る。また、細線が少なくて、かつ、太線が多く、分散表
現が抑制されている。このように本発明の学習アルゴリ
ズムでは良好な結果が得られる。なお、数式（８）に先
に説明した学習アルゴリズムＡの忘却係数ε’の設定手
法を用いても良いことはいうまでもない。

【００６６】続いて、本実施形態の学習アルゴリズムの
うち中間層の最適化について説明する。この学習アルゴ
リズムＣは、従来法３、従来法４および従来法５とを組
み合わせ、ＡＩＣを用いて、ニューラルネットワークの
中間層を最適化する。本学習アルゴリズムＣでは学習が
なされたニューラルネットワークにおいて、従来法３で
述べたような評価評価指標を用いて中間層ユニットを重
要度が高い順に並び換え、従来法４で述べた部分ニュー
ロの概念を用い、重要度が高い順に並べられた中間層ユ
ニットを先頭からｉ個（ｉ＝１、２、・・・Ｈ）含む部
分ニューロをＨ個求め、このＨ個の部分ニューロに対し
従来法５のＡＩＣを適用してＡＩＣが最小となる部分ニ
ューロを求め、この部分ニューロに含まれない中間層ユ
ニットは重要度が低いものとして削除するものである。

【００６７】従来法４では、例えば中間層ユニットが１
０個あるならば中間層ユニットの数が１個、２個、・・
・１０個それぞれのニューラルネットワーク全てを学習
したのちに１つの最良なニューラルネットワークを選択
して中間層ユニット数を決定するため、ニューラルネッ
トワークの数だけ長時間の学習が必要であるが、本学習
アルゴリズムでは１つのニューラルネットワークのみ学
習し、その後に部分ニューロにＡＩＣを適用して最適な
部分ニューロを求めることで中間層ユニットを決定する
ので中間層決定の時間を短縮する。

【００６８】以下、学習アルゴリズムについて説明す
る。なお、充分な数の中間層ユニットを有するニューラ
ルネットワークを一回学習させてあるものとする。（１）中間層ユニット重要度評価中間層ユニットの重要度を評価する。評価指標として
は、従来法３でも述べたbadness factor、goodness fac
tor、effectness factorなどが考えられる。このような
評価指標を用いて中間層の重要度を評価する。ここに重
要度が高いとは、badness factorでは修正量が小さいも
のを良ユニットとする。goodness factorは、中間層ユ
ニットへの情報伝達量が多いものを良ユニットとする。
effectness factorは、中間層ユニットにつながる結合
係数の絶対値の総和が多いものを良ユニットとする。こ
れら評価指標の一例として中間層ユニットの重要度評価
結果を示す。

【００６９】

【表３】

【００７０】表３ではgoodness factor, effectness fa
ctorの２つの評価指標を示すが、今回のケースではgood
ness factorの大きい順に中間層ユニットを並び換える
として説明する。

【００７１】（２）中間層ユニット並び換え中間層ユニットを、その重要度順に並び換える。部分ニ
ューロの重畳エネルギー関数を求める場合、中間層ユニ
ットが重要度が高い順に並び換えられていれば、重要度
の高い中間層ユニットを優先的に含む部分ニューロとな
る。これによりＡＩＣの近似精度が向上する。

【００７２】（３）情報量基準（ＡＩＣ）評価中間層がＨ個ある場合には、部分ニューロ１、２、３、
・・・Ｈの順にその情報量基準を評価する。ここで中間
層ユニットは重要度が高い順に並び換えられており、部
分ニューロ１では最も重要度が高い中間層ユニットを１
個含んでいる。表３ならばgoodness factorが最も大き
い中間層ユニット２を含んでいる。また、部分ニューロ
２は、最も重要度が高い中間層ユニットと次に重要度が
高い中間層ユニットを含んでいる。表３ならばgoodness
factorが最も大きい中間層ユニット２と次に大きい中
間層ユニット１を含んでいる。このように部分ニューロ
は１、２、３、・・・Ｈは番号が大きくなるにつれ、次
に重要度が高い中間層ユニットを含むように設定され
る。

【００７３】このような部分ニューロに対し、情報量基
準を用いて最適な中間層ユニット数を決定する。具体的
な情報量基準は次式に示すＡＩＣを用いた。

【００７４】

【数９】

【００７５】ここに数式（９）の第１項は、出力誤差を
評価する項であり、中間層ユニット数であるパラメータ
Ｎpが増加するにつれ減少する項である。そして、第２
項は、ニューラルネットワークの複雑さを評価する項で
あり、パラメータＮpが増加するにつれ増加する項であ
る。

【００７６】ＡＩＣの特性としては、パラメータＮpが
増加するにつれ、ある値までは第２項より第１項が勝っ
て減少を続けていくが、ある値以降は第１項より第２項
が勝って一転増加に転じるという傾向を持つ。このよう
なＡＩＣが最小値を取るパラメータＮpにおいて、出力
誤差の小ささとネットワークの単純さとのバランスがと
れた中間層ユニット数であると評価するものである。

【００７７】このようなＡＩＣを、部分ニューロ１から
部分ニューロＨについて全て求める。中間層ユニット数
が１個の場合は部分ニューロ１についてのＡＩＣを、中
間層ユニット数が２個の場合は部分ニューロ２について
のＡＩＣを、以下、中間層ユニット数がＨ個の部分ニュ
ーロＨまでそれぞれ求める。

【００７８】（４）部分ニューロ選択（中間層削除）これら求めたＡＩＣが最小値となる部分ニューロに含ま
れる中間層ユニットをニューラルネットワークの中間層
ユニットとして決定する。この場合、部分ニューロｉの
ＡＩＣが最小ならば、中間層ユニット１〜ｉまでを含む
中間層とし、中間層ユニットｉ＋１〜Ｈまでを削除す
る。

【００７９】次に本学習アルゴリズムＣによる効果につ
いて説明する。図７及び図８は、中間層ユニット数によ
る平均２乗誤差およびＡＩＣの特性を示す特性図であ
り、図７は、中間層ユニットの並び換え前、図８は、中
間層ユニットの並び換え後の特性図である。まず最初
に、中間層ユニットの並び換えを行わない部分ニューロ
の評価を図７に示す。ＡＩＣが最良の中間層ユニット数
は４である（部分ニューロ４）。しかし、学習データと
の平均２乗誤差は大きく最適な中間層ユニットとは言え
ない。

【００８０】次に、中間層ユニットを重要度が高い順に
並び換えた後の部分ニューロの評価を図８に示す。ＡＩ
Ｃが最良の中間層ユニット数は５であり（部分ニューロ
５）、平均２乗誤差も小さい。

【００８１】本学習アルゴリズムＣによれば、充分な数
の中間層ユニットを有するニューラルネットワークを１
回学習したのち、中間層ユニットの重要度順に並び換え
て、１つのニューラルネットワークから最適な部分ニュ
ーロを抽出（不要中間層ユニットを削除）するので、Ａ
ＩＣ近似精度向上させる。また、部分ニューロの計算
は、ニューラルネットワークの学習に比べて大幅に短い
ため、従来のように多くの学習を行わず１回の学習でよ
く、中間層ユニットの選択を精度良く、また、短い時間
で行うことができる。なお、学習アルゴリズムＡと学習
アルゴリズムＢを併用して本学習アルゴリズムＣを行っ
ても良い。

【００８２】続いて、本実施形態の学習アルゴリズムの
うち入力層の最適化について説明する。この学習アルゴ
リズムＤは、従来法６の変数減少法より大幅に高速化し
ている。具体的には、従来法６の変数減少法で時間の掛
かる要因であった重要度の低い入力層ユニットの判定
を、後述する評価指標値を用いる判定とし、全体の評価
数を減らし高速化する。評価指標値は、入力層ユニット
とこの入力層ユニットに結合される全ての中間層ユニッ
トとのそれぞれの結合係数および入力層ユニットへの入
力値を用い、情報伝達量の大小を評価する。

【００８３】具体的な学習アルゴリズムについて説明す
る。図９は、学習アルゴリズムのフローチャートであ
る。以下、本実施形態の学習アルゴリズムのフローにつ
いて説明する。ステップＳ１は、ニューラルネットワー
クの学習を行うステップである。最初は不要な入力層ユ
ニットを含めて学習する。ステップＳ２は、学習により
得た結合係数を書き換え保存するステップである。ニュ
ーラルネットワークの結合係数をステップＳ１により求
めた新しい結合係数に書き換えて保存する。

【００８４】ステップＳ３は入力層ユニットの重要度を
判定するステップである。判定方法としては、ある入力
層ユニットから中間層への情報伝達量が多い入力を重要
度が高いとする評価指標を用いる（goodness factorの
改良）。このような評価指標値を求める関数について次
式に示す。

【００８５】

【数１０】

【００８６】この数式（１０）によれば、入力層ユニッ
トとこの入力層ユニットに結合される中間層ユニットと
の結合係数と入力層ユニットへの入力値との積を、全て
の中間層ユニットについて求め、これら積を全て加算し
たものも評価指標値としている。この評価指標値の値が
大きい場合は、情報伝達情報量が多いため重要度が高い
入力層ユニットとし、評価指標値が小さい場合は、情報
伝達情報量が少ないため重要度が低い入力層ユニットと
判定する。このステップＳ３の処理においては、他の重
要度判定手法も適用可能であり、effectness factorに
よる評価指標値なども考えられる。

【００８７】ステップＳ４は、重要度の低い入力層ユニ
ットを削除するステップである。ステップＳ３で求めた
評価指標値を用いて重要度の最も低い入力層ユニットを
１つ削除する。ステップＳ５は、入力層ユニットが１つ
削除されたニューラルネットワークの学習を行うステッ
プである。

【００８８】ステップＳ６は、学習されたニューラルネ
ットワークの出力誤差が減少したか否かを判定するステ
ップである。出力誤差が減少したと判断するならばステ
ップＳ２の先頭へジャンプして、再度入力層ユニットの
減少を行い、出力誤差が増加したと判断するならばこれ
以上入力層ユニットを減少させられないとしてフローを
終了する。

【００８９】図１５を用いて従来法６として説明した通
常の変数減少法は、全ての入力層ユニットの中から１個
の入力層ユニットのみを削除し、その残りの入力層ユニ
ットを用いて入力された場合の出力誤差を求めて評価す
るが、これを全ての入力層ユニットに対して求める必要
があるため、入力層ユニットの数だけ出力誤差を求める
必要があり、時間を要していた。しかし、本発明の学習
アルゴリズムでは簡単で計算に時間を要しない評価指標
を設計し、この評価指標値を求めて不必要な入力層ユニ
ットを判別するため、時間を要する処理がなくなり全体
の処理を高速化する。なお、学習アルゴリズムＡ、学習
アルゴリズムＢまたは学習アルゴリズムＣを併用して本
学習アルゴリズムＤを行っても良い。

【００９０】

【発明の効果】請求項１、２、３の発明は、忘却係数
ε’の自動調整方法である。忘却付き学習の性能は忘却
係数ε’の設定に大きく影響される。忘却係数ε’が大
きすぎると、有用な結合までも消滅する。小さすぎる
と、不要な結合が生成される。本発明では、忘却係数
ε’を自動的に最適な値に設定することができ、最適化
学習されたニューラルネットワークが常に良好な性能を
有することが期待できる。

【００９１】請求項４の発明は、忘却付き学習の改良で
ある。従来の忘却付き学習は不要な結合を削除するもの
であるが、分散して記憶された結合までは削除すること
ができない。そこで、本発明で不要な分散をおさえるこ
とで、より多くの結合を削除することができ、より最適
な学習が行える。

【００９２】請求項５の発明は、中間層ユニットを最適
化する。従来の情報量基準の使用方法は、中間層ユニッ
ト数の異なる多くのニューラルネットワークを学習させ
た後、最良のニューラルネットワークの出力誤差を判定
するものであった。ニューラルネットワークに情報量基
準を適用した場合には、情報量基準はその近似解しか与
えないため、良好な結果を得るためには多くのニューラ
ルネットワークを構築の上学習しなければならず、莫大
な時間がかかった。本発明は、たった１つのニューロネ
ットワークに適用する方法で、このニューラルネットワ
ークから適切な部分ニューロを抽出するものである（中
間層ユニットを決定する方法とも、不要な中間層ユニッ
トを削除する方法とも言える）。また、中間層ユニット
の重要度判定を併用することで情報量基準の近似性能を
向上させているのも特徴である。

【００９３】請求項６，７の発明は、入力層ユニットの
最適化である。不要な入力があると、ニューラルネット
ワークの汎化能力が低下する。入力層ユニットの重要度
判定を行うことで、高速に不要な入力層ユニットを決定
することができる。

【００９４】このように、忘却係数を自動設定する学習
アルゴリズム、分散表現を防止しつつ不要な結合を減少
する学習アルゴリズム、中間層を最適化する学習アルゴ
リズム、または、入力層を最適化する学習アルゴリズム
を提供し、総じて高速かつ効率的にニューラルネットワ
ークを最適化するニューラルネットワークの最適化学習
方法を提供することができる。

【図面の簡単な説明】

【図１】本発明の実施形態の学習アルゴリズムのうち忘
却係数ε’の決定を説明する説明図である。

【図２】忘却係数の変化を示す特性図である。

【図３】学習後の結合状態を示す説明図である。

【図４】学習後の結合状態を示す説明図である。

【図５】学習後の結合状態を示す説明図である。

【図６】学習後の結合状態を示す説明図である。

【図７】中間層ユニット数による平均２乗誤差およびＡ
ＩＣの特性を示す特性図である。

【図８】中間層ユニット数による平均２乗誤差およびＡ
ＩＣの特性を示す特性図である。

【図９】学習アルゴリズムのフローチャートである。

【図１０】ニューラルネットワークを説明する概念図で
ある。

【図１１】重畳エネルギー関数法により学習した中間層
ユニットを説明する説明図である。

【図１２】不要な分散表現について説明する説明図であ
る。

【図１３】部分ニューロを説明する説明図である。

【図１４】情報量基準によるニューラルネットワークの
選択の概念図である。

【図１５】変数減少法をニューラルネットワークに適用
した場合のフローチャートである。

Claims

【特許請求の範囲】

【請求項１】ニューラルネットワークのユニット間の結
合係数を増減してニューラルネットワークを最適化する
ニューラルネットワークの最適化学習方法において、通常の入力層ユニットとは別に少なくとも１つのノイズ
入力層ユニットを入力層において付加したニューラルネ
ットワークとし、このニューラルネットワークを評価するために、Ｊ_f＝（出力誤差を評価する項）＋ε’（ニューラルネ
ットワークの複雑さを評価する項）（ただし、ε’は忘
却係数）で表され、かつ、結合係数をパラメータとする評価関数
Ｊ_fを設計し、学習回数および忘却係数ε’の初期値を設定し、評価関数Ｊ_fを用いて出力誤差が少なく、かつ、ニュー
ラルネットワークが単純であると評価できる評価関数値
となるようにそれぞれの結合係数を増減して学習を行
い、学習途中においてノイズ入力層ユニットと中間層ユニッ
トとの結合係数を用いる評価指標値を残りの学習回数で
割った値を新たな忘却係数ε’とすることを特徴とする
ニューラルネットワークの最適化学習方法。
【請求項２】請求項１に記載のニューラルネットワーク
の最適化学習方法において、前記評価指標値は、ノイズ入力層ユニットに結合する全
ての中間層ユニットとの結合係数の絶対値の平均値とす
ることを特徴とするニューラルネットワークの最適化学
習方法。
【請求項３】請求項１に記載のニューラルネットワーク
の最適化学習方法において、前記評価指標値は、ノイズ入力層ユニットに結合する全
ての中間層ユニットとの結合係数の絶対値のうち最大値
とすることを特徴とするニューラルネットワークの最適
化学習方法。
【請求項４】ニューラルネットワークのユニットとユニ
ットとの結合係数を増減してニューラルネットワークを
最適化するニューラルネットワークの最適化学習方法に
おいて、Ｊ_f＝（重畳エネルギー関数項）＋ε’（ニューラルネ
ットワークの複雑さを評価する項）（ただし、ε’は忘
却係数）で表され、かつ、結合係数をパラメータとする評価関数
Ｊ_fを設計し、評価関数Ｊ_fを用いて重畳エネルギーが少なく、かつ、
ニューラルネットワークが単純である評価関数値となる
ようにそれぞれの結合係数を増減して学習を行い、学習の結果増減した結合係数が所定値以下の場合に不要
な結合であると判断して不要な結合を消滅させること
で、複数のユニットに分散した結合を防止し、かつ、ニ
ューラルネットワークを単純化することを特徴とするニ
ューラルネットワークの最適化学習方法。
【請求項５】ニューラルネットワークのユニットとユニ
ットとの結合係数を増減してニューラルネットワークを
最適化するニューラルネットワークの最適化学習方法に
おいて、学習されたニューラルネットワークにおけるＨ個全ての
中間層ユニットの重要度を評価して最も重要度が高い中
間素子ユニットを先頭として中間層ユニットを並び換
え、重要度が高い順に並べられた中間層ユニットを先頭から
ｉ個（ｉ＝１、２、・・・、Ｈ）含む部分ニューロをＨ
個求め、このＨ個の部分ニューロを評価する情報量基準をそれぞ
れ求め、情報量基準により最良と評価される部分ニューロに含ま
れる中間層ユニットを中間層と決定しそれ以外の中間層
ユニットを重要度が低いとして削除することを特徴とす
るニューラルネットワークの最適化学習方法。
【請求項６】ニューラルネットワークのユニットとユニ
ットとの結合係数を増減してニューラルネットワークを
最適化するニューラルネットワークの最適化学習方法に
おいて、学習されたニューラルネットワークにおける入力層ユニ
ットとこの入力層ユニットに結合される全ての中間層ユ
ニットとのそれぞれの結合係数およびこの入力層ユニッ
トへの入力値を用いる評価指標値により入力層ユニット
の重要度を評価し、この重要度に基づいて不要な入力層ユニットを削除する
ことを特徴とするニューラルネットワークの最適化学習
方法。
【請求項７】請求項６に記載のニューラルネットワーク
の最適化学習方法において、前記評価指標値は、入力層ユニットに結合する中間層ユ
ニットについての結合係数とこの入力層ユニットへの入
力値との積を全ての中間層ユニットについて求め、これら積を全部加算した値とすることを特徴とするニュ
ーラルネットワークの最適化学習方法。