JP2001256212A

JP2001256212A - ニューラルネットワークの最適化学習方法

Info

Publication number: JP2001256212A
Application number: JP2000071011A
Authority: JP
Inventors: Tatsuya Iizaka; 達也飯坂; Tetsuo Matsui; 哲郎松井
Original assignee: Fuji Electric Co Ltd
Current assignee: Fuji Electric Co Ltd
Priority date: 2000-03-09
Filing date: 2000-03-09
Publication date: 2001-09-21
Anticipated expiration: 2020-03-09
Also published as: JP4226754B2

Abstract

(57)【要約】【課題】いくつかの有望な学習アルゴリズムを融合し、
単体で適用した場合に生じる弱点を他の学習アルゴリズ
ムで補ったり、適用方法を工夫することで、高速かつ効
率的にニューラルネットワークを最適化するニューラル
ネットワークの最適化学習方法を提供する。【解決手段】重畳エネルギー関数法によるニューラルネ
ットワークの学習を行い、このニューラルネットワーク
の中間層の分散が所定値以下の場合にこの中間層素子と
バイアス素子とを融合し、また、このニューラルネット
ワークの中間層の中の２個の素子の相関係数の絶対値が
所定値以上の場合にこれら２個の中間層素子を情報伝達
的に同じ働きであるとして融合するコンパクト構造化を
行い、学習とコンパクト構造化とを交互に行って中間層
の素子を削減しつつニューラルネットワークを最適化す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、予測、診断、制御
などの情報処理を行うようにニューラルネットワークを
最適化するためのニューラルネットワークの最適化学習
方法に関する。

【０００２】

【従来の技術】ニューラルネットワークは、入出力のデ
ータパターンを与えるだけで入出力の非線形な相関関係
をモデル化・学習することが可能であり、予測、制御、
診断などの情報処理分野において研究・実用化されてい
る。図８は、多層ニューラルネットワークを説明する概
念図である。一般にニューラルネットワークとは、図８
に示すように入力層、中間層、出力層からなる多層ニュ
ーラルネットワーク構造を有しており、さらに、入力
層、中間層、出力層には素子が設けられ、入力層と中間
層との素子間、中間層と出力層との素子間に結合を持
つ。

【０００３】ここで、中間層は、図８で示したような１
層のみに限ることなく複数層にわたることもあり、ま
た、素子数も図８で示したような３個に限定するもので
なく任意数の素子とすることができる。このように中間
層はブラックボックスであるため隠れ層とも呼ばれてい
る。なお、説明上、本明細書において入力層における素
子を入力層素子と、中間層における素子を中間層素子
と、また、出力層における素子を出力層素子と称して説
明する。また、一般的に、中間層素子と出力層素子とに
は、一定値（図８では１．０である）を出力するバイア
ス素子が結合されているが、必要時にのみバイアス素子
を図示して説明し、それ以外は図示を省略する。

【０００４】結合係数は、ニューラルネットワークの素
子間の結合の重みを表すための係数である。結合係数が
大きければ、結合が重みを有している、つまり、必要な
結合であるとされ、結合係数が小さければ、結合が重み
を有していない、つまり、不要な結合であるとされる。
このようなニューラルネットワークの学習とは、複数の
入力層素子に入力された入力値に対し、所望の出力値が
得られるように入力層と中間層、また、中間層と出力層
との結合係数を変更することをいう。

【０００５】ニューラルネットワークの学習では、中間
層素子数が多ければより複雑な問題を学習することが可
能になる。しかし、中間層素子が多すぎる場合には過学
習という問題が発生する。過学習がおきると汎化能力が
低下する。

【０００６】例えば、ニューラルネットワークを用いる
パターン分類問題で馬の絵のパターンを入力値として馬
と判断したことに相当する値を出力させる場合におい
て、中間層素子が多すぎて過学習が起きると特定の馬の
絵のパターンからしか馬と判定できなくなり、それ以外
の馬の絵のパターンからは馬と判定できなくなる。この
ように過学習がおきると、学習目標値にノイズがある場
合、つまり、学習した馬の絵が良くない場合や、学習目
標値と相関の低い入力値が入力された場合、つまり、入
力された馬の絵が学習した馬の絵と異なる場合に馬と判
定できないというような汎化能力が低下した状態を招
く。中間層素子は適切な数とするのが望ましい。

【０００７】このようなニューラルネットワークの学習
は、多数提案されている。過学習を考慮しない一般的な
学習方法として、従来例１：バックプロパゲーション法
（誤差逆伝搬法）がある。このバックプロパゲーション
法による学習アルゴリズムでは、ニューラルネットワー
クからの実際の出力値（以下、ニューロ出力値とい
う。）から学習させたい出力（以下、学習目標値とい
う。）を引いた値（以下、出力誤差という。）の２乗を
評価関数とし、この評価関数値が小さくなるように結合
係数を増減する。この評価関数は次式のようになる。

【０００８】

【数３】

【０００９】ここでニューロ出力値は、結合係数の増減
によって変化する値であり、評価関数は結合係数をパラ
メータとする関数である。学習は、目標値とニューロ出
力値とが近い結合係数となるように評価関数の微分によ
り算出される修正量を用いて結合係数の修正を繰り返し
行って学習するものである。

【００１０】このバックプロパゲーション法では、ニュ
ーラルネットワークの階層数や素子数を事前に決定する
必要がある。しかしながら、事前に最適な階層数や素子
数に関する情報が得られることはなく、ニューラルネッ
トワークの最適化のためには階層数および素子数を試行
錯誤的に探索する必要がある。ニューラルネットワーク
の内部構造が複雑な場合は、探索に時間と手間がかか
る。また、バックプロパゲーション法により得られた学
習後のニューラルネットワークはブラックボックスとな
り、中間層素子の意味づけが困難なことが多い。

【００１１】このように、バックプロパゲーション法
は、最適な学習・最適な構造を求めることが困難であ
り、この問題点を改良するために、多くの観点から各種
の学習アルゴリズムが提案されている。

【００１２】例えば、従来法２：中間層の重要度順に学
習する重畳エネルギー関数法（高橋：「重畳エネルギー
関数による多層パーセプトロンの冗長性削減」、電子情
報通信学会論文誌、Ｄ−ＩＩ、Vol.J80-D-ＩＩ,No.9,p
p.2532-2540(1997)）では、中間層素子の重要度順に学
習する学習アルゴリズムが提案されている。この学習ア
ルゴリズムにより学習されるニューラルネットワーク
は、中間層素子がその重要度順に並ぶ傾向があり、ま
た、不要な中間層素子の生成が抑制される。

【００１３】図９は、重畳エネルギー関数法により学習
された中間層素子を説明する説明図である。図９で示す
ように、この学習アルゴリズムで学習したニューラルネ
ットワークは、重要度の高い中間層素子につながる結合
係数が大きく（図９の太線の矢印）、また、重要度の低
い中間層素子につながる結合係数は小さく（図９の細線
の矢印）なる傾向がある。また、その結果不要な分散表
現が抑制される。

【００１４】不要な分散表現について概略説明する。分
散表現とは、１つでも良い結合が複数の結合に分割され
ること、つまり、その結果多くの結合が必要になること
を表す。図１０は不要な分散表現について説明する説明
図であり、簡単化のため、単純なニューラルネットワー
クを仮定している。このニューラルネットワークの出力
層素子への入力値は共に計１．０であるが、図１０
（ａ）では２つの中間層素子に分散して情報が伝達され
るのに対し、図１０（ｂ）では１つの中間層素子を経て
情報が伝達されている点が相違する。図１０（ａ）のよ
うな場合を分散表現と呼んでいる。

【００１５】重畳エネルギー関数は、このような不要な
分散表現を抑制する。続いて、この重畳エネルギー関数
について説明する。まず、重畳エネルギー関数で用いる
部分ニューロの概念について説明する。図１１は、部分
ニューロを説明する説明図である。図１１に示すように
Ｈ個の中間層素子を持つニューラルネットワークにおい
て、中間層素子１のみを残し、中間層素子２〜Ｈの中間
層素子を無視した構造を部分ニューロ１とし、中間層素
子１、２だけを残し中間層素子３〜Ｈまでの中間層を無
視した構造を部分ニューロ２とし、以下同様に中間層素
子１〜ｉだけを残し中間層素子ｉ＋１〜Ｈまでの中間層
を無視した構造を部分ニューロｉとしたＨ個の部分ニュ
ーロｉ（ｉ＝１、２、３・・・Ｈ）を仮定する。これら
部分ニューロの評価関数は、次式のようになる。

【００１６】

【数４】

【００１７】ニューラルネットワーク全体の評価関数Ｊ
は部分ニューロの評価関数を足して次式になる。

【００１８】

【数５】

【００１９】このニューラルネットワーク全体の評価関
数Ｊを重畳エネルギー関数と呼んでいる。この重畳エネ
ルギー関数が最小となるとき、分散表現が抑制され、か
つ中間層素子の重要度順に並んだニューラルネットワー
クとなる。図１２は、重畳エネルギー関数法による学習
の流れを示すフローチャートである。ニューラルネット
ワークの階層数や素子数を決定する初期化を行い（ステ
ップＳ１００）、重畳エネルギー関数法による学習を行
い（ステップＳ１１０）、学習を所定回数行ったか否か
を判定して所定回数行ったならば学習終了と判断する
（ステップＳ１２０）。本学習アルゴリズムでは分散表
現の発生が抑えられ、より単純なニューラルネットワー
ク構造となる。

【００２０】また、従来法３：コンパクト構造化法（増
田：「隠れユニットの合成による階層型ニューラルネッ
トワークのコンパクト構造化」、計測自動制御学会論文
集、Vol.28,No.4,pp.519-527(1992)）では、不要の中間
層素子を他の中間層素子に融合させることで最適化を行
う学習アルゴリズムが提案されている。

【００２１】本学習アルゴリズムにより不要の中間層素
子を他の中間層素子に融合する場合、２種類の融合があ
る。図１３は、融合を説明する説明図であり、図１３
（ａ）では、入力層に入力される学習パターンの変化に
対応して出力値が変化する場合に相関傾向を有する複数
の中間層素子を説明し、図１３（ｂ）では、入力層の入
力値が変化しても出力する値が変化せず一定値を出力す
るバイアス素子的な振る舞いをする中間層素子を説明す
る。

【００２２】また、図１４は、学習パターンに対する中
間層素子の出力を示す出力図であり、図１４（ａ）は、
入力層に入力される学習パターンの変化に対応して出力
値が変化する場合に相関傾向を有する複数の中間層素子
の出力を、また、図１４（ｂ）では、入力層の入力値が
変化しても出力する値が変化しないバイアス素子的な振
る舞いをする中間層素子の出力をそれぞれ説明する。

【００２３】図１３（ａ）で示す２つの中間層素子から
は、図１４（ａ）で示すように、同傾向の出力値が出力
され（相関の高い中間層素子出力）、また、図１３
（ｂ）のバイアス素子的な中間層素子からは、図１４
（ｂ）で示すように、学習パターンが変化するにも拘わ
らず一定値が出力される（バイアス素子的な振る舞いを
する中間層素子出力）。このような相関の高い中間層素
子出力およびバイアス素子的な振る舞いをする中間層素
子出力を検出する必要がある。なお、バイアス素子的な
振る舞いをする中間層素子とは、バイアス素子とは別個
に存在する素子であり、これらは区別される。

【００２４】続いて、これら出力の検出方法について説
明する。上述のような中間層素子出力をする中間層素子
を検出するため、前記数式２で定義される相関係数γ_ij
を導入する。この数式２により、２つの中間層素子から
の出力値系列の相関関係を定量的に扱うことができる。
図１３（ａ）で示す２個の中間層素子の出力が、図１４
（ａ）に示すように、２つの中間層素子からの出力値系
列が同傾向の場合には相関係数γ_ijは１に近い値とな
り、また、出力値系列が逆傾向の場合には相関係数γ_ij
は−１に近い値となる。なお、全く相関関係にない場合
は、０に近い値をとるため、相関係数γ_ijにより相関関
係が明確に認識できる。この特徴から相関係数の絶対値
が１に近い程、相関が高い。

【００２５】しかしながら、図１３（ｂ），図１４
（ｂ）で示すようなバイアス素子的な振る舞いをする中
間層素子について、相関係数γ_ijでは判別ができない。
そこで、このようなバイアス素子的な振る舞いをする中
間層素子を判別するために前記数式１で定義される中間
層素子出力値の分散ｓ_i ²を導入する。

【００２６】図１３（ｂ）で示す１個の中間層素子の出
力が、図１４（ｂ）のような場合、分散ｓ_i ²は０に近い
値となる。中間層素子の出力は、学習パターンの変化に
も拘わらず、ほぼ一定となっており、上の層の素子に対
してバイアス素子的な振る舞いをしている。以上、融合
する中間層素子の検出について、相関の高い中間層素子については、中間層素子からの
出力値の相関係数が高い２つの中間層素子を融合の対象
とする。バイアス素子的な振る舞いをする中間層素子について
は、中間層素子からの出力の分散値が０に近い中間層素
子をバイアス素子との融合の対象とする。

【００２７】続いて、相関の高い中間層素子について
の融合手法について説明する。図１５は、ニューラルネ
ットワークの融合を説明する説明図である。図１５
（ａ）で示すような中間層素子ｉ，ｊからの出力値の相
関が高いため図１５（ｂ）で示すように中間層素子ｉ，
ｊを融合する場合について説明する。中間層素子ｉ，ｊ
からの出力値系列｛Ｏ_iP｝，｛Ｏ_jP｝の相関が高い場
合、２変量Ｏ_i，Ｏ_j の関係は多変量解析で周知のよう
に、次式の線形回帰式で近似的に表現することができ
る。

【００２８】

【数６】

【００２９】数式６を用いると、上の層に属する任意の
素子（中間層素子や出力層素子など）ｋへの入力は、次
式のようになる。

【００３０】

【数７】

【００３１】すなわち、図１５（ｂ）で示すように中間
層素子ｉおよびバイアス素子から素子ｋへの結合係数を
次式のように修正する。

【００３２】

【数８】

【００３３】この修正によって、中間層素子ｊを中間層
素子ｉに融合することができる。なお、融合を行う際、
中間層素子ｊと中間層素子ｉとでどちらを融合するかが
問題となるが、出力値系列の分散の大きいほうを情報伝
達的により活発に機能していると考える。相関の高い中
間層素子出力についての融合はこのようになされる。

【００３４】続いて、バイアス素子的な振る舞いをす
る中間層素子とバイアス素子との融合について説明す
る。図１５（ａ）で示すような中間層素子ｉとバイアス
素子とを図１５（ｃ）で示すように融合する場合につい
て説明する。中間層素子ｉからの出力値系列｛Ｏ_iP｝の
分散が小さい場合、Ｏ_iの出力はほぼ一定で、Ｏ_iの出力
は次式のように平均値で近似できる。

【００３５】

【数９】

【００３６】数式９を用いると、上の層に属する任意の
素子（中間層素子や出力層素子など）ｋへの入力は、次
式のようになる。

【００３７】

【数１０】

【００３８】すなわち、図１５（ｃ）で示すようにバイ
アス素子から素子ｋへの結合係数を次式のように修正す
る。

【００３９】

【数１１】

【００４０】この修正によって、バイアス素子的な傾向
を有する中間層素子ｉをバイアス素子に融合することが
できる。以上、ニューラルネットワークのコンパクト構
造化法ではこのような２通りの融合により中間層素子の
削減を行う。

【００４１】図１６は、従来のコンパクト構造化の学習
アルゴリズムのフローチャートである。図１６で示すよ
うにバックプロパゲーション学習（Ｓ２０２）とコンパ
クト構造化（Ｓ２０３〜Ｓ２０８）を交互に行い、所定
回数実施したならば学習終了と判断する（Ｓ２０９）も
のである。

【００４２】また、本発明者も複数の最適化アルゴリズ
ムを複合的に組み合わせて学習能力を高めたニューラル
ネットワークの最適化学習法を発明しており、特願平１
１−６６１６５号として特許出願されるに至っている。

【００４３】

【発明が解決しようとする課題】このように従来法２，
３の各種の学習アルゴリズムは、基本的には、不要な結
合・不要な中間層素子の生成を抑制してニューラルネッ
トワークを最適化するもの（従来法２）、もしくは、中
間層素子を融合することで中間層素子を削減してニュー
ラルネットワークを最適化するものである（従来法
３）。しかし、ニューラルネットワークの内部構造が複
雑で解析困難なため、使い勝手が良い万能な学習アルゴ
リズムは提案されていないのが実状である。また、高度
な最適化のためのアルゴリズムは、一般的に計算量が厖
大であり、学習に時間がかかる欠点がある。

【００４４】以下に、本発明が解決しようとする課題を
具体的に示す。従来法２（重畳エネルギー関数法）の問
題点は、不要な中間層素子の抑制が完全でなく、中間層素子が
適数よりもはるかに多い状態で学習を行うと、多くの不
要中間層素子が残る。不要な中間層素子を自動的に削減することができな
い。計算量が多く学習時間が長い。という３点である。

【００４５】不要な中間層素子の抑制が完全でないた
め、中間層素子が適数よりもはるかに多い状態で学習を
行うと、多くの不要中間層素子が残る。中間層素子が最
適数より若干多い程度から学習を開始すれば、最適数の
中間層素子数に収束するが、この最適数を求める手段は
ない。最適数よりも多い中間層素子数で学習を開始する
と、最適数よりも多い中間層素子数に収束し、最適数に
収束しずらい。

【００４６】不要中間層素子を自動的に削減すること
ができない。通常、中間層素子の削除は、学習終了後に
人が判断して削除する。また、削除対象とする中間層素
子を判断する明確な基準はない。このように、学習中に
自動的に不要中間層素子を削除できなかった。

【００４７】計算量が多く学習時間が長い。不要な中
間層素子も含まれるニューラルネットワーク全体の結合
係数の値を計算するため、計算量が多くなり、学習時間
が長くなっている。

【００４８】また、従来法３（コンパクト構造化法）の
問題点は、中間層素子の過融合・過小融合学習初期段階では、中間層素子の融合処理を行うこと
ができない。という２点である。

【００４９】中間層素子の過融合・過小融合融合を判断するための相関係数および分散のしきい値の
設定方法が確立されておらず、不適切な相関係数および
分散のしきい値とした場合は、中間層素子が過融合また
は過小融合することが多い。また、しきい値の調整だけ
では、過融合または過小融合を防ぐことが困難な場合も
ある。

【００５０】学習初期段階では、中間層素子の融合処
理を行うことができない。学習初期段階でコンパクト構
造化を行うと、良好な融合ができない。コンパクト構造
化法は、まず、出力値系列の分散が小さい中間層素子を
不要としてバイアス素子に融合し、その後に、出力値系
列の相関係数の高い中間層素子どうしを融合する。しか
し、学習初期段階では、各中間層素子どうしの役割が分
化しておらず、不要な中間層素子からの出力値系列でも
分散および相関係数が大きい。このため、学習初期段階
にコンパクト構造化を行うと不要な中間層素子とバイア
ス素子とを融合できないのみならず、不要な中間層素子
と必要な中間層素子とを融合してしまうという問題点も
あった。

【００５１】また、特願平１１−６６１６５号の発明で
は、不要中間層素子の自動削除が可能となるように工夫
されており、従来法２，３と比較して優れているが、学
習終了後に中間層素子を削除する処理である。学習中で
も中間層素子を削除できるようにして学習能力を高める
学習アルゴリズムが必要とされていた。

【００５２】このようにニューラルネットワークにおい
て、中間層素子が最適数のニューラルネットワーク構造
を生成する学習アルゴリズムが必要とされている。ま
た、不要な中間層素子を学習中に削除できるようにして
計算時間を少なくし、高速化する学習アルゴリズムが必
要とされている。

【００５３】本発明は、以上の問題を改善するものであ
り、いくつかの有望な学習アルゴリズムを融合し、単体
で適用した場合に生じる弱点を他の学習アルゴリズムで
補ったり、適用方法を工夫することで、高速かつ効率的
にニューラルネットワークを最適化するニューラルネッ
トワークの最適化学習方法を提供することを目的とす
る。

【００５４】

【課題を解決するための手段】上記課題を解決するた
め、請求項１に記載の発明は、ニューラルネットワーク
の入力層、中間層、および、出力層の素子間の結合係数
を増減してニューラルネットワークを最適化するニュー
ラルネットワークの最適化学習方法において、重畳エネ
ルギー関数法によるニューラルネットワークの学習を行
い、このニューラルネットワークの中間層の中の１個の
素子の出力値系列を用いて求めた分散が所定値以下の場
合にこの素子をバイアス素子に融合し、また、このニュ
ーラルネットワークの中間層の中の２個の素子の出力値
系列を用いて求めた相関係数の絶対値が所定値以上の場
合にこれら２個の素子を情報伝達的に同じ働きであると
して融合するコンパクト構造化を行い、学習とコンパク
ト構造化とを交互に行って中間層の素子を削減しつつニ
ューラルネットワークを最適化することを特徴とする。

【００５５】この請求項１の発明では、重畳エネルギー
関数法によるニューラルネットワークの学習と不要な中
間層素子を融合するコンパクト構造化を交互に行うこと
で、学習中に自動的に不要中間層素子を削減する（従来
法２の問題を解決する）。これによって、不要な中間
層素子も含む初期中間層素子が最適数でないような場合
の影響が緩和され、最適な中間層素子数に収束しやすく
なる（従来法２の問題を解決する）。

【００５６】同時に学習中に中間層素子が削減され計算
量が減るので学習の高速化が可能である（従来法２の問
題を解決する）。また、重畳エネルギー関数は、中間
層素子の役割を明確にすることができるので、例えば、
重要度の低い中間層素子ならば分散および相関係数の不
適切なしきい値の設定による過融合・過小融合の影響が
緩和される（従来法３の問題を解決する）。また、重
畳エネルギー関数法により学習初期段階から中間層素子
の役割が分化しているため、コンパクト構造化法を学習
初期段階から適用することが可能であり（従来法３の問
題を解決する）、さらなる学習の高速化にもつなが
る。

【００５７】また、請求項２に記載の発明は、ニューラ
ルネットワークの入力層、中間層、および、出力層の素
子間の結合係数を増減してニューラルネットワークを最
適化するニューラルネットワークの最適化学習方法にお
いて、バックプロパゲーション法によるニューラルネッ
トワークの学習を行い、このニューラルネットワークの
中間層の中の１個の素子の出力値系列を用いて求めた分
散が所定値以下の場合にこの素子をバイアス素子に融合
するコンパクト構造化を行い、学習とコンパクト構造化
とを交互に行って中間層の素子を削減したニューラルネ
ットワークとし、このニューラルネットワークの中間層
の中の１個の素子の出力値系列を用いて求めた分散が所
定値以下の場合にこの素子をバイアス素子に融合し、ま
た、このニューラルネットワークの中間層の中の２個の
素子の出力値系列を用いて求めた相関係数の絶対値が所
定値以上の場合にこれら２個の素子を情報伝達的に同じ
働きであるとして融合し、中間層の素子を削減してニュ
ーラルネットワークを最適化することを特徴とする。

【００５８】この請求項２の発明では、バックプロパゲ
ーション法によるニューラルネットワークの学習と中間
層素子を融合するコンパクト構造化を交互に行う場合に
はバイアス素子的な働きをする中間層素子とバイアス素
子とを融合するのみとし、学習終了後に、中間層素子と
バイアス素子との融合に加えて、相関の高い出力をする
中間層素子同士を融合する（従来法２の問題〜を解
決する）。コンパクト構造化において過度の融合を防ぐ
こととなり、分散および相関係数の不適切なしきい値の
設定による過融合・過小融合の影響が緩和され（従来法
３の問題を解決する）、より良好なニューラルネット
ワークとする。

【００５９】また、請求項３に記載の発明は、ニューラ
ルネットワークの入力層、中間層、および、出力層の素
子間の結合係数を増減してニューラルネットワークを最
適化するニューラルネットワークの最適化学習方法にお
いて、重畳エネルギー関数法によるニューラルネットワ
ークの学習を行い、このニューラルネットワークの中間
層の中の１個の素子の出力値系列を用いて求めた分散が
所定値以下の場合にこの素子をバイアス素子に融合する
コンパクト構造化を行い、学習とコンパクト構造化とを
交互に行って中間層の素子を削減したニューラルネット
ワークとし、このニューラルネットワークの中間層の中
の１個の素子の出力値系列を用いて求めた分散が所定値
以下の場合にこの素子をバイアス素子に融合し、また、
このニューラルネットワークの中間層の中の２個の素子
の出力値系列を用いて求めた相関係数の絶対値が所定値
以上の場合にこれら２個の素子を情報伝達的に同じ働き
であるとして融合し、中間層の素子を削減してニューラ
ルネットワークを最適化することを特徴とする。

【００６０】この請求項３の発明では、重畳エネルギー
関数法によるニューラルネットワークの学習と中間層素
子を融合するコンパクト構造化とを交互に行う場合には
バイアス素子的な働きをする中間層素子とバイアス素子
とを融合するのみとし、学習終了後に、中間層素子とバ
イアス素子との融合に加えて、相関の高い出力をする中
間層素子同士を融合する（従来法２の問題〜を解決
する）。学習中は、中間層素子をその重要度順に学習す
るとともにコンパクト構造化において過度の融合を防ぐ
こととなって分散および相関係数の不適切なしきい値の
設定による過融合・過小融合の影響が緩和され（従来法
３の問題を解決する）、より良好なニューラルネット
ワークとなる。また、重畳エネルギー関数法により学習
初期段階から中間層素子の役割が分化しているため、コ
ンパクト構造化法を学習初期段階から適用することが可
能であり（従来法３の問題を解決する）、さらなる学
習の高速化にもつながる。

【００６１】また、請求項４に記載の発明は、請求項１
〜請求項３の何れか１項に記載のニューラルネットワー
クの最適化学習方法において、コンパクト構造化を行う
場合にコンパクト構造化の前後のニューラルネットワー
クについての学習誤差を求め、学習誤差が予め定められ
た値を越える場合、または、学習誤差が予め定められた
増加率を越える場合は、コンパクト構造化後のニューラ
ルネットワークを破棄してコンパクト構造化前のニュー
ラルネットワークを採用することを特徴とする。

【００６２】この請求項４の発明では、中間層素子の過
融合を防止するために、融合前の学習誤差より融合後の
学習誤差が一定値、もしくは、一定増加率を越えて増大
するときには融合を禁止し、過融合を防ぐ。

【００６３】また、請求項５に記載の発明は、請求項１
〜請求項４の何れか１項に記載のニューラルネットワー
クの最適化学習方法において、前記分散は、数式１で表
され、かつ、前記相関係数は、数式２で表すことを特徴
とする。

【００６４】

【発明の実施の形態】以下、図に沿って本発明の各実施
形態を説明する。本実施形態の学習アルゴリズムＡでは
図１６で示す従来法３の学習アルゴリズムを改良し、バ
ックプロパゲーション法による学習の代わりに重畳エネ
ルギー関数法による学習とし、この重畳エネルギー関数
法による学習とコンパクト構造化を交互に行うようにし
た。この学習アルゴリズムＡについて説明する。この学
習アルゴリズムＡは、汎用計算機・制御装置等にプログ
ラムされ、コンピュータにこの学習アルゴリズムＡを行
わせることを想定して説明する。なお、後述の他の学習
アルゴリズムも同様である。

【００６５】図１は本発明の実施形態の学習アルゴリズ
ムＡのフローチャートである。ステップＳ１は、初期化
処理を行うステップである。学習アルゴリズムＡにおけ
る初期化処理とは、中間層の階層数、各層の中間層素子
数、分散のしきい値、相関係数のしきい値、学習回数な
どを入力する。ステップＳ２は、重畳エネルギー関数法
による学習を行うステップである。重畳エネルギー関数
法により求めたニューラルネットワークの結合係数を新
しい結合係数とし、古い結合係数と書き換えて保存す
る。

【００６６】ステップＳ３は、コンパクト構造化を実行
するか否かを判定するステップである。判定方法として
は、重畳エネルギー関数法による学習回数が所定回数に
達した場合や、学習誤差が減少しなくなったなどの場合
が考えられるが、本学習アルゴリズムＡでは、学習回数
が所定回数に達したか否かについて判定するものとす
る。学習回数が所定回数に達しているならばステップＳ
４へ進み、学習回数が所定回数に達していないならば初
期段階（つまり中間層素子は充分な分化が行われていな
い段階）としてステップＳ９へジャンプする。

【００６７】ステップＳ４は、中間層素子からの出力値
系列を用いて分散を算出するステップである。具体的に
は、複数ある中間層素子の出力値系列を用いて全ての中
間層素子についての分散を求めるものであり、コンパク
ト構造化法で説明した数式１を用いて算出することとな
る。ステップＳ５は、ステップＳ４で算出した複数の分
散について所定値以下か否かを判定するステップであ
る。複数の分散のうち一つでも所定値以下（バイアス素
子へ融合可）と判断するならばステップＳ８へジャンプ
し、また、全ての分散が所定値を越える（バイアス素子
へ融合不可）と判断するならばステップＳ６へ進む。

【００６８】ステップＳ６は、中間層素子からの出力値
系列を用いて相関係数を算出するステップである。具体
的には、複数ある中間層素子からある２つの中間層素子
を選択してこれら２つの中間層素子の出力値系列を用い
て相関係数を求めるという処理を全ての中間層素子で想
定できる組み合わせについて行うものであり、コンパク
ト構造化法で説明した数式２を用いて算出することとな
る。例えば、仮に中間層素子１，２，３と３個ある場合
には、中間層素子１，２の相関、中間層素子２，３の相
関、および中間層素子１，３の相関について相関係数を
算出することとなる。

【００６９】ステップＳ７は、ステップＳ４で算出した
複数の相関係数について所定値以上か否かを判定するス
テップである。相関係数は、先に説明したように、相似
度を示す−１〜＋１の指標である。±１に近いと相関が
高く、０に近いと相関がないことを表す。相関係数の絶
対値が所定値以上（２つの中間層素子が融合可）と判断
するならばステップＳ８へ進み、また、相関係数の絶対
値が所定値未満（２つの中間層素子が融合不可）と判断
するならばステップＳ９へジャンプする。

【００７０】ステップＳ８は、融合を行うステップであ
る。ステップＳ５からジャンプしてきたならば中間層素
子とバイアス素子との融合を、また、ステップＳ７から
来たならば中間層素子同士の融合を行う。なお、複数の
中間層素子の分散を算出して多数の分散が所定値以下の
場合、最も分散が小さい中間層素子とバイアス素子とを
融合させる。１度に融合可能な全ての素子を融合する場
合も考えられるが、１度のコンパクト構造化に対し１回
に融合制限した方が良好な学習結果が得られることが多
い。同様に、相関係数の絶対値が所定値以上の中間層素
子の組み合わせが多数ある場合、相関係数の絶対値が最
も大きい中間層素子の組み合わせを融合させる。この場
合も、１度のコンパクト構造化に対し１回に融合制限し
た方が良好な結果が得られることが多いからである。

【００７１】ステップＳ９は、学習終了か否かを判断す
るステップである。具体的には学習回数が所定回数に達
したか否かを判断している。学習終了しない場合は、ス
テップＳ２の先頭へジャンプして再度重畳エネルギー関
数法により学習を行い、学習終了の場合はフローを終了
することととなる。

【００７２】学習アルゴリムＡでは、重畳エネルギー関
数法を用いることで、中間層素子の役割の分化が促進さ
れ、通常のコンパクト構造化法よりも早い段階で中間層
素子を融合させることが可能である。また、学習アルゴ
リムＡでは、コンパクト構造化法により中間層素子が削
減されるため、計算量が減少し学習時間を短縮すること
が可能である。さらに、重畳エネルギー関数は不要な中
間層素子の生成を抑制するアルゴリズムであり、中間層
素子の役割が明確な構造になりやすい。そのため不要な
中間層素子と重要な中間層素子の判定は容易であり、コ
ンパクト構造化法のしきい値の値が多少不適切でもその
影響は緩和され、最適な中間層素子数が選択されやすく
なる。

【００７３】続いて他の実施形態を説明する。本実施形
態の学習アルゴリズムＢでは、中間層素子とバイアス素
子との融合のみを行うコンパクト構造化（以下、単にコ
ンパクト構造化（１）という）、および、中間層素子と
バイアス素子との融合と中間層素子同士の融合という２
種類の融合を行うコンパクト構造化（以下、コンパクト
構造化（２）という）を準備する。そして、バックプロ
パゲーション法による学習とコンパクト構造化（１）を
交互に行うようにし、学習終了後にコンパクト構造化
（２）を行うアルゴリズムとした。

【００７４】この学習アルゴリムＢでは、学習中は中間
層素子同士の融合を制限し、学習終了後に中間層素子同
士の融合を行う。ニューラルネットワークの各中間層素
子は、学習の進行にともない成長し役割が分化する。学
習初期段階において不要な中間層素子（バイアス素子的
であって分散が小さい）であっても学習の進行にともな
い重要な中間層素子に成長する可能性がある。また学習
初期段階において出力値系列が同じような中間層素子
（相関が高い）同士であっても学習の進行にともない出
力値系列が変化して相関が低くなる可能性もある。そこ
で、学習中は融合を制限し、学習終了後に中間層素子の
役割が充分に明確になった時点で融合する。この学習ア
ルゴリズムＢについて説明する。

【００７５】図２は本発明の実施形態の学習アルゴリズ
ムＢのフローチャートである。ステップＳ１１は、初期
化処理を行うステップである。中間層の階層数、各層の
中間層素子数、分散のしきい値、相関係数のしきい値、
学習回数などを入力する。ステップＳ１２は、バックプ
ロパゲーション法による学習を行うステップである。バ
ックプロパゲーション法により求めたニューラルネット
ワークの結合係数を新しい結合係数とし、書き換えて保
存する。

【００７６】ステップＳ１３は、コンパクト構造化を実
行するか否かを判定するステップである。本学習アルゴ
リズムＢでも、学習回数が所定回数に達したか否かにつ
いて判定するものとする。学習回数が所定回数に達して
いるならばステップＳ１４へ進み、学習回数が所定回数
に達していないならば初期段階（つまり中間層素子は充
分な分化が行われていない段階）としてステップＳ１７
へジャンプする。

【００７７】ステップＳ１４は、中間層素子からの出力
値系列を用いて分散を算出するステップである。具体的
には、複数ある中間層素子の出力値系列を用いて全ての
中間層素子についての分散を求めるものであり、コンパ
クト構造化法で説明した数式１を用いて算出することと
なる。ステップＳ１５は、ステップＳ１４で算出した複
数の分散について所定値以下か否かを判定するステップ
である。複数の分散の一つでも所定値以下（バイアス素
子へ融合可）と判断するならばステップＳ１６へ進み、
また、全ての分散が所定値を越える（バイアス素子へ融
合不可）と判断するならばステップＳ１７へジャンプす
る。

【００７８】ステップＳ１６は、融合を行うステップで
ある。中間層素子とバイアス素子との融合を行う。な
お、複数の中間層素子の分散を算出して多数の分散が所
定値以下の場合、最も分散が小さい中間層素子とバイア
ス素子とを融合させる。１度に融合可能な全ての素子を
融合する場合も考えられるが、１度のコンパクト構造化
に対し１回に融合制限した方が良好な学習結果が得られ
ることが多い。

【００７９】ステップＳ１７は、学習終了か否かを判断
するステップである。具体的には学習回数が所定回数に
達したか否かを判断している。学習終了しない場合は、
ステップＳ１２の先頭へジャンプして再度バックプロパ
ゲーション法により学習を行う。学習終了の場合はコン
パクト構造化（２）を行うためステップＳ１８へ進む。

【００８０】ステップＳ１８は、中間層素子からの出力
値系列を用いて分散を算出するステップである。先の数
式１を用いて算出することとなる。ステップＳ１９は、
ステップＳ１８で算出した複数の分散について所定値以
下か否かを判定するステップである。複数の分散の一つ
でも所定値以下（バイアス素子へ融合可）と判断するな
らばステップＳ２２へジャンプし、また、全ての分散が
所定値を越える（バイアス素子へ融合不可）と判断する
ならばステップＳ２０へ進む。

【００８１】ステップＳ２０は、中間層素子からの出力
値系列を用いて２つの中間層素子の相関係数を算出する
ステップである。数式２を用いて算出することとなる。
ステップＳ２１は、ステップＳ２０で算出した複数の相
関係数について所定値以上か否かを判定するステップで
ある。複数のうち１つでも相関係数の絶対値が所定値以
上（２つの中間層素子が融合可）と判断するならばステ
ップＳ２２へ進み、また、相関係数が所定値未満（２つ
の中間層素子の融合不可）と判断するならばフローから
抜けて終了する。

【００８２】ステップＳ２２は、融合を行うステップで
ある。ステップＳ１９からジャンプしてきたならば中間
層素子とバイアス素子との融合を、また、ステップＳ２
１から来たならば中間層素子同士の融合を行い、ステッ
プＳ１８へジャンプする。なお、コンパクト構造化
（２）においても、複数の中間層素子の分散を算出して
多数の分散が所定値以下の場合、最も分散が小さい中間
層素子とバイアス素子とを融合させ、同様に、相関係数
の絶対値が所定値以上の中間層素子の組み合わせが多数
ある場合、最も相関係数の絶対値が大きい中間層素子の
組み合わせを融合させる。いずれも、１度のコンパクト
構造化に対し１回に融合制限した方が良好な結果が得ら
れることが多いからである。

【００８３】この学習アルゴリズムＢでは、コンパクト
構造化法の最大の欠点である不適切なしきい値の設定に
よる過融合の発生を防止でき、良好な学習を行うことが
できる。また、学習アルゴリムＢでは、コンパクト構造
化法により中間層素子が削減されるため、計算量が減少
し学習時間を短縮することが可能である。

【００８４】続いて他の実施形態を説明する。本実施形
態の学習アルゴリズムＣでは、図２で示す学習アルゴリ
ズムＢを改良し、バックプロパゲーション法による学習
の代わりに重畳エネルギー関数法による学習とし、重畳
エネルギー関数法による学習とコンパクト構造化（１）
を交互に行うようにし、学習終了後にコンパクト構造化
（２）を行うアルゴリズムとした。

【００８５】この学習アルゴリムＣでは、学習中は中間
層素子同士の融合を制限し、学習終了後に中間層素子同
士の融合を行う。ニューラルネットワークの各中間層素
子は、学習の進行にともない成長し役割が分化する。学
習初期段階において不要な中間層素子（バイアス素子的
であって分散が小さい）であっても学習の進行にともな
い重要な中間層素子に成長する可能性があり、また、学
習初期段階において出力値系列が同じような中間層素子
（相関が高い）同士であっても学習の進行にともない出
力値系列が変化して相関が低くなる可能性もある。さら
に、重畳エネルギー関数は不要中間層素子の生成を抑制
するアルゴリズムであり、学習が進むにつれて中間層素
子の役割が明確な構造になりやすい。そのため不要な中
間層素子と重要な中間層素子の判定は学習終了後は容易
である。そこで、学習中は融合を制限し、学習終了後に
中間層素子の役割が充分に明確になった時点で融合す
る。この学習アルゴリズムＣについて説明する。

【００８６】図３は本発明の実施形態の学習アルゴリズ
ムＣのフローチャートである。ステップＳ３１は、初期
化処理を行うステップである。中間層の階層数、各層の
中間層素子数、分散のしきい値、相関係数のしきい値、
学習回数などを入力する。ステップＳ３２は、重畳エネ
ルギー関数法による学習を行うステップである。重畳エ
ネルギー関数法により求めたニューラルネットワークの
結合係数を新しい結合係数とし、書き換えて保存する。

【００８７】ステップＳ３３は、コンパクト構造化を実
行するか否かを判定するステップである。本学習アルゴ
リズムＣでも、学習回数が所定回数に達したか否かにつ
いて判定するものとする。学習回数が所定回数に達して
いるならばステップＳ３４へ進み、学習回数が所定回数
に達していないならば初期段階（つまり中間層素子は充
分な分化が行われていない段階）としてステップＳ３７
へジャンプする。

【００８８】ステップＳ３４は、中間層素子からの出力
値系列を用いて分散を算出するステップである。具体的
には、複数ある中間層素子の出力値系列を用いて全ての
中間層素子についての分散を求めるものであり、コンパ
クト構造化法で説明した数式１を用いて算出することと
なる。ステップＳ３５は、ステップＳ３４で算出した複
数の分散について所定値以下か否かを判定するステップ
である。複数の分散の一つでも所定値以下（バイアス素
子へ融合可）と判断するならばステップＳ３６へ進み、
また、全ての分散が所定値を越える（バイアス素子へ融
合不可）と判断するならばステップＳ３７へジャンプす
る。

【００８９】ステップＳ３６は、融合を行うステップで
ある。中間層素子とバイアス素子との融合を行う。な
お、複数の中間層素子の分散を算出して多数の分散が所
定値以下の場合、最も分散が小さい中間層素子とバイア
ス素子とを融合させる。１度に融合可能な全ての素子を
融合する場合も考えられるが、１度のコンパクト構造化
に対し１回に融合制限した方が良好な学習結果が得られ
ることが多い。

【００９０】ステップＳ３７は、学習終了か否かを判断
するステップである。具体的には学習回数が所定回数に
達したか否かを判断している。学習終了しない場合は、
ステップＳ３２の先頭へジャンプして再度重畳エネルギ
ー関数法により学習を行い、学習終了の場合はコンパク
ト構造化（２）を行うためステップＳ３８へ進む。

【００９１】ステップＳ３８は、中間層素子からの出力
値系列を用いて分散を算出するステップである。先の数
式１を用いて算出することとなる。ステップＳ３９は、
ステップＳ３８で算出した複数の分散について所定値以
下か否かを判定するステップである。複数の分散の一つ
でも所定値以下（バイアス素子へ融合可）と判断するな
らばステップＳ４２へジャンプし、また、全ての分散が
所定値を越える（バイアス素子へ融合不可）と判断する
ならばステップＳ４０へ進む。

【００９２】ステップＳ４０は、中間層素子からの出力
値系列を用いて２つの中間層素子の相関係数を算出する
ステップである。数式２を用いて算出することとなる。
ステップＳ４１は、ステップＳ４０で算出した複数の相
関係数について所定値以上か否かを判定するステップで
ある。複数のうち１つでも相関係数の絶対値が所定値以
上（２つの中間層素子が融合可）と判断するならばステ
ップＳ４２へ進み、また、相関係数が所定値未満（２つ
の中間層素子の融合不可）と判断するならばフローから
抜けて終了する。

【００９３】ステップＳ４２は、融合を行うステップで
ある。ステップＳ３９からジャンプしてきたならば中間
層素子とバイアス素子との融合を、また、ステップＳ４
１から来たならば中間層素子同士の融合を行い、ステッ
プＳ３８にジャンプする。なお、コンパクト構造化
（２）においても、複数の中間層素子の分散を算出して
多数の分散が所定値以下の場合、最も分散が小さい中間
層素子とバイアス素子とを融合させ、同様に、相関係数
の絶対値が所定値以上の中間層素子の組み合わせが多数
ある場合、最も相関係数の絶対値が大きい中間層素子の
組み合わせを融合させる。いずれも、１度のコンパクト
構造化に対し１回に融合制限した方が良好な結果が得ら
れることが多いからである。

【００９４】この学習アルゴリズムＣでは、コンパクト
構造化法の最大の欠点である不適切なしきい値の設定に
よる過融合の発生を防止でき、良好な学習を行うことが
できる。また、学習アルゴリムＣでは、コンパクト構造
化法により中間層素子が削減されるため、計算量が減少
し、学習時間を短縮することが可能である。さらに、重
畳エネルギー関数は不要な中間層素子の生成を抑制する
アルゴリズムであり、中間層素子の役割が明確な構造に
なりやすい。そのため不要な中間層素子と重要な中間層
素子の判定は容易であり、コンパクト構造化法のしきい
値の値が多少不適切でもその影響は緩和され、最適な中
間層素子数が選択されやすくなる。さらに、この学習ア
ルゴリズムＣでは、学習アルゴリズムＡでは完全に防ぐ
ことはできない過融合の発生を著しく低減する。

【００９５】これら学習アルゴリズムＡ〜Ｃのコンパク
ト構造化法をさらに改良することにより、全体の学習ア
ルゴリズムも改良することができる。このような改良コ
ンパクト構造化法を説明する。図４は、コンパクト構造
化法のフローチャートである。このフローチャートで
は、図１で示したコンパクト構造化法、および、図２，
図３で示したコンパクト構造化法（２）を改良するもの
である。

【００９６】ステップＳ５１は、中間層素子からの出力
値系列を用いて分散を算出するステップである。先の数
式１を用いて算出することとなる。ステップＳ５２は、
ステップＳ５１で算出した複数の分散について所定値以
下か否かを判定するステップである。複数の分散のうち
一つでも所定値以下（バイアス素子へ融合可）と判断す
るならばステップＳ５５へジャンプし、また、全ての分
散が所定値を越える（バイアス素子へ融合不可）と判断
するならばステップＳ５３へ進む。

【００９７】ステップＳ５３は、中間層素子からの出力
値系列を用いて２つの中間層素子の相関係数を算出する
ステップである。数式２を用いて算出することとなる。
ステップＳ５４は、ステップＳ５３で算出した複数の相
関係数について所定値以上か否かを判定するステップで
ある。複数のうち１つでも相関係数の絶対値が所定値以
上（２つの中間層素子が融合可）と判断するならばステ
ップＳ５５へ進み、また、相関係数が所定値未満（２つ
の中間層素子の融合不可）と判断するならばフローから
抜けて終了する。

【００９８】ステップＳ５５は、ニューラルネットワー
クを保存するステップである。具体的には、ニューラル
ネットワークの結合係数を記憶保存する。ステップＳ５
６は、融合前の誤差を検出するステップである。ステッ
プＳ５５で記憶保存されているニューラルネットワーク
を用いて実際の出力であるニューロ出力値と学習目標値
との差である出力誤差を検出し、記憶保存しておく。

【００９９】ステップＳ５７は、融合して新たにニュー
ラルネットワークを生成するステップである。ステップ
Ｓ５２からジャンプしてきたならば中間層素子とバイア
ス素子との融合を、また、ステップＳ５４から来たなら
ば中間層素子同士の融合を行う。なお、改良コンパクト
構造化法においても、複数の中間層素子の分散を算出し
て多数の分散が所定値以下の場合、最も分散が小さい中
間層素子とバイアス素子とを融合させ、同様に、相関係
数の絶対値が所定値以上の中間層素子の組み合わせが多
数ある場合、最も相関係数の絶対値が大きい中間層素子
の組み合わせを融合させる。いずれも、１度のコンパク
ト構造化に対し１回に融合制限した方が良好な結果が得
られることが多いからである。

【０１００】ステップＳ５８は、融合後の誤差を検出す
るステップである。ステップＳ５７で生成した新しいニ
ューラルネットワークを用いて実際の出力であるニュー
ロ出力値と学習目標値との差である出力誤差を検出し、
記憶保存する。ステップＳ５９は、融合前後に求めた出
力誤差を比較して出力誤差が悪化したか否かを判定する
ステップである。出力誤差が増えた、つまり、出力誤差
が悪化した場合、ステップＳ６０へ進み、出力誤差が減
った、つまり、出力誤差が改善された場合フローから抜
けて終了する。

【０１０１】ステップＳ６０は、ステップＳ５５で保存
した融合前のニューラルネットワークを復元するステッ
プである。具体的には、ニューラルネットワークの結合
係数を元に戻す。その後フローを抜けて終了する。

【０１０２】このように融合を実施する前に、学習誤差
が予め定められた値を越える場合、または、学習誤差が
予め定められた増加率を越える場合は、融合前のニュー
ラルネットワークに戻し、学習誤差が改善するときのみ
融合を実施することで、コンパクト構造化法の過融合を
防止し、学習アルゴリズムＡ〜Ｃを改善する。

【０１０３】

【実施例】続いて、本発明の第１実施例について説明す
る。本実施例では、重畳エネルギー関数により中間層素
子の役割が明確になるため、学習初期段階よりコンパク
ト構造化法が適用可能となることを示す。図５は、ニュ
ーラルネットワークの構造例を示す説明図である。本実
施例では、図５で示すように、９個の中間層素子をもつ
ニューラルネットワークとしている。このニューラルネ
ットワークに次式のような関数を学習させる。

【０１０４】

【数１２】

【０１０５】本実施例では、バックプロパゲーション法
と重畳関数エネルギー法とでニューラルネットワークを
学習させることで両者の比較を試みる。これは、図１６
で示した従来法３によるバックプロパゲーション法・コ
ンパクト構造化法による学習と、図１で示した本発明の
実施形態の学習アルゴリズムＡによる重畳エネルギー関
数法・コンパクト構造化法による学習とを比較するもの
である。図６，図７は、学習中のニューラルネットワー
クの中間層素子の分散変化を示す特性図であり、図６は
バックプロパゲーション法・コンパクト構造化法による
学習を、また、図７では重畳エネルギー関数法・コンパ
クト構造化法による学習をそれぞれ行った場合の分散変
化を示す。

【０１０６】分散は、中間層素子の重要度を示す評価指
標としてよく使われる。つまり、分散が小さい素子は学
習パターンの入力値系列が変化しても出力値系列が変わ
らない不要な素子であり、分散が大きい素子は学習パタ
ーンの入力値系列が変化するにつれて出力値系列が変化
する重要な素子と見なすことができる。図６，図７を比
較すると重畳エネルギー関数法の方がバックプロパゲー
ション法よりも、学習初期段階で分散が大きい、つま
り、不要な中間層素子と重要な中間層素子が早く、しか
も明確に分化していることが分かる。このように、重畳
エネルギー関数法を適用することで、学習初期段階よ
り、分散の小さい不要な中間層素子をバイアス素子に融
合することが可能である。また、不要な中間層素子と重
要な中間層素子の分散の差は大きく明確であるため、し
きい値の設定が容易であり、最適な融合が容易である。

【０１０７】続いて、第２実施例について説明する。本
実施例では各学習方法別に学習速度、ニューラルネット
ワークの最適化の度合いを示す。なお、学習する関数は
第１実施例の数式１２と同様であり、説明を省略する。
本実施例では比較のため６通りの方法で学習した。これ
ら学習について、以下、検討１〜検討６として説明す
る。検討１〜検討３については表１として示されてい
る。

【０１０８】

【表１】

【０１０９】検討１は、通常（従来法１）のバックプロ
パゲーション法によるニューラルネットワークの最適化
である。検討２は、通常（従来法２）の重畳エネルギー
関数法である。最も誤差が小さいものの、学習時間が最
長という欠点がある。検討３は、通常（従来法３）のコ
ンパクト構造化法である。学習時間が最短ではあるが、
学習誤差が大きい。融合があまり起こらず中間層素子の
数が多いにもかかわらず学習誤差が大きいのが問題であ
る。このようにコンパクト構造化法は、しきい値等の設
定が難しく、学習に悪影響を与えるというおそれがあ
る。

【０１１０】検討４〜検討６については表２として示さ
れている。

【０１１１】

【表２】

【０１１２】検討４は、学習アルゴリズムＡ（請求項
１）の発明である。検討３で示した通常（従来法３）の
コンパクト構造化法よりも学習誤差が小さく、かつ、通
常の重畳エネルギー関数法よりも学習時間が短い。学習
誤差は、検討１（バックプロパゲーション法）の学習誤
差よりも若干良い。検討５は、学習アルゴリズムＢ（請
求項２）と改良されたコンパクト構造化法（請求項４）
の発明である。本発明はコンパクト構造化の過融合防止
に力点をおいている。よって、コンパクト構造化法の過
融合の欠点を意識することなく安心して使用することが
できる。

【０１１３】本実施例では、融合が全く起きず検討１
（バックプロパゲーション法）と同じ結果になってしま
った。その原因は以下と考えられる。バックプロパゲー
ションをベースにした学習方法であるため、中間層素子
の分化が進まず、分散の小さい素子がなく学習中に過融
合が防止された（請求項２）。また、学習終了後、相関
の高い中間層素子が多くあったが、学習誤差が規定値以
上増加するため、同様に過融合が防止された（請求項
４）。

【０１１４】検討６は、学習アルゴリズムＣ（請求項
３）と改良されたコンパクト構造化法（請求項４）とを
組み合わせた発明である。学習誤差は検討２（重畳エネ
ルギー関数法）とほぼ同程度であり、かつ学習時間は検
討２（重畳エネルギー関数法）よりも短い。中間層素子
の数も少なく、学習時間と学習誤差のバランスもとれた
方法と言える。

【０１１５】

【発明の効果】本発明によれば、いくつかの有望な学習
アルゴリズムを融合し、単体で適用した場合に生じる弱
点を他の学習アルゴリズムで補ったり、適用方法を工夫
することで、高速かつ効率的にニューラルネットワーク
を最適化するニューラルネットワークの最適化学習方法
を提供することができる。

【図面の簡単な説明】

【図１】本発明の実施形態の学習アルゴリズムＡのフロ
ーチャートである。

【図２】本発明の実施形態の学習アルゴリズムＢのフロ
ーチャートである。

【図３】本発明の実施形態の学習アルゴリズムＣのフロ
ーチャートである。

【図４】コンパクト構造化法のフローチャートである。

【図５】ニューラルネットワークの構造例を示す説明図
である。

【図６】学習中のニューラルネットワークの中間層素子
の分散変化を示す特性図である。

【図７】学習中のニューラルネットワークの中間層素子
の分散変化を示す特性図である。

【図８】多層ニューラルネットワークを説明する概念図
である。

【図９】重畳エネルギー関数法により学習された中間層
素子を説明する説明図である。

【図１０】不要な分散表現について説明する説明図であ
る。

【図１１】部分ニューロを説明する説明図である。

【図１２】重畳エネルギー関数法による学習の流れを示
すフローチャートである。

【図１３】融合を説明する説明図である。

【図１４】学習パターンに対する中間層素子の出力を示
す出力図である。

【図１５】ニューラルネットワークの融合を説明する説
明図である。

【図１６】従来のコンパクト構造化の学習アルゴリズム
のフローチャートである。

Claims

【特許請求の範囲】

【請求項１】ニューラルネットワークの入力層、中間
層、および、出力層の素子間の結合係数を増減してニュ
ーラルネットワークを最適化するニューラルネットワー
クの最適化学習方法において、重畳エネルギー関数法によるニューラルネットワークの
学習を行い、このニューラルネットワークの中間層の中の１個の素子
の出力値系列を用いて求めた分散が所定値以下の場合に
この素子をバイアス素子に融合し、また、このニューラ
ルネットワークの中間層の中の２個の素子の出力値系列
を用いて求めた相関係数の絶対値が所定値以上の場合に
これら２個の素子を情報伝達的に同じ働きであるとして
融合するコンパクト構造化を行い、学習とコンパクト構造化とを交互に行って中間層の素子
を削減しつつニューラルネットワークを最適化すること
を特徴とするニューラルネットワークの最適化学習方
法。
【請求項２】ニューラルネットワークの入力層、中間
層、および、出力層の素子間の結合係数を増減してニュ
ーラルネットワークを最適化するニューラルネットワー
クの最適化学習方法において、バックプロパゲーション法によるニューラルネットワー
クの学習を行い、このニューラルネットワークの中間層の中の１個の素子
の出力値系列を用いて求めた分散が所定値以下の場合に
この素子をバイアス素子に融合するコンパクト構造化を
行い、学習とコンパクト構造化とを交互に行って中間層の素子
を削減したニューラルネットワークとし、このニューラルネットワークの中間層の中の１個の素子
の出力値系列を用いて求めた分散が所定値以下の場合に
この素子をバイアス素子に融合し、また、このニューラ
ルネットワークの中間層の中の２個の素子の出力値系列
を用いて求めた相関係数の絶対値が所定値以上の場合に
これら２個の素子を情報伝達的に同じ働きであるとして
融合し、中間層の素子を削減してニューラルネットワークを最適
化することを特徴とするニューラルネットワークの最適
化学習方法。
【請求項３】ニューラルネットワークの入力層、中間
層、および、出力層の素子間の結合係数を増減してニュ
ーラルネットワークを最適化するニューラルネットワー
クの最適化学習方法において、重畳エネルギー関数法によるニューラルネットワークの
学習を行い、このニューラルネットワークの中間層の中の１個の素子
の出力値系列を用いて求めた分散が所定値以下の場合に
この素子をバイアス素子に融合するコンパクト構造化を
行い、学習とコンパクト構造化とを交互に行って中間層の素子
を削減したニューラルネットワークとし、このニューラルネットワークの中間層の中の１個の素子
の出力値系列を用いて求めた分散が所定値以下の場合に
この素子をバイアス素子に融合し、また、このニューラ
ルネットワークの中間層の中の２個の素子の出力値系列
を用いて求めた相関係数の絶対値が所定値以上の場合に
これら２個の素子を情報伝達的に同じ働きであるとして
融合し、中間層の素子を削減してニューラルネットワークを最適
化することを特徴とするニューラルネットワークの最適
化学習方法。
【請求項４】請求項１〜請求項３の何れか１項に記載の
ニューラルネットワークの最適化学習方法において、コンパクト構造化を行う場合にコンパクト構造化の前後
のニューラルネットワークについての学習誤差を求め、
学習誤差が予め定められた値を越える場合、または、学
習誤差が予め定められた増加率を越える場合は、コンパ
クト構造化後のニューラルネットワークを破棄してコン
パクト構造化前のニューラルネットワークを採用するこ
とを特徴とするニューラルネットワークの最適化学習方
法。
【請求項５】請求項１〜請求項４の何れか１項に記載の
ニューラルネットワークの最適化学習方法において、前記分散は、【数１】で表され、かつ、前記相関係数は、【数２】とすることを特徴とするニューラルネットワークの最適
化学習方法。