JP2002042107A - ニューラルネットワークの学習方法 - Google Patents

ニューラルネットワークの学習方法

Info

Publication number
JP2002042107A
JP2002042107A JP2000230665A JP2000230665A JP2002042107A JP 2002042107 A JP2002042107 A JP 2002042107A JP 2000230665 A JP2000230665 A JP 2000230665A JP 2000230665 A JP2000230665 A JP 2000230665A JP 2002042107 A JP2002042107 A JP 2002042107A
Authority
JP
Japan
Prior art keywords
learning
neural network
network
loosely coupled
loosely
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000230665A
Other languages
English (en)
Inventor
Tatsuya Iizaka
達也 飯坂
Tetsuo Matsui
哲郎 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Original Assignee
Fuji Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd filed Critical Fuji Electric Co Ltd
Priority to JP2000230665A priority Critical patent/JP2002042107A/ja
Publication of JP2002042107A publication Critical patent/JP2002042107A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 解析が容易な構造のニューラルネットワーク
を構築する。学習を高速化する。 【解決手段】 全結合部分と疎結合部分とを備える階層
型構造のニューラルネットワークの学習方法において、
一つの疎結合部分に単独でさせる学習を全ての疎結合部
分について行う第1ステップと、前記第1ステップによ
り学習済みの全ての疎結合部分を結合して第1ネットワ
ークを生成する第2ステップと、前記第1ネットワーク
に学習を行って第2ネットワークを生成する第3ステッ
プと、前記第2ネットワークに全結合部分を結合して第
3ネットワークを生成する第4ステップと、前記第3ネ
ットワークに学習を行ってニューラルネットワークを生
成する第5ステップとを有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、各種の制御、予
測、診断に使用されるニューラルネットワークの学習方
法に関し、詳しくは、複数の入力層素子及び複数の中間
層素子を有し、全ての入力層素子に中間層素子が結合さ
れてなる一つの全結合部分と、複数の入力層素子のうち
の一部に中間層素子が結合されてなる疎結合部分とを備
える階層型構造のニューラルネットワークの学習方法に
するものである。
【0002】
【従来の技術】周知のようにニューラルネットワークは
学習能力を持ち、非線形性、パターンマッチング性能に
優れており、制御、予測、診断等の多くの分野に用いら
れている。このニューラルネットワークとしては多くの
構造が提案されているが、実用化されたその多くは階層
型、特に3階層型のものがほとんどである。階層型のニ
ューラルネットワークは、通常バックプロパゲーション
法(誤差逆伝播法)と呼ばれるアルゴリズムにより学習
し、内部の結合状態が調整される。こうして学習したニ
ューラルネットワークは、学習データと同一の入力デー
タを与えると学習データとほぼ同一の出力をする。ま
た、学習データに近い入力データを与えると学習データ
に近い出力をする特徴がある。最小自乗法によって構築
される回帰式と比較すると、ニューラルネットワークは
非線形性に優れているが、内部構造が複雑で解析が困難
なため、未知データに対してはどのような出力をするか
分からない欠点がある。
【0003】従来のニューラルネットワークを解析する
方法としては、内部構造を直接解析する例として、代表
的な以下の3例がある。 「ニューラルネットワークの構造学習による規則性の
発見と汎化」:日本神経回路学会誌、Vol.1, No.2(199
4)がある。この方法は、忘却の概念によりニューラルネ
ットワークの不要な結合を削除し、必要な結合のみを残
す方法により、内部解析を行う方法である。パターン認
識の分野において、その有効性が示されている。 「ファジィニューラルネットワークの構成法と学習
法」:日本ファジィ学会誌、Vol.4, No5.(1992)では、
ファジィとニューロが融合した新しい構造のファジィニ
ューラルネットワークにより、内部解析を可能にしてい
る。 「ニューラルネットワークを用いたファジーIF-THEN
ルールの自動抽出」:電気学会論文誌C,Vol.110-C,N
o.3,(1990)は、分散ニューラルネットワークと言われる
特殊構造をもつニューラルネットワークよりファジィ規
則を抽出することで解析を行っている。
【0004】また、直接的な内部解析は行っていない
が、出力値の説明・信頼性の評価方法として、 特開平10−74188「データ学習装置およびプラ
ント制御装置」、 特願平11−322130「ニューラルネットワーク
の出力値の評価装置,評価方法及び記憶媒体」 がある。何れの方法も、予測・制御時の入力データに近
い値を学習データより検索して表示する方法である。
【0005】ニューラルネットワークの学習方法はバッ
クプロパゲーション法が一般的であるが、性能の点で問
題が指摘されている。すなわち、バックプロパゲーショ
ン法ではニューラルネットワークの階層数や素子数を事
前に決定する必要があるが、これらに関する情報が事前
に得られることはなく、ニューラルネットワークを最適
化するためには階層数や素子数を試行錯誤的に探索する
必要がある。特に、ニューラルネットワークの内部構造
が複雑な場合には、探索に時間と手間がかかる。また、
バックプロパゲーション法により得られた学習後のニュ
ーラルネットワークはブラックボックスとなり、中間層
素子の意味付けが困難な場合が多い。
【0006】上記の問題点に鑑み、特願平11−06
6165「ニューラルネットワークの最適化学習方法」
や、特願2000−71011「ニューラルネットワ
ークの最適化学習方法」等、不要な中間層素子や結合を
削減する学習方法が近年提案されている。これらの学習
アルゴリズムを使用すると、非常にコンパクトで性能の
良いニューラルネットワークを構築することが可能であ
る。
【0007】更に、本発明者による最新の先行技術とし
て、特願2000−166528「ニューラルネット
ワーク及びその学習方法、解析方法並びに異常判定方
法」が出願されている。この先行技術は、従来の問題点
をほぼ完全に克服できる技術であり、 (1)複数の入力層素子のうちの一部に中間層素子が結
合されてなる疎結合部分を有するニューラルネットワー
クの構造 (2)入力層素子と中間層素子との間の全ての重みを初
期化する第1ステップと、任意の入力層素子と中間層素
子との間の結合を削除する第2ステップと、学習誤差を
評価するための評価関数を用いてこの評価関数が小さく
なるように入力層素子と中間層素子との間の重みの修正
量を算出する第3ステップと、任意の入力層素子と中間
層素子との間の重みの修正量を0にする第4ステップ
と、第3ステップ及び第4ステップを経て得られた最終
的な修正量を用いて入力層素子と中間層素子との間の重
みを修正する第5ステップとを有し、学習誤差が規定値
以下になるまで第3ステップ以下の処理を繰り返し実行
するようにしたニューラルネットワークの学習方法 等を提供するものである。
【0008】
【発明が解決しようとする課題】ニューラルネットワー
クはその学習能力、非線形能力、パターンマッチング性
能等、優れた能力のため多くの分野において利用されて
いるが、一般に内部構造が非線形かつ複雑なため、その
出力値がどうして出力されたかを理解し易く説明するこ
とが困難であり、言い換えればニューラルネットワーク
の構造を解析することが難しい。前記,の従来技術
は、対象状態の入力データに近い学習データを検索して
表示する方法であるが、内部解析をしていないため学習
データにない未知の入力データに対しては説明不能であ
る。
【0009】また、前記,,の従来技術では、内
部解析を行っているため、未知の入力状態に対してもど
のような出力が得られるかが分かる。しかし、の従来
技術はパターン認識のような離散的な問題では有効であ
るが、連続値を対象とする問題は扱えない欠点がある。
,の従来技術は、通常のニューラルネットワーク構
造とは完全に異なる特殊構造のニューラルネットワーク
を用いているので、汎用性に乏しい。特に、の従来技
術はその構造上、入力因子が多くなると指数関数的に学
習時間が増大し、またその能力も通常のニューラルネッ
トワークには及ばない。更に、の従来技術は、ニュー
ラルネットワーク構造が複雑であるばかりでなく、その
解析方法も難しく、また抽出したファジィ規則も単純で
はないという問題がある。そして、前記,の従来技
術は、コンパクトな構造が得られる利点があるが、構造
自体は従来のニューラルネットワークと同じであるの
で、内部解析を行うことは不可能である。
【0010】更に、前記の先行技術は従来のニューラ
ルネットワークと互換性があり、しかも内部解析が可能
であるという特徴を持ち、解析目的に応じたニューラル
ネットワーク構造を学習時に与えることで、任意の入力
因子と出力との関係を容易に解析できる技術である。そ
のニューラルネットワークの構造は、解析可能な疎結合
部分と精度を保証する全結合部分とからなっている。し
かしながら、疎結合部分と全結合部分とを一括して同時
に学習しているため、まれに、疎結合部分として分離さ
れるべき部分が全結合部分に結合されてしまい、ニュー
ラルネットワークの構造上、解析が困難になる場合があ
る。
【0011】そこで本発明の解決課題は、ニューラルネ
ットワークの疎結合部分を個別に学習させるステップを
備えることで解析が容易なニューラルネットワーク構造
を得るようにし、しかも、学習速度の向上が可能なニュ
ーラルネットワークの学習方法を提供しようとするもの
である。
【0012】
【課題を解決するための手段】上記課題を解決するた
め、請求項1記載の発明は、複数の入力層素子及び複数
の中間層素子を有し、全ての入力層素子に中間層素子が
結合されてなる一つの全結合部分と、複数の入力層素子
のうちの一部に中間層素子が結合されてなる疎結合部分
とを備える階層型構造のニューラルネットワークの学習
方法において、一つの疎結合部分に単独でさせる学習を
全ての疎結合部分について行う第1ステップと、前記第
1ステップにより学習済みの全ての疎結合部分を結合し
て第1ネットワークを生成する第2ステップと、前記第
1ネットワークに学習を行って第2ネットワークを生成
する第3ステップと、前記第2ネットワークに全結合部
分を結合して第3ネットワークを生成する第4ステップ
と、前記第3ネットワークに学習を行ってニューラルネ
ットワークを生成する第5ステップと、を有するもので
ある。
【0013】請求項2記載の発明は、請求項1記載のニ
ューラルネットワークの学習方法において、前記第2ス
テップは、前記第1ステップにより学習済みの複数の疎
結合部分の各々の重要度に応じた比率で疎結合部分を結
合させるステップであることを特徴とする。
【0014】請求項3記載の発明は、請求項2記載のニ
ューラルネットワークの学習方法において、前記重要度
を、疎結合部分の学習誤差に関する誤差指標の逆数とす
るものである。
【0015】請求項4記載の発明は、請求項2記載のニ
ューラルネットワークの学習方法において、前記重要度
を、各疎結合部分の出力値と学習データの出力値(教師
値)との相似度を示す相関係数とするものである。
【0016】請求項5記載の発明は、請求項2記載のニ
ューラルネットワークの学習方法において、前記重要度
を、学習データの入力値と出力値との相似度を示す相関
係数に基づいて決定するものである。
【0017】請求項6記載の発明は、請求項2記載のニ
ューラルネットワークの学習方法において、前記重要度
を、各疎結合部分の中間層素子の出力の分散に基づいて
決定するものである。
【0018】請求項7記載の発明は、請求項1〜6の何
れか1項に記載したニューラルネットワークの学習方法
において、前記第3ステップは、中間層と出力層との間
の学習係数を入力層と中間層との間の学習係数よりも大
きくして学習するステップであることを特徴とする。
【0019】請求項8記載の発明は、請求項1〜7の何
れか1項に記載したニューラルネットワークの学習方法
において、前記第5ステップは、第3ネットワークの全
結合部分の学習係数を疎結合部分の学習係数よりも大き
くして学習するステップであることを特徴とする。
【0020】請求項9記載の発明は、請求項1〜8の何
れか1項に記載したニューラルネットワークの学習方法
において、前記第4ステップにおいて第2ネットワーク
に結合される全結合部分に対し、第2ネットワークを対
象として複数の学習パターンにより学習させた際の出力
値と教師値との誤差と、入力値とを用いて学習を行わせ
るものである。
【0021】
【発明の実施の形態】以下、本発明の実施形態を説明す
る。 (1)請求項1の発明の実施形態 まず、請求項1の発明の実施形態に係るニューラルネッ
トワーク構造を説明する。通常の階層型ニューラルネッ
トワークは、入力層素子と中間層素子が全て結合してい
る(全結合部分という)が、本実施形態が適用される階
層型ニューラルネットワークは、図1に示すように任意
の入力層素子と任意の中間層素子間だけが結合してい
る。すなわち、このニューラルネットワークは、全ての
入力層素子と結合している中間層素子からなる全結合部
分11と、一部の入力層素子と結合している中間層素子
からなる疎結合部分12とからなっている。このよう
に、一部の入力層素子との間の重み(重み係数または結
合係数)の値を0にした疎結合部分12を設けること
で、従来の階層型ニューラルネットワークと完全な互換
性を持つことができる。
【0022】ここで、前述したの先行技術におけるニ
ューラルネットワークの学習方法を、図2のフローチャ
ートにて沿って説明する。まず、第1ステップA1は、
通常のニューラルネットワークの重み初期化処理であ
る。具体的には、通常のニューラルネットワークの各層
の素子間の全ての重みに対して初期値を小さい数の乱数
で与える。ここで、プログラム的に、入力層と中間層と
の間の任意の結合がないニューラルネットワーク構造を
定義してもよい。この場合は、以下の第2,第4ステッ
プの処理は不要である。
【0023】第2ステップA2は、重みを初期化したニ
ューラルネットワークに対し、図1に示したニューラル
ネットワーク構造に変更するための処理である。すなわ
ち、任意の入力層素子と中間層素子との間の結合を削除
する。ここで、結合を削除するための最も簡単な方法
は、任意の重みの値を0に置き換える方法である。
【0024】第3ステップA3は、通常のニューラルネ
ットワークの重み修正量の計算である。学習誤差を評価
する評価関数が小さくなるように、入力層素子と中間層
素子との間の重みの修正量を計算する。ここでの評価関
数の一例を以下の数式(1)に示す。 J=1/2・(o−t) ……(1) なお、数式(1)において、J:評価関数、o:ニュー
ロ出力、t:教師値(学習目標値)である。
【0025】第4ステップA4は、図1に示したニュー
ラルネットワーク構造のための重み修正量の計算であ
る。第3ステップA3の計算により、結合がない任意の
重みが再構築されることがある。それを防止するために
任意結合の重みの修正量を強制的に0にする。
【0026】第5ステップA5は、重みの修正処理であ
る。第3ステップ、第4ステップを経て計算された最終
的な修正量に従って入力層素子と中間層素子との間の重
みを修正する。重みの修正量を△wij、重みを
ij、学習係数をαとすると、数式(2)により重み
を修正することができる。 wij=wij+α△wij ……(2)
【0027】なお、第3ステップA3以降の処理は、学
習誤差が規定値以下になって学習終了が確認されるまで
繰り返し行われる(ステップA6)。ここで、学習終了
の判断は、評価関数や全学習データに対する誤差が規定
値以下になったかとき、もしくは、学習回数が所定回数
に達したか否かにより判断することができる。
【0028】上述した先行技術の学習方法では、疎結合
部分12と全結合部分11とを区別せずに一括して同時
に学習している。その結果、本来ならば疎結合部分12
の中間層素子につながるはずの部分(入力層素子)が全
結合部分11に結合されてしまったり、疎結合部分の結
合が小さく、全結合部分の結合が大きくなりすぎたりし
てニューラルネットワークの構造が解析困難になる場合
があった。
【0029】そこで、請求項1の発明では、図3に示す
ように、まず、第1ステップB1として、一の疎結合部
分に単独でさせる学習を全ての疎結合部分について行
う。次に、第2ステップB2として、第1ステップB1
により学習済みの全ての疎結合部分を結合して第1ネッ
トワークを生成する。次いで、第3ステップB3とし
て、第2ステップB2により生成された第1ネットワー
クに学習を行って第2ネットワークを生成する。そし
て、第4ステップB4として、第3ステップB3により
生成された第2ネットワークに全結合部分を結合して第
3ネットワークを生成し、第5ステップB5として、第
4ステップB4により生成された第3ネットワークに学
習を行って学習誤差を低減し、ニューラルネットワーク
を生成する。
【0030】図4は第1ステップB1を経たニューラル
ネットワークを示しており、12A,12B,12Cは
それぞれ疎結合部分である。これらの疎結合部分12
A,12B,12Cは関連の強い入力因子同士が一つの
疎結合部分に含まれるように定義されており、図示例で
は関連の強い入力1,2が一つの疎結合部分12Aに含
まれている。各疎結合部分12A,12B,12Cは所
定の学習データを与えて各々が単独で学習を行ってお
り、各入力因子と出力との関係が強く学習されている。
ここで、各疎結合部分12A,12B,12Cは比較的
小規模のネットワークであるため、学習速度も速く、局
所解へ陥る危険性も少ない。
【0031】図5は、第2ステップB2により、図4の
疎結合部分12A,12B,12Cを一つに結合して形
成された第1ネットワーク12Dである。なお、このネ
ットワークについて後述の第3ステップB3により学習
を行えば、ネットワークの構造上は、図5は第2ネット
ワークを示したものでもある。
【0032】この場合、複数の疎結合部分を単純に結合
するだけではニューラルネットワークは正常に動作しな
い。例えば、疎結合部分が図示するように三つあり、学
習データの出力値の範囲が0.1〜0.9であったとす
る。第1ステップB1において各疎結合部分が良好に学
習できたとすると、入出力特性を示す図6のシグモイド
関数(ニューラルネットワークを構成する各素子(ニュ
ーロン)の入出力特性として、通常、シグモイド関数の
入出力特性が使用される)によれば、各疎結合部分の入
力値の範囲は−2.2〜+2.2となる。この場合、三
つの疎結合部分を単純に結合すると、入力値の範囲は−
6.6〜+6.6となってしまい、その結果、出力値の
範囲も0〜1に変わってしまう。これを回避するため
に、入力値の範囲は複数の疎結合部分を結合した後も−
2.2〜+2.2に保つ必要がある。
【0033】そこで、結合の方法は各種考えられるが、
ここでは以下の方法を用いる。 (1)中間層と出力層との間の結合係数の値を疎結合部
分の数nで割る。 (2)各疎結合部分を結合する。 (3)すべてのパターンを想起し、出力値が所定の範囲
に入っていなければ、その範囲内に収まるように結合係
数を修正する。例えば、出力値の範囲が0.1〜0.9
である場合には入力値が−2.2〜+2.2になるよう
に、出力値の範囲が0.4〜0.6である場合には入力
値が−0.4〜+0.4になるようにする。これらの対
応は、図6のシグモイド関数の入出力特性によって決定
される。但し、この誤差が小さい場合には、次の第3ス
テップB3の学習だけでも修正は可能である。
【0034】第2ステップB2により生成された第1ネ
ットワークは、複数の疎結合部分を機械的に結合したも
のに相当するので、学習誤差が比較的大きい。そこで、
第3ステップB3では、各疎結合部分のバランス調整を
行うために、第1ネットワークに再度、学習させて第2
ネットワークを生成する。また、第5ステップB5で
は、学習誤差を更に低減させるために再度、学習を行
う。
【0035】第3ステップB3により生成された第2ネ
ットワークは、疎結合部分12A,12B,12Cのみ
から構成されている。つまり、各入力同士の相互作用が
欠落しているため、誤差の低下にも限界がある。そこ
で、第4ステップB4では、各入力同士の相互作用を反
映させた全結合部分11を追加して第3ネットワーク
(図1のニューラルネットワーク)を形成し、更に第5
ステップB5ではこの第3ネットワークを対象として再
度、学習を行う。これにより、最終的に学習誤差が低減
されたニューラルネットワークが生成される。
【0036】なお、上記各ステップにおける学習アルゴ
リズムとしてはバックプロパゲーションを用いてもよい
が、従来技術として説明した,の学習方法を用いる
方が良好な結果が得られることが確認されている。これ
らの,の学習方法は不要な素子や結合を削除する技
術であるため、汎化能力(例題の学習により、未学習の
入力データに対して妥当な出力を生成できる能力)が高
く、解析が容易なニューラルネットワーク構造を得るこ
とができる。
【0037】次に、請求項2に記載した発明の実施形態
を説明する。請求項1の発明では、第1ステップB1に
より学習した各疎結合部分12A,12B,12Cを対
等に結合している。しかし、各疎結合部分は学習誤差が
小さいものから大きいものまで様々である。そこで、誤
差の低下に重要な働きをする結合部分の結合係数を重視
し、誤差の大きい疎結合部分については結合係数を軽視
するように重み付けして結合する。これにより、結合時
の誤差の増加を防止することができる。結合時の各比率
は、仮に疎結合部分が三つの場合には例えば以下のよう
にする。
【0038】 疎結合部分1の比率=重要度1/(重要度1+重要度2+重要度3) 疎結合部分2の比率=重要度2/(重要度1+重要度2+重要度3) 疎結合部分3の比率=重要度3/(重要度1+重要度2+重要度3) ここで、重要度1,2,3はそれぞれ疎結合部分1,
2,3の重要度であり、後述するような方法で決定され
る。また、各疎結合部分の中間層と出力層との間の結合
係数(重み)は、それぞれの比率を次式のように掛けた
値である。 疎結合部分1の図5の重みw1i=図4のw1i・疎結合部分1の比率 疎結合部分2の図5の重みw2i=図4のw2i・疎結合部分2の比率 疎結合部分3の図5の重みw3i=図4のw3i・疎結合部分3の比率
【0039】次に、請求項3に記載した発明の実施形態
を説明する。この発明は、上述した疎結合部分の重要度
の算出方法に関するものである。疎結合部分の重要度
は、 重要度=1/誤差指標 により求めることとする。ここで、誤差指標とは、各疎
結合部分についての学習誤差に関する平均誤差、平均二
乗誤差、絶対値平均誤差、最大誤差、またはこれらの誤
差を複合したものを言う。つまり、各疎結合部分につい
て、学習データまたはテストデータを想起して学習誤差
に関する上記誤差指標を求め、その逆数を重要度とす
る。
【0040】なお、上記誤差指標は、ニューラルネット
ワークの使用目的に応じて適宜選択されるものであり、
例えば、紙幣鑑別技術のように誤りが絶対許されない分
野では、すべての学習誤差が基準以下であって最大誤差
が小さいような誤差指標を作成する。また、降雨予測等
の予測分野では、学習誤差に関する平均誤差や平均二乗
誤差等を誤差指標にする。
【0041】請求項4に記載した発明の実施形態を説明
する。この発明も、疎結合部分の重要度の算出方法に関
するものである。本実施形態では、疎結合部分の重要度
を、各疎結合部分の出力値と学習データの出力値との相
関関係により算出する。ここで、相関関係は相関係数に
より表され、相関係数とは、−1〜+1の範囲で相似度
(一致度合い)を示す指標であり、+1に近いほど良好
に学習していることを示す。すなわち、重要度の算出方
法としては、まず学習データまたはテストデータを想起
し、各疎結合部分の出力値と学習データの出力値との間
の相関係数を算出してこの相関係数をそのまま重要度と
する。
【0042】次いで、請求項5に記載した発明の実施形
態を説明する。この発明も、請求項3,4と同様に疎結
合部分の重要度の算出方法に関するものである。本実施
形態では、疎結合部分の重要度を、学習データの入力因
子(入力値)と出力因子(出力値)との間の相関係数に
より算出する。ここで、相関係数は−1〜+1の範囲で
相似度を示す指標であり、+1または−1に近いほど入
力値と出力値との間の相関が高く、0に近いほど相関が
ランダムであることを示す。
【0043】重要度の算出方法としては、まず入力因子
と出力因子との間の相関係数を算出する。ここで、入力
層素子が例えば図4のごとく4つある場合には相関係数
が4個算出される。また、図4における疎結合部分12
Aのように一つの疎結合部分に複数の入力層素子がある
疎結合部分については、相関係数の絶対値の最大値や平
均値を用いる。こうして算出した相関係数を重要度とす
る。
【0044】次に、請求項6に記載した発明の実施形態
を説明する。この発明も、請求項3〜5と同様に疎結合
部分の重要度の算出方法に関するものである。本実施形
態では、各疎結合部分の中間層素子を重要度算出に利用
する。すなわち、良好に学習した疎結合部分の中間層素
子の出力の分散は極めて大きく、学習不良の中間層素子
の分散は小さくなる傾向がある。このため、学習データ
またはテストデータをすべて想起して、全中間層素子の
出力の分散を算出し、その分散の値を重要度とする。図
4のように一つの疎結合部分に複数の中間層素子を有す
る場合には、各中間層素子について算出した出力の分散
の最大値や平均値を重要度とする。
【0045】請求項7に記載した発明の実施形態を説明
する。この発明は、請求項1の発明における第3ステッ
プB3の学習に関するものである。第2ステップB2に
おける疎結合部分の結合により学習誤差が増大するの
は、中間層と出力層との間の結合係数の修正が適切に行
われていないことが原因であるが、この問題はニューラ
ルネットワークが非線形であるため避けることが難し
い。従って、中間層と出力層との間の結合を重視して学
習することが望ましい。
【0046】本実施形態における第3ステップB3の学
習では、入力層と中間層との間の学習係数を小さくして
(ゼロにする場合も含む)その修正量を小さくし、中間
層と出力層との間の学習係数を大きくして相対的に中間
層と出力層との間の学習係数を増大させる。これによ
り、中間層と出力層との間の結合の成長速度を入力層と
中間層との間の結合の成長速度よりも速めることができ
ると共に、第1ステップB1において学習した各疎結合
部分の構造を大きく変更することなく学習することがで
きる。ここで、学習係数とは数式(2)におけるαであ
り、この学習係数αを調整することで結合係数(重み)
の修正量を調整することができる。
【0047】次に、請求項8に記載した発明の実施形態
を説明する。この発明は、請求項1に記載した発明の第
5ステップB5に関するものである。第4ステップB4
により第2ネットワークに全結合部分を結合して第3ネ
ットワークを生成し、その後、第5ステップB5で学習
を行うことにより、相互作用成分の強い対象についても
良好に学習することができ、学習誤差が減少する。ここ
で、「相互作用成分」とは、複数の入力因子による作用
が出力に現れる成分であって、単独では表せない複雑な
成分を言う。例えば、ニューラルネットワークの出力が
y=x1+x2+x1x2(x1,x2はそれぞれ入力
因子)で表される場合のx1x2を指す。しかしなが
ら、この学習の結果、疎結合部分の結合が全結合部分に
吸収されてしまい、生成されたニューラルネットワーク
の構造は解析が難しいものとなる場合がある。
【0048】そこで本実施形態では、第5ステップB5
における第3ネットワークを対象とした学習において、
疎結合部分の学習係数を全結合部分の学習係数よりも小
さくし(ゼロにする場合も含む)、その修正量を小さく
することによって疎結合部分の保全を図るようにした。
つまり、全結合部分の結合の成長速度を疎結合部分の結
合の成長速度よりも速めるようにしたものである。これ
により、疎結合部分だけでは学習しきれない相互作用分
だけを全結合部分で学習することができる。
【0049】最後に、請求項9に記載した発明の実施形
態を説明する。この発明は、請求項1に記載した発明の
第4ステップB4に関するものである。本実施形態で
は、第2ネットワーク(学習済みの第1ネットワーク)
について第3ステップB3だけでは学習しきれない誤差
成分だけを学習する全結合部分を構築し、その後、この
全結合部分を疎結合部分のみからなる第2ネットワーク
に結合して更に再学習を行う。
【0050】本実施形態において、第2ネットワークと
結合する前の全結合部分は小規模であるため、学習が速
く行われ、局所解に陥る可能性も少ない。また、この全
結合部分を第2ネットワークと結合してから行われる再
学習処理も、各疎結合部分は既に構造が殆ど決定されて
おり、各疎結合部分のバランスだけを学習するだけであ
るため高速に学習できるという利点がある。
【0051】例えば、第3ステップB3を経て構築され
た疎結合部分からなる第2ネットワークは、図5に示し
た第1ネットワーク12Dについて学習を終えたもので
ある。また、この第2ネットワークに結合されるネット
ワークは、図7に示すような全結合部分11Aであると
する。まず始めに、学習済みの第2ネットワークを対象
として、複数の学習パターン1,2,……,nのそれぞ
れについてネットワークの出力値と教師値との誤差を求
める。図8は学習パターン1〜nについて、入力1〜入
力4、出力、教師値及び誤差を一覧表示したものであ
る。
【0052】次に、図8における入力1〜入力4及び誤
差を一覧表示した図9のデータを学習データとし、この
学習データを用いて図7の全結合部分11Aに学習を行
わせる。そして、学習を終えた全結合部分11Aを、疎
結合部分からなる学習済みの第2ネットワークに結合す
ることにより、構造としては、図1に示すように全結合
部分11と疎結合部分12とからなるニューラルネット
ワークが構成される。このニューラルネットワークは、
全結合部分11Aによって疎結合部分からなる学習済み
の第2ネットワークの誤差を補償するように作用するの
で、全体として学習誤差の少ないニューラルネットワー
クを構築することができる。なお、結合後のニューラル
ネットワークの学習誤差が大きい場合には、更に通常の
学習データを用いて再度学習すればよい。
【0053】以上をまとめると、本実施形態の手順は以
下の通りである。 (1)複数パターンの学習データを疎結合部分からなる
第2ネットワークが想起し、各学習パターンに対する学
習誤差を算出する。 (2)上記学習パターンごとの入力及び誤差から全結合
部分に対する学習データを作成する。 (3)全結合部分を構築し、(2)で作成した学習デー
タを用いて学習する。 (4)第2ネットワークと全結合部分とを結合する。 (5)必要に応じて通常の学習データを用いて学習す
る。
【0054】
【発明の効果】以上のように本発明は、全結合部分と疎
結合部分とを備える階層型構造のニューラルネットワー
クを前提として、複数の疎結合部分について個別に学習
を行い、次にこれらの疎結合部分を結合して生成した第
1ネットワークに再度学習させて第2ネットワークを構
築し、更に、この第2ネットワークに全結合部分を結合
して生成した第3ネットワークに学習を行って最終的な
ニューラルネットワークを構築するものである。すなわ
ち、小規模なネットワークを対象として学習するステッ
プを含んでいるので、学習速度が速く、局所解に陥る危
険性が少ないと共に、疎結合部分と全結合部分とを同時
に一括して学習するだけの先行技術に比べて、解析容
易な構造を持つニューラルネットワークを構築できると
いう効果がある。
【図面の簡単な説明】
【図1】請求項1の発明の実施形態が適用される階層型
ニューラルネットワーク構造を示す図である。
【図2】先行技術におけるニューラルネットワークの学
習方法を示すフローチャートである。
【図3】請求項1の発明の実施形態を示すフローチャー
トである。
【図4】請求項1の発明の実施形態における第1ステッ
プのネットワーク構造を示す図である。
【図5】請求項1の発明の実施形態における第1ネット
ワークの説明図である。
【図6】シグモイド関数の入出力関係を示す図である。
【図7】請求項9の発明の実施形態における全結合部分
の構造を示す図である。
【図8】請求項9の発明の実施形態における第2ネット
ワークによる学習誤差を示す図である。
【図9】図7の全結合部分の学習データを示す図であ
る。
【符号の説明】
11,11A 全結合部分 12,12A,12B,12C 疎結合部分 12D 第1ネットワーク

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 複数の入力層素子及び複数の中間層素子
    を有し、全ての入力層素子に中間層素子が結合されてな
    る一つの全結合部分と、複数の入力層素子のうちの一部
    に中間層素子が結合されてなる疎結合部分とを備える階
    層型構造のニューラルネットワークの学習方法におい
    て、 一つの疎結合部分に単独でさせる学習を全ての疎結合部
    分について行う第1ステップと、 前記第1ステップにより学習済みの全ての疎結合部分を
    結合して第1ネットワークを生成する第2ステップと、 前記第1ネットワークに学習を行って第2ネットワーク
    を生成する第3ステップと、 前記第2ネットワークに全結合部分を結合して第3ネッ
    トワークを生成する第4ステップと、 前記第3ネットワークに学習を行ってニューラルネット
    ワークを生成する第5ステップと、 を有することを特徴とするニューラルネットワークの学
    習方法。
  2. 【請求項2】 請求項1記載のニューラルネットワーク
    の学習方法において、 前記第2ステップは、前記第1ステップにより学習済み
    の複数の疎結合部分の各々の重要度に応じた比率で疎結
    合部分を結合させるステップであることを特徴とするニ
    ューラルネットワークの学習方法。
  3. 【請求項3】 請求項2記載のニューラルネットワーク
    の学習方法において、 前記重要度を、疎結合部分の学習誤差に関する誤差指標
    の逆数とすることを特徴とするニューラルネットワーク
    の学習方法。
  4. 【請求項4】 請求項2記載のニューラルネットワーク
    の学習方法において、 前記重要度を、各疎結合部分の出力値と学習データの出
    力値との相似度を示す相関係数とすることを特徴とする
    ニューラルネットワークの学習方法。
  5. 【請求項5】 請求項2記載のニューラルネットワーク
    の学習方法において、 前記重要度を、学習データの入力値と出力値との相似度
    を示す相関係数に基づいて決定することを特徴とするニ
    ューラルネットワークの学習方法。
  6. 【請求項6】 請求項2記載のニューラルネットワーク
    の学習方法において、 前記重要度を、各疎結合部分の中間層素子の出力の分散
    に基づいて決定することを特徴とするニューラルネット
    ワークの学習方法。
  7. 【請求項7】 請求項1〜6の何れか1項に記載したニ
    ューラルネットワークの学習方法において、 前記第3ステップは、中間層と出力層との間の学習係数
    を入力層と中間層との間の学習係数よりも大きくして学
    習するステップであることを特徴とするニューラルネッ
    トワークの学習方法。
  8. 【請求項8】 請求項1〜7の何れか1項に記載したニ
    ューラルネットワークの学習方法において、 前記第5ステップは、第3ネットワークの全結合部分の
    学習係数を疎結合部分の学習係数よりも大きくして学習
    するステップであることを特徴とするニューラルネット
    ワークの学習方法。
  9. 【請求項9】 請求項1〜8の何れか1項に記載したニ
    ューラルネットワークの学習方法において、 前記第4ステップにおいて第2ネットワークに結合され
    る全結合部分に対し、第2ネットワークを対象として複
    数の学習パターンにより学習させた際の出力値と教師値
    との誤差と、入力値とを用いて学習を行わせることを特
    徴とするニューラルネットワークの学習方法。
JP2000230665A 2000-07-31 2000-07-31 ニューラルネットワークの学習方法 Pending JP2002042107A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000230665A JP2002042107A (ja) 2000-07-31 2000-07-31 ニューラルネットワークの学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000230665A JP2002042107A (ja) 2000-07-31 2000-07-31 ニューラルネットワークの学習方法

Publications (1)

Publication Number Publication Date
JP2002042107A true JP2002042107A (ja) 2002-02-08

Family

ID=18723595

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000230665A Pending JP2002042107A (ja) 2000-07-31 2000-07-31 ニューラルネットワークの学習方法

Country Status (1)

Country Link
JP (1) JP2002042107A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030622A (ja) * 2001-07-11 2003-01-31 Fuji Electric Co Ltd ニューラルネットワーク、その学習方法
JP2006011270A (ja) * 2004-06-29 2006-01-12 Nec Corp 画像パターン補正方法、及びそれを適用した模擬画像生成方法、並びにパターン外観検査方法
US7676441B2 (en) 2004-06-11 2010-03-09 Canon Kabushiki Kaisha Information processing apparatus, information processing method, pattern recognition apparatus, and pattern recognition method
WO2017141517A1 (ja) * 2016-02-17 2017-08-24 ソニー株式会社 情報処理方法および情報処理装置
JP2018195200A (ja) * 2017-05-19 2018-12-06 日本電信電話株式会社 多層ニューラルネットの大局構造抽出装置、方法、及びプログラム
JP2019508803A (ja) * 2016-03-31 2019-03-28 富士通株式会社 ニューラルネットワークモデルの訓練方法、装置及び電子機器
WO2020031851A1 (ja) * 2018-08-08 2020-02-13 富士フイルム株式会社 画像処理方法及び画像処理装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030622A (ja) * 2001-07-11 2003-01-31 Fuji Electric Co Ltd ニューラルネットワーク、その学習方法
US7676441B2 (en) 2004-06-11 2010-03-09 Canon Kabushiki Kaisha Information processing apparatus, information processing method, pattern recognition apparatus, and pattern recognition method
JP2006011270A (ja) * 2004-06-29 2006-01-12 Nec Corp 画像パターン補正方法、及びそれを適用した模擬画像生成方法、並びにパターン外観検査方法
WO2017141517A1 (ja) * 2016-02-17 2017-08-24 ソニー株式会社 情報処理方法および情報処理装置
JPWO2017141517A1 (ja) * 2016-02-17 2018-12-06 ソニー株式会社 情報処理方法および情報処理装置
US10664752B2 (en) 2016-02-17 2020-05-26 Sony Corporation Information processing method and information processing apparatus
JP2019508803A (ja) * 2016-03-31 2019-03-28 富士通株式会社 ニューラルネットワークモデルの訓練方法、装置及び電子機器
JP2018195200A (ja) * 2017-05-19 2018-12-06 日本電信電話株式会社 多層ニューラルネットの大局構造抽出装置、方法、及びプログラム
WO2020031851A1 (ja) * 2018-08-08 2020-02-13 富士フイルム株式会社 画像処理方法及び画像処理装置
JPWO2020031851A1 (ja) * 2018-08-08 2021-08-12 富士フイルム株式会社 画像処理方法及び画像処理装置
JP7062068B2 (ja) 2018-08-08 2022-05-02 富士フイルム株式会社 画像処理方法及び画像処理装置
US11948080B2 (en) 2018-08-08 2024-04-02 Fujifilm Corporation Image processing method and image processing apparatus

Similar Documents

Publication Publication Date Title
Zhao et al. Adaptive finite-time bipartite consensus for second-order multi-agent systems with antagonistic interactions
CN109190537B (zh) 一种基于掩码感知深度强化学习的多人物姿态估计方法
Gašić et al. Policy committee for adaptation in multi-domain spoken dialogue systems
CN111950711A (zh) 复值前向神经网络的二阶混合构建方法及系统
CN112258554A (zh) 基于注意力机制的双流层次孪生网络目标跟踪方法
JP2002042107A (ja) ニューラルネットワークの学習方法
CN112183762A (zh) 一种基于混合行为空间的强化学习方法
CN109697511B (zh) 数据推理方法、装置及计算机设备
CN113553771B (zh) 基于rnn网络的动态x参数核计算方法
JPH0318985A (ja) 情報処理装置
Shen et al. Theoretically principled deep rl acceleration via nearest neighbor function approximation
US20140006321A1 (en) Method for improving an autocorrector using auto-differentiation
CN114826948A (zh) 一种基于图卷积网络的sdn网络流量预测方法
CN114547276A (zh) 基于三通道图神经网络的会话推荐方法
Gangloff et al. A general parametrization framework for pairwise Markov models: An application to unsupervised image segmentation
Kinzel Theory of interacting neural networks
CN114254738A (zh) 双层演化的动态图卷积神经网络模型构建方法及应用
JPH08286922A (ja) ファジィ・ニューラルネットワーク装置
Gašic et al. Multi-agent learning in multi-domain spoken dialogue systems
Tokarchuk et al. Fuzzy sarsa: An approach to fuzzifying sarsa learning
JPH0644207A (ja) ニューラルネットワーク及びその構成方法
CN113821012B (zh) 一种用于变工况卫星姿态控制系统的故障诊断方法
Shil et al. Improved Soft Actor-Critic: Reducing Bias and Estimation Error for Fast Learning
JPH0981535A (ja) ニューラルネットワークの学習方法
Sragner et al. Improved model order estimation for nonlinear dynamic systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090212

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090609