JPH08110897A - 学習装置 - Google Patents

学習装置

Info

Publication number
JPH08110897A
JPH08110897A JP6274576A JP27457694A JPH08110897A JP H08110897 A JPH08110897 A JP H08110897A JP 6274576 A JP6274576 A JP 6274576A JP 27457694 A JP27457694 A JP 27457694A JP H08110897 A JPH08110897 A JP H08110897A
Authority
JP
Japan
Prior art keywords
model
parameter
intermediate layer
aic
information matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6274576A
Other languages
English (en)
Inventor
Kenji Fukumizu
健次 福水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP6274576A priority Critical patent/JPH08110897A/ja
Publication of JPH08110897A publication Critical patent/JPH08110897A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 学習の結果得られたパラメータにおいてFish
er情報行列が必ずしも正定値でない場合でも最適なモデ
ル,中間層素子の個数を決定できる。 【構成】 真の関数f(x)のまわりに統計的なばらつき
をもって発生した学習データを用いて、多層パーセプト
ロン10が真の関数の近似を行うように、多層パーセプ
トロン10のパラメータθの推定を行い、パラメータθ
を最適化するパラメータ推定部11と、パラメータ推定
部10によって得られた多層パーセプトロンのパラメー
タの推定値と中間層素子の個数とから計算されるAIC
に基づいて、最適な中間層素子の個数をもつモデルを選
択するモデル選択部12とを有し、モデル選択部12
は、Fisher情報行列の正定値性の確保されたモデルを算
出し、このような各モデルのうちから最適なモデルをA
ICによって選択する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、パターン認識やシステ
ム同定問題,制御問題などのように、与えられた入力か
ら望ましい出力を学習する学習装置に関する。
【0002】
【従来の技術】一般に、中間層の素子の出力関数として
シグモイド関数を用いた3層階層型ニューラルネットワ
ークは、非線形性を有するシステムの入出力関係の同定
に有効である。通常、対象とするシステムに関する知識
は、先験的前提がない限り、観測を通じて得られた有限
個のデータのみに反映されている。このため、ネットワ
ークの結合重みは、データとネットワーク出力が近くな
るよう、バックプロパゲーションアルゴリズムなどを用
いた学習により推定される。この場合、ネットワーク構
造(ネットワークの複雑さ)が適切でないと、学習した入
出力関係が獲得すべき入出力関係からずれてしまう。従
って、複雑さの異なる学習後のネットワークの中から、
適切なものを選ぶ必要がある。これは、一般に、モデル
選択と呼ばれている。
【0003】従来、モデル選択法としては、情報量基準
AIC(Akaike's Information Criterion)を最小化する
モデルを最適とみなして採用する方法が広く用いられて
いる。AICは、ゆう度原理とKL(Kullback-Leibler)
情報量との関係から、モデルに関する適当な仮定のもと
で漸近理論に従い導出された基準である。AICが適用
されるモデルは、主に自己回帰モデルあるいは重回帰モ
デルなどである。階層型ニューラルネットワークにおい
ても、モデル選択の立場から、AICを直接用いる方法
や学習により最ゆう推定量が得られた場合にAICと等
価になる基準を用いる方法などが提案されている。
【0004】
【発明が解決しようとする課題】しかしながら、文献
「“階層型ニューラルネットワークにおける結合重みの
非一意性とAIC”萩原克幸 他 電子情報通信学会論文
誌D-II,Vol.J76-D-II,No.9,pp2058-2065(1993)」に示
されているように、3層階層型ニューラルネットワーク
を用いた非線形回帰モデルに対しては、結合重みの非一
意性のためにAICが導出できず、従って、最適なネッ
トワークモデルの選択を行なうことができない。
【0005】このことを、以下に詳細に説明する。い
ま、図4に示すような、中間層にm個の中間層素子を配
置したr入力1出力の3層階層型ニューラルネットワー
クについて、中間層素子の出力関数をシグモイド関数,
入力層,出力層の各素子の出力関数を線形関数とし、こ
のネットワークをN(r,m)と表わす。
【0006】非線形性をもつシステムに関する予測・制
御あるいは機能解析といった目的のもとで、その入出力
関係をN(r,m)により同定することを考える。対象と
するシステムをr入力1出力とし、入力ベクトル列x=
(x1,x2,…,xn)r,(xi=(xi1,…,xir)∈Rr
i=1,…,n)に対するシステムの応答をy=(y1
2,…,yn)rとする。いま、入力数rおよびxは固定さ
れているものとする。yの生成機構を、図5に示すよう
に、各iで、システム固有の確定的出力h(xi)に確率
変数の実現値として表わされる雑音成分εiが重畳した
ものとみなし、その条件付き同時確率密度関数をp(y
|x)(≡p)と表わす。h(・)を真の入出力関係,pを
真の分布と呼ぶ。
【0007】今、yの確率構造を次式で表わす。
【0008】
【数1】yi=g(xi,ωm)+εi 0≦m≦M εi〜N(0,σ2),各iで独立,等分散
【0009】数1は、システムのパラメトリックモデル
であり、非線形回帰モデルの一種であり、数1におい
て、m,ωm,σ2が定まれば、次式で与えられるyの条
件付き同時確率密度関数が規定される。
【0010】
【数2】
【0011】ここで、θk=(ωm,σ2)(≡(θk 1,…,
θk k))およびk=m(r+2)+1は、それぞれfkのパ
ラメータおよびパラメータ数を表わす。このとき、kは
中間層素子数mに依存して変わる。K=M(r+2)+1
をkの最大値とし、M≪nとする。また、θkのパラメ
ータ空間をΘk∈Rkとする。以下、特に断わらない限
り、モデルとは条件付き同時確率密度関数fkを意味
し、モデルの族をFk={fk;θk∈Θk}と表わす。
【0012】階層型ニューラルネットワークの学習法と
してのバックプロパゲーションアルゴリズムは、データ
とネットワーク出力との誤差2乗和を評価関数とする最
急降下法と等価である。なお、誤差2乗和は次式で与え
られる。
【0013】
【数3】
【0014】このとき、学習により得られた結合重みを
〈ωm〉とすると、分散σ2の推定値〈σ2〉は、次式で
与えられる。
【0015】
【数4】〈σ2〉=Sn(〈ωm〉)
【0016】一般に、パラメータ空間Θk内において、
評価関数Sn(・)の大域的な最小値を与えるパラメータ
の推定量〈θkNLS=(〈ωmNLS,〈σ2NLS)を非線
形最小2乗推定量と呼び、推定されたモデルをf(y|
x,〈θkNLS)(≡〈fkNLS)と表わす。学習により
非線形最小2乗推定量が得られる場合、ネットワーク
は、その構造が簡単すぎると、偏った入出力関係を学習
してしまう。逆に、複雑すぎると、学習に用いたデータ
に対する誤差は小さくなるが、真からは隔たった入出力
関係を学習してしまう。従って、学習したネットワーク
について、適切なネットワーク構造,すなわち中間層素
子数mを決める必要がある。
【0017】これは、{〈fkNLS;k=1,…,K}
の中から、何らかの意味で、適切なモデルを選ぶことに
対応し、一般に、モデル選択と呼ばれる。
【0018】従来、自己回帰モデルあるいは重回帰モデ
ルなどについては情報量基準AIC(Akaike's Informat
ion Criterion)を最小化するモデルを選択する方法が広
く用いられてきた。AICは、〈fk〉と真の分布pの
近さの尺度としてKL(Kullback-Leibler)情報量を導入
し、モデルに関する適当な仮定のもとで導出された基準
である。従って、その導出における仮定を満たすモデル
の族を対象とする場合、AICにより選択されるモデル
の適切さは、KL情報量を根拠として保証される。
【0019】一方、ゆう度原理では、fkをパラメータ
θkの関数と見るとき、l(θk)=logf(y|x,θk)を
対数ゆう度と呼び、対数ゆう度を最大化するパラメータ
の推定量〈θkMLを最ゆう推定量と呼ぶ。このとき、
l(〈θkML)を最大対数ゆう度と呼び、最ゆう推定量
〈θkMLにより定められるモデルf(・|x,〈θk
ML)(≡〈fkML)を最ゆうモデルと呼ぶ。
【0020】AICは、最ゆうモデルに対する基準であ
る。もし、推定されたモデルが最ゆうモデルでなけれ
ば、そのモデルはAIC導出における仮定を満たさな
い。しかしながら、数2のモデルの場合、非線形最小2
乗推定量は最ゆう推定量と一致することが知られてい
る。以下、学習により非線形最小2乗推定量が得られた
場合を考え、〈θk〉=〈θkML=〈θkNLS
〈fk〉=〈fkML=〈fkNLSとする。
【0021】ZをYと独立に同一分布に従う確率変数と
して、次式を平均対数ゆう度と呼ぶ。
【0022】
【数5】
【0023】また、≪θk≫を次式を満たすパラメータ
値とする。
【0024】
【数6】
【0025】このとき、必ずしもf(・|x,〈θk〉)
(≡≪fk≫)は、真の分布pに一致する必要はない。
【0026】〈fk〉のpに対する近さの尺度としてK
L情報量I(〈fk〉,p〉)を導入することで、最ゆう
モデルの平均対数ゆう度l*(〈θk〉)により最ゆうモデ
ル間で真の分布との近さを相対的に評価できる。
〈θk〉はデータに依存するためl*(〈θk〉)のデータ
分布に関する期待値すなわち、次式で与えられる期待値
が理想的な評価量となる。
【0027】
【数7】
【0028】ln *(k)を期待平均対数ゆう度と呼ぶ。通
常、真の分布は未知であり、l(〈θk〉)によりl
n *(k)を推定する必要がある。
【0029】l*(・)およびl(・)をそれぞれの最大値
を与える≪θk≫および最ゆう推定量〈θk〉において2
次のテイラー展開により近似する。そうして得られたl
(〈θk〉)とl*(〈θk〉)の差は、最ゆう推定量の一致
性および漸近正規性を考慮してデータに関する期待値を
とると、Trace[J-1・I]で与えられる。ここ
で、JおよびIはそのij成分が次式で与えられるk×
k行列である。
【0030】
【数8】
【0031】ところで、「モデルの族が真の分布を含
む」という仮定のもとでは任意の入力ξ=(ξ1,…,ξ
r)∈Rrに対して、g(ξ,ωm *)=h(ξ) ωm *∈Ωm
満たすm(m*≦m≦M)とωm *が存在する。m(m*≦m
≦M)についてg(ξ,ωm *)を真のネットワーク出力と
呼ぶ。
【0032】真のネットワーク出力が定数λの場合、す
なわち、g(ξ,ωm *)=λ |λ|<∞の場合、真のネ
ットワーク出力を定める結合重みは無数に存在する。例
えば、N(r,1)についてαj=0であればβ1/{1+
exp(τ1)}=λを満たす(β1,τ1)の組合せは一意に定
められない。従って、N(r,m)(m>1)についても同
様のことがいえる。
【0033】いま、λ=0の場合を考える。g(ξ,
ωm)について、すべてのβj(j=1,…,m)がβj=0
を満たす場合、任意のαj,τj(j=1,…,m)に対し
て、g(ξ,ωm)=0が成り立つ。すなわち、真の入出
力関係を定める入力重み(結合重み)および閾値は一意性
をもたない。
【0034】このことから、階層型ニューラルネットワ
ークN(r,m)を用いた非線形回帰モデルに対しては、
すべてのmについて、パラメータの真値は識別不能とな
り、「パラメータの真値が大域的に識別可能である」と
いう仮定が成り立たない。従って、真値の集合内に何の
制約(あるいは分布)も与えられていないことを考える
と、平均対数ゆう度は、その集合内において平坦にな
る。
【0035】このとき、数8の行列J(以後、Fisher情
報行列と呼ぶ)について、一意性をもたないパラメータ
の真値に依存する要素が恒等的に0になり、Jは正則で
なくなる。従って、J-1は存在せず、N(r,m)を用い
た非線形回帰モデルに対して、AICは導出できない。
【0036】このように、従来では、多層パーセプトロ
ンにAICを適用する場合に、Fisher情報行列が正定値
性をもたないと、正しくAICが適用できないという問
題があった。
【0037】本発明は、学習の結果得られたパラメータ
においてFisher情報行列が必ずしも正定値でない場合で
も最適なモデル,中間層素子の個数を決定することの可
能な学習装置を提供することを目的としている。
【0038】
【課題を解決するための手段および作用】上記目的を達
成するために、請求項1記載の発明は、真の確率p(z)
に従って発生した標本を用いて、次元の異なる複数のパ
ラメータ空間{Θ(m)}mに属するパラメータθ(m)によっ
てパラメトライズされるパラメータ付確率密度関数族
{p(z;θ(m))}によって最尤推定法で真の確率密度関
数の推定を行なうパラメータ推定手段と、各mに対して
得られたパラメータの推定値〈θ〉(m)とパラメータΘ
(m)の次元数とから計算されるAICに基づいて、最も
適したパラメータの次元数をもつモデルを選択するモデ
ル選択手段とを有し、モデル選択手段は、パラメータの
推定値〈θ〉(m)におけるFisher情報行列の正定値性の
確保された各モデルを算出し、Fisher情報行列の正定値
性の確保された各モデルのうちから最適なモデルをAI
Cによって選択することを特徴としている。これによ
り、学習の結果得られたパラメータにおいてFisher情報
行列が必ずしも正定値でない場合でも、最適なモデルを
決定することができる。
【0039】また、請求項2,請求項3記載の発明は、
入力層と中間層と出力層とのネットワークとして構成さ
れ、入力ベクトルが与えられるときに所定のパラメータ
θに基づき入力ベクトルに対する出力ベクトルを計算し
て出力する多層パーセプトロンと、真の関数f(x)のま
わりに統計的なばらつきをもって発生した学習データを
用いて、多層パーセプトロンが真の関数の近似を行なう
ように、該多層パーセプトロンのパラメータθの推定を
行ない、パラメータθを最適化するパラメータ推定手段
と、該多層パーセプトロンの中間層がH個の中間層素子
をもつとするときに、パラメータ推定手段によって得ら
れた多層パーセプトロンのパラメータの推定値〈θ〉
(H)と中間層素子の個数とから計算されるAICに基づ
いて、最適な中間層素子の個数をもつモデルを選択する
モデル選択手段とを有し、モデル選択手段は、Fisher情
報行列の正定値性の確保されたモデルを算出し、Fisher
情報行列の正定値性の確保された各モデルのうちから最
適なモデルをAICによって選択することを特徴として
いる。これにより、学習の結果得られたパラメータにお
いてFisher情報行列が必ずしも正定値でない場合でも、
最適なモデルすなわち、最適な中間層素子の個数を決定
することができる。
【0040】
【実施例】以下、本発明の実施例を図面に基づいて説明
する。図1は本発明に係る学習装置の一実施例の構成図
である。本実施例の学習装置には、多層パーセプトロン
(例えば3層パーセプトロン)10が用いられている。こ
の多層パーセプトロン10は、L個の入力層素子1−1
乃至1−Lを有する入力層1とH個の中間層素子2−1
乃至2−Hを有する中間層2とM個の出力層素子3−1
乃至3−Mを有する出力層3とのネットワークで構成さ
れ、L次元入力空間Xからの入力ベクトルxを入力層1
において受け取り、入力ベクトルxが与えられた時のM
次元出力ベクトルyを所定のパラメータθに基づき、次
式により計算して出力層3から出力するようになってい
る。
【0041】換言すれば、この多層パーセプトロン10
は、次式の関数系によって特徴付けられている。
【0042】
【数9】
【0043】ここでσ(t)はシグモイド関数であり、次
式で与えられる。
【0044】
【数10】
【0045】また、この多層パーセプトロン10のパラ
メータθは、θ=(w11,...,wMH1,...,ηM,
11,...,uHL1,...,ζH)で表わされる。なお、
11,...,wMHはH個の中間層素子2−1乃至2−Hと
M個の出力層素子3−1乃至3−Mとの間の結合係数,
11,...,uHLはL個の入力層素子1−1乃至1−Lと
H個の中間層素子2−1乃至2−Hとの間の結合係数,
η1,...,ηMはM個の出力層素子3−1乃至3−Mの閾
値,ζ1,...,ζHはH個の中間層素子2−1乃至2−H
の閾値である。このような多層パーセプトロン10で
は、ネットワークの出力を並列的な処理によって計算可
能である。
【0046】本発明では、この多層パーセプトロン10
を実際に稼動するに先立ち(学習後の実際の応用に先立
ち)、多層パーセプトロン10のモデルとして、その中
間層2の中間層素子の個数HがH1からHnまでのn個の
モデルを用意し、n個のモデルのうちのどのモデルが最
適であるか選択決定することを意図している。
【0047】このため、本実施例の学習装置には、真の
関数f(x)のまわりに統計的なばらつきをもって発生し
た学習データを用いて、多層パーセプトロン10が真の
関数の近似を行なうように、該多層パーセプトロン10
のパラメータθの推定を行ない、パラメータθを最適化
するパラメータ推定部11と、該多層パーセプトロン1
0の中間層2がH個の中間層素子をもつとするときに、
パラメータ推定部11によって得られた多層パーセプト
ロン10のパラメータの推定値〈θ〉(H)と中間層素子
の個数とから計算されるAICに基づいて、最適な中間
層素子の個数をもつモデルを選択するモデル選択部12
が設けられている。
【0048】なお、パラメータ推定部11は、与えられ
た学習データ{(x(ν),y(ν))|ν=1,...,N}を用
いて、ネットワーク,すなわち多層パーセプトロン10
のパラメータθを例えばバックプロパゲーションによっ
て最小2乗誤差を小さくするように推定する。すなわ
ち、次式の最小2乗誤差を小さくするように、θを求め
る。
【0049】
【数11】
【0050】このように、本実施例では、パラメータ推
定部11は、中間層2の中間層素子の個数Hがあらかじ
め定められたH1からHnまでの間のn個のモデル全てに
対して、パラメータθの推定を行ない、各モデルにおけ
る最小2乗誤差推定量,すなわちパラメータ推定量
〈θ〉(H)(=〈θ〉(H1),…〈θ〉(Hn))を算出し、モ
デル選択部12は、パラメータ推定部11で得られた各
モデルのパラメータ推定量〈θ〉(H)を用いて、AIC
に基づき、各モデルのうちから最適なモデルを選択する
ようになっている。
【0051】ところで、前述したように、AICはFis
her情報行列J(数8を参照)が非特異である場合(正定値
である場合)に限り有効に働く。しかしながら、多層パ
ーセプトロンの場合には、前述の文献にも記載されてい
るようにFisher情報行列Jが特異になる場合(J=0に
なる場合)があり、この場合には、上述したようなAI
Cによるモデル選択がうまく働かない。
【0052】本願の発明者は、多層パーセプトロンのF
isher情報行列Jが特異になるのは、 (1)
(wij,...,wMj)=0となるjが存在する場合、(2)uj
=(uj1,…,ujL)=0となるjが存在する場合、(3)
相違なるj1,j2に対し、(uj1j1)=(uj2j2
または(uj1j1)=−(uj2j2)となる場合、の
3条件のいずれかが成立する場合に限られる、という事
実を見出した。なお、uj1,uj2はベクトル量であり、
ζj1,ζj2はスカラー量であって、添字j1,j2は中間
層の素子番号である。すなわち、uj1,ζj1は中間層の
1番目の素子の重みベクトル,閾値であり、uj2,ζ
j2は中間層のj2番目の素子の重みベクトル,閾値であ
る。
【0053】そこで、この事実を用いて、本実施例のモ
デル選択部12では、モデル選択を行なう際に、多層パ
ーセプトロン10のFisher情報行列Jが特異であった
場合には、上の3条件のどれが成り立っているかを判定
し、それぞれに応じて冗長な中間層素子を削減し、入出
力関数を変化させることなくFisher情報行列が非特異
になるネットワークを得る操作を行なうようになってい
る。Fisher情報行列Jが非特異なネットワークに変換
されれば、通常のようにAICの手法を用いて学習後の
期待誤差が最小になるようなモデル選択を行なうことが
できる。
【0054】このため、本実施例では、モデル選択部1
2には、例えば、素子削減機構13が設けられており、
モデル選択部12は、多層パーセプトロンのFisher情報
行列Jが特異になる場合、素子削減機構13により、上
記3条件のいずれかに応じて冗長な中間層素子を削減し
て、多層パーセプトロンの当初のモデルを中間層素子数
の少ないものに変換し、このように変換されたモデルの
うちで最適なモデルを選択するようにしている。換言す
れば、変換された各モデルは、そのFisher情報行列Jが
全て、非特異のものであるので、これにより、AICを
用いてモデル選択を行なうことができる。
【0055】具体的には、モデル選択部12は、当初の
ネットワークの中間層素子数がH個であった場合の変換
モデルの中間層素子数をm(H)個と書くことにすると
き、変換されたモデルに対し、AIC(Akaike's Info
rmation Criterion)を用いて次式の量AICHを最小に
するような中間層素子数,すなわちモデルを選択するこ
とができる。
【0056】
【数12】
【0057】次にこのような構成の学習装置の動作につ
いて説明する。いま、多層パーセプトロン10のモデル
として当初、図2に示すように、例えば、H1個からHn
個までの中間層素子を有するn個のモデルMDL1〜M
DLnが用意されているとする。この場合、多層パーセ
プトロン10を実際に応用するに先立って、その応用に
どのモデルが最適であるかの選択(学習)が行なわれる。
このモデル選択は、パラメータ推定部11で推定された
各モデルMDL1〜MDLnのパラメータ推定値を用い、
モデル選択部12において、AICにより実行される。
【0058】この場合、各モデルMDL1〜MDLnのFi
sher情報行列Jが全て正定値であり、非特異である場合
には、AICにより最適なモデルを選択することができ
るが、各モデルMDL1〜MDLnのうちのいずれかにFi
sher情報行列Jが正定値でないもの、すなわち特異なも
のがある場合には、AICによるモデル選択を行なうこ
とはできない。
【0059】この場合、モデル選択部12は、素子削減
機構13を起動し、素子削減機構13に、上述した3条
件のいずれが成り立っているかを判定させ、それに応じ
て冗長な中間層素子の個数を削減させる。
【0060】すなわち、素子削減機構13は、先ず、中
間層2から出力層3への重み{wij}を調べ、ベクトル
(w1j,...,wMj)のノルムが、予め定められたごく小さ
い閾値th1以下である場合には、中間層2の第j番目
の素子を削減し、中間層素子が1個減少したモデルに変
換する。
【0061】次に、入力層1から中間層2への重み{u
jk}を調べ、ベクトルuj=(uj1,...,ujL)のノルム
が、予め定められたごく小さい閾値th2以下である場
合には、中間層2の第j素子を削減し、中間層素子が1
個減少したモデルに変換する。
【0062】次に、組{(ujj)}を調べ、相違な
るj1,j2に関して、(uj1j1)−(uj2j2)の
ノルムが、予め定められたごく小さい閾値th3以下で
あれば、中間層2の第j2素子を削減し、wij1→wij1
+wij2(1≦i≦M)の変換を行ない、(wj1j1)+
(wj2j2)のノルムが、あらかじめ定められた閾値
th3以下であれば、中間層2の第j2素子を削減し、w
j1→wij1−wij2, ηi→ηi+wij2(i≦i≦M)の変
換を行なう。
【0063】この3種類の素子削減手順を、それ以上削
減するものがなくなるまで繰り返すことにより、図3に
示すような最終的なn個の変換モデル(極小モデル)MD
1'〜MDLn'が得られる。ここで、n個の変換モデル
MDL1'〜MDLn'ともとのモデルMDL1〜MDLn
は近似的に同一の入出力写像を実現している。すなわ
ち、変換されても、ネットワークの入出力関係は保存さ
れている。また、n個の変換モデルMDL1'〜MDLn'
は、上述のように、3条件を成り立たせている中間層素
子を削減したものとなっており、各変換モデルMDL1'
〜MDLn'はそのFisher情報行列Jが全て正定値(非特
異)のものとなっている。
【0064】従って、変換モデルMDL1'〜MDLn'が
求まると、モデル選択部12は、例えば数11に従っ
て、変換モデルMDL1'〜MDLn'のうち、AICH
最小にするようなモデルを選択することができる。この
ようにモデルが選択されると、このモデルの多層パーセ
プトロンを用いて、実際の応用において(例えば、パタ
ーン認識や制御、システム同定の問題などにおいて)出
力を計算することができる。
【0065】なお、上述の実施例では、与えられた入力
から所定の出力を出力するシステム(モデル)が多層パー
セプトロンであるとしているが、本発明の学習装置は、
多層パーセプトロンに限らず、AICによりモデルを選
択する際、Fisher情報行列の正定値性が問題となるよう
な全てのシステム(モデル)に適用可能である。
【0066】すなわち、本発明の学習装置は、基本的に
は、真の確率p(z)に従って発生した標本を用いて、次
元の異なる複数のパラメータ空間{Θ(m)}mに属するパラ
メータθ(m)によってパラメトライズされるパラメータ
付確率密度関数族{p(z;θ(m))}によって最尤推定法
で真の確率密度関数の推定を行なうパラメータ推定部
と、各mに対して得られたパラメータの推定値〈θ〉
(m)とパラメータΘ(m)の次元数とから計算されるAIC
に基づいて、最も適したパラメータの次元数をもつモデ
ルを選択するモデル選択部とを有し、モデル選択部が、
パラメータの推定値〈θ〉(m)におけるFisher情報行列
の正定値性の確保された各モデルを算出し、Fisher情報
行列の正定値性の確保された各モデルのうちから最適な
モデルをAICによって選択することを特徴としてい
る。
【0067】
【発明の効果】以上に説明したように、本発明によれ
ば、モデル選択手段は、Fisher情報行列の正定値性の確
保されたモデルを算出し、Fisher情報行列の正定値性の
確保された各モデルのうちから最適なモデルをAICに
よって選択するので、学習の結果得られたパラメータに
おいてFisher情報行列が必ずしも正定値でない場合でも
最適なモデル,中間層素子の個数を決定することができ
る。これにより、パターン認識や制御、システム同定の
問題に多層パーセプトロンを応用する際、期待誤差を最
小にするような中間総素子数が選択でき、学習後の誤差
を減少させることができる。
【図面の簡単な説明】
【図1】本発明に係る学習装置の一実施例の構成図であ
る。
【図2】図1の学習装置の動作を説明するための図であ
る。
【図3】図1の学習装置の動作を説明するための図であ
る。
【図4】3層階層型ニューラルネットワークの一例を示
す図である。
【図5】非線形性をもつシステムのモデルを示す図であ
る。
【符号の説明】
1 入力層 2 中間層 3 出力層 10 多層パーセプトロン 11 パラメータ推定部 12 モデル選択部 13 素子削減機構

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 真の確率p(z)に従って発生した標本を
    用いて、次元の異なる複数のパラメータ空間{Θ(m)}m
    属するパラメータθ(m)によってパラメトライズされる
    パラメータ付確率密度関数族{p(z;θ(m))}によって
    最尤推定法で真の確率密度関数の推定を行なうパラメー
    タ推定手段と、各mに対して得られたパラメータの推定
    値〈θ〉(m)とパラメータΘ(m)の次元数とから計算され
    るAICに基づいて、最も適したパラメータの次元数を
    もつモデルを選択するモデル選択手段とを有し、前記モ
    デル選択手段は、パラメータの推定値〈θ〉(m)におけ
    るFisher情報行列の正定値性の確保された各モデルを算
    出し、Fisher情報行列の正定値性の確保された各モデル
    のうちから最適なモデルをAICによって選択すること
    を特徴とする学習装置。
  2. 【請求項2】 入力層と中間層と出力層とのネットワー
    クとして構成され、入力ベクトルが与えられるときに所
    定のパラメータθに基づき入力ベクトルに対する出力ベ
    クトルを計算して出力する多層パーセプトロンと、真の
    関数f(x)のまわりに統計的なばらつきをもって発生し
    た学習データを用いて、前記多層パーセプトロンが真の
    関数の近似を行なうように、該多層パーセプトロンのパ
    ラメータθの推定を行ない、パラメータθを最適化する
    パラメータ推定手段と、該多層パーセプトロンの中間層
    がH個の中間層素子をもつとするときに、前記パラメー
    タ推定手段によって得られた多層パーセプトロンのパラ
    メータの推定値〈θ〉(H)と中間層素子の個数とから計
    算されるAICに基づいて、最適な中間層素子の個数を
    もつモデルを選択するモデル選択手段とを有し、前記モ
    デル選択手段は、Fisher情報行列の正定値性の確保され
    たモデルを算出し、Fisher情報行列の正定値性の確保さ
    れた各モデルのうちから最適なモデルをAICによって
    選択することを特徴とする学習装置。
  3. 【請求項3】 請求項2記載の学習装置において、前記
    モデル選択手段は、冗長な中間層素子を削減することに
    よって、Fisher情報行列の正定値性の確保された各モデ
    ルを得ることを特徴とする学習装置。
JP6274576A 1994-10-12 1994-10-12 学習装置 Pending JPH08110897A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6274576A JPH08110897A (ja) 1994-10-12 1994-10-12 学習装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6274576A JPH08110897A (ja) 1994-10-12 1994-10-12 学習装置

Publications (1)

Publication Number Publication Date
JPH08110897A true JPH08110897A (ja) 1996-04-30

Family

ID=17543673

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6274576A Pending JPH08110897A (ja) 1994-10-12 1994-10-12 学習装置

Country Status (1)

Country Link
JP (1) JPH08110897A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103018632A (zh) * 2012-12-10 2013-04-03 江苏大学 基于费歇信息的小电流接地系统单相接地故障选线方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103018632A (zh) * 2012-12-10 2013-04-03 江苏大学 基于费歇信息的小电流接地系统单相接地故障选线方法
CN103018632B (zh) * 2012-12-10 2015-03-04 江苏大学 基于费歇信息的小电流接地系统单相接地故障选线方法

Similar Documents

Publication Publication Date Title
Weinstein et al. Sequential algorithms for parameter estimation based on the Kullback-Leibler information measure
US20080293372A1 (en) Optimum Nonlinear Correntropy Filted
CA3151805A1 (en) Automated path-based recommendation for risk mitigation
Lee et al. Projection-type estimation for varying coefficient regression models
Boets et al. Clustering time series, subspace identification and cepstral distances
Delgado et al. A novel approach to model error modelling using the expectation-maximization algorithm
JPH08110897A (ja) 学習装置
Larimore Identification of nonlinear parameter-varying systems via canonical variate analysis
Castillo et al. Optimal transformations in multiple linear regression using functional networks
CN113688875A (zh) 工业系统故障识别方法及装置
Fischer et al. Exploiting prior knowledge in fuzzy model identification of a heat exchanger
Münker et al. Local model network with regularized MISO finite impulse response models
Wang et al. Diffusion field estimation using decentralized kernel kalman filter with parameter learning over hierarchical sensor networks
Xue et al. Semi-Standard partial covariance variable selection when irrepresentable conditions fail
US5528729A (en) Neural network learning apparatus and learning method
Movahedifar et al. On the closed-loop Volterra method for analyzing time series
KR0131847B1 (ko) 비선형 회귀를 위한 가속 간편 학습 방법
Collings et al. Recursive prediction error techniques for adaptive estimation of hidden Markov models
Grigoriev et al. New methods for estimating detailed fertility schedules from abridged data
Lvovich et al. Development of a simulation model for the supply of spare parts for heating equipment
Gaskell et al. Signal Diffusion Mapping: Optimal Forecasting with Time‐Varying Lags
Korbicz et al. Confidence estimation of GMDH neural networks
Pappas et al. Multivariate ARMA order estimation via multi-model partition theory
Tsang et al. Selective Confidence Intervals for Martingale Regression Model
Pappas et al. A new algorithm for on-line Multivariate ARMA identification using Multimodel Partitioning Theory