JPH0962645A - 専門家の階層混合モデルの構築的学習方法 - Google Patents

専門家の階層混合モデルの構築的学習方法

Info

Publication number
JPH0962645A
JPH0962645A JP7213781A JP21378195A JPH0962645A JP H0962645 A JPH0962645 A JP H0962645A JP 7213781 A JP7213781 A JP 7213781A JP 21378195 A JP21378195 A JP 21378195A JP H0962645 A JPH0962645 A JP H0962645A
Authority
JP
Japan
Prior art keywords
learning
expert
constructive
hme
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7213781A
Other languages
English (en)
Inventor
Kazumi Saito
和巳 斉藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP7213781A priority Critical patent/JPH0962645A/ja
Publication of JPH0962645A publication Critical patent/JPH0962645A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

(57)【要約】 【課題】 モデルのパラメータである結合重みだけでな
く、専門家の階層混合モデルの適切な構造も学習するこ
とができる専門家の階層混合モデルの構築的学習方法を
提供する。 【解決手段】 Φ(2) を初期化し、R(2) =(1,−
1)T ,c=2とし(ステップS1)、HME(c) の学
習を実行し(ステップS2)、終了条件を判定し、該条
件を満たす場合には反復を停止して処理を終了し(ステ
ップS3)、そうでない場合には、継続して、拡張箇所
となるenc を選択し(ステップS4)、wc+1 ,vc
を初期化し、R(c+1) を計算し、c=c+1として、H
MEの学習を実行する工程に戻る(ステップS5)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば音声処理、
画像処理および運動制御などの広い分野において有効で
ある専門家の階層混合モデル(Hierarchical Mixtures
of Experts)(以下、HMEと略称する)のパラメータ
である結合重みだけでなく、モデルの適切な構造も学習
する専門家の階層混合モデルの構築的学習方法に関す
る。
【0002】
【従来の技術】まず、問題の枠組について説明する。
{(x1 ,y1 ),…,(xm ,ym )}を事例集合と
する。但し、xt はn−1次元入力ベクトル、yt は目
標出力値である。HMEは複数の専門化回路(en:ex
pert network)と調整回路(gn:gating network)か
ら構成され、enを端点とする任意の木として定義され
るが、二分木でも同じ動作をするHMEを構築できるの
で、本発明では、二分木のみを考える。以下では、en
i の結合重みベクトルをwi =(wi1,…,winT
表し、その出力値を
【数1】 で定義し、一方、二分木では、gnの出力値はシグモイ
ド関数値となるので、gni の結合重みベクトルをvi
=(vi1,…,vinT で表し、その出力値を
【数2】 で定義する。但し、win,vinはバイアス項であり、x
tn=1に設定する。また、en1 ,en2 およびgn1
からなる最も単純なHMEを(gn1 ,en1 ,e
2 )で表し、その出力値をg1 1 +(1−g1 )u
2 とする。任意のHMEについては、(gn1 ,e
1 ,(gn2 ,en2 ,en3 ))のようなリスト構
造で表現し、全体の出力値を再帰的に定義する。なお、
この例では、g1 1 +(1−g1 )(g2 2 +(1
−g2 )u3 )となる。与えられた構造に対するHME
の学習法には[M.I.Jordan,R.A.Jacobs:"Hierachical m
ixtures of experts and EM algorithm",Neural Comput
ation,Vol.6,No.2 (1994) pp.181-214]が提案されてい
る。
【0003】
【発明が解決しようとする課題】従来の方法では、学習
に先立ち、予め適切な構造を定義しなければならないと
ともに、また必要最小限度の複雑さの構造では、望まし
くない局所最適解に陥ることが多くなるという問題があ
る。
【0004】本発明は、上記に鑑みてなされたもので、
その目的とするところは、モデルのパラメータである結
合重みだけでなく、専門家の階層混合モデルの適切な構
造も学習することができる専門家の階層混合モデルの構
築的学習方法を提供することにある。
【0005】
【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の本発明は、入力属性値ベクトルとそ
の目標出力値で記述される事例の集合から、各事例の入
出力写像を区分線形関数として実現する専門家の階層混
合モデルの学習において、最も単純な構造から開始し、
次第にその構造を拡張することにより、モデルのパラメ
ータである結合重みだけでなく、モデルの適切な構造も
学習する構築的学習方法であって、関係行列を用いて問
題を定式化し、結合重みを初期化し、準ニュートン法に
基づき結合重みを学習し、統計尺度に基づき構築的学習
の終了を判定し、終了でないと判定した場合には、重み
付き誤差に基づき拡張箇所を選択し、関係行列を更新す
ることを要旨とする。
【0006】請求項1記載の本発明にあっては、関係行
列を用いて問題を定式化し、結合重みを初期化し、準ニ
ュートン法に基づき結合重みを学習し、統計尺度に基づ
き構築的学習の終了を判定し、終了でない場合には、重
み付き誤差に基づき拡張箇所を選択し、関係行列を更新
して、専門家の階層混合モデルHMEを繰り返し作成す
る。
【0007】また、請求項2記載の本発明は、入力属性
値ベクトルとその目標出力値で記述される事例の集合か
ら、各事例の入出力写像を区分線形関数として実現する
専門化回路enと調整回路gnからなる専門家の階層混
合モデルの学習において、ベクトルΦ(2) を初期化し、
関係行列R(2) =(1,−1)T とし、専門化回路en
の個数c=2とする工程と、専門化回路enの個数がc
である専門家の階層混合モデルHME(c) の学習を実行
する工程と、終了条件(Cr(c) ≧Cr(c-1))を判定
し、該条件を満たす場合には処理を終了し、そうでない
場合には継続する工程と、拡張箇所となる専門化回路e
s を選択する工程と、専門化回路enの結合重みベク
トルwc+1 、調整回路gnの結合重みベクトルvc を初
期化し、関係行列R(c+1) を計算する工程と、専門化回
路enの個数c=c+1として、専門家の階層混合モデ
ルHMEの学習を実行する工程に戻る工程とを有するこ
とを要旨とする。
【0008】請求項2記載の本発明にあっては、Φ(2)
を初期化し、R(2) =(1,−1)T ,c=2とし、H
ME(c) の学習を実行し、終了条件を判定し、該条件を
満たさない場合には、拡張箇所となるens を選択し、
c+1 ,vc を初期化し、R(c+1) を計算し、c=c+
1として、HMEの学習を実行する工程に戻る。
【0009】
【発明の実施の形態】まず、図面を用いて説明する前
に、eni とgnj の関係を表す関係行列Rを用いて問
題を定式化する。関係行列Rの要素rijは{1,−1,
0}の3値をとり、rij=1ならばgj i の関係であ
り、rij=−1ならば(1−gj )uiという積の関係
にあり、rij=0ならばeni とgnj は互いに関係の
ないことを表す。例えば、(gn1 ,en1 ,e
2 ),(gn1 ,en1 ,(gn2 ,en2 ,e
3 ))のそれぞれの関係行列は
【数3】 となる。以下では、HME(c) において、すべての結合
重みからなる1つのベクトルをΦ(c) =(w1 T ,…,
c T ,v1 T ,…,vc-1 T T で表し、Φ(c ) の総
パラメータ数をN(c) =(2c−1)nで表す。従っ
て、関係行列R(c)より、eni に対する積項は
【数4】 となるので、HME(c) の目的関数は以下のゆう度関数
として定義できる。
【0010】
【数5】 図1は、本発明の一実施形態に係る専門家の階層混合モ
デルの構築的学習方法の処理を示すフローチャートであ
る。本処理においては、enの個数がcであるHME
(c) の学習を行い、それから学習後のeni を比較し
て、重み付き誤差が最も大きいens を(gnc ,en
s ,enc+1 )に置き換えて、HME(c+1)を作ること
を繰り返している。
【0011】すなわち、図1の処理においては、まずΦ
(2) を初期化し、R(2) =(1,−1)T ,c=2とし
(ステップS1)、HME(c) の学習を実行し(ステッ
プS2)、終了条件を判定し、該条件を満たす場合には
反復を停止して処理を終了し(ステップS3)、そうで
ない場合には、継続して、拡張箇所となるens を選択
し(ステップS4)、wc+1 ,vc を初期化し、R
(c+1) を計算し、c=c+1として、HMEの学習を実
行する工程に戻る(ステップS5)。
【0012】上記処理において、ステップS1では、全
事例に対する線形近似の最小自乗解wを求め、w1 =w
2 =wとし、v1 は事例の重心を通るランダムな超平面
となるように設定する。つまり、[−1,1]の範囲で
11,…,v1n-1をランダムに設定し、
【数6】 は事例の重心を表す。ここで、全結合重みの初期値を0
近くのランダムな値とすれば、多くの試行でw1 =w2
=w,v1 =0の鞍点に収束するので、ステップS1で
は、この鞍点の近くの適当な点を初期値として設定す
る。
【0013】ステップS2のHME(c) の学習には、E
Mアルゴリズムを採用できるが、数値的に不安定な場合
があり、それが問題点の1つとして指摘されている。提
案法では、準ニュートン法に基づき、最適探索幅を2次
近似の最大点として求めるアルゴリズムを採用する。こ
の方法では、勾配ベクトルと探索方向における探索幅の
2次微分を求める必要がある。まず、勾配ベクトルは
【数7】 で計算できる。一方、最適探索幅については、λが唯一
つの変数となるので、L(Φk +λΔΦk )をL
λ(λ)で表せば、Lλ″(0)<0のとき、最適探索
幅はλ=−Lλ′(0)/Lλ″(0)で与えられる。
ここで、上述したように定義した目的関数に対しては、
λ′(0)だけでなく、Lλ″(0)も効率よく計算
できる。但し、Lλ″(0)≧0の場合は最大値を持た
ないので、目的関数の近似法を変えて最適探索幅を計算
する。また、求めた探索幅では目的関数値が増加しない
ときには、値が増加するまで2次補間で探索幅を縮める
ので、極値への収束が保証される。
【0014】ステップS3の終了条件には、AIC(Ak
aike's Information Criterion)やMDL(Minimum De
scription Length)を採用できる。すなわち、評価尺度
はCr(c) =−L(Φ(c) )+0.5N(c) Kであり、
Cr(c) ≧Cr(c-1) で反復を終了させる。但し、AI
CではK=2,MDLではK=log(m) である。
【0015】ステップS4では、最も効果的な箇所にe
nを付け加えるため、重み付き誤差
【数8】 が最大となるenを選択する。すなわち、比較的多くの
事例に対して高い確率が付与されるが、まだ誤差の大き
いenが選択される。
【0016】ステップS4でens が選択されたとす
る。ステップS5の初期化法では、wc+1 =ws とし、
vは事例の重み付き重心を通るランダムな超平面となる
ように設定する。つまり、ステップS1と同様にvs1
…,vsn-1をランダムに設定し、
【数9】 はens における事例の重み付き重心である。一方、R
(c+1) の計算法については、まず、enc+1 はens
下に置かれるので、1≦j≦c−1ではrc+1,j=rsj
とする。また、gnc はenc+1 とens にだけ関係す
るので、i≠sではric=0とする。最後に、rsc
1,rc+1,C =−1とすれば、R(c+1) の全要素が確定
する。
【0017】次に、2から8ビットのパリティ問題を用
いて、本発明を評価した。実験では、目標出力値を0と
1に設定し、すべての入出力パターンを事例として学習
させた。構築的学習法のen数の上限は8に設定し、各
段階では、100反復以上して ‖∇L(Φ(c) )‖/N(c) < 10-8 ならば収束したとみなした。また、各事例の重み付き誤
差が
【数10】 となれば、望ましい解に収束したとして、アルゴリズム
を終了させた。結果を表1に示す。但し、nビットパリ
ティ問題に対して、最小en数は
【数11】 で与えられる。表1より、本発明を用いれば、最小に近
いen数でほぼ確実に学習できたことが判る。
【0018】
【表1】 次に、xを入力値、yを目標出力値とし、0≦y≦2の
範囲で、(x,y)=(0,2)から(x,y)=
(4,0)まで、傾きが−4と4の直線を交互に繋いだ
区分線形関数の学習(近似)問題での評価を行った。実
験では、xの値を[0,4]の範囲でランダムに設定
し、対応するyの値を求め、各yには、平均0、分散
0.1の正規分布に基づく独立なノイズを与え、合計で
100事例を生成した。構築的学習法での結果は、
【数12】(gn1 ,en1 ,(gn2 ,(gn3
(gn4 ,(gn5 ,en2 ,en6 ),en5 ),
(gn6 ,en4 ,(gn7 ,en7 ,en8 )),e
3 ))) であり、最小のen数でほぼ正確に学習できた(図2
(a))。一方、3階層の均等二分木
【数13】(gn1 ,(gn2 ,(gn4 ,en1 ,e
2 ),(gn5 ,en3 ,en4 )),(gn3
(gn6 ,en5 ,en6 ),(gn7 ,en7 ,en
8 ))) を予め設定した場合には、適切に学習できなかった(図
2(b))。3階層の均等二分木で正確に学習するに
は、まず、gn1 はx=2で境界を形成しなければなら
ず、実際に図2(b)では、
【数14】 でgn1 の境界が形成されたので、x<1.5では冗長
なenが存在し、逆に、x>1.5ではenが不足して
いる。すなわち、予め構造を固定すれば、いくつかのg
nの学習すべき境界などが予め規定されるので、学習が
困難になった。
【0019】
【発明の効果】以上説明したように、本発明によれば、
関係行列を用いて問題を定式化し、結合重みを初期化
し、準ニュートン法に基づき結合重みを学習し、統計尺
度に基づき構築的学習の終了を判定し、終了でない場合
には、重み付き誤差に基づき拡張箇所を選択し、関係行
列を更新して、専門家の階層混合モデルHME(c+1)
繰り返し作成するので、モデルのパラメータである結合
重みだけでなく、専門家の階層混合モデルの適切な構造
も学習することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る専門家の階層混合モ
デルの構築的学習方法の処理を示すフローチャートであ
る。
【図2】区分線形関数の学習を示す説明図である。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 入力属性値ベクトルとその目標出力値で
    記述される事例の集合から、各事例の入出力写像を区分
    線形関数として実現する専門家の階層混合モデルの学習
    において、最も単純な構造から開始し、次第にその構造
    を拡張することにより、モデルのパラメータである結合
    重みだけでなく、モデルの適切な構造も学習する構築的
    学習方法であって、関係行列を用いて問題を定式化し、
    結合重みを初期化し、準ニュートン法に基づき結合重み
    を学習し、統計尺度に基づき構築的学習の終了を判定
    し、終了でないと判定した場合には、重み付き誤差に基
    づき拡張箇所を選択し、関係行列を更新することを特徴
    とする専門家の階層混合モデルの構築的学習方法。
  2. 【請求項2】 入力属性値ベクトルとその目標出力値で
    記述される事例の集合から、各事例の入出力写像を区分
    線形関数として実現する専門化回路enと調整回路gn
    からなる専門家の階層混合モデルの学習において、ベク
    トルΦ(2) を初期化し、関係行列R(2) =(1,−1)
    T とし、専門化回路enの個数c=2とする工程と、専
    門化回路enの個数がcである専門家の階層混合モデル
    HME(c) の学習を実行する工程と、終了条件(Cr
    (c) ≧Cr(c-1) )を判定し、該条件を満たす場合には
    処理を終了し、そうでない場合には継続する工程と、拡
    張箇所となる専門化回路ens を選択する工程と、専門
    化回路enの結合重みベクトルwc+1 、調整回路gnの
    結合重みベクトルvc を初期化し、関係行列R(c+1 )
    計算する工程と、専門化回路enの個数c=c+1とし
    て、専門家の階層混合モデルHMEの学習を実行する工
    程に戻る工程とを有することを特徴とする専門家の階層
    混合モデルの構築的学習方法。
JP7213781A 1995-08-22 1995-08-22 専門家の階層混合モデルの構築的学習方法 Pending JPH0962645A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7213781A JPH0962645A (ja) 1995-08-22 1995-08-22 専門家の階層混合モデルの構築的学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7213781A JPH0962645A (ja) 1995-08-22 1995-08-22 専門家の階層混合モデルの構築的学習方法

Publications (1)

Publication Number Publication Date
JPH0962645A true JPH0962645A (ja) 1997-03-07

Family

ID=16644941

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7213781A Pending JPH0962645A (ja) 1995-08-22 1995-08-22 専門家の階層混合モデルの構築的学習方法

Country Status (1)

Country Link
JP (1) JPH0962645A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016194909A (ja) * 2015-03-31 2016-11-17 日本電気株式会社 区分的線形モデル生成システム及び生成方法
JP2016194911A (ja) * 2015-03-31 2016-11-17 日本電気株式会社 混合モデリングのための初期化方法及び初期化システム
JP2016194913A (ja) * 2015-03-31 2016-11-17 日本電気株式会社 区分線形モデル生成システム及び生成方法
CN106156857A (zh) * 2015-03-31 2016-11-23 日本电气株式会社 用于混合模型选择的方法和装置
CN109923558A (zh) * 2016-11-04 2019-06-21 谷歌有限责任公司 混合专家神经网络

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016194909A (ja) * 2015-03-31 2016-11-17 日本電気株式会社 区分的線形モデル生成システム及び生成方法
JP2016194911A (ja) * 2015-03-31 2016-11-17 日本電気株式会社 混合モデリングのための初期化方法及び初期化システム
JP2016194913A (ja) * 2015-03-31 2016-11-17 日本電気株式会社 区分線形モデル生成システム及び生成方法
CN106156857A (zh) * 2015-03-31 2016-11-23 日本电气株式会社 用于混合模型选择的方法和装置
CN106156857B (zh) * 2015-03-31 2019-06-28 日本电气株式会社 变分推理的数据初始化的方法和装置
CN109923558A (zh) * 2016-11-04 2019-06-21 谷歌有限责任公司 混合专家神经网络
US11790214B2 (en) 2016-11-04 2023-10-17 Google Llc Mixture of experts neural networks

Similar Documents

Publication Publication Date Title
Levin et al. Dynamic finite element model updating using neural networks
Soria-Olivas et al. BELM: Bayesian extreme learning machine
Leonard et al. Improvement of the backpropagation algorithm for training neural networks
US5812992A (en) Method and system for training a neural network with adaptive weight updating and adaptive pruning in principal component space
Hwang et al. The cascade-correlation learning: A projection pursuit learning perspective
JPH0713949A (ja) ニューラルネットワークおよびその使用方法
Santini et al. Block-structured recurrent neural networks
US5845051A (en) Learning method for multilayer perceptron neural network with N-bit data representation
van der Laan et al. Higher order targeted maximum likelihood estimation
JPH0962645A (ja) 専門家の階層混合モデルの構築的学習方法
Nikovski et al. Comparison of two learning networks for time series prediction
Al_Duais et al. A review on enhancements to speed up training of the batch back propagation algorithm
Park et al. Iterative inversion of fuzzified neural networks
Mukhopadhyay et al. Associative learning of boolean functions
Skidmore et al. The KaGE RLS algorithm
Brouwer A hybrid neural network for input that is both categorical and quantitative
Gunaseeli et al. A constructive approach of modified standard backpropagation algorithm with optimum initialization for feedforward neural networks
Song et al. A novel radial basis function neural network for approximation
Martynova et al. Pre-processing for the RBF-NNs with flexible parameters for multi-dimensional data
US20220391674A1 (en) Method for optimizing execution time of an artificial neural network
Zhang et al. Kernel least mean square based on the sparse Nyström method
Leung et al. Recursive algorithms for principal component extraction
Chaturvedi Factors affecting the performance of artificial neural network models
Popoviciu et al. A complete sequential learning algorithm for RBF neural networks with applications
Han Approximate Bayesian inference and optimal transport