JPH10134018A - 法則発見方法と装置及び法則発見プログラムを格納した記憶媒体、及びニューラルネット学習方法と装置及びニューラルネット学習プログラムを格納した記憶媒体 - Google Patents

法則発見方法と装置及び法則発見プログラムを格納した記憶媒体、及びニューラルネット学習方法と装置及びニューラルネット学習プログラムを格納した記憶媒体

Info

Publication number
JPH10134018A
JPH10134018A JP9180026A JP18002697A JPH10134018A JP H10134018 A JPH10134018 A JP H10134018A JP 9180026 A JP9180026 A JP 9180026A JP 18002697 A JP18002697 A JP 18002697A JP H10134018 A JPH10134018 A JP H10134018A
Authority
JP
Japan
Prior art keywords
learning
value
neural network
rule
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9180026A
Other languages
English (en)
Inventor
Kazumi Saito
和巳 斉藤
Ryohei Nakano
良平 中野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP9180026A priority Critical patent/JPH10134018A/ja
Publication of JPH10134018A publication Critical patent/JPH10134018A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)

Abstract

(57)【要約】 【課題】 指数部が整数に制限されない一般多項式型法
則を発見することが可能な法則発見方法と装置及び法則
発見プログラムを格納した記憶媒体と、誤差が効率よく
減少し、問題の規模がある程度大きい場合でも現実的な
時間内で学習結果の取得可能なニューラルネットの学習
方法及び装置及びニューラルネットの学習プログラムを
格納した記憶媒体を提供することを目的とする。 【解決手段】 本発明は、物理数法則を表現し得る学習
目的関数式を設定し、物理数法則を表現し得る学習目的
関数式に対するデータベクトルの誤差の二乗和を最小化
するように学習させ、出力層から学習後の係数及び指数
が調整された学習目的関数式を物理数法則を満たす一般
多項式として取得する。さらに、結合重みの自乗和を正
規化係数倍した項を付加して学習目的関数を設定し、2
次学習法を用いてニューラルネットの学習を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、法則の発見方法と
装置及び法則発見プログラムを格納した記憶媒体に係
り、特に、観測データ(事例)より、そのデータが満た
す法則(numeric law)を自動的に求めるもので、研究者
や技術者等が関わる様々な現象を説明する法則を発見す
るための法則発見方法と装置及び法則発見プログラムを
格納した記憶媒体及び、ニューラルネット学習方法及び
装置及びニューラルネット学習プログラムを格納した記
憶媒体に関する。
【0002】例えば、金属の電気伝導度σ、入射光の周
波数νおよび、金属の光の反射率Rに関するサンプルデ
ータから、ハーゲン−ルーベンスの法則R=1−2(σ
/ν)1/2 を帰納的に発見しようとする場合に利用でき
る法則発見方法と装置及び法則発見プログラムを格納し
た記憶媒体に関する。また、本発明は、ニューラルネッ
トの学習方法及び装置及びニューラルネットの学習プロ
グラムを格納した記憶媒体に係り、特に、音声処理、画
像処理、または、運動制御等の広い分野において必要と
なる関数近似問題において、訓練事例だけでなく、未知
の事例に対しても信頼性の高い出力を可能とする(高い
汎化能力を有する)ニューラルネットの学習を高速に実
行するための正規化項を用いたニューラルネットの学習
方法及び装置及びニューラルネットの学習プログラムを
格納した記憶媒体に関する。
【0003】
【従来の技術】データから法則を発見する代表的なシス
テムには、BACON[P. Langley,H.A. Simon,G.Brad
shaw and J. Zytkow: "Scientific discovery: computa
tional explorations of the creative process" MIT P
ress (1987)]がある。表1にBACONによるケプ
ラーの第3法則の発見過程を示す。
【0004】
【表1】
【0005】但し、ケプラーの法則は太陽との距離γと
惑星の公転周期Tの関係T=0.41γ3/2 である。 1:γの値が大きくなれば、Tの値も大きくなるので、
γ/Tを計算する。 2:γ/Tの値が一定であるか調べる。 3:γの値が大きくなれば、γ/Tの値は小さくなるの
で、γ2 /Tを計算する。
【0006】4:γ2 /Tの値が一定であるか調べる。 5:γ/Tの値が小さくなれば、γ2 /Tの値は大きく
なるので、γ3 /T2を計算する。 6:γ2 /T3 の値がほぼ一定になるので、入力データ
を満たす法則が発見できる。
【0007】すなわち、BACONでは、乗算、除算、
または、予め定義した関数を用いて、2つの既存変数を
組み合わせ、新たな変数を再帰的に生成し、法則を探索
する。BACONでの先駆的な研究の後、いくつかの改
良法が提案されているが、これらの基本的な探索戦略は
ほとんど同じであり、所定の尺度で変数を組み合わせ、
ヒューリスティックスを加えた深さ優先探索を行うFA
HRENHEIT、proportinal graph を生成し、ビー
ム探索を行うABACUS、相関分析が適用され、ビー
ム探索を行うIDS、2変数の法則のみを対象とするE
* アルゴリズム、回帰を行ない、自乗誤差と変数値の自
乗についての相関を用いて変数を組み合わせるSutton-M
atheusアルゴリズム等がある。
【0008】また、ニューラルネットの学習法には、最
急降下(steepest descent) 法に基づくバックプロパゲ
ーション(BP)アルゴリズム(D.E. Rumelhart, J.L.
McClellandnd: "Parallel distributed processing",
MIT Press (1986) ) がある。この方法は、目標出力値
とニューラルネットの出力値の自乗誤差を局小化する結
合重みの探索を行う方法である。
【0009】一方、ニューラルネットの学習結果の汎化
能力を向上させるためには、正規化項を用いる方法(C.
M. Bishop: "Neural networks for pattern recognitio
n",Clarendon Press (1955)) があり、その正規化係数
を決定するには、交差検証法(M. Stone:"Cross-valida
tion: A review", Operationsforsch, Statist, Ser.St
atistics B9(1):111-147 (1978)) が用いられている。
この方法は、未知の事例に対して、ニューラルネットが
望ましい値を出力するか評価を行う方法である。
【0010】
【発明が解決しようとする課題】しかしながら、これら
の既存法には、以下の問題点がある。第1に、2つの変
数を順番に組み合わせて新たな変数を作るので、多くの
変数からなるデータにおいて複雑な法則を探索すれば、
容易に組合せ爆発が起き、また、探索パラメータが適切
でなければ、望ましい法則を発見できないことが予想さ
れる。
【0011】第2に、法則に現れる指数の値が整数では
ないとき、適当な関数を予め定義しなければ、法則の発
見は困難になる。しかし、多くの場合、事前知識はな
い。第3に、現実の観測データは確実にノイズを含む
が、既存法は比較的ノイズに弱いことが指摘されてい
る。ニューラルネットを用いるアプローチは上記の問題
点解決に有望である。指数の値が整数に制限されない一
般化した多項式の各項を直接学習するには、入力値の重
み付け和の代りに、入力値を結合重みで累乗した値の積
を計算するプロダクト・ユニットと呼ばれる計算ユニッ
トが提案されている。これらの学習には、BP(バック
プロパゲーション)アルゴリズムが用いられている。し
かし、BPでは、例えば、慣性項(momentum term) を導
入しても、収束までには、一般に多くの反復回数が必要
となり、さらに、性能に直結する学習定数(learning ra
te) などのパラメータは、ユーザが試行錯誤により決定
しなければならない。
【0012】これに対して、いくつかの学習アルゴリズ
ムを組合せる方法等が提案さているが、BPアルゴリズ
ムと比較してそれらの有効性はあまり顕著ではない。ま
た、既存法では、2値データのみを扱っているため、法
則の発見における問題を解消しているとは言えない。こ
れらの課題の解決に向けて、各反復で誤差が増加しない
範囲で近似的に学習定数の最大化を行う学習定数最大化
法等がある。
【0013】また、改良アルゴリムの提案には、各結合
重みに対して異なる学習定数を与え、その学習定数群を
過去の勾配レベル値に基づいて調整する方法がある。さ
らに、Levenbrg-Marquardt法、準ニュートン法、共役勾
配法等の非線型最適化手法を単純に適用する方法に基づ
く2次学習アルゴリズム等が提案されている。
【0014】これらのアプローチの中では、理論的に優
れた収束性が保証されるので、2次学習アルゴリズムが
有望であるが、現時点では、解決すべき以下の2つの課
題がある。第1は、大規模問題への適用性である。即
ち、Levenberg-Marquardt 法や準ニュートン(quasi-New
ton)法では、問題規模が大きくなれば、適用が困難にな
る。即ち、Levenberg-Marquardt 法に基づくアルゴリズ
ムでは、各反復において探索方向を求めるのに、Ο(N
2 m)の計算量が必要となるので、数百の結合重みから
なるネットワークでも、一般に収束までには、多くの計
算量が必要となる。但し、Nは、結合重みの総数、mは
事例数を表す。
【0015】また、標準的な準ニュートン法に基づくア
ルゴリズムでは、探索方向を求めるのに、N2 の記憶容
量が必要となるので、Nが数千以上のネットワークでは
実用的でない。第2は、最適探索幅計算の処理負荷が問
題となる。適切な探索幅(step-length) を求める直線探
索(line search) は、準ニュートン法や共役勾配(conju
gate gradient)法に基づく学習アルゴリズムにおいて不
可欠であり、不正解な直線探索では望ましい性能を得ら
れないので、ある程度正確な直線探索を実行しなければ
ならず、結果として多くの計算量が必要となる。なお、
厳密な直線探索には、最小値を求めるために多くの反復
が必要となり、この反復処理が計算量を増大させる。と
ころが、共役勾配法に基づくアルゴリズムで優れた収束
性を実現するには、かなり正確な直線探索が必要であ
り、よって、この種のアルゴリズムの効率を改善するの
は実際には困難である。
【0016】さらに、上記従来のニューラルネットの学
習方法は、上記の最急降下法と交差検証法を用いた正規
化項を用いる方法を単純に組み合わせても、望ましい学
習結果を効率よく得ることは困難である。即ち、単純な
最急降下法であるBP法では、探索幅を定数(学習定
数)とするので、収束の保証がなく、一般に誤差の減少
が不安定となる。また、最終段階では、探索方向が極小
値に向けてジグザクになる傾向が強く、誤差が効率良く
減少しないことが多い。
【0017】さらに、交差検証法による正規化係数の決
定には、多くのニューラルネットの学習が必要であり、
問題の規模がある程度大きくなれば、BP法では、現実
的な計算時間で結果を得ることは困難になる。本発明
は、上記の点に鑑みなされたもので、法則発見のための
場当たり的な変数組み合せ規則が不要となり、観測デー
タにノイズが含まれる場合であっても、指数部が整数に
制限されない一般多項式型法則を効率良く発見すること
が可能なニューラルネットを用いた法則発見方法と装置
及び法則発見プログラムを格納した記憶媒体を提供する
ことを第1の目的とする。
【0018】本発明の第2の目的は、ニューラルネット
の学習を行う場合に、誤差が効率よく減少すると共に、
問題の規模がある程度大きくなった場合でも現実的な時
間内で学習結果を取得することが可能なニューラルネッ
トの学習方法及び装置及びニューラルネットの学習プロ
グラムを格納した記憶媒体を提供することである。
【0019】
【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。本発明は、複数組の測定され
たデータベクトルにおいて、該データベクトルの任意の
1つの属性を基準変数、残りの属性群を説明変数群と
し、説明変数値ベクトルから基準変数値を計算可能とす
る法則を、指数値が整数に制限されない一般多項式とし
て取得する法則の発見方法において、法則発見をニュー
ラルネットワークの学習問題として定式化することによ
り学習目的関数式を設定し(ステップ1)、準ニュート
ン法に基づいて、該準ニュートン法の探索方向をユーザ
が定義する局部性パラメータに比例した記憶容量で計算
し、該準ニュートン法の探索幅を、該探索幅に対する勾
配と、曲率からなる学習目的関数の2次近似式の最小点
として求めることを繰り返すことにより、ニューラルネ
ットワークの学習を行い(ステップ2)、学習完了後の
ニューラルネットでの入力層及び中間層間の各結合重み
を指数値とし、該中間層及び出力層間の各結合重みを係
数値とする一般多項式の形で、法則を取得する(ステッ
プ3)。
【0020】また、本発明は、ニューラルネットワーク
に学習を行わせる際に(ステップ2)法則を表現し得る
説明変数の個数と等しい数の入力ユニットからなる入力
層、一般多項式の項数と等しい数の中間ユニットからな
る中間層及び、基準変数に対応する一つの出力ユニット
からなる出力層の3層を有し、該中間層の各ユニットの
活性化関数が指数関数であるニューラルネットワークに
対して、説明変数値ベクトルの各値を、入力層の各ユニ
ット値として入力し、入力ユニット値群の各データに対
し、入力層及び中間層間の結合重みで重み付けして、合
計した値に対して、指数関数を施した値を、中間層の各
中間ユニットの値として計算し、該中間ユニット値群の
各データに対し、中間層及び出力層間の結合重みで重み
付けして合計した値を、出力層の出力ユニット値として
計算し、法則による基準変数の計算値に対応するニュー
ラルネットワークの出力層の出力ユニット値と、実際の
データの基準変数値の誤差を各データについて求め、そ
の二乗和(以下、法則誤差と記す)を最小化するよう
に、入力層及び中間層の結合重みと中間層及び出力層間
の結合重みを調整することにより、ニューラルネットワ
ークを学習させる。
【0021】また、本発明は、学習目的関数を設定する
際に、ニューラルネットワークの中間層のユニット数の
初期値と、最大値を決定する。また、本発明は、法則を
取得する際に、所定の評価尺度を用いて学習結果である
一般多項式の選択を行う。また、本発明は、一般多項式
を得る場合に、中間層のユニット数を変化させた時の、
ニューラルネットワークの学習による複数の学習結果を
取得し、複数の学習結果のうち、法則誤差と、ニューラ
ルネットワークの複雑さをトレードオフする評価関数の
値が最小となる各係数と各指数(結合重み)を有したニ
ューラルネットを、法則を表す多項式として採用する。
【0022】また、本発明は、評価尺度として、MDL
(Minimum Description Length)基準を用いる。図2
は、本発明の原理構成図である。本発明は、複数組の測
定されたデータベクトルにおいて、該データベクトルの
任意の1つの属性を基準変数、残りの属性群を説明変数
群とし、説明変数値ベクトルから基準変数値を計算可能
とする法則を、指数値が整数に制限されない一般多項式
として取得する法則の発見装置において、ニューラルネ
ットワーク40の学習問題として、法則発見を定式化し
て学習目的関数式として設定する目的関数設定手段と、
準ニュートン法に基づいて、該準ニュートン法の探索方
向をユーザが定義する局部性パラメータに比例した記憶
容量で計算し、該準ニュートン法の探索幅を、該探索幅
に対する勾配と、曲率からなる学習目的関数の2次近似
式の最小点として求めることを繰り返すことによりニュ
ーラルネットワーク40の学習を行う学習手段20と、
学習完了後のニューラルネット40での入力層及び中間
層間の各結合重みを指数値とし、中間層及び出力層間の
各結合重みを係数値とする一般多項式の形で、法則を取
得する法則取得手段50とを有する。
【0023】また、本発明は、学習手段20に対して、
説明変数値ベクトルの値を、入力層の各ユニット値とし
て入力し、入力ユニット値群の各データに対し、入力層
及び中間層間の結合重みで重み付けして、合計した値に
対して、指数関数を施した値を、中間層の各中間ユニッ
トの値として計算し、該中間ユニット値群の各データに
対し、中間層及び出力層間の結合重みで重み付けして合
計した値を、出力層の出力ユニット値として計算する学
習制御手段を含む。
【0024】また、上記の学習手段20は、結合重みの
修正方向として、準ニュートン法の探索方向を、ユーザ
により定義された局部性のパラメータに比例した記憶容
量で計算する探索方向計算手段と、結合重みの修正幅と
して、準ニュートン法の探索幅を、該探索幅に対する勾
配と曲率から求める探索幅計算手段と、結合重みを更新
する結合重み更新手段とを含む。
【0025】また、上記の探索方向計算手段は、記憶容
量が2Ns(s≪N)(但し、N=法則の定数項、全係
数、全指数の値からなるベクトルΦの次元(パラメータ
数)、s=ユーザから入力される局部性パラメータ)と
なる小記憶BFGS法を用いる。また、上記の探索幅計
算手段は、勾配を一次微分より求め、曲率を二次微分に
より求める手段を含む。
【0026】また、上記の法則取得手段50は、評価尺
度の値が最小となる各係数と各指数を有したニューラル
ネットを選択する学習結果選択手段を含む。また、上記
の学習結果選択手段は、評価尺度として、MDL(Mini
mum Description Length)基準を用いる。また、本発明
は、少なくとも、学習手段20によるニューラルネット
ワーク40の中間出力結果、及び選択された学習結果、
学習目的関数設定手段10により設定された学習目的関
数式、各手段を動作させるためのプログラムを格納する
記憶手段30を更に有する。
【0027】また、本発明は、複数組の測定されたデー
タベクトルにおいて、該データベクトルの任意の1つの
属性を基準変数、残りの属性群を説明変数群とし、説明
変数値ベクトルから基準変数値を計算可能とする法則
を、指数値が整数に制限されない一般多項式として取得
する法則発見プログラムを格納した記憶媒体であって、
法則発見をニューラルネットワークの学習問題として定
式化することにより学習目的関数式を設定する定式化プ
ロセスと、準ニュートン法に基づいて、該準ニュートン
法の探索方向をユーザが定義する局部性パラメータに比
例した記憶容量で計算し、該準ニュートン法の探索幅
を、該探索幅に対する勾配と、曲率からなる学習目的関
数の2次近似式の最小点として求めることを繰り返すこ
とにより、ニューラルネットワークの学習を行う学習プ
ロセスと、学習完了後のニューラルネットでの入力層及
び中間層間の各結合重みを指数値とし、該中間層及び出
力層間の各結合重みを係数値とする一般多項式の形で、
法則を取得する法則取得プロセスとを有する。
【0028】また、上記の学習プロセスは、ニューラル
ネットワークに学習を行わせる際に、法則を表現し得る
説明変数の個数と等しい数の入力ユニットからなる入力
層、一般多項式の項数と等しい数の中間ユニットからな
る中間層及び、基準変数に対応する一つの出力ユニット
からなる出力層の3層を有し、該中間層の各ユニットの
活性化関数が指数関数であるニューラルネットワークに
対して、説明変数値ベクトルの各値を、入力層の各ユニ
ット値として入力させる入力プロセスと、入力ユニット
値群の各データに対し、入力層及び中間層間の結合重み
で重み付けして、合計した値に対して、指数関数を施し
た値を、中間層の各中間ユニットの値として計算し、該
中間ユニット値群の各データに対し、中間層及び出力層
間の結合重みで重み付けして合計した値を、出力層の出
力ユニット値として計算する出力ユニット計算プロセス
と、法則による基準変数の計算値に対応するニューラル
ネットワークの出力層の出力ユニット値と、実際のデー
タの基準変数値の誤差を各データについて求め、その二
乗和(以下、法則誤差と記す)を最小化するように、入
力層及び中間層の結合重みと中間層及び出力層間の結合
重みを調整することにより、ニューラルネットワークを
学習させる重み調整プロセスとを含む。
【0029】また、上記の定式化プロセスは、学習目的
関数を設定する際に、ニューラルネットワークの中間層
のユニット数の初期値と、最大値を決定するプロセスを
含む。また、上記の法則取得プロセスは、法則を取得す
る際に、所定の評価尺度を用いて学習結果である一般多
項式の選択を行う多項式選択プロセスを含む。
【0030】また、上記の多項式選択プロセスは、一般
多項式を得る場合に、中間層のユニット数を変化させた
時の、ニューラルネットワークの学習による複数の学習
結果を取得し、複数の学習結果のうち、法則誤差と、ニ
ューラルネットワークの複雑さをトレードオフする評価
関数の値が最小となる各係数と各指数(結合重み)を有
したニューラルネットを、法則を表す多項式として採用
するプロセスを含む。
【0031】また、上記の多項式選択プロセスは、評価
尺度として、MDL(Minimum Description Length)基
準を用いる。また、本発明の法則発見プログラムを格納
した記憶媒体は、準ニュートン法に基づいて、該準ニュ
ートン法の探索方向をユーザが定義する局部性パラメー
タに比例した記憶容量で計算し、該準ニュートン法の探
索幅を、該探索幅に対する勾配と、曲率からなる学習目
的関数の2次近似式の最小点として求めることを繰り返
すことによりニューラルネットワークの学習を行う学習
プロセスと、学習プロセスの完了後のニューラルネット
での入力層及び中間層間の各結合重みを指数値とし、該
中間層及び出力層間の各結合重みを係数値とする一般多
項式の形で、法則を取得する法則取得プロセスと、法則
取得プロセスにより呼び出される、評価尺度として、M
DL基準を用いる学習結果選択プロセスと、測定された
データベクトルを表現するデータの入力を促す第1の入
力プロセスと、学習プロセスに用いる学習目的関数での
中間ユニット数(項数)の初期値と最大値の入力を促す
第2の入力プロセスと、学習プロセスに用いる局部性パ
ラメータの入力を促す第3の入力プロセスと、法則取得
プロセスにより取得して法則を出力する出力プロセスか
らなる。
【0032】また、上記の記憶媒体は、脱着可能な媒
体、CPU内に内蔵されるメモリ、ネットワークを介し
て取得したプログラムモジュールを格納するディスク装
置を含む外部記憶媒体を含む。図3は、本発明のニュー
ラルネットの学習方法の原理を説明するための図であ
る。
【0033】本発明は、入力ベクトルと目標出力値から
なる事例に対して、該入力ベクトルから該目標出力値を
出力可能とするニューラルネットの学習方法において、
各事例における目標出力値とニューラルネットの出力値
の自乗誤差の和の項に、該ニューラルネットの結合重み
の自乗和を正規化係数倍した項を付加して、学習目的関
数を設定し(ステップ11)、2次学習法を用いて、ニ
ューラルネットの学習を行う(ステップ12)。 ま
た、本発明は、正規化係数を決定する際に、交差検証法
を用いる(ステップ13)。
【0034】また、本発明は、2次学習法として、準ニ
ュートン法に基づいて、該準ニュートン法の探索方向
を、ユーザが提示する局部性パラメータに比例した記憶
容量で計算し、準ニュートン法の探索幅を、該探索幅に
対する勾配(1次微分)と曲率(2次微分)からなる学
習目的関数の2次近似式の最小点として求める方法を用
いる。
【0035】図4は、本発明のニューラルネットの学習
装置の原理構成図である。本発明は、入力ベクトルと目
標出力値からなる事例の集合に対して、該入力ベクトル
から該目標出力値を出力可能とするニューラルネットの
学習装置であって、各事例における目標出力値とニュー
ラルネットの出力値の自乗誤差の和の項に、ニューラル
ネットの結合重みの自乗和を正規化係数倍した項を付加
して、学習目的関数を設定する学習目的関数設定手段2
100と、2次学習法を用いてニューラルネットの学習
を行う学習手段2200とを有する。
【0036】また、上記の学習目的関数設定手段210
0は、正規化係数を決定する際に、交差検証法を用いる
正規化係数決定手段2300を含む。また、上記の学習
手段2200は、準ニュートン法に基づいて、該準ニュ
ートン法の探索方向を、ユーザにより定義された局部性
パラメータに比例した記憶容量で計算する探索方向計算
手段と、準ニュートン法の探索幅を、該探索幅に対する
勾配(1次微分)と曲率(2次微分)からなる学習目的
関数の2次近似式の最小点として求める探索幅計算手段
とを含む。
【0037】また、本発明は、入力ベクトルと目標出力
値からなる事例に対して、該入力ベクトルから該目標出
力値を出力可能とするニューラルネットの学習プログラ
ムを格納した記憶媒体であって、各事例における目標出
力値とニューラルネットの出力値の自乗誤差の和の項
に、該ニューラルネットの結合重みの自乗和を正規化係
数倍した項を付加して、学習目的関数を設定する学習目
的関数設定プロセスと、2次学習法を用いて、ニューラ
ルネットの学習を行う学習プロセスとを有する。
【0038】上記の学習目的関数設定プロセスは、正規
化係数を決定する際に、交差検証法を用いる。また、上
記の学習プロセスは、2次学習法として、準ニュートン
法に基づいて、該準ニュートン法の探索方向を、ユーザ
が提示する局部性パラメータに比例した記憶容量で計算
し、準ニュートン法の探索幅を、該探索幅に対する勾配
(1次微分)と曲率(2次微分)からなる学習目的関数
の2次近似式の最小点として求める方法を用いる。
【0039】上記のように、本発明の法則発見方法及び
装置によれば、事例データから当該データが満たす法則
を自動的に発見するために、所定の評価尺度を用いて学
習結果を選択する。本発明による法則発見を行う際に、
ニューラルネットワークを用いることにより、観測デー
タが満たす法則を変数の制約なしに求めることが可能で
あり、さらに、非線形関数近似問題にも適用可能であ
る。従って、複雑な法則を探索するような場合であって
も組み合わせ爆発が起きることなく容易に法則の発見が
可能となる。
【0040】また、本発明では、ニューラルネットワー
クの学習方法として、準ニュートン法を用いるのが特徴
である。その理由は、発明が解決しようとした課題で述
べた通りである。探索方向を妥当な記憶容量で計算し、
最適探索幅を妥当な精度で効率良く求めることができれ
ば、準ニュートン法に基づくアルゴリズムは収束性と効
率の両面で優れた方法である。
【0041】さらに、本発明において、評価関数は、法
則誤差とニューラルネットワークの複雑さをトレードオ
フするために用いられる。なお、本発明において、評価
関数として経験則により最も効果が高いMDLを用いて
いる。また、本発明は、上記の各要素を種々の媒体に格
納が可能である。さらに、本発明のニューラルネットの
学習方法及び装置は、交差検証法を用いてニューラルネ
ットの各層の結合重みの自乗和を正規化項として用いて
学習を行うため、交差検証誤差を最小化することが可能
となり、高い汎化能力を有するニューラルネットを得る
ことが可能となる。
【0042】
【発明の実施の形態】
[法則発見方法及び装置]図5は、本発明の法則発見装
置の構成を示す。同図に示す構成は、設定部10、学習
部20、格納部30、ニューラルネットワーク40、学
習結果選択部50及び結果出力部60より構成される。
【0043】法則発見装置は、観測データより、該観測
データが満たす法則を、指数値が整数に制限されない一
般多項式として発見するものである。設定部10は、法
則発見をニューラルネットの学習問題として定式化する
ことにより学習目的関数を設定する。学習部20は、初
期化部21、停止条件判定部22、探索方向計算部2
3、探索幅計算部24、結合重みの更新部25より構成
される。
【0044】初期化部21は、ニューラルネットワーク
40の各層のユニットの結合重みの初期化を行う。停止
条件判定部22は、学習の反復の停止条件を満足した場
合にはニューラルネットワークの学習の内部の反復を終
了する。探索方向計算部23は、準ニュートン法をベー
スとし、該準ニュートン法の探索方向を、ユーザが定義
する局部性パラメータに比例した記憶容量で計算する。
【0045】探索幅計算部24は、準ニュートン法の探
索幅を、探索幅に対する勾配(1次微分)と曲率(2次
微分)からなる該学習目的関数の2次近似式の最小点と
して求める。格納部30は、ニューラルネットワークの
各層の出力結果や、評価値(MDL)所定の終了判定条
件等を格納する。
【0046】ニューラルネットワーク40は、入力層、
中間層、出力層からなり、学習部20の制御により学習
を行う。学習結果選択部50は、経験則によりMDL
(Minimum Description Length)基準を評価尺度として
用いて学習結果の選択する。結果出力部60は、学習結
果選択部50により選択された学習結果である多項式を
出力する。
【0047】図6は、本発明の法則発見処理の一連の動
作のフローチャートを示す。 ステップ101) 設定部10は、中間ユニット数をh
=1とし、最大値をMとする。 ステップ102) 学習部20の初期化部21は、ニュ
ーラルネットの結合重み、即ち、法則の定数項、全係
数、全指数からなるベクトルであるΦを初期化する。こ
こで、k=1とする。
【0048】ステップ103) 停止条件判定部22
は、ニューラルネットワーク40の学習により所定の停
止条件を満たしていれば、学習の反復を終了させ、ステ
ップ107に移行する。 ステップ104) 探索方向計算部23は、準ニュート
ン法により、ユーザから入力される入力パラメータに対
応する記憶容量を用いて探索方向ベクトルΔΦを計算す
る。
【0049】ステップ105) 探索幅計算部24は、
準ニュートン法の探索幅λを勾配と曲率を求めることに
より計算する。 ステップ106) 結合重み更新部25は、上記のステ
ップ104及びステップ105により求められた結果に
基づいて、 Φ ← Φ + λΔΦ により、パラメータを更新し、ステップ103に移行す
る。
【0050】ステップ107) h←h+1とする。 ステップ108) 結果出力60は、h>Mであれば、
アルゴリズムを終了させ、格納部30に格納されている
学習結果候補である多項式のうち、MDL最小となる多
項式を出力する。 以下に、各構成要素の動作を詳細に説明する。
【0051】法則発見をニューラルネットワーク40を
用いて定式化する場合を説明する。 {(x(1) ,y(1) ),・・・,(x(n) ,y(m) )} を事例集合、 x(t) =x1 (t) …,xn (t) をn次元説明変数値ベクトル、yt をxt に対する基準
変数値とする。本発明では、
【0052】
【数1】
【0053】で表される数法則のクラスについて考え
る。ここで、各パラメータci ,wijは未知の実数、h
は未知の整数である。以下では、(c0 ,・・・,
h T ,(wi1,・・・,winT をそれぞれc,w
i と表記する。但し、aT はaの転置を意味する。ま
た、全てのパラメータからなる1つのベクトル(cT
1 T ,・・・,wh T T をΦで表し、NをΦの次元
(パラメータ数)とする。
【0054】必要ならば適当な値を各説明変数値入力ベ
クトルの要素に加えることより、一般に、xi (t) >0
を仮定できる。よって、(1)式は
【0055】
【数2】
【0056】と等価である。(2)式は各中間ユニット
の活性化関数がexp(s)=es である図7に示す3
層ニューラルネットとみなすことができる。つまり、
h,wi、および、cはそれぞれ中間ユニット数、全入
力ユニットと中間ユニットiとの結合重み、および、全
中間ユニットと出力ユニットとの結合重みである。以下
では、中間ユニットiの出力値を、
【0057】
【数3】
【0058】出力ユニットの出力値を
【0059】
【数4】
【0060】で表す。なお、このタイプの中間ユニット
は、プロダクトユニットと呼ばれる。よって、(1)式
を対象とする数法則の発見問題は、
【0061】
【数5】
【0062】を最小化するΦを求めるニューラルネット
の学習問題として定式化できる。次に、学習部20の動
作について説明する。最初に、ニューラルネットの学習
に用いる準ニュートン法について述べる。学習の目的関
数f(Φ+ΔΦ)のΔΦでの2次テイラー展開式は、 f(Φ)+(∇f(Φ))T ΔΦ+1/2(ΔΦ)T
2 f(Φ)ΔΦ であり、ヘス行列∇2 f(Φ)が正定値ならば、この式
の最小値は、 ΔΦ=−(∇2 f(Φ))-1∇f(Φ) で与えられる。
【0063】ニュートン法では、各反復でこの修正ベク
トルΔΦを求めることにより、目的関数f(Φ)を最小
化する。しかし、(∇2 f(Φ))-1を求めるにはO
(N3)の計算量が必要であり、ニュートン法を大規模
問題へ適用することは困難であるため、本発明では、準
ニュートン法を用いるものとする。一方、準ニュートン
法は、探索の過程で反復により、ヘス逆行列(∇2
(Φ))-1の近似行列(H)を各ステップで求めること
を特徴とする。基本アルゴリズムは以下に示す通りであ
る。
【0064】ステップ201) 初期化部21は、法則
の定数項、全係数、全指数の値からなるベクトルΦ1
初期化しする。 ステップ202) 停止条件判定部22は、所定の停止
条件を満たせば、ニューラルネットワーク40の学習の
反復を終了させ、ステップ207に移行する。 ステップ203) 探索方向計算部23は、探索方向を
求めるため、探索方向ベクトルΔΦk を求める。
【0065】ステップ204) 探索幅計算部24は、
f(Φk +λΔΦk )を最小にする探索幅λk を求め
る。 ステップ205) 結合重み更新部25は、ニューラル
ネットワーク40の各層のユニットの結合重みを Φk+1 =Φk +λk ΔΦk により修正する。
【0066】ステップ206) k←k+1とし、ステ
ップ202に戻る。 ステップ207) 学習結果選択部50は、評価値MD
Lが最小となるΦを求める。 次に、上記の学習結果選択部50による学習結果選択の
ための評価尺度について述べる。
【0067】一般に、与えられたデータ集合に対して、
最適な中間ユニット数を予め知ることはできない。ま
た、データは普通ノイズを含むので、(3)式を最小に
する法則候補がベストとは限らない。よって、中間ユニ
ット数を変えて発見した法則候補を適切に評価するため
の尺度が必要である。ここでは、ノイズを想定して、目
標出力値とニューラルネットの出力値の差y−zが、平
均0、標準偏差σの正規分布に従うと仮定する。すなわ
ち、その対数尤度を
【0068】
【数6】
【0069】(4) で定義する。よって、最適な中間ユニット数を求めるこ
とは、最尤推定におけるモデル選択問題となるので、そ
の評価尺度としてMDL(Minimum Description Length)
基準を採用できる。事例データに対する負の対数尤度
は、
【0070】
【数7】
【0071】である。ここで、mは事例数である。
(4)式の最小化を考えれば、Φについては、(3)式
の最小化と等価であり、ニューラルネットの学習で最尤
推定量
【0072】
【数8】
【0073】得ることができる。一方、σについては、
(4)式をσで微分して0とおけば、
【0074】
【数9】
【0075】であり、よって、分散の最尤推定量
【0076】
【数10】
【0077】は、
【0078】
【数11】
【0079】(5) となり、この
【0080】
【数12】
【0081】の値は平均自乗誤差(MSE:Mean Squar
ed Error)に他ならない。(5)式を(4)式に代入す
れば、(4)式の第3項は事例数にのみ依存する値(m
/2)となり、第1項と第3項は、各法則候補で等しい
ので、本発明では、次のMDL値を評価尺度として格納
部30に格納しておき、採用する。 MDL=0.5 m log (MSE)+0.5 N log(m) (6) ここで、nは、Φの総パラメータ数である。
【0082】次に、探索方向計算部23は、ユーザが定
義する局部性パラメータに比例した記憶容量で探索方向
を計算する。探索幅計算部24は、探索幅に対する勾配
(1次微分)と曲率(2次微分)からなる該学習目的関
数の2次近似式の最小点として探索幅を求める。 ・探索方向の計算法 ここで用いる準ニュートン法としては、発明が解決しよ
うとする課題の欄で述べた従来のBFGS法がはらむ記
憶容量と記憶なしBFGS法の近似計算による計算値の
非保証性という課題解決のため、本発明では、記憶容量
が2Ns (s≪N)となる少記憶BFGS法を用いる。
その探索方向は、始めのs+1反復において、オリジナ
ルBFGS法と完全に一致し、パラメータsは以下で述
べる履歴の長さを表す。
【0083】オリジナルBFGS法がk反復目に求めた
近似行列をHk とし、 gk =∇f(Φk ),Pk =λk ΔΦk ,qk =gk+1
−gk とおけば、オリジナルBFGS法がk+1反復目に計算
する近似行列は、
【0084】
【数13】
【0085】rk =Hk k とおけば、 Hk k+1 =Hk k +Hk k =rk −pk /λk である。よって、計算する探索方向は、
【0086】
【数14】
【0087】となり、近似行列Hk+1 を用いることな
く、k+1反復目の探索方向を計算でき、つまり、rk
が求まれば、記憶なしBFGS法と同様に、(8)式は
O(N)の計算量とO(N)の記憶容量で計算できる。
そこで、rk がO(Ns )の計算量と2Nsの記憶容量
で計算できることを以下に示す。まず、ksを仮定す
る。k=1のとき、H1 は単位行列に設定するので、r
1 (=H1 1 =g2 −g1 )は引き算だけで計算でき
る。k>1のとき、r1,・・・,rk-1 の各要素は既
に計算されている。加えて、i<kでは、
【0088】
【数15】
【0089】は各反復で既に計算されている。よって、
(7)式を再帰的に適用すれば、第k反復後にHk とq
k から求めた修正ベクトルrk は以下のようにO(Ns
)の計算量と2Ns の記憶容量で計算できる。
【0090】
【数16】
【0091】次に、kがs+1より大きいとき、2つの
更新法が考えられる。すなわち、これまでに蓄えた探索
情報ベクトル(p,r)をすべて消去して更新を再開す
る方法、または、最新の探索情報ベクトルで更新を続け
る方法である。どちらの場合も(9)式はO(Ns )の
計算量と2Ns の記憶容量で計算できる。従って、
(8)式はO(Ns )の計算量と2Ns の記憶容量で計
算できることが示された。なお、s=0ならば、少記憶
BFGS法は常に勾配方向を計算し、s=1のときは、
記憶なしBFGS法となる。
【0092】次に、探索幅計算部23が、探索幅に対す
る勾配(1次微分)と曲率(2次微分)からなる学習目
的関数の2次近似式の最小点として探索幅を求める。
(3)式で定義したニューラルネットの学習目的関数に
おける、探索幅計算法について述べる。λはf(・)の
唯一の変数なので、f(Φ+λΔΦ)をζ(λ)で表せ
ば、ζ(λ)の2次テイラー展開式は
【0093】
【数17】
【0094】である。ζ’(0)<0かつζ" (0)>
0のとき、この近似式の最小点は
【0095】
【数18】
【0096】で与えられる。他のケースについては後述
する。以下では、ζ’(0)及びζ" (0)を効率よく
計算できることを示す。ζ(λ)を微分し、λに0を代
入すれば、
【0097】
【数19】
【0098】となる。ここで、z(t) =z(x(t)
Φ)の微分は
【0099】
【数20】
【0100】で定義され、
【0101】
【数21】
【0102】となる。ここで、 v’i (t) =vi (t) ×Σi=1 n Δwij log
(xj (t) ) v”i (t) =v’i (t) ×Σi=1 n Δwij log(xj
(t) ) であり、Δci ,Δwijは少記憶BFGS法で計算され
るci ,wijの変化量である。
【0103】上述のケースでは、ζ’(0)<0を仮定
した。ζ’(0)>0のとき、その探索方向で学習目的
関数の値を減少できないので、ΔΦk =−∇f(Φk
とし、これまでに蓄えた探索情報ベクトル(p,r)を
すべて消去する。すなわち、これ以降、各反復での探索
方向を勾配方向から再開する。このとき、 ζ’(0)=(∇f(Φk ))T ΔΦk =−‖∇f(Φ
k )‖2 <0 より、 ζ’(0)<0 が保証される。
【0104】但し、ζ’(0)<0かつζ”(0)
のとき、(10)式の値は負または無限大となるので、
この場合に限っては、ガウス−ニュートン法を用いて対
処する。ここで、ガウス−ニュートン法を用いる理由
は、常にζ”(0)>0が保証されているためである。
z(x(t) ;Φ+λΔΦ)の1次近似はz(t) +z’
(t) λとなるので、ζ(λ)の近似は
【0105】
【数22】
【0106】であり、この式の右辺の最小値は
【0107】
【数23】
【0108】で与えられる。明らかに、ζ’(0)<0
のとき、(11)式の値は正となる。多くの場合、各反
復でΦの修正量に対して上限を設定することは有効であ
る。よって、‖λΔΦ‖>1.0ならば、λを1.0/
‖ΔΦ‖とする。λは近似に基づき計算されるので、目
的関数ζ(λ)の値が常に減少するとは限らない。ζ
(λ)ζ(0)のときは、条件h(0)=ζ(0),
h(λ0 )=ζ(λ0 ),h’(0)=ζ’(0)を満
たす次の2次近似式h(λ)を考える。
【0109】
【数24】
【0110】ζ(λ0 ζ(0)かつζ’(0)<0
より、h(λ)の最小点は
【0111】
【数25】
【0112】で与えられる。このとき、(12)式では
0<λ<λ0 が保証される。よって、この処理をζ
(λ)<ζ(0)となるまで繰り返せば、ζ(λ)<ζ
(0)となるλを常に求めることができる。次に、図5
における探索幅計算部24の動作を詳細に説明する。図
8は、本発明の探索幅計算部の処理を説明するための図
である。図9〜図12は、探索幅計算部24における各
層のプログラムとデータの関連を示す。
【0113】まず、図9に示す下半分の中間ユニット4
00の変化方向計算プログラム1241は、外部から入
力されたデータを対数化処理により、対数関数で表され
る入力データ201(log x1 (1) … log xn (1)
…,log x1 (m) … log x n (m) )と結合重みの修正
方向ベクトル値202(Δw11 …Δwhn,…,Δw h1
…Δwhn)が入力されると、以下の計算を行い、格納部
30に中間値203を出力する。
【0114】
【数26】
【0115】このとき、中間値203として当該プログ
ラム1241から格納部30に転送される値は、Δu1
(1) …Δuh (1) , …,Δu1 (m) …Δuh (m) であ
る。これらの各値は、結合重みの修正に伴い、結合重み
で重み付けして合計した中間ユニットへの入力の変化量
を意味する。次に、図10に示す上半分の中間ユニット
500の微係数計算プログラム1242v’は、上記の
中間ユニットの変化方向計算プログラム1241で取得
した中間値203(Δu1 (1) …uh (1) ,…,u1
(m) …uh (m) )と、中間ユニットの出力値204(v
1 (1) …vh (1) , …,v1 (m) …vh (m) )を用い
て、 v’i (t) =vi (t) Δui の計算を行い、探索幅に対する中間ユニットの出力値の
一次微分v’を計算結果とし、中間−出力層間の結合重
みと出力ユニット600の出力ユニットの一次微係数計
算プログラム1243v’,1243v”と、微係数計
算プログラム1242v”に出力する。
【0116】微係数計算プログラム1242v”は、中
間ユニットの変化方向計算プログラム1241で取得し
た中間値203(Δu1 (1) …uh (1) , 1 (m) …u
h (m ) )と、微係数計算プログラム1242v’の出力
結果中間値v’205(v’ i (t) )を用いて、 v”i (t) =v’i (t) Δui の計算を行い、計算結果であるv”を探索幅に対する中
間ユニット600の出力ユニットの二次微分係数計算プ
ログラム1243v”に出力する。
【0117】次に、図11に示す出力ユニット600の
微係数計算プログラム1243v’,v”は、各々結合
ベクトル値207(c0 ,c1 ,…,ch )と、結合重
みの修正方向ベクトル値208(Δc0 ,Δc1 ,…,
Δch )と上記の中間ユニットの微係数計算プログラム
1242で求められた中間値v’とv”を用いて、以下
の計算を行う。
【0118】
【数27】
【0119】なお、上記のz’(t) の計算は、一次微分
係数計算プログラム1243v’で行い、z" (t) の計
算は、二次微分係数計算プログラム1243v”で行う
ものとする。上記により求められた結果z’(1) …z’
(m) 、z" (1) …z" (m) とを出力ユニットの中間値2
09及び211として、格納する。
【0120】次に、図12に示す探索幅計算プログラム
1244は、上記で求められた出力ユニットの中間値2
09と210(z’(1) …z’(m) 、z" (1) …z
" (m) )と、目標出力値211(y(1) …y(m) )と出
力ユニットの出力値212(z(1 ) …z(m) )を用いて
以下の計算を行う。
【0121】
【数28】
【0122】により探索幅λk を取得し、探索幅格納エ
リア31に格納する。次に、探索方向計算部23の処理
について説明する。図13は、本発明の探索方向計算部
の処理を説明するための図である。同図に示すように、
探索方向計算部23のプログラムは、プログラムA12
31,プログラムB1232,プログラムC1233に
分けられる。
【0123】プログラムA1231として、減算プログ
ラムa,減算プログラムbがあり、これらの各プログラ
ムでは、格納部30に格納されている前回の探索幅λk
を格納する格納エリア31(前述の探索幅計算部24で
最終的に算出された探索幅)、前回の探索地点を格納し
ている探索地点格納エリア32、今回の探索地点を格納
する探索地点格納エリア33、前回のループにおいて使
用した勾配ベクトルを格納する前回勾配ベクトル格納エ
リア34、今回のループにおいて使用する勾配ベクトル
を格納する勾配ベクトル格納エリア35のそれぞれの値
を用いて計算する。上記の各値は、1回の反復が行われ
るごとに、格納部30内に蓄積されているものとする。
また、以下で説明する各探索情報も学習が行われる毎
に、各探索情報のメモリ内の格納エリアに格納されるも
のとする。
【0124】減算プログラムaは、第k回目のループに
おける修正ベクトルpk を算出するために、今回の探索
地点の値から前回の探索地点の値を減算し、その結果を
探索情報格納エリア217に格納する。減算プログラム
bは、第k回目のループにおける勾配ベクトルの変化量
ベクトルqk を算出するために、今回勾配ベクトルg
k+1 から前回の勾配ベクトルgkを減算し、その結果を
探索情報格納エリア218に格納する。
【0125】プログラムB1232は、結合重みを更新
する過去の探索情報(第1ループから第k−1ループ)
を用いて第kループでの探索情報4(221)を計算す
る。ためのプログラムであり、初期設定プログラム、ベ
クトル更新プログラムa、ベクトル更新プログラムbか
らなる。初期設定プログラムは、探索情報4(rk )の
初期値設定のために、k回目のループの後に、変化量の
ベクトルqk から求めた修正ベクトルをrk に代入し、
その結果をベクトル更新プログラムaに転送する。
【0126】ベクトル更新プログラムaは、第1回反復
後の探索情報格納エリア219から探索情報として、修
正ベクトルと探索幅計算に用いる係数α、βを取得して
以下の計算を行い、その結果をベクトル更新プログラム
bに転送する。 A=(−α1 1 +β1 1 T k B=−α1 1 T kk =rk +Ap1 +Br1 ベクトル更新プログラムbは、第k−1回反復後の探索
情報格納エリア220から探索情報を取得して、上記の
ベクトル更新プログラムaと同様の計算を行い、その結
果を探索情報格納エリア221に格納する。
【0127】 A=(−αk-1 k-1 +βk-1 k-1 T k B=−αk-1 k1 Tkk =rk +Apk-1 +Brk-1 この結果をベクトル更新プログラムbに転送する。この
例では、1回目のループによる値を計算するプログラム
とk−1回目のループによる値を計算するプログラムと
を別個に記載しているが現実的には、同一のプログラム
で、ループごとに与えられるデータを用いて探索情報r
k を算出するものである。
【0128】次に、上記のプログラムB1232におい
て取得した修正ベクトルを用いてプログラムC1233
により探索方向を計算する。プログラムC1233は、
係数計算プログラム、探索情報格納プログラム、探索方
向計算プログラムより構成される。係数計算プログラム
は、プログラムB1232のベクトル更新プログラムに
より取得した値を用いて、 αk =(pk T k -1 βk =αk (1+αk k T k ) を計算する。
【0129】次に、探索情報格納プログラムは、求めら
れたαk とβk を第k回反復後の探索情報格納エリア2
22に格納する。さらに、探索方向計算プログラムは、
前回探索幅λk を用いて、 A=(λk -1+αk k −βk k T k+1 B=αk k T k+1 ΔΦk+1 =−r+Apk +Bpk を求め、計算結果格納エリア224に格納する。
【0130】なお、上記の探索方向計算部23及び探索
幅計算部24の学習プログラムを、必要な関数、パラメ
ータ等のデータの入力誘導アルゴリズム及び取得した結
果を出力するためのプログラム共に、一連のプログラム
として構成し、パッケージング化することも可能であ
る。上記で説明した処理は、特殊なハードウェアを有し
ない一般的なコンピュータ装置で走行するソフトウェア
で実現可能である。従って、上記の処理をソフトウェア
(プログラム)で構築し、コンピュータのディスク装置
等の記憶媒体や、フロッピーディスクやCD−ROM等
の可搬記憶媒体に格納して流通させることも可能であ
る。
【0131】また、上記の処理のうち、図5に示すニュ
ーラルネットワーク40の部分を市販のニューラルネッ
ト回路で実行させることも可能である。この場合は、ニ
ューラルネット回路の構成を図7に示すように設定し、
初期値を図5に示す初期化部21による初期化アルゴリ
ズムにより与え、図8に示す入力データ201を入力層
に順次与えて学習させ、出力層のデータをMDLにより
評価する。また、学習の進行に伴い、探索方向計算部2
3による探索方向アルゴリズムと探索幅計算部24によ
る探索幅計算アルゴリズムの結果を学習結果選択部50
により選択し、結果である法則を取得する。
【0132】なお、上記で説明した処理についても、特
殊なハードウェアを有しないワークステーション装置で
走行するソフトウェアで実現可能である。 [ニューラルネットの学習方法及び装置]次に、本発明
のニューラルネットの学習方法及び装置について説明す
る。図14は、本発明のニューラルネットの学習装置の
構成を示す。
【0133】同図に示すニューラルネットの学習装置
は、設定部2100、記憶装置2600、学習部270
0、交差検証誤差計算部2300、及び結果出力部24
00から構成される。学習部2700は、学習制御部2
200とニューラルネット2500から構成され、学習
制御部2200は、初期化部2210、停止条件判定部
2220、探索方向計算部2230、探索幅計算部22
40、及び結合重み更新部2250を有する。
【0134】記憶装置2600は、入力データとして、
設定部2100で用いられる事例、正規化係数の初期値
と下限値、停止条件判定部2220で用いられる勾配ベ
クトル、処理時間、目的関数値、探索方向計算部223
0で用いられる勾配ベクトル、前回までの探索情報、探
索幅計算部2240で用いられる探索方向ベクトル、ニ
ューラルネットの出力値、結合重み更新部2250で用
いられる探索方向ベクトル、探索幅、更新前の結合重み
が格納され、出力データとして、初期化部2210から
出力される結合重みの初期値、探索方向計算部2230
から出力される探索方向ベクトル、探索幅計算部224
0から出力される探索幅、結合重み計算部2250から
出力される更新された結合重み、交差検証誤差計算部2
300から出力される交差検証誤差、結果出力部240
0から出力される学習結果を格納する。
【0135】学習制御部2200の初期化部2210
は、ニューラルネット2500の各層のユニットの結合
重みと結合変数の初期化を行う。停止条件判定部222
0は、記憶装置2600に格納されている学習の反復の
停止条件を満足した場合には、ニューラルネット250
0の学習の内部の反復を終了するための判定を行う。
【0136】探索方向計算部2230は、準ニュートン
法に基づいて、当該準ニュートン法の探索方向を、ユー
ザによって定義され、記憶装置2600に格納されてい
る局部性パラメータに比例した記憶容量で計算する。探
索幅計算部2240は、探索方向ベクトル及びニューラ
ルネット2500の出力値が入力されると、探索幅に対
する勾配(1次微分)と曲率(2次微分)からなる学習
目的関数の2次近似式の最小点として求める。
【0137】結合重み更新部2250は、探索方向ベク
トル、探索幅、更新前の結合重みに基づいて、ニューラ
ルネット2500の各層間の結合重みを更新する。図1
5は、本発明のニューラルネットの学習方法の動作を示
すフローチャートである。以下に、上記の図14に基づ
いて一連の学習動作を説明する。 ステップ500) 設定部2100は、記憶装置260
0から事例、正規化係数の初期値と下限値を読み出し
て、正規化係数μの初期値(μ=s)とその下限値Eを
設定する。
【0138】ステップ501) 学習制御部2200の
初期化部2210は、ニューラルネット2500の各層
間の結合重みとパラメータΦの初期化を行う。 ステップ502) 停止条件判定部2220は、終了条
件として、記憶装置2600から勾配ベクトル、処理時
間、目的関数値を読み出して、所定の条件を満たせば内
側のループを停止させ、ステップ506に移行する。
【0139】ステップ503) 探索方向計算部223
0は、記憶装置2600から勾配ベクトル及び前回まで
の探索情報を読み出して、結合重みの修正方向(探索方
向ベクトルΔΦ)を計算し、その結果を記憶装置260
0に格納する。 ステップ504) 探索幅計算部2240は、記憶装置
2600から探索方向ベクトル及びニューラルネット2
500の出力値に基づいて結合重みの修正幅を計算し、
計算された探索幅λを記憶装置2600に格納する。
【0140】ステップ505) 結合重み更新部225
0は、記憶装置2600から探索方向ベクトル、探索
幅、及び更新前の結合重みを読み出して結合重みを、 Φ=Φ+λΔΦ により更新し、更新された結合重みを記憶装置2600
に格納する。 ステップ506) 設定部2100は、交差検証ループ
を制御する。中間ユニット数h(初期値=1)がmにな
るまで、ステップ511までの処理を繰り返す。h>m
のとき、ステップ512に移行する。
【0141】ステップ507) 初期化部2210は、
結合重みと制御変数の初期化を行う。第h番目の事例を
除き、パラメータΦを初期化する。 ステップ508) 停止条件判定部2220は、記憶装
置2600から読みだした停止条件を満たせば、ステッ
プ506に移行する。 ステップ509) 探索方向計算部2230は、記憶装
置2600から勾配ベクトル及び前回のループで取得し
た探索情報に基づいて結合重みの修正方向(探索方向ベ
クトルΔΦ)を計算する。
【0142】ステップ510) 探索幅計算部2240
は、記憶装置2600から探索方向ベクトル及びニュー
ラルネット2500の出力値に基づいて結合重みの修正
幅を計算し、計算された探索幅λを記憶装置2600に
格納する。 ステップ511) 結合重み更新部2250は、記憶装
置2600から探索方向ベクトル、探索幅、及び更新前
の結合重みを読み出して結合重みを、 Φ=Φ+λΔΦ により更新し、更新された結合重みを記憶装置2600
に格納し、ステップ508に移行する。
【0143】ステップ512) ステップ506におい
て、h>mとなったとき、交差検証誤差計算符2300
は、交差検証誤差を μ=γμ により計算し、記憶装置2600に格納する。ステップ
513) 停止条件判定部2220は、μ<Eならば、
アルゴリズムを終了させ、結果出力部2400により学
習結果を出力する。
【0144】本発明のニューラルネットの学習方法及び
装置における学習目的関数設定手段における、学習目的
関数の設定について説明する。まず、問題の枠組につい
て説明する。 {(x1 ,y1 ),…,(xm ,ym )} を事例集合とし、xi をニューラルネットへのn次元入
力ベクトル、yi をニューラルネットからの目標出力値
とする。また、3層ニューラルネットにおいて、hを中
間ユニット数、wj (j=1,…,h)を全入力ユニッ
トから中間ユニットへの結合重み、w0 =(w00,…,
0hT を全中間ユニットから出力ユニットへの結合重
みとする。ここで、wj0は、バイアスであり、xt0=1
とする。但し、aT は、ベクトルaの転置ベクトルを表
す。以下では、全結合重み(w0 ,…,wh )を、Φ=
(φ1 ,…,φN T で表し、Φの次元をN(=h(n
+2)+1)とする。よって、結合重みの自乗和を正規
化項として用いるニューラルネットの学習とは、
【0145】
【数29】
【0146】を最小化する問題として定義できる。ここ
で、σ(z)は適当な非線型関数であり、本発明では、
シグモイド関数σ(z)=1/1(1+e-z)を採用す
るものとする。また、μは、正規化係数である。さら
に、本発明の探索方向計算部2230、及び探索幅計算
部2240については、準ニュートン法をベースとした
ニューラルネットの学習を行う場合に、ユーザが定義し
た局部性パラメータに比例した記憶容量で探索方向を計
算し、探索幅に対する勾配(1次微分)と曲率(2次微
分)からなる学習目的関数の2次近似式の最小点とし
て、探索幅を求める。この基本アルゴリズムを以下に示
す。
【0147】ステップ401) Φ1 を初期化し、k=
1とする。 ステップ402) 停止条件を満たせば、反復処理を終
了させる。 ステップ403) 探索方向ΔΦk を少記憶BFGS法
で求める。 ステップ404) f(Φk +λΔΦk )を最小にする
探索幅λk を求める。 ステップ405) 結合重みを以下の式により、修正す
る。
【0148】Φk+1 =Φk +λΔΦk ステップ406) k=k+1とし、ステップ402に
移行する。 上記のステップ403の探索方向の計算方法について説
明する。 gk =▽f(Φk ), pk =λk ΔΦk , qk =gk+1 −gk とおけば、k+1反復目の探索方向は、
【0149】
【数30】
【0150】である。但し、αi =(pi T i -1
βi =αi (1+αi i T i )とおけば、rk の値
は、
【0151】
【数31】
【0152】である。ここで、パラメータsは、探索の
履歴を表す局部性パラメータである。次に、上記のステ
ップ404の探索幅計算法について説明する。λは、f
(・)の唯一の変数であるので、f(Φ+λΔ)をζ
(λ)で表せば、k反復目の探索方向は、
【0153】
【数32】
【0154】(13) である。但し、
【0155】
【数33】
【0156】である。ここで、vti=σ((Δwi T
t ),v’ti(1−vti)(ΔwiT t ,v”ti
=v’ti(1−2vti)(Δwi T t であり、Δc
i ,Δwijは、少記憶BFGS法で計算されるci ,w
ijの変化量である。次に、学習結果選択のための評価尺
度として、本発明では、適切な正規化係数を決定するた
めに交差検証法を用いている。
【0157】この交差検証法は、一般に、与えられた事
例集合に対して、最適な正規化係数を予め知ることはで
きない。よって、正規化係数を変えて学習したニューラ
ルネットを適切に評価するための方法が必要であり、本
発明では、交差検証法を採用する。訓練事例集合から1
つの事例(xh ,yh )を除いた学習結果、すなわち、
【0158】
【数34】
【0159】を最小化するパラメータをΦ(-h)とする。
交差検証誤差とは、事例(xh ,yh)のパラメータΦ
(-h)に対する二乗誤差の各事例毎の和であり、交差検証
誤差を最小化する正規化係数を用いれば、高い汎化能力
を有するニューラルネットを有することが期待できる。
本発明では、正規化係数μの初期値とその下限値を設定
し、初期値をγ倍して減少させる。ただし、0<γ<1
であり、以下の実施例では、γ=0.5に設定した。
【0160】図16は、本発明の検証誤差を最小にする
ニューラルネットの計算処理を示す。まず、正規化係数
の初期値S、乗数係数γ、及び嗜好回数Mが3300に
与えられると、正規化係数生成処理3300では、各試
行に用いるM個の正規化係数値S,Sγ,…,SγM-1
を生成する。次いで、交差検証誤差計算プログラム34
00では、上記の正規化係数値群後を順番に用いて、そ
れぞれの交差検証誤差を計算する。但し、M回の交差検
証誤差計算プログラムは、同様な動作をする。代入処理
3410で、与えられた正規化係数値をμに代入した
後、まず、ニューラルネット学習処理3420では、訓
練事例3100と正規化係数値μを用いて、ニューラル
ネットワークの学習を行い、その学習結果の結合重みΦ
1 ,…,ΦN を学習結果3430に出力する。
【0161】次に、交差検証誤差計算処理3440で
は、訓練事例3100と正規化係数値μを用いて、交差
検証誤差計算をおない、その結果の誤差Err1 を交差検
証誤差3450に出力する。全ての正規化係数値での交
差検証誤差Err1 ,…,ErrM より、最小値となるE
rri を検出し、そのときの試行における学習結果の結合
重みΦ1 ,…,ΦN を学習結果3700に出力する。つ
まり、学習結果3700の結合重みを有するニューラル
ネットが本発明の結果である。
【0162】図17は、本発明の交差検証誤差の計算処
理を示す。まず、訓練事例3100が入力されると、h
番目の事例のみを分離する処理4000では、分離した
事例4110と残りの事例集合4120を検証誤差計算
処理4160に出力する。但し、この処理は、1番目か
らm番目までの全ての事例に対して順番に行われ、m回
の検証誤差プログラムは同様な動作をする。
【0163】まず、ニューラルネット学習処理4130
では、事例集合4120と正規化係数値μを用いて、ニ
ューラルネットの学習を行い、その学習結果の重み
Φ1 ,…,ΦN を学習結果4140に出力する。次に、
除いた事例の誤差計算処理4150では、事例4110
と学習結果4140を用いて、誤差計算を行い、その結
果の誤差err1 を検証誤差4160に出力する。
【0164】全ての事例に対する計算が行われた後、加
算平均計算処理4200では、各事例に対して計算した
検証誤差err1 ,…,errm の加算平均を計算し、
その結果Errj を学習結果4300に出力する。但
し、添字jは、交差検証誤差計算処理3430でのj回
目の試行であることを表す。図18は、本発明の除いた
事例の誤差計算処理を示す。同図に示す処理は、h番目
の事例に対する処理において、除いた事例の誤差計算処
理4150に格納された除いた事例y(h) ,x1 h)
…,xn (h) が与えられると、学習結果4140に格納
された学習結果の結合重みをニューラルネットの結合重
みとして、既に述べたニューラルネットの動作で、x1
(h) ,…,xn (h) より、ニューラルネットの出力値z
(h) を計算する。自乗誤差計算処理5000は、目標出
力値y (h) とニューラルネットの出力値z(h) の自乗誤
差errh を出力する。
【0165】図19は、本発明のニューラルネットの学
習処理の詳細を示す。基本的には、既に述べた学習理と
同じであるが、異なる部分は、探索幅計算処理に前述の
計算式を用いて、探索幅計算プログラム1244は、目
標出力値211と出力ユニットの出力値212だけでな
く、結合重みベクトル値213、修正方向ベクトル値及
び正規化係数値215の値を受け取り、式(13)で探
索幅を計算する。
【0166】なお、上記で説明したニューラルネットの
学習方法及び装置に関して、方法の各手法及び装置にお
ける各構成要素をソフトウェア(プログラム)で構築
し、コンピュータのディスク装置に格納する、または、
フロッピーディスクやCD−ROM等の可搬記憶媒体に
格納して流通することも可能である。
【0167】
【実施例】
[法則発見装置を適用した実施例]最初の実施例は、上
記の法則発見装置を適用した例について述べる。最初に
現実データへ適用した例として電池の残存容量と内部抵
抗の法則を発見する例を示す。この法則は、ケプラーの
法則等のように、純理論的に説明できず、数学的にもき
れいな形をしていないが、実用上は極めて重要である。
【0168】設定部10において、中間ユニット数hの
初期値として1を、中間ユニット数の最大値として、3
を設定し、初期化部22において、結合重みと制御変数
の初期化を行う。具体的には、平均0、標準偏差0.1
の正規分布に基づくランダムな値を各結合重みに与え、
ループ数を制御するパラメータkを1とする。
【0169】次に、探索方向計算部23において、前述
の式(8)を用いて探索方向の計算を行い、さらに、探
索幅計算部24において、前述の式(15)により探索
幅の計算を行う。さらに、結合重み更新部25におい
て、結合重みを、 Φk+1 =Φk +λk ΔΦk による更新を行い、格納部30に格納されているパラメ
ータに基づいて、学習結果選択部50において、MDL
が最小となる多項式 y=−1013.4x0.30+6743.6 を取得する。
【0170】電池の残存容量yは、電池の内部抵抗xに
関係することが知られている。従来、残存容量yと内部
抵抗の対数logxが線型関係にあるとして経験則を導
いていた。すなわち、31事例から導かれる法則は y=−1095.1 logx+6939.7 であった。一方、同じ事例集合から発見した法則は y=−1013.4x0.35+6743.6 となった。既存の経験則によっRMSE(平均自乗誤差
の平方根)は202.97であったのに対し、発見した
法則では138.95に減少した。
【0171】このように、本発明を適用すれば、これま
で説明してきたような物理数法則ばかりでなく、高速道
路の車両密度と単位時間当たりの交通量の間の法則発見
等のように一般的な社会現象にも適用が可能であること
が大きな特長である。 ・人工データへの適用 Sutton−Matheusの問題とその修正問題を
用いて、本発明を評価した。オリジナル問題は y=2+3x1 2 +4x3 4 5 (16) を復元する問題である。事例ついては、x1 ,・・・,
5 の各変数に[0,1]の範囲でランダムな値を与
え、対応するyの値を(16)式より計算する。但し、
変数の総数は9(n=9)であり、不要変数x6 ,・・
・,x9 にも[0,1]の範囲でランダムな値を与え、
合計200(m=200)事例を生成した。実験では、
各結合重みの初期値を、平均0、標準偏差0.1の正規
分布に基づいて独立に生成し、MSE値が十分小さいと
き、
【0172】
【数35】
【0173】勾配ベクトルの大きさが十分小さいとき、
【0174】
【数36】
【0175】また、CPU処理時間が100秒を越えた
ときに、アルゴリズムの反復を終了させた。各反復にお
いては、まず、結合重みの修正方向を計算する探索方向
計算部23では、勾配ベクトルgk =∇f(Φk )と過
去の探索情報[P1 ,…,Pk ],[r1 ,…,
k-1 ]、[(α1 ,β1 ),…,(αk-1
βk-1 )]により、前述の式(8)の計算式により探索
方向ΔΦk を計算する。
【0176】次に、結合重みの修正幅を計算する探索幅
計算部24では、探索方向ベクトルとニューラルネット
の各ユニットの出力値により、前述の式(15)の計算
式により探索幅λk を計算する。そして、結合重みの更
新部25では、探索方向計算部23と探索幅計算部24
の結果、ΔΦk とλk を用いて、結合重みを ΔΦk+1 =Φk +λk ΔΦk のように更新する。
【0177】格納部30には、図20に示すような法則
候補を格納し、最後に結果出力部40において、MDL
が最小となる法則として図20において枠で囲んだもの
を発見結果として出力する。 ・オリジナル問題 実験では、入力を対数関数で表された [log (x1 (1) ),…, log(xn (1) ),…,log
(x1 (1) ),…,log(xn (1) )] とし、中間ユニット数を1から3まで変化させ(h=
1,2,3),それぞれ100回の試行を行なった。実
験結果のMSE値、MDL値、反復回数、および、処理
時間(秒)に関する基本統計量を表2、表3に示す。
【0178】これらの表の値に基づいて以下に示す法則
を発見する動作を説明する。まず、設定部10は、中間
ユニットの初期値を1、最大値を3に設定し、ループ数
を制御するパラメータkを1に設定する。初期化部21
は、結合重みの初期化を行う。これにより、探索方向計
算部23は、前述の式(8)により探索方向ΔΦk を求
め、探索幅計算部24は、前述の式(15)により探索
幅λk を求める。探索方向計算部23と探索幅計算部2
4により実行される学習により、最終的に学習結果Φ=
(c0 ,c1 ,…,ck1 ,w11,…,wkn)が得られ
る。
【0179】次にこれらの学習結果として取得した解を
学習結果選択部300により、以下の表に示すように、
h=2でMDL値が最小になり、正しい中間ユニット数
を発見できたことが分かる。また、このとき100回全
ての試行が最適解に収束した。
【0180】
【表2】
【0181】
【表3】
【0182】発見した法則は y=2.000 +3.00x1 1.0002 1.000+4.000 x3 1.000
4 1.0005 1.000 である。但し、各値を小数点第4位まで四捨五入した。
上記の表により本発明は元の法則を完全に復元できたこ
とが分かる。ここで、各試行の平均反復回数は93.7
回、平均処理時間は0.878秒であり、この実験に要
した全処理時間は4.4分であった。 ・修正問題 整数指数でない場合での本発明の有効性を評価するた
め、(16)式の代わりに、 y=2+3x1 -12 3+4x3 4 1/25 -1/3 (17) を用いて実験を行なった。但し、実験の条件はオリジナ
ル問題のときと全て同じとした。結果を表3に示す。発
見した法則は y=2.000 +3.00x1 -1.0002 3.000+4.000 x3 1.000
4 0.5005 -0.333 である。これは(17)式と等価である。既存法では、
適切な関数を用意しなければ、このような法則を発見で
きないので、既存法と比べて、本発明には重要な長所が
あることが示された。
【0183】
【表4】
【0184】
【表5】
【0185】・ノイズ許容性 本発明のノイズ許容性を評価するため、(16)式、ま
たは、(17)式で計算する各yの値に、平均0、分散
0.1の正規分布に基づく独立なノイズを与えて実験を
行なった。但し、これ以外の実験の条件は、以前のもの
と全て同じとした。結果を表4と表5に示す。最小のM
SE値はh=3のときであるが、最良のMDL値はh=
2のときであり、いずれの問題でも、正しい中間ユニッ
ト数を発見できた。オリジナルと修正問題で本発明が発
見した法則は y=1.968 +3.028 x1 1.0002 0.9694 -0.0075
-0.0076 0.0047 0.0088 -0.0079 0.001+3.880 x
1 -0.0272 -0.0143 1.0254 0.9955 1.0486
-0.0087 -0.0208 0.0109 -0.014 y=2.012 +3.004 x1 -1.0002 3.0016 -0.0017
0.001+3.983 x1 0.0022 -0.0033 1.0224 0.5005
-0.3336 -0.0057 -0.0028 0.0039 -0.007 である。各値を小数点第2位で四捨五入した結果は y= 2.0+ 3.0x1 1.02 1.0+ 3.9x3 1.04 1.05 1.0 y= 2.0+ 3.0x1 -1.02 3.0+ 4.0x3 1.04 0.55
-0.3 となる。ほんの一部が異なるだけで、元の法則とほぼ等
価な法則を発見できた。このことは、本発明では頑健
で、ある程度のノイズを許容できることを示している。 ・学習効果の評価 ここでは、本発明における学習法の効率を評価する。
【0186】まず、本発明とBPとの比較をした場合を
説明する。学習効率をグラフィカルに評価するため、2
変数からなる人工問題を作成した。法則の一般形を y=xw1+w2 (18) とし、(w1 ,w2 )=(0.4,0.2)で真の法則
を与え、各事例の変数x (t) は{0.1,0.2,0.
3,0.4,0.5}の各要素とし、目標出力値y(t)
は(18)式に真のパラメータを代入して各x(t) から
計算した。すなわち、最小値は真のパラメータの値で与
えられる。実験では、オフライン(off−line)
BP、オンライン(on−line)BP、慣性項付き
(momentum term)BP、および、本学習
法を比較した。
【0187】誤差曲面上において、(w1 ,w2 )=
(0.0,0.0)を初期値とし、最大で100反復さ
せた学習軌跡を図21に示す。但し、同図の学習定数や
慣性項の係数は試行錯誤で決定した。同図より、オフラ
インBP、オンラインBP、および、慣性項付きBPで
は、初期値を比較的最小値の近くに設定したにもかかわ
らず、100反復では最小値に到達できなかった。この
理由は、谷底近くでは、連続する2つの勾配ベクトルの
方向がほぼ逆向きになるためであり、これは1次学習ア
ルゴリズムの本質的な問題点である。なお、オンライン
BPの1反復は、全ての事例を用いたm(5)回の結合
重みの更新であり、また、学習定数ηを大きくすれば、
BPの学習軌跡は大きく振動する。一方、本学習法で
は、十数反復で効率良く最小値に到達できた。さらに、
提案法には試行錯誤で決定するパラメータがないので、
一般の問題への適用が容易となる。
【0188】次に、本発明と適応型BPとを比較した場
合を説明する。ノイズありのSutton−Mathe
usのオリジナルと修正問題を用いて、本学習法の効率
を評価した。この実験では、標準的なBPでは、すべて
の試行が収束しなかったので、Silva−Almei
daの学習定数適応規則を用いた適応型(adapti
ve)BPと比較した。なお、適応型BPでは、k反復
目の各結合重みφi に対する学習定数ηki
【0189】
【数37】
【0190】で調整される。ここで、パラメータuは提
案者が推奨するように1.1に設定した。但し、目的関
数の値が減少しないときには、全ての学習定数の値はそ
の半分の値に設定される。実験結果を図22に示す。但
し、同図の値は100回の試行の平均である。図22
(a)では、ノイズありオリジナル問題において、1反
復の処理時間と収束までに要した反復回数の関係を示
す。同図より、適応型BPの1反復の処理時間は提案法
より僅かに少ないが、適応型BPの反復回数は提案法の
16.1であり、全体では、提案法は適応型BPより1
1.4倍速いことが分かる。図22(b)では、ノイズ
ありオリジナル問題において、MDL値による収束性を
比較する。明らかに、提案法の収束性は適応型BPより
優れている。
【0191】図23では、ノイズあり修正問題におい
て、MDL値による収束性を比較する。この問題では、
適応型BPの全ての試行が収束しなかった。適応型BP
がノイズあり修正問題をうまく学習できなかった理由に
ついては、目標値y(t) 関する基本統計量がヒントを与
える。今回の実験では、ノイズありオリジナル問題での
平均と標準偏差は3.33と0.90であったが、ノイ
ズあり修正問題では、19.40と60.95であっ
た。これは、結合重みベクトルが変化すると、オリジナ
ル問題と比較して、修正問題での勾配ベクトルがより急
激に変化することを意味する。これが適応型BPでは学
習できなかった理由であると考える。 ・現実データへの適用(既知法則) 図24は、本発明の一実施例の現実データへの適用例に
おける比較を示す図である。現実データとして、Hag
en−Rubensの法則、Keplerの第3法則、
および、Boyleの法則に従うデータを用いた実験を
行なった。この実験では、各データの事例数は少ないの
で、中間ユニット数を1に固定した。なお、この場合で
も、定数項c0 を考慮するので、その学習は単純な回帰
問題に帰着されない。以下の結果は10回の試行でMD
L値を最小にしたものであり、各値は小数点第3位で四
捨五入した。 ・Hagen−Rubensの法則 Hagen−Rubensの法則は金属の電気伝導度
σ、入射光の周波数ν、および、金属の光の反射率Rの
関係であり、元の法則は
【0192】
【数38】
【0193】である。9事例から発見した法則は R=1.00−2.08ν0.57σ-0.57 となった。データには、元の法則からかなり外れた事例
も含まれるが、元の法則と類似した法則を発見できた。 [ニューラルネット学習装置を適用した実施例]次に、
本発明のニューラルネットワークの学習装置における実
施例を説明する。
【0194】本発明の評価のため、y=(1−x+2x
2 )e-0.5x2を学習する問題を用いる。事例について
は、入力変数xには[−4,4]の範囲でランダムな値
を与え、対応するyの値をxより計算した。ただし、各
yの値には、平均0、標準偏差0.2の正規分布に基づ
く独立なノイズを与えた。また、事例の総数は30と
し、中間ユニット数は5に設定した。図25に、訓練事
例、真の関数、および、正規化項なしの学習結果を示
す。この学習結果は訓練事例にある程度過剰適合してい
ることが分かる。
【0195】適用例では、まず、設定部2100におい
て、正規化係数μの初期値を20 、その下限値を2-19
に設定する。次いで、初期化部2210において、各結
合重みの初期値を、平均0、標準偏差0.1の正規分布
に基づいて独立に生成する。また、停止条件判定部22
20では、勾配ベクトルの大きさが十分小さいとき、
【0196】
【数39】
【0197】または、CPU処理時間が100秒を越え
たときに、アルゴリズムの反復を終了させる。各反復に
おいては、まず、結合重みの修正方向を計算する探索方
向計算部2230では、勾配ベクトルと過去の探索情報
より、探索方向を計算する。次いで、結合重みの修正幅
を計算する探索幅計算部2240では、探索方向ベクト
ルとニューラルネットの各ユニットの出力値より、探索
幅を計算する。そして、結合重みの更新部2250で
は、探索方向計算部2230と探索幅計算部2240の
結果を用いて、結合重みを更新する。
【0198】一方、設定部2100では、交差検証ルー
プを制御し、ニューラルネット2500では、1つの事
例を除いた訓練事例で学習を行い、交差検証誤差計算部
2300では、交差検証誤差を計算する。最後に、結果
出力部2400において、交差検証誤差が最小となるニ
ューラルネットを結果として出力する。
【0199】図26に、正規化項付きの学習結果の例を
示す。μ=2-3では、訓練事例への適合が不十分であ
り、μ=2-6では、真の関数にかなり近い学習結果を得
られているが、μ=2-15 では、ある程度訓練事例に適
合していることが分かる。 図27に、正規化項付きと
正規化項なしの学習性能を比較する。ただし、汎化誤差
は訓練事例と独立な5000のテスト事例を用いて評価
した。正規化項付きの学習では、正規化項なしと比較し
て、適切な正規化係数において、高い汎化能力を示しな
がら、20倍程度高速に学習が完了していることが分か
る。
【0200】図28に、交差検証誤差と汎化誤差を比較
する。交差検証誤差は実際より悪い評価を与えるが、両
者はほぼ同じ正規化係数で最小になっていることが分
る。よって、現実の問題では汎化誤差を知ることはでき
ないが、交差検証誤差を用いて、適切な正規化係数を得
られることが期待できる。なお、本発明は上記実施例に
限定されることなく、特許請求の範囲内において、社会
現象において発生する法則性の発見等にも適用でき、種
々、変更/応用が可能である。
【0201】
【発明の効果】上記のように、本発明のニューラルネッ
トの法則発見方法及び装置によれば、観測データより、
該観測データが満たす法則の発見において、法則発見を
ニューラルネットの学習問題として定式化することによ
り学習目的関数を設定し、該ニューラルネットの学習に
は、準ニュートン法をベースとし、該準ニュートン法の
探索方向を、ユーザが定義する局部性パラメータに比例
した記憶容量で計算し、該準ニュートン法の探索幅を、
探索幅に対する勾配(1次微分)と曲率(2次微分)か
らなる該学習目的関数の2次近似式の最小点として求
め、評価尺度を用いて学習結果の選択することを特徴と
するニューラルネットを用いた法則発見方法を提供する
ことにより、ある程度のノイズを含むデータからでも、
指数部が整数に制限されない一般多項式型法則や、社会
現象等における一般法則等も効率良く発見することが可
能となる。
【0202】また、本発明の法則発見プログラムを格納
した記憶媒体は、特殊なハードウェアを有しないワーク
ステーション装置で実現可能であるので、広範囲な情報
処理環境で容易に利用に供することができるという大き
な特徴がある。さらに、本発明の機能を実現する計算プ
ログラムは、着脱可能な記憶媒体や、別装置であるデー
タベース等に格納しておくことができ、必要に応じて読
み出し、または、取得して実行させることができるの
で、本発明の機能を有するアプリケーションソフトを容
易にパッケージ商品等にできることも顕著な効果であ
る。
【0203】また、本発明のニューラルネットの学習方
法及び装置及びニューラルネットの学習プログラムを格
納した記憶媒体によれば、入力ベクトルと目標出力値か
らなる事例の集合に対して、該入力ベクトルから該目標
出力値を出力可能とするニューラルネットの学習におい
て、各事例における目標出力値とニューラルネットの出
力値の自乗誤差の和の項にニューラルネットの結合重み
の自乗和を正規化係数倍した項を付加して、学習目的関
数を設定し、該ニューラルネットの学習には、準ニュー
トン法の探索方向を、ユーザが定義した局部性パラメー
タに比例した記憶容量で計算し、準ニュートン法の探索
幅を、探索幅に対する勾配(1次微分)と曲率(2次微
分)からなる学習目的関数の2次近似式の最小点として
求め、正規化係数の決定には、交差検証法で行うことに
より、訓練事例だけでなく、未知の事例に対しても信頼
性の高い出力を可能とする(高い汎化能力を有する)ニ
ューラルネットの学習を高速に実行することが可能とな
る。
【図面の簡単な説明】
【図1】本発明の法則発見方法の原理を説明するための
図である。
【図2】本発明の法則発見装置の原理構成図である。
【図3】本発明のニューラルネットの学習方法の原理を
説明するための図である。
【図4】本発明のニューラルネットの学習装置の原理構
成図である。
【図5】本発明の法則発見装置の構成図である。
【図6】本発明の法則発見処理の一連の動作のフローチ
ャートである。
【図7】本発明に用いられるニューラルネットの構造を
示す図である。
【図8】本発明の探索幅計算部の処理を説明するための
図である。
【図9】図8の入力−中間層間の結合重みと中間ユニッ
トの下半分のプログラムとデータの関連を示す図であ
る。
【図10】図8の中間ユニットの上半分のプログラムと
データの関連を示す図である。
【図11】図8の中間−出力層間の結合重みと出力ユニ
ットのプログラムとデータの関連を示す図である。
【図12】図8の目標出力値とニューラルネットワーク
の出力との比較部のプログラムとデータの関連を示す図
である。
【図13】本発明の探索方向計算部の処理を説明するた
めの図である。
【図14】本発明のニューラルネットの学習装置の構成
図である。
【図15】本発明のニューラルネットの学習方法の動作
を示すフローチャートである。
【図16】本発明の交差検証誤差を最小にするニューラ
ルネットの計算処理を示す図である。
【図17】本発明の交差検証誤差の計算処理を示す図で
ある。
【図18】本発明の事例の誤差計算処理を示す図であ
る。
【図19】本発明のニューラルネット学習処理の詳細を
示す図である。
【図20】本発明の一実施例の人工データに適用した場
合における法則候補の例を示す図である。
【図21】本発明の一実施例の学習軌跡を示す図であ
る。
【図22】本発明の一実施例の実験結果を示す図であ
る。
【図23】本発明の一実施例の学習結果を説明するため
の図である。
【図24】本発明の一実施例の現実データの適用例にお
ける比較を示す図である。
【図25】本発明の一実施例のニューラルネットの学習
における学習問題の訓練事例、真の関数及び正規化項無
しの学習結果の例である。
【図26】本発明の一実施例の正規化項付きの学習結果
を示す図である。
【図27】本発明の一実施例の正規化項による性能評価
を示す図である。
【図28】本発明の一実施例の交差検証法による性能評
価を示す図である。
【符号の説明】
10 設定部 20 学習部 21 初期化部 22 停止条件判定部 23 探索方向計算部 24 探索幅計算部 25 結合重み更新部 30 格納部 31 前回の探索幅格納エリア 32 前回の探索地点格納エリア 33 今回の探索地点格納エリア 34 前回の勾配ベクトル格納エリア 35 今回の勾配ベクトル格納エリア 40 ニューラルネットワーク 50 学習結果選択部 60 結果出力部 200 出力ユニットの中間値z” 201 入力データ 202 結合重みの修正方向ベクトル値 203 中間値 204 中間ユニットの出力値 205 中間値v’ 206 中間値v” 207 結合重みベクトル値 208 結合重みの修正方向ベクトル値 209 出力ユニットの中間値z’ 210 出力ユニットの中間値z” 211 目標出力値 212 出力ユニットの出力値 213 前回の探索地点の格納エリア 214 今回の探索地点の格納エリア 215 前回の勾配ベクトルの格納エリア 216 今回の勾配ベクトルの格納エリア 217、218、221、223 探索情報の格納エリ
ア 219 第1回反復の探索情報の格納エリア 220 第k−1回反復後の探索情報の格納エリア 222 第k回反復後の探索情報の格納エリア 224 計算結果の格納エリア 300 入力層 400 入力−中間層間の結合重みと中間ユニットの下
半分 500 中間ユニットの上半分 600 中間−出力層間の結合重みと出力ユニット 700 目標出力値とニューラルネットの出力との比較
部 1231 プログラムA 1232 プログラムB 1233 プログラムC 1241 中間ユニットの変更方向計算プログラム 1242 中間ユニットの微係数計算プログラム 1243 出力ユニットの微係数計算プログラム 1244 探索幅計算プログラム 2100 学習目的関数設定手段、設定部 2131 結合重みベクトルの値 2141 修正方向ベクトルの値 2151 正規化係数の値 2200 学習手段、学習制御部 2210 初期化部 2220 停止条件判定部 2230 探索方向計算部 2240 探索幅計算部 2244 探索幅計算プログラム 2250 結合重み更新部 2300 正規化係数決定手段、交差検証誤差計算部 2400 結果出力部 2500 ニューラルネット 2600 記憶装置 2700 学習部 3100 訓練事例集合 3300 正規化係数生成処理 3400 交差検証誤差計算プログラム 3410 正規化係数 3420 ニューラルネット学習処理 3430 学習結果 3440 交差検証誤差計算処理 3450 交差検証誤差 3600 最小値検出処理 3700 学習結果 4000 h番目の事例のみを分離する処理 4100 交差検証誤差計算処理 4110,4120 事例 4130 ニューラルネット学習処理 4140 学習結果 4150 除いた事例の誤差計算処理 4160 検証誤差 4200 加算平均を計算する処理 4300 交差検証誤差 5000 自乗誤差計算処理

Claims (31)

    【特許請求の範囲】
  1. 【請求項1】 複数組の測定されたデータベクトルにお
    いて、該データベクトルの任意の1つの属性を基準変
    数、残りの属性群を説明変数群とし、説明変数値ベクト
    ルから基準変数値を計算可能とする法則を、指数値が整
    数に制限されない一般多項式として取得する法則の発見
    方法において、 前記法則発見をニューラルネットワークの学習問題とし
    て定式化することにより学習目的関数式を設定し、 準ニュートン法に基づいて、該準ニュートン法の探索方
    向をユーザが定義する局部性パラメータに比例した記憶
    容量で計算し、該準ニュートン法の探索幅を、該探索幅
    に対する勾配と、曲率からなる前記学習目的関数の2次
    近似式の最小点として求めることを繰り返すことによ
    り、ニューラルネットワークの学習を行い、 学習完了後のニューラルネットでの入力層及び中間層間
    の各結合重みを指数値とし、該中間層及び出力層間の各
    結合重みを係数値とする一般多項式の形で、前記法則を
    取得することを特徴とする法則発見方法。
  2. 【請求項2】 前記ニューラルネットワークに学習を行
    わせる際に、 前記法則を表現し得る前記説明変数の個数と等しい数の
    入力ユニットからなる入力層、前記一般多項式の項数と
    等しい数の中間ユニットからなる中間層及び、前記基準
    変数に対応する一つの出力ユニットからなる出力層の3
    層を有し、該中間層の各ユニットの活性化関数が指数関
    数であるニューラルネットワークに対して、 前記説明変数値ベクトルの各値を、前記入力層の各ユニ
    ット値として入力し、入力ユニット値群の各データに対
    し、入力層及び中間層間の結合重みで重み付けして、合
    計した値に対して、前記指数関数を施した値を、前記中
    間層の各中間ユニットの値として計算し、該中間ユニッ
    ト値群の各データに対し、中間層及び出力層間の結合重
    みで重み付けして合計した値を、前記出力層の出力ユニ
    ット値として計算し、 前記法則による基準変数の計算値に対応する前記ニュー
    ラルネットワークの出力層の出力ユニット値と、実際の
    データの基準変数値の誤差を各データについて求め、そ
    の二乗和(以下、法則誤差と記す)を最小化するよう
    に、前記入力層及び前記中間層の結合重みと前記中間層
    及び前記出力層間の結合重みを調整することにより、前
    記ニューラルネットワークを学習させる請求項1記載の
    法則発見方法。
  3. 【請求項3】 前記学習目的関数を設定する際に、 前記ニューラルネットワークの中間層のユニット数の初
    期値と、最大値を決定する請求項1記載の法則の発見方
    法。
  4. 【請求項4】 前記法則を取得する際に、 所定の評価尺度を用いて学習結果である一般多項式の選
    択を行う請求項1記載の法則の発見方法。
  5. 【請求項5】 前記一般多項式を得る場合に、 前記中間層のユニット数を変化させた時の、前記ニュー
    ラルネットワークの学習による複数の学習結果を取得
    し、 前記複数の学習結果のうち、前記法則誤差と、前記ニュ
    ーラルネットワークの複雑さをトレードオフする評価関
    数の値が最小となる各係数と各指数(結合重み)を有し
    たニューラルネットを、前記法則を表す多項式として採
    用する請求項4記載の法則の発見方法。
  6. 【請求項6】 前記評価尺度として、MDL(Minimum
    Description Length)基準を用いる請求項4記載の法則
    の発見方法。
  7. 【請求項7】 複数組の測定されたデータベクトルにお
    いて、該データベクトルの任意の1つの属性を基準変
    数、残りの属性群を説明変数群とし、説明変数値ベクト
    ルから基準変数値を計算可能とする法則を、指数値が整
    数に制限されない一般多項式として取得する法則の発見
    装置において、 ニューラルネットワークの学習問題として、法則発見を
    定式化し、学習目的関数式として設定する目的関数設定
    手段と、 準ニュートン法に基づいて、該準ニュートン法の探索方
    向をユーザが定義する局部性パラメータに比例した記憶
    容量で計算し、該準ニュートン法の探索幅を、該探索幅
    に対する勾配と、曲率からなる前記学習目的関数の2次
    近似式の最小点として求めることを繰り返すことにより
    ニューラルネットワークの学習を行う学習手段と、 学習完了後のニューラルネットでの入力層及び中間層間
    の各結合重みを指数値とし、該中間層及び出力層間の各
    結合重みを係数値とする一般多項式の形で、前記法則を
    取得する法則取得手段とを有することを特徴とする法則
    発見装置。
  8. 【請求項8】 前記学習手段に対して、 前記説明変数値ベクトルの値を、前記入力層の各ユニッ
    ト値として入力し、入力ユニット値群の各データに対
    し、入力層及び中間層間の結合重みで重み付けして、合
    計した値に対して、前記指数関数を施した値を、前記中
    間層の各中間ユニットの値として計算し、該中間ユニッ
    ト値群の各データに対し、中間層及び出力層間の結合重
    みで重み付けして合計した値を、前記出力層の出力ユニ
    ット値として計算する学習制御手段を含む請求項7記載
    の法則発見装置。
  9. 【請求項9】 前記学習手段は、 前記結合重みの修正方向として、前記準ニュートン法の
    探索方向を、ユーザにより定義された局部性のパラメー
    タに比例した記憶容量で計算する探索方向計算手段と、 前記結合重みの修正幅として、前記準ニュートン法の探
    索幅を、該探索幅に対する勾配と曲率から計算する探索
    幅計算手段と、 結合重みを更新する結合重み更新手段とを含む請求項7
    記載の法則発見装置。
  10. 【請求項10】 前記探索方向計算手段は、 前記記憶容量が2Ns(s≪N)(但し、N=法則の定
    数項、全係数、全指数の値からなるベクトルΦの次元
    (パラメータ数)、s=ユーザから入力される局部性パ
    ラメータ)となる小記憶BFGS法を用いる請求項9記
    載の法則発見装置。
  11. 【請求項11】 前記探索幅計算手段は、 前記勾配を一次微分より求め、前記曲率を二次微分によ
    り求める手段を含む請求項9記載の法則発見装置。
  12. 【請求項12】 前記法則取得手段は、 評価尺度の値が最小となる各係数と各指数を有した学習
    結果(ニューラルネット)を選択する学習結果選択手段
    を含む請求項7記載の法則発見装置。
  13. 【請求項13】 前記学習結果選択手段は、 前記評価尺度として、MDL(Minimum Description Le
    ngth)基準を用いる請求項7記載の法則の発見装置。
  14. 【請求項14】 少なくとも、前記学習手段による前記
    ニューラルネットワークの中間出力結果、及び前記選択
    された学習結果、前記学習目的関数設定手段により設定
    された学習目的関数式、各手段を動作させるためのプロ
    グラムを格納する記憶手段を更に有する請求項7記載の
    法則発見装置。
  15. 【請求項15】 複数組の測定されたデータベクトルに
    おいて、該データベクトルの任意の1つの属性を基準変
    数、残りの属性群を説明変数群とし、説明変数値ベクト
    ルから基準変数値を計算可能とする法則を、指数値が整
    数に制限されない一般多項式として取得する法則発見プ
    ログラムを格納した記憶媒体であって、 前記法則発見をニューラルネットワークの学習問題とし
    て定式化することにより学習目的関数式を設定する定式
    化プロセスと、 準ニュートン法に基づいて、該準ニュートン法の探索方
    向をユーザが定義する局部性パラメータに比例した記憶
    容量で計算し、該準ニュートン法の探索幅を、該探索幅
    に対する勾配と、曲率からなる前記学習目的関数の2次
    近似式の最小点として求めることを繰り返すことによ
    り、ニューラルネットワークの学習を行う学習プロセス
    と、 学習完了後のニューラルネットでの入力層及び中間層間
    の各結合重みを指数値とし、該中間層及び出力層間の各
    結合重みを係数値とする一般多項式の形で、前記法則を
    取得する法則取得プロセスとを有することを特徴とする
    法則発見プログラムを格納した記憶媒体。
  16. 【請求項16】 前記学習プロセスは、 前記ニューラルネットワークに学習を行わせる際に、 前記法則を表現し得る前記説明変数の個数と等しい数の
    入力ユニットからなる入力層、前記一般多項式の項数と
    等しい数の中間ユニットからなる中間層及び、前記基準
    変数に対応する一つの出力ユニットからなる出力層の3
    層を有し、該中間層の各ユニットの活性化関数が指数関
    数であるニューラルネットワークに対して、前記説明変
    数値ベクトルの各値を、前記入力層の各ユニット値とし
    て入力させる入力プロセスと、 入力ユニット値群の各データに対し、入力層及び中間層
    間の結合重みで重み付けして、合計した値に対して、前
    記指数関数を施した値を、前記中間層の各中間ユニット
    の値として計算し、該中間ユニット値群の各データに対
    し、中間層及び出力層間の結合重みで重み付けして合計
    した値を、前記出力層の出力ユニット値として計算する
    出力ユニット計算プロセスと、 前記法則による基準変数の計算値に対応する前記ニュー
    ラルネットワークの出力層の出力ユニット値と、実際の
    データの基準変数値の誤差を各データについて求め、そ
    の二乗和(以下、法則誤差と記す)を最小化するよう
    に、前記入力層及び前記中間層の結合重みと前記中間層
    及び前記出力層間の結合重みを調整することにより、前
    記ニューラルネットワークを学習させる重み調整プロセ
    スとを含む請求項15記載の法則発見プログラムを格納
    した記憶媒体。
  17. 【請求項17】 前記定式化プロセスは、 前記学習目的関数を設定する際に、 前記ニューラルネットワークの中間層のユニット数の初
    期値と、最大値を決定するプロセスを含む請求項15記
    載の法則発見プログラムを格納した記憶媒体。
  18. 【請求項18】 前記法則取得プロセスは、 前記法則を取得する際に、 所定の評価尺度を用いて学習結果である一般多項式の選
    択を行う多項式選択プロセスを含む請求項15記載の法
    則発見プログラムを格納した記憶媒体。
  19. 【請求項19】 前記多項式選択プロセスは、 前記一般多項式を得る場合に、 前記中間層のユニット数を変化させた時の、前記ニュー
    ラルネットワークの学習による複数の学習結果を取得
    し、 前記複数の学習結果のうち、前記法則誤差と、前記ニュ
    ーラルネットワークの複雑さをトレードオフする評価関
    数の値が最小となる各係数と各指数(結合重み)を有し
    たニューラルネットを、前記法則を表す多項式として採
    用するプロセスを含む請求項18記載の法則発見プログ
    ラムを格納した記憶媒体。
  20. 【請求項20】 前記多項式選択プロセスは、 前記評価尺度として、MDL(Minimum Description Le
    ngth)基準を用いる請求項18記載の法則発見プログラ
    ムを格納した記憶媒体。
  21. 【請求項21】 準ニュートン法に基づいて、該準ニュ
    ートン法の探索方向をユーザが定義する局部性パラメー
    タに比例した記憶容量で計算し、該準ニュートン法の探
    索幅を、該探索幅に対する勾配と、曲率からなる学習目
    的関数の2次近似式の最小点として求めることを繰り返
    すことによりニューラルネットワークの学習を行う学習
    プロセスと、 学習プロセスの完了後のニューラルネットでの入力層及
    び中間層間の各結合重みを指数値とし、該中間層及び出
    力層間の各結合重みを係数値とする一般多項式の形で、
    法則を取得する法則取得プロセスと、 法則取得プロセスにより呼び出される、評価尺度とし
    て、MDL基準を用いる学習結果選択プロセスと、 測定されたデータベクトルを表現するデータの入力を促
    す第1の入力プロセスと、 前記学習プロセスに用いる学習目的関数での中間ユニッ
    ト数(項数)の初期値と最大値の入力を促す第2の入力
    プロセスと、 前記学習プロセスに用いる前記局部性パラメータの入力
    を促す第3の入力プロセスと、 前記法則取得プロセスにより取得して法則を出力する出
    力プロセスからなる法則発見プログラムを格納した記憶
    媒体。
  22. 【請求項22】 前記記憶媒体は、 脱着可能な媒体、CPU内に内蔵されるメモリ、ネット
    ワークを介して取得したプログラムモジュールを格納す
    るディスク装置を含む外部記憶媒体を含む請求項21記
    載の法則発見プログラムを格納した記憶媒体。
  23. 【請求項23】 入力ベクトルと目標出力値からなる事
    例に対して、該入力ベクトルから該目標出力値を出力可
    能とするニューラルネットの学習方法において、 各事例における目標出力値とニューラルネットの出力値
    の自乗誤差の和の項に、該ニューラルネットの結合重み
    の自乗和を正規化係数倍した項を付加して、学習目的関
    数を設定し、 2次学習法を用いて、前記ニューラルネットの学習を行
    うことを特徴とするニューラルネットの学習方法。
  24. 【請求項24】 前記正規化係数を決定する際に、交差
    検証法を用いる請求項23記載のニューラルネットの学
    習方法。
  25. 【請求項25】 前記2次学習法として、 準ニュートン法に基づいて、該準ニュートン法の探索方
    向を、ユーザが提示する局部性パラメータに比例した記
    憶容量で計算し、 前記準ニュートン法の探索幅を、該探索幅に対する勾配
    (1次微分)と曲率(2次微分)からなる前記学習目的
    関数の2次近似式の最小点として求める方法を用いる請
    求項23記載のニューラルネットの学習方法。
  26. 【請求項26】 入力ベクトルと目標出力値からなる事
    例の集合に対して、該入力ベクトルから該目標出力値を
    出力可能とするニューラルネットの学習装置であって、 各事例における目標出力値とニューラルネットの出力値
    の自乗誤差の和の項に、ニューラルネットの結合重みの
    自乗和を正規化係数倍した項を付加して、学習目的関数
    を設定する学習目的関数設定手段と、 2次学習法を用いてニューラルネットの学習を行う学習
    手段とを有することを特徴とするニューラルネットの学
    習装置。
  27. 【請求項27】 前記学習目的関数設定手段は、 前記正規化係数を決定する際に、交差検証法を用いる正
    規化係数決定手段を含む請求項26記載のニューラルネ
    ットの学習装置。
  28. 【請求項28】 前記学習手段は、 準ニュートン法に基づいて、該準ニュートン法の探索方
    向を、ユーザにより定義された局部性パラメータに比例
    した記憶容量で計算する探索方向計算手段と、 前記準ニュートン法の探索幅を、該探索幅に対する勾配
    (1次微分)と曲率(2次微分)からなる学習目的関数
    の2次近似式の最小点として求める探索幅計算手段とを
    含む請求項26記載のニューラルネットの学習装置。
  29. 【請求項29】 入力ベクトルと目標出力値からなる事
    例に対して、該入力ベクトルから該目標出力値を出力可
    能とするニューラルネットの学習プログラムを格納した
    記憶媒体であって、 各事例における目標出力値とニューラルネットの出力値
    の自乗誤差の和の項に、該ニューラルネットの結合重み
    の自乗和を正規化係数倍した項を付加して、学習目的関
    数を設定する学習目的関数設定プロセスと、 2次学習法を用いて、前記ニューラルネットの学習を行
    う学習プロセスとを有することを特徴とするニューラル
    ネットの学習プログラムを格納した記憶媒体。
  30. 【請求項30】 前記学習目的関数設定プロセスは、 前記正規化係数を決定する際に、交差検証法を用いる請
    求項29記載のニューラルネットの学習プログラムを格
    納した記憶媒体。
  31. 【請求項31】 前記学習プロセスは、 前記2次学習法として、 準ニュートン法に基づいて、該準ニュートン法の探索方
    向を、ユーザが提示する局部性パラメータに比例した記
    憶容量で計算し、 前記準ニュートン法の探索幅を、該探索幅に対する勾配
    (1次微分)と曲率(2次微分)からなる前記学習目的
    関数の2次近似式の最小点として求める方法を用いる請
    求項30記載のニューラルネットの学習プログラムを格
    納した記憶媒体。
JP9180026A 1996-07-08 1997-07-04 法則発見方法と装置及び法則発見プログラムを格納した記憶媒体、及びニューラルネット学習方法と装置及びニューラルネット学習プログラムを格納した記憶媒体 Pending JPH10134018A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9180026A JPH10134018A (ja) 1996-07-08 1997-07-04 法則発見方法と装置及び法則発見プログラムを格納した記憶媒体、及びニューラルネット学習方法と装置及びニューラルネット学習プログラムを格納した記憶媒体

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP17811396 1996-07-08
JP8-178113 1996-09-06
JP23691596 1996-09-06
JP8-236915 1996-09-06
JP9180026A JPH10134018A (ja) 1996-07-08 1997-07-04 法則発見方法と装置及び法則発見プログラムを格納した記憶媒体、及びニューラルネット学習方法と装置及びニューラルネット学習プログラムを格納した記憶媒体

Publications (1)

Publication Number Publication Date
JPH10134018A true JPH10134018A (ja) 1998-05-22

Family

ID=27324526

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9180026A Pending JPH10134018A (ja) 1996-07-08 1997-07-04 法則発見方法と装置及び法則発見プログラムを格納した記憶媒体、及びニューラルネット学習方法と装置及びニューラルネット学習プログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JPH10134018A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000047704A (ja) * 1998-07-28 2000-02-18 Mitsubishi Heavy Ind Ltd 基体及びプラントの最適制御装置およびそれに用いられる最適化方法
WO2011074369A1 (ja) * 2009-12-18 2011-06-23 インターナショナル・ビジネス・マシーンズ・コーポレーション コスト評価システム、方法及びプログラム
JP2019159670A (ja) * 2018-03-12 2019-09-19 株式会社東芝 固定小数点を用いて認識処理を行う多層の畳み込みニューラルネットワーク回路を実現する演算処理装置
CN110531955A (zh) * 2018-05-23 2019-12-03 倍加科技股份有限公司 用在深度神经网络的指数运算方法、计算机装置、记录介质
WO2023012863A1 (ja) * 2021-08-02 2023-02-09 富美男 大庭 ニューラルネットワーク演算方法及びデータ分類システム
WO2023233858A1 (ja) * 2022-06-01 2023-12-07 株式会社日立製作所 ニューラルネットワークの計算装置及び計算方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000047704A (ja) * 1998-07-28 2000-02-18 Mitsubishi Heavy Ind Ltd 基体及びプラントの最適制御装置およびそれに用いられる最適化方法
US8682633B2 (en) 2009-12-18 2014-03-25 International Business Machines Corporation Cost evaluation and prediction
GB2487701A (en) * 2009-12-18 2012-08-01 Ibm Cost evaluation system, method and program
GB2487701B (en) * 2009-12-18 2013-01-16 Ibm Cost evaluation system, method and program
JPWO2011074369A1 (ja) * 2009-12-18 2013-04-25 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation コスト評価システム、方法及びプログラム
US8600721B2 (en) 2009-12-18 2013-12-03 International Business Machines Corporation Cost evaluation and prediction
WO2011074369A1 (ja) * 2009-12-18 2011-06-23 インターナショナル・ビジネス・マシーンズ・コーポレーション コスト評価システム、方法及びプログラム
JP5651129B2 (ja) * 2009-12-18 2015-01-07 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation コスト評価システム、方法及びプログラム
JP2019159670A (ja) * 2018-03-12 2019-09-19 株式会社東芝 固定小数点を用いて認識処理を行う多層の畳み込みニューラルネットワーク回路を実現する演算処理装置
CN110531955A (zh) * 2018-05-23 2019-12-03 倍加科技股份有限公司 用在深度神经网络的指数运算方法、计算机装置、记录介质
CN110531955B (zh) * 2018-05-23 2023-10-10 倍加科技股份有限公司 用在深度神经网络的指数运算方法、计算机装置、记录介质
WO2023012863A1 (ja) * 2021-08-02 2023-02-09 富美男 大庭 ニューラルネットワーク演算方法及びデータ分類システム
WO2023233858A1 (ja) * 2022-06-01 2023-12-07 株式会社日立製作所 ニューラルネットワークの計算装置及び計算方法

Similar Documents

Publication Publication Date Title
Yang et al. Feed-forward neural network training using sparse representation
CN106600059B (zh) 基于改进rbf神经网络的智能电网短期负荷预测方法
Dash et al. Efficient stock price prediction using a self evolving recurrent neuro-fuzzy inference system optimized through a modified differential harmony search technique
Yin et al. A classification algorithm based on ensemble feature selections for imbalanced-class dataset
Dai et al. An improved radial basis function network for structural reliability analysis
Luo et al. Kriging model based many-objective optimization with efficient calculation of expected hypervolume improvement
Kubota et al. Temporal information processing induced by quantum noise
CN114580747A (zh) 基于数据相关性和模糊系统的异常数据预测方法及系统
Sarafian et al. Explicit Gradient Learning for Black-Box Optimization.
Zhang et al. On the convergence and sample complexity analysis of deep q-networks with $\epsilon $-greedy exploration
Liu et al. Prediction guided meta-learning for multi-objective reinforcement learning
Chen et al. Learning to plan via neural exploration-exploitation trees
JPH10134018A (ja) 法則発見方法と装置及び法則発見プログラムを格納した記憶媒体、及びニューラルネット学習方法と装置及びニューラルネット学習プログラムを格納した記憶媒体
Fischer et al. A global search procedure for parameter estimation in neural spatial interaction modelling
Ding et al. Gradient-based meta-learning using uncertainty to weigh loss for few-shot learning
Jodpimai et al. Ensemble effort estimation using selection and genetic algorithms
Zheng et al. Data-driven optimization based on random forest surrogate
Zhang et al. Generalized maximum correntropy-based echo state network for robust nonlinear system identification
Jomaa et al. Hyperparameter optimization with differentiable metafeatures
Rigoni et al. Metamodels for fast multi-objective optimization: trading off global exploration and local exploitation
Sujamol et al. A genetically optimized method for weight updating in fuzzy cognitive maps
Guzman et al. Adaptive model predictive control by learning classifiers
JP2007018530A (ja) 忘却型ヒストグラム計算装置及びそれを用いた外れ値度計算装置
Lima et al. Downscaling temperature and precipitation using support vector regression with evolutionary strategy
Manchala et al. Ensembling teaching-learning-based optimization algorithm with analogy-based estimation to predict software development effort

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040726

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040726