JPH10504667A - 人工的ニューラルネットワークのための有効領域を決定する方法 - Google Patents
人工的ニューラルネットワークのための有効領域を決定する方法Info
- Publication number
- JPH10504667A JPH10504667A JP8507696A JP50769696A JPH10504667A JP H10504667 A JPH10504667 A JP H10504667A JP 8507696 A JP8507696 A JP 8507696A JP 50769696 A JP50769696 A JP 50769696A JP H10504667 A JPH10504667 A JP H10504667A
- Authority
- JP
- Japan
- Prior art keywords
- data
- network
- effective area
- training data
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Feedback Control In General (AREA)
- Complex Calculations (AREA)
Abstract
(57)【要約】
例えば工業プロセスでの多数の非線形関係は、不充分にしか解析的に表現できない。しかしニューラルネットワークを用い測定データに基づく経験的モデリングは経済的に適切である。この場合、学習データの分布は重要な問題である、何故ならば技術的プロセスを完全に測定することはしばしば不可能であるからである。その結果、ニューラルネットワークによる経験的モデリングは、部分領域に対してしか有効でないプロセスモデルしか提供しない。このモデルの有効領域は、データの有効領域への所属を示す連続的な関数を用いて表現される。
Description
【発明の詳細な説明】
人工的ニューラルネットワークの
ための有効領域を決定する方法
例えば工業プロセス等での多数の非線形関係は解析的に、すなわち数学的に閉
じた形では不充分にしか表わせない。詳細なプロセスモデルの開発のためのコス
トは大きすぎ、多くの場合、小さい製造バッチとプロセスドリフトとに起因して
適切に実施できない。しかし測定データに基づく経験的モデリングは経済的に実
現可能である。
このために、モデリングするシステムは測定により把握される。次いで測定値
に基づいて経験的方法でモデルを形成できる。これを実現するためには、例えば
多次元非線形関係を良好に近似できるニューラルネットワークが適切である。従
って経験的モデリングは、プログラミング又は規則及び式を立てることによって
ではなく、測定データに基づく自動的学習アルゴリズムによって行われる。
工業的適用の領域内では学習データの分布は重要な問題である、何故ならば工
業プロセスを完全に測定することは不可能であるからである、何故ならば例えば
、
− 装置への適用可能性が保証されなければならない
、すなわち連続作動からの測定データのみが使用可能であり、
− プロセスが非常に大きい時定数(数時間)を有し、学習データを生成するた
めにある特定のテスト時間しか使用可能でない、又は
− プロセスを作動してはならない禁止領域が存在するからである。
その結果、経験的モデリング又はシステム識別のためには、可能な作動状態の
部分空間からの部分的データしか使用できない、従って(例えばニューラルネッ
トワークによる)経験的モデリングは、この部分領域に対してのみ有効なプロセ
スモデルを提供する。
しかし作動時には場合によっては、学習データの中に記録されていないプロセ
ス状態が発生する。安全性の理由から、このような入力組合せを認識して、適切
な変更されたストラテジによりプロセスを引き続き確実に管理することが必要で
ある。技術的問題として第一に(例えばイエス/ノー決定の形の)有効領域の検
出が発生し、第二に、有効領域を離れる際の”ソフト”な重なりストラテジの開
発が発生する。ネットワーク設計及び訓練の際の付加的措置無しに、測定データ
外でのネットワーク特性はわからない。
経験的モデリングの多数の適用(及び非常に一般的にニューラルネットワーク
の適用)の基礎となる前提は、学習データは、後でモデルの使用の際に生ずるデ
ータと正確に同一に分布されていることにある。この前提の下では、データ空間
全体のある特定の部分空間に制限されている学習データも問題が無い、何故なら
ば作動中にはこのようなデータしか生じないからである。
部分的(又はより良好には:部分的表現可能な)データの問題の1つの解決法
は、1つの式に基づく付加的な訓練データの生成である[RH92]。この方法
は主に3つの欠点を有する、第一にモデルの複雑性が増加する。第二に学習デー
タの領域内で経験的データと解折的データとの間の平均化が発生する。第三に安
全性要求のために、経験的に把握されたプロセス状態の到達範囲内に位置するの
か位置しないのかを表わす出力が使用可能でない。
前述の問題は、プロセス制御外の技術のその他の工業分野でも発生する。
本発明の課題は前述の問題を除去する、人工的ニューラルネットワークのため
の有効領域を決定する方法を提供することにある。
上記課題は本発明により請求項1の特徴部分に記載の特徴を有する人工的ニュ
ーラルネットワークのための有効領域を決定する方法により解決される。これを
実現するために、ネットワークパラメータを求めるために使用される訓練データ
の密度は、適切に選択された数のガウス関数の線形重なりを用いて近似される。
この場合、平均値ベクトル及び共分散行列は訓練データセットが、それぞれ1つ
の平均値ベクトルが割当てられている部分データセットに分割されるように求め
られる。その際、それぞれの部分データセットの訓練データは、その他の平均値
ベクトルのうちのいずれよりも、この部分データセットに割当られている平均値
ベクトルの近く位置している。次いで共分散はガウス関数の線形重なりが、訓練
データの適切に選択された大きさに対して所定値に到達するようにスケール化さ
れる。最後に、訓練データ空間の1つの点が、この点のためのガウス関数の線形
重なりが所定値に到達すると、人工的ニューラルネットワークの有効領域に所属
するものと見なされる。
ニューラルネットワークの有効領域の知識は、この有効領域を離れると適用に
依存して異なる方法で処理するために使用される。これらの異なる方法の1つの
共通点は、例えば置換式(代替式)の形の置換関数(デフォルト関数)が、人工
的ニューラルネットワークをその有効領域外で置換するために必要とされること
にある。このような置換式は例えば、最適ではないがそれでも使用可能な結果を
もたらす、所望のシステム特性の粗予測又は近似であることもある。その他の場
合、置換式は所望のシステム特性のための近似ではなく、使用のためには生産的
ではないがその代わりに、置換式を使用することにより危険状態を効果的に確実
に回避するその他のシステム特性であることもある。
具体的であり個々の場合の適用に依存して異なるストラテジのいずれかが有利
である。
第一に、置換関数を用いて付加的な訓練データを生成し、ネットワークをこれ
らの訓練データにより訓練することが可能である。経験的モデルと置換関数との
間の平均化を回避するために、これらの付加的な訓練データを有効領域の外部で
のみ生成すると有利である。
第二の方法は、置換関数とニューラルネットワークとの間を補間することにあ
る。この場合、置換関数及びニューラルネットワークの、それぞれの点における
ネットワークの有効度により与えられる係数により重み付けされた平均が使用さ
れる。この場合、置換関数は有効領域内では有利には零により重み付けされる。
第三の方法はネットワークに、測定データと置換関数の値との間の差を学習さ
せることにある。この場合、測定データの外部ではネットワークは値零を出力す
る。ネットワークを使用する場合、置換関数の値にネットワークの出力値が加算
される。第二の方法におけると同様にこの場合にも、測定データ領域の外部で零
特性を保証する付加データが使用される。この方法は、有効領域の外部の遠くの
位置では零を出力する経験的モデル例えばラディアル基底関数ネットワークにと
りわけ適する。すなわちこの場合、置換関数をモデリ
ングするために、第二の方法と異なり付加的なリソースは不要である。
図1は本発明の方法を説明するのに用いられる非常に簡単化された1つの例の
略線図、図2は入力空間全体の中に10個の隠れニューロンと付加的なデフォル
ト特性を有する多層パーセプトロンによる近似を示す略線図である。
次に本発明を実施の形態に基づき図を用いて詳細に説明する。
工業のプロセスでの多くの非線形関係は、解析的な形、すなわち数学的に閉じ
た形では不充分にしか説明できない。精細なプロセスモデルの開発のためのコス
トは余りにも大きく、その開発努力は多くの場合、小さい製造バッチとプロセス
ドリフトとに起因して報われない。しかし経済的に適切と思われるものに、測定
データに基づく経験的なモデリングがある。
この場合、ニューラルネットワークの使用が提案され、多次元で非線形の関係
を近似するニューラルネットワークの能力は多数の研究で証明されている。モデ
リングはニューラルネットワークではプログラミング又は規則及び式の設定によ
って行われるのではなく、測定データに基づく自動的な学習アルゴリズムにより
行われる。
しかし工業プロセスへの適用では、測定データの収集及び安全性要求の観点か
らの学習データの品質の問
題が生ずる。通常は測定データはニューラルネットワークの入力空間の部分領域
の中にのみ存在する。従ってニューラルネットワークによる経験的モデリングは
、この部分領域に対してのみ有効なプロセスモデルを提供する。ネットワーク設
計及び訓練の際の付加措置無しには測定データ外でのネットワーク特性はわから
ない。
しかし動作中に場合によっては、学習データの中に収集されていないプロセス
状態が発生する。従って安全性の理由から、このような入力組合せを認識するこ
と及び/又はネットワークが測定データ外でも所定の使用可能である応答をする
ことを保証する必要がある。
この特許出願では、部分的に表現可能な訓練データにより訓練されるニューラ
ルネットワークの有効領域を求める方法が開示される。この有効領域に関する知
識は、学習データが不完全にもかかわらず入力領域全体にわたりネットワークか
ら所定の出力を得るために利用できる。本発明の方法は工業のプロセス技術の範
囲外でも利用可能であるにもかかわらず、本発明の方法を、次のように特徴づけ
ることができるプロセス技術に適用して詳しく説明する。
− 安全の理由から、規定された使用可能なネットワーク特性が、測定データが
存在しない入力領域内においても保証されなければならない。
− 使用可能な計算機能力と、自動化システムの制限されているメモリ場所とが
、小さいネットワークの中でのコンパクトな表現を要求する。
− 制御技術的用途が、できるだけ少数の変曲点を有する”滑らかな”近似を要
求する。
− 効率的な学習方法は有利であり、たとえ品質のためにコストをかけても有利
である。
測定データ外で規定された特性を強制するために補外の要求は明らかに事前知
識として訓練フェーズ及び/又は適用フェーズ(リコールフェーズ)に導入され
なければならない。この事前知識が存在する形態に依存して、部分的な学習デー
タセットの問題のための種々の解決法が提案される。
入力と出力との間の機能的関係の構造がグローバルに(すなわち測定データ外
でも)僅かなパラメータを除いては既知である場合、グローバルに正しい特性が
、特別なネットワーク構造により達成できる。
粗な近似が入力空間全体にわたり例えば式又は規則セットとして存在する場合
、測定データに、付加的であり式から生成されたデータを混合できる。これによ
り、測定データ外でネットワークは式データのみを学習し、従って式を補外に利
用し、これに対してネットワークは測定データの領域内では式の事前知識とデー
タとの間の平均を学習する。
とりわけ、本発明のこの説明は、ある特定のデフォ
ルト特性が、表現されていない入力空間の中で保証され、これに対して測定デー
タ領域内では測定データに基づいてのみ近似される場合を考慮している。従って
測定データの有効領域内での平均化は、明らかに望ましくない。この場合、まず
初めに入力空間が、クラスタ法により、訓練データを有する領域と訓練データ無
しの領域とに分割されなければならない。次いでクラスタ情報を用いて測定デー
タのためのメンバーシップ関数が設定できる。
これにより、ネットワーク応答及び所望のデフォルト特性を、メンバーシップ
関数を考慮して種々の方法で組合せることができる。一方では、メンバーシップ
関数とモデル関数との分離によりより正確な近似が得られるが、しかし他方、組
合せられた方法により、許容可能な結果も、低減された計算コストで可能である
。
本発明の方法を説明するために、課題と上述のネットワークタイプとを更に具
体化し、必要な限りにおいて、本発明の方法を説明するのに必要な表記法を導入
する。
この出願の範囲内で本発明の説明を簡単化するために、一般性を制限せずにす
べての入力及び出力を領域[−1...1]と平均値0とにスケール化し、これ
は場合に応じて、前もって測定データ誤差及び外れ値を除去した後に行われる。
更に本発明の方法は、分か
り易いように対角共分散行列の場合について説明される。しかし当業者は、本発
明を、この説明に基づいて非対角共分散行列に一般化できることを知っている。
従って部分的学習の問題は次のように定義できる。
入力x∈D⊆[−1,1]n及び出力y∈[−1,1]mを有する測定データセ
ットが与えられていると仮定する。測定データの中で表現されている入力領域D
は明示的に既知ではないが、しかし暗黙的にこれらの測定データにより定められ
ている。更に、置換関数の形の所望のデフォルト特性(デフォルト関数)がf:
[−1,1]n→[−1,1]mにより与えられていると仮定する。部分的学習の
目標は、測定データ領域内でデータを表し測定データ領域外でデフォルト特性(
すなわちデフォルト関数の特性)を示す近似関数NNを見つけることにある。
既に課題の定義から、部分的学習の重要な課題は、入力領域Dの適切な表現を
見つけることにあることが明かである。このための基礎として、重み付けされた
ユークリッド距離の距離尺度として次式が使用される。
メンバーシップ関数として、中心μ及び重みs=σ-1を有するkガウス分布(
ガウス関数)が次式により重畳される。
中心の近傍のデータ点は大きいグレード値を有する。中心と中心との間の距離
が増加するにつれてグレードは指数関数的に0に近づく。その際、個々のガウス
分布は軸に平行な楕円を定める。このメンバーシップ関数は連続的に微分可能で
あり、付加的な正規化により密度関数として解釈できる。
スケール化係数exp(0.5)により、少なくとも1つの中心に対する重み
付け距離が1より小さいデータ点、すなわち次式が成立つデータ点がグレードD
(x)≧1を有することが達成される。少なくとも1つのiに対して、
この正規化は次の説明を簡単化する。
メンバーシップ関数に基づいて3つの定義関数χDを、D(x)≧1のデータ
点xが測定領域に所属しD(x)≦εのデータ点xが明確に外部に位置する特性
を有するDに対して次式により定めることができる。
メンバーシップ関数D(x)はニューラルネットワークに関連して使用される
。これを実現するために特
に3つのネットワークタイプにおいてとりわけ適する、すなわち多層パーセプト
ロン(MLP)、ラディアル基底関数ネットワーク(RBF)、正規化ラディア
ル基底関数ネットワーク(RBFI)である。ネットワークは次式により定めら
れ、ただし簡単化のために一般性を制限することなしにただ1つの出力が存在す
ると仮定されている。
従ってメンバーシップ関数D(x)は直接的にRBFタイプのニューラルネッ
トワークを用いて計算でき、これにより、本発明の方法を実施するために必要な
ソフトウェアを低減できる。
本発明の方法は、非常に簡単な2次元の例によりとりわけ良く説明でき、この
例ではデータは主対角線にかつ第1象限の中に位置する(図1c参照)。データ
は式y1=x1 2+x2 2−1により表わされ、置換
関数すなわちデフォルト特性として式y2=|x1|+|x2|−1が前もって与
えられている(図1a,b参照)。データと置換関数との間のこの偏差は典型的
に現われる、何故ならば双方が一致する場合にはニューラルネットワークによる
近似は全く不要であるからである。図1dは次式を用いての近似のグラフィック
表示であり、この場合、訓練データにより訓練されたネットワークと置換関数と
の出力は、メンバーシップ関数に従って重み付けされて平均化される。
明らかにこの式は対角線においてかつ第1象限の中で関数y1を再現し、第2
象限及び第4象限の中で関数y2の中で再現する。
一般的に、ある特定の応用ではネットワーク構造(置換関数)が、事前知識に
基づいて、部分入力空間の中で訓練されたネットワークが構造に起因して自動的
に正しく入力空間全体へ補外するように、制限的に選択されることが有効である
。例えば、パラメータが入力空間の中の任意の個所で学習できる線形の式である
。既知の化学式の中で僅かなパラメータしか識別されない場合も、このカテゴリ
の中にはいる。自由パラメータは通常のように、下降勾配による(二乗)誤差偏
差の最小化により求められる。ある特定の問題において、とりわけ適する式関数
が既知である場合、この式
関数は、構造化されていないネットワーク式より優先すべきである、何故ならば
この式関数により入力空間全体の中でより良好な一般化がなされ、この式関数は
しばしばより簡単に最適化できるからである。しかしニューラルネットワークの
適用は、より具体的なモデルの式により満足な結果が得られないか又は不可能で
ある場合にこそ常に有益である。
いくつかの重要な適用において、関数fにより表されるデフォルト特性は既に
、測定データにより定められている関数のある程度信頼のある近似を表し、しか
も入力空間全体の中でこのような近似を表す。これは典型的には、存在する近似
式をニューラル適応技術により微調整する場合に当てはまる。測定データの領域
Dの中でニューラルネットワークは近似を改善し、これに対して測定データ外で
は既知の式のみが依然として有効である(補外)。
簡単かつ効果的な方法として、ネットワークを、生成された式データと測定デ
ータとの混合により訓練することが提案される[RH92]。これを実現するた
めに式に基づいて入力空間全体の中で付加的に人工的データを、関数fにより与
えられている式に基づいて生成する。このようにして式データは測定データと混
合され、ネットワークは、拡張されたデータセットにより訓練される。混合比に
より、ネットワークは測定データ領域内でデータと式との間の平均化を混合比に
従って学習し、これに対して測定データ外では式知識のみが学習される。
数学的にこの方法は次のように表現される。
ネットワーク訓練において誤差関数は、ペナルティ項式(9)だけ拡張され、
組合せられた誤差関数式(10)は最小化される。第1の項は通常のようにネッ
トワーク出力と測定値との間の偏差にペナルティを課するのに対して、ペナルテ
ィ項はネットワークと式との間の偏差をペナルティを課する。積分をモンテカル
ロ積分を用いて計算する、すなわちランダム数を使用して計算すると、積分計算
は、ランダムに選択された入力点における式データの生成に丁度相当する。この
式は、異なる最適化段階において異なる式データを使用できることを示す[TH
A93]。
図2はグラフィック的に、10個の隠れニューロンを有する多層パーセプトロ
ンを有する近似結果を示し、訓練データに、同一の数であり同一に分布されてい
る式データが入力領域全体の中で添付される。測定データ外ではデフォルト特性
が学習されるのに対して、元の訓練データの領域内では、デフォルト特性と測定
データとの間の予測された平均となる。
この方法の利点は、任意のトポロジーとネットワークタイプとの使用が可能で
あることにある。式も任意の形で、例えばプログラムの形でよい。この式はリコ
ールフェーズにおいて効率的である、何故ならばネットワークのみしか計算せず
にすみ、しかもこの計算はいかなる付加的コストをかけずに可能であるからであ
る。部分的に表現可能なデータの問題は完全に訓練フェーズに移行される。この
利点に対して欠点は、付加的な式の知識がネットワークの大きさとひいては訓練
のコストとに反映されることにある。測定データ外において式で表わすために付
加的なニューロンが必要であり、より多くの学習データが使用される。これによ
り訓練が緩慢かつ複雑になる。しかし、1つの式をデータと組合せるためのその
他の方法に対してデータ混合は、滑らかな近似を可能にする。しばしばネットワ
ークは、式が測定データの滑らかな補外を定める場合にはそれほど大きくはなら
ない。
特別の適用例においてネットワークは初期には、式が正確に再現されるように
構造化されることも可能である。このように良好に初期化されたネットワークは
大幅に迅速に学習する。しかし訓練は依然として式データと測定データとの混合
により行われ、これにより、初期化された式特性からのネットワークのドリフト
を阻止する。
これに関連して最も重要な場合としてTresp[
THA93]によるファジイ・ニューロアプローチがある。この場合、適切な規
則が一義的にRBFIネットワークの中に翻訳される。ネットワークは訓練によ
り精密化(微調整)され、訓練の後、変更された規則を再び抽出できる。従って
この場合、部分的な訓練データの問題は、入力領域全体の中で、有効なエキスパ
ート規則がデフォルト関数として使用されることにより解決される。ネットワー
ク初期化のためにエキスパート規則を使用することの別の1つの利点は、役立つ
初期化により、オンライン適応を有する適用も可能となることにある(自転車運
転者)。残念ながらネットワークタイプとしてRBF1ネットワークのみしか使
用可能でない。
既に説明したデータ混合により測定データの領域内でデフォルト値と測定値と
の間の平均化が行われる。しばしばこれは望ましくない、例えば、既存の不正確
な式が非常に信頼性の高いデータにより精密化される場合、又は、デフォルト処
理が例外処理のためのみにしか可能でない場合には望ましくない。双方の場合、
測定データへの信頼の方が、デフォルト関数への信頼より高い。
部分学習のこの課題のために、以下に説明する2段階の方法がとりわけ適する
。
− まず初めに、クラスタ法により、任意のデータ点に対して測定データ領域に
対するグレードを示すメン
バーシップ関数D(x)が形成される。
− 次いで、メンバーシップ関数と、場合によっては部分的に有効な近似関数と
に基づいて、測定データ領域とデフォルト領域との間の滑らかな移行を形成する
グローバルなモデル関数が形成される。
次にまず初めにクラスタ法を説明する。当業者には、例として説明されるKミ
ーンクラスタリング(K−Means clustering)とも称されるこ
の方法の代りに別のクラスタリング法を使用できることは自明である。この方法
の課題はすべての場合に、式(1)に記載の測定データ領域のためのメンバーシ
ップ関数を定義するクラスタ中心の数kと分散とを求めることにある。
Kミーンクラスタリング[LBG80]は、それぞれのデータ点のそれぞれ次
ぎに位置する中心への距離の和が最小化されるようにkクラスタ中心を定める、
すなわち次式の誤差関数のための最小値が求められる。
Kミーンクラスタリングは反復アルゴリズムである。基本思想は、それぞれの
反復ステップでそれぞれのデータ点を、次ぎに位置する中心に割当て、次いでそ
れぞれの中心μiを、所属のデータ集合Ciの重心にス
ライドすることにある。アルゴリズムは、中心の変化がもはや発生しないと終了
する、すなわち、すべての中心が、クラスタに所属のデータ点の重心に位置する
と終了する。このクラスタリングアルゴリズムを初期化するために中心は、ラン
ダムに選択されたデータ点に置かれる。
Kミーンクラスタリング法は、線形ベクトル量子化とも称され、多くの用途に
おいてデータに使用され、このデータリダクションは、高次元ベクトルが近似的
に、最も近くに位置する中心により表されることにより行われる。アルゴリズム
は勾配法に比して非常に急速に収れんする。中心を求めた後、それぞれのクラス
タに対して分散が次式により近似される。
完全のために、任意の新しいデータ点が第1クラスタの中に所属する事前確率
は、次式により近似されることを述べておく。
式(1)に記載のメンバーシップ関数はs=σ-1により得られる。このために
事前確率は不要である、すなわちすべてのクラスタは同一に重要である。従って
Kミーンクラスタリングにおいてはまず初めに中心が求められ、後に初めて個々
のクラスタの幅が求められ
る。
Kミーンクラスタリングアルゴリズムに対する代替アルゴリズムは、パラメー
タ化された分布密度を予測するEMアルゴリズム又はいわゆる”ソフト”Kミー
ンクラスタアルゴリズムであり、”ソフト”Kミーンクラスタアルゴリズムでは
データの複数の隣接する中心に対する距離が最小化される。
この出願の中に説明されている又は当業者に公知のその他のクラスタリング法
により、データ領域Dを表す方法が得られる。クラスタリングアルゴリズムの値
により定められるメンバーシップ関数D(x)は連続的であり、正の値のみをと
り、データ内で最大となり、データの外部で消失する。
しかし、統計学的分散による幅を求めることは、定義関数としての用途のため
には次の欠点を有する。
− 第一に、分散と、データが分散帯の数倍の中に位置する確率との間の関連は
把握できない。1次元の場合、データの63%が分散帯の中に位置し、96%が
分散帯の2倍の中に位置することが成立つのに対して、この関係は、より高い次
元の中では非常に複雑になる。
− 更に、この関係は数学的に、データがそれぞれのクラスタの中で正常分布し
ている場合にのみ当てはまる。これは勿論、実際の上でしばしばそうでない。
従って、統計的考慮に基づいてメンバーシップの閾
値を、測定データのある特定のパーセントが所属するとして分類されるように、
定めることは有益でないと思われる。しかしこのような設計パラメータは実際の
用途にとっては非常に重要である。これにより、データ領域の表現が保守的すな
わち狭くするかしないかを定める。これは、データにより多くの信頼を置くか、
置換関数により多くの信頼を置くかの質問に相当する。第1の場合、メンバーシ
ップ関数を寛大に予測し、その際、データが非常に良好であり、従って端縁領域
においてネットワーク補外が信頼できるとの思想から導かれる。第2の場合、デ
ータが測定領域の端縁において多分不正確であり、本当に多数のデータが存在す
る個所だけデータを置換関数より信頼できるとの思想に基づいて小さなメンバー
シップ関数を生成する。
従って実際的解決法として、個々のクラスタの幅を分散のみにより定めるので
はなく、データの所定のパーセントに対してメンバーシップ関数が所定閾値を越
えるようにスカラ化することが提案される。一般性を制限することなしにこの閾
値は簡単化のために値1と定めることができる。パーセントは、0.95のプリ
セット値を有する設計パラメータである。
従って、多くの次元と多くのクラスタに一般化する場合重み付けは、次式のメ
ンバーシップ基準が訓練データの95%に対して当てはまるようにスカラ化され
る。
前置係数exp(1/2)の選択によりこれは個々の単一のガウス関数に対し
て、データの95%が変曲点の中に位置するとの条件に相当する。このスケール
化は高次元におけるガウス分布の積分の際の解析的問題を迂回し、ひいては、ガ
ウス分布されている訓練データとの暗黙の仮定を回避する。
適切なスケール化係数は、2進サーチにより求められる。その際、スケール化
はそれぞれのクラスタに対してまず初めに個々に行われ、次いで、重なり関数D
(x)に対して行われる。有利には、クラスタの中に維持される比を有する統計
的分散から出発する。
データを有する領域とデータ無しの領域との間の明瞭な境界は、通常は形成困
難である。従って、次式の領域を移行領域として定めると好適である。
(23) 1>D(x)>ε
この領域内のデータは、確実に所属するとも、確実に所属しないとも分類され
ない。それらのデータの処理は、具体的に存在する用途に依存して異なって、前
後関係を考慮して行われる。εのためのプリセット値として0.5が使用される
。
正規分布の正規化係数及び事前確率による重み付け
無しのガウス関数の和は、密度の使用に比して次のようないくつかの利点を有す
る。
− 我々の適用関係においては、いかなる確率でデータがある特定の個所に存在
するかは一次的に重要ではなく、データが存在するかしないかが一時的に重要で
ある。ガウス分布の正規化係数と事前確率とはこれにより不要となる。
− 和は原理的にソフトな最大値形成のみを保証し、更に、複数のクラスタの間
の領域が端縁データに比してより大きく重み付けされることを保証する。クラス
タがあまり重ならない場合、重み付け無しの和が、最も近くに位置する中心への
距離を[0...1]の中の値を提供する。重なりの際に個々の成分が加算され
る。
− D(x)は領域[0...1]の領域内に位置し、これに対して密度関数に
対してこのようなことは言えない。
当業者は、使用できる専門知識に基づいて、いわゆるKミーンクラスタリング
の代りの代替的方法、例えばいわゆるEMアルゴリズムによる密度予測等を使用
できることを指摘しておく。これの代替として当業者は、いわゆるソフトKミー
ンクラスタリングを使用でき、この場合、複数の隣接する中心へのデータの距離
が最小化される。その他の変形は当業者にとって専門書に基づいて容易に実施で
きる。
本発明の方法を用いて求められたメンバーシップ関数を使用する際に使用者は
種々のオプションに使用できる。第一のオプションではネットワークの出力デー
タが置換関数のデータによりデータ分布に従って平均化される。この場合、2つ
の異なる近似モデルが存在する、すなわちネットワークと置換関数とが存在する
ことが前提となっている。しかし双方のモデルは、種々の部分的には重なる有効
領域を有する。データの領域内では、学習されたモデルを信頼し、これに対して
測定データ外では、置換関数により与えられているモデルが優先される。
一般的に、異なる有効領域を有する異なるモデルf1とf2との組合せは次の
一般式により行われる。
ここで、bi(x)≧0は、データ点xにおけるモデルiへのそれぞれの信頼
を表す。
我々の場合、双方のモデルにニューラル近似モデルNNと置換関数fとが相応
する。ネットワークへの信頼のために直接的に式(1)のメンバーシップ関数D
(x)を使用できる。
相補的領域を表すために次式を定義する。
は、測定データ0の内部にあり、外方へ向かって指数関数的に1に向かって増加
する。近似式として、次式の重み付けされている平均が得られる。
モデル組合せの前述の方法は、とりわけMLPネットワークに適する、すなわ
ち、データ領域内のこのネットワークの滑らかな近似特性を利用するのに適する
。しかしこの方法は原理的にすべてのネットワークタイプに適用可能である。こ
の場合、ネットワークは、置換関数を表現のためのリソースを必要としない。
別の1つの方法は、付加的に生成された置換データ(デフォルトデータ)の思
想を使用する。この場合、置換関数の特性を測定領域の外部のみで形成し、内部
では測定データに基づいて近似するだけである。これは、メンバーシップ関数を
求めた後に付加的なデフォルトデータが測定領域の外部でのみ生成されることに
より達成される。
付加的な置換データ(デフォルトデータ)を生成するためにまず初めに定義関
数χDを前述のように求める。新しい付加的なデフォルトデータ(x,f(x)
)が、測定領域と被覆されていない領域との比で生成される。これを実現するた
めにランダム入力が、(正規化されている)定義領域[−1,1]nの中で生成
される。このようなデータ点が測定データ領域の中に
はいらない場合(χD=0)、このデータ点は訓練集合の中に付加され、このデ
ータ点が内部に位置する場合(χD≠0)、その代わりに測定値が付加される。
不確実領域の中ではデータは生成されない。すべての測定データが取出された場
合、生成は停止される。このようにして測定領域外のデータ密度は、測定領域内
の平均密度に相応する。しかし高い次元の中では測定データは非常に希薄に存在
するので、存在する測定データの最大で2倍のデフォルトが生成される。この方
法も任意のネットワークタイプに適用可能である。形成される近似は移行領域内
でも非常に滑らかである。全空間にわたる近似のために付加的なニューロンを必
要とする。この方法における学習コストは、大きなネットワークと、訓練データ
の数の増加とにより増加する。
まず初めに説明したモデル組合せに対する重要な利点は、部分的学習が完全に
学習フェーズの中に移行されていることにある。適用(リコール)の際、メンバ
ーシップ関数を評価する必要はない。ネットワークはデフォルト特性(置換関数
)の積分のために我々の例ではメンバーシップ関数自身に比してより少数のニュ
ーロンしか必要としないので、適用(リコール)の実行はより迅速である。
しかしより重要な点は、双方の方法のパーフォマンスが、クラスタ数を増加す
ることにより向上できるメ
ンバーシップ関数の品質に大幅に依存することにある。これは、所要計算時間を
増加させる。しかしデータ混合の場合、この計算時間の増加は、データ生成の間
にのみ発生する。従って計算時間の面からは、クラスタリング(データリダクシ
ョン)を放棄し、その代わりに直接的にデータ点をクラスタ中心として使用する
ことができる。
第3の可能な方法は、ラディアル基底関数ネットワークが中心から遠く離れて
自動的に出力0を発生する事実を利用する。従って、所望のデフォルト特性がf
≡0により与えられる場合、RBFネットワークは、デフォルト特性を表わすた
めに付加的なニューロンを必要としないか又は比較的僅かしか必要としない。
所望のデフォルト特性f≡0は、設定問題の簡単な変換により達成できる。測
定データ(x,y)及びデフォルトデータ(x′,f(x′))により訓練する
代わりに、RBFネットワークを訓練データ(x,y−f(x))及び(x′,
0)により訓練する。従ってネットワークはデータ領域内でデータとデフォルト
(置換関数)との間の差を学習し、データ領域の外部では0を学習する。従って
適用(リコール)の場合、ネットワーク出力はデフォルト関数に、次式にしたが
って加算されなければならない。
近似の際にクラスタが測定データ領域から離れドリフトすることを阻止するた
めに、ペナルティー項を加算して、中心と分散とを初期値の近傍に保持すること
も可能である。これを行うと学習は大多数の場合に局所的最小値で終了する。従
って、ネットワークを訓練するために2つの可能な方法が提案される、すなわち
第一に、再びデータ生成法を使用できる。相違点は、RBFネットワークを使用
することと、すべてのデフォルトデータが出力0を発生しなければならないこと
とにある。その際、RBFネットワークをメンバーシップ関数により初期化して
、中心のための好適な初期分布を達成できるが、しかし最適化の後にこのネット
ワークをメンバーシップ関数として使用できない、何故ならば中心及び分散が変
化するからであることに注意すべきである。
第2の方法は、メンバーシップ関数の基底関数を直接的に使用することにある
。出力重みのみが、近似のために新たに求められる。主コストは、基底関数の計
算の際のネットワーク計算にあるので、このアプローチをメンバーシップ関数と
一緒に使用することにより近似を効率的に計算できる。
最適化において中心及び分散のための値が固定保持される。重みを定めること
は、最小自乗回帰計算(最小自乗法)により効率的に行われる。メンバーシップ
関数が次式により与えられていれば、
次式の方程式群を近似的に解かなければならない。
これにより得られるネットワークは次の特性を有する。
− 出力重みexp(1/2)によりこのネットワークは定義関数として用いら
れる。
− 回帰の出力重みWによりネットワークは測定データ又は測定データと置換関
数との差を近似する。
後で解決すべき近似問題を既にメンバーシップ関数において解決するために、
クラスタリングは入力データと出力データとの積空間の中で行われる。入力次元
のための中心のみが後でメンバーシップ関数のために使用される。
この特許出願において次の文献を引用した。
[LBG80]Y.Linde,A.buzo and R.M.Gray,An Algorithm for Vector Q
uantizer Design,IEEE Transactions on Communications,Vol.COM-28,No.1
,1980;
[RH92]M.Roescheisen,H.Hoffmann and V.Tresp,Neural control for
rolling mills: incorporating domain theories
to overcome data deficiency.In J.Moody et al.(Eds.),NIPS 4,Morgan K
aufmann,1992;
[THA93]V.Tresp,J.Hollatz and S.Ahmed,Network structuring and
training using rule-based knowledge.In S.J.Hanson et al.(Eds),NIPS
V,Morgan Kaufmann,1993;
【手続補正書】特許法第184条の8第1項
【提出日】1996年7月2日
【補正内容】
前述の問題は、プロセス制御外の技術のその他の工業分野でも発生する。
PCTのWO94/12948号公報からニューラルネットワークの有効領域
を決定するシステムが公知である。システムは、ニューラルネットワークの初期
値を使用すべきか、変更すべきか又は置換すべきかを確認する。システムは、そ
れぞれクラスタのための訓練データセットのためのクラスタリング法を実行した
後に、ガウス関数を有する局所的メンバーシップ関数を与える方法に従って動作
する。しかしこの局所的メンバーシップ関数においてはそれぞれのクラスタの訓
練データの統計的分散のみが考慮される。更にこの方法では、統計的分散に依存
して、局所的メンバーシップ関数のための、固定の急変した閾値が決定される。
この方法は多数の欠点を有する。第一にこの方法では暗黙に、クラスタの中の
すべての訓練データがすべて正常に分散されていることが前提にされている。し
かしこの前提は通常は現実的でない。更にこの方法は多次元ガウス関数において
は実行するのに非常なコストがかかる。
本発明の課題は前述の問題を除去する、人工的ニューラルネットワークのため
の有効領域を決定する方法を提供することにある。
上記課題は本発明により請求項1の特徴部分に記載の特徴を有する人工的ニュ
ーラルネットワークのため
の有効領域を決定する方法により解決される。これを実現するために、ネットワ
ークパラメータを求めるために使用される訓練データの密度は、適切に選択され
た数のガウス関数の線形重なりを用いて近似される。この場合、平均値ベクトル
及び共分散行列は訓練データセットが、それぞれ1つの平均値ベクトルが割当て
られている部分データセットに分割されるように求められる。その際、それぞれ
の部分データセットの訓練データは、その他の平均値ベクトルのうちのいずれよ
りも、この部分データセットに割当られている平均値ベクトルの近く位置してい
る。次いで共分散はガウス関数の線形重なりが、訓練データの適切に選択された
大きさに対して所定値に到達するようにスケール化される。最後に、訓練データ
空間の1つの点が、この点のためのガウス関数の線形重なりが所定値に到達する
と、人工的ニューラルネットワークの有効領域に所属するものと見なされる。
請求の範囲
1.ネットワークパラメータを、ネットワークがd次元訓練データ空間の中の
訓練データの1つのセットを表すように設定している、人工的ニューラルネット
ワークのための有効領域を決定する方法において、
a)クラスタリング法を実行し、適切に選択した数Kの平均値ベクトルと適切に
選択した数Kの共分散行列とを、前記訓練データセットが、それぞれ1つの平均
値ベクトルが割当てられるK個の部分データセットに分割されるように求め、
b)訓練データの密度Dを、適切に選択した数Kのd次元ガウス関数の線形重な
りを用いて近似し、
c)次いで前記共分散行列を、訓練データの適切に選択した部分に対してメンバ
シップ関数D(x)が所定値に到達するようにスケール化し、前記メンバーシッ
プ関数D(x)は平均値ベクトルに対する点xのグレードを示し、
d)訓練データ空間の点xを、前記メンバーシップ関数D(x)が前記所定値に
到達する場合、前記人工的ニューラルネットワークの有効領域に所属するとみな
すことを特徴とする人工的ニューラルネットワークのための有効領域を決定する
方法。
2.置換関数を用いて付加的な訓練データを、有効領域の外部で生成し、ニュ
ーラルネットワークの訓練
のために使用することを特徴とする人工的ニューラルネットワークのための請求
項1に記載の方法により決定した有効領域の適用方法。
3.1つの置換関数の、それぞれの点におけるメンバーシップ関数D(x)に
より与えられている係数を有する値と、ニューラルネットワークの、それぞれの
点におけるメンバーシップ関数D(x)により与えられている係数を有する値と
の重み付けされた平均値を求めることを特徴とする人工的ニューラルネットワー
クのための請求項1に記載の方法により決定した有効領域の適用方法。
4.ネットワークが測定データと1つの置換関数の値との差を学習し、ネット
ワークが有効領域の外部で値0を出力することを特徴とする人工的ニューラルネ
ットワークのための請求項1に記載の方法により決定した有効領域の適用方法。
Claims (1)
- 【特許請求の範囲】 1.ネットワークパラメータを、ネットワークがd次元訓練データ空間の中の 訓練データの1つのセットを表すように設定している、人工的ニューラルネット ワークのための有効領域を決定する方法において、 a)訓練データの密度Dを、適切に選択した数Kのd次元ガウス関数の線形重な りを用いて近似し、 b)Kの平均値ベクトルとKの共分散行列とを、前記訓練データセットが、それ ぞれ1つの平均値ベクトルが割当てられるK個の部分データセットに分割される ように求め、それぞれの部分データセットの訓練データは、その他の平均値ベク トルのうちのいずれよりも、この部分データセットに割当られている平均値ベク トルの近く位置しており、 c)次いで前記共分散を、訓練データの適切に選択した部分に対してDが所定値 に到達するようにスケール化し、 d)訓練データ空間の点xを、D(x)が前記所定値に到達する場合、前記人工 的ニューラルネットワークの有効領域に所属するとみなすことを特徴とする人工 的ニューラルネットワークのための有効領域を決定する方法。 2.置換関数を用いて付加的な訓練データを、有効領域の外部で生成し、ニュ ーラルネットワークの訓練 のために使用することを特徴とする人工的ニューラルネットワークのための請求 項1に記載の方法により決定した有効領域の適用方法。 3.1つの置換関数の、それぞれの点におけるネットワークの有効度により与 えられている係数を有する値と、ニューラルネットワークの、それぞれの点にお けるネットワークの有効度により与えられている係数を有する値との重み付けさ れた平均値を求めることを特徴とする人工的ニューラルネットワークのための請 求項1に記載の方法により決定した有効領域の適用方法。 4.ネットワークが測定データと1つの置換関数の値との差を学習し、ネット ワークが有効領域の外部で値0を出力することを特徴とする人工的ニューラルネ ットワークのための請求項1に記載の方法により決定した有効領域の適用方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4430024 | 1994-08-24 | ||
DE4430024.7 | 1994-08-24 | ||
PCT/DE1995/001090 WO1996006400A1 (de) | 1994-08-24 | 1995-08-17 | Verfahren zur festlegung des gültigkeitsbereichs für ein künstliches neuronales netzwerk |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH10504667A true JPH10504667A (ja) | 1998-05-06 |
Family
ID=6526450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8507696A Pending JPH10504667A (ja) | 1994-08-24 | 1995-08-17 | 人工的ニューラルネットワークのための有効領域を決定する方法 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP0777881B1 (ja) |
JP (1) | JPH10504667A (ja) |
DE (1) | DE59502359D1 (ja) |
WO (1) | WO1996006400A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005525650A (ja) * | 2002-05-15 | 2005-08-25 | キャタピラー インコーポレイテッド | 目標システムの実行を制御するための方法 |
JP2011060290A (ja) * | 2009-09-09 | 2011-03-24 | Siemens Ag | 技術システムの制御および/または調整をコンピュータ支援により学習する方法 |
CN109643394A (zh) * | 2016-09-07 | 2019-04-16 | 罗伯特·博世有限公司 | 用于计算rbf模型的偏导数的模型计算单元和控制设备 |
CN109661673A (zh) * | 2016-09-07 | 2019-04-19 | 罗伯特·博世有限公司 | 用于计算rbf模型的模型计算单元和控制设备 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102006021427B4 (de) * | 2006-05-05 | 2008-01-17 | Giesecke & Devrient Gmbh | Verfahren und Vorrichtung zum Personalisieren von Karten |
EP2246755A1 (de) * | 2009-04-22 | 2010-11-03 | Powitec Intelligent Technologies GmbH | Regelkreis |
DE102021211562A1 (de) | 2021-10-13 | 2023-04-13 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren zum Ermitteln von Freigabebedingungen für eine Funktion |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE240557T1 (de) * | 1992-11-24 | 2003-05-15 | Pavilion Tech Inc | Betreiben eines neuronalen netzwerks mit fehlenden und/oder inkompletten daten |
-
1995
- 1995-08-17 DE DE59502359T patent/DE59502359D1/de not_active Expired - Fee Related
- 1995-08-17 EP EP95928440A patent/EP0777881B1/de not_active Expired - Lifetime
- 1995-08-17 JP JP8507696A patent/JPH10504667A/ja active Pending
- 1995-08-17 WO PCT/DE1995/001090 patent/WO1996006400A1/de active IP Right Grant
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005525650A (ja) * | 2002-05-15 | 2005-08-25 | キャタピラー インコーポレイテッド | 目標システムの実行を制御するための方法 |
JP2011060290A (ja) * | 2009-09-09 | 2011-03-24 | Siemens Ag | 技術システムの制御および/または調整をコンピュータ支援により学習する方法 |
CN109643394A (zh) * | 2016-09-07 | 2019-04-16 | 罗伯特·博世有限公司 | 用于计算rbf模型的偏导数的模型计算单元和控制设备 |
CN109661673A (zh) * | 2016-09-07 | 2019-04-19 | 罗伯特·博世有限公司 | 用于计算rbf模型的模型计算单元和控制设备 |
JP2019526877A (ja) * | 2016-09-07 | 2019-09-19 | ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツングRobert Bosch Gmbh | Rbfモデルを計算するためのモデル計算ユニット及び制御装置 |
US11645502B2 (en) | 2016-09-07 | 2023-05-09 | Robert Bosch Gmbh | Model calculation unit and control unit for calculating an RBF model |
Also Published As
Publication number | Publication date |
---|---|
EP0777881B1 (de) | 1998-05-27 |
DE59502359D1 (de) | 1998-07-02 |
EP0777881A1 (de) | 1997-06-11 |
WO1996006400A1 (de) | 1996-02-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kwilinski et al. | TRANSPARENT COGNITIVE TECHNOLOGIES TO ENSURE SUSTAINABLE SOCIETY DEVELOPMENT. | |
Jun et al. | Positive and negative fuzzy rule system, extreme learning machine and image classification | |
Yu et al. | Particle classification optimization-based BP network for telecommunication customer churn prediction | |
Beniwal et al. | Classification and feature selection techniques in data mining | |
Hoffmann et al. | Inferring descriptive and approximate fuzzy rules for credit scoring using evolutionary algorithms | |
Theodoridis et al. | Pattern recognition and neural networks | |
Solesvik et al. | Fuzzy decision support systems in marine practice | |
Zelenkov | Example-dependent cost-sensitive adaptive boosting | |
Maldonado et al. | IOWA-SVM: A density-based weighting strategy for SVM classification via OWA operators | |
Mohamed et al. | Impact of corporate performance on stock price predictions in the UAE markets: Neuro‐fuzzy model | |
Luna et al. | Adaptive fuzzy system to forecast financial time series volatility | |
Petrovic et al. | Forecasting bitcoin price by tuned long short term memory model | |
Mohapatra et al. | Financial time series prediction using distributed machine learning techniques | |
CN114511063A (zh) | 电力数据预测模型构建方法、装置、设备、介质及程序 | |
Suresh et al. | An integrated approach using IF-TOPSIS, fuzzy DEMATEL, and enhanced CSA optimized ANFIS for software risk prediction | |
Maximov et al. | Multi-valued neural networks I: a multi-valued associative memory | |
JPH10504667A (ja) | 人工的ニューラルネットワークのための有効領域を決定する方法 | |
Deng | Using case-based reasoning approach to the support of ill-structured decisions | |
Gavrylenko et al. | Construction Method Of Fuzzy Decision Trees For Identification The Computer System State | |
Hong et al. | Modeling for energy demand forecasting | |
Pamudurthy et al. | Local density estimation based clustering | |
Yaakob et al. | A hybrid intelligent algorithm for solving the bilevel programming models | |
Shieh et al. | A robust fuzzy CMAC for function approximation | |
Sakai et al. | Rule generation from several types of table data sets and its application: decision-Making with transparency and an improved execution environment | |
Yu et al. | Automatic structure identification of TSK fuzzy model for stock index forecasting |