JPH07502357A

JPH07502357A - 高速で収束する射影ニューラル・ネットワーク

Info

Publication number: JPH07502357A
Application number: JP5511618A
Authority: JP
Inventors: マヌキアン，ナービク; ウィレンスキー，グレッグ・ディー
Original assignee: アール・アンド・ディー・アソシエイツ
Priority date: 1991-12-27
Filing date: 1992-09-30
Publication date: 1995-03-09
Also published as: WO1993013487A1; AU2869292A; EP0619901A1; EP0619901A4; US5276771A

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】高速で収束する　影ニューラル・ネットワーク伎街分団本発明は、ニューラル・ネットワークのためのシステム及び方法であって、入カバターンないし入力関数を表わす成分の数を意図的に増加させて、その入カバターンないし入力関数をより高い次元の正規化空間への射影によって表わし且つ評価するようにしたシステム及び方法に関する。

光肌Ｑ茸量例えば音声認識、手書き文字認識、ロボット制御、関数当て嵌め等々の、多数のクラスを有する問題は、従来の計算処理方法では解くことが困難であったり、解けないままであったりしていた。しかしながら、この種の問題はパターン分類問題または最適化問題の形に帰着させることができ、パターン分類問題や最適化問題は、ニューラル・ネットワークを用いた方法によって解くことができるものと期待されている。

ニューラル・ネットワークは、コンピュータないしプロセッサの構造の一種であり、相互に結合した複数の「ノード」即ち「ニューロン」で構成された複数層の系の中でデータが処理されるという点において、人間の脳の構造を模したものであり、各々のノードは、複数のメモリセルから成る１つのメモリセル集合としても良く、或いは更に、複数の個別のプロセッサから成る１つのプロセッサ群としても良い。

−ＩＩ的なコンピュータは、どのようなものであれ、完全な非適合方式でプログラムされているため、データの入力ストリームの中に存在するパターン即ち共通構造を認識する能力は、そのコンピュータのプログラムが、どれほど広範に、どれほど詳細に、そしてどれほど予測的に書かれているかということだけによって決まってしまう。これに対して、ニューラル・ネットワークは、最初は、各々がバイアスをかけられている相互に結合した複数のノードが存在しているだけであり、「学習」の実行を通してみずからのプログラムを発展させて行く。学習を行なわせるには、通常、既知の値を有する多数の学習パターンをネットワークに入力する。そしてネットワークの出力を評価し、「誤り」が発生していたならば、ネットワークに、そのネットワークの内部パラメータ及び結合を修正させて、そのネットワークの性能を向上させるようにする。つまり、ネットワークが「学習する」のであり、一般的に、ネットワークが「学習する」につれて、そのネットワークの性能が向上して行く。

一例として、「Ａ」を表わしているディジタル画像とｒＢＪを表わしているディジタル画像とを識別するための学習を、ニューラル・ネットワークに行なわせるものとする。この場合には、ネットワークが「Ａ」と「Ｂ」の、２つの出力部を備えるようにしておく。ネットワークにｒＡＪの画像を入力したならば、ネットワークはそれを認識して、出力部「Ａ」を活性化するのでなければならない。

このネットワークに学習を行なわせるには、「Ａ」画像及びｒＢ」画像から成るストリームをネットワークに入力する。入力された記号の各々に対して、ネットワークは、その入力データを解析して、みずからが認識したものが「Ａ」であるか、それともｒＢ」であるかを表示する。ネットワークが入力ｒＡＪをｒＢ」であると判定するたびに、誤りを発生したことをネットワークに伝え、それに応えてネットワークは、同じ誤ちを繰り返す確率が低下するように、ニューロン結合及びバイアスを修正する。換言すれば、ニューラル・ネットワークは、「フィードバック学習」手順を用いて、そのネットワークの内部の評価パラメータを修正する。認識せねばならない入力集合が、互いに明確に分けられている入力集合や小さな入力集合に限られているシステムにおいても、公知のニューラル・ネットワークでは、非常に長い学習時間が必要とされている。即ち、ネットワークが学習の成果を上げるまでには、非常に多（の回数に亙って学習のための実行を反復せねばならない。

在来のニューラル・ネットワークにおいて学習時間が長くかかっていたことの主たる原因の１つに、一群の様々な種類の文字（或いは、単語、音声、絵図、記号、ないしはその他のパターンまたはデータ）から成る入力集合の、その集合要素が、ネットワークに「良好な推定」を行なわせることができる適切なニューロン結合及びバイアスの値に関する充分な情報を含んでいないことがあった。（これについては後に詳論する）。実際に、そのために多くのニューラル・ネットワークが、学習する際に用いるニューロン結合及びバイアスの値を仕方なしにランダムな値にしている。在来のニューラル・ネットワークでは、許容可能な正確度で入力集合を認識することを習得できるまでには、数千種類もの入力記号について数千回もの学習を実行しなければならないことも、決して珍しいことではなかった。

これを人間にたとえるならば、ある人が、ドイツ語を習得しようとしている場合を考えれば良い。この初学者に、ｒＳｔｕｔｅ　Ｊ、ｒＨｅｎｇｓｔＪ、ｒＦｏｈｌｅｎＪ　、及びｒＰｆｅｒｄ　Ｊという単語を教えるだけで、それ以外の知識を与えなかったならば、この初学者は一度に１つずつの単語を解析しては見比べる必要があり、従って、この初学者がそれら単語を身につけるまでには長い時間がかかり、それまでに多くの誤りをおかすに違いない。これに対して、もしその初学者がそれら単語の全てが馬を指し示している（即ち、それらは夫々「雌鳥」、［種馬」、「子馬」、及び「馬」である］ことを前もって知っていたならば、学習過程は大いに迅速化されるであろう。その初学者が後にｒＷａｌｌａｃｈ　Ｊという単語に出会ったときに、その単語が以上の単語と同じクラスに、或いは非常に類似したクラスに属するものであることをその初学者が知っていたならば（この単語は「去勢馬」を意味している）、初学者は、その新たな単語を習得するまでに多数回の「言語道断な推定」をせずに済むであろう。入力クラスの「境界設定」をすることによって、学習過程は大いに迅速化されるのである。

ニューラル・ネットワークの学習時間が長くかかることによる更に別の大きな不利益のうちの１つに、それによってニューラル・ネットワークがリアルタイムで動作することがより困難に或いは不可能になるということがあった。学習速度の遅いニューラル・ネットワークが、認識できない記号またはパターンに遭遇した場合には、その新たな記号を組み込むための再学習をそのニューラル・ネットワークに行なわせるだけの時間的な余裕がないことが多い、更に、もしニューラル・ネットワークが収束するまでに長い時間がかかるものであったならば、即ち目の前に出されたパターンがどのパターンであるかを判定するまでに長い時間がかかるものであったならば、そのネットワークは遅すぎて実用にならない０例えばある本が、ニューラル・ネットワークが一度も出会ったことのない字体で印刷されており、テキスト認識システムが、２語／分の読取り速度でしか読取りを行なえないならば、そのテキスト認識システムは、盲人がその本を読むことを補助するという用途には殆ど役に立たないことは言うまでもない。

更には、標準的なニューラル・ネットワークでは、より複雑な問題を学習するためにはより多くのニューロン及び結合が必要とされる。従って、量的に非常に大きな問題に対しては、必要なメモリ容量や必要な学習時間を確保できないためにニューラル・ネットワークが使えないこともあり得る。それゆえ、ネットワークを更に効率的にすること、即ち、使用するノード及び結合の数をより少なくすることもまた重要である。従って、ニューラル・ネットワークの設計の分野における目標の１つに、ニューラル・ネットワークの学習速度を高速化し、しかも、その精度をさらに良くするということがある。

在来のニューラル・ネットワークの更に別の欠点として、在来のニューラル・ネットワークに、まだ学習していない新たなパターン（例えば、新たな字体）を認識させるには、そのニューラル・ネットワークに、ゼロから再学習させなければならないということがあった。従って、在来のネットワークは、以前学習したパターンに対応して既に定められている重み及びバイアスとは別に、新たなパターンのための重み及びバイアスを定めることができないという意味において「モジュール的」ではなかった。

ニューラル・ネットワークの研究における研究成果の例としては、例えば以下の諸文献に記載されているものがある＝　「Ｎｅｕｒｏｃｏｍｐｕｔｉｎｇ　Ｆｏｕｎｄａｔｉｏｎｓ　ｏｆＲｅｓｅａｒｃｈ、　”　ｅｄｉｔｅｄ　ｂｙ　Ｊａｒｔｒｅｓ　Ａ、　Ａｎｄｅｒｓｏｎ　ａｎｄ　Ｅｄｗａｒｄ　ＲｏｓｅｎｆｅｌｄＪA「Ａ　Ｄｅ− ｓｉｇｎ　Ｆｏｒ　Ａｎ　Ａｓ５ｏｃｉａｔｉｖｅ　５ｐｉｎ　Ｇｌａｓｓ　Ｐｒｏｃｅｓｓｏｒ、”　ｂｙ　Ｊａｍｅｓ　Ｍ、　Ｇｏｏｄ翌奄氏B Ｂｒｕｃｅ　Ｅ、　Ｒｏｓｅｎ、　ａｎｄ　Ｊａｃｑｕｅｓ　Ｊ、　Ｖｉｄａｌ　Ｊ　、これに関連した米国特許であるところのｒＵｎｉｔｅｄ　５ｔａｔｅｓ　Ｐａｔｅｎｔ　Ｎｏ、　４，９７７．５４０．”５ｐｉｎ　Ｇｌａｓｓ　Ｔｙｐｅ　Ａｓ５ｏｃｉａ狽奄魔■ Ｐｒｏｃｅｓｓｏｒ　５ｙｓｔｅ＋ｍ”　（Ｇｏｏｄｗｉｎ、　ｅｔ　ａｌ、　Ｄｅｃｅｍｂｅｒ　１１．　１９９０１Ｊ、　ｒ　”０ｐｔ奄モ≠■ Ｎｅｕｒａｌ　Ｃｏ＋ａｐｕｔｅｒｓ、ｂｙ　Ｙａｓｅｒ　Ｓ、Ａｂｕ−Ｍｏｓｔａｆａ　ａｎｄ　Ｄｅｍｉｔｒｉ　Ｐｓａｌｔｉｓ。

（Ｓｃｉｅｎｔｉｆｉｃ　Ａｍｅｒｉｃａｎ、　Ｍａｒｃｈ、　１９８７）　Ｊ　、これも米国特許であるｒＬＩｎｉｔｅｄＳｔａｔｅｓ　Ｐａｔｅｎｔ　Ｎｏ、　３，８８７，９０６．　”０ｐｔｉｃａｌ　Ａｓ５ｏｃｉａｔｉｖｅ　Ｍｅｍｏｒｙ　Ｕｓｉｎｇ　bｏｍｐｌｅ− ｅ＋ｅｎｔａｒｙ　Ｍａｇｎｅｔｉｃ　Ｂｕｂｂｌｅ　５ｈｉｆｔ　Ｒｅｇｉｓｔｅｒｓ″ｆＭｉｎｎａｊａ、　Ｊｕｎｅ　３．１９７５１@Ｊ　、それに、「Ａ　ＬｅａｒｎｉｎｇＡｌｇｏｒｉｔｈｍ　ｆｏｒ　Ｂｏｌｔｚｍａｎｎ　Ｍａｃｈｉｎｅｓ、”　ｂｙ　Ｄａｖｉｄ　ｌ（。

Ａｃｋｌｅｙ　ａｎｄ　Ｇｅｏｆｆｒｅｙ　Ｅ、　Ｈｉｎｔｏｎ　（Ｃｏ　ｎ１ｔｉｖｅ　５ｃｉｅｎｃｅ、　Ｖｏｌ、　９、ｐｐ、　１４V−１６９．１９８５１　Ｊ。

本発明の目的は、在来のニューラル・ネットワークと比較して必要な学習時間が格段に短く、しかも最適解を発見する能力を維持しているニューラル・ネットワークを提供し、また、そのネットワークを、使用するノード及び重みをかより少ない、より効率的なネットワークとし、また、そのネットワークを「モジュール的」ネットワークにして、そのネットワークにゼロからの再学習を行なわせることな（、新たなパターンを学習させることができるようにすることにある。

兄皿二慨ヱデータ処理システムは入力装置を含んでおり、この入力装置は、一連の複数の入力データ群のうちの各々の入力データ群を、Ｎ個の数値から成る１つのシーケンスの形で表わすことによって、それに対応したＮ次元の基礎入力ベクトルを生成し、また、それら基礎入力ベクトルの各々を記憶しておくものである。このシステムは複数層のニューラル・ネットワークを含んでおり、ニューラル・ネットワークの入力層には、プロセッサによって付加がなされて少な（ともＮ＋ｊ個の射影入力記憶装置を含むようにしてあり、ここでｊは所定の正の整数であり、またそれら射影入力装置は、Ｎ＋ｊ個の数値成分を有する射影されて正規化された入力ベクトルを記憶してお（ためのものである。射影された入力ベクトルの各々は、複数の基礎入力ベクトルのうちの１つずつに対応している。

本発明に係るプロセッサは、更に、射影された入力ベクトルのＮ＋ｊ個の成分と、少なくとも最下中間層にあるＮ＋ｊ次元の重みベクトルのＮ＋ｊ個の成分とを、共に正規化するようにしてお（ことが好ましい。

ネットワークに学習をさせるために、本発明は更に、ネットワーク出力値を所定の目標ベクトルと比較するための比較装置を含んでいる。そして、プロセッサは、ネットワーク出力値とそれに対応した目標ベクトルとの差が、所定の最小しきい値より小さくなるまで、中間しきい値及び中間重みベクトルの再算出を行なう。

本発明は、パターン認識及び分類問題に使用可能なばかりでなく、更に関数当て嵌め問題にも使用可能である。

本発明の方法は更に、システムの、より具体的にはニューラル・ネットワークの、学習及び実地動作の方法をも包含するものである０本発明では、Ｎ次元の入力ベクトルの各々に、少なくとも１つの追加の成分を付加して、射影された入力ベクトルを生成するようにしている６本発明の方法の好適例においては、この射影された入力ベクトルを正規化して、それが球面の面上に存在するようにしている。

ニューラル・ネットワークの少なくとも第１の中間層のノードに対応している重みベクトルもまた、Ｎ＋ｊ次元の超球面の面上に存在するように制約することが好ましい。

ネットワークの学習中には、複数の既知の入力ベクトルから成るシーケンスをネットワークへ供給すると、ネットワークが誤差関数を算出する。この誤差関数は、中間ノードの全ての重みベクトル及び全てのしきい値Ｃ別実施例においては更に、出力ノードの全ての重みベクトル及び全てのしきい値も加わる）の関数である。更に、最適化ルーチンを用いて、誤差値が所定の最小値より小さくなるまで、それら重み及びしきい値に修正を加える。

ネットワークの学習時間を更に短縮するためには、複数の中間ノードの夫々の重みベクトルを初期設定する際に、それら重みベクトルを、様々なりラスの入力ベクトルに対応した既知のプロトタイプに等しく初期設定することが好ましい。

更には、本発明は、１つのネットワークを複数のサブネットワークに分離して、それらサブネットワークに個別に学習をさせた上で再併合することも可能にしている。

入力ベクトルの複雑度を、Ｎ次元から少な（ともＮ＋ｊ次元へ意図的に増大させ、且つ、重みベクトルと入力ベクトルとの両方を正規化することによって、あり得る出力値についての閉じた判定群が、各判定群に対応した少なくともＮ＋ｊ次元の単一の境界領域を用いて画成される。更には、このネットワークは、判定境界を形成するために、超球面と超平面とのいずれを使用することもでき、また実際に、初期にはそれらの一方を使用していたのが、収束したときには他方を使用しているということもあり得るようになっている。

区血の固単り説明図１は、ニューラル・ネットワークの一般化した構造の一例を示した図、図２は、入力画像パターンを、そのパターン表わす一連の数値へ変換する変換の仕方を説明するだめの図、図３〔ａ〕は、本発明が使用する典型的な誤差関数の一例を定性的に表わした図、図３（ｂ）は、本発明に係るネットワークが誤差値を正規化するために使用する典型的なシグモイド関数の一例を定性的に表わした図、図４（ａ）は、従来例に係る「同次元」超平面クラリファイヤ、即ち、その判定面が、認識すべき入カバターンに対応したベクトルを包含している空間と同次元の超平面である、従来例に係るニューラル・ネットワークを示した図、であって、図４（ｂ）は、従来例に係る「同次元」超球面クララファイヤを示した図、図５は、本発明に係るニューラル・ネットワークが採用している、より高次元の空間へ射影するための射影方法を簡略化して図式的に示した図、図６は、本発明に係る射影方法を図式的に示した図、図７は、本発明に係るニューラル・ネットワークの、−Ｍ化した構造を示した図、図８は、ニューラル・ネットワークの学習モードにおいて重みベクトルに修正を加えて正規化するための、本発明に係る方法を図式的に示した図、図９は、本発明に係る、閉じた、射影された判定領域の概念を示した図、図１０は、１つのニューラル・ネットワークを、２つ以上の個別に学習可能なネットワークに分離することができ、それらネットワークを学習後に再併合して再び単一のネットワークにすることが可能であることを説明するための図、図１１は、複数の隠れ層を備えたニューラル・ネットワークを例示した図、図１２（ａ）は、１次元の関数当て嵌め問題を例示した図、図１２（ｂ）は、関数当て嵌めの用途に使用している本発明に係るニューラル・ネットワークの一例を示した図、図１３は、本発明に係るニューラル・ネットワークの学習プロセスを示した簡略化したブロック図、図１４は、本発明に係るパターンのプロトタイプを選択するための選択手順を示した簡略化したブロック図、図１５は、本発明に係るニューラル・ネットワークを組み込んだパターン認識システムの全体を示した簡略化したブロック図、図１６　（ａ）　（ｉｌ　〜（ｉｉｉｌ及び図１６　（ｂ）　（ｉ）　〜ｆｉｉｉｌは、パターン認識テストの実験結果であって、従来のニューラル・ネットワークを用いたときの結果（図１６（ａ））と、本発明に係るニューラル・ネットワークを用いたときの結果（図１６（ｂ））とを示した図、そして、図１７は、本発明に係るニューラル・ネットワークの別の実験のテストに使用した。ノイズを加えた入カバターンの３つの例を示した図である。

運輸・４　び　に・　る匍・図１には、簡単な構成のニューラル・ネットワークの一例を示した。このネットワークは、ｉｏ’ｏ個の入力ノード１１〜ｌ１００と、４個の出力ノードＵ１〜Ｕ４と、中間層を形成している「連合ノード」、「内部ノードｊ、または「隠れノード」と呼ばれる７個のノードＨ１〜Ｈ７とを含んでいる。互いに異なった層にあるノードどうしの結合を実線で示した。

本発明を理解するためには、その前に先ず「入力ベクトル」の一般化した構造について理解しておく必要があり、そのために図２に具体例を示してあり、この具体例は、例えば、文字または単語を認識するように構成した比較的簡単なシステム（ドキュメント・リーグ等）に使用されるものである。ここでは、−例として、ドキュメント・リーグのスキャナが、テキストを１行ずつ走査するための、１０ＸＩＯグリツド（０がら９９まで付番されている）をなすように並べられた光検出素子を使用しているものとする。また更に、ここでは、それら光検出素子の各々が「黒」と解釈されるが（そのコマが、所定のしきい値によれば、明るいというよりはむしろ暗い場合）、或いは「白」と解釈されるか（暗いというよりはむしろ明るい）の、いずれがであるものとする。即ち、ここでは、この簡単なスキャナは「グレイ」を理解しないものとする。

以上において「黒」に対しては値「１」を割当て、「白」に対しては値ｒＯＪを割当てるものとすれば、図２に示したパターンは、グリッド要素２４〜２６．３４．３６．４３〜４７．５３、及び５７を「ｌ」とし、その地金てのグリッド要素を「０」とした、１００個の数から成るストリングで表わすことができる。

更に進んだシステムのうちには、グレイの諧調までも認識できるようにしたものもある。その種のシステムでは、グリッドの各コマに対応させることのできる値は２通りではなく、多数存在する。例えば、そのシステムが１６諧調の異なった陰影のプレイ（この１６諧調には、白に対応した１つの諧調と黒に対応した１つの諧調とが含まれる）を認識するものであれば、１００次元の入力ベクトルの各成分が、例えば「０」から「１５」までの値（或いはｒＯＪから「１」までの間の１６段階の値）を持つことになり、それら値は例えば４ビツトのデータ・ワードで表わすことができる。

以上のディジタル化技法は周知のものである。いうまでもな（、この種の技法の応用は視覚パターンだけに限られるものではない。広く採用されている別の応用例を挙げるならば、どこにでもある「コンパクトディスク」即ち「ｃＤ」を考えれば良い。ＣＤを制作するには、音声を（この音声は、複雑な編曲を施したオーケストラ音楽であることもある）ディジクル化し、即ち、音声を解析して一連の複数の数にしくそれらの数は「１」に相当するものと「０」に相当するものとで、２進数の形で表現されている）、更にその一連の数を、ディスクの表面に、レーザで形成する「孔」または「くぼみ」のパターンで表わすようにしている。

ここで覚えておかねばならない重要な点は、図示例では、また、それ以外の用途においても多くの場合そうであるが、入カバターンが（この入カバターンは、文字「Ａ」であっても、ベート−ベンの交響曲のうちの１０００分の１秒の区間であっても良く、入力のパターンでありさえすれば何でも良い）、Ｎ個の数から成る、数のストリングに変換されるということである。図示例では、そのストリングを構成する数は「０」とｒｌ」とであり、また、Ｎ＝１００である。

図１について説明すると、例えばドキュメント・リーグによって文字ｒＡＪが走査されて、この文字「Ａ」が、Ｎ個の数（必ずしも２進数に限られない）から成る、１つのＮ次元の入力ベクトル又冒こ変換されたものとする。その入力ベクトルの１００個の成分（ここではＮ＝１００としている）の各々は、ネットワークの入力ノード１１〜ｌ１００のうちの夫々１つずつへ入力される。

ニューラル・ネットワークに関して、我々が望むことは、そのシステムの出力が、できる限り目標出力に「近い」出力になることである。更に具体的に説明するならば、文字「Ａ」、または単語ｒｔｒｅｅ］　、またはイルカの絵が学習中のニューラル・ネットワークへ入力として与えられたときに、我々が望むことは、そのネットワークの出力（即ち、解析したパターンがどのパターンであるかについての、そのネットワークの判定結果）が、「Ａ」、またはｒｔｒｅｅＪ　、または「イルカ」になることである。在来のニューラル・ネットワークでは、隠れノードの各々に、重みベクトルＷとしきい値νとが付与されている。隠れノードの各々ごとに、入力ベクトルＸと、その隠れノード対応した重みベクトルＷと、その隠れノードに対応したしきい値とが数学的に結合されて、中間値が算出され、この中間値は隠れノードの各々について１つずつ算出される。更には、幾つかの中間値が結合されて出力値Ｕが算出される。

図１に示した具体例では出力が４つあり、４通りの入カバターン（それら入力パターンの各々はＮ個の成分から成る）が識別ないし分類できればそれで良いと考える場合等には、出力の数をこのように４つにすれば良い、一般的に、識別できるようにしたいと考える入カバターンのクラスの各々に対して１つずつの出力ノードを備えることになる。例えば、ｕ（１１、ｕ（２１、ｕ（３）　、　ｕｆ４１の夫々を「Ａ」、ｒＢ」、「Ｃ」、「ＤＪに対応させれば良い。更に換言するならば、中間ノードＨ１、Ｈ２１１９，の値が、ｕ（２）の値だけを所定のしきい値以上にするようなものであったならば、このニューラル・ネットワークが出力する信号は、ｒＢ」を表わす信号になる。

在来のネットワークでは、ネットワークに学習を行なわせるには、そのネットワークに多数の既知の入カバターンを与えて、そのネットワークの「解答」を、既知の望ましい出力である目標出力と比較するようにしている。実際の出力の、目標出力からの変位を、−ＩＩ的に「誤差関数」という用語で言い表わしている。

この誤差は、重みベクトルＷ及びしきい値νの関数であり、学習パターンについての試行を行なう度に、それら値に修正を施すようにしている。誤差の大きさは「０」になるのが理想的であるが、実際には、公知の最適化ルーチンを用いて、誤差関数を最小化するようにしている。それに用いる最適化ルーチンは、一般的に、最適値に向かって１歩づつ近付いて行くようにしたルーチンである。

図３（ａ）には典型的な誤差関数の一例を示した。同図の誤差関数Ｅ　（ｗ）は、１つの重みＷの関数として定性的なグラフの形で示しである。いうまでもなく、一般的には、誤差関数は全ての重みベクトルの中の全ての重み、並びに、全てのしきい値νの関数である。にもかかわらず、この図に誤差間数Ｅをただ１つの重みの関数として示したのは、説明を理解し易くするためである。

図示の誤差関数の具体例からは、在来のニューラル・ネットワークに付随する大きな弱点のうちの２つの弱点が明らかである。第１に、誤差関数を最小化するために用いられている数値操作による最適化ルーチンは、最適解へ向かって１歩ずつ近付いて行くようにしたルーチンである。最も広く採用されている最適化ルーチンは、何らかの形の最急降下法を用いたルーチンであり、その最急降下法では、最適化のための１歩分（１回分）の移動量と、その移動の方向とを、誤差関数の勾配の大きさと方向とに応じて決めるようにしている（殆どの誤差関数は、図３に示したグラフのような単なる２次元曲線ではなく、Ｎ次元の計算を必要とするものであることを忘れてはならない）。

以上の説明を更に理解し易くするために、我々が、ある山岳地域の中で標高が最も低い地点へ到達する道を探しており、しかもその地点へできるだけ速やかに到達したいと考えている場合について説明する。更に、我々は、丘ないし山の横腹から出発するものとし、また、霧が非常に濃いため１０フイート前方までしか視界が利かないものとする。その他の情報が何もなければ、我々はおそらく、現地点からｌＯフィート以内で山の傾斜が最も急な下り坂となっている方向を見定めて、その方向へ進もうとするに違いない。しかしながら、もしその地形が、視界の及ぶ限り完全に平坦であったならば、どの方向を取るのが最善であるかについての情報を傾斜から得ることはできないため、どの方向を選択するにしても、それはランダムな選択ということになろう。

傾斜角が大きくない場合には、我々は１歩の距離を小さくする。なぜならば、傾斜角が小さければ、その地形がその方向に下り続ける見込みが大きいとはいえないからである。一方、その傾斜角が大きければ、その傾斜が下りから上りにすぐに変わってしまうことはなさそうだ考えるであろうし、また更に、その方向へ大きな歩幅で進めば、それだけ速（下りて行けると考えるであろう。

この山岳地域のたとえは、更に、在来のニューラル・ネットワークの標準的な学習法がなぜそれ程までに時間がかかるのかについての原因をも明らかにしている。例えば、我々がたまたま、その山岳地域の高原地帯から出発したならば、その地形は我々の近傍では非常に平坦であり、従って我々は１歩の距離を大きくとらず、そのことによって学習速度が低下するのである。更に、非常に小さな局所的な「谷」であっても、我々を誤った方向へ追いやったり、我々を望ましくない地域に長時間に亙って縛りっけたりすることがあり得る。

これは、良く知られた「局所的最小値」問題である。即ち、もし、我々が出発した場所がその地域内における標高が最低の地点（目標とする最適点）から余りにも遠く、しかも視界が制約されており、しかも標高が最低の地点のその標高の値についての情報を持っていないならば、我々は、浅い窪地に入り込んでいるだけであるにもかかわらず、標高が最低の地点に到達したと思い込んでしまうこともあり得る。従って、目榎地点（即ち、大域的最小値）のできる限り近くから出発できるということは大きな利点であり、なぜならば、最適点の近くから出発するほど、「偽の最適点」や高原地帯に捕らえられてそこから出られなくなる可能性が小さくなるからである。

次に、図３（ａ）に例示した誤差関数Ｅ（−について説明する。Ｅｆｗ、ｌの近傍領域では、誤差曲線は非常に平坦であり（Ｅ（ｗ、）＃Ｏ）、そのため、ニューラル・ネットワークがこの領域から最適化のための試行を開始したならば（或いは学習中にこの領域に入り込んでしまったならば）、そのニューラル・ネットワークは、最適値に到達するまでに長い時間を費やすことになる。

図３（ａ）によって更に、局所的最小値の問題も明らかである。ここでは、ニューラル・ネットワークの学習ルーチンにおいて重みとしてｗ２が選択され、しかも１歩の大きさく現在地点から見渡せる距離）がｗ、と、ｗ２との間の差より小さいものとする。さて、Ｗ、とＷ、どの間では、誤差関数Ｅは点Ｗ、において最小値を取る。従って、学習ルーチンが１歩の大きさを変えなければ、その学習ルーチンはおそらく、ｗ２で停止してしまうことになり、なぜならば、見渡せる範囲内のその他のどの点も、Ｅの値を更に大きくしてしまい、従って、更に悪い結果を生じるからである。学習ルーチンは、誤差Ｅが最小になる点である最適点Ｗ °には最後まで到達できないかも知れず、たとえ到達できても、それは長い時間を費やした後であり、しかも１歩の大きさが変化することがなければ、到達することはできない。

以上のことが、大部分の公知のニューラル・ネットワークにおいて実際に発生しているのである。在来のニューラル・ネットワークの学習に用いられている入力ベクトルは一般的にランダムに選択されたものであるため、初期誤差が比較的大きく、しかも誤差関数の出発地点が、「高原地帯」や、局所的最小値が存在している領域であることが、しばしばあるからである。この理由から、在来のニューラル・ネットワークでは、そのニューラル・ネットワークの重みベクトル並びにしきい値が、それらの最適値に到達１；るまでに、また更に、許容可能な程度に機能する値に到達するまでにすら、非常に多くの学習用パターンと多数回の学習試行とが（ひいては、それに対応した長い学習時間が）必要とされている。

図３（ａ）に示したグラフは定性的なものであるため、誤差関数Ｅ（ｗ、ν）の形状は任意の適当なものとしてあり、局所的最小値の領域と高原地帯の領域とを備えたものにしである。

図３（ｂ）には、より上位の層の各ノードの出力に、既知の最大値と既知の最小値との間で、補間処理を施すための変換関数を示した。この関数は、ニューラル・ネットワークに関連して用いられるときには、一般に「シグモイド」関数と呼ばれている。各々のξの値に対して、シグモイド関数は次の形を取る。

σ（ζ）ｃｃ（１＋ｇξ）−１本発明に従ってこのシグモイド関数をニューラル・ネットワークに適用する再の適用の仕方については後に詳述する。

在来のニューラル・ネットワークを悩ましている学習段階における非効率の、その−因をなしている重要なファクタのうちの１つに、入カバターンがＮ次元のものであるならば、それをＮ次元のままにしておき、それと同じ長さの重みベクトルを用いてそのＮ次元の入カバターンに操作を加えるべきであるという、当然とも思える前提に原因するファクタがある。実行に際しては、このことは更に、メモリの利用率を低下させる結果をももたらしており、なぜならば、入力ノード■ １、■２１．．．、ＩＮに関しては、入力ベクトルの成分の各々について１単位ずつの記憶容量（ビット、バイト、ワード、アレイ、等々）しか使用せず、従って、Ｎ次元重みベクトルの各々について、Ｎ単位ずつの記憶容量しか使用しないからである。

従来例に係る超゛′面りラシファイヤ図４（ａ）には在来のニューラル・ネットワークに採用されている「同次元」評価法の簡単な２次元の例を図式的に示した。説明を分かり易くするために、このニューラル・ネットワークは、特定の点がカリフォルニア州（平面Ｐ′上の）λ ッチングを施した領域）の中にあるか外にあるかを判定する能力を備えたものとする。このネットワークへ与えられる全ての入力ベクトルは、２次元ベクトルであり、従って基礎平面Ｐ１の平面内に存在している。（ここで図２について付言しておくと、文字Ａの画像に対応した入力は１００次元であるため、その入力を図示することは不可能である）。更に、ハツチング領域の中の入力ベクトルは、ある１つの入力クラスに所属しており（それら入力はカリフォルニア州の中の点である）、我々の望みは、この入力クラスに所属している入力を、その他のクラスの入力（例えば、米国のその他の州の中に存在している点）から区別して識別することにある。

ネットワークは、入力ベクトルｘ０が２次元であることに対応して、同じ２次元の学習用ベクトルを選択し、この学習用ベクトルの選択は、とりもなおさず、最適化手順において方々へ移動させて望ましい領域を１矩形に」囲ったり「輪郭線に沿って」囲ったりするだめの、従ってその囲った領域の中に存在する入力をその地金ての入力から分離するための、直線Ｌ１．Ｌ２、Ｌ３．Ｌ４を選択していることに他ならない（別の次元では平面であるものが、２次元ではそれらのように直線になる）。学習手順には、何本の直線が必要か、そして、それら直線をどのように動かせば最も良く［形状に従うＪかを判定することが含まれる。

在来のニューラル・ネットワークの更なる弱点が更に明らかとなるのは、まさにこのときである。最も重要なことは、２次元の任意の領域を完全に囲むためには少なくとも３本の直線（それら直線は平面上に「三角形」の閉じた領域を形成する）が必要であることを理解しておくことである。図４（ａ）において、入力ベクトルのクラスは、カリフォルニア州の形状を呈している。この形状を平面上において囲むためには、少なくとも３本の直線を必要とし、それら直線は、この形状の周囲に「三角形」を形成する。

更に良く「形状に従う」ようにするためには、即ち、その領域をより上手に囲むためには、更に多くの直線が必要であり、例えば１本の直線を北側の州境に沿わせ、別の１本を南側の州境に沿わせ、更に略々北西から南東の方向に延びている両側の「長辺の州境Ｊの各々に１本ずつの直線を沿わせるようにすれば良い。

これは、非常に非効率的となるおそれがあり、特に、高次の（Ｎが大きい）問題においては、そうなる可能性が大きい。使用する直線の本数を選択して、それら直線をあちこちに移動させるのは、非常に時間のかかる数学的プロセスであり、特に、それら直線をどのように配置すべきかについての最初の推定が良好でなかった場合には、殊更に時間がかかることになる。

以上とは異なる方法として、図４（ａ）のハツチング領域の中のいずれかの点を単純に特定し、その点を焦点ないし中心にして、１つの楕円ないし円を描くという方法も考えられる。当然のことながら、その楕円ないし円を単に大きくするだけで（そうするためには、例えば円の半径のように、ただ１つのパラメータを修正するだけで良い）、ただ１本の囲繞境界線（楕円ないし円の縁部）しか使用しないにもかかわらず、結果的に、その形状の全体を囲むことができることになる。

後に更に詳細に説明するが、本発明に係るニューラル・ネットワークの学習方法は、まさにこのような処理手順を用いるものである。即ち、最初に既知の「対象」領域の中にベクトルを配置し、続いて、その形状を囲むことができるまで、円頌域ないし楕円領域を発生させる。従って、本発明によれば、Ｎ＋１個の境界面（例えば、２次元領域を囲むための３本の直線）を用いるものとは対称的に、ただ１つの境界面しか必要としない。無論、境界を定めるためのこの効率的な方法は、従来例に係る超平面システムを用いて実行することは不可能であり、なぜならば、図４（ａ）に示したように、従来例に係る超平面システムは、閉じた判定領域を形成する直線を使用するものに限られているからである。

その概要を述べるならば、有限のＮ次元パターンを囲む閉じた領域を形成するためには、少な（ともＮ＋１個の超平面（Ｎ〉２とする。なぜならば、３次元以上の次元を持つ平面のことを一般的に「超平面」と呼んでいるからである）が必要である。図４（ａ）は、この原理を、２次元のテストパターンについて示したものである。３次元の場合についてこの原理を概念化するには、３次元の自動車を囲繞するガレージを建設するには、少な（とも４つの平面、即ち「壁」が必要であることを考えれば良い（床面を１枚の壁として数える）。この場合の「ガレージ」は、その全体形状が角錐形状になる。

在来の１同次元」ニューラル・ネットワークに付随する更なる欠点であって、特に、学習用重みベクトルとして、ランダムな重みベクトルを使用している一般的なネットワークに見られる欠点は、学習手順の開始時に望ましい領域を囲むための重みの値並びにしきい値の値を推定することが困難だということである。これに関しては２多くの場合、平面Ｐ°は無限に延展しているということを忘れてはならない。従って、望ましいパターンが、図４（ａ）に示した平面の一部分に存在しているということすら、前提とすることができない。複数の閉じた領域の大きな価値は、最良の解が、ある１つの閉じた領域の中のどこかに存在していることを知っていれば、その領域の外に最適解を探すために時間を浪費せずに済むということである。

従来完ｒ１Ｂｌ沢濾之組迷面りラシファイヤその他の公知の分類システムのうちには、超平面クラリファイヤよりも学習時間を短縮できるものもあるが、それら方法は、誤差を小さくするように構成されていない。実際のところ、それら方法によれば、ニューラル・ネットワークの学習を短時間で終えることができるが、その学習結果は良好でない。その種の方法の具体例としては超球面クラリファイヤがあり、例えば、換算クーロン・エネルギ法（ＲＣＥ法）（これについてはｒＤ、　Ｌ、　Ｒｅ１ｌｌｙ、　Ｌ、Ｎ、　Ｃｏｏｐｅｒ、　Ｃ，Ｅｌｂａｕｍ。

’Ａ　Ｎｅｕｒａｌ　Ｍｏｄｅｌ　ｆｏｒ　Ｃａｔｅｇｏｒｙ　Ｌｅａｎｉｎｇ ″、　４５　Ｂｉｏｌｏｇｉｃａｌ　Ｃｙｂｅｒｎｅｔｉｃ刀A　ｐｐ。

３５−４１．１９８２Ｊを参照されたい）や、Ｋｏｈｏｎｅｎ形ネットワーク（これについては［Ｔ、　Ｋｏｈｏｎｅｎ、　”ＬｅａｒｎｉｎｇＶｅｃｔｏｒ　Ｑｕａｎｔｉｚａｔｉｏｎ　ｆｏｒ　Ｐａｔｔｅｒｎ　Ｒｅｃｏｇｎｉｔ奄盾氏 h。

Ｔｅｃｈｎｉｃａ］　Ｒｅｐｎｒｔ　ＴＫＫ−Ｆ−ＡＢＯ３，Ｈｅ１ｓｉｎｋｉ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｔｅｃｈｎｏｌｏｇｙ、１X８６Ｊ　を参照されたい）がある。

図４（ｂ）は、ＲＣＥ法を例示すると共に、その幾つかの欠点をも明らかにした図である。ここでも説明を分かり易くするために、区分する入力空間は２次元空間であるものとする。図示例において、入力空間の中の複数の点は、２つのクラスのうちのいずれか一方に所属するものであり、それらクラスは「・」のクラスと「×」のクラスとである。区分線りの右側の領域ｒ１は、おおむね「・」だけを含んでおり、区分線りの左側の領域はおおむね「×」だけを含んでいるが、ただし例外があり、円形領域ｒ２は「・ｊだけを含んでいる。それら「・」ないし「×」は、その各々が１つずつの学習用ベクトルに対応しており、従って、既知のクラスに所属するベクトルに対応している。

従来のＲＣＥ学習法によれば、ネットワークは入力空間Ｐ１の中に、多くの場合ランダムに、１つの点を選択する。続いてＲＣＥネットワークは、その点を囲む大きな円（入力ベクトルと同次元の超球面）を定め、そして、その円の中にただ１種類のクラスに所属する点しか存在しなくなるまでその円を縮小して行く（半径を短縮して行く）。例えば、図４（Ｃ）に文字Ｃを付して示した円は「・」と「×」との両方を包含しているため、更に縮める必要がある。ＲＣＥネットワークは、以上の、入力空間の中に点を配置し、その点を円で囲み、各々の円にただ１種類のクラスに所属する点しか包含されなくなるまで円を縮小して行くという作業を繰り返して実行する。どの「学習点」　（学習用入力ベクトル）もが、少なくとも１つの円によって囲まれるようになったときをもって、そのネットワークの「学習が終了したＪものとみなす。

このＲＣＥ法をはじめとする、公知の様々な超球面クラリファイヤに付随する問題の１つは、入力空間のうちのかなりの部分が、分類されないままの状態に置かれたり、或いは「二重分類」されたりするということにある０例えば、点Ｐ＋は、いずれの超球面にも包含されておらず、一方、点Ｐ８は、３つの超球面に不適切に包含されている。学習を終了したＲＣＥネットワークに、実際のベクトルとしてＰｌのベクトルが与えられたならば、ネットワークはそのベクトルを分類することができない。

更に別の問題として、あるクラスの境界が線状であったり、鋭い角を持っていたりすると、その境界を適切に近似するためには多数の超球面が必要になる。ここで、−例として、図４（ｂ）の線状の境界りについて説明する。この境界りを正確に規定するためには、理論的には、半径が無限大の円を用いてその円の中心を直線りから無限遠に離して配置すれば良く、そうすればその円と平面部分Ｐ０との交点が直線になる。ところがこの方法では、第１に、その円（超球面）が入力ベクトルと同次元である場合には計算が不可能であり、なぜならば、平面上の円をある直線から無限遠に離して配置することは、その直線が存在していることを前もって知っていない限り不可能だからである。第２に、全ての円を無限大の半径から始めると学習時間が非常に長くなり、なぜならば、それら円の半径を、その大きな値から段階的に短縮して行かねばならないからである。第３に、ＲＣＥ法等の既存の方法によってそれを行なうことは不可能であり、なぜならば、その種の方法を用いたネットワークは、円を縮小するだけで、決して拡大しないからである。

ＲＣＥ法等の超球面クラリファイヤに付随する更にその他の欠点は、それら方法では、複数の学習用データ点を夫々に囲むように複数の超球面プロトタイプを配置して、それらの半径を修正して行（ことによって、入力空間の中に複数の分類領域を短時間のうちに形成することができるものの、それら方法は、各々のクラスに対して２値出力しか提供することができない。即ち、ネットワークは、ある点が「中」にあると考えるか、それとも「外」にあると考えるかについての判定結果を示すだけであって、その判定が正しい確率はどれほどかについては、何も示さない。ＲＣＥネットワークは分類の確率を提供しない。ＲＣＥネットワークにおける確率についての何らかの情報を提供する技法も幾つか提案されているが、それは誤差を最小にする方法ではないため、それらの解決法が最適なものであることは保証の限りではない。

線状の境界を近似する別の方法として、非常に多数の非常に小さな円を使用して、それら円をその境界の上に並べるという方法がある。これを図４（ｂ）に示した。この方法もまた、従来の超球面クラリファイヤに採用されている典型的な方法である。この方法の明らかな欠点は、単純な２次元の直線りの場合ですら、不都合がない程度に整った輪郭を有するクラス領域を得るためには、数十個の、そして場合によっては数百側もの小さな円（超球面クラリファイヤ）が必要になるということである。そしてそれら円の１つ１つが、更に学習時間を延長し、ネットワークの複雑度を増大させることになる（それら円の１つ１つが個々に、隠れノード、即ち中間ノードを必要とするからである）、更に別の欠点として、そのような小さな円は、空間のうちの多くの部分をカバーしないまま取り残してしまうということがある。

Ｋｏｈｏｎｅｎ法では、ネットワークは全てのＮ次元人力ベクトルを正規化して、それら入力ベクトルを、Ｎ次元球面上に配置する。続いて、その球面上のプロトタイプ入力ベクトルを選択して、それを、クラスを表わしている球面上の点のクラスタへ近付ける方向へ移動させる。この方法に付随している重大な問題は、その「同次元」正規化によって、入力ベクトルどうしの間の相対的な大きさに関する全ての情報が失われてしまうことにある。更に別の問題として、ＲＣＥ法等の等球面クラリファイヤに共通した問題であるが、Ｋｏｈｏｎｅｎ法では、初期の推定を良好に行なうことができず、そのために不必要に学習時間が長びいてしまうということがある。

及咀の踵担望説服以下に、本発明に係るニューラル・ネットワーク、並びに本発明に係るニューラル・ネットワークの独創的な高速で収束する学習方法について説明して行（。

最初に、パターン認識問題を解くためのニューラル・ネットワークについて説明する。ただし本発明の応用はパターン認識問題のみに限られるものではない、別の具体な応用例として、後に「関数当て嵌め」問題を解くために使用するネットワークについても説明する。関数当て嵌め問題は、ニューラル・ネットワークを自動操縦装置に用いたり、ロボット・アームの運動の制御等に用いたりする場合に一般的に発生する問題である。

本兄服旦係ゑ射影方法既に述べたように、在来のニューラル・ネットワークは、Ｎ次元の入力ベクトルないしパターンの評価を行なうために、Ｎ次元の重みベクトル及び入力ノードを使用している。これに対して、本発明に係るニューラル・ネットワークは、直感に反する処理手順を採用している。即ち、本発明のネットワークは、Ｎ次元の入カバターンをＮ＋１次元の空間で評価するために、意図的に入力ベクトル及び重みベクトルの次元を、１次元だけ高くするようにしている。より詳しくは、本発明に係るネットワークでは、パターン認識問題を、より高い次元の空間に［射影コするようにしている。本発明に係るネットワーク構造と評価手順とを使用すれば、公知のニューラル・ネットワークと比較して、その学習時間を著しく短縮することができる（多くの場合、数桁分の短縮が可能である）ということが実験の結果判明している。

図５は、２次元の場合（Ｎ＝２）の１本発明に係る射影方法を説明するための簡明な説明図である。図示例では、入力ベクトルないし入力領域は、全て２次元（Ｎ＝２）のベクトルないし領域であって基礎平面Ｐ０の上に存在しているが、それらを２次元のベクトルないし領域としたのは、単に説明を分かり易く明瞭にするためである。更に、以下の説明においては、ベクトル量は、文字の上に横棒を付すことによって表わしこととし、従って又は、ベクトルＸのことである６図示例において、我々が望むことは、ニューラル・ネットワークが、平面Ｐ０上にあって、アイオワ州の中に位置することになる点に対応した入力ベクトルを、その地金ての入力ベクトルから識別できるものにすることである。尚、平面Ｐ０上のベクトルを、又はて表わすようにしている。

本発明に係るネットワークは先ず最初に、Ｎ次元入カベクトル又、。を、Ｎ＋１次元の閉じた面の上へ射影する。図示例では、平面形状（Ｎ＝２）の複数の入力領域が、それら入力領域を取り囲んでいる球面Ｓ　（Ｎ＝３、なぜならばこの球面は３次元球面である）へ射影される。この射影について理解するためには、基礎平面ＰＰが限りなく薄いガラス板であって、それが球面の中に配置されており、そして、球面Ｓの中心Ｃから光線が発しているところを想像すれば良い。これによって、様々な州の境界が球面Ｓの面上に、幾分歪んで反った形ではあるが、映し出される。Ｎ次元の複数の入力領域（様々な州の形をしている）が、これによって、幾分歪んだ形状の、Ｎ＋１次元の、球面Ｓ上に射影された領域として姿を現す。射影されてできた新たな３次元の射影ベクトルを５＜２゜で表わしてあり、この射影ベクトルは、３次元球面の中心から発した光線がその３次元球面上に映し出した、２次元ベクトル又、′の先端部の影である。

この射影の結果として幾つもの利点が得られるが、それらについては後に説明する。ただしこれだけは述べておくと、本発明に係る射影の結果として発生する形状の歪み及び反りは、−見したところでは欠点に見えるかも知れないが、実際には、この外観上の弱点が、本発明に係るニューラル・ネットワークの大きな利点となっているのである。

それについて理解するためには、次のことを考えれば良い。それは、ニューラル・ネットワークが、アイオワ州の中に存在する入力ベクトルを正しく分類していさえすれば、その正しい分類が、最初の「平面地図」形状の画像ではな（て、投影された「地球儀」形状の画像の方を評価した結果であっても、何ら関知する必要はないということである。後に更に詳細に説明するように、評価手順は、本発明に係るネットワークによって自動的に実行されるため、ユーザまたは管理システムは、ネットワークから与えられる「解答」を知ることができればそれで良いのである。

図５を見ることによって明らかな、本発明に係る射影方法の更に別の特質は、基礎平面Ｐ°が球面Ｓの中心Ｃに近付くほど、射影された後の基礎ベクトルは大きく歪むということである。基礎平面が中心Ｃと殆ど交わるまでに近付くと、射影パターン（通常の米国の地図）は球面Ｓの半分を殆ど完全に覆うようになる。

基礎平面（本来の入力空間）が中心Ｃと交わったならば、基礎平面の射影は、円周の形状になり、射影された領域の境界は識別不能になる。

中心Ｃに近付（につれて歪みが太き（なるという特性は、その他の射影面には当てはまらない特性である。Ｎ＋１次元の球面Ｓは、好ましい射影面であり、なぜならば、本発明に係るニューラル・ネットワークで解く大部分の分類問題に関して、その問題を解（ための計算処理を大幅に簡明化するからである。ただし、例えば楕円面等の、その他の種類の投影面も、本発明に使用することができる。

ただし図示例では、中心Ｃからの距離は、本発明に係る射影ニューラル・ネットワークが、本来のＮ次元入力ベクトルの、Ｎ＋１次元射影面への射影の特性を変化させるために修正を加えることのできる。１つのパラメータとなっている。

図６は、本発明に係る射影プロセスを示した更に精密な説明図である０図６において、Ｎ次元人カベクトルヌがＮ次元平面から（Ｎ〉２であれば、ＰはＮ次元空間になる）Ｎ＋１次元の面Ｓへ射影されて、射影入力ベクトル又゛になっている。図示の好適例では、面Ｓは半径がＨの球面であり、より正確には超球面である（なぜならば、この面は、一般的には４次元以上の面だからである）。

平面Ｐは、面Ｓの中心Ｃから距離りだけ離れている。この量りは、−膜化して表わすならば、Ｎ次元空間の原点ＯＮと、Ｎ＋１次元の射影空間の原点Ｏ□１との間の距離である（図示例では、原点ＯＮ＊ｌは球面Ｓの中心Ｃである）。

２つの三角形が相似形であることを利用しくａ／ｂ＝１又１　／ｈ）　、また、射影されたベクトル又°が存在している球面の半径がＲであることから、天゛は次の式で表わすことができる。

この式において、ｘ２−１′５Ｚ１−・又の大きさ、である。

との又°も、Ｎ＋１＠の成分を持っているが、それら成分のうぢのＮ個の成分は、各々のＸの成分から算出することができ、Ｎ＋１番目の成分（その分子はｈである）を付加すわば良い。入力ベクトルの「正規化」だけならば、入力ベクトルの次元を１つ高くしなくても行なえるが（例えば、ベクトルの各々の成分を、そのベクトルの大きさで割った上で、そのベクトルにＲを乗じるだけでよい）、。

そうした場合には、各々のベクトルの大きさと、異なったベクトルどうしの間の相対的な大きさとに関する、価値のあるものとなり得る可能性のある情報を失うことになる。

射影されたベクトル又°は、大円を含んでいる平面ＧＣ平面に対して直交しており、この大円平面ＧＣは、超平面の判定境界線氾において平面Ｐと交わっている。大円平面ＧＣは、射影されたベクトル又゛によって規定されるものであり。

即ち、このベクトル又°に対して直交すると共に球面Ｓの中心Ｃを通過する平面として規定される。更に、この大円平面は、従来のニューラル・ネットワークにおいて、入力平面を囲むために使用されている平面がそうしているのと全く同じように（図４（ａ）ｌ照）、基礎平面Ｐを部分している。大円とは、球面と、その球面の中心を通る平面との交わり部分によって形成される円である。地球が丸いものとすれば赤道は大円であり、なぜならば赤道は、地球の中心を通って地球を北半球と南半球とに分割する平面上に位置しているからである。これに対して南回帰線は大円ではなく、なぜならば、南回帰線を含む平面は地球の中心を通らないからである。

更には、いずれの入力ベクトル又も、その入力ベクトル又の大きさにかかわらず、それに対応した射影ベクトル又゛は、大きさがＲになることにも注意されたい。換言すれば、様々な入力ベクトルの成分値がいかなるものであろうとも、それら入力ベクトルに対応した射影ベクトルは正規化され、即ち、どの射影ベクトルも、予め定められている面Ｓの上に位置するように制約され、この面Ｓは好適実施例では球面である。また、平面Ｐ上の全ての領域の境界も、同様に平面Ｐ上のＮ次元ベクトルによって規定されるため、不整な形の境界でも球面Ｓの面上に写像することができる。更には後に詳述するように、入力層から隠れ層への夫々の結合に対応した重みベクトルも、その全てを、ある１つの球面上に存在するように制約するようにしている（この球面は、射影された入力ベクトルと同じ球面であることが好ましいが、必ずそうすることが必要なわけではない）。

上掲の（式１）に定義し、図６に例示した射影方法を用いた場合には、球面Ｓの上の円形領域は、平面Ｐ上の楕円領域に対応することになる。これは、好適例の射影（この射影は多くの計算処理を簡明化する）を行なって得られる結果であるが、これ以外の射影を行なうこともできる。例えば、次のような射影が可能である。

この式において、ｘ＝　ｌ　ｘ　ｌ　＝ｘの大きさであり、この射影は円を円へ写像する。

日に、る　み弓と４図７には１本発明に係るニューラル・ネットワークの全体構造を示した。このネットワークは、Ｎ＋１個の入力ノードｘ、（１）、ｘ、（２１１，、、、ｘｏ（Ｎ＋１１を備えており、それら人力ノードの各々は、射影された入力ベクトル又 °　（これは上の式の定義に従って算出したものである）の１つの成分（１つの数）を記憶している。このネットワークワークは更に、Ｍ個の中間ノード即ち隠れノードｙ（１）、ｙ　（２）　、　、、−、ｙ　（Ｍｌ　を備えており、それら隠れノードはスカラー値を記憶している。このネットワークは更に、Ｋ個の出力ノードを備えており、それら出力ノードの各々は、出力値ｕ（１１、ｕ（２１、−＝　ｕｆＫｌを記憶している。Ｎ、　Ｍ、それにＫは、互いに同一である必要もなければ、互いに同一であっていけないこともない。また、隠れ層を２層以上にして、ある隠れ層からの出力が別の隠れ層への入力となるようにしても良い。最も一般化した場合では、図７に示した階層構造すらも不要である。例えば出力ノードを直接に入力ノードに結合して、中間ノードを「弱体化１する等のことも可能である。

ここでもまた、出力ノードにはＡ、Ｂ、Ｃ，Ｄという文字を記入しであるが。

これは説明を分かり易くするためにそうしたに過ぎない。ここでは、我々が望むことは、例えばドギュメント・リーグ等において、ニューラル・ネットワークがこれらの英文字を識別できるようにすることであるとする。いうまでもな（、本発明に係るネットワークの応用は、これら４つの文字を認識するという用途だけに限られるものではなく、またそもそも、文字の認識という用途にすら限られるものでない。このニューラル・ネットワークを使用して、数字の形に変えられた任意のパターンの解析を行な）こともできれば、任意の良好な応答の関数の当て嵌めを行なうこともできる。

図示例では、入力ベクトル又が例えばｒＢＪに該当するとネットワークが判定した場合には、ｕ（２）が活性化されることになる。予期されている出力Ａ−Ｄの各々は、夫々に特定の入力クラスを規定している。例えば、それらのうちの１つの入力クラスは、我々が識別できるようにしたいと望む様々な字体（例えば筆記体、イタリック、大文字、ゴシック、等々）の「Ａ」を包含した入力クラスである。このニューラル・ネットワークが目標としているのは、未知の入力ベクトルが与えられたときに、その入力ベクトルがどのクラスに所属するものかを判定することにある。

中間層の隠れノードｙ　ｆｊｌの各々は、入力ベクトル又に重み付けした値から、「しきい値」の値νを減じた値を受け取る。更に詳しく説明すると、隠れノードｙ　（ｊｌの各々に対して、１つのＮ＋１次元の重みベクトルＷ、°と、１つのスカラー値ν、とが存在している。各々の隠れノードへの入力は、重みベクトルと、射影された入力ベクトルとを、掛は合せたベクトル内積から、しきい値を減じた値として算出したものとすることが好ましい。従って、ｙ　ｆｊ）への入力は次の式で表わされる。

（式３）　ＷＪ’・又°−ν４、ｊ＝１．２１．、、、Ｍ本発明においては、各々の隠れノードからの出力は、上式の入力に対して、シグモイド関数（図３（ｂ）及び同図についての説明を参照のこと）、或いはその他の適当な間数を適用することによって得られる。また、各々の隠れノードｊからの出力ｙ　（ｊｌは、次の式で表わされるものとすることが好ましい。

（式４）　ｙ（ｊｌ＝σ（ＷＪ’・又′−νＪ）、　ｊ＝１．２１．、、、Ｍ既述の如く、隠れノードへの入力に対して、シグモイド関数を適用することによって、隠れノードからの出力は全て、滑らかで、しかも限界を有するものとなる（例えば「０」と「ｌ」の間の値を取る）。

図７において、隠れノードｙ　（１１は、図示の如く入力ノードｘｏ（１１、ｘ　、　（２）。

及びｘｏ（６１に結合している。−膜化した構造は、このニューラル・ネットワークを、余すところなく結合した構造であり、即ち、各々の入力ノードを全ての隠れノードに結合したものである。しかしながら、以下に説明するように、本発明に係る最適化処理は、学習の実行中に不要な結合を抑制する。ただし、本発明は更に、不要な結合についての以前の情報を組み込むことも可能にしている６各隠れノードｙ　ｆｊｌの出力は、出力ノードｕ　（１１〜ｕ　（Ｋｌへ渡されている。−膜化した構造では、出力ノードもまた、隠れ層に関して説明したものと全く同様の方式で、隠れ層の夫々の出力にそれら出力の結合に対応した夫々の重みベクトルを乗じた値の総和である重み付は総和を取るようにしている。従って、重みベクトル４としきい値μとが、各出力ノードＵに付随している。各重みベクトルｑは、Ｍ個の成分を持っており、なぜならば、図７に示した具体例では、隠れ層にはＭ個のノードがあり、その各々が出力を送出しているからである。ここで、ｙを、それら中間ノード即ち隠れノードの、Ｍ個の値を含んでいるベクトルであるものとする。本発明によれば、各出力ノードの値ｕ　（ｊｌは次の式に従って定められるようにすることが好ましい。

（式５）　ｕｉｊｌ　＝ａ　（ｑＪ−ｙ−ｊｊＪ　）、　ｊ＝１．２１．、、　、Ｋある出力ノードの値が「０」を超えているなら（従って、可、・ｙ−μ、〉。

であれば）その出力ノードは「発火」しており、その出力ノードが「発火」しているということは、入力ベクトルが、その出力ノードに関連している値（例えば図７では、出力ノードｕ（３）が文字「Ｃ」に関連している）に、最良に対応しているとネットワークが判定したことに他ならない。ただし多くの用途において、単純にその時点での各出力ノードの値を評価して、その値が最大の出力ノードを選択するという方法も用いられる。例えば出力ノードｕ（１１、ｕｆ２１　、　ｕｆ３）及びｕ（４）の値が、たまたま、夫々ｒｏ、６５Ｊ、ｒｏ、０２Ｊ、ｒＯ，１４Ｊ、及びｒｏ、３４Ｊであったものとすれば、ニューラル・ネットワークは、ノードｕ（１１（これは図示例では「Ａ」に対応している）が正解である可能性が最も高く、それに続いて、ノードｕ（４１（ｒＤＪ　）　、ノードｕ（３）　（ｒｃＪ　）　、そしてノードｕ［２）　（ｒＢＪ）の順であると判定することができ、この場合には出力ノードの値が確率値の大小を表わしている。

更に多くの隠れ層が存在している場合には、それら隠れ層も同じ手順に従い、それら各層のノードが、そのすぐ下の層の複数のノードの夫々の値の重み付は総和（バイアスとしての、しきい値が加味されることがある）を入力値として受け取ることになる。

ネットワークの学習中には、我々は、既知のベクトル（即ち、例えばｒＡＪや「Ｂ」等の既知のクラスに所属しているベクトル）を入力すれば、どの出力ノードが発火せねば「ならないか」が分かる。即ち学習中には、複数の出力ノードから夫々に実際に得られる出力値を「正しい」または「望ましい」出力値ｘ、（１１、ｘ　、　ｆ２１１．、、　ｘａ（Ｋｌと比較することができる。この比較の結果を量的に表わすために、出力ノードの実際の出力値と既知の望ましい値とを、所定の「誤差関数」を用いて評価する。誤差関数の概念は当業界において広（理解されており、関数Ｅの選定は任意の一般的な方法で行なえば良く、例えば、ネットワークが識別すべきパターンのクラスについての任意の特別の知識を組み込むようにしたり、或いは、ユーザの特定のハードウェアないし計算処理上の必要に適合させるようにしたりすることができる。

本発明に関する実験を通して、理論的な点ばかりでなく計算処理上の点でも有利であることが判明した１つの誤差関数は、次の式で表わされるものである。

この式において、Ｅ　＝　Ｅ　（ｗ　ｒｏ、Ｗ２°、−−−ｔ　Ｗｖ、Ｖｌ　ｓ　ν＝　１−０− 　Ｖ＆ｌ、ｑ＋、ｑｉ　・　・・・　・　Ｑ＋＋’ｖ　μ＋　・　Ｕ重　・　・・・　μに　）である。

即ぢ、誤差関数Ｅは、複数の出力ノードの夫々の値と、夫々の望ましい値との間の「非類似性」の指標に他ならない。夫々の差を二乗するため、Ｅの値は常に「０」以上であり、また、誤差間数Ｅが二次式であることによって、最適化における周知の利点も得られる。Ｅ＝Ｏとなるのは、複数の出力ノードの夫々の値の全てが、夫々の望ましい値と一致したとき（即ち、等しくなったとき）だけであることが、上式から分かる。

更には、複数の出力ノードの値ｕ　ｆｉｌは、従ってＥの値は、Ｍ個の重みベクトルＷ゛の、その各々のＮ＋１個ずつの成分の全てに影響され、また、Ｍ個のしきい値νの全てに影響され、Ｋ個の重みベクトル可の、その各々のＭ個ずつの成分の全てに影響され、更に、Ｋ個のしきい値Ｈの全てに影響される（即ち、それら全ての値の関数である）。従って、ニューラル・ネットワークは、公知の最適化方法を用いて、重みｗ’、ｑと、しきい値ν、μとを修正することによって、それら重みベクトル及びしきい値に関して、誤差間数Ｅを最小化することを目指せば良い（これは、■をできるだけ又、に「似させる」ことに等しい）。そのために使用することのできる最適化方法の１つについて、以下に説明して行く。尚、入力ベクトル又を先に説明したよりに射影し、それによって、射影された入力ベクトル又°を生成したならば、これ以後入力ベクトルに関する値は一定であり、その値に対しては修正を加えたりしない。ニューラル・ネットワークが、Ｅをできるだけ小さくすることに成功したならば、ニューラル・ネットワークはそれによって、みずからの重みベクトルの修正に成功したことになり、従ってニューラル・ネットワークが到達した解は、既知の正しい値にできるだけ近いものとなっている。

複数の変数を含んでいる関数を最適化するための、多くの最適化方法が公知となっており、本発明では、それら方法のうちの任意のものを使用して誤差関数Ｅを最小化すれば良い。その種の方法のうちの１つである「最急降下法」は、反復式の方法であり、従って、この方法を用いて最適解を発見するためには、先ず開始値を適当に定め、次に誤差関数の勾配をめ、次にその勾配の方向とは正反対の方向へ小さな１歩分の移動を行ない、次に移動後のその点において誤差関数の勾配をめ、更にまた次の１歩分の移動を行ない、以下同様に反復して、誤差の大きさが予め定めである許容可能な値より小さくなるまでこれを続けて行く。

数学の分野では周知のことであるが、連続した滑らかな関数の最大値ないし最小値は、その関数の勾配が「０」になる点に存在している。最適化方法として最急降下法を使用するときには、システムは、ベクトルＷ、の修正方向を決定するために、そのベクトルＷ、に関するＥの偏微分、を算出する。Ｅの勾配には、更に、複数のしきい値νの各々に関するＥの偏微分に関する項も含まれており、従って、それら複数のしきい値の各々の更新値をめるために、それら複数のしきい値 νに関するＥの偏微分、を算出する。この最適化ルーチンは、同様にして、出力重みベクトル可、及び出力しきい値μに関係した勾配も算出する。

ここで再び、先に挙げた、起伏のある露深い土地において標高が最低の地点を発見するというたとえに即して説明すると、Ｅの勾配（Ｅ）は、任意の点における最大上り勾配の方向とその大きさとを示すものである：最急勾配法に従う場合、我々は、我々の近傍で地形の傾斜が最も急な上ぼり坂になっている方向を探し、そしてその正反対の方向へ、そのとき設定されている距離だけ進む、その地形が異常に極端な起伏を持つものでなければ（例えば、高原から垂直に切り立った崖が存在したりしていなければ）、この「勾配の正反対の方向ｊは通常、最も急な王１ｆｇ少傾斜方向を指している。本発明にとって最急降下法は、絶対に必要な方法ではないが、好適な方法であり、そのため本発明の実験では、この方法を用いて評価を行なった。

本発明では、重みベクトルＷ′を選択する方法にも新規な選択方法を使用している。即ち、射影された入力を隠れ層に結合している重みベクトルＷ、′も、必ず射影面上に存在するよう、制約するようにしている。重みベクトルを正規化する方法の１つは、入力ベクトルに対して適用しているのと同一の、正規化しつつ射影するという射影方法をこれにも適用するというものである（前掲の（式１）を参照されたい）、従って、重みベクトルが球面Ｓ上に存在するように制約するための１つの方法として、先ず最初に、Ｗｌｏを下式に従って定めるという方法があこの式において、ｗ　、　”　＝　ｌ　Ｗ　、　Ｉ　”である。

上式に使用している半径Ｒは、前掲の（式ｌ）におけるＲと同一にすることが好ましく、それによって重みベクトルを、射影された入力ベクトルと同じ球面上に存在するように制約することができる。ただし、そうすることが必ず必要なわけではなく、（式７）のの中の半径Ｒをその他の定数に選定することも可能である。双方の半径を互いに異ならせることによって生じる唯一の違いは、ベクトルの内積であるＷｏ　・又°の値が、一定の割合で縮小ないし拡大されるということだけである。

在来の槽準的な最急降下法では、一般的に重みベクトルを球面から離れる方向へ移動させるため、学習によって１歩分（１回分）移動するたびに、（式７）を用いて重みベクトルを再度算出する必要があった。従って、本発明に係る好適例の学習方法は、計算処理の点でより効率的な、修正した最急降下法を採用しているのであり、この修正した最急降下法は、重みを３次元の球面上に拘束するように、或いは、入力ベクトルがＮ次元ベクトルである場合には重みをＮ＋１次元の超球面上に拘束するように構成した方法である。この好適例の方法を図８に図式％式％ここで、重みベクトルとして、球面Ｓの面上に存在するように制約された重みベクトルｗ　’　Ｉｎ　ｌ　（ここでｎは繰り返しの回数を表わす）を用いるものとする。これによって、重みベクトルの原点は球面Ｓの中心Ｃになり、重みベクトルの長さ即ち大きさは球面Ｓの半径Ｒになる。この後、射影された入力ベクトル又゛と、全ての重みベクトルＷと、全てのしきい値との関数である誤差関数を評価する。

続いて、周知の計算法を用いて誤差関数の勾配Ｅを算出し、そして、次の式に従って各々の重みベクトルにおける正規化する前の変化量ΔＷ゛をめる。

この式において「×」はベクトル外積を表わしている。また、γは所定の１回分の移動量を表わす係数であり、システムが、修正後の重みベクトルを置く位１を、下り坂の方向（Ｅの方向の正反対の方向）のどれほど遠くの位置にするかが、このえによって決められる。（式８）において、重みベクトルをＲで割っているのは、計算処理を容易にして効率的にするためであり、なぜならば、これによってｗ’／Ｈの大きさが、ｗ’　／Ｒ＝１．０になるからである。また（式８）において、ベクトル外積を算出する際には、周知の「右手の法則」に従うため、Δ Ｗ゛の指す方向は、−Ｅになり、即ち、勾配の正反対の方向となることが分かる。

本発明では、修正後の新たな重みベクトルを元の３次元球面（或いはＮ＋１次元超球面）の面上へ戻すために正規化を施すようにしており、それには、新たな重みベクトルを、その新たな重みベクトルの大きさで割った上で、Ｒを乗じるようにしている。即ち、下式に示すようにしている。

この式において「１・１」はベクトルの和の大きさを表わしている。これによって、ｗ　’　ｌｎ　”　＋　１もまた、半径がＲの球面Ｓの面上に存在するように制約されることになる。

ここから再び図４（ａ）について説明する。ニューラル・ネットワークは「判定境界」を設定しなければならない。即ち、ニューラル・ネットワークは、与えられた入力ベクトルが、あるクラスの中に入るか否かを判定せねばならない、従来例には、既述の如（、判定境界を超平面の集合によって形成するものがあった（２次元の場合はその超平面が直線になる）。この従来例においては、ネットワークは、入力空間の中のある領域を囲む複数の超平面から成る超平面集合をめようとする。そして、例えば「木」のパターンに対応した領域等の、その判定領域の中に存在する解は、その領域に対応したクラス（「木」のクラス）に所属するものと見なす。また、その領域の外に位置する解は、そのクラスに所属しないものと見なす。既述の如く、従来のニューラル・ネットワークを使用した場合には、良好な初期「任意推定」を行なう能力を備えていないため、また更に、閉じた領域を形成する能力を備えていないため、学習時間が長くなると共に、隠れノードを過剰に使用するという無駄が生じる。

本発明に係るニューラル・ネットワークは、入力ベクトルと重みベクトルとの両方を高次元の空間へ射影するという独創的な方法を使用しているため、良好な初期任意推定を行なう能力を備えるのみならず、更に、これまでよりはるかに短時間で収束する能力をも備えている。このような改善を可能にした要因のうちの１つに、本発明では、超球面と超平面との両方を判定境界として使用できるということがある。

図９は、本発明の主要な利点のうちの１つを説明するための図である。その利点とは、本来の入力空間（Ｎ次元平面Ｐ）に存在するある１つの領域の境界を。

ただ１つの超球面（即ち、Ｎ＋１次元の面Ｓ上の「円形の」領域）だけで、充分に定めることができるということである。即ち、ベクトル又′を選択して、角度 φを定めることによって、そのベクトル又°を囲む「円錐」を規定することができ、この円錐は平面Ｐと、楕円（または円）Ｉ２で交わり、また、球面Ｓの面上には、その楕円ないし円に対応した円形領域Ａ°が、円形の境界線ｅ゛で画成される。図９に示したように、平面Ｐ上のただ１つの楕円領域だけで、複数の入力から成るその１つの入力クラス（この例では、その入力クラスは、カリフォルニア州の中に存在する全てのベクトル入力を表わすものである）を充分に囲むことができる。

以」−の方法を、図４（ａ）に例示した従来の「同次元ｊ的方法に従って複数の平面から成る平面集合を選択及び移動させねばならない場合と比較すると、次のようになる。同図に示した従来例の方法によるシステムでは、閉じた判定領域を形成する際には、複数の平面を使用せざるを得ないため、容易に規定することのできる単一の曲線形状の境界によって判定領域を画成するという、本発明では可能なことが（これについては図９を参照されたい）、この従来例の方法によるシステムでは不可能である。

カリフォルニア州の形状は、今や本発明によって、ただ１つの楕円境界線εで囲むのに適した形状であるといえるようになった。より直線的な形状の、例えば図９に示した三角形領域Ｔのようなパターンであっても、たいていの場合には、そのパターンを良好に囲むために必要な楕円領域は、複数の平面で囲む場合のそれら平面の数よりも少なくて済む。

確かに、三角形領域Ｔは、適切に選択した平面を用いれば３枚の平面で完璧に画成することができるのに対し、楕円のような曲線状の形状では、この三角形領域Ｔの直線の辺を近似することしかできない、しかしながら、第１に、この三角形という形状は、たまたま偶然にその形状であったというだけで、めったにある形状ではない。また、第２に、本発明に係る射影方法によれば、ニューラル・ネットワークは、通常の超頼の特別の場合として、判定超９１ｉを選択することもできるのである。

中間ノードの各々への入力は、Ｗｏ　・又°−νである。Ｗｏと又°とはいずれも半径Ｒの球面上に存在しているため、この入力を表わす式は次のように書き直すことができる。

（式１０）　ｗ’　・又’　−Ｖ：Ｒ”　・ｃｏｓθ−νこの式において、θはベクトル又゛とベクトルＷ°との間の角度である。

これより再び、図３（ｂ）を参照して説明する。同図には、シグモイド関数〇（０と１との間で滑らかに補間しである）が示されている。さて、中間ノードの各々について、判定しきい値を選定する必要がある。判定しきい値は、入力ベクトルが所与のクラスの中に存在するとニューラル・ネットワークが判定して、その中間ノード（隠れノード）が、そのクラスに対応した出力ノードを「発火」させることになる、その限界点を定める値である。もし、隠れノードｙ　（ｊｌの判定しきい値を、ｙ（ｊ）＝１／２に定めたならば（それには、σ（Ｏ１＝１／２とすれば良い）、ノードｙ　ｆｊｌの判定面は、Ｗｊ＋・又“−ν、＝０という式によって、或いは同じ式を書き直した、Ｗ　ｊ　’・又′＝ν４という式によって写像される。

もし−Ｒ”＜ν、＜Ｒ″であれば、その判定面は、Ｎ＋１＋１次元面の面上に存在するＮ次元超球面になる（球面Ｓの面上では「円形」になる）、νの値を大きく取るほど、Ｗｏと又゛とは互いに接近する（なぜならば、Ｗｏと又゛との間の角度θが小さくなるほどｃｏｓθが太き（なるからである）、従ってＣＯＳθが大きくなるような選択をすれば、それに応じて、球面Ｓの面上の円形領域としての判定領域は小さくなる。

（式ｌ）または（式７）の変換式による射影変換の逆変換を行なうことによって、その判定面を再び、Ｎ次元超平面Ｐ上へ射影して戻すことができる。超平面Ｐ上に射影された面が、その超平面Ｐの上に完全に収まる場合には、その面の形状は楕円形になる（例えば、図９において、超平面上の楕円形領域Ａは、球面Ｓ上の超球面（「円形」）領域Ａ゛に対応している）。

ν＝Ｒ”としたならば、判定面は超球面Ｓ上の単一の点となり、空間内の全ての点が判定面の上または外に存在することになり、また、シ＝−Ｒ１とした場合には、全ての点が判定面の上または中に存在することになる。１ν１〉Ｒ３とした場合には、超球面上には解が全く存在しない。

ν＝０としたならば、天゛とＷｏとが互いに直交し、判定面は図８に示すように大円ＧＣになる。この大円をＮ次元空間へ射影して戻したならば、その射影は平面Ｐ上の単なる直線ｉになる。Ｎ次元からこの逆向きの射影を行なった場合には、この直線はＮ−１次元面子面になる。従って本発明に係るネットワークは、ν ＝０に設定することによって、判定境界を形成するための超平面を生成することができる。従ってこの特別の場合においては、前述の従来例に係るＮ次元ネットワークによるものと同じ種類の境界が生成される。尚、出力ノードｕ　ｆｊｌに対応した判定しきい値については、ｕ（ｊｌ＝１／２に設定する必要はなく、従ってａ［０１＝１／２とする必要はない（図３　（ｂ）ｌ照）。

本発明に係るシステムの大きな利点の１つは、いうまでもなく、ニューラル・ネットワークがもはや、Ｍ旦血超平面だけを使用せずども良くなったことにある。

本発明に係る射影方法によれば、ネットワーク（或いはユーザ）は、超平面を使用するか、超球面を使用するか、或いはそれら両方を使用するかについて、具体的な個々の問題の解決に好都合、ないしは有利と思われるものを、選択することができる。これに対して、在来の標準的なクララファイヤは、この選択の可能性を提供していない。また更に別の利点として、本発明では、この射影によって、開いた判定面（例えば、１つの平面の片側の全てを含む判定面）と閉じた判定面（球面境界の中の領域）とのいずれかを選択することのできる選択の可能性をも提供しているということがある。

例えば、複数の入力から成る１つの入力集合を１つのクラスとして分類するために、ある１つの領域（例えば球面領域）を囲む必要がある場合に、超平面しか使えないシステムでは、Ｎ次元の超平面を少なくともＮ＋１枚必要とするのに対して、本発明に係るネットワークでは、１つの超球面だけで事足りる。また１本発明に係るネットワークでは、空間を２つの半空間に分割するには、適切に配置した１枚の超平面だけで事足りるのに対して、超球面クララファイヤでは、−Ｍ的に、１枚の超平面を許容可能な精度で画成するためには多くの超球面が必要であり、しかもこの問題は、次元数が大きくなれば更に面倒なものになる。

重み　びしきい　の− Ｎ＋１＋１次元面上では、隠れ層ノードへの入力値（Ｗ＋　・又“−ν）が可能最大値を取るのは、どの隠れ層ノードについても、また、そのしきい値がどのような値であっても、ｖｖ’＝ｘ“のときである。従って、隠れ層の中にある、ノードｙ　（ｊｌの重みベクトルＷＪ’を、クラスＣの、ある入力又、°に等しく設定しておけば、即ち、Ｗ　Ｊ　’　：＝又、゛としておけば、後になって、ある入力ベクトルが射影されたものが又１°であったときに、この第ｊ番ノードｙ　（ｊｌが、最大値を発生することになる。従って、この第ｊ番ノードはクラスＣの「プロトタイプ」になり、この第ｊ番ノードは、又、°が入力されたときに最大限に発火するように構成されたことになる。しきい値ν、は、そのプロトタイプを中心とした次元面判定領域の半径を定めるものとなる。

別の説明の仕方をするならば、例えば、ニューラル・ネットワークに、絵図の入カバターンを認識させたいと考えており、即ち、「木」、「家屋」、「人物」等に対応した入力ベクトルを認識させたいものとする。ここで、木と、家屋と、人物像との、その各々について１０通りずつの異なった姿のものに対応した、射影された入力ベクトル（即ち「プロトタイプ」）を構成するものとする（木についてのプロトタイプを、′ｆ、（１）、１Ｆ２１　、　、、、　、工（１ｏ）で表わし、家屋についてのプロトタイプを、Ｆｌ　（１）　、　Ｆ１ｆ２＋　、　、、、　、　Ｆｌ　ｆｌｏｌで表わし、人物像についてのプロトタイプを、ｐ（１）、　ｐｆ２１　、　、、、　、　ｐ（１０１で表わす）。それらプロトタイプを構成するには、例えば、典型的な１０種類の木、典型的な１０種類の家屋、それに典型的な１０種類の人物像を夫々に写した実際の写真を、一般的な走査装置を用いて走査して、夫々に対応したＮ次元の表示を生成し、続いてそれらＮ次元の表示を、例えばＣ式１）等を用いて、Ｎ＋１次元の面上へ射影する。これによって、ベクトルＬ　Ｆｌ、及びｐの各々は、Ｎ＋１個の成分を持つようになり、また、その大きさがＲになる。

以上のようにするならば、入力ベクトルの正規化とは別個に初期重みベクトルの正規化を行なうことが不要になる。なぜならば、入力ベクトルそのものが、重みベクトルの初期値として使用されるからである。（式８）及び（式９）を使用すれば、重みベクトルの更新値も超球面の面上に存在するように制約されることになるため、重みベクトルは、射影された入力ベクトル又゛と全く同様に、常に面Ｓの上にとどまるように拘束されることになる。

続いて、ネットワークを、少なくとも３０個の中間ノードｙ　ｆｊｌを含むように設定しくＭ２Ｂ５）、更に、それら中間ノードの各々の重みベクトルｗ’　（Ｎ＋１次元）を、３０個のプロトタイプの夫々１個ずつに等しく設定する。こうすることによって、入力ベクトルがたまたま３０個の既知のプロトタイプのうちのいずれか１つと等しかった場合には、中間ノードのうちの１つが最大限に発火することになる。なぜならば、その中間ノードの重みベクトルが、射影された入力ベクトルと完全に一致することから、Ｗｏ　・又’　＝Ｒｉ　＝重みベクトルと入力ベクトルどの間の最大限の一致、となるからである。

動作に関連させて説明するならば、以上のようにするということは、実際の値から取り出したプロトタイプ値を、中間層のノードの重みの初期「任意推定」値として使用することによって、一番最初の値である任意推定値の全てが、入力ベクトルの既知のクラスの中に入るようにしているのである。ここで再び図９を参照して説明すると、初期の重みをプロトタイプに等しく設定することによって、ネットワークは入力ベクトルの様々なりラスに対応した境界を、たとえ完全でないにしても、良好な境界にした上で、みずからの学習を開始することができるのである。球面上の１０個の領域から成る１つの領域群Ａ　ｔ＋は、「木」に対応した領域群となり、別の１つの領域群Ａ、＋は、「家屋」に対応した領域群となり、更に別の１０個の領域から成る１つの領域群Ａ、′は、「人物像」に対応した領域群になる。

中間ノードの各々について、それに対応するしきい値νを選択することによって、各々の領域を（その半径を）どれほどの大きさにするかを選択することができる。クラスの大きさの見当がつかない場合には、初期しきい値を任意推定値にして、学習プロセスの実行中にその値が修正されて最適な大きさになるようにすれば良い。

射影面上の判定面（超球面）の中心を置くべき位置が自分で分かつており、しかも、その判定面の半径を然るべき大きさにしたいという場合には、上に示した夫々の式に従って、そうするための適当な重みベクトル（これによって中心を定める）と、しきい値（これによって半径を定める）とを自分で算出すれば良い。

更には、重みベクトルを、射影された入力ベクトルに対して直角になるように意図的に設定し、且つ、しきい値υを「０」に設定することによって、Ｎ次元入力空間（基礎平面Ｐ”）上の既知の直線と交わるプロトタイプ超平面を生成することができる。

本発明についての実験を行なって判明したところによれば、本発明に係るネットワークは、初期の重みを、次元を高くした正規化したプロトタイプに等しく設定することができるため、公知のネットワークを用いた場合に可能な収束時間と比べて、格段の短時間のうちに最適重み値へ収束することができ、即ち、入力ベクトルを正しく分類することができるようになる。また、その初期設定値が、最適解の値に近いため、先に説明した典型的な局所的最小値を含む領域や、高原形状の部分を含む領域を避けることができる０図４（ａ）に示したように、良好な初期「任意推定値」を包含するように、超平面の枚数と位置とを適切に決定することは計算処理の点から困難であるが、本発明では、例えば実際の既知のプロトタイプ・ベクトルの射影等のベクトルを、ただ１つ用いるだけで、閉じた境界領域を定めることができる。

スケーリング入力ノードの値にスケーリングを施して、その値を、０〜１の範囲ではなく、− 〇、５〜＋０．５の範囲で（或いはその他の、小さな負数から小さな正数までの範囲で）変化させるようにすれば有利になるという問題が多く存在している。

本発明に係る射影ネットワークでは、非常に次元が高い（Ｎが大きい）問題に関して、それが重要な意味を持つことがあり、なぜならば、非常に高次元の問題を扱うと、Ｗｏ　・又゛が大きな数になりがちだからである。例えば、又°がＮ＋１次元ベクトルであって、その成分の大きさがいずれも略々「１」であり、更に、Ｗｏを又°に等しく初期設定したならば、Ｗｏ　・又°は、略々Ｎｘ”−ｎ” の大きさになり、この式においてＸは、又°の大きさを表わしている。例えば、Ｎ＝５０の高次元問題では、Ｗ“　・又゛が非常に大きくなり（ｒ２５００Ｊ＜らいになる）、そのため、その値を修正することができるようにするためには、 νの値を非常に大きな値に設定することが必要になる。

それによって生じる問題は、シグモイド関数（図３（ｂ）に示した）が、大きな数と大きな数との差に対して適用されるようになるということである。数値解析の分野では良（知られていることであるが、これによって、中間層の活動状態が「０」か「１」かのいずれかになってしまう（換言すれば、中間ノードにおける「精細度」が失われ、中間ノードの値が「全て」か「皆無」かのいずれかになってしまう）おそれが生じている。そして、そうなってしまうと、ネットワークの学習プロセスの進捗速度が低下する。従って、Ｗｏ　・又°及びνは、シグモイド関数の中央の、直線状の、傾斜領域に充分近い位置から離れないように維持することが、一般的に望ましいといえる。

辺斯土力重みこれより図７について説明する。各々の出力ノードＵは、少なくとも１個の中間ノードｙに結合している。好適実施例においては、ある出力ノードの値は、その出力ノードに結合している複数の中間ノードの重み付は総和に等しく設定されることもあれば、その重み付は総和に対してシグモイド関数を適用した値に設定されることもある。これは、先に（式５）に関連して説明したとおりである。従って、ｕ（１）については、ｙｆｌ）　、　ｙｆ２１　、　ｙ（３１、及びｙ（４）に結合していることから、下式のようになる。

または、これらの式において、ｑ　＋　（ｉｔは重みベクトルす、の第１番目の成分であり、「・」はスカラー積であり、μ、は出力ノードｕ（１）のしきい値である。

本発明の好適実施例においては、各々の出力重みベクトルの各々の成分は、中間ノードが、それが結合している出力ノードと同じクラスの入力に対応しているのであれば「ｌ」に初期設定し、また、中間ノードがその他のいずれかのクラスのものであれば「０」に初期設定するようにしている。尚、本発明では、重みの値を、それら以外の、「０」と「１」との間の値とすることも可能である。好適実施例の方法では、初期設定は下式で表わされる。

この式において、ｙ　ｆｉｔがクラスにのプロトタイプであれば、δ□＝１であり、ｙ　（ｉ）がクラスにのプロトタイプでなければ、δ□＝０である。

しきい値μは「０」または「０」に近い小さな値に初期設定しておき、それによって、異なったクラスのプロトタイプからの小さな影響を打ち消すようにしている。ネットワークの学習が進むにつれて、以上のように初期設定した重み及びしきい値が、その学習手順に従って変更されて行く。このレベルでの好適な学習手順は、先に説明した最急降下法である。尚、出力ベクトルを球面上に拘束する必要はないことに注意されたい。

ネットワークの　離　び　離− 図１０は、本発明に係るニューラル・ネットワークの更に別の利点を明らかにしている。その利点は、射影方法を使用しているために得られるものであって、１つのニューラル・ネットワークを、場合によっては、互いに分離した複数のモジュールに分割することができ、それによって学習を容易化することができるというものである。図１０は、ニューラル・ネットワークの一部分である、４個の出力ノードｕ　（１）〜＋ｉ　（４）と、１２個の中間ノードｙ　（１）　〜ｙ　（４）とを示している。

出力ノードｕ（１）、ｕ（２璽ｕ（３１，またはｕ（４）が活性化し、即ち「発火」したならば、それは、入力が、夫々ｒＡＪのクラス、ｒＢＪのクラス、「Ｃ」のクラス、または「Ｄ」のクラスに所属するものであると、ネットワークが判定したことを表わしている。ある出力ノードが活性化したということは、その出力ノードの値がその出力ノードの所定のしきい値を超えたか、或いは、その出力ノードの値がその他の出力ノードの値よりも大きかったか、等々であることを意味している（活性化のための基準は、所与の問題に関する既知の必要事項や、その問題の特性等に応じて選択すれば良い）。

ノードｙ（１）〜ｙ（３）は、クラスｒＡＪのプロトタイプであり、それらノードの重みベクトルは、クラス「Ａ」に所属するものであることが知られている夫々のサンプル入力に等しく初期設定されている。ノードｙ（４）〜ｙ（６）は、クラスｒＪのプロトタイプであり、それらノードの重みベクトルは、クラスｒＢＪに所属するものであることが知られている夫々のサンプル人力に等しく初期設定されている。その他の中間ノードｙ（７）〜ｙ　（１２）は、その他の文字のプロトタイプであり、それらノードの重みベクトルは、対応する文字の夫々のサンプル入力に等しく初期設定されている。

ネットワークの学習が行なわれて（この学習はｒＡＪのクラスまたはｒＢ」のクラスのいずれか一方のついて、そのクラスに所属することが分かっている複数の学習用入力ベクトルから成る所与の学習用入力ベクトル集合に関して、重みとしきい値とを修正することによって行なわれる）、夫々のクラスが充分に区別され、その結果、「Ａ」に対応したプロトタイプ及びｒＪに対応したプロトタイプによって形成された夫々の領域と、「ｃ」に対応したプロトタイプ及び「Ｄ」に対応したプロトタイプによって形成された夫々の領域との間の重なりが、小さいか或いは皆無になったものとする。このようになったならば、それは、中間ノードｙ　ｆ７１〜ｙ　ｆ１２１が、おそらくは、出力ノードｕ　（１１及びｕ（２）の値には決して寄与しないであろうということを意味しており、即ち、ｕ　（１１及びｕ（２）と、ｙ（７）〜ｙ　（１２１との間の結合に対応した重み（即ち、夫々の重みベクトルｑの中の成分）が、殆どｒＱＪになるであろうことを意味している。

これを手短にいうならば、図１０に示したニューラル・ネットワークの一部分は、実質的に、互いに分離独立した２つのネットワークとして動作しており、そのうちの一方は「Ａ」と「Ｂ」とを区別することを習得しようとしており、他方はｒＣＪとｒＤＪとを区別することを習得しようとしているのである。これが可能にしたのは、また更に、それを単なる可能性以上の蓋然性にまで高めたのは、本発明に係るネットワークに備わった、空間Ｓの良好に規定された領域から始めて、多くの場合その良好に規定された領域の中に最後までとどまっていられるようにすることのできる能力である。これによって更に、複数の入力クラスを明確に分離させることができることから、ネットワークに学習させる際に、互いに分離独立した２つの（或いは３つ以上の）ネットワークとして学習させ、夫々が学習を終えた後に、それらネットワークを再び併合して１つのネットワークにすることが可能になっている。

ここで、我々が、ネットワークにＡ−Ｚの文字を認識するための学習を行なわせた後に、更に０〜９の数字も認識させたいと考えたものとする。本発明に係るネットワークに関しては、その場合に、我々は、新たな別のネットワークに数字を認識するための学習を行なわせた上で、その新たなネットワークを、文字を認識することのできる元のネッ１−ワークに併合すれば良く、従って、従来例のネットワークでは必要とされていた、そのネットワークの全体をゼロから再学習させるということが、本発明に係るネッ）−ワークでは不要となっている。たいていの場合にはクラスどうしの間に幾らかの重なりが存在しているため、通常は併合後に更にある程度の学習をさセる必要とされるが、しかしながら、そのための学習時間は、ゼロから再学習さゼる場合に必要とされる学習時間より、はるかに短いのが普通である。このモジュール式学習法は、更に、文字Ａ−Ｚの新たなフォントを追加したいという場合にも有利であり、なぜならば、新たなフォントの文字は、それまでとは全（異なった、入力画像の新たなりラスによって表わされるのではなく、それら文字の新たなプロトタイプによって表わされるからである。

特に、異なったプロトタイプどうしの間の重なりが多い場合などには、多量の追加学習を行なうことなく、１つのネットワークを分離して複数の「サブネットワーク」にしたり、複数のサブネットワークを併合して１つのネットワークにしたりすることが、不可能なこともままあるが、本発明のネットワークを採用すれば、多量の追加学習を行なうことなくそれらを行なえる確率が大幅に上昇する。

なぜならば、本発明では、プロトタイプを、良好な初期の任意推定値として使用しており、そのために、本発明では、その最適化手順が、最適点に非常に近いところから始まる（即ち、「高原」から始まったり、大域的最適点から遠いところから始まることがなく、局所的最適点に過ぎない点に「捕らえられて」しようおそれがない）からである。

複数９狸れ厘本発明の適用は、隠れ層を１層しか備えていないニューラル・ネットワークに限られるものではなく、本発明に係る射影ニューラル・ネットワークは、任意の数の隠れ層を備えたものとすることができる。図１１は、２層の隠れ層即ち中間層を備えた、パターン認識問題への応用形態を説明するための図である。ここで暫時、再び図２について説明することどし、ニューラル・ネットワークが、英文字の画像をディジタル化した表示に基づいて、それら英文字の認識を行なう場合について説明する。

既述の如く、図２の「Ａ」は、例えば１００個の数から成るストリングで表わすことができ、そのストリングは、グリッド要素２４〜２６．２４．３６．４３〜４７．５３、および５７が「１」であり、その地金てのグリッド要素が「０」であるようなストリングである。ここで、図示の文字がグリッドの行にして３行分だけ下方へずれたものとする。この場合、図中に影を付けて示した第４３番のグリッドのコマは、第７３番のグリッドのコマへ移動することになる。こねによって、画像の形状は完全に元のままであるにもかかわらず、その画像を表わす成分数が１００個のベクトルによるベクトル表示は非常に異なったものとなる。

以上のことを考慮すれば、表示方式を以上のものとは変えて、ｒＡＪの画像、並びにその他のクラス（その他の文字）の画像を、それら画像の特徴要素によって表示する表示方式にすることが考えられる。例えば、図２に示した「Ａ」は、カギ形「△」と線分「−」との組合せとして表わすことができる０図示の「Ａ」のフォントでは、グリッド内のどこに「Ａ」が配置されていても、それら特徴要素は不変である。いうまでもな（、これは、その他の文字の特徴要素についてもいえることであり、また、どのようなフォントについても、略々いえることである。

従って、判定領域を決定するためには、ニューラル・ネットワークが、先ず最初に、複数の入力をそれら入力の特徴要素について分類し、その後にそれら特徴要素を、例えば図１Ｏに示した様々なフォントのような、夫々のフォント、及び文字ごとに分類するようにすれば、多くの場合、より効率的に判定領域を決定することができるようになる。特徴要素には、例えば、射影された入力画像がループ形になるか、それとも、直線、カギ形、或いは、点になるかというような、実質的に不変の特性が含まれ、また更には、例えばグリッドのどの領域に、その画像の中心があるかというような、その他の特性も含まれる。

図１１に示したネットワークの一部分は、そのような多段階分類に適するように構成したものであり、第１隠れ層Ｊ＋’は、特徴に対応した重みベクトルＷ°（１）と、しきい値νｌｌ＋　とを持ち、第２隠れ層ｙよけ、フォントに対応した重みベクトルｗ””と、しきい値ν１２１　とを持つ（図１１において、上付文字の数字は層を示すものであって、繰り返し回数を示すものではない）、図１１において、入力ベクトルは、その他の場合と同様に射影され、それによって、射影された入カベクト・ル又゛が形成され、この射影された入力ベクトル又“の次元は、射影される前の入力ベクトルの次元より、少な（とも１次元は高い次元である。中間層の値や重みは、必ずしも常に射影する必要はないが、それらのうちの幾つか、或いはそれらの全てを射影するようにしても良い。

２層以上の隠れ層を備えたネットワークの学習の仕方も、隠れ層を１層しか備えていないネットワークの学習の仕方と実質的に同じである。ただし、多層ネットワークでは、誤差関数が、全ての中間層の全ての隠れノードの、全ての重みベクトル及びしきい値の関数になる。図１１に示したように、本発明によれば、中間ノー　ドの値によって形成されたベクトルまでも射影及び正規化するために、中間ノードに１個または２個以上の追加ノードを加えることも可能である。複数の中間層のうちの１つの層または２つ以上の層の出力に対してシグモイド間数０を適用することが好ましいが、ただし、それが絶対に必要なわけではない。

上で説明した隠れ層が１層のネットワークと同様にして、第１隠れ層ｙ＋’の各ノードの初期の重みベクトルは、夫々の特徴の画像の既知のプロトタイプに等しく設定すれば良い。第２隠れ層ｙ２の各ノードの初期の重みベクトルは、夫々のフォントの画像の既知のプロトタイプに等しく設定すれば良い。そのようにすれば、その学習手順は、隠れ層が１層のニューラル・ネットワークのための学習手順と実質的に等しくなり、それによって、しきい値νが修正されると共に、重みベクトルが修正され且つ球面（或いはその他の正規化面）の面上に存在するように拘束されることになる。

先に説明したものと同様に、このネットワークのうちのある部分が分離可能であるならば、その部分を独立的に学習させた上で再併合することができる。そうすることによって、ネットワークの最初からの再学習を行なわずとも、新たな特徴ないしフォントを追加することが可能になる。

又数−工嵌至本発明に係るネットワークは、パターン認識や分類以外の用途にも好適に応用し得るものである。その他の用途領域のうちの１つに、関数光て嵌めと呼ばれている種類の問題がある。図１２（ａ）は、１次元関数ｆ　ｆｘｌを示しており、この間数ｆの値は１つだけの入力変数Ｘによって決まる（殆どの場合には、関数ｆは幾つかの入力値、即ち「引数」を持っている）。ここで、入力値Ｘ冒こ対してはこの間数ｆが、値ｆｆｘ、ｌを取ることが知られており、入力値ｘ２に対してはこの間数ｆが、値ｆ　（ｘ２１を取ることが知られており、以下同様であるものとする。

また、４つの入力値Ｘ、〜ｘ４が既知であるものとする。この場合、それら入力値から成る１つの入力値集合（ｘ＋、Ｘ！、Ｘｓ、Ｘａ　）に対して、既知の１つの出力値集合（ｆ（ｘ＋ｌ、ｆ　（ｘ、ｌ、ｆ　（ｘｓ）、ＨＸ、ｌ）が存在する。以上において、ある１つの入力値Ｘ工が未知であるときに、既知の入力値から成る入力値集合の知識に基づいて、その入力値に対応した関数値ｆ　ｆｘ、ｌをめられるようにしたいと考えることがあり得る。例えば、そのｘｕに対応した関数値が、他の既知の入力値に対応した関数値より、Ｘ冒こ対応した関数値の方に近い値であるのか否かを知りたいと考えることがあり得る。

このような問題は、入力空間内の所与のベクトルに対して、その入力ベクトルに最も緊密に対応している出力空間内のベクトルを決定することを目的としている点において、パターン認識問題と同類の問題である。従って、本発明に係るニューラル・ネットワークは、この種の問題に対しても、パターン認識問題の場合と同様の方式で適用することができる。

Ｎ個の人力値が存在しているならば、先ず最初に、それら入力値によって１つのＮ次元ベクトル又を形成する。続いて、先に説明したと同様に、この入力ベクトルを球面（或いはその他の正規化面）へ射影し、それによって、Ｎ＋１次元の射影された入力ベクトル又°形成する。このようにしたならば、夫々の中間ノードが、その射影された入力ベクトルの、重み付けしてバイアスをかけた総和として、それら中間ノードの値を形成し、更に、複数の出力値から成る１つの出力値集合を含んでいる１つの出力ベクトルが、それら中間ノードの値の、重み付けしてバイアスをかけた総和として形成される。

また、本発明に従って、隠れノードの初期の重みをプロトタイプ人力ベクトルに等しく設定する。この後、ネットワークへ複数の学習用入力ベクトルを与えると、ネットワークは、それら学習用入力ベクトルを射影し、出力値をめ請求めた出力値を既知の望ましい出力関数値と比較し、その比較の結果に基づいて重み及びしきい値の修正を行ない、そして以上のことを、与えられた学習用入力ベクトルの集合に関して誤差が最小になるまで繰り返す。

図１２（ｂ）は、航空機に作用する風の影響を補償するための幾つかのフライト・パラメータの値をめる関数光て嵌め問題に、本発明に係るネットワークを適用した、大幅に簡略化した具体例を示した図である。この具体例は、単に説明のためのものに過ぎず、充分な機能を備えたニューラル・ネットワーク式自動操縦装置には、図示した以外のその他の入力パラメータ及び出力値も、先ず間違いなく必要とされている。

この図示例において、高度、対気速度、針路、風速、及び風向についての既知の値の集合に対し、それに対応した、その風の影響を補償するための、エンジン推力、高度修正、及び修正角についての既知の値の集合が存在するものとする。

また、計算ないし実験を行なうことによって、対応する５０組の出力値集合を発生させる５０組の入力値集合をめるものとする。それら入力値集合及び出力値集合が得られたならば、各々の入力値集合について、その入力値集合の複数の入力値を組合せることによって１つずつの学習用入力ベクトル又を形成することができ、また、それら既知の出力値集合の各々について、その出力値集合の複数の出力値を組合せることによって１つずつの望ましい出力ベクトルを形成することができる。

先に説明した場合と同様に、その入力ベクトルに、少なくとも１つの追加の射影成分が追加されて、射影された入力ベクトル又°が形成される。更に、これも先に説明したパターン認識用途の場合と同様に、初期設定を行なった後に、誤差が最小になるまで、正規化した重み及びしきい値の修正を繰り返して行なう、ただし、パターン認識問題では、一般的に、ニューラル・ネットワークは、１組の出力ノードのうちのどの出力ノードが「最良」か、即ち、どの出力ノードが所与の入力ベクトルに「最も近い」かを判定しようとしており、別の言い方をするならば、その入力ベクトルが１組のクラスのうちのどのクラスに所属するのかを判定しようとしている。これに対して、関数光て嵌め問題では、一般的に、出力ノードから実際に出力される量としての値をめようとしている。即ち、関心を持たれているのは、ある入力が「推力」に関するものか、それとも「高度修正」に関するものかということではなく、所与の入力プロフィールに対して、いかなる値の推力と、いかなる値の高度修正とを適用すべきかということである。そのため、夫々の中間ノードの出力値を形成させるそれら中間ノードへの入力値に対しては、通常、シグモイド間数０を適用しないようにしている。

自動操縦装置等の関数光て嵌め問題への応用においては、複数の「状況プロフィール」（「状況プロフィール」は、複数の入力値から成る既知の学習用ベクトルに対応している）から成る状況プロフィール集合を使用して、それら状況プロフィールの各々に対応した適切な「応答」をめるようにする。ネットワークの「学習」は、その学習用ベクトル集合に関する、そのネットワークの全体的応答が、できるだけ、望ましい全体的応答に近付くように、そのネットワークの重み及びしきい値を修正することによって行なわれる。実地の動作においては、計測され或いは算出された複数の入力パラメータが１つの入力ベクトルとしてネットワークに与えられたときに、そのネットワークが決定する出力値は、それら入力パラメータに対する適切な応答であるとそのネットワークが判定した結果を表わしており、このネットワークの判定は、学習用ベクトル即ち「プロフィール」に対する望ましい応答に関する、このネットワークが持っている知識（重み及びしきい値の形で組み込まれている）に基づいて行なわれている。従って、ネットワークは、一般的に、有限個の学習用ベクトルによって蓄積した、離散形表示に基づいて、補間ないし近似を行なうことによって、連続した「応答関数」導き出すように機能している。

ここで、図１２（ａ）に例示した一次元関数当て嵌め問題に説明を戻す。ニューラル・ネットワークが入力としてｘｌを受け取ったならば、このニューラル・ネットワークの「出力ノードＪ（ｆ（ｘ））は、値ｆ（ｘ、）を取るべきであり、また人力Ｘ□に対しては、ｆ　（ｘ、ｌを発生すべきであり、以下同様である。

さて、学習を終えて実地に機能しているときに、このニューラル・ネットワークが、入力として、それについては学習をしていない値Ｘ１１を受け取り、その値Ｘ、が、Ｘ＋とｘ２との「間のｊ値であったときに、このユニ−ラル・ネットワークは「正しいｊ値ｆ　ｔｘ−）に、できるだけ近い値を出力せねばならない。

しかしながら、その実地の動作において、既知の関数値は、学習用ベクトルに対応した関数値だけであり（しかも必ずしも正確であるとは限らない）、従って「正しいコまたは「最適な」値ｆ　［ｘｓｌは、分かつていない。そこで、ニューラル・ネットワークは、学習用ベクトルに対応した離散した関数の点に基づいて、みずからの重み及びしきい値を、誤差関数を最小にするような値に選択するということを通して、複数の既知の値に最も良く当て嵌まる関数のパラメータをめるという動作に事実上等しいことを実行している。ここで［最も良く当て嵌まる」というのは、その当て嵌めた関数が、選択されている誤差関数の値を最小にする関数であるという意味である。

大部分の関数光て嵌めの用途においては、各入力ベクトルの中に、複数の成分（例えば「高度」、「対気速度」、等々の変数）が含まれており、従ってその関数は、ベクトル関数になっている。更に、一般的には、出力値も複数であるため（「推力」、「トリム角」、等々がある）、出力関数それ自体もベクトル関数である。そのため、ネットワークは、入力ベクトルに対する出力ベクトル関数と、それに対応した「目標」出力ベクトルとの間の差を表わす誤差関数を、最／ＪＸＧこするための動作を実行している。

図１２（ｂ）の、大幅に簡略化した具体例の自動操縦装置の用途墨こおし１でｌよ、航空機の公知の航空電子工学システムが、高度、対気速度、針路、等々の現在（直を算出する。算出された値は、その数値の形で、ニューラル・ネットワークへ、入力ベクトル又として与えられる。ニューラル・ネットワークＬ！、その入力ベクトルを、先に説明したようにして射影し、それによって、射影された入力ベクトル又°を生成する。

続いて、その射影された入力ベクトルに対して、学習中に決定された、射影された重みＷｏ及びしきい値νが適用され、そして更に、夫々の隠れノードの（直両こ対して、出力重み可と出力しきい値μ（もし使用してしするのであれ番りとが適用されて複数の出力値が形成される。それら出力値が航空機の！制御システムによって使用され、推力、高度、トリム角、等々が修正される。

ただし、この関数光て嵌めの用途において誤差関数を最小へする方法もよ、入力ベクトルと重みとを共に正規化面の面上に射影することも含めて、］（ターン認識の用途において誤差関数を最小にする方法と基本的に同一である。学習速度並びに計算処理の効率に関して得られる利点もまた同じである。

ヱ翌土題ユヱ三ヱ之区り図１３は、本発明に係るニューラル・ネットワークの学習手順の簡略イヒしたブロック図である。図１３に示したようにＮ次元の入力ＲターンＨＩ］ち入力ベクトル（６個の点で示した）に１つの成分を付加して、Ｎ＋１次元の射影された入カッ＼ターン即ち射影された入力ベクトルを生成する。この射影された入力ベクトルの各々の成分を、ニューラル・ネットワークの中のＮ＋１個の入力ノードのうちの１個ずつに対応した値として割当てる。ニューラル・ネットワークＧよ、重み、しきい値、等々を用いて、先に説明したように、射影された入力ベクトルの評価な行ない、それによって、複数の出力ノード値から成る１つの出力ノード値集合を発生する。！いて、そのネットワーク出力（即ち、それら複数の出力ノード値を組み合わせて１つの出力ベクトルにしたもの）を、望ましい出力との間で比較する（即ち、誤差関数Ｅ（式６）の評価を行なう）。

最後に、その誤差が、許容可能な所定の限度値より小さかったならば、この学習手順は終了し、ネットワークは動作を停止する０以上によって、ネットワークの重み及びしきい値は、誤差関数によって示される、充分な精度が得られる値に収束する。一方、誤差関数の値が大きすぎたならば、重みベクトル及びしきい値を修正して（それにはΔＷを（式８）及び（式９）に従って算出する）、システムは再び入力ベクトルの評価を行なう０重み及びしきい値の修正を充分な回数行なった後には、通常、ニューラル・ネットワークは収束する。

１三五ヱヱスＱ」釈図１４は、射影された重みベクトルＷの「初期の任意推定値」として使用するプロトタイプ値を選択するための、本発明に係るプロトタイプ選択方法のブロック図である。Ｎ＋１次元の１つの射影された入力が、既知のクラスに所属する１つのプロトタイプ・ベクトルを表わしている場合に、我々は先ず最初に、超球面を使用するか、それとも超平面を使用するか（例えば、判定空間が直線の境界を持った領域であることが分かっている場合などには超平面を使用する）を決定する。超球面を選択した場合には、ネットワークは、中間ノードｙ　（ｊｌのＮ＋１次元の重みベクトルＷ、を、射影された入力ベクトルに等しく設定し、更にしきい値を、プロトタイプ超球面が、Ｎ次元空間（平面Ｐ０）に射影されて戻されたときに所定の半径を持つようにすることのできる値に設定する。

一方、我々が超平面プロトタイプを選択した場合には、ネットワークは、重みベクトルを、射影された入力に直交するように設定し、また、しきい値を「０」に設定する。尚、始めは超球面にしておき、ネットワークが収束したときには、最終的な射影された重みベクトルＷが、射影された入力ベクトルに対して直交しており、且つ、しきい値νが「０」に収束しているようにすることも、また、その逆も可能である。最後に、出力重みベクトルｑ及び出力しきい値μを、それらの所定の初期値に設定する。

に、る！１　システム図１５は本発明に係るパターン認識システムのブロック図である。プロセッサ／コントローラ２０が、内部または外部のデータバスないしアドレスバス２２を介して、入力装置２４と、射影装置２６と、ニューロン結合装置２８と、ネットワーク出力記憶装置３０と、目標値装置３２と、比較装置３４と、出力装置３６とに結合している。

プロセッサ／コントローラ２０は、コンピュータであっても良く、マイクロプロセッサであっても良く、コンピュータないしプロセッサの一部分であっても良く、或いは更に、並列プロセッサとして動作する複数のコンピュータないしプロセッサから成る集合体であっても良い。並列処理が特に有利になり得るのは、非常に次元数の大きなパターン認識問題の場合であって、その入カバターンを、先に図１Ｏの説明に関連して述べたようにネットワークを幾つかに分離させることができるほどに、明確に区別されるクラスに分けることができる場合である。バス２２は、選択したプロセッサ／コンピュータに対してコンパチブルなものであれば、一般的な任意のデータバスないしアドレスバスとすることができる。

入力装置２４は、入カバターンを、Ｎ次元の入力ベクトルを構成するＮ個の数値の入力値を有する数値の形に変換する装置でありさえすれば、どのような装置であっても良い。これに該当する装置の具体例を、限定としてではなく、あくまでも例示として示すならば、例えば次のようなものがある。即ち、ドキュメント・スキャナや、デジタイザがあり、また、ＣＣＤデバイス、ビデオ・カメラ、ラジオテレスコープ、等々を含めた画像スキャナ等があり、それらには、不可視光波長で機能するものも含まれ、また更に、音声デジタイザや、ディジタル地震記録出力装置、等々のものがある。

入力ベクトルのうちには、関数当て嵌めや一般的な最適化にかかわる問題における、サンプリングされた関数値や、予め定められた関数値が含まれることもあの応用に関しては、入力装置２４は、例えば高度計、対気速度計、慣性航行装置ないし無線航行装置、磁気コンパスないしジャイロコンパス等々の飛行装置から送出される測定データを、蓄積したり、機体搭載コンピュータやニューラル・ネットワーク・プロセッサへ入力したりするための、インターフェース及び入力回路に対応するか、或いは、それらインターフェース及び入力回路を含んだものとなる。

入力装置２４はまた、別のプロセッサないしコンピュータである場合もあり、或いは、別のプロセッサないしコンピュータに所属しまたはそれらプロセッサないしコンピュータとの間で共用される、メモリ等の記憶装置である場合もある。

例えば、暗号処理にパターン認識処理が含まれることがあり（認識対象のパターンは暗号化されたものであるが、パターンであることには変わりがない）、この場合、暗号化されたパターンのストリングが、システムへ入力される入力ベクトルを構成することになる。

入力装置２４が生成した数値は、射影装置２６のＮ次元の入力メモリ・バッファの中か、或いは、内部記憶装置または外部記憶装置である記憶装置３８のＮ個のメモリ・ワードの中に設けられているその数値に対応した記憶装置の中に、プロセッサ２０の制御の下に記憶される。コントローラ／プロセッサ２ｏは、この後、Ｎ＋１次元の射影された入力ベクトル又゛を、先に説明したようにして算出し、そのＮ＋１個の成分を、記憶装置３８の中か、射影装置２６に備えられている出力メモリ・バッファの中か、或いは、ニューロン結合装置２８に備えられているＮ＋１次元の入力メモリ・アレイの中かの、いずれかに記憶させる。

ニューロン結合装置２８もまた、複数のメモリ・アレイがら成る１つのメモリ・アレイ集合として構成し、そのメモリ・アレイ集合が以下のメモリ・アレイを含んでいるようにすることが好ましい。先ず、ネットワーク入力アレイを含み、このネットワーク人力アレイは、少なくとも、射影された入力ベクトルのＮ＋１個の成分を記憶してお（ためのメモリ・アレイである。また、中間アレイ、即ち「隠れ」アレイを含み、この隠れアレイは、少なくとも、中間ノードの、値、電池にもある場合には、他の隠れ層の全ての、値、重み、しきい値に対応した追加の記憶位置も有する）メモリ・アレイである。更には、ネットワーク出力アレイを含み、このネットワーク出力アレイは、出力ノードの値を記憶しておくための少なくともに個の記憶位置と、更に、出力重み及び出力しきい値を記憶してお（ための充分な記憶位置とを備えたメモリ・アレイである。

ネットワーク人力アレイは、ｈ（超平面Ｐ０から球面Ｓの中心Ｃまでの距離）等のパラメータを記憶しておくための幾つかの記憶位１をも併せ備えたものとすることもある。射影ルーチンに関連したこの種のパラメータは、このネットワーク人力アレイに備えられた記憶位置に記憶させると共に、或いは、そこに記憶させる替わりに、射影装置２６に備えられている対応する記憶位置に記憶させるようにしても良い。また、射影装置２６の出力（射影された入力ベクトル）は、ネットワークへ入力される値を成すものであるから、単一のメモリ・アレイを、射影装置２６と、二ニーロン結合装置２８のネットワーク人力アレイとの、双方を兼ねるように構成することも可能である。

中間メモリ・アレイは、全ての重みベクトルの全ての成分と全てのしきい値とを記憶させるための記憶位置を備えると共に、更に、例えば、各々の中間ノードがどのプロトタイプに対応しているのかを追跡したいと考えた場合等に備えて、更にその他の記憶位置を含んだものとしても良い。

ネットワーク出力記憶装置３０もまた、出力ノードの値を記憶させるようにしたメモリ・アレイとすることが好ましい。その場合に、ネットワーク出力記憶装置３０は、ニューロン結合装置のネットワーク出力アレイと同じ構成のアレイとすることもでき、或いは、そのネットワーク出力アレイのうちの、出力ノード値を記憶させである部分と同じ構成のアレイとすることもできる。

目標値装置３２もまた、複数の目榎出力ベクトル５ｃ、（図７参照）のうちの、１つないし２つ以上の目標出力ベクトルの成分を記憶させるようにしたメモリ・アレイである。システムの学習段階では、ニューラル・ネットワークからの現在出力ベクトルｎが、比較装置３４の中で目標出力ベクトルと比較され、それによって、その差が、予め設定しておいた誤差しきい値（この誤差しきい値は、比較装置に備えられている記憶位置か、または、システム内の別の装置に備えられている記憶位置に記憶させておく）より大きいか否かを判定する。誤差が、この誤差しきい値より大きかったならば、中間層の重み及びしきい値を算出し直しくこれによってシステムは、最急降下法等の反復式最適化ルーチンにおける次回のステップへ進む）、それら更新した値をネットワークへ返す。

プロセッサ／コントローラ２０は更に、計算処理装置としても機能しており。

先に説明した方法に従って様々な計算処理を実行する公知のハードウェア、ファームウェア、ないしはソフトウェアとするか、或いは、それらを含んだものとすれば良く、それらによって実行する計算処理には、重み及びしきい値を算出するための計算処理、入力ベクトル及び重みベクトルを射影して正規化するための計算処理、誤差関数を評価するための計算処理、最急降下法等の最適化ルーチンを実行するための計算処理、中間ノード及び出力ノードの値をめるための計算処理、目標値と出力値との間の実際の比較を実行するための計算処理１等々が含まれる。

プロセッサ／コントローラ２０は更に、異なった装置や異なったネットワーク層の間のデータ転送（図中にブロック間の矢印で表わした）の制御も行なう。それらデータ転送の全ては、システムバス２２を介して公知の方式で実行することができる。プロセッサ命令、ネットワークのパラメータ、それに重みベクトル等の変数データを永久的または一時的に記憶させるための、プログラム及びデータの格納装置である公知の種類の記憶装置３８も、併せて備えておくことが好ましい。図１５の破線４０の中に囲まれている非プロセッサ装置（プロセッサ以外の装置）については、それらのうちの幾つかまたは全てを、記憶装置によって構成することが好ましく、そうした場合には、プロセッサ２０が必要に応じて実際の計算処理及びデータ転送を実行するようにすれば良く、また、記憶装置によって構成する非プロセッサ装置の全てを、プロセッサ２０に結合した単一の記憶装置の中の夫々の部分に、公知の方式で構成するようにしても良い。

更には、用途によっては、システムのうち破線４０に囲まれている部分の全てを、単一のプログラマブル集積デバイスの中に（例えばＶＬＳＩ技術を用いる等して）組み込むことも可能である。そうすれば、要求条件ないし空間的制約が周知のものであるような用途において、特大きな利点が得られる。例えば、ニューラル・ネットワークに、所望のフォントを認識するための学習をさせたり、ロボットのアームを所望の方式で制御するための学習をさせた後に、そのニューラル・ネットワークを大量生産の集積回路の中に構成して、その集積回路を例えばドキュメント・スキャナや、生産ロボットに組み込むようにすることができる。

出力装置３６は、ニューラル・ネットワークの学習の結果なり、未知の入力ベクトルを用いた非学習モードの動作におけるニューラル・ネットワークの実地の判定の結果なりをユーザへ表示する装置であれば、どのような装置であっても良い。ディスプレイ装置でも、音声合成装置でも、ブロックでも、或いは更に別のコンピュータ・システムでも、いずれも出力装置として使用することができ、ユーザが、ネットワークの結果をどのようにして知りたいかに応じて、適当なものを選択すれば良い。

例えば、あるニューラル・ネットワークが、ドキュメントの走査を行なうためのネットワークとして構成されているとする。この場合には、出力装置を、盲人が本を読めるようにするブライユ点字トランスデユーサとして機能する、１組の小さなソレノイドで構成した装置とすることができる。また、出力装置を、２通りの状態（開放と閉鎖）を有する施錠システムであって、入力装置２４が走査してディジタル化した指紋が、認定されている指紋に一致しているということを、本発明に係るニューラル・ネットワークが認識したときにのみ、解錠するようにした装置とすることもできる。要するに、出力装置は、数値の形で与えられた入カバターンに関するニューラル・ネットワークの判定結果を、ユーザまたは上位システムに対して提示することのできる装置でありさえすれば、どのような装置であっても良い。

叉埴軌作玉二上以上の説明の殆どの部分は、本発明に係るニューラル・ネットワークの、大幅に向上した学習能力に重点を置いていた。この学習能力は、換言すれば、入力ベクトル集合を正確に分類することのできる、重み、しきい値、及びノード結合という様々な値から成る１つの値集合へと収束する能力であった。また、反復式学習方法についても以上に詳細に説明した。

ところで、学習段階が終了したならば、その時点でニューラル・ネットワークの夫々の層に存在している重み及びしきい値は、そのネットワークが様々な入力クラスを可能な限り良好に区別できるような重み及びしきい値になっているものと我々は考える。この後、その学習を終了したネットワークを使用して、未知の入力ベクトルの分類を行なうことになる。例えばそのネットワークが学習モードにあったときに、才一り、楡、楓、杉、それに松という、夫々の木の画像に対応したプロトタイプと、平屋根、切妻屋根、片傾斜屋根、それにドーム形屋根という、様々な屋根を備えた夫々の家屋の画像に対応したプロトタイプとが使用されて、そのネットワークのバラメークが最適化されたものとする。この場合、スプルースの木の画像を数値で表わした実地の入力ベクトルが入力装置を介してシステムの中へ入力されたならば、本発明に係るそのニューラル・ネットワークは、先ず最初にその入力ベクトルをＮ＋１次元次元へ射影し、そして最大の値を持つ出力ノードを判定結果として選択する。もしそのニューラル・ネットワークが、適切に学習をしていたのであれば、「木」に対応した出力ノードが活性化するはずである。

即ち、実地動作モードにおいては、入力ベクトルが所属しているクラスが未知であるため、出力をそれと比較するための「目標」ベクトルはもはや存在していない。そのためプロセッサ２０は、通常、ネットワークからの出力信号を、比較手順を実行することなく、直接に出力装置へ転送し、またそのとき、場合によっては、その出力信号に何らかの変換処理を施して、それを提示するのに適した何らかの所定の形態にしてから、出力装置へ転送することもある。

！挾精里選択した幾つかの問題に、本発明に係るニューラル・ネットワークの原型を適用した。その結果、この射影ネットワークの大きな利点のうちの２つ、即ち、超球面または超平面を使用することによって隠れ層ノードの必要個数を減少させることのできる能力と、重み及びしきい値の初期値を良好な値に設定することによって学習時間を短縮することのできる能力とが、明らかになった。

Ｚ次兄ニス上本発明のテス１−のうちの１つは、簡単な２次元問題に関するものであり、従来のバック・プロパゲーション式ニューラル・ネットワークによって得られる結果（図１６　（ａ）　（ｉｌ〜（ｉｉｉ）に示した）と、本発明に係るネットワークによって得られる結果（図１６　（ｂ）　ｆｉｌ〜（ｉｉｉｌ　に示した）とを比較するようにしたものである。この問題は、２次元空間に分布した、２つのクラスのいずれかに所属する幾つもの点を含んでおり、クラス１は図中にハツチングして示した部分、クラス２はハツチングしていない部分である。また、１つの円形領域と１つの土平面領域との、併せて２つの領域が、クラス１に対応する領域である。

一般的なバック・プロパゲーション式ニューラル・ネットワーク（ＢＰＮＮ）等の、超平面クラリファイヤでは、その円を囲むために３本の直線を必要とし。

右側のハツチング領域を分離するために更にもう】本の直線を必要とする。それら直線の１本ごとに１個ずつの隠れ層ノードが必要であるため、ＢＰＮＮでは、図１６に示した、１つの円と１つの半平面とを備えた問題において、最も粗い分類を行なうだけでも、少なくとも４個の隠れノードを必要とする。

また、ＲＣＥシステム等の、超球面だけを使用するクラリファイヤでは、一般的に、右側のハツチング領域の直線的な境界を画成するために複数の円を必要としくそれら円の各々が１つずつの個別の隠れノードに対応する）、より正確に述べると、円を拡大することが許されておらず、そのため、その円弧部分を「より直線に近くコすることができない場合に、複数の円を必要とする。（図４（ｂ）参照）。ただし、超球面クララファイヤは、円を囲むためには円形プロトタイプが１つだけあれば良く、ただしそれには、その円形プロトタイプを学習時に縮小したり拡大したりできることが条件であり、さもなくば１円を囲むためにも２っ以上のプロトタイプが必要になる。

それらとは対照的に、本発明に係る射影ネットワークは、それら円形領域と矩形領域とを分類するためにプロトタイプを２つしか必要とせず、従って中間層ノードを２個しか必要としない。

のＸ座標とＸ座標とに対応させた。また、１個の出方ノードを備え、この出力ノードが入力点のクラスを表わすようにした０図１６　（ａ）　ｆｉ）に示したように、学習の開始時点では、ＢＰＮＮは、ただ１本の超平面（図中に破線で示した２次元における直りで入力を分類しようとした。

５千回から５万回までの間の試行では、ＢＰＮＮはこの単一の超平面（ＩＩ線）を最適な結果が得られるように修正し、このとき、誤って分類された点の割合は４０％から５０％までの間で変動した。この最適な結果は、局所的最小値であったため、これによって学習に遅れを生じた。５万５千回の試行を行なったところで、ネットワークは第２の超平面（図１６　（ａ）　ｆｉｉｌに２木目の破線で示した）第２の局所的最小値に対応するものであった。

９万５千回の試行を行なったところで第２の超平面が加わり、またその直後に第４の超平面が加わり、以上の超平面に修正が加えられて、図１６　（ａ）　ｆｉｉｉｌに示した最終的な解に到達した。これによって誤り率は２７％から５％へ低下した。このように、一般的なりＰＮＮに認められる、超平面を一度に１つずつ順に加えて行くことによって問題を解こうとする傾向は、従来のネットワークを使用しているときに、このような問題や、多数のクラスを有する問題に関して、局所的最小値によって発生する遅れにとっての、大きな原因となっている。

これに対して、本発明に係る射影ネットワークは、速やかに全ての隠れ層ノードをプロトタイプとして導入するため、不十分な個数の隠れ層ノードしか使用しないために到達してしまう解に対応した局所的最小値を回避することができる。

これを明らかにするために、本発明に係る射影ネットワークを、同じデータについて学習させた。この射影ネットワークは、隠れ層ノードを２個しか備えていないものとし、出力ノードの個数は前述のＢＰＮＮと同じにし、１個の追加入力ノード（射影入力ノード）を備えたものとした。

本発明に係るこのネットワークは、その最初の解（図１６　（ｂ）　ｆｉｌ参照）において既に両方の超球面（２つの円）を使用しており、これは、それら超球面をランダムに選択した入力点に等しく初期設定したことによるものである。学習を始める前の段階で、誤って分類された点の割合である初期誤り率は、２６．８％であった。０回から１万回までの間の試行において、このネットワークは、それら２個のプロトタイプの修正を行ない（図１６　（ｂ）　（ｉｉｌ参照）、その修正によって、一方の円を円形のハツチング領域にできるだけ一致するように拡大し、また他方の円を、それが直線的な境界と重なる直線に近付くまで（これによって対応するしきい値νが「０」に近付く）拡大した。１万回の試行を行なったところで、判定境界がクラス境界と良く一致するようになった。この時点では、誤って分類された点の割合は５８６％に低下していた（図１６　（ｂ）　（ｉｊ、ｉｌ　参照）、即ち、本発明に係るこのニューラル・ネットワークは、従来のネットワークζ比べて、９分の１以下の少ない試行を行なうだけで、同程度の精度（約５％）を達成した。

文字鎧菖ヱ区上更に、本発明に係る射影ネットワークを、より実際的な問題に関して、従来のシステムと比較するテストを行なった。この問題によって更に、本発明のモジュール的性質も明らかになった。ネットワークを光学文字認ｍ　（ＯＣＲ）問題に適用することとし、その問題は、アルファベットの２６文字から成り、それらの各文字は、７Ｘ１０の大きさの、ビクセルのグリッドで表わされるものとし、それらビクセルは−０，５〜＋０．５の範囲の値を取るグレイ・スケール値を持つものとした。

各文字は、各方向へビクセルにして１個分ないし２個分の距離を、平行移動、即ち「変位」しても良いものとし、それによって、各文字がグリッド上で合計９箇所の位置を取り得るようにした。更には、各ビクセルのグレイ値には、０〜１の間のランダムな数に±０．７を乗じた大きさのノイズを加えるようにした。また、ノイズを加えることによってそのビクセル値が−０，５〜＋０．５の範囲から逸脱してしまう場合には、そのノイズ値のはみ出し分を切り捨てて、そのビクセル値が再び−０，５〜＋０．５の範囲に収まるようにした０図１７に示すように、これらの平行移動と、高レベルのノイズとがあいまって、文字（図に示したのはｒＡＪ、「Ｂ」、「ｃ」である）の認識が、人間の目ですら困難なものになった。

標準的なバック・プロパゲーション式ネットワーク（ＢＰＮＮ）は、重みをランダムな値に初期設定したものとし、このネットワークは、その初期値の重みでは、この問題に対して良好に機能しなかった。このネットワークは、７０個の入力ノード（各々が７０個のビクセル値の１個ずつに対応している）と、２６個の出力ノード（各々がＡ−Ｚの文字の１つずつに対応している）と、１千個の中間層ノードとを備えたものであった。６万３千回の試行（これは、３００個の学習用ベクトルから成る１つの学習用集合の全体２１０回通して学習したことに対応している）の後にも、このネットワークは尚、入力のうちの５４．１％を誤って分類した。また、２５万５千回の試行（学習用集合の全体を通した学習回数にして８５０回）の後にも、３２．５％の文字を誤って分類した。

一方、この問題を解くために使用した本発明に係る射影ニューラル・ネットワークは、７０個のグリッド・ビクセルに加えて１個の追加の射影入力ノードに対応した合計７１個の入力と、アルファベットの２６文字に対応した２６個の出力と、２５０個の中間層ノードとを備えたものであった。（全く学習を行なっていない）単なる重み及びしきい値の初期設定だけで、また、中間層ノードを２５０個しか備えていないにもがかわらず、この射影ネットワークが誤って分類した文字は、既に平均２６．９％でしがなかった。僅か１８００回の試行（学習用集合の全体を通した学習回数にして６回）の後には、誤り率は、各クラスについて平均１２．８％にまで低下した。

いつまでもなく、入力集合の中に更に多くのサンプルを含ませ、また、学習時間更にを長くすれば、文字を誤って分類する割合を更に低下させることも可能であった。しかしながら、このような小さな学習用集合であっても、本発明に係るニューラル・ネットワークの、学習能率の大幅な向上が明らかとなった。上述の従来のネットワークは、この入力集合の全体を通した学習を１４１回以上実行した後でも尚、その誤り率の大きさが、本発明に係るネットワークの誤り率に対して、２５０％以上の大きなものであった。更には、本発明に係るニューラル・ネットワークは、これらの非常に優れた結果を、上述の従来のネットワークに必要とされた中間ノードの僅か４分の１の個数の中間ノードを使用するだけで達成したのである。

本発明に係る射影ネットワークのモジュール的特性の利点は、２つの別々に学習させたネットワークを併合することによって明らかになった。一方のネットワークは１２４個の中間層ノードと１２個の出力ノードとを備えたものとして、Ａ〜Ｌの文字を認識するための学習を行なわせた。他方のネットワークは１２６個の中間層ノードと１４個の出力ノードとを備えたものとして、Ｍ−Ｚの文字を認識するための学習を行なわせた。５千回の試行の後には、第１のネットワークは文字の分類の誤り率が３．４％になり、第２のネットワークは文字の分類の誤り率が１．２％になった。これら２つのサブネットワークを併合した後には、追加学習を行なわせる前の段階で、平均分類誤り率は６．９％であった。更に６千回の試行の後にはこの誤り率が３．１％にまで低下し、１万３千回の試行の後にはそれが２．９％になった。この実験における重要な結果は、併合したネットワークは初期誤り率が低かったということであり、これによって、射影ネットワークは殆どモジュール的性質を備え得るということが明らかになり、また、射影ネットワークを併合するという方法が、現実の用途において実際的な方法であるということが明らかとなった。

以上に説明した本発明の好適実施例に係る学習方法は、最急降下法を用いた修正したバック・プロパゲーション方式であった。ただし、重みがＮ＋１次元超球面に拘束されるよう°に注意を払うならば、その他の学習方法もこの射影ネットヮ −りに適用することができる。

ＦＩＧ、　６ＦＩＧ、８ −４ミー　ｔ　索Ｑ多〜＾噛１−一転＼フロントベージの続き（８１）指定国　ＥＰ（ＡＴ、ＢＥ、ＣＨ，ＤＥ。

ＤＫ、ＥＳ、ＦＲ，ＧＢ、ＧＲ，ＩＥ、ＩＴ、ＬＵ、ＭＣ，ＮＬ、ＳＥ）、０Ａ（ＢＦ、ＢＪ、ＣＦ、ＣＧ、ＣＩ、　ＣＭ、　ＧＡ、　ＧＮ、　ＭＬ、　ＭＲ，ＳＮ、　ＴＤ、　ＴＧ）、　ＡＵ、　ＢＢ、　ＢＧ、　ＢＲ，ＣＡ、　Ｃ３，ＦＩ、　ＨＵ。

Ｊ　Ｐ、　ＫＰ、　ＫＲ，ＬＫ、　ＭＧ、　ＭＮ、　ＭＷ、　Ｎｏ、　ＰＬ、ＲＯ，ＲＵ、ＳＤ

Claims

【特許請求の範囲】１．データ処理システムにおいて、ａ）一連の複数の入力データ群のうちの各々の入力データ群を、Ｎ個の数値から成る１つのシーケンスとして表わすことによって、それに対応したＮ次元の基礎入力ベクトルを生成するための、且つ、その基礎入力ベクトルの各々を記憶するための、入力手段と、ｂ）ニューラル・ネットワーク手段であって、ｉ）入力層記憶手段、中間層記憶手段、及び出力層記憶手段を含んでおり、ｉｉ）前記入力層記憶手段は、少なくともＮ＋ｊ個の射影入力記憶装置を含んでおり、ここでｊは所定の正の整数であり、それら射影入力記憶装置は、Ｎ＋ｊ個の数値成分を有する射影されて正規化された入力ベクトルを記憶しておくためのものであり、射影された入力ベクトルの各々は、前記基礎入力ベクトルの１つずつに対応しており、ｉｉｉ）前記中間層記憶手段は、複数の中間記憶装置を含んでおり、それら中間記憶装置は、中間ネットワーク値を記憶しておくためのものであり、ｉｖ）前記出力層記憶手段は、ネットワーク出力ノードを含んでおり、このネットワーク出力ノードは、ネットワーク出力値を記憶しておくためのものであり、ｖ）前記射影入力記憶装置の各々を前記複数の中間記憶装置のうちの所定の中間記憶装置に結合し、且つ、前記出力ノードを前記複数の中間記憶装置のうちの所定の中間記憶装置に結合するための、結合手段を含んでいる、ニューラル・ネットワーク手段と、ｃ）プロセッサ及びコントローラ手段であって、ｉ）前記Ｎ次元の基礎入力ベクトルの各々にｊ個の射影成分を付加して前記射影された入力ベクトルを生成するための、ｉｉ）最下中間層にある前記中間記憶装置の各々について、中間しきい値と各々がＮ＋ｊ個の重み成分を有する中間重みベクトルとを算出するための、そして、ｉｉｉ）前記中間重みベクトルと、前記中間しきい値と、前記射影された入力ベクトルとの所定の関数として出力値を算出するための、プロセッサ及びコントローラ手段と、を備えたことを特徴とするデータ処理システム．２．前記プロセッサ及びコントローラ手段が更に、前記射影された入力ベクトルの成分を正規化することによって、該射影された入力ベクトルの大きさを所定の入力正規化値に等しくし、且つ、前記中間重みベクトルの成分を正規化することによって、該中間重みベクトルの各々の大きさを所定の重み正規化値に等しくするようにしてあることを特徴とする請求項１記載のシステム。３．最下層の重みベクトルの各々についてＮ＋ｊ個の重み成分を含んでいることを特徴とする請求項２記載のシステム。４．前記ネットワーク出力値を所定の目標ベクトルと比較するための比較手段を更に備えており、前記プロセッサ及びコントローラ手段が、前記ネットワーク出力値とそれに対応する目標ベクトルとの差が所定の最小しきい値より小さくなるまで、前記中間しきい値と前記中間重みベクトルとを最算出するようにしてあることを特徴とする請求項１記載のシステム。５．複数の出力ノードを更に備えており、前記プロセッサ及びコントローラ手段が、出力しきい値と出力重みベクトルとを算出するようにしてあり、更に、前記プロセッサ及びコントローラ手段が、前記ネットワーク出力値とそれに対応する目標ベクトルとの差が前記所定の最小しきい値より小さくなるまで、前記中間しきい値及び前記出力しきい値と前記中間重みベクトル及び前記出力重みベクトルとを最算出するようにしてあることを特徴とする請求項１記載のシステム。６．前記入力手段が、入力パターンを表わすためのパターン解像手段を含んでおり、該入力パターンは、その各々が前記複数の入力データ群のうちの１つの入力データ群をＮ個の数値から成る前記シーケンスとして表わすものであることを特徴とする請求項１記載のシステム。７．前記入力手段が、Ｎ個の入力変数値をまとめて前記複数の入力データ群のうちの１つの入力データ群にするためのデータまとめ手段を含んでいることを特徴とする請求項１記載のシステム。８．ａ）前記中間層記憶手段が、複数の中間記憶層の各々に対して複数の中間記憶装置を含んでおり、ｂ）前記複数の中間記憶層が、最下中間層と、前記結合手段を介してこの最下中間層と前記出力層記憶手段との間に結合した、この最下中間層より上の中間層とを含んでおり、ｃ）前記複数の中間記憶装置の各々が、みずからに対応した中間重みベクトルと中間しきい値とを有する、ことを特徴とする請求項１記載のシステム。９．前記プロセッサ及びコントローラ手段が、前記複数の中間層のうちの所定の中間層にある重みベクトルを、その重みベクトルに少なくとも１つの射影値を付加することによって射影するようにしてあり、且つ、その重みベクトルを正規化するようにしてあることを特徴とする請求項８記載のシステム。１０．データ処理方法において、ａ）一連の複数の入力データ群のうちの各々の入力データ群を、Ｎ個の数値から成る１つのシーケンスとして表わすことによって、それに対応したＮ次元の基礎入力ベクトルを生成するステップと、ｂ）前記Ｎ次元の基礎入力ベクトルの各々にｊ個の射影成分を付加することによって、Ｎ＋ｊ個の射影入力成分を有する射影された入力ベクトルを生成し、ここでｊは所定の正の整数であり、更に、その射影された入力ベクトルの各々を記憶しておくステップと、ｃ）前記射影された入力ベクトルの成分を正規化することによって、その射影された入力ベクトルの大きさを所定の入力正規化値に等しくするステップと、ｄ）最下中間層にある複数の中間ノードの各々について、ｉ）Ｎ＋ｊ個の重み成分を有する重みベクトルを生成し、ｉｉ）前記重みベクトルの大きさを、所定の重み正規化値に等しい値に制約ｉｉｉ）前記Ｎ＋ｊ個の射影入力成分の重み付け総和として中間ノード値を生成する、ステップと、ｅ）前記中間ノード値の所定の重み関数として出力ノード値を生成し、その出力ノード値を出力ノードに記憶しておくステップと、を含んでいることを特徴とする方法。１１．前記入力ベクトルは２次元ベクトルであって、平面上のベクトルを表わしており、前記射影された入力ベクトルは３次元ベクトルであって、球面の中心から球面の面上まで延在しているベクトルを表わしており、複数の閉じた判定群の各々が前記球面の面上の閉じた領域に対応している、ことを特徴とする請求項１０記載の方法。１２．ｊ＝１であることを特徴とする請求項１０記載の方法。１３．前記重み正規化値が前記入力正規化値に等しいことを特徴とする請求項１０記載の方法。１４．前記重み正規化値と前記入力正規化値とが定数であることを特徴とする請求項１３記載の方法。１５．ａ）複数の既知の学習用ベクトルから成る学習用ベクトル集合と、その学習用ベクトル集合に対応した、複数の既知の目標ベクトルから成る目標ベクトル集合とを選択するステップと、ｂ）複数のＮ＋ｊ次元の初期重みベクトルから成る初期重みベクトル集合を生成するステップと、ｃ）前記複数の中間ノードの各々について、初期中間しきい値を選択するステップと、ｄ）前記基礎入力ベクトルを次々と前記複数の学習用ベクトルに等しく設定するステップと、ｅ）入力され射影された前記学習用ベクトルと、前記重みベクトルの各々と、前記しきい値の各々との、所定の誤差関数として、誤差関数値を算出するステップと、ｆ）前記誤差関数値が所定の最小誤差値より小さくなるまで、前記しきい値と前記重みベクトルの各々の前記重み成分とを修正した上で前記ステップｄ）及び前記ステップｅ）を繰り返して実行するステップと、を更に含んでいることを特徴とする請求項１０記載の方法。１６．前記しきい値と前記重みベクトルとを修正する際に、前記しきい値と前記重みベクトルとから成る複数の組のうちで前記誤差関数が前記最小誤差値を超えた組の各々について、そのしきい値とその重みベクトルとの最適化を行なうことによってその修正を行ない、更に、その最適化を行なう際に、ｉ）所定の最小化ルーチンに従ってそのしきい値とその重みベクトルとを再算出するステップと、ｉｉ）再算出した重みベクトルに修正を施して、各々の重みベクトルの大きさが前記所定の重み正規化値に等しくなるようにするステップと、ｉｉｉ）入力され射影された前記学習用ベクトルを次々と前記射影された入力ベクトルとして再適用するステップと、を実行することによってその最適化を行なう、ことを特徴とする請求項１５記載の方法。１７．前記複数の初期重みベクトルが、複数の所定のＮ＋ｊ次元のプロトタイプ・ベクトルに等しく設定されており、それらプロトタイプ・ベクトルの各々が前記複数の既知の学習用ベクトルの夫々１つずつに対応していることを特徴とする請求項１５記載の方法。１８．前記複数の入力データ群が、複数のクラスに所属する複数の入力パターンから構成されており、更に、前記複数のクラスの各々について、現在入力パターンがそのクラスに所属する確率に対応した出力信号を生成するステップを含んでおり、それによって、前記入力ベクトルの複雑度をＮ次元から少なくともＮ＋ｊ次元へ増大させ、且つ、前記重みベクトルと前記入力ベクトルとの両方を正規化することで、あり得る出力値についての閉じた判定群が、その判定群の各々に対応した単一のＮ＋ｊ次元の境界領域を用いて画成されるようにした、ことを特徴とする請求項１０記載の方法。１９．前記複数の重みベクトル及び前記複数のしきい値を、複数のパターン重み／しきい値群に分離し、その際に、それら複数のパターン重み／しきい値群の各々が前記複数の入力パターン・クラスのうちの所定の入力パターン・クラスに対応しているようにするステップと、ｂ）前記複数のパターン重み／しきい値群の各々を、個別に最適化するステップと、を更に含んでいることを特徴とする請求項１８記載の方法。２０．前記判定境界の各々が、それに対応する中間しきい値が超平面値に設定されているときには、超平面であり、また、それに対応する中間しきい値が前記超平面値とは異なるときには、超球面であることを特徴とする請求項１８記載の方法。２１．前記複数の入力データ群が複数の入力信号集合で構成されており、それら複数の入力信号集合のうちの各々が、Ｋ次元の出力関数を規定しているＮ個の入力変数に対応したＮ個の入力信号から成る集合であり、更に、前記出力関数の現在値を表わすための少なくともＫ個の出力ノード値を生成するステップを含んでおり、それによって、前記入力ベクトルの複雑度をＮ次元から少なくともＮ＋ｊ次元へ増大させ、且つ、前記重みベクトルと前記入力ベクトルとの両方を正規化することで、あり得る出力値についての閉じた判定群が、その判定群の各々に対応した単一の少なくともＮ＋ｊ次元の境界領域を用いて画成されるようにした、ことを特徴とする請求項１０記載の方法。２２．最下中間層と最上中間層とを含んでいる複数の中間層を構成するステップであって、それら複数の中間層の各々が複数の中間ノードを有し、それら複数の中間ノードの各々が、その中間ノードに対応した中間ノード値と、その中間ノードに対応した中間重みベクトルと、その中間ノードに対応した中間しきい値とを有するようにするステップを更に含んでいることを特徴とする請求項１０記載の方法。２３．変換関数を用いて前記中間ノード値に変換を施すステップを更に含んでおり、それによって、前記中間ノード値の各々が、有限の最大値と有限の最小値との間に存在するように制約され滑らかに補間された変換を施された中間値として表わされるようにしたことを特徴とする請求項１０記載のシステム。２４．前記出力ノードの各々について１つずつの出力重みベクトルを算出し、それによって、前記出力ノードの各々の値が、前記最上中間層の前記複数の中間ノードの夫々の中間ノード値の重み付けしてバイアスをかけた総和の所定の関数として求められるようにするステップを更に含んでいることを特徴とする請求項２３記載のシステム。２５．複数のパターンを識別して分類する方法において、Ａ）一連の複数の入力データ群のうちの各々の入力データ群を、Ｎ個の数値から成る１つのシーケンスとして表わすことによって、それに対応したＮ次元の基礎入力ベクトルを生成し、前記複数の入力データ群は、複数のクラスに所属する複数の入力パターンから構成されている、生成ステップと、Ｂ）前記Ｎ次元の基礎入力ベクトルの各々にｊ個の射影成分を付加することによって、Ｎ＋ｊ個の射影入力成分を有する射影された入力ベクトルを生成し、ここでｊは所定の正の整数であり、更に、その射影された入力ベクトルの各々を記憶しておくステップと、Ｃ）前記射影された入力ベクトルの成分を正規化することによって、その射影された入力ベクトルの大きさを所定の正規化値に等しくするステップと、Ｄ）複数の中間ノードの各々について、ｉ）Ｎ＋ｊ個の重み成分を有する重みベクトルを生成し、ｉｉ）前記重みベクトルの大きさを、前記正規化値に等しい値に制約し、ｉｉｉ）前記Ｎ＋ｊ個の射影入力成分の重み付け総和として中間ノード値を生成する、ステップと、Ｅ）前記中間ノード値の所定の重み関数として出力ノード値を生成するステップであって、更に、前記複数のクラスの各々について、現在入力パターンがそのクラスに所属する確率に対応した出力信号を生成するステップを含んでいる、出力ノード値生成ステップと、を含んでおり、更に学習モードにおいては、Ｆ）複数の既知の学習用ベクトルから成る学習用ベクトル集合と、その学習用ベクトル集合に対応した、複数の既知の目標ベクトルから成る目標ベクトル集合とを選択するステップと、Ｇ）複数のＮ＋ｊ次元の初期重みベクトルから成る初期重みベクトル集合を生成するステップと、Ｈ）前記複数の中間ノードの各々について、初期中間しきい値を選択するステップと、Ｉ）前記基礎入力ベクトルを次々と前記複数の学習用ベクトルに等しく設定するステップと、Ｊ）入力され射影された前記学習用ベクトルと、前記重みベクトルの各々と、前記しきい値の各々との、所定の誤差関数として、誤差関数値を算出するステップと、Ｋ）前記誤差関数値が所定の最小誤差値より小さくなるまで、前記中間しきい値と前記重みベクトルの各々の前記重み成分とを修正手順に従って修正した上で前記ステップＩ）及び前記ステップＪ）を繰り返して実行するステップと、を含んでおり、前記修正手順は、前記中間しきい値と前記重みベクトルとから成る複数の組のうちで前記誤差関数が前記最小誤差値を超えた組の各々について、その中間しきい値とその重みベクトルとの最適化を行なうことによってその修正を行なうという手順であり、更に、その最適化を行なう際に、ｉ）所定の最小化ルーチンに従ってその中間しきい値とその重みベクトルとを再算出するステップと、ｉｉ）再算出した重みベクトルに修正を施して、各々の重みベクトルの大きさが前記正規化値に等しくなるようにするステップと、ｉｉｉ）入力され射影された前記学習用ベクトルを次々と前記射影された入力ベクトルとして再適用するステップと、を実行することによってその最適化を行なうようにしており、それによって、前記入力ベクトルの複雑度をＮ次元からＮ＋ｊ次元へ増大させ、且つ、前記重みベクトルと前記入力ベクトルとの両方を正規化することで、あり得る出力値についての閉じた判定群が、その判定群の各々に対応した単一のＮ＋ｊ次元の境界領域を用いて画成されるようにした、ことを特徴とする方法。２６．前記複数の初期重みベクトルが、複数の所定のＮ＋ｊ次元のプロトタイプ・ベクトルに等しく設定されており、それらプロトタイプ・ベクトルの各々が前記複数の既知の学習用ベクトルの夫々１つずつに対応していることを特徴とする請求項２５記載の方法。２７．前記複数の重みベクトル及び前記複数のしきい値を、複数のパターン重み／しきい値群に分離し、その際に、それら複数のパターン重み／しきい値群の各々が前記複数の入力パターン・クラスのうちの１つの入力パターン・クラスに対応しているようにするステップと、ｂ）前記複数のパターン重み／しきい値群の各々を、個別に最適化するステップと、を更に含んでいることを特徴とする請求項２５記載の方法。２８．データ処理方法において、ａ）一連の複数の入力データ群のうちの各々の入力データ群を、Ｎ個の数値から成る１つのシーケンスとして表わすことによって、それに対応したＮ次元の基礎入力ベクトルを生成するステップと、ｂ）前記Ｎ次元の基礎入力ベクトルの各々にｊ個の射影成分を付加することによって、Ｎ＋ｊ個の射影入力成分を有する射影された入力ベクトルを生成し、ここでｊは所定の正の整数であり、更に、その射影された入力ベクトルの各々を記憶しておくステップと、ｃ）前記射影された入力ベクトルの成分を正規化することによって、その射影された入力ベクトルの大きさを所定の入力正規化値に等しくするステップと、ｄ）順序を有する複数の中間ノード層のうちから選択された最下中間ノード層にある複数の中間ノードの各々について、ｉ）しきい値を生成すると共に、Ｎ＋ｊ個の重み成分を有する重みベクトルを生成し、ｉｉ）前記重みベクトルの大きさを、所定の対応した重み正規化値に等しい値に制約し、ｉｉｉ）前記Ｎ＋ｊ個の射影入力成分の重み付け総和として中間ノード値を生成する、ステップと、ｅ）前記順序を有する複数の中間ノード層のうちの、前記最下中間ノード層を除いたその他の中間ノード層の各々にある複数の中間ノードの各々について、ｉ）しきい値を生成すると共に、少なくともｐ＋ｊ′個の重み成分を有する重みベクトルを生成し、ここで、Ｐは、その中間ノード層のすぐ下の中間ノード層にあるノードの個数であり、また、ｊ′は、所定の正の整数であり、ｉｉ）その中間ノード層のすぐ下の中間ノード層における複数の中間ノード値の重み付け総和として中間ノード出力値を生成する、ステップと、ｆ）前記複数の中間ノード層のうちの、予め射影層として選択されている中間ノード層の各々について、その中間ノード層に対応した複数の重みベクトルの大きさを、所定の対応した重み正規化値に等しい値に制約するステップと、ｇ）出力層にある出力ノードの各々について、出力重みベクトルを生成し、且つ、前記中間ノード値の所定の重み関数として出力ノード値を生成し、その出力ノード値を出力ノードに記憶しておくステップと、を含んでいることを特徴とする方法。２９．ｊ＝１であることを特徴とする請求項２８記載の方法。３０．前記重み正規化値が前記入力正規化値に等しいことを特徴とする請求項２８記載の方法。３１．前記重み正規化値と前記入力正規化値とが定数であることを特徴とする請求項３０記載の方法。３２．ａ）複数の既知の学習用ベクトルから成る学習用ベクトル集合と、その学習用ベクトル集合に対応した、複数の既知の目標ベクトルから成る目標ベクトル集合とを選択するステップと、ｂ）複数の初期重みベクトルから成る初期重みベクトル集合を生成するステップと、ｃ）前記複数の中間ノードの各々について、初期中間しきい値を選択するステップと、ｄ）前記基礎入力ベクトルを次々と前記複数の学習用ベクトルに等しく設定するステップと、ｅ）入力され射影された前記学習用ベクトルと、前記重みベクトルの各々と、前記しきい値の各々との、所定の誤差関数として、誤差関数値を算出するステップと、ｆ）前記誤差関数値が所定の最小誤差値より小さくなるまで、前記しきい値と前記重みベクトルの各々の前記重み成分とを修正した上で前記ステップｄ）及び前記ステップｅ）を繰り返して実行するステップと、を更に含んでいることを特徴とする請求項２８記載の方法。３３．前記しきい値と前記重みベクトルとを修正する際に、前記しきい値と前記重みベクトルとから成る複数の組のうちで前記誤差関数が前記最小誤差値を超えた組の各々について、そのしきい値とその重みベクトルとの最適化を行なうことによってその修正を行ない、更に、その最適化を行なう際に、ｉ）所定の最小化ルーチンに従ってそのしきい値とその重みベクトルとを再算出するステップと、ｉｉ）再算出した重みベクトルに修正を施して、各々の重みベクトルの大きさが前記所定の重み正規化値に等しくなるようにするステップと、ｉｉｉ）入力され射影された前記学習用ベクトルを次々と前記射影された入力ベクトルとして再適用するステップと、を実行することによってその最適化を行なう、ことを特徴とする請求項３２記載の方法。３４．前記複数の初期重みベクトルが、複数の所定のプロトタイプ・ベクトルに等しく設定されており、それらプロトタイプ・ベクトルの各々が前記複数の既知の学習用ベクトルに基づいたサンプリングに対応していることを特徴とする請求項３２記載の方法。３５．前記複数の入力データ群が、複数のクラスに所属する複数の入力パターンから構成されており、更に、前記複数のクラスの各々について、現在入力パターンがそのクラスに所属する確率に対応した出力信号を生成するステップを含んでおり、それによって、前記入力ベクトルの複雑度をＮ次元から少なくともＮ＋ｊ次元へ増大させ、且つ、前記重みベクトルと前記入力ベクトルとの両方を正規化することで、あり得る出力値についての閉じた判定群が、その判定群の各々に対応した単一のＮ＋ｊ次元の境界領域を用いて画成されるようにした、ことを特徴とする請求項２８記載の方法。３６．前記複数の重みベクトル及び前記複数のしきい値を、複数のパターン重み／しきい値群に分難し、その際に、それら複数のパターン重み／しきい値群の各々が前記複数の入力パターン・クラスのうちの１つの入力パターン・クラスに対応しているようにするステップと、ｂ）前記複数のパターン重み群の各々を、個別に最適化するステップと、を更に含んでいることを特徴とする請求項３５記載の方法。３７．前記判定境界の各々が、それに対応する中間しきい値が超平面値に設定されているときには、超平面であり、また、それに対応する中間しきい値が前記超平面値とは異なるときには、超球面であることを特徴とする請求項３５記載の方法。３８．前記複数の入力データ群が複数の入力信号集合で構成されており、それら複数の入力信号集合のうちの各々が、Ｋ次元の出力関数を規定しているＮ個の入力変数に対応したＮ個の入力信号から成る集合であり、更に、前記出力関数の現在値を表わすための少なくともＫ個の出力ノード値を生成するステップを含んでおり、それによって、前記入力ベクトルの複雑度をＮ次元から少なくともＮ＋ｊ次元へ増大させ、且つ、前記重みベクトルと前記入力ベクトルとの両方を正規化することで、あり得る出力値についての閉じた判定群が、その判定群の各々に対応した単一の少なくともＮ＋ｊ次元の境界領域を用いて画成されるようにした、ことを特徴とする請求項２８記載の方法。３９．変換関数を用いて前記中間ノード値に変換を施すステップを更に含んでおり、それによって、前記中間ノード値の各々が、有限の最大値と有限の最小値との間に存在するように制約され滑らかに補間された変換を施された中間値として表わされるようにしたことを特徴とする請求項２８記載のシステム。