JPH07502357A - 高速で収束する射影ニューラル・ネットワーク - Google Patents

高速で収束する射影ニューラル・ネットワーク

Info

Publication number
JPH07502357A
JPH07502357A JP5511618A JP51161893A JPH07502357A JP H07502357 A JPH07502357 A JP H07502357A JP 5511618 A JP5511618 A JP 5511618A JP 51161893 A JP51161893 A JP 51161893A JP H07502357 A JPH07502357 A JP H07502357A
Authority
JP
Japan
Prior art keywords
input
value
vector
vectors
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5511618A
Other languages
English (en)
Inventor
マヌキアン,ナービク
ウィレンスキー,グレッグ・ディー
Original Assignee
アール・アンド・ディー・アソシエイツ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アール・アンド・ディー・アソシエイツ filed Critical アール・アンド・ディー・アソシエイツ
Publication of JPH07502357A publication Critical patent/JPH07502357A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 高速で収束する 影ニューラル・ネットワーク伎街分団 本発明は、ニューラル・ネットワークのためのシステム及び方法であって、入カ バターンないし入力関数を表わす成分の数を意図的に増加させて、その入カバタ ーンないし入力関数をより高い次元の正規化空間への射影によって表わし且つ評 価するようにしたシステム及び方法に関する。
光肌Q茸量 例えば音声認識、手書き文字認識、ロボット制御、関数当て嵌め等々の、多数の クラスを有する問題は、従来の計算処理方法では解くことが困難であったり、解 けないままであったりしていた。しかしながら、この種の問題はパターン分類問 題または最適化問題の形に帰着させることができ、パターン分類問題や最適化問 題は、ニューラル・ネットワークを用いた方法によって解くことができるものと 期待されている。
ニューラル・ネットワークは、コンピュータないしプロセッサの構造の一種であ り、相互に結合した複数の「ノード」即ち「ニューロン」で構成された複数層の 系の中でデータが処理されるという点において、人間の脳の構造を模したもので あり、各々のノードは、複数のメモリセルから成る1つのメモリセル集合として も良く、或いは更に、複数の個別のプロセッサから成る1つのプロセッサ群とし ても良い。
−II的なコンピュータは、どのようなものであれ、完全な非適合方式でプログ ラムされているため、データの入力ストリームの中に存在するパターン即ち共通 構造を認識する能力は、そのコンピュータのプログラムが、どれほど広範に、ど れほど詳細に、そしてどれほど予測的に書かれているかということだけによって 決まってしまう。これに対して、ニューラル・ネットワークは、最初は、各々が バイアスをかけられている相互に結合した複数のノードが存在しているだけであ り、「学習」の実行を通してみずからのプログラムを発展させて行く。学習を行 なわせるには、通常、既知の値を有する多数の学習パターンをネットワークに入 力する。そしてネットワークの出力を評価し、「誤り」が発生していたならば、 ネットワークに、そのネットワークの内部パラメータ及び結合を修正させて、そ のネットワークの性能を向上させるようにする。つまり、ネットワークが「学習 する」のであり、一般的に、ネットワークが「学習する」につれて、そのネット ワークの性能が向上して行く。
一例として、「A」を表わしているディジタル画像とrBJを表わしているディ ジタル画像とを識別するための学習を、ニューラル・ネットワークに行なわせる ものとする。この場合には、ネットワークが「A」と「B」の、2つの出力部を 備えるようにしておく。ネットワークにrAJの画像を入力したならば、ネット ワークはそれを認識して、出力部「A」を活性化するのでなければならない。
このネットワークに学習を行なわせるには、「A」画像及びrB」画像から成る ストリームをネットワークに入力する。入力された記号の各々に対して、ネット ワークは、その入力データを解析して、みずからが認識したものが「A」である か、それともrB」であるかを表示する。ネットワークが入力rAJをrB」で あると判定するたびに、誤りを発生したことをネットワークに伝え、それに応え てネットワークは、同じ誤ちを繰り返す確率が低下するように、ニューロン結合 及びバイアスを修正する。換言すれば、ニューラル・ネットワークは、「フィー ドバック学習」手順を用いて、そのネットワークの内部の評価パラメータを修正 する。認識せねばならない入力集合が、互いに明確に分けられている入力集合や 小さな入力集合に限られているシステムにおいても、公知のニューラル・ネット ワークでは、非常に長い学習時間が必要とされている。即ち、ネットワークが学 習の成果を上げるまでには、非常に多(の回数に亙って学習のための実行を反復 せねばならない。
在来のニューラル・ネットワークにおいて学習時間が長くかかっていたことの主 たる原因の1つに、一群の様々な種類の文字(或いは、単語、音声、絵図、記号 、ないしはその他のパターンまたはデータ)から成る入力集合の、その集合要素 が、ネットワークに「良好な推定」を行なわせることができる適切なニューロン 結合及びバイアスの値に関する充分な情報を含んでいないことがあった。(これ については後に詳論する)。実際に、そのために多くのニューラル・ネットワー クが、学習する際に用いるニューロン結合及びバイアスの値を仕方なしにランダ ムな値にしている。在来のニューラル・ネットワークでは、許容可能な正確度で 入力集合を認識することを習得できるまでには、数千種類もの入力記号について 数千回もの学習を実行しなければならないことも、決して珍しいことではなかっ た。
これを人間にたとえるならば、ある人が、ドイツ語を習得しようとしている場合 を考えれば良い。この初学者に、rStute J、rHengstJ、rFo hlenJ 、及びrPferd Jという単語を教えるだけで、それ以外の知 識を与えなかったならば、この初学者は一度に1つずつの単語を解析しては見比 べる必要があり、従って、この初学者がそれら単語を身につけるまでには長い時 間がかかり、それまでに多くの誤りをおかすに違いない。これに対して、もしそ の初学者がそれら単語の全てが馬を指し示している(即ち、それらは夫々「雌鳥 」、[種馬」、「子馬」、及び「馬」である]ことを前もって知っていたならば 、学習過程は大いに迅速化されるであろう。その初学者が後にrWallach  Jという単語に出会ったときに、その単語が以上の単語と同じクラスに、或い は非常に類似したクラスに属するものであることをその初学者が知っていたなら ば(この単語は「去勢馬」を意味している)、初学者は、その新たな単語を習得 するまでに多数回の「言語道断な推定」をせずに済むであろう。入力クラスの「 境界設定」をすることによって、学習過程は大いに迅速化されるのである。
ニューラル・ネットワークの学習時間が長くかかることによる更に別の大きな不 利益のうちの1つに、それによってニューラル・ネットワークがリアルタイムで 動作することがより困難に或いは不可能になるということがあった。学習速度の 遅いニューラル・ネットワークが、認識できない記号またはパターンに遭遇した 場合には、その新たな記号を組み込むための再学習をそのニューラル・ネットワ ークに行なわせるだけの時間的な余裕がないことが多い、更に、もしニューラル ・ネットワークが収束するまでに長い時間がかかるものであったならば、即ち目 の前に出されたパターンがどのパターンであるかを判定するまでに長い時間がか かるものであったならば、そのネットワークは遅すぎて実用にならない0例えば ある本が、ニューラル・ネットワークが一度も出会ったことのない字体で印刷さ れており、テキスト認識システムが、2語/分の読取り速度でしか読取りを行な えないならば、そのテキスト認識システムは、盲人がその本を読むことを補助す るという用途には殆ど役に立たないことは言うまでもない。
更には、標準的なニューラル・ネットワークでは、より複雑な問題を学習するた めにはより多くのニューロン及び結合が必要とされる。従って、量的に非常に大 きな問題に対しては、必要なメモリ容量や必要な学習時間を確保できないために ニューラル・ネットワークが使えないこともあり得る。それゆえ、ネットワーク を更に効率的にすること、即ち、使用するノード及び結合の数をより少なくする こともまた重要である。従って、ニューラル・ネットワークの設計の分野におけ る目標の1つに、ニューラル・ネットワークの学習速度を高速化し、しかも、そ の精度をさらに良くするということがある。
在来のニューラル・ネットワークの更に別の欠点として、在来のニューラル・ネ ットワークに、まだ学習していない新たなパターン(例えば、新たな字体)を認 識させるには、そのニューラル・ネットワークに、ゼロから再学習させなければ ならないということがあった。従って、在来のネットワークは、以前学習したパ ターンに対応して既に定められている重み及びバイアスとは別に、新たなパター ンのための重み及びバイアスを定めることができないという意味において「モジ ュール的」ではなかった。
ニューラル・ネットワークの研究における研究成果の例としては、例えば以下の 諸文献に記載されているものがある= 「Neurocomputing Fo undations ofResearch、 ” edited by Ja rtres A、 Anderson and Edward Rosenfe ldJA「A De− sign For An As5ociative 5pin Glass P rocessor、” by James M、 Good翌奄氏B Bruce E、 Rosen、 and Jacques J、 Vidal  J 、これに関連した米国特許であるところのrUnited 5tates  Patent No、 4,977.540.”5pin Glass Ty pe As5ocia狽奄魔■ Processor 5yste+m” (Goodwin、 et al、  December 11. 19901J、 r ”0pt奄モ≠■ Neural Co+aputers、by Yaser S、Abu−Mos tafa and Demitri Psaltis。
(Scientific American、 March、 1987) J  、これも米国特許であるrLInitedStates Patent No 、 3,887,906. ”0ptical As5ociative Me mory Using bomple− e+entary Magnetic Bubble 5hift Regis ters″fMinnaja、 June 3.19751@J 、そ れに、「A LearningAlgorithm for Boltzman n Machines、” by David l(。
Ackley and Geoffrey E、 Hinton (Co n1 tive 5cience、 Vol、 9、pp、 14V−169. 19851 J。
本発明の目的は、在来のニューラル・ネットワークと比較して必要な学習時間が 格段に短く、しかも最適解を発見する能力を維持しているニューラル・ネットワ ークを提供し、また、そのネットワークを、使用するノード及び重みをかより少 ない、より効率的なネットワークとし、また、そのネットワークを「モジュール 的」ネットワークにして、そのネットワークにゼロからの再学習を行なわせるこ とな(、新たなパターンを学習させることができるようにすることにある。
兄皿二慨ヱ データ処理システムは入力装置を含んでおり、この入力装置は、一連の複数の入 力データ群のうちの各々の入力データ群を、N個の数値から成る1つのシーケン スの形で表わすことによって、それに対応したN次元の基礎入力ベクトルを生成 し、また、それら基礎入力ベクトルの各々を記憶しておくものである。このシス テムは複数層のニューラル・ネットワークを含んでおり、ニューラル・ネットワ ークの入力層には、プロセッサによって付加がなされて少な(ともN+j個の射 影入力記憶装置を含むようにしてあり、ここでjは所定の正の整数であり、また それら射影入力装置は、N+j個の数値成分を有する射影されて正規化された入 力ベクトルを記憶してお(ためのものである。射影された入力ベクトルの各々は 、複数の基礎入力ベクトルのうちの1つずつに対応している。
本発明に係るプロセッサは、更に、射影された入力ベクトルのN+j個の成分と 、少なくとも最下中間層にあるN+j次元の重みベクトルのN+j個の成分とを 、共に正規化するようにしてお(ことが好ましい。
ネットワークに学習をさせるために、本発明は更に、ネットワーク出力値を所定 の目標ベクトルと比較するための比較装置を含んでいる。そして、プロセッサは 、ネットワーク出力値とそれに対応した目標ベクトルとの差が、所定の最小しき い値より小さくなるまで、中間しきい値及び中間重みベクトルの再算出を行なう 。
本発明は、パターン認識及び分類問題に使用可能なばかりでなく、更に関数当て 嵌め問題にも使用可能である。
本発明の方法は更に、システムの、より具体的にはニューラル・ネットワークの 、学習及び実地動作の方法をも包含するものである0本発明では、N次元の入力 ベクトルの各々に、少なくとも1つの追加の成分を付加して、射影された入力ベ クトルを生成するようにしている6本発明の方法の好適例においては、この射影 された入力ベクトルを正規化して、それが球面の面上に存在するようにしている 。
ニューラル・ネットワークの少なくとも第1の中間層のノードに対応している重 みベクトルもまた、N+j次元の超球面の面上に存在するように制約することが 好ましい。
ネットワークの学習中には、複数の既知の入力ベクトルから成るシーケンスをネ ットワークへ供給すると、ネットワークが誤差関数を算出する。この誤差関数は 、中間ノードの全ての重みベクトル及び全てのしきい値C別実施例においては更 に、出力ノードの全ての重みベクトル及び全てのしきい値も加わる)の関数であ る。更に、最適化ルーチンを用いて、誤差値が所定の最小値より小さくなるまで 、それら重み及びしきい値に修正を加える。
ネットワークの学習時間を更に短縮するためには、複数の中間ノードの夫々の重 みベクトルを初期設定する際に、それら重みベクトルを、様々なりラスの入力ベ クトルに対応した既知のプロトタイプに等しく初期設定することが好ましい。
更には、本発明は、1つのネットワークを複数のサブネットワークに分離して、 それらサブネットワークに個別に学習をさせた上で再併合することも可能にして いる。
入力ベクトルの複雑度を、N次元から少な(ともN+j次元へ意図的に増大させ 、且つ、重みベクトルと入力ベクトルとの両方を正規化することによって、あり 得る出力値についての閉じた判定群が、各判定群に対応した少なくともN+j次 元の単一の境界領域を用いて画成される。更には、このネットワークは、判定境 界を形成するために、超球面と超平面とのいずれを使用することもでき、また実 際に、初期にはそれらの一方を使用していたのが、収束したときには他方を使用 しているということもあり得るようになっている。
区血の固単り説明 図1は、ニューラル・ネットワークの一般化した構造の一例を示した図、図2は 、入力画像パターンを、そのパターン表わす一連の数値へ変換する変換の仕方を 説明するだめの図、 図3〔a〕は、本発明が使用する典型的な誤差関数の一例を定性的に表わした図 、 図3(b)は、本発明に係るネットワークが誤差値を正規化するために使用する 典型的なシグモイド関数の一例を定性的に表わした図、図4(a)は、従来例に 係る「同次元」超平面クラリファイヤ、即ち、その判定面が、認識すべき入カバ ターンに対応したベクトルを包含している空間と同次元の超平面である、従来例 に係るニューラル・ネットワークを示した図、であって、 図4(b)は、従来例に係る「同次元」超球面クララファイヤを示した図、図5 は、本発明に係るニューラル・ネットワークが採用している、より高次元の空間 へ射影するための射影方法を簡略化して図式的に示した図、図6は、本発明に係 る射影方法を図式的に示した図、図7は、本発明に係るニューラル・ネットワー クの、−M化した構造を示した図、 図8は、ニューラル・ネットワークの学習モードにおいて重みベクトルに修正を 加えて正規化するための、本発明に係る方法を図式的に示した図、図9は、本発 明に係る、閉じた、射影された判定領域の概念を示した図、図10は、1つのニ ューラル・ネットワークを、2つ以上の個別に学習可能なネットワークに分離す ることができ、それらネットワークを学習後に再併合して再び単一のネットワー クにすることが可能であることを説明するための図、図11は、複数の隠れ層を 備えたニューラル・ネットワークを例示した図、図12(a)は、1次元の関数 当て嵌め問題を例示した図、図12(b)は、関数当て嵌めの用途に使用してい る本発明に係るニューラル・ネットワークの一例を示した図、 図13は、本発明に係るニューラル・ネットワークの学習プロセスを示した簡略 化したブロック図、 図14は、本発明に係るパターンのプロトタイプを選択するための選択手順を示 した簡略化したブロック図、 図15は、本発明に係るニューラル・ネットワークを組み込んだパターン認識シ ステムの全体を示した簡略化したブロック図、図16 (a) (il 〜(i iil及び図16 (b) (i) 〜fiiilは、パターン認識テストの実 験結果であって、従来のニューラル・ネットワークを用いたときの結果(図16 (a))と、本発明に係るニューラル・ネットワークを用いたときの結果(図1 6(b))とを示した図、そして、図17は、本発明に係るニューラル・ネット ワークの別の実験のテストに使用した。ノイズを加えた入カバターンの3つの例 を示した図である。
運輸・4 び に・ る匍・ 図1には、簡単な構成のニューラル・ネットワークの一例を示した。このネット ワークは、io’o個の入力ノード11〜l100と、4個の出力ノードU1〜 U4と、中間層を形成している「連合ノード」、「内部ノードj、または「隠れ ノード」と呼ばれる7個のノードH1〜H7とを含んでいる。互いに異なった層 にあるノードどうしの結合を実線で示した。
本発明を理解するためには、その前に先ず「入力ベクトル」の一般化した構造に ついて理解しておく必要があり、そのために図2に具体例を示してあり、この具 体例は、例えば、文字または単語を認識するように構成した比較的簡単なシステ ム(ドキュメント・リーグ等)に使用されるものである。ここでは、−例として 、ドキュメント・リーグのスキャナが、テキストを1行ずつ走査するための、1 0XIOグリツド(0がら99まで付番されている)をなすように並べられた光 検出素子を使用しているものとする。また更に、ここでは、それら光検出素子の 各々が「黒」と解釈されるが(そのコマが、所定のしきい値によれば、明るいと いうよりはむしろ暗い場合)、或いは「白」と解釈されるか(暗いというよりは むしろ明るい)の、いずれがであるものとする。即ち、ここでは、この簡単なス キャナは「グレイ」を理解しないものとする。
以上において「黒」に対しては値「1」を割当て、「白」に対しては値rOJを 割当てるものとすれば、図2に示したパターンは、グリッド要素24〜26.3 4.36.43〜47.53、及び57を「l」とし、その地金てのグリッド要 素を「0」とした、100個の数から成るストリングで表わすことができる。
更に進んだシステムのうちには、グレイの諧調までも認識できるようにしたもの もある。その種のシステムでは、グリッドの各コマに対応させることのできる値 は2通りではなく、多数存在する。例えば、そのシステムが16諧調の異なった 陰影のプレイ(この16諧調には、白に対応した1つの諧調と黒に対応した1つ の諧調とが含まれる)を認識するものであれば、100次元の入力ベクトルの各 成分が、例えば「0」から「15」までの値(或いはrOJから「1」までの間 の16段階の値)を持つことになり、それら値は例えば4ビツトのデータ・ワー ドで表わすことができる。
以上のディジタル化技法は周知のものである。いうまでもな(、この種の技法の 応用は視覚パターンだけに限られるものではない。広く採用されている別の応用 例を挙げるならば、どこにでもある「コンパクトディスク」即ち「cD」を考え れば良い。CDを制作するには、音声を(この音声は、複雑な編曲を施したオー ケストラ音楽であることもある)ディジクル化し、即ち、音声を解析して一連の 複数の数にしくそれらの数は「1」に相当するものと「0」に相当するものとで 、2進数の形で表現されている)、更にその一連の数を、ディスクの表面に、レ ーザで形成する「孔」または「くぼみ」のパターンで表わすようにしている。
ここで覚えておかねばならない重要な点は、図示例では、また、それ以外の用途 においても多くの場合そうであるが、入カバターンが(この入カバターンは、文 字「A」であっても、ベート−ベンの交響曲のうちの1000分の1秒の区間で あっても良く、入力のパターンでありさえすれば何でも良い)、N個の数から成 る、数のストリングに変換されるということである。図示例では、そのストリン グを構成する数は「0」とrl」とであり、また、N=100である。
図1について説明すると、例えばドキュメント・リーグによって文字rAJが走 査されて、この文字「A」が、N個の数(必ずしも2進数に限られない)から成 る、1つのN次元の入力ベクトル又冒こ変換されたものとする。その入力ベクト ルの100個の成分(ここではN=100としている)の各々は、ネットワーク の入力ノード11〜l100のうちの夫々1つずつへ入力される。
ニューラル・ネットワークに関して、我々が望むことは、そのシステムの出力が 、できる限り目標出力に「近い」出力になることである。更に具体的に説明する ならば、文字「A」、または単語rtree] 、またはイルカの絵が学習中の ニューラル・ネットワークへ入力として与えられたときに、我々が望むことは、 そのネットワークの出力(即ち、解析したパターンがどのパターンであるかにつ いての、そのネットワークの判定結果)が、「A」、またはrtreeJ 、ま たは「イルカ」になることである。在来のニューラル・ネットワークでは、隠れ ノードの各々に、重みベクトルWとしきい値νとが付与されている。隠れノード の各々ごとに、入力ベクトルXと、その隠れノード対応した重みベクトルWと、 その隠れノードに対応したしきい値とが数学的に結合されて、中間値が算出され 、この中間値は隠れノードの各々について1つずつ算出される。更には、幾つか の中間値が結合されて出力値Uが算出される。
図1に示した具体例では出力が4つあり、4通りの入カバターン(それら入力パ ターンの各々はN個の成分から成る)が識別ないし分類できればそれで良いと考 える場合等には、出力の数をこのように4つにすれば良い、一般的に、識別でき るようにしたいと考える入カバターンのクラスの各々に対して1つずつの出力ノ ードを備えることになる。例えば、u(11、u(21、u(3) 、 uf4 1の夫々を「A」、rB」、「C」、「DJに対応させれば良い。更に換言する ならば、中間ノードH1、H2119,の値が、u(2)の値だけを所定のしき い値以上にするようなものであったならば、このニューラル・ネットワークが出 力する信号は、rB」を表わす信号になる。
在来のネットワークでは、ネットワークに学習を行なわせるには、そのネットワ ークに多数の既知の入カバターンを与えて、そのネットワークの「解答」を、既 知の望ましい出力である目標出力と比較するようにしている。実際の出力の、目 標出力からの変位を、−II的に「誤差関数」という用語で言い表わしている。
この誤差は、重みベクトルW及びしきい値νの関数であり、学習パターンについ ての試行を行なう度に、それら値に修正を施すようにしている。誤差の大きさは 「0」になるのが理想的であるが、実際には、公知の最適化ルーチンを用いて、 誤差関数を最小化するようにしている。それに用いる最適化ルーチンは、一般的 に、最適値に向かって1歩づつ近付いて行くようにしたルーチンである。
図3(a)には典型的な誤差関数の一例を示した。同図の誤差関数E (w)は 、1つの重みWの関数として定性的なグラフの形で示しである。いうまでもなく 、一般的には、誤差関数は全ての重みベクトルの中の全ての重み、並びに、全て のしきい値νの関数である。にもかかわらず、この図に誤差間数Eをただ1つの 重みの関数として示したのは、説明を理解し易くするためである。
図示の誤差関数の具体例からは、在来のニューラル・ネットワークに付随する大 きな弱点のうちの2つの弱点が明らかである。第1に、誤差関数を最小化するた めに用いられている数値操作による最適化ルーチンは、最適解へ向かって1歩ず つ近付いて行くようにしたルーチンである。最も広く採用されている最適化ルー チンは、何らかの形の最急降下法を用いたルーチンであり、その最急降下法では 、最適化のための1歩分(1回分)の移動量と、その移動の方向とを、誤差関数 の勾配の大きさと方向とに応じて決めるようにしている(殆どの誤差関数は、図 3に示したグラフのような単なる2次元曲線ではなく、N次元の計算を必要とす るものであることを忘れてはならない)。
以上の説明を更に理解し易くするために、我々が、ある山岳地域の中で標高が最 も低い地点へ到達する道を探しており、しかもその地点へできるだけ速やかに到 達したいと考えている場合について説明する。更に、我々は、丘ないし山の横腹 から出発するものとし、また、霧が非常に濃いため10フイート前方までしか視 界が利かないものとする。その他の情報が何もなければ、我々はおそらく、現地 点からlOフィート以内で山の傾斜が最も急な下り坂となっている方向を見定め て、その方向へ進もうとするに違いない。しかしながら、もしその地形が、視界 の及ぶ限り完全に平坦であったならば、どの方向を取るのが最善であるかについ ての情報を傾斜から得ることはできないため、どの方向を選択するにしても、そ れはランダムな選択ということになろう。
傾斜角が大きくない場合には、我々は1歩の距離を小さくする。なぜならば、傾 斜角が小さければ、その地形がその方向に下り続ける見込みが大きいとはいえな いからである。一方、その傾斜角が大きければ、その傾斜が下りから上りにすぐ に変わってしまうことはなさそうだ考えるであろうし、また更に、その方向へ大 きな歩幅で進めば、それだけ速(下りて行けると考えるであろう。
この山岳地域のたとえは、更に、在来のニューラル・ネットワークの標準的な学 習法がなぜそれ程までに時間がかかるのかについての原因をも明らかにしている 。例えば、我々がたまたま、その山岳地域の高原地帯から出発したならば、その 地形は我々の近傍では非常に平坦であり、従って我々は1歩の距離を大きくとら ず、そのことによって学習速度が低下するのである。更に、非常に小さな局所的 な「谷」であっても、我々を誤った方向へ追いやったり、我々を望ましくない地 域に長時間に亙って縛りっけたりすることがあり得る。
これは、良く知られた「局所的最小値」問題である。即ち、もし、我々が出発し た場所がその地域内における標高が最低の地点(目標とする最適点)から余りに も遠く、しかも視界が制約されており、しかも標高が最低の地点のその標高の値 についての情報を持っていないならば、我々は、浅い窪地に入り込んでいるだけ であるにもかかわらず、標高が最低の地点に到達したと思い込んでしまうことも あり得る。従って、目榎地点(即ち、大域的最小値)のできる限り近くから出発 できるということは大きな利点であり、なぜならば、最適点の近くから出発する ほど、「偽の最適点」や高原地帯に捕らえられてそこから出られなくなる可能性 が小さくなるからである。
次に、図3(a)に例示した誤差関数E(−について説明する。Efw、lの近 傍領域では、誤差曲線は非常に平坦であり(E(w、)#O)、そのため、ニュ ーラル・ネットワークがこの領域から最適化のための試行を開始したならば(或 いは学習中にこの領域に入り込んでしまったならば)、そのニューラル・ネット ワークは、最適値に到達するまでに長い時間を費やすことになる。
図3(a)によって更に、局所的最小値の問題も明らかである。ここでは、ニュ ーラル・ネットワークの学習ルーチンにおいて重みとしてw2が選択され、しか も1歩の大きさく現在地点から見渡せる距離)がw、と、w2との間の差より小 さいものとする。さて、W、とW、どの間では、誤差関数Eは点W、において最 小値を取る。従って、学習ルーチンが1歩の大きさを変えなければ、その学習ル ーチンはおそらく、w2で停止してしまうことになり、なぜならば、見渡せる範 囲内のその他のどの点も、Eの値を更に大きくしてしまい、従って、更に悪い結 果を生じるからである。学習ルーチンは、誤差Eが最小になる点である最適点W °には最後まで到達できないかも知れず、たとえ到達できても、それは長い時間 を費やした後であり、しかも1歩の大きさが変化することがなければ、到達する ことはできない。
以上のことが、大部分の公知のニューラル・ネットワークにおいて実際に発生し ているのである。在来のニューラル・ネットワークの学習に用いられている入力 ベクトルは一般的にランダムに選択されたものであるため、初期誤差が比較的大 きく、しかも誤差関数の出発地点が、「高原地帯」や、局所的最小値が存在して いる領域であることが、しばしばあるからである。この理由から、在来のニュー ラル・ネットワークでは、そのニューラル・ネットワークの重みベクトル並びに しきい値が、それらの最適値に到達1;るまでに、また更に、許容可能な程度に 機能する値に到達するまでにすら、非常に多くの学習用パターンと多数回の学習 試行とが(ひいては、それに対応した長い学習時間が)必要とされている。
図3(a)に示したグラフは定性的なものであるため、誤差関数E(w、ν)の 形状は任意の適当なものとしてあり、局所的最小値の領域と高原地帯の領域とを 備えたものにしである。
図3(b)には、より上位の層の各ノードの出力に、既知の最大値と既知の最小 値との間で、補間処理を施すための変換関数を示した。この関数は、ニューラル ・ネットワークに関連して用いられるときには、一般に「シグモイド」関数と呼 ばれている。各々のξの値に対して、シグモイド関数は次の形を取る。
σ(ζ)cc(1+gξ)−1 本発明に従ってこのシグモイド関数をニューラル・ネットワークに適用する再の 適用の仕方については後に詳述する。
在来のニューラル・ネットワークを悩ましている学習段階における非効率の、そ の−因をなしている重要なファクタのうちの1つに、入カバターンがN次元のも のであるならば、それをN次元のままにしておき、それと同じ長さの重みベクト ルを用いてそのN次元の入カバターンに操作を加えるべきであるという、当然と も思える前提に原因するファクタがある。実行に際しては、このことは更に、メ モリの利用率を低下させる結果をももたらしており、なぜならば、入力ノード■ 1、■21...、INに関しては、入力ベクトルの成分の各々について1単位 ずつの記憶容量(ビット、バイト、ワード、アレイ、等々)しか使用せず、従っ て、N次元重みベクトルの各々について、N単位ずつの記憶容量しか使用しない からである。
従来例に係る超゛′面りラシファイヤ 図4(a)には在来のニューラル・ネットワークに採用されている「同次元」評 価法の簡単な2次元の例を図式的に示した。説明を分かり易くするために、この ニューラル・ネットワークは、特定の点がカリフォルニア州(平面P′上の)λ ッチングを施した領域)の中にあるか外にあるかを判定する能力を備えたものと する。このネットワークへ与えられる全ての入力ベクトルは、2次元ベクトルで あり、従って基礎平面P1の平面内に存在している。(ここで図2について付言 しておくと、文字Aの画像に対応した入力は100次元であるため、その入力を 図示することは不可能である)。更に、ハツチング領域の中の入力ベクトルは、 ある1つの入力クラスに所属しており(それら入力はカリフォルニア州の中の点 である)、我々の望みは、この入力クラスに所属している入力を、その他のクラ スの入力(例えば、米国のその他の州の中に存在している点)から区別して識別 することにある。
ネットワークは、入力ベクトルx0が2次元であることに対応して、同じ2次元 の学習用ベクトルを選択し、この学習用ベクトルの選択は、とりもなおさず、最 適化手順において方々へ移動させて望ましい領域を1矩形に」囲ったり「輪郭線 に沿って」囲ったりするだめの、従ってその囲った領域の中に存在する入力をそ の地金ての入力から分離するための、直線L1.L2、L3.L4を選択してい ることに他ならない(別の次元では平面であるものが、2次元ではそれらのよう に直線になる)。学習手順には、何本の直線が必要か、そして、それら直線をど のように動かせば最も良く[形状に従うJかを判定することが含まれる。
在来のニューラル・ネットワークの更なる弱点が更に明らかとなるのは、まさに このときである。最も重要なことは、2次元の任意の領域を完全に囲むためには 少なくとも3本の直線(それら直線は平面上に「三角形」の閉じた領域を形成す る)が必要であることを理解しておくことである。図4(a)において、入力ベ クトルのクラスは、カリフォルニア州の形状を呈している。この形状を平面上に おいて囲むためには、少なくとも3本の直線を必要とし、それら直線は、この形 状の周囲に「三角形」を形成する。
更に良く「形状に従う」ようにするためには、即ち、その領域をより上手に囲む ためには、更に多くの直線が必要であり、例えば1本の直線を北側の州境に沿わ せ、別の1本を南側の州境に沿わせ、更に略々北西から南東の方向に延びている 両側の「長辺の州境Jの各々に1本ずつの直線を沿わせるようにすれば良い。
これは、非常に非効率的となるおそれがあり、特に、高次の(Nが大きい)問題 においては、そうなる可能性が大きい。使用する直線の本数を選択して、それら 直線をあちこちに移動させるのは、非常に時間のかかる数学的プロセスであり、 特に、それら直線をどのように配置すべきかについての最初の推定が良好でなか った場合には、殊更に時間がかかることになる。
以上とは異なる方法として、図4(a)のハツチング領域の中のいずれかの点を 単純に特定し、その点を焦点ないし中心にして、1つの楕円ないし円を描くとい う方法も考えられる。当然のことながら、その楕円ないし円を単に大きくするだ けで(そうするためには、例えば円の半径のように、ただ1つのパラメータを修 正するだけで良い)、ただ1本の囲繞境界線(楕円ないし円の縁部)しか使用し ないにもかかわらず、結果的に、その形状の全体を囲むことができることになる 。
後に更に詳細に説明するが、本発明に係るニューラル・ネットワークの学習方法 は、まさにこのような処理手順を用いるものである。即ち、最初に既知の「対象 」領域の中にベクトルを配置し、続いて、その形状を囲むことができるまで、円 頌域ないし楕円領域を発生させる。従って、本発明によれば、N+1個の境界面 (例えば、2次元領域を囲むための3本の直線)を用いるものとは対称的に、た だ1つの境界面しか必要としない。無論、境界を定めるためのこの効率的な方法 は、従来例に係る超平面システムを用いて実行することは不可能であり、なぜな らば、図4(a)に示したように、従来例に係る超平面システムは、閉じた判定 領域を形成する直線を使用するものに限られているからである。
その概要を述べるならば、有限のN次元パターンを囲む閉じた領域を形成するた めには、少な(ともN+1個の超平面(N〉2とする。なぜならば、3次元以上 の次元を持つ平面のことを一般的に「超平面」と呼んでいるからである)が必要 である。図4(a)は、この原理を、2次元のテストパターンについて示したも のである。3次元の場合についてこの原理を概念化するには、3次元の自動車を 囲繞するガレージを建設するには、少な(とも4つの平面、即ち「壁」が必要で あることを考えれば良い(床面を1枚の壁として数える)。この場合の「ガレー ジ」は、その全体形状が角錐形状になる。
在来の1同次元」ニューラル・ネットワークに付随する更なる欠点であって、特 に、学習用重みベクトルとして、ランダムな重みベクトルを使用している一般的 なネットワークに見られる欠点は、学習手順の開始時に望ましい領域を囲むため の重みの値並びにしきい値の値を推定することが困難だということである。これ に関しては2多くの場合、平面P°は無限に延展しているということを忘れては ならない。従って、望ましいパターンが、図4(a)に示した平面の一部分に存 在しているということすら、前提とすることができない。複数の閉じた領域の大 きな価値は、最良の解が、ある1つの閉じた領域の中のどこかに存在しているこ とを知っていれば、その領域の外に最適解を探すために時間を浪費せずに済むと いうことである。
従来完r1Bl沢濾之組迷面りラシファイヤその他の公知の分類システムのうち には、超平面クラリファイヤよりも学習時間を短縮できるものもあるが、それら 方法は、誤差を小さくするように構成されていない。実際のところ、それら方法 によれば、ニューラル・ネットワークの学習を短時間で終えることができるが、 その学習結果は良好でない。その種の方法の具体例としては超球面クラリファイ ヤがあり、例えば、換算クーロン・エネルギ法(RCE法)(これについてはr D、 L、 Re1lly、 L、N、 Cooper、 C,Elbaum。
’A Neural Model for Category Leaning ″、 45 Biological Cybernetic刀A pp。
35−41.1982Jを参照されたい)や、Kohonen形ネットワーク( これについては[T、 Kohonen、 ”LearningVector  Quantization for Pattern Recognit奄盾氏 h。
Technica] Repnrt TKK−F−ABO3,He1sinki  University of Technology、1X86J を 参照されたい)がある。
図4(b)は、RCE法を例示すると共に、その幾つかの欠点をも明らかにした 図である。ここでも説明を分かり易くするために、区分する入力空間は2次元空 間であるものとする。図示例において、入力空間の中の複数の点は、2つのクラ スのうちのいずれか一方に所属するものであり、それらクラスは「・」のクラス と「×」のクラスとである。区分線りの右側の領域r1は、おおむね「・」だけ を含んでおり、区分線りの左側の領域はおおむね「×」だけを含んでいるが、た だし例外があり、円形領域r2は「・jだけを含んでいる。それら「・」ないし 「×」は、その各々が1つずつの学習用ベクトルに対応しており、従って、既知 のクラスに所属するベクトルに対応している。
従来のRCE学習法によれば、ネットワークは入力空間P1の中に、多くの場合 ランダムに、1つの点を選択する。続いてRCEネットワークは、その点を囲む 大きな円(入力ベクトルと同次元の超球面)を定め、そして、その円の中にただ 1種類のクラスに所属する点しか存在しなくなるまでその円を縮小して行く(半 径を短縮して行く)。例えば、図4(C)に文字Cを付して示した円は「・」と 「×」との両方を包含しているため、更に縮める必要がある。RCEネットワー クは、以上の、入力空間の中に点を配置し、その点を円で囲み、各々の円にただ 1種類のクラスに所属する点しか包含されなくなるまで円を縮小して行くという 作業を繰り返して実行する。どの「学習点」 (学習用入力ベクトル)もが、少 なくとも1つの円によって囲まれるようになったときをもって、そのネットワー クの「学習が終了したJものとみなす。
このRCE法をはじめとする、公知の様々な超球面クラリファイヤに付随する問 題の1つは、入力空間のうちのかなりの部分が、分類されないままの状態に置か れたり、或いは「二重分類」されたりするということにある0例えば、点P+は 、いずれの超球面にも包含されておらず、一方、点P8は、3つの超球面に不適 切に包含されている。学習を終了したRCEネットワークに、実際のベクトルと してPlのベクトルが与えられたならば、ネットワークはそのベクトルを分類す ることができない。
更に別の問題として、あるクラスの境界が線状であったり、鋭い角を持っていた りすると、その境界を適切に近似するためには多数の超球面が必要になる。ここ で、−例として、図4(b)の線状の境界りについて説明する。この境界りを正 確に規定するためには、理論的には、半径が無限大の円を用いてその円の中心を 直線りから無限遠に離して配置すれば良く、そうすればその円と平面部分P0と の交点が直線になる。ところがこの方法では、第1に、その円(超球面)が入力 ベクトルと同次元である場合には計算が不可能であり、なぜならば、平面上の円 をある直線から無限遠に離して配置することは、その直線が存在していることを 前もって知っていない限り不可能だからである。第2に、全ての円を無限大の半 径から始めると学習時間が非常に長くなり、なぜならば、それら円の半径を、そ の大きな値から段階的に短縮して行かねばならないからである。第3に、RCE 法等の既存の方法によってそれを行なうことは不可能であり、なぜならば、その 種の方法を用いたネットワークは、円を縮小するだけで、決して拡大しないから である。
RCE法等の超球面クラリファイヤに付随する更にその他の欠点は、それら方法 では、複数の学習用データ点を夫々に囲むように複数の超球面プロトタイプを配 置して、それらの半径を修正して行(ことによって、入力空間の中に複数の分類 領域を短時間のうちに形成することができるものの、それら方法は、各々のクラ スに対して2値出力しか提供することができない。即ち、ネットワークは、ある 点が「中」にあると考えるか、それとも「外」にあると考えるかについての判定 結果を示すだけであって、その判定が正しい確率はどれほどかについては、何も 示さない。RCEネットワークは分類の確率を提供しない。RCEネットワーク における確率についての何らかの情報を提供する技法も幾つか提案されているが 、それは誤差を最小にする方法ではないため、それらの解決法が最適なものであ ることは保証の限りではない。
線状の境界を近似する別の方法として、非常に多数の非常に小さな円を使用して 、それら円をその境界の上に並べるという方法がある。これを図4(b)に示し た。この方法もまた、従来の超球面クラリファイヤに採用されている典型的な方 法である。この方法の明らかな欠点は、単純な2次元の直線りの場合ですら、不 都合がない程度に整った輪郭を有するクラス領域を得るためには、数十個の、そ して場合によっては数百側もの小さな円(超球面クラリファイヤ)が必要になる ということである。そしてそれら円の1つ1つが、更に学習時間を延長し、ネッ トワークの複雑度を増大させることになる(それら円の1つ1つが個々に、隠れ ノード、即ち中間ノードを必要とするからである)、更に別の欠点として、その ような小さな円は、空間のうちの多くの部分をカバーしないまま取り残してしま うということがある。
Kohonen法では、ネットワークは全てのN次元人力ベクトルを正規化して 、それら入力ベクトルを、N次元球面上に配置する。続いて、その球面上のプロ トタイプ入力ベクトルを選択して、それを、クラスを表わしている球面上の点の クラスタへ近付ける方向へ移動させる。この方法に付随している重大な問題は、 その「同次元」正規化によって、入力ベクトルどうしの間の相対的な大きさに関 する全ての情報が失われてしまうことにある。更に別の問題として、RCE法等 の等球面クラリファイヤに共通した問題であるが、Kohonen法では、初期 の推定を良好に行なうことができず、そのために不必要に学習時間が長びいてし まうということがある。
及咀の踵担望説服 以下に、本発明に係るニューラル・ネットワーク、並びに本発明に係るニューラ ル・ネットワークの独創的な高速で収束する学習方法について説明して行(。
最初に、パターン認識問題を解くためのニューラル・ネットワークについて説明 する。ただし本発明の応用はパターン認識問題のみに限られるものではない、別 の具体な応用例として、後に「関数当て嵌め」問題を解くために使用するネット ワークについても説明する。関数当て嵌め問題は、ニューラル・ネットワークを 自動操縦装置に用いたり、ロボット・アームの運動の制御等に用いたりする場合 に一般的に発生する問題である。
本兄服旦係ゑ射影方法 既に述べたように、在来のニューラル・ネットワークは、N次元の入力ベクトル ないしパターンの評価を行なうために、N次元の重みベクトル及び入力ノードを 使用している。これに対して、本発明に係るニューラル・ネットワークは、直感 に反する処理手順を採用している。即ち、本発明のネットワークは、N次元の入 カバターンをN+1次元の空間で評価するために、意図的に入力ベクトル及び重 みベクトルの次元を、1次元だけ高くするようにしている。より詳しくは、本発 明に係るネットワークでは、パターン認識問題を、より高い次元の空間に[射影 コするようにしている。本発明に係るネットワーク構造と評価手順とを使用すれ ば、公知のニューラル・ネットワークと比較して、その学習時間を著しく短縮す ることができる(多くの場合、数桁分の短縮が可能である)ということが実験の 結果判明している。
図5は、2次元の場合(N=2)の1本発明に係る射影方法を説明するための簡 明な説明図である。図示例では、入力ベクトルないし入力領域は、全て2次元( N=2)のベクトルないし領域であって基礎平面P0の上に存在しているが、そ れらを2次元のベクトルないし領域としたのは、単に説明を分かり易く明瞭にす るためである。更に、以下の説明においては、ベクトル量は、文字の上に横棒を 付すことによって表わしこととし、従って又は、ベクトルXのことである6図示 例において、我々が望むことは、ニューラル・ネットワークが、平面P0上にあ って、アイオワ州の中に位置することになる点に対応した入力ベクトルを、その 地金ての入力ベクトルから識別できるものにすることである。尚、平面P0上の ベクトルを、又はて表わすようにしている。
本発明に係るネットワークは先ず最初に、N次元入カベクトル又、。を、N+1 次元の閉じた面の上へ射影する。図示例では、平面形状(N=2)の複数の入力 領域が、それら入力領域を取り囲んでいる球面S (N=3、なぜならばこの球 面は3次元球面である)へ射影される。この射影について理解するためには、基 礎平面PPが限りなく薄いガラス板であって、それが球面の中に配置されており 、そして、球面Sの中心Cから光線が発しているところを想像すれば良い。これ によって、様々な州の境界が球面Sの面上に、幾分歪んで反った形ではあるが、 映し出される。N次元の複数の入力領域(様々な州の形をしている)が、これに よって、幾分歪んだ形状の、N+1次元の、球面S上に射影された領域として姿 を現す。射影されてできた新たな3次元の射影ベクトルを5<2゜で表わしてあ り、この射影ベクトルは、3次元球面の中心から発した光線がその3次元球面上 に映し出した、2次元ベクトル又、′の先端部の影である。
この射影の結果として幾つもの利点が得られるが、それらについては後に説明す る。ただしこれだけは述べておくと、本発明に係る射影の結果として発生する形 状の歪み及び反りは、−見したところでは欠点に見えるかも知れないが、実際に は、この外観上の弱点が、本発明に係るニューラル・ネットワークの大きな利点 となっているのである。
それについて理解するためには、次のことを考えれば良い。それは、ニューラル ・ネットワークが、アイオワ州の中に存在する入力ベクトルを正しく分類してい さえすれば、その正しい分類が、最初の「平面地図」形状の画像ではな(て、投 影された「地球儀」形状の画像の方を評価した結果であっても、何ら関知する必 要はないということである。後に更に詳細に説明するように、評価手順は、本発 明に係るネットワークによって自動的に実行されるため、ユーザまたは管理シス テムは、ネットワークから与えられる「解答」を知ることができればそれで良い のである。
図5を見ることによって明らかな、本発明に係る射影方法の更に別の特質は、基 礎平面P°が球面Sの中心Cに近付くほど、射影された後の基礎ベクトルは大き く歪むということである。基礎平面が中心Cと殆ど交わるまでに近付くと、射影 パターン(通常の米国の地図)は球面Sの半分を殆ど完全に覆うようになる。
基礎平面(本来の入力空間)が中心Cと交わったならば、基礎平面の射影は、円 周の形状になり、射影された領域の境界は識別不能になる。
中心Cに近付(につれて歪みが太き(なるという特性は、その他の射影面には当 てはまらない特性である。N+1次元の球面Sは、好ましい射影面であり、なぜ ならば、本発明に係るニューラル・ネットワークで解く大部分の分類問題に関し て、その問題を解(ための計算処理を大幅に簡明化するからである。ただし、例 えば楕円面等の、その他の種類の投影面も、本発明に使用することができる。
ただし図示例では、中心Cからの距離は、本発明に係る射影ニューラル・ネット ワークが、本来のN次元入力ベクトルの、N+1次元射影面への射影の特性を変 化させるために修正を加えることのできる。1つのパラメータとなっている。
図6は、本発明に係る射影プロセスを示した更に精密な説明図である0図6にお いて、N次元人カベクトルヌがN次元平面から(N〉2であれば、PはN次元空 間になる)N+1次元の面Sへ射影されて、射影入力ベクトル又゛になっている 。図示の好適例では、面Sは半径がHの球面であり、より正確には超球面である (なぜならば、この面は、一般的には4次元以上の面だからである)。
平面Pは、面Sの中心Cから距離りだけ離れている。この量りは、−膜化して表 わすならば、N次元空間の原点ONと、N+1次元の射影空間の原点O□1との 間の距離である(図示例では、原点ON*lは球面Sの中心Cである)。
2つの三角形が相似形であることを利用しくa/b=1又1 /h) 、また、 射影されたベクトル又°が存在している球面の半径がRであることから、天゛は 次の式で表わすことができる。
この式において、x2−1′5Z1−・又の大きさ、である。
との又°も、N+1@の成分を持っているが、それら成分のうぢのN個の成分は 、各々のXの成分から算出することができ、N+1番目の成分(その分子はhで ある)を付加すわば良い。入力ベクトルの「正規化」だけならば、入力ベクトル の次元を1つ高くしなくても行なえるが(例えば、ベクトルの各々の成分を、そ のベクトルの大きさで割った上で、そのベクトルにRを乗じるだけでよい)、。
そうした場合には、各々のベクトルの大きさと、異なったベクトルどうしの間の 相対的な大きさとに関する、価値のあるものとなり得る可能性のある情報を失う ことになる。
射影されたベクトル又°は、大円を含んでいる平面GC平面に対して直交してお り、この大円平面GCは、超平面の判定境界線氾において平面Pと交わっている 。大円平面GCは、射影されたベクトル又゛によって規定されるものであり。
即ち、このベクトル又°に対して直交すると共に球面Sの中心Cを通過する平面 として規定される。更に、この大円平面は、従来のニューラル・ネットワークに おいて、入力平面を囲むために使用されている平面がそうしているのと全く同じ ように(図4(a)l照)、基礎平面Pを部分している。大円とは、球面と、そ の球面の中心を通る平面との交わり部分によって形成される円である。地球が丸 いものとすれば赤道は大円であり、なぜならば赤道は、地球の中心を通って地球 を北半球と南半球とに分割する平面上に位置しているからである。これに対して 南回帰線は大円ではなく、なぜならば、南回帰線を含む平面は地球の中心を通ら ないからである。
更には、いずれの入力ベクトル又も、その入力ベクトル又の大きさにかかわらず 、それに対応した射影ベクトル又゛は、大きさがRになることにも注意されたい 。換言すれば、様々な入力ベクトルの成分値がいかなるものであろうとも、それ ら入力ベクトルに対応した射影ベクトルは正規化され、即ち、どの射影ベクトル も、予め定められている面Sの上に位置するように制約され、この面Sは好適実 施例では球面である。また、平面P上の全ての領域の境界も、同様に平面P上の N次元ベクトルによって規定されるため、不整な形の境界でも球面Sの面上に写 像することができる。更には後に詳述するように、入力層から隠れ層への夫々の 結合に対応した重みベクトルも、その全てを、ある1つの球面上に存在するよう に制約するようにしている(この球面は、射影された入力ベクトルと同じ球面で あることが好ましいが、必ずそうすることが必要なわけではない)。
上掲の(式1)に定義し、図6に例示した射影方法を用いた場合には、球面Sの 上の円形領域は、平面P上の楕円領域に対応することになる。これは、好適例の 射影(この射影は多くの計算処理を簡明化する)を行なって得られる結果である が、これ以外の射影を行なうこともできる。例えば、次のような射影が可能であ る。
この式において、x= l x l =xの大きさであり、この射影は円を円へ 写像する。
日に、る み弓と4 図7には1本発明に係るニューラル・ネットワークの全体構造を示した。このネ ットワークは、N+1個の入力ノードx、(1)、x、(211,、、、xo( N+11を備えており、それら人力ノードの各々は、射影された入力ベクトル又 ° (これは上の式の定義に従って算出したものである)の1つの成分(1つの 数)を記憶している。このネットワークワークは更に、M個の中間ノード即ち隠 れノードy(1)、y (2) 、 、、−、y (Ml を備えており、それ ら隠れノードはスカラー値を記憶している。このネットワークは更に、K個の出 力ノードを備えており、それら出力ノードの各々は、出力値u(11、u(21 、−= ufKlを記憶している。N、 M、それにKは、互いに同一である必 要もなければ、互いに同一であっていけないこともない。また、隠れ層を2層以 上にして、ある隠れ層からの出力が別の隠れ層への入力となるようにしても良い 。最も一般化した場合では、図7に示した階層構造すらも不要である。例えば出 力ノードを直接に入力ノードに結合して、中間ノードを「弱体化1する等のこと も可能である。
ここでもまた、出力ノードにはA、B、C,Dという文字を記入しであるが。
これは説明を分かり易くするためにそうしたに過ぎない。ここでは、我々が望む ことは、例えばドギュメント・リーグ等において、ニューラル・ネットワークが これらの英文字を識別できるようにすることであるとする。いうまでもな(、本 発明に係るネットワークの応用は、これら4つの文字を認識するという用途だけ に限られるものではなく、またそもそも、文字の認識という用途にすら限られる ものでない。このニューラル・ネットワークを使用して、数字の形に変えられた 任意のパターンの解析を行な)こともできれば、任意の良好な応答の関数の当て 嵌めを行なうこともできる。
図示例では、入力ベクトル又が例えばrBJに該当するとネットワークが判定し た場合には、u(2)が活性化されることになる。予期されている出力A−Dの 各々は、夫々に特定の入力クラスを規定している。例えば、それらのうちの1つ の入力クラスは、我々が識別できるようにしたいと望む様々な字体(例えば筆記 体、イタリック、大文字、ゴシック、等々)の「A」を包含した入力クラスであ る。このニューラル・ネットワークが目標としているのは、未知の入力ベクトル が与えられたときに、その入力ベクトルがどのクラスに所属するものかを判定す ることにある。
中間層の隠れノードy fjlの各々は、入力ベクトル又に重み付けした値から 、「しきい値」の値νを減じた値を受け取る。更に詳しく説明すると、隠れノー ドy (jlの各々に対して、1つのN+1次元の重みベクトルW、°と、1つ のスカラー値ν、とが存在している。各々の隠れノードへの入力は、重みベクト ルと、射影された入力ベクトルとを、掛は合せたベクトル内積から、しきい値を 減じた値として算出したものとすることが好ましい。従って、y fj)への入 力は次の式で表わされる。
(式3) WJ’・又°−ν4、j=1.21.、、、M本発明においては、各 々の隠れノードからの出力は、上式の入力に対して、シグモイド関数(図3(b )及び同図についての説明を参照のこと)、或いはその他の適当な間数を適用す ることによって得られる。また、各々の隠れノードjからの出力y (jlは、 次の式で表わされるものとすることが好ましい。
(式4) y(jl=σ(WJ’・又′−νJ)、 j=1.21.、、、M既 述の如く、隠れノードへの入力に対して、シグモイド関数を適用することによっ て、隠れノードからの出力は全て、滑らかで、しかも限界を有するものとなる( 例えば「0」と「l」の間の値を取る)。
図7において、隠れノードy (11は、図示の如く入力ノードxo(11、x  、 (2)。
及びxo(61に結合している。−膜化した構造は、このニューラル・ネットワ ークを、余すところなく結合した構造であり、即ち、各々の入力ノードを全ての 隠れノードに結合したものである。しかしながら、以下に説明するように、本発 明に係る最適化処理は、学習の実行中に不要な結合を抑制する。ただし、本発明 は更に、不要な結合についての以前の情報を組み込むことも可能にしている6各 隠れノードy fjlの出力は、出力ノードu (11〜u (Klへ渡されて いる。−膜化した構造では、出力ノードもまた、隠れ層に関して説明したものと 全く同様の方式で、隠れ層の夫々の出力にそれら出力の結合に対応した夫々の重 みベクトルを乗じた値の総和である重み付は総和を取るようにしている。従って 、重みベクトル4としきい値μとが、各出力ノードUに付随している。各重みベ クトルqは、M個の成分を持っており、なぜならば、図7に示した具体例では、 隠れ層にはM個のノードがあり、その各々が出力を送出しているからである。こ こで、yを、それら中間ノード即ち隠れノードの、M個の値を含んでいるベクト ルであるものとする。本発明によれば、各出力ノードの値u (jlは次の式に 従って定められるようにすることが好ましい。
(式5) uijl =a (qJ−y−jjJ )、 j=1.21.、、  、Kある出力ノードの値が「0」を超えているなら(従って、可、・y−μ、〉 。
であれば)その出力ノードは「発火」しており、その出力ノードが「発火」して いるということは、入力ベクトルが、その出力ノードに関連している値(例えば 図7では、出力ノードu(3)が文字「C」に関連している)に、最良に対応し ているとネットワークが判定したことに他ならない。ただし多くの用途において 、単純にその時点での各出力ノードの値を評価して、その値が最大の出力ノード を選択するという方法も用いられる。例えば出力ノードu(11、uf21 、  uf3)及びu(4)の値が、たまたま、夫々ro、65J、ro、02J、 rO,14J、及びro、34Jであったものとすれば、ニューラル・ネットワ ークは、ノードu(11(これは図示例では「A」に対応している)が正解であ る可能性が最も高く、それに続いて、ノードu(41(rDJ ) 、ノードu (3) (rcJ ) 、そしてノードu[2) (rBJ)の順であると判定 することができ、この場合には出力ノードの値が確率値の大小を表わしている。
更に多くの隠れ層が存在している場合には、それら隠れ層も同じ手順に従い、そ れら各層のノードが、そのすぐ下の層の複数のノードの夫々の値の重み付は総和 (バイアスとしての、しきい値が加味されることがある)を入力値として受け取 ることになる。
ネットワークの学習中には、我々は、既知のベクトル(即ち、例えばrAJや「 B」等の既知のクラスに所属しているベクトル)を入力すれば、どの出力ノード が発火せねば「ならないか」が分かる。即ち学習中には、複数の出力ノードから 夫々に実際に得られる出力値を「正しい」または「望ましい」出力値x、(11 、x 、 f211.、、 xa(Klと比較することができる。この比較の結 果を量的に表わすために、出力ノードの実際の出力値と既知の望ましい値とを、 所定の「誤差関数」を用いて評価する。誤差関数の概念は当業界において広(理 解されており、関数Eの選定は任意の一般的な方法で行なえば良く、例えば、ネ ットワークが識別すべきパターンのクラスについての任意の特別の知識を組み込 むようにしたり、或いは、ユーザの特定のハードウェアないし計算処理上の必要 に適合させるようにしたりすることができる。
本発明に関する実験を通して、理論的な点ばかりでなく計算処理上の点でも有利 であることが判明した1つの誤差関数は、次の式で表わされるものである。
この式において、 E = E (w ro、W2°、−−−t Wv、Vl s ν= 1−0−  V&l、q+、qi ・ ・・・ ・ Q++’v μ+ ・ U重 ・ ・ ・・ μに )である。
即ぢ、誤差関数Eは、複数の出力ノードの夫々の値と、夫々の望ましい値との間 の「非類似性」の指標に他ならない。夫々の差を二乗するため、Eの値は常に「 0」以上であり、また、誤差間数Eが二次式であることによって、最適化におけ る周知の利点も得られる。E=Oとなるのは、複数の出力ノードの夫々の値の全 てが、夫々の望ましい値と一致したとき(即ち、等しくなったとき)だけである ことが、上式から分かる。
更には、複数の出力ノードの値u filは、従ってEの値は、M個の重みベク トルW゛の、その各々のN+1個ずつの成分の全てに影響され、また、M個のし きい値νの全てに影響され、K個の重みベクトル可の、その各々のM個ずつの成 分の全てに影響され、更に、K個のしきい値Hの全てに影響される(即ち、それ ら全ての値の関数である)。従って、ニューラル・ネットワークは、公知の最適 化方法を用いて、重みw’、qと、しきい値ν、μとを修正することによって、 それら重みベクトル及びしきい値に関して、誤差間数Eを最小化することを目指 せば良い(これは、■をできるだけ又、に「似させる」ことに等しい)。そのた めに使用することのできる最適化方法の1つについて、以下に説明して行く。尚 、入力ベクトル又を先に説明したよりに射影し、それによって、射影された入力 ベクトル又°を生成したならば、これ以後入力ベクトルに関する値は一定であり 、その値に対しては修正を加えたりしない。ニューラル・ネットワークが、Eを できるだけ小さくすることに成功したならば、ニューラル・ネットワークはそれ によって、みずからの重みベクトルの修正に成功したことになり、従ってニュー ラル・ネットワークが到達した解は、既知の正しい値にできるだけ近いものとな っている。
複数の変数を含んでいる関数を最適化するための、多くの最適化方法が公知とな っており、本発明では、それら方法のうちの任意のものを使用して誤差関数Eを 最小化すれば良い。その種の方法のうちの1つである「最急降下法」は、反復式 の方法であり、従って、この方法を用いて最適解を発見するためには、先ず開始 値を適当に定め、次に誤差関数の勾配をめ、次にその勾配の方向とは正反対の方 向へ小さな1歩分の移動を行ない、次に移動後のその点において誤差関数の勾配 をめ、更にまた次の1歩分の移動を行ない、以下同様に反復して、誤差の大きさ が予め定めである許容可能な値より小さくなるまでこれを続けて行く。
数学の分野では周知のことであるが、連続した滑らかな関数の最大値ないし最小 値は、その関数の勾配が「0」になる点に存在している。最適化方法として最急 降下法を使用するときには、システムは、ベクトルW、の修正方向を決定するた めに、そのベクトルW、に関するEの偏微分、を算出する。Eの勾配には、更に 、複数のしきい値νの各々に関するEの偏微分に関する項も含まれており、従っ て、それら複数のしきい値の各々の更新値をめるために、それら複数のしきい値 νに関するEの偏微分、を算出する。この最適化ルーチンは、同様にして、出力 重みベクトル可、及び出力しきい値μに関係した勾配も算出する。
ここで再び、先に挙げた、起伏のある露深い土地において標高が最低の地点を発 見するというたとえに即して説明すると、Eの勾配(E)は、任意の点における 最大上り勾配の方向とその大きさとを示すものである:最急勾配法に従う場合、 我々は、我々の近傍で地形の傾斜が最も急な上ぼり坂になっている方向を探し、 そしてその正反対の方向へ、そのとき設定されている距離だけ進む、その地形が 異常に極端な起伏を持つものでなければ(例えば、高原から垂直に切り立った崖 が存在したりしていなければ)、この「勾配の正反対の方向jは通常、最も急な 王1fg少傾斜方向を指している。本発明にとって最急降下法は、絶対に必要な 方法ではないが、好適な方法であり、そのため本発明の実験では、この方法を用 いて評価を行なった。
本発明では、重みベクトルW′を選択する方法にも新規な選択方法を使用してい る。即ち、射影された入力を隠れ層に結合している重みベクトルW、′も、必ず 射影面上に存在するよう、制約するようにしている。重みベクトルを正規化する 方法の1つは、入力ベクトルに対して適用しているのと同一の、正規化しつつ射 影するという射影方法をこれにも適用するというものである(前掲の(式1)を 参照されたい)、従って、重みベクトルが球面S上に存在するように制約するた めの1つの方法として、先ず最初に、Wloを下式に従って定めるという方法が あこの式において、w 、 ” = l W 、 I ”である。
上式に使用している半径Rは、前掲の(式l)におけるRと同一にすることが好 ましく、それによって重みベクトルを、射影された入力ベクトルと同じ球面上に 存在するように制約することができる。ただし、そうすることが必ず必要なわけ ではなく、(式7)のの中の半径Rをその他の定数に選定することも可能である 。双方の半径を互いに異ならせることによって生じる唯一の違いは、ベクトルの 内積であるWo ・又°の値が、一定の割合で縮小ないし拡大されるということ だけである。
在来の槽準的な最急降下法では、一般的に重みベクトルを球面から離れる方向へ 移動させるため、学習によって1歩分(1回分)移動するたびに、(式7)を用 いて重みベクトルを再度算出する必要があった。従って、本発明に係る好適例の 学習方法は、計算処理の点でより効率的な、修正した最急降下法を採用している のであり、この修正した最急降下法は、重みを3次元の球面上に拘束するように 、或いは、入力ベクトルがN次元ベクトルである場合には重みをN+1次元の超 球面上に拘束するように構成した方法である。この好適例の方法を図8に図式% 式% ここで、重みベクトルとして、球面Sの面上に存在するように制約された重みベ クトルw ’ In l (ここでnは繰り返しの回数を表わす)を用いるもの とする。これによって、重みベクトルの原点は球面Sの中心Cになり、重みベク トルの長さ即ち大きさは球面Sの半径Rになる。この後、射影された入力ベクト ル又゛と、全ての重みベクトルWと、全てのしきい値との関数である誤差関数を 評価する。
続いて、周知の計算法を用いて誤差関数の勾配Eを算出し、そして、次の式に従 って各々の重みベクトルにおける正規化する前の変化量ΔW゛をめる。
この式において「×」はベクトル外積を表わしている。また、γは所定の1回分 の移動量を表わす係数であり、システムが、修正後の重みベクトルを置く位1を 、下り坂の方向(Eの方向の正反対の方向)のどれほど遠くの位置にするかが、 このえによって決められる。(式8)において、重みベクトルをRで割っている のは、計算処理を容易にして効率的にするためであり、なぜならば、これによっ てw’/Hの大きさが、w’ /R=1.0になるからである。また(式8)に おいて、ベクトル外積を算出する際には、周知の「右手の法則」に従うため、Δ W゛の指す方向は、−Eになり、即ち、勾配の正反対の方向となることが分かる 。
本発明では、修正後の新たな重みベクトルを元の3次元球面(或いはN+1次元 超球面)の面上へ戻すために正規化を施すようにしており、それには、新たな重 みベクトルを、その新たな重みベクトルの大きさで割った上で、Rを乗じるよう にしている。即ち、下式に示すようにしている。
この式において「1・1」はベクトルの和の大きさを表わしている。これによっ て、w ’ ln ” + 1もまた、半径がRの球面Sの面上に存在するよう に制約されることになる。
ここから再び図4(a)について説明する。ニューラル・ネットワークは「判定 境界」を設定しなければならない。即ち、ニューラル・ネットワークは、与えら れた入力ベクトルが、あるクラスの中に入るか否かを判定せねばならない、従来 例には、既述の如(、判定境界を超平面の集合によって形成するものがあった( 2次元の場合はその超平面が直線になる)。この従来例においては、ネットワー クは、入力空間の中のある領域を囲む複数の超平面から成る超平面集合をめよう とする。そして、例えば「木」のパターンに対応した領域等の、その判定領域の 中に存在する解は、その領域に対応したクラス(「木」のクラス)に所属するも のと見なす。また、その領域の外に位置する解は、そのクラスに所属しないもの と見なす。既述の如く、従来のニューラル・ネットワークを使用した場合には、 良好な初期「任意推定」を行なう能力を備えていないため、また更に、閉じた領 域を形成する能力を備えていないため、学習時間が長くなると共に、隠れノード を過剰に使用するという無駄が生じる。
本発明に係るニューラル・ネットワークは、入力ベクトルと重みベクトルとの両 方を高次元の空間へ射影するという独創的な方法を使用しているため、良好な初 期任意推定を行なう能力を備えるのみならず、更に、これまでよりはるかに短時 間で収束する能力をも備えている。このような改善を可能にした要因のうちの1 つに、本発明では、超球面と超平面との両方を判定境界として使用できるという ことがある。
図9は、本発明の主要な利点のうちの1つを説明するための図である。その利点 とは、本来の入力空間(N次元平面P)に存在するある1つの領域の境界を。
ただ1つの超球面(即ち、N+1次元の面S上の「円形の」領域)だけで、充分 に定めることができるということである。即ち、ベクトル又′を選択して、角度 φを定めることによって、そのベクトル又°を囲む「円錐」を規定することがで き、この円錐は平面Pと、楕円(または円)I2で交わり、また、球面Sの面上 には、その楕円ないし円に対応した円形領域A°が、円形の境界線e゛で画成さ れる。図9に示したように、平面P上のただ1つの楕円領域だけで、複数の入力 から成るその1つの入力クラス(この例では、その入力クラスは、カリフォルニ ア州の中に存在する全てのベクトル入力を表わすものである)を充分に囲むこと ができる。
以」−の方法を、図4(a)に例示した従来の「同次元j的方法に従って複数の 平面から成る平面集合を選択及び移動させねばならない場合と比較すると、次の ようになる。同図に示した従来例の方法によるシステムでは、閉じた判定領域を 形成する際には、複数の平面を使用せざるを得ないため、容易に規定することの できる単一の曲線形状の境界によって判定領域を画成するという、本発明では可 能なことが(これについては図9を参照されたい)、この従来例の方法によるシ ステムでは不可能である。
カリフォルニア州の形状は、今や本発明によって、ただ1つの楕円境界線εで囲 むのに適した形状であるといえるようになった。より直線的な形状の、例えば図 9に示した三角形領域Tのようなパターンであっても、たいていの場合には、そ のパターンを良好に囲むために必要な楕円領域は、複数の平面で囲む場合のそれ ら平面の数よりも少なくて済む。
確かに、三角形領域Tは、適切に選択した平面を用いれば3枚の平面で完璧に画 成することができるのに対し、楕円のような曲線状の形状では、この三角形領域 Tの直線の辺を近似することしかできない、しかしながら、第1に、この三角形 という形状は、たまたま偶然にその形状であったというだけで、めったにある形 状ではない。また、第2に、本発明に係る射影方法によれば、ニューラル・ネッ トワークは、通常の超頼の特別の場合として、判定超91iを選択することもで きるのである。
中間ノードの各々への入力は、Wo ・又°−νである。Woと又°とはいずれ も半径Rの球面上に存在しているため、この入力を表わす式は次のように書き直 すことができる。
(式10) w’ ・又’ −V:R” ・cosθ−νこの式において、θは ベクトル又゛とベクトルW°との間の角度である。
これより再び、図3(b)を参照して説明する。同図には、シグモイド関数〇( 0と1との間で滑らかに補間しである)が示されている。さて、中間ノードの各 々について、判定しきい値を選定する必要がある。判定しきい値は、入力ベクト ルが所与のクラスの中に存在するとニューラル・ネットワークが判定して、その 中間ノード(隠れノード)が、そのクラスに対応した出力ノードを「発火」させ ることになる、その限界点を定める値である。もし、隠れノードy (jlの判 定しきい値を、y(j)=1/2に定めたならば(それには、σ(O1=1/2 とすれば良い)、ノードy fjlの判定面は、Wj+・又“−ν、=0という 式によって、或いは同じ式を書き直した、W j ’・又′=ν4という式によ って写像される。
もし−R”<ν、<R″であれば、その判定面は、N+1+1次元面の面上に存 在するN次元超球面になる(球面Sの面上では「円形」になる)、νの値を大き く取るほど、Woと又゛とは互いに接近する(なぜならば、Woと又゛との間の 角度θが小さくなるほどcosθが太き(なるからである)、従ってCOSθが 大きくなるような選択をすれば、それに応じて、球面Sの面上の円形領域として の判定領域は小さくなる。
(式l)または(式7)の変換式による射影変換の逆変換を行なうことによって 、その判定面を再び、N次元超平面P上へ射影して戻すことができる。超平面P 上に射影された面が、その超平面Pの上に完全に収まる場合には、その面の形状 は楕円形になる(例えば、図9において、超平面上の楕円形領域Aは、球面S上 の超球面(「円形」)領域A゛に対応している)。
ν=R”としたならば、判定面は超球面S上の単一の点となり、空間内の全ての 点が判定面の上または外に存在することになり、また、シ=−R1とした場合に は、全ての点が判定面の上または中に存在することになる。1ν1〉R3とした 場合には、超球面上には解が全く存在しない。
ν=0としたならば、天゛とWoとが互いに直交し、判定面は図8に示すように 大円GCになる。この大円をN次元空間へ射影して戻したならば、その射影は平 面P上の単なる直線iになる。N次元からこの逆向きの射影を行なった場合には 、この直線はN−1次元面子面になる。従って本発明に係るネットワークは、ν =0に設定することによって、判定境界を形成するための超平面を生成すること ができる。従ってこの特別の場合においては、前述の従来例に係るN次元ネット ワークによるものと同じ種類の境界が生成される。尚、出力ノードu fjlに 対応した判定しきい値については、u(jl=1/2に設定する必要はなく、従 ってa[01=1/2とする必要はない(図3 (b)l照)。
本発明に係るシステムの大きな利点の1つは、いうまでもなく、ニューラル・ネ ットワークがもはや、M旦血超平面だけを使用せずども良くなったことにある。
本発明に係る射影方法によれば、ネットワーク(或いはユーザ)は、超平面を使 用するか、超球面を使用するか、或いはそれら両方を使用するかについて、具体 的な個々の問題の解決に好都合、ないしは有利と思われるものを、選択すること ができる。これに対して、在来の標準的なクララファイヤは、この選択の可能性 を提供していない。また更に別の利点として、本発明では、この射影によって、 開いた判定面(例えば、1つの平面の片側の全てを含む判定面)と閉じた判定面 (球面境界の中の領域)とのいずれかを選択することのできる選択の可能性をも 提供しているということがある。
例えば、複数の入力から成る1つの入力集合を1つのクラスとして分類するため に、ある1つの領域(例えば球面領域)を囲む必要がある場合に、超平面しか使 えないシステムでは、N次元の超平面を少なくともN+1枚必要とするのに対し て、本発明に係るネットワークでは、1つの超球面だけで事足りる。また1本発 明に係るネットワークでは、空間を2つの半空間に分割するには、適切に配置し た1枚の超平面だけで事足りるのに対して、超球面クララファイヤでは、−M的 に、1枚の超平面を許容可能な精度で画成するためには多くの超球面が必要であ り、しかもこの問題は、次元数が大きくなれば更に面倒なものになる。
重み びしきい の− N+1+1次元面上では、隠れ層ノードへの入力値(W+ ・又“−ν)が可能 最大値を取るのは、どの隠れ層ノードについても、また、そのしきい値がどのよ うな値であっても、vv’=x“のときである。従って、隠れ層の中にある、ノ ードy (jlの重みベクトルWJ’を、クラスCの、ある入力又、°に等しく 設定しておけば、即ち、W J ’ :=又、゛としておけば、後になって、あ る入力ベクトルが射影されたものが又1°であったときに、この第j番ノードy  (jlが、最大値を発生することになる。従って、この第j番ノードはクラス Cの「プロトタイプ」になり、この第j番ノードは、又、°が入力されたときに 最大限に発火するように構成されたことになる。しきい値ν、は、そのプロトタ イプを中心とした次元面判定領域の半径を定めるものとなる。
別の説明の仕方をするならば、例えば、ニューラル・ネットワークに、絵図の入 カバターンを認識させたいと考えており、即ち、「木」、「家屋」、「人物」等 に対応した入力ベクトルを認識させたいものとする。ここで、木と、家屋と、人 物像との、その各々について10通りずつの異なった姿のものに対応した、射影 された入力ベクトル(即ち「プロトタイプ」)を構成するものとする(木につい てのプロトタイプを、′f、(1)、1F21 、 、、、 、工(1o)で表 わし、家屋についてのプロトタイプを、Fl (1) 、 F1f2+ 、 、 、、 、 Fl flolで表わし、人物像についてのプロトタイプを、p(1 )、 pf21 、 、、、 、 p(101で表わす)。それらプロトタイプ を構成するには、例えば、典型的な10種類の木、典型的な10種類の家屋、そ れに典型的な10種類の人物像を夫々に写した実際の写真を、一般的な走査装置 を用いて走査して、夫々に対応したN次元の表示を生成し、続いてそれらN次元 の表示を、例えばC式1)等を用いて、N+1次元の面上へ射影する。これによ って、ベクトルL Fl、及びpの各々は、N+1個の成分を持つようになり、 また、その大きさがRになる。
以上のようにするならば、入力ベクトルの正規化とは別個に初期重みベクトルの 正規化を行なうことが不要になる。なぜならば、入力ベクトルそのものが、重み ベクトルの初期値として使用されるからである。(式8)及び(式9)を使用す れば、重みベクトルの更新値も超球面の面上に存在するように制約されることに なるため、重みベクトルは、射影された入力ベクトル又゛と全く同様に、常に面 Sの上にとどまるように拘束されることになる。
続いて、ネットワークを、少なくとも30個の中間ノードy fjlを含むよう に設定しくM2B5)、更に、それら中間ノードの各々の重みベクトルw’ ( N+1次元)を、30個のプロトタイプの夫々1個ずつに等しく設定する。こう することによって、入力ベクトルがたまたま30個の既知のプロトタイプのうち のいずれか1つと等しかった場合には、中間ノードのうちの1つが最大限に発火 することになる。なぜならば、その中間ノードの重みベクトルが、射影された入 力ベクトルと完全に一致することから、Wo ・又’ =Ri =重みベクトル と入力ベクトルどの間の最大限の一致、となるからである。
動作に関連させて説明するならば、以上のようにするということは、実際の値か ら取り出したプロトタイプ値を、中間層のノードの重みの初期「任意推定」値と して使用することによって、一番最初の値である任意推定値の全てが、入力ベク トルの既知のクラスの中に入るようにしているのである。ここで再び図9を参照 して説明すると、初期の重みをプロトタイプに等しく設定することによって、ネ ットワークは入力ベクトルの様々なりラスに対応した境界を、たとえ完全でない にしても、良好な境界にした上で、みずからの学習を開始することができるので ある。球面上の10個の領域から成る1つの領域群A t+は、「木」に対応し た領域群となり、別の1つの領域群A、+は、「家屋」に対応した領域群となり 、更に別の10個の領域から成る1つの領域群A、′は、「人物像」に対応した 領域群になる。
中間ノードの各々について、それに対応するしきい値νを選択することによって 、各々の領域を(その半径を)どれほどの大きさにするかを選択することができ る。クラスの大きさの見当がつかない場合には、初期しきい値を任意推定値にし て、学習プロセスの実行中にその値が修正されて最適な大きさになるようにすれ ば良い。
射影面上の判定面(超球面)の中心を置くべき位置が自分で分かつており、しか も、その判定面の半径を然るべき大きさにしたいという場合には、上に示した夫 々の式に従って、そうするための適当な重みベクトル(これによって中心を定め る)と、しきい値(これによって半径を定める)とを自分で算出すれば良い。
更には、重みベクトルを、射影された入力ベクトルに対して直角になるように意 図的に設定し、且つ、しきい値υを「0」に設定することによって、N次元入力 空間(基礎平面P”)上の既知の直線と交わるプロトタイプ超平面を生成するこ とができる。
本発明についての実験を行なって判明したところによれば、本発明に係るネット ワークは、初期の重みを、次元を高くした正規化したプロトタイプに等しく設定 することができるため、公知のネットワークを用いた場合に可能な収束時間と比 べて、格段の短時間のうちに最適重み値へ収束することができ、即ち、入力ベク トルを正しく分類することができるようになる。また、その初期設定値が、最適 解の値に近いため、先に説明した典型的な局所的最小値を含む領域や、高原形状 の部分を含む領域を避けることができる0図4(a)に示したように、良好な初 期「任意推定値」を包含するように、超平面の枚数と位置とを適切に決定するこ とは計算処理の点から困難であるが、本発明では、例えば実際の既知のプロトタ イプ・ベクトルの射影等のベクトルを、ただ1つ用いるだけで、閉じた境界領域 を定めることができる。
スケーリング 入力ノードの値にスケーリングを施して、その値を、0〜1の範囲ではなく、− 〇、5〜+0.5の範囲で(或いはその他の、小さな負数から小さな正数までの 範囲で)変化させるようにすれば有利になるという問題が多く存在している。
本発明に係る射影ネットワークでは、非常に次元が高い(Nが大きい)問題に関 して、それが重要な意味を持つことがあり、なぜならば、非常に高次元の問題を 扱うと、Wo ・又゛が大きな数になりがちだからである。例えば、又°がN+ 1次元ベクトルであって、その成分の大きさがいずれも略々「1」であり、更に 、Woを又°に等しく初期設定したならば、Wo ・又°は、略々Nx”−n” の大きさになり、この式においてXは、又°の大きさを表わしている。例えば、 N=50の高次元問題では、W“ ・又゛が非常に大きくなり(r2500J< らいになる)、そのため、その値を修正することができるようにするためには、 νの値を非常に大きな値に設定することが必要になる。
それによって生じる問題は、シグモイド関数(図3(b)に示した)が、大きな 数と大きな数との差に対して適用されるようになるということである。数値解析 の分野では良(知られていることであるが、これによって、中間層の活動状態が 「0」か「1」かのいずれかになってしまう(換言すれば、中間ノードにおける 「精細度」が失われ、中間ノードの値が「全て」か「皆無」かのいずれかになっ てしまう)おそれが生じている。そして、そうなってしまうと、ネットワークの 学習プロセスの進捗速度が低下する。従って、Wo ・又°及びνは、シグモイ ド関数の中央の、直線状の、傾斜領域に充分近い位置から離れないように維持す ることが、一般的に望ましいといえる。
辺斯土力重み これより図7について説明する。各々の出力ノードUは、少なくとも1個の中間 ノードyに結合している。好適実施例においては、ある出力ノードの値は、その 出力ノードに結合している複数の中間ノードの重み付は総和に等しく設定される こともあれば、その重み付は総和に対してシグモイド関数を適用した値に設定さ れることもある。これは、先に(式5)に関連して説明したとおりである。従っ て、u(1)については、yfl) 、 yf21 、 y(31、及びy(4 )に結合していることから、下式のようになる。
または、 これらの式において、q + (itは重みベクトルす、の第1番目の成分であ り、「・」はスカラー積であり、μ、は出力ノードu(1)のしきい値である。
本発明の好適実施例においては、各々の出力重みベクトルの各々の成分は、中間 ノードが、それが結合している出力ノードと同じクラスの入力に対応しているの であれば「l」に初期設定し、また、中間ノードがその他のいずれかのクラスの ものであれば「0」に初期設定するようにしている。尚、本発明では、重みの値 を、それら以外の、「0」と「1」との間の値とすることも可能である。好適実 施例の方法では、初期設定は下式で表わされる。
この式において、 y fitがクラスにのプロトタイプであれば、δ□=1であり、y (i)が クラスにのプロトタイプでなければ、δ□=0である。
しきい値μは「0」または「0」に近い小さな値に初期設定しておき、それによ って、異なったクラスのプロトタイプからの小さな影響を打ち消すようにしてい る。ネットワークの学習が進むにつれて、以上のように初期設定した重み及びし きい値が、その学習手順に従って変更されて行く。このレベルでの好適な学習手 順は、先に説明した最急降下法である。尚、出力ベクトルを球面上に拘束する必 要はないことに注意されたい。
ネットワークの 離 び 離− 図10は、本発明に係るニューラル・ネットワークの更に別の利点を明らかにし ている。その利点は、射影方法を使用しているために得られるものであって、1 つのニューラル・ネットワークを、場合によっては、互いに分離した複数のモジ ュールに分割することができ、それによって学習を容易化することができるとい うものである。図10は、ニューラル・ネットワークの一部分である、4個の出 力ノードu (1)〜+i (4)と、12個の中間ノードy (1) 〜y  (4)とを示している。
出力ノードu(1)、u(2璽u(31,またはu(4)が活性化し、即ち「発 火」したならば、それは、入力が、夫々rAJのクラス、rBJのクラス、「C 」のクラス、または「D」のクラスに所属するものであると、ネットワークが判 定したことを表わしている。ある出力ノードが活性化したということは、その出 力ノードの値がその出力ノードの所定のしきい値を超えたか、或いは、その出力 ノードの値がその他の出力ノードの値よりも大きかったか、等々であることを意 味している(活性化のための基準は、所与の問題に関する既知の必要事項や、そ の問題の特性等に応じて選択すれば良い)。
ノードy(1)〜y(3)は、クラスrAJのプロトタイプであり、それらノー ドの重みベクトルは、クラス「A」に所属するものであることが知られている夫 々のサンプル入力に等しく初期設定されている。ノードy(4)〜y(6)は、 クラスrJのプロトタイプであり、それらノードの重みベクトルは、クラスrB Jに所属するものであることが知られている夫々のサンプル人力に等しく初期設 定されている。その他の中間ノードy(7)〜y (12)は、その他の文字の プロトタイプであり、それらノードの重みベクトルは、対応する文字の夫々のサ ンプル入力に等しく初期設定されている。
ネットワークの学習が行なわれて(この学習はrAJのクラスまたはrB」のク ラスのいずれか一方のついて、そのクラスに所属することが分かっている複数の 学習用入力ベクトルから成る所与の学習用入力ベクトル集合に関して、重みとし きい値とを修正することによって行なわれる)、夫々のクラスが充分に区別され 、その結果、「A」に対応したプロトタイプ及びrJに対応したプロトタイプに よって形成された夫々の領域と、「c」に対応したプロトタイプ及び「D」に対 応したプロトタイプによって形成された夫々の領域との間の重なりが、小さいか 或いは皆無になったものとする。このようになったならば、それは、中間ノード y f71〜y f121が、おそらくは、出力ノードu (11及びu(2) の値には決して寄与しないであろうということを意味しており、即ち、u (1 1及びu(2)と、y(7)〜y (121との間の結合に対応した重み(即ち 、夫々の重みベクトルqの中の成分)が、殆どrQJになるであろうことを意味 している。
これを手短にいうならば、図10に示したニューラル・ネットワークの一部分は 、実質的に、互いに分離独立した2つのネットワークとして動作しており、その うちの一方は「A」と「B」とを区別することを習得しようとしており、他方は rCJとrDJとを区別することを習得しようとしているのである。これが可能 にしたのは、また更に、それを単なる可能性以上の蓋然性にまで高めたのは、本 発明に係るネットワークに備わった、空間Sの良好に規定された領域から始めて 、多くの場合その良好に規定された領域の中に最後までとどまっていられるよう にすることのできる能力である。これによって更に、複数の入力クラスを明確に 分離させることができることから、ネットワークに学習させる際に、互いに分離 独立した2つの(或いは3つ以上の)ネットワークとして学習させ、夫々が学習 を終えた後に、それらネットワークを再び併合して1つのネットワークにするこ とが可能になっている。
ここで、我々が、ネットワークにA−Zの文字を認識するための学習を行なわせ た後に、更に0〜9の数字も認識させたいと考えたものとする。本発明に係るネ ットワークに関しては、その場合に、我々は、新たな別のネットワークに数字を 認識するための学習を行なわせた上で、その新たなネットワークを、文字を認識 することのできる元のネッ1−ワークに併合すれば良く、従って、従来例のネッ トワークでは必要とされていた、そのネットワークの全体をゼロから再学習させ るということが、本発明に係るネッ)−ワークでは不要となっている。たいてい の場合にはクラスどうしの間に幾らかの重なりが存在しているため、通常は併合 後に更にある程度の学習をさセる必要とされるが、しかしながら、そのための学 習時間は、ゼロから再学習さゼる場合に必要とされる学習時間より、はるかに短 いのが普通である。このモジュール式学習法は、更に、文字A−Zの新たなフォ ントを追加したいという場合にも有利であり、なぜならば、新たなフォントの文 字は、それまでとは全(異なった、入力画像の新たなりラスによって表わされる のではなく、それら文字の新たなプロトタイプによって表わされるからである。
特に、異なったプロトタイプどうしの間の重なりが多い場合などには、多量の追 加学習を行なうことなく、1つのネットワークを分離して複数の「サブネットワ ーク」にしたり、複数のサブネットワークを併合して1つのネットワークにした りすることが、不可能なこともままあるが、本発明のネットワークを採用すれば 、多量の追加学習を行なうことなくそれらを行なえる確率が大幅に上昇する。
なぜならば、本発明では、プロトタイプを、良好な初期の任意推定値として使用 しており、そのために、本発明では、その最適化手順が、最適点に非常に近いと ころから始まる(即ち、「高原」から始まったり、大域的最適点から遠いところ から始まることがなく、局所的最適点に過ぎない点に「捕らえられて」しようお それがない)からである。
複数9狸れ厘 本発明の適用は、隠れ層を1層しか備えていないニューラル・ネットワークに限 られるものではなく、本発明に係る射影ニューラル・ネットワークは、任意の数 の隠れ層を備えたものとすることができる。図11は、2層の隠れ層即ち中間層 を備えた、パターン認識問題への応用形態を説明するための図である。ここで暫 時、再び図2について説明することどし、ニューラル・ネットワークが、英文字 の画像をディジタル化した表示に基づいて、それら英文字の認識を行なう場合に ついて説明する。
既述の如く、図2の「A」は、例えば100個の数から成るストリングで表わす ことができ、そのストリングは、グリッド要素24〜26.24.36.43〜 47.53、および57が「1」であり、その地金てのグリッド要素が「0」で あるようなストリングである。ここで、図示の文字がグリッドの行にして3行分 だけ下方へずれたものとする。この場合、図中に影を付けて示した第43番のグ リッドのコマは、第73番のグリッドのコマへ移動することになる。こねによっ て、画像の形状は完全に元のままであるにもかかわらず、その画像を表わす成分 数が100個のベクトルによるベクトル表示は非常に異なったものとなる。
以上のことを考慮すれば、表示方式を以上のものとは変えて、rAJの画像、並 びにその他のクラス(その他の文字)の画像を、それら画像の特徴要素によって 表示する表示方式にすることが考えられる。例えば、図2に示した「A」は、カ ギ形「△」と線分「−」との組合せとして表わすことができる0図示の「A」の フォントでは、グリッド内のどこに「A」が配置されていても、それら特徴要素 は不変である。いうまでもな(、これは、その他の文字の特徴要素についてもい えることであり、また、どのようなフォントについても、略々いえることである 。
従って、判定領域を決定するためには、ニューラル・ネットワークが、先ず最初 に、複数の入力をそれら入力の特徴要素について分類し、その後にそれら特徴要 素を、例えば図1Oに示した様々なフォントのような、夫々のフォント、及び文 字ごとに分類するようにすれば、多くの場合、より効率的に判定領域を決定する ことができるようになる。特徴要素には、例えば、射影された入力画像がループ 形になるか、それとも、直線、カギ形、或いは、点になるかというような、実質 的に不変の特性が含まれ、また更には、例えばグリッドのどの領域に、その画像 の中心があるかというような、その他の特性も含まれる。
図11に示したネットワークの一部分は、そのような多段階分類に適するように 構成したものであり、第1隠れ層J+’は、特徴に対応した重みベクトルW°( 1)と、しきい値νll+ とを持ち、第2隠れ層yよけ、フォントに対応した 重みベクトルw””と、しきい値ν121 とを持つ(図11において、上付文 字の数字は層を示すものであって、繰り返し回数を示すものではない)、図11 において、入力ベクトルは、その他の場合と同様に射影され、それによって、射 影された入カベクト・ル又゛が形成され、この射影された入力ベクトル又“の次 元は、射影される前の入力ベクトルの次元より、少な(とも1次元は高い次元で ある。中間層の値や重みは、必ずしも常に射影する必要はないが、それらのうち の幾つか、或いはそれらの全てを射影するようにしても良い。
2層以上の隠れ層を備えたネットワークの学習の仕方も、隠れ層を1層しか備え ていないネットワークの学習の仕方と実質的に同じである。ただし、多層ネット ワークでは、誤差関数が、全ての中間層の全ての隠れノードの、全ての重みベク トル及びしきい値の関数になる。図11に示したように、本発明によれば、中間 ノー ドの値によって形成されたベクトルまでも射影及び正規化するために、中 間ノードに1個または2個以上の追加ノードを加えることも可能である。複数の 中間層のうちの1つの層または2つ以上の層の出力に対してシグモイド間数0を 適用することが好ましいが、ただし、それが絶対に必要なわけではない。
上で説明した隠れ層が1層のネットワークと同様にして、第1隠れ層y+’の各 ノードの初期の重みベクトルは、夫々の特徴の画像の既知のプロトタイプに等し く設定すれば良い。第2隠れ層y2の各ノードの初期の重みベクトルは、夫々の フォントの画像の既知のプロトタイプに等しく設定すれば良い。そのようにすれ ば、その学習手順は、隠れ層が1層のニューラル・ネットワークのための学習手 順と実質的に等しくなり、それによって、しきい値νが修正されると共に、重み ベクトルが修正され且つ球面(或いはその他の正規化面)の面上に存在するよう に拘束されることになる。
先に説明したものと同様に、このネットワークのうちのある部分が分離可能であ るならば、その部分を独立的に学習させた上で再併合することができる。そうす ることによって、ネットワークの最初からの再学習を行なわずとも、新たな特徴 ないしフォントを追加することが可能になる。
又数−工嵌至 本発明に係るネットワークは、パターン認識や分類以外の用途にも好適に応用し 得るものである。その他の用途領域のうちの1つに、関数光て嵌めと呼ばれてい る種類の問題がある。図12(a)は、1次元関数f fxlを示しており、こ の間数fの値は1つだけの入力変数Xによって決まる(殆どの場合には、関数f は幾つかの入力値、即ち「引数」を持っている)。ここで、入力値X冒こ対して はこの間数fが、値ffx、lを取ることが知られており、入力値x2に対して はこの間数fが、値f (x21を取ることが知られており、以下同様であるも のとする。
また、4つの入力値X、〜x4が既知であるものとする。この場合、それら入力 値から成る1つの入力値集合(x+、X!、Xs、Xa )に対して、既知の1 つの出力値集合(f(x+l、f (x、l、f (xs)、HX、l)が存在 する。以上において、ある1つの入力値X工が未知であるときに、既知の入力値 から成る入力値集合の知識に基づいて、その入力値に対応した関数値f fx、 lをめられるようにしたいと考えることがあり得る。例えば、そのxuに対応し た関数値が、他の既知の入力値に対応した関数値より、X冒こ対応した関数値の 方に近い値であるのか否かを知りたいと考えることがあり得る。
このような問題は、入力空間内の所与のベクトルに対して、その入力ベクトルに 最も緊密に対応している出力空間内のベクトルを決定することを目的としている 点において、パターン認識問題と同類の問題である。従って、本発明に係るニュ ーラル・ネットワークは、この種の問題に対しても、パターン認識問題の場合と 同様の方式で適用することができる。
N個の人力値が存在しているならば、先ず最初に、それら入力値によって1つの N次元ベクトル又を形成する。続いて、先に説明したと同様に、この入力ベクト ルを球面(或いはその他の正規化面)へ射影し、それによって、N+1次元の射 影された入力ベクトル又°形成する。このようにしたならば、夫々の中間ノード が、その射影された入力ベクトルの、重み付けしてバイアスをかけた総和として 、それら中間ノードの値を形成し、更に、複数の出力値から成る1つの出力値集 合を含んでいる1つの出力ベクトルが、それら中間ノードの値の、重み付けして バイアスをかけた総和として形成される。
また、本発明に従って、隠れノードの初期の重みをプロトタイプ人力ベクトルに 等しく設定する。この後、ネットワークへ複数の学習用入力ベクトルを与えると 、ネットワークは、それら学習用入力ベクトルを射影し、出力値をめ請求めた出 力値を既知の望ましい出力関数値と比較し、その比較の結果に基づいて重み及び しきい値の修正を行ない、そして以上のことを、与えられた学習用入力ベクトル の集合に関して誤差が最小になるまで繰り返す。
図12(b)は、航空機に作用する風の影響を補償するための幾つかのフライト ・パラメータの値をめる関数光て嵌め問題に、本発明に係るネットワークを適用 した、大幅に簡略化した具体例を示した図である。この具体例は、単に説明のた めのものに過ぎず、充分な機能を備えたニューラル・ネットワーク式自動操縦装 置には、図示した以外のその他の入力パラメータ及び出力値も、先ず間違いなく 必要とされている。
この図示例において、高度、対気速度、針路、風速、及び風向についての既知の 値の集合に対し、それに対応した、その風の影響を補償するための、エンジン推 力、高度修正、及び修正角についての既知の値の集合が存在するものとする。
また、計算ないし実験を行なうことによって、対応する50組の出力値集合を発 生させる50組の入力値集合をめるものとする。それら入力値集合及び出力値集 合が得られたならば、各々の入力値集合について、その入力値集合の複数の入力 値を組合せることによって1つずつの学習用入力ベクトル又を形成することがで き、また、それら既知の出力値集合の各々について、その出力値集合の複数の出 力値を組合せることによって1つずつの望ましい出力ベクトルを形成することが できる。
先に説明した場合と同様に、その入力ベクトルに、少なくとも1つの追加の射影 成分が追加されて、射影された入力ベクトル又°が形成される。更に、これも先 に説明したパターン認識用途の場合と同様に、初期設定を行なった後に、誤差が 最小になるまで、正規化した重み及びしきい値の修正を繰り返して行なう、ただ し、パターン認識問題では、一般的に、ニューラル・ネットワークは、1組の出 力ノードのうちのどの出力ノードが「最良」か、即ち、どの出力ノードが所与の 入力ベクトルに「最も近い」かを判定しようとしており、別の言い方をするなら ば、その入力ベクトルが1組のクラスのうちのどのクラスに所属するのかを判定 しようとしている。これに対して、関数光て嵌め問題では、一般的に、出力ノー ドから実際に出力される量としての値をめようとしている。即ち、関心を持たれ ているのは、ある入力が「推力」に関するものか、それとも「高度修正」に関す るものかということではなく、所与の入力プロフィールに対して、いかなる値の 推力と、いかなる値の高度修正とを適用すべきかということである。そのため、 夫々の中間ノードの出力値を形成させるそれら中間ノードへの入力値に対しては 、通常、シグモイド間数0を適用しないようにしている。
自動操縦装置等の関数光て嵌め問題への応用においては、複数の「状況プロフィ ール」(「状況プロフィール」は、複数の入力値から成る既知の学習用ベクトル に対応している)から成る状況プロフィール集合を使用して、それら状況プロフ ィールの各々に対応した適切な「応答」をめるようにする。ネットワークの「学 習」は、その学習用ベクトル集合に関する、そのネットワークの全体的応答が、 できるだけ、望ましい全体的応答に近付くように、そのネットワークの重み及び しきい値を修正することによって行なわれる。実地の動作においては、計測され 或いは算出された複数の入力パラメータが1つの入力ベクトルとしてネットワー クに与えられたときに、そのネットワークが決定する出力値は、それら入力パラ メータに対する適切な応答であるとそのネットワークが判定した結果を表わして おり、このネットワークの判定は、学習用ベクトル即ち「プロフィール」に対す る望ましい応答に関する、このネットワークが持っている知識(重み及びしきい 値の形で組み込まれている)に基づいて行なわれている。従って、ネットワーク は、一般的に、有限個の学習用ベクトルによって蓄積した、離散形表示に基づい て、補間ないし近似を行なうことによって、連続した「応答関数」導き出すよう に機能している。
ここで、図12(a)に例示した一次元関数当て嵌め問題に説明を戻す。ニュー ラル・ネットワークが入力としてxlを受け取ったならば、このニューラル・ネ ットワークの「出力ノードJ(f(x))は、値f(x、)を取るべきであり、 また人力X□に対しては、f (x、lを発生すべきであり、以下同様である。
さて、学習を終えて実地に機能しているときに、このニューラル・ネットワーク が、入力として、それについては学習をしていない値X11を受け取り、その値 X、が、X+とx2との「間のj値であったときに、このユニ−ラル・ネットワ ークは「正しいj値f tx−)に、できるだけ近い値を出力せねばならない。
しかしながら、その実地の動作において、既知の関数値は、学習用ベクトルに対 応した関数値だけであり(しかも必ずしも正確であるとは限らない)、従って「 正しいコまたは「最適な」値f [xslは、分かつていない。そこで、ニュー ラル・ネットワークは、学習用ベクトルに対応した離散した関数の点に基づいて 、みずからの重み及びしきい値を、誤差関数を最小にするような値に選択すると いうことを通して、複数の既知の値に最も良く当て嵌まる関数のパラメータをめ るという動作に事実上等しいことを実行している。ここで[最も良く当て嵌まる 」というのは、その当て嵌めた関数が、選択されている誤差関数の値を最小にす る関数であるという意味である。
大部分の関数光て嵌めの用途においては、各入力ベクトルの中に、複数の成分( 例えば「高度」、「対気速度」、等々の変数)が含まれており、従ってその関数 は、ベクトル関数になっている。更に、一般的には、出力値も複数であるため( 「推力」、「トリム角」、等々がある)、出力関数それ自体もベクトル関数であ る。そのため、ネットワークは、入力ベクトルに対する出力ベクトル関数と、そ れに対応した「目標」出力ベクトルとの間の差を表わす誤差関数を、最/JXG こするための動作を実行している。
図12(b)の、大幅に簡略化した具体例の自動操縦装置の用途墨こおし1でl よ、航空機の公知の航空電子工学システムが、高度、対気速度、針路、等々の現 在(直を算出する。算出された値は、その数値の形で、ニューラル・ネットワー クへ、入力ベクトル又として与えられる。ニューラル・ネットワークL!、その 入力ベクトルを、先に説明したようにして射影し、それによって、射影された入 力ベクトル又°を生成する。
続いて、その射影された入力ベクトルに対して、学習中に決定された、射影され た重みWo及びしきい値νが適用され、そして更に、夫々の隠れノードの(直両 こ対して、出力重み可と出力しきい値μ(もし使用してしするのであれ番りとが 適用されて複数の出力値が形成される。それら出力値が航空機の!制御システム によって使用され、推力、高度、トリム角、等々が修正される。
ただし、この関数光て嵌めの用途において誤差関数を最小へする方法もよ、入力 ベクトルと重みとを共に正規化面の面上に射影することも含めて、](ターン認 識の用途において誤差関数を最小にする方法と基本的に同一である。学習速度並 びに計算処理の効率に関して得られる利点もまた同じである。
ヱ翌土題ユヱ三ヱ之区り 図13は、本発明に係るニューラル・ネットワークの学習手順の簡略イヒしたブ ロック図である。図13に示したようにN次元の入力RターンHI]ち入力ベク トル(6個の点で示した)に1つの成分を付加して、N+1次元の射影された入 カッ\ターン即ち射影された入力ベクトルを生成する。この射影された入力ベク トルの各々の成分を、ニューラル・ネットワークの中のN+1個の入力ノードの うちの1個ずつに対応した値として割当てる。ニューラル・ネットワークGよ、 重み、しきい値、等々を用いて、先に説明したように、射影された入力ベクトル の評価な行ない、それによって、複数の出力ノード値から成る1つの出力ノード 値集合を発生する。!いて、そのネットワーク出力(即ち、それら複数の出力ノ ード値を組み合わせて1つの出力ベクトルにしたもの)を、望ましい出力との間 で比較する(即ち、誤差関数E(式6)の評価を行なう)。
最後に、その誤差が、許容可能な所定の限度値より小さかったならば、この学習 手順は終了し、ネットワークは動作を停止する0以上によって、ネットワークの 重み及びしきい値は、誤差関数によって示される、充分な精度が得られる値に収 束する。一方、誤差関数の値が大きすぎたならば、重みベクトル及びしきい値を 修正して(それにはΔWを(式8)及び(式9)に従って算出する)、システム は再び入力ベクトルの評価を行なう0重み及びしきい値の修正を充分な回数行な った後には、通常、ニューラル・ネットワークは収束する。
1三五ヱヱスQ」釈 図14は、射影された重みベクトルWの「初期の任意推定値」として使用するプ ロトタイプ値を選択するための、本発明に係るプロトタイプ選択方法のブロック 図である。N+1次元の1つの射影された入力が、既知のクラスに所属する1つ のプロトタイプ・ベクトルを表わしている場合に、我々は先ず最初に、超球面を 使用するか、それとも超平面を使用するか(例えば、判定空間が直線の境界を持 った領域であることが分かっている場合などには超平面を使用する)を決定する 。超球面を選択した場合には、ネットワークは、中間ノードy (jlのN+1 次元の重みベクトルW、を、射影された入力ベクトルに等しく設定し、更にしき い値を、プロトタイプ超球面が、N次元空間(平面P0)に射影されて戻された ときに所定の半径を持つようにすることのできる値に設定する。
一方、我々が超平面プロトタイプを選択した場合には、ネットワークは、重みベ クトルを、射影された入力に直交するように設定し、また、しきい値を「0」に 設定する。尚、始めは超球面にしておき、ネットワークが収束したときには、最 終的な射影された重みベクトルWが、射影された入力ベクトルに対して直交して おり、且つ、しきい値νが「0」に収束しているようにすることも、また、その 逆も可能である。最後に、出力重みベクトルq及び出力しきい値μを、それらの 所定の初期値に設定する。
に、る!1 システム 図15は本発明に係るパターン認識システムのブロック図である。プロセッサ/ コントローラ20が、内部または外部のデータバスないしアドレスバス22を介 して、入力装置24と、射影装置26と、ニューロン結合装置28と、ネットワ ーク出力記憶装置30と、目標値装置32と、比較装置34と、出力装置36と に結合している。
プロセッサ/コントローラ20は、コンピュータであっても良く、マイクロプロ セッサであっても良く、コンピュータないしプロセッサの一部分であっても良く 、或いは更に、並列プロセッサとして動作する複数のコンピュータないしプロセ ッサから成る集合体であっても良い。並列処理が特に有利になり得るのは、非常 に次元数の大きなパターン認識問題の場合であって、その入カバターンを、先に 図1Oの説明に関連して述べたようにネットワークを幾つかに分離させることが できるほどに、明確に区別されるクラスに分けることができる場合である。バス 22は、選択したプロセッサ/コンピュータに対してコンパチブルなものであれ ば、一般的な任意のデータバスないしアドレスバスとすることができる。
入力装置24は、入カバターンを、N次元の入力ベクトルを構成するN個の数値 の入力値を有する数値の形に変換する装置でありさえすれば、どのような装置で あっても良い。これに該当する装置の具体例を、限定としてではなく、あくまで も例示として示すならば、例えば次のようなものがある。即ち、ドキュメント・ スキャナや、デジタイザがあり、また、CCDデバイス、ビデオ・カメラ、ラジ オテレスコープ、等々を含めた画像スキャナ等があり、それらには、不可視光波 長で機能するものも含まれ、また更に、音声デジタイザや、ディジタル地震記録 出力装置、等々のものがある。
入力ベクトルのうちには、関数当て嵌めや一般的な最適化にかかわる問題におけ る、サンプリングされた関数値や、予め定められた関数値が含まれることもあの 応用に関しては、入力装置24は、例えば高度計、対気速度計、慣性航行装置な いし無線航行装置、磁気コンパスないしジャイロコンパス等々の飛行装置から送 出される測定データを、蓄積したり、機体搭載コンピュータやニューラル・ネッ トワーク・プロセッサへ入力したりするための、インターフェース及び入力回路 に対応するか、或いは、それらインターフェース及び入力回路を含んだものとな る。
入力装置24はまた、別のプロセッサないしコンピュータである場合もあり、或 いは、別のプロセッサないしコンピュータに所属しまたはそれらプロセッサない しコンピュータとの間で共用される、メモリ等の記憶装置である場合もある。
例えば、暗号処理にパターン認識処理が含まれることがあり(認識対象のパター ンは暗号化されたものであるが、パターンであることには変わりがない)、この 場合、暗号化されたパターンのストリングが、システムへ入力される入力ベクト ルを構成することになる。
入力装置24が生成した数値は、射影装置26のN次元の入力メモリ・バッファ の中か、或いは、内部記憶装置または外部記憶装置である記憶装置38のN個の メモリ・ワードの中に設けられているその数値に対応した記憶装置の中に、プロ セッサ20の制御の下に記憶される。コントローラ/プロセッサ2oは、この後 、N+1次元の射影された入力ベクトル又゛を、先に説明したようにして算出し 、そのN+1個の成分を、記憶装置38の中か、射影装置26に備えられている 出力メモリ・バッファの中か、或いは、ニューロン結合装置28に備えられてい るN+1次元の入力メモリ・アレイの中かの、いずれかに記憶させる。
ニューロン結合装置28もまた、複数のメモリ・アレイがら成る1つのメモリ・ アレイ集合として構成し、そのメモリ・アレイ集合が以下のメモリ・アレイを含 んでいるようにすることが好ましい。先ず、ネットワーク入力アレイを含み、こ のネットワーク人力アレイは、少なくとも、射影された入力ベクトルのN+1個 の成分を記憶してお(ためのメモリ・アレイである。また、中間アレイ、即ち「 隠れ」アレイを含み、この隠れアレイは、少なくとも、中間ノードの、値、電池 にもある場合には、他の隠れ層の全ての、値、重み、しきい値に対応した追加の 記憶位置も有する)メモリ・アレイである。更には、ネットワーク出力アレイを 含み、このネットワーク出力アレイは、出力ノードの値を記憶しておくための少 なくともに個の記憶位置と、更に、出力重み及び出力しきい値を記憶してお(た めの充分な記憶位置とを備えたメモリ・アレイである。
ネットワーク人力アレイは、h(超平面P0から球面Sの中心Cまでの距離)等 のパラメータを記憶しておくための幾つかの記憶位1をも併せ備えたものとする こともある。射影ルーチンに関連したこの種のパラメータは、このネットワーク 人力アレイに備えられた記憶位置に記憶させると共に、或いは、そこに記憶させ る替わりに、射影装置26に備えられている対応する記憶位置に記憶させるよう にしても良い。また、射影装置26の出力(射影された入力ベクトル)は、ネッ トワークへ入力される値を成すものであるから、単一のメモリ・アレイを、射影 装置26と、二ニーロン結合装置28のネットワーク人力アレイとの、双方を兼 ねるように構成することも可能である。
中間メモリ・アレイは、全ての重みベクトルの全ての成分と全てのしきい値とを 記憶させるための記憶位置を備えると共に、更に、例えば、各々の中間ノードが どのプロトタイプに対応しているのかを追跡したいと考えた場合等に備えて、更 にその他の記憶位置を含んだものとしても良い。
ネットワーク出力記憶装置30もまた、出力ノードの値を記憶させるようにした メモリ・アレイとすることが好ましい。その場合に、ネットワーク出力記憶装置 30は、ニューロン結合装置のネットワーク出力アレイと同じ構成のアレイとす ることもでき、或いは、そのネットワーク出力アレイのうちの、出力ノード値を 記憶させである部分と同じ構成のアレイとすることもできる。
目標値装置32もまた、複数の目榎出力ベクトル5c、(図7参照)のうちの、 1つないし2つ以上の目標出力ベクトルの成分を記憶させるようにしたメモリ・ アレイである。システムの学習段階では、ニューラル・ネットワークからの現在 出力ベクトルnが、比較装置34の中で目標出力ベクトルと比較され、それによ って、その差が、予め設定しておいた誤差しきい値(この誤差しきい値は、比較 装置に備えられている記憶位置か、または、システム内の別の装置に備えられて いる記憶位置に記憶させておく)より大きいか否かを判定する。誤差が、この誤 差しきい値より大きかったならば、中間層の重み及びしきい値を算出し直しくこ れによってシステムは、最急降下法等の反復式最適化ルーチンにおける次回のス テップへ進む)、それら更新した値をネットワークへ返す。
プロセッサ/コントローラ20は更に、計算処理装置としても機能しており。
先に説明した方法に従って様々な計算処理を実行する公知のハードウェア、ファ ームウェア、ないしはソフトウェアとするか、或いは、それらを含んだものとす れば良く、それらによって実行する計算処理には、重み及びしきい値を算出する ための計算処理、入力ベクトル及び重みベクトルを射影して正規化するための計 算処理、誤差関数を評価するための計算処理、最急降下法等の最適化ルーチンを 実行するための計算処理、中間ノード及び出力ノードの値をめるための計算処理 、目標値と出力値との間の実際の比較を実行するための計算処理1等々が含まれ る。
プロセッサ/コントローラ20は更に、異なった装置や異なったネットワーク層 の間のデータ転送(図中にブロック間の矢印で表わした)の制御も行なう。それ らデータ転送の全ては、システムバス22を介して公知の方式で実行することが できる。プロセッサ命令、ネットワークのパラメータ、それに重みベクトル等の 変数データを永久的または一時的に記憶させるための、プログラム及びデータの 格納装置である公知の種類の記憶装置38も、併せて備えておくことが好ましい 。図15の破線40の中に囲まれている非プロセッサ装置(プロセッサ以外の装 置)については、それらのうちの幾つかまたは全てを、記憶装置によって構成す ることが好ましく、そうした場合には、プロセッサ20が必要に応じて実際の計 算処理及びデータ転送を実行するようにすれば良く、また、記憶装置によって構 成する非プロセッサ装置の全てを、プロセッサ20に結合した単一の記憶装置の 中の夫々の部分に、公知の方式で構成するようにしても良い。
更には、用途によっては、システムのうち破線40に囲まれている部分の全てを 、単一のプログラマブル集積デバイスの中に(例えばVLSI技術を用いる等し て)組み込むことも可能である。そうすれば、要求条件ないし空間的制約が周知 のものであるような用途において、特大きな利点が得られる。例えば、ニューラ ル・ネットワークに、所望のフォントを認識するための学習をさせたり、ロボッ トのアームを所望の方式で制御するための学習をさせた後に、そのニューラル・ ネットワークを大量生産の集積回路の中に構成して、その集積回路を例えばドキ ュメント・スキャナや、生産ロボットに組み込むようにすることができる。
出力装置36は、ニューラル・ネットワークの学習の結果なり、未知の入力ベク トルを用いた非学習モードの動作におけるニューラル・ネットワークの実地の判 定の結果なりをユーザへ表示する装置であれば、どのような装置であっても良い 。ディスプレイ装置でも、音声合成装置でも、ブロックでも、或いは更に別のコ ンピュータ・システムでも、いずれも出力装置として使用することができ、ユー ザが、ネットワークの結果をどのようにして知りたいかに応じて、適当なものを 選択すれば良い。
例えば、あるニューラル・ネットワークが、ドキュメントの走査を行なうための ネットワークとして構成されているとする。この場合には、出力装置を、盲人が 本を読めるようにするブライユ点字トランスデユーサとして機能する、1組の小 さなソレノイドで構成した装置とすることができる。また、出力装置を、2通り の状態(開放と閉鎖)を有する施錠システムであって、入力装置24が走査して ディジタル化した指紋が、認定されている指紋に一致しているということを、本 発明に係るニューラル・ネットワークが認識したときにのみ、解錠するようにし た装置とすることもできる。要するに、出力装置は、数値の形で与えられた入カ バターンに関するニューラル・ネットワークの判定結果を、ユーザまたは上位シ ステムに対して提示することのできる装置でありさえすれば、どのような装置で あっても良い。
叉埴軌作玉二上 以上の説明の殆どの部分は、本発明に係るニューラル・ネットワークの、大幅に 向上した学習能力に重点を置いていた。この学習能力は、換言すれば、入力ベク トル集合を正確に分類することのできる、重み、しきい値、及びノード結合とい う様々な値から成る1つの値集合へと収束する能力であった。また、反復式学習 方法についても以上に詳細に説明した。
ところで、学習段階が終了したならば、その時点でニューラル・ネットワークの 夫々の層に存在している重み及びしきい値は、そのネットワークが様々な入力ク ラスを可能な限り良好に区別できるような重み及びしきい値になっているものと 我々は考える。この後、その学習を終了したネットワークを使用して、未知の入 力ベクトルの分類を行なうことになる。例えばそのネットワークが学習モードに あったときに、才一り、楡、楓、杉、それに松という、夫々の木の画像に対応し たプロトタイプと、平屋根、切妻屋根、片傾斜屋根、それにドーム形屋根という 、様々な屋根を備えた夫々の家屋の画像に対応したプロトタイプとが使用されて 、そのネットワークのバラメークが最適化されたものとする。この場合、スプル ースの木の画像を数値で表わした実地の入力ベクトルが入力装置を介してシステ ムの中へ入力されたならば、本発明に係るそのニューラル・ネットワークは、先 ず最初にその入力ベクトルをN+1次元次元へ射影し、そして最大の値を持つ出 力ノードを判定結果として選択する。もしそのニューラル・ネットワークが、適 切に学習をしていたのであれば、「木」に対応した出力ノードが活性化するはず である。
即ち、実地動作モードにおいては、入力ベクトルが所属しているクラスが未知で あるため、出力をそれと比較するための「目標」ベクトルはもはや存在していな い。そのためプロセッサ20は、通常、ネットワークからの出力信号を、比較手 順を実行することなく、直接に出力装置へ転送し、またそのとき、場合によって は、その出力信号に何らかの変換処理を施して、それを提示するのに適した何ら かの所定の形態にしてから、出力装置へ転送することもある。
!挾精里 選択した幾つかの問題に、本発明に係るニューラル・ネットワークの原型を適用 した。その結果、この射影ネットワークの大きな利点のうちの2つ、即ち、超球 面または超平面を使用することによって隠れ層ノードの必要個数を減少させるこ とのできる能力と、重み及びしきい値の初期値を良好な値に設定することによっ て学習時間を短縮することのできる能力とが、明らかになった。
Z次兄ニス上 本発明のテス1−のうちの1つは、簡単な2次元問題に関するものであり、従来 のバック・プロパゲーション式ニューラル・ネットワークによって得られる結果 (図16 (a) (il〜(iii)に示した)と、本発明に係るネットワー クによって得られる結果(図16 (b) fil〜(iiil に示した)と を比較するようにしたものである。この問題は、2次元空間に分布した、2つの クラスのいずれかに所属する幾つもの点を含んでおり、クラス1は図中にハツチ ングして示した部分、クラス2はハツチングしていない部分である。また、1つ の円形領域と1つの土平面領域との、併せて2つの領域が、クラス1に対応する 領域である。
一般的なバック・プロパゲーション式ニューラル・ネットワーク(BPNN)等 の、超平面クラリファイヤでは、その円を囲むために3本の直線を必要とし。
右側のハツチング領域を分離するために更にもう】本の直線を必要とする。それ ら直線の1本ごとに1個ずつの隠れ層ノードが必要であるため、BPNNでは、 図16に示した、1つの円と1つの半平面とを備えた問題において、最も粗い分 類を行なうだけでも、少なくとも4個の隠れノードを必要とする。
また、RCEシステム等の、超球面だけを使用するクラリファイヤでは、一般的 に、右側のハツチング領域の直線的な境界を画成するために複数の円を必要とし くそれら円の各々が1つずつの個別の隠れノードに対応する)、より正確に述べ ると、円を拡大することが許されておらず、そのため、その円弧部分を「より直 線に近くコすることができない場合に、複数の円を必要とする。(図4(b)参 照)。ただし、超球面クララファイヤは、円を囲むためには円形プロトタイプが 1つだけあれば良く、ただしそれには、その円形プロトタイプを学習時に縮小し たり拡大したりできることが条件であり、さもなくば1円を囲むためにも2っ以 上のプロトタイプが必要になる。
それらとは対照的に、本発明に係る射影ネットワークは、それら円形領域と矩形 領域とを分類するためにプロトタイプを2つしか必要とせず、従って中間層ノー ドを2個しか必要としない。
のX座標とX座標とに対応させた。また、1個の出方ノードを備え、この出力ノ ードが入力点のクラスを表わすようにした0図16 (a) fi)に示したよ うに、学習の開始時点では、BPNNは、ただ1本の超平面(図中に破線で示し た2次元における直りで入力を分類しようとした。
5千回から5万回までの間の試行では、BPNNはこの単一の超平面(II線) を最適な結果が得られるように修正し、このとき、誤って分類された点の割合は 40%から50%までの間で変動した。この最適な結果は、局所的最小値であっ たため、これによって学習に遅れを生じた。5万5千回の試行を行なったところ で、ネットワークは第2の超平面(図16 (a) fiilに2木目の破線で 示した)第2の局所的最小値に対応するものであった。
9万5千回の試行を行なったところで第2の超平面が加わり、またその直後に第 4の超平面が加わり、以上の超平面に修正が加えられて、図16 (a) fi iilに示した最終的な解に到達した。これによって誤り率は27%から5%へ 低下した。このように、一般的なりPNNに認められる、超平面を一度に1つず つ順に加えて行くことによって問題を解こうとする傾向は、従来のネットワーク を使用しているときに、このような問題や、多数のクラスを有する問題に関して 、局所的最小値によって発生する遅れにとっての、大きな原因となっている。
これに対して、本発明に係る射影ネットワークは、速やかに全ての隠れ層ノード をプロトタイプとして導入するため、不十分な個数の隠れ層ノードしか使用しな いために到達してしまう解に対応した局所的最小値を回避することができる。
これを明らかにするために、本発明に係る射影ネットワークを、同じデータにつ いて学習させた。この射影ネットワークは、隠れ層ノードを2個しか備えていな いものとし、出力ノードの個数は前述のBPNNと同じにし、1個の追加入力ノ ード(射影入力ノード)を備えたものとした。
本発明に係るこのネットワークは、その最初の解(図16 (b) fil参照 )において既に両方の超球面(2つの円)を使用しており、これは、それら超球 面をランダムに選択した入力点に等しく初期設定したことによるものである。学 習を始める前の段階で、誤って分類された点の割合である初期誤り率は、26. 8%であった。0回から1万回までの間の試行において、このネットワークは、 それら2個のプロトタイプの修正を行ない(図16 (b) (iil参照)、 その修正によって、一方の円を円形のハツチング領域にできるだけ一致するよう に拡大し、また他方の円を、それが直線的な境界と重なる直線に近付くまで(こ れによって対応するしきい値νが「0」に近付く)拡大した。1万回の試行を行 なったところで、判定境界がクラス境界と良く一致するようになった。この時点 では、誤って分類された点の割合は586%に低下していた(図16 (b)  (ij、il 参照)、即ち、本発明に係るこのニューラル・ネットワークは、 従来のネットワークζ比べて、9分の1以下の少ない試行を行なうだけで、同程 度の精度(約5%)を達成した。
文字鎧菖ヱ区上 更に、本発明に係る射影ネットワークを、より実際的な問題に関して、従来のシ ステムと比較するテストを行なった。この問題によって更に、本発明のモジュー ル的性質も明らかになった。ネットワークを光学文字認m (OCR)問題に適 用することとし、その問題は、アルファベットの26文字から成り、それらの各 文字は、7X10の大きさの、ビクセルのグリッドで表わされるものとし、それ らビクセルは−0,5〜+0.5の範囲の値を取るグレイ・スケール値を持つも のとした。
各文字は、各方向へビクセルにして1個分ないし2個分の距離を、平行移動、即 ち「変位」しても良いものとし、それによって、各文字がグリッド上で合計9箇 所の位置を取り得るようにした。更には、各ビクセルのグレイ値には、0〜1の 間のランダムな数に±0.7を乗じた大きさのノイズを加えるようにした。また 、ノイズを加えることによってそのビクセル値が−0,5〜+0.5の範囲から 逸脱してしまう場合には、そのノイズ値のはみ出し分を切り捨てて、そのビクセ ル値が再び−0,5〜+0.5の範囲に収まるようにした0図17に示すように 、これらの平行移動と、高レベルのノイズとがあいまって、文字(図に示したの はrAJ、「B」、「c」である)の認識が、人間の目ですら困難なものになっ た。
標準的なバック・プロパゲーション式ネットワーク(BPNN)は、重みをラン ダムな値に初期設定したものとし、このネットワークは、その初期値の重みでは 、この問題に対して良好に機能しなかった。このネットワークは、70個の入力 ノード(各々が70個のビクセル値の1個ずつに対応している)と、26個の出 力ノード(各々がA−Zの文字の1つずつに対応している)と、1千個の中間層 ノードとを備えたものであった。6万3千回の試行(これは、300個の学習用 ベクトルから成る1つの学習用集合の全体210回通して学習したことに対応し ている)の後にも、このネットワークは尚、入力のうちの54.1%を誤って分 類した。また、25万5千回の試行(学習用集合の全体を通した学習回数にして 850回)の後にも、32.5%の文字を誤って分類した。
一方、この問題を解くために使用した本発明に係る射影ニューラル・ネットワー クは、70個のグリッド・ビクセルに加えて1個の追加の射影入力ノードに対応 した合計71個の入力と、アルファベットの26文字に対応した26個の出力と 、250個の中間層ノードとを備えたものであった。(全く学習を行なっていな い)単なる重み及びしきい値の初期設定だけで、また、中間層ノードを250個 しか備えていないにもがかわらず、この射影ネットワークが誤って分類した文字 は、既に平均26.9%でしがなかった。僅か1800回の試行(学習用集合の 全体を通した学習回数にして6回)の後には、誤り率は、各クラスについて平均 12.8%にまで低下した。
いつまでもなく、入力集合の中に更に多くのサンプルを含ませ、また、学習時間 更にを長くすれば、文字を誤って分類する割合を更に低下させることも可能であ った。しかしながら、このような小さな学習用集合であっても、本発明に係るニ ューラル・ネットワークの、学習能率の大幅な向上が明らかとなった。上述の従 来のネットワークは、この入力集合の全体を通した学習を141回以上実行した 後でも尚、その誤り率の大きさが、本発明に係るネットワークの誤り率に対して 、250%以上の大きなものであった。更には、本発明に係るニューラル・ネッ トワークは、これらの非常に優れた結果を、上述の従来のネットワークに必要と された中間ノードの僅か4分の1の個数の中間ノードを使用するだけで達成した のである。
本発明に係る射影ネットワークのモジュール的特性の利点は、2つの別々に学習 させたネットワークを併合することによって明らかになった。一方のネットワー クは124個の中間層ノードと12個の出力ノードとを備えたものとして、A〜 Lの文字を認識するための学習を行なわせた。他方のネットワークは126個の 中間層ノードと14個の出力ノードとを備えたものとして、M−Zの文字を認識 するための学習を行なわせた。5千回の試行の後には、第1のネットワークは文 字の分類の誤り率が3.4%になり、第2のネットワークは文字の分類の誤り率 が1.2%になった。これら2つのサブネットワークを併合した後には、追加学 習を行なわせる前の段階で、平均分類誤り率は6.9%であった。更に6千回の 試行の後にはこの誤り率が3.1%にまで低下し、1万3千回の試行の後にはそ れが2.9%になった。この実験における重要な結果は、併合したネットワーク は初期誤り率が低かったということであり、これによって、射影ネットワークは 殆どモジュール的性質を備え得るということが明らかになり、また、射影ネット ワークを併合するという方法が、現実の用途において実際的な方法であるという ことが明らかとなった。
以上に説明した本発明の好適実施例に係る学習方法は、最急降下法を用いた修正 したバック・プロパゲーション方式であった。ただし、重みがN+1次元超球面 に拘束されるよう°に注意を払うならば、その他の学習方法もこの射影ネットヮ −りに適用することができる。
FIG、 6 FIG、8 −4ミ ー t 索Q多 〜 ^噛1−一転\ フロントベージの続き (81)指定国 EP(AT、BE、CH,DE。
DK、ES、FR,GB、GR,IE、IT、LU、MC,NL、SE)、0A (BF、BJ、CF、CG、CI、 CM、 GA、 GN、 ML、 MR, SN、 TD、 TG)、 AU、 BB、 BG、 BR,CA、 C3,F I、 HU。
J P、 KP、 KR,LK、 MG、 MN、 MW、 No、 PL、R O,RU、SD

Claims (1)

  1. 【特許請求の範囲】 1.データ処理システムにおいて、 a)一連の複数の入力データ群のうちの各々の入力データ群を、N個の数値から 成る1つのシーケンスとして表わすことによって、それに対応したN次元の基礎 入力ベクトルを生成するための、且つ、その基礎入力ベクトルの各々を記憶する ための、入力手段と、 b)ニューラル・ネットワーク手段であって、i)入力層記憶手段、中間層記憶 手段、及び出力層記憶手段を含んでおり、ii)前記入力層記憶手段は、少なく ともN+j個の射影入力記憶装置を含んでおり、ここでjは所定の正の整数であ り、それら射影入力記憶装置は、N+j個の数値成分を有する射影されて正規化 された入力ベクトルを記憶しておくためのものであり、射影された入力ベクトル の各々は、前記基礎入力ベクトルの1つずつに対応しており、 iii)前記中間層記憶手段は、複数の中間記憶装置を含んでおり、それら中間 記憶装置は、中間ネットワーク値を記憶しておくためのものであり、iv)前記 出力層記憶手段は、ネットワーク出力ノードを含んでおり、このネットワーク出 力ノードは、ネットワーク出力値を記憶しておくためのものであり、 v)前記射影入力記憶装置の各々を前記複数の中間記憶装置のうちの所定の中間 記憶装置に結合し、且つ、前記出力ノードを前記複数の中間記憶装置のうちの所 定の中間記憶装置に結合するための、結合手段を含んでいる、ニューラル・ネッ トワーク手段と、 c)プロセッサ及びコントローラ手段であって、i)前記N次元の基礎入力ベク トルの各々にj個の射影成分を付加して前記射影された入力ベクトルを生成する ための、ii)最下中間層にある前記中間記憶装置の各々について、中間しきい 値と各々がN+j個の重み成分を有する中間重みベクトルとを算出するための、 そして、 iii)前記中間重みベクトルと、前記中間しきい値と、前記射影された入力ベ クトルとの所定の関数として出力値を算出するための、プロセッサ及びコントロ ーラ手段と、 を備えたことを特徴とするデータ処理システム.2.前記プロセッサ及びコント ローラ手段が更に、前記射影された入力ベクトルの成分を正規化することによっ て、該射影された入力ベクトルの大きさを所定の入力正規化値に等しくし、且つ 、前記中間重みベクトルの成分を正規化することによって、該中間重みベクトル の各々の大きさを所定の重み正規化値に等しくするようにしてあることを特徴と する請求項1記載のシステム。 3.最下層の重みベクトルの各々についてN+j個の重み成分を含んでいること を特徴とする請求項2記載のシステム。 4.前記ネットワーク出力値を所定の目標ベクトルと比較するための比較手段を 更に備えており、前記プロセッサ及びコントローラ手段が、前記ネットワーク出 力値とそれに対応する目標ベクトルとの差が所定の最小しきい値より小さくなる まで、前記中間しきい値と前記中間重みベクトルとを最算出するようにしてある ことを特徴とする請求項1記載のシステム。 5.複数の出力ノードを更に備えており、前記プロセッサ及びコントローラ手段 が、出力しきい値と出力重みベクトルとを算出するようにしてあり、更に、前記 プロセッサ及びコントローラ手段が、前記ネットワーク出力値とそれに対応する 目標ベクトルとの差が前記所定の最小しきい値より小さくなるまで、前記中間し きい値及び前記出力しきい値と前記中間重みベクトル及び前記出力重みベクトル とを最算出するようにしてあることを特徴とする請求項1記載のシステム。 6.前記入力手段が、入力パターンを表わすためのパターン解像手段を含んでお り、該入力パターンは、その各々が前記複数の入力データ群のうちの1つの入力 データ群をN個の数値から成る前記シーケンスとして表わすものであることを特 徴とする請求項1記載のシステム。 7.前記入力手段が、N個の入力変数値をまとめて前記複数の入力データ群のう ちの1つの入力データ群にするためのデータまとめ手段を含んでいることを特徴 とする請求項1記載のシステム。 8.a)前記中間層記憶手段が、複数の中間記憶層の各々に対して複数の中間記 憶装置を含んでおり、 b)前記複数の中間記憶層が、最下中間層と、前記結合手段を介してこの最下中 間層と前記出力層記憶手段との間に結合した、この最下中間層より上の中間層と を含んでおり、 c)前記複数の中間記憶装置の各々が、みずからに対応した中間重みベクトルと 中間しきい値とを有する、 ことを特徴とする請求項1記載のシステム。 9.前記プロセッサ及びコントローラ手段が、前記複数の中間層のうちの所定の 中間層にある重みベクトルを、その重みベクトルに少なくとも1つの射影値を付 加することによって射影するようにしてあり、且つ、その重みベクトルを正規化 するようにしてあることを特徴とする請求項8記載のシステム。 10.データ処理方法において、 a)一連の複数の入力データ群のうちの各々の入力データ群を、N個の数値から 成る1つのシーケンスとして表わすことによって、それに対応したN次元の基礎 入力ベクトルを生成するステップと、b)前記N次元の基礎入力ベクトルの各々 にj個の射影成分を付加することによって、N+j個の射影入力成分を有する射 影された入力ベクトルを生成し、ここでjは所定の正の整数であり、更に、その 射影された入力ベクトルの各々を記憶しておくステップと、 c)前記射影された入力ベクトルの成分を正規化することによって、その射影さ れた入力ベクトルの大きさを所定の入力正規化値に等しくするステップと、d) 最下中間層にある複数の中間ノードの各々について、i)N+j個の重み成分を 有する重みベクトルを生成し、ii)前記重みベクトルの大きさを、所定の重み 正規化値に等しい値に制約iii)前記N+j個の射影入力成分の重み付け総和 として中間ノード値を生成する、 ステップと、 e)前記中間ノード値の所定の重み関数として出力ノード値を生成し、その出力 ノード値を出力ノードに記憶しておくステップと、を含んでいることを特徴とす る方法。 11.前記入力ベクトルは2次元ベクトルであって、平面上のベクトルを表わし ており、 前記射影された入力ベクトルは3次元ベクトルであって、球面の中心から球面の 面上まで延在しているベクトルを表わしており、複数の閉じた判定群の各々が前 記球面の面上の閉じた領域に対応している、ことを特徴とする請求項10記載の 方法。 12.j=1であることを特徴とする請求項10記載の方法。 13.前記重み正規化値が前記入力正規化値に等しいことを特徴とする請求項1 0記載の方法。 14.前記重み正規化値と前記入力正規化値とが定数であることを特徴とする請 求項13記載の方法。 15.a)複数の既知の学習用ベクトルから成る学習用ベクトル集合と、その学 習用ベクトル集合に対応した、複数の既知の目標ベクトルから成る目標ベクトル 集合とを選択するステップと、 b)複数のN+j次元の初期重みベクトルから成る初期重みベクトル集合を生成 するステップと、 c)前記複数の中間ノードの各々について、初期中間しきい値を選択するステッ プと、 d)前記基礎入力ベクトルを次々と前記複数の学習用ベクトルに等しく設定する ステップと、 e)入力され射影された前記学習用ベクトルと、前記重みベクトルの各々と、前 記しきい値の各々との、所定の誤差関数として、誤差関数値を算出するステップ と、 f)前記誤差関数値が所定の最小誤差値より小さくなるまで、前記しきい値と前 記重みベクトルの各々の前記重み成分とを修正した上で前記ステップd)及び前 記ステップe)を繰り返して実行するステップと、を更に含んでいることを特徴 とする請求項10記載の方法。 16.前記しきい値と前記重みベクトルとを修正する際に、前記しきい値と前記 重みベクトルとから成る複数の組のうちで前記誤差関数が前記最小誤差値を超え た組の各々について、そのしきい値とその重みベクトルとの最適化を行なうこと によってその修正を行ない、更に、その最適化を行なう際に、 i)所定の最小化ルーチンに従ってそのしきい値とその重みベクトルとを再算出 するステップと、 ii)再算出した重みベクトルに修正を施して、各々の重みベクトルの大きさが 前記所定の重み正規化値に等しくなるようにするステップと、iii)入力され 射影された前記学習用ベクトルを次々と前記射影された入力ベクトルとして再適 用するステップと、を実行することによってその最適化を行なう、ことを特徴と する請求項15記載の方法。 17.前記複数の初期重みベクトルが、複数の所定のN+j次元のプロトタイプ ・ベクトルに等しく設定されており、それらプロトタイプ・ベクトルの各々が前 記複数の既知の学習用ベクトルの夫々1つずつに対応していることを特徴とする 請求項15記載の方法。 18.前記複数の入力データ群が、複数のクラスに所属する複数の入力パターン から構成されており、更に、前記複数のクラスの各々について、現在入力パター ンがそのクラスに所属する確率に対応した出力信号を生成するステップを含んで おり、 それによって、 前記入力ベクトルの複雑度をN次元から少なくともN+j次元へ増大させ、且つ 、前記重みベクトルと前記入力ベクトルとの両方を正規化することで、あり得る 出力値についての閉じた判定群が、その判定群の各々に対応した単一のN+j次 元の境界領域を用いて画成されるようにした、ことを特徴とする請求項10記載 の方法。 19.前記複数の重みベクトル及び前記複数のしきい値を、複数のパターン重み /しきい値群に分離し、その際に、それら複数のパターン重み/しきい値群の各 々が前記複数の入力パターン・クラスのうちの所定の入力パターン・クラスに対 応しているようにするステップと、 b)前記複数のパターン重み/しきい値群の各々を、個別に最適化するステップ と、 を更に含んでいることを特徴とする請求項18記載の方法。 20.前記判定境界の各々が、それに対応する中間しきい値が超平面値に設定さ れているときには、超平面であり、また、それに対応する中間しきい値が前記超 平面値とは異なるときには、超球面であることを特徴とする請求項18記載の方 法。 21.前記複数の入力データ群が複数の入力信号集合で構成されており、それら 複数の入力信号集合のうちの各々が、K次元の出力関数を規定しているN個の入 力変数に対応したN個の入力信号から成る集合であり、更に、前記出力関数の現 在値を表わすための少なくともK個の出力ノード値を生成するステップを含んで おり、 それによって、 前記入力ベクトルの複雑度をN次元から少なくともN+j次元へ増大させ、且つ 、前記重みベクトルと前記入力ベクトルとの両方を正規化することで、あり得る 出力値についての閉じた判定群が、その判定群の各々に対応した単一の少なくと もN+j次元の境界領域を用いて画成されるようにした、ことを特徴とする請求 項10記載の方法。 22.最下中間層と最上中間層とを含んでいる複数の中間層を構成するステップ であって、それら複数の中間層の各々が複数の中間ノードを有し、それら複数の 中間ノードの各々が、その中間ノードに対応した中間ノード値と、その中間ノー ドに対応した中間重みベクトルと、その中間ノードに対応した中間しきい値とを 有するようにするステップを更に含んでいることを特徴とする請求項10記載の 方法。 23.変換関数を用いて前記中間ノード値に変換を施すステップを更に含んでお り、それによって、前記中間ノード値の各々が、有限の最大値と有限の最小値と の間に存在するように制約され滑らかに補間された変換を施された中間値として 表わされるようにしたことを特徴とする請求項10記載のシステム。 24.前記出力ノードの各々について1つずつの出力重みベクトルを算出し、そ れによって、前記出力ノードの各々の値が、前記最上中間層の前記複数の中間ノ ードの夫々の中間ノード値の重み付けしてバイアスをかけた総和の所定の関数と して求められるようにするステップを更に含んでいることを特徴とする請求項2 3記載のシステム。 25.複数のパターンを識別して分類する方法において、A)一連の複数の入力 データ群のうちの各々の入力データ群を、N個の数値から成る1つのシーケンス として表わすことによって、それに対応したN次元の基礎入力ベクトルを生成し 、前記複数の入力データ群は、複数のクラスに所属する複数の入力パターンから 構成されている、生成ステップと、B)前記N次元の基礎入力ベクトルの各々に j個の射影成分を付加することによって、N+j個の射影入力成分を有する射影 された入力ベクトルを生成し、ここでjは所定の正の整数であり、更に、その射 影された入力ベクトルの各々を記憶しておくステップと、 C)前記射影された入力ベクトルの成分を正規化することによって、その射影さ れた入力ベクトルの大きさを所定の正規化値に等しくするステップと、D)複数 の中間ノードの各々について、i)N+j個の重み成分を有する重みベクトルを 生成し、ii)前記重みベクトルの大きさを、前記正規化値に等しい値に制約し 、iii)前記N+j個の射影入力成分の重み付け総和として中間ノード値を生 成する、 ステップと、 E)前記中間ノード値の所定の重み関数として出力ノード値を生成するステップ であって、更に、前記複数のクラスの各々について、現在入力パターンがそのク ラスに所属する確率に対応した出力信号を生成するステップを含んでいる、出力 ノード値生成ステップと、 を含んでおり、 更に学習モードにおいては、 F)複数の既知の学習用ベクトルから成る学習用ベクトル集合と、その学習用ベ クトル集合に対応した、複数の既知の目標ベクトルから成る目標ベクトル集合と を選択するステップと、 G)複数のN+j次元の初期重みベクトルから成る初期重みベクトル集合を生成 するステップと、 H)前記複数の中間ノードの各々について、初期中間しきい値を選択するステッ プと、 I)前記基礎入力ベクトルを次々と前記複数の学習用ベクトルに等しく設定する ステップと、 J)入力され射影された前記学習用ベクトルと、前記重みベクトルの各々と、前 記しきい値の各々との、所定の誤差関数として、誤差関数値を算出するステップ と、 K)前記誤差関数値が所定の最小誤差値より小さくなるまで、前記中間しきい値 と前記重みベクトルの各々の前記重み成分とを修正手順に従って修正した上で前 記ステップI)及び前記ステップJ)を繰り返して実行するステップと、を含ん でおり、 前記修正手順は、前記中間しきい値と前記重みベクトルとから成る複数の組のう ちで前記誤差関数が前記最小誤差値を超えた組の各々について、その中間しきい 値とその重みベクトルとの最適化を行なうことによってその修正を行なうという 手順であり、更に、その最適化を行なう際に、i)所定の最小化ルーチンに従っ てその中間しきい値とその重みベクトルとを再算出するステップと、 ii)再算出した重みベクトルに修正を施して、各々の重みベクトルの大きさが 前記正規化値に等しくなるようにするステップと、iii)入力され射影された 前記学習用ベクトルを次々と前記射影された入力ベクトルとして再適用するステ ップと、を実行することによってその最適化を行なうようにしており、それによ って、 前記入力ベクトルの複雑度をN次元からN+j次元へ増大させ、且つ、前記重み ベクトルと前記入力ベクトルとの両方を正規化することで、あり得る出力値につ いての閉じた判定群が、その判定群の各々に対応した単一のN+j次元の境界領 域を用いて画成されるようにした、 ことを特徴とする方法。 26.前記複数の初期重みベクトルが、複数の所定のN+j次元のプロトタイプ ・ベクトルに等しく設定されており、それらプロトタイプ・ベクトルの各々が前 記複数の既知の学習用ベクトルの夫々1つずつに対応していることを特徴とする 請求項25記載の方法。 27.前記複数の重みベクトル及び前記複数のしきい値を、複数のパターン重み /しきい値群に分離し、その際に、それら複数のパターン重み/しきい値群の各 々が前記複数の入力パターン・クラスのうちの1つの入力パターン・クラスに対 応しているようにするステップと、 b)前記複数のパターン重み/しきい値群の各々を、個別に最適化するステップ と、 を更に含んでいることを特徴とする請求項25記載の方法。 28.データ処理方法において、 a)一連の複数の入力データ群のうちの各々の入力データ群を、N個の数値から 成る1つのシーケンスとして表わすことによって、それに対応したN次元の基礎 入力ベクトルを生成するステップと、b)前記N次元の基礎入力ベクトルの各々 にj個の射影成分を付加することによって、N+j個の射影入力成分を有する射 影された入力ベクトルを生成し、ここでjは所定の正の整数であり、更に、その 射影された入力ベクトルの各々を記憶しておくステップと、 c)前記射影された入力ベクトルの成分を正規化することによって、その射影さ れた入力ベクトルの大きさを所定の入力正規化値に等しくするステップと、d) 順序を有する複数の中間ノード層のうちから選択された最下中間ノード層にある 複数の中間ノードの各々について、i)しきい値を生成すると共に、N+j個の 重み成分を有する重みベクトルを生成し、 ii)前記重みベクトルの大きさを、所定の対応した重み正規化値に等しい値に 制約し、 iii)前記N+j個の射影入力成分の重み付け総和として中間ノード値を生成 する、 ステップと、 e)前記順序を有する複数の中間ノード層のうちの、前記最下中間ノード層を除 いたその他の中間ノード層の各々にある複数の中間ノードの各々について、i) しきい値を生成すると共に、少なくともp+j′個の重み成分を有する重みベク トルを生成し、ここで、Pは、その中間ノード層のすぐ下の中間ノード層にある ノードの個数であり、また、j′は、所定の正の整数であり、ii)その中間ノ ード層のすぐ下の中間ノード層における複数の中間ノード値の重み付け総和とし て中間ノード出力値を生成する、ステップと、 f)前記複数の中間ノード層のうちの、予め射影層として選択されている中間ノ ード層の各々について、その中間ノード層に対応した複数の重みベクトルの大き さを、所定の対応した重み正規化値に等しい値に制約するステップと、g)出力 層にある出力ノードの各々について、出力重みベクトルを生成し、且つ、前記中 間ノード値の所定の重み関数として出力ノード値を生成し、その出力ノード値を 出力ノードに記憶しておくステップと、を含んでいることを特徴とする方法。 29.j=1であることを特徴とする請求項28記載の方法。 30.前記重み正規化値が前記入力正規化値に等しいことを特徴とする請求項2 8記載の方法。 31.前記重み正規化値と前記入力正規化値とが定数であることを特徴とする請 求項30記載の方法。 32.a)複数の既知の学習用ベクトルから成る学習用ベクトル集合と、その学 習用ベクトル集合に対応した、複数の既知の目標ベクトルから成る目標ベクトル 集合とを選択するステップと、 b)複数の初期重みベクトルから成る初期重みベクトル集合を生成するステップ と、 c)前記複数の中間ノードの各々について、初期中間しきい値を選択するステッ プと、 d)前記基礎入力ベクトルを次々と前記複数の学習用ベクトルに等しく設定する ステップと、 e)入力され射影された前記学習用ベクトルと、前記重みベクトルの各々と、前 記しきい値の各々との、所定の誤差関数として、誤差関数値を算出するステップ と、 f)前記誤差関数値が所定の最小誤差値より小さくなるまで、前記しきい値と前 記重みベクトルの各々の前記重み成分とを修正した上で前記ステップd)及び前 記ステップe)を繰り返して実行するステップと、を更に含んでいることを特徴 とする請求項28記載の方法。 33.前記しきい値と前記重みベクトルとを修正する際に、前記しきい値と前記 重みベクトルとから成る複数の組のうちで前記誤差関数が前記最小誤差値を超え た組の各々について、そのしきい値とその重みベクトルとの最適化を行なうこと によってその修正を行ない、更に、その最適化を行なう際に、 i)所定の最小化ルーチンに従ってそのしきい値とその重みベクトルとを再算出 するステップと、 ii)再算出した重みベクトルに修正を施して、各々の重みベクトルの大きさが 前記所定の重み正規化値に等しくなるようにするステップと、iii)入力され 射影された前記学習用ベクトルを次々と前記射影された入力ベクトルとして再適 用するステップと、を実行することによってその最適化を行なう、ことを特徴と する請求項32記載の方法。 34.前記複数の初期重みベクトルが、複数の所定のプロトタイプ・ベクトルに 等しく設定されており、それらプロトタイプ・ベクトルの各々が前記複数の既知 の学習用ベクトルに基づいたサンプリングに対応していることを特徴とする請求 項32記載の方法。 35.前記複数の入力データ群が、複数のクラスに所属する複数の入力パターン から構成されており、更に、前記複数のクラスの各々について、現在入力パター ンがそのクラスに所属する確率に対応した出力信号を生成するステップを含んで おり、 それによって、 前記入力ベクトルの複雑度をN次元から少なくともN+j次元へ増大させ、且つ 、前記重みベクトルと前記入力ベクトルとの両方を正規化することで、あり得る 出力値についての閉じた判定群が、その判定群の各々に対応した単一のN+j次 元の境界領域を用いて画成されるようにした、ことを特徴とする請求項28記載 の方法。 36.前記複数の重みベクトル及び前記複数のしきい値を、複数のパターン重み /しきい値群に分難し、その際に、それら複数のパターン重み/しきい値群の各 々が前記複数の入力パターン・クラスのうちの1つの入力パターン・クラスに対 応しているようにするステップと、 b)前記複数のパターン重み群の各々を、個別に最適化するステップと、を更に 含んでいることを特徴とする請求項35記載の方法。 37.前記判定境界の各々が、それに対応する中間しきい値が超平面値に設定さ れているときには、超平面であり、また、それに対応する中間しきい値が前記超 平面値とは異なるときには、超球面であることを特徴とする請求項35記載の方 法。 38.前記複数の入力データ群が複数の入力信号集合で構成されており、それら 複数の入力信号集合のうちの各々が、K次元の出力関数を規定しているN個の入 力変数に対応したN個の入力信号から成る集合であり、更に、前記出力関数の現 在値を表わすための少なくともK個の出力ノード値を生成するステップを含んで おり、 それによって、 前記入力ベクトルの複雑度をN次元から少なくともN+j次元へ増大させ、且つ 、前記重みベクトルと前記入力ベクトルとの両方を正規化することで、あり得る 出力値についての閉じた判定群が、その判定群の各々に対応した単一の少なくと もN+j次元の境界領域を用いて画成されるようにした、ことを特徴とする請求 項28記載の方法。 39.変換関数を用いて前記中間ノード値に変換を施すステップを更に含んでお り、それによって、前記中間ノード値の各々が、有限の最大値と有限の最小値と の間に存在するように制約され滑らかに補間された変換を施された中間値として 表わされるようにしたことを特徴とする請求項28記載のシステム。
JP5511618A 1991-12-27 1992-09-30 高速で収束する射影ニューラル・ネットワーク Pending JPH07502357A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US07/814,357 US5276771A (en) 1991-12-27 1991-12-27 Rapidly converging projective neural network
US814,357 1991-12-27
PCT/US1992/008319 WO1993013487A1 (en) 1991-12-27 1992-09-30 Rapidly converging projective neural network

Publications (1)

Publication Number Publication Date
JPH07502357A true JPH07502357A (ja) 1995-03-09

Family

ID=25214823

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5511618A Pending JPH07502357A (ja) 1991-12-27 1992-09-30 高速で収束する射影ニューラル・ネットワーク

Country Status (5)

Country Link
US (1) US5276771A (ja)
EP (1) EP0619901A4 (ja)
JP (1) JPH07502357A (ja)
AU (1) AU2869292A (ja)
WO (1) WO1993013487A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015170217A (ja) * 2014-03-07 2015-09-28 富士通株式会社 分類方法、分類装置および分類プログラム
JP2016004547A (ja) * 2014-06-19 2016-01-12 ヤフー株式会社 算出装置、算出方法及び算出プログラム
WO2016189675A1 (ja) * 2015-05-27 2016-12-01 株式会社日立製作所 ニューラルネットワークの学習装置及び学習方法

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05249990A (ja) * 1992-03-04 1993-09-28 Sony Corp パターンマッチング方法およびパターン認識装置
KR0131754B1 (en) * 1992-03-19 1998-04-24 Fujitsu Ltd Neuro processing service system
US5448681A (en) * 1992-03-27 1995-09-05 National Semiconductor Corporation Intelligent controller with neural network and reinforcement learning
ATE279758T1 (de) * 1992-06-19 2004-10-15 United Parcel Service Inc Verfahren und gerät zur einstellung eines neurons
CA2149913A1 (en) 1992-11-24 1994-06-09 James David Keeler Method and apparatus for operating a neural network with missing and/or incomplete data
DE69314293T2 (de) * 1992-12-16 1998-04-02 Koninkl Philips Electronics Nv Neuronalanlage und -Bauverfahren
JPH06314103A (ja) * 1993-04-30 1994-11-08 Fujitsu Ltd 制御装置と能動的センシング装置
WO1994028504A1 (en) * 1993-05-21 1994-12-08 Arris Pharmaceutical A machine-learning approach to modeling biological activity for molecular design and to modeling other characteristics
US5487133A (en) * 1993-07-01 1996-01-23 Intel Corporation Distance calculating neural network classifier chip and system
US5649068A (en) * 1993-07-27 1997-07-15 Lucent Technologies Inc. Pattern recognition system using support vectors
US5621862A (en) * 1993-07-29 1997-04-15 Matsushita Electric Industrial Co., Ltd. Information processing apparatus for implementing neural network
US5598510A (en) * 1993-10-18 1997-01-28 Loma Linda University Medical Center Self organizing adaptive replicate (SOAR)
US5704013A (en) * 1994-09-16 1997-12-30 Sony Corporation Map determination method and apparatus
US5835901A (en) * 1994-01-25 1998-11-10 Martin Marietta Corporation Perceptive system including a neural network
JPH07222202A (ja) * 1994-02-02 1995-08-18 Rohm Co Ltd 立体ビジョンカメラ
US5729660A (en) * 1994-05-03 1998-03-17 Chiabrera; Alessandro 3-D inverse scattering by artificial intelligence : apparatus and method
US5774631A (en) * 1994-05-03 1998-06-30 Chiabrera; Alessandro E. 3-D reconstruction of objects by artificial intelligence: apparatus and method
US5701398A (en) * 1994-07-01 1997-12-23 Nestor, Inc. Adaptive classifier having multiple subnetworks
US5586219A (en) * 1994-09-30 1996-12-17 Yufik; Yan M. Probabilistic resource allocation system with self-adaptive capability
JPH08123462A (ja) * 1994-10-27 1996-05-17 Sony Corp 音声認識装置
US5825907A (en) * 1994-12-28 1998-10-20 Lucent Technologies Inc. Neural network system for classifying fingerprints
US5828817A (en) * 1995-06-29 1998-10-27 Digital Equipment Corporation Neural network recognizer for PDLs
US5790758A (en) * 1995-07-07 1998-08-04 The United States Of America As Represented By The Secretary Of The Navy Neural network architecture for gaussian components of a mixture density function
US5903884A (en) * 1995-08-08 1999-05-11 Apple Computer, Inc. Method for training a statistical classifier with reduced tendency for overfitting
CA2232164A1 (en) 1995-09-19 1997-03-27 Morphometrix Technologies Inc. A neural network assisted multi-spectral segmentation system
US6314414B1 (en) 1998-10-06 2001-11-06 Pavilion Technologies, Inc. Method for training and/or testing a neural network with missing and/or incomplete data
US5835633A (en) * 1995-11-20 1998-11-10 International Business Machines Corporation Concurrent two-stage multi-network optical character recognition system
JPH09230954A (ja) * 1996-02-28 1997-09-05 Olympus Optical Co Ltd ベクトル規格化装置
US5796924A (en) * 1996-03-19 1998-08-18 Motorola, Inc. Method and system for selecting pattern recognition training vectors
US5809490A (en) * 1996-05-03 1998-09-15 Aspen Technology Inc. Apparatus and method for selecting a working data set for model development
JPH1097514A (ja) * 1996-09-24 1998-04-14 Masahiko Shizawa 多価写像学習方法
US6049793A (en) * 1996-11-15 2000-04-11 Tomita; Kenichi System for building an artificial neural network
DE19653553C1 (de) * 1996-12-20 1998-04-30 Siemens Nixdorf Advanced Techn Verfahren zum Trainieren eines mehrschichtigen neuronalen Netzes mit Trainingsdaten und Anordnung zur Durchführung des Verfahrens
DE19653554A1 (de) * 1996-12-20 1998-06-25 Siemens Nixdorf Advanced Techn Verfahren zum Trainieren eines neuronalen Netzes mit Trainingsdaten und Anordnung eines künstlichen neuronalen Netzes
US6526168B1 (en) 1998-03-19 2003-02-25 The Regents Of The University Of California Visual neural classifier
WO1999060448A1 (en) * 1998-05-18 1999-11-25 Mallinckrodt Inc. Silicate-containing alkaline compositions for cleaning microelectronic substrates
US6694311B1 (en) * 1999-01-25 2004-02-17 International Business Machines Corporation Method and apparatus for fast query approximation using adaptive query vector projection
WO2001071624A1 (en) * 2000-03-22 2001-09-27 3-Dimensional Pharmaceuticals, Inc. System, method, and computer program product for representing object relationships in a multidimensional space
US20020099702A1 (en) * 2001-01-19 2002-07-25 Oddo Anthony Scott Method and apparatus for data clustering
WO2002091355A1 (en) * 2001-05-08 2002-11-14 Intel Corporation High-order entropy error functions for neural classifiers
US8458082B2 (en) 2001-11-13 2013-06-04 Interthinx, Inc. Automated loan risk assessment system and method
US20040186815A1 (en) * 2002-12-20 2004-09-23 Stockfisch Thomas P. Method for accommodating missing descriptor and property data while training neural network models
US7184595B2 (en) * 2002-12-26 2007-02-27 Carmel-Haifa University Economic Corporation Ltd. Pattern matching using projection kernels
US7317450B2 (en) * 2003-09-26 2008-01-08 Khomo Malome T Spatial chirographic sign reader
DE102004013020A1 (de) * 2004-03-16 2005-10-06 Epoq Gmbh Prognoseverfahren und -vorrichtung zur Bewertung und Vorhersage stochastischer Ereignisse
US20060020563A1 (en) * 2004-07-26 2006-01-26 Coleman Christopher R Supervised neural network for encoding continuous curves
KR101064908B1 (ko) * 2008-11-12 2011-09-16 연세대학교 산학협력단 신규의 희생층 재료를 이용한 기판 상에서의 나노와이어 패터닝 방법
US10037121B2 (en) * 2012-10-09 2018-07-31 Paypal, Inc. Visual mining of user behavior patterns
JP5950284B2 (ja) * 2013-12-13 2016-07-13 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 処理装置、処理方法、およびプログラム
JP6393982B2 (ja) * 2013-12-17 2018-09-26 富士通株式会社 空間分割方法、空間分割装置および空間分割プログラム
ES2880316T3 (es) 2014-08-29 2021-11-24 Google Llc Procesamiento de imágenes mediante redes neuronales profundas
US10579937B2 (en) * 2014-09-08 2020-03-03 Pivotal Software, Inc. Stream processing with multiple connections between local and central modelers
US10417555B2 (en) 2015-05-29 2019-09-17 Samsung Electronics Co., Ltd. Data-optimized neural network traversal
US10522246B2 (en) * 2015-05-29 2019-12-31 Optum, Inc. Concepts for extracting lab data
WO2017048195A1 (en) * 2015-09-17 2017-03-23 Nanyang Technological University Computer system incorporating an adaptive model, and methods for training the adaptive model
KR20180073118A (ko) * 2016-12-22 2018-07-02 삼성전자주식회사 컨볼루션 신경망 처리 방법 및 장치
WO2018217563A1 (en) * 2017-05-20 2018-11-29 Google Llc Projection neural networks
JP6854248B2 (ja) * 2018-01-18 2021-04-07 株式会社日立製作所 境界探索テスト支援装置および境界探索テスト支援方法
US10885277B2 (en) * 2018-08-02 2021-01-05 Google Llc On-device neural networks for natural language understanding
US20200097879A1 (en) * 2018-09-25 2020-03-26 Oracle International Corporation Techniques for automatic opportunity evaluation and action recommendation engine
US10990470B2 (en) * 2018-12-11 2021-04-27 Rovi Guides, Inc. Entity resolution framework for data matching
CN111368996B (zh) * 2019-02-14 2024-03-12 谷歌有限责任公司 可传递自然语言表示的重新训练投影网络
CN110516912B (zh) * 2019-07-24 2023-05-23 长沙恒电聚能电子科技有限公司 一种配电台区户变关系的识别方法
US11210507B2 (en) 2019-12-11 2021-12-28 Optum Technology, Inc. Automated systems and methods for identifying fields and regions of interest within a document image
US11227153B2 (en) 2019-12-11 2022-01-18 Optum Technology, Inc. Automated systems and methods for identifying fields and regions of interest within a document image

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6346360B2 (ja) * 1983-03-18 1988-09-14 Hitachi Seisakusho Kk

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3230351A (en) * 1960-09-14 1966-01-18 Bendix Corp Self-adaptive control system
US3097349A (en) * 1961-08-28 1963-07-09 Rca Corp Information processing apparatus
US3284772A (en) * 1961-11-22 1966-11-08 Space General Corp Data correlation apparatus employing cathode-ray tube input and variable resistance data storage and comparison
US3158840A (en) * 1962-01-15 1964-11-24 Ibm Specimen identification apparatus and method
US3275986A (en) * 1962-06-14 1966-09-27 Gen Dynamics Corp Pattern recognition systems
US3280257A (en) * 1962-12-31 1966-10-18 Itt Method of and apparatus for character recognition
US3209328A (en) * 1963-02-28 1965-09-28 Ibm Adaptive recognition system for recognizing similar patterns
US3310783A (en) * 1963-09-06 1967-03-21 Rca Corp Neuron information processing apparatus
US3310784A (en) * 1963-09-06 1967-03-21 Rca Corp Information processing apparatus
FR88723E (ja) * 1963-12-19 1967-06-02
US3333248A (en) * 1963-12-20 1967-07-25 Ibm Self-adaptive systems
US3324457A (en) * 1964-05-08 1967-06-06 Burroughs Corp High density network simulation apparatus
US3325787A (en) * 1964-10-19 1967-06-13 Fairchild Camera Instr Co Trainable system
US3408627A (en) * 1964-12-28 1968-10-29 Texas Instruments Inc Training adjusted decision system using spatial storage with energy beam scanned read-out
US3351783A (en) * 1965-06-21 1967-11-07 Conductron Corp Means for simulating learning, forgetting and other like processes
US3435422A (en) * 1966-06-27 1969-03-25 Bell Aerospace Corp Self-organizing system
US3440617A (en) * 1967-03-31 1969-04-22 Andromeda Inc Signal responsive systems
US3533072A (en) * 1967-07-17 1970-10-06 Ibm Adaptive logic system utilizing modification of output feedback in conditioning control loop
US3602888A (en) * 1967-12-14 1971-08-31 Matsushita Electric Ind Co Ltd Learning device
US3548202A (en) * 1968-11-29 1970-12-15 Ibm Adaptive logic system for unsupervised learning
US3701974A (en) * 1971-05-20 1972-10-31 Signetics Corp Learning circuit
US4163983A (en) * 1978-09-28 1979-08-07 General Electric Company Solid state neuron
US4254474A (en) * 1979-08-02 1981-03-03 Nestor Associates Information processing system using threshold passive modification
US4326259A (en) * 1980-03-27 1982-04-20 Nestor Associates Self organizing general pattern class separator and identifier
US4450530A (en) * 1981-07-27 1984-05-22 New York University Sensorimotor coordinator
US4774677A (en) * 1981-08-06 1988-09-27 Buckley Bruce S Self-organizing circuits
US4518866A (en) * 1982-09-28 1985-05-21 Psychologics, Inc. Method of and circuit for simulating neurons
US4760604A (en) * 1985-02-15 1988-07-26 Nestor, Inc. Parallel, multi-unit, adaptive, nonlinear pattern class separator and identifier
US4730259A (en) * 1985-03-01 1988-03-08 Gallant Stephen I Matrix controlled expert system producible from examples
US4766568A (en) * 1985-10-18 1988-08-23 University Of Strathclyde Generic associative memory
US4719591A (en) * 1985-11-07 1988-01-12 American Telephone And Telegraph Company, At&T Bell Labs. Optimization network for the decomposition of signals
US4803736A (en) * 1985-11-27 1989-02-07 The Trustees Of Boston University Neural networks for machine vision
US4760437A (en) * 1986-01-03 1988-07-26 American Telephone And Telegraph Company, At&T Bell Laboratories Neural networks
US4800519A (en) * 1986-03-05 1989-01-24 Hughes Aircraft Company Optical data processing systems and methods for matrix inversion, multiplication, and addition
US4731747A (en) * 1986-04-14 1988-03-15 American Telephone And Telegraph Company, At&T Bell Laboratories Highly parallel computation network with normalized speed of response
US4737929A (en) * 1986-04-14 1988-04-12 American Telephone And Telegraph Company, At&T Bell Laboratories Highly parallel computation network employing a binary-valued T matrix and single output amplifiers
US4914563A (en) * 1986-08-22 1990-04-03 At&T Bell Laboratories Method and apparatus for optimizing system operational parameters through affine scaling
US4805225A (en) * 1986-11-06 1989-02-14 The Research Foundation Of The State University Of New York Pattern recognition method and apparatus
US4752906A (en) * 1986-12-16 1988-06-21 American Telephone & Telegraph Company, At&T Bell Laboratories Temporal sequences with neural networks
US4796199A (en) * 1987-02-24 1989-01-03 Oregon Graduate Center Neural-model, information-handling architecture and method
US4807168A (en) * 1987-06-10 1989-02-21 The United States Of America As Represented By The Administrator, National Aeronautics And Space Administration Hybrid analog-digital associative neural network
US4979126A (en) * 1988-03-30 1990-12-18 Ai Ware Incorporated Neural network with non-linear transformations
US5014219A (en) * 1988-05-06 1991-05-07 White James A Mask controled neural networks
DE68927474T2 (de) * 1988-12-29 1997-05-22 Sharp Kk Neuro-Rechner
JP2940933B2 (ja) * 1989-05-20 1999-08-25 株式会社リコー パターン認識方式
US5058034A (en) * 1989-06-12 1991-10-15 Westinghouse Electric Corp. Digital neural network with discrete point rule space
US5132811A (en) * 1989-08-10 1992-07-21 Seiko Instruments Inc. Holographic operating optical apparatus
US5121231A (en) * 1990-04-06 1992-06-09 University Of Southern California Incoherent/coherent multiplexed holographic recording for photonic interconnections and holographic optical elements
US5105468A (en) * 1991-04-03 1992-04-14 At&T Bell Laboratories Time delay neural network for printed and cursive handwritten character recognition
US5179596A (en) * 1991-07-05 1993-01-12 Booz, Allen & Hamilton, Inc. Analog pattern categorization system having dual weighted connectivity between nodes

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6346360B2 (ja) * 1983-03-18 1988-09-14 Hitachi Seisakusho Kk

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015170217A (ja) * 2014-03-07 2015-09-28 富士通株式会社 分類方法、分類装置および分類プログラム
JP2016004547A (ja) * 2014-06-19 2016-01-12 ヤフー株式会社 算出装置、算出方法及び算出プログラム
US10346742B2 (en) 2014-06-19 2019-07-09 Yahoo Japan Corporation Calculation device, calculation method, and recording medium
WO2016189675A1 (ja) * 2015-05-27 2016-12-01 株式会社日立製作所 ニューラルネットワークの学習装置及び学習方法
JPWO2016189675A1 (ja) * 2015-05-27 2017-08-17 株式会社日立製作所 ニューラルネットワークの学習装置及び学習方法

Also Published As

Publication number Publication date
WO1993013487A1 (en) 1993-07-08
AU2869292A (en) 1993-07-28
EP0619901A1 (en) 1994-10-19
EP0619901A4 (en) 1994-11-09
US5276771A (en) 1994-01-04

Similar Documents

Publication Publication Date Title
JPH07502357A (ja) 高速で収束する射影ニューラル・ネットワーク
US11645835B2 (en) Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications
Kohonen The self-organizing map
US9978002B2 (en) Object recognizer and detector for two-dimensional images using Bayesian network based classifier
Bishop Neural networks for pattern recognition
US5048100A (en) Self organizing neural network method and system for general classification of patterns
KR102224253B1 (ko) 심층 네트워크와 랜덤 포레스트가 결합된 앙상블 분류기의 경량화를 위한 교사-학생 프레임워크 및 이를 기반으로 하는 분류 방법
Fukumi et al. Rotation-invariant neural pattern recognition system estimating a rotation angle
Lakshmanan et al. Practical machine learning for computer vision
CN108985442A (zh) 手写模型训练方法、手写字识别方法、装置、设备及介质
CN109034280A (zh) 手写模型训练方法、手写字识别方法、装置、设备及介质
Barnard et al. Image processing for image understanding with neural nets
Das et al. Enhancing the power of CNN using data augmentation techniques for Odia handwritten character recognition
Wu CNN-Based Recognition of Handwritten Digits in MNIST Database
Won Nonlinear correlation filter and morphology neural networks for image pattern and automatic target recognition
Williams Combining deformable models and neural networks for handprinted digit recognition
Zhao et al. Efficient learning of NN-MLP based on individual evolutionary algorithm
Wechsler Invariance in pattern recognition
Choudhari et al. Iris recognition using convolutional neural network design
CN109086651A (zh) 手写模型训练方法、手写字识别方法、装置、设备及介质
CN116011515B (zh) 几何神经网络模型构建方法、装置、设备及存储介质
Reynolds et al. Spoken letter recognition with neural networks
Shalakhmetov et al. Optical character recognition with neural networks
Wong Towards a simple and fast learning and classification system
Gomez-Gil Recognition of handwritten letters using a locally connected back-propagation neural network