JP2862216B2

JP2862216B2 - シフト／不変パターン認識を行う受容野ニューラルネットワーク

Info

Publication number: JP2862216B2
Application number: JP4008742A
Authority: JP
Inventors: 徹上田; 文雄外川
Original assignee: Consejo Superior de Investigaciones Cientificas CSIC
Current assignee: Consejo Superior de Investigaciones Cientificas CSIC
Priority date: 1991-01-31
Filing date: 1992-01-21
Publication date: 1999-03-03
Anticipated expiration: 2014-03-03
Also published as: US5263107A; JPH04305760A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はパターン認識のために受
容野及びシフト／不変を利用する人工ニューラルネット
ワークの学習装置及び方法に関する。

【０００２】

【従来の技術】近年、いわゆる「ニューラルネットワー
ク」モデルが、言語認識、文字認識及び専門的システム
における問題を解決するために使用されている。

【０００３】従来、ニューラルネットワークの教師有り
学習法の１つは以下のように行われている。入力データ
の一部がネットワークに送られ、各出力ノードの出力値
が計算される。その後、学習アルゴリズムがウエイトの
必要な変更を決定し、ウエイトが更新される。ネットワ
ークの中には、ウエイト変更のための値を蓄積し、全て
のデータがネットワークに送られてからウエイトを変更
するものもある。そのような方法は、例えば、以下に挙
げる背景技術の引例に開示されている。コホーネン（Ｋ
ｏｈｏｎｅｎ）、Ｇ．バルネ（Ｇ．Ｂａｒｎｅ）及び
Ｒ．クリスレー（Ｒ．Ｃｈｒｉｓｌｅｙ）による「ニュ
ーラルネットワークを用いる統計的パターン認識：基準
の研究」（“ＳｔａｔｉｓｔｉｃａｌＰａｔｔｅｒｎ
ＲｅｃｏｇｎｉｔｉｏｎｗｉｔｈＮｅｕｒａｌＮ
ｅｔｗｏｒｋｓ：ＢｅｍｃｈｍａｒｋｉｎｇＳｔｕｄ
ｉｅｓ”）ＩＥＥＥ、Ｐｒｏｃ．ｏｆＩＣＮＮ、Ｖｏ
ｌ．Ｉ、ｐｐ．６１−６８、１９８８年１月、並びに
Ｄ．ルーメルハート（Ｄ．Ｒｕｍｅｌｈａｒｔ）、Ｇ．
Ｅ．ヒントン（Ｇ．Ｅ．Ｈｉｎｔｏｎ）及びＲ．Ｊ．ウ
ィリアムズ（Ｒ．Ｊ．Ｗｉｌｌｉａｍｓ）による“Ｐａ
ｒａｌｌｅｌＤｉｓｔｒｉｂｕｔｅｄＰｒｏｃｅｓｓ
ｉｎｇ：ＥｘｐｌｏｒａｔｉｏｎｓｉｎｔｈｅＭｉ
ｃｒｏｓｔｒｕｃｔｕｒｅｏｆＣｏｇｎｉｔｉｏ
ｎ”，ＭＩＴＰｒｅｓｓ、ケンブリッジ、ＭＡ、１９
８６のＶｏｌ．Ｉ「エラープロパゲーションによる内部
表現の学習」（“ＬｅａｒｎｉｎｇＩｎｔｅｒｎａｌ
ＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｂｙＥｒｒｏｒ
Ｐｒｏｐａｇａｔｉｏｎ”）（特に第８章を参照）。
これらの引例の各々は本明細書中に組み込まれている。

【０００４】学習過程の後、ニューラルネットワークは
入力データを認識することができる。言い換えると、未
知又は未学習であるが学習されたデータと類似している
入力データを、未知の入力パターンを予備学習された
（ｐｒｅｌｅａｒｎｅｄ）パターンと相関させることに
よって、適当なクラスに分類することができる。従っ
て、従来の方法によって構成されたニューラルネットワ
ークは、後に認識されるべき１つのデータクラスを学習
するために充分多くの種類のパターンの学習データが使
用される場合には、未学習のデータに対して高い認識能
力を提供することができる。

【０００５】

【発明が解決しようとする課題】しかしながら、未学習
の文字又は認識されるべき他のデータが、学習されたデ
ータの特徴と同一の特徴を有するが、その特徴が未学習
データの異なる位置にある場合、従来の方法のニューラ
ルネットワークでは高い正確さの認識能力を得られな
い。「時間遅延ニューラルネットワーク」（ＴＤＮＮ）
と呼ばれる方法は、異なる位置でデータを学習すること
によってこれを一部解決する。この方法は、Ａ．ワイベ
ル（Ａ．Ｗａｉｂｅｌ）、Ｔ．ハナザワ（Ｔ．Ｈａｎａ
ｚａｗａ）、Ｇ．ヒントン（Ｇ．Ｈｉｎｔｏｎ）、Ｋ．
シカノ（Ｋ．ｓｈｉｋａｎｏ）、及びＫ．ラング（Ｋ．
Ｌａｎｇ）による報告「時間遅延ニューラルネットワー
クを用いる音声認識」（“ＰｈｏｎｅｍｅＲｅｃｏｇ
ｎｉｔｉｏｎｕｓｉｎｇＴｉｍｅ−ＤｅｌａｙＮ
ｅｕｒａｌＮｅｔｗｏｒｋｓ”）ＩＥＥＥＴｒａｎ
ｓ．Ａｃｏｕｓｔ．，Ｓｐｅｅｃｈ，ＳｉｇｎａｌＰ
ｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．３７，ｐｐ．１８８８−
１８９８，１９８９年１２月に開示されている。しか
し、重要なことは、ワイベルの方法（ＴＤＮＮ）が学習
されたデータの特徴の実際の位置を検出しておらず、全
てのシフトされたデータによってのみウエイトが更新さ
れることである。従って、ＴＤＮＮ法における学習は効
率が悪い。

【０００６】同様の問題を解決する方法は、ル・クン
（ＬｅＣｕｎ）らによる「バックプロパゲーションネ
ットワークを用いる手書き数字の認識」（“Ｈａｎｄｗ
ｒｉｔｉｎｇＤｉｇｉｔＲｅｃｏｇｎｉｔｉｏｎ
ｗｉｔｈａＢａｃｋ−ＰｒｏｐａｇａｔｉｏｎＮ
ｅｔｗｏｒｋ”，ＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏ
ｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ，Ｖｏｌ．
２，ｐｐ．３９６−４０４（１９８９年））に述べられ
ている。この引例は背景として本明細書に組み込まれて
いる。ル・クンの構造は５層ネットワークを用いてお
り、上側の層はローカルの特徴の位置を検出するために
使用される。

【０００７】認識されるべき入力文字が学習された文字
と同じであるがフォントが異なる場合には他の問題が起
こり得るので、入力文字の様々な細かい特徴は学習され
た文字の特徴とは異なった位置に置かれる。文字全体が
認識のために比較されるシステムにおいては、位置の相
違は雑音として現れる。

【０００８】本発明は上記欠点を本質的に解決するため
になされたものであり、未学習データ（つまり認識され
るべきデータ）の特徴が学習データの類似する特徴の位
置に関連してシフトされる場合でも高い認識能力を提供
し得る、改良されたニューラルネットワーク学習装置及
び方法を提供するという重要な目的を有する。

【０００９】

【課題を解決するための手段】本発明の方法は、ニュー
ラルネットワークと該ニューラルネットワークの入力に
接続された複数の画素からなるアレイとを備えたニュー
ラルネットワークシステムにおいて、該ニューラルネッ
トワークの学習情報に関するウエイトを更新する方法で
あって、該ニューラルネットワークは、該学習情報を保
持するデータベースを有し、該方法は、（ａ）入力され
た情報をアレイに写像するステップ、（ｂ）該アレイを
構成する該複数の画素のうち、選択された少なくとも１
つの画素を含む領域を分離するステップ、（ｃ）該選択
された少なくとも１つの画素を含む領域を少なくとも所
定の方向にシフトするステップ、（ｄ）シフトする前の
位置及びシフトした後の位置の該選択された少なくとも
１つの画素を含む領域と該学習情報に対応する領域とを
比較するステップ、（ｅ）該ステップ（ｄ）の比較に基
づいて、該入力された情報に対する最適なシフトを決定
するステップ、及び（ｆ）該最適なシフトに基づいて、
該学習情報に関するウエイトを更新するステップ、を包
含しており、そのことにより上記目的が達成される。前
記ステップ（ｃ）は前記入力された情報を第１の所定の
方向と第２の所定の方向にシフトすることを包含してい
てもよい。前記ステップ（ｃ）は前記入力された情報を
回転することを包含していてもよい。前記アレイは第１
の所定の方向及び第２の所定の方向を有する画素の行列
であり、前記ステップ（ｃ）は、（ｇ）該第２の所定の
方向にはシフトせずに、該第１の所定の方向で負及び正
の各々の方向に、第１の所定数の画素だけ前記入力され
た情報をシフトするステップ、（ｈ）該第１の所定の方
向にはシフトせずに、該第２の所定の方向で負及び正の
各々の方向に、第２の所定数の画素だけ該入力された情
報をシフトするステップ、及び（ｉ）該第１の所定の方
向で負及び正の各々の方向に、該第１の所定の画素だけ
入力情報をシフトすると共に、該第２の所定の方向で負
及び正の各々の方向に、該第２の所定数の画素だけ該入
力された情報をシフトするステップ、を包含していても
よい。本発明の方法は、ニューラルネットワークにおい
て情報を学習する方法であって、入力された情報はニュ
ーラルネットワークに格納された特徴に対応しており、
（ａ）少なくとも１つの受容野に、シフトされない位置
で情報を写像するステップ、（ｂ）複数のシフト位置
に、写像された情報をシフトさせるステップ、（ｃ）該
複数のシフト位置のうちどの位置が格納された特徴に最
もよく適合するかを決定するステップ、及び（ｄ）最も
適合するシフト位置によって、該格納された特徴に関連
するウエイトを更新するステップ、を包含しており、そ
のことにより上記目的が達成される。本発明の装置は、
ニューラルネットワークと該ニューラルネットワークの
入力に接続された複数の画素からなるアレイとを備えた
ニューラルネットワークシステムにおいて、該ニューラ
ルネットワークの学習情報に関するウエイトを更新する
装置であって、該ニューラルネットワークは、該学習情
報を保持するデータベースを有し、該装置は、入力され
た情報をアレイに写像する手段、該写像手段に接続さ
れ、アレイの一部分である部分アレイであって該写像さ
れた該入力された情報の複数の所定の部分アレイを分離
する手段、該分離手段に接続され、該情報の分離された
部分アレイを少なくとも所定の方向でシフトさせる手
段、該シフトされた部分アレイを格納する手段、該格納
手段に接続され、該シフトされた各部分アレイ及びそれ
に対応する学習情報の最も近い適合を決定する手段、及
び該決定手段に接続され、該決定された最も近い適合に
よって該学習情報に対するウエイトを更新する手段、を
備えておりそのことにより上記目的が達成される。前記
シフトされ分離された部分アレイは２つの所定の方向の
各々にシフトされた部分アレイを包含してもよい。前記
シフトされ分離された部分アレイは軸の周りをシフトさ
れる回転された部分アレイを包含してもよい。前記アレ
イは第１の所定の方向及び第２の所定の方向を有する画
素の行列であり、前記シフトされ分離された部分アレイ
は、第２の所定の方向にはシフトされずに、第１の所定
の方向において負及び正の各々の方向に第１の所定数の
画素だけシフトされた、第１のシフトされた部分アレ
イ、第１の所定の方向にはシフトされずに、第２の所定
の方向において負及び正の各々に方向に第２の所定数の
画素だけシフトされた、第２のシフトされた部分アレ
イ、並びに第１の所定の方向において負及び正の各々
の方向に第１の所定数の画素だけシフトされると共に、
第２の所定の方向において負及び正の各々の方向に第２
の所定数の画素だけシフトされた、第３のシフトされた
部分アレイを包含していてもよい。ニューラルネットワ
ークにおいて使用するための学習装置であって、該学習
装置は入力ベクトルによってアレイに入力される多くの
異なるパターンを学習するためのものであり、該パター
ンは異なるクラスに分類され、入力データの部分を包含
する、アレイの一部分である部分アレイのデータを発生
する手段、該発生手段に接続され、該入力データの該部
分アレイと、該異なるクラスの各々の該部分アレイの位
置に相当するウエイトとの類似度を示す複数の出力値を
生成する手段、所定の入力データが属するクラスに関連
する複数の出力値の最大値である第１の出力値を獲得す
る第１の手段、所定の入力データが属さない少なくとも
一つのクラスに関連する複数の出力値の最大値である第
２の出力値を獲得する第２の手段、及び該第１の出力値
をより大きくし、該第２の出力をより小さくするように
第１及び第２の出力値のウエイトを変更するウエイト変
更手段、を備えていてもよい。本発明の方法は、ニュー
ラルネットワークと該ニューラルネットワークの入力に
接続された複数の画素からなるアレイとを備えたニュー
ラルネットワークシステムにおいて、ニューラルネット
ワークに入力されたパターンの弁別特徴を学習するため
の方法であって、該アレイは所定数の該アレイの一部分
を表すタイルを有し、該方法は、（ａ）該アレイに、入
力パターンを写像するステップ、（ｂ）各々の該タイル
に関連するウエイトに対して値を発生するステップ、
（ｃ）複数のパターンの各々に対してステップ（ａ）及
び（ｂ）を繰り返すステップ、（ｄ）該タイルの各々に
対するウエイト値と他のパターンの対応するタイルのウ
エイト値との相関関係に基づいて、ウエイト値から複数
の寄与値を発生するステップ、並びに（ｅ）該複数の寄
与値は、該複数のパターンの各々が互いに最も相違する
アレイの部分に関連する少なくとも１つの寄与値を含
み、該少なくとも１つの寄与値を決定するために、該複
数の寄与値同士をを比較するステップを包含しており、
そのことにより上記目的が達成される。前記ステップ
（ｅ）は、（ｆ）タイルの集合から寄与値の和の集合を
発生させるステップ、（ｇ）他の和より大きい和の集合
の少なくとも１つの部分集合を決定するステップ、及び
（ｈ）前記複数のパターン間の異なるパターンを比較す
るために、該少なくとも１つの部分集合が発生させられ
た該タイルの集合である、少なくとも１つの受容野を決
定し、新たに入力されたパターンが写像されたアレイか
ら、該少なくとも１つの受容野に対応する部分アレイを
選択するステップを包含しており、該少なくとも１つの
受容野は互いに相違するパターンの特徴を表す部分に関
連していてもよい。前記方法はさらに（ｉ）前記少なく
とも１つの受容野よりも大きい入力イメージ領域を規定
するステップ、（ｊ）該入力イメージ領域内で、前記ア
レイを構成する前記複数の画素のうち、選択された少な
くとも１つの画素を含む領域を分離するステップ、
（ｋ）該選択された少なくとも１つの画素を含む領域を
少なくとも所定の方向にシフトするステップ、（ｌ）シ
フトする前の位置及びシフトした後の位置の該入力イメ
ージのデータと前記少なくとも１つの受容野とを比較す
るステップ、（ｍ）該ステップ（ｌ）の比較に基づい
て、該入力イメージのデータに対する最適なシフトによ
る一致を決定するステップ、及び（ｎ）該最適なシフト
に基づいて、該少なくとも１つの受容野に関連して既に
学習されたウエイトを更新するステップ、を包含してい
てもよい。

【００１０】

【００１１】

【００１２】

【００１３】

【００１４】

【００１５】

【００１６】

【００１７】

【００１８】

【００１９】

【００２０】

【００２１】

【００２２】

【００２３】

【００２４】

【００２５】

【００２６】

【００２７】

【００２８】

【００２９】

【作用】本発明の装置及び方法は以下のようにシフト、
又は回転されたデータを扱う。学習又は認識されるべき
１つの入力文字又は他のデータは、入力データの部分を
含むいくつかの所定数の部分入力データに分割される。
回転−不変ニューラルネットワークが必要である場合に
は、入力データの回転位置を表す部分入力データが発生
される。各部分入力データはネットワークに送られ、出
力値が計算される。

【００３０】入力データがＮ個の部分入力データに分割
され、ネットワークがＭ個の出力ノードを有する場合、
１つの入力ベクトルに対してＭｘＮ個の出力値が計算さ
れる。Ｍ個の出力ノードの１個以上のノードは多くのク
ラスの各々に割り当てられる。そのクラスは学習された
データを分類するために規定される。好ましい実施例に
おいて、ＬＶＱ２学習法はウエイトを更新するために用
いられる。このＬＶＱ２法は上記コホーネンの論文及び
Ｔ．コホーネンによる“ＳｔａｔｉｓｔｉｃａｌＰａ
ｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎＲｅｖｉｓｉｔ
ｅｄ”，ＡｄｖａｎｃｅｄＮｅｕｒａｌＣｏｍｐｕ
ｔｅｒｓ，ｐｐ．１３７−１４３（１９９０年）に論じ
られている。他の学習法（バックプロパゲーション等）
がこの方法で使用されることができるが、１例としてＬ
ＶＱ２学習アルゴリズムが本明細書では論じられる。

【００３１】ＭｘＮ個の出力ノードの計算の後、入力デ
ータと同じクラスの出力値全てのうち最大である第１の
最大値が選択される。さらに、第１の最大値と共に、入
力データと同じクラスにない全ての値のうち最大である
第２の最大値が選択される。ＬＶＱ２法は、出力ノード
がこれらの選択された第１及び第２の最大値を有する２
つのウエイトのみを以下のように更新する。出力値が最
大でないノードは正しいクラスになく、出力値が第２の
最大値に相当するノードが正しいクラスにある場合、こ
れら２つのノードのウエイトは更新される。

【００３２】このネットワークはＮ個の部分入力データ
及びＭｘＮ個の出力ノード値を利用している。上記第１
及び第２の最大値が選択されると、最大出力値に相当す
る部分入力データは第２の最大出力値の部分入力と常に
等しいわけではない。言い換えれば、選択過程は、最大
値だけではなくその値に相当する部分入力データも選択
する。

【００３３】ウエイト更新は、そのように選択された部
分入力データを用いて行われる。つまり、ネットワーク
は適当なノード（ウエイト）及び適当な部分入力データ
を同時に選択し、ウエイトはその部分入力データによっ
て更新されるので、正しいクラスの出力値はより大きく
され、間違ったクラスの出力値はより小さくされるので
ある。

【００３４】異なった入力データが類似する特徴を有し
ているがその特徴の位置が等しくない場合には、従来の
（例えばＴＤＮＮ）ネットワークは関連するウエイトと
共にこれらの入力値の全てを覚えておかなくてはならな
い。なぜなら、ネットワークの出力値が特徴の位置に影
響され易いからである。本発明は、適当な部分入力デー
タを選択し、その部分入力データを用いてウエイトを更
新することによってこの効率の悪さを解決する。このよ
うにして、１つのウエイトは多くの異なる位置で同じ特
徴を示すことが可能である。

【００３５】テストモード（つまり、パターン認識モー
ド）において、入力データはまたＮ個の部分入力データ
に分割される。これらのＮ個のデータはネットワークに
送られ、その後、ネットワークは出力値が最大値を有す
るノードを選択する。ノードが属するカテゴリは、認識
されるパターン（例えば、文字、語等）として選択され
る。

【００３６】上記説明において、ＬＶＱ２法は学習法の
一例として用いられているが、他の方法も本発明におい
て使用されることは可能である。例えば、バックプロパ
ゲーション学習が用いられる場合、全ての出力値及びエ
ラー値が計算される。ネットワークがＭ個の出力ノード
及びＮ個の部分入力を有する場合、Ｎ個の出力エラーの
うち最小の出力エラーを出す部分入力データが（Ｍ個の
出力エラー値の和を求めることによって）選択される。

【００３７】この過程で最小エラー値が選択されると、
そのエラー値に対応する１つの部分入力データが決定さ
れる。エラー値及び部分入力が、バックプロパゲーショ
ン学習法のために用いられる。

【００３８】本発明の他の重要な特徴は受容野の使用で
ある。文字又は他のパターンが認識のためにニューラル
ネットワークに与えられると、ネットワークは入力パタ
ーンを互いに類似するものを有するサブカテゴリに分類
する。本発明のシステムは、他の類似するパターンの各
サブカテゴリに対して、大きく相違するパターンの部分
を決定する。パターン同士の弁別、それによって所定パ
ターンの識別及び認識をするために使用されるのはこれ
らの部分である。

【００３９】本発明の最も効果的な好ましい実施例は、
これらの受容野及び上記のシフト／不変法の両方を用い
ており、受容野が先ず識別され分離され、特定のサブカ
テゴリで比較された受容野にシフト／不変法が適用され
る。

【００４０】

【実施例】本発明を実施例について以下に説明する。

【００４１】本発明の方法は図１のフローチャートによ
って示され、さらに詳しくは図４のフローチャートによ
って示される。図１において、５つの基本ステップが示
されている。プロセス１は自己学習過程であり、ここ
で、文字又はパターンの各クラス内で自己組織化学習に
よってウエイトベクトルは初期化される。このことは後
にさらに詳しく論じられる。

【００４２】プロセス２において、予備学習過程が実行
される。このプロセスは、上記のＬＶＱ２方法に一部基
づき、新規に修正された過程である予備的な教師有り学
習過程である。この新規の方法を本明細書中ではＬＶＱ
２’と呼ぶ。ＬＶＱ２’は、特願平第１−６０３２７号
である１９８９年３月１３日出願の「ニューラルネット
ワークの学習装置及び方法」に詳しく説明されている。
ＬＶＱ２’過程は、後にさらに詳細に論じられる。

【００４３】図１のプロセス３において、本発明の方法
は、所定の入力文字が表されている３２ｘ３２アレイの
部分集合に相当するタイルの寄与値を算出する。

【００４４】プロセス４において、以下に規定されるよ
うに最大値を有するプロセス３で決定された寄与タイル
は、サブカテゴリ内の異なる文字又はパターンを弁別す
るための受容タイルとして選択される。

【００４５】最後に、プロセス５において、プロセス４
で選択された各受容野又はタイルにシフト／不変ＬＶＱ
２’が適用されて、入力された文字またはパターンを識
別する。

【００４６】図４は、本発明の好ましい実施態様のプロ
セス経路及びデータの流れを示している。この図におい
て、太い黒塗の矢印はプロセス経路を示し、尖って細い
矢印はデータ接続又は伝達を示している。従って、図４
は２つの起こり得るモード、即ち、認識及び学習を示し
ている。認識が行われる場合、方法はステップ３００、
３１０、３３０、３４０、３６０及び３７０に沿って進
み、認識結果は論理スイッチ４１０から出力される。学
習が行われる場合、方法はステップ３００、３１０、３
３０、３４０、３６０及び３７０に沿って進み、その後
ステップ３８０及び３９０へ進む。ステップ３８０及び
３９０はプロセス１〜５を包含し、本発明の内容の大部
分を構成する。

【００４７】いずれのモードにおいても、イメージは先
ずステップ３００で入力され、プロセス１と組み合わせ
て、後述されるようにステップ３１０でサイズの正規化
が行われる。その後、データのための受容野は、プロセ
ス４に関して後述されるようにボックス３３０において
設定される。

【００４８】ステップ３４０において、システムはプロ
セス５で後述されるようにシフトされた部分入力データ
を発生するが、これを行うために３２×３２アレイに写
像された入力データ３２０を用いる。これらの部分入力
データはデータ３５０として格納され、ステップ３６０
のため及びプロセス５（ステップ３９０）のために提供
される。

【００４９】ステップ３６０において、予備学習された
情報のウエイトベクトル（データ４００）及び部分入力
データ３５０を用いて、内積計算（詳しくは後述され
る）が行われる。この計算はプロセス５で後述される式
（２３）に相当する。

【００５０】その後、ステップ３７０は、式（２４）及
び式（２５）の最大値を求める過程を包含しており、こ
れらの式もプロセス５で後述される。この時点では、シ
ステムが認識モードにある場合、求められた最大値は認
識結果を生じ、認識結果は４１０から出力される。

【００５１】システムが学習モードにある場合、過程は
ボックス３７５へ分岐する。ボックス３７５はステップ
３８０及び３９０を包含し、詳しくはプロセス１〜５に
おいて後述される。ステップ３９０からの出力はデータ
４００として現れる更新されたウエイトベクトルを包含
している。

【００５２】図３は、本発明の物理的な実施態様を示す
ブロック図である。先ず、イメージ１００（図３参照）
はスキャナ１１０によって走査され、中央処理装置（Ｃ
ＰＵ）１２０に入力される。

【００５３】ニューラルネットワークは、このＣＰＵ１
２０において実質的に具体化され、制御されている。Ｃ
ＰＵ１２０は接続されているメインメモリ１３０を用い
ている。従って、以下の各プロセス１〜５及び認識過程
は、処理ノード１９０〜２２０と共にＣＰＵ１２０によ
って完全に行われる。

【００５４】ＣＰＵ１２０はメインバス１４０及びバス
１５０、１６０、１７０及び１８０に接続され、これら
は処理ノード１９０、２００、２１０及び２２０に各々
接続されている。

【００５５】Ｍ個のローカル処理ノードＰＮ１〜ＰＮＭ
（それぞれ１９０〜２２０）があり、これらは以下にさ
らに詳しく論じられる。各々の処理ノードはローカルメ
モリ、即ちメモリ２３０、２４０、２５０及び２６０に
それぞれ接続されている。これらの処理ノードは行列２
７０で示されるようにＮ個の各データクラスに対してＭ
個の出力を発生する。本発明のシステムにおける処理ノ
ードの操作は後に詳述される。

【００５６】従って、本発明の方法は、必要な機能の各
々を実行するための手段を備えている図３の好ましい構
成において物理的に具体化される。これらの機能のうち
多くは、主メモリに格納されたプログラム命令によって
実行され、主メモリ及び処理ノードメモリの両方に格納
されたデータを用いるので、図中では単独には示されて
いない。当該技術分野の熟練者には、以下の論述におい
て各種機能を実行する手段がプログラム命令によって達
成され得る場合は明らかであろう。

【００５７】プロセス１：自己学習過程本発明の方法において、図式又は文字データが入力され
る。（或いは、音声データ又は他のタイプのデータが入
力され得る。本願では例示のみのために印刷された又は
手書きのデータを用いている。）文字は予め切り出さ
れ、そのサイズは３２×３２画素の階調アレイ（又は行
列）或いは１６×１６アレイに写像又は正規化される。
これはスキャナ１１０と組み合わせてＣＰＵ１２０によ
って実行される（図３参照）。その後、写像されたイメ
ージはニューラルネットワークへの入力として使用され
る。従って、３２×３２の行列に対してネットワークに
は１０２４個の入力がある。

【００５８】入力の値の範囲は、データが効率よく圧縮
される量に依存する。例えば、６４×６４の文字走査が
１６×１６行列に低減される場合、これは１６個（各次
元につき４の割合）の減少になるので、１６×１６行列
における各画素は１から１６の間の値をとる。これは
「グレー値」と呼ばれ得る。このグレー値がネットワー
クへの入力である。

【００５９】各入力値は以下の式によって正規化される
（ここでＸ_i（ｉ＝１、Ｉ）は入力値の成分の全ての組
合せである）。

【００６０】

【数１】

【００６１】この正規化に伴って、全ての正規化された
Ｘ_i成分の和（つまり内積）は１になる。即ち、ベクト
ルのノルム（長さ）は１になる。このように、正規化さ
れた入力ベクトルはすべて同じ長さであり、言い換えれ
ば、正規化された長さ１を有する。

【００６２】第１層の出力は以下のように示される。

【００６３】

【数２】

【００６４】正規化プロセスによって、Ｗベクトル及び
Ｘベクトルの長さは等しくなるので、その間の角度のみ
が重要である。ベクトルが変わる度に、正規化される。

【００６５】その後、正規化された入力値に対するウエ
イトベクトルは各文字クラス内で自己組織化学習過程に
おいて初期化される。各文字クラスは図２に示されるよ
うに連関した近傍の１次元写像である。

【００６６】ウエイトベクトルは増大し、後述の式
（６）のように最大活性化出力値を用いてウエイトベク
トルを大きくすることによって、入力ベクトルをカテゴ
リに割り付ける。さらに、近傍のウエイトベクトルは、
後述の式（５）及び式（７）によってわずかに変化され
る。文字が多くの起こり得るタイプのフォントを有する
場合、ウエイトベクトルは、典型的な混成文字スタイル
（フォント）を最終的に形成する。本発明の図１５に示
されるように、典型的なフォントが各文字クラスにおい
て５個のウエイトベクトル上に形成されるのが好まし
い。図１５は、本発明の実施においてプロセス１によっ
て各々が初期化された５個のベクトルを有する４文字の
ウエイトベクトルを示している。

【００６７】各ウエイトは、小さい任意の値によって通
常は初期化されるが、前述の特許出願に教示されいるよ
うに初期学習のＬＶＱ２’プロセスにおいて迅速に収束
される。

【００６８】図６は、本発明において用いられる好まし
い初期化方法のフローチャートである。このフローチャ
ートはまた、以下のアウトラインで描かれている。

【００６９】ｎ＝１，Ｎに対して；ｎ：カテゴリ数（ｎクラス）｛Ｘｍｎ＝Ｎｏｒｍ（Ｘｍｎ）（ｍ＝１，Ｍｎ）；正規化（１）ｔ＝１，Ｔに対して；ｔ：学習反復の回数｛ｍ＝１，Ｍｎに対して；ｍ：クラスｎに属する入力ベクトルの数｛Ｘ＝Ｘｍｎ；入力ベクトルＸをクラスｎに属する入力ベクトルｍのＸｍｎと置き換える（２）ｊ＝１，Ｊｎに対して；Ｊ：クラスｎに属するウエイトベクトルの数｛Ｏｊ＝Ｏ（Ｘ，Ｗｊｎ）（３）｝Ｏｍａｘ＝ｍａｘ｛Ｏｊ｝（４）ｊＷｃ＝Ｗ（Ｏｍａｘ）Ｗｃ−１＝Ｗｃ−１＋Ａ（ｔ）＊０．１＊（Ｘ−Ｗｃ−１）；隣接する近傍をさらに近づける（５）Ｗｃ＝Ｗｃ＋Ａ（ｔ）＊（Ｘ−Ｗｃ）；最近接のウエイトを更に近づける（６）Ｗｃ＋１＝Ｗｃ＋１＋Ａ（ｔ）＊０．１＊（Ｘ−Ｗｃ＋１）；隣接する近傍をさらに近づける（７）Ｗｃ−１＝Ｎｏｒｍ（Ｗｃ−１）（８）Ｗｃ＝Ｎｏｒｍ（Ｗｃ）（９）Ｗｃ＋１＝Ｎｏｒｍ（Ｗｃ＋１）（１０）｝｝｝定義は以下の通りである。Ｘｍｎ：クラスｎに属する入力ベクトルｍＷｊｎ：クラスｎに属するウエイトベクトルｊＷ（Ｏｍａｘ）：クラスｎの最大出力Ｏｍａｘを与える
ウエイトベクトルＷｃ：Ｗ（Ｏｍａｘ）Ｗｃ−１：Ｗ（Ｏｍａｘ）に隣接する近傍（−１）ウエ
イトベクトルＷｃ＋１：Ｗ（Ｏｍａｘ）に隣接する近傍（＋１）ウエ
イトベクトルＮｏｒｍ（Ｘ）：各成分が以下のように定義される、ベ
クトルＸを同一基準のベクトルに正規化する関数（「ｎ
ｏｒｍ」は１に等しい）

【００７０】

【数３】

【００７１】Ｏ（Ｘ，Ｗ）：以下のように定義される、入力ベクトルＸとウエイトベクトルＷとの内積Ｏ（Ｘ，Ｗ）＝Σ（ｘｉ＊ｗｉ）（１２）ｉ＝１、ＩＡ（ｔ）：Ａ（ｔ）＝Ｃ＊（１−ｔ／Ｔ）と規定される０＜Ａ（ｔ）＜１の範囲でのループｔの減少関数。ＣはＣ＝０．１などの定数である。（１３）。

【００７２】他の初期化及び予備学習過程も使用される
ことができ、本発明は上記の実施例のみに限定されな
い。例えば、従来のニューラルネットワークにおいては
ランダムウエイト初期化が用いられ得る。ランダムウエ
イト初期化はまた、本発明においても使用することがで
きるが、上記の自己組織化ウエイト初期化過程ほど速く
はない。

【００７３】プロセス２：ＬＶＱ２’予備学習プロセス２のＬＶＱ２’教師有り学習方法において、後
述される式（２０）では、ウエイトベクトルは変更され
て、最大出力を有するウエイトベクトルを入力文字と同
じクラスに属する入力ベクトルにより近づけられる。同
時に、後述の式（１９）では、入力文字と同じクラス以
外の他のクラスに属する入力ベクトルから、最大出力を
有するウエイトベクトルを遠ざける。

【００７４】図５は、ＬＶＱ２’方法による全処理及び
構造を示しており、ＬＶＱ２’方法は図３に示されるＣ
ＰＵ１２０及び処理ノード１９０〜２２０の制御によっ
て実行される。イメージ又は他のパターンはネットワー
クの第１層（ｎｅｔ１）に入力され（図５参照）、複数
のグループ又はカテゴリの１つに類別される。その後、
類別されたパターンはｎｅｔ２へ出力される。例とし
て、ｎｅｔ２は３つの文字サブカテゴリを示している。
その後、同様に、これらのカテゴリはｎｅｔ３への入力
として使用され、複数のサブカテゴリの１つに各文字を
類別する。

【００７５】図５において、矢印「Ａ」と「Ｂ」とは、
矢印Ａが、上位レベル上の１（又は０）のみのノードが
下位レベルからの所定ノードによって活性化され得るネ
ットワーク経路を示している点で異なっている。しかし
ながら、矢印Ｂについて分かるように、「Ｂ」の方法
（斜影）を用いている１個のノードは上位レベル上の多
くのノードを活性化し得る。「Ｂ」の方法はより正確な
結果を導き出すことができる。なぜなら、「Ａ」の方法
を用いると正しい文字がｎｅｔ１レベルで不適当に省略
され得るが、「Ｂ」の方法を用いるとその文字を適当に
認識された文字として取り出す他の機会がある。一方、
「Ａ」の方法はパターン認識を生成する時点では、より
効率がよい。

【００７６】図５のｎｅｔ３層において右から２番目の
サブカテゴリは「犬」、「太」、「大」、及び「天」を
含んでいる。このサブカテゴリが、本発明の方法に対す
る入力として用いられるｎｅｔ３からの出力である（本
発明の方法自体は１層ネットワークが好ましい）。

【００７７】ＬＶＱ２’学習過程は２つの段階、段階＃
１及び段階＃２を有している。段階＃１において、上記
ウエイト変更は、ＯｍａｘＣ（「正しいクラス」内の最
大出力値）が全体で２番目に大きい出力又はｎ番目（ｎ
＞２）の出力とされ、ＯｍａｘＷ（「間違ったクラス」
からの最大出力値）が全体の最大出力とされる条件で式
（１９）及び式（２０）によって行われるので、全体の
最大出力は正しいクラス内のウエイトベクトルから得る
ことができる。これは教師有り学習なので、コンピュー
タはどのクラスが正しいかを理解することができる。

【００７８】段階＃２において、上記ウエイト変更は、
ＯｍａｘＷ対ＯｍａｘＣの比＞ＲＡＴＩＯの条件で式
（２０）及び式（１９）によって行われるので、正しい
クラスの総合最大出力値は間違ったクラスの全体で２番
目に大きい値からさらに遠ざけておくことができる。

【００７９】この学習方法は、ウエイトベクトルの効果
的学習を可能とし、図７及び図８のフローチャートに示
されている。図７及び図８は以下のアウトラインで示さ
れている。

【００８０】Ｘｍ＝Ｎｏｒｍ（Ｘｍ）（ｍ＝１，Ｍ）；正規化（１４）ｔ＝１，Ｔに対して；ｔ：学習反復の回数｛［段階＃１］｛ｍ＝１，Ｍに対して；ｍ：入力ベクトルの数｛Ｘ＝Ｘｍ；入力ベクトルＸはクラスｎに属すると仮定される入力ベクトルｍのＸｍに置き換えられる（１５）ｊ＝１，Ｊに対して；ｊ：ウエイトベクトルの数｛Ｏｊ＝Ｏ（Ｘ，Ｗｊ）（１６）｝ＯｍａｘＣ＝ｍａｘ｛Ｏｊ｝（１７）ｊはクラスｎ内ＯｍａｘＷ＝ｍａｘ｛Ｏｊ｝（１８）ｊはクラスｎ以外ＯｍａｘＣが全体で２番目に大きい出力又はｎ番目（ｎ＞２）の出力であり、ＯｍａｘＷが全体で１番大きい出力である場合、｛Ｗ（ＯｍａｘＷ）＝Ｗ（ＯｍａｘＷ）−Ａ（ｔ）＊（Ｘ− Ｗ（ＯｍａｘＷ））；Ｗ（ＯｍａｘＷ）をｘから遠ざける（１９）Ｗ（ＯｍａｘＣ）＝Ｗ（ＯｍａｘＣ）＋Ａ（ｔ）＊（Ｘ− Ｗ（ＯｍａｘＣ））；Ｗ（ＯｍａｘＣ）をＸに近づける（２０）Ｗ（ＯｍａｘＷ）＝Ｎｏｒｍ（Ｗ（ＯｍａｘＷ））（２１）Ｗ（ＯｍａｘＣ）＝Ｎｏｒｍ（Ｗ（ＯｍａｘＣ））（２２）｝｝｝全ての入力ベクトルが段階＃１で完全に学習されると、
段階＃２に進む。そうでなければ、段階＃１を再び行
う。

【００８１】［段階＃２］｛ｍ＝１，Ｍに対して；ｍ：入力ベクトルの数｛Ｘ＝Ｘｍ；入力ベクトルＸはクラスｎに属すると仮定される入力ベクトルｍのＸｍに置き換えられる（１５）ｊ＝１，Ｊに対して；ｊ：ウエイトベクトルの数｛Ｏｊ＝Ｏ（Ｘ，Ｗｊ）（１６）｝ＯｍａｘＣ＝ｍａｘ｛Ｏｊ｝（１７）ｊはクラスｎ内ＯｍａｘＷ＝ｍａｘ｛Ｏｊ｝（１８）ｊはクラスｎ以外ＯｍａｘＷ対ＯｍａｘＣの比＞ＲＡＴＩＯの場合、｛Ｗ（ＯｍａｘＣ）＝Ｗ（ＯｍａｘＣ）＋Ａ（ｔ）＊（Ｘ− Ｗ（ＯｍａｘＣ））；Ｗ（ＯｍａｘＣ）をｘに近づける（２０）Ｗ（ＯｍａｘＷ）＝Ｗ（ＯｍａｘＷ）−Ａ（ｔ）＊（Ｘ− Ｗ（ＯｍａｘＷ））；Ｗ（ＯｍａｘＣ）をＸから遠ざける（１９）Ｗ（ＯｍａｘＣ）＝Ｎｏｒｍ（Ｗ（ＯｍａｘＣ））（２２）Ｗ（ＯｍａｘＷ）＝Ｎｏｒｍ（Ｗ（ＯｍａｘＷ））（２１）｝｝｝全ての入力ベクトルがウエイトベクトルを全く変更せずに段階＃２を通過すれば、停止。そうでなければ、段階＃１を再度行う。｝定義は以下の通りである。Ｘｍ：入力ベクトルｍＷｊ：ウエイトベクトルｊＷ（ＯｍａｘＣ）：入力ベクトルＸを同じクラス（正し
いクラス）に属する最大出力ＯｍａｘＣと共に与えられ
たウエイトベクトルＷ（ＯｍａｘＷ）：入力ベクトルＸと同じクラスとは異
なるクラス（誤りのクラス）に属する最大出力Ｏｍａｘ
Ｗと共に与えらえたウエイトベクトルＲＡＴＩＯ：定数；例えばＲＡＴＩＯ＝０．５０。

【００８２】プロセス１と同様に、プロセス２は本発明
と組み合わせて好ましく使用される学習方法の一例であ
るので、同様に他の方法も使用されることができる。上
記の方法は前述の特願平第１−６０３２７号に充分に説
明されている。

【００８３】プロセス２の本発明の実施例は以下の通り
である。簡単に言うと、このステップによって、教師有
り予備学習において、戻されるＲＡＴＩＯの値が過程の
終了時には０．５（又は他の所定値）よりも小さいこと
が保証される。

【００８４】１つの実施例において、各々の３つのバリ
エーション（例えば、細字、普通、太字）の２個の異な
る文字（例えばＲ及びＨ）が入力される。これらが学習
のデータベースを形成する。その後、データベース中の
各文字は本発明の方法で処理され、コンピュータは各々
の場合にどの文字が認識されたかを示す出力を発生す
る。最初のうちは、認識された文字が入力された文字と
異なることがある。コンピュータは入力文字に関する情
報（設定されたデータベースに由来する）を既に持って
いるので、これを判断することができる。この方法は充
分な回数反復されて、１００％正確な認識出力（又は他
の所定の閾値）を発生する。最大反復回数は２０回であ
る。従って、６００個の入力（この例においては、各々
３つのバリエーションを有する２文字、及び１文字につ
き１００個のフォント）に対して、認識プロセスから得
られる出力は２個であり、各々の出力は２文字のうちど
ちらかである。各正答に応じて、ウエイトベクトルはＬ
ＶＱ２’法によって調節される。

【００８５】この方法の反復は、比Ｒ_iの値が０．５に
達すると停止される。Ｒ_iは、「Ｈ」の決定に与えられ
たウエイトに対する「Ｒ」の決定に与えられたウエイト
の比である。例えば、「Ｒ」の値が０．４７、「Ｈ」の
値が０．９１であれば、比Ｒ_iは０．４７／０．９１と
なり、およそ０．５２である。この場合、コンピュータ
は方法を反復する。Ｒ_iが０．５を下回ると、この方法
は停止される。他の場合には、方法は最大２０回の反復
の後に停止される。特に、「Ｈ」の値（ここでは０．９
１）が「Ｒ」の値（ここでは０．４７）よりも高い場合
は常に、コンピュータは「Ｈ」が適当な出力であると決
定する。その場合でも、コンピュータは比Ｒ_iが０．５
を下回るまで方法を反復する。

【００８６】例として、「犬」、「太」、「大」及び
「天」の４つの漢字を利用して、前述の方法が用いられ
る。これらの４文字は図１５では上から順に並べられ、
図１３（ａ）にも（左から順に）示されてる。

【００８７】「犬」、「太」、「大」及び「天」は、そ
れぞれ５つの異なるウエイトベクトルを有するので、全
部で２０個のウエイトベクトルがある。図１５を参照さ
れたい。しかしながら、もちろん、認識のための出力は
４つだけである（各文字に対して１つ）。

【００８８】入力イメージ領域は３２×３２のアレイを
備えていることが好ましい。従って、１，０２４の入
力、つまり３２×３２アレイの各マス目に対して１つの
入力がある。３２×３２アレイが６４×６４アレイから
減らされたので、各マス目は１から４の間の値である。
２０個の可能な出力がある。１つの実施態様において
は、２４０個の可能な入力文字がある。即ち、４文字に
対して各文字６０個のバリエーションである。

【００８９】出力値は２０個の各ウエイトベクトル（４
個の各文字に対して５個のウエイトベクトル）に対して
発生される。例えば、「犬」の出力値はそれぞれ、０．
４、０．５、０．６、０．９５及び０．５であり得る。
同様に、「太」の出力値はそれぞれ、０．７、０．８、
０．７、０．６及び０．７５であり得る。他の１０個の
ウエイトベクトル（他の２個の文字、各文字に対して５
個のウエイトベクトル）に対して同じウエイトとなるこ
とがある。「犬」の４番目のウエイトベクトルに対する
出力値０．９５は、他のウエイトベクトルのいずれに対
する出力値よりも大きいので、認識モードの間に本発明
の方法によって「犬」が選択され、正しい結果「犬」が
発生される。「犬」の出力値の中に「太」の出力値より
も小さいものがある場合でも「犬」が選択されることに
注意されたい。従って、より多くの初期選択を与えるこ
とによって、コンピュータは文字を認識する試みにおい
て正しい答えを選択するようである。この学習過程の結
果は図１６に示されている。

【００９０】プロセス３：寄与値の算出本発明の方法は、ウエイト間の相関関係によって寄与値
Ｃｍ（ｍ＝１〜Ｍ、Ｍはタイルの数）を算出する。寄与
値は、他の文字の同様の領域とは大きく異なる所定文字
の領域を反映する。認識のために、ある文字がニューラ
ルネットワークに入力されると、その文字は文字カテゴ
リに割り付けられる。さらに文字サブカテゴリがある。
各種代表的なサブカテゴリの他の漢字は図１３（ａ）乃
至図１３（ｋ）に見られる。図５も参照されたい。

【００９１】図１３（ａ）に示されるサブカテゴリは
「犬」、「太」、「大」及び「天」の４つの漢字を含ん
でいる。寄与値、受容野（プロセス４）及びシフト／不
変（プロセス５）に関する以下の説明は、サブカテゴリ
の全て（又は入力データパターンの他の全てのカテゴ
リ）に適用可能であるが、上記サブカテゴリについて詳
細に説明する。

【００９２】従って、本実施態様においては、システム
によって発生された寄与値は「犬」、「太」、「大」及
び「天」の文字が互いに最も異なる領域を強調する。こ
れらの文字の視覚的検分から、「犬」（図１３（ａ）の
一番左、及び図１５の一番上の文字）は右肩に点３０を
有し、「太」は下部中央に点３５を有している。「大」
にはそのような印はなく、「天」は頂部に横棒３７を有
している。

【００９３】従って、この検分と寄与値の説明によっ
て、これら４つの文字の相違が見られるのは文字の右
肩、下部中央及び一般に上部の領域なので、この文字カ
テゴリに対する最も高い寄与値はこれらの領域に関連す
ることが予測される。文字の残りの領域は非常に類似し
ている（２本の湾曲した下降線及び中央の横棒）。後に
説明されて明らかになるように、視覚的検分は本発明の
システムの実際の操作によって確証される。

【００９４】寄与値の算出は以下の式（３２）によって
行われる。図９に示されるように各タイルのサイズは８
×８なので以下のような数値の行列又はアレイが形成さ
れる。

【００９５】

【表１】

【００９６】寄与値Ｃｍの算出は以下のように行われ
る。

【００９７】Ｃｍ＝ Σ Σ ｜Ｗｊｉ−Ｗｋｉ｜（３２）ｍ＝１，Ｍ（ｊ≠ｋ）ｉ＝１，Ｒｊ＝１，Ｎｋ＝１，Ｎ（Ｍ＝７＊７＝４９タイル）。

【００９８】図２３は寄与値Ｃｍを算出する方法のフロ
ーチャートである。基本的には式（３２）が行われてボ
ックス１１にＣｍの値が与えられ、以下のプロセス４で
詳細に論じられるように受容野の決定（最大寄与タイル
に基づく）を開始する。

【００９９】図１０は本発明のコンピュータ処理によっ
て求められた寄与値のサンプルを示している。これらの
値は「犬」、「太」、「大」及び「天」の４文字の認識
のためにウエイトベクトルから算出されたものである。
ここで、Ｎ＝４；認識されるべきクラスの数Ｒ＝８＊８＝６４；各タイルのサイズＭ＝７＊７＝４９；可能なタイルの数上記のように、３２×３２画素の入力イメージ領域４０
は４×４画素のマス目５０に分割される。図９を参照さ
れたい（画素は個々には示されていない）。この方法で
は、最初４９個の寄与タイル（ｃｏｎｔｒｉｂｕｔｉｖ
ｅｔｉｌｅｓ）６０を規定する。各タイルはマス目５
０を４個含んでいる。従って、第１のタイル（図９のＣ
１）は入力イメージ領域４０の左上隅にある８×８画素
のタイルである。第２のタイル（Ｃ２）は１マス分だけ
右にずれており、次の４個のマス目、即ち入力イメージ
の最上列の隣接する２個及びそのすぐ下の２列目の２個
を含んでいる。第２タイルＣ２の左側の２個のマス目は
第１タイルの右側の２個のマス目と重なっている。従っ
て、入力イメージ領域には横に７個のタイル、縦に７列
のタイルがあり、全部で４９個の寄与タイルＣ１〜Ｃ４
９がある。（１６×１６データ領域に１２×１２個の受
容野領域があり、全部で２５個の寄与タイルなど他の多
くのバリエーションが使用されることができる。）前述
の式（３２）において、この方法は以下のように行われ
る。先ず、所定のタイル（例えばタイルＣ１）につい
て、文字の各対に関してそのタイル内の各画素に対する
ウエイトベクトル間の差を加算する。このようにして、
Ｗ₁−Ｗ₂が発生され、同様にＷ₁−Ｗ₃、Ｗ₁−Ｗ₄、及び
Ｗ₂−Ｗ₃が発生される。これはバリエーションの全てを
含んでいる。なぜなら、式（３２）の右側の式は絶対値
であるので、Ｗ₂−Ｗ₃はＷ₃−Ｗ₂と同じ結果となる。こ
の計算はタイル中の各６４画素に対して行われたことに
留意されたい（つまり、ｉ＝１〜６４）。

【０１００】従って、Ｗ_j−Ｗ_kの全ての差の和が出され
る。ここでｊ及びｋはそれぞれ１から４であり、ｊとｋ
とは等しくない。特に、Ｎ＝４は認識されるべきクラス
の数（ここでは文字の数）に相当する。

【０１０１】上記過程は４９個のタイルの各々に繰り返
され、各タイルに対して値Ｃ_m（ｍ＝１〜４９）が求め
られる。寄与値Ｃ₁は４文字間の第１タイルに示される
値の全範囲を反映している。一般に、１つの文字にあっ
て他の文字にない特徴があれば、その特徴を含む１個又
は複数のタイルは比較的大きい寄与値を発生する。前述
のように、このことは、図１５に示された文字「犬」の
右肩に打たれた点３０はその領域を含むタイルに対して
高い寄与値を導くことを意味する。文字「太」、「大」
及び「天」が右肩隅に点をもたないからである。このこ
とは図１０に反映されており、タイルＣ₅及びＣ₆に対し
て求められた値（Ｃ₅）及び（Ｃ₆）は、寄与値の行列中
に発生された他の値に対して非常に高い。確かに、丸括
弧内のランク番号によって示されるように（Ｃ値の右
側）、２つの最高寄与値が発生されている。

【０１０２】プロセス４：受容野を決定する（受容タイ
ルを設定する）全ての寄与値が発生されると、文字の所定のサブカテゴ
リにおける最大差を有する領域を表す受容野が発生され
る。これを行うために、図１０に示される４９個の寄与
値を有する行列が最高寄与値に対して検分される。その
後、本発明の方法は文字間の相違に全体として最も寄与
する寄与値のグループを選択する。

【０１０３】受容野は、所定のアレイに写像された入力
情報の部分集合又は部分アレイを構成し、各々は情報の
格納されたデータベースから以前に学習されたウエイト
と比較するために分離される。これらの部分アレイは所
定のパターンから発生される。以下に詳細に論じられる
ように、寄与値は、これらの部分集合のうちどれが以前
に学習されたウエイトを最も反映しているか、つまり、
最適であるかを決定するために用いられる。入力情報に
対して最適の又は最も適合したシフトに基づいて、その
後ウエイトはその情報に更新される。

【０１０４】図５に関して説明された最初のサブカテゴ
リへの割り付けは、受容野プロセスと共に使用されると
非常に効率がよい。なぜなら、入力文字に適合すると仮
定される文字の組合せは、ｎｅｔ３から得られるサブカ
テゴリへの割り付けプロセスのためにすでに非常に近く
なっているからである。

【０１０５】好ましい実施態様の選択プロセスは、各々
が４個の寄与値を有するそのような寄与値のグループを
４つ選択する。これによって、選択された１６個の寄与
値によって決定された４個の寄与タイルの選択がなされ
る。

【０１０６】最大寄与タイルのグループは以下のように
選択される。４個の寄与値Ｃｍの全ての組合せが加算さ
れる。その後、４個の値の和は全て比較され、最高の和
が選ばれる。好ましい実施態様では、さらに、重ならな
いようにタイルが選択されることが要求される。この状
態で、その後、最高の和が選ばれて４個の最高の寄与タ
イルが決定される。

【０１０７】実際には、これは以下の様に行われる。寄
与値（Ｃ₁）、（Ｃ₂）、（Ｃ₃）及び（Ｃ₄）の和が発生
される。その後（Ｃ₁）、（Ｃ₂）、（Ｃ₃）及び（Ｃ₅）
が加えられる。これは、最終的に（Ｃ₄₆）、（Ｃ₄₇）、
（Ｃ₄₈）及び（Ｃ₄₉）の和が発生されるまで続けられ
る。これによって４９Ｃ４＝２１１，８７６個の和が発
生され、これらうちの最高の和が選択される。値が重な
る場合、和を最大にするタイルが選択されなければなら
ないので、重なりは認められない。

【０１０８】図２３のステップ１４は受容野を決定する
方法を示しており、下記の式（３３）と同一である。ス
テップ１４では、最大寄与のＫ個のタイルが見つけられ
る。最大の和の値Ｃｔ（ｋ）（ｋ＝１、Ｋ）が式（３
３）及びステップ１４に示される全ての可能なＭ個のタ
イルから決定される。ここでｔ（ｋ）（ｋ＝１、Ｋ）は
寄与値の異なるグループを表す。本発明において、Ｋは
４に設定され、一般的には入力データを適切に弁別する
数に設定される。

【０１０９】最も寄与するＫ個の重ならないタイルは、
Ｋ個のタイルの全ての組合せ（Ｍ個よりＫ個の組合せ、
例えば、５Ｃ２＝１０個の組合せ）の和のうちどの組合
せが最も大きい（最大の）寄与値の和を有するかによっ
て、以下のように選択される。

【０１１０】｛ｔ（ｋ）｝，ｋ＝１，Ｋここで、ｍａｘｉｍｕｍ｛ＳＵＭＣｔ（ｋ）｝（３３）ｋ＝１，Ｋ。

【０１１１】シフト／不変の受容野を用いるニューラル
ネットワークの好ましい実施態様は図２９に示されてい
る。図１４は４個の受容野（タイル）を用いて得られる
文字の４つの集合のいくつかの例を示している。図１４
（ａ）は図１３（ａ）に相当し、図１４（ｃ）は図１３
（ｅ）に相当する。

【０１１２】各タイルは８×８画素なので、各タイルは
８×８＝６４のウエイトを有している。従って、図２９
のようにタイルｋに対するｗ１は１本の線で示される
が、この１本の線は実際にはＯ１から４つの受容野タイ
ルへの６４個のウエイトを示している。この方法で行わ
れる何百万もの計算は、オレゴン州ビーバートンのＡｄ
ａｐｔｉｖｅＳｏｌｕｔｉｏｎｓＩｎｃ．（ＡＳ
Ｉ）から入手可能な「Ｎ６４００」ニューラルネットワ
ークチップによって効率よく達成される。このＡＳＩチ
ップはプログラマブルであり、本発明によるニューラル
ネットワークの計算を迅速に行うことができる。しかし
ながら、他の電子的な実行も可能である。

【０１１３】図１０に示される寄与値に前述の方法を用
いて、高い寄与値として最初に選択されるのはタイルＣ
₆である。なぜなら、このタイルは最高の寄与値を含ん
でいるからである。しかしながら、この例から明らかな
ように、４つの選択されたタイルの総和は寄与タイルＣ
₅及びＣ₇を選択することによって最大となる。これによ
って、（他の２つの選択と組み合わせて）寄与値の和に
対する最大値が導き出される。従って、タイルＣ₆はタ
イルＣ₅及びＣ₇に先行される。

【０１１４】前述のように、図１２に示されるように、
タイルＣ₃、Ｃ₅、Ｃ₇及びＣ₄₆が選択された。これらの
タイルは「犬」、「太」、「大」及び「天」が非常に類
似していない４つの領域を示している。従って、本発明
の方法では、これらの文字が互いに最も異なっている入
力文字の領域に関するタイルを選択することを図１２は
示している。つまり、予測されたように、「犬」、
「太」、「大」及び「天」の文字集合に対して最高の寄
与タイル値を有するのは、上部、右上部及び下中央部の
領域である。

【０１１５】寄与値が算出された後、選択された重なら
ないタイルは図９に示される入力イメージ領域に重ね合
わせられる。各寄与タイルが８×８個の画素なので、４
個の寄与タイルによって合計２５６個（６４×４）の画
素が覆われる。

【０１１６】上記の方法から、ダッシュ及び星印の８×
８アレイである図１２は図９に相当し、図１２の各ダッ
シュ又は星印は図９の６４個のマス目の１つに相当する
ことが判るであろう。つまり、図９の６４個のマス目は
それぞれ３２×３２アレイの４×４個の領域に相当し、
ダッシュ又は星印の各々は６４個のマス目の１つを表
す。星印は前述のように選択されたタイルの部分、この
例においてはタイルＣ３、Ｃ５、Ｃ７及びＣ４６を形成
するマス目を表し、ダッシュは選択されないタイルを表
している。

【０１１７】各種文字グループのそのような重ね合わせ
の概略表示は、図１３の（ａ）〜（ｋ）に示されてい
る。これらの図の各々において、選択されたタイル（星
印で示される）は入力された文字（各図の上部に示され
る）が視覚検分によって互いに大きく異なる領域に一致
する。例えば、図１３（ｃ）の２つの文字（「叉」及び
「又」）は、上部中央の少し左寄りの特徴を除いては相
互に一致しており、選択された寄与タイルはこれを反映
している。同様に、図１３（ｆ）の入力された２文字
（「火」及び「人」）は左右の部分の特徴を除いては類
似しており、選択された寄与タイルはこのことを反映し
ている。

【０１１８】図１３の（ａ）〜（ｋ）の各々は、図５に
示された多層ネットワークによって既に割り付けられた
文字のサブカテゴリの１つを表している。従って、本発
明のニューラルネットワークは、入力が既にサブカテゴ
リに割り付けられた文字である単層ネットワークである
ことが好ましい。

【０１１９】図１３（ａ）〜（ｋ）を見ると、各場合に
本発明の方法によって選択された寄与タイルは、各グル
ープにおいて互いに最も異なる漢字の領域を強調してい
る。この方法を実施するコンピュータにこれらの領域の
みを検分させることによって、正確さを維持したまま、
文字認識のための処理時間が非常に短縮される。これら
の寄与タイルは本発明の「受容野」を形成する。従来の
ニューラルネットワークは入力領域全体を用いて漢字又
は文字を弁別する。

【０１２０】概して、選択された受容野のサイズを認識
に必要な特徴サイズと等しく又は少し大きくすることが
好ましい。幾分大きい場合は、シフトされたデータが本
発明によって容易に検出され得る。

【０１２１】図１７の選び出された領域が図１６の類似
した領域とは異なる理由は、図１６のように、正規化が
入力文字全体よりもむしろ４つの受容野に行われるから
である。従って、それらは正規化係数の分だけ異なって
いる。

【０１２２】これらのテスト結果は各文字について５つ
のノードに関連している。つまり、図１５に示される様
に、各文字には５つの例があった。テストは３６の漢字
について行われ、これらの漢字は１１個のサブカテゴリ
を有しており、各サブカテゴリは２個から４個の漢字で
構成される。図１３はこれら３６個の漢字のうち２４個
及びそのサブカテゴリの内容を示している。

【０１２３】特定の閾値は「黒」及び「白」の間の分割
線を決定する。実際のデータは１バイトの階調、つまり
８ビット、言い換えれば２５６個の階調値で読み取られ
る。黒／白の閾値が、実験結果に対して、２５６階調に
ついて１００個の読み取り、１４０個の読み取り及び１
８０個の読み取りにそれぞれ設定された。本発明のシス
テムは０から２５５の間のいかなる値にも設定され得る
スライド式階調を用いる。

【０１２４】図１９は、入力データ、即ち図１８に示さ
れる文字の右上隅に位置する受容野における各種入力デ
ータを示している。図１９のデータは平仮名から導き出
されたものであり、本発明のシステムによって学習され
るべき入力イメージである。特に、図１９の最下段には
５つのイメージがあり、それぞれ異なる位置に小さな円
（半濁点）がある。例えば、最下段の中央のイメージの
円は下の方にある。同様に、中央の段のイメージに見ら
れる対の線（濁点）もまた、それぞれの位置にある。従
って、これらの入力イメージは以下に論じられる、プロ
セス５のシフト／不変過程のためのよい候補である。

【０１２５】図１８は６つの平仮名を示している。全部
で１６９個の平仮名及びカタカナがある。平仮名におい
ては、図１８に示されるように、平仮名は右上隅に濁点
又は半濁点を持っているか何も持たないかのどちらかな
ので、与えられた文字のサブカテゴリについては単一の
受容野を用いれば充分である。従って、右上隅における
受容野はこれらの文字を弁別するには充分である。こう
いう理由で、図１９の入力イメージが使用され得る。

【０１２６】もちろん、文字は既に適当なカテゴリに割
り付けられていると仮定されている。本実施例では、全
領域は３２×３２画素であるが、受容野は１６×１６画
素である。従って１つの受容野タイルは１２×１２画素
であり得、１６×１６画素の入力領域内で上記の方法に
よってシフトされる。前述のシフトは一度に１画素に行
われたのに対して、このシフトは一度に２画素に行われ
得る。他の所定数の画素もシフトプロセスに対して使用
されることができ、或る１次元のシフト量は他の次元で
のシフト量と同じである必要はない。

【０１２７】１６９個の平仮名及び片仮名は、本発明が
用いられほとんどが漢字である約４，０００文字の１つ
のサブカテゴリを構成し得る。平仮名のクラス分類に
は、１文字から３文字程度で構成される複数のサブカテ
ゴリがある。これらの文字のサブカテゴリのほとんどに
対しては、右上隅の受容野を用いて濁点又は半濁点があ
る、又は何もないかを判断すれば充分である。従って、
これらの各サブカテゴリのには最大３個の出力がある。
他のサブカテゴリには異なる出力の数又は位置が必要と
される。

【０１２８】プロセス５：シフト／不変を適用する受容野が発生されると、前述のＬＶＱ２’法にシフト／
不変改良が用いられることができる。或いは、ＬＶＱ
２’プロセスはシフト／不変なしで使用されることも可
能であるが、本発明のシフトされない受容野に適用され
ることができる。さらに他の方法では、以下のシフト／
不変法が、複数の受容野を用いずにパターン認識に適用
される（ここではパターンの全領域が１つの受容野と見
なされ得る）。これらの実施態様のいずれにおいても、
本発明は非常に正確な文字認識を提供する。

【０１２９】シフト／不変法については、先ず定性的に
論じられ、次に更に詳細な数学的処理が与えられる。こ
のためのネットワークの構造は図２１に示されており、
その適用の一例は図２２に示されている。先ず、部分入
力データＩ１がネットワークに送られ、出力値が算出さ
れる。次に、部分入力データＩ２がネットワークに送ら
れ、出力値が算出される。この場合、Ｉ２の出力ノード
と入力ノードとの間のウエイトはＩ１のウエイトに等し
い。出力ノードと部分入力ノードとの間のウエイト集合
の全てが等しい。

【０１３０】出力ノードとＩ２部分入力ノードとの間の
ウエイトが更新されると、部分入力データＩ２はウエイ
トを変更するために使用される。つまり、図２２におい
ては、ハッチングの施されたノード８０に導かれるウエ
イトベクトル７０（点線で囲まれている）、及び黒塗の
ノード１００に導く同種のウエイトベクトルが更新され
る。他のノードに導かれる他のそのようなウエイト９０
が示されている。

【０１３１】図２２のノード１００は正しいクラスのノ
ードに対して発生された最大値を表し、ノード８０は間
違ったクラスのノードに対して発生された最大値を表し
ている。以下に図２４〜図２８及び図３２を参照して説
明されるように、ウエイトはノード８０及び１００の結
果に基づいて更新される。

【０１３２】日本語には非常に類似した文字がある。例
えば、図１８には６個の日本語の文字が示されている。
上段又は下段の３個の文字は２つの点または１つの小さ
な円を除いては、ほぼ同じ形を有している。

【０１３３】これらの２つの点（濁点）又は小さな円
（半濁点）は、日本語においては右上の４分の１の領域
に常に現れる。図１９はこれらの文字の全領域のほぼ４
分の１を示している。下段の文字は小さい円、中央段の
文字は２つの点を有しており、上段の文字は小さい円も
点も持っていない。これら３つのカテゴリが弁別されれ
ば、それらの文字の認識は非常に正確になされることが
できる。従って、これらの特徴に対するウエイトをシス
テムが学習することが重要である。以下に詳細に論じら
れるように、本発明によるネットワークの実際の実施で
は図２０に示された２つの点及び小さな円を抽出した。

【０１３４】図３２では、文字の入力位置の可能なシフ
トを補償するために、受容野７０の各々が、より大きい
入力領域８０内でその中央の回りにシフトされている。
従って、図３２のイメージＩ５は、本例において入力さ
れたままの受容野の位置を示している。イメージの影の
部分は受容野のウエイトを示しており、黒い実線のイメ
ージは不変の受容野の周囲の入力領域を示している。図
３０には、イメージＩ１及びＩ２が拡大されて示されて
いる。

【０１３５】図３１は受容野のシフトについての他の構
成が示されており、ここで、入力領域は１２×１２の行
列で、受容野は１０×１０の行列で構成され、２つの次
元（縦方向及び横方向）の各々に対して２つの方向（負
及び正）の各々に一度に１画素だけシフトさせる。つま
り、受容野は、横方向に２画素分左へ（負の方向へ）、
縦方向に２画素分上へ（正の方向へ）シフトされてイメ
ージＩ１を発生する。イメージＩ２は受容野を左に１画
素及び上に２画素シフトさせることによって発生され
る。他のイメージは同様にして発生され、イメージＩ２
５は受容野を横方向には正の向きに（つまり右に）２画
素、縦方向には負の向きに（つまり下に）２画素シフト
させることによって発生される。以上から明らかなよう
に、図３１においてイメージＩ１３（図示されない）は
シフトされないイメージである。

【０１３６】再び図３２では、イメージＩ１〜Ｉ９は受
容野のシフトされた異なる位置の影のイメージ及び実線
のイメージの相対位置を示している。図２２に示された
一般化された構成を参照することも有用である。

【０１３７】本実施例における受容野は８×８画素アレ
イであり、各入力イメージ領域Ｉ１〜Ｉ９は１０ｘ１０
画素領域である。（図３１に示されるように、１６ｘ１
６の入力イメージ領域内で１２×１２受容野など他のサ
イズも使用され得ることはもちろんである。）従って、
イメージＩ５が入力領域の受容野のセンタリングを示
し、Ｉ４はＩ５に対して受容野を１画素左にシフトさせ
たイメージを示している。同様にイメージＩ２は受容野
を１画素上にシフトしたものであり、イメージＩ１は左
に１画素及び上に１画素シフトしたものである。図１０
に示される他の入力領域Ｉもまた、図示されるように横
方向又は縦方向に、右又は左にゼロ又は１画素だけシフ
トさせたものである。前に代替例として述べたような他
のサイズの構成では、縦又は横方向のそれぞれに、或い
は軸を回転する又はシフトされた受容野において１つ、
２つ又はそれ以上の可能なシフト位置があり得る。

【０１３８】受容野は、各受容野が入力ベクトルにでき
るだけ厳密に対応するように選択される意味においてシ
フト／不変能力を有している。入力ベクトルはその受容
野周辺の可能な多くの位置のいずれかに現れ得る。図３
２の例において、本発明の方法は、Ｉ６のように右にシ
フトされた結果を生じる。Ｉ６では入力データと学習デ
ータがぴったりと一致している。

【０１３９】学習プロセスは入力データのウエイトベク
トルを変化させて、入力文字と同じクラスに属する最大
値の受容野ウエイトベクトルを、各受容タイル（野）周
辺の最適位置で入力ベクトルに近づける。加えて、学習
プロセスは、入力文字の正しいクラス以外のクラスに属
する最大値の受容野ウエイトベクトルを、各受容タイル
（野）周辺の最適位置で入力ベクトルから遠ざける。

【０１４０】図３３に関連する以下の説明は、図３２に
関する上記具体的説明をさらに一般化したものである。
このシフト−許容（ｔｏｌｅｒａｎｃｅ）学習ベクトル
量子化（以下ＳＴＬＶＱと称す）はコホーネンによって
提案された学習ベクトル量子化２（ＬＶＱ２）と幾分似
通っているが、重要な変化がある。

【０１４１】図３３は２層のＳＴＬＶＱ構造を示してい
る。第１層において、入力データとウエイトベクトルの
内積が算出される。第２層においては、各クラスの最大
出力値が選択される。ネットワークへの入力はＭ×Ｍの
イメージであり、出力はＮ個のクラスに対応するＮ個の
ノードからなる。第１層は以下の構造を有する。

【０１４２】各ノードはＫ×Ｋサイズのローカル受容野
を有する（Ｍ＞Ｋ）。（図３２の実施態様において、Ｍ
＝１０及びＫ＝８である。）受容野のサイズは認識に必
要な特徴のサイズよりも少し大きいかそれに等しい。

【０１４３】入力データのサイズは可能にシフトされた
特徴を充分含む大きさである。各ノードはＭ×Ｍ入力イ
メージから抽出されたＫ×Ｋ部分領域を覆っている。部
分領域は互いに重なっているので、部分領域の総数Ｓは
（Ｍ−Ｋ＋１）×（Ｍ−Ｋ＋１）である。（図３２の実
施態様ではＳ＝９である。）各部分領域にはＮ×Ｌ個の
ノード及びＮ×Ｌ個のウエイトベクトルがある。Ｎはク
ラスの数であり、Ｌは１クラスのノードの数である。
（上記実施態様では、図１５に示されるようにＮ＝４
（４つの異なる文字）であり、Ｌ＝５（各文字毎に５つ
の異なるフォント又は表示）である）。

【０１４４】シフト／不変適合を達成するために、ウエ
イト分配（ｗｅｉｇｈｔ−ｓｈａｒｉｎｇ）法が図３２
の構造に適用される。１つの部分領域に対するＮ×Ｌ個
のウエイトベクトルの集合は、他の全ての部分領域に対
するウエイトベクトルの集合と等しくされる。合計Ｎ×
Ｌ×Ｓ個のノード及びＮ×Ｌ個の分配されたウエイトベ
クトルが第１層には存在する。出力値を得るために、ウ
エイトベクトルと部分領域データの内積が算出される。
このようにして、下記の式（１０１）によって、Ｎ×Ｌ
×Ｓ個（図３２では１８０個）の出力値が、各入力デー
タに対して算出される。同じクラスに属する全てのノー
ドは第２層の１つのノードに結合される。

【０１４５】Ｏ_1nls＝Ｗ_nl・Ｘ_s；ｎ＝１，…，Ｎ，ｌ＝１，…，Ｌ，ｓ＝１，…，Ｓ（１０１）ここで、Ｏ_1nlsは第１層のノードの出力値、Ｗ_nlはｎ番
目のクラスのｌ番目のウエイトベクトル、Ｘ_sはｓ番目
の部分領域データである。

【０１４６】第２層はＮ個のクラスに対応するＮ個のノ
ードを有する。第２層のノードは以下の式（１０２）に
よってＬ×Ｓ値の最大値を選択する。

【０１４７】Ｏ_2n＝ｍａｘ_{{l=1,L;s=1,S}}（Ｏ_1nls）Ｏ_2nは第２層のｎ番目のクラスの出力である。

【０１４８】認識モードにおいて、第２層の最大出力値
を有するノードが見つけられ、そのノードの属するカテ
ゴリが認識結果となる。ウエイトベクトルは全ての部分
領域データに適合するので、正しいノードの出力値は入
力データがシフトされても高い値のままである。

【０１４９】学習モードにおいて、ＳＴＬＶＱ学習は以
下のように行われる。最も近い（最大出力値）クラスＷ
が間違いで、次に近いクラスＣが正しい場合、以下の過
程が行われる。

【０１５０】

【数４】

【０１５１】この学習装置及び方法において、Ｎ×Ｌ個
のウエイトベクトルから１個のウエイトベクトルが選ば
れ、（Ｍ−Ｋ＋１）×（Ｍ−Ｋ＋１）個の部分領域から
１個の部分領域が選ばれる。この過程によって入力デー
タの適当な位置を選択するので、ＳＴＬＶＱは入力特徴
がどこにシフトされても認識のための適当なウエイトベ
クトルを学習することができる。

【０１５２】以下の方法の概要は図２４〜図２８のフロ
ーチャートに対応しており、前述のプロセスの実施を詳
細に述べるのもである。

【０１５３】Ｘｍ＝Ｎｏｒｍ（Ｘｍ）（ｍ＝１，Ｍ）；正規化（１４）ｔ＝１，Ｔに対して；ｔは学習反復の回数｛［段階＃１］｛ｍ＝１，Ｍに対して；ｍは入力ベクトルの数｛Ｘ＝Ｘｍ；入力ベクトルＸはクラスｎに属すると仮定される入力ベクトルｍのＸｍを表す（１５）ｊ＝１，Ｊに対して；ｊはウエイトベクトルの数｛ｋ＝１，Ｋに対して；ｋは寄与タイルの数｛ｉ＝１，Ｉに対して；入力ベクトルＸのタイルｔ（ｋ）のシフトされた異なる位置ｉを発生する｛Ｏｉｊ（ｔ(ｋ)）＝Ｏ（ｘｉ(ｔ(ｋ))，ｗｊ(ｔ(ｋ))）（２３）｝Ｏｍａｘｊ（ｔ(ｋ)）＝ｍａｘ｛Ｏｉｊ（ｔ(ｋ)）｝：最適位置を見いｉ出す（２４）｝｝ＯｍａｘＣ＝ｍａｘ｛ＳＵＭＯｍａｘｊ（ｔ(Ｋ)）｝（２５）ｋ＝１，Ｋｊはクラスｎ内ＯｍａｘＷ＝ｍａｘ｛ＳＵＭＯｍａｘｊ（ｔ(ｋ)）｝（２６）ｋ＝１，Ｋｊはクラスｎ以外ＯｍａｘＣが全体で２番目に大きい出力又はｎ番目（ｎ＞２）の出力であり、ＯｍａｘＷが全体で一番大きい出力である場合、｛ｋ＝１，Ｋに対して｛Ｗ(ＯｍａｘＷ)(ｔ(ｋ))＝ｗ(ＯｍａｘＷ)(ｔ(ｋ))−Ａ(ｔ)＊ (Ｘ(ＯｍａｘＷ)(ｔ(ｋ))−ｗ(ＯｍａｘＷ)(ｔ(ｋ))) （２７）Ｗ(ＯｍａｘＣ)(ｔ(ｋ))＝ｗ(ＯｍａｘＣ)(ｔ(ｋ))＋Ａ(ｔ)＊ (Ｘ(ＯｍａｘＣ)(ｔ(ｋ))−ｗ(ＯｍａｘＣ)(ｔ(ｋ))) （２８）｝ｋ＝１，Ｋに対してｗ(ＯｍａｘＷ)(ｔ(ｋ))＝ＲＮｏｒｍ(ｗ(ＯｍａｘＷ)(ｔ(ｋ))) （２９）ｗ(ＯｍａｘＣ)(ｔ(ｋ))＝ＲＮｏｒｍ(ｗ(ＯｍａｘＣ)(ｔ(ｋ))) （３０）｝｝｝｝全ての入力ベクトルが段階＃１で完全に学習されると段階＃２へ進む。そうでなければ、段階＃１を再び行う。

【０１５４】［段階＃２］｛ｍ＝１，Ｍに対して；ｍは入力ベクトルの数｛Ｘ＝Ｘｍ；入力ベクトルＸはクラスｎに属すると仮定される入力ベクトルｍのＸｍを表す（１５）ｊ＝１，Ｊに対して；ｊはウエイトベクトルの数｛ｋ＝１，Ｋに対して；ｋは寄与タイルの数｛ｉ＝１，Ｉに対して；入力ベクトルＸのタイルｔ（ｋ）のシフトされた異なる位置ｉを発生する｛Ｏｉｊ（ｔ(ｋ)）＝Ｏ（ｘｉ(ｔ(ｋ))，ｗｊ(ｔ(ｋ))）（２３）｝Ｏｍａｘｊ（ｔ(ｋ)）＝ｍａｘ｛Ｏｉｊ（ｔ(ｋ)）｝：最適位置を見い出ｉす（２４）｝｝ＯｍａｘＣ＝ｍａｘ｛ＳＵＭＯｍａｘｊ（ｔ(Ｋ)）｝（２５）ｋ＝１，Ｋｊはクラスｎ内ＯｍａｘＷ＝ｍａｘ｛ＳＵＭＯｍａｘｊ（ｔ(ｋ)）｝（２６）ｋ＝１，Ｋｊはクラスｎ以外ＯｍａｘＷ対ＯｍａｘＣの比＞ＲＡＴＩＯの場合、｛ｋ＝１，Ｋに対して｛Ｗ(ＯｍａｘＣ)(ｔ(ｋ))＝ｗ(ＯｍａｘＣ)(ｔ(ｋ))＋Ａ(ｔ)＊ (Ｘ(ＯｍａｘＣ)(ｔ(ｋ))−ｗ(ＯｍａｘＣ)(ｔ(ｋ))) （２８）Ｗ(ＯｍａｘＷ)(ｔ(ｋ))＝ｗ(ＯｍａｘＷ)(ｔ(ｋ))−Ａ(ｔ)＊ (Ｘ(ＯｍａｘＷ)(ｔ(ｋ))）（２７）｝ｋ＝１，Ｋに対してｗ(ＯｍａｘＷ)(ｔ(ｋ))＝ＲＮｏｒｍ(ｗ(ＯｍａｘＷ)(ｔ(ｋ))) （３０）ｗ(ＯｍａｘＣ)(ｔ(ｋ))＝ＲＮｏｒｍ(ｗ(ＯｍａｘＣ)(ｔ(ｋ))) （２９）｝｝｝｝ウエイトベクトルＷを全く変更せずに全ての入力ベクトルが段階＃２を通過すれば、停止。そうでなければ段階＃１を再び行う。｝変数は以下のように定義される。

【０１５５】ｔ（ｋ）：ｋ番目に大きい寄与タイルであ
るタイルの番号。ｘｉ（ｔ（ｋ））：タイルｔ（ｋ）のウエイトベクトル
のシフト位置ｉに置かれるタイルｔ（ｋ）の周辺の入力
ベクトル。ｗｊ（ｔ（ｋ））：ウエイトベクトルｊのタイルｔ
（ｋ）のウエイトベクトル。Ｘ（ＯｍａｘＣ）（ｔ（ｋ））：入力ベクトルＸと同じ
クラスに属する最大出力ＯｍａｘＣを求めるためのタイ
ルｔ（ｋ）周辺の最適位置にある入力ベクトル。Ｗ（ＯｍａｘＷ）（ｔ（ｋ））：入力ベクトルＸと同じ
クラス以外の他のクラス（誤りのクラス）に属する最大
出力ＯｍａｘＷを求めるためのタイルｔ（ｋ）のウエイ
トベクトル。ｘ（ｔ（ｋ））＝ＲＮｏｒｍ（ｘ（ｔ（ｋ））：

【０１５６】

【数５】

【０１５７】ＲＡＴＩＯ：定数；例えばＲＡＴＩＯ＝
０．５。

【０１５８】上で説明されたシフト／不変ＬＶＱ２’法
を図３２に照らして説明する。先ず、ベクトルＸｍは、
前述されたように正規化される（前記式（０）を参
照）。Ｔは学習反復の所望の回数に設定され、例えば２
０に設定され得る。Ｍは入力ベクトルの数に設定され、
前述の実施例では４９である。Ｊはクラスｎに属するウ
エイトベクトルの数に設定され、Ｎは認識されるべきパ
ターンのクラスの総数である。１個以上のウエイトベク
トルがＮ個のクラスの各々に対して算出される。例え
ば、図１５に示されるＮ＝４のクラスの各々に対して５
個のウエイトベクトルが発生される。

【０１５９】図２５のステップ４において（上記式（１
５））、入力ベクトルＸｍはクラスｎに属すると最初に
仮定され、ＸはＸｍに設定される。

【０１６０】式（１５）及び（２３）乃至（３０）は段
階＃１及び段階＃２のいずれにおいても使用されること
に注意されたい。しかしながら、これらの段階は異なる
目的を有している。段階１はウエイト更新を、文字また
はパターンの認識が完全に行われるように、又は変数ｔ
がＬＯＯＰＭＡＸの値に達するまで（実施例中では２
０）行う。この段階１は、上記図７の段階＃１にｔ
（ｋ）が挿入されものと幾らかの類似性を持つ。ｋは１
からＫである。Ｋは考慮される寄与タイルの数であり、
実施態様では４である。式（２３）乃至（３０）はこの
ステップで新出の式であり図７及び図８の過程では使用
されていない。

【０１６１】上記式（２３）（図２５のステップ９）に
おいて、第１例では、Ｏ_ijは図３２のイメージＩ１を指
す。つまり、Ｏ_1jは図３２のイメージＩ１に関連し、Ｏ
_2jは図３２のイメージＩ２というようになる。「ｘｉ
（ｔ（ｋ））」はタイル番号「ｋ」を指す。従って、ｔ
（ｋ）は寄与タイルとして選択された４個のタイルのう
ちの１個である。ｘｉ（ｔ（ｋ））は所定のタイルｔ
（ｋ）の図３２に示された特定のシフト（１〜９）を表
す。内積が式（２３）で求められ（図２５のステップ
９）、それによって各タイルｔ（ｋ）に対するアレイＯ
_ijが発生される。

【０１６２】式（２４）において（図２５のステップ１
２）、最適位置ｉ（ｉは１〜９）を見つけるために最大
のＯ_ij（Ｏｍａｘｊ）が決定される。例えば、図１０に
おいて、特定のタイルに対してｉ＝６が最適位置であ
る。従って、シフトされたタイルの最適値が決定され
る。Ｏｍａｘｊはこの最適値に等しく設定される、つま
り最大の値Ｏ_ijは式（２３）によって求められる（ステ
ップ９）。

【０１６３】式（２５）において（ステップ１７の第２
式）、式（２４）によって求められた最適値は４個の受
容野タイルのあらゆる組合せで加算される。つまり、４
個のタイル各々に対する最適のＯｍａｘの値が加算され
る。式（２５）によって、入力文字として正しいカテゴ
リにあるウエイトに対する最高値（ＯｍａｘＣ）が、そ
のカテゴリに対する学習されたウエイトに近づけられ
る。同様にして、式（２６）によって、間違ったカテゴ
リ（入力文字以外のカテゴリ）のウエイトに対する最高
値はそのカテゴリに対する学習ウエイトから遠ざけられ
る。

【０１６４】例えば、図２９では、１０×１０の各位置
づけ領域（ｐｏｓｉｔｉｏｎｉｎｇａｒｅａ）は全領域
３２×３２アレイのほぼ１／１０である（３２ｘ３２＝
１０２４であるから）。従って、式（２４）のＯｍａｘ
ｊが、例えば、およそ０．８〜０．９８である場合には
式（２５）のＯｍａｘＣ（ステップ１７）は４個の最適
な数の和であり、従って、約０．８５になる（例えば、
０．８５＝０．２＋０．２１＋０．２４＋０．２）。正
規化ＲＮｏｒｍ（式（３１）参照）は４個の受容野ウエ
イトベクトルに対して行われる。

【０１６５】記号Ｃは正しいカテゴリにおいて識別され
た文字に対する最適値を示す。このようにして学習モー
ドで、コンピュータはどれが正しいカテゴリであるかを
理解する。記号Ｗは正しくない（間違った）カテゴリの
最適値を示す。これによっても、コンピュータはカテゴ
リは正しいか正しくないかを理解する。このようにし
て、式（２５）及び（２６）を用いて、この方法は正し
いクラス（つまり正しい認識）に対する最高値ベクトル
及び正しくないクラスに対する最高値ベクトルを戻す
（ｒｅｔｕｒｎ）。

【０１６６】従って、「犬」に対して０．９、０．８
５、及び０．８の値が求められる。「犬」が正しい文字
であればＯｍａｘＣは０．９に設定される。同様に、
「太」に対しても０．４５、０．４、及び０．３５の値
が求められる。この場合ＯｍａｘＷの値は０．４５、つ
まり間違った文字に対する最高のＯｍａｘ値に設定され
る。

【０１６７】上記過程を実行するために、図３のＣＰＵ
１２０及び処理ノード１９０〜２２０は全ての必要なデ
ータ及び変数を互いに伝送する、この過程を実行するた
めのプログラム命令はメモリ１３０に記憶されている。
メモリはこのためのＲＡＭ及びＲＯＭを備えている。

【０１６８】このように、上述のように処理した後、３
２×３２のイメージは処理ノード１９０〜２２０に伝送
され、これらのノードは上記公式及び方法によって計算
を行ってＯｉｊに対する値を戻す。このようにして、全
プログラム制御はＣＰＵにおいて行われ、ノード特有の
処理はローカル処理ノードによって行われる。

【０１６９】処理ノード１９０〜２２０の出力はＭ×Ｎ
の大きさの行列２７０を備えている（Ｍ個の入力ベクト
ルｘＮ個の部分入力データ）。この行列の値のうち１つ
は値２８０つまりＯｍａｘＣであり、他の１つは値２９
０つまりＯｍａｘＷである。これらの値は上記のように
ウエイトベクトルの更新に用いられる。

【０１７０】ＯｍａｘＣがＯｍａｘＷよりも小さいこ
と、言い換えれば、間違った文字が正しい文字よりも大
きいＯｍａｘの値を実際に発生する可能性がある。これ
が起こると、式（２７）及び（２８）の過程（図２６の
ステップ２０）が続いて行われる。式（２７）は、Ｗ
（ＯｍａｘＷ）をＸ（ＯｍａｘＷ）（ｔ（ｋ））から遠
ざけてＯｍａｘＷを小さくする。式（２８）はＷ（Ｏｍ
ａｘＣ）をＸ（ＯｍａｘＣ）（ｔ（ｋ））に近づけてＯ
ｍａｘＣを大きくする。従って、Ｗ（ＯｍａｘＷ）及び
Ｗ（ＯｍａｘＣ）のこれらのわずかな更新は正しくない
結果、言い換えればＯｍａｘＣの値よりも大きいＯｍａ
ｘＷの発生を補償する。

【０１７１】以上から明らかなように、本発明のニュー
ラルネットワークを用いる認識モードにおいて、出力値
全部のうち最大の出力値を有するノードのクラスは認識
結果として選択される。従って。このネットワークによ
って文字が処理されると、その文字は、ウエイトが出力
値に最も近い文字として識別される。学習過程に対する
認識モードにおいても同じことがいえる。学習過程もま
たこの認識過程を用いて、学習ウエイトに基づいて、所
定の入力文字が適当に識別されているかどうかをテスト
する。

【０１７２】本発明の受容野の特徴はシフト／不変特徴
を用いずに使用されることができる。しかしながら、Ｏ
ｍａｘＣ及びＯｍａｘＷの使用は本発明の効率及び正確
さに充分貢献するので、それらを使用することが好まし
い。

【０１７３】逆に、図２４〜図２６においてＫ＝１であ
る場合には、複数の受容野を用いずに、結果として全体
の領域を１つの受容野として用いてシフト／不変過程を
使用することになる。これは、一部のみでなく全体の入
力パターンがシフトされる有用な変化例である。受容野
はこの実施例では入力アレイサイズ全体に等しい（或い
は厳密にではなく、ほぼ等しいこともある）。

【０１７４】これら２つの実施例は連続するもの（ｃｏ
ｎｔｉｎｕｍ）のうちの両極端である。即ち、（１）１
個から多くの受容野を用いること、及び（２）シフト／
不変過程において１個から多くのシフトされた位置の入
力領域を用いること、である。

【０１７５】ウエイト更新は最終的には式（２９）及び
（３０）によって実行される（図２６のステップ２
１）。これでシフト／不変過程の段階＃１は終了する。

【０１７６】本発明の方法は再び認識過程を通り、更新
されたウエイトを用いて、正しい出力が出されたかどう
かを再び判断する（ステップ２６、図２６）。出力が正
しければ、段階＃２に入り、そうでなければ段階＃１が
繰り返される。段階＃２は全てのｉに対して０．５より
も小さいＲ_iを発生する方法であって、ＬＶＱ２’法で
前に説明された段階＃２と類似している（上記プロセス
２の説明参照）。

【０１７７】段階＃２において、ウエイト変更は、Ｏｍ
ａｘＷ対ＯｍａｘＣの比＞ＲＡＴＩＯという条件で、式
（２７）及び（２８）によって行われるので（図２８の
ステップ４４）、正しいクラス中全体で最大の出力値
は、間違ったクラス中全体で次に大きい出力値からさら
に遠ざけられたままとされ得る。これは上記プロセス２
（ＬＶＱ２’）の式（１９）及び（２０）による過程と
似ているが、これはシフト／不変過程に適用される。

【０１７８】以上から明らかなように、シフト／不変法
の本来の目的は、受容野周辺の入力領域に、受容野のウ
エイトに対する最適な位置を設定することである。

【０１７９】図１７は、シフト／不変プロセスを図１６
のウエイトベクトルに適用した結果を示している（前述
したように、図１６は、図１５の初期化されたウエイト
ベクトルにプロセス２を適用した結果である）。図１０
に示される受容野Ｃ３、Ｃ５、Ｃ７及びＣ４６によって
覆われ、図１６の文字に重なる領域が図１７に現れてい
ることがわかる。

【０１８０】従って、図１６は本発明の実施においてプ
ロセス２によって調整されたウエイトベクトルを示して
いる。この図において、黒いスクエアは＋（正）のウエ
イトを表し、そのサイズは大きさを表している。同様
に、白いスクエアは−（負）のウエイトを表し、サイズ
又は面積はウエイトの大きさを表している。図１７は、
図１０乃至図１２に示されるようにプロセス３及び４に
よって受容野を設定された後、プロセス５によって調整
されたウエイトベクトルを示している。

【０１８１】図２０は、得られる受容野ウエイトベクト
ル（左側は濁点、右側は半濁点）を示しており、これら
のウエイトベクトルはプロセス５のシフト／不変法によ
って図１９の入力データから実際に得たものである。こ
れを図１８を比べてみると、図１８及び図１９の検分か
ら分かるように、部分入力データ（文字の右上の無記、
濁点及び半濁点のそれぞれ）が図１９の入力データ中多
くの異なる相対位置に現れても、異なる文字を区別する
特徴は効率よく分離され、図２０のウエイトベクトルに
正確に示されている。

【０１８２】図２０に示される２つのウエイトは、サブ
カテゴリ中に２文字のみ有する平仮名のサブカテゴリに
関連する、或いは１文字は濁点を有し、１文字は半濁点
を有し、１文字は何も持たないサブカテゴリに関連して
いる。図２０の結果の一般化に用いられた実際のデータ
は、後者のサブカテゴリから得られたものである。

【０１８３】図３４及び図３５は本発明の方法の言語認
識への適用を示している。これらの図から、この方法は
１次元データにも同様に適用可能であることが分かる。

【０１８４】図３４の上段は所定の入力データの例に対
するウエイトベクトルを示している。例えば、これは音
節「ｋａ」（或いは他の有声音節）を表しているとす
る。図３４の下段はシフト／不変法に基づくデータのシ
フトを示している。この例では入力データの５つのシフ
トを示している。

【０１８５】図３４の上段に示されたウエイトベクトル
の波形は、学習プロセスのためにシフトされた部分入力
データＩ１〜Ｉ５の全ての波形と比較される。周波数対
時間のスペクトル領域はワイベル（Ｗａｉｂｅｌ）のＴ
ＤＮＮ法と同じ方法で作られ得る。これによって入力デ
ータの時間シフトが補償される。しかしながら、上記の
ように、本発明のシフトはウエイトを更新する前に行わ
れる。

【０１８６】図３４の下段に示されるイメージＩ１〜Ｉ
５中の最適なイメージ（図３５のＩ３）は図３５の上段
のウエイトベクトルに対して選択される。従って、本発
明の方法は、言語認識の環境に容易に適応することがで
きる。同様に、パターン認識のためのデータの各種タイ
プと組み合わせて使用されることもできる。

【０１８７】テスト結果以下の表２は、受容野過程を用
いる場合及び用いない場合の両方に於ける本発明の正確
度を示している。これらの結果は、シフト／不変学習を
用いる受容野法が行ったテストデータに対してエラーが
なかったことを示している。

【０１８８】

【表２】

【０１８９】これらのテストに含まれる要素は以下のと
おりである。

【０１９０】シフト／不変ネットワークを用いて４個の
タイルの受容野をテストする入力データ：３２×３２メッシュノード：各文字に対して５個のノード１個のタイル：８×８そのシフト領域：１０×１０１１のサブカテゴリ（サブカテゴリ当たり２文字〜４文
字）を有する３６個の漢字の集合に対して行った。

【０１９１】データ：１３フォント×３閾値（１００，１４０，１８０）によ
る学習他の１３フォント×３閾値（１００，２４０，１８０）
に対するテスト。

【０１９２】認識方法表２の結果を得るために使用された認識方法は以下の通
りであった。

【０１９３】方法１．受容野のない入力領域全体（３２
ｘ３２メッシュ）プロセス１及び２によるＬＶＱ２’学習によってＴ＝２
０回の反復の間に調整された後、ウエイトをテストす
る。

【０１９４】テストはプロセス２のステップ４において
Ｘに入力された文字ベクトルを送り、その後ステップ５
からステップ１１を行って結果を得た（最大の出力が入
力文字ベクトルと同じクラスに属している場合は正しく
（ステップ１１のＹ）、最大の出力が同じクラス以外の
クラスに属している場合はエラー（ステップ１１のＮ）
である）。

【０１９５】方法２．シフト／不変ネットワークを用い
ない受容野位置の一般化を行わないプロセス１、２、３、４、及び
５を通して、方法１で初期化されたウエイトを用いる受
容野を伴うＬＶＱ２’学習によってＴ＝２０の反復の間
に調整された後、ウエイトをテストする（Ｉ＝１、つま
り、シフトなし）。

【０１９６】テストはプロセス５のステップ４でＸに入
力文字ベクトルを送り、その後ステップ５からステップ
１８を行い（ステップ８で位置の一般化は行われずステ
ップ１１でＩ＝１である）、結果を得た（最大の出力が
入力文字ベクトルと同じクラスに属する場合は正しく
（ステップ１８のＹ）、最大の出力が同じクラス以外の
クラスに属する場合はエラー（ステップ１８のＮ）であ
る）。

【０１９７】方法３．シフト／不変ネットワークを用い
る受容野プロセス１、２、３、４、及び５を通して、方法１で初
期化されたウエイトを用いる受容野を伴うシフト／不変
ＬＶＱ２’学習によってＴ＝２０の反復の間に調整され
た後、ウエイトをテストする。

【０１９８】テストは、プロセス５のステップ４でＸに
入力文字ベクトルを送り、その後ステップ５からステッ
プ１８を行って結果を得た（最大の出力が入力文字ベク
トルと同じクラスに属する場合は正しく（ステップ１８
のＹ）、最大の出力が同じクラス以外のクラスに属する
場合はエラー（ステップ１８のＮ）である）。

【０１９９】方法１では、９３６個の入力文字のうち合
計９２１個の正しい読み取りを行い、９８．３４％の正
確さであった。これには受容野のない３２×３２の領域
が使用された。

【０２００】方法２では、９３６個のうち正しく認識さ
れた文字は９３３個であり、９９．６８％の正確さであ
った。方法２は受容野を用いたがシフト／不変法は用い
なかった。

【０２０１】方法３では受容野及びシフト／不変ネット
ワークの両方が使用され、９３６個のうち正しく認識さ
れた文字は９３６個であり、１００％の正確さであっ
た。

【０２０２】平仮名及び片仮名（例えば図１８を参照）
の識別を行う本発明の正確さは、以下の表３に示されて
いる。ＬＶＱ２法において、入力データに対して１６×
１６のサイズが使用された（図２２参照）。ウエイトベ
クトルのサイズは１２×１２であったので、図３１に示
されるようにシフト可能な位置は２５個であった。結果
は以下の通りである。

【０２０３】

【表３】

【０２０４】上記テストのための文字集合は、４，００
０個の漢字、平仮名及び片仮名を含んでいた。

【０２０５】

【発明の効果】本発明によれば、上記説明から明らかな
効果に加えて、未学習データ（つまり認識されるべきデ
ータ）の特徴が学習データの類似する特徴の位置に関連
してシフトされる場合でも高い認識能力を提供し得る、
改良されたニューラルネットワーク学習装置及び方法を
提供することができる。

【図面の簡単な説明】

【図１】本発明の方法の全体を示すフローチャートであ
る。

【図２】連係する近傍を有するウエイトベクトルの写像
である。

【図３】本発明によるシステムのブロック図である。

【図４】本発明の好ましい方法を示す高いレベルのフロ
ーチャートである。

【図５】本発明の入力データをサブカテゴリに割り付け
るネットワークを示す説明図である。

【図６】入力データを自己組織化するための本発明によ
る方法を示すフローチャートである。

【図７】入力データを予備学習するための方法のフロー
チャートである。

【図８】入力データを予備学習するための方法のフロー
チャートである。

【図９】図３の方法を３２×３２画素入力イメージ領域
に適用した結果の一例を示す説明図である。

【図１０】サンプルの漢字４文字から得られた寄与値の
アレイである。

【図１１】４つの最も高い寄与値を有する図１０の寄与
タイルを表している。

【図１２】図１１の寄与タイルの図９の３２×３２アレ
イへの適用を示している。

【図１３】多数の漢字のサブカテゴリへの、寄与タイル
の適用を示している。

【図１４】漢字の４個のサブカテゴリに対する受容野を
示している。

【図１５】文字のウエイト及び受容野を表示する、本発
明のコンピュータ処理の１画面を示している。

【図１６】文字のウエイト及び受容野を表示する、本発
明のコンピュータ処理の他の１画面を示している。

【図１７】文字のウエイト及び受容野を表示する、本発
明のコンピュータ処理のさらに他の１画面を示してい
る。

【図１８】平仮名のウエイトを示している。

【図１９】平仮名の受容野のウエイトを示している。

【図２０】本発明シフト／不変法による処理の後の、図
１９における受容野の２つの例を示している。

【図２１】シフト／不変法で用いられた本発明の構造を
示している。

【図２２】シフト／不変法で用いられた本発明の構造を
示している。

【図２３】寄与値を計算する方法を示すフローチャート
である。

【図２４】本発明のシフト／不変法を示すフローチャー
トである。

【図２５】本発明のシフト／不変法を示すフローチャー
トである。

【図２６】本発明のシフト／不変法を示すフローチャー
トである。

【図２７】本発明のシフト／不変法を示すフローチャー
トである。

【図２８】本発明のシフト／不変法を示すフローチャー
トである。

【図２９】本発明のシフト／不変受容野ネットワークを
示している。

【図３０】シフト／不変法のための異なる入力ベクトル
の例を示している。

【図３１】シフト／不変法のための異なる入力ベクトル
の例を示している。

【図３２】シフト／不変法によって発生された受容野の
異なる位置を示している。

【図３３】本発明のシフト／不変システムの概括的説明
の構成を示している。

【図３４】シフト／不変法の言語認識への適用を示して
いる。

【図３５】シフト／不変法の言語認識への適用を示して
いる。

【符号の説明】

１００イメージ１９０〜２２０処理ノード２３０〜２６０ローカルメモリ２７０行列

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 15/18 560 G06G 7/60 ＪＩＣＳＴファイル（ＪＯＩＳ) ＷＰＩ（ＤＩＡＬＯＧ)

Claims

(57)【特許請求の範囲】

【請求項１】ニューラルネットワークと該ニューラルネ
ットワークの入力に接続された複数の画素からなるアレ
イとを備えたニューラルネットワークシステムにおい
て、該ニューラルネットワークの学習情報に関するウエ
イトを更新する方法であって、該ニューラルネットワー
クは、該学習情報を保持するデータベースを有し、該方
法は、（ａ）入力された情報をアレイに写像するステップ、（ｂ）該アレイを構成する該複数の画素のうち、選択さ
れた少なくとも１つの画素を含む領域を分離するステッ
プ、（ｃ）該選択された少なくとも１つの画素を含む領域を
少なくとも所定の方向にシフトするステップ、（ｄ）シフトする前の位置及びシフトした後の位置の該
選択された少なくとも１つの画素を含む領域と該学習情
報に対応する領域とを比較するステップ、（ｅ）該ステップ（ｄ）の比較に基づいて、該入力され
た情報に対する最適なシフトを決定するステップ、及び（ｆ）該最適なシフトに基づいて、該学習情報に関する
ウエイトを更新するステップ、を包含する方法。
【請求項２】請求項１に記載の方法であって、前記ステ
ップ（ｃ）は前記入力された情報を第１の所定の方向と
第２の所定の方向にシフトすることを包含している、方
法。
【請求項３】請求項１に記載の方法であって、前記ステ
ップ（ｃ）は前記入力された情報を回転することを包含
している、方法。
【請求項４】請求項１に記載の方法であって、前記アレ
イは第１の所定の方向及び第２の所定の方向を有する画
素の行列であり、前記ステップ（ｃ）は、（ｇ）該第２の所定の方向にはシフトせずに、該第１の
所定の方向で負及び正の各々の方向に、第１の所定数の
画素だけ前記入力された情報をシフトするステップ、（ｈ）該第１の所定の方向にはシフトせずに、該第２の
所定の方向で負及び正の各々の方向に、第２の所定数の
画素だけ該入力された情報をシフトするステップ、及び（ｉ）該第１の所定の方向で負及び正の各々の方向に、
該第１の所定の画素だけ入力情報をシフトすると共に、
該第２の所定の方向で負及び正の各々の方向に、該第２
の所定数の画素だけ該入力された情報をシフトするステ
ップ、を包含している、方法。
【請求項５】ニューラルネットワークにおいて情報を学
習する方法であって、入力された情報はニューラルネッ
トワークに格納された特徴に対応しており、（ａ）少なくとも１つの受容野に、シフトされない位置
で情報を写像するステップ、（ｂ）複数のシフト位置に、写像された情報をシフトさ
せるステップ、（ｃ）該複数のシフト位置のうちどの位置が格納された
特徴に最もよく適合するかを決定するステップ、及び（ｄ）最も適合するシフト位置によって、該格納された
特徴に関連するウエイトを更新するステップ、を包含す
る方法。
【請求項６】ニューラルネットワークと該ニューラルネ
ットワークの入力に接続された複数の画素からなるアレ
イとを備えたニューラルネットワークシステムにおい
て、該ニューラルネットワークの学習情報に関するウエ
イトを更新する装置であって、該ニューラルネットワー
クは、該学習情報を保持するデータベースを有し、該装
置は、入力された情報をアレイに写像する手段、該写像手段に接続され、アレイの一部分である部分アレ
イであって該写像された該入力された情報の複数の所定
の部分アレイを分離する手段、該分離手段に接続され、該情報の分離された部分アレイ
を少なくとも所定の方向でシフトさせる手段、該シフトされた部分アレイを格納する手段、該格納手段に接続され、該シフトされた各部分アレイ及
びそれに対応する学習情報の最も近い適合を決定する手
段、及び該決定手段に接続され、該決定された最も近い
適合によって該学習情報に対するウエイトを更新する手
段、を備えている装置。
【請求項７】請求項６に記載の装置であって、前記シフ
トされ分離された部分アレイは２つの所定の方向の各々
にシフトされた部分アレイを包含する、装置。
【請求項８】請求項６に記載の装置であって、前記シフ
トされ分離された部分アレイは軸の周りをシフトされる
回転された部分アレイを包含する、装置。
【請求項９】請求項６に記載の装置であって、前記アレ
イは第１の所定の方向及び第２の所定の方向を有する画
素の行列であり、前記シフトされ分離された部分アレイ
は、第２の所定の方向にはシフトされずに、第１の所定の方
向において負及び正の各々の方向に第１の所定数の画素
だけシフトされた、第１のシフトされた部分アレイ、第１の所定の方向にはシフトされずに、第２の所定の方
向において負及び正の各々に方向に第２の所定数の画素
だけシフトされた、第２のシフトされた部分アレイ、並
びに第１の所定の方向において負及び正の各々の方向
に第１の所定数の画素だけシフトされると共に、第２の
所定の方向において負及び正の各々の方向に第２の所定
数の画素だけシフトされた、第３のシフトされた部分ア
レイを包含している、装置。
【請求項１０】ニューラルネットワークにおいて使用す
るための学習装置であって、該学習装置は入力ベクトル
によってアレイに入力される多くの異なるパターンを学
習するためのものであり、該パターンは異なるクラスに
分類され、入力データの部分を包含する、アレイの一部分である部
分アレイのデータを発生する手段、該発生手段に接続され、該入力データの該部分アレイ
と、該異なるクラスの各々の該部分アレイの位置に相当
するウエイトとの類似度を示す複数の出力値を生成する
手段、所定の入力データが属するクラスに関連する複数の出力
値の最大値である第１の出力値を獲得する第１の手段、所定の入力データが属さない少なくとも一つのクラスに
関連する複数の出力値の最大値である第２の出力値を獲
得する第２の手段、及び該第１の出力値をより大きくし、該第２の出力をより小
さくするように第１及び第２の出力値のウエイトを変更
するウエイト変更手段、を備えている装置。
【請求項１１】ニューラルネットワークと該ニューラル
ネットワークの入力に接続された複数の画素からなるア
レイとを備えたニューラルネットワークシステムにおい
て、ニューラルネットワークに入力されたパターンの弁
別特徴を学習するための方法であって、該アレイは所定
数の該アレイの一部分を表すタイルを有し、該方法は、（ａ）該アレイに、入力パターンを写像するステップ、（ｂ）各々の該タイルに関連するウエイトに対して値を
発生するステップ、（ｃ）複数のパターンの各々に対してステップ（ａ）及
び（ｂ）を繰り返すステップ、（ｄ）該タイルの各々に対するウエイト値と他のパター
ンの対応するタイルのウエイト値との相関関係に基づい
て、ウエイト値から複数の寄与値を発生するステップ、
並びに（ｅ）該複数の寄与値は、該複数のパターンの各々が互
いに最も相違するアレイの部分に関連する少なくとも１
つの寄与値を含み、該少なくとも１つの寄与値を決定す
るために、該複数の寄与値同士をを比較するステップを
包含する方法。
【請求項１２】請求項１１に記載の方法であって、ステ
ップ（ｅ）は、（ｆ）タイルの集合から寄与値の和の集合を発生させる
ステップ、（ｇ）他の和より大きい和の集合の少なくとも１つの部
分集合を決定するステップ、及び（ｈ）前記複数のパターン間の異なるパターンを比較す
るために、該少なくとも１つの部分集合が発生させられ
た該タイルの集合である、少なくとも１つの受容野を決
定し、新たに入力されたパターンが写像されたアレイか
ら、該少なくとも１つの受容野に対応する部分アレイを
選択するステップを包含しており、該少なくとも１つの受容野は互いに相違するパターンの
特徴を表す部分に関連している、方法。
【請求項１３】請求項１２に記載の方法であって、（ｉ）前記少なくとも１つの受容野よりも大きい入力イ
メージ領域を規定するステップ、（ｊ）該入力イメージ領域内で、前記アレイを構成する
前記複数の画素のうち、選択された少なくとも１つの画
素を含む領域を分離するステップ、（ｋ）該選択された少なくとも１つの画素を含む領域を
少なくとも所定の方向にシフトするステップ、（ｌ）シフトする前の位置及びシフトした後の位置の該
入力イメージのデータと前記少なくとも１つの受容野と
を比較するステップ、（ｍ）該ステップ（ｌ）の比較に基づいて、該入力イメ
ージのデータに対する最適なシフトによる一致を決定す
るステップ、及び（ｎ）該最適なシフトに基づいて、該少なくとも１つの
受容野に関連して既に学習されたウエイトを更新するス
テップ、を更に包含している方法。