JP2862216B2 - シフト/不変パターン認識を行う受容野ニューラルネットワーク - Google Patents

シフト/不変パターン認識を行う受容野ニューラルネットワーク

Info

Publication number
JP2862216B2
JP2862216B2 JP4008742A JP874292A JP2862216B2 JP 2862216 B2 JP2862216 B2 JP 2862216B2 JP 4008742 A JP4008742 A JP 4008742A JP 874292 A JP874292 A JP 874292A JP 2862216 B2 JP2862216 B2 JP 2862216B2
Authority
JP
Japan
Prior art keywords
input
array
shifted
neural network
predetermined direction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP4008742A
Other languages
English (en)
Other versions
JPH04305760A (ja
Inventor
徹 上田
文雄 外川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Consejo Superior de Investigaciones Cientificas CSIC
Original Assignee
Consejo Superior de Investigaciones Cientificas CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Consejo Superior de Investigaciones Cientificas CSIC filed Critical Consejo Superior de Investigaciones Cientificas CSIC
Publication of JPH04305760A publication Critical patent/JPH04305760A/ja
Application granted granted Critical
Publication of JP2862216B2 publication Critical patent/JP2862216B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はパターン認識のために受
容野及びシフト/不変を利用する人工ニューラルネット
ワークの学習装置及び方法に関する。
【0002】
【従来の技術】近年、いわゆる「ニューラルネットワー
ク」モデルが、言語認識、文字認識及び専門的システム
における問題を解決するために使用されている。
【0003】従来、ニューラルネットワークの教師有り
学習法の1つは以下のように行われている。入力データ
の一部がネットワークに送られ、各出力ノードの出力値
が計算される。その後、学習アルゴリズムがウエイトの
必要な変更を決定し、ウエイトが更新される。ネットワ
ークの中には、ウエイト変更のための値を蓄積し、全て
のデータがネットワークに送られてからウエイトを変更
するものもある。そのような方法は、例えば、以下に挙
げる背景技術の引例に開示されている。コホーネン(K
ohonen)、G.バルネ(G.Barne)及び
R.クリスレー(R.Chrisley)による「ニュ
ーラルネットワークを用いる統計的パターン認識:基準
の研究」(“Statistical Pattern
Recognition with Neural N
etworks:Bemchmarking Stud
ies”)IEEE、Proc.of ICNN、Vo
l.I、pp.61−68、1988年1月、並びに
D.ルーメルハート(D.Rumelhart)、G.
E.ヒントン(G.E.Hinton)及びR.J.ウ
ィリアムズ(R.J.Williams)による“Pa
rallelDistributed Process
ing: Explorationsinthe Mi
crostructure of Cognitio
n”,MIT Press、ケンブリッジ、MA、19
86のVol.I「エラープロパゲーションによる内部
表現の学習」(“Learning Internal
Representations by Error
Propagation”)(特に第8章を参照)。
これらの引例の各々は本明細書中に組み込まれている。
【0004】学習過程の後、ニューラルネットワークは
入力データを認識することができる。言い換えると、未
知又は未学習であるが学習されたデータと類似している
入力データを、未知の入力パターンを予備学習された
(prelearned)パターンと相関させることに
よって、適当なクラスに分類することができる。従っ
て、従来の方法によって構成されたニューラルネットワ
ークは、後に認識されるべき1つのデータクラスを学習
するために充分多くの種類のパターンの学習データが使
用される場合には、未学習のデータに対して高い認識能
力を提供することができる。
【0005】
【発明が解決しようとする課題】しかしながら、未学習
の文字又は認識されるべき他のデータが、学習されたデ
ータの特徴と同一の特徴を有するが、その特徴が未学習
データの異なる位置にある場合、従来の方法のニューラ
ルネットワークでは高い正確さの認識能力を得られな
い。「時間遅延ニューラルネットワーク」(TDNN)
と呼ばれる方法は、異なる位置でデータを学習すること
によってこれを一部解決する。この方法は、A.ワイベ
ル(A.Waibel)、T.ハナザワ(T.Hana
zawa)、G.ヒントン(G.Hinton)、K.
シカノ(K.shikano)、及びK.ラング(K.
Lang)による報告「時間遅延ニューラルネットワー
クを用いる音声認識」(“Phoneme Recog
nition using Time−Delay N
eural Networks”)IEEE Tran
s.Acoust.,Speech,Signal P
rocessing,Vol.37,pp.1888−
1898,1989年12月に開示されている。しか
し、重要なことは、ワイベルの方法(TDNN)が学習
されたデータの特徴の実際の位置を検出しておらず、全
てのシフトされたデータによってのみウエイトが更新さ
れることである。従って、TDNN法における学習は効
率が悪い。
【0006】同様の問題を解決する方法は、ル・クン
(Le Cun)らによる「バックプロパゲーションネ
ットワークを用いる手書き数字の認識」(“Handw
riting Digit Recognition
with a Back−Propagation N
etwork”,Neural Informatio
n Processing Systems,Vol.
2,pp.396−404(1989年))に述べられ
ている。この引例は背景として本明細書に組み込まれて
いる。ル・クンの構造は5層ネットワークを用いてお
り、上側の層はローカルの特徴の位置を検出するために
使用される。
【0007】認識されるべき入力文字が学習された文字
と同じであるがフォントが異なる場合には他の問題が起
こり得るので、入力文字の様々な細かい特徴は学習され
た文字の特徴とは異なった位置に置かれる。文字全体が
認識のために比較されるシステムにおいては、位置の相
違は雑音として現れる。
【0008】本発明は上記欠点を本質的に解決するため
になされたものであり、未学習データ(つまり認識され
るべきデータ)の特徴が学習データの類似する特徴の位
置に関連してシフトされる場合でも高い認識能力を提供
し得る、改良されたニューラルネットワーク学習装置及
び方法を提供するという重要な目的を有する。
【0009】
【課題を解決するための手段】本発明の方法は、ニュー
ラルネットワークと該ニューラルネットワークの入力に
接続された複数の画素からなるアレイとを備えたニュー
ラルネットワークシステムにおいて、該ニューラルネッ
トワークの学習情報に関するウエイトを更新する方法で
あって、該ニューラルネットワークは、該学習情報を保
持するデータベースを有し、該方法は、(a)入力され
た情報をアレイに写像するステップ、(b)該アレイ
構成する該複数の画素のうち、選択された少なくとも1
つの画素を含む領域を分離するステップ、(c)該選択
された少なくとも1つの画素を含む領域を少なくとも
定の方向にシフトするステップ、(d)シフトする前
位置及びシフトした後の位置の該選択された少なくとも
1つの画素を含む領域と該学習情報に対応する領域とを
比較するステップ、(e)該ステップ(d)の比較に基
づいて、入力された情報に対する最適なシフトを決定
するステップ、及び(f)該最適なシフトに基づいて、
学習情報に関するウエイトを更新するステップ、を包
含しており、そのことにより上記目的が達成される。
記ステップ(c)は前記入力された情報を第1の所定の
方向と第2の所定の方向にシフトすることを包含してい
てもよい。 前記ステップ(c)は前記入力された情報を
回転することを包含していてもよい。 前記アレイは第1
の所定の方向及び第2の所定の方向を有する画素の行列
であり、前記ステップ(c)は、(g)該第2の所定の
方向にはシフトせずに、該第1の所定の方向で負及び正
の各々の方向に、第1の所定数の画素だけ前記入力され
た情報をシフトするステップ、(h)該第1の所定の方
向にはシフトせずに、該第2の所定の方向で負及び正の
各々の方向に、第2の所定数の画素だけ該入力された情
報をシフトするステップ、及び(i)該第1の所定の方
向で負及び正の各々の方向に、該第1の所定の画素だけ
入力情報をシフトすると共に、該第2の所定の方向で負
及び正の各々の方向に、該第2の所定数の画素だけ該入
力された情報をシフトするステップ、を包含していても
よい。 本発明の方法は、ニューラルネットワークにおい
て情報を学習する方法であっ て、入力された情報はニュ
ーラルネットワークに格納された特徴に対応しており、
(a)少なくとも1つの受容野に、シフトされない位置
で情報を写像するステップ、(b)複数のシフト位置
に、写像された情報をシフトさせるステップ、(c)該
複数のシフト位置のうちどの位置が格納された特徴に最
もよく適合するかを決定するステップ、及び(d)最も
適合するシフト位置によって、該格納された特徴に関連
するウエイトを更新するステップ、を包含しており、そ
のことにより上記目的が達成される。 本発明の装置は、
ニューラルネットワークと該ニューラルネットワークの
入力に接続された複数の画素からなるアレイとを備えた
ニューラルネットワークシステムにおいて、該ニューラ
ルネットワークの学習情報に関するウエイトを更新する
装置であって、該ニューラルネットワークは、該学習情
報を保持するデータベースを有し、該装置は、入力され
た情報をアレイに写像する手段、該写像手段に接続さ
れ、アレイの一部分である部分アレイであって該写像さ
れた該入力された情報の複数の所定の部分アレイを分離
する手段、該分離手段に接続され、該情報の分離された
部分アレイを少なくとも所定の方向でシフトさせる手
段、該シフトされた部分アレイを格納する手段、該格納
手段に接続され、該シフトされた各部分アレイ及びそれ
に対応する学習情報の最も近い適合を決定する手段、及
び該決定手段に接続され、該決定された最も近い適合に
よって該学習情報に対するウエイトを更新する手段、を
備えておりそのことにより上記目的が達成される。 前記
シフトされ分離された部分アレイは2つの所定の方向の
各々にシフトされた部分アレイを包含してもよい。 前記
シフトされ分離された部分アレイは軸の周りをシフトさ
れる回転された部分アレイを包含してもよい。 前記アレ
イは第1の所定の方向及び第2の所定の方向を有する画
素の行列であり、前記シフトされ分離された部分アレイ
は、第2の所定の方向にはシフトされずに、第1の所定
の方向において負及び正の各々の方向に第1の所定数の
画素だけシフトされた、第1のシフトされた部分アレ
イ、第1の所定の方向にはシフトされずに、第2の所定
の方向において負及び正の各々に方向に第2の所定数の
画素だけシフトされた、第2のシフトされた部分アレ
イ、並びに 第1の所定の方 向において負及び正の各々
の方向に第1の所定数の画素だけシフトされると共に、
第2の所定の方向において負及び正の各々の方向に第2
の所定数の画素だけシフトされた、第3のシフトされた
部分アレイを包含していてもよい。 ニューラルネットワ
ークにおいて使用するための学習装置であって、該学習
装置は入力ベクトルによってアレイに入力される多くの
異なるパターンを学習するためのものであり、該パター
ンは異なるクラスに分類され、入力データの部分を包含
する、アレイの一部分である部分アレイのデータを発生
する手段、該発生手段に接続され、該入力データの該部
分アレイと、該異なるクラスの各々の該部分アレイの位
置に相当するウエイトとの類似度を示す複数の出力値を
生成する手段、所定の入力データが属するクラスに関連
する複数の出力値の最大値である第1の出力値を獲得す
る第1の手段、所定の入力データが属さない少なくとも
一つのクラスに関連する複数の出力値の最大値である第
2の出力値を獲得する第2の手段、及び該第1の出力値
をより大きくし、該第2の出力をより小さくするように
第1及び第2の出力値のウエイトを変更するウエイト変
更手段、を備えていてもよい。 本発明の方法は、ニュー
ラルネットワークと該ニューラルネットワークの入力に
接続された複数の画素からなるアレイとを備えたニュー
ラルネットワークシステムにおいて、ニューラルネット
ワークに入力されたパターンの弁別特徴を学習するため
の方法であって、該アレイは所定数の該アレイの一部分
を表すタイルを有し、該方法は、(a)該アレイに、入
力パターンを写像するステップ、(b)各々の該タイル
に関連するウエイトに対して値を発生するステップ、
(c)複数のパターンの各々に対してステップ(a)及
び(b)を繰り返すステップ、(d)該タイルの各々に
対するウエイト値と他のパターンの対応するタイルのウ
エイト値との相関関係に基づいて、ウエイト値から複数
の寄与値を発生するステップ、並びに(e)該複数の寄
与値は、該複数のパターンの各々が互いに最も相違する
アレイの部分に関連する少なくとも1つの寄与値を含
み、該少なくとも1つの寄与値を決定するために、該複
数の寄与値同士をを比較するステップを包含しており、
そのことにより上記目的が達成される。 前記ステップ
(e)は、(f)タイルの集合から寄与値の和の集合を
発生させ るステップ、(g)他の和より大きい和の集合
の少なくとも1つの部分集合を決定するステップ、及び
(h)前記複数のパターン間の異なるパターンを比較す
るために、該少なくとも1つの部分集合が発生させられ
た該タイルの集合である、少なくとも1つの受容野を決
定し、新たに入力されたパターンが写像されたアレイか
ら、該少なくとも1つの受容野に対応する部分アレイを
選択するステップを包含しており、該少なくとも1つの
受容野は互いに相違するパターンの特徴を表す部分に関
連していてもよい。 前記方法はさらに(i)前記少なく
とも1つの受容野よりも大きい入力イメージ領域を規定
するステップ、(j)該入力イメージ領域内で、前記ア
レイを構成する前記複数の画素のうち、選択された少な
くとも1つの画素を含む領域を分離するステップ、
(k)該選択された少なくとも1つの画素を含む領域を
少なくとも所定の方向にシフトするステップ、(l)シ
フトする前の位置及びシフトした後の位置の該入力イメ
ージのデータと前記少なくとも1つの受容野とを比較す
るステップ、(m)該ステップ(l)の比較に基づい
て、該入力イメージのデータに対する最適なシフトによ
る一致を決定するステップ、及び(n)該最適なシフト
に基づいて、該少なくとも1つの受容野に関連して既に
学習されたウエイトを更新するステップ、を包含してい
てもよい。
【0010】
【0011】
【0012】
【0013】
【0014】
【0015】
【0016】
【0017】
【0018】
【0019】
【0020】
【0021】
【0022】
【0023】
【0024】
【0025】
【0026】
【0027】
【0028】
【0029】
【作用】本発明の装置及び方法は以下のようにシフト、
又は回転されたデータを扱う。学習又は認識されるべき
1つの入力文字又は他のデータは、入力データの部分を
含むいくつかの所定数の部分入力データに分割される。
回転−不変ニューラルネットワークが必要である場合に
は、入力データの回転位置を表す部分入力データが発生
される。各部分入力データはネットワークに送られ、出
力値が計算される。
【0030】入力データがN個の部分入力データに分割
され、ネットワークがM個の出力ノードを有する場合、
1つの入力ベクトルに対してMxN個の出力値が計算さ
れる。M個の出力ノードの1個以上のノードは多くのク
ラスの各々に割り当てられる。そのクラスは学習された
データを分類するために規定される。好ましい実施例に
おいて、LVQ2学習法はウエイトを更新するために用
いられる。このLVQ2法は上記コホーネンの論文及び
T.コホーネンによる“Statistical Pa
ttern Recognition Revisit
ed”,Advanced Neural Compu
ters,pp.137−143(1990年)に論じ
られている。他の学習法(バックプロパゲーション等)
がこの方法で使用されることができるが、1例としてL
VQ2学習アルゴリズムが本明細書では論じられる。
【0031】MxN個の出力ノードの計算の後、入力デ
ータと同じクラスの出力値全てのうち最大である第1の
最大値が選択される。さらに、第1の最大値と共に、入
力データと同じクラスにない全ての値のうち最大である
第2の最大値が選択される。LVQ2法は、出力ノード
がこれらの選択された第1及び第2の最大値を有する2
つのウエイトのみを以下のように更新する。出力値が最
大でないノードは正しいクラスになく、出力値が第2の
最大値に相当するノードが正しいクラスにある場合、こ
れら2つのノードのウエイトは更新される。
【0032】このネットワークはN個の部分入力データ
及びMxN個の出力ノード値を利用している。上記第1
及び第2の最大値が選択されると、最大出力値に相当す
る部分入力データは第2の最大出力値の部分入力と常に
等しいわけではない。言い換えれば、選択過程は、最大
値だけではなくその値に相当する部分入力データも選択
する。
【0033】ウエイト更新は、そのように選択された部
分入力データを用いて行われる。つまり、ネットワーク
は適当なノード(ウエイト)及び適当な部分入力データ
を同時に選択し、ウエイトはその部分入力データによっ
て更新されるので、正しいクラスの出力値はより大きく
され、間違ったクラスの出力値はより小さくされるので
ある。
【0034】異なった入力データが類似する特徴を有し
ているがその特徴の位置が等しくない場合には、従来の
(例えばTDNN)ネットワークは関連するウエイトと
共にこれらの入力値の全てを覚えておかなくてはならな
い。なぜなら、ネットワークの出力値が特徴の位置に影
響され易いからである。本発明は、適当な部分入力デー
タを選択し、その部分入力データを用いてウエイトを更
新することによってこの効率の悪さを解決する。このよ
うにして、1つのウエイトは多くの異なる位置で同じ特
徴を示すことが可能である。
【0035】テストモード(つまり、パターン認識モー
ド)において、入力データはまたN個の部分入力データ
に分割される。これらのN個のデータはネットワークに
送られ、その後、ネットワークは出力値が最大値を有す
るノードを選択する。ノードが属するカテゴリは、認識
されるパターン(例えば、文字、語等)として選択され
る。
【0036】上記説明において、LVQ2法は学習法の
一例として用いられているが、他の方法も本発明におい
て使用されることは可能である。例えば、バックプロパ
ゲーション学習が用いられる場合、全ての出力値及びエ
ラー値が計算される。ネットワークがM個の出力ノード
及びN個の部分入力を有する場合、N個の出力エラーの
うち最小の出力エラーを出す部分入力データが(M個の
出力エラー値の和を求めることによって)選択される。
【0037】この過程で最小エラー値が選択されると、
そのエラー値に対応する1つの部分入力データが決定さ
れる。エラー値及び部分入力が、バックプロパゲーショ
ン学習法のために用いられる。
【0038】本発明の他の重要な特徴は受容野の使用で
ある。文字又は他のパターンが認識のためにニューラル
ネットワークに与えられると、ネットワークは入力パタ
ーンを互いに類似するものを有するサブカテゴリに分類
する。本発明のシステムは、他の類似するパターンの各
サブカテゴリに対して、大きく相違するパターンの部分
を決定する。パターン同士の弁別、それによって所定パ
ターンの識別及び認識をするために使用されるのはこれ
らの部分である。
【0039】本発明の最も効果的な好ましい実施例は、
これらの受容野及び上記のシフト/不変法の両方を用い
ており、受容野が先ず識別され分離され、特定のサブカ
テゴリで比較された受容野にシフト/不変法が適用され
る。
【0040】
【実施例】本発明を実施例について以下に説明する。
【0041】本発明の方法は図1のフローチャートによ
って示され、さらに詳しくは図4のフローチャートによ
って示される。図1において、5つの基本ステップが示
されている。プロセス1は自己学習過程であり、ここ
で、文字又はパターンの各クラス内で自己組織化学習に
よってウエイトベクトルは初期化される。このことは後
にさらに詳しく論じられる。
【0042】プロセス2において、予備学習過程が実行
される。このプロセスは、上記のLVQ2方法に一部基
づき、新規に修正された過程である予備的な教師有り学
習過程である。この新規の方法を本明細書中ではLVQ
2’と呼ぶ。LVQ2’は、特願平第1−60327号
である1989年3月13日出願の「ニューラルネット
ワークの学習装置及び方法」に詳しく説明されている。
LVQ2’過程は、後にさらに詳細に論じられる。
【0043】図1のプロセス3において、本発明の方法
は、所定の入力文字が表されている32x32アレイの
部分集合に相当するタイルの寄与値を算出する。
【0044】プロセス4において、以下に規定されるよ
うに最大値を有するプロセス3で決定された寄与タイル
は、サブカテゴリ内の異なる文字又はパターンを弁別す
るための受容タイルとして選択される。
【0045】最後に、プロセス5において、プロセス4
で選択された各受容野又はタイルにシフト/不変LVQ
2’が適用されて、入力された文字またはパターンを識
別する。
【0046】図4は、本発明の好ましい実施態様のプロ
セス経路及びデータの流れを示している。この図におい
て、太い黒塗の矢印はプロセス経路を示し、尖って細い
矢印はデータ接続又は伝達を示している。従って、図4
は2つの起こり得るモード、即ち、認識及び学習を示し
ている。認識が行われる場合、方法はステップ300、
310、330、340、360及び370に沿って進
み、認識結果は論理スイッチ410から出力される。学
習が行われる場合、方法はステップ300、310、3
30、340、360及び370に沿って進み、その後
ステップ380及び390へ進む。ステップ380及び
390はプロセス1〜5を包含し、本発明の内容の大部
分を構成する。
【0047】いずれのモードにおいても、イメージは先
ずステップ300で入力され、プロセス1と組み合わせ
て、後述されるようにステップ310でサイズの正規化
が行われる。その後、データのための受容野は、プロセ
ス4に関して後述されるようにボックス330において
設定される。
【0048】ステップ340において、システムはプロ
セス5で後述されるようにシフトされた部分入力データ
を発生するが、これを行うために32×32アレイに写
像された入力データ320を用いる。これらの部分入力
データはデータ350として格納され、ステップ360
のため及びプロセス5(ステップ390)のために提供
される。
【0049】ステップ360において、予備学習された
情報のウエイトベクトル(データ400)及び部分入力
データ350を用いて、内積計算(詳しくは後述され
る)が行われる。この計算はプロセス5で後述される式
(23)に相当する。
【0050】その後、ステップ370は、式(24)及
び式(25)の最大値を求める過程を包含しており、こ
れらの式もプロセス5で後述される。この時点では、シ
ステムが認識モードにある場合、求められた最大値は認
識結果を生じ、認識結果は410から出力される。
【0051】システムが学習モードにある場合、過程は
ボックス375へ分岐する。ボックス375はステップ
380及び390を包含し、詳しくはプロセス1〜5に
おいて後述される。ステップ390からの出力はデータ
400として現れる更新されたウエイトベクトルを包含
している。
【0052】図3は、本発明の物理的な実施態様を示す
ブロック図である。先ず、イメージ100(図3参照)
はスキャナ110によって走査され、中央処理装置(C
PU)120に入力される。
【0053】ニューラルネットワークは、このCPU1
20において実質的に具体化され、制御されている。C
PU120は接続されているメインメモリ130を用い
ている。従って、以下の各プロセス1〜5及び認識過程
は、処理ノード190〜220と共にCPU120によ
って完全に行われる。
【0054】CPU120はメインバス140及びバス
150、160、170及び180に接続され、これら
は処理ノード190、200、210及び220に各々
接続されている。
【0055】M個のローカル処理ノードPN1〜PNM
(それぞれ190〜220)があり、これらは以下にさ
らに詳しく論じられる。各々の処理ノードはローカルメ
モリ、即ちメモリ230、240、250及び260に
それぞれ接続されている。これらの処理ノードは行列2
70で示されるようにN個の各データクラスに対してM
個の出力を発生する。本発明のシステムにおける処理ノ
ードの操作は後に詳述される。
【0056】従って、本発明の方法は、必要な機能の各
々を実行するための手段を備えている図3の好ましい構
成において物理的に具体化される。これらの機能のうち
多くは、主メモリに格納されたプログラム命令によって
実行され、主メモリ及び処理ノードメモリの両方に格納
されたデータを用いるので、図中では単独には示されて
いない。当該技術分野の熟練者には、以下の論述におい
て各種機能を実行する手段がプログラム命令によって達
成され得る場合は明らかであろう。
【0057】プロセス1:自己学習過程 本発明の方法において、図式又は文字データが入力され
る。(或いは、音声データ又は他のタイプのデータが入
力され得る。本願では例示のみのために印刷された又は
手書きのデータを用いている。)文字は予め切り出さ
れ、そのサイズは32×32画素の階調アレイ(又は行
列)或いは16×16アレイに写像又は正規化される。
これはスキャナ110と組み合わせてCPU120によ
って実行される(図3参照)。その後、写像されたイメ
ージはニューラルネットワークへの入力として使用され
る。従って、32×32の行列に対してネットワークに
は1024個の入力がある。
【0058】入力の値の範囲は、データが効率よく圧縮
される量に依存する。例えば、64×64の文字走査が
16×16行列に低減される場合、これは16個(各次
元につき4の割合)の減少になるので、16×16行列
における各画素は1から16の間の値をとる。これは
「グレー値」と呼ばれ得る。このグレー値がネットワー
クへの入力である。
【0059】各入力値は以下の式によって正規化される
(ここでXi(i=1、I)は入力値の成分の全ての組
合せである)。
【0060】
【数1】
【0061】この正規化に伴って、全ての正規化された
i成分の和(つまり内積)は1になる。即ち、ベクト
ルのノルム(長さ)は1になる。このように、正規化さ
れた入力ベクトルはすべて同じ長さであり、言い換えれ
ば、正規化された長さ1を有する。
【0062】第1層の出力は以下のように示される。
【0063】
【数2】
【0064】正規化プロセスによって、Wベクトル及び
Xベクトルの長さは等しくなるので、その間の角度のみ
が重要である。ベクトルが変わる度に、正規化される。
【0065】その後、正規化された入力値に対するウエ
イトベクトルは各文字クラス内で自己組織化学習過程に
おいて初期化される。各文字クラスは図2に示されるよ
うに連関した近傍の1次元写像である。
【0066】ウエイトベクトルは増大し、後述の式
(6)のように最大活性化出力値を用いてウエイトベク
トルを大きくすることによって、入力ベクトルをカテゴ
リに割り付ける。さらに、近傍のウエイトベクトルは、
後述の式(5)及び式(7)によってわずかに変化され
る。文字が多くの起こり得るタイプのフォントを有する
場合、ウエイトベクトルは、典型的な混成文字スタイル
(フォント)を最終的に形成する。本発明の図15に示
されるように、典型的なフォントが各文字クラスにおい
て5個のウエイトベクトル上に形成されるのが好まし
い。図15は、本発明の実施においてプロセス1によっ
て各々が初期化された5個のベクトルを有する4文字の
ウエイトベクトルを示している。
【0067】各ウエイトは、小さい任意の値によって通
常は初期化されるが、前述の特許出願に教示されいるよ
うに初期学習のLVQ2’プロセスにおいて迅速に収束
される。
【0068】図6は、本発明において用いられる好まし
い初期化方法のフローチャートである。このフローチャ
ートはまた、以下のアウトラインで描かれている。
【0069】 n=1,Nに対して ;n:カテゴリ数(nクラス) { Xmn=Norm(Xmn) (m=1,Mn) ;正規化 (1) t=1,Tに対して ;t:学習反復の回数 { m=1,Mnに対して ;m:クラスnに属する入力ベクトルの数 { X=Xmn;入力ベクトルXをクラスnに属する入力ベクトルmのXmn と置き換える (2) j=1,Jnに対して ;J:クラスnに属するウエイトベクトルの数 { Oj=O(X,Wjn) (3) } Omax=max{Oj} (4) j Wc=W(Omax) Wc−1=Wc−1+A(t)*0.1*(X−Wc−1);隣接する近 傍をさらに近づける(5) Wc=Wc+A(t)*(X−Wc);最近接のウエイトを更に近づける (6) Wc+1=Wc+1+A(t)*0.1*(X−Wc+1);隣接する近 傍をさらに近づける(7) Wc−1=Norm(Wc−1) (8) Wc=Norm(Wc) (9) Wc+1=Norm(Wc+1) (10) } } } 定義は以下の通りである。 Xmn:クラスnに属する入力ベクトルm Wjn:クラスnに属するウエイトベクトルj W(Omax):クラスnの最大出力Omaxを与える
ウエイトベクトル Wc:W(Omax) Wc−1:W(Omax)に隣接する近傍(−1)ウエ
イトベクトル Wc+1:W(Omax)に隣接する近傍(+1)ウエ
イトベクトル Norm(X):各成分が以下のように定義される、ベ
クトルXを同一基準のベクトルに正規化する関数(「n
orm」は1に等しい)
【0070】
【数3】
【0071】 O(X,W):以下のように定義される、入力ベクトルXとウエイトベクトルW との内積 O(X,W)=Σ(xi*wi) (12) i=1、I A(t):A(t)=C*(1−t/T)と規定される0<A(t)<1の範囲 でのループtの減少関数。CはC=0.1などの定数である。(13)。
【0072】他の初期化及び予備学習過程も使用される
ことができ、本発明は上記の実施例のみに限定されな
い。例えば、従来のニューラルネットワークにおいては
ランダムウエイト初期化が用いられ得る。ランダムウエ
イト初期化はまた、本発明においても使用することがで
きるが、上記の自己組織化ウエイト初期化過程ほど速く
はない。
【0073】プロセス2:LVQ2’予備学習 プロセス2のLVQ2’教師有り学習方法において、後
述される式(20)では、ウエイトベクトルは変更され
て、最大出力を有するウエイトベクトルを入力文字と同
じクラスに属する入力ベクトルにより近づけられる。同
時に、後述の式(19)では、入力文字と同じクラス以
外の他のクラスに属する入力ベクトルから、最大出力を
有するウエイトベクトルを遠ざける。
【0074】図5は、LVQ2’方法による全処理及び
構造を示しており、LVQ2’方法は図3に示されるC
PU120及び処理ノード190〜220の制御によっ
て実行される。イメージ又は他のパターンはネットワー
クの第1層(net1)に入力され(図5参照)、複数
のグループ又はカテゴリの1つに類別される。その後、
類別されたパターンはnet2へ出力される。例とし
て、net2は3つの文字サブカテゴリを示している。
その後、同様に、これらのカテゴリはnet3への入力
として使用され、複数のサブカテゴリの1つに各文字を
類別する。
【0075】図5において、矢印「A」と「B」とは、
矢印Aが、上位レベル上の1(又は0)のみのノードが
下位レベルからの所定ノードによって活性化され得るネ
ットワーク経路を示している点で異なっている。しかし
ながら、矢印Bについて分かるように、「B」の方法
(斜影)を用いている1個のノードは上位レベル上の多
くのノードを活性化し得る。「B」の方法はより正確な
結果を導き出すことができる。なぜなら、「A」の方法
を用いると正しい文字がnet1レベルで不適当に省略
され得るが、「B」の方法を用いるとその文字を適当に
認識された文字として取り出す他の機会がある。一方、
「A」の方法はパターン認識を生成する時点では、より
効率がよい。
【0076】図5のnet3層において右から2番目の
サブカテゴリは「犬」、「太」、「大」、及び「天」を
含んでいる。このサブカテゴリが、本発明の方法に対す
る入力として用いられるnet3からの出力である(本
発明の方法自体は1層ネットワークが好ましい)。
【0077】LVQ2’学習過程は2つの段階、段階#
1及び段階#2を有している。段階#1において、上記
ウエイト変更は、OmaxC(「正しいクラス」内の最
大出力値)が全体で2番目に大きい出力又はn番目(n
>2)の出力とされ、OmaxW(「間違ったクラス」
からの最大出力値)が全体の最大出力とされる条件で式
(19)及び式(20)によって行われるので、全体の
最大出力は正しいクラス内のウエイトベクトルから得る
ことができる。これは教師有り学習なので、コンピュー
タはどのクラスが正しいかを理解することができる。
【0078】段階#2において、上記ウエイト変更は、
OmaxW対OmaxCの比>RATIOの条件で式
(20)及び式(19)によって行われるので、正しい
クラスの総合最大出力値は間違ったクラスの全体で2番
目に大きい値からさらに遠ざけておくことができる。
【0079】この学習方法は、ウエイトベクトルの効果
的学習を可能とし、図7及び図8のフローチャートに示
されている。図7及び図8は以下のアウトラインで示さ
れている。
【0080】 Xm=Norm(Xm) (m=1,M) ;正規化 (14) t=1,Tに対して ;t:学習反復の回数 { [段階#1] { m=1,Mに対して ;m:入力ベクトルの数 { X=Xm ;入力ベクトルXはクラスnに属すると仮定される入力ベ クトルmのXmに置き換えられる (15) j=1,Jに対して ;j:ウエイトベクトルの数 { Oj=O(X,Wj) (16) } OmaxC=max{Oj} (17) jはクラスn内 OmaxW=max{Oj} (18) jはクラスn以外 OmaxCが全体で2番目に大きい出力又はn番目(n>2) の出力であり、OmaxWが全体で1番大きい出力である場合、 { W(OmaxW)=W(OmaxW)−A(t)*(X− W(OmaxW));W(OmaxW)をxから遠ざける (19) W(OmaxC)=W(OmaxC)+A(t)*(X− W(OmaxC));W(OmaxC)をXに近づける (20) W(OmaxW)=Norm(W(OmaxW))(21) W(OmaxC)=Norm(W(OmaxC))(22) } } } 全ての入力ベクトルが段階#1で完全に学習されると、
段階#2に進む。そうでなければ、段階#1を再び行
う。
【0081】 [段階#2] { m=1,Mに対して ;m:入力ベクトルの数 { X=Xm ;入力ベクトルXはクラスnに属すると仮定される入力ベ クトルmのXmに置き換えられる (15) j=1,Jに対して ;j:ウエイトベクトルの数 { Oj=O(X,Wj) (16) } OmaxC=max{Oj} (17) jはクラスn内 OmaxW=max{Oj} (18) jはクラスn以外 OmaxW対OmaxCの比>RATIOの場合、 { W(OmaxC)=W(OmaxC)+A(t)*(X− W(OmaxC));W(OmaxC)をxに近づける (20) W(OmaxW)=W(OmaxW)−A(t)*(X− W(OmaxW));W(OmaxC)をXから遠ざける (19) W(OmaxC)=Norm(W(OmaxC))(22) W(OmaxW)=Norm(W(OmaxW))(21) } } } 全ての入力ベクトルがウエイトベクトルを全く変更せずに段階#2を通過すれ ば、停止。そうでなければ、段階#1を再度行う。 } 定義は以下の通りである。 Xm:入力ベクトルm Wj:ウエイトベクトルj W(OmaxC):入力ベクトルXを同じクラス(正し
いクラス)に属する最大出力OmaxCと共に与えられ
たウエイトベクトル W(OmaxW):入力ベクトルXと同じクラスとは異
なるクラス(誤りのクラス)に属する最大出力Omax
Wと共に与えらえたウエイトベクトル RATIO:定数;例えばRATIO=0.50。
【0082】プロセス1と同様に、プロセス2は本発明
と組み合わせて好ましく使用される学習方法の一例であ
るので、同様に他の方法も使用されることができる。上
記の方法は前述の特願平第1−60327号に充分に説
明されている。
【0083】プロセス2の本発明の実施例は以下の通り
である。簡単に言うと、このステップによって、教師有
り予備学習において、戻されるRATIOの値が過程の
終了時には0.5(又は他の所定値)よりも小さいこと
が保証される。
【0084】1つの実施例において、各々の3つのバリ
エーション(例えば、細字、普通、太字)の2個の異な
る文字(例えばR及びH)が入力される。これらが学習
のデータベースを形成する。その後、データベース中の
各文字は本発明の方法で処理され、コンピュータは各々
の場合にどの文字が認識されたかを示す出力を発生す
る。最初のうちは、認識された文字が入力された文字と
異なることがある。コンピュータは入力文字に関する情
報(設定されたデータベースに由来する)を既に持って
いるので、これを判断することができる。この方法は充
分な回数反復されて、100%正確な認識出力(又は他
の所定の閾値)を発生する。最大反復回数は20回であ
る。従って、600個の入力(この例においては、各々
3つのバリエーションを有する2文字、及び1文字につ
き100個のフォント)に対して、認識プロセスから得
られる出力は2個であり、各々の出力は2文字のうちど
ちらかである。各正答に応じて、ウエイトベクトルはL
VQ2’法によって調節される。
【0085】この方法の反復は、比Riの値が0.5に
達すると停止される。Riは、「H」の決定に与えられ
たウエイトに対する「R」の決定に与えられたウエイト
の比である。例えば、「R」の値が0.47、「H」の
値が0.91であれば、比Riは0.47/0.91と
なり、およそ0.52である。この場合、コンピュータ
は方法を反復する。Riが0.5を下回ると、この方法
は停止される。他の場合には、方法は最大20回の反復
の後に停止される。特に、「H」の値(ここでは0.9
1)が「R」の値(ここでは0.47)よりも高い場合
は常に、コンピュータは「H」が適当な出力であると決
定する。その場合でも、コンピュータは比Riが0.5
を下回るまで方法を反復する。
【0086】例として、「犬」、「太」、「大」及び
「天」の4つの漢字を利用して、前述の方法が用いられ
る。これらの4文字は図15では上から順に並べられ、
図13(a)にも(左から順に)示されてる。
【0087】「犬」、「太」、「大」及び「天」は、そ
れぞれ5つの異なるウエイトベクトルを有するので、全
部で20個のウエイトベクトルがある。図15を参照さ
れたい。しかしながら、もちろん、認識のための出力は
4つだけである(各文字に対して1つ)。
【0088】入力イメージ領域は32×32のアレイを
備えていることが好ましい。従って、1,024の入
力、つまり32×32アレイの各マス目に対して1つの
入力がある。32×32アレイが64×64アレイから
減らされたので、各マス目は1から4の間の値である。
20個の可能な出力がある。1つの実施態様において
は、240個の可能な入力文字がある。即ち、4文字に
対して各文字60個のバリエーションである。
【0089】出力値は20個の各ウエイトベクトル(4
個の各文字に対して5個のウエイトベクトル)に対して
発生される。例えば、「犬」の出力値はそれぞれ、0.
4、0.5、0.6、0.95及び0.5であり得る。
同様に、「太」の出力値はそれぞれ、0.7、0.8、
0.7、0.6及び0.75であり得る。他の10個の
ウエイトベクトル(他の2個の文字、各文字に対して5
個のウエイトベクトル)に対して同じウエイトとなるこ
とがある。「犬」の4番目のウエイトベクトルに対する
出力値0.95は、他のウエイトベクトルのいずれに対
する出力値よりも大きいので、認識モードの間に本発明
の方法によって「犬」が選択され、正しい結果「犬」が
発生される。「犬」の出力値の中に「太」の出力値より
も小さいものがある場合でも「犬」が選択されることに
注意されたい。従って、より多くの初期選択を与えるこ
とによって、コンピュータは文字を認識する試みにおい
て正しい答えを選択するようである。この学習過程の結
果は図16に示されている。
【0090】プロセス3:寄与値の算出 本発明の方法は、ウエイト間の相関関係によって寄与値
Cm(m=1〜M、Mはタイルの数)を算出する。寄与
値は、他の文字の同様の領域とは大きく異なる所定文字
の領域を反映する。認識のために、ある文字がニューラ
ルネットワークに入力されると、その文字は文字カテゴ
リに割り付けられる。さらに文字サブカテゴリがある。
各種代表的なサブカテゴリの他の漢字は図13(a)乃
至図13(k)に見られる。図5も参照されたい。
【0091】図13(a)に示されるサブカテゴリは
「犬」、「太」、「大」及び「天」の4つの漢字を含ん
でいる。寄与値、受容野(プロセス4)及びシフト/不
変(プロセス5)に関する以下の説明は、サブカテゴリ
の全て(又は入力データパターンの他の全てのカテゴ
リ)に適用可能であるが、上記サブカテゴリについて詳
細に説明する。
【0092】従って、本実施態様においては、システム
によって発生された寄与値は「犬」、「太」、「大」及
び「天」の文字が互いに最も異なる領域を強調する。こ
れらの文字の視覚的検分から、「犬」(図13(a)の
一番左、及び図15の一番上の文字)は右肩に点30を
有し、「太」は下部中央に点35を有している。「大」
にはそのような印はなく、「天」は頂部に横棒37を有
している。
【0093】従って、この検分と寄与値の説明によっ
て、これら4つの文字の相違が見られるのは文字の右
肩、下部中央及び一般に上部の領域なので、この文字カ
テゴリに対する最も高い寄与値はこれらの領域に関連す
ることが予測される。文字の残りの領域は非常に類似し
ている(2本の湾曲した下降線及び中央の横棒)。後に
説明されて明らかになるように、視覚的検分は本発明の
システムの実際の操作によって確証される。
【0094】寄与値の算出は以下の式(32)によって
行われる。図9に示されるように各タイルのサイズは8
×8なので以下のような数値の行列又はアレイが形成さ
れる。
【0095】
【表1】
【0096】寄与値Cmの算出は以下のように行われ
る。
【0097】 Cm= Σ Σ |Wji−Wki| (32) m=1,M (j≠k) i=1,R j=1,N k=1,N (M=7*7=49タイル)。
【0098】図23は寄与値Cmを算出する方法のフロ
ーチャートである。基本的には式(32)が行われてボ
ックス11にCmの値が与えられ、以下のプロセス4で
詳細に論じられるように受容野の決定(最大寄与タイル
に基づく)を開始する。
【0099】図10は本発明のコンピュータ処理によっ
て求められた寄与値のサンプルを示している。これらの
値は「犬」、「太」、「大」及び「天」の4文字の認識
のためにウエイトベクトルから算出されたものである。
ここで、 N=4;認識されるべきクラスの数 R=8*8=64;各タイルのサイズ M=7*7=49;可能なタイルの数 上記のように、32×32画素の入力イメージ領域40
は4×4画素のマス目50に分割される。図9を参照さ
れたい(画素は個々には示されていない)。この方法で
は、最初49個の寄与タイル(contributiv
e tiles)60を規定する。各タイルはマス目5
0を4個含んでいる。従って、第1のタイル(図9のC
1)は入力イメージ領域40の左上隅にある8×8画素
のタイルである。第2のタイル(C2)は1マス分だけ
右にずれており、次の4個のマス目、即ち入力イメージ
の最上列の隣接する2個及びそのすぐ下の2列目の2個
を含んでいる。第2タイルC2の左側の2個のマス目は
第1タイルの右側の2個のマス目と重なっている。従っ
て、入力イメージ領域には横に7個のタイル、縦に7列
のタイルがあり、全部で49個の寄与タイルC1〜C4
9がある。(16×16データ領域に12×12個の受
容野領域があり、全部で25個の寄与タイルなど他の多
くのバリエーションが使用されることができる。)前述
の式(32)において、この方法は以下のように行われ
る。先ず、所定のタイル(例えばタイルC1)につい
て、文字の各対に関してそのタイル内の各画素に対する
ウエイトベクトル間の差を加算する。このようにして、
1−W2が発生され、同様にW1−W3、W1−W4、及び
2−W3が発生される。これはバリエーションの全てを
含んでいる。なぜなら、式(32)の右側の式は絶対値
であるので、W2−W3はW3−W2と同じ結果となる。こ
の計算はタイル中の各64画素に対して行われたことに
留意されたい(つまり、i=1〜64)。
【0100】従って、Wj−Wkの全ての差の和が出され
る。ここでj及びkはそれぞれ1から4であり、jとk
とは等しくない。特に、N=4は認識されるべきクラス
の数(ここでは文字の数)に相当する。
【0101】上記過程は49個のタイルの各々に繰り返
され、各タイルに対して値Cm(m=1〜49)が求め
られる。寄与値C1は4文字間の第1タイルに示される
値の全範囲を反映している。一般に、1つの文字にあっ
て他の文字にない特徴があれば、その特徴を含む1個又
は複数のタイルは比較的大きい寄与値を発生する。前述
のように、このことは、図15に示された文字「犬」の
右肩に打たれた点30はその領域を含むタイルに対して
高い寄与値を導くことを意味する。文字「太」、「大」
及び「天」が右肩隅に点をもたないからである。このこ
とは図10に反映されており、タイルC5及びC6に対し
て求められた値(C5)及び(C6)は、寄与値の行列中
に発生された他の値に対して非常に高い。確かに、丸括
弧内のランク番号によって示されるように(C値の右
側)、2つの最高寄与値が発生されている。
【0102】プロセス4:受容野を決定する(受容タイ
ルを設定する) 全ての寄与値が発生されると、文字の所定のサブカテゴ
リにおける最大差を有する領域を表す受容野が発生され
る。これを行うために、図10に示される49個の寄与
値を有する行列が最高寄与値に対して検分される。その
後、本発明の方法は文字間の相違に全体として最も寄与
する寄与値のグループを選択する。
【0103】受容野は、所定のアレイに写像された入力
情報の部分集合又は部分アレイを構成し、各々は情報の
格納されたデータベースから以前に学習されたウエイト
と比較するために分離される。これらの部分アレイは所
定のパターンから発生される。以下に詳細に論じられる
ように、寄与値は、これらの部分集合のうちどれが以前
に学習されたウエイトを最も反映しているか、つまり、
最適であるかを決定するために用いられる。入力情報に
対して最適の又は最も適合したシフトに基づいて、その
後ウエイトはその情報に更新される。
【0104】図5に関して説明された最初のサブカテゴ
リへの割り付けは、受容野プロセスと共に使用されると
非常に効率がよい。なぜなら、入力文字に適合すると仮
定される文字の組合せは、net3から得られるサブカ
テゴリへの割り付けプロセスのためにすでに非常に近く
なっているからである。
【0105】好ましい実施態様の選択プロセスは、各々
が4個の寄与値を有するそのような寄与値のグループを
4つ選択する。これによって、選択された16個の寄与
値によって決定された4個の寄与タイルの選択がなされ
る。
【0106】最大寄与タイルのグループは以下のように
選択される。4個の寄与値Cmの全ての組合せが加算さ
れる。その後、4個の値の和は全て比較され、最高の和
が選ばれる。好ましい実施態様では、さらに、重ならな
いようにタイルが選択されることが要求される。この状
態で、その後、最高の和が選ばれて4個の最高の寄与タ
イルが決定される。
【0107】実際には、これは以下の様に行われる。寄
与値(C1)、(C2)、(C3)及び(C4)の和が発生
される。その後(C1)、(C2)、(C3)及び(C5
が加えられる。これは、最終的に(C46)、(C47)、
(C48)及び(C49)の和が発生されるまで続けられ
る。これによって49C4=211,876個の和が発
生され、これらうちの最高の和が選択される。値が重な
る場合、和を最大にするタイルが選択されなければなら
ないので、重なりは認められない。
【0108】図23のステップ14は受容野を決定する
方法を示しており、下記の式(33)と同一である。ス
テップ14では、最大寄与のK個のタイルが見つけられ
る。最大の和の値Ct(k)(k=1、K)が式(3
3)及びステップ14に示される全ての可能なM個のタ
イルから決定される。ここでt(k)(k=1、K)は
寄与値の異なるグループを表す。本発明において、Kは
4に設定され、一般的には入力データを適切に弁別する
数に設定される。
【0109】最も寄与するK個の重ならないタイルは、
K個のタイルの全ての組合せ(M個よりK個の組合せ、
例えば、5C2=10個の組合せ)の和のうちどの組合
せが最も大きい(最大の)寄与値の和を有するかによっ
て、以下のように選択される。
【0110】 {t(k)},k=1,K ここで、maximum{SUM Ct(k)} (33) k=1,K。
【0111】シフト/不変の受容野を用いるニューラル
ネットワークの好ましい実施態様は図29に示されてい
る。図14は4個の受容野(タイル)を用いて得られる
文字の4つの集合のいくつかの例を示している。図14
(a)は図13(a)に相当し、図14(c)は図13
(e)に相当する。
【0112】各タイルは8×8画素なので、各タイルは
8×8=64のウエイトを有している。従って、図29
のようにタイルkに対するw1は1本の線で示される
が、この1本の線は実際にはO1から4つの受容野タイ
ルへの64個のウエイトを示している。この方法で行わ
れる何百万もの計算は、オレゴン州ビーバートンのAd
aptive Solutions Inc.(AS
I)から入手可能な「N6400」ニューラルネットワ
ークチップによって効率よく達成される。このASIチ
ップはプログラマブルであり、本発明によるニューラル
ネットワークの計算を迅速に行うことができる。しかし
ながら、他の電子的な実行も可能である。
【0113】図10に示される寄与値に前述の方法を用
いて、高い寄与値として最初に選択されるのはタイルC
6である。なぜなら、このタイルは最高の寄与値を含ん
でいるからである。しかしながら、この例から明らかな
ように、4つの選択されたタイルの総和は寄与タイルC
5及びC7を選択することによって最大となる。これによ
って、(他の2つの選択と組み合わせて)寄与値の和に
対する最大値が導き出される。従って、タイルC6はタ
イルC5及びC7に先行される。
【0114】前述のように、図12に示されるように、
タイルC3、C5、C7及びC46が選択された。これらの
タイルは「犬」、「太」、「大」及び「天」が非常に類
似していない4つの領域を示している。従って、本発明
の方法では、これらの文字が互いに最も異なっている入
力文字の領域に関するタイルを選択することを図12は
示している。つまり、予測されたように、「犬」、
「太」、「大」及び「天」の文字集合に対して最高の寄
与タイル値を有するのは、上部、右上部及び下中央部の
領域である。
【0115】寄与値が算出された後、選択された重なら
ないタイルは図9に示される入力イメージ領域に重ね合
わせられる。各寄与タイルが8×8個の画素なので、4
個の寄与タイルによって合計256個(64×4)の画
素が覆われる。
【0116】上記の方法から、ダッシュ及び星印の8×
8アレイである図12は図9に相当し、図12の各ダッ
シュ又は星印は図9の64個のマス目の1つに相当する
ことが判るであろう。つまり、図9の64個のマス目は
それぞれ32×32アレイの4×4個の領域に相当し、
ダッシュ又は星印の各々は64個のマス目の1つを表
す。星印は前述のように選択されたタイルの部分、この
例においてはタイルC3、C5、C7及びC46を形成
するマス目を表し、ダッシュは選択されないタイルを表
している。
【0117】各種文字グループのそのような重ね合わせ
の概略表示は、図13の(a)〜(k)に示されてい
る。これらの図の各々において、選択されたタイル(星
印で示される)は入力された文字(各図の上部に示され
る)が視覚検分によって互いに大きく異なる領域に一致
する。例えば、図13(c)の2つの文字(「叉」及び
「又」)は、上部中央の少し左寄りの特徴を除いては相
互に一致しており、選択された寄与タイルはこれを反映
している。同様に、図13(f)の入力された2文字
(「火」及び「人」)は左右の部分の特徴を除いては類
似しており、選択された寄与タイルはこのことを反映し
ている。
【0118】図13の(a)〜(k)の各々は、図5に
示された多層ネットワークによって既に割り付けられた
文字のサブカテゴリの1つを表している。従って、本発
明のニューラルネットワークは、入力が既にサブカテゴ
リに割り付けられた文字である単層ネットワークである
ことが好ましい。
【0119】図13(a)〜(k)を見ると、各場合に
本発明の方法によって選択された寄与タイルは、各グル
ープにおいて互いに最も異なる漢字の領域を強調してい
る。この方法を実施するコンピュータにこれらの領域の
みを検分させることによって、正確さを維持したまま、
文字認識のための処理時間が非常に短縮される。これら
の寄与タイルは本発明の「受容野」を形成する。従来の
ニューラルネットワークは入力領域全体を用いて漢字又
は文字を弁別する。
【0120】概して、選択された受容野のサイズを認識
に必要な特徴サイズと等しく又は少し大きくすることが
好ましい。幾分大きい場合は、シフトされたデータが本
発明によって容易に検出され得る。
【0121】図17の選び出された領域が図16の類似
した領域とは異なる理由は、図16のように、正規化が
入力文字全体よりもむしろ4つの受容野に行われるから
である。従って、それらは正規化係数の分だけ異なって
いる。
【0122】これらのテスト結果は各文字について5つ
のノードに関連している。つまり、図15に示される様
に、各文字には5つの例があった。テストは36の漢字
について行われ、これらの漢字は11個のサブカテゴリ
を有しており、各サブカテゴリは2個から4個の漢字で
構成される。図13はこれら36個の漢字のうち24個
及びそのサブカテゴリの内容を示している。
【0123】特定の閾値は「黒」及び「白」の間の分割
線を決定する。実際のデータは1バイトの階調、つまり
8ビット、言い換えれば256個の階調値で読み取られ
る。黒/白の閾値が、実験結果に対して、256階調に
ついて100個の読み取り、140個の読み取り及び1
80個の読み取りにそれぞれ設定された。本発明のシス
テムは0から255の間のいかなる値にも設定され得る
スライド式階調を用いる。
【0124】図19は、入力データ、即ち図18に示さ
れる文字の右上隅に位置する受容野における各種入力デ
ータを示している。図19のデータは平仮名から導き出
されたものであり、本発明のシステムによって学習され
るべき入力イメージである。特に、図19の最下段には
5つのイメージがあり、それぞれ異なる位置に小さな円
(半濁点)がある。例えば、最下段の中央のイメージの
円は下の方にある。同様に、中央の段のイメージに見ら
れる対の線(濁点)もまた、それぞれの位置にある。従
って、これらの入力イメージは以下に論じられる、プロ
セス5のシフト/不変過程のためのよい候補である。
【0125】図18は6つの平仮名を示している。全部
で169個の平仮名及びカタカナがある。平仮名におい
ては、図18に示されるように、平仮名は右上隅に濁点
又は半濁点を持っているか何も持たないかのどちらかな
ので、与えられた文字のサブカテゴリについては単一の
受容野を用いれば充分である。従って、右上隅における
受容野はこれらの文字を弁別するには充分である。こう
いう理由で、図19の入力イメージが使用され得る。
【0126】もちろん、文字は既に適当なカテゴリに割
り付けられていると仮定されている。本実施例では、全
領域は32×32画素であるが、受容野は16×16画
素である。従って1つの受容野タイルは12×12画素
であり得、16×16画素の入力領域内で上記の方法に
よってシフトされる。前述のシフトは一度に1画素に行
われたのに対して、このシフトは一度に2画素に行われ
得る。他の所定数の画素もシフトプロセスに対して使用
されることができ、或る1次元のシフト量は他の次元で
のシフト量と同じである必要はない。
【0127】169個の平仮名及び片仮名は、本発明が
用いられほとんどが漢字である約4,000文字の1つ
のサブカテゴリを構成し得る。平仮名のクラス分類に
は、1文字から3文字程度で構成される複数のサブカテ
ゴリがある。これらの文字のサブカテゴリのほとんどに
対しては、右上隅の受容野を用いて濁点又は半濁点があ
る、又は何もないかを判断すれば充分である。従って、
これらの各サブカテゴリのには最大3個の出力がある。
他のサブカテゴリには異なる出力の数又は位置が必要と
される。
【0128】プロセス5:シフト/不変を適用する 受容野が発生されると、前述のLVQ2’法にシフト/
不変改良が用いられることができる。或いは、LVQ
2’プロセスはシフト/不変なしで使用されることも可
能であるが、本発明のシフトされない受容野に適用され
ることができる。さらに他の方法では、以下のシフト/
不変法が、複数の受容野を用いずにパターン認識に適用
される(ここではパターンの全領域が1つの受容野と見
なされ得る)。これらの実施態様のいずれにおいても、
本発明は非常に正確な文字認識を提供する。
【0129】シフト/不変法については、先ず定性的に
論じられ、次に更に詳細な数学的処理が与えられる。こ
のためのネットワークの構造は図21に示されており、
その適用の一例は図22に示されている。先ず、部分入
力データI1がネットワークに送られ、出力値が算出さ
れる。次に、部分入力データI2がネットワークに送ら
れ、出力値が算出される。この場合、I2の出力ノード
と入力ノードとの間のウエイトはI1のウエイトに等し
い。出力ノードと部分入力ノードとの間のウエイト集合
の全てが等しい。
【0130】出力ノードとI2部分入力ノードとの間の
ウエイトが更新されると、部分入力データI2はウエイ
トを変更するために使用される。つまり、図22におい
ては、ハッチングの施されたノード80に導かれるウエ
イトベクトル70(点線で囲まれている)、及び黒塗の
ノード100に導く同種のウエイトベクトルが更新され
る。他のノードに導かれる他のそのようなウエイト90
が示されている。
【0131】図22のノード100は正しいクラスのノ
ードに対して発生された最大値を表し、ノード80は間
違ったクラスのノードに対して発生された最大値を表し
ている。以下に図24〜図28及び図32を参照して説
明されるように、ウエイトはノード80及び100の結
果に基づいて更新される。
【0132】日本語には非常に類似した文字がある。例
えば、図18には6個の日本語の文字が示されている。
上段又は下段の3個の文字は2つの点または1つの小さ
な円を除いては、ほぼ同じ形を有している。
【0133】これらの2つの点(濁点)又は小さな円
(半濁点)は、日本語においては右上の4分の1の領域
に常に現れる。図19はこれらの文字の全領域のほぼ4
分の1を示している。下段の文字は小さい円、中央段の
文字は2つの点を有しており、上段の文字は小さい円も
点も持っていない。これら3つのカテゴリが弁別されれ
ば、それらの文字の認識は非常に正確になされることが
できる。従って、これらの特徴に対するウエイトをシス
テムが学習することが重要である。以下に詳細に論じら
れるように、本発明によるネットワークの実際の実施で
は図20に示された2つの点及び小さな円を抽出した。
【0134】図32では、文字の入力位置の可能なシフ
トを補償するために、受容野70の各々が、より大きい
入力領域80内でその中央の回りにシフトされている。
従って、図32のイメージI5は、本例において入力さ
れたままの受容野の位置を示している。イメージの影の
部分は受容野のウエイトを示しており、黒い実線のイメ
ージは不変の受容野の周囲の入力領域を示している。図
30には、イメージI1及びI2が拡大されて示されて
いる。
【0135】図31は受容野のシフトについての他の構
成が示されており、ここで、入力領域は12×12の行
列で、受容野は10×10の行列で構成され、2つの次
元(縦方向及び横方向)の各々に対して2つの方向(負
及び正)の各々に一度に1画素だけシフトさせる。つま
り、受容野は、横方向に2画素分左へ(負の方向へ)、
縦方向に2画素分上へ(正の方向へ)シフトされてイメ
ージI1を発生する。イメージI2は受容野を左に1画
素及び上に2画素シフトさせることによって発生され
る。他のイメージは同様にして発生され、イメージI2
5は受容野を横方向には正の向きに(つまり右に)2画
素、縦方向には負の向きに(つまり下に)2画素シフト
させることによって発生される。以上から明らかなよう
に、図31においてイメージI13(図示されない)は
シフトされないイメージである。
【0136】再び図32では、イメージI1〜I9は受
容野のシフトされた異なる位置の影のイメージ及び実線
のイメージの相対位置を示している。図22に示された
一般化された構成を参照することも有用である。
【0137】本実施例における受容野は8×8画素アレ
イであり、各入力イメージ領域I1〜I9は10x10
画素領域である。(図31に示されるように、16x1
6の入力イメージ領域内で12×12受容野など他のサ
イズも使用され得ることはもちろんである。)従って、
イメージI5が入力領域の受容野のセンタリングを示
し、I4はI5に対して受容野を1画素左にシフトさせ
たイメージを示している。同様にイメージI2は受容野
を1画素上にシフトしたものであり、イメージI1は左
に1画素及び上に1画素シフトしたものである。図10
に示される他の入力領域Iもまた、図示されるように横
方向又は縦方向に、右又は左にゼロ又は1画素だけシフ
トさせたものである。前に代替例として述べたような他
のサイズの構成では、縦又は横方向のそれぞれに、或い
は軸を回転する又はシフトされた受容野において1つ、
2つ又はそれ以上の可能なシフト位置があり得る。
【0138】受容野は、各受容野が入力ベクトルにでき
るだけ厳密に対応するように選択される意味においてシ
フト/不変能力を有している。入力ベクトルはその受容
野周辺の可能な多くの位置のいずれかに現れ得る。図3
2の例において、本発明の方法は、I6のように右にシ
フトされた結果を生じる。I6では入力データと学習デ
ータがぴったりと一致している。
【0139】学習プロセスは入力データのウエイトベク
トルを変化させて、入力文字と同じクラスに属する最大
値の受容野ウエイトベクトルを、各受容タイル(野)周
辺の最適位置で入力ベクトルに近づける。加えて、学習
プロセスは、入力文字の正しいクラス以外のクラスに属
する最大値の受容野ウエイトベクトルを、各受容タイル
(野)周辺の最適位置で入力ベクトルから遠ざける。
【0140】図33に関連する以下の説明は、図32に
関する上記具体的説明をさらに一般化したものである。
このシフト−許容(tolerance)学習ベクトル
量子化(以下STLVQと称す)はコホーネンによって
提案された学習ベクトル量子化2(LVQ2)と幾分似
通っているが、重要な変化がある。
【0141】図33は2層のSTLVQ構造を示してい
る。第1層において、入力データとウエイトベクトルの
内積が算出される。第2層においては、各クラスの最大
出力値が選択される。ネットワークへの入力はM×Mの
イメージであり、出力はN個のクラスに対応するN個の
ノードからなる。第1層は以下の構造を有する。
【0142】各ノードはK×Kサイズのローカル受容野
を有する(M>K)。(図32の実施態様において、M
=10及びK=8である。)受容野のサイズは認識に必
要な特徴のサイズよりも少し大きいかそれに等しい。
【0143】入力データのサイズは可能にシフトされた
特徴を充分含む大きさである。各ノードはM×M入力イ
メージから抽出されたK×K部分領域を覆っている。部
分領域は互いに重なっているので、部分領域の総数Sは
(M−K+1)×(M−K+1)である。(図32の実
施態様ではS=9である。)各部分領域にはN×L個の
ノード及びN×L個のウエイトベクトルがある。Nはク
ラスの数であり、Lは1クラスのノードの数である。
(上記実施態様では、図15に示されるようにN=4
(4つの異なる文字)であり、L=5(各文字毎に5つ
の異なるフォント又は表示)である)。
【0144】シフト/不変適合を達成するために、ウエ
イト分配(weight−sharing)法が図32
の構造に適用される。1つの部分領域に対するN×L個
のウエイトベクトルの集合は、他の全ての部分領域に対
するウエイトベクトルの集合と等しくされる。合計N×
L×S個のノード及びN×L個の分配されたウエイトベ
クトルが第1層には存在する。出力値を得るために、ウ
エイトベクトルと部分領域データの内積が算出される。
このようにして、下記の式(101)によって、N×L
×S個(図32では180個)の出力値が、各入力デー
タに対して算出される。同じクラスに属する全てのノー
ドは第2層の1つのノードに結合される。
【0145】 O1nls=Wnl・Xs;n=1,…,N,l=1,…,L,s=1,…,S (101) ここで、O1nlsは第1層のノードの出力値、Wnlはn番
目のクラスのl番目のウエイトベクトル、Xsはs番目
の部分領域データである。
【0146】第2層はN個のクラスに対応するN個のノ
ードを有する。第2層のノードは以下の式(102)に
よってL×S値の最大値を選択する。
【0147】O2n=max{l=1,L;s=1,S}(O1nls) O2nは第2層のn番目のクラスの出力である。
【0148】認識モードにおいて、第2層の最大出力値
を有するノードが見つけられ、そのノードの属するカテ
ゴリが認識結果となる。ウエイトベクトルは全ての部分
領域データに適合するので、正しいノードの出力値は入
力データがシフトされても高い値のままである。
【0149】学習モードにおいて、STLVQ学習は以
下のように行われる。最も近い(最大出力値)クラスW
が間違いで、次に近いクラスCが正しい場合、以下の過
程が行われる。
【0150】
【数4】
【0151】この学習装置及び方法において、N×L個
のウエイトベクトルから1個のウエイトベクトルが選ば
れ、(M−K+1)×(M−K+1)個の部分領域から
1個の部分領域が選ばれる。この過程によって入力デー
タの適当な位置を選択するので、STLVQは入力特徴
がどこにシフトされても認識のための適当なウエイトベ
クトルを学習することができる。
【0152】以下の方法の概要は図24〜図28のフロ
ーチャートに対応しており、前述のプロセスの実施を詳
細に述べるのもである。
【0153】 Xm=Norm(Xm) (m=1,M) ;正規化 (14) t=1,Tに対して ;tは学習反復の回数 { [段階#1] { m=1,Mに対して ;mは入力ベクトルの数 { X=Xm ;入力ベクトルXはクラスnに属すると仮定される入力ベクト ルmのXmを表す (15) j=1,Jに対して ;jはウエイトベクトルの数 { k=1,Kに対して ;kは寄与タイルの数 { i=1,Iに対して ;入力ベクトルXのタイルt(k)のシフトされ た異なる位置iを発生する { Oij(t(k))=O(xi(t(k)),wj(t(k))) (23) } Omaxj(t(k))=max{Oij(t(k))}:最適位置を見い i 出す (24) } } OmaxC=max{SUM Omaxj(t(K))} (25) k=1,K jはクラスn内 OmaxW=max{SUM Omaxj(t(k))} (26) k=1,K jはクラスn以外 OmaxCが全体で2番目に大きい出力又はn番目(n>2)の出力 であり、OmaxWが全体で一番大きい出力である場合、 { k=1,Kに対して { W(OmaxW)(t(k))=w(OmaxW)(t(k))−A(t)* (X(OmaxW)(t(k))−w(OmaxW)(t(k))) (27) W(OmaxC)(t(k))=w(OmaxC)(t(k))+A(t)* (X(OmaxC)(t(k))−w(OmaxC)(t(k))) (28) } k=1,Kに対して w(OmaxW)(t(k))=RNorm(w(OmaxW)(t(k))) (29) w(OmaxC)(t(k))=RNorm(w(OmaxC)(t(k))) (30) } } } } 全ての入力ベクトルが段階#1で完全に学習されると段階#2へ進む。そうでな ければ、段階#1を再び行う。
【0154】 [段階#2] { m=1,Mに対して ;mは入力ベクトルの数 { X=Xm ;入力ベクトルXはクラスnに属すると仮定される入力ベクトル mのXmを表す (15) j=1,Jに対して ;jはウエイトベクトルの数 { k=1,Kに対して ;kは寄与タイルの数 { i=1,Iに対して ;入力ベクトルXのタイルt(k)のシフトさ れた異なる位置iを発生する { Oij(t(k))=O(xi(t(k)),wj(t(k))) (23) } Omaxj(t(k))=max{Oij(t(k))}:最適位置を見い出 i す (24) } } OmaxC=max{SUM Omaxj(t(K))} (25) k=1,K jはクラスn内 OmaxW=max{SUM Omaxj(t(k))} (26) k=1,K jはクラスn以外 OmaxW対OmaxCの比>RATIOの場合、 { k=1,Kに対して { W(OmaxC)(t(k))=w(OmaxC)(t(k))+A(t)* (X(OmaxC)(t(k))−w(OmaxC)(t(k))) (28) W(OmaxW)(t(k))=w(OmaxW)(t(k))−A(t)* (X(OmaxW)(t(k))) (27) } k=1,Kに対して w(OmaxW)(t(k))=RNorm(w(OmaxW)(t(k))) (30) w(OmaxC)(t(k))=RNorm(w(OmaxC)(t(k))) (29) } } } } ウエイトベクトルWを全く変更せずに全ての入力ベクトルが段階#2を通過すれ ば、停止。そうでなければ段階#1を再び行う。 } 変数は以下のように定義される。
【0155】t(k):k番目に大きい寄与タイルであ
るタイルの番号。 xi(t(k)):タイルt(k)のウエイトベクトル
のシフト位置iに置かれるタイルt(k)の周辺の入力
ベクトル。 wj(t(k)):ウエイトベクトルjのタイルt
(k)のウエイトベクトル。 X(OmaxC)(t(k)):入力ベクトルXと同じ
クラスに属する最大出力OmaxCを求めるためのタイ
ルt(k)周辺の最適位置にある入力ベクトル。 W(OmaxW)(t(k)):入力ベクトルXと同じ
クラス以外の他のクラス(誤りのクラス)に属する最大
出力OmaxWを求めるためのタイルt(k)のウエイ
トベクトル。 x(t(k))=RNorm(x(t(k)):
【0156】
【数5】
【0157】RATIO:定数;例えばRATIO=
0.5。
【0158】上で説明されたシフト/不変LVQ2’法
を図32に照らして説明する。先ず、ベクトルXmは、
前述されたように正規化される(前記式(0)を参
照)。Tは学習反復の所望の回数に設定され、例えば2
0に設定され得る。Mは入力ベクトルの数に設定され、
前述の実施例では49である。Jはクラスnに属するウ
エイトベクトルの数に設定され、Nは認識されるべきパ
ターンのクラスの総数である。1個以上のウエイトベク
トルがN個のクラスの各々に対して算出される。例え
ば、図15に示されるN=4のクラスの各々に対して5
個のウエイトベクトルが発生される。
【0159】図25のステップ4において(上記式(1
5))、入力ベクトルXmはクラスnに属すると最初に
仮定され、XはXmに設定される。
【0160】式(15)及び(23)乃至(30)は段
階#1及び段階#2のいずれにおいても使用されること
に注意されたい。しかしながら、これらの段階は異なる
目的を有している。段階1はウエイト更新を、文字また
はパターンの認識が完全に行われるように、又は変数t
がLOOPMAXの値に達するまで(実施例中では2
0)行う。この段階1は、上記図7の段階#1にt
(k)が挿入されものと幾らかの類似性を持つ。kは1
からKである。Kは考慮される寄与タイルの数であり、
実施態様では4である。式(23)乃至(30)はこの
ステップで新出の式であり図7及び図8の過程では使用
されていない。
【0161】上記式(23)(図25のステップ9)に
おいて、第1例では、Oijは図32のイメージI1を指
す。つまり、O1jは図32のイメージI1に関連し、O
2jは図32のイメージI2というようになる。「xi
(t(k))」はタイル番号「k」を指す。従って、t
(k)は寄与タイルとして選択された4個のタイルのう
ちの1個である。xi(t(k))は所定のタイルt
(k)の図32に示された特定のシフト(1〜9)を表
す。内積が式(23)で求められ(図25のステップ
9)、それによって各タイルt(k)に対するアレイO
ijが発生される。
【0162】式(24)において(図25のステップ1
2)、最適位置i(iは1〜9)を見つけるために最大
のOij(Omaxj)が決定される。例えば、図10に
おいて、特定のタイルに対してi=6が最適位置であ
る。従って、シフトされたタイルの最適値が決定され
る。Omaxjはこの最適値に等しく設定される、つま
り最大の値Oijは式(23)によって求められる(ステ
ップ9)。
【0163】式(25)において(ステップ17の第2
式)、式(24)によって求められた最適値は4個の受
容野タイルのあらゆる組合せで加算される。つまり、4
個のタイル各々に対する最適のOmaxの値が加算され
る。式(25)によって、入力文字として正しいカテゴ
リにあるウエイトに対する最高値(OmaxC)が、そ
のカテゴリに対する学習されたウエイトに近づけられ
る。同様にして、式(26)によって、間違ったカテゴ
リ(入力文字以外のカテゴリ)のウエイトに対する最高
値はそのカテゴリに対する学習ウエイトから遠ざけられ
る。
【0164】例えば、図29では、10×10の各位置
づけ領域(positioningarea)は全領域
32×32アレイのほぼ1/10である(32x32=
1024であるから)。従って、式(24)のOmax
jが、例えば、およそ0.8〜0.98である場合には
式(25)のOmaxC(ステップ17)は4個の最適
な数の和であり、従って、約0.85になる(例えば、
0.85=0.2+0.21+0.24+0.2)。正
規化RNorm(式(31)参照)は4個の受容野ウエ
イトベクトルに対して行われる。
【0165】記号Cは正しいカテゴリにおいて識別され
た文字に対する最適値を示す。このようにして学習モー
ドで、コンピュータはどれが正しいカテゴリであるかを
理解する。記号Wは正しくない(間違った)カテゴリの
最適値を示す。これによっても、コンピュータはカテゴ
リは正しいか正しくないかを理解する。このようにし
て、式(25)及び(26)を用いて、この方法は正し
いクラス(つまり正しい認識)に対する最高値ベクトル
及び正しくないクラスに対する最高値ベクトルを戻す
(return)。
【0166】従って、「犬」に対して0.9、0.8
5、及び0.8の値が求められる。「犬」が正しい文字
であればOmaxCは0.9に設定される。同様に、
「太」に対しても0.45、0.4、及び0.35の値
が求められる。この場合OmaxWの値は0.45、つ
まり間違った文字に対する最高のOmax値に設定され
る。
【0167】上記過程を実行するために、図3のCPU
120及び処理ノード190〜220は全ての必要なデ
ータ及び変数を互いに伝送する、この過程を実行するた
めのプログラム命令はメモリ130に記憶されている。
メモリはこのためのRAM及びROMを備えている。
【0168】このように、上述のように処理した後、3
2×32のイメージは処理ノード190〜220に伝送
され、これらのノードは上記公式及び方法によって計算
を行ってOijに対する値を戻す。このようにして、全
プログラム制御はCPUにおいて行われ、ノード特有の
処理はローカル処理ノードによって行われる。
【0169】処理ノード190〜220の出力はM×N
の大きさの行列270を備えている(M個の入力ベクト
ルxN個の部分入力データ)。この行列の値のうち1つ
は値280つまりOmaxCであり、他の1つは値29
0つまりOmaxWである。これらの値は上記のように
ウエイトベクトルの更新に用いられる。
【0170】OmaxCがOmaxWよりも小さいこ
と、言い換えれば、間違った文字が正しい文字よりも大
きいOmaxの値を実際に発生する可能性がある。これ
が起こると、式(27)及び(28)の過程(図26の
ステップ20)が続いて行われる。式(27)は、W
(OmaxW)をX(OmaxW)(t(k))から遠
ざけてOmaxWを小さくする。式(28)はW(Om
axC)をX(OmaxC)(t(k))に近づけてO
maxCを大きくする。従って、W(OmaxW)及び
W(OmaxC)のこれらのわずかな更新は正しくない
結果、言い換えればOmaxCの値よりも大きいOma
xWの発生を補償する。
【0171】以上から明らかなように、本発明のニュー
ラルネットワークを用いる認識モードにおいて、出力値
全部のうち最大の出力値を有するノードのクラスは認識
結果として選択される。従って。このネットワークによ
って文字が処理されると、その文字は、ウエイトが出力
値に最も近い文字として識別される。学習過程に対する
認識モードにおいても同じことがいえる。学習過程もま
たこの認識過程を用いて、学習ウエイトに基づいて、所
定の入力文字が適当に識別されているかどうかをテスト
する。
【0172】本発明の受容野の特徴はシフト/不変特徴
を用いずに使用されることができる。しかしながら、O
maxC及びOmaxWの使用は本発明の効率及び正確
さに充分貢献するので、それらを使用することが好まし
い。
【0173】逆に、図24〜図26においてK=1であ
る場合には、複数の受容野を用いずに、結果として全体
の領域を1つの受容野として用いてシフト/不変過程を
使用することになる。これは、一部のみでなく全体の入
力パターンがシフトされる有用な変化例である。受容野
はこの実施例では入力アレイサイズ全体に等しい(或い
は厳密にではなく、ほぼ等しいこともある)。
【0174】これら2つの実施例は連続するもの(co
ntinum)のうちの両極端である。即ち、(1)1
個から多くの受容野を用いること、及び(2)シフト/
不変過程において1個から多くのシフトされた位置の入
力領域を用いること、である。
【0175】ウエイト更新は最終的には式(29)及び
(30)によって実行される(図26のステップ2
1)。これでシフト/不変過程の段階#1は終了する。
【0176】本発明の方法は再び認識過程を通り、更新
されたウエイトを用いて、正しい出力が出されたかどう
かを再び判断する(ステップ26、図26)。出力が正
しければ、段階#2に入り、そうでなければ段階#1が
繰り返される。段階#2は全てのiに対して0.5より
も小さいRiを発生する方法であって、LVQ2’法で
前に説明された段階#2と類似している(上記プロセス
2の説明参照)。
【0177】段階#2において、ウエイト変更は、Om
axW対OmaxCの比>RATIOという条件で、式
(27)及び(28)によって行われるので(図28の
ステップ44)、正しいクラス中全体で最大の出力値
は、間違ったクラス中全体で次に大きい出力値からさら
に遠ざけられたままとされ得る。これは上記プロセス2
(LVQ2’)の式(19)及び(20)による過程と
似ているが、これはシフト/不変過程に適用される。
【0178】以上から明らかなように、シフト/不変法
の本来の目的は、受容野周辺の入力領域に、受容野のウ
エイトに対する最適な位置を設定することである。
【0179】図17は、シフト/不変プロセスを図16
のウエイトベクトルに適用した結果を示している(前述
したように、図16は、図15の初期化されたウエイト
ベクトルにプロセス2を適用した結果である)。図10
に示される受容野C3、C5、C7及びC46によって
覆われ、図16の文字に重なる領域が図17に現れてい
ることがわかる。
【0180】従って、図16は本発明の実施においてプ
ロセス2によって調整されたウエイトベクトルを示して
いる。この図において、黒いスクエアは+(正)のウエ
イトを表し、そのサイズは大きさを表している。同様
に、白いスクエアは−(負)のウエイトを表し、サイズ
又は面積はウエイトの大きさを表している。図17は、
図10乃至図12に示されるようにプロセス3及び4に
よって受容野を設定された後、プロセス5によって調整
されたウエイトベクトルを示している。
【0181】図20は、得られる受容野ウエイトベクト
ル(左側は濁点、右側は半濁点)を示しており、これら
のウエイトベクトルはプロセス5のシフト/不変法によ
って図19の入力データから実際に得たものである。こ
れを図18を比べてみると、図18及び図19の検分か
ら分かるように、部分入力データ(文字の右上の無記、
濁点及び半濁点のそれぞれ)が図19の入力データ中多
くの異なる相対位置に現れても、異なる文字を区別する
特徴は効率よく分離され、図20のウエイトベクトルに
正確に示されている。
【0182】図20に示される2つのウエイトは、サブ
カテゴリ中に2文字のみ有する平仮名のサブカテゴリに
関連する、或いは1文字は濁点を有し、1文字は半濁点
を有し、1文字は何も持たないサブカテゴリに関連して
いる。図20の結果の一般化に用いられた実際のデータ
は、後者のサブカテゴリから得られたものである。
【0183】図34及び図35は本発明の方法の言語認
識への適用を示している。これらの図から、この方法は
1次元データにも同様に適用可能であることが分かる。
【0184】図34の上段は所定の入力データの例に対
するウエイトベクトルを示している。例えば、これは音
節「ka」(或いは他の有声音節)を表しているとす
る。図34の下段はシフト/不変法に基づくデータのシ
フトを示している。この例では入力データの5つのシフ
トを示している。
【0185】図34の上段に示されたウエイトベクトル
の波形は、学習プロセスのためにシフトされた部分入力
データI1〜I5の全ての波形と比較される。周波数対
時間のスペクトル領域はワイベル(Waibel)のT
DNN法と同じ方法で作られ得る。これによって入力デ
ータの時間シフトが補償される。しかしながら、上記の
ように、本発明のシフトはウエイトを更新する前に行わ
れる。
【0186】図34の下段に示されるイメージI1〜I
5中の最適なイメージ(図35のI3)は図35の上段
のウエイトベクトルに対して選択される。従って、本発
明の方法は、言語認識の環境に容易に適応することがで
きる。同様に、パターン認識のためのデータの各種タイ
プと組み合わせて使用されることもできる。
【0187】テスト結果以下の表2は、受容野過程を用
いる場合及び用いない場合の両方に於ける本発明の正確
度を示している。これらの結果は、シフト/不変学習を
用いる受容野法が行ったテストデータに対してエラーが
なかったことを示している。
【0188】
【表2】
【0189】これらのテストに含まれる要素は以下のと
おりである。
【0190】シフト/不変ネットワークを用いて4個の
タイルの受容野をテストする 入力データ:32×32メッシュ ノード:各文字に対して5個のノード 1個のタイル:8×8 そのシフト領域:10×10 11のサブカテゴリ(サブカテゴリ当たり2文字〜4文
字)を有する36個の漢字の集合に対して行った。
【0191】データ: 13フォント×3閾値(100,140,180)によ
る学習 他の13フォント×3閾値(100,240,180)
に対するテスト。
【0192】認識方法 表2の結果を得るために使用された認識方法は以下の通
りであった。
【0193】方法1.受容野のない入力領域全体(32
x32メッシュ) プロセス1及び2によるLVQ2’学習によってT=2
0回の反復の間に調整された後、ウエイトをテストす
る。
【0194】テストはプロセス2のステップ4において
Xに入力された文字ベクトルを送り、その後ステップ5
からステップ11を行って結果を得た(最大の出力が入
力文字ベクトルと同じクラスに属している場合は正しく
(ステップ11のY)、最大の出力が同じクラス以外の
クラスに属している場合はエラー(ステップ11のN)
である)。
【0195】方法2.シフト/不変ネットワークを用い
ない受容野 位置の一般化を行わないプロセス1、2、3、4、及び
5を通して、方法1で初期化されたウエイトを用いる受
容野を伴うLVQ2’学習によってT=20の反復の間
に調整された後、ウエイトをテストする(I=1、つま
り、シフトなし)。
【0196】テストはプロセス5のステップ4でXに入
力文字ベクトルを送り、その後ステップ5からステップ
18を行い(ステップ8で位置の一般化は行われずステ
ップ11でI=1である)、結果を得た(最大の出力が
入力文字ベクトルと同じクラスに属する場合は正しく
(ステップ18のY)、最大の出力が同じクラス以外の
クラスに属する場合はエラー(ステップ18のN)であ
る)。
【0197】方法3.シフト/不変ネットワークを用い
る受容野 プロセス1、2、3、4、及び5を通して、方法1で初
期化されたウエイトを用いる受容野を伴うシフト/不変
LVQ2’学習によってT=20の反復の間に調整され
た後、ウエイトをテストする。
【0198】テストは、プロセス5のステップ4でXに
入力文字ベクトルを送り、その後ステップ5からステッ
プ18を行って結果を得た(最大の出力が入力文字ベク
トルと同じクラスに属する場合は正しく(ステップ18
のY)、最大の出力が同じクラス以外のクラスに属する
場合はエラー(ステップ18のN)である)。
【0199】方法1では、936個の入力文字のうち合
計921個の正しい読み取りを行い、98.34%の正
確さであった。これには受容野のない32×32の領域
が使用された。
【0200】方法2では、936個のうち正しく認識さ
れた文字は933個であり、99.68%の正確さであ
った。方法2は受容野を用いたがシフト/不変法は用い
なかった。
【0201】方法3では受容野及びシフト/不変ネット
ワークの両方が使用され、936個のうち正しく認識さ
れた文字は936個であり、100%の正確さであっ
た。
【0202】平仮名及び片仮名(例えば図18を参照)
の識別を行う本発明の正確さは、以下の表3に示されて
いる。LVQ2法において、入力データに対して16×
16のサイズが使用された(図22参照)。ウエイトベ
クトルのサイズは12×12であったので、図31に示
されるようにシフト可能な位置は25個であった。結果
は以下の通りである。
【0203】
【表3】
【0204】上記テストのための文字集合は、4,00
0個の漢字、平仮名及び片仮名を含んでいた。
【0205】
【発明の効果】本発明によれば、上記説明から明らかな
効果に加えて、未学習データ(つまり認識されるべきデ
ータ)の特徴が学習データの類似する特徴の位置に関連
してシフトされる場合でも高い認識能力を提供し得る、
改良されたニューラルネットワーク学習装置及び方法を
提供することができる。
【図面の簡単な説明】
【図1】本発明の方法の全体を示すフローチャートであ
る。
【図2】連係する近傍を有するウエイトベクトルの写像
である。
【図3】本発明によるシステムのブロック図である。
【図4】本発明の好ましい方法を示す高いレベルのフロ
ーチャートである。
【図5】本発明の入力データをサブカテゴリに割り付け
るネットワークを示す説明図である。
【図6】入力データを自己組織化するための本発明によ
る方法を示すフローチャートである。
【図7】入力データを予備学習するための方法のフロー
チャートである。
【図8】入力データを予備学習するための方法のフロー
チャートである。
【図9】図3の方法を32×32画素入力イメージ領域
に適用した結果の一例を示す説明図である。
【図10】サンプルの漢字4文字から得られた寄与値の
アレイである。
【図11】4つの最も高い寄与値を有する図10の寄与
タイルを表している。
【図12】図11の寄与タイルの図9の32×32アレ
イへの適用を示している。
【図13】多数の漢字のサブカテゴリへの、寄与タイル
の適用を示している。
【図14】漢字の4個のサブカテゴリに対する受容野を
示している。
【図15】文字のウエイト及び受容野を表示する、本発
明のコンピュータ処理の1画面を示している。
【図16】文字のウエイト及び受容野を表示する、本発
明のコンピュータ処理の他の1画面を示している。
【図17】文字のウエイト及び受容野を表示する、本発
明のコンピュータ処理のさらに他の1画面を示してい
る。
【図18】平仮名のウエイトを示している。
【図19】平仮名の受容野のウエイトを示している。
【図20】本発明シフト/不変法による処理の後の、図
19における受容野の2つの例を示している。
【図21】シフト/不変法で用いられた本発明の構造を
示している。
【図22】シフト/不変法で用いられた本発明の構造を
示している。
【図23】寄与値を計算する方法を示すフローチャート
である。
【図24】本発明のシフト/不変法を示すフローチャー
トである。
【図25】本発明のシフト/不変法を示すフローチャー
トである。
【図26】本発明のシフト/不変法を示すフローチャー
トである。
【図27】本発明のシフト/不変法を示すフローチャー
トである。
【図28】本発明のシフト/不変法を示すフローチャー
トである。
【図29】本発明のシフト/不変受容野ネットワークを
示している。
【図30】シフト/不変法のための異なる入力ベクトル
の例を示している。
【図31】シフト/不変法のための異なる入力ベクトル
の例を示している。
【図32】シフト/不変法によって発生された受容野の
異なる位置を示している。
【図33】本発明のシフト/不変システムの概括的説明
の構成を示している。
【図34】シフト/不変法の言語認識への適用を示して
いる。
【図35】シフト/不変法の言語認識への適用を示して
いる。
【符号の説明】
100 イメージ 190〜220 処理ノード 230〜260 ローカルメモリ 270 行列
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G06F 15/18 560 G06G 7/60 JICSTファイル(JOIS) WPI(DIALOG)

Claims (13)

    (57)【特許請求の範囲】
  1. 【請求項1】ニューラルネットワークと該ニューラルネ
    ットワークの入力に接続された複数の画素からなるアレ
    イとを備えたニューラルネットワークシステムにおい
    て、該ニューラルネットワークの学習情報に関するウエ
    イトを更新する方法であって、該ニューラルネットワー
    クは、該学習情報を保持するデータベースを有し、該方
    法は、 (a)入力された情報をアレイに写像するステップ、 (b)該アレイを構成する該複数の画素のうち、選択さ
    れた少なくとも1つの画素を含む領域を分離するステッ
    プ、 (c)該選択された少なくとも1つの画素を含む領域を
    少なくとも所定の方向にシフトするステップ、 (d)シフトする前の位置及びシフトした後の位置の該
    選択された少なくとも1つの画素を含む領域と該学習情
    報に対応する領域とを比較するステップ、 (e)該ステップ(d)の比較に基づいて、該入力され
    た情報に対する最適なシフトを決定するステップ、及び (f)該最適なシフトに基づいて、該学習情報に関する
    ウエイトを更新するステップ、を包含する方法。
  2. 【請求項2】請求項1に記載の方法であって、前記ステ
    ップ(c)は前記入力された情報を第1の所定の方向と
    第2の所定の方向にシフトすることを包含している、方
    法。
  3. 【請求項3】請求項1に記載の方法であって、前記ステ
    ップ(c)は前記入力された情報を回転することを包含
    している、方法。
  4. 【請求項4】請求項1に記載の方法であって、前記アレ
    イは第1の所定の方向及び第2の所定の方向を有する画
    素の行列であり、前記ステップ(c)は、 (g)該第2の所定の方向にはシフトせずに、該第1の
    所定の方向で負及び正の各々の方向に、第1の所定数の
    画素だけ前記入力された情報をシフトするステップ、 (h)該第1の所定の方向にはシフトせずに、該第2の
    所定の方向で負及び正の各々の方向に、第2の所定数の
    画素だけ該入力された情報をシフトするステップ、及び (i)該第1の所定の方向で負及び正の各々の方向に、
    該第1の所定の画素だけ入力情報をシフトすると共に、
    該第2の所定の方向で負及び正の各々の方向に、該第2
    の所定数の画素だけ該入力された情報をシフトするステ
    ップ、を包含している、方法。
  5. 【請求項5】ニューラルネットワークにおいて情報を学
    習する方法であって、入力された情報はニューラルネッ
    トワークに格納された特徴に対応しており、 (a)少なくとも1つの受容野に、シフトされない位置
    で情報を写像するステップ、 (b)複数のシフト位置に、写像された情報をシフトさ
    せるステップ、 (c)該複数のシフト位置のうちどの位置が格納された
    特徴に最もよく適合するかを決定するステップ、及び (d)最も適合するシフト位置によって、該格納された
    特徴に関連するウエイトを更新するステップ、を包含す
    る方法。
  6. 【請求項6】ニューラルネットワークと該ニューラルネ
    ットワークの入力に接続された複数の画素からなるアレ
    イとを備えたニューラルネットワークシステムにおい
    て、該ニューラルネットワークの学習情報に関するウエ
    イトを更新する装置であって、該ニューラルネットワー
    クは、該学習情報を保持するデータベースを有し、該装
    置は、 入力された情報をアレイに写像する手段、 該写像手段に接続され、アレイの一部分である部分アレ
    イであって該写像された該入力された情報の複数の所定
    の部分アレイを分離する手段、 該分離手段に接続され、該情報の分離された部分アレイ
    を少なくとも所定の方向でシフトさせる手段、 該シフトされた部分アレイを格納する手段、 該格納手段に接続され、該シフトされた各部分アレイ及
    びそれに対応する学習情報の最も近い適合を決定する手
    段、及び該決定手段に接続され、該決定された最も近い
    適合によって該学習情報に対するウエイトを更新する手
    段、を備えている装置。
  7. 【請求項7】請求項6に記載の装置であって、前記シフ
    トされ分離された部分アレイは2つの所定の方向の各々
    にシフトされた部分アレイを包含する、装置。
  8. 【請求項8】請求項6に記載の装置であって、前記シフ
    トされ分離された部分アレイは軸の周りをシフトされる
    回転された部分アレイを包含する、装置。
  9. 【請求項9】請求項6に記載の装置であって、前記アレ
    イは第1の所定の方向及び第2の所定の方向を有する画
    素の行列であり、前記シフトされ分離された部分アレイ
    は、 第2の所定の方向にはシフトされずに、第1の所定の方
    向において負及び正の各々の方向に第1の所定数の画素
    だけシフトされた、第1のシフトされた部分アレイ、 第1の所定の方向にはシフトされずに、第2の所定の方
    向において負及び正の各々に方向に第2の所定数の画素
    だけシフトされた、第2のシフトされた部分アレイ、並
    びに 第1の所定の方向において負及び正の各々の方向
    に第1の所定数の画素だけシフトされると共に、第2の
    所定の方向において負及び正の各々の方向に第2の所定
    数の画素だけシフトされた、第3のシフトされた部分ア
    レイを包含している、装置。
  10. 【請求項10】ニューラルネットワークにおいて使用す
    るための学習装置であって、該学習装置は入力ベクトル
    によってアレイに入力される多くの異なるパターンを学
    習するためのものであり、該パターンは異なるクラスに
    分類され、 入力データの部分を包含する、アレイの一部分である
    アレイのデータを発生する手段、 該発生手段に接続され、該入力データの該部分アレイ
    と、該異なるクラスの各々の該部分アレイの位置に相当
    するウエイトとの類似度を示す複数の出力値を生成する
    手段、 所定の入力データが属するクラスに関連する複数の出力
    値の最大値である第1の出力値を獲得する第1の手段、 所定の入力データが属さない少なくとも一つのクラスに
    関連する複数の出力値の最大値である第2の出力値を獲
    得する第2の手段、及び 該第1の出力値をより大きくし、該第2の出力をより小
    さくするように第1及び第2の出力値のウエイトを変更
    するウエイト変更手段、を備えている装置。
  11. 【請求項11】ニューラルネットワークと該ニューラル
    ネットワークの入力に接続された複数の画素からなる
    レイとを備えたニューラルネットワークシステムにおい
    て、ニューラルネットワークに入力されたパターンの弁
    別特徴を学習するための方法であって、該アレイは所定
    数の該アレイの一部分を表すタイルを有し、該方法は、 (a)該アレイに、入力パターンを写像するステップ、 (b)各々の該タイルに関連するウエイトに対して値を
    発生するステップ、 (c)複数のパターンの各々に対してステップ(a)及
    び(b)を繰り返すステップ、 (d)該タイルの各々に対するウエイト値と他のパター
    ンの対応するタイルのウエイト値との相関関係に基づい
    ウエイト値から複数の寄与値を発生するステップ、
    並びに (e)該複数の寄与値は、該複数のパターンの各々が互
    いに最も相違するアレイの部分に関連する少なくとも1
    つの寄与値を含み、該少なくとも1つの寄与値を決定す
    るために、該複数の寄与値同士を比較するステップを
    包含する方法。
  12. 【請求項12】請求項11に記載の方法であって、ステ
    ップ(e)は、 (f)タイルの集合から寄与値の和の集合を発生させる
    ステップ、 (g)他の和より大きい和の集合の少なくとも1つの部
    分集合を決定するステップ、及び (h)前記複数のパターン間の異なるパターンを比較す
    るために、該少なくとも1つの部分集合が発生させられ
    た該タイルの集合である、少なくとも1つの受容野を決
    定し、新たに入力されたパターンが写像されたアレイか
    ら、該少なくとも1つの受容野に対応する部分アレイを
    選択するステップを包含しており、 該少なくとも1つの受容野は互いに相違するパターンの
    特徴を表す部分に関連している、方法。
  13. 【請求項13】請求項12に記載の方法であって、 (i)前記少なくとも1つの受容野よりも大きい入力イ
    メージ領域を規定するステップ、(j)該入力イメージ領域内で、前記アレイを構成する
    前記複数の画素のうち、選択された少なくとも1つの画
    素を含む領域を分離するステップ、 (k)該選択された少なくとも1つの画素を含む領域を
    少なくとも所定の方向にシフトするステップ、 (l)シフトする前の位置及びシフトした後の位置の該
    入力イメージのデータと前記少なくとも1つの受容野と
    を比較するステップ、 (m)該ステップ(l)の比較に基づいて、該入力イメ
    ージのデータに対する最適なシフトによる一致を決定す
    るステップ、及び (n)該最適なシフト に基づいて、該少なくとも1つの
    受容野に関連して既に学習されたウエイトを更新するス
    テップ、を更に包含している方法。
JP4008742A 1991-01-31 1992-01-21 シフト/不変パターン認識を行う受容野ニューラルネットワーク Expired - Fee Related JP2862216B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/647,823 1991-01-31
US07/647,823 US5263107A (en) 1991-01-31 1991-01-31 Receptive field neural network with shift-invariant pattern recognition

Publications (2)

Publication Number Publication Date
JPH04305760A JPH04305760A (ja) 1992-10-28
JP2862216B2 true JP2862216B2 (ja) 1999-03-03

Family

ID=24598411

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4008742A Expired - Fee Related JP2862216B2 (ja) 1991-01-31 1992-01-21 シフト/不変パターン認識を行う受容野ニューラルネットワーク

Country Status (2)

Country Link
US (1) US5263107A (ja)
JP (1) JP2862216B2 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2727257B2 (ja) * 1991-04-16 1998-03-11 富士写真フイルム株式会社 ニューラルネットワークを用いた放射線画像処理方法
EP0520446B1 (en) * 1991-06-27 1999-02-03 Matsushita Electric Industrial Co., Ltd. Recognizing and judging apparatus
US5493688A (en) * 1991-07-05 1996-02-20 Booz, Allen & Hamilton, Inc. Pattern categoritzation system having self-organizing analog fields
US5481621A (en) * 1992-05-28 1996-01-02 Matsushita Electric Industrial Co., Ltd. Device and method for recognizing an image based on a feature indicating a relative positional relationship between patterns
US5420939A (en) * 1992-12-31 1995-05-30 Intel Corporation Method and apparatus for a focal neuron system
DE4322372A1 (de) * 1993-07-06 1995-01-12 Sel Alcatel Ag Verfahren und Vorrichtung zur Spracherkennung
WO1995024017A2 (en) * 1994-03-02 1995-09-08 THE UNITED STATES OF AMERICA, represented by THE SECRETARY, DEPARTMENT OF HEALTH AND HUMAN SERVICES NATIONAL INSTITUTES OF HEALTH A top down preprocessor for a machine vision system
US5715372A (en) * 1995-01-10 1998-02-03 Lucent Technologies Inc. Method and apparatus for characterizing an input signal
US5751910A (en) * 1995-05-22 1998-05-12 Eastman Kodak Company Neural network solder paste inspection system
US5796924A (en) * 1996-03-19 1998-08-18 Motorola, Inc. Method and system for selecting pattern recognition training vectors
US5845285A (en) * 1997-01-07 1998-12-01 Klein; Laurence C. Computer system and method of data analysis
US6112195A (en) * 1997-03-27 2000-08-29 Lucent Technologies Inc. Eliminating invariances by preprocessing for kernel-based methods
US6014452A (en) * 1997-07-28 2000-01-11 R2 Technology, Inc. Method and system for using local attention in the detection of abnormalities in digitized medical images
DE19802261A1 (de) * 1998-01-22 1999-07-29 Daimler Chrysler Ag Verfahren zur Signalverarbeitung von Zeitfolgen digitalisierter Bilder
US20040042665A1 (en) * 2002-08-30 2004-03-04 Lockheed Martin Corporation Method and computer program product for automatically establishing a classifiction system architecture
US7961952B2 (en) * 2007-09-27 2011-06-14 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting and tracking objects in images
WO2011031498A2 (en) * 2009-08-25 2011-03-17 The Salk Institute For Biological Studies Customization of irregular arrays
US8333116B2 (en) 2010-06-30 2012-12-18 Westinghouse Electric Company Llc Inspection vehicle for a turbine disk
CN106548124B (zh) * 2015-09-17 2021-09-07 松下知识产权经营株式会社 主题推定系统、主题推定方法
US10255910B2 (en) * 2016-09-16 2019-04-09 Apptek, Inc. Centered, left- and right-shifted deep neural networks and their combinations
RU2656990C1 (ru) * 2017-09-11 2018-06-07 Самсунг Электроникс Ко., Лтд. Система и способ для искусственной нейронной сети, инвариантной к сдвигу
CN111783936B (zh) * 2020-05-15 2024-05-07 北京迈格威科技有限公司 卷积神经网络构建方法、装置、设备及介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4136332A (en) * 1976-01-30 1979-01-23 Hitachi, Ltd. Device for detecting displacement between patterns
DE2910854A1 (de) * 1979-03-20 1980-10-02 Agfa Gevaert Ag Informationsverarbeitungsvorrichtung zur aufnahme und zur weiterverarbeitung von auf einem informationstraeger befindlicher optischer information
US4760604A (en) * 1985-02-15 1988-07-26 Nestor, Inc. Parallel, multi-unit, adaptive, nonlinear pattern class separator and identifier
DE3711872A1 (de) * 1987-04-08 1987-10-15 Christian Tammel Fuehrbares positionsdatenermittlungsgeraet fuer elektronische datenverarbeitungsanlagen (digitalisierer) und verfahren zur ermittlung seiner absoluten position
US5048100A (en) * 1988-12-15 1991-09-10 Michael Kuperstein Self organizing neural network method and system for general classification of patterns
US5060276A (en) * 1989-05-31 1991-10-22 At&T Bell Laboratories Technique for object orientation detection using a feed-forward neural network
US5067164A (en) * 1989-11-30 1991-11-19 At&T Bell Laboratories Hierarchical constrained automatic learning neural network for character recognition

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
シャープ技報 NO.51 p25−30 1991 上田徹、石田康司、荒巻隆志、外田文雄、田中厚夫「ニューラルネットを用いた漢字認識」

Also Published As

Publication number Publication date
US5263107A (en) 1993-11-16
JPH04305760A (ja) 1992-10-28

Similar Documents

Publication Publication Date Title
JP2862216B2 (ja) シフト/不変パターン認識を行う受容野ニューラルネットワーク
US5048100A (en) Self organizing neural network method and system for general classification of patterns
EP3582142A1 (en) Image classification using neural networks
US5500905A (en) Pattern recognition neural network with saccade-like operation
JPH05507804A (ja) 出力信頼性指標値を用いてバックプロパゲーションを制御するようにしたニューラル・ネットワーク
Mähönen et al. Automated source classification using a Kohonen network
US5832108A (en) Pattern recognition method using a network and system therefor
Lin et al. Determination of the varieties of rice kernels based on machine vision and deep learning technology
JPH07113943B2 (ja) ニューラルネットワークの学習方法
Benchaou et al. Feature selection based on evolution strategy for character recognition
Rajnoha et al. Handwriting comenia script recognition with convolutional neural network
US6934405B1 (en) Address reading method
Javidi et al. Persian handwritten digits recognition: A divide and conquer approach based on mixture of MLP experts
Garris et al. Analysis of a biologically motivated neural network for character recognition
Alharbi A Genetic-LVQ neural networks approach for handwritten Arabic character recognition.
Lazzerini et al. Fuzzy classification of handwritten characters
US20230005119A1 (en) Method for determining quality of inspection data using machine learning model, information processing apparatus, and non-transitory computer readable storage medium storing computer program
Horváth Sorted pooling in convolutional networks for one-shot learning
Agahi et al. Handwritten digits recognition using an ensemble technique based on the firefly algorithm
Bansal et al. Performance enhancement of the pattern recalling efficiency of Hopfield neural network using genetic algorithm for cursive handwritten character recognition
Chiang Hybrid fuzzy neural systems for robust handwritten word recognition
Haritha et al. DEEP KERNEL BASED CONVOLUTIONAL NEURAL NETWORKS FOR IMAGE RECOGNITION
Roy et al. Document template identification and data extraction using machine learning and deep learning approach
Singh Shape detection using gradient features for handwritten character recognition
Fukumi et al. Rotation invariant neural pattern recognition system which can estimate a rotation angle

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19981126

LAPS Cancellation because of no payment of annual fees