JPH056463A - 計算ネツトワーク - Google Patents

計算ネツトワーク

Info

Publication number
JPH056463A
JPH056463A JP3025036A JP2503691A JPH056463A JP H056463 A JPH056463 A JP H056463A JP 3025036 A JP3025036 A JP 3025036A JP 2503691 A JP2503691 A JP 2503691A JP H056463 A JPH056463 A JP H056463A
Authority
JP
Japan
Prior art keywords
layer
network
units
unit
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3025036A
Other languages
English (en)
Other versions
JPH0664630B2 (ja
Inventor
John S Denker
エス.デンカー ジヨン
Richard E Howard
イー.ハワード リチヤード
Lawrence E Jackel
イー.ジヤツクル ローレンス
Yann Lecun
ルカン ヤン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
American Telephone and Telegraph Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by American Telephone and Telegraph Co Inc filed Critical American Telephone and Telegraph Co Inc
Publication of JPH056463A publication Critical patent/JPH056463A/ja
Publication of JPH0664630B2 publication Critical patent/JPH0664630B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 (修正有) 【目的】高精度かつ信頼性の高い光学的文字認識を行
う。 【構成】局所特徴抽出のための並列束縛特徴検出を行な
う層を複数個有し、次元性低減のための完全接続層を複
数個有する階層的ネットワークによって実現される。文
字分類も完全接続層において実行される。並列束縛特徴
検出の各々の層は、複数個の束縛特徴マップ及び対応す
る複数個のカーネルよりなり、所定のカーネルが直接単
一の束縛特徴マップに関連している。各層間でのアンダ
ーサンプリングが実行される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、パターン認識に関し、
特に、光学的文字認識のための多数並列束縛ネットワー
クに関する。
【0002】
【従来の技術】近年、微細並列アーキテクチャに関する
適応学習に基づく計算システムは、コンピュータに基づ
く情報収集、処理、操作、蓄積、及び伝送技術の発展の
ために現実味を帯びてきている。これらのシステムにお
いて適用されている多くの概念は、特定の画像における
文字パターンの自動認識、解析及び分類の方法を提供す
ること等の問題を解決するために本質的に有効な方法を
表わしている。究極的には、この種のシステムにおける
これらの技法の価値は従来の方法に対するこれらの方法
の効率の良さもしくは正確さに依存する。
【0003】「コネクショニズム・イン・パースペクテ
ィブ(Connectionismin Perspe
ctive)」という書籍(エルセヴィール・サイエン
ス・パブリシャーズ(Elsevier Scienc
e Publishers):北オランダ、1989
年)中の第143−155頁におかれているワイ・レク
ン(Y.LeCun)による”一般化及びネットワーク
デザイン戦略”という表題の最近の記事においては、当
該著者は光学的数字認識問題に対して応用される5種の
相異なった階層ネットワークアーキテクチャを記述して
いる。これらのネットワークの各々における学習は、デ
ィー・ラメルハート(D.Rumelhart)らによ
って「パラレル・ディストリビューテッド・プロセシン
グ(Parallel Distributed Pr
ocessing)」(ブラッドフォード・ブックス
(Bradford Books):マサチューセッツ
州ケンブリッジ、1986年)第I巻第318−362
頁に記載されている後方伝播技法より得た固有分類知能
を用いて手書きの数字のピクセルイメージに対して試み
られた。
【0004】ネットワークの複雑さは、Net−2と呼
称される2層完全接続ネットワークから階層的特徴抽出
を行なうための2レベル束縛特徴マップを有する階層的
ネットワークNet−5に移行することによって増大す
ることが示された。ネットワークNet−2は、ジェネ
ラリゼーションパフォーマンスにおいて1層完全接続ネ
ットワークより著しく多くのスタンダードデヴィエーシ
ョンを有しているため、そのトレーニングセットに関し
てコンシステントであるような多くの解に関して未定で
ある。しかしながら、レクンは以下のように述べてい
る:”不幸にも、これらの種々の解はテストセットに関
して同値な結果を与えない...ネットワークが大きす
ぎる(余りにも多くの自由度を有している)ことは明白
である。”最も複雑なネットワーク、すなわちNet−
5、の性能はより複雑でないネットワークの性能を上回
っている。さらに、多層レベル束縛特徴マップがシフト
インヴァリアンスに対する付加的制御を提供することが
仮定されている。
【0005】
【発明が解決しようとする課題】前述した階層ネットワ
ークは文字認識・分類問題の解法を進展させたが、既存
のシステムが信頼性の高い自動文字認識装置の実現を可
能にするための充分な正確さを欠いていることは明らか
である。
【0006】
【課題を解決するための手段】正確で信頼性の高い光学
的文字認識は、局所特徴抽出に係る並列束縛特徴検出を
複数層有し次元性低減用の完全接続層を複数層有する階
層構造ネットワークによって可能となる。文字分類も究
極完全接続層内において実行される。並列束縛特徴検出
の各々の層は、複数個の束縛特徴マップ及び対応する複
数個のカーネルを有し、所定のカーネルが直接単一の束
縛特徴マップに関連している。複数個の層に亘るアンダ
ーサンプリングが行なわれる。
【0007】本発明の原理に従った実施例においては、
前記階層構造ネットワークが2層の束縛特徴検出層及び
2層の次元性低減層を有している。各々の束縛特徴マッ
プは複数個のユニットよりなる。第一束縛特徴検出層の
各々の束縛特徴マップにおけるユニットは、当該束縛特
徴マップに対する対応するカーネル及び当該ユニットに
係る受容領域において補足された文字のピクセルイメー
ジの相異なった部分の双方の関数として応答する。第二
束縛特徴検出層の各々の束縛特徴マップにおけるユニッ
トは、当該束縛特徴マップに対する対応するカーネル及
び当該ユニットに係る受容領域において補足された第一
束縛特徴検出層における個別の束縛特徴マップあるいは
複数個の束縛特徴マップの組合せの相異なった部分の双
方の関数として応答する。第二束縛特徴検出層の特徴マ
ップは、第一次元性低減層の各々のユニットに完全に接
続されている。第一次元性低減層のユニットは、最終的
な文字分類を行なう第二次元性低減層の各々のユニット
に接続されている。カーネルは、ネットワークの初期化
あるいはトレーニング期間に束縛逆方向伝播によって自
動的に学習させられる。
【0008】本発明に係るネットワークアーキテクチャ
によって実現される利点は、シフトインヴァリアンスの
増加及びエントロピー、ヴァプニック・シェルヴォネン
キス(Vapnik−Chervonenkis)次元
性、及び自由パラメータの低減である。これらの改善の
結果として、所定レベルのジェネラリゼーションパフォ
ーマンスを達成するために必要とされるトレーニングデ
ータの量とトレーニング時間が当該ネットワークにおい
ては低減される。
【0009】
【実施例】図1に示されている計算エレメントは、本発
明の原理に従って実現された階層束縛ネットワークにお
ける基礎特徴及び相互接続ブロックを形成している。一
般に、計算エレメントは、n+1個の入力値の重みをつ
けた和を計算し、その結果を単一の値を与えるような非
線型関数を介して出力する。計算エレメントの入力及び
出力値は、アナログ値、マルチレベル及びグレイスケー
ル等の擬アナログ値、あるいは二進値である。計算エレ
メントにおいて用いられる非線型関数には、ハードリミ
ッタ、スレッショルドロジック素子、S字型非線型関
数、区分非線型近似等がある。
【0010】図1に示された計算エレメントは、n個の
隣接する入力ピクセル、イメージもしくは特徴マップか
らのピクセル値あるいはユニット値をスキャンする。こ
こで、ピクセル、ピクセル値及びユニット値はa1
2,...,anで表現されている輝度レベル等の値を
有している。計算エレメントのn+1番目の入力にバイ
アス入力が印加される。簡単のために、当該バイアス
(BIAS)は一般には例えば1などの定常値にセット
されているものとする。これらの入力値及びバイアス
は、乗算器1−1から1−(n+1)に与えられる。当
該乗算器は、さらにカーネルから重みw1からwn+1を受
け取る。全ての乗算器の出力は加算器2に加えられ、当
該加算器は前記入力値の重みを考慮した和を生成する。
加算器2の出力はそれ自体入力値(バイアス値を含む)
ベクトルとカーネルの与えた重みを表現するベクトルと
の内積である。加算器2の出力は非線型性3内の非線型
関数を通じて単一のユニットとしての出力値xiを生成
する。以下でより明らかになるように、ユニット出力値
iは考慮中の特徴マップにおけるi番目のユニットの値
に関係している。
【0011】本発明の一実施例においては、非線型性3
におけるS字型関数としてハイパーボリックタンジェン
ト関数の定数倍、すなわちf(α)=AtanhSαが
選択される。ここで、αは非線型3へ与えられる重みを
考慮した入力値の和、Aは当該関数の振幅、及びSは当
該関数の起点における傾きを決める数である。当該関数
は、漸近値+A及び−Aを有する奇関数である。奇の対
称性を有する非線型関数がカーネルの重みw1からwn+1
の収束をより早くすると言われていることに留意された
い。
【0012】本発明に係る階層束縛ネットワークにおけ
る各々のカーネルに対する重みは、逆方向伝播として知
られている試行錯誤学習技法を用いて得られる。例えば
ルメルハートらによる前掲の参考文献あるいはアール・
ピー・リップマン(R.P.Lippmann)によ
る”ニューラルネットによる計算入門”(アイ・トリプ
ル・イー・エイ・エス・エス・ピー・マガジン(IEE
E ASSPMagazine)第4巻第2号第4−2
2頁(1987年))を参照のこと。学習の前に各々の
カーネルに係る重みは例えば−2.4/Fiと2.4/
iとの間の一様分布乱数を用いてランダムな値に初期
化される。ここでFiは接続されているユニットへの入
力の数(ファン・イン)である。図1に示された実施例
においては、ファン・インFiはn+1である。出力コ
スト関数の例は、公知の二乗平均誤差関
【数1】 である。ここで、Pはパターンの数、Oは出力ユニット
の数、dopはパターンpが与えられている場合の出力ユ
ニットoの望ましい状態、及びxopはパターンpが与え
られている場合の出力ユニットoの状態である。これら
の初期化技法を用いることによって値をS字非線型性の
定義域に維持することが可能となる。学習期間中は、イ
メージパターンが一定の順序で与えられる。それぞれの
重みは、スタカスティックグラディエントすなわち”オ
ンライン”手続きに従って単一の認識用イメージパター
ンが与えられる毎に更新される。更新には、各々の重み
が更新される前に学習セット全体に亘って平均が取られ
るような真のグラディエント手続きも用いられ得る。こ
こで、ストカスティックグラディエントを用いた場合、
特に大量かつ冗長性を有するイメージデータベースに対
しては重みの収束が早くなることに留意されたい。
【0013】逆方向伝播アルゴリズムの一変形において
は、学習速度を最適化するためにヘッセ(Hesse)
行列の対角化近似を計算する。この種の”擬似ニュート
ン法”手続きは、パラメータを過度に調節することなく
信頼できる値を生成する。このことについては、レクン
による”Modeles Connexionnist
es de l’Apprentissage”(仏
文)(ピエール及びマリーキュリー大学(パリ、フラン
ス)博士論文(1987年))を参照。
【0014】手書きの文字を与えられた文字イメージを
形成するピクセルアレイに変換するためには標準的な技
法が用いられる。文字イメージは離れた場所から電子的
伝送を介してあるいはスキャニングカメラその他のスキ
ャニングデバイスを用いてローカルに獲得される。イメ
ージ源に拘らず、文字イメージは従来技法に従って順序
をつけて並べられたピクセルによって表現されるものと
する。当該順序付けは代表的にはアレイ配置である。ひ
とたび表現されてしまうと、文字イメージはフレームバ
ッファ等の光学的もしくは電子的メモリデバイスに取り
込まれてストアされる。
【0015】各々のピクセルは、可視文字イメージの微
小面積に係る光の強度あるいは色等に対応する値をそれ
ぞれ有している。ピクセル値はその後メモリデバイスに
ストアされる。特定のマップに対しての参照がなされる
場合、”ピクセル”という術語と”ユニット値”という
術語とは相互に交換可能なものとして用いられ、ピクセ
ル、ピクセル値及びマップアレイを形成するように組み
合わせられている各々の計算エレメントからのユニット
値出力を包含している。ネットワークの動作を可視化し
かつ開発するためにはピクセル値あるいはユニット値よ
りもピクセル平面あるいは2次元ピクセルアレイ(マッ
プ)という語を用いて考えるのがより便利である。
【0016】ピクセル及びユニット値をピクセル強度レ
ベルとともに可視化するのに加えて、カーネルにおける
重みによるアレイを同様に可視化することも便利であ
る。例えば、図13に従って配置された図14及び図1
5においては、図2に示された実施例に関する実験にお
いて学習させられたカーネルアレイが示されている。さ
らに、カーネルをアレイとして可視化することにより、
ピクセルアレイにおいてカーネルが特徴抽出を経るにし
たがって如何に何に作用するかをより容易に理解するこ
とが可能となる。
【0017】文字認識のためのピクセルアレイとして文
字イメージを準備するために用いられる種々のプリプロ
セッシング技法には種々の線型変換、例えばスケーリン
グ、大きさの規格化、デスキューイング、センタリン
グ、及び移動あるいはシフトなどが含まれるが、これら
はすべて当業者には既知のものである。加えて、手書き
の文字からグレイスケールピクセルアレイへの変換は、
それを行なわない場合にはプリプロセッシング間に喪失
されて回復不能となってしまうような情報を保存するた
めにも望ましい場合がある。後者の変換も当業者には既
知である。
【0018】文字認識のためのイメージを準備するため
の上述されている動作に加えて、一般的には、オリジナ
ルイメージの周囲に一様な、実質的に一定のレベルの境
界を与えることが望ましい。この種の境界がアレイ10
2に示されており、イメージ10におけるアレイ101
の外側のアレイ要素が一様な境界を形成している。以下
に示されている実施例においては、ネットワークへの入
力は元のイメージを正規化することによって形成された
16x16のグレイスケールイメージである。ここでイ
メージがバイナリではなくグレイスケールであるのは、
元のイメージにおける種々の数のピクセルが正規化され
たイメージにおける与えられたピクセルに入るからであ
る。
【0019】計算エレメント、さらには、全体のネット
ワークは、ハードウエアあるいはソフトウエアもしくは
ハードウエアとソフトウエアの適切な組合せによって形
成される。本明細書において示されているネットワーク
の大部分は、基礎的な数学関数である加算、減算、乗
算、及び比較を実行するような単純なプログラムを搭載
したサン(SUN)社製のワークステーションを用いて
実現されている。パイプライン化されたデバイス、マイ
クロプロセッサ、及び特別仕様デジタルシグナルプロセ
ッサを用いても、本発明に従ったネットワークを実現す
るのに便利なアーキテクチャを得ることができる。MO
S VLSI技術も図2に示されているような型の、特
定の重みを有する相互接続ネットワークを実現するため
に用いられている。ピクセル及びユニット値及びその他
の一時的な計算結果をストアするためにはローカルメモ
リが望ましい。
【0020】図2は、本発明の原理に従った階層束縛自
動学習ネットワークの実施例を示した簡潔なブロック図
である。当該ネットワークは、与えられたイメージから
大量の計算をパラレルに行なうことによって文字認識を
行なう。図2において、層20から50内の箱として示
されている各々のアレイは、アレイユニット毎に複数個
の計算エレメントを有している。ネットワークにおける
全ての接続は、重度に束縛されているが適応型であり、
逆方向伝播法によって学習させられる。入力層及び出力
層に加えて、当該ネットワークは各々層20、層30及
び層40と呼称される3つの隠された層を有している。
層20及び30にはいる接続は局所的なものであり重度
に拘束されている。
【0021】図2に示されているネットワークは第一及
び第二特徴検出層及び第一及び第二次元性低減層を構成
しており、ここで後者の次元性低減層は文字分類層であ
る。各々の層は種々の大きさの一つもしくは複数個の特
徴マップすなわちアレイを構成している。通常のアプリ
ケーションの大部分においては、マップは正方形であ
る。しかしながら、長方形及びその他の対称的及び非対
称のあるいは不規則なマップパターンも企図されてい
る。検出された特徴の配置はマップと呼称される。なぜ
なら、ピクセル(ユニット値)がストアされるメモリデ
バイス内にアレイが構築されかつより低いレベルのマッ
プからの特徴抽出が当該マップに対する前記アレイ内の
適切な位置に配置されるからである。このようにして、
特徴の存在もしくは(グレイスケールレベルを用いた)
実質的な存在及びその相対的な位置が記録される。
【0022】マップ内で検出された特徴の型は用いられ
ているカーネルによって決定される。ここで、カーネル
が計算エレメント内でスキャンされているイメージのピ
クセル値に乗ぜられる重みを有していることに留意され
たい。束縛特徴マップにおいては、同一のカーネルが同
一のマップの各々のユニットに対して用いられる。すな
わち、束縛特徴マップはそれが関連しているカーネルに
よって規定された特定の特徴の非存在あるいは存在を表
現しているピクセルアレイをスキャンしたものである。
ここで、”束縛された”という術語は、特定のマップを
構成している計算エレメントがカーネルに係る重みの同
一の組を共用させられている状態を表現する。このた
め、入力イメージの相異なった位置において同一の特徴
が検出されることになる。言い替えれば、束縛特徴マッ
プはある様式で局在する同一の特徴の存在の表現を与え
る。この技法は重みの共用としても知られているもので
ある。
【0023】ここで、カーネルが、当該カーネルによっ
て規定される特徴の存在が検出されるイメージピクセル
あるいはマップユニット平面における受容領域(例え
ば、5ピクセルx5ピクセルあるいは2ピクセルx2ピ
クセル)を規定することに留意されたい。カーネルをピ
クセルアレイ上に配置することによってどのピクセルが
特徴マップにおける計算エレメントに対する入力である
か及び当該特徴マップ上のどのユニットが活性化されて
いるかを示すことが可能となる。活性化されているユニ
ットは、一般には、検出がなされているマップに存在す
る特徴の概略の位置に対応している。
【0024】第一特徴検出層は、複数個の束縛特徴マッ
プ20を有している。図に示されているように、当該ネ
ットワーク例においては各々12個の束縛特徴マップが
含まれている。第二特徴検出層も、複数個の束縛特徴マ
ップ30を有している。図に示されているように、本実
施例においては、ネットワークは第二層内の束縛特徴マ
ップを各々12個有している。
【0025】ネットワークの上部2層は次元性低減層4
0及び50を構成しており、層50は文字分類層であ
る。層40は第二特徴検出層の全ての束縛特徴マップに
完全に接続されている。文字分類層は次元性低減層40
内の全てのユニットに完全に接続されている。層50
は、与えられたオリジナルイメージから当該ネットワー
クによって認識された文字(アルファベットもしくは数
字)の表示を生成する。”完全に接続された”という言
葉は、層40内のピクセルに係る計算エレメントがマッ
プの下部にある層、すなわち、層30に含まれる全ての
ピクセルあるいはユニットからの入力を受容する、とい
うことを意味している。
【0026】図2に示されたネットワークにおける各々
の層の間の相互接続線は、前段に位置する層におけるど
のマップが各々の計算エレメントの入力を与えているか
を示すように描かれたものである。これら各々の計算エ
レメントを構成しているユニットは、後段に位置するよ
り高位のネットワーク層におけるマップを形成してい
る。例えば、束縛特徴マップ201から212は、束縛
特徴マップ生成プロセスにおいてイメージ10から相異
なった特徴を検出する。次段においては、特徴還元マッ
プ301から312が、束縛特徴マップ201から21
2の内の相異なった8個の組合せよりなるユニットから
それぞれの入力を得る。束縛特徴マップ301、302
及び303は、図7から9に示されたカーネル例によれ
ば、各々の入力を束縛特徴マップ201、202、20
3、204、209、210、211、及び212の組
合せより得ている;束縛特徴マップ304、305、及
び306は、図10から12に示されたカーネル例によ
れば、各々の入力を束縛特徴マップ203、204、2
05、206、209、210、211、及び212の
組合せより得ている;束縛特徴マップ307、308、
及び309は、図13から15に示されたカーネル例に
よれば、各々の入力を束縛機能マップ205から212
までの組合せより得ている;及び、束縛特徴マップ31
0、311、及び312は、図16から19に示された
カーネル例によれば、束縛特徴マップ201、202、
及び207から212までの組合せより得ている。イメ
ージ10を層20との間の相互接続に対して重みを与え
るために用いられるカーネル例が図4から6に示されて
いる。
【0027】次元性低減層40は、分類層50よりも多
くのエレメントを有している。図2の数認識ネットワー
ク例に示されているように、層40内には30個のユニ
ットすなわちエレメントが含まれている。文字分類層5
0が、当該ネットワークによって解かれるべき特定の文
字認識問題に対して充分な数のエレメントを有している
ことに留意されたい。すなわち、ローマ字のアルファベ
ットの大文字か小文字のいずれかのみの認識に関する実
施例においては、層50はAからZまであるいはaから
zまでの文字を特定する26個のユニットを有してい
る。他方、数字の認識に関する実施例においては、層5
0は各々0から9の数字を特定する10個のユニットの
みを有している。
【0028】理解を容易にするために、図1に示された
カーネルにおける計算エレメントに対するバイアス入力
及びそれに関連する重みは、本実施例に係る記述及び図
3から19においては省略されている。実際には、バイ
アスは1に設定されかつカーネル内における対応する重
みは逆方向伝播により学習させられるが、図においては
バイアス入力に対するカーネルエレメントは示されてい
ない。
【0029】層20は、12個の独立した8x8特徴マ
ップとして配置された64個のユニットよりなる12群
から成り立っている。これら12個の特徴マップは、マ
ップ201、マップ202、...、マップ212とし
て示される。特徴マップにおける各々のユニットは、入
力面上の5x5の隣接ユニットから入力を得る。層20
内の一つ隣のユニットは、(入力層における)受容領域
が2ピクセル離れている。すなわち、このプロセスにお
いては、入力イメージはアンダーサンプリングされ、あ
る種の位置情報が失われる。このような2:1アンダー
サンプリングは層20から層30に移行する際にも行な
われる。
【0030】このような設計は、高解像度は特定の形よ
りなる特徴がイメージ内に現われているか否かを検出す
るために必要とされるのに対して、前記特徴が現われる
正確な位置は同様の高精度で決定される必要がない、と
いう考察に基づいている。さらに、イメージ内のある場
所において重要な特徴の型は他の場所においても重要で
あることが知られている。
【0031】それ故、ある与えられた特徴マップにおけ
る各々のユニットへの対応する接続は同一の重みを有す
るように束縛されている。言い替えれば、層20内の6
4のユニット全てが25個の重みよりなる同一の組を用
いている。各々のユニットは、イメージ内の対応する部
分に対して同一の動作をする。特徴マップによって実行
される機能は、5x5カーネルによる一般化された畳み
込みと解釈され得る。
【0032】もちろん、他のマップ(例えばマップ20
4)内のユニットは、25個の重みよりなる別な組を共
用している。ここで、ユニットはバイアス(スレッショ
ルド)を共用していないことに留意されたい。各々のユ
ニットは25個の入力線に加えて1つのバイアス入力を
有している。入力の境界を越えてなされている接続に関
しては、一定の予め定められたバックグラウンドレベル
(ここでは−1)に等しい状態を有する仮想的なバック
グラウンド面から入力がなされる。よって、層20は7
68(8x8x12)個のユニットを有し、19968
(768x26)個の接続を有しているが、多くの接続
が同一の重みを共用しているため、自由なパラメータは
わずか1068(768個のバイアス及び25x12個
の特徴カーネル)個である。
【0033】層30も12個の特徴マップよりなる。各
々の特徴マップは4x4平面に配置された16個のユニ
ットを有している。層20の場合と同様、これらの特徴
マップはマップ301、マップ302、...、マップ
312として示される。層20と層30との間の接続方
式は、入力と層20との間の接続と非常に類似している
が、わずかにより複雑である。なぜなら、層20は複数
個の2Dマップを有しているからである。層30内の各
々のユニットは、層20内の12個の相異なった特徴マ
ップの内の8個からの局所入力を結合する。層30の受
容領域は、前記8個のマップの各々における同一の位置
におかれたユニットを中心とする、8個の5x5隣接ユ
ニットよりなる。よって、層30は、200個の入力、
200個の重み、及びバイアスを有している。もちろ
ん、与えられたマップにおける全てのユニットは同一の
重みベクトルを有するように束縛されている。層30に
おけるマップがその入力を得る層20内の8個のマップ
は、以下に示されている方式に従って選択される。第一
ヒドゥン層(つまり、層209から212)には次の層
における全てのマップに接続されており概略の特徴を計
算することが期待されている4つのマップが存在する。
残りの8つのマップと層30との間の接続は、図7から
19に示されているごとくである。この方式の基礎とな
ったアイデアは、8つのマップ間の機能の接近性の概念
を導入することである。このアーキテクチャにより、連
続マップ内の層30のユニットは同様のエラー信号を受
容し、同様の動作をすることが期待されている。層20
の場合と同様、層30の境界を超過している接続に対し
ては、0という状態を有する仮想面からの入力がなされ
る。まとめると、層30は192(12x4x4)個の
ユニットを有し、層30と層20との間には、3899
2(192x201)の接続が存在する。これらの接続
全ては、わずか2592(12個の特徴マップx200
個の重み+192個のバイアス)個の自由パラメータに
よって制御されている。
【0034】層40は30個のユニットを有し、層30
に対して完全に接続されている。層30と層40との感
の接続は5790(30x192+30個のバイアス)
である。出力層は10個のユニットを有し、層40に完
全に接続され、310個の重みを付加する。本実施例で
示したネットワークにおいては、1256個のユニッ
ト、64660個の接続及び9760個の独立したパラ
メータが存在する。図3は、イメージ10から束縛機能
マップ201への相互接続及び特徴抽出及び検出の例を
示している。マップ201におけるユニット210は、
入力イメージ面上の5x5隣接ユニットを観察し、ユニ
ット210の値を求めるために図5に示されたカーネル
221から得られた重みを用いる。グレイスケールユニ
ット値は、当該隣接ユニット内における特定の特徴の存
在、実質的な存在、実質的な不在、あるいは不在を示
す。束縛特徴マップにおける各々の計算エレメントによ
って実行される機能は、5x5イメージピクセルあるい
はユニットと5x5カーネルとの非線型たたみ込みとみ
なされる。マップ201においる1つ隣のユニット(計
算エレメント)に対しては、入力イメージ層における対
応する受容領域は2ピクセル離れている。束縛特徴マッ
プ201における他のユニットもユニット210によっ
て用いられているものと同一のカーネルを有している。
層20における他のマップは図3に示された他のカーネ
ルを用いてマップ201と同一の方法でイメージを操作
するユニットを有している。層20における関連する束
縛特徴マップに対するカーネル例の差異に関しては、図
5及び6を参照のこと。
【0035】図3に示されているように、イメージ10
は、もとの文字の像よりなる16x16のアレイ101
を有し、2ピクセル幅の一定値の境界によって取り囲ま
れて18x18のイメージアレイ102を形成してい
る。束縛特徴マップ201は8x8アレイとして示され
ている。
【0036】層20内の束縛特徴マップから層30の束
縛特徴マップ内のユニットへの相互接続は図示するのが
困難であるが故に図示されていない。当該相互接続は、
図3に示されたものと同様でありかつ他の機能マップか
らの特定のユニット値を決定するための相互接続を加え
たものである。機能的には、当該相互接続は複数個の5
x5カーネルとの非線型たたみ込みである(図5から1
9を参照)。第一及び第二特徴検出層との間の他の全て
の相互接続は、複合カーネルすなわち相異なった8個の
特徴還元マップのおける受容領域に対応するユニットよ
りなる複合アレイ上の2つの個別のカーネル(例えば、
2つの5x5カーネル)を用いた非線型たたみ込みであ
る。図2に示されたネットワークにおいて企図されてい
るように、マップ310から312は12x12アレイ
である。
【0037】図4から19は、図2に示されたネットワ
ークに対して学習させられたカーネルの組の例を示して
いる。カーネルは、第一及び第二特徴検出層における束
縛特徴マップに対する計算エレメントによって用いられ
る。個々の正方形に対する高い輝度レベルは、当該カー
ネルにおける重みのより正のアナログ(グレイレベル)
値を示している。個々の正方形に対する低い輝度レベル
は、当該カーネルにおける重みのより負のアナログ(グ
レイレベル)値を示している。カーネル221から23
2は、イメージ10上で、各々束縛特徴マップ201か
ら212を生成するために用いられる。
【0038】図2から19に示されたネットワーク例に
おいては、およそ65000の接続と僅か10000個
の自由パラメータしか存在しない。本発明に係るネット
ワークアーキテクチャと重みに関する拘束は、認識作業
の幾何学的トポロジーに関する充分な知識を織り込むよ
うに設計されたものであることに留意されたい。
【0039】以上の説明は、本発明の一実施例に関する
もので,この技術分野の当業者であれば、束縛特徴マッ
プの大きさ・次元性低減層の大きさ・受容領域・カーネ
ルの大きさ及びアレイの大きさを変えるなどの本発明の
種々の変形例が考え得るが、それらはいずれも本発明の
技術的範囲に包含される。さらに、本明細書に示された
アーキテクチャにわずかの変更を加えるだけでアルファ
ベット及び数字よりなる組を認識できるように変更する
ことは当業者に取っては容易である。
【発明の効果】以上述べたごとく、本発明によれば、文
字認識を行なう自動学習ネットワークが実現される。
【図面の簡単な説明】
【図1】ネットワークにおける個別の計算エレメントを
簡潔に示したブロック図。
【図2】本発明の階層束縛自動学習ネットワークの例を
簡潔に示したブロック図。
【図3】あるレベルにおけるマップ内のユニットとその
レベルに隣接したより高位のレベルにおけるマップ内の
ユニットとの間の接続関係を示した図。
【図4】図5と図6の組み合わせ方法を示す図。
【図5】図2に示されたネットワーク例において用いら
れているカーネル表現例を示した図である。
【図6】図2に示されたネットワーク例において用いら
れているカーネル表現例を示した図である。
【図7】図8と図9の組み合わせ方法を示す図。
【図8】図2に示されたネットワーク例において用いら
れているカーネル表現例を示した図である。
【図9】図2に示されたネットワーク例において用いら
れているカーネル表現例を示した図である。
【図10】図11と図12の組み合わせ方法を示す図。
【図11】図2に示されたネットワーク例において用い
られているカーネル表現例を示した図である。
【図12】図2に示されたネットワーク例において用い
られているカーネル表現例を示した図である。
【図13】図14と図15の組み合わせ方法を示す図。
【図14】図2に示されたネットワーク例において用い
られているカーネル表現例を示した図である。
【図15】図2に示されたネットワーク例において用い
られているカーネル表現例を示した図である。
【図16】図17ないし図19の組み合わせ方法を示す
図。
【図17】図2に示されたネットワーク例において用い
られているカーネル表現例を示した図である。
【図18】図2に示されたネットワーク例において用い
られているカーネル表現例を示した図である。
【図19】図2に示されたネットワーク例において用い
られているカーネル表現例を示した図である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ジヨン エス.デンカー アメリカ合衆国 07737 ニユージヤージ イ、レオナード、クースマン ドライブ 6 (72)発明者 リチヤード イー.ハワード アメリカ合衆国 08904 ニユージヤージ イ、ハイランド パーク、ハリソン アヴ エニユー 445 (72)発明者 ローレンス イー.ジヤツクル アメリカ合衆国 07733 ニユージヤージ イ、ホルムデル、ストーニー ブルツク ロード 31 (72)発明者 ヤン ルカン アメリカ合衆国 07748 ニユージヤージ イ、ミドルタウン、クレイブドン コート 5

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 イメージマップに含まれる文字の認識を
    行なう多数並列計算ネットワークにおいて、前記イメー
    ジマップから特徴を抽出しかつ前記イメージをアンダー
    サンプリングする第一の束縛特徴検出層と、前記第一の
    束縛機能検出層から特徴を抽出する第二の束縛特徴検出
    層と、前記第二の束縛特徴検出層に実質的に完全に接続
    されかつ応答する第一の次元性低減層と、前記第一の次
    元性低減層に実質的に完全に接続されかつ応答し前記ネ
    ットワークによって認識された文字の分類を行ないかつ
    前記ネットワークによって認識された文字を表現する指
    示を生成する第二の次元性低減層とを有することを特徴
    とする計算ネットワーク。
  2. 【請求項2】 前記イメージマップが、もとの文字イメ
    ージを囲む実質的に一定の所定のバックグラウンドを有
    することを特徴とする請求項1に記載の計算ネットワー
    ク。
  3. 【請求項3】 前記第一束縛特徴検出層が、独立した特
    徴マップとして配置されたm個のユニットからなる群を
    M個有し、前記第二束縛特徴検出層が独立したn個のユ
    ニットからなる群をN個有し、かつ、M、N、m、及び
    nがM≧N及びm≧nを満たす正の整数であること、を
    特徴とする請求項1に記載の計算ネットワーク。
  4. 【請求項4】 前記MとNが等しいこと、を特徴とする
    請求項3に記載の計算ネットワーク。
  5. 【請求項5】 前記第一次元性低減層が、各々1ユニッ
    トからなるL個の群を有し、前記第二次元性低減層が各
    々1ユニットからなるK個の群を有し、かつK及びLが
    正の整数で、KはNより大きくかつLより小さいこと、
    を特徴とする請求項3に記載の計算ネットワーク。
  6. 【請求項6】 前記NとMが等しいこと、を特徴とする
    請求項5に記載の計算ネットワーク。
  7. 【請求項7】 前記ユニットが、対応するユニットに関
    連しそれらに対する値を生成する計算エレメントを有
    し、前記計算エレメントの各々がそれ自体に関連し重み
    を与えるカーネルを有しかつ少なくとも予め定められた
    他の層における実質的に隣接した複数個のユニットに応
    答して前記関連する重みを与えるカーネルと前記予め定
    められた複数個の実質的に隣接したユニットとの内積を
    所定の非線型基準に従って出力値にマッピングし、前記
    計算エレメントの各々が同一のマップに関連している他
    の各々の計算エレメント以外の複数個の実質的に相異な
    ったユニットに対して応答し、前記第二束縛特徴検出層
    が前記第一束縛特徴検出層内の少なくとも一つの特徴マ
    ップに属するユニットに応答し、前記第一次元性低減層
    内の各々のユニットが前記第二束縛特徴検出層内の実質
    的に全てのユニットに応答してネットワークによって認
    識された文字を表現し、かつ、前記第二次元性低減層内
    の各々のユニットが前記第一次元性低減層内の実質的に
    全てのユニットに応答すること、を特徴とする請求項3
    に記載の計算ネットワーク。
  8. 【請求項8】 前記所定の非線型基準がS字型関数を含
    むこと、を特徴とする請求項7に記載の計算ネットワー
    ク。
  9. 【請求項9】 前記所定の非線型基準が区分的な非線型
    関数を含むこと、を特徴とする請求項7に記載の計算ネ
    ットワーク。
  10. 【請求項10】 前記NとMが等しいこと、を特徴とす
    る請求項7に記載の計算ネットワーク。
  11. 【請求項11】 前記第一次元性低減層が、各々1ユニ
    ットからなるL個の群を有し、前記第二次元性低減層が
    各々1ユニットからなるK個の群を有し、かつK及びL
    が正の整数で、KはNより大きくかつLより小さいこ
    と、を特徴とする請求項7に記載の計算ネットワーク。
  12. 【請求項12】 前記NとMが等しいこと、を特徴とす
    る請求項11に記載の計算ネットワーク。
  13. 【請求項13】 前記所定の非線型基準がS字型関数を
    含むこと、を特徴とする請求項12に記載の計算ネット
    ワーク。
  14. 【請求項14】 前記所定の非線型基準が区分的な非線
    型関数を含むこと、を特徴とする請求項12に記載の計
    算ネットワーク。
JP3025036A 1990-01-31 1991-01-28 計算ネットワーク Expired - Fee Related JPH0664630B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/472,991 US5058179A (en) 1990-01-31 1990-01-31 Hierarchical constrained automatic learning network for character recognition
US472991 1990-01-31

Publications (2)

Publication Number Publication Date
JPH056463A true JPH056463A (ja) 1993-01-14
JPH0664630B2 JPH0664630B2 (ja) 1994-08-22

Family

ID=23877723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3025036A Expired - Fee Related JPH0664630B2 (ja) 1990-01-31 1991-01-28 計算ネットワーク

Country Status (3)

Country Link
US (1) US5058179A (ja)
JP (1) JPH0664630B2 (ja)
CA (1) CA2032126C (ja)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5588091A (en) * 1989-05-17 1996-12-24 Environmental Research Institute Of Michigan Dynamically stable associative learning neural network system
KR910020571A (ko) * 1990-05-21 1991-12-20 다카도리 수나오 데이터 처리장치
DE69130656T2 (de) * 1990-06-14 1999-06-17 Canon Kk Neuronale Netzwerke
JP2763398B2 (ja) * 1990-11-20 1998-06-11 キヤノン株式会社 パターン認識装置
JP2760170B2 (ja) * 1990-11-29 1998-05-28 松下電器産業株式会社 学習機械
US5500905A (en) * 1991-06-12 1996-03-19 Microelectronics And Computer Technology Corporation Pattern recognition neural network with saccade-like operation
US5293456A (en) * 1991-06-28 1994-03-08 E. I. Du Pont De Nemours And Company Object recognition system employing a sparse comparison neural network
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US10361802B1 (en) 1999-02-01 2019-07-23 Blanding Hovenweep, Llc Adaptive pattern recognition based control system and method
US5377302A (en) * 1992-09-01 1994-12-27 Monowave Corporation L.P. System for recognizing speech
US5819226A (en) 1992-09-08 1998-10-06 Hnc Software Inc. Fraud detection using predictive modeling
US7251624B1 (en) 1992-09-08 2007-07-31 Fair Isaac Corporation Score based decisioning
US5337372A (en) * 1992-10-13 1994-08-09 At&T Bell Laboratories Method and apparatus for symbol recognition using multidimensional preprocessing at multiple resolutions
US5647022A (en) * 1992-10-13 1997-07-08 Lucent Technologies Inc. Method and apparatus for symbol recognition using multidimensional preprocessing and symbol sorting
US5625708A (en) * 1992-10-13 1997-04-29 Lucent Technologies, Inc. Method and apparatus for symbol recognition using multidimensional preprocessing
KR970008532B1 (ko) * 1993-08-10 1997-05-24 재단법인 한국전자통신연구소 비선형 함수의 근사를 위한 비선형 추정망의 학습방법
US5473730A (en) * 1993-11-09 1995-12-05 At&T Ipm Corp. High efficiency learning network
US5704013A (en) * 1994-09-16 1997-12-30 Sony Corporation Map determination method and apparatus
US5774586A (en) * 1994-05-04 1998-06-30 Ncr Corporation Method and apparatus for standardization of inputs to word recognition systems
US5572628A (en) * 1994-09-16 1996-11-05 Lucent Technologies Inc. Training system for neural networks
FR2754080B1 (fr) * 1996-10-01 1998-10-30 Commissariat Energie Atomique Procede d'apprentissage pour la classification de donnees selon deux classes separees par une surface separatrice d'ordre 1 ou 2
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
EP1262907B1 (en) * 2001-05-28 2007-10-03 Honda Research Institute Europe GmbH Pattern recognition with hierarchical networks
US8170289B1 (en) * 2005-09-21 2012-05-01 Google Inc. Hierarchical alignment of character sequences representing text of same source
WO2007041709A1 (en) 2005-10-04 2007-04-12 Basepoint Analytics Llc System and method of detecting fraud
US7587348B2 (en) 2006-03-24 2009-09-08 Basepoint Analytics Llc System and method of detecting mortgage related fraud
US7966256B2 (en) 2006-09-22 2011-06-21 Corelogic Information Solutions, Inc. Methods and systems of predicting mortgage payment risk
US20090245646A1 (en) * 2008-03-28 2009-10-01 Microsoft Corporation Online Handwriting Expression Recognition
US20100166314A1 (en) * 2008-12-30 2010-07-01 Microsoft Corporation Segment Sequence-Based Handwritten Expression Recognition
US8489499B2 (en) 2010-01-13 2013-07-16 Corelogic Solutions, Llc System and method of detecting and assessing multiple types of risks related to mortgage lending
ES2791776T3 (es) 2012-09-05 2020-11-05 Element Inc Sistema y método para la autenticación biométrica en conexión con dispositivos equipados con cámara
JP6131474B2 (ja) * 2013-03-21 2017-05-24 パナソニックIpマネジメント株式会社 映像処理装置
KR102506826B1 (ko) 2014-05-13 2023-03-06 엘리먼트, 인크. 모바일 장치와 관련된 전자 키 지급 및 액세스 관리를 위한 시스템 및 방법
WO2015176305A1 (zh) * 2014-05-23 2015-11-26 中国科学院自动化研究所 人形图像分割方法
KR20170016438A (ko) 2014-06-03 2017-02-13 엘리먼트, 인크. 모바일 디바이스와 관련된 참석 인증 및 관리
US10223635B2 (en) * 2015-01-22 2019-03-05 Qualcomm Incorporated Model compression and fine-tuning
CN107133865B (zh) * 2016-02-29 2021-06-01 阿里巴巴集团控股有限公司 一种信用分的获取、特征向量值的输出方法及其装置
US10467464B2 (en) * 2016-06-07 2019-11-05 The Neat Company, Inc. Document field detection and parsing
TWI781226B (zh) 2017-09-18 2022-10-21 美商艾勒門公司 用於偵測行動認證中之欺騙之方法、系統及媒體
WO2020185948A1 (en) 2019-03-12 2020-09-17 Element Inc. Detecting spoofing of facial recognition with mobile devices
US11507248B2 (en) 2019-12-16 2022-11-22 Element Inc. Methods, systems, and media for anti-spoofing using eye-tracking

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3275986A (en) * 1962-06-14 1966-09-27 Gen Dynamics Corp Pattern recognition systems
US3295103A (en) * 1962-08-16 1966-12-27 Scope Inc System for classifying minimally constrained stimuli
JPS5035379B1 (ja) * 1970-05-25 1975-11-15
US4750211A (en) * 1983-07-29 1988-06-07 Polaroid Corporation Method and apparatus for image processing with field portions
US4918742A (en) * 1988-04-22 1990-04-17 The Boeing Company Image processing using multi-pass convolution with small kernels
US4933872A (en) * 1988-11-15 1990-06-12 Eastman Kodak Company Method and system for wavefront reconstruction

Also Published As

Publication number Publication date
JPH0664630B2 (ja) 1994-08-22
US5058179A (en) 1991-10-15
CA2032126A1 (en) 1993-08-17
CA2032126C (en) 1993-08-17

Similar Documents

Publication Publication Date Title
JPH056463A (ja) 計算ネツトワーク
US5067164A (en) Hierarchical constrained automatic learning neural network for character recognition
WO2021093620A1 (en) Method and system for high-resolution image inpainting
CN108805270B (zh) 一种基于存储器的卷积神经网络系统
WO2023146523A1 (en) Event-based extraction of features in a convolutional spiking neural network
US5511134A (en) Image recognition device and image recognition method
US20200279166A1 (en) Information processing device
US5271090A (en) Operational speed improvement for neural network
Lin et al. Lateral refinement network for contour detection
Bischof Pyramidal neural networks
Lovell et al. An evaluation of the neocognitron
Bao et al. Bidirectional multiscale refinement network for crisp edge detection
Singh et al. Feature selection using harmony search for script identification from handwritten document images
CN110738213B (zh) 一种包括周边环境的图像识别方法及装置
US10970201B2 (en) System, method and apparatus for data manipulation
JPH07113917B2 (ja) ニューラル・ネットワーク及びその制御方法及びニューラル・ネットワーク用演算装置
Dawwd et al. Video based face recognition using convolutional neural network
Qiu et al. A robust residual shrinkage balanced network for image recognition from japanese historical documents
Zhou et al. Deep learning and visual perception
JP7285479B2 (ja) 画像認識装置、及び画像認識プログラム
Patil Flexible image recognition software toolbox (first)
Jackel et al. VLSI implementations of electronic neural networks: An example in character recognition
Yang et al. Modelling Spatial Correlations by Using Deep CNN and LSTM for Texture Image Classification
Xu Point clouds analysis with extreme learning machine and high order point CNN
Rodriguez Building Blocks

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees