JPH056463A

JPH056463A - 計算ネツトワーク

Info

Publication number: JPH056463A
Application number: JP3025036A
Authority: JP
Inventors: John S Denker; エス．デンカージヨン; Richard E Howard; イー．ハワードリチヤード; Lawrence E Jackel; イー．ジヤツクルローレンス; Yann Lecun; ルカンヤン
Original assignee: American Telephone and Telegraph Co Inc
Current assignee: AT&T Corp
Priority date: 1990-01-31
Filing date: 1991-01-28
Publication date: 1993-01-14
Anticipated expiration: 2009-08-22
Also published as: JPH0664630B2; US5058179A; CA2032126A1; CA2032126C

Abstract

(57)【要約】（修正有）【目的】高精度かつ信頼性の高い光学的文字認識を行
う。【構成】局所特徴抽出のための並列束縛特徴検出を行な
う層を複数個有し、次元性低減のための完全接続層を複
数個有する階層的ネットワークによって実現される。文
字分類も完全接続層において実行される。並列束縛特徴
検出の各々の層は、複数個の束縛特徴マップ及び対応す
る複数個のカーネルよりなり、所定のカーネルが直接単
一の束縛特徴マップに関連している。各層間でのアンダ
ーサンプリングが実行される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、パターン認識に関し、
特に、光学的文字認識のための多数並列束縛ネットワー
クに関する。

【０００２】

【従来の技術】近年、微細並列アーキテクチャに関する
適応学習に基づく計算システムは、コンピュータに基づ
く情報収集、処理、操作、蓄積、及び伝送技術の発展の
ために現実味を帯びてきている。これらのシステムにお
いて適用されている多くの概念は、特定の画像における
文字パターンの自動認識、解析及び分類の方法を提供す
ること等の問題を解決するために本質的に有効な方法を
表わしている。究極的には、この種のシステムにおける
これらの技法の価値は従来の方法に対するこれらの方法
の効率の良さもしくは正確さに依存する。

【０００３】「コネクショニズム・イン・パースペクテ
ィブ（ＣｏｎｎｅｃｔｉｏｎｉｓｍｉｎＰｅｒｓｐｅ
ｃｔｉｖｅ）」という書籍（エルセヴィール・サイエン
ス・パブリシャーズ（ＥｌｓｅｖｉｅｒＳｃｉｅｎｃ
ｅＰｕｂｌｉｓｈｅｒｓ）：北オランダ、１９８９
年）中の第１４３−１５５頁におかれているワイ・レク
ン（Ｙ．ＬｅＣｕｎ）による”一般化及びネットワーク
デザイン戦略”という表題の最近の記事においては、当
該著者は光学的数字認識問題に対して応用される５種の
相異なった階層ネットワークアーキテクチャを記述して
いる。これらのネットワークの各々における学習は、デ
ィー・ラメルハート（Ｄ．Ｒｕｍｅｌｈａｒｔ）らによ
って「パラレル・ディストリビューテッド・プロセシン
グ（ＰａｒａｌｌｅｌＤｉｓｔｒｉｂｕｔｅｄＰｒ
ｏｃｅｓｓｉｎｇ）」（ブラッドフォード・ブックス
（ＢｒａｄｆｏｒｄＢｏｏｋｓ）：マサチューセッツ
州ケンブリッジ、１９８６年）第Ｉ巻第３１８−３６２
頁に記載されている後方伝播技法より得た固有分類知能
を用いて手書きの数字のピクセルイメージに対して試み
られた。

【０００４】ネットワークの複雑さは、Ｎｅｔ−２と呼
称される２層完全接続ネットワークから階層的特徴抽出
を行なうための２レベル束縛特徴マップを有する階層的
ネットワークＮｅｔ−５に移行することによって増大す
ることが示された。ネットワークＮｅｔ−２は、ジェネ
ラリゼーションパフォーマンスにおいて１層完全接続ネ
ットワークより著しく多くのスタンダードデヴィエーシ
ョンを有しているため、そのトレーニングセットに関し
てコンシステントであるような多くの解に関して未定で
ある。しかしながら、レクンは以下のように述べてい
る：”不幸にも、これらの種々の解はテストセットに関
して同値な結果を与えない．．．ネットワークが大きす
ぎる（余りにも多くの自由度を有している）ことは明白
である。”最も複雑なネットワーク、すなわちＮｅｔ−
５、の性能はより複雑でないネットワークの性能を上回
っている。さらに、多層レベル束縛特徴マップがシフト
インヴァリアンスに対する付加的制御を提供することが
仮定されている。

【０００５】

【発明が解決しようとする課題】前述した階層ネットワ
ークは文字認識・分類問題の解法を進展させたが、既存
のシステムが信頼性の高い自動文字認識装置の実現を可
能にするための充分な正確さを欠いていることは明らか
である。

【０００６】

【課題を解決するための手段】正確で信頼性の高い光学
的文字認識は、局所特徴抽出に係る並列束縛特徴検出を
複数層有し次元性低減用の完全接続層を複数層有する階
層構造ネットワークによって可能となる。文字分類も究
極完全接続層内において実行される。並列束縛特徴検出
の各々の層は、複数個の束縛特徴マップ及び対応する複
数個のカーネルを有し、所定のカーネルが直接単一の束
縛特徴マップに関連している。複数個の層に亘るアンダ
ーサンプリングが行なわれる。

【０００７】本発明の原理に従った実施例においては、
前記階層構造ネットワークが２層の束縛特徴検出層及び
２層の次元性低減層を有している。各々の束縛特徴マッ
プは複数個のユニットよりなる。第一束縛特徴検出層の
各々の束縛特徴マップにおけるユニットは、当該束縛特
徴マップに対する対応するカーネル及び当該ユニットに
係る受容領域において補足された文字のピクセルイメー
ジの相異なった部分の双方の関数として応答する。第二
束縛特徴検出層の各々の束縛特徴マップにおけるユニッ
トは、当該束縛特徴マップに対する対応するカーネル及
び当該ユニットに係る受容領域において補足された第一
束縛特徴検出層における個別の束縛特徴マップあるいは
複数個の束縛特徴マップの組合せの相異なった部分の双
方の関数として応答する。第二束縛特徴検出層の特徴マ
ップは、第一次元性低減層の各々のユニットに完全に接
続されている。第一次元性低減層のユニットは、最終的
な文字分類を行なう第二次元性低減層の各々のユニット
に接続されている。カーネルは、ネットワークの初期化
あるいはトレーニング期間に束縛逆方向伝播によって自
動的に学習させられる。

【０００８】本発明に係るネットワークアーキテクチャ
によって実現される利点は、シフトインヴァリアンスの
増加及びエントロピー、ヴァプニック・シェルヴォネン
キス（Ｖａｐｎｉｋ−Ｃｈｅｒｖｏｎｅｎｋｉｓ）次元
性、及び自由パラメータの低減である。これらの改善の
結果として、所定レベルのジェネラリゼーションパフォ
ーマンスを達成するために必要とされるトレーニングデ
ータの量とトレーニング時間が当該ネットワークにおい
ては低減される。

【０００９】

【実施例】図１に示されている計算エレメントは、本発
明の原理に従って実現された階層束縛ネットワークにお
ける基礎特徴及び相互接続ブロックを形成している。一
般に、計算エレメントは、ｎ＋１個の入力値の重みをつ
けた和を計算し、その結果を単一の値を与えるような非
線型関数を介して出力する。計算エレメントの入力及び
出力値は、アナログ値、マルチレベル及びグレイスケー
ル等の擬アナログ値、あるいは二進値である。計算エレ
メントにおいて用いられる非線型関数には、ハードリミ
ッタ、スレッショルドロジック素子、Ｓ字型非線型関
数、区分非線型近似等がある。

【００１０】図１に示された計算エレメントは、ｎ個の
隣接する入力ピクセル、イメージもしくは特徴マップか
らのピクセル値あるいはユニット値をスキャンする。こ
こで、ピクセル、ピクセル値及びユニット値はａ₁，
ａ₂，．．．，ａ_nで表現されている輝度レベル等の値を
有している。計算エレメントのｎ＋１番目の入力にバイ
アス入力が印加される。簡単のために、当該バイアス
（ＢＩＡＳ）は一般には例えば１などの定常値にセット
されているものとする。これらの入力値及びバイアス
は、乗算器１−１から１−（ｎ＋１）に与えられる。当
該乗算器は、さらにカーネルから重みｗ₁からｗ_n+1を受
け取る。全ての乗算器の出力は加算器２に加えられ、当
該加算器は前記入力値の重みを考慮した和を生成する。
加算器２の出力はそれ自体入力値（バイアス値を含む）
ベクトルとカーネルの与えた重みを表現するベクトルと
の内積である。加算器２の出力は非線型性３内の非線型
関数を通じて単一のユニットとしての出力値ｘ_iを生成
する。以下でより明らかになるように、ユニット出力値
ｘ_iは考慮中の特徴マップにおけるi番目のユニットの値
に関係している。

【００１１】本発明の一実施例においては、非線型性３
におけるＳ字型関数としてハイパーボリックタンジェン
ト関数の定数倍、すなわちｆ（α）＝ＡｔａｎｈＳαが
選択される。ここで、αは非線型３へ与えられる重みを
考慮した入力値の和、Ａは当該関数の振幅、及びＳは当
該関数の起点における傾きを決める数である。当該関数
は、漸近値＋Ａ及び−Ａを有する奇関数である。奇の対
称性を有する非線型関数がカーネルの重みｗ₁からｗ_n+1
の収束をより早くすると言われていることに留意された
い。

【００１２】本発明に係る階層束縛ネットワークにおけ
る各々のカーネルに対する重みは、逆方向伝播として知
られている試行錯誤学習技法を用いて得られる。例えば
ルメルハートらによる前掲の参考文献あるいはアール・
ピー・リップマン（Ｒ．Ｐ．Ｌｉｐｐｍａｎｎ）によ
る”ニューラルネットによる計算入門”（アイ・トリプ
ル・イー・エイ・エス・エス・ピー・マガジン（ＩＥＥ
ＥＡＳＳＰＭａｇａｚｉｎｅ）第４巻第２号第４−２
２頁（１９８７年））を参照のこと。学習の前に各々の
カーネルに係る重みは例えば−２．４／Ｆ_iと２．４／
Ｆ_iとの間の一様分布乱数を用いてランダムな値に初期
化される。ここでＦ_iは接続されているユニットへの入
力の数（ファン・イン）である。図１に示された実施例
においては、ファン・インＦ_iはｎ＋１である。出力コ
スト関数の例は、公知の二乗平均誤差関

【数１】である。ここで、Ｐはパターンの数、Ｏは出力ユニット
の数、ｄ_opはパターンｐが与えられている場合の出力ユ
ニットｏの望ましい状態、及びｘ_opはパターンｐが与え
られている場合の出力ユニットｏの状態である。これら
の初期化技法を用いることによって値をＳ字非線型性の
定義域に維持することが可能となる。学習期間中は、イ
メージパターンが一定の順序で与えられる。それぞれの
重みは、スタカスティックグラディエントすなわち”オ
ンライン”手続きに従って単一の認識用イメージパター
ンが与えられる毎に更新される。更新には、各々の重み
が更新される前に学習セット全体に亘って平均が取られ
るような真のグラディエント手続きも用いられ得る。こ
こで、ストカスティックグラディエントを用いた場合、
特に大量かつ冗長性を有するイメージデータベースに対
しては重みの収束が早くなることに留意されたい。

【００１３】逆方向伝播アルゴリズムの一変形において
は、学習速度を最適化するためにヘッセ（Ｈｅｓｓｅ）
行列の対角化近似を計算する。この種の”擬似ニュート
ン法”手続きは、パラメータを過度に調節することなく
信頼できる値を生成する。このことについては、レクン
による”ＭｏｄｅｌｅｓＣｏｎｎｅｘｉｏｎｎｉｓｔ
ｅｓｄｅｌ’Ａｐｐｒｅｎｔｉｓｓａｇｅ”（仏
文）（ピエール及びマリーキュリー大学（パリ、フラン
ス）博士論文（１９８７年））を参照。

【００１４】手書きの文字を与えられた文字イメージを
形成するピクセルアレイに変換するためには標準的な技
法が用いられる。文字イメージは離れた場所から電子的
伝送を介してあるいはスキャニングカメラその他のスキ
ャニングデバイスを用いてローカルに獲得される。イメ
ージ源に拘らず、文字イメージは従来技法に従って順序
をつけて並べられたピクセルによって表現されるものと
する。当該順序付けは代表的にはアレイ配置である。ひ
とたび表現されてしまうと、文字イメージはフレームバ
ッファ等の光学的もしくは電子的メモリデバイスに取り
込まれてストアされる。

【００１５】各々のピクセルは、可視文字イメージの微
小面積に係る光の強度あるいは色等に対応する値をそれ
ぞれ有している。ピクセル値はその後メモリデバイスに
ストアされる。特定のマップに対しての参照がなされる
場合、”ピクセル”という術語と”ユニット値”という
術語とは相互に交換可能なものとして用いられ、ピクセ
ル、ピクセル値及びマップアレイを形成するように組み
合わせられている各々の計算エレメントからのユニット
値出力を包含している。ネットワークの動作を可視化し
かつ開発するためにはピクセル値あるいはユニット値よ
りもピクセル平面あるいは２次元ピクセルアレイ（マッ
プ）という語を用いて考えるのがより便利である。

【００１６】ピクセル及びユニット値をピクセル強度レ
ベルとともに可視化するのに加えて、カーネルにおける
重みによるアレイを同様に可視化することも便利であ
る。例えば、図１３に従って配置された図１４及び図１
５においては、図２に示された実施例に関する実験にお
いて学習させられたカーネルアレイが示されている。さ
らに、カーネルをアレイとして可視化することにより、
ピクセルアレイにおいてカーネルが特徴抽出を経るにし
たがって如何に何に作用するかをより容易に理解するこ
とが可能となる。

【００１７】文字認識のためのピクセルアレイとして文
字イメージを準備するために用いられる種々のプリプロ
セッシング技法には種々の線型変換、例えばスケーリン
グ、大きさの規格化、デスキューイング、センタリン
グ、及び移動あるいはシフトなどが含まれるが、これら
はすべて当業者には既知のものである。加えて、手書き
の文字からグレイスケールピクセルアレイへの変換は、
それを行なわない場合にはプリプロセッシング間に喪失
されて回復不能となってしまうような情報を保存するた
めにも望ましい場合がある。後者の変換も当業者には既
知である。

【００１８】文字認識のためのイメージを準備するため
の上述されている動作に加えて、一般的には、オリジナ
ルイメージの周囲に一様な、実質的に一定のレベルの境
界を与えることが望ましい。この種の境界がアレイ１０
２に示されており、イメージ１０におけるアレイ１０１
の外側のアレイ要素が一様な境界を形成している。以下
に示されている実施例においては、ネットワークへの入
力は元のイメージを正規化することによって形成された
１６ｘ１６のグレイスケールイメージである。ここでイ
メージがバイナリではなくグレイスケールであるのは、
元のイメージにおける種々の数のピクセルが正規化され
たイメージにおける与えられたピクセルに入るからであ
る。

【００１９】計算エレメント、さらには、全体のネット
ワークは、ハードウエアあるいはソフトウエアもしくは
ハードウエアとソフトウエアの適切な組合せによって形
成される。本明細書において示されているネットワーク
の大部分は、基礎的な数学関数である加算、減算、乗
算、及び比較を実行するような単純なプログラムを搭載
したサン（ＳＵＮ）社製のワークステーションを用いて
実現されている。パイプライン化されたデバイス、マイ
クロプロセッサ、及び特別仕様デジタルシグナルプロセ
ッサを用いても、本発明に従ったネットワークを実現す
るのに便利なアーキテクチャを得ることができる。ＭＯ
ＳＶＬＳＩ技術も図２に示されているような型の、特
定の重みを有する相互接続ネットワークを実現するため
に用いられている。ピクセル及びユニット値及びその他
の一時的な計算結果をストアするためにはローカルメモ
リが望ましい。

【００２０】図２は、本発明の原理に従った階層束縛自
動学習ネットワークの実施例を示した簡潔なブロック図
である。当該ネットワークは、与えられたイメージから
大量の計算をパラレルに行なうことによって文字認識を
行なう。図２において、層２０から５０内の箱として示
されている各々のアレイは、アレイユニット毎に複数個
の計算エレメントを有している。ネットワークにおける
全ての接続は、重度に束縛されているが適応型であり、
逆方向伝播法によって学習させられる。入力層及び出力
層に加えて、当該ネットワークは各々層２０、層３０及
び層４０と呼称される３つの隠された層を有している。
層２０及び３０にはいる接続は局所的なものであり重度
に拘束されている。

【００２１】図２に示されているネットワークは第一及
び第二特徴検出層及び第一及び第二次元性低減層を構成
しており、ここで後者の次元性低減層は文字分類層であ
る。各々の層は種々の大きさの一つもしくは複数個の特
徴マップすなわちアレイを構成している。通常のアプリ
ケーションの大部分においては、マップは正方形であ
る。しかしながら、長方形及びその他の対称的及び非対
称のあるいは不規則なマップパターンも企図されてい
る。検出された特徴の配置はマップと呼称される。なぜ
なら、ピクセル（ユニット値）がストアされるメモリデ
バイス内にアレイが構築されかつより低いレベルのマッ
プからの特徴抽出が当該マップに対する前記アレイ内の
適切な位置に配置されるからである。このようにして、
特徴の存在もしくは（グレイスケールレベルを用いた）
実質的な存在及びその相対的な位置が記録される。

【００２２】マップ内で検出された特徴の型は用いられ
ているカーネルによって決定される。ここで、カーネル
が計算エレメント内でスキャンされているイメージのピ
クセル値に乗ぜられる重みを有していることに留意され
たい。束縛特徴マップにおいては、同一のカーネルが同
一のマップの各々のユニットに対して用いられる。すな
わち、束縛特徴マップはそれが関連しているカーネルに
よって規定された特定の特徴の非存在あるいは存在を表
現しているピクセルアレイをスキャンしたものである。
ここで、”束縛された”という術語は、特定のマップを
構成している計算エレメントがカーネルに係る重みの同
一の組を共用させられている状態を表現する。このた
め、入力イメージの相異なった位置において同一の特徴
が検出されることになる。言い替えれば、束縛特徴マッ
プはある様式で局在する同一の特徴の存在の表現を与え
る。この技法は重みの共用としても知られているもので
ある。

【００２３】ここで、カーネルが、当該カーネルによっ
て規定される特徴の存在が検出されるイメージピクセル
あるいはマップユニット平面における受容領域（例え
ば、５ピクセルｘ５ピクセルあるいは２ピクセルｘ２ピ
クセル）を規定することに留意されたい。カーネルをピ
クセルアレイ上に配置することによってどのピクセルが
特徴マップにおける計算エレメントに対する入力である
か及び当該特徴マップ上のどのユニットが活性化されて
いるかを示すことが可能となる。活性化されているユニ
ットは、一般には、検出がなされているマップに存在す
る特徴の概略の位置に対応している。

【００２４】第一特徴検出層は、複数個の束縛特徴マッ
プ２０を有している。図に示されているように、当該ネ
ットワーク例においては各々１２個の束縛特徴マップが
含まれている。第二特徴検出層も、複数個の束縛特徴マ
ップ３０を有している。図に示されているように、本実
施例においては、ネットワークは第二層内の束縛特徴マ
ップを各々１２個有している。

【００２５】ネットワークの上部２層は次元性低減層４
０及び５０を構成しており、層５０は文字分類層であ
る。層４０は第二特徴検出層の全ての束縛特徴マップに
完全に接続されている。文字分類層は次元性低減層４０
内の全てのユニットに完全に接続されている。層５０
は、与えられたオリジナルイメージから当該ネットワー
クによって認識された文字（アルファベットもしくは数
字）の表示を生成する。”完全に接続された”という言
葉は、層４０内のピクセルに係る計算エレメントがマッ
プの下部にある層、すなわち、層３０に含まれる全ての
ピクセルあるいはユニットからの入力を受容する、とい
うことを意味している。

【００２６】図２に示されたネットワークにおける各々
の層の間の相互接続線は、前段に位置する層におけるど
のマップが各々の計算エレメントの入力を与えているか
を示すように描かれたものである。これら各々の計算エ
レメントを構成しているユニットは、後段に位置するよ
り高位のネットワーク層におけるマップを形成してい
る。例えば、束縛特徴マップ２０１から２１２は、束縛
特徴マップ生成プロセスにおいてイメージ１０から相異
なった特徴を検出する。次段においては、特徴還元マッ
プ３０１から３１２が、束縛特徴マップ２０１から２１
２の内の相異なった８個の組合せよりなるユニットから
それぞれの入力を得る。束縛特徴マップ３０１、３０２
及び３０３は、図７から９に示されたカーネル例によれ
ば、各々の入力を束縛特徴マップ２０１、２０２、２０
３、２０４、２０９、２１０、２１１、及び２１２の組
合せより得ている；束縛特徴マップ３０４、３０５、及
び３０６は、図１０から１２に示されたカーネル例によ
れば、各々の入力を束縛特徴マップ２０３、２０４、２
０５、２０６、２０９、２１０、２１１、及び２１２の
組合せより得ている；束縛特徴マップ３０７、３０８、
及び３０９は、図１３から１５に示されたカーネル例に
よれば、各々の入力を束縛機能マップ２０５から２１２
までの組合せより得ている；及び、束縛特徴マップ３１
０、３１１、及び３１２は、図１６から１９に示された
カーネル例によれば、束縛特徴マップ２０１、２０２、
及び２０７から２１２までの組合せより得ている。イメ
ージ１０を層２０との間の相互接続に対して重みを与え
るために用いられるカーネル例が図４から６に示されて
いる。

【００２７】次元性低減層４０は、分類層５０よりも多
くのエレメントを有している。図２の数認識ネットワー
ク例に示されているように、層４０内には３０個のユニ
ットすなわちエレメントが含まれている。文字分類層５
０が、当該ネットワークによって解かれるべき特定の文
字認識問題に対して充分な数のエレメントを有している
ことに留意されたい。すなわち、ローマ字のアルファベ
ットの大文字か小文字のいずれかのみの認識に関する実
施例においては、層５０はＡからＺまであるいはａから
ｚまでの文字を特定する２６個のユニットを有してい
る。他方、数字の認識に関する実施例においては、層５
０は各々０から９の数字を特定する１０個のユニットの
みを有している。

【００２８】理解を容易にするために、図１に示された
カーネルにおける計算エレメントに対するバイアス入力
及びそれに関連する重みは、本実施例に係る記述及び図
３から１９においては省略されている。実際には、バイ
アスは１に設定されかつカーネル内における対応する重
みは逆方向伝播により学習させられるが、図においては
バイアス入力に対するカーネルエレメントは示されてい
ない。

【００２９】層２０は、１２個の独立した８ｘ８特徴マ
ップとして配置された６４個のユニットよりなる１２群
から成り立っている。これら１２個の特徴マップは、マ
ップ２０１、マップ２０２、．．．、マップ２１２とし
て示される。特徴マップにおける各々のユニットは、入
力面上の５ｘ５の隣接ユニットから入力を得る。層２０
内の一つ隣のユニットは、（入力層における）受容領域
が２ピクセル離れている。すなわち、このプロセスにお
いては、入力イメージはアンダーサンプリングされ、あ
る種の位置情報が失われる。このような２：１アンダー
サンプリングは層２０から層３０に移行する際にも行な
われる。

【００３０】このような設計は、高解像度は特定の形よ
りなる特徴がイメージ内に現われているか否かを検出す
るために必要とされるのに対して、前記特徴が現われる
正確な位置は同様の高精度で決定される必要がない、と
いう考察に基づいている。さらに、イメージ内のある場
所において重要な特徴の型は他の場所においても重要で
あることが知られている。

【００３１】それ故、ある与えられた特徴マップにおけ
る各々のユニットへの対応する接続は同一の重みを有す
るように束縛されている。言い替えれば、層２０内の６
４のユニット全てが２５個の重みよりなる同一の組を用
いている。各々のユニットは、イメージ内の対応する部
分に対して同一の動作をする。特徴マップによって実行
される機能は、５ｘ５カーネルによる一般化された畳み
込みと解釈され得る。

【００３２】もちろん、他のマップ（例えばマップ２０
４）内のユニットは、２５個の重みよりなる別な組を共
用している。ここで、ユニットはバイアス（スレッショ
ルド）を共用していないことに留意されたい。各々のユ
ニットは２５個の入力線に加えて１つのバイアス入力を
有している。入力の境界を越えてなされている接続に関
しては、一定の予め定められたバックグラウンドレベル
（ここでは−１）に等しい状態を有する仮想的なバック
グラウンド面から入力がなされる。よって、層２０は７
６８（８ｘ８ｘ１２）個のユニットを有し、１９９６８
（７６８ｘ２６）個の接続を有しているが、多くの接続
が同一の重みを共用しているため、自由なパラメータは
わずか１０６８（７６８個のバイアス及び２５ｘ１２個
の特徴カーネル）個である。

【００３３】層３０も１２個の特徴マップよりなる。各
々の特徴マップは４ｘ４平面に配置された１６個のユニ
ットを有している。層２０の場合と同様、これらの特徴
マップはマップ３０１、マップ３０２、．．．、マップ
３１２として示される。層２０と層３０との間の接続方
式は、入力と層２０との間の接続と非常に類似している
が、わずかにより複雑である。なぜなら、層２０は複数
個の２Ｄマップを有しているからである。層３０内の各
々のユニットは、層２０内の１２個の相異なった特徴マ
ップの内の８個からの局所入力を結合する。層３０の受
容領域は、前記８個のマップの各々における同一の位置
におかれたユニットを中心とする、８個の５ｘ５隣接ユ
ニットよりなる。よって、層３０は、２００個の入力、
２００個の重み、及びバイアスを有している。もちろ
ん、与えられたマップにおける全てのユニットは同一の
重みベクトルを有するように束縛されている。層３０に
おけるマップがその入力を得る層２０内の８個のマップ
は、以下に示されている方式に従って選択される。第一
ヒドゥン層（つまり、層２０９から２１２）には次の層
における全てのマップに接続されており概略の特徴を計
算することが期待されている４つのマップが存在する。
残りの８つのマップと層３０との間の接続は、図７から
１９に示されているごとくである。この方式の基礎とな
ったアイデアは、８つのマップ間の機能の接近性の概念
を導入することである。このアーキテクチャにより、連
続マップ内の層３０のユニットは同様のエラー信号を受
容し、同様の動作をすることが期待されている。層２０
の場合と同様、層３０の境界を超過している接続に対し
ては、０という状態を有する仮想面からの入力がなされ
る。まとめると、層３０は１９２（１２ｘ４ｘ４）個の
ユニットを有し、層３０と層２０との間には、３８９９
２（１９２ｘ２０１）の接続が存在する。これらの接続
全ては、わずか２５９２（１２個の特徴マップｘ２００
個の重み＋１９２個のバイアス）個の自由パラメータに
よって制御されている。

【００３４】層４０は３０個のユニットを有し、層３０
に対して完全に接続されている。層３０と層４０との感
の接続は５７９０（３０ｘ１９２＋３０個のバイアス）
である。出力層は１０個のユニットを有し、層４０に完
全に接続され、３１０個の重みを付加する。本実施例で
示したネットワークにおいては、１２５６個のユニッ
ト、６４６６０個の接続及び９７６０個の独立したパラ
メータが存在する。図３は、イメージ１０から束縛機能
マップ２０１への相互接続及び特徴抽出及び検出の例を
示している。マップ２０１におけるユニット２１０は、
入力イメージ面上の５ｘ５隣接ユニットを観察し、ユニ
ット２１０の値を求めるために図５に示されたカーネル
２２１から得られた重みを用いる。グレイスケールユニ
ット値は、当該隣接ユニット内における特定の特徴の存
在、実質的な存在、実質的な不在、あるいは不在を示
す。束縛特徴マップにおける各々の計算エレメントによ
って実行される機能は、５ｘ５イメージピクセルあるい
はユニットと５ｘ５カーネルとの非線型たたみ込みとみ
なされる。マップ２０１においる１つ隣のユニット（計
算エレメント）に対しては、入力イメージ層における対
応する受容領域は２ピクセル離れている。束縛特徴マッ
プ２０１における他のユニットもユニット２１０によっ
て用いられているものと同一のカーネルを有している。
層２０における他のマップは図３に示された他のカーネ
ルを用いてマップ２０１と同一の方法でイメージを操作
するユニットを有している。層２０における関連する束
縛特徴マップに対するカーネル例の差異に関しては、図
５及び６を参照のこと。

【００３５】図３に示されているように、イメージ１０
は、もとの文字の像よりなる１６ｘ１６のアレイ１０１
を有し、２ピクセル幅の一定値の境界によって取り囲ま
れて１８ｘ１８のイメージアレイ１０２を形成してい
る。束縛特徴マップ２０１は８ｘ８アレイとして示され
ている。

【００３６】層２０内の束縛特徴マップから層３０の束
縛特徴マップ内のユニットへの相互接続は図示するのが
困難であるが故に図示されていない。当該相互接続は、
図３に示されたものと同様でありかつ他の機能マップか
らの特定のユニット値を決定するための相互接続を加え
たものである。機能的には、当該相互接続は複数個の５
ｘ５カーネルとの非線型たたみ込みである（図５から１
９を参照）。第一及び第二特徴検出層との間の他の全て
の相互接続は、複合カーネルすなわち相異なった８個の
特徴還元マップのおける受容領域に対応するユニットよ
りなる複合アレイ上の２つの個別のカーネル（例えば、
２つの５ｘ５カーネル）を用いた非線型たたみ込みであ
る。図２に示されたネットワークにおいて企図されてい
るように、マップ３１０から３１２は１２ｘ１２アレイ
である。

【００３７】図４から１９は、図２に示されたネットワ
ークに対して学習させられたカーネルの組の例を示して
いる。カーネルは、第一及び第二特徴検出層における束
縛特徴マップに対する計算エレメントによって用いられ
る。個々の正方形に対する高い輝度レベルは、当該カー
ネルにおける重みのより正のアナログ（グレイレベル）
値を示している。個々の正方形に対する低い輝度レベル
は、当該カーネルにおける重みのより負のアナログ（グ
レイレベル）値を示している。カーネル２２１から２３
２は、イメージ１０上で、各々束縛特徴マップ２０１か
ら２１２を生成するために用いられる。

【００３８】図２から１９に示されたネットワーク例に
おいては、およそ６５０００の接続と僅か１００００個
の自由パラメータしか存在しない。本発明に係るネット
ワークアーキテクチャと重みに関する拘束は、認識作業
の幾何学的トポロジーに関する充分な知識を織り込むよ
うに設計されたものであることに留意されたい。

【００３９】以上の説明は、本発明の一実施例に関する
もので，この技術分野の当業者であれば、束縛特徴マッ
プの大きさ・次元性低減層の大きさ・受容領域・カーネ
ルの大きさ及びアレイの大きさを変えるなどの本発明の
種々の変形例が考え得るが、それらはいずれも本発明の
技術的範囲に包含される。さらに、本明細書に示された
アーキテクチャにわずかの変更を加えるだけでアルファ
ベット及び数字よりなる組を認識できるように変更する
ことは当業者に取っては容易である。

【発明の効果】以上述べたごとく、本発明によれば、文
字認識を行なう自動学習ネットワークが実現される。

【図面の簡単な説明】

【図１】ネットワークにおける個別の計算エレメントを
簡潔に示したブロック図。

【図２】本発明の階層束縛自動学習ネットワークの例を
簡潔に示したブロック図。

【図３】あるレベルにおけるマップ内のユニットとその
レベルに隣接したより高位のレベルにおけるマップ内の
ユニットとの間の接続関係を示した図。

【図４】図５と図６の組み合わせ方法を示す図。

【図５】図２に示されたネットワーク例において用いら
れているカーネル表現例を示した図である。

【図６】図２に示されたネットワーク例において用いら
れているカーネル表現例を示した図である。

【図７】図８と図９の組み合わせ方法を示す図。

【図８】図２に示されたネットワーク例において用いら
れているカーネル表現例を示した図である。

【図９】図２に示されたネットワーク例において用いら
れているカーネル表現例を示した図である。

【図１０】図１１と図１２の組み合わせ方法を示す図。

【図１１】図２に示されたネットワーク例において用い
られているカーネル表現例を示した図である。

【図１２】図２に示されたネットワーク例において用い
られているカーネル表現例を示した図である。

【図１３】図１４と図１５の組み合わせ方法を示す図。

【図１４】図２に示されたネットワーク例において用い
られているカーネル表現例を示した図である。

【図１５】図２に示されたネットワーク例において用い
られているカーネル表現例を示した図である。

【図１６】図１７ないし図１９の組み合わせ方法を示す
図。

【図１７】図２に示されたネットワーク例において用い
られているカーネル表現例を示した図である。

【図１８】図２に示されたネットワーク例において用い
られているカーネル表現例を示した図である。

【図１９】図２に示されたネットワーク例において用い
られているカーネル表現例を示した図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ジヨンエス．デンカーアメリカ合衆国 07737 ニユージヤージイ、レオナード、クースマンドライブ６ (72)発明者リチヤードイー．ハワードアメリカ合衆国 08904 ニユージヤージイ、ハイランドパーク、ハリソンアヴエニユー 445 (72)発明者ローレンスイー．ジヤツクルアメリカ合衆国 07733 ニユージヤージイ、ホルムデル、ストーニーブルツクロード 31 (72)発明者ヤンルカンアメリカ合衆国 07748 ニユージヤージイ、ミドルタウン、クレイブドンコート５

Claims

【特許請求の範囲】

【請求項１】イメージマップに含まれる文字の認識を
行なう多数並列計算ネットワークにおいて、前記イメー
ジマップから特徴を抽出しかつ前記イメージをアンダー
サンプリングする第一の束縛特徴検出層と、前記第一の
束縛機能検出層から特徴を抽出する第二の束縛特徴検出
層と、前記第二の束縛特徴検出層に実質的に完全に接続
されかつ応答する第一の次元性低減層と、前記第一の次
元性低減層に実質的に完全に接続されかつ応答し前記ネ
ットワークによって認識された文字の分類を行ないかつ
前記ネットワークによって認識された文字を表現する指
示を生成する第二の次元性低減層とを有することを特徴
とする計算ネットワーク。
【請求項２】前記イメージマップが、もとの文字イメ
ージを囲む実質的に一定の所定のバックグラウンドを有
することを特徴とする請求項１に記載の計算ネットワー
ク。
【請求項３】前記第一束縛特徴検出層が、独立した特
徴マップとして配置されたｍ個のユニットからなる群を
Ｍ個有し、前記第二束縛特徴検出層が独立したｎ個のユ
ニットからなる群をＮ個有し、かつ、Ｍ、Ｎ、ｍ、及び
ｎがＭ≧Ｎ及びｍ≧ｎを満たす正の整数であること、を
特徴とする請求項１に記載の計算ネットワーク。
【請求項４】前記ＭとＮが等しいこと、を特徴とする
請求項３に記載の計算ネットワーク。
【請求項５】前記第一次元性低減層が、各々１ユニッ
トからなるＬ個の群を有し、前記第二次元性低減層が各
々１ユニットからなるＫ個の群を有し、かつＫ及びＬが
正の整数で、ＫはＮより大きくかつＬより小さいこと、
を特徴とする請求項３に記載の計算ネットワーク。
【請求項６】前記ＮとＭが等しいこと、を特徴とする
請求項５に記載の計算ネットワーク。
【請求項７】前記ユニットが、対応するユニットに関
連しそれらに対する値を生成する計算エレメントを有
し、前記計算エレメントの各々がそれ自体に関連し重み
を与えるカーネルを有しかつ少なくとも予め定められた
他の層における実質的に隣接した複数個のユニットに応
答して前記関連する重みを与えるカーネルと前記予め定
められた複数個の実質的に隣接したユニットとの内積を
所定の非線型基準に従って出力値にマッピングし、前記
計算エレメントの各々が同一のマップに関連している他
の各々の計算エレメント以外の複数個の実質的に相異な
ったユニットに対して応答し、前記第二束縛特徴検出層
が前記第一束縛特徴検出層内の少なくとも一つの特徴マ
ップに属するユニットに応答し、前記第一次元性低減層
内の各々のユニットが前記第二束縛特徴検出層内の実質
的に全てのユニットに応答してネットワークによって認
識された文字を表現し、かつ、前記第二次元性低減層内
の各々のユニットが前記第一次元性低減層内の実質的に
全てのユニットに応答すること、を特徴とする請求項３
に記載の計算ネットワーク。
【請求項８】前記所定の非線型基準がＳ字型関数を含
むこと、を特徴とする請求項７に記載の計算ネットワー
ク。
【請求項９】前記所定の非線型基準が区分的な非線型
関数を含むこと、を特徴とする請求項７に記載の計算ネ
ットワーク。
【請求項１０】前記ＮとＭが等しいこと、を特徴とす
る請求項７に記載の計算ネットワーク。
【請求項１１】前記第一次元性低減層が、各々１ユニ
ットからなるＬ個の群を有し、前記第二次元性低減層が
各々１ユニットからなるＫ個の群を有し、かつＫ及びＬ
が正の整数で、ＫはＮより大きくかつＬより小さいこ
と、を特徴とする請求項７に記載の計算ネットワーク。
【請求項１２】前記ＮとＭが等しいこと、を特徴とす
る請求項１１に記載の計算ネットワーク。
【請求項１３】前記所定の非線型基準がＳ字型関数を
含むこと、を特徴とする請求項１２に記載の計算ネット
ワーク。
【請求項１４】前記所定の非線型基準が区分的な非線
型関数を含むこと、を特徴とする請求項１２に記載の計
算ネットワーク。