JPH06176202A

JPH06176202A - 文字認識用の管理されたトレーニング増加多項式法および装置

Info

Publication number: JPH06176202A
Application number: JP5203941A
Authority: JP
Inventors: Peter G Anderson; ジーアンダーソンピーター
Original assignee: Eastman Kodak Co
Current assignee: Eastman Kodak Co
Priority date: 1992-08-18
Filing date: 1993-08-18
Publication date: 1994-06-24
Also published as: EP0588074A2; EP0588074A3; US5555317A

Abstract

(57)【要約】【目的】手書きまたは機械印字文字を高速で、高精度
に分類・識別する方法及び装置を提供する。【構成】ラベルされたトレーニング文字から特徴ベク
トルを抽出する。特徴ベクトルとそのラベルとから加重
マトリクスＡが生成される。重みマトリクスは、各反復
回において、不適切に分類された文字または分類の信頼
性が低い文字を決定し、適切な分類を強化するトレーニ
ングにおいてそのような文字を複製することによって修
正される。適切な分類は、負のフィードバックを用い
て、ターゲットベクトルに負の値を用いることによって
不適切な分類を抑制することによっても強化される。学
習プロセスの速度は中間マトリクスを用い、特徴ベクト
ル及びサンプル集合のサイズを段階的に増加させるよう
にすることによって向上する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、英数テキスト文字、特
に手書きのテキスト文字を特徴づけ、または認識するた
めの方法および装置に係り、より詳細には、認識テスト
結果を使用して分類不完全な文字を複製（またはトレー
ニング加重を増加）し、不適切な分類に対して負のフィ
ードバックを与えるような誤差訂正フィードバックを使
用しつつ、最小二乗パタン認識法(least squares patte
rn recognition method)を反復することにより分類加重
マトリクスを生成し、その結果生成された加重マトリク
スが、手書きの書類または文字の自動識別処理、あるい
はペンベースコンピュータ(pen-based computer)に入力
された文字のオンライン識別に使用される自動システム
に関する。

【０００２】

【従来の技術】文字パタン認識の従来法には、機械印字
文字認識あるいは手書き文字認識に関わらず、ニューラ
ルネットワークに基づく認識法、統計分類法、テンプレ
ートマッチングやストロークに基づく方法などといっ
た、多くの種類がある。

【０００３】ニューラルネットワークに基づくシステム
の特徴は、バックプロパゲーション等のいくつかの学習
法に対応して変化する複数の非線形変換関数にある。ニ
ューラルネットワークは、通常、誤差フィードバックと
自己組織化により、識別基準を発展させる。複数の変換
関数が、教示を施された識別システムにおいて用いられ
るため、ニューラルネットワークは、汎用コンピュータ
で実施するのには適しておらず、通常、変換関数のそれ
ぞれが実行される特殊な専用プロセッサまたは専用のノ
ードハードウェア(node hardware) を必要とする。

【０００４】一方、統計に基づく分類法は、汎用コンピ
ュータで実施するのに、より適している。統計分類法
は、複数の異なる統計アルゴリズムを用いて実現するこ
とができる。これらのアルゴリズムは、通常、文字の選
択された特徴を取り扱い、その特徴が、認識される文字
の特性を定義する特徴クラスタに属しているか、あるい
はその要素であるかを分析的に決定する。換言すれば、
ラベルされていない文字の特徴が特定のテキスト文字を
特徴づける特徴クラスタの境界内にあれば、そのラベル
される文字が、当該クラスタの文字に一致する可能性が
高い。

【０００５】ラベルされていない文字がクラスタ境界内
にあるかどうかを識別する１つの方法は、ラベルされて
いない文字画素配列と、可能性のあるマッチングテキス
ト文字の配列との、ハミング距離を計算することであ
る。別の方法は、ウーマ・シュリニバサン著「手書きア
ラビア数字識別のための多項判別式法」（ニューヨーク
州立大学バッファロー、技術報告書、１９８９年１２月
１４日）("Polynomial Discriminant Method For Hand
Written Digit Recognition";Uma Shrinivasan)に記載
されているような、多項式最小平均二乗分類法を使用す
ることである。

【０００６】シュリニバサンの分類法は次のように動作
する。ラベルされた、手書きの英数文字（アラビア数
字、大文字のアルファベット、またはこれら２つの組合
せ）のデータベースは、特徴ベクトルｖ−（ここで、
「ｖ−」という表現はｖにアッパーバーが付されている
ものを表す。以下の記載においても同様に、記号の右側
に付された「−」はその記号の上に付されるアッパーバ
ーを表すものとする。）に変換され、ターゲットベクト
ルと結合される。特徴ベクトルの成分は、文字の画素配
列から形成されるＦ個の二次多項式（特徴）であり、画
像内の線のしるし(evidence)を与える。それぞれの文字
に対するターゲットベクトルは、次式で表される標準単
位ベクトル

【数１】であり、第ｋ（ｖ−）成分が１に等しく、他のすべての
成分がゼロに等しい。ここで、ｋ（ｖ−）は、たとえ
ば、０，１，２，．．．，９またはＡ，Ｂ，．．．，
Ｚ、あるいはこの組合せ等といった、文字に対して外部
から与えられる分類である。標準的な数値的な技法が用
いられ、次式で表される平方誤差、

【数２】を最小化するようなＦ×Ｋ浮動小数点加重マトリクスＡ
を決定する。ここで、和はすべての特徴ベクトルに亘っ
て加算したものであり、またＫはクラスの数で、たとえ
ば１０個のアラビア数字、あるいは２６個のアルファベ
ットである。次いで、加重マトリクスＡは、積Ａｗ−に
おける最大成分を決定することにより、ラベルされてい
ない文字を分類するのに用いられる。ここで、ｗ−は未
知の文字の特徴ベクトルである。本方法についての更な
る詳細は、本方法を実行するソースコードを含む前記論
文に見い出すことができる。

【０００７】前述のシステムは、米国特許第５，０６
０，２７９号に記載されたような他の統計的手法に基づ
いたシステムと共に、一括学習システムであり、すなわ
ち、加重マトリクスまたは等価なデータベースが、これ
らのマトリクスまたはデータベースを生成するのに用い
られるラベルされた文字の集合に対する１回のパス(pas
s)（読出し）で作成される。

【０００８】

【発明が解決しようとする課題】このような統計的手法
に基づいた分類法は、適切で良好な分類システムを提供
するが、一般にニューラルネットワークシステムの正確
さを有してはいない。しかしながら、より正確なニュー
ラルネットワークに基づいたシステムは、統計分類法よ
りも学習するのが遅く、文字認識が遅く、メモリおよび
計算ハードウェアをより多く必要とする。必要とされる
のは、ニューラルネットワークに基づいたシステムの利
点である正確さと、統計的手法に基づいたシステムの速
度と効率を兼ね備え、単純な整数または２進数の算術に
基づいたシステムである。

【０００９】本発明の目的は、汎用コンピュータ上で妥
当な時間で実行可能であり、迅速に実行する、高速英数
文字の分類法およびその方法を用いた装置を提供するこ
とである。

【００１０】さらに、本発明の目的は、ニューラルネッ
トワークによる分類法の分類精度を有する統計文字分類
法および装置を提供することである。

【００１１】また、本発明の目的は、ニューラルネット
ワークに基づくシステムよりも素速く分類する統計文字
分類法およびその方法を用いた装置を提供することであ
る。本発明の別の目的は、汎用コンピュータ上で実行さ
れるニューラルネットワークに基づくシステムより少な
いメモリを使用する文字分類法およびその装置を提供す
ることである。

【００１２】さらに、本発明の別の目的は、統計分類法
の速度と効率を有し、ニューラルネットワークによるバ
ックプロパゲーション型分類法の正確さを伴う、ハイブ
リッド文字分類法を提供することである。

【００１３】さらにまた、本発明の目的は、ニューラル
ネットワークに基づく分類法を用いた装置よりも速くト
レーニングを行うことができるシステムを提供すること
である。

【００１４】

【課題を解決するための手段および作用】上記の目的
は、手書きまたは機械印字の英数文字を分類または識別
する分類マトリクスを生成するシステムによって実現す
ることができる。マトリクスは、反復最小二乗多項判別
式法を使用して生成される。反復の際、後で識別に使用
される分類加重マトリクスは、不適切に分類された文字
または信頼度が非常に小さいままで分類された文字を決
定することによって修正され、トレーニングの際、これ
らの文字を複製し、適切な分類を強化する。適切な分類
はまた、負のフィードバックを使用したり、誤って分類
された文字のターゲットベクトルを差引くことによって
も強化され、不適切な分類を防止する。

【００１５】学習プロセスの速度は、特徴ベクトルの抽
出中にトレーニングデータをサブサンプリング(subsamp
ling) し、トレーニング集合をスーパサンプリング(sup
er-sampling)し、使用されるトレーニング集合の量を段
階的に増加させ、また、中間マトリクスを保守し、トレ
ーニング中に使用される各特徴ベクトルの量を段階的に
増加させることによって促進される。分類精度は、キン
グ特徴およびナイト特徴と呼ばれる画素の二次単項式に
基づく、最低２種類の特徴を使用することによって向上
する（チェスボードにおけるマス目と、それぞれの駒の
動きに似ているためにこう呼ばれる）。存在する加重マ
トリクスを修正し、疎らな２値特徴ベクトル(sparse bi
nary features vectors)を圧縮することにより、メモリ
の効率的な利用が促進される。

【００１６】

【実施例】以下、本発明の実施例を図面に基いて説明す
る。図面においては、同じ番号が同じ部品を示すものと
する。

【００１７】図１に示した本発明のシステム８は、２つ
のプログラムまたは手順を含み、その第１は、ラベルさ
れたトレーニング文字画像（見本）集合１４とラベルさ
れたテスト文字画像（見本）集合１６とから加重マトリ
クス１２を生成するトレーニング手順１０である。ラベ
ルされたトレーニング文字画像集合１４は、識別または
分類される各文字につき、最低１０００の異なるバージ
ョンを含んでいることが望ましい。これらの英数文字
は、従来の方法で取得され、ディジタル化され、好適に
は２０×３０ビットの画素配列画像として記憶される。
取得手順では、従来型の光学スキャナを用い、また、紙
などの基材に印字されるか、あるいはディジタル化タブ
レット上に入力されるかした文字を取得することのでき
る従来型の手順を使用する。トレーニング手順１０につ
いては、図２に基いてさらに詳細に説明するが、従来的
手法によって取得したトレーニング文字画像集合１４及
びテスト文字画像集合１６から、トレーニング特徴ベク
トル１８及びバリデーション(validation)特徴ベクトル
集合２０とを生成し、使用する。トレーニング手順１０
はまた、トレーニングの反復を支配及び制御するパラメ
ータ２２を入力として使用する。トレーニング手順１０
は、結果レポート２４を生成し、その一部がトレーニン
グ手順の反復を制御するのに使用される。本発明の第２
の手順は、加重マトリクス１２を使用して、従来的手法
で取得されたラベルされていない文字３２をラベルされ
た文字３４に変換するアプリケーション手順３０であ
る。アプリケーション手順３０については、図５に基い
て、より詳細に説明する。本発明は、好適にはＳｕｎワ
ークステーションコンピュータシステムのようなコンピ
ュータ上で、Ｃ言語のような汎用言語で実行される。ト
レーニング手順１０およびアプリケーション手順３０に
対する疑似コードは、本実施例の欄の末尾の表１〜表１
３に示される。

【００１８】図２に示したように、トレーニング文字画
像集合１４は、ステップ３８で正規化され、バリデーシ
ョン画像集合４０とトレーニング画像集合４２を生成す
るのに使用される。トレーニング文字画像集合１４は、
英数文字の画像の集合であって、通常は、システム開発
者によって、目標となる実社会で用いられていると考え
られ、判断されている文字の範囲を表すものである。た
とえば、用途が、郵便番号のような郵便物の手書きのア
ラビア数字を認識することである場合、トレーニング文
字画像集合１４は、郵便物に見られるアラビア数字の種
類の代表的なサンプルとなる。バリデーション画像集合
４０は、典型的にはトレーニング文字画像集合１４の２
０％であり、トレーニング画像集合４２がその残りとな
る。ただし、完全に独立した画像の集合を、バリデーシ
ョン集合に使用することもできる。正規化操作３８は、
文字の画像におけるストロークを単一の画素の幅、ある
いは２〜４個の画素の幅に減少させる従来型の操作を含
み、各文字のすべてのストロークが同一幅になる。正規
化操作３８はまた、文字の外側の画素が、通常幅２０ビ
ット（画素）、高さ３０ビットの配列またはマトリクス
（２０×３０ビット配列）である文字マトリクスの端部
における１つ以上の画素を満たすまで、文字マトリクス
の文字の画像を従来型手法によって拡大させるステップ
を含む。使用者によって後のテスト用に供給される独立
したテスト文字画像の集合１６も、独立画像文字集合４
４を生成するために、前述のように正規化されなければ
ならない。独立したテスト文字画像集合１６は、通常、
システムの最終的な使用者が、郵便番号のように実社会
の使用で見い出される文字の種類の代表として選択した
ものである。

【００１９】トレーニング画像集合４２は次いでステッ
プ４６でスーパサンプリング(super-sampling)され、サ
ンプル集合における文字のそれぞれの特徴を抽出するの
に使用されるトレーニングサンプル集合４８を生成す
る。スーパサンプリング操作４６は、各文字画像を単に
８回複製し、トレーニング画像集合４２における各単一
画像から９つの画像を生成する。たとえば、文字の１０
００の異なるバージョンがトレーニング文字画像集合１
４に提供されている場合、トレーニングサンプル集合４
８には９０００のバージョンが保存される。８つの追加
画像は、チェスにおけるキングの移動と呼ばれるシフト
により、各画像をシフトすることによって生成される。
たとえば、画像の１つを生成するには、オリジナル画像
は１画素だけ上方にシフトされ、第２の画像を生成する
には、オリジナル画像は対角線上右上方向に１画素だけ
シフトされ、第３の画像を生成するには、オリジナル画
像は右方向に１画素だけシフトされる、等である。その
結果、トレーニング画像集合４２のそれぞれのオリジナ
ル画像に対して、９つのトレーニング画像または見本が
作成されることになるが、これがスーパサンプリングと
呼ばれる。スーパサンプリング操作４６についての詳細
は、表１に示されている。

【００２０】トレーニングサンプル集合４８が生成され
ると、本システムは特徴ベクトルを抽出し、特徴ベクト
ル抽出操作５０においてバリデーション特徴ベクトル集
合２０とトレーニング特徴ベクトル集合１８とを生成す
る。特徴ベクトル抽出操作は、通常、二次多項式を使用
し、２値特徴ベクトルを形成する。それぞれの文字はビ
ットの２０×３０の配列で表現され、値１が黒の画素、
０が白の画素を示す。本実施例では、２種類の二次特徴
(quadratic feature) を用いる。図３に示したキング
と、図４に示したビッグナイトである。キング特徴は、
チェスのボード上のキングの動きを拡大することによっ
てできる２つの画素の積である（“キングの動き”と
は、拡大されない場合、ｘ座標とｙ座標が０または１だ
け異なる２つの画素である）。図３に示したように、Ｘ
で示した特徴中心画素５２は、４つのキング特徴ＡＥ、
ＢＦ、ＣＧ、ＤＨに含まれ得る。ビッグナイト特徴は図
４に示してあり、チェスのボード上のビッグナイトの動
き、すなわち、ｘ座標が４だけ異なり、ｙ座標が２だけ
異なるか、あるいはこの逆の場合の、２つの画素の積で
ある。特徴中心画素５４は、４つのビッグナイト特徴Ｉ
Ｍ、ＪＮ、ＫＯ、ＬＰに含まれ得る。特徴は、ｆｅａｔ
ｕｒｅ＝ｐｉｘｅｌpq×ｐｉｘｅｌrs の形式の従来型
の二次単項式であり、ｐｑおよびｒｓは乗算される（Ａ
ｎｄされる）２つの画素のｘ、ｙ座標である。（すなわ
ち、座標が(p,q) 及び(r,s) である２つの画素の値の積
がその画素における特徴を表す。）この特徴によって、
所定領域を通過する所定の方向のラインストロークを検
出することができる。上記の特徴を使用すれば、すべて
の特徴が約８つの特徴の特徴中心となり得るため
（「約」８つとあるのは、画像上にない画素が使用され
ないためである）、約２０×３０×８＝４８００の特徴
が存在し得る。

【００２１】処理速度を向上させるため、従来型の手法
とは異なり、サンプル集合の各文字の特徴は、抽出操作
において所定の順番でサブサンプル(subsample) され
る。すなわち、すべての特徴が、スーパサンプルされた
トレーニングサンプル集合４８のそれぞれの見本から抽
出されるのではない。抽出に使用される特徴中心の座標
は、抽出操作中に参照される３０×２０マップ内の画素
であり、（１１ｋ％２８、１１ｋ％１９）によって決定
される。ここで、％は整数を返す通常のＣ演算子であ
り、ｋは１，．．．，Ｎで、Ｎは２８×１９以下であ
る。特徴中心については、１９および２８という数が２
０および３０という数にとって代わる。これは、マトリ
クスの端部に非常に近い特徴中心はほとんど使用され
ず、またこれらの選択されたパラメータ（２８×１９）
は均等に分配された特徴中心を取得する場合に非常に有
効であるためである。ｋの値は最低２５０に設定される
ことが推奨され、２５０の特徴が使用されて２５０ビッ
トの特徴ベクトルを生成する。機械印字の文字に対して
はｋ＝６００が適切であり、手書きの文字にはｋ＝１５
００が適切である。サブサンプリングの結果、各文字の
特徴の均等に分散されたサブサンプルが得られる。

【００２２】特徴ベクトルの抽出およびサブサンプリン
グについては、表２、表３及び表１０〜１３に、より詳
細に説明されている。

【００２３】トレーニング特徴ベクトル集合１８が生成
されると、本発明は、ステップ５６において、２つの中
間マトリクス５８と６０を生成・保守し、これらのマト
リクスを結果レポート２４のメモリに出力する。中間マ
トリクス（Ｗ）５８は、ステップ６２において逆行列に
変換され、その結果はステップ６４において中間マトリ
クス（Ｚ）６０と乗算されて、特徴分類に使用される加
重マトリクス１２を取得する。ステップ５６〜６４は、
数式３の数学的演算を実行するのに必要な操作を実行す
る。

【００２４】

【数３】数式３を実行するのに必要なステップは、すべて、前述
のシュリニバサン法で実行されている。しかしながら、
シュリニバサン法は、中間マトリクス５８、６０を生成
・保持せず、むしろ加重マトリクス１２の生成時に、こ
れらのマトリクスを破壊する。ステップ５６、６２、６
４については、表２、表３、表５、表６及び表９におい
て、より詳細に説明されている。

【００２５】ただし、ここで、マトリクスＸは第ｎ列が
ｎ番目のトレーニング見本の特徴ベクトルを表すような
行列であり、マトリクスＹは第ｎ列がｎ番目のトレーニ
ング見本のターゲットベクトルを表すような行列であ
る。

【００２６】加重マトリクス（Ａ）１２が生成される
と、その加重マトリクスの文字分類能力がステップ６６
でテストされる。このテストは、バリデーション特徴ベ
クトル集合２０の各画像に対する特徴ベクトルに加重マ
トリクスを１２回乗算し、特定の画像特徴ベクトルの分
類を示す文字クラスのそれぞれに対する分類強度のリス
トを生成する。たとえば、加重マトリクス１２がアラビ
ア数字０〜９を分類するように設定されている場合、分
類強度リストは、乗算の結果、１０の項目を含み、各項
目の値は、文字画像がそのアラビア数字に一致する信頼
性、すなわち確率を示す。そのような信頼強度が最も高
い分類マトリクスの中にある項目は、分類操作が画像に
一致することを示すアラビア数字である。たとえば、画
像がアラビア数字７の画像であり、分類操作が正確にそ
の画像を分類した場合、分類マトリクスにおける項目番
号８が、最も高い確率となる（ゼロが第１の文字である
ため、７は項目８に対応する）。この例において、もし
アラビア数字の１に対応する、マトリクスにおける第２
の項目が最大の確率となるならば、画像は誤って分類さ
れたことになる。テスト分類操作６６は、バリデーショ
ン特徴ベクトル集合２０の画像のそれぞれに対して分類
マトリクスを生成する他、その分類を実際の識別された
文字と比較し、その文字が正確に分類されたか、あるい
は誤って分類されたかを、加重マトリクスＡがどのくら
いうまく文字を分類したかを示すのに使用される結果レ
ポート２４またはデータベースに表示する。この表示
は、（ｉ，ｊ）成分が、クラスｊに分類されたクラスｉ
の文字の百分率を表す、比較マトリクスを生成すること
によって実施される。テストおよび誤分類の決定につい
ては、表３及び表８に、より詳細に説明されている。

【００２７】テスト分類操作６６が終了すると、ループ
の最後の反復が実施されたかどうかの判定がなされる。
加重マトリクス１２の生成操作に関する反復は、特徴バ
リデーション集合における文字のすべてが、９８％等と
いった、ある程度の効率で認識されるまで実施され得
る。しかしながら、実験によれば、２０〜５０サイクル
反復した場合、分類精度は、複数ノードのニューラルネ
ットワークと同等か、それを凌ぐことを示した。たとえ
ば、２０回の反復では、加重マトリクスの効率は、アラ
ビア数字だけの場合９７％を越え、大文字のアルファベ
ットの場合９５．５％、大文字・小文字のアルファベッ
トが混在する場合８８％となる。

【００２８】加重マトリクス１２の文字分類の効率を向
上させるため、本発明は、トレーニング画像集合におい
て、不適切に分類された見本および低信頼度の見本（共
に、分類が不完全な見本、またはトレーニング困難見本
と呼ばれる）の表現を増加させることにより、加重マト
リクス生成操作を反復する。前述のように、加重マトリ
クス１２は数式３に従って決定され、前述のように、中
間マトリクス５８、６０は、下記の数式４および数式５
に示されるように、別個に保守される。ここで、ｎは、
トレーニング見本の数である。これらの方程式におい
て、すべてのベクトルは、列ベクトルとして扱われ、そ
の積は外積であり、内積あるいはスカラー積ではない。

【００２９】

【数４】

【数５】ここで、ｅk はターゲットベクトル、ｘi は特徴ベクト
ルである。本発明では、トレーニングが困難な見本は、
ステップ８０において、トレーニングが困難な見本を反
復し、不適切に分類された分類に対して負の分類加重を
与えることによって、中間マトリクス５８および６０を
修正するのに使用される。トレーニング困難見本は、多
重度(multiplicity)ｍk （これは、エポック(epoch) す
なわち反復、に対応する）を増加させるように反復され
る。すなわち、

【数６】

【数７】ここで、上記のように定義されるＺは特徴ベクトルとそ
れらの分類の外積の合計から成るマトリクスであり、Ｗ
は特徴ベクトルの外積の合計から成るマトリクスであっ
て、ここで前記特徴ベクトルは列ベクトルで、これらの
転置は行ベクトルである。クラスｋの特徴ベクトル見本
ｘ−が不良分類(ill-classify)されている場合、別の分
類ｊが存在して、

【数８】であり、この式においてθは、これらの分類の確率の互
いの近似性を本質的に示す信頼しきい値である。しきい
値未満であると考えられる場合は、最低１回のエポック
または反復において、負のｊ番目の分類加重がこの見本
に対して使用されるように指定することにより、ｘ−に
対するｊ番目の活性度（アクチベーション）が低減され
る。たとえば、第２反復（またはエポック）では、すべ
ての不良分類されたｘ−i について、

【数９】をＺに加算し、ｘ−i ｘ−iTをＷに加算する（なお、こ
れはベクトルｘi とｘベクトルｘi の転置との積を表
す）。別の例として、“３”のように見え、且つ“８”
のようにも見え、実際には“３”として分類される文字
があると仮定する。このような文字は、例えば次のよう
な分類強度リストを生成する。

【００３０】分類０１２３４５６７８９００００．９０００００．７０信頼しきい値が、０．７が０．９に近似しすぎているこ
とを示した場合、本システムは、そのターゲット形式を
次のように修正してその文字を保持する。

【００３１】原形（０，０，０，１，０，０，０，０，０，０）修正形（０，０，０，１０，０，０，０，０，−５，０）このターゲットは、１０回目のパス（あるいはエポッ
ク）で使用される。−５は、本システムが８のように見
える３の分類を８の分類から分離するのを補助する。

【００３２】信頼しきい値θは、あるエポックから次の
エポックに移るときに増加または減少され、不良分類見
本の数を、トレーニング集合のうちの指定された割合に
近くなるように保持する。トレーニング見本の２０％を
再トレーニングすれば有効である。より大きな割合を再
トレーニングすると、大きな振動を引き起こす。たとえ
ば、文字クラス“３”と“８”という競合する分類の場
合には、双方の文字のほとんどすべてを、双方の間でフ
リップ(flip)させてしまう。２０％の再トレーニングで
は、２つのクラス間の妥当な境界が速やかに決定され
る。マトリクスを修正し、信頼水準を調整する操作につ
いては、表３により詳細に説明されている。

【００３３】ステップ８０においてマトリクスが修正さ
れると、本発明は、ステップ８２において、分類マトリ
クス生成操作中に使用されたトレーニング特徴ベクトル
集合１８に含まれる各特徴ベクトルのサイズあるいは量
を、所定量によって調整する。使用された各特徴ベクト
ルのサイズを調整することにより、文字分類用の良好な
加重マトリクスを決定するプロセスが高速化するという
利点がある。特徴抽出の順番により、Ｆ個の特徴を有す
る特徴ベクトルはＦ＋Ｆ’個の特徴を有する特徴ベクト
ルのプレフィクス(prefix)（前部）となる。その結果、
小さい特徴ベクトルに対応するマトリクスＺ＝ＹＸT と
Ｗ＝ＸＸT は、より大きい特徴ベクトルに対するマトリ
クスの部分マトリクス(submatrix) となる。トレーニン
グに先立ち、適切な、最大のサイズの特徴ベクトルが選
択され（アラビア数に対しては１２５０の特徴を示す特
徴ベクトル、英数文字に対しては１６００の特徴を示す
特徴ベクトルが許容できるサイズであり、より大きなベ
クトルはさらに高い分類精度をもたらすが、１５００の
特徴を示す特徴ベクトルが、英語における一般的な認識
の問題に対する通常のものである）、選択されたサイズ
のベクトルが、トレーニングまたはテストのどちらかに
おいて処理される各文字に対して生成される。次いで本
システムは、前記ベクトルのプレフィクスだけを使用す
る加重マトリクスを保守し、テストは特徴ベクトルのポ
ストフィクス(postfix) （後部）を無視する。トレーニ
ングで使用される文字に対しては、その文字が、現在の
加重マトリクスによってうまく分類されなかった場合、
その完全な特徴ベクトルが使用され、ＺおよびＷを更新
する。前述のように、エポックまたは反復は、トレーニ
ングデータの（ひょっとしたら、サブサンプリングされ
た及び／またはスーパサンプルされた）パスから成る。
各エポックの後、より大規模な部分マトリクスＺおよび
Ｗが選択され、新たな加重マトリクスを計算する。たと
えば、各特徴ベクトルが４８００の特徴またはビットを
含んでいる場合を仮定する。第１の反復で１０００の特
徴のプレフィクスを使用し、その特徴のベクトルのサイ
ズが、各反復において２００の特徴ずつ増加される場
合、２０回目の反復では全部で４８００の特徴を使用す
ることになる。特徴ベクトルのそれぞれについて最低１
００ビットから開始し、最後の反復において特徴の総数
に等しくなるまで、各反復に対して同じ量ずつ増加させ
るのが、使用される特徴ベクトルのサイズを増大させる
には、適切な方法である。ただし、各反復に対して最小
の増加として１００ビットが推奨される。

【００３４】ここで用いているトレーニングアルゴリズ
ムの形式は、表１４のようになる。ここで、Ｆ個の特徴
が計算されてＺおよびＷを形成するのに使用されるが、
ｆの特徴だけが分類に使用され、Ｗf はＷの左上のｆ×
ｆサブマトリクスを示し、Ｚf はＺの最初のｆ列を示
し、Ａf はその結果生成するｋ×ｆ加重マトリクスを示
す。ベクトルサイズの調整８２についてのさらなる詳細
は、表３に示されている。

【００３５】トレーニング集合で使用される各ベクトル
の量が調整されると、ステップ８４において、操作で使
用されるサンプル集合サイズが、最初のサンプルから測
定され、２Ｋ／Ｅに従って調整される。ここで、Ｋは現
在の反復の回数、Ｅは実施される反復の総数である。ト
レーニング集合サイズはエポックの中間で１００％にな
り、残りの反復の間も１００％である。たとえば、トレ
ーニング特徴ベクトル集合１８が１０００の特徴ベクト
ルを含み、２０回の反復が実施される場合、第１の反復
ではトレーニング特徴ベクトル集合１８の内の最初の１
００の特徴ベクトルを使用し、最後の反復ではトレーニ
ング特徴ベクトル集合１８のすべての特徴ベクトルを使
用する。こうして、本システムは、分類マトリクス生成
中に実際に使用されるサンプル集合の量を直線的に増加
させる。サンプル集合サイズの調整の詳細については、
表２に示されている。

【００３６】これらの調整が実施されると、本システム
は再び別の計算操作を実行する。マトリクス生成サイク
ルの終りでは、図５のアプリケーション手順を用いて、
独立した文字集合がステップ８６でテストされる。

【００３７】数式３の計算は、いくつかの配列が形成さ
れ、乗算され、逆行列に変換されることを必要とするよ
うに見える。これらのマトリクスのいくつかは非常に大
規模となる。たとえば、本システムがＮ個のトレーニン
グパタンまたは文字と、Ｆ個の特徴と、Ｋ個の文字クラ
スを処理する場合、マトリクスは次の次元を有する。

【００３８】配列次元Ａ（Ｋ，Ｆ）Ｙ（Ｋ，Ｎ）Ｘ（Ｆ，Ｎ）しかしながら、これらのマトリクスの単純な性質と、こ
れらが使用される環境によっては、これらの内のいくつ
かは、数式３で示されるように、明示的に保存される必
要はない。特に、本発明は２つのマトリクスＸおよびＹ
を保存するのを避ける（Ｙの第Ｋ列は、第Ｋトレーニン
グパタンの分類を与える単位ベクトルであり、Ｘの第Ｋ
列は、第Ｋトレーニングパタンの２値特徴ベクトルであ
ることに注意）。本発明は、次元（Ｋ，Ｆ）を有するマ
トリクスＺ＝ＹＸT と、次元（Ｆ，Ｆ）を有するＷ＝Ｘ
ＸT とを、途中で生成する。本システムはＺを初期化し
てゼロとし、そして、各トレーニングパタンに対し、も
しその分類がｊならば、本システムはその特徴ベクトル
をＺの第ｊ列に加える。本システムは、Ｗを初期化して
ゼロとし、各トレーニング見本の特徴ベクトルｘ−に対
し、本システムはその平方外積ｘ−ｘ−T （ｘ−とｘ−
T の積）をＷに加える。すなわち、すべての添字の対ｉ
ｊにつき、ｘi ｘj をＷijに加える。平方外積は対称で
あるため、Ｗは対称であり、下側の三角形（the lower
triangle）について計算するだけでよい。特徴ベクトル
は疎らな２値ベクトルであるため、これをＷの選択され
た行に加えるだけでよい。ＸおよびＹを排除することに
よる重要な結果は、大規模なトレーニング集合に対し
て、保存容量の制限がなくなることである。

【００３９】特徴ベクトルの集合１８、２０、４４のサ
イズを小さくするため、特徴ベクトルは、好適には、特
徴ベクトルのゼロでない成分の代わりに添字の違いを用
いる、従来型の圧縮技法を使用して圧縮される。

【００４０】図５に示されているように、生成する加重
マトリクス１２を使用してラベルされていない文字を分
類するアプリケーション手順３０は、ステップ１００に
おいて、前述のように、あらかじめ取得され、２０×３
０のビット配列としてディジタル化された、ラベルされ
ていない文字を正規化することによってスタートする。
ラベルされていない文字の特徴ベクトルは、ステップ１
０２において、前述の抽出法を用いて抽出される。特徴
ベクトルはステップ１０４において加重マトリクス１２
と乗算され、分類マトリクスまたは分類確率のリストを
生成する。最大の確率は、文字の分類に一致し、ステッ
プ１０６において使用され、文字をラベルする（３
４）。ステップ１０６においては、前述の信頼ファクタ
を用いて分類の比較を行って、後で人間によって分類さ
れる文字を拒絶するようにすることも可能である。本操
作１０４は、表７および表８に示されている。

【００４１】前述のキングおよびビッグナイト以外の特
徴を、サンプル集合からの特徴ベクトルの抽出に使用す
ることができる。たとえば、前記のキングおよびナイト
以外の拡大ファクタが、より大きい正方形の周に移動す
る（すなわち、より大きな正方形を用れば、その正方形
の周上の画素の数はキングやナイトの正方形よりも多い
ので、キングおよびナイト特徴より細かな方向を表すこ
ともできる）。さらに、数ビットに広がるファジィライ
ン特徴も使用が可能である。本発明は、郵便物の仕分け
といった、実社会での用途において、加重マトリクスが
使用される技法によって実現され、正しくない目的地に
誤って分類された郵便物は、さらに実行する際のトレー
ニング見本の一部として使用される。しかしながら、エ
ンドユーザは、一般に、拒絶されたものについては、誤
分類が発生するよりも、人によって分類されるのを好
む。本発明は、不完全に分類される文字の表現を増や
し、また、誤分類された文字に負のフィードバックを与
える。表現の増加量は、負のフィードバックが固定する
反復回数に対応する。分類不完全文字に対して異なる多
重度を与え、誤分類文字に対して負のフィードバックを
増加させることが可能である。しかしながら、実験によ
れば、値をここで説明したものよりも大きく調整する
と、円滑な収束挙動でなくなり、振動の原因となり得る
ことが示されている。特に、負のフィードバックが正の
フィードバックと同じ大きさである場合、本システム
は、良好に挙動する分類法に収束することができない。
本発明は、また、最後の反復までに完全ベクトルに成長
する特徴ベクトルのプレフィクスに関して説明してき
た。この成長を、最後の反復におけるプレフィクスが、
完全な特徴ベクトルとならないようなある点で停止する
ことも可能である。これによって処理速度は促進される
が、分類精度は多少低下する。

【００４２】本発明の多くの特徴および利点は、詳細な
明細書から明らかであり、したがって、特許請求の範囲
は、本発明の真の精神と範囲にある本発明のこのような
特徴および利点をすべて網羅することを意図する。さら
に、数々の修正および変更が、当業者には容易に可能で
あるから、この発明は、記述され説明されたそのままの
構成および操作に限定されるものではない。すべての適
切な修正およびこれと同等なものは、本発明の範囲内に
帰するものである。

【００４３】

【表１】

【表２】

【表３】

【表４】

【表５】

【表６】

【表７】

【表８】

【表９】

【表１０】

【表１１】

【表１２】

【表１３】

【表１４】

【００４４】

【発明の効果】本発明により、汎用コンピュータ上で実
行可能な、ニューラルネットワーク分類法の分類精度を
有する統計文字分類法、及びその方法を用いた文字分類
システムを提供することができる。これにより高速な文
字分類が可能となる。

【図面の簡単な説明】

【図１】本発明のブロック図である。

【図２】図１に示されたトレーニング手順１０のデータ
ベース操作手順を示すフローチャートである。

【図３】本発明で使用される「キング特徴」を説明する
ための説明図である。

【図４】本発明で使用される「ナイト特徴」を説明する
ための説明図である。

【図５】図１に示されたアプリケーション手順３０の操
作手順を示すフローチャートである。

【符号の説明】

８システム１０トレーニング手順１２加重マトリクス１４トレーニング文字画像集合１６テスト文字画像集合１８トレーニング特徴ベクトル集合２０バリデーション特徴ベクトル集合２２パラメータファイル２４結果レポート３０アプリケーション手順３２ラベルされていない文字３４ラベルされた文字３８正規化操作４０バリデーション画像集合４２トレーニング画像集合４４独立した画像文字集合４６スーパサンプリング操作４８トレーニングサンプル集合５０特徴ベクトル抽出操作５６中間マトリクスの生成・保持５８中間マトリクスＷ６０中間マトリクスＺ６２逆行列変換６４乗算６６テスト分類操作８０中間マトリクス修正８２ベクトルサイズ調整８４サンプル集合サイズ調整８６テスト手順

Claims

【特許請求の範囲】

【請求項１】文字分類法であって、（ａ）トレーニング文字のトレーニング文字集合を使用
して多項判別式加重マトリクス生成演算を実施するステ
ップと、（ｂ）前記加重マトリクスをテストし、分類精度を決定
するステップと、（ｃ）前記テストに応じてトレーニング文字集合を修正
するステップと、（ｄ）ステップ（ａ）〜（ｃ）を複数の反復回数だけ繰
り返すステップと、（ｅ）前記加重マトリクスを使用して未分類の文字を分
類するステップと、を含むことを特徴とする文字分類法。
【請求項２】請求項１記載の文字分類法において、ステップ（ｃ）が、（ｃ１）不適切に分類された、または分類強度における
所定の差によって不適切な分類と区別された文字の表現
を増加させるステップと、（ｃ２）不適切に分類された文字の最高の不適切分類を
有する文字、または不適切分類が所定の値を越える文
字、に対して負の分類を与えるステップと、を含むことを特徴とする文字分類法。
【請求項３】請求項１記載の文字分類法において、更にトレーニング文字集合からスーパサンプリングされ
たトレーニング文字集合を生成するステップを含み、ス
テップ（ａ）がスーパサンプリングされたトレーニング
文字集合を使用することを特徴とする文字分類法。
【請求項４】請求項３記載の文字分類法において、スーパサンプリングされたトレーニング文字集合がある
サイズを有し、ステップ（ａ）が、各反復毎に、スーパ
サンプリングされたトレーニング文字集合の、より大き
い部分を使用していくことを特徴とする文字分類法。
【請求項５】請求項１記載の文字分類法において、更に文字の画素をサブサンプリングするステップと、特
徴ベクトルを生成する文字の特徴を抽出するステップ
と、を含み、ステップ（ａ）がその特徴ベクトルを使用
することを特徴とする文字分類法。
【請求項６】請求項５記載の文字分類法において、各特徴ベクトルがあるサイズを有し、ステップ（ａ）が
各反復毎に、各特徴ベクトルの、より大きい部分を使用
していくことを特徴とする文字分類法。
【請求項７】請求項１記載の文字分類法において、ステップ（ａ）が、前記加重マトリクスを生成するため
に使用される中間マトリクスを生成および保守するステ
ップを含み、ステップ（ｃ）がその中間マトリクスを修
正するステップを含むことを特徴とする文字分類法。
【請求項８】文字分類法において、（ａ）トレーニング見本特徴ベクトル集合を使用して多
項判別式文字加重マトリクスを生成するステップと、（ｂ）前記加重マトリクスをテストし、分類精度を決定
するステップと、（ｃ）適切に分類されなかった特徴ベクトル集合の見本
を反復するステップと、（ｄ）不適切に分類された見本に対し、負の加重を加算
するステップと、（ｅ）ステップ（ａ）〜（ｄ）を所定の反復回数だけ繰
り返すステップと、（ｆ）前記加重マトリクスを使用して識別されていない
文字を識別することにより、未分類の文字を分類するス
テップと、を含むことを特徴とする文字分類法。
【請求項９】文字分類法において、（ａ）分類された文字画像を取得するステップと、（ｂ）前記文字画像を正規化するステップと、（ｃ）正規化された文字画像をスーパサンプリングする
ステップと、（ｄ）スーパサンプリングされた、正規化文字画像をサ
ブサンプリングし、サブサンプリングされた文字画像の
集合を生成するステップと、（ｅ）サブサンプリングされた文字画像の集合から文字
特徴を抽出し、文字画像のそれぞれに対して特徴ベクト
ルの集合を生成するステップと、（ｆ）特徴ベクトル集合の部分集合を選択するステップ
と、（ｇ）各特徴ベクトルのプレフィクスを選択するステッ
プと、（ｈ）特徴ベクトル集合の部分集合と各特徴ベクトルの
プレフィクスとを使用するために中間マトリクスを生成
するステップと、（ｉ）中間マトリクスから加重マトリクスを生成するス
テップと、（ｊ）テスト文字に対して設定されたテスト特徴ベクト
ルを使用して、加重マトリクスをテストするステップ
と、（ｋ）前記テストによって適切に分類されなかった中間
マトリクスにおけるテスト文字を複製するステップと、（ｌ）テスト文字に対する不適切な分類を、中間マトリ
クスにおいて、負の値で表現するステップと、（ｍ）選択された特徴ベクトル集合の部分集合を調整す
るステップと、（ｎ）選択された各特徴ベクトルのプレフィクスを調整
するステップと、（ｏ）ステップ（ｈ）〜（ｎ）を所定の回数だけ反復す
るステップと、を含むことを特徴とする文字分類法。
【請求項１０】請求項９記載の文字分類法において、
更に（ｐ）未分類文字の文字画像を取得するステップと、（ｑ）加重マトリクスを使用して未分類文字を分類する
ステップと、を含むことを特徴とする文字分類法。
【請求項１１】文字を分類するシステムであって、識別された文字を取得する第１の取得手段と、多項判別式を使用し、識別された文字から反復的に加重
マトリクスを生成する加重マトリクス生成手段と、識別されていない文字を取得する第２の取得手段と、加重マトリクスを使用し、識別されていない文字を識別
する識別手段と、を含むことを特徴とする文字分類システム。