JPH11167605A

JPH11167605A - 文字認識方法及び装置

Info

Publication number: JPH11167605A
Application number: JP10211026A
Authority: JP
Inventors: John C Handley; シーハンドリージョン; Reiner Eschbach; エシュバッハレイナー
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1997-08-04
Filing date: 1998-07-27
Publication date: 1999-06-22
Also published as: EP0896295A2; EP0896295A3

Abstract

(57)【要約】【課題】文字認識を効率的に行うことである。【解決手段】本発明はデータが圧縮した形のままであ
る場合において、光学的文字認識を行う方法および装置
に関する。文字・フィーチャは空間ドメインにおいて抽
出され、圧縮したドメイン（前記文字・イメージはコン
パクトな形で表現される）内の認識フィーチャとは区別
される。ＯＣＲは圧縮したデータ・ストリームの中で行
われる。すなわち、ドキュメントを走査し、前記ドキュ
メントを圧縮し、前記ドキュメントに対し認識フィーチ
ャの抽出を行い、そして前記ドキュメントから抽出した
認識フィーチャを分類する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、一般には光学的文字認
識方法および装置、より詳細にはデータを圧縮解除する
必要性がなく、圧縮したドキュメントに対し認識フィー
チャ抽出を行い、次に前記圧縮したドキュメントから抽
出した認識フィーチャを分類することによって、圧縮し
たドメインにおいて文字認識を行う装置および方法に関
するものである。

【０００２】

【従来の技術】光学的文字認識（ＯＣＲと略す）は、文
字形式の光子的または電子的表現を記号形式に変換する
処理である。最近のシステムでは、ハードディスクであ
れランダム・アクセス・メモリであれ、データはコンピ
ュータ・メモリに保存される。記号形式の表現はそのあ
と格納したり、編集したりすることができる。

【０００３】ＯＣＲ処理は３つのステップ、すなわち
（１）走査、（２）フィーチャ抽出、および（２）分類
から成っている。ステップ（１）は、感光装置を使用し
て行われ、支持体上に印刷された文字を電子パルスに変
換し、プロセッサのメモリの中に配列として表現する。
文字は、そのほか、磁性インクで印刷し、適当な装置を
使用して検出してもよい。

【０００４】ステップ（２）は、配列として表現された
文字イメージからフィーチャを抽出することから成って
いる。S. Mori, C. Y. Suen, and K. Yamamoto, “Hist
orical review of OCR research and development,”Pr
oceedings of the IEEE, Vol. 80, No. 7, 1992, PP.10
29-1058 の論文に記載されているように、機械で印刷さ
れたものであれ（タイプライター印刷または植字組みの
ように）人手で印刷されたものであれ、一組の文字の中
から識別するのに適したフィーチャ・セットを選択する
ことは、活発な研究および開発領域であったし、今もそ
うである。

【０００５】ステップ（３）は、観察して抽出したフィ
ーチャに対し判断規則を適用し、クラスすなわち文字コ
ードを割り当てる。ＯＣＲのための非表示層ニューラル
・ネットワーク法（hidden-layer neural network meth
ods ）のケースでは、ステップ（２）は第１層に生じる
ことがあり、またステップ３は第２層に生じることがあ
る。

【０００６】ＯＣＲ技術は、パターン認識理論の大きな
成功の１つであり、紙の文書を電子形式へ変換するのに
必要な手仕事を劇的に減らすことによって非常に大きな
経済的衝撃を与えた。ますまた増大するマイクロプロセ
ッサ速度とますます低下するコストによって、ＯＣＲ技
術をディスクトップ・スキャナ、ファックス・マシン、
およびファックス・モデムを含む種々の文書処理装置と
一括することが可能になった。

【０００７】データをコンパクトに表現するデータ圧縮
技術は、コンピュータ・システム、放送システム、およ
び遠隔通信システムの至る所に使われている。ドキュメ
ント・イメージは膨大な量のデータを表現しており、そ
れらのデータは符号化することによって、表現のサイズ
を減らすことができる。ドキュメント・イメージのデー
タ形式はそのように大切であり、かつ大きいので、それ
らのために周知の“Group ３”ファクシミリ・システム
を含む、特殊圧縮技術が開発された。

【０００８】米国特許第４，０３４，３４３号（発明の
名称“Optical character recognition system”、１９
７７年７月５日発行）は、空間ドメイン内の文字認識
（ＯＣＲ）の先行技術を開示している。米国特許第３，
５８２，８８４号（発明の名称“Mutiple-scanner char
acter reading system”、１９７１年６月１日発行）
は、文字を走査し、信号として表現する、通信ネットワ
ーク上のＯＣＲ装置を開示している。信号から元のビデ
オ走査データへのデコードは認識の前に行われる。符号
化したドキュメントからドキュメントに関する物理的情
報（内容と対照的に）を抽出することは先行技術の中で
知られている。米国特許第５，２４５，６７６号（発明
の名称“Determination of image skew angle from dat
a includingdata in compressed form ”、１９９３年
９月１４日発行）は、圧縮解除せずに、圧縮したドキュ
メント・イメージからドキュメント・スキューを決定す
る装置を開示している。

【０００９】

【発明が解決しようとする課題】複写装置や印刷装置に
おいては、記憶空間要求や帯域幅要求を減らすためにス
キャナにおいて走査したデータを直ちに圧縮すること
は、ますます普通のことになりつつある。そのような装
置の欠点の１つは、いくつかの処理動作が扱いにくくな
ること、または不可能になること、またはその後の圧縮
解除ステップが必要なことである。従って、本発明の特
長は、データを圧縮解除する必要性がなく、圧縮したド
メインにおいて文字認識（ＯＣＲ）を行う手段を提供す
ることである。このような手法の２つの主な利点は、
（１）少ないメモリ要求と（２）少ない処理である。一
組の圧縮アルゴリズム、たとえば CCITT G3/G4 規格に
使用されるアルゴリズム、Microsoft(登録商標) ＢＭＰ
ファイル・フォーマットに組み入れられている方法、等
を引用するため、本明細書の中でランレングス符号化に
ついて簡単に言及する。ランレングス符号化圧縮手法の
概要は、 N. S. Jayant とP. Noll による刊行物（題名
“Digital Coding of Waveforms ”Prentice Hall. cha
pter 10, 1984 ) に記載されている。

【００１０】

【課題を解決するための手段】以上およびその他の目的
を達成し、上に述べた欠点を克服するために、本発明
は、データを圧縮解除する必要性がなく、圧縮したドメ
インにおいて文字認識（ＯＣＲ）を行う装置および方法
を提供する。本発明は、空間ドメイン（文字・イメージ
を表しているコンピュータ・メモリ内の値の配列）にお
いて抽出された文字・フィーチャと、圧縮したドメイン
（文字・イメージはコンパクトな形で表現される）内の
認識フィーチャとを区別する。以下の説明において使用
する用語、「フィーチャ」は、圧縮したドメイン内の認
識フィーチャのことをさす。

【００１１】本発明を使用して、圧縮したドキュメント
に対しフィーチャ抽出が行われ、次に圧縮したドキュメ
ントから抽出したフィーチャが分類される。基本的に、
文字・フィーチャは空間ドメイン（文字・イメージを表
しているコンピュータ・メモリ内の値の配列）において
抽出され、圧縮したドメイン（文字・イメージはコンパ
クトな形で表現される）内のフィーチャとは区別され
る。ＯＣＲは圧縮したデータ・ストリームの中で行われ
る。すなわち、ドキュメントは走査されたばかりであ
り、ドキュメントは圧縮した形をしている。そのドキュ
メントに対しフィーチャ抽出が行われ、次に前記ドキュ
メントから抽出したフィーチャが分類される。分類後、
ドキュメントは、追加のＯＣＲ状態調節をする必要性が
なく、以後の処理（圧縮した形でデータを格納するこ
と、または以後の操作のためにドキュメントを圧縮解除
することを含む）をすることができる。

【００１２】圧縮したドキュメント・イメージ・データ
に対するＯＣＲは、コンピュータ技術、通信技術、およ
び像形成技術の融合に影響を与える。そのプロセスは以
下の利点を生み出す。

【００１３】圧縮したドキュメント・イメージは占有す
るプロセッサ・メモリが少ない。限られたメモリを持つ
装置では、より多くのドキュメント・イメージに、また
はデータを処理するより多くの機械命令（より高い正確
さが得られる）に、余分の空間を使うことがあるであろ
う。圧縮したドキュメント・イメージはより速く送るこ
とができる。圧縮したデータを処理するＯＣＲ装置は、
より少ないビット数のデータにアクセスするので、より
速く動作することができるであろう。使用するメモリが
少ないので、より安価な装置が得られる。たとえばファ
クシミリ受信装置において、表示動作または印刷動作の
前に、圧縮したデータ・ストリームの中でＯＣＲを行う
システム・アーキテクチャによって、ドキュメントを処
理するときより高い融通性が得られる。そのほか、キー
ワードについてのドキュメント・データ・ベースの高速
走査や、キーワードについてのファックス・トラフィッ
クの走査が可能になる。

【００１４】

【発明の実施の形態】人間のユーザーは、「非圧縮」ド
メインにおいてテキストを読み、解釈するので、文字認
識ソフトウェアが同じ基礎データからフィーチャ・セッ
トを導出するのは当然に見える。しかし、入力データが
異なるパラメータを記述し、それらを十分に区別する限
り、人間が入力データを解釈することができるかできな
いかは、アルゴリズムには無関係である。従って、圧縮
したドメインから生成されたフィーチャを使用するニュ
ーラル・ネット学習アルゴリズムを考案することができ
る。この記述は、イメージ・データを圧縮解除する必要
性はなく、圧縮した２進ドメインにおいて文字認識を行
うことができることを示す。ただ単にこの記述のために
は、ランレングス圧縮アルゴリズムが当然に考えられ
る。このケースでは、入力データは白色画素および黒色
画素のランで表現される。図１は、文字“Ｏ”について
ランレングスが生じるケースを示す。すべてのランレン
グスは黒ランで始まることに注目されたい。これはボッ
クス決定（box determination)と白色ランの計算を行わ
なくてもよいことを意味する。

【００１５】図１のすべての黒色ランを使用して黒色ラ
ンの正規化ヒストグラム（実際の例では、ランはこの例
の場合よりかなり広いレンジを有する）を計算し、ヒス
トグラムを８ビンに量子化した。これらの８ビンは分類
子（classifier) のための８つの入力フィーチャとして
役立つ。そのほかに、黒色ランで形づくられた白色ラン
のヒストグラムを計算し、８ビンに量子化した。この結
果、分類子のためのフィーチャが合計１６生じた。全部
で１６のフィーチャが生じた。たとえば、図２の走査し
た文字“４”を検討してみる。

【００１６】白色ランレングス・ヒストグラムは次のよ
うに計算される。黒色ランの間に入っている１４の白色
ランレングスが存在する。文字の幅は２２画素であるの
で、最大の白色ランレングスは２０である。ランレング
スのカウントは 1(3), 2(1),3(1), 4(0), 5(2), 6(1),
7(1), 8(3), 9(1) で、以下の８ビン・ヒストグラムが
生じる。 (0.286, 0.143, 0.286, 0.286, 0.000, 0.000, 0.000,
0.000) 同様に、最大の黒色ランレングスは２２であり、そのカ
ウントは 2(2), 3(11),4(17), 5(4), 7(3), 8(1), 13
(1), 14(1), 17(1)，21(1), 22(1)で、以下の８ビン・
ヒストグラムが生じる。 (0.147, 0.744, 0.093, 0.000, 0.023, 0.023, 0.023,
0.047)

【００１７】上に述べた発明を実証するために、文字・
データについて分類子を訓練し、試験した。１０個の数
字（各数字はいろいろなサイズの８つの異なるフォント
で５回表されている）を含む２ページを６００ｄｐｉレ
ーザー・プリンタで印刷し、３００ｄｐｉで走査した
（記述はこの記述のための数字だけに限定した）。一方
のページは訓練のために使用し、他方のページは試験の
ために使用した。すなわち、フォント・セットは訓練用
と試験用で同一であったが、実際のデータは違ってい
た。図３は、実験に使用した試験用ページを示し、訓練
用ページとは異なる走査画像である。

【００１８】圧縮したイメージ・フィーチャは使用した
特定の非パラメトリック分類子と無関係である。２つの
人気のある選択はニューラル・ネットワークと決定ツリ
ーである。その実行速度のために、後者のタイプの分類
子を作ったが、実施にはどちらのタイプの分類子も使用
できるであろう。ツリーをベースとする分類子の分類正
確度はニューラル・ネットワークとほぼ同じである。し
かし、B. D. Ripley in “Pattern Recognition and Ne
ural Networks ”, Cambridge University Press, 1996
に記載されているように、その実行速度はかなり速
い。ツリーをベースとする分類子は、J. R. Quinlan in
“C 4.5: Programs for Machine Learning”, Morgan
Kaufmann, 1992 に述べられているように、C 4.5 シス
テムを使用して訓練用イメージから１６ランレングス・
ヒストグラム・フィーチャを使用して作った。以下に
‘Ｃ’に似たコンピュータ・プログラミング言語で表現
された決定ツリーを示す。配列値Ａ

〔０〕〜Ａ〔７〕
は、８ビン白色ヒストグラムの連続値を含んでおり、配
列値Ａ〔８〕〜Ａ〔１５〕は、８ビン黒色ヒストグラム
の連続値を含んでいる。

【００１９】／＊決定ツリー＊／ if(A[7] <= 0.201 ) ｛ if(A[10] <= 0.03 )｛ if(A[11] > 0.038) return 1; if(A[11] <= 0.038)｛ if(A[12] <= 0.04 ) return 7; if(A[12] > 0.04) return 1; ｝｝ if(A[10] > 0.03 )｛ if(A[4] <= 0.038 ) ｛ if(A[7] <= 0.102)｛ if(A[15] > 0.103) return 7; if(A[15] <= 0.103)｛ if(A[14] > 0.094) return 2; if(A[14] <= 0.094)｛ if(A[15] <= 0.1 ) return 1; if(A[15] > 0.1 ) return 2; ｝｝｝ if(A[7] > 0.102)｛ if(A[13] <= 0.021)｛ if(A[2] <= 0.192) return 1; if(A[2] > 0.192) return 4; ｝ if(A[13] > 0.021)｛ if(A[12] > 0.078) return 3; if(A[12] <= 0.078)｛ if(A[13] <= 0.063) return 1; if(A[13] > 0.063) return 5;｝｝｝｝ if(A[4] > 0.083)｛ if(A[9] <= 0.15) return 1; if(A[9] > 0.15) ｛ if(A[14] <= 0.043)｛ if(A[15] <= 0.022)｛ if(A[11] <= 0.091) return 9; if(A[11] > 0.091) return 3;｝ if(A[15] > 0.022)｛ if(A[1] <= 0.115) return 2; if(A[1] > 0.115) return 4; ｝｝ if(A[14] > 0.043)｛ if(A[9] <= 0.714) return 2; if(A[9] > 0.714) return 7;｝｝｝｝｝ if(A[7] > 0.201)｛ if(A[9] > 0.875) return 0; if(A[9] <= 0.875)｛ if(A[6] > 0.308) return 0; if(A[6] <= 0.308)｛ if(A[14] <= 0.049)｛ if(A[12] > 0.154) return 5; if(A[12] <= 0.154)｛ if(A[13] > 0.125) return 5; if(A[13] <= 0.125)｛ if(A[8] <= 0.184)｛ if(A[15] > 0 ) return 2; if(A[15] <= 0 ) ｛ if(A[7] > 0.355) return 6; if(A[7] <= 0.355 ) ｛ if(A[9] <= 0.806)｛ if(A[14] <= 0 )｛ if(A[5] <= 0.406)｛ if(A[0] <= 0.037)｛ if(A[4] <= 0.538)｛ if(A[9] <= 0.674)｛ if(A[13] <= 0.018) return 8; if(A[13] > 0.018)｛ if(A[11] <= 0.038) return 8; if(A[11] > 0.038)｛ if(A[12] <= 0.102) return 3; if(A[12] > 0.102)｛ if(A[10] <= 0.254) return 3; if(A[10] > 0.254) return 8;｝｝｝｝ if(A[9] > 0.674)｛ if(A[1] <= 0.133) return 8; if(A[1] > 0.133) return 6;｝｝ if(A[4] > 0.537)｛ if(A[12] <= 0.058) return 3; if(A[12] > 0.058) return 0;｝｝ if(A[0] > 0.037)｛ if(A[2] <= 0.179) return 6; if(A[2] > 0.179) return 8;｝｝ if(A[5] > 0.406)｛ if(A[2] <= 0.08 ) return 0; if(A[2] > 0.089) return 8;｝｝ if(A[14] > 0 )｛ if(A[1] <= 0 ) return 3; if(A[1] > 0 )｛ if(A[7] <= 0.242) return 9; if(A[7] > 0.242)｛ if(A[4] <= 0.296) return 5; if(A[4] > 0.296) return 6;｝｝｝｝ if(A[9] > 0.806)｛ if(A[7] <= 0.252) return 9; if(A[7] > 0.252)｛ if(A[1] <= 0.065) return 0; if(A[1] > 0.065) return 6;｝｝｝｝｝ if(A[8] > 0.184)｛ if(A[13] <= 0.027) return 5; if(A[13] > 0.027)｛ if(A[4] <= 0.481) return 3; if(A[4] > 0.481) return 2;｝｝｝｝｝ if(A[14] > 0.049)｛ if(A[13] <= 0.034) return 2; if(A[13] > 0.034) return 5;｝｝｝｝｝

【００２０】テストイメージには、９２％の正確度で４
００の数字の中に３３のエラーがあった（３６７の数字
が正しく識別された）。テストセットのための混成マト
リックスを表１に示す。

【００２１】

【表１】

【００２２】図４は、本方法を実施するため使用できる
装置のブロック図である。マイクロプロセッサは圧縮し
たデータに対しＯＣＲを実行するようにプログラムする
ことができる。図示のように、ドキュメントが走査され
（ステップ２）、ドキュメント内のデータが圧縮される
（ステップ３）。「従来の技術」のところで説明したよ
うに、データは一般にＯＣＲ操作の前に圧縮解除される
が、本発明は圧縮したデータに対しＯＣＲを行う。フィ
ーチャ抽出（ステップ４）と分類（ステップ５）は、上
に述べたように圧縮したデータに対し行うことができ
る。認識されたデータは、次に、圧縮した形で格納する
こと、あるいはワードプロセッシング等のドキュメント
操作のためにデータを圧縮解除することを含む以後の処
理を受けることができる。

【図面の簡単な説明】

【図１】文字“Ｏ”についてランレングスが生じるケー
スを示す図である。

【図２】走査した文字“４”を示す図である。

【図３】実験の際に使用したテスト用ページを示す図で
ある。

【図４】本発明のブロック図である。

【符号の説明】

２ドキュメント走査３ドキュメント圧縮４ドキュメント・フィーチャ抽出５ドキュメント・フィーチャ分類

───────────────────────────────────────────────────── フロントページの続き (72)発明者レイナーエシュバッハアメリカ合衆国ニューヨーク州 14580 ウェブスターウェストウッドトレイル 812

Claims

【特許請求の範囲】

【請求項１】ドキュメント内のデータが圧縮した形の
ままであり、前記データに対しランレングス符号化をベ
ースとする圧縮が使用されている、文字認識を行う方法
において、認識フィーチャ抽出が前記ドキュメント内のデータ上で
行われており、前記ドキュメントから抽出された認識フィーチャが分類
されることを特徴とする方法。
【請求項２】圧縮したドキュメント上で、該ドキュメ
ント内のデータは圧縮した形のままに、認識フィーチャ
の抽出を行い、前記圧縮したドキュメントのデータ上で認識フィーチャ
分類を行って、前記圧縮ドキュメントから圧縮した形で
抽出した、前記データのための認識フィーチャに適切な
キャラクタ・コードを割り当てるようにプログラムされ
たマイクロプロセッサ。
【請求項３】請求項１に記載の方法において、前記デ
ータに対しランレングス符号化をベースとする圧縮が使
用されることを特徴とする方法。