JPH11167605A - 文字認識方法及び装置 - Google Patents
文字認識方法及び装置Info
- Publication number
- JPH11167605A JPH11167605A JP10211026A JP21102698A JPH11167605A JP H11167605 A JPH11167605 A JP H11167605A JP 10211026 A JP10211026 A JP 10211026A JP 21102698 A JP21102698 A JP 21102698A JP H11167605 A JPH11167605 A JP H11167605A
- Authority
- JP
- Japan
- Prior art keywords
- document
- return
- data
- compressed
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/184—Extraction of features or characteristics of the image by analysing segments intersecting the pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
- Compression Of Band Width Or Redundancy In Fax (AREA)
Abstract
(57)【要約】
【課題】 文字認識を効率的に行うことである。
【解決手段】 本発明はデータが圧縮した形のままであ
る場合において、光学的文字認識を行う方法および装置
に関する。文字・フィーチャは空間ドメインにおいて抽
出され、圧縮したドメイン(前記文字・イメージはコン
パクトな形で表現される)内の認識フィーチャとは区別
される。OCRは圧縮したデータ・ストリームの中で行
われる。すなわち、ドキュメントを走査し、前記ドキュ
メントを圧縮し、前記ドキュメントに対し認識フィーチ
ャの抽出を行い、そして前記ドキュメントから抽出した
認識フィーチャを分類する。
る場合において、光学的文字認識を行う方法および装置
に関する。文字・フィーチャは空間ドメインにおいて抽
出され、圧縮したドメイン(前記文字・イメージはコン
パクトな形で表現される)内の認識フィーチャとは区別
される。OCRは圧縮したデータ・ストリームの中で行
われる。すなわち、ドキュメントを走査し、前記ドキュ
メントを圧縮し、前記ドキュメントに対し認識フィーチ
ャの抽出を行い、そして前記ドキュメントから抽出した
認識フィーチャを分類する。
Description
【0001】
【産業上の利用分野】本発明は、一般には光学的文字認
識方法および装置、より詳細にはデータを圧縮解除する
必要性がなく、圧縮したドキュメントに対し認識フィー
チャ抽出を行い、次に前記圧縮したドキュメントから抽
出した認識フィーチャを分類することによって、圧縮し
たドメインにおいて文字認識を行う装置および方法に関
するものである。
識方法および装置、より詳細にはデータを圧縮解除する
必要性がなく、圧縮したドキュメントに対し認識フィー
チャ抽出を行い、次に前記圧縮したドキュメントから抽
出した認識フィーチャを分類することによって、圧縮し
たドメインにおいて文字認識を行う装置および方法に関
するものである。
【0002】
【従来の技術】光学的文字認識(OCRと略す)は、文
字形式の光子的または電子的表現を記号形式に変換する
処理である。最近のシステムでは、ハードディスクであ
れランダム・アクセス・メモリであれ、データはコンピ
ュータ・メモリに保存される。記号形式の表現はそのあ
と格納したり、編集したりすることができる。
字形式の光子的または電子的表現を記号形式に変換する
処理である。最近のシステムでは、ハードディスクであ
れランダム・アクセス・メモリであれ、データはコンピ
ュータ・メモリに保存される。記号形式の表現はそのあ
と格納したり、編集したりすることができる。
【0003】OCR処理は3つのステップ、すなわち
(1)走査、(2)フィーチャ抽出、および(2)分類
から成っている。ステップ(1)は、感光装置を使用し
て行われ、支持体上に印刷された文字を電子パルスに変
換し、プロセッサのメモリの中に配列として表現する。
文字は、そのほか、磁性インクで印刷し、適当な装置を
使用して検出してもよい。
(1)走査、(2)フィーチャ抽出、および(2)分類
から成っている。ステップ(1)は、感光装置を使用し
て行われ、支持体上に印刷された文字を電子パルスに変
換し、プロセッサのメモリの中に配列として表現する。
文字は、そのほか、磁性インクで印刷し、適当な装置を
使用して検出してもよい。
【0004】ステップ(2)は、配列として表現された
文字イメージからフィーチャを抽出することから成って
いる。S. Mori, C. Y. Suen, and K. Yamamoto, “Hist
orical review of OCR research and development,”Pr
oceedings of the IEEE, Vol. 80, No. 7, 1992, PP.10
29-1058 の論文に記載されているように、機械で印刷さ
れたものであれ(タイプライター印刷または植字組みの
ように)人手で印刷されたものであれ、一組の文字の中
から識別するのに適したフィーチャ・セットを選択する
ことは、活発な研究および開発領域であったし、今もそ
うである。
文字イメージからフィーチャを抽出することから成って
いる。S. Mori, C. Y. Suen, and K. Yamamoto, “Hist
orical review of OCR research and development,”Pr
oceedings of the IEEE, Vol. 80, No. 7, 1992, PP.10
29-1058 の論文に記載されているように、機械で印刷さ
れたものであれ(タイプライター印刷または植字組みの
ように)人手で印刷されたものであれ、一組の文字の中
から識別するのに適したフィーチャ・セットを選択する
ことは、活発な研究および開発領域であったし、今もそ
うである。
【0005】ステップ(3)は、観察して抽出したフィ
ーチャに対し判断規則を適用し、クラスすなわち文字コ
ードを割り当てる。OCRのための非表示層ニューラル
・ネットワーク法(hidden-layer neural network meth
ods )のケースでは、ステップ(2)は第1層に生じる
ことがあり、またステップ3は第2層に生じることがあ
る。
ーチャに対し判断規則を適用し、クラスすなわち文字コ
ードを割り当てる。OCRのための非表示層ニューラル
・ネットワーク法(hidden-layer neural network meth
ods )のケースでは、ステップ(2)は第1層に生じる
ことがあり、またステップ3は第2層に生じることがあ
る。
【0006】OCR技術は、パターン認識理論の大きな
成功の1つであり、紙の文書を電子形式へ変換するのに
必要な手仕事を劇的に減らすことによって非常に大きな
経済的衝撃を与えた。ますまた増大するマイクロプロセ
ッサ速度とますます低下するコストによって、OCR技
術をディスクトップ・スキャナ、ファックス・マシン、
およびファックス・モデムを含む種々の文書処理装置と
一括することが可能になった。
成功の1つであり、紙の文書を電子形式へ変換するのに
必要な手仕事を劇的に減らすことによって非常に大きな
経済的衝撃を与えた。ますまた増大するマイクロプロセ
ッサ速度とますます低下するコストによって、OCR技
術をディスクトップ・スキャナ、ファックス・マシン、
およびファックス・モデムを含む種々の文書処理装置と
一括することが可能になった。
【0007】データをコンパクトに表現するデータ圧縮
技術は、コンピュータ・システム、放送システム、およ
び遠隔通信システムの至る所に使われている。ドキュメ
ント・イメージは膨大な量のデータを表現しており、そ
れらのデータは符号化することによって、表現のサイズ
を減らすことができる。ドキュメント・イメージのデー
タ形式はそのように大切であり、かつ大きいので、それ
らのために周知の“Group 3”ファクシミリ・システム
を含む、特殊圧縮技術が開発された。
技術は、コンピュータ・システム、放送システム、およ
び遠隔通信システムの至る所に使われている。ドキュメ
ント・イメージは膨大な量のデータを表現しており、そ
れらのデータは符号化することによって、表現のサイズ
を減らすことができる。ドキュメント・イメージのデー
タ形式はそのように大切であり、かつ大きいので、それ
らのために周知の“Group 3”ファクシミリ・システム
を含む、特殊圧縮技術が開発された。
【0008】米国特許第4,034,343号(発明の
名称“Optical character recognition system”、19
77年7月5日発行)は、空間ドメイン内の文字認識
(OCR)の先行技術を開示している。米国特許第3,
582,884号(発明の名称“Mutiple-scanner char
acter reading system”、1971年6月1日発行)
は、文字を走査し、信号として表現する、通信ネットワ
ーク上のOCR装置を開示している。信号から元のビデ
オ走査データへのデコードは認識の前に行われる。符号
化したドキュメントからドキュメントに関する物理的情
報(内容と対照的に)を抽出することは先行技術の中で
知られている。米国特許第5,245,676号(発明
の名称“Determination of image skew angle from dat
a includingdata in compressed form ”、1993年
9月14日発行)は、圧縮解除せずに、圧縮したドキュ
メント・イメージからドキュメント・スキューを決定す
る装置を開示している。
名称“Optical character recognition system”、19
77年7月5日発行)は、空間ドメイン内の文字認識
(OCR)の先行技術を開示している。米国特許第3,
582,884号(発明の名称“Mutiple-scanner char
acter reading system”、1971年6月1日発行)
は、文字を走査し、信号として表現する、通信ネットワ
ーク上のOCR装置を開示している。信号から元のビデ
オ走査データへのデコードは認識の前に行われる。符号
化したドキュメントからドキュメントに関する物理的情
報(内容と対照的に)を抽出することは先行技術の中で
知られている。米国特許第5,245,676号(発明
の名称“Determination of image skew angle from dat
a includingdata in compressed form ”、1993年
9月14日発行)は、圧縮解除せずに、圧縮したドキュ
メント・イメージからドキュメント・スキューを決定す
る装置を開示している。
【0009】
【発明が解決しようとする課題】複写装置や印刷装置に
おいては、記憶空間要求や帯域幅要求を減らすためにス
キャナにおいて走査したデータを直ちに圧縮すること
は、ますます普通のことになりつつある。そのような装
置の欠点の1つは、いくつかの処理動作が扱いにくくな
ること、または不可能になること、またはその後の圧縮
解除ステップが必要なことである。従って、本発明の特
長は、データを圧縮解除する必要性がなく、圧縮したド
メインにおいて文字認識(OCR)を行う手段を提供す
ることである。このような手法の2つの主な利点は、
(1)少ないメモリ要求と(2)少ない処理である。一
組の圧縮アルゴリズム、たとえば CCITT G3/G4 規格に
使用されるアルゴリズム、Microsoft(登録商標) BMP
ファイル・フォーマットに組み入れられている方法、等
を引用するため、本明細書の中でランレングス符号化に
ついて簡単に言及する。ランレングス符号化圧縮手法の
概要は、 N. S. Jayant とP. Noll による刊行物(題名
“Digital Coding of Waveforms ”Prentice Hall. cha
pter 10, 1984 ) に記載されている。
おいては、記憶空間要求や帯域幅要求を減らすためにス
キャナにおいて走査したデータを直ちに圧縮すること
は、ますます普通のことになりつつある。そのような装
置の欠点の1つは、いくつかの処理動作が扱いにくくな
ること、または不可能になること、またはその後の圧縮
解除ステップが必要なことである。従って、本発明の特
長は、データを圧縮解除する必要性がなく、圧縮したド
メインにおいて文字認識(OCR)を行う手段を提供す
ることである。このような手法の2つの主な利点は、
(1)少ないメモリ要求と(2)少ない処理である。一
組の圧縮アルゴリズム、たとえば CCITT G3/G4 規格に
使用されるアルゴリズム、Microsoft(登録商標) BMP
ファイル・フォーマットに組み入れられている方法、等
を引用するため、本明細書の中でランレングス符号化に
ついて簡単に言及する。ランレングス符号化圧縮手法の
概要は、 N. S. Jayant とP. Noll による刊行物(題名
“Digital Coding of Waveforms ”Prentice Hall. cha
pter 10, 1984 ) に記載されている。
【0010】
【課題を解決するための手段】以上およびその他の目的
を達成し、上に述べた欠点を克服するために、本発明
は、データを圧縮解除する必要性がなく、圧縮したドメ
インにおいて文字認識(OCR)を行う装置および方法
を提供する。本発明は、空間ドメイン(文字・イメージ
を表しているコンピュータ・メモリ内の値の配列)にお
いて抽出された文字・フィーチャと、圧縮したドメイン
(文字・イメージはコンパクトな形で表現される)内の
認識フィーチャとを区別する。以下の説明において使用
する用語、「フィーチャ」は、圧縮したドメイン内の認
識フィーチャのことをさす。
を達成し、上に述べた欠点を克服するために、本発明
は、データを圧縮解除する必要性がなく、圧縮したドメ
インにおいて文字認識(OCR)を行う装置および方法
を提供する。本発明は、空間ドメイン(文字・イメージ
を表しているコンピュータ・メモリ内の値の配列)にお
いて抽出された文字・フィーチャと、圧縮したドメイン
(文字・イメージはコンパクトな形で表現される)内の
認識フィーチャとを区別する。以下の説明において使用
する用語、「フィーチャ」は、圧縮したドメイン内の認
識フィーチャのことをさす。
【0011】本発明を使用して、圧縮したドキュメント
に対しフィーチャ抽出が行われ、次に圧縮したドキュメ
ントから抽出したフィーチャが分類される。基本的に、
文字・フィーチャは空間ドメイン(文字・イメージを表
しているコンピュータ・メモリ内の値の配列)において
抽出され、圧縮したドメイン(文字・イメージはコンパ
クトな形で表現される)内のフィーチャとは区別され
る。OCRは圧縮したデータ・ストリームの中で行われ
る。すなわち、ドキュメントは走査されたばかりであ
り、ドキュメントは圧縮した形をしている。そのドキュ
メントに対しフィーチャ抽出が行われ、次に前記ドキュ
メントから抽出したフィーチャが分類される。分類後、
ドキュメントは、追加のOCR状態調節をする必要性が
なく、以後の処理(圧縮した形でデータを格納するこ
と、または以後の操作のためにドキュメントを圧縮解除
することを含む)をすることができる。
に対しフィーチャ抽出が行われ、次に圧縮したドキュメ
ントから抽出したフィーチャが分類される。基本的に、
文字・フィーチャは空間ドメイン(文字・イメージを表
しているコンピュータ・メモリ内の値の配列)において
抽出され、圧縮したドメイン(文字・イメージはコンパ
クトな形で表現される)内のフィーチャとは区別され
る。OCRは圧縮したデータ・ストリームの中で行われ
る。すなわち、ドキュメントは走査されたばかりであ
り、ドキュメントは圧縮した形をしている。そのドキュ
メントに対しフィーチャ抽出が行われ、次に前記ドキュ
メントから抽出したフィーチャが分類される。分類後、
ドキュメントは、追加のOCR状態調節をする必要性が
なく、以後の処理(圧縮した形でデータを格納するこ
と、または以後の操作のためにドキュメントを圧縮解除
することを含む)をすることができる。
【0012】圧縮したドキュメント・イメージ・データ
に対するOCRは、コンピュータ技術、通信技術、およ
び像形成技術の融合に影響を与える。そのプロセスは以
下の利点を生み出す。
に対するOCRは、コンピュータ技術、通信技術、およ
び像形成技術の融合に影響を与える。そのプロセスは以
下の利点を生み出す。
【0013】圧縮したドキュメント・イメージは占有す
るプロセッサ・メモリが少ない。限られたメモリを持つ
装置では、より多くのドキュメント・イメージに、また
はデータを処理するより多くの機械命令(より高い正確
さが得られる)に、余分の空間を使うことがあるであろ
う。圧縮したドキュメント・イメージはより速く送るこ
とができる。圧縮したデータを処理するOCR装置は、
より少ないビット数のデータにアクセスするので、より
速く動作することができるであろう。使用するメモリが
少ないので、より安価な装置が得られる。たとえばファ
クシミリ受信装置において、表示動作または印刷動作の
前に、圧縮したデータ・ストリームの中でOCRを行う
システム・アーキテクチャによって、ドキュメントを処
理するときより高い融通性が得られる。そのほか、キー
ワードについてのドキュメント・データ・ベースの高速
走査や、キーワードについてのファックス・トラフィッ
クの走査が可能になる。
るプロセッサ・メモリが少ない。限られたメモリを持つ
装置では、より多くのドキュメント・イメージに、また
はデータを処理するより多くの機械命令(より高い正確
さが得られる)に、余分の空間を使うことがあるであろ
う。圧縮したドキュメント・イメージはより速く送るこ
とができる。圧縮したデータを処理するOCR装置は、
より少ないビット数のデータにアクセスするので、より
速く動作することができるであろう。使用するメモリが
少ないので、より安価な装置が得られる。たとえばファ
クシミリ受信装置において、表示動作または印刷動作の
前に、圧縮したデータ・ストリームの中でOCRを行う
システム・アーキテクチャによって、ドキュメントを処
理するときより高い融通性が得られる。そのほか、キー
ワードについてのドキュメント・データ・ベースの高速
走査や、キーワードについてのファックス・トラフィッ
クの走査が可能になる。
【0014】
【発明の実施の形態】人間のユーザーは、「非圧縮」ド
メインにおいてテキストを読み、解釈するので、文字認
識ソフトウェアが同じ基礎データからフィーチャ・セッ
トを導出するのは当然に見える。しかし、入力データが
異なるパラメータを記述し、それらを十分に区別する限
り、人間が入力データを解釈することができるかできな
いかは、アルゴリズムには無関係である。従って、圧縮
したドメインから生成されたフィーチャを使用するニュ
ーラル・ネット学習アルゴリズムを考案することができ
る。この記述は、イメージ・データを圧縮解除する必要
性はなく、圧縮した2進ドメインにおいて文字認識を行
うことができることを示す。ただ単にこの記述のために
は、ランレングス圧縮アルゴリズムが当然に考えられ
る。このケースでは、入力データは白色画素および黒色
画素のランで表現される。図1は、文字“O”について
ランレングスが生じるケースを示す。すべてのランレン
グスは黒ランで始まることに注目されたい。これはボッ
クス決定(box determination)と白色ランの計算を行わ
なくてもよいことを意味する。
メインにおいてテキストを読み、解釈するので、文字認
識ソフトウェアが同じ基礎データからフィーチャ・セッ
トを導出するのは当然に見える。しかし、入力データが
異なるパラメータを記述し、それらを十分に区別する限
り、人間が入力データを解釈することができるかできな
いかは、アルゴリズムには無関係である。従って、圧縮
したドメインから生成されたフィーチャを使用するニュ
ーラル・ネット学習アルゴリズムを考案することができ
る。この記述は、イメージ・データを圧縮解除する必要
性はなく、圧縮した2進ドメインにおいて文字認識を行
うことができることを示す。ただ単にこの記述のために
は、ランレングス圧縮アルゴリズムが当然に考えられ
る。このケースでは、入力データは白色画素および黒色
画素のランで表現される。図1は、文字“O”について
ランレングスが生じるケースを示す。すべてのランレン
グスは黒ランで始まることに注目されたい。これはボッ
クス決定(box determination)と白色ランの計算を行わ
なくてもよいことを意味する。
【0015】図1のすべての黒色ランを使用して黒色ラ
ンの正規化ヒストグラム(実際の例では、ランはこの例
の場合よりかなり広いレンジを有する)を計算し、ヒス
トグラムを8ビンに量子化した。これらの8ビンは分類
子(classifier) のための8つの入力フィーチャとして
役立つ。そのほかに、黒色ランで形づくられた白色ラン
のヒストグラムを計算し、8ビンに量子化した。この結
果、分類子のためのフィーチャが合計16生じた。全部
で16のフィーチャが生じた。たとえば、図2の走査し
た文字“4”を検討してみる。
ンの正規化ヒストグラム(実際の例では、ランはこの例
の場合よりかなり広いレンジを有する)を計算し、ヒス
トグラムを8ビンに量子化した。これらの8ビンは分類
子(classifier) のための8つの入力フィーチャとして
役立つ。そのほかに、黒色ランで形づくられた白色ラン
のヒストグラムを計算し、8ビンに量子化した。この結
果、分類子のためのフィーチャが合計16生じた。全部
で16のフィーチャが生じた。たとえば、図2の走査し
た文字“4”を検討してみる。
【0016】白色ランレングス・ヒストグラムは次のよ
うに計算される。黒色ランの間に入っている14の白色
ランレングスが存在する。文字の幅は22画素であるの
で、最大の白色ランレングスは20である。ランレング
スのカウントは 1(3), 2(1),3(1), 4(0), 5(2), 6(1),
7(1), 8(3), 9(1) で、以下の8ビン・ヒストグラムが
生じる。 (0.286, 0.143, 0.286, 0.286, 0.000, 0.000, 0.000,
0.000) 同様に、最大の黒色ランレングスは22であり、そのカ
ウントは 2(2), 3(11),4(17), 5(4), 7(3), 8(1), 13
(1), 14(1), 17(1),21(1), 22(1)で、以下の8ビン・
ヒストグラムが生じる。 (0.147, 0.744, 0.093, 0.000, 0.023, 0.023, 0.023,
0.047)
うに計算される。黒色ランの間に入っている14の白色
ランレングスが存在する。文字の幅は22画素であるの
で、最大の白色ランレングスは20である。ランレング
スのカウントは 1(3), 2(1),3(1), 4(0), 5(2), 6(1),
7(1), 8(3), 9(1) で、以下の8ビン・ヒストグラムが
生じる。 (0.286, 0.143, 0.286, 0.286, 0.000, 0.000, 0.000,
0.000) 同様に、最大の黒色ランレングスは22であり、そのカ
ウントは 2(2), 3(11),4(17), 5(4), 7(3), 8(1), 13
(1), 14(1), 17(1),21(1), 22(1)で、以下の8ビン・
ヒストグラムが生じる。 (0.147, 0.744, 0.093, 0.000, 0.023, 0.023, 0.023,
0.047)
【0017】上に述べた発明を実証するために、文字・
データについて分類子を訓練し、試験した。10個の数
字(各数字はいろいろなサイズの8つの異なるフォント
で5回表されている)を含む2ページを600dpiレ
ーザー・プリンタで印刷し、300dpiで走査した
(記述はこの記述のための数字だけに限定した)。一方
のページは訓練のために使用し、他方のページは試験の
ために使用した。すなわち、フォント・セットは訓練用
と試験用で同一であったが、実際のデータは違ってい
た。図3は、実験に使用した試験用ページを示し、訓練
用ページとは異なる走査画像である。
データについて分類子を訓練し、試験した。10個の数
字(各数字はいろいろなサイズの8つの異なるフォント
で5回表されている)を含む2ページを600dpiレ
ーザー・プリンタで印刷し、300dpiで走査した
(記述はこの記述のための数字だけに限定した)。一方
のページは訓練のために使用し、他方のページは試験の
ために使用した。すなわち、フォント・セットは訓練用
と試験用で同一であったが、実際のデータは違ってい
た。図3は、実験に使用した試験用ページを示し、訓練
用ページとは異なる走査画像である。
【0018】圧縮したイメージ・フィーチャは使用した
特定の非パラメトリック分類子と無関係である。2つの
人気のある選択はニューラル・ネットワークと決定ツリ
ーである。その実行速度のために、後者のタイプの分類
子を作ったが、実施にはどちらのタイプの分類子も使用
できるであろう。ツリーをベースとする分類子の分類正
確度はニューラル・ネットワークとほぼ同じである。し
かし、B. D. Ripley in “Pattern Recognition and Ne
ural Networks ”, Cambridge University Press, 1996
に記載されているように、その実行速度はかなり速
い。ツリーをベースとする分類子は、J. R. Quinlan in
“C 4.5: Programs for Machine Learning”, Morgan
Kaufmann, 1992 に述べられているように、C 4.5 シス
テムを使用して訓練用イメージから16ランレングス・
ヒストグラム・フィーチャを使用して作った。以下に
‘C’に似たコンピュータ・プログラミング言語で表現
された決定ツリーを示す。配列値A
特定の非パラメトリック分類子と無関係である。2つの
人気のある選択はニューラル・ネットワークと決定ツリ
ーである。その実行速度のために、後者のタイプの分類
子を作ったが、実施にはどちらのタイプの分類子も使用
できるであろう。ツリーをベースとする分類子の分類正
確度はニューラル・ネットワークとほぼ同じである。し
かし、B. D. Ripley in “Pattern Recognition and Ne
ural Networks ”, Cambridge University Press, 1996
に記載されているように、その実行速度はかなり速
い。ツリーをベースとする分類子は、J. R. Quinlan in
“C 4.5: Programs for Machine Learning”, Morgan
Kaufmann, 1992 に述べられているように、C 4.5 シス
テムを使用して訓練用イメージから16ランレングス・
ヒストグラム・フィーチャを使用して作った。以下に
‘C’に似たコンピュータ・プログラミング言語で表現
された決定ツリーを示す。配列値A
〔0〕〜A〔7〕
は、8ビン白色ヒストグラムの連続値を含んでおり、配
列値A〔8〕〜A〔15〕は、8ビン黒色ヒストグラム
の連続値を含んでいる。
は、8ビン白色ヒストグラムの連続値を含んでおり、配
列値A〔8〕〜A〔15〕は、8ビン黒色ヒストグラム
の連続値を含んでいる。
【0019】 /* 決定ツリー */ if(A[7] <= 0.201 ) { if(A[10] <= 0.03 ){ if(A[11] > 0.038) return 1; if(A[11] <= 0.038){ if(A[12] <= 0.04 ) return 7; if(A[12] > 0.04) return 1; }} if(A[10] > 0.03 ){ if(A[4] <= 0.038 ) { if(A[7] <= 0.102){ if(A[15] > 0.103) return 7; if(A[15] <= 0.103){ if(A[14] > 0.094) return 2; if(A[14] <= 0.094){ if(A[15] <= 0.1 ) return 1; if(A[15] > 0.1 ) return 2; }}} if(A[7] > 0.102){ if(A[13] <= 0.021){ if(A[2] <= 0.192) return 1; if(A[2] > 0.192) return 4; } if(A[13] > 0.021){ if(A[12] > 0.078) return 3; if(A[12] <= 0.078){ if(A[13] <= 0.063) return 1; if(A[13] > 0.063) return 5;}}}} if(A[4] > 0.083){ if(A[9] <= 0.15) return 1; if(A[9] > 0.15) { if(A[14] <= 0.043){ if(A[15] <= 0.022){ if(A[11] <= 0.091) return 9; if(A[11] > 0.091) return 3;} if(A[15] > 0.022){ if(A[1] <= 0.115) return 2; if(A[1] > 0.115) return 4; }} if(A[14] > 0.043){ if(A[9] <= 0.714) return 2; if(A[9] > 0.714) return 7;}}}}} if(A[7] > 0.201){ if(A[9] > 0.875) return 0; if(A[9] <= 0.875){ if(A[6] > 0.308) return 0; if(A[6] <= 0.308){ if(A[14] <= 0.049){ if(A[12] > 0.154) return 5; if(A[12] <= 0.154){ if(A[13] > 0.125) return 5; if(A[13] <= 0.125){ if(A[8] <= 0.184){ if(A[15] > 0 ) return 2; if(A[15] <= 0 ) { if(A[7] > 0.355) return 6; if(A[7] <= 0.355 ) { if(A[9] <= 0.806){ if(A[14] <= 0 ){ if(A[5] <= 0.406){ if(A[0] <= 0.037){ if(A[4] <= 0.538){ if(A[9] <= 0.674){ if(A[13] <= 0.018) return 8; if(A[13] > 0.018){ if(A[11] <= 0.038) return 8; if(A[11] > 0.038){ if(A[12] <= 0.102) return 3; if(A[12] > 0.102){ if(A[10] <= 0.254) return 3; if(A[10] > 0.254) return 8;}}}} if(A[9] > 0.674){ if(A[1] <= 0.133) return 8; if(A[1] > 0.133) return 6;}} if(A[4] > 0.537){ if(A[12] <= 0.058) return 3; if(A[12] > 0.058) return 0;}} if(A[0] > 0.037){ if(A[2] <= 0.179) return 6; if(A[2] > 0.179) return 8;}} if(A[5] > 0.406){ if(A[2] <= 0.08 ) return 0; if(A[2] > 0.089) return 8;}} if(A[14] > 0 ){ if(A[1] <= 0 ) return 3; if(A[1] > 0 ){ if(A[7] <= 0.242) return 9; if(A[7] > 0.242){ if(A[4] <= 0.296) return 5; if(A[4] > 0.296) return 6;}}}} if(A[9] > 0.806){ if(A[7] <= 0.252) return 9; if(A[7] > 0.252){ if(A[1] <= 0.065) return 0; if(A[1] > 0.065) return 6;}}}}} if(A[8] > 0.184){ if(A[13] <= 0.027) return 5; if(A[13] > 0.027){ if(A[4] <= 0.481) return 3; if(A[4] > 0.481) return 2;}}}}} if(A[14] > 0.049){ if(A[13] <= 0.034) return 2; if(A[13] > 0.034) return 5;}}}}}
【0020】テストイメージには、92%の正確度で4
00の数字の中に33のエラーがあった(367の数字
が正しく識別された)。テストセットのための混成マト
リックスを表1に示す。
00の数字の中に33のエラーがあった(367の数字
が正しく識別された)。テストセットのための混成マト
リックスを表1に示す。
【0021】
【表1】
【0022】図4は、本方法を実施するため使用できる
装置のブロック図である。マイクロプロセッサは圧縮し
たデータに対しOCRを実行するようにプログラムする
ことができる。図示のように、ドキュメントが走査され
(ステップ2)、ドキュメント内のデータが圧縮される
(ステップ3)。「従来の技術」のところで説明したよ
うに、データは一般にOCR操作の前に圧縮解除される
が、本発明は圧縮したデータに対しOCRを行う。フィ
ーチャ抽出(ステップ4)と分類(ステップ5)は、上
に述べたように圧縮したデータに対し行うことができ
る。認識されたデータは、次に、圧縮した形で格納する
こと、あるいはワードプロセッシング等のドキュメント
操作のためにデータを圧縮解除することを含む以後の処
理を受けることができる。
装置のブロック図である。マイクロプロセッサは圧縮し
たデータに対しOCRを実行するようにプログラムする
ことができる。図示のように、ドキュメントが走査され
(ステップ2)、ドキュメント内のデータが圧縮される
(ステップ3)。「従来の技術」のところで説明したよ
うに、データは一般にOCR操作の前に圧縮解除される
が、本発明は圧縮したデータに対しOCRを行う。フィ
ーチャ抽出(ステップ4)と分類(ステップ5)は、上
に述べたように圧縮したデータに対し行うことができ
る。認識されたデータは、次に、圧縮した形で格納する
こと、あるいはワードプロセッシング等のドキュメント
操作のためにデータを圧縮解除することを含む以後の処
理を受けることができる。
【図1】文字“O”についてランレングスが生じるケー
スを示す図である。
スを示す図である。
【図2】走査した文字“4”を示す図である。
【図3】実験の際に使用したテスト用ページを示す図で
ある。
ある。
【図4】本発明のブロック図である。
2 ドキュメント走査 3 ドキュメント圧縮 4 ドキュメント・フィーチャ抽出 5 ドキュメント・フィーチャ分類
───────────────────────────────────────────────────── フロントページの続き (72)発明者 レイナー エシュバッハ アメリカ合衆国 ニューヨーク州 14580 ウェブスター ウェストウッド トレイ ル 812
Claims (3)
- 【請求項1】 ドキュメント内のデータが圧縮した形の
ままであり、前記データに対しランレングス符号化をベ
ースとする圧縮が使用されている、文字認識を行う方法
において、 認識フィーチャ抽出が前記ドキュメント内のデータ上で
行われており、 前記ドキュメントから抽出された認識フィーチャが分類
されることを特徴とする方法。 - 【請求項2】 圧縮したドキュメント上で、該ドキュメ
ント内のデータは圧縮した形のままに、認識フィーチャ
の抽出を行い、 前記圧縮したドキュメントのデータ上で認識フィーチャ
分類を行って、前記圧縮ドキュメントから圧縮した形で
抽出した、前記データのための認識フィーチャに適切な
キャラクタ・コードを割り当てるようにプログラムされ
たマイクロプロセッサ。 - 【請求項3】 請求項1に記載の方法において、前記デ
ータに対しランレングス符号化をベースとする圧縮が使
用されることを特徴とする方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US90569997A | 1997-08-04 | 1997-08-04 | |
US08/905699 | 1997-08-04 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH11167605A true JPH11167605A (ja) | 1999-06-22 |
Family
ID=25421302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10211026A Withdrawn JPH11167605A (ja) | 1997-08-04 | 1998-07-27 | 文字認識方法及び装置 |
Country Status (2)
Country | Link |
---|---|
EP (1) | EP0896295A3 (ja) |
JP (1) | JPH11167605A (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7164794B2 (en) * | 2002-08-22 | 2007-01-16 | Winbond Electronics Corp. | Unconstrained handwriting recognition |
US10797863B2 (en) | 2017-12-28 | 2020-10-06 | Intel Corporation | Multi-domain cascade convolutional neural network |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2259798A (en) * | 1991-09-04 | 1993-03-24 | Ricoh Kk | Recognizing handwritten characters |
-
1998
- 1998-07-17 EP EP98305746A patent/EP0896295A3/en not_active Withdrawn
- 1998-07-27 JP JP10211026A patent/JPH11167605A/ja not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
EP0896295A2 (en) | 1999-02-10 |
EP0896295A3 (en) | 1999-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4101312B2 (ja) | グラフィック画像の圧縮システムおよび方法 | |
CN1149509C (zh) | 图像处理设备和方法 | |
US8208744B2 (en) | Image processing apparatus capable of accurately and quickly determining character part included in image | |
US20090284801A1 (en) | Image processing apparatus and image processing method | |
US20140285824A1 (en) | Image processing apparatus, image processing method and program | |
US6944340B1 (en) | Method and apparatus for efficient determination of recognition parameters | |
US6327382B1 (en) | Image processing method and apparatus and storage medium therefor | |
JPH0879536A (ja) | 画像処理方法 | |
US20040150840A1 (en) | Methods and systems for structuring a raster image file for parallel streaming rendering by multiple processors | |
US5812695A (en) | Automatic typing of raster images using density slicing | |
JPH11168632A (ja) | ディザ画像の2値表現処理方法、ディザ画像の圧縮2値表現圧縮解除方法、及びディザ画像の圧縮及び圧縮解除システム | |
US20210110586A1 (en) | Mixed raster content (mrc) to control color changes | |
JPH11167605A (ja) | 文字認識方法及び装置 | |
US7259891B2 (en) | Image compression method, decompression method thereof and program therefor | |
Haffner et al. | Color documents on the Web with DjVu | |
US20020085756A1 (en) | System and method for efficient determination of recognition initial conditions | |
JP4260908B2 (ja) | ランレングス符号化方法および画像処理装置 | |
US20090244559A1 (en) | Image rasterizing apparatus and image rasterizing method | |
JP2644477B2 (ja) | 画像処理方法 | |
JP5517028B2 (ja) | 画像処理装置 | |
JP4001446B2 (ja) | 画像背景色特定のための方法、装置及びコンピュータ読み取り可能な記録媒体 | |
JP4656457B2 (ja) | 画像処理システム | |
JP3211545B2 (ja) | 画像処理装置 | |
JP3774490B2 (ja) | 画像処理装置及び画像処理方法 | |
US5682250A (en) | Method and apparatus for reproducing an image without salt and pepper specks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20051004 |