JPH11110481A

JPH11110481A - フォームレンダリング及び文字抽出方法

Info

Publication number: JPH11110481A
Application number: JP10227648A
Authority: JP
Inventors: John C Handley; シーハンドリージョン
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1997-08-04
Filing date: 1998-07-28
Publication date: 1999-04-23
Also published as: DE69823110D1; US6023534A; EP0896294B1; EP0896294A2; DE69823110T2; EP0896294A3

Abstract

(57)【要約】【課題】ハーフトーンフォームと簡単な画像処理のシ
ーケンスは、文字認識を安価に且つ正確に行う。【解決手段】本発明は、文字のストロークとハーフ
トーンボックスとの間のテクスチャの差異を活用してい
る。ハーフトーンボックスを有するフォームは、ユーザ
によって、手書き文字で又はタイプライタ文字で埋めら
れる。次に、そのフォームは、ユーザの文字とハーフト
ーンボックスとを区別するように、グレイスケールスキ
ャナで走査される。画像からフォームのハーフトーンボ
ックスが走査中に取り出されるので、手書き文字又は連
続してタイプされた文字がフォームのボックスに掛って
も、その文字は認識できる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、フォームを利用する文
字認識に関し、より詳細には、データ認識のためのフォ
ームをレンダリングし、目標とする認識のための文字を
抽出する方法に関する。

【０００２】

【従来の技術】フォームの処理は、主要な商業活動とな
っており、これによって、手書きで埋められたあるいは
タイプ印刷で埋められたデータが、電子的に走査された
文書から自動的に抽出される。手書き入力されたデ−タ
の処理が高くつくので、データ抽出の自動システムの発
達に拍車がかかった。電子的にデータを入力する便利な
方法は、顧客による、フォーム上への書かれた回答の入
力を許容し、次に、光学的文字認識技術すなわちＯＣＲ
技術を用いて光学的にデータを認識する。例としては、
国勢調査(Census)とＩＲＳ（米国の国税庁）税フォーム
がある。一般に、データはオペレータによりキー入力さ
れるが、フォーム文書を走査して手書きのテキストを認
識することによって、コストを削減し、( 処理) 速度を
上げる努力は増大している。これらの処理の例は、参照
論文：Breuel, T. M. 著 "Recognition of handwritten
responses on U.S. census forms," Document Analysi
s Systems, A.Lawrence Spitz, Andreas Dengle, Edito
rs, Word Scientific Publishing, P237−264(1994) に
見られる。認識精度を上げるために、フォームは、しば
しば顧客が文字入力するボックス配列で構成される。ボ
ックスは、書き手に明確に分離された文字を強制するの
で、文字の区分化する必要をなくする。文字の区分化の
失敗は、認識エラーの大きな誘因である。ハンドプリン
トしたデータの抽出は、ドロップアウトカラー( 例えば
ブルー) を使用しなければ困難である。これは、フォー
ムが多色で印刷されるべきことが要求される。他の提案
は、容易に、そして安価に生成できる利点がある黒色ボ
ックスの使用であるが、以下の参照論文に参照されるよ
うに、ボックスを除去するために、複雑で繊細なな画像
処理ステップを実行しなければならない（参照論文、Ra
manaprasad, V., Shin, Y-C., and Srihari, S. N., 著
"Reading hand-printed addresses on IRS tax form
s," in Document Recognition III, Luc M. Vincent,
Jonathan J. Hull, Editors, Proc. SPIE 2660, 243-25
0 (1996)）。これは、画像の走査によってオリジナルの
未記入フォームを登録することと、文字のみが残される
ようなフォーム画像の取り出しが含まれる。文字のスト
ロークがボックスに掛かると、残念ながら、文字ストロ
ーク分も共に除去される。これは、文字認識の精度を大
きく減じてしまう。コストの削減の中心は、データ入力
を高度で正確な光学的文字認識することにある。これ
は、エラーが多くなればなるほど、そのエラーを発見し
て訂正するために人的な努力が多く費やされるからであ
る。

【０００３】エラーの一つの主要な要因は文字の併合で
ある。文字の併合は、解釈において曖昧さを生じる。フ
ォームは、書き手に各文字の分離を強制する様に意図さ
れ、分離された文字は、より正確に認識されることが、
以下の参照論文に記述され、フォームは、データ入力に
指定された場所で、自由な数のフレームで構成されると
述べている（参照論文、M. D. Garris and D. L. Dimmi
ck, 著 "Form designfor high accuracy optical chara
cter recognition, " IEEE Transactions onPattern An
alysis and Machine Intelligence, Vol.18, No. 6, Ju
ne 1996, pp.653-656）。エラーの他の要因は、書き手
を案内するのに用いたフレームと入力との重なりで、フ
レームが文字の部分を不明瞭にすると、前記のM. D. Ga
rrisによる参照論文が示している。従来技術において、
この問題には２つの解決策がある。１）フォームとして
描かれる通常のカラーと異なる、ドロップアウトカラー
でフォームを印刷し、フォームと記入データを光学的に
分離する。２）走査されたフォーム画像からフレームを
アルゴリズム的に除去し、記入文字に出来た損傷をアル
ゴリズム的に修復する。以下の２つの論文を参照された
い。参照論文、M.D. Garris, 著 "Intelligent form re
moval with character stroke preservation, " Proc.
SPIE Vol. 2660, 1996, pp. 321-332; B.Yu and A. K.
Jain, 著" A generic system for form dropout, " IE
EE Transactions on Pattern Recognition, Vol. 18, N
o. 11, November 1996, pp. 1127-1134 。

【０００４】第１の解決策は多くの不利な条件を有す
る。第１に、フォームを２つのカラーで生成しなければ
ならない。その１つのカラーは、指示用の印刷されたテ
キストのためのもので、他の明るいカラーは、フレーム
のためのものである。これは、２色プリンタで印刷され
なければならず、生成されるフォームのコストは増加す
る。第２に、フォームは、ドロップアウトカラーでシャ
ッタが開く（bulb）ようなスキャナか、又は、カラース
キャナで走査され、結果の画像からカラーが除去される
ように処理される。いずれの場合にも、フォーム処理コ
ストは増加する。最後に、２色式のフォームは白黒複写
機で複写することは出来ない。

【０００５】第２の解決策は、フォームがアルゴリズム
的に除去されることが必要である。例えば、未記入フォ
ームはコンピュータ記憶装置に描くことが出来るので、
走査された記入画像が登録され、画像から、入力された
データのみが残るように（未記入フォームが) 減算され
る。以下の参照論文にはこれらの処理についての更なる
説明がなされている（参照論文、R. Casey, D. Ferguso
n, K. Mohiuddin, andE. Walach, 著 "Intelligent for
ms processing system," Machine Vision andApplicati
ons, Vol. 5, 1992, pp. 143-155; S. Liebowitz Taylo
r, R. Fritzon, and J. A. Pastor,著 "Extraction of
data from preprinted forms," Machine Vision and Ap
plications, Vol. 5, 1992, pp. 211-222;米国特許第5,
140,650 号 "Computer-implemented method for automa
tic extraction of data fromprinted forms.";米国特
許第5,542,007 号 "Form dropout compression methodw
hich handles form white-out and writing in shaded
and white-out areas of the form")。ここでは、走査
された未記入のフォームか、コンピュータ記憶装置内に
（登録された）フォームのモデルが必要となる。長い水
平線と、長い垂直線を注意深く消去することによって、
フォームを除去することができる方法もある（前記Garr
is and Yu の論文を参照されたい）。いずれの場合も、
線の除去によって入力文字は損傷される。ストロークは
注意深く巧妙に作られた規則を用いて、修復されなけれ
ばならない。ストロークがフレーム線と一致した場合
に、これは不可能になる。伝統的に、ドロップアウトカ
ラーが用いられない場合は、ともかく、走査された画像
からフォームのボックスを除去しなければならない。こ
こでは、走査された画像からオリジナルのフォーム画像
を減算（ＸＯＲ）することによって実行される。しか
し、この方法では、文字画像の一部分を失うことにな
る。複雑な画像処理法でも、文字画像の保護が必要とさ
れ続けていて、これらの方法でも結果は不完全である。

【０００６】光学的文字認識（ＯＣＲ）は、文字のフォ
ームの光学的又は電子的表現を、シンボリックすなわち
記号フォームに変換する処理である。最新のシステムで
は、データは、ハードディスク又はランダムアクセスメ
モリのような、コンピュータ記憶装置に保持される。従
って、シンボリックすなわち記号表現も、記憶されて編
集される。処理は、走査、特徴抽出、及び、分類の３ス
テップからなる。第１のステップは、感光性装置を用い
て行われ、用紙上に印刷された文字を電子的パルスに変
換して、それをプロセッサのメモリにアレイとして配列
する。文字は、磁気インクで印刷されてもよく、適当な
装置を使って感知されても良い。第２のステップは、ア
レイとして表現された文字イメージから特徴を抽出する
ことから成る。機械（タイプライタ又は植字印刷）によ
る印刷又は手書きによる文字かどうかの、文字セット中
から識別のための良い特徴のセットを選択することは、
研究開発の活動領域であったし、また今でもそうであ
る。参照論文、S. Mori, C.Y. Suen, and K. Yamamoto,
著 "Historical review ofＯＣＲ research and devel
opment," Proceeding of the IEEE, Vol. 80, No. 7, 1
992, pp. 1029-1058を参照されたい。第３のステップ
は、観察されて抽出された特徴に判定ルールを適用し
て、それに、クラス（例えば文字コード）をの割当て
る。ＯＣＲのための「隠された層(hidden layer)」によ
る神経ネットワーク法の場合には、第２のステップは第
１の層に生じて、第３のステップは第２の層に生じる。
ＯＣＲについての更なる情報は、米国特許第4,034,343
号（ Michael E. Wilmerに、に公布された "Optical ch
aracter recognition system,"を参照すると、空間領域
におけるＯＣＲの従来技術について述べられている。米
国特許第3,582,884 号 "Multiple-scanner character r
eading system", は、文字が走査され、信号として表現
される通信ネットワークにおけるＯＣＲシステムについ
て述べている。信号から原稿の映像走査データへのデコ
ードは、認識の前に行われる。

【０００７】

【発明が解決しようとする課題】フォームレンダーリン
グと文字認識に関する従来技術の欠点を克服するため、
本発明は、認識のための文字を抽出する簡単な画像処理
ステップと共に、安価なプリンタで、ハーフトーンを利
用して単純、且つ容易に、フォームを生成することを目
的とする。

【０００８】

【課題を解決するための手段】本発明は、文字のストロ
ークとハーフトーンボックスとの間のテクスチャの差異
を活用している。他方、本発明以外の方法は、光学的濃
度の差異（例えば、ドロップアウトカラー）や、構造上
の差異（ボックス部分の減算及びストロークの回復）を
用いている。本発明の方法は、アドビ社のポストスクリ
プト（商標）で用いられるユービキタスハーフトーン方
式という、ハーフトーンを用いてフォームボックスが生
成している。基本的に、ハーフトーンボックスを有する
フォームは、ユーザによって、手書き文字で又はタイプ
ライタ文字で埋められる。次に、そのフォームは、ユー
ザの文字とハーフトーンボックスとを区別するように、
グレイスケールスキャナで走査される。画像からフォー
ムのハーフトーンボックスが走査中に取り出されるの
で、手書き文字又は連続してタイプされた文字がフォー
ムのボックスに掛っても、その文字は認識できる。全て
の手書き文字又はタイプ文字のトポロジ的な特性は、両
者が重なり、ボックスが除去されたとしても、ハーフト
ーンボックスによって悪影響を受けることはないであろ
う。

【０００９】本書に記述されたフォームレンダーリング
法は、全ての確認された欠点を克服する。フォームのフ
レームや選択されたテキストや記号や文字は、黒−白の
ハーフトーンでレンダリングされ、連続して書かれた文
字又はタイプされた文字は、フレームと新規の文字スト
ロークの間のテクスチャ差異を利用して抽出される。ハ
ードウエア、又は、ソフトウエアで容易に実現できる簡
単な画像処理手順のシーケンスは、フレーム（又は、他
の選択された領域）を除去すると同時に、連続して付加
された文字を損なわずに残す。ドロップアウトカラー法
に対比して、明るいカラーの印象を発するハーフトーン
は、ポストスクリプト( 商標) のようなページ記述言語
によって、容易に生成され、従って、未記入フォーム
は、低価格で印刷され、複写することが出来る。

【００１０】記述される本発明の実施によって、カラー
プリンタを用いること無く、ハンディなプリンタであっ
ても、ハーフトーンを生成することができ、カスタマイ
ズしたフォームを生成できる。本発明によって得られる
最小の画像処理資源によって信頼性のある認識が得られ
る。本発明の方法は、コンピュータの複雑さが低く、そ
のハーフトーンフォームから文字を抽出するために使わ
れるメモリも少ない。従って、安価な特注フォームが生
成され、信頼性があり、安価な目的の文字抽出の方法を
生成する。手書きされたフォームデータは、フォームを
走査して自動的にハンドプリントされた文字を認識する
ことによって、電子フォームに変換することができる。

【００１１】

【発明の実施の形態】ここに開示した方法は、ポストス
クリプト（商標）で用いるユービキタスハーフトーン方
式（スキーム）という、ハーフトーンを用いたフォーム
ボックスを生成し、ここに開示した方法は、連続した手
書き文字又はタイプ文字の認識を提供しており、その認
識は、ハーフトーンのフォームボックスを取り出すこと
によって行われる。以下の議論は、フォームボックスと
手書き文字とに言及するが、本発明の方法は、１つのフ
ォームにおいて任意に選択されたフィールドや記号やテ
キストを消去するのに用いることができ、あるいは、ユ
ーザによって１つのフォームに連続して入力されたタイ
プ文字又は手書き文字を認識することが出来ることを、
理解されるに違いない。

【００１２】図１を参照すると、ハーフトーン技術を用
いて生成されたボックスを有するフォームの１つのフィ
ールドが示される。このサンプルでは、フォームは、ポ
ストスクリプトファイルとして生成されて、３００ｄｐ
ｉのスパークプリンタ(SparcPrinter)で印刷され、ユー
ザによって手書き文字で埋められ、２００スポット／イ
ンチ（ｓｐｉ）で８ビット／ピクセルのグレースケール
スキャナによって、走査された。書かれた文字がハーフ
トーンのボックスに掛かっている事に注意されたい。仮
に、ボックスが簡単に画像から取り出された場合には、
文字（特に、文字「PRIZE 」のE ）のトポロジ的な特性
は、悪影響を受けるであろう。単純な画像処理の後で
は、図２に示すように、その結果は、２値画像となっ
て、文字画像を保持する。

【００１３】第１のステップは、次のようなマスクによ
るコンボルーションを用いて、図１における原稿画像を
シャープにする。 −１ −１ −１ −１１０ −１ −１ −１ −１このマスクは、図３に表示した画像を生成する。

【００１４】次の段階は、参照論文に記述されるよう
に、２×２構成要素を用いる、画像上のモルフォロジー
処理の中のクローズ処理である（参照論文、E. R. Doug
herty,J. T. Astola,著 "An Introduction to Nonlinea
r Processing," SPIE Press,1994）。図４を参照する
と、ハーフトーンボックスは、ハイ（白色) のピクセル
とロー（暗色) のピクセルとを交互に含むので、構成要
素は、低い分離ピクセルにはフィットしていないが、よ
り厚い文字ストロークにはフィットしている。

【００１５】クローズ処理された画像は、図５に示すよ
うに、後続の文字認識のために、２値画像を得るように
スレッシュホールド処理される。

【００１６】最終ステップは、画像中の疑似の小さな連
結成分すなわちシミを「ドライクリーニング」すること
であり、その結果を図２に示す。

【００１７】１個のスレッシュホールド処理方法は、良
好には動作しない。図６は、スレッシュホールド値を、
２００，１９０，１８０，１７０，１６０，１５０とし
てスレッシュホールド処理した１連の画像の図である。
閾値が低くなると、より多くのピクセルは白色になり、
ボックスは消滅するが、同様に文字の薄いストロークも
消滅する。一度、消失すると、それらを回復することは
出来ず、容易に推測することが出来ない。

【００１８】図７を参照すると、ハーフトーン領域と、
連続して入力された手書きのテキスト（図１、図２に示
す）を含むフォーム１Ａは、電子的にスキャナ２で走査
される。ハーフトーンの減算部３は、走査された画像上
でハーフトーン領域を除去するように実行される。この
ハーフトーンの減算（すなわちハーフトーンの取り出し
＝除去）は、走査シーケンスにおいてスキャナ（ハード
ウエア）内で行われ、あるいは、マイクロプロセッサを
用いたソフトウエア操作によって行われる。ハーフトー
ンの減算（３）が完了すると、走査と減算処理によって
生成された文書は、追加のＯＣＲ処理部４のＯＣＲ処理
を受けてもよい。手書きの文字は、ＯＣＲ処理部４の動
作の間に認識され、分類される。得られた文書１Ｂに
は、ユーザによってオリジナルフォーム上に入力された
データに類似する認識された文字のみが含まれる。この
時点で、認識された文字は、それ以降の操作又はそれ以
降の格納に委ねられる。

【図面の簡単な説明】

【図１】ハーフトーンボックスを有し、手書きのテキス
トを含むオリジナルフォームのサンプルの図である。

【図２】図１の画像についての認識結果のサンプルの図
である。

【図３】図１の画像を鮮明化した図である。

【図４】図３の画像をモルフォロジーを用いたクローズ
処理した画像の図である。

【図５】図４の画像をスレッシュホールド処理した画像
の図である。

【図６】上から順に、スレッシュホールド値、２００，
１９０，１８０，１７０，１６０，１５０を用いて、ス
レッシュホールド処理した、１連の画像のサンプルを示
す図である。

【図７】本書に開示した本発明で利用される、文字認識
を遂行する為に必要なモジュールのブロック図である。

【符号の説明】

１Ａフォーム１Ｂ文書２走査（スキャン）３ハーフトーン減算部４ＯＣＲ（光学的文字認識）処理部

Claims

【特許請求の範囲】

【請求項１】プリレンダリングしたフォームから二次
データを抽出する方法において、前記プリレンダリングしたフォームは、該フォーム上の
選択したフレームと文字と記号のために、ハーフトーン
を用いて生成されており、前記二次データは、前記プリ
レンダリングフォームから、前記ハーフトーンの除去に
よって、電子的に抽出されるものであり、前記二次デー
タの文字が以降の処理の為に残っていることを特徴とす
る方法。
【請求項２】請求項１の方法において、前記ハーフト
ーンの除去は、前記フォーム上の前記二次データ文字と
前記ハーフトーンの間のテクスチャの差異の検出を経て
行われており、該差異は、決定すると、前記フォームの
画像処理の間の前記ハーフトーンの消去を行うことを特
徴とする方法。
【請求項３】文字認識を高めるフォームにおいて、ハーフトーンを用いてレンダリングされた前記フォーム
には選択されたエントリボックスとテキストと文字とが
含まれており、連続して付与された文字が、該文字を含
む前記フォームの走査中に抽出され、前記連続付与され
たハーフトーンの文字が、前記フォームから除去され、
前記連続付与された文字が、以降の処理動作のために残
っていることを特徴とするフォーム。