JPH11110481A - フォームレンダリング及び文字抽出方法 - Google Patents

フォームレンダリング及び文字抽出方法

Info

Publication number
JPH11110481A
JPH11110481A JP10227648A JP22764898A JPH11110481A JP H11110481 A JPH11110481 A JP H11110481A JP 10227648 A JP10227648 A JP 10227648A JP 22764898 A JP22764898 A JP 22764898A JP H11110481 A JPH11110481 A JP H11110481A
Authority
JP
Japan
Prior art keywords
halftone
characters
character
image
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10227648A
Other languages
English (en)
Inventor
John C Handley
シー ハンドリー ジョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH11110481A publication Critical patent/JPH11110481A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 ハーフトーンフォームと簡単な画像処理のシ
ーケンスは、文字認識を安価に且つ正確に行う。 【解決手段】 本発明は、文字のストロークとハーフ
トーンボックスとの間のテクスチャの差異を活用してい
る。ハーフトーンボックスを有するフォームは、ユーザ
によって、手書き文字で又はタイプライタ文字で埋めら
れる。次に、そのフォームは、ユーザの文字とハーフト
ーンボックスとを区別するように、グレイスケールスキ
ャナで走査される。画像からフォームのハーフトーンボ
ックスが走査中に取り出されるので、手書き文字又は連
続してタイプされた文字がフォームのボックスに掛って
も、その文字は認識できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、フォームを利用する文
字認識に関し、より詳細には、データ認識のためのフォ
ームをレンダリングし、目標とする認識のための文字を
抽出する方法に関する。
【0002】
【従来の技術】フォームの処理は、主要な商業活動とな
っており、これによって、手書きで埋められたあるいは
タイプ印刷で埋められたデータが、電子的に走査された
文書から自動的に抽出される。手書き入力されたデ−タ
の処理が高くつくので、データ抽出の自動システムの発
達に拍車がかかった。電子的にデータを入力する便利な
方法は、顧客による、フォーム上への書かれた回答の入
力を許容し、次に、光学的文字認識技術すなわちOCR
技術を用いて光学的にデータを認識する。例としては、
国勢調査(Census)とIRS(米国の国税庁)税フォーム
がある。一般に、データはオペレータによりキー入力さ
れるが、フォーム文書を走査して手書きのテキストを認
識することによって、コストを削減し、( 処理) 速度を
上げる努力は増大している。これらの処理の例は、参照
論文:Breuel, T. M. 著 "Recognition of handwritten
responses on U.S. census forms," Document Analysi
s Systems, A.Lawrence Spitz, Andreas Dengle, Edito
rs, Word Scientific Publishing, P237−264(1994) に
見られる。認識精度を上げるために、フォームは、しば
しば顧客が文字入力するボックス配列で構成される。ボ
ックスは、書き手に明確に分離された文字を強制するの
で、文字の区分化する必要をなくする。文字の区分化の
失敗は、認識エラーの大きな誘因である。ハンドプリン
トしたデータの抽出は、ドロップアウトカラー( 例えば
ブルー) を使用しなければ困難である。これは、フォー
ムが多色で印刷されるべきことが要求される。他の提案
は、容易に、そして安価に生成できる利点がある黒色ボ
ックスの使用であるが、以下の参照論文に参照されるよ
うに、ボックスを除去するために、複雑で繊細なな画像
処理ステップを実行しなければならない(参照論文、Ra
manaprasad, V., Shin, Y-C., and Srihari, S. N., 著
"Reading hand-printed addresses on IRS tax form
s," in Document Recognition III, Luc M. Vincent,
Jonathan J. Hull, Editors, Proc. SPIE 2660, 243-25
0 (1996))。これは、画像の走査によってオリジナルの
未記入フォームを登録することと、文字のみが残される
ようなフォーム画像の取り出しが含まれる。文字のスト
ロークがボックスに掛かると、残念ながら、文字ストロ
ーク分も共に除去される。これは、文字認識の精度を大
きく減じてしまう。コストの削減の中心は、データ入力
を高度で正確な光学的文字認識することにある。これ
は、エラーが多くなればなるほど、そのエラーを発見し
て訂正するために人的な努力が多く費やされるからであ
る。
【0003】エラーの一つの主要な要因は文字の併合で
ある。文字の併合は、解釈において曖昧さを生じる。フ
ォームは、書き手に各文字の分離を強制する様に意図さ
れ、分離された文字は、より正確に認識されることが、
以下の参照論文に記述され、フォームは、データ入力に
指定された場所で、自由な数のフレームで構成されると
述べている(参照論文、M. D. Garris and D. L. Dimmi
ck, 著 "Form designfor high accuracy optical chara
cter recognition, " IEEE Transactions onPattern An
alysis and Machine Intelligence, Vol.18, No. 6, Ju
ne 1996, pp.653-656)。エラーの他の要因は、書き手
を案内するのに用いたフレームと入力との重なりで、フ
レームが文字の部分を不明瞭にすると、前記のM. D. Ga
rrisによる参照論文が示している。従来技術において、
この問題には2つの解決策がある。1)フォームとして
描かれる通常のカラーと異なる、ドロップアウトカラー
でフォームを印刷し、フォームと記入データを光学的に
分離する。2)走査されたフォーム画像からフレームを
アルゴリズム的に除去し、記入文字に出来た損傷をアル
ゴリズム的に修復する。以下の2つの論文を参照された
い。参照論文、M.D. Garris, 著 "Intelligent form re
moval with character stroke preservation, " Proc.
SPIE Vol. 2660, 1996, pp. 321-332; B.Yu and A. K.
Jain, 著" A generic system for form dropout, " IE
EE Transactions on Pattern Recognition, Vol. 18, N
o. 11, November 1996, pp. 1127-1134 。
【0004】第1の解決策は多くの不利な条件を有す
る。第1に、フォームを2つのカラーで生成しなければ
ならない。その1つのカラーは、指示用の印刷されたテ
キストのためのもので、他の明るいカラーは、フレーム
のためのものである。これは、2色プリンタで印刷され
なければならず、生成されるフォームのコストは増加す
る。第2に、フォームは、ドロップアウトカラーでシャ
ッタが開く(bulb)ようなスキャナか、又は、カラース
キャナで走査され、結果の画像からカラーが除去される
ように処理される。いずれの場合にも、フォーム処理コ
ストは増加する。最後に、2色式のフォームは白黒複写
機で複写することは出来ない。
【0005】第2の解決策は、フォームがアルゴリズム
的に除去されることが必要である。例えば、未記入フォ
ームはコンピュータ記憶装置に描くことが出来るので、
走査された記入画像が登録され、画像から、入力された
データのみが残るように(未記入フォームが) 減算され
る。以下の参照論文にはこれらの処理についての更なる
説明がなされている(参照論文、R. Casey, D. Ferguso
n, K. Mohiuddin, andE. Walach, 著 "Intelligent for
ms processing system," Machine Vision andApplicati
ons, Vol. 5, 1992, pp. 143-155; S. Liebowitz Taylo
r, R. Fritzon, and J. A. Pastor,著 "Extraction of
data from preprinted forms," Machine Vision and Ap
plications, Vol. 5, 1992, pp. 211-222;米国特許第5,
140,650 号 "Computer-implemented method for automa
tic extraction of data fromprinted forms.";米国特
許第5,542,007 号 "Form dropout compression methodw
hich handles form white-out and writing in shaded
and white-out areas of the form")。ここでは、走査
された未記入のフォームか、コンピュータ記憶装置内に
(登録された)フォームのモデルが必要となる。長い水
平線と、長い垂直線を注意深く消去することによって、
フォームを除去することができる方法もある(前記Garr
is and Yu の論文を参照されたい)。いずれの場合も、
線の除去によって入力文字は損傷される。ストロークは
注意深く巧妙に作られた規則を用いて、修復されなけれ
ばならない。ストロークがフレーム線と一致した場合
に、これは不可能になる。伝統的に、ドロップアウトカ
ラーが用いられない場合は、ともかく、走査された画像
からフォームのボックスを除去しなければならない。こ
こでは、走査された画像からオリジナルのフォーム画像
を減算(XOR)することによって実行される。しか
し、この方法では、文字画像の一部分を失うことにな
る。複雑な画像処理法でも、文字画像の保護が必要とさ
れ続けていて、これらの方法でも結果は不完全である。
【0006】光学的文字認識(OCR)は、文字のフォ
ームの光学的又は電子的表現を、シンボリックすなわち
記号フォームに変換する処理である。最新のシステムで
は、データは、ハードディスク又はランダムアクセスメ
モリのような、コンピュータ記憶装置に保持される。従
って、シンボリックすなわち記号表現も、記憶されて編
集される。処理は、走査、特徴抽出、及び、分類の3ス
テップからなる。第1のステップは、感光性装置を用い
て行われ、用紙上に印刷された文字を電子的パルスに変
換して、それをプロセッサのメモリにアレイとして配列
する。文字は、磁気インクで印刷されてもよく、適当な
装置を使って感知されても良い。第2のステップは、ア
レイとして表現された文字イメージから特徴を抽出する
ことから成る。機械(タイプライタ又は植字印刷)によ
る印刷又は手書きによる文字かどうかの、文字セット中
から識別のための良い特徴のセットを選択することは、
研究開発の活動領域であったし、また今でもそうであ
る。参照論文、S. Mori, C.Y. Suen, and K. Yamamoto,
著 "Historical review ofOCR research and devel
opment," Proceeding of the IEEE, Vol. 80, No. 7, 1
992, pp. 1029-1058を参照されたい。第3のステップ
は、観察されて抽出された特徴に判定ルールを適用し
て、それに、クラス(例えば文字コード)をの割当て
る。OCRのための「隠された層(hidden layer)」によ
る神経ネットワーク法の場合には、第2のステップは第
1の層に生じて、第3のステップは第2の層に生じる。
OCRについての更なる情報は、米国特許第4,034,343
号( Michael E. Wilmerに、に公布された "Optical ch
aracter recognition system,"を参照すると、空間領域
におけるOCRの従来技術について述べられている。米
国特許第3,582,884 号 "Multiple-scanner character r
eading system", は、文字が走査され、信号として表現
される通信ネットワークにおけるOCRシステムについ
て述べている。信号から原稿の映像走査データへのデコ
ードは、認識の前に行われる。
【0007】
【発明が解決しようとする課題】フォームレンダーリン
グと文字認識に関する従来技術の欠点を克服するため、
本発明は、認識のための文字を抽出する簡単な画像処理
ステップと共に、安価なプリンタで、ハーフトーンを利
用して単純、且つ容易に、フォームを生成することを目
的とする。
【0008】
【課題を解決するための手段】本発明は、文字のストロ
ークとハーフトーンボックスとの間のテクスチャの差異
を活用している。他方、本発明以外の方法は、光学的濃
度の差異(例えば、ドロップアウトカラー)や、構造上
の差異(ボックス部分の減算及びストロークの回復)を
用いている。本発明の方法は、アドビ社のポストスクリ
プト(商標)で用いられるユービキタスハーフトーン方
式という、ハーフトーンを用いてフォームボックスが生
成している。基本的に、ハーフトーンボックスを有する
フォームは、ユーザによって、手書き文字で又はタイプ
ライタ文字で埋められる。次に、そのフォームは、ユー
ザの文字とハーフトーンボックスとを区別するように、
グレイスケールスキャナで走査される。画像からフォー
ムのハーフトーンボックスが走査中に取り出されるの
で、手書き文字又は連続してタイプされた文字がフォー
ムのボックスに掛っても、その文字は認識できる。全て
の手書き文字又はタイプ文字のトポロジ的な特性は、両
者が重なり、ボックスが除去されたとしても、ハーフト
ーンボックスによって悪影響を受けることはないであろ
う。
【0009】本書に記述されたフォームレンダーリング
法は、全ての確認された欠点を克服する。フォームのフ
レームや選択されたテキストや記号や文字は、黒−白の
ハーフトーンでレンダリングされ、連続して書かれた文
字又はタイプされた文字は、フレームと新規の文字スト
ロークの間のテクスチャ差異を利用して抽出される。ハ
ードウエア、又は、ソフトウエアで容易に実現できる簡
単な画像処理手順のシーケンスは、フレーム(又は、他
の選択された領域)を除去すると同時に、連続して付加
された文字を損なわずに残す。ドロップアウトカラー法
に対比して、明るいカラーの印象を発するハーフトーン
は、ポストスクリプト( 商標) のようなページ記述言語
によって、容易に生成され、従って、未記入フォーム
は、低価格で印刷され、複写することが出来る。
【0010】記述される本発明の実施によって、カラー
プリンタを用いること無く、ハンディなプリンタであっ
ても、ハーフトーンを生成することができ、カスタマイ
ズしたフォームを生成できる。本発明によって得られる
最小の画像処理資源によって信頼性のある認識が得られ
る。本発明の方法は、コンピュータの複雑さが低く、そ
のハーフトーンフォームから文字を抽出するために使わ
れるメモリも少ない。従って、安価な特注フォームが生
成され、信頼性があり、安価な目的の文字抽出の方法を
生成する。手書きされたフォームデータは、フォームを
走査して自動的にハンドプリントされた文字を認識する
ことによって、電子フォームに変換することができる。
【0011】
【発明の実施の形態】ここに開示した方法は、ポストス
クリプト(商標)で用いるユービキタスハーフトーン方
式(スキーム)という、ハーフトーンを用いたフォーム
ボックスを生成し、ここに開示した方法は、連続した手
書き文字又はタイプ文字の認識を提供しており、その認
識は、ハーフトーンのフォームボックスを取り出すこと
によって行われる。以下の議論は、フォームボックスと
手書き文字とに言及するが、本発明の方法は、1つのフ
ォームにおいて任意に選択されたフィールドや記号やテ
キストを消去するのに用いることができ、あるいは、ユ
ーザによって1つのフォームに連続して入力されたタイ
プ文字又は手書き文字を認識することが出来ることを、
理解されるに違いない。
【0012】図1を参照すると、ハーフトーン技術を用
いて生成されたボックスを有するフォームの1つのフィ
ールドが示される。このサンプルでは、フォームは、ポ
ストスクリプトファイルとして生成されて、300dp
iのスパークプリンタ(SparcPrinter)で印刷され、ユー
ザによって手書き文字で埋められ、200スポット/イ
ンチ(spi)で8ビット/ピクセルのグレースケール
スキャナによって、走査された。書かれた文字がハーフ
トーンのボックスに掛かっている事に注意されたい。仮
に、ボックスが簡単に画像から取り出された場合には、
文字(特に、文字「PRIZE 」のE )のトポロジ的な特性
は、悪影響を受けるであろう。単純な画像処理の後で
は、図2に示すように、その結果は、2値画像となっ
て、文字画像を保持する。
【0013】第1のステップは、次のようなマスクによ
るコンボルーションを用いて、図1における原稿画像を
シャープにする。 −1 −1 −1 −1 10 −1 −1 −1 −1 このマスクは、図3に表示した画像を生成する。
【0014】次の段階は、参照論文に記述されるよう
に、2×2構成要素を用いる、画像上のモルフォロジー
処理の中のクローズ処理である(参照論文、E. R. Doug
herty,J. T. Astola,著 "An Introduction to Nonlinea
r Processing," SPIE Press,1994)。図4を参照する
と、ハーフトーンボックスは、ハイ(白色) のピクセル
とロー(暗色) のピクセルとを交互に含むので、構成要
素は、低い分離ピクセルにはフィットしていないが、よ
り厚い文字ストロークにはフィットしている。
【0015】クローズ処理された画像は、図5に示すよ
うに、後続の文字認識のために、2値画像を得るように
スレッシュホールド処理される。
【0016】最終ステップは、画像中の疑似の小さな連
結成分すなわちシミを「ドライクリーニング」すること
であり、その結果を図2に示す。
【0017】1個のスレッシュホールド処理方法は、良
好には動作しない。図6は、スレッシュホールド値を、
200,190,180,170,160,150とし
てスレッシュホールド処理した1連の画像の図である。
閾値が低くなると、より多くのピクセルは白色になり、
ボックスは消滅するが、同様に文字の薄いストロークも
消滅する。一度、消失すると、それらを回復することは
出来ず、容易に推測することが出来ない。
【0018】図7を参照すると、ハーフトーン領域と、
連続して入力された手書きのテキスト(図1、図2に示
す)を含むフォーム1Aは、電子的にスキャナ2で走査
される。ハーフトーンの減算部3は、走査された画像上
でハーフトーン領域を除去するように実行される。この
ハーフトーンの減算(すなわちハーフトーンの取り出し
=除去)は、走査シーケンスにおいてスキャナ(ハード
ウエア)内で行われ、あるいは、マイクロプロセッサを
用いたソフトウエア操作によって行われる。ハーフトー
ンの減算(3)が完了すると、走査と減算処理によって
生成された文書は、追加のOCR処理部4のOCR処理
を受けてもよい。手書きの文字は、OCR処理部4の動
作の間に認識され、分類される。得られた文書1Bに
は、ユーザによってオリジナルフォーム上に入力された
データに類似する認識された文字のみが含まれる。この
時点で、認識された文字は、それ以降の操作又はそれ以
降の格納に委ねられる。
【図面の簡単な説明】
【図1】ハーフトーンボックスを有し、手書きのテキス
トを含むオリジナルフォームのサンプルの図である。
【図2】図1の画像についての認識結果のサンプルの図
である。
【図3】図1の画像を鮮明化した図である。
【図4】図3の画像をモルフォロジーを用いたクローズ
処理した画像の図である。
【図5】図4の画像をスレッシュホールド処理した画像
の図である。
【図6】上から順に、スレッシュホールド値、200,
190,180,170,160,150を用いて、ス
レッシュホールド処理した、1連の画像のサンプルを示
す図である。
【図7】本書に開示した本発明で利用される、文字認識
を遂行する為に必要なモジュールのブロック図である。
【符号の説明】
1A フォーム 1B 文書 2 走査(スキャン) 3 ハーフトーン減算部 4 OCR(光学的文字認識)処理部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 プリレンダリングしたフォームから二次
    データを抽出する方法において、 前記プリレンダリングしたフォームは、該フォーム上の
    選択したフレームと文字と記号のために、ハーフトーン
    を用いて生成されており、前記二次データは、前記プリ
    レンダリングフォームから、前記ハーフトーンの除去に
    よって、電子的に抽出されるものであり、前記二次デー
    タの文字が以降の処理の為に残っていることを特徴とす
    る方法。
  2. 【請求項2】 請求項1の方法において、前記ハーフト
    ーンの除去は、前記フォーム上の前記二次データ文字と
    前記ハーフトーンの間のテクスチャの差異の検出を経て
    行われており、該差異は、決定すると、前記フォームの
    画像処理の間の前記ハーフトーンの消去を行うことを特
    徴とする方法。
  3. 【請求項3】 文字認識を高めるフォームにおいて、 ハーフトーンを用いてレンダリングされた前記フォーム
    には選択されたエントリボックスとテキストと文字とが
    含まれており、連続して付与された文字が、該文字を含
    む前記フォームの走査中に抽出され、前記連続付与され
    たハーフトーンの文字が、前記フォームから除去され、
    前記連続付与された文字が、以降の処理動作のために残
    っていることを特徴とするフォーム。
JP10227648A 1997-08-04 1998-07-28 フォームレンダリング及び文字抽出方法 Pending JPH11110481A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/905,610 US6023534A (en) 1997-08-04 1997-08-04 Method of extracting image data from an area generated with a halftone pattern
US08/905610 1997-08-04

Publications (1)

Publication Number Publication Date
JPH11110481A true JPH11110481A (ja) 1999-04-23

Family

ID=25421137

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10227648A Pending JPH11110481A (ja) 1997-08-04 1998-07-28 フォームレンダリング及び文字抽出方法

Country Status (4)

Country Link
US (1) US6023534A (ja)
EP (1) EP0896294B1 (ja)
JP (1) JPH11110481A (ja)
DE (1) DE69823110T2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000060531A2 (en) * 1999-04-07 2000-10-12 Raf Technology, Inc. Extracting user data from a scanned image of a pre-printed form
US6654487B1 (en) * 2000-03-03 2003-11-25 Charles H. Downs, Jr. Character recognition, including method and system for processing checks with invalidated MICR lines
US6950553B1 (en) * 2000-03-23 2005-09-27 Cardiff Software, Inc. Method and system for searching form features for form identification
JP4189506B2 (ja) * 2000-06-09 2008-12-03 コニカミノルタビジネステクノロジーズ株式会社 画像処理のための装置、方法及び記録媒体
JP3867512B2 (ja) * 2000-06-29 2007-01-10 富士ゼロックス株式会社 画像処理装置および画像処理方法、並びにプログラム
US6873728B2 (en) * 2002-01-16 2005-03-29 Eastman Kodak Company Vertical black line removal implementation
JP2004145072A (ja) * 2002-10-25 2004-05-20 Riso Kagaku Corp 手書き文字フォント作成装置及び手書き文字フォント作成プログラム
US7487438B1 (en) * 2005-03-08 2009-02-03 Pegasus Imaging Corporation Method and apparatus for recognizing a digitized form, extracting information from a filled-in form, and generating a corrected filled-in form
JP5075054B2 (ja) * 2008-08-08 2012-11-14 キヤノン株式会社 画像処理装置、画像処理方法、およびプログラム
US8373724B2 (en) 2009-01-28 2013-02-12 Google Inc. Selective display of OCR'ed text and corresponding images from publications on a client device
US8442813B1 (en) 2009-02-05 2013-05-14 Google Inc. Methods and systems for assessing the quality of automatically generated text
US8731296B2 (en) 2011-04-21 2014-05-20 Seiko Epson Corporation Contact text detection in scanned images
US10607101B1 (en) 2016-12-14 2020-03-31 Revenue Management Solutions, Llc System and method for patterned artifact removal for bitonal images
US11526571B2 (en) * 2019-09-12 2022-12-13 International Business Machines Corporation Requesting an IP address using a non-textual based graphical resource identifier

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3582884A (en) * 1968-01-30 1971-06-01 Cognitronics Corp Multiple-scanner character reading system
US4034343A (en) * 1976-10-01 1977-07-05 Xerox Corporation Optical character recognition system
US4400738A (en) * 1981-10-30 1983-08-23 Xerox Corporation Image signal processing method and apparatus
US5140650A (en) * 1989-02-02 1992-08-18 International Business Machines Corporation Computer-implemented method for automatic extraction of data from printed forms
JP2865697B2 (ja) * 1989-03-20 1999-03-08 株式会社日立製作所 エクスチャ分離方法
US5131049A (en) * 1989-12-08 1992-07-14 Xerox Corporation Identification, characterization, and segmentation of halftone or stippled regions of binary images by growing a seed to a clipping mask
EP0461817A3 (en) * 1990-06-15 1993-11-18 American Telephone & Telegraph Image segmenting apparatus and methods
DE69130469T2 (de) * 1990-08-03 1999-05-06 Canon Kk Gerät und Verfahren zur Bildverarbeitung
US5617485A (en) * 1990-08-15 1997-04-01 Ricoh Company, Ltd. Image region segmentation system
US5696842A (en) * 1991-07-04 1997-12-09 Ricoh Company, Ltd. Image processing system for adaptive coding of color document images
US5392365A (en) * 1991-12-23 1995-02-21 Eastman Kodak Company Apparatus for detecting text edges in digital image processing
US5317646A (en) * 1992-03-24 1994-05-31 Xerox Corporation Automated method for creating templates in a forms recognition and processing system
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
DE69331456T2 (de) * 1992-10-09 2002-11-07 Matsushita Electric Ind Co Ltd Überprüfbare optische Zeichenerkennung
JP3359390B2 (ja) * 1993-09-27 2002-12-24 株式会社リコー 空間フィルタ装置
US5542007A (en) * 1993-10-27 1996-07-30 International Business Machines Corporation Form dropout compression method which handles form white-out and writing in shaded and white-out areas of the form
FR2737930B1 (fr) * 1995-08-18 1997-10-31 Itesoft Procede et systeme de reconnaissance de caracteres manuscrits
US5815595A (en) * 1995-12-29 1998-09-29 Seiko Epson Corporation Method and apparatus for identifying text fields and checkboxes in digitized images

Also Published As

Publication number Publication date
DE69823110D1 (de) 2004-05-19
US6023534A (en) 2000-02-08
EP0896294B1 (en) 2004-04-14
EP0896294A2 (en) 1999-02-10
DE69823110T2 (de) 2004-08-19
EP0896294A3 (en) 1999-11-03

Similar Documents

Publication Publication Date Title
Gupta et al. OCR binarization and image pre-processing for searching historical documents
Gatos et al. Automatic table detection in document images
JP3305772B2 (ja) 形態学的技術を用いて手書き指示イメージを検出する方法
Gebhardt et al. Document authentication using printing technique features and unsupervised anomaly detection
US6014450A (en) Method and apparatus for address block location
CN105654072A (zh) 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN114299528B (zh) 一种针对扫描文档的信息提取和结构化方法
JPH11110481A (ja) フォームレンダリング及び文字抽出方法
CN107195069A (zh) 一种人民币冠字号自动识别方法
JP7259491B2 (ja) 画像処理装置及びプログラム
US5781658A (en) Method of thresholding document images
CN113901952A (zh) 一种基于深度学习的印刷体与手写体分开文字识别方法
CN110705488A (zh) 图像文字识别方法
Malik et al. An efficient skewed line segmentation technique for cursive script OCR
Rodrigues et al. Cursive character recognition–a character segmentation method using projection profile-based technique
WO2009067022A1 (en) A method for resolving contradicting output data from an optical character recognition (ocr) system, wherein the output data comprises more than one recognition alternative for an image of a character
JP3955467B2 (ja) 画像処理プログラム及び画像処理装置
JPH06203204A (ja) 文字認識装置
Yu et al. A form dropout system
Konya et al. Adaptive methods for robust document image understanding
Sherkat et al. Use of colour for hand-filled form analysis and recognition
Tzogka et al. OCR Workflow: Facing Printed Texts of Ancient, Medieval and Modern Greek Literature.
Jibril et al. Recognition of Amharic braille documents
Seki et al. Color drop-out binarization method for document images with color shift
JP2894111B2 (ja) 光学式活字文字認識装置における認識結果の総合判定方式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080208

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080317