JPH04500422A - 光学式文字認識装置における認識不可能な文字を識別するための方法及び装置 - Google Patents

光学式文字認識装置における認識不可能な文字を識別するための方法及び装置

Info

Publication number
JPH04500422A
JPH04500422A JP2509293A JP50929390A JPH04500422A JP H04500422 A JPH04500422 A JP H04500422A JP 2509293 A JP2509293 A JP 2509293A JP 50929390 A JP50929390 A JP 50929390A JP H04500422 A JPH04500422 A JP H04500422A
Authority
JP
Japan
Prior art keywords
characters
document
character
unrecognizable
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2509293A
Other languages
English (en)
Inventor
ラダク,ピーター
Original Assignee
イーストマン・コダック・カンパニー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US07/360,565 external-priority patent/US4974260A/en
Priority claimed from US07/360,967 external-priority patent/US4914709A/en
Application filed by イーストマン・コダック・カンパニー filed Critical イーストマン・コダック・カンパニー
Publication of JPH04500422A publication Critical patent/JPH04500422A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/987Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns with the intervention of an operator

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 光学式文字認識装置における認識不可能な文字を識別するための方法及び装置 技術的分野 この発明は一般に文字を読み取るためのシステムに、更に詳細には、機械読取り され得ない文字を識別するのを援助するために且つ又必要な補正を行うために操 作員が使用される文字読取りシステムに関係している。
背景技術 光学式文字認識(OCR)は手動データ入力に比べて優れた生産性増大を提供す る。OCRアルゴリズムはこれまでに与えられたすべての文字の100%を識別 することはできない。「認識不可能」又は「不確定」とみなされる文字が常に存 在する。拒絶/再入力と呼ばれるこれらの認識不確定性を処理する方法は特定の 応用に依存している。一般に、次の二つの方策のうち一つが使用される。すなわ ち、(1)OCRアルゴリズムがすべての文字についてその最良の推測を行い、 そして校正により若しくは電子式つづり検査を用いて任意の補正若しくは編集が 行われる、又は(2)OCRアルゴリズムが不確定とみなされた文字に標識をつ け、そして人間の操作員が原初書類若しくはこれの画像に基づいてそれらの誤り を補正する。
第1の方策は書状、覚書、又は文脈上の情報(すなわち、既知のつづりの語)を 持った他の書類に対しては十分によく機能する。しかしながら、実業界で遭遇す る大抵の書類は書式である。これらの書式は請求書式、送金書式、勘定書、注文 用紙、小切手などであり得る。不幸にも、これらの書類は直接関係のある情報が 固有名称、あて名、ドル類、保険証書番号又は銀行預金口座番号からなっている ので、文脈上の情報をほとんど提供しない。それゆえに、拒絶/再入力の第2の 方策がこれらの応用のためには一層適切である。
OCRアルゴリズムがすべての不確定文字に標識をつけるように命令されると、 拒絶/再入カシステムが必要とされて、こ\で操作員は不確定文字を補正及び/ 又は確認することができる。現在、これを行う三つの方法がある。すなわち、( 1)原初書類に戻ること。(2)書類のマイクロフィルム画像を参考として使用 すること、又は電子的画像を参考として使用すること。これらの選択肢のうちで 、(1)は実施するのが最も簡単である(が又最も労働集約的である)、(3) は実施するのが最も困難である(が最少量の労働を必要とする)、又(2)はぼ ほその中間にある。今日の最高技術水準のOCRシステムの大部分は拒絶/再入 力のために電子的画像化を利用している。
電子的画像化は拒絶/再入力に対して最高の生産性を提供するけれども、このシ ステムが実施される方法は操作員効率、データ完全性、及び結果として生じる生 産性利得において主要な役割を演する。拒絶/再入力情報を計算機スクリーン上 に表示する最も人気のある方法は図1に示されたように不確定文字の画像を表示 するためのビデオ窓10及びOCR結果を表示するためのASC[データ12の 行からなっている。操作員はASCIIデータを見て、r?J14によって通常 強調され又は置き換えられている不確定文字を見つけ、次にそのフィールドにつ いてビデオ窓10を調べ、そして対応する文字を見つける。操作員は次にキーボ ードを用いて正しい文字をタイプする。通常、操作員にある程度の文脈を与える ために(例えば、「0」か「0」かを決めることはこの文字の近隣が文字であっ たか又は数字であったかに依存するであろう)フィールド全体(例えば名称フィ ールド)がビデオフィールドに表示される。しかしながら、ビデオ窓10とAS CIIデータ12(図1)との間であちこち見ることは時間がかかり、操作員に 疲労を生じさせる。又、各不確定文字についてビデオのフィールド全体を表示す ることはスクリーン上で書き込まなければならない付加的な情報のためにスクリ ーンの更新を遅らせる。これは又データの増大を意味し、ディスク記憶量の増大 、及びより長いデータ伝送時間を必要とし、これにより更なる効率低下が加えら れる。操作員の疲労を最少化する一つの方法はビデオ表示窓のために必要とされ るデータの量を低減するために補正過程の速度を上げることである。これは、認 識不可能な文字のビットマツプ画像を収容する「埋込式ビデオ窓」を用いること によって完成されることができる。
発明の開示 それゆえ、機械によって読み取られることができなかった文字がこの文字の正し い識別を助けるために使用文脈(それの周囲の文字)において操作員により観察 されることができるような改良形文字読取りシステムを提供することがこの発明 の目的である。不確定文字のビデオ画像はASCIIデータストリング内の不確 定文字を置き換えるために使用される。
過去の拒絶/再入力技術と関連して記憶ビデオデータの量を10以上の因数で低 減することがこの発明の別の目的である。
操作員効率を増大し、データを減少して、より速いスクリーン更新を生じさせる ようにし、これにより操作員生産性が大いに増大されるようにすることがこの発 明のなお別の目的である。
更に別の目的は書類内の近隣の文字の断片を伴うことなく関心のある文字だけを マスキングにより表示することである。
図面の簡単な説明 この発明の他の目的、利点及び特徴は次の詳細な説明、付属の各請求項、及び添 付の諸図面から一層完全に明らかになるであろう。
図1はデータを表示し且つ認識不可能な文字を補正するために従来技術において 使用されるビデオ表示窓を示した線図であり、図2はこの発明に従って認識不可 能な文字を描いたビデオ表示窓を示した線図であり、 図3はこの発明によるOCRシステムの構成図であり、図4aはビデオ表示装置 の線図であり、図4bは図48の拡大部分を図解し、且つ図3に示されたOCR ビデオRAMからビデオ情報を抽出するための場所パラメータの使用を図解して おり、図5〜8はマスキングが最も左及び最も右のバイトからの無縁の情報を除 去する方法を段階的に図解しており、 図9はこの発明のビデオ抽出及びマスキング機能に関する流れ図を示しており、 又 図10はこの発明の拒絶/再入力機能に関する流れ図を示している。
発明を実施する方法 図2に言及すると、この発明はすべての識別文字に対してASCIIデータ16 を表示することが理解される。しかしながら、過去において示されたように(図 1)フィールド全体のビデオ窓10を表示する代わりに、不確定文字のビットマ ツプビデオ画像18だけがASCIIデータストリング16における不確定文字 に取って代わっている。関心のある文字だけを抽出し且つ表示することによって 、操作員は文脈(周囲の文字)を用いて問題の文字を認識することが可能になる 。
この形式の拒絶/再入力は機械発生の字体(タイプライタ、ドツトマトリックス プリンタ、レーザプリンタ、タイプセットなど)だけを含む書類に対して特に応 用可能である。異なったフォント間にはわずかな変化が認められることがあるけ れども、操作員は通常ただ一つの文字に基づいてフォントの差異を区別すること はできない。従って、ASCIIデータストリング16は固定したフォントで表 示され、埋込式ビットマツプビデオ画像18は異なったフォントの文字を含むこ とになるが、不連続性は目立たないはずである。
この発明を実施する際に克服されなければならなかった問題は操作員が認識不可 能な文字を識別するのを一層困難にするような書類からの近隣文字の部分を伴う ことな(関心のある文字だけを抽出して表示することにあった。
図3に言及すると、このシステムは電子走査器20、ページバッファ22、フィ ールド抽出サブシステム26、OCR処理装置30、OCRビデオRAM28、 ビデオ抽出サブシステム32、及びマスキングサブシステム34を備えており、 項目30.32及び34が拒絶/再入カシステム36とインタフェース接続され ていることがわかる。
電子走査器20は各書類が直列に走査されることを可能にする制御されたレート において走査器20を通過して書類を移動させる書類移送システム(図示されて いない)に近接しており、書類のビットマツプ式画像はページバッファ22に順 次記憶される。書類の電子画像は原初書類の一進表現を含んでおり、ここで二進 値「1」は文字情報(黒)を表し且つ二進値「0」は背景情報(白)を表してい る。一つのページがページバッファ22に記憶されている間に、前のページがベ ージバ・・Iファ22から抽出されてフィールド抽出器26へ送られる。計算機 制御器(図示されていない)は書類から関心のある適切なフィールド24を抽出 するようにフィールド抽出サブシステム26に命令する。書類には大体1ないし 数百の関心のあるフィールドが存在し得るであろう。−っの書類全体が単一のフ ィールドであると言われることもできるであろうが、しかし、より多くの情報が 抽1i3されると、この情報を処理し又は読み取るためにより多くの時間がかか る。
!!類の主要部分に近づく大量の情報が読み取られると[、たならば、前の走査 書類についてフィールド抽出過程が完了してしまうまで更なる書類が書類移送装 置に置かれるのを停止することが必要であろう。この抽出データはOCR処理装 置30の一部分であるOCRビデオRAM28に送られる。
OCR処理装置it:30はOCRビデオRAM28に記憶されたフィールドビ デオ情報を処理する。それは文字場所を識別し、ビットマツプ式情報を解釈して 各文7に対するASCII表現を生成する。各解釈文字はあるレベルの信頼性を 持っている。特定の文字に対するその信頼性のレベルが事前プログラムされたし きい値より高ければ、その文字に対するASCII符号は直接拒絶7′再入カシ ステム36に送られる。文字が許容可能な信頼劇で解釈され得ないならば、OC R処理装置130は実際のASCII解釈の代わりに疑問符(又は他の標識)を 送り、これによって「確認不可能な文字」の存在及び場所を同定する。
疑問符を持った不確定文字を識別することの外に、OCR処理装置30は又その 文字に対する場所パラメータ、すなわち、図4に図解されたように、Xオフセッ ト38、Yオフセ・・ノド40、幅42及び高さ44、をセーブする。ビデオ抽 出32は認識不可能な文字を完全に取り囲むことのできる最小の方形区域46の 大きさ及び位置を同定することによって文字の場所を規定するように機能する。
この方形46の幅42及び高さ、14は認識不可能な文字の大きさを規定し、月 っXオフセット38及びXオフセット40はそれの位置を規定する。Xオフセッ ト38に文字規定方形46の左上隅48と応用に依存してフィールドの左トq4 49又は原初書類の左上隅50のような基準点との間の水平(クロス走査)距離 を測定する。Xオフセット40は対応する垂直(ライン計数)距離を測定する。
これらのパラメータのすべては画素(又P E L Sと呼ばれる画像素子)単 位で測定され、各画素は電子走査器20によって解像可能な最小の面積又は線距 離を表I−でいる。この実施例においては、水平及び垂直の両方向に1インチ当 り200の画素がある。
OCR処理装置30は場所パラメータをビデオ抽出32に送り、そしてこれはこ れらのパラメータを用いてOCRビデオRAM28から認識不可能な文字のビッ トマツプ式ビデオ画像を抽出する。場所パラメータは認識不可能な文字を取り囲 む方形区域を画素の範囲内まで正確に位置決めすることができるけれども、ビデ オ抽出32は記憶装置及びこれの関連のデーや母線の物理的形態に便宜を与える ためにバイト境界18画素/′バイト)において情報を読み取らなければならな い。従って、バイト境界は結果として生じるビy l・マツプビデオ画像(図5 を見よ)が認識不可能な文字全体を含むことを保証するように選択される。しか しながら、認識本可能な文字全体が抽出されたことを保IEするために、結彎と して生じるビットマツプビデオ画像]8は実際の認識不可能な文字の境界を越え て広がることがあり、従って図5に例示されたように、近隣文字の一部分も又ビ ットマツプビデオ画像に含まれることがある。
バイト書式は水平方向に適用される。水平方向における八つの連続しj二画素が バイトを形成している。垂直方向においては、ビデオ情報は線(ライン)#A界 においてアクセスされることができるが、ここで1線は1画素の高さに相当する 。
従って、ビデオ抽出過程はXオフセット38及び幅42パラメータを最も近いバ イトに丸めなければならない。Xオフセット38は8画素(バイト境界)の最小 の倍数に丸められ、そして実際のXオフセ・y h38と結果おして生じるバイ ト境界Xオフセットとの間の差は残りとして記憶される。次に、この残りは幅4 2パラメータに加えられ、そ(2てその結果はバイト境界幅56を得るために8 画素の次の最大倍数に丸められる。このような過程は結果として生じる方形が認 識不可能な文字のどの部分をも切り捨てないことを保証する。
次に、例として、Xオフセット=31、及び幅=16を持った不確定文字に対す る一組の実際の場所パラメータを考える。まず、Xオフセントは32(次の最小 バイト境界)に丸められることになり、そし。て34−32=2の差は残りとし て記憶されることになるであろう。この残りの2は次に幅16 + 2 = 1 8に加えられそしてこの結果が次の最高バイト境界(24)に丸められることに なるであろう。Xオフセット40及び高さ44は画素境界にとどまる。
次の高い方のバイト境界52−\の丸めは目標文字の右又は左の方に付加的な情 報を読み取って表示するビデオ抽出過程を生じるこ乏があるので、近隣文字、例 えば近隣文字rNJの一部分が図5に示されたビデオ画像に存在することがある 。
文字を含むビットマツプビデオ画像18内における無関係の標識(例えば近隣文 字の一部分)の存在はビットマツプ式ビデオ画像18における不確定文字を認識 する操作員の能力を妨げることがある。この情報を除去し、しかもパイ!・境界 におけるデータ転送を維持するために、マスキング過程が使用される。バイト境 界への丸めは水平方向においてだけ行われるので、最も左及び最も右の画素だけ が影響を受け、その結果これらの画素だけが「マスクコされる必要のある唯一の 画素である。ビットマツプ式ビデオ画像は二進の画素(黒=1、白二〇)で構成 されている。それゆえ、画素をマスクしてしまうためには二進110(白)はマ スク区域における現存する(黒)画素に取って代わらなければならない。
マスクされるべき最も左の画素はXオフセット38を最も近いバイトに丸めたと きの「残り」によって決定される。前の例におけるように、Xオフセット38が 最初34であり且つ最も近いバイト境界が32であった場合には、残りは2であ った。従って、すべての最も左のバイトのうちの最初の二つの画素57は図6に 図解されたようにマスキングを必要とするであろう。
マスクされるべき最も右の画素はバイト境界幅から最初の幅及び「残り」を減算 することによって決定される。もう一度前の例を持ち出すと、これは24−16 −2=6になるであろう。この場合には、すべての最も右のバイトのうちの最後 の6画素58は図6に図解されたようにマスキングを必要とするであろう。
マスキング過程自体は論理的rANDJ機能である。マスキングを必要とする画 素場所が論理値「0」を含み且つ他のすべての画素場所が論理値「1コを含んで いる場合には「マスクバイト」が存在する。例に言及すると、最も左のバイトは 最初の2画素57についてマスキングを必要とする。結果として生じる左の「マ スクバイト」は0011 1111 (3F Hew、すなわち十進数63)に なるであろう。最も右のバイトは最後の6画素58についてマスキングを必要と する。結果として生じる右の「マスクバイト」59は1100 0000 (C 0Hex、すなわち十進数192)になるであろう。rANDJ演算がマスクバ イト59とビデオデータ61との間で行われて、マスクされたビデオバイト63 が形成される。この方法で、望まれない最も左及び最も右の画素は白であること が保証され、これは近隣文字の一部分があることよりも1謔るかに好まし、い。
図7は最後のビデオバイト61の1100 1100 (最も右のバイト)が最 も右のマスキング過程後5つの1100 0000とANDされてマスクされた ビデオバイト63の1100 0000を形成することを示している。注意され るべきことであるが、原初ビデオデータは近隣の文字rNJからの若干の黒(論 理値「1」)情報を含んでいた。それゆえ、マスキング過程はこれらの画素を論 理値「0」 (白)で置き換えることによってこの望まれない情報を消去又は除 去したことが理解される。
図8はマスキング過程後の最終の文字ビデオ画像を図解している。ビデオ画像1 8はバイト境界にとどまっているが、近隣の文字情報はマスキング過程によって 「空白」にされている。拒絶/再入力過程中に使用されるのはこの最終ビデオ画 像(図8)である。
マスキング機能の完了時に、不確定又は認識不可能な文字を含むビットマツプビ デオ画像は拒絶/再入カシステム36に送られて、そのフィールドに認められる ASCII情報と組み合わされる。ビデオ拒絶/再入カシステム36はスクリー ンに表示されたASCII文字のストリングと共に不確定文字の代わりにビット マツプビデオ画像を表示する(図2)。実際、文字が存在したであろう場所を置 き換えると文字が首尾よく認識された。この方法で、操作員はビットマツプビデ オ画像をそのフィールドの文脈の中で観察することが可能になり、キーボード5 4により正しい文字をタイプすることが可能になる。キーボード54により正し い文字をタイプすると、現在補正された文字のAS11表現がビットマツプビデ オ画像に取って代わり、従ってデータ線におけるすべての文字は現在ASC[文 字である。この拒絶/再入力過程はOCR過程の結果として見つけられたすべて の不確定又は認識不可能な文字について類似の方法で継続する。スクリーンは他 のフィールド24からの新しいASCTTデータ線で更新されて、Wp!、識不 可能な文字の代わりにASCI I文字のストリングに埋め込まれたビットマツ プビデオ画像は操作員がキーボード54により正しい文字を迅速且つ正確に挿べ することを可能にする。
流れ図ビデオ抽出及びマスキング機能 図9はビデオ抽出及びマスキング井ブンステムに対する流れ図を示している。
光字成文7認′:a30は段階(ステ・Iブ〕60において情報、例えば百類の フィールド24から認識される文字、及び不確定又は認識不可能な文字に対する パラメータを発生する。段階62において、OCR情報は読み取られ、段階64 においてパーザ(!1f文解析器)に送られる。パーザは段階60において0C R30により発生されたデータを調べて、制御文字を従えた「?」の組合せを捜 すことによって不確定文字情報から、首尾よく読み取られたASCIIデータを 分離する([?Jがlj類から読み取られた実際のデータであった場合には印刷 可能な「?」と共に非印刷可能な制御文字が使用される)。各到来バイトは順に 解析される。
すべての首尾よく認識さ第1たASCIt情報は段階66に従って拒絶/再入力 36に1宵接送られる。、しかしながら、段階66においてパーザが制御文字に 遭遇り、 ?−ならば、次の16バイトは認識不可能な文字に対する場所パラメ ータ(それぞれ、1バイトのXオフセ・、 ト38、)”オフセ・Iト40、幅 42及び高さ44)を収容しているころがわかる。
これらの場所パラメータは段階68において不確定文字に対するバイト境界を1 算するために使用される。、#4所パラメータは画素境界を用いて文字の場所を 確認するので、ビデオRA M 2 Rはデータがバイト方式で読み取られるこ 七を必要、、!ニーrjる。この形態は最も近いバイト境界が文字全体を含むよ うに計算されることを必要上する(可能な無関係のマーキングが丸めのために含 まれている)。無関係の情報を除去するために、段階70は最も左及び最も右の バイトに対するマスクバイトを計算する。実際には、それは不確定文字全体が含 まれることを保証するために含まれなければならなかったバイトの望まれない部 分である。
」ユの2f算が完了されると、段階72は読取り過程が始まるビデオの最初のバ イト(図4における左上隅50)を読み取るために設定されるへきポインタを準 備する。段階7・1におい−C、ポインタが最初左]−隅に対して設定されてO CRビデオRAM28 (図3)からビデオのバイトが読み取られる。特定のバ イトが「最も左の」バイトであると決定されたならば(OCRRAMから読み取 られた最初のバイトは常に最も左のバイトである)、段階78において決定が行 われて、このバイトが段階78において命令に従って(前に計算された)左マス キングバイトとrANDJされる。段階76においてそれが最も左のバイトでな いことがわかったならば、それは段階80において最も右のバイトであることに ついて検査され、これの場合にはこのバイトは段階82に従って右マスキングバ イトとrANDJされる。バイトが線(ライン)の中心に配置されているならば 、ビデオはマスキングなしで送られる。すべての場合において、どの経路が取ら れたとしても、ビデオは段階84により左から右へ拒絶/′再入カシステムに順 次送られる。各バイトが送られると、段階86においてそれが線の終わりである か否かについて決定が行われ、否であればポインタが段階88において次のバイ トに増分される。これは線の終わりに到達するまで行われ、段階90に移動して 、ここで線の終わりに遭遇したときが決定される。最後の線でないならば、ポイ ンタは段階92において次の線を開始するために更新され、そして過程は次の線 において左から右へ継続する。ビデオの線は最後の線が段階90で完了されるま でこの方法で処理される。この完了の時点で、付加的なOCR結果は処理される 準備かで図10は拒絶/再入カンステムに対する流れ図を示している。ASCI Iデータは箱形(ボックス)100におけるOCR処理装置から受信される。ビ デオ情報も又箱形102におけるビデオ抽出及びマスキングサブシステムから受 信される。この受信情報は段階104において述べられたようにディスク駆動装 置又は他の記憶媒体に記憶される。この方法で、拒絶7′再入力過程はデータ捕 獲と同時に行われる必要はない。情報は操作員が拒絶/再入力過程を行う準備が できるまでディスクに記憶される。拒絶/再入力過程が開始されると、不確定文 字を含んだフィールドが段階106においてディスク記憶装置から読み取られる 。検索された情報はASCII形式におけるすべての首尾よく認識された文字を 含んでおり、そしてビットマツプ式ビデオ画像が不確定文字のために挿入される 。段階108において、ASCIIデータストリング内の「?」又は他の標識が 特定のフィールド中に配置される。ASCII文字は段階110においてスクリ ーン1、に表示される。段階112において、「?」の場合に対するX及びY座 標か計算される。これらのま1算は段階114においてビットマツプ式ビデオ画 像で「9」をオーバライドするために使用される。
段階116において、操作員は近隣の原文どおりのASCII文字ストリング七 共に不確定文字を描いたビットマツプ式画像を観察して、キーボードにより正( 7い文字をタイプする。操作員によってタイプされた文字は段階118によりビ ットマツプビデオ画像に取って代わる。段階120によりASCIIファイノ1 は更新されて正しいデータが以前の未認識文字に取って代わる。段階122はデ ータの完成線が「7−クステーシヨンのスクリーン上でスクロールされる結果に なり、そして段階124に従って不確定又は未認識の文字を含んだ次のフィール ドが考察のために所定の位置へ持ってこられる。
利点及び産業上の適用性 この発明は画像管理システムにおいて、更に詳細にはより労働集約的である手動 データ入力とは対照的に自動的に検索情報を入力するために光学式文字認識(O CR)を利用するシステムにおいて有効である。首尾よく識別されたAS]I文 字のストリングにおいて未認識文字を置き換えるために埋込ビットマツプ式ビデ オ画像を使用するとデータ記憶及び伝送の要件が最小化され且つスクリーン更新 速度が最大化される。このようなシステムはより低い原価、より高い効率の拒絶 /再入カシステムを生じる結果になる。
FIG、 1 −と FIG、 4b ビデオ#出只び7スキシデー、Xわ凹 1旦−色/再入カー流407 国際調査報告 DrT/、K Qnln7Q2n+++++1++++++++ + PCT/LIS 90102920国際調査報告

Claims (26)

    【特許請求の範囲】
  1. 1.書類が直列の流れにおいて供給される経路を備えた移送システム、前記の各 書類と関連したデータをそれから読み取るために前記の書類が前記の経路に沿っ て供給されるときに前記の書類との動作関係において前記の経路に沿って配置さ れた読取り装置、 前記の各書類から読み取られた符号化文字が所定の基準に対して完全であるか又 は不完全であるかを決定し且つ符号化文字に関する対応する完全及び不完全信号 を発生するための装置を更に備えている前記の読取り装置、前記の書類から読み 取られたデータを記憶するための且つ又前記の読み取られたデータを完全又は不 完全なものとして識別することを可能にするための記憶装置、 読み取られた書類の少なくとも一部分を記憶するための記憶装置を備えた再入力 装置、 その線分に認識不可能な文字を含んでいる書類の線分を表示するための表示装置 、 識別不可能な文字のビットマップ画像を抽出し且つこのビットマップ画像を正し く読み取られた文字の線における認識不可能な文字の代わりに挿入するためのピ デオ抽出装置、及び 正しい文字を前記の記憶装置へ入力するための装置、によって特徴づけられてい る、符号化された文字を備えた書類を処理するための書類取扱いシステム。
  2. 2.符号化された文字を備えた書類を処理するための書類取扱いシステムであっ て、 前記のシステムを通って前記の書類を直列に移送するための移送装置、各書類が 前記のシステムを通って移動するときに各書類を線ごとに走査して各書類上の符 号化された文字を読み取るために前記の移送装置に近接して配置された走査装置 、 前記の走査装置に応答して、認識不可能な文字に遭遇したときに信号を発生する ことのできる装置、 認識不可能な文字の両側における正しく読み取られた文字の線分を書類から表示 するための表示装置、 認識不可能な文字のビットマップ画像を抽出し且つ前記の表示された線分間の前 記の画像を表示するためのピデオ抽出装置、及び操作員が前記の認識不可能な文 字を適当に識別した後に正しい文字を前記の走査されたデータヘ入力することを 可能にするためのデータ入力装置、によって特徴づけられている前記の書類取扱 いシステム。
  3. 3.各書類を線ごと且つ画素ごとに走査するための走査装置、前記の書類上のあ る所定のフィールドを読み取るためのフィールド抽出装置、前記の走査されたデ ータを記憶するための記憶装置、前記のフィールドにおける前記の走査データを 読取り可能な文字の線へ変換し且つこの線内の前記の認識不可能な文字の位置を 同定するための光学式文字処理装置、 前記の光学式文字処理装置に応答して、認識不可能な文字が検出されたときに前 記の抽出装置が前記の記憶装置から前記の認識不可能な文字のビットマップ式画 像を検索するようにするピデオ抽出装置、前記の線に適当に配置された前記の認 識不可能な文字のビットマップ式画像と共に前記の線の読取り可能な文字を表示 するためのピデオ再入力装置、及び観察後正しい文字を前記の記憶装置へ入力す るための装置、によって特徴づけられている、符号化された文字を備えた書類を 処理するための書類取扱いシステム。
  4. 4.前記のピデオ抽出装置が又前記の書類における認識不可能な文字の座標を検 索する、請求項3に記載の書類取扱いシステム。
  5. 5.前記のピデオ抽出装置が更に、前記の認識不可能な文字と関連のないビット マップ式画像における任意の標識をマスクするためのマスキング装置を備えてい る、請求項4に記載の書類取扱いシステム。
  6. 6.前記のピデオ再入力装置が更に、後程の時点における補正のために読取り可 能な文字の線及びこの線に配置された前記の認識不可能な文字のビットマップ式 画像を記憶するための記憶装置によって特徴づけられている、請求項4に記載の 書類取扱いシステム。
  7. 7.前記のピデオ再入力装置が前記の読取り可能な文字をASCII書式で表示 する、請求項4に記載の書類取扱いシステム。
  8. 8.前記のフィールド抽出装置が更に、読取りのための特定のフィールドの場所 を同定するマイクロコンピュータ装置によって特徴づけられている、請求項3に 記載の書類取扱いシステム。
  9. 9.前記のマスキング装置がビットマップ式画像における最も左及び最も右の群 の画素だけをマスクする、請求項5に記載の書類取扱いシステム。
  10. 10.座標が、前記の認識不可能な文字の書類におけるXオフセット及びYオフ セット並びに認識不可能な文字を取り囲む最小の方形の高さ及び幅を含んでいる 、請求項4に記載の書類取扱いシステム。
  11. 11.Xオフセットが次の最小のバイト境界に丸められ且つバイト境界の大きさ がXオフセットから減算されて、その結果が残りとして記憶されるような、請求 項10に記載の書類取扱いシステム。
  12. 12.残りが幅に加えられ且つその結果が次の高い方のバイト境界に丸められて バイト境界幅が得られるような、請求項11に記載の書類取扱いシステム。
  13. 13.Yオフセット及び高さが画素境界にとどまる、請求項12に記載の書類取 扱いシステム。
  14. 14.直列の流れにおいて経路に沿って書類を移動する段階、前記の移動中に前 記の書類からデータを読み取る段階、読み取られたデータを解釈してこのデータ を読取り可能な文字に変換する段階、それより下では文字が認識不可能と考えら れる確実性のしきい値レベルを確立する段階、 前記の読取り可能な文字をこれが書類に現れるときの線において表示する段階、 各認識下可能な文字のビットマップ式画像を発生する段階、前記のビットマップ 式画像を前記の認識不可能な文字の代わりに表示装置において両側における読取 り可能な文字の線の中に挿入する段階、前記のビットマップ式面像を前記の読取 り可能な文字との文脈において観察した後に正しい文字を入力する段階、 によって特徴づけられている書類再入力システムにおいて符号化文字を備えた書 類を処理する方法。
  15. 15.直列の流れにおいて経路に沿って書類を移動する段階、前記の移動中に前 記の書類からデータを読み取る段階、光学式文字認識技術を用いて処理を行うた めに前記の書類におけるあるフィールドを識別する段階、 前記のフィールドから読み取られたデータを記憶装置に記憶する段階、前記のフ ィールドから読み取られた符号化文字が所定の基準に対して正しく読み取られた か又は認識不可能と考えられたかを決定し且つ前記の認識不可能な文字の線内に おける位置を示す信号を発生する段階、標準化された線を用いて書類から読取り 可能な文字の線を表示する段階、認識不可能な文字のビットマップ式画像の書類 上の座標を前記の記憶装置から抽出する段階、 前記のビットマップ式画像を前記の認識不可能な文字の代わりに正しく読み取ら れた文字の線に挿入する段階、及び 観察後正しい文字を入力する段階、 によって特徴づけられている書類再入力システムにおいて符号化文字を備えた書 類を処理する方法。
  16. 16.各書類を線ごと且つ画素ごとに走査する段階、光学式文字認識技術を用い て処理を行うために前記の書類におけるあるフィールドを識別する段階、 前記のフィールドからの走査データを記憶する段階、前記のフィールドから読み 取られた符号化文字が所定の基準に対して正しく読み取られたか又は認識不可能 と考えられたときを決定し且つ認識不可能な文字を持った線内の位置を示す信号 を発生する段階、前記の認識不可能な文字のそれぞれのビットマップ画像の前記 の書類における座標を前記の記憶装置から抽出する段階、正しく読み取られた文 字の線をこの線が少なくとも一つの認識不可能な文字を含むものとして指示され たときに表示する段階、及び前記のビットマップ式画像を正しく読み取られた文 字の前記の線における前記の認識不可能な文字のそれぞれの位置に挿入し、これ により近隣の正しく読み取られた文字との文脈において認識不可能な文字を表示 する段階、によって特徴づけられている書類再入力システムにおいて符号化文字 を備えた書類を処理する方法。
  17. 17.前記の抽出段階が前記の認識不可能な文字の前記の書類におけるYオフセ ット及びXオフセット並びに前記の認識不可能な文字を取り囲むことのできる最 小の方形の高さ及び幅を得ることを含んでいる、請求項16に記載の書類を処理 する方法。
  18. 18.前記の抽出段階が更に、認識不可能な文字と関連のないビットマップ式画 像における任意の標識をマスクするマスキング段階を含んでいる、請求項17に 記載の書類を処理する方法。
  19. 19.読取り可能な文字の線、及び前記の認識不可能な文字のそれぞれのビット マップ式画像を後程の時点での表示及び補正のために記憶するための記憶段階を 更に含んでいる、請求項16に記載の書類を処理する方法。
  20. 20.前記の表示段階が正しく読み取られた文字の線を標準フォントを用いて表 示する、請求項16に記載の書類を処理する方法。
  21. 21.前記の表示段階が正しく読み取られた文字の線をASCII書式において 表示する、請求項20に記載の書類を処理する方法。
  22. 22.前記のマスキング段階がビットマップ式画像の最も左及び最も右の群の画 素だけをマスクする、請求項18に記載の書類を処理する方法。
  23. 23.前記のマスキング段階が更に、Xオフセットを次の最小のバイト境界に丸 めて、次にXオフセットから前記のバイト境界の大きさを減算し、その結果を残 りとして記憶することを含んでいる、請求項22に記載の書類を処理する方法。
  24. 24.前記のマスキング段階が更に、前記の残りを前記の幅に加え、その結果を 次の高い方のバイト境界に丸めてバイト境界幅を得ることを含んでいる、請求項 23に記載の書類を処理する方法。
  25. 25.前記のマスキング段階が更に、マスキングを必要とするすべての場所にお いて論理値「0」を且つマスキングバイトにおける他の場所において論理値「1 」を含んでいるマスキングバイトの使用を含んでいる、請求項24に記載の書類 を処理する方法。
  26. 26.前記のマスキング段階が更に、ビデオデータ及びマスキングバイトについ て論理的AND演算を行ってマスクされたビデオバイトを形成することを含んで いる、請求項25に記載の書類を処理する方法。
JP2509293A 1989-06-02 1990-05-30 光学式文字認識装置における認識不可能な文字を識別するための方法及び装置 Pending JPH04500422A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US07/360,565 US4974260A (en) 1989-06-02 1989-06-02 Apparatus for identifying and correcting unrecognizable characters in optical character recognition machines
US360,967 1989-06-02
US07/360,967 US4914709A (en) 1989-06-02 1989-06-02 Method for identifying unrecognizable characters in optical character recognition machines
US360,565 1989-06-02

Publications (1)

Publication Number Publication Date
JPH04500422A true JPH04500422A (ja) 1992-01-23

Family

ID=27000950

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2509293A Pending JPH04500422A (ja) 1989-06-02 1990-05-30 光学式文字認識装置における認識不可能な文字を識別するための方法及び装置

Country Status (3)

Country Link
EP (1) EP0428713A1 (ja)
JP (1) JPH04500422A (ja)
WO (1) WO1990015398A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5555325A (en) * 1993-10-22 1996-09-10 Lockheed Martin Federal Systems, Inc. Data capture variable priority method and system for managing varying processing capacities
EP0790573B1 (en) * 1995-07-31 2007-05-09 Fujitsu Limited Document processor and document processing method

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5878267A (ja) * 1981-11-04 1983-05-11 Toshiba Corp 文字切出方式
JPS60245088A (ja) * 1984-05-18 1985-12-04 Ricoh Co Ltd 文字認識修正方式
JPS62113287A (ja) * 1985-11-12 1987-05-25 Oki Electric Ind Co Ltd 光学式文字読取装置
JPS63316189A (ja) * 1987-06-18 1988-12-23 Matsushita Graphic Commun Syst Inc 光学式文字認識装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3903517A (en) * 1974-02-26 1975-09-02 Cummins Allison Corp Dual density display
DE3236100C1 (de) * 1982-09-29 1984-01-05 Computer Gesellschaft Konstanz Mbh, 7750 Konstanz Belegverarbeitungseinrichtung
GB2149171B (en) * 1983-10-28 1988-06-08 Unisys Corp Character reading system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5878267A (ja) * 1981-11-04 1983-05-11 Toshiba Corp 文字切出方式
JPS60245088A (ja) * 1984-05-18 1985-12-04 Ricoh Co Ltd 文字認識修正方式
JPS62113287A (ja) * 1985-11-12 1987-05-25 Oki Electric Ind Co Ltd 光学式文字読取装置
JPS63316189A (ja) * 1987-06-18 1988-12-23 Matsushita Graphic Commun Syst Inc 光学式文字認識装置

Also Published As

Publication number Publication date
WO1990015398A1 (en) 1990-12-13
EP0428713A1 (en) 1991-05-29

Similar Documents

Publication Publication Date Title
US4914709A (en) Method for identifying unrecognizable characters in optical character recognition machines
US4974260A (en) Apparatus for identifying and correcting unrecognizable characters in optical character recognition machines
EP0439951B1 (en) Data processing
US5708766A (en) Filing device
JPH05282488A (ja) 文書画像の復号なしに文書の意味的に重要な部分の自動変更のための方法
JPS63155386A (ja) 帳票デ−タ読取装置
JPH1011531A (ja) 帳票読取装置
JPH04195692A (ja) 文書読取装置
JPH04500422A (ja) 光学式文字認識装置における認識不可能な文字を識別するための方法及び装置
US20010016068A1 (en) Electronic document generating apparatus, electronic document generating method, and program thereof
US7142733B1 (en) Document processing method, recording medium recording document processing program and document processing device
JP3573945B2 (ja) フォーマット認識装置及び文字読み取り装置
JPH02255964A (ja) 文書変更部分の自動識別装置
KR950001061B1 (ko) 문서인식 수정장치
JP3083171B2 (ja) 文字認識装置及び方法
JP3014123U (ja) 文字認識装置
JPH0816719A (ja) 文字切り出し方法とこれを用いた文字認識方法及び装置
JP2570571B2 (ja) 光学文字読取装置
JP2887823B2 (ja) 文書認識装置
JPH04293185A (ja) ファイリング装置
JPH0554178A (ja) 文字認識装置及び修正用帳票
JPS6327990A (ja) 文字認識方法
JPH0589279A (ja) 文字認識装置
JP3077580B2 (ja) 文字読取装置
JP2890788B2 (ja) 文書認識装置