JPH11102413A - Pop-up correction method for optical character recognition output and device thereof - Google Patents

Pop-up correction method for optical character recognition output and device thereof

Info

Publication number
JPH11102413A
JPH11102413A JP10110884A JP11088498A JPH11102413A JP H11102413 A JPH11102413 A JP H11102413A JP 10110884 A JP10110884 A JP 10110884A JP 11088498 A JP11088498 A JP 11088498A JP H11102413 A JPH11102413 A JP H11102413A
Authority
JP
Japan
Prior art keywords
text
document
word
pop
optical character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10110884A
Other languages
Japanese (ja)
Inventor
L Horowitz Michael
エル.ホロビッツ マイケル
J Mcnaney Michael
ジェイ.マキナニー マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KURARITEC CORP
Original Assignee
KURARITEC CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KURARITEC CORP filed Critical KURARITEC CORP
Publication of JPH11102413A publication Critical patent/JPH11102413A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

PROBLEM TO BE SOLVED: To attain comparison for a text, together with its optical character recognition interpretation by recognizing the characters from a document image to decide areas corresponding to a word of a document text and displaying the part of the document image, after securing the relation between the decided area and the corresponding word of the document text based on a correlation table. SOLUTION: The image of a certain document is generated by a scanner device 126, and an optical character recognizer 128 recognizes the characters included in the document image for generating a document text. A processor 112 decides an area for the document image, corresponding to a word of the document text, secures a relation between the decided area of the document image and the word corresponding to the document text, based on a correlation table and shows the document image part on the document text via a display device 120. Then it is preferably to display the area of the document image corresponding to the word of the document text and/or the corresponding word of the document text, so as to show each recognition likelihood parameter.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、光学式文字認識技
術に関し、特に光学式文字認識出力を表示するとともに
その誤りを訂正するための方法および装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to optical character recognition technology, and more particularly, to a method and apparatus for displaying an optical character recognition output and correcting an error thereof.

【0002】[0002]

【従来の技術】紙の書類からテキストおよびグラフィッ
クを取得することは、多くの産業にとって重大な問題で
ある。例えば出版会社は年間を通じて何百または何千の
学術論文を印刷するかもしれない。しばしば出版会社は
紙の文書から作業を始め、その紙の文書は出版会社のコ
ンピュータ装置に入力されなければならない。従来の一
手法は、紙の文書を読んでその文書をコンピュータシス
テムにタイプ入力するために、キーボード入力者を雇う
というものである。しかしながら文書を入力することは
時間を浪費し、かつコストも高い。
BACKGROUND OF THE INVENTION Obtaining text and graphics from paper documents is a significant problem for many industries. For example, a publisher may print hundreds or thousands of scholarly articles throughout the year. Often a publisher starts with a paper document that must be entered into the publisher's computing device. One conventional approach is to employ a keyboard enthusiast to read a paper document and type the document into a computer system. However, entering a document is time consuming and costly.

【0003】光学式文字認識(以下、OCRとする)
は、出版産業およびその他の産業にとって有益であるこ
とを保証する技術である。その理由は、OCR装置の入
力処理速度はキーボード入力者の入力速度をはるかに上
回っているからである。従って出版会社の従業員は、し
ばしば読取り走査された文書から作業を始める。その文
書はOCR装置によってコンピュータの読込み可能なテ
キストフォーマット、例えばASCIIに変換されてい
る。しかしながら最近のOCR装置でもって可能な高い
認識率(しばしば95%を越える)ですら、高い正確度
を必要とする出版産業のような産業にとっては十分でな
い。従って出版会社はしばしば校正係の人を雇い、手作
業でOCR出力の修正を行う。
[0003] Optical character recognition (hereinafter referred to as OCR)
Is a technology that guarantees benefits to the publishing and other industries. The reason is that the input processing speed of the OCR device is much higher than the input speed of the keyboard input person. Thus, publisher employees often begin work with scanned documents. The document has been converted by the OCR device into a computer readable text format, for example, ASCII. However, even the high recognition rates possible with modern OCR devices (often above 95%) are not sufficient for industries such as the publishing industry that require high accuracy. Thus, publishers often employ proofreaders to manually modify OCR output.

【0004】[0004]

【発明が解決しようとする課題】しかしながらOCR出
力を手作業で校正することは、非常に時間を浪費し、ま
た人が行うのは困難である。校正係の人は、元の紙の文
書とOCR出力の印刷またはスクリーン表示とを見比べ
てそれらを一語一語比較しなければならない。たとえ認
識率が高くても、人がOCR出力の校正を行うと一人よ
がりになって誤りを見落としがちである。
However, manually calibrating the OCR output is very time consuming and difficult for humans to perform. The proofreader must compare the original paper document with the printed or screen display of the OCR output and compare them word by word. Even if the recognition rate is high, when a person calibrates the OCR output, one person tends to miss and miss an error.

【0005】別の従来の選択は、結果として生じたコン
ピュータの読込み可能なテキストのスペルチェックを行
うことである。しかしながらスペルの間違った語すべて
を認識するというわけではない。加えて、入力された語
は非常に曲解されているかもしれないので、校正係はス
ペルチェックを行っている間中ずっと紙のテキストに戻
って参照しなければならない。一旦校正をする人は紙の
テキストを見て正しい語を決め、それからその正しい語
をOCR出力のテキストにキーをたたいて入力する。こ
の手法は時間を浪費し、またやや間違いがちであること
が分かっているので、校正する人が、OCRの解釈を生
成するのに使用された元の文書を参照する必要がなく、
校正をする人が、文書イメージを表すテキストをそのテ
キストのOCR解釈と一緒に比較することができるのは
有用であろう。
Another conventional option is to spell check the resulting computer readable text. However, it does not recognize all misspelled words. In addition, the entered words may be very distorted, so the proofreader must refer back to the paper text throughout the entire spell check. Once the proofreader looks at the text on the paper, he determines the correct word, and then taps the correct word into the OCR output text. This technique is time consuming and has proven to be somewhat error prone, so the proofreader does not need to refer to the original document used to generate the OCR interpretation,
It would be useful for a proofreader to be able to compare text representing a document image along with the OCR interpretation of that text.

【0006】文書イメージをそのテキストのOCR解釈
と一緒に見ることは、出版社が紙の形態ではなくASC
IIテキストの形態でOCR出力を再版して販売しよう
とする場合に特に有用である。出版社が電子形態でOC
R出力を再販売する目的のためにそのOCR出力を得る
とき、そのOCR出力が正しい語を含むだけでなく、後
にOCR出力がコンピュータのモニタに表示される際
に、OCR出力の形態が文書イメージの形態と同じまま
であるという付加的な関係がある。校正する人が編集段
階中にOCR出力と文書イメージを並べて比較すること
ができるということは、この目的をかなり促進する。
[0006] Viewing a document image along with its OCR interpretation of the text requires that publishers use ASC rather than paper form.
It is particularly useful when trying to reprint and sell OCR output in the form of II text. Publisher OC in electronic form
When obtaining the OCR output for the purpose of reselling the R output, not only does the OCR output contain the correct word, but also the form of the OCR output changes when the OCR output is later displayed on a computer monitor. There is an additional relationship that the form remains the same. The ability of the proofreader to compare the OCR output and the document image side-by-side during the editing phase greatly facilitates this purpose.

【0007】本発明の目的は、ユーザが文書イメージか
らなるテキストをそのテキストのOCR解釈と一緒に比
較することができるようにすることにある。
It is an object of the present invention to enable a user to compare text consisting of a document image along with an OCR interpretation of the text.

【0008】本発明の他の目的は、OCR解釈を生成す
るのに使用された元の文書をユーザが参照する必要がな
く、ユーザが文書イメージで表されたテキストをそのテ
キストのOCR解釈と一緒に比較することができるよう
にすることである。
Another object of the present invention is to eliminate the need for the user to reference the original document used to generate the OCR interpretation, and to allow the user to combine the text represented by the document image with the OCR interpretation of that text. Is to be able to compare.

【0009】本発明のさらに他の目的は、元のテキスト
をOCR出力のテキストに変換している間に起こった間
違いを正すために、ユーザが文書イメージで表されたテ
キストをそのテキストのOCR解釈と比較することがで
きるようにすることである。
It is yet another object of the present invention to provide a method for a user to convert text represented in a document image to an OCR interpretation of the text in order to correct errors made during the conversion of the original text to text in the OCR output. Is to be able to compare.

【0010】[0010]

【課題を解決するための手段】人がOCR出力を校正す
ることを容易に行えるようにする必要がある。この必要
性を満たすため、元の紙の文書から得られた文書イメー
ジの文字は、文書テキストを生成するために(例えばO
CRを介して)認識される。文書テキストの領域に対応
する文書イメージの領域が決定され、そして認識確度パ
ラメータが各領域に対して決定される。ユーザは、語の
上にカーソルを位置させることによって文書テキストか
らその語を選択することができる。ユーザがマウスの一
方のボタンをクリックする(押す)か、あるいは同様な
ファンクションキーを押すと、選択された語に対応する
文書イメージ部分がポップアップウィンドウとして現れ
る。ユーザがマウスの別のボタンをクリックするか、あ
るいは別の同様なファンクションキーを押すと、対応す
るOCR出力に対するポップアップメニューが表示され
る。
SUMMARY OF THE INVENTION There is a need to facilitate human calibration of OCR output. To meet this need, the characters of the document image obtained from the original paper document are used to generate the document text (eg, O
(Via CR). A region of the document image corresponding to the region of the document text is determined, and a recognition accuracy parameter is determined for each region. The user can select the word from the document text by positioning the cursor over the word. When the user clicks (presses) one button of the mouse or presses a similar function key, the portion of the document image corresponding to the selected word appears as a pop-up window. If the user clicks another mouse button or presses another similar function key, a pop-up menu for the corresponding OCR output is displayed.

【0011】特に文書テキスト上に文書イメージ部分を
表示するためにコンピュータで実施される本方法は、あ
る文書の文書イメージを生成する工程、文書テキストを
生成するために文書イメージから文字を認識する工程、
文書テキストの語に対応する文書イメージの領域を決め
る工程、文書イメージの領域と文書テキストの対応する
語とを相関テーブルを用いて互いに関連させる工程、お
よび文書テキスト上に文書イメージ部分を表示する工程
を組み合わせたものである。それから文書テキストの選
択されたテキストは誤りを正される。
In particular, a computer-implemented method for displaying a document image portion on document text includes the steps of generating a document image of a document, recognizing characters from the document image to generate the document text. ,
Determining a region of the document image corresponding to the word of the document text, associating the region of the document image with the corresponding word of the document text using a correlation table, and displaying a document image portion on the document text Are combined. The selected text of the document text is then corrected.

【0012】本発明のこれらおよび他の見解および利点
は、以下の説明、図面および特許請求の範囲の記載を参
照することにより理解されるようになるであろう。
[0012] These and other aspects and advantages of the present invention will become apparent with reference to the following description, drawings, and claims.

【0013】[0013]

【発明の実施の形態】以下に図面を参照しながら本発明
に係る光学式文字認識出力のポップアップ訂正のための
方法および装置を詳細に説明するが、図面においては同
様の構成要素には同様の符号を付している。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, a method and apparatus for pop-up correction of an optical character recognition output according to the present invention will be described in detail with reference to the drawings. Signs are attached.

【0014】〔1.ハードウェアの概略〕図1は、本発
明の一例が実施され得るコンピュータシステム100の
ブロック図である。コンピュータシステム100は、情
報を伝達するためにバス110または他の伝達手段を備
えており、また情報を処理するためにプロセッサ112
がバス110に接続されている。さらにコンピュータシ
ステム100はランダムアクセスメモリ(RAM)また
は他のダイナミック記憶装置114(メインメモリとし
て示されている)を備えており、そのメインメモリ11
4は、情報およびプロセッサ112によって実行される
べき命令を記憶するためにバス110に接続されてい
る。またメインメモリ114は、プロセッサ112が命
令を実行している間、一時的な変数や他の中間的な情報
を記憶するのにも使用されてもよい。またコンピュータ
システム100は読出し専用メモリ(ROM)および他
のスタティック記憶装置116の一方または両方を備え
ており、それらはバス110に接続されていて、静的な
情報およびプロセッサ112に対する命令を記憶する。
データ記憶装置118は、例えば磁気ディスクや光ディ
スクおよびそれに相当するディスクのドライブであり、
情報および命令を記憶するためにバス110に接続され
得る。
[1. FIG. 1 is a block diagram of a computer system 100 on which an example of the present invention can be implemented. Computer system 100 includes a bus 110 or other communication means for communicating information, and a processor 112 for processing information.
Are connected to the bus 110. The computer system 100 further includes a random access memory (RAM) or other dynamic storage device 114 (shown as main memory),
4 is connected to a bus 110 for storing information and instructions to be executed by the processor 112. Main memory 114 may also be used to store temporary variables and other intermediate information while processor 112 is executing instructions. Computer system 100 also includes one or both of read-only memory (ROM) and other static storage devices 116, which are connected to bus 110 and store static information and instructions for processor 112.
The data storage device 118 is, for example, a drive for a magnetic disk or an optical disk and a disk corresponding thereto,
It may be connected to bus 110 for storing information and instructions.

【0015】またコンピュータシステム100には、バ
ス110を介して入出力装置が接続され得る。例えばコ
ンピュータシステム100は、コンピュータのユーザに
情報を表示するために、例えばブラウン管(CRT)の
ような表示装置120を用いる。さらにコンピュータシ
ステム100は、キーボード122および例えばマウス
のようなカーソル制御手段124を用いる。加えてコン
ピュータシステム100は、紙の文書をコンピュータの
読込み可能なフォーマットに変換するためのスキャナー
126を用いてもよい。さらにまたコンピュータシステ
ム100は、スキャナー126によって生成された文書
イメージ、またはメインメモリ114やデータ記憶装置
118に記憶された文書イメージにおける文字を認識す
るためにOCR装置128を用いることができる。ある
いはOCR装置128の機能は、メインメモリ114に
記憶された命令をプロセッサ112で実行することによ
って、ソフトウェアで実施され得る。さらに別に例で
は、スキャナー126とOCR装置128は、紙の文書
を走査してそこにある文字を認識するように設計された
単一の装置に組み合わせられ得る。
An input / output device can be connected to the computer system 100 via a bus 110. For example, the computer system 100 uses a display device 120, such as a cathode ray tube (CRT), to display information to a computer user. Further, the computer system 100 uses a keyboard 122 and cursor control means 124 such as a mouse. In addition, computer system 100 may use a scanner 126 to convert paper documents into a computer readable format. Furthermore, the computer system 100 can use the OCR device 128 to recognize characters in a document image generated by the scanner 126 or in a document image stored in the main memory 114 or the data storage device 118. Alternatively, the functions of OCR device 128 may be implemented in software by executing instructions stored in main memory 114 with processor 112. In yet another example, the scanner 126 and the OCR device 128 can be combined into a single device designed to scan a paper document and recognize the characters there.

【0016】本発明は、同一の表示装置120で元のテ
キストと出力されたテキストを見るためにコンピュータ
システム100を使用することに関する。一実施の形態
によれば、この仕事は、メインメモリ114に格納され
た一連の命令をプロセッサ112が実行することに応じ
てコンピュータシステム100によって遂行される。そ
のような命令は、例えばデータ記憶装置118のような
別のコンピュータ読込み可能媒体からメインメモリ11
4内に読み込まれてもよい。メインメモリ114内に格
納された一連の命令を実行することによって、プロセッ
サ112は後述する処理工程を遂行することとなる。別
の例では、本発明を実施するためにソフトウェアによる
命令に代えて、あるいはソフトウェアの命令とともにハ
ードワイヤード回路が用いられてもよい。従って、本発
明はハードウェア回路とソフトウェアとの如何なる特定
の組合わせにも制限されない。
The present invention relates to using the computer system 100 to view the original text and the output text on the same display device 120. According to one embodiment, this task is performed by computer system 100 in response to processor 112 executing a sequence of instructions stored in main memory 114. Such instructions may be stored in main memory 11 from another computer-readable medium, such as data storage device 118.
4 may be read. By executing a series of instructions stored in the main memory 114, the processor 112 performs the processing steps described later. In another example, hardwired circuitry may be used in place of, or in conjunction with, software instructions to implement the present invention. Accordingly, the present invention is not limited to any particular combination of hardware circuits and software.

【0017】〔2.合成文書アーキテクチャ〕合成文書
は、ある文書の多数の表現を有しており、その多数の表
現を論理的な全体として取り扱う。図2に示される合成
文書200は、例えばコンピュータシステム100のメ
インメモリ114やデータ記憶装置118のようなメモ
リに記憶されている。
[2. Synthetic Document Architecture] A synthetic document has many representations of a document, and treats the many representations as a logical whole. The composite document 200 shown in FIG. 2 is stored in a memory such as the main memory 114 or the data storage device 118 of the computer system 100, for example.

【0018】合成文書200は文書イメージ210を備
えており、そのイメージは文書の文書(例えばスキャナ
ー126から生成されたTIFFファイル)のビットマ
ップ表示である。例えばアメリカ合衆国憲法のコピー
は、文書イメージ210の形態でアメリカ合衆国憲法の
イメージを生成するために、スキャナー126によって
読取り走査されてもよい。
The composite document 200 includes a document image 210, which is a bitmap representation of a document of the document (eg, a TIFF file generated from the scanner 126). For example, a copy of the United States Constitution may be read and scanned by scanner 126 to produce an image of the United States Constitution in the form of a document image 210.

【0019】ビットマップ表示はピクセルの列であり、
モノクロ(例えば黒と白)または多色(例えば赤、青、
緑等)で表され得る。文書イメージ210の矩形領域の
位置は、例えば矩形の左上隅と右下隅を組み合わせるこ
とによって特定され得る。アメリカ合衆国憲法を読取り
走査する例では、前文の「form」という単語の最初の文
字(すなわち「f 」)は、左上が(16,110)の座
標で右下が(31,119)の座標の矩形内の文書イメ
ージ210に配置されてもよい。そして同じ単語の最後
の文字(すなわち「m 」)は、左上が(16,140)
の座標で右下が(31,149)の座標の矩形の文書イ
メージ210に配置され得る。
A bitmap representation is a row of pixels,
Monochrome (eg black and white) or multicolor (eg red, blue,
Green, etc.). The position of the rectangular area of the document image 210 can be specified, for example, by combining the upper left corner and the lower right corner of the rectangle. In the example of reading and scanning the United States Constitution, the first letter of the word “form” in the preceding sentence (ie, “f”) is a rectangle with coordinates (16,110) in the upper left and (31,119) in the lower right. May be arranged in the document image 210 in the inside. And the last character of the same word (ie, "m") is (16,140)
, And the lower right corner can be arranged in the rectangular document image 210 having the coordinates (31, 149).

【0020】また合成文書200は、文書テキスト22
0および相関テーブル230を備えており、それらは図
3のフローチャートに示す方法によって生成されてもよ
い。文書テキスト220は、符号化したASCII、E
BCDICまたはユニコード(Unicode )に文字を符号
化した一続きの8ビットまたは16ビットのバイトでで
きている。従って文書テキスト220内の文字は、文書
テキスト220内にオフセットにより配置され得る。前
記例では、相関テーブル230のオフセット欄に表され
るように、前文の「form」という単語の最初の文字はオ
フセット57で文書テキスト220内に配置されてもよ
く、また同じ単語の最後の文字はオフセット60で文書
テキスト220内に配置され得る。
The composite document 200 is composed of the document text 22
0 and a correlation table 230, which may be generated by the method shown in the flowchart of FIG. The document text 220 is encoded ASCII, E
It is made up of a series of 8-bit or 16-bit bytes that encode characters in BCDIC or Unicode. Thus, characters in the document text 220 may be located within the document text 220 by offset. In the above example, as represented in the offset column of the correlation table 230, the first letter of the word "form" in the preamble may be placed in the document text 220 at offset 57, and the last letter of the same word May be placed in the document text 220 at offset 60.

【0021】図3について説明すると、ステップS25
0で、文書イメージ210内の文字は、OCR装置12
8またはそれと同等のものによって認識され、ステップ
S252で、文書テキスト220を生成するために保存
される。またOCR装置128は、ステップS250に
おいて、認識される文字の文書イメージ210における
座標を出力するように設計されている。従って文書テキ
スト220内の分かっているオフセットにて認識された
文字は、文書イメージ210の領域に関連付けられ得
る。前文のイメージの上記例では、文書テキスト220
の「form」という単語の最初の文字(オフセット57に
配置される)は、座標(16,110)および(31,
119)によって定義される文書イメージ210領域に
関係づけられている。同様に文書テキスト220の「fo
rm」という単語の最後の文字(オフセット60に配置さ
れる)は、座標(16,140)および(31,14
9)によって定義される文書イメージ210領域に関係
づけられている。
Referring to FIG. 3, step S25 will be described.
0, the characters in the document image 210 are
8 or equivalent, and is saved to generate document text 220 in step S252. The OCR device 128 is designed to output the coordinates of the recognized character in the document image 210 in step S250. Thus, characters recognized at known offsets in the document text 220 may be associated with regions of the document image 210. In the above example of the preamble image, the document text 220
The first letter of the word "form" (located at offset 57) has coordinates (16, 110) and (31,
119) is associated with the document image 210 area. Similarly, “fo” of the document text 220
rm "(located at offset 60) are the coordinates (16,140) and (31,14).
9) is associated with the document image 210 area defined by the above.

【0022】ステップS254で、文書テキスト220
の単語は、例えば空白の間の文字を語として解釈するこ
とによって特定される。ステップS254で、これらの
語のそれぞれの文字に対応する文書イメージ210の領
域は、合併されて文書テキスト220のそれぞれの語に
対応するより大きな文書イメージ210領域になる。一
実施の形態では、文書イメージ210の領域は、文書テ
キスト220の個々の単語に対応する領域の座標のうち
最も左上の座標と最も右下の座標を有する矩形として特
定される。例えば文書テキスト220の「form」という
単語(オフセット57−60)に対応する文書イメージ
210の領域は、相関テーブル230の座標およびオフ
セットの欄に示されるように座標(16,110)およ
び(31,149)を有する矩形によって特定される。
あるいは特に種々のサイズの文字を有する文書に対して
は、文書テキスト220の各文字に対する座標リストお
よびそれらに対応する文書イメージ210領域は個々に
保存されてもよい。
In step S254, the document text 220
Is specified by, for example, interpreting characters between spaces as words. In step S254, the area of the document image 210 corresponding to each character of these words is merged into a larger document image 210 area corresponding to each word of the document text 220. In one embodiment, the area of the document image 210 is specified as a rectangle having the upper left and lower right coordinates of the area corresponding to the individual words of the document text 220. For example, the area of the document image 210 corresponding to the word "form" (offset 57-60) of the document text 220 has the coordinates (16, 110) and (31, 149).
Alternatively, especially for documents having characters of various sizes, the coordinate list for each character of the document text 220 and the corresponding document image 210 area may be stored individually.

【0023】加えてOCR装置128の幾つかの実施例
は、当該技術分野において周知のように、文書テキスト
220内の単語または句が間違ったOCR解釈を含んで
いる可能性を十分に考慮した認識確度パラメータを出力
するように設計されている。例えばあるフォントで、文
書イメージ210の文字「m 」はOCR装置128によ
って文字の結合体「rn」として認識されてもよい(例え
ばOCR装置はその語を「modern」として解釈すること
ができるので、OCR装置128は「modem 」という単
語に対して低い確度パラメータを出力してもよい)。そ
の結果、文字「m 」を含む語は、完全に唯一の特徴から
なる語よりも相対的に低い確度を割り当てられるようで
ある。上記前文の例では、「form」という単語は、当該
語の中に「m ]という文字があるため、55%の認識確
度パラメータを割り当てられてもよい。
In addition, some embodiments of the OCR device 128 may recognize, as is well known in the art, the possibility of words or phrases in the document text 220 containing incorrect OCR interpretations. It is designed to output accuracy parameters. For example, in a font, the character "m" in the document image 210 may be recognized by the OCR device 128 as a concatenation of characters "rn" (e.g., because the OCR device may interpret the word as "modern", OCR device 128 may output a low likelihood parameter for the word "modem"). As a result, words containing the letter "m" appear to be assigned a relatively lower probability than words consisting entirely of features. In the example of the above preamble, the word “form” may be assigned a recognition accuracy parameter of 55% because the word “m” is included in the word.

【0024】ステップS256で、文書テキスト220
に出現する各語についての情報は相関テーブル230に
保存され、そのため文書イメージ210の領域は文書テ
キスト220の語に関係づけられ得る。特に相関テーブ
ル230は、文書イメージ210における領域を特定す
る座標対232、文書テキスト220における単語を特
定するオフセット対234、およびその単語に対する認
識確度パラメータ236を格納する。上記例では、文書
テキスト220の「form」という単語は、(16,11
0)および(31,149)の座標対232と、57お
よび60のオフセット対234と、55%の認識確度パ
ラメータ236を有する。
In step S256, the document text 220
Are stored in the correlation table 230 so that regions of the document image 210 can be associated with words of the document text 220. In particular, the correlation table 230 stores a coordinate pair 232 specifying an area in the document image 210, an offset pair 234 specifying a word in the document text 220, and a recognition accuracy parameter 236 for the word. In the above example, the word “form” in the document text 220 is (16, 11
0) and (31,149) coordinate pairs 232, 57 and 60 offset pairs 234, and a 55% recognition accuracy parameter 236.

【0025】相関テーブル230を用いると、文書テキ
スト220における各オフセットは文書イメージ210
の領域に対応し、その逆も同じである。例えばオフセッ
ト58で文書テキスト220の文字が与えられると、そ
の文字が(16,110)および(31,149)の座
標を有する文書イメージ210内の矩形領域に該当して
いることを決めるために、相関テーブル230のオフセ
ット欄が調べられ得る。それから、それらの座標での文
書イメージ210における領域(上記例では「form」と
いう語)は、文書イメージ210から導き出されて表示
され得る。もう一方については、文書イメージ210の
座標(23,127)が与えられると、与えられた文書
イメージ210の座標が、57−60のオフセットを有
する文書テキスト220の単語内に見出されることを決
めるために、相関テーブル230の座標欄が調べられ得
る。それから文書テキスト220のそのオフセット領域
での語(上記例では「form」という語)が特定され得
る。従って、ここで説明された合成文書アーキテクチャ
は、文書テキスト220における語の配置を文書イメー
ジ210の対応する領域に関係づける一方法を提供して
いる。
Using the correlation table 230, each offset in the document text 220 is
, And vice versa. For example, given a character in document text 220 at offset 58, to determine that the character falls into a rectangular area in document image 210 having coordinates (16,110) and (31,149), The offset field of the correlation table 230 can be consulted. Then, the regions in the document image 210 at those coordinates (the word “form” in the example above) can be derived from the document image 210 and displayed. On the other hand, given the coordinates (23,127) of the document image 210, to determine that the coordinates of the given document image 210 are found within words of the document text 220 having an offset of 57-60. Next, the coordinate field of the correlation table 230 can be examined. The word in the offset region of the document text 220 (the word "form" in the example above) can then be identified. Thus, the composite document architecture described herein provides one way to relate the placement of words in the document text 220 to corresponding areas of the document image 210.

【0026】〔3.誤認識の見込みを有する語の指摘〕
図4および図5のイメージ表示300,350では、文
書テキスト220における、最も誤認識の可能性の高い
語は、種々の方式(例えば明るくしたり、色やフォント
を変えたり、下線を付したり、きらめかせるなど)で表
示され得る。これらの語は、全ての認識された語の認識
確度パラメータ236を規定された閾値と比較すること
によって決められ得る。例えば認識確度パラメータ23
6が60%以下の語は赤で表示され、テキスト中の間違
っているおそれのある語にユーザの注意を向けさせるこ
とができる。例えば元の語「form」は、55%の認識確
度パラメータ236となり、それによって赤で表示され
る。別の例では、認識確度パラメータ236が低い語
は、その語の背景色を変えることによって、文書テキス
ト220から識別される(例えば文書テキスト220の
「form」という語は、はっきり見える色で強調され得
る)。
[3. Pointing out words that have the possibility of misrecognition)
In the image displays 300 and 350 of FIGS. 4 and 5, the words in the document text 220 that are most likely to be misrecognized are identified by various methods (for example, brightening, changing colors and fonts, and underlining). , Flash, etc.). These words can be determined by comparing the recognition accuracy parameters 236 of all recognized words to a specified threshold. For example, the recognition accuracy parameter 23
Words in which 6 is 60% or less are displayed in red, and can draw the user's attention to potentially incorrect words in the text. For example, the original word "form" results in a 55% recognition accuracy parameter 236, which is displayed in red. In another example, words with a low recognition accuracy parameter 236 are identified from the document text 220 by changing the background color of the word (eg, the word “form” in the document text 220 is highlighted in a clearly visible color). obtain).

【0027】別の例では、さらに紙のテキストの各語に
関連した認識確度パラメータ236は、文書テキスト2
20の各語にふさわしい個々の表示色を決めて、認識さ
れた語の「ヒートマップ」を形成するために、複数の閾
値と比較される。ヒートマップは、複数の色を用いてス
ペクトルの種々の点でのパラメータ(例えば周波数、温
度または認識確度)の値を示した図表である。結果とし
て生じるヒートマップは、OCR出力について文書テキ
スト220の最も問題の有りそうな部分にユーザを導く
助けとなる。本例では、ユーザに表示される文書テキス
ト220の語は種々の色で表される。
In another example, the recognition accuracy parameter 236 further associated with each word of the paper text may include the document text 2
An individual display color for each of the twenty words is determined and compared to a plurality of thresholds to form a "heat map" of the recognized word. The heat map is a chart showing values of parameters (for example, frequency, temperature, or recognition accuracy) at various points in the spectrum using a plurality of colors. The resulting heat map helps guide the user to the most problematic portions of document text 220 for OCR output. In this example, the words of the document text 220 displayed to the user are represented in various colors.

【0028】図6について説明すると、ヒートマップ
は、文書テキスト220に対してステップS410で制
御されるループによって生成される。ステップS410
は、イメージ表示300およびイメージ表示350のう
ちの一方または両方に表示されるべき文書テキスト22
0の各語全部についてループをなす。ステップS420
で、文書テキスト220の表示された語に対応する認識
確度パラメータ236を見つけるために、相関テーブル
230が調べられる。それからこのパラメータ236
は、例えば60%、80%および90%のような複数の
閾値と引き続き比較される。
Referring to FIG. 6, a heat map is generated for the document text 220 by a loop controlled in step S410. Step S410
Is the document text 22 to be displayed on one or both of the image display 300 and the image display 350.
Loop over all 0 words. Step S420
Then, the correlation table 230 is consulted to find a recognition accuracy parameter 236 corresponding to the displayed word of the document text 220. Then this parameter 236
Is subsequently compared to a plurality of thresholds, such as 60%, 80% and 90%.

【0029】ステップS422−S434は、例えば閾
値を60%、80%および90%とした場合のヒートマ
ップ表示の生成処理を示している。まず最も低い閾値で
ある60%が比較用の閾値として使用される。認識確度
パラメータ236がその閾値よりも低い場合には、その
語の色は赤に設定される(ステップS424)。上記例
では、「form」という語は、その認識確度パラメータ2
36が55%であるため、赤で強調される。図4および
図5に示す例では、赤に設定される他の語は「general
」と「Constitution」であるかもしれない。
Steps S422-S434 show a process of generating a heat map display when the threshold values are set to 60%, 80% and 90%, for example. First, the lowest threshold of 60% is used as a threshold for comparison. If the recognition accuracy parameter 236 is lower than the threshold, the color of the word is set to red (step S424). In the above example, the word “form” is the recognition accuracy parameter 2
Because 36 is 55%, it is highlighted in red. In the examples shown in FIGS. 4 and 5, another word set to red is "general
"And" Constitution ".

【0030】つぎにステップS426では、つぎに低い
閾値である80%が比較用の閾値として使用される。認
識確度パラメータ236がその閾値よりも低い場合に
は、文書テキスト220のその語の色は緑に設定される
(ステップS428)。上記例では、「Union 」という
語は、その認識確度パラメータ236が75%であって
よく、その場合には緑で表示される。図4および図5に
示す例では、緑に設定される他の語は「insure」と「se
cure」であるかもしれない。
Next, in step S426, the next lower threshold value of 80% is used as a comparison threshold value. If the recognition certainty parameter 236 is lower than the threshold, the color of the word in the document text 220 is set to green (step S428). In the above example, the word "Union" may have a recognition accuracy parameter 236 of 75%, in which case it is displayed in green. In the examples shown in FIGS. 4 and 5, the other words set to green are “insure” and “se
cure ".

【0031】ステップS430で、最後の閾値である9
0%が比較用の閾値として使用される。認識確度パラメ
ータ236がその閾値よりも低い場合には、文書テキス
ト220の語の色は青に設定される(ステップS43
2)。図4および図5に示す例では、青に設定される語
は「Tranquility 」と「establish 」になり得る。他
方、認識確度パラメータ236が全ての閾値よりも高い
場合には、文書テキスト220のその語の色は、デフォ
ルトの色として使用され得る黒に設定される(ステップ
S434)。一旦色が設定されると、文書テキスト22
0の語はその色で表示される(ステップS436)。
In step S430, the last threshold value of 9
0% is used as a threshold for comparison. If the recognition accuracy parameter 236 is lower than the threshold, the word color of the document text 220 is set to blue (step S43).
2). In the examples shown in FIGS. 4 and 5, the words set in blue may be “Tranquility” and “establish”. On the other hand, if the recognition accuracy parameter 236 is higher than all thresholds, the color of the word in the document text 220 is set to black, which can be used as a default color (step S434). Once the color is set, the document text 22
The word 0 is displayed in that color (step S436).

【0032】閾値に対する数および色が、本発明の趣旨
から逸脱することなく、実施の形態に応じて変わっても
よいことは十分に理解されよう。例えば閾値が1つ、2
つ、3つまたは10個でさえもかまわない。別の例とし
て、色の選択が変わってもよい(例えば赤、オレンジ、
黄色)。実際に例えば点滅や下線のような表示色以外の
表示属性が採用されてもよい。また図6のフローチャー
トに示すように分岐を厳格に体系化せずに、閾値および
表示色または他の表示属性が1つのテーブルに入力され
ていて1つのループで引き続き調べられてもよいことも
理解され得る。
It will be appreciated that the numbers and colors for the thresholds may vary from embodiment to embodiment without departing from the spirit of the invention. For example, one threshold, 2
One, three, or even ten. As another example, the color selection may change (e.g., red, orange,
yellow). Actually, display attributes other than the display color such as blinking and underlining may be employed. It is also understood that the thresholds and display colors or other display attributes may be entered in one table and continually examined in one loop without strictly organizing the branches as shown in the flowchart of FIG. Can be done.

【0033】〔4.文書イメージウィンドウの表示〕元
の紙の文書を参照するのに関する時間を減らすために、
元の紙の文書の読取り走査されたイメージ部分(すなわ
ち文書イメージ210)は、そのテキストのOCR解釈
上に表示される。アメリカ合衆国憲法を読取り走査した
例において、前文の読取り走査されたイメージ部分が、
図5に示すようにOCR出力上のウィンドウのイメージ
表示350内に表示されていてもよい。
[4. Show Document Image Window] To reduce the time associated with browsing the original paper document,
The scanned image portion of the original paper document (ie, document image 210) is displayed on the OCR interpretation of the text. In the example of reading and scanning the United States Constitution, the scanned image portion of the preamble is
As shown in FIG. 5, it may be displayed in the image display 350 of the window on the OCR output.

【0034】イメージ表示350において、文書テキス
ト220は図5に示されるようにモニタに表示される。
それからユーザは、文書テキスト220の何らかの語の
上にカーソル360を位置させることによって文書テキ
スト220からある語を選択する。ユーザがマウスのあ
るボタンをクリックするか、あるいは同様なファンクシ
ョンキーを押すと、文書イメージ210の、選択された
語を囲む領域に対応する部分がポップアップウィンドウ
390として現れる。これによってユーザは、必要な時
には即座に文書イメージ210の部分を見ることができ
る。
In the image display 350, the document text 220 is displayed on a monitor as shown in FIG.
The user then selects a word from document text 220 by positioning cursor 360 over any word in document text 220. When the user clicks a button with the mouse or presses a similar function key, a portion of document image 210 corresponding to the area surrounding the selected word appears as pop-up window 390. This allows the user to immediately view the document image 210 when needed.

【0035】文書イメージ210と文書テキスト220
との調和された動きは、文書テキスト220の各語の配
置を、相関テーブル230を用いて文書イメージ210
からの対応する領域に関係付けることによって達成され
る。カーソル制御手段124によって与えられる情報に
基づいて、文書テキスト220上の如何なる瞬間のカー
ソル360の位置も特定されて、当該技術分野において
周知のマッピング技術によって、イメージ表示350の
座標システムから文書テキスト220のオフセットシス
テムに変換され得る。それから相関テーブル230を用
いて、文書テキスト220に表れる各語のオフセット
は、文書イメージ210の対応する領域に対する座標に
関連付けられ得る。それから対応する領域を含む文書イ
メージ210の部分は、そのイメージ部分がポップアッ
プウィンドウ390内に表示され得るように、抽出され
る。そしてユーザは、文書テキスト220の対応する語
が文書イメージ210と一致することを確かめるため
に、文書イメージ210の表示部分を見ることができ
る。
Document image 210 and document text 220
The coordinated motion with the document image 210 is determined by using the correlation table 230 to determine the location of each word in the document text 220.
This is achieved by relating to the corresponding region from Based on the information provided by the cursor control means 124, the position of the cursor 360 at any instant on the document text 220 is determined, and the mapping of the document text 220 from the coordinate system of the image display 350 is performed by mapping techniques well known in the art. It can be converted to an offset system. Then, using the correlation table 230, the offset of each word appearing in the document text 220 can be associated with coordinates for a corresponding region of the document image 210. The portion of the document image 210 that includes the corresponding region is then extracted so that the image portion can be displayed in a pop-up window 390. The user can then view the displayed portion of the document image 210 to make sure that the corresponding word in the document text 220 matches the document image 210.

【0036】別の例では、ポップアップウィンドウ39
0内に表示された文書イメージ210の部分は、文書テ
キスト220をヒートマップ化するために用いられたの
と同じ方式でヒートマップ化される。文書テキスト22
0の語の表示状態を文書イメージ210の対応する領域
に関連付けるため、文書テキスト220の特定の語の表
示状態をはっきり示すのに使用されるのと同じ認識確度
パラメータ236が、文書イメージ210の対応する領
域の表示状態をはっきり示すのに使用される。例えば相
関テーブル230において「form」という語に55%の
認識確度パラメータ236が割り当てられていることに
よって、その語は、文書テキスト220および文書イメ
ージ210の対応する領域の両方において赤で表示され
ることとなる。別の例では、文書テキスト220および
文書イメージ210の両方ともヒートマップで表示され
ず、文書イメージ210の部分が文書テキスト220上
のウィンドウ内に表示されるだけである。
In another example, a pop-up window 39
The portion of the document image 210 displayed in 0 is heat mapped in the same manner used to heat map the document text 220. Document text 22
In order to associate the display state of the word 0 with the corresponding area of the document image 210, the same recognition accuracy parameter 236 used to clearly indicate the display state of a particular word in the document text 220 is used. It is used to clearly indicate the display state of the area to be displayed. For example, by assigning a 55% recognition accuracy parameter 236 to the word "form" in the correlation table 230, the word is displayed in red in both the document text 220 and the corresponding area of the document image 210. Becomes In another example, both document text 220 and document image 210 are not displayed in a heat map, and only a portion of document image 210 is displayed in a window on document text 220.

【0037】〔5.OCR出力の誤りの訂正〕図6のフ
ローチャートには、本発明の一実施の形態によるOCR
出力の誤りの訂正処理も示されている。訂正を行うため
に、カーソル310は、例えばマウスやトラックボール
やジョイスティック、およびポップアップウィンドウ3
90を表示させるために使用されるマウスのボタンもし
くはファンクションキー以外のマウスのボタンやファン
クションキーのようなカーソル制御手段124を用いて
文書テキスト220の如何なる部分上にも配置される。
[5. Error Correction of OCR Output] FIG. 6 is a flowchart showing an OCR output according to an embodiment of the present invention.
A process for correcting an output error is also shown. To make corrections, the cursor 310 may be, for example, a mouse, trackball, joystick, and pop-up window 3.
The mouse button used to display 90 or a mouse button other than the function key or a mouse button or a cursor control means such as a function key is disposed on any part of the document text 220 by using the cursor control means 124.

【0038】ステップS440で、プロセッサ112
は、イメージ表示300上のカーソル310の位置に関
してカーソル制御手段124からの入力を受け取る。こ
の入力は、カーソル310がイメージ表示300上に置
かれる時にはいつでも、あるいはユーザがボタンを操作
する時にのみ、カーソル制御手段124によって自動的
に生成されてもよい。後者の場合には、ユーザがボタン
を操作する時に、カーソル制御手段124はカーソル3
10の現在の位置を入力として送る。
At step S440, the processor 112
Receives input from the cursor control means 124 regarding the position of the cursor 310 on the image display 300. This input may be automatically generated by the cursor control means 124 whenever the cursor 310 is placed on the image display 300 or only when the user operates a button. In the latter case, when the user operates the button, the cursor control means 124 sets the cursor 3
Send 10 current locations as input.

【0039】ステップS440で受け取られる入力に関
連付けられるカーソル310の位置は、当該技術分野に
おいて周知のマッピング技術によって、イメージ表示3
00の座標システムから文書テキスト220のオフセッ
トシステムに変換される。図4に示す例では、イメージ
表示300におけるカーソル310の位置は文書テキス
ト220のオフセット59に対応していてもよい。
The position of the cursor 310 associated with the input received in step S440 is determined by using a mapping technique well known in the art.
00 from the coordinate system of 00 to the offset system of the document text 220. In the example shown in FIG. 4, the position of the cursor 310 in the image display 300 may correspond to the offset 59 of the document text 220.

【0040】ステップS442で、ステップS440で
受け取られた入力から得られたオフセットを含むオフセ
ット対234を指定する記載を求めて、相関テーブル2
30が調べられる。上記例では、オフセット59はオフ
セット対57−60に含まれる。このオフセット対は、
オフセット対234の範囲内のオフセットにて文書テキ
スト220内に置かれた文字列を抜き出すのに使用され
る。
In step S442, a description specifying offset pair 234 including the offset obtained from the input received in step S440 is obtained, and the correlation table 2
30 is examined. In the above example, offset 59 is included in offset pair 57-60. This offset pair is
Used to extract strings placed in document text 220 at offsets within offset pair 234.

【0041】ステップS444で、オフセット57−6
0での文字列に対して可能性のある置換え語が生成され
る。当該技術分野において、可能性のある置換え語を生
成するために広範囲な種々の技術が知られているが、し
かし発明を実施するにはどれか特定の技術を必要としな
い。例えば可能性のある置換え語を生成するために、単
語レベルの反応が考慮され得る(例えばスペルチェック
をする)。さらに別の例として、句レベルの情報(例え
ばデータベース内に存在する連続語のマルコフモデル)
が用いられ得る。さらにはこれらの種々の技術は組み合
わされて重みを付けられ得る。上記例では、ステップS
444は、選択されたテキスト「domestic」に対して以
下の可能性のある置換え語の組、すなわち「dominat
e」、「demeanor」および「demotion」を生成してもよ
い。
At step S444, the offset 57-6
A possible replacement for the string at 0 is generated. A wide variety of techniques are known in the art for generating possible replacements, but do not require any particular technique to practice the invention. For example, word-level responses may be considered (eg, spell-checked) to generate potential replacements. As yet another example, phrase-level information (eg, a Markov model of continuous words in a database)
Can be used. Furthermore, these various techniques can be combined and weighted. In the above example, step S
444 is a set of the following possible replacements for the selected text "domestic": "dominat
"e", "demeanor" and "demotion" may be generated.

【0042】ステップS446で、選択されたテキスト
に対する可能性のある置換え語は、カーソル310の近
くでポップアップメニュー330内に表示される。これ
らの置換え語が、選択されたテキストの潜在的な置換え
の見込みにしたがう序列でポップアップメニュー330
内に表示されることは好ましい(すなわち選択されたテ
キストが間違っていると考えられる場合には、ポップア
ップメニュー330のリストの一番上にある置換え語
が、最も置換え語として使用されるそうである)。一実
施の形態では、ユーザが文書テキスト220の一部を手
休めずに削除することができるようにするために、削除
のオプションもカーソル310近くのポップアップメニ
ュー330内に設けられる。
At step S 446, possible replacement words for the selected text are displayed in pop-up menu 330 near cursor 310. These replacement words are displayed in a pop-up menu 330 in an order according to the potential replacement of the selected text.
(I.e., if the selected text is deemed to be incorrect, the replacement word at the top of the list in the pop-up menu 330 is likely to be used as the most replacement word) ). In one embodiment, a delete option is also provided in the pop-up menu 330 near the cursor 310 to allow the user to delete a portion of the document text 220 without pause.

【0043】別の例によれば、カーソル310が文書テ
キスト220のある語の上にある場合には、選択された
テキストに対するポップアップメニュー330が自動的
に表示される。従ってユーザは、文書テキスト220の
テキストの表示列の上にカーソル310を動かすことが
でき、選択されたテキストをポップアップメニュー33
0内の可能性のある置換え語と迅速に比較することがで
きる。
According to another example, if the cursor 310 is over a word in the document text 220, a pop-up menu 330 for the selected text is automatically displayed. Thus, the user can move the cursor 310 over the text display column of the document text 220 and move the selected text to the pop-up menu 33.
It can be compared quickly with possible replacement words in 0.

【0044】ポップアップメニュー330が表示される
場合、ユーザは、文書イメージ210の部分を含むポッ
プアップウィンドウ390を見て、文書テキスト220
の選択されたテキストが正しくないということを決めて
もよい。この場合には、ユーザは、正しい置換え語を選
択するためにポップアップメニュー330内の可能性の
ある置換え語を見るであろう。正しい置換え語が見つか
ると、ユーザは正しい置換え語を選択することができる
(例えば適当な語を強調し、カーソル制御手段124の
ボタンをクリックするかまたはボタンを押している手を
放すようにする)。上記例では、「domestic」という語
に対する正しい置換え語は、ポップアップメニュー33
0内の「dominate」と「demotion」の間に表示された
「demeanor」かもしれない。
When the pop-up menu 330 is displayed, the user looks at the pop-up window 390 containing the portion of the document image 210 and looks at the document text 220
You may decide that the selected text is incorrect. In this case, the user will see the possible replacement words in the pop-up menu 330 to select the correct replacement word. Once the correct replacement word is found, the user can select the correct replacement word (eg, highlight the appropriate word and click or release the button on cursor control means 124). In the above example, the correct replacement for the word "domestic" is
It may be "demeanor" displayed between "dominate" and "demotion" in 0.

【0045】この時点で、ステップS448におけるよ
うにプロセッサ112は、意図された訂正のために入力
を受け取り、ステップS450におけるように文書テキ
スト220の語を、ユーザが選択した訂正で置き換え
る。しかしながらポップアップメニュー330内に正し
い置換え語がない場合には、ユーザは従来通りのやり方
で(例えばキーボード122を介して)正しい置換え語
を入力してもよい。可能性のある置換え語を生成してそ
れらをポップアップメニュー330内に表示することに
よって、OCR出力に対する訂正に費やされる時間が減
少する。
At this point, as in step S448, processor 112 receives the input for the intended correction and replaces the words in document text 220 with the user-selected correction as in step S450. However, if there is no correct replacement word in pop-up menu 330, the user may enter the correct replacement word in a conventional manner (eg, via keyboard 122). By generating the potential replacement words and displaying them in the pop-up menu 330, the time spent on corrections to the OCR output is reduced.

【0046】一旦ユーザが文書テキスト220に対して
訂正を行うかまたは何らかの方法で文書テキスト220
を変更すると、相関テーブル230は、この行為が起こ
ったことを反映するために更新されなければならない。
加えて、文書テキスト220の正された語の認識確度パ
ラメータ236は自動的に100%に再設定され、文書
テキスト220における選択されたテキストはデフォル
トの色(例えば黒)に戻る。
Once the user makes corrections to the document text 220 or in some way
, The correlation table 230 must be updated to reflect that this action has taken place.
In addition, the correct word recognition accuracy parameter 236 of the document text 220 is automatically reset to 100% and the selected text in the document text 220 returns to the default color (eg, black).

【0047】本発明は、ある好ましい実施の形態につい
て言及しながらかなり詳細に説明され、また図示された
が、他の変形例が可能である。上記説明を読むと、本発
明の趣旨または範囲から逸脱することなく、形態または
細部について上記説明または図における変形がなされて
もよいということは、当業者にとって明らかである。
Although the present invention has been described and illustrated in considerable detail with reference to certain preferred embodiments, other variations are possible. After reading the above description, it will be apparent to one skilled in the art that modifications in the above description or figures may be made in form or detail without departing from the spirit or scope of the invention.

【0048】[0048]

【発明の効果】以上説明したとおり、この発明に係る光
学式文字認識出力のポップアップ訂正のための方法およ
び装置にあっては、ユーザが文書イメージからなるテキ
ストをそのテキストのOCR解釈と一緒に比較すること
ができる効果を奏する。また、OCR解釈を生成するの
に使用された元の文書をユーザが参照する必要がなく、
ユーザが文書イメージで表されたテキストをそのテキス
トのOCR解釈と一緒に比較することができる効果を奏
する。さらに、元のテキストをOCR出力のテキストに
変換している間に起こった間違いを正すために、ユーザ
が文書イメージで表されたテキストをそのテキストのO
CR解釈と比較することができる効果を奏する。
As described above, in the method and apparatus for pop-up correction of optical character recognition output according to the present invention, a user compares a text consisting of a document image with an OCR interpretation of the text. It has an effect that can be done. Also, the user does not need to refer to the original document used to generate the OCR interpretation,
This has the effect that the user can compare the text represented by the document image with the OCR interpretation of the text. In addition, to correct mistakes made during the conversion of the original text to the text of the OCR output, the user may replace the text represented by the document image with the OCR of the text.
It has an effect that can be compared with CR interpretation.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明が実施され得るコンピュータシステムを
示す上位ブロック図である。
FIG. 1 is a high-level block diagram illustrating a computer system on which the present invention can be implemented.

【図2】合成文書アーキテクチャを示すブロック図であ
る。
FIG. 2 is a block diagram illustrating a composite document architecture.

【図3】合成文書の生成処理を示すフローチャートであ
る。
FIG. 3 is a flowchart illustrating a process of generating a composite document.

【図4】本発明の一実施の形態によるスクリーン表示の
一例を示す図である。
FIG. 4 is a diagram showing an example of a screen display according to an embodiment of the present invention.

【図5】本発明の他の実施の形態によるスクリーン表示
の一例を示す図である。
FIG. 5 is a diagram showing an example of a screen display according to another embodiment of the present invention.

【図6】本発明の一実施の形態によるOCR出力におけ
る誤りの発見および訂正処理を示すフローチャートであ
る。
FIG. 6 is a flowchart illustrating error detection and correction processing in an OCR output according to an embodiment of the present invention.

【符号の説明】[Explanation of symbols]

112 プロセッサ 120 表示装置 122 キーボード 124 カーソル制御手段 126 スキャナー装置 128 光学式文字認識装置 210 文書イメージ 220 文書テキスト 230 相関テーブル 236 認識確度パラメータ 330 ポップアップメニュー 112 processor 120 display device 122 keyboard 124 cursor control means 126 scanner device 128 optical character recognition device 210 document image 220 document text 230 correlation table 236 recognition accuracy parameter 330 pop-up menu

Claims (18)

【特許請求の範囲】[Claims] 【請求項1】 テキストを表示する方法において、 ある文書の文書イメージを生成する工程と、 文書テキストを生成するために前記文書イメージから文
字を認識する工程と、 前記文書テキストの語に対応する前記文書イメージの領
域を決める工程と、 相関テーブルを用いて前記文書イメージの前記領域を前
記文書テキストの対応する語と関連させる工程と、 前記文書テキスト上に前記文書イメージの部分を表示す
る工程と、 を含むことを特徴とする光学式文字認識出力のポップア
ップ訂正のための方法。
1. A method for displaying text, comprising: generating a document image of a document; recognizing characters from the document image to generate a document text; Determining a region of the document image; associating the region of the document image with a corresponding word of the document text using a correlation table; displaying a portion of the document image on the document text; A method for pop-up correction of an optical character recognition output, comprising:
【請求項2】 前記文書イメージの前記領域は、それぞ
れの認識確度パラメータを示すように表示されることを
特徴とする請求項1に記載の光学式文字認識出力のポッ
プアップ訂正のための方法。
2. The method for pop-up correction of optical character recognition output according to claim 1, wherein the regions of the document image are displayed to indicate respective recognition accuracy parameters.
【請求項3】 前記文書テキストの前記対応する語は、
それぞれの認識確度パラメータを示すように表示される
ことを特徴とする請求項1に記載の光学式文字認識出力
のポップアップ訂正のための方法。
3. The corresponding word of the document text is:
The method for pop-up correction of an optical character recognition output according to claim 1, wherein each recognition accuracy parameter is displayed to indicate the recognition accuracy parameter.
【請求項4】 前記文書イメージの前記領域および前記
文書テキストの前記対応する語の両方とも、それぞれの
認識確度パラメータを示すように表示されることを特徴
とする請求項1に記載の光学式文字認識出力のポップア
ップ訂正のための方法。
4. The optical character of claim 1, wherein both the area of the document image and the corresponding word of the document text are displayed to indicate respective recognition accuracy parameters. A method for pop-up correction of recognition output.
【請求項5】 前記文書テキストにおけるある位置を選
択する入力を受け取る工程と、 前記文書テキストの前記位置に対応する選択されたテキ
ストを決定する工程と、 前記選択されたテキストを訂正するための入力を受け取
る工程と、 前記選択されたテキストに対してなされた訂正を反映す
るために、前記相関テーブルを最新情報を含む情報に更
新する工程と、 をさらに含むことを特徴とする請求項1に記載の光学式
文字認識出力のポップアップ訂正のための方法。
5. An input for selecting a location in the text of the document, determining a selected text corresponding to the location of the text of the text, and input for correcting the selected text. 2. The method of claim 1, further comprising: receiving the selected text, and updating the correlation table with information including up-to-date information to reflect corrections made to the selected text. For pop-up correction of the optical character recognition output of a computer.
【請求項6】 前記選択されたテキストを訂正するため
の入力を受け取る工程は、前記選択されたテキストを削
除する工程を含むことを特徴とする請求項5に記載の光
学式文字認識出力のポップアップ訂正のための方法。
6. The optical character recognition output pop-up of claim 5, wherein receiving an input to correct the selected text comprises deleting the selected text. Method for correction.
【請求項7】 前記選択されたテキストを訂正するため
の入力を受け取る工程は、 前記選択されたテキストに対する1または2以上の置換
え語を決定する工程と、 前記選択されたテキストに対する前記1または2以上の
置換え語を表示する工程と、 前記選択されたテキストに対する置換え語を指示する入
力を受け取る工程と、 前記選択されたテキストを前記置換え語で置き換える工
程と、 を含むことを特徴とする請求項5に記載の光学式文字認
識出力のポップアップ訂正のための方法。
7. The method of claim 1, further comprising: receiving one or more replacement words for the selected text; determining one or more replacement words for the selected text; and receiving one or more replacement words for the selected text. Displaying the replacement word, receiving input indicating a replacement word for the selected text, and replacing the selected text with the replacement word. 5. The method for pop-up correction of the optical character recognition output according to 5.
【請求項8】 置換え語を指示する入力を受け取る工程
は、前記置換え語のキーボード入力を受け取る工程を含
むことを特徴とする請求項7に記載の光学式文字認識出
力のポップアップ訂正のための方法。
8. The method for pop-up correction of optical character recognition output according to claim 7, wherein receiving an input indicating a replacement word comprises receiving a keyboard input of the replacement word. .
【請求項9】 前記1または2以上の置換え語はポップ
アップメニュー内に表示されることを特徴とする請求項
7に記載の光学式文字認識出力のポップアップ訂正のた
めの方法。
9. The method for pop-up correction of optical character recognition output according to claim 7, wherein the one or more replacement words are displayed in a pop-up menu.
【請求項10】 テキストを表示する装置は、 ある文書の文書イメージを生成するためのスキャナー装
置と、 文書テキストを生成するために文書イメージ内の文字を
認識するための光学式文字認識装置と、 前記文書テキストの語に対応する前記文書イメージの領
域を決め、かつ相関テーブルを用いて前記文書イメージ
の前記領域を前記文書テキストの対応する語と関連させ
るためのプロセッサと、 前記文書テキスト上に前記文書イメージの部分を表示す
るための表示装置と、 を具備することを特徴とする光学式文字認識出力のポッ
プアップ訂正のための装置。
10. An apparatus for displaying text, comprising: a scanner device for generating a document image of a document; an optical character recognition device for recognizing characters in the document image for generating document text; A processor for determining a region of the document image corresponding to the word of the document text, and associating the region of the document image with a corresponding word of the document text using a correlation table; A display device for displaying a portion of a document image, and a device for correcting a pop-up of an optical character recognition output.
【請求項11】 前記表示装置は、前記文書イメージの
前記領域を、それぞれの認識確度パラメータを示すよう
に表示することを特徴とする請求項10に記載の光学式
文字認識出力のポップアップ訂正のための装置。
11. The apparatus according to claim 10, wherein the display device displays the area of the document image so as to indicate respective recognition accuracy parameters. Equipment.
【請求項12】 前記表示装置は、前記文書テキストの
前記対応する語を、それぞれの認識確度パラメータを示
すように表示することを特徴とする請求項10に記載の
光学式文字認識出力のポップアップ訂正のための装置。
12. The optical character recognition output pop-up correction of claim 10, wherein the display device displays the corresponding words of the document text to indicate respective recognition accuracy parameters. Equipment for.
【請求項13】 前記表示装置は、前記文書イメージの
前記領域および前記文書テキストの前記対応する語の両
方とも、それぞれの認識確度パラメータを示すように表
示することを特徴とする請求項10に記載の光学式文字
認識出力のポップアップ訂正のための装置。
13. The display device of claim 10, wherein the display device displays both the area of the document image and the corresponding word of the document text to indicate respective recognition accuracy parameters. For pop-up correction of the optical character recognition output of a computer.
【請求項14】 さらに前記文書テキストにおけるある
位置を選択する入力を受け取るためのカーソル制御手段
を含み、 前記プロセッサは、 前記文書テキストの前記位置に対応する選択されたテキ
ストを決定し、 前記選択されたテキストを訂正するための入力を受け取
り、 前記選択されたテキストに対してなされた訂正を反映す
るために、前記相関テーブルを最新情報を含む情報に更
新することを特徴とする請求項10に記載の光学式文字
認識出力のポップアップ訂正のための装置。
14. The system further comprising: cursor control means for receiving an input for selecting a location in the document text; wherein the processor determines a selected text corresponding to the location of the document text; 11. The method of claim 10, further comprising receiving an input for correcting the selected text, and updating the correlation table to include the latest information to reflect the correction made to the selected text. For pop-up correction of the optical character recognition output of a computer.
【請求項15】 前記プロセッサは、前記選択されたテ
キストを削除することによって、前記選択されたテキス
トを訂正するための入力を受け取ることを特徴とする請
求項14に記載の光学式文字認識出力のポップアップ訂
正のための装置。
15. The optical character recognition output of claim 14, wherein the processor receives an input to correct the selected text by deleting the selected text. Device for pop-up correction.
【請求項16】 前記プロセッサは、 前記選択されたテキストに対する1または2以上の置換
え語を決定し、 前記選択されたテキストに対する前記1または2以上の
置換え語を表示するために表示装置を制御し、 前記選択されたテキストに対する置換え語を指示する入
力を受け取り、 前記選択されたテキストを前記置換え語で置き換えるこ
とによって、 前記選択されたテキストを訂正するための入力を受け取
ることを特徴とする請求項14に記載の光学式文字認識
出力のポップアップ訂正のための装置。
16. The processor, wherein the processor determines one or more replacement words for the selected text, and controls a display device to display the one or more replacement words for the selected text. Receiving input indicating a replacement word for the selected text, and receiving input for correcting the selected text by replacing the selected text with the replacement word. 15. An apparatus for pop-up correction of an optical character recognition output according to claim 14.
【請求項17】 さらに前記選択されたテキストに対す
る前記置換え語を入力するためのキーボードを具備する
ことを特徴とする請求項16に記載の光学式文字認識出
力のポップアップ訂正のための装置。
17. The apparatus according to claim 16, further comprising a keyboard for inputting the replacement word for the selected text.
【請求項18】 前記表示装置は、前記1または2以上
の置換え語をポップアップメニュー内に表示するように
制御されることを特徴とする請求項16に記載の光学式
文字認識出力のポップアップ訂正のための装置。
18. The optical character recognition output of claim 16, wherein the display device is controlled to display the one or more replacement words in a pop-up menu. Equipment for.
JP10110884A 1997-07-25 1998-04-21 Pop-up correction method for optical character recognition output and device thereof Pending JPH11102413A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US90078397A 1997-07-25 1997-07-25
US08/900783 1997-07-25

Publications (1)

Publication Number Publication Date
JPH11102413A true JPH11102413A (en) 1999-04-13

Family

ID=25413071

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10110884A Pending JPH11102413A (en) 1997-07-25 1998-04-21 Pop-up correction method for optical character recognition output and device thereof

Country Status (1)

Country Link
JP (1) JPH11102413A (en)

Similar Documents

Publication Publication Date Title
US6453079B1 (en) Method and apparatus for displaying regions in a document image having a low recognition confidence
US6532461B2 (en) Apparatus and methodology for submitting search oueries
JPH11110480A (en) Method and device for displaying text
US6466694B2 (en) Document image processing device and method thereof
US7310769B1 (en) Text encoding using dummy font
JPH11161681A (en) Device and method for displaying retrieval result, and computer-readable recording medium where series of instructions are recorded to output retrieval result
JP2007042126A (en) Method and apparatus for producing hybrid data structure for displaying raster image
US11348331B2 (en) Information processing apparatus and non-transitory computer readable medium
JPH11102413A (en) Pop-up correction method for optical character recognition output and device thereof
JP2022101136A (en) Information processing apparatus, information processing method, and program
JPH11102415A (en) Two-dimensional screen display method for optical character recognition output and device thereof
JPH11102412A (en) Method and device for correcting optical character recognition by using bitmap selection and computer-readable record medium recorded with series of instructions for correcting ocr output error
JP4633773B2 (en) Document image processing apparatus and method
JP3221968B2 (en) Character recognition device
US20240020075A1 (en) Information processing apparatus, control method therefor, and storage medium
JP2007058819A (en) Index information generation device
JP3068895B2 (en) Character recognition result correction method
JPH01292587A (en) Back-up device for recognition of character
JP2901525B2 (en) Character creation method
JP2669897B2 (en) How to correct misread characters
JPH06223221A (en) Character recognizing device
JP4589370B2 (en) Document image processing apparatus and method
JP3333075B2 (en) Document processing method
JP3302211B2 (en) Character processing system and its external character pattern registration method
JP2683711B2 (en) How to recognize / correct character / symbol data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071030

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080513