JPH04109379A - Ocr system - Google Patents

Ocr system

Info

Publication number
JPH04109379A
JPH04109379A JP2228660A JP22866090A JPH04109379A JP H04109379 A JPH04109379 A JP H04109379A JP 2228660 A JP2228660 A JP 2228660A JP 22866090 A JP22866090 A JP 22866090A JP H04109379 A JPH04109379 A JP H04109379A
Authority
JP
Japan
Prior art keywords
character
ocr
characters
misread
reliability index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2228660A
Other languages
Japanese (ja)
Other versions
JP3037727B2 (en
Inventor
Toyoshi Sato
佐藤 豊志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2228660A priority Critical patent/JP3037727B2/en
Publication of JPH04109379A publication Critical patent/JPH04109379A/en
Application granted granted Critical
Publication of JP3037727B2 publication Critical patent/JP3037727B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

PURPOSE:To easily and efficiently correct a misread character by providing the OCR system with a reliability index setting means and a means for retrieving a character to be corrected. CONSTITUTION:A recognition part 14 segments the character pattern of each character in each field of a document in accordance with an instruction from an OCR control device 20 through a scanner 12, collates the segmented pattern with a reference pattern (dictionary), finds out similarity value between both the patterns, decides the shape (e.g. reference character, deformed character, blurred character, dirty character, or continued/projected character) of the entered character, and finds out a reliability index in each character and field based upon the similarity value and the shape of the character. A control part 22 in the control device 20 checks the existence of a misread character and executes the correction (edition) or the like of the character based on the results of character recognition and reliability index obtained by the OCR device 10, and displays the processed result on a CRT 24. The specification of processing execution and the input of data are executed through a keyboard 26.

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は、光学的文字読取装置(OCR)による文字読
取り結果に対する誤読文字修正機能を有するOCRシス
テムに関する。
DETAILED DESCRIPTION OF THE INVENTION [Object of the Invention] (Industrial Application Field) The present invention relates to an optical character reader (OCR) system having a function of correcting misread characters in the result of character reading by an OCR.

(従来の技術) 一般に、光学的文字読取装置による帳票等に記入された
文字の読取り結果についてのチエ・ツク方式としては、
チエツクデジット方式や合計チエツク方式が用いられて
いる。これらのチエ・ツク方式では、1フイ一ルド単位
、及び1帳票単位に、読取り結果に誤読された文字が含
まれているか否かがチエツクされる。ユーザは、誤読さ
れたことか示されている場合に、1フイ一ルド単位及び
1帳票単位に、1文字1文字について目視チエツクを行
い、誤読された文字を見つけて修正を行なっている。
(Prior Art) In general, a check method for checking the results of reading characters written on forms etc. using an optical character reading device is as follows.
A check digit method and a total check method are used. In these checking methods, it is checked whether or not the reading result contains misread characters in each field and each form. When the user is shown that the text has been misread, the user visually checks each character in each field and each form, finds the misread character, and corrects the misread character.

(発明が解決しようとする課題) このように、従来のチエツク方式では、1フイ一ルド単
位及び1帳票単位に、1文字1文字について目視チエツ
クが必要であり、どの帳票の、どのフィールドの、どの
文字が誤読文字であるかを見つけるまでに多くの時間を
必要とし、かつ大変な作業負担となっていた。
(Problems to be Solved by the Invention) As described above, in the conventional check method, it is necessary to visually check each character in each field and each form, and it is necessary to visually check each character in each field and in each form. It takes a lot of time to find out which characters are misread characters, and it is a heavy workload.

本発明は前記のような点に鑑みてなされたもので、誤読
文字の修正を容易、かつ効率的に行なうことか可能なO
CRシステムを提供することを目的とする。
The present invention has been made in view of the above-mentioned points, and it is possible to easily and efficiently correct misread characters.
The purpose is to provide a CR system.

〔発明の構成] (課題を解決するための手段) 本発明は、文字読取り結果に対する誤読文字修正機能を
有するOCRシステムにおいて、文字読取り結果につい
て確からしさを示す信頼指数を所定単位毎に求める信頼
指数設定手段と、この信頼指数設定手段によって求めら
れた信頼指数に基づいて、誤読文字修正の対象とする文
字を検索する検索手段とを具備して構成するものである
[Structure of the Invention] (Means for Solving the Problems) The present invention provides an OCR system that has a function of correcting misread characters for character reading results, and provides a reliability index that calculates a reliability index indicating the certainty of character reading results for each predetermined unit. The apparatus includes a setting means and a search means for searching for a character to be corrected for misread characters based on the confidence index determined by the confidence index setting means.

(作用) このような構成によれば、信頼指数に基づいて修正対象
とする文字が検索されるので、誤りの可能性の高い文字
から優先して修正、または誤読しているか否かのチエツ
クを行なうことができる。
(Operation) According to this configuration, characters to be corrected are searched based on the confidence index, so characters with a high possibility of error are prioritized and corrected, or a check is made to see if they have been misread. can be done.

(実施例) 以下、図面を参照して本発明の一実施例を説明する。第
1図は同実施例に係わるOCRシステムの構成を示すブ
ロック図である。第1図に示すOCRシステムは、文字
認識処理を行なうOCRこよって構成されている。
(Example) Hereinafter, an example of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing the configuration of an OCR system according to the same embodiment. The OCR system shown in FIG. 1 is composed of an OCR that performs character recognition processing.

OCR装置10には、帳票イメージの入力を行なうスキ
ャナ部12、スキャナ部12によって入力された帳票イ
メージについて文字認識処理を実行する認識部14、及
びOCR制御装置20とのインターフェイスを司るOC
RCレインターフェイス6によって構成されている。認
識部14は、OCR制御装置20からの指示に応じて、
帳票に設けられた各フィルドについて1文字毎に文字認
識処理を行なう。
The OCR device 10 includes a scanner unit 12 that inputs a form image, a recognition unit 14 that performs character recognition processing on the form image input by the scanner unit 12, and an OC that controls the interface with the OCR control device 20.
It is composed of an RC interface 6. The recognition unit 14, in response to instructions from the OCR control device 20,
Character recognition processing is performed for each character in each field provided in the form.

文字認識処理では、1文字毎に文字パターンの切出しを
行ない、文字パターンと標準パターン(辞書)との照合
を行なって類似度値を求める。また、切り出された文字
パターンをもとに、帳票に記入された文字の字形(例え
ば、標準文字、変形文字、カスレ文字、汚れ文字、つづ
け・はみ出し文字)の判別が行なわれる。さらに、認識
部14は、類似度値、及び文字の字形に基づいて、文字
単位、フィールド単位に、文字読取結果として正しいも
のであるという確からしさを示す信頼指数を求めるもの
である。
In the character recognition process, a character pattern is cut out for each character, and the character pattern is compared with a standard pattern (dictionary) to obtain a similarity value. Also, based on the cut out character pattern, the shape of the characters written on the form (for example, standard characters, modified characters, faded characters, smeared characters, continuation/extrusion characters) is determined. Further, the recognition unit 14 obtains a confidence index indicating the probability that the character reading result is correct for each character and each field based on the similarity value and the shape of the character.

OCR制御装置20には、OCR装置1oに対する制御
やユーザインターフェイス(I10機器)制御、文字読
取り結果の編集等を含むOCRシステム全体の制御を司
る制御部22、ユーザインターフェイスであるC RT
 24.キーボード26、及びOCR装置IOとのイン
ターフェイスを司るOCRC開制御装置インターフェイ
ス8によって構成されている。制御部22は、OCR装
置1oにおいて得られる文字認識結果、信頼指数に基づ
いて、誤読文字が存在するか否かのチエツク、文字の修
正(編集)等を行なう。CRT24は、文字認識結果等
の各種表示を行なうものである。キーボード28は、ユ
ーザからのOCRシステムに対する処理実行の指示やデ
ータのインプット等に用いられる。
The OCR control device 20 includes a control unit 22 that controls the entire OCR system including control of the OCR device 1o, user interface (I10 device) control, editing of character reading results, etc., and a CRT that is a user interface.
24. It is composed of a keyboard 26 and an OCRC open control device interface 8 that controls the interface with the OCR device IO. The control unit 22 checks whether or not there are misread characters, corrects (edits) the characters, etc., based on the character recognition result obtained by the OCR device 1o and the reliability index. The CRT 24 displays various types of information such as character recognition results. The keyboard 28 is used by the user to instruct the OCR system to execute processing, input data, and the like.

次に、同実施例の動作について説明する。Next, the operation of this embodiment will be explained.

はじめに、同実施例において文字読取りの対象とされる
帳票について説明する。第2図に、その帳票の一例を示
している。第2図に示す帳票には、複数の文字記入用の
フィールド(a、 −f )か設けられ、数字か記入さ
れるものとする。特に、フィールドfには、フィールド
a −gに記入された数字の合計か記入されるように規
定されているものとする。
First, a document whose characters are to be read in this embodiment will be explained. FIG. 2 shows an example of the form. It is assumed that the form shown in FIG. 2 is provided with a plurality of fields (a, -f) for entering characters, and numbers may be entered therein. In particular, it is assumed that field f is specified to contain the sum of the numbers entered in fields a to g.

ます、OCR装置10のスキャナ部12によって、第2
図に示す帳票についての帳票イメージを入力する。この
帳票イメージか、スキャナ部12から認識部14に転送
されると、OCR制御装置20からの指示により文字認
識処理か実行される。認工部14は、帳票に設けられた
各フィールド単位に、1文字毎に文字パターンを切出し
て文字認識処理を行なう。この際、各文字について、標
準パターン(辞書)との類似度値、及び文字の性質(文
字の字形)を求める。そして、認識部I4は、類似度値
、文字の字形に基づいて、各文字について、文字認識結
果の答えとしての信頼性を数値(信頼指数)として求め
る。
First, the scanner unit 12 of the OCR device 10 scans the second
Enter the form image for the form shown in the figure. When this form image is transferred from the scanner section 12 to the recognition section 14, character recognition processing is executed according to instructions from the OCR control device 20. The recognition unit 14 cuts out a character pattern for each character in each field provided in the form and performs character recognition processing. At this time, for each character, the similarity value with the standard pattern (dictionary) and character properties (character shape) are determined. Then, the recognition unit I4 determines the reliability of each character as a numerical value (reliability index) as an answer of the character recognition result based on the similarity value and the shape of the character.

一般に、光学的文字読取装置による文字読取りにおいて
は、誤読し易い文字の傾向に片寄りかある。さらに、例
えば標準文字−変形文字−カスレ文字−汚れ文字−つづ
け・はみ出し文字、というように、読取りの際の難度も
字形毎に異なるのか一般的である。このようなことを、
総合的、統計的に文字認識結果の信頼指数という形で、
認識結果の付加データとして求めておくことによって、
OCR制御装置20側での誤読チエツクにおいて誤読文
字の存在か見つかった場合に、誤読文字の検索を容易に
行なうことができる。
Generally, when reading characters using an optical character reading device, some characters tend to be more likely to be misread. Furthermore, the level of difficulty in reading generally differs depending on the character shape, for example, standard characters, modified characters, blurred characters, dirty characters, continuations and overflowing characters. Things like this,
In the form of a comprehensive and statistically reliable index of character recognition results,
By obtaining it as additional data to the recognition results,
If the presence of a misread character is found in the misreading check on the OCR control device 20 side, the misread character can be easily searched.

同実施例では、認識部14において、各文字毎に]O段
階で示す信頼指数を求めるものとする。この結果、信頼
指数が1〜4の文字についてはりジエクト文字として”
出力し、信頼指数が5〜↑0の文字については文字認識
結果として第1候補(類似度値が最も高いもの)を文字
コードで出力する。
In this embodiment, it is assumed that the recognition unit 14 obtains a confidence index indicated by the ]O level for each character. As a result, characters with a confidence index of 1 to 4 are treated as diect characters.
For characters with a confidence index of 5 to ↑0, the first candidate (the one with the highest similarity value) is output as a character code as a character recognition result.

さらに、その信頼指数を各文字毎に、認識結果の付加デ
ータとして出力する。第2図に示す帳票に記入された各
文字に対応する信頼指数を第3図に示している。
Furthermore, the reliability index is output for each character as additional data of the recognition result. FIG. 3 shows the reliability index corresponding to each character written in the form shown in FIG. 2.

さらに、フィールド内の各文字についての認識後に、そ
の各文字の信頼指数に基づいてフィールドに対する信頼
指数を求めて、フィールド単位の付加データとして出力
する。なお、ここでは、フィールド単位の信頼指数の値
は、フィールド内の各文字に対する信頼指数の最小値を
とるものとする。第4図には、各フィールドの記入文字
、文字が( #口結果、及びフィールド単位の信頼指数の対応を示し
ている。
Furthermore, after each character in the field is recognized, a confidence index for the field is determined based on the confidence index of each character, and is output as additional data for each field. Note that here, the value of the reliability index for each field is assumed to be the minimum value of the reliability index for each character in the field. Figure 4 shows the correspondence between the characters entered in each field, the characters (#), the result, and the reliability index for each field.

こうして、認識部14において各文字について認識処理
か行なわれ、信頼指数か得られると、その結果かOCR
Cジインターフェイス6、OCR制御装置インターフェ
イス28を介して制御部22に転送される。
In this way, recognition processing is performed for each character in the recognition unit 14, and when a reliability index is obtained, the result is
The data is transferred to the control section 22 via the CCD interface 6 and the OCR control device interface 28.

制御部22では、フィールドa −eについての読取り
結果(a、b、c、d、e)か、フィールドfの読取り
結果(f)と一致するか否かを判別する。すなわち、 a + b + c + d 十e −f      
 −(1)か成立するか否かを計算する。この結果、前
記(1)式か成立する場合には、正しく読取りが行なわ
れたものとして、制御部22は認識部14に対して、次
の帳票の読取りを指示するフィードコマンドを与える。
The control unit 22 determines whether the reading results for fields a to e (a, b, c, d, e) match the reading results for field f (f). That is, a + b + c + d 10e −f
- Calculate whether or not (1) holds true. As a result, if the formula (1) is satisfied, it is assumed that the reading has been performed correctly, and the control section 22 gives the recognition section 14 a feed command instructing the reading of the next form.

一方、前記(1)式か成立しない場合には、1シ一ト分
の読取り結果をCRT24に表示させる。
On the other hand, if the above formula (1) does not hold, the reading result for one sheet is displayed on the CRT 24.

この時、制#部22は、1シ一ト分の読取り結果中の信
頼指数の最も低いフィールドの、さらに信頼指数の最も
低い文字にカーソル位置を設定する。
At this time, the control unit 22 sets the cursor position to the character with the lowest reliability index in the field with the lowest reliability index in the reading results for one sheet.

そして、カーソル位置の文字に対するキーボード26か
らの文字修正指示の入力待ちとなる。
Then, it waits for input of a character correction instruction from the keyboard 26 for the character at the cursor position.

修正対象とする文字(カーソルか示す文字)は、信頼指
数の小さい順に順次設定される。つまり、誤りの可能性
の°大きい文字から順に、修正対象の文字として表示さ
れる。
Characters to be corrected (characters indicated by the cursor) are set in order of decreasing confidence index. In other words, characters to be corrected are displayed in descending order of probability of error.

このようにして、OCR装置10における読取り状況を
、信頼指数という形でOCR制御装置2oに与えること
により、各文字について目視チエツクを行なうことなく
誤読文字を容易に見つけることができるために、誤読文
字修正の作業負担を大幅に軽減すると共に、効率的に作
業を行なうことができる。
In this way, by providing the reading status in the OCR device 10 to the OCR control device 2o in the form of a reliability index, misread characters can be easily found without visually checking each character. It is possible to significantly reduce the work burden of correction and to perform the work efficiently.

なお、前記実施例においては、文字単位、フィールド単
位に信頼指数を求めているが、シート単位に信頼指数を
求めて利用することも可能である。
In the embodiment described above, the reliability index is determined for each character and each field, but it is also possible to determine and utilize the reliability index for each sheet.

それは、トータルパッチチエツク機能を有するシステム
において、どのシートに誤読文1字が存在する可能性が
高いかを、シート毎の信頼指数から簡単に推測すること
ができる。つまり、信頼指数の最も低い文字が存在する
シートか誤読シートである可能性か高いことになり、こ
れをもとにしてシート単位の誤読文字修正順を決定すれ
ば良い。
In a system having a total patch check function, it is possible to easily infer in which sheet there is a high possibility that a misread character is present from the reliability index for each sheet. In other words, there is a high probability that the sheet containing the character with the lowest reliability index is the sheet that is misread, and based on this, the order of correcting the misread characters for each sheet can be determined.

なお、信頼指数は、類似度、及び文字の字形に基づいて
求めるとしたが、例えば類似度値のみに基づいて設定し
ても良い。また、他の要因をさらに追加しても良い。
Although the confidence index is determined based on the degree of similarity and the shape of the characters, it may be set based on only the degree of similarity, for example. Also, other factors may be added.

[発明の効果] 以上のように本発明によれば、認識結果について信頼指
数を求め、この信頼指数に基づいて誤読文字を検索する
ので、誤読文字の修正を容易、かつ効率的に行なうこと
が可能となるものである。
[Effects of the Invention] As described above, according to the present invention, a confidence index is obtained for the recognition result and misread characters are searched based on this confidence index, so misread characters can be corrected easily and efficiently. It is possible.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の一実施例に係わるOCRシステムの構
成を示すブロック図、第2図は処理対象とする帳票の一
例を示す図、第3図は第2図に寥結果、及びフィールド
単位の信頼指数の対応を示す図である。 10・・・OCR装置、12・・・スキャナ部、14・
・・認識部、1B・・・OCRインターフェイス部、2
0・・・OCR制御装置、22・・・制御部、24・・
・CRT、26・・・キーボード、28・・・OCR制
御装置インターフェイス。
FIG. 1 is a block diagram showing the configuration of an OCR system according to an embodiment of the present invention, FIG. 2 is a diagram showing an example of a form to be processed, and FIG. 3 shows the actual results and field units in FIG. FIG. 10...OCR device, 12...scanner section, 14.
...Recognition section, 1B...OCR interface section, 2
0...OCR control device, 22...control unit, 24...
- CRT, 26...Keyboard, 28...OCR control device interface.

Claims (1)

【特許請求の範囲】 文字読取り結果に対する誤読文字修正機能を有するOC
Rシステムにおいて、 文字読取り結果について確からしさを示す信頼指数を所
定単位毎に求める信頼指数設定手段と、前記信頼指数設
定手段によって求められた信頼指数に基づいて、誤読文
字修正の対象とする文字を検索する検索手段と、 を具備したことを特徴とするOCRシステム。
[Claims] OC having a function of correcting misread characters for character reading results
In the R system, a confidence index setting means for obtaining a confidence index indicating the certainty of character reading results for each predetermined unit, and a character to be corrected for misread characters based on the confidence index obtained by the confidence index setting means. An OCR system characterized by comprising a search means for searching, and the following.
JP2228660A 1990-08-30 1990-08-30 OCR system Expired - Lifetime JP3037727B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2228660A JP3037727B2 (en) 1990-08-30 1990-08-30 OCR system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2228660A JP3037727B2 (en) 1990-08-30 1990-08-30 OCR system

Publications (2)

Publication Number Publication Date
JPH04109379A true JPH04109379A (en) 1992-04-10
JP3037727B2 JP3037727B2 (en) 2000-05-08

Family

ID=16879818

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2228660A Expired - Lifetime JP3037727B2 (en) 1990-08-30 1990-08-30 OCR system

Country Status (1)

Country Link
JP (1) JP3037727B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0541262A2 (en) * 1991-10-30 1993-05-12 Canon Kabushiki Kaisha Unified scanner computer printer
JP2007148334A (en) * 2005-11-02 2007-06-14 Nippon Shokubai Co Ltd Light diffusing plate for liquid crystal display apparatus and its manufacturing method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0541262A2 (en) * 1991-10-30 1993-05-12 Canon Kabushiki Kaisha Unified scanner computer printer
JP2007148334A (en) * 2005-11-02 2007-06-14 Nippon Shokubai Co Ltd Light diffusing plate for liquid crystal display apparatus and its manufacturing method

Also Published As

Publication number Publication date
JP3037727B2 (en) 2000-05-08

Similar Documents

Publication Publication Date Title
JPH08293001A (en) Image processing unit and method and optical character recognition unit and method
JPH04109379A (en) Ocr system
JPH11213087A (en) Character recognition device
JPH07129713A (en) Character recognition device
JPH0331981A (en) Character recognizing device
JP2829002B2 (en) Character recognition device
JPH0388086A (en) Document reader
JP3157530B2 (en) Character extraction method
JPH06251187A (en) Method and device for correcting character recognition error
JPH0589190A (en) Drawing information checking system
JP2529421B2 (en) Character recognition device
JPH06333083A (en) Optical character reader
JP3717971B2 (en) Corresponding display method of recognized character and image data and character recognition device
KR20030018519A (en) The Easy Chinese Character Input and Correction Method using Image Retrieval Technologies
JPS62281082A (en) Character recognizing device
JPH0318987A (en) Dictionary registering method
JPH0721303A (en) Character recognizing device
JPH0436885A (en) Optical character reader
JP3077580B2 (en) Character reader
JPH03185582A (en) Dictionary correction system for character recognizing device
JPH05120472A (en) Character recognizing device
JPH01189788A (en) Character reader
JPH06251186A (en) Method and device for correcting character recognition error
JPH0362280A (en) Character reading device
JPH01261794A (en) Display method for character recognizing system

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080225

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090225

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100225

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100225

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110225

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110225

Year of fee payment: 11