JPH06119484A - Character recognizing device - Google Patents

Character recognizing device

Info

Publication number
JPH06119484A
JPH06119484A JP4265836A JP26583692A JPH06119484A JP H06119484 A JPH06119484 A JP H06119484A JP 4265836 A JP4265836 A JP 4265836A JP 26583692 A JP26583692 A JP 26583692A JP H06119484 A JPH06119484 A JP H06119484A
Authority
JP
Japan
Prior art keywords
character
recognition
unit
pattern group
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4265836A
Other languages
Japanese (ja)
Inventor
Michiaki Nobuoka
道明 信岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP4265836A priority Critical patent/JPH06119484A/en
Publication of JPH06119484A publication Critical patent/JPH06119484A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To provide the high-workability character recognizing device for simultaneously correcting the recognized result of the same character in characters at low recognizing certainly. CONSTITUTION:This device is provided with an image input part 1 for converting a recognizing object document to image data, circumscribed rectangle detection part 3 for detecting any rectangle circumscribed to characters in the image data, a character pattern group classification part 10 for classifying character patterns in the circumscribed rectangle into character pattern group corresponding to an overlap method, graphic feature extraction part 12 for extracting the distribution of black picture elements in the representative pattern of the character pattern group, recognition dictionary 5 storing the graphic features of the recognizing object character, character recognition part 6 for calculating the recognized result by comparing the graphic feature with the recognition dictionary 5, recognized result storage part 7 for storing the recognized result, simultaneous recognized result correction part 13 for correcting the recognized result of the same character pattern group of the low recognition certainly character by inputting the proper recognized result to that character, and recognized result output part 9 for outputting the corrected recognized result.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は新聞,雑誌,小説など
の、活字,ドット文字及び手書き文字パターンをJIS
コード等のコード情報に変換する文字認識装置に関する
ものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention is used for printing characters, dot characters and handwritten character patterns of newspapers, magazines, novels, etc. according to JIS.
The present invention relates to a character recognition device for converting code information such as a code.

【0002】[0002]

【従来の技術】近年、文字認識装置を電子計算機等の入
力装置として利用する要求が高まっており、安定した認
識結果を効率的に得ることができる文字認識装置が電子
計算機等のシステムの性能向上に不可欠となっている。
2. Description of the Related Art In recent years, there is an increasing demand for using a character recognition device as an input device for a computer or the like, and a character recognition device capable of efficiently obtaining a stable recognition result improves the performance of a system such as a computer. Has become essential.

【0003】以下に従来の文字認識装置について説明す
る。図7は従来の文字認識装置の機能ブロック図であ
る。
A conventional character recognition device will be described below. FIG. 7 is a functional block diagram of a conventional character recognition device.

【0004】1は認識対象文書を2値画像として入力し
画像データに変換する画像入力部、2は画像入力部1よ
り出力された画像データを格納する画像データ格納部、
3は画像データ格納部2に格納されている画像データ中
の文字に外接する矩形を黒画素の連なりを基に検出する
外接矩形検出部、4は外接矩形検出部3で検出された外
接矩形内の黒画素の分布を図形特徴として抽出する図形
特徴抽出部、5は予め全ての認識対象文字の図形特徴を
記憶している認識辞書、6は図形特徴抽出部4で抽出し
た図形特徴と認識辞書5とを比較し類似する特徴を有す
る文字を認識結果とする文字認識部、7は文字認識部6
で求めた認識結果を格納する認識結果格納部、8は認識
結果格納部7に格納されている認識確度の低い文字に対
して正しい認識結果を入力して認識結果を修正する認識
結果修正部、9は認識結果格納部7に格納されている修
正された認識結果を出力する認識結果出力部である。
Reference numeral 1 is an image input unit for inputting a recognition target document as a binary image and converting it into image data, and 2 is an image data storage unit for storing the image data output from the image input unit 1.
Reference numeral 3 denotes a circumscribing rectangle detection unit that detects a rectangle circumscribing a character in the image data stored in the image data storage unit 2 based on a series of black pixels. Reference numeral 4 indicates a circumscribed rectangle detected by the circumscribed rectangle detection unit 3. Feature extraction unit for extracting the distribution of black pixels as the feature features, 5 is a recognition dictionary that stores the feature features of all recognition target characters in advance, and 6 is the feature feature and recognition dictionary extracted by the feature feature extraction unit 4. 5 is a character recognition unit that compares characters with 5 as a recognition result, and 7 is a character recognition unit 6.
A recognition result storage unit for storing the recognition result obtained in step 8; a recognition result correction unit 8 for inputting a correct recognition result for a character with low recognition accuracy stored in the recognition result storage unit 7 and correcting the recognition result; A recognition result output unit 9 outputs the corrected recognition result stored in the recognition result storage unit 7.

【0005】以上のように構成された文字認識装置につ
いて、以下その動作を説明する。始めに、画像入力部1
によって認識対象文書を2値画像として入力し、画像デ
ータに変換して画像データ格納部2に格納する。
The operation of the character recognizing device constructed as above will be described below. First, the image input section 1
The document to be recognized is input as a binary image, converted into image data, and stored in the image data storage unit 2.

【0006】次に、外接矩形検出部3によって画像デー
タ格納部2に格納されている画像データ中の文字に外接
する矩形を黒画素の連なりを基に検出し、図形特徴抽出
部4によってその外接矩形内の黒画素の分布を図形特徴
として抽出する。
Next, the circumscribing rectangle detection unit 3 detects a rectangle circumscribing a character in the image data stored in the image data storage unit 2 based on a series of black pixels, and the figure feature extraction unit 4 circumscribes the rectangle. The distribution of black pixels in the rectangle is extracted as a graphic feature.

【0007】次に、文字認識部6によって図形特徴抽出
部4で抽出した図形特徴と認識辞書5とを比較し類似す
る特徴を有する文字を認識結果とし、認識結果格納部7
に格納する。
Next, the character recognition unit 6 compares the graphic features extracted by the graphic feature extraction unit 4 with the recognition dictionary 5 and sets the characters having similar features as a recognition result, and the recognition result storage unit 7
To store.

【0008】次に、認識結果修正部8によって、認識結
果格納部7に格納されている認識結果を表示するととも
に、認識確度の低い文字に対して利用者に認識結果の確
認を求め、誤認識である場合は、利用者が正しい文字を
入力することにより認識結果を修正する。
Next, the recognition result correction unit 8 displays the recognition result stored in the recognition result storage unit 7 and asks the user to confirm the recognition result for a character having a low recognition accuracy. If it is, the user corrects the recognition result by inputting the correct character.

【0009】次に、認識結果出力部9によって認識結果
格納部7に格納されている修正された認識結果を出力す
る。
Next, the recognition result output unit 9 outputs the corrected recognition result stored in the recognition result storage unit 7.

【0010】[0010]

【発明が解決しようとする課題】しかしながら上記従来
の構成では、全ての認識確度の低い文字に対して個々に
認識結果の修正を行っていたために、認識確度の低い文
字のなかに同じ文字がある場合でも、1文字ずつ認識結
果を修正しなければならず、煩雑で作業性に欠けるとい
う問題点があった。
However, in the above-mentioned conventional configuration, since the recognition result is individually corrected for all the characters having low recognition accuracy, the same character exists among the characters having low recognition accuracy. Even in such a case, the recognition result must be corrected character by character, which is complicated and lacks workability.

【0011】本発明は上記従来の問題点を解決するもの
で、認識確度の低い文字のなかに同じ文字がある場合
に、それらの認識結果を一括して修正することのできる
作業性に優れた文字認識装置を提供することを目的とす
る。
The present invention solves the above-mentioned conventional problems, and when there are the same characters among the characters with low recognition accuracy, it is possible to collectively correct the recognition results, which is excellent in workability. An object is to provide a character recognition device.

【0012】[0012]

【課題を解決するための手段】この目的を達成するため
に本発明の文字認識装置は、認識対象文書を入力し画像
データに変換する画像入力部と、画像入力部より出力さ
れた画像データを格納する画像データ格納部と、画像デ
ータ格納部に格納されている画像データ中の文字に外接
する矩形を黒画素の連なりを基に検出する外接矩形検出
部と、外接矩形検出部で検出された外接矩形内の文字パ
ターンを重ね合わせ法により文字パターン群に分類する
文字パターン群分類部と、文字パターン群分類部におい
て分類された文字パターン群を格納する文字パターン群
分類結果格納部と、文字パターン群分類部で分類された
文字パターン群の代表パターン内の黒画素の分布を図形
特徴として抽出する図形特徴抽出部と、予め全ての認識
対象文字の図形特徴を記憶している認識辞書と、図形特
徴抽出部で抽出した図形特徴と認識辞書との比較により
認識結果を求める文字認識部と、文字認識部で求めた認
識結果を格納する認識結果格納部と、認識結果格納部に
格納されている認識確度の低い文字に対して正しい認識
結果を入力して文字パターン群分類結果格納部に格納さ
れているその文字と同じ文字パターン群の全ての認識結
果を修正する認識結果一括修正部と、認識結果格納部に
格納されている修正された認識結果を出力する認識結果
出力部と、を備えた構成を有している。
In order to achieve this object, a character recognition apparatus of the present invention comprises an image input section for inputting a document to be recognized and converting it into image data, and an image data output from the image input section. An image data storage unit to store, a circumscribed rectangle detection unit that detects a rectangle circumscribing a character in the image data stored in the image data storage unit based on a series of black pixels, and a circumscribed rectangle detection unit. A character pattern group classification unit that classifies the character patterns in the circumscribed rectangle into a character pattern group by the superposition method, a character pattern group classification result storage unit that stores the character pattern group classified by the character pattern group classification unit, and a character pattern. A graphic feature extraction unit that extracts the distribution of black pixels in the representative pattern of the character pattern group classified by the group classification unit as a graphic feature, and a graphic feature of all recognition target characters in advance. A recognition dictionary that stores the recognition result, a character recognition unit that obtains a recognition result by comparing the figure feature extracted by the figure feature extraction unit with the recognition dictionary, and a recognition result storage unit that stores the recognition result obtained by the character recognition unit. , Input a correct recognition result for a character with low recognition accuracy stored in the recognition result storage unit and display all recognition results of the same character pattern group as that character stored in the character pattern group classification result storage unit. It has a configuration including a recognition result batch correction unit for correction and a recognition result output unit for outputting the corrected recognition result stored in the recognition result storage unit.

【0013】[0013]

【作用】この構成によって、画像データ内の文字を文字
パターン群に分類し、文字認識を行った後に、認識確度
の低い文字に対して正しい認識結果を入力してその文字
と同じ文字パターン群の全ての認識結果を修正すること
により、認識確度の低い文字の中の同じ文字の認識結果
を一括して修正することができる。
With this configuration, the characters in the image data are classified into character pattern groups, and after the character recognition is performed, a correct recognition result is input for a character having a low recognition accuracy and the same character pattern group as that character is recognized. By correcting all the recognition results, it is possible to collectively correct the recognition results of the same character among the characters with low recognition accuracy.

【0014】[0014]

【実施例】以下本発明の一実施例について、図面を参照
しながら説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings.

【0015】図1は本発明の一実施例における文字認識
装置の機能ブロック図であり、図2は文字認識装置の装
置ブロック図である。
FIG. 1 is a functional block diagram of a character recognition device according to an embodiment of the present invention, and FIG. 2 is a device block diagram of the character recognition device.

【0016】1は画像入力部、2は画像データ格納部、
3は外接矩形検出部、5は認識辞書、6は文字認識部、
7は認識結果格納部、9は認識結果出力部であり、これ
らは従来例と同様なものなので同一の番号を付し説明を
省略する。
1 is an image input unit, 2 is an image data storage unit,
3 is a circumscribed rectangle detection unit, 5 is a recognition dictionary, 6 is a character recognition unit,
Reference numeral 7 is a recognition result storage unit, and 9 is a recognition result output unit. Since these are similar to those in the conventional example, the same reference numerals are given and description thereof is omitted.

【0017】10は外接矩形検出部3で検出された外接
矩形内の文字パターンを重ね合わせ法により文字パター
ン群に分類する文字パターン群分類部、11は文字パタ
ーン群分類部10において分類された文字パターン群を
格納する文字パターン群分類結果格納部、12は文字パ
ターン群分類部10で分類された文字パターン群の代表
パターン内の黒画素の分布を図形特徴として抽出する図
形特徴抽出部、13は認識結果格納部7に格納されてい
る認識結果を表示して認識確度の低い文字に対して利用
者の確認を求め誤認識の場合に利用者が正しい認識結果
を入力して文字パターン群分類結果格納部11に格納さ
れているその文字と同じ文字パターン群の全ての認識結
果を修正する認識結果一括修正部である。
Reference numeral 10 is a character pattern group classification unit for classifying the character patterns in the circumscribed rectangle detected by the circumscribed rectangle detection unit 3 into a character pattern group by the superposition method, and 11 is a character classified by the character pattern group classification unit 10. A character pattern group classification result storage unit for storing the pattern group, 12 is a graphic feature extraction unit for extracting the distribution of black pixels in the representative pattern of the character pattern group classified by the character pattern group classification unit 10 as a graphic feature, and 13 is The recognition result stored in the recognition result storage unit 7 is displayed and the user's confirmation is requested for a character with low recognition accuracy. In case of misrecognition, the user inputs the correct recognition result and the character pattern group classification result It is a recognition result batch correction unit that corrects all recognition results of the same character pattern group stored in the storage unit 11 as the character.

【0018】図2において、14は認識対象文書を2値
画像として読み込み画像データに変換するスキャナ、1
5は全ての処理を行う中央処理装置(以下CPUと略
す)、16はCPU15に対する外部よりの認識開始・
終了の指示及び修正する認識結果の入力等を行うキーボ
ード、17はCPU15に与えられる指示を記述したプ
ログラムを記憶する制御プログラム領域18と、認識辞
書5の内容を記憶する認識辞書領域19と、を備えたリ
ードオンリメモリ、20はスキャナ14より出力される
画像データを記憶する画像データ領域21と、外接矩形
検出部3により検出された外接矩形が記憶される外接矩
形領域22と、文字パターン群分類部10により分類さ
れた文字パターン群が記憶される文字パターン群領域2
3と、認識結果が記憶される認識結果領域24と、を備
えたランダムアクセスメモリ、25は認識結果等を表示
する表示装置、26はCPU15とスキャナ14等とを
接続する内部バスである。
In FIG. 2, reference numeral 14 is a scanner for reading a document to be recognized as a binary image and converting it into image data.
Reference numeral 5 is a central processing unit (hereinafter abbreviated as CPU) that performs all processing, and 16 is a start of recognition of the CPU 15 from outside
A keyboard 17 for inputting an end instruction and a recognition result to be corrected, a control program area 18 for storing a program describing an instruction given to the CPU 15, and a recognition dictionary area 19 for storing the contents of the recognition dictionary 5. A read-only memory 20 includes an image data area 21 for storing image data output from the scanner 14, a circumscribing rectangular area 22 for storing the circumscribing rectangle detected by the circumscribing rectangle detecting unit 3, and a character pattern group classification. Character pattern group area 2 in which the character pattern group classified by the unit 10 is stored
3, a random access memory including a recognition result area 24 in which the recognition result is stored, 25 is a display device for displaying the recognition result, and 26 is an internal bus connecting the CPU 15 and the scanner 14 or the like.

【0019】以上のように構成された本実施例の文字認
識装置について、以下その動作を説明する。
The operation of the character recognition apparatus of this embodiment having the above-described structure will be described below.

【0020】図3は本実施例における文字認識装置のフ
ローチャートである。始めに、画像入力部1により認識
対象文書を入力して画像データに変換し、画像データ格
納部2に格納する(S1)。
FIG. 3 is a flow chart of the character recognition device in this embodiment. First, a document to be recognized is input by the image input unit 1, converted into image data, and stored in the image data storage unit 2 (S1).

【0021】次に、外接矩形検出部3により画像データ
中の近傍で連結している黒画素の集まりを1つの文字パ
ターンとして、その文字パターンに外接する矩形を検出
し、内部データとして格納する(S2)。
Next, the circumscribed rectangle detection unit 3 detects a rectangle circumscribing the character pattern by using a set of black pixels connected in the vicinity in the image data as one character pattern and stores it as internal data ( S2).

【0022】ここで、微小矩形が存在し且つ、その矩形
の垂直方向の近傍に矩形が存在する場合、i.j等の分
離文字と見なし統合する。
If a small rectangle exists and a rectangle exists in the vicinity of the rectangle in the vertical direction, i. It is regarded as a separated character such as j and integrated.

【0023】次に、文字パターン群分類部10により外
接矩形検出部3で検出された外接矩形内の文字パターン
を重ね合わせ法により文字パターン群に分類し、文字パ
ターン群分類結果格納部11に格納する(S3)。
Next, the character pattern group classification unit 10 classifies the character patterns in the circumscribed rectangle detected by the circumscribed rectangle detection unit 3 into character pattern groups by the superposition method and stores them in the character pattern group classification result storage unit 11. Yes (S3).

【0024】次に、図形特徴抽出部12により文字パタ
ーン群分類部10で分類された文字パターン群の代表パ
ターン内の黒画素の分布を図形特徴として画像データ格
納部2から抽出する(S4)。
Next, the distribution of black pixels in the representative pattern of the character pattern group classified by the character pattern group classification unit 10 is extracted from the image data storage unit 2 by the graphic feature extraction unit 12 as a graphic feature (S4).

【0025】次に、文字認識部6により図形特徴抽出部
12で抽出された図形特徴と認識辞書5とを比較し、類
似する特徴を有する文字を認識結果として認識結果格納
部7に格納する(S5)。
Next, the character recognition unit 6 compares the graphic features extracted by the graphic feature extraction unit 12 with the recognition dictionary 5 and stores characters having similar features in the recognition result storage unit 7 as a recognition result ( S5).

【0026】次に、認識結果一括修正部13により認識
結果格納部7に格納されている認識結果を表示装置25
により表示し、認識確度の低い文字に対して利用者に認
識結果の確認を行う。誤認識していた場合、利用者に正
しい認識結果をキーボード16より入力させ、その文字
と同じ文字パターン群に属する全ての文字パターンを文
字パターン群分類結果格納部11より抽出し、抽出され
た文字パターンの認識結果を入力された認識結果へと修
正する(S6)。
Next, the recognition result batch correction unit 13 displays the recognition results stored in the recognition result storage unit 7 on the display device 25.
Is displayed to confirm the recognition result to the user for characters with low recognition accuracy. When the character is erroneously recognized, the user inputs the correct recognition result from the keyboard 16, all character patterns belonging to the same character pattern group as the character are extracted from the character pattern group classification result storage unit 11, and the extracted character is extracted. The pattern recognition result is corrected to the input recognition result (S6).

【0027】次に、認識結果出力部9により認識結果格
納部7に格納されている修正された認識結果を出力し、
認識対象文書に対する最終的な認識結果を得る(S
7)。
Next, the recognition result output unit 9 outputs the corrected recognition result stored in the recognition result storage unit 7,
Obtain the final recognition result for the document to be recognized (S
7).

【0028】ここで、本実施例の文字認識装置の動作の
具体例を、図4(a)に示す認識対象文書を用いて説明
する。
Here, a specific example of the operation of the character recognition apparatus of this embodiment will be described using the recognition target document shown in FIG.

【0029】図4(a)は認識対象文書を示す図であ
る。始めに、認識対象文書を入力し、外接矩形検出処理
を行い、文字パターン群分類処理を行う(S1〜3)。
FIG. 4A shows a document to be recognized. First, a recognition target document is input, circumscribing rectangle detection processing is performed, and character pattern group classification processing is performed (S1 to 3).

【0030】図4(a)に示す認識対象文書に対する文
字パターン群分類処理結果を図4(b)に示す。
FIG. 4B shows the character pattern group classification processing result for the recognition target document shown in FIG. 4A.

【0031】図4(b)は文字パターン群分類処理結果
を示す図である。ここで、各欄の上段は文字パターン、
下段は文字パターン番号を示す。文字パターン番号は文
頭から順番に付けられ、文字パターン番号1は文字パタ
ーン「T」のパターン群に、文字パターン番号22は文
字パターン「th」のパターン群に付けられている。図
4(a)に示す認識対象文書は、25の文字パターン群
に分類される。
FIG. 4B is a diagram showing the result of character pattern group classification processing. Here, the upper part of each column is a character pattern,
The lower row shows character pattern numbers. The character pattern numbers are assigned in order from the beginning of the sentence, the character pattern number 1 is assigned to the pattern group of the character pattern "T", and the character pattern number 22 is assigned to the pattern group of the character pattern "th". The recognition target document shown in FIG. 4A is classified into 25 character pattern groups.

【0032】次に、分類された文字パターン群の代表パ
ターンに対して、図形特徴抽出処理を行い、文字認識処
理を行う(S4〜5)。
Next, graphic feature extraction processing is performed on the representative pattern of the classified character pattern group, and character recognition processing is performed (S4-5).

【0033】図4(b)に示す文字パターン群分類処理
結果に対する文字認識結果を図5に示す。
FIG. 5 shows the character recognition result for the character pattern group classification processing result shown in FIG. 4 (b).

【0034】図5は文字認識結果を示す図である。ここ
で、各欄の上段は認識結果、下段は文字パターン番号を
示す。認識結果「*」は認識辞書5内に類似する文字が
なかったことを示す記号である。また、網かけがなされ
ている文字は、認識確度が低いことを示している。
FIG. 5 is a diagram showing the result of character recognition. Here, the upper row of each column shows the recognition result, and the lower row shows the character pattern number. The recognition result “*” is a symbol indicating that there is no similar character in the recognition dictionary 5. The shaded characters indicate that the recognition accuracy is low.

【0035】次に、認識結果一括修正処理を行う(S
6)。まず、図5に示す文字認識結果を表示し、認識確
度の低い文字パターン番号14の文字パターン「l」の
認識結果「l」に対して利用者の修正を求める。利用者
が文字パターン番号14に対する正しい認識結果が
「l」である事をキーボード16より入力すると、文字
パターン番号14に分類された全ての文字パターン群の
認識結果を「l」に修正する。
Next, recognition result batch correction processing is performed (S
6). First, the character recognition result shown in FIG. 5 is displayed, and the correction of the user is requested for the recognition result “l” of the character pattern “l” of the character pattern number 14 having low recognition accuracy. When the user inputs from the keyboard 16 that the correct recognition result for the character pattern number 14 is "1", the recognition results of all the character pattern groups classified into the character pattern number 14 are corrected to "1".

【0036】図5に示す文字認識結果に対する、この時
の認識結果一括変換処理中の状態を図6(a)に示す。
FIG. 6A shows a state in which the recognition result batch conversion process is being performed at this time for the character recognition result shown in FIG.

【0037】図6(a)は認識結果一括変換処理中の状
態を示す図である。ここで、一回の入力によって、認識
結果中の「platitudinous」,「by−a
nd−large」,「only」,「success
ful」,「real」,「problems」,「d
evelopment」に含まれる7個の文字パターン
「l」の認識結果が一括して「l」に修正される。
FIG. 6A is a diagram showing a state in which the recognition result batch conversion process is being performed. Here, “platitudinous” and “by-a” in the recognition result are input by one time.
nd-large "," only "," success "
"ful", "real", "problems", "d"
The recognition results of the seven character patterns “l” included in “evolution” are collectively corrected to “l”.

【0038】次に、認識確度の低い文字パターン番号2
2の文字パターン「th」の認識結果「*」に対して利
用者の修正を求める。利用者が文字パターン番号22に
対する正しい認識結果が「th」である事をキーボード
16より入力すると、文字パターン番号22に分類され
た全ての文字パターン群の認識結果を「th」に修正す
る。
Next, character pattern number 2 with low recognition accuracy
The user is requested to correct the recognition result “*” of the character pattern “th” of No. 2. When the user inputs from the keyboard 16 that the correct recognition result for the character pattern number 22 is "th", the recognition results of all the character pattern groups classified into the character pattern number 22 are corrected to "th".

【0039】ここで、一回の入力によって、認識結果中
の6個の文字パターン「th」の認識結果が一括して
「th」に修正される。
Here, the recognition result of the six character patterns “th” in the recognition result is collectively corrected to “th” by one input.

【0040】次に、認識結果出力処理を行う(S7)。
図6(b)に出力される修正された認識結果を示す。
Next, recognition result output processing is performed (S7).
The corrected recognition result output to FIG.6 (b) is shown.

【0041】図6(b)は修正された認識結果を示す図
である。図6(b)より明らかなように、以上の処理に
よって、図4(a)に示す認識対象文書を正しく認識す
ることが判る。
FIG. 6B is a diagram showing the corrected recognition result. As is clear from FIG. 6B, it can be understood that the recognition target document shown in FIG. 4A is correctly recognized by the above processing.

【0042】[0042]

【発明の効果】以上のように本発明は、画像データ内の
文字を文字パターン群に分類し、文字認識を行った後
に、認識確度の低い文字に対して正しい認識結果を入力
してその文字と同じ文字パターン群の全ての認識結果を
入力されたものに修正することにより、認識確度の低い
文字の中の同じ文字の認識結果を一括して修正すること
ができる作業性に優れた文字認識装置を実現できるもの
である。
As described above, according to the present invention, the characters in the image data are classified into the character pattern group, and after the character recognition is performed, the correct recognition result is input to the character with low recognition accuracy and the character is recognized. By correcting all the recognition results of the same character pattern group as the input one, it is possible to collectively correct the recognition results of the same character among the characters with low recognition accuracy Character recognition with excellent workability The device can be realized.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例における文字認識装置の機能
ブロック図
FIG. 1 is a functional block diagram of a character recognition device according to an embodiment of the present invention.

【図2】本発明の一実施例における文字認識装置の装置
ブロック図
FIG. 2 is a device block diagram of a character recognition device according to an embodiment of the present invention.

【図3】本発明の一実施例における文字認識装置の制御
手順を示すフローチャート
FIG. 3 is a flowchart showing a control procedure of the character recognition device in the embodiment of the present invention.

【図4】(a)本実施例における認識対象文書の例を示
す図 (b)その認識対象文書を文字パターン群分類処理を行
った結果を示す図
FIG. 4A is a diagram showing an example of a recognition target document in the present embodiment. FIG. 4B is a diagram showing a result of performing character pattern group classification processing on the recognition target document.

【図5】図4の認識対象文書の文字認識結果を示す図5 is a diagram showing a character recognition result of the recognition target document in FIG. 4;

【図6】(a)本実施例における認識結果一括変換処理
中の状態を示す図 (b)その修正された認識結果を示す図
FIG. 6A is a diagram showing a state in which a recognition result batch conversion process is being performed in this embodiment. FIG. 6B is a diagram showing the corrected recognition result.

【図7】従来の文字認識装置の機能ブロック図FIG. 7 is a functional block diagram of a conventional character recognition device.

【符号の説明】[Explanation of symbols]

1 画像入力部 2 画像データ格納部 3 外接矩形検出部 4 図形特徴抽出部 5 認識辞書 6 文字認識部 7 認識結果格納部 8 認識結果修正部 9 認識結果出力部 10 文字パターン群分類部 11 文字パターン群分類結果格納部 12 図形特徴抽出部 13 認識結果一括修正部 14 スキャナ 15 CPU 16 キーボード 17 リードオンリメモリ 18 制御プログラム領域 19 認識辞書領域 20 ランダムアクセスメモリ 21 画像データ領域 22 外接矩形領域 23 文字パターン群領域 24 認識結果領域 25 表示装置 26 内部バス 1 image input unit 2 image data storage unit 3 circumscribed rectangle detection unit 4 figure feature extraction unit 5 recognition dictionary 6 character recognition unit 7 recognition result storage unit 8 recognition result correction unit 9 recognition result output unit 10 character pattern group classification unit 11 character pattern Group classification result storage unit 12 Graphic feature extraction unit 13 Recognition result batch correction unit 14 Scanner 15 CPU 16 Keyboard 17 Read-only memory 18 Control program area 19 Recognition dictionary area 20 Random access memory 21 Image data area 22 Outer rectangle area 23 Character pattern group Area 24 Recognition result area 25 Display device 26 Internal bus

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】認識対象文書を入力し画像データに変換す
る画像入力部と、前記画像入力部より出力された画像デ
ータを格納する画像データ格納部と、前記画像データ格
納部に格納されている画像データ中の文字に外接する矩
形を黒画素の連なりを基に検出する外接矩形検出部と、
前記外接矩形検出部で検出された外接矩形内の文字パタ
ーンを重ね合わせ法により文字パターン群に分類する文
字パターン群分類部と、前記文字パターン群分類部にお
いて分類された文字パターン群を格納する文字パターン
群分類結果格納部と、前記文字パターン群分類部で分類
された文字パターン群の代表パターン内の黒画素の分布
を図形特徴として抽出する図形特徴抽出部と、予め全て
の認識対象文字の図形特徴を記憶している認識辞書と、
前記図形特徴抽出部で抽出した図形特徴と前記認識辞書
との比較により認識結果を求める文字認識部と、前記文
字認識部で求めた認識結果を格納する認識結果格納部
と、前記認識結果格納部に格納されている認識確度の低
い文字に対して正しい認識結果を入力して前記文字パタ
ーン群分類結果格納部に格納されているその文字と同じ
文字パターン群の全ての認識結果を修正する認識結果一
括修正部と、前記認識結果格納部に格納されている修正
された認識結果を出力する認識結果出力部と、を備えた
ことを特徴とする文字認識装置。
1. An image input unit for inputting a document to be recognized and converting it into image data, an image data storage unit for storing the image data output from the image input unit, and an image data storage unit for storing the image data. A circumscribed rectangle detection unit that detects a rectangle circumscribing a character in image data based on a series of black pixels,
A character pattern group classification unit that classifies the character patterns in the circumscribed rectangle detected by the circumscribed rectangle detection unit into a character pattern group by a superposition method, and a character that stores the character pattern group classified by the character pattern group classification unit. A pattern group classification result storage unit, a graphic feature extraction unit that extracts the distribution of black pixels in the representative pattern of the character pattern group classified by the character pattern group classification unit as a graphic feature, and graphics of all recognition target characters in advance. A recognition dictionary that stores features,
A character recognition unit that obtains a recognition result by comparing the graphic feature extracted by the graphic feature extraction unit with the recognition dictionary, a recognition result storage unit that stores the recognition result obtained by the character recognition unit, and the recognition result storage unit A recognition result for inputting a correct recognition result for a character having a low recognition accuracy stored in and correcting all recognition results of the same character pattern group as that character stored in the character pattern group classification result storage section. A character recognition device comprising: a batch correction unit; and a recognition result output unit that outputs a corrected recognition result stored in the recognition result storage unit.
JP4265836A 1992-10-05 1992-10-05 Character recognizing device Pending JPH06119484A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4265836A JPH06119484A (en) 1992-10-05 1992-10-05 Character recognizing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4265836A JPH06119484A (en) 1992-10-05 1992-10-05 Character recognizing device

Publications (1)

Publication Number Publication Date
JPH06119484A true JPH06119484A (en) 1994-04-28

Family

ID=17422739

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4265836A Pending JPH06119484A (en) 1992-10-05 1992-10-05 Character recognizing device

Country Status (1)

Country Link
JP (1) JPH06119484A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010055142A (en) * 2008-08-26 2010-03-11 Fuji Xerox Co Ltd Document processing apparatus and program
JP2011238119A (en) * 2010-05-12 2011-11-24 Toshiba Corp Character reading result confirmation device and character reading result confirmation method

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010055142A (en) * 2008-08-26 2010-03-11 Fuji Xerox Co Ltd Document processing apparatus and program
US8280175B2 (en) 2008-08-26 2012-10-02 Fuji Xerox Co., Ltd. Document processing apparatus, document processing method, and computer readable medium
JP2011238119A (en) * 2010-05-12 2011-11-24 Toshiba Corp Character reading result confirmation device and character reading result confirmation method
US8411957B2 (en) 2010-05-12 2013-04-02 Kabushiki Kaisha Toshiba Character recognition result verification apparatus and character recognition result verification method

Similar Documents

Publication Publication Date Title
JPH11102414A (en) Method and device for correcting optical character recognition by using bitmap selection and computer-readable record medium record with series of instructions to correct ocr output error
EP0584776A2 (en) Information processing method and apparatus
US6958755B1 (en) Personalized computer fonts
JPH06119484A (en) Character recognizing device
JP3215176B2 (en) Document image processing apparatus and document image processing method
CN115311666A (en) Image-text recognition method and device, computer equipment and storage medium
US11270146B2 (en) Text location method and apparatus
JP3440501B2 (en) Driver's license recognition device
JP2703559B2 (en) Character recognition support device
JP2763042B2 (en) Image processing method
JPH0916713A (en) Image area dividing method
JPH117493A (en) Character recognition processor
JP2640472B2 (en) Character recognition method
JPH05307644A (en) Character recognizing device
JP2687902B2 (en) Document image recognition device
JPH0737038A (en) Character recognizing device
JPH0728930A (en) Character recognition device
JPH0589190A (en) Drawing information checking system
JPH0830725A (en) Device and method for processing image
JPH06309503A (en) English character recognizing device
JP2962525B2 (en) Text block recognition method
JPH08297718A (en) Character segmentation device and character recognition device
JPH05298487A (en) Alphabet recognizing device
JPH053631B2 (en)
JPS63204486A (en) Character input device