JP2000187704A - Character recognition device, its method and storage medium - Google Patents

Character recognition device, its method and storage medium

Info

Publication number
JP2000187704A
JP2000187704A JP10365509A JP36550998A JP2000187704A JP 2000187704 A JP2000187704 A JP 2000187704A JP 10365509 A JP10365509 A JP 10365509A JP 36550998 A JP36550998 A JP 36550998A JP 2000187704 A JP2000187704 A JP 2000187704A
Authority
JP
Japan
Prior art keywords
character
correction
character recognition
similarity
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10365509A
Other languages
Japanese (ja)
Inventor
Tadanori Nakatsuka
忠則 中塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP10365509A priority Critical patent/JP2000187704A/en
Publication of JP2000187704A publication Critical patent/JP2000187704A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

PROBLEM TO BE SOLVED: To make it possible to make a user more accurately know characters whose similarity is uncertain and to improve the usability of the character recognition device. SOLUTION: When an image is inputted in a step S31, a character is segmented from the inputted image in a step S32. In a step S33, character recognition processing is applied to each character segmented in the step S32 to obtain respective similarity. In a step S34, the similarity obtained by the character recognition processing in the step S33 is corrected based on the size (segmenting size) of each character segmented in the step S32. In the case of displaying a recognized result in a step S35, the recognized result is provided to a user by changing the colors of characters e.g. so as to discriminate a recognized result whose similarity is lower than a prescribed threshold.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は入力された画像デー
タ中に存在するパターンに基づいて文字を認識する文字
認識装置及びその方法に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition apparatus and method for recognizing characters based on a pattern existing in input image data.

【0002】[0002]

【従来の技術】一般に、文字認識装置は文字画像をいく
つかに分割してそれぞれの領域ごとに文字の方向成分を
取り出し、あらかじめ記憶している認識対象文字の方向
成分と比較して類似度を算出して認識結果を出力してい
た。
2. Description of the Related Art In general, a character recognition device divides a character image into several parts, extracts a directional component of the character for each area, and compares the directional component with a directional component of a character to be recognized which is stored in advance to determine the similarity. It calculated and output the recognition result.

【0003】[0003]

【発明が解決しようとする課題】一般に文字認識におい
ては、正確に類似度を算出するためには文字パターンに
ある程度の大きさが必要である。すなわち、文字認識処
理に際しては、文字が大きく類似度が正確に出せる場合
と、文字が小さくつぶれているなど類似度があまり正確
に出せない場合がある。特に、上付き文字、句読点等は
文字が小さくなり、文字がつぶれやすく、類似度があま
り正確に出せない場合が多い。
Generally, in character recognition, a character pattern needs to have a certain size in order to accurately calculate similarity. That is, in the character recognition process, there are cases where the character is large and the similarity can be accurately output, and cases where the character is small and crushed and the similarity cannot be output very accurately. In particular, superscripts, punctuation marks, and the like often have small characters, tend to be crushed, and cannot provide a similarity very accurately.

【0004】一般に、文字認識処理においては、文字が
大きく類似度を正確に出せる場合と、そうでない場合の
区別がないため、確からしい文字と不確かで誤っている
可能性のある文字を区別してユーザに知らせたり、不確
かな文字に特別な処理を加えたりすることが困難であっ
た。
In general, in character recognition processing, there is no distinction between a case where a character is able to give a large degree of similarity accurately and a case where the similarity is not accurate. It was difficult to inform and to give special treatment to uncertain characters.

【0005】本発明は上記従来例に鑑みてなされたもの
で、類似度が不確かである文字をユーザに知らしめるこ
とを可能とする文字認識装置及びその方法を提供するこ
とを目的とする。
SUMMARY OF THE INVENTION The present invention has been made in view of the above conventional example, and has as its object to provide a character recognition apparatus and a method thereof that can inform a user of a character whose similarity is uncertain.

【0006】また、本発明の他の目的は、誤認識を減少
するための処理を効率よく施し認識精度を高めることに
ある。
It is another object of the present invention to efficiently perform processing for reducing erroneous recognition and improve recognition accuracy.

【0007】[0007]

【課題を解決するための手段】上記目的を達成するため
に本発明の文字認識装置は例えば以下のような構成を備
える。すなわち、入力された画像に基づいて文字認識を
行う文字認識装置であって、前記入力された画像より文
字を切り出す切出手段と、前記切出手段により切り出さ
れた文字について文字認識処理を施し、それぞれの類似
度を得る認識手段と、前記切出手段により切り出された
文字の大きさに基づいて前記認識手段で得られた類似度
を補正する補正手段とを備える。
In order to achieve the above object, a character recognition device according to the present invention has, for example, the following configuration. That is, a character recognition device that performs character recognition based on an input image, a cutout unit that cuts out a character from the input image, and performs a character recognition process on the character cutout by the cutout unit. A recognition unit that obtains each similarity; and a correction unit that corrects the similarity obtained by the recognition unit based on the size of the character extracted by the extraction unit.

【0008】また、上記の目的を達成するための本発明
による文字認識装置は、例えば以下の構成を備える。す
なわち、入力された画像に基づいて文字認識を行う文字
認識装置であって、前記入力された画像より文字を切り
出す切出手段と、前記切出手段により切り出された文字
について文字認識処理を施し、それぞれの類似度を得る
認識手段と、前記切出手段により切り出された文字の位
置に基づいて前記認識手段で得られた類似度を補正する
補正手段とを備える。
A character recognition device according to the present invention for achieving the above object has, for example, the following configuration. That is, a character recognition device that performs character recognition based on an input image, a cutout unit that cuts out a character from the input image, and performs a character recognition process on the character cutout by the cutout unit. A recognition unit that obtains each similarity; and a correction unit that corrects the similarity obtained by the recognition unit based on the position of the character extracted by the extraction unit.

【0009】また、好ましくは、上記の文字認識装置に
おいて、前記補正手段による補正後の類似度が低い認識
結果を、その周囲の認識結果に基づいて修正する修正手
段をさらに備える。
Preferably, the character recognition apparatus further includes a correction unit that corrects a recognition result having a low similarity after correction by the correction unit based on the recognition results around the correction result.

【0010】[0010]

【発明の実施の形態】以下、添付図面を参照して本発明
の好適な実施形態のいくつかを詳細に説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Some preferred embodiments of the present invention will be described below in detail with reference to the accompanying drawings.

【0011】<文字認識装置の説明(図1)>図1は本
発明の一実施形態の文字認識装置の概略構成を示すブロ
ック図である。図1において、1は本実施形態の文字認
識装置の全体を示している。2は画像を入力する入力部
で、例えばハードディスク等に格納された画像を入力す
る。或いは、入力部2は、原稿画像を光学的に読み取る
スキャナであってもかまわない。3は演算処理用の中央
処理装置(以下、CPUという)であり、文字認識装置
1の全体を制御する。
<Description of Character Recognition Apparatus (FIG. 1)> FIG. 1 is a block diagram showing a schematic configuration of a character recognition apparatus according to an embodiment of the present invention. In FIG. 1, reference numeral 1 denotes the entire character recognition device of the present embodiment. Reference numeral 2 denotes an input unit for inputting an image, for example, inputting an image stored in a hard disk or the like. Alternatively, the input unit 2 may be a scanner that optically reads a document image. Reference numeral 3 denotes a central processing unit (hereinafter, referred to as a CPU) for arithmetic processing, which controls the entire character recognition device 1.

【0012】4はROMであり、CPU3によって実行
される図3以降のフローチャートで示された制御プログ
ラムや各種データを格納している。また、文字認識にお
いて用いられる認識用辞書9を格納している。5はメモ
リ(RAM)で、CPU3のワークエリアとして使用さ
れるとともに、入力部2より入力された画像データを一
時的に記憶する領域、文字切り部7で取り出された一文
字ごとの位置や大きさを記憶する領域、そして認識部9
で算出された文字ごとの候補文字や類似度を記憶する領
域も備えている。
Reference numeral 4 denotes a ROM, which stores control programs and various data shown in the flowcharts of FIG. Also, a recognition dictionary 9 used in character recognition is stored. Reference numeral 5 denotes a memory (RAM), which is used as a work area of the CPU 3, temporarily stores image data input from the input unit 2, and stores the position and size of each character extracted by the character cutting unit 7. And a recognition unit 9
There is also provided an area for storing the candidate character and similarity for each character calculated in.

【0013】CPU3は、ROM4に格納された各種制
御プログラムを実行することにより、類似度補正部6、
文字切り部7、認識部8、表示部10を実現する。類似
度補正部6は、文字の大きさ情報を用いて類似度の補正
を行う。文字きり部7は、メモリ5に記憶された画像内
のテキストの文字を取り出し、文字の位置や大きさをメ
モリ5に記憶する。認識部8では、認識用辞書9を用い
て文字認識を行なう。表示部10は、入力された画像及
び文字認識結果に基づいて、ディスプレイ14への表示
を制御する。
The CPU 3 executes various control programs stored in the ROM 4 to thereby execute the similarity correction section 6,
The character cutting unit 7, the recognition unit 8, and the display unit 10 are realized. The similarity correction unit 6 corrects the similarity using the character size information. The character cutting unit 7 extracts the characters of the text in the image stored in the memory 5 and stores the positions and sizes of the characters in the memory 5. The recognition unit 8 performs character recognition using the recognition dictionary 9. The display unit 10 controls display on the display 14 based on the input image and the character recognition result.

【0014】また、11はシステムバスであり、CPU
3よりのデータバス、アドレスバス及び制御信号バス等
を含んでいる。12はインターフェース部であり、外部
の出力装置、例えばプリンタ13やディスプレイ14等
とのインターフェース制御を行う。
A system bus 11 has a CPU
3 including a data bus, an address bus and a control signal bus. Reference numeral 12 denotes an interface unit that controls an interface with an external output device, for example, a printer 13 or a display 14.

【0015】<第1の実施形態>図2は第1の実施形態
の文字認識装置1による文字認識処理の結果を示すテキ
ストウインドウの一例を示す図である。図2において、
21は通常の認識結果のうちの一文字で、黒で表示され
ている。また、22は不確かな認識結果、すなわち誤っ
ている可能性の高い認識結果の一文字で、赤で表示され
ている。以下、このような表示を実現するための制御手
順について説明する。
<First Embodiment> FIG. 2 is a view showing an example of a text window showing the result of character recognition processing by the character recognition device 1 of the first embodiment. In FIG.
Reference numeral 21 denotes one character of the normal recognition result, which is displayed in black. Reference numeral 22 denotes an uncertain recognition result, that is, one character of a recognition result having a high possibility of being erroneous, and is displayed in red. Hereinafter, a control procedure for realizing such display will be described.

【0016】図3は第1の実施形態による文字認識処理
の手順を説明するフローチャートである。上述したよう
に、この処理を実現するための制御プログラムはROM
4に記憶されており、CPU3によって実行される。
FIG. 3 is a flowchart for explaining the procedure of the character recognition process according to the first embodiment. As described above, the control program for realizing this processing is the ROM
4 is executed by the CPU 3.

【0017】まずステップS31で、画像を入力部2
(ハードディスク或いはスキャナ等)から読取って入力
し、メモリ5に記憶する。
First, in step S31, an image is input to the input unit 2.
The data is read from a hard disk or a scanner, input, and stored in the memory 5.

【0018】次にステップS32に進み、文字切り部7
により、文字認識する文字の切り出しを行なう。文字の
切り出しの方法は周知のいかなる方法を用いても良い。
例えば横書き文章であれば、文書画像の黒画素の横方向
のヒストグラムをとり黒画素が連続して存在する領域を
行として取り出し、次に行部分に関して縦方向のヒスト
グラムをとり黒画素が連続して存在する領域を文字とし
て取り出す。
Then, the process proceeds to a step S32, wherein the character cutting unit 7
Cuts out a character to be recognized. Any known method may be used as a method for cutting out characters.
For example, in the case of a horizontally written sentence, a horizontal histogram of black pixels of the document image is taken, an area where black pixels are continuously present is taken out as a row, and then a vertical histogram is taken for a row portion and black pixels are continuously taken. Extract existing area as character.

【0019】次にステップS33に進み、認識部8によ
り、ステップS32で取り出した文字の文字認識を行な
う。
Next, the operation proceeds to step S33, in which the recognition unit 8 performs character recognition of the character extracted in step S32.

【0020】次にステップS34に進み、類似度補正部
6により、ステップS32で得られた文字の大きさ情報
を用いてステップS33で得られた類似度の補正を行
う。ここで、類似度の補正は、例えば以下のように行
う。
Then, the process proceeds to step S34, in which the similarity correction unit 6 corrects the similarity obtained in step S33 using the character size information obtained in step S32. Here, the correction of the similarity is performed, for example, as follows.

【0021】本実施形態では、文字の大きさに応じて例
えば以下のように補正率を設定し、類似度の補正を行
う。すなわち、 例えば、図2の文字22(カンマ「,」)について,類
似度8000、縦32ドット、横14ドットが得られた
場合、文字22(カンマ「,」)の類似度は、8000
×0.6=4800と、補正される。
In the present embodiment, the correction rate is set according to the size of the character, for example, as follows, and the similarity is corrected. That is, For example, when a similarity of 8000, 32 dots vertically and 14 dots horizontally is obtained for the character 22 (comma “,”) in FIG. 2, the similarity of the character 22 (comma “,”) is 8000.
× 0.6 = 4800, which is corrected.

【0022】以上のような補正処理をステップS33で
得られた全文字に関して行い、結果をメモリ5に記憶す
る。
The above correction processing is performed on all the characters obtained in step S33, and the result is stored in the memory 5.

【0023】次にステップS35に進み、表示部10が
図2の如く認識結果を表示する。
Next, the process proceeds to step S35, where the display unit 10 displays the recognition result as shown in FIG.

【0024】ここで例えば、類似度が7000未満の文
字を不確かな認識結果、すなわち誤っている可能性の高
い認識結果として赤色の文字で表示を行うようにする。
この結果、図2のように、文字22は赤い文字で表示さ
れる。一方、類似度が7000以上の文字は図2の文字
21の如く黒い文字で表示する。
Here, for example, a character having a similarity of less than 7000 is displayed as a red character as an uncertain recognition result, that is, a recognition result having a high possibility of being erroneous.
As a result, the character 22 is displayed in red as shown in FIG. On the other hand, characters having a similarity of 7000 or more are displayed as black characters like character 21 in FIG.

【0025】尚、プリンタ13より画像等を出力する処
理については説明を省略する。
The description of the process of outputting an image or the like from the printer 13 is omitted.

【0026】以上のように、第1の実施形態によれば、
認識文字の大きさに基づいて算出された類似度を補正す
ることにより、ユーザに不確かな文字を正確に知らせる
ことが可能となる。このため、誤認識の修正の容易な、
ユーザにとって使いやすい文字認識装置を実現すること
ができる。
As described above, according to the first embodiment,
By correcting the similarity calculated based on the size of the recognized character, it is possible to accurately inform the user of the uncertain character. Therefore, it is easy to correct misrecognition,
A character recognition device that is easy for the user to use can be realized.

【0027】<第2の実施形態>上記の第1の実施形態
では、図3のステップS34において、類似度補正をし
た後、ステップS35で結果表示をしている。第2の実
施形態では、類似度が閾値を越えなかった認識結果に対
して補正を加えることにより、誤認識の減少を図ろうと
するものである。
<Second Embodiment> In the first embodiment, after the similarity is corrected in step S34 of FIG. 3, the result is displayed in step S35. In the second embodiment, an attempt is made to reduce erroneous recognition by correcting a recognition result whose similarity does not exceed the threshold value.

【0028】図4は第2の実施形態による文字認識の手
順を説明するフローチャートである。この処理を実現す
るための制御プログラムはROM4に記憶されており、
CPU3によって実行される。図4において、ステップ
S31〜S35は第1の実施形態(図3)と同様の処理
が行われる。第2の実施形態では、ステップS34にお
ける類似度補正処理の後に、ステップS41で、認識度
の低い認識結果について誤認識を軽減するための個別処
理を施す。以下、ステップS41における処理について
説明する。
FIG. 4 is a flowchart for explaining the procedure of character recognition according to the second embodiment. A control program for realizing this processing is stored in the ROM 4,
It is executed by the CPU 3. In FIG. 4, the same processing as in the first embodiment (FIG. 3) is performed in steps S31 to S35. In the second embodiment, after the similarity correction processing in step S34, in step S41, individual processing is performed to reduce erroneous recognition of a recognition result with a low degree of recognition. Hereinafter, the process in step S41 will be described.

【0029】第1の実施形態と同様に、類似度7000
未満の文字(認識結果)を類似度の低い認識結果とし、
これらの認識結果に関して個別処理を施す。
Similar to the first embodiment, similarity 7000
Characters (recognition results) less than
Individual processing is performed on these recognition results.

【0030】例えば、第1の実施形態で類似度補正され
た図2の文字22カンマ「,」は、類似度4800なの
で個別処理の対象となる。
For example, the character 22 comma “,” in FIG. 2 whose similarity has been corrected in the first embodiment is subjected to individual processing because the similarity is 4,800.

【0031】個別処理の例を以下に示す。なお、類似度
については変更せず、そのままとする。従って、ステッ
プS35における表示処理では、 文字 個別処理内容 「,」 文章の最後が「。」であれば「、」に変更する 「、」 文章の最後が「.」であれば「,」に変更する 「。」 文章の途中に「,」があれば「.」に変更する 「.」 文章の途中に「、」があれば「。」に変更する ・・・・・ 上述の例に従って個別処理の一例を示すと、個別処理前
の「本日は,晴天なり。」において、「,」の類似度は
所定値未満なので、個別処理が実行されて「、」に変更
され、「本日は、晴天なり。」となる。
An example of the individual processing will be described below. Note that the similarity is not changed and is not changed. Therefore, in the display processing in step S35, the character individual processing content is changed to "," if the end of the sentence is ".". If the end of the sentence is ".", It is changed to ",". Yes "." If there is "," in the middle of the sentence, change it to ".". "." If there is a "," in the middle of the sentence, change it to "." ... Individual processing according to the above example For example, in “Today is fine weather” before the individual processing, the similarity of “,” is less than a predetermined value, so the individual processing is executed and changed to “,”, and “Today is fine weather”. It becomes. "

【0032】ステップS35では、第1の実施形態と同
様に類似度7000未満の文字を赤で表示する。
In step S35, characters having a similarity of less than 7000 are displayed in red, as in the first embodiment.

【0033】以上説明したように本実施形態によれば、
不確かな文字をユーザに正確に知らせたり、誤認識を減
少するための個別処理を効率よく施すことが可能とな
り、認識精度を高めるなど、使い勝手が向上する。
As described above, according to the present embodiment,
The user can be notified of uncertain characters accurately, and individual processing for reducing erroneous recognition can be efficiently performed, thereby improving usability such as improving recognition accuracy.

【0034】<第3の実施形態>次に第3の実施形態を
説明する。図5は第3の実施形態による認識結果の表示
状態を示す図である。上記第1及び第2の実施形態で
は、認識対象となった各文字の大きさ(切り出された文
字の大きさ)に基づいて類似度の補正を行ったが、第3
の実施形態では、認識対象となった文字の位置に基づい
て類似度補正を行う。
<Third Embodiment> Next, a third embodiment will be described. FIG. 5 is a diagram illustrating a display state of a recognition result according to the third embodiment. In the first and second embodiments, the similarity is corrected based on the size of each character to be recognized (the size of the cut-out character).
In the embodiment, the similarity correction is performed based on the position of the character to be recognized.

【0035】図6は第3の実施形態のによる文字認識手
順を説明するフローチャートである。なお、この処理を
実現するための制御プログラムはROM4に記憶されて
おり、CPU3により実行される。また、ステップS3
1、S32、S33、S35は第1の実施形態(図3)
と同様の処理であるので、ここではその説明を省略す
る。
FIG. 6 is a flowchart for explaining a character recognition procedure according to the third embodiment. Note that a control program for realizing this processing is stored in the ROM 4 and executed by the CPU 3. Step S3
1, S32, S33, and S35 are the first embodiment (FIG. 3)
Since the processing is the same as described above, the description is omitted here.

【0036】ステップS61では、ステップS32で得
られた文字の位置情報を用いてステップS33で得られ
た類似度の補正を以下のように行う。
In step S61, the degree of similarity obtained in step S33 is corrected as follows using the character position information obtained in step S32.

【0037】 位置情報 補正率 上付き文字 0.8 下付き文字 0.8 ルビ 0.6 縦中横文字 0.9 ※ 縦中横文字とは、縦書きの中に含まれる数字2文字
などが横に並んで横書きで書かれた文字である。
Position information Correction rate Superscript 0.8 Subscript 0.8 Ruby 0.6 Tate-chu-yokoji 0.9 * Tate-chu-yoko is horizontal characters such as two characters included in vertical writing. These are characters written side by side.

【0038】例えば、図5に示した文字52(上付き文
字の括弧「(」)に関して、ステップS33(認識部
8)による文字認識の結果、類似度が8000であった
とする。文字52は、その切り出し位置から、上付き文
字の括弧「(」であると判断されるので、その類似度
は、 8000×0.8=6400 と補正される。
For example, it is assumed that the similarity of the character 52 (superscript parentheses "(") shown in Fig. 5 is 8000 as a result of character recognition by the step S33 (recognition unit 8). Based on the cutout position, it is determined that the parenthesis is a parenthesis “(”, so the similarity is corrected to 8000 × 0.8 = 6400.

【0039】以上のような処理をステップS33で得ら
れた全文字に関して行い、結果をメモリ5に記憶する。
The above processing is performed on all the characters obtained in step S33, and the result is stored in the memory 5.

【0040】次にステップS35に進み、認識結果を表
示する。
Next, the process proceeds to step S35, where the recognition result is displayed.

【0041】ここで例えば、類似度が7000未満の文
字を不確かな認識結果、すなわち誤っている可能性の高
い認識結果として、認識結果において赤色で表示を行
う。例えば、図5における文字52は赤い文字で表示さ
れる。一方、類似度が7000以上の文字は黒い文字で
表示される。例えば、図5の認識結果において、文字2
1は黒い文字で表示される。
Here, for example, a character having a similarity of less than 7000 is displayed in red in the recognition result as an uncertain recognition result, that is, a recognition result having a high possibility of being erroneous. For example, the character 52 in FIG. 5 is displayed in red. On the other hand, characters having a similarity of 7000 or more are displayed as black characters. For example, in the recognition result of FIG.
1 is displayed in black letters.

【0042】尚、プリンタ13より画像等を出力する処
理については説明を省略する。
The description of the process of outputting an image or the like from the printer 13 is omitted.

【0043】以上のように、第3の実施形態によれば、
ユーザに不確かな文字をより正確に知らせることが可能
となり、誤認識の修正の容易な、ユーザにとって使いや
すい文字認識装置を実現することができる。
As described above, according to the third embodiment,
It is possible to inform the user of the uncertain character more accurately, and it is possible to realize a character recognition device that can be easily corrected for erroneous recognition and is easy for the user to use.

【0044】<第4の実施形態>次に第4の実施形態を
説明する。第4の実施形態では、誤認識軽減のための個
別処理を、ステップS61の文字位置に基づく文字認識
の類似度補正処理に基づいて行う。
<Fourth Embodiment> Next, a fourth embodiment will be described. In the fourth embodiment, individual processing for reducing erroneous recognition is performed based on the similarity correction processing for character recognition based on the character position in step S61.

【0045】図7は第4の実施形態による文字認識処理
の手順を説明するフローチャートである。なお、この処
理を実現する制御プログラムはROM4に記憶されてお
り、CPU3によって実行される。
FIG. 7 is a flowchart for explaining the procedure of character recognition processing according to the fourth embodiment. Note that a control program for realizing this processing is stored in the ROM 4 and executed by the CPU 3.

【0046】図7において、上述した第3の実施形態に
よるステップS61により類似度補正をした後、ステッ
プS71において、認識結果を修正する誤認識軽減の為
の個別処理が施される。ステップS71では、例えば、
類似度が7000未満の文字に関して認識結果に応じた
個別処理を施す。なお、類似度についてはそのままとす
る。
In FIG. 7, after the similarity is corrected in step S61 according to the above-described third embodiment, in step S71, individual processing for correcting erroneous recognition for correcting the recognition result is performed. In step S71, for example,
Individual processing according to the recognition result is performed on characters having a similarity of less than 7000. The similarity is not changed.

【0047】例えば、第3の実施形態で類似度補正され
た上付き括弧「(」は、類似度6400なので個別処理
の対象となる。個別処理の例の一部を以下に示す。
For example, the superscript parenthesis "(" corrected for similarity in the third embodiment is subject to individual processing since the similarity is 6400. Some examples of individual processing are shown below.

【0048】 文字 : 個別処理内容 ( : 続く文章内に、 より類似度の高い「]」があれば「[」に、 より類似度の高い「}」があれば「{」に、 より類似度の高い「〉」があれば「〈」に変更する [ : 続く文章内に、 より類似度の高い「)」があれば「(」に、 より類似度の高い「}」があれば「{」に、 より類似度の高い「〉」があれば「〈」に変更する { : 続く文章内に より類似度の高い「)」があれば「(」に、 より類似度の高い「〉」があれば「〈」に、 より類似度の高い「]」があれば「[」に変更する 〈 : 続く文章内に より類似度の高い「]」があれば「[」に、 より類似度の高い「)」があれば「(」に、 より類似度の高い「}」があれば「{」に変更する ・・・・・。Characters: Individual processing contents (: In the following sentence, if there is “]” with a higher similarity, “[”. If “}” with a higher similarity is “{”, If there is a higher “>”, change it to “<”. [: If the following sentence contains “)” with a higher similarity, “(” If ">" has a higher similarity to "", change it to "<". {: If ")" has a higher similarity in the following sentence, change it to ">" for a higher similarity. If there is, change it to “<”, and if there is a higher similarity “]”, change it to “[”. If there is a high “)”, change it to “(”. If there is a higher similarity “}”, change it to “{”.

【0049】上記の処理を施すことにより、例えば、個
別処理前に「本日(2]は、晴天なり。」という認識結果
が得られ、「(」の類似度6400≦「]」の類似度7
100であった場合、個別処理が実行される。この個別
処理により、「(」が「[」に変更されて、「本日[2]
は、晴天なり。」となる。
By performing the above processing, for example, before the individual processing, a recognition result of “Today (2) is fine weather” is obtained, and the similarity of “(” is 6400 ≦ “]” and the similarity is 7
If it is 100, individual processing is executed. By this individual processing, "(" is changed to "[" and "Today [2]
Is sunny. ".

【0050】ステップS35では、第3の実施形態と同
様に類似度7000未満の文字を赤で表示する。
In step S35, characters having a similarity of less than 7000 are displayed in red, as in the third embodiment.

【0051】なお、個別処理としては第2の実施形態で
説明したような処理を適用することも可能である。ま
た、第4の実施形態で説明した処理を、第2の実施形態
で用いることも可能である。もちろん、第2と第4の実
施形態で説明した処理を共存させてもよい。
It should be noted that the processing described in the second embodiment can be applied as the individual processing. Further, the processing described in the fourth embodiment can be used in the second embodiment. Of course, the processes described in the second and fourth embodiments may coexist.

【0052】以上説明したように本実施形態によれば、
不確かな文字をユーザに正確に知らせたり、誤認識を減
少するための個別処理を効率よく施し、認識精度を高め
ることが可能となり、使い勝手が向上する。
As described above, according to the present embodiment,
The user can be notified of an uncertain character accurately, and individual processing for reducing erroneous recognition can be efficiently performed, and the recognition accuracy can be increased. As a result, usability is improved.

【0053】なお、本発明は、複数の機器(例えばホス
トコンピュータ,インタフェイス機器,リーダ,プリン
タなど)から構成されるシステムに適用しても、一つの
機器からなる装置(例えば、複写機,ファクシミリ装置
など)に適用してもよい。
Even if the present invention is applied to a system including a plurality of devices (for example, a host computer, an interface device, a reader, a printer, etc.), an apparatus (for example, a copier, a facsimile, etc.) comprising one device. Device).

【0054】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ(またはCPU
やMPU)が記憶媒体に格納されたプログラムコードを
読出し実行することによっても、達成されることは言う
までもない。
It is another object of the present invention to provide a storage medium storing a program code of software for realizing the functions of the above-described embodiments to a system or an apparatus, and to provide a computer (or CPU) of the system or the apparatus.
And MPU) read and execute the program code stored in the storage medium.

【0055】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。
In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiment, and the storage medium storing the program code constitutes the present invention.

【0056】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピディスク,ハードディス
ク,光ディスク,光磁気ディスク,CD−ROM,CD
−R,磁気テープ,不揮発性のメモリカード,ROMな
どを用いることができる。
As a storage medium for supplying the program code, for example, a floppy disk, hard disk, optical disk, magneto-optical disk, CD-ROM, CD
-R, a magnetic tape, a nonvolatile memory card, a ROM, or the like can be used.

【0057】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOS(オペレ
ーティングシステム)などが実際の処理の一部または全
部を行い、その処理によって前述した実施形態の機能が
実現される場合も含まれることは言うまでもない。
When the computer executes the readout program code, not only the functions of the above-described embodiment are realized, but also the OS (Operating System) running on the computer based on the instruction of the program code. ) May perform some or all of the actual processing, and the processing may realize the functions of the above-described embodiments.

【0058】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。
Further, after the program code read from the storage medium is written into a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, based on the instructions of the program code, It goes without saying that the CPU provided in the function expansion board or the function expansion unit performs part or all of the actual processing, and the processing realizes the functions of the above-described embodiments.

【0059】[0059]

【発明の効果】以上説明したように、本発明によれば、
類似度が不確かである文字をより正確にユーザに知らし
めることが可能となる。また、本発明によれば、誤認識
を減少するための処理を効率よく施し認識精度を高める
ことが可能となる。このため、文字認識装置の使い勝手
が向上する。
As described above, according to the present invention,
It is possible to more accurately notify the user of a character whose similarity is uncertain. Further, according to the present invention, it is possible to efficiently perform processing for reducing erroneous recognition and improve recognition accuracy. Therefore, usability of the character recognition device is improved.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施形態の文字認識装置の概略構成
を示すブロック図である。
FIG. 1 is a block diagram illustrating a schematic configuration of a character recognition device according to an embodiment of the present invention.

【図2】第1の実施形態の文字認識装置1による文字認
識処理の結果を示すテキストウインドウの一例を示す図
である。
FIG. 2 is a diagram illustrating an example of a text window showing a result of a character recognition process performed by the character recognition device 1 according to the first embodiment.

【図3】第1の実施形態による文字認識処理の手順を説
明するフローチャートである。
FIG. 3 is a flowchart illustrating a procedure of a character recognition process according to the first embodiment.

【図4】第2の実施形態による文字認識の手順を説明す
るフローチャートである。
FIG. 4 is a flowchart illustrating a procedure of character recognition according to a second embodiment.

【図5】第3の実施形態による認識結果の表示状態を示
す図である。
FIG. 5 is a diagram illustrating a display state of a recognition result according to a third embodiment.

【図6】第3の実施形態のによる文字認識手順を説明す
るフローチャートである。
FIG. 6 is a flowchart illustrating a character recognition procedure according to a third embodiment.

【図7】第4の実施形態による文字認識処理の手順を説
明するフローチャートである。
FIG. 7 is a flowchart illustrating a procedure of a character recognition process according to a fourth embodiment.

【符号の説明】[Explanation of symbols]

1 文字認識装置 2 入力部 3 CPU 4 ROM 5 メモリ 6 類似度補正部 7 文字切り部 8 認識部 9 認識用辞書 10 表示部 11 システムバス 12 インターフェース部 13 プリンタ 14 ディスプレイ Reference Signs List 1 character recognition device 2 input unit 3 CPU 4 ROM 5 memory 6 similarity correction unit 7 character cutting unit 8 recognition unit 9 recognition dictionary 10 display unit 11 system bus 12 interface unit 13 printer 14 display

Claims (22)

【特許請求の範囲】[Claims] 【請求項1】 入力された画像に基づいて文字認識を行
う文字認識装置であって、 前記入力された画像より文字を切り出す切出手段と、 前記切出手段により切り出された文字について文字認識
処理を施し、それぞれの類似度を得る認識手段と、 前記切出手段により切り出された文字の大きさに基づい
て前記認識手段で得られた類似度を補正する補正手段と
を備えることを特徴とする文字認識装置。
1. A character recognition device for performing character recognition based on an input image, comprising: a cutout unit that cuts out a character from the input image; and a character recognition process for the character cutout by the cutout unit. And a correction unit that corrects the similarity obtained by the recognition unit based on the size of the character extracted by the extraction unit. Character recognition device.
【請求項2】 前記補正手段による補正後の類似度に基
づいて文字認識結果を提示する提示手段をさらに備える
ことを特徴とする請求項1に記載の文字認識装置。
2. The character recognition device according to claim 1, further comprising a presentation unit that presents a character recognition result based on the similarity after the correction by the correction unit.
【請求項3】 前記提示手段は、類似度が所定値よりも
小さい認識結果をユーザが識別可能に表示することを特
徴とする請求項2に記載の文字認識装置。
3. The character recognition device according to claim 2, wherein the presentation unit displays a recognition result having a similarity smaller than a predetermined value so that the user can identify the recognition result.
【請求項4】 前記補正手段は、前記切出手段で切り出
された大きさが小さい文字に関する類似度を小さくする
ように補正することを特徴とする請求項1に記載の文字
認識装置。
4. The character recognition device according to claim 1, wherein the correction unit corrects the character cut out by the extraction unit so as to reduce the degree of similarity with respect to the small-sized character.
【請求項5】 前記補正手段は、前記切出手段で切り出
された大きさについて複数のランクを設け、前記類似度
を変更するための比率を各ランク毎に異ならせてあるこ
とを特徴とする請求項1に記載の文字認識装置。
5. The method according to claim 1, wherein the correcting unit is provided with a plurality of ranks for the size cut out by the cutting unit, and the ratio for changing the similarity is different for each rank. The character recognition device according to claim 1.
【請求項6】 前記補正手段による補正後の類似度が低
い認識結果を、その周囲の認識結果に基づいて修正する
修正手段をさらに備えることを特徴とする請求項1に記
載の文字認識装置。
6. The character recognition apparatus according to claim 1, further comprising a correction unit that corrects a recognition result having a low degree of similarity after correction by the correction unit based on a recognition result around the correction result.
【請求項7】 前記修正手段は、句読点の整合性に基づ
く修正を行うことを特徴とする請求項6に記載の文字認
識装置。
7. The character recognition device according to claim 6, wherein the correction unit performs correction based on consistency of punctuation marks.
【請求項8】 前記修正手段は、括弧の整合性に基づく
修正を行うことを特徴とする請求項6に記載の文字認識
装置。
8. The character recognition device according to claim 6, wherein the correction unit performs correction based on matching of parentheses.
【請求項9】 入力された画像に基づいて文字認識を行
う文字認識装置であって、 前記入力された画像より文字を切り出す切出手段と、 前記切出手段により切り出された文字について文字認識
処理を施し、それぞれの類似度を得る認識手段と、 前記切出手段により切り出された文字の位置に基づいて
前記認識手段で得られた類似度を補正する補正手段とを
備えることを特徴とする文字認識装置。
9. A character recognition apparatus for performing character recognition based on an input image, comprising: a cutout unit that cuts out a character from the input image; and a character recognition process for the character cutout by the cutout unit. And a correction unit for correcting the similarity obtained by the recognition unit based on the position of the character extracted by the extraction unit. Recognition device.
【請求項10】 前記補正手段による補正後の類似度に
基づいて文字認識結果を提示する提示手段をさらに備え
ることを特徴とする請求項9に記載の文字認識装置。
10. The character recognition apparatus according to claim 9, further comprising a presentation unit that presents a character recognition result based on the similarity after the correction by the correction unit.
【請求項11】 前記提示手段は、類似度が所定値より
も小さい認識結果をユーザが識別可能に表示することを
特徴とする請求項10に記載の文字認識装置。
11. The character recognition apparatus according to claim 10, wherein the presentation unit displays a recognition result having a similarity smaller than a predetermined value so that the user can identify the recognition result.
【請求項12】 前記補正手段は、前記切出手段で切り
出された位置が、通常よりも小さい文字サイズとなる特
定位置にある文字に関する類似度を小さくするように補
正することを特徴とする請求項9に記載の文字認識装
置。
12. The apparatus according to claim 1, wherein the correction unit corrects the position extracted by the extraction unit so as to reduce the degree of similarity with respect to a character at a specific position having a smaller character size than usual. Item 10. The character recognition device according to item 9.
【請求項13】 前記補正手段において、前記得定位置
は、上付き、下付き、ルビ、縦中横文字の少なくともい
ずれかを含み、各得定位置毎に前記類似度を変更するた
めの比率を対応づけてあることを特徴とする請求項9に
記載の文字認識装置。
13. The correction means, wherein the determined position includes at least one of a superscript, a subscript, ruby, and tate-chu-yoko, and sets a ratio for changing the similarity for each determined position. The character recognition device according to claim 9, wherein the character recognition device is associated with the character recognition device.
【請求項14】 前記補正手段による補正後の類似度が
低い認識結果を、その周囲の認識結果に基づいて修正す
る修正手段をさらに備えることを特徴とする請求項9に
記載の文字認識装置。
14. The character recognition apparatus according to claim 9, further comprising a correction unit that corrects a recognition result having a low similarity after correction by the correction unit based on a recognition result around the recognition result.
【請求項15】 前記修正手段は、句読点の整合性に基
づく修正を行うことを特徴とする請求項14に記載の文
字認識装置。
15. The character recognition device according to claim 14, wherein the correction unit performs correction based on consistency of punctuation marks.
【請求項16】 前記修正手段は、括弧の整合性に基づ
く修正を行うことを特徴とする請求項14に記載の文字
認識装置。
16. The character recognition device according to claim 14, wherein the correction unit performs correction based on matching of parentheses.
【請求項17】 入力された画像に基づいて文字認識を
行う文字認識方法であって、 前記入力された画像より文字を切り出す切出工程と、 前記切出工程により切り出された文字について文字認識
処理を施し、それぞれの類似度を得る認識工程と、 前記切出工程により切り出された文字の大きさに基づい
て前記認識工程で得られた類似度を補正する補正工程と
を備えることを特徴とする文字認識方法。
17. A character recognition method for performing character recognition based on an input image, comprising: a cutout step of cutting out characters from the input image; and a character recognition process for the characters cut out by the cutout step. And a correction step of correcting the similarity obtained in the recognition step based on the size of the character cut out in the cut-out step. Character recognition method.
【請求項18】 入力された画像に基づいて文字認識を
行う文字認識方法であって、 前記入力された画像より文字を切り出す切出工程と、 前記切出工程により切り出された文字について文字認識
処理を施し、それぞれの類似度を得る認識工程と、 前記切出工程により切り出された文字の位置に基づいて
前記認識工程で得られた類似度を補正する補正工程とを
備えることを特徴とする文字認識方法。
18. A character recognition method for performing character recognition based on an input image, comprising: a cutout step of cutting out characters from the input image; and a character recognition process for the characters cut out by the cutout step. And a correction step of correcting the similarity obtained in the recognition step based on the position of the character cut out in the cut-out step. Recognition method.
【請求項19】 前記補正工程による補正後の類似度が
低い認識結果を、その周囲の認識結果に基づいて修正す
る修正工程をさらに備えることを特徴とする請求項17
又は18に記載の文字認識方法。
19. The apparatus according to claim 17, further comprising a correction step of correcting a recognition result having a low degree of similarity after the correction in the correction step based on the recognition results around the recognition result.
Or the character recognition method described in 18.
【請求項20】 入力された画像に基づく文字認識をコ
ンピュータに行わせるための制御プログラムを格納する
記憶媒体であって、該制御プログラムが、 前記入力された画像より文字を切り出す切出工程のコー
ドと、 前記切出工程により切り出された文字について文字認識
処理を施し、それぞれの類似度を得る認識工程のコード
と、 前記切出工程により切り出された文字の大きさに基づい
て前記認識工程で得られた類似度を補正する補正工程の
コードとを備えることを特徴とする記憶媒体。
20. A storage medium for storing a control program for causing a computer to perform character recognition based on an input image, the control program comprising: a code for an extraction step for extracting characters from the input image. And performing a character recognition process on the character cut out in the cut-out step to obtain a similarity between each character, and a code obtained in the recognition step based on the size of the character cut out in the cut-out step. A correction process code for correcting the obtained similarity.
【請求項21】 入力された画像に基づく文字認識をコ
ンピュータに行わせるための制御プログラムを格納する
記憶媒体であって、該制御プログラムが、 前記入力された画像より文字を切り出す切出工程のコー
ドと、 前記切出工程により切り出された文字について文字認識
処理を施し、それぞれの類似度を得る認識工程のコード
と、 前記切出工程により切り出された文字の位置に基づいて
前記認識工程で得られた類似度を補正する補正工程のコ
ードとを備えることを特徴とする記憶媒体。
21. A storage medium for storing a control program for causing a computer to perform character recognition based on an input image, the control program comprising: a code for a cutout step of cutting out characters from the input image And performing a character recognition process on the character extracted by the extraction process to obtain a similarity between the code and a position of the character extracted by the extraction process. A correction process code for correcting the similarity.
【請求項22】 前記補正工程による補正後の類似度が
低い認識結果を、その周囲の認識結果に基づいて修正す
る修正工程のコードをさらに備えることを特徴とする請
求項20又は21に記載の記憶媒体。
22. The method according to claim 20, further comprising a code of a correction step of correcting a recognition result having a low similarity after the correction in the correction step based on a recognition result around the correction result. Storage medium.
JP10365509A 1998-12-22 1998-12-22 Character recognition device, its method and storage medium Withdrawn JP2000187704A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10365509A JP2000187704A (en) 1998-12-22 1998-12-22 Character recognition device, its method and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10365509A JP2000187704A (en) 1998-12-22 1998-12-22 Character recognition device, its method and storage medium

Publications (1)

Publication Number Publication Date
JP2000187704A true JP2000187704A (en) 2000-07-04

Family

ID=18484443

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10365509A Withdrawn JP2000187704A (en) 1998-12-22 1998-12-22 Character recognition device, its method and storage medium

Country Status (1)

Country Link
JP (1) JP2000187704A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007052782A (en) * 2005-08-18 2007-03-01 Fujitsu Ltd Program, device and method for adjusting recognition distance and program for recognizing character string
CN110298340A (en) * 2018-03-22 2019-10-01 精工爱普生株式会社 Image processing apparatus, image processing method and computer readable storage medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007052782A (en) * 2005-08-18 2007-03-01 Fujitsu Ltd Program, device and method for adjusting recognition distance and program for recognizing character string
CN110298340A (en) * 2018-03-22 2019-10-01 精工爱普生株式会社 Image processing apparatus, image processing method and computer readable storage medium

Similar Documents

Publication Publication Date Title
US5539841A (en) Method for comparing image sections to determine similarity therebetween
US5410611A (en) Method for identifying word bounding boxes in text
JPH05282488A (en) Method for automatically changing semantically important part of document without decoding document picture
US7796817B2 (en) Character recognition method, character recognition device, and computer product
JP2002015280A (en) Device and method for image recognition, and computer- readable recording medium with recorded image recognizing program
JP2000187704A (en) Character recognition device, its method and storage medium
JPH11272800A (en) Character recognition device
JP2006072839A (en) Image processing method, image processing apparatus, image processing program and recording medium
JP3348224B2 (en) Table frame line intersection correction device, table recognition device, and optical character reading device
US20210303790A1 (en) Information processing apparatus
JPH0528319A (en) Method and device for processing image
JP5361315B2 (en) Information processing apparatus and information processing method
JPH11187231A (en) Image retrieving device and image retrieval method
JP2612383B2 (en) Character recognition processing method
JPH01292586A (en) Back-up device for recognition of character
JP3880091B2 (en) Information processing apparatus and method
JP3052438B2 (en) Table recognition device
JPH117493A (en) Character recognition processor
JPH0981672A (en) Document reader
JPH0573725A (en) Hand-written character and graphic recognition device
JPH03217993A (en) Character size recognizer
JP3045086B2 (en) Optical character reading method and apparatus
JPH09269970A (en) Method for recognizing character and its device
US20200302209A1 (en) Systems and methods for separating ligature characters in digitized document images
JPH113433A (en) Table closing line intersection correcting device

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060307