JP2001266074A - Device for recognizing character - Google Patents

Device for recognizing character

Info

Publication number
JP2001266074A
JP2001266074A JP2000074791A JP2000074791A JP2001266074A JP 2001266074 A JP2001266074 A JP 2001266074A JP 2000074791 A JP2000074791 A JP 2000074791A JP 2000074791 A JP2000074791 A JP 2000074791A JP 2001266074 A JP2001266074 A JP 2001266074A
Authority
JP
Japan
Prior art keywords
character
word
recognition result
similar
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000074791A
Other languages
Japanese (ja)
Inventor
Aki Sugawara
亜紀 菅原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2000074791A priority Critical patent/JP2001266074A/en
Publication of JP2001266074A publication Critical patent/JP2001266074A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

PROBLEM TO BE SOLVED: To prevent increase in load on an operator, even when multiple similar words are comprised in a word dictionary. SOLUTION: A character string 13 on a slip is read by a picture input part 1 and segmented by a character segmenting part 2. A character-recognizing part 3 recognizes the character string 13 and outputs a character recognition result candidate 9. A word-collating part 4 inspects the matching rate 12 of the candidate 9, with each word in the word dictionary 6 and the word with the high matching rate 12 is outputted as a word recognition result candidate 10 which is the recognition result candidate of the character string 13. When the plurality of word recognition result candidates 10 exist and the similar word recognition result candidates 10 exist among them, a similar word determining part 5 performs selection from the similar candidates 10 to obtain a word recognition result 11, which is the recognition result of the character string 13.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は文字認識装置に関
し、特に文字列の認識を行う文字認識装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition device, and more particularly to a character recognition device for recognizing a character string.

【0002】[0002]

【従来の技術】従来、この種の文字認識装置は、帳票に
記載された単語を読み取るために用いられている。
2. Description of the Related Art Heretofore, this type of character recognition apparatus has been used for reading words written on a form.

【0003】この従来の文字認識装置のブロック図であ
る図10を参照すると、従来の文字認識装置は、帳票を
読み取り画像データを出力する画像入力部と、画像デー
タから文字列を切り出す文字切り出し部と、この文字列
の文字を一文字毎に文字列内の文字数分認識し認識した
それぞれの文字に対応するそれぞれの文字認識結果候補
を出力する文字認識部と、この文字列に対応する文字認
識結果候補と帳票に記入される複数の単語を予め格納し
た単語辞書内の各単語との一致の度合いを示す一致度を
それぞれ調べ一致度の高い単語を文字列の認識結果であ
る単語認識結果として出力する単語照合部と、を備えて
いる。そして、単語照合部は、一致度の高い単語を文字
列の単語認識結果として出力するが、類似単語を含む単
語辞書を使用した場合、この一致度の高い単語が複数得
られ、単語認識結果として単語辞書内のこの類似した複
数の単語を出力することが多く、このときには、オペレ
ータが、帳票から読み取った画像データを参照しこの画
像データに対応する単語を選択して単語認識結果とす
る。
Referring to FIG. 10 which is a block diagram of this conventional character recognition device, the conventional character recognition device includes an image input section for reading a form and outputting image data, and a character cutout section for cutting out a character string from the image data. And a character recognition unit that recognizes the characters of this character string for each character by the number of characters in the character string and outputs respective character recognition result candidates corresponding to the recognized characters, and a character recognition result corresponding to the character string. Each word in the word dictionary in which candidates and a plurality of words to be entered in the form are stored in advance is checked for the degree of matching, and words with a high degree of matching are output as word recognition results, which are character string recognition results. And a word collating unit that performs Then, the word matching unit outputs a word having a high degree of matching as a word recognition result of a character string. When a word dictionary including similar words is used, a plurality of words having a high degree of matching are obtained, and as a result of the word recognition. In many cases, the similar words in the word dictionary are output. At this time, the operator refers to the image data read from the form and selects a word corresponding to the image data to obtain a word recognition result.

【0004】[0004]

【発明が解決しようとする課題】上述した従来の文字認
識装置は、単語照合部により、一致度の高い単語を単語
認識結果として出力するため、類似単語を含む単語辞書
を使用した場合、この一致度の高い単語が複数得られこ
の類似した複数の単語を単語認識結果として出力し、オ
ペレータが、帳票から読み取った画像データを参照しこ
の画像データに対応する単語を単語照合部が出力した複
数の単語から選択して単語認識結果とするようにしてい
るので、単語辞書内に類似単語が多く含まれる場合、オ
ペレータの負担増となるという問題がある。
In the above-mentioned conventional character recognition apparatus, a word matching section outputs a word having a high degree of coincidence as a word recognition result. A plurality of words with high degrees are obtained and the similar words are output as word recognition results, and the operator refers to the image data read from the form and outputs a word corresponding to the image data by the word matching unit. Since a word is selected from the words and the word recognition result is used, there is a problem that the load on the operator increases when the word dictionary contains many similar words.

【0005】本発明の目的はこのような従来の欠点を除
去するため、単語辞書内に類似単語が多く含まれる場合
でもオペレータの負担増とならない文字認識装置を提供
することにある。
An object of the present invention is to provide a character recognition apparatus which does not increase the burden on an operator even when a word dictionary contains many similar words in order to eliminate such conventional disadvantages.

【0006】[0006]

【課題を解決するための手段】本発明の第1の文字認識
装置は、文字列を読み取って認識したときにこの文字列
の認識結果候補が複数ありこれら複数の認識結果候補の
中に類似した前記認識結果候補が存在するときに、この
類似した認識結果候補の中から選択して前記文字列の認
識結果とするようにしている。
According to a first character recognition device of the present invention, when a character string is read and recognized, there are a plurality of recognition result candidates for the character string, and a similar one among the plurality of recognition result candidates. When the recognition result candidate is present, the recognition result candidate is selected from the similar recognition result candidates and used as the character string recognition result.

【0007】本発明の第2の文字認識装置は、単語を示
す文字列を読み取って認識したときにこの文字列の認識
結果候補が複数ありこれら複数の認識結果候補の中に類
似した前記認識結果候補が存在するときに、この類似し
た認識結果候補の中から選択して前記単語の認識結果と
するようにしている。
According to a second character recognition device of the present invention, when a character string indicating a word is read and recognized, there are a plurality of recognition result candidates for the character string, and the recognition result similar to the plurality of recognition result candidates. When there is a candidate, the candidate is selected from the similar recognition result candidates and used as the recognition result of the word.

【0008】本発明の第3の文字認識装置は、帳票上に
記載された単語を示す文字列を読み取って認識したとき
にこの文字列の認識結果候補が複数ありこれら複数の認
識結果候補の中に類似した前記認識結果候補が存在する
ときに、この類似した認識結果候補の中から選択して前
記単語の認識結果とするようにしたことを特徴とする文
字認識装置。
According to the third character recognition device of the present invention, when a character string indicating a word described on a form is read and recognized, there are a plurality of recognition result candidates for the character string, and among the plurality of recognition result candidates, A recognition result candidate that is similar to the above-mentioned word, and selects from the similar recognition result candidates to obtain the word recognition result.

【0009】また、本発明の第1から第3の文字認識装
置の前記認識結果は、前記類似した認識結果候補どうし
間での相違した文字に対してどの文字が確かかを調べる
「確からしさ」の調査を行い、前記類似した認識結果候
補中の最も確からしい文字を有する前記認識結果候補を
選択して得るようにしている。
The recognition results of the first to third character recognition apparatuses of the present invention are used to determine which character is certain for a different character between the similar recognition result candidates. Is performed, and the recognition result candidate having the most likely character among the similar recognition result candidates is selected and obtained.

【0010】本発明の第4の文字認識装置は、帳票を読
み取り画像データを出力する画像入力部と、前記画像デ
ータから文字列を切り出す文字切り出し部と、前記文字
列の文字を一文字毎に前記文字列内の文字数分認識し認
識したそれぞれの文字に対応するそれぞれの文字認識結
果候補を出力する文字認識部と、前記文字認識部が出力
した前記文字認識結果候補と前記帳票に記入される複数
の単語を予め格納した単語辞書内の各単語との一致の度
合いを示す一致度をそれぞれ調べ前記一致度の高い前記
単語を前記文字列の認識結果候補である単語認識結果候
補として出力する単語照合部と、前記単語照合部が出力
した前記単語認識結果候補が複数ありこれら複数の単語
認識結果候補の中に類似した前記単語認識結果候補が存
在するときに、この類似した単語認識結果候補の中から
選択して前記文字列の認識結果である単語認識結果とす
る類似単語判定部とを備えて構成されている。
According to a fourth aspect of the present invention, there is provided an image input unit for reading a form and outputting image data; a character extracting unit for extracting a character string from the image data; A character recognition unit that outputs each character recognition result candidate corresponding to each character recognized and recognized by the number of characters in the character string, and a plurality of the character recognition result candidates output by the character recognition unit and written in the form. Word matching for checking the degree of matching indicating the degree of matching with each word in a word dictionary in which the word is stored in advance, and outputting the word having a high degree of matching as a word recognition result candidate that is a recognition result candidate for the character string When there are a plurality of word recognition result candidates output by the word matching unit and there is a similar word recognition result candidate among the plurality of word recognition result candidates, It is constituted by a similar word determination unit for word recognition result as the recognition result of the character string selected from the similar word recognition result candidates.

【0011】また、本発明の第4の文字認識装置の前記
単語照合部は、前記文字列の有する文字数と同じ文字数
の前記単語辞書内の前記単語を使用し、前記文字列内の
文字に対応する前記文字認識結果候補と前記文字列内の
前記文字の位置と同じ位置の前記単語内の文字とが同一
か否かを前記文字列内のすべての文字に対して調べ、前
記同一の数を前記一致度とするようにしている。
Further, the word collating unit of the fourth character recognition device of the present invention uses the words in the word dictionary having the same number of characters as the number of characters in the character string, and corresponds to the characters in the character string. Whether the character recognition result candidate and the character in the word at the same position as the position of the character in the character string are the same or not for all the characters in the character string, and determine the same number. The degree of coincidence is set.

【0012】さらに、本発明の第4の文字認識装置の前
記類似単語判定部は、前記類似した単語認識結果候補ど
うし間での相違した文字に対してどの文字が確かかを調
べる「確からしさ」の調査を行い、前記類似した単語認
識結果候補中の最も確からしい文字を有する前記単語認
識結果候補を前記単語認識結果とするようにしている。
Further, in the fourth character recognition device of the present invention, the similar word determination unit checks which character is certain for a different character between the similar word recognition result candidates. And the word recognition result candidate having the most probable character among the similar word recognition result candidates is set as the word recognition result.

【0013】また、本発明の第1から第4の文字認識装
置は、前記文字に対する前記「確からしさ」を、この文
字の類似文字の距離値の平均の1/2の値を前記文字の
距離値に加算して算出するようにしている。
Further, the first to fourth character recognition devices of the present invention may be arranged such that the “probability” of the character is determined by calculating a half value of an average of distance values of similar characters of the character. The value is calculated by adding it to the value.

【0014】[0014]

【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。
Next, embodiments of the present invention will be described with reference to the drawings.

【0015】図1は、本発明の文字認識装置の一つの実
施の形態を示すブロック図である。
FIG. 1 is a block diagram showing one embodiment of the character recognition device of the present invention.

【0016】図1に示す本実施の形態は、帳票等を読み
取り画像データを出力する画像入力部1と、この画像デ
ータから文字列13を切り出す文字切り出し部2と、こ
の文字列13の文字を一文字毎に文字列13内の文字数
分認識し認識したそれぞれの文字に対応するそれぞれの
文字認識結果候補9を出力する(距離値の小さいものを
文字認識結果候補9とし通常複数出力する。ここで距離
値とは、認識した文字と文字認識結果候補9との違いの
度合いを示す。)文字認識部3と、文字認識部3が出力
した文字認識結果候補9と帳票等に記入される複数の単
語を予め格納した単語辞書6内の各単語との一致の度合
いを示す一致度12をそれぞれ調べ一致度12の高い単
語を文字列13の認識結果候補である単語認識結果候補
10として出力する単語照合部4と、単語照合部4が出
力した単語認識結果候補10が複数ありこれら複数の単
語認識結果候補10の中に類似した単語認識結果候補1
0が存在するときに、この類似した単語認識結果候補1
0の中から選択して文字列13の認識結果である単語認
識結果11とする類似単語判定部5とにより構成されて
いる。
In this embodiment shown in FIG. 1, an image input unit 1 for reading a form or the like and outputting image data, a character extracting unit 2 for extracting a character string 13 from the image data, and a character of the character string 13 Each character recognition result candidate 9 corresponding to each character recognized and recognized by the number of characters in the character string 13 is output for each character (a plurality of candidates having a small distance value are usually output as the character recognition result candidates 9. Here, a plurality of candidates are output. The distance value indicates the degree of difference between the recognized character and the character recognition result candidate 9.) The character recognition unit 3, the character recognition result candidate 9 output by the character recognition unit 3, and a plurality of entries written in a form or the like. The degree of coincidence 12 indicating the degree of coincidence with each word in the word dictionary 6 in which the word is stored in advance is checked, and a word having a high degree of coincidence 12 is output as a word recognition result candidate 10 which is a recognition result candidate of the character string 13. A word collating unit 4, there are a plurality word recognition result candidates 10 the word collating unit 4 is output similar word recognition result among the plurality of word recognition result candidates 10 candidates 1
0, the similar word recognition result candidate 1
And a similar word determination unit 5 which selects a word from 0 and makes a word recognition result 11 which is a recognition result of the character string 13.

【0017】単語照合部4は、文字列13の有する文字
数と同じ文字数の単語辞書6内の単語を使用し、文字列
13内の文字に対応する文字認識結果候補9と文字列1
3内のこの文字の位置と同じ位置の単語内の文字とが同
一か否かを文字列13内のすべての文字に対して調べ、
この同一の数を一致度12とするようにしている。
The word collating unit 4 uses words in the word dictionary 6 having the same number of characters as the number of characters in the character string 13, and a character recognition result candidate 9 corresponding to the character in the character string 13 and a character string 1.
3 is checked for all the characters in the character string 13 to determine whether the position of this character is the same as the character in the word at the same position.
The same number is set as the coincidence degree 12.

【0018】類似単語判定部5は、類似した単語認識結
果候補10どうし間での相違した文字に対してどの文字
が確かかを調べる「確からしさ」の調査を行い、この類
似した単語認識結果候補10中の最も確からしい文字を
有する単語認識結果候補10を単語認識結果11とする
ようにしている。
The similar word determination unit 5 conducts a "probability check" to determine which character is certain with respect to a different character between the similar word recognition result candidates 10, and determines the similar word recognition result candidate. The word recognition result candidate 10 having the most probable character in 10 is set as the word recognition result 11.

【0019】なお、図1には、類似単語判定部5が使用
する類似単語テーブル7と類似文字テーブル8とを併せ
て示している。
FIG. 1 also shows a similar word table 7 and a similar character table 8 used by the similar word determination section 5.

【0020】次に、本実施の形態の文字認識装置の動作
を図2から図9を参照して詳細に説明する。
Next, the operation of the character recognition device according to the present embodiment will be described in detail with reference to FIGS.

【0021】図2は、類似単語判定部の動作の一例を示
すフローチャートである。
FIG. 2 is a flowchart showing an example of the operation of the similar word determining unit.

【0022】図3は、単語辞書の一例を示す図であり、
単語辞書6内に帳票等に記載される単語を単語No順に
予め格納していることを示している。
FIG. 3 is a diagram showing an example of the word dictionary.
This indicates that words described in a form or the like are stored in the word dictionary 6 in advance in the order of word numbers.

【0023】図4は、類似単語テーブルの一例を示す図
であり、単語辞書6の単語群の中で単語長が同じで一文
字のみ異なる単語(類似単語14)について、類似とな
る単語(類似単語Noにて指定)毎に、この単語の文字
数,類似単語14の数及びその差異となる文字(以下、
区別化文字15)を示す(a)と、単語辞書6内の単語
に対応する単語No毎に、区別化文字15の位置と類似
単語Noとを示す(b)とにより構成し、予め作成して
おく。
FIG. 4 is a diagram showing an example of the similar word table. In the word group of the word dictionary 6, words having the same word length and differing only by one character (similar word 14) are similar words (similar word 14). No.), the number of characters of this word, the number of similar words 14, and the characters that differ therefrom (hereinafter referred to as
(A) indicating the differentiating character 15), and (b) indicating the position of the differentiating character 15 and the similar word No. for each word No. corresponding to the word in the word dictionary 6, and prepared in advance. Keep it.

【0024】図5は、類似文字テーブルの一例を示す図
であり、図4で示す区別化文字15毎に、この文字に対
して文字認識部3での文字認識の際に類似度が高いとさ
れる文字について、この文字の数(類似文字数)とこの
文字(類似文字)とを格納しており、文字認識部3の特
性を予め実験してこの結果により作成しておく。
FIG. 5 is a diagram showing an example of the similar character table. For each of the differentiating characters 15 shown in FIG. The number of characters (the number of similar characters) and the number of similar characters (similar characters) are stored for the characters to be recognized.

【0025】図6は、文字認識結果候補の一例を示す図
であり、文字認識部3で帳票に記載された文字(すなわ
ち、切り出し部で切り出された文字)を認識したとき
に、この記載文字に対して類似度の高い順に示してい
る。
FIG. 6 is a diagram showing an example of a character recognition result candidate. When the character recognizing unit 3 recognizes a character written on a document (that is, a character cut out by the cutout unit), the character Are shown in descending order of similarity.

【0026】図7は、単語辞書内の単語の一致度の一例
を示す図である。
FIG. 7 is a diagram showing an example of the degree of coincidence of words in the word dictionary.

【0027】図8は、再認識結果の一例を示す図であ
る。
FIG. 8 is a diagram showing an example of the re-recognition result.

【0028】図9は、「確からしさ」の計算過程と結果
との一例を示す図である。
FIG. 9 is a diagram showing an example of a calculation process of “probability” and a result.

【0029】図1において、画像入力部1により帳票等
を読み取り画像データを出力し、文字切り出し部2によ
り、画像入力部1が出力した画像データから例えば単語
を示す文字列13を切り出す。文字認識部3により、こ
の文字列13の文字を一文字毎に文字列13内の文字数
分認識し認識したそれぞれの文字に対応するそれぞれの
文字認識結果候補9(一個又は複数個)と、これらの文
字認識結果候補9のそれぞれの距離値を出力する。単語
照合部4は、文字列13に対応する文字認識部3が出力
した文字認識結果候補9と単語辞書6内の各単語との一
致の度合いを示す一致度12をそれぞれ調べ一致度12
の高い単語(一個又は複数個)を文字列13の認識結果
候補である単語認識結果候補10として出力する。この
とき、文字列13の有する文字数と同じ文字数の単語辞
書6内の単語を使用し、文字列13内の文字に対応する
文字認識結果候補9と文字列13内のこの文字の位置と
同じ位置の単語内の文字とが同一か否かを文字列13内
のすべての文字に対して調べ、この同一の数を一致度1
2とする。類似単語判定部5は、単語照合部4が出力し
た単語認識結果候補10を受け、この単語認識結果候補
10が一つのときにはこの単語認識結果候補10を文字
列13の認識結果である単語認識結果11とする。ま
た、単語照合部4より受けた単語認識結果候補10が複
数あった場合、これら複数の単語認識結果候補10の中
に類似した単語認識結果候補10が存在しないときに、
単語照合部4より受けた複数の単語認識結果候補10を
単語認識結果11とし、単語照合部4より受けた複数の
単語認識結果候補10の中に類似した単語認識結果候補
10が存在するときに、この類似した単語認識結果候補
10の中から選択して文字列13の認識結果である単語
認識結果11とする。すなわち、この類似した単語認識
結果候補10どうし間での相違した文字に対してどの文
字が確かかを調べる「確からしさ」の調査を行い、この
類似した単語認識結果候補10中の最も確からしい文字
を有する単語認識結果候補10を単語認識結果11とす
る。
In FIG. 1, a form or the like is read by an image input unit 1 to output image data, and a character cutout unit 2 cuts out, for example, a character string 13 indicating a word from the image data output by the image input unit 1. The character recognition unit 3 recognizes the characters of the character string 13 for each character by the number of characters in the character string 13, and each character recognition result candidate 9 (one or more) corresponding to each recognized character, and The distance value of each of the character recognition result candidates 9 is output. The word matching unit 4 checks the degree of coincidence 12 indicating the degree of coincidence between the character recognition result candidate 9 output by the character recognition unit 3 corresponding to the character string 13 and each word in the word dictionary 6, and checks the degree of coincidence 12
Is output as a word recognition result candidate 10 which is a recognition result candidate of the character string 13. At this time, a word in the word dictionary 6 having the same number of characters as the number of characters in the character string 13 is used, and the character recognition result candidate 9 corresponding to the character in the character string 13 and the same position as the position of this character in the character string 13 Is checked for all the characters in the character string 13 to determine whether or not the characters in the word are the same.
Let it be 2. The similar word determining unit 5 receives the word recognition result candidate 10 output by the word matching unit 4, and when the word recognition result candidate 10 is one, the word recognition result candidate 10 is the word recognition result which is the recognition result of the character string 13. It is assumed to be 11. Further, when there are a plurality of word recognition result candidates 10 received from the word matching unit 4, when there is no similar word recognition result candidate 10 among the plurality of word recognition result candidates 10,
When the plurality of word recognition result candidates 10 received from the word matching unit 4 are referred to as word recognition results 11 and the similar word recognition result candidate 10 exists in the plurality of word recognition result candidates 10 received from the word matching unit 4. A word recognition result 11 which is a recognition result of the character string 13 is selected from the similar word recognition result candidates 10. That is, a “probability” check is performed to determine which character is certain for a different character between the similar word recognition result candidates 10, and the most likely character in the similar word recognition result candidate 10 is determined. Is set as the word recognition result 11.

【0030】ここで、図2を用いて、類似単語判定部5
の動作を更に詳細に説明する。まず、単語照合部4より
単語認識結果候補10を受け(S1)、単語認識結果候
補10中に単語認識結果候補10どうし間で類似単語1
4が存在するか否かを図4の類似単語テーブル7を参照
して調べる(すなわち、図4に示す類似単語テーブル7
の(b)を参照し、単語認識結果候補10の単語辞書6
内の単語Noに対応する類似単語NoをステップS1で
受けたすべての単語認識結果候補10について調べ、例
えば、少なくとも2つ以上の単語認識結果候補10から
同じ類似単語Noが得られたときにこれらの単語認識結
果候補10がこの類似単語Noによる「類似単語14で
ある」と判定する。)(S2)。類似単語14が存在し
ない場合はステップS8へと続ける。類似単語14が存
在する場合は、この類似単語14に対応する、図4
(a)に示す区別化文字15とこの区別化文字15の類
似文字(図5で示す)とに認識するときの照合対象を限
定して、文字列13中の区別化文字位置の文字を文字認
識部3により再度認識し、文字認識の結果として、図8
に示すように文字認識結果候補9(前述の区別化文字1
5とこの区別化文字15の類似文字)の文字コードとこ
の文字認識結果候補9の距離値とを得る(S3)。この
結果より、それぞれの区別化文字15に対しこれらの文
字の「確からしさ」を「式1」(「式1」:Rc=γc
+Σγx/(Nc+2)、ここでx=1〜Nc、ただ
し、Rcは区別化文字15cの「確からしさ」,γcは
区別化文字15cの距離値,γ1〜γNcは区別化文字
15cの類似文字の距離値及びNcは区別化文字15c
の類似文字の数である。)により計算する。このとき、
区別化文字15だけでなく、この区別化文字15に対応
する類似文字についても、この「確からしさ」の計算に
反映させる。すなわち、「式1」では、文字cに対し、
この文字cの距離値にこの文字cの類似文字の距離値の
平均の1/2の値を加算して文字cの「確からしさ」を
算出する。この「確からしさ」も距離値同様数値が小さ
いほど「確からしさ」の度合いが高くなる(S4)。計
算の結果、これらの区別化文字15のうちのある区別化
文字15の「確からしさ」が、例えば、予め定めた値
(予め実験等で求めてきめる)未満でかつ他の区別化文
字15の「確からしさ」より予め定めた値(予め実験等
で求めてきめる)以上小のときに、この区別化文字15
を判定結果とし、前記条件を満たさない場合は判定結果
なしとする(S5)。判定結果の有無をチェックし(S
6)、判定結果ありの場合はこの判定結果の区分化文字
を含むステップS2で調べた類似単語14中の単語認識
結果候補10を単語認識結果11として出力し(S
7)、判定結果なしの場合は単語照合部4より受けた単
語認識結果候補10を出力する(S8)。
Here, referring to FIG.
Will be described in more detail. First, the word recognition result candidate 10 is received from the word collating unit 4 (S1), and the similar word 1 between the word recognition result candidates 10 is included in the word recognition result candidate 10.
4 is checked with reference to the similar word table 7 of FIG. 4 (that is, the similar word table 7 shown in FIG. 4).
(B), the word dictionary 6 of the word recognition result candidate 10 is referred to.
The similar word Nos. Corresponding to the word Nos. Are examined for all the word recognition result candidates 10 received in step S1. For example, when the same similar word No. is obtained from at least two or more word recognition result candidates 10, Is determined to be “similar word 14” based on the similar word No. ) (S2). If there is no similar word 14, the process continues to step S8. When the similar word 14 exists, the similar word 14 corresponding to FIG.
The recognition target when recognizing the differentiating character 15 shown in (a) and the similar character (shown in FIG. 5) of this differentiating character 15 is limited, and the character at the differentiating character position in the character string 13 is changed to a character. The character is recognized again by the recognition unit 3, and as a result of character recognition, FIG.
As shown in the figure, the character recognition result candidate 9 (the above-described differentiated character 1
5 and a character value of the character recognition result candidate 9 are obtained (S3). From this result, for each distinctive character 15, the “probability” of these characters is expressed by “Expression 1” (“Expression 1”: Rc = γc
+ Σγx / (Nc + 2), where x = 1 to Nc, where Rc is “probability” of the distinguishing character 15c, γc is the distance value of the distinguishing character 15c, and γ1 to γNc are similar characters of the distinguishing character 15c. The distance value and Nc are differentiating characters 15c.
Is the number of similar characters. ). At this time,
Not only the differentiating character 15 but also the similar character corresponding to the differentiating character 15 is reflected in the calculation of the “probability”. That is, in “Equation 1”, for the character c,
The value of the average of the distance values of similar characters of the character c is added to the distance value of the character c to calculate the “certainty” of the character c. The degree of “probability” increases as the numerical value of “probability” decreases, similarly to the distance value (S4). As a result of the calculation, the “probability” of one of the differentiating characters 15 is, for example, less than a predetermined value (which can be obtained in advance by an experiment or the like) and the other of the differentiating characters 15 When the value is smaller than a predetermined value (determined in advance by experiments or the like) from “probability”, the distinguishing character 15
Is determined as a determination result, and when the above condition is not satisfied, there is no determination result (S5). Check for the judgment result (S
6) If there is a judgment result, the word recognition result candidate 10 in the similar word 14 checked in step S2 including the segmented character of the judgment result is output as the word recognition result 11 (S
7) If there is no determination result, the word recognition result candidate 10 received from the word matching unit 4 is output (S8).

【0031】さらに、例をあげて、図2にしたがって類
似単語判定部5の動作を説明する。帳票等に記載され文
字切り出し部2により切り出された文字列13を「府中
西小学校」とし、文字認識部3が出力した文字認識結果
候補9が図6に示すとおりとする。そして、単語照合部
4によりこの図6で示す文字認識結果候補9を参照して
単語照合を行うと、「府中南小学校」、「府中北小学
校」、「府中西小学校」の3つの単語の一致度12がも
っとも高く単語認識結果候補10となる。すなわち、図
3で示す単語辞書6内の各単語と図6で示す文字認識結
果候補9とを比較し、単語Noが1の「青葉台小学校」
のまず一文字目「青」が、文字認識結果候補9の一文字
目「府」,「底」,「庶」,「麻」及び「庇」と一致す
るか否かを調べると、結果は一致してない。二文字目も
同様に「葉」が、「中」,「申」,「甲」,「巾」及び
「や」と一致するか否かを調べると、結果は一致してな
い。三文字目以降も同様に調べると、この単語Noが1
の「青葉台小学校」の場合、四,五及び六文字目の
「小」,「学」及び「校」に対応する文字認識結果候補
9内に図6に示すように単語辞書6と同一の漢字
「小」,「学」及び「校」が存在するため、この「青葉
台小学校」の単語内で一致した文字数は「3」すなわち
一致度12が3となる。同様に全ての単語辞書6内の単
語と図6で示す文字認識結果候補9との照合を行うと、
結果は図7に示すようになるため、一致度12がもっと
も高い「府中南小学校」「府中北小学校」「府中西小学
校」の3単語を単語認識結果候補10として出力する。
しかしながら、この時点では3つの単語の内、いずれが
最も確からしいかの判断ができない。そして、図2に示
すフローにしたがって類似単語判定部5により、単語照
合部4の出力した単語認識結果候補10「府中南小学
校」,「府中北小学校」及び「府中西小学校」の3単語
を受け(S1)、この3単語中に類似単語14があるか
否かを調べる。すなわち、図4に示す類似単語テーブル
7の(b)を参照すると、単語認識結果候補10「府中
南小学校」の単語No4から類似単語No1とNo2と
が、また、単語認識結果候補10「府中北小学校」の単
語No5及び「府中西小学校」の単語No6からは類似
単語No2がそれぞれ得られるため、例えば、少なくと
も2つ以上の単語認識結果候補10から同じ類似単語N
oが得られたときにこれらの単語認識結果候補10がこ
の類似単語Noによる「類似単語14である」と判定す
ると、類似単語No2による類似単語14があるとの判
定となる(S2)。次に、字種限定再認識を行う、つま
り、ステップS2で判定した類似単語No2を使用し
て、図4の(a)に示す類似単語テーブル7のこの類似
単語No2に対応する区別化文字15である「南」,
「北」及び「西」とその類似文字(図5に示す)
「商」,「甫」,「雨」,「比」,「此」,「酉」,
「両」及び「面」とに認識するときの照合対象を限定し
て、文字列13中の区分か文字位置(この場合3)の文
字(この場合「西」)を文字認識部3により再認識し、
この結果として図8に示す再認識結果を得る(この再認
識においては文字認識結果候補9の距離値も併せて取得
する。)(S3)。次に、区別文字確からしさ計算で
は、この再認識結果より、前述した「式1」を用いて、
それぞれの「確からしさ」を算出する。算出経過及び結
果は図9のとおりとなる(S4)。判定の条件が、「確
からしさ」が例えば100未満でかつ他のどの値よりも
例えば10以上小さい場合に、この区別化文字15を判
定結果とすると、区別化文字15「西」の「確からし
さ」が「69」であり条件を満たすため、区別化文字1
5「西」を含む単語認識結果候補10「府中西小学校」
を単語認識結果11として出力する(S5,S6,S
7)。
Further, the operation of the similar word determination unit 5 will be described with reference to FIG. The character string 13 described in the form or the like and cut out by the character cutout unit 2 is assumed to be “Fuchu Nishi Elementary School”, and the character recognition result candidates 9 output by the character recognition unit 3 are as shown in FIG. When word matching is performed by the word matching unit 4 with reference to the character recognition result candidate 9 shown in FIG. 6, the three words "Fuchu Minami Elementary School", "Fuchu Kita Elementary School", and "Fuchu Nishi Elementary School" match. The degree 12 is the highest and becomes the word recognition result candidate 10. That is, each word in the word dictionary 6 shown in FIG. 3 is compared with the character recognition result candidate 9 shown in FIG.
First, if it is checked whether the first character “blue” matches the first characters “fu”, “bottom”, “common”, “hemp” and “eave” of the character recognition result candidate 9, the results match. Not. Similarly, as to the second character, if it is determined whether or not “leaf” matches “medium”, “shin”, “instep”, “width”, and “ya”, the result does not match. When the same is performed on the third and subsequent characters, the word No. is 1
In the case of “Aobadai Elementary School”, in the character recognition result candidates 9 corresponding to the fourth, fifth and sixth characters “small”, “study” and “school”, as shown in FIG. Since “small”, “study” and “school” exist, the number of matching characters in the word “Aobadai Elementary School” is “3”, that is, the degree of matching 12 is 3. Similarly, when the words in all the word dictionaries 6 are collated with the character recognition result candidates 9 shown in FIG.
Since the result is as shown in FIG. 7, three words “Fuchu Minami Elementary School”, “Fuchu Kita Elementary School”, and “Fuchu Nishi Elementary School” having the highest matching degree 12 are output as word recognition result candidates 10.
However, at this point, it cannot be determined which of the three words is most likely. Then, the similar word determination unit 5 receives three words of the word recognition result candidates 10 “Fuchu Minami Elementary School”, “Fuchu Kita Elementary School”, and “Fuchu Nishi Elementary School” output by the word matching unit 4 according to the flow shown in FIG. (S1) It is checked whether or not there is a similar word 14 among these three words. That is, referring to (b) of the similar word table 7 shown in FIG. 4, similar words No. 1 and No. 2 from the word No. 4 of the word recognition result candidate 10 “Fuchu Minami Elementary School”, and the word recognition result candidate 10 “Fuchu North” Since the similar word No. 2 is obtained from the word No. 5 of “elementary school” and the word No. 6 of “Fuchu west elementary school”, for example, the same similar word N is obtained from at least two or more word recognition result candidates 10.
If these word recognition result candidates 10 are determined to be “similar words 14” by the similar word No when o is obtained, it is determined that there is a similar word 14 by the similar word No2 (S2). Next, character type limited re-recognition is performed, that is, using the similar word No2 determined in step S2, the differentiating character 15 corresponding to the similar word No2 in the similar word table 7 shown in FIG. "South",
"North" and "West" and their similar characters (shown in Fig. 5)
"Quote", "ho", "rain", "ratio", "this", "rooster",
The character to be collated when recognizing “both” and “face” is limited, and the character (in this case, “west”) in the character string 13 or the character at the character position (in this case, 3) is reproduced by the character recognition unit 3. Recognized,
As a result, a re-recognition result shown in FIG. 8 is obtained (in this re-recognition, the distance value of the character recognition result candidate 9 is also acquired) (S3). Next, in the calculation of the likelihood of distinguishing characters, from this re-recognition result,
Calculate the certainty of each. The calculation progress and the result are as shown in FIG. 9 (S4). If the determination condition is that “probability” is, for example, less than 100 and smaller than any other value by, for example, 10 or more, and if the distinguished character 15 is the determination result, the “probability” of the differentiated character 15 “west” "Is" 69 ", which satisfies the condition.
5 Word recognition result candidates including "West" 10 "Fuchu Nishi Elementary School"
Is output as the word recognition result 11 (S5, S6, S
7).

【0032】[0032]

【発明の効果】以上説明したように、本発明の文字認識
装置によれば、文字列(例えば単語)を読み取って認識
したときにこの文字列の認識結果候補が複数あった場
合、これら複数の認識結果候補の中に類似した認識結果
候補が存在するときに、この類似した認識結果候補の中
から選択してこの文字列の認識結果とする(すなわち、
類似した認識結果候補の中から更に絞り込んでこの文字
列の認識結果とする)ようにしたため、単語辞書内に類
似単語が多く含まれる場合でも、類似した認識結果候補
の中から選択してこの文字列の認識結果とするようにし
たので、複数の認識結果が出力される割合が減るため、
複数の認識結果が出力されたときにこれらから選択する
というオペレータの負担が軽減する。
As described above, according to the character recognition apparatus of the present invention, when a character string (for example, a word) is read and recognized, if there are a plurality of recognition result candidates for the character string, the character When there is a similar recognition result candidate among the recognition result candidates, a selection is made from the similar recognition result candidates to be a recognition result of this character string (that is,
Even if a similar word is included in the word dictionary, this character string is selected and selected from similar recognition result candidates. As the result of column recognition is used, the rate of outputting multiple recognition results is reduced,
When a plurality of recognition results are output, the burden on the operator to select from these is reduced.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の文字認識装置の一つの実施の形態を示
すブロック図である。
FIG. 1 is a block diagram showing one embodiment of a character recognition device of the present invention.

【図2】類似単語判定部の動作の一例を示すフローチャ
ートである。
FIG. 2 is a flowchart illustrating an example of an operation of a similar word determination unit.

【図3】単語辞書の一例を示す図である。FIG. 3 is a diagram illustrating an example of a word dictionary.

【図4】類似単語テーブルの一例を示す図である。FIG. 4 is a diagram showing an example of a similar word table.

【図5】類似文字テーブルの一例を示す図である。FIG. 5 is a diagram illustrating an example of a similar character table.

【図6】文字認識結果候補の一例を示す図である。FIG. 6 is a diagram illustrating an example of a character recognition result candidate.

【図7】単語辞書内の単語の一致度の一例を示す図であ
る。
FIG. 7 is a diagram showing an example of the degree of coincidence of words in a word dictionary.

【図8】再認識結果の一例を示す図である。FIG. 8 is a diagram illustrating an example of a re-recognition result.

【図9】「確からしさ」の計算過程と結果との一例を示
す図である。
FIG. 9 is a diagram illustrating an example of a calculation process of “probability” and a result.

【図10】従来の文字認識装置のブロック図である。FIG. 10 is a block diagram of a conventional character recognition device.

【符号の説明】[Explanation of symbols]

1 画像入力部 2 文字切り出し部 3 文字認識部 4 単語照合部 5 類似単語判定部 6 単語辞書 7 類似単語テーブル 8 類似文字テーブル 9 文字認識結果候補 10 単語認識結果候補 11 単語認識結果 12 一致度 13 文字列 14 類似単語 15 区別化文字 DESCRIPTION OF SYMBOLS 1 Image input part 2 Character extraction part 3 Character recognition part 4 Word collation part 5 Similar word judgment part 6 Word dictionary 7 Similar word table 8 Similar character table 9 Character recognition result candidate 10 Word recognition result candidate 11 Word recognition result 12 Matching degree 13 Character string 14 Similar words 15 Differentiating characters

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】 文字列を読み取って認識したときにこの
文字列の認識結果候補が複数ありこれら複数の認識結果
候補の中に類似した前記認識結果候補が存在するとき
に、この類似した認識結果候補の中から選択して前記文
字列の認識結果とするようにしたことを特徴とする文字
認識装置。
1. When a character string is read and recognized, there are a plurality of recognition result candidates of the character string, and when there are similar recognition result candidates among the plurality of recognition result candidates, the similar recognition result is obtained. A character recognizing device, wherein a character string is selected from the candidates to be used as the character string recognition result.
【請求項2】 単語を示す文字列を読み取って認識した
ときにこの文字列の認識結果候補が複数ありこれら複数
の認識結果候補の中に類似した前記認識結果候補が存在
するときに、この類似した認識結果候補の中から選択し
て前記単語の認識結果とするようにしたことを特徴とす
る文字認識装置。
2. When a character string indicating a word is read and recognized, there are a plurality of recognition result candidates for the character string, and when there is a similar recognition result candidate among the plurality of recognition result candidates, the similarity is determined. A character recognition apparatus, wherein the selected character is selected from among the recognized recognition result candidates to obtain the word recognition result.
【請求項3】 帳票上に記載された単語を示す文字列を
読み取って認識したときにこの文字列の認識結果候補が
複数ありこれら複数の認識結果候補の中に類似した前記
認識結果候補が存在するときに、この類似した認識結果
候補の中から選択して前記単語の認識結果とするように
したことを特徴とする文字認識装置。
3. When a character string indicating a word written on a form is read and recognized, there are a plurality of recognition result candidates for the character string, and a similar recognition result candidate exists among the plurality of recognition result candidates. A character recognition device that selects from the similar recognition result candidates to make the recognition result of the word.
【請求項4】 前記認識結果は、前記類似した認識結果
候補どうし間での相違した文字に対してどの文字が確か
かを調べる「確からしさ」の調査を行い、前記類似した
認識結果候補中の最も確からしい文字を有する前記認識
結果候補を選択して得るようにしたことを特徴とする請
求項1、2又は3記載の文字認識装置。
4. The recognition result is obtained by performing a “probability” check to determine which character is certain with respect to a different character between the similar recognition result candidates. 4. The character recognition device according to claim 1, wherein the recognition result candidate having the most probable character is selected and obtained.
【請求項5】 帳票を読み取り画像データを出力する画
像入力部と、 前記画像データから文字列を切り出す文字切り出し部
と、 前記文字列の文字を一文字毎に前記文字列内の文字数分
認識し認識したそれぞれの文字に対応するそれぞれの文
字認識結果候補を出力する文字認識部と、 前記文字認識部が出力した前記文字認識結果候補と前記
帳票に記入される複数の単語を予め格納した単語辞書内
の各単語との一致の度合いを示す一致度をそれぞれ調べ
前記一致度の高い前記単語を前記文字列の認識結果候補
である単語認識結果候補として出力する単語照合部と、 前記単語照合部が出力した前記単語認識結果候補が複数
ありこれら複数の単語認識結果候補の中に類似した前記
単語認識結果候補が存在するときに、この類似した単語
認識結果候補の中から選択して前記文字列の認識結果で
ある単語認識結果とする類似単語判定部と、 を備えたことを特徴とする文字認識装置。
5. An image input unit for reading a form and outputting image data, a character cutout unit for cutting out a character string from the image data, and recognizing and recognizing the characters of the character string for each character by the number of characters in the character string. A character recognition unit that outputs each character recognition result candidate corresponding to each of the characters, and a word dictionary in which the character recognition result candidates output by the character recognition unit and a plurality of words to be written in the form are stored in advance. A word matching unit that checks a degree of matching indicating a degree of matching with each word of the word, and outputs the word having a high degree of matching as a word recognition result candidate that is a recognition result candidate of the character string; When there are a plurality of candidate word recognition results, and the plurality of candidate word recognition results include the similar candidate word recognition result, the similar candidate word recognition result is determined. Character recognition apparatus characterized by comprising a, a similar word determining unit that the word recognition result is a recognition result of the character string by selecting from within.
【請求項6】 前記単語照合部は、前記文字列の有する
文字数と同じ文字数の前記単語辞書内の前記単語を使用
し、前記文字列内の文字に対応する前記文字認識結果候
補と前記文字列内の前記文字の位置と同じ位置の前記単
語内の文字とが同一か否かを前記文字列内のすべての文
字に対して調べ、前記同一の数を前記一致度とするよう
にしたことを特徴とする請求項5記載の文字認識装置。
6. The word matching unit uses the words in the word dictionary having the same number of characters as the number of characters in the character string, and selects the character recognition result candidate corresponding to the character in the character string and the character string. Whether the character in the word at the same position as the character in the word is the same or not for all the characters in the character string, and set the same number as the matching degree. The character recognition device according to claim 5, wherein
【請求項7】 前記類似単語判定部は、前記類似した単
語認識結果候補どうし間での相違した文字に対してどの
文字が確かかを調べる「確からしさ」の調査を行い、前
記類似した単語認識結果候補中の最も確からしい文字を
有する前記単語認識結果候補を前記単語認識結果とする
ようにしたことを特徴とする請求項5又は6記載の文字
認識装置。
7. The similar word recognition unit performs a search of “probability” for checking which character is certain for a different character between the similar word recognition result candidates, and performs the similar word recognition. 7. The character recognition device according to claim 5, wherein the word recognition result candidate having the most probable character in the result candidates is set as the word recognition result.
【請求項8】 前記文字に対する前記「確からしさ」
は、この文字の類似文字の距離値の平均の1/2の値を
前記文字の距離値に加算して算出するようにしたことを
特徴とする請求項4又は7記載の文字認識装置。
8. The “probability” for the character
The character recognition device according to claim 4, wherein the value is calculated by adding a half value of an average of distance values of similar characters to the character to the distance value of the character.
JP2000074791A 2000-03-16 2000-03-16 Device for recognizing character Pending JP2001266074A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000074791A JP2001266074A (en) 2000-03-16 2000-03-16 Device for recognizing character

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000074791A JP2001266074A (en) 2000-03-16 2000-03-16 Device for recognizing character

Publications (1)

Publication Number Publication Date
JP2001266074A true JP2001266074A (en) 2001-09-28

Family

ID=18592779

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000074791A Pending JP2001266074A (en) 2000-03-16 2000-03-16 Device for recognizing character

Country Status (1)

Country Link
JP (1) JP2001266074A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011081454A (en) * 2009-10-02 2011-04-21 Sharp Corp Information processing apparatus, information processing method, program and recording medium

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011081454A (en) * 2009-10-02 2011-04-21 Sharp Corp Information processing apparatus, information processing method, program and recording medium

Similar Documents

Publication Publication Date Title
US5218536A (en) Electronic spelling machine having ordered candidate words
JPH10105655A (en) Method and system for verification and correction for optical character recognition
WO2000036530A1 (en) Searching method, searching device, and recorded medium
JP2001266074A (en) Device for recognizing character
JP4047895B2 (en) Document proofing apparatus and program storage medium
JP2998054B2 (en) Character recognition method and character recognition device
JPH0528324A (en) English character recognition device
JP3188154B2 (en) Character recognition processing method
JP4318223B2 (en) Document proofing apparatus and program storage medium
JPH0441388B2 (en)
JP4047894B2 (en) Document proofing apparatus and program storage medium
JP3071745B2 (en) Post-processing method of character recognition result
JP2827066B2 (en) Post-processing method for character recognition of documents with mixed digit strings
JPS646514B2 (en)
JP2923295B2 (en) Pattern identification processing method
JP2845463B2 (en) Pattern recognition device
JPH04111186A (en) Character recognition result correction method for address character string
JPS61107486A (en) Character recognition post-processing system
JPH0757059A (en) Character recognition device
JP2000251017A (en) Word dictionary preparing device and word recognizing device
JP2000099635A (en) Device and method for predicting character string
JPH05120494A (en) Character recognizing method and its device
JP2637762B2 (en) Pattern detail identification method
JPH04318687A (en) Character recognition unit
JP2007257249A (en) Character recognition method and its device and storage medium with its program stored

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030729