JP2998054B2 - Character recognition method and character recognition device - Google Patents

Character recognition method and character recognition device

Info

Publication number
JP2998054B2
JP2998054B2 JP6050865A JP5086594A JP2998054B2 JP 2998054 B2 JP2998054 B2 JP 2998054B2 JP 6050865 A JP6050865 A JP 6050865A JP 5086594 A JP5086594 A JP 5086594A JP 2998054 B2 JP2998054 B2 JP 2998054B2
Authority
JP
Japan
Prior art keywords
character
candidate
word
area
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP6050865A
Other languages
Japanese (ja)
Other versions
JPH07262322A (en
Inventor
秀幸 磯山
敏之 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP6050865A priority Critical patent/JP2998054B2/en
Publication of JPH07262322A publication Critical patent/JPH07262322A/en
Application granted granted Critical
Publication of JP2998054B2 publication Critical patent/JP2998054B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は文字認識技術に関し、特
に認識結果を修正する技術に関する。より詳細には、光
学式文字読み取り装置(OCR)等によって文字認識を
行う際に、各種申請書類、売上伝票、配送伝票等の帳票
に記入される文字列の文字認識結果について、認識誤り
を修正する技術に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition technique, and more particularly to a technique for correcting a recognition result. More specifically, when performing character recognition using an optical character reading device (OCR), etc., the recognition error was corrected for the character recognition results of the character strings written in forms such as various application documents, sales slips, and delivery slips. Related to technology.

【0002】[0002]

【従来の技術】文字認識技術は多くの分野で必要とされ
ており、特に認識精度を向上するために文字の認識結果
を修正する技術等が研究されている。例えば、特開昭6
3−103393号公報(単語認識装置)、特開昭63
−121989号公報(単語読み取り方式)等には、文
字ピッチが一定でない文書画像を対象として文字認識結
果を修正する方式が開示されている。
2. Description of the Related Art A character recognition technique is required in many fields, and in particular, a technique for correcting a character recognition result in order to improve recognition accuracy has been studied. For example, JP
JP-A-3-103393 (word recognition device)
Japanese Patent Application Laid-Open No. -121989 (word reading method) discloses a method of correcting a character recognition result for a document image in which the character pitch is not constant.

【0003】これらの方式では、まず文字の外接矩形の
形状的特徴等から1文字単位への切り出しを行い、もっ
とも確からしい文字パタンを選択して文字を認識する。
次に、文字認識の結果得られた候補文字列における文字
位置のずれ及び文字の誤りを許容して単語辞書から該当
する単語を検索し、検索された単語毎に文字認識結果候
補文字との比較を行う。更に、誤って文字切り出しが行
われた部分を検出し、再度、文字切り出し・文字認識を
行って、候補文字が一致する単語を抽出し、最後に文字
認識の評価値を累積した値の大きさに従って候補単語を
決定している。
In these systems, characters are first cut out in character units from the shape characteristics of a circumscribed rectangle of characters, and the most probable character pattern is selected to recognize the character.
Next, a permissible word is searched from the word dictionary by allowing a character position shift and a character error in the candidate character string obtained as a result of the character recognition, and each searched word is compared with the character recognition result candidate character. I do. Furthermore, the part where the character is cut out by mistake is detected, the character is cut out and the character is recognized again, the word in which the candidate character is matched is extracted, and finally, the value of the value obtained by accumulating the evaluation value of the character recognition is obtained. Is determined according to.

【0004】[0004]

【発明が解決しようとする課題】上記従来技術によれば
一応の認識精度を得ることができる。しかし、このよう
な方式では、最初の文字切り出しにおいて、一通りの文
字パタンだけを作成して文字認識・単語検索を行い、単
語検索で得られた結果の中から最適の単語を選択してい
るので、最初の文字切り出しが誤っていて、単語検索の
結果得られた単語の中に正解単語が含まれていない場合
は、修正誤りとなっていた。
According to the above-mentioned prior art, a certain degree of recognition accuracy can be obtained. However, in such a method, in the first character segmentation, only one character pattern is created, character recognition and word search are performed, and the optimal word is selected from the results obtained by the word search. Therefore, if the first character segmentation was incorrect and the correct word was not included in the words obtained as a result of the word search, it was a correction error.

【0005】また、読み取り対象の文字列については、
文字列が住所地名のように単語辞書に全て網羅できる場
合は、それらを単語辞書に登録しておくことで、単語照
合を行うことができた。これに対して、不特定多数の企
業名・建物名などを読み取る場合には、出現する全ての
文字列を登録することはできないので、辞書未登録語を
認識する場合には、従来手法ではその文字列全体が照合
不能または修正誤りとなってしまうという課題が残され
ていた。
[0005] The character string to be read is:
When all the character strings can be covered in a word dictionary like address place names, by registering them in the word dictionary, word matching could be performed. On the other hand, when reading an unspecified number of company names or building names, it is not possible to register all the character strings that appear. There remains a problem that the entire character string cannot be verified or a correction error occurs.

【0006】本発明は上記背景の下になされたものであ
り、認識率が高く、また辞書登録されていない単語に対
しても正しい文字認識が可能な文字認識方法及びこの方
法を実現する文字認識装置を提供することを目的とす
る。
The present invention has been made under the above background, and has a high recognition rate and a character recognition method capable of correctly recognizing a character that is not registered in a dictionary, and a character recognition method realizing the method. It is intended to provide a device.

【0007】本発明が提供する第1発明の文字認識方法
は、文字列画像を単位領域毎に分割する段階と、分割さ
れた単位領域又は隣接領域の組み合わせから少なくとも
1文字として認識し得る1以上の領域組み合わせを検出
し、更に、検出された領域組み合わせに対応する文字パ
タン及び該領域組み合わせに含まれる単位領域にそれぞ
れ対応する文字パタンを検出する段階と、検出された各
文字パタン毎に、認識結果となる単語内で各文字パタン
がそれぞれ何文字目の位置とり得るかを検出する段階
と、各文字パタン毎に認識し得る候補文字を特定する段
階と、各候補文字毎に、もとの文字パタンがとり得る位
置に該候補文字と一致する文字が存在する単語を候補単
語として特定する段階と、所定の評価基準に従って各候
補単語から前記文字列画像が表す単語を決定する段階
と、を有する。
A character recognition method according to a first invention provided by the present invention includes a step of dividing a character string image into unit areas, and at least one character that can be recognized as at least one character from a combination of the divided unit areas or adjacent areas. Detecting a character combination corresponding to the detected region combination and a character pattern corresponding to each of the unit regions included in the region combination, and recognizing each of the detected character patterns. results and comprising the steps of words within each character pattern to detect whether each may take the position of the character number consisting the steps of identifying a candidate character capable of recognizing each character pattern, for each candidate character, based on Identifying a word in which a character matching the candidate character exists at a position where the character pattern of the candidate character can take as a candidate word; and determining the sentence from each candidate word according to a predetermined evaluation criterion. A determining a word represented by the string image, a.

【0008】本発明が提供する第2発明の文字認識方法
は、上記第1発明の文字認識方法において、各文字パタ
ンと、それぞれに対応する前記候補文字との近似度を表
す文字評価値を生成する段階と、前記候補単語を構成す
る文字と前記候補文字とを比較して該候補単語内の文字
の位置に適合する候補文字を検出するとともに、検出さ
れた候補文字に対応する文字評価値からそれぞれの単語
評価値を生成する段階と、生成された単語評価値に基づ
き各候補単語を評価して前記文字列画像が表す単語を決
定する段階と、を有する。なお、候補単語の評価を行う
際に、好ましくは、文字列長に対する一致文字数及び一
致文字の評価値の累積値によって最適の単語を決定す
る。
According to a second aspect of the present invention, there is provided the character recognition method according to the first aspect, wherein a character evaluation value representing a degree of similarity between each character pattern and the corresponding candidate character is generated. And comparing a character constituting the candidate word with the candidate character to detect a candidate character matching the position of the character in the candidate word, and from the character evaluation value corresponding to the detected candidate character Generating each word evaluation value; and evaluating each candidate word based on the generated word evaluation value to determine a word represented by the character string image. When evaluating candidate words, it is preferable to determine an optimum word based on the number of matching characters with respect to the character string length and the cumulative value of the evaluation values of the matching characters.

【0009】また、第3発明の文字認識方法は、文字列
画像を単位領域毎に分割する段階と、前記単位領域を最
小単位として前記文字列画像から所定位置の認識対象領
域を切り出す段階と、前記切り出された認識対象領域毎
に文字認識処理を行ってそれぞれ候補単語を決定する段
階と、決定された候補単語それぞれについて、元の文字
列画像における対応領域を検出する段階と、前記決定さ
れた候補単語を組み合わせ、各組み合わせのうち、前記
文字列画像において前記検出された対応領域同士の重な
り部及び対応領域間の間隙部が最小となる組み合わせを
選択する段階と、選択された組み合わせに対応する候補
単語の組み合わせを前記文字列画像が表す文字として決
定する段階と、を有する。
In the character recognition method according to a third aspect of the present invention, the character string image is divided into unit areas, and a recognition target area at a predetermined position is cut out from the character string image using the unit area as a minimum unit. Performing a character recognition process for each of the cut-out recognition target regions to determine candidate words, and, for each of the determined candidate words, detecting a corresponding region in an original character string image; Combining candidate words, selecting a combination that minimizes the overlap between the detected corresponding regions and the gap between the corresponding regions in the character string image, from among the combinations, corresponding to the selected combination Determining a combination of candidate words as a character represented by the character string image.

【0010】第4発明の文字認識方法は、上記第3発明
の文字認識方法の好適な例として、所定位置の認識対象
領域を切り出す段階が、前記分割された複数の単位領域
の各々を先頭とする複数の隣接単位領域の結合領域をそ
れぞれ認識対象領域として切り出すことを特徴とする。
In a preferred embodiment of the character recognition method according to the third aspect of the present invention, the step of cutting out a recognition target area at a predetermined position includes setting each of the plurality of divided unit areas as a head. It is characterized in that a combined region of a plurality of adjacent unit regions is cut out as a recognition target region.

【0011】更に、本発明が提供する第5発明の文字認
識装置は、認識対象となる文字列画像を格納した第1の
メモリと、認識候補文字群を格納した第2のメモリと、
認識候補単語群を格納した第3のメモリとを備え、更
に、前記第1のメモリに格納された文字列画像を単位領
域毎に分割する画像領域分割手段と、分割された単位領
域又は隣接領域の組み合わせから少なくとも1文字とし
て認識し得る領域組み合わせを検出する領域特徴検出手
段と、検出された領域組み合わせに対応する文字パタン
及び該領域組み合わせに含まれる単位領域に対応する文
字パタンをそれぞれの領域特徴に基づいて生成する文字
パタン生成手段と、生成された各文字パタンが、認識
果となる単語の何文字目の位置をとり得るかを検出する
文字位置範囲検出手段と、前記各文字パタンに対応する
候補文字を前記第2のメモリから選択する候補文字選択
手段と、選択された候補文字のとり得る位置範囲内に一
致する文字がある全ての候補単語を前記第3のメモリか
ら選択する第1の候補単語選択手段と、所定の基準に従
って前記選択された候補単語から前記文字列画像が表す
単語を決定する単語決定手段と、を有することを特徴と
する。
Further, a character recognition device according to a fifth invention provided by the present invention includes a first memory storing a character string image to be recognized, a second memory storing a recognition candidate character group,
A third memory storing a group of recognition candidate words, further comprising an image area dividing means for dividing the character string image stored in the first memory into unit areas, and a divided unit area or adjacent area Area feature detection means for detecting an area combination recognizable as at least one character from the combination of the characters, a character pattern corresponding to the detected area combination, and a character pattern corresponding to a unit area included in the area combination. a character pattern generating means for generating on the basis of each character pattern generated is recognized binding
A character position range detecting means for detecting whether may take what character position of the word to be a result, the candidate character selection means for selecting a candidate character corresponding to each character pattern from said second memory, the selected First candidate word selecting means for selecting, from the third memory, all candidate words having a matching character within the position range of the selected candidate character, and selecting the character from the selected candidate word according to a predetermined criterion. Word determination means for determining a word represented by the column image.

【0012】更に第6発明に係る文字認識装置は、認識
対象となる文字列画像を格納した第1のメモリと、認識
候補単語群を格納した第3のメモリとを少なくとも備
え、更に、前記第1のメモリ内の文字列画像を単位領域
毎に分割する画像領域分割手段と、前記単位領域を最小
単位として前記文字列画像から所定の認識対象領域を切
り出す画像領域切出し手段と、前記切り出された認識対
象領域毎に文字認識処理を行って前記第2のメモリから
全ての候補単語を選択する第2の候補単語選択手段と、
選択された各候補単語それぞれについて元の文字列画像
における対応領域を検出して複数の領域組み合わせを生
成するとともに、検出された対応領域同士の重なり部及
び対応領域間の間隙部が最小となる領域組み合わせを特
定する領域組み合わせ特定手段と、この特定された組み
合わせに対応する候補単語の組み合わせを前記文字列画
像が表す単語の組み合わせとして決定する複合単語決定
手段と、を有することを特徴とする。
A character recognition apparatus according to a sixth aspect of the present invention includes at least a first memory storing a character string image to be recognized and a third memory storing a recognition candidate word group. An image area dividing unit that divides a character string image in one memory into unit areas, an image area extracting unit that extracts a predetermined recognition target area from the character string image using the unit area as a minimum unit, Second candidate word selecting means for performing character recognition processing for each recognition target area and selecting all candidate words from the second memory;
A region where the corresponding region in the original character string image is detected for each of the selected candidate words and a plurality of region combinations are generated, and an overlapping portion between the detected corresponding regions and a gap portion between the corresponding regions are minimized. An area combination specifying unit for specifying a combination and a compound word determining unit for determining a combination of candidate words corresponding to the specified combination as a combination of words represented by the character string image are provided.

【0013】なお、対応領域同士の重なり部及び対応領
域間の間隙部が最小となる領域組み合わせは、例えば以
下のようにして特定する。まず、もとの文字列画像に対
して座標を設定するとともに、各候補単語の先頭文字及
び終端文字に対応する文字パタンの座標位置を参照する
ことによって各単語同士の距離を導出する。次に、各単
語に対応する文字パタンの重複部の距離及び間隙部の距
離を調べ、この距離の値が許容範囲内であれば単語の接
続を認める。この方式によって接続できる単語を組合せ
て複合語とする。特に、所定の単語評価値を用いた認識
処理を行う場合には、複合語の文字列長に対する一致文
字数及び一致文字の評価値の累積値によって最適の複合
語を決定する。
An area combination in which the overlap between the corresponding areas and the gap between the corresponding areas is minimized is specified as follows, for example. First, the coordinates of the original character string image are set, and the distance between the words is derived by referring to the coordinate positions of the character patterns corresponding to the first character and the last character of each candidate word. Next, the distance of the overlapping portion and the distance of the gap portion of the character pattern corresponding to each word are checked, and if the value of this distance is within the allowable range, the connection of the word is recognized. Words that can be connected by this method are combined to form a compound word. In particular, when performing recognition processing using a predetermined word evaluation value, an optimal compound word is determined based on the number of matching characters with respect to the character string length of the compound word and the cumulative value of the evaluation values of the matching characters.

【0014】[0014]

【作用】第1発明の文字認識方法では、文字列画像から
文字パタンを切り出す際に、各単位領域に対応する文字
パタンと、少なくとも1文字と見做し得る単位領域の組
み合わせに対応する文字パタンとを生成するので、もと
の文字列から生成可能な文字パタンを全て生成してお
り、認識すべき正しい文字パタンもこの生成された文字
パタン内に含まれる。このように正しい文字パタンを取
り逃さないので、選択する候補文字として認識すべき文
字が選択される確率が高くなり、従って文字認識精度が
高まる。特に、第2発明のように各文字パタンと対応す
る候補文字とがどれだけ近似しているかを示す文字評価
値を生成し、この文字評価値を用いて各候補単語の評価
値を生成することで、各候補単語と原文字列画像との類
似度が客観的な数値として表現される。
According to the character recognition method of the first invention, when a character pattern is cut out from a character string image, a character pattern corresponding to each unit area and a character pattern corresponding to a combination of unit areas that can be regarded as at least one character. Is generated, all the character patterns that can be generated from the original character string are generated, and the correct character pattern to be recognized is also included in the generated character pattern. Since a correct character pattern is not missed in this way, the probability that a character to be recognized as a candidate character to be selected is selected is increased, and thus the character recognition accuracy is increased. In particular, as in the second invention, generating a character evaluation value indicating how close each character pattern is to a corresponding candidate character, and using this character evaluation value to generate an evaluation value for each candidate word Thus, the similarity between each candidate word and the original character string image is expressed as an objective numerical value.

【0015】第3発明の文字認識方法では、元の文字列
画像から複数の認識対象領域を生成し、それぞれの認識
対象領域に対して選択された候補単語を組み合わせてい
るので、文字列画像が複数の単語の組み合わせとして認
識される。これにより、従来は文字列画像を単一の単語
として認識することしかできなかったのに対し、文字列
画像を複数の単語からなる複合語として認識することが
可能となる。
In the character recognition method of the third invention, a plurality of recognition target areas are generated from the original character string image, and the candidate words selected for each of the recognition target areas are combined. It is recognized as a combination of multiple words. Thus, the character string image can be recognized as a compound word including a plurality of words, whereas the character string image can only be recognized as a single word in the related art.

【0016】特に、第4発明のように、分割された複数
の単位領域の各々を先頭領域とする複数の隣接単位領域
の結合領域をそれぞれ認識対象領域として切り出すこと
により、この文字列画像を構成する可能性のある単語が
全て検出される。また、文字パタンの重複部の距離及び
間隙部の距離を調べ、この距離の値が許容範囲内であれ
ば単語の接続を認めることで、同一文字を2つ以上の単
語に重複して用いるような、論理的に矛盾のある組み合
わせが排除される。
In particular, as in the fourth invention, this character string image is constituted by cutting out, as recognition target areas, a combined area of a plurality of adjacent unit areas each of which has a plurality of divided unit areas as a leading area. All possible words are detected. In addition, the distance of the overlapping portion of the character pattern and the distance of the gap portion are checked, and if the value of this distance is within the allowable range, the connection of the word is permitted, so that the same character can be used repeatedly in two or more words. However, logically inconsistent combinations are excluded.

【0017】また、第5発明の文字認識装置では、上記
第1発明の文字認識方法を実施するために、認識対象と
なる文字列画像を1のメモリ、認識候補文字群を
のメモリ、認識候補単語群を第3のメモリに格納してお
き、画像分割手段で第1のメモリ内の文字列画像を単位
領域毎に分割し、分割された単位領域又は隣接領域の組
み合わせから少なくとも1文字として認識し得る領域組
み合わせを領域特徴検出手段で検出する。そして各領域
組み合わせに対応する文字パタン及び該領域組み合わせ
に含まれる単位領域に対応する文字パタンをそれぞれの
領域特徴に基づいて文字パタン生成手段で生成し、各文
字パタンが、認識結果となる単語の何文字目の位置をと
り得るかを文字位置範囲検出手段で検出する。その後、
各文字パタンに対応する候補文字を候補文字選択手段が
第2のメモリから選択し、選択された候補文字のとり得
る位置範囲内に一致する文字がある全ての候補単語を第
1の候補単語選択手段が第3のメモリから選択する。そ
して、単語決定手段が、これら候補単語から所定の評価
基準に従って文字列画像が表す単語を決定する。
[0017] In the character recognition device of the fifth invention, in order to implement the character recognition method of the first invention, the first memory string image to be recognized, the recognition candidate character group second
Is stored in the third memory, and the character string image in the first memory is divided for each unit area by the image dividing means, and a combination of the divided unit area or the adjacent area is used. An area combination that can be recognized as at least one character is detected by an area feature detection unit. The generated by the character pattern generating means based on the character pattern corresponding to the unit region included in the character pattern and region combinations corresponding to each region combination to each region feature, each character pattern is the recognition result to become words The character position range detecting means detects what character position can be taken. afterwards,
The candidate character selection means selects a candidate character corresponding to each character pattern from the second memory, and selects all candidate words having a matching character within a possible position range of the selected candidate character as a first candidate word. The means selects from the third memory. Then, the word determination means determines a word represented by the character string image from the candidate words according to a predetermined evaluation criterion.

【0018】第6発明の文字認識装置は、上記第3発明
の文字認識方法を実施するために、認識対象となる文字
列画像を第1のメモリ、認識候補単語群を第2のメモリ
に格納しておき、第1のメモリ内の文字列画像を画像領
域分割手段で単位領域毎に分割する。そして単位領域を
最小単位として文字列画像から所定の認識対象領域を切
り出し、更に第2の候補単語選択手段が、認識対象領域
毎に文字認識処理を行って第2のメモリから全ての候補
単語を選択する。領域特定手段は、選択された各候補単
語それぞれについて元の文字列画像における対応領域を
検出して複数の領域組み合わせを生成する。そして対応
領域同士の重なり部及び対応領域間の間隙部が最小とな
る領域組み合わせを特定する。複合単語決定手段は、こ
の特定された組み合わせに対応する候補単語の組み合わ
せを文字列画像が表す単語の組み合わせとして決定す
る。
In order to implement the character recognition method of the third invention, the character recognition apparatus of the sixth invention stores a character string image to be recognized in a first memory and a group of recognition candidate words in a second memory. In advance, the character string image in the first memory is divided for each unit area by the image area dividing means. Then, a predetermined recognition target area is cut out from the character string image with the unit area as a minimum unit, and the second candidate word selecting means performs a character recognition process for each recognition target area and retrieves all candidate words from the second memory. select. The area specifying means detects a corresponding area in the original character string image for each of the selected candidate words and generates a plurality of area combinations. Then, an area combination that minimizes the overlap between the corresponding areas and the gap between the corresponding areas is specified. The compound word determining means determines a combination of candidate words corresponding to the specified combination as a combination of words represented by the character string image.

【0019】[0019]

【実施例】以下、図面を参照して本発明の実施例を詳細
に説明する。
Embodiments of the present invention will be described below in detail with reference to the drawings.

【0020】(第1実施例)図1は本発明の一実施例に
係る文字認識装置の機能ブロック図である。図中、10
1は、イメージスキャナ等から入力される文字列画像
(文書行画像)を格納する文字列画像格納部(第1のメ
モリ)、102は、文字列画像を最小の単位領域に分割
する文字列分割部(画像領域分割手段)、103は、隣
接する単位領域の組み合わせのうち、1文字として認識
できる組み合わせを全て検出するとともに、画像特徴を
用いて、検出された単位領域の組み合わせに対応する文
字パタン及び各単位領域に対応する文字パタンを生成す
る文字パタン生成部(領域特徴検出手段、文字パタン生
成手段)、104は、各文字パタンが認識結果となる単
語内で何文字目から何文字目までの位置をとり得るかを
全て検出する位置範囲検出部(文字位置検出手段)、1
05は、認識候補文字とその標準パタンとを格納する候
補文字格納部(第2のメモリ)である。
(First Embodiment) FIG. 1 is a functional block diagram of a character recognition device according to one embodiment of the present invention. In the figure, 10
Reference numeral 1 denotes a character string image storage unit (first memory) that stores a character string image (document line image) input from an image scanner or the like, and 102 denotes a character string division unit that divides a character string image into minimum unit areas. The unit (image area dividing unit) 103 detects all combinations that can be recognized as one character among combinations of adjacent unit areas, and uses an image feature to set a character pattern corresponding to the detected combination of unit areas. And a character pattern generation unit (region characteristic detection means, character pattern generation means) 104 for generating a character pattern corresponding to each unit area, from what character to what character in a word in which each character pattern is a recognition result. Position range detecting section (character position detecting means) for detecting all possible positions of
Reference numeral 05 denotes a candidate character storage (second memory) for storing recognition candidate characters and their standard patterns.

【0021】また、106は、位置範囲検出部104で
検出された位置範囲内の各文字パタンを候補文字格納部
105内の標準パタンとそれぞれ比較し、文字パタン毎
に候補文字を選択する候補文字選択部(候補文字選択手
段)であり、選択した各候補文字毎に、文字パタンと標
準パタンとがどれだけ近似しているかの指標となる文字
評価値を生成する。このように選択された候補文字とそ
のとり得る位置範囲、及び対応する文字評価値を出力す
る。なお、本実施例では文字パタンと標準パタンとが近
くなるにつれて文字評価値の値が大きくなるようにし
た。
Reference numeral 106 denotes a candidate character for comparing each character pattern in the position range detected by the position range detection unit 104 with a standard pattern in the candidate character storage unit 105 and selecting a candidate character for each character pattern. A selection unit (candidate character selection means) generates a character evaluation value as an index of how close the character pattern and the standard pattern are for each selected candidate character. The candidate character selected in this way, its possible position range, and the corresponding character evaluation value are output. In this embodiment, the value of the character evaluation value increases as the character pattern and the standard pattern become closer.

【0022】107は、認識候補単語群及び文字位置毎
に文字コードと単語辞書(図示省略)に登録された単語
とを対応させた単語テーブルを格納する候補単語格納部
(第3のメモリ)、108は、候補文字選択部106か
ら得られる候補文字に対応する文字コードを検出する候
補単語選択部(候補単語選択手段)であり、上記単語テ
ーブルを用いて、候補単語選択部107内の各候補単語
から、候補文字のとり得る位置範囲内に一致する文字が
ある全ての単語を候補単語として選択する。
A candidate word storage unit (third memory) 107 for storing a word table in which character codes are associated with words registered in a word dictionary (not shown) for each group of recognized candidate words and character positions; Reference numeral 108 denotes a candidate word selection unit (candidate word selection unit) that detects a character code corresponding to a candidate character obtained from the candidate character selection unit 106. Each candidate word in the candidate word selection unit 107 is From words, all words having a matching character within the position range of the candidate characters are selected as candidate words.

【0023】109は、選択された各候補単語内の各文
字に対して、上記候補文字と一致する文字を検出すると
ともに、検出された文字がもとの候補文字の位置範囲内
にあるかどうかを検出する単語評価値算出部であり、各
候補単語に対してこれらの条件を満たす文字を検出する
とともに、対応する候補文字における評価値をその単語
の得点として加算していき、得られる総和値を単語評価
値とする。110は、上記単語評価値をもとにして、選
択された候補単語から好適な単語を選択する好適単語決
定部である(以上単語決定手段)。
A step 109 detects, for each character in each selected candidate word, a character that matches the above-mentioned candidate character, and checks whether the detected character is within the position range of the original candidate character. Is a word evaluation value calculation unit that detects a character that satisfies these conditions for each candidate word, adds the evaluation value of the corresponding candidate character as a score of the word, and obtains a total sum value. Is the word evaluation value. Reference numeral 110 denotes a suitable word determining unit that selects a suitable word from the selected candidate words based on the word evaluation value (the above-described word determining unit).

【0024】ここで、単語評価値算出部109では、単
語候補に対して、検出された文字がもとの候補文字の位
置範囲内にあるかどうかを検出しているだけなので、1
つの文字位置に対して複数の文字候補が割り当てられて
いる可能性もある。また、候補単語の文字順がもとの切
り出しパタンの文字順と逆転している可能性もある。こ
のように、上記単語評価値には、論理的に矛盾のある候
補文字の分の評価値も加算されている可能性があるの
で、検索された各単語候補に対して、再度、文字位置の
重複や逆転がなく一致文字数が最も多くなる切り出しパ
タンの組合せを決める。そして、一致した候補文字の評
価値を合計して真の単語評価値とし、その値に基づいて
好適単語を選択する。この実施例では、その値が最も高
得点となる候補単語を1つ選択して好適単語とした。
Here, the word evaluation value calculation unit 109 only detects whether or not the detected character is within the position range of the original candidate character for the word candidate.
A plurality of character candidates may be assigned to one character position. Further, the character order of the candidate words may be reversed from the character order of the original cutout pattern. As described above, since the evaluation value for the logically inconsistent candidate character may be added to the word evaluation value, the character position of the searched word candidate is again determined. A combination of cutout patterns that maximizes the number of matching characters without duplication or inversion is determined. Then, the evaluation values of the matching candidate characters are summed to obtain a true word evaluation value, and a suitable word is selected based on the true word evaluation value. In this embodiment, one candidate word having the highest score is selected as a suitable word.

【0025】この際、全ての候補単語に対して真の単語
評価値を求めてもよいが、この実施例では、処理を簡略
化するために、もとの単語評価値の得点の高いものから
順に所定の数だけ選択し、選択された候補単語に対して
真の単語評価値を求めた。
At this time, true word evaluation values may be obtained for all candidate words. However, in this embodiment, in order to simplify the processing, the words having higher scores of the original word evaluation values are used. A predetermined number was selected in order, and a true word evaluation value was determined for the selected candidate word.

【0026】次に「川口市芝樋ノ爪」という文字列画像
の認識処理例を具体的に説明する。文字列分割部102
でこの文字列画像を単位領域に分割した状態を図2に示
す。なお、この例では単位領域として最小の外接矩形領
域を用いている。文字パタン生成部103では、図2の
単位領域から文字パタンを生成する。各文字パタンは上
記説明のように位置範囲を検出されるとともに、候補文
字及び文字評価値が検出される。図3は、このようにし
て生成された各文字パタン、対応する候補文字、及びそ
の文字評価値の例である。
Next, an example of a recognition process of a character string image of "Kawaguchi City Shiba-No-Naw" will be specifically described. Character string division unit 102
FIG. 2 shows a state in which the character string image is divided into unit areas. In this example, a minimum circumscribed rectangular area is used as a unit area. The character pattern generation unit 103 generates a character pattern from the unit area shown in FIG. As described above, the position range of each character pattern is detected, and candidate characters and character evaluation values are detected. FIG. 3 is an example of each character pattern generated in this way, the corresponding candidate character, and its character evaluation value.

【0027】図3に示されるように、各文字パタンに
は、各単位領域が重複している。例えば、「樋」におけ
る'木'(木偏)は図3の切り出しパタン13、14、15
に重複して用いられている。そして、候補文字及びその
位置範囲に従って、候補単語選択部108、単語評価値
算出部109で候補単語及び単語評価値が求められる。
求められた単語及び単語評価値の例を図4に示す。
As shown in FIG. 3, each unit area overlaps with each character pattern. For example, the “tree” (tree bias) in the “gutter” is the cutout patterns 13, 14, 15 in FIG.
Is used repeatedly. Then, the candidate word and the word evaluation value are obtained by the candidate word selection unit 108 and the word evaluation value calculation unit 109 according to the candidate character and its position range.
FIG. 4 shows examples of the obtained words and word evaluation values.

【0028】図5は、好適単語決定部110における真
の単語評価値の生成過程の説明図である。この図では、
単語評価値が高い候補単語を所定の数だけ選択した状態
を示しており、各候補単語の文字毎に一致する候補文字
を持つ文字パタンが番号で示されている。
FIG. 5 is an explanatory diagram of a process of generating a true word evaluation value in the preferred word determination section 110. In this figure,
This shows a state in which a predetermined number of candidate words having a high word evaluation value are selected, and character patterns having candidate characters that match each character of each candidate word are indicated by numbers.

【0029】候補単語「川口市芝樋の爪」については、
パタン18とパタン21を用いる組合せが得られてい
る。しかし、図3から明らかなように、パタン21には
パタン24に対応する単位領域が用いられているので、
両パタンが重複してしまう。そこで、これを避ける切り
出しパタンの組み合せとして、「3,11,12,1
5,18,24」の組合せを得る。次に、各切り出しパ
タンに対応する候補文字の評価値を合計する。
With regard to the candidate word “Kawaguchi City Shiba No Niu”,
A combination using the pattern 18 and the pattern 21 is obtained. However, as is clear from FIG. 3, since a unit area corresponding to the pattern 24 is used for the pattern 21,
Both patterns overlap. Therefore, as a combination of cutout patterns to avoid this, “3, 11, 12, 1”
5, 18, 24 ". Next, the evaluation values of the candidate characters corresponding to each cutout pattern are summed.

【0030】図3を参照すると、パタン3における
「川」の文字評価値は676、パタン11における
「市」の文字評価値は757、パタン12に対応する
「芝」の文字評価値は639、パタン15における
「樋」の文字評価値は628、パタン18における
「ノ」の文字評価値は629、パタン24に対応する
「爪」の文字評価値は622なので、これら各文字評価
値の値を合計して単語評価値3951を得る。
Referring to FIG. 3, the character evaluation value of “river” in pattern 3 is 676, the character evaluation value of “city” in pattern 11 is 757, and the character evaluation value of “shiba” corresponding to pattern 12 is 639. The character evaluation value of “gutter” in pattern 15 is 628, the character evaluation value of “no” in pattern 18 is 629, and the character evaluation value of “claw” corresponding to pattern 24 is 622. In total, a word evaluation value 3951 is obtained.

【0031】このようにして、各候補単語に対して、最
適な文字パタンの組合せを求めて単語の得点を求め直
す。図6に各候補単語における真の単語評価を示す。最
後に、その中で最高得点の候補単語「川口市芝樋ノ爪」
を好適単語として選択する。
In this way, for each candidate word, an optimum combination of character patterns is obtained, and the score of the word is obtained again. FIG. 6 shows the true word evaluation of each candidate word. Finally, the candidate word with the highest score among them, “Shibainoclaw, Kawaguchi City”
Is selected as the preferred word.

【0032】このように本実施例によれば、複数の文字
パタンが生成されるので認識精度が高くなる。また、全
ての候補単語に対して真の単語評価値を求める場合には
処理データ量が非常に大きくなって大きなメモリが必要
になったり演算時間が長時間になる虞があるが、本実施
例では、もとの単語評価値の得点の高いものから順に所
定の数だけ選択し、選択された候補単語に対して真の単
語評価値を求めているので、簡素な構成で短時間に文字
認識を行うことができるうえ、全ての候補単語に対して
真の単語評価値を求めた場合とほぼ同様の結果が得られ
る。
As described above, according to the present embodiment, since a plurality of character patterns are generated, recognition accuracy is improved. Further, when the true word evaluation value is obtained for all the candidate words, the processing data amount becomes very large, and a large memory may be required, or the calculation time may be long. In this example, a predetermined number of words are selected in descending order of the score of the original word evaluation value, and a true word evaluation value is obtained for the selected candidate word. Can be performed, and substantially the same result as in the case where true word evaluation values are obtained for all candidate words can be obtained.

【0033】なお、上記のように単語評価値及び真の単
語評価値を求めた場合、文字数が多い候補単語は、候補
単語内の文字評価値が低くても単語評価値が高くなる傾
向がある。従って、文字評価値の合計をその候補単語の
文字数で割った値を単語評価値、あるいは真の単語評価
値として用いてもよい。このような評価をした場合に
は、候補単語内の文字のうち、候補文字に一致する文字
の比率が少ない単語の評価値が低くなる。
When the word evaluation value and the true word evaluation value are obtained as described above, a candidate word having a large number of characters tends to have a high word evaluation value even if the character evaluation value in the candidate word is low. . Therefore, a value obtained by dividing the total of the character evaluation values by the number of characters of the candidate word may be used as the word evaluation value or the true word evaluation value. When such an evaluation is performed, among the characters in the candidate word, the evaluation value of a word having a small ratio of characters matching the candidate character is low.

【0034】(第2実施例)上記第1実施例のように、
地名等を表す単語は、予め辞書登録しておくことがで
き、文字列画像全体に対応する単語を容易に選択するこ
とができるが、複合語を認識する場合には、文字列画像
の最初の数文字分に対応する単語しか得られない場合が
ある。例えば、「第2川島ビル」という「第2」「川
島」「ビル」という単語がそれぞれ別々に辞書登録され
ている場合、「第2川島ビル」という複合語の文字列画
像を認識すると、文字列画像のうち「第2」という単語
までは認識できても、それ以降の「川島ビル」に相当す
る文字列画像に対しては認識不能となってしまう。第2
実施例においては、このような複合語も認識可能となる
文字認識装置を説明する。
(Second Embodiment) As in the first embodiment,
A word representing a place name or the like can be registered in a dictionary in advance, and a word corresponding to the entire character string image can be easily selected. In some cases, only words corresponding to several characters are obtained. For example, if the words "second", "kawashima", and "building" of "second Kawashima building" are separately registered in the dictionary, if the character string image of the compound word "second Kawashima building" is recognized, the character Even if the word “second” can be recognized in the column image, the character image corresponding to “Kawashima Building” thereafter cannot be recognized. Second
In the embodiment, a character recognition device capable of recognizing such compound words will be described.

【0035】図7にこの第2実施例に係る文字認識装置
の機能ブロック図を示す。図7において、図1と同一機
能ブロック又は相当部には同符号を付してある。文字列
画像格納部101、文字列分割部102、文字パタン生
成部103は第1実施例と同様の処理を行うブロックで
ある。
FIG. 7 is a functional block diagram of a character recognition device according to the second embodiment. 7, the same reference numerals are given to the same functional blocks or corresponding parts as in FIG. A character string image storage unit 101, a character string division unit 102, and a character pattern generation unit 103 are blocks that perform the same processing as in the first embodiment.

【0036】701は照合開始位置設定部であり、単位
領域の各々を開始位置として文字列画像における認識対
象領域を設定し、もとの文字列画像及び各認識対象領域
に対して文字認識処理を行う(画像領域切出し手段)。
Reference numeral 701 denotes a collation start position setting unit that sets a recognition target area in a character string image with each unit area as a start position, and performs a character recognition process on the original character string image and each recognition target area. (Image area extracting means).

【0037】具体的には、最初に先頭の単位領域を開始
位置として、位置範囲検出部104以降の処理を行う。
従ってもとの文字列画像がそのまま認識処理される。次
に開始位置を先頭から2番目の切り出しパタンに設定し
て、先頭の切り出しパタン以外の切り出しパタンを全て
位置範囲検出部104に出力する。従って、もとの文字
列画像から先頭の単位領域に相当する領域を除去した画
像が認識対象領域となる。以下、同様にして順次照合開
始位置をずらしていき、全ての切り出し位置を照合開始
位置に設定する。
More specifically, the processing after the position range detection unit 104 is first performed with the head unit area as the start position.
Therefore, the original character string image is recognized as it is. Next, the start position is set to the second cutout pattern from the top, and all cutout patterns other than the first cutout pattern are output to the position range detection unit 104. Therefore, an image obtained by removing the area corresponding to the head unit area from the original character string image is the recognition target area. Hereinafter, the collation start positions are sequentially shifted in the same manner, and all cutout positions are set as collation start positions.

【0038】その後、位置範囲検出部104から単語評
価値算出部109の処理にて、各認識対象領域それぞれ
に対して第1実施例と同様の処理を行う。好適単語決定
部110では、第1実施例と同様の処理を行って真の単
語評価値を生成する。ただし、第1実施例では好適単語
を1つだけ選択したが、この実施例では、所定の評価基
準を満たした場合には複数の単語を好適単語として選択
することも許容する。従って、好適単語として1つの単
語が選択される場合もあるが、複数の単語が選択される
場合もある。このように、各照合開始位置それぞれに対
して好適単語を決定する。
Thereafter, in the processing of the word range evaluation unit 109 from the position range detection unit 104, the same processing as in the first embodiment is performed for each of the recognition target areas. The preferred word determination unit 110 performs the same processing as in the first embodiment to generate a true word evaluation value. However, in the first embodiment, only one suitable word is selected. However, in this embodiment, when a predetermined evaluation criterion is satisfied, a plurality of words can be selected as a suitable word. Therefore, one word may be selected as a preferred word, or a plurality of words may be selected. In this way, a suitable word is determined for each collation start position.

【0039】702は、複合単語決定部であり、上記選
択された各好適単語の先頭文字及び終端文字に対応する
文字パタンの座標位置を参照し、各候補単語同士の距離
を求める。そしてその結果から、各単語に対応する文字
パタンの重複及び間隔を調査し、この距離の値が許容範
囲内であれば単語の接続を認める。この方式によって接
続できる単語を組合せて複合語とし、複合語の文字列長
に対する一致文字数及び一致文字の評価値の累積値によ
って好適の複合単語を決定する(複合単語決定手段)。
Reference numeral 702 denotes a compound word determining unit which determines the distance between the candidate words by referring to the coordinate positions of the character patterns corresponding to the leading character and the ending character of each of the selected suitable words. Then, based on the result, the duplication and the interval of the character pattern corresponding to each word are checked. If the value of this distance is within the allowable range, the connection of the word is recognized. Words that can be connected by this method are combined to form a compound word, and a suitable compound word is determined based on the number of matching characters with respect to the character string length of the compound word and the cumulative value of the evaluation values of the matching characters (compound word determining means).

【0040】次に「第2川島ビル」という文字列画像の
認識処理例を説明する。文字列分割部102でこの文字
列画像を単位領域に分割した状態を図8に示す。この例
では、単位領域として最小の外接矩形領域を用いてい
る。
Next, an example of a recognition process for a character string image "2nd Kawashima Building" will be described. FIG. 8 shows a state where the character string image is divided into unit areas by the character string dividing unit 102. In this example, a minimum circumscribed rectangular area is used as a unit area.

【0041】文字パタン生成部103では、図8の単位
領域から第1実施例と同様に文字パタンを生成する。こ
の生成された各文字パタン、対応する候補文字、及びそ
の文字評価値を図8に示す。各文字パタンは、上記説明
のように位置範囲を検出されるとともに、候補文字及び
文字評価値が検出される。
The character pattern generation unit 103 generates a character pattern from the unit area shown in FIG. 8 as in the first embodiment. FIG. 8 shows the generated character patterns, corresponding candidate characters, and their character evaluation values. For each character pattern, the position range is detected as described above, and candidate characters and character evaluation values are detected.

【0042】照合開始位置設定部701において、最初
に先頭の切り出しパタン801を開始位置として、すな
わち切り出しパタン全体に対して、位置範囲検出部10
4から単語評価値算出部109までの処理、及び好適単
語決定部110での処理を行う。その結果好適単語「第
2」、「芳川」が得られる。次に、照合開始位置を先頭
から2番目の切り出しパタン802に設定して、同様の
処理を行い、「川島」「川長」「小橋」を得る。以下、
同様にして他の切り出しパタン803〜806まで照合
開始位置を進めていき、複数の候補単語を得る。
In the collation start position setting unit 701, the position range detection unit 10 first sets the first cutout pattern 801 as a start position, that is, for the entire cutout pattern.
4 to the word evaluation value calculation section 109 and the processing in the preferred word determination section 110. As a result, the preferred words “second” and “yoshikawa” are obtained. Next, the collation start position is set to the second cutout pattern 802 from the beginning, and the same processing is performed to obtain “Kawashima”, “Kawacho”, and “Kohashi”. Less than,
Similarly, the matching start position is advanced to other cutout patterns 803 to 806 to obtain a plurality of candidate words.

【0043】複合単語決定部702は、候補単語の先頭
文字及び終端文字に対応する文字パタンの座標位置を参
照して単語同士の距離を求め、単語の接続性を調べてそ
の単語同士を接続するかどうかを決定する。この例で
は、ある単語Aと単語Bが接続できる条件を以下のよう
に求めた。まず、Aの左端のx座標≦Bの左端のx座標
となるように単語A、Bを選択して以下のようにGapを
定める。 Gap=Bの左端のx座標−Aの右端のx座標 そして、下式が成立する場合に、単語Aと単語Bとを接
続するものとする。 −(切り出しパタンの重複の限界)<Gap<切り出しパタ
ンの余りの限界
The compound word determination unit 702 obtains the distance between words by referring to the coordinate positions of the character patterns corresponding to the first character and the last character of the candidate word, checks the connectivity of the words, and connects the words. Determine whether or not. In this example, a condition under which a certain word A and a certain word B can be connected is obtained as follows. First, words A and B are selected such that x coordinate of the left end of A ≦ x coordinate of the left end of B, and Gap is determined as follows. Gap = x coordinate of the left end of B−x coordinate of the right end of A Then, when the following expression is established, the word A and the word B are connected. − (Limit of overlap of cutout pattern) <Gap <limit of remainder of cutout pattern

【0044】例えば図10では、「第2」と「芳川」で
は重なる部分が大きすぎるので接続することはできな
い。また、「第2」と「ビル」では間隔が開きすぎて接
続することができないが、「第2」と「川島」では接続
することができる。「川島」の部分は、2つの好適単語
があるが、得点により「川島」が選択される。この結果
「第2」「川島」「ビル」が選択される。このようにし
て、接続できる単語の組合せて複合語を作成し、一致文
字数及び評価値の累積値によって、好適の複合語を求め
る。
For example, in FIG. 10, the "second" and "Yoshikawa" cannot be connected because the overlapping portion is too large. Also, the connection between "second" and "building" is too large to be connected, but the connection between "second" and "Kawashima" is possible. In the "Kawashima" part, there are two preferred words, but "Kawashima" is selected according to the score. As a result, "second", "Kawashima", and "building" are selected. In this way, a compound word is created by combining the connectable words, and a suitable compound word is obtained from the number of matching characters and the cumulative value of the evaluation values.

【0045】[0045]

【発明の効果】以上の説明から明らかなように、本発明
によれば、もとの文字列から生成可能な文字パタンを全
て生成しているので、認識すべき文字パタンがこの中に
含まれる確率が高くなる。従って、文字認識精度が高ま
る効果がある。
As is apparent from the above description, according to the present invention, since all the character patterns that can be generated from the original character string are generated, the character patterns to be recognized are included therein. The probability increases. Therefore, there is an effect that the character recognition accuracy is improved.

【0046】特に、各文字パタンと対応する候補文字と
がどれだけ近似しているかを示す文字評価値に基づいて
各候補単語の評価値を生成することで、各候補単語と原
文字列画像との類似度を客観的な数値として表現するこ
とができる。更に、最も類似度が高い単語を選択するこ
とで、認識精度を高くすることが可能となる。
In particular, by generating an evaluation value of each candidate word based on a character evaluation value indicating how close each character pattern and the corresponding candidate character are, each candidate word and the original character string image Can be expressed as an objective numerical value. Furthermore, by selecting the word having the highest similarity, it is possible to increase the recognition accuracy.

【0047】また、文字列画像を複数の単語の組み合わ
せてなる複合語として認識することが可能となるので、
複合語全体は辞書に登録されていなくても、個々の構成
単語が辞書に登録されていれば、複合語全体の認識を行
うことができる。字列画像を構成する可能性のある単語
が全て検出される。更に、複合語を構成する単語同士の
境界が不明で、また各文字の切り出し位置も明確でなく
ても、記入された複合語を認識することができる。
Further, since the character string image can be recognized as a compound word formed by combining a plurality of words,
Even if the entire compound word is not registered in the dictionary, if the individual constituent words are registered in the dictionary, the entire compound word can be recognized. All the words that may form the character string image are detected. Furthermore, the entered compound word can be recognized even if the boundaries between the words constituting the compound word are unknown and the cutout position of each character is not clear.

【図面の簡単な説明】[Brief description of the drawings]

【図1】第1実施例に係る文字認識装置の機能ブロック
図。
FIG. 1 is a functional block diagram of a character recognition device according to a first embodiment.

【図2】文字列画像を単位領域に分割した状態の説明図FIG. 2 is an explanatory diagram of a state in which a character string image is divided into unit areas.

【図3】生成された文字パタンの説明図。FIG. 3 is an explanatory diagram of a generated character pattern.

【図4】候補単語とその評価値の説明図。FIG. 4 is an explanatory diagram of candidate words and their evaluation values.

【図5】真の単語評価値の算出方法の説明図。FIG. 5 is an explanatory diagram of a method for calculating a true word evaluation value.

【図6】候補単語としの真の評価値の説明図。FIG. 6 is an explanatory diagram of a true evaluation value as a candidate word.

【図7】第2実施例に係る文字認識装置の機能ブロック
図。
FIG. 7 is a functional block diagram of a character recognition device according to a second embodiment.

【図8】文字列画像を単位領域に分割した状態の説明
図。
FIG. 8 is an explanatory diagram of a state in which a character string image is divided into unit areas.

【図9】文字パタンの説明図。FIG. 9 is an explanatory diagram of a character pattern.

【図10】複合単語決定部における処理の説明図。FIG. 10 is an explanatory diagram of processing in a compound word determination unit.

【符号の説明】[Explanation of symbols]

101 文字列画像格納部 102 文字列分割部 103 文字パタン生成部 104 位置範囲検出部 105 候補文字格納部 106 候補文字選択部 107 候補単語格納部 108 候補単語選択部 109 単語評価値算出部 110 好適単語決定部 701 照合開始位置設定部 702 複合単語決定部 101 Character string image storage unit 102 Character string division unit 103 Character pattern generation unit 104 Position range detection unit 105 Candidate character storage unit 106 Candidate character selection unit 107 Candidate word storage unit 108 Candidate word selection unit 109 Word evaluation value calculation unit 110 Suitable word Determination unit 701 collation start position setting unit 702 compound word determination unit

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06K 9/00 - 9/82 ──────────────────────────────────────────────────続 き Continued on the front page (58) Field surveyed (Int.Cl. 7 , DB name) G06K 9/00-9/82

Claims (6)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 文字列画像を単位領域毎に分割する段階
と、 分割された単位領域又は隣接領域の組み合わせから少な
くとも1文字として認識し得る1以上の領域組み合わせ
を検出し、更に、検出された領域組み合わせに対応する
文字パタン及び該領域組み合わせに含まれる単位領域に
それぞれ対応する文字パタンを検出する段階と、 検出された各文字パタン毎に、認識結果となる単語内で
各文字パタンがそれぞれ何文字目の位置とり得るかを
検出する段階と、 各文字パタン毎に認識し得る候補文字を特定する段階
と、 各候補文字毎に、もとの文字パタンがとり得る位置に該
候補文字と一致する文字が存在する単語を候補単語とし
て特定する段階と、 所定の評価基準に従って各候補単語から前記文字列画像
が表す単語を決定する段階と、を有することを特徴とす
る文字認識方法。
1. A step of dividing a character string image into unit areas, detecting one or more area combinations that can be recognized as at least one character from a combination of the divided unit areas or adjacent areas, and further detecting the detected combination. Detecting a character pattern corresponding to the region combination and a character pattern corresponding to a unit region included in the region combination; and determining, for each detected character pattern, the character pattern in the word as a recognition result. and detecting whether may take the position of the character in the steps of identifying a candidate character capable of recognizing each character pattern, for each candidate character, and the candidate characters at positions which can be taken the original character pattern Identifying a word having a matching character as a candidate word; and determining a word represented by the character string image from each candidate word according to a predetermined evaluation criterion. Character recognition method which is characterized in that.
【請求項2】 請求項1記載の文字認識方法において、 各文字パタンと、それぞれに対応する前記候補文字との
近似度を表す文字評価値を生成する段階と、 前記候補単語を構成する文字と前記候補文字とを比較し
て該候補単語内の文字の位置に適合する候補文字を検出
するとともに、検出された候補文字に対応する文字評価
値からそれぞれの単語評価値を生成する段階と、 生成された単語評価値に基づき各候補単語を評価して前
記文字列画像が表す単語を決定する段階と、を有するこ
とを特徴とする文字認識方法。
2. The character recognition method according to claim 1, further comprising: generating a character evaluation value indicating a degree of approximation of each character pattern and the corresponding candidate character; Comparing the candidate character with the candidate character to detect a candidate character that matches the position of the character in the candidate word, and generating a respective word evaluation value from a character evaluation value corresponding to the detected candidate character; Evaluating each candidate word based on the obtained word evaluation value to determine a word represented by the character string image.
【請求項3】 文字列画像を単位領域毎に分割する段階
と、 前記単位領域を最小単位として前記文字列画像から所定
位置の認識対象領域を切り出す段階と、 前記切り出された認識対象領域毎に文字認識処理を行っ
てそれぞれ候補単語を決定する段階と、 決定された候補単語それぞれについて、元の文字列画像
における対応領域を検出する段階と、 前記決定された候補単語を組み合わせ、各組み合わせの
うち、前記文字列画像において前記検出された対応領域
同士の重なり部及び対応領域間の間隙部が最小となる組
み合わせを選択する段階と、 選択された組み合わせに対応する候補単語の組み合わせ
を前記文字列画像が表す文字として決定する段階と、を
有することを特徴とする文字認識方法。
3. A step of dividing a character string image into unit areas; a step of cutting out a recognition target area at a predetermined position from the character string image using the unit area as a minimum unit; Performing a character recognition process to determine each candidate word; for each of the determined candidate words, detecting a corresponding region in an original character string image; combining the determined candidate words; Selecting a combination that minimizes the overlap between the detected corresponding areas and the gap between the corresponding areas in the character string image; and sets the combination of candidate words corresponding to the selected combination to the character string image. And determining the character represented by the character.
【請求項4】 請求項3記載の文字認識方法において、 前記所定位置の認識対象領域を切り出す段階は、前記分
割された複数の単位領域の各々を先頭領域とする複数の
隣接単位領域の結合領域をそれぞれ認識対象領域として
切り出すことを特徴とする文字認識方法。
4. The character recognizing method according to claim 3, wherein the step of cutting out the recognition target area at the predetermined position includes a combined area of a plurality of adjacent unit areas each of which is a leading area. A character recognition method characterized in that a character is cut out as a recognition target area.
【請求項5】 認識対象となる文字列画像を格納した第
1のメモリと、認識候補文字群を格納した第2のメモリ
と、認識候補単語群を格納した第3のメモリとを備え、
更に、 前記第1のメモリに格納された文字列画像を単位領域毎
に分割する画像領域分割手段と、 分割された単位領域又は隣接領域の組み合わせから少な
くとも1文字として認識し得る領域組み合わせを検出す
る領域特徴検出手段と、 検出された領域組み合わせに対応する文字パタン及び該
領域組み合わせに含まれる単位領域に対応する文字パタ
ンをそれぞれの領域特徴に基づいて生成する文字パタン
生成手段と、 生成された各文字パタンが、認識結果となる単語の何文
字目の位置をとり得るかを検出する文字位置範囲検出手
段と、 前記各文字パタンに対応する候補文字を前記第2のメモ
リから選択する候補文字選択手段と、 選択された候補文字のとり得る位置範囲内に一致する文
字が存在する全ての候補単語を前記第3のメモリから選
択する第1の候補単語選択手段と、 所定の評価基準に従って前記選択された候補単語から前
記文字列画像が表す単語を決定する単語決定手段と、を
有することを特徴とする文字認識装置。
5. A first memory storing a character string image to be recognized, a second memory storing a recognition candidate character group, and a third memory storing a recognition candidate word group,
Further, an image area dividing means for dividing the character string image stored in the first memory into unit areas, and detecting an area combination that can be recognized as at least one character from a combination of the divided unit areas or adjacent areas. Area feature detection means, a character pattern corresponding to the detected area combination, and a character pattern generation means for generating a character pattern corresponding to a unit area included in the area combination based on each area characteristic; Character position range detection means for detecting the position of a character in a word which is a recognition result in a character pattern, and a candidate character selection for selecting a candidate character corresponding to each character pattern from the second memory Means for selecting, from the third memory, all candidate words in which a matching character exists within a possible position range of the selected candidate character. That the first candidate word selection means, a character recognition apparatus characterized by having a word determining means for determining a word represented by the character string image from the candidate words said selected according to a predetermined criterion.
【請求項6】 認識対象となる文字列画像を格納した第
1のメモリと、認識候補単語群を格納した第3のメモリ
とを少なくとも備え、更に、 前記第1のメモリ内の文字列画像を単位領域毎に分割す
る画像領域分割手段と、 前記単位領域を最小単位として前記文字列画像から所定
の認識対象領域を切り出す画像領域切出し手段と、 前記切り出された認識対象領域毎に文字認識処理を行っ
て前記第3のメモリから全ての候補単語を選択する第2
の候補単語選択手段と、 選択された各候補単語それぞれについて元の文字列画像
における対応領域を検出して複数の領域組み合わせを生
成するとともに、検出された対応領域同士の重なり部及
び対応領域間の間隙部が最小となる領域組み合わせを特
定する領域組み合わせ特定手段と、 この特定された組み合わせに対応する候補単語の組み合
わせを前記文字列画像が表す単語の組み合わせとして決
定する複合単語決定手段と、を有することを特徴とする
文字認識装置。
6. At least a first memory storing a character string image to be recognized and a third memory storing a recognition candidate word group, further comprising a character string image in the first memory. Image area dividing means for dividing each unit area; image area cutting means for cutting out a predetermined recognition target area from the character string image using the unit area as a minimum unit; and character recognition processing for each of the cut recognition target areas. Go to select all candidate words from the third memory
A candidate word selecting means, detecting a corresponding region in the original character string image for each of the selected candidate words, generating a plurality of region combinations, and determining an overlapping portion between the detected corresponding regions and a corresponding region. Region combination specifying means for specifying a region combination with a minimum gap portion; and compound word determining means for determining a combination of candidate words corresponding to the specified combination as a combination of words represented by the character string image. A character recognition device characterized in that:
JP6050865A 1994-03-22 1994-03-22 Character recognition method and character recognition device Expired - Fee Related JP2998054B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6050865A JP2998054B2 (en) 1994-03-22 1994-03-22 Character recognition method and character recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6050865A JP2998054B2 (en) 1994-03-22 1994-03-22 Character recognition method and character recognition device

Publications (2)

Publication Number Publication Date
JPH07262322A JPH07262322A (en) 1995-10-13
JP2998054B2 true JP2998054B2 (en) 2000-01-11

Family

ID=12870629

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6050865A Expired - Fee Related JP2998054B2 (en) 1994-03-22 1994-03-22 Character recognition method and character recognition device

Country Status (1)

Country Link
JP (1) JP2998054B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6078953B2 (en) * 2012-02-17 2017-02-15 オムロン株式会社 Character recognition method, and character recognition apparatus and program using this method
JP6003705B2 (en) * 2013-02-14 2016-10-05 富士ゼロックス株式会社 Information processing apparatus and information processing program
WO2022254560A1 (en) * 2021-05-31 2022-12-08 株式会社KPMG Ignition Tokyo Data matching using text data generated by optical character recognition
WO2024013864A1 (en) * 2022-07-13 2024-01-18 株式会社東芝 Character recognition device, character recognition method, and program

Also Published As

Publication number Publication date
JPH07262322A (en) 1995-10-13

Similar Documents

Publication Publication Date Title
JP2637344B2 (en) Symbol recognition method and device
JP2734386B2 (en) String reader
US6978044B2 (en) Pattern string matching apparatus and pattern string matching method
JP2998054B2 (en) Character recognition method and character recognition device
CN111782892A (en) Similar character recognition method, device, apparatus and storage medium based on prefix tree
Lu et al. Word searching in document images using word portion matching
Chen Lexicon-driven word recognition
JP3179280B2 (en) Form processing device including tables
JPS6262388B2 (en)
US9224040B2 (en) Method for object recognition and describing structure of graphical objects
JP3361258B2 (en) Character reader
JP2003331214A (en) Character recognition error correction method, device and program
JP2918380B2 (en) Post-processing method of character recognition result
JP3188154B2 (en) Character recognition processing method
JP3071745B2 (en) Post-processing method of character recognition result
JP3444561B2 (en) Character recognition method and character recognition device
JP2827066B2 (en) Post-processing method for character recognition of documents with mixed digit strings
JPS646514B2 (en)
JPH0256086A (en) Method for postprocessing for character recognition
JP2895115B2 (en) Character extraction method
JP2002207960A (en) Method and program for recognized character correction
JPS6111886A (en) Character recognition system
JP2001283156A (en) Device and method for recognizing address and computer readable recording medium stored with program for allowing computer to execute the same method
JP2622004B2 (en) Character recognition device
JPS60138689A (en) Character recognizing method

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071105

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081105

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091105

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091105

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101105

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111105

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121105

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121105

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131105

Year of fee payment: 14

LAPS Cancellation because of no payment of annual fees