JPH11120293A - Character recognition/correction system - Google Patents

Character recognition/correction system

Info

Publication number
JPH11120293A
JPH11120293A JP9283280A JP28328097A JPH11120293A JP H11120293 A JPH11120293 A JP H11120293A JP 9283280 A JP9283280 A JP 9283280A JP 28328097 A JP28328097 A JP 28328097A JP H11120293 A JPH11120293 A JP H11120293A
Authority
JP
Japan
Prior art keywords
character string
character
specific
candidate word
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9283280A
Other languages
Japanese (ja)
Other versions
JP3452774B2 (en
Inventor
Yasunao Isaki
保直 伊崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP28328097A priority Critical patent/JP3452774B2/en
Priority to CNB981074081A priority patent/CN1140878C/en
Priority to KR10-1998-0020532A priority patent/KR100412317B1/en
Publication of JPH11120293A publication Critical patent/JPH11120293A/en
Application granted granted Critical
Publication of JP3452774B2 publication Critical patent/JP3452774B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns

Abstract

PROBLEM TO BE SOLVED: To precisely detect a character string of low quality which is entered into various slips at irregular character intervals or by an irregular entering method. SOLUTION: A specific character or specific character string is extracted from an input character string 101 by performing a 1st matching process between the input character string 101 and a specific character standard pattern dictionary 107. Then a candidate word group which belongs to a specific category and has the possibility that the candidate is positioned in areas in the input character strings 101 preceding or following to each specific character or specific character string extracted from the input character string 101 is extracted from a specific character dictionary 110 and a knowledge dictionary 111 linked to it. Then a 2nd matching process using a standard pattern dictionary 113 is performed for respective areas in the input character string 101 by candidate words belonging to the candidate word group according to information regarding the respective candidate words to recognize the characters constituting the input character string 101.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、通常見かける各種
伝票に記入される文字列であって、不規則な文字間隔又
は不規則な記入方法で記入され、隣接文字間で接触、分
離が発生することのあるような、低品質な文字列を認識
する技術に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character string which is usually written on various types of slips, which are written at irregular character intervals or irregular writing methods, and contact and separation occur between adjacent characters. The present invention relates to a technique for recognizing a low-quality character string that may occur.

【0002】[0002]

【従来の技術及び発明が解決しようとする課題】イメー
ジデータを読み取って文字符号データに変換するOCR
(光学的文字読取装置)は、その適用分野が広まるに伴
って、様々な業務に使われてきている。業務毎に異なる
帳票が使用され、そこに記入される文字列も記入者もさ
まざまとなってきている。
2. Description of the Related Art OCR for reading image data and converting it into character code data
(Optical character reading device) has been used for various tasks as its application field has expanded. Different forms are used for each job, and the character strings and the persons who fill in the forms are various.

【0003】従来のOCR用帳票においては、文字記入
枠が1文字ずつ印刷された文字枠が使用され、特に漢字
が記入される場合には大きな文字枠が使用されている。
これは、OCR装置にとっては記入される文字を一文字
ずつ検出しやすくし、また、記入者に対しては記入時に
記入される文字が隣の文字と接触しないように促すため
のものである。
[0003] In a conventional OCR form, a character frame in which a character entry frame is printed one character at a time is used. In particular, when a kanji is entered, a large character frame is used.
This is to make it easier for the OCR device to detect the characters to be entered one by one, and to encourage the writer to avoid the characters to be entered at the time of entry from touching adjacent characters.

【0004】このような帳票の場合、例えば、住所や氏
名が2、3箇所記入されるだけでも記入される文字数は
何十文字にもなり、結果的に大きなサイズの帳票が必要
となり費用がかかる。また、記入者に対しても、1文字
ずつ枠の中に記入しなければならないという面倒を強い
ていた。
[0004] In the case of such a form, for example, even if the address or name is entered only in two or three places, the number of characters to be entered becomes tens of characters, and as a result, a large-sized form is required, which is costly. In addition, the writer has to complicate the need to fill in the boxes one character at a time.

【0005】OCRの適用分野が広まるに従って、通常
の帳票のような小さな帳票の中に漢字文字列を文字枠に
とらわれずに記入でき、かつ実用になる認識精度で認識
でき、また読めない文字を修正する際にも効率よく修正
できる文字認識/修正技術が必要になってきている。
[0005] As the application field of OCR becomes widespread, Kanji character strings can be entered in small forms such as ordinary forms without being bound by character frames, and characters which can be recognized with practical recognition accuracy and which cannot be read are used. There is a need for a character recognition / correction technique that can efficiently correct the correction.

【0006】従来の代表的な文字認識方法では、認識対
象文字列が記入される文字枠の帳票上での座標位置が格
納された、定義体と呼ばれるファイルが参照されなが
ら、記入された文字が1文字ずつ検出されて切り出され
る。そして、その切り出された各文字に対して認識処理
が実行されることにより、認識結果である候補文字群が
出力される。
In the conventional typical character recognition method, the entered characters are referred to by referring to a file called a definition body in which the coordinates of the character frame in which the character string to be recognized is entered on the form are stored. Each character is detected and cut out. Then, a recognition process is executed on each of the cut-out characters, so that a candidate character group as a recognition result is output.

【0007】切り出された文字の認識処理は、例えば次
のようにして実行される。まず、多数の不特定の筆記者
により予め決められた書式に従って記入された文字が収
集され、これらの文字から認識方式に依存する特徴量が
抽出され、統計的な手法等(例えばクラスタリング手
法)によって標準パターンが作成される。そして、目的
とする字種毎の標準パターンから標準パターン辞書が作
成される。
Recognition processing of the cut-out character is executed, for example, as follows. First, characters written by a large number of unspecified writers in accordance with a predetermined format are collected, and a characteristic amount depending on the recognition method is extracted from these characters, and the characters are extracted by a statistical method or the like (for example, a clustering method). A standard pattern is created. Then, a standard pattern dictionary is created from the standard patterns for each target character type.

【0008】標準パターンは、例えば収集された各文字
パターンを平均することによって得られる平均パターン
として作成される。より具体的には、収集された各文字
に対応する特徴量の平均が演算されることによって得ら
れる平均特徴量によって、この平均パターンが表現され
る。
The standard pattern is created as an average pattern obtained by averaging the collected character patterns, for example. More specifically, this average pattern is expressed by an average feature amount obtained by calculating the average of the feature amounts corresponding to the collected characters.

【0009】手書き文字の認識処理においては、記入者
によって大きな字形変形が生じるため、各字種毎に複数
の標準パターンが作成される。通常、1つの標準パター
ンはテンプレートと呼ばれ、上記各字種毎に複数の標準
パターンから作成される辞書は、複数テンプレート辞書
と呼ばれる。
In the process of recognizing handwritten characters, a large character deformation is caused by a writer, so that a plurality of standard patterns are created for each character type. Usually, one standard pattern is called a template, and a dictionary created from a plurality of standard patterns for each character type is called a multiple template dictionary.

【0010】文字認識処理は、上述の標準パターン辞書
又は複数テンプレート辞書を用いて実行される。具体的
には、入力帳票から切り出された1文字から特徴量が抽
出され、この特徴量と標準パターン辞書(又は複数テン
プレート辞書)を構成する各テンプレート(標準パター
ン)の特徴量との間で、類似度又は距離(ユークリッド
距離、マハラノビス距離等)が計算される。そして、類
似度が大きい順又は距離が小さい順に所定順位(例えば
8位)までの各テンプレートが属する各字種カテゴリー
が、候補文字群として出力される。
The character recognition processing is executed using the above-described standard pattern dictionary or plural template dictionary. Specifically, a feature amount is extracted from one character cut out from the input form, and between this feature amount and the feature amount of each template (standard pattern) constituting the standard pattern dictionary (or a plurality of template dictionaries), Similarity or distance (Euclidean distance, Mahalanobis distance, etc.) is calculated. Then, each character type category to which each template up to a predetermined rank (for example, the eighth rank) belongs in the order of larger similarity or smaller distance is output as a candidate character group.

【0011】ここで、認識される文字が住所や氏名を表
わす文字である場合には、一般に、上記候補文字群に対
し、住所単語、氏名単語を使った知識処理が実行され
る。より具体的には、まず、各記入位置毎の候補文字群
が記入位置全体で組み合わせられることにより、候補文
字列群が出力される。
If the recognized character is a character representing an address or a name, generally, knowledge processing using the address word and the name word is performed on the candidate character group. More specifically, first, a candidate character string group is output by combining candidate character groups for each entry position over the entire entry position.

【0012】次に、この候補文字列群を構成する各候補
文字列毎に、知識処理対象の住所辞書又は氏名辞書内の
各単語文字列がその候補文字列中に存在するか否かが比
較される。
Next, for each candidate character string constituting this candidate character string group, it is compared whether or not each word character string in the address dictionary or name dictionary to be subjected to knowledge processing exists in the candidate character string. Is done.

【0013】そして、その比較結果と、例えば候補文字
列を構成する各候補文字の順位等に従って、その候補文
字列に対して得点が付けられる。この処理が全ての候補
文字列に対して実行された後、最も得点の高い候補文字
列が知識処理結果として出力される。
A score is given to the candidate character string according to the comparison result and, for example, the order of each candidate character constituting the candidate character string. After this process is performed on all candidate character strings, the candidate character string with the highest score is output as a knowledge processing result.

【0014】このような知識処理に関する従来技術とし
ては、例えば日本国特許公開公報:特開昭61−107
486号に開示されるものが知られている。ここで、通
常の伝票への記入のように、フリーピッチで記入された
住所、氏名のような漢字文字列が認識される場合、隣接
する文字同士が接触することは一般に多く発生し、ま
た、逆に漢字には偏(へん)と旁(つくり)のように分
離して記入される文字も存在する。
As a prior art relating to such knowledge processing, for example, Japanese Patent Laid-Open Publication No. Sho 61-107
No. 486 is known. Here, when a kanji character string such as an address written at a free pitch and a name is recognized as in a normal slip, it is generally common for adjacent characters to contact each other, Conversely, some kanji characters are written separately, such as hen and tsukuri.

【0015】このため、記入文字が1文字ずつ検出され
切り出されて認識される従来の文字認識方法では、どの
範囲が1文字の範囲であるかを判断するのは困難であ
り、実用に耐える認識精度を実現することは困難であ
る。
For this reason, in the conventional character recognition method in which the input characters are detected, cut out, and recognized one by one, it is difficult to determine which range is the range of one character, and a recognition that can withstand practical use. It is difficult to achieve accuracy.

【0016】更に、各文字が正しく認識できなければ、
何文字記入されているかさえ判断できない場合もあり、
単語を構成する文字数が確定していることが前提とされ
る従来の知識処理では、認識精度の向上を図ることには
限界がある。
Further, if each character cannot be recognized correctly,
Sometimes it is not possible to judge how many characters are entered,
In conventional knowledge processing on the assumption that the number of characters constituting a word has been determined, there is a limit to improving recognition accuracy.

【0017】また、特に住所地名などの認識処理におい
て、例えば上位レベルの単語(例えば東京都、大阪府
等)が知識処理によって認識できなかった場合に、その
段階にでは下位レベルの単語は知識処理できていないの
が一般的であるため、住所地名を修正するためには、1
文字目から全ての文字列を順次修正する必要がある。
In addition, in particular, in the recognition processing of an address, a place name, or the like, if a word at a higher level (for example, Tokyo, Osaka, etc.) cannot be recognized by the knowledge processing, a word at a lower level is not processed at that stage. In general, it is not possible.
It is necessary to correct all character strings sequentially from the first character.

【0018】上述のようなフリーピッチの文字列を認識
するための第1の従来技術として、日本国特許公報:特
公平8−23875号「単語読み取り方式」に開示され
ているものが知られている。この第1の従来技術では、
認識結果である候補文字列と単語辞書とがDPマッチン
グ等により照合され、一致する文字が多い単語が選択さ
れ、不一致の部分が再度切り出され、その切り出された
文字列に対して更に認識が行われる。
As a first prior art for recognizing the above-described free-pitch character string, there is known a technique disclosed in Japanese Patent Publication No. 8-23875 "Word reading system". I have. In this first prior art,
The candidate character string as a recognition result and the word dictionary are collated by DP matching or the like, a word having many matching characters is selected, and a non-matching portion is cut out again, and further recognition is performed on the cut out character string. Will be

【0019】フリーピッチの文字列を認識するための第
2の従来技術として、日本国特許公開公報:特開昭63
−136291号「単語読み取り方式」に開示されてい
るものが知られている。この第2の従来技術では、文字
の偏、旁の各部分を示す部分パターンを標準パターンと
して有する標準パターン辞書を用いて認識処理が実行さ
れ、候補文字列の各文字の偏、旁から文字列が生成さ
れ、それと単語辞書とのマッチング処理が実行される。
As a second prior art for recognizing a character string having a free pitch, Japanese Patent Laid-Open Publication No. Sho 63 is an example.
No. 136291 is known. In the second conventional technique, recognition processing is executed using a standard pattern dictionary having partial patterns indicating partial portions of a character as a standard pattern as a standard pattern. Is generated, and a matching process between the generated word dictionary and the word dictionary is executed.

【0020】フリーピッチの文字列を認識するための第
3の従来技術として、日本国特許公開公報:特開平8−
171614号「文字列読み取り装置」に開示されてい
るものが知られている。この第3の従来技術では、候補
文字列中に正解文字が含まれずに読み飛ばしが発生した
場合や、正解文字と競合する文字候補の存在によって複
数の読み取り候補が発生した場合などにつき、予想文字
列の存在可能性が検証される。この場合の検証手段とし
て、いくつかの実現方法が開示されている。
As a third prior art for recognizing a character string of a free pitch, Japanese Patent Laid-Open Publication No. Hei 8-
The thing disclosed in 171614 "character string reading device" is known. According to the third conventional technique, when a correct character is not included in a candidate character string and skipping occurs, or when a plurality of read candidates occur due to the presence of a character candidate that conflicts with the correct character, an expected character is determined. The existence of the column is verified. Several realization methods are disclosed as verification means in this case.

【0021】しかし、我々が日常記入するような文字
列、即ち隣接文字間の接触が頻繁に発生し、文字幅も文
字毎に大きく変化し、つぶれやかすれの多い低品質な文
字列に対する認識処理を検討した場合に、上記第1乃至
第3の従来技術は、以下のような問題点を有している。
However, a recognition process for a low-quality character string that we frequently enter, that is, a contact between adjacent characters frequently occurs, the character width changes greatly for each character, and the character string is often crushed or blurred. In consideration of the above, the first to third conventional techniques have the following problems.

【0022】まず、第1の従来技術では、候補文字列の
どの文字が優先的に扱われるかは不定であり、候補文字
列中の全ての文字が対等に扱われるため、最初の文字切
り出し位置によっては全く不適切な単語しか候補に選ば
れない可能性があるという問題点を有している。
First, in the first prior art, it is uncertain which character of a candidate character string is to be preferentially treated, and all characters in the candidate character string are treated equally. In some cases, there is a problem that only an inappropriate word may be selected as a candidate.

【0023】次に、第2の従来技術では、隣接文字同士
が接触した領域に対する処理に問題がある。更に、第3
の従来技術では、検証手段の実現方法としていくつかの
方法が記されているが、いずれの方法も文字候補の組合
せを用いたものであり、それらの検証性能は最初の文字
の切出し結果に大きく依存してしまうという問題点を有
している。
Next, in the second prior art, there is a problem in processing for an area where adjacent characters are in contact with each other. Furthermore, the third
In the prior art, several methods are described as a method of realizing the verification means, but each method uses a combination of character candidates, and their verification performance is greatly affected by the result of extracting the first character. It has a problem of dependence.

【0024】本発明の課題は、特定の文字に着目するこ
とにより低品質な文字列を精度よく認識することにあ
る。
An object of the present invention is to accurately recognize a low-quality character string by focusing on a specific character.

【0025】[0025]

【課題を解決するための手段】本発明は、所定カテゴリ
ーを有する記入フィールドに記入された入力文字列を構
成する文字を認識する文字認識/修正方法、それと同等
の機能を有する文字認識装置、又はコンピュータ読出し
可能記録媒体を前提とする。
According to the present invention, there is provided a character recognition / correction method for recognizing a character constituting an input character string entered in an entry field having a predetermined category, a character recognition device having a function equivalent thereto, or A computer-readable recording medium is assumed.

【0026】本発明において、まず、入力文字列と第1
の認識辞書(特定文字標準パターン辞書107)との間
で第1のマッチング処理が実行されることにより、入力
文字列中から特定文字又は特定文字列が抽出される。よ
り具体的には、第1の認識辞書に、特定文字又は特定文
字列に対応する標準パターンが記憶され、入力文字列の
パターンと第1の認識辞書内の各標準パターンとの間で
第1のマッチング処理が実行されることにより、入力文
字列中から特定文字又は特定文字列が抽出される。上述
の特定文字又は特定文字列は、例えば所定カテゴリーに
おいて出現する頻度の高いもの、或いは、認識精度の高
いものである。
In the present invention, first, the input character string and the first
By performing the first matching process with the recognition dictionary (specific character standard pattern dictionary 107), a specific character or a specific character string is extracted from the input character string. More specifically, a standard pattern corresponding to a specific character or a specific character string is stored in the first recognition dictionary, and a first pattern between the pattern of the input character string and each standard pattern in the first recognition dictionary is stored. Is executed, a specific character or a specific character string is extracted from the input character string. The above-mentioned specific character or specific character string is, for example, one that frequently appears in a predetermined category or one that has high recognition accuracy.

【0027】次に、所定カテゴリー(例えば住所文字
列)に属し、かつ入力文字列中から抽出された各特定文
字又は特定文字列の前後の入力文字列中の領域に位置す
る可能性のある候補単語群がカテゴリー別単語辞書(特
定文字辞書110、知識辞書111)から抽出される。
Next, candidates which belong to a predetermined category (for example, an address character string) and may be located in each specific character extracted from the input character string or an area in the input character string before and after the specific character string A word group is extracted from the word dictionary for each category (specific character dictionary 110, knowledge dictionary 111).

【0028】そして、その抽出された候補単語群に属す
る各候補単語毎に、その各候補単語に関する情報に基づ
いてその各候補単語が位置する入力文字列中の各領域に
対して第2の認識辞書(標準パターン辞書113)を用
いて第2のマッチング処理が実行されることにより、入
力文字列を構成する文字が認識される。より具体的に
は、第2の認識辞書に、候補単語群に属する候補単語に
関連する文字又は文字列に対応する標準パターンが記憶
され、候補単語群に属する各候補単語毎に、その各候補
単語に関する情報に基づいてその各候補単語が位置する
入力文字列中の各領域に対してその各候補単語のパター
ンと第2の認識辞書内の各標準パターンとの間で第2の
マッチング処理が実行されることにより、入力文字列を
構成する文字が認識される。この場合に、各候補単語に
関する情報として、例えばその各候補単語の文字数の情
報が使用される。また、第2の認識辞書は、第1の認識
辞書を含むように構成されてもよい。
Then, for each candidate word belonging to the extracted candidate word group, a second recognition is performed on each region in the input character string where the candidate word is located based on information on the candidate word. By executing the second matching process using the dictionary (the standard pattern dictionary 113), the characters constituting the input character string are recognized. More specifically, a standard pattern corresponding to a character or a character string related to a candidate word belonging to the candidate word group is stored in the second recognition dictionary, and for each candidate word belonging to the candidate word group, Based on the information about the word, a second matching process is performed between the pattern of each candidate word and each standard pattern in the second recognition dictionary for each region in the input character string where each candidate word is located. By executing, the characters constituting the input character string are recognized. In this case, as information on each candidate word, for example, information on the number of characters of each candidate word is used. Further, the second recognition dictionary may be configured to include the first recognition dictionary.

【0029】上述の発明の構成により、入力文字列中の
特定文字又は特定文字列がまず優先的に認識され、その
認識結果に基づいてその前後の候補単語が仮定され、更
にその候補単語の情報を用いて入力文字列を構成する文
字が再認識されることによって、通常見かける各種帳票
(伝票)に記入されるような、不規則な間隔、記入方法
で記入された入力文字列を構成する文字を、高い精度で
認識することが可能となる。
According to the configuration of the invention described above, a specific character or a specific character string in an input character string is first recognized first, and candidate words before and after the specific character are assumed based on the recognition result. The characters that make up the input character string that are entered at irregular intervals and in a manner that would normally be entered into various forms (forms) by re-recognizing the characters that make up the input character string using Can be recognized with high accuracy.

【0030】上述の発明の構成において、入力文字列を
構成する文字の認識結果が入力文字列と並列して表示さ
れ、その表示される入力文字列上の所望領域がユーザに
よって指定されてその所望領域に対応する文字又は文字
列が修正され、その修正によって与えられた正解文字又
は正解文字列に関する情報に基づいて、候補単語群の抽
出処理及び第2のマッチング処理が再度実行され、入力
文字列を構成する文字が再度認識されるように構成する
ことができる。この場合に、表示される入力文字列上の
所望領域の指定に応答して、その所望領域における複数
の候補認識結果が表示されるように構成することができ
る。
In the configuration of the invention described above, the recognition result of the characters constituting the input character string is displayed in parallel with the input character string, and a desired area on the displayed input character string is designated by the user and the desired area is displayed. The character or character string corresponding to the area is corrected, and based on the information on the correct character or correct character string given by the correction, the extraction processing of the candidate word group and the second matching processing are executed again, and the input character string Can be configured to be recognized again. In this case, in response to designation of a desired area on the displayed input character string, a plurality of candidate recognition results in the desired area can be displayed.

【0031】このような文字修正技術によって、特定の
文字又は文字列のみを修正するだけで、他の認識不能部
分も自動的に修正することができる。また、上述の発明
の構成において、各候補単語に対して表記上のゆらぎを
有する単語が、候補単語群に属する新たな候補単語とし
て出力されるように構成することができる。
With such a character correction technique, it is possible to automatically correct other unrecognizable parts only by correcting a specific character or character string. Further, in the configuration of the invention described above, it is possible to configure so that a word having fluctuation in notation with respect to each candidate word is output as a new candidate word belonging to the candidate word group.

【0032】このような表記上のゆらぎの制御技術によ
って、種々の記入方法に柔軟に対処することができる。
With such a notation fluctuation control technique, it is possible to flexibly cope with various writing methods.

【0033】[0033]

【発明の実施の形態】以下、図面を参照しながら本発明
の実施の形態につき詳細に説明する。本発明の実施の形態の構成及び概略動作 図1は、本発明の実施の形態の構成図である。
Embodiments of the present invention will be described below in detail with reference to the drawings. Configuration and Schematic Operation Figure 1 of the embodiment of the present invention is a configuration diagram of an embodiment of the present invention.

【0034】まず、文字切り出し部103が、帳票の記
入フィールド位置に関する情報を定義した記入フィール
ド定義104を用いて、イメージメモリ102から読み
出された帳票に記入された入力文字列101中の先頭か
ら順に1文字ずつを切り出す。
First, the character extracting unit 103 uses the entry field definition 104 defining information on the entry field position of the form, from the beginning of the input character string 101 written in the form read from the image memory 102. Cut out one character at a time.

【0035】次に、特徴抽出部105が、その切り出さ
れた文字から特徴量を抽出する。続いて、マッチング部
106が、その切り出された文字の特徴量と、特定文字
標準パターン辞書107内の各特定文字標準パターンの
特徴量との間のマッチング処理を実行し、マッチング度
が高い順に所定順位までの各特定文字標準パターンが属
する各特定文字の字種カテゴリーを、上記切り出された
文字に対する候補特定文字として候補文字列バッファ1
08に出力する。
Next, the feature extracting unit 105 extracts a feature amount from the extracted character. Subsequently, the matching unit 106 performs a matching process between the feature amount of the cut-out character and the feature amount of each specific character standard pattern in the specific character standard pattern dictionary 107, and determines a predetermined amount in descending order of matching degree. The character type category of each specific character to which each specific character standard pattern belongs up to the rank is set as a candidate specific character for the cut-out character.
08.

【0036】文字切り出し部103、特徴抽出部10
5、及びマッチング部106による上記一連の特定文字
認識処理は、文字切り出し部103が入力文字列101
の先頭から順に切り出した文字毎に実行される。この結
果、候補文字列バッファ108には、入力文字列101
から切り出された文字の並び順に対応する並び順で、各
文字に対応する候補特定文字が保持される。
Character extraction unit 103, feature extraction unit 10
5 and the above-described series of specific character recognition processing by the matching unit 106, the character cutout unit 103
Is executed for each character cut out in order from the beginning. As a result, the input character string 101 is stored in the candidate character string buffer 108.
The candidate identification characters corresponding to each character are held in the arrangement order corresponding to the arrangement order of the characters extracted from.

【0037】候補単語検索部109は、候補文字列バッ
ファ108に得られた候補特定文字列の中から隣接する
任意の2つの特定文字からなる組(特定文字組)を全て
抽出し、それぞれの特定文字組が特定文字辞書110に
登録されているか否かを検索する。
The candidate word search unit 109 extracts all adjacent two sets of specific characters (specific character sets) from the candidate specific character strings obtained in the candidate character string buffer 108, and A search is performed to determine whether or not the character set is registered in the specific character dictionary 110.

【0038】候補単語検索部109は、1組の特定文字
組が特定文字辞書110に登録されている場合、その登
録レコードにリンクする知識辞書111中のレコードか
ら、その特定文字組を構成する2つの特定文字により挟
まれる単語群を検索し、その検索された単語群を候補単
語群として候補単語バッファ112に保持する。
When one specific character set is registered in the specific character dictionary 110, the candidate word search unit 109 constructs the specific character set from a record in the knowledge dictionary 111 linked to the registered record. A word group sandwiched between two specific characters is searched, and the searched word group is held in the candidate word buffer 112 as a candidate word group.

【0039】候補単語検索部109は、候補文字列バッ
ファ108から抽出した上記特定文字組毎に、それに対
応する候補単語群を抽出し、候補単語バッファ112に
保持する。
The candidate word search unit 109 extracts a candidate word group corresponding to each of the specific character sets extracted from the candidate character string buffer 108 and stores the group in the candidate word buffer 112.

【0040】結局、候補単語バッファ112には、1組
の特定文字組について1つ以上の候補単語群が得られ、
最終的に、複数の特定文字組分の候補単語群の集合が得
られることになる。
After all, in the candidate word buffer 112, one or more candidate word groups are obtained for one specific character set.
Finally, a set of candidate word groups for a plurality of specific character sets is obtained.

【0041】1組の特定文字組について候補単語バッフ
ァ112に得られた候補単語群に属する各候補単語は、
順次読み出されてそれぞれに対して以下の一連の処理が
実行される。
Each candidate word belonging to the candidate word group obtained in the candidate word buffer 112 for one specific character set is
They are sequentially read out, and the following series of processing is executed for each of them.

【0042】まず、文字切り出し部103は、イメージ
メモリ102から読み出される入力文字列101におい
て、候補単語バッファ112から出力された候補単語の
情報を使って、その候補単語が属する特定文字組を構成
する2つの特定文字に挟まれた文字列領域内の文字列を
再度切り出す。
First, the character cutout unit 103 uses the information of the candidate word output from the candidate word buffer 112 in the input character string 101 read from the image memory 102 to form a specific character set to which the candidate word belongs. The character string in the character string area sandwiched between two specific characters is cut out again.

【0043】特徴抽出部105は、再度切り出された文
字列から特徴量を抽出する。更に、マッチング部106
は、その再度切り出された文字列の特徴量と、第2の辞
書である標準パターン辞書113内の各標準パターンの
特徴量とのマッチング処理を実行し、マッチング度が高
い順に所定順位までの各標準パターンが属する文字列の
カテゴリーを、上記候補単語に対する候補認識結果群と
して候補文字列バッファ108に保持する。
The feature extracting unit 105 extracts a feature amount from the character string cut out again. Further, the matching unit 106
Executes a matching process between the feature amount of the character string cut out again and the feature amount of each standard pattern in the standard pattern dictionary 113 which is the second dictionary, and each of the feature amounts up to a predetermined order in descending order of matching degree. The category of the character string to which the standard pattern belongs is held in the candidate character string buffer 108 as a candidate recognition result group for the candidate word.

【0044】文字切り出し部103、特徴抽出部10
5、及びマッチング部106による上記一連の再認識処
理は、上記1組の特定文字組について候補単語バッファ
112に得られた候補単語群に属する候補単語のそれぞ
れにつき実行され、各候補単語毎に所定順位までの候補
認識結果群が候補文字列バッファ108に得られる。
Character extraction unit 103, feature extraction unit 10
5 and the series of re-recognition processing by the matching unit 106 are executed for each candidate word belonging to the candidate word group obtained in the candidate word buffer 112 for the one specific character set, and a predetermined The candidate recognition result group up to the rank is obtained in the candidate character string buffer 108.

【0045】そして、マッチング部106は、上記1組
の特定文字組に属する各候補単語毎に候補文字列バッフ
ァ108に得られる所定順位までの候補認識結果群の全
て中から、最も妥当で信頼度の高い認識結果、より具体
的には最もマッチング度が高い候補認識結果を、上記1
組の特定文字組を構成する2つの特定文字に挟まれた部
分の認識結果として、知識処理部114に出力する。
The matching unit 106 determines the most appropriate and reliable reliability among all the candidate recognition result groups up to a predetermined order obtained in the candidate character string buffer 108 for each candidate word belonging to the one specific character set. Of the candidate recognition result having the highest matching degree,
The recognition result is output to the knowledge processing unit 114 as a recognition result of a portion sandwiched between two specific characters constituting the specific character set of the set.

【0046】文字切り出し部103、特徴抽出部10
5、及びマッチング部106による、1組の特定文字組
の候補単語群に属する候補単語毎の上記一連の再認識処
理は、候補単語バッファ112に登録されている各特定
文字組毎に実行される。この結果、知識処理部114に
は、各特定文字組を構成する2つの特定文字に挟まれた
各文字領域に対応する認識結果が出力されることにな
る。
Character extraction unit 103, feature extraction unit 10
5, and the above series of re-recognition processing for each candidate word belonging to the candidate word group of one specific character set by the matching unit 106 is executed for each specific character set registered in the candidate word buffer 112. . As a result, a recognition result corresponding to each character region sandwiched between two specific characters constituting each specific character set is output to the knowledge processing unit 114.

【0047】知識処理部114は、各特定文字組を構成
する2つの特定文字に挟まれた各文字領域に対応する認
識結果に対して、記入フィールド定義104及び知識辞
書111を用いた知識処理によって、上記各文字領域か
らなる全体文字領域の最終認識結果を決定し、それを認
識結果バッファ115に出力する。
The knowledge processing unit 114 performs the knowledge processing using the entry field definition 104 and the knowledge dictionary 111 on the recognition result corresponding to each character area sandwiched between two specific characters constituting each specific character set. , And determines the final recognition result of the entire character area composed of the above character areas, and outputs the result to the recognition result buffer 115.

【0048】上述の一連の認識処理において、認識条件
を最後まで満たさなかった文字又は文字列の部分につい
ては、リジェクト(認識不能)情報が付加される。この
場合に、認識結果バッファ115に得られた認識結果
が、インタフェース部116を介して表示部117に表
示される。ユーザは、表示部117での認識結果の表示
に対して、マウス及びキーボード等からなる入力部11
8から、認識不能文字/文字列を修正することができ
る。
In the above-described series of recognition processing, reject (unrecognizable) information is added to a portion of a character or a character string that does not satisfy the recognition conditions to the end. In this case, the recognition result obtained in the recognition result buffer 115 is displayed on the display unit 117 via the interface unit 116. The user operates the input unit 11 including a mouse, a keyboard, and the like to display the recognition result on the display unit 117.
8, the unrecognizable character / character string can be corrected.

【0049】ユーザは、入力部118から認識不能文字
/文字列中の特定の正解文字を指定するだけで、その正
解文字に関する情報がインタフェース部116から正解
文字バッファ119及び領域座標バッファ120に出力
される。
The user simply specifies a specific correct character in the unrecognizable character / character string from the input unit 118, and information on the correct character is output from the interface unit 116 to the correct character buffer 119 and the area coordinate buffer 120. You.

【0050】候補単語検索部109は、正解文字バッフ
ァ119に得られた正解文字に関する情報を特定文字の
情報として、前述した特定文字辞書110と知識辞書1
11を用いた候補単語の検索処理を実行することによ
り、認識不能文字を正しく再認識させることができる。
また、文字切り出し部103は、ユーザによって指定さ
れた正解文字の切り出し位置を領域座標バッファ120
から取得することによって、正しい文字の切り出しを実
行することができる。
The candidate word search unit 109 uses the information on the correct character obtained in the correct character buffer 119 as the information on the specific character, as the specific character dictionary 110 and the knowledge dictionary 1 described above.
By executing the candidate word search process using No. 11, unrecognizable characters can be correctly re-recognized.
The character cutout unit 103 stores the cutout position of the correct character designated by the user in the area coordinate buffer 120.
By extracting from, correct character segmentation can be performed.

【0051】以上のように、本実施の形態では、帳票中
の各記入フィールドに記入される住所、氏名、品名等の
入力文字列101に対し、各フィールド毎に出現頻度が
高い文字或いは特定の文字/文字列に着目することで、
知識辞書111が保持する単語情報と、階層構造を有す
る住所等の文字列の場合は各文字領域毎の接続情報を用
いて、上記特定文字に挟まれた文字領域の候補単語を選
択することができる。更に、本実施の形態では、その候
補単語の情報を用いて、入力文字列101から上記特定
文字に挟まれた文字領域の抽出とその文字領域に対する
再認識処理が実行されることにより、隣接文字間で接
触、分離が多く発生する書き方で記入された文字列を、
高い認識精度で認識することができる。本発明の実施の形態の詳細動作 図2〜図4は、図1に示される構成を有する本発明の実
施の形態が実現する全体制御を示す動作フローチャート
である。 <特定文字の認識処理>まず、文字切り出し部103
が、帳票の記入フィールド位置に関する情報を定義した
記入フィールド定義104を用いて、イメージメモリ1
02から2値化画像データとして読み出された、帳票に
記入された入力文字列101中の先頭から順に1文字ず
つを切り出す(図2のステップ201)。
As described above, in this embodiment, the input character string 101 such as an address, a name, and a product name entered in each entry field in a form is a character or a specific character having a high appearance frequency in each field. By focusing on characters / strings,
Using the word information held by the knowledge dictionary 111 and, in the case of a character string such as an address having a hierarchical structure, connection information for each character region, a candidate word of a character region sandwiched between the specific characters can be selected. it can. Further, in the present embodiment, the extraction of the character region sandwiched between the specific characters from the input character string 101 and the re-recognition processing on the character region are performed using the information of the candidate word, so that the adjacent character A character string written in a style that often causes contact and separation between
Recognition can be performed with high recognition accuracy. Detailed Operation of the Embodiment of the Present Invention FIGS. 2 to 4 are operation flowcharts showing overall control realized by the embodiment of the present invention having the configuration shown in FIG. < Specific Character Recognition Processing > First, the character cutout unit 103
Uses the entry field definition 104 defining information on the entry field position of the form, and
Characters are cut out one by one from the beginning in the input character string 101 written on the form, read out as binary image data from 02 (step 201 in FIG. 2).

【0052】図5は、文字切り出し部103が使用する
記入フィールド定義104のデータフォーマット例を示
す図である。例えば、帳票上にフィールド1、2が配置
されており、この2つのフィールドに記入された文字列
が認識される場合、記入フィールド定義104は、以下
のようにして決定される。
FIG. 5 is a diagram showing an example of the data format of the entry field definition 104 used by the character cutout unit 103. For example, when fields 1 and 2 are arranged on a form and character strings entered in these two fields are recognized, the entry field definition 104 is determined as follows.

【0053】まず、帳票の上部が座標原点とされ、横方
向にx軸、縦方向にy軸がそれぞれ定義され、フィール
ド1、2のそれぞれについて、そのフィールドの左上端
の位置の座標(フィールド原点座標)と、x軸方向のフ
ィールド幅及びy軸方向のフィールド高さとからなるフ
ィールドの大きさデータが、図5(a) に示されるように
定義される。長さの単位は、ミリメートル又はインチで
ある。
First, the top of the form is defined as the coordinate origin, the x-axis is defined in the horizontal direction, and the y-axis is defined in the vertical direction. For each of the fields 1 and 2, the coordinates of the upper left position of the field (field origin) 5A, and field size data comprising a field width in the x-axis direction and a field height in the y-axis direction are defined as shown in FIG. The unit of length is millimeters or inches.

【0054】次に、フィールド1、2のそれぞれについ
て、各フィールドにどのような種別の文字列が記入され
るかを示すフィールド種別が定義される。これらの情報
が、図5(b) に示される表形式で、記入フィールド定義
104として特には図示しない記憶装置に保持される。
Next, for each of the fields 1 and 2, a field type indicating what type of character string is written in each field is defined. These pieces of information are stored in a storage device (not shown) as the entry field definition 104 in the form of a table shown in FIG.

【0055】文字切り出し部103は、上述の記入フィ
ールド定義104を用いることによって、イメージメモ
リ102から読み出されたイメージデータ上で各フィー
ルド毎の文字領域を決定した後、その文字領域内のイメ
ージデータに対して、図6に示される動作フローチャー
トによって示される文字切り出し制御を実行する。
The character cutout unit 103 determines the character area for each field on the image data read from the image memory 102 by using the above-described entry field definition 104, and then determines the image data in the character area. , The character cutout control shown by the operation flowchart shown in FIG. 6 is executed.

【0056】ここで、図8(a) に示されるように、記入
フィールド定義104から抽出される対象領域のフィー
ルド原点座標を(x0 ,y0 )、x軸方向のフィールド
幅をdx、y軸方向のフィールド高さをdyとする。
Here, as shown in FIG. 8A, the field origin coordinates of the target area extracted from the entry field definition 104 are (x 0 , y 0 ), and the field width in the x-axis direction is dx, y. The field height in the axial direction is dy.

【0057】まず文字切り出し部103は、x軸方向の
各走査ライン毎に、黒画素数を累算することにより、各
y座標位置毎のx軸方向の黒画素の出現頻度を示す水平
ヒストグラムを、図8(b) に示されるように算出する
(図6のステップ601)。
First, the character cutout unit 103 accumulates the number of black pixels for each scanning line in the x-axis direction, thereby forming a horizontal histogram indicating the appearance frequency of black pixels in the x-axis direction for each y-coordinate position. , Calculated as shown in FIG. 8B (step 601 in FIG. 6).

【0058】次に、図8(b) に示されるように、文字切
り出し部103は、上記水平ヒストグラム上をその上方
及び下方のそれぞれから走査し、最初に頻度値Cを超え
る位置α及びβを算出し、更にそれらから算出される値
α−βを、その対象領域における文字列高さhとする
(ステップ602)。
Next, as shown in FIG. 8B, the character cutout unit 103 scans the horizontal histogram from above and below the horizontal histogram, and first finds the positions α and β that exceed the frequency value C. Then, the value α-β calculated from them is set as the character string height h in the target area (step 602).

【0059】次に、文字切り出し部103は、y軸方向
の各走査ライン毎に、黒画素数を累算することにより、
各x座標位置毎のy軸方向の黒画素の出現頻度を示す垂
直ヒストグラムを図8(c) に示されるように算出する
(図6のステップ603)。
Next, the character cutout unit 103 accumulates the number of black pixels for each scanning line in the y-axis direction,
A vertical histogram indicating the appearance frequency of black pixels in the y-axis direction at each x-coordinate position is calculated as shown in FIG. 8C (step 603 in FIG. 6).

【0060】続いて、図8(c) に示されるように、文字
切り出し部103は、上記垂直ヒストグラム上をその左
から走査し、頻度値がしきい値d以下からしきい値d以
上に変化する点x1 ,x3 ,x5 ,・・・(x2n-1:n
=1,2,・・・)を切り出し候補位置として算出し、
また、頻度値がしきい値d以上からしきい値d以下に変
化する点x2 ,x4 ,x6 ,・・・(x2m:m=1,
2,・・・)もやはり切り出し候補位置として算出する
(ステップ604)。
Subsequently, as shown in FIG. 8C, the character cutout unit 103 scans the vertical histogram from the left, and changes the frequency value from the threshold d or less to the threshold d or more. Points x 1 , x 3 , x 5 ,... (X 2n-1 : n
= 1, 2,...) As clipping candidate positions,
Further, points x 2 , x 4 , x 6 ,... (X 2m : m = 1,
2,...) Are also calculated as clipping candidate positions (step 604).

【0061】次に、文字切り出し部103は、下記条件
式を満たす領域[x2m,x2n-1]を算出し、それを文字
切り出し結果とする(ステップ605)。
Next, the character cutout unit 103 calculates an area [x 2m , x 2n-1 ] that satisfies the following conditional expression, and sets it as a character cutout result (step 605).

【0062】[0062]

【数1】h−t1 ≦x2m−x2n-1≦h+t2 (m=1,2,3,・・・),(n=1,2,3,・・
・) ここで、hは前述したステップ602において算出され
た文字列高さ、t1 及びt2 は入力文字列101の学習
サンプルによって決まるパラメータである。図8(c) の
例では、下記3つの領域が文字切り出し結果として算出
される。 [x1 ,x2 ] [x3 ,x4 ] [x5 ,x8 ] 文字切り出し部103は、ステップ605の処理の結
果、下記条件式を満たす領域が残ったか否かを判定する
(ステップ606)。
## EQU1 ## ht 1 ≤x 2m -x 2n-1 ≤h + t 2 (m = 1,2,3,...), (N = 1,2,3,...)
Here, h is the character string height calculated in step 602 described above, and t 1 and t 2 are parameters determined by the learning sample of the input character string 101. In the example of FIG. 8 (c), the following three areas are calculated as a character cutout result. [X 1 , x 2 ] [x 3 , x 4 ] [x 5 , x 8 ] As a result of the processing in step 605, the character cutout unit 103 determines whether or not an area satisfying the following conditional expression remains (step 606).

【0063】[0063]

【数2】x2l−x2l-1>h+t2 (l=1,2,3,・・・) ステップ606の判定がNOならば、文字切り出し部1
03は、その制御処理を終了する。
[Number 2] x 2l -x 2l-1> h + t 2 (l = 1,2,3, ···) If the determination in step 606 is NO, the character segmentation unit 1
03 ends the control processing.

【0064】ステップ606の判定がYESであるなら
ば、文字切り出し部103は、領域[x2l-1,x2l]に
おいて、ステップ603で算出された垂直ヒストグラム
の頻度値がしきい値dより大きい所定値以下で、かつ、
下記条件式を満たす値kを算出する。
If the determination in step 606 is YES, the character cutout unit 103 determines that the frequency value of the vertical histogram calculated in step 603 is larger than the threshold value d in the area [x 21 -1 , x 21 ]. Less than or equal to a predetermined value, and
A value k that satisfies the following conditional expression is calculated.

【0065】[0065]

【数3】h≒(x2l−x2l-1)/k この結果、領域[x2l-1,x2l]をk分割した各位置を
文字切り出し位置として算出する(以上、ステップ60
7)。図8(d) の例においては、l=1、k=2とな
り、領域[x1 ,x2 ]を2分割した位置x′が文字切
り出し位置として算出される。
## EQU3 ## h ≒ (x 2l −x 2l−1 ) / k As a result, each position obtained by dividing the area [x 2l−1 , x 2l ] into k is calculated as a character cutout position (step 60).
7). In the example of FIG. 8 (d), l = 1 , k = 2 , and the range [x 1, x 2] 2 divided position x 'is calculated as a character cut-out position.

【0066】その後、文字切り出し部103は、その制
御処理を終了する。以上説明した図6の動作フローチャ
ートは、文字切り出し部103が、文字数が予め与えら
れていないフィールドに対して実行する文字切り出し処
理に対応するものである。
After that, the character cutout unit 103 ends the control processing. The operation flowchart of FIG. 6 described above corresponds to the character cutout processing executed by the character cutout unit 103 for a field for which the number of characters has not been given in advance.

【0067】これに対して、候補単語バッファ112か
ら読み出される候補単語の情報に基づいて再認識処理が
実行される場合のように、文字切り出し部103が、文
字切り出しの対象となる領域とその領域内の文字数が予
め与えられているフィールドに対して文字切り出し処理
を実行する場合もある。
On the other hand, as in the case where re-recognition processing is executed based on information on candidate words read from the candidate word buffer 112, the character extracting unit 103 In some cases, character cutout processing may be performed on a field in which the number of characters in the field is given in advance.

【0068】この場合には、文字切り出し部103は、
図6のステップ605〜607の処理群の代わりに、図
7のステップ701の処理を実行する。即ち、文字切り
出しの対象となる領域の左端のx座標がxs 、右端のx
座標がxt 、上記領域内の文字数がnとして与えられた
ときに、文字切り出し部103は、図6のステップ60
3で算出された垂直ヒストグラムの頻度値が所定値以下
で、かつ、下記条件式を満たす値Xn に近い隣接間隔を
有する位置を文字切り出し位置として算出する。
In this case, the character extracting unit 103
The processing in step 701 in FIG. 7 is executed instead of the processing group in steps 605 to 607 in FIG. That is, the x coordinate of the left end of the area to be extracted is x s , and the x coordinate of the right end is x
When the coordinates are given as x t and the number of characters in the area is given as n, the character cutout unit 103 executes step 60 in FIG.
The position where the frequency value of the vertical histogram calculated in step 3 is equal to or less than a predetermined value and which has an adjacent interval close to the value Xn satisfying the following conditional expression is calculated as a character cutout position.

【0069】[0069]

【数4】(xt −xs )/n=Xn 具体的には、隣接する2つの文字切り出し位置をxi
i+1 (i=1,2,・・・、xs ≦xi ,xi+1 ≦x
t )としたときに、文字切り出し部103は、下記条件
式を満たす文字切り出し位置xi (xi ≠xs ,xt
を算出する。
## EQU4 ## Specifically, (x t −x s ) / n = X n Specifically, two adjacent character cutout positions are defined as x i ,
x i + 1 (i = 1, 2,..., x s ≦ x i , x i + 1 ≦ x
when a t), the character segmentation unit 103, character segmentation positions x i satisfying the following condition (x i ≠ x s, x t)
Is calculated.

【0070】[0070]

【数5】Xn −t5 ≦xi+1 −xi ≦Xn +t6 ここで、t5 及びt6 は入力文字列101の学習サンプ
ルによって決まるパラメータである。
Equation 5] where X n -t 5 ≦ x i + 1 -x i ≦ X n + t 6, t 5 and t 6 are parameters determined by the learning sample of the input string 101.

【0071】以上説明した文字切り出し部103による
文字切り出し処理の後、特徴抽出部105が、その切り
出された1文字から、認識のための特徴量である特徴ベ
クトルを抽出する(図2のステップ202)。
After the character extraction processing by the character extraction unit 103 described above, the feature extraction unit 105 extracts a feature vector, which is a feature amount for recognition, from the extracted one character (step 202 in FIG. 2). ).

【0072】具体的には、特徴抽出部105は、例えば
以下の一連の処理によって特徴ベクトルを抽出する。即
ちまず、特徴抽出部105は、切り出された文字のイメ
ージデータから文字輪郭画素を抽出する。
Specifically, the feature extracting unit 105 extracts a feature vector by, for example, the following series of processes. That is, first, the feature extraction unit 105 extracts a character contour pixel from the image data of the cut out character.

【0073】次に、特徴抽出部105は、その切り出さ
れた領域を複数の分割領域に分割する。更に、特徴抽出
部105は、各分割領域につき、その分割領域内の輪郭
画素毎に方向成分(例えば、縦方向、横方向、左斜め方
向、右斜め方向の4方向成分)を抽出し、その分割領域
内の全輪郭画素の方向成分を集計することによりその分
割領域内の各方向成分毎の集計値を算出し、それらを各
方向成分に対応する要素値として有する部分特徴ベクト
ルを算出する。
Next, the feature extracting unit 105 divides the cut-out region into a plurality of divided regions. Further, the feature extracting unit 105 extracts a directional component (for example, four directional components of a vertical direction, a horizontal direction, a leftward diagonal direction, and a rightward diagonal direction) for each contour pixel in the divided region for each divided region. By calculating the directional components of all the contour pixels in the divided region, a total value for each directional component in the divided region is calculated, and a partial feature vector having these as element values corresponding to each directional component is calculated.

【0074】最後に、特徴抽出部105は、全ての分割
領域の部分特徴ベクトルの各要素を統合することによ
り、特徴ベクトルを抽出する。上述のようにして特徴抽
出部105が切り出された文字の特徴ベクトルを抽出し
た後に、マッチング部106が、その切り出された文字
の特徴ベクトルと、特定文字標準パターン辞書107内
の各特定文字標準パターンの特徴ベクトルとの間のマッ
チング処理を実行し(図2のステップ203)、マッチ
ング度が高い順に所定順位までの各特定文字標準パター
ンが属する各特定文字の字種カテゴリーを、上記切り出
された文字に対する候補特定文字群として候補文字列バ
ッファ108に出力する(図2のステップ204)。
Finally, the feature extracting unit 105 extracts a feature vector by integrating the elements of the partial feature vectors of all the divided areas. After the feature extraction unit 105 extracts the feature vector of the cut-out character as described above, the matching unit 106 compares the feature vector of the cut-out character with each specific character standard pattern in the specific character standard pattern dictionary 107. (Step 203 in FIG. 2), and the character type category of each specific character to which each specific character standard pattern up to a predetermined order belongs in the descending order of the matching degree is extracted from the extracted character. Are output to the candidate character string buffer 108 as a candidate specifying character group for (step 204 in FIG. 2).

【0075】より具体的には、マッチング部106が、
その切り出された文字の特徴ベクトルと、特定文字標準
パターン辞書107内の各特定文字標準パターンの特徴
ベクトルとの間で、例えば距離(ユークリッド距離、マ
ハラノビス距離等)を計算する。そして、マッチング部
106は、距離が小さい順に所定順位(n位)までの各
特定文字標準パターンが属する各特定文字の字種カテゴ
リーを、上述の切り出された特定文字に対する候補特定
文字群として候補文字列バッファ108に出力する。
More specifically, the matching unit 106
For example, a distance (Euclidean distance, Mahalanobis distance, etc.) is calculated between the feature vector of the extracted character and the feature vector of each specific character standard pattern in the specific character standard pattern dictionary 107. Then, the matching unit 106 determines the character type category of each specific character to which the specific character standard pattern belongs to the predetermined order (n-th) in ascending order of the distance as a candidate specific character group for the cut-out specific character. Output to the column buffer 108.

【0076】なお、1位の特定文字標準パターンの距離
が所定のしきい値T1 より大きい場合は、その切り出さ
れた文字にはリジェクト(認識不能)情報が付加され
る。ここで、上述の特定文字標準パターン辞書107に
ついて、具体例を挙げて説明する。
[0076] The distance 1 of the specific character standard pattern if greater than a predetermined threshold value T 1, at its cut-out character rejected (unrecognizable) information is added. Here, the specific character standard pattern dictionary 107 will be described with a specific example.

【0077】今、入力文字列101が住所文字列である
場合を考える。本実施の形態では、最初は、例えば住所
文字列において、その階層構造の区切りを示す出現頻度
が高い、「都」「道」「府」「県」「市」「区」「郡」
「町」「村」「字」「大字」等の1文字又は2文字から
なる特定文字のみが認識されればよい。また、住所文字
列においては、「東」「西」「南」「北」等の特定文字
も出現頻度が高い。
Now, consider a case where the input character string 101 is an address character string. In the present embodiment, initially, for example, in an address character string, the frequency of appearance indicating the break of the hierarchical structure is high, such as “city”, “road”, “fu”, “prefecture”, “city”, “ward”, “county”.
Only one or two specific characters such as "town", "village", "character", and "large" need be recognized. Further, in the address character string, specific characters such as “East”, “West”, “South”, and “North” also have a high appearance frequency.

【0078】このため、本実施の形態では、これらの特
定文字の認識精度を高めるために、これらの特定文字の
標準パターンのみから構成され辞書容量の小さな特定文
字標準パターン辞書107が使用される。
For this reason, in this embodiment, in order to improve the recognition accuracy of these specific characters, a specific character standard pattern dictionary 107 having only a standard pattern of these specific characters and having a small dictionary capacity is used.

【0079】このような特定文字標準パターン辞書10
7が標準パターン辞書113とは別に用意されることに
より、認識処理速度を短縮し、かつ認識精度を高めるこ
とが可能となる。
The specific character standard pattern dictionary 10
7 is prepared separately from the standard pattern dictionary 113, so that the recognition processing speed can be reduced and the recognition accuracy can be increased.

【0080】なお、特定文字標準パターン辞書107が
標準パターン辞書113と同じ辞書として構成され、特
定文字の認識精度を高めるために、各特定文字毎に多く
のテンプレート(標準パターン)が記憶されるように構
成されてもよい。
The specific character standard pattern dictionary 107 is configured as the same dictionary as the standard pattern dictionary 113. In order to improve the recognition accuracy of specific characters, many templates (standard patterns) are stored for each specific character. May be configured.

【0081】一方、入力文字列101が氏名文字列であ
る場合には、住所文字列のように区切りとなる文字は存
在しないが、出現頻度の高い文字種は存在する。例え
ば、名字に使用される文字は出現頻度において上位50
0位までの文字種が82%程度をカバーしているため、
上位N文字で特定文字標準パターン辞書107が作成さ
れるように構成することができる。
On the other hand, when the input character string 101 is a name character string, there is no character that serves as a delimiter like an address character string, but a character type with a high appearance frequency exists. For example, the characters used for surnames are the top 50 in appearance frequency.
Since the character types up to the 0th place cover about 82%,
The specific character standard pattern dictionary 107 can be configured with the upper N characters.

【0082】或いは、標準パターン辞書113から選択
的にN字種のみが特定文字の認識に使用されるように構
成されてもよい。そして、特定文字辞書110は、上述
の特定の字種に対応するように構成される。
Alternatively, the configuration may be such that only the N character types are selectively used from the standard pattern dictionary 113 for recognition of a specific character. The specific character dictionary 110 is configured to correspond to the specific character type described above.

【0083】また、出現頻度によって字種を選択するの
ではなく、認識しやすい文字を多数の実データから統計
的に決定し、それらの決定された字種を選択するように
構成してもよい。
Instead of selecting a character type based on the frequency of appearance, characters that are easy to recognize may be statistically determined from a large number of actual data, and the determined character type may be selected. .

【0084】文字切り出し部103、特徴抽出部10
5、及びマッチング部106による上記一連の特定文字
認識処理は、文字切り出し部103が入力文字列101
の先頭から順に切り出した文字毎に実行される(図2の
ステップ205→202の繰り返し)。この結果、候補
文字列バッファ108には、入力文字列101から切り
出された文字の並び順に対応する並び順で、各文字毎の
候補特定文字群が保持される。 <特定文字間領域の候補単語の検索とその領域での再認
識処理>候補単語検索部109は、候補文字列バッファ
108に得られた候補特定文字群の集合の中から隣接す
る任意の2つの特定文字からなる組(特定文字組)を全
て抽出し、それぞれの特定文字組が特定文字辞書110
に登録されているか否かを検索する。そして、候補単語
検索部109は、1組の特定文字組が特定文字辞書11
0に登録されている場合、その登録レコードにリンクす
る知識辞書111中のレコードから、その特定文字組を
構成する2つの特定文字により挟まれる単語群を検索
し、その検索された単語群を候補単語群として候補単語
バッファ112に保持する(以上、図3のステップ20
6)。
Character extraction section 103, feature extraction section 10
5 and the above-described series of specific character recognition processing by the matching unit 106, the character cutout unit 103
Is executed for each character cut out in order from the top (repetition of steps 205 → 202 in FIG. 2). As a result, the candidate character string buffer 108 holds candidate specific character groups for each character in the arrangement order corresponding to the arrangement order of the characters cut out from the input character string 101. < Search for candidate words in specific inter-character area and recognize in that area
Knowledge processing > candidate word search unit 109 extracts all sets of two adjacent specific characters (specific character sets) from the set of candidate specific character groups obtained in candidate character string buffer 108, Is a specific character set of the specific character dictionary 110
Search whether it is registered in. Then, the candidate word search unit 109 determines that one specific character set is the specific character dictionary 11
0, a group of words sandwiched between two specific characters constituting the specific character set is searched from a record in the knowledge dictionary 111 linked to the registered record, and the searched word group is selected as a candidate. It is stored in the candidate word buffer 112 as a word group (step 20 in FIG. 3).
6).

【0085】今、入力文字列101が住所文字列である
場合を考える。なお、住所文字列以外の氏名文字列、品
名文字列等については、階層構造を持たないため、階層
構造に関する部分を除いて住所文字列の場合と同様に実
現できる。
Now, consider a case where the input character string 101 is an address character string. It should be noted that the name character string, the product name character string, and the like other than the address character string do not have a hierarchical structure, and thus can be realized in the same manner as the case of the address character string except for the part related to the hierarchical structure.

【0086】住所辞書である知識辞書111の構造は、
例えば図10に示されるように、住所の階層構造に従っ
て、レベル1:都道府県、レベル2:市区郡、レベル
3:町村、・・・というように分割されて、それぞれの
階層に属する単語が格納されている。
The structure of the knowledge dictionary 111, which is an address dictionary, is as follows.
For example, as shown in FIG. 10, according to the hierarchical structure of the address, the words are divided into level 1: prefecture, level 2: city / county, level 3: town, and so on. Is stored.

【0087】一方、特定文字辞書110には、図11に
示されるように、「文字1」と「文字2」という2つの
特定文字からなる特定文字組に対応するレコード毎に、
その特定文字組を構成する2つの特定文字により挟まれ
る単語群が格納されている知識辞書111上のレコード
の集合を示すための、ポインタ情報とそのポインタから
始まるデータ数情報とからなるデータ組が格納されてい
る。このデータ組としては、図11に示されるように複
数組指定することができ、特定文字辞書110の各特定
文字組毎のレコードには、図11に示されるように、上
記ポインタ情報とデータ数情報のデータ組の数に対応す
るポインタ数情報Nも記憶される。
On the other hand, as shown in FIG. 11, the specific character dictionary 110 stores, for each record corresponding to a specific character set including two specific characters “character 1” and “character 2”,
A data set consisting of pointer information and information on the number of data starting from the pointer for indicating a set of records on the knowledge dictionary 111 in which a word group sandwiched between two specific characters constituting the specific character set is stored is shown. Is stored. As this data set, a plurality of sets can be designated as shown in FIG. 11, and the record for each specific character set in the specific character dictionary 110 has the pointer information and the number of data as shown in FIG. Pointer number information N corresponding to the number of data sets of information is also stored.

【0088】図12の例では、特定文字辞書110内
の、空白文字と「県」という2つの特定文字からなる特
定文字組に対応するレコードには、図10に示される知
識辞書111内のレベル1領域内の単語「青森」から始
まるn1 個のレコードと、同じくレベル1領域内の単語
「神奈川」から始まるn2 個のレコードをそれぞれ示す
データ組(ポインタ情報とデータ数情報)と、ポインタ
数N=2が登録されている。
In the example of FIG. 12, a record in the specific character dictionary 110 corresponding to a specific character set composed of two specific characters of a blank character and “ken” is a level in the knowledge dictionary 111 shown in FIG. N 1 records starting with the word “Aomori” in one area, n 2 records also starting with the word “Kanagawa” in the level 1 area (pointer information and data number information), and a pointer The number N = 2 is registered.

【0089】また図13の例では、特定文字辞書110
内の、「都」と「区」という2つの特定文字からなる特
定文字組に対応するレコードには、図10に示される知
識辞書111内のレベル2領域内の単語「千代田」から
始まるn3 個のレコードと、ポインタ数N=1が登録さ
れている。
In the example of FIG. 13, the specific character dictionary 110
In the record corresponding to the specific character set consisting of two specific characters “To” and “ku”, n 3 starting from the word “Chiyoda” in the level 2 area in the knowledge dictionary 111 shown in FIG. Records and the number of pointers N = 1 are registered.

【0090】また、住所は通常、「・・・丁目・・・番
地・・・方」という書き方で終わるが、このような特定
文字「丁目」「番地」「番」「方」「号」に挟まれた領
域には、単語ではなく数字が記入される場合が多い。こ
のような場合には、図14に示されるように、特定文字
辞書110内の、上記特定文字からなる特定文字組に対
応するレコードには、前述したようんポインタ情報とデ
ータ数情報とかなるデータ組ではなく、「(数字)*
n」というような記号が設定される。候補単語検索部1
09は、特定文字辞書110から上述したような記号が
設定されているレコードを検索した場合には、上述のよ
うな特定文字に挟まれた領域には数字が連続して記入さ
れていることを検出し、その旨を示す検出結果を候補単
語バッファ112に書き込む。
The address usually ends in the form of "... chome ... address ... how". However, such specific characters "chome", "address", "number", "ho" and "go" are used. In many cases, numbers, not words, are written in the interposed area. In such a case, as shown in FIG. 14, a record in the specific character dictionary 110 corresponding to the specific character set made up of the specific characters described above includes data including pointer information and data number information as described above. "(Number) *
A symbol such as "n" is set. Candidate word search unit 1
09 indicates that when a record in which the above-described symbols are set is searched from the specific character dictionary 110, numbers are continuously written in the area between the specific characters as described above. Then, a detection result indicating the detection is written to the candidate word buffer 112.

【0091】更に、例えば図15に示されるような特定
文字辞書110及び知識辞書111の構成も可能であ
る。即ち、図15の例では、特定文字辞書110内の、
空白文字と「川」という2つの特定文字からなる特定文
字組に対応するレコードには、知識辞書111内の4文
字の単語「神奈川県」を指すポインタ情報及びデータ数
=1と、知識辞書111内の2文字の単語「神奈」を指
すポインタ情報及びデータ数=1が設定される。
Further, for example, the configuration of the specific character dictionary 110 and the knowledge dictionary 111 as shown in FIG. 15 is also possible. That is, in the example of FIG.
Records corresponding to a specific character set consisting of a blank character and two specific characters “kawa” include pointer information indicating the four-character word “Kanagawa” in the knowledge dictionary 111 and the number of data = 1, and the knowledge dictionary 111 The pointer information indicating the two-letter word "Kana" and the number of data = 1 are set.

【0092】また特定文字辞書110内の、「川」と
「中」という2つの特定文字からなる特定文字組に対応
するレコードには、知識辞書111内の2文字の単語
「崎市」を指すポインタ情報及びデータ数=1が設定さ
れる。
A record in the specific character dictionary 110 corresponding to a specific character set composed of two specific characters “kawa” and “medium” indicates the two-character word “Sakiichi” in the knowledge dictionary 111. The pointer information and the number of data = 1 are set.

【0093】更に特定文字辞書110内の、「中」と
「中」という2つの特定文字からなる特定文字組に対応
するレコードには、知識辞書111内の5文字の単語
「原区上小田」を指すポインタ情報及びデータ数=1が
設定される。
Further, a record corresponding to a specific character set consisting of two specific characters “medium” and “medium” in the special character dictionary 110 includes a five-character word “Kamioda” in the knowledge dictionary 111. Is set and pointer information indicating the number of data = 1 is set.

【0094】このように、住所文字列に高い頻度で出現
する特定文字及び単語に対応する情報を、特定文字辞書
110と知識辞書111に記憶させることも可能であ
る。次に、図16に示されるように、特定文字辞書11
0内の、「区」と住所の終わりを示す特定文字の2つの
特定文字からなる特定文字組に対応するレコードに、知
識辞書111内の単語「丸の内」がリンクしている場合
に、表示のゆらぎとして、「丸の内」ではなく「丸ノ
内」という文字列が記入される可能性がある。このよう
な場合に、知識辞書111に全ての表記のゆらぎに対応
する単語を記憶させるのは無駄である。
As described above, it is also possible to store information corresponding to specific characters and words appearing frequently in an address character string in the specific character dictionary 110 and the knowledge dictionary 111. Next, as shown in FIG.
When the word “Marunouchi” in the knowledge dictionary 111 is linked to a record corresponding to a specific character set including two specific characters of “ku” and a specific character indicating the end of the address in 0, As a fluctuation, there is a possibility that a character string "Marunouchi" instead of "Marunouchi" is entered. In such a case, it is useless to store the words corresponding to the fluctuations of all the notations in the knowledge dictionary 111.

【0095】そこで、本実施の形態では、特定文字辞書
110からリンクする知識辞書111内の単語の検索時
に、図9の動作フローチャートで示される表記のゆれに
対処するための制御動作が実行される。
Therefore, in the present embodiment, when searching for a word in the knowledge dictionary 111 linked from the specific character dictionary 110, a control operation for coping with the fluctuation of the notation shown in the operation flowchart of FIG. 9 is executed. .

【0096】まず、候補単語検索部109は、1組の特
定文字組に対し、特定文字辞書110及び知識辞書11
1をここまで説明してきた規則に従って検索し、その結
果検索された単語群を現在処理中の特定文字組に対応す
る候補単語群として候補単語バッファ112に書き込む
(図9のステップ901)。このステップ901は、図
3のステップ206の一部である。
First, the candidate word search unit 109 applies a specific character dictionary 110 and a knowledge dictionary 11 to one specific character set.
1 is searched according to the rules described so far, and the searched word group is written to the candidate word buffer 112 as a candidate word group corresponding to the specific character set currently being processed (step 901 in FIG. 9). This step 901 is a part of step 206 in FIG.

【0097】次に、図3のステップ206の一部とし
て、候補単語検索部109は、1組の特定文字組に対し
て候補単語バッファ112に得られた候補単語群のそれ
ぞれに対して、図9のステップ902〜910で示され
る一連の処理を繰り返し実行する。
Next, as a part of step 206 in FIG. 3, the candidate word search unit 109 performs a search on each candidate word group obtained in the candidate word buffer 112 for one specific character set. Nine steps 902 to 910 are repeatedly executed.

【0098】即ち、候補単語検索部109は、検出した
単語を構成する文字にひらがなが存在する場合に、その
ひらがなをカタカナに変更し、その結果得られる単語
を、現在処理中の特定文字組に対応する他の候補単語と
して、候補単語バッファ112に書き込む(図9のステ
ップ902→903)。
That is, when there are hiragana in the characters constituting the detected word, the candidate word search unit 109 changes the hiragana to katakana, and converts the resulting word into the specific character set currently being processed. It is written into the candidate word buffer 112 as another corresponding candidate word (steps 902 → 903 in FIG. 9).

【0099】次に、候補単語検索部109は、検出した
単語を構成する文字にカタカナが存在する場合に、その
カタカナをひらがなに変更し、その結果得られる単語
を、現在処理中の特定文字組に対応する他の候補単語と
して、候補単語バッファ112に書き込む(図9のステ
ップ904→905)。
Next, if there are katakana in the characters constituting the detected word, the candidate word search unit 109 changes the katakana to hiragana, and replaces the resulting word with the specific character set currently being processed. Is written into the candidate word buffer 112 as another candidate word corresponding to (step 904 → 905 in FIG. 9).

【0100】次に、候補単語検索部109は、検出した
単語を構成する文字に漢数字が存在する場合に、その漢
数字をアラビア数字に変更し、その結果得られる単語
を、現在処理中の特定文字組に対応する他の候補単語と
して、候補単語バッファ112に書き込む(図9のステ
ップ906→907)。
Next, the candidate word search unit 109 changes the Kanji numerals to Arabic numerals when the characters constituting the detected word include Kanji numerals, and replaces the resulting word with the currently processed word. It is written into the candidate word buffer 112 as another candidate word corresponding to the specific character set (steps 906 → 907 in FIG. 9).

【0101】次に、候補単語検索部109は、検出した
単語を構成する文字にアラビア数字が存在する場合に、
そのアラビア数字を漢数字に変更し、その結果得られる
単語を、現在処理中の特定文字組に対応する他の候補単
語として、候補単語バッファ112に書き込む(図9の
ステップ908→909)。
Next, the candidate word search unit 109 determines whether or not the characters constituting the detected word include Arabic numerals.
The Arabic numerals are changed to Chinese numerals, and the resulting word is written into the candidate word buffer 112 as another candidate word corresponding to the specific character set currently being processed (steps 908 → 909 in FIG. 9).

【0102】最後に候補単語検索部109は、検出した
単語を構成する文字に省略可能文字(例えば「溝ノ口」
が「溝口」と省略されたときの「ノ」)が存在する場合
に、その省略可能文字を省略して得られる文字列を、現
在処理中の特定文字組に対応する他の候補単語として、
候補単語バッファ112に書き込む(図9のステップ9
08→909)。
Finally, the candidate word search unit 109 replaces the characters constituting the detected word with optional characters (for example, “Mizonokuchi”).
Is abbreviated as "Mizoguchi"), the character string obtained by omitting the optional character is used as another candidate word corresponding to the specific character set currently being processed.
Write to candidate word buffer 112 (step 9 in FIG. 9)
08 → 909).

【0103】候補単語検索部109は、1組の特定文字
組に対して候補単語バッファ112にまだ表記のゆらぎ
に対する制御処理を実行していない候補単語群がある場
合には、上述の図9のステップ902〜910で示され
る一連の処理を繰り返し実行する(図9のステップ91
1→902〜910→911の繰り返し)。
If there is a candidate word group for which the control process for the fluctuation of the notation has not been executed in the candidate word buffer 112 for one specific character set, the candidate word searching unit 109 shown in FIG. The series of processing shown in steps 902 to 910 is repeatedly executed (step 91 in FIG. 9).
1 → 902-910 → 911).

【0104】上述のようにして、1組の特定文字組に対
して候補単語バッファ112に得られた候補単語群に対
して、表記のゆらぎに対する制御が実現される。以上の
ようにして、候補文字列バッファ108から選択された
1組の特定文字組に対して候補単語バッファ112に候
補単語群が得られる。
As described above, the control for the fluctuation of the notation is realized for the candidate word group obtained in the candidate word buffer 112 for one specific character set. As described above, a candidate word group is obtained in the candidate word buffer 112 for one specific character set selected from the candidate character string buffer 108.

【0105】今、例えば図17に示される入力文字列1
01が記入されると、前述の図2のステップ201〜2
05の特定文字の認識処理によって、領域1701が特
定文字「都」、領域1702が特定文字「区」と認識さ
れる。
Now, for example, the input character string 1 shown in FIG.
01 is entered, steps 201 to 2 in FIG.
In the recognition processing of the specific character 05, the area 1701 is recognized as the specific character “To” and the area 1702 is recognized as the specific character “ku”.

【0106】この認識結果に対して、候補単語検索部1
09は、上述した図3のステップ206で、特定文字辞
書110において空白文字と特定文字「都」とからなる
特定文字組のレコードを検出し、その登録レコードにリ
ンクする知識辞書111中のエントリから、その特定文
字組を構成する2つの特定文字によって挟まれる1つの
単語「東京」を検索して、その検索された単語を、空白
文字と特定文字「都」とからなる特定文字組に対応する
候補単語群として、候補単語バッファ112に保持す
る。この場合は、上記特定文字組に対する候補単語群の
数は1個で、図18に示されるように、、候補単語「東
京」の文字数は2文字となる。
In response to the recognition result, the candidate word search unit 1
In step 206 of FIG. 3 described above, a record of a specific character set consisting of a blank character and a specific character “tsu” is detected in the specific character dictionary 110 in step 206 in FIG. , One word “Tokyo” sandwiched between two specific characters constituting the specific character set, and the searched word corresponds to a specific character set consisting of a blank character and a specific character “To” The candidate word group is held in the candidate word buffer 112. In this case, the number of candidate words for the specific character set is one, and as shown in FIG. 18, the number of characters of the candidate word “Tokyo” is two.

【0107】また、候補単語検索部109は、後述する
図3のステップ211の判定の後に2回目に実行される
図3のステップ206で、特定文字辞書110において
特定文字「都」と「区」からなる特定文字組のレコード
を検出し、その登録レコードにリンクする図10に示さ
れる知識辞書111中のエントリから、その特定文字組
を構成する2つの特定文字によって挟まれる23個の単
語「千代田」「中央」「港」・・・を検索して、それら
の検索された単語群を、上記特定文字組に対応する候補
単語群として、候補単語バッファ112に保持する。こ
の場合は、上記特定文字組に対する候補単語群の数は2
3個となり、図19に示されるように、各候補単語の文
字数は、3文字、2文字、又は1文字の何れかとなる。
Also, the candidate word search unit 109 determines the specific characters “U” and “K” in the specific character dictionary 110 in step 206 in FIG. 3 which is executed for the second time after the determination in step 211 in FIG. From the entry in the knowledge dictionary 111 shown in FIG. 10 linked to the registered record, the 23 words “Chiyoda” sandwiched between two specific characters constituting the specific character set are detected. "", "Center", "port",..., And the searched word group is held in the candidate word buffer 112 as a candidate word group corresponding to the specific character set. In this case, the number of candidate word groups for the specific character set is 2
As shown in FIG. 19, the number of characters of each candidate word is one of three, two, or one.

【0108】このようにして、候補文字列バッファ10
8から選択された1組の特定文字組に対して候補単語バ
ッファ112に候補単語群が得られた後、その候補単語
群に属する候補単語のそれぞれにつき、文字切り出し部
103、特徴抽出部105、及びマッチング部106
が、図3のステップ207〜211の一連の再認識処理
を実行することにより、各候補単語毎に所定順位までの
候補認識結果群を抽出する。
Thus, the candidate character string buffer 10
After a candidate word group is obtained in the candidate word buffer 112 for one set of specific character sets selected from No. 8, the character cutout unit 103, the feature extraction unit 105, And matching unit 106
Performs a series of re-recognition processes in steps 207 to 211 of FIG. 3 to extract a group of candidate recognition results up to a predetermined order for each candidate word.

【0109】まず、文字切り出し部103は、イメージ
メモリ102から読み出される入力文字列101におい
て、候補単語バッファ112から出力された候補単語の
情報を使って、その候補単語が属する特定文字組を構成
する2つの特定文字に挟まれた文字列領域内の文字列を
再度切り出す(図3のステップ207)。
First, in the input character string 101 read from the image memory 102, the character cutout unit 103 uses the information on the candidate word output from the candidate word buffer 112 to form a specific character set to which the candidate word belongs. The character string in the character string area sandwiched between two specific characters is cut out again (step 207 in FIG. 3).

【0110】この場合、候補単語の文字数が例えば図1
8に示される「東京」又は図19に示される「中央」の
ように2文字である場合には、文字切り出し部103
は、前述した図6のステップ601〜604及び図7の
ステップ701で示される動作フローチャートに従っ
て、文字切り出しの対象となる領域を2分割して(前述
した数3式におけるn=2)、各文字の切り出し位置を
決定する。
In this case, the number of characters of the candidate word is, for example, as shown in FIG.
In the case of two characters such as “Tokyo” shown in FIG. 8 or “center” shown in FIG.
In accordance with the operation flowchart shown in steps 601 to 604 in FIG. 6 and step 701 in FIG. Is determined.

【0111】また候補単語の文字数が例えば図19に示
される「千代田」のように3文字である場合は、文字切
り出し部103は、文字切り出しの対象となる領域を3
分割して(前述した数3式におけるn=3)、各文字の
切り出し位置を決定する。
If the number of characters of the candidate word is three, for example, “Chiyoda” shown in FIG. 19, the character cutout unit 103 sets the area for character cutout to three.
The character is divided (n = 3 in Equation 3 described above), and the cutout position of each character is determined.

【0112】更に候補単語の文字数が例えば図19に示
される「港」のように1文字である場合は、文字切り出
し部103は、文字切り出しの対象となる領域に1文字
のみが存在すると仮定する(前述した数3式におけるn
=1)。
Further, when the number of characters of the candidate word is one, for example, "port" shown in FIG. 19, the character extracting unit 103 assumes that only one character exists in the area to be extracted. (N in Equation 3 described above)
= 1).

【0113】次に特徴抽出部105は、再度切り出され
た文字列に対して1文字ずつ、前述したようにして特徴
ベクトルを抽出する(図3のステップ208)。更に、
マッチング部106は、上記各文字毎に、その文字の特
徴ベクトルと、第2の辞書である標準パターン辞書11
3内の各標準パターンの特徴ベクトルとの間のマッチン
グ処理を実行し(図3のステップ209)、マッチング
度が高い順に所定順位までの各標準パターンが属する各
字種カテゴリーを、上記文字に対する候補文字群として
候補文字列バッファ108に出力する(図3のステップ
210)。
Next, the feature extracting unit 105 extracts a feature vector for each character from the character string cut out again as described above (step 208 in FIG. 3). Furthermore,
The matching unit 106 determines, for each character, the feature vector of the character and the standard pattern dictionary 11 that is the second dictionary.
3 (step 209 in FIG. 3), and the respective character type categories to which the standard patterns up to a predetermined order belong in the descending order of the matching degree are candidates for the characters. The character group is output to the candidate character string buffer 108 (step 210 in FIG. 3).

【0114】より具体的には、マッチング部106が、
上記文字の特徴ベクトルと、標準パターン辞書113内
の各標準パターンの特徴ベクトルとの間で、例えば距離
(ユークリッド距離、マハラノビス距離等)を計算す
る。そして、マッチング部106は、距離が小さい順に
所定順位(n位)までの各標準パターンが属する各字種
カテゴリーを、上述の文字に対する候補文字群として候
補文字列バッファ108に出力する。
More specifically, the matching unit 106
For example, a distance (Euclidean distance, Mahalanobis distance, etc.) is calculated between the character feature vector and the feature vector of each standard pattern in the standard pattern dictionary 113. Then, the matching unit 106 outputs, to the candidate character string buffer 108, each character type category to which each of the standard patterns up to the predetermined order (nth order) belongs in the order of smaller distance as a candidate character group for the above-described characters.

【0115】文字切り出し部103によって再度切り出
された文字列を構成する各文字のそれぞれについて、上
述のように距離が小さい順に所定順位までの候補文字群
が候補文字列バッファ108に得られた後、1つの特定
文字組について候補単語バッファ112に得られた候補
単語群に属する他の候補単語について、ステップ207
〜210の一連の処理が繰り返し実行される。
For each of the characters constituting the character string cut out again by the character cutout unit 103, a candidate character group up to a predetermined order is obtained in the candidate character string buffer 108 in ascending order of distance as described above. Step 207 is performed for other candidate words belonging to the candidate word group obtained in the candidate word buffer 112 for one specific character set.
A series of processes from to 210 are repeatedly executed.

【0116】1つの特定文字組について候補単語バッフ
ァ112に得られた候補単語群に属する全ての候補単語
について、それぞれを構成する文字毎に所定順位までの
候補文字群が候補文字列バッファ108に得られると、
マッチング部106は、各候補単語のそれぞれについ
て、それぞれを構成する文字毎の所定順位までの候補文
字群の全てを組み合わせて候補文字列群を生成し、それ
に含まれる各候補文字列毎に、次式によってその平均距
離を計算する(図3のステップ212)。
For all the candidate words belonging to the candidate word group obtained in the candidate word buffer 112 for one particular character set, the candidate character group up to a predetermined order is obtained in the candidate character string buffer 108 for each character constituting each word. When it is
The matching unit 106 generates, for each of the candidate words, a candidate character string group by combining all of the candidate character groups up to a predetermined rank for each of the characters constituting each of the candidate words. The average distance is calculated by the equation (step 212 in FIG. 3).

【0117】[0117]

【数6】(D1 +D2 +・・・+Dm )/m ここで、mは対象候補単語の文字数であり、Di (1≦
i≦m)は、対象候補単語内のi文字目において対象候
補文字列を構成するために選択された候補文字の距離を
示す。
(D 1 + D 2 +... + D m ) / m where m is the number of characters of the target candidate word, and D i (1 ≦ 1)
i ≦ m) indicates the distance of the candidate character selected to form the target candidate character string at the i-th character in the target candidate word.

【0118】そして、マッチング部106は、1つの特
定文字組についての全ての候補単語に対応して生成され
た候補文字列群の中から、それを構成する各候補文字列
に対応する平均距離が小さい順に所定数(P個)の候補
文字列を選択し、それらを上記特定文字組を構成する2
つの特定文字により挟まれた文字領域の認識結果とし
て、知識処理部114に出力する。
Then, the matching unit 106 determines, from the candidate character string group generated corresponding to all the candidate words for one specific character set, the average distance corresponding to each of the candidate character strings constituting the group. A predetermined number (P) of candidate character strings are selected in ascending order, and these are set as 2
The recognition result is output to the knowledge processing unit 114 as a recognition result of a character area sandwiched between two specific characters.

【0119】このようにして、1つの特定文字組を構成
する2つの特定文字により挟まれた文字領域の認識結果
が得られると、再び図3のステップ213からステップ
206の処理に戻る。
When the recognition result of the character area sandwiched between the two specific characters constituting one specific character set is obtained in this way, the process returns to step 206 from step 213 in FIG.

【0120】そして、前述の図2のステップ201〜2
05の特定文字の認識処理によって候補文字列バッファ
108に得られている候補特定文字群の集合の中から隣
接する他の任意の2つの特定文字からなる他の特定文字
組が再び抽出され、その特定文字組に対して図3のステ
ップ206〜212の一連の制御処理が再び実行される
ことにより、その特定文字組を構成する2つの特定文字
により挟まれた文字領域の認識結果が算出されるという
動作が、各特定文字組毎に繰り返し実行される(図3の
ステップ213→206〜212→213の繰り返
し)。
Then, steps 201 to 2 in FIG.
From the set of candidate specific character groups obtained in the candidate character string buffer 108 by the specific character recognition process of step 05, another specific character set consisting of any two adjacent specific characters is extracted again. The series of control processing of steps 206 to 212 in FIG. 3 is executed again for the specific character set, whereby the recognition result of the character area sandwiched between two specific characters constituting the specific character set is calculated. Is repeated for each specific character set (steps 213 → 206 to 212 → 213 in FIG. 3 are repeated).

【0121】知識処理部114は、各特定文字組を構成
する2つの特定文字に挟まれた各文字領域に対応する認
識結果に対して、記入フィールド定義104及び知識辞
書111を用いた知識処理によって、上記各文字領域か
らなる全体文字領域の最終認識結果を決定し、それを認
識結果バッファ115に出力する(図4のステップ21
4)。
The knowledge processing unit 114 performs the knowledge processing using the entry field definition 104 and the knowledge dictionary 111 on the recognition result corresponding to each character area sandwiched between two specific characters constituting each specific character set. The final recognition result of the entire character area composed of the above character areas is determined, and is output to the recognition result buffer 115 (step 21 in FIG. 4).
4).

【0122】以上説明した図2のステップ201〜図4
のステップ214の一連制御処理が帳票の記入フィール
ド位置毎に繰り返し実行されることにより、各記入フィ
ールドに対する最終認識結果が決定される(図4のステ
ップ215→図2のステップ201の繰り返し)。
Steps 201 to 4 in FIG.
The final recognition result for each entry field is determined by repeatedly executing the series of control processes of step 214 for each entry field position of the form (step 215 in FIG. 4 → repetition of step 201 in FIG. 2).

【0123】上述の一連の認識処理において、認識条件
を最後まで満たさなかった文字又は文字列の部分につい
ては、リジェクト(認識不能)情報が付加される。この
場合に、認識結果バッファ115に得られた認識結果
が、インタフェース部116を介して表示部117に表
示される。ユーザは、表示部117での認識結果の表示
に対して、マウス及びキーボード等からなる入力部11
8から、認識不能文字/文字列を修正することができ
る。
In the above-described series of recognition processing, reject (unrecognizable) information is added to a portion of a character or a character string that does not satisfy the recognition conditions to the end. In this case, the recognition result obtained in the recognition result buffer 115 is displayed on the display unit 117 via the interface unit 116. The user operates the input unit 11 including a mouse, a keyboard, and the like to display the recognition result on the display unit 117.
8, the unrecognizable character / character string can be corrected.

【0124】ユーザは、入力部118から認識不能文字
/文字列中の特定の正解文字を指定するだけで、その正
解文字に関する情報がインタフェース部116から正解
文字バッファ119及び領域座標バッファ120に出力
される。
The user simply specifies a specific correct character in the unrecognizable character / character string from the input unit 118, and information on the correct character is output from the interface unit 116 to the correct character buffer 119 and the area coordinate buffer 120. You.

【0125】図21の例では、表示部117に、認識結
果2102と並列に、対象文字列のイメージ2101が
表示される。ユーザは、イメージ2101上の特定領域
2103を入力部118であるマウス等から指示する
と、それに対応する認識結果文字2104が強調又は反
転表示等される。この表示に対し、ユーザが、入力部1
18であるキーボード等から正解文字「都」を入力する
と、その正解文字「都」に関する情報がインタフェース
部116から正解文字バッファ119及び領域座標バッ
ファ120に出力される。当然、ユーザが、イメージ2
101上の例えば「東京」に対応する領域を指示し、そ
れに対応する認識結果「束長」を「東京」に修正する
と、その正解文字「東京」に関する情報がインタフェー
ス部116から正解文字バッファ119及び領域座標バ
ッファ120に出力される。
In the example of FIG. 21, an image 2101 of the target character string is displayed on the display unit 117 in parallel with the recognition result 2102. When the user designates a specific area 2103 on the image 2101 using the mouse or the like as the input unit 118, the corresponding recognition result character 2104 is highlighted or highlighted. In response to this display, the user
When the correct character "To" is input from the keyboard 18 or the like, information on the correct character "To" is output from the interface unit 116 to the correct character buffer 119 and the area coordinate buffer 120. Naturally, the user
When an area corresponding to, for example, “Tokyo” on 101 is designated and the corresponding recognition result “Bunch length” is corrected to “Tokyo”, information on the correct character “Tokyo” is transmitted from the interface unit 116 to the correct character buffer 119 and The data is output to the area coordinate buffer 120.

【0126】候補単語検索部109は、正解文字バッフ
ァ119に得られた正解文字に関する情報を特定文字の
情報として、前述した特定文字辞書110と知識辞書1
11を用いた候補単語の検索処理を実行することによ
り、認識不能文字を正しく再認識させることができる。
また、文字切り出し部103は、ユーザによって指定さ
れた正解文字の切り出し位置を領域座標バッファ120
から取得することによって、正しい文字の切り出しを実
行することができる。
The candidate word search unit 109 uses the information on the correct character obtained in the correct character buffer 119 as the information on the specific character, as the specific character dictionary 110 and the knowledge dictionary 1 described above.
By executing the candidate word search process using No. 11, unrecognizable characters can be correctly re-recognized.
The character cutout unit 103 stores the cutout position of the correct character designated by the user in the area coordinate buffer 120.
By extracting from, correct character segmentation can be performed.

【0127】また、図22の例では、表示部117に、
認識結果2202と並列に、対象文字列のイメージが表
示される。ユーザは、そのイメージ上の特定領域220
1を入力部118であるマウス等から指示すると、それ
に対応する認識結果文字2203が強調又は反転表示等
されると共に、指示部分に認識結果候補2204が表示
される。この表示に対して、ユーザが、入力部118で
あるキーボード等から正解文字「都」を選択すると、そ
の正解文字「都」に関する情報がインタフェース部11
6から正解文字バッファ119及び領域座標バッファ1
20に出力される。この場合に、指示部分に表示される
認識結果候補2204は、表示される文字の出現頻度
順、或いは住所文字列のように階層構造を有する場合に
はその階層構造による決定順、或いは単純に文字コード
順で表示されるように構成することができる。
In the example shown in FIG. 22, the display 117 displays
An image of the target character string is displayed in parallel with the recognition result 2202. The user can select a specific area 220 on the image.
When the user designates “1” from the mouse or the like serving as the input unit 118, the corresponding recognition result character 2203 is highlighted or highlighted, and a recognition result candidate 2204 is displayed at the designated portion. In response to this display, when the user selects the correct character “To” from the keyboard or the like serving as the input unit 118, information on the correct character “To” is displayed in the interface unit 11.
6 to correct character buffer 119 and area coordinate buffer 1
20. In this case, the recognition result candidates 2204 displayed in the instruction portion are displayed in the order of appearance frequency of the displayed characters, or in the case of having a hierarchical structure such as an address character string, in the order determined by the hierarchical structure, or simply in the character order. It can be configured to be displayed in code order.

【0128】図22の例に続いて図23に示されるよう
に、更に指示位置2301とそれに対応する認識結果位
置2302についても、同様の修正処理が行われること
により、文字列2303を正しく再認識させることが可
能となる。
As shown in FIG. 23 following the example of FIG. 22, similar correction processing is further performed on the designated position 2301 and the corresponding recognition result position 2302 to correctly recognize the character string 2303 again. It is possible to do.

【0129】ここで、各特定文字組を構成する2つの特
定文字に挟まれた各文字領域に対する再認識処理につい
て、前述した図3のステップ207〜212において
は、1つの候補単語を構成する文字毎に個別に再認識処
理が実行され、最終的にその候補単語に対する認識結果
が出力されるように構成されている。
Here, regarding the re-recognition processing for each character area sandwiched between two specific characters constituting each specific character set, in steps 207 to 212 in FIG. The re-recognition process is individually performed for each candidate word, and the recognition result for the candidate word is finally output.

【0130】この場合に、マッチング部106が標準パ
ターン辞書113上から検索する文字種が、候補単語が
属するカテゴリーの文字種に限定されることにより、効
率的な再認識処理が実現される。
In this case, the character type searched from the standard pattern dictionary 113 by the matching unit 106 is limited to the character type of the category to which the candidate word belongs, so that efficient re-recognition processing is realized.

【0131】一方、2つの特定文字に挟まれた文字領域
全体に対して、特徴ベクトルの抽出とマッチング部10
6によるマッチング処理が実行されるように構成されて
もよい。この場合には、標準パターン辞書113には、
「川崎」「横浜」「横須賀」・・・のそれぞれの単語を
1つのパターンとする標準パターンの特徴ベクトルが保
持され、マッチング部106は、1つの候補単語の全体
を1つのパターンとする特徴ベクトルと、標準パターン
辞書113内の各標準パターンの特徴ベクトルとのマッ
チング処理を実行する。
On the other hand, for the entire character region sandwiched between two specific characters, the feature vector extraction and matching unit 10
6 may be configured to execute the matching process. In this case, the standard pattern dictionary 113 includes
A feature vector of a standard pattern in which each of the words “Kawasaki”, “Yokohama”, “Yokosuka”,. Then, the matching process is performed with the feature vector of each standard pattern in the standard pattern dictionary 113.

【0132】この場合に、マッチング部106が標準パ
ターン辞書113上から検索する単語群が、候補単語が
属するカテゴリーの単語群に限定されることにより、効
率的な再認識処理が実現される。
In this case, the word group searched from the standard pattern dictionary 113 by the matching unit 106 is limited to the word group of the category to which the candidate word belongs, so that efficient re-recognition processing is realized.

【0133】より具体的には、例えば住所文字列の認識
において、マッチング部106が標準パターン辞書11
3上から検索する単語群が、候補単語が属する階層レベ
ルを構成する単語群に限定されることにより、効率的な
再認識処理が実現される。
More specifically, for example, in recognition of an address character string, the matching unit 106
3. The efficient re-recognition processing is realized by limiting the word group searched from above to the word group constituting the hierarchical level to which the candidate word belongs.

【0134】例えば、図20に示されるように、2つの
特定文字「県」と「市」に挟まれた領域の再認識処理に
おいて、標準パターン辞書113を、「川崎」「横浜」
「横須賀」・・・等の市を表わす単語群のみのものに限
定することができる。
For example, as shown in FIG. 20, in the re-recognition processing of an area sandwiched between two specific characters “prefecture” and “city”, the standard pattern dictionary 113 stores “Kawasaki”, “Yokohama”
It can be limited to only words that represent the city such as "Yokosuka".

【0135】また、例えば住所文字列の認識において、
上位レベルの認識結果が得られているときには、マッチ
ング部106が標準パターン辞書113上から検索する
単語群が、その上位レベルの認識結果に属しかつ候補単
語が属する下位レベルを構成する単語群に限定されるこ
とにより、更に効率的な再認識処理が実現される。
For example, in recognition of an address character string,
When a higher-level recognition result is obtained, the word group searched by the matching unit 106 from the standard pattern dictionary 113 is limited to a word group belonging to the higher-level recognition result and constituting a lower level to which the candidate word belongs. As a result, more efficient re-recognition processing is realized.

【0136】例えば、住所文字列のレベル1の認識結果
が「青森」である場合に、レベル2の標準パターンは、
2つの特定文字「県」と「市」に挟まれて出現し得る全
ての単語群ではなく、「青森県」に属する市を表わす単
語群に限定することが可能である。
For example, if the recognition result of the address character string at level 1 is "Aomori", the standard pattern at level 2 is
Instead of all the word groups that can appear between two specific characters “prefecture” and “city”, it is possible to limit to a word group representing a city belonging to “Aomori prefecture”.

【0137】上記とは逆に、例えば住所文字列の認識に
おいて、下位レベルの認識結果が得られているときに
は、マッチング部106が標準パターン辞書113上か
ら検索する単語群が、その下位レベルの認識結果が属し
かつ候補単語が属する上位レベルを構成する単語群に限
定されることにより、上位レベルの認識不能状態を救済
することもできる。本実施の形態を実現するプログラムが記録された記録媒
体についての補足 本発明は、コンピュータにより使用されたときに、上述
の本発明の実施の形態の各構成によって実現される機能
と同様の機能をコンピュータに行わせるためのコンピュ
ータ読出し可能記録媒体として構成することもできる。
Contrary to the above, for example, in the recognition of an address character string, when a lower-level recognition result is obtained, the word group searched from the standard pattern dictionary 113 by the matching unit 106 is replaced with the lower-level recognition. By being limited to a word group forming a higher level to which the result belongs and to which the candidate word belongs, an unrecognizable state at a higher level can be relieved. Recording medium on which a program for realizing the present embodiment is recorded
The present invention is configured as a computer-readable recording medium that, when used by a computer, causes the computer to perform the same functions as the functions realized by the above-described embodiments of the present invention. You can also.

【0138】この場合に、図24に示されるように、例
えばフロッピィディスク、CD−ROMディスク、光デ
ィスク、リムーバブルハードディスク等の可搬型記録媒
体2402や、ネットワーク回線2403経由で、本発
明の実施の形態の各種機能を実現するプログラムが、コ
ンピュータ2401の本体2404内のメモリ(RAM
又はハードディスク等)2405にロードされて、実行
される。
In this case, as shown in FIG. 24, according to the embodiment of the present invention via a portable recording medium 2402 such as a floppy disk, CD-ROM disk, optical disk, removable hard disk or the like, or a network line 2403. Programs for realizing various functions are stored in a memory (RAM) in the main body 2404 of the computer 2401.
Or a hard disk) 2405 and executed.

【0139】[0139]

【発明の効果】本発明の文字認識技術によれば、入力文
字列中の特定文字又は特定文字列がまず優先的に認識さ
れ、その認識結果に基づいてその前後の候補単語が仮定
され、更にその候補単語の情報を用いて入力文字列を構
成する文字が再認識されることによって、通常見かける
各種帳票(伝票)に記入されるような、不規則な間隔、
記入方法で記入された入力文字列を構成する文字を、高
い精度で認識することが可能となる。
According to the character recognition technique of the present invention, a specific character or a specific character string in an input character string is first recognized first, and candidate words before and after the specific character are assumed based on the recognition result. By re-recognizing the characters that make up the input character string using the information on the candidate words, irregular intervals, such as those normally entered in various forms (slips),
Characters constituting the input character string entered by the entry method can be recognized with high accuracy.

【0140】本発明の文字修正技術によれば、特定の文
字又は文字列のみを修正するだけで、他の認識不能部分
も自動的に修正することが可能となる。本発明の表記ゆ
らぎの制御技術によれば、種々の記入方法に柔軟に対処
することが可能となる。
According to the character correcting technique of the present invention, it is possible to automatically correct other unrecognizable portions only by correcting a specific character or character string. According to the notation fluctuation control technique of the present invention, it is possible to flexibly cope with various writing methods.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施の形態の構成図である。FIG. 1 is a configuration diagram of an embodiment of the present invention.

【図2】本発明の実施の形態の全体制御動作フローチャ
ート(その1)である。
FIG. 2 is an overall control operation flowchart (part 1) of the embodiment of the present invention.

【図3】本発明の実施の形態の全体制御動作フローチャ
ート(その2)である。
FIG. 3 is an overall control operation flowchart (part 2) of the embodiment of the present invention.

【図4】本発明の実施の形態の全体制御動作フローチャ
ート(その3)である。
FIG. 4 is an overall control operation flowchart (3) according to the embodiment of the present invention.

【図5】記入フィールド定義のデータフォーマット例を
示す図である。
FIG. 5 is a diagram showing an example of a data format of an entry field definition.

【図6】文字切り出し部の制御動作フローチャート(そ
の1)である。
FIG. 6 is a control operation flowchart (part 1) of a character cutout unit.

【図7】文字切り出し部の制御動作フローチャート(そ
の2)である。
FIG. 7 is a control operation flowchart (part 2) of the character cutout unit.

【図8】文字切り出し部の制御動作の説明図である。FIG. 8 is an explanatory diagram of a control operation of a character cutout unit.

【図9】表記のゆれについての制御動作フローチャート
である。
FIG. 9 is a flowchart of a control operation regarding the fluctuation of the notation.

【図10】知識辞書(住所)の構造図である。FIG. 10 is a structural diagram of a knowledge dictionary (address).

【図11】特定文字辞書の構造図である。FIG. 11 is a structural diagram of a specific character dictionary.

【図12】特定文字辞書110の構造例(その1)を示
す図である。
FIG. 12 is a diagram showing a structural example (part 1) of a specific character dictionary 110.

【図13】特定文字辞書110の構造例(その2)を示
す図である。
FIG. 13 is a diagram showing a structural example (part 2) of the specific character dictionary 110.

【図14】特定文字辞書110の構造例(その3)を示
す図である。
FIG. 14 is a diagram showing a structural example (part 3) of the specific character dictionary 110.

【図15】特定文字辞書110の構造例(その4)を示
す図である。
FIG. 15 is a diagram showing a structural example (part 4) of the specific character dictionary 110.

【図16】表記のゆらぎの制御動作の説明図である。FIG. 16 is an explanatory diagram of the control operation of the fluctuation of the notation.

【図17】候補単語検索部の動作説明図(その1)であ
る。
FIG. 17 is an explanatory diagram (part 1) of the operation of the candidate word search unit.

【図18】候補単語検索部の動作説明図(その2)であ
る。
FIG. 18 is a diagram (part 2) illustrating the operation of the candidate word search unit.

【図19】候補単語検索部の動作説明図(その3)であ
る。
FIG. 19 is a diagram (part 3) illustrating the operation of the candidate word search unit.

【図20】標準パターン辞書による文字列検出/認識動
作の説明図である。
FIG. 20 is an explanatory diagram of a character string detection / recognition operation using a standard pattern dictionary.

【図21】入力部と表示部の動作説明図(その1)であ
る。
FIG. 21 is an explanatory diagram (part 1) of the operation of the input unit and the display unit.

【図22】入力部と表示部の動作説明図(その2)であ
る。
FIG. 22 is a diagram (part 2) illustrating the operation of the input unit and the display unit.

【図23】入力部と表示部の動作説明図(その3)であ
る。
FIG. 23 is an explanatory diagram (part 3) of the operation of the input unit and the display unit.

【図24】本実施の形態を実現するプログラムが記録さ
れた記録媒体の説明図である。
FIG. 24 is an explanatory diagram of a recording medium on which a program for realizing the present embodiment is recorded.

【符号の説明】[Explanation of symbols]

101 入力文字列 102 イメージメモリ 103 文字切り出し部 104 記入フィールド定義 105 特徴抽出部 106 マッチング部 107 特定文字標準パターン辞書 108 候補文字列バッファ 109 候補単語検索部 110 特定文字辞書 111 知識辞書 112 候補単語バッファ 113 標準パターン辞書 114 知識処理部 115 認識結果バッファ 116 インタフェース部 117 表示部 118 入力部 119 正解文字バッファ 120 領域座標バッファ Reference Signs List 101 Input character string 102 Image memory 103 Character cutout unit 104 Entry field definition 105 Feature extraction unit 106 Matching unit 107 Specific character standard pattern dictionary 108 Candidate character string buffer 109 Candidate word search unit 110 Specific character dictionary 111 Knowledge dictionary 112 Candidate word buffer 113 Standard pattern dictionary 114 Knowledge processing unit 115 Recognition result buffer 116 Interface unit 117 Display unit 118 Input unit 119 Correct character buffer 120 Area coordinate buffer

Claims (12)

【特許請求の範囲】[Claims] 【請求項1】 所定カテゴリーを有する記入フィールド
に記入された入力文字列を構成する文字を認識する文字
認識方法であって、 前記入力文字列と第1の認識辞書との間で第1のマッチ
ング処理を実行することにより、前記入力文字列中から
特定文字又は特定文字列を抽出し、 前記所定カテゴリーに属し、かつ前記入力文字列中から
抽出された各特定文字又は特定文字列の前後の前記入力
文字列中の領域に位置する可能性のある候補単語群をカ
テゴリー別単語辞書から抽出し、 該抽出された候補単語群に属する各候補単語毎に、該各
候補単語に関する情報に基づいて該各候補単語が位置す
る前記入力文字列中の各領域に対して第2の認識辞書を
用いて第2のマッチング処理を実行することにより、前
記入力文字列を構成する文字を認識する、 過程を含むことを特徴とする文字認識方法。
1. A character recognition method for recognizing characters constituting an input character string entered in an entry field having a predetermined category, wherein a first matching is performed between the input character string and a first recognition dictionary. By executing the process, a specific character or a specific character string is extracted from the input character string, belongs to the predetermined category, and the specific character or the specific character string before and after each specific character or the specific character string extracted from the input character string is extracted. A candidate word group that may be located in an area in the input character string is extracted from the category-based word dictionary, and for each candidate word belonging to the extracted candidate word group, the candidate word is determined based on information about the candidate word. A character constituting the input character string is recognized by performing a second matching process on each area in the input character string where each candidate word is located using a second recognition dictionary. A character recognition method characterized by including a process.
【請求項2】 請求項1に記載の方法であって、 前記第1の認識辞書に、前記特定文字又は特定文字列に
対応する標準パターンを記憶し、 前記入力文字列のパターンと前記第1の認識辞書内の各
標準パターンとの間で前記第1のマッチング処理を実行
することにより、前記入力文字列中から前記特定文字又
は特定文字列を抽出する、 過程を含むことを特徴とする文字認識方法。
2. The method according to claim 1, wherein a standard pattern corresponding to the specific character or the specific character string is stored in the first recognition dictionary, and the pattern of the input character string and the first pattern are stored in the first recognition dictionary. Extracting the specific character or the specific character string from the input character string by executing the first matching process with each standard pattern in the recognition dictionary of the character string. Recognition method.
【請求項3】 請求項1又は2の何れか1項に記載の方
法であって、 前記第2の認識辞書に、前記候補単語群に属する候補単
語に関連する文字又は文字列に対応する標準パターンを
記憶し、 前記候補単語群に属する各候補単語毎に、該各候補単語
に関する情報に基づいて該各候補単語が位置する前記入
力文字列中の各領域に対して該各候補単語のパターンと
前記第2の認識辞書内の各標準パターンとの間で前記第
2のマッチング処理を実行することにより、前記入力文
字列を構成する文字を認識する、 過程を含むことを特徴とする文字認識方法。
3. The method according to claim 1, wherein a standard corresponding to a character or a character string related to a candidate word belonging to the candidate word group is stored in the second recognition dictionary. A pattern is stored, and for each candidate word belonging to the candidate word group, a pattern of the candidate word is determined for each region in the input character string where the candidate word is located based on information on the candidate word. Recognizing characters constituting the input character string by executing the second matching process between the input character string and the standard pattern in the second recognition dictionary. Method.
【請求項4】 請求項1乃至3の何れか1項に記載の方
法であって、 前記各候補単語に関する情報として、該各候補単語の文
字数の情報を使用する、 過程を含むことを特徴とする文字認識方法。
4. The method according to claim 1, further comprising: using information on the number of characters of each candidate word as the information on each of the candidate words. Character recognition method.
【請求項5】 請求項1乃至4の何れか1項に記載の方
法であって、 前記第1の認識辞書として、該第1の認識辞書を含む前
記第2の認識辞書を使用する、 過程を含むことを特徴とする文字認識方法。
5. The method according to claim 1, wherein the second recognition dictionary including the first recognition dictionary is used as the first recognition dictionary. A character recognition method comprising:
【請求項6】 請求項1乃至5の何れか1項に記載の方
法であって、 前記入力文字列と前記第1の認識辞書との間で第1のマ
ッチング処理を実行することにより、前記入力文字列中
から前記所定カテゴリーにおいて出現する頻度の高い特
定文字又は特定文字列を抽出する、 過程を含むことを特徴とする文字認識方法。
6. The method according to claim 1, wherein a first matching process is performed between the input character string and the first recognition dictionary. Extracting a specific character or a specific character string that frequently appears in the predetermined category from the input character string.
【請求項7】 請求項1乃至5の何れか1項に記載の方
法であって、 前記入力文字列と前記第1の認識辞書との間で第1のマ
ッチング処理を実行することにより、前記入力文字列中
から認識精度の高い特定文字又は特定文字列を抽出す
る、 過程を含むことを特徴とする文字認識方法。
7. The method according to claim 1, wherein a first matching process is performed between the input character string and the first recognition dictionary, thereby performing the first matching process. A character recognition method characterized by including a step of extracting a specific character or a specific character string having high recognition accuracy from an input character string.
【請求項8】 請求項1乃至7の何れか1項に記載の文
字認識方法を用いた文字修正方法であって、 前記入力文字列を構成する文字の認識結果を前記入力文
字列と並列して表示し、 該表示される入力文字列上の所望領域を指定して該所望
領域に対応する文字又は文字列を修正し、 該修正によって与えられた正解文字又は正解文字列に関
する情報に基づいて、前記候補単語群の抽出処理及び前
記第2のマッチング処理を再度実行することにより、 前記入力文字列を構成する文字を再度認識する、 過程を含むことを特徴とする文字修正方法。
8. A character correction method using the character recognition method according to claim 1, wherein recognition results of characters constituting the input character string are arranged in parallel with the input character string. Specifying a desired area on the displayed input character string, and correcting a character or a character string corresponding to the desired area, based on information on the correct character or the correct character string given by the correction Re-recognizing characters constituting the input character string by executing the candidate word group extraction process and the second matching process again.
【請求項9】 請求項8に記載の方法であって、 前記表示される入力文字列上の所望領域の指定に応答し
て、該所望領域における複数の候補認識結果を表示す
る、 過程を含むことを特徴とする文字修正方法。
9. The method according to claim 8, further comprising: displaying a plurality of candidate recognition results in the desired area in response to designation of a desired area on the displayed input character string. A character correction method, characterized in that:
【請求項10】 請求項1乃至9に記載の方法であっ
て、 前記各候補単語に対して表記上のゆらぎを有する単語
を、前記候補単語群に属する新たな候補単語として出力
する、 過程を含むことを特徴とする文字認識方法又は文字修正
方法。
10. The method according to claim 1, wherein a word having a notational fluctuation for each of the candidate words is output as a new candidate word belonging to the candidate word group. A character recognition method or a character correction method characterized by including the following.
【請求項11】 所定カテゴリーを有する記入フィール
ドに記入された入力文字列を構成する文字を認識する文
字認識装置であって、 前記入力文字列と第1の認識辞書との間で第1のマッチ
ング処理を実行することにより、前記入力文字列中から
特定文字又は特定文字列を抽出する特定文字/特定文字
列抽出手段と、 前記所定カテゴリーに属し、かつ前記入力文字列中から
抽出された各特定文字又は特定文字列の前後の前記入力
文字列中の領域に位置する可能性のある候補単語群をカ
テゴリー別単語辞書から抽出する候補単語群抽出手段
と、 該抽出された候補単語群に属する各候補単語毎に、該各
候補単語に関する情報に基づいて該各候補単語が位置す
る前記入力文字列中の各領域に対して第2の認識辞書を
用いて第2のマッチング処理を実行することにより、前
記入力文字列を構成する文字を認識する入力文字列認識
手段と、 を含むことを特徴とする文字認識装置。
11. A character recognition device for recognizing characters constituting an input character string entered in an entry field having a predetermined category, wherein a first matching is performed between the input character string and a first recognition dictionary. A specific character / specific character string extracting means for extracting a specific character or a specific character string from the input character string by executing a process; and each specific attribute belonging to the predetermined category and extracted from the input character string. Candidate word group extraction means for extracting a candidate word group that may be located in an area in the input character string before or after a character or a specific character string from a category-based word dictionary; For each candidate word, a second matching process is performed for each area in the input character string where the candidate word is located, using a second recognition dictionary, based on information about the candidate word. An input character string recognizing means for recognizing characters constituting the input character string by executing the input character string.
【請求項12】 コンピュータにより使用されたときに
それによって読み出されるプログラムを記録した記録媒
体であって、 所定カテゴリーを有する記入フィールドに記入された入
力文字列と第1の認識辞書との間で第1のマッチング処
理を実行することにより、前記入力文字列中から特定文
字又は特定文字列を抽出する機能と、 前記所定カテゴリーに属し、かつ前記入力文字列中から
抽出された各特定文字又は特定文字列の前後の前記入力
文字列中の領域に位置する可能性のある候補単語群をカ
テゴリー別単語辞書から抽出する機能と、 該抽出された候補単語群に属する各候補単語毎に、該各
候補単語に関する情報に基づいて該各候補単語が位置す
る前記入力文字列中の各領域に対して第2の認識辞書を
用いて第2のマッチング処理を実行することにより、前
記入力文字列を構成する文字を認識する機能と、 を前記コンピュータに行わせるためのプログラムを記録
したコンピュータ読出し可能記録媒体。
12. A recording medium storing a program read by the computer when used by a computer, wherein a first character recognition dictionary is provided between an input character string entered in an entry field having a predetermined category and a first recognition dictionary. A function of extracting a specific character or a specific character string from the input character string by executing the first matching process; and a specific character or a specific character belonging to the predetermined category and extracted from the input character string. A function of extracting a group of candidate words that may be located in an area in the input character string before and after a column from the word dictionary for each category; and for each candidate word belonging to the extracted candidate word group, A second matching process is performed on each area in the input character string where each candidate word is located based on information about the word using a second recognition dictionary. And a computer-readable recording medium storing a program for causing the computer to perform a function of recognizing characters constituting the input character string.
JP28328097A 1997-10-16 1997-10-16 Character recognition method Expired - Fee Related JP3452774B2 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP28328097A JP3452774B2 (en) 1997-10-16 1997-10-16 Character recognition method
CNB981074081A CN1140878C (en) 1997-10-16 1998-04-23 Character identifying/correcting mode
KR10-1998-0020532A KR100412317B1 (en) 1997-10-16 1998-06-03 Character recognizing/correcting system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28328097A JP3452774B2 (en) 1997-10-16 1997-10-16 Character recognition method

Publications (2)

Publication Number Publication Date
JPH11120293A true JPH11120293A (en) 1999-04-30
JP3452774B2 JP3452774B2 (en) 2003-09-29

Family

ID=17663415

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28328097A Expired - Fee Related JP3452774B2 (en) 1997-10-16 1997-10-16 Character recognition method

Country Status (3)

Country Link
JP (1) JP3452774B2 (en)
KR (1) KR100412317B1 (en)
CN (1) CN1140878C (en)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010051459A (en) * 1999-11-12 2001-06-25 가나이 쓰토무 A place name expressing dictionary generating method and its apparatus
KR100582039B1 (en) * 1999-05-06 2006-05-23 후지쯔 가부시끼가이샤 Character recognizing apparatus
JP2007011824A (en) * 2005-07-01 2007-01-18 Hitachi Engineering & Services Co Ltd Method and apparatus for extracting character string
JP2007042097A (en) * 2005-07-29 2007-02-15 Fujitsu Ltd Key character extraction program, key character extraction device, key character extraction method, collective place name recognition program, collective place name recognition device and collective place name recognition method
KR100692327B1 (en) * 1999-07-01 2007-03-09 가부시키가이샤 히타치세이사쿠쇼 An expression method of names of places, a recognition method of names of places and a recognition apparatus of names of places
KR100707943B1 (en) 2005-04-27 2007-04-18 최철규 System and Method for recognition of financial statement using optical character recognition
JP2007125556A (en) * 2007-02-05 2007-05-24 Hitachi Omron Terminal Solutions Corp Place name notation dictionary creation process and place name notation dictionary creation device
JP2009080635A (en) * 2007-09-26 2009-04-16 Canon Inc Image-detecting device and method
JP2013041540A (en) * 2011-08-19 2013-02-28 Kyocera Document Solutions Inc Information extraction device
JP2013097784A (en) * 2011-10-27 2013-05-20 King Abdulaziz City For Science & Technology (Kacst) Method and device for automatically identifying character segment for character recognition
JP2018500705A (en) * 2015-10-30 2018-01-11 小米科技有限責任公司Xiaomi Inc. Region recognition method and apparatus
JP2019185140A (en) * 2018-04-02 2019-10-24 日本電気株式会社 Image processing device, image processing method, and program
JP2022148901A (en) * 2021-03-24 2022-10-06 カシオ計算機株式会社 Character recognition apparatus, character recognition method, and program

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004152036A (en) * 2002-10-31 2004-05-27 Nec Saitama Ltd Cellular phone with character recognizing function, correction method of recognized character, and program
JP2005301664A (en) * 2004-04-12 2005-10-27 Fuji Xerox Co Ltd Image dictionary forming device, encoding device, data file, image dictionary forming method, and program thereof
JP2006065477A (en) * 2004-08-25 2006-03-09 Fuji Xerox Co Ltd Character recognition device
JP5411413B2 (en) * 2007-07-09 2014-02-12 セイコーエプソン株式会社 Character input device and tape printer
JP5338063B2 (en) * 2007-10-31 2013-11-13 富士通株式会社 Image recognition program, image recognition apparatus, and image recognition method
JP2010217996A (en) * 2009-03-13 2010-09-30 Omron Corp Character recognition device, character recognition program, and character recognition method
JP5434586B2 (en) * 2009-12-29 2014-03-05 オムロン株式会社 Word recognition method, word recognition program, and information processing apparatus
JP6304979B2 (en) * 2013-09-06 2018-04-04 株式会社東芝 Knowledge processing apparatus, method and program
JP6451316B2 (en) * 2014-12-26 2019-01-16 富士通株式会社 Character recognition program, character recognition method, and character recognition device
WO2016181458A1 (en) * 2015-05-11 2016-11-17 株式会社東芝 Recognition device, recognition method and program
CN106708793B (en) * 2016-12-06 2018-06-08 掌阅科技股份有限公司 Annotate footnote recognition methods, device and electronic equipment
JP7114892B2 (en) * 2017-12-13 2022-08-09 京セラドキュメントソリューションズ株式会社 image forming device

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02101596A (en) * 1988-10-11 1990-04-13 Fujitsu Ltd Character recognizing device
JPH03257693A (en) * 1990-03-08 1991-11-18 N T T Data Tsushin Kk Character recognized result correcting system
JPH056464A (en) * 1991-06-27 1993-01-14 Nec Corp Method and device for character string recognition
JPH0589291A (en) * 1991-09-27 1993-04-09 Sharp Corp Character-string recognizing device
JPH064717A (en) * 1992-06-19 1994-01-14 Pfu Ltd Kanji address correction processing method
JPH07262320A (en) * 1994-03-18 1995-10-13 Matsushita Electric Ind Co Ltd Address recognition device
JPH08171614A (en) * 1994-12-20 1996-07-02 Nec Corp Character string reader

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02101596A (en) * 1988-10-11 1990-04-13 Fujitsu Ltd Character recognizing device
JPH03257693A (en) * 1990-03-08 1991-11-18 N T T Data Tsushin Kk Character recognized result correcting system
JPH056464A (en) * 1991-06-27 1993-01-14 Nec Corp Method and device for character string recognition
JPH0589291A (en) * 1991-09-27 1993-04-09 Sharp Corp Character-string recognizing device
JPH064717A (en) * 1992-06-19 1994-01-14 Pfu Ltd Kanji address correction processing method
JPH07262320A (en) * 1994-03-18 1995-10-13 Matsushita Electric Ind Co Ltd Address recognition device
JPH08171614A (en) * 1994-12-20 1996-07-02 Nec Corp Character string reader

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100582039B1 (en) * 1999-05-06 2006-05-23 후지쯔 가부시끼가이샤 Character recognizing apparatus
KR100692327B1 (en) * 1999-07-01 2007-03-09 가부시키가이샤 히타치세이사쿠쇼 An expression method of names of places, a recognition method of names of places and a recognition apparatus of names of places
KR20010051459A (en) * 1999-11-12 2001-06-25 가나이 쓰토무 A place name expressing dictionary generating method and its apparatus
KR100707943B1 (en) 2005-04-27 2007-04-18 최철규 System and Method for recognition of financial statement using optical character recognition
JP2007011824A (en) * 2005-07-01 2007-01-18 Hitachi Engineering & Services Co Ltd Method and apparatus for extracting character string
JP2007042097A (en) * 2005-07-29 2007-02-15 Fujitsu Ltd Key character extraction program, key character extraction device, key character extraction method, collective place name recognition program, collective place name recognition device and collective place name recognition method
JP2007125556A (en) * 2007-02-05 2007-05-24 Hitachi Omron Terminal Solutions Corp Place name notation dictionary creation process and place name notation dictionary creation device
JP2009080635A (en) * 2007-09-26 2009-04-16 Canon Inc Image-detecting device and method
JP2013041540A (en) * 2011-08-19 2013-02-28 Kyocera Document Solutions Inc Information extraction device
JP2013097784A (en) * 2011-10-27 2013-05-20 King Abdulaziz City For Science & Technology (Kacst) Method and device for automatically identifying character segment for character recognition
JP2018500705A (en) * 2015-10-30 2018-01-11 小米科技有限責任公司Xiaomi Inc. Region recognition method and apparatus
US10157326B2 (en) 2015-10-30 2018-12-18 Xiaomi Inc. Method and device for character area identification
JP2019185140A (en) * 2018-04-02 2019-10-24 日本電気株式会社 Image processing device, image processing method, and program
US11482029B2 (en) 2018-04-02 2022-10-25 Nec Corporation Image processing device, image processing method, and recording medium
JP2022148901A (en) * 2021-03-24 2022-10-06 カシオ計算機株式会社 Character recognition apparatus, character recognition method, and program

Also Published As

Publication number Publication date
JP3452774B2 (en) 2003-09-29
CN1140878C (en) 2004-03-03
CN1215201A (en) 1999-04-28
KR19990036515A (en) 1999-05-25
KR100412317B1 (en) 2004-03-31

Similar Documents

Publication Publication Date Title
JP3452774B2 (en) Character recognition method
US20210034849A1 (en) System and method of character recognition using fully convolutional neural networks with attention
Chaudhuri et al. A complete printed Bangla OCR system
EP1564675B1 (en) Apparatus and method for searching for digital ink query
JP3427692B2 (en) Character recognition method and character recognition device
JP2713622B2 (en) Tabular document reader
JP3294995B2 (en) Form reader
JPS61267177A (en) Retrieving system for document picture information
JP2005173730A (en) Business form ocr program, method, and device
Hussain et al. Nastalique segmentation-based approach for Urdu OCR
JP4280355B2 (en) Character recognition device
JP2730665B2 (en) Character recognition apparatus and method
Shanjana et al. Offline recognition of malayalam handwritten text
JP7282989B2 (en) text classification
JPH08320914A (en) Table recognition method and device
CN115311666A (en) Image-text recognition method and device, computer equipment and storage medium
Shanjana et al. Character segmentation in Malayalam Handwritten documents
Al-Barhamtoshy et al. Arabic OCR segmented-based system
Kaur et al. Adverse conditions and techniques for cross-lingual text recognition
JP4117648B2 (en) Form, form processing method, form processing program, recording medium recording form processing program, and form processing apparatus
Rao et al. Font and size identification in Telugu printed document
Hwang et al. Segmentation of a text printed in Korean and English using structure information and character recognizers
JPH11120294A (en) Character recognition device and medium
JPH08297718A (en) Character segmentation device and character recognition device
JP2931485B2 (en) Character extraction device and method

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030708

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080718

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090718

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100718

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100718

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110718

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110718

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120718

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120718

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130718

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees