JPH11272804A - Method and device for recognizing character - Google Patents

Method and device for recognizing character

Info

Publication number
JPH11272804A
JPH11272804A JP10076957A JP7695798A JPH11272804A JP H11272804 A JPH11272804 A JP H11272804A JP 10076957 A JP10076957 A JP 10076957A JP 7695798 A JP7695798 A JP 7695798A JP H11272804 A JPH11272804 A JP H11272804A
Authority
JP
Japan
Prior art keywords
word
character
candidate
string
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10076957A
Other languages
Japanese (ja)
Other versions
JP3145071B2 (en
Inventor
Hiroshi Ueda
洋 上田
Hiromichi Fujisawa
浩道 藤澤
Katsumi Marukawa
勝美 丸川
Masashi Koga
昌史 古賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP07695798A priority Critical patent/JP3145071B2/en
Publication of JPH11272804A publication Critical patent/JPH11272804A/en
Application granted granted Critical
Publication of JP3145071B2 publication Critical patent/JP3145071B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To extract a reliable word string candidate with high accuracy by using a part character string constituting one part of a word as a word candidate and performing collation on a character level. SOLUTION: An destination of a mail, etc., undergoes image input 101 and character line extracting processing 102 extracts an address character line. Next, pattern segmentation processing 103 segments a character pattern candidate from the address character line and character identification processing 104 obtains an identification candidate character by using a character identification dictionary 105. Character segmentation processing 106 obtains a word string candidate of a character unit from the pattern candidate and the identification candidate character. Word collation processing 107 collates with the candidate character by a town area address dictionary 108 and makes it a word candidate. Next, part work collation processing 110 collates a part character string produced from the dictionary 108 with the word string candidate and adds it to a word candidate. Hierarchy processing 109 produces a hierarchy for the dictionary 108 among word candidates and a word string from connection relations. Read result selection processing 111 selects what is appropriate among word strings and outputs an address read result 113 together with a town section number.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、階層構造を持つ単
語列の認識にかかわり、特に郵便物の住所を読み取る場
合に好ましい文字認識方法および装置である。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to the recognition of a word string having a hierarchical structure, and more particularly to a method and apparatus for character recognition which is preferable for reading the address of a mail.

【0002】[0002]

【従来の技術】印刷あるいは筆記された住所などを読み
取るためには、大きく分けて以下の3つの機能が必要で
ある。
2. Description of the Related Art In order to read a printed or written address, the following three functions are required.

【0003】(1)文字パターンを切り出す。(文字切
出し) (2)各々の文字パターンの字種を識別する。(文字識
別) (3)文字の識別結果を文字列として解釈する。(文字
列照合) このうち、記載の不備やノイズなどの要因は(1)
(2)では対応しきれない場合がほとんどであり、より
高精度の文字認識のためには(3)の文字列照合におけ
る補完機能が重要である。
(1) Cut out a character pattern. (Character extraction) (2) The character type of each character pattern is identified. (Character identification) (3) The result of character identification is interpreted as a character string. (Character string collation) Among these, factors such as incomplete description and noise are (1)
In most cases, (2) cannot be used. For more accurate character recognition, the complementing function in (3) character string collation is important.

【0004】階層構造を持つ単語列としては、特に住所
文字列の町域部分を代表的な例としてあげることができ
る。この照合方法としては、住所文字列に対し「県」
「市」「町」などのキーとなる文字をもとに住所構造の
候補を求め、階層関係を適用して住所文字列を求める方
式(第41回情報処理学会全国大会論文集 90 4L-5「住
所の文字認識結果に対する後処理方式の検討」)、住所
を構成する地名を単語照合により抽出し、住所の持つ階
層関係を上位(都道府県)からトップダウンに辿り住所
文字列を求める方式(昭和64年電子情報通信学会全国
大会 D-465「自由記載住所文字列に対する知識処理」)
などの方法がある。また、情報処理学会論文誌第35第
6号「手書き漢字住所認識のためのエラー修正アルゴリ
ズム」記載の方法では、オートマトン型単語照合により
候補文字が不完全でも任意の位置にある地名単語を抽出
するとともに、各階層の候補地名をもとに階層関係を下
位の階層から上位の階層へ辿りながら地名間の位置関係
を判定するボトムアップ処理を行うことで、住所表記に
対する柔軟性や補完能力や処理量の問題を解決し、実用
的な方式を実現している。
A typical example of a word string having a hierarchical structure is a town area portion of an address character string. This matching method uses "prefecture"
A method of obtaining address structure candidates based on key characters such as “city” and “town” and obtaining an address character string by applying a hierarchical relationship (Transactions of the 41st Annual Convention of IPSJ 90 4L-5 "Examination of post-processing method for character recognition result of address"), a method of extracting an address character string by extracting place names constituting an address by word matching and tracing the hierarchical relationship of the address from top (prefecture) to top down ( 1979 IEICE National Convention D-465 "Knowledge Processing for Freely-written Address Strings")
And so on. In the method described in IPSJ Transactions No. 35, No. 6, "Error Correction Algorithm for Handwritten Kanji Address Recognition", a place name word at an arbitrary position is extracted by an automaton-type word collation even if the candidate character is incomplete. At the same time, by performing a bottom-up process of determining the positional relationship between place names while tracing the hierarchical relationship from the lower hierarchy to the upper hierarchy based on the candidate place name of each hierarchy, flexibility in address notation, complementing ability and processing It solves the problem of quantity and realizes a practical method.

【0005】しかし、これらの方式では、文字候補が不
完全な場合単語単位での補完が行われ、ペナルティを付
加することで単語の不完全性を評価しているが、このよ
うな単語補完の結果、ペナルティを科された複数の単語
候補が出現することになり、単語列候補である町域住所
文字列として誤った候補を選択する可能性を大きくして
いることにもなる。
[0005] However, in these methods, when a character candidate is incomplete, completion is performed on a word-by-word basis, and a penalty is added to evaluate the incompleteness of the word. As a result, a plurality of penalized word candidates appear, which increases the possibility of selecting an erroneous candidate as a street address character string that is a word string candidate.

【0006】[0006]

【発明が解決しようとする課題】上記の従来技術では、
読み取り対象となる単語列へのノイズの混入や、文字の
かすれ、手書きによる文字変形などにより不正なパター
ンが発生したり、識別が困難で識別候補文字が不完全な
ものに対しては、単語照合の際に補完した単語候補を出
し、それにみあったペナルティを科すことで対応してい
た。このように単語を最小単位とする照合を行うため、
単語が不完全な場合、候補単語には単語ペナルティが科
されることになり確信度の低い単語候補の中から単語列
を選択しなくてはならず、信頼性に問題があった。
In the above prior art,
Word matching is performed for noise that is mixed in the word string to be read, blurred characters, incorrect patterns caused by handwritten character deformation, or difficult to identify and incomplete identification candidate characters. In that case, the candidate responded by issuing a complemented word candidate and imposing a penalty appropriate to that. In order to perform matching using words as the minimum unit,
When a word is incomplete, a word penalty is imposed on the candidate word, and a word string must be selected from word candidates with low certainty, which has a problem in reliability.

【0007】本発明が解決しようとする課題は、記載さ
れている単語が文字欠けなどで不完全な場合でも単語を
構成する文字のレベルでの照合を行うことで精度良く信
頼性のある単語列候補を得ることである。
[0007] The problem to be solved by the present invention is to provide a word string having high accuracy and reliability by performing collation at the level of the characters constituting the word even if the word described is incomplete due to missing characters or the like. Getting candidates.

【0008】[0008]

【課題を解決するための手段】上記の課題を解決するた
め、本発明では、本来辞書に存在する単語だけではな
く、単語の一部分を構成する部分文字列をも単語候補と
して用い、文字レベルでの照合を行う。以下では、この
ような単語の一部分を構成する文字列を部分単語、そし
て部分単語による単語照合を部分単語照合と呼ぶことに
する。
In order to solve the above-mentioned problems, according to the present invention, not only words originally existing in the dictionary but also partial character strings constituting a part of the words are used as word candidates, and the character level is used. Is matched. In the following, a character string forming a part of such a word will be referred to as a partial word, and word matching based on the partial words will be referred to as partial word matching.

【0009】この部分単語照合は、単語の一部が候補文
字の中から高い信頼度で得られ、さらにこの部分単語に
より候補単語列の選択が可能な場合に行い、この部分単
語を単語候補に加え、階層処理を行うことで、単語列候
補を高い確信度で得ることができる。
This partial word collation is performed when a part of the word is obtained with high reliability from among the candidate characters, and a candidate word string can be selected by using the partial word. In addition, by performing hierarchical processing, word string candidates can be obtained with a high degree of certainty.

【0010】従来法の補完によっても同じ単語候補が出
ている可能性はあるが、この場合単語に対し文字の一致
度が低い分だけペナルティが過大に科されている。部分
単語は一致度の高い部分だけを用いるため単語ペナルテ
ィが低く、単語列として接続したときにより高い確信度
を得ることができ、単語列候補としての信頼度は高い。
Although there is a possibility that the same word candidate may appear even by complementing the conventional method, in this case, the penalty is imposed excessively for the low degree of matching of the character with the word. The partial word uses only a part with a high degree of coincidence, so that the word penalty is low, a higher degree of certainty can be obtained when connected as a word string, and the reliability as a word string candidate is high.

【0011】以上のようにして上記課題は解決される
が、このために請求項1では、本発明の対象とする文書
上に記載された画像情報を電子化して入力する画像入力
手段と、画像中より記載されている単語列を読み取る手
段とを有する文字認識方法において、画像上より対象単
語列の記載されている文字行を抽出する文字行抽出処理
を行い、複数の文字パターンの候補を切り出すパターン
切り出し処理を行い、切り出されたパターンを文字識別
し、複数の認識候補文字を得る文字識別処理を行い、文
字識別結果および文字パターンの妥当性に応じて文字パ
ターン候補を絞り込み、一ないしは複数通りに文字単位
の切り出しを決定する文字切り出し処理を行い、あらか
じめ用意された単語列辞書の中の単語情報との照合によ
り認識候補文字から複数の単語候補を生成する単語照合
処理を行い、単語列辞書から生成した単語の一部分から
なる部分単語を単語照合し、この結果を単語候補に加え
る部分単語照合処理を行い、この辞書の中の単語の階層
関係および接続関係を参照することにより単語候補から
単語列候補を生成する階層処理を行い、単語列候補の中
から読み取り結果として適切なものを選択する読み取り
結果選択処理を行うことによって、階層構造を持つ複数
の単語からなる単語列の読み取りを行っている。
[0011] As described above, the above-mentioned problem is solved. For this purpose, according to the present invention, there is provided image input means for digitizing and inputting image information described on a document which is an object of the present invention, In a character recognition method having means for reading a word string described from the inside, a character line extraction process is performed to extract a character line in which a target word string is described from an image, and a plurality of character pattern candidates are cut out. Perform pattern extraction processing, character-identify the extracted pattern, perform character identification processing to obtain a plurality of recognition candidate characters, narrow down character pattern candidates according to the character identification result and the validity of the character pattern, and perform one or more Perform character extraction processing to determine the extraction for each character, and compare it with the word information in the prepared word string dictionary to A word matching process is performed to generate a number of word candidates, a partial word consisting of a part of the word generated from the word string dictionary is word matched, and a partial word matching process of adding the result to the word candidate is performed. By performing a hierarchical process of generating a word string candidate from a word candidate by referring to a hierarchical relationship and a connection relationship of words, and performing a reading result selecting process of selecting an appropriate reading result from the word string candidates, A word string consisting of a plurality of words having a hierarchical structure is read.

【0012】請求項2では、階層処理時に、接続可能な
上位階層の単語が見つからない場合、または見つかって
もその単語ペナルティが大きいとき(すなわち、単語列
候補作成に際して有効な接続候補が得られないとき)、
この上位単語に対して部分単語照合を行っている。
According to the second aspect of the present invention, in the hierarchical processing, when a connectable upper-level word is not found, or when a word penalty is large even if it is found (that is, no effective connection candidate is obtained when creating a word string candidate). Time),
Partial word matching is performed on the upper word.

【0013】請求項3では、あらかじめ単語列辞書の中
の単語から単語列の読み取りに有効な部分単語を作成し
ておき、これを部分単語辞書として格納し、この部分単
語辞書を参照することによって単語照合結果を候補単語
に加えている。
According to a third aspect of the present invention, a partial word effective for reading a word string is created in advance from the words in the word string dictionary, stored as a partial word dictionary, and the partial word dictionary is referred to. The result of word matching is added to candidate words.

【0014】[0014]

【発明の実施の形態】図1は本発明による文字認識方法
の実施の形態の一例を示す処理の流れである。本例は住
所の記載された面を光電変換して得られた全体画像を入
力とし、読み取り結果の住所文字列を出力とする住所認
識処理である。
DESCRIPTION OF THE PREFERRED EMBODIMENTS FIG. 1 is a flowchart showing an example of an embodiment of a character recognition method according to the present invention. This example is an address recognition process in which an entire image obtained by photoelectrically converting a surface on which an address is described is input and an address character string as a read result is output.

【0015】ここでは、本文字認識方法を、宛名の住所
のうち都道府県から町名までの町域部分の単語列の読み
取りに適用し、候補文字ラティスが不完全になる例とし
て図2のような消印が町域部分に掛かった郵便を想定す
る。
Here, the present character recognition method is applied to reading of a word string in a town area from a prefecture to a town name in an address of an address, and an example in which the candidate character lattice is incomplete is shown in FIG. It is assumed that a postmark has been applied to a town area.

【0016】郵便物などの宛名記載面を撮像手段(スキ
ャナ部)により画像入力101として取り込み、まず、
文字行抽出処理102により全体画像から住所文字行を
抽出する。
An addressing surface such as a postal matter is taken in as an image input 101 by an image pickup means (scanner section).
A character line extraction process 102 extracts an address character line from the entire image.

【0017】次に、パターン切り出し処理103は、文
字となり得るパターン候補を住所文字行から抽出する。
Next, a pattern extraction process 103 extracts a pattern candidate that can be a character from the address character line.

【0018】文字識別処理104は、抽出されたパター
ン候補それぞれについて文字識別辞書105を用いて文
字識別を行い、複数の候補文字と各候補文字の類似度を
出力する。
The character identification process 104 performs character identification for each of the extracted pattern candidates using the character identification dictionary 105, and outputs a plurality of candidate characters and the degree of similarity between the candidate characters.

【0019】文字切出し処理106は、各パターン候補
の文字識別類似度やパターン間の位置関係等をもとにパ
ターンの取捨選択を行い、一ないしは複数のパターン列
を生成し文字切り出し候補として出力する。
The character extracting process 106 selects a pattern based on the character identification similarity of each pattern candidate, the positional relationship between the patterns, and the like, generates one or a plurality of pattern strings, and outputs them as character extracting candidates. .

【0020】単語照合処理107は、文字切り出し結果
と各パターンの識別候補文字を組み合わせた候補文字ラ
ティスの中から町域住所辞書108の中の単語を検索
し、見つかった辞書の中の単語と候補文字ラティスの該
当部分を比較し、各文字の一致度にみあったペナルティ
を算出して単語候補として出力する。このようにして得
られた単語候補と、それぞれの単語候補の持つ位置情報
から単語候補ラティスが作られる。
The word matching process 107 searches for a word in the town area address dictionary 108 from a candidate character lattice obtained by combining the character segmentation result and the identification candidate character of each pattern. The corresponding parts of the character lattice are compared, a penalty corresponding to the degree of matching of each character is calculated, and the result is output as a word candidate. A word candidate lattice is created from the thus obtained word candidates and the positional information of each word candidate.

【0021】町域住所辞書108には各階層の単語と階
層間の接続関係の情報が格納されており、住所の町域単
語列の生成のために参照される。
The town area address dictionary 108 stores words of each layer and information on connection relationships between the layers, and is referred to for generating a town area word string of addresses.

【0022】階層処理109は、単語候補ラティス上で
町域住所辞書108の最下位にあたる階層から接続関係
を基に上位階層の単語を順に単語候補を探し単語列を生
成する。接続した単語の位置関係の妥当性を接続ペナル
ティとし、単語ペナルティとあわせて単語列としての確
信度を算出し、町域の候補単語列とする。
The hierarchy processing 109 searches word candidates in the upper hierarchy in order from the lowest hierarchy of the town area address dictionary 108 on the word candidate lattice based on the connection relation, and generates a word string. The validity of the positional relationship between the connected words is defined as a connection penalty, and the degree of certainty as a word string is calculated in combination with the word penalty, thereby defining a candidate word string for a town area.

【0023】階層処理109において、単語ペナルティ
が充分低いにもかかわらず接続すべき上位単語として妥
当なものが見つからない場合、部分単語照合処理110
を行う。部分単語照合処理110は、接続し得る上位単
語を町域住所辞書108から検索してきてこれらの単語
の部分文字列のうち町域住所文字列を同定できるものに
ついては候補文字ラティス上で再度単語照合を行もので
ある。この結果、部分単語が候補としてあがり、単語ペ
ナルティと接続関係が妥当なものであるならこれを町域
の候補単語列とする。
In the hierarchical processing 109, if a valid word is not found as a higher word to be connected even though the word penalty is sufficiently low, the partial word matching processing 110
I do. The partial word matching process 110 searches for a connectable high-order word from the town address dictionary 108 and, for those partial character strings that can identify the town address character string, performs word matching again on the candidate character lattice. Is what the line is about. As a result, the partial word comes up as a candidate, and if the word penalty and the connection relationship are appropriate, this is used as a candidate word string in the town area.

【0024】読み取り結果選択処理111は、町域住所
の候補単語列としてあげられたものの中から確信度をも
とに町域部分の認識結果として最も確信度の高いものを
選択する。
The reading result selection processing 111 selects the one having the highest certainty as the recognition result of the town area part from the candidate word strings of the street address based on the certainty.

【0025】町域候補が選択された後、候補文字ラティ
スの各町域候補の末尾に続く位置からそれぞれ丁目・番
地を表す街区番号の読み取り112を行い、最終的な住
所読み取り結果113として出力する。
After the candidate for the town area is selected, a block number representing a street or an address is read 112 from the position following the end of each candidate for the town character of the candidate character lattice, and is output as a final address reading result 113. .

【0026】次に、図1の各処理の詳細を説明する。Next, the details of each process in FIG. 1 will be described.

【0027】文字行抽出処理102は、郵便物の宛名面
の画像201から住所文字行を抽出する処理である。住
所文字行とは、宛名の都道府県名、市町村名から、丁目
・番地までを含む矩形領域202を表す。宛名が複数行
に及ぶ場合は行数分だけの矩形領域を出力する。住所文
字行の抽出方法としては、例えば、特開平9−1610
13に記述のあるような方法を用いる。
The character line extraction process 102 is a process for extracting an address character line from the image 201 of the mail address surface. The address character line represents a rectangular area 202 including the name of the prefecture, the name of the city, the name of the city, and the address. If the address extends over a plurality of lines, a rectangular area corresponding to the number of lines is output. As a method of extracting an address character line, for example, Japanese Patent Application Laid-Open No. 9-1610
A method as described in FIG.

【0028】パターン切り出し処理103を、図3を用
いて説明する。パターン切り出し処理は、住所文字行2
02上の黒画素の塊(連結成分)もとにして文字の境界
の候補を抽出し、文字となり得るパターンの組み合わせ
を複数通りあげ、文字パターン候補とする。この時、接
触した文字パターンの切断処理なども行う。301は住
所文字行202をパターン切り出ししたものをグラフで
表現した図である。以下、これを切り出しグラフと呼
ぶ。
The pattern cutting process 103 will be described with reference to FIG. The pattern cutout processing is performed on the address character line 2
A candidate for a character boundary is extracted based on a cluster of black pixels on 02 (connected component), and a plurality of combinations of patterns that can become a character are selected as character pattern candidates. At this time, cutting processing of the contacted character pattern is also performed. Numeral 301 is a diagram expressing a pattern cut out of the address character line 202 in a graph. Hereinafter, this is called a cut-out graph.

【0029】文字識別処理104は、パターンマッチン
グや構造解析といった既知の方式を用いて実現する。文
字識別により、図4のように抽出されたパターン候補そ
れぞれに対して複数の候補文字と文字識別辞書105内
の標準パターンに対する類似度が得られるものとする。
The character identification processing 104 is realized by using a known method such as pattern matching or structure analysis. By character identification, it is assumed that a plurality of candidate characters and the similarity to the standard pattern in the character identification dictionary 105 are obtained for each of the extracted pattern candidates as shown in FIG.

【0030】文字切出し処理106は、文字識別処理1
04で得られた各パターン候補の識別候補文字の類似度
やパターン間の位置関係等をもとにパターンの取捨選択
を行い、図5のように一ないしは複数のパターン列を生
成し文字切り出し候補として出力する。パターンの取捨
選択は、類似度やパターン間の位置関係等により重み付
けされた弧を持つ切り出しグラフ上の最適経路探索問題
とみなすことができる。
The character extraction processing 106 is the character identification processing 1
Pattern selection is performed based on the similarity of the identification candidate characters of each pattern candidate obtained in step 04, the positional relationship between the patterns, and the like, and one or more pattern strings are generated as shown in FIG. Output as The selection of patterns can be regarded as an optimal path search problem on a cut-out graph having an arc weighted by a similarity or a positional relationship between patterns.

【0031】町域住所辞書108の構成を図6を用いて
説明する。
The structure of the street address dictionary 108 will be described with reference to FIG.

【0032】町域住所辞書108は単語照合処理10
7、階層処理109、および部分単語照合処理110の
際に参照される辞書であり、図6のように4階層の地名
単語辞書601〜604から構成される。各階層の地名
単語は上位の階層の地名単語への接続情報を持ってお
り、住所の町域単語列は第3あるいは第4階層の核とな
る単語からボトムアップで接続情報に従って単語を接続
していくことで得られる。単語照合処理107では各階
層の地名単語が参照され、単語候補が作られる。階層処
理109では、核となる地名単語を参照し、この単語の
接続情報によって上位階層の地名単語辞書へ順に辿って
いくことで単語同士を接続し町域単語列候補を得てい
る。また、部分単語照合処理110では、核となる単語
の参照、上位接続単語の探索、および部分単語作成のた
めの単語情報の取得を、町域住所辞書108を用いて行
っている。
The town area address dictionary 108 is used for the word matching process 10.
7, a hierarchy process 109, and a dictionary referred to in the partial word collation process 110. As shown in FIG. 6, the dictionary is composed of four layers of place name word dictionaries 601 to 604. The place name word of each hierarchy has connection information to the place name word of the upper hierarchy, and the town area word string of the address connects words according to the connection information from the core word of the third or fourth hierarchy from the bottom up. It is obtained by going. In the word matching processing 107, the place name words in each layer are referred to to create word candidates. In the hierarchical processing 109, the word is connected by referring to the core place name word and sequentially going to the place name word dictionary of the upper hierarchy based on the connection information of the word, thereby obtaining a town area word string candidate. Further, in the partial word matching process 110, the reference to the core word, the search for the higher-order connected word, and the acquisition of the word information for creating the partial word are performed using the town address dictionary 108.

【0033】単語照合処理107、階層処理109、お
よび読み取り結果選択処理111は、情報処理学会論文
誌第35第6号「手書き漢字住所認識のためのエラー修
正アルゴリズム」記載の方式に準じて実現する。
The word collation processing 107, the hierarchy processing 109, and the reading result selection processing 111 are realized according to the method described in IPSJ Transactions No. 35, No. 6, "Error Correction Algorithm for Handwritten Kanji Address Recognition". .

【0034】単語照合処理107では、図7のように、
文字切り出し候補501(および502)と各パターン
の識別候補文字からなる候補文字ラティス701の中の
各候補文字から辞書単語を探索し、1文字目または2文
字目が一致する辞書単語を候補単語としてあげる。この
とき、各候補単語に対し候補文字ラティス701上の各
対応文字との一致度を考慮してペナルティが算出され
る。この単語ペナルティは単語の全文字候補が1位の場
合0となる。このようにして得られた単語候補と、それ
ぞれの単語候補の記載位置に関する位置情報から単語候
補ラティス702が作られる。702の例では、例えば
「本町」703に対しては全て1位の文字候補があるの
で単語ペナルティは0となり、「本多」704では
「本」が1位で「多」が候補になく、「多」に対して大
きなペナルティが科される。また、「府中市」705に
対しては「中」が2位候補のうえ「府」および「町」に
対応する候補文字が見当らないため、単語ペナルティは
さらに大きくなる。
In the word matching process 107, as shown in FIG.
A dictionary word is searched from each candidate character in the candidate character lattice 701 composed of the character cutout candidate 501 (and 502) and the identification candidate character of each pattern, and a dictionary word having the first or second character matching is determined as a candidate word. I'll give it. At this time, a penalty is calculated for each candidate word in consideration of the degree of matching with each corresponding character on the candidate character lattice 701. This word penalty is 0 when all the character candidates of the word are first. A word candidate lattice 702 is created from the thus obtained word candidates and position information on the description position of each word candidate. In the example of 702, for example, for “Honmachi” 703, the word penalty is 0 because all character candidates are in the first place, and in “Honda” 704, “hon” is the first place and “many” is not a candidate. A large penalty is imposed on “many”. Further, for “Fuchu City” 705, “Middle” is the second candidate and no candidate characters corresponding to “Fu” and “Town” are found, so the word penalty is further increased.

【0035】階層処理109は、単語候補ラティス70
2の最下位にあるあたる階層の単語を核にして、町域住
所辞書108の接続関係をもとに、上位階層の単語を順
に単語候補ラティス702から探索し住所の町域単語列
を生成する。接続した単語の記載位置に関する位置関係
の妥当性を接続ペナルティとし、単語ペナルティとあわ
せて単語列としての確信度を算出し、町域の候補単語列
とする。図8は単語候補ラティス702における階層処
理の様子を表したものである。核となる単語はこの場合
第3階層であり、接続可能な上位階層単語はは第2階層
の「府中市」のみである。接続関係をもとにしてできる
単語列は「府中市寿町」、「府中市府中町」、「府中市
本町」、および「府中市本宿町」となるが、ここで単語
境界のずれを一文字分だけ許容する場合、位置関係とし
て妥当性のあるものは「府中市本町」および「府中市本
宿町」となる。しかしこれらも「府中市」の単語ペナル
ティが大きい上に、第2階層単語と第3階層単語に重な
りがある分だけ接続ペナルティも加わり、単語列として
の確信度は小さくなっている。
The hierarchical processing 109 is performed in the word candidate lattice 70
Based on the connection relation of the town area address dictionary 108, words of the upper layer are searched in order from the word candidate lattice 702 with the word of the lowest hierarchy at the core as the core, and a town area word string of the address is generated. . The validity of the positional relationship with respect to the description position of the connected word is defined as a connection penalty, and the degree of certainty as a word string is calculated together with the word penalty, thereby defining a candidate word string for a town area. FIG. 8 illustrates a state of the hierarchical processing in the word candidate lattice 702. In this case, the core word is the third hierarchy, and the only upper hierarchy word that can be connected is “Fuchu City” in the second hierarchy. The word strings that can be formed based on the connection relationship are “Fuchu City Kotobukicho”, “Fuchu City Fuchucho”, “Fuchu City Honmachi”, and “Fuchu City Honjukucho”. When only one character is allowed, the locations that are appropriate as the positional relationship are “Fuchu-shi Honmachi” and “Fuchu-shi Honjuku-cho”. However, in these cases, the word penalty of “Fuchu” is large, and the connection penalty is added to the extent that the second-layer word and the third-layer word overlap, so that the certainty factor as a word string is reduced.

【0036】部分単語処理110を図9および図10を
用いて説明する。
The partial word processing 110 will be described with reference to FIGS.

【0037】部分単語処理110は、階層処理109に
おいて、単語ペナルティが小さいにもかかわらず、接続
すべき上位単語として妥当なものが見つからない場合、
接続し得る単語を町域住所辞書108から検索し、これ
らの単語の部分文字列のうち町域住所文字列を同定でき
るものについては候補文字ラティス701上で再度単語
照合を行うものである。階層処理109において単語候
補ラティス702上で核となる単語のペナルティが小さ
く、上位単語が見つからない場合、まずその核となる単
語を含む町域単語列902を町域住所辞書108の中か
ら選び出す。町域単語列を選び出すには、図9のように
町域住所辞書の中から核となる単語を見つけ出し、同単
語の接続情報に従い上位単語を接続して行けばよい。次
に、このようにして得られた町域単語列のうち、核とな
った単語とその上位単語によって一意に決定されるもの
だけを対象として以下の処理を行う。対象となる町域単
語列は、核となった単語とその上位単語によって町域単
語列が同定できるわけである。そこで、この対象となる
町域単語列に含まれる単語のうち、核となった単語の上
位単語のそれぞれについて部分単語による単語照合を行
う。本例では、ペナルティが小さく接続すべき上位単語
として妥当なものがない単語として「本町」901がそ
れにあたる。「本町」901に対し、町域単語列を一意
に決定できる上位単語として図10のように「国分寺
市」1001「府中市」1002「田無市」1003が
あがったものとする。ここでは単語の先頭部分の不完全
性を考慮して1004のように単語の末尾から1文字
分、2文字分…と部分単語を動的に作り出す。部分単語
による町域単語列決定の一意性を保つために、作成した
全ての部分単語の中から重複したものを除き、残ったも
のを部分単語候補として候補文字ラティス701上で再
度単語照合を行う。この結果、1005のような四つの
有効な部分単語が動的に生成される。部分単語の生成に
関しては、あらかじめ単語列辞書の中の単語から単語列
の読み取りに有効な部分単語を作成し、これを部分単語
辞書として記憶しておいてもよい。これらの部分単語に
対し単語照合を行うと1006のような単語候補ラティ
スが得られる。部分単語が候補としてあがったなら、こ
れも単語候補に加えて階層処理を続ける。この時、部分
単語の接続関係は元の単語のものを継承するが、上位へ
の接続は必要ない。本例では、図11のように「(府)
中市本宿町」「(国)分寺市本多」「(国分)寺市本
多」等の接続も有り得るが、核となる単語「本宿町」
「本多」の単語ペナルティが大きいためこれらは採用し
ない。こうして、部分単語が候補としてあがり単語ペナ
ルティと接続関係が妥当なものであるならこれを町域の
候補単語列とする。本例の場合、「(府)中市本町」
「(国)分寺市本町」「(国分)寺市本町」が候補単語
列として加わることになる。
In the partial word processing 110, in the hierarchy processing 109, if a valid word cannot be found as a higher word to be connected even though the word penalty is small,
The connectable words are searched from the town address dictionary 108, and the partial character strings of these words that can identify the town address character string are subjected to word matching again on the candidate character lattice 701. In the hierarchical processing 109, when the penalty of the core word is small on the word candidate lattice 702 and the upper word is not found, the town area word string 902 including the core word is selected from the town address dictionary 108 first. In order to select a town area word string, a core word is found from the town area address dictionary as shown in FIG. 9 and upper words are connected according to the connection information of the word. Next, of the town area word strings obtained in this manner, the following processing is performed on only the word that is uniquely determined by the core word and its upper words. The target town area word string can be identified by the core word and its upper words. Therefore, of the words included in the target town area word string, word matching using partial words is performed for each of the upper words of the core word. In this example, “Honmachi” 901 is a word having a small penalty and no valid upper word to be connected. For “Honmachi” 901, “Kokubunji city” 1001 “Fuchu city” 1002 “Tanashi city” 1003 as shown in FIG. In this case, partial words such as one character, two characters... From the end of the word, such as 1004, are dynamically created in consideration of the incompleteness of the head of the word. In order to maintain the uniqueness of the town area word string determination based on the partial words, word matching is performed again on the candidate character lattice 701 as a partial word candidate, excluding a duplicated word from all the created partial words. . As a result, four valid partial words like 1005 are dynamically generated. As for the generation of the partial words, a partial word effective for reading the word string may be created in advance from the words in the word string dictionary, and this may be stored as the partial word dictionary. When word matching is performed on these partial words, a word candidate lattice like 1006 is obtained. If a partial word comes up as a candidate, the hierarchical processing is continued in addition to the word candidate. At this time, the connection relation of the partial words is inherited from that of the original word, but a connection to a higher order is not required. In this example, as shown in FIG.
There may be connections such as "Nakaichi Honjuku-cho", "(Kokubu) Bunji-shi Honda", "(Kokubu) Teraichi Honda", etc., but the core word "Honjuku-cho"
These are not adopted because the word penalty for "Honda" is large. In this way, if the partial word is raised as a candidate and the connection relation with the word penalty is appropriate, this is set as a candidate word string in the town area. In this example, "(Fu) Nakaichi Honmachi"
"(Kokubu) Honcho, Kunibu" and "Honmachi (Kokubu) Teraichi" are added as candidate word strings.

【0038】読み取り結果選択処理111は、町域の単
語列候補としてあげられたものの中から確信度をもとに
町域部分の認識結果として最も確信度の高いものを選択
する。本例では、単語ペナルティおよび接続ペナルティ
から最終的に「(国分)寺市本町」が町域単語列として
得られる。
The reading result selection processing 111 selects the one having the highest certainty as the recognition result of the town area portion based on the certainty degree from the word string candidates of the town area. In this example, “(Kokubun) Teraichi Honmachi” is finally obtained as a town area word string from the word penalty and the connection penalty.

【0039】町域単語列の候補が選択された後、候補文
字ラティスの各町域候補の末尾に続く位置からそれぞれ
丁目・番地を表す街区番号の読み取り112を行い、最
終的な住所読み取り結果113として出力する。
After the candidate for the town area word string is selected, block numbers indicating the streets and addresses are read 112 from the position following the end of each town area candidate in the candidate character lattice, and the final address read result 113 Output as

【0040】[0040]

【発明の効果】以上の本発明の方法および装置により、
郵便物の住所す町域部分のように階層構造を持つ単語列
の認識において、単語が不完全な場合でも単語を構成す
る文字のレベルでの照合を行うことで精度良く信頼性の
ある単語列候補を得ることが可能となる。
According to the method and apparatus of the present invention described above,
When recognizing a word string having a hierarchical structure such as a town area where a postal address is located, even if the word is incomplete, a word string with high accuracy and reliability can be obtained by performing matching at the level of the characters that make up the word. Candidates can be obtained.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本名発明の実施の形態の一例を示す構成図。FIG. 1 is a configuration diagram showing an example of an embodiment of a real name invention.

【図2】郵便宛名面の画像と住所文字行の一例を示す概
念図。
FIG. 2 is a conceptual diagram showing an example of a mail address surface image and an address character line.

【図3】パターン切り出し処理と切り出しグラフの関係
を示す図。
FIG. 3 is a diagram showing a relationship between a pattern cutout process and a cutout graph.

【図4】各パターンとその文字識別処理の結果を示す
図。
FIG. 4 is a diagram showing each pattern and the result of its character identification processing.

【図5】文字切出し候補の例を示す図。FIG. 5 is a diagram showing an example of a character cutout candidate.

【図6】町域住所辞書の構成を示す概念図。FIG. 6 is a conceptual diagram showing a configuration of a town area address dictionary.

【図7】候補文字ラティスと候補単語ラティスの関係を
示す図。
FIG. 7 is a diagram showing a relationship between a candidate character lattice and a candidate word lattice.

【図8】階層処理の手順の一例を示す図。FIG. 8 is a diagram showing an example of a procedure of a hierarchical process.

【図9】部分単語を作成する対象を選出する手順を示す
概念図。
FIG. 9 is a conceptual diagram showing a procedure for selecting a target for creating a partial word.

【図10】部分単語を作成する手順と部分単語照合処理
を示す図。
FIG. 10 is a diagram showing a procedure for creating a partial word and a partial word matching process.

【図11】部分単語候補による階層処理の手順を示す
図。
FIG. 11 is a diagram showing a procedure of hierarchical processing using partial word candidates.

【符号の説明】[Explanation of symbols]

101…入力画像、102…文字行抽出処理、103…
パタン切り出し処理、104…文字識別処理、105…
文字識別辞書、106…文字切り出し処理、107…単
語照合処理、108…町域住所辞書、109…階層処
理、110…部分単語照合処理、111…読み取り結果
選択処理、112…街区読み取り、113…住所読み取
り結果、201…郵便宛名面画像、202…住所文字
行、301…切り出しグラフ、401…文字識別結果、
501…文字切り出し候補1、502…文字切り出し候
補2、601…第1階層地名単語辞書、602…第2階
層地名単語辞書、603…第3階層地名単語辞書、60
4…第4階層地名単語辞書、701…候補文字ラティ
ス、702…候補単語ラティス、703…候補単語の例
「本町」、704…候補単語の例「本多」、705…候
補単語の例「府中市」、901…部分単語照合処理を起
動するための核となる単語、902…部分単語により同
定される町域単語列、1001…部分単語作成の対象と
なる単語の例「国分寺市」、1001…部分単語作成の
対象となる単語の例「府中市」、1001…部分単語作
成の対象となる単語の例「田無市」、1004…部分単
語、1005…有効な部分単語。
101: input image, 102: character line extraction processing, 103:
Pattern cutout processing, 104 ... Character identification processing, 105 ...
Character identification dictionary, 106: character extraction processing, 107: word collation processing, 108: town area address dictionary, 109: hierarchical processing, 110: partial word collation processing, 111: reading result selection processing, 112: block reading, 113: address Reading result, 201: mail address side image, 202: address character line, 301: cut-out graph, 401: character identification result,
501: character extraction candidate 1, 502: character extraction candidate 2, 601: first-level place name word dictionary, 602: second-level place name word dictionary, 603: third-level place name word dictionary, 60
4. Fourth hierarchical place name word dictionary, 701: Candidate character lattice, 702: Candidate word lattice, 703: Candidate word example "Honmachi", 704: Candidate word example "Honda", 705 ... Candidate word example "Fuchu" 901: a core word for activating the partial word matching process; 902: a town area word string identified by the partial word; 1001: an example of a word to be subjected to the partial word creation: "Kokubunji City"; 1001 ... Examples of words for which partial words are to be created, “Fuchu City”, 1001. Examples of words for which partial words are to be created, “Tanashi City”, 1004, partial words, 1005, valid partial words.

─────────────────────────────────────────────────────
────────────────────────────────────────────────── ───

【手続補正書】[Procedure amendment]

【提出日】平成11年7月19日[Submission date] July 19, 1999

【手続補正1】[Procedure amendment 1]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】特許請求の範囲[Correction target item name] Claims

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【特許請求の範囲】[Claims]

【手続補正2】[Procedure amendment 2]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0011[Correction target item name] 0011

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【0011】 以上のようにして上記課題は解決される
が、このために請求項1では、本発明の対象とする文章
上に記載された画像情報を電子化して入力する画像入力
手段と、画像中より記載されている単語列を読み取る手
段とを有する文字認識方法において、画像上より対象単
語列の記載されている文字行を抽出する文字行抽出処理
を行い、複数の文字パターンの候補を切り出すパターン
切り出し処理を行い、切り出されたパターンを文字識別
し、複数の認識候補文字を得る文字識別処理を行い、文
字識別結果および文字パターンの妥当性に応じて文字パ
ターン候補を絞り込み、一ないしは複数通りに文字単位
の切り出しを決定する文字切り出し処理を行い、あらか
じめ用意された単語辞書の中の単語情報との照合により
認識候補文字から複数の単語候補を生成する単語照合処
理を行い、単語辞書から生成した単語の一部分からなる
部分単語を単語照合し、この結果を単語候補に加える部
分単語照合処理を行い、この辞書の中の単語の階層関係
および接続関係を参照することにより単語候補から単語
列候補を生成する階層処理を行い、単語列候補の中から
読み取り結果として適切なものを選択する読み取り結果
選択処理を行うことによって、階層構造を持つ複数の単
語からなる単語列の読み取りを行っている。
[0011] In order to solve the above-mentioned problem, an image input means for digitizing and inputting image information described in a text which is an object of the present invention is provided. In a character recognition method having means for reading a word string described from the inside, a character line extraction process is performed to extract a character line in which a target word string is described from an image, and a plurality of character pattern candidates are cut out. Perform pattern extraction processing, character-identify the extracted pattern, perform character identification processing to obtain a plurality of recognition candidate characters, narrow down character pattern candidates according to the character identification result and the validity of the character pattern, and perform one or more performs character cutout process of determining the cut-out character units, double from the recognition candidate characters by collation with the word information in the word dictionary prepared in advance Deeds word collation processing for generating a word candidates, a partial word comprised of a portion of a word generated from the word dictionary and word collating performs partial word collating process of adding the result to the word candidate, the word in the dictionary By performing a hierarchical process of generating word string candidates from word candidates by referring to a hierarchical relationship and a connection relationship, and performing a reading result selecting process of selecting an appropriate reading result from the word string candidates, a hierarchical structure is obtained. A word string consisting of multiple words with is read.

【手続補正3】[Procedure amendment 3]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0013[Correction target item name] 0013

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【0013】 請求項3では、あらかじめ単語辞書の中の
単語から単語列の読み取りに有効な部分単語を作成して
おき、これを部分単語辞書として格納し、この部分単語
辞書を参照することによって単語照合結果を候補単語に
加えている。
[0013] word by the claims 3, which leave create a valid partial word from word of advance word dictionary to read the word string, and stores it as a partial word dictionary refers to the partial word dictionary The matching result is added to the candidate word.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 古賀 昌史 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内 ──────────────────────────────────────────────────続 き Continuing on the front page (72) Inventor Masafumi Koga 1-280 Higashi Koigakubo, Kokubunji-shi, Tokyo Inside Central Research Laboratory, Hitachi, Ltd.

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】文書上に記載された画像情報を電気信号に
変換して入力する画像入力手段と、画像中から記載され
ている単語列を読み取る手段とを有する文字認識方法お
よび装置において、画像より対象単語列の記載されてい
る文字行を抽出する文字行抽出処理と、複数の文字パタ
ーンの候補を切り出すパターン切り出し処理と、切り出
されたパターンを文字識別し、複数の識別候補文字を得
る文字識別処理と、文字識別結果および文字パターンの
妥当性に応じて文字パターン候補を絞り込み、単語列候
補の文字単位の切り出しを一ないし複数通り決定する文
字切り出し処理と、あらかじめ用意された単語辞書の中
の単語情報との照合により識別候補文字から複数の単語
候補を生成する単語照合処理と、単語辞書から生成した
単語の一部分からなる部分文字列の単語照合を行い、同
結果を単語候補に加える部分単語照合処理と、同辞書の
中の単語の階層関係および接続関係を参照することによ
り単語候補から単語列候補を生成する階層処理と、単語
列候補の中から読み取り結果として適切なものを選択す
る読み取り結果選択処理とを順次実行することを特徴と
する文字認識方法および装置。
1. A character recognition method and apparatus comprising: image input means for converting image information written on a document into an electric signal and inputting the signal; and means for reading a word string described in the image. A character line extraction process for extracting a character line in which a target word string is described, a pattern cutout process for cutting out a plurality of character pattern candidates, and a character that obtains a plurality of identification candidate characters by character-identifying the cutout pattern Identification processing, character extraction processing for narrowing down character pattern candidates according to the character identification result and the validity of the character pattern, and determining one or more types of character string extraction of word string candidates. A word matching process that generates multiple word candidates from identification candidate characters by comparing with word information of Word matching of partial character strings to be added and the same result to word candidates, and a hierarchy for generating word string candidates from word candidates by referring to the hierarchical relationships and connection relationships of words in the dictionary A character recognition method and apparatus for sequentially executing a process and a reading result selecting process for selecting an appropriate reading result from word string candidates.
【請求項2】請求項1の部分単語照合処理において、確
信度の高い単語候補に対する接続候補単語として妥当な
ものが見つからないときだけ、接続候補単語の部分文字
列を生成し部分単語照合を行うことを特徴とする文字認
識方法および装置。
2. In the partial word matching process according to claim 1, a partial character string of a connection candidate word is generated and partial word matching is performed only when a valid connection candidate word is not found for a word candidate having a high degree of certainty. A character recognition method and apparatus.
【請求項3】請求項1の部分単語照合処理において、単
語辞書からあらかじめ生成した部分文字列を記憶してお
く手段を持ち、記憶されている部分文字列を用いて同処
理を行うことを特徴とする文字認識方法および装置。
3. The partial word matching process according to claim 1, further comprising means for storing a partial character string generated in advance from a word dictionary, and performing the same process using the stored partial character string. Character recognition method and apparatus.
【請求項4】文書上に記載された画像情報を電気信号に
変換して入力する画像入力手段と、画像中から記載され
ている単語列を読み取る手段とを有する文字認識装置に
おいて、読み取られた単語列とあらかじめ用意された単
語辞書の中の単語情報との照合により複数の単語候補を
生成する単語照合処理手段と、単語辞書から生成した単
語の一部分からなる部分文字列の単語照合を行い、同結
果を単語候補に加える部分単語照合処理手段と、同辞書
の中の単語の階層関係および接続関係を参照することに
より単語候補から単語列候補を生成する階層処理手段
と、単語列候補の中から読み取り結果として適切なもの
を選択する読み取り結果選択処理手段とを有することを
特徴とする文字認識装置。
4. A character recognition device having image input means for converting image information written on a document into an electric signal and inputting the same, and means for reading a word string described in the image. Word matching processing means for generating a plurality of word candidates by matching a word string with word information in a word dictionary prepared in advance, and word matching of a partial character string consisting of a part of a word generated from the word dictionary, Partial word matching processing means for adding the result to word candidates; hierarchical processing means for generating word string candidates from word candidates by referring to the hierarchical relation and connection relation of words in the dictionary; And a reading result selecting means for selecting an appropriate reading result from the data.
【請求項5】文書上に記載された画像情報を電気信号に
変換して入力する画像入力処理と、画像中から記載され
ている単語列を読み取る処理と、読み取られた単語列と
あらかじめ用意された単語辞書の中の単語情報との照合
により複数の単語候補を生成する単語照合処理と、単語
辞書から生成した単語の一部分からなる部分文字列の単
語照合を行い、同結果を単語候補に加える部分単語照合
処理と、同辞書の中の単語の階層関係および接続関係を
参照することにより単語候補から単語列候補を生成する
階層処理と、単語列候補の中から読み取り結果として適
切なものを選択する読み取り結果選択処理とを実行する
ことを特徴とする文字認識方法。
5. An image input process for converting image information described in a document into an electric signal and inputting the converted signal, a process for reading a word sequence described in the image, a process for preparing a read word sequence and A word matching process that generates a plurality of word candidates by matching with word information in a word dictionary, and a word matching of a partial character string that is a part of a word generated from the word dictionary, and adds the same result to the word candidates Partial word matching processing, hierarchical processing of generating word string candidates from word candidates by referring to the hierarchical relation and connection relation of words in the same dictionary, and selecting appropriate reading results from word string candidates And performing a reading result selecting process.
JP07695798A 1998-03-25 1998-03-25 Character recognition method and device Expired - Fee Related JP3145071B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP07695798A JP3145071B2 (en) 1998-03-25 1998-03-25 Character recognition method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP07695798A JP3145071B2 (en) 1998-03-25 1998-03-25 Character recognition method and device

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP10304990A Division JPH11272805A (en) 1998-10-27 1998-10-27 Method and device for recognizing character

Publications (2)

Publication Number Publication Date
JPH11272804A true JPH11272804A (en) 1999-10-08
JP3145071B2 JP3145071B2 (en) 2001-03-12

Family

ID=13620277

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07695798A Expired - Fee Related JP3145071B2 (en) 1998-03-25 1998-03-25 Character recognition method and device

Country Status (1)

Country Link
JP (1) JP3145071B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010073540A1 (en) * 2008-12-26 2010-07-01 Hitachi Software Engineering Co., Ltd. Business document processor
US8300942B2 (en) 2008-02-12 2012-10-30 Fujitsu Limited Area extraction program, character recognition program, and character recognition device
US8965126B2 (en) 2011-03-07 2015-02-24 Ntt Docomo, Inc. Character recognition device, character recognition method, character recognition system, and character recognition program

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156706A (en) * 2014-08-12 2014-11-19 华北电力大学句容研究中心 Chinese character recognition method based on optical character recognition technology

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8300942B2 (en) 2008-02-12 2012-10-30 Fujitsu Limited Area extraction program, character recognition program, and character recognition device
WO2010073540A1 (en) * 2008-12-26 2010-07-01 Hitachi Software Engineering Co., Ltd. Business document processor
JP2010157107A (en) * 2008-12-26 2010-07-15 Hitachi Software Eng Co Ltd Business document processor
CN102171708A (en) * 2008-12-26 2011-08-31 日立系统解决方案有限公司 Business document processor
US8965126B2 (en) 2011-03-07 2015-02-24 Ntt Docomo, Inc. Character recognition device, character recognition method, character recognition system, and character recognition program

Also Published As

Publication number Publication date
JP3145071B2 (en) 2001-03-12

Similar Documents

Publication Publication Date Title
US6014460A (en) Character strings reading device
EP1971957A2 (en) Methods and apparatuses for extending dynamic handwriting recognition to recognize static handwritten and machine generated text
JPS6262387B2 (en)
US6360010B1 (en) E-mail signature block segmentation
US6373985B1 (en) E-mail signature block analysis
JPH11272804A (en) Method and device for recognizing character
Chen et al. Integrating geometrical and linguistic analysis for email signature block parsing
Rebelo et al. A method for music symbols extraction based on musical rules
KR100692327B1 (en) An expression method of names of places, a recognition method of names of places and a recognition apparatus of names of places
JPH11272805A (en) Method and device for recognizing character
Dejean Extracting structured data from unstructured document with incomplete resources
Gelbukh et al. Resolving ambiguities in toponym recognition in cartographic maps
JP3468668B2 (en) Address recognition method and postal sorting machine
JP3468199B2 (en) English word recognition device
JP2947832B2 (en) Word matching method
JP2996823B2 (en) Character recognition device
Andersson Post-processing of optical character recognition for Swedish addresses
Gelbukh et al. Combining sources of evidence to resolve ambiguities in toponym recognition in cartographic maps
Assabie et al. A hybrid system for robust recognition of Ethiopic script
McPherson et al. Coordinating knowledge within an optical music recognition system
JP2000011096A (en) Character recognizing processor, its method and storage medium
JP2790064B2 (en) Symbol string reader
JPH10198761A (en) Character recognizing method and device therefor
GELBUKH et al. Error Detection and Correction in Toponym Recognition in Cartographic Maps
JPH0746363B2 (en) Drawing reader

Legal Events

Date Code Title Description
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080105

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090105

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100105

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110105

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120105

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130105

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees