JPH08171615A - Address reader - Google Patents

Address reader

Info

Publication number
JPH08171615A
JPH08171615A JP6317164A JP31716494A JPH08171615A JP H08171615 A JPH08171615 A JP H08171615A JP 6317164 A JP6317164 A JP 6317164A JP 31716494 A JP31716494 A JP 31716494A JP H08171615 A JPH08171615 A JP H08171615A
Authority
JP
Japan
Prior art keywords
place name
address
buffer
candidate
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6317164A
Other languages
Japanese (ja)
Other versions
JP2780654B2 (en
Inventor
Shunichi Fukushima
俊一 福島
Eiki Ishidera
永記 石寺
Hideki Shimomura
秀樹 下村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP6317164A priority Critical patent/JP2780654B2/en
Publication of JPH08171615A publication Critical patent/JPH08171615A/en
Application granted granted Critical
Publication of JP2780654B2 publication Critical patent/JP2780654B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PURPOSE: To exactly judge printing and to enable user to exactly and efficiently read it in the case of a printing character string by deciding the character string of the final address read result based on a place name part candidate buffer and an address part candidate buffer. CONSTITUTION: When a place name part candidate like printing character exists, the combination of the character candidates of an address part suited to attributes in a printing attribute buffer 9 and suited to the conditions of the address part in a place name table memory 5 is extracted from a recognized result buffer 4 by a printing character priority address part retrieving means 11. When no place name part candidate like printing character exists, the combination of the character candidates of the address part in the place name table memory 5 is extracted from the recognized result buffer 4 by a general address part retrieving means 10. An address part candidate buffer 12 stores the result of the printing priority address part retrieving means 11 or the result of the general address part retrieving means 10. Based on a place name part candidate buffer 7 and an address part candidate buffer 12, a final deciding means 12 decides the character string of the final address read result.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】入力されたイメージデータから地
名部と番地部から成る住所文字列を読み取る住所読み取
り装置に関する。なお、住所文字列の例として「神奈川
県川崎市宮前区宮崎4−1−1」や「港区芝五丁目7の
1」を挙げると、本明細書でいう地名部とは「神奈川県
川崎市宮前区宮崎」や「港区芝」を指し、番地部とは
「4−1−1」や「五丁目7の1」を指す。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an address reading device for reading an address character string consisting of a place name part and an address part from input image data. As examples of the address character string, "4-1-1 Miyazaki, Miyazaki-ku, Kawasaki-shi, Kanagawa" and "5-1, 7 Shiba, Minato-ku" are mentioned, and the place name part in this specification is "Kawasaki, Kanagawa-ken.""Miyazaki,Ichimae-ku" and "Shiba, Minato-ku" are referred to, and the address section is "4-1-1" and "5-chome 7-1".

【0002】[0002]

【従来の技術】図3は、従来の住所読み取り装置の構成
を示すブロック図である。
2. Description of the Related Art FIG. 3 is a block diagram showing the configuration of a conventional address reading device.

【0003】イメージ入力手段1は、地名部と番地部か
ら成る住所文字列の記載されたイメージデータを入力す
る。イメージバッファ2は、入力されたイメージデータ
を格納する。個別認識手段3は、イメージデータのなか
から1文字に相当するセグメントを切り出して、そのセ
グメントごとに個別の文字認識を行なう。認識結果バッ
ファ4は、個別認識手段3の結果を格納する。地名テー
ブルメモリ5は、読み取り対象の地名のリストと、各地
名に対応する番地部の条件を記憶する。地名部検索手段
6は、地名テーブルメモリ5を検索して、認識結果バッ
ファ4内の文字候補の組み合わせに対応する地名部候補
を抽出する。地名部候補バッファ7は、抽出された地名
部候補を格納する。一般番地部検索手段10は、認識結
果バッファ4から、地名テーブルメモリ5における番地
部の条件に適合する番地部の文字候補の組み合わせを抽
出する。番地部候補バッファ12は、一般番地部検索手
段10の結果を格納する。最終判定手段13は、地名部
候補バッファ7と番地部候補バッファ12をもとに、最
終的な住所読み取り結果の文字列を決定する。
The image input means 1 inputs image data in which an address character string consisting of a place name part and an address part is described. The image buffer 2 stores the input image data. The individual recognition means 3 cuts out a segment corresponding to one character from the image data, and individually recognizes each segment. The recognition result buffer 4 stores the result of the individual recognition means 3. The place name table memory 5 stores a list of place names to be read and conditions of an address part corresponding to each place name. The place name part search means 6 searches the place name table memory 5 and extracts place name part candidates corresponding to the combination of character candidates in the recognition result buffer 4. The place name part candidate buffer 7 stores the extracted place name part candidates. The general address part searching means 10 extracts, from the recognition result buffer 4, a combination of address part character candidates that match the conditions of the address part in the place name table memory 5. The address part candidate buffer 12 stores the result of the general address part search means 10. The final determination means 13 determines the final character string of the address read result based on the place name part candidate buffer 7 and the address part candidate buffer 12.

【0004】図4は、従来の住所読み取り装置の別な構
成を示すブロック図である。
FIG. 4 is a block diagram showing another structure of a conventional address reading device.

【0005】イメージ入力手段1は、地名部と番地部か
ら成る住所文字列の記載されたイメージデータを入力す
る。イメージバッファ2は、入力されたイメージデータ
を格納する。個別認識手段3は、イメージデータのなか
から1文字に相当するセグメントを切り出して、そのセ
グメントごとに個別の文字認識を行なう。認識結果バッ
ファ4は、個別認識手段3の結果を格納する。地名テー
ブルメモリ5は、読み取り対象の地名のリストと、各地
名に対応する番地部の条件を記憶する。地名部検索手段
6は、地名テーブルメモリ5を検索して、認識結果バッ
ファ4内の文字候補の組み合わせに対応する地名部候補
を抽出する。地名部候補バッファ7は、抽出された地名
部候補を格納する。一般番地部個別認識手段10は、イ
メージデータから番地部の1文字に相当するセグメント
を切り出して、そのセグメントごとに個別の文字認識を
行なう。番地部認識結果バッファ16は、一般番地部個
別認識手段14の結果を格納する。一般番地部検索手段
10は、認識結果バッファ4から、地名テーブルメモリ
5における番地部の条件に適合する番地部の文字候補の
組み合わせを抽出する。番地部候補バッファ12は、一
般番地部検索手段10の結果を格納する。最終判定手段
13は、地名部候補バッファ7と番地部候補バッファ1
2をもとに、最終的な住所読み取り結果の文字列を決定
する。
The image input means 1 inputs image data in which an address character string consisting of a place name part and an address part is described. The image buffer 2 stores the input image data. The individual recognition means 3 cuts out a segment corresponding to one character from the image data, and individually recognizes each segment. The recognition result buffer 4 stores the result of the individual recognition means 3. The place name table memory 5 stores a list of place names to be read and conditions of an address part corresponding to each place name. The place name part search means 6 searches the place name table memory 5 and extracts place name part candidates corresponding to the combination of character candidates in the recognition result buffer 4. The place name part candidate buffer 7 stores the extracted place name part candidates. The general address part individual recognition means 10 cuts out a segment corresponding to one character of the address part from the image data, and performs individual character recognition for each segment. The address part recognition result buffer 16 stores the result of the general address part individual recognition means 14. The general address part searching means 10 extracts, from the recognition result buffer 4, a combination of address part character candidates that match the conditions of the address part in the place name table memory 5. The address part candidate buffer 12 stores the result of the general address part search means 10. The final determination means 13 includes a place name section candidate buffer 7 and an address section candidate buffer 1.
Based on 2, the final character string of the address reading result is determined.

【0006】図3の従来構成と図4の従来構成とでは、
番地部の文字切り出し・文字認識に違いがある。図3の
構成では、番地部も地名部と同じ文字切り出し・文字認
識の結果(認識結果バッファ3)を処理対象とするのに
対して、図4の構成では、番地部は地名部とは別に改め
て文字切り出し・文字認識を実行して、その結果(番地
部認識結果バッファ16)を処理対象としている。
In the conventional configuration of FIG. 3 and the conventional configuration of FIG. 4,
There is a difference in the character cutting and character recognition of the address part. In the configuration of FIG. 3, the address part has the same character segmentation / character recognition result (recognition result buffer 3) as the place name part, but in the configuration of FIG. 4, the address part is separate from the place name part. Character extraction and character recognition are executed again, and the result (address part recognition result buffer 16) is processed.

【0007】図5は地名テーブルメモリ5の内容の例で
ある。東京都品川区の住所構成をもとにした。地名テー
ブル56は、地名のリスト56と番地部の条件57をも
つ。
FIG. 5 shows an example of the contents of the place name table memory 5. Based on the address structure of Shinagawa-ku, Tokyo. The place name table 56 has a list 56 of place names and a condition 57 of an address part.

【0008】地名のリスト56には、都道府県名50、
市区名51、町名52などの地名が、その階層関係も併
せて登録されている。住所読み取りの対象とする地域に
よっては、郡名、大字名、字名などを含む場合もある。
The list 56 of place names includes prefecture names 50,
Place names such as city name 51 and town name 52 are also registered together with their hierarchical relationships. Depending on the area where the address is read, it may include a county name, an abbreviated name, or a character name.

【0009】番地部の条件57には、各町名52に対す
る丁目・番・号の各々として許される値の範囲が記述さ
れている。例えば、図5の「荏原」の場合、丁目は1丁
目から7丁目まであり、番は1〜50、号は1〜9の範
囲の値が許されるということを表わしている。
The condition 57 of the address part describes the range of values permitted as each chome, number, and number for each town name 52. For example, in the case of "EBARA" in FIG. 5, the number of chomes is from 1 to 7, and numbers 1 to 50 and numbers 1 to 9 are allowed.

【0010】図5の例においては、番地部は丁目・番・
号で構成されるものとしているが、町名52によって
は、番地・号というタイプもある。そのような場合は、
タイプの区別(丁目・番・号タイプか、番地・号タイプ
か)を付与したり、あるいは、丁目・番・号のうちの1
項目の値を使用しない(値を0にするなど)といった方
法がとられている。
In the example of FIG. 5, the address part is a claw, a number,
Although it is assumed to be composed of a number, depending on the town name 52, there is also a type of address / number. In such cases,
Add type distinction (chome / ban / go type or street / go type), or 1 of chome / ban / go
The method of not using the value of the item (for example, setting the value to 0) is adopted.

【0011】地名部検索手段6は、認識結果バッファ4
内の文字候補の組み合わせ(隣接するセグメントに対す
る文字候補を組み合わせたもの)と、上述のような地名
テーブルメモリ5の地名のリスト56内の地名の文字列
と照合し、かつ、地名の階層関係と矛盾を生じないよう
な地名の並びを、地名部の候補として地名部候補バッフ
ァ7に出力する。
The place name part searching means 6 is provided in the recognition result buffer 4
The combination of the character candidates in the place name (a combination of character candidates for adjacent segments) is collated with the character string of the place name in the place name list 56 of the place name table memory 5 as described above, and the place name hierarchical relationship is obtained. The place name sequence that does not cause contradiction is output to the place name part candidate buffer 7 as a place name part candidate.

【0012】一般番地部検索手段10は、認識結果バッ
ファ4(図3の構成の場合)あるいは番地部認識結果バ
ッファ16(図4の構成の場合)内の文字候補を組み合
わせて、番地部の文字列を形成する。その際、地名部候
補バッファ7の地名部候補を参照することで、番地部の
文字列の形成にいくつかの制約条件を加える。
The general address part searching means 10 combines the character candidates in the recognition result buffer 4 (in the case of the configuration of FIG. 3) or the address part recognition result buffer 16 (in the case of the configuration of FIG. 4) to combine the characters of the address part. Form a row. At that time, by referring to the place name part candidates in the place name part candidate buffer 7, some constraint conditions are added to the formation of the character string of the address part.

【0013】第一の制約条件は、地名部候補の末尾位置
を知り、番地部を、その直後の位置から形成するように
制御することである。
The first constraint condition is to know the end position of the place name part candidate and control to form the address part from the position immediately after that.

【0014】第二の制約条件は、地名部候補に対応する
番地部の条件を地名テーブルメモリ5から知り、それを
満たすように丁目・番・号の各数字列を組み合わせるこ
とである。
The second constraint condition is that the condition of the address part corresponding to the candidate place name part is known from the place name table memory 5, and the number strings of chome, number and number are combined so as to satisfy the condition.

【0015】さらに、地名部候補には依存しないが、
「丁目」「番」「号」「番地」「の」「ノ」「−」な
ど、数字列を区切るセパレータの並びや組み合わせが不
自然でないかも、番地部の文字列形成における制約条件
として利用される。このような番地部の制約条件を満た
した文字列が、番地部候補として番地部候補バッファ1
2に出力される。
Further, although it does not depend on the place name part candidate,
Even if the arrangement or combination of the separators that delimit the number strings such as "chome", "ban", "go", "street number", "no", "no", "-" is not unnatural, it is used as a constraint condition in the character string formation of the address part. It A character string satisfying such a restriction condition of the address part is the address part candidate buffer 1 as the address part candidate.
2 is output.

【0016】以上のような従来の住所読み取り装置およ
び各構成要素の実現方法は、例えば、「日本郵政省向け
郵便物あて名自動読取区分機」(石川ほか、NEC技
報、第44巻第3号、1991年)、「郵便物あて名自
動読取区分機TR−17」(鳥本ほか、東芝レビュー、
第45巻第2号、1990年)、特開平5−32489
9号公報「郵便物記載住所認識装置」、特開平3−18
9780号公報「住所認識装置」、特開平6−1243
66号公報「住所読取装置」、特開平5−169033
「宛名読取装置」などに記載されている。
The conventional address reading device and the method of realizing each component described above are described, for example, in "Automatic reading / sorting machine for mail address for Japan Post" (Ishikawa et al., NEC Technical Report, Vol. 44, No. 3). , 1991), "Automatic reading / sorting machine for mailing name TR-17" (Torimoto et al., Toshiba review,
Vol. 45, No. 2, 1990), JP-A-5-32489
Japanese Unexamined Patent Application Publication No. 9- "Postal item address recognition device", JP-A-3-18
No. 9780, "Address Recognition Device", JP-A-6-1243.
No. 66, "Address Reader", Japanese Patent Laid-Open No. 5-169033
It is described in "Address Reader" or the like.

【0017】[0017]

【発明が解決しようとする課題】帳票などにおいて、あ
らかじめ設けられた文字枠内に記入された住所文字列に
ついては、文字切り出しは比較的容易である。しかし、
郵便物などのように文字枠の設けられないものも多く、
住所を記入する側の立場になれば、文字枠などに制約さ
れずに記入できる方が便利である。したがって、文字枠
を設けずに自由に書かれた住所文字列を対象として、文
字切り出しを正確に行なえることが必要になってきてい
る。
It is relatively easy to cut out a character string of an address character string entered in a character frame provided in advance in a form or the like. But,
There are many things such as mail that do not have a character frame,
From the standpoint of address entry side, it is more convenient to be able to enter the address without being restricted by letter boxes. Therefore, it is necessary to accurately perform character segmentation on an address character string that is freely written without providing a character frame.

【0018】その一方で、ワープロの普及や各種業務の
電子化の進展を背景に、印活タイプの比率も多くなって
きている。印活文字列の場合、文字サイズやピッチの均
一性から、手書き文字列に比較すると、文字切り出しは
容易である。文字切り出しに関する従来手法について
は、特開平5−166099号公報「文字切り出し・認
識方法及び装置」、特開平5−128307号公報「文
字認識装置」などに記載されている。
On the other hand, the ratio of printing type is increasing due to the spread of word processors and the progress of computerization of various operations. In the case of a printed character string, it is easier to cut out a character than a handwritten character string because of the uniformity of character size and pitch. A conventional method for character extraction is described in Japanese Patent Laid-Open No. 5-166099 “Character cutting / recognition method and apparatus”, Japanese Patent Laid-Open No. 5-128307 “Character recognition apparatus” and the like.

【0019】しかし、手書きのものと印活のものとは混
在した状態で処理されるのが一般的であり、事前に手書
きか印活かを指定して処理を切り換えることで済むよう
なケースは少ない。
However, it is general that the handwriting and the printing are processed in a mixed state, and there are few cases in which the processing can be switched by designating handwriting or printing in advance. .

【0020】これに対して、前述のような従来の住所読
み取り装置では、手書きと印活は区別なく処理するよう
になっている。そのため、印活文字列についても、手書
き文字列と同様に、多様な文字サイズ・ピッチを想定し
た文字切り出しが行なわれる。
On the other hand, in the conventional address reading device as described above, handwriting and printing are processed without distinction. Therefore, with respect to the printed character string, the character segmentation is performed assuming various character sizes and pitches similarly to the handwritten character string.

【0021】そのような場合、住所の番地部の文字列で
は、次のような問題が発生する。
In such a case, the following problem occurs in the character string of the address part of the address.

【0022】第一の問題は、特に縦書きの「二」「三」
などについて、多数の可能性が発生してしまい、その競
合により番地部の読み取り結果を一意に決定できなくな
ってしまうことである。例えば、縦書きで「三」と書か
れた場合、「一一一」「一二」「二一」「三」などの可
能性が発生してしまう。もし、印活文字列だということ
がわかれば、文字サイズやピッチの条件を使って、「一
一一」「一二」「二一」などの候補は棄却して、一意に
「三」に決定できる。
The first problem is the vertical writing of "two" and "three".
For example, a lot of possibilities occur, and it is impossible to uniquely determine the reading result of the address part due to the competition. For example, if "3" is written vertically, there is a possibility that "11", "12", "21", "3", etc. will occur. If it is known that it is an Inprint character string, using the conditions of character size and pitch, reject candidates such as "11-11", "12", "21", and uniquely set to "3". I can decide.

【0023】第二の問題は、印活文字(特にワープロ文
字)では、「二」や「三」の上下の横棒が文字サイズの
上端/下端ギリギリに位置するようにデザインされてい
るものが多く、単純に線分の間隔だけに着目して文字切
り出しを行なうと、前後の文字に結合しやすいことであ
る。図6に、この問題による誤切り出しの例を示した。
「品川区荏原二丁目」という印活文字列に対して、図6
(a)が正しい切り出し結果である。それに対して、図
6(b)では「二」の上側の横棒が直前の「原」のセグ
メントに含まれてしまっており、図6(c)の例では
「二」の下側の横棒が直後の「丁」のセグメントに含ま
れてしまっている。その結果、(b)(c)の場合の住
所読み取り結果は、「品川区荏原一丁目」という誤った
結果となってしまう(文字認識方式によっては、縦書き
の「原一」をまとめて「原」、縦書きの「一丁」をまと
めて「丁」と認識することは大いにあり得る)。
The second problem is that in print characters (especially word processing characters), the horizontal bars above and below "two" and "three" are designed to be positioned at the upper and lower ends of the character size. In many cases, if the character segmentation is performed simply by paying attention to only the space between line segments, it is easy to combine the characters with the preceding and succeeding characters. FIG. 6 shows an example of erroneous clipping due to this problem.
Figure 6 for the stamp character string "Ebara 2-chome, Shinagawa-ku"
(A) is a correct cutting result. On the other hand, in Fig. 6 (b), the horizontal bar above "2" is included in the immediately preceding "original" segment, and in the example of Fig. 6 (c), the horizontal bar below "2" is included. The stick is included in the "Ding" segment immediately after. As a result, in the case of (b) and (c), the result of reading the address will be an erroneous result of "Ebara 1-chome, Shinagawa-ku". It is very likely that "hara" and vertically written "ichi" are collectively recognized as "cho."

【0024】このような手書きと印活の混在時の問題に
対して、図3や図4のような従来の住所読み取り装置の
構成では、次のような2通りの対策が考えられる。
With respect to the problem when the handwriting and the printing are mixed, the following two countermeasures can be considered in the configuration of the conventional address reading device as shown in FIGS. 3 and 4.

【0025】第一の対策は、個別認識手段3において、
手書きか印活かの判断を行なって、それを文字切り出し
に反映させる方法である。
The first measure is that the individual recognition means 3
This is a method of determining whether it is handwriting or printing and reflecting it in the character segmentation.

【0026】第二の対策は、手書き/印活を気にせず
に、個別認識手段3、地名部検索手段6、一般番地部個
別認識手段14、一般番地部検索手段10などを動作さ
せ、最終判定手段13の段階で地名部候補や番地部候補
の選択方法を工夫するという方法である。
The second measure is to operate the individual recognizing means 3, the place name part retrieving means 6, the general address part individual recognizing means 14, the general address part retrieving means 10, etc. without worrying about handwriting / printing, and finally. This is a method of devising a method of selecting a place name part candidate or an address part candidate at the stage of the determination means 13.

【0027】しかし、これら2通りの対策には、次のよ
うな欠点がある。
However, these two measures have the following drawbacks.

【0028】第一の対策の欠点は、個別認識手段3の段
階で、手書きか印活かを正確に判断するには限界がある
ことである。個別認識手段3の段階で、手書きか印活か
を判断するとすれば、文字の切り出し方の可能性のなか
で等サイズ・等ピッチのものがとれれば、印活と判定
し、そうでなければ手書き判定するようなことになる。
しかし、等サイズ・等ピッチなどの物理的な条件だけで
判断すると、手書き文字列を強引に細切れにして等サイ
ズ・等ピッチのセグメントを切り出してしまったり、印
活文字列でも複数の切り出し可能性が生じて、誤ったポ
イントで切り出ししてしまうこともある。図7は、
(a)が正しい切り出し方であるのに対して、(b)
(c)は等サイズ・等ピッチでも誤った切り出しとなっ
てしまった例である。
The drawback of the first measure is that there is a limit to the accurate judgment of handwriting or printing at the stage of the individual recognition means 3. If it is judged at the stage of the individual recognition means 3 whether it is handwriting or printing, if it is possible to cut out the characters with equal size and pitch, it is judged as printing, and if not, it is handwritten. It will be decided.
However, if only the physical conditions such as equal size and equal pitch are used for judgment, the handwritten character string will be forcibly cut into small segments of equal size and equal pitch, or even multiple characters may be cut out from a printed character string. Occasionally, it may cut out at the wrong point. FIG.
While (a) is the correct cutting method, (b)
(C) is an example in which erroneous cutting is performed even with the same size and the same pitch.

【0029】第二の対策の欠点は、印活文字列の場合で
も、多数の地名部候補や番地部候補が発生して、処理に
時間がかかることである。文字切り出しに多数の候補が
発生すると、その結果を対象とした後続の処理は、一般
に組み合わせ的に処理量が増大する。郵便物の宛名住所
の読み取りなどの場合には、1通の住所読み取りに対し
て制限時間が与えられることになっており、組み合わせ
が多くなると、制限時間内に処理できなくなってしま
う。
The disadvantage of the second measure is that even in the case of a print character string, a lot of place name part candidates and address part candidates are generated, and it takes time to process. When a large number of candidates for character extraction occur, the subsequent processing targeting the result generally increases the processing amount in a combinatorial manner. In the case of reading the address of the mail, the time limit is given to one address read, and if the number of combinations increases, the processing cannot be performed within the time limit.

【0030】そこで、本発明では、上述のような従来の
住所読み取り装置の欠点を除去し、手書き文字列か印活
文字列かの指定が外から与えられなくとも、正確に印活
判定を行ない、印活文字列であった場合は、その特性
(等サイズ・等ピッチなど)を生かして、正確で効率の
良い読み取りを実現することを目的とする。
In view of the above, the present invention eliminates the drawbacks of the conventional address reading device as described above, and makes accurate printing judgment even if the designation of a handwritten character string or a stamp character string is not given from the outside. If the character string is a print character string, it is an object to realize accurate and efficient reading by utilizing its characteristics (equal size, equal pitch, etc.).

【0031】[0031]

【課題を解決するための手段】第一の発明は、入力され
たイメージデータから地名部と番地部から成る住所文字
列を読み取る住所読み取り装置において、前記イメージ
データのなかから1文字に相当するセグメントを切り出
して該セグメントごとに個別の文字認識を行なう個別認
識手段と、前記個別認識手段の結果を格納する認識結果
バッファと、読み取り対象の地名のリストと該地名に対
応する番地部の条件を登録した地名テーブルメモリと、
前記地名テーブルメモリを検索して前記認識結果バッフ
ァ内の文字候補の組み合わせに対応する地名部候補を抽
出する地名部検索手段と、前記地名部候補を格納する地
名部候補バッファと、前記地名部候補を構成する文字列
の印活らしさを判定して印活らしい地名部候補が存在す
る場合は前記地名部候補のなかで該印活らしい地名部候
補を優先する印活性判定手段と、前記印活らしい地名部
候補の属性を格納する印活属性バッファと、前記印活ら
しい地名部候補が存在した場合に前記認識結果バッファ
から前記印活属性バッファ内の属性と前記地名テーブル
メモリにおける番地部の条件に適合する番地部の文字候
補の組み合わせを抽出する印活優先番地部検索手段と、
前記印活らしい地名部候補が存在しなかった場合に前記
認識結果バッファから前記地名テーブルメモリにおける
番地部の条件に適合する番地部の文字候補の組み合わせ
を抽出する一般番地部検索手段と、前記印活優先番地部
検索手段の結果または前記一般番地部検索手段の結果を
格納する番地部候補バッファと、前記地名部候補バッフ
ァと前記番地部候補バッファをもとに最終的な住所読み
取り結果の文字列を決定する最終判定手段とを備えるこ
とを特徴とする住所読み取り装置である。
According to a first aspect of the present invention, in an address reading device for reading an address character string consisting of a place name part and an address part from input image data, a segment corresponding to one character in the image data. An individual recognition unit that cuts out and recognizes individual characters for each segment, a recognition result buffer that stores the result of the individual recognition unit, a list of place names to be read, and a condition of an address part corresponding to the place name are registered. And the place name table memory
A place name part search means for searching the place name table memory to extract a place name part candidate corresponding to a combination of character candidates in the recognition result buffer, a place name part candidate buffer for storing the place name part candidate, and the place name part candidate If there is a place name part candidate that seems to be in print by determining the print impression of the character string that constitutes, the print activity determination means that prioritizes the place name part candidate that seems to be the print place among the place name part candidates, Stamp attribute buffer that stores the attributes of the likely place name part candidates, and the conditions of the address part in the place name table memory and the attributes in the stamp attribute buffer from the recognition result buffer when the likely place name part candidates exist Inquiry priority address part search means for extracting a combination of character candidates of the address part that conforms to,
A general address part searching means for extracting a combination of address part character candidates that meet the conditions of the address part in the place name table memory from the recognition result buffer when there is no place name part candidate that seems to be stamped; An address part candidate buffer for storing the result of the live priority address part search means or the result of the general address part search means, and a character string of the final address read result based on the place name part candidate buffer and the address part candidate buffer An address reading device comprising a final determination means for determining.

【0032】第二の発明は、入力されたイメージデータ
から地名部と番地部から成る住所文字列を読み取る住所
読み取り装置において、前記イメージデータのなかから
1文字に相当するセグメントを切り出して該セグメント
ごとに個別の文字認識を行なう個別認識手段と、前記個
別認識手段の結果を格納する認識結果バッファと、読み
取り対象の地名のリストと該地名に対応する番地部の条
件を登録した地名テーブルメモリと、前記地名テーブル
メモリを検索して前記認識結果バッファ内の文字候補の
組み合わせに対応する地名部候補を抽出する地名部検索
手段と、前記地名部候補を格納する地名部候補バッファ
と、前記地名部候補を構成する文字列の印活らしさを判
定して印活らしい地名部候補が存在する場合は前記地名
部候補のなかで該印活らしい地名部候補を優先する印活
性判定手段と、前記印活らしい地名部候補の属性を格納
する印活属性バッファと、前記印活らしい地名部候補が
存在した場合に前記イメージデータから前記印活属性バ
ッファ内の属性に適合するように番地部の1文字に相当
するセグメントを切り出して該セグメントごとに個別の
文字認識を行なう印活優先番地部個別認識手段と、前記
印活らしい地名部候補が存在しなかった場合に前記イメ
ージデータから番地部の1文字に相当するセグメントを
切り出して該セグメントごとに個別の文字認識を行なう
一般番地部個別認識手段と、前記印活優先番地部個別認
識手段の結果または前記一般番地部個別認識手段の結果
を格納する番地部認識結果バッファと、前記番地部認識
結果バッファから前記地名テーブルメモリにおける番地
部の条件に適合する番地部の文字候補の組み合わせを抽
出する一般番地部検索手段と、前記一般番地部検索手段
の結果を格納する番地部候補バッファと、前記地名部候
補バッファと前記番地部候補バッファをもとに最終的な
住所読み取り結果の文字列を決定する最終判定手段とを
備えることを特徴とする住所読み取り装置である。
A second invention is an address reading device for reading an address character string consisting of a place name part and an address part from input image data, and a segment corresponding to one character is cut out from the image data and each segment is segmented. An individual recognition means for individually recognizing characters, a recognition result buffer for storing the result of the individual recognition means, a list of place names to be read, and a place name table memory in which conditions of an address part corresponding to the place names are registered, A place name part search means for searching the place name table memory to extract a place name part candidate corresponding to a combination of character candidates in the recognition result buffer, a place name part candidate buffer for storing the place name part candidate, and the place name part candidate If there is a place name part candidate that is likely to be printed by judging the printing impression of the character string forming the A seal activation determining unit that gives priority to a lively place name part candidate, a print job attribute buffer that stores an attribute of the printable place name part candidate, and a stamp from the image data when the printable place name part candidate exists. Indicating priority address individual recognizing means for cutting out a segment corresponding to one character of the address so as to match the attribute in the live attribute buffer and recognizing individual characters for each segment, and the place name part candidate likely to be in printing If there is not, a segment corresponding to one character of the address part is cut out from the image data and individual character recognition is performed for each segment, and the printing priority address part individual recognition means. Address result recognition buffer storing the result of the above or the result of the general address individual recognition means, and the address table from the address recognition result buffer General address part search means for extracting a combination of address part character candidates that match the conditions of the address part in memory, an address part candidate buffer for storing the result of the general address part search means, the place name part candidate buffer, and the An address reading device, comprising: final determination means for determining a character string of a final address reading result based on an address part candidate buffer.

【0033】[0033]

【作用】本発明では、いったん地名部候補を抽出した後
で、その地名部候補の印活らしさを判定する。そして、
印活らしい地名部候補が存在した場合は、それを優先す
る。さらに、印活らしい地名部候補が得られたときは、
その地名部候補に関する文字サイズやピッチなどの属性
を利用して、番地部の処理を行なう。
In the present invention, the place name part candidate is once extracted, and then the impression of the place name part candidate is judged. And
If there is an Inzai-like candidate for a place name, it will be given priority. Furthermore, when a place name club candidate that seems to be Inzai was obtained,
The address part is processed by using the attributes such as the character size and pitch regarding the place name part candidate.

【0034】地名部候補の印活らしさの情報を利用して
番地部の文字切り出しの候補を絞り込むため、手書き/
印活の区別をしない場合の従来の欠点として指摘した前
述の2点を除去している。すなわち、印活文字の「三」
を「一一一」や「一二」や「二一」と分割してしまうこ
とはなくなり、図6(c)のような地名部の文字サイズ
・ピッチと整合の悪い番地部の切り出しは棄却できる。
In order to narrow down the candidates for character cutting out of the address part by using the information on the impression of the place name part candidates, handwriting / writing
The above-mentioned two points which have been pointed out as the conventional defects when the printing is not distinguished are removed. In other words, the print letter "three"
Will no longer be divided into "11", "12", and "21", and the cutout of the address part that does not match the character size and pitch of the place name part as shown in Fig. 6 (c) will be rejected. it can.

【0035】また、地名部候補を求めた後で、印活らし
いものを優先するようにしているため、従来の第一の対
策のもつ問題を除去できる。すなわち、等サイズ・等ピ
ッチであっても、図7の(b)(c)のような間違った
文字切り出しは、文字候補の組み合わせとして地名部候
補ができようがないため、排除することができる。図6
(b)のような地名部の切り出しに対して地名部候補が
読めてしまっても、それは「原一」の部分で文字サイズ
・ピッチの乱れを生じているから、図6(a)のような
等サイズ・等ピッチの地名部候補が存在すれば、(b)
は排除されて(a)が優先されることになる。
Further, since the place name portion candidates are obtained, the ones that are likely to be printed are prioritized, so that the problem of the first conventional measure can be eliminated. That is, even with the same size and the same pitch, a wrong character cutout as shown in (b) and (c) of FIG. 7 can be eliminated because a place name part candidate cannot be formed as a combination of character candidates. . Figure 6
Even if the place name part candidate is readable for the cut-out of the place name part as shown in (b), the character size / pitch is disturbed in the "Haraichi" part, so as shown in FIG. 6 (a). If there is a place name part candidate of equal size and pitch, (b)
Will be excluded and priority will be given to (a).

【0036】さらに、地名部候補を求めた段階で印活性
にもとづいて番地部の余分な候補形成を抑制するので、
従来の第二の対策の欠点であった処理効率の悪さも除去
できている。
Furthermore, since the formation of extra candidates for the address part is suppressed based on the sign activity at the stage of obtaining the candidates for the place name part,
The poor processing efficiency, which was the drawback of the conventional second measure, can be eliminated.

【0037】[0037]

【実施例】図1は、第一の発明の一実施例の構成を示す
ブロック図である。
1 is a block diagram showing the configuration of an embodiment of the first invention.

【0038】イメージ入力手段1は、地名部と番地部か
ら成る住所文字列の記載されたイメージデータを入力す
る。イメージバッファ2は、入力されたイメージデータ
を格納する。個別認識手段3は、イメージデータのなか
から1文字に相当するセグメントを切り出して、そのセ
グメントごとに個別の文字認識を行なう。認識結果バッ
ファ4は、個別認識手段3の結果を格納する。地名テー
ブルメモリ5は、読み取り対象の地名のリストと、各地
名に対応する番地部の条件を記憶する。地名部検索手段
6は、地名テーブルメモリ5を検索して、認識結果バッ
ファ4内の文字候補の組み合わせに対応する地名部候補
を抽出する。地名部候補バッファ7は、抽出された地名
部候補を格納する。印活性判定手段8は、地名部候補バ
ッファ7内の地名部候補について、それを構成する文字
列の印活らしさを判定し、印活らしい地名部候補が存在
する場合は、地名部候補のなかで印活らしい地名部候補
を優先するように、地名部候補バッファ7の内容を書き
換える。印活属性バッファ8は、印活性判定手段7の検
出した印活らしい地名部候補の属性を格納する。印活優
先番地部検索手段11は、印活らしい地名部候補が存在
した場合に、認識結果バッファ4から、印活属性バッフ
ァ9内の属性に適合し、かつ、地名テーブルメモリ5に
おける番地部の条件にも適合する番地部の文字候補の組
み合わせを抽出する。一般番地部検索手段10は、印活
らしい地名部候補が存在しなかった場合に、認識結果バ
ッファ4から、地名テーブルメモリ5における番地部の
条件に適合する番地部の文字候補の組み合わせを抽出す
る。番地部候補バッファ12は、印活優先番地部検索手
段11の結果または一般番地部検索手段10の結果を格
納する。最終判定手段13は、地名部候補バッファ7と
番地部候補バッファ12をもとに、最終的な住所読み取
り結果の文字列を決定する。
The image input means 1 inputs image data in which an address character string including a place name part and an address part is described. The image buffer 2 stores the input image data. The individual recognition means 3 cuts out a segment corresponding to one character from the image data, and individually recognizes each segment. The recognition result buffer 4 stores the result of the individual recognition means 3. The place name table memory 5 stores a list of place names to be read and conditions of an address part corresponding to each place name. The place name part search means 6 searches the place name table memory 5 and extracts place name part candidates corresponding to the combination of character candidates in the recognition result buffer 4. The place name part candidate buffer 7 stores the extracted place name part candidates. The printing activity determination means 8 determines the printing activity of the character string that constitutes the printing site name candidate in the printing site name candidate buffer 7, and if there is a printing site name candidate that seems to be printing activity, it is one of the printing site name candidates. The contents of the place name part candidate buffer 7 are rewritten so that the place name part candidates that are likely to be printed are prioritized. The stamp activity attribute buffer 8 stores the attribute of the place name portion candidate which seems to be the stamp activity detected by the stamp activity determination means 7. When there is a place name part candidate that seems to be a seal, the print priority address part search means 11 matches the attribute in the print attribute buffer 9 from the recognition result buffer 4 and stores the address part in the place name table memory 5. A combination of character candidates of the address part that also meets the conditions is extracted. The general address part searching means 10 extracts a combination of address part character candidates that meet the conditions of the address part in the place name table memory 5 from the recognition result buffer 4 when there is no place name part candidate that seems to be printing. . The address part candidate buffer 12 stores the result of the printing priority address part searching means 11 or the result of the general address part searching means 10. The final determination means 13 determines the final character string of the address read result based on the place name part candidate buffer 7 and the address part candidate buffer 12.

【0039】これらの構成要素のうち、イメージ入力手
段1、イメージバッファ2、個別認識手段3、認識結果
バッファ4、地名テーブルメモリ5、地名部検索手段
6、地名部候補バッファ7、一般番地部検索手段10、
番地部候補バッファ12、最終判定手段13の各々は、
図3の従来の住所読み取り装置と同様の構成要素であ
る。新規の構成要素は、印活性判定手段8、印活属性バ
ッファ9、印活優先番地部検索手段11の3つである。
Among these components, the image input means 1, the image buffer 2, the individual recognition means 3, the recognition result buffer 4, the place name table memory 5, the place name part searching means 6, the place name part candidate buffer 7, and the general address part search. Means 10,
Each of the address part candidate buffer 12 and the final determination means 13 is
The components are the same as those of the conventional address reading device shown in FIG. The three new components are the stamp activation determination means 8, the stamp attribute buffer 9, and the stamp priority address part searching means 11.

【0040】これら3つの構成要素について説明する。These three components will be described.

【0041】印活性判定手段8は、まず、地名部候補バ
ッファ7内の地名部候補について、それを構成する文字
列の印活らしさを判定する。この印活らしさの判定は、
各地名部候補を構成する文字(セグメント)の、例え
ば、次のような点に着目すればよい。印活らしい場合
は、これらの着眼点の各々についてYESと判定され
る。 (A)セグメントの中心点が文字列方向に一直線に並ん
でいるか。 (B)セグメントの中心点の間隔(ピッチ)が均等か。 (C)セグメントのサイズが安定しているか。 (D)セグメントの幅が安定しているか。
First, the print activation determining means 8 determines the print activity of the character strings forming the place name part candidates in the place name part candidate buffer 7. This impression of impression is
For example, the following points of the characters (segments) forming the place name department candidates may be focused on. If it is likely to be an impression, it is determined to be YES for each of these viewpoints. (A) Are the center points of the segments aligned in the character string direction? (B) Are the intervals (pitch) between the center points of the segments uniform? (C) Is the segment size stable? (D) Is the segment width stable?

【0042】図8(a)には、印活らしいと判定される
例を示し、併せて、セグメント40の中心点41、ピッ
チ42、サイズ43、幅44などの意味も図示した。文
字切り出しの段階で、各セグメントの座標情報は得られ
ているので、中心点、ピッチ、サイズ、幅などは容易に
計算できる。
FIG. 8A shows an example in which it is determined that the printing is likely to be made, and the meanings of the center point 41 of the segment 40, the pitch 42, the size 43, the width 44, etc. are also shown. Since the coordinate information of each segment is obtained at the stage of character extraction, the center point, pitch, size, width, etc. can be easily calculated.

【0043】(A)は、各文字の中心点について、文字
列方向と垂直な方向の座標値の最大と最小との差分が一
定値以内に収まるかどうかを計算すればよい。図8
(b)は、その最大と最小の差分が大きくて、印活らし
いとは判定できない場合の例である。
In (A), it is sufficient to calculate whether or not the difference between the maximum and minimum coordinate values in the direction perpendicular to the character string direction is within a fixed value for the center point of each character. FIG.
(B) is an example in which the difference between the maximum and the minimum is large, and it cannot be determined that the printing is likely to be performed.

【0044】(B)は、中心点の文字列方向の座標の差
分を順次にとって、ピッチを計算し、そのピッチの最大
と最小の差分が一定値以内に収まるかどうかを判定すれ
ばよい。図8(c)は、ピッチのばらつきが大きくて、
印活らしいとは判定できない場合の例である。
In (B), the difference between the coordinates of the center point in the character string direction is sequentially calculated, the pitch is calculated, and it is determined whether the difference between the maximum and the minimum of the pitch falls within a fixed value. In FIG. 8C, the variation in pitch is large,
This is an example in the case where it cannot be determined that it seems to be Inzai.

【0045】(C)(D)も同様に、セグメントの頂点
の座標の差分からサイズや幅を計算して、そのばらつき
を調べる。ただし、サイズや幅の場合は、「一」や
「1」などのように値の小さくなる文字もあるので、そ
れらについては例外的に扱う必要がある。
Similarly, in (C) and (D), the size and width are calculated from the difference between the coordinates of the vertices of the segment, and the variation is checked. However, in the case of size and width, there are characters such as "one" and "1" that have smaller values, so it is necessary to handle them exceptionally.

【0046】また、印活らしさの判定の基準として、必
ずしも、(A)(B)(C)(D)のすべての点を満た
すことを条件にしなくともよい。最初から判定項目を絞
っておいてもよいし、判定項目のうちのいくつかを満た
せばよいものとしてもよい。また、上記の(A)(B)
(C)(D)以外の条件を導入してもよい。
Further, as a criterion for determining the impression of printing, it is not always necessary to satisfy all the points (A), (B), (C) and (D). The determination items may be narrowed down from the beginning, or some of the determination items may be satisfied. In addition, the above (A) (B)
Conditions other than (C) and (D) may be introduced.

【0047】さらに、印活性判定手段8は、印活らしい
地名部候補が存在した場合に、地名部候補のなかで印活
らしい地名部候補を優先するように、地名部候補バッフ
ァ7の内容を書き換える。この書き換え方は、例えば、
次のような方法などが考えられる。 (1)印活らしい地名部候補のみを残して、他の地名部
候補を削除する。 (2)各地名部候補について、その優先度を格納できる
ように地名部候補バッファ7内に領域を用意しておき、
印活らしい地名部候補が存在した場合には、その候補の
優先度が他の候補の優先度よりも相対的に高くなるよう
に値をセットする。
Further, when there is a place name part candidate that seems to be Inzai, the mark activation determining means 8 changes the contents of the place name part candidate buffer 7 so as to give priority to the place name part candidate that seems to be Inkaku among the place name part candidates. rewrite. This rewriting method is, for example,
The following methods are possible. (1) Only the place name part candidates that are likely to be Inzai are left, and other place name part candidates are deleted. (2) For each place name division candidate, an area is prepared in the place name division candidate buffer 7 so that the priority can be stored,
When there is a place name part candidate that seems to be Inzai, a value is set so that the priority of the candidate is relatively higher than the priority of other candidates.

【0048】例えば、印活性判定手段8を実行する前に
地名部候補バッファ7に、図6(a)の地名部と図6
(b)の地名部のような2通りの候補が存在したとす
る。このとき、印活性判定手段8では、(a)は印活ら
しいが、(b)は印活らしくないと判定し、上記の
(1)のような書き換え方法をとったとすると、地名部
候補バッファ7から(b)の候補が削除されることにな
る。
For example, the place name part of FIG. 6A and the place name part of FIG.
It is assumed that there are two types of candidates such as the place name part in (b). At this time, the seal activation determination means 8 determines that (a) is likely to be active, but (b) is not likely to be active, and if the rewriting method as described in (1) above is adopted, the place name portion candidate buffer is used. 7 to (b) candidates will be deleted.

【0049】印活属性バッファ9には、印活性判定手段
8で求めた属性のうち、印活優先番地検索手段11(あ
るいは第二の発明の印活優先番地部個別認識手段15)
で用いる属性を格納する。本実施例では、例えば、印活
らしいと判定された地名部候補の末尾文字の中心点の座
標、中心点の間隔(ピッチ)、セグメントのサイズを属
性として格納するものとする。
In the stamp activation attribute buffer 9, among the attributes obtained by the stamp activation determining means 8, the stamp priority address searching means 11 (or the stamp priority address individual recognizing means 15 of the second invention).
Stores the attributes used in. In the present embodiment, for example, the coordinates of the center points of the last characters of the place name part candidates determined to be printing impressions, the intervals (pitch) of the center points, and the segment size are stored as attributes.

【0050】印活優先番地部検索手段11は、一般番地
部検索手段10と同様に、認識結果バッファ4から番地
部の条件に適合する番地部の文字候補の組み合わせを抽
出する。その際に、一般番地部検索手段10は、地名テ
ーブルメモリ5における番地部の条件との適合性のみを
考慮するのに対して、印活優先番地部検索手段11は、
さらに印活属性バッファ9内の属性との適合性も併せて
考慮する点が異なる。したがって、印活優先番地部検索
手段11は、一般番地部検索手段10に例えば次のよう
な改造を加えることで実現できる。
Similar to the general address part searching means 10, the printing priority address part searching means 11 extracts from the recognition result buffer 4 a combination of character candidates of the address parts which meet the conditions of the address parts. At that time, the general address part searching means 10 considers only the compatibility with the condition of the address part in the place name table memory 5, whereas the printing priority address part searching part 11
Further, the compatibility with the attributes in the print attribute buffer 9 is also taken into consideration. Therefore, the printing priority address part searching means 11 can be realized by adding the following modification to the general address part searching means 10, for example.

【0051】まず、前処理として、認識結果バッファ4
のなかの各セグメントについて、印活属性バッファ9内
の属性との適合性を判定するようにする。この適合性の
判定方法は、例えば、印活らしい地名部候補の末尾文字
の中心点の座標をピッチにしたがってずらしたもの(推
定中心点座標)と、各セグメントの中心点の座標とを計
算し、その比較を行なえばよい。一例であるが、セグメ
ントの中心点座標から最も近い推定中心点座標との距離
を、印活属性との適合度とみなすことができる。この前
処理では、このような適合度を計算し、それを各セグメ
ントに付与する。あるいは、適合度が敷居値に到達しな
いようなセグメントは、認識結果バッファ4内から削除
してしまうのでもよい。
First, as preprocessing, the recognition result buffer 4
For each segment, the compatibility with the attribute in the print attribute buffer 9 is determined. This suitability determination method is performed, for example, by calculating the coordinates of the center point of the last character of the place name part candidate that seems to be In printing (the estimated center point coordinates) and the coordinates of the center point of each segment. , You can make the comparison. As one example, the distance from the center point coordinate of the segment to the closest estimated center point coordinate can be regarded as the compatibility with the printing attribute. In this preprocessing, such a goodness of fit is calculated and given to each segment. Alternatively, a segment whose adaptability does not reach the threshold value may be deleted from the recognition result buffer 4.

【0052】このような前処理を実行した後で、一般番
地部検索手段10と同様の処理を実行する。もし一般番
地部検索手段10において、番地部の文字候補の組み合
わせとしての適切さをコスト値のようなもので定義して
いるならば、上記の印活属性との適合度をコスト値に反
映させればよい。そうでなければ、適合度が敷居値に到
達しないようなセグメントの文字候補を無視して(事前
に削除してしまって)、一般番地部検索手段10の処理
を実行すればよい。
After performing such preprocessing, processing similar to that of the general address part searching means 10 is performed. If the general address part searching means 10 defines the suitability of the character candidates of the address part as something like a cost value, the cost value reflects the compatibility with the printing attribute. Just do it. If not, the character candidates of the segment whose adaptability does not reach the threshold value may be ignored (deleted in advance), and the process of the general address part searching means 10 may be executed.

【0053】これによって、例えば、図6(a)(c)
のような地名部候補に対して、図6(a)の「二」
「丁」「目」に対応するようなセグメントは印活属性と
適合するが、図6(c)の「一」「一丁」に対応するよ
うなセグメントは印活属性と適合しないことから、図6
(c)のような誤った番地部候補の抽出を避けることが
できる。
As a result, for example, as shown in FIGS.
For a place name part candidate such as "2" in Fig. 6 (a)
The segments corresponding to "Ding" and "eyes" match the printing attributes, but the segments corresponding to "One" and "One Ding" in FIG. 6C do not match the printing attributes. Figure 6
It is possible to avoid erroneous address part candidate extraction as in (c).

【0054】なお、印活優先番地部検索手段11と一般
番地部検索手段10は、印活性判定手段8によって切り
換えて実行される。そして、番地部候補バッファ12
は、印活優先番地部検索手段11と一般番地部検索手段
10のうちの、印活性判定手段8に選択された方の結果
を格納することになる。
The seal activation priority address searching means 11 and the general address searching means 10 are switched and executed by the seal activation determining means 8. And the address part candidate buffer 12
Stores the result of one of the stamp activation priority address portion searching means 11 and the general address portion searching means 10 which is selected by the stamp activation determining means 8.

【0055】図2は、第二の発明の一実施例の構成を示
すブロック図である。
FIG. 2 is a block diagram showing the configuration of an embodiment of the second invention.

【0056】イメージ入力手段1は、地名部と番地部か
ら成る住所文字列の記載されたイメージデータを入力す
る。イメージバッファ2は、入力されたイメージデータ
を格納する。個別認識手段3は、イメージデータのなか
から1文字に相当するセグメントを切り出して、そのセ
グメントごとに別の文字認識を行なう。認識結果バッフ
ァ4は、個別認識手段3の結果を格納する。地名テーブ
ルメモリ5は、読み取り対象の地名のリストと、各地名
に対応する番地部の条件を記憶する。地名部検索手段6
は、地名テーブルメモリ5を検索して、認識結果バッフ
ァ4内の文字候補の組み合わせに対応する地名部候補を
抽出する。地名部候補バッファ7は、抽出された地名部
候補を格納する。印活性判定手段8は、地名部候補バッ
ファ7内の地名部候補について、それを構成する文字列
の印活らしさを判定し、印活らしい地名部候補が存在す
る場合は、地名部候補のなかで印活らしい地名部候補を
優先するように、地名部候補バッファ7の内容を書き換
える。印活属性バッファ8は、印活性判定手段7の検出
した印活らしい地名部候補の属性を格納する。印活優先
番地部個別認識手段15は、印活らしい地名部候補が存
在した場合に、イメージデータバッファ2内のイメージ
データから、印活属性バッファ9内の属性に適合するよ
うに番地部の1文字に相当するセグメントを切り出し、
そのセグメントごとに個別の文字認識を行なう。一般番
地部個別認識手段10は、印活らしい地名部候補が存在
しなかった場合に、イメージデータバッファ2内のイメ
ージデータから、番地部の1文字に相当するセグメント
を切り出し、そのセグメントごとに個別の文字認識を行
なう。番地部認識結果バッファ16は、印活優先番地部
個別認識手段15の結果または一般番地部個別認識手段
14の結果を格納する。一般番地部検索手段10は、認
識結果バッファ4から、地名テーブルメモリ5における
番地部の条件に適合する番地部の文字候補の組み合わせ
を抽出する。番地部候補バッファ12は、一般番地部検
索手段10の結果を格納する。最終判定手段13は、地
名部候補バッファ7と番地部候補バッファ12をもと
に、最終的な住所読み取り結果の文字列を決定する。
The image input means 1 inputs image data in which an address character string including a place name part and an address part is described. The image buffer 2 stores the input image data. The individual recognition means 3 cuts out a segment corresponding to one character from the image data, and recognizes another character for each segment. The recognition result buffer 4 stores the result of the individual recognition means 3. The place name table memory 5 stores a list of place names to be read and conditions of an address part corresponding to each place name. Place name part search means 6
Searches the place name table memory 5 and extracts place name part candidates corresponding to the combination of character candidates in the recognition result buffer 4. The place name part candidate buffer 7 stores the extracted place name part candidates. The printing activity determination means 8 determines the printing activity of the character string that constitutes the printing site name candidate in the printing site name candidate buffer 7, and if there is a printing site name candidate that seems to be printing activity, it is one of the printing site name candidates. The contents of the place name part candidate buffer 7 are rewritten so that the place name part candidates that are likely to be printed are prioritized. The stamp activity attribute buffer 8 stores the attribute of the place name portion candidate which seems to be the stamp activity detected by the stamp activity determination means 7. When there is a place name portion candidate that seems to be a seal stamp, the stamp priority priority address portion individual recognizing means 15 uses the address portion 1 to match the attribute in the seal stamp attribute buffer 9 from the image data in the image data buffer 2. Cut out the segment corresponding to the character,
Individual character recognition is performed for each segment. The general address part individual recognition means 10 cuts out a segment corresponding to one character of the address part from the image data in the image data buffer 2 when there is no place name part candidate that is likely to be printed, and individually for each segment. Character recognition. The address part recognition result buffer 16 stores the result of the printing priority address part individual recognition means 15 or the result of the general address part individual recognition means 14. The general address part searching means 10 extracts, from the recognition result buffer 4, a combination of address part character candidates that match the conditions of the address part in the place name table memory 5. The address part candidate buffer 12 stores the result of the general address part search means 10. The final determination means 13 determines the final character string of the address read result based on the place name part candidate buffer 7 and the address part candidate buffer 12.

【0057】これらの構成要素のうち、イメージ入力手
段1、イメージバッファ2、個別認識手段3、認識結果
バッファ4、地名テーブルメモリ5、地名部検索手段
6、地名部候補バッファ7、一般番地部個別認識手段1
4、番地部認識結果バッファ16、一般番地部検索手段
10、番地部候補バッファ12、最終判定手段13の各
々は、図4の従来の住所読み取り装置と同様の構成要素
である。新規の構成要素は、印活性判定手段8、印活属
性バッファ9、印活優先番地部個別認識手段15の3つ
である。そのうち、印活性判定手段8と印活属性バッフ
ァ9は、第一の発明の実施例の構成(図1)と共通であ
り、既に説明済みである。
Of these constituent elements, the image input means 1, the image buffer 2, the individual recognition means 3, the recognition result buffer 4, the place name table memory 5, the place name part search means 6, the place name part candidate buffer 7, the general address part individual Recognition means 1
4, the address part recognition result buffer 16, the general address part search means 10, the address part candidate buffer 12, and the final determination part 13 are the same constituent elements as the conventional address reading device of FIG. The three new components are the stamp activation determination means 8, the stamp attribute buffer 9, and the stamp priority address part individual recognition means 15. Among them, the print activation judging means 8 and the print attribute buffer 9 are common to the configuration of the embodiment of the first invention (FIG. 1) and have been already described.

【0058】印活優先番地部個別認識手段15について
説明する。
The printing priority address part individual recognition means 15 will be described.

【0059】印活優先番地部個別認識手段15は、一般
番地部個別認識手段14と同様に、イメージバッファ2
から番地部の1文字に相当するセグメントを切り出して
個別に文字認識する。その切り出し処理の際に、印活優
先番地部個別認識手段15は、印活属性バッファ9内の
属性との適合性も考慮する点が異なる。したがって、印
活優先番地部個別検索手段15は、一般番地部個別認識
手段14の文字切り出し処理に、例えば次のような改造
を加えることで実現できる。
The print priority address individual recognizing means 15 is similar to the general address individual recognizing means 14 in the image buffer 2.
A segment corresponding to one character in the address section is cut out and the character is individually recognized. In the cutout processing, the stamp impression priority address part individual recognition means 15 is different in that the compatibility with the attribute in the stamp impression attribute buffer 9 is also taken into consideration. Therefore, the printing priority address individual search unit 15 can be realized by adding the following modification to the character segmentation process of the general address individual recognition unit 14, for example.

【0060】印活属性バッファ9内の属性から、例え
ば、印活らしい地名部候補の末尾文字の中心点の座標と
ピッチがわかる。そこで、その地名部候補の末尾文字の
中心点の座標をピッチにしたがってずらしたもの(推定
中心点座標)を計算する。そして、印活属性バッファ9
内の属性から文字(セグメント)のサイズもわかれば、
推定中心点座標を中心として、その固定サイズでセグメ
ントを切り出せばよい。
From the attributes in the printing attribute buffer 9, for example, the coordinates and pitch of the center point of the last character of the place name portion candidate that seems to be printing can be known. Therefore, a coordinate (estimated center point coordinate) obtained by shifting the coordinates of the center point of the last character of the place name portion candidate according to the pitch is calculated. And the printing attribute buffer 9
If you know the size of the character (segment) from the attributes inside,
A segment may be cut out with a fixed size around the estimated center point coordinates.

【0061】なお、印活優先番地部個別認識手段15と
一般番地部個別認識手段14は、印活性判定手段8によ
って切り換えて実行される。そして、番地部認識結果バ
ッファ16は、印活優先番地部個別認識手段15と一般
番地部個別認識手段14のうちの、印活性判定手段8に
選択された方の結果を格納することになる。
The printing activation priority address individual recognizing means 15 and the general address individual recognizing means 14 are switched and executed by the printing activation determining means 8. Then, the address part recognition result buffer 16 stores the result of one of the printing priority address part individual recognition means 15 and the general address part individual recognition means 14 which is selected by the printing activity determination part 8.

【0062】[0062]

【発明の効果】以上に述べたように、本発明では、地名
部候補を求めた後で印活性を判定しているので、正確な
印活判定が可能である。そして、印活らしいと判定でき
たときは、それを番地部の処理に利用するため、番地部
の文字切り出しの可能性を適切に絞り込むことができ、
印活文字列の番地部の読み取りが正確で効率の良いもの
になっている。すなわち、本発明によれば、手書き文字
列か印活文字列かの指定が外から与えられなくとも、正
確に印活判定を行ない、印活文字列であった場合は、そ
の特性(等サイズ・等ピッチなど)を生かして読み取
る、正確で効率の良い住所読み取り装置が提供できる。
As described above, according to the present invention, since the printing activity is determined after the place name portion candidates are obtained, the printing activity can be accurately determined. Then, when it is determined that it seems to be an impression, it is used for the processing of the address part, so the possibility of character cutting out of the address part can be appropriately narrowed down,
The reading of the address part of the print character string is accurate and efficient. That is, according to the present invention, even if the designation of the handwritten character string or the stamp character string is not given from the outside, the stamp mark is accurately determined, and if the stamp character string is detected, the characteristics (equal size)・ We can provide an accurate and efficient address reading device that reads by making the best use of equal pitches.

【図面の簡単な説明】[Brief description of drawings]

【図1】第一の発明の一実施例の構成を示すブロック図
である。
FIG. 1 is a block diagram showing the configuration of an embodiment of the first invention.

【図2】第二の発明の一実施例の構成を示すブロック図
である。
FIG. 2 is a block diagram showing the configuration of an embodiment of the second invention.

【図3】従来の住所読み取り装置の構成を示すブロック
図である。
FIG. 3 is a block diagram showing a configuration of a conventional address reading device.

【図4】従来の住所読み取り装置の構成を示すブロック
図である。
FIG. 4 is a block diagram showing a configuration of a conventional address reading device.

【図5】地名テーブルメモリ5の内容の例である。5 is an example of contents of a place name table memory 5. FIG.

【図6】印活文字列に対する文字切り出し結果の例であ
る。
FIG. 6 is an example of a character cutout result for a printed character string.

【図7】印活文字列に対する文字切り出し結果の例であ
る。
FIG. 7 is an example of a character cutout result for a printed character string.

【図8】印活性判定手段8による判定例を説明するため
の図である。
FIG. 8 is a diagram for explaining a determination example by a seal activation determination means 8.

【符号の説明】[Explanation of symbols]

1 イメージ入力手段 2 イメージバッファ 3 個別認識手段 4 認識結果バッファ 5 地名テーブルメモリ 6 地名部検索手段 7 地名部候補バッファ 8 印活性判定手段 9 印活属性バッファ 10 一般番地部検索手段 11 印活優先番地部検索手段 12 番地部候補バッファ 13 最終判定手段 14 一般番地部個別認識手段 15 印活優先番地部個別認識手段 16 番地部認識結果バッファ 40 セグメント 41 セグメントの中心点 42 セグメントのピッチ 43 セグメントのサイズ 44 セグメントの幅 50 都道府県名 51 市区名 52 町名 53 丁目 54 番 55 号 56 地名のリスト 57 番地部の条件 1 image input means 2 image buffer 3 individual recognition means 4 recognition result buffer 5 place name table memory 6 place name part search means 7 place name part candidate buffer 8 stamp activation judgment means 9 stamp attribute buffer 10 general address search means 11 stamp priority address Part search means 12 Address part candidate buffer 13 Final decision means 14 General address part individual recognition means 15 Printing priority address part individual recognition means 16 Address part recognition result buffer 40 Segment 41 Segment center point 42 Segment pitch 43 Segment size 44 Width of segment 50 Prefecture name 51 City name 52 Town name 53 Chome 54 No. 55 No. 56 List of place names 57 Condition of address part

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】入力されたイメージデータから地名部と番
地部から成る住所文字列を読み取る住所読み取り装置に
おいて、前記イメージデータのなかから1文字に相当す
るセグメントを切り出して該セグメントごとに個別の文
字認識を行なう個別認識手段と、前記個別認識手段の結
果を格納する認識結果バッファと、読み取り対象の地名
のリストと該地名に対応する番地部の条件を登録した地
名テーブルメモリと、前記地名テーブルメモリを検索し
て前記認識結果バッファ内の文字候補の組み合わせに対
応する地名部候補を抽出する地名部検索手段と、前記地
名部候補を格納する地名部候補バッファと、前記地名部
候補を構成する文字列の印活らしさを判定して印活らし
い地名部候補が存在する場合は前記地名部候補のなかで
該印活らしい地名部候補を優先する印活性判定手段と、
前記印活らしい地名部候補の属性を格納する印活属性バ
ッファと、前記印活らしい地名部候補が存在した場合に
前記認識結果バッファから前記印活属性バッファ内の属
性と前記地名テーブルメモリにおける番地部の条件に適
合する番地部の文字候補の組み合わせを抽出する印活優
先番地部検索手段と、前記印活らしい地名部候補が存在
しなかった場合に前記認識結果バッファから前記地名テ
ーブルメモリにおける番地部の条件に適合する番地部の
文字候補の組み合わせを抽出する一般番地部検索手段
と、前記印活優先番地部検索手段の結果または前記一般
番地部検索手段の結果を格納する番地部候補バッファ
と、前記地名部候補バッファと前記番地部候補バッファ
をもとに最終的な住所読み取り結果の文字列を決定する
最終判定手段とを備えることを特徴とする住所読み取り
装置。
1. In an address reading device for reading an address character string consisting of a place name part and an address part from input image data, a segment corresponding to one character is cut out from the image data, and an individual character is segmented for each segment. Individual recognition means for recognition, a recognition result buffer for storing the result of the individual recognition means, a place name table memory in which a list of place names to be read and conditions of an address part corresponding to the place name are registered, and the place name table memory A place name part searching means for extracting a place name part candidate corresponding to a combination of character candidates in the recognition result buffer, a place name part candidate buffer storing the place name part candidate, and a character forming the place name part candidate. If there is a place name club candidate that seems to be an In print after judging the print impression of the row, the place name that seems to be the Inzai among the place name club candidates. A priority indicia activation determining means candidate,
An impression stamp buffer that stores the attributes of the place name portion candidate that seems to be printing, and an attribute in the printing attribute buffer and the address in the place name table memory from the recognition result buffer when the candidate printing place name portion exists Print priority address part search means for extracting a combination of character candidates of the address part that match the conditions of the copy part, and an address in the place name table memory from the recognition result buffer when the place name part candidate that seems to be the print position does not exist A general address part search means for extracting a combination of address part character candidates that match the conditions of the copy part, and an address part candidate buffer for storing the result of the printing priority address part search means or the result of the general address part search means , And a final determination means for determining a final character string of the address reading result based on the address part candidate buffer and the address part candidate buffer. Address reading device, characterized in that.
【請求項2】入力されたイメージデータから地名部と番
地部から成る住所文字列を読み取る住所読み取り装置に
おいて、前記イメージデータのなかから1文字に相当す
るセグメントを切り出して該セグメントごとに個別の文
字認識を行なう個別認識手段と、前記個別認識手段の結
果を格納する認識結果バッファと、読み取り対象の地名
のリストと該地名に対応する番地部の条件を登録した地
名テーブルメモリと、前記地名テーブルメモリを検索し
て前記認識結果バッファ内の文字候補の組み合わせに対
応する地名部候補を抽出する地名部検索手段と、前記地
名部候補を格納する地名部候補バッファと、前記地名部
候補を構成する文字列の印活らしさを判定して印活らし
い地名部候補が存在する場合は前記地名部候補のなかで
該印活らしい地名部候補を優先する印活性判定手段と、
前記印活らしい地名部候補の属性を格納する印活属性バ
ッファと、前記印活らしい地名部候補が存在した場合に
前記イメージデータから前記印活属性バッファ内の属性
に適合するように番地部の1文字に相当するセグメント
を切り出して該セグメントごとに個別の文字認識を行な
う印活優先番地部個別認識手段と、前記印活らしい地名
部候補が存在しなかった場合に前記イメージデータから
番地部の1文字に相当するセグメントを切り出して該セ
グメントごとに個別の文字認識を行なう一般番地部個別
認識手段と、前記印活優先番地部個別認識手段の結果ま
たは前記一般番地部個別認識手段の結果を格納する番地
部認識結果バッファと、前記番地部認識結果バッファか
ら前記地名テーブルメモリにおける番地部の条件に適合
する番地部の文字候補の組み合わせを抽出する一般番地
部検索手段と、前記一般番地部検索手段の結果を格納す
る番地部候補バッファと、前記地名部候補バッファと前
記番地部候補バッファをもとに最終的な住所読み取り結
果の文字列を決定する最終判定手段とを備えることを特
徴とする住所読み取り装置。
2. In an address reading device for reading an address character string consisting of a place name part and an address part from input image data, a segment corresponding to one character is cut out from the image data, and an individual character for each segment is cut out. Individual recognition means for recognition, a recognition result buffer for storing the result of the individual recognition means, a place name table memory in which a list of place names to be read and conditions of an address part corresponding to the place name are registered, and the place name table memory A place name part searching means for extracting a place name part candidate corresponding to a combination of character candidates in the recognition result buffer, a place name part candidate buffer storing the place name part candidate, and a character forming the place name part candidate. If there is a place name club candidate that seems to be an In print after judging the print impression of the row, the place name that seems to be the Inzai among the place name club candidates. A priority indicia activation determining means candidate,
A print job attribute buffer that stores the attributes of the print job place name portion candidate, and an address portion that matches the attribute in the print job attribute buffer from the image data when the print job likely place name portion candidate exists. Indicative priority address part individual recognition means for cutting out a segment corresponding to one character and recognizing an individual character for each segment, and an address part from the image data when there is no place name part candidate that seems to be the impression. A general address part individual recognition means for cutting out a segment corresponding to one character and performing individual character recognition for each segment, and a result of the printing priority address part individual recognition means or a result of the general address part individual recognition means is stored. Address part recognition result buffer, and an address part character that meets the condition of the address part in the place name table memory from the address part recognition result buffer A general address part searching means for extracting a complementary combination, an address part candidate buffer for storing the result of the general address part searching means, and a final address reading based on the place name part candidate buffer and the address part candidate buffer. An address reading device, comprising: final determination means for determining a resulting character string.
JP6317164A 1994-12-20 1994-12-20 Address reading device Expired - Fee Related JP2780654B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6317164A JP2780654B2 (en) 1994-12-20 1994-12-20 Address reading device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6317164A JP2780654B2 (en) 1994-12-20 1994-12-20 Address reading device

Publications (2)

Publication Number Publication Date
JPH08171615A true JPH08171615A (en) 1996-07-02
JP2780654B2 JP2780654B2 (en) 1998-07-30

Family

ID=18085178

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6317164A Expired - Fee Related JP2780654B2 (en) 1994-12-20 1994-12-20 Address reading device

Country Status (1)

Country Link
JP (1) JP2780654B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020123272A (en) * 2019-01-31 2020-08-13 富士ゼロックス株式会社 Information processing device and information processing program
JP2020123273A (en) * 2019-01-31 2020-08-13 富士ゼロックス株式会社 Information processing device and information processing program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6414682A (en) * 1987-07-08 1989-01-18 Toshiba Corp Device for deciding kind of address
JPH04139593A (en) * 1990-09-30 1992-05-13 Nec Corp Postal code number recognition device
JPH06124366A (en) * 1992-10-14 1994-05-06 Toshiba Corp Address reader

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6414682A (en) * 1987-07-08 1989-01-18 Toshiba Corp Device for deciding kind of address
JPH04139593A (en) * 1990-09-30 1992-05-13 Nec Corp Postal code number recognition device
JPH06124366A (en) * 1992-10-14 1994-05-06 Toshiba Corp Address reader

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020123272A (en) * 2019-01-31 2020-08-13 富士ゼロックス株式会社 Information processing device and information processing program
JP2020123273A (en) * 2019-01-31 2020-08-13 富士ゼロックス株式会社 Information processing device and information processing program

Also Published As

Publication number Publication date
JP2780654B2 (en) 1998-07-30

Similar Documents

Publication Publication Date Title
JP3842006B2 (en) Form classification device, form classification method, and computer-readable recording medium storing a program for causing a computer to execute these methods
JP2734386B2 (en) String reader
JP3640972B2 (en) A device that decodes or interprets documents
JP3294995B2 (en) Form reader
US20060045340A1 (en) Character recognition apparatus and character recognition method
JP3485020B2 (en) Character recognition method and apparatus, and storage medium
US7680329B2 (en) Character recognition apparatus and character recognition method
JPH04184689A (en) Polygon dividing method and its device
JPH08171615A (en) Address reader
JPH09161013A (en) Character read method and address read method
JPH11259597A (en) Format recognition device and character reader
JPH11219409A (en) Document reader
JPH09319824A (en) Document recognizing method
JPH11328306A (en) Method and device for extracting logical element of document image, and record medium
JPH10207981A (en) Document recognition method
JPH06103402A (en) Business card recognizing device
JPH07319880A (en) Keyword extraction/retrieval device
JP4132234B2 (en) Character recognition method and apparatus, and recording medium on which character recognition program is recorded
JP2922365B2 (en) Kanji address data processing method in OCR processing system
JPH07116606A (en) Device and method for recognizing mail address
JPH10154191A (en) Business form identification method and device, and medium recording business form identification program
JP2570703B2 (en) Character reader
JP2993533B2 (en) Information processing device and character recognition device
JP2004030340A (en) Document identifying apparatus and identifying method therefor
JPH10162103A (en) Character recognition device

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19980414

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090515

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100515

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110515

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110515

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120515

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120515

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130515

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140515

Year of fee payment: 16

LAPS Cancellation because of no payment of annual fees