JPH0793467A - Address reading system - Google Patents

Address reading system

Info

Publication number
JPH0793467A
JPH0793467A JP5236154A JP23615493A JPH0793467A JP H0793467 A JPH0793467 A JP H0793467A JP 5236154 A JP5236154 A JP 5236154A JP 23615493 A JP23615493 A JP 23615493A JP H0793467 A JPH0793467 A JP H0793467A
Authority
JP
Japan
Prior art keywords
address
character
name
characters
notation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5236154A
Other languages
Japanese (ja)
Inventor
Masaaki Shizuno
正明 静野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP5236154A priority Critical patent/JPH0793467A/en
Publication of JPH0793467A publication Critical patent/JPH0793467A/en
Pending legal-status Critical Current

Links

Landscapes

  • Sorting Of Articles (AREA)
  • Character Discrimination (AREA)

Abstract

PURPOSE:To attain high accuracy and high speed in the automatic reading processing of address notation. CONSTITUTION:All the address notation characters are character-recognized at first. With respect to the first combination of some characters in the recognized address notation characters, the pertient name of the metropolis and districts is retrieved by narrowing an object to the metropolis and districts (a first hierarchy). When the name of an actual metropolis and districts, Tokyo metropolis, e.g. is found as the result of the retrieving, the object is narrowed to the inside of Tokyo metropolis (a second hierarchy) and with respect to the next combination of some characters in the recognized address notation characters, a pertient community name (ward, city, etc.) is retrieved. When an actual community name, Adachi ward, e.g. is found as the result of the retrieving, the object is narrowed to the inside of Adachi ward (a third hierarchy) and with respect to the furthermore next combination of some characters in the recognized address notation characters, a place (the name of town, etc.) is retrieved. An address is retrieved in an order from a high-order hierarchy and the retrieving object is narrowed whenever the retrieving result is obtained like this so as to improve the rate of correct reading and to reduce a processing time.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】この発明は、郵便物に印刷されあ
るいは手書き記載された住所表記を電子的に読み取り認
識する住所読取システムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an address reading system which electronically reads and recognizes an address notation printed or handwritten on a mail piece.

【0002】[0002]

【従来の技術】通常、住所読取処理では、まず文字を認
識し、次にこれを並べて単語を認識し、同時に(あるい
は続いて)単語を並べて住所を認識する。すなわち、住
所読取システムにおける認識処理は、「文字認識」と
「住所認識」という2つの処理に分けることができる。
2. Description of the Related Art Generally, in an address reading process, characters are first recognized, then they are arranged to recognize words, and at the same time (or subsequently) words are arranged to recognize an address. That is, the recognition process in the address reading system can be divided into two processes, "character recognition" and "address recognition".

【0003】ここで、文字認識処理部では読み取った文
字画像(文字パターン)を可能性のある全文字種の辞書
と照合するが、単語認識(住所表記語認識)ではその処
理量を軽減するため類似度の高い数文字種(例えば10
種)のみを限定選択して住所認識処理部に送るようにし
ている。しかしこの場合、正解がこの中(選択された1
0種)に入らないと住所の読み取りが不能になる。
Here, the character recognition processing unit collates the read character image (character pattern) with a dictionary of all possible character types, but in word recognition (address notation word recognition), the processing amount is reduced, so that the similarity is achieved. Several high-character types (for example, 10
Only the seeds) are selected and sent to the address recognition processing section. However, in this case, the correct answer is
If you do not enter 0), you will not be able to read the address.

【0004】この発明に拠らない場合、住所読取システ
ムを構築するための方法としては、次のいずれかが考え
られる。 (1)文字認識では各文字毎に住所認識処理で使用する
全文字種と照合/評価処理し、評価値の高い方から一定
数の文字種候補を選択して住所認識処理に渡す。 (2)住所表記を上位階層から順に(例えば県→市→区
→町)処理し、各階層毎に文字認識、住所認識を繰り返
す。
In the case of not relying on the present invention, one of the following methods can be considered as a method for constructing an address reading system. (1) In character recognition, each character is collated / evaluated with all the character types used in the address recognition process, and a certain number of character type candidates are selected from the one with the highest evaluation value and passed to the address recognition process. (2) Address notation is processed in order from the upper hierarchy (for example, prefecture → city → ward → town), and character recognition and address recognition are repeated for each hierarchy.

【0005】[0005]

【発明が解決しようとする課題】上記(1)の場合、住
所認識で都道府県の認識を行なっている場合に、都道府
県名の文字認識結果の上位候補に市、区、あるいは町の
みに使用される文字が多く含まれると、正解文字が10
種の候補から落ちてしまう場合がある。この場合は、当
然、正しい単語や住所を認識することができず、読取不
能となる。
In the case of the above (1), when the prefecture is recognized by the address recognition, it is used only for a city, a ward, or a town as a high-ranked candidate of the character recognition result of the prefecture name. If many characters are included, the correct character will be 10
Sometimes you fall out of a candidate for a species. In this case, of course, the correct word or address cannot be recognized, which makes it unreadable.

【0006】たとえば図6(a)の例では、「東」
「京」「都」の3文字画像から文字認識を行なった場合
に、「東」と「都」の2文字については10種の候補中
に正解文字(下線付き)が入っているが、「京」につい
ては10種の候補中に正解文字が入っていない(「京」
は第11候補に入っている)。また「足」「立」「区」
の3文字画像から文字認識を行なった場合に、「足」と
「区」の2文字については10種の候補中に正解文字
(下線付き)が入っているが、「立」については10種
の候補中に正解文字が入っていない(「立」は第11候
補に入っている)。この例では、「東京都足立区」の読
み取りは不能となる。
For example, in the example of FIG. 6A, "east"
When character recognition is performed from the three-character image of "Kyo" and "Miyako", the correct characters (underlined) are included in the 10 candidates for the two characters of "East" and "Miyako". For "Kyo", the correct characters are not included in the 10 candidates ("Kyo"
Is in the 11th candidate). In addition, "foot""standing""ward"
When the character recognition is performed from the three-character image of, the correct answer character (underlined) is included in 10 kinds of candidates for 2 characters of "foot" and "ku", but 10 kinds of for "standing" No correct character is included in the candidate of "(right" is included in the 11th candidate). In this example, "Adachi Ward, Tokyo" cannot be read.

【0007】一方、上記(2)の場合では、読み取る住
所階層に限定して文字認識を行なえるため(1)の場合
の欠点(読取不能)は解消できる。たとえば、「東京
都」が見つかればその後の数文字には「区」、「市」な
どの名称を表す数文字しか現われない。この場合、日本
全国の地域名称をカバーする全文字種から上位10文字
を選ぶより、「東京都」に続いて現われる限られた文字
種の中から選ぶほうが、「区」や「市」の名称の正解が
10候補文字種中に入る確率が高くなり、最終的に住所
読取率が向上する。
On the other hand, in the case of the above (2), since the character recognition can be performed only in the address hierarchy to be read, the defect (unreadable) in the case of (1) can be solved. For example, if "Tokyo" is found, only a few letters that represent names such as "ward" and "city" will appear in the subsequent letters. In this case, rather than selecting the top 10 characters from all the character types that cover the regional names of all over Japan, choosing from the limited character types that appear after "Tokyo" is the correct answer for the names of "ward" and "city". Is more likely to be included in the 10 candidate character types, and finally the address reading rate is improved.

【0008】しかし、上記(2)の場合では時間のかか
る文字認識処理を住所表記階層毎に繰り返すため処理効
率が悪く、処理時間が長くなる。たとえば、「神奈川
県」「川崎市」「幸区」「柳町」のように住所階層が深
くなると、住所判定結果を得るまでに何度も(この場合
4度)同じ文字の文字認識をすることになり、効率が悪
い。また上位階層(例えば川崎市)の住所認識が終わる
まで次の階層(例えば幸区)の文字認識ができないこと
から、文字認識で使用するハードウエアの遊び時間が生
じてしまい、さらに非効率的となる。この発明の目的
は、住所表記の自動読取処理において高精度化と高速化
を図った住所読取システムを提供することである。
However, in the case of the above (2), since the time-consuming character recognition processing is repeated for each address notation hierarchy, the processing efficiency is poor and the processing time becomes long. For example, if the address hierarchy becomes deeper, such as "Kanagawa Prefecture", "Kawasaki City", "Suki Ward", "Yanagicho", the same character will be recognized many times (four times in this case) before the address judgment result is obtained. And the efficiency is low. In addition, since the character recognition of the next layer (for example, Sachi-ku) cannot be performed until the address recognition of the upper layer (for example, Kawasaki City) is completed, play time of the hardware used for character recognition is generated, which is more inefficient. Become. An object of the present invention is to provide an address reading system which is highly accurate and has high speed in automatic reading processing of an address notation.

【0009】[0009]

【課題を解決するための手段】この発明の住所読取シス
テムは、正しい住所表記のデータ(都道府県名、各市区
町村名、その他の実在地名)を格納している住所辞書
(50)と;1以上の住所表記階層(第1階層/都道府
県名「東京都」;第2階層「足立区」;第3階層「西新
井栄町」;第4階層・・・・・・)からなる住所表示に
用いられる1以上の住所表記語(「東京都」「足立区」
「西新井栄町」・・・・・・)を構成する文字各々を認
識して、文字認識結果(「東」「京」「都」「足」
「立」「区」「西」「新」「井」「栄」「町」・・・・
・・)を出力する文字認識手段(10、30;ST1
0、ST12)と;前記1以上の住所表記語(「東京
都」「足立区」「西新井栄町」)各々の認識に必要な最
小限の文字種を含んで構成される1以上の文字種テーブ
ル(40;ST16、ST20、ST24)と;前記文
字認識手段(10、30)で認識された文字認識結果
(「東」「京」「都」・・・・・・)のうち、これから
認識しようとする住所階層(「東京都」)の判定に必要
な所定数の文字種(「東」「京」「都」それぞれ1字に
つき10種)を前記文字種テーブル(40;ST16)
から抽出し、抽出された文字各々の組合せで前記住所辞
書(50)を引いて、該当する住所表記語(「東京
都」)を検出する住所認識手段(20)とを備えてい
る。
The address reading system of the present invention includes an address dictionary (50) storing correct address notation data (prefecture name, city name, other real name); Used for address display consisting of the above address notation hierarchy (1st hierarchy / prefecture name “Tokyo”; 2nd hierarchy “Adachi-ku”; 3rd hierarchy “Nishiaraicho”; 4th hierarchy ...) One or more address notation ("Tokyo", "Adachi-ku")
Recognizing each of the characters that make up "Nishiarai Sakae Town" ...
"Stand""ward""west""new""well""Sakae""town" ...
..) character recognition means (10, 30; ST1)
0, ST12); and one or more character type tables (40 including minimum character types necessary for recognition of each of the one or more address notation words (“Tokyo”, “Adachi Ward”, “Nishiarai Sakaemachi”)). ST16, ST20, ST24), and; from among the character recognition results (“East”, “Kyo”, “Miyako” ...) Recognized by the character recognition means (10, 30) The character type table (40; ST16) of the predetermined number of character types (10 types for each character of "East", "Kyo", and "Miyako") necessary for determining the address hierarchy ("Tokyo")
And an address recognition means (20) for detecting the corresponding address notation word (“Tokyo”) by subtracting the address dictionary (50) with each combination of the extracted characters.

【0010】[0010]

【作用】住所を構成する各文字について、各住所階層の
住所表記に用いられる全文字種との類似度(あるいは評
価値)が予め求められ、各住所階層の文字テーブルにま
とめられている。住所構成文字の階層を上位(都道府県
名)から順に読み進めていく際に、上位階層文字の読取
結果に基づき次の階層(市/区名など)の読取に必要な
類似文字種のみで構成される文字テーブルを選択して参
照することにより、住所文字の読取正解率の向上と処理
時間の短縮を図る。
With respect to each character forming the address, the degree of similarity (or evaluation value) with all the character types used in the address notation of each address hierarchy is obtained in advance and is summarized in the character table of each address hierarchy. When reading the hierarchy of address constituent characters in order from the upper level (prefecture name), only the similar character type necessary for reading the next level (city / ward name, etc.) is configured based on the reading result of the upper level characters. By selecting and referring to a character table to be read, it is possible to improve the reading accuracy rate of address characters and shorten the processing time.

【0011】[0011]

【実施例】以下、図面を参照してこの発明の一実施例に
係る住所読取システムを説明する。図5は、この住所読
取システムに適用されるハードウエアの構成の概要を示
す。この実施例システムは、光電変換ユニット102、
領域検出ユニット104、行検出ユニット106、文字
検出ユニット108および文字認識ユニット110から
なる文字認識部10と、文字認識ユニット110で文字
認識の際に参照される基本文字を全て含む文字辞書30
と、文字種テーブル40および住所辞書50を参照して
文字認識部10で認識された読取文字の組合せから住所
を認識する住所認識ユニット20とで構成されている。
文字認識ユニット110および住所認識ユニット20は
マイクロコンピュータ(CPU)を含んでおり、これら
のユニットの機能はそのCPU上で走るソフトウエアで
実現される。なお、文字認識部10そのものは従来の光
学文字読取装置(OCR)等で採用されている文字認識
技術により構成できる。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An address reading system according to an embodiment of the present invention will be described below with reference to the drawings. FIG. 5 shows an outline of a hardware configuration applied to this address reading system. The system of this embodiment includes a photoelectric conversion unit 102,
A character recognition unit 10 including an area detection unit 104, a line detection unit 106, a character detection unit 108, and a character recognition unit 110, and a character dictionary 30 that includes all basic characters referred to by the character recognition unit 110 for character recognition.
And an address recognition unit 20 that recognizes an address from a combination of read characters recognized by the character recognition unit 10 with reference to the character type table 40 and the address dictionary 50.
The character recognition unit 110 and the address recognition unit 20 include a microcomputer (CPU), and the functions of these units are realized by software running on the CPU. The character recognition unit 10 itself can be configured by a character recognition technique adopted in a conventional optical character reader (OCR) or the like.

【0012】初めに、この実施例システムの内容を簡単
に説明する。光電変換ユニット102は、読取対象文字
を含む郵便物の表面画像を取り込み、これを2値化し
て、文字画像を含む原画像データを出力する。
First, the contents of the system of this embodiment will be briefly described. The photoelectric conversion unit 102 captures the surface image of the mail including the character to be read, binarizes the image, and outputs the original image data including the character image.

【0013】領域検出ユニット104は、郵便物の表面
を走査して得た窓信号および精走査信号から、宛名の記
載された領域を抽出する。すなわち、まず郵便物全体の
画像情報(原画像データ)を2次元的に圧縮処理し、そ
の処理画像により大局的な画像のブロック化を図り、細
部に捕われない大局的な領域検出を行なう。次に、ブロ
ック単位の投影データを生成し、線分の複雑さ/方向性
を判定し、その判定結果を予め与えられた宛名領域編集
知識によって編集して、宛名領域を決定する。
The area detection unit 104 extracts the area in which the address is described from the window signal and the fine scanning signal obtained by scanning the surface of the mail. That is, first, the image information (original image data) of the entire postal matter is two-dimensionally compressed, and the processed image is used to make a global image into blocks, thereby performing a global area detection that is not captured in details. Next, projection data for each block is generated, the complexity / direction of the line segment is determined, and the determination result is edited by previously given address area editing knowledge to determine the address area.

【0014】宛名領域からは、領域内における画像濃度
ヒストグラムから求められる2値化しきい値候補、検出
された宛名領域位置から求められる記載方向候補、およ
び手書き/印刷活字などの字体候補が出力される。宛名
領域編集知識には、多量の郵便物から抽出した宛名記載
位置/領域について、統計的調査に基づくデータが宛名
領域画像知識として取り込まれている。
From the address area, a binarization threshold value candidate obtained from the image density histogram in the area, a writing direction candidate obtained from the detected address area position, and a character style candidate such as handwritten / printed characters are output. . In the address area editing knowledge, data based on a statistical survey regarding address description positions / areas extracted from a large amount of postal matter is incorporated as address area image knowledge.

【0015】郵便物表面には宛名と同様に記載されてい
る差出人名、差出人住所、通信文、切手などの料額印
面、そして多種多様な広告などがあり、これらの位置、
領域、複雑さ、印字方向などが宛名領域画像知識の構築
に利用される。
On the surface of the postal matter, there are a sender's name, a sender's address, a correspondence, a stamp stamp such as a stamp, and various kinds of advertisements, as well as an address.
Area, complexity, print direction, etc. are used to build address area image knowledge.

【0016】行検出ユニット106は、領域検出ユニッ
ト104からの出力を受け、宛名文字の行を囲う枠線ま
たは宛名記載上の罫線などのノイズ成分を取り除き、文
字行単位の分離抽出を行なう。また検出された文字行単
位に印字濃度ヒストグラムを求め、検出文字行単位での
最適2値化しきい値を決定する。
The line detection unit 106 receives the output from the area detection unit 104, removes noise components such as a frame line surrounding a line of an address character or a ruled line on the address description, and separates and extracts each character line. Further, a print density histogram is obtained for each detected character line, and the optimum binarization threshold value for each detected character line is determined.

【0017】ここでの文字行単位検出のアルゴリズムは
宛名領域検出のアルゴリズムと基本的には同様である。
しかし文字行単位検出では大局的な捕え方はせず、宛名
領域検出の場合よりも詳細な画像分析によって下線領
域、空白領域などを除外し読取対象画像(行画像)を限
定抽出する。
The character line unit detection algorithm here is basically the same as the address area detection algorithm.
However, the character line unit detection does not take a global view, and the underline area, the blank area, etc. are excluded by a more detailed image analysis than the case of the address area detection, and the image to be read (line image) is limitedly extracted.

【0018】文字検出ユニット108は、行検出ユニッ
ト106で抽出/決定された行画像/2値化しきい値に
よって、文字単位に画像を分離する。すなわち、文字行
幅データによって予め定めたしきい値以下を印刷活字宛
名と仮定し、それ以外を手書き宛名と仮定する。そし
て、行方向の文字分離を射影情報から検出する。その検
出論理は文字間の余白によって生ずるスペース検知であ
るが、文字間の接触、文字内の分離については検出され
た文字外接枠を正方形を基準として変動予測評価し決定
する。評価の決定があいまいな場合は複数の検出候補を
認める。
The character detection unit 108 separates the images character by character according to the row image / binarization threshold value extracted / determined by the row detection unit 106. That is, it is assumed that the print type address is equal to or less than a threshold value determined in advance by the character line width data, and the others are handwritten addresses. Then, character separation in the row direction is detected from the projection information. The detection logic is a space detection caused by a space between characters, but regarding the contact between characters and the separation within characters, the detected character circumscribing frame is evaluated by fluctuation prediction based on a square and determined. Allow multiple detection candidates if the evaluation decision is ambiguous.

【0019】文字認識ユニット110は、公知の光学文
字読取装置(OCR)と同様な文字認識処理を行なう。
この文字認識処理にあたり予め用意される識別対象文字
種は、アラビア数字/漢数字および片仮名/平仮名の全
文字と宛名表記に用いられる漢字約200文字である。
これらの文字(合計400文字以下)は、印刷活字用と
手書き文字用にそれぞれ用意される(用意される文字数
は最大800文字程度)。
The character recognition unit 110 performs the same character recognition processing as a known optical character reader (OCR).
The character types to be identified prepared in advance in this character recognition process are all characters of Arabic numerals / kanji and katakana / hiragana and about 200 kanji used for addressing.
These characters (400 characters or less in total) are prepared for print type characters and handwritten characters (the maximum number of prepared characters is about 800 characters).

【0020】上述のユニット102〜110各々につい
ては従来技術で構成できるので、これ以上詳細に立ち入
った説明は避けることにする。あいまいさを含んだ入力
文字画像に対し、文字識別を100%正解するよう図る
ことは現実的でない。そこで、本願実施例では、後に住
所知識(住所辞書50)を利用した後処理があることを
前提にして、入力画像単位に識別候補という形で類似度
の高いものから順に10候補を出力するようにしてい
る。こうすることによって、識別候補を単一にしたので
は得られない高い識別率を獲得できる。
Since each of the above-mentioned units 102-110 can be constructed by conventional techniques, a more detailed description will be avoided. It is not realistic to attempt 100% correct character identification for an input character image containing ambiguity. Therefore, in the present embodiment, assuming that there is post-processing that uses address knowledge (address dictionary 50) later, 10 candidates are output in order from the highest similarity in the form of identification candidates in input image units. I have to. By doing so, it is possible to obtain a high identification rate that cannot be obtained by using a single identification candidate.

【0021】また、記載上のあいまいさとして残された
記載方向(縦書き/横書き)の区分については、入力文
字画像を90°および180°回転させて識別処理を行
ない、それぞれの回転単位について一連の文字候補行列
を出力する。
Further, regarding the division of the writing direction (vertical writing / horizontal writing) left as the ambiguity in the writing, the input character image is rotated by 90 ° and 180 ° for identification processing, and a series of rotation units are set. Output the character candidate matrix of.

【0022】住所認識ユニット20では、配達局管内に
与えられた区名、町名、大口受取人名などの知識データ
ベース(辞書50の一部)を用い、文字識別候補行列か
ら宛名を決定する。たとえば東京都足立区の足立郵便局
を例に取ると、住所として用意した標準表記町名は31
種あり、また大口受取人名としては足立区役所など10
種ある。しかしそれらの名称の表記は様々な変形を含む
ので、他の町名/大口受取人名と競合しない限りにおい
て、変形の頻度に応じて学習を進め、宛名知識データを
増やすようにする。
The address recognition unit 20 determines the address from the character identification candidate matrix using a knowledge database (part of the dictionary 50) of the ward name, town name, large recipient name, etc. given to the delivery office. For example, taking the Adachi post office in Adachi-ku, Tokyo as an example, the standard notation town name prepared as an address is 31.
There are 10 types of seeds, such as Adachi Ward Office for large recipients.
There is a seed. However, since the notations of these names include various variations, learning is advanced according to the frequency of variations and the address knowledge data is increased unless it conflicts with other town names / large recipient names.

【0023】たとえば、足立区の「小台」という町名を
例に取ると、標準の知識では「オダイ」となるがこの町
名には「コダイ」、[オタイ]、「コタイマチ」、「オ
ダイチョウ」などの変形がある。これらの変形呼称がい
ずれも足立区の「小台」を指すものとして、宛名知識デ
ータベース(住所辞書50)に蓄積される。
For example, taking the town name "Odai" in Adachi Ward as an example, the standard knowledge is "Odai", but this town name is "Kodai", "Otai", "Kotaimachi", "Odaicho", etc. There is a variation of. All of these modified names are stored in the address knowledge database (address dictionary 50) as pointing to "small stand" in Adachi Ward.

【0024】上述したような変形を含む住所/大口受取
人名による知識から、2文字以上連接した文字群によっ
て作られる単語を作成し、この単語によって前記文字識
別候補行列を評価する。たとえば作成された単語が「東
京都」であり対応する文字識別候補行列が図6(b)に
示すようなものであれば、「東東群」、「東東都」、
「東京群」、「東京都」、「京東群」、「京東都」、
「京東群」、「京京都」といった語群から、「東京都」
という住所辞書50に(宛名知識として)登録された地
名が最終的に選択される。
From the knowledge based on the address / major recipient's name including the above-described modifications, a word made up of a group of two or more characters concatenated is created, and the word is used to evaluate the character identification candidate matrix. For example, if the created word is “Tokyo” and the corresponding character identification candidate matrix is as shown in FIG. 6B, “East East group”, “East East capital”,
"Tokyo group", "Tokyo", "Kyoto group", "Kyoto capital",
From the group of words such as "Kyoto group" and "Kyoto group", "Tokyo"
The place name registered in the address dictionary 50 (as addressing knowledge) is finally selected.

【0025】その後、全ての単語照合が終了した段階
で、いくつかの単語候補について再度知識処理が行なわ
れる。それは単語照合と同様に単語間の隣接関係を保っ
たうえで、住所または大口受取人名としての単語並びが
得られるかどうかを評価する処理である。たとえば、東
京都という単語の次に足立区という単語が並びその次に
町名が並んでいるか、あるいは足立区の次に区役所など
の大口受取人名称単語が並んでいるか、といった点が評
価される。この評価では、単語毎に所定の得点を与え
(現実の住所地名表記に近いものほど高得点)、得点の
積算により最も高い得点を得た宛名を出力するようにで
きる。
After that, when all word matching is completed, knowledge processing is performed again for some word candidates. Similar to word matching, it is a process of evaluating whether or not a word sequence as an address or a large recipient name can be obtained while maintaining the adjacency relationship between words. For example, whether the word "Tokyo" is followed by the word "Adachi-ku" followed by the town name, or the word "adachi-ku" is followed by large recipient address words such as ward offices is evaluated. In this evaluation, a predetermined score is given for each word (the closer to the actual address and place name notation, the higher the score), and the address having the highest score can be output by accumulating the scores.

【0026】大口受取人宛ての郵便物を除いて、町名以
降の丁目、街区(番/号など)を識別するため、検出さ
れた町名の文字画像上の位置および宛名記載書式コード
(縦書き/横書き/回転などの情報)を従属情報として
次の処理に渡す。
In order to identify the streets after the town name and the block (number / number etc.) except the mail addressed to the large recipient, the position of the detected town name on the character image and the address description format code (vertical writing / (Information such as horizontal writing / rotation) is passed to the next process as dependent information.

【0027】町名までの認識後では、町名に連なる文字
画像が丁目/街区を表すことが明かとなる。住所認識ユ
ニット20は、この丁目/街区の部分を識別して最終的
な宛名を決定し、これを宛名区分コードに変換して出力
する。
After recognition up to the town name, it becomes clear that the character image in the street name represents the chome / block. The address recognition unit 20 identifies this part of the chome / block, determines a final address, converts it into an address classification code, and outputs it.

【0028】以上まとめると、図5の実施例は以下のよ
うに機能する。すなわち、文字認識部10では文字辞書
30が参照され、手書き文字あるいは印刷活字の文字読
取/認識が行なわれる。住所認識ユニット20では文字
テーブル40が参照され、文字認識部10で認識された
1以上の読取文字の組合せが1以上作成される。次に作
成された読取文字の組合せによって住所辞書50が引か
れ、この辞書50から読取文字組合せに該当する正しい
住所表示語が読み出される。辞書50から読み出された
1以上の住所表示語の文字コードと、これらの住所表示
語に続く住所表示数値(丁目、番、号など)のコードが
まとめられて、住所読取結果(宛名区分コード)として
出力される。
In summary, the embodiment of FIG. 5 functions as follows. That is, the character recognition unit 10 refers to the character dictionary 30 to read / recognize handwritten characters or printed characters. The address recognition unit 20 refers to the character table 40 and creates one or more combinations of one or more read characters recognized by the character recognition unit 10. Next, the address dictionary 50 is looked up by the created combination of read characters, and the correct address display word corresponding to the read character combination is read from this dictionary 50. The character code of one or more address display words read from the dictionary 50 and the code of the address display numerical values (chome, number, number, etc.) following these address display words are collected, and the address read result (address classification code) is collected. ) Is output.

【0029】次に、図1を参照して、文字認識後の住所
表記文字から住所が読み取られるまでの過程をいくつか
の段階に分けて説明する。 (1)まず、郵便物の紙面に記載された住所文字は、図
5の光電変換ユニット102、領域検出ユニット10
4、行検出ユニット106、および文字検出ユニット1
08を経て、図6(a)の文字画像のように1文字づつ
に切り分けられる。
Next, referring to FIG. 1, the process from the address notation character after character recognition until the address is read will be described in several stages. (1) First, the address character written on the paper surface of the mail is the photoelectric conversion unit 102 and the area detection unit 10 shown in FIG.
4, line detection unit 106, and character detection unit 1
After 08, it is divided into each character as shown in the character image of FIG.

【0030】次に各文字画像は、図5の文字認識ユニッ
ト110において文字辞書30に登録されている全ての
文字種と照合/評価され(図1のステップST10、ス
テップST12)、図6(a)の最上段の「文字画像」
の行に示すような文字認識結果が得られる。(ここで文
字画像は正しい文字「東京都足立区…」で例示してある
が、これらはたとえば「東東群足土区…」のように誤っ
た文字を含んでいてもよい。)その後の住所認識処理の
処理量を大幅に軽減するため、住所認識処理で扱う文字
は、図6(a)のように評価値の高い方から一定数の候
補、例えば10候補に限定される。この場合、各文字の
正解の評価値が11位以下の場合は住所読取は不能とな
り、正解の読取率は低下する。
Next, each character image is collated / evaluated with all the character types registered in the character dictionary 30 in the character recognition unit 110 of FIG. 5 (step ST10, step ST12 of FIG. 1), FIG. 6 (a). "Character image" at the top of
The character recognition result as shown in the line is obtained. (Here, the character image is exemplified by the correct character "Adachi-ku, Tokyo ...", but these may include incorrect characters such as "East-higashi Ashito-ku ..." In order to significantly reduce the processing amount of the address recognition processing, the characters handled in the address recognition processing are limited to a certain number of candidates, for example, 10 candidates from the one having the highest evaluation value as shown in FIG. In this case, when the evaluation value of the correct answer of each character is 11th or less, the address reading becomes impossible and the reading rate of the correct answer decreases.

【0031】すなわち、文字認識ユニット110から文
字認識結を出力する前にこの候補選択処理を行なうと、
図6(a)の「京」の様に都道府県名に用いられる文字
を読み取る場合でも、都道府県名には現われない市、
区、町名の文字などが上位に上がり、正解の「京」が1
0の候補に残らない場合が多発する。
That is, if this candidate selection processing is performed before the character recognition unit 110 outputs the character recognition result,
Even when reading a character used for a prefecture name such as "Kyo" in FIG. 6A, a city that does not appear in the prefecture name,
Characters such as ward and town name go up to the top, and correct answer "Kyo" is 1
Frequently, there are cases where the candidate does not remain 0.

【0032】(2)そこで本願実施例では、正解文字が
候補に残らないということをなくすために、文字認識ユ
ニット110での認識結果(たとえば東京都足立区西新
井栄町1丁目2番3号)を全て住所認識ユニット20に
送るようにしている。そして、住所認識ユニット20で
は、住所を住所表記の上位階層(都道府県名称)から段
階的に読み進める。
(2) Therefore, in the present embodiment, in order to prevent the correct characters from remaining in the candidates, the recognition result in the character recognition unit 110 (for example, 1-3-2 Nishiaraieicho, Adachi-ku, Tokyo) is used. All are sent to the address recognition unit 20. Then, in the address recognition unit 20, the address is read step by step from the upper hierarchy (prefecture name) of the address notation.

【0033】まず、読取対象として都道府県が指定され
る(ステップST14)。次に文字種テーブル40か
ら、都道府県名称(1都2府1道43県)だけの読み取
りに必要な文字種リスト(都道府県専用文字テーブル)
が文字辞書/基本文字候補30から読み出される(ステ
ップST16)。
First, the prefecture is designated as the reading target (step ST14). Next, from the character type table 40, a list of character types required to read only prefecture names (1 prefecture, 2 prefectures, 43 prefectures) (character tables dedicated to prefectures)
Is read from the character dictionary / basic character candidate 30 (step ST16).

【0034】そして、文字認識結果の住所表記文字
(「東」「京」「都」)各々に対して、この文字種リス
トに含まれる中で上位10候補が選択される。この結
果、図6(b)に示すように、都道府県指定による該当
文字候補が得られる。
Then, for each address notation character (“East”, “Kyo”, “Miyako”) as a result of character recognition, the top 10 candidates in the character type list are selected. As a result, as shown in FIG. 6B, the corresponding character candidates designated by the prefecture are obtained.

【0035】すなわち、図6(a)の例のように、単に
文字認識結果の上位10候補を選択した時には10候補
中に入らなかった「京」の正解文字が、都道府県指定下
の選択では10候補中に入るようになる。これらの文字
候補(東、京、郡、都など)の組合せ単語と住所辞書5
0の登録内容とが照合されて、正しい住所表記(東京
都)が読み取られる。
That is, as in the example of FIG. 6 (a), when the top 10 candidates of the character recognition result are simply selected, the correct character of "Kyo" which is not included in the 10 candidates is selected by the prefecture. You will be in the 10 candidates. Combination word of these character candidates (east, Kyoto, county, capital, etc.) and address dictionary 5
The registered content of 0 is checked and the correct address notation (Tokyo) is read.

【0036】(3)図6(b)の例では、「東京都」が
読み取れたので、次の読取対象は都下の市/区/郡/島
名となる。次に、読取対象として東京都(他の都道府県
名、例えば神奈川県でもやり方は同様)が指定される
(ステップST18)。
(3) In the example of FIG. 6B, "Tokyo" has been read, so the next read target is the city / ward / county / island name of the suburbs. Next, the Tokyo metropolitan area (name of other prefecture, for example, the method is the same in Kanagawa prefecture) is designated as the reading target (step ST18).

【0037】次に文字種テーブル40から、都下の地域
名称(23区27市ほか)の読み取りに必要な文字種リ
スト(区/市/郡/島専用文字テーブル;すなわち地域
名文字テーブル)が基本文字候補30から読み出される
(ステップST20)。
Next, from the character type table 40, the character type list (ward / city / county / island-specific character table; that is, area name character table) necessary for reading the local name (23 wards, 27 cities, etc.) in the suburbs is the basic character. It is read from the candidate 30 (step ST20).

【0038】そして、文字認識結果の住所表記文字
(「足」「立」「区」)各々に対して、この文字種リス
トに含まれる中で上位10候補が選択される。この結
果、図6(c)に示すように、東京都指定下における該
当文字候補が得られる。
Then, for each address notation character (“foot”, “standing”, “ward”) as a result of character recognition, the top 10 candidates in the character type list are selected. As a result, as shown in FIG. 6C, the corresponding character candidate under the designation of Tokyo is obtained.

【0039】すなわち、単に文字認識結果の上位10候
補を選択した時(図6(a)の例)には10候補中に入
らなかった「立」の正解文字が、東京都指定下の選択で
は10候補中に入るようになる。これらの文字候補
(足、北、区、荒、立、国など)の組合せ単語と住所辞
書50の登録内容とが照合されて、正しい住所表記(足
立区)が読み取られる。
That is, when the top 10 candidates of the character recognition result are simply selected (the example of FIG. 6A), the correct character of "standing" which is not included in the 10 candidates is selected by the designated Tokyo. You will be in the 10 candidates. The combination word of these character candidates (Adachi, Kita, Ward, Ara, Tachi, Nation, etc.) is collated with the registered contents of the address dictionary 50 to read the correct address notation (Adachi Ward).

【0040】(4)次に、読取対象として足立区(他の
都下地域名、例えば府中市でも同様)が指定される(ス
テップST22)。続いて文字種テーブル40から、足
立区内の地域名称(町名など)の読み取りに必要な文字
種リスト(町名/地名専用文字テーブル)が基本文字候
補30から読み出される(ステップST24)。
(4) Next, Adachi Ward (name of another suburban area, for example, Fuchu City) is designated as a reading target (step ST22). Subsequently, a character type list (town name / place name-dedicated character table) necessary for reading the area name (town name, etc.) in Adachi-ku is read from the character type table 40 from the basic character candidate 30 (step ST24).

【0041】そして、文字認識結果の住所表記文字
(「西」「新」「井」「栄」「町」)各々に対して、こ
の文字種リストに含まれる中で上位10候補が選択され
る。この結果、足立区指定による該当文字候補が得られ
る。
Then, for each address notation character (“West”, “New”, “I”, “Sakae”, “Machi”) as a result of character recognition, the top 10 candidates in the character type list are selected. As a result, a corresponding character candidate designated by Adachi Ward is obtained.

【0042】すなわち、住所表記文字(「西」「新」
「井」「栄」「町」の5文字)各々に対する上位10候
補中に正解文字が入るようになる。これらの各10文字
候補(合計50文字)の組合せ単語と住所辞書50の登
録内容とが照合されて、正しい住所表記(西新井栄町)
が読み取られる。
That is, the address notation characters (“west”, “new”)
Correct characters will be included in the top 10 candidates for each of "I", "Sakae", and "Machi". The combination word of each of these 10-character candidates (50 characters in total) is collated with the registered contents of the address dictionary 50, and correct address notation (Nishiaraeicho)
Is read.

【0043】ここで、読み取った住所が最終段階であれ
ば処理を終え、更に下位階層があれば読取対象を更新し
て別の文字種リスト(専用文字テーブル)を基本文字候
補30から読み出して、該当住所表記の読み取りが行な
われる。
If the read address is at the final stage, the process is terminated. If there is a lower layer, the read target is updated, another character type list (dedicated character table) is read from the basic character candidate 30, and the corresponding The address notation is read.

【0044】(5)その後、読み取った都道府県名と区
市町村名(東京都足立区西新井栄町)の文字コードが出
力され(ステップST26)、これに街区識別コード
(丁目/番地/号の数値コード)が付加される(ステッ
プST28)。そして、これらの文字/数値コードから
最終的な住所区分コードが求められ、住所認識ユニット
20から住所区分コードが出力される(ステップST3
0)。
(5) Thereafter, the character codes of the prefecture name and the ward municipality name (Nishiaraimachi, Adachi-ku, Tokyo) that have been read are output (step ST26), and the block identification code (numerical code of chome / address / number) is output to this. ) Is added (step ST28). Then, a final address classification code is obtained from these character / numerical codes, and the address recognition unit 20 outputs the address classification code (step ST3).
0).

【0045】図2は、この発明の一実施例に係る住所読
取システムにおいて、文字認識後の住所表記文字のう
ち、第1階層の住所表示(都道府県)を読み取る手順を
示す。まず、都道府県名から始まる文字列が図5の文字
認識部10に入力される(ステップST100)。する
と文字認識ユニット110のCPUは文字辞書30を参
照して入力された文字列の認識処理を行なう(ステップ
ST102)。文字辞書30の記憶容量は通常は800
文字程度でよいが、状況によりもっと大容量(たとえば
3000文字分)にしてもよい。
FIG. 2 shows a procedure of reading the address display (prefecture) of the first hierarchy among the address notation characters after character recognition in the address reading system according to the embodiment of the present invention. First, a character string starting with the prefecture name is input to the character recognition unit 10 in FIG. 5 (step ST100). Then, the CPU of the character recognition unit 110 refers to the character dictionary 30 to perform the recognition process of the input character string (step ST102). The storage capacity of the character dictionary 30 is normally 800.
Although it may be about characters, it may be larger (for example, 3000 characters) depending on the situation.

【0046】文字認識処理が済むと、ユニット110は
都道府県名から始まる文字列を出力する(ステップST
104)。ここで、文字認識が正しく行なわれたと仮定
すれば、ユニット110からは、たとえば「東」「京」
「都」「足」「立」「区」「西」「新」「井」「栄」
「町」・・・・・・を示す文字コードの集合が出力され
る。この文字認識が誤りを含んでいるときは、たとえば
「東」「東」「群」「足」「北」「区」・・・・・・と
いった文字コードの集合が出力される。
After the character recognition processing is completed, the unit 110 outputs a character string starting with the prefecture name (step ST
104). Here, assuming that the character recognition is correctly performed, from the unit 110, for example, "East" and "Kyo"
"Capital""foot""standing""ward""west""new""well""Sakae"
A set of character codes indicating "town" ... Is output. When this character recognition includes an error, a set of character codes such as "East", "East", "Group", "Feet", "North", "Ku" ... Is output.

【0047】文字認識ユニット110から出力された文
字コードの集合は、住所表記の上位階層(都道府県名)
から順に下位階層(市/区/町名)に向かって並んでい
る。このような文字コードの集合(文字列)が、住所認
識ユニット20に渡される。
The set of character codes output from the character recognition unit 110 is the upper layer of the address notation (prefecture name).
They are arranged in order from the lower hierarchy (city / ward / town name). A set (character string) of such character codes is passed to the address recognition unit 20.

【0048】住所認識ユニット20では、まず都道府県
名の読み取りから初めるために、読取対象を「都道府
県」にセットする(ステップST106)。すると住所
認識ユニット20のCPUは、都道府県名にだけ用いら
れる文字で構成される都道府県文字テーブルを基本文字
候補30から抽出する(ステップST108)。都道府
県文字テーブルの記憶容量は、100文字分あれば足り
る。
In the address recognition unit 20, the reading target is set to "prefecture" in order to start reading the prefecture name (step ST106). Then, the CPU of the address recognition unit 20 extracts a prefecture character table composed of characters used only for the prefecture name from the basic character candidate 30 (step ST108). The storage capacity of the prefecture character table is enough for 100 characters.

【0049】ユニット20のCPUは、文字認識後の文
字列の頭から3文字(たとえば「東」「東」「群」)を
取り出し、各文字について、都道府県文字テーブルか
ら、類似度の高い順に10文字を抽出する(ステップS
T110)。すなわち、合計30文字が都道府県名の読
み取りのための候補として挙げられる。
The CPU of the unit 20 extracts three characters (for example, "East", "East", and "Group") from the beginning of the character string after character recognition, and for each character, from the prefecture character table, in descending order of similarity. Extract 10 characters (step S
T110). That is, a total of 30 characters are listed as candidates for reading the prefecture name.

【0050】なお、都道府県名のうち神奈川県、和歌山
県、鹿児島県は4文字であるが、これらの県名はその最
初の3文字(神奈川、和歌山、鹿児島)で識別できる。
一方、文字認識後の文字列の頭から2文字しか読まない
と、仮に都道府県名が平仮名で記載されていた場合(た
とえば「やまがた県」「やまなし県」「やまぐち
県」)、都道府県名の識別が不能になる。3文字読め
ば、平仮名記載が含まれていても、都道府県名の識別は
可能になる。
Of the prefecture names, Kanagawa prefecture, Wakayama prefecture, and Kagoshima prefecture have four characters, but these prefecture names can be identified by the first three characters (Kanagawa, Wakayama, Kagoshima).
On the other hand, if only two characters are read from the beginning of the character string after character recognition, if the prefecture name is written in hiragana (for example, "Yamagata prefecture", "Yamamanashi prefecture", "Yamaguchi prefecture"), the prefecture The first name cannot be identified. If three characters are read, it is possible to identify the prefecture name even if the hiragana entry is included.

【0051】次にユニット20のCPUは、抽出された
3組10種の各文字組グループそれぞれから1文字づつ
取り出して3文字の組合せ単語を順次作りこれらの3文
字単語と住所辞書50(知識データベース含む)に登録
された住所表記名とを逐次一対比較する(ステップST
112)。
Next, the CPU of the unit 20 takes out one character from each of the extracted three character sets and each of the ten character group groups and sequentially creates three character combination words, and these three character words and the address dictionary 50 (knowledge database). A pair of address notation names registered in (including) are successively compared (step ST
112).

【0052】この一対比較の結果、一致単語(文字列
「東京都」に対する登録語「東京都」)が見つかれば、
あるいは知識データベースを利用して対応単語(文字列
「東東群」に対する登録語「東京都」)が見つかれば、
次の処理に移る(ステップST114、イエス)。一致
単語あるいは対応単語が見つからなければ、読取不能と
してその処理を終了し(ステップST114、ノー)別
の郵便物の住所読取処理に移る。
As a result of this pairwise comparison, if a matching word (registered word "Tokyo" for the character string "Tokyo") is found,
Or if you can find the corresponding word (registered word "Tokyo" for the character string "East and East") using the knowledge database,
The process moves to the next process (step ST114, Yes). If the matching word or the corresponding word is not found, it is considered unreadable and the process is terminated (step ST114, No), and the process proceeds to another mail address reading process.

【0053】上記一対比較で一致単語(文字列「東京
都」に対する登録語「東京都」)が見つかると、現在の
住所階層が最終階層であるかどうかチェックされる(ス
テップST116)。もし最終階層であれば(ステップ
ST116、イエス)、ユニット20のCPUは、読み
取られた住所表記の文字コードに街区表示(丁目/番/
号など)の数字コードを付け、そこから対応する住所区
分コードを求めて、住所読取判別結果を出力する(ステ
ップST118)。
When a matching word (registered word "Tokyo" for the character string "Tokyo") is found in the above pair comparison, it is checked whether the current address hierarchy is the final hierarchy (step ST116). If it is the final layer (step ST116, Yes), the CPU of the unit 20 displays the block code (chome / number /
No.) and the corresponding address classification code is obtained from the numerical code, and the address read determination result is output (step ST118).

【0054】しかし、この時点(ステップST106〜
ステップST114)では都道府県を読み取っていたの
であるから最終階層ではない(ステップST116、ノ
ー)。
However, at this point (step ST106-
Since the prefecture was read in step ST114), it is not the final layer (step ST116, No).

【0055】図3は、図2の手順の続きであって、文字
認識後の住所表記文字のうち、第2階層の住所表示(区
/市など)を読み取る手順を示す。住所認識ユニット2
0は、ステップST112での比較結果に基づいて、次
に都下の区/市/郡/島の読み取りから初めるために、
読取対象を「東京都」にセットする(ステップST12
0)。すると住所認識ユニット20のCPUは、東京都
下の地名にだけ用いられる文字で構成される東京都文字
テーブルを基本文字候補30から抽出する(ステップS
T122)。東京都文字テーブルの記憶容量は、100
文字分で足りる。
FIG. 3 is a continuation of the procedure of FIG. 2 and shows a procedure of reading the address display (ward / city, etc.) of the second hierarchy among the address notation characters after character recognition. Address recognition unit 2
0 means to start reading the next ward / city / county / island based on the comparison result in step ST112,
The reading target is set to "Tokyo" (step ST12).
0). Then, the CPU of the address recognition unit 20 extracts a Tokyo character table composed of characters used only for the place name under Tokyo from the basic character candidate 30 (step S).
T122). The memory capacity of the Tokyo character table is 100.
Just enough letters.

【0056】ユニット20のCPUは、文字認識後の文
字列の4字目以降の5文字(たとえば「足」「北」
「区」「西」「新」)を取り出し、各文字について、東
京都文字テーブルから、類似度の高い順に10文字を抽
出する(ステップST124)。すなわち、合計50文
字が都下の区/市/郡/島の地名の読取候補として挙げ
られる。
The CPU of the unit 20 uses the five characters (for example, "foot" and "north") of the fourth and subsequent characters of the character string after character recognition.
"Ward", "west", "new") is extracted, and for each character, 10 characters are extracted from the Tokyo character table in descending order of similarity (step ST124). That is, a total of 50 characters can be cited as a candidate for reading the place name of a ward / city / county / island in the suburbs.

【0057】なお、都下の地名のうち最長文字は東久留
米市、武蔵村山市の5文字であり、最短文字は北区、港
区等の2文字であるが、これらの地名の大部分は3文字
(足立区、府中市など)で構成されている。平仮名表記
をふくめて5文字あれば都下の長い地名(「ひがしくる
め市」「ひがしむらやま市」「ひがしやまと市」など)
の区別を付けることができる。
Among the place names in the suburbs, the longest characters are 5 letters of Higashi Kurume City and Musashi Murayama City, and the shortest letters are 2 letters such as Kita Ward and Minato Ward. Most of these place names are It consists of three characters (Adachi Ward, Fuchu City, etc.). Long place names in Tokyo with 5 characters including Hiragana notation (such as "Higashi Kurume City""HigashimurayamaCity""HigashiyamatoCity")
Can be distinguished.

【0058】次にユニット20のCPUは、抽出された
5組10種の各文字組グループそれぞれから1文字づつ
取り出して2文字ないし5文字の組合せ単語を順次作り
これらの2〜5文字単語と住所辞書50(知識データベ
ース含む)に登録された住所表記名とを逐次一対比較す
る(ステップST126)。
Next, the CPU of the unit 20 takes out one character from each of the extracted five character sets and each of the ten character set groups and sequentially creates a combination word of two to five characters and these two to five character words and the address. A pair of address notation names registered in the dictionary 50 (including the knowledge database) are successively compared (step ST126).

【0059】この一対比較の結果、一致単語(文字列
「足立区」に対する登録語「足立区」)が見つかれば、
あるいは知識データベースを利用して対応単語(文字列
「足北区」に対する登録語「足立区」)が見つかれば、
次の処理に移る(ステップST128、イエス)。一致
単語あるいは対応単語が見つからなければ、読取不能と
してその処理を終了し(ステップST128、ノー)別
の郵便物の住所読取処理に移る。
As a result of this pairwise comparison, if a matching word (registered word "Adachi-ku" for the character string "Adachi-ku") is found,
Or if a corresponding word (registered word "Adachi-ku" for the character string "Ashikita-ku") is found using the knowledge database,
The process moves to the next process (step ST128, Yes). If no matching word or corresponding word is found, it is considered unreadable and the process is terminated (step ST128, No), and another mail address reading process is started.

【0060】上記一対比較で一致単語(文字列「足立
区」に対する登録語「足立区」)が見つかると、現在の
住所階層が最終階層であるかどうかチェックされる(ス
テップST130)。もし最終階層であれば(ステップ
ST130、イエス)、ユニット20のCPUは、読み
取られた住所表記の文字コードに街区表示(丁目/番/
号など)の数字コードを付け、そこから対応する住所区
分コードを求めて、住所読取判別結果を出力する(ステ
ップST132)。
When a matching word (registered word "Adachi-ku" for the character string "Adachi-ku") is found in the above paired comparison, it is checked whether or not the current address hierarchy is the final hierarchy (step ST130). If it is the final layer (step ST130, Yes), the CPU of the unit 20 displays the block code (chome / number /
No.) and the corresponding address classification code is obtained from the numerical code, and the address read determination result is output (step ST132).

【0061】しかし、この時点(ステップST120〜
ステップST128)では都下の区/市などの地名(住
所表記の上位〜中位階層)を読み取っており、最終階層
ではない(ステップST130、ノー)。
However, at this point (step ST120-
In step ST128), the place name (upper to middle hierarchy in the address notation) of a ward / city, etc. under Tokyo is read, and it is not the final hierarchy (step ST130, No).

【0062】図4は、図3の手順の続きであって、文字
認識後の住所表記文字のうち、第3階層の住所表示(町
/村その他の地名)を読み取る手順を示す。住所認識ユ
ニット20は、ステップST126での比較結果に基づ
いて、次に足立区内の地名の読み取りから初めるため
に、読取対象を「足立区」にセットする(ステップST
134)。すると住所認識ユニット20のCPUは、足
立区内の地名にだけ用いられる文字で構成される足立区
文字テーブルを基本文字候補30から抽出する(ステッ
プST136)。足立区文字テーブルの記憶容量も10
0文字分でよい。
FIG. 4 is a continuation of the procedure of FIG. 3 and shows a procedure of reading the address display (town / village or other place name) of the third hierarchy among the address notation characters after character recognition. The address recognition unit 20 sets the reading target to "Adachi-ku" in order to start reading the place name in Adachi-ku next based on the comparison result in step ST126 (step ST).
134). Then, the CPU of the address recognition unit 20 extracts an Adachi-ku character table composed of characters used only for place names in Adachi-ku from the basic character candidates 30 (step ST136). Adachi Ward character table also has a storage capacity of 10
0 characters is enough.

【0063】ユニット20のCPUは、文字認識後の文
字列の7字目以降の7文字(たとえば「西」「新」
「井」「栄」「町」「1」「丁」)を取り出し、各文字
について、東京都文字テーブルから、類似度の高い順に
10文字を抽出する(ステップST138)。すなわ
ち、合計70文字が足立区内の地名の読取候補として挙
げられる。
The CPU of the unit 20 has seven characters after the seventh character of the character string after character recognition (for example, "west" and "new").
"I", "Sakae", "town", "1", "Ding") are taken out, and for each character, 10 characters are extracted from the Tokyo character table in descending order of similarity (step ST138). That is, a total of 70 characters are listed as candidates for reading the place name in Adachi City.

【0064】なお、都下の地名のうち最長文字は西新井
栄町等の5文字であり、最短文字は青井等の2文字であ
る。平仮名表記をふくめて7文字あれば足立区内の長い
地名(「にしあらいさかえ町」「にしあらいほん町」な
ど)の区別を付けることができる。
Among the place names in Tokyo, the longest characters are 5 characters such as Nishiarai Sakaemachi and the shortest characters are 2 characters such as Aoi. With 7 characters including Hiragana notation, it is possible to distinguish long place names in Adachi City (such as "Nishiaraisakae Town" and "Nishiaraihon Town").

【0065】次にユニット20のCPUは、抽出された
7組10種の各文字組グループそれぞれから1文字づつ
取り出して2文字ないし7文字の組合せ単語を順次作り
これらの2〜7文字単語と住所辞書50(知識データベ
ース含む)に登録された住所表記名とを逐次一対比較す
る(ステップST140)。
Next, the CPU of the unit 20 takes out one character from each of the extracted 7 sets and 10 types of character set groups, and sequentially creates a combination word of 2 to 7 characters and these 2 to 7 character words and the address. A pair of address notation names registered in the dictionary 50 (including the knowledge database) are successively compared (step ST140).

【0066】この一対比較の結果、一致単語(文字列
「西新井栄町」に対する登録語「西新井栄町」)が見つ
かれば、あるいは知識データベースを利用して対応単語
(たとえば文字列「酉新丼栄田」に対する登録語「西新
井栄町」)が見つかれば、次の処理に移る(ステップS
T142、イエス)。一致単語あるいは対応単語が見つ
からなければ、読取不能としてその処理を終了し(ステ
ップST142、ノー)別の郵便物の住所読取処理に移
る。
As a result of this pairwise comparison, if a matching word (registered word "Nishiarai Sakae town" for the character string "Nishiarai Sakae town") is found, or a corresponding word (for example, for the character string "Rooster Shindon Eitada") is utilized using the knowledge database. If the registered word "Nishiarai-cho" is found, move to the next process (step S).
T142, yes). If the matching word or the corresponding word is not found, it is considered unreadable and the process is terminated (step ST142, No), and another mail address reading process is performed.

【0067】上記一対比較で一致単語(文字列「西新井
栄町」に対する登録語「西新井栄町」)が見つかると、
入力された文字列のうちまだ一対比較していない(つま
り読み取り判定していない)文字列があるかどうかチェ
ックされる(ステップST144)。もし未比較文字列
があれば(ステップST144、イエス)、ユニット2
0のCPUは、街区(丁目/番/号など数字を伴うも
の)以外の文字各々について足立区文字テーブルを参照
し、足立区内の地名として用いられている文字10候補
を、未比較文字列それぞれの文字に対して選択する(ス
テップST146)。そして各文字候補の全ての組合せ
単語と住所辞書50内の足立区地名とが一対比較される
(ステップST148)。
When a matching word (registered word "Nishiarai Sakae" for the character string "Nishiarai Sakae") is found in the above paired comparison,
It is checked whether or not there is a character string that has not undergone pair comparison (that is, read determination has not been performed) among the input character strings (step ST144). If there is an uncompared character string (step ST144, Yes), unit 2
The CPU of 0 refers to the Adachi Ward character table for each character other than the block (things with numbers such as chome / ban / go), and compares the 10 character candidates used as place names in Adachi Ward with the uncompared character string. A selection is made for each character (step ST146). Then, all the combination words of each character candidate and the Adachi-ku place name in the address dictionary 50 are pair-compared (step ST148).

【0068】この一対比較の結果、一致単語あるいは対
応単語が見つからなければ、読取不能としてその処理を
終了し(ステップST142、ノー)、別の郵便物の住
所読取処理に移る。一致単語あるいは対応単語が見つか
り(ステップST142、イエス)、その後に未比較文
字列がないならば(ステップST144、ノー)、ユニ
ット20のCPUはその時点が住所表記の最終階層と判
断し、読み取られた住所表記(東京都足立区西新井栄
町)の文字コードに街区表示(丁目/番/号など)の数
字コードを付け、そこから対応する住所区分コードを求
めて、住所読取判別結果を出力する(ステップST15
0)。
If no matching word or corresponding word is found as a result of this pair-wise comparison, it is considered unreadable and the process is terminated (step ST142, No), and another mail address reading process is started. If a matching word or a corresponding word is found (step ST142, Yes) and there is no uncompared character string after that (step ST144, No), the CPU of the unit 20 judges that time is the last hierarchy of the address notation and is read. The address code (Nishiarai-cho, Adachi-ku, Tokyo) is attached to the numerical code of the block display (chome / ban / go etc.), the corresponding address classification code is obtained from it, and the address read determination result is output ( Step ST15
0).

【0069】[0069]

【発明の効果】この発明によれば、住所を上位階層から
順に認識して行く場合に、各階層に必要な文字種のみを
参照するため、不用な文字候補が出てくることはなく、
正解文字を含む最適な文字候補を選択することができる
から、住所読取正解率を向上させることができる。
According to the present invention, when an address is recognized in order from the upper hierarchy, only the character types required for each hierarchy are referred to, so that no unnecessary character candidates appear.
Since it is possible to select the optimum character candidate including the correct answer character, it is possible to improve the address reading correct answer rate.

【0070】また、全ての文字認識を終わらせてから住
所認識に移るので、連続して多数の住所読取を行なう場
合には、住所認識処理中(図1のステップST14〜ス
テップST30)に文字認識のハードウエア(10)は
次の住所表記の文字認識(図1のステップST10〜ス
テップST12)を開始することができる。すると、文
字認識と住所認識の並列処理が可能となるから、処理効
率が向上する。
Further, since the address recognition is started after finishing all the character recognition, the character recognition is performed during the address recognition processing (step ST14 to step ST30 in FIG. 1) when a large number of address readings are continuously performed. The hardware (10) can start the next character recognition of the address notation (step ST10 to step ST12 in FIG. 1). Then, since the character recognition and the address recognition can be performed in parallel, the processing efficiency is improved.

【図面の簡単な説明】[Brief description of drawings]

【図1】図1は、この発明の一実施例に係る住所読取シ
ステムにおいて、文字認識後の住所表記文字からどのよ
うにして正しい住所が読み取られるのかの概要を説明す
る図。
FIG. 1 is a diagram illustrating an outline of how a correct address is read from an address notation character after character recognition in an address reading system according to an embodiment of the present invention.

【図2】図2は、この発明の一実施例に係る住所読取シ
ステムにおいて、文字認識後の住所表記文字のうち、第
1階層の住所表示(都道府県)を読み取る手順を説明す
るフローチャート。
FIG. 2 is a flowchart for explaining a procedure of reading the address display (prefecture) of the first layer among the address notation characters after character recognition in the address reading system according to the embodiment of the present invention.

【図3】図3は、図2の手順の続きであって、文字認識
後の住所表記文字のうち、第2階層の住所表示(区/市
など)を読み取る手順を説明するフローチャート。
FIG. 3 is a flowchart that is a continuation of the procedure of FIG. 2 and illustrates a procedure of reading the address display (ward / city, etc.) of the second layer among the address notation characters after character recognition.

【図4】図4は、図3の手順の続きであって、文字認識
後の住所表記文字のうち、第3階層の住所表示(町/村
その他の地名)を読み取る手順を説明するフローチャー
ト。
FIG. 4 is a flowchart that is a continuation of the procedure of FIG. 3 and illustrates a procedure of reading the address display (town / village or other place name) of the third hierarchy among the address notation characters after character recognition.

【図5】図5は、この発明の一実施例に係る住所読取シ
ステムに適用されるハードウエア構成の概要を説明する
図。
FIG. 5 is a diagram illustrating an outline of a hardware configuration applied to an address reading system according to an embodiment of the present invention.

【図6】図6は、住所表記文字がどのようにして認識さ
れるのかの具体例を説明する図。
FIG. 6 is a diagram illustrating a specific example of how address notation characters are recognized.

【符号の説明】[Explanation of symbols]

10…文字認識部、102…光電変換ユニット、104
…領域検出ユニット、106…行検出ユニット、108
…文字検出ユニット、110…文字認識ユニット(CP
U)、20…住所認識ユニット(CPU)、30…文字
辞書(基本文字候補)、40…文字種テーブル(都道府
県名文字テーブル/地域名文字テーブル)、50…住所
辞書。
10 ... Character recognition unit, 102 ... Photoelectric conversion unit, 104
... Area detection unit, 106 ... Row detection unit, 108
… Character detection unit, 110… Character recognition unit (CP
U), 20 ... Address recognition unit (CPU), 30 ... Character dictionary (basic character candidate), 40 ... Character type table (prefecture name character table / region name character table), 50 ... Address dictionary.

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】 正しい住所表記のデータを格納している
住所辞書と、 1以上の住所表記階層からなる住所表示に用いられる1
以上の住所表記語を構成する文字各々を認識して、文字
認識結果を出力する文字認識手段と、 前記1以上の住所表記語各々の認識に必要な最小限の文
字種を含んで構成される1以上の文字種テーブルと、 前記文字認識手段で認識された文字認識結果のうち、こ
れから認識しようとする住所階層の判定に必要な所定数
の文字種を前記文字種テーブルから抽出し、抽出された
文字各々の組合せで前記住所辞書を引いて、該当する住
所表記語を検出する住所認識手段とを備えたことを特徴
とする住所読取システム。
1. An address dictionary that stores correct address notation data and an address dictionary that is composed of one or more address notation layers 1
A character recognition means for recognizing each of the characters forming the above address notation word and outputting a character recognition result, and a minimum character type necessary for recognizing each of the at least one address notation word. Of the above character type table and the character recognition result recognized by the character recognition means, a predetermined number of character types necessary for determining the address hierarchy to be recognized from the character type table is extracted from the character type table, and each of the extracted characters is extracted. An address reading system comprising: an address recognition unit that detects the corresponding address notation word by drawing the address dictionary in combination.
【請求項2】 前記文字種テーブルが、前記住所認識手
段で検出された住所表記語で特定される地域の認識に必
要な文字種だけで構成される第2の文字種テーブルを含
み、 前記住所認識手段が、前記第2の文字種テーブルから抽
出される文字各々の組合せで前記住所辞書を引いて、該
当する住所表記語を検出するように構成されることを特
徴とする請求項1に記載の住所読取システム。
2. The character type table includes a second character type table configured only of character types necessary for recognizing an area specified by the address notation detected by the address recognizing means, and the address recognizing means. The address reading system according to claim 1, wherein the address dictionary is configured to be searched by subtracting the address dictionary with each combination of characters extracted from the second character type table. .
【請求項3】 正しい住所表記のデータを格納している
住所辞書と、 少なくとも第1および第2の住所表記階層を含む住所表
示に用いられる複数の住所表記語を構成する文字各々を
認識して、文字認識結果を出力する文字認識手段と、 前記第1の住所表記階層の住所表記語の認識に必要な最
小限の文字種を含んで構成される第1の文字種テーブル
と、 前記文字認識手段で認識された文字認識結果のうち、前
記第1の住所表記階層の判定に必要な所定数の文字種を
前記第1の文字種テーブルから抽出し、抽出された文字
各々の組合せで前記住所辞書を引いて、該当する第1の
住所表記語を検出する第1の住所認識手段と、 前記第1の住所認識手段により検出された前記第1の住
所表記語で特定される地域の認識に必要な最小限の文字
種を含んで構成される第2の文字種テーブルと、 前記文字認識手段で認識された文字認識結果のうち、前
記第2の住所表記階層の判定に必要な所定数の文字種を
前記第2の文字種テーブルから抽出し、抽出された文字
各々の組合せで前記住所辞書を引いて、該当する第2の
住所表記語を検出する第2の住所認識手段と、 前記第1および第2の住所認識手段により検出された前
記第1および第2の住所表記語から、対応する住所コー
ドを出力する手段とを備えたことを特徴とする住所読取
システム。
3. An address dictionary storing correct address notation data, and recognizing each character constituting a plurality of address notation words used for address indication including at least first and second address notation hierarchies. A character recognition unit that outputs a character recognition result, a first character type table configured to include a minimum character type necessary for recognizing the address notation word of the first address notation hierarchy, and the character recognition unit. Of the recognized character recognition results, a predetermined number of character types necessary for the determination of the first address notation hierarchy are extracted from the first character type table, and the address dictionary is subtracted with each combination of the extracted characters. , A first address recognition means for detecting the corresponding first address notation word, and a minimum necessary for recognition of an area specified by the first address notation word detected by the first address recognition means. Including the character type From the second character type table configured and the character recognition result recognized by the character recognizing means, a predetermined number of character types necessary for determining the second address notation hierarchy are extracted from the second character type table. A second address recognition means for detecting the corresponding second address notation word by drawing the address dictionary with each combination of the extracted characters; and the second address recognition means for detecting the corresponding second address notation word. An address reading system comprising: means for outputting a corresponding address code from the first and second address notation words.
【請求項4】 複数の文字パターンからそれらに対応す
る文字を認識して住所表記文字列を出力する文字認識手
段と、 正しい住所表記のデータを格納している住所辞書と、 都道府県の名称に用いられる文字で構成される都道府県
文字テーブルと、 前記都道府県文字テーブルおよび前記住所辞書を参照し
て、前記文字認識手段で認識された前記住所表記文字列
の最初の数文字の組合せに対応する都道府県名を検出す
る都道府県名検出手段と、 前記都道府県名検出手段で検出された都道府県名の地域
内の場所を表す地域名に用いられる文字で構成される地
域名文字テーブルと、 前記地域名文字テーブルおよび前記住所辞書を参照し
て、前記文字認識手段で認識された前記住所表記文字列
のうち都道府県名の次に現われる数文字の組合せに対応
する地域名を検出する地域名検出手段と、 前記都道府県名検出手段で検出された都道府県名および
前記地域名検出手段で検出された地域名から、対応する
住所コードを出力する手段とを備えたことを特徴とする
住所読取装置。
4. A character recognition means for recognizing a character corresponding to a plurality of character patterns and outputting an address notation character string, an address dictionary storing data of correct address notation, and a name of a prefecture. With reference to the prefecture character table composed of the characters used, the prefecture character table and the address dictionary, it corresponds to the combination of the first few characters of the address notation string recognized by the character recognition means. A prefecture name detecting means for detecting a prefecture name, a region name character table composed of characters used for a region name representing a place in the region of the prefecture name detected by the prefecture name detecting means, and By referring to the area name character table and the address dictionary, it corresponds to a combination of several characters appearing next to the prefecture name in the address notation character string recognized by the character recognition means. An area name detecting means for detecting an area name, and a means for outputting a corresponding address code from the prefecture name detected by the prefecture name detecting means and the area name detected by the area name detecting means are provided. An address reading device characterized by the above.
【請求項5】 複数の文字パターンからそれらに対応す
る文字を認識して住所表記文字列を出力し、 都道府県の名称に用いられる文字で構成される都道府県
文字テーブルおよび正しい住所表記データを格納してい
る住所辞書を参照して、前記出力された住所表記文字列
の最初の数文字の組合せに対応する都道府県名を検出
し、 前記検出された都道府県名の地域内の場所を表す地域名
に用いられる文字で構成される地域名文字テーブルおよ
び前記住所辞書を参照して、前記出力された住所表記文
字列のうち都道府県名の次に現われる数文字の組合せに
対応する地域名を検出し、 前記検出された都道府県名および前記検出された地域名
から、対応する住所コードを出力することを特徴とする
住所読取方法。
5. An address notation character string is output by recognizing characters corresponding to a plurality of character patterns, and a prefecture character table composed of characters used for the names of prefectures and correct address notation data are stored. The address dictionary that is being used to detect the prefecture name corresponding to the combination of the first few characters of the output address notation character string, and the region representing the place within the region of the detected prefecture name Detecting a region name corresponding to a combination of several characters appearing next to the prefecture name in the output address notation character string by referring to the region name character table composed of characters used in the name and the address dictionary Then, the address reading method is characterized in that a corresponding address code is output from the detected prefecture name and the detected area name.
JP5236154A 1993-09-22 1993-09-22 Address reading system Pending JPH0793467A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5236154A JPH0793467A (en) 1993-09-22 1993-09-22 Address reading system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5236154A JPH0793467A (en) 1993-09-22 1993-09-22 Address reading system

Publications (1)

Publication Number Publication Date
JPH0793467A true JPH0793467A (en) 1995-04-07

Family

ID=16996569

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5236154A Pending JPH0793467A (en) 1993-09-22 1993-09-22 Address reading system

Country Status (1)

Country Link
JP (1) JPH0793467A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0841630A2 (en) * 1996-05-21 1998-05-13 Hitachi, Ltd. Apparatus for recognizing input character strings by inference
JP2020187622A (en) * 2019-05-16 2020-11-19 株式会社Pfu Information processing apparatus, control method, and control program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0841630A2 (en) * 1996-05-21 1998-05-13 Hitachi, Ltd. Apparatus for recognizing input character strings by inference
EP0841630A3 (en) * 1996-05-21 1999-09-01 Hitachi, Ltd. Apparatus for recognizing input character strings by inference
US6751605B2 (en) 1996-05-21 2004-06-15 Hitachi, Ltd. Apparatus for recognizing input character strings by inference
JP2020187622A (en) * 2019-05-16 2020-11-19 株式会社Pfu Information processing apparatus, control method, and control program

Similar Documents

Publication Publication Date Title
KR100401685B1 (en) Recognition device and method of location information, and recording medium thereof
US6327373B1 (en) Mail address reading apparatus and mail sorting apparatus
KR970049823A (en) Character reading method and address reading method
US4524453A (en) Postal code distinguishing apparatus
KR19990072440A (en) Address reader and mails separater, and character string recognition method
JP3485020B2 (en) Character recognition method and apparatus, and storage medium
JPH07509576A (en) How to recognize characters
JPH0793467A (en) Address reading system
JPH06124366A (en) Address reader
JPH09161013A (en) Character read method and address read method
JPS6336037B2 (en)
JPH08243505A (en) Address reading device and its method
JP3162552B2 (en) Mail address recognition device and address recognition method
JPH07271899A (en) Character recognition device
JP2910630B2 (en) Address recognition method, address recognition device, and paper sheet automatic processing system
JP2991594B2 (en) Mail address reading device
JP3088036B2 (en) Address reading sorting machine
JP2922365B2 (en) Kanji address data processing method in OCR processing system
JP4649017B2 (en) Character recognition device and character recognition method
JPH11138108A (en) Mail readout and classifying device
JP3151866B2 (en) English character recognition method
JPH07271920A (en) Character recognizing device
JPH05324899A (en) Recognizing device for address written on mail
JPH10432A (en) Method and apparatus for reading address of mail
JPS63303481A (en) Address reader