JP3106994B2 - 住所読み取り装置 - Google Patents

住所読み取り装置

Info

Publication number
JP3106994B2
JP3106994B2 JP09054173A JP5417397A JP3106994B2 JP 3106994 B2 JP3106994 B2 JP 3106994B2 JP 09054173 A JP09054173 A JP 09054173A JP 5417397 A JP5417397 A JP 5417397A JP 3106994 B2 JP3106994 B2 JP 3106994B2
Authority
JP
Japan
Prior art keywords
address
word
output
storage unit
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP09054173A
Other languages
English (en)
Other versions
JPH10230226A (ja
Inventor
秀樹 下村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP09054173A priority Critical patent/JP3106994B2/ja
Priority to US09/025,500 priority patent/US6115707A/en
Priority to DE19808077A priority patent/DE19808077A1/de
Publication of JPH10230226A publication Critical patent/JPH10230226A/ja
Application granted granted Critical
Publication of JP3106994B2 publication Critical patent/JP3106994B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B07SEPARATING SOLIDS FROM SOLIDS; SORTING
    • B07CPOSTAL SORTING; SORTING INDIVIDUAL ARTICLES, OR BULK MATERIAL FIT TO BE SORTED PIECE-MEAL, e.g. BY PICKING
    • B07C3/00Sorting according to destination
    • B07C3/10Apparatus characterised by the means used for detection ofthe destination
    • B07C3/14Apparatus characterised by the means used for detection ofthe destination using light-responsive detecting means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Character Discrimination (AREA)
  • Sorting Of Articles (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字認識装置に関
し、特に文字認識技術に基づき住所を読み取る装置に関
する。
【0002】
【従来の技術】住所は、都道府県名、市区町村名、大字
名、小字名、街区(丁目、番地、号)、さらには集合住
宅等の場合には部屋番号、等の要素単語から構成されて
いる。そして、これらの要素単語が一意に定まれば、住
所を一意に確定することができる。
【0003】しかしながら、現状の文字認識技術では、
すべての要素単語を、正しく、かつ、一意に認識するこ
とは、実際上不可能である。このため、文字認識技術に
基づく住所読み取りにおいて、文字認識の結果をそのま
ま並べて出力するだけでは、住所を正しく読み取ること
は難しい。
【0004】このような問題に対して、文字認識結果か
ら住所を構成する要素単語を抽出し、さらにその単語群
を住所生成の一般規則と照合することで、読み取り精度
を高めるようにした方式が提案されている(これを「従
来技術1」という)。この従来技術1については、例え
ば、文献(1)(NEC技報、第44巻3号、第25〜
30頁、「郵政省向け郵便物あて名自動読み取り区分
機」)、文献(2)(東芝レビュー、第45巻、2号、
第149〜152頁、「郵便物あて名自動読み取り区分
機」)などの記載が参照される。
【0005】一方、住所が氏名、組織名、建物名などを
伴って記載されることが多いという特質に着目し、都道
府県〜部屋番号、建物名、組織名、氏名から成る住居デ
ータを予め格納しておき、文字認識結果と照合して読み
取り精度を高めるようにした方式も提案されている(こ
れを「従来技術2」という)。この従来技術2について
は、例えば、文献(3)(情報処理学会第53回全国大
会講演論文集2、第283〜284頁、「要素単語の相
互チェックに基づく手書き文字列認識知識処理」)の記
載が参照される。
【0006】また、例えば特開平8−243503号公
報には、丁目番地や棟番号等の認識の信頼性を向上させ
不読を修正する際の人手作業を軽減する郵便物読取装置
として、受取人の丁目番地、棟番号、部屋番号などの詳
細な住所を辞書として保持しており、住所の町域に対応
する詳細郵便番号と受取人の姓名を読み取ることによっ
て当該受取人の詳細な住所を含む区分情報を生成し、当
該詳細辞書と照合することにより、丁目、番地、棟名、
部屋番号を読み取るようにした構成が提案されている。
さらに、特開平8−243505号公報には、住所表示
番号の表記パタ−ンを、任意の数を表わすワイルドカ−
ドを用いた辞書単語として保持し、認識結果の候補文字
群と単語のコストを計算して照合することにより、住所
表示番号の認識を高速で精度よく行うことができる住所
読取装置及び方法の構成が提案されている。上記のいず
れの公報に記載の装置も、町名と氏名の読み取り結果と
予め格納した住居データと照合して丁目、番地などを推
定するという点で、上記従来技術2と類似の技術といえ
る。
【0007】
【発明が解決しようとする課題】しかしながら、上述し
た従来技術は下記記載の問題点を有している。
【0008】まず、上記従来技術1を単独で用いた場
合、文字認識誤りや文字認識不良(認識不能)を修正、
補足することに限界がある、という問題点を有してい
る。その理由は以下の通りである。
【0009】たしかに、地名が都道府県−市区町村−大
字−小字という階層関係になっていることを利用すれ
ば、上位階層の地名が読み取れなくても、下位階層単語
から推定することが可能である。
【0010】しかし、上位階層から下位階層を一意に推
定することはできない。また複数の市区にまたがる広い
範囲を読み取り対象とする場合には、同一表記の単語が
異なる上位階層単語を持つこともあり、下位階層単語だ
けでは上位階層単語を一意に推定できない場合もある。
さらに、街区や部屋番号については、文字認識不良が発
生した場合に、その値を推定することは、きわめて困難
である。
【0011】これに対し、上記従来技術2は、上記従来
技術1と比較して、住所に対して冗長な氏名、建物名、
組織名も含めて住居データと照合することにより、上記
従来技術1の問題点を大幅に改善している。例えば、氏
名の情報から地名の上位階層単語や、街区の認識不良を
推定することが可能である。
【0012】しかしながら、この従来技術2は、文字認
識結果群あるいはそこから抽出された単語候補群と最も
類似した住居データを探索することで、正解を推測す
る、という、発想に基づいている。
【0013】このため、上記従来技術2を単独で適用す
ると、住居データ中に正解が含まれていない場合には、
文字認識がすべて正解を出力していても、正しい読み取
り結果ではなく、類似の誤った住所を出力してしまう、
という問題点が生じることになる。
【0014】もちろん、住居データが完全であればこの
問題すら回避可能であるが、現実問題として読み取り対
象範囲の住居データをもれなく正しく整備することはき
わめて困難である。
【0015】したがって、本発明は、上記問題点に鑑み
てなされたものであって、その目的は、住居データに正
解が含まれていればその情報に基づいて正しい住所読み
取りを行い、また住居データ中に正解が含まれていなく
ても、正しく読み取るに十分な文字認識結果が出力され
れば、正しい読み取り結果を出力できるようにした住所
読み取り装置を提供することにある。
【0016】
【課題を解決するための手段】前記目的を達成する本発
明の住所読み取り装置は、認識対象である住所を構成す
る要素の言語を格納した単語記憶部と、住所を構成する
要素の単語を組合せて住所を生成することに関係する規
則を記憶した住所規則記憶部と、前記単語記憶部と前記
住所規則記憶部を参照して読み取り対象画像中から住所
の要素単語を認識する単語認識手段と、前記単語辞書内
の単語の組み合わせとして存在する住居のレコードを格
納した住居レコード記憶部と、前記単語認識手段の出力
する単語候補群と前記住居レコード部に格納されたレコ
ードを照合して最も尤度の高いレコードを出力する補完
住所生成手段と、前記単語認識手段の出力する単語候補
を組み合わせて前記住所規則記憶部に照らし合わせて最
も尤度の高い住居候補を出力する単語連結住所生成手段
と、前記補完住所生成手段の出力する住所候補と前記単
語連結住所生成手段の出力する住所候補および各々の尤
度を総合的に判断して最終的な住所読み取り結果を出力
する出力判定手段と、を具備する。
【0017】
【発明の実施の形態】本発明の実施の形態について以下
に説明する。本発明の住所読み取り装置は、好ましく
は、補完住所生成手段(図1の103)により住所単語
認識結果を住所レコード部(図1の105)と照合して
読み取り候補を挙げるとともに、単語連結住所生成手段
(図1の106)により前記住所単語認識結果を住所規
則記憶部(図1の104)を参照しながら作成し、出力
判定手段(図1の107)により両候補のうち、尤度の
高い方を出力するようにしたものである。
【0018】本発明は、その好ましい実施の形態におい
て、認識対象である住所を構成する要素の言語を格納し
た単語記憶部(図1の102)と、住所を構成する要素
の単語を組合せて住所を生成することに関係する規則を
記憶した住所規則記憶部(図1の104)と、単語記憶
部と住所規則記憶部とを参照して読み取り対象画像中か
ら住所の要素単語を認識する単語認識手段(図1の10
1)と、単語記憶部内の単語の組み合わせとして存在す
る住居のレコードを格納した住居レコード記憶部(図1
の105)と、単語認識手段(図1の101)の出力す
る単語候補群と、住居レコード記憶部に格納されている
レコードと、を照合して、最も尤度の高いレコードを出
力する補完住所生成手段(図1の103)と、単語認識
手段(図1の101)の出力する単語候補を組み合わせ
て住所規則記憶部(図1の104)に照らし合わせて、
最も尤度の高い住所候補を出力する単語連結住所生成手
段(図1の106)と、補完住所生成手段(図1の10
3)及び単語連結住所生成手段(図1の106)がそれ
ぞれ出力する住所候補および各々の住所候補の尤度を総
合的に判断して、最終的な住所読み取り結果を出力する
出力判定手段(図1の107)と、を備えて構成され
る。
【0019】本発明は、その好ましい実施の形態におい
て、出力判定手段(図1の107)は、補完住所生成手
段(図1の103)の出力する住所候補の尤度(V1)
が予め定められたしきい値(T1)以上の場合には、補
完住所生成手段の出力する住所候補を出力し、予め定め
られたしきい値(T1)未満であれば、単語連結住所生
成手段(図1の106)の出力する住所候補を出力する
ように構成される(図11参照)。
【0020】本発明は、その好ましい実施の形態におい
て、出力判定手段(図1の107)は、単語連結住所生
成手段(図1の106)の出力する住所候補の尤度(V
2)が予め定められたしきい値(T2)以上の場合に
は、単語連結住所生成手段の出力する住所候補を出力
し、予め定めたしきい値(T2)未満であれば補完住所
生成手段の出力する住所候補を出力するように構成され
る(図12参照)。
【0021】本発明は、その好ましい実施の形態におい
て、出力判定手段(図1の107)は、補完住所生成手
段(図1の103)の出力する住所候補の尤度(V1)
に、一定の係数(W)をかけた値と、単語連結住所生成
手段の出力する住所候補の尤度(V2)と、を比較し、
これらの値の大きい方の候補を出力するように構成され
る(図13参照)。
【0022】本発明は、その好ましい実施の形態におい
て、出力判定手段(図1の107)、補完住所生成手段
(図1の103)の出力する住所候補の尤度(V1)
に、一定の係数(W)をかけた値と、単語連結住所生成
手段(図1の106)の出力する住所候補の尤度(V)
と、を比較し、値の大きい方の候補を、仮候補として保
持し、仮候補(V1またはV2)が予め定められたしき
い値(T1またはT2)以上であれば、仮候補を出力
し、仮候補(V1またはV2)が予め定められたしきい
値未満であれば何も出力しないように構成される(図1
4参照)。
【0023】
【実施例】上記した本発明の実施の形態について更に詳
細に説明すべく、本発明の実施例について図面を参照し
て以下に説明する。
【0024】図1は、本発明の第1の実施例の構成を示
すブロック図である。図1を参照すると、本実施例の住
所読み取り装置は、単語認識手段101、単語記憶部1
02、補完住所生成手段103、住所規則記憶部10
4、住居レコード記憶部105、単語連結住所生成手段
106、及び、出力判定手段107を備えて構成されて
いる。
【0025】単語記憶部102には、住所を構成する要
素単語がすべて格納されている。例えば、都道府県名、
市区名、町名、字名、大字名、街区(丁目、番地、号)
の数値、街区の区切り記号、建物名、部屋番号、個人
名、法人名等である。これらは同一の領域に格納されて
もよいし、種類別に異なる領域に格納されてもよい。ま
た丁目、番地、号、部屋番号については、数字の組み合
わせであるため、明示的に辞書に格納しなくとも、例え
ば「数字の並びはすべて丁目、番地、号、部屋番号とみ
なす」等といった規則で代用することができる。
【0026】住居規則記憶部104には、住所を構成す
る単語の間の規則が格納されている。内容は大きく3つ
に分けられる。
【0027】その第1は、地名の間の階層関係情報で、
例えば、都道府県名の次に市区名が現れ、その次に町名
が現れるという情報である。具体例を以て説明すれば、
例えば「宮崎」という町名の上位要素は、「川崎市」と
いう市区名で、さらにその上位要素が、「神奈川県」と
いう県名であるといった情報である。
【0028】第2は、街区の生成規則情報であり、丁目
の次に区切り記号が現れ、その次の番地が現れるといっ
た規則である。
【0029】第3は、どの町名がどのような街区範囲や
表記法を持っているかという情報である。例えば、
「『(神奈川県川崎市宮前区)宮崎』という町には、1
丁目から5丁目までがあり、それぞれ1番地から21番
地までがある」といった情報である。このほか、必要に
応じて、住所の物理的配置情報、例えば、地区、街区、
建物名、部屋番号、氏名の順に通常の住所は記載される
といった情報も格納するようにしてもよい。
【0030】住居レコード記憶部105には、単語記憶
部102に格納された要素単語の組み合わせとして実在
する住居情報が格納されている。例えば、「『神奈川
県』『川崎市』『宮前区』『宮崎』『4』『1』『1』
『日電太郎』」のように単語が並べられており、これ
は、「神奈川県川崎市宮前区宮崎4丁目1番地1号には
日電太郎が住んでいる」といった情報を意味している。
なお、街区の区切り記号は住居レコード記憶部105に
格納する必要はない。
【0031】単語認識手段101は、単語記憶部10
2、および必要に応じて住所規則記憶部104を参照し
ながら、入力された認識対象画像中の各要素単語を認識
する。そして文字認識の尤度、文字認識結果と単語との
一致度、住所規則との適合度から計算される単語尤度を
付与した複数の候補単語を出力する。
【0032】補完住所生成手段103は、単語認識部1
02で求められた単語候補群と住居レコード記憶部10
5とを照合し、最もよく合致した住居DB(データベー
ス)レコードを補完住所候補として抽出する。必要に応
じて、住所規則記憶部104も参照して候補選択を行
い、出力する。
【0033】また、単語記憶部102によって得られる
単語尤度と、住居DBレコードと単語候補群との一致度
とから計算される尤度を、補完住所候補に付与する。
【0034】単語連結住所生成手段106は、単語認識
手段101の出力する単語候補を住所規則記憶部104
内の規則に基づいて結合して単語連結住所候補を生成す
るとともに、各単語連結住所候補に対して単語記憶部1
02によって得られる単語尤度と住所規則記憶部104
の規則との適合度とから計算される尤度を、単語連結住
所候補に付与し、その値の高い候補を出力する。
【0035】出力判定手段107は、補完住所生成手段
103の出力する候補およびその尤度、単語連結住所生
成手段106の出力する候補およびその尤度を総合的に
比較し、適切と思われる候補を出力する。
【0036】次に、本実施例によって、紙に記載された
ある地域内の住所を読み取る場合の具体例について、図
を参照して説明する。具体的には、地名、街区、建物
名、部屋番号、個人名を要素単語とし、「神奈川県川崎
市宮前区」内の仮想の住所を読み取る場合を示す。
【0037】読み取り対象のパタンは、例えば、光学的
パタン入力装置から入力され、住所を構成する各要素を
認識する単語認識手段101へ送られる。
【0038】単語認識手段101は、入力パタンに対す
る個別文字の切り出し及び認識処理を行い、単語記憶部
102と住所規則記憶部104を参照して、各種の単語
を認識する。最小限の構成としては、単語記憶部102
内の単語を順次文字認識候補と照合して、類似の単語を
候補として挙げればよい。しかし、これだと、単語間の
接続に関する制約情報がないため、不要な候補をたくさ
ん出力する可能性もあるので、必要に応じて、住所規則
記憶部104内の地名の階層関係を示す接続情報、ある
いは街区の生成規則等を参照し、候補を限定する。
【0039】このように、入力画像から各住所要素を認
識する方式としては、上記文献(1)あるいは文献
(2)に記載の技術等の、すでに実用的な公知技術を用
いることができる。なお、上記文献(1)、(2)に
は、氏名、建物名、部屋番号の認識方式について明示さ
れてはいないが、氏名や建物名には地名と同じ方式を用
いることができる。また、建物番号や部屋番号について
は、街区と同様の処理によって認識することができる。
【0040】単語認識手段101は、処理結果として、
文字認識の尤度、単語記憶部102にある単語との適合
度、住所規則記憶部104内の規則との適合度、などか
ら計算される尤度を付けた複数の単語候補を出力する。
【0041】図2は、図1の単語記憶部102の内容の
一例を示したものであり、地名2a、氏名2b、建物名
2c、街区区切り記号2dが登録されている。街区の数
字は、「1文字以上の数字列を街区数値とみなす」とい
う規則で代用する。
【0042】図3は、図1の住所規則記憶部104の内
容の一例を示したものであり、住所規則記憶部104に
は、地名の階層構造規則3a、街区の生成規則3bが格
納されている。
【0043】図3を参照して、地名の階層構造規則3a
は、「神奈川県−川崎市−宮前区−宮崎」のような階層
関係を、木構造(tree structure)に効率よく格納し
た例を示している。
【0044】街区の生成規則3bにおいては、Nが数字
列を意味しており、例えば「N丁目N番地N号」は、
「数字列のあとに『丁目』という単語がきて、次の数字
列のあとに『番地』という単語がきて、次の数字列の後
には『号』という単語がくる」ことで、街区が生成され
るという規則を示している。
【0045】図2に示した単語記憶部102の例、図3
に示した住所規則記憶部104の例を用い、図4に示す
読み取り対象パタン4aの例について、単語認識手段1
01に入力した場合の出力例を図5に示す。
【0046】図4及び図5を参照して、この例では、地
名、丁目、番地、号、部屋番号、氏名の認識候補が出力
されている。建物名は記載されていないために、単語認
識できなかったので、認識不良を示す「?」が出力され
ている。また同時に文字認識の尤度、あるいは単語との
一致度により計算された単語尤度も出力されている。例
えば、地名候補の場合、「宮崎」が10、「宮前平」が
9、「有馬」が4という尤度で単語認識されたことを示
している。
【0047】なお本実施例では、市区が限定された範囲
での住所読み取りを想定していることから、最も下層の
要素(町名)だけがわかれば必要十分であるため、以
下、地名の認識結果は、町名で代表される、ものとす
る。
【0048】再び図1を参照して、単語認識手段101
から出力された単語尤度付の単語候補群は、補完住所生
成手段103に送られる。
【0049】補完住所生成手段103は、単語候補群と
最もよく一致する住居レコードを住居レコード記憶部1
05から検索して、これを住所候補とする。
【0050】図6は、図1の住居レコード記憶部105
の内容の一例を示す図である。図6を参照して、例え
ば、最初の1行目(1行目のエントリ)は、「(川崎市
宮前区)有馬1丁目1番地1号には川崎太郎が住んでい
る」ことを示している。空欄は該当要素がないことを示
している。レコード番号という項目は、レコード(一つ
のエントリ)を一意に定める処理上の便宜のための番号
である。なお、住所を構成する単語候補群と住居レコー
ド情報を照合して正しい住所読み取りを行う方法とにつ
いては、上記文献(3)等の記載が参照される。
【0051】図7に、図5に示した単語候補群の例を受
け取り、図6に示した住所レコード記憶部105の例を
参照して、補完住所生成手段103が行う処理内容の一
例を示す。
【0052】単語候補を順番に取り出し、住居レコード
記憶部105の該当項目と照合し、一致した項目があれ
ば、認識尤度を加点したものを、各レコードの尤度とし
て定義し、計算している。
【0053】図7の尤度合計欄7bを見ると、レコード
番号2135が最高得点37を獲得しており、その内訳
は、地名10、丁目10、番地7、号0、建物0、部屋
番号10、氏名0である。
【0054】このレコード番号(=2135)に従っ
て、図6に示した住居レコード記憶部105の例をたど
れば、対応する補完住所候補が得られる。
【0055】結果として、補完住所生成手段103は、
図8に示すように、「宮崎4丁目17番地1号(弥生
荘)207(弥生三郎)」を出力する。括弧内の要素は
明示しなくても住所は一意に確定できる。
【0056】図8に示した補完住所生成手段103の出
力は、図4に示した住所文字列と比較すると、正しい読
み取り結果ではないが、これは、正しい読み取り結果が
住所レコード記憶部105に格納されていないために発
生する問題である。
【0057】単語認識手段101から出力された尤度付
の単語候補群は、単語連結住所生成手段106にも送ら
れる。単語連結住所生成手段106では、地名、街区、
部屋番号などの住所構成要素を組み合わせて住所候補を
生成する。同時に、各単語候補に付いている尤度と、住
所規則との適合度に基づいて住所候補の尤度を計算し、
出力する住所候補に付与する。
【0058】図9において、9aは、図5に示した単語
候補群の例を入力として住所規則格納部104を参照
し、単語連結住所生成手段106が出力する住所候補の
例を示している。同じく、図9において、9bは、住所
候補を構成する単語の尤度を加算して、全体の尤度と定
義した場合の計算例を示している。
【0059】図9を参照して、例えば、「宮前区宮崎4
丁目7番地6号207号室」という候補では、地名1
0、丁目10、番地10、号5、部屋10によって、合
計45という尤度となる。
【0060】複数の候補から出力する候補を選択する場
合、常に尤度の最も高いものが選ばれるわけではなく、
住所規則記憶部104を参照して、町名内に存在する街
区の値範囲をチェックし、候補が棄却される場合もあ
る。
【0061】この例において、全ての候補が町名と街区
の値範囲整合条件を満たしているとすれば、図10に示
すとおり、尤も高い得点を得た「宮前区宮崎4丁目7番
地6号207号室」が、尤度45を得て、単語連結住所
候補として出力される。
【0062】再び図1を参照して、出力判定手段107
は、補完住所生成手段103の出力した補完住所候補お
よびその尤度、単語連結住所生成手段106の出力した
単語連結住所候補およびその尤度を総合的に評価し、最
終的な住所読み取り判定結果を出力する。
【0063】図11は、出力判定手段107の処理フロ
ーの一例を示す流れ図である。まず、補完住所生成手段
103から出力される候補の尤度を変数V1にセット
し、その候補に対するしきい値を変数T1にセットする
(ステップS11)。
【0064】もしV1がT1以上、すなわち尤度がしき
い値以上であれば(ステップS12のY分岐)、補完住
所生成手段103の出力する住所候補を出力する(ステ
ップS13)。一方、V1がT1未満、すなわち尤度が
しきい値未満であれば、逆に単語連結住所生成手段10
6の出力する住所候補を出力する(ステップS14)。
【0065】したがって、補完住所生成手段103の出
力である図8の例8aと、単語連結住所生成手段106
の出力例である図10の10aとを、図11に示した流
れ図において、しきい値T1=40で判定すると、V1
は37でしきい値以上とならないため、単語連結住所生
成手段106の出力した候補「宮崎4丁目7番地6号2
07号室」が出力され、読み取りに成功する。
【0066】すなわち、補完住所生成手段103の出力
する候補の確信度が低い場合に、単語連結住所生成手段
106の出力する住所候補を出力することで、補完住所
生成手段103を単独で用いた場合に発生する誤りを回
避することができた。もちろん、正しい住所が住居レコ
ード記憶部105に格納されていた場合には、補完住所
生成手段103の出力する候補の尤度が40を超えるの
で、これらが採用されて正しく読み取ることができる。
【0067】さて、出力判定手段107の判定処理は、
図11に示した例に限らない。図11に示した例では、
補完住所生成手段103の出力の採否をしきい値により
先に判定したが、図12に流れ図として示すように、逆
に、単語連結住所生成手段106の出力する候補の採否
を先に判定することもできる。図12を参照して、単語
連結住所生成手段106から出力される候補の尤度を変
数V2にセットし、その候補に対するしきい値を変数T
2にセットする(ステップS21)。もしV2がT2以
上、すなわち尤度がしきい値以上であれば(ステップS
22のY分岐)、単語連結住所生成手段106の出力す
る住所候補を出力し(ステップS23)。一方、V2が
T2未満、すなわち尤度がしきい値未満であれば、逆に
補完住所生成手段103の出力する住所候補を出力する
(ステップS24)。
【0068】さらに図13に流れ図として示すように、
補完住所生成手段103の出力と単語連結住所生成手段
106の出力について、どちらかの採否を先に決めるの
ではなく、判別式のパラメータとして両方の候補の尤度
を入力し、どちらを採用するかを決めることもできる。
【0069】図13を参照して、補完住所生成手段10
3の出力する住所候補の尤度をV1とし、これに一定の
係数をWとし、単語連結住所生成手段106の出力する
住所候補の尤度V2とし(ステップS31)、このV2
をV1にWをかけた値と比較し(ステップS32)、こ
れらの値の大きい方の候補を出力する(ステップS3
3、S34)。この重みWは、どちらの候補を優先的に
出力するかを調整するパラメータとして機能する。
【0070】これらの判定方法の選択は、文字認識およ
び単語認識の性能と住居レコード記憶部105に格納さ
れているデータの質、登録漏れの割合などによって、適
切な方式、適切なしきい値を選ぶことによって行うべき
である。
【0071】より詳細には、例えば、住居レコード記憶
部105に登録されているデータに誤りが多くまた登録
漏れも多い場合には、単語連結住所生成手段106の出
力する候補の採否を先に判定するとともに、ややしきい
値を低めに設定する。あるいは、図13の判別式で判定
する際に、単語連結住所生成手段106の出力する候補
がやや有利になるように重みWを設定する、などが考え
られる。
【0072】逆に、住居レコード記憶部105の内容が
非常に充実している場合には、補完住所生成手段103
の出力する候補の採否を先に判定する。あるいは判別式
で判定する際に補完住所生成手段103の出力する候補
が有利になるように重みWを付ける。
【0073】また、実用の場面では、無理に住所読み取
り結果を判定して誤りを発生させるよりも、確信のない
場合は判定結果を出力せずに、最終判定は、例えば人手
による判断を仰ぐなどの要求があるケースも多い。
【0074】その際には、出力判定手段107の処理フ
ローは、図14に流れ図として示すように、図13の処
理フローに加えて、補完住所生成手段103の出力する
候補に対するしきい値T1と、単語連結住所生成手段1
06の出力する候補に対するしきい値T2の両方を用
い、出力する前に、十分な尤度があるかどうかをチェッ
クする機構を設けるといった判定も採用できる。補完住
所生成手段103の出力する住所候補の尤度をV1、補
完しきい値をT1、単語連結住所生成手段106の出力
する住所候補の尤度をV2、単語連結候補しきい値をT
2、補完候補重みをWとし(ステップS41)、補完住
所生成手段103の出力する住所候補の尤度V1に重み
Wをかけた値と、単語連結住所生成手段106の出力す
る住所候補の尤度V2とを比較し(ステップS42)、
値の大きい方の候補を、仮候補として保持する。そし
て、この仮候補が、例えば単語連結住所生成手段106
の出力する住所候補の尤度V2の場合、これを予め定め
られたしきい値T2と比較し(ステップS43)、単語
連結住所生成手段106の出力する住所候補の尤度V2
が予め定められたしきい値T2以上であれば候補を出力
し(ステップS45)、しきい値未満であれば何も出力
せず(ステップS46)、仮候補が、補完住所生成手段
103の出力する住所候補の尤度V1の場合、これを予
め定められたしきい値T1と比較し(ステップS4
4)、住所候補の尤度V1が予め定められたしきい値T
1以上であれば候補を出力し(ステップS48)、しき
い値未満であれば何も出力しない(ステップS47)。
【0075】
【発明の効果】以上説明したように、本発明によれば、
住所を読み取る際に住所を構成する要素単語を尤度付で
認識し、その候補群と実在する住居レコードの情報とを
照合して最もよく合致したレコードを判定結果の候補と
して出力する一方で、要素単語を連結した候補を住所規
則と照合して尤度の高い判定結果の候補を出力する処理
を行い、その結果を出力判定部で詳細に比較すること
で、高精度な住所読み取りを実現することができる、と
いう効果を奏する。その理由は以下の通りである。
【0076】補完住所生成処理では、住居レコード記憶
部に正解が入っていない場合に単語がすべて正しく認識
できても正解を出力することができないのに対し、本発
明においては、単語候補を連結した住所を生成する手段
を加え、さらにそれらの優劣を判断する機構を加えたこ
とによって、住所レコード記憶部に正解が格納されてい
ない場合でも正しい読み取り結果を出力することが可能
となるからである。
【図面の簡単な説明】
【図1】本発明の第1の実施例の構成を示すブロック図
である。
【図2】本発明の一実施例を説明するための図であり、
単語記憶部に格納される単語の例を示す図である。
【図3】本発明の一実施例を説明するための図であり、
住所規則記憶部に格納される規則の例を示す図である。
【図4】本発明の一実施例を説明するための図であり、
読み取り対象パタンの例を示す図である。
【図5】本発明の一実施例を説明するための図であり、
単語認識手段の出力例を示す図である。
【図6】本発明の一実施例を説明するための図であり、
住居レコード記憶部の例を示す図である。
【図7】本発明の一実施例を説明するための図であり、
補完住所生成手段における尤度計算処理の具体例を示す
図である。
【図8】本発明の一実施例を説明するための図であり、
補完住所生成手段の出力例を示す図である。
【図9】本発明の一実施例を説明するための図であり、
単語連結住所生成手段における尤度計算処理の具体例を
示す図である。
【図10】本発明の一実施例を説明するための図であ
り、単語連結住所生成手段の出力例を示す図である。
【図11】本発明の一実施例における出力判定手段の処
理フローの第1の例を説明するための流れ図である。
【図12】本発明の一実施例における出力判定手段の処
理フローの第2の例を説明するための流れ図である。
【図13】本発明の一実施例における出力判定手段の処
理フローの第3の例を説明するための流れ図である。
【図14】本発明の一実施例における出力判定手段の処
理フローの第4の例を説明するための流れ図である。
【符号の説明】
1d 単語連結住所生成手段 2a 地名単語 2b 氏名単語 2c 建物名単語 2d 街区区切り単語 3a 地名階層規則 3b 街区生成規則 4a 読み取り対象パタン 5a 地名候補 5b 丁目候補 5c 番地候補 5d 号候補 5e 建物名候補 5f 部屋番号候補 5g 氏名候補 6a 住居レコード 7b 補完尤度合計 8a 補完住所候補 9a 単語連結住所候補 9b 単語連結候補尤度表 10a 単語連結住所候補 101 単語認識手段 102 単語記憶部 103 補完住所生成手段 104 住所規則記憶部 105 住居レコード記憶部 107 出力判定手段

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】認識対象である住所を構成する要素の言語
    を格納した単語記憶部と、 住所を構成する要素の単語を組合せて住所を生成するこ
    とに関係する規則を記憶した住所規則記憶部と、 前記単語記憶部と前記住所規則記憶部とを参照して読み
    取り対象画像中から住所の要素単語を認識する単語認識
    手段と、 前記単語記憶部内の単語の組み合わせとして存在する住
    居のレコードを格納した住居レコード記憶部と、 前記単語認識手段の出力する単語候補群と、前記住居レ
    コード記憶部に格納されているレコードと、を照合し
    て、最も尤度の高いレコードを出力する補完住所生成手
    段と、 前記単語認識手段の出力する単語候補を組み合わせて前
    記住所規則記憶部に照らし合わせて、最も尤度の高い住
    所候補を出力する単語連結住所生成手段と、 前記補完住所生成手段の出力する住所候補の尤度が予め
    定められたしきい値以上の場合には、前記補完住所生成
    手段の出力する住所候補を出力し、前記予め定められた
    しきい値未満であれば、前記単語連結住所生成手段の出
    力する住所候補を出力する出力判定手段とを具備するこ
    とを特徴とする住所読み取り装置。
  2. 【請求項2】認識対象である住所を構成する要素の言語
    を格納した単語記憶部と、 住所を構成する要素の単語を組合せて住所を生成するこ
    とに関係する規則を記憶した住所規則記憶部と、 前記単語記憶部と前記住所規則記憶部とを参照して読み
    取り対象画像中から住所の要素単語を認識する単語認識
    手段と、 前記単語記憶部内の単語の組み合わせとして存在する住
    居のレコードを格納した住居レコード記憶部と、 前記単語認識手段の出力する単語候補群と、前記住居レ
    コード記憶部に格納されているレコードと、を照合し
    て、最も尤度の高いレコードを出力する補完住所 生成手
    段と、 前記単語認識手段の出力する単語候補を組み合わせて前
    記住所規則記憶部に照らし合わせて、最も尤度の高い住
    所候補を出力する単語連結住所生成手段と、 前記単語連結住所生成手段の出力する住所候補の尤度が
    予め定められたしきい値以上の場合には、前記単語連結
    住所生成手段の出力する住所候補を出力し、前記予め定
    めたしきい値未満であれば前記補完住所生成手段の出力
    する住所候補を出力する出力判定手段とを具備すること
    を特徴とする住所読み取り装置。
  3. 【請求項3】認識対象である住所を構成する要素の言語
    を格納した単語記憶部と、 住所を構成する要素の単語を組合せて住所を生成するこ
    とに関係する規則を記憶した住所規則記憶部と、 前記単語記憶部と前記住所規則記憶部とを参照して読み
    取り対象画像中から住所の要素単語を認識する単語認識
    手段と、 前記単語記憶部内の単語の組み合わせとして存在する住
    居のレコードを格納した住居レコード記憶部と、 前記単語認識手段の出力する単語候補群と、前記住居レ
    コード記憶部に格納されているレコードと、を照合し
    て、最も尤度の高いレコードを出力する補完住所生成手
    段と、 前記単語認識手段の出力する単語候補を組み合わせて前
    記住所規則記憶部に照らし合わせて、最も尤度の高い住
    所候補を出力する単語連結住所生成手段と、 前記補完住所生成手段の出力する住所候補の尤度に、一
    定の係数をかけた値と、前記単語連結住所生成手段の出
    力する住所候補の尤度と、を比較し、これらの値の大き
    い方の候補を出力する出力判定手段とを具備することを
    特徴とする住所読み取り装置。
  4. 【請求項4】認識対象である住所を構成する要素の言語
    を格納した単語記憶部と、 住所を構成する要素の単語を組合せて住所を生成するこ
    とに関係する規則を記憶した住所規則記憶部と、 前記単語記憶部と前記住所規則記憶部とを参照して読み
    取り対象画像中から住所の要素単語を認識する単語認識
    手段と、 前記単語記憶部内の単語の組み合わせとして存在する住
    居のレコードを格納した住居レコード記憶部と、 前記単語認識手段の出力する単語候補群と、前記住居レ
    コード記憶部に格納されているレコードと、を照合し
    て、最も尤度の高いレコードを出力する補完住所生成手
    段と、 前記単語認識手段の出力する単語候補を組み合わせて前
    記住所規則記憶部に照らし合わせて、最も尤度の高い住
    所候補を出力する単語連結住所生成手段と、 前記補完住所生成手段の出力する住所候補の尤度に、一
    定の係数をかけた値と、前記単語連結住所生成手段の出
    力する住所候補の尤度と、を比較し、値の大きい方の候
    補を、仮候補として保持し、前記仮候補が予め定められ
    たしきい値以上であれば、仮候補を出力し、前記予め定
    められたしきい値未満であれば何も出力しない出力判定
    手段とを具備することを特徴とする住所読み取り装置。
  5. 【請求項5】(a)認識対象である住所を構成する要素
    の言語を格納した単語記憶部と、住所を構成する要素の
    単語を組合せて住所を生成することに関係する規則を記
    憶した住所規則記憶部と、を参照して、読み取り対象画
    像中から住所の要素単語を認識する単語認識処理、 (b)前記単語認識手段の出力する単語候補群と、前記
    単語記憶部内の単語の組み合わせとして存在する住居の
    レコードを格納した住居レコード記憶部に格納されてい
    るレコードと、を照合して、最も尤度の高いレコードを
    出力する補完住所生成処理、 (c)前記単語認識処理の出力する単語候補を組み合わ
    せて前記住所規則記憶部に照らし合わせて、最も尤度の
    高い住所候補を出力する単語連結住所生成処理、及び、 (d)前記補完住所生成処理の出力する住所候補の尤度
    に、一定の係数をかけた値と、前記単語連結住所生成処
    理の出力する住所候補の尤度とを比較し、これ らの値の
    大きい方の候補を出力することにより、前記補完住所生
    成処理の出力する住所候補と、前記単語連結住所生成処
    理の出力する住所候補および各々の住所候補の尤度を総
    合的に判断して、最終的な住所読み取り結果を出力する
    出力判定処理、 の上記(a)〜(d)の各処理を情報処理装置で実行さ
    せるプログラムを記録した記録媒体。
JP09054173A 1997-02-21 1997-02-21 住所読み取り装置 Expired - Fee Related JP3106994B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP09054173A JP3106994B2 (ja) 1997-02-21 1997-02-21 住所読み取り装置
US09/025,500 US6115707A (en) 1997-02-21 1998-02-18 Address reading apparatus and recording medium on which a program for an address reading apparatus is recorded
DE19808077A DE19808077A1 (de) 1997-02-21 1998-02-21 Adressen-Lesegerät und Aufzeichnungsmedium, auf dem ein Programm für ein Adressen-Lesegerät aufgezeichnet ist

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09054173A JP3106994B2 (ja) 1997-02-21 1997-02-21 住所読み取り装置

Publications (2)

Publication Number Publication Date
JPH10230226A JPH10230226A (ja) 1998-09-02
JP3106994B2 true JP3106994B2 (ja) 2000-11-06

Family

ID=12963160

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09054173A Expired - Fee Related JP3106994B2 (ja) 1997-02-21 1997-02-21 住所読み取り装置

Country Status (3)

Country Link
US (1) US6115707A (ja)
JP (1) JP3106994B2 (ja)
DE (1) DE19808077A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19933984C2 (de) * 1999-07-20 2001-05-31 Siemens Ag Verfahren zur Bildung und/oder Aktualisierung von Wörterbüchern zum automatischen Adreßlesen
US6954729B2 (en) * 2000-01-27 2005-10-11 Bowe Bell & Howell Postal Systems Company Address learning system and method for using same
US6360001B1 (en) * 2000-05-10 2002-03-19 International Business Machines Corporation Automatic location of address information on parcels sent by mass mailers
EP1312038B1 (en) * 2000-07-28 2013-10-16 RAF Technology, Inc. Orthogonal technology for multi-line character recognition
DE10111885C2 (de) * 2001-03-13 2003-02-20 Siemens Production & Logistics Verfahren zum Ermitteln gültiger Adresskodes
US7095875B2 (en) * 2001-05-15 2006-08-22 Lockheed Martin Corporation Method and system for address result arbitration
DE10126835B4 (de) * 2001-06-01 2004-04-29 Siemens Dematic Ag Verfahren und Vorrichtung zum automatischen Lesen von Adressen in mehr als einer Sprache
FR2840090B1 (fr) * 2002-05-24 2005-08-19 Jean Bernard Condat Correction et controle des adresses postales
DE102004040600B3 (de) * 2004-08-21 2005-12-08 Siemens Ag Verfahren zum Ermitteln von Fehlern in Adressdatenbanken
US7539326B2 (en) * 2005-12-23 2009-05-26 Pitney Bowes Inc. Method for verifying an intended address by OCR percentage address matching
WO2009005492A1 (en) * 2007-06-29 2009-01-08 United States Postal Service Systems and methods for validating an address
US7769778B2 (en) * 2007-06-29 2010-08-03 United States Postal Service Systems and methods for validating an address
JP5876784B2 (ja) * 2012-07-26 2016-03-02 富士通フロンテック株式会社 照合装置、照合方法および照合プログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0498358A (ja) * 1990-08-10 1992-03-31 Pfu Ltd カナ住所知識処理方式
JP2887171B2 (ja) * 1990-11-30 1999-04-26 株式会社ピーエフユー カナ住所知識処理装置
JP3009215B2 (ja) * 1990-11-30 2000-02-14 株式会社日立製作所 自然語処理方法および自然語処理システム
US5703783A (en) * 1992-04-06 1997-12-30 Electrocom Automation, L.P. Apparatus for intercepting and forwarding incorrectly addressed postal mail
JPH064717A (ja) * 1992-06-19 1994-01-14 Pfu Ltd 漢字住所補正処理方法
JP2922365B2 (ja) * 1992-06-29 1999-07-19 株式会社ピーエフユー Ocr処理システムにおける漢字住所データ処理方法
JPH0644411A (ja) * 1992-07-22 1994-02-18 Toshiba Corp 手書き文字入力装置
US5642519A (en) * 1994-04-29 1997-06-24 Sun Microsystems, Inc. Speech interpreter with a unified grammer compiler
JPH0830734A (ja) * 1994-07-19 1996-02-02 Mitsubishi Heavy Ind Ltd 文字列認識装置
JPH08171815A (ja) * 1994-12-19 1996-07-02 Kyocera Corp 温度補償用誘電体磁器組成物
JP3201207B2 (ja) * 1995-03-14 2001-08-20 株式会社日立製作所 住所読取装置及び方法
JP3425257B2 (ja) * 1995-03-14 2003-07-14 株式会社日立製作所 郵便物読取区分装置
US5754671A (en) * 1995-04-12 1998-05-19 Lockheed Martin Corporation Method for improving cursive address recognition in mail pieces using adaptive data base management

Also Published As

Publication number Publication date
DE19808077A1 (de) 1998-08-27
JPH10230226A (ja) 1998-09-02
US6115707A (en) 2000-09-05

Similar Documents

Publication Publication Date Title
US7769778B2 (en) Systems and methods for validating an address
US9390084B2 (en) Natural language parsers to normalize addresses for geocoding
JP3106994B2 (ja) 住所読み取り装置
JP2968145B2 (ja) 高度なデータ収集方法及びデータ処理システム
US5305396A (en) Data processing system and method for selecting customized character recognition processes and coded data repair processes for scanned images of document forms
CN101425132B (zh) 图像识别装置和识别方法及记录图像识别程序的存储介质
JPH10105655A (ja) 光学文字認識のための検証および訂正の方法およびシステム
JPS6262387B2 (ja)
WO2009005492A1 (en) Systems and methods for validating an address
KR100336719B1 (ko) 우편물 배달정보 생성 시스템 및 그 방법
JPH1011434A (ja) 情報認識装置
CN114138986A (zh) 一种具有增强内容的客户管理平台及其方法
JP3477822B2 (ja) 文書登録検索システム
CN111159360A (zh) 获得讯询问话题分类模型、讯询问话题分类的方法和装置
JP2732593B2 (ja) 文字読取システム
JP2655087B2 (ja) 文字認識後処理方式
JPH0441388B2 (ja)
JP2671311B2 (ja) 住所読取装置
JP2018060474A (ja) 地名抽出プログラム、地名抽出装置および地名抽出方法
JP2795003B2 (ja) 文字認識処理装置
JP2922365B2 (ja) Ocr処理システムにおける漢字住所データ処理方法
JP2000251017A (ja) 単語辞書作成装置および単語認識装置
JP2007511842A (ja) スマートポーリングに対するシステム及び方法
JPH06325204A (ja) 文字認識後処理装置
KR20220109938A (ko) 학습된 부적합 텍스트의 부합성 검사 장치 및 방법

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20000201

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20000808

LAPS Cancellation because of no payment of annual fees