JPH0441388B2 - - Google Patents

Info

Publication number
JPH0441388B2
JPH0441388B2 JP59090663A JP9066384A JPH0441388B2 JP H0441388 B2 JPH0441388 B2 JP H0441388B2 JP 59090663 A JP59090663 A JP 59090663A JP 9066384 A JP9066384 A JP 9066384A JP H0441388 B2 JPH0441388 B2 JP H0441388B2
Authority
JP
Japan
Prior art keywords
word
dictionary
address
place name
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP59090663A
Other languages
English (en)
Other versions
JPS60233782A (ja
Inventor
Kazunari Egami
Tetsuo Umeda
Yasuo Nishijima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP59090663A priority Critical patent/JPS60233782A/ja
Publication of JPS60233782A publication Critical patent/JPS60233782A/ja
Publication of JPH0441388B2 publication Critical patent/JPH0441388B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、郵便物などの紙葉上に連続した単語
の集合として表記されている住所の読取装置に関
する分野に利用される。
〔従来の技術〕
従来例では、特開昭57−146380および特開昭57
−137976に示されるように、住所を構成する連続
した単語の集合の元が順次住所辞書と照合され、
最もよく一致する住所が抽出される方法が用いら
れている。したがつて、住所読取性能を高める条
件として、住所情報を住所辞書に豊富に記憶させ
ることが要求される。
ところで、住所の表記には種々の変形があり、
例えば、欧米の郵便物の住所表記では、慣習的に
省略表記が多用される。すなわち、 (1) 地名に付加される方位を示す単語East、
West SouthおよびNorthがそれぞれE、W、
SおよびNに省略されて表記される。
(2) 街路を示すStreetという単語がSTに表記さ
れる。例えば、Washington StreetがWashing
−ton STになる。
(3) 地名の語尾を略記する。例えば Bensenvilleの−villeが−vlに表記され、 Bensenvlになる。Springfierdの−fieldが−
fldに表記され、springfldになる。
以上のように省略された表記が用いられている
場合に、もし、住所辞書に完全に表記された住所
のみが登録されているとすると、住所一致度計算
時に不一致が多すぎて住所一致拒絶という結果が
多発するので、住所表記の種々の変形をも住所辞
書に登録する必要があつた。
従来例装置では、同一地名を二重または三重に
住所辞書へ記憶させる必要があり、膨大な記憶容
量を必要としていた。さらに、住所一致検出の処
理時間が増大し、読取処理速度の低下を招く欠点
があつた。
〔発明が解決しようとする問題点〕
本発明の目的は、前述の欠点を除去するもの
で、郵便物などの紙葉上に記入される住所の表記
方法の変化にかかわらず、この住所を読取る装置
に含まれる住所辞書に登録する住所表記を一種類
の住所表記にすることにある。
〔問題点を解決するための手段〕
本発明は、住所表記に係わる文字列を読み取る
文字読取手段と、この文字読取手段の文字列出力
を単語に切り出す単語抽出手段と、住所表記に共
通して現れる文字列をキーワードとして記憶する
キーワード辞書記憶手段と、前記単語抽出手段に
よつて切り出された単語の少なくとも一部と上記
キーワード辞書記憶手段のキーワードとを照合し
一致した場合に一致した部分をこのキーワードに
対応する統一表記に変換する表記統一化手段と、
この表記統一化手段から出力された単語をあらか
じめ住所文字列を記憶する住所辞書手段と比較し
て地名判定を行う住所判定手段とを備えたことを
特徴とする。
〔作用〕
本発明は、読取つた地名表記の単語について住
所表記の統一化を行つてから住所辞書内の地名と
照合を行うことにより、住所辞書に登録する住所
表記を一種類の住所表記に表記統一を行う。
すなわち、本発明は、住所表記の略記等の変形
には規則性があることに着目して、その規則に基
づいて住所表記の変形を統一表記に変換する。ま
ず、住所表記に共通して現れる表記で住所表記を
構成する単語の特徴を表すものをキーワードとし
てキーワード辞書記憶手段に登録しておく。この
キーワードは、住所表記に用いられる“West”
や“Street”や“ville”等の接頭語や接尾辞など
である。そして、文字読取手段から出力された文
字列を単語に区切つて表記統一化手段に入力す
る。表記統一化手段は、キーワード辞書記憶手段
に登録されたキーワードと入力された単語の一部
とが一致したときは、そのキーワードについてあ
らかじめ統一住所表記に変換する。例えば
“ville”の語尾を持つ単語の住所表記の語尾は
“vl”に変換される。また、“Street”は“ST”
に変換される。この統一化された住所表記と地名
を記憶する住所辞書の記憶内容と照合して住所判
定を行う。
本発明は、このようにあらかじめ読み取つた住
所表記を統一化してから地名照合するため、住所
辞書にすべての住所表記の変形までを記憶する必
要はなくなる。
〔実施例〕
以下、本発明実施例装置を図面に基づいて説明
する。第1図は、この実施例装置の構成を示すブ
ロツク構成図であり、第2図は、住所表記の構成
を示す説明図であり、この図の(a)に示すように、
住所表記は行の後から大区別地名、中区別地名、
小区別地名の順に複数段の区分地名で構成され、
郵便番号は大区分地名の前後、特に後に位置する
ことが多い。この図のbは単語が省略表記される
ことなく記された場合を示し、図のcは、慣習に
従つて省略されて記載された場合を示す。すなわ
ち、単語3「Bensenville」が「Bensenvl」に、
また、単語4「Drive」が「Dr.」に記されてい
る。また、第3図は、第2図に示された住所表記
にかかわるキーワード辞書の構成を示す説明図で
あり、この図のaおよびbに示すように、キーワ
ードは、単語の先頭に現れるものと、単語の末尾
に現れるものとに分類される。また、第4図は、
この実施例装置の動作を説明する説明図であり、
第5図および第6図は、第2図に示された住所表
記にかかわる住所辞書の構成を示す説明図であ
る。
まず、本発明実施例装置の構成を第1図に基づ
いて説明する。この実施例装置は、文字読取部1
0と、単語抽出手段20と、表記統一化手段30
と、キーワード辞書記憶手段40と、住所照合手
段50と、住所辞書記憶手段60と、住所判別手
段70とで構成され、ここで、単語抽出手段20
は、単語抽出部21と数字コード抽出部22と、
単語バツフア23と、住所構成単語抽出部24
と、大区分単語バツフア25と、中区分単語バツ
フア26と、小区分単語バツフア27と、入力単
語選択部28とを備え、また、表記統一化手段3
0は、第一の最大一致検出部31と、キーワード
判定部32と、表記変換単語バツフア33と、入
力単語選択手段34とを備え、また、キーワード
辞書記憶手段40は、キーワード辞書記憶部41
と、辞書牽引部42と、照合辞書バツフア43と
を備え、また、住所変換手段50は、第二の最大
一致検出部51と、地名判定部52とを備え、ま
た、住所辞書記憶手段60は、大区分地名辞書6
1と、中区分地名辞書62と、小区分地名辞書6
3と、辞書選択部64と、辞書索引部65と、照
合辞書バツフア66とを備え、また、住所判別手
段70は、住所判定部71と、大区分地名バツフ
ア72と、中区分地名バツフア73と、小区分地
名バツフア74と、住所出力部75とを備える。
文字読取部10の第一の出力は数字コード抽出部
22の入力に接続され、文字読取部10の第二の
出力は数字コード抽出部22の第二の入力および
単語抽出部21の第一の入力に接続され、文字読
取部10の第三の出力は単語抽出部21の第二の
入力に接続され、文字読取部10の第四の出力は
単語抽出部21の第三の入力に接続され、単語抽
出部21の第一の出力は数字コード抽出部22の
第三の入力に接続され、数字コード抽出部22の
出力は単語バツフア23の第一の入力に接続さ
れ、単語抽出部21の出力は単語バツフア23の
第二の入力に接続され、単語バツフア23の出力
は住所構成単語抽出部24の第一の入力に接続さ
れ、住所構成単語抽出部24の第一の出力は辞書
選択部64の第四の入力に接続され、住所構成単
語抽出部24の第二の出力は大区分単語バツフア
25の入力に接続され、住所構成単語抽出部24
の第三の出力は中区分単語バツフア26の入力に
接続され、住所構成単語抽出部24の第四の出力
は小区分単語バツフア27の入力に接続され、大
区分単語バツフア25の出力は入力単語選択部2
8の第一の入力に接続され、中区分単語バツフア
26の出力は入力単語選択部28の第二の入力に
接続され、小区分単語バツフア27の出力は入力
単語選択部28の第三の入力に接続され、入力単
語選択部28の第一の出力は辞書牽引部42の第
二の入力に接続され、入力単語選択部28の出力
は最大一致検出部31の第一の入力に接続され、
第一の最大一致検出部31の出力はキーワード判
定部32の入力に接続され、キーワード判定部3
2の第一の出力は表記変換単語バツフア33の入
力に接続され、キーワード判定部32の第二の出
力は入力単語選択部28の第四の入力に接続さ
れ、表記変換単語バツフア33の出力は入力単語
選択部34の第一の入力に接続され、入力単語選
択部34の第一の出力は辞書索引部65の第二の
入力に接続され、入力単語選択部28の第二の出
力は第二の最大一致検出部51の第一の入力に接
続され、第二の最大一致検出部51の出力は地名
判定部52の入力に接続され、地名判定部52の
第一の出力は住所判定部71の入力に接続され、
地名判定部52の第二の出力は入力単語選択部3
4の第二の入力に接続され、住所判定部71の第
三の出力は中区分地名バツフア72の入力に接続
され、住所判定部71の第三の出力は小区分地名
バツフア74の入力に接続され、住所判定部71
の第三の出力は小区分地名バツフア74の入力に
接続され、住所判定部71の第四の出力は住所構
成単語抽出部24の第二の入力に接続され、大区
分地名バツフア72の出力は住所出力部75の第
一の入力に接続され、中区分地名バツフア73の
出力は住所出力部75の第二の入力に接続され、
小区分地名バツフア74の出力は住所出力部75
の第三の入力に接続され、また、キーワード辞書
記憶部41の出力は辞書索引部42の第一の入力
に接続され、辞書索引部42の出力は照合辞書バ
ツフア43の出力は第一の最大一致検出部31の
第二の入力に接続され、また、大区分地名辞書6
1の出力は辞書選択部64の第一の入力に接続さ
れ、中区分地名辞書62の出力は辞書選択部64
の第二の入力に接続され、小区分地名辞書63の
出力は辞書選択部64の第三の入力に接続され、
辞書選択部64の出力は辞書索引部65の第一の
入力に接続され、辞書索引部65の出力は照合辞
書バツフア66の入力に接続され、照合辞書バツ
フア66の出力は第二の最大一致検出部51の第
二の入力に接続される。
次に、本発明実施例装置の動作を第1図ないし
第6図に基づいて説明する。
文字読取部10からは、第2図aに示す文字の
読取り結果が、各行ごとに左端または右端から一
連して出力される。
この文字読取結果は数字読取出力(以下、N出
力という。)101、アルフアベツト大文字読取出力
(以下、AC出力という。)102およびアルフアベツ
ト小文字読取出力(以下、AS出力という。)103
の3つのチヤネル出力および文字位置、文字サイ
ズなどの前処理出力104が出力される。AC出力
102、AS出力103および前処理出力104は、単語抽
出部21に、またN出力101およびAC出力102は
数字コード抽出部22に入力される。単語抽出部
21では、前処理出力104に基づいて単語間の区
切り(スペースなど)が検出され、まず、単語に
分離される。さらに、AC出力102、AS出力103お
よび前処理出力104に含まれる文字サイズデータ
により単語を構成する文字種、すなわち単語がす
べてアルフアベツト大文字か、小文字か、あるい
は単語の先頭が大文字で他が小文字であるかが判
定される。数字コード抽出部22では、単語抽出
部21からの1単語の区切り情報105に基づいて、
単語が数字コードであるか否かがN出力101とAC
出力102との比較により決定される。単語抽出部
21と数字コード抽出部22との出力は単語バツ
フア23に単語列として記憶される。すなわち、
第2図aに示す単語列情報が単語バツフア23に
セツトされる。
単語抽出が完了すると、住所構成単語抽出部2
4に単語列情報106が入力される。このブロツク
では、住所構成の規則性、すなわち第2図aに示
すように、(1)住所は行の後から、大区分地名、中
区分地名、小区分地名の順に構成される、(2)一行
に住所がはいらない場合は、その上の行に書かれ
る、(3)郵便番号が大区分地名の前後、特に後に置
かれる場合が多いという点に着目し、郵便番号を
基準として、住所構造の解析が行われる。住所判
定は、大区分地名から中区分、小区分の順で実行
される。住所構成単語抽出部24では、まず、大
区分地名候補となる単語が選ばれ、大区分単語バ
ツフア25にセツトされる。第2図の例では、第
4図aに示す単語2および単語3が大区分地名抽
出の対象単語列として大区分単語バツフア25に
セツトされる。さらに、辞書選択部64には、第
6図に示す構成の大区分地名辞書61を選択する
情報107が与えられ、辞書を読出すためのアド
レスインデツクスデータが辞書索引部65に与え
られる。
大区分地名候補単語第4図aが大区分単語バツ
フア25にセツトされ、また、大区分辞書の選択
が実行されると入力単語選択部28は、第4図a
の単語が大区分単語バツフア25から順次読出さ
れて、キーワード検出が開始される。キーワード
検出は第4図aの第1段および第2段の単語の組
合せのそれぞれについて実施される。まず、入力
単語選択部28では、第1段に相当する単語2が
大区分単語バツフア25から読出され第一の最大
一致検出部31に入力される。さらに、単語2の
単語内の文字数(以下語長という。)より照合を
とる辞書の範囲を指定する情報108が辞書索引部
42に与えられる。ここで、辞書の範囲の指定と
は、単語の位置により第3図aまたはbのどちら
のキーワード辞書と照合を行わせるかの指定と、
入力単語の語長Nに対し、(N+10)の語長のキ
ワードと照合をとつても無意味であるから、例え
ば(N+1)ぐらいまでの語長のキーワードの辞
書索引部42への指定とをいう。
辞書索引部42から与えられた範囲のキーワー
ドデータが照合辞書バツフア43に出力され、さ
らに第一の最大一致検出部31に入力される。第
一の最大一致検出部31では、入力単語選択28
から与えられる単語と照合辞書バツフア43にセ
ツトされたキーワードとの照合が行われる。第4
図aの大区分段の第1段の単語2では、単語数が
一つでしかも単語2の後に大区分地名候補単語が
存在しないので、第3図aの接頭語との照合はと
られずに、第3図bの接尾語との照合がとられ
る。また、入力単語2は、キーワード辞書と一致
するものがないので、キーワード判定部32で
は、入力単語2は表記変換されずそのまま表記変
換単語バツフア33にセツトされる。
次に、第4図aの大区分第2段の単語の組合せ
すなわち単語2と単語3の組合せが入力単語選択
部28に入力される。第4図aの第2段では単語
数が二つであるので、先頭の単語3と照合するた
めに第3図aの接頭語が辞書索引部42に指定さ
れ、与えられた範囲のキーワード辞書が照合辞書
バツフア43にセツトされる。以下第1段と同様
に、入力単語選択部28から与えられる第4図a
の第2段の単語3と照合辞書バツフア43との照
合が第一の最大一致検出部31で行われる。この
単語3も、第3図aの接頭語と一致するものがな
いので、キーワード判定部32では表記変換が実
施されず、表記変換単語バツフア33にセツトさ
れる。
大区分段のキーワード検出処理が第4図aの入
力単語列について終了すると、大区分地名抽出の
ために表記変換単語バツフア33の内容が入力単
語選択部34に入力される。第4図aの例ではキ
ーワードが検出されなかつたので、第4図aの単
語列がそのまま表記変換単語バツフア33にセツ
トされている。大区分地名抽出は第4図aに示す
第1段から第2段にわたり順次実行される。入力
単語選択部34では、まず第1段に相当する単語
2が表記変換単語バツフア34から読出された第
二の最大一致検出部51に入力される。さらに、
単語2の語長より照合をとる辞書の範囲を指定す
る情報109が辞書索引部65に与えられる。ここ
で、辞書の範囲の指定とは、入力単語の語長Nに
対し、(N+10)の語長の地名と照合をとつても
無意味であるから、例えば(N−1)から(N+
1)ぐらいの語長範囲の辞書索引部65への指定
をいう。辞書索引部65から与えられた範囲の地
名データが照合辞書バツフア66に出力され、さ
らに、第二の最大一致検出部51に入力される。
第4図aの入力単語2「ILLINOIS」は語長「8」
であるので、照合辞書範囲としては7〜9語長が
指定され、照合辞書バツフア66に順次セツトさ
れ、照合される。
最大一致検出部31では、入力単語選択部34
から与えられる単語と照合辞書バツフア66の地
名との照合が公知のDPマツチング手法により例
えば語長(N−1)〜(N+1)の範囲の辞書と
入力単語(語長N)との照合が行われる。DPマ
ツチング手法を用いることにより、入力単語が実
際は(N+1)の語長であるのに前処理などで1
字が欠除し語長がNとなつている場合でも、辞書
の照合範囲は常に(N−1)〜(N+1)で照合
がとられるので、該当する地名が照合辞書範囲か
ら除外されることが防止される。照合辞書範囲を
入力単語の語長に対し「±1」とすることは、す
なわち入力単語の語長が実際より「±1」変化し
ても、実際の地名と照合がとりうることを意味す
る。
第二の最大一致検出部51で最大一致地名とし
て検出された地名は地名判定部52に入力され一
時記憶される。
第4図aの場合で説明すると、大区分地名抽出
の第1段〜第2段の単語組合せについて前述の最
大一致検出を繰返す。この場合入力単語の最大語
長を規定し単語の組合せ語長がその規定長に達し
たら以降の段の最大一致検出は中止される。
大区分地名抽出が表記変換単語バツフア33に
セツトされたすべての単語列についてすべて実行
されると、地名判定部52では、それまでの最大
一致検出地名の中で最も一致度の高いものから、
いくつかの候補が選ばれ、住所判定部71に出力
される。第4図aの例では、「ILLINOIS」が大
区分地名として唯一出力される。
入力した地名候補は住所判定部26から大区分
地名バツフア72に出力され、ここで一時記憶さ
れ、その中の一つの候補が選ばれ、次の中区分地
名を抽出するための情報110が住所構成単語抽
出部24に出力される。この情報としては(1)大区
分地名検出単語列、および(2)大区分地名候補の辞
書アドレスである。住所構成単語抽出部24で
は、前記情報(1)より第2図b単語2までが大区分
地名単語であるから、中区分地名抽出単語列とし
て第4図bに示す単語が、中区分単語バツフア2
6にセツトされる。さらに、前記情報(2)より第6
図に示す大区分地名辞書を参照し「ILLINOIS」
に対応する中区分地名辞書のアドレスを示すポイ
ンターが読出され、辞書選択部64に与えられ
る。これにより辞書選択部64が、中区分辞書6
2中の第6図に示す辞書m1、…mi、…mo、…が
選択される。
中区分単語バツフア26にセツトされた第4図
bの単語3は入力単語選択部28により読出さ
れ、第一の最大一致検出部31に入力され、キー
ワード検出を大区分段の場合と同様の手順で再び
実行される。入力単語選択部28から出力される
キーワード辞書範囲指定情報108としては、単語
3の語長およびキーワード辞書選択情報が含まれ
る。後者は中区分地名候補単語が第4図bの単語
3唯一であるので、接尾語辞書が選択されるよう
な指定情報である。したがつて、第3図bが辞書
範囲として指定され、照合辞書バツフア43にセ
ツトされる。第一の最大一致検出部31では、第
4図bの単語3と照合辞書バツフア43にセツト
された接尾語辞書との照合がとられる。
辞書の語長をNとすると、入力単語3の語尾か
ら(N−1)〜(N+1)の範囲で照合が行われ
る。すなわち、辞書の語長が5であれば入力単語
3の語尾から4文字〜6文字の範囲「ille」〜
「nville」で照合がとられ、辞書との一致度が計
算される。一致度計算結果はキーワード判定部3
2に入力される。照合辞書バツフア43にセツト
された辞書との照合が終了すると、キーワード判
定部32では、最も一致度が高いものが選ばれ、
一定の閾値を満足するキーワードが検出される
と、キーワード辞書に登録されている統一表記に
置換えられ、表記変換単語バツフア33にセツト
される。第4図bの例では「Bensenville」の語
尾「ville」が第5図b接尾語辞書に登録されて
いてキーワードとして検出される。したがつて、
表記変換単語バツフア33には第4図dのごとく
「Bensenvl」と表記変換された単語がセツトされ
る。
表記変換処理が、中区分単語がバツフア26に
セツトされた単語すべてについて終了すると、中
区分地名抽出が開始される。中区分地名抽出は、
第4図dに示す単語に対して行われ、その手順は
大区分地名抽出の場合と同様である。中区分地名
辞書としては、先に住所構成単語抽出部24で大
区分地名「ILLINOIS」に対応する第6図に示す
辞書m1、…mi、…mo、…が選択される。表記変
換バツフア33にセツトされた第4図dの単語
が、入力単語選択部34により、順に読出された
第二の最大一致検出部51に入力される。さら
に、第4図dの単語長より照合辞書範囲を指定す
る情報109が辞書索引部65に与えられる。照合
辞書範囲を入力語長「±1」とした場合に、第4
図dの単語3(語長「8」)との照合辞書範囲は語
長7〜語長9となり、この範囲の中区分地名辞書
の内容が順次照合辞書バツフア66にセツトさ
れ、第二の最大一致検出部51において単語3と
の照合が行われる。照合は公知のDPマツチング
による。この場合に、もし第二の最大一致検出部
51への入力単語が第4図dの「Bensenvl」で
はなく「Bensenville」(語長11)である場合に
は、照合辞書の範囲は語長10〜語長12となり
「Bensenvl」(語長8)は照合範囲外になる。し
たがつて、第6図の辞書の中に「Bensenvl」以
外に「Bensenville」も登録する必要がでてくる。
このような地名の2重登録を避けるために、先の
キーワード検出による表記の統一化が必要にな
る。
最大一致地名として抽出された地名は地名判定
部32に入力され、一時記憶される。表記変換バ
ツフア33にセツトされた中区分地名候補につい
て地名抽出が終了すると地名判定部25では、最
も一致度の高いものからいくつかの候補が選ば
れ、住所判定部71に出力される。住所判定部7
1では先に大区分地名候補の中の一つの地名に基
づいて次の中区分地名の辞書を第6図に示すごと
く構成する。すなわち、大区分地名
「ILLINOIS」に含まれる第6図の中区分地名
m1、…mi、…mo、…についてのみ照合がとられ
る。したがつて、他に大区分地名候補が選ばれて
いる場合すなわち有力な大区分地名候補が複数あ
る場合には、先の中区分地名抽出では候補がない
ときもあり、他の大区分地名候補についても、同
様の中区分地名抽出が行われる。住所判定部71
では、大区分地名バツフア72にセツトされたす
べの大区分地名について中区分地名抽出を終了す
ると、大区分と中区分の地名が総合され、住所と
して最も一致度の高いものが選択される。一致度
の尺度は、入力単語と辞書との一致度計算結果で
ある距離データである。候補が定まらない場合に
は、数字コード抽出部22で抽出される郵便番号
が参照され、この郵便番号から候補が特定され
る。住所として中区分地名まで決定されると、決
定された地名が大区分地名バツフア72、中区分
地名バツフア73にセツトされる。第4図a,b
の例では大区分地名として「ILLINOIS」、中区
分地名として「Bensenvl」がセツトされる。
さらに、次の小区分地名抽出のための情報110
が住所構成単語抽出部24に出力される。この情
報は、(1)中区分地名抽出までの単語列および(2)中
区分地名の辞書アドレスである。住所構成単語抽
出部15では、前記情報(1)より第2図単語3まで
が中区分地名までの単語であることが検出され、
小区分地名抽出単語列として第2図上行の単語を
候補とし第4図cに示す単語列が小区分単語バツ
フア27にセツトされる。さらに、前記情報(2)よ
り第6図に示す中区分辞書が参照され、小区分辞
書アドレスを示すポインターが読出され辞書選択
部64に与えられる。辞書選択部64では、小区
分辞書63の中の第6図に示す辞書mi1、mi2
…mioが選択され辞書を読出すためのアドレスイ
ンデツクスデータが辞書索引部65に与えられ
る。
第4図cの単語列が小区分単語バツフア18に
与えられ、小区分辞書63の選択が実行される
と、入力単語選択部28では第4図cの単語が小
区分単語バツフア27から順次読出され、再度キ
ーワード検出が行われる。
以下大区分段、中区分段と同様にキーワード抽
出が行われ、第4図cの「Drive」が第5図bの
接尾語辞書から検出され、第4図eのごとく表記
変換される。次に、小区分地名抽出が行われ、第
6図小区分地名辞書mi1、mi2、…mij、…mioの中
で最もよく一致する地名として第4図eの単語4
および単語5を接続した地名「VERNICE DR」
が選択される。住所判定部71において選択され
た小区分地名は小区分地名バツフア74にセツト
される。この小区分地名抽出段では、第4図cの
地名「Vernice Drive」が表記変換されるろこと
なく、第二の最大一致検出部51に入力された場
合には、その照合辞書範囲は語長11〜語長13とな
り第6図小区分地名辞書に登録されている
「VERNICE DR」(語長9)が照合範囲外にな
る。したがつて、地名一致を得るには
「VERNICE DRIVE」(語長12)を登録する必要
がおこるが、これを避けるために、先のキーワー
ド検出による表記変換が必要になる。
このように小区分地名までの抽出が終了する
と、住所としての地名が決定される。さらに、小
区分地名に続く第2図aでの番地が住所判定部7
1で参照されて、住所はさらに細かく決定され
る。
〔発明の効果〕
本発明は、以上説明したように、紙葉上に記載
された単語列を大区分から小区分の方向へ地名抽
出を行う過程でキーワードを検出することによ
り、住所表示の統一化が行えるので、住所辞書に
は一種類の住所表記の登録でよく、したがつて、
辞書記憶部の記憶容量を最小限にとどめる効果が
あり、かつ照合処理時間が短縮され読取り速度の
高速化が計れる効果がある。
【図面の簡単な説明】
第1図は本発明実施例装置の構成を示すブロツ
ク構成図。第2図は住所表記の構成を示す説明
図。第3図はキーワード辞書の構成を示す説明
図。第4図は本発明実施例装置の動作を説明する
説図。第5図および第6図は住所辞書の構成を示
す説明図。 10……文字読取部、20……単語抽出手段、
21……単語抽出部、22……数字コード抽出
部、23……単語バツフア、24……住所構成単
語抽出部、25……大区分単語バツフア、26…
…中区分単語バツフア、27……小区分単語バツ
フア、28……入力単語選択部、30……表記統
一化手段、31……最大一致検出部、32……キ
ーワード判定部、33……表記変換単語バツフ
ア、34……入力単語選択部、40……キーワー
ド辞書記憶手段、41……キーワード辞書記憶
部、42……辞書索引部、43……照合辞書バツ
フア、50……住所変換手段、51……最大一致
検出部、52……地名判定部、60……住所辞書
記憶手段、61……大区分地名辞書、62……中
区分地名辞書、63……小区分地名辞書、64…
…辞書選択部、65……辞書索引部、66……照
合辞書バツフア。

Claims (1)

  1. 【特許請求の範囲】 1 住所表記に係わる文字列を読み取る文字読取
    手段と、 この文字読取手段の文字列出力を単語に切り出
    す単語抽出手段と、 住所表記に共通して現れる文字列をキーワード
    として記憶するキーワード辞書記憶手段と、 前記単語抽出手段によつて切り出された単語の
    少なくとも一部と上記キーワード辞書記憶手段の
    キーワードとを照合し一致した場合に一致した部
    分をこのキーワードに対応する統一表記に変換す
    る表記統一化手段と、 この表記統一化手段から出力された単語をあら
    かじめ住所文字列を記憶する住所辞書手段と比較
    して地名判定を行う住所判別手段と を備えた住所読取装置。
JP59090663A 1984-05-07 1984-05-07 住所読取装置 Granted JPS60233782A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59090663A JPS60233782A (ja) 1984-05-07 1984-05-07 住所読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59090663A JPS60233782A (ja) 1984-05-07 1984-05-07 住所読取装置

Publications (2)

Publication Number Publication Date
JPS60233782A JPS60233782A (ja) 1985-11-20
JPH0441388B2 true JPH0441388B2 (ja) 1992-07-08

Family

ID=14004770

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59090663A Granted JPS60233782A (ja) 1984-05-07 1984-05-07 住所読取装置

Country Status (1)

Country Link
JP (1) JPS60233782A (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2671311B2 (ja) * 1986-08-26 1997-10-29 日本電気株式会社 住所読取装置
JPH02230488A (ja) * 1989-03-03 1990-09-12 Nec Corp 文字認識装置
JPH02268388A (ja) * 1989-04-10 1990-11-02 Hitachi Ltd 文字認識方法
JPH02302888A (ja) * 1989-05-18 1990-12-14 Nec Corp 単語辞書照合装置
JPH05334360A (ja) * 1992-05-28 1993-12-17 Fujitsu Ltd 名称認識方法

Also Published As

Publication number Publication date
JPS60233782A (ja) 1985-11-20

Similar Documents

Publication Publication Date Title
JPS61267885A (ja) 単語辞書照合装置
JPS6262387B2 (ja)
JP2693914B2 (ja) 検索システム
JPH0441388B2 (ja)
JPH1011434A (ja) 情報認識装置
JPS6262388B2 (ja)
JP2732593B2 (ja) 文字読取システム
JP2671311B2 (ja) 住所読取装置
JP2588261B2 (ja) Ocrによる住所データベース検索装置
JP2000251017A (ja) 単語辞書作成装置および単語認識装置
JPH08305698A (ja) 自然語解析方法及び装置
JP3241854B2 (ja) 単語スペル自動補正装置
JPH0635971A (ja) 文書検索装置
JP2874199B2 (ja) 単語辞書照合装置
JPS63138479A (ja) 文字認識装置
JP2570784B2 (ja) 文書リーダ後処理装置
JP2560959B2 (ja) 文字認識後処理方式
JP2865443B2 (ja) カナ氏名もしくはカナ法人名表記の漢字変換装置
JP2839515B2 (ja) 文字読取システム
JPS60225273A (ja) 単語検索方式
JPS61161588A (ja) 文字認識後処理方式
JPH09161014A (ja) 文字認識装置
JPH0528132A (ja) 単語辞書照合装置
JPH0728956A (ja) 誤読修正支援方法
JPH0797369B2 (ja) 仮名漢字変換装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term