JPH04278664A - 住所解析処理装置 - Google Patents

住所解析処理装置

Info

Publication number
JPH04278664A
JPH04278664A JP3041497A JP4149791A JPH04278664A JP H04278664 A JPH04278664 A JP H04278664A JP 3041497 A JP3041497 A JP 3041497A JP 4149791 A JP4149791 A JP 4149791A JP H04278664 A JPH04278664 A JP H04278664A
Authority
JP
Japan
Prior art keywords
character string
name
order
address
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP3041497A
Other languages
English (en)
Inventor
Harutsugu Katou
加藤 晴嗣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP3041497A priority Critical patent/JPH04278664A/ja
Publication of JPH04278664A publication Critical patent/JPH04278664A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、計算機における自然言
語処理において、住所表記の文字列を解析するための処
理装置に関する。
【0002】
【従来の技術と発明が解決しようとする課題】自然言語
処理、例えば日本語文から英語文への翻訳処理等におい
ては、例えば日本語文の構成を解析して、正しく単語に
分割することが必要であり、一般の文については種々の
解析手段が提供されている。
【0003】住所の表記は通常の文とは異なり、地名の
単語に、市区町村等の行政区画の種類を表す名称を付し
た文字列が並び、住所表記上でそれらの行政区画を示す
順序は、行政区画の包含関係に対応するようにしている
【0004】しかし、従来は住所表記についても、住所
特有の行政区画の包含関係による順序を考慮しないで解
析しているので、誤った単語分割を生じ易い。本発明は
、住所表記の文字列を行政区画の包含関係を考慮して解
析する住所解析処理装置を目的とする。
【0005】
【課題を解決するための手段】図1は、本発明の構成を
示すブロック図である。図は住所解析処理装置の構成で
あって、順序関係情報1と、処理部2とを有する。
【0006】順序関係情報1には、住所表記の中で地名
に付して行政区画を示すように使用される所要の名称と
、該名称によって定まる該行政区画の該住所表記上の順
序関係を表す情報とを保持する。
【0007】処理部2は、所与の文字列について、順序
関係情報1に保持する該名称であって、該住所表記上の
順序関係を、該文字列上の所定の順序で満足している該
名称の文字列を該行政区画を示すように使用される名称
として検出し、該名称の文字列によって区切られる各文
字列を、それぞれ各該行政区画の地名を表す文字列とし
て決定する。
【0008】一構成において、前記順序関係情報1は、
前記名称ごとに対応して点数の値を保持するテーブルと
し、該点数は所定の最高値から、該名称によって定まる
行政区画の住所表記上の順位に従って順次減少し、同一
の該順位にあって、一つの住所表記内に同時に使用され
ることのない該名称の該点数は、該点数相互の差が所定
値より大きくないように付与されるように構成する。
【0009】その場合に、前記処理部2は、所与の文字
列について、住所表記上の順序関係を、該文字列上の所
定の順序で満足している前記名称の文字列を検索する場
合に、該点数の最高値より高くした所定の初期値を状態
点数3にして、該文字列を所定の順に検索して、順序関
係情報1に登録された該名称と一致する文字列を検索し
、検索した当該文字列で表す名称に付与されている該点
数が、該状態点数より小さい場合に、当該文字列を前記
行政区画を示すために使用されている名称と判定し、当
該名称に付与されている該点数値から定まる所定値を新
たな該状態点数に更新した後、以上の検索処理を繰り返
す。
【0010】他の構成において、単語辞書4に、所要の
単語ごとに、該単語を表す文字列を保持する。その場合
に、前記処理部2は、所与の文字列について、住所表記
上の順序関係を、該文字列上の所定の順序で満足してい
る前記名称の文字列を検出する場合に、複数の異なる該
検出結果が可能な場合には、各該検出結果によって決定
される前記地名の文字列が、単語辞書4に登録されてい
る単語と一致する最も少ない個数の単語で構成され、且
つ当該単語の平均文字数が最も長くなるように、該検出
結果を選択する。
【0011】
【作用】本発明の住所解析処理装置によれば、住所表記
を行政区画を表す名称を付した地名に単語分割する場合
に、行政区画上の包含関係を考慮して解析を行なうので
、単語分割の誤りを大幅に減少することができる。
【0012】特に本発明の順序関係情報と、単語辞書を
使用することにより、地名の中に行政区画の名称を含む
場合にも、誤り無く分割を行なえる可能性が高い。
【0013】
【実施例】本発明の順序関係情報は、例えば図1に順序
関係情報1の内容として例示するように、「都」、「道
」、「府」及び「県」は、住所の先頭に置かれる行政区
画の名称であって、且つこの4者が同じ住所表記内で同
時に使われることが無いので、何れも最高値の同じ値「
90」を点数とする。
【0014】又、「市」、「区」、「町」及び「村」は
、使用される場合にはこの配列順であり、且つ都道府県
より後であるので、「90」より適当な間隔で順次小さ
くなる値を各点数として、図示のように付与する。以上
のように順序関係情報1に登録された行政区画の各名称
を、以下においてキーワードと呼ぶものとする。
【0015】単語辞書4には、地名として取り扱う可能
性のある所要の単語を、すべて登録しておく。単語辞書
4は後述のように、ある文字列で検索し、その文字列と
登録単語との完全一致により、その文字列を住所解析上
1つの単語と見てよいことを判定するために使用する。
【0016】図3は、処理部2の処理の流れの一例を示
す図であり、処理ステップ10で住所表記の文字列を入
力すると、処理ステップ11で制御情報の初期設定とし
て、入力した文字列の先頭の文字を指示するように文字
位置ポインタを設定し、又状態点数3を「100 」に
設定する。この状態点数の初期値は、前記順序関係情報
1の最高点数「90」より大きな値であればよい。
【0017】処理ステップ12で、文字位置ポインタの
指示先が文字列の文末を越えたか識別して、文末を越え
ていれば処理を終了し、文末を越えるまで以下に述べる
処理を繰り返す。
【0018】以下は文字位置ポインタの指示する各1文
字ごとについての処理であり、先ず処理ステップ13で
その文字がキーワードかを、順序関係情報1を参照して
識別し、キーワードでなければ処理ステップ17で文字
位置ポインタを次の文字位置へ進めて、処理ステップ1
2に戻る。
【0019】文字がキーワードであれば、処理ステップ
14で順序関係情報1からそのキーワードの点数を得、
状態点数3と比較する。比較の結果、キーワードの点数
の方が小さければ、そのキーワードは正常な順序で行政
区画の名称として使用されているものと見なして、処理
ステップ15で直前のキーワードか又は文字列の先頭か
ら現に検出したキーワードの前までの文字列を地名とし
て取り出す。
【0020】又、処理ステップ16で状態点数を、現に
検出したキーワードの点数より「1」だけ小さい値に更
新した後、処理ステップ17で文字位置ポインタを次の
文字位置へ進めて、処理ステップ12に戻る。
【0021】処理ステップ14で状態点数とキーワード
の点数を比較して、キーワードの点数の方が小さくなけ
れば、そのキーワードか、又はその前に行政区画の名称
として使用されているものと見なしたキーワードか、何
れを行政区画の名称と見るのが妥当かを、以下のように
して判定する。
【0022】即ち、処理ステップ18で、直前に行政区
画の名称と判定したキーワードについて取り出した地名
 (以下に「直前の地名」という) と、現に検出した
キーワードが行政区画の名称であって、直前のキーワー
ドが行政区画の名称で無い場合に、現に検出したキーワ
ードから定まる地名 (以下に「現在の地名」という)
 とについて、それぞれ単語分割を行なって両者の分割
数を比較する。
【0023】この単語分割は、例えば先ず地名の文字列
全長で単語辞書4を検索し、一致しなければ例えば1文
字づつ地名の末尾を落とした文字列で単語辞書4を検索
するというようにして、前部と一致する単語を検出し、
次に残りの後部分について同様にして一致する単語を検
出する。
【0024】このようにして、単語辞書4に登録されて
いる単語で、なるべく長い単語をつないで、分割対象の
地名が構成されるように、単語を選び、処理対象の地名
を構成するに必要な単語の個数を分割数とする。
【0025】処理ステップ18で、直前の地名と現在の
地名について、以上のようにして求めた分割数を比較し
、現在の地名の分割数の方が小さいか、又は両分割数が
等しければ、直前の判定が誤りであったと見なして、処
理ステップ19で直前の地名を取り消して、現在の地名
を正しい地名とした後、前記と同様に処理ステップ16
に進んで状態点数を更新し、処理ステップ17を経て処
理ステップ12に戻る。
【0026】これは、成るべく長い少数の単語で構成さ
れる地名の方が実在する可能性が高いとする判定してい
ることになる。又、処理ステップ18の比較で、現在の
地名の分割数の方が大きければ、直前の地名は正しく、
現に検出したキーワードは行政区画の名称として使われ
ているのではないと判定し、直ちに処理ステップ17を
経て次の文字の処理に進む。
【0027】図2は判定例であって、住所の文字列を左
から処理するので、図2(a) の例の「四日市市」の
部分では、初めに「四日市」の「市」をキーワードとし
て検出し、その直前には左にある「県」を行政区画の名
称と判定して、その点数により状態点数を「89」にし
てあるので、「市」の点数「79」が「状態点数>現点
数」の条件を満足することから、左の「市」を行政区画
の名称と判定して地名を「四日」とし、又状態点数を「
79−1」にする。
【0028】しかし、次に「四日市市」の右の「市」を
再びキーワードとして検出すると、「状態点数>現点数
」を満足しないので、前記の流れにおける処理ステップ
18の処理に進む。
【0029】ここで、直前の地名「四日」と、現に検出
したキーワード「市」が行政区画の名称である場合の現
在の地名「四日市」とを、単語辞書を使用して調べる。 直前の地名では、「四日」という単語は登録が無いとす
ると、次に「四」を検索し、数詞として登録されている
ので分割数に「1」がカウントされ、次に残りの「日」
も一般名詞として登録されているので分割数は合計「2
」となる。
【0030】現在の地名「四日市」については、単語辞
書に地名として登録されていて、分割数は「1」となる
と、「四日市」の方が分割数が少ないので、「四日市」
を地名とする方が正しい単語分割になると判定する。
【0031】なお、もし「四日」が単語辞書に登録され
ていた場合には、両者とも分割数は「1」で等しいので
、単語長が長いことを条件として、この場合も「四日市
」が選ばれる。
【0032】図2(b) の例では、「〇〇市市」の部
分については、前記の様な判定処理によって、「〇〇」
を地名と決定し、従って左のキーワード「市」を行政区
画の名称とし、右の「市」は次の地名の一部として処理
したものとする。
【0033】その結果、次に検出するキーワード「町」
を行政区画の名称とし、その地名を「市道」と決定する
と、キーワード「町」の点数「71」に従って、状態点
数を「70」にする。
【0034】その状態で、次に「静岡県立」の部分の「
県」をキーワードとして検出するが、「県」の点数が「
90」であって状態点数より大きいので、前記のように
地名の単語分割数が調べられる。
【0035】即ち、直前の地名「市道」と、現在の地名
「市道町静岡」との分割数の比較となり、単語辞書に「
市道」、「町」及び「静岡」が単語として登録されてい
るとすれば、前者の分割数は「1」、後者は「3」とな
る。
【0036】その結果、分割数の少ない「市道」が妥当
な地名とされ、従って現キーワード「県」は行政区画の
名称でなく地名の一部と判定される。以上の説明では、
順序関係情報1でキーワードに点数を付け、又単語辞書
4を使用して処理したが、地名が限定されている場合等
には、単語辞書を使用せず、順序関係情報1は単に行政
区画の包含関係に従ってキーワードをその順序に並べた
ものとし、住所表記上でその順序に反して現れるキーワ
ードは直ちに地名の一部として処理するようにすること
ができる。
【0037】
【発明の効果】以上の説明から明らかなように本発明に
よれば、計算機における自然言語処理において、住所表
記の文字列を行政区画の包含関係を考慮して解析できる
ので、住所表記の単語分割の誤りを少なくするという著
しい工業的効果がある。
【図面の簡単な説明】
【図1】  本発明の構成を示すブロック図
【図2】 
 住所表記の解析例を説明する図
【図3】  本発明の
処理の流れ図
【符号の説明】
1  順序関係情報 2  処理部 3  状態点数 4  単語辞書 10〜19  処理ステップ

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】  順序関係情報(1)と、処理部(2)
    とを有し、該順序関係情報(1) には、住所表記の中
    で地名に付して行政区画を示すように使用される所要の
    名称と、該名称によって定まる該行政区画の該住所表記
    上の順序関係を表す情報とを保持し、該処理部(2)は
    、所与の文字列について、該順序関係情報(1)に保持
    する該名称であって、該住所表記上の順序関係を、該文
    字列上の所定の順序で満足している該名称の文字列を該
    行政区画を示すように使用される名称として検出し、該
    名称の文字列によって区切られる各文字列を、それぞれ
    各該行政区画の地名を表す文字列として決定するように
    構成されていることを特徴とする住所解析処理装置。
  2. 【請求項2】  前記順序関係情報(1) は、前記名
    称ごとに対応して点数の値を保持するテーブルとし、該
    点数は所定の最高値から、該名称によって定まる行政区
    画の住所表記上の順位に従って順次減少し、同一の該順
    位にあって、一つの住所表記内に同時に使用されること
    のない該名称の該点数は、該点数相互の差が所定値より
    大きくないように付与され、前記処理部(2) は、所
    与の文字列について、住所表記上の順序関係を、該文字
    列上の所定の順序で満足している前記名称の文字列を検
    索する場合に、該点数の最高値より高くした所定の初期
    値を状態点数にして、該文字列を所定の順に検索して、
    該順序関係情報(1) に登録された該名称と一致する
    文字列を検索し、検索した当該文字列で表す名称に付与
    されている該点数が、該状態点数より小さい場合に、当
    該文字列を前記行政区画を示すために使用されている名
    称と判定し、当該名称に付与されている該点数値から定
    まる所定値を新たな該状態点数に更新した後、以上の検
    索処理を繰り返す、請求項1記載の住所解析処理装置。
  3. 【請求項3】  単語辞書(4) に、所要の単語ごと
    に、該単語を表す文字列を保持し、前記処理部(2) 
    は、所与の文字列について、住所表記上の順序関係を、
    該文字列上の所定の順序で満足している前記名称の文字
    列を検出する場合に、複数の異なる該検出結果が可能な
    場合には、各該検出結果によって決定される前記地名の
    文字列が、該単語辞書(4) に登録されている単語と
    一致する最も少ない個数の単語で構成され、且つ当該単
    語の平均文字数が最も長くなるように、該検出結果を選
    択する、請求項1又は請求項2記載の住所解析処理装置
JP3041497A 1991-03-07 1991-03-07 住所解析処理装置 Withdrawn JPH04278664A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3041497A JPH04278664A (ja) 1991-03-07 1991-03-07 住所解析処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3041497A JPH04278664A (ja) 1991-03-07 1991-03-07 住所解析処理装置

Publications (1)

Publication Number Publication Date
JPH04278664A true JPH04278664A (ja) 1992-10-05

Family

ID=12609993

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3041497A Withdrawn JPH04278664A (ja) 1991-03-07 1991-03-07 住所解析処理装置

Country Status (1)

Country Link
JP (1) JPH04278664A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007179329A (ja) * 2005-12-28 2007-07-12 Alps Sha:Kk 住所文字列取得方法および住所文字列取得システム
JP2012155356A (ja) * 2011-01-21 2012-08-16 Zenrin Datacom Co Ltd 住所検索装置及び住所検索方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007179329A (ja) * 2005-12-28 2007-07-12 Alps Sha:Kk 住所文字列取得方法および住所文字列取得システム
JP2012155356A (ja) * 2011-01-21 2012-08-16 Zenrin Datacom Co Ltd 住所検索装置及び住所検索方法

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US4775956A (en) Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes
US7174290B2 (en) Multi-language document search and retrieval system
EP0415000A2 (en) Method and apparatus for spelling error detection and correction
US7856598B2 (en) Spelling correction with liaoalphagrams and inverted index
EP0031493A1 (en) Alpha content match prescan method and system for automatic spelling error correction
US7676358B2 (en) System and method for the recognition of organic chemical names in text documents
US5950184A (en) Indexing a database by finite-state transducer
US9965546B2 (en) Fast substring fulltext search
US20030126138A1 (en) Computer-implemented column mapping system and method
JPH0869476A (ja) 検索システム
JPH04278664A (ja) 住所解析処理装置
JP3531222B2 (ja) 類似文字列検索装置
JP3591109B2 (ja) キーワード設定装置
JPH01243116A (ja) 日本文処理方法
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法
JP3139624B2 (ja) 形態素解析装置
Li Automatic Synonym Extraction and Context-based Query Reformulation for Points-of-Interest Search
Luong et al. Context-aware mapping of gene names using trigrams
JP3408007B2 (ja) 形態素解析処理装置
JPH05189485A (ja) キーワード検索方式
JP2006106896A (ja) データベース登録システム、データベース検索システム、語彙索引登録方法及び異表記同一視検索方法
JPS62285189A (ja) 文字認識後処理方式
WO2017126057A1 (ja) 情報検索方法
JPH0757059A (ja) 文字認識装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19980514