JP2006134154A - Address analysis device, address analysis method and address analysis program - Google Patents
Address analysis device, address analysis method and address analysis program Download PDFInfo
- Publication number
- JP2006134154A JP2006134154A JP2004323783A JP2004323783A JP2006134154A JP 2006134154 A JP2006134154 A JP 2006134154A JP 2004323783 A JP2004323783 A JP 2004323783A JP 2004323783 A JP2004323783 A JP 2004323783A JP 2006134154 A JP2006134154 A JP 2006134154A
- Authority
- JP
- Japan
- Prior art keywords
- address
- street name
- word
- street
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
本発明は、入力された住所文字列を解析し、住所コードあるいは規格化された住所文字列もしくはその両方に変換する技術に関する。 The present invention relates to a technique for analyzing an input address character string and converting it into an address code and / or a standardized address character string.
お客様が申し出た住所でデータベースを検索したり、お客様の住所を顧客データベースに登録するような業務において、都道府県市区郡町村、町大字、字・丁目の住所階層(住所レベル)毎に問い合わせたり、区切って入力したりせず、お客様が申し出る住所をそのまま入力する方が効率が良い。しかし、お客様が申し出る住所には、地名の先頭の「大字」や「字」が省略されてたり、市と郡や市と町に同じ地名があって市と郡や町等を間違えたりする場合があり、住所レベル毎の住所コード及び規格化された地名(住所文字列)を含む住所テーブルを用いても、正確な住所コードや規格化された住所文字列を求めることができないことがあった。 Search the database with the address that you have offered, or inquire at each address level (address level) in prefectures, cities, towns, towns, towns, and villages, etc. It is more efficient to enter the address that the customer proposes as it is, without entering it separately. However, in the address that the customer proposes, the capital letter or letter at the beginning of the place name is omitted, or the city and county or city and town have the same place name, and the city and county or town are mistaken. Even if an address table including an address code for each address level and a standardized place name (address string) was used, an accurate address code or a standardized address string could not be obtained. .
そこで、従来は、表記の揺れを派生して住所テーブルを検索したり、あるいは予め表記の揺れを派生した住所を住所テーブルに登録して対処していた(特許文献1参照)。
しかし、通り名の場合、東西通りと、南北通りと、通り名付属語とから構成されるため、東西通りと南北通りを逆に表現したり、同じ通りでありながら表現が異なる場合(「室町新町の間」と「新町室町の間」)、通り名の別称(黒門通りと新シ町通り)、通り名付属語の異表記(東入る、東入ル、東入、東)等、多くの揺らぎがあるため、全ての組み合わせを派生して住所テーブルに登録することは困難であった。 However, in the case of street names, because it consists of Tozai Street, Namboku Street, and street name annexes, Tozai Street and Namboku Street are expressed in reverse, or even though they are the same street (“Muromachi” A lot of fluctuations such as “Shinmachi” and “Shinmachi Muromachi”), aliases of street names (Kuromon-dori and Shin-shimachi-dori), street name annotations (east-in, east-in, east-in, east) Therefore, it is difficult to derive all combinations and register them in the address table.
また、通り名付属語が入力されない場合は通り名付属語を無視して検索できないので、住所コードや規格化された住所文字列の候補すら求めることが出来ないという問題があった。 Further, when a street name ancillary word is not input, the street name ancillary word is ignored and the search cannot be performed. Therefore, there is a problem that even an address code or a standardized address character string candidate cannot be obtained.
本発明では、前記課題を解決するため、通り名を東西通り、南北通り、通り名付属語に分割し、それぞれコード化・規格化したデータを登録した通り名コードを用いて揺らぎの組み合わせを減らす。 In the present invention, in order to solve the above-mentioned problem, the street name is divided into East-West street, North-South street, street name ancillary words, and the combination of fluctuations is reduced by using the street name code in which the coded and standardized data is registered respectively. .
例えば東西通り名及び南北通り名で平均各2通り、通り名付属語で4通りの揺らぎがあり、かつ、東西と南北の通り名を逆転した言い方で2通りあるとすると、派生による方法では1つの通り名で2×2×4×2=32通り、通り名の数は7千あまりあるので、約22万の派生データが必要であるが、東西通り名及び南北通り名、通り名付属語に分割すれば東西通り名及び南北通り名は合計で200あまりで、通り名の揺らぎを派生しても400通りで全ての通り名を検索できるようになる。
[作用]
東西通りと南北通りを別々にコード化し、検索するため、東西通りと南北通りの逆転入力、通り名の別表記、通り名の別称、通り名付属語の異表記など、多くの揺らぎを含む通り名でも住所コードや規格化された住所文字列を求めることが出来る。
For example, assuming that there are two fluctuations on average in the name of Tozai-Dori and Namboku-dori, and that there are four fluctuations in the street name ancillary, and that there are two ways of reversing the names of the East-West and North-South streets, the derivation method is 1 There are 2 x 2 x 4 x 2 = 32 street names, and there are about 7,000 street names, so about 220,000 derived data are required. Tozai street names, north-south street names, street name annexes If it is divided into two, the total number of street names in the east and west and the streets in the north and south is about 200. Even if the fluctuation of the street name is derived, all street names can be searched in 400 ways.
[Action]
In order to encode and search East-West Street and Namboku Street separately, streets with many fluctuations, such as reverse input of Tozai Street and Namboku Street, alternative names of street names, alternative names of street names, different names of street names, etc. Names can also be searched for address codes and standardized address strings.
また、通り名付属語が省略されていても住所コードや規格化された住所文字列の候補を示すことが出来る。さらに、東西通り同士あるいは南北通り同士のように通り名の組み合わせに矛盾がある場合、間違いを指摘することが出来る。 Moreover, even if the street name ancillary word is omitted, the address code and the standardized address character string candidate can be shown. Furthermore, if there is a contradiction in the combination of street names such as East-West streets or North-South streets, it is possible to point out mistakes.
通り名を東西通りと南北通りと通り名付属語とに分けて解析することにより、通り名の逆転入力、通り名の別表記、通り名の別称、通り名付属語の異表記等、多数の揺らぎを持つ住所文字列を正しく解析して住所コードや規格化された住所文字列を求めることが出来る。 By dividing the street name into East-West Street, Namboku Street, and street name ancillary words, it is possible to input a number of reverse names, street name alternatives, street name aliases, street name ancillary names, etc. It is possible to obtain an address code and a standardized address character string by correctly analyzing the address character string having fluctuations.
また、通り名付属語が省略されていても住所コードや規格化された住所文字列の候補を示すことが出来る。 Moreover, even if the street name ancillary word is omitted, the address code and the standardized address character string candidate can be shown.
さらに、東西通り同士あるいは南北通り同士のように通り名の組み合わせに矛盾がある場合、間違いを指摘することが出来る。また、片通りでないのに東西あるいは南北の通り名が一つしか入力されない場合は、入力情報の不足を指摘することが出来る。 Furthermore, if there is a contradiction in the combination of street names such as East-West streets or North-South streets, it is possible to point out mistakes. In addition, if only one street name is entered, even if it is not one-way street, it is possible to point out the lack of input information.
以下、本発明の実施の形態を図面により説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1は本発明の住所解析装置の実施の形態の一例を示すもので、図中、1は単語辞書記憶部、2は住所テーブル記憶部、3は通り名コードテーブル記憶部、4は通り名テーブル記憶部、5は単語分割部、6は住所候補記憶部、7は住所候補抽出部、8は絞り込み部である。 FIG. 1 shows an example of an embodiment of an address analyzing apparatus according to the present invention. In the figure, 1 is a word dictionary storage unit, 2 is an address table storage unit, 3 is a street name code table storage unit, and 4 is a street name. A table storage unit, 5 is a word division unit, 6 is an address candidate storage unit, 7 is an address candidate extraction unit, and 8 is a narrowing unit.
単語辞書記憶部1は、図2に示すように、住所文字列を構成する多数の単語を、名詞、数詞、接尾詞等の品詞及び地名、通り名、通り名付属語等の単語の意味とともに登録してなる単語辞書を記憶している。なお、単語辞書記憶部1中の地名の意味を持つ各単語には、さらに後述する図7に示すような、当該各単語が住所として存在する可能性のある県を都道府県市区郡町村、町大字、字・丁目の住所レベル毎に表す県フラグ、即ち市区レベル県フラグ、町レベル県フラグ、字レベル県フラグが併せて記憶されているものとする(但し、図2では省略)。
As shown in FIG. 2, the word
住所テーブル記憶部2は、図3に示すように、住所文字列を構成する単語中の各地名を、接尾詞、住所レベル及び住所コードとともに登録してなる住所テーブルを記憶している。なお、住所コードは、国土地理協会で規定しているコードを用い、コード上で包含関係が判るようにしたもので、左から県コード、政令指定都市・郡・市・区コード、一般町村コードである。
As shown in FIG. 3, the address
通り名コードテーブル記憶部3は、図4に示すように、住所文字列を構成する単語中の各東西通りの通り名及び各南北通りの通り名を、独自の通り名コード及び東西通り、南北通り等の特徴とともに登録してなる通り名コードテーブルを記憶している。なお、ここでは通り名コードとして、東西通りは9000番台、南北通りは8000番台のコードを付けている。
As shown in FIG. 4, the street name code
通り名テーブル記憶部4は、図5に示すように、東西通り名コード、南北通り名コード及び通り名付属語の組み合わせに対応して住所コード及び規格化された住所文字列(地名)を登録してなる通り名テーブルを記憶している。 As shown in FIG. 5, the street name table storage unit 4 registers an address code and a standardized address character string (place name) corresponding to the combination of the east-west street name code, the north-south street name code, and the street name ancillary words. As you can see, the name table is stored.
単語分割部5は、図示しないキーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置等から入力された(通り名を含む)住所文字列を単語辞書記憶部1を用いて単語に分割し、分割された単語に対応する少なくとも県レベルで最も包含のとれる県コードを求め、分割した各単語を、当該各単語が住所として存在する可能性のある県を住所階層毎に表す県フラグ、即ち市区レベル県フラグ、町レベル県フラグ、字レベル県フラグ、全体を包含する県フラグ及び通り名や通り名付属語等の単語の意味とともに出力する。
The word dividing unit 5 converts an address character string (including a street name) directly input from a keyboard or the like (not shown) or read from a storage medium or input from another device or the like via a communication medium to a word dictionary. Prefectures where the
住所候補抽出部6は、市区レベル住所候補抽出部61、町レベル住所候補抽出部62、字・丁目レベル住所候補抽出部63及び通り名レベル住所候補抽出部64から構成されている。
The address
このうち、市区レベル住所候補抽出部61、町レベル住所候補抽出部62及び字・丁目レベル住所候補抽出部63では、単語分割手段5から出力される単語または複数の単語を結合した複合語より、その県フラグに基づいて都道府県市区郡町村、町大字及び字・丁目の各住所レベルに対応する単語を選択し、当該選択した単語で住所テーブル記憶部2を検索して各住所レベル毎の住所コード及び規格化された住所文字列を含む住所候補を求め、住所候補記憶部7に住所候補が記憶されていない場合は前記住所候補を住所候補記憶部7に記憶し、住所候補記憶部7に住所候補が既に記憶されている場合は当該記憶されている住所候補と包含関係のある住所候補を記憶する。
Among them, the city level address
また、通り名レベル住所候補抽出部64では、単語分割手段5から出力される単語中に通り名の意味の単語がある場合は、当該単語で通り名コードテーブル記憶部3を検索して対応する通り名コードを求め、東西通りと南北通りとの組み合わせ又は片通りであることをチェックし、東西通り名コード、南北通り名コード(又は片通り名コード)及び通り名付属語で通り名テーブル記憶部4を検索して通り名レベルの規格化された住所文字列及び住所コードを含む住所候補を求め、住所候補記憶部7に都道府県市区郡町村レベル、町大字レベル、字・丁目レベルの住所候補が記憶されていない場合は前記通り名レベルの住所候補を住所候補記憶部7に記憶し、住所候補記憶部7に住所候補が既に記憶されている場合は当該記憶されている住所候補と包含関係のある前記通り名レベルの住所候補を記憶する。
The street name level address
住所候補記憶部7は、住所候補抽出部6によって求められた住所候補を一時的に記憶する。
The address candidate storage unit 7 temporarily stores the address candidate obtained by the address
絞り込み部8は、住所候補記憶部7に記憶された住所候補を、その住所レベル、未使用単語数、接尾詞の一致数、正式表記か異表記かの区別を組み合わせて絞り込む。
The narrowing-down
図6は本発明の住所解析装置における処理の流れを示すもので、以下、これに従って動作を詳細に説明する。 FIG. 6 shows the flow of processing in the address analyzing apparatus of the present invention, and the operation will be described in detail below according to this.
入力された住所文字列は、単語分割部5において単語辞書記憶部1を用いて単語に分割され、分割された各単語が、各単語が住所として存在する可能性のある県を住所階層毎に表す市区レベル県フラグ、町レベル県フラグ、字レベル県フラグ、全体を包含する県フラグ及び単語の意味とともに出力される(s1)。
The input address character string is divided into words by the word dividing unit 5 using the word
例えば、住所文字列「京都市北区鞍馬口通寺町東入上善寺門前町」が入力された場合、図7に示すように出力される。「鞍馬口」は町名の場合と通り名の場合とがあるので、町レベル県フラグと単語の意味の通り名との両方が出力される。京都府には「寺町」は通り名のみのため、町レベル県フラグは出力されない。 For example, when an address character string “Kyoto-shi Kita-ku Kuramaguchi Todera-cho Higashi-irijozenzenmonzen-cho” is input, it is output as shown in FIG. Since “Kuramaguchi” may be a street name or a street name, both the town level prefecture flag and the name as the meaning of the word are output. In Kyoto Prefecture, “Teramachi” is the street name only, so the town level prefecture flag is not output.
次に、住所候補抽出部6の市区レベル住所候補抽出部61、町レベル住所候補抽出部62及び字・丁目レベル住所候補抽出部63において、前記単語の分割結果を基に、住所テーブル記憶部2を用いて市区レベル、町レベル、字レベルの住所候補抽出が行われる。
Next, in the city level address
まず、市区レベル住所候補抽出部61において、「京都」から「京都府」と「京都市」が検索され、「北」から京都以外の「北区」も検索されるが、「京都」との包含関係チェックで「京都府/北区」と「京都市/北区」が住所候補記憶部7に記憶される(s2)。ここで、この2つの住所候補は同じ住所を表しているので、接尾詞が一致している「京都市/北区」を残し、「京都府/北区」は削除する。
First, in the city level address
次に、町レベル住所候補抽出部62において、「鞍馬口」から「京都市/北区/鞍馬口町」が検索され、「上善寺門前町」から「京都市/北区/上善寺門前町」が検索され、それぞれ住所候補記憶部7に記憶される(s3)。図8にこの時点の住所候補記憶部7の記憶内容を示す。
Next, in the town level address
次に、字・丁目レベル住所候補抽出部63において、字・丁目レベル住所候補抽出(s4)を行うが、ここでは該当する単語がないので何も行わない。
Next, in the character / chome level address
次に、住所候補抽出部6の通り名レベル住所候補抽出部64において、通り名コードテーブル記憶部3及び通り名テーブル記憶部4を用いて通り名レベルの住所候補抽出(s5)を行うが、以下、図9に示す通り名レベル住所候補抽出処理の流れに沿って説明する。
Next, the street name level address
まず、通り名コードテーブル記憶部3を検索し、最初の通り名「鞍馬口」から通り名コード「9001」を得る。次に2番目の通り名「寺町」から通り名コード「8001」を得る。また、通り名付属語については単語辞書記憶部1により正規化された通り名付属語「東入」(コード化してもかまわない)を得る(s5−1)。
First, the street name code
通り名コードを取得した後、東西通りと南北通りの組み合わせ又は片通りであることをチェックする。東西通り同士(例えば「鞍馬口通二条」)、南北通り同士(例えば「加茂川筋寺町」)の場合は通り名テーブル記憶部4は検索せず、入力に間違いがあるとして処理を終了する。また、片通りでないのに東西通り又は南北通りのどちらかしか無い場合は通り名テーブル記憶部4を検索しても多数の住所候補が返ってきて解を絞りきれないので、入力情報不足で処理を終了する(s5−2)。 After obtaining the street name code, check that it is a combination or one-way street of East-West Street and North-South Street. In the case of East-West streets (for example, “Kurumaguchi-dori Nijo”) and North-south streets (for example, “Kamogawasuji-cho”), the street name table storage unit 4 is not searched, and the processing is terminated because there is an input error. Also, if there is only one of East-West Street or North-South Street even though it is not one-way street, even if the street name table storage unit 4 is searched, many address candidates are returned and the solution cannot be narrowed down. Is finished (s5-2).
次に、前述した南北通り名コード「8001」、東西通り名コード「9001」及び通り名付属語「東入」で通り名テーブル記憶部4を検索し、住所コード「26/101/179/901」、「26/101/253/901」、「26/101/309/901」を得るが、「上善寺門前町」と包含のある「26/101/253/901」の住所候補のみ住所候補記憶部7に記憶する(s5−3,s5−4,s5−5)。 Next, the street name table storage unit 4 is searched for the north-south street name code “8001”, the east-west street name code “9001”, and the street name ancillary word “Toiri”, and the address code “26/101/179/901”. , “26/101/253/901”, “26/101/309/901”, but only “26/101/253/901” address candidates that contain “Jozenji Monzen-cho” and address candidate storage unit 7 (s5-3, s5-4, s5-5).
最後に、絞り込み部7において、絞り込み処理(s6)が行われる。即ち、「鞍馬口」を町名として解析した住所候補では「寺町」、「東入」及び「上善寺門前町」が未使用単語になり、「鞍馬口」を通り名として解析した住所候補では未使用単語がないため、未使用単語のある前者の住所候補が棄却される。結局、「京都府京都市北区鞍馬口通寺町東入上善寺門前町(26/101/253/901)」が住所候補の解として出力される。 Finally, the narrowing-down process (s6) is performed in the narrowing-down unit 7. That is, “Teramachi”, “Toiri”, and “Jozenji Monzen-cho” are unused words in the address candidates analyzed using “Kuramaguchi” as the town name, and there are no unused words in the address candidates analyzed using “Kuramaguchi” as the street name. Therefore, the former address candidate having an unused word is rejected. Eventually, "Kenma-cho, Kita-ku, Kyoto, Higashi-Irikamizenzenji-monzen-mae (26/101/253/901)" is output as a candidate address solution.
ここで、「京都市北区寺町通鞍馬口東入上善寺門前町」のように、東西通りと南北通りを逆転して入力しても、通り名コードテーブル記憶部3及び通り名テーブル記憶部4の検索は入力順に無関係なので、通り名コードテーブル記憶部3から「鞍馬口」の通り名コード「9001」、「寺町」の通り名コード「8001」及び通り名付属語「東入」が検索され、これらによって通り名テーブル記憶部4が検索されるため、「京都府京都市北区鞍馬口通寺町東入上善寺門前町(26/101/253/901)」の正しい解が得られる。
Here, the street name code
また、東西通りと南北通りの両方に使われる通りも存在するので、このような通りは両通りのコードを付与しておき、もう一方の通り名によって東西通りか南北通りか判断する。六軒町は一般には東西通りであるが、希に東西通りとは別の南北通りに使用することがある両通りの通り名である。ここで「一条通六軒町東入」の場合、「一条」は東西通り(通り名コード「9002」)なので、両通りの「六軒町」は南北通り(通り名コード「8801」)と判断し、これらの通り名コード及び通り名付属語「東入」で通り名テーブル記憶部4を検索し、住所コード「26/102/109/902」を得る。 Also, there are streets that are used for both East-West Street and North-South Street, so such streets are given a code for both streets, and whether the street is East-West Street or North-South Street is determined by the other street name. Rokugen-cho is generally on Tozai-dori Street, but it is a street name that is sometimes used on Namboku-dori, which is different from Tozai-dori. Here, in the case of “Ichijo-dori Rokukencho Higashi-in”, “Ichijo” is Tozai-dori (street code “9002”), so “Rokuken-cho” on both streets is determined to be Namboku-dori (street name code “8801”). The street name table storage unit 4 is searched with the street name code and the street name attached word “Toiri”, and the address code “26/102/109/902” is obtained.
一方、「加茂川筋六軒町下る」の場合は、「加茂川筋」が南北通り(通り名コード「8002」)なので、「六軒町」は東西通り(通り名コード「8801」)と判断する。これらの通り名コード及び通り名付属語「下る」で通り名テーブル記憶部4を検索し、住所コード「26/105/119/903」を得る。 On the other hand, in the case of “going down Kamogawa-suji Rokugencho”, “Kamogawa-suji” is Namboku-dori (street name code “8002”), so “Rokugen-cho” is judged as East-West Street (street name code “8801”). The street name table storage unit 4 is searched for the street name code and the street name attached word “down” to obtain the address code “26/105/119/903”.
次に、異表記の通り名について説明する。 Next, the names will be described as different notations.
「室町新町の間」と「新町室町の間」のような同じ通りを表しているのに表現が違う場合や、「黒門通」と「新シ町通」のように別称の場合は通り名コードテーブル記憶部3に同じ通り名コードで登録する。これにより、通り名テーブル記憶部4の検索には変更を加えることなく所望の住所コードが得られる。
The name of the street is the same as “Muromachi Shinmachi” and “Shinmachi Muromachi”, but the expression is different, or “Kuromon Dori” and “Shinshi Machi Dori”. The same name code is registered in the code
例えば「室町新町の間三条下る」の場合も「新町室町の間三条下る」の場合も、通り名コード「8003」、「9003」及び通り名付属語「下る」で通り名テーブル記憶部4を検索し、住所コード「26/104/144/905」を得る。また、「黒門通三条上る」の場合も「新シ町通三条上る」の場合も、通り名コード「8004」、「9003」及び通り名付属語「上る」で通り名テーブル記憶部4を検索し、住所コード「26/104/065/901」を得る。 For example, in the case of “Going down Sanjo between Muromachi Shinmachi” and “Going down Sanjo between Shinmachi Muromachi”, the street name table storage unit 4 is stored with street code “8003”, “9003” and street name ancillary “down”. The address code “26/104/144/905” is obtained by searching. In addition, in the case of “Kuromon Dori Sanjo Gou” and “Shin Shimachi Dori Sanjo Gou”, the street name table storage unit 4 is searched with the street name codes “8004” and “9003” and the street name ancillary “up”. The address code “26/104/065/901” is obtained.
片通りの場合は通り名が2つ無くても通り名テーブル記憶部4を検索し、住所コードを得る。例えば「六波羅南通西入」の場合、通り名は「六波羅南」だけであるが、片通りであることが分かるので、通り名コード「9501」及び通り名付属語「西入」で通り名テーブル記憶部4を検索し、住所コード「26/105/011/903」を得る。 In the case of a one-way street, even if there are no two street names, the street name table storage unit 4 is searched to obtain an address code. For example, in the case of “Roppa Ranan Dori Nishiiri”, the street name is only “Rokuba Ranan”, but it is understood that it is a one-way street, so the street name code “9501” and the street name appendix “Nishiiri” The name table storage unit 4 is searched to obtain the address code “26/105/011/903”.
通り名付属語が入力されない場合は東西通りコードと南北通りコードで通り名テーブル記憶部4を検索し、住所候補を得る。例えば「鞍馬口通寺町鞍馬口町」と入力された場合、通り名付属語は無いので、東西通り名コード「8001」、南北通り名コード「9001」で通り名テーブル記憶部4を検索し、「鞍馬口通寺町東入」、「鞍馬口通寺町東入上る」、「寺町通鞍馬口上る」を得るが、「鞍馬口町」と包含のある「鞍馬口通寺町東入」が選ばれる。「鞍馬口通寺町」のように町名も入力されない場合は前記3つの候補が全て出力される。 When the street name ancillary word is not input, the street name table storage unit 4 is searched with the east-west street code and the north-south street code to obtain address candidates. For example, when “Kuramaguchi Toderacho Kuramaguchicho” is entered, there is no street name ancillary word. Therefore, the street name table storage unit 4 is searched with the East-West street name code “8001” and the north-south street name code “9001”. "Tsurujicho Togashi", "Tsurumaguchi Toderacho Higashi Irigami", "Teramachi Dori Toumaguchi Ryu" are obtained, but "Kuramaguchi Togashicho Togashi" is included. If no town name is input, such as “Kuramaguchi-dori-cho”, all three candidates are output.
なお、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図6、図9の流れ図に示された手順を備えるプログラムをインストールすることによっても実現可能である。 The present invention can also be realized by installing a program having the procedures shown in the flowcharts of FIGS. 6 and 9 via a medium or a communication line in a known computer.
1:単語辞書記憶部、2:住所テーブル記憶部、3:通り名コードテーブル記憶部、4:通り名テーブル記憶部、5:単語分割部、6:住所候補抽出部、7:住所候補記憶部、8:絞り込み部、61:市区レベル住所候補抽出部、62:町レベル住所候補抽出部、63:字・丁目レベル住所候補抽出部、64:通り名レベル住所候補抽出部、s1:単語分割処理、s2:市区レベル住所候補抽出処理、s3:町レベル住所候補抽出処理、s4:字・丁目レベル住所候補抽出処理、s5:通り名レベル住所候補抽出処理、s6:絞り込み処理、s5−1:通り名コードテーブル検索、s5−2:通り名方向チェック、s5−3:通り名テーブル検索、s5−4:包含チェック、s5−5:住所候補記憶。 1: word dictionary storage unit, 2: address table storage unit, 3: street name code table storage unit, 4: street name table storage unit, 5: word division unit, 6: address candidate extraction unit, 7: address candidate storage unit , 8: Refinement unit, 61: City level address candidate extraction unit, 62: Town level address candidate extraction unit, 63: Character / chome level address candidate extraction unit, 64: Street name level address candidate extraction unit, s1: Word division Processing, s2: city level address candidate extraction processing, s3: town level address candidate extraction processing, s4: letter / chome level address candidate extraction processing, s5: street name level address candidate extraction processing, s6: narrowing processing, s5-1 : Street name code table search, s5-2: street name direction check, s5-3: street name table search, s5-4: inclusion check, s5-5: address candidate storage.
Claims (3)
入力された住所文字列を単語辞書を用いて単語に分割し、分割された各単語を、当該各単語が住所として存在する県を都道府県市区郡町村、町大字、字・丁目の住所レベル毎に表す県フラグ及び通り名や通り名付属語等の単語の意味とともに出力する単語分割手段と、
前記単語分割手段から出力される単語よりその県フラグに基づいて各住所レベルに対応する単語を選択し、当該選択した単語で住所テーブルを検索して各住所レベル毎の住所コード及び規格化された住所文字列を含む住所候補を求め、住所候補記憶部に記憶し、前記単語分割手段から出力される単語中に通り名の意味の単語がある場合は、当該単語で通り名コードテーブルを検索して対応する通り名コードを求め、東西通り名コード、南北通り名コード及び通り名付属語で通り名テーブルを検索して通り名レベルの住所コード及び規格化された住所文字列を含む住所候補を求め、住所候補記憶部に前記住所レベルの住所候補が記憶されていない場合は前記通り名レベルの住所候補を住所候補記憶部に記憶し、住所候補記憶部に住所候補が既に記憶されている場合は当該記憶されている住所候補と包含関係のある前記通り名レベルの住所候補を記憶する住所候補抽出手段と、
住所候補記憶部に記憶された住所候補を、その住所レベル、未使用単語数、接尾詞一致数、正式表記か異表記かの区別を組み合わせて絞り込む絞り込み手段とを備えた
ことを特徴とする住所解析装置。 In the address analysis device that analyzes the input address string and converts it into an address code and / or standardized address string,
The input address string is divided into words using a word dictionary, and each divided word is assigned to the prefecture where the word exists as an address, the municipality of the prefecture, the town square, and the address level A word dividing means for outputting together with the meaning of the word such as the prefectural flag and street name and street name attached words,
The word corresponding to each address level is selected from the words output from the word dividing means based on the prefecture flag, and the address table for each address level is standardized by searching the address table with the selected word. An address candidate including an address character string is obtained, stored in the address candidate storage unit, and if there is a word meaning a street name in the word output from the word dividing means, the street name code table is searched with the word. The corresponding street name code is obtained, and the street name table is searched with the street name code of the east-west street, the street name code of the north-south street, and street name ancillary words, and address candidates including street-level address codes and standardized address strings are obtained. If the address candidate is not stored in the address candidate storage unit, the street name address candidate is stored in the address candidate storage unit, and the address candidate is already stored in the address candidate storage unit. And address candidate extracting means for storing the candidate address in the nickname level with inclusion relation between candidate address that is the storage if it is 憶,
Addressing means comprising a narrowing means for narrowing down address candidates stored in the address candidate storage unit by combining the address level, the number of unused words, the number of suffix matches, and the distinction between formal and different notation Analysis device.
単語辞書と、住所テーブルと、通り名コードテーブルと、通り名テーブルと、単語分割手段と、住所候補抽出手段と、住所候補記憶部と、絞り込み手段とを用い、
単語分割手段が、入力された住所文字列を単語辞書を用いて単語に分割し、分割された各単語を、当該各単語が住所として存在する県を都道府県市区郡町村、町大字、字・丁目の住所レベル毎に表す県フラグ及び通り名や通り名付属語等の単語の意味とともに出力する単語分割ステップと、
住所候補抽出手段が、前記単語分割手段から出力される単語よりその県フラグに基づいて各住所レベルに対応する単語を選択し、当該選択した単語で住所テーブルを検索して各住所レベル毎の住所コード及び規格化された住所文字列を含む住所候補を求め、住所候補記憶部に記憶し、前記単語分割手段から出力される単語中に通り名の意味の単語がある場合は、当該単語で通り名コードテーブルを検索して対応する通り名コードを求め、東西通り名コード、南北通り名コード及び通り名付属語で通り名テーブルを検索して通り名レベルの住所コード及び規格化された住所文字列を含む住所候補を求め、住所候補記憶部に前記住所レベルの住所候補が記憶されていない場合は前記通り名レベルの住所候補を住所候補記憶部に記憶し、住所候補記憶部に住所候補が既に記憶されている場合は当該記憶されている住所候補と包含関係のある前記通り名レベルの住所候補を記憶する住所候補抽出ステップと、
絞り込み手段が、住所候補記憶部に記憶された住所候補を、その住所レベル、未使用単語数、接尾詞一致数、正式表記か異表記かの区別を組み合わせて絞り込む絞り込みステップとを含む
ことを特徴とする住所解析方法。 In the address analysis method that analyzes the input address string and converts it into an address code and / or standardized address string,
Using a word dictionary, an address table, a street name code table, a street name table, a word dividing unit, an address candidate extracting unit, an address candidate storage unit, and a narrowing unit,
The word dividing means divides the input address character string into words using a word dictionary, and each divided word is assigned to the prefecture where the word is present as an address, a municipality, a town large character, a character A word division step for outputting together with the meaning of the word such as the prefecture flag and street name and street name ancillary words for each street address level;
The address candidate extracting means selects a word corresponding to each address level from the words output from the word dividing means based on the prefecture flag, searches the address table with the selected word, and addresses for each address level. An address candidate including a code and a standardized address character string is obtained, stored in the address candidate storage unit, and if there is a word meaning a street name in the word output from the word dividing means, the word Search the name code table to find the corresponding street name code, search the street name table by East-West street name code, Namboku street name code and street name ancillary words, street name level address code and standardized address characters Address candidates including a column are obtained, and if the address candidate at the address level is not stored in the address candidate storage unit, the address candidate at the name level is stored in the address candidate storage unit as described above, And address candidate extracting step if the candidate address has already been stored for storing an address candidate of the nickname level with inclusion relation between candidate address that is the storage in section,
The narrowing-down means includes a narrowing-down step for narrowing down the address candidates stored in the address candidate storage unit by combining the address level, the number of unused words, the number of suffix matches, and the distinction between formal and different notation. Address analysis method.
単語辞書と、住所テーブルと、通り名コードテーブルと、通り名テーブルと、住所候補記憶部とを有するコンピュータに、
入力された住所文字列を単語辞書を用いて単語に分割し、分割された各単語を、当該各単語が住所として存在する県を都道府県市区郡町村、町大字、字・丁目の住所レベル毎に表す県フラグ及び通り名や通り名付属語等の単語の意味とともに出力する単語分割処理と、
前記分割された単語よりその県フラグに基づいて各住所レベルに対応する単語を選択し、当該選択した単語で住所テーブルを検索して各住所レベル毎の住所コード及び規格化された住所文字列を含む住所候補を求め、住所候補記憶部に記憶し、前記分割された単語中に通り名の意味の単語がある場合は、当該単語で通り名コードテーブルを検索して対応する通り名コードを求め、東西通り名コード、南北通り名コード及び通り名付属語で通り名テーブルを検索して通り名レベルの住所コード及び規格化された住所文字列を含む住所候補を求め、住所候補記憶部に前記住所レベルの住所候補が記憶されていない場合は前記通り名レベルの住所候補を住所候補記憶部に記憶し、住所候補記憶部に住所候補が既に記憶されている場合は当該記憶されている住所候補と包含関係のある前記通り名レベルの住所候補を記憶する住所候補抽出処理と、
住所候補記憶部に記憶された住所候補を、その住所レベル、未使用単語数、接尾詞一致数、正式表記か異表記かの区別を組み合わせて絞り込む絞り込み処理とを実行させるための住所解析プログラム。 An address analysis program that analyzes an input address string and converts it into an address code and / or a standardized address string,
In a computer having a word dictionary, an address table, a street name code table, a street name table, and an address candidate storage unit,
The input address string is divided into words using a word dictionary, and each divided word is assigned to the prefecture where the word exists as an address, the municipality of the prefecture, the town square, and the address level A word segmentation process to be output together with the meaning of the words such as the prefectural flag and street name and street name attached words,
The word corresponding to each address level is selected from the divided words based on the prefecture flag, the address table is searched with the selected word, and the address code and the standardized address character string for each address level are obtained. An address candidate including the address candidate is stored in the address candidate storage unit, and if there is a word meaning a street name among the divided words, a street name code table is searched for the word to obtain a corresponding street name code. The street name table is searched with the street name code of the east-west street, the street name code of the north-south street, and a street name ancillary word to obtain an address candidate including a street name level address code and a standardized address character string. If no address candidate at the address level is stored, the address candidate at the name level is stored in the address candidate storage unit, and if the address candidate is already stored in the address candidate storage unit, it is stored. And address candidate extracting process of storing an address candidate of the nickname level candidate address as a containment relationship are,
An address analysis program for performing a narrowing process for narrowing down address candidates stored in an address candidate storage unit by combining the address level, the number of unused words, the number of suffix matches, and the distinction between formal and different notation.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004323783A JP4382634B2 (en) | 2004-11-08 | 2004-11-08 | Address analysis apparatus, address analysis method, and address analysis program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004323783A JP4382634B2 (en) | 2004-11-08 | 2004-11-08 | Address analysis apparatus, address analysis method, and address analysis program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006134154A true JP2006134154A (en) | 2006-05-25 |
JP4382634B2 JP4382634B2 (en) | 2009-12-16 |
Family
ID=36727638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004323783A Expired - Fee Related JP4382634B2 (en) | 2004-11-08 | 2004-11-08 | Address analysis apparatus, address analysis method, and address analysis program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4382634B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8984006B2 (en) | 2011-11-08 | 2015-03-17 | Google Inc. | Systems and methods for identifying hierarchical relationships |
CN110688851A (en) * | 2019-09-26 | 2020-01-14 | 税友软件集团股份有限公司 | Method, device and medium for extracting key information of address text |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930362B (en) * | 2016-04-12 | 2019-03-12 | 晶赞广告(上海)有限公司 | Search for target identification method, device and terminal |
-
2004
- 2004-11-08 JP JP2004323783A patent/JP4382634B2/en not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8984006B2 (en) | 2011-11-08 | 2015-03-17 | Google Inc. | Systems and methods for identifying hierarchical relationships |
CN110688851A (en) * | 2019-09-26 | 2020-01-14 | 税友软件集团股份有限公司 | Method, device and medium for extracting key information of address text |
CN110688851B (en) * | 2019-09-26 | 2023-07-28 | 亿企赢网络科技有限公司 | Method, device and medium for extracting key information of address text |
Also Published As
Publication number | Publication date |
---|---|
JP4382634B2 (en) | 2009-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100326936B1 (en) | System and method for translating foreign language phonetic presentation of korean word to korean word and retrieving information related to translated korean word | |
JP4382634B2 (en) | Address analysis apparatus, address analysis method, and address analysis program | |
CN112069824A (en) | Region identification method, device and medium based on context probability and citation | |
JP4510792B2 (en) | LOCATION ANALYSIS DEVICE, LOCATION ANALYSIS METHOD, ITS PROGRAM, AND RECORDING MEDIUM | |
US8521532B2 (en) | Speech-conversion processing apparatus and method | |
JP3621614B2 (en) | Address analysis method, apparatus, and recording medium recording address analysis program | |
JP4510780B2 (en) | LOCATION ANALYSIS DEVICE, LOCATION ANALYSIS METHOD, ITS PROGRAM, AND RECORDING MEDIUM | |
JP2000250931A (en) | Device and method for automatic extraction of positional information and recording medium | |
JP2007125556A (en) | Place name notation dictionary creation process and place name notation dictionary creation device | |
JP4387324B2 (en) | Property conversion device | |
JP4510784B2 (en) | LOCATION ANALYSIS DEVICE, LOCATION ANALYSIS METHOD, ITS PROGRAM, AND RECORDING MEDIUM | |
JP2009122886A (en) | Address analysis device and method, and its program | |
JP4415768B2 (en) | Address table generation support method, apparatus and program | |
JP6076285B2 (en) | Translation apparatus, translation method, and translation program | |
CN113268600B (en) | Method, device, electronic equipment and storage medium for correcting wrongly written or mispronounced search name | |
KR102278288B1 (en) | Apparatus and method for searching text based on phoneme | |
JPH0962700A (en) | Method and device for constructing dictionary | |
JP2003167912A (en) | Address code retrieving system and address code retrieving and processing program | |
JP2007140781A (en) | Name analysis device, name analysis method and name analysis program | |
KR100289332B1 (en) | Automatic Word Construction System for Electronic Documents and Method | |
JP2000276467A (en) | Conversion device | |
JP3327420B2 (en) | Postal code search method by simple address input | |
JP4069093B2 (en) | REPLACEMENT PATTERN GENERATION DEVICE, METHOD, AND PROGRAM | |
KR101063610B1 (en) | Name search method in navigation system | |
JP2000029873A (en) | Address book conversion method, address book converter and recording medium recording address book conversion program for the address book converter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070125 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090709 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090713 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090825 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090915 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090917 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121002 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131002 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |