JP4382634B2 - Address analysis apparatus, address analysis method, and address analysis program - Google Patents

Address analysis apparatus, address analysis method, and address analysis program Download PDF

Info

Publication number
JP4382634B2
JP4382634B2 JP2004323783A JP2004323783A JP4382634B2 JP 4382634 B2 JP4382634 B2 JP 4382634B2 JP 2004323783 A JP2004323783 A JP 2004323783A JP 2004323783 A JP2004323783 A JP 2004323783A JP 4382634 B2 JP4382634 B2 JP 4382634B2
Authority
JP
Japan
Prior art keywords
address
word
candidate
street name
street
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004323783A
Other languages
Japanese (ja)
Other versions
JP2006134154A (en
Inventor
成人 岩瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004323783A priority Critical patent/JP4382634B2/en
Publication of JP2006134154A publication Critical patent/JP2006134154A/en
Application granted granted Critical
Publication of JP4382634B2 publication Critical patent/JP4382634B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、入力された住所文字列を解析し、住所コードあるいは規格化された住所文字列もしくはその両方に変換する技術に関する。   The present invention relates to a technique for analyzing an input address character string and converting it into an address code and / or a standardized address character string.

お客様が申し出た住所でデータベースを検索したり、お客様の住所を顧客データベースに登録するような業務において、都道府県市区郡町村、町大字、字・丁目の住所階層(住所レベル)毎に問い合わせたり、区切って入力したりせず、お客様が申し出る住所をそのまま入力する方が効率が良い。しかし、お客様が申し出る住所には、地名の先頭の「大字」や「字」が省略されてたり、市と郡や市と町に同じ地名があって市と郡や町等を間違えたりする場合があり、住所レベル毎の住所コード及び規格化された地名(住所文字列)を含む住所テーブルを用いても、正確な住所コードや規格化された住所文字列を求めることができないことがあった。   Search the database with the address that you have offered, or inquire at each address level (address level) in prefectures, cities, towns, towns, towns, and villages, etc. It is more efficient to enter the address that the customer proposes as it is, without entering it separately. However, in the address that the customer proposes, the capital letter or letter at the beginning of the place name is omitted, or the city and county or city and town have the same place name, and the city and county or town are mistaken. Even if an address table including an address code for each address level and a standardized place name (address string) was used, an accurate address code or a standardized address string could not be obtained. .

そこで、従来は、表記の揺れを派生して住所テーブルを検索したり、あるいは予め表記の揺れを派生した住所を住所テーブルに登録して対処していた(特許文献1参照)。
特開2001−134602号公報
Therefore, conventionally, the address table is searched by deriving the swing of the notation, or the address derived from the swing of the notation is registered in the address table in advance (see Patent Document 1).
JP 2001-134602 A

しかし、通り名の場合、東西通りと、南北通りと、通り名付属語とから構成されるため、東西通りと南北通りを逆に表現したり、同じ通りでありながら表現が異なる場合(「室町新町の間」と「新町室町の間」)、通り名の別称(黒門通りと新シ町通り)、通り名付属語の異表記(東入る、東入ル、東入、東)等、多くの揺らぎがあるため、全ての組み合わせを派生して住所テーブルに登録することは困難であった。   However, in the case of street names, because it consists of Tozai Street, Namboku Street, and street name annexes, Tozai Street and Namboku Street are expressed in reverse, or even though they are the same street (“Muromachi” A lot of fluctuations such as “Shinmachi” and “Shinmachi Muromachi”), aliases of street names (Kuromon-dori and Shin-shimachi-dori), street name annotations (east-in, east-in, east-in, east) Therefore, it is difficult to derive all combinations and register them in the address table.

また、通り名付属語が入力されない場合は通り名付属語を無視して検索できないので、住所コードや規格化された住所文字列の候補すら求めることが出来ないという問題があった。   Further, when a street name ancillary word is not input, the street name ancillary word is ignored and the search cannot be performed. Therefore, there is a problem that even an address code or a standardized address character string candidate cannot be obtained.

本発明では、前記課題を解決するため、通り名を東西通り、南北通り、通り名付属語に分割し、それぞれコード化・規格化したデータを登録した通り名コードを用いて揺らぎの組み合わせを減らす。   In the present invention, in order to solve the above-described problem, the street name is divided into East-West street, North-South street, and street name ancillary words, and the combination of fluctuations is reduced by using the street name code in which each coded and standardized data is registered. .

例えば東西通り名及び南北通り名で平均各2通り、通り名付属語で4通りの揺らぎがあり、かつ、東西と南北の通り名を逆転した言い方で2通りあるとすると、派生による方法では1つの通り名で2×2×4×2=32通り、通り名の数は7千あまりあるので、約22万の派生データが必要であるが、東西通り名及び南北通り名、通り名付属語に分割すれば東西通り名及び南北通り名は合計で200あまりで、通り名の揺らぎを派生しても400通りで全ての通り名を検索できるようになる。
[作用]
東西通りと南北通りを別々にコード化し、検索するため、東西通りと南北通りの逆転入力、通り名の別表記、通り名の別称、通り名付属語の異表記など、多くの揺らぎを含む通り名でも住所コードや規格化された住所文字列を求めることが出来る。
For example, assuming that there are two fluctuations on average in the name of Tozai-Dori and Namboku-dori, and that there are four fluctuations in the street name ancillary, and that there are two ways of reversing the names of the East-West and North-South streets, the derivation method is 1 There are 2 x 2 x 4 x 2 = 32 street names, and there are about 7,000 street names, so about 220,000 derived data are required. Tozai street names, north-south street names, street name annexes If it is divided into two, the total number of street names in the east and west and the streets in the north and south is about 200. Even if the fluctuation of the street name is derived, all street names can be searched in 400 ways.
[Action]
In order to encode and search East-West Street and Namboku Street separately, streets with many fluctuations, such as reverse input of Tozai Street and Namboku Street, alternative names of street names, alternative names of street names, different names of street names, etc. Names can also be searched for address codes and standardized address strings.

また、通り名付属語が省略されていても住所コードや規格化された住所文字列の候補を示すことが出来る。さらに、東西通り同士あるいは南北通り同士のように通り名の組み合わせに矛盾がある場合、間違いを指摘することが出来る。   Moreover, even if the street name ancillary word is omitted, the address code and the standardized address character string candidate can be shown. Furthermore, if there is a contradiction in the combination of street names such as East-West streets or North-South streets, it is possible to point out mistakes.

通り名を東西通りと南北通りと通り名付属語とに分けて解析することにより、通り名の逆転入力、通り名の別表記、通り名の別称、通り名付属語の異表記等、多数の揺らぎを持つ住所文字列を正しく解析して住所コードや規格化された住所文字列を求めることが出来る。   By dividing the street name into East-West Street, Namboku Street, and street name ancillary words, it is possible to input a number of reverse names, street name alternatives, street name aliases, street name ancillary names, etc. It is possible to obtain an address code and a standardized address character string by correctly analyzing the address character string having fluctuations.

また、通り名付属語が省略されていても住所コードや規格化された住所文字列の候補を示すことが出来る。   Moreover, even if the street name ancillary word is omitted, the address code and the standardized address character string candidate can be shown.

さらに、東西通り同士あるいは南北通り同士のように通り名の組み合わせに矛盾がある場合、間違いを指摘することが出来る。また、片通りでないのに東西あるいは南北の通り名が一つしか入力されない場合は、入力情報の不足を指摘することが出来る。   Furthermore, if there is a contradiction in the combination of street names such as East-West streets or North-South streets, it is possible to point out mistakes. In addition, if only one street name is entered, even if it is not one-way street, it is possible to point out the lack of input information.

以下、本発明の実施の形態を図面により説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図1は本発明の住所解析装置の実施の形態の一例を示すもので、図中、1は単語辞書記憶部、2は住所テーブル記憶部、3は通り名コードテーブル記憶部、4は通り名テーブル記憶部、5は単語分割部、6は住所候補記憶部、7は住所候補抽出部、8は絞り込み部である。   FIG. 1 shows an example of an embodiment of an address analyzing apparatus according to the present invention. In the figure, 1 is a word dictionary storage unit, 2 is an address table storage unit, 3 is a street name code table storage unit, and 4 is a street name. A table storage unit, 5 is a word division unit, 6 is an address candidate storage unit, 7 is an address candidate extraction unit, and 8 is a narrowing unit.

単語辞書記憶部1は、図2に示すように、住所文字列を構成する多数の単語を、名詞、数詞、接尾詞等の品詞及び地名、通り名、通り名付属語等の単語の意味とともに登録してなる単語辞書を記憶している。なお、単語辞書記憶部1中の地名の意味を持つ各単語には、さらに後述する図7に示すような、当該各単語が住所として存在する可能性のある県を都道府県市区郡町村、町大字、字・丁目の住所レベル毎に表す県フラグ、即ち市区レベル県フラグ、町レベル県フラグ、字レベル県フラグが併せて記憶されているものとする(但し、図2では省略)。   As shown in FIG. 2, the word dictionary storage unit 1 divides a large number of words constituting an address character string into part-of-speech such as nouns, numbers, and suffixes, and place names, street names, street names, and other word meanings. A registered word dictionary is stored. Each word having the meaning of the place name in the word dictionary storage unit 1 further indicates a prefecture where the word may exist as an address, as shown in FIG. It is assumed that a prefecture flag represented for each address level of the town large character, character / chome, that is, a city level prefecture flag, a town level prefecture flag, and a character level prefecture flag are stored together (however, omitted in FIG. 2).

住所テーブル記憶部2は、図3に示すように、住所文字列を構成する単語中の各地名を、接尾詞、住所レベル及び住所コードとともに登録してなる住所テーブルを記憶している。なお、住所コードは、国土地理協会で規定しているコードを用い、コード上で包含関係が判るようにしたもので、左から県コード、政令指定都市・郡・市・区コード、一般町村コードである。   As shown in FIG. 3, the address table storage unit 2 stores an address table in which each name in a word constituting an address character string is registered together with a suffix, an address level, and an address code. The address code is a code stipulated by the Geospatial Information Authority of Japan, and the inclusion relationship is understood on the code. From the left, the prefecture code, the ordinance-designated city / county / city / ward code, and the general town / village code It is.

通り名コードテーブル記憶部3は、図4に示すように、住所文字列を構成する単語中の各東西通りの通り名及び各南北通りの通り名を、独自の通り名コード及び東西通り、南北通り等の特徴とともに登録してなる通り名コードテーブルを記憶している。なお、ここでは通り名コードとして、東西通りは9000番台、南北通りは8000番台のコードを付けている。   As shown in FIG. 4, the street name code table storage unit 3 stores the street name and street name of each east-west street in the words constituting the address character string, A street name code table registered together with street characteristics is stored. Here, as street name codes, codes of 9000 series on East-West street and 8000 series on Namboku street are attached.

通り名テーブル記憶部4は、図5に示すように、東西通り名コード、南北通り名コード及び通り名付属語の組み合わせに対応して住所コード及び規格化された住所文字列(地名)を登録してなる通り名テーブルを記憶している。   As shown in FIG. 5, the street name table storage unit 4 registers an address code and a standardized address character string (place name) corresponding to the combination of the east-west street name code, the north-south street name code, and the street name ancillary words. As you can see, the name table is stored.

単語分割部5は、図示しないキーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置等から入力された(通り名を含む)住所文字列を単語辞書記憶部1を用いて単語に分割し、分割された単語に対応する少なくとも県レベルで最も包含のとれる県コードを求め、分割した各単語を、当該各単語が住所として存在する可能性のある県を住所階層毎に表す県フラグ、即ち市区レベル県フラグ、町レベル県フラグ、字レベル県フラグ、全体を包含する県フラグ及び通り名や通り名付属語等の単語の意味とともに出力する。   The word dividing unit 5 converts an address character string (including a street name) directly input from a keyboard or the like (not shown) or read from a storage medium or input from another device or the like via a communication medium to a word dictionary. Prefectures where the storage unit 1 is used to divide into words, find the prefecture code that is most inclusive at least at the prefecture level corresponding to the divided words, and each of the divided words may exist as an address Are output together with the meaning of words such as street flags and street name appendices, including prefecture flags representing city levels, that is, city level prefecture flags, town level prefecture flags, character level prefecture flags, prefecture flags including the whole.

住所候補抽出部6は、市区レベル住所候補抽出部61、町レベル住所候補抽出部62、字・丁目レベル住所候補抽出部63及び通り名レベル住所候補抽出部64から構成されている。   The address candidate extraction unit 6 includes a city level address candidate extraction unit 61, a town level address candidate extraction unit 62, a letter / chome level address candidate extraction unit 63, and a street name level address candidate extraction unit 64.

このうち、市区レベル住所候補抽出部61、町レベル住所候補抽出部62及び字・丁目レベル住所候補抽出部63では、単語分割手段5から出力される単語または複数の単語を結合した複合語より、その県フラグに基づいて都道府県市区郡町村、町大字及び字・丁目の各住所レベルに対応する単語を選択し、当該選択した単語で住所テーブル記憶部2を検索して各住所レベル毎の住所コード及び規格化された住所文字列を含む住所候補を求め、住所候補記憶部7に住所候補が記憶されていない場合は前記住所候補を住所候補記憶部7に記憶し、住所候補記憶部7に住所候補が既に記憶されている場合は当該記憶されている住所候補と包含関係のある住所候補を記憶する。   Among them, the city level address candidate extraction unit 61, the town level address candidate extraction unit 62, and the character / chome level address candidate extraction unit 63 use a word output from the word dividing means 5 or a compound word obtained by combining a plurality of words. , Based on the prefecture flag, select a word corresponding to each address level of the prefecture, municipality, town, large letter, and letter / chome, and search the address table storage unit 2 with the selected word for each address level. Address candidate including the address code and the standardized address character string, and when the address candidate is not stored in the address candidate storage unit 7, the address candidate is stored in the address candidate storage unit 7, and the address candidate storage unit If an address candidate is already stored in 7, an address candidate having an inclusion relationship with the stored address candidate is stored.

また、通り名レベル住所候補抽出部64では、単語分割手段5から出力される単語中に通り名の意味の単語がある場合は、当該単語で通り名コードテーブル記憶部3を検索して対応する通り名コードを求め、東西通りと南北通りとの組み合わせ又は片通りであることをチェックし、東西通り名コード、南北通り名コード(又は片通り名コード)及び通り名付属語で通り名テーブル記憶部4を検索して通り名レベルの規格化された住所文字列及び住所コードを含む住所候補を求め、住所候補記憶部7に都道府県市区郡町村レベル、町大字レベル、字・丁目レベルの住所候補が記憶されていない場合は前記通り名レベルの住所候補を住所候補記憶部7に記憶し、住所候補記憶部7に住所候補が既に記憶されている場合は当該記憶されている住所候補と包含関係のある前記通り名レベルの住所候補を記憶する。   The street name level address candidate extraction unit 64 searches the street name code table storage unit 3 for a word that has the meaning of the street name in the words output from the word dividing unit 5 and responds. Get street name code, check that it is a combination of East-West street and Namboku street or one-way street, and store street name table with street name code, street name code (or street name code) and street name appendix Part 4 is searched for address candidates including standardized address strings and address codes at the street name level, and the address candidate storage unit 7 has the prefecture, municipality level, town large character level, and character / chome level. When the address candidate is not stored, the address candidate at the name level is stored in the address candidate storage unit 7, and when the address candidate is already stored in the address candidate storage unit 7, the stored address candidate is stored. Storing an address candidate of the nickname level with inclusion relation between.

住所候補記憶部7は、住所候補抽出部6によって求められた住所候補を一時的に記憶する。   The address candidate storage unit 7 temporarily stores the address candidate obtained by the address candidate extraction unit 6.

絞り込み部8は、住所候補記憶部7に記憶された住所候補を、その住所レベル、未使用単語数、接尾詞の一致数、正式表記か異表記かの区別を組み合わせて絞り込む。   The narrowing-down unit 8 narrows down the address candidates stored in the address candidate storage unit 7 by combining the address level, the number of unused words, the number of suffix matches, and the distinction between formal and different notation.

図6は本発明の住所解析装置における処理の流れを示すもので、以下、これに従って動作を詳細に説明する。   FIG. 6 shows the flow of processing in the address analyzing apparatus of the present invention, and the operation will be described in detail below according to this.

入力された住所文字列は、単語分割部5において単語辞書記憶部1を用いて単語に分割され、分割された各単語が、各単語が住所として存在する可能性のある県を住所階層毎に表す市区レベル県フラグ、町レベル県フラグ、字レベル県フラグ、全体を包含する県フラグ及び単語の意味とともに出力される(s1)。   The input address character string is divided into words by the word dividing unit 5 using the word dictionary storage unit 1, and each divided word indicates a prefecture in which each word may exist as an address for each address hierarchy. A city level prefecture flag, a town level prefecture flag, a character level prefecture flag, a prefecture flag including the whole, and the meaning of a word are output (s1).

例えば、住所文字列「京都市北区鞍馬口通寺町東入上善寺門前町」が入力された場合、図7に示すように出力される。「鞍馬口」は町名の場合と通り名の場合とがあるので、町レベル県フラグと単語の意味の通り名との両方が出力される。京都府には「寺町」は通り名のみのため、町レベル県フラグは出力されない。   For example, when an address character string “Kyoto-shi Kita-ku Kuramaguchi Todera-cho Higashi-irijozenzenmonzen-cho” is input, it is output as shown in FIG. Since “Kuramaguchi” may be a street name or a street name, both the town level prefecture flag and the name as the meaning of the word are output. In Kyoto Prefecture, “Teramachi” is the street name only, so the town level prefecture flag is not output.

次に、住所候補抽出部6の市区レベル住所候補抽出部61、町レベル住所候補抽出部62及び字・丁目レベル住所候補抽出部63において、前記単語の分割結果を基に、住所テーブル記憶部2を用いて市区レベル、町レベル、字レベルの住所候補抽出が行われる。   Next, in the city level address candidate extraction unit 61, the town level address candidate extraction unit 62, and the character / chome level address candidate extraction unit 63 of the address candidate extraction unit 6, an address table storage unit based on the word division result 2 is used to extract address candidates at the city level, town level, and character level.

まず、市区レベル住所候補抽出部61において、「京都」から「京都府」と「京都市」が検索され、「北」から京都以外の「北区」も検索されるが、「京都」との包含関係チェックで「京都府/北区」と「京都市/北区」が住所候補記憶部7に記憶される(s2)。ここで、この2つの住所候補は同じ住所を表しているので、接尾詞が一致している「京都市/北区」を残し、「京都府/北区」は削除する。   First, in the city level address candidate extraction unit 61, “Kyoto” and “Kyoto City” are searched from “Kyoto”, and “Kita Ward” other than Kyoto is also searched from “North”. As a result of the inclusion relation check, “Kyoto Prefecture / Kita Ward” and “Kyoto City / Kita Ward” are stored in the address candidate storage unit 7 (s2). Here, since these two address candidates represent the same address, “Kyoto City / Kita Ward” with the same suffix is left and “Kyoto Prefecture / Kita Ward” is deleted.

次に、町レベル住所候補抽出部62において、「鞍馬口」から「京都市/北区/鞍馬口町」が検索され、「上善寺門前町」から「京都市/北区/上善寺門前町」が検索され、それぞれ住所候補記憶部7に記憶される(s3)。図8にこの時点の住所候補記憶部7の記憶内容を示す。   Next, in the town level address candidate extraction unit 62, “Kyoto City / Kita Ward / Kurumaguchi Town” is searched from “Kuramaguchi”, and “Kyoto City / Kita Ward / Jozenji Monzen Town” is searched from “Jozenji Monzen-cho”. These are stored in the address candidate storage unit 7 (s3). FIG. 8 shows the stored contents of the address candidate storage unit 7 at this time.

次に、字・丁目レベル住所候補抽出部63において、字・丁目レベル住所候補抽出(s4)を行うが、ここでは該当する単語がないので何も行わない。   Next, in the character / chome level address candidate extraction unit 63, character / chome level address candidate extraction (s4) is performed. However, since there is no corresponding word, nothing is performed.

次に、住所候補抽出部6の通り名レベル住所候補抽出部64において、通り名コードテーブル記憶部3及び通り名テーブル記憶部4を用いて通り名レベルの住所候補抽出(s5)を行うが、以下、図9に示す通り名レベル住所候補抽出処理の流れに沿って説明する。   Next, the street name level address candidate extraction unit 64 performs street name level address candidate extraction (s5) using the street name code table storage unit 3 and the street name table storage unit 4, as shown in FIG. Hereinafter, the description will be made along the flow of the name level address candidate extraction process as shown in FIG.

まず、通り名コードテーブル記憶部3を検索し、最初の通り名「鞍馬口」から通り名コード「9001」を得る。次に2番目の通り名「寺町」から通り名コード「8001」を得る。また、通り名付属語については単語辞書記憶部1により正規化された通り名付属語「東入」(コード化してもかまわない)を得る(s5−1)。   First, the street name code table storage unit 3 is searched to obtain the street name code “9001” from the first street name “Kuramaguchi”. Next, the street name code “8001” is obtained from the second street name “Teramachi”. For the street name ancillary word, the street name ancillary word “Toiri” (which may be coded) normalized by the word dictionary storage unit 1 is obtained (s5-1).

通り名コードを取得した後、東西通りと南北通りの組み合わせ又は片通りであることをチェックする。東西通り同士(例えば「鞍馬口通二条」)、南北通り同士(例えば「加茂川筋寺町」)の場合は通り名テーブル記憶部4は検索せず、入力に間違いがあるとして処理を終了する。また、片通りでないのに東西通り又は南北通りのどちらかしか無い場合は通り名テーブル記憶部4を検索しても多数の住所候補が返ってきて解を絞りきれないので、入力情報不足で処理を終了する(s5−2)。   After obtaining the street name code, check that it is a combination or one-way street of East-West Street and North-South Street. In the case of East-West streets (for example, “Kurumaguchi-dori Nijo”) and North-south streets (for example, “Kamogawasuji-cho”), the street name table storage unit 4 is not searched, and the processing is terminated because there is an input error. Also, if there is only one of East-West Street or North-South Street even though it is not one-way street, even if the street name table storage unit 4 is searched, many address candidates are returned and the solution cannot be narrowed down. Is finished (s5-2).

次に、前述した南北通り名コード「8001」、東西通り名コード「9001」及び通り名付属語「東入」で通り名テーブル記憶部4を検索し、住所コード「26/101/179/901」、「26/101/253/901」、「26/101/309/901」を得るが、「上善寺門前町」と包含のある「26/101/253/901」の住所候補のみ住所候補記憶部7に記憶する(s5−3,s5−4,s5−5)。   Next, the street name table storage unit 4 is searched for the north-south street name code “8001”, the east-west street name code “9001”, and the street name ancillary word “Toiri”, and the address code “26/101/179/901”. , “26/101/253/901”, “26/101/309/901”, but only “26/101/253/901” address candidates that contain “Jozenji Monzen-cho” and address candidate storage unit 7 (s5-3, s5-4, s5-5).

最後に、絞り込み部7において、絞り込み処理(s6)が行われる。即ち、「鞍馬口」を町名として解析した住所候補では「寺町」、「東入」及び「上善寺門前町」が未使用単語になり、「鞍馬口」を通り名として解析した住所候補では未使用単語がないため、未使用単語のある前者の住所候補が棄却される。結局、「京都府京都市北区鞍馬口通寺町東入上善寺門前町(26/101/253/901)」が住所候補の解として出力される。   Finally, the narrowing-down process (s6) is performed in the narrowing-down unit 7. That is, “Teramachi”, “Toiri”, and “Jozenji Monzen-cho” are unused words in address candidates analyzed with “Kuramaguchi” as the town name, and there are no unused words in address candidates analyzed with “Kuramaguchi” as the street name. Therefore, the former address candidate having an unused word is rejected. Eventually, "Kenma-cho, Kita-ku, Kyoto, Higashi-Irikamizenzenji-monzen-mae (26/101/253/901)" is output as a candidate address solution.

ここで、「京都市北区寺町通鞍馬口東入上善寺門前町」のように、東西通りと南北通りを逆転して入力しても、通り名コードテーブル記憶部3及び通り名テーブル記憶部4の検索は入力順に無関係なので、通り名コードテーブル記憶部3から「鞍馬口」の通り名コード「9001」、「寺町」の通り名コード「8001」及び通り名付属語「東入」が検索され、これらによって通り名テーブル記憶部4が検索されるため、「京都府京都市北区鞍馬口通寺町東入上善寺門前町(26/101/253/901)」の正しい解が得られる。   Here, the street name code table storage unit 3 and the street name table storage unit 4 can be searched even if the East-West street and the Namboku street are reversed and input, such as “Tamamachi-dori Kuramaguchi Higashi-Irigami-zenzen-mon-mae-cho, Kyoto-shi”. Are irrelevant to the input order, the street name code table storage section 3 is searched for the street name code “9001” for “Kuramaguchi”, the street name code “8001” for “Teramachi”, and the street name appendix “Toiri”. Since the name table storage unit 4 is searched, the correct solution of “Higashi-Irizenzenzenmonzen-mae (26/101/253/901)”, Kuramaguchi-dori-ji, Kita-ku, Kyoto-shi, Kyoto, is obtained.

また、東西通りと南北通りの両方に使われる通りも存在するので、このような通りは両通りのコードを付与しておき、もう一方の通り名によって東西通りか南北通りか判断する。六軒町は一般には東西通りであるが、希に東西通りとは別の南北通りに使用することがある両通りの通り名である。ここで「一条通六軒町東入」の場合、「一条」は東西通り(通り名コード「9002」)なので、両通りの「六軒町」は南北通り(通り名コード「8801」)と判断し、これらの通り名コード及び通り名付属語「東入」で通り名テーブル記憶部4を検索し、住所コード「26/102/109/902」を得る。   Also, there are streets that are used for both East-West Street and North-South Street, so such streets are given a code for both streets, and whether the street is East-West Street or North-South Street is determined by the other street name. Rokugen-cho is generally on Tozai-dori Street, but it is a street name that is sometimes used on Namboku-dori, which is different from Tozai-dori. Here, in the case of “Ichijo-dori Rokukencho Higashi-in”, “Ichijo” is Tozai-dori (street code “9002”), so “Rokuken-cho” on both streets is determined to be Namboku-dori (street name code “8801”). The street name table storage unit 4 is searched with the street name code and the street name attached word “Toiri”, and the address code “26/102/109/902” is obtained.

一方、「加茂川筋六軒町下る」の場合は、「加茂川筋」が南北通り(通り名コード「8002」)なので、「六軒町」は東西通り(通り名コード「8801」)と判断する。これらの通り名コード及び通り名付属語「下る」で通り名テーブル記憶部4を検索し、住所コード「26/105/119/903」を得る。   On the other hand, in the case of “going down Kamogawa-suji Rokugencho”, “Kamogawa-suji” is Namboku-dori (street name code “8002”), so “Rokugen-cho” is judged as East-West Street (street name code “8801”). The street name table storage unit 4 is searched for the street name code and the street name attached word “down” to obtain the address code “26/105/119/903”.

次に、異表記の通り名について説明する。   Next, the names will be described as different notations.

「室町新町の間」と「新町室町の間」のような同じ通りを表しているのに表現が違う場合や、「黒門通」と「新シ町通」のように別称の場合は通り名コードテーブル記憶部3に同じ通り名コードで登録する。これにより、通り名テーブル記憶部4の検索には変更を加えることなく所望の住所コードが得られる。   The name of the street is the same as “Muromachi Shinmachi” and “Shinmachi Muromachi”, but the expression is different, or “Kuromon Dori” and “Shinshi Machi Dori”. The same name code is registered in the code table storage unit 3. Thus, a desired address code can be obtained without changing the search of the street name table storage unit 4.

例えば「室町新町の間三条下る」の場合も「新町室町の間三条下る」の場合も、通り名コード「8003」、「9003」及び通り名付属語「下る」で通り名テーブル記憶部4を検索し、住所コード「26/104/144/905」を得る。また、「黒門通三条上る」の場合も「新シ町通三条上る」の場合も、通り名コード「8004」、「9003」及び通り名付属語「上る」で通り名テーブル記憶部4を検索し、住所コード「26/104/065/901」を得る。   For example, in the case of “Going down Sanjo between Muromachi Shinmachi” and “Going down Sanjo between Shinmachi Muromachi”, the street name table storage unit 4 is stored with street code “8003”, “9003” and street name ancillary “down”. The address code “26/104/144/905” is obtained by searching. In addition, in the case of “Kuromon Dori Sanjo Gou” and “Shin Shimachi Dori Sanjo Gou”, the street name table storage unit 4 is searched with the street name codes “8004” and “9003” and the street name ancillary “up”. The address code “26/104/065/901” is obtained.

片通りの場合は通り名が2つ無くても通り名テーブル記憶部4を検索し、住所コードを得る。例えば「六波羅南通西入」の場合、通り名は「六波羅南」だけであるが、片通りであることが分かるので、通り名コード「9501」及び通り名付属語「西入」で通り名テーブル記憶部4を検索し、住所コード「26/105/011/903」を得る。   In the case of one-way street, even if there are no two street names, the street name table storage unit 4 is searched to obtain an address code. For example, in the case of “Roppa Ranan Dori Nishiiri”, the street name is only “Rokuba Ranan”, but it is understood that it is a one-way street, so the street name code “9501” and the street name appendix “Nishiiri” The name table storage unit 4 is searched to obtain the address code “26/105/011/903”.

通り名付属語が入力されない場合は東西通りコードと南北通りコードで通り名テーブル記憶部4を検索し、住所候補を得る。例えば「鞍馬口通寺町鞍馬口町」と入力された場合、通り名付属語は無いので、東西通り名コード「8001」、南北通り名コード「9001」で通り名テーブル記憶部4を検索し、「鞍馬口通寺町東入」、「鞍馬口通寺町東入上る」、「寺町通鞍馬口上る」を得るが、「鞍馬口町」と包含のある「鞍馬口通寺町東入」が選ばれる。「鞍馬口通寺町」のように町名も入力されない場合は前記3つの候補が全て出力される。   When the street name ancillary word is not input, the street name table storage unit 4 is searched with the east-west street code and the north-south street code to obtain address candidates. For example, when “Kuramaguchi Toderacho Kuramaguchicho” is input, there is no street name ancillary word. Therefore, the street name table storage unit 4 is searched with the east-west street name code “8001” and the north-south street name code “9001”. "Tsurujicho Higashi Iri", "Tsurumaguchi Tsurujicho Higashi Irigami", "Teramachi Dori Tsurumaguchi Ryu" are obtained, but "Kuramaguchi Tōjō Town Higashi Iri", which includes "Kuramaguchi Town", is selected. If no town name is input, such as “Kuramaguchi-dori-cho”, all three candidates are output.

なお、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図6、図9の流れ図に示された手順を備えるプログラムをインストールすることによっても実現可能である。   The present invention can also be realized by installing a program having the procedures shown in the flowcharts of FIGS. 6 and 9 via a medium or a communication line in a known computer.

本発明の住所解析装置の実施の形態の一例を示す構成図The block diagram which shows an example of embodiment of the address analysis apparatus of this invention 単語辞書の一例を示す説明図Explanatory drawing which shows an example of a word dictionary 住所テーブルの一例を示す説明図Explanatory drawing which shows an example of an address table 通り名コードテーブルの一例を示す説明図Explanatory drawing which shows an example of a street name code table 通り名テーブルの一例を示す説明図Explanatory drawing which shows an example of a street name table 本発明の住所解析装置における処理の流れ図Flow chart of processing in address analysis apparatus of the present invention 単語分割の結果の一例を示す説明図Explanatory drawing which shows an example of the result of word division 町レベル住所候補抽出後の住所候補記憶部の記憶内容の一例を示す説明図Explanatory drawing which shows an example of the memory content of the address candidate memory | storage part after town level address candidate extraction 通り名レベル住所候補抽出処理の流れ図Flow chart of street name level address candidate extraction processing

符号の説明Explanation of symbols

1:単語辞書記憶部、2:住所テーブル記憶部、3:通り名コードテーブル記憶部、4:通り名テーブル記憶部、5:単語分割部、6:住所候補抽出部、7:住所候補記憶部、8:絞り込み部、61:市区レベル住所候補抽出部、62:町レベル住所候補抽出部、63:字・丁目レベル住所候補抽出部、64:通り名レベル住所候補抽出部、s1:単語分割処理、s2:市区レベル住所候補抽出処理、s3:町レベル住所候補抽出処理、s4:字・丁目レベル住所候補抽出処理、s5:通り名レベル住所候補抽出処理、s6:絞り込み処理、s5−1:通り名コードテーブル検索、s5−2:通り名方向チェック、s5−3:通り名テーブル検索、s5−4:包含チェック、s5−5:住所候補記憶。   1: word dictionary storage unit, 2: address table storage unit, 3: street name code table storage unit, 4: street name table storage unit, 5: word division unit, 6: address candidate extraction unit, 7: address candidate storage unit , 8: Refinement unit, 61: City level address candidate extraction unit, 62: Town level address candidate extraction unit, 63: Character / chome level address candidate extraction unit, 64: Street name level address candidate extraction unit, s1: Word division Processing, s2: city level address candidate extraction processing, s3: town level address candidate extraction processing, s4: letter / chome level address candidate extraction processing, s5: street name level address candidate extraction processing, s6: narrowing processing, s5-1 : Street name code table search, s5-2: street name direction check, s5-3: street name table search, s5-4: inclusion check, s5-5: address candidate storage.

Claims (3)

入力された住所文字列を解析し、住所コードあるいは規格化された住所文字列もしくはその両方に変換する住所解析装置において、
入力された住所文字列を単語辞書を用いて単語に分割し、分割された各単語を、当該各単語が住所として存在する県を都道府県市区郡町村、町大字、字・丁目の住所レベル毎に表す県フラグ及び当該各単語の意味とともに出力する単語分割手段と、
前記単語分割手段から出力される単語よりその県フラグに基づいて各住所レベルに対応する単語を選択し、当該選択した単語で住所テーブルを検索して各住所レベル毎の住所コード及び規格化された住所文字列を含む住所候補を求め、住所候補記憶部に記憶し、前記単語分割手段から出力される単語中に通り名の意味の単語がある場合は、当該単語で通り名コードテーブルを検索して対応する通り名コードを求め、東西通り名コード、南北通り名コード及び通り名付属語で通り名テーブルを検索して通り名レベルの住所コード及び規格化された住所文字列を含む住所候補を求め、住所候補記憶部に前記住所レベルの住所候補が記憶されていない場合は前記通り名レベルの住所候補を住所候補記憶部に記憶し、住所候補記憶部に住所候補が既に記憶されている場合は当該記憶されている住所候補と包含関係のある前記通り名レベルの住所候補を記憶する住所候補抽出手段と、
住所候補記憶部に記憶された住所候補を、その住所レベル、未使用単語数、接尾詞一致数、正式表記か異表記かの区別を組み合わせて絞り込む絞り込み手段とを備えた
ことを特徴とする住所解析装置。
In the address analysis device that analyzes the input address string and converts it into an address code and / or a standardized address string,
The input address string is divided into words using a word dictionary, and each divided word is assigned to the prefecture where the word exists as an address, the municipality of the prefecture, the town square, and the address level Word division means for outputting together with the prefecture flag and the meaning of each word ,
A word corresponding to each address level is selected from the words output from the word dividing means based on the prefecture flag, an address table is searched with the selected word, and an address code and a standard for each address level are standardized. An address candidate including an address character string is obtained, stored in the address candidate storage unit, and if there is a word meaning a street name in the word output from the word dividing means, the street name code table is searched with the word. The corresponding street name code is obtained, and the street name table is searched with the street name code of the east-west street, the street name code of the north-south street, and street name ancillary words. If the address candidate is not stored in the address candidate storage unit, the street name address candidate is stored in the address candidate storage unit, and the address candidate is already stored in the address candidate storage unit. And address candidate extracting means for storing the candidate address in the nickname level with inclusion relation between candidate address that is the storage if it is 憶,
Addressing means comprising a narrowing means for narrowing down address candidates stored in the address candidate storage unit by combining the address level, the number of unused words, the number of suffix matches, and the distinction between formal notation and different notation Analysis device.
入力された住所文字列を解析し、住所コードあるいは規格化された住所文字列もしくはその両方に変換する住所解析方法において、
単語辞書と、住所テーブルと、通り名コードテーブルと、通り名テーブルと、単語分割手段と、住所候補抽出手段と、住所候補記憶部と、絞り込み手段とを用い、
単語分割手段が、入力された住所文字列を単語辞書を用いて単語に分割し、分割された各単語を、当該各単語が住所として存在する県を都道府県市区郡町村、町大字、字・丁目の住所レベル毎に表す県フラグ及び当該各単語の意味とともに出力する単語分割ステップと、
住所候補抽出手段が、前記単語分割手段から出力される単語よりその県フラグに基づいて各住所レベルに対応する単語を選択し、当該選択した単語で住所テーブルを検索して各住所レベル毎の住所コード及び規格化された住所文字列を含む住所候補を求め、住所候補記憶部に記憶し、前記単語分割手段から出力される単語中に通り名の意味の単語がある場合は、当該単語で通り名コードテーブルを検索して対応する通り名コードを求め、東西通り名コード、南北通り名コード及び通り名付属語で通り名テーブルを検索して通り名レベルの住所コード及び規格化された住所文字列を含む住所候補を求め、住所候補記憶部に前記住所レベルの住所候補が記憶されていない場合は前記通り名レベルの住所候補を住所候補記憶部に記憶し、住所候補記憶部に住所候補が既に記憶されている場合は当該記憶されている住所候補と包含関係のある前記通り名レベルの住所候補を記憶する住所候補抽出ステップと、
絞り込み手段が、住所候補記憶部に記憶された住所候補を、その住所レベル、未使用単語数、接尾詞一致数、正式表記か異表記かの区別を組み合わせて絞り込む絞り込みステップとを含む
ことを特徴とする住所解析方法。
In the address analysis method that analyzes the input address string and converts it to an address code and / or standardized address string,
Using a word dictionary, an address table, a street name code table, a street name table, a word dividing unit, an address candidate extracting unit, an address candidate storage unit, and a narrowing unit,
The word dividing means divides the input address character string into words using a word dictionary, and each divided word is assigned to the prefecture where the word is present as an address, a municipality, a town large character, a character A word division step for outputting together with the prefecture flag represented for each street address level and the meaning of each word ;
The address candidate extracting means selects a word corresponding to each address level from the words output from the word dividing means based on the prefecture flag, searches the address table with the selected word, and addresses for each address level. An address candidate including a code and a standardized address character string is obtained, stored in the address candidate storage unit, and if there is a word meaning a street name in the word output from the word dividing means, the word Search the name code table to find the corresponding street name code, search the street name table by East-West street name code, Namboku street name code and street name ancillary words, street name level address code and standardized address characters Address candidates including a column are obtained, and if the address candidate at the address level is not stored in the address candidate storage unit, the address candidate at the name level is stored in the address candidate storage unit as described above, And address candidate extracting step if the candidate address has already been stored for storing an address candidate of the nickname level with inclusion relation between candidate address that is the storage in section,
The narrowing-down means includes a narrowing-down step for narrowing down address candidates stored in the address candidate storage unit by combining the address level, the number of unused words, the number of suffix matches, and the distinction between formal and different notation. Address analysis method.
入力された住所文字列を解析し、住所コードあるいは規格化された住所文字列もしくはその両方に変換する住所解析プログラムであって、
単語辞書と、住所テーブルと、通り名コードテーブルと、通り名テーブルと、住所候補記憶部とを有するコンピュータに、
入力された住所文字列を単語辞書を用いて単語に分割し、分割された各単語を、当該各単語が住所として存在する県を都道府県市区郡町村、町大字、字・丁目の住所レベル毎に表す県フラグ及び当該各単語の意味とともに出力する単語分割処理と、
前記分割された単語よりその県フラグに基づいて各住所レベルに対応する単語を選択し、当該選択した単語で住所テーブルを検索して各住所レベル毎の住所コード及び規格化された住所文字列を含む住所候補を求め、住所候補記憶部に記憶し、前記分割された単語中に通り名の意味の単語がある場合は、当該単語で通り名コードテーブルを検索して対応する通り名コードを求め、東西通り名コード、南北通り名コード及び通り名付属語で通り名テーブルを検索して通り名レベルの住所コード及び規格化された住所文字列を含む住所候補を求め、住所候補記憶部に前記住所レベルの住所候補が記憶されていない場合は前記通り名レベルの住所候補を住所候補記憶部に記憶し、住所候補記憶部に住所候補が既に記憶されている場合は当該記憶されている住所候補と包含関係のある前記通り名レベルの住所候補を記憶する住所候補抽出処理と、
住所候補記憶部に記憶された住所候補を、その住所レベル、未使用単語数、接尾詞一致数、正式表記か異表記かの区別を組み合わせて絞り込む絞り込み処理とを実行させるための住所解析プログラム。
An address analysis program that analyzes an input address string and converts it into an address code and / or a standardized address string,
In a computer having a word dictionary, an address table, a street name code table, a street name table, and an address candidate storage unit,
The input address string is divided into words using a word dictionary, and each divided word is assigned to the prefecture where the word exists as an address, the municipality of the prefecture, the town square, and the address level A word division process for outputting together with the prefecture flag and the meaning of each word ,
The word corresponding to each address level is selected from the divided words based on the prefecture flag, the address table is searched with the selected word, and the address code and the standardized address character string for each address level are obtained. An address candidate including the address candidate is stored in the address candidate storage unit, and if there is a word meaning a street name among the divided words, a street name code table is searched for the word to obtain a corresponding street name code. The street name table is searched with the street name code of the east-west street, the street name code of the north-south street, and a street name ancillary word to obtain an address candidate including a street name level address code and a standardized address character string. If no address candidate at the address level is stored, the address candidate at the name level is stored in the address candidate storage unit, and if the address candidate is already stored in the address candidate storage unit, it is stored. And address candidate extracting process of storing an address candidate of the nickname level candidate address as a containment relationship are,
An address analysis program for executing a narrowing process for narrowing down address candidates stored in an address candidate storage unit by combining the address level, the number of unused words, the number of suffix matches, and the distinction between formal and different notation.
JP2004323783A 2004-11-08 2004-11-08 Address analysis apparatus, address analysis method, and address analysis program Expired - Fee Related JP4382634B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004323783A JP4382634B2 (en) 2004-11-08 2004-11-08 Address analysis apparatus, address analysis method, and address analysis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004323783A JP4382634B2 (en) 2004-11-08 2004-11-08 Address analysis apparatus, address analysis method, and address analysis program

Publications (2)

Publication Number Publication Date
JP2006134154A JP2006134154A (en) 2006-05-25
JP4382634B2 true JP4382634B2 (en) 2009-12-16

Family

ID=36727638

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004323783A Expired - Fee Related JP4382634B2 (en) 2004-11-08 2004-11-08 Address analysis apparatus, address analysis method, and address analysis program

Country Status (1)

Country Link
JP (1) JP4382634B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930362A (en) * 2016-04-12 2016-09-07 晶赞广告(上海)有限公司 Search target recognition method and device, and terminal

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013070673A1 (en) 2011-11-08 2013-05-16 Google Inc. Systems and methods for generating and displaying hierarchical search results
CN110688851B (en) * 2019-09-26 2023-07-28 亿企赢网络科技有限公司 Method, device and medium for extracting key information of address text

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930362A (en) * 2016-04-12 2016-09-07 晶赞广告(上海)有限公司 Search target recognition method and device, and terminal
CN105930362B (en) * 2016-04-12 2019-03-12 晶赞广告(上海)有限公司 Search for target identification method, device and terminal

Also Published As

Publication number Publication date
JP2006134154A (en) 2006-05-25

Similar Documents

Publication Publication Date Title
JP2001344562A (en) Device and method for reading document
JP4382634B2 (en) Address analysis apparatus, address analysis method, and address analysis program
CN112069824A (en) Region identification method, device and medium based on context probability and citation
KR20010016679A (en) System and method for translating foreign language phonetic presentation of korean word to korean word and retrieving information related to translated korean word
JP4510792B2 (en) LOCATION ANALYSIS DEVICE, LOCATION ANALYSIS METHOD, ITS PROGRAM, AND RECORDING MEDIUM
JP3621614B2 (en) Address analysis method, apparatus, and recording medium recording address analysis program
RU2004115749A (en) UNLIMITED LANGUAGE COMPUTERIZED ENCODING-DECODING SYSTEM AND METHOD
JP2006155275A (en) Information extraction method and information extraction device
JPH05250416A (en) Registering and retrieving device for data base
JP2007310559A (en) Location analyzing device, location analyzing method and its program and recording medium
JP2000250931A (en) Device and method for automatic extraction of positional information and recording medium
JP4510784B2 (en) LOCATION ANALYSIS DEVICE, LOCATION ANALYSIS METHOD, ITS PROGRAM, AND RECORDING MEDIUM
JPH10207875A (en) Tabulating device and its method
JP4415768B2 (en) Address table generation support method, apparatus and program
JPH0962700A (en) Method and device for constructing dictionary
JP2009122886A (en) Address analysis device and method, and its program
KR102278288B1 (en) Apparatus and method for searching text based on phoneme
KR20020059555A (en) Searching engine and searching method
JP2003167912A (en) Address code retrieving system and address code retrieving and processing program
JPH0756945A (en) Whole sensitive data base system
JP2007140781A (en) Name analysis device, name analysis method and name analysis program
JP2000276467A (en) Conversion device
JP3327420B2 (en) Postal code search method by simple address input
KR101063610B1 (en) Name search method in navigation system
JP2000029873A (en) Address book conversion method, address book converter and recording medium recording address book conversion program for the address book converter

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090709

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090713

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090915

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090917

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121002

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131002

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees