JP2000250931A - 位置情報の自動抽出装置および自動抽出方法と記録媒体 - Google Patents

位置情報の自動抽出装置および自動抽出方法と記録媒体

Info

Publication number
JP2000250931A
JP2000250931A JP11053137A JP5313799A JP2000250931A JP 2000250931 A JP2000250931 A JP 2000250931A JP 11053137 A JP11053137 A JP 11053137A JP 5313799 A JP5313799 A JP 5313799A JP 2000250931 A JP2000250931 A JP 2000250931A
Authority
JP
Japan
Prior art keywords
morpheme
name
expression
character string
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11053137A
Other languages
English (en)
Inventor
Hironobu Sugiura
寛宣 杉浦
Hideyuki Tsuchiya
秀幸 土屋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP11053137A priority Critical patent/JP2000250931A/ja
Publication of JP2000250931A publication Critical patent/JP2000250931A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文章中に含まれている住所表現または地域名
表現の位置情報を高い確率で自動抽出する。 【解決手段】 入力された文章を形態素に分解し(ステ
ップ101)、各形態素と地域名表現と比較する(ステ
ップ102)。各形態素を含む表現が、正式な住所表現
であるかを判定する例外判定処理を行ない(ステップ1
03)、正式な住所表現の場合、形態素と日本全国の住
所表現との比較を順次行ない住所表現を抽出する(ステ
ップ104)。例外判定処理において正式な住所表現で
はない場合に、各形態素と予め登録された例外住所表現
との一致検索を行ない例外住所表現を抽出し、それらに
「県」、「市」、郡名を追加して正式な住所表現に変換
する(ステップ108〜110)。抽出された位置情報
から6語以内に位置情報補足語がある場合にはそれを含
めて位置情報として出力する(ステップ106)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】電子化された文字情報により
構成された文章中に含まれている住所表現または地域名
表現等の位置情報を自動的に抽出するための自動抽出方
法および装置に関する。
【0002】
【従来の技術】従来は、文章中に含まれている位置情報
を検索する方法としては、利用者により指定された位置
情報を示す文字列が文章中に含まれているかどうか文章
の全文を検索する方法があった。この方法では利用者が
指定する位置情報を探すために文章の全文を検索するこ
とになる。しかしこの方法では、対象とする文章量の増
加に伴い検索時間も大幅に増加してしまう。そのため、
文章中に含まれている住所表現又は地域名表現等の位置
情報を予め抽出しておき、検索する際には抽出された位
置情報のみを調べることにより、検索時間を短縮するこ
とが求められている。
【0003】しかし、位置情報には様々な記述方法があ
るため、文章中における位置情報と他の文字列との区別
を自動的に行い、位置情報のみを抽出するのは容易では
ない。例えば、文章中には「神奈川県鎌倉市」のような
正式な住所表現である位置情報のみではなく、「鎌倉で
は、・・」のように県名や市名が省略されている場合
や、「鎌倉太郎」等の住所表現の一部を含んだ人名であ
る場合等がある。また、正式な住所表現が、「長野県北
安曇郡白馬村」である場合でも、「長野県白馬村」のよ
うに郡名表現が省略される場合がある。さらに「東日
本」、「関東地方」のような住所ではない地域名表現が
位置情報として用いられるている場合もある。
【0004】
【発明が解決しようとする課題】従来技術では、文章中
に含まれている様々な表現の位置情報を抽出することが
できないという問題があった。
【0005】本発明は、文章中に含まれている位置情報
を高い確率で抽出することができる位置情報の自動抽出
装置および方法を提供することを目的とする。
【0006】
【課題を解決するための手段】上記目的を達成するため
に、本発明の位置情報の自動抽出方法は、入力された文
章に含まれている位置情報を抽出するための位置情報の
自動抽出方法であって、入力された文章を1または複数
の文字列単位で区切ることにより複数の形態素に分解す
る処理と、前記各形態素のうちの1つの形態素を検索対
象形態素とし、該検索対象形態素が、予め登録された地
域名表現の文字列と一致するかどうかを判定する処理
と、前記検索対象形態素を含む表現が、正式な住所表現
であるかとうかを判定する例外判定処理と、前記例外判
定処理において前記検索対象形態素を含む表現が正式な
住所表現であると判定された場合に、前記検索対象形態
素と予め登録された日本全国の住所表現の文字列との一
致検索を順次行なうことにより前記文章から住所表現を
抽出する住所抽出処理と、前記例外判定処理において前
記検索対象形態素を含む表現が正式な住所表現ではない
と判定された場合に、前記検索対象形態素と予め登録さ
れた例外住所表現の文字列との一致検索を行うことによ
り例外住所表現を抽出し、抽出された該例外住所表現に
省略された「県」または「市」の文字列若しくは省略さ
れた郡名を追加して正式な住所表現に変換する例外住所
抽出処理と、抽出された地域名表現および住所表現の末
尾から一定数以内の各形態素に、予め登録された位置情
報補足語と同一の文字列が存在するかどうか検索し、存
在する場合には地域名表現または住所表現から該位置情
報補足語までを位置情報とする位置情報補足語抽出処理
とから構成される。
【0007】本発明は、入力された文章を形態素に分解
し、各形態素と予め登録された、地域名、または都道府
県名、市町村区名、大字・通称名、字・丁目名からなる
全国の住所名と一致検索することにより地域表現または
住所表現を抽出する。そして、住所表現が、正式な住所
表現から「県」または「市」の文字列が省略された例外
住所表現または郡名が省略された例外住所表現である場
合には、例外判定処理において正式な住所表現ではない
と判定し、例外住所表現に「県」、「市」または郡名を
補うことにより正式な住所表現に変換するようにしたも
のである。したがって、本発明の位置情報の自動抽出方
法では、文章中に含まれている、正式な住所表現、正式
でない住所表現および地域名表現等の位置情報を高い確
率で自動的に抽出することができるとともに位置情報補
足語を含めた位置情報を抽出することができる。
【0008】また、本発明の位置情報の自動抽出方法
は、前記例外判定処理が、前記検索対象形態素と予め登
録された都道府県名の文字列との一致検索を行う処理
と、前記都道府県名の文字列との一致検索において前記
検索対象形態素が都道府県名と一体した場合に、前記検
索対象形態素の次の形態素を新たな検索対象形態素とす
る処理と、前記検索対象形態素と予め登録された市町村
区名の文字列との一致検索を行う処理と、前記市町村区
名との一致検索を行う処理において前記検索対象形態素
が市町村区名の文字列と一致した場合に、前記検索対象
形態素を含む表現は正式な住所表現であると判定する処
理と、前記都道府県名の文字列との一致検索において前
記検索対象形態素が都道府県名の文字列と一致せず、か
つ前記市町村区名との一致検索を行う処理において検索
対象形態素が市町村区名の文字列と一致しなかった場合
に、前記検索対象形態素を含む表現は正式な住所表現で
はないと判定する処理とから構成される。
【0009】また、本発明の位置情報の自動抽出方法
は、前記住所抽出処理が、前記検索対象形態素の次の形
態素を新たな検索対象形態素とする処理と、前記検索対
象形態素と、予め登録された大字・通称名の文字列との
一致検索を行う処理と、前記大字・通称名の文字列との
一致検索において前記検索対象形態素が大字・通称名の
文字列と一致した場合に、前記検索対象形態素の次の形
態素を新たな検索対象形態素とする処理と、前記検索対
象形態素と、予め登録された字・丁目の文字列との一致
検索を行う処理と、前記字・丁目の文字列との一致検索
において前記検索対象形態素が字・丁目の文字列と一致
した場合に、前記検索対象形態素の次の形態素を新たな
検索対象形態素とする処理と、前記大字・通称名の文字
列との一致検索において前記検索対象形態素が大字・通
称名の文字列と一致しなかった場合、または前記字・丁
目の文字列との一致検索において前記検索対象形態素が
字・丁目の文字列と一致しなかった場合、または前記大
字・通称名の文字列との一致検索において前記検索対象
形態素が大字・通称名の文字列とも一致し、かつ前記字
・丁目の文字列との一致検索において前記検索対象形態
素が字・丁目の文字列とも一致した場合に、検索対象形
態素の次の形態素が数字であるかどうかを判定し、数字
である場合に該数字を住所表現における番地号であると
して抽出する番地号抽出処理と、抽出された都道府県名
の形態素、市町村名の形態素、大字・通称の形態素、字
・丁目の形態素、番地号の形態素を連結して1つの住所
表現とする処理とから構成される。
【0010】また、本発明の位置情報の自動抽出方法
は、前記例外住所抽出処理が、前記住所抽出処理におい
て正式な住所表現でないと判定された表現が、正式な住
所表現から郡名が省略された例外住所表現であるかどう
かを判定する例外住所タイプ判定処理と、前記例外住所
タイプ判定処理において検索対象形態素を含む表現が正
式な住所表現から郡名が省略された例外住所表現である
と判定された場合に、前記検索対象形態素と、予め登録
された、都道府県名から「県」が省略された文字列とを
一致検索する処理と、前記検索対象形態素と、予め登録
された、市名から「市」が省略された文字列とを一致検
索する処理と、前記「市」が省略された文字列との一致
検索において前記検索対象形態素が「市」が省略された
文字列と一致した場合に、前記検索対象形態素の次の形
態素を新たな検索対象形態素とする処理と、前記検索対
象形態素と、予め登録された人名を記述する際に使用さ
れる表現の文字列との一致検索する人名判定処理と、前
記人名判定処理において検索対象形態素が、人名を記述
する際に使用される表現の文字列と一致した場合および
検査対象形態素が「県」が省略された文字列とも「市」
が省略された文字列とも一致しなかった場合に、検査対
象形態素を含む表現は、住所表現ではないと判定する処
理とを有する。
【0011】また、本発明の位置情報の自動抽出方法
は、前記例外住所抽出処理が、前記例外住所タイプ判定
処理において検索対象形態素を含む表現が正式な住所表
現から郡名が省略された例外住所表現でないと判定され
た場合に、都道府県名の文字列との一致検索において検
索された都道府県名に基づいて、市町村区名との一致検
索において一致した町村名と、予め登録された正式な郡
−町村名から群名のみを省略した文字列との一致検索を
行ない、一致した町村名の代わりにその町村名に対応す
る正式な郡−町村名の文字列を検索された住所表現とす
ることにより省略された郡名を補う処理と、前記検索対
象形態素の次の形態素を新たな検索対象形態素とする処
理とをさらに有する。
【0012】また、本発明の位置情報の自動抽出方法
は、前記位置情報補足語抽出処理が、住所表現又は地域
名表現の末尾から一定の範囲内にある形態素と、予め登
録された位置情報補足語との一致検索を行う処理と、前
記位置情報補足語との一致検索処理において一致した場
合に、前記住所表現または地域名表現から一致した形態
素までを1つの位置情報として抽出する処理と、前記位
置情報補足語との一致検索処理において一致しなかった
場合に、検索対象形態素を6語前に戻す処理とから構成
される。
【0013】
【発明の実施の形態】次に、本発明の実施形態について
図面を参照して詳細に説明する。
【0014】図1は、本発明の一実施形態の位置情報の
自動抽出装置の構成を示すブロック図である。
【0015】本実施形態の位置情報の自動抽出装置は、
住所データベース(DB)10と、地域名表現データベ
ース(DB)20と、位置情報補足データベース(D
B)30と、人名判定データベース(DB)40と、形
態素解析部50と、地域名表現抽出部60と、住所表現
抽出部70と、例外住所表現抽出部80と、位置情報補
足語抽出部90とから構成されている。
【0016】住所データベース10は、図2に示すよう
に、住所テーブル11と、都道府県対応テーブル12
と、市対応テーブル13と、郡−町村対応テーブル14
とから構成されている。
【0017】住所テーブル11は、図3に示すように、
「東京都」等の都道府県名が登録されている都道府県フ
ィールドと、「横浜市」等の市名、「葉山町」等の町
名、「白馬村」等の村名、「新宿区」等の東京23区名
が登録されている市町村区フィールドと、市町村区名の
下位の住所表現となる大字・通称フィールドと、さらに
下位の住所表現となる字・丁目フィールドとから構成さ
れている。そして、これら4つのフィールドの組合せに
より、日本全国の住所を全て表現することができるよう
になっている。
【0018】都道府県対応テーブル12は、図4(a)
に示すように、都道府県フィールドと、都道府県名から
「都」、「道」、「府」、「県」が省略された文字列
が、都道府県フィールドと対応して登録されている都道
府県省略フィールドとから構成されている。
【0019】市対応テーブル13は、図4(b)に示す
ように、市フィールドと、市名から「市」が省略された
文字列が、市フィールドと対応して登録されている市省
略フィールドとから構成されている。
【0020】郡−町村対応テーブル14は、図5に示す
ように、都道府県フィールドと、郡名とその郡に属する
町村名が登録された郡−町村フィールドと、郡−町村名
フィールドから郡名が省略された町村名のみが登録され
た郡省略フィールドとから構成されている。そして、都
道府県フィールドと、郡−町村フィールドと郡省略フィ
ールドはそれぞれ対応づけられている。
【0021】地域名表現データベース20は、図6
(a)に示すように、「西日本」、「関東地方」等の住
所表現ではない地域名表現が登録されている。
【0022】位置情報補足データベース30は、図6
(b)に示すように、「近く」、「付近」、「東部」、
「南部」等の位置情報を補足するための表現である位置
情報補足語が登録されている。
【0023】人名判定データベース40は、図6(c)
に示すように、「様」、「氏」、「容疑者」、「監督」
等の人名を記述する際に使用される敬称等の表現が登録
されている。
【0024】形態素解析部50は、入力された文章を、
予め文字列が登録された辞書を使用して形態素解析する
ことにより各形態素に分解している。ここで、形態素と
は、文章を1つまたは数個の文字列毎に区切った単位で
あり、基本的に単語と同程度の文字列のことである。形
態素解析において使用される辞書には、住所テーブル1
1を構成している都道府県フィールド、市町村区フィー
ルド、大字・通称フィールド、字・丁目フィールドに登
録されている文字列も全て登録しておく。また、形態素
解析の際には分解される形態素の大きさを決定する方法
である最小値コスト法が用いられているが、都道府県、
市町村区、大字・通称、字・丁目の各文字列の単位がこ
れ以上細分されないように、最小値コスト法における最
小値を設定しておく。例えば、「神奈川県鎌倉市におけ
る県道で交通事故が発生しました。」という文章を形態
素解析することにより、「神奈川県」、「鎌倉市」、
「に」、「おける」、「県道」、「で」、「交通事
故」、「が」、「発生」、「しました。」という複数の
形態素が得られる。
【0025】地域名表現抽出部60は、形態素解析部5
0により分解された各形態素と、地域名表現データベー
ス20に登録されている文字列とを比較することにより
地域名表現検索を行なっている。
【0026】住所表現抽出部70は、地域名表現抽出部
60において、地域名とは一致しなかった各形態素が正
式な住所表現であるかどうかの判定である例外判定処理
を行ない、各形態素が正式な住所表現であると判定した
場合には、各形態素と住所データベース10の住所テー
ブル11に登録されている文字列とを比較することによ
り文章から住所表現を抽出している。この例外判定処理
においては、県名において「県」の文字列が含まれてい
ない場合、市名において「市」の文字列が含まれていな
い場合には正式な住所表現ではないと判定される。ま
た、正式な都道府県名が検索された場合でも、県名の次
にくる文字列が郡名の下位の町村名の文字列である場合
には郡名表示が省略された住所表現であると判定し、正
式な住所表現ではないと判定する。
【0027】例外住所表現抽出部80は、住所表現抽出
部70において正式な住所表現ではないと判定された各
形態素と、都道府県対応テーブル12の都道府県省略フ
ィールドまたは市対応テーブル13の市省略フィールド
に登録されている文字列とを検索することにより「県」
または「市」が省略されいる例外住所表現を抽出し、
「県」または「市」の文字列を補い正式な住所表現に変
換する。
【0028】また、例外住所表現抽出部80は、地域名
表現抽出部60における例外判定処理において、郡名が
省略されていると判定された場合には、例外判定処理に
おいて検索された都道府県名と町村名を元に、郡−町村
対応テーブル14を検索することにより省略された郡名
を判定し、抽出した郡名が省略された例外住所表現に郡
名を追加して正式な住所表現に変換する。
【0029】さらに、例外住所表現抽出部80は、各形
態素の次の形態素または2語目の形態素が人名判定デー
タベース40に登録されている文字列の場合には、検索
対象形態素は人名であると判定して住所表現として抽出
しないようにする。このことにより、例外住所抽出処理
において、例えば「鎌倉太郎」という人名の文字列から
「鎌倉市」といる住所表現を誤って抽出することを避け
ることができる。
【0030】位置情報補足語抽出部90は、地域名表現
抽出部60、住所表現抽出部70、例外住所表現抽出部
80において住所表現または地域名表現の位置情報が抽
出された場合に、その位置情報の末尾から6語の範囲内
にある形態素と、位置情報補足データベース30に登録
された文字列とを比較することにより位置情報補足語の
検索処理を行なう。そして、位置情報補足語が抽出され
た場合には、位置情報からその検索された位置情報補足
語までを新たに位置情報として出力する。
【0031】次に、本実施形態の位置情報の自動抽出装
置の動作を図7〜図11のフローチャートを参照して詳
細に説明する。
【0032】先ず、図7を参照して、本実施形態の位置
情報の自動抽出装置の全体の動作について説明する。
【0033】入力された文章は、形態素解析部50にお
いて形態素解析されて各形態素に分解される。(ステッ
プ101)。
【0034】形態素解析部50において分解された各形
態素は、先ず、地域名表現抽出部60において、地域名
表現データベース20に登録された文字列と比較検索さ
れる(ステップ102)。検索対象の形態素がステップ
102にいて地域名表現であると判定された場合には、
地域名表現抽出部60はその形態素を地域名表現として
抽出する(ステップ111)。
【0035】ステップ102において、検索対象の形態
素が地域名表現ではないと判定された場合には、正式な
住所表現のみを取り出すために、住所表現抽出部70に
おいて正式な住所表現であるかどうかが判定される(ス
テップ103)。
【0036】ステップ103において正式な住所表現で
あると判定された場合には、住所表現抽出部70におい
て、住所表現の抽出処理が行われる(ステップ10
4)。
【0037】ステップ103において正式な住所表現で
はないと判定された場合には、例外住所表現抽出部80
において、例外住所表現抽出処理が行われ(ステップ1
08)、例外住所表現が存在する場合には(ステップ1
09)、正式な住所表現に変換される。例外住所抽出処
理において、例外住所が存在しなかった場合には、例外
住所表現抽出部80は、検索対象形態素が位置情報に関
するものではないと判定する。そして、全ての文章の処
理が終了していないかが確認された後(ステップ10
7)、次の形態素が検索対象形態素として処理が行われ
る。
【0038】ステップ111における地域名表現の抽出
処理、ステップ104における住所表現の抽出処理、ス
テップ110における例外住所表現の正式な住所表現の
変換処理が行われると、位置情報補足語抽出部90は、
抽出された位置情報の末尾から6語の範囲内にある形態
素と、位置情報補足データベース30に登録された文字
列とを比較することにより位置情報補足語の検索処理を
行なう。そして、位置情報補足語が抽出された場合に
は、位置情報からその検索された位置情報補足語までを
新たな位置情報とし(ステップ105)、得られた位置
情報を出力する(ステップ106)。
【0039】そして、全ての文章の処理が終了していな
いかが確認された後(ステップ107)、次の形態素を
検索対象形態素として処理が行なわれる。
【0040】次に、図7中の例外判定処理(ステップ1
03)を図8のフローチャートを用いてさらに詳しく説
明する。
【0041】住所表現抽出処理部70において、各形態
素と住所テーブル11の都道府県フィールドに登録され
ている文字列との一致検索が行なわれ、一致した場合に
はその形態素を配列1に格納し、検索対象形態素を1つ
ずらすとともにあるフラグを“A”とし、一致しない場
合には“B”とする(ステップ201)。
【0042】次に住所表現抽出処理部70は、各形態素
と住所テーブル11の市町村区フィールドに登録されて
いる文字列との一致検索を行う(ステップ202)。ス
テップ202の一致検索処理において、検索対象形態素
と市町村区フィールドに登録された文字列とが一致した
場合には、正式な住所表現であると判定して処理をステ
ップ104に移す。
【0043】ステップ202の一致処理において、検索
対象形態素と市町村区フィールドに登録された文字列と
が一致しなかった場合には、ステップ201における処
理結果に基づき次の処理を決定する(ステップ20
3)。具体的には、ステップ201において、都道府県
フィールドとの一致検索において検索対象形態素と文字
列が一致した場合(フラグが“A”の場合)には、正式
な住所表現であると判定して処理をステップ103に進
め、一致しなかった場合(フラグが“B”の場合)に
は、例外住所表現であると判定して処理をステップ10
8に進める(ステップ203)。
【0044】次に、図7中の住所表現の抽出処理(ステ
ップ104)を図9のフローチャートを用いてさらに詳
しく説明する。
【0045】先ず、住所表現抽出部70は、現在の検索
対象形態素は正式な住所表現における市町村名であるた
め、その形態素を配列2に格納した後に検索対象形態素
を1つづらす(ステップ504)。
【0046】そして、検索対象形態素と、住所テーブル
11の大字・通称フィールドとの一致検索を行ない(ス
テップ505)、一致した場合には検索対象形態素を配
列3に格納し、検索対象形態素を1つづらす(ステップ
506)。同様にして、検索対象形態素と、住所テーブ
ル11の字・丁目フィールドとの一致検索を行ない(ス
テップ507)、一致した場合には検索対象形態素を配
列4に格納し、検索対象形態素を1つづらす(ステップ
508)。
【0047】ステップ505またはステップ507のど
ちらかの一致検索において、一致しなかった場合、およ
びステップ508の処理の次に番地号の抽出処理が行わ
れる(ステップ509)。番地号の抽出処理において
は、住所表現の形態素の次の形態素が数字である場合
に、その数字を番地号表現とする。住所表現の形態素
が、数字のみ、数字−形態素−数字、又は数字−形態素
−数字−形態素−数字、の並びはすべて番地号表現とす
る。
【0048】最後に、住所表現抽出部70は、配列1〜
4に格納されている各形態素および抽出された番地号に
対する連結し1つの住所表現として住所表現抽出処理を
終了する(ステップ510)。この住所表現抽出処理に
より住所表現の先頭となり得るのは、都道府県フィール
ド又は市町村区フィールドに格納されている文字列のみ
であり、他のフィールドに格納されている文字列は住所
表現の先頭にはなり得ない。
【0049】次に、図7中の例外住所表現抽出処理(ス
テップ108)および例外住所表現有無判定処理(ステ
ップ109)を図10のフローチャートを用いてさらに
詳しく説明する。
【0050】本実施形態では、「県」または「市」の文
字が省略されている住所表現と、郡名が省略されている
住所表現を例外住所表現として処理している。例外住所
表現抽出部80では、ステップ401において、例外住
所表現と判定された住所表現がどちらのタイプかを判定
し、「県」または「市」の文字が省略されている例外住
所表現である場合にはステップ301〜304の処理を
行ない、郡名が省略されている例外住所表現である場合
にはステップ402、403の処理を行う。
【0051】先ず最初に「県」または「市」の文字が省
略されている例外住所表現の抽出処理について説明す
る。
【0052】例外住所表現抽出部80は、検索対象形態
素と都道府県対応テーブル12の都道府県省略フィール
ドとの一意検索を行う(ステップ301)。ステップ3
01において、一致しなかった場合には、検索対象形態
素と市対応テーブル13の市省略フィールドとの一意検
索を行う(ステップ302)。
【0053】ステップ301において一致した場合、お
よびステップ302において一致した場合には、その検
索対象形態素を配列に格納し検索対象形態素を1つづら
す(ステップ303)。そして、検索対象形態素および
次の形態素と、人名判定データベース40との一致検索
を行う人名判定処理が行われる(ステップ304)。ス
テップ304における人名判定処理において、人名表現
ではないと判定された場合には例外住所表現であると判
定され処理をステップ110の進める。
【0054】都道府県省略フィールド又市省略フィール
ドと正式住所表現は対応付けられており、上記検索によ
り住所表現と判定されれば、抽出された例外住所表現は
「県」又は「市」が付与されて正式住所に変換される
(ステップ110)。
【0055】ステップ304における人名判定処理にお
いて人名表現であると判定された場合およびステップ3
02において一致しなかった場合には、検索対象形態素
により表された文字列は、正式住所表現でも例外住所表
現でもないと判定され処理をステップ107のに進め
る。
【0056】この処理により、例えば、「神奈川」や
「横浜」という例外住所表現は、「神奈川県」や「横浜
市」という正式な住所表現にそれぞれ変換される。
【0057】次に、郡名が省略されている例外住所表現
の抽出処理について説明する。
【0058】先ず、例外住所抽出部80は、郡−町村対
応フィールド14を用いて省略された郡名を補う処理を
行う。この際に、例外住所抽出部80は、ステップ20
1で検索された都道府県名情報より検索範囲を絞り、ス
テップ202において一致した町村名と群省略フィール
ドに登録された文字列との一致検索を行ない、一致した
町村名の代わりにその町村名に対応する郡−町村フィー
ルドの文字列を検索された住所表現とすることにより省
略された郡名を補う処理を行う(ステップ402)。そ
して、例外住所抽出部80は、検索対象形態素を1つず
らす(ステップ403)。
【0059】このステップ402における処理を、ステ
ップ201において検索された都道府県名が「長野県」
であり、ステップ202において検索された町村名が
「白馬村」である場合を用いて具体的に説明する。先
ず、例外住所抽出部80は、都道府県フィールドが「長
野県」である群省略フィールドに登録された文字列と
「白馬村」との一致検索を行う。そして、「白馬村」の
文字列を一致した郡省略フィールドに対応する郡−町村
フィールドの文字列「北安曇郡白馬村」に置き換える。
この処理により、例外住所表現である「長野県白馬村」
は「長野県北安曇郡白馬村」に置き換えられる。
【0060】最後に、図7中の位置情報補足語の抽出処
理(ステップ105)を図11のフローチャートを用い
てさらに詳しく説明する。
【0061】位置情報補足語抽出部90は、住所表現又
は地域名表現の末尾から6語以内の範囲にある形態素
と、位置情報補足データベース30との一致検索を行な
う(ステップ702)。ステップ702において、一致
した文字列が存在した場合には、抽出された住所表現又
は地域名表現からステップ702において抽出された形
態素までを1つの位置情報として抽出する(ステップ7
03)。ステップ702において、一致した文字列が存
在しない場合には、位置情報補足語抽出部90は、検索
対象形態素を6語前に戻し位置情報補足語抽出処理を終
了する。
【0062】本実施形態における自動抽出装置を用い
て、新聞記事(1000)記事およびインターネットに
おけるホームページ(300ページ)中に含まれる位置
情報の自動抽出を行なったところ、新聞記事では95.
2%、ホームページでは、80.1%の自動抽出率を得
ることができた、ホームページにおける自動抽出率が新
聞記事よりも低下したのは、ホームページでは、文字が
文字情報ではなく画像情報として与えられている場合が
あるためである。
【0063】このように、本実施形態の位置情報の自動
抽出装置では、文章中に含まれている、正式な住所表
現、正式でない住所表現および地域名表現等の位置情報
を高い確率で自動的に抽出することができるとともに位
置情報補足語を含めた位置情報を抽出することができ
る。
【0064】また、図には示されていないが、本実施形
態の自動抽出装置は、データ処理装置(コンピュータ)
と、記憶装置と、入出力処理装置と、自動抽出方法を実
行するためのプログラムを記録した記録媒体とによって
も構成することができる。この記録媒体は磁気ディス
ク、半導体メモリまたはその他の記録媒体であってもよ
い。このプログラムは、記録媒体からデータ処理装置に
読み込まれ、データ処理装置の動作を制御し、図1にお
ける形態素解析部50、地域名表現抽出部60、住所表
現抽出部70、例外住所表現抽出部80、位置情報補足
語抽出部90によって行われる処理を実行する。そし
て、記憶装置は、住所データベース10、地域名表現デ
ータベース20、位置情報補足データベース30、人名
判定データベース40により構成され、入出力装置は、
位置情報を抽出するための文章情報の入力および文章か
ら抽出された位置情報の出力を行う。を備えている。
【0065】
【発明の効果】以上説明したように、本発明は、文章中
に記述されている住所表現又は地域名表現を自動的に抽
出することが可能となることにより、文章中における位
置情報を検索する時間が大幅に短縮されるという効果を
有する。
【0066】また、地理情報システムに対して本発明を
適用した場合には、新聞記事などの情報中から位置情報
を自動で抽出することにより、地理情報システムに自動
的に情報を貼り付けることが可能となるという効果を有
する。
【図面の簡単な説明】
【図1】本発明の一実施形態の位置情報の自動抽出装置
の構成を示すブロック図である。
【図2】図1中の住所データベース10のデータ構造を
示す図である。
【図3】図2中の住所テーブル11のデータ構造を示す
図である。
【図4】図2中の都道府県対応テーブル12のデータ構
造を示す図(図4(a))および市対応テーブル13の
データ構造を示す図(図4(b))である。
【図5】図2中の郡−町村対応テーブル14のデータ構
造を示す図である。
【図6】図1中の地域名表現データベース20のデータ
構造を示す図(図6(a))、位置情報補足データベー
ス30のデータ構造を示す図(図6(b))および人名
判定データベース40の構造を示す図(図6(c))で
ある。
【図7】図1の位置情報の自動抽出装置の動作を示すフ
ローチャートである。
【図8】図7中の例外判定処理(ステップ103)をさ
らに詳しく示したフローチャートである。
【図9】図7中の住所表現抽出処理(ステップ104)
をさらに詳しく示したフローチャートである。
【図10】図7中の例外住所表現抽出処理(ステップ1
08)および例外住所表現有無判定処理(ステップ10
9)をさらに詳しく示したフローチャートである。
【図11】図7中の位置情報補足語の抽出処理(ステッ
プ105)をらに詳しく示したフローチャートである。
【符号の説明】
10 住所データベース(DB) 11 住所テーブル 12 都道府県対応テーブル 13 市対応テーブル 14 群−町村対応テーブル 20 地域名表現データベース(DB) 30 位置情報補足データベース(DB) 40 人名判定データベース(DB) 50 形態素解析部 60 地域名表現抽出部 70 住所表現抽出部 80 例外住所表現抽出部 90 位置情報補足語抽出部 101〜111 ステップ 201〜203 ステップ 301〜304 ステップ 401〜403 ステップ 504〜510 ステップ 702〜704 ステップ

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 入力された文章に含まれている位置情報
    を抽出するための位置情報の自動抽出方法であって、 入力された文章を1または複数の文字列単位で区切るこ
    とにより複数の形態素に分解する処理と、 前記各形態素のうちの1つの形態素を検索対象形態素と
    し、該検索対象形態素が、予め登録された地域名表現の
    文字列と一致するかどうかを判定する処理と、 前記検索対象形態素を含む表現が、正式な住所表現であ
    るかとうかを判定する例外判定処理と、 前記例外判定処理において前記検索対象形態素を含む表
    現が正式な住所表現であると判定された場合に、前記検
    索対象形態素と予め登録された日本全国の住所表現の文
    字列との一致検索を順次行なうことにより前記文章から
    住所表現を抽出する住所抽出処理と、 前記例外判定処理において前記検索対象形態素を含む表
    現が正式な住所表現ではないと判定された場合に、前記
    検索対象形態素と予め登録された例外住所表現の文字列
    との一致検索を行うことにより例外住所表現を抽出し、
    抽出された該例外住所表現に省略された「県」または
    「市」の文字列若しくは省略された郡名を追加して正式
    な住所表現に変換する例外住所抽出処理と、 抽出された地域名表現および住所表現の末尾から一定数
    以内の各形態素に、予め登録された位置情報補足語と同
    一の文字列が存在するかどうか検索し、存在する場合に
    は地域名表現または住所表現から該位置情報補足語まで
    を位置情報とする位置情報補足語抽出処理とから構成さ
    れる位置情報の自動抽出方法。
  2. 【請求項2】 前記例外判定処理が、 前記検索対象形態素と予め登録された都道府県名の文字
    列との一致検索を行う処理と、 前記都道府県名の文字列との一致検索において前記検索
    対象形態素が都道府県名と一体した場合に、前記検索対
    象形態素の次の形態素を新たな検索対象形態素とする処
    理と、 前記検索対象形態素と予め登録された市町村区名の文字
    列との一致検索を行う処理と、 前記市町村区名との一致検索を行う処理において前記検
    索対象形態素が市町村区名の文字列と一致した場合に、
    前記検索対象形態素を含む表現は正式な住所表現である
    と判定する処理と、 前記都道府県名の文字列との一致検索において前記検索
    対象形態素が都道府県名の文字列と一致せず、かつ前記
    市町村区名との一致検索を行う処理において検索対象形
    態素が市町村区名の文字列と一致しなかった場合に、前
    記検索対象形態素を含む表現は正式な住所表現ではない
    と判定する処理とから構成される請求項1記載の位置情
    報の自動抽出方法。
  3. 【請求項3】 前記住所抽出処理が、 前記検索対象形態素の次の形態素を新たな検索対象形態
    素とする処理と、 前記検索対象形態素と、予め登録された大字・通称名の
    文字列との一致検索を行う処理と、 前記大字・通称名の文字列との一致検索において前記検
    索対象形態素が大字・通称名の文字列と一致した場合
    に、前記検索対象形態素の次の形態素を新たな検索対象
    形態素とする処理と、 前記検索対象形態素と、予め登録された字・丁目の文字
    列との一致検索を行う処理と、 前記字・丁目の文字列との一致検索において前記検索対
    象形態素が字・丁目の文字列と一致した場合に、前記検
    索対象形態素の次の形態素を新たな検索対象形態素とす
    る処理と、 前記大字・通称名の文字列との一致検索において前記検
    索対象形態素が大字・通称名の文字列と一致しなかった
    場合、または前記字・丁目の文字列との一致検索におい
    て前記検索対象形態素が字・丁目の文字列と一致しなか
    った場合、または前記大字・通称名の文字列との一致検
    索において前記検索対象形態素が大字・通称名の文字列
    とも一致し、かつ前記字・丁目の文字列との一致検索に
    おいて前記検索対象形態素が字・丁目の文字列とも一致
    した場合に、検索対象形態素の次の形態素が数字である
    かどうかを判定し、数字である場合に該数字を住所表現
    における番地号であるとして抽出する番地号抽出処理
    と、 抽出された都道府県名の形態素、市町村名の形態素、大
    字・通称の形態素、字・丁目の形態素、番地号の形態素
    を連結して1つの住所表現とする処理とから構成される
    請求項2記載の位置情報の自動抽出方法。
  4. 【請求項4】 前記例外住所抽出処理が、 前記住所抽出処理において正式な住所表現でないと判定
    された表現が、正式な住所表現から郡名が省略された例
    外住所表現であるかどうかを判定する例外住所タイプ判
    定処理と、 前記例外住所タイプ判定処理において検索対象形態素を
    含む表現が正式な住所表現から郡名が省略された例外住
    所表現であると判定された場合に、前記検索対象形態素
    と、予め登録された、都道府県名から「県」が省略され
    た文字列とを一致検索する処理と、 前記検索対象形態素と、予め登録された、市名から
    「市」が省略された文字列とを一致検索する処理と、 前記「市」が省略された文字列との一致検索において前
    記検索対象形態素が「市」が省略された文字列と一致し
    た場合に、前記検索対象形態素の次の形態素を新たな検
    索対象形態素とする処理と、 前記検索対象形態素と、予め登録された人名を記述する
    際に使用される表現の文字列との一致検索する人名判定
    処理と、 前記人名判定処理において検索対象形態素が、人名を記
    述する際に使用される表現の文字列と一致した場合およ
    び検査対象形態素が「県」が省略された文字列とも
    「市」が省略された文字列とも一致しなかった場合に、
    検査対象形態素を含む表現は、住所表現ではないと判定
    する処理とを有する請求項1から3のいずれか1項記載
    の位置情報の自動抽出方法。
  5. 【請求項5】 前記例外住所抽出処理が、 前記例外住所タイプ判定処理において検索対象形態素を
    含む表現が正式な住所表現から郡名が省略された例外住
    所表現でないと判定された場合に、都道府県名の文字列
    との一致検索において検索された都道府県名に基づい
    て、市町村区名との一致検索において一致した町村名
    と、予め登録された正式な郡−町村名から群名のみを省
    略した文字列との一致検索を行ない、一致した町村名の
    代わりにその町村名に対応する正式な郡−町村名の文字
    列を検索された住所表現とすることにより省略された郡
    名を補う処理と、 前記検索対象形態素の次の形態素を新たな検索対象形態
    素とする処理とをさらに有する請求項4記載の位置情報
    の自動抽出方法。
  6. 【請求項6】 前記位置情報補足語抽出処理が、 住所表現又は地域名表現の末尾から一定の範囲内にある
    形態素と、予め登録された位置情報補足語との一致検索
    を行う処理と、 前記位置情報補足語との一致検索処理において一致した
    場合に、前記住所表現または地域名表現から一致した形
    態素までを1つの位置情報として抽出する処理と、 前記位置情報補足語との一致検索処理において一致しな
    かった場合に、検索対象形態素を6語前に戻す処理とか
    ら構成される請求項1から5のいずれか1項記載の位置
    情報の自動抽出方法。
  7. 【請求項7】 入力された文章に含まれている位置情報
    を抽出するための自動抽出処理をコンピュータに実行さ
    せるためのプログラムを記録した記録媒体であって、 入力された文章を1または複数の文字列単位で区切るこ
    とにより複数の形態素に分解する処理と、 前記各形態素のうちの1つの形態素を検索対象形態素と
    し、該検索対象形態素が、予め登録された地域名表現の
    文字列と一致するかどうかを判定する処理と、 前記検索対象形態素を含む表現が、正式な住所表現であ
    るかとうかを判定する例外判定処理と、 前記例外判定処理において前記検索対象形態素を含む表
    現が正式な住所表現であると判定された場合に、前記検
    索対象形態素と予め登録された日本全国の住所表現の文
    字列との一致検索を順次行なうことにより前記文章から
    住所表現を抽出する住所抽出処理と、 前記例外判定処理において前記検索対象形態素を含む表
    現が正式な住所表現ではないと判定された場合に、前記
    検索対象形態素と予め登録された例外住所表現の文字列
    との一致検索を行うことにより例外住所表現を抽出し、
    抽出された該例外住所表現に省略された「県」または
    「市」の文字列若しくは省略された郡名を追加して正式
    な住所表現に変換する例外住所抽出処理と、 抽出された地域名表現および住所表現の末尾から一定数
    以内の各形態素に、予め登録された位置情報補足語と同
    一の文字列が存在するかどうか検索し、存在する場合に
    は地域名表現または住所表現から該位置情報補足語まで
    を位置情報とする位置情報補足語抽出処理とをコンピュ
    ータに実行させるためのプログラムを記録した記録媒
    体。
  8. 【請求項8】 前記例外判定処理が、 前記検索対象形態素と予め登録された都道府県名の文字
    列との一致検索を行う処理と、 前記都道府県名の文字列との一致検索において前記検索
    対象形態素が都道府県名と一体した場合に、前記検索対
    象形態素の次の形態素を新たな検索対象形態素とする処
    理と、 前記検索対象形態素と予め登録された市町村区名の文字
    列との一致検索を行う処理と、 前記市町村区名との一致検索を行う処理において前記検
    索対象形態素が市町村区名の文字列と一致した場合に、
    前記検索対象形態素を含む表現は正式な住所表現である
    と判定する処理と、 前記都道府県名の文字列との一致検索において前記検索
    対象形態素が都道府県名の文字列と一致せず、かつ前記
    市町村区名との一致検索を行う処理において検索対象形
    態素が市町村区名の文字列と一致しなかった場合に、前
    記検索対象形態素を含む表現は正式な住所表現ではない
    と判定する処理とから構成される請求項7記載の記録媒
    体。
  9. 【請求項9】 前記住所抽出処理が、 前記検索対象形態素の次の形態素を新たな検索対象形態
    素とする処理と、 前記検索対象形態素と、予め登録された大字・通称名の
    文字列との一致検索を行う処理と、 前記大字・通称名の文字列との一致検索において前記検
    索対象形態素が大字・通称名の文字列と一致した場合
    に、前記検索対象形態素の次の形態素を新たな検索対象
    形態素とする処理と、 前記検索対象形態素と、予め登録された字・丁目の文字
    列との一致検索を行う処理と、 前記字・丁目の文字列との一致検索において前記検索対
    象形態素が字・丁目の文字列と一致した場合に、前記検
    索対象形態素の次の形態素を新たな検索対象形態素とす
    る処理と、 前記大字・通称名の文字列との一致検索において前記検
    索対象形態素が大字・通称名の文字列と一致しなかった
    場合、または前記字・丁目の文字列との一致検索におい
    て前記検索対象形態素が字・丁目の文字列と一致しなか
    った場合、または前記大字・通称名の文字列との一致検
    索において前記検索対象形態素が大字・通称名の文字列
    とも一致し、かつ前記字・丁目の文字列との一致検索に
    おいて前記検索対象形態素が字・丁目の文字列とも一致
    した場合に、検索対象形態素の次の形態素が数字である
    かどうかを判定し、数字である場合に該数字を住所表現
    における番地号であるとして抽出する番地号抽出処理
    と、 抽出された都道府県名の形態素、市町村名の形態素、大
    字・通称の形態素、字・丁目の形態素、番地号の形態素
    を連結して1つの住所表現とする処理とから構成される
    請求項8記載の記録媒体。
  10. 【請求項10】 前記例外住所抽出処理が、 前記住所抽出処理において正式な住所表現でないと判定
    された表現が、正式な住所表現から郡名が省略された例
    外住所表現であるかどうかを判定する例外住所タイプ判
    定処理と、 前記例外住所タイプ判定処理において検索対象形態素を
    含む表現が正式な住所表現から郡名が省略された例外住
    所表現であると判定された場合に、前記検索対象形態素
    と、予め登録された、都道府県名から「県」が省略され
    た文字列とを一致検索する処理と、 前記検索対象形態素と、予め登録された、市名から
    「市」が省略された文字列とを一致検索する処理と、 前記「市」が省略された文字列との一致検索において前
    記検索対象形態素が「市」が省略された文字列と一致し
    た場合に、前記検索対象形態素の次の形態素を新たな検
    索対象形態素とする処理と、 前記検索対象形態素と、予め登録された人名を記述する
    際に使用される表現の文字列との一致検索する人名判定
    処理と、 前記人名判定処理において検索対象形態素が、人名を記
    述する際に使用される表現の文字列と一致した場合およ
    び検査対象形態素が「県」が省略された文字列とも
    「市」が省略された文字列とも一致しなかった場合に、
    検査対象形態素を含む表現は、住所表現ではないと判定
    する処理とを有する請求項7から9のいずれか1項記載
    の記録媒体。
  11. 【請求項11】 前記例外住所抽出処理が、 前記例外住所タイプ判定処理において検索対象形態素を
    含む表現が正式な住所表現から郡名が省略された例外住
    所表現でないと判定された場合に、都道府県名の文字列
    との一致検索において検索された都道府県名に基づい
    て、市町村区名との一致検索において一致した町村名
    と、予め登録された正式な郡−町村名から群名のみを省
    略した文字列との一致検索を行ない、一致した町村名の
    代わりにその町村名に対応する正式な郡−町村名の文字
    列を検索された住所表現とすることにより省略された郡
    名を補う処理と、 前記検索対象形態素の次の形態素を新たな検索対象形態
    素とする処理とをさらに有する請求項10記載の記録媒
    体。
  12. 【請求項12】 前記位置情報補足語抽出処理が、 住所表現又は地域名表現の末尾から一定の範囲内にある
    形態素と、予め登録された位置情報補足語との一致検索
    を行う処理と、 前記位置情報補足語との一致検索処理において一致した
    場合に、前記住所表現または地域名表現から一致した形
    態素までを1つの位置情報として抽出する処理と、 前記位置情報補足語との一致検索処理において一致しな
    かった場合に、検索対象形態素を6語前に戻す処理とか
    ら構成される請求項7から11のいずれか1項記載の記
    録媒体。
  13. 【請求項13】 入力された文章に含まれている位置情
    報を抽出するための自動抽出装置であって、 入力された文章を1または複数の文字列単位で区切るこ
    とにより複数の形態素に分解する形態素解析手段と、 前記各形態素のうちの1つの形態素を検索対象形態素と
    し、該検索対象形態素が、予め登録された地域名表現の
    文字列と一致するかどうかを判定する地域名表現抽出手
    段と、 前記検索対象形態素を含む表現が、正式な住所表現であ
    るかとうかを判定し、前記検索対象形態素を含む表現が
    正式な住所表現であると判定された場合に、前記検索対
    象形態素と予め登録された日本全国の住所表現の文字列
    との一致検索を順次行なうことにより前記文章から住所
    表現を抽出する住所抽出手段と、 前記住所表現抽出手段において前記検索対象形態素を含
    む表現が正式な住所表現ではないと判定された場合に、
    前記検索対象形態素と予め登録された例外住所表現の文
    字列との一致検索を行うことにより例外住所表現を抽出
    し、抽出された該例外住所表現に省略された「県」また
    は「市」の文字列若しくは省略された郡名を追加して正
    式な住所表現に変換する例外住所抽出手段と、 抽出された地域名表現および住所表現の末尾から一定数
    以内の各形態素に、予め登録された位置情報補足語と同
    一の文字列が存在するかどうか検索し、存在する場合に
    は地域名表現または住所表現から該位置情報補足語まで
    を位置情報とする位置情報補足語抽出手段とから構成さ
    れる位置情報の自動抽出装置。
  14. 【請求項14】 前記例外判定手段が、 前記検索対象形態素と予め登録された都道府県名の文字
    列との一致検索を行う手段と、 前記都道府県名の文字列との一致検索において前記検索
    対象形態素が都道府県名と一体した場合に、前記検索対
    象形態素の次の形態素を新たな検索対象形態素とする手
    段と、 前記検索対象形態素と予め登録された市町村区名の文字
    列との一致検索を行う手段と、 前記市町村区名との一致検索を行う手段において前記検
    索対象形態素が市町村区名の文字列と一致した場合に、
    前記検索対象形態素を含む表現は正式な住所表現である
    と判定する手段と、 前記都道府県名の文字列との一致検索において前記検索
    対象形態素が都道府県名の文字列と一致せず、かつ前記
    市町村区名との一致検索を行う手段において検索対象形
    態素が市町村区名の文字列と一致しなかった場合に、前
    記検索対象形態素を含む表現は正式な住所表現ではない
    と判定する手段とから構成される請求項13記載の位置
    情報の自動抽出装置。
  15. 【請求項15】 前記住所抽出手段が、 前記検索対象形態素の次の形態素を新たな検索対象形態
    素とする手段と、 前記検索対象形態素と、予め登録された大字・通称名の
    文字列との一致検索を行う手段と、 前記大字・通称名の文字列との一致検索において前記検
    索対象形態素が大字・通称名の文字列と一致した場合
    に、前記検索対象形態素の次の形態素を新たな検索対象
    形態素とする手段と、 前記検索対象形態素と、予め登録された字・丁目の文字
    列との一致検索を行う手段と、 前記字・丁目の文字列との一致検索において前記検索対
    象形態素が字・丁目の文字列と一致した場合に、前記検
    索対象形態素の次の形態素を新たな検索対象形態素とす
    る手段と、 前記大字・通称名の文字列との一致検索において前記検
    索対象形態素が大字・通称名の文字列と一致しなかった
    場合、または前記字・丁目の文字列との一致検索におい
    て前記検索対象形態素が字・丁目の文字列と一致しなか
    った場合、または前記大字・通称名の文字列との一致検
    索において前記検索対象形態素が大字・通称名の文字列
    とも一致し、かつ前記字・丁目の文字列との一致検索に
    おいて前記検索対象形態素が字・丁目の文字列とも一致
    した場合に、検索対象形態素の次の形態素が数字である
    かどうかを判定し、数字である場合に該数字を住所表現
    における番地号であるとして抽出する番地号抽出手段
    と、 抽出された都道府県名の形態素、市町村名の形態素、大
    字・通称の形態素、字・丁目の形態素、番地号の形態素
    を連結して1つの住所表現とする手段とから構成される
    請求項14記載の位置情報の自動抽出装置。
  16. 【請求項16】 前記例外住所抽出手段が、 前記住所抽出手段において正式な住所表現でないと判定
    された表現が、正式な住所表現から郡名が省略された例
    外住所表現であるかどうかを判定する例外住所タイプ判
    定手段と、 前記例外住所タイプ判定手段において検索対象形態素を
    含む表現が正式な住所表現から郡名が省略された例外住
    所表現であると判定された場合に、前記検索対象形態素
    と、予め登録された、都道府県名から「県」が省略され
    た文字列とを一致検索する手段と、 前記検索対象形態素と、予め登録された、市名から
    「市」が省略された文字列とを一致検索する手段と、 前記「市」が省略された文字列との一致検索において前
    記検索対象形態素が「市」が省略された文字列と一致し
    た場合に、前記検索対象形態素の次の形態素を新たな検
    索対象形態素とする手段と、 前記検索対象形態素と、予め登録された人名を記述する
    際に使用される表現の文字列との一致検索する人名判定
    手段と、 前記人名判定手段において検索対象形態素が、人名を記
    述する際に使用される表現の文字列と一致した場合およ
    び検査対象形態素が「県」が省略された文字列とも
    「市」が省略された文字列とも一致しなかった場合に、
    検査対象形態素を含む表現は、住所表現ではないと判定
    する手段とを有する請求項13から15のいずれか1項
    記載の位置情報の自動抽出装置。
  17. 【請求項17】 前記例外住所抽出手段が、 前記例外住所タイプ判定手段において検索対象形態素を
    含む表現が正式な住所表現から郡名が省略された例外住
    所表現でないと判定された場合に、都道府県名の文字列
    との一致検索において検索された都道府県名に基づい
    て、市町村区名との一致検索において一致した町村名
    と、予め登録された正式な郡−町村名から群名のみを省
    略した文字列との一致検索を行ない、一致した町村名の
    代わりにその町村名に対応する正式な郡−町村名の文字
    列を検索された住所表現とすることにより省略された郡
    名を補う手段と、 前記検索対象形態素の次の形態素を新たな検索対象形態
    素とする手段とをさらに有する請求項16記載の位置情
    報の自動抽出装置。
  18. 【請求項18】 前記位置情報補足語抽出手段が、 住所表現又は地域名表現の末尾から一定の範囲内にある
    形態素と、予め登録された位置情報補足語との一致検索
    を行う手段と、 前記位置情報補足語との一致検索手段において一致した
    場合に、前記住所表現または地域名表現から一致した形
    態素までを1つの位置情報として抽出する手段と、 前記位置情報補足語との一致検索手段において一致しな
    かった場合に、検索対象形態素を6語前に戻す手段とか
    ら構成される請求項13から17のいずれか1項記載の
    位置情報の自動抽出装置。
JP11053137A 1999-03-01 1999-03-01 位置情報の自動抽出装置および自動抽出方法と記録媒体 Pending JP2000250931A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11053137A JP2000250931A (ja) 1999-03-01 1999-03-01 位置情報の自動抽出装置および自動抽出方法と記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11053137A JP2000250931A (ja) 1999-03-01 1999-03-01 位置情報の自動抽出装置および自動抽出方法と記録媒体

Publications (1)

Publication Number Publication Date
JP2000250931A true JP2000250931A (ja) 2000-09-14

Family

ID=12934446

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11053137A Pending JP2000250931A (ja) 1999-03-01 1999-03-01 位置情報の自動抽出装置および自動抽出方法と記録媒体

Country Status (1)

Country Link
JP (1) JP2000250931A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132791A (ja) * 2000-10-24 2002-05-10 Nec Corp 地名情報抽出装置、その抽出方法及び抽出プログラムを記録した記録媒体、地図情報検索装置
JP2006260365A (ja) * 2005-03-18 2006-09-28 Zenrin Datacom Co Ltd 住所データと地図データとのリンク処理方法およびリンク処理装置
JP2007179329A (ja) * 2005-12-28 2007-07-12 Alps Sha:Kk 住所文字列取得方法および住所文字列取得システム
JP2008527505A (ja) * 2004-12-30 2008-07-24 グーグル インコーポレイテッド 信頼性のある文書の識別
JP2010122841A (ja) * 2008-11-19 2010-06-03 Clarion Co Ltd 道路情報提供サービスセンタ装置、道路情報提供方法およびカーナビゲーション装置
JP2011076642A (ja) * 2011-01-21 2011-04-14 Nec Corp 地名情報抽出装置、制御方法、記録媒体及び地図情報検索装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132791A (ja) * 2000-10-24 2002-05-10 Nec Corp 地名情報抽出装置、その抽出方法及び抽出プログラムを記録した記録媒体、地図情報検索装置
JP2008527505A (ja) * 2004-12-30 2008-07-24 グーグル インコーポレイテッド 信頼性のある文書の識別
JP4708436B2 (ja) * 2004-12-30 2011-06-22 グーグル インコーポレイテッド 信頼性のある文書の識別
US8650197B2 (en) 2004-12-30 2014-02-11 Google Inc. Authoritative document identification
JP2006260365A (ja) * 2005-03-18 2006-09-28 Zenrin Datacom Co Ltd 住所データと地図データとのリンク処理方法およびリンク処理装置
JP4531601B2 (ja) * 2005-03-18 2010-08-25 株式会社ゼンリンデータコム 住所データと地図データとのリンク処理装置
JP2007179329A (ja) * 2005-12-28 2007-07-12 Alps Sha:Kk 住所文字列取得方法および住所文字列取得システム
JP2010122841A (ja) * 2008-11-19 2010-06-03 Clarion Co Ltd 道路情報提供サービスセンタ装置、道路情報提供方法およびカーナビゲーション装置
JP2011076642A (ja) * 2011-01-21 2011-04-14 Nec Corp 地名情報抽出装置、制御方法、記録媒体及び地図情報検索装置

Similar Documents

Publication Publication Date Title
US7693853B2 (en) Method and apparatus for retrieving data representing a postal address from a plurality of postal addresses
US7433894B2 (en) Method and system for searching a multi-lingual database
US5950184A (en) Indexing a database by finite-state transducer
CN101539433A (zh) 导航系统中拼音首字母加声调检索的方法及装置
JP2000250931A (ja) 位置情報の自動抽出装置および自動抽出方法と記録媒体
JPH06162115A (ja) 地図情報システムにおける曖昧検索方式
JP3621614B2 (ja) 住所解析方法、装置、住所解析プログラムを記録した記録媒体
Kanada A method of geographical name extraction from Japanese text for thematic geographical search
JPH05250416A (ja) データベースの登録・検索装置
CN101539428A (zh) 导航系统中拼音加声调检索的方法及装置
JP5533576B2 (ja) 情報作成装置、情報作成方法及びプログラム
JPH08115340A (ja) 文書検索装置およびそれに用いるインデックスファイルの作成装置
JP2009122886A (ja) 住所解析装置、方法及びそのプログラム
Angkawattanawit et al. Thai Q-Cor: integrating word approximation and soundex for Thai query correction
JPS58123126A (ja) 辞書検索装置
JP2000311170A (ja) テキスト情報抽出方法
JP2000067070A (ja) 情報検索方法、検索ファイル作成方法及び情報検索装置
JP2000276467A (ja) 変換装置
JP2006134154A (ja) 住所解析装置、住所解析方法及び住所解析プログラム
JPS62144269A (ja) 情報検索装置
JP2006106896A (ja) データベース登録システム、データベース検索システム、語彙索引登録方法及び異表記同一視検索方法
JP2839515B2 (ja) 文字読取システム
JP3327420B2 (ja) 簡易住所入力による郵便番号検索方法
Magazine Fulltext geocoding versus spatial metadata for large text archives: Towards a geographically enriched wikipedia
JPH07319891A (ja) 文書登録検索システム