JP2009134463A - 地理的情報を含む文書群の検索装置、検索方法、検索プログラムおよびそのプログラムを記録した記録媒体 - Google Patents

地理的情報を含む文書群の検索装置、検索方法、検索プログラムおよびそのプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP2009134463A
JP2009134463A JP2007309281A JP2007309281A JP2009134463A JP 2009134463 A JP2009134463 A JP 2009134463A JP 2007309281 A JP2007309281 A JP 2007309281A JP 2007309281 A JP2007309281 A JP 2007309281A JP 2009134463 A JP2009134463 A JP 2009134463A
Authority
JP
Japan
Prior art keywords
document
place name
search
importance
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007309281A
Other languages
English (en)
Other versions
JP5087377B2 (ja
Inventor
Yoshihito Yasuda
宜仁 安田
Hiroyuki Toda
浩之 戸田
Yumiko Matsuura
由美子 松浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007309281A priority Critical patent/JP5087377B2/ja
Publication of JP2009134463A publication Critical patent/JP2009134463A/ja
Application granted granted Critical
Publication of JP5087377B2 publication Critical patent/JP5087377B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】地名が含意する領域の広さにばらつきがあるような場合においても適切に文書に対する検索のためのスコア付けを行うことができる検索装置を提供する。
【解決手段】指定された検索語と関連した文書を文書データベース2から検索し、該検索された文書と、その関連度を表す第1のスコアとを出力する関連文書検索部4と、前記文書データベース2内の検索対象の文書中に出現する地名を抽出し、それらに対し緯度経度を割当てる地理情報抽出部1と、地名が示す範囲内の各地点の重要度を算出する地名重要度算出部6と、前記指定された位置に近い地点を含む地名が出現する文書を検索し、該検索された文書に対して地理的尺度に基づく第2のスコアを与え、当該検索文書と第2のスコアとを出力する近傍文書検索部7と、前記関連文書検索部4と近傍文書検索部7の出力を用いて、各文書のスコアの評価を行うスコア評価部8とを備える。
【選択図】図1

Description

本発明は、コンピュータシステムにおける情報検索に関し、特に地理情報に関する表現を含んだ文書群から文書を検索する地理的情報を含む文書群の検索装置、検索方法、検索プログラムおよびそのプログラムを記録した記録媒体に関するものである。
文書の検索、特にインターネット上の文書の検索において、地理的な情報を考慮した検索は潜在的に多くの需要がある。たとえば、非特許文献1によれば、Webサーチエンジンにおける問い合わせのうち約20%が特定の場所や地域についての問い合わせであるとされている。
このような需要を満たすため、利用者が指し示した位置と検索語に応じた地理的情報を含む文書を適切に検索する技術(地理情報検索技術)が従来より提案されている。利用者からの位置の指定は、位置や範囲を示す地名、あるいは、緯度経度を示す座標が使われる。特に、GPS機能のついた携帯電話機などから地理情報検索サービスへアクセスする場合などは後者に該当する。
通常の文書検索、つまり地理情報を考慮せずに語の一致によって行われる検索では基本的にはユーザが示した検索語が文書中に出現するかどうかに基いて検索する。たとえば利用者が神戸市内の映画館について記述された文書を探す場合は、「神戸 映画館」といった検索語を入力として受け、これらの語が含まれている文書を検索するといった具合である。しかし、神戸市の中には多数の地名が存在するため、神戸市内の映画館について記述されていても、文書中には「神戸」という語が出現せずに「三ノ宮の映画館」のような表現で記述する文書が存在し得る。このような文書は通常の文書検索では検索語が含まれていないために検索することはできなかった。
これに対して、地理情報検索は、上記のような「三ノ宮」といった地名を緯度経度として表現し、利用者が示した地点(上記の例では「神戸」)との地理的な関係を調べることにより、字面での一致がなくとも適切に指定した位置に応じた文書の検索を実現しようとしている。
このような地理情報検索を実現するにあたっては、検索語と文書との関係に基づく検索の結果と、利用者が示した地点(あるいは範囲)と文書内に出現した地理的表現との位置関係に基づく検索の結果とを組み合わせて、何らかの尺度によって並び換えて出力する方法が一般的である。
上記のうち、検索語と文書との関係に基づく検索については、地理的情報を含まない通常の文書検索技術をそのまま用い、検索語と文書と関連度を出力する。
一方、後者の地理的関係に基づく検索は以下のような手順で行われる。まず、文書中の地名的表現を抽出し、それらを地名辞書を使って地名の緯度経度あるいは、地名の示す範囲を得る。このための手法としては例えば地名辞書のエントリとの表層マッチングなどの手法が存在する。得られた地名の範囲に関しては、複数の地名の範囲をそのまま保持、あるいは、複数の範囲を統合して単一の範囲とする、などにより、文書に対する領域(の集合)を確定する。尺度の算出については大きく分けて以下の2種類の方法が存在する。
(1)文書が示す地理的範囲、あるいはその周辺に対して利用者が指定した位置あるいは範囲が含まれているかどうかを利用する方法(非特許文献2参照)。
この場合は、地理情報については含まれているかいないかのみを使い、スコア付けについては文書との関係に基づく尺度のみを用いることになる。
(2)文書が示す地理的範囲と、利用者が指定した位置との距離を利用する方法(非特許文献3参照)。
この場合は、たとえば、距離の逆数を地理情報からの尺度とし、文書との関係に基づく尺度との組み合わせは重みつき和を用いることになる。
尚、本発明の実施形態例で利用する地理情報抽出手法としては、非特許文献4に記載のものが存在する。
Zhou,Y.,et al.,"hybrid Index Structures for Location−based Web Search",In Proc.of CIKM 2005 Subodh Vaid,et al.,"Spatio−textual Indexing for Geographical Search on the Web",In proc.of SSTD 2005. C.Schlieder,T.Vogele,U.Visser,"Qualitative Spatial Representation for information Retrieval by Gazetteers,In proc.of COSIT 2001 Paul Clough, Extracting metadata for spatially−aware information retrieval on the internet, GIR 2005.
従来の地理情報検索技術では、前述の通り「利用者が指定した位置や領域が、各文書が示す領域に含まれているかどうか」や「利用者が指定した位置や範囲と、各文書の代表点との距離」という基準でスコア付けを行っており、これらのスコアに対して、地名の示す広さや、地名内の各地点の重要度は考慮されていなかった。
しかし、文書中にて使われる地名には「北海道」のように広い領域を示す語から、「東京駅」といったごく狭い範囲を示すものまでさまざまである。このため、広い領域を示す地名が多数の検索に対して該当することになり、結果として狭い範囲を示す地名が過少評価されてしまうことになってしまうという問題があった。
また、従来の技術においては、ひとつの地名の示す領域内での地点の扱いは均等であった。このため地点の特徴を汲み取った検索ができないという問題があった。
以上のような問題の結果として検索結果の適切なスコア付けができずに、検索の性能が悪くなるという課題があった。
本発明は上記課題を解決するものであり、その目的は、地名が含意する領域の広さにばらつきがあるような場合においても適切に文書に対する検索のためのスコア付けを行うことができ、それによって検索性能を向上させた地理的情報を含む文書群の検索装置、検索方法、検索プログラムおよびそのプログラムを記録した記録媒体を提供することにある。
上記課題を解決するための請求項1に記載の検索装置は、文書群から、検索語と位置を指定することにより、検索語と位置に関連した文書を検索する地理的情報を含む文書群の検索装置において、前記指定された検索語と関連した文書を、検索対象の文書を集めた文書データベースから検索し、該検索された文書と、その関連度を表す第1のスコアとを出力する関連文書検索手段と、前記文書データベース内の検索対象の文書中に出現する地名を抽出し、されらに対し緯度経度を割当てる地理情報抽出手段と、地名が示す範囲内の各地点の重要度を算出する重要度算出手段と、前記指定された位置に近い地点を含む地名が出現する文書を検索し、該検索された文書に対して地理的尺度に基づく第2のスコアを与え、当該検索文書と第2のスコアとを出力する近傍文書検索手段と、前記関連文書検索手段と近傍文書検索手段の出力を用いて、各文書のスコアの評価を行うスコア評価手段とを備えたことを特徴としている。
また請求項2に記載の検索装置は、請求項1において、前記重要度算出手段は、地名およびその地名が含意する範囲で構成された地名位置範囲データベースを用いて、地名に対する地点の重要度を算出する地名重要度算出部を有し、前記近傍文書検索手段は、前記地名重要度算出部により算出された重要度に基づいて前記第2のスコアを算出することを特徴としている。
また請求項5に記載の検索方法は、文書群から、検索語と位置を指定することにより、検索語と位置に関連した文書を検索する地理的情報を含む文書群の検索方法において、関連文書検索手段が、前記指定された検索語と関連した文書を、検索対象の文書を集めた文書データベースから検索し、該検索された文書と、その関連度を表す第1のスコアとを出力する関連文書検索ステップと、地理情報抽出手段が、前記文書データベース内の検索対象の文書中に出現する地名を抽出し、それらに対し緯度経度を割当てる地理情報抽出ステップと、重要度算出手段が、地名が示す範囲内の各地点の重要度を算出する重要度算出ステップと、近傍文書検索手段が、前記指定された位置に近い地点を含む地名が出現する文書を検索し、該検索された文書に対して地理的尺度に基づく第2のスコアを与え、当該検索文書と第2のスコアとを出力する近傍文書検索ステップと、スコア評価手段が、前記関連文書検索手段と近傍文書検索手段の出力を用いて、各文書のスコアの評価を行うスコア評価ステップとを備えたことを特徴としている。
また請求項6に記載の検索方法は、請求項5において、前記重要度算出ステップは、地名重要度算出部が、地名およびその地名が含意する範囲で構成された地名位置範囲データベースを用いて、地名に対する地点の重要度を算出する地名重要度算出ステップを有し、前記近傍文書検索ステップは、前記地名重要度算出ステップにより算出された重要度に基づいて前記第2のスコアを算出することを特徴としている。
上記構成によれば、地名が含意する領域の広さにばらつきがあるような場合においても適切に文書に対する検索のためのスコア付けを行うことができる。
また請求項3に記載の検索装置は、請求項1において、前記重要度算出手段は、地球上での場所を示す小領域およびその地点の重要度で構成された重要度分布データベースと、地名およびその地名が含意する範囲で構成された地名位置範囲データベースとを用いて、地名に対する地点の重要度を算出する重要度分布算出部を有し、前記近傍文書検索手段は、前記重要度分布算出部により算出された重要度に基づいて前記第2のスコアを算出することを特徴としている。
また請求項7に記載の検索方法は、請求項5において、前記重要度算出ステップは、重要度分布算出部が、地球上での場所を示す小領域およびその地点の重要度で構成された重要度分布データベースと、地名およびその地名が含意する範囲で構成された地名位置範囲データベースとを用いて、地名に対する地点の重要度を算出する重要度分布算出ステップを有し、前記近傍文書検索ステップは、前記重要度分布算出ステップにより算出された重要度に基づいて前記第2のスコアを算出することを特徴としている。
上記構成によれば、重要度分布データベースによって、領域内にある店舗や家屋に関する分布状況によって重みの与え方を変えることができる。
また請求項4に記載の検索装置は、請求項1において、前記重要度算出手段は、地名およびその地名が含意する範囲で構成された地名位置範囲データベースと前記文書データベースとを用いて、前記文書データベース中の各文書に対して、文書が示す地点を付与する文書位置付与部と、該文書位置付与部で付与された文書の位置を記録した文書位置データベースとを有し、前記近傍文書検索手段は、前記文書位置データベースを用いて、前記指定された位置と前記文書位置データベースに記録された文書の位置との距離の逆数を第2のスコアとして算出することを特徴としている。
また請求項8に記載の検索方法は、請求項5において、前記重要度算出ステップは、文書位置付与部が、地名およびその地名が含意する範囲で構成された地名位置範囲データベースと前記文書データベースとを用いて、前記文書データベース中の各文書に対して、文書が示す地点を付与する文書位置付与ステップと、該文書位置付与ステップで付与された文書の位置を文書位置データベースに記録するステップとを有し、前記近傍文書検索ステップは、前記文書位置データベースを用いて、前記指定された位置と前記文書位置データベースに記録された文書の位置との距離の逆数を第2のスコアとして算出することを特徴としている。
上記構成によれば、各文書に対して、文書が示す地点を付与しているので、高速な検索が実現される。
また請求項9に記載の検索プログラムは、コンピュータを、請求項1ないし4のいずれか1項に記載の各手段として機能させる地理的情報を含む文書群の検索プログラムであることを特徴としている。
また請求項10に記載の記録媒体は、請求項9に記載の地理的情報を含む文書群の検索プログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴としている。
(1)請求項1〜10に記載の発明によれば、地名が含意する領域の広さにばらつきがあるような場合においても適切に文書に対する検索のためのスコア付けを行うことができ、結果として利用者は少ない手間で所望の文書を見つけだすことが可能になる。
(2)請求項3、7に記載の発明によれば、重要度分布データベースによって、領域内にある店舗や家屋に関する分布状況によって重みの与え方を変えることができる。
(3)請求項4、8に記載の発明によれば、各文書に対して、文書が示す地点を付与しているので、高速な検索が実現される。
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。
(第1の実施例)
図1は本発明の地理的情報を含む文書群の検索装置の第1の実施例の構成を示している。図1において、本実施例の検索装置は、地理情報抽出部1、文書データベース(DB)2、要求処理部3、関連文書検索部4、地名重要度算出部5、地名位置範囲データベース(DB)6、近傍文書検索部7、スコア評価部8とをを備えている。
上記各部は例えばコンピュータによって実現されるものであり、以下に各機能を説明する。
地理情報抽出部1は、本発明の地理情報抽出手段として機能し、文書データベース2内に格納されている文書を入力として、当該文書中に表われる地名、住所、店舗名、電話番号等(以下これを地名関連表現と呼ぶ)を抽出し、それぞれについて、文書中での出現箇所、正規化された地名、緯度経度を出力する。ここで、正規化された地名とは、地名の曖昧性がないような形で表現された地名である。たとえば「府中市」では広島県の府中市なのか東京都の府中市なのか曖昧なため、正規化された地名としては「広島県府中市」と表現する。
これには、単純には地名とその領域が記された辞書を用意しておき、文書中に表れる地名をパターンマッチする方法を使うことができる。ただし、この場合、地名でないものに対しても字面が同じであればマッチしてしまったり、上記の「府中」のように複数地点の地名として使われているために曖昧であるものを解消できなかったりする。
これらの問題点について何らかの対処をしておくことが望ましい。人名と地名の間での曖昧性の解消については、公知の固有表現抽出技術により人名と地名を事前に振り分けておくことができる。
複数の地点を表す地名の解消については、非特許文献4にあるように、曖昧な地名の周囲の語が、地名の正規の名称とどれくらい重なっているか(例えば、「…広島にある府中…」と文中にあれば、この「府中」は広島県府中市だとする)や、地名の階層の中で上の方のものを選択する(例えば「香川」とあった場合に「香川」ではなく「香川県」だとする)といった手法を使うことができる。
要求処理部3は、利用者が端末(図示省略)より入力した要求内容を入力として、検索語と検索位置を出力する。前記利用者からの要求内容のうち, 検索語については常に文字列で入力されるものとし、要求処理部3の出力のうちの検索語の部分はこの文字列をそのまま出力する。
検索位置については、緯度経度を数値により入力するか、又は文字列により入力することが可能である。緯度経度を数値によって入力した場合はそのまま要求処理部3の出力のうちの検索位置として出力する。
一方、例えば「東京都千代田区大手町」のように文字列として入力された場合は、地理情報抽出部1を使い、その文字列のみからなる文書として処理することにより、その文字列に対応する緯度経度を得て、これを要求処理部3の出力のうちの検索位置として出力する。
文書データベース2は検索対象の文書を集めたデータベースである。加えて、文書データベース2には、関連文書検索のために必要なインデックス構造(たとえば、転置インデックスや、単語の出現頻度に関するインデックスなど、WWW上の文書の場合には、リンク情報に関するインデックスなど)を保持する。さらに、前記地理情報抽出部1によって出力された、文書と地理領域との対応のインデックスも文書データベースの一部として保持する。
関連文書検索部4は、本発明の関連文書検索手段として機能し、利用者からのキーワード(すなわち要求処理部3から出力された検索語)を入力として、関連性が高いと思われる文書データベース2中の文書とその関連度スコア(本発明の第1のスコア)を出力する。
これには当分野の周知の技術を使うことができる。たとえば、TFIDFやBM25のようなキーワードを入力として関連する文書を検索するための技術と、PageRankのようなページ間のリンク情報のような大局的な情報を用いる技術を組み合わせた方法が関連文書検索として知られており、この技術を使うことができる。
地名位置範囲データベース5は、地名に対して、その地名が含意する範囲を得るためのデータベースであり、以下の項目によって構成される。
地名、地名が示す範囲を含む最小の緯度範囲、地名が示す範囲を含む最小の経度範囲。
地名重要度算出部6は、本発明の地名重要度算出手段として機能し、地名位置範囲データベース5内の地名と地点の座標を入力として、地名に対する地点の重要度を出力する。
地名の含意する範囲を、地名位置範囲データベース5によって得るが、もし地点が地名の含意する範囲外である場合は重要度は0としてこれを出力する。地点が地名の含意する範囲に入っている場合には、地名に対する地点の重要度は以下の計算により算出し、これを出力する。
Figure 2009134463
近傍文書検索部7は、本発明の近傍文書検索手段として機能し、要求処理部3によって得られた検索位置を入力として、その位置に近い地理情報を含んだ文書を文書データベース2から検索し、その文書に対して地理的尺度に基づくスコア(本発明の第2のスコア)を与え、その文書とスコアを出力する。
まず、文書データベース2中の地理領域を用いて、検索位置からたとえば10kmといった、一定範囲内に地理領域を持つような文書をすべて抽出する。
それらの文書に対し、その文書に含まれる各地理領域に対して、検索位置の地理領域に対する重みを、地名重要度算出部6によって算出する。この重みの和を次の式(2)で求め、その文書のスコアとする。
Figure 2009134463
スコア評価部8は、本発明のスコア評価手段として機能し、関連文書検索部4と近傍文書検索部7のそれぞれの出力(検索された文書、第1のスコア、第2のスコア)を入力として、文書と文書のスコアを出力する。
スコア評価部8では、文書のスコアを以下の式(3)で定める。
文書のスコア=a(関連文書検索部での文書のスコア)+b(近傍文書検索部でのスコア)…(3)
ここで、a、bはそれぞれ定数である。
このようにして得たスコアが高い文書から順に、文書を出力する(例えば利用者の端末を介して利用者に提示する)。
次に、本発明の検索方法の第1の実施例を説明する。本実施例では、図1の装置の、前記で述べた機能を有する各部の処理を次のような手順で実行する。
(1−1)要求処理部3が、利用者の端末から入力された要求を処理して、検索位置と検索語(キーワード)を出力する。
(1−2)地理情報抽出部1が文書データベース2内の文書から地名、住所、店舗名、電話番号等を抽出し、それぞれについて、文書中での出現箇所、正規化された地名、緯度経度を出力する。
(1−3)関連文書検索部4が、要求処理部3の出力である、利用者からのキーワード(検索語)を入力として、関連性が高いと思われる文書データベース2中の文書とその関連度スコア(第1のスコア)を出力する。
(1−4)地名重要度算出部6が、地名位置範囲データベース5内の地名と地点の座標を入力として、地名に対する地点の重要度を前記式(1)を算出して求める。
(1−5)近傍文書検索部7が、要求処理部3によって得られた検索位置を入力として、その位置に近い地理情報を含んだ文書を文書データベース2から検索し、その文書に含まれる各地理領域に対する重みを地名重要度算出部6から求め、その重みの和を前記式(2)により算出し、これをスコア(第2のスコア)として文書とともに出力する。
(1−6)スコア評価部8が、関連文書検索部4と近傍文書検索部7のそれぞれの出力(検索された文書、第1のスコア、第2のスコア)を入力とし、前記式(3)を計算して文書のスコアを求めそのスコアの高い文書から順に、文書を出力する。
(第2の実施例)
図2は本発明の検索装置の第2の実施例の構成を示しており、図1と同一部分は同一符号をもって示している。図2において、本実施例の検索装置は、地理情報抽出部1、文書データベース(DB)2、要求処理部3、関連文書検索部4、地名重要度算出部5、重要度分布算出部26a、重要度分布データベース(DB)26b、近傍文書検索部27、スコア評価部28とを備えている。
上記各部は例えばコンピュータによって実現されるものであり、以下に各機能を説明する。尚、地理情報抽出部1、文書データベース(DB)2、要求処理部3、関連文書検索部4、地名重要度算出部5は、図1のものと同一の機能を有するので、その説明は省略する。
重要度分布データベース26bは重要度分布データベースは重要度分布算出部26aが重要度を算出するために用いるデータベースであり、地球上での場所を示す小領域と、その地点の重要度の組からなる。
地球上での場所を示す小領域は重要度算出根拠や、本発明の応用先に応じて変更することが可能であるが、たとえば緯度1分ずつ、経度30秒ずつに分割した領域を使うことができる。
各地点の重要度としては、その領域における業種別電話帳での登録件数を用いる。この他にも、発明の応用先に応じて、人口密度分布や、家屋数などを用いることも可能である。
このように重要度分布データベース26bを有することによって、前記小領域に存在する店舗や家屋に関する分布状況によって重みの与え方を変えることができる。
重要度分布算出部26aは、本発明の重要度算出手段として機能し、地名位置範囲データベース5内の地名と、地点の座標を入力として、地名に対する地点の重要度を出力する。
まず、地名位置範囲データベース5を用いて、入力された地名が示す範囲を含む緯度の範囲と経度の範囲を得る。次に、重要度分布データベース26bを用いて、上記地名位置範囲データベース5により得た緯度範囲、経度範囲から得られる領域と、この領域内の各小領域の重要度の合計を得る。次に地点が含まれる小領域の重要度を得る。
そして、
Figure 2009134463
としてこれを出力する。
近傍文書検索部26は、本発明の近傍文書検索手段として機能し、第1の実施例の近傍文書検索部7と同様の動作を行うが、前記地名重要度算出部6に代えて、重要度分布算出部26aから出力された地点の重要度(式(4))に基づいて文書のスコア(第2のスコア)を与えるものである。
スコア評価部28は、本発明のスコア評価手段として機能し、第1の実施例のスコア評価部8と同様の動作を行うが、前記近傍文書検索部7に代えて近傍文書検索部27の出力と前記関連文書検索部4の出力とを入力として文書のスコアを求め、該スコアの高い文書から順に文書を出力するものである。
次に、本発明の検索方法の第2の実施例を説明する。本実施例では、図2の装置の、前記で述べた機能を有する各部の処理を次のような手順で実行する。
(2−1)要求処理部3が、利用者の端末から入力された要求を処理して、検索位置と検索語(キーワード)を出力する。
(2−2)地理情報抽出部1が文書データベース2内の文書から地名、住所、店舗名、電話番号等を抽出し、それぞれについて、文書中での出現箇所、正規化された地名、緯度経度を出力する。
(2−3)関連文書検索部4が、要求処理部3の出力である、利用者からのキーワード(検索語)を入力として、関連性が高いと思われる文書データベース2中の文書とその関連度スコア(第1のスコア)を出力する。
(2−4)地名重要度算出部26aが、まず、地名位置範囲データベース5を用いて、入力された地名が示す範囲を含む緯度の範囲と経度の範囲を得る。次に、重要度分布データベース26bを用いて、上記地名位置範囲データベース5により得た緯度範囲、経度範囲から得られる領域と、この領域内の各小領域の重要度の合計を得る。次に地点が含まれる小領域の重要度を得る。
そして前記式(4)を計算し、これを出力する。
(2−5)近傍文書検索部27が、要求処理部3によって得られた検索位置を入力として、その位置に近い地理情報を含んだ文書を文書データベース2から検索し、その文書に対して、重要度分布算出部26aから出力された地点の重要度(式(4))に基づいて文書のスコア(第2のスコア)を与える。
(2−6)スコア評価部28が、関連文書検索部4と近傍文書検索部27のそれぞれの出力(検索された文書、第1のスコア、第2のスコア)を入力とし、前記式(3)を計算して文書のスコアを求めそのスコアの高い文書から順に、文書を出力する。
(第3の実施例)
図3は本発明の検索装置の第3の実施例の構成を示しており、図1と同一部分は同一符号をもって示している。図3において、本実施例の検索装置は、地理情報抽出部1、文書データベース(DB)2、要求処理部3、関連文書検索部4、地名重要度算出部5、文書位置付与部36a、文書位置データベース(DB)36b、近傍文書検索部37、スコア評価部38とを備えている。
上記各部は例えばコンピュータによって実現されるものであり、以下に各機能を説明する。尚、地理情報抽出部1、文書データベース(DB)2、要求処理部3、関連文書検索部4、地名重要度算出部5は、図1のものと同一の機能を有するので、その説明は省略する。
文書位置付与部36aは、本発明の文書位置付与手段として機能し、文書データベース2中の各文書に対して、文書中の地名の領域を統合して、単一の点(ひとつの代表する点)を与える。
文書中の地名は、その文書で主題となっている地域に含まれるものばかりでなく、地理情報抽出部1の誤り等のため主題とは無関係な地名が出現することがある。このような誤りの例としては、たとえば、人名であるべきものを地名として扱ってしまう場合や、複数の候補がある地名のあいまいさの解消において誤った場所として解消してしまう場合などが考えられる。地理情報抽出における誤りを完全に排除することは困難であるため、誤りがある場合でも頑健に動作することが望ましい。
このため、本手法ではまず地名のクラスタリングを行い、代表なクラスタを決定する。クラスタリングは最短距離法などの公知の階層的クラスタリング手法を使うことができる。この際、クラスタを併合するための距離の条件として、検索対象や目的に応じた距離を設定する。たとえば、徒歩圏内にあるような店舗に関する記述を検索するような場合においては、数km程度が妥当である。
上記の手順によりクラスタリングを行った後、要素数がもっとも多いクラスタをその文書の代表クラスタとする。
決定された代表クラスタに対して、地名の含意する広さを考慮した文書位置を決定するために以下のように重みつきの重心を計算し、その重みつき重心を文書の位置とし、文書位置データベース(DB)36bに記録する。
すなわち、決定された代表クラスタに対して、クラスタ内の各地点に対応するベクトルをV1…Vnとし、それぞれの地点の広さをE1…Enとする。このとき、広さを考慮したこのクラスタの重心を
Figure 2009134463
と求め、この重心を文書の位置とし、文書位置データベース36bに記録する。
文書位置データベース36bは、文書に対して、その文書の位置を記録したデータベースであり、例えば図4のように構成される。高速に検索するために、二次元の座標間の距離を高速に得ることを可能にするためのインデックスをたとえば、R−treeなどの形式で保持する。
近傍文書検索部37は、本発明の近傍文書検索手段として機能し、要求処理部3によって処理された座標を示す点を入力として、その点の近くに文書の位置が存在する文書とその文書との距離を出力する。
すなわち、要求処理部3からの入力点(指定された検索位置の点)と、文書位置データベース36bに記録されている文書の代表点との距離が近い順に文書と距離を出力する(本実施例では、文書との距離の逆数を第2のスコアとしているので、距離が近いほど第2のスコアが高くなり、このスコアの高い順に出力する)。
スコア評価部38は、本発明のスコア評価手段として機能し、関連文書検索部4と近傍文書検索部37のそれぞれの出力を入力として、文書と文書のスコアを出力する。
スコア評価部38では、文書のスコアを以下の式(6)で定める。
Figure 2009134463
ここで、a、bはそれぞれ定数。
このようにして得たスコアが高い文書から順に、文書を出力する。
次に、本発明の検索方法の第3の実施例を説明する。本実施例では、図3の装置の、前記で述べた機能を有する各部の処理を次のような手順で実行する。
(3−1)要求処理部3が、利用者の端末から入力された要求を処理して、検索位置と検索語(キーワード)を出力する。
(3−2)地理情報抽出部1が文書データベース2内の文書から地名、住所、店舗名、電話番号等を抽出し、それぞれについて、文書中での出現箇所、正規化された地名、緯度経度を出力する。
(3−3)関連文書検索部4が、要求処理部3の出力である、利用者からのキーワード(検索語)を入力として、関連性が高いと思われる文書データベース2中の文書とその関連度スコア(第1のスコア)を出力する。
(3−4)文書位置付与部36aが、文書データベース2中の各文書に対して地名のクラスタリングを行い、その文書の代表クラスタを決め、その代表クラスタに対して、地名の含意する広さを考慮した文書位置を決定するために、前記式(5)を計算して重み付き重心を計算し、それを文書の位置とし、文書位置データベース36bに記録する。
(3−5)近傍文書検索部37が、要求処理部3によって処理された座標を示す点と、文書位置データベース36bに記録されている文書の代表点との距離が近い順に文書と距離を出力する。
(3−6)スコア評価部38が、関連文書検索部4と近傍文書検索部37の各出力を入力とし、前記式(6)を計算して文書のスコアを求め、該スコアが高い文書から順に文書を出力する。
また、前記本発明の地理的情報を含む文書群の検索方法をコンピュータに実行させるためのプログラムを構築するものである。
また、本実施形態の地理的情報を含む文書群の検索装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の地理的情報を含む文書群の検索方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW,HDD,リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
以上、本発明を実施形態例に基づき具体的に説明したが、本発明は上述の実施例に限定されるものではなく、幅広く応用することができる。
本発明の地理的情報を含む文書群の検索装置の第1の実施例の構成図。 本発明の地理的情報を含む文書群の検索装置の第2の実施例の構成図。 本発明の地理的情報を含む文書群の検索装置の第3の実施例の構成図。 本発明の地理的情報を含む文書群の検索装置の第3の実施例における、文書位置データベースの一例を示す説明図。
符号の説明
1…地理情報抽出部、2…文書データベース、3…要求処理部、4…関連文書検索部、5…地名位置範囲データベース、6…地名重要度算出部、7、27、37…近傍文書検索部、8、28、38…スコア評価部、26a…重要度分布算出部、26b…重要度分布データベース、36a…文書位置付与部、36b…文書位置データベース。

Claims (10)

  1. 文書群から、検索語と位置を指定することにより、検索語と位置に関連した文書を検索する地理的情報を含む文書群の検索装置において、
    前記指定された検索語と関連した文書を、検索対象の文書を集めた文書データベースから検索し、該検索された文書と、その関連度を表す第1のスコアとを出力する関連文書検索手段と、
    前記文書データベース内の検索対象の文書中に出現する地名を抽出し、それらに対し緯度経度を割当てる地理情報抽出手段と、
    地名が示す範囲内の各地点の重要度を算出する重要度算出手段と、
    前記指定された位置に近い地点を含む地名が出現する文書を検索し、該検索された文書に対して地理的尺度に基づく第2のスコアを与え、当該検索文書と第2のスコアとを出力する近傍文書検索手段と、
    前記関連文書検索手段と近傍文書検索手段の出力を用いて、各文書のスコアの評価を行うスコア評価手段と
    を備えたことを特徴とする地理的情報を含む文書群の検索装置。
  2. 前記重要度算出手段は、地名およびその地名が含意する範囲で構成された地名位置範囲データベースを用いて、地名に対する地点の重要度を算出する地名重要度算出部を有し、
    前記近傍文書検索手段は、前記地名重要度算出部により算出された重要度に基づいて前記第2のスコアを算出することを特徴とする請求項1に記載の地理的情報を含む文書群の検索装置。
  3. 前記重要度算出手段は、地球上での場所を示す小領域およびその地点の重要度で構成された重要度分布データベースと、地名およびその地名が含意する範囲で構成された地名位置範囲データベースとを用いて、地名に対する地点の重要度を算出する重要度分布算出部を有し、
    前記近傍文書検索手段は、前記重要度分布算出部により算出された重要度に基づいて前記第2のスコアを算出することを特徴とする請求項1に記載の地理的情報を含む文書群の検索装置。
  4. 前記重要度算出手段は、地名およびその地名が含意する範囲で構成された地名位置範囲データベースと前記文書データベースとを用いて、前記文書データベース中の各文書に対して、文書が示す地点を付与する文書位置付与部と、該文書位置付与部で付与された文書の位置を記録した文書位置データベースとを有し、
    前記近傍文書検索手段は、前記文書位置データベースを用いて、前記指定された位置と前記文書位置データベースに記録された文書の位置との距離の逆数を第2のスコアとして算出することを特徴とする請求項1に記載の地理的情報を含む文書群の検索装置。
  5. 文書群から、検索語と位置を指定することにより、検索語と位置に関連した文書を検索する地理的情報を含む文書群の検索方法において、
    関連文書検索手段が、前記指定された検索語と関連した文書を、検索対象の文書を集めた文書データベースから検索し、該検索された文書と、その関連度を表す第1のスコアとを出力する関連文書検索ステップと、
    地理情報抽出手段が、前記文書データベース内の検索対象の文書中に出現する地名を抽出し、それらに対し緯度経度を割当てる地理情報抽出ステップと、
    重要度算出手段が、地名が示す範囲内の各地点の重要度を算出する重要度算出ステップと、
    近傍文書検索手段が、前記指定された位置に近い地点を含む地名が出現する文書を検索し、該検索された文書に対して地理的尺度に基づく第2のスコアを与え、当該検索文書と第2のスコアとを出力する近傍文書検索ステップと、
    スコア評価手段が、前記関連文書検索手段と近傍文書検索手段の出力を用いて、各文書のスコアの評価を行うスコア評価ステップと
    を備えたことを特徴とする地理的情報を含む文書群の検索方法。
  6. 前記重要度算出ステップは、地名重要度算出部が、地名およびその地名が含意する範囲で構成された地名位置範囲データベースを用いて、地名に対する地点の重要度を算出する地名重要度算出ステップを有し、
    前記近傍文書検索ステップは、前記地名重要度算出ステップにより算出された重要度に基づいて前記第2のスコアを算出することを特徴とする請求項5に記載の地理的情報を含む文書群の検索方法。
  7. 前記重要度算出ステップは、重要度分布算出部が、地球上での場所を示す小領域およびその地点の重要度で構成された重要度分布データベースと、地名およびその地名が含意する範囲で構成された地名位置範囲データベースとを用いて、地名に対する地点の重要度を算出する重要度分布算出ステップを有し、
    前記近傍文書検索ステップは、前記重要度分布算出ステップにより算出された重要度に基づいて前記第2のスコアを算出することを特徴とする請求項5に記載の地理的情報を含む文書群の検索方法。
  8. 前記重要度算出ステップは、文書位置付与部が、地名およびその地名が含意する範囲で構成された地名位置範囲データベースと前記文書データベースとを用いて、前記文書データベース中の各文書に対して、文書が示す地点を付与する文書位置付与ステップと、該文書位置付与ステップで付与された文書の位置を文書位置データベースに記録するステップとを有し、
    前記近傍文書検索ステップは、前記文書位置データベースを用いて、前記指定された位置と前記文書位置データベースに記録された文書の位置との距離の逆数を第2のスコアとして算出することを特徴とする請求項5に記載の地理的情報を含む文書群の検索方法。
  9. コンピュータを、請求項1ないし4のいずれか1項に記載の各手段として機能させる地理的情報を含む文書群の検索プログラム。
  10. 請求項9に記載の地理的情報を含む文書群の検索プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2007309281A 2007-11-29 2007-11-29 地理的情報を含む文書群の検索装置、検索方法、検索プログラムおよびそのプログラムを記録した記録媒体 Active JP5087377B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007309281A JP5087377B2 (ja) 2007-11-29 2007-11-29 地理的情報を含む文書群の検索装置、検索方法、検索プログラムおよびそのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007309281A JP5087377B2 (ja) 2007-11-29 2007-11-29 地理的情報を含む文書群の検索装置、検索方法、検索プログラムおよびそのプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2009134463A true JP2009134463A (ja) 2009-06-18
JP5087377B2 JP5087377B2 (ja) 2012-12-05

Family

ID=40866289

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007309281A Active JP5087377B2 (ja) 2007-11-29 2007-11-29 地理的情報を含む文書群の検索装置、検索方法、検索プログラムおよびそのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP5087377B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011134256A (ja) * 2009-12-25 2011-07-07 Yahoo Japan Corp 地域スコアデータベースを作成する装置、方法及びプログラム
JP2012089019A (ja) * 2010-10-21 2012-05-10 Nippon Telegr & Teleph Corp <Ntt> 文書検索キーワード提示装置および文書検索キーワード提示プログラム
JP2012155468A (ja) * 2011-01-25 2012-08-16 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置、文書検索方法、文書検索プログラム
JP2013109426A (ja) * 2011-11-17 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置及び方法及びプログラム
JP2013218441A (ja) * 2012-04-05 2013-10-24 Nippon Telegr & Teleph Corp <Ntt> 特徴キーワード推薦装置及び方法及びプログラム
JP2014211739A (ja) * 2013-04-18 2014-11-13 日本電信電話株式会社 代表ページ選択装置及び代表ページ選択プログラム
JP2015219614A (ja) * 2014-05-15 2015-12-07 日本電信電話株式会社 距離閾値指定装置,距離閾値指定方法、距離閾値指定プログラム
JP2016524736A (ja) * 2013-04-17 2016-08-18 トムトム ナビゲーション ベスローテン フエンノートシャップTomTom Navigation B.V. デジタル地図に関連する場所の探索及び表示を容易にする方法、装置及びコンピュータソフトウェア
US10281295B2 (en) 2013-04-17 2019-05-07 Tomtom Navigation B.V. Methods, devices and computer software for facilitating searching and display of locations relevant to a digital map
CN111373396A (zh) * 2018-05-21 2020-07-03 乐天株式会社 设施检索系统、设施检索方法以及程序
US10733219B2 (en) 2013-04-17 2020-08-04 Tomtom Navigation B.V. Methods, devices and computer software for facilitating searching and display of locations relevant to a digital map

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003079229A1 (fr) * 2002-03-15 2003-09-25 Fujitsu Limited Procédé et dispositif de recherche d'informations de régions
JP2004152174A (ja) * 2002-10-31 2004-05-27 Sony Corp コンテンツ再生装置、コンテンツ提供システム、コンテンツ検索方法、およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003079229A1 (fr) * 2002-03-15 2003-09-25 Fujitsu Limited Procédé et dispositif de recherche d'informations de régions
JP2004152174A (ja) * 2002-10-31 2004-05-27 Sony Corp コンテンツ再生装置、コンテンツ提供システム、コンテンツ検索方法、およびプログラム

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011134256A (ja) * 2009-12-25 2011-07-07 Yahoo Japan Corp 地域スコアデータベースを作成する装置、方法及びプログラム
JP2012089019A (ja) * 2010-10-21 2012-05-10 Nippon Telegr & Teleph Corp <Ntt> 文書検索キーワード提示装置および文書検索キーワード提示プログラム
JP2012155468A (ja) * 2011-01-25 2012-08-16 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置、文書検索方法、文書検索プログラム
JP2013109426A (ja) * 2011-11-17 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置及び方法及びプログラム
JP2013218441A (ja) * 2012-04-05 2013-10-24 Nippon Telegr & Teleph Corp <Ntt> 特徴キーワード推薦装置及び方法及びプログラム
US10733219B2 (en) 2013-04-17 2020-08-04 Tomtom Navigation B.V. Methods, devices and computer software for facilitating searching and display of locations relevant to a digital map
JP2016524736A (ja) * 2013-04-17 2016-08-18 トムトム ナビゲーション ベスローテン フエンノートシャップTomTom Navigation B.V. デジタル地図に関連する場所の探索及び表示を容易にする方法、装置及びコンピュータソフトウェア
US10281295B2 (en) 2013-04-17 2019-05-07 Tomtom Navigation B.V. Methods, devices and computer software for facilitating searching and display of locations relevant to a digital map
US11720574B2 (en) 2013-04-17 2023-08-08 Tomtom Navigation B.V. Methods, devices and computer software for facilitating searching and display of locations relevant to a digital map
JP2014211739A (ja) * 2013-04-18 2014-11-13 日本電信電話株式会社 代表ページ選択装置及び代表ページ選択プログラム
JP2015219614A (ja) * 2014-05-15 2015-12-07 日本電信電話株式会社 距離閾値指定装置,距離閾値指定方法、距離閾値指定プログラム
CN111373396A (zh) * 2018-05-21 2020-07-03 乐天株式会社 设施检索系统、设施检索方法以及程序
CN111373396B (zh) * 2018-05-21 2024-05-07 乐天集团股份有限公司 设施检索系统、设施检索方法以及程序

Also Published As

Publication number Publication date
JP5087377B2 (ja) 2012-12-05

Similar Documents

Publication Publication Date Title
JP5087377B2 (ja) 地理的情報を含む文書群の検索装置、検索方法、検索プログラムおよびそのプログラムを記録した記録媒体
US9430510B2 (en) Computer implemented methods and systems for multi-level geographic query
US20150356088A1 (en) Tile-based geocoder
CN107203526B (zh) 一种查询串语义需求分析方法及装置
JP7023821B2 (ja) 情報検索システム
EP2186024A1 (en) Interpreting local search queries
JP5221630B2 (ja) サーバ、情報管理方法、情報管理プログラム、及びそのプログラムを記録するコンピュータ読み取り可能な記録媒体
JP2010128806A (ja) 情報分析装置
Liu et al. Semantic-aware query processing for activity trajectories
JP6662689B2 (ja) 単語判定装置
US11487937B2 (en) Location query processing and scoring
JP5639549B2 (ja) 情報検索装置及び方法及びプログラム
JP2009134464A (ja) 地名が意味する範囲を考慮した検索結果スニペットの生成装置、生成方法、生成プログラムおよびその生成プログラムを記録した記録媒体
Fränti et al. Location-based search engine for multimedia phones
KR101459872B1 (ko) SOI와 Content의 결합 객체에 대한 공간정보 색인 시스템
JP5806974B2 (ja) 近隣情報検索装置及び方法及びプログラム
Katragadda et al. An unsupervised approach to identify location based on the content of user’s tweet history
Asadi et al. Using local popularity of web resources for geo-ranking of search engine results
An et al. Improving local search with open geographic data
Venkateswaran et al. Exploring and visualizing differences in geographic and linguistic web coverage
Deeksha et al. A spatial clustering approach for efficient landmark discovery using geo-tagged photos
JP5670944B2 (ja) 文書要約装置及び方法及びプログラム
Thenmozhi et al. A framework for tourist recommendation system exploiting geo-tagged photos
JP5650607B2 (ja) 文書検索キーワード提示装置及び方法
JP6031164B1 (ja) スポット判定装置、スポット判定方法、および、スポット判定プログラム

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090618

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090925

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100528

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120131

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120330

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120904

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120910

R150 Certificate of patent or registration of utility model

Ref document number: 5087377

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150914

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350