JP5689780B2 - 文書検索装置及び方法及びプログラム - Google Patents

文書検索装置及び方法及びプログラム Download PDF

Info

Publication number
JP5689780B2
JP5689780B2 JP2011252106A JP2011252106A JP5689780B2 JP 5689780 B2 JP5689780 B2 JP 5689780B2 JP 2011252106 A JP2011252106 A JP 2011252106A JP 2011252106 A JP2011252106 A JP 2011252106A JP 5689780 B2 JP5689780 B2 JP 5689780B2
Authority
JP
Japan
Prior art keywords
document
range
score
place name
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011252106A
Other languages
English (en)
Other versions
JP2013109426A (ja
Inventor
宜仁 安田
宜仁 安田
正彬 西野
正彬 西野
義昌 小池
義昌 小池
良治 片岡
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011252106A priority Critical patent/JP5689780B2/ja
Publication of JP2013109426A publication Critical patent/JP2013109426A/ja
Application granted granted Critical
Publication of JP5689780B2 publication Critical patent/JP5689780B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書検索装置及び方法及びプログラムに係り、特に、文書集合の中から文書を検索するための文書検索装置及び方法及びプログラムに関する。
従来より、インターネットから得られる情報等、大規模な文書を対象として、キーワードを入力することにより、キーワードと関連のある文書を出力する技術が知られている(例えば、非特許文献1参照)。
また、近年、インターネット上での地図サービス等の普及や、GPS等により現在の端末の位置を取得可能なデバイスの普及を背景に、検索条件の一部として位置や地図の範囲を加え、キーワードと地理の条件の双方と関連のある文書を出力する技術が知られている(例えば、特許文献1参照)。
特開2009-134463号公報
「分散型高速情報収集/全文検索システム InfoBee/Evangelist」、竹野浩、井上孝史、NTT R&D, vol. 52, no. 2, 2003, pp 78-84.
しかし、従来の検索手法によれば、利用者は少なくともキーワードを入力する必要があり、地図を閲覧中に、その地図の範囲と最も関連の深いような文書を検索するといったことができないという問題があった。
素朴な解決策として、キーワードを入力せずとも、地図の範囲を取得し、その地図の範囲内に存在する住所や地名を含むような文書を出力するような文書検索装置も考えられるであろう。しかし、このような素朴な方法によれば、ユーザが選択した地図領域中のどの範囲に関する情報であるかを制御することができず、選択領域中の一部とだけしか関連しない文書が選択されてしまう可能性がある。
本発明は、上記の点に鑑みなされたもので、キーワード入力を不要とし、指定された地図範囲の位置、縮尺に応じた適切な文書を検索することが可能な文書検索装置及び方法及びプログラムを提供することを目的とする。
上記の課題を解決するため、本発明(請求項1)は、利用者の地図表示機能を有する端末から指定された検索対象となる地図範囲内に関連する文書を検索する文書検索装置であって、
文書を格納した文書データベースと、
前記文書データベースの各文書中に記載された地名表現を抽出し、地名の代表点の緯度経度と該地名の含意する範囲を特定し、該範囲と該文書の識別子を文書対応表記憶手段に格納する地名情報付与手段と、
前記文書対応表記憶手段に格納されている範囲に前記利用者から入力された検索対象範囲と重なり合う範囲があるかを判定し、重なりがある場合は、重なりがある範囲内の地名の属する文書識別子を該文書対応表記憶手段より取得するスコア付け対象文書取得手段と、
前記スコア付け対象文書取得手段で取得した前記文書識別子に対応する文書に現れる全地名のエリアの和(以下「文書の示す範囲」と記す)と前記検索対象範囲が過不足なく一致するほど高くなるスコアを算出するスコア算出手段と、
前記スコアの高い順に文書を出力する出力手段と、を有し、
前記スコア算出手段において、
前記文書の示す範囲のうち、前記検索対象範囲内に含まれる部分の面積A1を、該文書内の地名の範囲と該検索対象範囲内から重複を除いた面積A2で除することにより、前記スコアを算出する手段を含む
本発明によれば、キーワードを入力せずとも地図範囲を選択するだけで、その選択した位置、縮尺に応じた適切な文書を検索することができるため、キーワード入力の手間を省くことができ、結果として文書検索に必要な手数を減らすことができる。
また、従来のキーワード検索では不可能であった、位置、表示範囲に応じた適切な文書を検索することができるようになる。
本発明の一実施の形態における文書検索装置の構成図である。 本発明の一実施の形態における地理文書対応表の例である。 本発明の一実施の形態における前処理のフローチャートである。 本発明の一実施の形態における検索時の処理のフローチャートである。 本発明の一実施の形態におけるスコア算出部のフローチャートである。 本発明の一実施の形態におけるスコア算出部で使用する面積の算出例である。
以下図面と共に、本発明の実施の形態を説明する。
本実施の形態では、利用者が地図表示付きの端末を利用していて、その地図範囲内に最も関連のある文書を利用したいという想定のもと、本装置への入力は、地図の表示範囲(矩形の四隅の座標)であり、出力は、その範囲と関連のある文書群あるいは文書ID群である。
図1は、本発明の一実施の形態における文書検索装置の構成を示す。
同図に示す文書検索装置は、文書データベース1、地理文書対応表記憶部2、地理情報付与部10、スコア付け対象文書取得部20、スコア算出部30、出力部40から構成され、装置への入力と関連する文書を出力する。
文書データベース(DB)1は、インターネット等から収集した文書を格納したデータベースであり、文書IDをキーとして文書の内容を得ることができる。これには既存の通常のデータベースを用いることが可能である。
地理文書対応表記憶部2は、図2に示すような地理文書対応表を格納する。地理文書対応表は、地理情報付与部10によって特定された文書中に記述された各地名の含意する範囲と、その地名が出現した文書のIDを記したものである。なお、図2では、矩形の四隅の座標であるが、任意の多角形として表現してもよい。また、範囲をキーとして、その範囲と重なるようなエントリを高速に参照できるようにするため、図2のような表形式でなくとも、r-treeのような二次元の範囲データについて高速に参照できるような構造にしてもよい。
また、後述のスコア算出部30においては、文書IDをキーに当該文書に含まれる全ての地名の範囲を取得する必要があるため、この演算を高速に行えるようなインデクスを作成してもよい。
図3は、本発明の一実施の形態における前処理のフローチャートである。
前処理は、地理情報付与部10における処理である。
地理情報付与部10は、文書DB1中の各文書について、文書中に記述された地名と思われる表現を特定し(ステップ101)、その地名の代表点の緯度経度と、地名の含意する範囲を推定し(ステップ102)、地理文書対応表記憶部2へ格納する(ステップ103)。
地名特定、その他の代表点の緯度経度の特定には、例えば、文献1「平野徹、松尾義博、菊井玄一郎、『地理的距離と有名度を用いた地名の曖昧性解消』、情報処理学会全国大会講演論文集、2008.」等で示される従来の手法を用いることができる。
また、地名の含意する範囲については、例えば、文献2「安田宜仁、戸田博之、"検索位置のごく周辺を対象とした地理情報検索",人工知能学会論文誌,Vol. 23, No.5, pp. 364-373, 2008年7月.」で示される従来法や、既存の数値地図を使うことができる。
図4は、本発明の一実施の形態における検索時の処理のフローチャートである。
ステップ201) スコア付け対象文書取得部20は、ユーザから装置に入力された検索対象範囲(四隅の座標)を取得する。
ステップ202) 次に、地理文書インデクスを用いて、検索対象範囲と一部であっても重なりがあるような地名を少なくとも一つ記述されているような文書のID番号を得る具体的には、地理文書対応表中に記されている範囲と検索対象範囲に重なりがあるかどうかを判定し、重なりがあると判定された地名の属する文書IDを収集し、文書IDの重複を除いたものを出力する。
ステップ203) スコア算出部30は、文書IDを入力として、その文書の、本装置への入力である地図の表示範囲に対するスコアを算出する。
図5は、本発明の一実施の形態におけるスコア算出部の処理のフローチャートである。
スコア算出部30は、文書の示す範囲(四隅座標)を取得し(ステップ301)、文書の示す範囲と地図表示範囲の重複部分の面積A1を算出する(ステップ302)。文書を示す範囲と地図表示範囲を合わせた範囲の面積A2を算出する(ステップ303)。
次に、文書スコアを、
文書スコア=A1/A2
により求め(ステップ304)、出力部40に出力する(ステップ305)。
この文書スコアは、文書で言及している地名の範囲と、地図の表示範囲とがなるべく一致するとよいという考えに基づき算出する。
文書内での地名の各範囲で示される範囲全てを合わせたものを「文書の示す範囲」と呼ぶ。
文書スコアは、上記のステップ304に示すように、文書の示す範囲のうち、地図選択範囲内、すなわち、検索対象範囲内に含まれる部分の面積A1と、文書の示す範囲と地図表示範囲から重複を除いた面積A2を用いて、以下の式により算出する。
Figure 0005689780
上記の面積A1,A2については、図6に示す。
ステップ204) 出力部40は、スコア算出部30によって得られたスコアに基づいてスコア付け対象文書を並び替える。
ステップ205) 出力部40は、並び替えた文書をスコアの大きい順に出力する。
上記のように、地図領域と文書で言及されている領域との一致度合いによって文書の適合度(スコア)を算出することにより、ユーザが地図範囲を選択するだけでその地図範囲の位置や縮尺に応じた文書を検索することができる。
なお、上記の図1の文書検索装置の構成要素の動作をプログラムとして構築し、文書検索装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
1 文書データベース(DB)
2 地理文書記憶部
10 地理情報付与部
20 スコア付け対象文書取得部
30 スコア算出部
40 出力部

Claims (3)

  1. 利用者の地図表示機能を有する端末から指定された検索対象となる地図範囲内に関連する文書を検索する文書検索装置であって、
    文書を格納した文書データベースと、
    前記文書データベースの各文書中に記載された地名表現を抽出し、地名の代表点の緯度経度と該地名の含意する範囲を特定し、該範囲と該文書の識別子を文書対応表記憶手段に格納する地名情報付与手段と、
    前記文書対応表記憶手段に格納されている範囲に前記利用者から入力された検索対象範囲と重なり合う範囲があるかを判定し、重なりがある場合は、重なりがある範囲内の地名の属する文書識別子を該文書対応表記憶手段より取得するスコア付け対象文書取得手段と、
    前記スコア付け対象文書取得手段で取得した前記文書識別子に対応する文書に現れる全地名のエリアの和(以下「文書の示す範囲」と記す)と前記検索対象範囲が過不足なく一致するほど高くなるスコアを算出するスコア算出手段と、
    前記スコアの高い順に文書を出力する出力手段と、
    を有し、
    前記スコア算出手段は、
    前記文書の示す範囲のうち、前記検索対象範囲内に含まれる部分の面積A1を、該文書内の地名の範囲と該検索対象範囲内から重複を除いた面積A2で除することにより、前記スコアを算出する手段を含む
    ことを特徴とする文書検索装置。
  2. 利用者の地図表示機能を有する端末から指定された検索対象となる地図範囲内に関連する文書を検索する文書検索方法であって、
    地名情報付与手段が、文書データベースの各文書中に記載された地名表現を抽出し、地名の代表点の緯度経度と該地名の含意する範囲を特定し、該範囲と該文書の識別子を文書対応表記憶手段に格納する地名情報付与ステップと、
    スコア付け対象文書取得手段が、前記文書対応表記憶手段に格納されている範囲に前記利用者から入力された検索対象範囲と重なり合う範囲があるかを判定し、重なりがある場合は、重なりがある範囲内の地名の属する文書識別子を該文書対応表記憶手段より取得するスコア付け対象文書取得ステップと、
    スコア算出手段が、前記スコア付け対象文書取得手段で取得した前記文書識別子に対応する文書に現れる全地名のエリアの和(以下「文書の示す範囲」と記す)と前記検索対象範囲が過不足なく一致するほど高くなるスコアを算出するスコア算出ステップと、
    出力手段が、前記スコアの高い順に文書を出力する出力ステップと、
    を行い、
    前記スコア算出ステップにおいて、
    前記文書の示す範囲のうち、前記検索対象範囲内に含まれる部分の面積A1を、該文書内の地名の範囲と該検索対象範囲内から重複を除いた面積A2で除することにより、前記スコアを算出する
    ことを特徴とする文書検索方法。
  3. コンピュータを、
    請求項1記載の文書検索装置を構成する各手段として機能させるための文書検索プログラム。
JP2011252106A 2011-11-17 2011-11-17 文書検索装置及び方法及びプログラム Expired - Fee Related JP5689780B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011252106A JP5689780B2 (ja) 2011-11-17 2011-11-17 文書検索装置及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011252106A JP5689780B2 (ja) 2011-11-17 2011-11-17 文書検索装置及び方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013109426A JP2013109426A (ja) 2013-06-06
JP5689780B2 true JP5689780B2 (ja) 2015-03-25

Family

ID=48706142

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011252106A Expired - Fee Related JP5689780B2 (ja) 2011-11-17 2011-11-17 文書検索装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5689780B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060218114A1 (en) * 2005-03-25 2006-09-28 Microsoft Corporation System and method for location based search
US7444343B2 (en) * 2006-03-31 2008-10-28 Microsoft Corporation Hybrid location and keyword index
US20080172380A1 (en) * 2007-01-17 2008-07-17 Wojciech Czyz Information retrieval based on information location in the information space.
US20090063646A1 (en) * 2007-09-04 2009-03-05 Nixle, Llc System and method for collecting and organizing popular near real-time data in a virtual geographic grid
JP5087377B2 (ja) * 2007-11-29 2012-12-05 日本電信電話株式会社 地理的情報を含む文書群の検索装置、検索方法、検索プログラムおよびそのプログラムを記録した記録媒体

Also Published As

Publication number Publication date
JP2013109426A (ja) 2013-06-06

Similar Documents

Publication Publication Date Title
Shang et al. Personalized trajectory matching in spatial networks
US8903800B2 (en) System and method for indexing food providers and use of the index in search engines
US7444343B2 (en) Hybrid location and keyword index
JP5371480B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5221630B2 (ja) サーバ、情報管理方法、情報管理プログラム、及びそのプログラムを記録するコンピュータ読み取り可能な記録媒体
CN105874452B (zh) 从社交摘要中标记兴趣点
JP5065470B2 (ja) サーバ、情報管理方法、情報管理プログラム、及びそのプログラムを記録するコンピュータ読み取り可能な記録媒体
JP2010128806A (ja) 情報分析装置
US20190095536A1 (en) Method and device for content recommendation and computer readable storage medium
JP2007219655A (ja) 施設情報管理システム、施設情報管理方法および施設情報管理プログラム
JP2009134463A (ja) 地理的情報を含む文書群の検索装置、検索方法、検索プログラムおよびそのプログラムを記録した記録媒体
JP2015106234A (ja) コンテンツ情報の表示制御装置および表示制御方法
JP5265418B2 (ja) 観光ルート提供装置、観光ルート提供方法、及びプログラム
JP6562877B2 (ja) 情報提供装置、方法およびシステム
Ahlers Chapter 3 Local Web Search Examined
JP5639549B2 (ja) 情報検索装置及び方法及びプログラム
de Almeida et al. Top-k spatial keyword preference query
JP5689780B2 (ja) 文書検索装置及び方法及びプログラム
US8682577B2 (en) Map information processing apparatus, navigation system, and program
JP5801243B2 (ja) 特徴キーワード推薦装置及び方法及びプログラム
JP5826148B2 (ja) 図面管理サーバ及びこれを用いた図面管理システム
KR101233902B1 (ko) 서버, 사전 생성 방법, 및 사전 생성 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체
JP5670944B2 (ja) 文書要約装置及び方法及びプログラム
Deeksha et al. A spatial clustering approach for efficient landmark discovery using geo-tagged photos
JP5647090B2 (ja) クエリ推薦装置及び方法及びプログラム

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131004

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140715

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150129

R150 Certificate of patent or registration of utility model

Ref document number: 5689780

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees