JP5620896B2 - 文書検索装置及び方法及びプログラム - Google Patents

文書検索装置及び方法及びプログラム Download PDF

Info

Publication number
JP5620896B2
JP5620896B2 JP2011220544A JP2011220544A JP5620896B2 JP 5620896 B2 JP5620896 B2 JP 5620896B2 JP 2011220544 A JP2011220544 A JP 2011220544A JP 2011220544 A JP2011220544 A JP 2011220544A JP 5620896 B2 JP5620896 B2 JP 5620896B2
Authority
JP
Japan
Prior art keywords
place name
name
place
hierarchy
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011220544A
Other languages
English (en)
Other versions
JP2013080405A (ja
Inventor
宜仁 安田
宜仁 安田
正彬 西野
正彬 西野
義昌 小池
義昌 小池
良治 片岡
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011220544A priority Critical patent/JP5620896B2/ja
Publication of JP2013080405A publication Critical patent/JP2013080405A/ja
Application granted granted Critical
Publication of JP5620896B2 publication Critical patent/JP5620896B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • G06F17/30

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書検索装置及び方法及びプログラムに係り、特に、文書集合の中から文書を検索するための文書検索装置及び方法及びプログラムに関する。
インターネットから得られる情報等、大規模な文書を対象として、キーワードと興味対象の地理上の場所を入力として与えることにより、地理上の特定の場所に関連し、しかも、与えられたキーワードと関連しているような文書を検索するような文書検索が知られている(例えば、特許文献1)参照。
しかし、上記のような検索手法を実現するためには、文書と関連する地理範囲や座標を解析して、それらの地理範囲や座標を保持した情報(以下、「解析済み地理情報」と記す)を保持する必要があり、検索対象となる文書が限られてしまうという問題がある。
これに対し、入力されたキーワードからキーワードに関連する文書検索技術が従来より知られている(例えば、非特許文献1参照)。このようなキーワードのみから検索を行うことができる方式は現在広く普及しており、大量の文書が検索対象としてインデクスされているのが一般的である。
このようなキーワードのみに基づく検索エンジンを用いて、地理上の特定の場所に関連し、しかも与えられたキーワードと関連しているような文書を検索する方法としては、与えられた座標を対応する地名に変換し、検索キーワードにこの地名を追加して検索を行うということが考えられる。
特開2009-134463号公報
「分散型高速情報収集/全文検索システムInfoBee/Evangelist」、竹野浩、井上孝史、NTT R&D, vol. 52, no. 2, 2003, pp 78-84.
しかしながら、上記の非特許文献1のような検索を行う場合には、以下のような問題がある。まず、ある地点に対応する地名表現は多様であり、例えば、「東京都千代田区大手町2−3−5」という地名に対して、「東京都千代田区大手町」や「東京都」といった地名も、その地点を包含している。前述の方法のように単純に正規の地名のみを追加した検索によれば、文書中でそれ以外の地名表現によって言及しているような文書は検索対象から漏れてしまうという問題があった。
また、可能な全ての地名表現を加えた場合、例えば、上記のような「東京都千代田区大手町2−3−5」に関連した文書を探している利用者に対して、「東京都」といった語を検索対象として加えてしまっては関連性の薄い不適合な文書が多数検索されてしまうことになってしまう。
さらに、地名は正規の地名で記述しない場合、曖昧性を持つ場合がある。例えば、上記の場合、「大手町」という表現だけであれば、必ずしも「東京都千代田区大手町」とは限らない。このような曖昧性を考慮せずに地名を検索対象として加えてしまっては、関係ない地名と関連した不適合な文書が多数検索されてしまうことになってしまう。
本発明は、上記の点に鑑みなされたもので、キーワードと場所の双方に関連する文書を検索するような文書検索において、解析済みの地理情報がなくても地理的関連のある文書検索が可能となり、検索漏れや不適合な文書を削減することが可能な文書検索装置及び方法及びプログラムを提供することを目的とする。
上記の課題を解決するため、本発明(請求項1)は、地名として適したものを検索するための文書検索装置であって、
地名と広い地域ほど値が大きく狭い地域ほど値が小さくなるような該地名の知名度を示した地名知名度記憶手段と、
地名と該地名を構成する階層を格納した地名記憶手段と、
入力された都道府県名から丁目番地までを含む正規地名に基づいて前記地名記憶手段を参照して、該正規地名の階層表現を取得し、該階層表現の下位の地名の知名度を前記地名知名度記憶手段から取得し、所定の閾値以下の知名度の地名を除き、該正規地名の上位の階層を省略しても一意であれば該上位の階層の地名部分を省略し、上位の階層の地名部分を省略した地名の知名度が、他の地名の知名度の和よりも大きければその地名を検索対象として検索する地名抽出手段と、
入力されたキーワードを含み、前記地名抽出手段で抽出された地名を少なくとも一つ含むような文書を検索する検索手段と、を有する。
また、本発明(請求項2)は、前記地名抽出手段において、
入力された座標または地理範囲から、対応する都道府県名から丁目番地までを含む正規地名を取得する正規地名取得手段と、
前記正規地名に基づいて前記地名記憶手段を参照し、該地名の階層を取得し、最下位の階層を除いた地名に基づいて前記地名知名度記憶手段を参照し、該地名に対応する知名度が所定の閾値未満であるかを判定する処理を、該地名に階層がなくなるまで、または、閾値以上になるまで繰り返し、その時点における地名を候補リストに追加する下位省略地名展開手段と、
前記地名記憶手段に、前記候補リストの地名の最上位の階層を除いた地名Aを含む地名がない場合は、該地名Aを該出力リストに加え、ある場合は、曖昧さがあると判断し、該地名Aについて最上位階層から記述した語の知名度aと、それ以外の語の知名度bを取得し、該知名度bの和が該知名度aより小さければ該地名Aを検索語として出力リストに追加する処理を、地名階層がなくなるまで、または、曖昧さがあり、該知名度bの和が該知名度a以上となるまで、該候補リストの地名全てに対して繰り返し、該出力リストを出力する上位省略地名展開手段と、を含む。
本発明によれば、キーワードと場所の双方に関連する文書を検索するような文書検索において、専用の解析結果(解析済み地理情報)がなくても地理的関連のある文書検索が可能となり、単純に正規に地名を検索語として加えることに比べて検索漏れを減らすことができ、不要な地名を検索語として加えないため、検索結果から不適合な文書を減らすことができる。
本発明の一実施の形態における文書検索装置の構成図である。 本発明の一実施の形態における地名知名度データベースの例である。 本発明の一実施の形態における地名辞書の例である。 本発明の一実施の形態における動作の概要を示すフローチャートである。 本発明の一実施の形態における下位省略地名展開部のフローチャートである。 本発明の一実施の形態における上位省略地名展開部のフローチャートである。
以下図面と共に、本発明の実施の形態を説明する。
図1は、本発明の一実施の形態における文書検索装置の構成を示す。
同図に示す文書検索装置は、地名知名度データベース101、地名語辞書102、正規地名取得部110、下位省略地名展開部120、上位省略地名展開部130、検索部140から構成される。
正規地名取得部110には、キーワード、地理座標、地理範囲あるいは正規の地名の2つの情報が入力され、また、検索部140からは入力と関連する文書が出力される。
地名知名度データベース101とは、地名の知名度を示したデータベースであり、例えば、職業別電話帳の店舗の住所一覧において、当該地方と前方一致する店舗の数等を記録することによって構成する。なお、職業別電話帳の店舗数によらずとも、知名度を示すと考えられるような情報、例えば、人口密度や道路の本数等を用いたり、それらの情報の重み付き平均とすることも可能である。その例を図2に示す。
地名語辞書102は、図3に示すような地名の一覧を保持した辞書であり、地名と、その地名を構成する階層が分かる形で記述された表現を記録したものである。
なお、地名知名度データベース101、地名語辞書102は、ハードディスクのような記録媒体に格納されるものとする。
以下、文書検索装置の各構成要素の動作を説明する。
図4は、本発明の一実施の形態における動作の概要を示すフローチャートである。
ステップ1) 正規地名取得部110は、装置へのキーワード以外の入力が、座標や地理範囲である場合、その座標や地理範囲に対する正規の地名を取得する。正規の地名とは、都道府県名から丁目番地までを漏れなく記した表現である。なお、入力が地理範囲である場合は、その地理範囲の中で共有されている地名の範囲とする。これには、従来から知られている、地名と地名の代表地点を記してあるような辞書を参照する方法によって実現可能である。
ステップ2) 下位省略地名展開部120は、正規地名取得部110、あるいは、装置への入力として与えられた正規地名を入力として、以下の処理により、地名の下位階層を省略した地名を検索対象に加えてもよいかどうかを判定し、検索対象として加えてよいと判定した語のリストを出力する。当該下位省略地名展開部120の動作を図5に示す。
以下、下位省略地名展開部120へ入力された正規地名が「石川県石川郡野々市町新庄1丁目85」である場合について説明する。入力地名は地名辞書102により、「石川県;石川郡;野々市町;新庄:1丁目;85」という階層があるとする。
ステップ101) 地名リストを初期化し、入力地名を対象地名とする。
ステップ102) 対象地名(対象語)をメモリ(図示せず)上の地名リストに追加する。
ステップ103) 対象地名に階層がある場合はステップ104に移行し、ない場合は、ステップ106に移行する。
ステップ104) 上記の地名から最下位の階層(「85」)を除く。
ステップ105) 最下位の階層を除いた「石川県;石川郡;野々市町;新庄:1丁目」について、地名知名度データベース101を参照して得られた知名度が事前に定めた知名度閾値Tf未満かどうかを判定する。閾値未満であれば、「石川県;石川郡;野々市町;新庄:1丁目」を出力リストに追加する。同様に、石川県;石川郡;野々市町;新庄」について判定し、その地名度が知名度閾値未満かどうかを判定し、地名階層がなくなるまで、あるいは、知名度が知名度閾値以上となるまで繰り返す。
上記の結果得られた地名リストを出力する。
ステップ3) 上位階層地名展開部130は、下位省略地名展開部120より得られた地名リストを入力として、このリスト中の地名それぞれについて、図6に示す処理により、地名上位階層を省略した地名を検索対象に加えてもよいかどうかを判定する。
以下、判定対象の地名が「東京都千代田区永田町」である場合について説明する。
ステップ201) 出力リストを初期化する。
ステップ202) 下位省略地名展開部120から取得した地名リストの地名をメモリ(図示せず)上の出力リストに加える。
ステップ203) 最上位に階層(「東京都」)を除いた「千代田区永田町」について、地名辞書102を参照し、地名階層中に「千代田区永田町」を含むような地名があるかどうかを調べる。ある場合はステップ204に移行し、ない場合、すなわち、曖昧な地名でない場合は出力リストに加える。
ステップ204) 「千代田区永田町」について最上位の階層(「千代田区」)を除いた「永田町」について、地名辞書102を参照し、曖昧かどうかを調べる。曖昧である場合はステップ206に移行し、曖昧でない場合はステップ202に戻り、「永田町」を出力リストに加える。
ステップ205) 現在対象となっている語について、最上位階層から記述した語(この場合「東京都千代田区永田町」)の知名度ftを地名知名度データベース101から取得する。曖昧さの原因となっている他の語についても同様に知名度を取得し、これらの知名度の合計値sfを算出する。もし、ft>sfであればステップ202に移行する。この場合、ステップ202において、対象語を検索語として加えることは、曖昧さによって検索結果として出現する不適合文書の増加よりは、加えることによって検索結果として出現する適合文書の増加の利点が大きいと判断し、出力リストに加える。
ステップ207) 上記の手順を地名階層がなくなるまで、あるいは、途中で曖昧、かつ、知名度が低いと判定されるまで繰り返し、上記の手順を下位省略地名展開部120より得られた地名リストの全てについて行った結果、得られた出力リストを検索部140に出力する。
ステップ4) 検索部140は、従来から存在する既存のキーワードを入力とする文書検索装置(図示せず)を用いて、上位省略地名展開部130によって得られた出力リストと、装置へ入力されたキーワードのうち、キーワードを含み、かつ、出力リスト中の地名の少なくとも一つ含むような文書を検索する。
なお、上記の図1の構成要素の動作をプログラムとして構築し、文書検索装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
101 地名知名度データベース
102 地名語辞書
110 正規地名取得部
120 下位省略地名展開部
130 上位省略地名展開部
140 検索部

Claims (5)

  1. 地名として適したものを検索するための文書検索装置であって、
    地名と広い地域ほど値が大きく狭い地域ほど値が小さくなるような該地名の知名度を示した地名知名度記憶手段と、
    地名と該地名を構成する階層を格納した地名記憶手段と、
    入力された都道府県名から丁目番地までを含む正規地名に基づいて前記地名記憶手段を参照して、該正規地名の階層表現を取得し、該階層表現の下位の地名の知名度を前記地名知名度記憶手段から取得し、所定の閾値以下の知名度の地名を除き、該正規地名の上位の階層を省略しても一意であれば該上位の階層の地名部分を省略し、上位の階層の地名部分を省略した地名の知名度が、他の地名の知名度の和よりも大きければその地名を検索対象として抽出する地名抽出手段と、
    入力されたキーワードを含み、前記地名抽出手段で抽出された地名を少なくとも一つ含むような文書を検索する検索手段と、
    を有することを特徴とする文書検索装置。
  2. 前記地名抽出手段は、
    入力された座標または地理範囲から、対応する都道府県名から丁目番地までを含む正規地名を取得する正規地名取得手段と、
    前記正規地名に基づいて前記地名記憶手段を参照し、該地名の階層を取得し、最下位の階層を除いた地名に基づいて前記地名知名度記憶手段を参照し、該地名に対応する知名度が所定の閾値未満であるかを判定する処理を、該地名に階層がなくなるまで、または、閾値以上になるまで繰り返し、その時点における地名を候補リストに追加する下位省略地名展開手段と、
    前記地名記憶手段に、前記候補リストの地名の最上位の階層を除いた地名Aを含む地名がない場合は、該地名Aを該出力リストに加え、ある場合は、曖昧さがあると判断し、該地名Aについて最上位階層から記述した語の知名度aと、それ以外の語の知名度bを取得し、該知名度bの和が該知名度aより小さければ該地名Aを検索語として出力リストに追加する処理を、地名階層がなくなるまで、または、曖昧さがあり、該知名度bの和が該知名度a以上となるまで、該候補リストの地名全てに対して繰り返し、該出力リストを出力する上位省略地名展開手段と、
    を含む請求項1記載の文書検索装置。
  3. 地名として適したものを検索するための文書検索方法であって、
    地名と広い地域ほど値が大きく狭い地域ほど値が小さくなるような該地名の知名度を示した地名知名度記憶手段と、
    地名と該地名を構成する階層を格納した地名記憶手段と、を有する装置において、
    地名抽出手段が、入力された都道府県名から丁目番地までを含む正規地名に基づいて前記地名記憶手段を参照して、該正規地名の階層表現を取得し、該階層表現の下位の地名の知名度を前記地名知名度記憶手段から取得し、所定の閾値以下の知名度の地名を除き、該正規地名の上位の階層を省略しても一意であれば該上位の階層の地名部分を省略し、上位の階層の地名部分を省略した地名の知名度が、他の地名の知名度の和よりも大きければその地名を検索対象として抽出する地名抽出ステップと、
    検索手段が、入力されたキーワードを含み、前記地名抽出ステップで抽出された地名を少なくとも一つ含むような文書を検索する検索ステップと、
    を行うことを特徴とする文書検索方法。
  4. 前記地名抽出ステップにおいて、
    正規地名取得手段が、入力された座標または地理範囲から、対応する都道府県名から丁目番地までを含む正規地名を取得する正規地名取得ステップと、
    下位省略地名展開手段が、前記正規地名に基づいて前記地名記憶手段を参照し、該地名の階層を取得し、最下位の階層を除いた地名に基づいて前記地名知名度記憶手段を参照し、該地名に対応する知名度が所定の閾値未満であるかを判定する処理を、該地名に階層がなくなるまで、または、閾値以上になるまで繰り返し、その時点における地名を候補リストに追加する下位省略地名展開ステップと、
    上位省略地名展開手段が、前記地名記憶手段に、前記候補リストの地名の最上位の階層を除いた地名Aを含む地名がない場合は、該地名Aを該出力リストに加え、ある場合は、曖昧さがあると判断し、該地名Aについて最上位階層から記述した語の知名度aと、それ以外の語の知名度bを取得し、該知名度bの和が該知名度aより小さければ該地名Aを検索語として出力リストに追加する処理を、地名階層がなくなるまで、または、曖昧さがあり、該知名度bの和が該知名度a以上となるまで、該候補リストの地名全てに対して繰り返し、該出力リストを出力する上位省略地名展開ステップと、
    を含む請求項3記載の文書検索方法。
  5. コンピュータを、
    請求項1または2に記載の文書検索装置の各手段として機能させるための文書検索プログラム。
JP2011220544A 2011-10-04 2011-10-04 文書検索装置及び方法及びプログラム Expired - Fee Related JP5620896B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011220544A JP5620896B2 (ja) 2011-10-04 2011-10-04 文書検索装置及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011220544A JP5620896B2 (ja) 2011-10-04 2011-10-04 文書検索装置及び方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013080405A JP2013080405A (ja) 2013-05-02
JP5620896B2 true JP5620896B2 (ja) 2014-11-05

Family

ID=48526720

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011220544A Expired - Fee Related JP5620896B2 (ja) 2011-10-04 2011-10-04 文書検索装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5620896B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002334096A (ja) * 2001-05-11 2002-11-22 Hitachi Ltd 携帯端末に対する情報提供システム
JP2010146030A (ja) * 2007-03-29 2010-07-01 Access Co Ltd 検索システム、携帯型情報機器、検索プログラム
JP5174279B2 (ja) * 2010-03-26 2013-04-03 楽天株式会社 検索システム、検索方法、検索プログラム及び記録媒体

Also Published As

Publication number Publication date
JP2013080405A (ja) 2013-05-02

Similar Documents

Publication Publication Date Title
JP5296147B2 (ja) 地理的関連性に従う文書のインデックス付け
KR100930455B1 (ko) 쿼리별 검색 컬렉션 생성 방법 및 시스템
KR100903961B1 (ko) 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템
JP5616444B2 (ja) 文書インデックス化およびデータクエリングのための方法およびシステム
JP5087377B2 (ja) 地理的情報を含む文書群の検索装置、検索方法、検索プログラムおよびそのプログラムを記録した記録媒体
JP2009110513A (ja) ワードの類似性を用いたオントロジーの自動生成
JP2009129323A (ja) 同義語抽出装置
JP4324650B2 (ja) 情報資源検索装置、情報資源検索方法及び情報資源検索プログラム
JP4237813B2 (ja) 構造化文書管理システム
Li et al. A probabilistic topic-based ranking framework for location-sensitive domain information retrieval
US20140280050A1 (en) Term searching based on context
JP2010123036A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP5620896B2 (ja) 文書検索装置及び方法及びプログラム
Manguinhas et al. A geo-temporal web gazetteer integrating data from multiple sources
JP2011159100A (ja) 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム
Calazans Campelo et al. Geographic scope modeling for web documents
JP6079207B2 (ja) キーワード提示プログラム、キーワード提示方法及びキーワード提示装置
JP5589009B2 (ja) 推薦クエリ抽出装置及び方法及びプログラム
JP5199968B2 (ja) キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム
Katragadda et al. An unsupervised approach to identify location based on the content of user’s tweet history
JP2010250389A (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
CN107818091B (zh) 文档处理方法及装置
JP2019008477A (ja) 判別プログラム、判別装置及び判別方法
JP5670944B2 (ja) 文書要約装置及び方法及びプログラム
JP5303500B2 (ja) 文書検索装置及び方法及びプログラム

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131004

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140611

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140617

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140818

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140916

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140919

R150 Certificate of patent or registration of utility model

Ref document number: 5620896

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees