JP5639549B2 - 情報検索装置及び方法及びプログラム - Google Patents

情報検索装置及び方法及びプログラム Download PDF

Info

Publication number
JP5639549B2
JP5639549B2 JP2011180966A JP2011180966A JP5639549B2 JP 5639549 B2 JP5639549 B2 JP 5639549B2 JP 2011180966 A JP2011180966 A JP 2011180966A JP 2011180966 A JP2011180966 A JP 2011180966A JP 5639549 B2 JP5639549 B2 JP 5639549B2
Authority
JP
Japan
Prior art keywords
document
list
expression
specific expression
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011180966A
Other languages
English (en)
Other versions
JP2013045182A (ja
Inventor
尚樹 藤田
尚樹 藤田
宜仁 安田
宜仁 安田
良治 片岡
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011180966A priority Critical patent/JP5639549B2/ja
Publication of JP2013045182A publication Critical patent/JP2013045182A/ja
Application granted granted Critical
Publication of JP5639549B2 publication Critical patent/JP5639549B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報検索装置及び方法及びプログラムに係り、特に、検索者が求める情報を取得するまでの時間を短縮するために、入力された検索語に対して追加語を推薦する装置及び方法、プログラムに関するものである。その中でも特に、検索者が地理的範囲を地図の表示範囲や緯度経度情報入力によって指定した上で、その範囲内に関係する文書を検索するサービスに関する。
インターネット上の文書を検索する検索エンジンなどでは、ある検索者が入力した検索語(検索条件)に対して、全利用者の検索履歴を解析し、最適な検索語の推薦を行うことが可能である。特許文献1では、検索語と検索結果のページの類似性から入力された検索語と関連した検索語を推薦している。また、非特許文献1では、利用者が入力した検索語と選択した文書の内容を分析することで、検索語に追加する語を抽出している。
また、非特許文献2では文書内のテキストを解析して地名情報を特定する手法が提案されており、この結果を用いることで各文書がどの地域に関係しているかを解析することが可能である。これを用いることで、予め用意しておいたキーワード集合がどの地域に関係付けられた文書に存在しているか解析することにより、特定の地域で推薦するキーワードを抽出することが可能と考えられる。具体的な手法としては、図1に示すように、地域を東西・南北それぞれ200mや緯度経度で8秒毎などの固定の値で区切り(メッシュと呼ぶ)、メッシュ毎に関連する文書集合中の各キーワードの頻度を分析する。複数のメッシュを含むある地域において、あるキーワードの頻度が全体の頻度分布中で特徴的に高い場合、そのキーワードは当該地域での推薦すべきキーワードであると判定できる。特徴的であるかは標準偏差やポアソン確率を用いることで判定可能である。
特開2011−103020号公報
Cui, H., Wen, J.-R., Nie, J.-Y., and Ma, W.-Y.: Probabilistic Query Expansion Using Query Logs. In Proceedings of WWW'02, pp.325--332 (2002) 平野 徹,他:地理的距離と有名度を用いた地名曖昧性解消 情報処理学会全国大会2008.
従来技術(特許文献1、非特許文献1)により検索履歴を解析することで検索者が入力した検索語に追加するキーワードを抽出できるが、検索履歴には地理的な関連性情報が含まれないため、地理に合わせたキーワードを推薦することはできない。また、地理に合わせて事前に用意しておいたキーワードを提示することは従来技術で可能と考えられるが(非特許文献2)、検索者が入力した検索語に関連した語を提示することはできない。
本発明は、上記の点に鑑みなされたもので、地域に合わせてユーザが入力した検索語に追加するキーワードを推薦し、検索者が容易に情報に辿り着くことを可能とし、検索に要する時間を短縮可能な情報検索装置及び方法及びプログラムを提供することを目的とする。
上記の課題を解決するため、本発明(請求項1)は、地理に応じた推薦語を決定するための情報検索装置であって、
文書から文書番号と固有表現及び該固有表現を抽出し、固有表現リストを生成し、該文書から地理表現を抽出し、該地理上の区画の地名を含む地名リストを生成、該固有表現同士の共起している共起頻度を求め、共起固有表現リストを生成し、それらのリストを記憶手段に格納する事前処理手段と、
検索語と指定の地理範囲を取得し、該地理範囲に該当する区画を求め、前記記憶手段から該区画に対応する文書リストを取得して、該文書リスト内の固有表現の頻度と固有表現同士の共起頻度に基づいて推薦語を決定する推薦語抽出処理手段と、
を有し、
前記事前処理手段は、
文書から抽出した地名を含む固有表現と該固有表現の頻度の組合せに文書番号を対応付け、前記固有表現リストとして文書情報記憶手段に格納し、該固有表現のうち、地名からなる地名リストを生成する固有表現情報抽出手段と、
前記地名リストの地名から緯度経度情報を取得し、文書番号と組にして地理文書対応記憶手段に格納する地理情報解析手段と、
前記文書情報記憶手段の固有表現毎の全文書における共起頻度を算出し全体共起頻度記憶手段に格納する全体共起頻度計算手段と、
を含み、
前記推薦語抽出処理手段は、
検索者から入力された検索語と地図の地理範囲を取得する範囲情報取得手段と、
前記地理文書対応記憶手段から前記地理範囲に対応する文書番号を抽出する範囲内文書取得手段と、
前記範囲内文書取得手段で抽出された前記文書番号に対応する文書に出現する固有表現リストを前記文書情報記憶手段から取得して、前記検索語と該検索語が含まれる全ての固有表現リストの固有表現と該固有表現の頻度の組を固有表現毎に集計する範囲内共起頻度計算手段と、
前記検索語と前記固有表現リストの組合せを取得し、該固有表現リストに含まれる固有表現の頻度と、前記全体共起頻度記憶手段から該検索語に基づいて取得した固有表現の全文書における共起頻度よりポアソン確率を求め、該ポアソン確率の高い順に前記推薦語を抽出する推薦語抽出手段と、
含む
発明(請求項)は、地理に応じた推薦語を決定するための情報検索装置であって、
文書から文書番号と固有表現及び該固有表現を抽出し、固有表現リストを生成し、該文書から地理表現を抽出し、該地理上の区画の地名を含む地名リストを生成、該固有表現同士の共起している共起確率を求め、共起固有表現リストを生成し、それらのリストを記憶手段に格納する事前処理手段と、
検索語と指定の地理範囲を取得し、該地理範囲に該当する区画を求め、前記記憶手段から該区画に対応する文書リストを取得して、該文書リスト内の固有表現の頻度と固有表現同士の共起確率に基づいて推薦語を決定する推薦語抽出処理手段と、
を有し、
前記事前処理手段は、
文書から抽出した地名を含む固有表現と該固有表現の頻度の組合せに文書番号を対応付け、前記固有表現リストとして文書情報記憶手段に格納し、該固有表現のうち、地名からなる地名リストを生成する固有表現情報抽出手段と、
前記地名リストの地名から緯度経度情報を取得し、文書番号と組にして地理文書対応記憶手段に格納する地理情報解析手段と、
前記文書情報記憶手段の固有表現毎の全文書における共起確率を算出し全体共起確率記憶手段に格納する全体共起確率計算手段と、
含み
前記推薦語抽出処理手段は、
検索者から入力された検索語と地図の地理範囲を取得する範囲情報取得手段と、
前記地理文書対応記憶手段から前記地理範囲に対応する文書番号を抽出する範囲内文書取得手段と、
前記範囲内文書取得手段で抽出された前記文書番号に対応する文書に出現する固有表現リストを前記文書情報記憶手段から取得して、前記検索語と該検索語が含まれる全ての固有表現リストの固有表現と該固有表現の共起確率の組を固有表現毎に集計する範囲内共起確率計算手段と、
前記検索語と前記固有表現リストの組合せを取得し、該固有表現リストに含まれる固有表現の共起確率と、前記全体共起確率記憶手段から該検索語に基づいて取得した固有表現の全文書における共起確率の差が大きい上位N語を前記推薦語として抽出する推薦語抽出手段と、を含む
本発明(請求項)は、地理に応じた推薦語を決定するための情報検索方法であって、
事前処理手段が、文書から文書番号と固有表現及び該固有表現を抽出し、固有表現リストを生成し、該文書から地理表現を抽出し、該地理上の区画の地名を含む地名リストを生成し、該固有表現同士の共起している共起頻度を求め、共起固有表現リストを生成し、それらのリストを記憶手段に格納する事前処理ステップと、
推薦語抽出処理手段が、検索語と指定の地理範囲を取得し、該地理範囲に該当する区画を求め、前記記憶手段から該区画に対応する文書リストを取得して、該文書リスト内の固有表現の頻度と固有表現同士の共起頻度に基づいて推薦語を決定する推薦語抽出処理ステップと、
を行い、
前記事前処理ステップにおいて、
文書から抽出した地名を含む固有表現と該固有表現の頻度の組合せに文書番号を対応付け、前記固有表現リストとして文書情報記憶手段に格納し、該固有表現のうち、地名からなる地名リストを生成する固有表現情報抽出ステップと、
前記地名リストの地名から緯度経度情報を取得し、文書番号と組にして地理文書対応記憶手段に格納する地理情報解析ステップと、
前記文書情報記憶手段の固有表現毎の全文書における共起頻度を算出し全体共起頻度記憶手段に格納する全体共起頻度計算ステップと、
を含み、
前記推薦語抽出処理ステップにおいて、
検索者から入力された検索語と地図の地理範囲を取得する範囲情報取得ステップと、
前記地理文書対応記憶手段から前記地理範囲に対応する文書番号を抽出する範囲内文書取得ステップと、
前記範囲内文書取得ステップで抽出された前記文書番号に対応する文書に出現する固有表現リストを前記文書情報記憶手段から取得して、前記検索語と該検索語が含まれる全ての固有表現リストの固有表現と該固有表現の頻度の組を固有表現毎に集計する範囲内共起頻度計算ステップと、
前記検索語と前記固有表現リストの組合せを取得し、該固有表現リストに含まれる固有表現の頻度と、前記全体共起頻度記憶手段から該検索語に基づいて取得した固有表現の全文書における共起頻度よりポアソン確率を求め、該ポアソン確率の高い順に前記推薦語を抽出する推薦語抽出ステップと、を含む
発明(請求項)は、地理に応じた推薦語を決定するための情報検索方法であって、
事前処理手段が、文書から文書番号と固有表現及び該固有表現を抽出し、固有表現リストを生成し、該文書から地理表現を抽出し、該地理上の区画の地名を含む地名リストを生成し、該固有表現同士の共起している共起確率を求め、共起固有表現リストを生成し、それらのリストを記憶手段に格納する事前処理ステップと、
推薦語抽出処理手段が、検索語と指定の地理範囲を取得し、該地理範囲に該当する区画を求め、前記記憶手段から該区画に対応する文書リストを取得して、該文書リスト内の固有表現の頻度と固有表現同士の共起確率に基づいて推薦語を決定する推薦語抽出処理ステップと、
を行い、
前記事前処理ステップにおいて、
文書から抽出した地名を含む固有表現と該固有表現の頻度の組合せに文書番号を対応付け、前記固有表現リストとして文書情報記憶手段に格納し、該固有表現のうち、地名からなる地名リストを生成する固有表現情報抽出ステップと、
前記地名リストの地名から緯度経度情報を取得し、文書番号と組にして地理文書対応記憶手段に格納する地理情報解析ステップと、
前記文書情報記憶手段の固有表現毎の全文書における共起確率を算出し全体共起確率記憶手段に格納する全体共起確率計算ステップと、
含み
前記推薦語抽出処理ステップにおいて、
検索者から入力された検索語と地図の地理範囲を取得する範囲情報取得ステップと、
前記地理文書対応記憶手段から前記地理範囲に対応する文書番号を抽出する範囲内文書取得ステップと、
前記範囲内文書取得ステップで抽出された前記文書番号に対応する文書に出現する固有表現リストを前記文書情報記憶手段から取得して、前記検索語と該検索語が含まれる全ての固有表現リストの固有表現と該固有表現の共起確率の組を固有表現毎に集計する範囲内共起確率計算ステップと、
前記検索語と前記固有表現リストの組合せを取得し、該固有表現リストに含まれる固有表現の共起確率と、前記全体共起確率記憶手段から該検索語に基づいて取得した固有表現の全文書における共起確率の差が大きい上位N語を前記推薦語として抽出する推薦語抽出ステップと、を含む。
本発明(請求項)は、コンピュータを、
請求項1または2に記載の情報検索装置の各手段として機能させるための情報検索プログラムである。
上記のように、本発明によれば、地理を考慮して検索者が入力した検索語に追加するキーワードを推薦することで、検索者が探している情報(推薦語)を容易に得られるようになる。
従来技術における地域ごとの特徴語抽出を示す図である。 本発明の第1の実施の形態におけるインタフェースのイメージである。 本発明の第1の実施の形態における事前処理部の構成図である。 本発明の第1の実施の形態における文書情報テーブル例である。 本発明の第1の実施の形態における地理文書対応テーブルの例である。 本発明の第1の実施の形態における全体共起頻度テーブルの例である。 本発明の第1の実施の形態における推薦語抽出処理部の構成図である。 本発明の第2の実施の形態における事前処理部の構成図である。 本発明の第2の実施の形態における推薦語抽出処理部の構成図である。 本発明の第2の実施の形態における全体共起確立テーブルの例である。 本発明の効果を示す図である。
以下図面と共に、本発明の実施の形態を説明する。
[第1の実施の形態]
本発明を実施する際の処理は、「事前処理」と「推薦語抽出処理」に分けられる。「事前処理」は、文書収集時やシステム構築時に実施され、「推薦語抽出処理」に必要なテーブル類を作成するものである。
「推薦語抽出処理」は、「事前処理」で作成しておいたテーブルと検索者が入力した検索語、表示している地図の範囲情報を用いて推薦語を抽出する処理である。
以降、「事前処理」と「推薦語抽出処理」を順に説明する。
但し、本発明を検索者に提供する具体的なインタフェースに関しては、図2に示すように、検索者が地理的範囲を地図の表示範囲や緯度経度情報入力によって指定した上で、その範囲内に関係する文書を検索するサービスとする。
最初に「事前処理」を行う事前処理部について説明する。
図3は、本発明の第1の実施の形態における事前処理部の構成を示す。
事前処理部10Aは、固有表現情報抽出部11A、地理情報解析部12A、全体共起頻度計算部13A、文書情報テーブル14A、地理文書対応テーブル15A、全体共起頻度テーブル16Aから構成される。
固有表現抽出部11Aは、文書のテキスト情報を解析して地名を含む固有表現を抽出する。抽出の際には、例えば、非特許文献2や特許文献「特開2010−128774号公報」等の手法を用いる。抽出された固有表現は文書内での出現頻度を合わせて固有表現リストとして、{(固有表現:頻度),…}のデータ形式に整形し、文書毎に固有の文書番号を入力順に付与して、文書番号と固有表現リストの組合せを図4に示す文書情報テーブル14Aに保存する。また、抽出された固有表現のうち、地名のみのリストである地名リストを作成して、文書番号と地名リストの組合せを地理情報解析部12Aに入力する。
地理情報解析部12Aは、固有表現情報抽出部11Aから入力される各(文書番号:地名リスト)の組合せに対して以下の処理を行う。
地名リストに含まれる各地名から緯度経度情報を取得する。取得する際には、インターネット上の地図サービス(google「登録商標」)のAPIを利用したり、国土交通省などの行政機関が作成しているデータベースを用いる。
各地名の緯度経度が含まれるメッシュ番号を計算する。メッシュ番号は、サービス提供エリアを南北8秒、東西8秒(度分秒単位)のメッシュに分割し、(日本の場合)南西端のメッシュを1番として、西に順に番号を付与していく。東端のメッシュまで番号を付与したら1つ北の行のメッシュを西から順に番号を引き続き付与し、北端の行まで繰り返す。
得られたメッシュ番号に対して当該文書番号を付与して内部記憶領域に保存する。
各(文書番号:地名リスト)の組み合わせで処理が完了すると、内部記憶領域に各メッシュに対して対応する文書番号リスト{文書番号,・・・}が保存されていることになる。そのメッシュ番号と文書番号リストの組み合わせを図5に示す地理文書対応テーブル15Aに保存する。
全体共起頻度計算部13Aは、文書情報テーブル14Aの各文書内で固有表現同士が共起しているかを計算し、全文書での共起頻度を合計して、固有表現毎に共起固有表現リスト{(固有表現:全体共起頻度),(固有表現:全体共起頻度),…}を作成し、図6に示すような全体共起頻度テーブル16Aに保存する。
ここで、固有表現w1に対する固有表現w2の全体共起頻度n(w1,w2)は下記の式(1)で表される。Dw1は固有表現w1を含む文書集合、tf(w2,d) はドキュメントd中の固有表現w2の頻度である。
Figure 0005639549
次に、「推薦語抽出処理」を行う推薦語抽出処理部について説明する。
図7は、本発明の第1の実施の形態における推薦語抽出処理部の構成を示す。
推薦語抽出処理部20Aは、メッシュ番号計算部21A、範囲内文書番号取得部22A、範囲内共起頻度計算部23A、推薦語抽出部24A、地理文書対応テーブル15A、文書情報テーブル14A、全体共起テーブル16Aから構成される。このうち、地理文書対応テーブル15A、文書情報テーブル14A、全体共起頻度テーブル16Aは、前述の事前処理部10で作成されたものである。
メッシュ番号計算部21Aは、検索者が入力手段を介して入力した検索語と地図の範囲情報を取得し、その範囲内に含まれるメッシュ番号を計算する。範囲情報とはユーザが検索時に表示している地図の南西端の緯度経度と北東端の緯度経度の組み合わせである。通常範囲内には複数のメッシュが含まれる。取得した検索語と計算したメッシュ番号リスト{メッシュ番号,メッシュ番号,・・・}を範囲内文書番号取得部22Aに入力する。
範囲内文書番号取得部22Aは、検索語とメッシュ番号リストの組み合わせを取得し、メッシュ番号リストに含まれるメッシュに含まれる文書の文書番号リストを地理文書対応テーブル15から取得し、1つの文書番号リストに重複無くまとめて検索語と共に範囲内共起頻度計算部23Aに入力する。
範囲内共起頻度計算部23Aは、検索語と文書番号リストの組み合わせを取得し、文書番号リストに含まれる各文書に出現する固有表現リストを文書番号に基づいて文書情報テーブル14Aから取得し、検索語が含まれている全ての固有表現リスト内の各要素(固有表現:頻度)を固有表現毎に合計し、頻度合計を含む1つの固有表現リストを作成する。取得した検索語と作成した固有表現リストを推薦語抽出部24Aに入力する。
推薦語抽出部24Aは、検索語と固有表現リストの組み合わせを取得し、固有表現リストに含まれる各固有表現について、その頻度情報と、全体共起頻度テーブル16Aから検索語をキーとして取得して取得した共起固有表現リスト{(固有表現:全体共起頻度),(固有表現:全体共起頻度), ・・・}の情報を用いてポアソン確率を計算する。ポアソン確率P(r)は下記式(2)で計算される。
Figure 0005639549
上記の式(2)中に用いられている各変数は下記の通りである。
・n:全文書数
・s:全文書内での当該固有表現が検索語と共起している頻度
・k:当該範囲内で検索語と共起している全固有表現の頻度
・r:当該範囲内での当該固有表現が検索語として共起している頻度
推薦語抽出部24Aでの計算において、各変数は次のように得られる。
・n:事前に設定しておく。(文書情報テーブル14Aのレコード数)
・s:全体共起頻度テーブル16から取得した共起固有表現リスト中の当該固有表現の全体共起頻度
・k:範囲内共起頻度計算部23Aから取得した固有表現リストに含まれる検索語を除く全ての固有表現の頻度の合計
・r:範囲内共起頻度計算部23Aから取得した固有表現リストに含まれる当該固有表現の頻度
上記で計算されたポアソン確率の高い順に10語(固定数の語)を推薦語リストとして出力する。
[第2の実施の形態]
上記の第1の実施の形態では、共起頻度を用いる例を示したが、共起頻度を共起確率とすることも可能である。
その場合、事前処理部10Aの「全体共起頻度計算部13A」と推薦語抽出処理部20Aの「範囲内共起頻度計算部23A」と「推薦語抽出部24A」を、図8、図9のように「全体共起確率計算部13B」、「範囲内共起確率計算部23B」、「推薦語抽出部24B」変更することで実現できる。
まず、事前処理部10Bの全体共起確率計算部13Bは、文書情報テーブル14Bの各文書内で固有表現同士が共起しているかを計算し、共起する確率を計算して、固有表現毎に共起固有表現リスト{(固有表現:全体共起確率),(固有表現:全体共起確率),・・・}を作成し、図10に示す全体共起確率テーブル16Bに保存する。
ここで、固有表現w1に対する固有表現w2の全体共起確率p(w1,w2)は下記の式(3)で表される。Dw1は固有表現w1を含む文書集合、
Figure 0005639549
は、固有表現w1と固有表現w2を含む文書集合である。
Figure 0005639549
次に、推薦語抽出処理部20Bの範囲内共起確率計算部23Bは、検索語と文書番号リストの組み合わせを取得し、文書番号リストに含まれる各文書に出現する固有表現リストを文書情報テーブル14Bから取得し、検索語が含まれている全固有表現リスト内の固有表現毎に出現する文書数を計算し、文書番号リストに含まれる文書数を用いて範囲内共起確率を計算する。計算した範囲内共起確率の情報を保持した固有表現リスト{(固有表現:範囲内共起確率),(固有表現:範囲内共起確率),・・・}を作成し、取得した検索語と共に推薦語抽出部24Bに入力する。
推薦語抽出部24Bは、検索語と固有表現リストの組み合わせを取得し、固有表現リストに含まれる各固有表現について、その範囲内共起確率情報と、全体共起確率テーブル16Bから検索語をキーとして取得して取得した共起固有表現リスト{(固有表現:全体共起確率),(固有表現:全体共起確率), ・・・}の情報を用いて特徴的な語を抽出する。ここで特徴的な語とは、その固有表現と範囲内共起確率と全体共起頻度の差が大きいものとし、差の大きい順に10語(固定数の語)を推薦語リストとして出力する。
上記のように、推薦キーワード自体の地域分布を用いずに、入力された検索語と地域ごとの共起頻度もしくは共起確率から推薦キーワードを抽出する。これにより、図11に示すように、入力された検索語「お土産」に対して、横浜では「シュウマイ」、三崎では「マグロ」が推薦キーワードとして抽出され、ユーザが入力した検索語に地域を考慮した語を推薦することが可能となる。
なお、上記の図3、図7、図8、図9の装置の構成要素の動作をプログラムとして抽出し、情報検索装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
10A,10B 事前処理部
11A,11B 固有表現情報抽出部
12A,12B 地理情報解析部
13A 全体共起頻度計算部
13B 全体共起確率計算部
14A,14B 文書情報テーブル
15A,15B 地理文書対応テーブル
16A 全体共起頻度テーブル
16B 全体共起確率テーブル
20A,20B 推薦語抽出処理部
21A,21B メッシュ番号計算部
22A,22B 範囲内文書番号取得部
23A 範囲内共起確率計算部
23B 範囲内共起確率計算部
24A,24B 推薦語抽出部

Claims (5)

  1. 地理に応じた検索語(以下「推薦語」と記す)を決定するための情報検索装置であって、
    文書から文書番号と固有表現及び該固有表現を抽出し、固有表現リストを生成し、該文書から地理表現を抽出し、該地理上の区画の地名を含む地名リストを生成、該固有表現同士の共起している共起頻度を求め、共起固有表現リストを生成し、それらのリストを記憶手段に格納する事前処理手段と、
    検索語と指定の地理範囲を取得し、該地理範囲に該当する区画を求め、前記記憶手段から該区画に対応する文書リストを取得して、該文書リスト内の固有表現の頻度と固有表現同士の共起頻度に基づいて推薦語を決定する推薦語抽出処理手段と、
    を有し、
    前記事前処理手段は、
    文書から抽出した地名を含む固有表現と該固有表現の頻度の組合せに文書番号を対応付け、前記固有表現リストとして文書情報記憶手段に格納し、該固有表現のうち、地名からなる地名リストを生成する固有表現情報抽出手段と、
    前記地名リストの地名から緯度経度情報を取得し、文書番号と組にして地理文書対応記憶手段に格納する地理情報解析手段と、
    前記文書情報記憶手段の固有表現毎の全文書における共起頻度を算出し全体共起頻度記憶手段に格納する全体共起頻度計算手段と、
    を有し、
    前記推薦語抽出処理手段は、
    検索者から入力された検索語と地図の地理範囲を取得する範囲情報取得手段と、
    前記地理文書対応記憶手段から前記地理範囲に対応する文書番号を抽出する範囲内文書取得手段と、
    前記範囲内文書取得手段で抽出された前記文書番号に対応する文書に出現する固有表現リストを前記文書情報記憶手段から取得して、前記検索語と該検索語が含まれる全ての固有表現リストの固有表現と該固有表現の頻度の組を固有表現毎に集計する範囲内共起頻度計算手段と、
    前記検索語と前記固有表現リストの組合せを取得し、該固有表現リストに含まれる固有表現の頻度と、前記全体共起頻度記憶手段から該検索語に基づいて取得した固有表現の全文書における共起頻度よりポアソン確率を求め、該ポアソン確率の高い順に前記推薦語を抽出する推薦語抽出手段と、
    含むことを特徴とする情報検索装置。
  2. 地理に応じた検索語(以下「推薦語」と記す)を決定するための情報検索装置であって、
    文書から文書番号と固有表現及び該固有表現を抽出し、固有表現リストを生成し、該文書から地理表現を抽出し、該地理上の区画の地名を含む地名リストを生成、該固有表現同士の共起している共起確率を求め、共起固有表現リストを生成し、それらのリストを記憶手段に格納する事前処理手段と、
    検索語と指定の地理範囲を取得し、該地理範囲に該当する区画を求め、前記記憶手段から該区画に対応する文書リストを取得して、該文書リスト内の固有表現の頻度と固有表現同士の共起確率に基づいて推薦語を決定する推薦語抽出処理手段と、
    を有し、
    前記事前処理手段は、
    文書から抽出した地名を含む固有表現と該固有表現の頻度の組合せに文書番号を対応付け、前記固有表現リストとして文書情報記憶手段に格納し、該固有表現のうち、地名からなる地名リストを生成する固有表現情報抽出手段と、
    前記地名リストの地名から緯度経度情報を取得し、文書番号と組にして地理文書対応記憶手段に格納する地理情報解析手段と、
    前記文書情報記憶手段の固有表現毎の全文書における共起確率を算出し全体共起確率記憶手段に格納する全体共起確率計算手段と、
    含み
    前記推薦語抽出処理手段は、
    検索者から入力された検索語と地図の地理範囲を取得する範囲情報取得手段と、
    前記地理文書対応記憶手段から前記地理範囲に対応する文書番号を抽出する範囲内文書取得手段と、
    前記範囲内文書取得手段で抽出された前記文書番号に対応する文書に出現する固有表現リストを前記文書情報記憶手段から取得して、前記検索語と該検索語が含まれる全ての固有表現リストの固有表現と該固有表現の共起確率の組を固有表現毎に集計する範囲内共起確率計算手段と、
    前記検索語と前記固有表現リストの組合せを取得し、該固有表現リストに含まれる固有表現の共起確率と、前記全体共起確率記憶手段から該検索語に基づいて取得した固有表現の全文書における共起確率の差が大きい上位N語を前記推薦語として抽出する推薦語抽出手段と、
    を含むことを特徴とする情報検索装置。
  3. 地理に応じた検索語(以下「推薦語」と記す)を決定するための情報検索方法であって、
    事前処理手段が、文書から文書番号と固有表現及び該固有表現を抽出し、固有表現リストを生成し、該文書から地理表現を抽出し、該地理上の区画の地名を含む地名リストを生成し、該固有表現同士の共起している共起頻度を求め、共起固有表現リストを生成し、それらのリストを記憶手段に格納する事前処理ステップと、
    推薦語抽出処理手段が、検索語と指定の地理範囲を取得し、該地理範囲に該当する区画を求め、前記記憶手段から該区画に対応する文書リストを取得して、該文書リスト内の固有表現の頻度と固有表現同士の共起頻度に基づいて推薦語を決定する推薦語抽出処理ステップと、
    を行い、
    前記事前処理ステップにおいて、
    文書から抽出した地名を含む固有表現と該固有表現の頻度の組合せに文書番号を対応付け、前記固有表現リストとして文書情報記憶手段に格納し、該固有表現のうち、地名からなる地名リストを生成する固有表現情報抽出ステップと、
    前記地名リストの地名から緯度経度情報を取得し、文書番号と組にして地理文書対応記憶手段に格納する地理情報解析ステップと、
    前記文書情報記憶手段の固有表現毎の全文書における共起頻度を算出し全体共起頻度記憶手段に格納する全体共起頻度計算ステップと、
    を含み、
    前記推薦語抽出処理ステップにおいて、
    検索者から入力された検索語と地図の地理範囲を取得する範囲情報取得ステップと、
    前記地理文書対応記憶手段から前記地理範囲に対応する文書番号を抽出する範囲内文書取得ステップと、
    前記範囲内文書取得ステップで抽出された前記文書番号に対応する文書に出現する固有表現リストを前記文書情報記憶手段から取得して、前記検索語と該検索語が含まれる全ての固有表現リストの固有表現と該固有表現の頻度の組を固有表現毎に集計する範囲内共起頻度計算ステップと、
    前記検索語と前記固有表現リストの組合せを取得し、該固有表現リストに含まれる固有表現の頻度と、前記全体共起頻度記憶手段から該検索語に基づいて取得した固有表現の全文書における共起頻度よりポアソン確率を求め、該ポアソン確率の高い順に前記推薦語を抽出する推薦語抽出ステップと、
    を含むことを特徴とする情報検索方法。
  4. 地理に応じた検索語(以下「推薦語」と記す)を決定するための情報検索方法であって、
    事前処理手段が、文書から文書番号と固有表現及び該固有表現を抽出し、固有表現リストを生成し、該文書から地理表現を抽出し、該地理上の区画の地名を含む地名リストを生成し、該固有表現同士の共起している共起確率を求め、共起固有表現リストを生成し、それらのリストを記憶手段に格納する事前処理ステップと、
    推薦語抽出処理手段が、検索語と指定の地理範囲を取得し、該地理範囲に該当する区画を求め、前記記憶手段から該区画に対応する文書リストを取得して、該文書リスト内の固有表現の頻度と固有表現同士の共起確率に基づいて推薦語を決定する推薦語抽出処理ステップと、
    を行い、
    前記事前処理ステップにおいて、
    文書から抽出した地名を含む固有表現と該固有表現の頻度の組合せに文書番号を対応付け、前記固有表現リストとして文書情報記憶手段に格納し、該固有表現のうち、地名からなる地名リストを生成する固有表現情報抽出ステップと、
    前記地名リストの地名から緯度経度情報を取得し、文書番号と組にして地理文書対応記憶手段に格納する地理情報解析ステップと、
    前記文書情報記憶手段の固有表現毎の全文書における共起確率を算出し全体共起確率記憶手段に格納する全体共起確率計算ステップと、
    含み
    前記推薦語抽出処理ステップにおいて、
    検索者から入力された検索語と地図の地理範囲を取得する範囲情報取得ステップと、
    前記地理文書対応記憶手段から前記地理範囲に対応する文書番号を抽出する範囲内文書取得ステップと、
    前記範囲内文書取得ステップで抽出された前記文書番号に対応する文書に出現する固有表現リストを前記文書情報記憶手段から取得して、前記検索語と該検索語が含まれる全ての固有表現リストの固有表現と該固有表現の共起確率の組を固有表現毎に集計する範囲内共起確率計算ステップと、
    前記検索語と前記固有表現リストの組合せを取得し、該固有表現リストに含まれる固有表現の共起確率と、前記全体共起確率記憶手段から該検索語に基づいて取得した固有表現の全文書における共起確率の差が大きい上位N語を前記推薦語として抽出する推薦語抽出ステップと、
    を含むことを特徴とする情報検索方法。
  5. コンピュータを、
    請求項1または2に記載の情報検索装置の各手段として機能させるための情報検索プログラム。
JP2011180966A 2011-08-22 2011-08-22 情報検索装置及び方法及びプログラム Expired - Fee Related JP5639549B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011180966A JP5639549B2 (ja) 2011-08-22 2011-08-22 情報検索装置及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011180966A JP5639549B2 (ja) 2011-08-22 2011-08-22 情報検索装置及び方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013045182A JP2013045182A (ja) 2013-03-04
JP5639549B2 true JP5639549B2 (ja) 2014-12-10

Family

ID=48009066

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011180966A Expired - Fee Related JP5639549B2 (ja) 2011-08-22 2011-08-22 情報検索装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5639549B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107643835A (zh) * 2017-10-19 2018-01-30 北京京东尚科信息技术有限公司 下拉词确定方法、装置、电子设备及存储介质
CN108090196A (zh) * 2017-12-22 2018-05-29 新奥(中国)燃气投资有限公司 一种关键词管理方法和装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6368450B2 (ja) * 2014-06-08 2018-08-01 和康 鈴木 防犯装置
JP7453182B2 (ja) 2021-06-18 2024-03-19 Lineヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3607462B2 (ja) * 1997-07-02 2005-01-05 松下電器産業株式会社 関連キーワード自動抽出装置及びこれを用いた文書検索システム
US7801897B2 (en) * 2004-12-30 2010-09-21 Google Inc. Indexing documents according to geographical relevance
JP2009086903A (ja) * 2007-09-28 2009-04-23 Nomura Research Institute Ltd 検索サービス装置
JP2009245179A (ja) * 2008-03-31 2009-10-22 Nomura Research Institute Ltd 文書検索支援装置
JP5351123B2 (ja) * 2010-10-21 2013-11-27 日本電信電話株式会社 文書検索キーワード提示装置および文書検索キーワード提示プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107643835A (zh) * 2017-10-19 2018-01-30 北京京东尚科信息技术有限公司 下拉词确定方法、装置、电子设备及存储介质
CN108090196A (zh) * 2017-12-22 2018-05-29 新奥(中国)燃气投资有限公司 一种关键词管理方法和装置

Also Published As

Publication number Publication date
JP2013045182A (ja) 2013-03-04

Similar Documents

Publication Publication Date Title
Marine-Roig et al. Tourism analytics with massive user-generated content: A case study of Barcelona
Rae et al. Mining the web for points of interest
US20090119268A1 (en) Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
JP7023821B2 (ja) 情報検索システム
JP2010506335A (ja) 場所に関するサイトの識別
JP4950508B2 (ja) 施設情報管理システム、施設情報管理装置、施設情報管理方法および施設情報管理プログラム
Hu et al. Spatial data infrastructures
KR101221959B1 (ko) 맵 인터페이스와 지식처리를 활용한 지역관련정보 통합검색방법
Atzmueller et al. Exploratory pattern mining on social media using geo-references and social tagging information
Wang et al. Enhancing spatial and textual analysis with EUPEG: An extensible and unified platform for evaluating geoparsers
Liu et al. A search and summary application for traffic events detection based on twitter data
Adhinugroho et al. Development of online travel Web scraping for tourism statistics in Indonesia
JP4324650B2 (ja) 情報資源検索装置、情報資源検索方法及び情報資源検索プログラム
JP5639549B2 (ja) 情報検索装置及び方法及びプログラム
JP5221664B2 (ja) 情報マップ管理システムおよび情報マップ管理方法
Autelitano et al. Spatio-temporal mining of keywords for social media cross-social crawling of emergency events
Ahlers Local web search examined
Kim et al. Landmark extraction from web-harvested place descriptions
Francalanci et al. Exploratory spatio-temporal queries in evolving information
WO2015065719A1 (en) Computerized systems and methods for identifying a character string for a point of interest
KR101734970B1 (ko) 사용자 검색의도에 부합하는 검색 결과 제공 방법 및 시스템
Kumar et al. Navigating information facets on Twitter (NIF-T)
Lacasta et al. Aggregation-based information retrieval system for geospatial data catalogs
KR20110039120A (ko) 장소 또는 사회 관계 기반의 컨텐츠 추천 리스트 제공 시스템
Oliveira et al. Gazetteer enrichment for addressing urban areas: A case study

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130910

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140408

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140609

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141021

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141024

R150 Certificate of patent or registration of utility model

Ref document number: 5639549

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees