JP5801243B2 - 特徴キーワード推薦装置及び方法及びプログラム - Google Patents

特徴キーワード推薦装置及び方法及びプログラム Download PDF

Info

Publication number
JP5801243B2
JP5801243B2 JP2012086894A JP2012086894A JP5801243B2 JP 5801243 B2 JP5801243 B2 JP 5801243B2 JP 2012086894 A JP2012086894 A JP 2012086894A JP 2012086894 A JP2012086894 A JP 2012086894A JP 5801243 B2 JP5801243 B2 JP 5801243B2
Authority
JP
Japan
Prior art keywords
keyword
click
score
geographical
geographic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012086894A
Other languages
English (en)
Other versions
JP2013218441A (ja
Inventor
良彦 数原
良彦 数原
井上 孝史
孝史 井上
良治 片岡
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012086894A priority Critical patent/JP5801243B2/ja
Publication of JP2013218441A publication Critical patent/JP2013218441A/ja
Application granted granted Critical
Publication of JP5801243B2 publication Critical patent/JP5801243B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、情報検索における特徴キーワード推薦装置及び方法及びプログラムに係り、特に、検索者が地理的範囲を地図の表示範囲や緯度経度情報を入力して検索を行うことができる文書検索サービスにおいて、その条件下で特徴的なキーワードを検索前に表示させることで検索者の検索を支援するための特徴キーワード推薦装置及び方法及びプログラムに関する。
従来、文書内のテキストを解析して地名情報を特定する方法がある(例えば、非特許文献1参照)。当該方法の結果を用いることで各文書がどの地域に関係しているかを解析することが可能である。これを用いることで、予め用意しておいたキーワード集合がどの地域に関係付けられた文書で出現しているか解析でき、特定の地域で推薦するキーワードを抽出することが可能と考えられる。具体的な手法としては、地域を東西・南北それぞれ200mや緯度経度で8秒毎などの固定の値で区切り(以下、「メッシュ」と記す)、メッシュ毎に関連する文書集合中の各キーワードの頻度を分析する。複数のメッシュを含むある地域において、あるキーワードの頻度が全体の頻度分布中で特徴的に高い場合、そのキーワードは当該地域での推薦すべきキーワードであると判定できる。特徴的であるかは前記と同様に全メッシュにおける平均出現頻度に対して、当該メッシュでの出現頻度が3σ(σは標準偏差)以上高い場合に特徴的と判断する方法がある。または、ポアソン確率を用いることもできる。
平野徹、松尾義博、菊井玄一郎、"地理的距離を用いた地名の曖昧性解消",第70回情報処理学会全国大会,2008.
しかしながら、上記従来の文書解析に基づく方法では、ユーザがエリアに表示されたキーワードにどの程度興味を持つかという情報を考慮していない。ユーザがキーワードを選択するなどのフィードバック情報を利用する方法があるが、ユーザログが少ない場合においては、この方法を利用することができない。そこで、別の検索エンジンユーザが入力したクエリとクリックした文書情報を含む検索履歴である検索クリックログと、クリックログに含まれるクエリを提示するキーワードの候補として用いる方法を考える。しかしながら、クリックログには地理情報が含まれないため、入力されたクエリによってどのような位置の情報について検索したかということが分からない。そのため、地理的範囲が与えられた際に、クリックログに含まれるキーワードを適切に提示することができないため、検索クリックを用いてユーザが興味を持つキーワードを提示する際に、ユーザが興味を持つキーワードを高精度に提示できないという課題がある。
本発明は、上記の点に鑑みなされたもので、ユーザに対して、検索時に当該ユーザが興味をもつキーワードを高精度に提示することが可能な特徴キーワード推薦装置及び方法及びプログラムを提供することを目的とする。
上記の課題を解決するため、本発明(請求項1)は、地図の表示範囲や緯度経度情報に基づいて地理的範囲を検索する文書検索サービスにおいて、検索時に特徴的なキーワードをユーザに提示する特徴キーワード推薦装置であって、
ウェブ文書記憶手段に格納されている文書から地理情報を抽出し、該地理情報を二次元座標上に写像した地理範囲を、該文書に対応するURLと共に地理情報DBに格納する地理情報解析手段と、
クリックログ記憶手段からクエリ(キーワード)と、該キーワードに対する検索結果のうちクリックされたURLと、該URLがクリックされた回数の順位を読み出し、クリックスコアを計算し、前記地理情報DBから該URLに対応する地理範囲を取得して、該地理範囲におけるキーワードのクリックスコアを、該順位に応じて積算し、キーワードとクリックスコアの組を地理範囲に対応させてキーワードDBに格納するキーワードDB生成手段と、
検索時に地理範囲が入力されると、該地理範囲に該当する前記キーワードDBのキーワードのクリックスコア、地理的適合度、及びクエリの珍しさを用いてスコアを計算し、該スコアが高い順に出力するキーワード選択手段と、を有する。
また、本発明(請求項2)は、前記キーワード選択手段において、前記キーワードのクリックスコア、前記地理的適合度、及び前記クエリの珍しさを用いて計算する際に、
前記地理的適合度を、前記クリックスコアに対して単調増加する関数を用いて計算し、前記クエリの珍しさを、IQF(Inverse Query Frequency)を用いる。
また、本発明(請求項3)は、前記キーワードDB生成手段において、前記クリックスコアを、前記URLがクリックされた回数の順位が1位のときに1をとり、該順位の値が増えるにつれて減少する関数を用いて計算する。
上記のように本発明によれば、クリックログに含まれるクエリに対してクリックした文書が持つ地理表現に基づいて地理情報と重要度を付与することで、地理的範囲が与えられた際に、クリックログから抽出されたキーワード選択とスコア計算が可能となり、地理範囲を閲覧しているユーザに対して高精度なキーワード提示が可能となる。
本発明の一実施の形態における特徴キーワード推薦装置の構成例である。 本発明の一実施の形態におけるウェブ文書DBの例である。 本発明の一実施の形態における地理情報DBの例である。 本発明の一実施の形態におけるクリックログDBの例である。 本発明の一実施の形態におけるキーワードDB生成部の処理のフローチャートである。 本発明の一実施の形態におけるキーワードDBの例である。 本発明の一実施の形態におけるキーワード選択部の処理のフローチャートである。 本発明の一実施の形態における処理イメージである。
以下、図面と共に本発明の実施の形態を説明する。
本発明は、閲覧されている範囲に含まる地理表現を含む文書が、どのようなクエリで検索されているかという見地から、クリックログに含まれるクエリに対してクリックした文書が持つ地理表現に基づいて地理情報を付与し、地理的範囲が入力されると、該当するクリックログに含まれるキーワードをスコア順に推薦するものである。
図1は、本発明の一実施の形態における特徴キーワード推薦装置の構成例を示す
同図に示す特徴キーワード推薦装置は、クリックログDB10、ウェブ文書DB20、地理情報解析部30、地理情報DB40、キーワードDB生成部50、キーワードDB60、キーワード選択部70から構成される。
ウェブ文書DB20は、図2に示すように、URLと本文を格納する。ここで、URLはウェブ文書のURLであり、本文は文書のテキスト情報を表す。
地理情報DB40は、図3に示すように、URLと地理範囲を格納する。ここで、地理範囲は文書に含まれる地理情報を二次元座標上に写像したものである。範囲が矩形の場合には矩形の左下、右上の2点の座標情報、すなわち、4組の数字で表現できる。これにより、キーワードDB生成部50が、当該URLの文書を解析し、地理範囲を抽出する。
クリックログDB10は、図4に示すように、クエリ、URL、クリック位置を格納する。ここで、クエリは検索エンジンに入力されたキーワードを表し、URLは当該キーワードに対する検索結果のうち、クリックされたURLを表す。クリック位置は当該URLがクリックされた回数の順位を表す。
地理情報解析部30は、ウェブ文書DB20を読み込み、地理情報DB40に地理情報を出力する。地理情報解析部30は、ウェブ文書DB20からURLと本文を読み出して、当該本文に含まれる地理情報を抽出する。これには、例えば、前述の非特許文献1の方法を用いて文書に含まれる地名を元に地理情報を抽出し、図3に示すように地理情報DB40に格納する。地理情報としては矩形の場合には、2点の座標情報を用いる。図3の地理情報DB40の例では、{1112773:112353:111111:122222}のように4組の数字表現を抽出して、URLと共に格納する。
キーワードDB生成部50は、クリックログDB10と地理情報DB40のデータを入力として受け取り、キーワードDB60に地理範囲と共にキーワード及びクリックスコアを出力する。
キーワードDB生成部50は、地理範囲に対応するキーワードのクリックスコアを算出し、キーワードDB60に格納する。
図5は、本発明の一実施の形態におけるキーワードDB生成部の処理のフローチャートである。
ステップ101) キーワードDB生成部50は、クリックログDB10から未処理のレコードを取得し、クエリをq、URLをd、クリック位置をrとする。クエリに複数のキーワードが含まれている場合には、キーワード毎に分割し、それぞれのキーワードに対して以下の処理を行う方法もある。
ステップ102) クリックスコアsを計算する。クリックスコア計算には、例えば、
f(r)=exp(a(1−r))
のような関数を用いることができる。関数f(・)の場合、順位が1のときに"1"をとり、rの値が増えるにつれて減少していく。なお、aは事前に設定されたパラメータとする。クリック位置が低いクリックの重要度を逓減するための関数であり、クリック位置を考慮しない場合にはf(r)=1を用いる。
ステップ103) 地理情報DB40からURLカラムにdを含むレコードを取得し、地理範囲カラムに含まれる地理範囲情報をbとする。ここでbには複数の地理範囲情報が含まれることもある。その場合は、各地理範囲情報について、ステップ104からステップ106の処理を行う。
ステップ104) 出力対象であるキーワードDB60に地理範囲カラムがbのレコードが既に存在する場合はステップ106に移行する。そうでない場合にはステップ105に移行する。
ステップ105) キーワードDB60の地理範囲カラムがbのレコードを新たに作製し、キーワード:クリックスコアカラムは空(φ)とする。
ステップ106) キーワードDB60の地理範囲カラムがbと一致するレコードにキーワードqが既に含まれていれば、クリックスコアにsの値を加算する。含まれていない場合にはqのスコアをsとしたキーワードとのペアを作成し、当該レコードのキーワード:クリックスコアカラムに追加する。
ステップ107) クリックログDB10に未処理のレコードがある場合にはステップ101の処理に戻る。そうでない場合には処理を終了する。
上記のようにして生成されたキーワードDB60の例を図6に示す。同図に示すように、キーワードDB60には、地理範囲に対応するキーワードとそのクリックスコアの組が格納されている。地理範囲情報は地図上の範囲を表す情報で、例えば、矩形の場合、左下、右上の2点の緯度経度の座標情報、すなわち、4組の数値で表現することができる。キーワード:クリックスコアカラムには、当該地理範囲に対応するキーワードと算出されたスコア情報が格納されている。
次に、キーワード選択部70の処理について説明する。
キーワード選択部70は、外部から入力された地理的範囲を入力として受け取ると、キーワード生成部50で生成されたキーワードDB60を参照してキーワード候補をスコア付きで出力する。外部から入力される地理的範囲は、例えば、ユーザが閲覧している地図上の範囲情報などが与えられ、例えば、矩形情報として解釈する。その場合は、矩形の左下、右上2点の合計4組の緯度経度情報となる。この入力のベクトル表現をgとする。
図7は、本発明の一実施の形態におけるキーワード選択部の処理のフローチャートである。
ステップ201)キーワードDB60から入力された地理範囲ginputに該当するレコードを取得し、その集合をRとする。ここで、レコードの取得方法には、入力された地理範囲と被覆する地理範囲を持つレコードの取得、入力された地理範囲に包含される地理範囲を持つレコードの取得などが考えられる。また、キーワードDB60にR木のようなデータ構造を用いることで、高速に地理範囲に該当するレコードを取得できる。
ステップ202) 入力地理範囲ginputに対して、一定以上大きな地理範囲を持つレコードをRから除去する。例えば、面積がα倍以上の場合には除外する方法等を用いることができる。α∈(0,∞)は、予め設定された定数とする。
ステップ203) Rの中から未処理のレコードを取得する。当該レコードの地理範囲をgdとする。そして、キーワード:クリックスコアカラムに含まれる全てのキーワード:クリックスコアの組について以下の処理を行う。
キーワードをw、クリックスコアをcとし、以下のスコアを計算する。その際、当該レコードに含まれるキーワードwの入力された地理範囲ginputに対するスコアは、地理的適合度×クリックスコア×クエリの珍しさの3項で計算することができる。
score(w,gd,ginput)=geo(ginput,gd)・log(c)・IQG(w) (2)
ここで、geo(ginput,gd)は入力地理範囲に対する地理的適合度のスコア(ジオスコア)を表し、例えば、文献「安田宜仁、戸田浩之、"検索位置のごく周辺を対象とした地理情報検索",人工知能学会論文誌,Vol. 23, No.5, pp.364-373, 2008年7月」などを用いることができる。式(2)では、クリックスコアの対数の値を用いているが、対数に限らずクリックスコアに対して単調増加関数であればよい。IQF(Inverse Query Frequency)(w)は、キーワードwのクリックログにおける珍しさを表し、
Figure 0005801243
で計算する。ここで分子のNは総キーワード数を表し、すなわち、キーワードDB60のレコード数の値を利用する。そしてキーワードと計算されたスコアの組(w,score(w,gd,ginput))を検索結果集合Sに格納する。
ステップ204) 集合Rに未処理のレコードがある場合にはステップ203に戻り、そうでない場合はステップ205に移行する。
ステップ205) 検索結果集合Sをスコアの降順にソートし、結果を出力する。
上記の処理イメージを図8に示す。
これにより、ユーザに地理範囲のキーワードをスコアの高い順に推薦することができる。
上記の実施の形態における図1に示す特徴キーワード推薦装置の各構成要素の動作をプログラムとして構築し、特徴キーワード推薦装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
10 クリックログDB
20 ウェブ文書DB
30 地理情報解析部
40 地理情報DB
50 キーワードDB生成部
60 キーワードDB
70 キーワード選択部

Claims (7)

  1. 地図の表示範囲や緯度経度情報に基づいて地理的範囲を検索する文書検索サービスにおいて、検索時に特徴的なキーワードをユーザに提示する特徴キーワード推薦装置であって、
    ウェブ文書記憶手段に格納されている文書から地理情報を抽出し、該地理情報を二次元座標上に写像した地理範囲を、該文書に対応するURLと共に地理情報DBに格納する地理情報解析手段と、
    クリックログ記憶手段からクエリ(キーワード)と、該キーワードに対する検索結果のうちクリックされたURLと、該URLがクリックされた回数の順位を読み出し、クリックスコアを計算し、前記地理情報DBから該URLに対応する地理範囲を取得して、該地理範囲におけるキーワードのクリックスコアを、該順位に応じて積算し、キーワードとクリックスコアの組を地理範囲に対応させてキーワードDBに格納するキーワードDB生成手段と、
    検索時に地理範囲が入力されると、該地理範囲に該当する前記キーワードDBのキーワードのクリックスコア、地理的適合度、及びクエリの珍しさを用いてスコアを計算し、該スコアが高い順に出力するキーワード選択手段と、
    を有することを特徴とする特徴キーワード推薦装置。
  2. 前記キーワード選択手段は、
    前記キーワードのクリックスコア、前記地理的適合度、及び前記クエリの珍しさを用いて計算する際に、
    前記地理的適合度を、前記クリックスコアに対して単調増加する関数を用いて計算し、前記クエリの珍しさを、IQF(Inverse Query Frequency)を用いる
    請求項1記載の特徴キーワード推薦装置。
  3. 前記キーワードDB生成手段は、
    前記クリックスコアを、前記URLがクリックされた回数の順位が1位のときに1をとり、該順位の値が増えるにつれて減少する関数を用いて計算する
    請求項1記載の特徴キーワード推薦装置。
  4. 地図の表示範囲や緯度経度情報に基づいて地理的範囲を検索する文書検索サービスにおいて、検索時に特徴的なキーワードをユーザに提示する特徴キーワード推薦方法であって、
    地理情報解析手段が、ウェブ文書記憶手段に格納されている文書から地理情報を抽出し、該地理情報を二次元座標上に写像した地理範囲を、該文書に対応するURLと共に地理情報DBに格納する地理情報解析ステップと、
    キーワードDB生成手段が、クリックログ記憶手段からクエリ(キーワード)と、該キーワードに対する検索結果のうちクリックされたURLと、該URLがクリックされた回数の順位を読み出し、クリックスコアを計算し、前記地理情報DBから該URLに対応する地理範囲を取得して、該地理範囲におけるキーワードのクリックスコアを、該順位に応じて積算し、キーワードとクリックスコアの組を地理範囲に対応させてキーワードDBに格納するキーワードDB生成ステップと、
    キーワード選択手段が、検索時に地理範囲が入力されると、該地理範囲に該当する前記キーワードDBのキーワードのクリックスコア、地理的適合度、及びクエリの珍しさを用いてスコアを計算し、該スコアが高い順に出力するキーワード選択ステップと、
    を行うことを特徴とする特徴キーワード推薦方法。
  5. 前記キーワード選択ステップにおいて、
    前記キーワードのクリックスコア、前記地理的適合度、及び前記クエリの珍しさを用いて計算する際に、
    前記地理的適合度を、前記クリックスコアに対して単調増加する関数を用いて計算し、前記クエリの珍しさを、IQF(Inverse Query Frequency)を用いる
    請求項4記載の特徴キーワード推薦方法。
  6. 前記キーワードDB生成ステップにおいて、
    前記クリックスコアを、前記URLがクリックされた回数の順位が1位のときに1をとり、該順位の値が増えるにつれて減少する関数を用いて計算する
    請求項4記載の特徴キーワード推薦方法。
  7. コンピュータを、
    請求項1乃至3のいずれか1項に記載の特徴キーワード推薦装置の各手段として機能させるための特徴キーワード推薦プログラム。
JP2012086894A 2012-04-05 2012-04-05 特徴キーワード推薦装置及び方法及びプログラム Expired - Fee Related JP5801243B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012086894A JP5801243B2 (ja) 2012-04-05 2012-04-05 特徴キーワード推薦装置及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012086894A JP5801243B2 (ja) 2012-04-05 2012-04-05 特徴キーワード推薦装置及び方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013218441A JP2013218441A (ja) 2013-10-24
JP5801243B2 true JP5801243B2 (ja) 2015-10-28

Family

ID=49590483

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012086894A Expired - Fee Related JP5801243B2 (ja) 2012-04-05 2012-04-05 特徴キーワード推薦装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5801243B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159937B (zh) * 2015-08-03 2018-09-28 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN113343084A (zh) * 2021-05-25 2021-09-03 北京字节跳动网络技术有限公司 发文关键字段推送方法、装置、存储介质及计算机设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7801897B2 (en) * 2004-12-30 2010-09-21 Google Inc. Indexing documents according to geographical relevance
US7933897B2 (en) * 2005-10-12 2011-04-26 Google Inc. Entity display priority in a distributed geographic information system
JP5087377B2 (ja) * 2007-11-29 2012-12-05 日本電信電話株式会社 地理的情報を含む文書群の検索装置、検索方法、検索プログラムおよびそのプログラムを記録した記録媒体
JP5164968B2 (ja) * 2009-12-25 2013-03-21 ヤフー株式会社 地域スコアデータベースを作成する装置、方法及びプログラム

Also Published As

Publication number Publication date
JP2013218441A (ja) 2013-10-24

Similar Documents

Publication Publication Date Title
JP5673336B2 (ja) 情報処理方法、表示方法、情報処理装置、表示装置、情報処理プログラム、表示プログラム
JP2019149145A (ja) 情報検索システム
JP2019194864A (ja) ソーシャルネットワークの検索結果提示方法及び装置、並びに記憶媒体
JP2020170538A (ja) 検索データを処理するための方法、装置及びプログラム
JP2005322165A (ja) 検索キーワード提示方法及び装置及びプログラム
JP5341847B2 (ja) 検索クエリ推薦方法、検索クエリ推薦装置、検索クエリ推薦プログラム
JP5801243B2 (ja) 特徴キーワード推薦装置及び方法及びプログラム
JP5639549B2 (ja) 情報検索装置及び方法及びプログラム
JP2013054606A (ja) 文書検索装置及び方法及びプログラム
JP6639040B2 (ja) 情報検索装置及びプログラム
KR20150045236A (ko) 스크랩 정보 관리 방법 및 장치
JP6163143B2 (ja) 情報提供装置、情報提供方法、および情報提供プログラム
WO2014027415A1 (ja) 情報提供装置、情報提供方法、及びプログラム
JP5801242B2 (ja) 推定興味度スコアデータベース生成装置及び方法及びプログラム
JP5398884B1 (ja) 名物を代表する地域の推定装置及び方法
JP6528341B1 (ja) 情報処理装置、情報処理方法及びプログラム
KR20180044111A (ko) 데이터 수집 방법 및 그 장치
JP2016095669A (ja) 画像分析方法及び画像分析装置
JP2022111544A (ja) 情報処理システム、及び情報処理方法
JP2009187384A (ja) 検索装置、検索方法、検索プログラム、および、記録媒体
JP5604406B2 (ja) 情報検索装置及び方法及びプログラム
JP2017072964A (ja) 情報分析装置及び情報分析方法
JP5798081B2 (ja) 情報検索装置及び方法及びプログラム
Hussan et al. An optimized user behavior prediction model using genetic algorithm on mobile web structure
KR101623523B1 (ko) 이미지 단어 해석에 기반한 사용자 니즈 파악 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141020

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150804

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150825

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150826

R150 Certificate of patent or registration of utility model

Ref document number: 5801243

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees