JP5410359B2 - クエリ選択装置及びプログラム - Google Patents

クエリ選択装置及びプログラム Download PDF

Info

Publication number
JP5410359B2
JP5410359B2 JP2010097256A JP2010097256A JP5410359B2 JP 5410359 B2 JP5410359 B2 JP 5410359B2 JP 2010097256 A JP2010097256 A JP 2010097256A JP 2010097256 A JP2010097256 A JP 2010097256A JP 5410359 B2 JP5410359 B2 JP 5410359B2
Authority
JP
Japan
Prior art keywords
query
score
click log
click
storage means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010097256A
Other languages
English (en)
Other versions
JP2011227731A (ja
Inventor
良彦 数原
伸二 宮原
俊介 小長井
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010097256A priority Critical patent/JP5410359B2/ja
Publication of JP2011227731A publication Critical patent/JP2011227731A/ja
Application granted granted Critical
Publication of JP5410359B2 publication Critical patent/JP5410359B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、クエリ選択装置及びプログラムに係り、特に、ウェブ検索システムにおいて、検索結果のランキングを実現するためのスコアを算出するランキング関数を自動的に生成するためのクエリ選択装置及びプログラムに関する。
図7は、従来のランキング関数生成システムの構成を示す。
従来技術の概要を簡単に述べる。
ランキング関数生成システムは、Webページデータベース(DB)10、クリックログDB110、正解DB30、特徴DB40、特徴抽出装置20、正解抽出装置120、ランキング関数生成装置90から構成される。
WebページDB10には、図8に示すように、検索対象となるWebページの情報(ページ識別子、URL、本文)が格納されている。
クリックログDB110には、図9に示すように入力されたクエリに対して提示された検索結果のうち、クリックされた文書の情報(ページ識別子)が格納されている。
正解データベース30には、図10に示すように、各クエリに対して、各ページのランキング情報が格納されている。
正解抽出装置120は、クリックログDB110を入力として、正解DB30を生成する。正解DB30を生成する手法として、クエリ・文書ペアに対するクリックログを全て足しこむことによって得られる総クリック数を用いる(例えば、非特許文献2参照)。
特徴抽出装置20は、正解DB30とWebページDB10を入力として、特徴を抽出し(例えば、非特許文献2参照)、特徴DB40を生成する。特徴DB40の例を図11に示す。具体的にはクエリが当該ウェブページに何回出現するか、という単語頻度 (Term Frequency; TF) や、当該ウェブページの重要度のようなものを特徴と呼び、その値を特徴値と呼ぶ。また、ある検索クエリにおいてウェブページが何回クリックされたかといったクリックログを用いた情報を用いることができる。ここで、クリックログとは検索システムのログのことで、ユーザが入力した検索クエリの検索結果に対して、ユーザのクリック情報を記録したものである。
特徴DB40と正解DB30を元に、ランキング関数生成装置90において、ランキング関数を生成する。ランキング関数生成機能としては、非特許文献2などが挙げられ、その実装としては非特許文献3などが挙げられる。
Z. Dou、 R. Song、 X. Yuan and J.-R. Wen: Are click-through data adequate for learning web search rankings? In Proceedings of the 17th ACM Conference on Information and Knowledge Management (CIKM), pp.73-83, 2008. T. Joachims、 Optimizing Search Engines Using Clickthrough Data、 Proceedings of the ACM Conference on Knowledge Discovery and Data Mining (KDD)、 ACM、 2002 svm_rank (http://www.cs.cornell.edu/People/tj/svm_light/svm_rank.html)
しかしながら、上記従来技術のクリックログDB110の中には、アダルトクエリのように検索結果の適合性に関わらず多数の検索結果をクリックされるようなログが含まれており、このようなクリックログの情報はランキング関数生成に悪影響を与えると推察される。
本発明は、上記の点に鑑みなされたもので、ランキング関数生成に有益なクエリを選択することで、高精度なランキング関数生成が可能なクエリ選択装置及びプログラムを提供することを目的とする。
図1は、本発明の原理構成図である。
本発明(請求項1)は、ランキング関数生成のための正解データベースを生成するために用いるクエリを選択するためのクエリ選択装置であって、
検索ログを元に入力クエリとユーザによってクリックされた文書の情報を格納するクリックログ記憶手段110と、
クリックログ記憶手段110に含まれるクエリのエントロピー記述量が短いほど高い値になるクエリスコアを求め、クエリスコア記憶手段160に格納するクエリスコア計算手段150と、
クエリスコア記憶手段160からスコアが最大のクエリを取得し、該クエリを含むレコードをクリックログ記憶手段110から取得して選択クリックログ記憶手段140に格納するクエリ選択手段130と、を有する。
また、本発明(請求項2)は、請求項1のクエリスコア計算手段150は、
クリックログ記憶手段110からクエリによって検索された文書数を取得し、文書空間内における情報量、該クエリの該クリックログ記憶手段110における出現確率、及び該クエリによって文書がクリックされた頻度を該クエリにおけるクリック総数で除した値から求められたクリックエントロピーを用いて、クエリスコアを求める手段を含む。
本発明(請求項3)は、請求項1または2に記載のクエリ選択装置を構成する各手段としてコンピュータを機能させるためのクエリ選択プログラムである。
上記のように、クリックログDBに含まれるログ全てを用いるのではなく、クエリ選択装置により予めノイズとなるクエリを除去し、ランキング関数生成に有益なクエリを選択することで、高精度なランキング関数を生成することができる。
本発明の原理構成図である。 本発明の一実施の形態におけるシステム構成図である。 本発明の一実施の形態におけるクエリスコアDBの例である。 本発明の一実施の形態における選択クリックログDBの例である。 本発明の一実施の形態におけるクエリスコア計算分処理のフローチャートである。 本発明の一実施の形態におけるクエリ選択部の処理のフローチャートである。 従来のランキング関数生成技術におけるランキング関数生成システムの構成図である。 従来のランキング関数生成システムにおけるWebページDBの例である。 従来のランキング関数生成システムにおけるクリックログDBの例である。 従来のランキング関数生成システムにおける正解DBの例である。 従来のランキング関数生成システムにおける特徴DBの例である。
以下図面と共に、本発明の実施の形態を説明する。
図2は、本発明の一実施の形態におけるシステム構成を示す。
同図において、図7の構成と同一構成要素については同一符号を付し、その説明を省略する。
従来手法ではクリックログDB110を正解抽出装置120の入力として正解DB30を生成していたが、本発明では選択クリックログDB140を用いて正解DB30を生成する点が異なる。
まず、クエリ選択装置100の概要を述べる。
クエリ選択装置100は、クエリスコア計算部150、クエリ選択部130、クエリスコアDB160を有する。
クエリスコアDB160は、クエリがどれだけランキング関数生成に有益であるかという情報を保持しており、図3に示すように、クリックログDB110に保持されたクエリ全てについてスコアを格納している。
クエリスコア計算部150は、クリックログDB110を入力として、クエリ毎のスコアを算出してクエリスコアDB160に出力する。詳細については後述する。
クエリ選択部130は、クエリスコアDB130に格納されたスコア情報を元に、予め設定されたクエリ数のクリックログ情報を選択クリックログDB140に出力する。選択クリックログDB140に格納されるデータの例を図4に示す。選択クリックログDB140が保持するデータ構造はクリックログDB110と本質的に同じであるため、選択クリックログDB140を用いて従来技術と同じ枠組みでランキング関数生成を行うことも可能である。
以下に、クエリスコア計算部150の詳細と処理の流れについて述べる。
図5は、本発明の一実施の形態におけるクエリスコア計算部の処理のフローチャートである。
ステップ11) クリックログDB110に含まれる文書総数を取得し、これをDtotalとしメモリ(図示せず)に格納する。
ステップ12) クリックログDB110に含まれるクエリ総数を取得し、これをQtotalとし、メモリ(図示せず)に格納する。
ステップ13) クリックログDB110に未処理のクエリが含まれる場合は、ステップ14に移行し、そうでない場合は処理を終了する。
ステップ14) クリックログDB110から未処理のクエリqを取得する。
ステップ15) クエリqによって検索された文書数D(q)を取得し、ステップ11で取得した文書総数Dtotalを用いて、文書空間内における情報量h(p)を以下の式により計算し、メモリ(図示せず)に格納する。
Figure 0005410359
で計算される。ここでpは、
Figure 0005410359
を用いて求めることができる。
ステップ16) クエリqのクリックログDB110における出現頻度|q|を取得し、クエリ出現確率pを、ステップ12で取得したQtotalを用いて次のように計算し、メモリ(図示せず)に格納する。
Figure 0005410359
ステップ17) クエリqの検索によってクリックされた文書集合を元にp(d|q)を次のように計算する。
Figure 0005410359
ここでfreq(d,q)はクエリqによって文書dがクリックされた頻度を表している。分母はクエリqにおけるクリック総数を表している。これを用いて、クリックエントロピーH(p(q))を
Figure 0005410359
によって算出し、メモリ(図示せず)に格納する。
ステップ18) 上記のステップ15,16,17で得られ、メモリ(図示せず)に格納されているp,p,H(p(q))を取得して、クエリqの一文書あたりの記述長DL(q)、すなわちクエリスコアを以下の式により求める。
Figure 0005410359
上記の式で算出されたクエリスコアDL(q)をクエリスコアDB160に書き出し、ステップ13に移行する。
次に、クエリ選択部130の処理の流れについて説明する。
図6は、本発明の一実施の形態におけるクエリ選択部の処理のフローチャートである。
ステップ21) クエリ選択部130は、選択するクエリの総数Qselectを設定する。
ステップ22) 選択済みのクエリ数S > Qselectの場合、処理を終了する。それ以外の場合、ステップ23に移行する。
ステップ23) クエリスコアDB160から未選択であり、スコアが最大のクエリqを取得する。
ステップ24) クリックログDB110からクエリqを含むレコードを取得し、選択クリックログDB140に出力し、ステップ22に移行する。
以上の処理によって、選択クリックログDB140を生成することができるため、正解抽出装置120においてノイズとなるクエリを除去した有益なクエリを用いて正解DB30を生成することが可能となる。これにより、ランキング関数生成装置90では、当該正解DB30を用いて効率のよいランキング関数を生成することが可能となる。
なお、上記のクエリ選択装置100の動作をプログラムとして構築し、クエリ選択装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
10 WebページDB
20 特徴抽出装置
30 正解DB
40 特徴DB
90 ランキング関数生成装置
100 クエリ選択装置
110 クロックログ記憶手段、クリックログDB
120 正解抽出装置
130 クエリ選択手段、クエリ選択部
140 選択クリックログ記憶手段、選択クリックログDB
150 クエリスコア計算手段、クエリスコア計算部
160 クエリスコア記憶手段、クエリスコアDB

Claims (3)

  1. ランキング関数生成のための正解データベースを生成するために用いるクエリを選択するためのクエリ選択装置であって、
    検索ログを元に入力クエリとユーザによってクリックされた文書の情報を格納するクリックログ記憶手段と、
    前記クリックログ記憶手段に含まれるクエリのエントロピー記述量が短いほど高い値になるクエリスコアを求め、クエリスコア記憶手段に格納するクエリスコア計算手段と、
    前記クエリスコア記憶手段からスコアが最大のクエリを取得し、該クエリを含むレコードを前記クリックログ記憶手段から取得して選択クリックログ記憶手段に格納するクエリ選択手段と、
    を有することを特徴とするクエリ選択装置。
  2. 前記クエリスコア計算手段は、
    前記クリックログ記憶手段からクエリによって検索された文書数を取得し、文書空間内における情報量、該クエリの該クリックログ記憶手段における出現確率、及び該クエリによって文書がクリックされた頻度を該クエリにおけるクリック総数で除した値から求められたクリックエントロピーを用いて、前記クエリスコアを求める手段を含む
    請求項1記載のクエリ選択装置。
  3. 請求項1または2に記載のクエリ選択装置を構成する各手段としてコンピュータを機能させるためのクエリ選択プログラム。
JP2010097256A 2010-04-20 2010-04-20 クエリ選択装置及びプログラム Active JP5410359B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010097256A JP5410359B2 (ja) 2010-04-20 2010-04-20 クエリ選択装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010097256A JP5410359B2 (ja) 2010-04-20 2010-04-20 クエリ選択装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2011227731A JP2011227731A (ja) 2011-11-10
JP5410359B2 true JP5410359B2 (ja) 2014-02-05

Family

ID=45042997

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010097256A Active JP5410359B2 (ja) 2010-04-20 2010-04-20 クエリ選択装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5410359B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021234775A1 (ja) * 2020-05-18 2021-11-25 日本電信電話株式会社 ランキング関数生成装置、ランキング関数生成方法及びプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689520B2 (en) * 2005-02-25 2010-03-30 Microsoft Corporation Machine learning system and method for ranking sets of data using a pairing cost function
US7693865B2 (en) * 2006-08-30 2010-04-06 Yahoo! Inc. Techniques for navigational query identification
JP4922240B2 (ja) * 2008-06-04 2012-04-25 ヤフー株式会社 Web検索において選択的に擬似フィードバック処理を適用する検索処理装置、方法及びプログラム
US20090313286A1 (en) * 2008-06-17 2009-12-17 Microsoft Corporation Generating training data from click logs
US20090327270A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Using Variation in User Interest to Enhance the Search Experience
JP5049223B2 (ja) * 2008-07-29 2012-10-17 ヤフー株式会社 Webクエリに対する検索要求属性を自動推定する検索装置、検索方法及びプログラム

Also Published As

Publication number Publication date
JP2011227731A (ja) 2011-11-10

Similar Documents

Publication Publication Date Title
JP6266080B2 (ja) 類似性スコアに基づきコンテンツアイテムと画像とのマッチングを評価する方法、およびシステム
JP6487201B2 (ja) 推奨ページを生成するための方法及び装置
US10289700B2 (en) Method for dynamically matching images with content items based on keywords in response to search queries
JP5078674B2 (ja) 分析システム、情報処理装置、アクティビティ分析方法、およびプログラム
JP5727512B2 (ja) 検索提案のクラスタ化及び提示
US10489448B2 (en) Method and system for dynamically ranking images to be matched with content in response to a search query
US7519588B2 (en) Keyword characterization and application
US8417692B2 (en) Generalized edit distance for queries
US20140358911A1 (en) Search and discovery system
US20090299978A1 (en) Systems and methods for keyword and dynamic url search engine optimization
JP2009282957A (ja) 文書処理装置および文書処理方法
US10275472B2 (en) Method for categorizing images to be associated with content items based on keywords of search queries
US10235387B2 (en) Method for selecting images for matching with content based on metadata of images and content in real-time in response to search queries
GB2569858A (en) Constructing content based on multi-sentence compression of source content
JP2006318398A (ja) ベクトル生成方法及び装置及び情報分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体
US10956409B2 (en) Relevance model for session search
JP5367632B2 (ja) 知識量推定装置及びプログラム
JP4824070B2 (ja) クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム
JP2007334590A (ja) 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2010055164A (ja) 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体
JP5410359B2 (ja) クエリ選択装置及びプログラム
JP5321258B2 (ja) 情報収集システムおよび情報収集方法ならびにそのプログラム
JP2010123036A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP6488399B2 (ja) 情報提示システム、及び情報提示方法
JP2006202118A (ja) 属性評価装置、属性評価方法および属性評価プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121204

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131001

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131106

R150 Certificate of patent or registration of utility model

Ref document number: 5410359

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131126

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350