JP2011100302A - ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム - Google Patents

ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム Download PDF

Info

Publication number
JP2011100302A
JP2011100302A JP2009254517A JP2009254517A JP2011100302A JP 2011100302 A JP2011100302 A JP 2011100302A JP 2009254517 A JP2009254517 A JP 2009254517A JP 2009254517 A JP2009254517 A JP 2009254517A JP 2011100302 A JP2011100302 A JP 2011100302A
Authority
JP
Japan
Prior art keywords
database
page
search query
identifier
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009254517A
Other languages
English (en)
Other versions
JP5416552B2 (ja
Inventor
Yoshihiko Kazuhara
良彦 数原
Hiroyuki Toda
浩之 戸田
Ryoji Kataoka
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009254517A priority Critical patent/JP5416552B2/ja
Publication of JP2011100302A publication Critical patent/JP2011100302A/ja
Application granted granted Critical
Publication of JP5416552B2 publication Critical patent/JP5416552B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】Webページ集合の全てについて取得不可能な特徴を用いたランキング関数の生成を可能にする。
【解決手段】特徴抽出機能部20は、DB10のページ識別子ごとにDB30の格納情報を取得し、検索クエリが本文中に出現する頻度とDB30のランクとから特徴値を算出し、DB40に格納する。DB50にはページ識別子・検索クエリ・Webページのクリック情報が格納されている。推定器生成機能部60は、DB50のページ識別子と検索クエリごとにクリック情報と特徴値との関係を示す1変数関数/多変数関数を持つ推定器を生成する。推定器の関数に特徴データベースの特徴値を入力して算出した推定クリック情報がDB80に格納されている。ランキング関数生成機能部90は、DB30のランクとDB40の特徴値とDB80の推定クリック情報とから順序付き学習をし、ランキング関数を生成する。
【選択図】図1

Description

本発明は、Web検索システムにおいて,検索結果のランキングを実現するためのスコアを算出するランキング関数の生成技術に関する。
現在、インターネットの普及によって、インターネット上の膨大なWebページの集合からユーザが必要とする情報を、的確に検索するWeb検索システムの重要性が高まっている。このウェブ検索システムでは、検索結果のランキングを行うためのスコアを算出する。このスコア算出のためのランキング関数の生成には非特許文献1の技術が公知となっている。ここでは図2に示すように、WebページDB10.特徴抽出機能部20.人手正解DB30.特徴DB40.ランキング関数生成機能部90を通じてランキング関数100を生成している。
概略を説明すれば、WebページDB10には、検索対象となる各Webページの情報が格納されている。また、人手正解DB30には、人手によって付与された各クエリに対する各Webページのランキング情報、即ち各Webページの検索クエリに対する評価点数が格納されている。この人手正解DB30の格納情報は、図示省略のクリックログを用いて作成される。ここでクリックログとは、Web検索システムのログを意味し、ユーザが入力した検索クエリの検索結果に対するユーザのクリック情報の記録である。このクリック情報には、例えばある検索クエリにおいてWebページが何回クリックされたかというクリック数の情報が記録されている。
特徴抽出機能20は、WebページDB10の格納情報と人手正解DB30の格納情報とを入力として、特徴DB40の格納情報を生成する。例えば、WebページDB10に格納されているWebページの本文情報を解析し,ページ内に人手正解DB30に格納されたクエリが何回出現するかという特徴を抽出し、抽出された特徴を特徴DB40に格納する。抽出する特徴は、クエリが当該Webページに何回出現するかという単語頻度(Term Frequency: TF)の他に、当該Webページの重要度などが用いられる。
ランキング関数生成機能部90は、人手正解DB30の格納情報と特徴DB40の格納情報とをベースにランキング関数100を生成する。このランキング関数生成の手法は、人手正解DB30に格納されている評価点数に従ったランキングを再現するような関数を生成する。具体的には非特許文献1では「RankingSVM」などのランキング関数生成手法が用いられ、その実装としては「svm_rank」などがある。
T.Joachims "Optimizing Search Engines Using Clickthrough Data" Proceedings of the ACM Conference on Knowledge Discovery and Data Mining (KDD),ACM,2002
しかしながら、例えば新規追加されたWebページなどには、クリックログが記録されていないため、非特許文献1などの従来技術では、各Webページの検索クエリに対する評価点数が得られず、クリックログのクリック数を特徴として用いて学習したランキング関数を生成することができない。
このようにWebページ集合のすべてから抽出不可能な特徴を用いてランキング学習を行うと、当該特徴が付与されていないページに対して正しくランキング学習できない問題が生じる。
本発明は、上述のような従来技術の問題点を解決するためになされたものであり、特徴が付与されていないWebページの特徴値を推定し、Webページ集合のすべてから取得不可能な特徴を用いたランキング関数の生成を可能にすることを解決課題としている。
そこで、本発明は、Webページ集合のすべてから取得可能な特徴値をもとに、未知の特徴値を推定する推定器をあらかじめ生成する。この推定器を利用して特徴が付与されていないWebページの特徴値を推定する。
本発明の一態様は、検索クエリに基づきWebページの集合を検索した検索結果をランキングするためのランキング関数を生成する装置であって、検索対象の各Webページのページ識別子と該ページの本文とを対応付けて格納する第1データベースと、検索ログに基づき検索クエリに対する検索対象のWebページのランクを前記ページ識別子と対応付けて格納する第2データベースと、第1データベースのページ識別子ごとに第2データベースの格納情報を取得し、該識別子に対応する検索クエリの前記ページ本文への関連度と、第2データベースの該識別子に応じたランクとから特徴値を算出し、算出された特徴値を前記ページ識別子と前記クエリとに対応付ける手段と、前記ページ識別子、前記検索クエリ、Webページの利用情報をそれぞれ対応付けて格納する第3データベースと、第3データベースのページ識別子と検索クエリごとに前記特徴値および前記利用情報に基づき該両者の関係を示す関数を持つ推定器を生成し、該推定器の関数に前記特徴値を入力して前記利用情報の推定結果を算出し、該推定結果を前記ページ識別子と前記検索クエリとに対応付ける手段と、第2データベースのページ識別子と検索クエリごとに、それぞれ対応する前記ランク、前記特徴値、前記推定結果に基づき順序付き学習を行ってランキング関数を生成する手段と、を備える。
本発明の他の態様は、検索対象の各Webページのページ識別子と該ページの本文とを対応付けて格納する第1データベースと、検索ログに基づき検索クエリに対する検索対象のWebページのランクを前記ページ識別子と対応付けて格納する第2データベースと、前記ページ識別子、前記検索クエリ、Webページの利用情報をそれぞれ対応付けて格納する第3データベースと、を備えたランキング関数生成装置を通じて、検索クエリに基づきWebページの集合を検索した検索結果をランキングするためのランキング関数を生成する方法であって、特徴抽出手段が、第1データベースのページ識別子ごとに第2データベースの格納情報を取得し、該識別子に対応する検索クエリの前記ページ本文への関連度と、第2データベースの該識別子に応じたランクとから特徴値を算出し、算出された特徴値を前記ページ識別子と前記クエリとに対応付けるステップと、推定器生成手段が、第3データベースのページ識別子と検索クエリごとに前記特徴値および前記利用情報に基づき該両者の関係を示す関数を持つ推定器を生成し、該推定器の関数に前記特徴値を入力して前記利用情報の推定結果を算出し、該推計結果を前記ページ識別子と前記検索クエリとに対応付けるステップと、ランキング関数生成手段が、第2データベースのページ識別子と検索クエリごとに、それぞれ対応する前記ランク、前記特徴値、前記推定結果に基づき順序付き学習を行ってランキング関数を生成するステップと、を有する。
なお、本発明は、前記装置としてコンピュータを機能させるためのランキング関数生成プログラムの態様としてもよく、また該プログラムを記録した記録媒体の態様で提供してもよい。
本発明によれば、特徴が付与されていないWebページの特徴値を推定できるため、ランキング関数生成に用いる特徴が増加し、精度の高いより適切なランキング関数が生成される。
本発明の実施形態に係るランキング関数生成装置の構成図。 従来のランキング関数生成装置の構成図。
以下、本発明の好ましい実施形態を説明する。ここでは従来の装置構成にWebページの利用情報、例えばクリックログのクリック数などの特徴を推定する機能部が追加されている。すなわち、従来技術によれば、前記クリック数などすべてのWebページについて取得不可能な特徴を用いてランキング関数を生成することは困難であった。
そこで、Webページ集合のすべてから取得可能な特徴を用いて、前記クリック数などを推定する特徴推定機能手段を追加し、クリックログなどのような特徴値を推定することで、すべてのWebページについて取得不可能な特徴を用いたランキング関数の生成を可能にさせている。
≪装置構成例≫
図1に基づき本発明の実施形態に係るランキング関数生成装置を説明する。このランキング関数生成装置1は、図示省略のユーザ端末からの検索命令に従ってWebページ集合を検索するWeb検索システム(いわゆる検索エンジン)を構成する。
具体的にはランキング関数生成装置1は、通常のコンピュータのハードウェアリソース、例えばCPU,メモリ(RAM),ハードディスクドライブ装置,通信インタフェースなどを備えている。このハードウェアリソースとソフトウェアリソース(OS,アプリケーションなど)との協働の結果、ランキング関数生成装置1は、WebページDB10,特徴抽出機能部20,人手正解DB30,特徴DB40,ランキング関数生成機能部90,特徴推定機能手段2を実装する。ここでは特徴推定機能手段2が追加されている点で図2の従来装置と相違している。
特徴推定機能手段2は、Web検索システムのログ、即ちユーザが入力した検索クエリの検索結果に対するユーザのクリック情報(クリック数など)を格納するクリックログDB50と、特徴DB40の格納情報とクリックログDB50の記録情報とを入力として1変数関数/多変数関数を持つ特徴推定器70を生成・出力する推定器生成機能部60と、特徴DB40の格納情報を特徴推定器70に入力して算出された推定クリック数を格納する推定クリックログDB80と、を有している。なお、各DB10.30.40.50.80は、いずれもハードディスクドライブ装置上に構築されているものとする。以下、各部10〜90の詳細を説明する。
≪各部10〜40の詳細≫
Figure 2011100302
表1は、WebページDB10に格納されたデータ構造例を示している。ここでは検索対象の各Webページに対して一意に付与されるページ識別子と、該各WebページのURLと、該各Webページの本文情報とがそれぞれペアに対応付けられて格納されている。
Figure 2011100302
表2は、人手正確DB30に格納されたデータ構造例を示し、ページ識別子ごとに検索クエリに対するWebページの評価値がランクという値で格納されている。ここでは「検索装置」というクエリにおいてWebページAが10点.WebページBが8点という評価点数が格納されている。なお、表2では評価点数が高ければより適切な検索結果として示されている。
特徴抽出機能部20は,特徴量抽出ステップを実施する。すなわち、特徴値抽出処理を用いて、WebページDB10の格納データと人手正解DB30の格納データとを入力として、人手正解DB30に含まれる<クエリ,ページ識別子>のペアについて特徴を抽出し、抽出した特徴を出力する。ここで出力された特徴の値は特徴DB40に格納される。
特徴値抽出処理によってWebページから特徴を抽出する方法としては、例えば非特許文献1記載のクエリとURLのコサイン類似度、クエリとタイトルのコサイン類似度、クエリが当該URLのドメイン名を含むか否か、URL長、ドメインの国名、URLがチルダ記号を含むか否かなどが挙げられる。使用される特徴の種類はあらかじめ設定されているものとする。ここでは一例としてクエリがページに出現する回数を用いるものとする。
特徴抽出機能部20は、クリックログDB50に格納されていないWebページの<クエリ,ページ識別子>ペアについても、他のWebページと同様にWebページDB10の格納情報と人手正解DB30の格納情報とから特徴値を抽出し、特徴DB40に格納しておくものとする。
Figure 2011100302
表3は、特徴DB40に格納されるデータ構造例を示している。ここでは検索ランキングに用いられるウェブページの特徴は、例えばクエリのWebページ内に含まれる頻度(単語頻度)のように、検索クエリによって値が変化する場合があるため、<クエリ,ページ識別子>のペアと、各ペアのそれぞれの特徴値を対応付けて格納されている。
表3のデータ構造例によれば、WebページAが検索クエリ「検索装置」で検索された場合における特徴1の値「10.7」、特徴2の値「5.2」、特徴Kの値「10」が格納されている。また、WebページBが検索クエリ「検索装置」で検索された場合における特徴1の値「9.5」、特徴2の値「8.3」、特徴Kの値「8」も格納されている。
≪特徴推定機能手段2の詳細≫
(1)クリックログDB50
Figure 2011100302
表4は、クリックログDB50に格納されるデータ構造例を示している。ここでは検索クエリに対してあるWebページが何回クリックされたかというクリック情報が<クエリ,ページ識別子>のペアに対応付けて格納されている。
表4のデータ構造例によれば、「検索装置」というクエリによってWebページAが300回、WebページBが250回クリックされているという情報がそれぞれ前記ペアに対応付けて格納されている。
(2)推定器生成機能部60
推定器生成機能部60は、クリックログDB50の格納データと特徴DB40の格納データとを入力として推定器生成ステップを実施し、クリック数を推定するための特徴推定器70を生成する。特徴推定器70の生成は以下のように行う。
すなわち、クリックログがクリックログDB50に記録された後に追加された新規Webページなどについては、クリックログDB50には該Webページに関する情報が格納されていない。その一方で、特徴DB40には、前述のようにクリックログDB50には格納されていない<クエリ,ページ識別子>ペアに対応するWebページの情報が、他のWebページと同様に格納されている。
そこで、特徴DB40とクリックログDB50のいずれにも格納されている<クエリ、ページ識別子>ペアを使って特徴DB40に格納された1つ以上の特徴値とクリック数の関係を示す1変数関数/多変数関数を生成し、その1変数関数/多変関数を用いて特徴DB40に格納された1つ以上の特徴値からクリック数を推定する特徴推定器70を生成する。
すなわち、推定器生成機能部60は,関数生成処理を用いてWebページの1つ以上の特徴値を入力として推定クリック数を出力する1変数関数/多変数関数を持つ特徴推定器70の生成機能部である。ここで関数生成処理における当該1変数関数/多変数関数の生成には、例えば回帰分析手法である最小二乗法による線形回帰やロジスティック回帰、順序付き学習手法である非特許文献1の「RankingSVM」のような手法を用いることができる。
(3)特徴推定器70
推定器生成機能部60により生成された特徴推定器70は、特徴DB40の格納情報、即ちWebページの特徴値を入力として、推定クリック数算出ステップを実施し、1変数関数あるいは多変数関数を用いて推定クリック数を算出する。
例えば、一つの特徴値を入力とする場合には1変数関数「y=f(x)」を用いて推定クリック数を算出する。一方、複数の特徴値を入力とする場合には多変数関数「y=f(x1,x2,x3...,xn)」を用いて推定クリック数を算出する。ここでは「y=推定クリック数」、「x=特徴値」とする。なお、多変数関数を用いる場合は算出のベースとなる特徴値が多く、推定クリック数の精度向上が期待できる。
算出された推定クリック数は、推定クリックログDB80に出力され、該DB80に格納される。表5は、推定クリックログDB80に格納されるデータ構造例を示している。ここでは「インデクス」というクエリで検索されたページAについて、特徴DB40における<インデクス,ページA>の各特徴値を特徴推定器70に入力し、出力された推定クリック数を検索クエリとページ識別子に対応付けて格納されている。また、ページBについても同様に推定クリック数が格納されている。
なお、クリッログDB50にクリック数が≪クエリ,ページ識別子≫のペアに対応付けて格納されているWebページについては、クリックログDB50に格納されたクリック数を推定クリック数として推定クリックログDB80に格納してもよい。
Figure 2011100302
≪ランキング関数生成機能部90の詳細≫
ランキング関数生成機能部90は、ランキング関数生成ステップを実施し、人手正解DB30の格納データと、特徴DB40の格納データと、推定クリックログDB80の格納データとを入力として、ランキング関数100を生成する。通常は、<クエリ,ページ識別子>ペアに対して表2の評価点数(ランク)および表3の特徴値が付与されていれば、非特許文献1のようなランキング関数生成手法を用いて、ランキング関数100を生成できる。
ここではランキング関数生成機能部90は、特徴DB40に含まれているK個の特徴値に加え、推定クリックログDB80に格納された推定クリック数という特徴値を<クエリ,ページ識別子>ペアの特徴値として追加する。具体的には、K+1個の特徴値と、人手正解DB30に格納された評価値(ランク)を入力とし、ある2つの<クエリ,ページ識別子>ペアに注目した際にランクがより高い<クエリ,ページ識別子>ペアが、ランクがより低い<クエリ,ページ識別子>ペアよりも高い値を出力するような関数を生成する順序付き学習を行うことで、ランキング関数100を生成する。順序付き学習には例えば「RankingSVM」のようなランキング関数生成手法を用いる。
したがって、ランキング関数生成装置1によれば、図2のランキング関数生成装置では利用不可能な特徴が推定され、従来から利用可能な特徴に追加してランキング関数が生成される。すなわち、検索対象のWebページのすべてに対して抽出不可能な特徴、例えば新規追加のWebページのクリック数が特徴推定器70を通じて推定され、推定結果が推定クリックログDB80に格納される。
この推定クリックログDB80の格納データが、ランキング関数生成の特徴値に追加されるため、ランキング関数生成に使用可能な特徴が従来よりも増加し、従来技術に比べて精度の高い適切なランキング関数を生成することが可能となる。
生成されたランキング関数100は、Web検索システム(いわゆる検索エンジン)において、ユーザ端末から送信された検索クエリに基づく検索結果をランキングするためのスコア算出に利用される。ここでは検索結果がスコアに従ってソートされ、ユーザ端末に返信されるため、検索結果がより適正にランキングされ、これによりユーザの必要とする順序で検索結果がユーザ端末に表示することができる。
なお、本発明は、上記実施形態に限定されるものではなく、各請求項に記載された範囲内で各種の変形利用が可能である。例えば、特徴推定器70で算出する特徴(Webページの利用情報)の値はクリック回数のみならず、ソーシャルブックマーク(Social Bookmark:SBM)のブックマーク数などとすることもできる。
≪プログラムなど≫
本発明は、ランキング関数生成装置1の各部10〜90の一部もしくは全部として、コンピュータを機能させるプログラムとして構成することもできる。このプログラムによれば、前記各ステップの全てあるいは一部がコンピュータにより実行される。
このプログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,Blu−ray Disk(登録商標)などの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。
1…ランキング関数生成装置
2…特徴推定機能手段
10…WebページDB(第1データベース)
20…特徴抽出機能部(特徴推定手段)
30…人手正解DB(第2データベース、評価データベース)
40…特徴DB
50…クリックログDB(第3データベース)
60…推定器生成機能部(推定器生成手段)
70…特徴推定器(推定器)
80…推定クリックログDB
90…ランキング関数生成機能部(ランキング関数生成手段)
100…ランキング関数

Claims (5)

  1. 検索クエリに基づきWebページの集合を検索した検索結果をランキングするためのランキング関数を生成する装置であって、
    検索対象の各Webページのページ識別子と該ページの本文とを対応付けて格納する第1データベースと、
    検索ログに基づき検索クエリに対する検索対象のWebページのランクを前記ページ識別子と対応付けて格納する第2データベースと、
    第1データベースのページ識別子ごとに第2データベースの格納情報を取得し、該識別子に対応する検索クエリの前記ページ本文への関連度と、第2データベースの該識別子に応じたランクとから特徴値を算出し、算出された特徴値を前記ページ識別子と前記クエリとに対応付ける手段と、
    前記ページ識別子、前記検索クエリ、Webページの利用情報をそれぞれ対応付けて格納する第3データベースと、
    第3データベースのページ識別子と検索クエリごとに前記特徴値および前記利用情報に基づき該両者の関係を示す関数を持つ推定器を生成し、該推定器の関数に前記特徴値を入力して前記利用情報の推定結果を算出し、該推定結果を前記ページ識別子と前記検索クエリとに対応付ける手段と、
    第2データベースのページ識別子と検索クエリごとに、それぞれ対応する前記ランク、前記特徴値、前記推定結果に基づき順序付き学習を行ってランキング関数を生成する手段と、
    を備えることを特徴とするランキング関数生成装置。
  2. 検索クエリに基づきWebページの集合を検索した検索結果をランキングするためのランキング関数を生成する装置であって、
    検索対象の各Webページのページ識別子と該ページの本文とを対応付けて格納するWebページデータベースと、
    検索ログに基づき検索クエリに対する検索対象のWebページのランクを前記ページ識別子と対応付けて格納する評価データベースと、
    Webデータベースのページ識別子ごとに評価データベースの格納情報を取得し、該識別子に対応する検索クエリの前記ページ本文への関連度と、評価データベースの該識別子に応じたランクとから特徴値を算出し、該特徴値を前記ページ識別子と前記クエリに対応付けて特徴データベースに格納する特徴抽出手段と、
    前記ページ識別子、検索クエリ、Webページのクリック情報をそれぞれ対応付けて格納するクリックログデータベースと、
    クリックログデータベースのページ識別子と検索クエリごとに、該データベースのクリック情報と特徴データベースの特徴値との関係を示す関数を持つ推定器を生成する推定器生成手段と、
    クリックログデータベースのページ識別子と検索クエリごとに推定器の関数に特徴データベースの特徴値を入力して算出した推定クリック情報を、前記ページ識別子と前記検索クエリとに対応付けて格納する推定クリッログデータベースと、
    評価データベースのページ識別子と検索クエリごとに、それぞれ対応する評価データベースのランクと特徴データベースの特徴値と推定クリックログデータベースの推定クリック情報とから順序付き学習を行ってランキング関数を生成するランキング関数生成手段と、
    を備えることを特徴とするランキング関数生成装置。
  3. 検索対象の各Webページのページ識別子と該ページの本文とを対応付けて格納する第1データベースと、
    検索ログに基づき検索クエリに対する検索対象のWebページのランクを前記ページ識別子と対応付けて格納する第2データベースと、
    前記ページ識別子、前記検索クエリ、Webページの利用情報をそれぞれ対応付けて格納する第3データベースと、を備えたランキング関数生成装置を通じて、検索クエリに基づきWebページの集合を検索した検索結果をランキングするためのランキング関数を生成する方法であって、
    特徴抽出手段が、第1データベースのページ識別子ごとに第2データベースの格納情報を取得し、該識別子に対応する検索クエリの前記ページ本文への関連度と、第2データベースの該識別子に応じたランクとから特徴値を算出し、算出された特徴値を前記ページ識別子と前記クエリとに対応付けるステップと、
    推定器生成手段が、第3データベースのページ識別子と検索クエリごとに前記特徴値および前記利用情報に基づき該両者の関係を示す関数を持つ推定器を生成し、該推定器の関数に前記特徴値を入力して前記利用情報の推定結果を算出し、該推計結果を前記ページ識別子と前記検索クエリとに対応付けるステップと、
    ランキング関数生成手段が、第2データベースのページ識別子と検索クエリごとに、それぞれ対応する前記ランク、前記特徴値、前記推定結果に基づき順序付き学習を行ってランキング関数を生成するステップと、
    を有することを特徴とするランキング関数生成方法。
  4. 検索対象の各Webページのページ識別子と該ページの本文とを対応付けて格納するWebページデータベースと、
    検索ログに基づき検索クエリに対する検索対象のWebページのランクを前記ページ識別子と対応付けて格納する評価データベースと、
    前記ページ識別子、検索クエリ、Webページのクリック情報をそれぞれ対応付けて格納するクリックログデータベースと、を備えたランキング関数生成装置を通じて、検索クエリに基づきWebページの集合を検索した検索結果をランキングするためのランキング関数を生成する方法であって、
    特徴抽出手段が、Webデータベースのページ識別子ごとに評価データベースの格納情報を取得し、該識別子に対応する検索クエリの前記ページ本文への関連度と、評価データベースの該識別子に応じたランクとから特徴値を算出し、該特徴値を前記ページ識別子と前記クエリとに対応付けて特徴データベースに格納するステップと、
    推定器生成手段が、クリックログデータベースのページ識別子と検索クエリごとに、該データベースのクリック情報と特徴データベースの特徴値との関係を示す関数を持つ推定器を生成するステップと、
    クリックログデータベースのページ識別子と検索クエリごとに推定器の関数に特徴データベースの特徴値を入力して算出した推定クリック情報を、前記ページ識別子と前記検索クエリとに対応付けて推定クリッログデータベースに格納するステップと、
    ランキング関数生成手段が、評価データベースのページ識別子と検索クエリごとに、それぞれ対応する評価データベースのランクと特徴データベースの特徴値と推定クリックログデータベースの推定クリック情報とから順序付き学習を行ってランキング関数を生成するステップと、
    を有することを特徴とするランキング関数生成方法。
  5. 請求項1または2のいずれか1項に記載のランキング関数生成装置としてコンピュータを機能させるためのランキング関数生成プログラム。
JP2009254517A 2009-11-06 2009-11-06 ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム Expired - Fee Related JP5416552B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009254517A JP5416552B2 (ja) 2009-11-06 2009-11-06 ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009254517A JP5416552B2 (ja) 2009-11-06 2009-11-06 ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム

Publications (2)

Publication Number Publication Date
JP2011100302A true JP2011100302A (ja) 2011-05-19
JP5416552B2 JP5416552B2 (ja) 2014-02-12

Family

ID=44191424

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009254517A Expired - Fee Related JP5416552B2 (ja) 2009-11-06 2009-11-06 ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム

Country Status (1)

Country Link
JP (1) JP5416552B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013061718A (ja) * 2011-09-12 2013-04-04 Nippon Telegr & Teleph Corp <Ntt> サポートベクタ選択装置、方法、及びプログラム
WO2021234775A1 (ja) * 2020-05-18 2021-11-25 日本電信電話株式会社 ランキング関数生成装置、ランキング関数生成方法及びプログラム
US11636120B2 (en) 2014-11-21 2023-04-25 Microsoft Technology Licensing, Llc Offline evaluation of ranking functions

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008097546A (ja) * 2006-10-16 2008-04-24 Cirius Technologies Inc 広告方法、広告システム及び広告プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008097546A (ja) * 2006-10-16 2008-04-24 Cirius Technologies Inc 広告方法、広告システム及び広告プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN7013002099; Thorsten Joachims: 'Optimizing Search Engines using Clickthrough Data' '02 Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mi , 2002, page133-142, ACM *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013061718A (ja) * 2011-09-12 2013-04-04 Nippon Telegr & Teleph Corp <Ntt> サポートベクタ選択装置、方法、及びプログラム
US11636120B2 (en) 2014-11-21 2023-04-25 Microsoft Technology Licensing, Llc Offline evaluation of ranking functions
WO2021234775A1 (ja) * 2020-05-18 2021-11-25 日本電信電話株式会社 ランキング関数生成装置、ランキング関数生成方法及びプログラム
JP7355237B2 (ja) 2020-05-18 2023-10-03 日本電信電話株式会社 ランキング関数生成装置、ランキング関数生成方法及びプログラム

Also Published As

Publication number Publication date
JP5416552B2 (ja) 2014-02-12

Similar Documents

Publication Publication Date Title
JP5492187B2 (ja) 編集距離および文書情報を使用する検索結果順位付け
US8990241B2 (en) System and method for recommending queries related to trending topics based on a received query
RU2517271C2 (ru) Длина документа в качестве статического признака релевантности для ранжирования результатов поиска
WO2016000555A1 (zh) 基于社交网络的内容、新闻推荐方法和系统
US8515986B2 (en) Query pattern generation for answers coverage expansion
US20120016863A1 (en) Enriching metadata of categorized documents for search
US20100185623A1 (en) Topical ranking in information retrieval
JP2008250722A (ja) 文書検索システム、文書番号部分列取得装置、および文書検索方法
JP5237353B2 (ja) 検索装置、検索システム、検索方法、検索プログラム、及び検索プログラムを記憶するコンピュータ読取可能な記録媒体
US9251202B1 (en) Corpus specific queries for corpora from search query
JP2009122807A (ja) 連想検索システム
JP5416552B2 (ja) ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム
JP4912384B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
US10176264B2 (en) Generating topic pages based on data sources
JP4759600B2 (ja) 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体
JP5292336B2 (ja) 検索システムユーザの分野ごとにおける知識量推定装置、知識量推定方法および知識量推定プログラム
JP2011100191A (ja) 文書検索装置、文書検索方法、及び文書検索プログラム
JP2006228116A (ja) ウェブページリンク判定方法およびウェブページリンク判定装置
JP5393392B2 (ja) 時間表現抽出装置、時間表現抽出方法および時間表現抽出プログラム
TW201209744A (en) Method of recording information of merchandise visited by consumers, and searching method and server
JP5358481B2 (ja) 文書検索装置、文書検索方法、文書検索プログラム
TWI484359B (zh) 文章資訊提供方法以及系統
JP5235730B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP2011022624A (ja) ウェブページ検索システム、ウェブページ検索方法、ウェブページ検索サーバ及びウェブページ検索プログラム
JP5378272B2 (ja) クエリ特徴量算出方法及び装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130611

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130903

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131115

R150 Certificate of patent or registration of utility model

Ref document number: 5416552

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees