JP2014500534A

JP2014500534A - 検索結果を順位付ける方法および装置

Info

Publication number: JP2014500534A
Application number: JP2013530401A
Authority: JP
Inventors: フアシンジン; ウェイチェン; ペンフアン; シューヤン; フェンリン; ジオンフェン; チンチャン
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2010-09-28
Filing date: 2011-09-26
Publication date: 2014-01-09
Anticipated expiration: 2031-09-26
Also published as: CN102419755B; EP2622514A4; JP5864586B2; US20130191381A1; US8862604B2; US9372899B2; HK1166162A1; WO2012047593A3; US8538975B2; CN102419755A; US20150039604A1; TW201214168A; EP2622514A2; WO2012047593A2; US20130325857A1; TWI512506B

Abstract

検索結果を順位付けることは、ログシステムから露出ログファイルを取得することと、ログファイルと検索リクエストとの間の関連性に対するベイズの事後確率を計算することと、ベイズの事後確率に基づいて、ログファイルと検索リクエストとの間の関連性の期待値を計算することと、検索リクエストおよびログファイルの識別子をキーとして、ならびにログファイルと検索リクエストとの間の関連性の期待値を値として、検索データ構造内に記憶することと、ユーザによって提出された検索リクエストを受信することに応答して、検索データ構造から、提出された検索リクエストと提出された検索リクエストに関連するログファイルとの間の関連性の期待値を検出することと、検出されたログファイルを期待値の降順に順位付けることとを含んでもよい。

Description

関連特許出願への相互参照
本願は、２０１０年９月２８日に提出された中国特許出願第２０１０１０２９９１００．０号、名称「ＭｅｔｈｏｄａｎｄＡｐｐａｒａｔｕｓｏｆＯｒｄｅｒｉｎｇＳｅａｒｃｈＲｅｓｕｌｔｓ」のＰＣＴ国際出願であり、これの優先権を主張し、その全体を参照により組み入れる。

本開示は、通信およびコンピュータ技術分野に関し、具体的には、検索結果を順位付ける方法および装置に関する。

ユーザが検索エンジンに検索リクエストを提出した後、検索エンジンは、ユーザの検索リクエストに関連性がある大量の情報を呼び出す。検索エンジンはさらに、ユーザが検索エンジンを通じて最も所望される情報を迅速に見出すことを可能にするように、各情報と検索リクエストとの間の関連度に基づいて情報を順位付ける。

現在、検索エンジンはほとんどの場合、各情報とユーザの検索リクエストの間の関連度を反映するためにＣＴＲ（クリックスルー率）を使用し、ＣＴＲとは、クリック率と情報の露出率との間の割合である。各情報のＣＴＲを計算した上で、検索エンジンは、検索結果リスト内の情報をＣＴＲの降順に順位付ける。

しかしながら、研究中、本特許出願の発明人は、情報とユーザ検索リクエストとの間の関連度がしばしば、検索結果リスト内のその情報の位置および検索結果リストに関連するクリックシークエンスに関係することを認めた。例えば、異なる位置にある情報のＣＴＲは、同じ検索結果ページ内のそれぞれの関連性が同じであっても、同じではない場合がある。あるいは、ユーザによってクリックされた情報は、次の情報をクリックする確率に影響を与える場合がある。

いずれにせよ、既存の技術は、検索結果の順位決定プロセス中にクリック率および情報の露出率だけを検討するが、検索結果リスト内の情報の位置および検索結果リストに関連するクリックシークエンスについての因子を検討することを怠る。このように、順位決定プロセスにおいて使用される関連性スコアには、比較的大きい分散が存在する。多くの場合、ユーザが所望する情報は、検索結果リストの末尾近辺に位置し、不良な検索結果順位決定を招く。一方、検索結果が不良に順位決定されると、ユーザは通常、自分の最も所望する情報を取得するために、より多くの情報を閲覧し、クリックすることが必要になる。ユーザがウェブサイトで大量の閲覧およびクリックを「盲目的に」行うと、ネットワークシステム、特に検索エンジンのサーバの作業負荷が増大し、それによって、ネットワークシステムの稼働率を削減させる。したがって、検索エンジンサーバに対する検索プロセスのコストが増大し、検索エンジンサーバのシステムリソースを無駄にする。

上述の問題を解決するために、本開示の例示的な実施形態は、検索エンジンサーバに対する検索プロセスのコストを削減し、検索エンジンサーバのシステムリソースを節約するように、検索結果を順位付ける方法および装置を提供する。

一実施形態において、ログシステムから露出ログファイルが取得される。ログファイルと検索リクエストとの間の関連性に対するベイズの事後確率が計算される。ベイズの事後確率に基づいて、ログファイルと検索リクエストとの間の関連性の期待値が計算される。いくつかの実施形態において、検索データ構造内に、検索リクエストおよびログファイルの識別子がキーとして記憶され、ログファイルと検索リクエストとの間の関連性の期待値が値として記憶される。一実施形態において、ユーザによって提出された検索リクエストを受信することに応答して、検索データ構造から、提出された検索リクエストと提出された検索リクエストに関連性があるログファイルとの間の関連性の期待値が検出される。一実施形態において、検出されたログファイルは、期待値の降順に順位付けられる。

いくつかの実施形態において、検索結果を順位付けるための装置が提供される。装置は、取得モジュールと、確率計算モジュールと、期待値計算モジュールと、インデックス付けモジュールと、検索モジュールと、順位付けモジュールとを含んでもよい。一実施形態において、取得モジュールは、ログシステムから露出ログファイルを取得してもよい。確率計算モジュールは、ログファイルと検索リクエストとの間の関連性に対するベイズの事後確率を計算してもよい。一実施形態において、期待値計算モジュールは、ベイズの事後確率に基づいて、ログファイルと検索リクエストとの間の関連性の期待値を計算してもよい。インデックス付けモジュールは、検索リクエストおよびログファイルの識別子をキーとして、ならびにログファイルと検索リクエストとの間の関連性の期待値を値として、検索データ構造内に記憶してもよい。いくつかの実施形態において、ユーザによって提出された検索リクエストを受信することに応答して、検索モジュールは、検索データ構造から、ユーザによって提出された検索リクエストと提出された検索リクエストに関連性があるログファイルとの間の関連性の期待値を検出してもよい。一実施形態において、順位付けモジュールは、検出されたログファイルを期待値の降順に順位付けてもよい。

上記の例示的な実施形態から、本開示は、順位付けプロセス全体を通して、検索結果リスト内の情報の位置および検索結果リストに関連するクリックシークエンスに関する因子を検討する。具体的には、開示される方法および装置は、ユーザによって提出された検索リクエストと提出された検索リクエストに関連するログファイルとの間の関連性の期待値を検索データ構造から検出することに応答して、ベイズの事後確率に基づいてログファイルと検索リクエストとの間の関連性の期待値を計算し、及び検出されたログファイルを検出された期待値の降順に順位付ける。このように、順位付けの基本である関連性が向上する。さらに、ユーザは、最も所望される情報を迅速に取得するように、より短い閲覧時間およびより少ないクリックを使用することができ、このため、検索エンジンサーバに対する検索プロセスのコストを削減し、検索エンジンサーバのシステムリソースを節約する。

本開示の例示的な実施形態または既存の技術の技術的設計をより明確に理解するため、例示的実施形態または既存の技術を説明するために重要である添付の図面を以下に簡単に記載する。理解できるように、以下の図面は、本開示のいくつかの例示的な実施形態を構成するに過ぎない。これらの添付の図面に基づいて、当業者は、一切の創造的活動を行うことなく、他の図面を得ることができる。
検索結果を順位付ける例示的な方法を図示する流れ図である。本開示に従って作成される確率モデルの構造を図示する模式図である。検索結果を順位付ける別の例示的な方法を図示する流れ図である。検索かつ順位決定システムを図示する構造図である。検索結果を順位付ける例示的な装置を図示する構造図である。検索結果を順位付ける別の例示的な装置を図示する構造図である。検索結果を順位付けるさらに別の例示的な装置を図示する構造図である。検索結果を順位付けるさらに別の例示的な装置を図示する構造図である。図５〜８に記載のような例示的装置のさらに詳細を示す。

当業者が例示的な実施形態の技術的設計、目標、特徴、および利点を明確に理解することを支援するため、例示的な実施形態の添付の図面を参照して、例示的な実施形態の技術的設計のさらに詳細を記載する。

第１の例示的な実施形態
図１は、検索結果を順位付ける例示的な方法を図示する流れ図であり、以下のブロックを含む。

１０１で、方法は、ログシステムから露出ログファイルを取得する。

ログシステムは、増分更新手法を使用して、過去に露出されたログファイルおよび当日に露出されたログファイルを記憶する。ログシステムに記憶されたログファイル全ては、ログシステムから呼び出される。ユーザが検索エンジンを通して検索を実施すると、対応する検索リクエストに関連性がある検索結果がユーザに表示される。ユーザに表示された検索結果が露出検索結果であり、これらは、ログファイルの形式でログシステムに記憶される。

１０２で、方法は、ログファイルと検索リクエストとの間の関連性のベイズの事後確率を計算する。

研究中、本特許出願の発明人は、情報とユーザ検索リクエストの間の関連度がしばしば、検索結果リスト内のその情報の位置および検索結果リストに伴うクリックシークエンスに関係することを認めた。例えば、検索結果ページがユーザに示されると、ユーザは典型的に、ウェブページ内に表示された、ログファイルの表示情報を上から下まで閲覧し、ログファイルの表示情報が自分の検索意図を満たす場合、ログファイルの表示情報をクリックして、対応する内容を読む。その表示情報の内容を読んだ後、ユーザは、その後に続くログファイルの表示情報を閲覧することを継続するか、または所望のコンテンツが発見された場合には、閲覧を停止する場合がある。したがって、ユーザが所定のログファイルをクリックするかどうかは、そのログファイルを視認したかどうかに依存し、さらに、ログファイルとユーザの検索リクエストとの間の関連度に依存する。さらに、ユーザが次のログファイルの閲覧を継続するかどうかは、その次のログファイルの前にあるログファイルのクリック状況に依存する。

上記の状況に基づいて、数学モデルが作成される。図２は、本開示に従って作成される確率モデルの構造の模式図である。図２では、各ノードがランダム変数を表す。Ｓは、ログファイルとユーザの検索リクエストとの間の関連性を表す。Ｅは、ユーザがログファイルを視認したかどうかを表す。Ｃは、ユーザがログファイルをクリックしたかどうかを表す。Ａの添字は、検索結果ページ内に表示されたログファイルの位置を表し、Ｍは、検索結果ページ内のログファイルの総数を表す。前述の解析に基づいて、ユーザが所定のログファイルをクリックするかどうかは、ユーザがログファイルを視認したかどうか、およびログファイルとユーザの検索リクエストとの間の関連度に関係する。さらに、ユーザが次のログファイルの閲覧を継続するかどうかは、以前のログファイルのクリック状況に関係する。例えば、図２のモデルから、Ｓ１およびＥ１は別々にＣ１に向かっており、ユーザがログファイルＣ１をクリックするかどうかは、ユーザがログファイルＥ１を視認したかどうか、およびそのログファイルとユーザの検索リクエストとの間の関連度Ｓ１に関係することを示す。さらに、Ｃ１はＥ２に向かっており、ユーザが次のログファイルＥ２の閲覧を継続するかどうかは、ログファイルＣ１のクリック状況に関係することを示す。

図２に示された数学モデルの確率推論に基づいて、事前分散が［０,１］上の一様分布に従い、０および１は実数値区間の２つの端点を表していること（すなわち、関連性変数の事前分布が実数値区間の０と１の間に一様に分布される）、およびユーザがログファイルＣ１、Ｃ２・・・ＣＮをクリックしたという条件下では、ログファイルと検索リクエストとの間の関連性の結合事後分布を計算するための式は、以下である。

上記の式中、Ｒ_ｊは、ログファイルｊおよびユーザ検索リクエストに対するランダム関連性変数を表す。Ｎ_ｊは、ログファイルｊがクリックされた総回数を表す。

は、ログファイルｊが位置ｒ＋ｄにあって、クリックされず、位置ｒにあるログファイルがクリックされ、ｒとｒ＋ｄとの間の位置にあるログファイルがクリックされない状況の発生回数を表す。Ｔは、（ｒ,ｄ）の間の全ての可能な値を表す。

は、グローバルパラメータである。Ｎは、ログシステムから呼び出されたログファイルの総数を表す。ｚは、正規化係数を表す。

結合分布の上記の形態から、結合分布は、個別のファイルの分布の乗法の積として求められてもよい。したがって、単一ドキュメントｊの関連性の事後分布を計算するための式は以下である。

は、グローバルパラメータで、推定値

を有する。

は、ログファイルｊを含む同じクリックシーケンス内において、位置ｒおよびｒ＋ｄにあるログファイルがクリックされ、ｒとｒ＋ｄとの間の位置にあるログファイルがクリックされない状況の発生回数である。

は、ログファイルｊを含む同じクリックシーケンス内において、位置ｒにあるログファイルがクリックされ、位置ｒ＋ｄにあるログファイルがクリックされず、ｒとｒ＋ｄとの間の位置にあるログファイルがクリックされない状況の発生回数である。ｒの値は、Ｍ−１以下の自然数であり、ｄの値は、Ｍ−ｒ以下の整数であり、Ｍは、ログファイルｊを含む同じクリックシーケンス内のログファイルの総数を表す。同じクリックシーケンスは、ユーザの検索リクエストに対して取得された全ての検索結果を構成するシーケンスに対応する。例えば、ユーザの検索リクエスト「ＭＰ３」に対応して、ユーザのその検索リクエストに対する検索結果の総数は、１００個のログファイルである。したがって、これらの１００個のログファイルは、「ＭＰ３」に対する同じクリックシーケンスを成す。

１０３で、方法は、ベイズの事後確率に基づいて、ログファイルと検索リクエストとの間の関連性の期待値を計算する。

前のブロックから取得されたベイズの事後確率に基づいて、ログファイルと検索リクエストとの間の関連性の期待値が計算され、期待値を計算するための式は以下である。

期待値を計算するためのコストは比較的大きく、比較的大量のシステムリソースを消費するようになることに注意されたい。期待値を計算するためにシステムリソースを過剰に消費することを回避するため、このブロックで、ログファイルに対する関連性の期待値を計算する前に、ログファイルに対するフィルタリングが実施される。あるログファイルは、ユーザの検索リクエストに関して、良くも悪くもない関連性を有する。実際に適用する際、関連性が良くも悪くもないこれらのログファイルは、容量および時間を節約するために、フィルタリングされてもよい。

一般的に、ログファイルとユーザの検索リクエストとの間の関連性は、関連性の期待値が０．５である場合は、良くも悪くもない。したがって、例えば、検索リクエストに関する関連性が０．５以下の期待値を有するログファイルがフィルタリングされてもよい。本開示は、期待値を計算する前に、関連性が良くも悪くもないログファイルをフィルタリングする手法を提供する。

好ましくは、ベイズの事後確率に基づいてログファイルと検索リクエストとの間の関連性の期待値を計算する前に、方法は、グローバルパラメータに基づいてログファイルをフィルタリングすることをさらに含み、事前に定義された閾値未満のそれぞれのグローバルパラメータを有するログファイルがフィルタリングされる。ここで、グローバルパラメータとは、ユーザの検索リクエストに関係しないが、ユーザによる検索エンジンの評価を反映する一群のインジケータパラメータに対応するパラメータを言う。ある状況では、グローバルパラメータと、ログファイルと検索リクエストとの間の関連性の期待値との間の対応関係は、確率分布関数を通して確立される。期待値に対する閾値に基づくフィルタリングは、グローバルパラメータに対する閾値に基づくフィルタリングに等しい。このような関係の微分は、前もって解析されることが必要であり、グローバルパラメータに対する閾値は、システムの初期段階で期待値に対する閾値に基づいて計算される。このように、フィルタリングは、ログ処理段階でグローバルパラメータを使用して実施されてもよい。

例えば、露出ログファイルから、１回露出されたが、クリックされなかったログファイルが選択される。選択されたログファイルの中で、フィルタリング条件式

に従って事前に定義された閾値未満のそれぞれのグローバルパラメータを有するログファイルがフィルタリングされ、式中、β_ｒ,ｄはグローバルパラメータである。

。

は、選択されたログファイルを含む同じクリックシーケンス内において、位置ｒおよびｒ＋ｄにあるログファイルがクリックされ、ｒとｒ＋ｄとの間の位置にあるログファイルがクリックされない状況の発生回数である。説明の目的で、例示のために５つのログファイルを含むクリックシーケンスの例を使用する。第１、第３、および第５の位置にあるログファイルがクリックされたが、第２および第４の位置にあるログファイルはクリックされなかった。具体的には、第１および第３の位置にあるログファイルがクリックされ、第２と第４との間の位置にあるログファイル（すなわち、第２の位置にあるログファイル）がクリックされなかった状況では、発生回数は１である。さらに、第３および第５の位置にあるログファイルがクリックされ、第３と第５との間の位置にあるログファイル（すなわち、第４の位置にあるログファイル）がクリックされなかった状況では、発生回数は１である。したがって、上記のクリックシーケンスに従うと

は２である。

は、選択されたログファイルを含む同じクリックシーケンス内において、位置ｒにあるログファイルがクリックされ、位置ｒ＋ｄにあるログファイルがクリックされず、ｒとｒ＋ｄとの間の位置にあるログファイルがクリックされない状況の発生回数である。ｒの値は、Ｍ−１以下の自然数であり、ｄの値は、Ｍ−ｒ以下の整数であり、Ｍは、選択されたログファイルを含む同じクリックシーケンス内のログファイルの総数を表す。Ｅ_ｔｈは、ログファイルと検索リクエストとの間の関連性の期待値に対応して事前に定義された閾値である。

Ｅ_ｔｈは、ログファイルと検索リクエストとの間の関連性の期待値に対応して事前に定義された閾値であることに注意されたい。一般的に、閾値は、ログファイルと検索リクエストとの間の関連性の期待値に対して定義される。例えば、閾値が０．５として設定される場合、０．５となる関連性の期待値を有するログファイルがフィルタリングされてもよい。理解できるように、関連性の期待値の事前に定義される閾値は、ユーザの必要性およびユーザの適用事例に従って設定されてもよい。本開示はこれに関する制限を全く有さない。

ログファイルをフィルタリングした上で、このブロックで、フィルタリングされたログファイルの期待値が計算される。

さらに、ログファイルと検索リクエストとの間の関連性の期待値を計算した後、かつログファイルと検索リクエストとの間の関連性の期待値を値として検索データ構造内に記憶する前に、ログファイルに対して、更なるフィルタリングが実施されてもよい。これによって、データ構造内に記憶されるログファイルは、２つのフィルタリング動作後、検索リクエストとのより高い関連性を有することが確実にする。したがって、検索エンジンは、検索データ構造から、ユーザによって提出された検索リクエストに関連性があるログファイルおよびそれぞれの期待値を迅速に検出することができる。さらに、ログファイルと検索リクエストとの間の関連性の期待値が計算されているため、フィルタリングは、ログファイルと検索リクエストとの間の関連性の期待値を通して直接実施することができる。具体的には、ログファイルと検索リクエストとの間の関連性の期待値が事前に定義された値以下である場合、そのログファイルはフィルタリングされる。

さらに、ログファイルと検索リクエストとの間の関連性の分散は、ベイズの事後確率に基づいて計算されてもよく、フィルタリングのために、すなわち、ログファイルと検索リクエストとの間の関連性の分散が事前に定義された値以下である場合、ログファイルをフィルタリングするために、直接使用されてもよい。

分散を計算するための数式は以下である。

ログファイルと検索リクエストとの間の関連性の期待値または分散に相当する事前に定義された閾値が、使用の必要性およびユーザの適用事例に基づいて設定されてもよいことにさらに注意されたい。本開示は、これに関して一切の制限を有さない。

１０４で、方法は、検索リクエストおよびログファイルの識別子をキー、ならびにログファイルと検索リクエストとの間の関連性のそれぞれの期待値を、検索データ構造内に価値として記憶する。

例えば、キー（ｋｅｙ）は、検索リクエストおよびログファイルの識別子によって占有される連続的なメモリブロックであり、検索リクエスト内の１文字は１メモリバイトを占有し、ログファイルの識別子は、４メモリバイトによって表される。値（ｖａｌｕｅ）は、それぞれの期待値の乗じた積の整数部で占有し１００００倍したメモリである。検索データ構造内のキーと値のインデックス付けは、一般的に使用されるトライ木を使用して確立されてもよく、本明細書のこの例示的な実施形態ではさらに詳細を記載しない。

好ましくは、検索データ構造の精度を確実にするため、検索リクエストおよびログファイルの識別子をキーとして、ならびにログファイルと検索リクエストとの間の関連性のそれぞれの期待値を値として検索データ構造内に記憶した後、方法は、検索データ構造を検証することをさらに含む。検索データ構造から、ユーザによって提出された検索リクエストと提出された検索リクエストに関連する全てのログファイルとの間の関連性の期待値を検出することは、検証された検索データ構造から、ユーザによって提出された検索リクエストと提出された検索リクエストに関連する全てのログファイルとの間の関連性の期待値を検出することを含む。

検索データ構造を検索するために検索データ構造内のキーを検索エンジンに対する入力データとして使用した上で、出力結果が入力データとして使用されたキーの対応する値である場合、検証は合格である。例えば、検索データ構造は、１群のキー・値対を含む。検索リクエストに対応するキー・値対内のキーの部分は、「ＭＰ３」であり、ログファイルの識別子に対応するキー・値対内のキーの部分は、それぞれ、ＩＤ１、ＩＤ２、およびＩＤ３である。ログファイルと検索リクエストとの間の関連性の期待値に対応するキー・値対内の値は、それぞれ、０．５、０．８、および０．７である。「ＭＰ３およびＩＤ１」、「ＭＰ３およびＩＤ２」、ならびに「ＭＰ３およびＩＤ３」は個別に入力データとして使用される。検索エンジンを通して検索データ構造を検索した後、それぞれの出力結果が０．５、０．８、および０．７である場合、検証は合格である。それ以外、検証は失敗である。

検索データ構造内のキー全ては、上記の手法を使用して１つずつ検証される。検索データ構造は、キー全ての検証に成功すると、検証に合格する。

１０５で、方法は、ユーザによって提出された検索リクエストを受信することに応答して、検索データ構造から、ユーザによって提出された検索リクエストと提出された検索リクエストに関連する全てのログファイルとの間の関連性の期待値を検出する。

１０６で、方法は、検出されたログファイルを検出された期待値の降順に順位付ける。

上記の例示的な実施形態から、開示される方法は、ベイズの事後確率に基づいてログファイルと検索リクエストとの間の関連性の期待値を計算し、ユーザによって提出された検索リクエストと提出された検索リクエストに関連するログファイルとの間の関連性の期待値を検索データ構造から検出することに応答して、検出されたログファイルを検出された期待値の降順に順位付ける。情報の位置およびクリックシーケンスに関する因子を考慮することによって、ユーザは、最も所望する情報を迅速に取得することができ、これによって、検索エンジンサーバの検索プロセスのコストを削減し、検索エンジンサーバのシステムリソースを節約する。

第２の例示的な実施形態
検索結果を順位付ける方法の別の実施形態を以下に詳細に記載する。図３は、検索結果を順位付ける別の例示的な方法を図示する流れ図である。方法は、以下のブロックを含む。

３０１で、方法は、ログシステムから、今日露出されたログファイルと、過去に露出されたログファイルとを取得する。

今日露出されたログファイルと、ある時間間隔内の過去に露出されたログファイルは、別々に保存されてもよい。例えば、変動する時間枠内のログファイルがバックアップコピーとして保存される場合があり、一連のシステム動作において異常が発生した場合に、問題を調査し、データを復元するために使用される場合がある。

３０２で、方法は、ログシステムからそれぞれ今日露出されたログファイルおよび過去に露出されたログファイルに基づいて、今日の部分統計および履歴の部分統計を計算する。

部分統計は

と

とを含む。

は、ログファイルｊがクリックされた総回数を表す。

は、位置ｒ＋ｄにあるログファイルｊがクリックされ、位置ｒにあるログファイルがクリックされ、ｒとｒ＋ｄとの間の位置にあるログファイルがクリックされないという状況の発生回数を表す。Ｔは、（ｒ,ｄ）の間の全ての可能な値を表す。

３０３で、方法は、今日の部分統計および履歴の部分統計を結合する。

今日の部分統計およびある時間間隔内の履歴の部分統計は、増分更新をサポートし、動作中に発生する場合がある問題を調査し、データを復元するために、別々に保存されてもよい。

３０４で、方法は、ログシステムからそれぞれ今日露出されたログファイルおよび過去に露出されたログファイルに基づいて、今日の全体統計および履歴の全体統計を計算する。

全体統計は

と

とを含む。

は、ログファイルｊを含む同じクリックシーケンス内において、位置ｒにあるログファイルがクリックされ、位置ｒ＋ｄにあるログファイルがクリックされず、ｒとｒ＋ｄとの間の位置にあるログファイルがクリックされない状況の発生回数である。ｒの値は、Ｍ−１以下の自然数であり、ｄの値は、Ｍ−ｒ以下の整数であり、Ｍは、ログファイルｊを含む同じクリックシーケンス内のログファイルの総数を表す。

３０５で、方法は、今日の全体統計および履歴の全体統計を結合する。

今日の全体統計およびある時間間隔内の履歴の全体統計は、増分更新をサポートし、動作中に発生する場合がある問題を調査し、データを復元するために、別々に保存されてもよい。

３０６で、方法は、結合された全体統計に基づいて、グローバルパラメータを計算する。

グローバルパラメータは

、

である。

３０７で、方法は、対応する事前に定義された閾値未満のグローバルパラメータを有するログファイルがフィルタリングされるように、グローバルパラメータに基づいてログファイルをフィルタリングする。

３０８で、方法は、フィルタリングされたログファイルと検索リクエストとの間の関連性に対するベイズの事後確率を計算する。

ログファイルと検索リクエストとの間の関連性のベイズの事後確率を計算するプロセスは、第１の例示的な実施形態において詳細に記載されているため、本明細書では重ねて記載しない。関係する計算プロセスは、第１の例示的な実施形態において言及されている場合がある。

３０９で、方法は、ベイズの事後確率に基づいて、フィルタリングされたログファイルと検索リクエストとの間の関連性の期待値を計算する。

ログファイルと検索リクエストとの間の関連性の期待値のプロセスは、第１の例示的な実施形態において詳細に記載されているため、本明細書では重ねて記載しない。関係する計算プロセスは、第１の例示的な実施形態において言及されている場合がある。

３１０で、方法は、事前に定義された値以下の期待値を有するログファイルがフィルタリングされるように、ログファイルと検索リクエストとの間の関連性の期待値に基づいてログファイルをフィルタリングする。

３１１で、方法は、検索リクエストおよびログファイルの識別子をキーとして、ならびにログファイルと検索リクエストとの間の関連性の期待値をそれぞれの値として、検索データ構造内に記憶する。

検索データ構造はさらに、検証された検索データ構造を取得するように検証されてもよい。

３１２で、方法は、ユーザによって提出された検索リクエストを受信することに応答して、検索データ構造から、ユーザによって提出された検索リクエストと提出された検索リクエストに関連する全てのログファイルとの間の関連性の期待値を検出する。

３１３で、方法は、検出されたログファイルを検出された期待値の降順に順位付ける。

開示の検索結果を順位付ける方法は、検索および順位決定システムの構造図を示す、図４に示される検索分野において適用されてもよい。新しい検索ログの日次取得および増分更新、ならびに検索および順位決定システムを更新するために関連インデックスデータを出力することは、順位決定のための重要因子である。

さらに、開示の検索結果を順位付ける方法は、順位決定評価システム内で適用されてもよい。例えば、検索リクエストが与えられると、開示の方法を使用して、ログファイルシーケンス内の検索リクエストに関する各ログファイルの関連性スコアが取得される。これらのスコアは、シーケンスの暗示的なユーザ評価である。これらの関連性スコアのシーケンスは、確率分布関数ｐ（ｘ）を求めるために正規化されてもよい。さらに、評価される順位付け方法は、確率分布関数ｇ（ｘ）を求めるために、同じログファイルシーケンス内の各ログファイルの関連性スコアを計算し、正規化するために使用される。ｐ（ｘ）とｇ（ｘ）との間の距離は、評価される順位付け方法に対する推定値として使用される。差が小さくなればなるほど、評価される順位付け方法の評価が高くなる。距離を計算するための数式は

である。

さらに、開示の検索結果を順位付ける方法は、順位決定トレーニングシステムに適用されてもよい。例えば、開示の方法を使用して、Ｙとして表される、（検索、ファイル）対に対する関連性スコアが取得される。（検索、ファイル）対のプロパティ（Ｘによって表される）、例えば、テキストプロパティまたは画像プロパティは、その後取得される。次いで、機械学習方法を使用して、関連性アルゴリズムＹ＝ｆ（Ｘ）がトレーニングされる。

上記の例示的な実施形態から、開示される方法はユーザによって提出された検索リクエストと提出された検索リクエストに関連するログファイルとの間の関連性の期待値を検索データ構造から検出することに応答して、ベイズの事後確率に基づいてログファイルと検索リクエストの間の関連性の期待値を計算し、検出されたログファイルを検出された期待値の降順に順位付ける。情報の位置およびクリックシーケンスに関する因子を考慮することによって、ユーザは、最も所望する情報を迅速に取得することができ、これによって、検索エンジンサーバの検索プロセスのコストを削減し、検索エンジンサーバのシステムリソースを節約する。

第３の例示的な実施形態
上記の検索結果を順位付ける方法に対応して、例示的な実施形態はさらに、検索結果を順位付ける装置を提供する。図５は、検索結果を順位付けるための例示的な装置を図示する構造図であり、取得モジュール５０１と、確率計算モジュール５０２と、期待値計算モジュール５０３と、インデックス付けモジュール５０４と、検索モジュール５０５と、順位付けモジュール５０６とを含む。装置の内部構造および接続関係は、装置の作動原則を使用して記載する。

取得モジュール５０１は、ログシステムから露出ログファイルを取得するように構成される。

確率計算モジュール５０２は、ログファイルと検索リクエストとの間の関連性のベイズの事後確率を計算するように構成される。

期待値計算モジュール５０３は、ベイズの事後確率に基づいて、ログファイルと検索リクエストとの間の関連性の期待値を計算するように構成される。

インデックス付けモジュール５０４は、検索リクエストおよびログファイルの識別子をキーとして、ログファイルと検索リクエストとの間の関連性の期待値をそれぞれの値として、検索データ構造内に記憶するように構成される。

検索モジュール５０５は、ユーザによって提出された検索リクエストを受信することに応答して、検索データ構造から、ユーザによって提出された検索リクエストと提出された検索リクエストに関連するログファイルとの間の関連性の期待値を検出するように構成される。

順位付けモジュール５０６は、検出された期待値の降順に従って、検出されたログファイルを順位付けるように構成される。

好ましくは、図６は、検索結果を順位付ける別の例示的な装置を図示する構造図である。取得モジュール５０１、確率計算モジュール５０２、期待値計算モジュール５０３、インデックス付けモジュール５０４、検索モジュール５０５、および順位付けモジュール５０６に加えて、装置は、ベイズの事後確率に基づいてログファイルと検索リクエストとの間の関連性の期待値を計算する前に、グローバルパラメータに基づいてログファイルをフィルタリングするように構成された第１のフィルタリングモジュール５０７をさらに含み、期待値計算モジュール５０３は、ベイズの事後確率に基づいて、フィルタリングされたログファイルと検索リクエストとの間の関連性の期待値を計算するように構成される。

第１のフィルタリングモジュール５０７は、選択サブモジュール５０７１と、フィルタリングサブモジュール５０７２とをさらに含む。

選択サブモジュール５０７１は、露出ログファイルから、１回露出されていて、かつクリックされていないログファイルを選択するように構成される。

フィルタリングサブモジュール５０７２は、フィルタリング条件式

に従って、選択されたログファイルから、ログファイルの対応する事前に定義された閾値未満のグローバルパラメータを有するログファイルをフィルタリングするように構成され、式中、

はグローバルパラメータ

であり、

は、選択されたログファイルを含む同じクリックシーケンス内において、位置ｒおよびｒ＋ｄにあるログファイルがクリックされ、ｒとｒ＋ｄとの間の位置にあるログファイルがクリックされない状況の発生回数である。

は、選択されたログファイルを含む同じクリックシーケンス内において、位置ｒにあるログファイルがクリックされ、位置ｒ＋ｄにあるログファイルがクリックされず、ｒとｒ＋ｄとの間の位置にあるログファイルがクリックされない状況の発生回数である。ｒの値は、Ｍ−１以下の自然数であり、ｄの値は、Ｍ−ｒ以下の整数であり、Ｍは、選択されたログファイルを含む同じクリックシーケンス内のログファイルの総数を表す。Ｅ_ｔｈは、関連性の期待値に対応して事前に定義された値である。

図７は、検索結果を順位付けるさらに別の例示的な装置を図示する構造図である。装置は、検索リクエストおよびログファイルの前記識別子をキーとして、ならびにログファイルの期待値をそれぞれの値として検索データ構造内に記憶する前に、ログファイルと検索リクエストとの間の関連性の期待値または分散に基づいて、ログファイルをフィルタリングするように構成された第２のフィルタリングモジュール５０８をさらに含み、対応する事前に定義された閾値未満の期待値または分散を有するログファイルがフィルタリングされ、インデックス付けモジュール５０４は、検索リクエストおよびフィルタリングされたログファイルの識別子をキーとして、ならびにフィルタリングされたログファイルの期待値をそれぞれの値として、検索データ構造内に記憶するように、さらに構成される。

図８は、検索結果を順位付けるさらに別の例示的な装置を図示する構造図である。取得モジュール５０１、確率計算モジュール５０２、期待値計算モジュール５０３、インデックス付けモジュール５０４、検索モジュール５０５、および順位付けモジュール５０６に加えて、装置は、検索リクエストおよびログファイルの識別子をキーとして、ならびにログファイルの期待値をそれぞれの値として検索データ構造内に記憶する前に、検索データ構造を検証するように構成された検証モジュール５０９をさらに含み、検索モジュール５０５は、検証された検索データ構造から、ユーザによって提出された検索リクエストと、提出された検索リクエストに関連するログファイルとの間の関連性の期待値を検出するように構成される。

上記の例示的な実施形態から、開示される装置は、ユーザによって提出された検索リクエストと提出された検索リクエストに関連するログファイルとの間の関連性の期待値を検索データ構造から検出することに応答して、ベイズの事後確率に基づいてログファイルと検索リクエストの間の関連性の期待値を計算し、そして検出されたログファイルを検出された期待値の降順に順位付ける。情報の位置およびクリックシーケンスに関する因子を考慮することによって、ユーザは、最も所望する情報を迅速に取得することができ、これによって、検索エンジンサーバの検索プロセスのコストを削減し、検索エンジンサーバのシステムリソースを節約する。

代替実施形態
上記の実施形態は、関連性の期待値を計算し、これらの関連性の期待値に基づいて検索結果を順位付けるために、ベイズの事後確率を使用することを記載するが、本開示はこれに限定されない。例のためであって限定ではなく、開示される方法および装置は、ログファイルと検索リクエストとの間の関連性の期待値を判定するために、例えば、ログファイルに対するクリック数等、前述の実施形態に記載される因子の線形結合等の任意の他の数学モデルを採用してもよい。当業者は、コンピュータプログラムを通してハードウェアを命令することによって達成されてもよい上記の例示的な方法におけるプロセスの全てまたは一部を理解することができることに注意されたい。プログラムは、コンピュータ可読記憶媒体の中に記憶されてもよい。実行中、プログラムは、上記の例示的な実施形態のうちの任意の１プロセスを含んでもよい。記憶媒体として、磁気ディスク、光学式ディスク、読み出し専用メモリ（ＲＯＭ）、またはランダムアクセスメモリ（ＲＡＭ）等を挙げることができる。

例えば、図９は、図５０８の装置のような装置の追加詳細を示す例示的なシステム９００である。一実施形態において、システム９００は、１つ以上のプロセッサ９０１と、ネットワークインターフェース９０２と、メモリ９０３と、入力／出力インターフェース９０４とを含むことができるが、これらに限定されない。

メモリ９０３は、ＲＡＭ等の揮発性メモリおよび／またはＲＯＭまたはフラッシュＲＡＭ等の不揮発性メモリの形式におけるコンピュータ可読媒体を含んでもよい。メモリ９０３は、コンピュータ可読記憶媒体の例である。

コンピュータ可読媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータ等の情報の記憶のために、任意の方法または技術において実装される、揮発性および不揮発性の、取り外し可能および取り外し不可能な媒体を含む。コンピュータ記憶媒体の例として、相変化メモリ（ＰＲＡＭ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、動的ランダムアクセスメモリ（ＤＲＡＭ）、他の種類のＲＡＭ、ＲＯＭ、電気的消去可能プログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリまたは他のメモリ技術、コンパクトディスク読み出し専用メモリ（ＣＤ−ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）または他の光学式記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶デバイス、あるいはコンピュータデバイスによってアクセスするための情報を記憶するように使用することが可能である任意の他の非伝送媒体が挙げられるが、これらに限定されない。本明細書に定義される場合、コンピュータ可読記憶媒体は、変調データ信号および搬送波等の一時的媒体を含まない。

メモリ９０３は、プログラムモジュール９０５と、プログラムデータ９０６とを含んでもよい。一実施形態において、プログラムモジュール９０５は、取得モジュール９０７と、確率計算モジュール９０８と、期待値計算モジュール９０９と、インデックス付けモジュール９１０と、検索モジュール９１１と、順位付けモジュール９１２とを含む場合がある。加えて、いくつかの実施形態において、プログラムモジュール９０５は、第１のフィルタリングモジュール９１３をさらに含む場合がある。いくつかの実施形態において、第１のフィルタリングモジュール９１３は、選択サブモジュール９１４と、フィルタリングサブモジュール９１５とを含む場合がある。加えてまたは代替として、プログラムモジュール９０５は、第２のフィルタリングモジュール９１６をさらに含んでもよい。加えてまたは代替として、いくつかの実施形態において、プログラムモジュール９０５は、検証モジュール９１７をさらに含む場合がある。これらのプログラムモジュールに関する詳細は、上記の前述の実施形態に見出すことができる。

検索結果を順位付ける方法および装置は、本開示において詳細に記載されている。例示的な実施形態は、本開示において本発明の概念および実装を例示するために採用される。例示的な実施形態は、本発明の方法および重要な概念の理解を深めるためにのみ使用される。本開示の概念に基づいて、当業者は、例示的な実施形態および適用分野を変更してもよい。全体的に、本開示内の内容は、開示された方法および装置に対する限定として解釈されてはならない。

Claims

検索結果を順位付ける方法であって、
ログシステムから露出ログファイルを取得することと、
前記ログファイルと検索リクエストとの間の関連性に対するベイズの事後確率を計算することと、
前記ログファイルと前記検索リクエストとの間の前記関連性の期待値を計算することと、
前記検索リクエストおよび前記ログファイルの識別子をキーとして、ならびに前記ログファイルと前記検索リクエストとの間の前記関連性の前記期待値をそれぞれの値として、検索データ構造内に記憶することと、
ユーザによって提出された検索リクエストを受信することに応答して、前記検索データ構造から、前記ユーザによって提出された前記検索リクエストと前記提出された検索リクエストに関連するログファイルとの間の関連性の期待値を検出することと、
前記検出された期待値の降順に従って、前記検出されたログファイルを順位付けることと、を含む、方法。
前記ベイズの事後確率を計算する前に、前記方法は、事前に定義された閾値未満のそれぞれのグローバルパラメータを有するログファイルをフィルタリングするように、グローバルパラメータに基づいて前記ログファイルをフィルタリングすることをさらに含み、前記ベイズの事後確率を計算することは、前記フィルタリングされたログファイルと前記検索リクエストとの間の関連性に対するベイズの事後確率を計算することを含む、請求項１に記載の方法。
前記フィルタリングすることは、
前記露出ログファイルから、１回露出されていて、かつクリックされていないログファイルを選択することと、
前記選択されたログファイルから、フィルタリング条件式

に従って前記事前に定義された閾値未満の前記それぞれのグローバルパラメータを有するログファイルをフィルタリングすることを含み、式中、

はグローバルパラメータ

であり、

は、前記選択されたログファイルを含む同じクリックシーケンス内において、位置ｒおよびｒ＋ｄにあるログファイルがクリックされ、ｒとｒ＋ｄとの間の位置にあるログファイルがクリックされない状況の発生回数であり、

は、前記選択されたログファイルを含む同じクリックシーケンス内において、位置ｒにあるログファイルがクリックされ、位置ｒ＋ｄにあるログファイルがクリックされず、ｒとｒ＋ｄとの間の位置にあるログファイルがクリックされない状況の発生回数であり、ｒの値は、Ｍ−１以下の自然数であり、ｄの値は、Ｍ−ｒ以下の整数であり、Ｍは、前記選択されたログファイルを含む同じクリックシーケンス内のログファイルの総数を表し、Ｅ_ｔｈは、ログファイルと検索リクエストとの間の関連性の期待値に対応する事前に定義された閾値である、請求項２に記載の方法。
前記記憶の前に、事前に定義される閾値以下のそれぞれの期待値または分散を有するログファイルをフィルタリング除去するように、前記ログファイルと前記検索リクエストとの間の前記関連性の前記期待値または分散に基づいて、前記ログファイルをフィルタリングすることをさらに含み、前記記憶することは、前記検索リクエストおよび前記ログファイルの前記識別子を前記キーとして、ならびに前記フィルタリングされたログファイルと前記検索リクエストとの間の前記関連性の前記期待値を前記それぞれの値として、前記検索データ構造内に記憶することを含む、請求項１に記載の方法。
前記記憶の後、前記検索データ構造を検証することをさらに含み、前記検出することは、前記検証された検索データ構造から、前記ユーザによって提出された前記検索リクエストと、前記提出された検索リクエストに関連する前記ログファイルとの間の前記関連性の前記期待値を検出することを含む、請求項１に記載の方法。
前記ベイズの事後確率を計算することは、
前記ユーザがログファイルをクリックしたかどうか、前記ユーザが前記ログファイルを視認したかどうか、前記ログファイルと前記ユーザの前記検索リクエストとの間の関連度、前記ユーザが次のログファイルを閲覧したかどうか、および以前のログファイルのクリック条件に基づいて、ならびに/または事前分布が［０，１］上の一様分布に従う場合、前記ユーザが前記ログファイルをクリックした後に前記ログファイルと前記リクエストとの間の関連性に対する結合事後分布を計算することを含む、請求項１に記載の方法。
検索結果を順位付ける装置であって、
ログシステムから露出ログファイルを取得するように構成された取得モジュールと、
前記ログファイルと検索リクエストとの間の関連性のベイズの事後確率を計算するように構成された確率計算モジュールと、
前記ベイズの事後確率に基づいて、前記ログファイルと前記検索リクエストとの間の前記関連性の期待値を計算するように構成された期待値計算モジュールと、
前記検索リクエストおよび前記ログファイルの識別子をキーとして、ならびに前記ログファイルと前記検索リクエストとの間の前記関連性の前記期待値をそれぞれの値として、検索データ構造内に記憶するように構成されたインデックス付けモジュールと、
ユーザによって提出された検索リクエストを受信することに応答して、前記検索データ構造から、前記ユーザによって提出された前記検索リクエストと前記提出された検索リクエストに関連するログファイルとの間の関連性の期待値を検出するように構成された検索モジュールと、
前記検出された期待値の降順に従って、前記検出されたログファイルを順位付けるように構成された順位付けモジュールと、を備える、装置。
前記ベイズの事後確率に基づいて前記ログファイルと前記検索リクエストとの間の前記関連性の前記期待値を計算する前に、グローバルパラメータに基づいて前記ログファイルをフィルタリングするように構成された第１のフィルタリングモジュールをさらに備え、対応する事前に定義された閾値未満のグローバルパラメータを有するログファイルがフィルタリングされ、前記期待値計算モジュールは、前記ベイズの事後確率に基づいて、前記フィルタリングされたログファイルと前記検索リクエストとの間の前記関連性の前記期待値を計算するようにさらに構成される、請求項７に記載の装置。
前記第１のフィルタリングモジュールは、
前記露出ログファイルから、１回露出されていて、かつクリックされていないログファイルを選択するように構成された選択サブモジュールと、
フィルタリング条件式

に従って、前記選択されたログファイルから、ログファイル用の前記対応する事前に定義された閾値未満の前記グローバルパラメータを有する前記ログファイルをフィルタリングするように構成されたフィルタリングサブモジュールと、を備え、
式中、

は前記グローバルパラメータ

であり、

は、前記選択されたログファイルを含む同じクリックシーケンス内において、位置ｒおよびｒ＋ｄにあるログファイルがクリックされ、ｒとｒ＋ｄとの間の位置にあるログファイルがクリックされない状況の発生回数であり、

は、前記選択されたログファイルを含む同じクリックシーケンス内において、位置ｒにあるログファイルがクリックされ、位置ｒ＋ｄにあるログファイルがクリックされず、ｒとｒ＋ｄとの間の位置にあるログファイルがクリックされない状況の発生回数であり、ｒの値は、Ｍ−１以下の自然数であり、ｄの値は、Ｍ−ｒ以下の整数であり、Ｍは、前記選択されたログファイルを含む同じクリックシーケンス内のログファイルの総数を表し、Ｅ_ｔｈは、関連性の期待値に対応する事前に定義された閾値である、請求項８に記載の装置。
前記検索リクエストおよび前記ログファイルの前記識別子を前記キーとして、ならびに前記ログファイルの前記期待値をそれぞれの値として前記検索データ構造内に記憶する前に、前記ログファイルと前記検索リクエストとの間の前記関連性の前記期待値または分散に基づいて、前記ログファイルをフィルタリングするように構成された第２のフィルタリングモジュールをさらに備え、対応する事前に定義された閾値未満の期待値または分散を有するログファイルがフィルタリングされ、前記インデックス付けモジュールは、前記検索リクエストおよび前記フィルタリングされたログファイルの前記識別子を前記キーとして、ならびに前記フィルタリングされたログファイルの前記期待値をそれぞれの値として、前記検索データ構造内に記憶するようにさらに構成される、請求項８に記載の装置。
前記検索リクエストおよび前記ログファイルの前記識別子を前記キーとして、ならびに前記ログファイルの前記期待値をそれぞれの値として前記検索データ構造内に記憶する前に、前記検索データ構造を検証するように構成された検証モジュールをさらに備え、前記検索モジュールは、前記検証された検索データ構造から、前記ユーザによって提出された前記検索リクエストと、前記提出された検索リクエストに関連する前記ログファイルとの間の前記関連性の前記期待値を検出するようにさらに構成される、請求項７に記載の装置。
前記確率計算モジュールは、前記ユーザが前記ログファイルをクリックしたかどうか、前記ユーザが前記ログファイルを視認したかどうか、前記ログファイルと前記ユーザの前記検索リクエストとの間の関連度、前記ユーザが次のログファイルを閲覧したかどうか、および／または以前のログファイルのクリック条件に基づいて、前記ログファイルのうちの一個のログファイルと前記検索リクエストとの間のベイズの事後確率を計算するように構成される、請求項７に記載の装置。
前記インデックス付けモジュールは、前記検索リクエストおよび前記ログファイルの前記識別子を前記キーとして、ならびに前記ログファイルと前記検索リクエストとの間の前記関連性の前記期待値をそれぞれの値として前記検索データ構造内に記憶するために、トライ木（ｔｒｉｅｔｒｅｅ）を採用する、請求項７に記載の装置。
１つ以上のプロセッサによって実行されると、
ログシステムから露出ログファイルを取得することと、
前記ログファイルと検索リクエストの間の関連性に対するベイズの事後確率を計算することと、
前記ログファイルと前記検索リクエストとの間の前記関連性の期待値を計算することと、
前記検索リクエストおよび前記ログファイルの識別子をキーとして、ならびに前記ログファイルと前記検索リクエストとの間の前記関連性の前記期待値をそれぞれの値として、検索データ構造内に記憶することと、
ユーザによって提出された検索リクエストを受信することに応答して、前記検索データ構造から、前記ユーザによって提出された前記検索リクエストと前記提出された検索リクエストに関連するログファイルとの間の関連性の期待値を検出することと、
前記検出された期待値の降順に従って、前記検出されたログファイルを順位付けることと、を含む、活動を実施するように前記１つ以上のプロセッサを構成する、コンピュータ実行可能命令を記憶する、１つ以上のコンピュータ可読媒体。
前記ベイズの事後確率を計算する前に、前記方法は、事前に定義された閾値未満のそれぞれのグローバルパラメータを有するログファイルをフィルタリングするように、グローバルパラメータに基づいて前記ログファイルをフィルタリングすることをさらに含み、前記ベイズの事後確率を計算することは、前記フィルタリングされたログファイルと前記検索リクエストとの間の関連性に対するベイズの事後確率を計算することを含む、請求項１４に記載の１つ以上のコンピュータ可読媒体。
前記フィルタリングすることは、
前記露出ログファイルから、１回露出されていて、かつクリックされていないログファイルを選択することと、
前記選択されたログファイルから、フィルタリング条件式

に従って前記事前に定義された閾値未満のそれぞれのグローバルパラメータを有する前記ログファイルをフィルタリングすることと、を含み、
式中、

は前記グローバルパラメータ

であり、

は、前記選択されたログファイルを含む同じクリックシーケンス内において、位置ｒおよびｒ＋ｄにあるログファイルがクリックされ、ｒとｒ＋ｄとの間の位置にあるログファイルがクリックされない状況の発生回数であり、

は、前記選択されたログファイルを含む同じクリックシーケンス内において、位置ｒにあるログファイルがクリックされ、位置ｒ＋ｄにあるログファイルがクリックされず、ｒとｒ＋ｄとの間の位置にあるログファイルがクリックされない状況の発生回数であり、ｒの値は、Ｍ−１以下の自然数であり、ｄの値は、Ｍ−ｒ以下の整数であり、Ｍは、前記選択されたログファイルを含む同じクリックシーケンス内のログファイルの総数を表し、Ｅ_ｔｈは、ログファイルと検索リクエストとの間の関連性の期待値に対応する事前に定義された閾値である、請求項１５に記載の１つ以上のコンピュータ可読媒体。
前記活動は、前記記憶の前に、事前に定義される閾値以下のそれぞれの期待値または分散を有するログファイルをフィルタリング除去するように、前記ログファイルと前記検索リクエストとの間の前記関連性の前記期待値または分散に基づいて、前記ログファイルをフィルタリングすることをさらに含み、前記記憶することは、前記検索リクエストおよび前記ログファイルの前記識別子を前記キーとして、ならびに前記フィルタリングされたログファイルと前記検索リクエストとの間の前記関連性の前記期待値を前記それぞれの値として、前記検索データ構造内に記憶することを含む、請求項１４に記載の１つ以上のコンピュータ可読媒体。
前記活動は、前記記憶の後に、前記検索データ構造を検証することをさらに含み、前記検出することは、前記検証された検索データ構造から、前記ユーザによって提出された前記検索リクエストと、前記提出された検索リクエストに関連する前記ログファイルとの間の前記関連性の前記期待値を検出することを含む、請求項１４に記載の１つ以上のコンピュータ可読媒体。
前記ベイズの事後確率を計算することは、
前記ユーザがログファイルをクリックしたかどうか、前記ユーザが前記ログファイルを視認したかどうか、前記ログファイルと前記ユーザの前記検索リクエストとの間の関連度、前記ユーザが次のログファイルを閲覧したかどうか、および以前のログファイルのクリック条件に基づいて、ならびに/または事前分布が［０，１］上の一様分布に従う場合、前記ユーザが前記ログファイルをクリックした後に前記ログファイルと前記リクエストとの間の関連性に対する結合事後分布を計算することを含む、請求項１４に記載の１つ以上のコンピュータ可読媒体。
前記ベイズの事後確率を計算することは、
前記ユーザがログファイルをクリックしたかどうか、前記ユーザが前記ログファイルを視認したかどうか、前記ログファイルと前記ユーザの前記検索リクエストとの間の関連度、前記ユーザが次のログファイルを閲覧したかどうか、および以前のログファイルのクリック条件に基づいて、ならびに/または事前分布が［０，１］上の一様分布に従う場合、前記ユーザが前記ログファイルをクリックした後に前記ログファイルと前記リクエストとの間の関連性に対する結合事後分布を計算することを含む、請求項１４に記載の１つ以上のコンピュータ可読媒体。