JP2014500534A - 検索結果を順位付ける方法および装置 - Google Patents

検索結果を順位付ける方法および装置 Download PDF

Info

Publication number
JP2014500534A
JP2014500534A JP2013530401A JP2013530401A JP2014500534A JP 2014500534 A JP2014500534 A JP 2014500534A JP 2013530401 A JP2013530401 A JP 2013530401A JP 2013530401 A JP2013530401 A JP 2013530401A JP 2014500534 A JP2014500534 A JP 2014500534A
Authority
JP
Japan
Prior art keywords
log file
search request
search
log
expected value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013530401A
Other languages
English (en)
Other versions
JP5864586B2 (ja
Inventor
フアシン ジン
ウェイ チェン
ペン フアン
シュー ヤン
フェン リン
ジオン フェン
チン チャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2014500534A publication Critical patent/JP2014500534A/ja
Application granted granted Critical
Publication of JP5864586B2 publication Critical patent/JP5864586B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying

Abstract

検索結果を順位付けることは、ログシステムから露出ログファイルを取得することと、ログファイルと検索リクエストとの間の関連性に対するベイズの事後確率を計算することと、ベイズの事後確率に基づいて、ログファイルと検索リクエストとの間の関連性の期待値を計算することと、検索リクエストおよびログファイルの識別子をキーとして、ならびにログファイルと検索リクエストとの間の関連性の期待値を値として、検索データ構造内に記憶することと、ユーザによって提出された検索リクエストを受信することに応答して、検索データ構造から、提出された検索リクエストと提出された検索リクエストに関連するログファイルとの間の関連性の期待値を検出することと、検出されたログファイルを期待値の降順に順位付けることとを含んでもよい。

Description

関連特許出願への相互参照
本願は、2010年9月28日に提出された中国特許出願第201010299100.0号、名称「Method and Apparatus of Ordering Search Results」のPCT国際出願であり、これの優先権を主張し、その全体を参照により組み入れる。
本開示は、通信およびコンピュータ技術分野に関し、具体的には、検索結果を順位付ける方法および装置に関する。
ユーザが検索エンジンに検索リクエストを提出した後、検索エンジンは、ユーザの検索リクエストに関連性がある大量の情報を呼び出す。検索エンジンはさらに、ユーザが検索エンジンを通じて最も所望される情報を迅速に見出すことを可能にするように、各情報と検索リクエストとの間の関連度に基づいて情報を順位付ける。
現在、検索エンジンはほとんどの場合、各情報とユーザの検索リクエストの間の関連度を反映するためにCTR(クリックスルー率)を使用し、CTRとは、クリック率と情報の露出率との間の割合である。各情報のCTRを計算した上で、検索エンジンは、検索結果リスト内の情報をCTRの降順に順位付ける。
しかしながら、研究中、本特許出願の発明人は、情報とユーザ検索リクエストとの間の関連度がしばしば、検索結果リスト内のその情報の位置および検索結果リストに関連するクリックシークエンスに関係することを認めた。例えば、異なる位置にある情報のCTRは、同じ検索結果ページ内のそれぞれの関連性が同じであっても、同じではない場合がある。あるいは、ユーザによってクリックされた情報は、次の情報をクリックする確率に影響を与える場合がある。
いずれにせよ、既存の技術は、検索結果の順位決定プロセス中にクリック率および情報の露出率だけを検討するが、検索結果リスト内の情報の位置および検索結果リストに関連するクリックシークエンスについての因子を検討することを怠る。このように、順位決定プロセスにおいて使用される関連性スコアには、比較的大きい分散が存在する。多くの場合、ユーザが所望する情報は、検索結果リストの末尾近辺に位置し、不良な検索結果順位決定を招く。一方、検索結果が不良に順位決定されると、ユーザは通常、自分の最も所望する情報を取得するために、より多くの情報を閲覧し、クリックすることが必要になる。ユーザがウェブサイトで大量の閲覧およびクリックを「盲目的に」行うと、ネットワークシステム、特に検索エンジンのサーバの作業負荷が増大し、それによって、ネットワークシステムの稼働率を削減させる。したがって、検索エンジンサーバに対する検索プロセスのコストが増大し、検索エンジンサーバのシステムリソースを無駄にする。
上述の問題を解決するために、本開示の例示的な実施形態は、検索エンジンサーバに対する検索プロセスのコストを削減し、検索エンジンサーバのシステムリソースを節約するように、検索結果を順位付ける方法および装置を提供する。
一実施形態において、ログシステムから露出ログファイルが取得される。ログファイルと検索リクエストとの間の関連性に対するベイズの事後確率が計算される。ベイズの事後確率に基づいて、ログファイルと検索リクエストとの間の関連性の期待値が計算される。いくつかの実施形態において、検索データ構造内に、検索リクエストおよびログファイルの識別子がキーとして記憶され、ログファイルと検索リクエストとの間の関連性の期待値が値として記憶される。一実施形態において、ユーザによって提出された検索リクエストを受信することに応答して、検索データ構造から、提出された検索リクエストと提出された検索リクエストに関連性があるログファイルとの間の関連性の期待値が検出される。一実施形態において、検出されたログファイルは、期待値の降順に順位付けられる。
いくつかの実施形態において、検索結果を順位付けるための装置が提供される。装置は、取得モジュールと、確率計算モジュールと、期待値計算モジュールと、インデックス付けモジュールと、検索モジュールと、順位付けモジュールとを含んでもよい。一実施形態において、取得モジュールは、ログシステムから露出ログファイルを取得してもよい。確率計算モジュールは、ログファイルと検索リクエストとの間の関連性に対するベイズの事後確率を計算してもよい。一実施形態において、期待値計算モジュールは、ベイズの事後確率に基づいて、ログファイルと検索リクエストとの間の関連性の期待値を計算してもよい。インデックス付けモジュールは、検索リクエストおよびログファイルの識別子をキーとして、ならびにログファイルと検索リクエストとの間の関連性の期待値を値として、検索データ構造内に記憶してもよい。いくつかの実施形態において、ユーザによって提出された検索リクエストを受信することに応答して、検索モジュールは、検索データ構造から、ユーザによって提出された検索リクエストと提出された検索リクエストに関連性があるログファイルとの間の関連性の期待値を検出してもよい。一実施形態において、順位付けモジュールは、検出されたログファイルを期待値の降順に順位付けてもよい。
上記の例示的な実施形態から、本開示は、順位付けプロセス全体を通して、検索結果リスト内の情報の位置および検索結果リストに関連するクリックシークエンスに関する因子を検討する。具体的には、開示される方法および装置は、ユーザによって提出された検索リクエストと提出された検索リクエストに関連するログファイルとの間の関連性の期待値を検索データ構造から検出することに応答して、ベイズの事後確率に基づいてログファイルと検索リクエストとの間の関連性の期待値を計算し、及び検出されたログファイルを検出された期待値の降順に順位付ける。このように、順位付けの基本である関連性が向上する。さらに、ユーザは、最も所望される情報を迅速に取得するように、より短い閲覧時間およびより少ないクリックを使用することができ、このため、検索エンジンサーバに対する検索プロセスのコストを削減し、検索エンジンサーバのシステムリソースを節約する。
本開示の例示的な実施形態または既存の技術の技術的設計をより明確に理解するため、例示的実施形態または既存の技術を説明するために重要である添付の図面を以下に簡単に記載する。理解できるように、以下の図面は、本開示のいくつかの例示的な実施形態を構成するに過ぎない。これらの添付の図面に基づいて、当業者は、一切の創造的活動を行うことなく、他の図面を得ることができる。
検索結果を順位付ける例示的な方法を図示する流れ図である。 本開示に従って作成される確率モデルの構造を図示する模式図である。 検索結果を順位付ける別の例示的な方法を図示する流れ図である。 検索かつ順位決定システムを図示する構造図である。 検索結果を順位付ける例示的な装置を図示する構造図である。 検索結果を順位付ける別の例示的な装置を図示する構造図である。 検索結果を順位付けるさらに別の例示的な装置を図示する構造図である。 検索結果を順位付けるさらに別の例示的な装置を図示する構造図である。 図5〜8に記載のような例示的装置のさらに詳細を示す。
当業者が例示的な実施形態の技術的設計、目標、特徴、および利点を明確に理解することを支援するため、例示的な実施形態の添付の図面を参照して、例示的な実施形態の技術的設計のさらに詳細を記載する。
第1の例示的な実施形態
図1は、検索結果を順位付ける例示的な方法を図示する流れ図であり、以下のブロックを含む。
101で、方法は、ログシステムから露出ログファイルを取得する。
ログシステムは、増分更新手法を使用して、過去に露出されたログファイルおよび当日に露出されたログファイルを記憶する。ログシステムに記憶されたログファイル全ては、ログシステムから呼び出される。ユーザが検索エンジンを通して検索を実施すると、対応する検索リクエストに関連性がある検索結果がユーザに表示される。ユーザに表示された検索結果が露出検索結果であり、これらは、ログファイルの形式でログシステムに記憶される。
102で、方法は、ログファイルと検索リクエストとの間の関連性のベイズの事後確率を計算する。
研究中、本特許出願の発明人は、情報とユーザ検索リクエストの間の関連度がしばしば、検索結果リスト内のその情報の位置および検索結果リストに伴うクリックシークエンスに関係することを認めた。例えば、検索結果ページがユーザに示されると、ユーザは典型的に、ウェブページ内に表示された、ログファイルの表示情報を上から下まで閲覧し、ログファイルの表示情報が自分の検索意図を満たす場合、ログファイルの表示情報をクリックして、対応する内容を読む。その表示情報の内容を読んだ後、ユーザは、その後に続くログファイルの表示情報を閲覧することを継続するか、または所望のコンテンツが発見された場合には、閲覧を停止する場合がある。したがって、ユーザが所定のログファイルをクリックするかどうかは、そのログファイルを視認したかどうかに依存し、さらに、ログファイルとユーザの検索リクエストとの間の関連度に依存する。さらに、ユーザが次のログファイルの閲覧を継続するかどうかは、その次のログファイルの前にあるログファイルのクリック状況に依存する。
上記の状況に基づいて、数学モデルが作成される。図2は、本開示に従って作成される確率モデルの構造の模式図である。図2では、各ノードがランダム変数を表す。Sは、ログファイルとユーザの検索リクエストとの間の関連性を表す。Eは、ユーザがログファイルを視認したかどうかを表す。Cは、ユーザがログファイルをクリックしたかどうかを表す。Aの添字は、検索結果ページ内に表示されたログファイルの位置を表し、Mは、検索結果ページ内のログファイルの総数を表す。前述の解析に基づいて、ユーザが所定のログファイルをクリックするかどうかは、ユーザがログファイルを視認したかどうか、およびログファイルとユーザの検索リクエストとの間の関連度に関係する。さらに、ユーザが次のログファイルの閲覧を継続するかどうかは、以前のログファイルのクリック状況に関係する。例えば、図2のモデルから、S1およびE1は別々にC1に向かっており、ユーザがログファイルC1をクリックするかどうかは、ユーザがログファイルE1を視認したかどうか、およびそのログファイルとユーザの検索リクエストとの間の関連度S1に関係することを示す。さらに、C1はE2に向かっており、ユーザが次のログファイルE2の閲覧を継続するかどうかは、ログファイルC1のクリック状況に関係することを示す。
図2に示された数学モデルの確率推論に基づいて、事前分散が[0,1]上の一様分布に従い、0および1は実数値区間の2つの端点を表していること(すなわち、関連性変数の事前分布が実数値区間の0と1の間に一様に分布される)、およびユーザがログファイルC1、C2・・・CNをクリックしたという条件下では、ログファイルと検索リクエストとの間の関連性の結合事後分布を計算するための式は、以下である。
Figure 2014500534
上記の式中、Rは、ログファイルjおよびユーザ検索リクエストに対するランダム関連性変数を表す。Nは、ログファイルjがクリックされた総回数を表す。
Figure 2014500534
は、ログファイルjが位置r+dにあって、クリックされず、位置rにあるログファイルがクリックされ、rとr+dとの間の位置にあるログファイルがクリックされない状況の発生回数を表す。Tは、(r,d)の間の全ての可能な値を表す。
Figure 2014500534
は、グローバルパラメータである。Nは、ログシステムから呼び出されたログファイルの総数を表す。zは、正規化係数を表す。
結合分布の上記の形態から、結合分布は、個別のファイルの分布の乗法の積として求められてもよい。したがって、単一ドキュメントjの関連性の事後分布を計算するための式は以下である。
Figure 2014500534
Figure 2014500534
は、グローバルパラメータで、推定値
Figure 2014500534
を有する。
Figure 2014500534
は、ログファイルjを含む同じクリックシーケンス内において、位置rおよびr+dにあるログファイルがクリックされ、rとr+dとの間の位置にあるログファイルがクリックされない状況の発生回数である。
Figure 2014500534
は、ログファイルjを含む同じクリックシーケンス内において、位置rにあるログファイルがクリックされ、位置r+dにあるログファイルがクリックされず、rとr+dとの間の位置にあるログファイルがクリックされない状況の発生回数である。rの値は、M−1以下の自然数であり、dの値は、M−r以下の整数であり、Mは、ログファイルjを含む同じクリックシーケンス内のログファイルの総数を表す。同じクリックシーケンスは、ユーザの検索リクエストに対して取得された全ての検索結果を構成するシーケンスに対応する。例えば、ユーザの検索リクエスト「MP3」に対応して、ユーザのその検索リクエストに対する検索結果の総数は、100個のログファイルである。したがって、これらの100個のログファイルは、「MP3」に対する同じクリックシーケンスを成す。
103で、方法は、ベイズの事後確率に基づいて、ログファイルと検索リクエストとの間の関連性の期待値を計算する。
前のブロックから取得されたベイズの事後確率に基づいて、ログファイルと検索リクエストとの間の関連性の期待値が計算され、期待値を計算するための式は以下である。
Figure 2014500534
期待値を計算するためのコストは比較的大きく、比較的大量のシステムリソースを消費するようになることに注意されたい。期待値を計算するためにシステムリソースを過剰に消費することを回避するため、このブロックで、ログファイルに対する関連性の期待値を計算する前に、ログファイルに対するフィルタリングが実施される。あるログファイルは、ユーザの検索リクエストに関して、良くも悪くもない関連性を有する。実際に適用する際、関連性が良くも悪くもないこれらのログファイルは、容量および時間を節約するために、フィルタリングされてもよい。
一般的に、ログファイルとユーザの検索リクエストとの間の関連性は、関連性の期待値が0.5である場合は、良くも悪くもない。したがって、例えば、検索リクエストに関する関連性が0.5以下の期待値を有するログファイルがフィルタリングされてもよい。本開示は、期待値を計算する前に、関連性が良くも悪くもないログファイルをフィルタリングする手法を提供する。
好ましくは、ベイズの事後確率に基づいてログファイルと検索リクエストとの間の関連性の期待値を計算する前に、方法は、グローバルパラメータに基づいてログファイルをフィルタリングすることをさらに含み、事前に定義された閾値未満のそれぞれのグローバルパラメータを有するログファイルがフィルタリングされる。ここで、グローバルパラメータとは、ユーザの検索リクエストに関係しないが、ユーザによる検索エンジンの評価を反映する一群のインジケータパラメータに対応するパラメータを言う。ある状況では、グローバルパラメータと、ログファイルと検索リクエストとの間の関連性の期待値との間の対応関係は、確率分布関数を通して確立される。期待値に対する閾値に基づくフィルタリングは、グローバルパラメータに対する閾値に基づくフィルタリングに等しい。このような関係の微分は、前もって解析されることが必要であり、グローバルパラメータに対する閾値は、システムの初期段階で期待値に対する閾値に基づいて計算される。このように、フィルタリングは、ログ処理段階でグローバルパラメータを使用して実施されてもよい。
例えば、露出ログファイルから、1回露出されたが、クリックされなかったログファイルが選択される。選択されたログファイルの中で、フィルタリング条件式
Figure 2014500534
に従って事前に定義された閾値未満のそれぞれのグローバルパラメータを有するログファイルがフィルタリングされ、式中、βr,dはグローバルパラメータである。
Figure 2014500534
Figure 2014500534
は、選択されたログファイルを含む同じクリックシーケンス内において、位置rおよびr+dにあるログファイルがクリックされ、rとr+dとの間の位置にあるログファイルがクリックされない状況の発生回数である。説明の目的で、例示のために5つのログファイルを含むクリックシーケンスの例を使用する。第1、第3、および第5の位置にあるログファイルがクリックされたが、第2および第4の位置にあるログファイルはクリックされなかった。具体的には、第1および第3の位置にあるログファイルがクリックされ、第2と第4との間の位置にあるログファイル(すなわち、第2の位置にあるログファイル)がクリックされなかった状況では、発生回数は1である。さらに、第3および第5の位置にあるログファイルがクリックされ、第3と第5との間の位置にあるログファイル(すなわち、第4の位置にあるログファイル)がクリックされなかった状況では、発生回数は1である。したがって、上記のクリックシーケンスに従うと
Figure 2014500534
は2である。
Figure 2014500534
は、選択されたログファイルを含む同じクリックシーケンス内において、位置rにあるログファイルがクリックされ、位置r+dにあるログファイルがクリックされず、rとr+dとの間の位置にあるログファイルがクリックされない状況の発生回数である。rの値は、M−1以下の自然数であり、dの値は、M−r以下の整数であり、Mは、選択されたログファイルを含む同じクリックシーケンス内のログファイルの総数を表す。Ethは、ログファイルと検索リクエストとの間の関連性の期待値に対応して事前に定義された閾値である。
thは、ログファイルと検索リクエストとの間の関連性の期待値に対応して事前に定義された閾値であることに注意されたい。一般的に、閾値は、ログファイルと検索リクエストとの間の関連性の期待値に対して定義される。例えば、閾値が0.5として設定される場合、0.5となる関連性の期待値を有するログファイルがフィルタリングされてもよい。理解できるように、関連性の期待値の事前に定義される閾値は、ユーザの必要性およびユーザの適用事例に従って設定されてもよい。本開示はこれに関する制限を全く有さない。
ログファイルをフィルタリングした上で、このブロックで、フィルタリングされたログファイルの期待値が計算される。
さらに、ログファイルと検索リクエストとの間の関連性の期待値を計算した後、かつログファイルと検索リクエストとの間の関連性の期待値を値として検索データ構造内に記憶する前に、ログファイルに対して、更なるフィルタリングが実施されてもよい。これによって、データ構造内に記憶されるログファイルは、2つのフィルタリング動作後、検索リクエストとのより高い関連性を有することが確実にする。したがって、検索エンジンは、検索データ構造から、ユーザによって提出された検索リクエストに関連性があるログファイルおよびそれぞれの期待値を迅速に検出することができる。さらに、ログファイルと検索リクエストとの間の関連性の期待値が計算されているため、フィルタリングは、ログファイルと検索リクエストとの間の関連性の期待値を通して直接実施することができる。具体的には、ログファイルと検索リクエストとの間の関連性の期待値が事前に定義された値以下である場合、そのログファイルはフィルタリングされる。
さらに、ログファイルと検索リクエストとの間の関連性の分散は、ベイズの事後確率に基づいて計算されてもよく、フィルタリングのために、すなわち、ログファイルと検索リクエストとの間の関連性の分散が事前に定義された値以下である場合、ログファイルをフィルタリングするために、直接使用されてもよい。
分散を計算するための数式は以下である。
Figure 2014500534
ログファイルと検索リクエストとの間の関連性の期待値または分散に相当する事前に定義された閾値が、使用の必要性およびユーザの適用事例に基づいて設定されてもよいことにさらに注意されたい。本開示は、これに関して一切の制限を有さない。
104で、方法は、検索リクエストおよびログファイルの識別子をキー、ならびにログファイルと検索リクエストとの間の関連性のそれぞれの期待値を、検索データ構造内に価値として記憶する。
例えば、キー(key)は、検索リクエストおよびログファイルの識別子によって占有される連続的なメモリブロックであり、検索リクエスト内の1文字は1メモリバイトを占有し、ログファイルの識別子は、4メモリバイトによって表される。値(value)は、それぞれの期待値の乗じた積の整数部で占有し10000倍したメモリである。検索データ構造内のキーと値のインデックス付けは、一般的に使用されるトライ木を使用して確立されてもよく、本明細書のこの例示的な実施形態ではさらに詳細を記載しない。
好ましくは、検索データ構造の精度を確実にするため、検索リクエストおよびログファイルの識別子をキーとして、ならびにログファイルと検索リクエストとの間の関連性のそれぞれの期待値を値として検索データ構造内に記憶した後、方法は、検索データ構造を検証することをさらに含む。検索データ構造から、ユーザによって提出された検索リクエストと提出された検索リクエストに関連する全てのログファイルとの間の関連性の期待値を検出することは、検証された検索データ構造から、ユーザによって提出された検索リクエストと提出された検索リクエストに関連する全てのログファイルとの間の関連性の期待値を検出することを含む。
検索データ構造を検索するために検索データ構造内のキーを検索エンジンに対する入力データとして使用した上で、出力結果が入力データとして使用されたキーの対応する値である場合、検証は合格である。例えば、検索データ構造は、1群のキー・値対を含む。検索リクエストに対応するキー・値対内のキーの部分は、「MP3」であり、ログファイルの識別子に対応するキー・値対内のキーの部分は、それぞれ、ID1、ID2、およびID3である。ログファイルと検索リクエストとの間の関連性の期待値に対応するキー・値対内の値は、それぞれ、0.5、0.8、および0.7である。「MP3およびID1」、「MP3およびID2」、ならびに「MP3およびID3」は個別に入力データとして使用される。検索エンジンを通して検索データ構造を検索した後、それぞれの出力結果が0.5、0.8、および0.7である場合、検証は合格である。それ以外、検証は失敗である。
検索データ構造内のキー全ては、上記の手法を使用して1つずつ検証される。検索データ構造は、キー全ての検証に成功すると、検証に合格する。
105で、方法は、ユーザによって提出された検索リクエストを受信することに応答して、検索データ構造から、ユーザによって提出された検索リクエストと提出された検索リクエストに関連する全てのログファイルとの間の関連性の期待値を検出する。
106で、方法は、検出されたログファイルを検出された期待値の降順に順位付ける。
上記の例示的な実施形態から、開示される方法は、ベイズの事後確率に基づいてログファイルと検索リクエストとの間の関連性の期待値を計算し、ユーザによって提出された検索リクエストと提出された検索リクエストに関連するログファイルとの間の関連性の期待値を検索データ構造から検出することに応答して、検出されたログファイルを検出された期待値の降順に順位付ける。情報の位置およびクリックシーケンスに関する因子を考慮することによって、ユーザは、最も所望する情報を迅速に取得することができ、これによって、検索エンジンサーバの検索プロセスのコストを削減し、検索エンジンサーバのシステムリソースを節約する。
第2の例示的な実施形態
検索結果を順位付ける方法の別の実施形態を以下に詳細に記載する。図3は、検索結果を順位付ける別の例示的な方法を図示する流れ図である。方法は、以下のブロックを含む。
301で、方法は、ログシステムから、今日露出されたログファイルと、過去に露出されたログファイルとを取得する。
今日露出されたログファイルと、ある時間間隔内の過去に露出されたログファイルは、別々に保存されてもよい。例えば、変動する時間枠内のログファイルがバックアップコピーとして保存される場合があり、一連のシステム動作において異常が発生した場合に、問題を調査し、データを復元するために使用される場合がある。
302で、方法は、ログシステムからそれぞれ今日露出されたログファイルおよび過去に露出されたログファイルに基づいて、今日の部分統計および履歴の部分統計を計算する。
部分統計は
Figure 2014500534
Figure 2014500534
とを含む。
Figure 2014500534
は、ログファイルjがクリックされた総回数を表す。
Figure 2014500534
は、位置r+dにあるログファイルjがクリックされ、位置rにあるログファイルがクリックされ、rとr+dとの間の位置にあるログファイルがクリックされないという状況の発生回数を表す。Tは、(r,d)の間の全ての可能な値を表す。
303で、方法は、今日の部分統計および履歴の部分統計を結合する。
今日の部分統計およびある時間間隔内の履歴の部分統計は、増分更新をサポートし、動作中に発生する場合がある問題を調査し、データを復元するために、別々に保存されてもよい。
304で、方法は、ログシステムからそれぞれ今日露出されたログファイルおよび過去に露出されたログファイルに基づいて、今日の全体統計および履歴の全体統計を計算する。
全体統計は
Figure 2014500534
Figure 2014500534
とを含む。
Figure 2014500534
は、ログファイルjを含む同じクリックシーケンス内において、位置rおよびr+dにあるログファイルがクリックされ、rとr+dとの間の位置にあるログファイルがクリックされない状況の発生回数である。
Figure 2014500534
は、ログファイルjを含む同じクリックシーケンス内において、位置rにあるログファイルがクリックされ、位置r+dにあるログファイルがクリックされず、rとr+dとの間の位置にあるログファイルがクリックされない状況の発生回数である。rの値は、M−1以下の自然数であり、dの値は、M−r以下の整数であり、Mは、ログファイルjを含む同じクリックシーケンス内のログファイルの総数を表す。
305で、方法は、今日の全体統計および履歴の全体統計を結合する。
今日の全体統計およびある時間間隔内の履歴の全体統計は、増分更新をサポートし、動作中に発生する場合がある問題を調査し、データを復元するために、別々に保存されてもよい。
306で、方法は、結合された全体統計に基づいて、グローバルパラメータを計算する。
グローバルパラメータは
Figure 2014500534
Figure 2014500534
である。
307で、方法は、対応する事前に定義された閾値未満のグローバルパラメータを有するログファイルがフィルタリングされるように、グローバルパラメータに基づいてログファイルをフィルタリングする。
308で、方法は、フィルタリングされたログファイルと検索リクエストとの間の関連性に対するベイズの事後確率を計算する。
ログファイルと検索リクエストとの間の関連性のベイズの事後確率を計算するプロセスは、第1の例示的な実施形態において詳細に記載されているため、本明細書では重ねて記載しない。関係する計算プロセスは、第1の例示的な実施形態において言及されている場合がある。
309で、方法は、ベイズの事後確率に基づいて、フィルタリングされたログファイルと検索リクエストとの間の関連性の期待値を計算する。
ログファイルと検索リクエストとの間の関連性の期待値のプロセスは、第1の例示的な実施形態において詳細に記載されているため、本明細書では重ねて記載しない。関係する計算プロセスは、第1の例示的な実施形態において言及されている場合がある。
310で、方法は、事前に定義された値以下の期待値を有するログファイルがフィルタリングされるように、ログファイルと検索リクエストとの間の関連性の期待値に基づいてログファイルをフィルタリングする。
311で、方法は、検索リクエストおよびログファイルの識別子をキーとして、ならびにログファイルと検索リクエストとの間の関連性の期待値をそれぞれの値として、検索データ構造内に記憶する。
検索データ構造はさらに、検証された検索データ構造を取得するように検証されてもよい。
312で、方法は、ユーザによって提出された検索リクエストを受信することに応答して、検索データ構造から、ユーザによって提出された検索リクエストと提出された検索リクエストに関連する全てのログファイルとの間の関連性の期待値を検出する。
313で、方法は、検出されたログファイルを検出された期待値の降順に順位付ける。
開示の検索結果を順位付ける方法は、検索および順位決定システムの構造図を示す、図4に示される検索分野において適用されてもよい。新しい検索ログの日次取得および増分更新、ならびに検索および順位決定システムを更新するために関連インデックスデータを出力することは、順位決定のための重要因子である。
さらに、開示の検索結果を順位付ける方法は、順位決定評価システム内で適用されてもよい。例えば、検索リクエストが与えられると、開示の方法を使用して、ログファイルシーケンス内の検索リクエストに関する各ログファイルの関連性スコアが取得される。これらのスコアは、シーケンスの暗示的なユーザ評価である。これらの関連性スコアのシーケンスは、確率分布関数p(x)を求めるために正規化されてもよい。さらに、評価される順位付け方法は、確率分布関数g(x)を求めるために、同じログファイルシーケンス内の各ログファイルの関連性スコアを計算し、正規化するために使用される。p(x)とg(x)との間の距離は、評価される順位付け方法に対する推定値として使用される。差が小さくなればなるほど、評価される順位付け方法の評価が高くなる。距離を計算するための数式は
Figure 2014500534
である。
さらに、開示の検索結果を順位付ける方法は、順位決定トレーニングシステムに適用されてもよい。例えば、開示の方法を使用して、Yとして表される、(検索、ファイル)対に対する関連性スコアが取得される。(検索、ファイル)対のプロパティ(Xによって表される)、例えば、テキストプロパティまたは画像プロパティは、その後取得される。次いで、機械学習方法を使用して、関連性アルゴリズムY=f(X)がトレーニングされる。
上記の例示的な実施形態から、開示される方法はユーザによって提出された検索リクエストと提出された検索リクエストに関連するログファイルとの間の関連性の期待値を検索データ構造から検出することに応答して、ベイズの事後確率に基づいてログファイルと検索リクエストの間の関連性の期待値を計算し、検出されたログファイルを検出された期待値の降順に順位付ける。情報の位置およびクリックシーケンスに関する因子を考慮することによって、ユーザは、最も所望する情報を迅速に取得することができ、これによって、検索エンジンサーバの検索プロセスのコストを削減し、検索エンジンサーバのシステムリソースを節約する。
第3の例示的な実施形態
上記の検索結果を順位付ける方法に対応して、例示的な実施形態はさらに、検索結果を順位付ける装置を提供する。図5は、検索結果を順位付けるための例示的な装置を図示する構造図であり、取得モジュール501と、確率計算モジュール502と、期待値計算モジュール503と、インデックス付けモジュール504と、検索モジュール505と、順位付けモジュール506とを含む。装置の内部構造および接続関係は、装置の作動原則を使用して記載する。
取得モジュール501は、ログシステムから露出ログファイルを取得するように構成される。
確率計算モジュール502は、ログファイルと検索リクエストとの間の関連性のベイズの事後確率を計算するように構成される。
期待値計算モジュール503は、ベイズの事後確率に基づいて、ログファイルと検索リクエストとの間の関連性の期待値を計算するように構成される。
インデックス付けモジュール504は、検索リクエストおよびログファイルの識別子をキーとして、ログファイルと検索リクエストとの間の関連性の期待値をそれぞれの値として、検索データ構造内に記憶するように構成される。
検索モジュール505は、ユーザによって提出された検索リクエストを受信することに応答して、検索データ構造から、ユーザによって提出された検索リクエストと提出された検索リクエストに関連するログファイルとの間の関連性の期待値を検出するように構成される。
順位付けモジュール506は、検出された期待値の降順に従って、検出されたログファイルを順位付けるように構成される。
好ましくは、図6は、検索結果を順位付ける別の例示的な装置を図示する構造図である。取得モジュール501、確率計算モジュール502、期待値計算モジュール503、インデックス付けモジュール504、検索モジュール505、および順位付けモジュール506に加えて、装置は、ベイズの事後確率に基づいてログファイルと検索リクエストとの間の関連性の期待値を計算する前に、グローバルパラメータに基づいてログファイルをフィルタリングするように構成された第1のフィルタリングモジュール507をさらに含み、期待値計算モジュール503は、ベイズの事後確率に基づいて、フィルタリングされたログファイルと検索リクエストとの間の関連性の期待値を計算するように構成される。
第1のフィルタリングモジュール507は、選択サブモジュール5071と、フィルタリングサブモジュール5072とをさらに含む。
選択サブモジュール5071は、露出ログファイルから、1回露出されていて、かつクリックされていないログファイルを選択するように構成される。
フィルタリングサブモジュール5072は、フィルタリング条件式
Figure 2014500534
に従って、選択されたログファイルから、ログファイルの対応する事前に定義された閾値未満のグローバルパラメータを有するログファイルをフィルタリングするように構成され、式中、
Figure 2014500534
はグローバルパラメータ
Figure 2014500534
であり、
Figure 2014500534
は、選択されたログファイルを含む同じクリックシーケンス内において、位置rおよびr+dにあるログファイルがクリックされ、rとr+dとの間の位置にあるログファイルがクリックされない状況の発生回数である。
Figure 2014500534
は、選択されたログファイルを含む同じクリックシーケンス内において、位置rにあるログファイルがクリックされ、位置r+dにあるログファイルがクリックされず、rとr+dとの間の位置にあるログファイルがクリックされない状況の発生回数である。rの値は、M−1以下の自然数であり、dの値は、M−r以下の整数であり、Mは、選択されたログファイルを含む同じクリックシーケンス内のログファイルの総数を表す。Ethは、関連性の期待値に対応して事前に定義された値である。
図7は、検索結果を順位付けるさらに別の例示的な装置を図示する構造図である。装置は、検索リクエストおよびログファイルの前記識別子をキーとして、ならびにログファイルの期待値をそれぞれの値として検索データ構造内に記憶する前に、ログファイルと検索リクエストとの間の関連性の期待値または分散に基づいて、ログファイルをフィルタリングするように構成された第2のフィルタリングモジュール508をさらに含み、対応する事前に定義された閾値未満の期待値または分散を有するログファイルがフィルタリングされ、インデックス付けモジュール504は、検索リクエストおよびフィルタリングされたログファイルの識別子をキーとして、ならびにフィルタリングされたログファイルの期待値をそれぞれの値として、検索データ構造内に記憶するように、さらに構成される。
図8は、検索結果を順位付けるさらに別の例示的な装置を図示する構造図である。取得モジュール501、確率計算モジュール502、期待値計算モジュール503、インデックス付けモジュール504、検索モジュール505、および順位付けモジュール506に加えて、装置は、検索リクエストおよびログファイルの識別子をキーとして、ならびにログファイルの期待値をそれぞれの値として検索データ構造内に記憶する前に、検索データ構造を検証するように構成された検証モジュール509をさらに含み、検索モジュール505は、検証された検索データ構造から、ユーザによって提出された検索リクエストと、提出された検索リクエストに関連するログファイルとの間の関連性の期待値を検出するように構成される。
上記の例示的な実施形態から、開示される装置は、ユーザによって提出された検索リクエストと提出された検索リクエストに関連するログファイルとの間の関連性の期待値を検索データ構造から検出することに応答して、ベイズの事後確率に基づいてログファイルと検索リクエストの間の関連性の期待値を計算し、そして検出されたログファイルを検出された期待値の降順に順位付ける。情報の位置およびクリックシーケンスに関する因子を考慮することによって、ユーザは、最も所望する情報を迅速に取得することができ、これによって、検索エンジンサーバの検索プロセスのコストを削減し、検索エンジンサーバのシステムリソースを節約する。
代替実施形態
上記の実施形態は、関連性の期待値を計算し、これらの関連性の期待値に基づいて検索結果を順位付けるために、ベイズの事後確率を使用することを記載するが、本開示はこれに限定されない。例のためであって限定ではなく、開示される方法および装置は、ログファイルと検索リクエストとの間の関連性の期待値を判定するために、例えば、ログファイルに対するクリック数等、前述の実施形態に記載される因子の線形結合等の任意の他の数学モデルを採用してもよい。当業者は、コンピュータプログラムを通してハードウェアを命令することによって達成されてもよい上記の例示的な方法におけるプロセスの全てまたは一部を理解することができることに注意されたい。プログラムは、コンピュータ可読記憶媒体の中に記憶されてもよい。実行中、プログラムは、上記の例示的な実施形態のうちの任意の1プロセスを含んでもよい。記憶媒体として、磁気ディスク、光学式ディスク、読み出し専用メモリ(ROM)、またはランダムアクセスメモリ(RAM)等を挙げることができる。
例えば、図9は、図508の装置のような装置の追加詳細を示す例示的なシステム900である。一実施形態において、システム900は、1つ以上のプロセッサ901と、ネットワークインターフェース902と、メモリ903と、入力/出力インターフェース904とを含むことができるが、これらに限定されない。
メモリ903は、RAM等の揮発性メモリおよび/またはROMまたはフラッシュRAM等の不揮発性メモリの形式におけるコンピュータ可読媒体を含んでもよい。メモリ903は、コンピュータ可読記憶媒体の例である。
コンピュータ可読媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータ等の情報の記憶のために、任意の方法または技術において実装される、揮発性および不揮発性の、取り外し可能および取り外し不可能な媒体を含む。コンピュータ記憶媒体の例として、相変化メモリ(PRAM)、静的ランダムアクセスメモリ(SRAM)、動的ランダムアクセスメモリ(DRAM)、他の種類のRAM、ROM、電気的消去可能プログラマブル読み出し専用メモリ(EEPROM)、フラッシュメモリまたは他のメモリ技術、コンパクトディスク読み出し専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)または他の光学式記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶デバイス、あるいはコンピュータデバイスによってアクセスするための情報を記憶するように使用することが可能である任意の他の非伝送媒体が挙げられるが、これらに限定されない。本明細書に定義される場合、コンピュータ可読記憶媒体は、変調データ信号および搬送波等の一時的媒体を含まない。
メモリ903は、プログラムモジュール905と、プログラムデータ906とを含んでもよい。一実施形態において、プログラムモジュール905は、取得モジュール907と、確率計算モジュール908と、期待値計算モジュール909と、インデックス付けモジュール910と、検索モジュール911と、順位付けモジュール912とを含む場合がある。加えて、いくつかの実施形態において、プログラムモジュール905は、第1のフィルタリングモジュール913をさらに含む場合がある。いくつかの実施形態において、第1のフィルタリングモジュール913は、選択サブモジュール914と、フィルタリングサブモジュール915とを含む場合がある。加えてまたは代替として、プログラムモジュール905は、第2のフィルタリングモジュール916をさらに含んでもよい。加えてまたは代替として、いくつかの実施形態において、プログラムモジュール905は、検証モジュール917をさらに含む場合がある。これらのプログラムモジュールに関する詳細は、上記の前述の実施形態に見出すことができる。
検索結果を順位付ける方法および装置は、本開示において詳細に記載されている。例示的な実施形態は、本開示において本発明の概念および実装を例示するために採用される。例示的な実施形態は、本発明の方法および重要な概念の理解を深めるためにのみ使用される。本開示の概念に基づいて、当業者は、例示的な実施形態および適用分野を変更してもよい。全体的に、本開示内の内容は、開示された方法および装置に対する限定として解釈されてはならない。

Claims (20)

  1. 検索結果を順位付ける方法であって、
    ログシステムから露出ログファイルを取得することと、
    前記ログファイルと検索リクエストとの間の関連性に対するベイズの事後確率を計算することと、
    前記ログファイルと前記検索リクエストとの間の前記関連性の期待値を計算することと、
    前記検索リクエストおよび前記ログファイルの識別子をキーとして、ならびに前記ログファイルと前記検索リクエストとの間の前記関連性の前記期待値をそれぞれの値として、検索データ構造内に記憶することと、
    ユーザによって提出された検索リクエストを受信することに応答して、前記検索データ構造から、前記ユーザによって提出された前記検索リクエストと前記提出された検索リクエストに関連するログファイルとの間の関連性の期待値を検出することと、
    前記検出された期待値の降順に従って、前記検出されたログファイルを順位付けることと、を含む、方法。
  2. 前記ベイズの事後確率を計算する前に、前記方法は、事前に定義された閾値未満のそれぞれのグローバルパラメータを有するログファイルをフィルタリングするように、グローバルパラメータに基づいて前記ログファイルをフィルタリングすることをさらに含み、前記ベイズの事後確率を計算することは、前記フィルタリングされたログファイルと前記検索リクエストとの間の関連性に対するベイズの事後確率を計算することを含む、請求項1に記載の方法。
  3. 前記フィルタリングすることは、
    前記露出ログファイルから、1回露出されていて、かつクリックされていないログファイルを選択することと、
    前記選択されたログファイルから、フィルタリング条件式
    Figure 2014500534

    に従って前記事前に定義された閾値未満の前記それぞれのグローバルパラメータを有するログファイルをフィルタリングすることを含み、式中、
    Figure 2014500534

    はグローバルパラメータ
    Figure 2014500534

    であり、
    Figure 2014500534

    は、前記選択されたログファイルを含む同じクリックシーケンス内において、位置rおよびr+dにあるログファイルがクリックされ、rとr+dとの間の位置にあるログファイルがクリックされない状況の発生回数であり、
    Figure 2014500534

    は、前記選択されたログファイルを含む同じクリックシーケンス内において、位置rにあるログファイルがクリックされ、位置r+dにあるログファイルがクリックされず、rとr+dとの間の位置にあるログファイルがクリックされない状況の発生回数であり、rの値は、M−1以下の自然数であり、dの値は、M−r以下の整数であり、Mは、前記選択されたログファイルを含む同じクリックシーケンス内のログファイルの総数を表し、Ethは、ログファイルと検索リクエストとの間の関連性の期待値に対応する事前に定義された閾値である、請求項2に記載の方法。
  4. 前記記憶の前に、事前に定義される閾値以下のそれぞれの期待値または分散を有するログファイルをフィルタリング除去するように、前記ログファイルと前記検索リクエストとの間の前記関連性の前記期待値または分散に基づいて、前記ログファイルをフィルタリングすることをさらに含み、前記記憶することは、前記検索リクエストおよび前記ログファイルの前記識別子を前記キーとして、ならびに前記フィルタリングされたログファイルと前記検索リクエストとの間の前記関連性の前記期待値を前記それぞれの値として、前記検索データ構造内に記憶することを含む、請求項1に記載の方法。
  5. 前記記憶の後、前記検索データ構造を検証することをさらに含み、前記検出することは、前記検証された検索データ構造から、前記ユーザによって提出された前記検索リクエストと、前記提出された検索リクエストに関連する前記ログファイルとの間の前記関連性の前記期待値を検出することを含む、請求項1に記載の方法。
  6. 前記ベイズの事後確率を計算することは、
    前記ユーザがログファイルをクリックしたかどうか、前記ユーザが前記ログファイルを視認したかどうか、前記ログファイルと前記ユーザの前記検索リクエストとの間の関連度、前記ユーザが次のログファイルを閲覧したかどうか、および以前のログファイルのクリック条件に基づいて、ならびに/または事前分布が[0,1]上の一様分布に従う場合、前記ユーザが前記ログファイルをクリックした後に前記ログファイルと前記リクエストとの間の関連性に対する結合事後分布を計算することを含む、請求項1に記載の方法。
  7. 検索結果を順位付ける装置であって、
    ログシステムから露出ログファイルを取得するように構成された取得モジュールと、
    前記ログファイルと検索リクエストとの間の関連性のベイズの事後確率を計算するように構成された確率計算モジュールと、
    前記ベイズの事後確率に基づいて、前記ログファイルと前記検索リクエストとの間の前記関連性の期待値を計算するように構成された期待値計算モジュールと、
    前記検索リクエストおよび前記ログファイルの識別子をキーとして、ならびに前記ログファイルと前記検索リクエストとの間の前記関連性の前記期待値をそれぞれの値として、検索データ構造内に記憶するように構成されたインデックス付けモジュールと、
    ユーザによって提出された検索リクエストを受信することに応答して、前記検索データ構造から、前記ユーザによって提出された前記検索リクエストと前記提出された検索リクエストに関連するログファイルとの間の関連性の期待値を検出するように構成された検索モジュールと、
    前記検出された期待値の降順に従って、前記検出されたログファイルを順位付けるように構成された順位付けモジュールと、を備える、装置。
  8. 前記ベイズの事後確率に基づいて前記ログファイルと前記検索リクエストとの間の前記関連性の前記期待値を計算する前に、グローバルパラメータに基づいて前記ログファイルをフィルタリングするように構成された第1のフィルタリングモジュールをさらに備え、対応する事前に定義された閾値未満のグローバルパラメータを有するログファイルがフィルタリングされ、前記期待値計算モジュールは、前記ベイズの事後確率に基づいて、前記フィルタリングされたログファイルと前記検索リクエストとの間の前記関連性の前記期待値を計算するようにさらに構成される、請求項7に記載の装置。
  9. 前記第1のフィルタリングモジュールは、
    前記露出ログファイルから、1回露出されていて、かつクリックされていないログファイルを選択するように構成された選択サブモジュールと、
    フィルタリング条件式
    Figure 2014500534

    に従って、前記選択されたログファイルから、ログファイル用の前記対応する事前に定義された閾値未満の前記グローバルパラメータを有する前記ログファイルをフィルタリングするように構成されたフィルタリングサブモジュールと、を備え、
    式中、
    Figure 2014500534

    は前記グローバルパラメータ
    Figure 2014500534

    であり、
    Figure 2014500534

    は、前記選択されたログファイルを含む同じクリックシーケンス内において、位置rおよびr+dにあるログファイルがクリックされ、rとr+dとの間の位置にあるログファイルがクリックされない状況の発生回数であり、
    Figure 2014500534

    は、前記選択されたログファイルを含む同じクリックシーケンス内において、位置rにあるログファイルがクリックされ、位置r+dにあるログファイルがクリックされず、rとr+dとの間の位置にあるログファイルがクリックされない状況の発生回数であり、rの値は、M−1以下の自然数であり、dの値は、M−r以下の整数であり、Mは、前記選択されたログファイルを含む同じクリックシーケンス内のログファイルの総数を表し、Ethは、関連性の期待値に対応する事前に定義された閾値である、請求項8に記載の装置。
  10. 前記検索リクエストおよび前記ログファイルの前記識別子を前記キーとして、ならびに前記ログファイルの前記期待値をそれぞれの値として前記検索データ構造内に記憶する前に、前記ログファイルと前記検索リクエストとの間の前記関連性の前記期待値または分散に基づいて、前記ログファイルをフィルタリングするように構成された第2のフィルタリングモジュールをさらに備え、対応する事前に定義された閾値未満の期待値または分散を有するログファイルがフィルタリングされ、前記インデックス付けモジュールは、前記検索リクエストおよび前記フィルタリングされたログファイルの前記識別子を前記キーとして、ならびに前記フィルタリングされたログファイルの前記期待値をそれぞれの値として、前記検索データ構造内に記憶するようにさらに構成される、請求項8に記載の装置。
  11. 前記検索リクエストおよび前記ログファイルの前記識別子を前記キーとして、ならびに前記ログファイルの前記期待値をそれぞれの値として前記検索データ構造内に記憶する前に、前記検索データ構造を検証するように構成された検証モジュールをさらに備え、前記検索モジュールは、前記検証された検索データ構造から、前記ユーザによって提出された前記検索リクエストと、前記提出された検索リクエストに関連する前記ログファイルとの間の前記関連性の前記期待値を検出するようにさらに構成される、請求項7に記載の装置。
  12. 前記確率計算モジュールは、前記ユーザが前記ログファイルをクリックしたかどうか、前記ユーザが前記ログファイルを視認したかどうか、前記ログファイルと前記ユーザの前記検索リクエストとの間の関連度、前記ユーザが次のログファイルを閲覧したかどうか、および/または以前のログファイルのクリック条件に基づいて、前記ログファイルのうちの一個のログファイルと前記検索リクエストとの間のベイズの事後確率を計算するように構成される、請求項7に記載の装置。
  13. 前記インデックス付けモジュールは、前記検索リクエストおよび前記ログファイルの前記識別子を前記キーとして、ならびに前記ログファイルと前記検索リクエストとの間の前記関連性の前記期待値をそれぞれの値として前記検索データ構造内に記憶するために、トライ木(trie tree)を採用する、請求項7に記載の装置。
  14. 1つ以上のプロセッサによって実行されると、
    ログシステムから露出ログファイルを取得することと、
    前記ログファイルと検索リクエストの間の関連性に対するベイズの事後確率を計算することと、
    前記ログファイルと前記検索リクエストとの間の前記関連性の期待値を計算することと、
    前記検索リクエストおよび前記ログファイルの識別子をキーとして、ならびに前記ログファイルと前記検索リクエストとの間の前記関連性の前記期待値をそれぞれの値として、検索データ構造内に記憶することと、
    ユーザによって提出された検索リクエストを受信することに応答して、前記検索データ構造から、前記ユーザによって提出された前記検索リクエストと前記提出された検索リクエストに関連するログファイルとの間の関連性の期待値を検出することと、
    前記検出された期待値の降順に従って、前記検出されたログファイルを順位付けることと、を含む、活動を実施するように前記1つ以上のプロセッサを構成する、コンピュータ実行可能命令を記憶する、1つ以上のコンピュータ可読媒体。
  15. 前記ベイズの事後確率を計算する前に、前記方法は、事前に定義された閾値未満のそれぞれのグローバルパラメータを有するログファイルをフィルタリングするように、グローバルパラメータに基づいて前記ログファイルをフィルタリングすることをさらに含み、前記ベイズの事後確率を計算することは、前記フィルタリングされたログファイルと前記検索リクエストとの間の関連性に対するベイズの事後確率を計算することを含む、請求項14に記載の1つ以上のコンピュータ可読媒体。
  16. 前記フィルタリングすることは、
    前記露出ログファイルから、1回露出されていて、かつクリックされていないログファイルを選択することと、
    前記選択されたログファイルから、フィルタリング条件式
    Figure 2014500534

    に従って前記事前に定義された閾値未満のそれぞれのグローバルパラメータを有する前記ログファイルをフィルタリングすることと、を含み、
    式中、
    Figure 2014500534
    は前記グローバルパラメータ
    Figure 2014500534

    であり、
    Figure 2014500534

    は、前記選択されたログファイルを含む同じクリックシーケンス内において、位置rおよびr+dにあるログファイルがクリックされ、rとr+dとの間の位置にあるログファイルがクリックされない状況の発生回数であり、
    Figure 2014500534

    は、前記選択されたログファイルを含む同じクリックシーケンス内において、位置rにあるログファイルがクリックされ、位置r+dにあるログファイルがクリックされず、rとr+dとの間の位置にあるログファイルがクリックされない状況の発生回数であり、rの値は、M−1以下の自然数であり、dの値は、M−r以下の整数であり、Mは、前記選択されたログファイルを含む同じクリックシーケンス内のログファイルの総数を表し、Ethは、ログファイルと検索リクエストとの間の関連性の期待値に対応する事前に定義された閾値である、請求項15に記載の1つ以上のコンピュータ可読媒体。
  17. 前記活動は、前記記憶の前に、事前に定義される閾値以下のそれぞれの期待値または分散を有するログファイルをフィルタリング除去するように、前記ログファイルと前記検索リクエストとの間の前記関連性の前記期待値または分散に基づいて、前記ログファイルをフィルタリングすることをさらに含み、前記記憶することは、前記検索リクエストおよび前記ログファイルの前記識別子を前記キーとして、ならびに前記フィルタリングされたログファイルと前記検索リクエストとの間の前記関連性の前記期待値を前記それぞれの値として、前記検索データ構造内に記憶することを含む、請求項14に記載の1つ以上のコンピュータ可読媒体。
  18. 前記活動は、前記記憶の後に、前記検索データ構造を検証することをさらに含み、前記検出することは、前記検証された検索データ構造から、前記ユーザによって提出された前記検索リクエストと、前記提出された検索リクエストに関連する前記ログファイルとの間の前記関連性の前記期待値を検出することを含む、請求項14に記載の1つ以上のコンピュータ可読媒体。
  19. 前記ベイズの事後確率を計算することは、
    前記ユーザがログファイルをクリックしたかどうか、前記ユーザが前記ログファイルを視認したかどうか、前記ログファイルと前記ユーザの前記検索リクエストとの間の関連度、前記ユーザが次のログファイルを閲覧したかどうか、および以前のログファイルのクリック条件に基づいて、ならびに/または事前分布が[0,1]上の一様分布に従う場合、前記ユーザが前記ログファイルをクリックした後に前記ログファイルと前記リクエストとの間の関連性に対する結合事後分布を計算することを含む、請求項14に記載の1つ以上のコンピュータ可読媒体。
  20. 前記ベイズの事後確率を計算することは、
    前記ユーザがログファイルをクリックしたかどうか、前記ユーザが前記ログファイルを視認したかどうか、前記ログファイルと前記ユーザの前記検索リクエストとの間の関連度、前記ユーザが次のログファイルを閲覧したかどうか、および以前のログファイルのクリック条件に基づいて、ならびに/または事前分布が[0,1]上の一様分布に従う場合、前記ユーザが前記ログファイルをクリックした後に前記ログファイルと前記リクエストとの間の関連性に対する結合事後分布を計算することを含む、請求項14に記載の1つ以上のコンピュータ可読媒体。
JP2013530401A 2010-09-28 2011-09-26 検索結果を順位付ける方法および装置 Active JP5864586B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN2010102991000A CN102419755B (zh) 2010-09-28 2010-09-28 一种搜索结果的排序方法和装置
CN201010299100.0 2010-09-28
PCT/US2011/053290 WO2012047593A2 (en) 2010-09-28 2011-09-26 Method and apparatus of ordering search results

Publications (2)

Publication Number Publication Date
JP2014500534A true JP2014500534A (ja) 2014-01-09
JP5864586B2 JP5864586B2 (ja) 2016-02-17

Family

ID=45928307

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013530401A Active JP5864586B2 (ja) 2010-09-28 2011-09-26 検索結果を順位付ける方法および装置

Country Status (7)

Country Link
US (3) US8538975B2 (ja)
EP (1) EP2622514A4 (ja)
JP (1) JP5864586B2 (ja)
CN (1) CN102419755B (ja)
HK (1) HK1166162A1 (ja)
TW (1) TWI512506B (ja)
WO (1) WO2012047593A2 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102419755B (zh) 2010-09-28 2013-04-24 阿里巴巴集团控股有限公司 一种搜索结果的排序方法和装置
CN103123653A (zh) * 2013-03-15 2013-05-29 山东浪潮齐鲁软件产业股份有限公司 基于贝叶斯分类学习的搜索引擎检索排序方法
US10102277B2 (en) * 2014-05-15 2018-10-16 Sentient Technologies (Barbados) Limited Bayesian visual interactive search
US10606883B2 (en) 2014-05-15 2020-03-31 Evolv Technology Solutions, Inc. Selection of initial document collection for visual interactive search
US20150331908A1 (en) 2014-05-15 2015-11-19 Genetic Finance (Barbados) Limited Visual interactive search
CN103995869B (zh) * 2014-05-20 2017-02-22 东北大学 一种基于Apriori算法的数据缓存方法
US9390275B1 (en) * 2015-01-27 2016-07-12 Centurion Holdings I, Llc System and method for controlling hard drive data change
US11868354B2 (en) * 2015-09-23 2024-01-09 Motorola Solutions, Inc. Apparatus, system, and method for responding to a user-initiated query with a context-based response
CN106649396B (zh) * 2015-11-03 2019-11-08 腾讯科技(深圳)有限公司 游戏等级数据的排序方法、系统及装置
CN105512230B (zh) * 2015-11-30 2020-05-22 北京金山安全软件有限公司 数据存储方法及装置
CN105512232B (zh) * 2015-11-30 2020-02-28 北京金山安全软件有限公司 数据存储方法及装置
CN105488195A (zh) * 2015-12-07 2016-04-13 中国人民大学 一种基于层次结构子话题的搜索结果多样化排序方法
CN107423298B (zh) * 2016-05-24 2021-02-19 北京百度网讯科技有限公司 一种搜索方法和装置
US10909459B2 (en) 2016-06-09 2021-02-02 Cognizant Technology Solutions U.S. Corporation Content embedding using deep metric learning algorithms
US10755144B2 (en) 2017-09-05 2020-08-25 Cognizant Technology Solutions U.S. Corporation Automated and unsupervised generation of real-world training data
US10755142B2 (en) 2017-09-05 2020-08-25 Cognizant Technology Solutions U.S. Corporation Automated and unsupervised generation of real-world training data
US11030634B2 (en) 2018-01-30 2021-06-08 Walmart Apollo, Llc Personalized mechanisms to resolve explore-exploit dilemma with dynamically shared learnings
US11055742B2 (en) 2018-01-30 2021-07-06 Walmart Apollo, Llc Automated mechanisms to resolve explore-exploit dilemma with adaptive revival opportunities
US11042895B2 (en) 2018-01-30 2021-06-22 Walmart Apollo, Llc Automatic resolution of the explore-exploit decision in omnichannel settings
CN110309121B (zh) * 2018-03-22 2023-05-26 腾讯科技(深圳)有限公司 日志处理方法及装置、计算机可读介质和电子设备
CN111563158B (zh) * 2020-04-26 2023-08-29 腾讯科技(深圳)有限公司 文本排序方法、排序装置、服务器和计算机可读存储介质
CN113220922B (zh) * 2021-06-04 2024-02-02 北京有竹居网络技术有限公司 图像搜索方法、装置和电子设备
CN114662008B (zh) * 2022-05-26 2022-10-21 上海二三四五网络科技有限公司 基于点击位置因素改进的ctr热门内容计算方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050149504A1 (en) * 2004-01-07 2005-07-07 Microsoft Corporation System and method for blending the results of a classifier and a search engine
US20100125570A1 (en) * 2008-11-18 2010-05-20 Olivier Chapelle Click model for search rankings
JP2010123036A (ja) * 2008-11-21 2010-06-03 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置、文書検索方法、および文書検索プログラム

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6128613A (en) * 1997-06-26 2000-10-03 The Chinese University Of Hong Kong Method and apparatus for establishing topic word classes based on an entropy cost function to retrieve documents represented by the topic words
KR20010043794A (ko) * 1998-06-05 2001-05-25 샌제이브 사이두 추상형 지역 탐색 기술을 사용한 컴퓨터 구현 방식의스케줄링 시스템 및 프로세스
US7702537B2 (en) 1999-05-28 2010-04-20 Yahoo! Inc System and method for enabling multi-element bidding for influencing a position on a search result list generated by a computer network search engine
US7599911B2 (en) * 2002-08-05 2009-10-06 Yahoo! Inc. Method and apparatus for search ranking using human input and automated ranking
US7287012B2 (en) * 2004-01-09 2007-10-23 Microsoft Corporation Machine-learned approach to determining document relevance for search over large electronic collections of documents
US7761447B2 (en) 2004-04-08 2010-07-20 Microsoft Corporation Systems and methods that rank search results
US20060064411A1 (en) * 2004-09-22 2006-03-23 William Gross Search engine using user intent
US7765178B1 (en) 2004-10-06 2010-07-27 Shopzilla, Inc. Search ranking estimation
US7689615B2 (en) * 2005-02-25 2010-03-30 Microsoft Corporation Ranking results using multiple nested ranking
US7818315B2 (en) * 2006-03-13 2010-10-19 Microsoft Corporation Re-ranking search results based on query log
US20070288399A1 (en) * 2006-05-16 2007-12-13 Mark Reynolds Qualitative retirement advice and management system and method for creating a retirement plan
US7769776B2 (en) 2006-06-16 2010-08-03 Sybase, Inc. System and methodology providing improved information retrieval
US7664744B2 (en) * 2006-07-14 2010-02-16 Yahoo! Inc. Query categorizer
EP2115638A1 (en) 2006-12-29 2009-11-11 Thomson Reuters Global Resources Information-retrieval systems, methods, and software with concept-based searching and ranking
CN101334773B (zh) * 2007-06-28 2014-07-30 联想(北京)有限公司 一种过滤搜索引擎查询结果的方法
US7895206B2 (en) 2008-03-05 2011-02-22 Yahoo! Inc. Search query categrization into verticals
US8412702B2 (en) * 2008-03-12 2013-04-02 Yahoo! Inc. System, method, and/or apparatus for reordering search results
US8180766B2 (en) 2008-09-22 2012-05-15 Microsoft Corporation Bayesian video search reranking
US9449078B2 (en) * 2008-10-01 2016-09-20 Microsoft Technology Licensing, Llc Evaluating the ranking quality of a ranked list
US8126894B2 (en) 2008-12-03 2012-02-28 Microsoft Corporation Click chain model
US8620900B2 (en) 2009-02-09 2013-12-31 The Hong Kong Polytechnic University Method for using dual indices to support query expansion, relevance/non-relevance models, blind/relevance feedback and an intelligent search interface
CN102419755B (zh) 2010-09-28 2013-04-24 阿里巴巴集团控股有限公司 一种搜索结果的排序方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050149504A1 (en) * 2004-01-07 2005-07-07 Microsoft Corporation System and method for blending the results of a classifier and a search engine
US20100125570A1 (en) * 2008-11-18 2010-05-20 Olivier Chapelle Click model for search rankings
JP2010123036A (ja) * 2008-11-21 2010-06-03 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置、文書検索方法、および文書検索プログラム

Also Published As

Publication number Publication date
CN102419755B (zh) 2013-04-24
EP2622514A4 (en) 2015-04-22
JP5864586B2 (ja) 2016-02-17
US20130191381A1 (en) 2013-07-25
US8862604B2 (en) 2014-10-14
US9372899B2 (en) 2016-06-21
HK1166162A1 (en) 2012-10-19
WO2012047593A3 (en) 2013-10-10
US8538975B2 (en) 2013-09-17
CN102419755A (zh) 2012-04-18
US20150039604A1 (en) 2015-02-05
TW201214168A (en) 2012-04-01
EP2622514A2 (en) 2013-08-07
WO2012047593A2 (en) 2012-04-12
US20130325857A1 (en) 2013-12-05
TWI512506B (zh) 2015-12-11

Similar Documents

Publication Publication Date Title
JP5864586B2 (ja) 検索結果を順位付ける方法および装置
JP6676167B2 (ja) 情報推薦方法及び装置
US7653618B2 (en) Method and system for searching and retrieving reusable assets
US9430459B2 (en) Automated table transformations from examples
KR101557294B1 (ko) 편집 거리 및 문서 정보를 이용한 검색 결과 랭킹
US7917503B2 (en) Specifying relevance ranking preferences utilizing search scopes
US8005823B1 (en) Community search optimization
RU2636133C2 (ru) Способ и устройство для отображения прикладного программного обеспечения
US11403346B2 (en) Method and device for searching for information in applications
US20130110815A1 (en) Generating and presenting deep links
US10248732B2 (en) Identifying related entities
US20130157234A1 (en) Storyline visualization
US9183312B2 (en) Image display within web search results
US20060248072A1 (en) System and method for spam identification
WO2013066929A1 (en) Method and apparatus of ranking search results, and search method and apparatus
US10346496B2 (en) Information category obtaining method and apparatus
WO2012162541A1 (en) Method and apparatus of providing suggested terms
JP2015505629A (ja) 情報検索を行う方法及びサーバ
US7769749B2 (en) Web page categorization using graph-based term selection
WO2010054119A2 (en) Image relevance by identifying experts
CN112650940A (zh) 应用程序的推荐方法、装置、计算机设备及存储介质
CN108536716B (zh) 搜索结果处理方法、装置及服务器
Chen et al. Analyzing User Behavior History for constructing user profile
CN117194801B (zh) 基于技术转移公共服务系统及方法
RU2718216C2 (ru) Способ и сервер для ранжирования документов на странице результатов поиска

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140904

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150731

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151224

R150 Certificate of patent or registration of utility model

Ref document number: 5864586

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250