JP2008519328A

JP2008519328A - リンクベースのスパム検出

Info

Publication number: JP2008519328A
Application number: JP2007539077A
Authority: JP
Inventors: バーキン，ペイベル; ギョンギィ，ゾルタン・アイ; ペダーセン，ジャン
Original assignee: ヤフー！インコーポレイテッド
Priority date: 2004-10-28
Filing date: 2005-10-26
Publication date: 2008-06-05
Anticipated expiration: 2025-10-26
Also published as: CN101180624B; WO2006049996A2; US7533092B2; US20060095416A1; JP4908422B2; WO2006049996A3; CN101180624A; KR20070085477A; EP1817697A2; KR101230687B1; HK1115930A1

Abstract

検索結果セットにおいて検索ヒットをランク付けするための、コンピュータによって実現される方法が提供される。上記方法は、ユーザからクエリを受取ることと、クエリに関連するヒットのリストを生成することとを含み、ヒットの各々はクエリに関連し、ヒットは、ヒットを指し示す１つ以上のブーストリンクされたドキュメントを有し、ブーストリンクされたドキュメントは、ヒットの、クエリとの関連性に影響を及ぼす。上記方法は、各々を指し示すブーストリンクされたドキュメントの数を表わすメトリックをヒットに関連付ける。上記方法は次いで、メトリックを閾値と比較し、一部その比較に基づいて、修正されたリストを形成するためにヒットのリストを処理し、修正されたリストをユーザに伝送する。

Description

発明の背景
この発明は概して検索システムに関し、より詳細には、結果セットにおいて検索ヒットをランク付けする検索システムに関する。

コーパス全体が吸収されることができず、所望の項目への厳密なポインタが存在しないまたは可能でない場合には、検索が有用である。概して、検索は、検索クエリを公式化または受入れ、ドキュメントのコーパスから一致するドキュメントのセットを求め、そのセットまたはそのセットが大き過ぎる場合にはそのセットの何らかのサブセットを返すプロセスである。具体的な例において、この開示はその例に限定されないのだが、「ウェブ」と称されるハイパーリンクされたドキュメントのセットを検索することを考慮されたい。コーパスには、本明細書ではページと称され、またはより総称的にドキュメントと称される多くの検索可能な項目が入っている。検索エンジンは、典型的には検索クエリの受取に先立って生成される索引を使用して、検索クエリに一致するドキュメントをコーパスから識別する。「一致」とは多くのことを意味する可能性があり、検索クエリはさまざまな形態を有し得る。一般に、検索クエリは１つ以上の語または用語を含む文字列であり、ドキュメントが検索クエリ文字列からの語または用語のうち１つ以上（または、それらのすべて）を含むときに一致が発生する。各々の一致するドキュメントはヒットと称され、ヒットのセットは結果セットまたは検索結果と称される。コーパスは、データベースまたは他のデータ構造または非構造化データであり得る。ドキュメントはしばしばウェブページである。

ウェブページの典型的な索引は何十億ものエントリを含むため、一般的な検索は何百万ものページを含む結果セットを有するかもしれない。明らかに、このような状況では、クエリを行なう人（典型的には人間のコンピュータユーザであるが、そうである必要はない）に返されるものの大きさが妥当なものであるようにするために、検索エンジンは結果セットをさらに制約しなければならないかもしれない。セットを制約する１つのアプローチは、順序付けられた検索結果の中でより高いところに現われる少数のヒットのみをユーザは読むまたは使用すると仮定して、ある順序で検索結果を提示することである。

この仮定のために、多くのウェブページの作者は、順序付けられた検索結果の中で自分たちのページが高いところに現われることを望む。検索エンジンは、最高品質のページのみを選択し、返すために、関連するページのさまざまな特徴に依拠する。クエリ結果リストにおけるトップの位置（上位）がビジネス上の優位を与え得るので、あるウェブページの作者は、自分たちのページのランキングを故意にブーストしようとする。ランキングが人為的にブーストされたこのようなページは「ウェブスパム」ページと呼ばれ、総称して「ウェブスパム」として公知である。

ウェブスパムに関連付けられるさまざまな技術が存在する。１つの技術は、ウェブページを多くのクエリによって選択されるのにふさわしいものに人為的にするというものである。これは、本質的なコンテンツに無関係であり、小さなまたは目に見えないフォントで表現される莫大な数の用語でページを増大させることによって達成されることができる。このような増大によって、ページはより露出されるようになる（すなわち、より多くのクエリに関連する可能性がある）が、任意の特定のクエリについてその関連性を真に向上さ
せることはない。この点に関して、スパムの作者は別の技術を使用する。その別の技術とは、他者によってより頻繁に参照されるページが概して検索エンジンによって好ましい（より高い関連性を有する）と考えられるという観察に基づいて、インリンク（inlink）とも呼ばれる多くの入ってくる（ハイパー）リンクをページに付加するというものである。価値が優れているために多くの他者によって参照される真に高品質のページと、多くのインリンクを有するウェブスパムとを区別することは困難である。

ウェブスパムページを識別することおよび検索結果リストにおいてウェブスパムページをその後格下げすることは、検索エンジンによってもたらされる回答の質を維持または向上させるために重要である。したがって、ウェブスパムの検出は検索エンジンにとって有用なタスクである。検索エンジンの索引に存在する多数のページを検証することによってウェブスパムを識別するためにヒューマンエディタ（human editor）がしばしば利用されるが、それは実用的でないことが多い。

したがって、ウェブスパムを克服し、ドキュメントの作者の操作に従うのではなく、ユーザが欲するものにより従う検索結果を提供する改良された検索処理が必要である。

発明の簡単な概要
この発明の実施例は、検索結果セットを形成するヒットをランク付けすることを含む、検索要求を処理するためのシステムおよび方法を提供する。ヒットは、特定のページを指し示すスパムファーム（spam farm）の大きさの尺度である有効質量（effective mass）および他のパラメータを使用してランク付けされることができる。

一実施例では、この発明は、検索結果セットにおいて検索ヒットをランク付けする、コンピュータによって実現される方法を提供する。コンピュータによって実現される方法は、ユーザからクエリを受取ることと、クエリに関連するヒットのリストを生成することとを含み、ヒットの各々はクエリに関連し、ヒットは、ヒットを指し示す１つ以上のブーストリンクされたドキュメントを有し、ブーストリンクされたドキュメントは、ヒットの、クエリとの関連性に影響を及ぼす。上記方法は次いで、ヒットの少なくともサブセットの各々ごとにメトリック（metric）を関連付け、メトリックは、ヒットの少なくともサブセットの各々を指し示しかつヒットの関連性を人為的に膨らませる、ブーストリンクされたドキュメントの数を表わす。上記方法は次いで、ヒットを指し示すスパムファームの大きさを表わすメトリックを閾値と比較し、一部上記比較に基づいて、修正されたリストを形成するためにヒットのリストを処理し、修正されたリストをユーザに伝送する。

一局面では、メトリックは第１の尺度と第２の尺度との組合せである。ヒットについての第１の尺度はヒットのリンクポピュラリティを表わし、第２の尺度はヒットが評判のよいドキュメントである可能性の尺度である。

別の局面では、第２の尺度は評判のよいドキュメントのシードセット（seed set）を形成することによって生成され、評判のよいドキュメントのシードセットはリンクを張るドキュメントであり、上記第２の尺度はさらに、シードセットにおけるドキュメントの各々に信頼値を割当てることと、リンクを張るドキュメントによって指し示されるリンクされるドキュメントの各々にその信頼値を伝播させることと、配分された信頼値を、リンクされるドキュメントの各々に割当てることとによって生成される。

別の局面では、評判のよいドキュメントのシードセットは、複数のドキュメントの各々ごとに、ドキュメントの各々のアウトリンク（outlink）の数を表わすアウトリンクメトリックを求めることと、そのアウトリンクメトリックを使用して複数のドキュメントをラ
ンク付けすることと、最も高くランク付けされたドキュメントのセットを識別することと、最も高くランク付けされたドキュメントの質を評価することと、最も高くランク付けされたドキュメントから不適切であると考えられるドキュメントを除去することによってドキュメントの修正されたセットを形成することと、修正された保持されるセットを使用してシードセットを形成することとによって形成される。

添付の図面とともに以下の詳細な説明によって、この発明の性質および利点はよりよく理解されることになる。

発明の詳細な説明
定義
別の方法で定義されない限り、本明細書において使用されるすべての技術的および科学的用語は、この発明が関係する当業者によって一般に理解されている意味を有する。本明細書において使用されるように、以下の用語は下記のとおりに定義される。

ページランク（PageRank）とは、検索エンジンによって索引付けされるハイパーリンクされたドキュメント（またはウェブページまたはウェブサイト）に数値で重み付けするための一群の周知のアルゴリズムである。ページランクはリンク情報を使用して、ウェブ上のドキュメントにグローバル重要性スコアを割当てる。ページランクプロセスは特許を受けており、米国特許第６，２８５，９９９号に記載される。ドキュメントのページランクは、ウェブ上のドキュメントのリンクベースのポピュラリティの尺度である。

トラストランク（TrustRank）とは、ページランクに関連するリンク分析技術である。トラストランクは、ウェブ上の評判のよい、優れたページをウェブスパムから分離するための方法である。トラストランクは、ウェブ上の優れたドキュメントが滅多にスパムにリンクしないという推測に基づいている。トラストランクは２つのステップを伴い、そのうちの１つはシード選択であり、別のステップはスコア伝播である。ドキュメントのトラストランクは、ドキュメントが評判のよい（すなわち、スパムのない）ドキュメントである可能性の尺度である。

リンクまたはハイパーリンクとは、別のページ、別のサイトまたは同一ページの別の部分に通常つながるウェブページ上のクリック可能なコンテンツを指す。したがって、クリック可能なコンテンツは、同一ページの他のページ／サイト／部分にリンクしていると言われている。スパイダは、ウェブサイトを索引付けするときに、リンクを使用して１つのページから次のページにゆっくり進む。

インバウンドリンクまたはインリンク／アウトバウンドリンクまたはアウトリンク。サイトＡがサイトＢにリンクするとき、サイトＡはアウトバウンドリンクを有し、サイトＢはインバウンドリンクを有する。インバウンドリンクは、リンクポピュラリティを求めるために数えられる。

ウェブまたはワールドワイドウェブ（「ＷＷＷ」または単に「ウェブ」）とは、リソースと称される対象の項目が定型資源識別子（Uniform Resource Identifiers）（ＵＲＩ）と呼ばれるグローバル識別子によって識別される情報空間である。ウェブという用語はしばしばインターネットの同義語として使用されるが、ウェブは実際にはインターネット上で動作するサービスである。

ウェブページとは、通常ＨＴＭＬ／ＸＨＴＭＬ形式であり（ファイルの拡張子は典型的にはhtmまたはhtmlであり）、あるページまたはセクションから別のページまたはセクシ
ョンへのナビゲーションを可能にするためにハイパーテキストリンクを有するワールドワイドウェブのページまたはファイルを指す。ウェブページはしばしば関連付けられるグラフィックスファイルを使用してイラストをもたらし、これらもクリック可能なリンクであり得る。ウェブページは、ウェブブラウザを使用して表示され、多くの場合モーション、グラフィックス、対話および音声をもたらすアプレット（ページ内で実行するサブプログラム）を利用するように設計されることができる。

ウェブサイトとは、単一のフォルダにまたはウェブサーバの関連するサブフォルダ内に格納されたウェブページの集まりを指す。ウェブサイトは概して、典型的にはindex.htmまたはindex.htmlと名付けられるトップページを含む。

ウェブホストは、独自のウェブサーバを持たない個人または企業によって管理されるウェブサイトにサーバ空間、ウェブサービスおよびファイルメンテナンスを提供することに従事する。多くのインターネットサービスプロバイダ（Internet Service Provider）（ＩＳＰ）は、個人のウェブページのホストとして機能するように少量のサーバ空間を加入者に与えることになる。

スパムとは、大量に配信される、通常営利的な性質を有する不必要なドキュメントまたはｅメールを指す。

ウェブスパムとは、ウェブ上のスパムページを指す。ウェブスパムを作成する行為は、ウェブスパミングと称される。ウェブスパミングとは、値するいくつかのドキュメントにより高いランキングを与えるために検索エンジンを惑わせるように意図される行動を指す。ウェブ上のスパムページは、スパミングの何らかの形態の結果である。スパミングの一形態は、リンクスパミングである。

スパムページとは、ランキングスコアの大幅な違法のブーストを受け、したがって、検索結果が上位に現われる可能性を高くし、検索エンジンを惑わせるように意図されるウェブドキュメントである。

リンクスパミングとは、しばしば相互接続されてスパムファームと呼ばれるグループを形成するスパムドキュメントの作成を指し、スパムファームは、多数のブーストドキュメントが１つまたはいくつかのターゲットページのリンクベースの重要性ランキングを上げるであろうように構築される。

スパムファームとは、特定のターゲットページのリンクベースの重要性スコア（たとえば、ページランクスコア）をブーストするために作成される、相互にリンクされたスパムページのグループを指す。

概要
この発明の実施例は、リンクベースのスパムの検出のための方法およびシステムに向けられている。検索クエリに応答してもたらされる検索結果は、ヒットの有効質量を求めるために処理される。ヒットの有効質量は、ヒットを指し示すために作成され、したがって、ヒットの相対的な重要性を人為的にブーストするスパムファームの大きさの尺度である。この発明の実施例に従う方法およびシステムは、ヒットの有効質量を使用し、有効質量がリンクベースのスパムによってヒットを人為的にブーストする可能性を高くするそのヒットを格下げする。所与のウェブドキュメントについての有効質量を求めることは、所与のウェブドキュメントのリンクベースのポピュラリティ（たとえば、ページランク）と、所与のウェブドキュメントの信頼性（たとえば、トラストランク）との間の相違を部分的に査定する技術の組合せに依拠する。所与のウェブドキュメントの有効質量を求めるため
の技術について、以下でさらに詳細に説明する。

ネットワーク実現例
図１は、この発明の実施例を実施するために使用され得る１つ以上のクライアントシステム２０_1-Nを含む情報抽出および通信ネットワーク１０の一般的な概要を示す。コンピュータネットワーク１０では、クライアントシステム２０_1-Nは、インターネット４０または他の通信ネットワークを介して（たとえば、任意のローカルエリアネットワーク（local area network）（ＬＡＮ）または広域ネットワーク（wide area network）（ＷＡＮ）接続によって）任意の数のサーバシステム５０₁から５０_Nに結合される。本明細書において記載されるように、クライアントシステム２０_1-Nは、たとえば媒体コンテンツおよびウェブページなどの他の情報にアクセスし、それらを受取、抽出および表示するためにサーバシステム５０₁から５０_Nのいずれかと通信するようこの発明に従って構成される。

図１に示されるシステムにおけるいくつかの要素は、ここで詳細に説明される必要がない従来型の周知の要素を含む。たとえば、クライアントシステム２０は、デスクトップパーソナルコンピュータ、ワークステーション、ラップトップ、パーソナルデジタルアシスタント（personal digital assistant）（ＰＤＡ）、携帯電話、または任意のＷＡＰ対応装置もしくはインターネットに直接的もしくは間接的に接続できる他の計算装置を含み得るであろう。クライアントシステム２０は典型的には、マイクロソフトのインターネットエクスプローラ（登録商標）ブラウザ、ネットスケープナビゲータ（登録商標）ブラウザ、モジラ（登録商標）ブラウザ、オペラ（登録商標）ブラウザ、アップルのサファリ（登録商標）、または携帯電話、ＰＤＡもしくは他の無線装置の場合のＷＡＰ対応ブラウザなどのブラウジングプログラムを実行し、クライアントシステム２０_1-Nのユーザは、利用可能な情報およびページをインターネット４０によってサーバシステム５０₁から５０_Nからアクセス、処理および閲覧できる。クライアントシステム２０は典型的には、ページ、形態、およびサーバシステム５０₁から５０_Nまたは他のサーバによって与えられる他の情報とともに、ブラウザによってディスプレイ（たとえば、モニタスクリーン、ＬＣＤディスプレイなど）にもたらされるグラフィカルユーザインターフェイス（graphical user interface）（ＧＵＩ）と対話するための、キーボード、マウス、タッチスクリーン、ペンなどの１つ以上のユーザインターフェイス装置２２も含む。この発明はインターネットとともに使用するのに好適であり、インターネットとはネットワークの具体的なグローバルに関連するセットを指す。しかしながら、インターネットの代わりにまたはインターネットに加えて、イントラネット、エクストラネット、バーチャルプライベートネットワーク（virtual private network）（ＶＰＮ）、ＴＣＰ／ＩＰベースでないネットワーク、任意のＬＡＮまたはＷＡＮなどの他のネットワークが使用され得ることが理解されるべきである。

一実施例によれば、クライアントシステム２０およびその構成要素のすべては、インテルペンティアム（登録商標）プロセッサ、ＡＭＤアスロン（AMD Athlon）（登録商標）プロセッサ、アップルのパワーＰＣ（Power PC）などの中央演算処理装置または複数のプロセッサを使用して実行されるコンピュータソフトウェアを含むアプリケーションを使用して構成可能な演算子である。本明細書に記載されるデータおよび媒体コンテンツを通信、処理および表示するようにクライアントシステム２０を動作させ、構成するためのコンピュータソフトウェアは好ましくはハードディスクにダウンロードおよび格納されるが、全プログラムコードまたはその一部は、ＲＯＭもしくはＲＡＭなどの周知の他の揮発性または不揮発性メモリ媒体または装置にも格納される場合もあれば、コンパクトディスク（compact disk）（ＣＤ）媒体、デジタル多用途ディスク（digital versatile disk）（ＤＶＤ）媒体、フロッピー（登録商標）ディスクなどの、プログラムコードを格納できる任意の媒体に与えられる場合もある。さらに、全プログラムコードまたはその一部は、ソフトウェアソースから、たとえばサーバシステム５０₁から５０_Nのうちの１つからクライアン
トシステム２０にインターネットによって伝送およびダウンロードされる場合もあれば、任意の通信媒体およびプロトコル（たとえば、ＴＣＰ／ＩＰ、ＨＴＴＰ、ＨＴＴＰＳ、イーサネット（登録商標）または他の従来型の媒体およびプロトコル）を使用して他のネットワーク接続（たとえば、エクストラネット、ＶＰＮ、ＬＡＮまたは他の従来型のネットワーク）によって伝送される場合もある。

この発明の局面を実現するためのコンピュータコードはＣ、Ｃ＋＋、ＨＴＭＬ、ＸＭＬ、Java（登録商標）、Java（登録商標）Scriptなどのコード、または他の好適なスクリプト言語（たとえば、VBScript）、またはクライアントシステム２０で実行されることができるかまたはクライアントシステム２０もしくはシステム２０_1-Nで実行するようにコンパイルされることができる他の好適なプログラミング言語であり得ることが認識されるべきである。いくつかの実施例では、クライアントシステム２０にダウンロードされるコードはなく、必要なコードはサーバによって実行され、またはクライアントシステム２０に既に存在するコードが実行される。

検索システム
図２は、この発明の実施例による媒体コンテンツを通信するための別の情報抽出および通信ネットワーク１１０を示す。示されるように、ネットワーク１１０は、クライアントシステム１２０と、１つ以上のコンテンツサーバシステム１５０と、検索サーバシステム１６０とを含む。ネットワーク１１０では、クライアントシステム１２０は、インターネット１４０または他の通信ネットワークを介して、サーバシステム１５０および１６０に通信可能に結合される。上述のように、クライアントシステム１２０およびその構成要素は、インターネット１４０または他の通信ネットワークによって、サーバシステム１５０および１６０ならびに他のサーバシステムと通信するよう構成される。

１．クライアントシステム
一実施例によれば、クライアントシステム１２０で実行する（モジュール１２５として表わされる）クライアントアプリケーションは、サーバシステム１５０および１６０と通信するため、ならびにそこから受取られたデータコンテンツを処理および表示するためにクライアントシステム１２０およびその構成要素を制御するための命令を含む。クライアントアプリケーション１２５は好ましくは、リモートサーバシステム（たとえば、サーバシステム１５０、サーバシステム１６０または他のリモートサーバシステム）などのソフトウェアソースからクライアントシステム１２０に伝送およびダウンロードされるが、クライアントアプリケーションモジュール１２５は、上述のように、フロッピー（登録商標）ディスク、ＣＤ、ＤＶＤなどの任意のソフトウェア記憶媒体に設けられることができる。たとえば、一局面では、クライアントアプリケーションモジュール１２５は、データを操作するためならびにさまざまなオブジェクト、フレームおよびウインドウでデータを表現するための、たとえば組込型Java（登録商標）ScriptまたはActiveX制御装置などのさまざまな制御装置を含むＨＴＭＬラッパーの状態でインターネット１４０によってクライアントシステム１２０に与えられてもよい。

さらに、クライアントアプリケーションモジュール１２５は、検索要求および検索結果データを処理するための検索モジュール１２６、テキストおよびデータフレームおよびアクティブウインドウ、たとえばブラウザウインドウおよびダイアログボックスの状態でデータおよび媒体コンテンツを表現するためのユーザインターフェイスモジュール１２７、ならびにクライアント１２０で実行するさまざまなアプリケーションと接続および通信するためのアプリケーションインターフェイスモジュール１２８などの、データおよび媒体コンテンツを処理するためのさまざまなソフトウェアモジュールを含む。アプリケーションインターフェイスモジュール１２８が好ましくは接続するよう構成される、クライアントシステム１２０で実行するさまざまなアプリケーションの例は、さまざまなｅメールア
プリケーション、インスタントメッセージ（instant messaging）（ＩＭ）アプリケーション、ブラウザアプリケーション、ドキュメント管理アプリケーションなどを含む。さらに、インターフェイスモジュール１２７は、クライアントシステム１２０に構成されるデフォルトブラウザまたは異なるブラウザなどのブラウザを含んでもよい。

２．検索サーバシステム
一実施例によれば、検索サーバシステム１６０は、検索結果データおよび媒体コンテンツをクライアントシステム１２０に与えるよう構成される。コンテンツサーバシステム１５０は、たとえば検索サーバシステム１６０によって与えられる検索結果ページにおいて選択されたリンクに応答して、ウェブページなどのデータおよび媒体コンテンツをクライアントシステム１２０に与えるよう構成される。いくつかの変形例では、検索サーバシステム１６０は、コンテンツへのリンクおよび／または他の参照と同様に、またはその代わりに、コンテンツを返す。

一実施例における検索サーバシステム１６０は、たとえばページ、ページへのリンク、索引付けされたページのコンテンツを表わすデータなどが実装されたさまざまなページ索引１７０を参照する。ページ索引は、自動ウェブクローラ、スパイダなどを含むさまざまな収集技術、ならびに階層構造内でウェブページを分類およびランク付けするための手動または半自動分類アルゴリズムおよびインターフェイスによって生成されてもよい。これらの技術は、検索サーバシステム１６０で実現されてもよく、またはページ索引１７０を生成し、ページ索引１７０を検索サーバシステム１６０にとって利用可能なものにする別個のシステム（図示せず）において実現されてもよい。

検索サーバシステム１６０は、検索モジュール１２６からなど、クライアントシステムから受取られるさまざまな検索要求に応答するデータを提供するよう構成される。たとえば、検索サーバシステム１６０は、（たとえば、クエリにおける検索用語の発生のパターンによって測定される論理的な関連性の組合せ、コンテキスト識別子、ページスポンサーなどに基づいて）所与のクエリに対してウェブページを処理およびランク付けするための検索関連アルゴリズムで構成されてもよい。

リンクベースのスパム検出
図２に示されるように、検索サーバシステム１６０は、ウェブスパムページが格下げされるかまたはリストから除去された場合に修正された検索リストを返すリンクベースのスパム検出器１８０と組合せられて機能し、検索サーバシステム１６０の出力（結果、提案、媒体コンテンツなど）をリンクベースのスパム検出器１８０に与える。検索サーバシステム１６０は、この発明の実施例による検索エンジンを動作させるよう構成される。検索エンジンは、３つの部分、すなわち１つ以上のスパイダ１６２と、データベース１６３と、ツール／アプリケーション１６７とから成る。情報を集めるスパイダ１６２はインターネット中をゆっくり進み、データベース１６３にはスパイダが集めた情報および他の情報が入っており、ツール／アプリケーション１６７は、データベースを検索するためにユーザによって使用される検索ツール１６６などのアプリケーションを含む。データベース１６７には、検索ツールによって使用されるページ索引１７０が入っている。さらに、この発明の実施例による検索エンジンは、スパム検出器１８０を含む。スパム検出器１８０は、以下に記載されるさまざまなアルゴリズムを実行し、ページについてのウェブスパムメトリック１８１をページ索引１７０に格納する。上で説明されたように、この発明の実施例によるスパム検出器１８０は、ヒットの有効質量に一致するメトリックを推定し、検索ツール１６６およびページ索引１７０と組合せられて機能し、有効質量がリンクベースのスパムによってヒットを人為的にブーストする可能性を高くするそのヒットを格下げする。所与のウェブドキュメントについての有効質量を求めることは、所与のウェブドキュメントのリンクベースのポピュラリティ（たとえば、ページランク）と、所与のウェブドキ
ュメントの信頼性（たとえば、トラストランク）との間の相違を部分的に査定する技術の組合せに依拠する。一実施例では、ウェブスパム検出器１８０は、ページ索引１７０におけるすべてのページを処理して、索引におけるページについてウェブスパムメトリック１８１を計算し、ウェブスパムメトリック１８１をデータベース１６３に格納する。メトリック１８１は、ドキュメントを検索結果に含ませる検索クエリから独立している。

所与のウェブドキュメントについてのスパムファームの有効質量をスパム検出器１８０によって求めることは、所与のウェブドキュメントのリンクベースのポピュラリティ（たとえば、ページランク）と、所与のウェブドキュメントの信頼性（たとえば、トラストランク）との間の差を見積ることに一部依拠する。所与のウェブドキュメントの信頼性を求めることは、信頼性があることが分かっているウェブドキュメント（すなわち、スパムのないドキュメント）の最初のシードセットから所与のページがどれくらい離れているかに一部依拠する。したがって、この発明の実施例による検索エンジンは、信頼されるウェブドキュメントの最初のシードセット１８５を形成するためにページ索引１７０と組合せられて機能するシードセット生成器１８４も含む。ウェブスパムメトリック１８１を形成するスパム検出器１８０の動作、およびシードセット１８５を形成するシードセット生成器１８４の動作について、以下でさらに詳細に説明する。

スパムファーム、ページランクおよびトラストランク
このセクションでは、スパムファーム、（一般に「ページランク」と称される）インリンクページランキング、および信頼ランキングの概念について説明する。スパムファームとは、重要性をブーストするためにスパムターゲットページを指し示すページの人為的に作成されたセットである。信頼ランキング（「トラストランク」）とは、高品質のページのサブセットへの特別なテレポーテーション（teleportation）（すなわち、ジャンプ）を有するページランクの一形態である。本明細書に記載される技術を使用して、検索エンジンは自動的に不良なページ（ウェブスパムページ）を見つけることができ、より具体的には、人為的なスパムファーム（参照ページの集まり）を作成することによって、重要性をブーストするために作成されたウェブスパムページを見つけることができる。具体的な実施例では、均一なテレポーテーションを有するページランクプロセスおよび信頼ランキングプロセスが実行され、それらの結果は、ページまたはページの集まりの「スパム性」の試験の一部として比較される。さらに、信頼ランキングプロセスへの入力を構築する新規の方法について以下で説明する。

この発明の一局面は、スパムページを取巻くハイパーリンク構造の分析に基づいてスパムページ（の少なくともいくつか）を識別することに向けられている。特に、スパムファームの大きさを見積る新規のプロセスが使用される。スパムのないページは滅多にスパムを指し示すことはないので、トラストランクにおける特定オーソリティ分配は結果的に、スパムのないページとスパムページとの間をある程度分離する。高品質のスパムのないウェブページは、最高スコアをトラストランクによって割当てさせることが見込まれる。

トラストランクは、各ウェブページを指し示す他のページのスコアに応じて各ウェブページに数値スコアを割当てる周知のウェブ分析アルゴリズム、すなわちページランクに関連する。ページランクはテレポーテーションと呼ばれる技術を使用する。通常は均一な分配であるいわゆるテレポーテーション分配に従って、総スコアのうち特定の量がいくつかのページまたはすべてのページに送出される。均一なテレポーテーション分配を使用する代わりに、信頼ランキングは、信頼される（スパムのない）ウェブページのほんの小さなセット（すなわち、いわゆる「シードセット」）へのテレポーテーションを与える。これは、事実上、シードセットからのみ他のページにスコアを分配することになる。

以下の説明はウェブページを参照する。しかしながら、推論、実現例およびアルゴリズ
ムは、（１）サイトのウェブ（ウェブコンテンツ／ページおよび単一のオーソリティに関連付けられる他のタイプのウェブドキュメントの論理的なグループ）、（２）ホスト間のグラフエッジ（graph edge）（たとえば、２つのホストがハイパーリンクによって接続される少なくとも１つのページを各々含む場合に２つのホストがリンクを有するホストグラフ、または他の試験）の何らかの定義を有する、ホストのウェブ（ホストランク）（HostRank）によって表わされるサイトのウェブに近いもの、（３）他のウェブページのグラフの集約、および／または（４）参照の強さを反映する、関連付けられる重みを有するリンクの集まりに同様に適用可能である。

スパムファーム
スパムファームとは、重要性をブーストするためにスパムターゲットページを指し示すページの人為的に作成されたセット（または代替的には、ホスト）である。図３Ａ−図３Ｂは、２つの単純なスパムファームを示す例示的な図である。

ページランクおよびトラストランク
ページランクの概念は、ウェブページの分析に有用である。ページランクについての多くの可能な定義の中で、ページランキングの以下の線形システム定義が使用される。

式１を解くための反復法が公知である。式１は、テレポーテーションベクトルに対して線形であるオーソリティベクトルを規定するという利点を有する。

有効質量の推定
ウェブページの有効質量は、インジケータとして使用されて、ウェブページがスパムページであるかどうかを判断するのを助ける。

推定値の構築

同様の公式は、他の構造のファームについて有効である。たとえば、バックリンクを有するファームでは、

である。

スパム検出プロセス

実験では、そのように検出されたスパムページは実際にはほとんどの場合に（人間の判断によって）スパムであることが確認された。これは、これらの技術を使用して偽陽性率が低くなる可能性があることを意味する。

シードセット

シード選択プロセスは、シードページが２つの重要な特徴を有するはずであるという観察に依拠する。２つの重要な特徴とはすなわち、１）多数の他のページは、シードページから始まり、遭遇したウェブページ上のアウトリンクを反復して辿って、到達可能である
はずであり、すなわち、シードページは高い適用範囲をもたらすはずであること、および２）シードページの品質は非常に高いはずであり、そのため、スパムのないページからスパムページへのリンクに遭遇するチャンスは最小限のはずであることである。

第１の特徴を確保するために、すべてのページ（すなわち、ページ索引におけるページ）のランキングがもたらされる。このために、式７によって示される以下の線形システムが使用される。

シードページの第２の特徴を確保するために、最も高い逆ページランクを有するページはさらにヒューマンエディタによって処理される。ヒューマンエディタは、どの候補（逆ページランクによって測定されるように、高い適用範囲をもたらすページ）が実際に高品質のスパムのないページであるかを選択する。ヒューマンエディタによって選択されたページは次いで、上述のように、シードセットの中に含まれ、トラストランク計算において使用される。

結果として生じるシードセットは、ページランクおよびトラストランクから導き出される質量推定に基づくトラストランク計算ならびにスパム検出に好適であることを実験結果は示してきた。

本明細書に記載される実施例は、ウェブサイト、リンク、およびワールドワイドウェブ（またはそのサブセット）が検索コーパスとして機能する場合に特有の他の専門用語について言及してもよい。本明細書に記載されるシステムおよびプロセスは（電子データベースまたはドキュメント収納庫などの）異なる検索コーパスとともに使用するために適合されることができ、結果はコンテンツおよびコンテンツが見つけられ得る場所へのリンクまたは参照を含み得ることが理解されるべきである。

このように、この発明は具体的な実施例に関して記載されてきたが、この発明は特許請求の範囲内にすべての修正例および等価物を包含するように意図されることが認識されるであろう。

この発明の実施例を実施するために使用され得る情報抽出および通信ネットワークの例示的なブロック図である。この発明の実施例による情報抽出および通信ネットワークの例示的なブロック図である。単純なスパムファームの例示的な図である。単純なスパムファームの例示的な図である。

Claims

検索結果セットにおいて検索ヒットをランク付けする、コンピュータによって実現される方法であって、
ユーザからクエリを受取ることと、
クエリに関連するヒットのリストを生成することとを備え、ヒットの各々はクエリに関連し、ヒットは、ヒットを指し示す１つ以上のブーストリンクされたドキュメントを有し、ブーストリンクされたドキュメントは、ヒットの、クエリとの関連性に影響を及ぼし、前記方法はさらに、
ヒットの少なくともサブセットの各々にメトリックを関連付けることを備え、メトリックは、ヒットの少なくともサブセットの各々を指し示しかつヒットの関連性を人為的に膨らませる、ブーストリンクされたドキュメントの数を表わし、前記方法はさらに、
メトリックを閾値と比較することと、
一部比較に基づいて、修正されたリストを形成するためにヒットのリストを処理することと、
修正されたリストをユーザに伝送することとを備える、方法。
前記関連付けることは、前記メトリックを形成することを備え、前記メトリックを形成することは、
ヒットの少なくともサブセットの各々ごとに第１の尺度を形成することを備え、第１の尺度は、ヒットのサブセットのリンクポピュラリティを表わし、前記メトリックを前記形成することはさらに、
ヒットの少なくともサブセットの各々ごとに第２の尺度を形成することを備え、第２の尺度は、ヒットが評判のよいドキュメントである可能性を示し、前記メトリックを前記形成することはさらに、
第１の尺度および第２の尺度を備える組合せを形成することを備え、組合せは、第１の尺度と第２の尺度との間の差を表わす、請求項１に記載の方法。
前記メトリックを前記形成することは、クエリを前記受取ることの前に実行される、請求項２に記載の方法。
第２の尺度を前記形成することは、
評判のよいドキュメントのシードセットを形成することを備え、評判のよいドキュメントのシードセットはリンクを張るドキュメントであり、第２の尺度を前記形成することはさらに、
シードセットにおけるドキュメントの各々に信頼値を割当てることと、
リンクを張るドキュメントによって指し示されるリンクされるドキュメントの各々に信頼値を伝播させることと、
配分された信頼値を、リンクされるドキュメントの各々に割当てることとを備える、請求項２に記載の方法。
シードセットを前記形成することは、
複数のドキュメントの各々ごとに、ドキュメントの各々のアウトリンクの数を表わすアウトリンクメトリックを求めることと、
アウトリンクメトリックを使用して複数のドキュメントをランク付けすることと、
最も高くランク付けされたドキュメントのセットを識別することと、
最も高くランク付けされたドキュメントの質を評価することと、
最も高くランク付けされたドキュメントから不適切であると考えられるドキュメントを除去することによってドキュメントの修正されたセットを形成することと、
修正された保持されるセットを使用してシードセットを形成することとを備える、請求
項４に記載の方法。
１つ以上のプロセッサによって実行されるときに、請求項１から５のいずれかに記載のステップを１つ以上のプロセッサに実行させる命令を担持するコンピュータ可読媒体。