JP2008519328A - リンクベースのスパム検出 - Google Patents

リンクベースのスパム検出 Download PDF

Info

Publication number
JP2008519328A
JP2008519328A JP2007539077A JP2007539077A JP2008519328A JP 2008519328 A JP2008519328 A JP 2008519328A JP 2007539077 A JP2007539077 A JP 2007539077A JP 2007539077 A JP2007539077 A JP 2007539077A JP 2008519328 A JP2008519328 A JP 2008519328A
Authority
JP
Japan
Prior art keywords
hits
forming
documents
document
metric
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007539077A
Other languages
English (en)
Other versions
JP4908422B2 (ja
JP2008519328A5 (ja
Inventor
バーキン,ペイベル
ギョンギィ,ゾルタン・アイ
ペダーセン,ジャン
Original Assignee
ヤフー! インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤフー! インコーポレイテッド filed Critical ヤフー! インコーポレイテッド
Publication of JP2008519328A publication Critical patent/JP2008519328A/ja
Publication of JP2008519328A5 publication Critical patent/JP2008519328A5/ja
Application granted granted Critical
Publication of JP4908422B2 publication Critical patent/JP4908422B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

検索結果セットにおいて検索ヒットをランク付けするための、コンピュータによって実現される方法が提供される。上記方法は、ユーザからクエリを受取ることと、クエリに関連するヒットのリストを生成することとを含み、ヒットの各々はクエリに関連し、ヒットは、ヒットを指し示す1つ以上のブーストリンクされたドキュメントを有し、ブーストリンクされたドキュメントは、ヒットの、クエリとの関連性に影響を及ぼす。上記方法は、各々を指し示すブーストリンクされたドキュメントの数を表わすメトリックをヒットに関連付ける。上記方法は次いで、メトリックを閾値と比較し、一部その比較に基づいて、修正されたリストを形成するためにヒットのリストを処理し、修正されたリストをユーザに伝送する。

Description

発明の背景
この発明は概して検索システムに関し、より詳細には、結果セットにおいて検索ヒットをランク付けする検索システムに関する。
コーパス全体が吸収されることができず、所望の項目への厳密なポインタが存在しないまたは可能でない場合には、検索が有用である。概して、検索は、検索クエリを公式化または受入れ、ドキュメントのコーパスから一致するドキュメントのセットを求め、そのセットまたはそのセットが大き過ぎる場合にはそのセットの何らかのサブセットを返すプロセスである。具体的な例において、この開示はその例に限定されないのだが、「ウェブ」と称されるハイパーリンクされたドキュメントのセットを検索することを考慮されたい。コーパスには、本明細書ではページと称され、またはより総称的にドキュメントと称される多くの検索可能な項目が入っている。検索エンジンは、典型的には検索クエリの受取に先立って生成される索引を使用して、検索クエリに一致するドキュメントをコーパスから識別する。「一致」とは多くのことを意味する可能性があり、検索クエリはさまざまな形態を有し得る。一般に、検索クエリは1つ以上の語または用語を含む文字列であり、ドキュメントが検索クエリ文字列からの語または用語のうち1つ以上(または、それらのすべて)を含むときに一致が発生する。各々の一致するドキュメントはヒットと称され、ヒットのセットは結果セットまたは検索結果と称される。コーパスは、データベースまたは他のデータ構造または非構造化データであり得る。ドキュメントはしばしばウェブページである。
ウェブページの典型的な索引は何十億ものエントリを含むため、一般的な検索は何百万ものページを含む結果セットを有するかもしれない。明らかに、このような状況では、クエリを行なう人(典型的には人間のコンピュータユーザであるが、そうである必要はない)に返されるものの大きさが妥当なものであるようにするために、検索エンジンは結果セットをさらに制約しなければならないかもしれない。セットを制約する1つのアプローチは、順序付けられた検索結果の中でより高いところに現われる少数のヒットのみをユーザは読むまたは使用すると仮定して、ある順序で検索結果を提示することである。
この仮定のために、多くのウェブページの作者は、順序付けられた検索結果の中で自分たちのページが高いところに現われることを望む。検索エンジンは、最高品質のページのみを選択し、返すために、関連するページのさまざまな特徴に依拠する。クエリ結果リストにおけるトップの位置(上位)がビジネス上の優位を与え得るので、あるウェブページの作者は、自分たちのページのランキングを故意にブーストしようとする。ランキングが人為的にブーストされたこのようなページは「ウェブスパム」ページと呼ばれ、総称して「ウェブスパム」として公知である。
ウェブスパムに関連付けられるさまざまな技術が存在する。1つの技術は、ウェブページを多くのクエリによって選択されるのにふさわしいものに人為的にするというものである。これは、本質的なコンテンツに無関係であり、小さなまたは目に見えないフォントで表現される莫大な数の用語でページを増大させることによって達成されることができる。このような増大によって、ページはより露出されるようになる(すなわち、より多くのクエリに関連する可能性がある)が、任意の特定のクエリについてその関連性を真に向上さ
せることはない。この点に関して、スパムの作者は別の技術を使用する。その別の技術とは、他者によってより頻繁に参照されるページが概して検索エンジンによって好ましい(より高い関連性を有する)と考えられるという観察に基づいて、インリンク(inlink)とも呼ばれる多くの入ってくる(ハイパー)リンクをページに付加するというものである。価値が優れているために多くの他者によって参照される真に高品質のページと、多くのインリンクを有するウェブスパムとを区別することは困難である。
ウェブスパムページを識別することおよび検索結果リストにおいてウェブスパムページをその後格下げすることは、検索エンジンによってもたらされる回答の質を維持または向上させるために重要である。したがって、ウェブスパムの検出は検索エンジンにとって有用なタスクである。検索エンジンの索引に存在する多数のページを検証することによってウェブスパムを識別するためにヒューマンエディタ(human editor)がしばしば利用されるが、それは実用的でないことが多い。
したがって、ウェブスパムを克服し、ドキュメントの作者の操作に従うのではなく、ユーザが欲するものにより従う検索結果を提供する改良された検索処理が必要である。
発明の簡単な概要
この発明の実施例は、検索結果セットを形成するヒットをランク付けすることを含む、検索要求を処理するためのシステムおよび方法を提供する。ヒットは、特定のページを指し示すスパムファーム(spam farm)の大きさの尺度である有効質量(effective mass)および他のパラメータを使用してランク付けされることができる。
一実施例では、この発明は、検索結果セットにおいて検索ヒットをランク付けする、コンピュータによって実現される方法を提供する。コンピュータによって実現される方法は、ユーザからクエリを受取ることと、クエリに関連するヒットのリストを生成することとを含み、ヒットの各々はクエリに関連し、ヒットは、ヒットを指し示す1つ以上のブーストリンクされたドキュメントを有し、ブーストリンクされたドキュメントは、ヒットの、クエリとの関連性に影響を及ぼす。上記方法は次いで、ヒットの少なくともサブセットの各々ごとにメトリック(metric)を関連付け、メトリックは、ヒットの少なくともサブセットの各々を指し示しかつヒットの関連性を人為的に膨らませる、ブーストリンクされたドキュメントの数を表わす。上記方法は次いで、ヒットを指し示すスパムファームの大きさを表わすメトリックを閾値と比較し、一部上記比較に基づいて、修正されたリストを形成するためにヒットのリストを処理し、修正されたリストをユーザに伝送する。
一局面では、メトリックは第1の尺度と第2の尺度との組合せである。ヒットについての第1の尺度はヒットのリンクポピュラリティを表わし、第2の尺度はヒットが評判のよいドキュメントである可能性の尺度である。
別の局面では、第2の尺度は評判のよいドキュメントのシードセット(seed set)を形成することによって生成され、評判のよいドキュメントのシードセットはリンクを張るドキュメントであり、上記第2の尺度はさらに、シードセットにおけるドキュメントの各々に信頼値を割当てることと、リンクを張るドキュメントによって指し示されるリンクされるドキュメントの各々にその信頼値を伝播させることと、配分された信頼値を、リンクされるドキュメントの各々に割当てることとによって生成される。
別の局面では、評判のよいドキュメントのシードセットは、複数のドキュメントの各々ごとに、ドキュメントの各々のアウトリンク(outlink)の数を表わすアウトリンクメトリックを求めることと、そのアウトリンクメトリックを使用して複数のドキュメントをラ
ンク付けすることと、最も高くランク付けされたドキュメントのセットを識別することと、最も高くランク付けされたドキュメントの質を評価することと、最も高くランク付けされたドキュメントから不適切であると考えられるドキュメントを除去することによってドキュメントの修正されたセットを形成することと、修正された保持されるセットを使用してシードセットを形成することとによって形成される。
添付の図面とともに以下の詳細な説明によって、この発明の性質および利点はよりよく理解されることになる。
発明の詳細な説明
定義
別の方法で定義されない限り、本明細書において使用されるすべての技術的および科学的用語は、この発明が関係する当業者によって一般に理解されている意味を有する。本明細書において使用されるように、以下の用語は下記のとおりに定義される。
ページランク(PageRank)とは、検索エンジンによって索引付けされるハイパーリンクされたドキュメント(またはウェブページまたはウェブサイト)に数値で重み付けするための一群の周知のアルゴリズムである。ページランクはリンク情報を使用して、ウェブ上のドキュメントにグローバル重要性スコアを割当てる。ページランクプロセスは特許を受けており、米国特許第6,285,999号に記載される。ドキュメントのページランクは、ウェブ上のドキュメントのリンクベースのポピュラリティの尺度である。
トラストランク(TrustRank)とは、ページランクに関連するリンク分析技術である。トラストランクは、ウェブ上の評判のよい、優れたページをウェブスパムから分離するための方法である。トラストランクは、ウェブ上の優れたドキュメントが滅多にスパムにリンクしないという推測に基づいている。トラストランクは2つのステップを伴い、そのうちの1つはシード選択であり、別のステップはスコア伝播である。ドキュメントのトラストランクは、ドキュメントが評判のよい(すなわち、スパムのない)ドキュメントである可能性の尺度である。
リンクまたはハイパーリンクとは、別のページ、別のサイトまたは同一ページの別の部分に通常つながるウェブページ上のクリック可能なコンテンツを指す。したがって、クリック可能なコンテンツは、同一ページの他のページ/サイト/部分にリンクしていると言われている。スパイダは、ウェブサイトを索引付けするときに、リンクを使用して1つのページから次のページにゆっくり進む。
インバウンドリンクまたはインリンク/アウトバウンドリンクまたはアウトリンク。サイトAがサイトBにリンクするとき、サイトAはアウトバウンドリンクを有し、サイトBはインバウンドリンクを有する。インバウンドリンクは、リンクポピュラリティを求めるために数えられる。
ウェブまたはワールドワイドウェブ(「WWW」または単に「ウェブ」)とは、リソースと称される対象の項目が定型資源識別子(Uniform Resource Identifiers)(URI)と呼ばれるグローバル識別子によって識別される情報空間である。ウェブという用語はしばしばインターネットの同義語として使用されるが、ウェブは実際にはインターネット上で動作するサービスである。
ウェブページとは、通常HTML/XHTML形式であり(ファイルの拡張子は典型的にはhtmまたはhtmlであり)、あるページまたはセクションから別のページまたはセクシ
ョンへのナビゲーションを可能にするためにハイパーテキストリンクを有するワールドワイドウェブのページまたはファイルを指す。ウェブページはしばしば関連付けられるグラフィックスファイルを使用してイラストをもたらし、これらもクリック可能なリンクであり得る。ウェブページは、ウェブブラウザを使用して表示され、多くの場合モーション、グラフィックス、対話および音声をもたらすアプレット(ページ内で実行するサブプログラム)を利用するように設計されることができる。
ウェブサイトとは、単一のフォルダにまたはウェブサーバの関連するサブフォルダ内に格納されたウェブページの集まりを指す。ウェブサイトは概して、典型的にはindex.htmまたはindex.htmlと名付けられるトップページを含む。
ウェブホストは、独自のウェブサーバを持たない個人または企業によって管理されるウェブサイトにサーバ空間、ウェブサービスおよびファイルメンテナンスを提供することに従事する。多くのインターネットサービスプロバイダ(Internet Service Provider)(ISP)は、個人のウェブページのホストとして機能するように少量のサーバ空間を加入者に与えることになる。
スパムとは、大量に配信される、通常営利的な性質を有する不必要なドキュメントまたはeメールを指す。
ウェブスパムとは、ウェブ上のスパムページを指す。ウェブスパムを作成する行為は、ウェブスパミングと称される。ウェブスパミングとは、値するいくつかのドキュメントにより高いランキングを与えるために検索エンジンを惑わせるように意図される行動を指す。ウェブ上のスパムページは、スパミングの何らかの形態の結果である。スパミングの一形態は、リンクスパミングである。
スパムページとは、ランキングスコアの大幅な違法のブーストを受け、したがって、検索結果が上位に現われる可能性を高くし、検索エンジンを惑わせるように意図されるウェブドキュメントである。
リンクスパミングとは、しばしば相互接続されてスパムファームと呼ばれるグループを形成するスパムドキュメントの作成を指し、スパムファームは、多数のブーストドキュメントが1つまたはいくつかのターゲットページのリンクベースの重要性ランキングを上げるであろうように構築される。
スパムファームとは、特定のターゲットページのリンクベースの重要性スコア(たとえば、ページランクスコア)をブーストするために作成される、相互にリンクされたスパムページのグループを指す。
概要
この発明の実施例は、リンクベースのスパムの検出のための方法およびシステムに向けられている。検索クエリに応答してもたらされる検索結果は、ヒットの有効質量を求めるために処理される。ヒットの有効質量は、ヒットを指し示すために作成され、したがって、ヒットの相対的な重要性を人為的にブーストするスパムファームの大きさの尺度である。この発明の実施例に従う方法およびシステムは、ヒットの有効質量を使用し、有効質量がリンクベースのスパムによってヒットを人為的にブーストする可能性を高くするそのヒットを格下げする。所与のウェブドキュメントについての有効質量を求めることは、所与のウェブドキュメントのリンクベースのポピュラリティ(たとえば、ページランク)と、所与のウェブドキュメントの信頼性(たとえば、トラストランク)との間の相違を部分的に査定する技術の組合せに依拠する。所与のウェブドキュメントの有効質量を求めるため
の技術について、以下でさらに詳細に説明する。
ネットワーク実現例
図1は、この発明の実施例を実施するために使用され得る1つ以上のクライアントシステム201-Nを含む情報抽出および通信ネットワーク10の一般的な概要を示す。コンピュータネットワーク10では、クライアントシステム201-Nは、インターネット40または他の通信ネットワークを介して(たとえば、任意のローカルエリアネットワーク(local area network)(LAN)または広域ネットワーク(wide area network)(WAN)接続によって)任意の数のサーバシステム501から50Nに結合される。本明細書において記載されるように、クライアントシステム201-Nは、たとえば媒体コンテンツおよびウェブページなどの他の情報にアクセスし、それらを受取、抽出および表示するためにサーバシステム501から50Nのいずれかと通信するようこの発明に従って構成される。
図1に示されるシステムにおけるいくつかの要素は、ここで詳細に説明される必要がない従来型の周知の要素を含む。たとえば、クライアントシステム20は、デスクトップパーソナルコンピュータ、ワークステーション、ラップトップ、パーソナルデジタルアシスタント(personal digital assistant)(PDA)、携帯電話、または任意のWAP対応装置もしくはインターネットに直接的もしくは間接的に接続できる他の計算装置を含み得るであろう。クライアントシステム20は典型的には、マイクロソフトのインターネットエクスプローラ(登録商標)ブラウザ、ネットスケープナビゲータ(登録商標)ブラウザ、モジラ(登録商標)ブラウザ、オペラ(登録商標)ブラウザ、アップルのサファリ(登録商標)、または携帯電話、PDAもしくは他の無線装置の場合のWAP対応ブラウザなどのブラウジングプログラムを実行し、クライアントシステム201-Nのユーザは、利用可能な情報およびページをインターネット40によってサーバシステム501から50Nからアクセス、処理および閲覧できる。クライアントシステム20は典型的には、ページ、形態、およびサーバシステム501から50Nまたは他のサーバによって与えられる他の情報とともに、ブラウザによってディスプレイ(たとえば、モニタスクリーン、LCDディスプレイなど)にもたらされるグラフィカルユーザインターフェイス(graphical user interface)(GUI)と対話するための、キーボード、マウス、タッチスクリーン、ペンなどの1つ以上のユーザインターフェイス装置22も含む。この発明はインターネットとともに使用するのに好適であり、インターネットとはネットワークの具体的なグローバルに関連するセットを指す。しかしながら、インターネットの代わりにまたはインターネットに加えて、イントラネット、エクストラネット、バーチャルプライベートネットワーク(virtual private network)(VPN)、TCP/IPベースでないネットワーク、任意のLANまたはWANなどの他のネットワークが使用され得ることが理解されるべきである。
一実施例によれば、クライアントシステム20およびその構成要素のすべては、インテルペンティアム(登録商標)プロセッサ、AMDアスロン(AMD Athlon)(登録商標)プロセッサ、アップルのパワーPC(Power PC)などの中央演算処理装置または複数のプロセッサを使用して実行されるコンピュータソフトウェアを含むアプリケーションを使用して構成可能な演算子である。本明細書に記載されるデータおよび媒体コンテンツを通信、処理および表示するようにクライアントシステム20を動作させ、構成するためのコンピュータソフトウェアは好ましくはハードディスクにダウンロードおよび格納されるが、全プログラムコードまたはその一部は、ROMもしくはRAMなどの周知の他の揮発性または不揮発性メモリ媒体または装置にも格納される場合もあれば、コンパクトディスク(compact disk)(CD)媒体、デジタル多用途ディスク(digital versatile disk)(DVD)媒体、フロッピー(登録商標)ディスクなどの、プログラムコードを格納できる任意の媒体に与えられる場合もある。さらに、全プログラムコードまたはその一部は、ソフトウェアソースから、たとえばサーバシステム501から50Nのうちの1つからクライアン
トシステム20にインターネットによって伝送およびダウンロードされる場合もあれば、任意の通信媒体およびプロトコル(たとえば、TCP/IP、HTTP、HTTPS、イーサネット(登録商標)または他の従来型の媒体およびプロトコル)を使用して他のネットワーク接続(たとえば、エクストラネット、VPN、LANまたは他の従来型のネットワーク)によって伝送される場合もある。
この発明の局面を実現するためのコンピュータコードはC、C++、HTML、XML、Java(登録商標)、Java(登録商標)Scriptなどのコード、または他の好適なスクリプト言語(たとえば、VBScript)、またはクライアントシステム20で実行されることができるかまたはクライアントシステム20もしくはシステム201-Nで実行するようにコンパイルされることができる他の好適なプログラミング言語であり得ることが認識されるべきである。いくつかの実施例では、クライアントシステム20にダウンロードされるコードはなく、必要なコードはサーバによって実行され、またはクライアントシステム20に既に存在するコードが実行される。
検索システム
図2は、この発明の実施例による媒体コンテンツを通信するための別の情報抽出および通信ネットワーク110を示す。示されるように、ネットワーク110は、クライアントシステム120と、1つ以上のコンテンツサーバシステム150と、検索サーバシステム160とを含む。ネットワーク110では、クライアントシステム120は、インターネット140または他の通信ネットワークを介して、サーバシステム150および160に通信可能に結合される。上述のように、クライアントシステム120およびその構成要素は、インターネット140または他の通信ネットワークによって、サーバシステム150および160ならびに他のサーバシステムと通信するよう構成される。
1.クライアントシステム
一実施例によれば、クライアントシステム120で実行する(モジュール125として表わされる)クライアントアプリケーションは、サーバシステム150および160と通信するため、ならびにそこから受取られたデータコンテンツを処理および表示するためにクライアントシステム120およびその構成要素を制御するための命令を含む。クライアントアプリケーション125は好ましくは、リモートサーバシステム(たとえば、サーバシステム150、サーバシステム160または他のリモートサーバシステム)などのソフトウェアソースからクライアントシステム120に伝送およびダウンロードされるが、クライアントアプリケーションモジュール125は、上述のように、フロッピー(登録商標)ディスク、CD、DVDなどの任意のソフトウェア記憶媒体に設けられることができる。たとえば、一局面では、クライアントアプリケーションモジュール125は、データを操作するためならびにさまざまなオブジェクト、フレームおよびウインドウでデータを表現するための、たとえば組込型Java(登録商標)ScriptまたはActiveX制御装置などのさまざまな制御装置を含むHTMLラッパーの状態でインターネット140によってクライアントシステム120に与えられてもよい。
さらに、クライアントアプリケーションモジュール125は、検索要求および検索結果データを処理するための検索モジュール126、テキストおよびデータフレームおよびアクティブウインドウ、たとえばブラウザウインドウおよびダイアログボックスの状態でデータおよび媒体コンテンツを表現するためのユーザインターフェイスモジュール127、ならびにクライアント120で実行するさまざまなアプリケーションと接続および通信するためのアプリケーションインターフェイスモジュール128などの、データおよび媒体コンテンツを処理するためのさまざまなソフトウェアモジュールを含む。アプリケーションインターフェイスモジュール128が好ましくは接続するよう構成される、クライアントシステム120で実行するさまざまなアプリケーションの例は、さまざまなeメールア
プリケーション、インスタントメッセージ(instant messaging)(IM)アプリケーション、ブラウザアプリケーション、ドキュメント管理アプリケーションなどを含む。さらに、インターフェイスモジュール127は、クライアントシステム120に構成されるデフォルトブラウザまたは異なるブラウザなどのブラウザを含んでもよい。
2.検索サーバシステム
一実施例によれば、検索サーバシステム160は、検索結果データおよび媒体コンテンツをクライアントシステム120に与えるよう構成される。コンテンツサーバシステム150は、たとえば検索サーバシステム160によって与えられる検索結果ページにおいて選択されたリンクに応答して、ウェブページなどのデータおよび媒体コンテンツをクライアントシステム120に与えるよう構成される。いくつかの変形例では、検索サーバシステム160は、コンテンツへのリンクおよび/または他の参照と同様に、またはその代わりに、コンテンツを返す。
一実施例における検索サーバシステム160は、たとえばページ、ページへのリンク、索引付けされたページのコンテンツを表わすデータなどが実装されたさまざまなページ索引170を参照する。ページ索引は、自動ウェブクローラ、スパイダなどを含むさまざまな収集技術、ならびに階層構造内でウェブページを分類およびランク付けするための手動または半自動分類アルゴリズムおよびインターフェイスによって生成されてもよい。これらの技術は、検索サーバシステム160で実現されてもよく、またはページ索引170を生成し、ページ索引170を検索サーバシステム160にとって利用可能なものにする別個のシステム(図示せず)において実現されてもよい。
検索サーバシステム160は、検索モジュール126からなど、クライアントシステムから受取られるさまざまな検索要求に応答するデータを提供するよう構成される。たとえば、検索サーバシステム160は、(たとえば、クエリにおける検索用語の発生のパターンによって測定される論理的な関連性の組合せ、コンテキスト識別子、ページスポンサーなどに基づいて)所与のクエリに対してウェブページを処理およびランク付けするための検索関連アルゴリズムで構成されてもよい。
リンクベースのスパム検出
図2に示されるように、検索サーバシステム160は、ウェブスパムページが格下げされるかまたはリストから除去された場合に修正された検索リストを返すリンクベースのスパム検出器180と組合せられて機能し、検索サーバシステム160の出力(結果、提案、媒体コンテンツなど)をリンクベースのスパム検出器180に与える。検索サーバシステム160は、この発明の実施例による検索エンジンを動作させるよう構成される。検索エンジンは、3つの部分、すなわち1つ以上のスパイダ162と、データベース163と、ツール/アプリケーション167とから成る。情報を集めるスパイダ162はインターネット中をゆっくり進み、データベース163にはスパイダが集めた情報および他の情報が入っており、ツール/アプリケーション167は、データベースを検索するためにユーザによって使用される検索ツール166などのアプリケーションを含む。データベース167には、検索ツールによって使用されるページ索引170が入っている。さらに、この発明の実施例による検索エンジンは、スパム検出器180を含む。スパム検出器180は、以下に記載されるさまざまなアルゴリズムを実行し、ページについてのウェブスパムメトリック181をページ索引170に格納する。上で説明されたように、この発明の実施例によるスパム検出器180は、ヒットの有効質量に一致するメトリックを推定し、検索ツール166およびページ索引170と組合せられて機能し、有効質量がリンクベースのスパムによってヒットを人為的にブーストする可能性を高くするそのヒットを格下げする。所与のウェブドキュメントについての有効質量を求めることは、所与のウェブドキュメントのリンクベースのポピュラリティ(たとえば、ページランク)と、所与のウェブドキ
ュメントの信頼性(たとえば、トラストランク)との間の相違を部分的に査定する技術の組合せに依拠する。一実施例では、ウェブスパム検出器180は、ページ索引170におけるすべてのページを処理して、索引におけるページについてウェブスパムメトリック181を計算し、ウェブスパムメトリック181をデータベース163に格納する。メトリック181は、ドキュメントを検索結果に含ませる検索クエリから独立している。
所与のウェブドキュメントについてのスパムファームの有効質量をスパム検出器180によって求めることは、所与のウェブドキュメントのリンクベースのポピュラリティ(たとえば、ページランク)と、所与のウェブドキュメントの信頼性(たとえば、トラストランク)との間の差を見積ることに一部依拠する。所与のウェブドキュメントの信頼性を求めることは、信頼性があることが分かっているウェブドキュメント(すなわち、スパムのないドキュメント)の最初のシードセットから所与のページがどれくらい離れているかに一部依拠する。したがって、この発明の実施例による検索エンジンは、信頼されるウェブドキュメントの最初のシードセット185を形成するためにページ索引170と組合せられて機能するシードセット生成器184も含む。ウェブスパムメトリック181を形成するスパム検出器180の動作、およびシードセット185を形成するシードセット生成器184の動作について、以下でさらに詳細に説明する。
スパムファーム、ページランクおよびトラストランク
このセクションでは、スパムファーム、(一般に「ページランク」と称される)インリンクページランキング、および信頼ランキングの概念について説明する。スパムファームとは、重要性をブーストするためにスパムターゲットページを指し示すページの人為的に作成されたセットである。信頼ランキング(「トラストランク」)とは、高品質のページのサブセットへの特別なテレポーテーション(teleportation)(すなわち、ジャンプ)を有するページランクの一形態である。本明細書に記載される技術を使用して、検索エンジンは自動的に不良なページ(ウェブスパムページ)を見つけることができ、より具体的には、人為的なスパムファーム(参照ページの集まり)を作成することによって、重要性をブーストするために作成されたウェブスパムページを見つけることができる。具体的な実施例では、均一なテレポーテーションを有するページランクプロセスおよび信頼ランキングプロセスが実行され、それらの結果は、ページまたはページの集まりの「スパム性」の試験の一部として比較される。さらに、信頼ランキングプロセスへの入力を構築する新規の方法について以下で説明する。
この発明の一局面は、スパムページを取巻くハイパーリンク構造の分析に基づいてスパムページ(の少なくともいくつか)を識別することに向けられている。特に、スパムファームの大きさを見積る新規のプロセスが使用される。スパムのないページは滅多にスパムを指し示すことはないので、トラストランクにおける特定オーソリティ分配は結果的に、スパムのないページとスパムページとの間をある程度分離する。高品質のスパムのないウェブページは、最高スコアをトラストランクによって割当てさせることが見込まれる。
トラストランクは、各ウェブページを指し示す他のページのスコアに応じて各ウェブページに数値スコアを割当てる周知のウェブ分析アルゴリズム、すなわちページランクに関連する。ページランクはテレポーテーションと呼ばれる技術を使用する。通常は均一な分配であるいわゆるテレポーテーション分配に従って、総スコアのうち特定の量がいくつかのページまたはすべてのページに送出される。均一なテレポーテーション分配を使用する代わりに、信頼ランキングは、信頼される(スパムのない)ウェブページのほんの小さなセット(すなわち、いわゆる「シードセット」)へのテレポーテーションを与える。これは、事実上、シードセットからのみ他のページにスコアを分配することになる。
以下の説明はウェブページを参照する。しかしながら、推論、実現例およびアルゴリズ
ムは、(1)サイトのウェブ(ウェブコンテンツ/ページおよび単一のオーソリティに関連付けられる他のタイプのウェブドキュメントの論理的なグループ)、(2)ホスト間のグラフエッジ(graph edge)(たとえば、2つのホストがハイパーリンクによって接続される少なくとも1つのページを各々含む場合に2つのホストがリンクを有するホストグラフ、または他の試験)の何らかの定義を有する、ホストのウェブ(ホストランク)(HostRank)によって表わされるサイトのウェブに近いもの、(3)他のウェブページのグラフの集約、および/または(4)参照の強さを反映する、関連付けられる重みを有するリンクの集まりに同様に適用可能である。
スパムファーム
スパムファームとは、重要性をブーストするためにスパムターゲットページを指し示すページの人為的に作成されたセット(または代替的には、ホスト)である。図3A−図3Bは、2つの単純なスパムファームを示す例示的な図である。
Figure 2008519328
ページランクおよびトラストランク
ページランクの概念は、ウェブページの分析に有用である。ページランクについての多くの可能な定義の中で、ページランキングの以下の線形システム定義が使用される。
Figure 2008519328
Figure 2008519328
式1を解くための反復法が公知である。式1は、テレポーテーションベクトルに対して線形であるオーソリティベクトルを規定するという利点を有する。
Figure 2008519328
有効質量の推定
ウェブページの有効質量は、インジケータとして使用されて、ウェブページがスパムページであるかどうかを判断するのを助ける。
推定値の構築
Figure 2008519328
Figure 2008519328
Figure 2008519328
Figure 2008519328
同様の公式は、他の構造のファームについて有効である。たとえば、バックリンクを有するファームでは、
Figure 2008519328
である。
Figure 2008519328
Figure 2008519328
Figure 2008519328
Figure 2008519328
スパム検出プロセス
Figure 2008519328
実験では、そのように検出されたスパムページは実際にはほとんどの場合に(人間の判断によって)スパムであることが確認された。これは、これらの技術を使用して偽陽性率が低くなる可能性があることを意味する。
シードセット
Figure 2008519328
シード選択プロセスは、シードページが2つの重要な特徴を有するはずであるという観察に依拠する。2つの重要な特徴とはすなわち、1)多数の他のページは、シードページから始まり、遭遇したウェブページ上のアウトリンクを反復して辿って、到達可能である
はずであり、すなわち、シードページは高い適用範囲をもたらすはずであること、および2)シードページの品質は非常に高いはずであり、そのため、スパムのないページからスパムページへのリンクに遭遇するチャンスは最小限のはずであることである。
第1の特徴を確保するために、すべてのページ(すなわち、ページ索引におけるページ)のランキングがもたらされる。このために、式7によって示される以下の線形システムが使用される。
Figure 2008519328
Figure 2008519328
シードページの第2の特徴を確保するために、最も高い逆ページランクを有するページはさらにヒューマンエディタによって処理される。ヒューマンエディタは、どの候補(逆ページランクによって測定されるように、高い適用範囲をもたらすページ)が実際に高品質のスパムのないページであるかを選択する。ヒューマンエディタによって選択されたページは次いで、上述のように、シードセットの中に含まれ、トラストランク計算において使用される。
Figure 2008519328
結果として生じるシードセットは、ページランクおよびトラストランクから導き出される質量推定に基づくトラストランク計算ならびにスパム検出に好適であることを実験結果は示してきた。
本明細書に記載される実施例は、ウェブサイト、リンク、およびワールドワイドウェブ(またはそのサブセット)が検索コーパスとして機能する場合に特有の他の専門用語について言及してもよい。本明細書に記載されるシステムおよびプロセスは(電子データベースまたはドキュメント収納庫などの)異なる検索コーパスとともに使用するために適合されることができ、結果はコンテンツおよびコンテンツが見つけられ得る場所へのリンクまたは参照を含み得ることが理解されるべきである。
このように、この発明は具体的な実施例に関して記載されてきたが、この発明は特許請求の範囲内にすべての修正例および等価物を包含するように意図されることが認識されるであろう。
この発明の実施例を実施するために使用され得る情報抽出および通信ネットワークの例示的なブロック図である。 この発明の実施例による情報抽出および通信ネットワークの例示的なブロック図である。 単純なスパムファームの例示的な図である。 単純なスパムファームの例示的な図である。

Claims (6)

  1. 検索結果セットにおいて検索ヒットをランク付けする、コンピュータによって実現される方法であって、
    ユーザからクエリを受取ることと、
    クエリに関連するヒットのリストを生成することとを備え、ヒットの各々はクエリに関連し、ヒットは、ヒットを指し示す1つ以上のブーストリンクされたドキュメントを有し、ブーストリンクされたドキュメントは、ヒットの、クエリとの関連性に影響を及ぼし、前記方法はさらに、
    ヒットの少なくともサブセットの各々にメトリックを関連付けることを備え、メトリックは、ヒットの少なくともサブセットの各々を指し示しかつヒットの関連性を人為的に膨らませる、ブーストリンクされたドキュメントの数を表わし、前記方法はさらに、
    メトリックを閾値と比較することと、
    一部比較に基づいて、修正されたリストを形成するためにヒットのリストを処理することと、
    修正されたリストをユーザに伝送することとを備える、方法。
  2. 前記関連付けることは、前記メトリックを形成することを備え、前記メトリックを形成することは、
    ヒットの少なくともサブセットの各々ごとに第1の尺度を形成することを備え、第1の尺度は、ヒットのサブセットのリンクポピュラリティを表わし、前記メトリックを前記形成することはさらに、
    ヒットの少なくともサブセットの各々ごとに第2の尺度を形成することを備え、第2の尺度は、ヒットが評判のよいドキュメントである可能性を示し、前記メトリックを前記形成することはさらに、
    第1の尺度および第2の尺度を備える組合せを形成することを備え、組合せは、第1の尺度と第2の尺度との間の差を表わす、請求項1に記載の方法。
  3. 前記メトリックを前記形成することは、クエリを前記受取ることの前に実行される、請求項2に記載の方法。
  4. 第2の尺度を前記形成することは、
    評判のよいドキュメントのシードセットを形成することを備え、評判のよいドキュメントのシードセットはリンクを張るドキュメントであり、第2の尺度を前記形成することはさらに、
    シードセットにおけるドキュメントの各々に信頼値を割当てることと、
    リンクを張るドキュメントによって指し示されるリンクされるドキュメントの各々に信頼値を伝播させることと、
    配分された信頼値を、リンクされるドキュメントの各々に割当てることとを備える、請求項2に記載の方法。
  5. シードセットを前記形成することは、
    複数のドキュメントの各々ごとに、ドキュメントの各々のアウトリンクの数を表わすアウトリンクメトリックを求めることと、
    アウトリンクメトリックを使用して複数のドキュメントをランク付けすることと、
    最も高くランク付けされたドキュメントのセットを識別することと、
    最も高くランク付けされたドキュメントの質を評価することと、
    最も高くランク付けされたドキュメントから不適切であると考えられるドキュメントを除去することによってドキュメントの修正されたセットを形成することと、
    修正された保持されるセットを使用してシードセットを形成することとを備える、請求
    項4に記載の方法。
  6. 1つ以上のプロセッサによって実行されるときに、請求項1から5のいずれかに記載のステップを1つ以上のプロセッサに実行させる命令を担持するコンピュータ可読媒体。
JP2007539077A 2004-10-28 2005-10-26 リンクベースのスパム検出 Active JP4908422B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US62329504P 2004-10-28 2004-10-28
US60/623,295 2004-10-28
US11/198,471 2005-08-04
US11/198,471 US7533092B2 (en) 2004-10-28 2005-08-04 Link-based spam detection
PCT/US2005/038619 WO2006049996A2 (en) 2004-10-28 2005-10-26 Link-based spam detection

Publications (3)

Publication Number Publication Date
JP2008519328A true JP2008519328A (ja) 2008-06-05
JP2008519328A5 JP2008519328A5 (ja) 2008-09-11
JP4908422B2 JP4908422B2 (ja) 2012-04-04

Family

ID=35705210

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007539077A Active JP4908422B2 (ja) 2004-10-28 2005-10-26 リンクベースのスパム検出

Country Status (7)

Country Link
US (1) US7533092B2 (ja)
EP (1) EP1817697A2 (ja)
JP (1) JP4908422B2 (ja)
KR (1) KR101230687B1 (ja)
CN (1) CN101180624B (ja)
HK (1) HK1115930A1 (ja)
WO (1) WO2006049996A2 (ja)

Families Citing this family (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7466663B2 (en) * 2000-10-26 2008-12-16 Inrotis Technology, Limited Method and apparatus for identifying components of a network having high importance for network integrity
US7743045B2 (en) * 2005-08-10 2010-06-22 Google Inc. Detecting spam related and biased contexts for programmable search engines
US7693830B2 (en) 2005-08-10 2010-04-06 Google Inc. Programmable search engine
US7716199B2 (en) * 2005-08-10 2010-05-11 Google Inc. Aggregating context data for programmable search engines
US20070038614A1 (en) * 2005-08-10 2007-02-15 Guha Ramanathan V Generating and presenting advertisements based on context data for programmable search engines
US8125922B2 (en) * 2002-10-29 2012-02-28 Searchbolt Limited Method and apparatus for generating a ranked index of web pages
US7505964B2 (en) 2003-09-12 2009-03-17 Google Inc. Methods and systems for improving a search ranking using related queries
US7606793B2 (en) 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US20060069667A1 (en) * 2004-09-30 2006-03-30 Microsoft Corporation Content evaluation
US7533092B2 (en) * 2004-10-28 2009-05-12 Yahoo! Inc. Link-based spam detection
US7634810B2 (en) * 2004-12-02 2009-12-15 Microsoft Corporation Phishing detection, prevention, and notification
US20060123478A1 (en) * 2004-12-02 2006-06-08 Microsoft Corporation Phishing detection, prevention, and notification
US20110197114A1 (en) * 2004-12-08 2011-08-11 John Martin Electronic message response and remediation system and method
US7962510B2 (en) * 2005-02-11 2011-06-14 Microsoft Corporation Using content analysis to detect spam web pages
WO2007002820A2 (en) * 2005-06-28 2007-01-04 Yahoo! Inc. Search engine with augmented relevance ranking by community participation
US20070078939A1 (en) * 2005-09-26 2007-04-05 Technorati, Inc. Method and apparatus for identifying and classifying network documents as spam
US20090299819A1 (en) * 2006-03-04 2009-12-03 John Stannard Davis, III Behavioral Trust Rating Filtering System
US7580931B2 (en) * 2006-03-13 2009-08-25 Microsoft Corporation Topic distillation via subsite retrieval
US7752198B2 (en) * 2006-04-24 2010-07-06 Telenor Asa Method and device for efficiently ranking documents in a similarity graph
US7634476B2 (en) * 2006-07-25 2009-12-15 Microsoft Corporation Ranking of web sites by aggregating web page ranks
US20080033797A1 (en) * 2006-08-01 2008-02-07 Microsoft Corporation Search query monetization-based ranking and filtering
US20080126331A1 (en) * 2006-08-25 2008-05-29 Xerox Corporation System and method for ranking reference documents
US8661029B1 (en) 2006-11-02 2014-02-25 Google Inc. Modifying search result ranking based on implicit user feedback
US20080114753A1 (en) * 2006-11-15 2008-05-15 Apmath Ltd. Method and a device for ranking linked documents
US20080147669A1 (en) * 2006-12-14 2008-06-19 Microsoft Corporation Detecting web spam from changes to links of web sites
US7885952B2 (en) * 2006-12-20 2011-02-08 Microsoft Corporation Cloaking detection utilizing popularity and market value
US7693833B2 (en) * 2007-02-01 2010-04-06 John Nagle System and method for improving integrity of internet search
US20080222725A1 (en) * 2007-03-05 2008-09-11 Microsoft Corporation Graph structures and web spam detection
US7680851B2 (en) 2007-03-07 2010-03-16 Microsoft Corporation Active spam testing system
US8938463B1 (en) 2007-03-12 2015-01-20 Google Inc. Modifying search result ranking based on implicit user feedback and a model of presentation bias
US8694374B1 (en) * 2007-03-14 2014-04-08 Google Inc. Detecting click spam
US7756987B2 (en) * 2007-04-04 2010-07-13 Microsoft Corporation Cybersquatter patrol
US20080270549A1 (en) * 2007-04-26 2008-10-30 Microsoft Corporation Extracting link spam using random walks and spam seeds
US9092510B1 (en) 2007-04-30 2015-07-28 Google Inc. Modifying search result ranking based on a temporal element of user feedback
US7930303B2 (en) * 2007-04-30 2011-04-19 Microsoft Corporation Calculating global importance of documents based on global hitting times
US7853589B2 (en) * 2007-04-30 2010-12-14 Microsoft Corporation Web spam page classification using query-dependent data
US7941391B2 (en) 2007-05-04 2011-05-10 Microsoft Corporation Link spam detection using smooth classification function
US7788254B2 (en) * 2007-05-04 2010-08-31 Microsoft Corporation Web page analysis using multiple graphs
US8667117B2 (en) * 2007-05-31 2014-03-04 Microsoft Corporation Search ranger system and double-funnel model for search spam analyses and browser protection
US7873635B2 (en) * 2007-05-31 2011-01-18 Microsoft Corporation Search ranger system and double-funnel model for search spam analyses and browser protection
US9430577B2 (en) * 2007-05-31 2016-08-30 Microsoft Technology Licensing, Llc Search ranger system and double-funnel model for search spam analyses and browser protection
US8244737B2 (en) * 2007-06-18 2012-08-14 Microsoft Corporation Ranking documents based on a series of document graphs
US8438189B2 (en) * 2007-07-23 2013-05-07 Microsoft Corporation Local computation of rank contributions
US8694511B1 (en) 2007-08-20 2014-04-08 Google Inc. Modifying search result ranking based on populations
US8041338B2 (en) * 2007-09-10 2011-10-18 Microsoft Corporation Mobile wallet and digital payment
US8909655B1 (en) 2007-10-11 2014-12-09 Google Inc. Time based ranking
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US20090177690A1 (en) * 2008-01-03 2009-07-09 Sinem Guven Determining an Optimal Solution Set Based on Human Selection
US8219549B2 (en) * 2008-02-06 2012-07-10 Microsoft Corporation Forum mining for suspicious link spam sites detection
US8010482B2 (en) * 2008-03-03 2011-08-30 Microsoft Corporation Locally computable spam detection features and robust pagerank
US8812493B2 (en) 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US20090307191A1 (en) * 2008-06-10 2009-12-10 Li Hong C Techniques to establish trust of a web page to prevent malware redirects from web searches or hyperlinks
EP2169568A1 (en) 2008-09-17 2010-03-31 OGS Search Limited Method and apparatus for generating a ranked index of web pages
US7974970B2 (en) * 2008-10-09 2011-07-05 Yahoo! Inc. Detection of undesirable web pages
US8396865B1 (en) 2008-12-10 2013-03-12 Google Inc. Sharing search engine relevance data between corpora
US9009146B1 (en) 2009-04-08 2015-04-14 Google Inc. Ranking search results based on similar queries
US8447760B1 (en) 2009-07-20 2013-05-21 Google Inc. Generating a related set of documents for an initial set of documents
US8498974B1 (en) 2009-08-31 2013-07-30 Google Inc. Refining search results
US8972391B1 (en) 2009-10-02 2015-03-03 Google Inc. Recent interest based relevance scoring
US8874555B1 (en) 2009-11-20 2014-10-28 Google Inc. Modifying scoring data based on historical changes
US8615514B1 (en) 2010-02-03 2013-12-24 Google Inc. Evaluating website properties by partitioning user feedback
US8924379B1 (en) 2010-03-05 2014-12-30 Google Inc. Temporal-based score adjustments
US8959093B1 (en) 2010-03-15 2015-02-17 Google Inc. Ranking search results based on anchors
US8738635B2 (en) * 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US9623119B1 (en) 2010-06-29 2017-04-18 Google Inc. Accentuating search results
US8832083B1 (en) 2010-07-23 2014-09-09 Google Inc. Combining user feedback
US8707441B1 (en) * 2010-08-17 2014-04-22 Symantec Corporation Techniques for identifying optimized malicious search engine results
US8874566B2 (en) 2010-09-09 2014-10-28 Disney Enterprises, Inc. Online content ranking system based on authenticity metric values for web elements
US9002867B1 (en) 2010-12-30 2015-04-07 Google Inc. Modifying ranking data based on document changes
CN102222115B (zh) * 2011-07-12 2013-09-11 厦门大学 基于关键词共现的研究热点边连通度分析方法
CN102214245B (zh) * 2011-07-12 2013-09-11 厦门大学 基于关键词共现的研究热点图论分析方法
CN102571768B (zh) * 2011-12-26 2014-11-26 北京大学 一种钓鱼网站检测方法
CN102591965B (zh) * 2011-12-30 2014-07-09 奇智软件(北京)有限公司 一种黑链检测的方法及装置
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
US9002832B1 (en) 2012-06-04 2015-04-07 Google Inc. Classifying sites as low quality sites
US9183499B1 (en) 2013-04-19 2015-11-10 Google Inc. Evaluating quality based on neighbor features
CN103345499A (zh) * 2013-06-28 2013-10-09 宇龙计算机通信科技(深圳)有限公司 一种搜索引擎的搜索结果处理方法及装置
CN103412922B (zh) * 2013-08-12 2017-02-08 曙光信息产业股份有限公司 一种数据查询处理方法
WO2016155007A1 (en) * 2015-04-03 2016-10-06 Yahoo! Inc. Method and system for monitoring data quality and dependency
CN105373598B (zh) * 2015-10-27 2017-03-15 广州神马移动信息科技有限公司 作弊站点识别方法及装置
CN108304395B (zh) * 2016-02-05 2022-09-06 北京迅奥科技有限公司 网页作弊检测
CN108984630B (zh) * 2018-06-20 2021-08-24 天津大学 复杂网络中节点重要性在垃圾网页检测中的应用方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050216533A1 (en) * 2004-03-29 2005-09-29 Yahoo! Inc. Search using graph colorization and personalized bookmark processing
US7533092B2 (en) * 2004-10-28 2009-05-12 Yahoo! Inc. Link-based spam detection

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4167652A (en) * 1974-10-17 1979-09-11 Telefonaktiebolaget L M Ericsson Method and apparatus for the interchanges of PCM word
US7082426B2 (en) * 1993-06-18 2006-07-25 Cnet Networks, Inc. Content aggregation method and apparatus for an on-line product catalog
US6285999B1 (en) * 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US6728752B1 (en) * 1999-01-26 2004-04-27 Xerox Corporation System and method for information browsing using multi-modal features
US6678681B1 (en) * 1999-03-10 2004-01-13 Google Inc. Information extraction from a database
US6404752B1 (en) * 1999-08-27 2002-06-11 International Business Machines Corporation Network switch using network processor and methods
US6985431B1 (en) * 1999-08-27 2006-01-10 International Business Machines Corporation Network switch and components and method of operation
US6529903B2 (en) * 2000-07-06 2003-03-04 Google, Inc. Methods and apparatus for using a modified index to provide search results in response to an ambiguous search query
US6865575B1 (en) * 2000-07-06 2005-03-08 Google, Inc. Methods and apparatus for using a modified index to provide search results in response to an ambiguous search query
US20040193503A1 (en) * 2000-10-04 2004-09-30 Eder Jeff Scott Interactive sales performance management system
US7197470B1 (en) * 2000-10-11 2007-03-27 Buzzmetrics, Ltd. System and method for collection analysis of electronic discussion methods
US20040236673A1 (en) * 2000-10-17 2004-11-25 Eder Jeff Scott Collaborative risk transfer system
CA2323883C (en) * 2000-10-19 2016-02-16 Patrick Ryan Morin Method and device for classifying internet objects and objects stored oncomputer-readable media
US8509086B2 (en) * 2001-06-20 2013-08-13 Arbor Networks, Inc. Detecting network misuse
US7089252B2 (en) * 2002-04-25 2006-08-08 International Business Machines Corporation System and method for rapid computation of PageRank
US20040002988A1 (en) * 2002-06-26 2004-01-01 Praveen Seshadri System and method for modeling subscriptions and subscribers as data
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及系统
US7346839B2 (en) * 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
US20050210008A1 (en) * 2004-03-18 2005-09-22 Bao Tran Systems and methods for analyzing documents over a network
US20060064411A1 (en) * 2004-09-22 2006-03-23 William Gross Search engine using user intent
US20060085391A1 (en) * 2004-09-24 2006-04-20 Microsoft Corporation Automatic query suggestions
WO2006045004A2 (en) * 2004-10-18 2006-04-27 Bioveris Corporation System and method for obtaining, storing, and processing immunologic information of individuals and populations

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050216533A1 (en) * 2004-03-29 2005-09-29 Yahoo! Inc. Search using graph colorization and personalized bookmark processing
US7533092B2 (en) * 2004-10-28 2009-05-12 Yahoo! Inc. Link-based spam detection

Also Published As

Publication number Publication date
CN101180624B (zh) 2012-05-09
WO2006049996A2 (en) 2006-05-11
US7533092B2 (en) 2009-05-12
US20060095416A1 (en) 2006-05-04
JP4908422B2 (ja) 2012-04-04
WO2006049996A3 (en) 2007-09-27
CN101180624A (zh) 2008-05-14
KR20070085477A (ko) 2007-08-27
EP1817697A2 (en) 2007-08-15
KR101230687B1 (ko) 2013-02-07
HK1115930A1 (en) 2008-12-12

Similar Documents

Publication Publication Date Title
JP4908422B2 (ja) リンクベースのスパム検出
US7577644B2 (en) Augmented search with error detection and replacement
JP5114380B2 (ja) 検索結果の関連性の再ランク付けおよびその増強
US6560600B1 (en) Method and apparatus for ranking Web page search results
US7475074B2 (en) Web search system and method thereof
US8099417B2 (en) Semi-supervised part-of-speech tagging
US7792870B2 (en) Identification and automatic propagation of geo-location associations to un-located documents
US8166030B2 (en) Information resource taxonomy
US7908234B2 (en) Systems and methods of predicting resource usefulness using universal resource locators including counting the number of times URL features occur in training data
US20080244428A1 (en) Visually Emphasizing Query Results Based on Relevance Feedback
US20110264673A1 (en) Establishing search results and deeplinks using trails
US20080114753A1 (en) Method and a device for ranking linked documents
US9218422B2 (en) Personalized deeplinks for search results
Baraglia et al. Suggest: A web usage mining system
KR100557874B1 (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
JP4824070B2 (ja) クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム
US20070079229A1 (en) Method and system for automatically determining the server-side technology underlying a dynamic web site
US20060059126A1 (en) System and method for network searching
JP6749865B2 (ja) 情報収集装置、および、情報収集方法
Rashmi et al. Deep web crawler: exploring and re-ranking of web forms
US8930355B2 (en) System and method for reflective searching of previous search results
Mourad et al. In-Depth Métan-Search Engine
Bute et al. Evaluating search effectiveness of some selected search engines
Devi A Novel Approach on Focused Crawling With Anchor Text
US20130226956A1 (en) Searching for web pages based on user-recalled web page appearance

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080717

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080717

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090916

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090916

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090929

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110228

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110531

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110801

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111219

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120112

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150120

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4908422

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350