JP2012519901A - ウェブページの評価 - Google Patents

ウェブページの評価 Download PDF

Info

Publication number
JP2012519901A
JP2012519901A JP2011552939A JP2011552939A JP2012519901A JP 2012519901 A JP2012519901 A JP 2012519901A JP 2011552939 A JP2011552939 A JP 2011552939A JP 2011552939 A JP2011552939 A JP 2011552939A JP 2012519901 A JP2012519901 A JP 2012519901A
Authority
JP
Japan
Prior art keywords
web page
web pages
web
same
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011552939A
Other languages
English (en)
Other versions
JP5329680B2 (ja
JP2012519901A5 (ja
Inventor
チェン・ホア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2012519901A publication Critical patent/JP2012519901A/ja
Publication of JP2012519901A5 publication Critical patent/JP2012519901A5/ja
Application granted granted Critical
Publication of JP5329680B2 publication Critical patent/JP5329680B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【解決手段】ウェブページ評価値の決定は、同一又はほぼ同一コンテンツを持つ複数のウェブページを取得することと、複数のウェブページのそれぞれに対応する複数の作成時間及び複数の第1の評価値を決定することと、複数のウェブページのなかから最も早い作成時間を有するウェブページを特定することと、複数の第1の評価値にしたがって、特定されたウェブページの第2の評価値を決定することとを含む。
【選択図】図6

Description

[関連出願の相互参照]
本出願は、あらゆる目的のために参照によって本明細書に組み込まれる、発明の名称を「METHOD AND SYSTEM FOR DETERMINING AND APPLYING WEB PAGE EVALUATION VALUE(ウェブページ評価値を決定及び適用するための方法とシステム)」とする、2009年3月4日付けで出願された中国特許出願第200910118150.1号の優先権を主張する。
本発明は、情報処理技術に関し、特に、コンピュータを介してウェブページ評価値を決定及び適用するための方法とシステムとに関する。
検索エンジンは、インターネット上のウェブページをクロールする。ユーザが検索エンジンに対してクエリを行うと、検索エンジンは、ユーザのキーワードに関連した全てのウェブページを見つけ出し、最も関連のあるウェブページ(すなわち、最も高い関連度を持つウェブページ)から先ず始まって、関連度の順にウェブページをランク付けする。ウェブページの関連度は、非常に複雑であり、多くのパラメータに基づいて計算されるので、ウェブページの関連度の計算には、様々な技術的解決策がある。更に、異なる検索エンジンサプライヤに、それぞれ異なるパラメータと方法とを使用してウェブページの関連度を計算している。
例えば、1997年に、Googleは、ウェブページの関連度の決定を向上させるためのパラメータ、Page Rankを提示した。Page Rankは、次のように理解される。すなわち、重要なウェブページからリンクされている対象ウェブページは、重要な重み値を取得すると考えられ、対象ウェブページにリンクしているウェブページが重要であるほど、その対象ウェブページは、Page Rankが高く、ゆえに重要であると見なされる。
既存の検索エンジンの場合、コンテンツタイプのクエリワードに対して検索結果をランク付けする段階において、何らかの問題が発生することが多い。既存の検索エンジンは、一般に、非重複技術によって、同一又はほぼ同一コンテンツを持つウェブページの影響を差し引くまたは考慮しない。例えば、非重複技術を適用すると、重複した(すなわち、複製された)コンテンツを持つ一部のウェブページは、ユーザの検索クエリに対して返される検索結果において、保存されない、表示されない、又は単純に低くランク付けされる可能性がある。Page Rank方法のみにしたがった場合、適切なリンクデータがなければ、検索エンジンは、オリジナルのウェブページを無視するか又は低くランク付けするかのいずれかであるのに対し、複製されたデータを持つウェブページをそれよりも高くランク付けする可能性がある。したがって、既存の検索エンジンの場合、同一コンテンツを持つ異なるウェブページの存在は、ウェブページの関連度のランク付けに対してほとんど又は全く影響を及ぼさない。
以下の詳細な説明及び添付の図面において、発明の様々な実施形態が開示される。
その検索結果ランク付け方法にCopy Rankを取り入れていない検索エンジンの一結果例を示した図である。
その検索結果ランク付け方法にCopy Rankを取り入れた検索エンジンの一結果例を示した図である。
ウェブページ評価値を決定するためのプロセスの一実施形態を示したフローチャートである。
複製されたウェブページの第1の評価値と、オリジナルのウェブページの第2の評価値との間の関係の一実施形態を示した図である。
ウェブページ評価値にしたがってクエリ結果をランク付けするためのプロセスの一実施形態を示したフローチャートである。
検索エンジンサーバシステムの一実施形態を例示したブロック図である。
検索エンジンサーバシステムの適用環境の一実施形態を示したブロック図である。
ウェブページ検索のクエリ結果をランク付けするための方法の一実施形態を示したフローチャートである。
検索エンジンサーバシステムの一実施形態を構造的に表わした図である。
発明は、プロセス、装置、システム、合成物、コンピュータ可読ストレージ媒体に盛り込まれたコンピュータプログラム製品、並びに/又は結合先のメモリに格納された命令及び/若しくは結合先のメモリによって提供された命令を実行するように構成されたプロセッサなどのプロセッサを含む、数々の形態で実装することができる。本明細書では、これらの実装形態、又は発明が取りえるその他のあらゆる形態を、技術と称することができる。総じて、開示されたプロセスのステップの順序は、発明の範囲内において可変である。別途明記されない限り、タスクを実施するように構成されたものとして説明されるプロセッサ又はメモリなどのコンポーネントは、所定時にタスクを実施するように一時的に構成された汎用コンポーネントとして、又はタスクを実施するように製造された特殊コンポーネントとして導入されてよい。本明細書では、「プロセッサ」という用語は、コンピュータプログラム命令などのデータを処理するように構成された1つ若しくは2つ以上のデバイス、回路、及び/又は処理コアを言う。
発明の原理を例示した添付の図面とともに、以下に、発明の1つ又は2つ以上の実施形態の詳細な説明が提供される。発明は、このような実施形態に関連して説明されているが、いかなる実施形態にも限定されず、発明の範囲は、特許請求の範囲によってのみ限定され、発明は、数々の代替形態、変更形態、及び均等物を内包する。以下の説明では、発明の完全な理解を可能にするために、数々の詳細が特定されている。これらの詳細は、例示を目的として提供されたものであり、発明は、これらの詳細の一部又は全部を伴わずとも、特許請求の範囲にしたがって実施されてよい。明瞭さを期するため、発明に関連した技術分野で知られている技工物は、発明が不必要に不明瞭にされないように、詳細な説明を省略されている。
コンテンツタイプのウェブページは、ほとんど外部リンクを有さないことが多い。したがって、ウェブページの重要性を決定するために外部リンクの存在に大きく依存するPage Rankを計算するための方法は、全てのウェブページに対して効果的に働くわけではなく、その結果、Page Rank方法のみを使用して返される検索結果のランク付けは、ユーザにとって最も望ましい順ではない可能性がある。コンテンツタイプのウェブページの例には、新しい記事を伴うウェブページや、一般的なテキストコンテンツを伴うウェブページなどがあるが、これらに限定はされない。
現行の検索エンジンは、同一コンテンツを持つ異なるウェブページの発生を、検索結果を妨害するマイナス要因として扱うことが多い。したがって、検索エンジンは、ウェブページに関するこのような情報を破棄するか、又は複製されたウェブページのPage Rankを大幅に引き下げるかする。しかしながら、同一コンテンツを持つ異なるウェブページの発生は、実際は、検索結果のランク付けの向上において非常に重要な役割を果たすことができる。
上記の問題を解決するために、一部の実施形態では、コンテンツタイプのクエリワードの検索結果を向上させるために、検索エンジンの結果ランク付け方法に、新しいランク付けパラメータ、すなわちCopy Rankが追加される。本明細書では、Copy Rankという用語は、ウェブページの評価値を言う。Copy Rankは、検索結果のそれぞれの関連度に基づくランク付けを向上させるためのパラメータである。コンテンツタイプクエリの検索結果のランク付けは、Copy Rankパラメータを使用して向上させることができる。オリジナルのウェブページのCopy Rankは、オリジナルのコンテンツがインターネット上において異なるウェブページで複製された回数を使用し、その複製されたコンテンツを特徴とするウェブページを収集することによって計算される。以下では、オリジナルのウェブページを複製されたコンテンツを特徴とするウェブページは、ときに、「複製ウェブページ」と呼ぶことができる。したがって、ウェブページの新しい関連度値は、関連度を計算するための従来のパラメータ(Page Rankやキーワード一致度など)を、提示される新しいパラメータCopy Rankと組み合わせることによって計算される。検索エンジンは、結果を表示するときに、クエリワードに関連したインターネット上の最適な結果をユーザが素早く決定するのを助けるために、コンテンツがこれまでに複製された回数を表示してもよい。
図1Aは、その検索結果ランク付け方法にCopy Rankを取り入れていない検索エンジンの一結果例を示した図である。この例では、返された検索結果は、検索クエリ「state of the union address 2010(一般教書演説2010)」に対するものであった。例えば、図1Aでは、返された検索結果は、返された各ウェブページの少なくともPage Rankパラメータ値は含むがCopy Rankパラメータ値は含まない方法に基づいてランク付けされたものである。
図1Bは、その検索結果ランク付け方法にCopy Rankを取り入れた検索エンジンの一結果例を示した図である。この例では、検索クエリは、「state of the union address 2010(一般教書演説2010)」であった。例えば、図1Bでは、返された検索結果は、少なくともPage Rankパラメータ値とCopy Rankパラメータ値とに基づく方法に基づいてランク付けされたものである。この例では、検索エンジンの結果に対するCopy Rankの効果を見ることができる。図1Bに示された検索結果では、最も高いCopy Rankパラメータ値を持つウェブページが検索結果のトップにランク付けされ、表示されている。Copy Rankは、少なくとも一部には、ウェブコンテンツが複製された回数と、返された各ウェブページの作成時間とに基づいて決定される。したがって、一部の実施形態では、コンテンツは、それが複製された回数が多いほど、ユーザによって望まれるコンテンツである傾向が強いと考えられる。また、オリジナルのページ(例えば、作成時間が最も早いウェブページ)はやはり、ユーザによって最も望まれるウェブページである傾向が最も強いとされる。その結果、一部の実施形態では、オリジナルのウェブページは、複製されたコンテンツを伴う他のどのウェブページよりも大きいCopy Rank値を付与される。図1Bの例では、トップにランク付けされ、最初に表示されている検索結果は、オリジナルのウェブページであり、そのコンテンツが他のウェブページ上で複製された回数もあわせて表示されている。
一部の実施形態では、Copy Rankの決定は、3つの決定を含む。すなわち、(1)様々なウェブページのコンテンツが基本的に同一かどうかを決定すること、(2)ウェブページの実際の作成時間を決定すること、及び(3)どのウェブページがオリジナルのウェブページであるかを決定することである。これらの決定の詳細な説明は、以下で提供される。
図2は、ウェブページ評価値を決定するためのプロセスの一実施形態を示したフローチャートである。プロセス200は、図5の500などのシステム上で実施されてよい。この例に示されるように、プロセス200は、同一又はほぼ同一コンテンツを持つウェブページが検索エンジンサーバシステムなどのソースから取得されるステップ201から開始する。ステップ202では、各ウェブページの作成時間及び第1の評価値が決定される。ステップ203では、最も早い作成時間を持つウェブページが特定される。ステップ204では、最も早い作成時間を持つウェブページの第2の評価値が、同一又はほぼ同一コンテンツを持つ各ウェブページの第1の評価値に少なくとも部分的に基づいて決定される。プロセス200は、後ほど更に詳しく説明される。
ステップ201の目的は、異なるウェブページがいつ同一又はほぼ同一コンテンツを含むかを決定し、このような情報を、検索結果を妨害するマイナス要因として廃棄する代わりに、検索結果のランク付けを向上させるために使用することにある。
一部の実施形態では、同一又はほぼ同一コンテンツを持つウェブページは、同一デジタルフィンガプリントを持つウェブページを含む。デジタルフィンガプリントの一例は、メッセージダイジェストアルゴリズム5(MD5)である。デジタルフィンガプリントは、暗号化及び復号化の技術において広く使用されている。ファイルは、たとえそれが実行可能なプログラム、画像ファイル、一時ファイル、又はその他のあらゆるタイプのファイルのどれであれ、そしてそれがどれくらいのボリュームであれ、統計的に一意なフィンガプリント値を有しており、もしファイルが変更されたならば、そのフィンガプリント値もまた、変更される。言い換えると、ファイルのフィンガプリント値をオリジナルファイルのフィンガプリント値と比較することによって、そのファイルが「変更された」か否かの照合がなされてよい。より最近にダウンロードされたファイルがウェブサイト上のオリジナルファイルと同一かどうかを決定するために、ダウンロードされたファイルに対してフィンガプリントの照合が実施されてよい。取得されたフィンガプリント値が、ウェブサイト上で公開されているファイルの値と同一であるならば、ダウンロードされたファイルは、損なわれていないことを裏付けられる。両値が異なるならば、ダウンロードされたファイルは、オリジナルと一致しない(すなわち、ネットワークにおけるダウンロードプロセスの最中にエラーが発生した、又はファイルが変更された)。通常、標準的なウェブサイトは、ファイルのフィンガプリントチェックコード(MD5チェックコードなど)を提供する。したがって、一部の実施形態では、異なるウェブページが同一又はほぼ同一コンテンツを有するかどうかが、それらのデジタルフィンガプリントを通じて決定されてよい。
一部の実施形態では、検索エンジンサーバなどのソースから、同一又はほぼ同一コンテンツを持つウェブページを取得することは、ソースから取得されたウェブページから選択されたコンテンツについてのデジタルフィンガプリント(MD5チェックコードなど)を生成することと、選択されたコンテンツのデジタルフィンガプリントに基づいて、ウェブページどうしが同一又はほぼ同一コンテンツを有するかどうかを決定することとを含む。選択されたコンテンツの例としては、ウェブページのなかで最長のコンテンツを有し、最初の段落でも最後の段落でもないする最長の中間段落、段落、又はウェブページ上の最初の文でも最後の文でもない段落の中で最長の文、又はその他の適切なコンテンツが挙げられる。
例えば、異なるウェブページどうしが同一コンテンツを含むかどうかを決定するために、記事タイプの各ウェブページのなかから、最初の段落でも最後の段落でもない最長の中間段落が見つけられる。選択されたコンテンツに基づき、ウェブページのデジタルフィンガプリントとして、MD5が、最長の中間段落に基づいて生成される。デジタルフィンガプリントは、ウェブページコンテンツが別のウェブページのコンテンツと同一であるかどうかを決定するための基準である。しかしながら、2つ以上の段落を有さない記事の場合は、段落のなかで最長の文であって、最初の文でも最後の文でもない文が、MD5デジタルフィンガプリントを生成するために取り上げられる。選択されたコンテンツに基づいて、ウェブページのデジタルフィンガプリントとして、MD5が生成される。2つのウェブページから選択されたコンテンツのデジタルフィンガプリントが同一であるならば、それら2つのウェブページは、少なくともほぼ同一であると決定される。
ウェブページのデジタルフィンガプリントを生成するために、最初の段落でも最後の段落でもない最長の中間段落、又は段落のなかで最長の文であって、最初の文でも最後の文でもない文を見つける理由は、1つには、通常、ウェブページの最初の段落及び最後の段落又は最初の文及び最後の文は、中間の段落又は文よりも、変更される傾向が強いからである。したがって、最初の若しくは最後の段落、又は段落のなかの最初の若しくは最後の文は、一部の実施形態では、記事の実際のコンテンツを表わすためには使用されない。このように、デジタル署名は、最初の段落でも最後の段落でもない段落、又は最初の文でも最後の文でもない文にしたがって生成される。
一部の実施形態では、2つのウェブページのコンテンツは、MD5のチェック結果を通じて同一であることを決定されてよい。当業者であれば、同一又はほぼ同一コンテンツを持つウェブページを取得する201が、MD5技術のみを通じた決定に限定されないことを理解するであろう。2つのウェブページのコンテンツが互いに合致するかどうかを決定することができるその他の方法が、用いられてもよい。
プロセス200に戻り、202では、同一又はほぼ同一コンテンツを持つ各ウェブページについて、作成時間及び第1の評価値が決定される。以下では、「作成時間」は、ウェブコンテンツが発表された時間、ウェブコンテンツが公開された時間、ウェブページがクロールされた時間、又はウェブコンテンツ自体によって言及された時間を含むが、これらに限定されない。一部の実施形態では、第1の評価値は、Page Rankである。
一部の実施形態では、各ウェブページの作成時間を決定することは、ウェブページのURLに含まれる時間にしたがって、且つ/又は記事タイプのウェブページのなかの時間にしたがって、ウェブページの作成時間を決定することを含む。
一部の実施形態では、ウェブページの実際の公開時間を決定するために、コンピュータソフトウェアプログラムを通じた抽出モードが用いられてよい。現在では、大半のウェブサイトのウェブページが動的に作成されるので、ウェブページサーバによって返される最終更新(最後に更新された)フィールドは重要でなく、ゆえに、公開時間は、ウェブページのテキストから抽出されると好ましい。時間の抽出には、例えば、以下の方法が用いられてよい。
先ず、URLが時間を含むか否かを決定する。例えば、以下の例のURLは、時間を含む。
http://news.sina.com.cn/w/2009-01-15/184017052431.shtml
次いで、プログラムを通じて、時間2009-01-15が抽出されてよい。一部の実施形態では、具体的な抽出手段は、(A)従来の時間フォーマットを保存するための時間フォーマット表を確立するために、従来の時間フォーマット(yyyy-mm-dd、mm-dd-yyyyなど)のリストを使用すること、(B)デリミタ(「/」など)にしたがってURLを分割すること、及び/又は(C)分割された部分を、時間フォーマット表に格納されている時間フォーマットと突き合わせることを含んでよく、ディメンション表のなかの時間フォーマットに一致する部分があるならば、それは、そのURLが時間を含み、ゆえにその時間が抽出されてよいことを意味する。
一部の実施形態では、URLのなかで時間が特定されていないが、時間は、それでもなお、記事のテキストから取得することができる。記事のテキストには、様々な時間フォーマットがある。一部の実施形態では、時間は、コンピュータプログラムを実際の状況に合わせて総合的に調整することによって素早く見つけられるであろう。例えば、以下の例の記事のテキストは、時間を含んでいる。
China Network, 23:35, December 27, 2009
プログラムによって、「23:35, December 27, 2009」が抽出されてよい。
一部の実施形態では、様々な時刻フォーマット及び日付フォーマットのコードが解析され、正規表現マッチングなどの技術を通じて時間が取得されてよい。URLに基づいて又はページのコンテンツに基づいて作成時間を決定することができないならば、そのページが検索エンジンによってクロールされた時間が作成時間として取り上げられてよい。
一部の実施形態では、作成時間は、ウェブページがクロールされウェブページインデックスが確立されたときに決定される。次いで、作成時間は、ウェブページインデックスのフィールドに保存される。一部の実施形態では、記事が最初にインデックスに受け入れられた時間がその記事の作成時間として使用される。
同一コンテンツを持つウェブページと、それらのそれぞれの作成時間とが決定された後は、それらのウェブページのうちのどれがオリジナルのウェブページであるかが決定される。すなわち、全ての同一ウェブページのなかから最も早い実際の作成時間を持つウェブページが見つけられ、オリジナルなウェブページとして取り上げられる。
一部の実施形態では、各ウェブページについてPage Rankが計算され、第1の評価値として使用される。しかしながら、他のウェブページのリンクに関するデータに基づく値などの適切な評価値が用いられてもよい。
Page Rankは、特定のウェブページの重要性に関する評価値である。Page Rankは、「Site Rank(ウェブサイト評価値)」とは異なる。すなわち、Page Rankは、ウェブサイト全体の評価値ではなく、(各ウェブサイトが2ページ以上のウェブページを含むと仮定して)ウェブサイトの個々のウェブページのみの評価である。あるウェブサイトのホームページのPage Rankが5であるならば、それは、そのウェブサイト全体のPage Rankが5であることではなく、そのウェブページのPage Rankが5であることのみを示している。ゆえに、Page Rankは、ウェブサイト全体を対象とするのではなく、ウェブサイトのなかの複数のウェブページの1つにすぎないであろう個々のページを対象とする。
特定のウェブページのPage Rank値は、主に、そのページにリンクしているページの影響からくる。いわゆる「全てのリンク」とは、少なくとも2種類のリンクを、すなわち、現ウェブサイトの外側からリンクする外部リンクと、同一現ウェブサイトの内側からリンクする内部リンクとを含む。すなわち、任意のページのPage Rank値は、外部リンク又は内部リンクの一方の影響のみを通じて生成されるのではなく、外部リンク及び内部リンクの両方の影響を合わせたものを通じて生成される。例えば、とあるウェブサイトのホームページのPage Rankは、外部リンクによってリンクしているPage Rankが5のウェブページが2つあり、加えて、更に多くの内部リンクがそのウェブページに向かっていることから、5に設定される。
ステップ203では、同一又はほぼ同一コンテンツを持つ取得されたウェブページのなかから、オリジナルのウェブページが決定される。一部の実施形態では、「オリジナルのウェブページ」は、最も早い作成時間を持つウェブページである。
ステップ204では、最も早い作成時間を持つウェブページの第2の評価値が、同一又はほぼ同一コンテンツを持つ各ウェブページの評価値に少なくとも部分的に基づいて決定される。一部の実施形態では、最も早い作成時間を持つウェブページは、オリジナルのウェブページと呼ばれる。一部の実施形態では、ウェブページの第2の評価は、Copy Rankパラメータによって表わされてよい。ステップ204では、第2の評価値は、最も早い作成時間を持つウェブページと同一又はほぼ同一コンテンツを持つウェブページの第1の評価値(例えば、Page Rank)の和と、第1の重み係数との積に、最も早い作成時間を持つウェブページの第1の評価値と、第2の重み係数との積を加えたものとして決定される。一部の実施形態では、重み係数は、同一又はほぼ同一コンテンツを持つウェブページの第1の評価値の合計和が、オリジナルのウェブページの第1の評価値単独よりも大きい重みを与えられるように設定される。
すなわち、一部の実施形態では、Copy Rankは、全ての複製ウェブページの第1の評価値を合計したものをオリジナルのウェブページに付与する。例えば、Copy Rankは、以下の式にしたがって計算されてよい。
オリジナルのウェブページのCopy Rank=Σ各複製ウェブページの第1の評価値×w1+オリジナルのウェブページの第1の評価値×w2
ここで、w1及びw2は、重み係数であり、w1及びw2の値は、各実装形態における必要に応じて設定されてよく、w1及びw2の値は、同一であってよい又は異なってよい。
また、一部の実施形態では、Copy Rankは、ウェブページがクロールされた後に生成されてよい。一部の実施形態では、各ウェブページのCopy Rankは、定期的に更新されてよい。
一部の実施形態では、オリジナルのウェブページが決定されるときに、履歴データにしたがってウェブサイトのブラックリスト及び/又はホワイトリストが確立されてもよい。一部の実施形態では、ホワイトリストに載っているウェブサイトのウェブページが、オリジナルのウェブページだと見なされるのに対して、ブラックリストに載っているウェブサイトのウェブページは、非オリジナルのウェブページだと見なされる。例えば、図1Bに示されるように、www.whitehouse.govが、ホワイトリストに載っているオリジナルのウェブページだと見なされてよいのに対して、wikipedia.orgは、ブラックリストに載っている非オリジナルのウェブページだと見なされてよい。
図3は、複製ウェブページの第1の評価値と、オリジナルのウェブページの第2の評価値との間の関係の一実施形態を示した図である。図3に示されるように、オリジナルのウェブページの第2の評価値311を形成するために、複製ウェブページ(すなわち、「複製1」、「複製2」、「複製3」、及び「複製4」)の第1の評価値301〜310が収集される。一部の実施形態では、各第1の評価値301〜310は、Page Rank値であり、これは、ウェブページに対する外部リンク及び内部リンクに基づいて計算される。一部の実施形態では、第2の評価値311は、Copy Rank値である。言い換えると、図3は、複製ウェブページの第1の評価値301〜310(例えば、Page Rank)を合わせたものを、オリジナルのウェブページについての第2の評価値(例えば、Copy Rank)の形でオリジナルのウェブページに付与することを示している。
図4は、ウェブページ評価値にしたがってクエリ結果をランク付けするためのプロセスの一実施形態を示したフローチャートである。プロセス400は、この例では、検索エンジンによって実施される。図4に示されるように、検索精度を高めるためにクエリ結果の返しにウェブページ評価値が適用されるプロセスには、以下が含まれてよい。
401では、クエリに応答して、検索エンジンサーバシステムから、ウェブページを含むクエリ結果が取得される。
402では、検索エンジンサーバシステムは、同一又はほぼ同一コンテンツを持つクエリ結果のウェブページを取得する。
403では、検索エンジンサーバシステムは、各ウェブページの作成時間及び第1の評価値を決定する。
404では、検索エンジンサーバシステムは、各ウェブページの第1の評価値にしたがって、最も早い作成時間を持つウェブページの第2の評価値を決定する。
405では、各ウェブページの第1の評価値と、第2の評価値とにしたがって、クエリ結果がランク付けされる。一部の実施形態では、検索エンジンサーバシステムは、これらの評価値にしたがって、クエリを受けたウェブページを順序付けてよい。例えば、ウェブページは、最も高いCopy Rankパラメータ値を持つウェブページから始まって、順序通りにランク付けされてよい。一部の実施形態では、検索エンジンサーバシステムは、評価値にしたがってウェブページをランク付けした後に、それらをクエリ元のユーザに返して表示する。更に、検索エンジンサーバシステムは、各ウェブページの複製回数をクエリ結果に表示してもよい。
同じ概念に基づいて、本出願の一実施形態は、更に、上記の方法を実施する検索エンジンサーバシステムを提供する。このような検索エンジンサーバシステムは、ウェブページ評価値を決定するための方法の問題及びウェブページ評価値にしたがってクエリ結果を返すための方法の問題と同様の問題を解決する技術を適用しているので、システムの実装形態については、方法の実施形態が参照されてよく、したがって、その説明は省略される。
図5は、Copy Rankを実装した検索エンジンサーバシステムの一実施形態を例示したブロック図である。クローラシステムコンポーネント及びインデックスシステムコンポーネント、並びにそれらのサブシステムは、1つ又は2つ以上の汎用プロセッサ上で実行されるソフトウェアコンポーネントとして、プログラマブルロジックデバイス及び/若しくは特定の機能を実施するように設計された特殊用途向け集積回路などのハードウェアとして、又はそれらの組み合わせとして実装することができる。一部の実施形態では、サブシステムは、本発明の実施形態で説明される方法をコンピュータデバイス(パソコン、サーバ、ネットワーク機器など)に実施させるための幾つかの命令を含み且つ不揮発性のストレージ媒体(光ディスク、フラッシュストレージデバイス、モバイルハードディスクなど)に格納可能なソフトウェア製品の形で具現化することができる。クローラシステム及びインデックスシステム、並びに任意のサブシステムは、1つのデバイス上に実装されてよい、又は複数のデバイスに跨って分散されてよい。
図5に示されるように、検索エンジンサーバシステムは、同一又はほぼ同一コンテンツを持つウェブページを取得するように構成されたクローラシステム501と、各ウェブページの作成時間及び各ウェブページの第1の評価値を決定し、各ウェブページの第1の評価値にしたがって、最も早い作成時間を持つウェブページの第2の評価値を決定するように構成されたインデックスシステム502とを含む。
一部の実施形態では、インデックスシステムは、更に、ウェブページのMD5にしたがって、各ウェブページが同一又はほぼ同一コンテンツを持つかどうかを決定するように構成されてよい。
クローラシステム501のウェブページ取得サブシステムは、各ウェブページのなかで最長のコンテンツを持つ中間の段落であって、最初の段落でも最後の段落でもない段落、又は段落のなかで最長の文であって、最初の文でも最後の文でもない文を取得して、MD5を生成するように構成されたMD5生成ユニットと、ウェブページのMD5(すなわち、デジタルフィンガプリント)にしたがって、それらのウェブページのコンテンツが同一であるかどうかを決定するように構成された比較ユニットと、ウェブページのMD5にしたがって、それらのウェブページのコンテンツが同一であるかどうかを決定した後に、同一又はほぼ同一コンテンツを持つウェブページを取得するように構成された取得ユニットとを含んでよい。
一部の実施形態では、インデックスシステムは、更に、ウェブページURLに含まれる時間にしたがって、及び/又はコンテンツタイプのウェブページのなかの時間にしたがって、ウェブページの作成時間を決定するように構成されてよい。
一部の実施形態では、インデックスシステムは、更に、最も早い作成時間を持つウェブページの第2の評価値を、各ウェブページの第1の評価値に基づいて決定するときに、その第2の評価値を、最も早い作成時間を持つウェブページと同一又はほぼ同一コンテンツを持つウェブページの第1の評価値の和と、第1の重み係数との積に、最も早い作成時間を持つウェブページの第1の評価値と、第2の重み係数との積を加えたものとして決定するように構成されてよい。
一部の実施形態では、インデックスシステムは、更に、各ウェブページの第1の評価値を、外部リンク及び内部リンクを含むデータにしたがって形成された評価値にしたがって決定するように構成されてよい。
インデックスシステムは、更に、各ウェブページの第1の評価値と、第2の評価値とにしたがってクエリ結果をランク付けするように構成されてよい。
一部の実施形態では、インデックスシステムは、更に、ウェブページの複製回数をクエリ結果に表示するように構成されてよい。
図6は、検索エンジンサーバシステムの適用環境の一実施形態を示したブロック図である。図6に示されるように、ネットワークは、インデックスシステム601(ウェブページ評価値にしたがってクエリ結果をランク付けする)と、ウェブページ602(サーバなど、ウェブページを作成する様々なエンティティを表わしてもよく、説明の便宜上、ウェブページは、このような1つの、又はひいてはこのような複数のエンティティを表わしてよい)と、ユーザ端末603と、クローラシステム604と、クエリシステム605とを含む。一部の実施形態では、このようなユーザ端末603が複数あってよい。また、図からやはりわかるように、インデックスシステム601及びクローラシステム604は、検索エンジンサーバシステムを形成してよい。図6では、様々な機能エンティティは、ネットワークを通じて接続されてよい、直接的に接続されてよい、又はどんな形であれ実際の必要に応じて接続されてよい。例えば、クローラシステム及びインデックスシステムは、エンティティ間でデータの連携を実現することができるように、インターネット又はローカルエリアネットワーク(LAN)などのネットワークを介して接続されてよい。
一部の実施形態では、ウェブページ602は、様々なウェブページコンテンツを提供し、これらのコンテンツは、クローラシステム604がネットワークにおいてウェブページ情報として集めて1つ又は2つ以上のサーバ上に保存してよい。一部の実施形態では、インデックスシステム601は、クエリ要求が迅速に処理されえるように、収集されたウェブページ情報にしたがってインデックスを確立する。インデックスシステム601は、また、ウェブページの第1の評価値及び第2の評価値を決定し、第1の評価値及び第2の評価値にしたがってウェブページを順序付けてよい。ランク付けは、クローラシステムがウェブページ情報を集めた直後に実施されてよい。或いは、ランク付けは、ユーザ端末からクエリ要求が受信された後に実施されてよい。ランク付けが実施される相対的な時間は、これらに限定されない。
ユーザ端末603がネットワークを介してクエリシステム605にクエリを行うと、クエリシステム605は、ユーザ端末603によって要求された情報(すなわち、検索結果)を、インデックスシステムデバイス601によって決定された順序で返してよい。このようにして、ユーザによって取得されたクエリ結果の順序は、正確になり、クエリ結果間の関係(例えば、ユーザのクエリに対する相対的な関連度)を実際に反映すると考えられる。
上記の実施形態では、ウェブページコンテンツの複製回数と、複製回数に基づいて計算されたCopy Rank値とが使用されることがわかる。Copy Rankは、検索エンジンの関連度の順序付けを向上させることができ、コンテンツタイプの検索クエリに対する検索結果のランク付けを向上させるように適用可能である。オリジナルのウェブページのCopy Rankは、インターネット上における特定のウェブページコンテンツ(例えば、ニュース記事)の複製回数に少なくとも基づいて計算することができ、複製ウェブページもまた、収集することができる。したがって、検索エンジンが関連度を計算するときは、外部リンクを含むデータ(例えば、Page Rank)にしたがって形成される評価値やキーワード一致度など、関連度を計算するための従来のパラメータを、ここで提示されるCopy Rankパラメータと組み合わせることによって計算されてよい。検索エンジンは、結果を表示するときに、クエリワードに関連するインターネット上の最適な結果をユーザが素早く決定することを助けるために、クエリされたコンテンツの複製回数も表示してよく、それによって、検索エンジンによって返される結果の精度を高めることができる。当該分野で知られるように、検索エンジンは、ウェブページ検索エンジンコンポーネントと、画像検索エンジンコンポーネントと、ソフトウェア検索エンジンコンポーネントとを含んでよい。
一部の実施形態では、コンテンツタイプのクエリワードに対する検索結果の関連性を、検索エンジンのユーザが満足のいくレベルまで向上させるために、検索エンジンによる検索結果のランク付けに、新たなランク付けパラメータ(例えば、Copy Rank)が含められる。
図7は、ウェブページ検索のクエリ結果をランク付けするための方法の一実施形態を示したフローチャートである。プロセス700は、例えば、図5、図7、及び図8のシステム上で実施されてよい。図7に示されるように、方法に、ランク付けの方法のために以下を含んでよい。
701では、検索エンジンサーバシステムから、同一又はほぼ同一コンテンツを持つウェブページが取得される。
702では、検索エンジンサーバシステムは、各ウェブページの作成時間を決定する。作成時間を決定するための技術は、図2に関連して上述されたものと同様である。
703では、検索エンジンサーバシステムは、各ウェブページの作成時間に少なくとも基づいて、ウェブページをランク付けする。一部の実施形態では、早いページほど高くランク付けされる。
一部の実施形態では、検索エンジンサーバシステムは、各ウェブページの作成時間及び外部リンクデータに更に基づいて、ウェブページをランク付けする。
図8は、検索エンジンサーバシステムの一実施形態を示したブロック図である。この例で示された検索エンジンサーバシステムは、同一又はほぼ同一コンテンツを持つウェブページを検索エンジンサーバシステムから取得するように構成されたクローラシステム801と、検索エンジンサーバシステムによって各ウェブページの作成時間を決定し、各ウェブページの作成時間の順にしたがってウェブページをランク付けするように構成された検索エンジンサーバ802とを含む。
検索エンジンサーバ802は、更に、上記各ウェブページの作成時間及び外部リンクデータにしたがってウェブページをランク付けするように構成されてよい。
図5、図6、図8に示されたシステム及びサブシステムは、1つ又は2つ以上の汎用プロセッサ上で実行されるソフトウェアコンポーネントとして、プログラマブルロジックデバイス及び/若しくは特定の機能を実施するように設計された特殊用途向け集積回路などのハードウェアとして、又はそれらの組み合わせとして実装されてよい。一部の実施形態では、サブシステムは、本発明の実施形態で説明される方法をコンピュータデバイス(パソコン、サーバ、ネットワーク機器など)に実施させるための幾つかの命令を含み且つ不揮発性のストレージ媒体(光ディスク、フラッシュストレージデバイス、モバイルハードディスクなど)に格納可能なソフトウェア製品の形で具現化することができる。各システム/サブシステムは、1つのデバイス上に実装されてよい、又は複数のデバイスに跨って分散されてよい。
当業者ならば、発明の実施形態が、方法、システム、又はコンピュータプログラム製品として提供されえることを理解するべきである。したがって、発明の実施形態は、完全なるハードウェアの実施形態、完全なるソフトウェアの実施形態、又はそれらの組み合わせの形態であってよい。更に、発明の実施形態は、コンピュータ可用プログラムコードを含む1つ又は2つ以上のコンピュータ可用ストレージ媒体(非限定的な例として、磁気ディスクストレージ、CD−ROM、及び光ストレージが挙げられる)に実装されるコンピュータプログラム製品の形態であってよい。
発明の実施形態は、本出願の実施形態にしたがった方法、デバイス(システム)、及びコンピュータプログラム製品の、フローチャート及び/又はブロック図を参照にして説明されている。フローチャート及び/又はブロック図のなかの各フロー及び/又はブロック、並びにフローチャート及び/又はブロック図のなかのフロー及び/又はブロックの組み合わせは、コンピュータプログラム命令を介して実現されえることが理解されるべきである。このようなコンピュータプログラム命令は、コンピュータのプロセッサ又はその他のプログラム可能データ処理デバイスによって実行される命令が、フローチャートのなかの1つ若しくは2つ以上のフロー及び/又はブロック図のなかの1つ若しくは2つ以上のブロックによって指定される機能を実現するためのデバイスを形成しえるように、汎用コンピュータのプロセッサ、専用コンピュータ、組み込みプロセッサ、又はその他のプログラム可能データ処理デバイスに提供されて、マシンを形成してよい。
このようなコンピュータプログラム命令は、コンピュータ可読ストレージに格納された命令が、フローチャートの1つ又は2つ以上のフロー及びブロック図のなかの1つ又は2つ以上のブロックに指定された機能を実現しえるコマンダ機器を含む製造品を形成しえるように、コンピュータ又はその他のプログラム可能データ処理デバイスを指定モードで作業するように導くことができるコンピュータ可読ストレージに格納されてもよい。
このようなコンピュータプログラム命令は、一連の操作プロセスがコンピュータ又はその他のプログラム可能デバイスで実行されて、コンピュータ実現処理を形成し、それによって、コンピュータ又はその他のプログラム可能デバイスで実行される命令が、フローチャートのなかの1つ若しくは2つ以上のフロー及び/又はブロック図のなかの1つ若しくは2つ以上のブロックに指定された機能を実現するためのプロセスを提供しえるように、コンピュータ又はその他のプログラム可能データ処理デバイスに取り込まれてもよい。
発明の幾つかの実施形態が上述されているが、基本的な発明概念の教示内容に基づいて、その他のヴァリエーション及び変更が可能である。したがって、このような実施形態、並びにそれらの全てのヴァリエーション及び変更は、特許請求の範囲によって理解されることを意図される。
当業者ならば、本発明の趣旨及び範囲から逸脱することなく本発明に対して様々な変更及び代替をなしえることがわかる。したがって、もし、発明の実施形態に対するこれらの変更及び代替が、本発明の特許請求の範囲の範囲に入るならば、本発明は、これらの変更及び代替を全て含むことを意図される。
以上の実施形態は、理解を明瞭にする目的で幾らか詳細に説明されてきたが、発明は、提供された詳細に限定されない。発明の実現には、多くの代替的方法がある。開示された実施形態は、例示的であって、限定的ではない。

Claims (18)

  1. 同一又はほぼ同一コンテンツを持つ複数のウェブページを取得することと、
    前記複数のウェブページのそれぞれに対応する複数の作成時間及び複数の第1の評価値を決定することと、
    前記複数のウェブページのなかから最も早い作成時間を有するウェブページを特定することと、
    前記複数の第1の評価値にしたがって、前記特定されたウェブページの第2の評価値を決定することと、
    を備える方法。
  2. 請求項1に記載の方法であって、
    前記第2の評価値は、前記複数のウェブページのなかにおける前記特定されたウェブページのランク付けを示すために使用される、方法。
  3. 請求項1に記載の方法であって、更に、
    前記同一又はほぼ同一コンテンツを持つ複数のウェブページを、それらのそれぞれのデジタルフィンガプリントを比較することによって特定することを備える方法。
  4. 請求項3に記載の方法であって、
    前記同一又はほぼ同一コンテンツを持つ複数のウェブページを特定することは、
    一群のウェブページのなかで最長のコンテンツを持ち、前記それぞれのウェブページのなかで最初の段落でも最後の段落でもない中間の段落を取得すること、又は最初の文でも最後の文でもなく前記一群のウェブページの各ページのなかで最長の文を取得することと、
    前記各ウェブページについて取得された中間の段落又は最長の文に基づいて、各ウェブページについてのデジタルフィンガプリントを生成することと、
    前記一群のウェブページのなかから前記同一又はほぼ同一コンテンツを持つ複数のウェブページを特定するために、前記各ウェブページのデジタルフィンガプリントを比較することと、
    を含む、方法。
  5. 請求項1に記載の方法であって、
    前記各ウェブページの作成時間を決定することは、各ウェブページのURLに含まれる時間にしたがって前記作成時間を決定することを含む、方法。
  6. 請求項1に記載の方法であって、
    前記各ウェブページの作成時間を決定することは、各コンテンツタイプのウェブページのなかの時間にしたがって前記作成時間を決定することを含む、方法。
  7. 請求項1に記載の方法であって、
    前記各ウェブページの作成時間を決定することは、各ウェブページがクロールされた時間にしたがって前記作成時間を決定することを含む、方法。
  8. 請求項1に記載の方法であって、
    前記各ウェブページの作成時間を決定することは、各ウェブページがインデックスに最初に受け入れられた時間にしたがって前記作成時間を決定することを含む、方法。
  9. 請求項1に記載の方法であって、
    前記第2の評価値は、前記複数の第1の評価値のどれよりも大きい、方法。
  10. 請求項1に記載の方法であって、
    前記第2の評価値は、前記複数の第1の評価値の和と、第1の重み係数との積に、前記特定されたウェブページの第1の評価値と、第2の重み係数との積を加えたものである、方法。
  11. 請求項10に記載の方法であって、
    前記第1の重み係数の値と前記第2の重み係数の値は、同一である、方法。
  12. 請求項10に記載の方法であって、
    前記第1の重み係数の値と前記第2の重み係数の値は、異なる、方法。
  13. 請求項1に記載の方法であって、
    前記複数の第1の評価値の各値は、外部リンクを含むデータにしたがって形成される評価値である、方法。
  14. 請求項1に記載の方法であって、更に、
    クエリをなした後に前記複数のウェブページを取得することと、
    前記複数のウェブページのそれぞれについて複数の第2の評価値を決定することと、
    前記複数の第2の評価値に少なくとも基づいて前記複数のウェブページをランク付けすることと、
    を備える方法。
  15. 請求項1に記載のシステムであって、更に、
    前記特定されたウェブページの複製回数を表示することを備える方法。
  16. システムであって、
    1つ又は2つ以上のプロセッサであって、
    同一又はほぼ同一コンテンツを持つ複数のウェブページを取得するように、
    前記複数のウェブページのそれぞれに対応する複数の作成時間及び複数の第1の評価値を決定するように、
    前記複数のウェブページのなかから最も早い作成時間を有するウェブページを特定するように、
    前記複数の第1の評価値にしたがって、前記特定されたウェブページの第2の評価値を決定するように、
    構成された1つ又は2つ以上のプロセッサと、
    前記1つ又は2つ以上のプロセッサに結合され、前記1つ又は2つ以上のプロセッサに命令を提供するように構成された1つ又は2つ以上のメモリと、
    を備えるシステム。
  17. ウェブページ検索のクエリ結果をランク付けするための方法であって、
    同一又はほぼ同一コンテンツを持つ複数のウェブページを取得することと、
    前記複数のウェブページのそれぞれに対応する複数の作成時間を決定することと、
    前記複数のウェブページのそれぞれに対応する前記複数の作成時間の順に少なくとも部分的に基づいて、前記複数のウェブページをランク付けすることと、
    を備える方法。
  18. 検索エンジンサーバシステムであって、
    1つ又は2つ以上のプロセッサであって、
    同一又はほぼ同一コンテンツを持つ複数のウェブページを取得するように、
    前記複数のウェブページのそれぞれに対応する複数の作成時間を決定するように、
    前記複数のウェブページのそれぞれに対応する前記複数の作成時間の順に少なくとも基づいて、前記複数のウェブページをランク付けするように
    構成された1つ又は2つ以上のプロセッサと、
    前記1つ又は2つ以上のプロセッサに結合され、前記1つ又は2つ以上のプロセッサに命令を提供するように構成された1つ又は2つ以上のメモリと、
    を備える検索エンジンサーバシステム。
JP2011552939A 2009-03-04 2010-03-02 ウェブページの評価 Expired - Fee Related JP5329680B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
CN200910118150.1 2009-03-04
CN2009101181501A CN101499098B (zh) 2009-03-04 2009-03-04 一种网页评估值的确定及运用的方法、系统
US12/660,606 US8364667B2 (en) 2009-03-04 2010-03-01 Evaluation of web pages
US12/660,606 2010-03-01
PCT/US2010/000648 WO2010101634A1 (en) 2009-03-04 2010-03-02 Evaluation of web pages

Publications (3)

Publication Number Publication Date
JP2012519901A true JP2012519901A (ja) 2012-08-30
JP2012519901A5 JP2012519901A5 (ja) 2013-05-02
JP5329680B2 JP5329680B2 (ja) 2013-10-30

Family

ID=40946170

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011552939A Expired - Fee Related JP5329680B2 (ja) 2009-03-04 2010-03-02 ウェブページの評価

Country Status (6)

Country Link
US (3) US8364667B2 (ja)
EP (1) EP2404267A4 (ja)
JP (1) JP5329680B2 (ja)
CN (1) CN101499098B (ja)
HK (1) HK1132819A1 (ja)
WO (1) WO2010101634A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11275810B2 (en) 2018-03-23 2022-03-15 Baidu Online Network Technology (Beijing) Co., Ltd. Artificial intelligence-based triple checking method and apparatus, device and storage medium

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499098B (zh) * 2009-03-04 2012-07-11 阿里巴巴集团控股有限公司 一种网页评估值的确定及运用的方法、系统
US8645457B2 (en) * 2009-10-05 2014-02-04 Tynt Multimedia Inc. System and method for network object creation and improved search result reporting
WO2011143766A1 (en) * 2010-05-21 2011-11-24 Timothy Szeto System and method for generating subnets and using such subnets for controlling access to web content
CN102314435A (zh) * 2010-06-30 2012-01-11 腾讯科技(深圳)有限公司 搜索网页内容的方法及系统
CN101969445B (zh) * 2010-11-03 2014-12-17 中国电信股份有限公司 防御DDoS和CC攻击的方法和装置
CN102231165B (zh) * 2011-07-11 2013-01-09 浙江大学 一种基于用户停留时间分析的个性化网页搜索排序方法
US9558274B2 (en) * 2011-11-02 2017-01-31 Microsoft Technology Licensing, Llc Routing query results
US9189563B2 (en) 2011-11-02 2015-11-17 Microsoft Technology Licensing, Llc Inheritance of rules across hierarchical levels
US8909628B1 (en) * 2012-01-24 2014-12-09 Google Inc. Detecting content scraping
US20140082183A1 (en) * 2012-09-14 2014-03-20 Salesforce.Com, Inc. Detection and handling of aggregated online content using characterizing signatures of content items
US9298814B2 (en) 2013-03-15 2016-03-29 Maritz Holdings Inc. Systems and methods for classifying electronic documents
US11928606B2 (en) 2013-03-15 2024-03-12 TSG Technologies, LLC Systems and methods for classifying electronic documents
US11386181B2 (en) * 2013-03-15 2022-07-12 Webroot, Inc. Detecting a change to the content of information displayed to a user of a website
CN103177106A (zh) * 2013-03-27 2013-06-26 百度在线网络技术(北京)有限公司 检索方法及设备
US9411786B2 (en) * 2013-07-08 2016-08-09 Adobe Systems Incorporated Method and apparatus for determining the relevancy of hyperlinks
CN103399957A (zh) * 2013-08-21 2013-11-20 百度在线网络技术(北京)有限公司 搜索方法、系统、搜索引擎和客户端
CN104571935A (zh) * 2013-10-18 2015-04-29 宇宙互联有限公司 全局调度系统及方法
CN104572340A (zh) * 2013-10-18 2015-04-29 宇宙互联有限公司 增量备份系统及方法
CN103605704B (zh) * 2013-11-08 2017-02-01 深圳大学 大量url数据任意字段索引及检索方法
CN103902687B (zh) * 2014-03-25 2017-07-04 百度在线网络技术(北京)有限公司 一种搜索结果的生成方法及装置
CN104090976B (zh) * 2014-07-21 2017-06-23 北京奇虎科技有限公司 搜索引擎爬虫抓取网页的方法及装置
CN105630802A (zh) * 2014-10-30 2016-06-01 阿里巴巴集团控股有限公司 网页去重方法及装置
CN105447081A (zh) * 2015-11-04 2016-03-30 国云科技股份有限公司 面向云平台的一种政务舆情监控方法
CN106776609B (zh) * 2015-11-19 2020-05-22 北京国双科技有限公司 网站转载数量的统计方法及装置
US10235426B2 (en) * 2016-06-29 2019-03-19 International Business Machines Corporation Proposing a copy area in a document
CN107168997B (zh) * 2017-03-30 2021-07-20 百度在线网络技术(北京)有限公司 基于人工智能的网页原创评估方法、装置及存储介质
CN107357891A (zh) * 2017-07-12 2017-11-17 中云开源数据技术(上海)有限公司 一种主页链接推荐方法
CN113763167B (zh) * 2021-08-11 2023-11-17 杭州盈火网络科技有限公司 一种基于复杂网络的黑名单挖掘方法
CN116450634B (zh) * 2023-06-15 2023-09-29 中新宽维传媒科技有限公司 一种数据源权重评估方法及其相关装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003501729A (ja) * 1999-05-28 2003-01-14 オーバーチュア サービシズ インコーポレイテッド コンピュータ・ネットワーク・サーチエンジンにより生成されたサーチ結果リスト上の位置に影響を与えるための方法及びシステム
US6658423B1 (en) * 2001-01-24 2003-12-02 Google, Inc. Detecting duplicate and near-duplicate files
US20070067304A1 (en) * 2005-09-21 2007-03-22 Stephen Ives Search using changes in prevalence of content items on the web
JP2007507798A (ja) * 2003-09-30 2007-03-29 グーグル・インク ドキュメントをスコア付けするための方法、ドキュメントをランク付けするための方法及びドキュメントをスコア付けするためのシステム
JP2010086531A (ja) * 2008-10-02 2010-04-15 Nhn Corp ウェブ文書原本判別方法およびウェブ文書原本判別システム、並びにウェブ文書履歴情報提供方法およびウェブ文書履歴情報提供方法システム
JP2010524141A (ja) * 2007-04-12 2010-07-15 マイクロソフト コーポレーション 履歴重要度のファクタリングによるドキュメントの重要度の計算

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5544352A (en) 1993-06-14 1996-08-06 Libertech, Inc. Method and apparatus for indexing, searching and displaying data
US5933827A (en) 1996-09-25 1999-08-03 International Business Machines Corporation System for identifying new web pages of interest to a user
US6144962A (en) 1996-10-15 2000-11-07 Mercury Interactive Corporation Visualization of web sites and hierarchical data structures
US6012087A (en) 1997-01-14 2000-01-04 Netmind Technologies, Inc. Unique-change detection of dynamic web pages using history tables of signatures
US6421675B1 (en) 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
US7308413B1 (en) * 1999-05-05 2007-12-11 Tota Michael J Process for creating media content based upon submissions received on an electronic multi-media exchange
US6832222B1 (en) 1999-06-24 2004-12-14 International Business Machines Corporation Technique for ensuring authorized access to the content of dynamic web pages stored in a system cache
US6675170B1 (en) 1999-08-11 2004-01-06 Nec Laboratories America, Inc. Method to efficiently partition large hyperlinked databases by hyperlink structure
US6643641B1 (en) 2000-04-27 2003-11-04 Russell Snyder Web search engine with graphic snapshots
US6785666B1 (en) 2000-07-11 2004-08-31 Revenue Science, Inc. Method and system for parsing navigation information
US6757675B2 (en) * 2000-07-24 2004-06-29 The Regents Of The University Of California Method and apparatus for indexing document content and content comparison with World Wide Web search service
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
US7904725B2 (en) * 2006-03-02 2011-03-08 Microsoft Corporation Verification of electronic signatures
WO2007137232A2 (en) * 2006-05-20 2007-11-29 Personics Holdings Inc. Method of modifying audio content
US7660804B2 (en) 2006-08-16 2010-02-09 Microsoft Corporation Joint optimization of wrapper generation and template detection
CN101154224B (zh) * 2006-09-30 2012-06-27 阿里巴巴集团控股有限公司 一种网址导航方法及系统
US9654495B2 (en) * 2006-12-01 2017-05-16 Websense, Llc System and method of analyzing web addresses
US20080288509A1 (en) * 2007-05-16 2008-11-20 Google Inc. Duplicate content search
US10698886B2 (en) * 2007-08-14 2020-06-30 John Nicholas And Kristin Gross Trust U/A/D Temporal based online search and advertising
US20090327278A1 (en) * 2008-06-26 2009-12-31 Baran-Sneh Alex System and method for ranking web content
US8695091B2 (en) * 2009-02-11 2014-04-08 Sophos Limited Systems and methods for enforcing policies for proxy website detection using advertising account ID
CN101499098B (zh) * 2009-03-04 2012-07-11 阿里巴巴集团控股有限公司 一种网页评估值的确定及运用的方法、系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003501729A (ja) * 1999-05-28 2003-01-14 オーバーチュア サービシズ インコーポレイテッド コンピュータ・ネットワーク・サーチエンジンにより生成されたサーチ結果リスト上の位置に影響を与えるための方法及びシステム
US6658423B1 (en) * 2001-01-24 2003-12-02 Google, Inc. Detecting duplicate and near-duplicate files
JP2007507798A (ja) * 2003-09-30 2007-03-29 グーグル・インク ドキュメントをスコア付けするための方法、ドキュメントをランク付けするための方法及びドキュメントをスコア付けするためのシステム
US20070067304A1 (en) * 2005-09-21 2007-03-22 Stephen Ives Search using changes in prevalence of content items on the web
JP2010524141A (ja) * 2007-04-12 2010-07-15 マイクロソフト コーポレーション 履歴重要度のファクタリングによるドキュメントの重要度の計算
JP2010086531A (ja) * 2008-10-02 2010-04-15 Nhn Corp ウェブ文書原本判別方法およびウェブ文書原本判別システム、並びにウェブ文書履歴情報提供方法およびウェブ文書履歴情報提供方法システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6013016666; Sergio Nunes: 'Exploring Temporal Evidence in Web Information Retrieval' BCS IRSG Symposium: Future Directions in Information Access 2007 [online] , 20070829, p.1-6 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11275810B2 (en) 2018-03-23 2022-03-15 Baidu Online Network Technology (Beijing) Co., Ltd. Artificial intelligence-based triple checking method and apparatus, device and storage medium

Also Published As

Publication number Publication date
CN101499098A (zh) 2009-08-05
US8364667B2 (en) 2013-01-29
EP2404267A1 (en) 2012-01-11
WO2010101634A1 (en) 2010-09-10
US20130144873A1 (en) 2013-06-06
US20150006506A1 (en) 2015-01-01
CN101499098B (zh) 2012-07-11
EP2404267A4 (en) 2012-12-05
JP5329680B2 (ja) 2013-10-30
US20100228718A1 (en) 2010-09-09
US8788489B2 (en) 2014-07-22
US9223880B2 (en) 2015-12-29
HK1132819A1 (en) 2010-03-05

Similar Documents

Publication Publication Date Title
JP5329680B2 (ja) ウェブページの評価
US9448999B2 (en) Method and device to detect similar documents
US8903800B2 (en) System and method for indexing food providers and use of the index in search engines
US7406466B2 (en) Reputation based search
US10025855B2 (en) Federated community search
KR101016683B1 (ko) 검색 결과를 제공하기 위한 시스템 및 방법
US10169449B2 (en) Method, apparatus, and server for acquiring recommended topic
US20060184512A1 (en) Content searching and configuration of search results
US20080065602A1 (en) Selecting advertisements for search results
US20110231386A1 (en) Indexing and searching employing virtual documents
CN107463592B (zh) 用于将内容项目与图像匹配的方法、设备和数据处理系统
WO2014059848A1 (zh) 一种网页搜索设备和方法
US8924380B1 (en) Changing a rank of a document by applying a rank transition function
US20170132294A1 (en) App store searching
KR102091225B1 (ko) 자동화된 정보 검색
JP5613536B2 (ja) 利用者の要求に応じて動的にもっとも適したイメージを抽出して提供するための方法、システム及びコンピューター判読可能な記録媒体
CN103902687A (zh) 一种搜索结果的生成方法及装置
JP5589009B2 (ja) 推薦クエリ抽出装置及び方法及びプログラム
JP2011022624A (ja) ウェブページ検索システム、ウェブページ検索方法、ウェブページ検索サーバ及びウェブページ検索プログラム
US9646094B2 (en) System and method for performing a multiple pass search
US20130091166A1 (en) Method and apparatus for indexing information using an extended lexicon
CN103607322A (zh) 网站流量数据分析方法及装置
CN106156249B (zh) 一种确定页面推荐词的方法和设备
TWI497322B (zh) The method of determining and using the method of web page evaluation
JP5670867B2 (ja) クエリの場所推定方法及び装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130314

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20130314

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20130328

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130409

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130515

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130724

R150 Certificate of patent or registration of utility model

Ref document number: 5329680

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees