JP2012069171A - 階層を考慮したウェブページのランク付け - Google Patents

階層を考慮したウェブページのランク付け Download PDF

Info

Publication number
JP2012069171A
JP2012069171A JP2012005340A JP2012005340A JP2012069171A JP 2012069171 A JP2012069171 A JP 2012069171A JP 2012005340 A JP2012005340 A JP 2012005340A JP 2012005340 A JP2012005340 A JP 2012005340A JP 2012069171 A JP2012069171 A JP 2012069171A
Authority
JP
Japan
Prior art keywords
page
host
value
importance
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012005340A
Other languages
English (en)
Other versions
JP5670363B2 (ja
Inventor
Benyu Zhang
チャン ベンユー
Guirong Xue
シュエ ギーロン
Jun Zeng Hur
ゼン ファー−ジュン
Wei-Ying Ma
マ ウェイ−イン
Zheng Chen
チェン チョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2012069171A publication Critical patent/JP2012069171A/ja
Application granted granted Critical
Publication of JP5670363B2 publication Critical patent/JP5670363B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】階層を考慮してウェブページをランク付けすることを対象とするシステム、方法、およびデータ構造を提供する。
【解決手段】ワールドワイドウェブの階層構造およびリンク関係を用いて、ウェブ検索のためのページ重要性ランキングを提供する。リンク関係は、階層構造のそれぞれにおけるハイレベルのノードに集約される。リンクグラフ分析を集約されたリンク関係に関して実行して、各ノードの重要性を判定する。各ノードの重要性は、そのノードに関連付けられたページに伝搬することができる。各ページにつき、そのページの重要性と、そのページに関連付けられたノードの重要性とを用いて、ページ重要性ランキングを計算する。
【選択図】図1

Description

本発明は、階層を考慮したウェブページのランク付けに関する。
ワールドワイドウェブでは、情報およびリソースは通常、ウェブページとして編成される。ウェブ上の所望の情報およびリソースを突き止めるためには、ユーザは通常、検索エンジンを用いて関連のあるウェブページを検索する。通常、検索エンジンは、ウェブ上のページに関するコンテンツベースの情報が入ったデータベースを検索する。このコンテンツベースの情報は普通、系統立った形でウェブを定期的にブラウズするウェブクローラ(Web crawler)によって収集される。検索エンジンは、ある検索タームを有するクエリを受け取ると、ウェブ情報データベースを検索し、検索タームに対してコンテンツベースの類似性を有するウェブページを探す。次いで検索エンジンは、これらのウェブページのアドレスをユーザに返す。
ウェブが発達し続けるにつれて、ユーザがウェブ上のページを正確に突き止めるのがますます困難になる。例えば、クエリの結果として法外に数多くのウェブページが得られ、これらページの多くがそのクエリに関連のないものであることがある。既存の検索エンジンの中には、検索によって返されたウェブページの重要性に基づく順序で検索結果をユーザに提示することによって、この問題を緩和しようとするものがある。これらの既存の検索エンジンによって使用されるデータベースでは、各ウェブページは、データベース中の他のすべてのウェブページ中でそのウェブページを指しているハイパーリンクに従って、ランク付けされている。言い換えれば、あるウェブページを指すハイパーリンクは、そのページに対する一票として働く。各ウェブページは、そのページが受け取った票数に従ってランク付けされる。
ランク付けされたウェブページを返す検索エンジンは、よりよいユーザ体験を生み出すものの、これらの検索エンジンはいくつかの重大な欠点も有している。例えば、ウェブ上のほとんどのウェブページには、そのページを指すハイパーリンクがごくわずかしかないか、またはまったくないので、ハイパーリンクに基づいてウェブページをランク付けすると、偏向した非現実的な重要性の配分を生じる。また、新しいハイパーリンクはウェブページ中に編成しなければならないが、これには多くの時間が必要なので、新しいページには、それらの重要性を反映したランク付けがなされない場合がある。
したがって、現実的な形でウェブページの重要性を配分することができ、ウェブ上の新しいページをより正確に計上することができる、検索エンジンが必要とされている。
記載のシステム、方法、およびデータ構造は、階層を考慮してウェブページをランク付けすることを対象とする。ワールドワイドウェブの階層構造およびリンク関係を使用して、ウェブ検索のためのページ重要性ランキングを提供する。リンク関係は、階層構造のそれぞれにおけるハイレベルのノードに集約される。集約されたリンク関係に関してリンクグラフ分析を実行して、各ノードの重要性を判定する。各ノードの重要性は、そのノードに関連付けられたページに伝搬することができる。各ページにつき、そのページの重要性と、そのページに関連付けられたノードの重要性とを使用して、ページ重要性ランキングを計算する。
本発明についての前述の態様および付随する利点の多くは、添付の図面と共に以下の詳細な説明を参照することによってよりよく理解されるので、より容易に認識されるようになるであろう。
階層を考慮してウェブページをランク付けするための例示的な階層ランク付けシステムを示す図である。 2つの異なるホストに関連付けられたウェブページを表す例示的なウェブグラフを示す図である。 図2に示したウェブグラフから導出される例示的なホストグラフを示す図である。 ホストと、このホストに関連付けられたウェブページとを表す例示的な階層構造を示す図である。 ウェブページの重要性値を判定するのに使用することができる例示的なプロセスを示す図である。 ホストの重み値を判定するための例示的なプロセスを示す図である。 ウェブページに関連付けられた重み値を判定するための例示的なプロセスを示す図である。 クエリに応答するための例示的なプロセスを示す図である。 記載のシステムおよび方法を実施するための例示的なコンピュータデバイスを示す図である。
図1に、階層を考慮してウェブページをランク付けするための例示的な階層ランク付けシステム100を示す。最も基本的な構成では、システム100は、ウェブクローラ105およびランク付けモジュール110を含むことができる。図1に示すように、システム100は、検索エンジン130にデータを提供するように構成することができ、検索エンジン130は、システム100によって提供されたデータを使用してクエリに応答するように構成することができる。
ワールドワイドウェブ(ウェブ)150は、HTML(Hyper−Text Markup Language)などの共通規格でフォーマットされたドキュメントをサポートするインターネットサーバのシステムである。これらのフォーマットされたドキュメントは、ウェブページとも呼ばれ、ハイパーテキスト、画像、オーディオまたはビデオデータ、グラフィックスなど、任意のタイプのコンテンツを含むことができる。ウェブページは通常、他のウェブページへのリンク(すなわちハイパーリンク)を含む。
ウェブクローラ105は、ウェブを検索してウェブ150上のページに関するデータを収集するように構成された論理コンポーネントである。ウェブクローラ105は、任意のタイプの技法を使用して、ウェブページに関する任意の情報を見つけ、収集することができる。例えば、ウェブクローラ105は、ウェブページ中のリンクを辿って他のウェブページを発見することができ、これら他のウェブページ中のリンクを辿ってより多くのウェブページを見つけることができる。ウェブクローラ105は、継続的にこの検索方法を実行して、ウェブページデータ115など、ウェブ上のページに関する情報のデータベースを構築することができる。
ウェブページデータ115は、ウェブ上のページに関連付けられた任意のタイプのデータを含むことができる。例えば、ウェブページのデータは、キーワード、メタデータ、コンテンツのサマリなどを含むことができる。ウェブページデータ115はまた、ウェブページに関連付けられた構造データ120を含むこともできる。構造データ120は、ウェブページがウェブ上でどのように編成されているかに関する情報を含む。例えば、構造データ120は、各ウェブページのレベルを階層構造で含むことができる。レベルは、URL(Uniform Resource Locator)やファイルのパスなど、ウェブページに関連付けられたロケータから判定することができる。URLで表される典型的な階層構造を以下の表1に示す。
Figure 2012069171
表1は、URL「cs.zyxuniversity.edu/research/index.html」に関連付けられたウェブページの例示的な階層構造を示す。この例では、このURLに関連付けられたウェブページがZYX Universityドメイン中のページであり、このページは調査部門ウェブサイトのインデックスである。ウェブページの階層構造は、任意の形で確立することができる。一実施形態では、ウェブ階層構造のトップレベルはホストから確立され、ホストは、ウェブページの集まりを関連付けているエンティティとして定義することができる。例えばホストは、会社や政府やその他のエンティティによって提供される公共のウェブサイトなど、専用のウェブサイトであってもよい。ホストはまた、サービスプロバイダのドメイン中の個人ウェブサイトなど、コミュニティウェブサイトの一部であってもよい。この実施形態では、ウェブページに関連付けられたURLの構造を使用して、このページのレベルを階層構造で確立することができる。
ランク付けモジュール110は、ウェブページをランク付けするように構成された論理コンポーネントである。ランク付けモジュール110は通常、ウェブページデータ115や構造データ120など、ページに関連付けられるコンテンツおよび構造に関するデータに基づいてウェブページをランク付けする。ランク付けモジュール110は、各ウェブページ内のリンクを判定するように構成することができる。リンクは、別のウェブページにリンクする、ウェブページ中の要素である。ランク付けモジュール110は、ウェブページデータ115中のウェブページのリンクを、あるレベルで集約するように構成することができる。一実施形態では、リンクはホストレベルで集約される。ランク付けモジュール110はまた、集約されたリンクに基づいて各ホストの重み値を計算するように構成することもできる。ランク付けモジュール110はさらに、各ウェブページに対応するホストの重み値と、ホストの階層構造内の各ウェブページの特性とに基づいて、各ウェブページの重要性値を計算するように構成することができる。各ウェブページの重要性値は、階層型ランク付けデータ125などのデータストア中に集めることができる。
検索エンジン130は、ウェブ上のページを突き止めるように構成された論理コンポーネントである。検索エンジン130は、所望のウェブページ中のあるコンテンツを表す検索パラメータを含むクエリ140を受け取るように構成することができる。例えば、検索パラメータは、キーワード、画像、メディアデータなどを含むことができる。検索エンジン130はまた、ウェブページデータ115を検索して、そのクエリに関連のあるウェブページを判定するように構成することができる。検索エンジン130は、判定されたウェブページのそれぞれに関連性値を割り当てて、そのクエリに対する関連性を反映することができる。検索エンジン130はまた、これらの判定されたウェブページの重要性値を階層型ランク付けデータ125から判定することもできる。次いで検索エンジン130は、関連性値および重要性値に基づいて、判定されたウェブページをランク付けすることができる。次いで、ランク付けされた結果145がクエリ140に応答して提供される。ランク付けされた結果145は、検索によって返されたウェブページのリンクをそれらのランキングに従って順序付けたリストなど、任意のフォーマットとすることができる。
図2に、2つの異なるホストに関連付けられたウェブページを表す例示的なウェブグラフ200を示す。ここに記載した階層ランク付けシステムおよび方法は、細分性の異なるレベルでリソースをランク付けすることができる。例えば、細分性のあるレベルでは、ウェブは、相互に多かれ少なかれ独立して成長するホストの集まりと見なすことができる。考察を簡単にするために、図2には、ホスト205(H)、ホスト210(H)、ウェブページP1〜P11だけが示してある。しかし、ウェブ全体をウェブグラフ200などのウェブグラフによって表すこともできることを理解されたい。ウェブグラフ200は、図1に示したウェブクローラ105によって使用されるような任意の学習アルゴリズムによって検出することができる。
図2に示すように、ウェブページP1〜P6はホストHに関連付けられ、ウェブページP7〜P11はホストHに関連付けられる。各ウェブページは、リンクによって他のウェブページに関連付けることができる。ウェブページP4などウェブページのいくつかは、そのホスト(すなわちホストH)内の他のウェブページだけにリンクされている。これらのリンクを本明細書ではイントラリンクと呼ぶ。ウェブページのいくつかは、そのホスト内にないウェブページにリンクされている。例えば、ホストHに関連付けられたP5が、ホストHに関連付けられたP10にリンクされている。2つの異なるホストのウェブページ間のリンクを、本明細書ではインターリンクと呼ぶ。
図3に、図2に示したウェブグラフ200から導出される例示的なホストグラフ300を示す。ホストグラフ300は、ホスト間のリンク関係を表す。記載のシステムおよび方法によれば、ウェブグラフ中に示されたインターリンクをホストレベルで集約することができる。例えば、ウェブグラフ200はホストHとホストHに区分することができ、したがってインターリンクのすべては2つのホストにそれぞれ集約される。各ホスト内のリンクは考慮しなくてよい。重み値wijおよびwjiは、ホストHおよびホストHに関連付けられたウェブページ中の集約されたインターリンクの数を表す。図3に示すように、重み値wijは、ホストHを指すホストHのウェブページ中の集約リンクを表し、重み値wjiは、ホストHを指すホストHのウェブページ中の集約リンクを表す。したがって、ホストグラフ300などのホストグラフは一般に以下のように表すことができる。
G’=(V’,E’) (1)
ここで、G’は重み付き有向グラフであり、V’はホストを表し、E’はホスト間のリンクを包含する。各リンクlij∈E’は、ホストHに対するホストHの重みを記す重み値wijに関連付けることができ、この重みはホスト間のリンクに従って計算される。
ウェブグラフ中のリンクをホストレベルで集約することによって、結果として得られるホストグラフのリンク密度はずっと高くなることを理解されたい。ある情報ソースによれば、ホストごとのリンクの密度はあるホストグラフで約136であり、ページごとのリンク密度はあるウェブグラフで約7.18である。通常、リンク密度が高いほど、よりよいランク付け結果が生み出される。
ホストグラフを得た後、リンク分析アルゴリズムを適用して、ホストの重要性を計算することができる。ホストグラフを記述するために行列を構築することができる。例えば、ホストグラフがm個のホストを含むとすると、m×mの次元の隣接行列Aを使用して、ホストグラフを表すことができる。エントリA[i,j]のそれぞれは、リンクlijの重みを表すことができる。この隣接行列を使用して、各ホストのランクスコアを計算することができる。1つの形態では、ホストHのランクスコアHIは、ホストHを指すホストのすべてのランクスコアの関数によって評価することができる。
Figure 2012069171
この再帰的定義は、各ホストに、そのホストを指す他の各ホストのリンク値の一部分を与えることがある。例えば、リンク値は、そのホストのリンクの強さによって逆に重み付けすることができる。上で論じた式2は、以下のような行列の形態で書くことができる。
Figure 2012069171
しかし実際には、多くのホストがインターリンクを有さないことがある(例えばホストの重みが0)。上式の固有ベクトルは、大抵は0となるかもしれない。そのため、基本モデルを修正して、ランダムウォークを用いて「実際のモデル」を得る。例えば、ホストをブラウズすると、確率1−εで、ユーザは、現在のホスト上のリンクの1つをランダムに選択し、現在のホストがリンクされている別のホストにジャンプする。また、確率εで、ユーザは、現在のホスト中のどのリンクにも関連付けられていないランダムに選択された別のホストにジャンプすることによって、「リセット」することがある。ランク付けの公式は以下の形態に修正することができる。
Figure 2012069171
または、行列の形態では以下のようになる。
Figure 2012069171
ここで、
Figure 2012069171
はすべて1のベクトルであり、ε(0<ε<1)は、所与のホストから任意のホストへのジャンプがランダムに発生するランダムウォークの確率を表している。一実施形態では、よい結果を生むためにεは0.15に設定することができる。
ホストの重要性を判定した後、ホストに関連付けられたウェブページの重要性をホストの評判および階層構造に従って、計算することができる。一実施形態では、ウェブページには、そのウェブページが属するホストの重要性が割り当てられる。ウェブページのURLに関連付けられたパスの深さ、ウェブページがインデックスページなのかコンテンツページなのか、ウェブページに関連付けられたインターリンクの数などその他の要因を考慮することもできる。どの要因を適用するかを決める際、以下の事項を考慮することができる。
1)ある評判のためにホストを高くランク付けすべきである場合、このホスト中のウェブページは、ある程度までホストの評判の恩恵を受けることができる。いくつかの観察は、多くのトップランクのウェブページはトップランクのホストに関連付けられることを示している。
2)ホスト中のウェブページがホスト外のウェブページによってリンクされている場合、このようなインターリンクの数をウェブページの重要性に反映させることができる。
3)ホスト中のウェブページのレベルをウェブページの重要性によって反映することができる。通常、ユーザにホスト中の重要なコンテンツを効率的に見つさせるために、作成者は一般に、このような重要なコンテンツを長いパスのウェブページに置くことはしない。
4)ウェブページがインデックスページである場合、その有用性を反映させるために、ウェブページにより高い重要性を与えることができる。
上記の考察に基づいて、いくつかのプロパティを使用してホストの階層構造を重み付き有向木構造として定式化し、木構造上でウェブページの重要性を分析することができる。一般に、ホストは親ノードと見なすことができ、ウェブページは子ノードと見なすことができる。関数を使用して、親ノードからその子ノードへの重みを表すことができる。
図4に、ホストと、このホストに関連付けられるウェブページとを表す例示的な階層構造400を示す。この例では、階層構造400は、図2に示したホストHに関連付けられる。ウェブページP7〜P11はホストHに関連付けられる。図4に示すように、ウェブページP7〜P11は、重み値w〜w11、インターリンク値LI〜LI11、イントラリンク値LI〜LI11に関連付けられる。具体的には、インターリンク値LIは、このホストの外にある他のウェブページにあるリンクであって、ウェブページpを指すリンクの数を表す。イントラリンク値LAは、このホストの一部である他のウェブページになるリンクであって、ウェブページpを指すリンクの数を表す。
一般に、ホスト中にウェブページpを仮定して、ページpの重みwは以下のように計算することができる。
w(p)=δ×Link(p)×Index(p) (6)
ここで、Linkは、ウェブページpに関連付けられるインターリンクおよびイントラリンクの関数である。Indexは、ウェブページpがインデックスページかどうかの関数である。δは減衰係数である。
Link関数は、ホストの内側または外側の他のウェブページからウェブページpを指すリンクの数に依存する因数を計算するように設計することができる。Link関数は、インターリンクとイントラリンクとを区別するように構成することができる。例えばLink関数は、インターリンクとイントラリンクに、それらの相対的な重要性に従って異なる重みを割り当てることができる。Link関数は以下のように定義することができる。
Figure 2012069171
ここで、ωは、インターリンクとイントラリンクとの間の相対的な重み配分を割り当てる係数である。例えば、式(8)では、大きいωの値により(すなわち1に近い)、インターリンクがイントラリンクよりも大きな相対的なリンク重みを有する結果になる。
関数Indexは、ウェブページがインデックスページかどうかを判定し、以下のように定義することができる。
Figure 2012069171
ここで、φおよびφは、ウェブページがインデックスページかどうかに応じて関数に割り当てることのできる値である。
上記の分析に基づいて、ホストの構造特性を考慮した重み付き有向木構造を得ることができる。各ページpの重要性は、以下のように階層重み付き構造に基づいて決定することができる。
Figure 2012069171
ここで、pは、pからその親ウェブページおよびホストHまでのウェブページである。
式9は、より高いレベルのウェブページからより低いレベルのウェブページへと再帰的に計算することができ、各ウェブページに重要性スコアを割り当てることができる。
全ウェブグラフにおけるウェブページpの全体的な重要性PIは、以下の式で計算することができる。
PI(p)=HI(H)×Imp(p,H) (10)
式10によれば、所与のホストが高い評判を有する場合、このホスト中のウェブページもまた高い評価を有することができる。ウェブページの全体的な重要性に対する、ホストの重要性の影響は、以下の式で調整することができる。
PI(p)=HI(H)×[α+β×Imp(p,H)] (11)
ここで、αおよびβは重み付けパラメータである。
上で論じたウェブページ重要性分析をコンテンツベースの類似性分析と組み合わせて使用して、クエリに応答してウェブページのリストをランク付けすることができる。このプロセスを再ランク付けと呼ぶことができる。任意の技法を使用して、ウェブページ重要性分析とコンテンツベースの分析とを組み合わせることができる。例えば、スコアベースの再ランク付けおよび順序ベースの再ランク付けを用いて、よい結果を生み出すことができる。
スコアベースの再ランク付けは、ウェブページの、コンテンツベースの類似性スコアとウェブページ重要性スコアとの一次結合を使用する。ウェブページpの全体的なスコアは、以下の式で判定することができる。
Score(p)=λSim(p)+(1−λ)PI(p) (λ∈[0,1]) (12)
ここで、Simは、ウェブページpとクエリとの間のコンテンツベースの類似性である。λは、ウェブページ重要性とコンテンツベースの類似性との間の相対的な配分を割り当てる係数である。SimおよびPIは値によって表すことができる。スコアするメトリックスが異なるため、式12の一次結合を使用して全体的なスコアを計算する前に、SimおよびPIの値を同じ範囲に正規化することができる。
順序ベースの再ランク付けは、ウェブページのランク順序に基づいて決定することができる。2つのリストにおけるウェブページの位置の一次結合であって、一方のリストはコンテンツベースの類似性スコアによってソートされ、他方のリストはウェブページ重要性スコアによってソートされる。順序ベースの再ランク付けは、以下の式によって実施することができる。
Score(w)=λOSim(pi)+(1−λ)OPI(pi) (λ∈[0,1])
(13)
ここで、OSimおよびOPIはそれぞれ、類似性スコアリストおよび重要性スコアリストにおけるウェブページpの位置(または順序)である。
上記で論じた技法は、本明細書ではウェブページをランク付けするコンテキストで論じていることを理解されたい。しかし、この方法は、階層構造に編成されている任意のタイプのデータをランク付けするのに適用することができる。例えば、ノードを相互接続することによって表すことのできるシステムであって、各ノードが階層構造中のあるレベルに関連付けられたどんなシステムも、この論じた技法を用いてランク付けすることができる。
図5に、ウェブページの重要性値を判定するのに使用することのできる例示的なプロセス500を示す。プロセス500は、図1に示したランク付けモジュール110など、ウェブ検索システムのモジュールによって使用することができる。考察のために、プロセス500をウェブページおよびホストのコンテキストで論じる。しかし、プロセス500は、階層構造として編成された任意のシステム中のノードに適用することができる。
ブロック505で、ウェブ上のページに関するデータを識別する。データは、ウェブ上のページを検出するウェブクローラによって収集することができる。データは、ランク付けモジュールによる使用のためにデータベースに格納することができる。データは、キーワードやメタデータなど、コンテンツベースのデータを含むことができる。データはまた、ウェブページのURLなど、構造化データを含むこともできる。
ブロック510で、ウェブページは、それらに対応するホストに従ってグループ化される。通常、各ウェブページはあるホストに関連付けられ、このホストはウェブページのURLから判定することができる。ブロック515で、ホスト間のリンク関係に基づいて各ホストの重み値を判定する。ホストの重み値を判定するための例示的なプロセスについては、図6と共に論じる。簡単に言うと、インターリンク(例えば、ホストに関連付けられたウェブページを指す、ホスト外のウェブページ中のリンク)が収集される。各ホストの収集されたインターリンクを使用して、ホストの重み値を判定する。
ブロック520で、各ホスト内の各ページの重み値を判定する。ウェブページの重み値は、ウェブページのインターリンクおよびイントラリンクに関連付けられた重み値に基づいて判定することができる。ウェブページの重み値はまた、ホストにおけるウェブページのレベル、ウェブページがインデックスページかどうかなど、他の要因に基づくこともできる。ウェブページの重み値を判定するための例示的なプロセスについては、図7と共に論じることになるであろう。
ブロック525で、ホストの重み値およびウェブページの重み値に基づいて、各ウェブページの重要性値を判定する。判定された重み値は検索エンジンによって使用されて、クエリに応答して検索によって返されるウェブページをランク付けすることができる。判定された重み値はまた、ページをランク付けするのに使用することもでき、検索エンジンによって重み値の代わりにページの順序が使用されてもよい。
図6に、ホストの重み値を判定するための例示的なプロセス600を示す。ブロック605で、各ホストに関連付けられたウェブページのインターリンクを識別する。ブロック610で、インターリンクをホストレベルで集約する。ブロック615で、各ホストにつき、このホストと他のホストのそれぞれとの間の集約されたインターリンクの総数を判定する。集約されたインターリンクは、行列またはデータアレイによって表すことができる。ブロック620で、集約されたインターリンクの数に基づいて、各ホストの重み値を計算することができる。ホストの重み値は、集約されたインターリンクを表す行列に関して操作することによって計算することができる。例えばこのような操作は、行列を表すデータアレイに関して反復的に計算することができる。
図7に、ウェブページに関連付けられた重み値を判定するための例示的なプロセス700を示す。ブロック705で、ホストに関連付けられた階層構造内のウェブページを識別する。ブロック710で、ホストにおけるウェブページのレベルに基づいて、レベル値を判定する。ウェブページのレベルは、ウェブページのURLを分析するなど、任意の方法で判定することができる。
ブロック715で、ウェブページに関連付けられたインターリンクおよびイントラリンクの数に基づいて、リンク値を判定する。インターリンクおよびイントラリンクがリンク値に関して有する相対的な影響を調整するために因数を使用してもよい。ブロック720で、ページがインデックスページかどうかに基づいてインデックス値を判定する。インデックスページは通常、リンクとこれらのリンクに関連付けられたウェブページに関する情報の編成されたセットを含む。通常、インデックスは、ウェブサイトをナビゲートするために有用であり、通常、サイト中の他のウェブページよりも重要である。ブロック725で、レベル値、リンク値およびインデックス値に基づいて、ウェブページの重み値を判定する。
図8に、クエリに応答するための例示的なプロセス800を示す。プロセス800は、クエリに関連のあるウェブページへのリンクのリストを返すように検索エンジンによって実施することができる。ブロック805でクエリを受け取る。通常、クエリは、ユーザが見つけようとしているウェブページに関係するタームを含む。
ブロック810で、コンテンツベースの類似性を有するウェブページについてウェブページデータを検索する。ウェブページデータは通常、ウェブクローラによって供給される。ブロック815で、検索によって返された各ウェブページに関連付けられた関連性値を判定する。ブロック820で、返された各ウェブページに関連付けられた重要性値を判定する。重要性値は、ウェブページの階層およびリンク関係に基づいて判定することができる。ウェブページデータ中で参照される各ウェブページの重要性値は、ランク付けモジュールによって判定することができる。
ブロック825で、返されたウェブページは、そのそれぞれの関連性値および重要性値に基づいてランク付けされる。ブロック830で、返されたウェブページへのリンクのランク付けされたリストを、クエリ結果として提供する。
図9に、記載のシステムおよび方法を実施するための例示的なコンピュータデバイス900を示す。最も基本的な構成では、コンピューティングデバイス900は通常、少なくとも1つの中央処理装置(CPU)905と、メモリ910とを含む。
コンピューティングデバイスの正確な構成およびタイプに応じて、メモリ910は揮発性(RAMなど)、不揮発性(ROMやフラッシュメモリなど)、またはこの2つの何らかの組合せとすることができる。さらに、コンピューティングデバイス900は、追加の特徴/機能を有することもできる。例えばコンピューティングデバイス900は、複数のCPUを含んでもよい。記載の方法は、コンピューティングデバイス900中の任意の処理ユニットによって任意の方法で実行することができる。例えば、記載のプロセスは、両方の複数のCPUによって並列に実行することができる。
コンピューティングデバイス900は、追加の記憶装置(リムーバブルおよび/または非リムーバブル)を備えることもでき、限定しないがこれらには、磁気または光学のディスクまたはテープが含まれる。図9では、このような追加の記憶装置を記憶装置915によって示す。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータなどの情報を格納するための任意の方法または技術で実現された、揮発性および不揮発性、リムーバブルおよび非リムーバブルの媒体が含まれる。メモリ910および記憶装置915は、コンピュータ記憶媒体の例にすぎない。コンピュータ記憶媒体には、限定しないがRAM、ROM、EEPROM、フラッシュメモリまたはその他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)またはその他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶デバイスが含まれ、あるいは、所望の情報を記憶するのに使用できコンピューティングデバイス900によってアクセスできるその他の任意の媒体が含まれる。このような任意のコンピュータ記憶媒体をコンピューティングデバイス900の一部とすることができる。
コンピューティングデバイス900はまた、デバイスが他のデバイスと通信できるようにするための通信デバイス940を含むこともできる。通信デバイス940は、通信媒体の一例である。通信媒体は通常、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータを、搬送波やその他のトランスポート機構などの変調データ信号に具現するものであり、任意の情報送達媒体がこれに含まれる。用語「変調データ信号」は、信号中に情報を符号化するようにその特性の1つまたは複数を設定または変更した信号を意味する。限定ではなく例として、通信媒体には、有線ネットワークや直接配線接続などのワイヤ媒体と、音響、RF、赤外線などの無線媒体およびその他のワイヤレス媒体とが含まれる。本明細書で説明したコンピュータ可読媒体という用語は、コンピュータ記憶媒体と通信媒体の両方を含む。記載の方法は、データやコンピュータ実行可能命令など任意の形態で、任意のコンピュータ可読媒体中に符号化することができる。
コンピューティングデバイス900は、キーボード、マウス、ペン、音声入力デバイス、タッチ入力デバイスなどの入力デバイス935を有することもできる。また、表示装置、スピーカ、プリンタなどの出力デバイス930を含むこともできる。これらのデバイスはすべて当技術分野で周知であり、これらについて詳細に述べる必要はない。
本発明の好ましい実施形態について図示し、説明したが、本発明の趣旨および範囲を逸脱することなく様々な変更を加えることができることが理解されるであろう。
100 階層ランク付けシステム
105 ウェブクローラ
110 ランク付けモジュール
115 ウェブページデータ
120 構造データ
125 階層ランク付けデータ
130 検索エンジン
140 クエリ
145 結果
150 ワールドワイドウェブ
200 ウェブグラフ
205 ホスト
210 ホスト
300 ホストグラフ
400 階層構造
900 コンピューティングデバイス
905 中央処理装置(CPU)
910 メモリ
915 記憶装置
930 出力デバイス
935 入力デバイス
940 通信デバイス

Claims (23)

  1. ウェブ上のページのコンテンツを評価する方法であって、
    ウェブ上の複数のページを識別することと、
    複数のノードを識別することであって、各ノードは前記ページの少なくとも1つが対応する階層構造に関連付けられていることと、
    前記複数のページを前記対応するノードにグループ化することと、
    各ノードにつき、そのノードと他のノードとの間のリンク関係に少なくとも部分的に基づいて第1の値を判定することと、
    各ページにつき、そのページの特性に少なくとも部分的に基づいて固有の第2の値を判定することであって、前記そのページの特性は、前記ページが対応する前記対応するノードの階層構造内の前記ページの階層レベルを表すレベル値を含み、前記固有の第2の値は、前記レベル値に基づき各ページにつき一意に判定されることと、
    各ノードにつき、そのノードに対応するページのインターリンクを識別することであって、前記インターリンクは、前記ノードに対応するページを指し、他のノードに対応する他のページに含まれるリンクを表すことと、
    前記識別されたインターリンクを集約することと、
    集約されたインターリンクの総数に少なくとも部分的に基づいて、かつ、前記ノードに対する識別された前記インターリンクとイントラリンクとの間の相対的な重み配分を表す変数として、第3の値を判定することであって、前記相対的な重み配分は、前記ノードに対する前記識別されたインターリンクの重みと、前記イントラリンクの重みとの間の逆相関を表すようになり、前記変数の所定の値は、前記インターリンクが前記イントラリンクよりも大きい相対的なリンク重みを有することを示すことになることと、
    前記第3の値に少なくとも部分的に基づいて前記ノードの前記第1の値を判定することと、
    重要性値を判定し、格納し、そのページに関連付けられた前記固有の第2の値と、そのページが対応する前記ノードに関連付けられた前記第1の値と、評判値とに少なくとも部分的に基づいて各ページにつき出力することであって、前記評判値は、前記ページの全体的な重要性に対するホストの重要性の影響の指標であることと
    を備えることを特徴とする方法。
  2. 前記ノードは、ホスト、ドメイン、インデックスページの少なくとも1つを含むことを特徴とする請求項1に記載の方法。
  3. 前記複数の第3の値を行列として表すことと、
    前記行列に関し操作して、前記ノードの複数の第1の値を計算することと
    をさらに備えることを特徴とする請求項1に記載の方法。
  4. 前記行列はデータアレイによって表され、前記複数の第1の値は前記データアレイから反復的に計算されることを特徴とする請求項3に記載の方法。
  5. 前記ページのレベルは、前記ページに関連付けられたURL(Uniform Resource Locator)によって表されることを特徴とする請求項1に記載の方法。
  6. 前記特性は、前記ページに関連付けられたインターリンクおよびイントラリンクの数をさらに含み、前記イントラリンクは、特定のノードに対応するページを指し、前記特定のノードに対応するページに含まれるリンクを表し、前記インターリンクは、前記ページを指し、他のノードに対応する他のページに含まれるリンクを表すことを特徴とする請求項1に記載の方法。
  7. 前記特性は、前記ページがインデックスページであるかどうかを含むことを特徴とする請求項1に記載の方法。
  8. クエリを受け取ることと、
    前記クエリとの類似性を有するページを検索することと、
    検索によって返された各ページにつき、そのページと前記クエリとの間の類似性に少なくとも部分的に基づいて関連性値を判定することと
    をさらに備えることを特徴とする請求項1に記載の方法。
  9. 返された各ページを、そのページに関連付けられた前記関連性値および前記重要性値に少なくとも部分的に基づいてランク付けすることと、
    前記クエリに応答して、前記返されたページに関連付けられたリンクのリストを提供することであって、前記リンクは前記返されたページがランク付けされた順序に少なくとも部分的に基づいて前記リスト上でランク付けされることと
    をさらに備えることを特徴とする請求項8に記載の方法。
  10. ウェブ上のページに関するデータを収容するデータストアであって、各ページの前記データは、前記ページの特性と、前記ページが対応するホストとを示す、データストアと、
    前記データストア中の前記データから前記ページのそれぞれを指すリンクを判定するように構成されたランク付けモジュールを備えるコンピュータと
    を備えたシステムであって、
    前記ランク付けモジュールはまた、各ホストに関連付けられた前記リンクを集約し、前記集約されたリンクに基づいて前記ホストの重み値を計算するように構成され、前記重み値は、集約されたインターリンクの総数に少なくとも部分的に基づき且つ前記ノードに対する識別された前記インターリンクとイントラリンクとの間の相対的な重み配分を表す変数としての関数であり、前記相対的な重み配分は、前記ノードに対する前記識別されたインターリンクの重みと前記イントラリンクの重みとの間の逆相関を表し、前記変数の所定の値は、前記インターリンクが前記イントラリンクよりも大きい相対的なリンク重みを有することを示すことになり、前記ランク付けモジュールは、各ページの固有の重要性値を、そのページに対応する前記ホストの重み値と、そのページの前記特性とに少なくとも部分的に基づいて計算し格納するようにさらに構成され、各ページの前記固有の重要性値は、前記対応するホストと関連付けられた階層構造内の階層レベルを表すそのページの階層レベル値に少なくとも部分的に基づいて計算され、前記固有の重要性値は、各ページにつき一意に判定され、前記固有の重要性値はまた、前記ページが対応する前記ホストの評判の関数であり、前記重要性値を出力することを特徴とするシステム。
  11. 前記ページの特性は、前記ページを指すリンク、前記ページがインデックスページであるかどうかの少なくとも1つをさらに含むことを特徴とする請求項10に記載のシステム。
  12. 前記ウェブ上の所望のページに対するクエリに応答するように構成された検索エンジンであって、前記クエリは前記所望のページ中のコンテンツを表すパラメータを含み、前記検索エンジンはまた、前記クエリに関連のあるページを返し、前記返されたページのそれぞれに関連性値を割り当てるように構成され、前記検索エンジンは、前記ランク付けモジュールからの、前記返されたページのそれぞれの前記重要性値を識別するようにさらに構成された、検索エンジンをさらに備えたことを特徴とする請求項10に記載のシステム。
  13. 前記検索エンジンは、前記返されたページのそれぞれを、そのページに関連付けられた関連性値および重要性値に少なくとも部分的に基づいてランク付けし、前記返されたページのリンクのリストを返し、前記リンクは、前記返されたページに関連付けられたランク付けに従って前記リンク中で順序付けられるようにさらに構成されたことを特徴とする請求項12に記載のシステム。
  14. 前記ウェブを検索し、前記データストアに含まれる前記ページに関するデータを提供するように構成されたウェブクローラをさらに備えたことを特徴とする請求項10に記載のシステム。
  15. 前記ウェブクローラは、前記ページに関するデータを検索可能データベースとして提供するようにさらに構成されたことを特徴とする請求項14に記載のシステム。
  16. ウェブ上のページに関するデータを収集するための手段と、
    前記ページが対応するホストを判定するための手段と、
    階層ランダムウォーク分析に少なくとも部分的に基づいて各ホストの重要性を判定するための手段と、
    前記ページが対応する前記対応するホストと関連付けられた階層構造内のページの階層レベルを表す階層レベル値を使用する、各ページの重要性を判定するための手段であって、前記各ページの重要性は一意に判定される、各ページの重要性を判定するための手段であって、そのページがインデックスページまたはコンテンツページであるかにに基づいて前記ページの重要性を判定し出力する、各ページの重要性を判定するための手段と、
    各ページを、そのページの重要性と、対応するホストの重要性と、そのページの評判と、そのホストの評判とに少なくとも部分的に基づいてランク付けするための手段であって、前記評判の値は前記ページの全体的な重要性に対するホストの重要性の影響の指標である、ランク付けするための手段と、
    各ページのランキングを格納する手段と、
    各ホストにおける前記ページのリンク関係を集約するための手段と、
    そのページが対応する前記対応するホストの重み値を、集約された前記リンク関係に基づいて計算するための手段であって、前記重み値は集約されたインターリンクの総数に少なくとも部分的に基づき且つ前記ノードに対する識別された前記インターリンクとイントラリンクとの間の相対的な重み配分を表す変数としての関数であり、前記相対的な重み配分は前記ノードに対する前記識別されたインターリンクの重みと前記イントラリンクの重みとの間の逆相関を表し、前記変数の所定の値は前記インターリンクが前記イントラリンクよりも大きい相対的なリンク重みを有することを示すことになる、前記対応するホストの重み値を計算するための手段と、
    各ホストの前記重要性を、そのホストに関連付けられた前記集約されたリンク関係に少なくとも部分的に基づいて判定するための手段と
    を備えたことを特徴とする装置。
  17. ホストの前記重要性を、前記ホストに対応する各ページに伝搬するための手段をさらに備えたことを特徴とする請求項16に記載の装置。
  18. 前記ホストに関連付けられた前記集約されたリンク関係を、前記ホストに関連付けられたページを指すインターリンクに少なくとも部分的に基づいて判定するための手段をさらに備えたことを特徴とする請求項16に記載の装置。
  19. 各ページの前記重要性を、そのページに関連付けられた特性に少なくとも部分的に基づいて判定するための手段をさらに備えたことを特徴とする請求項16に記載の装置。
  20. 各ページの前記特性を、そのページを指すインターリンクおよびイントラリンクに少なくとも部分的に基づいて判定するための手段をさらに備えたことを特徴とする請求項19に記載の装置。
  21. クエリに応答して検索を実行するための手段と、
    前記クエリに関連のあるページを返すための手段と、
    返された各ページを、前記クエリに対する前記ページの関連性に少なくとも部分的に基づいてランク付けする手段と
    をさらに備えたことを特徴とする請求項16に記載の装置。
  22. 返された各ページの前記重要性を判定するための手段と、
    返された各ページを、前記ページの前記重要性に少なくとも部分的に基づいて再ランク付けするための手段と
    をさらに備えたことを特徴とする請求項21に記載の装置。
  23. 前記返されたページに関連付けられたリンクのリストを判定するための手段と、
    前記返されたページの再ランク付け順序に従って前記リンクを前記リスト中で配置するための手段と、
    前記再ランク付けされたリンクのリストを前記クエリの結果として提供するための手段と
    をさらに備えたことを特徴とする請求項22に記載の装置。
JP2012005340A 2004-10-29 2012-01-13 階層を考慮したウェブページのランク付け Expired - Fee Related JP5670363B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/978,232 US7779001B2 (en) 2004-10-29 2004-10-29 Web page ranking with hierarchical considerations
US10/978,232 2004-10-29

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2005316607A Division JP2006127529A (ja) 2004-10-29 2005-10-31 階層を考慮したウェブページのランク付け

Publications (2)

Publication Number Publication Date
JP2012069171A true JP2012069171A (ja) 2012-04-05
JP5670363B2 JP5670363B2 (ja) 2015-02-18

Family

ID=35840453

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2005316607A Pending JP2006127529A (ja) 2004-10-29 2005-10-31 階層を考慮したウェブページのランク付け
JP2012005340A Expired - Fee Related JP5670363B2 (ja) 2004-10-29 2012-01-13 階層を考慮したウェブページのランク付け

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2005316607A Pending JP2006127529A (ja) 2004-10-29 2005-10-31 階層を考慮したウェブページのランク付け

Country Status (3)

Country Link
US (1) US7779001B2 (ja)
EP (1) EP1653380A1 (ja)
JP (2) JP2006127529A (ja)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6560600B1 (en) * 2000-10-25 2003-05-06 Alta Vista Company Method and apparatus for ranking Web page search results
CA2536179A1 (en) * 2003-08-27 2005-03-10 Sox Limited Method of building persistent polyhierarchical classifications based on polyhierarchies of classification criteria
US7774340B2 (en) * 2004-06-30 2010-08-10 Microsoft Corporation Method and system for calculating document importance using document classifications
US20060235842A1 (en) * 2005-04-14 2006-10-19 International Business Machines Corporation Web page ranking for page query across public and private
US7516123B2 (en) * 2005-04-14 2009-04-07 International Business Machines Corporation Page rank for the semantic web query
IL172551A0 (en) * 2005-12-13 2006-04-10 Grois Dan Method for assigning one or more categorized scores to each document over a data network
IL174107A0 (en) * 2006-02-01 2006-08-01 Grois Dan Method and system for advertising by means of a search engine over a data network
US20070198504A1 (en) * 2006-02-23 2007-08-23 Microsoft Corporation Calculating level-based importance of a web page
US7580931B2 (en) 2006-03-13 2009-08-25 Microsoft Corporation Topic distillation via subsite retrieval
US7933890B2 (en) * 2006-03-31 2011-04-26 Google Inc. Propagating useful information among related web pages, such as web pages of a website
US7634476B2 (en) 2006-07-25 2009-12-15 Microsoft Corporation Ranking of web sites by aggregating web page ranks
US7861151B2 (en) 2006-12-05 2010-12-28 Microsoft Corporation Web site structure analysis
JP5194778B2 (ja) * 2006-12-22 2013-05-08 富士通株式会社 セッションベースクエリのためのノードのランク付け
US7844602B2 (en) * 2007-01-19 2010-11-30 Healthline Networks, Inc. Method and system for establishing document relevance
US7877384B2 (en) * 2007-03-01 2011-01-25 Microsoft Corporation Scoring relevance of a document based on image text
US20080228719A1 (en) * 2007-03-13 2008-09-18 Fatdoor, Inc. People and business search result optimization
IL182518A0 (en) * 2007-04-12 2007-09-20 Grois Dan Pay per relevance (ppr) advertising method and system
US7676520B2 (en) * 2007-04-12 2010-03-09 Microsoft Corporation Calculating importance of documents factoring historical importance
US20090070679A1 (en) * 2007-09-12 2009-03-12 Ebay Inc. Method and system for social network analysis
US20090070130A1 (en) * 2007-09-12 2009-03-12 Neelakantan Sundaresan Reputation scoring
US7877385B2 (en) * 2007-09-21 2011-01-25 Microsoft Corporation Information retrieval using query-document pair information
US8122015B2 (en) * 2007-09-21 2012-02-21 Microsoft Corporation Multi-ranker for search
US8538989B1 (en) * 2008-02-08 2013-09-17 Google Inc. Assigning weights to parts of a document
US8244721B2 (en) * 2008-02-13 2012-08-14 Microsoft Corporation Using related users data to enhance web search
US20090313202A1 (en) * 2008-06-13 2009-12-17 Genady Grabarnik Systems and methods for automated search-based problem determination and resolution for complex systems
JP5504595B2 (ja) * 2008-08-05 2014-05-28 株式会社リコー 情報処理装置、情報検索システム、情報処理方法およびプログラム
JP5262434B2 (ja) * 2008-08-26 2013-08-14 株式会社リコー 情報検索システム、情報検索方法、プログラムおよび記録媒体
US8368698B2 (en) * 2008-09-24 2013-02-05 Microsoft Corporation Calculating a webpage importance from a web browsing graph
US8103599B2 (en) * 2008-09-25 2012-01-24 Microsoft Corporation Calculating web page importance based on web behavior model
US8180774B2 (en) * 2008-10-03 2012-05-15 Seomoz, Inc. Web-scale data processing system and method
US8566332B2 (en) * 2009-03-02 2013-10-22 Hewlett-Packard Development Company, L.P. Populating variable content slots on web pages
JP5235730B2 (ja) * 2009-03-10 2013-07-10 日本電信電話株式会社 文書検索装置、文書検索方法および文書検索プログラム
US9098582B1 (en) * 2009-04-10 2015-08-04 Google Inc. Identifying relevant document languages through link context
JP5084796B2 (ja) * 2009-07-24 2012-11-28 ヤフー株式会社 関連性判定装置、関連性判定方法およびプログラム
CA2812422A1 (en) * 2009-09-25 2011-03-31 Shady Shehata System, method and computer program for searching within a sub-domain by linking to other sub-domains
US8456472B2 (en) * 2010-01-08 2013-06-04 International Business Machines Corporation Ranking nodes in a graph
US8560530B2 (en) * 2010-05-17 2013-10-15 Buzzmetrics, Ltd. Methods, apparatus, and articles of manufacture to rank web site influence
US8429110B2 (en) * 2010-06-10 2013-04-23 Microsoft Corporation Pattern tree-based rule learning
US8332379B2 (en) * 2010-06-11 2012-12-11 International Business Machines Corporation System and method for identifying content sensitive authorities from very large scale networks
GB201011062D0 (en) * 2010-07-01 2010-08-18 Univ Antwerpen Method and system for using an information system
US8838624B2 (en) 2010-09-24 2014-09-16 Hitachi Data Systems Corporation System and method for aggregating query results in a fault-tolerant database management system
US9424356B2 (en) 2010-12-09 2016-08-23 Microsoft Technology Licensing, Llc Updating a search index using reported browser history data
US9292607B2 (en) 2010-12-09 2016-03-22 Microsoft Technology Licensing, Llc Using social-network data for identification and ranking of URLs
US20150199357A1 (en) * 2011-04-14 2015-07-16 Google Inc. Selecting primary resources
EP2575053A1 (en) * 2011-09-27 2013-04-03 Alcatel Lucent User-enhanced ranking of information objects
US20140025674A1 (en) * 2012-07-19 2014-01-23 International Business Machines Corporation User-Specific Search Result Re-ranking
US9064230B2 (en) 2013-01-31 2015-06-23 Wal-Mart Stores, Inc. Ranking keywords for product types with manual curation
US20140304261A1 (en) * 2013-04-08 2014-10-09 International Business Machines Corporation Web Page Ranking Method, Apparatus and Program Product
EP2977914A1 (en) * 2014-07-25 2016-01-27 Hewlett-Packard Development Company, L.P. Website framework
US9888007B2 (en) 2016-05-13 2018-02-06 Idm Global, Inc. Systems and methods to authenticate users and/or control access made by users on a computer network using identity services
US10331758B2 (en) * 2016-09-23 2019-06-25 Hvr Technologies Inc. Digital communications platform for webpage overlay
US10187369B2 (en) * 2016-09-30 2019-01-22 Idm Global, Inc. Systems and methods to authenticate users and/or control access made by users on a computer network based on scanning elements for inspection according to changes made in a relation graph
US10965668B2 (en) 2017-04-27 2021-03-30 Acuant, Inc. Systems and methods to authenticate users and/or control access made by users based on enhanced digital identity verification
JP7109764B2 (ja) * 2017-10-15 2022-08-01 データ・サイエンティスト株式会社 評価装置、及び評価方法
US11276022B2 (en) 2017-10-20 2022-03-15 Acuant, Inc. Enhanced system and method for identity evaluation using a global score value
US11146546B2 (en) 2018-01-16 2021-10-12 Acuant, Inc. Identity proofing and portability on blockchain
CN109104307B (zh) * 2018-07-27 2021-06-04 电子科技大学 一种动态数据链网络的关键节点感知方法
CN111552845B (zh) * 2020-04-28 2022-03-25 电子科技大学 一种基于自编码神经网络的航空网络重要节点发现方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004054588A (ja) * 2002-07-19 2004-02-19 Just Syst Corp 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5991756A (en) * 1997-11-03 1999-11-23 Yahoo, Inc. Information retrieval from hierarchical compound documents
US6738678B1 (en) * 1998-01-15 2004-05-18 Krishna Asur Bharat Method for ranking hyperlinked pages using content and connectivity analysis
US6112203A (en) * 1998-04-09 2000-08-29 Altavista Company Method for ranking documents in a hyperlinked environment using connectivity and selective content analysis
US6990628B1 (en) * 1999-06-14 2006-01-24 Yahoo! Inc. Method and apparatus for measuring similarity among electronic documents
US6615209B1 (en) * 2000-02-22 2003-09-02 Google, Inc. Detecting query-specific duplicate documents
US6560600B1 (en) * 2000-10-25 2003-05-06 Alta Vista Company Method and apparatus for ranking Web page search results
US7194454B2 (en) * 2001-03-12 2007-03-20 Lucent Technologies Method for organizing records of database search activity by topical relevance
US7089252B2 (en) * 2002-04-25 2006-08-08 International Business Machines Corporation System and method for rapid computation of PageRank
US7197497B2 (en) * 2003-04-25 2007-03-27 Overture Services, Inc. Method and apparatus for machine learning a document relevance function
US8589373B2 (en) * 2003-09-14 2013-11-19 Yaron Mayer System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers
US7739281B2 (en) * 2003-09-16 2010-06-15 Microsoft Corporation Systems and methods for ranking documents based upon structurally interrelated information
US20050071328A1 (en) * 2003-09-30 2005-03-31 Lawrence Stephen R. Personalization of web search
US7281005B2 (en) * 2003-10-20 2007-10-09 Telenor Asa Backward and forward non-normalized link weight analysis method, system, and computer program product
US8495099B2 (en) * 2003-10-24 2013-07-23 Enrico Maim Method of manipulating information objects and of accessing such objects in a computer environment
US20060294124A1 (en) * 2004-01-12 2006-12-28 Junghoo Cho Unbiased page ranking
US7499965B1 (en) * 2004-02-25 2009-03-03 University Of Hawai'i Software agent for locating and analyzing virtual communities on the world wide web
US7257577B2 (en) * 2004-05-07 2007-08-14 International Business Machines Corporation System, method and service for ranking search results using a modular scoring system
US7376643B2 (en) * 2004-05-14 2008-05-20 Microsoft Corporation Method and system for determining similarity of objects based on heterogeneous relationships
US7251654B2 (en) * 2004-05-15 2007-07-31 International Business Machines Corporation System and method for ranking nodes in a network
US7260573B1 (en) * 2004-05-17 2007-08-21 Google Inc. Personalizing anchor text scores in a search engine

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004054588A (ja) * 2002-07-19 2004-02-19 Just Syst Corp 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム

Non-Patent Citations (12)

* Cited by examiner, † Cited by third party
Title
CSNG200100045009; 福島伸一: 'WWW情報空間のリンク構造を用いた弱い構造化' 電子情報通信学会技術研究報告 Vol.98 No.637, 19990305, p.61-68, 社団法人電子情報通信学会 *
CSNG200100360001; 大野潮満: '参照重要度に基づくWWW検索' 情報処理学会研究報告 Vol.2000 No.11, 20000128, p.1-8, 社団法人情報処理学会 *
CSNG200300169007; 原田昌紀: '参照共起分析のWebディレクトリへの適用' 情報処理学会研究報告 Vol.2001 No.20, 20010306, p.45-52, 社団法人情報処理学会 *
CSNG200500081004; 伊川洋平: 'サイト内検索エンジンのためのスコアリング手法' 電子情報通信学会技術研究報告 Vol.103 No.394, 20031020, p.57-64, 社団法人電子情報通信学会 *
CSNG200501025016; 中窪仁: 'Web検索におけるリンク構造解析を利用したランキング法' 電子情報通信学会技術研究報告 第104巻,第177号, 20040707, p.99-103, 社団法人電子情報通信学会 *
CSNG200900341103; 中窪仁: 'Web検索におけるリンク構造解析' 第15回データ工学ワークショップ(DEWS2004)論文集 [online] , 20040618, 電子情報通信学会データ工学研究専門委員会 *
JPN6011001335; 中窪仁: 'Web検索におけるリンク構造解析を利用したランキング法' 電子情報通信学会技術研究報告 第104巻,第177号, 20040707, p.99-103, 社団法人電子情報通信学会 *
JPN6011001336; 中窪仁: 'Web検索におけるリンク構造解析' 第15回データ工学ワークショップ(DEWS2004)論文集 [online] , 20040618, 電子情報通信学会データ工学研究専門委員会 *
JPN6013031052; 福島伸一: 'WWW情報空間のリンク構造を用いた弱い構造化' 電子情報通信学会技術研究報告 Vol.98 No.637, 19990305, p.61-68, 社団法人電子情報通信学会 *
JPN6013031054; 大野潮満: '参照重要度に基づくWWW検索' 情報処理学会研究報告 Vol.2000 No.11, 20000128, p.1-8, 社団法人情報処理学会 *
JPN6013031056; 原田昌紀: '参照共起分析のWebディレクトリへの適用' 情報処理学会研究報告 Vol.2001 No.20, 20010306, p.45-52, 社団法人情報処理学会 *
JPN6013031058; 伊川洋平: 'サイト内検索エンジンのためのスコアリング手法' 電子情報通信学会技術研究報告 Vol.103 No.394, 20031020, p.57-64, 社団法人電子情報通信学会 *

Also Published As

Publication number Publication date
US7779001B2 (en) 2010-08-17
JP2006127529A (ja) 2006-05-18
JP5670363B2 (ja) 2015-02-18
EP1653380A1 (en) 2006-05-03
US20060095430A1 (en) 2006-05-04

Similar Documents

Publication Publication Date Title
JP5670363B2 (ja) 階層を考慮したウェブページのランク付け
US6871202B2 (en) Method and apparatus for ranking web page search results
Wu et al. Identifying link farm spam pages
US8090729B2 (en) Large graph measurement
KR100963623B1 (ko) 시맨틱 웹 자원의 랭킹처리방법
KR101683311B1 (ko) 검색 결과 순위 지정을 위한 정적 관련성 특징으로서 문서 길이를 이용한 정보 제공 방법, 시스템 및 컴퓨터 판독가능 저장 매체
US8086601B2 (en) Systems and methods of retrieving relevant information
US9020936B2 (en) Using categorical metadata to rank search results
US8125922B2 (en) Method and apparatus for generating a ranked index of web pages
US9589056B2 (en) User information needs based data selection
JP5494454B2 (ja) 検索結果生成方法、検索結果生成プログラムおよび検索システム
US20060069663A1 (en) Ranking results for network search query
US20090299978A1 (en) Systems and methods for keyword and dynamic url search engine optimization
US20080140641A1 (en) Knowledge and interests based search term ranking for search results validation
US7698294B2 (en) Content object indexing using domain knowledge
CN1702654A (zh) 计算显示页面中块的重要度的方法和系统
CN1716259A (zh) 基于内部-类型和交互-类型关系来排列对象的方法和系统
Saravanan et al. Improve efficient keywords searching data retrieval process in cloud server
Zhu et al. Pagecluster: Mining conceptual link hierarchies from web log files for adaptive web site navigation
Dohare et al. Novel web usage mining for web mining techniques
Li Internet tourism resource retrieval using PageRank search ranking algorithm
Attia et al. A proposed multi criteria indexing and ranking model for documents and web pages on large scale data
JP5084796B2 (ja) 関連性判定装置、関連性判定方法およびプログラム
Bokhari et al. A new criterion for evaluating news search systems
Pawar et al. Effective utilization of page ranking and HITS in significant information retrieval

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130925

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20131017

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140507

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140527

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140926

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20141006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141217

R150 Certificate of patent or registration of utility model

Ref document number: 5670363

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees