JP2014044552A - 評価方法、情報処理装置およびプログラム - Google Patents

評価方法、情報処理装置およびプログラム Download PDF

Info

Publication number
JP2014044552A
JP2014044552A JP2012186316A JP2012186316A JP2014044552A JP 2014044552 A JP2014044552 A JP 2014044552A JP 2012186316 A JP2012186316 A JP 2012186316A JP 2012186316 A JP2012186316 A JP 2012186316A JP 2014044552 A JP2014044552 A JP 2014044552A
Authority
JP
Japan
Prior art keywords
data
evaluation value
web page
rank
update
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012186316A
Other languages
English (en)
Other versions
JP5928248B2 (ja
Inventor
Toshihiro Shimizu
俊宏 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012186316A priority Critical patent/JP5928248B2/ja
Priority to US13/960,439 priority patent/US9218384B2/en
Publication of JP2014044552A publication Critical patent/JP2014044552A/ja
Application granted granted Critical
Publication of JP5928248B2 publication Critical patent/JP5928248B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】評価の信頼性を高めることができる。
【解決手段】記憶部1aは、複数のデータおよび複数のデータそれぞれの評価値を記憶する。演算部1bは、記憶部1aを参照して、データXの評価値が更新されると、データXの評価値に基づいて、少なくともデータXからリンクされるデータX1,X2それぞれの評価値を評価して更新する。演算部1bは、データYの評価値の参照要求を受け付けると、少なくともデータYへのリンクをもつデータY1,Y2それぞれの評価値に基づいて、データYの評価値を評価し出力する。
【選択図】図1

Description

本発明は評価方法、情報処理装置およびプログラムに関する。
情報処理装置からネットワークを介して他の装置上に蓄積されたデータ(例えば、文書データ)にアクセスし、当該データの内容を閲覧することがある。データの蓄積量が大量になると、閲覧したい内容を含むデータをユーザ自身が探索するのに手間がかかる。そこで、検索システムが利用されている。検索システムは、例えばキーワードの入力を受け付け、キーワードを含む、または、キーワードに関連するデータを検索し出力する。
例えば、文書データの一例にWebページが挙げられる。Webページの検索システムにはWebページをランク付けして提示するものがある。ランクとは人気度や重要度などを示す指標である。検索システムは、例えば検索されたWebページのうち、ランクの高いものを相対的に上位に提示し、ランクの低いものを相対的に下位に提示する。
Webページのランク付けの方法として、ページランク(PAGERANK、登録商標)と呼ばれる方法がある。Webページはリンクをもつ。リンクは他のWebページを指し示す情報である。ページランクでは、各Webページのバックリンク(backlink)とフォワードリンク(forwardlink)とに基づいて各Webページをランク付けする。バックリンクはWebページが他のWebページから指し示されるリンクである。フォワードリンクはWebページから他のWebページを指し示すリンクである。例えば、Webページ間のリンクの関係性は隣接行列で表され得る。すると、ページランクによるランク付けは隣接行列(または隣接行列に調整を加えた行列)の固有ベクトルを求める問題に帰着される。行列の固有ベクトルは、例えばベキ乗法(Power Method)を用いて計算され得る。
ところで、Webページの数は膨大である。このため、ページランクの方法を用いて全てのWebページのランクを精度良く求めるとすると計算に時間がかかる。そこで、近似的なランクで代替することで計算コストを削減する提案がある。この提案では、収集されたページの近似PageRank値をリンク先に等分配することでリンク先の近似PageRank値を更新する。リンク先のページでも分配された分を更にそのリンク先へと分配し、それを繰り返す。分配を適当なところで打ち切ることで計算コストを削減する。
米国特許第6285999号明細書
Page、外3名、"The PageRank Citation Ranking: Bringing Order to the Web."、[online]、2001年10月30日、The Stanford University InfoLab、[2012年2月23日検索]、インターネット<URL:http://ilpubs.stanford.edu:8090/422/1/1999−66.pdf> 山田、外3名、"インクリメンタルPageRankによる重要Webページの効率的な収集戦略"、情報処理学会論文誌:コンピューティングシステム、社団法人情報処理学会、2004年10月、Vol.45、No.SIG 12、p.465-473
上記のように、複数のデータ(例えば、文書データ)それぞれの評価値(例えば、ランク)を、他のデータの評価値と他のデータがもつリンクとに基づいて評価する方法が考えられる。また、このような方法において、リンク元のデータの評価値をリンク先のデータに分配して評価値の更新処理を行っていき、分配を途中で打ち切ることが考えられる。
ところが、分配を途中で打ち切ると、評価値の更新の影響を受けるリンク先の範囲が制限されることになる。すると、その範囲外のデータの評価値を参照するとき、当該データの評価値を単に読み取るだけでは、他のデータの更新の影響が当該データの評価値に反映されていないために、読み取った評価値の精度が低い可能性があるという問題がある。
一側面によれば、本発明は、評価の信頼性を高めることができる評価方法、情報処理装置およびプログラムを提供することを目的とする。
一実施態様によれば、複数のデータそれぞれが他のデータを指し示す関係性であるリンクをもっており、複数のデータそれぞれの評価値を、他のデータの評価値と他のデータがもつリンクとに基づいて評価する評価方法が提供される。この評価方法では、情報処理装置が、第1のデータの評価値が更新されると、第1のデータの評価値に基づいて、少なくとも第1のデータからリンクされる1または複数の第2のデータそれぞれの評価値を評価して更新する。何れかのデータの評価値の参照要求を受け付けると、少なくとも当該データへのリンクをもつ1または複数の第3のデータそれぞれの評価値に基づいて、参照要求を受けた当該データの評価値を評価し出力する。
また、一実施態様によれば、複数のデータそれぞれが他のデータを指し示す関係性であるリンクをもっており、複数のデータそれぞれの評価値を、他のデータの評価値と他のデータがもつリンクとに基づいて評価するために用いられる情報処理装置が提供される。この情報処理装置は、記憶部と演算部とを有する。記憶部は、複数のデータおよび複数のデータそれぞれの評価値を記憶する。演算部は、記憶部を参照して、第1のデータの評価値が更新されると、第1のデータの評価値に基づいて、少なくとも第1のデータからリンクされる1または複数の第2のデータそれぞれの評価値を評価して更新する。演算部は、何れかのデータの評価値の参照要求を受け付けると、少なくとも当該データへのリンクをもつ1または複数の第3のデータそれぞれの評価値に基づいて、参照要求を受けた当該データの評価値を評価し出力する。
また、一実施態様によれば、コンピュータによって実行されるプログラムであって、複数のデータそれぞれが他のデータを指し示す関係性であるリンクをもっており、複数のデータそれぞれの評価値を、他のデータの評価値と他のデータがもつリンクとに基づいて評価するためのプログラムが提供される。このプログラムは、コンピュータに、第1のデータの評価値が更新されると、第1のデータの評価値に基づいて、少なくとも第1のデータからリンクされる1または複数の第2のデータそれぞれの評価値を評価して更新し、何れかのデータの評価値の参照要求を受け付けると、少なくとも当該データへのリンクをもつ1または複数の第3のデータそれぞれの評価値に基づいて、参照要求を受けた当該データの評価値を評価し出力する、処理を実行させる。
一実施態様によれば、評価の信頼性を高めることができる。
第1の実施の形態の情報処理装置を示す図である。 第2の実施の形態の情報処理システムを示す図である。 第2の実施の形態のグラフの例を示す図である。 第2の実施の形態のサーバのハードウェア例を示す図である。 第2の実施の形態のサーバのソフトウェア例を示す図である。 第2の実施の形態のWebページ管理テーブルを示す図である。 第2の実施の形態のキューを示す図である。 第2の実施の形態の更新範囲の例を示す図である。 第2の実施の形態の参照範囲の例を示す図である。 第2の実施の形態のランク更新を示すフローチャートである。 第2の実施の形態の更新時影響度の例を示す図である。 第2の実施の形態のランク参照を示すフローチャートである。 第2の実施の形態の参照時影響度の例を示す図である。 第3の実施の形態のログテーブルの例を示す図である。 第3の実施の形態の更新・参照範囲の変更を示すフローチャートである。 第3の実施の形態の更新・参照範囲の変更例(その1)を示す図である。 第3の実施の形態の更新・参照範囲の変更例(その2)を示す図である。
以下、本実施の形態を図面を参照して説明する。
[第1の実施の形態]
図1は、第1の実施の形態の情報処理装置を示す図である。情報処理装置1は、複数のデータそれぞれの評価値を評価するために用いられる。ここで、複数のデータそれぞれは他のデータを指し示す関係性であるリンクをもっている。例えば、データは文書データである。例えば、文書データがWebページであれば、リンクはWebページのHTML(HyperText Markup Language)ファイル内にハイパーテキストにより記述されたURL(Uniform Resource Locator)である。当該リンクはハイパーリンクと呼ばれることもある。また、例えば文書データが論文データであれば、リンクは引用文献として記述された他の文献の名称である。データは、文書データの識別情報と当該文書データがもつリンクとを管理できれば、文書データそのものでなくてもよい。データは、リンクの情報をもつものであれば、文書データ以外のものでもよい。
情報処理装置1は、複数のデータそれぞれの評価値を、他のデータの評価値と他のデータがもつリンクとに基づいて評価する。評価値は、例えば、人気度、重要度およびお薦め度などを示す指標(ランク)である。具体的には、リンク元のデータの評価値を、リンク先のデータに分配する。あるデータが複数のリンク元のデータから評価値の分配を受ける場合、分配を受けた評価値の合計が当該データの評価値である。そして、当該評価値を当該データのリンク先のデータに更に分配する。この分配を繰り返した結果を得ることで、複数のデータそれぞれの評価値を得る。
情報処理装置1は、記憶部1aおよび演算部1bを有する。記憶部1aはRAM(Random Access Memory)などのメモリである。演算部1bはCPU(Central Processing Unit)などのプロセッサである。例えば、記憶部1aに記憶されたプログラムを演算部1bが実行することで、第1の実施の形態の情報処理を実現できる。
記憶部1aは、複数のデータおよび複数のデータそれぞれの評価値を記憶する。複数のデータそれぞれは、前述のように他のデータへのリンクの情報を有している。
例えば、記憶部1aはデータX,X1,X2,X11,X12,X13,X14,X15,X16,X17,・・・を記憶する。データXはデータX1,X2へのリンクを有する。データX1はデータX11,X12へのリンクを有する。データX2はデータX12,X13へのリンクを有する。データX11はデータX14へのリンクを有する。データX12はデータX15,X16へのリンクを有する。データX13はデータX17へのリンクを有する。グラフ構造2はこれらデータ間のリンクの関係性を示している。
更に、例えば、記憶部1aはデータY,Y1,Y2,Y11,Y12,Y13,Y14,Y15,Y16,Y17,・・・を記憶する。データY1,Y2はデータYへのリンクを有する。データY11はデータY1へのリンクを有する。データY12はデータY1,Y2へのリンクを有する。データY13はデータY2へのリンクを有する。データY14はデータY11へのリンクを有する。データY15,Y16はデータY12へのリンクを有する。データY17はデータY13へのリンクを有する。グラフ構造3はこれらデータ間のリンクの関係性を示している。
演算部1bは、記憶部1aを参照して、第1のデータの評価値が更新されると、第1のデータの評価値に基づいて、少なくとも第1のデータからリンクされる1または複数の第2のデータそれぞれの評価値を評価して更新する。
例えば、データXの評価値が更新される。具体的には、データXに対する別のデータからのリンクが追加されると、データXの評価値が増大し得る。当該別のデータから評価値の分配を受けるからである。あるいは、データXに対する別のデータからのリンクが削除されると、データXの評価値が減少し得る。当該別のデータから評価値の分配を受けられなくなるからである。
演算部1bは、データXの評価値が更新されると、データXの評価値に基づいて、少なくともデータXからリンクされるデータX1,X2それぞれの評価値を評価して更新する。例えば、データX1,X2から更にリンクされるデータX11,X12,X13それぞれの評価値を評価して更新してもよい。例えば、データXの評価値が増大する場合、評価値の増分をデータX1,X2に分配する。データX11,X12,X13にも分配する場合、データX1,X2に分配された分を更にデータX11,X12,X13に分配する。分配の繰り返しにより、データXの評価値の増大による影響が他のデータに伝搬する。
例えば、他のデータが受ける当該影響の度合い(更新時影響度)は、データXの評価値の変化分に対して他の各データの評価値に反映される変化分の割合により表せる。例えば、データXの評価値の変化分の25%がデータX11の評価値の変化分となるならば、データXからデータX11が受ける更新時影響度は25%(=0.25)である。
例えば、データXはデータX1,X2の2つに増分を分配する。このとき、データXの増分によるデータX自身の影響度1に対して、データX1,X2それぞれが受ける影響度は、1/2=0.5である。例えば、データX1はデータX11,X12の2つに更に分配する。このとき、データX11,X12それぞれが受ける影響度は0.5×0.5=0.25である。データXの評価値が減少する場合は、評価値の減少分を同様に分配して各データの評価値を減少させればよい。このときも増加時と同様の考え方で更新時影響度を表せる。
ここで、更新範囲2aは更新対象となるデータの集合である。更新範囲2aは、更新時の影響度閾値ε(εは0<ε<1の実数)によって定めることができる。更新時の影響度閾値は、各データに対する分配の影響をどこまで伝搬させるかを示す情報である。例えば、各データが受ける更新時影響度がε以上であるデータの集合が更新範囲2aである。
演算部1bは、何れかのデータの評価値の参照要求を受け付けると、少なくとも当該データへのリンクをもつ1または複数の第3のデータそれぞれの評価値に基づいて、参照要求を受けた当該データの評価値を評価し出力する。
例えば、データYの評価値の参照要求を受け付ける。すると、演算部1bは、少なくともデータYへのリンクをもつデータY1,Y2それぞれの評価値に基づいて、参照要求を受けたデータYの評価値を評価し出力する。ここで、例えばデータYはデータY1,Y2のみからリンクされているとする。例えば、データY1,Y2はデータYへのリンクのみを有するとする。このとき、例えばデータY1,Y2の評価値のみに基づいてデータYの評価値を評価するならば、データY1,Y2の評価値の和がデータYの評価値である。
データY1,Y2の評価値に加え、データY1,Y2へのリンクをもつデータY11,Y12,Y13それぞれの評価値に基づいて、データYの評価値を評価してもよい。例えば、データY11,Y12,Y13の評価値はデータY1,Y2を介して、データYの評価値に影響を及ぼす。例えば、この影響度(参照時影響度)は、データYの評価値に反映される他のデータの評価値の割合により表せる。例えば、データY11の評価値の40%がデータYの評価値に反映されるならデータYに対するデータY11の参照時影響度は40%(=0.4)である。参照時影響度とデータY1,Y2,Y11,Y12,Y13それぞれの評価値とを考慮した値に基づいて、データYの評価値を評価してもよい。
ここで、参照範囲3aは参照対象となるデータの集合である。参照範囲3aは、参照時の影響度閾値ε’(ε’は0<ε’<1の実数)によって定めることができる。例えば、参照時影響度がε’以上であるようなデータの集合が参照範囲3aである。
情報処理装置1によれば、演算部1bにより、記憶部1aが参照されて、データXの評価値が更新されると、データXの評価値に基づいて、少なくともデータXからリンクされるデータX1,X2それぞれの評価値が評価されて更新される。また、演算部1bにより、データYの評価値の参照要求が受け付けられると、少なくともデータYへのリンクをもつデータY1,Y2それぞれの評価値に基づいて、データYの評価値が評価されて出力される。
これにより、評価値を更新するための処理コストを軽減しながら、評価の信頼性を高めることができる。具体的には、評価値の更新時において更新範囲2aに含まれるデータのみを更新すると、処理コストを軽減できる反面、更新の影響の伝搬が制限されることになる。したがって、更新範囲2aの外部のデータについて評価値の精度が悪化し得る。このため、当該外部のデータについて、評価値の参照要求を受けた時に、記憶部1aから当該外部のデータの評価値を単に読み出して応答するのみでは、応答された評価値の信頼性は低いことになる。
そこで、情報処理装置1は、あるデータの評価値の参照時に参照範囲3aに含まれるデータの評価値を考慮して、参照対象のデータの評価値を求める。このように、参照対象のデータの評価値を、周囲のデータの評価値に基づいて再評価して応答する。したがって、あるデータの更新の影響が、参照対象のデータに伝搬していなかったとしても、周囲のデータに対して当該影響が伝搬していれば、当該影響を参照対象のデータに反映させて評価値を得ることができる。
より具体的には、データの全体集合4に、データA,B,C,D,Eが含まれているとする。データAの評価値を更新するとき更新範囲4aに含まれるデータ(データAの周囲のデータ)が更新対象となる。データBの評価値を参照するとき参照範囲4bに含まれるデータ(データBの周囲のデータ)が参照対象となる。データAの更新時にデータBまで更新の影響が伝搬しなかったとしても、更新範囲4aと参照範囲4bとの両方に含まれるデータにより、データBについて当該更新の影響を反映させた評価値を得られる。
一方、データCの評価値を参照するとき参照範囲4cに含まれるデータが参照対象となる。周囲のデータに何れのデータからの更新の影響も及んでいなければ、データCの評価値を参照する際に、何れかのデータの更新の影響が及ぶことはない。この場合は、参照範囲4cに含まれるデータに有意な更新が発生していないと考えてよい。よって、周囲のデータの評価値に基づいてデータCの評価値を求めても期待する信頼性は確保される。
同様に、データDの評価値を更新するとき更新範囲4dに含まれるデータが更新対象となる。データEの評価値を参照するとき参照範囲4eに含まれるデータが参照対象となる。データA,Dの更新時にデータEまで更新の影響が伝搬しなかったとしても、更新範囲4aと参照範囲4eとの両方に含まれるデータ、および、更新範囲4dと参照範囲4eとの両方に含まれるデータにより、当該更新影響を考慮してデータEの評価値を得られる。
このようにして、更新時の処理コストを軽減できる。そして、あるデータの評価値の更新の影響をリンク先の他のデータのうちの一部までにしか伝搬させないとしても、参照する評価値の信頼性を高めることができる。
[第2の実施の形態]
図2は、第2の実施の形態の情報処理システムを示す図である。第2の実施の形態の情報処理システムは、Webページをランク付けする。第2の実施の形態の情報処理システムは、サーバ100,100aおよびクライアント200,200aを有する。
サーバ100,100aおよびクライアント200,200aは、ネットワーク10を介して接続されている。ネットワーク10は、例えばインターネットやWAN(Wide Area Network)などの広域ネットワークである。ネットワーク10は、LAN(Local Area Network)でもよい。
サーバ100,100aは、Webページのランク付けを行うサーバコンピュータである。サーバ100,100aは、クライアント200,200aから各Webページにおけるランクの更新内容(例えば、増分や減少分)を受け付ける。すると、サーバ100,100aは、ランクが更新されたWebページからリンクされている他のWebページに当該更新の影響を伝搬させ、他のWebページの評価値を更新する。
また、サーバ100,100aは、クライアント200,200aから何れかのWebページのランクの参照要求を受け付ける。すると、サーバ100,100aは、参照対象のWebページのランクを評価してクライアント200,200aに応答する。
サーバ100,100aは、Webページの全体を分担して管理している。例えば、サーバ100は、全体のうちの一部のWebページのランクなどの情報を保持する。サーバ100aは、全体のうちの他の一部のWebページのランクなどの情報を保持する。3以上のサーバコンピュータでWebページの管理を分担してもよい。
例えば、サーバ100の処理により、サーバ100aが保持する情報が更新される場合は、サーバ100はサーバ100aに該当の情報を更新させる。サーバ100の処理に、サーバ100aが保持する情報を用いる場合は、サーバ100はサーバ100aから該当の情報を取得する。逆の場合も同様である。
クライアント200,200aは、ユーザが操作するクライアントコンピュータである。クライアント200,200aは、ユーザの指示に応じて、Webページのランクの更新要求または参照要求をサーバ100,100aに送信する。
図3は、第2の実施の形態のグラフの例を示す図である。図3(A)は有向グラフを例示している。有向グラフは、例えばノード21,22および矢印23で表される。ノード21,22は、それぞれが1つのデータ(あるいはレコード)に相当するものであり、第2の実施の形態ではWebページPx,Pyである。WebページPx,Pyは、例えばHTMLで記述された文書データである。例えば、WebページPxには、ハイパーテキストでWebページPyのURLが記述されることで、WebページPyへのリンクが張られている。
矢印23は、ノード21からノード22へ向けたリンクを示している。矢印23はノード21を起点としている。このため、矢印23はノード21のフォワードリンクである。矢印23はノード22を終点としている。このため、矢印23はノード22のバックリンクである。このように、ノード21,22および矢印23を組み合わせたグラフ構造により、各Webページのリンクの関係性を表すことができる。
図3(B)はWebページのグラフ構造を例示している。このような関係性をもつ各Webページをランク付けする方法として、ページランクが知られている。以下の説明においてi,j,nは1以上の整数である。kは0以上の整数である。ページランクの単純な総和公式ではページPiのランクr(Pi)は式(1)により表される。
Figure 2014044552
ここで、BPiは、WebページPiへのリンクをもつWebページ(Piのバックリンク)の集合である。|Pj|は、WebページPjからのフォワードリンクの個数である。全てのWebページのランクを求める場合、r(Pj)が未知である。そこで、全てのWebページにランクの初期値(Webページの総数がn個であれば1/n)を与え、反復法により各Webページのランクを収束させる。具体的には、k+1回目の手続におけるWebページPiのランクrk+1(Pi)は式(2)により表される。
Figure 2014044552
ここで、r0(Pi)=1/nである。式(2)はWebページのランクを1つずつ順番に計算する。行列を用いて同じ計算を行うことで、1×nの行ベクトルπTにより全てのWebページのk+1回目の手続後のランクを保持できる。添え字Tは転置を示し、ベクトルπTがn列の要素をもつ行ベクトルであることを示す。Webページのグラフ構造を行単位に正規化したn×n行列Hで表す。行列Hはグラフ構造を表す隣接行列である。具体的には、WebページPiからWebページPjへのリンクが存在するとき、Hij=1/|Pi|である。それ以外の箇所は0である。行列Hの一例を示せば式(3)のようになる。
Figure 2014044552
行列Hの行iにおける非ゼロの要素はWebページPiからのフォワードリンクのWebページに対応する。列iにおける非ゼロの要素はWebページPiに対するバックリンクのWebページに対応する。このとき、k+1回目の手続後のベクトルπ(k+1)Tは式(4)のように表せる。
Figure 2014044552
ベクトルπ(k+1)Tのi列目の要素がrk+1(Pi)に対応する。ただし、式(4)ではベクトルπTの収束性において不十分な点がある。例えば、フォワードリンクをもたないWebページのランクが過大となるランクシンク(Rank Sink)などの問題がある。そこで、行列Hに調整を加え、このような問題を解消した行列Gを用いる(式(4)において、行列Hを行列Gに置き換える)。その場合、ページランクを求める計算は、行列Gの固有ベクトル問題に帰着される。行列Gの固有ベクトルがベクトルπTに相当するからである。この固有ベクトル問題は、式(5)(6)のように表せる。
Figure 2014044552
Figure 2014044552
ここで、行列eは単位行列である。式(6)は全Webページのランクの合計が1になるように正規化するものである。式(5)について、例えばバッチ処理でベキ乗法を用いた計算を行い、式(6)を用いてベクトルπTの要素を正規化することで、全Webページのランクを所望の精度で算出することができる。しかし、Webページの数は膨大であり、当該バッチ処理には時間を要する。よって、この方法は、Webページの更新に対してランクを逐次更新したい場合などには不向きである。
そこで、第2の実施の形態では、ページランクの厳密な方法を用いて求まるランクの代わりに、Webページの近似的なランクを求める。以下の説明では、当該近似的なランクも含めてランクと称している。
図4は、第2の実施の形態のサーバのハードウェア例を示す図である。サーバ100は、プロセッサ101、RAM102、HDD(Hard Disk Drive)103、通信部104、画像信号処理部105、入力信号処理部106、ディスクドライブ107および機器接続部108を有する。各ユニットがサーバ100のバスに接続されている。サーバ100aおよびクライアント200,200aのハードウェア例もサーバ100と同様である。
プロセッサ101は、サーバ100の情報処理を制御する。プロセッサ101は、マルチプロセッサであってもよい。プロセッサ101は、例えばCPU、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)またはPLD(Programmable Logic Device)などである。プロセッサ101は、CPU、MPU、DSP、ASIC、FPGA、PLDのうちの2以上の要素の組み合わせであってもよい。
RAM102は、サーバ100の主記憶装置である。RAM102は、プロセッサ101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部を一時的に記憶する。また、RAM102は、プロセッサ101による処理に用いる各種データを記憶する。
HDD103は、サーバ100の補助記憶装置である。HDD103は、内蔵した磁気ディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。HDD103には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。サーバ100は、フラッシュメモリやSSD(Solid State Drive)などの他の種類の補助記憶装置を備えてもよく、複数の補助記憶装置を備えてもよい。
通信部104は、ネットワーク10を介して他のコンピュータと通信を行えるインタフェースである。通信部104は、有線インタフェースでもよいし、無線インタフェースでもよい。
画像信号処理部105は、プロセッサ101からの命令に従って、サーバ100に接続されたディスプレイ11に画像を出力する。ディスプレイ11としては、CRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイなどを用いることができる。
入力信号処理部106は、サーバ100に接続された入力デバイス12から入力信号を取得し、プロセッサ101に出力する。入力デバイス12としては、例えば、マウスやタッチパネルなどのポインティングデバイス、キーボードなどを用いることができる。
ディスクドライブ107は、レーザ光などを利用して、光ディスク13に記録されたプログラムやデータを読み取る駆動装置である。光ディスク13として、例えば、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などを使用できる。ディスクドライブ107は、例えば、プロセッサ101からの命令に従って、光ディスク13から読み取ったプログラムやデータをRAM102またはHDD103に格納する。
機器接続部108は、サーバ100に周辺機器を接続するための通信インタフェースである。例えば、機器接続部108にはメモリ装置14やリーダライタ装置15を接続できる。メモリ装置14は、機器接続部108との通信機能を搭載した記録媒体である。リーダライタ装置15は、メモリカード16へのデータの書き込み、またはメモリカード16からのデータの読み出しを行う装置である。メモリカード16は、カード型の記録媒体である。機器接続部108は、例えば、プロセッサ101からの命令に従って、メモリ装置14またはメモリカード16から読み取ったプログラムやデータをRAM102またはHDD103に格納する。
図5は、第2の実施の形態のサーバのソフトウェア例を示す図である。図5に示す各ユニットは、例えば、プロセッサ101がRAM102に記憶されたプログラムを実行することで実現できる。図5の各ユニットはASICやFPGAなどによって実現されてもよい。また、サーバ100aのソフトウェア例もサーバ100と同様である。
サーバ100は、ページ情報記憶部110、キュー記憶部120、受信部130、キュー制御部140、ランク処理部150および送信部160を有する。
ページ情報記憶部110は、Webページに関する情報を記憶する。例えば、各Webページのリンク・被リンク関係や、各Webページのランクである。
キュー記憶部120は、Webページのランクの更新要求(以下、単に更新要求と称する)、または、Webページのランクの参照要求(以下、単に参照要求と称する)を、キューを用いて記憶する。
ページ情報記憶部110およびキュー記憶部120は、RAM102やHDD103の記憶領域を用いて実装できる。
受信部130は、クライアント200,200aから更新要求や参照要求を受信して、キュー制御部140に出力する。
キュー制御部140は、受信部130から取得した更新要求や参照要求のジョブをキュー記憶部120に格納する。キュー制御部140は、FIFO(First In / First Out)の手順に従って、キュー記憶部120に記憶された更新要求または参照要求のジョブを取り出して、ランク処理部150に出力する。キュー制御部140は、ランク処理部150によって生成された更新や参照のジョブ内容を示す情報を、キュー記憶部120に格納することもある。
ランク処理部150は、ページ情報記憶部110に記憶されたWebページの情報に基づいて、ランクの評価を行う。具体的には、ランク処理部150は、キュー制御部140から取得した更新要求のジョブに基づいて、更新対象となるWebページのランクを更新する。このとき、上述のバッチ処理とは異なり、ランク処理部150は更新対象となるWebページをページ情報記憶部110から検索しながら、ランクの更新処理を行うことになる。ランク処理部150は、ランクの更新処理が完了すると、更新完了の通知を送信部160に出力する。
また、ランク処理部150は、キュー制御部140から取得した参照要求のジョブに基づいて、参照対象のWebページのランクを評価し、送信部160に出力する。ランク処理部150は、参照対象のWebページに対するリンク元のWebページのランクに基づいて、参照対象のWebページのランクを評価する。
ランク処理部150は、更新や参照の処理に応じたジョブを生成し、当該ジョブ内容を示す情報をキュー制御部140に出力することもある。
送信部160は、ランク処理部150から取得した更新完了の通知を、更新要求の送信元であるクライアント(例えば、クライアント200)に応答する。送信部160はランク処理部150から取得したWebページのランクを、参照要求の送信元であるクライアントに応答する。
図6は、第2の実施の形態のWebページ管理テーブルを示す図である。Webページ管理テーブル111は、ページ情報記憶部110に記憶される。Webページ管理テーブル111は、URL、ランク、フォワードリンクおよびバックリンクの項目を含む。
URLの項目には、WebページのURLが登録される。ランクの項目には、ランクの値が登録される。フォワードリンクの項目には、当該Webページが指し示すリンク先WebページのURLのリストが登録される。バックリンクの項目には、当該Webページに対するリンク元WebページのURLのリストが登録される。
例えば、Webページ管理テーブル111には、URLが“P1”、ランクが“0.01”、フォワードリンクが“P2,P3”、バックリンクが“P21,P22”という情報が登録されている。これは、URL“P1”で示されるWebページのランクが“0.01”であることを示している。また、URL“P1”のWebページからURL“P2,P3”のWebページへのフォワードリンクが存在すること、URL“P1”のWebページに対してURL“P21,P22”のWebページからのバックリンクが存在することを示している。
ランク処理部150は、定期的に(例えば、月次などで)ページランクの方法を用いて全Webページのランクを求め、Webページ管理テーブル111を更新してもよい。全Webページのランクを定期的に一括更新することで、第2の実施の形態による評価の信頼性を向上し得るからである。
なお、以下の説明では、URL“P1”に対応するWebページを、WebページP1のように表記することがある。
図7は、第2の実施の形態のキューを示す図である。キュー121は、キュー記憶部120に格納されている。キュー121には次のようなフォーマットのジョブデータが格納される。当該フォーマットは(処理対象のWebページのURL、処理種別、処理内容、影響度)である。
処理対象のWebページのURLには、更新または参照対象とするWebページのURLが設定される。処理種別には、更新または参照の何れかを示す情報が設定される。処理内容には、処理種別が更新の場合に、具体的なランクの増減値が設定される。処理内容は、処理種別が参照の場合、設定なしとなる。影響度は、ランク更新の場合、更新要求を受けたWebページのランク変化によって処理対象のWebページが受ける影響の度合いを示す。また、ランク参照の場合、参照対象のWebページに対して処理対象のWebページが与える影響の度合いを示す。クライアント200,200aから受信した更新要求および参照要求のジョブをキュー121に格納する場合、影響度は常に“1”である。
例えば、キュー121には、“P3,更新,増分0.01,影響度1”という情報が登録されている。これは、WebページP3について、ランクの更新要求を受信しており、更新内容が0.01だけランクを増加させるものであること、この更新がWebページP3に対して100%の影響度をもつことを示す。
また、例えば、キュー121には、“P2,参照,影響度1”という情報が登録されている。これは、WebページP2について、ランクの参照要求を受信していること、WebページP2のランク更新はWebページP2自身に対して100%の影響度をもつことを示す。
更に、例えば、キュー121には、“P2,更新,減少分0.005,影響度1”という情報が登録されている。これは、WebページP2について、ランクの更新要求を受信しており、更新内容が0.005だけランクを減少させるものであること、この更新がWebページP2に対して100%の影響度をもつことを示す。
キュー121には、クライアント200,200aから要求が到着するたびに、キュー制御部140により当該要求に関するジョブデータが挿入される。そして、キュー制御部140によりFIFOの手順で各要求に対応するジョブデータが取り出され、ランク処理部150に出力される。ランク処理部150により、各ジョブが処理される。
なお、あるWebページでランクが増える場合としては、例えば、次のような場合が考えられる。第1には、当該Webページの既存のリンク元Webページがもつフォワードリンク数が減少することで、当該リンク元Webページから受け取るランクが増加する場合である。第2には、ランクが既知である他のWebページに当該Webページへのフォワードリンクが追加されることで、当該他のWebページからランクの分配を新たに受け取るようになる場合である。
また、あるWebページでランクが減少する場合としては、例えば、当該Webページの既存のリンク元Webページがもつフォワードリンク数が増加することで、当該リンク元Webページから受け取るランクが減少する場合が考えられる。
1つのWebページでフォワードリンクの追加・削除が行われると、複数の他のWebページにおいてランクの増減に係る更新が発生し得る。
また、キュー121に格納されるデータは、要求元のクライアントを示す情報(例えば、IP(Internet Protocol)アドレスなど)を含んでもよい。要求に対する応答先を判別可能にするためである。
図8は、第2の実施の形態の更新範囲の例を示す図である。図8ではWebページの全体集合300に対して更新範囲R1が例示されている。更新範囲R1は、WebページPxのランクの更新要求を受け付けたときに、その更新の影響を伝搬させる範囲である。更新範囲R1に含まれるWebページがランクの更新対象となる。このとき、各Webページが受ける影響度(更新時影響度)は、データPxのランクの変化分Δrに対して各Webページのランクに反映される変化分Δr’の割合δ=Δr’/Δrにより表せる(これを百分率で表してもよい)。ここで、Δrは−1<Δr<0、0<Δr<1の実数である。Δr’は−1<Δr’<0、0<Δr’<1の実数である。δは0<δ≦1の実数である。
更新範囲R1は、影響度閾値ε(εは0<ε<1の実数)によって定めることができる。例えば、WebページPxのランク変化に対し、δ≧εである他のWebページの集合が更新範囲R1である。例えば、ε=0.05=5%とする。
図9は、第2の実施の形態の参照範囲の例を示す図である。図9ではWebページの全体集合300に対して参照範囲R2が例示されている。参照範囲R2は、WebページPxのランクの参照要求を受け付けたときに、ランクの参照対象とするWebページの範囲である。WebページPxのランクに対して、他のWebページが及ぼす影響度(参照時影響度)は、WebページPxのランクに反映される他のWebページのランクの割合γ(γは0<γ≦1の実数)により表せる。参照時影響度γは、あるWebページのフォワードリンク数と、当該WebページとWebページPxとの間に介入する他のWebページのフォワードリンク数と、に基づいて算出される。
参照範囲R2は、影響度閾値ε’(ε’は0<ε’<1の実数)によって定めることができる。例えば、WebページPxのランクの参照要求を受けたとき、WebページPxのランクに対してγ≧ε’である他のWebページの集合が参照範囲R2である。例えば、ε’=0.05=5%とする。
図10は、第2の実施の形態のランク更新を示すフローチャートである。以下、図10に示す処理をステップ番号に沿って説明する。なお、ステップS11の直前においてキュー121に格納されているジョブデータは存在しないものとする。
(ステップS11)受信部130は、クライアント200から更新要求を受信する。受信部130は、当該更新要求をキュー制御部140に出力する。更新要求は、WebページP1について、Δrだけランクを増加させることを示しているとする。なお、WebページP1の変化分がWebページP1に及ぼす更新時影響度は前述の通りΔr/Δr=1である。すなわち、当該更新要求に相当するジョブは(P1,更新,Δr,1)である。
(ステップS12)キュー制御部140は、受信部130から取得した更新要求のジョブ(P1,更新,Δr,1)をキュー121に挿入する。
(ステップS13)キュー制御部140は、キュー121が空であるか否かを判定する。キュー121が空である場合、キュー制御部140はランク処理部150にその旨を通知して、処理をステップS18に進める。キュー121が空でない場合、処理をステップS14に進める。
(ステップS14)キュー制御部140は、キュー121から更新のジョブ(P,更新,Δr,δ)を取り出して、ランク処理部150に出力する。取り出されたジョブは、キュー121から削除される。
(ステップS15)ランク処理部150は、Webページ管理テーブル111を参照して、WebページPのランクにδ×Δrを加算する。
(ステップS16)ランク処理部150は、δ<εであるか否かを判定する。δ<εである場合、処理をステップS13に進める。δ≧εである場合、処理をステップS17に進める。
(ステップS17)ランク処理部150は、更新のジョブ(P’,更新,Δr,δ’)を生成して、キュー制御部140に出力する。キュー制御部140は、取得したジョブをキュー121に挿入する。ここで、WebページP’は、WebページPのリンク先(フォワードリンク)のWebページである。ランク処理部150は、Webページ管理テーブル111に基づいてWebページP’を取得する。δ’は、WebページP1からWebページP’に対する影響度である。具体的には、δ’=δ/(WebページPのフォワードリンク数)である。なお、ここでいうδはステップS14で取り出されたWebページPが受ける影響度δである。WebページPのリンク先のWebページが複数ある場合は、複数のジョブが生成されて、キュー121に挿入されることになる。そして、処理がステップS13に進められる。なお、WebページPからのフォワードリンクが存在しない場合は、ステップS17をスキップして、ステップS13に進む。
(ステップS18)ランク処理部150は、更新完了の通知を生成して送信部160に出力する。更新完了の通知には、クライアント200を示す情報(例えば、IPアドレスなど)が含まれる。送信部160は、更新完了の通知をクライアント200に応答する。
このようにして、更新時影響度が影響度閾値εよりも小さくなるまでWebページのフォワードリンクを辿り、ランクを更新する。上述の手順は、グラフの幅優先探索に基づいている。その探索のステップ数は、更新範囲R1に含まれるWebページの数をN(Nは2以上の整数)およびリンクの数をM(Mは1以上の整数)とすれば、O(N+M)である。すなわち、更新範囲R1が小さいほど更新の処理コストは低減し、更新範囲R1が大きいほど更新の処理コストは増大する。
なお、図10ではWebページP1の更新要求を受け付けた場合を例示したが、他のWebページの更新要求を受け付けた場合も同様の手順となる。
図11は、第2の実施の形態の更新時影響度の例を示す図である。図11は更新時の影響度閾値ε=5%である場合を例示している。WebページP1〜P17は、Webページの全体集合300の一部分である。
WebページP1はWebページP2,P3へのフォワードリンクを有する。WebページP2はWebページP4,P5へのフォワードリンクを有する。WebページP3はWebページP5,P6へのフォワードリンクを有する。WebページP5はWebページP7,P8へのフォワードリンクを有する。WebページP8はWebページP9,P10へのフォワードリンクを有する。WebページP9はWebページP11,P12へのフォワードリンクを有する。WebページP11はWebページP13,P14へのフォワードリンクを有する。WebページP12はWebページP14,P15へのフォワードリンクを有する。WebページP13は、WebページP16へのフォワードリンクを有する。WebページP14はWebページP16,P17へのフォワードリンクを有する。
図10で示した手順によれば、WebページP1のランク更新に対して、各Webページに及ぶ更新時影響度は次のようになる。WebページP1に対する影響度は100%である。
WebページP2,P3に対する影響度は50%である。WebページP1がWebページP2,P3への2つのフォワードリンクを有するからである。すなわち、100%÷2=50%である。
WebページP4,P5,P6に対する影響度は25%である。WebページP2,P3のそれぞれが2つのフォワードリンクを有するからである。すなわち、50%÷2=25%である。
WebページP7,P8に対する影響度は12.5%である。WebページP5がWebページP7,P8への2つのフォワードリンクを有するからである。すなわち、25%÷2=12.5%である。
WebページP9,P10に対する影響度は6.25%である。WebページP8がWebページP9,P10への2つのフォワードリンクを有するからである。すなわち、12%÷2=6.25%である。
WebページP11,P12に対する影響度は3.12%である。WebページP9がWebページP11,P12への2つのフォワードリンクを有するからである。すなわち、6.25%÷2=3.125%である(図11では小数第2位までを表記)。
WebページP13,P14,P15に対する影響度は1.56%である。WebページP11,P12のそれぞれが2つのフォワードリンクを有するからである。すなわち、3.125%÷2=1.5625%である(図11では小数第2位までを表記)。
WebページP16に対する影響度は1.56%である。WebページP13がWebページP16への1つのフォワードリンクを有するからである。すなわち、1.56%÷1=1.56%である。ただし、WebページP16は、WebページP14からの影響度0.78%もある(WebページP14は2つのフォワードリンクをもつため)。この場合、WebページP16に対する影響度を1.56%+0.78%=2.34%と評価してもよい。
WebページP17に対する影響度は0.78%である。WebページP14がWebページP16,P17への2つのフォワードリンクを有するからである。すなわち、1.5625%÷2=0.78125%である(図11では小数第2位までを表記)。
この場合、更新時影響度がεよりも初めて小さくなるのは、WebページP1からフォワードリンクを辿っていくと、WebページP11,P12である。すなわち、WebページP1〜P12が更新範囲R1に含まれるWebページとなる。よって、ランク処理部150は、WebページP1からフォワードリンクを辿り、WebページP2〜P12のランクを更新する。一方、WebページP13〜P17のランクは更新しない。
図12は、第2の実施の形態のランク参照を示すフローチャートである。以下、図12に示す処理をステップ番号に沿って説明する。なお、ステップS21の直前においてキュー121に格納されているジョブデータは存在しないものとする。
(ステップS21)受信部130は、クライアント200から参照要求を受信する。受信部130は、当該参照要求をキュー制御部140に出力する。当該参照要求では、WebページP16が指定されているものとする。なお、WebページP16のランクがWebページP16のランクに及ぼす参照時影響度を前述の通り“1”としている。すなわち、当該参照要求に相当するジョブは(P16,参照,1)である。
(ステップS22)キュー制御部140は、WebページP16の参照要求を受け付けたことをランク処理部150に通知する。ランク処理部150は、WebページP16のランクaをa=0に初期化する。
(ステップS23)キュー制御部140は、当該参照要求のジョブ(P16,参照,1)をキュー121に挿入する。
(ステップS24)キュー制御部140は、キュー121が空であるか否かを判定する。キュー121が空である場合、キュー制御部140はランク処理部150にその旨を通知して、処理をステップS29に進める。キュー121が空でない場合、処理をステップS25に進める。
(ステップS25)キュー制御部140は、キュー121から参照のジョブ(P,参照,γ)を取り出して、ランク処理部150に出力する。取り出されたジョブは、キュー121から削除される。
(ステップS26)ランク処理部150は、Webページ管理テーブル111を参照して、WebページPのランクを取得する。ただし、WebページPがWebページP16にする場合、当該ランク値は0である。ランク処理部150は、γ×(WebページPのランク)をWebページP16のランクaに加算する。
(ステップS27)ランク処理部150は、γ<ε’であるか否かを判定する。γ<ε’である場合、処理をステップS24に進める。γ≧ε’である場合、処理をステップS28に進める。
(ステップS28)ランク処理部150は、参照のジョブ(P’,参照,αγ’)を生成して、キュー制御部140に出力する。キュー制御部140は、取得したジョブをキュー121に挿入する。ここで、WebページP’は、WebページPのリンク元(バックリンク)のWebページである。ランク処理部150は、Webページ管理テーブル111に基づいてWebページP’を取得する。αγ’は、WebページP’からWebページP16に対する影響度である。γ’は、γ’=γ/(WebページP’のフォワードリンク数)により得られる値である。αは補正係数であり、0<α<1の実数である。なお、ここでいうγはステップS25で取り出されたWebページPからの影響度γである。WebページPへのリンク元のWebページが複数ある場合は、複数のジョブが生成されて、キュー121に挿入されることになる。そして、処理がステップS24に進められる。なお、WebページPへのバックリンクが存在しない場合は、ステップS28をスキップして、ステップS24に進む。
(ステップS29)ランク処理部150は、WebページP16のランクaの通知を送信部160に出力する。当該通知には、クライアント200を示す情報(例えば、IPアドレスなど)が含まれる。送信部160は、WebページP16のランクaをクライアント200に応答する。
このようにして、WebページP16への参照時影響度がε’よりも小さくなるまで、バックリンクを辿り、各Webページのランクに参照時影響度を乗じた値を、WebページP16のランクに加算していく。なお、上述の手順はグラフの幅優先探索に基づいている。その探索のステップ数は、参照範囲R2に含まれるWebページの数をN(Nは2以上の整数)およびリンクの数をM(Mは1以上の整数)とすれば、O(N+M)である。すなわち、参照範囲R2が小さいほど参照の処理コストは低減し、参照範囲R2が大きいほど参照の処理コストは増大する。
なお、図12ではWebページP16の参照要求を受け付けた場合を例示したが、他のWebページの参照要求を受け付けた場合も同様の手順となる。
図13は、第2の実施の形態の参照時影響度の例を示す図である。図13は参照時の影響度閾値ε’=5%,α=80%である場合を例示している。WebページP1〜P17のグラフ構造は、図11と同様である。
図12で示した手順によれば、WebページP16のランク参照に対して、各WebページからWebページP16に対する参照時影響度は次のようになる。WebページP16からの影響度は100%である。
WebページP13からの影響度は80%である。WebページP13はWebページP16への1つのフォワードリンクを有するからである。すなわち、100%÷1×0.8=80%である。
WebページP14からの影響度は40%である。WebページP14はWebページP16,P17への2つのフォワードリンクを有するからである。すなわち、100%÷2×0.8=40%である。
WebページP11,P12からの影響度は16%である。WebページP11,P12のそれぞれは2つのフォワードリンクを有するからである。すなわち、40%÷2×0.8=16%である。
WebページP9からの影響度は6.4%である。WebページP9はWebページP11,P12への2つのフォワードリンクを有するからである。すなわち、16%÷2×0.8=6.4%である。
WebページP8からの影響度は2.56%である。WebページP8はWebページP9,P10への2つのフォワードリンクを有するからである。すなわち、6.4%÷2×0.8=2.56%である。
WebページP5からの影響度は1.02%である。WebページP5はWebページP7,P8への2つのフォワードリンクを有するからである。すなわち、2.56%÷2×0.8=1.024%である(図13では小数第2位までを表記)。
WebページP2,P3からの影響度は0.40%である。WebページP2,P3のそれぞれは2つのフォワードリンクを有するからである。すなわち、1.024%÷2×0.8=0.4096%である(図13では小数第2位までを表記)。
WebページP1からの影響度は0.16%である。WebページP1はWebページP2,P3への2つのフォワードリンクを有するからである。すなわち、0.4096%÷2×0.8=0.16384%である(図13では小数第2位までを表記)。
上記以外のWebページP4,P6,P7,P10,P15,P17は、WebページP16に繋がるフォワードリンクを有していない。このため、WebページP4,P6,P7,P10,P15,P17からWebページP16に対する影響度は0%である。
この場合、参照時影響度がε’よりも初めて小さくなるのは、WebページP16からバックリンクを辿っていくと、WebページP8である。すなわち、WebページP8,P9,P11,P12,P14,P16が参照範囲R2に含まれるWebページとなる。よって、ランク処理部150は、WebページP16からバックリンクを辿り、WebページP14,P13,P12,P11,P9,P8のランクに基づいて、WebページP16のランクを計算する。
これにより、ランクを更新するための処理コストを軽減しながら、ランク評価の信頼性を高めることができる。具体的には、ランクの更新時において更新範囲R1に含まれるWebページのランクのみを更新することで、処理コストを軽減できる。ただし、更新の影響の伝搬が制限されることになるので、更新範囲R1の外部のWebページ(図11の例でいえばWebページP13〜P17)についてランクの精度が悪化し得る。このため、当該Webページについて、ランクの参照要求を受けた時に、当該Webページのランクを単に抽出して応答するのみでは、応答されたランクの信頼性は低いことになる。
そこで、サーバ100,100aは、あるWebページのランクの参照時に参照範囲R2に含まれるWebページのランクを考慮して、参照対象のWebページのランクを求める。例えば、上記のようにWebページP16のランクを参照する際に、WebページP16のランクに影響を及ぼす所定範囲のWebページのランクに基づいて、当該WebページP16のランクを評価して応答する。このため、例えばWebページP1の更新の影響がWebページP16に伝搬していなかったとしても、関連するWebページに対して当該影響が伝搬していれば、当該影響を参照対象のWebページP16に反映させてランクを得ることができる。すなわち、その時点においてWebページP16につき、より信頼性の高いランクを得られることになる。このとき、参照するランクの誤差(式(5),(6)に基づいて厳密に算出されるランクに対する誤差)は、影響度閾値ε,ε’を用いてεε’程度となることが期待される。ランクの分配を途中で打ち切る場合の誤差が更新時の影響度閾値ε程度とすると、0<ε’<1であるから、εε’<εである。すなわち、ランクの分配を途中で打ち切る場合に、あるWebページのランクを単に読み出す方法に比べて誤差を改善し得る。よって、ランク評価の信頼性を向上し得る。
上記の方法は、例えばあるWebページの更新に対し、より短時間で更新の影響を他のWebページに反映させたい場合に有用である。Webページの更新の頻度が比較的高ければ、更新時の影響度閾値εを参照時の影響度閾値ε’よりも大きくしておく(更新範囲R1を狭める)。すると、更新処理の処理コストを軽減でき、頻繁に発生するWebページの更新に追随して、各Webページのランクをリアルタイムに更新し得る。その場合、例えば、ε’をεよりも小さくしておく(参照範囲R2を広げる)。更新時の影響度閾値と参照時の影響度閾値との積εε’が一定になるようにε,ε’を変化させれば、変化の前後で、参照するランクについて期待される誤差をおおよそ一定に保つことができる。なお、例えば参照の頻度が比較的多ければ、逆にε’を大きくし、εを小さくすることも考えられる。
[第3の実施の形態]
以下、第3の実施の形態を説明する。前述の第2の実施の形態との相違点を主に説明し、共通する事項の説明を省略する。
第3の実施の形態では、更新要求の頻度および参照要求の頻度に応じて、影響度閾値ε,ε’を動的に変化させる機能を提供する。ここで、第3の実施の形態の情報処理システムは、図2で説明した第2の実施の形態の情報処理システムと同様である。また、第3の実施の形態のサーバのハードウェア例およびソフトウェア例は、図4,5で説明した第2の実施の形態のサーバ100のハードウェア例およびソフトウェア例と同様である。このため、第3の実施の形態の各装置を第2の実施の形態と同一の名称・符号を付して示す。
ただし、ページ情報記憶部110は、ログテーブルを更に記憶する点が第2の実施の形態と異なる。ログテーブルは、更新範囲R1の外部との境界に位置する更新範囲R1内のWebページに対するランクの更新内容を記録したものである。
また、ランク処理部150は、過去の所定期間(例えば1日、1週間など)における更新要求の頻度および参照要求の頻度に応じて、影響度閾値ε,ε’を変化させる点が第2の実施の形態と異なる。
図14は、第3の実施の形態のログテーブルの例を示す図である。ログテーブル112は、ページ情報記憶部110に記憶される。ログテーブル112は、開始ノード、終了ノードおよびランク増分の項目を含む。
開始ノードの項目には、更新要求で指定されたWebページのURLが登録される。終了ノードの項目には、更新処理の終端となったWebページのURLが登録される。更新処理の終端のWebページとは、更新範囲R1の外部との境界に位置する更新範囲R1内のWebページである。ランク増分の項目には、ランクの増分値が登録される。ランクの増分値は負の値でもよい(その場合はランクの減少分を示すことになる)。
例えば、ログテーブル112には、開始ノードが“P1”、終了ノードが“P11”、ランク増分が“0.002”という情報が登録されている。これは、WebページP1のランクの更新要求を受信し、その際に更新処理の終端となったWebページがWebページP11であったことを示す。また、このときのWebページP11のランクの増分値が“0.002”であったことを示す。
ある開始ノードに対して複数の終了ノードが登録されることもある。ログテーブル112の例では開始ノードであるWebページP1に対して、終了ノードである2つのWebページP11,P12が登録されている。
なお、ランク処理部150は、図10のステップS18において、更新処理の結果に基づいてログテーブル112にレコードを登録する。図11の例でいえば、WebページP1(開始ノード)に対して、更新範囲R1に含まれるWebページP11,P12(終了ノード)の情報を、ログテーブル112に登録することになる。
図15は、第3の実施の形態の更新・参照範囲の変更を示すフローチャートである。以下、図15に示す処理をステップ番号に沿って説明する。
(ステップS31)ランク処理部150は、クライアント200,200aから過去の所定期間内(例えば、1日)に受け付けた更新要求の頻度および参照要求の頻度の比率を確認する。ランク処理部150は、参照要求の頻度の比率が、デフォルトの比率よりも増大しているか否かを判定する。デフォルトの比率よりも増大している場合、処理をステップS32に進める。デフォルトの比率よりも増大していない場合、処理をステップS35に進める。例えば、更新要求の頻度:参照要求の頻度のデフォルトの比率を、1:2などのようにランク処理部150に予め与えておく。デフォルトの比率に応じて影響度閾値ε,ε’についてもデフォルトの値が定められる。例えば、上記比率1:2に対して、ε=5%,ε’=10%とする。
(ステップS32)ランク処理部150は、更新時の影響度閾値εを現在値よりも小さくする。例えば、ステップS31で例示したデフォルトの比率に対して、更新要求の頻度:参照要求の頻度が1:4(参照要求の頻度が2倍)になっているとする。その場合、例えば、εを2分の1にする。後述のようにε’を2倍にして参照の処理コストを軽減し、かつ、誤差のオーダを維持するためである。すなわち、ε=5%÷2=2.5%とする。これは、更新範囲R1を広げることに相当する。
(ステップS33)ランク処理部150は、ログテーブル112に基づいて、拡大した後の更新範囲と拡大前の更新範囲との差分の範囲に含まれる各Webページのランクを更新する。詳細は後述する。
(ステップS34)ランク処理部150は、参照時の影響度閾値ε’を現在値よりも大きくする。ステップS32での例示を継続して説明すれば、ε’を2倍にする。すなわち、ε’=10%×2=20%とする。これは、参照範囲R2を狭めることに相当する。そして、処理を終了する。
(ステップS35)ランク処理部150は、更新要求の頻度の比率が、デフォルトの比率よりも増大しているか否かを判定する。デフォルトの比率よりも増大している場合、処理をステップS36に進める。デフォルトの比率よりも増大していない場合、処理を終了する。
(ステップS36)ランク処理部150は、更新時の影響度閾値εを現在値よりも大きくする。例えば、ステップS31で例示したデフォルトの比率に対して、更新要求の頻度:参照要求の頻度が2:2(更新要求の頻度が2倍)になっているとする。その場合、例えば、εを2倍にする。すなわち、ε=5%×2=10%とする。これは、更新範囲R1を狭めることに相当する。更新の処理コストを軽減するためである。
(ステップS37)ランク処理部150は、参照時の影響度閾値ε’を現在値よりも小さくする。ステップS36での例示を継続して説明すれば、ε’を2分の1にする。誤差のオーダを維持するためである。すなわち、ε’=10%÷2=5%とする。これは、参照範囲R2を広げることに相当する。そして、処理を終了する。
このようにして、ランク処理部150は定期的に影響度閾値ε,ε’を調整する。このようにすれば、更新要求の頻度および参照要求の頻度に応じて、更新範囲R1および参照範囲R2を変更でき、要求の受信状況に応じて効率的に処理コストを削減できるようになる。特に、例示したように更新時の影響度閾値と参照時の影響度閾値との積εε’が一定になるように調整すれば、ε,ε’の変更前後においてランクの評価精度を一定に保つことができる。
なお、図15の手順において、ステップS33の処理をスキップしてステップS34を先に実行しておき、ステップS33の処理をランクの更新・参照の通常の処理と並行して行ってもよい。
図16は、第3の実施の形態の更新・参照範囲の変更例(その1)を示す図である。図16では更新範囲を広げて、参照範囲を狭める場合を例示する。図15のステップS32〜S34に相当する処理である。
図16(A)は、影響度閾値の変更前の状態の更新範囲R10および参照範囲R20を例示している。このとき、例えば、更新範囲R10に対応する更新時の影響度閾値ε=5%である。また、例えば、参照範囲R20に対応する参照時の影響度閾値ε’=10%である。
図16(B)は、図16(A)よりもεを小さくした状態を例示している。例えば、ε=2.5%である。これにより、更新範囲R10は更新範囲R11に広がる。すると、更新範囲R10,R11について差分領域ΔRが生ずることになる。そこで、ランク処理部150は、差分領域ΔRに含まれるWebページにつき、ログテーブル112に基づいてランクの更新を行う。ランクの参照時の評価精度を高めるためである。
具体的には、ログテーブル112に記録された開始ノードを起点とした変更の影響を、終了ノードのフォワードリンク先まで伝搬させる。伝搬の範囲(更新範囲R11)は開始ノードを起点としたフォワードリンクのツリーと変更後の影響度閾値εとにより定まる。このとき、ログテーブル112には、終了ノードのランク増分が登録されている。よって、終了ノードのフォワードリンク先を起点に終了ノードのランク増分の影響を伝搬させればよい(更新範囲R10内のWebページのランクは改めて計算しなくてよい)。
図16(C)は、図16(B)よりもε’を大きくした状態を例示している。例えば、ε’=20%である。これにより、参照範囲R20は参照範囲R21に狭まる。その結果、参照時の処理コストを軽減できる。その代わり、更新範囲R10を更新範囲R11のように拡張しているので、ランクの参照精度を、図16(A)の状態と同程度に維持することができる。
図17は、第3の実施の形態の更新・参照範囲の変更例(その2)を示す図である。図17では更新範囲を狭めて、参照範囲を広げる場合を例示する。図15のステップS36,S37に相当する処理である。
図17(A)は、影響度閾値の変更前の状態の更新範囲R10aおよび参照範囲R20aを例示している。このとき、例えば、更新範囲R10aに対応する更新時の影響度閾値ε=5%である。また、例えば、参照範囲R20aに対応する参照時の影響度閾値ε’=10%である。
図17(B)は、図17(A)よりもεを大きくした状態を例示している。例えば、ε=10%である。これにより、更新範囲R10aは更新範囲R11aに狭まる。
図17(C)は、図17(B)よりもε’を小さくした状態を例示している。例えば、ε’=5%である。これにより、参照範囲R20aは参照範囲R21aに広がる。
このように、更新範囲R10aを更新範囲R11aに狭めることで、更新時の処理コストを軽減できる。その代わり、参照範囲R20aを参照範囲R21aのように拡張しているので、ランクの参照精度を、図17(A)の状態と同程度に維持することができる。
以上のように、第3の実施の形態では更新要求の頻度および参照要求の頻度に応じて、Webページのランクの更新範囲および参照範囲を変更するようにした。具体的には、更新要求の頻度がデフォルトよりも高まれば、更新範囲を狭める(縮小する)。これにより、更新要求の頻度が高い場合に、更新処理の処理コストを軽減することができる。一方、参照要求の頻度がデフォルトよりも高まれば、参照範囲を狭める(縮小する)。これにより、参照要求の処理コストを軽減して、より早くランクの評価結果を応答することができる。
このとき、更新範囲を縮小したならば参照範囲を拡大し、また、参照範囲を縮小したならば更新範囲を拡大するように制御する。これによって、参照時に得られるランクの信頼性が低下するのを抑制できる。
ここで、第2,第3の実施の形態では、Webページをランク付けする場合を例示したが、他の場合にも利用できる。例えば、論文を評価する際に利用することが考えられる。論文は、他の論文を引用することが多い。このため、第1の論文(例えば、論文の文書データ)を有向グラフのノード21に、第2の論文を有向グラフのノード22に、第1の論文における第2の論文の引用を有向グラフの矢印23(リンク)に対応付けることができる。これによって、論文ごとの重要度を示す評価値を評価することが考えられる。同様にして、特許文献の評価に利用することも考えられる。特許文献も先行技術文献を引用するからである。
更に、文書以外を評価する場合にも利用できる。例えば、オンラインの通信販売などでお薦めの商品を提示するような場合である。例えば、ユーザが購入した第1,第2の商品を示す情報を有向グラフのノード21,22に、第1の商品が購入された場合、同じユーザにより第2の商品も購入されるという関連を矢印23(リンク)に対応付けることができる。すなわち、第1の商品を示す情報に、第2の商品を示す情報を指し示すリンクを含めたデータを作成し得る。このデータを用いて、商品ごとのお薦め度を示す評価値を評価することが考えられる。
なお、前述のように、第1の実施の形態の情報処理は、情報処理装置1にプログラムを実行させることで実現できる。また、第2の実施の形態の情報処理は、サーバ100,100aにプログラムを実行させることで実現できる。プログラムは、コンピュータ読み取り可能な記録媒体(例えば、光ディスク13、メモリ装置14およびメモリカード16など)に記録できる。
プログラムを流通させる場合、例えば、当該プログラムを記録した可搬記録媒体が提供される。また、プログラムを他のコンピュータの記憶装置に格納しておき、ネットワーク経由でプログラムを配布することもできる。コンピュータは、例えば、可搬記録媒体に記録されたプログラムまたは他のコンピュータから受信したプログラムを、記憶装置に格納し、当該記憶装置からプログラムを読み込んで実行する。ただし、可搬記録媒体から読み込んだプログラムを直接実行してもよく、他のコンピュータからネットワークを介して受信したプログラムを直接実行してもよい。
また、上記の情報処理の少なくとも一部を、DSP、ASIC、PLDなどの電子回路で実現することもできる。
1 情報処理装置
1a 記憶部
1b 演算部
2,3 グラフ構造
2a,4a,4d 更新範囲
3a,4b,4c,4e 参照範囲
4 データの全体集合

Claims (7)

  1. 複数のデータそれぞれが他のデータを指し示す関係性であるリンクをもっており、前記複数のデータそれぞれの評価値を、他のデータの評価値と他のデータがもつリンクとに基づいて評価する評価方法であって、情報処理装置が、
    第1のデータの評価値が更新されると、前記第1のデータの評価値に基づいて、少なくとも前記第1のデータからリンクされる1または複数の第2のデータそれぞれの評価値を評価して更新し、
    何れかのデータの評価値の参照要求を受け付けると、少なくとも当該データへのリンクをもつ1または複数の第3のデータそれぞれの評価値に基づいて、参照要求を受けた当該データの評価値を評価し出力する、評価方法。
  2. 前記第1のデータの評価値が更新されると、前記第1のデータから前記第2のデータを介してリンクされるデータのうち、前記第1のデータの評価値の変化分に対して各データの評価値に反映される変化分の割合が第1の閾値以上であるデータの評価値を、前記第2のデータの評価値に基づいて更新し、
    第4のデータの前記参照要求を受け付けると、前記第4のデータへ前記第3のデータを介してリンクするデータのうち、前記第4のデータの評価値に反映される各データの評価値の割合が第2の閾値以上であるデータの評価値に基づいて、前記第4のデータの評価値を評価する、請求項1記載の評価方法。
  3. 何れかのデータの評価値の更新がクライアント装置により要求される頻度と、クライアント装置から前記参照要求を受け付ける頻度と、に基づいて、前記第1の閾値および前記第2の閾値を変更する、請求項2記載の評価方法。
  4. 前記第1の閾値を増加させ前記第2の閾値を減少させるか、または、前記第1の閾値を減少させ前記第2の閾値を増加させるように、前記第1の閾値および前記第2の閾値を変更する、請求項3記載の評価方法。
  5. 前記第1の閾値と前記第2の閾値との積が一定になるように、前記第1の閾値および前記第2の閾値を変更する、請求項3または4記載の評価方法。
  6. 複数のデータそれぞれが他のデータを指し示す関係性であるリンクをもっており、前記複数のデータそれぞれの評価値を、他のデータの評価値と他のデータがもつリンクとに基づいて評価するために用いられる情報処理装置であって、
    前記複数のデータおよび前記複数のデータそれぞれの評価値を記憶する記憶部と、
    前記記憶部を参照して、第1のデータの評価値が更新されると、前記第1のデータの評価値に基づいて、少なくとも前記第1のデータからリンクされる1または複数の第2のデータそれぞれの評価値を評価して更新し、また、何れかのデータの評価値の参照要求を受け付けると、少なくとも当該データへのリンクをもつ1または複数の第3のデータそれぞれの評価値に基づいて、参照要求を受けた当該データの評価値を評価し出力する演算部と、を有する情報処理装置。
  7. 複数のデータそれぞれが他のデータを指し示す関係性であるリンクをもっており、前記複数のデータそれぞれの評価値を、他のデータの評価値と他のデータがもつリンクとに基づいて評価するためのプログラムであって、コンピュータに、
    第1のデータの評価値が更新されると、前記第1のデータの評価値に基づいて、少なくとも前記第1のデータからリンクされる1または複数の第2のデータそれぞれの評価値を評価して更新し、
    何れかのデータの評価値の参照要求を受け付けると、少なくとも当該データへのリンクをもつ1または複数の第3のデータそれぞれの評価値に基づいて、参照要求を受けた当該データの評価値を評価し出力する、処理を実行させるプログラム。
JP2012186316A 2012-08-27 2012-08-27 評価方法、情報処理装置およびプログラム Active JP5928248B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012186316A JP5928248B2 (ja) 2012-08-27 2012-08-27 評価方法、情報処理装置およびプログラム
US13/960,439 US9218384B2 (en) 2012-08-27 2013-08-06 Evaluation method and information processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012186316A JP5928248B2 (ja) 2012-08-27 2012-08-27 評価方法、情報処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2014044552A true JP2014044552A (ja) 2014-03-13
JP5928248B2 JP5928248B2 (ja) 2016-06-01

Family

ID=50148968

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012186316A Active JP5928248B2 (ja) 2012-08-27 2012-08-27 評価方法、情報処理装置およびプログラム

Country Status (2)

Country Link
US (1) US9218384B2 (ja)
JP (1) JP5928248B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150046468A1 (en) * 2013-08-12 2015-02-12 Alcatel Lucent Ranking linked documents by modeling how links between the documents are used
GB2524073A (en) * 2014-03-14 2015-09-16 Ibm Communication method and system for accessing media data
US10223368B2 (en) * 2015-12-17 2019-03-05 International Business Machines Corporation Predictive object tiering based on object metadata

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007511815A (ja) * 2003-10-20 2007-05-10 テレノール アーアスアー バックワード及びフォワード非正規化リンク重み分析方法、システム、及びコンピュータ・プログラム製品
JP2007272888A (ja) * 2006-03-30 2007-10-18 Internatl Business Mach Corp <Ibm> ファイルシステムの検索ランキング方法および関連の検索エンジン
JP2008243050A (ja) * 2007-03-28 2008-10-09 Fujitsu Ltd Webページ検索プログラム、方法、及び装置

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6285999B1 (en) 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US7024404B1 (en) * 2002-05-28 2006-04-04 The State University Rutgers Retrieval and display of data objects using a cross-group ranking metric
US20040117290A1 (en) * 2002-12-13 2004-06-17 Nachum Shacham Automated method and system to perform a supply-side evaluation of a transaction request
US7194466B2 (en) * 2003-05-01 2007-03-20 Microsoft Corporation Object clustering using inter-layer links
US20040243632A1 (en) * 2003-05-30 2004-12-02 International Business Machines Corporation Adaptive evaluation of text search queries with blackbox scoring functions
US7689585B2 (en) * 2004-04-15 2010-03-30 Microsoft Corporation Reinforced clustering of multi-type data objects for search term suggestion
US7346621B2 (en) * 2004-05-14 2008-03-18 Microsoft Corporation Method and system for ranking objects based on intra-type and inter-type relationships
KR100596816B1 (ko) * 2006-02-21 2006-07-07 조형구 양방향 검색과 모니터링을 통한 광고관리 및 검색 시스템
JP4469818B2 (ja) 2006-07-18 2010-06-02 株式会社東芝 データ管理装置、データプログラム及びデータ管理方法
JP4675856B2 (ja) 2006-07-25 2011-04-27 株式会社ソニー・コンピュータエンタテインメント 情報処理装置、ユーザインタフェース方法及びプログラム
EP2079049A4 (en) * 2006-11-02 2011-11-09 Patent Result Co Ltd PATENT EVALUATION DEVICE
US20080114753A1 (en) * 2006-11-15 2008-05-15 Apmath Ltd. Method and a device for ranking linked documents
US7996409B2 (en) * 2006-12-28 2011-08-09 International Business Machines Corporation System and method for content-based object ranking to facilitate information lifecycle management
US20090006469A1 (en) * 2007-06-26 2009-01-01 Microsoft Corporation Clustering users using contextual object interactions
US20090112843A1 (en) * 2007-10-29 2009-04-30 International Business Machines Corporation System and method for providing differentiated service levels for search index
US8326847B2 (en) * 2008-03-22 2012-12-04 International Business Machines Corporation Graph search system and method for querying loosely integrated data
KR100963623B1 (ko) * 2008-04-23 2010-06-15 재단법인서울대학교산학협력재단 시맨틱 웹 자원의 랭킹처리방법
WO2010016366A1 (ja) * 2008-08-05 2010-02-11 日本電気株式会社 ユーザビリティ評価装置、ユーザビリティ評価方法及びプログラム
KR101659064B1 (ko) * 2009-09-03 2016-09-22 김서준 사용자 피드백을 이용하여 컨텐츠에 대한 평가 점수를 산출하기 위한 방법 및 장치
US8180755B2 (en) * 2009-09-04 2012-05-15 Yahoo! Inc. Matching reviews to objects using a language model
JP5727476B2 (ja) * 2010-06-23 2015-06-03 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 画像評価装置、画像評価方法、プログラム、集積回路
EP2573685A1 (en) * 2011-09-23 2013-03-27 Alcatel Lucent Ranking of heterogeneous information objects
US8843477B1 (en) * 2011-10-31 2014-09-23 Google Inc. Onsite and offsite search ranking results
US8682932B2 (en) * 2012-02-16 2014-03-25 Oracle International Corporation Mechanisms for searching enterprise data graphs
US20130275429A1 (en) * 2012-04-12 2013-10-17 Graham York System and method for enabling contextual recommendations and collaboration within content

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007511815A (ja) * 2003-10-20 2007-05-10 テレノール アーアスアー バックワード及びフォワード非正規化リンク重み分析方法、システム、及びコンピュータ・プログラム製品
JP2007272888A (ja) * 2006-03-30 2007-10-18 Internatl Business Mach Corp <Ibm> ファイルシステムの検索ランキング方法および関連の検索エンジン
JP2008243050A (ja) * 2007-03-28 2008-10-09 Fujitsu Ltd Webページ検索プログラム、方法、及び装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6016011412; 山田 雅信: 'インクリメンタルPageRankによる重要Webページの効率的な収集戦略' 情報処理学会論文誌 第45巻 No.SIG11(ACS7), 20041015, 465-473ページ, 社団法人情報処理学会 *

Also Published As

Publication number Publication date
JP5928248B2 (ja) 2016-06-01
US9218384B2 (en) 2015-12-22
US20140059063A1 (en) 2014-02-27

Similar Documents

Publication Publication Date Title
CN102782681B (zh) 用于支持用户内容馈送的机制
US9690568B2 (en) Client-side script bundle management system
US8219687B2 (en) Implementing browser based hypertext transfer protocol session storage
US20120011150A1 (en) Methods and Apparatus for Efficiently Processing Multiple Keyword Queries on a Distributed Network
US8909737B2 (en) Caching provenance information
US20120124034A1 (en) Co-selected image classification
JP2005327299A (ja) オブジェクトの類似性を異種の関係に基づいて判定するための方法およびシステム
JP2015509229A5 (ja)
US20200084019A1 (en) Blockchain Ranking Engine
US8825745B2 (en) URL-facilitated access to spreadsheet elements
US20100318567A1 (en) Use of data patterns for rapid search of complex rules in a rules-based search engine
US7979386B1 (en) Method and system for performing search engine optimizations
US20090083266A1 (en) Techniques for tokenizing urls
US12118007B2 (en) Incremental data retrieval based on structural metadata
CA2682051A1 (en) Look-ahead document ranking system
US9195944B1 (en) Scoring site quality
US20210099477A1 (en) Identifying Similar Assets Across A Digital Attack Surface
JP5928248B2 (ja) 評価方法、情報処理装置およびプログラム
US11436291B1 (en) Source rank metric of measuring sources of influence
JP5084796B2 (ja) 関連性判定装置、関連性判定方法およびプログラム
US9881101B2 (en) Dynamic file retrieving for web page loading
JP5231604B2 (ja) クロールサーバ及び方法
US11601460B1 (en) Clustering domains for vulnerability scanning
US20130110912A1 (en) System and method for providing anonymous internet browsing
CN109190003B (zh) 用于确定列表页节点的方法与设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150512

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160411

R150 Certificate of patent or registration of utility model

Ref document number: 5928248

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150