JP5231604B2 - クロールサーバ及び方法 - Google Patents

クロールサーバ及び方法 Download PDF

Info

Publication number
JP5231604B2
JP5231604B2 JP2011127313A JP2011127313A JP5231604B2 JP 5231604 B2 JP5231604 B2 JP 5231604B2 JP 2011127313 A JP2011127313 A JP 2011127313A JP 2011127313 A JP2011127313 A JP 2011127313A JP 5231604 B2 JP5231604 B2 JP 5231604B2
Authority
JP
Japan
Prior art keywords
url
access cycle
cycle
citation frequency
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011127313A
Other languages
English (en)
Other versions
JP2012256095A (ja
Inventor
洋輔 早川
雄作 谷口
ベルナルド ラーメルス
達洋 丹羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2011127313A priority Critical patent/JP5231604B2/ja
Publication of JP2012256095A publication Critical patent/JP2012256095A/ja
Application granted granted Critical
Publication of JP5231604B2 publication Critical patent/JP5231604B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、クロールサーバ及び方法に関し、特に、ネットワーク上の文書や画像などの各種データを周期的に取得し、自動的にデータベース化するクローラのアクセス周期を調整するクロールサーバ及び方法に関する。
近年、ユーザがWWW(World Wide Web)上のWebページなどを検索しようとする際には、検索システムを利用することが一般的である。検索システムでは、ユーザからの検索要求に対して瞬時に検索結果を返信するために、クローラと呼ばれるプログラムを用いて対象となるWebページから情報を収集し、検索用のインデックスデータを予め生成しておくこととしている。
ところで、クローラは検索の対象となるWebページから常時情報を収集するわけではなく、離散的なタイミングで情報を収集するため、あるWebページについて一度情報を収集してから次に当該Webページの情報を収集するまでの間に当該Webページが更新された場合、検索用のインデックスデータにはその更新の内容が反映されない期間が生じることとなる。したがって、このような検索システムにおける検索精度は、インデックスデータの鮮度(収集したWebページの情報の新しさ)に左右されるため、近年では、インデックスデータの鮮度を向上させる様々な試みがなされている。
例えば、特許文献1には、Webページに対するクローラの巡回頻度をユーザのアクセス実態に基づいて変更することで、インデックスデータの鮮度を保つ検索システムが開示されている。この検索システムでは、ツールバー装置を利用してユーザが実際に閲覧したWebページを示す閲覧情報を収集し、この閲覧情報からクローラの巡回頻度を決定している。
また、近年、現在の状況や雑記などを記載した短い文章の投稿を受け付け他のユーザに閲覧・返信させることで、ユーザ間でコミュニケーションを図るTWITTER(登録商標)などを代表とするショートブログサービスが頻繁に利用されている。
1つの文章が短いショートブログは、投稿が容易であるため、ショートブログサービス内ではWebページに比べて非常に高い頻度で新たなショートブログが投稿されている。このとき、ショートブログの中には、Webページを引用して投稿されるものも多数あり、このようなショートブログを引用して新たなショートブログが投稿(リツイート)される結果、あるWebページがショートブログサービス内の多くのユーザに注目される場合がある。
特開2009−048380号公報
ところで、上記特許文献1の検索システムでは、既に多くのユーザにより閲覧された後のWebページの巡回頻度を向上させるため、検索精度の向上といった観点からは、必ずしも適切とはいえなかった。また、近年、大きな注目を集めているショートブログサービス内の状況を検索結果に反映するものでもなく、検索精度の向上に対して更なる改善が求められていた。
そこで、本発明は、検索精度の更なる向上を実現するとともに、ショートブログサービス内で注目されているWebページ(URL)をWWW上のユーザに流通可能なクロールサーバ及び方法を提供することを目的とする。
(1) 予め定めたURLにアクセスし関連するデータを取得するクローラの前記URLへのアクセス周期を調整するクロールサーバであって、所定の周期で、ショートブログサーバが管理するショートブログサービス内で前記所定の周期の間に投稿されたショートブログが引用するURLの引用頻度を、前記URLごとに算出する引用頻度算出手段と、前記引用頻度算出手段が算出した前記引用頻度が所定値以上上昇したことに基づいて、当該URLへのアクセス周期をより短く調整するスケジュール変更手段と、を備えるクロールサーバ。
(1)のクロールサーバによれば、ショートブログサービス内で投稿されたショートブログが引用するURLの引用頻度が所定値以上上昇したことに基づいて、クローラによる当該URLへのアクセス周期をより短くなるように変更する。
ここで、Webページ(URL)がショートブログサービス内で多くのユーザに注目されている場合には、ショートブログが引用するURLの引用頻度が上昇するものと考えられる。このようなWebページは、近い将来においてショートブログサービス以外のWWW上のユーザも注目するものと予測されるため、本発明のクロールサーバでは、多くのユーザが閲覧を望むであろうWebページに対するクローラのアクセス周期をより短く調整する。
これにより、本発明のクロールサーバでは、WWW上の検索システムの検索精度の更なる向上を図ることができるとともに、ショートブログサービス内の状況をWWW上の検索結果に反映(すなわち、ショートブログサービス内で注目されているWebページを流通)することができる。
(2) 前記スケジュール変更手段は、前記周期の間における引用頻度の上昇率が大きいほど、当該URLへの前記アクセス周期を短く調整する、(1)に記載のクロールサーバ。
(2)のクロールサーバによれば、ショートブログサービス内で注目されているWebページ(URL)を、WWW上のユーザに流通することができる。
(3) 前記スケジュール変更手段は、前記周期の間における引用頻度の下降率が大きいほど、当該URLへの前記アクセス周期を長く調整する、(1)又は(2)に記載のクロールサーバ。
(3)のクロールサーバによれば、ショートブログサービス内で注目されていないWebページ(URL)に対しては、クローラのアクセス周期を長く調整するため、ショートブログサービス内の状況を適切に検索結果に反映できる。
(4) 前記スケジュール変更手段は、前記アクセス周期を変更した前記URLの引用頻度の上昇率が特定値以下となった場合に、前記アクセス周期を変更前の周期に戻す、(1)から(3)のいずれかに記載のクロールサーバ。
(4)のクロールサーバによれば、ショートブログサービス内で注目が収まってくると、当該Webページ(URL)に対するクローラのアクセス周期を元に戻す。これにより、ショートブログサービス内の注目度にあった必要な期間だけ、Web検索システムのクローラのアクセス周期を短くすることができ、アクセス周期を短くすることによる通信負荷の増加や検索システムのシステム負荷を適切に管理することができる。
なお、特定値以下の上昇率については管理者が適宜設定することができ、例えば、上昇率「0」としてもよく、また、マイナスの上昇率(下降)となった場合に、クローラのアクセス周期を元に戻すこととしてもよい。また、引用頻度自体は未だ上昇しているが上昇率は低下している場合(上昇が鈍化してきた場合)に、クローラのアクセス周期を元に戻すこととしてもよい。
(5) 前記スケジュール変更手段は、前記引用頻度算出手段が算出した前記引用頻度が所定値以上上昇したことに基づいて、当該URLが示すWebページに含まれるリンク先URLへのアクセス周期をより短く調整し、更に当該リンク先URLが示すWebページに含まれるリンク先URLへのアクセス周期をより短く調整する処理を所定回数繰り返す(1)から(4)のいずれかに記載のクロールサーバ。
(5)のクロールサーバによれば、ショートブログサービス内で多くのユーザに引用されているWebページ(URL)のみならず、当該Webページ(URL)に含まれるリンク先のWebページ(URL)についても、クローラのアクセス周期を短く調整することができる。したがって、当該引用されているWebページ(URL)を介して多くのユーザからクリックされ、閲覧される可能性の高い、当該引用されているWebページ(URL)から所定回数以内のクリック操作でリーチ可能なWebページ(URL)についても、クローラのアクセス周期を短く調整することができる。
(6) 前記スケジュール変更手段は、前記周期の間における引用頻度の上昇率が大きいほど、前記リンク先URLへのアクセス周期をより短くする調整する処理をより多く繰り返す(5)に記載のクロールサーバ。
(6)のクロールサーバによれば、ショートブログサービス内で注目されているWebページ(URL)ほど、当該引用されているWebページ(URL)からより離れた範囲のWebページ(URL)についてもアクセス周期を短く調整することができる。したがって、より注目されているWebページ(URL)ほど、より多くのクリック操作を経てリーチ可能なWebページ(URL)についても、クローラのアクセス周期を短く調整することができる。
(7) 予め定めたURLにアクセスし関連するデータを取得するクローラの前記URLへのアクセス周期を調整する方法であって、コンピュータが実行する、所定の周期で、ショートブログサーバが管理するショートブログサービス内で前記所定の周期の間に投稿されたショートブログが引用するURLの引用頻度を、前記URLごとに算出するステップと、算出した前記引用頻度が所定値以上上昇したことに基づいて、当該URLへのアクセス周期をより短く調整するステップと、を含む方法。
(7)の方法によれば、(1)のクロールサーバと同様の効果を奏する。
本発明によれば、検索精度の更なる向上を実現するとともに、ショートブログサービス内で注目されているWebページ(URL)をWWW上のユーザに流通することができる。
本発明のクロールサーバの機能構成を示すブロック図である。 引用頻度データベースを示す図である。 スケジュールデータベースを示す図である。 本発明のクロールサーバの動作を示す図である。 本発明のクロールサーバの処理の流れを示すフローチャートである。 本発明のクロールサーバの処理の流れを示すフローチャートである。
以下、本発明の実施形態について図面を参照して説明する。
[クロールサーバ1の構成]
初めに、図1を参照して、本発明のクロールサーバ1の機能構成について説明する。
本発明のクロールサーバ1は、ショートブログサービスを管理するショートブログサーバ100と通信可能に接続され、スケジュール調整部10と、クロール部20と、を含んで構成される。
なお、ショートブログサーバ100は、ショートブログサービス内で投稿されたショートブログを記憶するショートブログデータベース110を含む。ここで、ショートブログサービス内で投稿されたショートブログは、文字数制限(例えば、140文字以内)のあるテキスト情報を含み、このテキスト情報には、ユーザが作成したコメントに加え、Webページの所在を示すURLが含まれる場合がある。そのため、ショートブログデータベース110には、URLを含むショートブログが記憶される。
<スケジュール調整部10>
スケジュール調整部10は、クロール部20(クローラ21)のWebページ(URL)へのアクセス周期を調整するため、引用頻度算出手段11と、スケジュール変更手段12と、引用頻度データベース13と、スケジュールデータベース14と、を含んで構成される。
引用頻度算出手段11は、所定の周期でショートブログサーバ100のショートブログデータベース110にアクセスし、ショートブログサービス内で投稿されたショートブログのうちURLを引用する(含む)ショートブログを抽出する。このとき、本発明では、引用頻度の変化(上昇率)を算出することとしているため、引用頻度算出手段11は、所定の周期の間の差分(新たに投稿されたショートブログ)のみを抽出する。
引用頻度算出手段11は、所定の周期の間に投稿されたURLを引用するショートブログを抽出すると、URLごとに、当該所定の周期の間にショートブログに引用された回数など(引用頻度、上昇率など)を算出する。
ここで、所定の周期については、管理者が任意に設定することができる。なお、1つの文章が短いショートブログは、投稿が容易であるため、ショートブログサービス内ではWebページに比べて非常に短い頻度で新たなショートブログが投稿されている。そのため、引用頻度算出手段11は、比較的短い周期(例えば、1時間ごとなどのように、一日のうちに数度)でショートブログデータベース110にアクセスすることが好ましい。
また、引用頻度算出手段11は、算出した引用頻度などの情報を引用頻度データベース13に記憶する。
ここで、図2を参照して、引用頻度データベース13について説明する。引用頻度データベース13は、URLごとに引用頻度算出手段11により算出された各種情報、例えば、引用頻度(引用回数)や引用頻度の上昇率(変化)を記憶する。
なお、本発明では、ショートブログサービス内のURLの引用頻度の変化に基づいて、クローラ21のアクセス周期を変更することとしているが、引用頻度の変化は、引用頻度の多少により大きな影響を受ける(例えば、0から1に変化した場合には、無限大の上昇となる)。そこで、本実施形態では、引用頻度の上昇率を引用頻度で補正した上昇スコアを引用頻度データベース13に記憶し、このような上昇スコアに基づいて、対応するURLの引用頻度が急上昇中であるか、急下降中であるかを判定することとしている。本実施形態では、例えば、上昇スコアが「+20以上」である場合に、急上昇中であると判定され、上昇スコアが「−20以下」である場合に、急下降中であると判定される。このような急上昇中(急下降中)であるか否かの判定についても、引用頻度算出手段11が算出し、引用頻度データベース13に記憶しておくこととしてもよい。
引用頻度の上昇率の補正は、任意の方法で行うことができ、また、補正することなく引用頻度の上昇率のみで急上昇中であるか否かなどを判定することも、本発明に含まれる。
スケジュール変更手段12は、引用頻度の上昇率(より詳細には上昇スコア)に基づいて、対応するURLへのクローラ21のアクセス周期を調整する。なお、アクセス周期の調整の程度については、管理者が任意に設定することができる。
具体的には、スケジュール変更手段12は、引用頻度の上昇率(上昇スコア)が所定値以上(すなわち、急上昇中と判定)であることを条件に、対応するURLへのクローラ21のアクセス周期をより短く調整することができる。このとき、スケジュール変更手段12は、上昇スコアが大きいほど、対応するURLへのクローラ21のアクセス周期を短く調整することとしてもよい。図2を参照して、URL1の上昇スコアは「+35」であり、URL2の上昇スコアは「+22」である。そこで、スケジュール変更手段12は、URL1へのクローラ21のアクセス周期を、URL2へのクローラ21のアクセス周期よりも短く調整することとしてもよい。
また、スケジュール変更手段12は、引用頻度の下降率(上昇スコアのマイナスの値の絶対値)が所定値以上(すなわち、急下降中と判定)であることを条件に、対応するURLへのクローラ21のアクセス周期をより長く調整することとしてもよい。このとき、スケジュール変更手段12は、下降率が大きいほど、対応するURLへのクローラ21のアクセス周期を長く調整することとしてもよい。
また、スケジュール変更手段12は、引用頻度の上昇率又は下降率が特定値以下(上昇スコアの絶対値が特定値以下)となることを条件に、対応するURLへのクローラ21のアクセス周期を変更前の周期に戻すこととしてもよい。このとき、特定値以下の上昇率(下降率)については、管理者が任意に設定することができ、例えば、上昇率「0」としてもよく、また、上昇から下降に転じた場合や下降から上昇に転じた場合の値としてもよく、また、上昇や下降の割合が鈍化してきた場合の値(URL1を参照して、上昇スコア「+35」から「+25(未だ急上昇中)」となった場合)などとしてもよい。
また、スケジュール変更手段12は、変更したアクセス周期などの情報をスケジュールデータベース14に記憶する。
ここで、図3を参照して、スケジュールデータベース14について説明する。スケジュールデータベース14は、URLごとにクローラ21のアクセス周期を記憶する。ここで、スケジュールデータベース14は、変更前及び変更後のアクセス周期を記憶することとしてもよい。なお、スケジュールデータベース14は、変更前のアクセス周期として、URLごとに基本となるアクセス周期を記憶しておくこととしてもよい。
図2及び図3を参照して、急上昇中と判定された「URL1」及び「URL2」のアクセス周期が短く変更され、急下降中と判定された「URL3」のアクセス周期が長く変更されている。特に、上昇スコアのより大きい「URL1」のアクセス周期は、「URL2」のアクセス周期よりも短く変更されている。
<クロール部20>
クロール部20は、WWW上の検索システムに用いるインデックスデータを生成するため、クローラ21と、インデックスデータベース22と、を含んで構成される。
クローラ21は、スケジュールデータベース14に記憶されたアクセス周期に従い、WWW上のWebページにアクセスし、各種データを収集するとともに、収集した各種データから、検索システムに用いるインデックスデータを生成する。
インデックスデータベース22は、クローラ21により生成されたインデックスデータを記憶し、ユーザから検索要求を受けた際に参照される。検索システムでは、インデックスデータベース22に記憶されたインデックスデータを用いることで、ユーザからの検索要求に対して瞬時に検索結果を返信する。
<クロールサーバ1の動作>
続いて、図4を参照して、本発明のクロールサーバ1の動作について説明する。
ユーザU1が「URL1」を引用するショートブログを投稿し、当該ショートブログを引用してユーザU2,U3,U4などの多くのユーザが新たなショートブログを投稿(リツイート)したため、ショートブログサービス内でURL1の引用頻度が急上昇し、URL1(Webページ)が大きな注目を集めている。このような注目を集めるURL1が取り扱う出来事は、ショートブログサービス以外のサービスを利用するユーザにも注目されるものであり、図4では、WWW上のユーザU11が検索システムを用いて当該出来事を取り扱うWebページを検索しようとしている。
このとき、図4(1)に示すように、クローラ21のURL1へのアクセス周期が長い場合、多くのユーザに注目されている期間中にクローラ21がURL1にアクセスするとは限らず、インデックスデータの鮮度(反映するURLの情報の新しさ)が悪くなる。その結果、ユーザU11が検索したとしても、多くのユーザに注目されているURL1を検索結果として提供できない可能性がある。あるいは、更新されたURL1(Webページ)に追加されたキーワードに係る検索クエリに対応できない可能性がある。
そこで、本発明のクロールサーバ1では、引用頻度算出手段11がショートブログサービス内の引用頻度の変化を算出し、算出した引用頻度の変化からスケジュール変更手段12がクローラ21のアクセス周期を変更する。
これにより、クローラ21は、ショートブログサービス内で注目度が高い期間中にURL1にアクセスすることができ、インデックスデータの鮮度を良くすることができる。その結果、WWW上のユーザU11が、ショートブログサービス内で多くのユーザに注目されているURL1を検索した場合であっても、当該URL1(Webページ)を検索結果として適切に提供することができる。あるいは、更新されたURL1(Webページ)に追加されたキーワードに係る検索クエリにタイムリーに対応して、URL1(Webページ)を適切に検索結果として提供することができる。すなわち、本発明のクロールサーバ1では、ショートブログサービス内で注目されているURLを、他のサービスに流通することができる。
[クロールサーバ1のハードウェア構成]
以上説明したクロールサーバ1のハードウェアは、1又は複数の一般的なコンピュータによって構成することができる。一般的なコンピュータは、例えば、制御部として、中央処理装置(CPU)を備える他、記憶部として、メモリ(RAM、ROM)、ハードディスク(HDD)及び光ディスク(CD、DVDなど)を、ネットワーク通信装置として、各種有線及び無線LAN装置を、表示装置として、例えば、液晶ディスプレイ、プラズマディスプレイなどの各種ディスプレイを、入力装置として、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボールなど)を適宜備え、これらは、バスラインにより接続されている。このような一般的なコンピュータにおいて、CPUは、クロールサーバ1を統括的に制御し、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
[クロールサーバ1の処理]
続いて、図5及び図6を参照して、本発明のクロールサーバ1の処理について説明する。
<スケジュール調整処理>
図5を参照して、クロールサーバ1によるスケジュール調整処理について説明する。
S1,S2:引用頻度算出手段11は、管理者が設定した周期でショートブログデータベース110にアクセスし、当該期間内にショートブログサービス内で引用された回数(引用頻度)を、URLごとに算出する(S1)。続いて、引用頻度算出手段11は、前回周期時からの引用頻度の変化(上昇率/下降率)に基づいて、ショートブログサービス内における対応するURLの引用頻度が急上昇中であるか、急下降中であるかを判定する(S2)。このとき、引用頻度算出手段11は、引用頻度の変化を引用頻度で補正した上昇スコアを算出し、当該上昇スコアに基づいて、急上昇中であるか、急下降中であるかを判定することとしてもよい。
S3:続いて、スケジュール変更手段12は、S1,S2で算出された引用頻度の変化に基づいて、クローラ21のアクセス周期の変更を行う。詳細は図6を参照して説明するが、この処理では、スケジュール変更手段12は、例えば、引用頻度が急上昇中のURLに対するアクセス周期を短くするとともに、引用頻度の急上昇が鈍化したURLに対するアクセス周期を変更前に戻すなどの処理を行う。
<スケジュール調整処理>
図6を参照して、クロールサーバ1によるアクセス周期変更処理の詳細について説明する。
S11〜S13:スケジュール変更手段12は、前回の周期時にアクセス周期を変更したURLであるか否かを判定する(S11)。このとき、前回の周期時にアクセス周期を変更したURLである場合には、スケジュール変更手段12は、上昇スコアの絶対値が特定値以下であるか否かを判定し(S12)、特定値以下であるURLについては、アクセス周期を変更前の周期に戻し、スケジュール調整処理を終了する。
S14,S15:他方、前回の周期時にアクセス周期を変更していないURLや、変更していたとしても上昇スコアの絶対値が特定値以上のURLについては、スケジュール変更手段12は、ショートブログサービス内での引用頻度が急上昇中であるか否かを判定する(S14)。このとき、急上昇中であるURLについては、スケジュール変更手段12は、上昇スコアが高い(上昇)ほど短くなるようにアクセス周期を短縮し(S15)、スケジュール調整処理を終了する。
S16、S17:他方、急上昇中でないURLについては、スケジュール変更手段12は、ショートブログサービス内での引用頻度が急下降中であるか否かを判定する(S16)。このとき、急下降中であるURLについては、スケジュール変更手段12は、上昇スコアが低い(下降)ほど長くなるようにアクセス周期を延長し(S17)、スケジュール調整処理を終了する。
[クロールサーバ1の効果]
近年、新たに登場したサービスであるショートブログは投稿が容易であり、また、リツイートなどの形で他人のショートブログを引用した新たなショートブログが次々と投稿されるため、あるURL(Webページ)に対する注目度は、従来にない速度で急上昇することがある。
この点、本発明のクロールサーバ1によれば、ショートブログサービス内で投稿されるショートブログでの引用頻度が急上昇したURL(Webページ)については、検索システムのクローラ21がより頻繁にアクセスするように、アクセス周期を短縮する。
これにより、近い将来においてショートブログサービス以外のWWW上のユーザが注目するものと予測されるWebページを適切にインデックスデータに反映でき、WWW上の検索システムの検索精度の更なる向上を図ることができる。すなわち、従来にない速度で急激に変化する注目度に対応した検索結果をユーザに提供することができ、ショートブログサービス内で注目されているWebページをWWW上のユーザに流通することができる。
また、クロールサーバ1では、ショートブログでの引用頻度が急下降したURL(Webページ)については、クローラ21のアクセス周期を長く調整するため、ショートブログサービス内の注目度を適切に検索結果に反映できる。
また、クロールサーバ1では、ショートブログでの引用頻度が特定値以下となったURL(Webページ)に対しては、クローラ21のアクセス周期を元に戻す。これにより、ショートブログサービス内の注目度にあった必要な期間だけ、クローラ21のアクセス周期を短くすることができ、アクセス周期を短くすることによる通信負荷の増加や検索システムのシステム負荷を適切に管理することができる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
上記実施形態では、ショートブログサービス内での引用頻度の上昇率(急上昇スコア)が大きいURL(Webページ)についてのみクローラ21のアクセス周期をより短くすることとしているが、これに限られるものではない。例えば、当該Webページで設定されたリンクに基づいて到達可能なWebページ(リンク先URLにより特定されるWebページ)についても、クローラ21のアクセス周期をより短く調整することとしてもよい。
このとき、クローラ21のアクセス周期をより短く調整するWebページの範囲は、引用頻度の上昇率(急上昇スコア)に基づいて決定することとしてもよい。すなわち、引用頻度の上昇率(急上昇スコア)が大きいほど、広い範囲のWebページ(急上昇したWebページからより多くのクリック操作で到達可能な範囲のWebページ)のアクセス周期をより短く調整することとしてもよい。より具体的には、引用頻度の上昇率(急上昇スコア)が第1の値である場合には、当該URL(Webページ)に含まれるリンク先URLにより特定されるWebページまでクローラ21のアクセス周期をより短く調整する一方で、引用頻度(急上昇スコア)が第1の値よりも大きい第2の値である場合には、リンク先URLにより特定されるWebページだけでなく、当該リンク先URLにより特定されるWebページで設定されたリンクに基づいて到達可能なWebページにまでクローラ21のアクセス周期をより短く調整することとしてもよい。
そこで、スケジュール変更手段12は、引用頻度算出手段11が算出した引用頻度が所定値以上上昇したことに基づいて、当該URLが示すWebページに含まれるリンク先URLへのアクセス周期をより短く調整し、更に当該リンク先URLが示すWebページに含まれるリンク先URLへのアクセス周期をより短く調整する処理を所定回数繰り返す、こととしてもよい。このとき、スケジュール変更手段12は、リンク先URLへのアクセス周期をより短く調整する処理を繰り返す所定回数を、周期の間における引用頻度の上昇率が大きいほど、より多く繰り返す、こととしてもよい。
1 クロールサーバ
10 スケジュール調整部
11 引用頻度算出手段
12 スケジュール変更手段
13 引用頻度データベース
14 スケジュールデータベース
20 クロール部
21 クローラ
22 インデックスデータベース
100 ショートブログサーバ
110 ショートブログデータベース

Claims (6)

  1. 予め定めたURLにアクセスし関連するデータを取得するクローラの前記URLへのアクセス周期を調整するクロールサーバであって、
    所定の周期で、ショートブログサーバが管理するショートブログサービス内で前記所定の周期の間に投稿されたショートブログが引用するURLの引用頻度を、前記URLごとに算出する引用頻度算出手段と、
    前記引用頻度算出手段が算出した前記引用頻度が所定値以上上昇したことに基づいて、当該URLへのアクセス周期をより短く調整し、当該URLが示すWebページに含まれるリンク先URLへのアクセス周期をより短く調整し、更に当該リンク先URLが示すWebページに含まれるリンク先URLへのアクセス周期をより短く調整する処理を所定回数繰り返すスケジュール変更手段と、
    を備えるクロールサーバ。
  2. 前記スケジュール変更手段は、前記周期の間における引用頻度の上昇率が大きいほど、当該URLへの前記アクセス周期を短く調整する、
    請求項1に記載のクロールサーバ。
  3. 前記スケジュール変更手段は、前記周期の間における引用頻度の下降率が大きいほど、当該URLへの前記アクセス周期を長く調整する、
    請求項1又は2に記載のクロールサーバ。
  4. 前記スケジュール変更手段は、前記アクセス周期を変更した前記URLの引用頻度の上昇率が特定値以下となった場合に、前記アクセス周期を変更前の周期に戻す、
    請求項1から3のいずれかに記載のクロールサーバ。
  5. 前記スケジュール変更手段は、前記周期の間における引用頻度の上昇率が大きいほど、前記リンク先URLへのアクセス周期をより短くする調整する処理をより多く繰り返す請求項1から4のいずれかに記載のクロールサーバ。
  6. 予め定めたURLにアクセスし関連するデータを取得するクローラの前記URLへのアクセス周期を調整する方法であって、
    コンピュータが実行する、
    所定の周期で、ショートブログサーバが管理するショートブログサービス内で前記所定の周期の間に投稿されたショートブログが引用するURLの引用頻度を、前記URLごとに算出するステップと、
    算出した前記引用頻度が所定値以上上昇したことに基づいて、当該URLへのアクセス周期をより短く調整し、当該URLが示すWebページに含まれるリンク先URLへのアクセス周期をより短く調整し、更に当該リンク先URLが示すWebページに含まれるリンク先URLへのアクセス周期をより短く調整する処理を所定回数繰り返すステップと、
    を含む方法。
JP2011127313A 2011-06-07 2011-06-07 クロールサーバ及び方法 Expired - Fee Related JP5231604B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011127313A JP5231604B2 (ja) 2011-06-07 2011-06-07 クロールサーバ及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011127313A JP5231604B2 (ja) 2011-06-07 2011-06-07 クロールサーバ及び方法

Publications (2)

Publication Number Publication Date
JP2012256095A JP2012256095A (ja) 2012-12-27
JP5231604B2 true JP5231604B2 (ja) 2013-07-10

Family

ID=47527638

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011127313A Expired - Fee Related JP5231604B2 (ja) 2011-06-07 2011-06-07 クロールサーバ及び方法

Country Status (1)

Country Link
JP (1) JP5231604B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6353201B2 (ja) * 2013-07-30 2018-07-04 株式会社ナビタイムジャパン サーバ、情報処理システム、情報処理装置、情報処理方法および情報処理プログラム
JP6979308B2 (ja) * 2017-08-31 2021-12-08 ヤフー株式会社 抽出装置、抽出方法及び抽出プログラム
CN109948025B (zh) * 2019-03-20 2023-10-20 上海古鳌电子科技股份有限公司 一种数据引用记录方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4808357B2 (ja) * 2002-03-19 2011-11-02 三菱電機株式会社 情報収集装置
JP4970919B2 (ja) * 2006-12-08 2012-07-11 富士通株式会社 閲覧対象情報の評価システム、方法、およびプログラム
JP2010224626A (ja) * 2009-03-19 2010-10-07 Nomura Research Institute Ltd フィード巡回方法およびフィードリーダー
JP5147790B2 (ja) * 2009-07-24 2013-02-20 ヤフー株式会社 クローラ調整装置及びクローラ調整方法
JP5356343B2 (ja) * 2010-09-21 2013-12-04 ヤフー株式会社 クロール装置及びその方法

Also Published As

Publication number Publication date
JP2012256095A (ja) 2012-12-27

Similar Documents

Publication Publication Date Title
US8244737B2 (en) Ranking documents based on a series of document graphs
US8868541B2 (en) Scheduling resource crawls
US9229989B1 (en) Using resource load times in ranking search results
US9619525B2 (en) Method and system of optimizing a web page for search engines
KR101063364B1 (ko) 웹 크롤링 프로세스 동안 웹 사이트에 우선순위를 부여하기위한 시스템 및 방법
KR101828959B1 (ko) 사용자 네비게이션 이벤트의 예측
US9158856B2 (en) Automatic generation of tasks for search engine optimization
EP2904509B1 (en) Improving access to network content
CN106446005B (zh) 因子分解模型
US9262541B2 (en) Distance based search ranking demotion
KR20140038432A (ko) 사용자 탐색 이벤트의 예측
WO2016166558A1 (en) Native application search result adjustment based on user specific affinity
US9195944B1 (en) Scoring site quality
JP5269938B2 (ja) 急上昇ワード関連付け装置及び方法
JP5231604B2 (ja) クロールサーバ及び方法
Chowdhary et al. Study of web page ranking algorithms: a review
US11108802B2 (en) Method of and system for identifying abnormal site visits
JP5734332B2 (ja) 広告情報提供装置
JP5386548B2 (ja) 急上昇ワード抽出装置及び方法
Ismail et al. Survey on search engine optimization (SEO)
US9996624B2 (en) Surfacing in-depth articles in search results
Gupta et al. A novel user trend‐based priority assigner and URL scheduler for dynamic incremental crawling
Najafi et al. A New Hybrid Method for Web Pages Ranking in Search Engines
WO2024039474A1 (en) Privacy sensitive estimation of digital resource access frequency
JP5384597B2 (ja) リッチスニペット生成更新装置及び方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121211

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20121228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130321

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160329

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5231604

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371