JP5231604B2 - クロールサーバ及び方法 - Google Patents
クロールサーバ及び方法 Download PDFInfo
- Publication number
- JP5231604B2 JP5231604B2 JP2011127313A JP2011127313A JP5231604B2 JP 5231604 B2 JP5231604 B2 JP 5231604B2 JP 2011127313 A JP2011127313 A JP 2011127313A JP 2011127313 A JP2011127313 A JP 2011127313A JP 5231604 B2 JP5231604 B2 JP 5231604B2
- Authority
- JP
- Japan
- Prior art keywords
- url
- access cycle
- cycle
- citation frequency
- web page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 26
- 230000008859 change Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 17
- 230000003247 decreasing effect Effects 0.000 description 9
- 230000000630 rising effect Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
例えば、特許文献1には、Webページに対するクローラの巡回頻度をユーザのアクセス実態に基づいて変更することで、インデックスデータの鮮度を保つ検索システムが開示されている。この検索システムでは、ツールバー装置を利用してユーザが実際に閲覧したWebページを示す閲覧情報を収集し、この閲覧情報からクローラの巡回頻度を決定している。
1つの文章が短いショートブログは、投稿が容易であるため、ショートブログサービス内ではWebページに比べて非常に高い頻度で新たなショートブログが投稿されている。このとき、ショートブログの中には、Webページを引用して投稿されるものも多数あり、このようなショートブログを引用して新たなショートブログが投稿(リツイート)される結果、あるWebページがショートブログサービス内の多くのユーザに注目される場合がある。
ここで、Webページ(URL)がショートブログサービス内で多くのユーザに注目されている場合には、ショートブログが引用するURLの引用頻度が上昇するものと考えられる。このようなWebページは、近い将来においてショートブログサービス以外のWWW上のユーザも注目するものと予測されるため、本発明のクロールサーバでは、多くのユーザが閲覧を望むであろうWebページに対するクローラのアクセス周期をより短く調整する。
これにより、本発明のクロールサーバでは、WWW上の検索システムの検索精度の更なる向上を図ることができるとともに、ショートブログサービス内の状況をWWW上の検索結果に反映(すなわち、ショートブログサービス内で注目されているWebページを流通)することができる。
なお、特定値以下の上昇率については管理者が適宜設定することができ、例えば、上昇率「0」としてもよく、また、マイナスの上昇率(下降)となった場合に、クローラのアクセス周期を元に戻すこととしてもよい。また、引用頻度自体は未だ上昇しているが上昇率は低下している場合(上昇が鈍化してきた場合)に、クローラのアクセス周期を元に戻すこととしてもよい。
初めに、図1を参照して、本発明のクロールサーバ1の機能構成について説明する。
本発明のクロールサーバ1は、ショートブログサービスを管理するショートブログサーバ100と通信可能に接続され、スケジュール調整部10と、クロール部20と、を含んで構成される。
なお、ショートブログサーバ100は、ショートブログサービス内で投稿されたショートブログを記憶するショートブログデータベース110を含む。ここで、ショートブログサービス内で投稿されたショートブログは、文字数制限(例えば、140文字以内)のあるテキスト情報を含み、このテキスト情報には、ユーザが作成したコメントに加え、Webページの所在を示すURLが含まれる場合がある。そのため、ショートブログデータベース110には、URLを含むショートブログが記憶される。
スケジュール調整部10は、クロール部20(クローラ21)のWebページ(URL)へのアクセス周期を調整するため、引用頻度算出手段11と、スケジュール変更手段12と、引用頻度データベース13と、スケジュールデータベース14と、を含んで構成される。
引用頻度算出手段11は、所定の周期の間に投稿されたURLを引用するショートブログを抽出すると、URLごとに、当該所定の周期の間にショートブログに引用された回数など(引用頻度、上昇率など)を算出する。
ここで、所定の周期については、管理者が任意に設定することができる。なお、1つの文章が短いショートブログは、投稿が容易であるため、ショートブログサービス内ではWebページに比べて非常に短い頻度で新たなショートブログが投稿されている。そのため、引用頻度算出手段11は、比較的短い周期(例えば、1時間ごとなどのように、一日のうちに数度)でショートブログデータベース110にアクセスすることが好ましい。
ここで、図2を参照して、引用頻度データベース13について説明する。引用頻度データベース13は、URLごとに引用頻度算出手段11により算出された各種情報、例えば、引用頻度(引用回数)や引用頻度の上昇率(変化)を記憶する。
なお、本発明では、ショートブログサービス内のURLの引用頻度の変化に基づいて、クローラ21のアクセス周期を変更することとしているが、引用頻度の変化は、引用頻度の多少により大きな影響を受ける(例えば、0から1に変化した場合には、無限大の上昇となる)。そこで、本実施形態では、引用頻度の上昇率を引用頻度で補正した上昇スコアを引用頻度データベース13に記憶し、このような上昇スコアに基づいて、対応するURLの引用頻度が急上昇中であるか、急下降中であるかを判定することとしている。本実施形態では、例えば、上昇スコアが「+20以上」である場合に、急上昇中であると判定され、上昇スコアが「−20以下」である場合に、急下降中であると判定される。このような急上昇中(急下降中)であるか否かの判定についても、引用頻度算出手段11が算出し、引用頻度データベース13に記憶しておくこととしてもよい。
引用頻度の上昇率の補正は、任意の方法で行うことができ、また、補正することなく引用頻度の上昇率のみで急上昇中であるか否かなどを判定することも、本発明に含まれる。
また、スケジュール変更手段12は、引用頻度の下降率(上昇スコアのマイナスの値の絶対値)が所定値以上(すなわち、急下降中と判定)であることを条件に、対応するURLへのクローラ21のアクセス周期をより長く調整することとしてもよい。このとき、スケジュール変更手段12は、下降率が大きいほど、対応するURLへのクローラ21のアクセス周期を長く調整することとしてもよい。
また、スケジュール変更手段12は、引用頻度の上昇率又は下降率が特定値以下(上昇スコアの絶対値が特定値以下)となることを条件に、対応するURLへのクローラ21のアクセス周期を変更前の周期に戻すこととしてもよい。このとき、特定値以下の上昇率(下降率)については、管理者が任意に設定することができ、例えば、上昇率「0」としてもよく、また、上昇から下降に転じた場合や下降から上昇に転じた場合の値としてもよく、また、上昇や下降の割合が鈍化してきた場合の値(URL1を参照して、上昇スコア「+35」から「+25(未だ急上昇中)」となった場合)などとしてもよい。
ここで、図3を参照して、スケジュールデータベース14について説明する。スケジュールデータベース14は、URLごとにクローラ21のアクセス周期を記憶する。ここで、スケジュールデータベース14は、変更前及び変更後のアクセス周期を記憶することとしてもよい。なお、スケジュールデータベース14は、変更前のアクセス周期として、URLごとに基本となるアクセス周期を記憶しておくこととしてもよい。
図2及び図3を参照して、急上昇中と判定された「URL1」及び「URL2」のアクセス周期が短く変更され、急下降中と判定された「URL3」のアクセス周期が長く変更されている。特に、上昇スコアのより大きい「URL1」のアクセス周期は、「URL2」のアクセス周期よりも短く変更されている。
クロール部20は、WWW上の検索システムに用いるインデックスデータを生成するため、クローラ21と、インデックスデータベース22と、を含んで構成される。
インデックスデータベース22は、クローラ21により生成されたインデックスデータを記憶し、ユーザから検索要求を受けた際に参照される。検索システムでは、インデックスデータベース22に記憶されたインデックスデータを用いることで、ユーザからの検索要求に対して瞬時に検索結果を返信する。
続いて、図4を参照して、本発明のクロールサーバ1の動作について説明する。
ユーザU1が「URL1」を引用するショートブログを投稿し、当該ショートブログを引用してユーザU2,U3,U4などの多くのユーザが新たなショートブログを投稿(リツイート)したため、ショートブログサービス内でURL1の引用頻度が急上昇し、URL1(Webページ)が大きな注目を集めている。このような注目を集めるURL1が取り扱う出来事は、ショートブログサービス以外のサービスを利用するユーザにも注目されるものであり、図4では、WWW上のユーザU11が検索システムを用いて当該出来事を取り扱うWebページを検索しようとしている。
これにより、クローラ21は、ショートブログサービス内で注目度が高い期間中にURL1にアクセスすることができ、インデックスデータの鮮度を良くすることができる。その結果、WWW上のユーザU11が、ショートブログサービス内で多くのユーザに注目されているURL1を検索した場合であっても、当該URL1(Webページ)を検索結果として適切に提供することができる。あるいは、更新されたURL1(Webページ)に追加されたキーワードに係る検索クエリにタイムリーに対応して、URL1(Webページ)を適切に検索結果として提供することができる。すなわち、本発明のクロールサーバ1では、ショートブログサービス内で注目されているURLを、他のサービスに流通することができる。
以上説明したクロールサーバ1のハードウェアは、1又は複数の一般的なコンピュータによって構成することができる。一般的なコンピュータは、例えば、制御部として、中央処理装置(CPU)を備える他、記憶部として、メモリ(RAM、ROM)、ハードディスク(HDD)及び光ディスク(CD、DVDなど)を、ネットワーク通信装置として、各種有線及び無線LAN装置を、表示装置として、例えば、液晶ディスプレイ、プラズマディスプレイなどの各種ディスプレイを、入力装置として、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボールなど)を適宜備え、これらは、バスラインにより接続されている。このような一般的なコンピュータにおいて、CPUは、クロールサーバ1を統括的に制御し、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
続いて、図5及び図6を参照して、本発明のクロールサーバ1の処理について説明する。
図5を参照して、クロールサーバ1によるスケジュール調整処理について説明する。
S1,S2:引用頻度算出手段11は、管理者が設定した周期でショートブログデータベース110にアクセスし、当該期間内にショートブログサービス内で引用された回数(引用頻度)を、URLごとに算出する(S1)。続いて、引用頻度算出手段11は、前回周期時からの引用頻度の変化(上昇率/下降率)に基づいて、ショートブログサービス内における対応するURLの引用頻度が急上昇中であるか、急下降中であるかを判定する(S2)。このとき、引用頻度算出手段11は、引用頻度の変化を引用頻度で補正した上昇スコアを算出し、当該上昇スコアに基づいて、急上昇中であるか、急下降中であるかを判定することとしてもよい。
図6を参照して、クロールサーバ1によるアクセス周期変更処理の詳細について説明する。
S11〜S13:スケジュール変更手段12は、前回の周期時にアクセス周期を変更したURLであるか否かを判定する(S11)。このとき、前回の周期時にアクセス周期を変更したURLである場合には、スケジュール変更手段12は、上昇スコアの絶対値が特定値以下であるか否かを判定し(S12)、特定値以下であるURLについては、アクセス周期を変更前の周期に戻し、スケジュール調整処理を終了する。
近年、新たに登場したサービスであるショートブログは投稿が容易であり、また、リツイートなどの形で他人のショートブログを引用した新たなショートブログが次々と投稿されるため、あるURL(Webページ)に対する注目度は、従来にない速度で急上昇することがある。
この点、本発明のクロールサーバ1によれば、ショートブログサービス内で投稿されるショートブログでの引用頻度が急上昇したURL(Webページ)については、検索システムのクローラ21がより頻繁にアクセスするように、アクセス周期を短縮する。
このとき、クローラ21のアクセス周期をより短く調整するWebページの範囲は、引用頻度の上昇率(急上昇スコア)に基づいて決定することとしてもよい。すなわち、引用頻度の上昇率(急上昇スコア)が大きいほど、広い範囲のWebページ(急上昇したWebページからより多くのクリック操作で到達可能な範囲のWebページ)のアクセス周期をより短く調整することとしてもよい。より具体的には、引用頻度の上昇率(急上昇スコア)が第1の値である場合には、当該URL(Webページ)に含まれるリンク先URLにより特定されるWebページまでクローラ21のアクセス周期をより短く調整する一方で、引用頻度(急上昇スコア)が第1の値よりも大きい第2の値である場合には、リンク先URLにより特定されるWebページだけでなく、当該リンク先URLにより特定されるWebページで設定されたリンクに基づいて到達可能なWebページにまでクローラ21のアクセス周期をより短く調整することとしてもよい。
そこで、スケジュール変更手段12は、引用頻度算出手段11が算出した引用頻度が所定値以上上昇したことに基づいて、当該URLが示すWebページに含まれるリンク先URLへのアクセス周期をより短く調整し、更に当該リンク先URLが示すWebページに含まれるリンク先URLへのアクセス周期をより短く調整する処理を所定回数繰り返す、こととしてもよい。このとき、スケジュール変更手段12は、リンク先URLへのアクセス周期をより短く調整する処理を繰り返す所定回数を、周期の間における引用頻度の上昇率が大きいほど、より多く繰り返す、こととしてもよい。
10 スケジュール調整部
11 引用頻度算出手段
12 スケジュール変更手段
13 引用頻度データベース
14 スケジュールデータベース
20 クロール部
21 クローラ
22 インデックスデータベース
100 ショートブログサーバ
110 ショートブログデータベース
Claims (6)
- 予め定めたURLにアクセスし関連するデータを取得するクローラの前記URLへのアクセス周期を調整するクロールサーバであって、
所定の周期で、ショートブログサーバが管理するショートブログサービス内で前記所定の周期の間に投稿されたショートブログが引用するURLの引用頻度を、前記URLごとに算出する引用頻度算出手段と、
前記引用頻度算出手段が算出した前記引用頻度が所定値以上上昇したことに基づいて、当該URLへのアクセス周期をより短く調整し、当該URLが示すWebページに含まれるリンク先URLへのアクセス周期をより短く調整し、更に当該リンク先URLが示すWebページに含まれるリンク先URLへのアクセス周期をより短く調整する処理を所定回数繰り返すスケジュール変更手段と、
を備えるクロールサーバ。 - 前記スケジュール変更手段は、前記周期の間における引用頻度の上昇率が大きいほど、当該URLへの前記アクセス周期を短く調整する、
請求項1に記載のクロールサーバ。 - 前記スケジュール変更手段は、前記周期の間における引用頻度の下降率が大きいほど、当該URLへの前記アクセス周期を長く調整する、
請求項1又は2に記載のクロールサーバ。 - 前記スケジュール変更手段は、前記アクセス周期を変更した前記URLの引用頻度の上昇率が特定値以下となった場合に、前記アクセス周期を変更前の周期に戻す、
請求項1から3のいずれかに記載のクロールサーバ。 - 前記スケジュール変更手段は、前記周期の間における引用頻度の上昇率が大きいほど、前記リンク先URLへのアクセス周期をより短くする調整する処理をより多く繰り返す請求項1から4のいずれかに記載のクロールサーバ。
- 予め定めたURLにアクセスし関連するデータを取得するクローラの前記URLへのアクセス周期を調整する方法であって、
コンピュータが実行する、
所定の周期で、ショートブログサーバが管理するショートブログサービス内で前記所定の周期の間に投稿されたショートブログが引用するURLの引用頻度を、前記URLごとに算出するステップと、
算出した前記引用頻度が所定値以上上昇したことに基づいて、当該URLへのアクセス周期をより短く調整し、当該URLが示すWebページに含まれるリンク先URLへのアクセス周期をより短く調整し、更に当該リンク先URLが示すWebページに含まれるリンク先URLへのアクセス周期をより短く調整する処理を所定回数繰り返すステップと、
を含む方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011127313A JP5231604B2 (ja) | 2011-06-07 | 2011-06-07 | クロールサーバ及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011127313A JP5231604B2 (ja) | 2011-06-07 | 2011-06-07 | クロールサーバ及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012256095A JP2012256095A (ja) | 2012-12-27 |
JP5231604B2 true JP5231604B2 (ja) | 2013-07-10 |
Family
ID=47527638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011127313A Expired - Fee Related JP5231604B2 (ja) | 2011-06-07 | 2011-06-07 | クロールサーバ及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5231604B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6353201B2 (ja) * | 2013-07-30 | 2018-07-04 | 株式会社ナビタイムジャパン | サーバ、情報処理システム、情報処理装置、情報処理方法および情報処理プログラム |
JP6979308B2 (ja) * | 2017-08-31 | 2021-12-08 | ヤフー株式会社 | 抽出装置、抽出方法及び抽出プログラム |
CN109948025B (zh) * | 2019-03-20 | 2023-10-20 | 上海古鳌电子科技股份有限公司 | 一种数据引用记录方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4808357B2 (ja) * | 2002-03-19 | 2011-11-02 | 三菱電機株式会社 | 情報収集装置 |
JP4970919B2 (ja) * | 2006-12-08 | 2012-07-11 | 富士通株式会社 | 閲覧対象情報の評価システム、方法、およびプログラム |
JP2010224626A (ja) * | 2009-03-19 | 2010-10-07 | Nomura Research Institute Ltd | フィード巡回方法およびフィードリーダー |
JP5147790B2 (ja) * | 2009-07-24 | 2013-02-20 | ヤフー株式会社 | クローラ調整装置及びクローラ調整方法 |
JP5356343B2 (ja) * | 2010-09-21 | 2013-12-04 | ヤフー株式会社 | クロール装置及びその方法 |
-
2011
- 2011-06-07 JP JP2011127313A patent/JP5231604B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012256095A (ja) | 2012-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8244737B2 (en) | Ranking documents based on a series of document graphs | |
US8868541B2 (en) | Scheduling resource crawls | |
US9229989B1 (en) | Using resource load times in ranking search results | |
US9619525B2 (en) | Method and system of optimizing a web page for search engines | |
KR101063364B1 (ko) | 웹 크롤링 프로세스 동안 웹 사이트에 우선순위를 부여하기위한 시스템 및 방법 | |
KR101828959B1 (ko) | 사용자 네비게이션 이벤트의 예측 | |
US9158856B2 (en) | Automatic generation of tasks for search engine optimization | |
EP2904509B1 (en) | Improving access to network content | |
CN106446005B (zh) | 因子分解模型 | |
US9262541B2 (en) | Distance based search ranking demotion | |
KR20140038432A (ko) | 사용자 탐색 이벤트의 예측 | |
WO2016166558A1 (en) | Native application search result adjustment based on user specific affinity | |
US9195944B1 (en) | Scoring site quality | |
JP5269938B2 (ja) | 急上昇ワード関連付け装置及び方法 | |
JP5231604B2 (ja) | クロールサーバ及び方法 | |
Chowdhary et al. | Study of web page ranking algorithms: a review | |
US11108802B2 (en) | Method of and system for identifying abnormal site visits | |
JP5734332B2 (ja) | 広告情報提供装置 | |
JP5386548B2 (ja) | 急上昇ワード抽出装置及び方法 | |
Ismail et al. | Survey on search engine optimization (SEO) | |
US9996624B2 (en) | Surfacing in-depth articles in search results | |
Gupta et al. | A novel user trend‐based priority assigner and URL scheduler for dynamic incremental crawling | |
Najafi et al. | A New Hybrid Method for Web Pages Ranking in Search Engines | |
WO2024039474A1 (en) | Privacy sensitive estimation of digital resource access frequency | |
JP5384597B2 (ja) | リッチスニペット生成更新装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121211 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20121228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130321 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160329 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5231604 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees | ||
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |