JP2005228343A - 決定理論的ウェブクローリングおよびウェブページ変更予測 - Google Patents
決定理論的ウェブクローリングおよびウェブページ変更予測 Download PDFInfo
- Publication number
- JP2005228343A JP2005228343A JP2005036827A JP2005036827A JP2005228343A JP 2005228343 A JP2005228343 A JP 2005228343A JP 2005036827 A JP2005036827 A JP 2005036827A JP 2005036827 A JP2005036827 A JP 2005036827A JP 2005228343 A JP2005228343 A JP 2005228343A
- Authority
- JP
- Japan
- Prior art keywords
- page
- web
- crawling
- pages
- url
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B23—MACHINE TOOLS; METAL-WORKING NOT OTHERWISE PROVIDED FOR
- B23Q—DETAILS, COMPONENTS, OR ACCESSORIES FOR MACHINE TOOLS, e.g. ARRANGEMENTS FOR COPYING OR CONTROLLING; MACHINE TOOLS IN GENERAL CHARACTERISED BY THE CONSTRUCTION OF PARTICULAR DETAILS OR COMPONENTS; COMBINATIONS OR ASSOCIATIONS OF METAL-WORKING MACHINES, NOT DIRECTED TO A PARTICULAR RESULT
- B23Q1/00—Members which are comprised in the general build-up of a form of machine, particularly relatively large fixed members
- B23Q1/72—Auxiliary arrangements; Interconnections between auxiliary tables and movable machine elements
- B23Q1/76—Steadies; Rests
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mechanical Engineering (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】 ウェブページのサブセットにおける変更の、予測的、ユーティリティに基づく、且つ決定理論確率の算定をもたらし、ウェブクローリングの性能を高め、ウェブページ情報が新鮮な状態に保たれるようにする。さらに、変更された確率が高いページを選択的にクローリングできるようにする。102はWEBクローラ・コンポーネント、104はバンドリング・コンポーネント、106は検索サーバ、108はマネージング・コンポーネントである。
【選択図】 図1
Description
104 バンドリング・コンポーネント
106 検索サーバ
108 マネージング・コンポーネント
202 マネージング・コンポーネント
204 検索サーバ
206 WEBクローラ
208 バンドリング・コンポーネント
302 ラウンドロビン・クローラ
304 貪欲(グリーディ)・クローラ
402 ラウンドロビン・クローラ
404 貪欲(グリーディ)クローラ
1004 処理ユニット
1006 システムメモリ
1008 バス
1018 ディスク
1020 CDドライブ
1022 ディスク
1024 インターフェイス
1026 インターフェイス
1028 インターフェイス
1030 オペレーティングシステム
1032 アプリケーション
1034 モジュール
1036 データ
1038 キーボード
1040 マウス
1042 入力デバイスインターフェイス
1044 モニタ
1046 ビデオアダプタ
1048 リモートコンピュータ(群)
1050 メモリ/ストレージ
1056 ネットワークアダプタ
1058 モデム
1102 クライアント(群)
1104 サーバ(群)
1106 通信フレームワーク
1108 クライアントデータストア(群)
1110 サーバデータストア(群)
Claims (37)
- ウェブクローリングを行うシステムであって、
ウェブクローリングを実施するか否か、いつウェブクローリングを実施するか、さらに、どのようにしてウェブクローリングを実施するかという判定に関して、予測分析を行うマネージングコンポーネントと、
前記予測分析に応じてウェブページのサブセットをクロールするウェブクローリングコンポーネントと、
を具備したことを特徴とするシステム。 - 少なくとも1つのウェブページにおける変更に関連した予測を行うことにより、前記少なくとも1つのウェブページをクロールするのに適した時を判定する決定理論コンポーネントを、
さらに備えることを特徴とする請求項1に記載のシステム。 - 前記決定理論コンポーネントは、少なくとも部分的には、
前記少なくとも1つのウェブページに対して実施される、1組の起こり得るアクションAと、
1組の起こり得る結果Oと、
ある特定の結果が起こる確率Prと、
各結果に関連づけられたユーティリティファクターUtility(O)と、
に基づいて前記少なくとも1つのウェブページにおける変更を行う、ことを特徴とする請求項2に記載のシステム。 - 前記予測分析は、前記少なくとも1つのウェブページの前記ユーティリティに少なくとも部分的には基づく、ことを特徴とする請求項1に記載のシステム。
- 前記予測分析は、前記少なくとも1つのウェブページに関連した履歴データに少なくとも部分的には基づく、ことを特徴とする請求項1に記載のシステム。
- 前記予測分析は、前記少なくとも1つのウェブページに含まれるコンテンツに少なくとも部分的には基づく、ことを特徴とする請求項1に記載のシステム。
- 前記ウェブページの前記ユーティリティに従って、クロールしたウェブページを新たなサブセットに並び替えるバンドリングコンポーネントを、さらに備えることを特徴とする請求項1に記載のシステム。
- 前記ウェブクローリングコンポーネントは、
サブセット中のウェブページを順次クロールし、すべてのウェブページがクローリング期間内にクロールされるようにするラウンドロビン・クローリングコンポーネントと、
各ページに関連づけられたスコアに従って非順次にページをクロールする貪欲クローリングコンポーネントと、
を備えることを特徴とする請求項1に記載のシステム。 - クローリングのためにウェブページに優先順位をつける方法であって、
複数のページからなる少なくとも1つのサブセット中の変更を予測するステップと、
複数のウェブページからなる前記少なくとも1つのサブセットにスコアを割り当てるステップと、
スコアが高いページのサブセットを、スコアが低いページのサブセットに先だって選択的にクロールするステップと、
クロールされていないすべてのページを順次非選択的にクロールするステップと、
を含むことを特徴とする方法。 - 前記サブセット内における個々のページの認識されたユーティリティに従って、複数のページからなる少なくとも1つのサブセットを分割するステップを、さらに含むことを特徴とする請求項10に記載の方法。
- 前記分割されたページの前記認識されたユーティリティに従って、分割されたページを新たなサブセットにバンドルし直すステップを、さらに含むことを特徴とする請求項11に記載の方法。
- 少なくとも1つのウェブページに対して実施される、1組の起こり得るアクションAと、
1組の起こり得る結果Oと、
ある特定の結果が起こる確率Prと、
各結果に関連づけられたユーティリティファクターUtility(O)と、
に基づいて、ページをいつクロールするかを決定するための決定理論分析を行うステップを、さらに含むことを特徴とする請求項10に記載の方法。 - 以前にクロールしたページに少なくとも部分的には基づいて、ウェブページがいつ変更されるかに関する予測を行うステップを、さらに含むことを特徴とする請求項10に記載の方法。
- 前記ページが以前にクロールされたことがない場合、前記予測は、前記ページのURL(ユニバーサル・リソース・ロケータ)および前記ページの前記URLを指すウェブサイトの少なくとも一方に基づく、ことを特徴とする請求項10に記載の方法。
- 前記ページが以前に一度だけクロールされたことがある場合、前記予測は、前記ページのURLと、前記ページの前記URLを指すウェブサイトと、前記ページのHTTP(ハイパーテキスト転送プロトコル)ヘッダと、前記ページのコンテンツとの少なくとも1つに基づく、ことを特徴とする請求項10に記載の方法。
- 前記ページが以前に複数回クロールされたことがある場合、前記予測は、前記ページのURLと、前記ページの前記URLを指すウェブサイトと、前記ページのHTTPヘッダと、前記ページのコンテンツと、前記ページに対する変更履歴と、前記ページに関連したデルタ情報との少なくとも1つに基づく、ことを特徴とする請求項10に記載の方法。
- 前記デルタ情報は、あるクロールと次のクロールの間の前記ページにおける違いを判定するために、前記ページのコンテキストの分析を含むことを特徴とする請求項18に記載の方法。
- クロールされていないすべてのページが非選択的にクロールされる順序は、最後にクロールされた時に基づく、ことを特徴とする請求項10に記載の方法。
- 所定の時間を超えて、どのウェブページも、クロールされていない状態にならないようにするステップを、さらに含むことを特徴とする請求項20に記載の方法。
- 前記スコアは、予測スコア、ユーティリティスコア、および決定理論スコアの少なくとも1つである、ことを特徴とする請求項10に記載の方法。
- 変更されている確率、最大平均ユーティリティ、および最大期待ユーティリティの少なくとも1つに基づいて、少なくとも1つのウェブページのスコアを重みづけするステップをさらに含む、ことを特徴とする請求項10に記載の方法。
- どのウェブページも、D日より古いものにならないようにするステップをさらに含み、前記Dは実数である、ことを特徴とする請求項10に記載の方法。
- フィードバックループによって、ウェブページにおける変更を予測する方法であって、
サーバ上のウェブページのサブセットから、URLのサンプルセットを選択するステップと、
前記サンプルセットを定期的にクロールするステップと、
を含むことを特徴とする方法。 - 前記クロールされたサンプルセットから集められたデータを利用することにより、確率プレディクタを学習するためのトレーニングデータ、および/または、クローリング方針を調整するためのトレーニングデータを提供するステップを、さらに含むことを特徴とする請求項25に記載の方法。
- 前記クロールされたサンプルセットから集められたデータを利用することにより、クローリング方針をテストし、かつ/あるいは、クローリング方針をテストする基準を構築するステップを、さらに含むことを特徴とする請求項25に記載の方法。
- 前記URLのサンプルセットは、検索エンジンを用いてユーザに送られるURLの結果セットから選択される、ことを特徴とする請求項25に記載の方法。
- ユーザによってクリックされた前記結果セット中のURLを、ユーザによってクリックされていないURLよりも重く重みづけするステップをさらに含む、ことを特徴とする請求項28に記載の方法。
- 前記URLのサンプルセットの選択に先立って、ウェブページの前記サブセットに対してレギュラークロールを実施するステップを、さらに含むことを特徴とする請求項25に記載の方法。
- 前記レギュラークロール中に判定された前記サンプルURLの初期状態を記録するステップを、さらに含むことを特徴とする請求項30に記載の方法。
- 新たなURLのサンプルセットを周期的に選択するステップをさらに含む、ことを特徴とする請求項25に記載の方法。
- 少なくとも1つのサンプルURLを一度に置き換えて、前記URLのサンプルセットを周期的にアップデートすることにより、新たなURLのサンプルセットを徐々に作成するステップを、さらに含むことを特徴とする請求項25に記載の方法。
- ウェブページの変更を予測する方法であって、
ウェブサーバ上にあるウェブページの少なくとも1つのサブセットにおける変更を予測する手段と、
ある期間内にページのサブセット全体をクロールする手段と、
各ページに関連づけられたスコアを決定する手段と、
より高いスコアを有すると判定されたページを選択的にクロールする手段と、
を備えたことを特徴とする方法。 - 変更されている確率、最大平均ユーティリティ、および最大期待ユーティリティの少なくとも1つに基づいて、少なくとも1つのウェブページのスコアを重みづけする手段を、さらに含むことを特徴とする請求項34に記載の方法。
- どのウェブページもD日より古いものにならないようにする手段をさらに含み、Dは実数である、ことを特徴とする請求項34に記載の方法。
- サーバ上におけるウェブページの少なくとも1つのサブセット中の少なくとも1つのウェブページにおける変更を予測し、
前記少なくとも1つのサブセット中の前記少なくとも1つのウェブページにスコアを割り当て、
前記少なくとも1つのウェブページに割り当てられた前記スコアが所定の最小値より大きい場合、前記少なくとも1つのウェブページを選択的にクロールするためのコンピュータ実行可能命令を、
格納していることを特徴とするコンピュータ可読媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/777,365 | 2004-02-12 | ||
US10/777,365 US7310632B2 (en) | 2004-02-12 | 2004-02-12 | Decision-theoretic web-crawling and predicting web-page change |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2005228343A true JP2005228343A (ja) | 2005-08-25 |
JP2005228343A5 JP2005228343A5 (ja) | 2008-03-21 |
JP4806201B2 JP4806201B2 (ja) | 2011-11-02 |
Family
ID=34701376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005036827A Expired - Fee Related JP4806201B2 (ja) | 2004-02-12 | 2005-02-14 | 決定理論的ウェブクローリングおよびウェブページ変更予測 |
Country Status (10)
Country | Link |
---|---|
US (1) | US7310632B2 (ja) |
EP (1) | EP1564661A3 (ja) |
JP (1) | JP4806201B2 (ja) |
KR (1) | KR101213930B1 (ja) |
CN (1) | CN100492358C (ja) |
AU (1) | AU2005200231B2 (ja) |
BR (1) | BRPI0500357A (ja) |
CA (1) | CA2492348C (ja) |
MX (1) | MXPA05001675A (ja) |
RU (1) | RU2405197C2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008243021A (ja) * | 2007-03-28 | 2008-10-09 | Nippon Telegr & Teleph Corp <Ntt> | 符号列生成装置、符号列入力装置、符号列生成プログラムおよび符号列入力プログラム |
JP2010140087A (ja) * | 2008-12-09 | 2010-06-24 | Nec Corp | 情報収集装置、情報収集方法及びプログラム |
JP2012099105A (ja) * | 2010-10-29 | 2012-05-24 | Fujitsu Ltd | 対話的クライアント‐サーバー・アプリケーションの分散式並列クロールを協調させる技法 |
Families Citing this family (99)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6594662B1 (en) * | 1998-07-01 | 2003-07-15 | Netshadow, Inc. | Method and system for gathering information resident on global computer networks |
US6883135B1 (en) * | 2000-01-28 | 2005-04-19 | Microsoft Corporation | Proxy server using a statistical model |
JP4283466B2 (ja) * | 2001-10-12 | 2009-06-24 | 富士通株式会社 | リンク関係に基づく文書整理方法 |
US20040264677A1 (en) * | 2003-06-30 | 2004-12-30 | Horvitz Eric J. | Ideal transfer of call handling from automated systems to human operators based on forecasts of automation efficacy and operator load |
US8042112B1 (en) | 2003-07-03 | 2011-10-18 | Google Inc. | Scheduler for search engine crawler |
US7725452B1 (en) * | 2003-07-03 | 2010-05-25 | Google Inc. | Scheduler for search engine crawler |
US7584221B2 (en) * | 2004-03-18 | 2009-09-01 | Microsoft Corporation | Field weighting in text searching |
US7475067B2 (en) * | 2004-07-09 | 2009-01-06 | Aol Llc | Web page performance scoring |
US7567959B2 (en) | 2004-07-26 | 2009-07-28 | Google Inc. | Multiple index based information retrieval system |
US7702618B1 (en) | 2004-07-26 | 2010-04-20 | Google Inc. | Information retrieval system for archiving multiple document versions |
US7711679B2 (en) | 2004-07-26 | 2010-05-04 | Google Inc. | Phrase-based detection of duplicate documents in an information retrieval system |
US7987172B1 (en) | 2004-08-30 | 2011-07-26 | Google Inc. | Minimizing visibility of stale content in web searching including revising web crawl intervals of documents |
JP4719684B2 (ja) * | 2004-09-07 | 2011-07-06 | インターマン株式会社 | 情報検索提供装置および情報検索提供システム |
US7606793B2 (en) | 2004-09-27 | 2009-10-20 | Microsoft Corporation | System and method for scoping searches using index keys |
US8065296B1 (en) * | 2004-09-29 | 2011-11-22 | Google Inc. | Systems and methods for determining a quality of provided items |
US7761448B2 (en) | 2004-09-30 | 2010-07-20 | Microsoft Corporation | System and method for ranking search results using click distance |
US7827181B2 (en) | 2004-09-30 | 2010-11-02 | Microsoft Corporation | Click distance determination |
US7739277B2 (en) | 2004-09-30 | 2010-06-15 | Microsoft Corporation | System and method for incorporating anchor text into ranking search results |
US7716198B2 (en) | 2004-12-21 | 2010-05-11 | Microsoft Corporation | Ranking search results using feature extraction |
US7536389B1 (en) | 2005-02-22 | 2009-05-19 | Yahoo ! Inc. | Techniques for crawling dynamic web content |
US7792833B2 (en) | 2005-03-03 | 2010-09-07 | Microsoft Corporation | Ranking search results using language types |
US8386459B1 (en) * | 2005-04-25 | 2013-02-26 | Google Inc. | Scheduling a recrawl |
US8666964B1 (en) | 2005-04-25 | 2014-03-04 | Google Inc. | Managing items in crawl schedule |
US7509315B1 (en) | 2005-06-24 | 2009-03-24 | Google Inc. | Managing URLs |
US7610267B2 (en) * | 2005-06-28 | 2009-10-27 | Yahoo! Inc. | Unsupervised, automated web host dynamicity detection, dead link detection and prerequisite page discovery for search indexed web pages |
EP1938214A1 (en) * | 2005-10-11 | 2008-07-02 | Taptu Ltd. | Search using changes in prevalence of content items on the web |
US8095565B2 (en) * | 2005-12-05 | 2012-01-10 | Microsoft Corporation | Metadata driven user interface |
US20070143300A1 (en) * | 2005-12-20 | 2007-06-21 | Ask Jeeves, Inc. | System and method for monitoring evolution over time of temporal content |
US7599931B2 (en) * | 2006-03-03 | 2009-10-06 | Microsoft Corporation | Web forum crawler |
US7475069B2 (en) * | 2006-03-29 | 2009-01-06 | International Business Machines Corporation | System and method for prioritizing websites during a webcrawling process |
US20070260586A1 (en) * | 2006-05-03 | 2007-11-08 | Antonio Savona | Systems and methods for selecting and organizing information using temporal clustering |
WO2008030568A2 (en) * | 2006-09-07 | 2008-03-13 | Feedster, Inc. | Feed crawling system and method and spam feed filter |
US20080104257A1 (en) * | 2006-10-26 | 2008-05-01 | Yahoo! Inc. | System and method using a refresh policy for incremental updating of web pages |
US8745183B2 (en) * | 2006-10-26 | 2014-06-03 | Yahoo! Inc. | System and method for adaptively refreshing a web page |
US7672943B2 (en) * | 2006-10-26 | 2010-03-02 | Microsoft Corporation | Calculating a downloading priority for the uniform resource locator in response to the domain density score, the anchor text score, the URL string score, the category need score, and the link proximity score for targeted web crawling |
US20080104502A1 (en) * | 2006-10-26 | 2008-05-01 | Yahoo! Inc. | System and method for providing a change profile of a web page |
WO2008070415A2 (en) * | 2006-11-14 | 2008-06-12 | Deepdive Technologies Inc. | Networked information collection apparatus and method |
US7886042B2 (en) * | 2006-12-19 | 2011-02-08 | Yahoo! Inc. | Dynamically constrained, forward scheduling over uncertain workloads |
US7979458B2 (en) * | 2007-01-16 | 2011-07-12 | Microsoft Corporation | Associating security trimmers with documents in an enterprise search system |
US8725719B2 (en) * | 2007-02-13 | 2014-05-13 | Microsoft Corporation | Managing web page links using structured data |
US20080215541A1 (en) * | 2007-03-01 | 2008-09-04 | Microsoft Corporation | Techniques for searching web forums |
US20090013068A1 (en) * | 2007-07-02 | 2009-01-08 | Eaglestone Robert J | Systems and processes for evaluating webpages |
US20090024583A1 (en) * | 2007-07-18 | 2009-01-22 | Yahoo! Inc. | Techniques in using feedback in crawling web content |
US20090070346A1 (en) * | 2007-09-06 | 2009-03-12 | Antonio Savona | Systems and methods for clustering information |
US8117223B2 (en) | 2007-09-07 | 2012-02-14 | Google Inc. | Integrating external related phrase information into a phrase-based indexing information retrieval system |
US8041704B2 (en) * | 2007-10-12 | 2011-10-18 | The Regents Of The University Of California | Searching for virtual world objects |
US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
US7840569B2 (en) | 2007-10-18 | 2010-11-23 | Microsoft Corporation | Enterprise relevancy ranking using a neural network |
US7984000B2 (en) | 2007-10-31 | 2011-07-19 | Microsoft Corporation | Predicting and using search engine switching behavior |
WO2009059480A1 (en) * | 2007-11-08 | 2009-05-14 | Shanghai Hewlett-Packard Co., Ltd | Url and anchor text analysis for focused crawling |
US8886660B2 (en) * | 2008-02-07 | 2014-11-11 | Siemens Enterprise Communications Gmbh & Co. Kg | Method and apparatus for tracking a change in a collection of web documents |
US8812493B2 (en) | 2008-04-11 | 2014-08-19 | Microsoft Corporation | Search results ranking using editing distance and document information |
JP2009282738A (ja) | 2008-05-22 | 2009-12-03 | Nec Electronics Corp | 自動更新装置、自動更新方法、及びプログラム |
US8321793B1 (en) * | 2008-07-02 | 2012-11-27 | Amdocs Software Systems Limited | System, method, and computer program for recommending web content to a user |
KR100975510B1 (ko) * | 2008-07-17 | 2010-08-11 | 엔에이치엔(주) | 웹 페이지 색인 업데이트 방법 및 시스템 |
US8805861B2 (en) * | 2008-12-09 | 2014-08-12 | Google Inc. | Methods and systems to train models to extract and integrate information from data sources |
US20100205168A1 (en) * | 2009-02-10 | 2010-08-12 | Microsoft Corporation | Thread-Based Incremental Web Forum Crawling |
US20100211533A1 (en) * | 2009-02-18 | 2010-08-19 | Microsoft Corporation | Extracting structured data from web forums |
US8712992B2 (en) * | 2009-03-28 | 2014-04-29 | Microsoft Corporation | Method and apparatus for web crawling |
US20100287148A1 (en) * | 2009-05-08 | 2010-11-11 | Cpa Global Patent Research Limited | Method, System, and Apparatus for Targeted Searching of Multi-Sectional Documents within an Electronic Document Collection |
US8484180B2 (en) * | 2009-06-03 | 2013-07-09 | Yahoo! Inc. | Graph-based seed selection algorithm for web crawlers |
US9213780B2 (en) * | 2009-06-26 | 2015-12-15 | Microsoft Technology Licensing Llc | Cache and index refreshing strategies for variably dynamic items and accesses |
US20110016471A1 (en) * | 2009-07-15 | 2011-01-20 | Microsoft Corporation | Balancing Resource Allocations Based on Priority |
US8352852B2 (en) * | 2009-08-14 | 2013-01-08 | Red Hat, Inc. | Portal replay and foresee |
US9135261B2 (en) | 2009-12-15 | 2015-09-15 | Emc Corporation | Systems and methods for facilitating data discovery |
US8156240B2 (en) * | 2010-03-01 | 2012-04-10 | Yahoo! Inc. | Mechanism for supporting user content feeds |
US8738635B2 (en) | 2010-06-01 | 2014-05-27 | Microsoft Corporation | Detection of junk in search result ranking |
US8433700B2 (en) * | 2010-09-17 | 2013-04-30 | Verisign, Inc. | Method and system for triggering web crawling based on registry data |
CN102480524B (zh) * | 2010-11-26 | 2014-09-10 | 中国科学院声学研究所 | 一种网页爬虫协作方法 |
US8793706B2 (en) | 2010-12-16 | 2014-07-29 | Microsoft Corporation | Metadata-based eventing supporting operations on data |
CN102567407B (zh) * | 2010-12-22 | 2014-07-16 | 北大方正集团有限公司 | 一种论坛回帖增量采集方法及系统 |
US8255385B1 (en) | 2011-03-22 | 2012-08-28 | Microsoft Corporation | Adaptive crawl rates based on publication frequency |
US8600968B2 (en) | 2011-04-19 | 2013-12-03 | Microsoft Corporation | Predictively suggesting websites |
CN102890692A (zh) | 2011-07-22 | 2013-01-23 | 阿里巴巴集团控股有限公司 | 一种网页信息抽取方法及抽取系统 |
US8782031B2 (en) | 2011-08-09 | 2014-07-15 | Microsoft Corporation | Optimizing web crawling with user history |
AU2012316283B2 (en) * | 2011-09-27 | 2016-01-14 | Amazon Technologies, Inc. | Historical browsing session management |
US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
US9881101B2 (en) | 2012-11-16 | 2018-01-30 | International Business Machines Corporation | Dynamic file retrieving for web page loading |
US9122992B2 (en) * | 2012-12-12 | 2015-09-01 | Lenovo (Singapore) Pte. Ltd. | Predicting web page |
US10114804B2 (en) | 2013-01-18 | 2018-10-30 | International Business Machines Corporation | Representation of an element in a page via an identifier |
RU2592390C2 (ru) * | 2013-07-15 | 2016-07-20 | Общество С Ограниченной Ответственностью "Яндекс" | Система, способ и устройство для оценки сеансов просмотра |
CN104657391B (zh) * | 2013-11-21 | 2018-08-03 | 阿里巴巴集团控股有限公司 | 页面的处理方法及装置 |
CN105024870A (zh) * | 2014-04-24 | 2015-11-04 | 中国移动通信集团公司 | 一种实现拨测的方法及系统 |
RU2589310C2 (ru) * | 2014-09-30 | 2016-07-10 | Закрытое акционерное общество "Лаборатория Касперского" | Система и способ расчета интервала повторного определения категорий сетевого ресурса |
US9160680B1 (en) | 2014-11-18 | 2015-10-13 | Kaspersky Lab Zao | System and method for dynamic network resource categorization re-assignment |
US10216694B2 (en) * | 2015-08-24 | 2019-02-26 | Google Llc | Generic scheduling |
US10210255B2 (en) * | 2015-12-31 | 2019-02-19 | Fractal Industries, Inc. | Distributed system for large volume deep web data extraction |
CN108780446B (zh) * | 2015-10-28 | 2022-08-19 | 维尔塞特公司 | 时间依赖的机器生成的提示 |
RU2632143C1 (ru) * | 2016-04-11 | 2017-10-02 | Общество С Ограниченной Ответственностью "Яндекс" | Способ обучения модуля ранжирования с использованием обучающей выборки с зашумленными ярлыками |
WO2018124757A1 (ko) * | 2016-12-30 | 2018-07-05 | (주)엠더블유스토리 | 크롤러 원격 관리 시스템 및 그 관리 방법 |
US10491622B2 (en) * | 2017-01-04 | 2019-11-26 | Synack, Inc. | Automatic webpage change detection |
CN108062368B (zh) * | 2017-12-08 | 2021-05-07 | 北京百度网讯科技有限公司 | 全量数据翻译方法、装置、服务器及存储介质 |
US10671371B2 (en) | 2018-06-12 | 2020-06-02 | International Business Machines Corporation | Alerting an offline user of a predicted computer file update |
EP3467740A1 (en) * | 2018-06-20 | 2019-04-10 | DataCo GmbH | Method and system for generating reports |
US11379539B2 (en) | 2019-05-22 | 2022-07-05 | Microsoft Technology Licensing, Llc | Efficient freshness crawl scheduling |
CN111444412B (zh) * | 2020-04-03 | 2023-06-16 | 北京明朝万达科技股份有限公司 | 网络爬虫任务的调度方法及装置 |
KR102563125B1 (ko) * | 2021-02-01 | 2023-08-03 | (주)레몬클라우드 | 최저가제공장치 및 최저가제공방법 |
US20230216913A1 (en) * | 2021-12-31 | 2023-07-06 | Tangoe Us, Inc. | Robotic Process Automation For Telecom Expense Management Information Change Detection And Notification |
WO2023211304A1 (ru) * | 2022-04-29 | 2023-11-02 | Публичное Акционерное Общество "Сбербанк России" | Система и способ сбора и обработки новостей в сети интернет |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1091638A (ja) * | 1996-09-17 | 1998-04-10 | Toshiba Corp | 検索システム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040225644A1 (en) * | 2003-05-09 | 2004-11-11 | International Business Machines Corporation | Method and apparatus for search engine World Wide Web crawling |
-
2004
- 2004-02-12 US US10/777,365 patent/US7310632B2/en not_active Expired - Fee Related
-
2005
- 2005-01-11 CA CA2492348A patent/CA2492348C/en not_active Expired - Fee Related
- 2005-01-19 AU AU2005200231A patent/AU2005200231B2/en not_active Ceased
- 2005-01-31 EP EP05100622A patent/EP1564661A3/en not_active Withdrawn
- 2005-02-07 CN CNB2005100081584A patent/CN100492358C/zh not_active Expired - Fee Related
- 2005-02-10 BR BR0500357-1A patent/BRPI0500357A/pt not_active IP Right Cessation
- 2005-02-11 MX MXPA05001675A patent/MXPA05001675A/es active IP Right Grant
- 2005-02-11 RU RU2005103705/08A patent/RU2405197C2/ru not_active IP Right Cessation
- 2005-02-11 KR KR1020050011647A patent/KR101213930B1/ko not_active IP Right Cessation
- 2005-02-14 JP JP2005036827A patent/JP4806201B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1091638A (ja) * | 1996-09-17 | 1998-04-10 | Toshiba Corp | 検索システム |
Non-Patent Citations (2)
Title |
---|
CSNB200800102001, Pierre Baldi、外2名原著,水田正弘、外2名共訳, 確率モデルによるWebデータ解析法(原題:Modeling the Internet and the Web), 20070531, 第1版, p.163−186, 森北出版株式会社 * |
CSNH200300223004, 野上宏康、外2名, "自然言語処理エンジン", 東芝レビュー, 20011201, 第56巻,第12号, p.23−26, 株式会社東芝 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008243021A (ja) * | 2007-03-28 | 2008-10-09 | Nippon Telegr & Teleph Corp <Ntt> | 符号列生成装置、符号列入力装置、符号列生成プログラムおよび符号列入力プログラム |
JP4668942B2 (ja) * | 2007-03-28 | 2011-04-13 | 日本電信電話株式会社 | 符号列生成装置、符号列入力装置、符号列生成プログラムおよび符号列入力プログラム |
JP2010140087A (ja) * | 2008-12-09 | 2010-06-24 | Nec Corp | 情報収集装置、情報収集方法及びプログラム |
JP2012099105A (ja) * | 2010-10-29 | 2012-05-24 | Fujitsu Ltd | 対話的クライアント‐サーバー・アプリケーションの分散式並列クロールを協調させる技法 |
Also Published As
Publication number | Publication date |
---|---|
EP1564661A2 (en) | 2005-08-17 |
US20050192936A1 (en) | 2005-09-01 |
JP4806201B2 (ja) | 2011-11-02 |
RU2405197C2 (ru) | 2010-11-27 |
KR20060041874A (ko) | 2006-05-12 |
US7310632B2 (en) | 2007-12-18 |
AU2005200231B2 (en) | 2011-02-17 |
EP1564661A3 (en) | 2007-02-07 |
BRPI0500357A (pt) | 2005-09-27 |
AU2005200231A1 (en) | 2005-09-01 |
KR101213930B1 (ko) | 2012-12-18 |
CA2492348C (en) | 2013-12-31 |
CN100492358C (zh) | 2009-05-27 |
MXPA05001675A (es) | 2005-08-16 |
CN1680938A (zh) | 2005-10-12 |
RU2005103705A (ru) | 2006-07-20 |
CA2492348A1 (en) | 2005-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4806201B2 (ja) | 決定理論的ウェブクローリングおよびウェブページ変更予測 | |
US11620296B2 (en) | Online machine learning algorithm for a data intake and query system | |
US11620157B2 (en) | Data ingestion pipeline anomaly detection | |
US11663176B2 (en) | Data field extraction model training for a data intake and query system | |
Menczer | Complementing search engines with online web mining agents | |
US11704490B2 (en) | Log sourcetype inference model training for a data intake and query system | |
Dhenakaran et al. | Web crawler-an overview | |
US11687438B1 (en) | Adaptive thresholding of data streamed to a data processing pipeline | |
WO2013055776A2 (en) | Systems and methods for prediction-based crawling of social media network | |
US11663219B1 (en) | Determining a set of parameter values for a processing pipeline | |
US7769749B2 (en) | Web page categorization using graph-based term selection | |
US20230385288A1 (en) | User interface for customizing data streams and processing pipelines | |
WO2022026984A1 (en) | Data field extraction model training for a data intake and query system | |
Sethi | An optimized crawling technique for maintaining fresh repositories | |
Santos et al. | A genetic programming framework to schedule webpage updates | |
CN112347394A (zh) | 网页信息的获取方法、装置、计算机设备和存储介质 | |
US20200089714A1 (en) | Method and server for indexing web page in index | |
US11714698B1 (en) | System and method for machine-learning based alert prioritization | |
Tsai et al. | Information services for novelty mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080130 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101022 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110301 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20110531 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20110603 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110701 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110805 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110812 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140819 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |