JP4668567B2 - クライアントベースのウェブクローリングのためのシステムおよび方法 - Google Patents
クライアントベースのウェブクローリングのためのシステムおよび方法 Download PDFInfo
- Publication number
- JP4668567B2 JP4668567B2 JP2004239997A JP2004239997A JP4668567B2 JP 4668567 B2 JP4668567 B2 JP 4668567B2 JP 2004239997 A JP2004239997 A JP 2004239997A JP 2004239997 A JP2004239997 A JP 2004239997A JP 4668567 B2 JP4668567 B2 JP 4668567B2
- Authority
- JP
- Japan
- Prior art keywords
- computer
- web page
- data set
- server
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
Description
弱インジケータ関数は、Dに対して以下のようにランダムに構成することができる。
(2)「i番目の文字が集合Sのメンバーである(Sは、Sの部分集合である)」という様式の1つまたは複数の項の結合からなる弱インジケータ関数I’を、D’に対してランダムに選ぶ。
(3)同じようにして、D”用の弱インジケータ関数I”をランダムに選ぶ。
(4)I’(x)=1またはI”(x)=1である場合、かつその場合に限り、関数I(x)=1を作成する。
102〜106 クライアント
110 検索サーバ
112 ウェブページサーバ
200 データ分析システム
202 クライアント
204 サーバ
300 データ分析システム
400 データ分析システム
500 データ分析システム
502 クライアント
504 サーバ
508 サーバへ送信
510 サーバから受信
600 なりすまし処理
700 なりすまし防止処理
706 ウェブサーバ
800 クライアントベースのウェブクローリングの方法
900 クライアントベースのウェブクローリングの方法
1000 クライアントベースのウェブクローリングの方法
1100 クライアントベースのウェブクローリングの方法
1200 弱インジケータ関数の適切な集合を生成する方法
1300 例示的なシステム環境
1302 従来のコンピュータ
1312 RAM
1316 ハードディスクドライブ
1318 磁気ディスクドライブ
1320 取外し可能ディスク
1322 光ディスクドライブ
1324 CD−ROMディスク
1340 キーボード
1342 マウス
1362 メモリ記憶装置
1400 計算機環境
Claims (20)
- ウェブクローラと前記ウェブクローラによって収集されたウェブページ情報に関する第1のデータセットを格納した第1のストレージとを含む第1のコンピュータと、
ブラウザまたはプロキシサーバから訪れたウェブページのウェブページ情報に関する第2のデータセットを格納した第2のストレージを含む少なくとも1つの第2のコンピュータと、
を備え、前記第1のコンピュータは前記第1のデータセットから第1のウェブページに関する第1のウェブページ情報の第1の表現を生成して、その第1の表現を前記第2のコンピュータに送信し、前記第2のコンピュータは前記第1の表現に対応する前記第1のウェブページのウェブページ情報をブラウザまたはプロキシサーバを用いて収集し、前記収集したウェブページ情報の第2の表現が前記第1の表現と異なる場合、前記第2のコンピュータは収集したウェブページ情報に基づき前記第2のデータセットを更新して、その更新された第2のデータセットを前記第1のコンピュータに送信し、前記第1のコンピュータは前記第2のデータセットに基づき第1のデータセットを更新することを特徴とするデータ分析システム。 - ウェブクローラと前記ウェブクローラによって収集されたウェブページ情報に関する第1のデータセットを格納した第1のストレージとを含む第1のコンピュータと、
ブラウザまたはプロキシサーバから訪れたウェブページのウェブページ情報に関する第2のデータセットを格納した第2のストレージを含む少なくとも1つの第2のコンピュータと、
を備え、前記第1のコンピュータは前記第1のデータセットから第1のウェブページに関する第1のウェブページ情報の第1の表現を生成して、その第1の表現を前記第2のコンピュータに送信し、前記第2のコンピュータは前記第1の表現に対応する前記第1のウェブページのウェブページ情報をブラウザまたはプロキシサーバを用いて収集し、前記第2のコンピュータは収集したウェブページ情報に基づき前記第2のデータセットを更新して、その更新された第2のデータセットを前記第1のコンピュータに送信し、前記第1のコンピュータは、前記第2のコンピュータから受信したウェブページ情報の第2の表現が前記第1の表現と異なる場合、前記第2のデータセットに基づき第1のデータセットを更新することを特徴とするデータ分析システム。 - 前記ウェブクローラは、インターネットウェブクローラを含むことを特徴とする請求項1又は2に記載のシステム。
- 前記ウェブクローラは、イントラネットウェブクローラを含むことを特徴とする請求項1又は2に記載のシステム。
- 前記第1のコンピュータは、前記少なくとも1つの第2のコンピュータからの前記第2のデータセットの受信を制御するためのスケジューリング機能を提供することを特徴とする請求項1又は2に記載のシステム。
- 前記第2のコンピュータは、前記第1のデータセットと前記第2のデータセットを比較して、前記第1のコンピュータのウェブクローラによって検索されたなりすましデータを検出するのにさらに使用されることを特徴とする請求項1又は2に記載のシステム。
- 前記第2のコンピュータは、前記第1のデータセットに関連するデータについての状況情報を生成するのにさらに使用され、前記状況情報は、前記第2のコンピュータが複数ある場合、少なくとも1つの他の第2のコンピュータに送信されることを特徴とする請求項1又は2に記載のシステム。
- 前記状況情報は、前記第1のデータセットに関連する情報の鮮度を示す鮮度フラグを少なくとも一部は含むことを特徴とする請求項7に記載のシステム。
- 前記状況情報は、前記第1のデータセットに関連する情報のコンテンツのハッシュを少なくとも一部は含むことを特徴とする請求項7に記載のシステム。
- 前記状況情報は、前記第1のデータセットに関連する情報のコピーを少なくとも一部は含むことを特徴とする請求項7に記載のシステム。
- 第1のコンピュータが備えるウェブクローラによってウェブページ情報に関する第1のデータセットを生成して前記第1のコンピュータが備える第1のストレージに前記第1のデータセットを格納するステップと、
前記第1のコンピュータが第1のウェブページに関する第1のウェブページ情報の第1の表現を前記第1のデータセットに基づき生成するステップと、
前記第1のコンピュータからブラウザまたはプロキシサーバから訪れたウェブページのウェブページ情報に関する第2のデータセットを格納した第2のストレージを含む少なくとも1つの第2のコンピュータに前記第1の表現を送信するステップと、
第2のコンピュータが前記第1の表現に対応する前記第1のウェブページのウェブページ情報を収集するステップと、
第2のコンピュータが前記第1の表現に基づき収集したウェブページ情報の第2の表現を生成するステップと、
第2のコンピュータが、前記第2の表現が前記第1の表現と異なる場合、前記収集したウェブページ情報に基づき第2のデータセットを更新して、その更新された前記第2のデータセットを前記第1のコンピュータに送信するステップと、
前記第1のコンピュータが受信した前記前記第2のデータセットに基づき前記第1のデータセットを更新するステップと
を有することを特徴とするデータ分析方法。 - 第1のコンピュータが備えるウェブクローラによってウェブページ情報に関する第1のデータセットを生成して前記第1のコンピュータが備える第1のストレージに前記第1のデータセットを格納するステップと、
前記第1のコンピュータが第1のウェブページに関する第1のウェブページ情報の第1の表現を前記第1のデータセットに基づき生成するステップと、
前記第1のコンピュータからブラウザまたはプロキシサーバから訪れたウェブページのウェブページ情報に関する第2のデータセットを格納した第2のストレージを含む少なくとも1つの第2のコンピュータに前記第1の表現を送信するステップと、
第2のコンピュータが前記第1の表現に対応する前記第1のウェブページのウェブページ情報を収集するステップと、
第2のコンピュータが、前記収集したウェブページ情報に基づき第2のデータセットを更新して、その更新された前記第2のデータセットを前記第1のコンピュータに送信するステップと、
前記第1のコンピュータが前記第2のデータセットに基づき、前記第1のウェブページに関するウェブページ情報の第2の表現を生成するステップと、
前記第1のコンピュータが、前記第2の表現が前記第1の表現と異なる場合、受信した前記前記第2のデータセットに基づき前記第1のデータセットを更新するステップと
を有することを特徴とするデータ分析方法。 - 前記ウェブクローラは、インターネットウェブクローラを含むことを特徴とする請求項11又は12に記載の方法。
- 前記ウェブクローラは、イントラネットウェブクローラを含むことを特徴とする請求項11又は12に記載の方法。
- 前記第1のコンピュータが、前記少なくとも1つの第2のコンピュータからの前記第2のデータセットの受信を制御するスケジューリングするステップをさらに有することを特徴とする方法。
- 前記第2のコンピュータが、前記第1のデータセットと前記第2のデータセットを比較して、前記第1のコンピュータのウェブクローラによって検索されたなりすましデータを検出するステップをさらに有することを特徴とする請求項11又は12に記載の方法。
- 前記第2のコンピュータが、前記第1のデータセットに関連するデータについての状況情報を生成するステップをさらに有し、前記状況情報は、前記第2のコンピュータが複数ある場合、少なくとも1つの他の第2のコンピュータに送信されることを特徴とする請求項11又は12に記載の方法。
- 前記状況情報は、前記第1のデータセットに関連する情報の鮮度を示す鮮度フラグを少なくとも一部は含むことを特徴とする請求項17に記載の方法。
- 前記状況情報は、前記第1のデータセットに関連する情報のコンテンツのハッシュを少なくとも一部は含むことを特徴とする請求項17に記載の方法。
- 前記状況情報は、前記第1のデータセットに関連する情報のコピーを少なくとも一部は含むことを特徴とする請求項17に記載の方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/670,681 US7685296B2 (en) | 2003-09-25 | 2003-09-25 | Systems and methods for client-based web crawling |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005135381A JP2005135381A (ja) | 2005-05-26 |
JP4668567B2 true JP4668567B2 (ja) | 2011-04-13 |
Family
ID=34194835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004239997A Expired - Fee Related JP4668567B2 (ja) | 2003-09-25 | 2004-08-19 | クライアントベースのウェブクローリングのためのシステムおよび方法 |
Country Status (12)
Country | Link |
---|---|
US (1) | US7685296B2 (ja) |
EP (1) | EP1519281A3 (ja) |
JP (1) | JP4668567B2 (ja) |
KR (1) | KR101153138B1 (ja) |
CN (1) | CN1601528B (ja) |
AU (1) | AU2004205329B2 (ja) |
BR (1) | BRPI0403803A (ja) |
CA (1) | CA2478358A1 (ja) |
MY (2) | MY146316A (ja) |
RU (1) | RU2383920C2 (ja) |
TW (1) | TWI367428B (ja) |
ZA (1) | ZA200407180B (ja) |
Families Citing this family (172)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7540021B2 (en) | 2000-04-24 | 2009-05-26 | Justin Page | System and methods for an identity theft protection bot |
US8527495B2 (en) * | 2002-02-19 | 2013-09-03 | International Business Machines Corporation | Plug-in parsers for configuring search engine crawler |
US8042112B1 (en) | 2003-07-03 | 2011-10-18 | Google Inc. | Scheduler for search engine crawler |
US7725452B1 (en) * | 2003-07-03 | 2010-05-25 | Google Inc. | Scheduler for search engine crawler |
US7346839B2 (en) | 2003-09-30 | 2008-03-18 | Google Inc. | Information retrieval based on historical data |
CA2447961A1 (en) * | 2003-10-31 | 2005-04-30 | Ibm Canada Limited - Ibm Canada Limitee | Research data repository system and method |
US7873724B2 (en) * | 2003-12-05 | 2011-01-18 | Microsoft Corporation | Systems and methods for guiding allocation of computational resources in automated perceptual systems |
US20050149615A1 (en) * | 2003-12-17 | 2005-07-07 | Nedimyer Joseph P. | System and method for processing resource registry updates without regard to chronological order |
US8452880B2 (en) * | 2003-12-22 | 2013-05-28 | Oracle International Corporation | System and method for verifying intended contents of an electronic message |
US7299222B1 (en) * | 2003-12-30 | 2007-11-20 | Aol Llc | Enhanced search results |
US20050192948A1 (en) * | 2004-02-02 | 2005-09-01 | Miller Joshua J. | Data harvesting method apparatus and system |
US8131702B1 (en) * | 2004-03-31 | 2012-03-06 | Google Inc. | Systems and methods for browsing historical content |
US8769671B2 (en) * | 2004-05-02 | 2014-07-01 | Markmonitor Inc. | Online fraud solution |
US7992204B2 (en) | 2004-05-02 | 2011-08-02 | Markmonitor, Inc. | Enhanced responses to online fraud |
US7870608B2 (en) * | 2004-05-02 | 2011-01-11 | Markmonitor, Inc. | Early detection and monitoring of online fraud |
US8041769B2 (en) * | 2004-05-02 | 2011-10-18 | Markmonitor Inc. | Generating phish messages |
US9203648B2 (en) | 2004-05-02 | 2015-12-01 | Thomson Reuters Global Resources | Online fraud solution |
US7913302B2 (en) * | 2004-05-02 | 2011-03-22 | Markmonitor, Inc. | Advanced responses to online fraud |
US7457823B2 (en) | 2004-05-02 | 2008-11-25 | Markmonitor Inc. | Methods and systems for analyzing data related to possible online fraud |
US20070107053A1 (en) * | 2004-05-02 | 2007-05-10 | Markmonitor, Inc. | Enhanced responses to online fraud |
US7987172B1 (en) | 2004-08-30 | 2011-07-26 | Google Inc. | Minimizing visibility of stale content in web searching including revising web crawl intervals of documents |
US8386459B1 (en) * | 2005-04-25 | 2013-02-26 | Google Inc. | Scheduling a recrawl |
US8666964B1 (en) | 2005-04-25 | 2014-03-04 | Google Inc. | Managing items in crawl schedule |
US8312074B2 (en) * | 2005-05-26 | 2012-11-13 | Bytemobile, Inc. | Method for multipart encoding |
US7509315B1 (en) | 2005-06-24 | 2009-03-24 | Google Inc. | Managing URLs |
JP2009507268A (ja) * | 2005-07-01 | 2009-02-19 | マークモニター インコーポレイテッド | 改良された不正行為監視システム |
KR100705413B1 (ko) * | 2005-08-19 | 2007-04-10 | 엔에이치엔(주) | 웹 페이지 지정 크롤링 가능한 웹 서버 기반의 데스크톱검색 시스템 및 방법 |
WO2007029348A1 (ja) | 2005-09-06 | 2007-03-15 | Community Engine Inc. | データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム |
US7676394B2 (en) | 2005-09-14 | 2010-03-09 | Jumptap, Inc. | Dynamic bidding and expected value |
US20080215557A1 (en) * | 2005-11-05 | 2008-09-04 | Jorey Ramer | Methods and systems of mobile query classification |
US9058406B2 (en) | 2005-09-14 | 2015-06-16 | Millennial Media, Inc. | Management of multiple advertising inventories using a monetization platform |
US10592930B2 (en) | 2005-09-14 | 2020-03-17 | Millenial Media, LLC | Syndication of a behavioral profile using a monetization platform |
US9076175B2 (en) | 2005-09-14 | 2015-07-07 | Millennial Media, Inc. | Mobile comparison shopping |
US8238888B2 (en) | 2006-09-13 | 2012-08-07 | Jumptap, Inc. | Methods and systems for mobile coupon placement |
US8302030B2 (en) | 2005-09-14 | 2012-10-30 | Jumptap, Inc. | Management of multiple advertising inventories using a monetization platform |
US9201979B2 (en) * | 2005-09-14 | 2015-12-01 | Millennial Media, Inc. | Syndication of a behavioral profile associated with an availability condition using a monetization platform |
US8311888B2 (en) * | 2005-09-14 | 2012-11-13 | Jumptap, Inc. | Revenue models associated with syndication of a behavioral profile using a monetization platform |
US9471925B2 (en) | 2005-09-14 | 2016-10-18 | Millennial Media Llc | Increasing mobile interactivity |
US20080214153A1 (en) * | 2005-09-14 | 2008-09-04 | Jorey Ramer | Mobile User Profile Creation based on User Browse Behaviors |
US20110313853A1 (en) | 2005-09-14 | 2011-12-22 | Jorey Ramer | System for targeting advertising content to a plurality of mobile communication facilities |
US8131271B2 (en) | 2005-11-05 | 2012-03-06 | Jumptap, Inc. | Categorization of a mobile user profile based on browse behavior |
US7752209B2 (en) | 2005-09-14 | 2010-07-06 | Jumptap, Inc. | Presenting sponsored content on a mobile communication facility |
US20080214148A1 (en) * | 2005-11-05 | 2008-09-04 | Jorey Ramer | Targeting mobile sponsored content within a social network |
US8156128B2 (en) | 2005-09-14 | 2012-04-10 | Jumptap, Inc. | Contextual mobile content placement on a mobile communication facility |
US10038756B2 (en) | 2005-09-14 | 2018-07-31 | Millenial Media LLC | Managing sponsored content based on device characteristics |
US20080270220A1 (en) * | 2005-11-05 | 2008-10-30 | Jorey Ramer | Embedding a nonsponsored mobile content within a sponsored mobile content |
US8819659B2 (en) | 2005-09-14 | 2014-08-26 | Millennial Media, Inc. | Mobile search service instant activation |
US8660891B2 (en) | 2005-11-01 | 2014-02-25 | Millennial Media | Interactive mobile advertisement banners |
US8103545B2 (en) | 2005-09-14 | 2012-01-24 | Jumptap, Inc. | Managing payment for sponsored content presented to mobile communication facilities |
US8805339B2 (en) | 2005-09-14 | 2014-08-12 | Millennial Media, Inc. | Categorization of a mobile user profile based on browse and viewing behavior |
US20070100806A1 (en) * | 2005-11-01 | 2007-05-03 | Jorey Ramer | Client libraries for mobile content |
US7702318B2 (en) | 2005-09-14 | 2010-04-20 | Jumptap, Inc. | Presentation of sponsored content based on mobile transaction event |
US20070061246A1 (en) * | 2005-09-14 | 2007-03-15 | Jorey Ramer | Mobile campaign creation |
US10911894B2 (en) | 2005-09-14 | 2021-02-02 | Verizon Media Inc. | Use of dynamic content generation parameters based on previous performance of those parameters |
US8364540B2 (en) | 2005-09-14 | 2013-01-29 | Jumptap, Inc. | Contextual targeting of content using a monetization platform |
US8989718B2 (en) | 2005-09-14 | 2015-03-24 | Millennial Media, Inc. | Idle screen advertising |
US7769764B2 (en) * | 2005-09-14 | 2010-08-03 | Jumptap, Inc. | Mobile advertisement syndication |
US9703892B2 (en) | 2005-09-14 | 2017-07-11 | Millennial Media Llc | Predictive text completion for a mobile communication facility |
US8832100B2 (en) * | 2005-09-14 | 2014-09-09 | Millennial Media, Inc. | User transaction history influenced search results |
US8364521B2 (en) * | 2005-09-14 | 2013-01-29 | Jumptap, Inc. | Rendering targeted advertisement on mobile communication facilities |
US7912458B2 (en) | 2005-09-14 | 2011-03-22 | Jumptap, Inc. | Interaction analysis and prioritization of mobile content |
US7660581B2 (en) | 2005-09-14 | 2010-02-09 | Jumptap, Inc. | Managing sponsored content based on usage history |
US20070060173A1 (en) * | 2005-09-14 | 2007-03-15 | Jorey Ramer | Managing sponsored content based on transaction history |
US8195133B2 (en) | 2005-09-14 | 2012-06-05 | Jumptap, Inc. | Mobile dynamic advertisement creation and placement |
US20080214151A1 (en) * | 2005-09-14 | 2008-09-04 | Jorey Ramer | Methods and systems for mobile coupon placement |
US20090240568A1 (en) * | 2005-09-14 | 2009-09-24 | Jorey Ramer | Aggregation and enrichment of behavioral profile data using a monetization platform |
US20080214204A1 (en) * | 2005-11-01 | 2008-09-04 | Jorey Ramer | Similarity based location mapping of mobile comm facility users |
US8209344B2 (en) | 2005-09-14 | 2012-06-26 | Jumptap, Inc. | Embedding sponsored content in mobile applications |
US20080214154A1 (en) * | 2005-11-01 | 2008-09-04 | Jorey Ramer | Associating mobile and non mobile web content |
US8290810B2 (en) | 2005-09-14 | 2012-10-16 | Jumptap, Inc. | Realtime surveying within mobile sponsored content |
US7577665B2 (en) * | 2005-09-14 | 2009-08-18 | Jumptap, Inc. | User characteristic influenced search results |
US8812526B2 (en) | 2005-09-14 | 2014-08-19 | Millennial Media, Inc. | Mobile content cross-inventory yield optimization |
US8615719B2 (en) | 2005-09-14 | 2013-12-24 | Jumptap, Inc. | Managing sponsored content for delivery to mobile communication facilities |
US8229914B2 (en) * | 2005-09-14 | 2012-07-24 | Jumptap, Inc. | Mobile content spidering and compatibility determination |
US8515400B2 (en) | 2005-09-14 | 2013-08-20 | Jumptap, Inc. | System for targeting advertising content to a plurality of mobile communication facilities |
US8666376B2 (en) * | 2005-09-14 | 2014-03-04 | Millennial Media | Location based mobile shopping affinity program |
US8027879B2 (en) * | 2005-11-05 | 2011-09-27 | Jumptap, Inc. | Exclusivity bidding for mobile sponsored content |
US8688671B2 (en) | 2005-09-14 | 2014-04-01 | Millennial Media | Managing sponsored content based on geographic region |
US8503995B2 (en) | 2005-09-14 | 2013-08-06 | Jumptap, Inc. | Mobile dynamic advertisement creation and placement |
US8175585B2 (en) | 2005-11-05 | 2012-05-08 | Jumptap, Inc. | System for targeting advertising content to a plurality of mobile communication facilities |
US8640231B2 (en) | 2006-02-23 | 2014-01-28 | Microsoft Corporation | Client side attack resistant phishing detection |
US8707451B2 (en) | 2006-03-01 | 2014-04-22 | Oracle International Corporation | Search hit URL modification for secure application integration |
US20070214129A1 (en) * | 2006-03-01 | 2007-09-13 | Oracle International Corporation | Flexible Authorization Model for Secure Search |
US8214394B2 (en) | 2006-03-01 | 2012-07-03 | Oracle International Corporation | Propagating user identities in a secure federated search system |
US7941419B2 (en) * | 2006-03-01 | 2011-05-10 | Oracle International Corporation | Suggested content with attribute parameterization |
US8332430B2 (en) | 2006-03-01 | 2012-12-11 | Oracle International Corporation | Secure search performance improvement |
US8875249B2 (en) * | 2006-03-01 | 2014-10-28 | Oracle International Corporation | Minimum lifespan credentials for crawling data repositories |
US8868540B2 (en) * | 2006-03-01 | 2014-10-21 | Oracle International Corporation | Method for suggesting web links and alternate terms for matching search queries |
US9177124B2 (en) | 2006-03-01 | 2015-11-03 | Oracle International Corporation | Flexible authentication framework |
US11062267B1 (en) | 2006-03-30 | 2021-07-13 | Geographic Solutions, Inc. | Automated reactive talent matching |
US7941525B1 (en) | 2006-04-01 | 2011-05-10 | ClickTale, Ltd. | Method and system for monitoring an activity of a user |
US20080155409A1 (en) * | 2006-06-19 | 2008-06-26 | Andy Santana | Internet search engine |
US10223671B1 (en) * | 2006-06-30 | 2019-03-05 | Geographic Solutions, Inc. | System, method and computer program products for direct applying to job applications |
US7660787B2 (en) * | 2006-07-19 | 2010-02-09 | International Business Machines Corporation | Customized, personalized, integrated client-side search indexing of the web |
US7634458B2 (en) * | 2006-07-20 | 2009-12-15 | Microsoft Corporation | Protecting non-adult privacy in content page search |
US7620634B2 (en) * | 2006-07-31 | 2009-11-17 | Microsoft Corporation | Ranking functions using an incrementally-updatable, modified naïve bayesian query classifier |
US7996487B2 (en) | 2006-08-23 | 2011-08-09 | Oracle International Corporation | Managing searches on mobile devices |
US8359278B2 (en) | 2006-10-25 | 2013-01-22 | IndentityTruth, Inc. | Identity protection |
US8225192B2 (en) * | 2006-10-31 | 2012-07-17 | Microsoft Corporation | Extensible cache-safe links to files in a web page |
CN101187925B (zh) * | 2006-11-17 | 2010-11-03 | 北京酷讯科技有限公司 | 自动优化爬虫的抓取方法 |
WO2008074481A2 (en) * | 2006-12-19 | 2008-06-26 | Koninklijke Kpn N.V. | Data network service based on profiling client-addresses |
US8275741B2 (en) * | 2006-12-27 | 2012-09-25 | Research In Motion Limited | Method and apparatus for memory management in an electronic device |
US10156953B2 (en) * | 2006-12-27 | 2018-12-18 | Blackberry Limited | Method for presenting data on a small screen |
US20080162486A1 (en) * | 2006-12-27 | 2008-07-03 | Research In Motion Limited | Method and apparatus for storing data from a network address |
US8099386B2 (en) * | 2006-12-27 | 2012-01-17 | Research In Motion Limited | Method and apparatus for synchronizing databases connected by wireless interface |
US7979458B2 (en) | 2007-01-16 | 2011-07-12 | Microsoft Corporation | Associating security trimmers with documents in an enterprise search system |
US7953868B2 (en) | 2007-01-31 | 2011-05-31 | International Business Machines Corporation | Method and system for preventing web crawling detection |
US9665543B2 (en) * | 2007-03-21 | 2017-05-30 | International Business Machines Corporation | System and method for reference validation in word processor documents |
US20080235163A1 (en) * | 2007-03-22 | 2008-09-25 | Srinivasan Balasubramanian | System and method for online duplicate detection and elimination in a web crawler |
CA2686540A1 (en) * | 2007-04-10 | 2008-10-16 | Accenture Global Services Gmbh | System and method of search validation |
JP4867799B2 (ja) * | 2007-06-05 | 2012-02-01 | 沖電気工業株式会社 | クローリング方法、そのプログラムおよび装置、エージェント装置、ネットワークシステム |
US8843471B2 (en) * | 2007-08-14 | 2014-09-23 | At&T Intellectual Property I, L.P. | Method and apparatus for providing traffic-based content acquisition and indexing |
JP5233250B2 (ja) * | 2007-11-09 | 2013-07-10 | 日本電気株式会社 | サーバ装置、情報処理装置、情報処理方法およびプログラム |
US8954867B2 (en) * | 2008-02-26 | 2015-02-10 | Biz360 Inc. | System and method for gathering product, service, entity and/or feature opinions |
US8359651B1 (en) * | 2008-05-15 | 2013-01-22 | Trend Micro Incorporated | Discovering malicious locations in a public computer network |
US8078974B2 (en) * | 2008-06-27 | 2011-12-13 | Microsoft Corporation | Relating web page change with revisitation patterns |
US8775465B2 (en) * | 2008-07-30 | 2014-07-08 | Yahoo! Inc. | Automatic updating of content included in research documents |
CN101650715B (zh) * | 2008-08-12 | 2011-06-29 | 厦门市美亚柏科信息股份有限公司 | 一种筛选网页上链接的方法和装置 |
JP5405190B2 (ja) * | 2009-01-15 | 2014-02-05 | 株式会社Nttドコモ | コンテンツ管理情報収集システム、及びコンテンツ管理情報収集方法 |
KR20120034600A (ko) | 2009-03-20 | 2012-04-12 | 에이디 밴티지 네트웍스 엘엘씨 | 컨텐츠를 검색, 선택 및 표시하는 방법 및 시스템 |
US8712992B2 (en) * | 2009-03-28 | 2014-04-29 | Microsoft Corporation | Method and apparatus for web crawling |
CN101515300B (zh) | 2009-04-02 | 2011-07-20 | 阿里巴巴集团控股有限公司 | 一种Ajax网页内容的抓取方法及系统 |
US10108432B1 (en) * | 2009-04-16 | 2018-10-23 | Intuit Inc. | Generating a script based on user actions |
US20110088100A1 (en) * | 2009-10-14 | 2011-04-14 | Serge Rutman | Disabling electronic display devices |
JP2011107557A (ja) * | 2009-11-20 | 2011-06-02 | Fuji Xerox Co Ltd | 画像形成装置 |
US8666996B2 (en) * | 2009-12-23 | 2014-03-04 | Mastercard International Incorporated | Methods and systems for detecting broken links within a file |
US8600979B2 (en) * | 2010-06-28 | 2013-12-03 | Yahoo! Inc. | Infinite browse |
US9043306B2 (en) | 2010-08-23 | 2015-05-26 | Microsoft Technology Licensing, Llc | Content signature notification |
CN102480524B (zh) * | 2010-11-26 | 2014-09-10 | 中国科学院声学研究所 | 一种网页爬虫协作方法 |
WO2012167149A1 (en) * | 2011-06-01 | 2012-12-06 | Mycomingle, Llc | System and method for internet services aggregation |
US8671108B2 (en) | 2011-09-02 | 2014-03-11 | Mastercard International Incorporated | Methods and systems for detecting website orphan content |
US20130159051A1 (en) * | 2011-12-15 | 2013-06-20 | Sybase 365, Inc. | System and Method for Enhanced Information Gathering |
US8577610B2 (en) | 2011-12-21 | 2013-11-05 | Telenav Inc. | Navigation system with point of interest harvesting mechanism and method of operation thereof |
WO2013097742A1 (zh) * | 2011-12-30 | 2013-07-04 | 北京奇虎科技有限公司 | 识别被篡改网页以及识别被劫持网址的方法及装置 |
CN102594934B (zh) * | 2011-12-30 | 2015-03-25 | 奇智软件(北京)有限公司 | 一种识别被劫持网址的方法及装置 |
US20130283097A1 (en) * | 2012-04-23 | 2013-10-24 | Yahoo! Inc. | Dynamic network task distribution |
FR2994297B1 (fr) * | 2012-08-01 | 2015-06-19 | Netwave | Procede de traitement de donnees de connexion d'une plateforme d'un site internet |
FR2994358B1 (fr) * | 2012-08-01 | 2015-06-19 | Netwave | Systeme de traitement de donnees de connexion a une plateforme d'un site internet |
FR2994296B1 (fr) * | 2012-08-01 | 2015-06-19 | Netwave | Procede de traitement de donnees pour analyse situationnelle |
CN102932435B (zh) * | 2012-10-18 | 2016-06-15 | 北京奇虎科技有限公司 | 网络检测系统 |
CN102917053B (zh) * | 2012-10-18 | 2016-03-30 | 北京奇虎科技有限公司 | 一种用于判断网页网址重写的方法、设备和系统 |
US9805018B1 (en) * | 2013-03-15 | 2017-10-31 | Steven E. Richfield | Natural language processing for analyzing internet content and finding solutions to needs expressed in text |
ES2709074T3 (es) * | 2013-03-15 | 2019-04-15 | Onective Ag | Comparación de una lista de contactos automatizada con una mejora de la privacidad |
JP6104729B2 (ja) * | 2013-06-17 | 2017-03-29 | 株式会社Nttドコモ | コンテンツ検索システム、コンテンツ検索方法、及びコンテンツ検索プログラム |
US20150074101A1 (en) * | 2013-09-10 | 2015-03-12 | Microsoft Corporation | Smart search refinement |
CN105493095A (zh) * | 2013-09-24 | 2016-04-13 | 迈克菲股份有限公司 | 用于样本提交的自适应和递归过滤 |
US9614869B2 (en) * | 2013-11-23 | 2017-04-04 | Universidade da Coruña—OTRI | System and server for detecting web page changes |
KR101560716B1 (ko) * | 2014-02-14 | 2015-10-16 | (주)엠더블유스토리 | 디지털콘텐츠의 무결성 보장을 위한 디지털 콘텐츠 모니터링 시스템 |
RU2634218C2 (ru) | 2014-07-24 | 2017-10-24 | Общество С Ограниченной Ответственностью "Яндекс" | Способ определения последовательности просмотра веб-страниц и сервер, используемый в нем |
CN104750804A (zh) * | 2015-03-24 | 2015-07-01 | 南京途牛科技有限公司 | 一种插件式可配置的垂直领域网络爬虫实现方法 |
US10210255B2 (en) * | 2015-12-31 | 2019-02-19 | Fractal Industries, Inc. | Distributed system for large volume deep web data extraction |
AU2015401229B2 (en) * | 2015-12-28 | 2019-01-17 | Huawei Cloud Computing Technologies Co., Ltd. | Website access method, apparatus, and website system |
US10681182B1 (en) * | 2016-04-06 | 2020-06-09 | Uipco, Llc | Multi-device work flow management method and system for managing work flow data collection for users across a diverse set of devices and processes by unifying the work process to be data and device agnostic |
CN106156291A (zh) * | 2016-06-29 | 2016-11-23 | 深圳市彬讯科技有限公司 | 基于Localstroage的静态资源的缓存方法及其系统 |
CN106326447B (zh) * | 2016-08-26 | 2019-06-21 | 北京量科邦信息技术有限公司 | 一种众包网络爬虫抓取数据的检测方法及系统 |
US10491622B2 (en) * | 2017-01-04 | 2019-11-26 | Synack, Inc. | Automatic webpage change detection |
US10970354B2 (en) * | 2017-07-17 | 2021-04-06 | Songtradr, Inc. | Method for processing code and increasing website and client interaction speed |
CN108170843B (zh) * | 2018-01-17 | 2019-07-12 | 百度在线网络技术(北京)有限公司 | 用于获取数据的方法和装置 |
KR102222287B1 (ko) | 2018-05-17 | 2021-03-02 | 동서대학교 산학협력단 | 은닉 url에 포함된 정형 및 비정형 데이터의 수집을 위한 웹 크롤러 시스템 |
KR102221045B1 (ko) * | 2018-08-08 | 2021-02-25 | 동명대학교산학협력단 | 다중 스레드 방식의 웹 크롤링 시스템 |
CN109284430A (zh) * | 2018-09-07 | 2019-01-29 | 杭州艾塔科技有限公司 | 基于分布式架构的可视化主题网页内容爬取系统及方法 |
US11361076B2 (en) * | 2018-10-26 | 2022-06-14 | ThreatWatch Inc. | Vulnerability-detection crawler |
CN109740038A (zh) * | 2019-01-02 | 2019-05-10 | 安徽芃睿科技有限公司 | 网络数据分布式采集系统及方法 |
US11366862B2 (en) * | 2019-11-08 | 2022-06-21 | Gap Intelligence, Inc. | Automated web page accessing |
CN111368164B (zh) * | 2020-02-24 | 2023-05-09 | 支付宝(杭州)信息技术有限公司 | 一种爬虫识别模型训练、爬虫识别方法、装置、系统、设备及介质 |
CN111506787B (zh) * | 2020-03-06 | 2023-04-25 | 百度在线网络技术(北京)有限公司 | 网页更新的方法、装置、电子设备和计算机可读存储介质 |
CN111506786B (zh) * | 2020-03-06 | 2023-10-27 | 百度在线网络技术(北京)有限公司 | 网页更新的方法、装置、电子设备和计算机可读存储介质 |
JP7322194B2 (ja) * | 2020-04-29 | 2023-08-07 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | データ更新方法、装置、検索サーバ、端末及び記憶媒体 |
CN111767442B (zh) * | 2020-04-29 | 2023-12-26 | 百度在线网络技术(北京)有限公司 | 数据更新方法、装置、搜索服务器、终端及存储介质 |
KR102550868B1 (ko) | 2021-01-22 | 2023-07-04 | 인하대학교 산학협력단 | 교원 업적 검증 시스템 |
US20230216913A1 (en) * | 2021-12-31 | 2023-07-06 | Tangoe Us, Inc. | Robotic Process Automation For Telecom Expense Management Information Change Detection And Notification |
KR102632300B1 (ko) * | 2023-08-30 | 2024-02-01 | (주)잇츠솔루션 | 뉴럴 네트워크를 기반으로 기업의 환경 분야와 관련된 정보를 관리하는 방법 및 시스템 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002140257A (ja) * | 2000-10-31 | 2002-05-17 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ判定方法 |
JP2002312284A (ja) * | 2001-04-10 | 2002-10-25 | Clover Network Com:Kk | ホームページ改竄検知装置及び改竄検知プログラム |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5185040A (en) * | 1988-12-19 | 1993-02-09 | Murata Manufacturing Co., Ltd. | Apparatus for forming electrode on electronic component |
GB2257386B (en) * | 1991-06-24 | 1995-07-05 | Tani Denki Kogyo Kk | Screen printing apparatus |
US5786701A (en) * | 1993-07-02 | 1998-07-28 | Mitel Semiconductor Limited | Bare die testing |
NL9301820A (nl) * | 1993-10-20 | 1995-05-16 | Stork Screens Bv | Rakelsamenstel. |
US5492266A (en) * | 1994-08-31 | 1996-02-20 | International Business Machines Corporation | Fine pitch solder deposits on printed circuit board process and product |
US6286422B1 (en) * | 1994-12-27 | 2001-09-11 | Visteon Global Tech., Inc. | Method and apparatus for dispensing viscous material |
US5868302A (en) * | 1995-09-06 | 1999-02-09 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for mounting electronic component |
US5925187A (en) * | 1996-02-08 | 1999-07-20 | Speedline Technologies, Inc. | Apparatus for dispensing flowable material |
US5935210A (en) | 1996-11-27 | 1999-08-10 | Microsoft Corporation | Mapping the structure of a collection of computer resources |
JP2000507791A (ja) | 1996-12-16 | 2000-06-20 | サムスン エレクトロニクス カンパニー リミテッド | ローカルネットワークにおける電子メールメッセージの送信方法及び装置 |
US5909634A (en) * | 1996-12-20 | 1999-06-01 | Texas Instruments | Method and apparatus for forming solder on a substrate |
US6631402B1 (en) * | 1997-09-26 | 2003-10-07 | Worldcom, Inc. | Integrated proxy interface for web based report requester tool set |
US6421675B1 (en) | 1998-03-16 | 2002-07-16 | S. L. I. Systems, Inc. | Search engine |
US6638314B1 (en) | 1998-06-26 | 2003-10-28 | Microsoft Corporation | Method of web crawling utilizing crawl numbers |
US6199081B1 (en) | 1998-06-30 | 2001-03-06 | Microsoft Corporation | Automatic tagging of documents and exclusion by content |
JP2000168045A (ja) * | 1998-12-02 | 2000-06-20 | Fuji Mach Mfg Co Ltd | スクリーン印刷用スキージおよびスクリーン印刷方法 |
US6547829B1 (en) | 1999-06-30 | 2003-04-15 | Microsoft Corporation | Method and system for detecting duplicate documents in web crawls |
US6434548B1 (en) | 1999-12-07 | 2002-08-13 | International Business Machines Corporation | Distributed metadata searching system and method |
AU4712601A (en) * | 1999-12-08 | 2001-07-03 | Amazon.Com, Inc. | System and method for locating and displaying web-based product offerings |
US6785671B1 (en) * | 1999-12-08 | 2004-08-31 | Amazon.Com, Inc. | System and method for locating web-based product offerings |
US6883135B1 (en) | 2000-01-28 | 2005-04-19 | Microsoft Corporation | Proxy server using a statistical model |
US6687696B2 (en) * | 2000-07-26 | 2004-02-03 | Recommind Inc. | System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models |
US7028039B2 (en) | 2001-01-18 | 2006-04-11 | Hewlett-Packard Development Company, L.P. | System and method for storing connectivity information in a web database |
US6950821B2 (en) | 2001-05-04 | 2005-09-27 | Sun Microsystems, Inc. | System and method for resolving distributed network search queries to information providers |
US20040240388A1 (en) * | 2003-05-28 | 2004-12-02 | Lee Albion | System and method for dynamic assignment of timers in a network transport engine |
US20050027670A1 (en) * | 2003-07-30 | 2005-02-03 | Petropoulos Jack G. | Ranking search results using conversion data |
-
2003
- 2003-09-25 US US10/670,681 patent/US7685296B2/en not_active Expired - Fee Related
-
2004
- 2004-08-17 RU RU2004125187/09A patent/RU2383920C2/ru not_active IP Right Cessation
- 2004-08-18 TW TW093124862A patent/TWI367428B/zh not_active IP Right Cessation
- 2004-08-19 JP JP2004239997A patent/JP4668567B2/ja not_active Expired - Fee Related
- 2004-08-20 CA CA002478358A patent/CA2478358A1/en not_active Abandoned
- 2004-08-25 EP EP04020165A patent/EP1519281A3/en not_active Withdrawn
- 2004-08-27 MY MYPI20043519A patent/MY146316A/en unknown
- 2004-08-27 MY MYPI20083804A patent/MY143875A/en unknown
- 2004-08-30 KR KR1020040068727A patent/KR101153138B1/ko not_active IP Right Cessation
- 2004-08-30 AU AU2004205329A patent/AU2004205329B2/en not_active Ceased
- 2004-08-30 BR BR0403803-7A patent/BRPI0403803A/pt not_active IP Right Cessation
- 2004-09-03 CN CN2004100769424A patent/CN1601528B/zh not_active Expired - Fee Related
- 2004-09-08 ZA ZA200407180A patent/ZA200407180B/xx unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002140257A (ja) * | 2000-10-31 | 2002-05-17 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ判定方法 |
JP2002312284A (ja) * | 2001-04-10 | 2002-10-25 | Clover Network Com:Kk | ホームページ改竄検知装置及び改竄検知プログラム |
Also Published As
Publication number | Publication date |
---|---|
RU2383920C2 (ru) | 2010-03-10 |
AU2004205329A1 (en) | 2005-04-14 |
MY146316A (en) | 2012-07-31 |
CA2478358A1 (en) | 2005-03-25 |
CN1601528A (zh) | 2005-03-30 |
TW200516466A (en) | 2005-05-16 |
EP1519281A3 (en) | 2005-04-20 |
KR101153138B1 (ko) | 2012-06-04 |
KR20050030542A (ko) | 2005-03-30 |
AU2004205329B2 (en) | 2010-08-26 |
MY143875A (en) | 2011-07-15 |
US20050071766A1 (en) | 2005-03-31 |
TWI367428B (en) | 2012-07-01 |
JP2005135381A (ja) | 2005-05-26 |
US7685296B2 (en) | 2010-03-23 |
BRPI0403803A (pt) | 2005-05-24 |
EP1519281A2 (en) | 2005-03-30 |
ZA200407180B (en) | 2005-07-29 |
RU2004125187A (ru) | 2006-02-20 |
CN1601528B (zh) | 2011-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4668567B2 (ja) | クライアントベースのウェブクローリングのためのシステムおよび方法 | |
US8229930B2 (en) | URL reputation system | |
KR100781725B1 (ko) | 피어 투 피어 인가를 위한 방법 및 시스템 | |
AU2007273085B2 (en) | System and method of analyzing web content | |
US7756987B2 (en) | Cybersquatter patrol | |
US7539664B2 (en) | Method and system for operating a rating server based on usage and download patterns within a peer-to-peer network | |
CN101971591B (zh) | 分析网址的系统及方法 | |
CN109933701B (zh) | 一种基于多策略融合的微博数据获取方法 | |
US8595847B2 (en) | Systems and methods to control web scraping | |
CN100527684C (zh) | 用于管理多主机环境下的公共信息模型的方法和系统 | |
US8800043B2 (en) | Pre-emptive pre-indexing of sensitive and vulnerable assets | |
CN104125209A (zh) | 恶意网址提示方法和路由器 | |
JP2000357176A (ja) | コンテンツ索引付け検索システム及び検索結果提供方法 | |
Erlandsson et al. | Crawling online social networks | |
CN102968591B (zh) | 基于行为片段共享的恶意软件特征聚类分析方法及系统 | |
CN113454621A (zh) | 用于从多域收集数据的方法、装置和计算机程序 | |
AU2008287031B2 (en) | A method and system for tracking and optimizing advertisements on a decentralized network | |
KR100714504B1 (ko) | 유무선 인터넷을 이용한 개인 단말의 컨텐츠 검색 시스템및 방법 | |
US20050086213A1 (en) | Server apparatus, information providing method and program product therefor | |
US11138463B1 (en) | Unsupervised and supervised machine learning approaches to detecting bots and other types of browsers | |
KR102190316B1 (ko) | 브라우저 모사를 이용한 딥웹 분석 시스템 및 그 분석 방법 | |
JP2006058948A (ja) | コンテンツ情報収集装置、コンテンツ情報収集方法およびコンテンツ情報収集方法をコンピュータに実行させるコンテンツ情報収集プログラム | |
Ansari et al. | A comparative study of mining web usage patterns using variants of k-means clustering algorithm | |
JP2005339008A (ja) | アクセス制御方法およびプログラムと記録媒体 | |
Wang et al. | A comprehensive and long-term evaluation of tor v3 onion services |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070820 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100730 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110111 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140121 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees | ||
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |