AR087458A1 - Metodo, medio y servidor para la optimizacion de rastreos web con historial de usuarios - Google Patents
Metodo, medio y servidor para la optimizacion de rastreos web con historial de usuariosInfo
- Publication number
- AR087458A1 AR087458A1 ARP120102853A AR087458A1 AR 087458 A1 AR087458 A1 AR 087458A1 AR P120102853 A ARP120102853 A AR P120102853A AR 087458 A1 AR087458 A1 AR 087458A1
- Authority
- AR
- Argentina
- Prior art keywords
- web
- sites
- log data
- time frames
- historical log
- Prior art date
Links
- 238000000034 method Methods 0.000 title 1
- 238000005457 optimization Methods 0.000 title 1
- 230000000903 blocking effect Effects 0.000 abstract 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/60—Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
- H04L67/62—Establishing a time schedule for servicing the requests
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Debugging And Monitoring (AREA)
Abstract
Un administrador de cortesía estima el tráfico hacia los sitios en base a datos de registro históricos generados y enviados por complementos o barras de herramientas en exploradores Web cliente. Los datos de registro históricos detallan fechas y momentos en que los exploradores Web visitan diferentes sitios Web, que se utilizan para comprender en cuáles marcos temporales específicos los sitios Web están ajetreados y en cuáles marcos temporales los sitios Web no están ocupados. Se determinan ritmos de rastreo para diferentes marcos temporales para un sitio Web en base a los datos de registro históricos, y se planifica que los agentes Web rastreen el sitio Web de acuerdo con los ritmos de rastreo para minimizar las chances de que las solicitudes de agentes Web sean responsables del bloqueo del sitio.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/206,256 US8782031B2 (en) | 2011-08-09 | 2011-08-09 | Optimizing web crawling with user history |
Publications (1)
Publication Number | Publication Date |
---|---|
AR087458A1 true AR087458A1 (es) | 2014-03-26 |
Family
ID=47669159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ARP120102853 AR087458A1 (es) | 2011-08-09 | 2012-08-03 | Metodo, medio y servidor para la optimizacion de rastreos web con historial de usuarios |
Country Status (6)
Country | Link |
---|---|
US (1) | US8782031B2 (es) |
EP (1) | EP2742438B1 (es) |
CN (1) | CN103718171B (es) |
AR (1) | AR087458A1 (es) |
TW (1) | TWI557571B (es) |
WO (1) | WO2013022659A2 (es) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150199332A1 (en) * | 2012-07-20 | 2015-07-16 | Mu Li | Browsing history language model for input method editor |
US10261938B1 (en) * | 2012-08-31 | 2019-04-16 | Amazon Technologies, Inc. | Content preloading using predictive models |
CN104168174A (zh) * | 2013-05-16 | 2014-11-26 | 阿里巴巴集团控股有限公司 | 一种传输信息的方法及装置 |
US10068013B2 (en) * | 2014-06-19 | 2018-09-04 | Samsung Electronics Co., Ltd. | Techniques for focused crawling |
US10310699B1 (en) * | 2014-12-08 | 2019-06-04 | Amazon Technologies, Inc. | Dynamic modification of browser and content presentation |
CN104581779B (zh) * | 2014-12-11 | 2018-11-30 | 华为技术有限公司 | 一种业务处理方法以及装置 |
CN106503017A (zh) * | 2015-09-08 | 2017-03-15 | 摩贝(上海)生物科技有限公司 | 一种分布式爬虫系统任务抓取系统和方法 |
US10585970B2 (en) * | 2016-01-14 | 2020-03-10 | International Business Machines Corporation | Managing dynamic webpage content |
US10484415B1 (en) | 2016-12-16 | 2019-11-19 | Worldpay, Llc | Systems and methods for detecting security risks in network pages |
CN110020046B (zh) * | 2017-10-20 | 2021-06-15 | 中移(苏州)软件技术有限公司 | 一种数据抓取方法及装置 |
US11366862B2 (en) * | 2019-11-08 | 2022-06-21 | Gap Intelligence, Inc. | Automated web page accessing |
CN111125488A (zh) * | 2019-12-25 | 2020-05-08 | 东南大学 | 一种主机负荷智能感知的定向爬虫方法及系统 |
CN111431852B (zh) * | 2020-02-21 | 2021-06-25 | 厦门大学 | 一种浏览器历史嗅探方法与浏览器历史监控方法 |
US12019691B2 (en) | 2021-04-02 | 2024-06-25 | Trackstreet, Inc. | System and method for reducing crawl frequency and memory usage for an autonomous internet crawler |
CN113486229B (zh) * | 2021-07-05 | 2023-11-07 | 北京百度网讯科技有限公司 | 抓取压力的控制方法、装置、电子设备及可读存储介质 |
CN113505041A (zh) * | 2021-07-21 | 2021-10-15 | 浪潮卓数大数据产业发展有限公司 | 基于用户访问行为分析的爬虫识别方法及系统 |
CN115329179B (zh) * | 2022-10-14 | 2023-04-28 | 卡奥斯工业智能研究院(青岛)有限公司 | 数据采集资源量控制方法、装置、设备及存储介质 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6662230B1 (en) * | 1999-10-20 | 2003-12-09 | International Business Machines Corporation | System and method for dynamically limiting robot access to server data |
US6418452B1 (en) * | 1999-11-03 | 2002-07-09 | International Business Machines Corporation | Network repository service directory for efficient web crawling |
AU2595801A (en) | 1999-12-30 | 2001-07-16 | Auctionwatch.Com, Inc. | Minimal impact crawler |
US7398271B1 (en) * | 2001-04-16 | 2008-07-08 | Yahoo! Inc. | Using network traffic logs for search enhancement |
US7725452B1 (en) * | 2003-07-03 | 2010-05-25 | Google Inc. | Scheduler for search engine crawler |
US7310632B2 (en) | 2004-02-12 | 2007-12-18 | Microsoft Corporation | Decision-theoretic web-crawling and predicting web-page change |
US7987172B1 (en) * | 2004-08-30 | 2011-07-26 | Google Inc. | Minimizing visibility of stale content in web searching including revising web crawl intervals of documents |
US8386459B1 (en) * | 2005-04-25 | 2013-02-26 | Google Inc. | Scheduling a recrawl |
US7769742B1 (en) | 2005-05-31 | 2010-08-03 | Google Inc. | Web crawler scheduler that utilizes sitemaps from websites |
US7801881B1 (en) | 2005-05-31 | 2010-09-21 | Google Inc. | Sitemap generating client for web crawler |
US7930400B1 (en) * | 2006-08-04 | 2011-04-19 | Google Inc. | System and method for managing multiple domain names for a website in a website indexing system |
US7599920B1 (en) | 2006-10-12 | 2009-10-06 | Google Inc. | System and method for enabling website owners to manage crawl rate in a website indexing system |
CN1945576A (zh) * | 2006-10-31 | 2007-04-11 | 上海态格文化传播有限公司 | 自适应网页更新时间预测方法 |
CN101187925B (zh) * | 2006-11-17 | 2010-11-03 | 北京酷讯科技有限公司 | 自动优化爬虫的抓取方法 |
JP4868245B2 (ja) | 2007-08-17 | 2012-02-01 | ヤフー株式会社 | 検索システム、検索装置、および検索方法 |
US7769740B2 (en) * | 2007-12-21 | 2010-08-03 | Yahoo! Inc. | Systems and methods of ranking attention |
US8108340B2 (en) | 2008-03-28 | 2012-01-31 | Yahoo! Inc. | Search engine configured to minimize performance degradation under high load |
US8595847B2 (en) * | 2008-05-16 | 2013-11-26 | Yellowpages.Com Llc | Systems and methods to control web scraping |
US20090327913A1 (en) * | 2008-06-27 | 2009-12-31 | Microsoft Corporation | Using web revisitation patterns to support web interaction |
-
2011
- 2011-08-09 US US13/206,256 patent/US8782031B2/en active Active
-
2012
- 2012-07-09 TW TW101124657A patent/TWI557571B/zh not_active IP Right Cessation
- 2012-07-31 WO PCT/US2012/049085 patent/WO2013022659A2/en unknown
- 2012-07-31 EP EP12822658.6A patent/EP2742438B1/en active Active
- 2012-07-31 CN CN201280038672.0A patent/CN103718171B/zh active Active
- 2012-08-03 AR ARP120102853 patent/AR087458A1/es active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
CN103718171A (zh) | 2014-04-09 |
TWI557571B (zh) | 2016-11-11 |
WO2013022659A2 (en) | 2013-02-14 |
EP2742438A4 (en) | 2015-05-20 |
EP2742438B1 (en) | 2017-12-13 |
WO2013022659A3 (en) | 2013-04-18 |
EP2742438A2 (en) | 2014-06-18 |
US20130041881A1 (en) | 2013-02-14 |
TW201308094A (zh) | 2013-02-16 |
US8782031B2 (en) | 2014-07-15 |
CN103718171B (zh) | 2016-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AR087458A1 (es) | Metodo, medio y servidor para la optimizacion de rastreos web con historial de usuarios | |
AR088571A1 (es) | Metodos y sistemas para la planificacion de pozos basada en un modelo de fractura complejo | |
BR112018070893A2 (pt) | sistema e método para gerenciamento de feixe | |
AR097334A1 (es) | Metodología probabilística para perforación en tiempo real | |
AR086994A1 (es) | Metodo y aparato para estimar los datos relacionados con las celdas | |
AR101859A1 (es) | Métodos de planificación de fractura automatizados para campos con múltiples pozos | |
BR112014003389A2 (pt) | sistema de computação, método para assegurar comunicações com um bios de tempo de execução confiável virtual em um sistema de computação e meio lido por computador | |
AR082931A1 (es) | Metodos y un dispositivo de computacion para la comunicacion online con dibujos | |
PE20161468A1 (es) | Sistema de administracion de integridad para administrar y controlar datos entre entidades en una cadena de suministros de activos de petroleo y gas | |
CL2011001180A1 (es) | Metodo y sistema para localizar y rastrear objetos en el ambiente de una mina que comprende definir areas, proporcionar y operar sistemas de radio para formar una pluralidad de redes y presentar visualmente las posiciones relativas de los diversos objetos dentro del area de operaciones en un sistema de pantalla. | |
BR112017001052A2 (pt) | dispositivo sem fio, nó de rede e métodos nos mesmos para enviar uma mensagem compreendendo uma indicação de uma restrição do dispositivo sem fio | |
AR063293A1 (es) | Metodo y sistema para entregar y ejecutar las mejores practicas en proyectos de desarrollo de yacimiento petrolifero | |
AR095179A1 (es) | Cuña perforable | |
CO2017013333A2 (es) | Encabezados de derechos de contenido | |
ATE467303T1 (de) | System und verfahren zur verwaltung von vorrichtungen | |
BR112018073174A2 (pt) | sistemas e métodos para fornecimento de um serviço de autoeleição | |
UY34280A (es) | Nuevos compuestos que tienen actividad inhibidora frente a la daminoacido oxidasa. | |
BR112015016906A2 (pt) | dispositivo sem fio e método a ser realizado por uma primeira plataforma de serviço de aplicativo em um primeiro dispositivo sem fio | |
CL2016001362A1 (es) | Composiciones y métodos para reducir eventos adversos cardiovasculares graves | |
CL2019000150A1 (es) | Métodos y sistemas para la dirección del tráfico basada en políticas dinámicas en múltiples redes de acceso | |
FR2984170B1 (fr) | Gel de decontamination et procede de decontamination de surfaces par trempage utilisant ce gel. | |
CL2013000220A1 (es) | Agente de control para podredumbre blanda en plantas porque contiene como ingrediente activo, un compuesto que no tiene actividad alguna antibacteriana contra erwinia carotovora pero que tiene una actividad de control contra los hongos en la superficie del suelo; metodo de control de podredumbre blanda de las plantas. | |
ECSP13013094A (es) | Composiciones de limpieza de sal colina | |
CL2007001254A1 (es) | Metodo de operacion de un monitor de evento tal como una solicitud de acceso, modificacion y/o remocion de objetos y dicho monitor, para monitorear el flujo de eventos entre una aplicacion front-end y su servidor back-end. | |
ES2530350T3 (es) | Procedimiento de gestión de sesiones de rastreo en una red y sistema de gestión de sesiones de rastreo |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FG | Grant, registration |