CN107193828B - 小说网页抓取方法和装置 - Google Patents

小说网页抓取方法和装置 Download PDF

Info

Publication number
CN107193828B
CN107193828B CN201610144889.XA CN201610144889A CN107193828B CN 107193828 B CN107193828 B CN 107193828B CN 201610144889 A CN201610144889 A CN 201610144889A CN 107193828 B CN107193828 B CN 107193828B
Authority
CN
China
Prior art keywords
novel
grabbing
frequency
page
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610144889.XA
Other languages
English (en)
Other versions
CN107193828A (zh
Inventor
张璐薪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610144889.XA priority Critical patent/CN107193828B/zh
Publication of CN107193828A publication Critical patent/CN107193828A/zh
Application granted granted Critical
Publication of CN107193828B publication Critical patent/CN107193828B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种小说网页抓取方法和装置。该方法包括:根据配置规则区分小说网页,所述小说网页包括封面页、列表页和更新页;根据封面页、列表页和更新页的更新特点,配置封面页、列表页和更新页的抓取频率;根据所述抓取频率对相应的小说网页进行抓取。本发明由于分别以不同的抓取频率对封面页、列表页和更新页进行抓取,可以保证包括新小说在内的所有小说的时效性,进而提高了抓取的小说的时效性,吸引更多的用户。

Description

小说网页抓取方法和装置
技术领域
本发明实施例涉及网络技术,尤其涉及一种小说网页抓取方法和装置。
背景技术
随着信息与通信技术的迅速发展,手机等移动终端中的功能越来越多,小说应用也成为了移动终端中的一项必备应用。小说应用通过抓取全网小说网页并进行实时转码后展现给用户。
现有技术中,在抓取小说网页时是定期抓取热门小说的网页,而对非热门小说的抓取周期则比较长。热门小说的挖掘存在一定的滞后性,例如一本新小说在成为热门小说之前需要积攒一定的阅读量,在这个过程中无法挖掘出该小说属于热门小说,这就导致了这本新小说的时效性很差。因此,总体来说,现有技术存在着小说的时效性较差的缺陷。
发明内容
有鉴于此,本发明实施例提供一种小说网页抓取方法和装置,以提高抓取的小说的时效性。
第一方面,本发明实施例提供了一种小说网页抓取方法,所述方法包括:
根据配置规则区分小说网页,所述小说网页包括封面页、列表页和更新页;
根据封面页、列表页和更新页的更新特点,配置封面页、列表页和更新页的抓取频率;
根据所述抓取频率对相应的小说网页进行抓取。
第二方面,本发明实施例还提供了一种小说网页抓取装置,所述装置包括:
小说网页区分模块,用于根据配置规则区分小说网页,所述小说网页包括封面页、列表页和更新页;
抓取频率配置模块,用于根据封面页、列表页和更新页的更新特点,配置封面页、列表页和更新页的抓取频率;
小说网页抓取模块,用于根据所述抓取频率对相应的小说网页进行抓取。
本发明实施例的技术方案,由于分别以不同的抓取频率对封面页、列表页和更新页进行抓取,可以保证包括新小说在内的所有小说的时效性,进而提高了抓取的小说的时效性,吸引更多的用户。
附图说明
图1是本发明实施例一提供的一种小说网页抓取方法的流程图;
图2是本发明实施例二提供的一种小说网页抓取方法的流程图;
图3是本发明实施例三提供的一种小说网页抓取方法的流程图;
图4是本发明实施例四提供的一种小说网页抓取装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1是本发明实施例一提供的一种小说网页抓取方法的流程图,本实施例可适用于抓取小说网页时保证时效性的情况,该方法可以由服务器来执行,具体包括如下:
S110,根据配置规则区分小说网页,所述小说网页包括封面页、列表页和更新页。
其中,配置规则是根据不同的小说网页的URL(Uniform Resource Locator,统一资源定位符)及页面特点,配置一定的规则来区分不同的小说网页。所述小说网页可以包括封面页、列表页和更新页,封面页是指一个小说的封面所在的网页,列表页是指一个网站中的所有小说的列表所在的网页,更新页是指一个网站中最近一段时间更新的小说的列表页。
S120,根据封面页、列表页和更新页的更新特点,配置封面页、列表页和更新页的抓取频率。
网站中的小说更新的内容在于一本小说的实际内容(包括章节等),而封面页很少会改变,另外当网站中的小说更新时,该更新的小说会在更新页中列出。由此可知,更新页是指的网站中最近一段时间更新的小说列表页,其更新速度比较快,因此配置更新页的抓取频率要相对较高一些;列表页是网站中的小说列表,其更新速度交更新页的更新速度慢,因此配置列表页的抓取频率要比更新页的抓取频率低一些;封面页是网站中的小说的封面,由于一个网站中的小说的封面很少会改变,因此可以配置极低的抓取频率进行抓取。除了前述的配置抓取频率的方法外,还可以根据更新页中的小说的前后顺序配置不同的抓取频率,也可以根据列表页中的小说的前后顺序配置不同的抓取频率。当然,还可以有其他的配置抓取频率的方法。
S130,根据所述抓取频率对相应的小说网页进行抓取。
根据配置的封面页、列表页和更新页的抓取频率,分别以相应的抓取频率对封面页、列表页和更新页进行抓取,更新页中会包括新小说,因此可以保证抓取的小说的时效性。
本实施例的技术方案,通过根据配置规则区分小说网页,根据封面页、列表页和更新页的更新特点,配置封面页、列表页和更新页的抓取频率,根据所述抓取频率对相应的小说网页进行抓取,由于分别以不同的抓取频率对封面页、列表页和更新页进行抓取,可以保证包括新小说在内的所有小说的时效性,进而提高了抓取的小说的时效性,吸引更多的用户。
在上述技术方案的基础上,根据封面页、列表页和更新页的更新特点,配置封面页、列表页和更新页的抓取频率优选包括:
配置第一抓取频率抓取更新页的前设定数量的页面;
配置第二抓取频率抓取所述更新页的前设定数量的页面以外的页面及列表页;
配置第三抓取频率抓取封面页;
其中,所述第一抓取频率大于所述第二抓取频率,所述第二抓取频率大于所述第三抓取频率。
由于在更新页中,排在前面的小说更新的时间距离当前时间比较近,因此可以配置比较大的第一抓取频率对更新页的前设定数量的页面进行抓取,以保证抓取的小说的时效性;配置小于第一抓取频率的第二抓取频率来对除更新页中的前设定数量的页面以外的页面及列表页进行抓取,以保证小说的覆盖率,以免出现漏抓的情况;配置小于第二抓取频率的第三抓取频率来对封面页进行抓取。
通过配置第一抓取频率抓取更新页中前设定数量的页面,配置第二抓取频率抓取更新页中除前设定数量的页面外的页面及列表页,配置第三抓取频率抓取封面页,可以保证抓取的小说的时效性,同时保证抓取的小说的覆盖率。
实施例二
图2是本发明实施例二提供的一种小说网页抓取方法的流程图,本实施例对实施例一进行了优化,在实施例一的基础上,小说网页还可以包括目录页,该方法还包括根据网站的历史数据及所述网站中小说的历史数据,计算网站中的小说的目录页的抓取频率,具体包括如下:
S210,根据配置规则区分小说网页,所述小说网页包括封面页、列表页和更新页。
在本实施例中,配置规则还包括区分目录页的规则。目录页是指一本小说的目录所在的网页。
S220,根据封面页、列表页和更新页的更新特点,配置封面页、列表页和更新页的抓取频率。
S230,根据网站的历史数据及所述网站中小说的历史数据,计算网站中的小说的目录页的抓取频率。
一般来说,抓取了更新页,基本可以覆盖所有的小说更新信息,但是,小说的更新信息有一定的概率没有在更新页中体现,而在小说的目录页中可体现,因此,为了保证覆盖所有小说的更新信息,还需要对小说的目录页进行抓取。在对小说的目录页进行抓取之前,要计算小说的目录页的抓取频率。在对小说网页进行抓取时,每天对全网小说的抓取量是一定的,因此可以根据每个网站的历史数据,将抓取量分配到每个网站中,再根据该网站中的小说的历史数据,计算得到该网站中的相应小说的目录页的抓取频率。
其中,网站的历史数据包括用户的点击情况,即点击的小说是该网站中的小说的出现的次数,还包括每个网站的历史更新情况。网站中的小说的历史数据包括用户点击的小说的次数及网站中的小说的更新情况。
其中,根据网站的历史数据及所述网站中小说的历史数据,计算网站中的小说的目录页的抓取频率优选包括:
根据网站的历史数据,计算网站每天的抓取配额;
根据所述抓取配额及所述网站中小说的历史数据,计算所述小说的目录页的抓取频率。
根据每个网站的用户点击情况及每个网站的历史更新情况,将一天的抓取量分配到每个网站中,得到一个网站每天的抓取配额,再结合该网站中的小说的用户点击情况及历史更新情况,将抓取配额分配到该网站中的小说中,进而可以得到该网站中的小说的目录页的抓取频率。通过对小说的目录页的抓取频率的计算,可以保证小说的更新信息的覆盖率。
上述S220和S230不限于上述的执行顺序,可以同时执行,也可以先执行S230,再执行S220。
S240,根据所述抓取频率对相应的小说网页进行抓取。
在本实施例中,抓取频率除了包括封面页、列表页和更新页的抓取频率外,还包括目录页的抓取频率,即对封面页、列表页和更新页抓取外,还需要根据目录页的抓取频率对相应网站中的相应小说的目录页进行抓取。
本实施例的技术方案,通过根据配置规则区分小说网页,根据面页、列表页和更新页的更新特点,配置封面页、列表页和更新页的抓取频率,根据网站的历史数据及所述网站中小说的历史数据,计算网站中的小说的目录页的抓取频率,根据所述抓取频率对相应的小说网页进行抓取,由于分别以不同的抓取频率对封面页、列表页、更新页和目录页进行抓取,可以保证包括新小说在内的所有小说的时效性,进而提高了抓取的小说的时效性,而且还可以保证覆盖的小说的更新信息更加全面。
在上述技术方案的基础上,根据网站的历史数据,计算网站每天的抓取配额优选包括:
根据网站的历史数据,对所述网站进行排名;
根据所述排名,计算所述网站的权重;
根据所述权重,计算所述网站每天的抓取配额。
综合网站的用户点击情况及网站的历史更新情况,对小说网站进行排名,根据网站的排名,通过映射函数计算得到每个网站的权重,再将每天的抓取量根据权重分配到每个网站中,得到每个网站每天的抓取配额。通过上述计算得到的抓取配额比较准确,可以保证网站的覆盖率。
在上述技术方案的基础上,根据所述抓取配额及所述网站中小说的历史数据,计算所述小说的目录页的抓取频率优选包括:
根据所述网站中小说的历史数据,将所述小说分为热门小说和非热门小说;
按照设定比例将所述抓取配额分配给所述热门小说和非热门小说;
根据分配后的抓取配额,计算所述热门小说和非热门小说的目录页的抓取频率。
根据一个网站中的小说的用户点击情况即小说的更新情况,可以对该网站中的小说进行分类,即将用户点击比较多的及更新频率较高的小说归为热门小说,其他小说归为非热门小说,再按照一定的比例将抓取配额分配给热门小说和非热门小说,由于该抓取配额是一天内的抓取配额,从而可以得到该网站中热门小说和非热门小说的目录页的抓取周期,进而得到热门小说和非热门小说的目录页的抓取频率。由于在对小说进行分类时考虑了小说的更新情况,保证了小说的更新信息的覆盖率。
实施例三
图3是本发明实施例三提供的一种小说网页抓取方法的流程图,本实施例在实施例一的基础上,将根据所述抓取频率对相应的小说网页进行抓取优化为将所述抓取频率与预设频率进行比较;当所述抓取频率超过预设频率时,以所述预设频率对相应的小说网页进行抓取。具体包括如下:
S310,根据配置规则区分小说网页,所述小说网页包括封面页、列表页和更新页。
S320,根据封面页、列表页和更新页的更新特点,配置封面页、列表页和更新页的抓取频率。
S330,将所述抓取频率与预设频率进行比较。
设置封面页、列表页和更新页的抓取频率的临界值,即预设频率,当抓取频率超过预设频率时,说明可能会造成网络阻塞,因此,为了保证网络的通畅,需要比较抓取频率与相应的预设频率,以得到抓取频率与相应的预设频率的关系。
S340,当所述抓取频率超过预设频率时,以所述预设频率对相应的小说网页进行抓取。
当封面页、列表页或更新页的抓取频率超过相应小说网页的预设频率时,为了避免网络被阻塞,以相应小说网页的预设频率对该小说网页进行抓取;当封面页、列表页或更新页的抓取频率没有超过相应小说网页的预设频率时,以相应小说网页的抓取频率对该小说网页进行抓取。
本实施例的技术方案,通过根据配置规则区分小说网页,根据封面页、列表页和更新页的更新特点,配置封面页、列表页和更新页的抓取频率,将所述抓取频率与预设频率进行比较,当所述抓取频率超过预设频率时,以所述预设频率对相应的小说网页进行抓取,由于分别以不同的抓取频率对封面页、列表页和更新页进行抓取,可以保证包括新小说在内的所有小说的时效性,进而提高了抓取的小说的时效性,与实施例一相比,当抓取频率超过预设频率时就以预设频率对相应的小说网页进行抓取,实现了对小说网站的压力控制,可以避免网络阻塞。
实施例四
图4是本发明实施例四提供的一种小说网页抓取装置的结构示意图,如图4所示,本实施例所述的小说网页抓取装置包括:小说网页区分模块410、抓取频率配置模块420和小说网页抓取模块430。
其中,小说网页区分模块410用于根据配置规则区分小说网页,所述小说网页包括封面页、列表页和更新页;
抓取频率配置模块420用于根据封面页、列表页和更新页的更新特点,配置封面页、列表页和更新页的抓取频率;
小说网页抓取模块430用于根据所述抓取频率对相应的小说网页进行抓取。
优选的,所述小说网页还包括目录页;
所述装置还包括:
抓取频率计算模块,用于在根据所述抓取频率对相应的小说网页进行抓取之前,根据网站的历史数据及所述网站中小说的历史数据,计算网站中的小说的目录页的抓取频率。
优选的,所述抓取频率计算模块包括:
抓取配额计算单元,用于根据网站的历史数据,计算网站每天的抓取配额;
抓取频率计算单元,用于根据所述抓取配额及所述网站中小说的历史数据,计算所述小说的目录页的抓取频率。
优选的,所述抓取配额计算单元包括:
网站排名子单元,用于根据网站的历史数据,对所述网站进行排名;
权重计算子单元,用于根据所述排名,计算所述网站的权重;
抓取配额计算子单元,用于根据所述权重,计算所述网站每天的抓取配额。
优选的,所述抓取频率计算单元包括:
分类子单元,用于根据所述网站中小说的历史数据,将所述小说分为热门小说和非热门小说;
抓取配额分配子单元,用于按照设定比例将所述抓取配额分配给所述热门小说和非热门小说;
抓取频率计算子单元,用于根据分配后的抓取配额,计算所述热门小说和非热门小说的目录页的抓取频率。
优选的,所述抓取频率配置模块具体用于:
配置第一抓取频率抓取更新页的前设定数量的页面;
配置第二抓取频率抓取所述更新页的前设定数量的页面以外的页面及列表页;
配置第三抓取频率抓取封面页;
其中,所述第一抓取频率大于所述第二抓取频率,所述第二抓取频率大于所述第三抓取频率。
优选的,所述小说网页抓取模块包括:
频率比较单元,用于将所述抓取频率与预设频率进行比较;
小说网页抓取单元,用于当所述抓取频率超过预设频率时,以所述预设频率对相应的小说网页进行抓取。
上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (12)

1.一种小说网页抓取方法,其特征在于,所述方法包括:
根据配置规则区分小说网页,所述小说网页包括封面页、列表页和更新页;
配置第一抓取频率抓取更新页的前设定数量的页面;
配置第二抓取频率抓取所述更新页的前设定数量的页面以外的页面及列表页;
配置第三抓取频率抓取封面页;
根据所述抓取频率对相应的小说网页进行抓取;
其中,所述封面页,是指小说的封面所在的网页;所述列表页,是指网站中的所有小说的列表所在的网页;所述更新页,是指网站中最近一段时间更新的小说的列表页;所述第一抓取频率大于所述第二抓取频率,所述第二抓取频率大于所述第三抓取频率。
2.根据权利要求1所述的方法,其特征在于,所述小说网页还包括目录页;
在根据所述抓取频率对相应的小说网页进行抓取之前,还包括:
根据网站的历史数据及所述网站中小说的历史数据,计算网站中的小说的目录页的抓取频率。
3.根据权利要求2所述的方法,其特征在于,根据网站的历史数据及所述网站中小说的历史数据,计算网站中的小说的目录页的抓取频率包括:
根据网站的历史数据,计算网站每天的抓取配额;
根据所述抓取配额及所述网站中小说的历史数据,计算所述小说的目录页的抓取频率。
4.根据权利要求3所述的方法,其特征在于,根据网站的历史数据,计算网站每天的抓取配额包括:
根据网站的历史数据,对所述网站进行排名;
根据所述排名,计算所述网站的权重;
根据所述权重,计算所述网站每天的抓取配额。
5.根据权利要求3所述的方法,其特征在于,根据所述抓取配额及所述网站中小说的历史数据,计算所述小说的目录页的抓取频率包括:
根据所述网站中小说的历史数据,将所述小说分为热门小说和非热门小说;
按照设定比例将所述抓取配额分配给所述热门小说和非热门小说;
根据分配后的抓取配额,计算所述热门小说和非热门小说的目录页的抓取频率。
6.根据权利要求1-5任一所述的方法,其特征在于,根据所述抓取频率对相应的小说网页进行抓取包括:
将所述抓取频率与预设频率进行比较;
当所述抓取频率超过预设频率时,以所述预设频率对相应的小说网页进行抓取。
7.一种小说网页抓取装置,其特征在于,所述装置包括:
小说网页区分模块,用于根据配置规则区分小说网页,所述小说网页包括封面页、列表页和更新页;
抓取频率配置模块,用于配置第一抓取频率抓取更新页的前设定数量的页面,配置第二抓取频率抓取所述更新页的前设定数量的页面以外的页面及列表页,配置第三抓取频率抓取封面页;
小说网页抓取模块,用于根据所述抓取频率对相应的小说网页进行抓取;
其中,所述封面页,是指小说的封面所在的网页;所述列表页,是指网站中的所有小说的列表所在的网页;所述更新页,是指网站中最近一段时间更新的小说的列表页;所述第一抓取频率大于所述第二抓取频率,所述第二抓取频率大于所述第三抓取频率。
8.根据权利要求7所述的装置,其特征在于,所述小说网页还包括目录页;
所述装置还包括:
抓取频率计算模块,用于在根据所述抓取频率对相应的小说网页进行抓取之前,根据网站的历史数据及所述网站中小说的历史数据,计算网站中的小说的目录页的抓取频率。
9.根据权利要求8所述的装置,其特征在于,所述抓取频率计算模块包括:
抓取配额计算单元,用于根据网站的历史数据,计算网站每天的抓取配额;
抓取频率计算单元,用于根据所述抓取配额及所述网站中小说的历史数据,计算所述小说的目录页的抓取频率。
10.根据权利要求9所述的装置,其特征在于,所述抓取配额计算单元包括:
网站排名子单元,用于根据网站的历史数据,对所述网站进行排名;
权重计算子单元,用于根据所述排名,计算所述网站的权重;
抓取配额计算子单元,用于根据所述权重,计算所述网站每天的抓取配额。
11.根据权利要求9所述的装置,其特征在于,所述抓取频率计算单元包括:
分类子单元,用于根据所述网站中小说的历史数据,将所述小说分为热门小说和非热门小说;
抓取配额分配子单元,用于按照设定比例将所述抓取配额分配给所述热门小说和非热门小说;
抓取频率计算子单元,用于根据分配后的抓取配额,计算所述热门小说和非热门小说的目录页的抓取频率。
12.根据权利要求7-11任一所述的装置,其特征在于,所述小说网页抓取模块包括:
频率比较单元,用于将所述抓取频率与预设频率进行比较;
小说网页抓取单元,用于当所述抓取频率超过预设频率时,以所述预设频率对相应的小说网页进行抓取。
CN201610144889.XA 2016-03-14 2016-03-14 小说网页抓取方法和装置 Active CN107193828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610144889.XA CN107193828B (zh) 2016-03-14 2016-03-14 小说网页抓取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610144889.XA CN107193828B (zh) 2016-03-14 2016-03-14 小说网页抓取方法和装置

Publications (2)

Publication Number Publication Date
CN107193828A CN107193828A (zh) 2017-09-22
CN107193828B true CN107193828B (zh) 2021-08-24

Family

ID=59870664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610144889.XA Active CN107193828B (zh) 2016-03-14 2016-03-14 小说网页抓取方法和装置

Country Status (1)

Country Link
CN (1) CN107193828B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109388736A (zh) * 2018-09-21 2019-02-26 真相网络科技(北京)有限公司 爬虫系统中的响应调度方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261635B (zh) * 2008-04-29 2010-09-01 哈尔滨工业大学深圳研究生院 一种被动式网络信息自动高效采集系统及方法
CN101667198B (zh) * 2009-09-18 2012-05-23 浙江大学 实时垂直搜索引擎对象缓存优化方法
CN102339290B (zh) * 2010-07-22 2013-12-11 北大方正集团有限公司 一种网页数据信息的定向采集方法及装置
US8868541B2 (en) * 2011-01-21 2014-10-21 Google Inc. Scheduling resource crawls
US8255385B1 (en) * 2011-03-22 2012-08-28 Microsoft Corporation Adaptive crawl rates based on publication frequency
CN102184253A (zh) * 2011-05-30 2011-09-14 北京搜狗科技发展有限公司 对网络资源进行抓取及更新消息推送的方法及系统
CN102609456A (zh) * 2012-01-12 2012-07-25 凤凰在线(北京)信息技术有限公司 一种文章实时智能抓取系统和方法
CN103945278A (zh) * 2013-01-21 2014-07-23 中国科学院声学研究所 一种视频内容及内容源爬取方法
CN103310026B (zh) * 2013-07-08 2016-11-23 焦点科技股份有限公司 一种基于搜索引擎的轻量级通用网页主题爬虫方法
CN103366018B (zh) * 2013-08-02 2017-11-03 人民搜索网络股份公司 一种微博信息抓取方法及装置
CN103530390B (zh) * 2013-10-22 2018-09-04 北京奇虎科技有限公司 网页抓取的方法及设备
CN104077377B (zh) * 2014-06-25 2018-02-23 红麦聚信(北京)软件技术有限公司 基于网络文章属性的网络舆情热点发现方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于改进的慢开始算法的网络机器人爬取策略的研究";唐雪峰 等;《新型工业化》;20121130;第42-45页 *
"面向分层结构的网页分类与抓取";王振宇 等;《计算机工程与科学》;20121130;第34卷(第11期);第1-6页 *

Also Published As

Publication number Publication date
CN107193828A (zh) 2017-09-22

Similar Documents

Publication Publication Date Title
US9258775B1 (en) Location-based software updates
CN105447139B (zh) 一种数据采集统计方法及其系统、终端、服务设备
US9372885B2 (en) System and methods thereof for dynamically updating the contents of a folder on a device
US20160142859A1 (en) Contextual deep linking of applications
CN107315825B (zh) 一种索引更新系统、方法及装置
CN110771126B (zh) 用于用户设备事件的匹配与归因的系统
CN109635199B (zh) 基于用户行为的应用列表动态推荐方法及系统
CN102024031A (zh) 一种用于基于实时搜索提供第二搜索结果的方法与设备
CN104125206B (zh) 一种客户端的硬件环境适配方法、装置、服务器及系统
CN102298614A (zh) 一种确定网页收藏信息的收藏分类的方法、装置和设备
CN103294385B (zh) 一种信息关联的方法和装置
CN105808594A (zh) 浏览器导航页显示方法、装置及设备
CN103812906B (zh) 一种网址推荐方法、装置和通信系统
CN104394475A (zh) 一种流媒体文件的播放方法及媒体播放器
CN104216698A (zh) 一种注册网页方法及相关装置
CN103455580A (zh) 一种推荐信息的方法和装置
CN104965831A (zh) 一种网址纠错方法、服务器、终端,及系统
CN104021221A (zh) 一种信息推送方法及装置
KR20100027200A (ko) 현재 페이지 자동 로그인 프로그램 및 그 방법
CN104283865A (zh) 一种下载处理方法、装置、服务器及客户端设备
CN104361130B (zh) 一种在网页中搜索局域网或指定网段内设备的方法
CN104753979B (zh) 一种显示网站信息的方法、服务器、终端及系统
CN104123299A (zh) 一种多终端设备间信息分享方法、装置及系统
CN103455602A (zh) 一种视频url抓取方法、装置及终端设备
CN105808642A (zh) 推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant