CN103336834A - 一种网页爬虫抓取方法及装置 - Google Patents

一种网页爬虫抓取方法及装置 Download PDF

Info

Publication number
CN103336834A
CN103336834A CN2013102915208A CN201310291520A CN103336834A CN 103336834 A CN103336834 A CN 103336834A CN 2013102915208 A CN2013102915208 A CN 2013102915208A CN 201310291520 A CN201310291520 A CN 201310291520A CN 103336834 A CN103336834 A CN 103336834A
Authority
CN
China
Prior art keywords
web page
page address
statistics
extracting
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013102915208A
Other languages
English (en)
Other versions
CN103336834B (zh
Inventor
周东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Shangke Information Technology Co Ltd
Priority to CN201310291520.8A priority Critical patent/CN103336834B/zh
Publication of CN103336834A publication Critical patent/CN103336834A/zh
Application granted granted Critical
Publication of CN103336834B publication Critical patent/CN103336834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及互联网搜索领域,特别是一种网页爬虫抓取方法及装置。主要技术方案包括:根据给定的搜索条件及生成种子数,生成至少一个满足搜索条件的网页地址,所述网页地址的生成数量与所述生成种子数相同;对所述网页地址进行数据抓取,得到抓取网页内容;根据抓取网页内容,确定满足预设统计条件的网页地址数量的统计结果;根据所述统计结果修改所述生成种子数。由于生成种子数确定了生成网页地址的数量,而对抓取网页内容进行统计后重新修改生成种子数,形成一种迭代方式。对于一个给定的搜索条件,其生成种子数能自动调节并适应该搜索条件。通过设定合适的统计条件,能最大程度地减少因处理不合适的数据所造成的资源浪费。

Description

一种网页爬虫抓取方法及装置
技术领域
本发明涉及互联网搜索领域,特别是一种网页爬虫抓取方法及装置。
背景技术
现有的网页爬虫抓取技术,主要是通过对互联网信息进行搜索,将符合搜索条件的信息从海量的网页信息中抓取出来。例如,对舆情的数据抓取主要是通过搜索等各大搜索引擎网站以及各大微博网站,采用网页爬虫抓取技术抓取。网页爬虫抓取技术,首先需要生成对应网页地址(URL,Uniform Resource Locator)的种子,然后程序访问种子对应的网页地址,抓取网页内容。种子生成常规的方法有几种方式供选择。第一种,通过自我衍生的方式,用程序遍历一个关键词的所有搜索列表页进行全部抓取。第二种方式,人工预估一个确定的生成种子数n,只抓取关键词的搜索列表页的前n页。
但是这两种方式对于实时性要求较高的数据抓取来说都存在弊端。采用第一种方式会把很久以前的数据抓取出来,但是这些老数据不是客户需要的。同时这种方式不灵活,逻辑较为复杂,特别是当搜索的数据量较多时,对资源的浪费极大。如果采用第二种方式,也存在一个弊端,不同的关键词,搜索出来的新闻或者微博列表页的数是不同的。有的可以搜索出数百页,而有的只能搜索出几页。那这种情况下,无论人工将生成种子数定成多少值,都是不科学的。
发明内容
基于此,有必要针对现有的网页爬虫抓取技术对于生成种子数不能根据实际搜索情况进行适应性变化的技术问题,提供一种网页爬虫抓取方法及装置。
一种网页爬虫抓取方法,包括:
根据给定的搜索条件及生成种子数,生成至少一个满足搜索条件的网页地址,所述网页地址的生成数量与所述生成种子数相同;
对所述网页地址进行数据抓取,得到抓取网页内容;
根据抓取网页内容,确定满足预设统计条件的网页地址数量的统计结果;
根据所述统计结果修改所述生成种子数。
一种网页爬虫抓取装置,包括:
网页地址生成模块,用于根据给定的搜索条件及生成种子数,生成至少一个满足搜索条件的网页地址,所述网页地址的生成数量与所述生成种子数相同;
网页内容抓取模块,用于对所述网页地址进行数据抓取,得到抓取网页内容;
统计结果获取模块,用于根据抓取网页内容,确定满足预设统计条件的网页地址数量的统计结果;
生成种子数修改模块,用于根据所述统计结果修改所述生成种子数。
通过上述技术方案,本发明采用生成种子数确定生成网页地址的数量,并对网页地址进行数据抓取,得到抓取网页内容,对抓取网页内容进行统计,根据统计结果修改生成种子数。由于生成种子数确定了生成网页地址的数量,而对抓取网页内容进行统计后重新修改生成种子数,形成一种迭代方式。对于一个给定的搜索条件,其生成种子数能自动调节并适应该搜索条件。通过设定合适的统计条件,能最大程度地减少因处理不合适的数据所造成的资源浪费。
附图说明
图1为本发明实施例中网页爬虫抓取的工作流程图;
图2为本发明实施例中网页抓取的有效网页内容;
图3为本发明实施例中网页抓取的无效网页内容;
图4为本发明实施例中网页爬虫抓取的装置示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细的说明。
本发明的一个实施例中,提出了一种网页爬虫抓取方法,如图1所示,包括如下步骤:
步骤S101,根据给定的搜索条件及生成种子数,生成至少一个满足搜索条件的网页地址,所述网页地址的生成数量与所述生成种子数相同。
该步骤中,搜索条件可以为单个关键词或者多个关键词的组合形成的搜索条件。满足搜索条件的网页地址的方式可以采用现有的各种网页地址生成方式。
示例:
抓取网站地址:http://news.baidu.com/
示例关键词:key=“京东618”
预估生成种子数:n=100
根据key值与n值以及baidu地址产生的搜索地址,拼接如下100个网页地址:
http://news.baidu.com/ns?bt=0&et=0&si=&rn=20&tn=news&ie=gb2312&ct=1&word=%BE%A9%B6%AB618&pn=0&cl=2
http://news.baidu.com/ns?bt=0&et=0&si=&rn=20&tn=news&ie=gb2312&ct=1&word=%BE%A9%B6%AB618&pn=20&cl=2
……
http://news.baidu.com/ns?bt=0&et=0&si=&rn=20&tn=news&ie=gb2312&ct=1&word=%BE%A9%B6%AB618&pn=1980&cl=2
注:上述地址中的“%E4%BA%AC%E4%B8%9C”是对“京东”关键词的转码,以遵循网页地址的格式。
步骤S102,对所述网页地址进行数据抓取,得到抓取网页内容。
该步骤中,对应上述示例,则每一个网页地址,都能得到一个网页页面,对该网页页面进行抓取,得到网页内容。
步骤S103,根据抓取网页内容,确定满足预设统计条件的网页地址数量的统计结果。通过设定合适的统计条件,能很好地减少因处理不合适的数据所造成的资源浪费。
较佳地,该步骤可以通过如下三种方式确定统计条件。
方式一、所述预设统计条件可以为:所述网页地址的抓取网页内容有效。此时,所述确定满足预设统计条件的网页地址数量的统计结果,包括:
获取在预设的统计周期内对所述网页地址进行数据抓取的抓取次数,及每次数据抓取的有效状态的网页地址数量;
计算在统计周期内的有效状态的网页地址的平均数量作为统计结果。
该方式统计网页地址是有效状态还是无效状态。其中有效状态指的是,这个网页地址请求出来的网页内容具有搜索结果。反之,无效状态指的是,这个网页地址请求出来的网页内容不具有搜索结果,或者直接跳转到其它非正常要求的搜索结果。
有效状态示例:
步骤S101示例中的第1个网页地址:
http://news.baidu.com/ns?bt=0&et=0&si=&rn=20&tn=news&ie=gb2312&ct=1&word=%BE%A9%B6%AB618&pn=0&cl=2
输入到浏览器:
出现的页面如图2所示(2013年5月23日16:11执行结果)。
如图2所示,该网页地址可以得到搜索结果,新闻内容属于第1页,可以判断该网页地址是有效的。
无效状态示例:
步骤S101示例中的第100个网页地址:
http://news.baidu.com/ns?bt=0&et=0&si=&rn=20&tn=news&ie=gb2312&ct=1&word=%BE%A9%B6%AB618&pn=1980&cl=2
输入到浏览器:
出现的页面如图3所示(2013年5月23日14:57执行结果)。
如图3所示,该网页地址不具有搜索结果,这种页面是无效状态页面,第100页不存在。
上述有效状态和无效状态,可以通过对抓取到的网页内容进行模式匹配而确定。例如,抓取到的网页内容中含有“没有找到与”以及“相关的新闻内容”,则可以判断该网页内容所对应的网页地址不具有搜索结果,从而判定该网页地址为无效状态。
对于统计周期,可以是一个预先定义的周期C,在该周期内每一天对于确定的搜索条件的抓取频率为F,则该周期内的总抓取次数为:N=C×F。根据抓取每个网页地址统计的有效和无效状态,可以标记每次抓取的有效网页地址的数量,记为ne,即前ne个网页地址有效,第i次抓取,记为nei。根据上述得出的值,计算在统计周期内的有效状态的网页地址的平均数量作为统计结果:
NE ( average ) = Σ i = 1 N ne i N .
方式一解决了需要人工定义生成种子数的不科学性,同时有效地减少了处理无效网页地址的资源浪费。
方式二、所述预设统计条件为:所述网页地址的抓取网页内容在规定时间段内。此时,所述确定满足预设统计条件的网页地址数量的统计结果,包括:
获取在预设的统计周期内对所述网页地址进行数据抓取的抓取次数,及每次数据抓取的在规定时间段内的网页地址数量;
计算在统计周期内的在规定时间段内的网页地址的平均数量作为统计结果。
该方式统计网页地址是否在规定时间段内。例如要抓取前10天内的数据,那么在第20页前是10天的,第20页之后是10天外的,即前20个网页地址的抓取网页内容在规定时间段内10天,满足预设统计条件的网页地址为前20个网页地址。
示例:
如步骤S101示例中的第1个网页地址,采用对应的网页内容中最后一条新闻的发布时间为准,即2012年6月20日19:18:00。只要该时间在规定时间段内,则可以判断该网页地址满足该方式的统计条件。
计算在统计周期内的在规定时间段内的网页地址的平均数量作为统计结果可以采用与前述方式类似的办法计算,即根据每个网页地址抓取的网页内容在规定时间段内,可以标记出每次抓取满足该时间段的网页地址,记为net,即前net个网页地址有效,第i次抓取,记为neti。根据上述得出的值,计算在统计周期内的在规定时间段内的网页地址的平均数量作为统计结果:
NET ( average ) = Σ i = 1 N net i N .
方式二解决了舆情爬虫抓取老数据的不可控性,有效地最大程度地减少了处理老数据的资源浪费。
方式三、所述预设统计条件为:所述网页地址的抓取网页内容有效,或所述网页地址的抓取网页内容包含规定时间段;
所述确定满足预设统计条件的网页地址数量的统计结果,包括:
获取在预设的统计周期内对所述网页地址进行数据抓取的抓取次数,及每次数据抓取的有效状态的网页地址数量,及每次数据抓取的包含规定时间段的网页地址数量;
计算在统计周期内的有效状态的网页地址的平均数量作为第一参数,计算在统计周期内的包含规定时间段的网页地址的平均数量作为第二参数;
根据所述第一参数和第二参数生成统计结果。
该方式是方式一和方式二的综合,第一参数可以为NE(average),第二参数可以为NET(average)。
其中,根据所述第一参数和第二参数生成统计结果,可以采用第一参数和第二参数的加权平均值作为所述统计结果。即计算:N(final)=wNE×NE(average)+wNETNET(average),其中wNE为第一参数的权值,wNET为第二参数的权值。
更为简单的方式是令上述公式的两个权值均采用0.5,则:
N ( final ) = NE ( average ) + NET ( average ) 2 .
方式三最大程度的减少了人工干预,提升了时效性和资源利用率。
步骤S104,根据所述统计结果修改所述生成种子数。
该步骤中,将生成种子数修改为上述步骤S103中的统计结果。则在下一次的抓取中,重新执行步骤S101时,网页地址的数量使用新的生成种子数。经过多次的抓取后,对于同一搜索条件,其生成种子数渐趋稳定,并适应该搜索条件。
本发明实施例还提供了一种网页爬虫抓取装置,如图4所示,包括:
网页地址生成模块401,用于根据给定的搜索条件及生成种子数,生成至少一个满足搜索条件的网页地址,所述网页地址的生成数量与所述生成种子数相同;
网页内容抓取模块402,用于对所述网页地址进行数据抓取,得到抓取网页内容;
统计结果获取模块403,用于根据抓取网页内容,确定满足预设统计条件的网页地址数量的统计结果;
生成种子数修改模块404,用于根据所述统计结果修改所述生成种子数。
在其中一个实施例中,所述预设统计条件为:所述网页地址的抓取网页内容有效。
进一步的,所述统计结果获取模块,具体用于:
获取在预设的统计周期内对所述网页地址进行数据抓取的抓取次数,及每次数据抓取的有效状态的网页地址数量;
计算在统计周期内的有效状态的网页地址的平均数量作为统计结果。
在其中一个实施例中,所述预设统计条件为:所述网页地址的抓取网页内容在规定时间段内。
进一步的,所述统计结果获取模块,具体用于:
获取在预设的统计周期内对所述网页地址进行数据抓取的抓取次数,及每次数据抓取的在规定时间段内的网页地址数量;
计算在统计周期内的在规定时间段内的网页地址的平均数量作为统计结果。
在其中一个实施例中,所述预设统计条件为:所述网页地址的抓取网页内容有效,或所述网页地址的抓取网页内容在规定时间段内;
所述统计结果获取模块,具体用于:
获取在预设的统计周期内对所述网页地址进行数据抓取的抓取次数,及每次数据抓取的有效状态的网页地址数量,及每次数据抓取的在规定时间段内的网页地址数量;
计算在统计周期内的有效状态的网页地址的平均数量作为第一参数,计算在统计周期内的在规定时间段内的网页地址的平均数量作为第二参数;
根据所述第一参数和第二参数生成统计结果。
在其中一个实施例中,所述统计结果获取模块根据所述第一参数和第二参数生成统计结果,具体为:
计算所述第一参数和第二参数的加权平均值作为所述统计结果。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (14)

1.一种网页爬虫抓取方法,其特征在于,包括:
根据给定的搜索条件及生成种子数,生成至少一个满足搜索条件的网页地址,所述网页地址的生成数量与所述生成种子数相同;
对所述网页地址进行数据抓取,得到抓取网页内容;
根据抓取网页内容,确定满足预设统计条件的网页地址数量的统计结果;
根据所述统计结果修改所述生成种子数。
2.根据权利要求1所述的网页爬虫抓取方法,其特征在于,所述预设统计条件为:所述网页地址的抓取网页内容有效。
3.根据权利要求2所述的网页爬虫抓取方法,其特征在于,所述确定满足预设统计条件的网页地址数量的统计结果,包括:
获取在预设的统计周期内对所述网页地址进行数据抓取的抓取次数,及每次数据抓取的有效状态的网页地址数量;
计算在统计周期内的有效状态的网页地址的平均数量作为统计结果。
4.根据权利要求1所述的网页爬虫抓取方法,其特征在于,所述预设统计条件为:所述网页地址的抓取网页内容在规定时间段内。
5.根据权利要求4所述的网页爬虫抓取方法,其特征在于,所述确定满足预设统计条件的网页地址数量的统计结果,包括:
获取在预设的统计周期内对所述网页地址进行数据抓取的抓取次数,及每次数据抓取的在规定时间段内的网页地址数量;
计算在统计周期内的在规定时间段内的网页地址的平均数量作为统计结果。
6.根据权利要求1所述的网页爬虫抓取方法,其特征在于,所述预设统计条件为:所述网页地址的抓取网页内容有效,或所述网页地址的抓取网页内容在规定时间段内;
所述确定满足预设统计条件的网页地址数量的统计结果,包括:
获取在预设的统计周期内对所述网页地址进行数据抓取的抓取次数,及每次数据抓取的有效状态的网页地址数量,及每次数据抓取的在规定时间段内的网页地址数量;
计算在统计周期内的有效状态的网页地址的平均数量作为第一参数,计算在统计周期内的在规定时间段内的网页地址的平均数量作为第二参数;
根据所述第一参数和第二参数生成统计结果。
7.根据权利要求6所述的网页爬虫抓取方法,其特征在于,所述根据所述第一参数和第二参数生成统计结果,包括:
计算所述第一参数和第二参数的加权平均值作为所述统计结果。
8.一种网页爬虫抓取装置,其特征在于,包括:
网页地址生成模块,用于根据给定的搜索条件及生成种子数,生成至少一个满足搜索条件的网页地址,所述网页地址的生成数量与所述生成种子数相同;
网页内容抓取模块,用于对所述网页地址进行数据抓取,得到抓取网页内容;
统计结果获取模块,用于根据抓取网页内容,确定满足预设统计条件的网页地址数量的统计结果;
生成种子数修改模块,用于根据所述统计结果修改所述生成种子数。
9.根据权利要求8所述的网页爬虫抓取装置,其特征在于,所述预设统计条件为:所述网页地址的抓取网页内容有效。
10.根据权利要求9所述的网页爬虫抓取装置,其特征在于,所述统计结果获取模块,具体用于:
获取在预设的统计周期内对所述网页地址进行数据抓取的抓取次数,及每次数据抓取的有效状态的网页地址数量;
计算在统计周期内的有效状态的网页地址的平均数量作为统计结果。
11.根据权利要求8所述的网页爬虫抓取装置,其特征在于,所述预设统计条件为:所述网页地址的抓取网页内容在规定时间段内。
12.根据权利要求11所述的网页爬虫抓取装置,其特征在于,所述统计结果获取模块,具体用于:
获取在预设的统计周期内对所述网页地址进行数据抓取的抓取次数,及每次数据抓取的在规定时间段内的网页地址数量;
计算在统计周期内的在规定时间段内的网页地址的平均数量作为统计结果。
13.根据权利要求8所述的网页爬虫抓取装置,其特征在于,所述预设统计条件为:所述网页地址的抓取网页内容有效,或所述网页地址的抓取网页内容在规定时间段内;
所述统计结果获取模块,具体用于:
获取在预设的统计周期内对所述网页地址进行数据抓取的抓取次数,及每次数据抓取的有效状态的网页地址数量,及每次数据抓取的在规定时间段内的网页地址数量;
计算在统计周期内的有效状态的网页地址的平均数量作为第一参数,计算在统计周期内的在规定时间段内的网页地址的平均数量作为第二参数;
根据所述第一参数和第二参数生成统计结果。
14.根据权利要求13所述的网页爬虫抓取装置,其特征在于,所述统计结果获取模块根据所述第一参数和第二参数生成统计结果,具体为:
计算所述第一参数和第二参数的加权平均值作为所述统计结果。
CN201310291520.8A 2013-07-11 2013-07-11 一种网页爬虫抓取方法及装置 Active CN103336834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310291520.8A CN103336834B (zh) 2013-07-11 2013-07-11 一种网页爬虫抓取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310291520.8A CN103336834B (zh) 2013-07-11 2013-07-11 一种网页爬虫抓取方法及装置

Publications (2)

Publication Number Publication Date
CN103336834A true CN103336834A (zh) 2013-10-02
CN103336834B CN103336834B (zh) 2017-04-12

Family

ID=49244999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310291520.8A Active CN103336834B (zh) 2013-07-11 2013-07-11 一种网页爬虫抓取方法及装置

Country Status (1)

Country Link
CN (1) CN103336834B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824880A (zh) * 2016-03-09 2016-08-03 乐视网信息技术(北京)股份有限公司 一种网页抓取方法及装置
CN106487759A (zh) * 2015-08-28 2017-03-08 北京奇虎科技有限公司 一种检测推广url有效性和安全性的方法和装置
CN108647263A (zh) * 2018-04-28 2018-10-12 淮阴工学院 一种基于网页切分爬取的网络地址置信度评估方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452463A (zh) * 2007-12-05 2009-06-10 浙江大学 定向抓取页面资源的方法和装置
US20100114858A1 (en) * 2008-10-27 2010-05-06 Yahoo! Inc. Host-based seed selection algorithm for web crawlers
CN202075736U (zh) * 2011-02-22 2011-12-14 深圳信息职业技术学院 一种搜索引擎抓取服务器
CN102930059A (zh) * 2012-11-26 2013-02-13 电子科技大学 一种聚焦爬虫的设计方法
CN103116638A (zh) * 2013-02-19 2013-05-22 人民搜索网络股份公司 网页筛选方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452463A (zh) * 2007-12-05 2009-06-10 浙江大学 定向抓取页面资源的方法和装置
US20100114858A1 (en) * 2008-10-27 2010-05-06 Yahoo! Inc. Host-based seed selection algorithm for web crawlers
CN202075736U (zh) * 2011-02-22 2011-12-14 深圳信息职业技术学院 一种搜索引擎抓取服务器
CN102930059A (zh) * 2012-11-26 2013-02-13 电子科技大学 一种聚焦爬虫的设计方法
CN103116638A (zh) * 2013-02-19 2013-05-22 人民搜索网络股份公司 网页筛选方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106487759A (zh) * 2015-08-28 2017-03-08 北京奇虎科技有限公司 一种检测推广url有效性和安全性的方法和装置
CN105824880A (zh) * 2016-03-09 2016-08-03 乐视网信息技术(北京)股份有限公司 一种网页抓取方法及装置
WO2017152550A1 (zh) * 2016-03-09 2017-09-14 乐视控股(北京)有限公司 一种网页抓取方法及装置
CN108647263A (zh) * 2018-04-28 2018-10-12 淮阴工学院 一种基于网页切分爬取的网络地址置信度评估方法
CN108647263B (zh) * 2018-04-28 2022-04-12 淮阴工学院 一种基于网页切分爬取的网络地址置信度评估方法

Also Published As

Publication number Publication date
CN103336834B (zh) 2017-04-12

Similar Documents

Publication Publication Date Title
CN103902386B (zh) 一种基于连接代理优化管理的多线程网络爬虫处理方法
CN102298622B (zh) 基于锚文本的聚焦网络爬虫搜索方法及其系统
CN103533097B (zh) 一种网络爬虫下载解析方法及装置
RU2645266C1 (ru) Способ и устройство для планирования web-обходчиков в соответствии с поиском по ключевым словам
CN101231661B (zh) 对象级知识挖掘的方法和系统
CN102254027B (zh) 批量获取网页内容的方法
US20100030753A1 (en) Providing Posts to Discussion Threads in Response to a Search Query
CN102355488A (zh) 爬虫种子获取方法与设备及爬虫爬取方法与设备
CN102722558A (zh) 一种为用户推荐提问的方法和装置
CN102646129A (zh) 一种主题相关的分布式网络爬虫系统
CN102930059A (zh) 一种聚焦爬虫的设计方法
CN102662954A (zh) 一种基于url字符串信息学习的主题爬虫系统的实现方法
JP2009048380A5 (zh)
CN103279507A (zh) 网页爬虫操作方法和系统
CN103294732A (zh) 网页抓取方法及爬虫
CN104133830A (zh) 一种数据获取方法
CN106921703A (zh) 跨境数据同步的方法、系统,以及境内和境外数据中心
CN103336834A (zh) 一种网页爬虫抓取方法及装置
CN103077250A (zh) 一种网页内容抓取方法及装置
US10491606B2 (en) Method and apparatus for providing website authentication data for search engine
CN103399933B (zh) 一种抓取网络平面媒体的网页内容的方法及系统
CN104967698B (zh) 一种爬取网络数据的方法和装置
CN108009202A (zh) 一种基于维特比算法的网页分类排序动态爬虫方法
CN106066875A (zh) 一种基于深网爬虫的高效数据采集方法及系统
CN101977251A (zh) 服务器端网址资源优化装置及其优化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant