CN101187925B - 自动优化爬虫的抓取方法 - Google Patents
自动优化爬虫的抓取方法 Download PDFInfo
- Publication number
- CN101187925B CN101187925B CN2006101458116A CN200610145811A CN101187925B CN 101187925 B CN101187925 B CN 101187925B CN 2006101458116 A CN2006101458116 A CN 2006101458116A CN 200610145811 A CN200610145811 A CN 200610145811A CN 101187925 B CN101187925 B CN 101187925B
- Authority
- CN
- China
- Prior art keywords
- information
- frequency
- page
- leaf
- grasp
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title description 11
- 238000001514 detection method Methods 0.000 claims description 24
- 239000000284 extract Substances 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 2
- 241000219098 Parthenocissus Species 0.000 abstract 2
- 241000270322 Lepidosauria Species 0.000 description 16
- 230000032683 aging Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种自动优化爬虫的抓取方法。现有的爬虫抓取网页的方法是用相同的频率去抓取发布高峰期的信息和发布低谷期的信息,影响了所抓取信息的时效性,降低了系统效能,增加了无谓的资源消耗。为解决上述问题,本发明包括以下步骤:(1)从互联网上抓取的信息页中抽取信息,如果抽取成功,加快再次抓取该信息页的频率;否则减慢再次抓取该信息页的频率;(2)在修改后的频率到时,重复步骤(1)。本发明适用于现有的各种搜索引擎。
Description
技术领域
本发明涉及一种网络爬虫信息抓取的方法,尤其是搜索引擎利用爬虫技术抓取信息并自动优化抓取频率的方法。
背景技术
搜索引擎是现今互联网上广为应用的一项技术,人们只需要输入自己所寻找信息的部分关键字就可以通过搜索引擎找到大量与该关键字相关的信息,例如谷歌、百度。
搜索引擎的信息来源多种多样,有的是通过竞价广告的形式由发起这项广告的广告商向搜索引擎运营商支付广告费,然后搜索引擎运营商在自己的搜索引擎中刊登该广告的简要信息及该广告的链接,而更多的非广告信息,例如新闻、学术信息是需要搜索引擎运营商自己去寻找并抓取加入搜索引擎的,面对互联网上的海量信息,如何将大量搜索引擎运营商关心的信息从其他的无用信息中区分出来,并分门别类的加入搜索引擎成为了搜索引擎运营商关心的问题。
爬虫技术的出现解决了这种问题,爬虫技术是一种成熟的网页抓取技术,它能够按照设定的条件将符合该条件的信息从互联网的海量信息中抓取出来,将其应用于搜索引擎可以有效地解决对各种有用信息的抓取问题。但是,爬虫在抓取信息时仍需遍历网页,这在网页数量较少的时候并不会出现什么问题,但是,在面对互联网上海量的网页时,遍历所有网页几乎是不可想象的,也是很难办到的,即使办到了,由于更新一次信息需要消耗大量的时间和资源,必将影响抓取信息的时效性,所以为了折中利与弊,现在往往只是利用爬虫在一定数量、一定范围的网页中抓取信息,而这些网页一般是事先通过统计得出的含有有用信息的概率和数量都较高的网页。比如,我们现在要搜索关于北京的租房信息,图1是一个有租房信息的搜索列表页(index页),上面是租房信息的列表、该房的简要信息以及该房信息页(item页)的链接(链接只要用鼠标点击该房在列表中的简要信息即可),根据链接我们可以找到如图2所示的记录该房具体信息的信息页,这样,我们可以将该搜索列表页记录入爬虫的搜索范围,使爬虫每隔一段时间在该搜索列表页上检索一次是否有新的信息页链接,如果有根据链接下载该信息页,抽取该信息页中我们关心的信息,这样既能保证爬虫抽取有用网页的效率又能缩短遍历一次所有网页的时间。
但是,以上的利用爬虫抓取网上信息的方法仍旧是一种基于理想状态下的信息抓取方式,在实际应用中并不能让爬虫的抓取效率达到最高,这是因为新信息的发布往往具有极强的时效性,发布也更多是集中在一个时间段内,在其他时间则相对比较平静,比如,每年火车票、飞机票和长途汽车票的发售高峰是寒暑假及黄金周,房屋租赁高峰是每年高等院校毕业生离校前后的一段日子等。如果我们用相同的频率去抓取以上发布高峰期的信息和发布低谷期的信息,显然不能达到信息抓取的最高效率,因为对发布高峰期来说信息抓取频率相对较低,影响了所抓取信息的时效性,对发布低谷期来说信息抓取频率相对又较高,降低了系统效能,增加了无谓的资源消耗。直到目前,还没有一种方法能够有效解决此问题。
发明内容
针对现有技术存在的缺陷和不足,本发明提供一种自动优化爬虫的抓取方法,能够动态的根据对信息的抓取结果自动修正系统以后再次检索该信息页的频率。
为了达到上述发明目的,本发明自动优化爬虫的抓取方法,其特征在于:包括以下步骤:
(1)从互联网上抓取的信息页中抽取信息,如果抽取成功,加快再次抓取该信息页的频率;否则减慢再次抓取该信息页的频率;
(2)在修改后的频率到时,重复步骤(1);
步骤(1)进一步包括:
(11)抓取检测模块按照频道分类,从互联网上抓取内容与各频道分类相对应的索引列表页,如果抓取失败,则降低再次抓取这个索引列表页的频率,进入步骤(15);如果抓取成功,进入步骤(12);
(12)抓取检测模块检测抓取成功的索引列表页同上次抓取时相比是否添加了新的信息,如果是,进入步骤(13);否则,降低再次抓取这个索引列表页的频率,进入步骤(15);
(13)抓取检测模块下载索引列表页所添加的新的信息所对应的信息页,如果下载成功,进入步骤(14);否则,降低再次抓取这个索引列表页的频率,进入步骤(15);
(14)抓取检测模块将所述下载成功的信息页发送给抽取模块,抽取模块每成功从该信息页中抽取一条信息,通知抓取检测模块加快一次以后抓取包含该信息的信息页所属的索引列表页的频率,然后抽取模块将该信息存入与该信息内容的频道分类对应的频道,进入步骤(2);
(15)抓取检测模块根据当前时间对修改后的再次抓取所述索引列表页的频率进行再修正。
本发明根据每次对信息的抓取结果自动修正系统以后再次检索该信息页的频率,这样,在信息的发布高峰期通过本发明的方法可以不断提高再次抓取该信息页的频率;在信息的发布低谷期又可以不断降低再次抓取该信息页的频率,优化了系统资源,提高了系统效能,提高了信息抓取的效率。
附图说明
图1为索引列表页示意图;
图2为信息页示意图;
图3为本方法流程图。
具体实施方式
下面结合附图对本发明作进一步的详细说明:
酷讯的爬虫调度算法采用观测index页下载是否成功、大小是否变化、时候页面信息符号需求、是否有有效的信息链接、是有效的信息被抓取条数、以及抓取时间等几个因数来计算刷新频率。本方法主要是通过在计算机系统中按照以下公式对信息抓取频率进行修正的。
本公式中,freq(n,ch,t)表示当前为t时刻,爬虫的第n次对ch频道的抓取;fCH()是各个频道对各自特征对结果加以修正的函数,其中,kdown(1-bdown)表示index页下载失败后降低再次抓取这个索引列表页的频率数,kindex(1-bindex)表示item页下载失败后降低再次抓取这个信息页的频率数,θkitem mβ表示item页下载成功后提高再次抓取这个索引列表页的频率数,α为每个频道对再次抓取这个索引列表页的频率的基于统计和推理得出的专家修正值,n1/Ω表示每个频道根据该频道本身的特性对再次抓取该索引列表页的频率的修正,ch为该频道的频道号;ftime(t)是根据当前时间是白天还是晚上,节假日还是非节假日做的调整函数;freq(n-1)是上一次爬虫对该频道的抓取频率值。
如图3所示,本公式是通过以下步骤实现的:
(1)从互联网上抓取的信息页中抽取信息,如果抽取成功,加快再次抓取该信息页的频率;否则减慢再次抓取该信息页的频率;
(2)在修改后的频率到时,重复步骤(1)。
具体为,步骤(1)进一步包括:
(11)用于从互联网上抓取信息并根据抓取结果修正抓取频率的抓取检测模块,按照频道分类选择一个频道,从互联网上抓取内容与该频道分类相对应的索引列表页,如果抓取失败,则说明该索引列表页的链接下载不可靠,对该索引列表页过于频繁的抓取可能会造成更多的抓取失败,从而浪费系统资源,所以抓取检测模块在上一次爬虫对该频道的抓取频率值上乘以一个kdown(1-bdown)系数以降低再次抓取这个索引列表页的频率,进而达到节省系统资源的目的,然后进入步骤(15);如果抓取成功,进入步骤(12);
(12)抓取检测模块检测抓取成功的索引列表页同上次抓取时相比是否添加了新的信息,如果是,进入步骤(13);否则,说明该索引列表页的更新频率赶不上爬虫对该索引列表页的检索频率,抓取检测模块同样是在上一次爬虫对该频道的抓取频率值上乘以一个kdown(1-bdown)系数以降低再次抓取这个索引列表页的频率,使爬虫对该索引列表页的检索频率降到与该索引列表页自身的更新频率相匹配的程度,从而达到节省系统资源的目的,进入步骤(15);
(13)抓取检测模块下载索引列表页所添加的新的信息所对应的信息页,如果下载成功,进入步骤(14);否则,如果抓取失败,说明该信息页的链接下载不可靠,对该信息页过于频繁的抓取可能会造成更多的抓取失败,从而浪费系统资源,所以在上一次爬虫对该频道的抓取频率值上乘以一个kindex(1-bindex)系数以降低再次抓取链接该信息页的索引列表页的频率,以达到节省系统资源的目的,进入步骤(15);
(14)抓取检测模块将所述下载成功的信息页发送给用于从信息页中抽取有用信息的抽取模块,抽取模块每成功从该信息页中抽取一条信息,说明该信息页的利用价值增大,通知抓取检测模块加快一次以后抓取包含该信息的信息页所属的索引列表页的频率,然后抽取模块将该信息存入与该信息内容的频道分类对应的频道,抓取检测模块在上一次爬虫对该频道的抓取频率值上除以一个θkitem mβ系数(其中m为成功从该信息页中抽取的信息条数),以降低再次抓取链接该信息页的索引列表页的频率,达到优化系统资源,提高系统效能,提高信息抓取效率的目的,然后进入步骤(2);
(15)抓取检测模块根据当前时间对修改后的再次抓取所述索引列表页的频率进行再修正。如果当前时间为晚上或节假日,可能由于网络原因或是处于休息时间的原因,链接质量或者索引列表页的更新频率会降低,但这并不能代表常态下(工作日的白天)该索引列表页的链接质量或者更新频率,所以抓取检测模块在上一次爬虫对该频道的抓取频率值上乘以一个ftime(t)系数,用来将再次抓取这个索引列表页的频率的降低幅度减缓,以使该频率值更接近实际情况。
为了使得到的频率值更贴近各频道的实际需要,在步骤(15)之后还可以包括:
(16)抓取检测模块再次对步骤(15)修正后的再次抓取这个索引列表页的频率进行修正,所述步骤(16)的修正包括根据频道分类特性进行的修正和根据各频道共性进行的专家修正。
根据频道分类特性进行的修正是根据各频道自身的特点,比如,有的频道活跃时间很集中(例如火车票购买高峰就集中在一年里的几天,该频道的点击高峰也就是那几天),针对这一特点,可以考虑用n1/Ω指数适当提高或降低得到的该频道的频率值以适应该频道特性。
根据各频道共性进行的专家修正是指实际得到的频率值与我们经过长期统计或其他方法得到的频率值可能有出入,为本发明得到的频率值乘以一个专家修正值α以取得折衷值。
本发明能适应大多数网站。包括信息发布频率变化大无规律的和信息发布有规律的,并且大多数情况能在1到2分钟内把刚刚发布的信息抓取回来。本发明优化了系统资源,提高了系统效能,提高了信息抓取的效率。
Claims (3)
1.一种自动优化爬虫的抓取方法,其特征在于:包括以下步骤:
(1)从互联网上抓取的信息页中抽取信息,如果抽取成功,加快再次抓取该信息页的频率;否则减慢再次抓取该信息页的频率;
(2)在修改后的频率到时,重复步骤(1);
步骤(1)进一步包括:
(11)抓取检测模块按照频道分类,从互联网上抓取内容与各频道分类相对应的索引列表页,如果抓取失败,则降低再次抓取这个索引列表页的频率,进入步骤(15);如果抓取成功,进入步骤(12);
(12)抓取检测模块检测抓取成功的索引列表页同上次抓取时相比是否添加了新的信息,如果是,进入步骤(13);否则,降低再次抓取这个索引列表页的频率,进入步骤(15);
(13)抓取检测模块下载索引列表页所添加的新的信息所对应的信息页,如果下载成功,进入步骤(14);否则,降低再次抓取这个索引列表页的频率,进入步骤(15);
(14)抓取检测模块将所述下载成功的信息页发送给抽取模块,抽取模块每成功从该信息页中抽取一条信息,通知抓取检测模块加快一次以后抓取包含该信息的信息页所属的索引列表页的频率,然后抽取模块将该信息存入与该信息内容的频道分类对应的频道,进入步骤(2);
(15)抓取检测模块根据当前时间对修改后的再次抓取所述索引列表页的频率进行再修正。
2.根据权利要求1所述的自动优化爬虫的抓取方法,其特征在于:步骤(15)具体为:如果当前时间为晚上或节假日,将再次抓取这个索引列表页的频率的降低幅度减缓。
3.根据权利要求2所述的自动优化爬虫的抓取方法,其特征在于:在步骤(15)之后还包括:
(16)抓取检测模块再次对步骤(15)修正后的再次抓取这个索引列表页的频率进行修正,所述步骤(16)的修正包括根据频道分类特性进行的修正和根据各频道共性进行的专家修正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2006101458116A CN101187925B (zh) | 2006-11-17 | 2006-11-17 | 自动优化爬虫的抓取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2006101458116A CN101187925B (zh) | 2006-11-17 | 2006-11-17 | 自动优化爬虫的抓取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101187925A CN101187925A (zh) | 2008-05-28 |
CN101187925B true CN101187925B (zh) | 2010-11-03 |
Family
ID=39480322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006101458116A Expired - Fee Related CN101187925B (zh) | 2006-11-17 | 2006-11-17 | 自动优化爬虫的抓取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101187925B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101902438B (zh) * | 2009-05-25 | 2013-05-15 | 北京启明星辰信息技术股份有限公司 | 一种自动识别网页爬虫的方法和装置 |
US8782031B2 (en) * | 2011-08-09 | 2014-07-15 | Microsoft Corporation | Optimizing web crawling with user history |
CN103945278A (zh) * | 2013-01-21 | 2014-07-23 | 中国科学院声学研究所 | 一种视频内容及内容源爬取方法 |
CN103617264B (zh) * | 2013-12-02 | 2020-07-07 | 北京奇虎科技有限公司 | 时效性种子页的抓取方法及装置 |
CN106407219B (zh) * | 2015-07-31 | 2019-12-10 | 北京国双科技有限公司 | 网页链接的爬取方法及装置 |
CN106445966A (zh) * | 2015-08-11 | 2017-02-22 | 北京国双科技有限公司 | 一种数据获取方法和装置 |
CN105608134B (zh) * | 2015-12-18 | 2019-06-14 | 盐城工学院 | 一种基于多线程的网络爬虫系统及其网页爬取方法 |
CN106294789A (zh) * | 2016-08-15 | 2017-01-04 | 广州招商壹零壹网络科技股份有限公司 | 一种基于物业信息的数据处理方法及装置 |
CN106528779A (zh) * | 2016-11-03 | 2017-03-22 | 北京知道未来信息技术有限公司 | 一种基于可变url的爬虫识别方法 |
CN110874430B (zh) * | 2018-08-09 | 2022-06-14 | 北大方正集团有限公司 | 网络爬虫调度方法、装置及设备 |
CN109413050B (zh) * | 2018-10-05 | 2020-11-24 | 国网湖南省电力有限公司 | 一种访问速率自适应的互联网漏洞信息采集方法及系统 |
CN112100472B (zh) * | 2020-09-11 | 2023-11-28 | 深圳市科盾科技有限公司 | 爬虫调度方法、装置、终端设备和可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1564157A (zh) * | 2004-03-23 | 2005-01-12 | 南京大学 | 一种可扩展、可定制的主题集中式万维网爬虫设置方法 |
CN1601528A (zh) * | 2003-09-25 | 2005-03-30 | 微软公司 | 用于基于客户机的web蠕动的系统和方法 |
CN1770159A (zh) * | 2005-10-28 | 2006-05-10 | 北大方正集团有限公司 | 一种网络内容引用自动发现的方法 |
CN1862530A (zh) * | 2005-05-13 | 2006-11-15 | 赵然 | 网络搜索引擎 |
-
2006
- 2006-11-17 CN CN2006101458116A patent/CN101187925B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1601528A (zh) * | 2003-09-25 | 2005-03-30 | 微软公司 | 用于基于客户机的web蠕动的系统和方法 |
CN1564157A (zh) * | 2004-03-23 | 2005-01-12 | 南京大学 | 一种可扩展、可定制的主题集中式万维网爬虫设置方法 |
CN1862530A (zh) * | 2005-05-13 | 2006-11-15 | 赵然 | 网络搜索引擎 |
CN1770159A (zh) * | 2005-10-28 | 2006-05-10 | 北大方正集团有限公司 | 一种网络内容引用自动发现的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101187925A (zh) | 2008-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101187925B (zh) | 自动优化爬虫的抓取方法 | |
Crick et al. | Climate change related to egg-laying trends | |
Theodori | Public perception of the natural gas industry: data from the Barnett Shale | |
CN109902225A (zh) | 一种基于大数据的政策信息查询推送系统及方法 | |
CN109101652A (zh) | 一种标签创建和管理系统 | |
CN103177036A (zh) | 一种标签自动提取方法和系统 | |
CN109213908A (zh) | 一种基于数据挖掘的学术会议论文推送系统 | |
Stigter | Mulching as a traditional method of microclimate management | |
Chapman et al. | Towards zero carbon? Constrained policy action in two New Zealand cities | |
Basyuk | Popularization of website and without anchor promotion | |
Li et al. | Does government supervision suppress free-floating bike sharing development? Evidence from Mobike in China | |
Nakazawa | A struggle for distributive fairness in waste disposal: Koto ward and in-ward waste disposal in the 23 wards of Tokyo | |
Koc | The role and potential of marketing communications in the Turkish domestic tourism market | |
Jamdar et al. | Management and Optimization of Combined Utilization of Water Resources to Reduce the Hashtgerd Aquifer | |
Suroso et al. | The Impact Of Digital Marketing On Rural Products: A Case Study In Sumbang, Indonesia | |
REZAEIAN et al. | Modelling of a knowledge network in knowledge-based enterprises | |
Najafi et al. | Investigation of economic and environmental impacts of optimization of sugar beet distribution network in Iran’s sugar supply chain | |
KR20190054230A (ko) | 미디어 마케팅 서비스 제공 시스템 | |
DANESH et al. | Sociological Explanation of Women's Violence Against Men Research Areas: Research on Iranian social issues | |
Salehi et al. | Multi-objective planning in order to manage the quantitative and qualitative effects of optimal utilization of groundwater resources in Shahriar plain | |
Razavizadeh et al. | Justification of conspicuous consumption: A study of consumption of commodities and services of body management among women in Mashhad | |
Eslami et al. | Assessment and Sustainable Urban Landscape Design in 2th Region of Tehran Municipality, with Eco-City Approach | |
Babaakbari et al. | Presenting the pattern of employing retirees in Iran's National Oil Company | |
Karimi Khorami et al. | Consequences of Economic Consequences Strategic Scheduling Announcing Management Profits | |
Tubex et al. | The profile of women in prison 2008 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20101103 |