CN1945576A - 自适应网页更新时间预测方法 - Google Patents

自适应网页更新时间预测方法 Download PDF

Info

Publication number
CN1945576A
CN1945576A CN 200610117787 CN200610117787A CN1945576A CN 1945576 A CN1945576 A CN 1945576A CN 200610117787 CN200610117787 CN 200610117787 CN 200610117787 A CN200610117787 A CN 200610117787A CN 1945576 A CN1945576 A CN 1945576A
Authority
CN
China
Prior art keywords
upgrade
interval
webpage
magnitude
update
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200610117787
Other languages
English (en)
Inventor
邱致中
王少刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI TAIKOR MEDIA CO Ltd
Original Assignee
SHANGHAI TAIKOR MEDIA CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI TAIKOR MEDIA CO Ltd filed Critical SHANGHAI TAIKOR MEDIA CO Ltd
Priority to CN 200610117787 priority Critical patent/CN1945576A/zh
Publication of CN1945576A publication Critical patent/CN1945576A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明为一种自适应网页更新时间预测方法,是改进的邻近法。它能根据网页变化的历史规律预测出其下次的更新时间,在没有网页更新频率先验知识的情况下能快速预测出更新频率的量级,并且能迅速地适应网页更新频率的突变。经MATLAB仿真,本方法能较准确地预测网页的更新时间,对比经典的邻近法,本方法能在明显减少系统开销的前提下保证所抓取网页的时新性。该方法适用于网页抓取系统,经在一实际系统应用,性能良好。

Description

自适应网页更新时间预测方法
技术领域:
本发明涉及互联网信息处理领域,特别是有关于一种网页更新时间预测方法。
背景技术:
互联网中网页信息量的指数速度增长给诸如搜索引擎之类的网络应用系统的信息搜集带来了巨大的压力,一方面,为了保持信息的时新性,必须以尽可能高的频率来抓取网页,以及时获得更新过的网页;另一方面,受硬件资源的限制,要以尽可能低的频率抓取网页,以减少无效的抓取(即抓取到未更新的网页)。网页更新时间预测是解决上述矛盾的关键,它的目的是准确预测网页的更新时间,使得网页抓取器能够以最小的开销获取时新的网页。但由于网页的纷繁复杂,不同网页的更新频率千差万别,如新闻网站的首页可能过几分钟就会更新一次,而另外一些网页则好几个月才更新一次,甚至可能永远不更新。另外绝大多数的网页并不是以一个特定的频率更新的,网页的更新与否往往是网站维护者的主观意志,故网页的更新频率一般无特定的规律。这要求网页更新时间预测方法对变化莫测的网页具有较强的自适应性。
预测网页更新的经典方法是邻近法。所谓邻近法,该方法即为[Knut Magne Risvik,et al.,2002]文中提到的方法,对新搜集到的网页,系统根据属性设置初始的更新时间,如果网页在该时间内更新,则把更新时间减半;反之,则加倍。这种方法的好处是比较简单,缺点是如果设置的初始更新时间与网页的实际下次更新时间相差较大,则邻近法的收敛速度会比较慢,另外,如果网页的更新频率产生突变,邻近法也很难及时地适应这种突变。
发明内容
为改进邻近法预测网页更新的缺点,本发明提供一种自适应网页更新时间预测方法,该方法通过下列步骤实现:
(一)首先设一组更新间隔序列,其中元素为最小步长m(minStep)乘以步长缩放因子f(factor)的指数倍,元素之间应相差一定的数量级;
(二)设定更新时间间隔初值,若能从网页中解析出网页的真实更新时间,则初值为最近三次更新时间间隔的加权平均,否则取一经验值,如30分钟;
(三)将上一次的更新间隔与更新间隔序列中的元素匹配,即找出与上次更新间隔最邻近的元素,以确定当前更新时间间隔的数量级;
(四)判断网页有无更新,若更新,则把下次更新间隔收缩f陪;若无更新,则放大f倍;
(五)若网页连续若干次未更新,则更新间隔取间隔序列中的下一个元素,即使得更新间隔增大一个量级;若网页连续若干次更新,则更新间隔取间隔序列中的上一个元素,即使得更新间隔减小一个量级;
(六)若网页由连续多次未更新而转入更新状态,则更新间隔缩小若干个数量级;若网页由连续多次更新而转入未更新状态,则更新间隔增大若干个数量级。
本发明的优点在于,它能根据网页变化的历史规律预测出其下次的更新时间,经MATLAB仿真,本方法能较准确地预测网页的更新时间,对比经典的邻近法,本方法能在明显减少系统开销的前提下保证所抓取网页的时新性。该方法经一实际的网页抓取系统试验,性能良好。
附图说明
图1是本发明的流程图。
图2是网页抓取系统的工作流程图。
具体实施方式
本方法可用于各种网页抓取系统,如搜索引擎。网页抓取系统通常由三部分组成:网页下载部件、更新检测部件和更新时间预测部件。参照图2系统工作流程如下:
(一)网页下载部件:根据输入的url,从网上下载网页,将网页分解为在html中作为超链接出现的url的列表,以及文本型元素体的列表。
(二)更新检测部件:将新抓取到的网页与具有相关url的本地存储的网页进行比对,以检查网页是否更新,检测部件还可能从网页中提取出网页的真实更新时间。
(三)更新时间预测部件:根据网页的历史更新情况预测网页的下次更新时间,指导网页下载部件在合适的时间对相同网页进行再次下载。根据图1,更新时间预测部件的具体流程为:
(1)将上一次的更新间隔与更新间隔序列中的元素匹配,即找出与上次更新间隔最邻近的元素,以确定当前更新时间间隔的数量级。
(2)判断网页有无更新,若更新,则把下次更新间隔收缩f陪;若无更新,则放大f倍。
(3)检查网页的历史更新情况,若网页连续若干次(这里为2次)未更新,则更新间隔取间隔序列中的下一个元素,使得更新间隔增大一个量级;若网页连续若干次更新(这里为2次),则更新间隔取间隔序列中的上一个元素,使得更新间隔减小一个量级;若网页由连续多次未更新(这里为5次)而转入更新状态,则更新间隔缩小若干个数量级;若网页由连续多次(这里为6次)更新而转入未更新状态,则更新间隔增大若干个数量级。
实施例:
举yahoo社区的一个网页:
http://cn.bbs.yahoo.com/message/read_talkcar_174080.html为例,这是个BBS页,取其前60个更新时间序列(这个序列可从网页上直接读出),以序列第一个值为参考,并将该序列转化为秒,则序列为:
0 935 231883 261484 277037 314594 346493 346601
   355709 401795 402343 408114 445925 493502 530610
   580559 596884 620318 668050 680267 680267 680270
   680282 686234 686533 686609 691639 695092 699361
   699813 751811 786379 786384 790780 826472 847222
   856377 873258 873687 876733 927321 1014280 1018088
   1019502 1027354 1047183 1049073 1086272 1086275 1092288
   1103902 1128980 1135175 1135295 1137836 1195896 1214459
   1223416 1261189 1304231
网页更新时间预测部件的最小步长设为minStep=100秒,步长缩放因子为factor=1.125,更新间隔序列设为:
假设网页下载部件第一次下载到的这个网页是个新帖(还没有回帖),则检测部件不能提取到网页的真实更新时间,这时更新时间预测部件的初值只能取一经验值,在这里为4334秒,网页下载部件经过4334秒重新下载该页,更新检测部件发现网页已更新(因为),于是更新时间预测部件将下次步长收缩1.125倍,变为3852,下载部件过3852秒后重新下载该页,经检测部件后发现页面未更新(因为),则更新时间预测部件将下次步长放大1.125倍,变为4334秒……当更新时间预测部件检测到网页连续两次未更新,便将下次更新间隔增大一个量级,变为11120秒,于是再隔11120秒后网页下载部件重新下载该页,检测部件检测到该页未更新……根据流程得到的预测序列点为:
4334 8186 12520 23640 36150 64681 96779
169984 252340 262224 266558 271434 282554 292438
303558 332089 357450 368570 381080 409611 434972
463504 488865 517396 542757 553877 566387 594918
620279 631399 641284 652404 680935 706296 717416
729926 758457 783818 812349 837711 848830 858715
863049 867924 879044 888929 900049 928580 953941
982472 1055677 1120748 1149280 1174641 1203172 1228533
1239653 1252163 1280694
对比两个序列,发现预测序列能较好的拟合实际序列,这说明了算法的有效性。

Claims (1)

1、一种自适应网页更新时间预测方法,其特征在于:该方法通过以下步骤实现:
(1)首先设一组更新间隔序列,其中元素为最小步长m乘以步长缩放因子f的指数倍,元素之间应相差一定的数量级;
(2)设定更新时间间隔初值,若能从网页中解析出网页的真实更新时间,则初值为最近三次更新时间间隔的加权平均,否则取一经验值;
(3)将上一次的更新间隔与更新间隔序列中的元素匹配,即找出与上次更新间隔最邻近的元素,以确定当前更新时间间隔的数量级;
(4)判断网页有无更新,若更新,则把下次更新间隔收缩f陪;若无更新,则放大f倍;
(5)若网页连续若干次未更新,则更新间隔取间隔序列中的下一个元素,即使得更新间隔增大一个量级;若网页连续若干次更新,则更新间隔取间隔序列中的上一个元素,即使得更新间隔减小一个量级;
(6)若网页由连续多次未更新而转入更新状态,则更新间隔缩小若干个数量级;若网页由连续多次更新而转入未更新状态,则更新间隔增大若干个数量级。
CN 200610117787 2006-10-31 2006-10-31 自适应网页更新时间预测方法 Pending CN1945576A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200610117787 CN1945576A (zh) 2006-10-31 2006-10-31 自适应网页更新时间预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200610117787 CN1945576A (zh) 2006-10-31 2006-10-31 自适应网页更新时间预测方法

Publications (1)

Publication Number Publication Date
CN1945576A true CN1945576A (zh) 2007-04-11

Family

ID=38044979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200610117787 Pending CN1945576A (zh) 2006-10-31 2006-10-31 自适应网页更新时间预测方法

Country Status (1)

Country Link
CN (1) CN1945576A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010149024A1 (zh) * 2009-06-23 2010-12-29 北京搜狗科技发展有限公司 一种更新提醒的方法及浏览器
WO2010149026A1 (zh) * 2009-06-23 2010-12-29 北京搜狗科技发展有限公司 一种更新提醒的方法及系统
CN102236674A (zh) * 2010-04-29 2011-11-09 腾讯科技(深圳)有限公司 一种索引页更新方法及装置
CN103718171A (zh) * 2011-08-09 2014-04-09 微软公司 以用户历史优化web爬取
CN104199970A (zh) * 2014-09-22 2014-12-10 北京国双科技有限公司 网页数据更新处理方法及装置
CN105528376A (zh) * 2014-10-22 2016-04-27 腾讯科技(深圳)有限公司 多媒体信息更新方法及装置
CN106534285A (zh) * 2016-10-27 2017-03-22 杭州华三通信技术有限公司 一种访问方法及装置
CN109669996A (zh) * 2018-12-29 2019-04-23 恒睿(重庆)人工智能技术研究院有限公司 信息动态更新方法及装置
CN109857795A (zh) * 2019-01-02 2019-06-07 拉卡拉支付股份有限公司 一种基于预测模型的数据表接入方法及系统
CN110069692A (zh) * 2019-05-06 2019-07-30 中国船舶工业综合技术经济研究院 一种面向开源信息采集的资源更新时间预测方法及系统

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010149026A1 (zh) * 2009-06-23 2010-12-29 北京搜狗科技发展有限公司 一种更新提醒的方法及系统
CN101788991B (zh) * 2009-06-23 2013-03-06 北京搜狗科技发展有限公司 一种更新提醒的方法及系统
WO2010149024A1 (zh) * 2009-06-23 2010-12-29 北京搜狗科技发展有限公司 一种更新提醒的方法及浏览器
CN102236674A (zh) * 2010-04-29 2011-11-09 腾讯科技(深圳)有限公司 一种索引页更新方法及装置
CN103718171B (zh) * 2011-08-09 2016-11-09 微软技术许可有限责任公司 以用户历史优化web爬取
CN103718171A (zh) * 2011-08-09 2014-04-09 微软公司 以用户历史优化web爬取
CN104199970B (zh) * 2014-09-22 2017-11-14 北京国双科技有限公司 网页数据更新处理方法及装置
CN104199970A (zh) * 2014-09-22 2014-12-10 北京国双科技有限公司 网页数据更新处理方法及装置
CN105528376A (zh) * 2014-10-22 2016-04-27 腾讯科技(深圳)有限公司 多媒体信息更新方法及装置
CN105528376B (zh) * 2014-10-22 2019-11-15 腾讯科技(深圳)有限公司 多媒体信息更新方法及装置
CN106534285A (zh) * 2016-10-27 2017-03-22 杭州华三通信技术有限公司 一种访问方法及装置
CN106534285B (zh) * 2016-10-27 2020-10-20 新华三技术有限公司 一种访问方法及装置
CN109669996A (zh) * 2018-12-29 2019-04-23 恒睿(重庆)人工智能技术研究院有限公司 信息动态更新方法及装置
CN109857795A (zh) * 2019-01-02 2019-06-07 拉卡拉支付股份有限公司 一种基于预测模型的数据表接入方法及系统
CN110069692A (zh) * 2019-05-06 2019-07-30 中国船舶工业综合技术经济研究院 一种面向开源信息采集的资源更新时间预测方法及系统

Similar Documents

Publication Publication Date Title
CN1945576A (zh) 自适应网页更新时间预测方法
CN102663062B (zh) 一种处理搜索结果中无效链接的方法及装置
CN106557695B (zh) 一种恶意应用检测方法和系统
JP4773475B2 (ja) オンラインウイルススキャンの装置及び方法
CN105512324B (zh) 一种打包文件局部更新的前端模块化加载器
CN102236674B (zh) 一种索引页更新方法及装置
US20090287641A1 (en) Method and system for crawling the world wide web
CN106503564A (zh) 软件漏洞的发现方法和系统
CN101587488B (zh) 一种搜索引擎中页面重定向的检测方法及装置
CN101477556A (zh) 一种从互联网海量信息中发现热点的方法
CN112989348B (zh) 攻击检测方法、模型训练方法、装置、服务器及存储介质
CN1770159A (zh) 一种网络内容引用自动发现的方法
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN103714140A (zh) 一种基于主题网络爬虫的搜索方法及装置
CN112532624B (zh) 一种黑链检测方法、装置、电子设备及可读存储介质
US8924380B1 (en) Changing a rank of a document by applying a rank transition function
CN105653563A (zh) 对网页抓取的控制方法、动态更新黑名单和白名单的方法及相关装置
CN116032654A (zh) 一种固件漏洞检测及数据安全治理方法和系统
CN110636056A (zh) 一种防御网页篡改的方法与设备
CN102929948B (zh) 列表页识别系统及方法
CN202075736U (zh) 一种搜索引擎抓取服务器
CN107391555B (zh) 一种面向Spark-Sql检索的元数据实时更新方法
CN102339292A (zh) 分布式搜索方法和系统
CN108200191B (zh) 利用微扰法的客户端动态url相关脚本字符串检测系统
Cheng et al. Efficient focused crawling strategy using combination of link structure and content similarity

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication