CN102117275B - 一种基于互联网定向站点网页数据采集的方法及装置 - Google Patents

一种基于互联网定向站点网页数据采集的方法及装置 Download PDF

Info

Publication number
CN102117275B
CN102117275B CN2009102175052A CN200910217505A CN102117275B CN 102117275 B CN102117275 B CN 102117275B CN 2009102175052 A CN2009102175052 A CN 2009102175052A CN 200910217505 A CN200910217505 A CN 200910217505A CN 102117275 B CN102117275 B CN 102117275B
Authority
CN
China
Prior art keywords
url
formation
collected
weights
priority
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009102175052A
Other languages
English (en)
Other versions
CN102117275A (zh
Inventor
吴新丽
杨建武
蓝康泰
尹小刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Founder Electronics Chief Information Technology Co ltd
New Founder Holdings Development Co ltd
Peking University
Beijing Founder Electronics Co Ltd
Original Assignee
BEIJING FOUNDER E-GOVERNMENT INFORMATION TECHNOLOGY Co Ltd
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING FOUNDER E-GOVERNMENT INFORMATION TECHNOLOGY Co Ltd, Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical BEIJING FOUNDER E-GOVERNMENT INFORMATION TECHNOLOGY Co Ltd
Priority to CN2009102175052A priority Critical patent/CN102117275B/zh
Publication of CN102117275A publication Critical patent/CN102117275A/zh
Application granted granted Critical
Publication of CN102117275B publication Critical patent/CN102117275B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

为了解决现有技术文件采集系统无法保证对采集站点及时、有效的进行数据采集的问题,本发明公开了一种基于互联网定向站点网页数据采集的方法及装置,该方法包括:根据待采集URL的优先级值,将待采集URL加入到具有对应优先级的URL队列中,根据各URL队列中的URL数量、URL队列优先级值和权值因子确定各URL队列权值,权值因子为用于刷新和获取内容页链接的列表页刷新后,列表页中新的URL链接数量,从权值最高的URL队列中获取URL,计算得到URL队列权值,进而对权值最高的待访问URL队列中的URL进行访问,并根据访问的URL采集网页数据,进而实现及时、有效的进行数据采集。

Description

一种基于互联网定向站点网页数据采集的方法及装置
技术领域
本发明属于计算机互联网技术领域,特别涉及一种基于互联网定向站点网页数据采集的方法及装置。
背景技术
互联网一直处于高速发展状态,信息数量高速膨胀。更多的公众通过互联网查询相关信息。虽然使用公共的搜索引擎可以搜索各种信息,但这些搜索引擎的结果存在着不少的缺陷:实时性不够,不能直接看到详细的正文信息等等。由此诞生了很多网络采集系统。这些采集系统一般都是配置要采集的站点,设置起始的URL,采集系统就自动地按照网站结构的层次来设置URL的优先级,并按照这个级别进行网页的抓取。这种机制基本保证了数据的“采全性”,但却不能满足用户的“时效性”。比如:一篇新闻被分为10个页面分别显示,在采集到第一个页数据后,同时取到了其他分页的URL,这些页面被称之为与之前采集的页面内容关联的页面,无论这片新闻第一页URL的优先级是高是低,在采集完第一页数据后,剩余的页面都应该尽快地采集下来,从而保证让用户最快的看到完成的新闻信息。
从以上问题可以看出现有技术中采集系统无法保证对采集站点及时、有效的进行数据采集。
发明内容
为了解决现有技术文件采集系统无法保证对采集站点及时、有效的进行数据采集的问题,本发明实施例提供了一种基于互联网定向站点网页数据采集的方法,包括:
根据待采集网页的统一资源定位器URL的优先级值,将待采集网页的URL加入到具有对应优先级的待访问URL队列中,具体为:根据MD5算法计算待采集URL的MD5散列值,与各待访问URL队列已访问的URL、正在访问的URL和未访问的URL的MD5散列值进行比较,若均不相同,或者相同且待采集URL对应网页中包括的针对该网页内容的回复数信息有更新,则加入对应优先级的URL队列中,否则抛弃;
其中,所述待采集URL的优先级值的定义如下:
若待采集URL为采集所需的起始URL,则从配置的采集任务中获取各起始URL优先级值;
若待采集URL为非起始URL,对于通过已访问的URL直接得到的待采集URL,类别为内容分析返回的链接的URL,其优先级值最大,内容分析返回的链接指将内容页链接的内容页面分析后获取的内容关联的页面链接;
若待采集URL为非起始URL,对于通过已访问的URL直接得到的待采集URL,类别为列表页链接类翻页链接的URL,其优先级值nValPriPageupUrl=nValPricurPage,nValPricurPage表示已采集下来的URL优先级值,列表页链接指不保存网页数据,只用于刷新和获取内容页链接的链接;
若待采集URL为非起始URL,对于除类别为内容分析返回的链接的URL和类别为列表页链接类翻页链接的URL之外的,其他通过已访问的URL直接得到的待采集URL,其优先级值nValPriurl=nValPricurPage-1;
根据各URL队列中的URL数量、URL队列优先级值和权值因子,利用如下公式确定各URL队列权值dValPrii
double dValPrii=QueLeni/pow(iFactor,TASK_PRIORITY_VALUE-Vali),其中,QueLeni表示URL队列中的URL数量,Vali表示URL队列的优先级值,iFactor表示权值因子,TASK_PRIORITY_VALUE表示最高优先级值,所述权值因子为用于刷新和获取内容页链接的列表页刷新后,列表页中新的URL链接数量;
对权值最高的待访问URL队列中的URL进行访问,具体为:从权值最高的URL队列中按FIFO的原则访问URL,如果访问的URL所属站点符合预定的礼貌访问策略,则对该URL进行访问,否则,则继续从该URL所属的队列中选取后续的URL依次进行判断,如果该队列都没有合适的URL,则按URL队列权值由高到低依次访问其它URL队列中的URL;
根据访问的URL采集网页数据。
同时本发明实施例还提供一种基于互联网定向站点网页数据采集的装置,包括:
队列生成模块:用于根据待采集网页的统一资源定位器URL的优先级值,将待采集网页的URL加入到具有对应优先级的待访问URL队列中,具体为:根据MD5算法计算待采集URL的MD5散列值,与各待访问URL队列已访问的URL、正在访问的URL和未访问的URL的MD5散列值进行比较,若均不相同,或者相同且待采集URL对应网页中包括的针对该网页内容的回复数信息有更新,则加入对应优先级的URL队列中,否则抛弃;
其中,所述待采集URL的优先级值的定义如下:
若待采集URL为采集所需的起始URL,则从配置的采集任务中获取各起始URL优先级值;
若待采集URL为非起始URL,对于通过已访问的URL直接得到的待采集URL,类别为内容分析返回的链接的URL,其优先级值最大,内容分析返回的链接指将内容页链接的内容页面分析后获取的内容关联的页面链接;
若待采集URL为非起始URL,对于通过已访问的URL直接得到的待采集URL,类别为列表页链接类翻页链接的URL,其优先级值nValPriPageupUrl=nValPricurPage,nValPricurPage表示已采集下来的URL优先级值,列表页链接指不保存网页数据,只用于刷新和获取内容页链接的链接;
若待采集URL为非起始URL,对于除类别为内容分析返回的链接的URL和类别为列表页链接类翻页链接的URL之外的,其他通过已访问的URL直接得到的待采集URL,其优先级值nValPriurl=nValPricurPage-1;
权值确定模块:用于根据各URL队列中的URL数量、URL队列优先级值和权值因子,利用如下公式确定各URL队列权值dValPrii
double dValPrii=QueLeni/pow(iFactor,TASK_PRIORITY_VALUE-Vali),其中,QueLeni表示URL队列中的URL数量,Vali表示URL队列的优先级值,iFactor表示权值因子,TASK_PRIORITY_VALUE表示最高优先级值,所述权值因子为用于刷新和获取内容页链接的列表页刷新后,列表页中新的URL链接数量;
获取模块:用于对权值最高的待访问URL队列中的URL进行访问,具体为:从权值最高的URL队列中按FIFO的原则访问URL,如果访问的URL所属站点符合预定的礼貌访问策略,则对该URL进行访问,否则,则继续从该URL所属的队列中选取后续的URL依次进行判断,如果该队列都没有合适的URL,则按URL队列权值由高到低依次访问其它URL队列中的URL;并根据访问的URL采集网页数据。
由本发明提供的具体实施方案可以看出,正是由于计算得到URL队列权值,进而从权值最高的URL队列中获取URL,进而实现及时、有效的进行数据采集。
附图说明
图1为本发明提供的第一实施例方法流程图;
图2为本发明提供的第二实施例系统结构图。
具体实施方式
为了解决现有技术中采集系统无法保证对采集站点及时、有效的进行数据采集的问题,本发明实施例提供了一种基于互联网定向站点网页数据采集的方法,尤其是针对URL的优先级和采集队列(即采集系统的待访问队列)的优先级管理,具体包括:配置采集任务,其中包括起始URL和采集的深度。根据指定的起始URL采集网页数据,按照URL分类机制对分析出的新的URL(即待采集URL)设定不同的优先级,并插入相应的优先级队列本实施例中的待采集URL是指待采集下来加入到待访问URL队列中的URL,。
当网页下载模块向URL管理模块请求访问一个可用URL时,URL管理模块根据不同优先级URL队列的长度、优先级级别和权值因子计算各URL队列的权值,优先从权值最大的URL队列中取URL访问。进一步同时兼顾礼貌访问问题,避免对某些站点访问数过大而被拒绝。
使用该方法既能够保证任务刷新的及时性以及内容关联的网页采集的时效性,也能够避免低优先级的URL被“饿死”,同时兼顾站点访问友好性,实现高效稳定的数据采集。
本发明提供的第一实施例是一种基于互联网定向站点网页数据采集的方法,为了实现本实施例中的方法,采用URL分类机制,具体定义:
列表页链接:URLBoard,不保存网页数据,只用于刷新和获取内容页链接的链接,如一个网站的首页(不保存网页数据)的URL就是一个列表页链接;
内容页链接:URLContent,保存有网页数据的链接,如:新闻正文、帖子、博客的日志等,进行保存,如一个博客日志的URL就是内容页链接;
翻页链接:URLPageup,包括URLBoard类URLPageup和URLContent类URLPageup;URLBoard类URLPageup指翻页链接URLPageup为列表页链接URLBoard,URLContent类URLPageup指翻页链接URLPageup为内容页链接URLContent,如一个搜索引擎搜索完毕后的搜索结果展示网页中用于进入多个其它搜索结果展示页面的URL即为URLContent类URLPageup,或一篇新闻网页中用于进入多个新闻内容关联的页面的URL即为URLBoarc类URLPageup
内容分析返回的链接:URLReturn,指将内容页链接的内容页面分析后获取的内容关联的页面链接,包括URLContent类URLPageup和URLOther(如图片链接、附件链接等);
其他的链接:URLOther,包括图片链接、附件链接等;
优先级的自动设定,本实施例中采集系统中的最高优先级值:nValPrimax=TASK_PRIORIGY_VALUE;
已采集下来的URL的优先级值:nValPricurPage,其取值范围为:[1,TASK_PRIORITY_VALUE];
本实施例中,首先配置要采集的的站点,设置起始URL,根据配置的采集任务中预先设定的采集所需的各起始URL的优先级值,将各起始URL作为待采集URL加入到对应优先级的待访问URL队列中,例如配置任务中设定有2起始URL分别为URL1和URL2,URL1的优先级值为5,URL2的优先级值为3,将URL1加入到优先级值为5的待访问URL队列中,将URL2加入到优先级值为3的待访问URL队列中,这样在后续步骤中,采集系统通过对优先级值为3和优先级值为5的待访问URL队列进行访问,就可以采集到URL1和URL2。基于此,其它待采集URL(非起始URL)通过已访问的URL直接得到,待采集URL的优先级定义如下:
对于通过已访问的URL直接得到的待采集URL中,类别为URLReturn的URL,其优先级值nValPriReturnUrl=nValPrimax
对于通过已访问的URL直接得到的待采集URL中,类别为URLBoard类URLPageup类别的URL,其优先级值nValPriPageupUrl=nValPricurPage
除了URLReturn和URLBoard类URLPageup之外的其他通过已访问的URL直接得到的待采集URL,其优先级值nValPriurl=nValPricurPage-1。
随着采集系统的长期运行,系统存储的已访问的历史记录也会越来越多。以一个采集系统一天刷新采集的页面为40万为例,设定一个URL的平均长度为200个字节计算,一天记录的历史URL信息就是约76MB,一周的访问历史为约532MB,URL消重将成为采集系统性能的一大障碍。
进一步,为了避免重复采集,在执行本实施例的方法前,需进行URL快速消重,待采集URL加入待访问队列前,根据MD5算法计算待采集URL的MD5散列值,与待访问队列已访问的URL、正在访问的URL和未访问的URL的MD5散列值进行比较,如果是新闻或博客站点的URL,同时在系统记录的所有URL的MD5信息中未找到,则将其插入对应优先级的带采集URL队列中;如果是论坛帖子的URL,则需要进一步判断该帖子的回复数是否有更新,若已更新则插入待采集URL队列,若均不相同则加入对应优先级的URL队列中。否则抛弃,待访问队列指与待采集URL具有对应优先级的URL队列。
具体过程为,对待加入到待访问URL队列的待采集URL进行解析,拼成一个绝对路径的URLAbsolute,计算URLAbsolute的MD5值URLMD5
其中计算URLAbsolute的MD5值URLMD5如下,补充URLAbsolute的长度为512位的整数倍,补充后的URL信息为StrTempurl,对StrTempurl按照512位进行分组,分组数目为nNumGroup;
引入MD5算法四个32位链接变量(chaining variable),分别为:A=0x01234567,B=0x89abcdef,C=0xfedcba98,D=0x76543210;将A、B、C、D分别赋值给a,b,c,d
进入算法的四轮循环运算,循环的次数nNumCtcle=nNumGroup。
FF(a,b,c,d,x[0],S11,0xd76aa478);/*1*/
FF(d,a,b,c,x[1],S12,0xe8c7b756);/*2*/
FF(c,d,a,b,x[2],S13,0x242070db);/*3*/
FF(b,c,d,a,x[3],S14,0xc1bdceee );/*4*/
FF(a,b,c,d,x[4],S11,0xf57c0faf);/*5*/
FF(d,a,b,c,x[5],S12,0x4787c62a);/*6*/
FF(c,d,a,b,x[6],S13,0xa8304613);/*7*/
FF(b,c,d,a,x[7],S14,0xfd469501);/*8*/
FF(a,b,c,d,x[8],S11,0x698098d8);/*9*/
FF(d,a,b,c,x[9],S12,0x8b44f7af);/*10*/
FF(c,d,a,b,x[10],S13,0xffff5bb1);/*11*/
FF(b,c,d,a,x[11],S14,0x895cd7be);/*12*/
FF(a,b,c,d,x[12],S11,0x6b901122);/*13*/
FF(d,a,b,c,x[13],S12,0xfd987193);/*14*/
FF(c,d,a,b,x[14],S13,0xa679438e);/*15*/
FF(b,c,d,a,x[15],S14,0x49b40821);/*16*/
/*Round 2*/
GG(a,b,c,d,x[1],S21,0xf61e2562);/*17*/
GG(d,a,b,c,x[6],S22,0xc040b340);/*18*/
GG(c,d,a,b,x[11],S23,0x265e5a51);/*19*/
GG(b,c,d,a,x[0],S24,0xe9b6c7aa);/*20*/
GG(a,b,c,d,x[5],S21,0xd62f105d);/*21*/
GG(d,a,b,c,x[10],S22,0x2441453);/*22*/
GG(c,d,a,b,x[15],S23,0xd8a1e681);/*23*/
GG(b,c,d,a,x[4],S24,0xe7d3fbc8);/*24*/
GG(a,b,c,d,x[9],S21,0x21e1cde6);/*25*/
GG(d,a,b,c,x[14],S22,0xc33707d6);/*26*/
GG(c,d,a,b,x[3],S23,0xf4d50d87);/*27*/
GG(b,c,d,a,x[8],S24,0x455a14ed);/*28*/
GG(a,b,c,d,x[13],S21,0xa9e3e905);/*29*/
GG(d,a,b,c,x[2],S22,0xfcefa3f8);/*30*/
GG(c,d,a,b,x[7],S23,0x676f02d9);/*31*/
GG(b,c,d,a,x[12],S24,0x8d2a4c8a);/*32*/
/*Round 3*/
HH(a,b,c,d,x[5],S31,0xfffa3942);/*33*/
HH(d,a,b,c,x[8],S32,0x8771f681);/*34*/
HH(c,d,a,b,x[11],S33,0x6d9d6122);/*35*/
HH(b,c,d,a,x[14],S34,0xfde5380c);/*36*/
HH(a,b,c,d,x[1],S31,0xa4beea44);/*37*/
HH(d,a,b,c,x[4],S32,0x4bdecfa9);/*38*/
HH(c,d,a,b,x[7],S33,0xf6bb4b60);/*39*/
HH(b,c,d,a,x[10],S34,0xbebfbc70);/*40*/
HH(a,b,c,d,x[13],S31,0x289b7ec6);/*41*/
HH(d,a,b,c,x[0],S32,0xeaa127fa);/*42*/
HH(c,d,a,b,x[3],S33,0xd4ef3085);/*43*/
HH(b,c,d,a,x[6],S34,0x4881d05);/*44*/
HH(a,b,c,d,x[9],S31,0xd9d4d039);/*45*/
HH(d,a,b,c,x[12],S32,0xe6db99e5);/*46*/
HH(c,d,a,b,x[15],S33,0x1fa27cf8);/*47*/
HH(b,c,d,a,x[2],S34,0xc4ac5665);/*48*/
/*Round 4*/
II(a,b,c,d,x[0],S41,0xf4292244);/*49*/
II(d,a,b,c,x[7],S42,0x432aff97);/*50*/
II(c,d,a,b,x[14],S43,0xab9423a7);/*51*/
II(b,c,d,a,x[5],S44,0xfc93a039);/*52*/
II(a,b,c,d,x[12],S41,0x655b59c3);/*53*/
II(d,a,b,c,x[3],S42,0x8f0ccc92);/*54*/
II(c,d,a,b,x[10],S43,0xffeff47d);/*55*/
II(b,c,d,a,x[1],S44,0x85845dd1);/*56*/
II(a,b,c,d,x[8],S41,0x6fa87e4f);/*57*/
II(d,a,b,c,x[15],S42,0xfe2ce6e0);/*58*/
II(c,d,a,b,x[6],S43,0xa3014314);/*59*/
II(b,c,d,a,x[13],S44,0x4e0811a1);/*60*/
II(a,b,c,d,x[4],S41,0xf7537e82);/*61*/
II(d,a,b,c,x[11],S42,0xbd3af235);/*62*/
II(c,d,a,b,x[2],S43,0x2ad7d2bb);/*63*/
II(b,c,d,a,x[9],S44,0xeb86d391);/*64*/
上述计算最终输出4个32位分组,对其进行级联后生成了一个128位的散列值,即为16个字节的URLMD5。系统使用URLMD5进行消重验证,URLMD5表示URL的MD5散列值:
采集系统的待访问URL队列中包括全部待访问URL的数组为:ArrayQueueunvisited[TASK_PRIORITY_VALUE],其对应的MD5信息结构表示为MapUrlMd5unvisited
正在访问的URL对应的MD5信息结构表示为MapUrlMd5visiting
已访问URL的MD5信息结构表示为MapUrlMd5visited
使用URLMD5依次在MapUrlMd5visited、MapUrlMd5visiting和MapUrlMd5unvisited进行查找,若找到则直接抛弃该URL,若未找到则作为一个新URL插入待访问队列。
本发明提供的第一实施例是一种基于互联网定向站点网页数据采集的方法,方法流程如图1所示,包括:
步骤101:计算各个待访问URL队列i∈[1,TAKS_PRIORITY_VALUE]的权值dValPrii
步骤102:对dValPrii从高到低进行排序sort(dValPrii)。
步骤103:从dValPrii最大的队列中按FIFO的原则确定当前待访问URL。
步骤104:判断当前待访问URL所属站点的是否符合预定访问策略。如果符合,则当前待访问URL即可进行访问;如果不符合,则继续从该队列中取后续的URL依次进行判断;如果该队列都没有合适的URL,则从dValPrii次大的队列中取URL进行访问,依次类推,直到获得合适的URL进行访问为止,并根据访问的URL采集网页数据。
其中步骤101中,根据各URL队列中的URL数量、URL队列优先级值和权值因子确定各URL队列权值dValPrii,权值dValPrii计算具体为,double dValPrii=QueLeni/pow(iFactor,TASK_PRIORITY_VALUE-Vali),其中Vali表示URL队列ArrayQueueunvisited[i-1]优先级的值,URL队列ArrayQueueunvisited[i-1]存储的是所有优先级为Vali的URL的信息,QueLeni表示URL队列
Figure GDA00001924685000102
的长度即URL队列ArrayQueueunvisited[i-1]中的URL数量,iFactor表示权值因子,权值因子为互联网网络页面刷新后,平均一个列表页的新页面增加的数量,如一个列表页的新页面增加为2。故iFactor初始值为2。进一步,还可以根据各URL队列中的URL数量、URL队列优先级值、采集该URL队列中URL的线程数量和权值因子确定各URL队列权值dValPrii
其中步骤104中,由于网络采集系统遇到的另外一个问题就是拒绝访问的问题,为了尽可能快的抓取数据,采集系统往往最大可能的向站点请求数据,从而造成不友好的访问,或被认作攻击行为,最终不能再进行采集。因此为了避免造成不友好的访问,在本步骤中进一步需要判断当前待获取URL所属站点的礼貌访问。
通过上述的方案,本实施例通过对URL进行分类,按照类别设定优先级,保证了内容相关联的页面能够快速采集完整,解决了要等一段时间延迟才能得到完整的内容信息的问题,进一步,本实施例通过计算队列权值并结合礼貌访问机制的方式,保证了对站点的友好访问以及照顾到低优先级的URL也能获取系统资源进行采集。
本发明提供的第二实施例是一种基于互联网定向站点网页数据采集的装置,其结构如图2所示,包括:
队列生成模块201:用于根据待采集网页的统一资源定位器URL的优先级值,将待采集网页的URL加入到具有对应优先级的待访问URL队列中;
权值确定模块202:用于根据各URL队列中的URL数量、URL队列优先级值和权值因子确定各URL队列权值,权值因子为用于刷新和获取内容页链接的列表页刷新后,列表页中新的URL链接数量;
获取模块203:用于对权值最高的待访问URL队列中的URL进行访问,并根据访问的URL采集网页数据。
进一步,权值确定模块202:还用于根据各URL队列中的URL数量、URL队列优先级值、权值因子和访问该URL队列中URL的线程数量确定各URL队列权值。
进一步,权值确定模块202:还用于根据如下公式计算URL队列权值dValPrii
double dValPrii=QueLeni/pow(iFactor,TASK_PRIORITY_VALUE-Vali),其中为,QueLeni表示URL队列中的URL数量,Vali表示URL队列的优先级值,iFactor表示权值因子,TASK_PRIORITY_VALUE表示最高优先级值。
进一步,队列生成模块201:还用于根据MD5算法计算待采集URL的MD5散列值,与各待访问URL队列已访问的URL、正在访问的URL和未访问的URL的MD5散列值进行比较,若均不相同,或者相同且待采集URL对应网页中包括的针对该网页内容的回复数信息有更新,则加入对应优先级的URL队列中,否则抛弃。
进一步,获取模块203:还用于从权值最高的URL队列中按FIFO的原则访问URL,如果访问的URL所属站点符合预定访问策略,则对该URL进行访问,否则,则继续从该URL所属的队列中选取后续的URL依次进行判断,如果该队列都没有合适的URL,则按优先级由高到低依次访问其它URL队列中的URL。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (4)

1.一种基于互联网定向站点网页数据采集的方法,其特征在于,包括:
根据待采集网页的统一资源定位器URL的优先级值,将待采集网页的URL加入到具有对应优先级的待访问URL队列中,具体为:根据MD5算法计算待采集URL的MD5散列值,与各待访问URL队列已访问的URL、正在访问的URL和未访问的URL的MD5散列值进行比较,若均不相同,或者相同且待采集URL对应网页中包括的针对该网页内容的回复数信息有更新,则加入对应优先级的URL队列中,否则抛弃;
其中,所述待采集URL的优先级值的定义如下:
若待采集URL为采集所需的起始URL,则从配置的采集任务中获取各起始URL优先级值;
若待采集URL为非起始URL,对于通过已访问的URL直接得到的待采集URL,类别为内容分析返回的链接的URL,其优先级值最大,内容分析返回的链接指将内容页链接的内容页面分析后获取的内容关联的页面链接;
若待采集URL为非起始URL,对于通过已访问的URL直接得到的待采集URL,类别为列表页链接类翻页链接的URL,其优先级值nValPriPageupUrl=nValPricurPage,nValPricurPage表示已采集下来的URL优先级值,列表页链接指不保存网页数据,只用于刷新和获取内容页链接的链接;
若待采集URL为非起始URL,对于除类别为内容分析返回的链接的URL和类别为列表页链接类翻页链接的URL之外的,其他通过已访问的URL直接得到的待采集URL,其优先级值nValPriurl=nValPricurPage-1;
根据各URL队列中的URL数量、URL队列优先级值和权值因子,利用如下公式确定各URL队列权值dValPrii
double dValPrii=QueLeni/pow(iFactor,TASK_PRIORITY_VALUE-Vali),其中,QueLeni表示URL队列中的URL数量,Vali表示URL队列的优先级值,iFactor表示权值因子,TASK_PRIORITY_VALUE表示最高优先级值,所述权值因子为用于刷新和获取内容页链接的列表页刷新后,列表页中新的URL链接数量;
对权值最高的待访问URL队列中的URL进行访问,具体为:从权值最高的URL队列中按FIFO的原则访问URL,如果访问的URL所属站点符合预定的礼貌访问策略,则对该URL进行访问,否则,则继续从该URL所属的队列中选取后续的URL依次进行判断,如果该队列都没有合适的URL,则按URL队列权值由高到低依次访问其它URL队列中的URL;
根据访问的URL采集网页数据。
2.如权利要求1所述的方法,其特征在于,根据各URL队列中的URL数量、URL队列优先级值、权值因子和访问该URL队列中URL的线程数量确定各URL队列权值。
3.一种基于互联网定向站点网页数据采集的装置,其特征在于,包括:
队列生成模块:用于根据待采集网页的统一资源定位器URL的优先级值,将待采集网页的URL加入到具有对应优先级的待访问URL队列中,具体为:根据MD5算法计算待采集URL的MD5散列值,与各待访问URL队列已访问的URL、正在访问的URL和未访问的URL的MD5散列值进行比较,若均不相同,或者相同且待采集URL对应网页中包括的针对该网页内容的回复数信息有更新,则加入对应优先级的URL队列中,否则抛弃;
其中,所述待采集URL的优先级值的定义如下:
若待采集URL为采集所需的起始URL,则从配置的采集任务中获取各起始URL优先级值;
若待采集URL为非起始URL,对于通过已访问的URL直接得到的待采集URL,类别为内容分析返回的链接的URL,其优先级值最大,内容分析返回的链接指将内容页链接的内容页面分析后获取的内容关联的页面链接;
若待采集URL为非起始URL,对于通过已访问的URL直接得到的待采集URL,类别为列表页链接类翻页链接的URL,其优先级值nValPriPageupUrl=nValPricurPage,nValPricurPage表示已采集下来的URL优先级值,列表页链接指不保存网页数据,只用于刷新和获取内容页链接的链接;
若待采集URL为非起始URL,对于除类别为内容分析返回的链接的URL和类别为列表页链接类翻页链接的URL之外的,其他通过已访问的URL直接得到的待采集URL,其优先级值nValPriurl=nValPricurPage-1;
权值确定模块:用于根据各URL队列中的URL数量、URL队列优先级值和权值因子,利用如下公式确定各URL队列权值dValPrii
double dValPrii=QueLeni/pow(iFactor,TASK_PRIORITY_VALUE-Vali),其中,QueLeni表示URL队列中的URL数量,Vali表示URL队列的优先级值,iFactor表示权值因子,TASK_PRIORITY_VALUE表示最高优先级值,所述权值因子为用于刷新和获取内容页链接的列表页刷新后,列表页中新的URL链接数量;
获取模块:用于对权值最高的待访问URL队列中的URL进行访问,具体为:从权值最高的URL队列中按FIFO的原则访问URL,如果访问的URL所属站点符合预定的礼貌访问策略,则对该URL进行访问,否则,则继续从该URL所属的队列中选取后续的URL依次进行判断,如果该队列都没有合适的URL,则按URL队列权值由高到低依次访问其它URL队列中的URL;并根据访问的URL采集网页数据。
4.如权利要求3所述的装置,其特征在于,权值确定模块:还用于根据各URL队列中的URL数量、URL队列优先级值、权值因子和访问该URL队列中URL的线程数量确定各URL队列权值。
CN2009102175052A 2009-12-31 2009-12-31 一种基于互联网定向站点网页数据采集的方法及装置 Expired - Fee Related CN102117275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102175052A CN102117275B (zh) 2009-12-31 2009-12-31 一种基于互联网定向站点网页数据采集的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102175052A CN102117275B (zh) 2009-12-31 2009-12-31 一种基于互联网定向站点网页数据采集的方法及装置

Publications (2)

Publication Number Publication Date
CN102117275A CN102117275A (zh) 2011-07-06
CN102117275B true CN102117275B (zh) 2012-11-07

Family

ID=44216049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102175052A Expired - Fee Related CN102117275B (zh) 2009-12-31 2009-12-31 一种基于互联网定向站点网页数据采集的方法及装置

Country Status (1)

Country Link
CN (1) CN102117275B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617225B (zh) * 2013-11-25 2019-03-08 北京奇虎科技有限公司 一种关联网页搜索方法和系统
CN104715016B (zh) * 2015-02-04 2018-02-16 北京中搜搜悦网络技术有限公司 一种搜悦采集方法
CN104679838A (zh) * 2015-02-09 2015-06-03 北京中搜网络技术股份有限公司 一种高效资讯采集的方法
CN107025235A (zh) * 2016-02-01 2017-08-08 北京国双科技有限公司 爬取网页的方法及装置
CN106845092B (zh) * 2017-01-03 2021-06-04 青岛海信医疗设备股份有限公司 一种系统对接方法及装置
CN110233776A (zh) * 2019-05-31 2019-09-13 湃方科技(北京)有限责任公司 一种旋转型机械设备状态监测方法及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101004740A (zh) * 2006-01-18 2007-07-25 腾讯科技(深圳)有限公司 一种读取网络资源站点信息的方法及其系统以及搜索引擎
CN101051313A (zh) * 2007-05-09 2007-10-10 崔志明 用于深层网页数据源集成的数据源发现方法
CN101178713A (zh) * 2006-11-29 2008-05-14 腾讯科技(深圳)有限公司 一种采集网页的方法及系统
CN101261643A (zh) * 2008-05-04 2008-09-10 腾讯科技(深圳)有限公司 网站页面信息统计方法及装置
US7599920B1 (en) * 2006-10-12 2009-10-06 Google Inc. System and method for enabling website owners to manage crawl rate in a website indexing system
CN101561814A (zh) * 2009-05-08 2009-10-21 华中科技大学 基于社会标注的主题爬虫系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101004740A (zh) * 2006-01-18 2007-07-25 腾讯科技(深圳)有限公司 一种读取网络资源站点信息的方法及其系统以及搜索引擎
US7599920B1 (en) * 2006-10-12 2009-10-06 Google Inc. System and method for enabling website owners to manage crawl rate in a website indexing system
CN101178713A (zh) * 2006-11-29 2008-05-14 腾讯科技(深圳)有限公司 一种采集网页的方法及系统
CN101051313A (zh) * 2007-05-09 2007-10-10 崔志明 用于深层网页数据源集成的数据源发现方法
CN101261643A (zh) * 2008-05-04 2008-09-10 腾讯科技(深圳)有限公司 网站页面信息统计方法及装置
CN101561814A (zh) * 2009-05-08 2009-10-21 华中科技大学 基于社会标注的主题爬虫系统

Also Published As

Publication number Publication date
CN102117275A (zh) 2011-07-06

Similar Documents

Publication Publication Date Title
US9094478B2 (en) Prereading method and system for web browser
CN102117275B (zh) 一种基于互联网定向站点网页数据采集的方法及装置
Baraglia et al. Dynamic personalization of web sites without user intervention
CN101488135B (zh) 延后个性化网页的设计和获取方法
US9443197B1 (en) Predicting user navigation events
JP5588981B2 (ja) 検索クエリーに応答したディスカッションスレッドへの投稿の提供
CN103997507B (zh) 一种信息的推送方法及装置
US8775550B2 (en) Caching HTTP request and response streams
CN102426610B (zh) 微博搜索排名方法及微博搜索引擎
US9589056B2 (en) User information needs based data selection
CN102761627A (zh) 基于终端访问统计的云网址推荐方法及系统及相关设备
US20110087647A1 (en) System and method for providing web search results to a particular computer user based on the popularity of the search results with other computer users
CN103607496B (zh) 一种推断手机用户兴趣爱好的方法、装置及手机终端
US9785661B2 (en) Trend response management
US20090276729A1 (en) Adaptive user feedback window
EP2395441A1 (en) Systems and methods for online search recirculation and query categorization
CN105721538A (zh) 数据访问的方法和装置
Yan et al. Big data driven wireless communications: A human-in-the-loop pushing technique for 5G systems
CN101188521B (zh) 一种挖掘用户行为数据的方法和网站服务器
CN103559258A (zh) 基于云计算的网页排序方法
Antunes et al. Scalable semantic aware context storage
Chauhan et al. Web page ranking using machine learning approach
Khodaei et al. Temporal-textual retrieval: Time and keyword search in web documents
Bai et al. Collaborative personalized top-k processing
CN110990706B (zh) 语料推荐方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220915

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Patentee after: BEIJING FOUNDER ELECTRONICS CHIEF INFORMATION TECHNOLOGY Co.,Ltd.

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: BEIJING FOUNDER ELECTRONICS CHIEF INFORMATION TECHNOLOGY Co.,Ltd.

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121107

CF01 Termination of patent right due to non-payment of annual fee