CN105117501B - 网络爬虫调度方法及应用其的网络爬虫系统 - Google Patents

网络爬虫调度方法及应用其的网络爬虫系统 Download PDF

Info

Publication number
CN105117501B
CN105117501B CN201510657341.0A CN201510657341A CN105117501B CN 105117501 B CN105117501 B CN 105117501B CN 201510657341 A CN201510657341 A CN 201510657341A CN 105117501 B CN105117501 B CN 105117501B
Authority
CN
China
Prior art keywords
subpage
content pages
link
quality
link quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510657341.0A
Other languages
English (en)
Other versions
CN105117501A (zh
Inventor
周海建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Shenma Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shenma Mobile Information Technology Co Ltd filed Critical Guangzhou Shenma Mobile Information Technology Co Ltd
Priority to CN201510657341.0A priority Critical patent/CN105117501B/zh
Publication of CN105117501A publication Critical patent/CN105117501A/zh
Priority to PCT/CN2016/101472 priority patent/WO2017059800A1/zh
Application granted granted Critical
Publication of CN105117501B publication Critical patent/CN105117501B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种网络爬虫调度方法及应用其的网络爬虫系统,其首先对抓取到的与种子页相关的内容页数据进行解析,得到多组链接信息,然后根据每组链接信息分别计算得到一个对应的内容页在所述种子页上的链接质量,进而分别根据所述链接质量确定内容页的抓取顺序以及种子页的预设刷新间隔,保证高链接质量对应的重要内容页及种子页优先被抓取,提高索引质量及时效性,保证用户检索效果。

Description

网络爬虫调度方法及应用其的网络爬虫系统
本发明要求于2015年10月9日提交中国专利局、申请号为201510649129.X、发明名称为“网络爬虫调度方法及应用其的网络爬虫系统”的中国专利申请的优先权,其全部内容通过引用结合在本发明中。
技术领域
本发明涉及网页抓取技术领域,特别是涉及网络爬虫调度方法及应用其的网络爬虫系统。
背景技术
搜索引擎通常会提供分钟级别的实时索引,以及时向用户展示强时效性网页信息,如新闻网站中的新闻资讯、视频网站中的视频更新动、论坛网友中的热门帖子等。为及时获取这些强时效性网页信息,相关搜索引擎需要维护一批种子页(又称列表页、hub页);其中,所述种子页相当于内容页的索引页面,以新闻网站为例,其种子页用于展示多个新闻标题,每个新闻标题链接到一个内容页,且该内容页用于展示相应新闻标题对应的具体新闻内容。一般的,搜索引擎可以通过网络爬虫系统按照预设的刷新间隔来抓取种子页所需的内容页数据,对上一次抓取的种子页进行更新,从而可以将新的内容页及时展示给用户,保证相关网站的时效性。
基于上述网络爬虫系统,种子页的刷新间隔通常根据其内容页的产出率确定,产出率越高,说明出现新的内容页数据的频率更高,相应的刷新间隔应该越短,以保证内容页数据可以更快的被发现并抓取;以某资讯网站的种子页维护为例,由于工作日的上午7点至11点、下午2点至5点是资讯网站编辑发布新闻的高峰期,即产出率较高,故工作日的这两个时段的刷新间隔较短,而工作日其他时段及非工作日的刷新间隔相对较长。可见,根据不同的产出率设置不同的刷新间隔,可以减少不必要的抓取量,节省抓取资源并整体提高数据时效性。
但是,现有网络爬虫系统的调度方法往往由于刷新间隔设置不合理、缺乏对抓取顺序的合理控制等因素,导致抓取量过大,一些重要页面不能被及时抓取,进而影响索引质量及用户检索效果。
发明内容
为了解决上述技术问题,本申请公开了一种网络爬虫调度方法及应用其的网络爬虫系统。
第一方面,本申请提供了一种网络爬虫调度方法,所述方法包括:
抓取种子页相关的内容页数据;
解析所述内容页数据,得到所述种子页相关的多组链接信息;
根据所述链接信息计算对应的内容页在所述种子页上的链接质量;
按照所述链接质量由高到低的顺序对每个所述链接质量对应的内容页执行抓取操作。
结合第一方面,在第一方面第一种可行的实施方式中,根据所述链接信息计算相应内容页在所述种子页上的链接质量,包括:
对于每组链接信息,计算其各项子信息的质量加权和,并将所述质量加权和作为所述链接信息对应的内容页的链接质量;
其中,所述链接信息的子信息包括以下至少一项:所述链接信息对应的内容页链接在所述种子页中的链接位置和页面分块类型,以及所述种子页中用于描述所述链接信息对应的内容页的锚文本和结构化信息。
结合第一方面,或者第一方面第一种可行的实施方式,在第一方面第二种可行的实施方式中,按照所述链接质量由高到低的顺序对每个所述链接质量对应的内容页执行抓取操作,包括:
根据所述链接质量所在的数值范围确定对应的抓取优先权;
按照所述抓取优先权由高到低的顺序对相应的内容页执行抓取操作。
第二方面,本申请提供了另一种网络爬虫调度方法,所述方法包括:
根据预设刷新间隔抓取种子页相关的内容页数据;
解析所述内容页数据,得到所述种子页相关的多组链接信息;
根据所述链接信息计算对应的内容页在所述种子页上的链接质量;
根据预设周期内同一内容页在与其链接的不同种子页上的链接质量计算各个内容页在不同种子页上的产出率;
根据同一种子页中各个内容页的产出率,计算所述预设周期内所述同一种子页的产出率;
根据各个种子页的产出率确定并更新相应种子页的预设刷新间隔。
结合第二方面,在第二方面第一种可行的实施方式中,根据预设周期内同一内容页在与其链接的不同种子页上的链接质量计算各个内容页在不同种子页上的产出率,包括:
保存所述种子页中各个内容页的链接质量及相应的内容页数据的抓取时间;
读取所述抓取时间在预设周期内的所有链接质量,并根据其对应的内容页进行分类;
根据分类得到的同一内容页在不同种子页上的链接质量,以及所述同一内容页的自身质量,计算所述同一内容页在不同种子页上的产出率。
第三方面,本申请提供了一种网络爬虫系统,所述系统包括:
种子页抓取单元,用于抓取种子页相关的内容页数据;
数据解析单元,用于解析所述内容页数据,得到所述种子页相关的多组链接信息;
链接质量计算单元,用于根据所述链接信息计算对应的内容页在所述种子页上的链接质量;
内容页抓取调度单元,用于按照所述链接质量由高到低的顺序对每个所述链接质量对应的内容页执行抓取操作。
结合第三方面,在第三方面第一种可行的实施方式中,所述链接质量计算单元,包括:
加权计算单元,用于对于每组链接信息,计算其各项子信息的质量加权和,并将所述质量加权和作为所述链接信息对应的内容页的链接质量;
其中,所述链接信息的子信息包括以下至少一项:所述链接信息对应的内容页链接在所述种子页中的链接位置和页面分块类型,以及所述种子页中用于描述所述链接信息对应的内容页的锚文本和结构化信息。
结合第三方面,或者第三方面第一种可行的实施方式,在第三方面第二种可行的实施方式中,所述内容页抓取调度单元包括:
优先权确定单元,用于根据所述链接质量所在的数值范围确定对应的抓取优先权;
内容页抓取单元,用于按照所述抓取优先权由高到低的顺序对相应的内容页执行抓取操作。
第四方面,本申请提供了另一种网络爬虫系统,所述系统包括:
种子页抓取单元,用于根据预设刷新间隔抓取种子页相关的内容页数据;
数据解析单元,用于解析所述内容页数据,得到所述种子页相关的多组链接信息;
链接质量计算单元,用于根据所述链接信息计算对应的内容页在所述种子页上的链接质量;
内容页产出率计算单元,用于根据预设周期内同一内容页在与其链接的不同种子页上的链接质量计算各个内容页在不同种子页上的产出率;
种子页产出率计算单元,用于根据同一种子页中各个内容页的产出率,计算所述预设周期内所述同一种子页的产出率;
种子页刷新间隔确定单元,用于根据各个种子页的产出率确定并更新相应种子页的预设刷新间隔。
结合第四方面,在第四方面第一种可行的实施方式中,所述内容页产出率计算单元,包括:
数据存储单元,用于保存所述种子页中各个内容页的链接质量及相应的内容页数据的抓取时间;
链接质量分类单元,用于读取所述抓取时间在预设周期内的所有链接质量,并根据其对应的内容页进行分类;
计算执行单元,用于根据分类得到的同一内容页在不同种子页上的链接质量,以及所述同一内容页的自身质量,计算所述同一内容页在不同种子页上的产出率。
由以上技术方案可知,本申请实施例首先对抓取到的与种子页相关的内容页数据进行解析,得到多组链接信息,然后根据每组链接信息分别计算得到一个对应的内容页在所述种子页上的链接质量;一方面,可以根据该链接质量确定内容页抓取顺序,保证链接质量高的重要页面被优先抓取,避免网络爬虫系统的抓取量较大时一些重要页面不能被及时抓取的现象,保证高链接质量对应的重要内容页优先被抓取并列于种子页中;另一方面,根据同一内容页在与其链接的不同种子页上的链接质量计算各个内容页在不同种子页上的产出率,可以将同一内容页的产出率按链接质量的大小分配在不同的种子页上,使得计算得到的种子页产出率更合理,进而根据种子页产出率确定的种子页的预设刷新时间也更合理。可见,本申请可以根据各内容页的链接质量确定合理的内容页抓取顺序及种子页的预设刷新间隔,保证高链接质量对应的重要内容页即种子页优先被抓取,提高索引质量及时效性,保证用户检索效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一个实施例提供的网络请求处理方法的流程图;
图2为本申请另一个实施例提供的网络请求处理方法的的流程图;
图3为本申请又一个实施例提供的网络请求处理方法的的流程图;
图4为本申请一个实施例提供的网络请求处理装置的结构框图;
图5为本申请另一个实施例提供的网络请求处理装置的结构框图;
图6为本申请又一个实施例提供的网络请求处理装置的结构框图。
具体实施方式
首先对本申请提供的网络爬虫调度方法的实施例进行说明。图1为本申请一个实施例提供的网络爬虫调度方法的的流程图。参照图1,该网络爬虫调度方法包括如下步骤。
S11、抓取种子页相关的内容页数据。
S12、解析所述内容页数据,得到所述种子页相关的多组链接信息。
S13、根据所述链接信息计算对应的内容页在所述种子页上的链接质量。
S14、按照所述链接质量由高到低的顺序对每个所述链接质量对应的内容页执行抓取操作。
依照上述方法步骤中,针对需要维护的某个种子页,首先对其执行抓取操作,得到该种子页相关的内容页数据;再通过解析所述内容页数据,得到多组链接信息,每组链接信息对应一个内容页;然后根据链接信息计算得到其对应的内容页在该种子页上的链接质量。上述链接质量用于表征相应内容页的质量、重要程度,计算得到的链接质量越高,表示相应的内容页质量越高、重要程度越高;故,在上述步骤S14中按照所述链接质量由高到低的顺序对每个链接质量对应的内容页执行抓取操作,得到相应内容页的链接地址(即link),最终将这些链接地址分别与种子页中的相应文字或图标相关联,即完成对该种子页的更新维护。有鉴于此,对于同一搜索引擎相关的n(n为正整数)个种子页Si(其中,i=1,2,...,n),均可采用上述方案进行同步处理;即使在同一时段内多个种子页Si产出率都较高、刷新间隔都较短,网络爬虫系统的抓取量很大时,本实施例也可以根据链接质量确定各个种子页中的重要内容页并优先抓取这些重要内容页。
由以上技术方案可知,本申请实施例首先对抓取到的与种子页相关的内容页数据进行解析,得到多组链接信息,然后根据每组链接信息分别计算得到一个对应的内容页在所述种子页上的链接质量,进而按照所述链接质量由高到低的顺序对相应的内容页执行抓取操作;即本实施例通过计算链接质量来区分不同内容页的重要程度,并优先对重要内容页执行抓取操作,从而可以避免网络爬虫系统的抓取量较大时一些重要页面不能被及时抓取的现象,保证高链接质量对应的重要内容页优先被抓取并列于种子页中,提高索引质量,保证用户检索效果。
在本申请一个可行的实施例中,上述步骤S13具体可以为:对于每组链接信息,计算其各项子信息的质量加权和,并将所述质量加权和作为所述链接信息对应的内容页的链接质量。
其中,通过步骤S12中解析得到的每组链接信息,可以包括以下子信息中的至少一项:链接位置、页面分块类型、锚文本和结构化信息。
具体的,上述链接位置,表示相应内容页链接在种子页上的坐标。该坐标是经浏览器渲染后用户能够在种子页的可视化页面上看到的链接的真实的可视化位置,坐标的表示形式为(x,y),其中x表示横坐标,即相应链接离可视化页面的最左侧的距离;y表示纵坐标,即相应链接离可视化页面的最顶部的距离。
上述页面分块类型,表示相应内容页链接在种子页上的可视化区域的分块类型。该页面分块类型具体可以与可视化区域的位置相关,分为边框型、正文型等,边框型可进一步分为顶部边框型、左侧边框型等;该页面分块类型还可以与可视化区域的功能相关,分为导航栏型、热点推荐型、相关推荐型等。
上述锚文本,表示展示在种子页中用于描述相应内容页链接的文本。例如,某内容页链接为:<a href='http://news.sina.com.cn/c/2015-04-16/115431724914.shtml”>沙尘狂袭北京敲响治沙警钟</a>,其中的锚文本为“沙尘狂袭北京敲响治沙警钟”。
上述结构化信息,表示除了锚文本之外,展示在种子页上用于描述相应内容页链接的其他相关信息;例如,相关图片、图片数量、文章/帖子发布时间、摘要、用户点击/回复/点赞次数等信息。
基于上述四种子信息,对于种子页Si(i=1,2,...,n)的内容页Cij(j=1,2,...,mi),其在Si上的链接质量LQij可以通过如下公式计算:
LQij=wLP*LPij+wBT*BTij+wAT*ATij+wSI*SIij+wSL*SLi
其中,LPij表示内容页Cij对应的链接位置的质量评分,wLP表示该项质量评分对应的权重。一般的,可以设置越接近顶部的位置越重要,相应的质量评分也越高。
BTij表示内容页Cij对应的页面分块类型的质量评分,wBT表示该项质量评分对应的权重。例如,可以设置正文区域的质量评分高于非正文区域(如导航栏区域)的质量评分。
ATij表示内容页Cij对应的锚文本的质量评分,wAT表示该项质量评分对应的权重。一般的,可以设置字数过少(例如少于5个字)或过多(例如多余30个字)的锚文本的指令评分相对较低。
SIij表示内容页Cij对应的结构化信息的质量评分,wSI表示该项质量评分对应的权重。一般的,可以设置:包含图片或者点击/回复次数较多的内容页对应的结构化信息的质量评分较高。
SLij表示内容页Cij所在种子页Si对应的质量评分,wSL表示该项质量评分对应的权重。一般的,重要性越高的种子页(如知名站点的主要频道页面)的质量评分越高。
需要说明的是,上述简单的采用质量评分加权求和的方式计算内容页的链接质量,仅仅是本申请的一种优选实施方式,在本申请其他实施例中,还可以采用其他拟合函数来计算内容页的链接质量。例如,可以结合不同类型的链接信息之间的关联性来拟合函数;具体的,对于链接位置和页面分块类型两种链接信息,一种关联性为:在链接位置同为顶部的情况下,页面分块类型为正文型(即,正文的顶部)区域对应的质量评分高于页面分块类型为非正文(即,非正文的顶部)区域对应的质量评分。
在本申请另一个可行的实施方式中,上述步骤S14具体可以为:根据链接质量确定相应内容页的抓取优先级,进而按照所述抓取优先级由高到低的顺序将相应内容页的抓取任务写入抓取队列,从而可以在处理该抓取队列的过程中,按照所述抓取优先级由高到低(即内容页重要程度由高到低)的顺序得到各个内容页的链接地址。
例如,通过对种子页Si(i=1,2,...,n)相关的内容页数据进行解析,得到mi(mi为正整数)组链接信息;根据第j组链接信息可计算得到对应的内容页Cij(j=1,2,...,mi)在种子页Si上的链接质量LQij;进而根据LQij的大小确定内容页Cij的抓取优先级Pij。其中,抓取优先级具体可包括2个、3个或更多个等级;以3个等级为例,即Pij∈{1,2,3},且设定Pij取值越大,表示抓取优先级越低(在其他实施例中,也可以设定取值越大,表示抓取优先级越高);在确定各个内容页对应的抓取优先级后,首先抓取Pij=1的各个内容页的链接地址,抓取完成后,根据种子页Si的容量决定是否需要继续抓取Pij=2以及Pij=3的各个内容页的链接地址。
相对于直接根据取值各异的链接质量确定内容页的抓取顺序,上述根据链接质量确定对应的抓取优先级,再根据该抓取优先级的高低确定内容页的抓取顺序,可以在精度要求不高的情况下,减少排序所占用的处理时间,从而提高抓取效率。
需要说明的是,对于上述步骤S14中的根据链接质量或抓取优先级确定多个内容页的抓取顺序,在一个可行的具体实施方式中,可以分别针对每个种子页相关的mi个内容页进行独立执行;在另一个可行的具体实施方式中,还可以对多个种子页相关的i×mi个内容页进行统一排序。
上文阐述了本申请实施例根据链接质量区分不同内容页的重要程度,并确定内容页抓取顺序的网络爬虫调度方法,可以在爬虫高峰阶段显著提升重要数据的时效性。例如,每天的12点左右是NBA发布赛况的高峰时段,知名的站点例如虎扑(voice.hupu.com)以及新浪体育(sports.sina.com.cn)的数据产出量很大。在传统的调度方式下,由于爬虫的压力,页面抓取延迟在5分钟以内的比例不到80%。重要的热点资讯可能落在20%的大于5分钟抓取延迟的页面范围内,甚至可能落在大于10分钟抓取延迟的范围内,这是不可接受的。根据本专利的调度方法,重要的网页链接(例如首页或频道首页上焦点位置的链接、配有图片和摘要的链接等)会被优先抓取,从而确保这些重要数据能在5分钟甚至1分钟之内被抓取和进入索引,从而提升数据质量和用户检索效果。
如图2所示,本申请实施例提供了另一种网络爬虫调度方法。参照图2,该方法包括如下步骤:
S21、根据预设刷新间隔抓取种子页相关的内容页数据。
S22、解析所述内容页数据,得到所述种子页相关的多组链接信息。
S23、根据所述链接信息计算对应的内容页在所述种子页上的链接质量。
上述步骤S21至S23分别对应上文的步骤S11至S13,此处不再赘述。
S24、根据预设周期内同一内容页在与其链接的不同种子页上的链接质量计算各个内容页在不同种子页上的产出率。
S25、根据同一种子页中各个内容页的产出率,计算所述预设周期内所述同一种子页的产出率。
S26、根据各个种子页的产出率确定并更新相应种子页的预设刷新间隔。
种子页的产出率越大,对应的预设刷新间隔越短,具体对应关系可以参照现有技术,此处不再赘述。在执行完步骤S26,得到各个种子页的新的预设刷新间隔,即可在下次执行步骤S21抓取种子页相关的内容页数据时,采用该新的预设刷新间隔,
由以上技术方案可知,本申请实施例根据同一内容页在与其链接的不同种子页上的链接质量计算各个内容页在不同种子页上的产出率,可以将同一内容页的产出率按链接质量的大小分配在不同的种子页上,使得计算得到的种子页产出率更合理,相应的根据种子页产出率确定的该种子页的预设刷新间隔也更合理,从而根据新确定的预设刷新间隔确定下次抓取相应种子页的内容页数据的时刻,可以保证重要种子页被优先抓取,避免因种子页的产出率被低估被低估导致一些重要页面不能被及时抓取,保证其数据质量和时效性。
参照图3,在本申请一个可行的具体实施方式中,上述步骤S24具体可以包括如下子步骤:
S241、保存所述种子页中各个内容页的链接质量及相应的内容页数据的抓取时间。
例如,上文所述的种子页Si(i=1,2,...,n)中的内容页Cij(j=1,2,...,mi)的链接质量LQij具体可以作为Cij的一种相关信息,保存为如下形式:Lij=(Cij,Si,LQij,LTij)。
其中,Lij为Cij的相关信息,可以存储在相关数据库中;LTij为通过上述步骤S11抓取到相应内容页数据的时刻,即在Si上发现Cij的时间。
S242、读取所述抓取时间在预设周期内的所有链接质量,并根据其对应的内容页进行分类。
本申请实施例中,可以通过如下方式获取预设周期内同一内容页在不同种子页上的链接质量:基于步骤S24的存储结果,从相应数据库中读取LTij在预设周期内的相关信息Lij,对读取到的相关信息进行分类,将同一内容页在不同种子页上的链接质量汇总起来。假设链接到某一内容页的多个种子页可以记为集合{Sk|k∈Φ},且计数标号k的取值集合例如,链接到内容页的种子页仅包括S1,S4,S6和S8四个,则Φ={1,4,6,8}。另外,为便于描述,同时假设该内容页在各个种子页中对应的计数标号j相同,即j为唯一确定值,将该内容页可以表示为Ckj(k∈Φ)。基于上述假设情况,可以汇总得到该内容页Cj对应的链接质量集合为:{LQkj|k∈Φ}。
S243、根据分类得到的同一内容页在不同种子页上的链接质量,以及所述同一内容页的自身质量,计算所述同一内容页在不同种子页上的产出率。
基于上述步骤S25分类得到的链接质量集合计算内容页Ckj在与其相链接的任意一个种子页Sk上的产出率PRkj,可以采用如下公式:PRkj=Qj*LQkjkLQkj
上述公式中,Qj表示该内容页自身的质量评分,其具体取值与内容页Cj所在的种子页无关,而取决于该内容页Cj自身的因素,如:标题质量、正文质量、是否为低质量或作弊页面、被搜索引擎展示的次数、被用户点击的次数、被用户浏览的次数、用户在该页面上停留的时间等。即,对于一个确定的内容页Cj,其自身质量评分Qj可视为一个常数。
需要说明的是,同一内容页在不同种子页中对应的计数标号j也可能不同,此情况下的计算公式可以根据上述实施例的计算原理推导得到,此处不再赘述。
在本申请一个可行的具体实施方式中,在根据步骤S24计算得到每个内容页在一个或多个种子页上的产出率后,即可汇总得到任意一个种子页Si中的每个内容页 的产出率集合基于上述内容页的产出率集合,可以在步骤S25中通过累加的方式计算种子页Si的产出率PRi,公式为:
另外,在本申请其他具体实施方式中,还可以通过其他方式计算种子页的产出率PRi,例如对每个内容页设置相应的权重,计算种子页Si中的每个内容页的产出率加权和,作为种子页Si的产出率。
上文阐述了本申请根据内容页的链接质量计算并更新种子页的预设刷新间隔的具体方法,其通过分析同一内容页在不同种子页上的链接质量,并结合内容页本身的质量,来计算该内容页在相关各个种子页上的产出率;也即通过本实施例,链接到同一内容页的多个种子页都会被分配一定的产出比例,且链接质量较高的种子页,被分配的产出率也相对较高,最终确定的刷新间隔也相对较高,可以更快地抓取较高质量的数据;链接质量较低的种子页,被分配的产出率也相对较低,最终确定的刷新间隔也相对较低,可以降低抓取频率,节省抓取量。
例如,新浪“国际新闻”页面(http://news.sina.com.cn/world/)及其子频道“国际专稿”页面(http://news.sina.com.cn/gjzg/)都是收录于新浪网站搜索引擎下的种子页。由于“国际专稿”上的链接有很大一部分会出现在“国际新闻”的页面上(后者产出量大、刷新会比前者快很多),如果采用现有技术常用的刷新间隔计算方法,即根据历史上该种子页的产出率确定对应的刷新间隔,可能导致“国际专稿”这个种子页的产出率被低估,进而导致所确定的“国际专稿”的刷新间隔过长(即刷新频率不够快),这会影响仅在“国际专稿”上出现的新闻内容的抓取时效性。如果采用本实施例,对于“国际新闻”页面和“国际专稿”页面上都存在的某个新闻内容页,如果其在“国际新闻”页面上的链接质量较差(比如位置在第一屏之外、需要下拉滚动条才能看到)而在“国际专稿”页面上的链接质量较好(例如在焦点位置、配有图片和摘要),则该新闻内容页会被优先当成“国际专稿”种子页的产出,使得“国际专稿”种子页可以被分配得到更高的产出率比例,从而可以提升“国际专稿”种子页的刷新频率,确保“国际专稿”种子页中重要数据的抓取时效性,同时也不会过度增加网络爬虫系统的抓取量。
由以上阐述可知,在多个种子页链接到同一内容页的情况下,通过上述实施例可以更合理地估算每个种子页的产出率,进而确定其刷新间隔;进一步的,将该刷新间隔应用于步骤S21,可以较好地权衡数据质量、时效性和爬虫抓取能力,在节省种子页抓取量的同时尽可能保证重要的强时效性内容页数据被优先抓取。
另外,在本申请其他实施例中,还可以将图1和图2所示网络爬虫调度系统合并,即根据步骤S26所确定的预设刷新间隔执行图1所示网络爬虫调度方法中的步骤S11,并结合后续步骤S12至S14,对上述重要的强时效性内容页数据所涉及的内容页按照其链接质量由高到低的顺序进行抓取,实现在种子页抓取和内容页抓取两个步骤中同时保证重要的强时效性内容页优先被抓取并列于种子页中,相对于图1所示实施例可以进一步提高索引质量,保证用户检索效果。
与上述网络请求处理方法的实施例相对应,本申请实施例还提供了一种网络爬虫系统。图4为该网络爬虫系统的一种结构示意图。参照图4,该系统包括:种子页抓取单元101、数据解析单元102、链接质量计算单元103和内容页抓取调度单元104。
其中,该种子页抓取单元101用于,抓取种子页相关的内容页数据。
该数据解析单元102用于,解析所述内容页数据,得到所述种子页相关的多组链接信息。
该链接质量计算单元103用于,根据所述链接信息计算对应的内容页在所述种子页上的链接质量。
该内容页抓取调度单元104用于,按照所述链接质量由高到低的顺序对每个所述链接质量对应的内容页执行抓取操作。
由以上技术方案可知,本申请实施例提供的网络爬虫系统首先对抓取到的与种子页相关的内容页数据进行解析,得到多组链接信息,然后根据每组链接信息分别计算得到一个对应的内容页在所述种子页上的链接质量,进而按照所述链接质量由高到低的顺序对相应的内容页执行抓取操作;即本实施例通过计算链接质量来区分不同内容页的重要程度,并优先对重要内容页执行抓取操作,从而可以避免网络爬虫系统的抓取量较大时一些重要页面不能被及时抓取的现象,保证高链接质量对应的重要内容页优先被抓取并列于种子页中,提高索引质量,保证用户检索效果。
在本申请一个可行的实施方式中,上述链接质量计算单元103具体可以为加权计算单元。该加权计算单元被配置为:对于每组链接信息,计算其各项子信息的质量加权和,并将所述质量加权和作为所述链接信息对应的内容页的链接质量。
其中,所述链接信息可以包括以下通过数据解析单元102解析得到的至少一项子信息:所述链接信息对应的内容页链接在所述种子页中的链接位置和页面分块类型,以及所述种子页中用于描述所述链接信息对应的内容页的锚文本和结构化信息。
在本申请另一个可行的实施方式中,上述内容页抓取调度单元104具体可以包括:优先权确定单元和内容页抓取单元。
其中,该优先权确定单元用于,根据所述链接质量所在的数值范围确定对应的抓取优先权。
该内容页抓取单元用于,按照所述抓取优先权由高到低的顺序对相应的内容页执行抓取操作。
由以上实施例可知,相对于直接根据取值各异的链接质量确定内容页的抓取顺序,上述根据链接质量确定对应的抓取优先级,再根据该抓取优先级的高低确定内容页的抓取顺序,可以在精度要求不高的情况下,减少排序所占用的处理时间,从而提高抓取效率。
图5为本申请另一实施例提供的网络爬虫系统的结构框图。参照图5,该系统包括:种子页抓取单元201、数据解析单元202、链接质量计算单元203、内容页产出率计算单元204、种子页产出率计算单元205和种子页刷新间隔确定单元206。
其中,该种子页抓取单元201用于,根据预设刷新间隔抓取种子页相关的内容页数据。
该数据解析单元202用于,解析所述内容页数据,得到所述种子页相关的多组链接信息。
该链接质量计算单元203用于,根据所述链接信息计算对应的内容页在所述种子页上的链接质量。
该内容页产出率计算单元204用于,根据预设周期内同一内容页在与其链接的不同种子页上的链接质量计算各个内容页在不同种子页上的产出率。
该种子页产出率计算单元205用于,根据同一种子页中各个内容页的产出率,计算所述预设周期内所述同一种子页的产出率。
该种子页刷新间隔确定单元206用于,根据各个种子页的产出率确定并更新相应种子页的预设刷新间隔。
由以上技术方案可知,本申请实施例提供的网络爬虫系统,根据同一内容页在与其链接的不同种子页上的链接质量计算各个内容页在不同种子页上的产出率,可以将同一内容页的产出率按链接质量的大小分配在不同的种子页上,使得计算得到的种子页产出率更合理,相应的根据种子页产出率确定的该种子页的预设刷新时间也更合理,从而根据新确定的预设刷新间隔确定下次抓取相应种子页的内容页数据的时刻,可以保证重要种子页被优先抓取,避免因种子页的的产出率被低估导致一些重要页面不能被及时抓取,保证其数据质量和时效性。
参照图6,在本申请一个可行的具体实施方式中,上述内容页产出率计算单元204可以包括:数据存储单元2041、链接质量分类单元2042和计算执行单元2043。
其中,该数据存储单元2041用于,保存所述种子页中各个内容页的链接质量及相应的内容页数据的抓取时间。
该链接质量分类单元2042用于,读取所述抓取时间在预设周期内的所有链接质量,并根据其对应的内容页进行分类。
该计算执行单元2043用于,根据分类得到的同一内容页在不同种子页上的链接质量,以及所述同一内容页的自身质量,计算所述同一内容页在不同种子页上的产出率。
由上述技术方案可知,本申请实施例提供的网络爬虫系统,通过分析同一内容页在不同种子页上的链接质量,并结合内容页本身的质量,来计算该内容页在相关各个种子页上的产出率;也即通过本实施例,链接到同一内容页的多个种子页都会被分配一定的产出比例,且链接质量较高的种子页,被分配的产出率也相对较高,最终确定的预设刷新间隔也相对较高,可以更快地抓取较高质量的数据;链接质量较低的种子页,被分配的产出率也相对较低,最终确定的刷新间隔也相对较低,可以降低抓取频率,节省抓取量。进一步的,利用更新后的预设刷新间隔抓取各个种子页的内容页数据,并计算链接质量,进而确定内容页的抓取顺序,可以实现在种子页抓取和内容页抓取两个步骤中同时保证重要的强时效性内容页优先被抓取并列于种子页中,从而进一步提高索引质量,保证用户检索效果。
另外,本申请实施例还提供了一种计算机存储介质,例如可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等;该计算机存储介质中存储有程序,当所述存储介质中的程序由搜索引擎的处理器执行时,使得该搜索引擎能够执行上述方法实施例中记载的任一种网络爬虫调度方法的部分或全部步骤。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种网络爬虫调度方法,其特征在于,包括:
抓取种子页相关的内容页数据;
解析所述内容页数据,得到所述种子页相关的多组链接信息;每组链接信息对应所述种子页中的一个内容页链接,包括以下至少一项子信息:所述内容页链接在所述种子页中的链接位置和页面分块类型,以及所述种子页上用于描述所述内容页链接的锚文本和结构化信息;
根据所述链接信息中各项子信息的质量评分之间的预设拟合函数,计算每组链接信息对应的内容页在相应种子页上的链接质量;所述预设拟合函数包括加权求和函数,或,基于所述各项子信息之间关联性的拟合函数;
按照所述链接质量由高到低的顺序对每个所述链接质量对应的内容页执行抓取操作。
2.根据权利要求1所述的方法,其特征在于,按照所述链接质量由高到低的顺序对每个所述链接质量对应的内容页执行抓取操作,包括:
根据所述链接质量所在的数值范围确定对应的抓取优先权;
按照所述抓取优先权由高到低的顺序对相应的内容页执行抓取操作。
3.一种网络爬虫调度方法,其特征在于,包括:
根据预设刷新间隔抓取种子页相关的内容页数据;
解析所述内容页数据,得到所述种子页相关的多组链接信息;
根据所述链接信息计算对应的内容页在所述种子页上的链接质量;
根据预设周期内同一内容页在与其链接的不同种子页上的链接质量计算各个内容页在不同种子页上的产出率;每个内容页在不同种子页上的产出率,表征所述内容页出现在不同种子页中的频率;
根据同一种子页中各个内容页的产出率,计算所述预设周期内所述同一种子页的产出率;
根据各个种子页的产出率确定并更新相应种子页的预设刷新间隔。
4.根据权利要求3所述的方法,其特征在于,根据预设周期内同一内容页在与其链接的不同种子页上的链接质量计算各个内容页在不同种子页上的产出率,包括:
保存所述种子页中各个内容页的链接质量及相应的内容页数据的抓取时间;
读取所述抓取时间在预设周期内的所有链接质量,并根据其对应的内容页进行分类;
根据分类得到的同一内容页在不同种子页上的链接质量,以及所述同一内容页的自身质量,计算所述同一内容页在不同种子页上的产出率。
5.一种网络爬虫系统,其特征在于,包括:
种子页抓取单元,用于抓取种子页相关的内容页数据;
数据解析单元,用于解析所述内容页数据,得到所述种子页相关的多组链接信息;每组链接信息对应所述种子页中的一个内容页链接,包括以下至少一项子信息:所述内容页链接在所述种子页中的链接位置和页面分块类型,以及所述种子页上用于描述所述内容页链接的锚文本和结构化信息;
链接质量计算单元,用于根据所述链接信息中各项子信息的质量评分之间的预设拟合函数,计算每组链接信息对应的内容页在相应种子页上的链接质量;所述预设拟合函数包括加权求和函数,或,基于所述各项子信息之间关联性的拟合函数;
内容页抓取调度单元,用于按照所述链接质量由高到低的顺序对每个所述链接质量对应的内容页执行抓取操作。
6.根据权利要求5所述的系统,其特征在于,所述内容页抓取调度单元包括:
优先权确定单元,用于根据所述链接质量所在的数值范围确定对应的抓取优先权;
内容页抓取单元,用于按照所述抓取优先权由高到低的顺序对相应的内容页执行抓取操作。
7.一种网络爬虫系统,其特征在于,包括:
种子页抓取单元,用于根据预设刷新间隔抓取种子页相关的内容页数据;
数据解析单元,用于解析所述内容页数据,得到所述种子页相关的多组链接信息;
链接质量计算单元,用于根据所述链接信息计算对应的内容页在所述种子页上的链接质量;
内容页产出率计算单元,用于根据预设周期内同一内容页在与其链接的不同种子页上的链接质量计算各个内容页在不同种子页上的产出率;每个内容页在不同种子页上的产出率,表征所述内容页出现在不同种子页中的频率;
种子页产出率计算单元,用于根据同一种子页中各个内容页的产出率,计算所述预设周期内所述同一种子页的产出率;
种子页刷新间隔确定单元,用于根据各个种子页的产出率确定并更新相应种子页的预设刷新间隔。
8.根据权利要求7所述的系统,其特征在于,所述内容页产出率计算单元,包括:
数据存储单元,用于保存所述种子页中各个内容页的链接质量及相应的内容页数据的抓取时间;
链接质量分类单元,用于读取所述抓取时间在预设周期内的所有链接质量,并根据其对应的内容页进行分类;
计算执行单元,用于根据分类得到的同一内容页在不同种子页上的链接质量,以及所述同一内容页的自身质量,计算所述同一内容页在不同种子页上的产出率。
CN201510657341.0A 2015-10-09 2015-10-13 网络爬虫调度方法及应用其的网络爬虫系统 Active CN105117501B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510657341.0A CN105117501B (zh) 2015-10-09 2015-10-13 网络爬虫调度方法及应用其的网络爬虫系统
PCT/CN2016/101472 WO2017059800A1 (zh) 2015-10-09 2016-10-08 网络爬虫调度方法及应用其的网络爬虫系统

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510649129X 2015-10-09
CN201510649129 2015-10-09
CN201510657341.0A CN105117501B (zh) 2015-10-09 2015-10-13 网络爬虫调度方法及应用其的网络爬虫系统

Publications (2)

Publication Number Publication Date
CN105117501A CN105117501A (zh) 2015-12-02
CN105117501B true CN105117501B (zh) 2017-07-11

Family

ID=54665489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510657341.0A Active CN105117501B (zh) 2015-10-09 2015-10-13 网络爬虫调度方法及应用其的网络爬虫系统

Country Status (2)

Country Link
CN (1) CN105117501B (zh)
WO (1) WO2017059800A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117501B (zh) * 2015-10-09 2017-07-11 广州神马移动信息科技有限公司 网络爬虫调度方法及应用其的网络爬虫系统
CN106326447B (zh) * 2016-08-26 2019-06-21 北京量科邦信息技术有限公司 一种众包网络爬虫抓取数据的检测方法及系统
CN108804444B (zh) * 2017-04-28 2022-03-04 北京京东尚科信息技术有限公司 信息抓取方法和装置
CN108763537B (zh) * 2018-05-31 2021-05-18 河南科技大学 一种基于时间感知的增量机器爬虫方法
CN108920617B (zh) * 2018-06-28 2022-07-12 中译语通科技股份有限公司 一种数据采集的判定系统及方法、信息数据处理终端
CN109388736A (zh) * 2018-09-21 2019-02-26 真相网络科技(北京)有限公司 爬虫系统中的响应调度方法
CN109670097B (zh) * 2018-12-05 2022-10-28 贵阳高新数通信息有限公司 招投标相关网页爬取任务调度方法及系统
CN109597927B (zh) * 2018-12-05 2022-11-18 贵阳高新数通信息有限公司 招投标相关网页页面信息提取方法及系统
CN111813905B (zh) * 2020-06-17 2024-05-10 平安科技(深圳)有限公司 语料生成方法、装置、计算机设备及存储介质
CN113656671B (zh) * 2021-06-16 2024-05-24 北京百度网讯科技有限公司 模型训练方法、链接评分方法、装置、设备、介质和产品
CN117725284B (zh) * 2023-12-22 2024-05-14 武汉威克睿特科技有限公司 一种基于爬虫的社交网络数据采集系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452463A (zh) * 2007-12-05 2009-06-10 浙江大学 定向抓取页面资源的方法和装置
CN103092999A (zh) * 2013-02-22 2013-05-08 人民搜索网络股份公司 一种网页抓取周期调整方法和装置
CN103116638A (zh) * 2013-02-19 2013-05-22 人民搜索网络股份公司 网页筛选方法及装置
CN103984749A (zh) * 2014-05-27 2014-08-13 电子科技大学 一种基于链接分析的聚焦爬虫方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100205168A1 (en) * 2009-02-10 2010-08-12 Microsoft Corporation Thread-Based Incremental Web Forum Crawling
CN105117501B (zh) * 2015-10-09 2017-07-11 广州神马移动信息科技有限公司 网络爬虫调度方法及应用其的网络爬虫系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452463A (zh) * 2007-12-05 2009-06-10 浙江大学 定向抓取页面资源的方法和装置
CN103116638A (zh) * 2013-02-19 2013-05-22 人民搜索网络股份公司 网页筛选方法及装置
CN103092999A (zh) * 2013-02-22 2013-05-08 人民搜索网络股份公司 一种网页抓取周期调整方法和装置
CN103984749A (zh) * 2014-05-27 2014-08-13 电子科技大学 一种基于链接分析的聚焦爬虫方法

Also Published As

Publication number Publication date
CN105117501A (zh) 2015-12-02
WO2017059800A1 (zh) 2017-04-13

Similar Documents

Publication Publication Date Title
CN105117501B (zh) 网络爬虫调度方法及应用其的网络爬虫系统
US7882099B2 (en) System and method for focused re-crawling of web sites
CN104182389B (zh) 一种基于语义的大数据分析商业智能服务系统
CN111708740A (zh) 基于云平台的海量搜索查询日志计算分析系统
CN103177090B (zh) 一种基于大数据的话题检测方法及装置
CN102426610B (zh) 微博搜索排名方法及微博搜索引擎
CN103500213B (zh) 基于预读取的页面热点资源更新方法和装置
CN107273409A (zh) 一种网络数据采集、存储及处理方法及系统
CN105138558B (zh) 基于用户访问内容的实时个性化信息采集方法
CN102156737B (zh) 一种中文网页主题内容的提取方法
CN103309960B (zh) 一种网络舆情事件多维信息提取的方法及装置
CN107305501B (zh) 一种多流流式数据的处理方法和系统
TW201214167A (en) Matching text sets
CN102831193A (zh) 基于分布式多级聚类的话题检测装置及方法
CN101464897A (zh) 一种词匹配及信息查询方法及装置
JP2007233438A (ja) トレンド解析サーバおよびトレンド解析方法
CN102855309A (zh) 一种基于用户行为关联分析的信息推荐方法及装置
CN107145556B (zh) 通用的分布式采集系统
CN103324669A (zh) 一种对网页书签进行处理的方法和客户端
CN102194015A (zh) 检索信息热度统计方法
CN102768664A (zh) 分布式网页广告拦截的方法及系统
CN104182482B (zh) 一种新闻列表页判断方法及筛选新闻列表页的方法
CN102096705A (zh) 一种文章采集的方法
CN101930475A (zh) 网页显示方法及浏览器
CN102890725A (zh) 搜索引擎的结果排序方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200420

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 12 layer self unit 01

Patentee before: GUANGZHOU SHENMA MOBILE INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right