CN103092999B - 一种网页抓取周期调整方法和装置 - Google Patents

一种网页抓取周期调整方法和装置 Download PDF

Info

Publication number
CN103092999B
CN103092999B CN201310056627.4A CN201310056627A CN103092999B CN 103092999 B CN103092999 B CN 103092999B CN 201310056627 A CN201310056627 A CN 201310056627A CN 103092999 B CN103092999 B CN 103092999B
Authority
CN
China
Prior art keywords
link
web
page address
web page
target web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310056627.4A
Other languages
English (en)
Other versions
CN103092999A (zh
Inventor
崔世起
杨青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
People's data management (Beijing) Co.,Ltd.
Original Assignee
PEOPLE SEARCH NETWORK AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PEOPLE SEARCH NETWORK AG filed Critical PEOPLE SEARCH NETWORK AG
Priority to CN201310056627.4A priority Critical patent/CN103092999B/zh
Publication of CN103092999A publication Critical patent/CN103092999A/zh
Application granted granted Critical
Publication of CN103092999B publication Critical patent/CN103092999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种网页抓取周期调整方法和装置,该方法获取网络爬虫当前抓取的目标网页中所包含的链接集合以及该链接集合中的链接所指向的信息页;确定该链接集合中属于所述目标网页中新产生的链接,并将所述新产生的链接中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接;依据指定时间内在不同抓取时刻抓取到的所述目标网页中存在的待分析链接,调整对目标网页的抓取周期。该方法可以提高确定出的网页抓取周期的精度,减少资源浪费。

Description

一种网页抓取周期调整方法和装置
技术领域
本申请涉及网络信息处理技术领域,特别涉及一种网页抓取周期调整方法和装置。
背景技术
网络爬虫是一个自动提取网页的程序,是搜索引擎的重要组成部分。通过网络爬虫对网页的网页信息进行抓取,并对抓取的网页信息进行分析,判断该网页中是否产生新的链接以确定该网页中是否产生新的内容页(即链接所指向的实际页面内容),从而可以监测到网页的变化。
一般情况下,网络爬虫是按照目标网页的抓取周期,以固定的时间间隔来抓取该目标网页的网页信息,但是如果网络爬虫对该目标网页的抓取频率过低,则很可能会错过该目标网页中新产生的内容页,无法获取到相应的有用信息;如果抓取频率过高,则可能会导致资源的浪费。因此,需要根据网页的更新频率来调整网络爬虫对该网页的抓取周期,以减少错过有用信息,并避免资源浪费。在调整某网页的抓取周期时,一般是根据指定时间内该网络爬虫连续若干次抓取到的网页信息,确定在该指定时间内该网页中新增的链接数量或比例等,进而根据新增的链接数量或比例来调整抓取该目标网页的周期。
然而对于某一个目标网页而言,某些情况下虽然该目标网页中产生了新的链接,但如果该新的链接所指向的内容页是与该目标网页没有任何关联关系的页面,那么网络爬虫从该新的链接所指向的内容页中并不能获取到与该目标网页相关的有用信息。也就是说,当目标网页中的新产生的链接仅仅是指向与该目标网页展现的内容信息毫无关联的内容页时,此时网络爬虫抓取该目标网页时,并不会获取到新的有用信息。因此,在这种情况下,即使目标网页中新产生了链接,并不能从实际上反映出该目标网页发生了更新。这样,如果仅以目标网页中新增的链接的数量和比例来调整抓取该目标网页的周期,则可能确定出与该目标网页的实际更新频率不符的抓取周期,导致抓取频率过高,造成资源浪费。
发明内容
本申请提供一种网页抓取周期调整方法和装置,以提高确定出的网页抓取周期的精度,减少资源浪费。
本申请还提供了一种网页抓取周期调整装置,用以保证上述方法在实际中的实现及应用。
为了解决上述问题,本申请公开了一种网页抓取周期调整方法,包括:
获取网络爬虫当前抓取的目标网页中所包含的链接集合以及所述链接集合中的链接所指向的信息页;
确定所述链接集合中属于所述目标网页中新产生的链接;
判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同;
将所述新产生的链接中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接;
依据指定时间内在不同抓取时刻抓取到的所述目标网页中存在的待分析链接,调整对所述目标网页的抓取周期。
优选的,所述目标网页为Hub网页。
优选的,所述判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同之前,还包括:
依据预置的广告链接库,确定出所述链接集合中属于广告链接的链接;
所述将所述新产生的链接中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接,包括:
从所述新产生的链接中提取出不属于广告链接的链接组成的第一子链接集合;
所述判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同,包括:
判断是否所述第一子链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同;
所述将所述新产生的链接中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接,包括:
将所述第一子链接集合中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接。
优选的,所述判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,包括:
判断所述链接集合中的链接的域名与所述第一网页地址的域名是否相同。
优选的,所述判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同,包括:
判断是否所述新产生的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同。
另一方面,本申请还提供了一种网页抓取周期调整装置,包括:
信息获取单元,用于获取网络爬虫当前抓取的目标网页中所包含的链接集合以及所述链接集合中的链接所指向的信息页;
新链接确定单元,用于确定所述链接集合中属于所述目标网页中新产生的链接;
判断单元,用于判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同;
待分析链接确定单元,用于将所述新产生的链接中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接;
周期调整单元,用于依据指定时间内在不同抓取时刻抓取到的所述目标网页中存在的待分析链接,调整对所述目标网页的抓取周期。
优选的,所述目标网页为Hub网页。
优选的,还包括:
广告链接确定单元,用于依据预置的广告链接库,确定出所述链接集合中属于广告链接的链接;
第一集合确定单元,用于从所述新产生的链接中提取出不属于广告链接的链接组成的第一子链接集合;
所述判断单元,具体为:用于判断是否所述第一子链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同;
所述待分析链接确定单元,具体包括:
链接确定子单元,用于将所述第一子链接集合中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接。
优选的,所述判断单元,包括:
域名判断单元,用于判断所述链接集合中的链接的域名与所述第一网页地址的域名是否相同。
优选的,所述判断单元具体为:用于判断是否所述新产生的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同。
与现有技术相比,本申请包括以下优点:
在本申请该网页抓取周期调整方法中,当确定出获取到网络爬虫抓取的该目标网页中所包含的链接集合中新产生的链接后,仅将从该新产生的链接中所属网站与该目标网页所属的网站相同且所指向的信息页的面包屑导航链接中所包含的网页地址与该目标网页的网页地址相同的链接作为待分析链接,从而使得待分析链接能够反应目标网页的实际变化情况,进而使得依据不同次抓取操作所确定出的待分析链接,确定出的对该目标网页的抓取周期与该目标网页的实际更新频率相适应,既避免了错过有用信息又减少了由于抓取过于频率则造成资源浪费。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请的一种网页抓取周期调整方法一个实施例的流程示意图;
图2示出了本申请的一种网页抓取周期调整方法另一个实施例的流程示意图;
图3示出了本申请一种网页抓取周期调整装置一个实施例的结构示意图;
图4示出了本申请一种网页抓取周期调整装置另一个实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
参考图1,其示出了本申请一种网页抓取周期调整方法一个实施例的流程示意图,本实施例的方法可以包括以下步骤:
步骤101:获取网络爬虫当前抓取的目标网页中所包含的链接集合以及该链接集合中的链接所指向的信息页。
其中,链接也称超级链接,是指从一个网页指向一个目标的连接关系,所指向的目标可以是另一个网页,也可以是相同网页上的不同位置,还可以是图片、电子邮件地址、文件、甚至是应用程序。
网络爬虫可以按照预先设定的抓取周期来周期性的抓取网页的网页信息,且网络爬虫可以根据抓取到的网页信息提取出该网页中所包含的所有链接。如,网络爬虫可以依据网页的统一资源定位符(URL,UniformResourceLocator)来进行网页抓取,并获取到该网页的源码,进而对源码进行分析处理,建立DOM树,然后遍历该DOM提取出所有的链接。在具体实现时,构建出DOM树后,可以提取出所有<A>标签里的链接。
当然,此处仅仅是为了便于理解网络爬虫如何获取该网页中所包含的链接集合而以一种实现方式为例进行描述,但是在实际应用中网络爬虫通过其他方式来获取网页中的链接集合也同样适用于本实施例。
与现有技术不同的是,在本申请实施例中,除了需要获取网络爬虫抓取的该目标网页所包含的链接集合外,还需要通过网络爬虫下载该目标网页中所包含的各个链接对应的信息页。其中,该信息页也可以称为内容页是指该链接所指向的资源页面,也就是通过该链接实际可以访问的页面内容。网络爬虫获取链接所指向的信息页的方式可以采用现有的任意方式,在此不加以限定。
在本申请实施例中,该网络爬虫所抓取的目标网页可以是任意的网站网页。可选的,考虑到实际应用中,对网页更新的监测一般是针对Hub网页,本申请实施例中该目标网页可以是目标Hub网页。Hub网页是指网站中用于产生和指向实际内容页的网页,Hub页的主要功能是按照一定的分类体系对内容页进行组织,并提供链接供访问者进行浏览、点击等。
步骤102:确定该链接集合中属于该目标网页中新产生的链接。
为了能够分析出与网页的更新频率相匹配的抓取周期,获取到该目标网页中所包含的链接集合后,还可以确定出该本次抓取到的链接集合中,属于该目标网页中新产生的链接。一般是预先存储当前时刻之前预设时间段内抓取到的该目标网页所包含的链接集合,将本次确定出的该目标网页所包含链接集合与该预设时间段内抓取到的该目标网页所包含的链接集合进行对比,进而确定出本次抓取的目标网页所包含的链接中新增加的链接。例如,将本次确定出的链接集合与存储的当前时刻之前最近一次抓取出的该目标网页所包含的链接集合进行对比,进而判断出本次抓取相对于最近一次抓取所新产生的链接。
具体的,可以将网络爬虫每次对目标网页的抓取结果存储在指定的数据库中,该抓取结果中至少包括:每次抓取该目标网页时,该目标网页中所包含的链接以及该链接所指向的内容页。在该数据库中还可以存储该网络爬虫每次抓取该目标网页的时间,以区分不同时刻抓取到的目标网页中所包含的链接以及相应的内容页。当然,在该数据库中还可以存储该网络爬虫抓取到该目标网页的其他关联信息。
为了减少数据存储量,还可以设定该数据库对数据的保存时长,当某信息在数据库中保存时间超出该保持时长时,则可以删除超过保存时长的信息。其中,该保存时长可以根据当前设定的对该目标网页的抓取周期来确定,也可以根据实际需要来进行设定。
步骤103:判断是否该链接集合中的链接所属的网站与该目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与该目标网页的第一网页地址相同。
由于在实际应用中,如果目标网页中的链接与该目标网页的网站或者与该目标网页所属的类别无关,那么网络爬虫抓取在目标网页进行抓取时,并不会从该链接中获取到有用信息。如果网页中更新仅仅是该种链接,并不能表明该目标网页中存在实际意义上的更新,那么网络爬虫不断的进行抓取,则会造成资源浪费。因此,在本申请实施例中对于该链接集合中的任意一个链接,均需要判断该链接所属的网站与该目标网页所属的网站是否相同,并判断该链接所指向的信息页中的面包屑导航中所包含的网页地址是否与该目标网页的网页地址相同。
其中,判断该链接集合中的链接所属的网站是否与该目标网页所属的第一网站相同可以通过链接中的域名与该目标网页的第一网页地址的域名是否相同。如果链接集合中的链接的域名与第一网页地址中的域名相同,则说明该链接所属的网站为该目标网页所属的网站。
其中,信息页的面包屑导航是用于表达内容归属关系的界面元素,面包屑导航一般是“主分类地址>一级分类>二级分类>三级分类>……>最终内容页面”的形式,可见该面包屑导航中的各级内容页面之间实际上为属于同一网站上具有关联关系的各级内容页面,各级内容页面的网页地址与该主分类对应的网页地址相同。这样,如果该链接集合中的链接所指向的信息页为该目标网页的某一级分类的内容页面,那么该信息页的面包屑导航中的网页地址与该目标网页的网页地址相同。
为了描述方便,本申请实施例中将该目标网站的网页地址称为第一网页地址,将该目标网页所属的网站称为第一网站。
可以理解的是,判断该链接集合中的链接所属的网站与该目标网页所属的第一网站是否相同,以及判断链接集合中链接所指向的信息页的面包屑导航中的网页地址与该目标网页的第一网页地址是否相同,这两个判断动作的先后顺序并不加以限制,可以同时进行,也可以先完成一个判断之后再进行另一个判断。
可选的,为了减少数据处理量,可以先判断判断该链接集合中的链接所属的网站与该目标网页所属的第一网站是否相同,再判断链接集合中所属的网站与第一网站相同的链接所指向的信息页的面包屑导航中的网页地址与该目标网页的第一网页地址是否相同。这样,只对所属网站与第一网站的相同的链接所指向的信息页中的面包屑导航进行分析,可以大大减少分析的信息页的数量,从而减少了数据处理量。
步骤104:将该新产生的链接中,所属网站与该第一网站相同且所指向的信息页的面包屑导航中所包含的网页地址与所述第一网页地址相同的链接作为待分析链接。
与现有的调整网页抓取周期不同的是,本申请实施例中并不是将抓取到的目标网页中所有的新增链接均作为待分析的链接,而是从新产生的链接中去除了不属于该目标网页所属的网站以及指向的信息页与该目标网页没有关联的链接,从而使得确定出的待分析链接能够更加准确的反映出该目标网页的实际变化情况。
步骤105:依据指定时间内在不同抓取时刻抓取到的该目标网页中存在的待分析链接,调整对所述目标网页的抓取周期。
对于每次获取到的该目标网页所包含的链接集合,均采用如上步骤确定出链接集合中新产生的链接中的待分析链接,在确定目标网页的抓取周期时,则依据针对不同次抓取所得到的待分析链接,来分析该目标网页中具有实际意义的链接的变化情况,从而确定出该目标网页的实际变化情况,进而确定与该目标网页的更新频率相适应的抓取周期。
其中,该指定时间可以根据实际情况进行设定,也可以依据当前该目标网页的抓取周期来确定一个适合的指定时长。如,可以每天进行一次该目标网页的抓取周期的调整;也可以是根据目标网页当前的抓取周期确定出一个调整抓取周期的时间长度作为该指定长度。
在本实施例中,当确定出获取到网络爬虫抓取的该目标网页中所包含的链接集合中新产生的链接后,仅将从该新产生的链接中所属网站与该目标网页所属的网站相同且所指向的信息页的面包屑导航链接中所包含的网页地址与该目标网页的网页地址相同的链接作为待分析链接,从而使得待分析链接能够反应目标网页的实际变化情况,进而依据不同次抓取操作所确定出的待分析链接,确定出对该目标网页的抓取周期与该目标网页的实际更新频率相适应,即避免了错过有用信息又减少了由于抓取过于频率则造成资源浪费。
需要说明的是,在本申请图1所示实施例中该步骤102和步骤103的顺序并不限定为图1所示,在实际应用中,该步骤102和步骤103的操作顺序可以互换,该步骤102和步骤103也可以同时进行。
为了能够减少数据处理量,可以选择确定出该链接集合中属于该目标网页新产生的链接之后,在进行步骤103的判断操作,且在步骤103中可以仅判断是否新产生的链接所属的网站与该目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与该目标网页的第一网页地址相同,从而可以无需对不属于新产生的链接再进行判断处理,进而减少了数据处理量。
在实际应用中,即使目标网页中新产生的链接是与该目标网页属于相同网站相同类型且具有关联关系的链接,但如果该新产生的链接为广告链接,那么该目标网页实际上也不存在任何具有抓取价值的新增内容出现。为了避免由于广告链接影响到对该目标网页中更新情况的判断,参见图2,示出了本发明一种网页抓取周期调整方法另一个实施例的流程示意图,本实施例的方法可以包括:
步骤201:获取网络爬虫当前抓取的目标网页中所包含的链接集合以及该链接集合中的链接所指向的信息页。
步骤202:确定该链接集合中属于该目标网页中新产生的链接。
其中,该步骤201和步骤202的操作过程分别与图1所示实施例中的步骤101和步骤102的操作过程类似,具体可以参见图1所示实施例的相关描述,在此不再赘述。
步骤203:依据预置的广告链接库,确定出该链接集合中属于广告链接的链接。
为了识别出链接中的广告链接,可以参照预先设置的广告链接库,从而将该链接集合中的各个链接与广告链接库中的各个链接进行比对。如果链接集合中的某个链接属于广告链接库中的链接,那么该链接便属于广告链接。
步骤204:从该新产生的链接中提取出不属于广告链接的链接组成第一子链接集合。
本实施例中在确定出的新产生的链接中提取出不属于广告链接的链接组成一个第一子链接集合,以便后续对第一子链接集合中的链接进行过滤,以得到最终的待分析链接集合。
步骤205:判断是否该第一子链接集合中的链接所属的网站与该目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与该目标网页的第一网页地址相同。
在本实施例中该步骤203的操作过程分别与图1所示实施例中的步骤103的操作过程类似,不同之处仅在于在本实施例中,可以仅仅对该链接集合中不属于广告链接的链接所组成的第一链接集合中的链接进行判断,从而减少了对链接的分析数量以及对信息页的处理量,进而减少了数据处理量。
步骤206:将该第一子链接集合中,所属网站与该第一网站相同且所指向的信息页的面包屑导航中的网页地址与该第一网页地址相同的链接作为待分析链接。
在本实施例中该待分析链接集合中的待分析链接除了是所属的网站与该目标网站所属的网站相同、所指向信息页包含的面包屑导航中的网页地址与该目标网站的第一网页地址相同之外,该待分析链接还不能是广告链接。
步骤207:依据指定时间内在不同抓取时刻抓取到的该目标网页中存在的待分析链接,调整对该目标网页的抓取周期。
在本实施例中在待分析链接不包含属于广告链接的链接,从而使得待分析链接更能够反映出该目标网页的实际变化情况,进而使得后续依据该待分析链接确定出的抓取周期能够与该目标网页的实际更新周期更加匹配,进而使得确定出的抓取周期更加精准。
另外,目标网页中经常会在广告栏中动态的加入广告,如在侧边栏上动态的切换广告等,这样即使目标网页没有任何更新时,由于广告栏中的广告动态的切换,相应的广告链接地址也会相应的发生改变,从而使得前后两次抓取到该目标网页时,该网页中的所包含的链接会所有不同。因此,如果不去除掉广告链接,也会错误的判断出该目标网页会存在新增的广告链接,而导致错误的判断出该目标网页存在更新。本申请中在待分析链接中去除了广告链接,可以减少误判情况出现,提高了抓取周期的确定精度。
相应的,由于在目标网页中的侧边栏等区域内也经常会动态的添加一些推荐链接或友情链接,这样,即使该目标网页中不存在任何内容的更新,但由于该侧边栏等区域内的内容动态更新,使得前后两次抓取到的该目标网页中所包含的链接不同,也会导致错误的判断出该目标网页中存在新增的链接。考虑到实际应用中,一般在该侧边栏等区域内添加的推荐内容或友情链接所指向的信息页中面包屑导航内的网页地址一般都不同于该目标网页的第一网页地址,即该在该侧边栏内的友情链接或推荐链接一般都不是该目标网页的下一级分类页面,因此,在待分析链接中过滤到所指向的信息页中面包屑导航内的网页地址与该第一网页地址不同的链接,同样可以减少由于侧边栏内的动态切换内容而导致错误判断出该目标网页中存在新增链接的情况。
需要说明的是,在本实施例中该步骤202和203的操作顺序并不限定于图2所示,这两个步骤的先后顺序可以互换,也可以同时进行。为了减少数据处理量,在本实施例中,可以在确定出该链接集合中新产生的链接后,确定新产生的链接中不属于广告链接的链接;或者是在将链接集合中去除了属于广告链接的链接后,从不包含广告链接的链接集合中确定新产生的链接。
可以理解的是,本申请以上任意一个网页抓取周期调整方法的实施例中,在获取到目标网页所包含的链接集合以及该链接集合中的链接指向的信息页后,便可以确定出本次抓取的该链接集合中的待分析链接,并在后续需要确定抓取周期时,根据已经确定出的各次抓取结果中的待分析链接来确定抓取周期。也可以是获取到该目标网页中所包含的链接集合以及该信息页后,并不进行确定待分析链接的操作,而是将本次获取到的链接集合以及相应的信息页进行存储,在需要确定抓取周期时,再分别对于每次抓取到的该目标网页的链接集合,来确定本次链接集合中的待分析链接,并依据各次抓取所确定的待分析链接来确定抓取周期。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
与上述本申请一种网页抓取周期调整方法相对应,本申请还提供了一种网页抓取周期调整装置,参见图3,示出了本发明一种网页抓取周期调整装置一个实施例的结构示意图,在本实施例中该装置可以包括:信息获取单元301、新链接确定单元302、判断单元303、待分析确定单元304和周期调整单元305。
该信息获取单元301,用于获取网络爬虫当前抓取的目标网页中所包含的链接集合以及所述链接集合中的链接所指向的信息页。
其中,该信息获取单元获取到目标网页中所包含的链接集合可以是任意网页中所包含的链接集合。可选的,该目标网页可以为Hub网页,相应的,信息获取单元具体为获取网络爬虫当前抓取的目标Hub网页中所包含的链接集合。
新链接确定单元302,用于确定该信息获取单元获取到的链接集合中属于该目标网页中新产生的链接。
该新链接确定单元确定该链接集合中的链接是否为该目标网页新产生的链接可以通过将该链接集合中的链接与网络爬虫之前所抓取的该目标网页中所包含的链接集合中的链接进行对比,来确定出该信息获取单元获取到的链接集合中为该目标网页中新产生的链接。
可选的,该新链接确定单元可以将本次获取到的链接集合与数据库中存储的历史抓取记录中所记录的该目标网页中所包含的链接集合进行对比,进而确定出本次获取到的该链接集合中属于新产生的各个链接。
判断单元303,用于判断是否该链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同。
待分析链接确定单元304,用于将所述新产生的链接中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接。
通过判断单元对信息获取单元所获取到的链接集合中的各个链接进行判断,可以确定出各个链接所属的网站是否与该目标网页的第一网站相同,以及各个链接所指向的信息页中所包含的面包屑导航中的网页地址是否与该目标网页的第一网页地址相同,从而使得该待分析确定单元可以从获取到的链接集合中过滤出符合相应条件的链接作为待分析链接,得到待分析链接集合。
周期调整单元305,用于依据指定时间内在不同抓取时刻抓取到的所述目标网页中存在的待分析链接,调整对所述目标网页的抓取周期。
该周期调整单元利用该待分析链接确定单元对于不同次抓取的链接集合所确定出的待分析链接作为分析对象,进而分析出该目标网页的实际更新情况,进而确定与该目标网页实际更新情况相适应的抓取周期。
在本实施例中,当确定出获取到网络爬虫抓取的该目标网页中所包含的链接集合中新产生的链接后,仅将从该新产生的链接中所属网站与该目标网页所属的网站相同且所指向的信息页的面包屑导航链接中所包含的网页地址与该目标网页的网页地址相同的链接作为待分析链接,从而使得待分析链接能够反应目标网页的实际变化情况,进而依据不同次抓取操作所确定出的待分析链接,确定出对该目标网页的抓取周期与该目标网页的实际更新频率相适应,即避免了错过有用信息又减少了由于抓取过于频率则造成资源浪费。
其中,该判断单元判断该链接集合中的链接所属的网站是否与该目标网页的第一网站相同时,可以根据预先存储的属于该第一网站的链接,来确定该链接集合中的链接是否属于该第一网站。可选的,该判断单元,可以包括:域名判断单元,用于判断所述链接集合中的链接的域名与所述第一网页地址的域名是否相同。
该域名判断单元可以判断链接中所包含的域名是否与该目标网站的第一网页地址中的域名是否相同,如果链接中所包含的域名与该第一网页地址中的域名相同,则说明该链接所属的网站与该目标网页所属的网站相同。
为了减少数据处理量,该判断单元判断具体为,用于判断是否新产生的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同。该判断单元可以直接对该新链接确定单元确定出的新产生的链接进行判断,从而无需对链接集合中的所有链接均进行判断,进而减少了判断链接的数量,减少了数据处理量。
当然,判断该新产生的链接所属的网站是否与该第一网站相同也可以是通过判断该新产生的链接中的域名是否与该目标网页的第一网页地址中的域名是否相同。
由于目标网页中广告栏内频繁更新广告,会导致每次抓取到的该目标网页中的链接会所有变化,从而会导致系统错误的判断出该目标网页中出现新增的广告链接,为了解决该问题,参见图4,示出了本申请一种网页抓取周期调整装置另一个实施例的结构示意图,本实施例的抓取周期调整装置与图3所示实施例的不同之处在于:
本实施例中还包括:
广告链接确定单元306,用于依据预置的广告链接库,确定出所述链接集合中属于广告链接的链接。
第一集合确定单元307,用于从所述新产生的链接中提取出不属于广告链接的链接组成第一子链接集合;
相应的,该判断单元303,具体为:用于判断是否该第一子链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同
该待分析链接确定单元304,具体包括:
链接确定子单元3041,用于将所述第一子链接集合中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接。
本实施例中在待分析链接中过滤除了属于广告链接的链接,从而避免了由于目标网页的广告栏中不断切换广告,而导致在该目标网页中未出现新的链接的情况下,错误的判断出该目标网页中有新增的链接。同时,由于广告更新并不能反映出该目标网页的实际更新情况,在待分析链接中过滤了广告链接也可使得分析出的目标网页更新情况更加符合实际。
为了减少数据处理量,该广告链接确定单元306也可以依据预置的广告链接库,也可以仅仅判断该新链接确定单元确定出的新链接中属于广告链接的链接,从而进一步减少数据处理量。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
以上对本申请所提供的一种网页抓取周期调整方法和装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (6)

1.一种网页抓取周期调整方法,其特征在于,包括:
获取网络爬虫当前抓取的目标网页中所包含的链接集合以及所述链接集合中的链接所指向的信息页;
确定所述链接集合中属于所述目标网页中新产生的链接;
判断是否所述新产生的链接的域名与所述目标网页的第一网页地址的域名相同,且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同;
将所述新产生的链接中,所属域名与所述第一网页地址的域名相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接;
依据指定时间内在不同抓取时刻抓取到的所述目标网页中存在的待分析链接,调整对所述目标网页的抓取周期。
2.根据权利要求1所述的方法,其特征在于,所述目标网页为Hub网页。
3.根据权利要求1所述的方法,其特征在于,所述判断是否所述新产生的链接的域名与所述目标网页的第一网页地址的域名相同,且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同之前,还包括:
依据预置的广告链接库,确定所述新产生的链接不属于广告链接的链接;
从所述新产生的链接中提取出不属于广告链接的链接组成第一子链接集合;
所述判断是否所述新产生的链接的域名与所述目标网页的第一网页地址的域名相同,且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同,包括:
判断是否所述第一子链接集合中的链接的域名与所述目标网页的第一网页地址的域名相同,且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同;
所述将所述新产生的链接中,所属域名与所述第一网页地址的域名相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接,包括:
将所述第一子链接集合中,所属域名与所述第一网页地址的域名相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接。
4.一种网页抓取周期调整装置,其特征在于,包括:
信息获取单元,用于获取网络爬虫当前抓取的目标网页中所包含的链接集合以及所述链接集合中的链接所指向的信息页;
新链接确定单元,用于确定所述链接集合中属于所述目标网页中新产生的链接;
判断单元,用于判断是否所述新产生的链接的域名与所述目标网页的第一网页地址的域名相同,且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同;
待分析链接确定单元,用于将所述新产生的链接中,域名与所述第一网页地址的域名相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接;
周期调整单元,用于依据指定时间内在不同抓取时刻抓取到的所述目标网页中存在的待分析链接,调整对所述目标网页的抓取周期。
5.根据权利要求4所述的装置,其特征在于,所述目标网页为Hub网页。
6.根据权利要求4所述的装置,其特征在于,还包括:
广告链接确定单元,用于依据预置的广告链接库,确定出所述新产生的链接中不属于广告链接的链接;
第一集合确定单元,用于从所述新产生的链接中提取出不属于广告链接的链接组成第一子链接集合;
所述判断单元,具体为:用于判断是否所述第一子链接集合中的链接的域名与所述目标网页的第一网页地址的域名相同,且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同;
所述待分析链接确定单元,具体包括:
链接确定子单元,用于将所述第一子链接集合中,所属域名与所述第一网页地址的域名相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接。
CN201310056627.4A 2013-02-22 2013-02-22 一种网页抓取周期调整方法和装置 Active CN103092999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310056627.4A CN103092999B (zh) 2013-02-22 2013-02-22 一种网页抓取周期调整方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310056627.4A CN103092999B (zh) 2013-02-22 2013-02-22 一种网页抓取周期调整方法和装置

Publications (2)

Publication Number Publication Date
CN103092999A CN103092999A (zh) 2013-05-08
CN103092999B true CN103092999B (zh) 2016-06-29

Family

ID=48205564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310056627.4A Active CN103092999B (zh) 2013-02-22 2013-02-22 一种网页抓取周期调整方法和装置

Country Status (1)

Country Link
CN (1) CN103092999B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279507B (zh) * 2013-05-16 2016-12-28 北京尚友通达信息技术有限公司 网页爬虫操作方法和系统
CN103997438A (zh) * 2014-06-03 2014-08-20 浪潮集团有限公司 一种云计算中自动监控分布式网络爬虫的方法
CN105243062B (zh) * 2014-06-04 2020-10-30 阿里巴巴(中国)有限公司 一种检测网页特征区域的方法和装置
CN105446968B (zh) * 2014-06-04 2018-12-25 广州市动景计算机科技有限公司 一种检测网页特征区域的方法和装置
CN104008213B (zh) * 2014-06-24 2017-11-28 电子科技大学 一种网页信息更新发现与统计的方法和装置
CN105589857A (zh) * 2014-10-21 2016-05-18 腾讯科技(深圳)有限公司 一种网页内容抓取方法和装置
CN105989151B (zh) * 2015-03-02 2019-09-06 阿里巴巴集团控股有限公司 网页抓取方法及装置
CN106294364B (zh) * 2015-05-15 2020-04-10 阿里巴巴集团控股有限公司 实现网络爬虫抓取网页的方法和装置
CN106708828A (zh) * 2015-07-31 2017-05-24 北京国双科技有限公司 友情链接的获取方法和装置
CN106547776B (zh) * 2015-09-21 2019-12-03 北京国双科技有限公司 网站内容的检测方法及装置
CN106547774B (zh) * 2015-09-21 2020-02-28 北京国双科技有限公司 网站内容的检测方法及装置
CN106547778A (zh) * 2015-09-21 2017-03-29 北京国双科技有限公司 网页的爬取方法和装置
CN106547775B (zh) * 2015-09-21 2020-03-03 北京国双科技有限公司 网站内容的检测方法及装置
CN105117501B (zh) * 2015-10-09 2017-07-11 广州神马移动信息科技有限公司 网络爬虫调度方法及应用其的网络爬虫系统
CN106982268B (zh) * 2016-01-18 2020-09-11 腾讯科技(北京)有限公司 一种信息处理方法和服务器
CN105824880A (zh) * 2016-03-09 2016-08-03 乐视网信息技术(北京)股份有限公司 一种网页抓取方法及装置
CN106126716A (zh) * 2016-06-30 2016-11-16 北京奇艺世纪科技有限公司 一种数据爬取方法及装置
CN108614841B (zh) * 2016-12-13 2021-09-07 北京国双科技有限公司 时间间隔的调整方法和装置
CN110020065B (zh) * 2017-07-19 2023-04-25 阿里巴巴集团控股有限公司 一种网站识别方法及装置
CN110633400A (zh) * 2018-06-06 2019-12-31 腾讯科技(北京)有限公司 网页数据的抓取方法、装置、存储介质及电子装置
CN110874430B (zh) * 2018-08-09 2022-06-14 北大方正集团有限公司 网络爬虫调度方法、装置及设备
CN109190077B (zh) * 2018-08-23 2020-07-07 Oppo广东移动通信有限公司 收藏信息的处理方法、装置、存储介质及电子设备
CN112100472B (zh) * 2020-09-11 2023-11-28 深圳市科盾科技有限公司 爬虫调度方法、装置、终端设备和可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101179558A (zh) * 2006-11-09 2008-05-14 中国电信股份有限公司 面向电视机显示的信息浏览业务提供系统和方法
CN102184227A (zh) * 2011-05-10 2011-09-14 北京邮电大学 一种面向web服务的通用爬虫引擎系统及其工作方法
CN102236674A (zh) * 2010-04-29 2011-11-09 腾讯科技(深圳)有限公司 一种索引页更新方法及装置
CN102291435A (zh) * 2011-07-15 2011-12-21 武汉大学 一种基于地理时空数据的移动信息搜索及知识发现系统
CN102446225A (zh) * 2012-01-11 2012-05-09 深圳市爱咕科技有限公司 一种实时搜索的方法、装置和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101179558A (zh) * 2006-11-09 2008-05-14 中国电信股份有限公司 面向电视机显示的信息浏览业务提供系统和方法
CN102236674A (zh) * 2010-04-29 2011-11-09 腾讯科技(深圳)有限公司 一种索引页更新方法及装置
CN102184227A (zh) * 2011-05-10 2011-09-14 北京邮电大学 一种面向web服务的通用爬虫引擎系统及其工作方法
CN102291435A (zh) * 2011-07-15 2011-12-21 武汉大学 一种基于地理时空数据的移动信息搜索及知识发现系统
CN102446225A (zh) * 2012-01-11 2012-05-09 深圳市爱咕科技有限公司 一种实时搜索的方法、装置和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《一种基于WatiJ 的Deep Web 蜘蛛研究》;刘绍斌等;《计算机工程》;20110228;第37卷(第4期);正文第264-266页 *
《深度网爬虫及更新策略研究》;郭梅;《中国优秀硕士学位论文全文数据库(电子期刊)》;20110131;正文第1-70页 *

Also Published As

Publication number Publication date
CN103092999A (zh) 2013-05-08

Similar Documents

Publication Publication Date Title
CN103092999B (zh) 一种网页抓取周期调整方法和装置
KR102317535B1 (ko) 소프트웨어 개발 키트로 데이터 추적을 구현하는 방법 및 시스템
CN101957832B (zh) 对于事件流数据管理的统一的窗口支持
US10055762B2 (en) Deep application crawling
CN102663062B (zh) 一种处理搜索结果中无效链接的方法及装置
CN101651707B (zh) 一种网络用户行为日志自动获取方法
CN105243159A (zh) 一种基于可视化脚本编辑器的分布式网络爬虫系统
US20150128272A1 (en) System and method for finding phishing website
CN103618696B (zh) 对cookie信息进行处理的方法和服务器
CA2738290C (en) Exclusion of irrelevant data from a dom equivalence
CN103744853A (zh) 提供搜索引擎网页快照信息的方法及装置
CN103077254B (zh) 网页获取方法和装置
CN105607986A (zh) 用户行为日志数据采集方法及装置
CN110147327B (zh) 一种基于多粒度的web自动化测试管理方法
CN104391953B (zh) 检测网页更新的方法及装置
JP2019109580A (ja) 産業用制御システムとその支援装置、制御支援方法およびプログラム
CN104767653A (zh) 一种网络接口监控的方法和装置
CN104113605A (zh) 一种企业云应用开发的监控处理方法
CN103559203A (zh) 网页排序方法、装置和系统
CN102663049B (zh) 一种更新搜索引擎网址库方法及装置
CN109783258A (zh) 一种消息处理方法、装置及服务器
CN103390067B (zh) 用于互联网实体分析的数据处理方法和装置
CN107580052A (zh) 自演进的网络自适应爬虫方法及系统
CN103399933A (zh) 一种抓取网络平面媒体的网页内容的方法及系统
US20120047121A1 (en) Content signature notification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20191226

Address after: 755000 block B, Zhongguancun Industrial Park, Shapotou District, Zhongwei City, Ningxia Hui Autonomous Region

Patentee after: People's data management (Zhongwei) Co., Ltd

Address before: 100020, Beijing, Chaoyang District, East Third Ring Road, No. 1 global financial center, West Tower, 16 floor

Patentee before: People Search Network AG

TR01 Transfer of patent right
CP03 Change of name, title or address

Address after: 100026 room 370, 3 / F, building 15, 2 Jintai West Road, Chaoyang District, Beijing

Patentee after: People's data management (Beijing) Co.,Ltd.

Address before: 755000 block B, Zhongguancun Industrial Park, Shapotou District, Zhongwei City, Ningxia Hui Autonomous Region

Patentee before: People's data management (Zhongwei) Co.,Ltd.

CP03 Change of name, title or address