CN106407219A - 网页链接的爬取方法及装置 - Google Patents

网页链接的爬取方法及装置 Download PDF

Info

Publication number
CN106407219A
CN106407219A CN201510463687.7A CN201510463687A CN106407219A CN 106407219 A CN106407219 A CN 106407219A CN 201510463687 A CN201510463687 A CN 201510463687A CN 106407219 A CN106407219 A CN 106407219A
Authority
CN
China
Prior art keywords
web page
page interlinkage
crawl
time
crawling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510463687.7A
Other languages
English (en)
Other versions
CN106407219B (zh
Inventor
孙德彬
冯鸳鹤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510463687.7A priority Critical patent/CN106407219B/zh
Publication of CN106407219A publication Critical patent/CN106407219A/zh
Application granted granted Critical
Publication of CN106407219B publication Critical patent/CN106407219B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网页链接的爬取方法及装置。该网页链接的爬取方法包括:获取爬取失败的网页链接;基于超时时间参数集合对网页链接重新进行爬取,得到爬取结果,其中,超时时间参数集合中包括至少两个不同的超时时间参数;根据爬取结果判断网页链接是否为无效的网页链接;以及如果判断出网页链接为无效的网页链接,则不再对网页链接进行爬取。通过本发明,解决了相关技术中对无效的网页链接进行爬取会造成爬虫资源的浪费的问题。

Description

网页链接的爬取方法及装置
技术领域
本发明涉及网络爬取技术领域,具体而言,涉及一种网页链接的爬取方法及装置。
背景技术
在网页爬取技术中,需要对事先获取的网页链接一一进行爬取,以获取相应的网页内容。但是爬取的执行过程中有时会出现爬取失败的情况,也即通过爬取网页链接无法获取到网页链接对应的网页内容。
这种情况的产生,一种可能的原因是网络环境较差(如网速差)或者网页链接对应的网站服务器无法响应;另一种可能的原因是该网页链接为无效的网页链接,也即该网页链接不存在对应的页面。在相关技术中,针对爬取列表中存在的网页链接,无论其是否为爬取失败的网页链接,均将其作为正常链接爬取。该方法中,对于无效的网页链接的爬取会造成爬虫资源的浪费。
针对相关技术中对无效的网页链接进行爬取会造成爬虫资源的浪费的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种网页链接的爬取方法及装置,以解决相关技术中对无效的网页链接进行爬取会造成爬虫资源的浪费的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种网页链接的爬取方法。
根据本发明的网页链接的爬取方法包括:获取爬取失败的网页链接;基于超时时间参数集合对网页链接重新进行爬取,得到爬取结果,其中,超时时间参数集合中包括至少两个不同的超时时间参数;根据爬取结果判断网页链接是否为无效的网页链接;以及如果判断出网页链接为无效的网页链接,则不再对网页链接进行爬取。
进一步地,超时时间参数集合中存储有各个重新爬取的爬取次数与超时时间参数之间的对应关系,且第N次重新爬取采用的超时时间参数小于第N+1次重新爬取采用的超时时间参数,其中,N为自然数。
进一步地,第N+1次重新爬取采用的超时时间参数为第N次重新爬取采用的超时时间参数的预设倍数,其中,预设倍数大于1。
进一步地,基于超时时间参数集合对网页链接重新进行爬取包括:从超时时间参数集合中获取与网页链接的爬取次数对应的超时时间参数;利用该超时时间参数对网页链接进行爬取;当未爬取到网页链接对应的网页内容时,将网页链接的爬取次数加1,重复执行从超时时间参数集合中获取与网页链接的爬取次数对应的超时时间参数的步骤,直至爬取到网页链接对应的网页内容或爬取次数达到爬取次数阈值;根据爬取结果判断网页链接是否为无效的网页链接包括:如果在爬取次数达到爬取次数阈值之前,爬取到网页链接对应的网页内容,则确定网页链接为有效的网页链接;以及如果在爬取次数达到爬取次数阈值时,还未爬取到网页链接对应的网页内容,则确定网页链接为无效的网页链接。
进一步地,基于超时时间参数集合对网页链接重新进行爬取包括:多次基于超时时间参数集合对网页链接重新执行爬取,其中,相邻两次基于超时时间参数集合对网页链接重新执行爬取的时间间隔为预设时间间隔。
进一步地,多次基于超时时间参数集合对网页链接重新执行爬取包括:每间隔预设时间间隔基于超时时间参数集合对网页链接重新执行爬取,直至爬取到网页链接对应的网页内容或者重新执行爬取的次数达到预设重复次数,根据爬取结果判断网页链接是否为无效的网页链接包括:如果在达到预设重复次数之前,爬取到网页链接对应的网页内容,则确定网页链接为有效的网页链接;以及如果在达到预设重复次数时,还未爬取到网页链接对应的网页内容,则确定网页链接为无效的网页链接。
为了实现上述目的,根据本发明的另一方面,提供了一种网页链接的爬取装置。
根据本发明的网页链接的爬取装置包括:获取单元,用于获取爬取失败的网页链接;爬取单元,用于基于超时时间参数集合对网页链接重新进行爬取,得到爬取结果,其中,超时时间参数集合中包括至少两个不同的超时时间参数;判断单元,用于根据爬取结果判断网页链接是否为无效的网页链接;以及爬取取消单元,用于在判断出网页链接为无效的网页链接时,不再对网页链接进行爬取。
进一步地,爬取单元包括:获取模块,用于从超时时间参数集合中获取与网页链接的爬取次数对应的超时时间参数;第一爬取模块,用于利用该超时时间参数对网页链接进行爬取;以及重复执行模块,用于在未爬取到网页链接对应的网页内容时,将网页链接的爬取次数加1,重复执行从超时时间参数集合中获取与网页链接的爬取次数对应的超时时间参数的步骤,直至爬取到网页链接对应的网页内容或爬取次数达到爬取次数阈值;判断单元包括:第一判断模块,用于在爬取次数达到爬取次数阈值之前,爬取到网页链接对应的网页内容的情况下,确定网页链接为有效的网页链接;第二判断模块,用于在爬取次数达到爬取次数阈值时,还未爬取到网页链接对应的网页内容的情况下,确定网页链接为无效的网页链接。
进一步地,爬取单元包括:第二爬取模块,用于多次基于超时时间参数集合对网页链接重新执行爬取,其中,相邻两次基于超时时间参数集合对网页链接重新执行爬取的时间间隔为预设时间间隔。
进一步地,第二爬取模块包括:爬取子模块,用于每间隔预设时间间隔基于超时时间参数集合对网页链接重新执行爬取,直至爬取到网页链接对应的网页内容或者重新执行爬取的次数达到预设重复次数,判断单元包括:第三判断模块,用于在达到预设重复次数之前,爬取到网页链接对应的网页内容的情况下,确定网页链接为有效的网页链接;以及第四判断模块,用于在达到预设重复次数时,还未爬取到网页链接对应的网页内容的情况下,确定网页链接为无效的网页链接。
通过本发明,采用包括以下步骤的方法:获取爬取失败的网页链接;基于超时时间参数集合对网页链接重新进行爬取,得到爬取结果,其中,超时时间参数集合中包括至少两个不同的超时时间参数;根据爬取结果判断网页链接是否为无效的网页链接;以及如果判断出网页链接为无效的网页链接,则不再对网页链接进行爬取,解决了相关技术中对无效的网页链接进行爬取会造成爬虫资源的浪费的问题,进而通过基于超时时间参数集合对网页链接重新进行爬取,得到爬取结果,并根据爬取结果判断网页链接是否为无效的网页链接,达到了在爬取网页链接过程中有效利用爬虫资源的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的网页链接的爬取方法的流程图;以及
图2是根据本发明实施例的网页链接的爬取装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
下面根据本发明的实施例,提供了一种网页链接的爬取方法。
图1是根据本发明实施例的网页链接的爬取方法的流程图。如图1所示,该方法包括如下的步骤:
步骤S102,获取爬取失败的网页链接。
通常在网页爬取应用中,会事先将待爬取的网页链接进行存储,例如,存储于网页链接列表中,然后从列表中逐条读取,以分别进行爬取。在对网页链接执行爬取时,会出现爬取失败的网页链接,也即,对该网页链接执行爬取后未获取到该网页链接对应的网页内容。
网页链接之所以爬取失败,有可能是由于执行爬取时的网络环境较差,或者是网页链接对应的网站服务器存在问题(不稳定),也有可能是该网页链接为无效的网页链接,也即该网页链接不存在对应的网页。对于网络环境、网站服务器等原因造成的爬取失败,只是暂时性的无法爬取;而对于爬取的网页链接为无效网页链接的情况,则是永久性的爬取失败。因此,根据本实施例的网页链接的爬取方法用于对爬取失败的网页链接进行检测,以判断其是否为无效的网页链接。
步骤S104,基于超时时间参数集合对网页链接重新进行爬取,得到爬取结果,其中,超时时间参数集合中包括至少两个不同的超时时间参数。
超时时间参数为连接超时时间或者数据传输的最大允许时间,连接超时时间也即爬取网页链接时等待对方服务器响应的时间,数据传输的最大允许时间也即读取网页链接并等待对方网站响应的最大时长。在对网页链接执行爬取时,需要设置超时时间参数。该参数的取值可以根据业务逻辑自行设置。通常情况下,如果业务逻辑需要快速完成爬取,可以将超时时间参数设置为较小的数值;否则,可以将超时时间参数设置为较大的数值。在爬取资源较差的网站时,设置较大的超时时间参数更有利于提高爬取的成功率。但是对于无效网页链接来说,设置的超时时间参数再大也无法爬取到该网页链接对应的网页内容。为了避免丢失掉一些待爬取的网页链接对应的网页内容(爬取失败的有效链接对应的网页内容),根据本发明,可以基于超时时间参数集合对网页链接重新进行爬取,其中,超时时间参数集合中包括至少两个不同的超时时间参数。
例如,分别设置超时时间参数为2秒和3秒。爬取结果为:在超时时间参数为2秒的情况下,检测出未爬取到网页链接对应的网页内容,在超时时间参数为3秒的情况下,检测出爬取到了网页链接对应的网页内容。
需要说明的是,假设步骤S102中爬取失败的网页链接爬取失败时采用的超时时间参数为t1,则在基于超时时间参数对网页链接重新进行爬取时,第一次爬取可采用大于t1的超时时间参数,例如,可以是2倍的超时时间参数。
步骤S106,根据爬取结果判断网页链接是否为无效的网页链接。
在该步骤中,如果爬取结果显示爬取执行后得到了网页链接对应的网页内容,则确定该网页链接为有效的网页链接;否则,确定该网页链接为无效的网页链接。通过基于超时时间参数对网页链接进行重新爬取,可以有效避免将爬取失败的网页链接误判为无效链接,进而造成爬取页面的缺失。
例如,分别设置超时时间参数为2秒和4秒。爬取结果为:在超时时间参数为2秒的情况下,检测出未爬取到网页链接对应的网页内容,在设置超时时间参数为4秒时,检测出爬取到了网页链接对应的网页内容。则根据爬取结果可以判断出网页链接为有效的网页链接。
步骤S108,如果判断出网页链接为无效的网页链接,则不再对网页链接进行爬取。
如果通过上述步骤S102至步骤S106判断出网页链接为无效的网页链接,也即证明了爬取失败的网页链接并非是由于网络原因或者网站服务器原因等造成的偶然性的爬取失败,而是由于该网页链接为无效的网页链接,因而导致无法爬取到其对应的网页内容。因此,如果判断出网页链接为无效的网页链接,则可以不再对该网页链接执行爬取。
根据该实施例的网页链接的爬取方法,由于包括:获取爬取失败的网页链接;基于超时时间参数集合对网页链接重新进行爬取,得到爬取结果,其中,超时时间参数集合中包括至少两个不同的超时时间参数;根据爬取结果判断网页链接是否为无效的网页链接;以及如果判断出网页链接为无效的网页链接,则不再对网页链接进行爬取,解决了相关技术中对无效的网页链接进行爬取会造成爬虫资源的浪费的问题,进而通过基于超时时间参数集合对网页链接重新进行爬取,得到爬取结果,并根据爬取结果判断网页链接是否为无效的网页链接,达到了在爬取网页链接过程中有效利用爬虫资源的效果。
在一种可选的实施例中,超时时间参数集合中存储有各个重新爬取的爬取次数与超时时间参数之间的对应关系,且第N次重新爬取采用的超时时间参数小于第N+1次重新爬取采用的超时时间参数,其中,N为自然数。
在该实施例中,爬取次数与超时时间参数的对应关系可以是:TN+1=kTN+b,其中,TN+1为第N+1次重新爬取采用的超时时间参数,TN为第N次重新爬取采用的超时时间参数,k、b为非负数,可以根据实际情况对k、b的取值进行调整,T0可以为2。超时时间集合可以采用数列形式,例如T[n]={T0,T1,……,TN,TN+1},数列中元素的下角标表示爬取次数,元素数值即为超时时间参数;也可以采用索引表的方式等存储爬取次数与超时时间参数之间的对应关系,具体采用何种方式本申请不做限定。
通常,在爬取某一网页链接时,如果设置的超时时间参数较小,则爬取的速度越快,即在爬取该网页链接时占用的时间越少。这在爬取数量巨大的网页链接时往往是非常重要的。反之,如果设置的超时时间参数越大,在爬取一条链接时占用的时间越长,但是能够爬取到网页内容的几率越大,也即网络爬取的准确性越高。在该实施例中,通过在与爬取次数相关的不同的超时时间参数下对网页链接执行爬取,可以对网页链接是否为无效的网页链接进行较为准确地判断。
为了提高无效网页链接的检测效率,优选地,第N+1次重新爬取采用的超时时间参数为第N次重新爬取采用的超时时间参数的预设倍数,其中,预设倍数大于1。也即,TN+1=k1TN,其中,k1大于1。
在一种可选的实施例中,基于超时时间参数集合对网页链接重新进行爬取包括:从超时时间参数集合中获取与网页链接的爬取次数对应的超时时间参数;利用该超时时间参数对网页链接进行爬取;当未爬取到网页链接对应的网页内容时,将网页链接的爬取次数加1,重复执行从超时时间参数集合中获取与网页链接的爬取次数对应的超时时间参数的步骤,直至爬取到网页链接对应的网页内容或爬取次数达到爬取次数阈值;根据爬取结果判断网页链接是否为无效的网页链接包括:如果在爬取次数达到爬取次数阈值之前,爬取到网页链接对应的网页内容,则确定网页链接为有效的网页链接;以及如果在爬取次数达到爬取次数阈值时,还未爬取到网页链接对应的网页内容,则确定网页链接为无效的网页链接。
优选地,可以采用队列的方式对爬取次数进行计数,具体地,包括:添加网页链接至第一爬取失败队列;记录对网页链接重新进行爬取的爬取次数,其中,第一爬取失败队列中存储有爬取失败的网页链接及对应的爬取次数,爬取次数的初始值默认值为0;从第一爬取失败队列中读取一次网页链接,从超时时间参数集合中获取与当前爬取次数(0次)相关的超时时间参数(例如,2秒),并基于该超时时间参数对网页链接进行爬取;检测是否爬取到网页链接对应的网页内容;如果检测结果为否,则将网页链接重新添加至第一爬取失败队列,并将爬取次数加1,并重复执行上述步骤(也即从超时时间参数集合中选取与后续爬取次数相对应的超时时间参数,并基于超时时间参数执行网页爬取),依次类推,直到爬取到网页链接对应的网页内容或爬取次数达到爬取次数阈值,结束。
采取队列的方式对爬取次数进行计数,可使基于超时时间参数集合对网页链接重新进行爬取的执行过程变得更加简单易行。具体地,首先将爬取失败的网页链接添加至队列中,读取一次该网页链接并对其执行爬取,检测是否爬取到该网页链接对应的网页内容。如果检测到该网页内容,则得到爬取结果,结束;如果未检测到网页内容,则将该网页链接重新添加至队列,并重新进行爬取,依次类推,直到爬取到网页内容或者达到爬取次数阈值为止。每次进行爬取时采用的超时时间参数和爬取次数相关,例如,在第一次对某网页链接进行爬取时,设置的超时时间参数为超时时间参数集合中与爬取次数为0次对应的超时时间参数,如3秒,第二次对该网页链接进行爬取时,设置的超时时间参数为超时时间参数集合中与爬取次数为1次对应的超时时间参数(如5秒)。
由于对于无效的网页链接而言,爬取再多次也无法得到该网页链接对应的网页内容,但是对于有效的网页链接来说,即使偶然由于网络原因或者网站服务器的原因爬取失败,但是基于不同的超时时间参数进行多次重新爬取的话,极有可能爬取到该网页链接对应的网页内容。因此,该实施例预先设置了一个爬取次数阈值,在爬取次数达到该爬取次数阈值之前,如果爬取到了网页链接对应的网页内容,则可以确定该网页链接为有效的网页链接。如果爬取次数达到了爬取次数阈值,仍未爬取到该网页链接对应的网页内容,则可以确定该网页链接为无效的网页链接。该实施例在不影响无效网页链接的检测准确性的前提下,有效减少了执行爬取的次数。
需要说明的是,爬取次数阈值可以基于经验值设置,通常,相邻两次爬取采用的超时时间参数的差值越大,爬取次数阈值可以相对设置的越小。为了提高无效网页链接检测的准确性,可以将爬取次数阈值设置的略大一些。
在一种可选的实施例中,基于超时时间参数集合对网页链接重新进行爬取包括:多次基于超时时间参数集合对网页链接重新执行爬取,其中,相邻两次基于超时时间参数集合对网页链接重新执行爬取的时间间隔为预设时间间隔。
具体来说,在基于超时间参数集合进行网页链接重新爬取时,可能由于当时的网络环境原因或者网站服务器的原因,使得基于超时间参数集合进行网页链接重新爬取均爬取失败。例如,在某月某日,基于超时间参数集合进行网页链接重新爬取,但是该日网页链接对应的网站服务器出现了故障,正在维修,而在该日之后,即恢复了正常的使用。因此,在上述情况下,如果断定该网页链接为无效的网页链接是不正确的。于是,本实施例提出,如果前一次基于超时时间参数集合对网页链接重新进行爬取时爬取失败,则在经过预设时间间隔之后再基于超时时间参数集合对网页链接重新进行爬取。例如,在上个例子中,在经过3天之后,再基于超时间参数集合对网页链接重新进行爬取。
在一种可选的实施例中,多次基于超时时间参数集合对网页链接重新执行爬取包括:每间隔预设时间间隔基于超时时间参数集合对网页链接重新执行爬取,直到爬取到网页链接对应的网页内容或者直到重新执行爬取的次数达到预设重复次数,根据爬取结果判断网页链接是否为无效的网页链接包括:如果在达到预设重复次数之前,爬取到网页链接对应的网页内容,则确定网页链接为有效的网页链接;以及如果在达到预设重复次数时,未爬取到网页链接对应的网页内容,则确定网页链接为无效的网页链接。
优选地,可以采用队列的形式对重新基于超时时间参数集合执行爬取的执行次数进行计数。具体地,包括:将网页链接添加至第二爬取失败队列;记录基于超时时间参数集合对网页链接重新执行爬取的执行次数,其中,执行次数的默认值为0;每间隔预设时间间隔从第二爬取失败队列读取一次网页链接,并基于超时时间参数集合对网页链接重新执行爬取;检测基于超时时间参数集合对网页链接重新进行爬取是否爬取到网页链接对应的网页内容;以及如果检测结果为否,则将网页链接重新添加至第二爬取失败队列,并将执行次数加1,并重复执行每间隔预设时间间隔从第二爬取失败队列读取一次网页链接的步骤,直到爬取到网页内容或者执行次数达到预设重复次数。
采取队列的方式进行计数,可使得多次基于超时时间参数集合对网页链接重新进行爬取的执行过程更加简单易行。需要说明的是,这里的执行次数,即基于超时时间参数集合对网页链接重新进行爬取的执行次数,执行次数的阈值为预设重复次数。例如,在3月1日,基于超时时间参数集合对网页链接重新进行爬取,爬取失败;在3月2日,基于超时时间参数集合对网页链接重新进行爬取,同样爬取失败,上述的执行次数为2次。
在上述实施例中,如果在队列中记录的执行次数未达到预设重复次数之前,检测出爬取到网页内容,则确定该网页链接为有效的网页链接;如果在执行次数达到预设重复次数时,还未爬取到网页内容,则判断出该网页链接为无效的网页链接。需要说明的是,预设重复次数可以根据经验值设置,为了提高检测的准确性,可以将预设重复次数设置为较大的值。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
下面根据本发明的实施例,提供了一种网页链接的爬取装置。
需要说明的是,根据本发明实施例的网页链接的爬取装置可以用于执行根据本发明实施例的网页链接的爬取方法;根据本发明实施例的网页链接的爬取方法也可以通过根据本发明实施例的网页链接的爬取装置来执行。
图2是根据本发明实施例的网页链接的爬取装置的示意图。如图2所示,该装置包括:获取单元20、爬取单元40、判断单元60和爬取取消单元80。
获取单元20,用于获取爬取失败的网页链接。
爬取单元40,用于基于超时时间参数集合对网页链接重新进行爬取,得到爬取结果,其中,超时时间参数集合中包括至少两个不同的超时时间参数。
判断单元60,用于根据爬取结果判断网页链接是否为无效的网页链接。
爬取取消单元80,用于在判断出网页链接为无效的网页链接时,不再对网页链接进行爬取。
根据该实施例的网页链接的爬取装置,由于包括:获取单元20,用于获取爬取失败的网页链接;爬取单元40,用于基于超时时间参数集合对网页链接重新进行爬取,得到爬取结果,其中,超时时间参数集合中包括至少两个不同的超时时间参数;判断单元60,用于根据爬取结果判断网页链接是否为无效的网页链接;爬取取消单元80,用于在判断出网页链接为无效的网页链接时,不再对网页链接进行爬取,解决了相关技术中对无效的网页链接进行爬取会造成爬虫资源的浪费的问题,进而通过爬取单元40基于超时时间参数集合对网页链接重新进行爬取,得到爬取结果,判断单元60根据爬取结果判断网页链接是否为无效的网页链接,达到了在爬取网页链接过程中有效利用爬虫资源的效果。
在一种可选的实施例中,爬取单元40包括:获取模块,用于从超时时间参数集合中获取与网页链接的爬取次数对应的超时时间参数;第一爬取模块,用于利用该超时时间参数对网页链接进行爬取;以及重复执行模块,用于在未爬取到网页链接对应的网页内容时,将网页链接的爬取次数加1,重复执行从超时时间参数集合中获取与网页链接的爬取次数对应的超时时间参数的步骤,直至爬取到网页链接对应的网页内容或爬取次数达到爬取次数阈值;判断单元60包括:第一判断模块,用于在爬取次数达到爬取次数阈值之前,爬取到网页链接对应的网页内容的情况下,确定网页链接为有效的网页链接;第二判断模块,用于在爬取次数达到爬取次数阈值时,还未爬取到网页链接对应的网页内容的情况下,确定网页链接为无效的网页链接。
在一种可选的实施例中,爬取单元40包括:第二爬取模块,用于多次基于超时时间参数集合对网页链接重新执行爬取,其中,相邻两次基于超时时间参数集合对网页链接重新执行爬取的时间间隔为预设时间间隔。
在一种可选的实施例中,第二爬取模块包括:爬取子模块,用于每间隔预设时间间隔基于超时时间参数集合对网页链接重新执行爬取,直到爬取到网页链接对应的网页内容或者直到重新执行爬取的次数达到预设重复次数,判断单元60包括:第三判断模块,用于在达到预设重复次数之前,爬取到网页链接对应的网页内容的情况下,确定网页链接为有效的网页链接;以及第四判断模块,用于在达到预设重复次数时,未爬取到网页链接对应的网页内容的情况下,确定网页链接为无效的网页链接。
本实施例中所提供的各个模块与方法实施例对应步骤所提供的使用方法相同、应用场景也可以相同。当然,需要注意的是,上述模块涉及的方案可以不限于上述实施例中的内容和场景,且上述模块可以运行在计算机终端或移动终端,可以通过软件或硬件实现。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种网页链接的爬取方法,其特征在于,包括:
获取爬取失败的网页链接;
基于超时时间参数集合对所述网页链接重新进行爬取,得到爬取结果,其中,所述超时时间参数集合中包括至少两个不同的超时时间参数;
根据所述爬取结果判断所述网页链接是否为无效的网页链接;以及
如果判断出所述网页链接为无效的网页链接,则不再对所述网页链接进行爬取。
2.根据权利要求1所述的方法,其特征在于,所述超时时间参数集合中存储有各个重新爬取的爬取次数与超时时间参数之间的对应关系,且第N次重新爬取采用的超时时间参数小于第N+1次重新爬取采用的超时时间参数,其中,N为自然数。
3.根据权利要求2所述的方法,其特征在于,所述第N+1次重新爬取采用的超时时间参数为所述第N次重新爬取采用的超时时间参数的预设倍数,其中,所述预设倍数大于1。
4.根据权利要求1所述的方法,其特征在于,
基于超时时间参数集合对所述网页链接重新进行爬取包括:
从超时时间参数集合中获取与所述网页链接的爬取次数对应的超时时间参数;利用该超时时间参数对所述网页链接进行爬取;当未爬取到所述网页链接对应的网页内容时,将所述网页链接的爬取次数加1,重复执行所述从超时时间参数集合中获取与所述网页链接的爬取次数对应的超时时间参数的步骤,直至爬取到所述网页链接对应的网页内容或爬取次数达到爬取次数阈值;
根据所述爬取结果判断所述网页链接是否为无效的网页链接包括:
如果在爬取次数达到所述爬取次数阈值之前,爬取到所述网页链接对应的网页内容,则确定所述网页链接为有效的网页链接;以及如果在爬取次数达到所述爬取次数阈值时,还未爬取到所述网页链接对应的网页内容,则确定所述网页链接为无效的网页链接。
5.根据权利要求1所述的方法,其特征在于,基于所述超时时间参数集合对所述网页链接重新进行爬取包括:
多次基于所述超时时间参数集合对所述网页链接重新执行爬取,其中,相邻两次基于所述超时时间参数集合对所述网页链接重新执行爬取的时间间隔为预设时间间隔。
6.根据权利要求5所述的方法,其特征在于,
多次基于所述超时时间参数集合对所述网页链接重新执行爬取包括:
每间隔所述预设时间间隔基于所述超时时间参数集合对所述网页链接重新执行爬取,直至爬取到所述网页链接对应的网页内容或者重新执行爬取的次数达到预设重复次数,
根据所述爬取结果判断所述网页链接是否为无效的网页链接包括:
如果在达到所述预设重复次数之前,爬取到所述网页链接对应的网页内容,则确定所述网页链接为有效的网页链接;以及如果在达到所述预设重复次数时,还未爬取到所述网页链接对应的网页内容,则确定所述网页链接为无效的网页链接。
7.一种网页链接的爬取装置,其特征在于,包括:
获取单元,用于获取爬取失败的网页链接;
爬取单元,用于基于超时时间参数集合对所述网页链接重新进行爬取,得到爬取结果,其中,所述超时时间参数集合中包括至少两个不同的超时时间参数;
判断单元,用于根据所述爬取结果判断所述网页链接是否为无效的网页链接;以及
爬取取消单元,用于在判断出所述网页链接为无效的网页链接时,不再对所述网页链接进行爬取。
8.根据权利要求7所述的装置,其特征在于,
所述爬取单元包括:
获取模块,用于从超时时间参数集合中获取与所述网页链接的爬取次数对应的超时时间参数;第一爬取模块,用于利用该超时时间参数对所述网页链接进行爬取;以及重复执行模块,用于在未爬取到所述网页链接对应的网页内容时,将所述网页链接的爬取次数加1,重复执行所述从超时时间参数集合中获取与所述网页链接的爬取次数对应的超时时间参数的步骤,直至爬取到所述网页链接对应的网页内容或爬取次数达到爬取次数阈值;
所述判断单元包括:
第一判断模块,用于在爬取次数达到所述爬取次数阈值之前,爬取到所述网页链接对应的网页内容的情况下,确定所述网页链接为有效的网页链接;第二判断模块,用于在爬取次数达到所述爬取次数阈值时,还未爬取到所述网页链接对应的网页内容的情况下,确定所述网页链接为无效的网页链接。
9.根据权利要求7所述的装置,其特征在于,所述爬取单元包括:
第二爬取模块,用于多次基于所述超时时间参数集合对所述网页链接重新执行爬取,其中,相邻两次基于所述超时时间参数集合对所述网页链接重新执行爬取的时间间隔为预设时间间隔。
10.根据权利要求9所述的装置,其特征在于,
所述第二爬取模块包括:
爬取子模块,用于每间隔所述预设时间间隔基于所述超时时间参数集合对所述网页链接重新执行爬取,直至爬取到所述网页链接对应的网页内容或者重新执行爬取的次数达到预设重复次数,
所述判断单元包括:
第三判断模块,用于在达到所述预设重复次数之前,爬取到所述网页链接对应的网页内容的情况下,确定所述网页链接为有效的网页链接;以及第四判断模块,用于在达到所述预设重复次数时,还未爬取到所述网页链接对应的网页内容的情况下,确定所述网页链接为无效的网页链接。
CN201510463687.7A 2015-07-31 2015-07-31 网页链接的爬取方法及装置 Active CN106407219B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510463687.7A CN106407219B (zh) 2015-07-31 2015-07-31 网页链接的爬取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510463687.7A CN106407219B (zh) 2015-07-31 2015-07-31 网页链接的爬取方法及装置

Publications (2)

Publication Number Publication Date
CN106407219A true CN106407219A (zh) 2017-02-15
CN106407219B CN106407219B (zh) 2019-12-10

Family

ID=58007760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510463687.7A Active CN106407219B (zh) 2015-07-31 2015-07-31 网页链接的爬取方法及装置

Country Status (1)

Country Link
CN (1) CN106407219B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108011934A (zh) * 2017-11-24 2018-05-08 聚好看科技股份有限公司 一种处理资源数据的方法和装置
CN109298987A (zh) * 2017-07-25 2019-02-01 北京国双科技有限公司 一种检测网络爬虫运行状态的方法及装置
CN109684026A (zh) * 2019-01-14 2019-04-26 武汉斗鱼鱼乐网络科技有限公司 App皮肤更换方法、装置、电子设备及存储介质
CN110020044A (zh) * 2017-09-22 2019-07-16 北京国双科技有限公司 一种爬虫的爬取方法及装置
CN110020264A (zh) * 2018-12-29 2019-07-16 阿里巴巴集团控股有限公司 一种无效超链接的确定方法及装置
CN112579859A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 无效流量的处理方法及装置、存储介质和设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050091580A1 (en) * 2003-10-25 2005-04-28 Dave Kamholz Method and system for generating a Web page
CN101187925A (zh) * 2006-11-17 2008-05-28 北京酷讯科技有限公司 自动优化爬虫的抓取方法
CN102469132A (zh) * 2010-11-15 2012-05-23 北大方正集团有限公司 从网站中多个不同ip的服务器抓取网页的方法及系统
CN104182412A (zh) * 2013-05-24 2014-12-03 中国移动通信集团安徽有限公司 一种网页爬取方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050091580A1 (en) * 2003-10-25 2005-04-28 Dave Kamholz Method and system for generating a Web page
CN101187925A (zh) * 2006-11-17 2008-05-28 北京酷讯科技有限公司 自动优化爬虫的抓取方法
CN102469132A (zh) * 2010-11-15 2012-05-23 北大方正集团有限公司 从网站中多个不同ip的服务器抓取网页的方法及系统
CN104182412A (zh) * 2013-05-24 2014-12-03 中国移动通信集团安徽有限公司 一种网页爬取方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109298987A (zh) * 2017-07-25 2019-02-01 北京国双科技有限公司 一种检测网络爬虫运行状态的方法及装置
CN110020044A (zh) * 2017-09-22 2019-07-16 北京国双科技有限公司 一种爬虫的爬取方法及装置
CN108011934A (zh) * 2017-11-24 2018-05-08 聚好看科技股份有限公司 一种处理资源数据的方法和装置
CN110020264A (zh) * 2018-12-29 2019-07-16 阿里巴巴集团控股有限公司 一种无效超链接的确定方法及装置
CN110020264B (zh) * 2018-12-29 2023-10-24 创新先进技术有限公司 一种无效超链接的确定方法及装置
CN109684026A (zh) * 2019-01-14 2019-04-26 武汉斗鱼鱼乐网络科技有限公司 App皮肤更换方法、装置、电子设备及存储介质
CN112579859A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 无效流量的处理方法及装置、存储介质和设备

Also Published As

Publication number Publication date
CN106407219B (zh) 2019-12-10

Similar Documents

Publication Publication Date Title
CN106407219A (zh) 网页链接的爬取方法及装置
CN103685258B (zh) 一种快速扫描网站漏洞的方法和装置
CN103778254B (zh) 页面访问数据的处理方法、装置及系统
CN103914302A (zh) 一种网页加载进度监控方法和装置
CN106874273A (zh) 渠道信息统计方法、装置和系统
CN107465453A (zh) 一种光网络终端及其工作方法、及通信系统
CN104462242B (zh) 网页回流量统计方法及装置
CN104391953B (zh) 检测网页更新的方法及装置
CN107766509A (zh) 一种网页静态备份的方法和装置
CN106875005A (zh) 自适应阈值神经元信息处理方法和系统
CN105978967A (zh) 控制信息推送的方法和装置
CN106484775A (zh) 一种基于selenium的爬虫抓取方法及系统
CN110149419A (zh) 基于ip的高效爬虫方法
CN108696488A (zh) 一种上传接口识别方法、识别服务器及系统
CN109657459A (zh) 网页后门检测方法、设备、存储介质及装置
CN107506649A (zh) 一种html网页的漏洞检测方法、装置及电子设备
CN107168850A (zh) 一种url页面监控方法和装置
CN106936778A (zh) 网站流量异常的检测方法和装置
CN104333588B (zh) 一种网页计时的方法及装置
CN102880698B (zh) 一种抓取网站确定方法及装置
CN107329997A (zh) 页面显示方法及装置、客户端、存储介质
CN104967698B (zh) 一种爬取网络数据的方法和装置
CN106445966A (zh) 一种数据获取方法和装置
CN107222497A (zh) 网络流量异常监测方法及电子设备
CN107025235A (zh) 爬取网页的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant