CN104537005A - 用于网页爬取的数据处理方法及装置 - Google Patents

用于网页爬取的数据处理方法及装置 Download PDF

Info

Publication number
CN104537005A
CN104537005A CN201410779304.2A CN201410779304A CN104537005A CN 104537005 A CN104537005 A CN 104537005A CN 201410779304 A CN201410779304 A CN 201410779304A CN 104537005 A CN104537005 A CN 104537005A
Authority
CN
China
Prior art keywords
crawls
state
program
crawling
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410779304.2A
Other languages
English (en)
Other versions
CN104537005B (zh
Inventor
李庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201410779304.2A priority Critical patent/CN104537005B/zh
Publication of CN104537005A publication Critical patent/CN104537005A/zh
Application granted granted Critical
Publication of CN104537005B publication Critical patent/CN104537005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种用于网页爬取的数据处理方法及装置。该方法包括:通过在启动爬取程序之后,获取爬取程序当前爬取的网站的状态标志位;确定状态标志位指示的爬取状态;若状态标志位指示的爬取状态为中断爬取状态,则判断数据库中记录的当前崩溃次数是否小于预设崩溃阈值;若当前崩溃次数不小于预设崩溃阈值,则终止爬取程序的工作;若当前崩溃次数小于预设崩溃阈值,则控制爬取程序继续工作。通过根据当前崩溃次数与预设崩溃阈值的关系,自动控制爬取的进行或终止,在一定程度上解决了相关技术中解决爬虫崩溃问题的处理方式导致的爬取数据效率低的问题,达到了自动终止爬取功能,提高爬取效率的效果。

Description

用于网页爬取的数据处理方法及装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种用于网页爬取的数据处理方法及装置。
背景技术
随着互联网的兴起,网络中存在中大量的信息,与此同时,垂直网络爬虫也应运而生,垂直网络爬虫是一个自动下载的网页程序,它根据既定的抓取目标,有选择性的访问特定网页与相关链接,获取所需要的信息。与通用爬虫不同,垂直爬虫,抓取与某一特定主题相关的网页,为面向主题的用户查询准备数据资源。
因此,垂直爬虫,会根据前端的配置定期的抓取特定网页的信息资源,但是在实际爬虫的执行的过程中,可能存在对某一网站资源抓取奔溃的情况。如何在多次对同一网站爬取时导致的崩溃问题及时处理并反应给系统处理人员,是当前需要解决的问题。
传统的网络爬虫在解决爬虫崩溃问题上会将崩溃信息记录日志或者异常触发机制已邮件的形式发送给系统管理人员。但是,传统记录日志的方式不能够对定期爬取的爬虫频繁奔溃进行处理,而异常触发机制需要系统人员对频繁奔溃的爬虫手工结束。
针对相关技术中解决爬虫频繁崩溃占用大量系统资源的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种用于网页爬取的数据处理方法及装置,以在一定程度上解决了相关技术中解决爬虫崩溃问题的处理方式导致的爬取数据效率低的问题。
为了实现上述目的,根据本发明实施例的一个方面,提供了一种用于网页爬取的数据处理方法。根据本发明的网页爬取的数据处理方法包括:在启动爬取程序之后,获取所述爬取程序当前爬取的网站的状态标志位;确定所述状态标志位指示的爬取状态;若所述状态标志位指示的所述爬取状态为中断爬取状态,则判断数据库中记录的当前崩溃次数是否小于预设崩溃阈值;若所述当前崩溃次数不小于所述预设崩溃阈值,则终止所述爬取程序的工作;若所述当前崩溃次数小于所述预设崩溃阈值,则控制所 述爬取程序继续工作。
进一步地,启动爬取程序包括:使用正在爬取状态的第一标识设置所述数据库中的所述当前爬取的网站的状态标志位;在启动爬取程序之后,所述数据处理方法还包括:若所述爬取程序返回的数据为异常数据,则判断出所述爬取程序崩溃,使用所述中断爬取状态的第二标识修改所述当前爬取的网站的状态标志位,并将所述数据库中记录的所述当前爬取的网站的当前崩溃次数加一。
进一步地,在启动爬取程序之后,所述数据处理方法还包括:若所述爬取程序爬取所述网站的所有网络资源地址返回的数据均未出现异常,则确定所述爬取程序成功爬取所述网站,使用正在爬取状态的第二第一标识设置将所述网站的状态标志位。
进一步地,在判断出所述爬取程序崩溃之后,所述数据处理方法还包括:读取所述异常数据中的错误代码;获取所述错误代码的爬取崩溃信息,并输出所述爬取崩溃信息。
进一步地,若所述当前崩溃次数不小于所述预设崩溃阈值,在终止所述爬取程序的工作的同时,所述数据处理方法还包括:使用终止爬取状态的第三标识设置所述当前爬取的网站的状态标志位;若所述当前崩溃次数小于所述预设崩溃阈值,在控制所述爬取程序继续工作的同时,所述处理方法还包括:使用正在爬取状态的第二标识设置所述当前爬取的网站的状态标志位。
进一步地,在确定所述状态标志位指示的爬取状态之后,所述数据处理方法还包括:若所述状态标志位指示的爬取状态为正在爬取状态或终止爬取状态,则控制所述爬取程序继续工作。
为了实现上述目的,根据本发明实施例的另一方面,提供了一种用于网页爬取的数据处理装置。根据本发明的用于网页爬取的数据处理装置包括:获取模块,在启动爬取程序之后,用于获取所述爬取程序当前爬取的网站的状态标志位;确定模块,用于确定所述状态标志位指示的爬取状态;判断模块,在所述确定装置确定的所述爬取状态为中断爬取状态的情况下,用于判断数据库中记录的当前崩溃次数是否小于预设崩溃阈值;终止模块,在所述判断模块的判断结果为否的情况下,用于终止所述爬取程序的工作;第一控制模块,在所述判断模块的判断结果为是的情况下,用于控制所述爬取程序继续工作。
进一步地,所述数据处理装置还包括:启动模块,用于使用正在爬取状态的第一标识设置所述数据库中的所述当前爬取的网站的状态标志位,启动爬取程序;所述数据处理装置还包括:修改模块,在所述爬取程序返回的数据为异常数据的情况下,用于判断出所述爬取程序崩溃,使用所述中断爬取状态的第二标识修改所述当前爬取的 网站的状态标志位,并将所述数据库中记录的所述当前爬取的网站的当前崩溃次数加一。
进一步地,所述数据处理装置还包括:第一设置模块,在启动爬取程序之后,若所述爬取程序爬取所述网站的所有网络资源地址返回的数据均未出现异常,用于确定所述爬取程序成功爬取所述网站,使用正在爬取状态的第一标识设置将所述网站的状态标志位。
进一步地,所述数据处理装置还包括:读取模块,在判断出所述爬取程序崩溃之后,用于读取所述异常数据中的错误代码;输出模块,用于获取所述错误代码的爬取崩溃信息,并输出所述爬取崩溃信息。
进一步地,所述数据处理装置还包括:第二设置模块,若所述当前崩溃次数不小于所述预设崩溃阈值,在终止所述爬取程序的工作的同时,用于使用终止爬取状态的第三标识设置所述当前爬取的网站的状态标志位;第三设置模块,若所述当前崩溃次数小于所述预设崩溃阈值,在控制所述爬取程序继续工作的同时,用于使用正在爬取状态的第二标识设置所述当前爬取的网站的状态标志位。
进一步地,所述数据处理装置还包括:第二控制模块,在确定所述状态标志位指示的爬取状态之后,若所述状态标志位指示的爬取状态为正在爬取状态或终止爬取状态,用于控制所述爬取程序继续工作。
根据发明实施例,通过在启动爬取程序之后,获取所述爬取程序当前爬取的网站的状态标志位;确定所述状态标志位指示的爬取状态;若所述状态标志位指示的所述爬取状态为中断爬取状态,则判断数据库中记录的当前崩溃次数是否小于预设崩溃阈值;若所述当前崩溃次数不小于所述预设崩溃阈值,则终止所述爬取程序的工作;若所述当前崩溃次数小于所述预设崩溃阈值,则控制所述爬取程序继续工作,在一定程度上解决了相关技术中解决爬虫频繁崩溃占用大量系统资源的问题,达到了自动终止爬取功能,提高爬取效率的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的用于网页爬取的数据处理方法的流程图;
图2是根据本发明实施例的用于网页爬取的数据处理装置的示意图;以及
图3是根据本发明可选实施例的用于网页爬取的数据处理方法的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供了一种用于网页爬取的数据处理方法。
图1是根据本发明实施例的用于网页爬取的数据处理方法的流程图。如图1所示,该用于网页爬取的数据处理方法包括步骤如下:
步骤S102,在启动爬取程序之后,获取爬取程序当前爬取的网站的状态标志位;
步骤S104,确定状态标志位指示的爬取状态;
步骤S106,若状态标志位指示的爬取状态为中断爬取状态,则判断数据库中记录的当前崩溃次数是否小于预设崩溃阈值;
步骤S108,若当前崩溃次数不小于预设崩溃阈值,则终止爬取程序的工作;
步骤S110,若当前崩溃次数小于预设崩溃阈值,则控制爬取程序继续工作。
上述各个步骤,采用在启动爬取程序之后,获取爬取程序当前爬取的网站的状态标志位;确定状态标志位指示的爬取状态;若状态标志位指示的爬取状态为中断爬取状态,则判断数据库中记录的当前崩溃次数是否小于预设崩溃阈值;若当前崩溃次数不小于预设崩溃阈值,则终止爬取程序的工作;若当前崩溃次数小于预设崩溃阈值,则控制爬取程序继续工作的方法,通过根据当前崩溃次数与预设崩溃阈值的关系,自动控制爬取的进行或终止,在一定程度上解决了相关技术中爬虫频繁崩溃占用大量系 统资源的问题,达到了自动检测并终止崩溃的爬虫的效果。
在一个可选的实施例中,执行步骤S102之前,可以使用正在爬取状态的第一标识设置数据库中的当前爬取的网站的状态标志位,以启动爬取程序,并且在启动爬取程序之后,本发明的用于网页爬取的数据处理方法还包括:若爬取程序返回的数据为异常数据,则判断出爬取程序崩溃,使用中断爬取状态的第二标识修改当前爬取的网站的状态标志位,并将数据库中记录的当前爬取的网站的当前崩溃次数加一,从而可以根据是否含有异常数据判断当前的爬取状态,并修改爬取标识位,以便根据当前的爬取标识做出处理。
上述可选实施例提供了在爬取程序返回异常数据的处理方法,本发明还提供了另一个可选的实施例,提供了在爬取程序返回正常数据的处理方法,该方法可以包括:在启动爬取程序之后,若爬取程序爬取网站的所有网络资源地址返回的数据均未出现异常,则确定爬取程序成功爬取网站,使用正在爬取状态的第一标识设置将网站的状态标志位。从而可以根据当前的爬取状态设置对应的爬取标识,以便根据当前的爬取标识做出处理。
如果判断出爬取程序崩溃,在一个可选的实施例中,可以采取如下处理方法:读取异常数据中的错误代码;获取错误代码的爬取崩溃信息,并输出爬取崩溃信息。从而可以将崩溃信息发送给相应人员,以便进行优化处理。
在步骤S108中,若当前崩溃次数不小于预设崩溃阈值,在终止爬取程序的工作的同时,在一个可选的实施例中,还可以使用终止爬取状态的第三标识设置当前爬取的网站的状态标志位。
相应的,在步骤S110中,若当前崩溃次数小于预设崩溃阈值,在控制爬取程序继续工作的同时,在一个可选的实施例中,还可以使用正在爬取状态的第二标识设置当前爬取的网站的状态标志位。
从而根据当前对于爬取程序的崩溃次数的判断,更新当前的爬取的网站的状态标志位,以便在下次启动爬取程序时,可以做出相应处理。
以上各个可选实施例中,为确定状态标志位为中断爬取状态下的实施例,在一个可选的实施例中,在步骤S104确定状态标志位指示的爬取状态之后,若状态标志位指示的爬取状态为正在爬取状态或终止爬取状态,则退出,也即则退出该数据处理流程。从而实现了爬取程序对各个爬取状态的处理。
本发明实施例还提供了一种用于网页爬取的数据处理装置。该装置可以通过各个模块及单元实现其功能。需要说明的是,本发明实施例的用于网页爬取的数据处理装置可以用于执行本发明实施例所提供的用于网页爬取的数据处理方法,本发明实施例 的用于网页爬取的数据处理方法也可以通过本发明实施例所提供的用于网页爬取的数据处理装置来执行。
图2是根据本发明实施例的用于网页爬取的数据处理装置的示意图。如图2所示,该装置包括:
获取模块20,在启动爬取程序之后,用于获取爬取程序当前爬取的网站的状态标志位;
确定模块22,用于确定状态标志位指示的爬取状态;
判断模块24,在确定装置确定的爬取状态为中断爬取状态的情况下,用于判断数据库中记录的当前崩溃次数是否小于预设崩溃阈值;
终止模块26,在判断模块的判断结果为否的情况下,用于终止爬取程序的工作;
第一控制模块28,在判断模块的判断结果为是的情况下,用于控制爬取程序继续工作。
上述各个模块,利用获取模块20在启动爬取程序之后,获取爬取程序当前爬取的网站的状态标志位;确定模块22确定状态标志位指示的爬取状态;若状态标志位指示的爬取状态为中断爬取状态,判断模块24判断数据库中记录的当前崩溃次数是否小于预设崩溃阈值;在判断模块的判断结果为否的情况下,终止模块26用于终止爬取程序的工作;在判断模块的判断结果为是的情况下,第一控制模块28用于控制爬取程序继续工作。通过判断模块24得出的当前崩溃次数与预设崩溃阈值的关系,终止模块26或第一控制模块28自动控制爬取的终止或进行,在一定程度上解决了相关技术中爬虫频繁崩溃占用大量系统资源的问题,达到了自动检测并终止崩溃的爬虫的效果。
在一个可选的实施例中,装置还可以包括启动模块,用于使用正在爬取状态的第一标识设置数据库中的当前爬取的网站的状态标志位,启动爬取程序;修改模块,在爬取程序返回的数据为异常数据的情况下,用于判断出爬取程序崩溃,使用中断爬取状态的第二标识修改当前爬取的网站的状态标志位,并将数据库中记录的当前爬取的网站的当前崩溃次数加一。从而可以根据是否含有异常数据判断当前的爬取状态,并修改爬取标识位,以便根据当前的爬取标识做出处理。
上述可选实施例提供了在爬取程序返回异常数据的处理方法,本发明还提供了另一个可选的实施例,装置还包括:第一设置模块,在启动爬取程序之后,若爬取程序爬取网站的所有网络资源地址返回的数据均未出现异常,用于确定爬取程序成功爬取网站,使用正在爬取状态的第一标识设置将网站的状态标志位。从而可以根据当前的爬取状态设置对应的爬取标识,以便根据当前的爬取标识做出处理。
如果判断出爬取程序崩溃,在一个可选的实施例中,装置还包括:读取模块,在判断出爬取程序崩溃之后,用于读取异常数据中的错误代码;输出模块,用于获取错误代码的爬取崩溃信息,并输出爬取崩溃信息。从而可以将崩溃信息发送给相应人员,以便进行优化处理。
在一个可选的实施例中,若当前崩溃次数不小于预设崩溃阈值,在终止爬取程序的工作的同时,装置还可以包括:第二设置模块,用于使用终止爬取状态的第三标识设置当前爬取的网站的状态标志位。
相应的,若当前崩溃次数小于预设崩溃阈值,在控制爬取程序继续工作的同时,装置也可以包括:第三设置模块,用于使用正在爬取状态的第二标识设置当前爬取的网站的状态标志位。
从而根据当前对于爬取程序的崩溃次数的判断,更新当前的爬取的网站的状态标志位,以便在下次启动爬取程序时,可以做出相应处理。
以上各个可选实施例中,为确定状态标志位为中断爬取状态下的实施例,在一个可选的实施例中,数据处理装置还可以包括:第二控制模块,用于在确定状态标志位指示的爬取状态之后,若状态标志位指示的爬取状态为正在爬取状态或终止爬取状态,则退出,也即退出该数据处理流程,从而实现了爬取程序对各个爬取状态的处理。
本实施例中所提供的各个模块与方法实施例对应步骤所提供的使用方法相同、应用场景也可以相同。当然,需要注意的是,上述模块涉及的方案可以不限于上述实施例中的内容和场景,且上述模块可以运行在计算机终端或移动终端,可以通过软件或硬件实现。
从以上的描述中,可以看出,本发明实现了如下技术效果:本发明提出了一种用于网页爬取的数据处理方法及装置,可以通过记录爬虫的爬取状态以及崩溃的次数来对某网站频繁爬取崩溃的爬虫,提供自动终止的功能。并可以通过邮件发送给系统管理人员,以便系统管理人员作出优化处理。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
下面,结合具体的实施环境,对本发明的用于网页爬取的数据处理方法进行描述。图3是根据本发明可选实施例的用于网页爬取的数据处理方法的流程图,如图3所示, 该流程包括:
步骤S302,启动爬虫程序。
具体地,可以在数据库中存储每个网站对应的profile信息,profile包括网站URL,爬取的状态,最大崩溃次数,当前崩溃次数。
步骤S304,在爬虫程序启动时,设置网站的爬取状态。
可选地,可以在数据库中的爬取状态上设置为1,表示爬虫正在爬取。当爬虫崩溃时,设置异常触发机制,并标志profile对应的抓取状态为2,表示爬取中断。同时将当前崩溃次数加1。
步骤S306,判断爬取状态是否为中断爬取状态。
其中,若爬取状态为正在爬取状态或终止爬取状态,则返回;若爬取状态为中断爬取状态,则执行步骤S308。
可选地,下次爬虫重新被调度时首先判断其爬取的profile信息的状态标志位是否为1或3,是则直接返回。否则,当爬取状态为2时,则执行步骤S308。
步骤S308:查看当前崩溃次数是否达到设定的阈值。
在该实施例中可以查看当前崩溃次数是否大于等于设定的阈值,若大于等于设定的阈值,则确定达到设定的阈值;若小于设定的阈值,则确定未达到设定的阈值。
如果达到则执行步骤S310,终止爬取,同时可以网站爬取状态标志设置为3,通知系统管理员,并返回。这里,网站爬取标识位3标识,终止爬取。
如果未达到则执行步骤S312,继续爬取,同时可以网站爬取状态标志设置为1。
若爬虫爬取成功,则将爬取的状态标志设置为1。
本可选实施例中,通过设置最大崩溃阈值,能够有限的防治爬虫频繁崩溃而占用系统的资源的问题,能够对频繁崩溃的爬虫自动终止,提高爬取效率,解决系统性能。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、移动终端、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种用于网页爬取的数据处理方法,其特征在于,包括:
在启动爬取程序之后,获取所述爬取程序当前爬取的网站的状态标志位;
确定所述状态标志位指示的爬取状态;
若所述状态标志位指示的所述爬取状态为中断爬取状态,则判断数据库中记录的当前崩溃次数是否小于预设崩溃阈值;
若所述当前崩溃次数不小于所述预设崩溃阈值,则终止所述爬取程序的工作;
若所述当前崩溃次数小于所述预设崩溃阈值,则控制所述爬取程序继续工作。
2.根据权利要求1所述的数据处理方法,其特征在于,
启动爬取程序包括:使用正在爬取状态的第一标识设置所述数据库中的所述当前爬取的网站的状态标志位;
在启动爬取程序之后,所述数据处理方法还包括:
若所述爬取程序返回的数据为异常数据,则判断出所述爬取程序崩溃,使用所述中断爬取状态的第二标识修改所述当前爬取的网站的状态标志位,并将所述数据库中记录的所述当前爬取的网站的当前崩溃次数加一。
3.根据权利要求2所述的数据处理方法,其特征在于,在启动爬取程序之后,所述数据处理方法还包括:
若所述爬取程序爬取所述网站的所有网络资源地址返回的数据均未出现异常,则确定所述爬取程序成功爬取所述网站,使用正在爬取状态的第一标识设置将所述网站的状态标志位。
4.根据权利要求2所述的数据处理方法,其特征在于,在判断出所述爬取程序崩溃之后,所述数据处理方法还包括:
读取所述异常数据中的错误代码;
获取所述错误代码的爬取崩溃信息,并输出所述爬取崩溃信息。
5.根据权利要求1至4中任意一项所述的数据处理方法,其特征在于,
若所述当前崩溃次数不小于所述预设崩溃阈值,在终止所述爬取程序的工作的同时,所述数据处理方法还包括:使用终止爬取状态的第三标识设置所述当前爬取的网站的状态标志位;
若所述当前崩溃次数小于所述预设崩溃阈值,在控制所述爬取程序继续工作的同时,所述处理方法还包括:使用正在爬取状态的第二标识设置所述当前爬取的网站的状态标志位。
6.根据权利要求1至4中任意一项所述的数据处理方法,其特征在于,在确定所述状态标志位指示的爬取状态之后,所述数据处理方法还包括:
若所述状态标志位指示的爬取状态为正在爬取状态或终止爬取状态,则退出。
7.一种用于网页爬取的数据处理装置,其特征在于,包括:
获取模块,在启动爬取程序之后,用于获取所述爬取程序当前爬取的网站的状态标志位;
确定模块,用于确定所述状态标志位指示的爬取状态;
判断模块,在所述确定装置确定的所述爬取状态为中断爬取状态的情况下,用于判断数据库中记录的当前崩溃次数是否小于预设崩溃阈值;
终止模块,在所述判断模块的判断结果为否的情况下,用于终止所述爬取程序的工作;
第一控制模块,在所述判断模块的判断结果为是的情况下,用于控制所述爬取程序继续工作。
8.根据权利要求7所述的数据处理装置,其特征在于,
所述数据处理装置还包括:启动模块,用于使用正在爬取状态的第一标识设置所述数据库中的所述当前爬取的网站的状态标志位,启动爬取程序;
所述数据处理装置还包括:
修改模块,在所述爬取程序返回的数据为异常数据的情况下,用于判断出所述爬取程序崩溃,使用所述中断爬取状态的第二标识修改所述当前爬取的网站的状态标志位,并将所述数据库中记录的所述当前爬取的网站的当前崩溃次数加一。
9.根据权利要求8所述的数据处理装置,其特征在于,所述数据处理装置还包括:
第一设置模块,在启动爬取程序之后,若所述爬取程序爬取所述网站的所有网络资源地址返回的数据均未出现异常,用于确定所述爬取程序成功爬取所述网站,使用正在爬取状态的第一标识设置将所述网站的状态标志位。
10.根据权利要求8所述的数据处理装置,其特征在于,所述数据处理装置还包括:
读取模块,在判断出所述爬取程序崩溃之后,用于读取所述异常数据中的错误代码;
输出模块,用于获取所述错误代码的爬取崩溃信息,并输出所述爬取崩溃信息。
11.根据权利要求7至10中任意一项所述的数据处理装置,其特征在于,所述数据处理装置还包括:
第二设置模块,若所述当前崩溃次数不小于所述预设崩溃阈值,在终止所述爬取程序的工作的同时,用于使用终止爬取状态的第三标识设置所述当前爬取的网站的状态标志位;
第三设置模块,若所述当前崩溃次数小于所述预设崩溃阈值,在控制所述爬取程序继续工作的同时,用于使用正在爬取状态的第二标识设置所述当前爬取的网站的状态标志位。
12.根据权利要求7至10中任意一项所述的数据处理装置,其特征在于,所述数据处理装置还包括:
第二控制模块,在确定所述状态标志位指示的爬取状态之后,若所述状态标志位指示的爬取状态为正在爬取状态或终止爬取状态,则退出。
CN201410779304.2A 2014-12-15 2014-12-15 用于网页爬取的数据处理方法及装置 Active CN104537005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410779304.2A CN104537005B (zh) 2014-12-15 2014-12-15 用于网页爬取的数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410779304.2A CN104537005B (zh) 2014-12-15 2014-12-15 用于网页爬取的数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN104537005A true CN104537005A (zh) 2015-04-22
CN104537005B CN104537005B (zh) 2018-04-06

Family

ID=52852533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410779304.2A Active CN104537005B (zh) 2014-12-15 2014-12-15 用于网页爬取的数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN104537005B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106020866A (zh) * 2016-05-10 2016-10-12 北京金山安全软件有限公司 蓝屏处理方法、装置及终端
CN106095607A (zh) * 2016-06-12 2016-11-09 福建天晴数码有限公司 防御asp.net网站崩溃的方法及系统
CN106126361A (zh) * 2016-06-12 2016-11-16 福建天晴数码有限公司 防御Spring MVC网站崩溃的方法及系统
CN107423382A (zh) * 2017-07-13 2017-12-01 中国物品编码中心 网络爬取方法和装置
CN109298987A (zh) * 2017-07-25 2019-02-01 北京国双科技有限公司 一种检测网络爬虫运行状态的方法及装置
CN109302299A (zh) * 2017-07-25 2019-02-01 北京国双科技有限公司 一种网站断链检测方法及装置
CN112579860A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 数字翻页任务的处理方法及装置、存储介质和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103248625A (zh) * 2013-04-27 2013-08-14 北京京东尚科信息技术有限公司 一种网络爬虫运行异常监控方法和系统
CN103491165A (zh) * 2013-09-22 2014-01-01 复旦大学 自动检测屏蔽的通用分布式爬虫系统
CN104182462A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种用于房库网的网络爬虫服务系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103248625A (zh) * 2013-04-27 2013-08-14 北京京东尚科信息技术有限公司 一种网络爬虫运行异常监控方法和系统
CN103491165A (zh) * 2013-09-22 2014-01-01 复旦大学 自动检测屏蔽的通用分布式爬虫系统
CN104182462A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种用于房库网的网络爬虫服务系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106020866A (zh) * 2016-05-10 2016-10-12 北京金山安全软件有限公司 蓝屏处理方法、装置及终端
CN106095607A (zh) * 2016-06-12 2016-11-09 福建天晴数码有限公司 防御asp.net网站崩溃的方法及系统
CN106126361A (zh) * 2016-06-12 2016-11-16 福建天晴数码有限公司 防御Spring MVC网站崩溃的方法及系统
CN106095607B (zh) * 2016-06-12 2018-11-13 福建天晴数码有限公司 防御asp.net网站崩溃的方法及系统
CN107423382A (zh) * 2017-07-13 2017-12-01 中国物品编码中心 网络爬取方法和装置
CN109298987A (zh) * 2017-07-25 2019-02-01 北京国双科技有限公司 一种检测网络爬虫运行状态的方法及装置
CN109302299A (zh) * 2017-07-25 2019-02-01 北京国双科技有限公司 一种网站断链检测方法及装置
CN109302299B (zh) * 2017-07-25 2021-12-28 北京国双科技有限公司 一种网站断链检测方法及装置
CN112579860A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 数字翻页任务的处理方法及装置、存储介质和电子设备
CN112579860B (zh) * 2019-09-30 2024-06-21 北京国双科技有限公司 数字翻页任务的处理方法及装置、存储介质和电子设备

Also Published As

Publication number Publication date
CN104537005B (zh) 2018-04-06

Similar Documents

Publication Publication Date Title
CN104537005A (zh) 用于网页爬取的数据处理方法及装置
JP2019520624A (ja) ページコンポーネント動的レイアウト
CN106375483A (zh) 文件传输方法和装置
CN103096385B (zh) 一种流量控制的方法、装置及终端
CN102223416B (zh) 一种媒体文件的传输方法及系统
CN104125206B (zh) 一种客户端的硬件环境适配方法、装置、服务器及系统
WO2015183809A1 (en) Method and apparatus of prompting an update of an application
CN103927230A (zh) 一种内存使用状况的反馈方法及装置
CN106162362B (zh) 一种视频播放方法及播放器
WO2016183918A1 (zh) 存储空间处理方法及装置
CN106909281A (zh) 一种应用内界面切换方法及装置
CN103631942A (zh) 一种访问网页的方法、装置及浏览器
CN105117107A (zh) 应用程序图标管理方法及系统
CN104881273A (zh) 一种网页渲染的分析方法和终端设备
CN104965914A (zh) 一种页面显示方法及装置
CN105183291A (zh) 显示界面中的信息提取方法及系统
CN105550179A (zh) 一种网页收藏方法和浏览器插件
US10445397B2 (en) Method and apparatus for uploading information
CN103354990A (zh) 处理云平台中的虚拟机的系统和方法
CN109582549A (zh) 一种设备类型的识别方法及装置
CN103440281A (zh) 一种用于获取下载文件的方法、装置与设备
CN104504125A (zh) 网页数据监测方法和装置
EP2998885A1 (en) Method and device for information search
CN104484399A (zh) 网页页面的跳转处理方法和装置
CN108650251B (zh) 一种网络安全综合态势感知数据的显示处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Data processing method and device for webpage crawling

Effective date of registration: 20190531

Granted publication date: 20180406

Pledgee: Shenzhen Black Horse World Investment Consulting Co.,Ltd.

Pledgor: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Registration number: 2019990000503

CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

PP01 Preservation of patent right
PP01 Preservation of patent right

Effective date of registration: 20240604

Granted publication date: 20180406