CN112464066B - 一种数据爬取过程的监测方法及系统 - Google Patents

一种数据爬取过程的监测方法及系统 Download PDF

Info

Publication number
CN112464066B
CN112464066B CN202011341787.XA CN202011341787A CN112464066B CN 112464066 B CN112464066 B CN 112464066B CN 202011341787 A CN202011341787 A CN 202011341787A CN 112464066 B CN112464066 B CN 112464066B
Authority
CN
China
Prior art keywords
data
data crawling
abnormal
crawler
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011341787.XA
Other languages
English (en)
Other versions
CN112464066A (zh
Inventor
杨一未
方硕
易锦
赵嘉伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Information Technology Security Evaluation Center
Original Assignee
China Information Technology Security Evaluation Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Information Technology Security Evaluation Center filed Critical China Information Technology Security Evaluation Center
Priority to CN202011341787.XA priority Critical patent/CN112464066B/zh
Publication of CN112464066A publication Critical patent/CN112464066A/zh
Application granted granted Critical
Publication of CN112464066B publication Critical patent/CN112464066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system

Abstract

本申请提供了一种数据爬取过程的监测方法及系统,该方法通过结合检测数据爬取功能是否出现异常和检测爬虫程序的运行状态,确定数据爬取功能出现异常的原因,能提高确定数据爬取功能出现异常的原因的准确性,进而可以根据数据爬取功能出现异常的原因对数据爬取进行干预,提高数据爬取的可靠性。并且,在爬虫程序的运行状态为正常状态时,通过向被爬取对象发送探测报文,探测被爬取对象的网络状态、网站架构调整状态或防爬策略启动状态,得到探测结果,根据所述探测结果,确定数据爬取功能出现异常的原因,实现从爬虫程序自身之外的角度确定数据爬取功能出现异常的原因,提高数据爬取功能出现异常的原因的全面性,进一步提高数据爬取的可靠性。

Description

一种数据爬取过程的监测方法及系统
技术领域
本申请涉及数据采集技术领域,特别涉及一种数据爬取过程的监测方法及系统。
背景技术
爬虫程序是一种按照一定的规则,自动地抓取万维网信息的程序。目前,一般会通过检测爬虫程序是否正常运行来判断数据爬取是否正常,即,如果爬虫程序正常运行,则认为数据爬取正常。
但是,发明人发现,在爬虫程序运行正常时,会存在爬取不到数据的问题,因此,上述检测方式存在局限性,导致数据爬取的可靠性不高。
发明内容
为解决上述技术问题,本申请实施例提供一种数据爬取过程的监测方法及系统,以达到提高数据爬取的可靠性的目的,技术方案如下:
一种数据爬取过程的监测方法,包括:
检测爬虫程序的数据爬取功能是否出现异常;
若出现异常,则检测所述爬虫程序的运行状态;
若所述爬虫程序的运行状态为正常状态,则通过向被爬取对象发送探测报文,探测所述被爬取对象的网络状态、所述被爬取对象的网站架构是否发生调整或所述被爬取对象是否启动防爬策略,得到探测结果;
根据所述探测结果,确定所述数据爬取功能出现异常的原因;
若所述爬虫程序的运行状态为异常状态,则确定所述数据爬取功能出现异常的原因为所述爬虫程序异常运行。
所述根据所述探测结果,确定所述爬虫程序的采集数据功能出现异常的原因之后,还包括:
生成所述爬虫程序的采集数据功能出现异常的原因对应的告警信息,并输出所述告警信息。
所述检测所述爬虫程序的运行状态之前,还包括:
从检测出所述爬虫程序的数据爬取功能出现异常的时刻为起始时刻,开始计时,并判断计时时长是否到达设定时间阈值;
若到达所述设定时间阈值,则检测所述爬虫程序的运行状态;
若未到达所述设定时间阈值,则返回执行所述检测爬虫程序的数据爬取功能是否出现异常的步骤。
所述确定所述数据爬取功能出现异常的原因为所述爬虫程序异常运行之后,还包括:
重启所述爬虫程序。
所述探测报文,包括:
网络状态检测报文或数据爬取报文。
一种数据爬取过程的监测系统,包括:
第一检测模块,用于检测爬虫程序的数据爬取功能是否出现异常;
第二检测模块,用于若所述爬虫程序的数据爬取功能出现异常,则检测所述爬虫程序的运行状态;
探测模块,用于若所述爬虫程序的运行状态为正常状态,则通过向被爬取对象发送探测报文,探测所述被爬取对象的网络状态、所述被爬取对象的网站架构是否发生调整或所述被爬取对象是否启动防爬策略,得到探测结果;
第一确定模块,用于根据所述探测结果,确定所述数据爬取功能出现异常的原因;
第二确定模块,用于若所述爬虫程序的运行状态为异常状态,则确定所述数据爬取功能出现异常的原因为所述爬虫程序异常运行。
所述系统还包括:
告警模块,用于生成所述爬虫程序的采集数据功能出现异常的原因对应的告警信息,并输出所述告警信息。
所述系统还包括:
判断模块,用于在所述检测所述爬虫程序的运行状态之前,从检测出所述爬虫程序的数据爬取功能出现异常的时刻为起始时刻,开始计时,并判断计时时长是否到达设定时间阈值;
若到达所述设定时间阈值,则执行所述第二检测模块检测所述爬虫程序的运行状态;
若未到达所述设定时间阈值,则返回执行所述第一检测模块检测爬虫程序的数据爬取功能是否出现异常的步骤。
所述系统还包括:
重启模块,用于重启所述爬虫程序。
所述探测报文,包括:
网络状态检测报文或数据爬取报文。
与现有技术相比,本申请的有益效果为:
在本申请中,通过结合检测数据爬取功能是否出现异常和检测爬虫程序的运行状态,确定数据爬取功能出现异常的原因,能提高确定数据爬取功能出现异常的原因的准确性,进而可以根据数据爬取功能出现异常的原因对数据爬取进行干预,提高数据爬取的可靠性。
并且,在爬虫程序的运行状态为正常状态时,通过向被爬取对象发送探测报文,探测所述被爬取对象的网络状态、网站架构调整状态或防爬策略启动状态,得到探测结果,根据所述探测结果,确定所述数据爬取功能出现异常的原因,实现从爬虫程序自身之外的角度确定数据爬取功能出现异常的原因,提高数据爬取功能出现异常的原因的全面性,进一步提高数据爬取的可靠性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的一种数据爬取过程的监测方法实施例1的流程图;
图2是本申请提供的一种数据爬取过程的监测方法实施例2的流程图;
图3是本申请提供的一种数据爬取过程的监测方法实施例3的流程图;
图4是本申请提供的一种数据爬取过程的监测方法实施例4的流程图;
图5是本申请提供的一种数据爬取过程的监测系统的逻辑结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,为本申请提供的一种数据爬取过程的监测方法实施例1的流程图,该方法可以包括以下步骤:
步骤S11、检测爬虫程序的数据爬取功能是否出现异常。
本实施例中,检测爬虫程序的数据爬取功能是否出现异常,可以包括但不局限于:
判断爬虫程序应该爬取到的数据的字段是否变空;
或,判断爬虫程序应该爬取到的数据的格式是否错误。
若变空或格式错误,则说明出现异常。
若出现异常,则执行步骤S12。
步骤S12、检测所述爬虫程序的运行状态。
若所述爬虫程序的运行状态为正常状态,则执行步骤S13;若所述爬虫程序的运行状态为异常状态,则执行步骤S15。
步骤S13、通过向被爬取对象发送探测报文,探测所述被爬取对象的网络状态、所述被爬取对象的网站架构是否发生调整或所述被爬取对象是否启动防爬策略,得到探测结果。
本实施例中,探测报文可以包括但不局限于:网络状态检测报文或数据爬取报文。
其中,网络状态检测报文可以包括但不局限于:ICMP(因特网报文控制协议)报文或SNMP(简单网络管理协议,Simple Network Management Protocol)报文。
通过向被爬取对象发送网络状态检测报文,可以探测所述被爬取对象的网络状态,得到的探测结果为网络状态为断开或连接
通过向被爬取对象发送SNMP报文,可以探测所述被爬取对象的网站架构是否发生调整,并得到探测结果。探测结果为网站架构发生调整或网站架构未发生调整。
通过向被爬取对象发送数据爬取报文,可以探测所述被爬取对象的网站架构是否发生调整或所述被爬取对象是否启动防爬策略,并得到探测结果,若探测结果为未爬取到数据,则可以认为被爬取对象的网站架构发生调整或被爬取对象启动了防爬策略;若探测结果为爬取到数据,则可以认为被爬取对象的网站价格未发生调整或被爬取对象未启动防爬策略。
步骤S14、根据所述探测结果,确定所述数据爬取功能出现异常的原因。
根据所述探测结果,确定所述数据爬取功能出现异常的原因,可以包括:
若探测结果为网络状态为断开,则确定数据爬取功能出现异常的原因为被爬取对象网络断开;
若探测结果为网站架构发生调整,则确定数据爬取功能出现异常的原因为被爬取对象的网站架构发生调整;
若探测结果为未爬取到数据,则确定数据爬取功能出现异常的原因可能为被爬取对象启动防爬策略。
步骤S15、确定所述数据爬取功能出现异常的原因为所述爬虫程序异常运行。
在本申请中,通过结合检测数据爬取功能是否出现异常和检测爬虫程序的运行状态,确定数据爬取功能出现异常的原因,能提高确定数据爬取功能出现异常的原因的准确性,进而可以根据数据爬取功能出现异常的原因对数据爬取进行干预,提高数据爬取的可靠性。
并且,在爬虫程序的运行状态为正常状态时,通过向被爬取对象发送探测报文,探测所述被爬取对象的网络状态、网站架构调整状态或防爬策略启动状态,得到探测结果,根据所述探测结果,确定所述数据爬取功能出现异常的原因,实现从爬虫程序自身之外的角度确定数据爬取功能出现异常的原因,提高数据爬取功能出现异常的原因的全面性,进一步提高数据爬取的可靠性。
作为本申请另一可选实施例,参照图2,为本申请提供的一种数据爬取过程的监测方法实施例2的流程图,本实施例主要是对上述实施例1描述的数据爬取过程的监测方法的扩展方案,如图2所示,该方法可以包括但并不局限于以下步骤:
步骤S21、检测爬虫程序的数据爬取功能是否出现异常。
若出现异常,则执行步骤S22。
步骤S22、检测所述爬虫程序的运行状态。
若所述爬虫程序的运行状态为正常状态,则执行步骤S23;若所述爬虫程序的运行状态为异常状态,则执行步骤S25。
步骤S23、通过向被爬取对象发送探测报文,探测所述被爬取对象的网络状态、所述被爬取对象的网站架构是否发生调整或所述被爬取对象是否启动防爬策略,得到探测结果。
步骤S24、根据所述探测结果,确定所述数据爬取功能出现异常的原因;
步骤S25、确定所述数据爬取功能出现异常的原因为所述爬虫程序异常运行。
步骤S21-S25的详细过程可以参见实施例1中步骤S11-S15的相关介绍,在此不再赘述。
步骤S26、生成所述爬虫程序的采集数据功能出现异常的原因对应的告警信息,并输出所述告警信息。
本实施例中,生成所述爬虫程序的采集数据功能出现异常的原因对应的告警信息,能够使告警信息更具有针对性,并输出告警信息,保证能根据告警信息,准确及时的对数据爬取过程进行维护,提高数据爬取的可靠性。
作为本申请另一可选实施例,参照图3,为本申请提供的一种数据爬取过程的监测方法实施例3的流程图,本实施例主要是对上述实施例1描述的数据爬取过程的监测方法的扩展方案,如图3所示,该方法可以包括但并不局限于以下步骤:
步骤S31、检测爬虫程序的数据爬取功能是否出现异常。
若出现异常,则执行步骤S32。
步骤S31的详细过程可以参见实施例1中步骤S11的相关介绍,在此不再赘述。
步骤S32、从检测出所述爬虫程序的数据爬取功能出现异常的时刻为起始时刻,开始计时,并判断计时时长是否到达设定时间阈值。
若未到达设定时间阈值,则返回执行步骤S31;若到达设定时间阈值,则执行步骤S33。
本实施例中,设定时间阈值可以根据需要进行设置,在本申请中不做限制。
步骤S33、检测所述爬虫程序的运行状态。
若所述爬虫程序的运行状态为正常状态,则执行步骤S34;若所述爬虫程序的运行状态为异常状态,则执行步骤S36。
步骤S34、通过向被爬取对象发送探测报文,探测所述被爬取对象的网络状态、所述被爬取对象的网站架构是否发生调整或所述被爬取对象是否启动防爬策略,得到探测结果。
步骤S35、根据所述探测结果,确定所述数据爬取功能出现异常的原因;
步骤S36、确定所述数据爬取功能出现异常的原因为所述爬虫程序异常运行。
步骤S33-S36的详细过程可以参见实施例1中步骤S22-S25的相关介绍,在此不再赘述。
本实施例中,通过从检测出所述爬虫程序的数据爬取功能出现异常的时刻为起始时刻,开始计时,并判断计时时长是否到达设定时间阈值,在未到达设定时间阈值时,返回执行检测爬虫程序的数据爬取功能是否出现异常,增加检测数据爬取功能是否出现异常的次数,提高检测的数据爬取功能是否出现异常的准确性,提高检测的准确性。
作为本申请另一可选实施例,参照图4,为本申请提供的一种数据爬取过程的监测方法实施例4的流程图,本实施例主要是对上述实施例1描述的数据爬取过程的监测方法的扩展方案,如图4所示,该方法可以包括但并不局限于以下步骤:
步骤S41、检测爬虫程序的数据爬取功能是否出现异常。
若出现异常,则执行步骤S42。
步骤S42、检测所述爬虫程序的运行状态。
若所述爬虫程序的运行状态为正常状态,则执行步骤S43;若所述爬虫程序的运行状态为异常状态,则执行步骤S45。
步骤S43、通过向被爬取对象发送探测报文,探测所述被爬取对象的网络状态、所述被爬取对象的网站架构是否发生调整或所述被爬取对象是否启动防爬策略,得到探测结果。
步骤S44、根据所述探测结果,确定所述数据爬取功能出现异常的原因;
步骤S45、确定所述数据爬取功能出现异常的原因为所述爬虫程序异常运行。
步骤S41-S45的详细过程可以参见实施例1中步骤S11-S15的相关介绍,在此不再赘述。
步骤S46、重启所述爬虫程序。
本实施例中,在确定数据爬取功能出现异常的原因为爬虫程序异常运行时,重启爬虫程序,提高爬虫程序爬取数据的可靠性。
接下来对本申请提供的数据爬取过程的监测系统进行介绍,下文介绍的数据爬取过程的监测系统与上文介绍的数据爬取过程的监测方法可相互对应参照。
请参见图5,数据爬取过程的监测系统包括:第一检测模块100、第二检测模块200、探测模块300、第一确定模块400和第二确定模块500。
第一检测模块100,用于检测爬虫程序的数据爬取功能是否出现异常。
第二检测模块200,用于若所述爬虫程序的数据爬取功能出现异常,则检测所述爬虫程序的运行状态。
探测模块300,用于若所述爬虫程序的运行状态为正常状态,则通过向被爬取对象发送探测报文,探测所述被爬取对象的网络状态、所述被爬取对象的网站架构是否发生调整或所述被爬取对象是否启动防爬策略,得到探测结果。
本实施例中,探测报文可以包括但不局限于网络状态检测报文或数据爬取报文。
第一确定模块400,用于根据所述探测结果,确定所述数据爬取功能出现异常的原因。
第二确定模块500,用于若所述爬虫程序的运行状态为异常状态,则确定所述数据爬取功能出现异常的原因为所述爬虫程序异常运行。
本实施例中,数据爬取过程的监测系统还可以包括:
告警模块,用于生成所述爬虫程序的采集数据功能出现异常的原因对应的告警信息,并输出所述告警信息。
本实施例中,数据爬取过程的监测系统还可以包括:
判断模块,用于在所述检测所述爬虫程序的运行状态之前,从检测出所述爬虫程序的数据爬取功能出现异常的时刻为起始时刻,开始计时,并判断计时时长是否到达设定时间阈值;
若到达所述设定时间阈值,则执行所述第二检测模块200检测所述爬虫程序的运行状态;
若未到达所述设定时间阈值,则返回执行所述第一检测模块100检测爬虫程序的数据爬取功能是否出现异常的步骤。
本实施例中,数据爬取过程的监测系统还可以包括:
重启模块,用于重启所述爬虫程序。
需要说明的是,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
以上对本申请所提供的一种固态硬盘的安全防护方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (8)

1.一种数据爬取过程的监测方法,其特征在于,包括:
检测爬虫程序的数据爬取功能是否出现异常;所述检测爬虫程序的数据爬取功能是否出现异常包括:判断爬虫程序应该爬取到的数据的字段是否变空;或,判断爬虫程序应该爬取到的数据的格式是否错误;若变空或格式错误,则所述数据爬取功能出现异常;
若出现异常,则检测所述爬虫程序的运行状态;
若所述爬虫程序的运行状态为正常状态,则通过向被爬取对象发送探测报文,探测所述被爬取对象的网络状态、所述被爬取对象的网站架构是否发生调整或所述被爬取对象是否启动防爬策略,得到探测结果;
根据所述探测结果,确定所述数据爬取功能出现异常的原因;所述根据所述探测结果,确定所述数据爬取功能出现异常的原因,包括:若所述探测结果为所述网络状态为断开,则确定所述数据爬取功能出现异常的原因为所述被爬取对象的网络断开;若所述探测结果为所述网站架构发生调整,则确定所述数据爬取功能出现异常的原因为所述被爬取对象的网站架构发生调整;若所述探测结果为未爬取到数据,则确定所述数据爬取功能出现异常的原因为所述被爬取对象启动防爬策略;
若所述爬虫程序的运行状态为异常状态,则确定所述数据爬取功能出现异常的原因为所述爬虫程序异常运行;
所述检测所述爬虫程序的运行状态之前,还包括:
从检测出所述爬虫程序的数据爬取功能出现异常的时刻为起始时刻,开始计时,并判断计时时长是否到达设定时间阈值;
若到达所述设定时间阈值,则检测所述爬虫程序的运行状态;
若未到达所述设定时间阈值,则返回执行所述检测爬虫程序的数据爬取功能是否出现异常的步骤。
2.根据权利要求1所述的方法,其特征在于,所述根据所述探测结果,确定所述爬虫程序的采集数据功能出现异常的原因之后,还包括:
生成所述爬虫程序的采集数据功能出现异常的原因对应的告警信息,并输出所述告警信息。
3.根据权利要求1所述的方法,其特征在于,所述确定所述数据爬取功能出现异常的原因为所述爬虫程序异常运行之后,还包括:
重启所述爬虫程序。
4.根据权利要求1-3任意一项所述的方法,其特征在于,所述探测报文,包括:
网络状态检测报文或数据爬取报文。
5.一种数据爬取过程的监测系统,其特征在于,包括:
第一检测模块,用于检测爬虫程序的数据爬取功能是否出现异常;所述第一检测模块,具体用于判断爬虫程序应该爬取到的数据的字段是否变空;或,判断爬虫程序应该爬取到的数据的格式是否错误;若变空或格式错误,则所述数据爬取功能出现异常;
第二检测模块,用于若所述爬虫程序的数据爬取功能出现异常,则检测所述爬虫程序的运行状态;
探测模块,用于若所述爬虫程序的运行状态为正常状态,则通过向被爬取对象发送探测报文,探测所述被爬取对象的网络状态、所述被爬取对象的网站架构是否发生调整或所述被爬取对象是否启动防爬策略,得到探测结果;
第一确定模块,用于根据所述探测结果,确定所述数据爬取功能出现异常的原因;所述第一确定模块,具体用于若所述探测结果为所述网络状态为断开,则确定所述数据爬取功能出现异常的原因为所述被爬取对象的网络断开;若所述探测结果为所述网站架构发生调整,则确定所述数据爬取功能出现异常的原因为所述被爬取对象的网站架构发生调整;若所述探测结果为未爬取到数据,则确定所述数据爬取功能出现异常的原因为所述被爬取对象启动防爬策略;
第二确定模块,用于若所述爬虫程序的运行状态为异常状态,则确定所述数据爬取功能出现异常的原因为所述爬虫程序异常运行;
所述系统还包括:
判断模块,用于在所述检测所述爬虫程序的运行状态之前,从检测出所述爬虫程序的数据爬取功能出现异常的时刻为起始时刻,开始计时,并判断计时时长是否到达设定时间阈值;
若到达所述设定时间阈值,则执行所述第二检测模块检测所述爬虫程序的运行状态;
若未到达所述设定时间阈值,则返回执行所述第一检测模块检测爬虫程序的数据爬取功能是否出现异常的步骤。
6.根据权利要求5所述的系统,其特征在于,所述系统还包括:
告警模块,用于生成所述爬虫程序的采集数据功能出现异常的原因对应的告警信息,并输出所述告警信息。
7.根据权利要求5所述的系统,其特征在于,所述系统还包括:
重启模块,用于重启所述爬虫程序。
8.根据权利要求5-7任意一项所述的系统,其特征在于,所述探测报文,包括:
网络状态检测报文或数据爬取报文。
CN202011341787.XA 2020-11-25 2020-11-25 一种数据爬取过程的监测方法及系统 Active CN112464066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011341787.XA CN112464066B (zh) 2020-11-25 2020-11-25 一种数据爬取过程的监测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011341787.XA CN112464066B (zh) 2020-11-25 2020-11-25 一种数据爬取过程的监测方法及系统

Publications (2)

Publication Number Publication Date
CN112464066A CN112464066A (zh) 2021-03-09
CN112464066B true CN112464066B (zh) 2024-03-15

Family

ID=74808140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011341787.XA Active CN112464066B (zh) 2020-11-25 2020-11-25 一种数据爬取过程的监测方法及系统

Country Status (1)

Country Link
CN (1) CN112464066B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103248625A (zh) * 2013-04-27 2013-08-14 北京京东尚科信息技术有限公司 一种网络爬虫运行异常监控方法和系统
CN105893583A (zh) * 2016-04-01 2016-08-24 北京鼎泰智源科技有限公司 基于人工智能的数据采集方法及系统
CN107301115A (zh) * 2017-06-26 2017-10-27 中国铁道科学研究院电子计算技术研究所 应用程序异常监控和恢复方法及设备
CN109818828A (zh) * 2019-02-20 2019-05-28 成都嗨翻屋科技有限公司 一种分布式爬虫系统监控方法及装置
CN110968779A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 网页信息爬取的处理方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503017A (zh) * 2015-09-08 2017-03-15 摩贝(上海)生物科技有限公司 一种分布式爬虫系统任务抓取系统和方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103248625A (zh) * 2013-04-27 2013-08-14 北京京东尚科信息技术有限公司 一种网络爬虫运行异常监控方法和系统
CN105893583A (zh) * 2016-04-01 2016-08-24 北京鼎泰智源科技有限公司 基于人工智能的数据采集方法及系统
CN107301115A (zh) * 2017-06-26 2017-10-27 中国铁道科学研究院电子计算技术研究所 应用程序异常监控和恢复方法及设备
CN110968779A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 网页信息爬取的处理方法和装置
CN109818828A (zh) * 2019-02-20 2019-05-28 成都嗨翻屋科技有限公司 一种分布式爬虫系统监控方法及装置

Also Published As

Publication number Publication date
CN112464066A (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
CN108737574B (zh) 一种节点离线判断方法、装置、设备及可读存储介质
RU2598794C2 (ru) Способ и устройство для определения устранения отказа на базе протокола эксплуатации, администрирования и технического обслуживания (оам)
CN104065526B (zh) 一种服务器故障报警的方法和装置
CN111309562B (zh) 服务器故障的预测方法、装置、设备和存储介质
CN104883282A (zh) 终端的dns服务器的监控方法及系统
CN111901176B (zh) 故障确定方法、装置、设备及存储介质
KR100736540B1 (ko) 웹 서버 위/변조 감시장치 및 그 방법
CN112738238A (zh) 一种负载均衡中健康检查的方法、装置以及系统
CN112464066B (zh) 一种数据爬取过程的监测方法及系统
EP4206839A1 (en) Method for managing ecu on vehicle, and ecu and readable storage medium
CN113688021B (zh) 一种负载均衡服务处理方法、装置、设备及可读存储介质
JP2010244137A (ja) 障害情報収集装置
JP2007028118A (ja) ノード装置の故障判断方法
CN113612647B (zh) 一种告警处理方法及装置
CN104408059A (zh) 一种故障处理的方法及装置
CN114296979A (zh) 一种检测物联网设备异常状态的方法及装置
JP2004086278A (ja) 装置障害監視方法および装置障害監視システム
JP6984119B2 (ja) 監視装置、監視プログラム、及び監視方法
WO2022015313A1 (en) Generation of alerts of correlated time-series behavior of environments
CN116056123B (zh) 一种设备检测方法、装置、电子设备及存储介质
CN112069476B (zh) 一种登录状态检测方法、装置、设备及可读存储介质
WO2024082375A1 (zh) 一种基于区块链的网页防篡改监控方法、系统及存储介质
CN112929354B (zh) 一种实用型拜占庭容错抗攻击死锁的方法及装置
CN107168855A (zh) 一种文件拷贝的监控方法及装置
CN117471965A (zh) 智能驾驶域控系统健康监控方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant