CN110968754A - 一种爬虫翻页策略的检测方法及装置 - Google Patents

一种爬虫翻页策略的检测方法及装置 Download PDF

Info

Publication number
CN110968754A
CN110968754A CN201811142844.4A CN201811142844A CN110968754A CN 110968754 A CN110968754 A CN 110968754A CN 201811142844 A CN201811142844 A CN 201811142844A CN 110968754 A CN110968754 A CN 110968754A
Authority
CN
China
Prior art keywords
crawled
crawler
actual
web page
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811142844.4A
Other languages
English (en)
Other versions
CN110968754B (zh
Inventor
张野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201811142844.4A priority Critical patent/CN110968754B/zh
Publication of CN110968754A publication Critical patent/CN110968754A/zh
Application granted granted Critical
Publication of CN110968754B publication Critical patent/CN110968754B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种爬虫翻页策略的检测方法及装置,其中,方法包括:获取网站的目标网页数、预设爬取网页数以及实际爬取网页数;所述目标网页数为包含目标信息的网页数;所述预设爬取网页数为爬虫能够爬取网页数的上限值;所述实际爬取网页数为爬虫实际爬取的网页数;依据所述目标网页数、所述预设爬取网页数以及所述实际爬取网页数,检测所述爬虫翻页策略是否正常。通过本申请实施例,使得依据网站的目标网页数、预设爬取网页数以及实际爬取网页数可以检测当前爬虫的翻页策略是否正常。

Description

一种爬虫翻页策略的检测方法及装置
技术领域
本发明涉及爬虫技术,特别涉及一种爬虫翻页策略的检测方法及装置。
背景技术
爬虫是一种按照一定的规则,自动从网站中爬取所需目标信息的程序或者脚本。
网站中包含目标信息的页面有多个,爬虫需要从多个页面中爬取目标信息的过程包括:爬虫中包括翻页策略,使得按照翻页策略获取当前需访问页面的链接,爬取所获取页面中的目标信息,接着,按照翻页策略获取当前页面的下一个页面链接,并爬取所获取的页面中的目标信息,依次循环,实现对网站中的多个页面进行翻页,并爬取目标信息。
在实际应用中,若爬虫翻页策略正常,即爬虫能够对网站所提供的包含目标信息的网页都进行爬取,或者爬虫能够从网站所提供的包含目标信息的网页中,爬取所需数的网页。但是,不同的网站具有不同的特点,可能出现爬虫的翻页策略不适用于网站的情况,即针对网站来说,爬虫的翻页策略异常。例如,爬虫的翻页策略异常表现在爬虫无法获取到网站某些页面的链接,导致爬虫不能爬取某些页面的目标信息。由于爬虫爬取的目标信息对用户具有较大影响,因此,需要一种检测爬虫翻页策略是否正常的方法,即检测爬虫翻页策略是否能够使爬虫从包含目标信息的网页中,爬取所需数的网页,从而为业务人员与运行人员提供参考信息。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的爬虫翻页策略的检测方法及装置。
其中,一种爬虫翻页策略的检测方法,包括:
获取网站的目标网页数、预设爬取网页数以及实际爬取网页数;所述目标网页数为包含目标信息的网页数;所述预设爬取网页数为爬虫能够爬取网页数的上限值;所述实际爬取网页数为爬虫实际爬取的网页数;
依据所述目标网页数、所述预设爬取网页数以及所述实际爬取网页数,检测所述爬虫翻页策略是否正常。
其中,所述依据所述目标网页数、所述预设爬取网页数以及所述实际爬取网页数,检测所述爬虫翻页策略是否正常,包括:
若所述目标网页数等于所述实际爬取网页数,则确定所述爬虫翻页策略正常;
或者,若所述目标网页数大于所述实际爬取网页数,并且所述预设网页数等于所述实际爬取网页数,则确定所述爬虫翻页策略正常。
其中,所述依据所述目标网页数、所述预设爬取网页数以及所述实际爬取网页数,检测所述爬虫翻页策略是否正常,还包括:
第一种情况:若所述目标网页数大于所述实际爬取网页数,并且所述预设网页数大于所述实际爬取网页数,则确定所述爬虫翻页策略异常;或者,
第二种情况:若所述目标网页数小于所述实际爬取网页数,则确定所述爬虫翻页策略异常。
其中,还包括:
确定所述第一种情况的异常原因及建议解决方案;所述第一种情况的异常原因包括:所述爬虫爬取所述目标信息过程中,网页的源码中未显示下一页对应的URL;所述第一种情况的建议解决方案包括:所述爬虫爬取所述目标信息过程中,对所述网页的源码进行渲染;和/或,
确定所述第二种情况的异常原因及建议解决方案;所述第二种情况的异常原因包括:基于所述包含所述目标信息的网页下架,导致的爬虫翻页策略异常的检测结果不准确;所述第二种情况的建议解决方案包括:依据所述爬虫重新爬取所述目标信息得到的所述实际爬取网页数,重新检测所述爬虫翻页策略是否异常;和/或
显示所述异常原因及建议解决方案。
其中,所述获取所述实际爬取网页数,包括:
获取所述爬虫在距离当前最近一次爬取所述目标信息的过程中,实际爬取的网页数,得到所述实际爬取网页数。
其中,所述获取所述爬虫在距离当前最近一次爬取所述目标信息的过程中,实际爬取的网页数,包括:
获取距离当前最近一次爬取所述目标信息对应的任务标识;
依据预先记录的任务标识与爬虫实际爬取的网页数之间的对应关系,确定所述任务标识对应的实际爬取的网页数;
获取所述实际爬取的网页数。
本申请还公开了一种爬虫翻页策略的检测装置,包括:
获取单元,用于获取网站的目标网页数、预设爬取网页数以及实际爬取网页数;所述目标网页数为包含目标信息的网页数;所述预设爬取网页数为爬虫能够爬取网页数的上限值;所述实际爬取网页数为爬虫实际爬取的网页数;
检测单元,用于依据所述目标网页数、所述预设爬取网页数以及所述实际爬取网页数,检测所述爬虫翻页策略是否正常。
其中,所述检测单元,包括:
第一确定子单元,用于若所述目标网页数等于所述实际爬取网页数,则确定所述爬虫翻页策略正常;或者,所述目标网页数大于所述实际爬取网页数,并且所述预设网页数等于所述实际爬取网页数,则确定所述爬虫翻页策略正常。
其中,所述检测单元,还可以包括:
第二确定子单元,用于第一种情况:若所述目标网页数大于所述实际爬取网页数,并且所述预设网页数大于所述实际爬取网页数,则确定所述爬虫翻页策略异常;或者,第二种情况:若所述目标网页数小于所述实际爬取网页数,则确定所述爬虫翻页策略异常。
其中,还可以包括:
第一确定单元,用于确定所述第一种情况的异常原因及建议解决方案;所述第一种情况的异常原因包括:所述爬虫爬取所述目标信息过程中,网页的源码中未显示下一页对应的URL;所述第一种情况的建议解决方案包括:所述爬虫爬取所述目标信息过程中,对所述网页的源码进行渲染;和/或,
第二确定单元,用于确定所述第二种情况的异常原因及建议解决方案;所述第二种情况的异常原因包括:基于所述包含所述目标信息的网页下架,导致的爬虫翻页策略异常的检测结果不准确;所述第二种情况的建议解决方案包括:依据所述爬虫重新爬取所述目标信息得到的所述实际爬取网页数,重新检测所述爬虫翻页策略是否异常;和/或
显示单元,用于显示所述异常原因及建议解决方案。
其中,获取单元在获取所示实际爬取网页数时,具体用于获取所述爬虫在距离当前最近一次爬取所述目标信息的过程中,实际爬取的网页数,得到所述实际爬取网页数。
其中,获取单元可以包括:
第一获取子单元,用于获取距离当前最近一次爬取所述目标信息对应的任务标识;
实际爬取网页数确定子单元,用于依据预先记录的任务标识与爬虫实际爬取的网页数之间的对应关系,确定所述任务标识对应的实际爬取的网页数;
第二获取子单元,用于获取所述实际爬取的网页数。
一种存储介质,所述存储介质上存储有程序,所述程序被处理器执行上述任意一项所述的爬虫翻页策略的检测方法。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的爬虫翻页策略的检测方法。
本申请实施例的有益效果为:
在本申请实施例中,当接收到检测指令时,获取网站的目标网页数、预设爬取网页数以及实际爬取网页数,由于网站的目标网页数与预设爬取网页数是不受爬虫翻页策略影响的,因此,在本申请实施例中,将目标网页数和预设爬取网页数作为衡量爬虫翻页策略是否正常的标准,使得依据网站的目标网页数、预设爬取网页数以及实际爬取网页数可以检测当前爬虫的翻页策略是否正常。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请中一种爬虫翻页策略的检测方法实施例的流程图;
图2示出了本申请中又一种爬虫翻页策略的检测方法实施例的流程图;
图3示出了本申请中又一种爬虫翻页策略的检测方法实施例的流程图;
图4示出了本申请中一种爬虫翻页策略检测装置实施例的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1为本申请中一种爬虫翻页策略的检测方法包括以下步骤:
步骤101:当接收到检测指令,获取网站的目标网页数、预设爬取网页数和实际爬取网页数。
在本实施例中,爬虫按照一定频率重复从网站中抓取目标信息,每次从网站中抓取目标信息的过程都是一次爬取过程。在本实施例中,网站的目标网页数表示对翻页策略进行检测时,网站显示的包含目标信息的页面的总数。业务人员通过在网站中查询目标信息,将查询出包含目标信息的页面数确定为网站的目标网页数。
例如,目标信息为“爬虫”以及网站为“百度”,此时,爬虫需要从百度中抓取与“爬虫”相关的信息,此时,业务人员将“爬虫”一词输入百度的搜索框内,得到包含“爬虫”这一目标信息的网页有10页,此时,网站的目标网页数为10。
预设爬取网页数表示爬虫在爬取目标信息过程中需要翻页的数,是爬虫需要爬取包含目标信息的网页的数的上限。该预设爬取网页数由业务人员事先根据经验值设置。在实际应用中,当实际爬取网页数达到预设爬取网页数时,即使当前网站中还存在未爬取的页面,此时,爬虫停止爬取,表示爬虫完成了当前爬取过程。
实际爬取网页数表示爬虫在爬取目标信息过程中在网站中实际翻页数。在本实施例中,当接收到对爬虫翻页策略的检测指令时,获取距离当前最近一次的爬取过程中爬虫实际翻页数。具体的,获取最近一次爬取过程中爬虫实际翻页数的方式可以包括:获取距离当前最近一次的爬取过程中的任务标识;依据日志表中保存的任务标识与实际爬取的网页数的对应关系,确定距离当前最近一次爬取过程中实际的爬取网页数。
需要说明的是,在判断爬虫翻页策略是否正常时,实际爬取网页数可以为历史任意一次实际爬取的网页数,本实施例不限定只能是距离当前最近一次的实际爬取的网页数;当然,在实际应用中,采用最近一次爬取过程中的实际爬取的网页数检测爬虫翻页策略,所检测出的翻页策略是否正常才有一定的实际意义。
步骤102:依据网站的目标网页数、预设爬取网页数以及实际爬取网页数,检测爬虫翻页策略是否正常。
在本实施例中,依据网站的目标网页数、预设爬取网页数以及实际爬取网页数,检测爬虫翻页策略是否正常的过程可以包括:
步骤A1:比较目标网页数与实际爬取网页数的大小,以及比较预设爬取网页数与实际爬取网页数的大小,得到比较结果。
对于比较结果存在以下四种情况:
第一种情况:网站的目标网页数大于实际爬取网页数,并且预设爬取网页数大于实际爬取网页数。
第二种情况:网站的目标网页数小于实际爬取网页数。
第三种情况:网站的目标网页数等于实际爬取网页数。
在实际应用中,当实际爬取网页数等于预设爬取网页数时,爬虫当前爬取过程就结束了,因此,实际爬取网页数大于预设爬取网页数,这种情况在实际应用中不会出现。
第四种情况:网站的目标网页数大于实际爬取网页数,并且实际爬取网页数等于预设爬取网页数。
步骤A2:依据比较结果,确定爬虫翻页策略是否正常。
当出现第一种情况时,确定当前爬虫翻页策略异常。
当出现第二种情况时,确定当前爬虫翻页策略异常。
当出现第三种情况时,确定当前爬虫翻页策略正常。
当出现第四种情况时,确定当前爬虫翻页策略正常。
具体的,在本步骤中,依据比较结果可以确定出多种检测爬虫翻页策略是否正常的方案,具体包括:
方案一:当出现第一种情况时,确定当前爬虫翻页策略异常。
方案二:当出现第二种情况时,确定当前爬虫翻页策略异常。
方案三:当出现第三种情况时,确定当前爬虫翻页策略正常。
方案四:当出现第四种情况时,确定当前爬虫翻页策略正常。
方案五:当出现第一种情况时,确定当前爬虫翻页策略异常;当出现第三种情况时,确定当前爬虫翻页策略正常。
方案六:当出现第二种情况时,确定当前爬虫翻页策略异常;当出现第三种情况时,确定当前爬虫翻页策略正常。
方案七:当出现第一种情况时,确定当前爬虫翻页策略异常;当出现第四种情况时,确定当前爬虫翻页策略正常。
方案八:当出现第二种情况时,确定当前爬虫翻页策略异常;当出现第四种情况时,确定当前爬虫翻页策略正常。
需要说明的是,在实际应用中,在本步骤中,确定出爬虫翻页策略异常的情况下,即在第一种情况发生的情况下或在第二种情况发生的情况下,可以进行以下三个操作中的任意一个、任意两个或三个。
三个操作为:确定第一种情况的异常原因以及建议解决方案;确定第二种情况的异常原因及建议解决方案;显示异常原因及建议解决方案。
由于三个操作的组合所形成的方案较多,在本申请中以确定第一种情况的异常原因及建议解决方案为一个实施例,以及以确定第二种情况的异常原因及建议解决方案为一个实施例进行介绍。对于其他可能的方案的具体实现过程可以以这两个实施例为参考,这里就不再赘述。
参考图2,示出了本申请中又一种爬虫翻页策略的检测方法实施例,包括:
步骤201:当接收到检测指令,获取网站的目标网页数、预设爬取网页数和实际爬取网页数。
具体过程可以参考图1对应的实施例中的步骤101,这里不再赘述。
步骤202:依据网站的目标网页数、预设爬取网页数以及实际爬取网页数,检测爬虫翻页策略是否正常。
具体过程可以参考图1对应的实施例中的步骤102,这里不再赘述。
步骤203:当第一种情况发生时,确定第一种情况的异常原因及建议解决方案。
其中,具体的,可以从预设的多种异常原因中,确定第一种情况发生的异常原因;从预设的多种建议解决方案中,确定第一种情况的建议解决方案。
其中,预设的多种异常原因可以包括:爬虫在爬取目标信息的过程中,网页的源码中未显示下一页对应的URL;爬虫依据所获取的下一页链接后,一直在访问同一个页面;基于包含所述目标信息的网页下架,导致的爬虫翻页策略异常的检测结果不准确;具体而言:在爬虫完成爬取过程之后,并且在检测爬虫翻页策略之前,网站的某些网页下架了,此时所得到的检测结果是不准确的。
其中,预设的多种建议解决方案可以包括:爬虫爬取目标信息过程中对网页的源码进行渲染;调整爬虫翻页策略;依据爬虫重新爬取目标信息得到的实际爬取网页数,重新检测爬虫翻页策略是否异常。
具体的,从预设的多种异常原因中确定第一种情况发生的异常原因的过程包括:事先建立异常原因与标识间的对应关系;在本步骤中,当第一种情况发生时,获取第一种情况对应的标识;并依据所获取的标识以及预设的对应关系,确定所获取的标识对应的异常原因为第一种情况发生的异常原因。在本实施例中,当第一种情况发生的异常原因可以为:爬虫在爬取目标信息的过程中,网页的源码中未显示下一页对应的URL。
在一个实施例中,第一种情况的异常原因包括:爬虫爬取目标信息过程中,网页的源码中未显示下一页对应的URL;第一种情况的建议解决方案包括:爬虫爬取目标信息过程中,对网页的源码进行渲染。
在另外一个实施例中,确定第二种情况的异常原因及建议解决方案;第二种情况的异常原因包括:基于包含所述目标信息的网页下架,导致的爬虫翻页策略异常的检测结果不准确;第二种情况的建议解决方案包括:依据爬虫重新爬取目标信息得到的实际爬取网页数,重新检测爬虫翻页策略是否异常。
从预设的多种解决方案中确定第一种情况的建议解决方案的方法,与确定第一种情况发生的异常原因的方法相同,这里不再赘述。具体的,在本实施例中,第一种情况的建议解决方案为:爬虫爬取目标信息过程中对网页的源码进行渲染。
在实际应用中,在确定出第一种情况发生的异常原因及建议解决方案后,还可以显示所确定出的异常原因与建议解决方案,当然,是否显示需要根据实际情况确定,本实施例不对具体内容作限定。
在实际应用中,在执行步骤201与步骤202之后,当第一种情况发生时,不执行步骤203,而是直接显示第一种情况发生的异常原因以及建议解决方案。具体的,事先设置了第一种情况对应的异常原因以及建议解决方案,此时,当第一种情况发生时,直接显示第一种情况发生的异常原因以及建议解决方案。
在本实施例中,当第一种情况发生时,确定第一种情况发生的异常原因以及建议解决方案,并且还可以显示异常原因与建议解决方案,使得用户可以按照建议解决方案进行操作,进而节省用户时间;并且,对用户的专业要求较低。
参考图3,示出了本申请中又一种爬虫翻页策略的检测方法实施例,包括:
步骤301:当接收到检测指令,获取网站的目标网页数、预设爬取网页数和实际爬取网页数。
具体过程可以参考图1对应的实施例中的步骤101,这里不再赘述。
步骤302:依据网站的目标网页数、预设爬取网页数以及实际爬取网页数,检测爬虫翻页策略是否正常。
具体过程可以参考图1对应的实施例中的步骤102,这里不再赘述。
步骤303:当第二种情况发生时,确定第二种情况的异常原因及建议解决方案。
当第二种情况发生时,从预设的多种异常原因中确定第二种情况的异常原因的方法,与确定第一种情况的异常原因的方法相同,这里不再赘述。具体的,第二种情况发生的异常原因可以为:基于所述包含所述目标信息的网页下架,导致的爬虫翻页策略异常的检测结果不准确。
具体的,网站的某些网页下架导致检测结果不准确的例子可以为:预设爬取网页数为100、爬取过程中网站的目标网页数为100,并且实际爬取网页数为100;但是,在检测爬虫翻页策略是否正常之前,提供目标信息的网站中某些网页下架了,导致业务人员获取到的网站的目标网页数变成了80。此时,就出现了网页的目标网页数小于实际爬取网页数的情况,但是,此时的翻页策略可能没有异常,只是在该情况下检测结果不准确。
在本步骤中,从预设的多种建议解决方案中确定第二种情况的建议解决方案,具体的,确定第二种情况的建议解决方案的方法与确定第一种情况的建议解决方案的方向相同,这里不再赘述。在本实施例中,第二种情况的建议解决方案可以为依据爬虫重新爬取目标信息得到的实际爬取网页数,重新检测爬虫翻页策略是否异常。
还以上述网站的某些网页下架导致翻页策略异常的例子为例,爬虫重新按照预设爬取算法进行爬取,与之前爬取过程不同之处在于,在此次爬取的过程中,爬虫爬取的是网站当前所提供的网页。
假设,网站当前所提供的网页为80页,预设爬取网页数为100。在这种情况下,当接收到检测爬虫翻页策略是否正常的指令时,实际可能发生的结果为:网站的目标网页为80页,实际爬取网页数为80,预设爬取网页数为100;此时,依据重新爬取所得到的实际爬取网页数为80,此时,确定出爬虫翻页策略正常。
在实际应用中,当确定出第二种情况发生的异常原因以及建议解决方案后,还可以显示所确定出的异常原因以及建议解决方案。
在实际应用中,在执行步骤301与步骤302之后,当第二种情况发生时,不执行步骤303,而是直接显示第二种情况发生的异常原因以及建议解决方案。具体的,事先设置了第二种情况对应的异常原因以及建议解决方案,此时,当第二种情况发生时,直接显示第二种情况发生的异常原因以及建议解决方案。
在本实施例中,当第二种情况发生时,确定第二种情况发生的异常原因以及建议解决方案,并且还可以显示异常原因与建议解决方案,使得用户可以按照建议解决方案进行操作,进而节省用户时间;并且,对用户的专业要求较低。
参考图4,示出了本申请中一种爬虫翻页策略的检测装置实施例,可以包括:
获取单元401,用于获取网站的目标网页数、预设爬取网页数以及实际爬取网页数;所述目标网页数为包含目标信息的网页数;所述预设爬取网页数为爬虫能够爬取网页数的上限值;所述实际爬取网页数为爬虫实际爬取的网页数;
检测单元402,用于依据所述目标网页数、所述预设爬取网页数以及所述实际爬取网页数,检测所述爬虫翻页策略是否正常。
其中,所述检测单元402,可以包括:
第一确定子单元,用于若所述目标网页数等于所述实际爬取网页数,则确定所述爬虫翻页策略正常;或者,所述目标网页数大于所述实际爬取网页数,并且所述预设网页数等于所述实际爬取网页数,则确定所述爬虫翻页策略正常。
其中,所述检测单元402,还可以包括:
第二确定子单元,用于第一种情况:若所述目标网页数大于所述实际爬取网页数,并且所述预设网页数大于所述实际爬取网页数,则确定所述爬虫翻页策略异常;或者,第二种情况:若所述目标网页数小于所述实际爬取网页数,则确定所述爬虫翻页策略异常。
其中,本装置实施例还可以包括:
第一确定单元,用于确定所述第一种情况的异常原因及建议解决方案;所述第一种情况的异常原因包括:所述爬虫爬取所述目标信息过程中,网页的源码中未显示下一页对应的URL;所述第一种情况的建议解决方案包括:所述爬虫爬取所述目标信息过程中,对所述网页的源码进行渲染;和/或,
第二确定单元,用于确定所述第二种情况的异常原因及建议解决方案;所述第二种情况的异常原因包括:基于所述包含所述目标信息的网页下架,导致的爬虫翻页策略异常的检测结果不准确;所述第二种情况的建议解决方案包括:依据所述爬虫重新爬取所述目标信息得到的所述实际爬取网页数,重新检测所述爬虫翻页策略是否异常;和/或
显示单元,用于显示所述异常原因及建议解决方案。
其中,获取单元401在获取所示实际爬取网页数时,具体用于获取所述爬虫在距离当前最近一次爬取所述目标信息的过程中,实际爬取的网页数,得到所述实际爬取网页数。
其中,获取单元401可以包括:
第一获取子单元,用于获取距离当前最近一次爬取所述目标信息对应的任务标识;
实际爬取网页数确定子单元,用于依据预先记录的任务标识与爬虫实际爬取的网页数之间的对应关系,确定所述任务标识对应的实际爬取的网页数;
第二获取子单元,用于获取所述实际爬取的网页数。
所述爬虫翻页策略的检测装置包括处理器和存储器,上述获取单元和检测单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来检测爬虫翻页策略是否正常。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述爬虫翻页策略的检测方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述爬虫翻页策略的检测方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
获取网站的目标网页数、预设爬取网页数以及实际爬取网页数;所述目标网页数为包含目标信息的网页数;所述预设爬取网页数为爬虫能够爬取网页数的上限值;所述实际爬取网页数为爬虫实际爬取的网页数;
依据所述目标网页数、所述预设爬取网页数以及所述实际爬取网页数,检测所述爬虫翻页策略是否正常。
其中,所述依据所述目标网页数、所述预设爬取网页数以及所述实际爬取网页数,检测所述爬虫翻页策略是否正常,包括:
若所述目标网页数等于所述实际爬取网页数,则确定所述爬虫翻页策略正常;
或者,所述目标网页数大于所述实际爬取网页数,并且所述预设网页数等于所述实际爬取网页数,则确定所述爬虫翻页策略正常。
其中,所述依据所述目标网页数、所述预设爬取网页数以及所述实际爬取网页数,检测所述爬虫翻页策略是否正常,还包括:
第一种情况:若所述目标网页数大于所述实际爬取网页数,并且所述预设网页数大于所述实际爬取网页数,则确定所述爬虫翻页策略异常;或者,
第二种情况:若所述目标网页数小于所述实际爬取网页数,则确定所述爬虫翻页策略异常。
其中,还包括:
确定所述第一种情况的异常原因及建议解决方案;所述第一种情况的异常原因包括:所述爬虫爬取所述目标信息过程中,网页的源码中未显示下一页对应的URL;所述第一种情况的建议解决方案包括:所述爬虫爬取所述目标信息过程中,对所述网页的源码进行渲染;和/或,
确定所述第二种情况的异常原因及建议解决方案;所述第二种情况的异常原因包括:基于所述包含所述目标信息的网页下架,导致的爬虫翻页策略异常的检测结果不准确;所述第二种情况的建议解决方案包括:依据所述爬虫重新爬取所述目标信息得到的所述实际爬取网页数,重新检测所述爬虫翻页策略是否异常;和/或
显示所述异常原因及建议解决方案。
其中,所述获取所述实际爬取网页,包括:
获取所述爬虫在距离当前最近一次爬取所述目标信息的过程中,实际爬取的网页数,得到所述实际爬取网页数。
其中,所述获取所述爬虫在距离当前最近一次爬取所述目标信息的过程中,实际爬取的网页数,包括:
获取距离当前最近一次爬取所述目标信息对应的任务标识;
依据预先记录的任务标识与爬虫实际爬取的网页数之间的对应关系,确定所述任务标识对应的实际爬取的网页数;
获取所述实际爬取的网页数。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获取网站的目标网页数、预设爬取网页数以及实际爬取网页数;所述目标网页数为包含目标信息的网页数;所述预设爬取网页数为爬虫能够爬取网页数的上限值;所述实际爬取网页数为爬虫实际爬取的网页数;
依据所述目标网页数、所述预设爬取网页数以及所述实际爬取网页数,检测所述爬虫翻页策略是否正常。
其中,所述依据所述目标网页数、所述预设爬取网页数以及所述实际爬取网页数,检测所述爬虫翻页策略是否正常,包括:
若所述目标网页数等于所述实际爬取网页数,则确定所述爬虫翻页策略正常;
或者,所述目标网页数大于所述实际爬取网页数,并且所述预设网页数等于所述实际爬取网页数,则确定所述爬虫翻页策略正常。
其中,所述依据所述目标网页数、所述预设爬取网页数以及所述实际爬取网页数,检测所述爬虫翻页策略是否正常,还包括:
第一种情况:若所述目标网页数大于所述实际爬取网页数,并且所述预设网页数大于所述实际爬取网页数,则确定所述爬虫翻页策略异常;或者,
第二种情况:若所述目标网页数小于所述实际爬取网页数,则确定所述爬虫翻页策略异常。
其中,还包括:
确定所述第一种情况的异常原因及建议解决方案;所述第一种情况的异常原因包括:所述爬虫爬取所述目标信息过程中,网页的源码中未显示下一页对应的URL;所述第一种情况的建议解决方案包括:所述爬虫爬取所述目标信息过程中,对所述网页的源码进行渲染;和/或,
确定所述第二种情况的异常原因及建议解决方案;所述第二种情况的异常原因包括:基于所述包含所述目标信息的网页下架,导致的爬虫翻页策略异常的检测结果不准确;所述第二种情况的建议解决方案包括:依据所述爬虫重新爬取所述目标信息得到的所述实际爬取网页数,重新检测所述爬虫翻页策略是否异常;和/或
显示所述异常原因及建议解决方案。
其中,所述获取所述实际爬取网页,包括:
获取所述爬虫在距离当前最近一次爬取所述目标信息的过程中,实际爬取的网页数,得到所述实际爬取网页数。
其中,所述获取所述爬虫在距离当前最近一次爬取所述目标信息的过程中,实际爬取的网页数,包括:
获取距离当前最近一次爬取所述目标信息对应的任务标识;
依据预先记录的任务标识与爬虫实际爬取的网页数之间的对应关系,确定所述任务标识对应的实际爬取的网页数;
获取所述实际爬取的网页数。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种爬虫翻页策略的检测方法,其特征在于,包括:
获取网站的目标网页数、预设爬取网页数以及实际爬取网页数;所述目标网页数为包含目标信息的网页数;所述预设爬取网页数为爬虫能够爬取网页数的上限值;所述实际爬取网页数为爬虫实际爬取的网页数;
依据所述目标网页数、所述预设爬取网页数以及所述实际爬取网页数,检测所述爬虫翻页策略是否正常。
2.根据权利要求1所述的方法,其特征在于,所述依据所述目标网页数、所述预设爬取网页数以及所述实际爬取网页数,检测所述爬虫翻页策略是否正常,包括:
若所述目标网页数等于所述实际爬取网页数,则确定所述爬虫翻页策略正常;
或者,若所述目标网页数大于所述实际爬取网页数,并且所述预设网页数等于所述实际爬取网页数,则确定所述爬虫翻页策略正常。
3.根据权利要求2所述的方法,其特征在于,所述依据所述目标网页数、所述预设爬取网页数以及所述实际爬取网页数,检测所述爬虫翻页策略是否正常,还包括:
第一种情况:若所述目标网页数大于所述实际爬取网页数,并且所述预设网页数大于所述实际爬取网页数,则确定所述爬虫翻页策略异常;或者,
第二种情况:若所述目标网页数小于所述实际爬取网页数,则确定所述爬虫翻页策略异常。
4.根据权利要求3所述的方法,其特征在于,还包括:
确定所述第一种情况的异常原因及建议解决方案;所述第一种情况的异常原因包括:所述爬虫爬取所述目标信息过程中,网页的源码中未显示下一页对应的URL;所述第一种情况的建议解决方案包括:所述爬虫爬取所述目标信息过程中,对所述网页的源码进行渲染;和/或,
确定所述第二种情况的异常原因及建议解决方案;所述第二种情况的异常原因包括:基于所述包含所述目标信息的网页下架,导致的爬虫翻页策略异常的检测结果不准确;所述第二种情况的建议解决方案包括:依据所述爬虫重新爬取所述目标信息得到的所述实际爬取网页数,重新检测所述爬虫翻页策略是否异常;和/或
显示所述异常原因及建议解决方案。
5.根据权利要求1所述的方法,其特征在于,所述获取所述实际爬取网页数,包括:
获取所述爬虫在距离当前最近一次爬取所述目标信息的过程中,实际爬取的网页数,得到所述实际爬取网页数。
6.根据权利要求5所述的方法,其特征在于,所述获取所述爬虫在距离当前最近一次爬取所述目标信息的过程中,实际爬取的网页数,包括:
获取距离当前最近一次爬取所述目标信息对应的任务标识;
依据预先记录的任务标识与爬虫实际爬取的网页数之间的对应关系,确定所述任务标识对应的实际爬取的网页数;
获取所述实际爬取的网页数。
7.一种爬虫翻页策略的检测装置,其特征在于,包括:
获取单元,用于获取网站的目标网页数、预设爬取网页数以及实际爬取网页数;所述目标网页数为包含目标信息的网页数;所述预设爬取网页数为爬虫能够爬取网页数的上限值;所述实际爬取网页数为爬虫实际爬取的网页数;
检测单元,用于依据所述目标网页数、所述预设爬取网页数以及所述实际爬取网页数,检测所述爬虫翻页策略是否正常。
8.根据权利要求7所述的装置,其特征在于,所述检测单元,包括:
第一确定子单元,用于若所述目标网页数等于所述实际爬取网页数,则确定所述爬虫翻页策略正常;或者,所述目标网页数大于所述实际爬取网页数,并且所述预设网页数等于所述实际爬取网页数,则确定所述爬虫翻页策略正常。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至权利要求6任意一项所述的爬虫翻页策略的检测方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至权利要求6任意一项所述的爬虫翻页策略的检测方法。
CN201811142844.4A 2018-09-28 2018-09-28 一种爬虫翻页策略的检测方法及装置 Active CN110968754B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811142844.4A CN110968754B (zh) 2018-09-28 2018-09-28 一种爬虫翻页策略的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811142844.4A CN110968754B (zh) 2018-09-28 2018-09-28 一种爬虫翻页策略的检测方法及装置

Publications (2)

Publication Number Publication Date
CN110968754A true CN110968754A (zh) 2020-04-07
CN110968754B CN110968754B (zh) 2023-04-07

Family

ID=70027108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811142844.4A Active CN110968754B (zh) 2018-09-28 2018-09-28 一种爬虫翻页策略的检测方法及装置

Country Status (1)

Country Link
CN (1) CN110968754B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116361529A (zh) * 2023-06-01 2023-06-30 北京拓普丰联信息科技股份有限公司 一种爬虫监控的方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060224478A1 (en) * 2005-03-17 2006-10-05 Absentys, Llc Personnel absence management and monitoring system
CN106789392A (zh) * 2016-11-16 2017-05-31 山东浪潮云服务信息科技有限公司 一种监控网络爬虫的方法、装置和系统
CN108334585A (zh) * 2018-01-29 2018-07-27 湖北省楚天云有限公司 一种网页爬虫方法、装置以及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060224478A1 (en) * 2005-03-17 2006-10-05 Absentys, Llc Personnel absence management and monitoring system
CN106789392A (zh) * 2016-11-16 2017-05-31 山东浪潮云服务信息科技有限公司 一种监控网络爬虫的方法、装置和系统
CN108334585A (zh) * 2018-01-29 2018-07-27 湖北省楚天云有限公司 一种网页爬虫方法、装置以及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NAKANO Y: "A proposal of RSS WebCrawler model of product information", 《ACTIVE MEDIA TECHNOLOGY, 2005. (AMT 2005). PROCEEDINGS OF THE 2005 INTERNATIONAL CONFERENCE ON. IEEE》 *
唐琳等: "基于Python的网络爬虫技术的关键性问题探索", 《电子世界》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116361529A (zh) * 2023-06-01 2023-06-30 北京拓普丰联信息科技股份有限公司 一种爬虫监控的方法、装置、电子设备及存储介质
CN116361529B (zh) * 2023-06-01 2023-11-10 北京拓普丰联信息科技股份有限公司 一种爬虫监控的方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110968754B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110768912B (zh) Api网关限流方法及装置
CN112487083B (zh) 一种数据校验方法和设备
CN109634682B (zh) 应用程序的配置文件更新方法及装置
US20190087208A1 (en) Method and apparatus for loading elf file of linux system in windows system
CN109298987B (zh) 一种检测网络爬虫运行状态的方法及装置
US20200036812A1 (en) Resource Download Method, Electronic Device, and Apparatus
US11562078B2 (en) Assessing and managing computational risk involved with integrating third party computing functionality within a computing system
CN108874379B (zh) 页面的处理方法及装置
CN106657422B (zh) 爬取网站页面的方法、装置、系统和存储介质
CN110968754B (zh) 一种爬虫翻页策略的检测方法及装置
CN109600272B (zh) 爬虫检测的方法及装置
CN111125087B (zh) 数据的存储方法及装置
CN106611118B (zh) 申请登录凭证的方法和装置
CN106817355B (zh) 网页权限的控制方法及装置
CN110990799A (zh) 一种反爬虫的数据处理方法、装置、系统及存储介质
CN110889065A (zh) 页面停留时长确定方法、装置与设备
CN110708270A (zh) 异常链接检测方法以及装置
CN110971578B (zh) 一种用户身份的确认方法及装置
CN114416442A (zh) 硬件变更的检测方法、装置、电子设备及可读存储介质
CN110968758B (zh) 网页数据的爬取方法及装置
CN109561126A (zh) 一种数据同步方法和装置、存储介质、处理器
CN106997353B (zh) 网页改版的监控方法及装置
CN110955813A (zh) 一种数据爬取方法及装置
CN110929184A (zh) 链接的显示方法、系统、存储介质和处理器
CN110968552B (zh) 应用信息的存储方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant