CN110968779A - 网页信息爬取的处理方法和装置 - Google Patents
网页信息爬取的处理方法和装置 Download PDFInfo
- Publication number
- CN110968779A CN110968779A CN201811161908.5A CN201811161908A CN110968779A CN 110968779 A CN110968779 A CN 110968779A CN 201811161908 A CN201811161908 A CN 201811161908A CN 110968779 A CN110968779 A CN 110968779A
- Authority
- CN
- China
- Prior art keywords
- information
- target
- webpage
- link
- crawling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009193 crawling Effects 0.000 title claims abstract description 167
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 71
- 230000008569 process Effects 0.000 claims description 24
- 239000003086 colorant Substances 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本申请公开了一种网页信息爬取的处理方法和装置。该方法包括:获取目标网页的爬取结果,爬取结果包括:成功爬取的网页信息的链接和被过滤的网页信息的链接,成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示;根据爬取结果确定目标网页中的目标信息的链接是否被成功爬取。通过本申请,解决了相关技术中难以获知通过爬虫种子是否能够抓取到目标信息的问题。
Description
技术领域
本申请涉及信息爬取技术领域,具体而言,涉及一种网页信息爬取的处理方法和装置。
背景技术
在采集信息进行分析决策的过程中,常常需要通过爬虫平台爬取网页上的数据,但是,由于网站设置,爬虫平台设置等各方面原因,目标页面上所能看到的数据不一定能够通过爬虫抓取下来,难以判断过爬虫平台的一个种子抓取到了哪些数据,是否抓取到用户所需的数据。
为了判断爬虫平台是否抓取到用户所需的数据,相关技术中是通过开发人员在搜索引擎中根据一个种子的统一资源定位符查找抓到哪些数据;或是通过业务人员人工将种子抓取到的数据与客户提供的列表信息进行对比,查找抓取的数据未覆盖的数据并进行反馈,最终分析数据未能抓取解析成功的原因。然而,由开发人员排查爬虫平台通过一个种子能抓取并解析多少内容是实现起来较为困难,由业务人员对比客户提供的列表排查数据覆盖情况,更加繁琐,且存在客户反馈数据缺失的情况,容易疏漏。
针对相关技术中难以获知通过爬虫种子是否能够抓取到目标信息的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种网页信息爬取的处理方法和装置,以解决相关技术中难以获知通过爬虫种子是否能够抓取到目标信息的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种网页信息爬取的处理方法。该方法包括:获取目标网页的爬取结果,爬取结果包括:成功爬取的网页信息的链接和被过滤的网页信息的链接,成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示;根据爬取结果确定目标网页中的目标信息的链接是否被成功爬取。
进一步地,在获取目标网页的爬取结果之前,方法还包括:通过爬虫平台中的目标种子爬取目标网页中的网页信息,其中,爬虫平台中设置有多个过滤器,多个过滤器用于过滤网页信息的链接。
进一步地,成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示包括:成功爬取的网页信息的链接位于第一链接列表中,被过滤的网页信息的链接位于第二链接列表中,目标信息的链接至少为一条,根据爬取结果确定目标网页中的目标信息的链接是否被成功爬取包括:判断目标信息的链接是否均位于第一链接列表内;在目标信息的链接均位于第一链接列表内的情况下,确定目标信息的链接被成功爬取;和/或,在目标信息的链接并非均位于第一链接列表的情况下,方法还包括:判断第二链接列表内是否存在目标信息的链接;在第二链接列表内存在目标信息的链接的情况下,确定目标过滤器过滤了目标信息的链接。
进一步地,成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示包括:成功爬取的网页信息的链接和被过滤的网页信息的链接采用以下至少一种方式显示:采用不同颜色字体显示、采用大小不同字体显示、采用不同背景色进行显示和在不同显示区域进行显示。
进一步地,在确定目标过滤器过滤了目标信息的链接之后,方法还包括:在爬虫平台上取消目标过滤器的设置;在取消目标过滤器的设置之后,通过爬虫平台中的目标种子爬取被目标过滤器过滤的目标网页中的网页信息。
进一步地,方法还包括:在通过爬虫平台中的目标种子爬取目标网页中的网页信息之后,若爬取结果为空,则确定爬取操作执行失败;和/或,获取爬取失败的网页日志信息并基于爬取失败的网页日志信息制定解决方案;在执行解决方案之后,重新执行通过爬虫平台中的目标种子爬取目标网页中的网页信息的步骤。
进一步地,在获取目标网页的爬取结果之前,方法还包括:检测在爬取目标网页中的网页信息的过程中获取到的统一资源定位符的数量;在统一资源定位符的数量不等于目标网页的数量的情况下,确定在爬取目标网页中的网页信息的过程中存在翻页问题。
为了实现上述目的,根据本申请的另一方面,提供了一种网页信息爬取的处理装置。该装置包括:第一获取单元,用于获取目标网页的爬取结果,爬取结果包括:成功爬取的网页信息的链接和被过滤的网页信息的链接,成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示;第一确定单元,用于根据爬取结果确定目标网页中的目标信息的链接是否被成功爬取。
通过本申请,采用以下步骤:获取目标网页的爬取结果,爬取结果包括:成功爬取的网页信息的链接和被过滤的网页信息的链接,成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示;根据爬取结果确定目标网页中的目标信息的链接是否被成功爬取,解决了相关技术中难以获知通过爬虫种子是否能够抓取到目标信息的问题。通过对爬取目标网页中的网页信息获取到的第一链接列表和第二链接列表进行分析,进而达到了准确获知通过爬虫种子是否能够抓取到目标信息的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的网页信息爬取的处理方法的流程图;
图2是根据本申请实施例提供的网页信息爬取的处理方法中预爬取的窗口的示意图;以及
图3是根据本申请实施例提供的网页信息爬取的处理装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
url:Uniform Pesource Locator,统一资源定位符,是对可以从互联网上得到的资源的位置和访问方法的一种表示。
根据本申请的实施例,提供了一种网页信息爬取的处理方法。
图1是根据本申请实施例的网页信息爬取的处理方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,获取目标网页的爬取结果,爬取结果包括:成功爬取的网页信息的链接和被过滤的网页信息的链接,成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示;
需要说明的是,可以通过信源系统获取目标网页的爬取结果,信源系统为管理爬虫种子的系统,信源系统中嵌入有预爬取功能,在预爬取功能下,爬虫平台按照正常爬取的程序逻辑爬取网页信息,同时还可以获取爬取过程中产生的日志信息。
例如,选择爬虫种子并点击信源系统中的“预爬取种子”选项后,目标网页中的网页信息执行爬取并获得爬取结果,具体地,可以点击信源系统中的“查看预爬取详情”选项,页面中弹出预爬取详情窗口,若图2所示,窗口中包含“链接抽取状态”栏目,“链接抽取状态”栏目中包含“被成功抽取的链接”的选项以及多个过滤器的选项,选择“被成功抽取的链接”的选项,窗口左侧显示由爬取到的源码渲染出的原网页效果图,包含若干条成功爬取的网页信息的链接。在多个过滤器的选项中选择目标过滤器,窗口左侧内容刷新,显示由被过滤的源码渲染出的原网页效果图,包含若干条被过滤的网页信息的链接。
可选地,在本申请实施例提供的网页信息爬取的处理方法中,在获取目标网页的爬取结果之前,该方法还包括:通过爬虫平台中的目标种子爬取目标网页中的网页信息,其中,爬虫平台中设置有多个过滤器,多个过滤器用于过滤网页信息的链接。
需要说明的是,在爬虫平台进行网页信息的爬取过程中,为了提高爬取效率和爬取信息的可用度,在爬虫平台上预先设置有过滤器,例如,爬虫平台上预先可以设置有跨目录过滤器、跨二级域过滤器、跨域过滤器、规则过滤器以及RuleMatching过滤器,在爬取网页信息的过程中,分别用以过滤掉跨目录的链接、跨二级域的链接、跨域的链接、符合过滤规则的链接以及不满足爬取规则的冗余链接。
步骤S102,根据爬取结果确定目标网页中的目标信息的链接是否被成功爬取。
例如,查看由爬取到的源码渲染出的原网页效果图,确定爬虫平台通过目标种子爬取到了哪些网页信息的链接,查看由被过滤的源码渲染出的原网页效果图,确定爬取过程中哪些网页信息被过滤,进一步分析被过滤掉的网页信息中是否存在用户所需的信息,从而得知目标网页中的目标信息的链接是否被成功爬取。
可选地,在本申请实施例提供的网页信息爬取的处理方法中,成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示包括:成功爬取的网页信息的链接位于第一链接列表中,被过滤的网页信息的链接位于第二链接列表中,目标信息的链接至少为一条,根据爬取结果确定目标网页中的目标信息的链接是否被成功爬取包括:判断目标信息的链接是否均位于第一链接列表内;在目标信息的链接均位于第一链接列表内的情况下,确定目标信息的链接被成功爬取;和/或,在目标信息的链接并非均位于第一链接列表的情况下,方法还包括:判断第二链接列表内是否存在目标信息的链接;在第二链接列表内存在目标信息的链接的情况下,确定目标过滤器过滤了目标信息的链接。
例如,如图2所示,目标网页为“海南产经要闻”,用户需要获取的信息为海南省的商业类新闻,海南省的商业类新闻在“海南产经要闻”网页中存在多条,选择“被成功抽取的链接”选项,被成功抽取的链接位于第一链接列表内,第一链接列表显示在爬取详情窗口左侧,第一链接列表中存在海南省的商业类新闻,若用户需要的海南省的商业类新闻的链接均位于第一链接列表内,确定目标信息的链接被成功爬取。
需要说明的是,过滤器的设置一方面过滤了冗余链接,另一方面也存在过滤了用户需要的信息的链接的情况,例如,如图2所示,“链接抽取状态”栏目中除了“被成功抽取的链接”的选项,还包含“被RuleMatching过滤掉”的选项、“被跨目录过滤器滤掉”的选项、“被跨二级域过滤器滤掉”的选项、“被跨域过滤器过掉”的选项以及“被规则过滤器滤掉”的选项,可以分别以RuleMatching过滤器、跨目录过滤器、跨二级域过滤器、跨域过滤器以及规则过滤器为目标过滤器,分别获取第二链接列表,在预爬取详情窗口的左侧显示,查看被目标过滤器过滤的网页信息中是否存在海南省的商业类新闻,若存在,则确定目标过滤器过滤了部分海南省的商业类新闻,通过目标种子在“海南产经要闻”网页中爬取不到所有的海南省的商业类新闻。
可选地,在本申请实施例提供的网页信息爬取的处理方法中,成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示包括:成功爬取的网页信息的链接和被过滤的网页信息的链接采用以下至少一种方式显示:采用不同颜色字体显示、采用大小不同字体显示、采用不同背景色进行显示和在不同显示区域进行显示。
例如,可以为各个选项分配不同的颜色标识,当同时选择多个目标过滤器时,便于用户查看第二链接列表中不同的链接分别被哪个过滤器过滤,具体地,可以将第二链接列表中被不同过滤器过滤的链接的字体标识为对应颜色,也可以保持链接的字体颜色相同,将被不同过滤器过滤的链接的背景被标识为对应颜色。此外,还可以将第二链接列表中被不同过滤器过滤的链接用不同的字体大小或字体样式显示,以区分被不同过滤器过滤的链接。
再例如,为了同时查看成功爬取的网页信息的链接和被过滤的网页信息的链接,还可以在爬取详情窗口分区域显示,例如,窗口的显示界面分为左右两个独立的区域,左侧显示成功爬取的网页信息的链接,右侧显示被选中的过滤器过滤的网页信息的链接。
需要说明的是,在预爬取过程中会产生爬取日志,爬取日志中会可以查询一个链接经过哪些过滤器,每个过滤器过滤了哪些链接,具体地,查找带有过滤信息前缀的数据,分析数据的过滤信息前缀对应的过滤器,并对数据的过滤信息进行去重,即可得到该过滤器过滤的链接信息,将查询到的链接信息存放到mysql中,并表中的信息汇总返回供用户查看。
本申请实施例提供的网页信息爬取的处理方法,通过获取目标网页的爬取结果,爬取结果包括:成功爬取的网页信息的链接和被过滤的网页信息的链接,成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示;根据爬取结果确定目标网页中的目标信息的链接是否被成功爬取。解决了相关技术中难以获知通过爬虫种子是否能够抓取到目标信息的问题。通过对爬取目标网页中的网页信息获取到的第一链接列表和第二链接列表进行分析,进而达到了准确获知通过爬虫种子是否能够抓取到目标信息的效果。
为了爬取到更多目标信息的链接,可选地,在本申请实施例提供的网页信息爬取的处理方法中,在确定目标过滤器过滤了目标信息的链接之后,该方法还包括:在爬虫平台上取消目标过滤器的设置;在取消目标过滤器的设置之后,通过爬虫平台中的目标种子爬取被目标过滤器过滤的目标网页中的网页信息。
例如,目标网页为“海南产经要闻”,用户需要获取的信息为海南省的商业类新闻,以RuleMatching过滤器为目标过滤器的情况下,得到的第二链接列表中存在海南省的商业类新闻,而以跨目录过滤器、跨二级域过滤器、跨域过滤器以及规则过滤器为目标过滤器的情况下,分别得到的第二链接列表中均不存在海南省的商业类新闻,则可以确定RuleMatching过滤器过滤掉了部分目标信息,为了爬取到被RuleMatching过滤器过滤掉的目标信息,可以点击“被RuleMatching过滤掉”的选项右侧的修改选项按钮,取消该过滤器的设置,并重新通过爬虫平台中的目标种子爬取目标网页中的网页信息,即可在网页“海南产经要闻”中得到更为全面的用户所需的信息。
在爬取的过程中存在爬取失败的情况,可选地,在本申请实施例提供的网页信息爬取的处理方法中,该方法还包括:在通过爬虫平台中的目标种子爬取目标网页中的网页信息之后,若爬取结果为空,则确定爬取操作执行失败;和/或,获取爬取失败的网页日志信息并基于爬取失败的网页日志信息制定解决方案;在执行解决方案之后,重新执行通过爬虫平台中的目标种子爬取目标网页中的网页信息的步骤。
例如,点击信源系统中的“查看预爬取详情”选项后,预爬取详情窗口中爬取到的源码渲染出的原网页效果图的整个页面为空白,则说明爬取操作发生异常,在翻页功能失常、网络连接失败以及原网页看无法正常访问的情况下均可能发生爬取操作异常的情况。由于预爬取程序会获取爬取失败页面的日志信息,主要是爬取状态码,可以根据爬取状态码分析失败原因,具体地,爬取任务id(taskgroupid)及统一资源定位符信息(url)存放在SeedsHtml中页面对应的问题类型id(QuestionTypeId)字段下,获取爬取失败的原因时,需要先查询种子错误类型对应的id,再根据种子错误类型对应的id查找SeedsHtml中的问题类型id,得到爬取失败的原因。
例如,若爬取失败的原因为网络连接异常,则修复网络连接,在网络恢复正常后再重新通过目标种子爬取目标网页中的网页信息,若爬取失败的原因为原网页无法正常访问,则查看网站是否对网页的来访者设置了限制,在网页设限的情况下,可以联系网站管理者请求获得访问权限,在能够正常访问网页的情况下重新通过爬虫平台中的目标种子爬取目标网页中的网页信息。
爬取不到所有的目标信息的链接,还有可能是翻页故障导致的,可选地,在本申请实施例提供的网页信息爬取的处理方法中,检测在爬取目标网页中的网页信息的过程中获取到的统一资源定位符的数量;在统一资源定位符的数量不等于目标网页的数量的情况下,确定在爬取目标网页中的网页信息的过程中存在翻页问题。
例如,在预爬取的程序设置中,设置爬取两页列表页的内容,在预爬取详情窗口的“信源入口页状态”栏查看url,若只显示一个url,则表示在网页访问和信息爬取的过程中翻页功能存在异常,翻页失败,可以联系开发人员修复翻页策略,在翻页功能恢复的情况下再进行信息的爬取。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种网页信息爬取的处理装置,需要说明的是,本申请实施例的网页信息爬取的处理装置可以用于执行本申请实施例所提供的用于网页信息爬取的处理方法。以下对本申请实施例提供的网页信息爬取的处理装置进行介绍。
图3是根据本申请实施例的网页信息爬取的处理装置的示意图。如图3所示,该装置包括:第一获取单元10和第一确定单元20。
第一获取单元10,用于获取目标网页的爬取结果,爬取结果包括:成功爬取的网页信息的链接和被过滤的网页信息的链接,成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示;
第一确定单元20,用于根据爬取结果确定目标网页中的目标信息的链接是否被成功爬取。
可选地,在本申请实施例提供的网页信息爬取的处理装置中,该装置还包括:第一爬取单元,用于在获取目标网页的爬取结果之前,通过爬虫平台中的目标种子爬取目标网页中的网页信息,其中,爬虫平台中设置有多个过滤器,多个过滤器用于过滤网页信息的链接。
可选地,在本申请实施例提供的网页信息爬取的处理装置中,成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示包括:成功爬取的网页信息的链接位于第一链接列表中,被过滤的网页信息的链接位于第二链接列表中,目标信息的链接至少为一条,第一确定单元10包括:第一判断模块,用于判断目标信息的链接是否均位于第一链接列表内;第一确定模块,用于在目标信息的链接均位于第一链接列表内的情况下,确定目标信息的链接被成功爬取;和/或,第二判断模块,用于在目标信息的链接并非均位于第一链接列表的情况下,判断第二链接列表内是否存在目标信息的链接;第二确定模块,用于在第二链接列表内存在目标信息的链接的情况下,确定目标过滤器过滤了目标信息的链接
可选地,在本申请实施例提供的网页信息爬取的处理装置中,成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示包括:成功爬取的网页信息的链接和被过滤的网页信息的链接采用以下至少一种方式显示:采用不同颜色字体显示、采用大小不同字体显示、采用不同背景色进行显示和在不同显示区域进行显示。
可选地,在本申请实施例提供的网页信息爬取的处理装置中,该装置还包括:取消单元,用于在确定目标过滤器过滤了目标信息的链接之后,在爬虫平台上取消目标过滤器的设置;第二爬取单元,用于在取消目标过滤器的设置之后,通过爬虫平台中的目标种子爬取被目标过滤器过滤的目标网页中的网页信息。
可选地,在本申请实施例提供的网页信息爬取的处理装置中,该装置还包括:第二确定单元,用于在通过爬虫平台中的目标种子爬取目标网页中的网页信息之后,若爬取结果为空,则确定爬取操作执行失败;和/或,第二获取单元,用于获取爬取失败的网页日志信息并基于爬取失败的网页日志信息制定解决方案;执行单元,用于在执行解决方案之后,重新执行通过爬虫平台中的目标种子爬取目标网页中的网页信息的步骤。
可选地,在本申请实施例提供的网页信息爬取的处理装置中,装置还包括:检测单元,用于在获取目标网页的爬取结果之前,检测在爬取目标网页中的网页信息的过程中获取到的统一资源定位符的数量;第三确定单元,用于在统一资源定位符的数量不等于目标网页的数量的情况下,确定在爬取目标网页中的网页信息的过程中存在翻页问题。
本申请实施例提供的网页信息爬取的处理装置,通过第一获取单元10,用于获取目标网页的爬取结果,爬取结果包括:成功爬取的网页信息的链接和被过滤的网页信息的链接,成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示;第一确定单元20,用于根据爬取结果确定目标网页中的目标信息的链接是否被成功爬取。解决了相关技术中难以获知通过爬虫种子是否能够抓取到目标信息的问题,通过对爬取目标网页中的网页信息获取到的第一链接列表和第二链接列表进行分析,进而达到了准确获知通过爬虫种子是否能够抓取到目标信息的效果。
所述网页信息爬取的处理装置包括处理器和存储器,上述第一获取单元10和第一确定单元20等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决相关技术中难以获知通过爬虫种子是否能够抓取到目标信息的问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或,非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述网页信息爬取的处理方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述网页信息爬取的处理方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取目标网页的爬取结果,爬取结果包括:成功爬取的网页信息的链接和被过滤的网页信息的链接,成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示;根据爬取结果确定目标网页中的目标信息的链接是否被成功爬取。
在获取目标网页的爬取结果之前,方法还包括:通过爬虫平台中的目标种子爬取目标网页中的网页信息,其中,爬虫平台中设置有多个过滤器,多个过滤器用于过滤网页信息的链接。
成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示包括:成功爬取的网页信息的链接位于第一链接列表中,被过滤的网页信息的链接位于第二链接列表中,目标信息的链接至少为一条,根据爬取结果确定目标网页中的目标信息的链接是否被成功爬取包括:判断目标信息的链接是否均位于第一链接列表内;在目标信息的链接均位于第一链接列表内的情况下,确定目标信息的链接被成功爬取;和/或,在目标信息的链接并非均位于第一链接列表的情况下,方法还包括:判断第二链接列表内是否存在目标信息的链接;在第二链接列表内存在目标信息的链接的情况下,确定目标过滤器过滤了目标信息的链接。
成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示包括:成功爬取的网页信息的链接和被过滤的网页信息的链接采用以下至少一种方式显示:采用不同颜色字体显示、采用大小不同字体显示、采用不同背景色进行显示和在不同显示区域进行显示。
在确定目标过滤器过滤了目标信息的链接之后,方法还包括:在爬虫平台上取消目标过滤器的设置;在取消目标过滤器的设置之后,通过爬虫平台中的目标种子爬取被目标过滤器过滤的目标网页中的网页信息。
方法还包括:在通过爬虫平台中的目标种子爬取目标网页中的网页信息之后,若爬取结果为空,则确定爬取操作执行失败;和/或,获取爬取失败的网页日志信息并基于爬取失败的网页日志信息制定解决方案;在执行解决方案之后,重新执行通过爬虫平台中的目标种子爬取目标网页中的网页信息的步骤。
在获取目标网页的爬取结果之前,方法还包括:检测在爬取目标网页中的网页信息的过程中获取到的统一资源定位符的数量;在统一资源定位符的数量不等于目标网页的数量的情况下,确定在爬取目标网页中的网页信息的过程中存在翻页问题。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取目标网页的爬取结果,爬取结果包括:成功爬取的网页信息的链接和被过滤的网页信息的链接,成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示;根据爬取结果确定目标网页中的目标信息的链接是否被成功爬取。
在获取目标网页的爬取结果之前,方法还包括:通过爬虫平台中的目标种子爬取目标网页中的网页信息,其中,爬虫平台中设置有多个过滤器,多个过滤器用于过滤网页信息的链接。
成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示包括:成功爬取的网页信息的链接位于第一链接列表中,被过滤的网页信息的链接位于第二链接列表中,目标信息的链接至少为一条,根据爬取结果确定目标网页中的目标信息的链接是否被成功爬取包括:判断目标信息的链接是否均位于第一链接列表内;在目标信息的链接均位于第一链接列表内的情况下,确定目标信息的链接被成功爬取;和/或,在目标信息的链接并非均位于第一链接列表的情况下,方法还包括:判断第二链接列表内是否存在目标信息的链接;在第二链接列表内存在目标信息的链接的情况下,确定目标过滤器过滤了目标信息的链接。
成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示包括:成功爬取的网页信息的链接和被过滤的网页信息的链接采用以下至少一种方式显示:采用不同颜色字体显示、采用大小不同字体显示、采用不同背景色进行显示和在不同显示区域进行显示。
在确定目标过滤器过滤了目标信息的链接之后,方法还包括:在爬虫平台上取消目标过滤器的设置;在取消目标过滤器的设置之后,通过爬虫平台中的目标种子爬取被目标过滤器过滤的目标网页中的网页信息。
方法还包括:在通过爬虫平台中的目标种子爬取目标网页中的网页信息之后,若爬取结果为空,则确定爬取操作执行失败;和/或,获取爬取失败的网页日志信息并基于爬取失败的网页日志信息制定解决方案;在执行解决方案之后,重新执行通过爬虫平台中的目标种子爬取目标网页中的网页信息的步骤。
在获取目标网页的爬取结果之前,方法还包括:检测在爬取目标网页中的网页信息的过程中获取到的统一资源定位符的数量;在统一资源定位符的数量不等于目标网页的数量的情况下,确定在爬取目标网页中的网页信息的过程中存在翻页问题。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或,非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种网页信息爬取的处理方法,其特征在于,包括:
获取目标网页的爬取结果,所述爬取结果包括:成功爬取的网页信息的链接和被过滤的网页信息的链接,所述成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示;
根据所述爬取结果确定所述目标网页中的目标信息的链接是否被成功爬取。
2.根据权利要求1所述的方法,其特征在于,在获取所述目标网页的爬取结果之前,所述方法还包括:
通过爬虫平台中的目标种子爬取目标网页中的网页信息,其中,所述爬虫平台中设置有多个过滤器,所述多个过滤器用于过滤网页信息的链接。
3.根据权利要求2所述的方法,其特征在于,所述成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示包括:所述成功爬取的网页信息的链接位于第一链接列表中,所述被过滤的网页信息的链接位于第二链接列表中,所述目标信息的链接至少为一条,根据所述爬取结果确定所述目标网页中的目标信息的链接是否被成功爬取包括:
判断所述目标信息的链接是否均位于所述第一链接列表内;
在所述目标信息的链接均位于所述第一链接列表内的情况下,确定所述目标信息的链接被成功爬取;和/或,
在所述目标信息的链接并非均位于所述第一链接列表的情况下,所述方法还包括:判断所述第二链接列表内是否存在所述目标信息的链接;
在所述第二链接列表内存在所述目标信息的链接的情况下,确定目标过滤器过滤了所述目标信息的链接。
4.根据权利要求1所述的方法,其特征在于,所述成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示包括:
所述成功爬取的网页信息的链接和被过滤的网页信息的链接采用以下至少一种方式显示:采用不同颜色字体显示、采用大小不同字体显示、采用不同背景色进行显示和在不同显示区域进行显示。
5.根据权利要求3所述的方法,其特征在于,在确定目标过滤器过滤了所述目标信息的链接之后,所述方法还包括:
在所述爬虫平台上取消所述目标过滤器的设置;
在取消所述目标过滤器的设置之后,通过所述爬虫平台中的目标种子爬取被所述目标过滤器过滤的所述目标网页中的网页信息。
6.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在通过所述爬虫平台中的目标种子爬取所述目标网页中的网页信息之后,若所述爬取结果为空,则确定爬取操作执行失败;和/或,
获取爬取失败的网页日志信息并基于所述爬取失败的网页日志信息制定解决方案;
在执行所述解决方案之后,重新执行通过所述爬虫平台中的目标种子爬取所述目标网页中的网页信息的步骤。
7.根据权利要求1所述的方法,其特征在于,在获取所述目标网页的爬取结果之前,所述方法还包括:
检测在爬取所述目标网页中的网页信息的过程中获取到的统一资源定位符的数量;
在所述统一资源定位符的数量不等于所述目标网页的数量的情况下,确定在爬取所述目标网页中的网页信息的过程中存在翻页问题。
8.一种网页信息爬取的处理装置,其特征在于,包括:
第一获取单元,用于获取目标网页的爬取结果,所述爬取结果包括:成功爬取的网页信息的链接和被过滤的网页信息的链接,所述成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示;
第一确定单元,用于根据所述爬取结果确定所述目标网页中的目标信息的链接是否被成功爬取。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至7中任意一项所述的网页信息爬取的处理方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的网页信息爬取的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811161908.5A CN110968779A (zh) | 2018-09-30 | 2018-09-30 | 网页信息爬取的处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811161908.5A CN110968779A (zh) | 2018-09-30 | 2018-09-30 | 网页信息爬取的处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110968779A true CN110968779A (zh) | 2020-04-07 |
Family
ID=70029348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811161908.5A Pending CN110968779A (zh) | 2018-09-30 | 2018-09-30 | 网页信息爬取的处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110968779A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112464066A (zh) * | 2020-11-25 | 2021-03-09 | 中国信息安全测评中心 | 一种数据爬取过程的监测方法及系统 |
CN112650570A (zh) * | 2020-12-29 | 2021-04-13 | 百果园技术(新加坡)有限公司 | 可动态扩展的分布式爬虫系统、数据处理方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102812452A (zh) * | 2010-09-07 | 2012-12-05 | Sk普兰尼特有限公司 | 用于显示缓存网页的系统、服务器、终端、方法、以及记录该方法的计算机可读记录介质 |
US20130024441A1 (en) * | 2011-07-22 | 2013-01-24 | Alibaba Group Holding Limited | Configuring web crawler to extract web page information |
CN108132948A (zh) * | 2016-11-30 | 2018-06-08 | 北京国双科技有限公司 | 处理爬取网页的方法和装置 |
CN108415941A (zh) * | 2018-01-29 | 2018-08-17 | 湖北省楚天云有限公司 | 一种网页爬虫方法、装置以及电子设备 |
-
2018
- 2018-09-30 CN CN201811161908.5A patent/CN110968779A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102812452A (zh) * | 2010-09-07 | 2012-12-05 | Sk普兰尼特有限公司 | 用于显示缓存网页的系统、服务器、终端、方法、以及记录该方法的计算机可读记录介质 |
US20130024441A1 (en) * | 2011-07-22 | 2013-01-24 | Alibaba Group Holding Limited | Configuring web crawler to extract web page information |
CN108132948A (zh) * | 2016-11-30 | 2018-06-08 | 北京国双科技有限公司 | 处理爬取网页的方法和装置 |
CN108415941A (zh) * | 2018-01-29 | 2018-08-17 | 湖北省楚天云有限公司 | 一种网页爬虫方法、装置以及电子设备 |
Non-Patent Citations (1)
Title |
---|
杨胜刚: "《公共信用信息采集技术及其应用研究》", 北京:中国金融出版社 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112464066A (zh) * | 2020-11-25 | 2021-03-09 | 中国信息安全测评中心 | 一种数据爬取过程的监测方法及系统 |
CN112464066B (zh) * | 2020-11-25 | 2024-03-15 | 中国信息安全测评中心 | 一种数据爬取过程的监测方法及系统 |
CN112650570A (zh) * | 2020-12-29 | 2021-04-13 | 百果园技术(新加坡)有限公司 | 可动态扩展的分布式爬虫系统、数据处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107483221B (zh) | 一种跨应用问题排查方法、装置及系统 | |
CN109766719B (zh) | 一种敏感信息检测方法、装置及电子设备 | |
US10296552B1 (en) | System and method for automated identification of internet advertising and creating rules for blocking of internet advertising | |
CN109213773B (zh) | 一种在线故障的诊断方法、装置及电子设备 | |
US10621255B2 (en) | Identifying equivalent links on a page | |
CN111859076B (zh) | 数据爬取方法、装置、计算机设备及计算机可读存储介质 | |
CN107085549B (zh) | 故障信息生成的方法和装置 | |
CN105743730A (zh) | 为移动终端的网页服务提供实时监控的方法及其系统 | |
US9563541B2 (en) | Software defect detection identifying location of diverging paths | |
US9665574B1 (en) | Automatically scraping and adding contact information | |
CN110968779A (zh) | 网页信息爬取的处理方法和装置 | |
CN111639016A (zh) | 大数据日志分析方法、装置及计算机存储介质 | |
CN111131236A (zh) | 一种web指纹检测装置、方法、设备及介质 | |
CN111833219A (zh) | 知识产权服务商品数据的提供方法及装置 | |
US20170285923A1 (en) | Multi-perspective application components dependencies | |
CN116431486A (zh) | 应用于ui自动化的异常测试的方法、系统、终端设备及存储介质 | |
CN115186001A (zh) | 一种补丁处理方法和装置 | |
CN113031995B (zh) | 一种更新规则的方法、装置、存储介质以及电子设备 | |
CN106446687B (zh) | 恶意样本的检测方法及装置 | |
CN115580528A (zh) | 故障根因定位方法、装置、设备及可读存储介质 | |
CN105653625B (zh) | 一种异常数据分析方法及装置 | |
CN111290870B (zh) | 一种检测异常的方法和装置 | |
CN113342657A (zh) | 一种检测代码异常的方法和装置 | |
CN107861842B (zh) | 一种元数据损坏检测方法、系统、设备及存储介质 | |
CN109426540B (zh) | 元素的点击情况检测方法和装置、存储介质、处理器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200407 |
|
RJ01 | Rejection of invention patent application after publication |