CN113722572B - 一种分布式深度爬取的方法、装置及介质 - Google Patents

一种分布式深度爬取的方法、装置及介质 Download PDF

Info

Publication number
CN113722572B
CN113722572B CN202111182163.2A CN202111182163A CN113722572B CN 113722572 B CN113722572 B CN 113722572B CN 202111182163 A CN202111182163 A CN 202111182163A CN 113722572 B CN113722572 B CN 113722572B
Authority
CN
China
Prior art keywords
crawling
target
search conditions
search
uniform resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111182163.2A
Other languages
English (en)
Other versions
CN113722572A (zh
Inventor
李玉峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Eroad Software Co ltd
Original Assignee
Shanghai Eroad Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Eroad Software Co ltd filed Critical Shanghai Eroad Software Co ltd
Priority to CN202111182163.2A priority Critical patent/CN113722572B/zh
Publication of CN113722572A publication Critical patent/CN113722572A/zh
Application granted granted Critical
Publication of CN113722572B publication Critical patent/CN113722572B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种分布式深度爬取方法,包括:确定待爬取目标网站;获取目标网站的检索条件和最大数据量;将预设个数的检索条件组合成目标检索条件;预设个数小于所有检索条件的个数;爬取出目标检索条件下的数据量;若数据量小于或等于最大数据量,获得目标网站的最终统一资源定位符。相比组合所有检索条件对网站爬取会获得大量无效的统一资源定位符,本申请通过结合预设个数的检索条件爬取出目标网站的数据量,预设个数小于所有检索条件的个数,大幅度提高爬取效率。爬取出的数据量小于或等于该网站的最大数据量时获得最终统一资源定位符,最终统一资源定位符都是有效的。本申请还公开一种分布式深度爬取装置及介质与方法对应,效果如上。

Description

一种分布式深度爬取的方法、装置及介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种分布式深度爬取的方法、装置及介质。
背景技术
爬虫程序一般指网络爬虫(又被称为网页蜘蛛,网络机器人,网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
对于网站特征分析,往往是对某一个网站组合所有条件进行深度爬取,根据爬虫程序尽可能全的获取网站中的超文本标记语言(Hyper Text Markup Language,HTML)源码信息。由于对网站的深度爬取一般采用组合网站动态内容的所有检索条件进行爬取,其中组合了很多的无效检索条件,严重影响爬虫程序的运行效率。
因此,如何提高爬虫程序对网站的爬取效率是本领域技术人员亟需要解决的问题。
发明内容
本申请的目的是提供一种分布式深度爬取的方法、装置及计算机可读存储介质,用于提高爬虫程序对网站的爬取效率。
为解决上述技术问题,本申请提供一种分布式深度爬取的方法,包括:
确定待爬取的目标网站;
获取所述目标网站所有的检索条件,并确定所述目标网站所能显示的最大数据量;
将预设个数的所述检索条件组合成目标检索条件;所述预设个数小于所有的所述检索条件的个数;
爬取出所述目标检索条件下的数据量;
判断所述数据量是否小于或等于所述最大数据量;
若是,获得所述目标网站的最终统一资源定位符。
优选地,若所述数据量大于所述最大数据量,还包括:
结合所述目标检索条件,对除目标检索条件以外的所述检索条件逐个进行遍历,直至爬取出的数据量小于或等于所述最大数据量时获得所述最终统一资源定位符。
优选地,若所述预设个数为三个,所述将预设个数的所述检索条件组合成目标检索条件,包括:
确定每个所述检索条件下的子检索条件数量;
根据所述子检索条件数量从大到小对所述检索条件进行排序;
将所述子检索条件数量排名前三的所述检索条件组合成所述目标检索条件。
优选地,所述对除目标检索条件以外的所述检索条件逐个进行遍历,包括:
每次随机选取除所述目标检索条件以外的一个所述检索条件进行遍历。
可选地,所述对除目标检索条件以外的所述检索条件逐个进行遍历,包括:
根据除目标检索条件以外的所述检索条件的排名顺序从大到小逐个进行遍历。
优选地,在获得所述最终统一资源定位符之后,还包括:
将所述最终统一资源定位符保存在分布式缓存中。
优选地,所述将所述最终统一资源定位符保存在分布式缓存中之后,还包括:
从所述分布式缓存中读取所述最终统一资源定位符以得到爬取结果;
将所述爬取结果存储至数据库中。
本申请还提供一种分布式深度爬取装置,包括:
确定模块,用于确定待爬取的目标网站;
第一获取模块,用于获取所述目标网站所有的检索条件,并确定所述目标网站所能显示的最大数据量;
组合模块,用于将预设个数的所述检索条件组合成目标检索条件;所述预设个数小于所有的所述检索条件的个数;
爬取模块,用于爬取出所述目标检索条件下的数据量;
判断模块,用于判断所述数据量是否小于或等于所述最大数据量;
第二获取模块,用于在所述数据量小于或等于所述最大数据量,获得所述目标网站的最终统一资源定位符。
本申请还提供一种分布式深度爬取装置,包括存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现任一项所述的分布式深度爬取的方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的分布式深度爬取的方法的步骤。
本申请所提供的一种分布式深度爬取的方法,包括:确定待爬取的目标网站;获取目标网站所有的检索条件,并确定目标网站所能显示的最大数据量;将预设个数的检索条件组合成目标检索条件;预设个数小于所有的检索条件的个数;爬取出目标检索条件下的数据量;判断数据量是否小于或等于最大数据量;若是,获得目标网站的最终统一资源定位符。相比组合所有检索条件对网站进行爬取会获得大量无效的统一资源定位符,本申请通过结合预设个数的检索条件爬取出目标网站的数据量,预设个数小于所有检索条件的个数,从而大幅度提高爬取效率,节省时间。在爬取出的数据量小于或等于该网站的最大数据量时获得最终统一资源定位符,最终统一资源定位符都是有效的。
本申请所提供一种分布式深度爬取装置及介质与上述方法对应,具体效果如上。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种分布式深度爬取的方法的流程图;
图2为本申请实施例提供的另一种分布式深度爬取的方法的流程图;
图3为本申请实施例提供的一种分布式深度爬取的装置的结构图;
图4为本申请实施例提供的另一种分布式深度爬取的装置的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。
本申请的核心是提供一种分布式深度爬取的方法、装置及介质。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。
图1为本申请实施例提供的一种分布式深度爬取的方法的流程图,如图1所示,分布式深度爬取的方法包括:
S10:确定待爬取的目标网站。
S11:获取目标网站所有的检索条件,并确定目标网站所能显示的最大数据量。
S12:将预设个数的检索条件组合成目标检索条件;预设个数小于所有的检索条件的个数。
S13:爬取出目标检索条件下的数据量。
S14:判断数据量是否小于或等于最大数据量;若是,执行步骤S15。
S15:获得目标网站的最终统一资源定位符。
在步骤S10中,关于如何确定爬取的目标网站,本申请实施例不作具体限定,可以是输入需要爬取的统一资源定位符(Uniform Resource Locator,URL),又叫做网页地址,是互联网上标准的资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
在步骤S11中,获取目标网站所有的检索条件,并确定目标网站显示的最大数据量。为方便理解,下面举例说明,如招聘网站里的检索条件有工作地点、月薪范围、工作年限、学历要求等。若目标网站的所有检索条件有5个,检索条件一到五中的数据量分别是5条,6条,3条、10条,5条,该目标网站的最大数据量为五个检索条件的数据量相乘为4500条。
在步骤S12中,预设个数可以是三个、四个等,本申请实施例不作具体限定。但预设个数要小于目标网站的所有的检索条件的个数,具体挑选哪几个检索条件组合成目标检索条件,可以是随机的,也可以遵循一定的规则进行挑选,本申请实施例不作具体限定。
在步骤S13至S15中,判断目标检索条件下的数据量是否小于或等于最大数据量,若是,获得目标网站的最终统一资源定位符,该最终统一资源定位符可以是多个,本申请实施例对最终统一资源定位符的数量对不作具体限定。
本申请实施例所提供的一种分布式深度爬取的方法,包括:确定待爬取的目标网站;获取目标网站所有的检索条件,并确定目标网站所能显示的最大数据量;将预设个数的检索条件组合成目标检索条件;预设个数小于所有的检索条件的个数;爬取出目标检索条件下的数据量;判断数据量是否小于或等于最大数据量;若是,获得目标网站的最终统一资源定位符。相比组合所有检索条件对网站进行爬取会获得大量无效的统一资源定位符,本申请通过结合预设个数的检索条件爬取出目标网站的数据量,预设个数小于所有检索条件的个数,从而大幅度提高爬取效率,节省时间。在爬取出的数据量小于或等于该网站的最大数据量时获得最终统一资源定位符,最终统一资源定位符都是有效的。
基于上述实施例,本申请实施例中的预设个数为三个,将三个检索条件组合成目标检索条件,包括:确定每个检索条件下的子检索条件数量;根据子检索条件数量从大到小对检索条件进行排序;将子检索条件数量排名前三的检索条件组合成目标检索条件。
所述子检索条件是指检索条件下的维度,例如招聘网站里的检索条件有工作地点,工作地点还包括北京、上海、天津等,这些称为工作地点下的子检索条件。确定每个检索条件下的子检索条件的数量,按子检索条件的数量从大到小依此排序,将子检索条件数量排名前三的检索条件组合成目标检索条件。当然也可以将排名前四或前五的检索条件组合成目标检索条件,具体是前几个检索条件都不影响本申请实施例的实现。
本申请实施例通过将子检索条件数量排名前三的检索条件组合成目标检索条件,大概率可以爬取出该目标网站的数据量的同时,又能提高爬虫程序对目标网站的爬取效率。
基于上述实施例,若数据量大于最大数据量,结合目标检索条件,对除目标检索条件以外的检索条件逐个进行遍历,直至爬取出的数据量小于或等于最大数据量时获得最终统一资源定位符。
关于如何挑选出目标检索条件以外的检索条件,可以是随机挑选,还可以根据子检索条件的数量从大到小逐个进行遍历,将不符合要求的数据丢弃,直到爬取出的数据量小于或等于最大数据量时拿到最终URL。
考虑到结合目标检索条件爬取出的数据量可能大于目标网站的最大数据量,即存在一些不符合要求的数据,本申请对除目标检索条件以外的检索条件逐个进行遍历,去除不符合要求的数据,从而使获得的最终URL都是有效的。
基于上述实施例,本申请实施例在获得最终统一资源定位符之后,将最终统一资源定位符保存在分布式缓存中。通过将最终统一资源定位符保存在分布式缓存中,有效避免了数据缺失的问题。
将最终统一资源定位符保存在分布式缓存中之后,从分布式缓存中读取最终统一资源定位符以得到爬取结果;将爬取结果存储至数据库中。将最终统一资源定位符保存至分布式缓存中,爬虫程序从分布式缓存中读取最终统一资源定位符,可以是多台服务器同时读取,提高爬虫程序读取最终统一资源定位符的效率,爬取结果即爬取出的数据,将爬取结果存储至数据库中,以便查阅。
为更加清楚的了解本申请,基于上述实施例,图2为本申请实施例提供的另一种分布式深度爬取的方法的流程图,如图2所示,该方法包括:
S20:确定待爬取的目标网站。
S21:获取目标网站所有的检索条件,并确定目标网站所能显示的最大数据量。
S22:将预设个数的检索条件组合成目标检索条件;预设个数小于所有的检索条件的个数。
S23:爬取出目标检索条件下的数据量。
S24:判断数据量是否小于或等于最大数据量;若否,执行步骤S25;若是,执行步骤S26。
S25:结合目标检索条件,对除目标检索条件以外的检索条件逐个进行遍历。
S26:获得目标网站的最终统一资源定位符。
S27:将最终统一资源定位符保存在分布式缓存中。
S28:从分布式缓存中读取最终统一资源定位符以得到爬取结果。
S29:将爬取结果存储至数据库中。
本申请实施例与上述实施例相互对应,这里暂不赘述。
本申请实施例所提供的一种分布式深度爬取的方法,相比组合所有检索条件对网站进行爬取会获得大量无效的统一资源定位符,本申请实施例通过结合预设个数的检索条件爬取出目标网站的数据量,预设个数小于所有检索条件的个数,从而大幅度提高爬取效率,节省时间。在爬取出的数据量小于或等于该网站的最大数据量时获得最终统一资源定位符,过滤了大量的无效统一资源定位符,最终统一资源定位符都是有效的。并且将有效的统一资源定位符保存在分布式缓存中,有效避免了数据缺失的问题。
在上述实施例中,对于分布式深度爬取的方法进行了详细描述,本申请还提供分布式深度爬取的装置对应的实施例。需要说明的是,本申请从两个角度对装置部分的实施例进行描述,一种是基于功能模块的角度,另一种是基于硬件的角度。
在此基础上,本申请还公开与上述方法对应的分布式深度爬取的装置。图3为本申请实施例提供的一种分布式深度爬取的装置的结构图,如图3所示,分布式深度爬取的装置包括:
确定模块10,用于确定待爬取的目标网站。
第一获取模块11,用于获取目标网站所有的检索条件,并确定目标网站所能显示的最大数据量。
组合模块12,用于将预设个数的检索条件组合成目标检索条件;预设个数小于所有的检索条件的个数。
爬取模块13,用于爬取出目标检索条件下的数据量。
判断模块14,用于判断数据量是否小于或等于最大数据量。
第二获取模块15,用于在数据量小于或等于最大数据量,获得目标网站的最终统一资源定位符。
基于上述实施例,作为优选的实施例,还包括:
遍历模块,用于结合目标检索条件,对除目标检索条件以外的检索条件逐个进行遍历,直至爬取出的数据量小于或等于最大数据量时获得最终统一资源定位符。
基于上述实施例,作为优选的实施例,若预设个数为三个,组合模块包括:
确定单元,用于确定每个检索条件下的子检索条件数量;
排序单元,用于根据子检索条件数量从大到小对检索条件进行排序;
组合单元,用于将子检索条件数量排名前三的检索条件组合成目标检索条件。
基于上述实施例,作为优选的实施例,遍历模块包括:
第一遍历单元,用于每次随机选取除目标检索条件以外的一个检索条件进行遍历。
基于上述实施例,作为优选的实施例,遍历模块包括:
第二遍历单元,用于根据除目标检索条件以外的检索条件的排名顺序从大到小逐个进行遍历。
基于上述实施例,作为优选的实施例,还包括:
保存模块,用于将最终统一资源定位符保存在分布式缓存中。
基于上述实施例,作为优选的实施例,还包括:
读取模块,从分布式缓存中读取最终统一资源定位符以得到爬取结果;
存储模块,用于将爬取结果存储至数据库中。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本申请所提供的一种分布式深度爬取的装置,确定待爬取的目标网站;获取目标网站所有的检索条件,并确定目标网站所能显示的最大数据量;将预设个数的检索条件组合成目标检索条件;预设个数小于所有的检索条件的个数;爬取出目标检索条件下的数据量;判断数据量是否小于或等于最大数据量;若是,获得目标网站的最终统一资源定位符。相比组合所有检索条件对网站进行爬取会获得大量无效的统一资源定位符,本申请通过结合预设个数的检索条件爬取出目标网站的数据量,预设个数小于所有检索条件的个数,从而大幅度提高爬取效率,节省时间。在爬取出的数据量小于或等于该网站的最大数据量时获得最终统一资源定位符,最终统一资源定位符都是有效的。
图4为本申请实施例提供的另一种分布式深度爬取的装置的结构图,如图4所示,分布式深度爬取装置包括:存储器20,用于存储计算机程序;
处理器21,用于执行计算机程序时实现如上述实施例获取用户操作习惯信息的方法的步骤。
本实施例提供的分布式深度爬取的装置可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。
其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器20可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器20至少用于存储以下计算机程序201,其中,该计算机程序被处理器21加载并执行之后,能够实现前述任一实施例公开的分布式深度爬取方法的相关步骤。另外,存储器20所存储的资源还可以包括操作系统202和数据203等,存储方式可以是短暂存储或者永久存储。其中,操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于检索条件、最大数据量及最终统一资源定位符等。
在一些实施例中,分布式深度爬取的装置还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。
本领域技术人员可以理解,图4中示出的结构并不构成对分布式深度爬取的装置的限定,可以包括比图示更多或更少的组件。
本申请实施例提供的分布式深度爬取装置,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如下方法:确定待爬取的目标网站;获取目标网站所有的检索条件,并确定目标网站所能显示的最大数据量;将预设个数的检索条件组合成目标检索条件;预设个数小于所有的检索条件的个数;爬取出目标检索条件下的数据量;判断数据量是否小于或等于最大数据量;若是,获得目标网站的最终统一资源定位符。
最后,本申请还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。
可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本申请所提供的分布式深度爬取的方法进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种分布式深度爬取的方法,其特征在于,包括:
确定待爬取的目标网站;
获取所述目标网站所有的检索条件,并确定所述目标网站所能显示的最大数据量;
将预设个数的所述检索条件组合成目标检索条件;所述预设个数小于所有的所述检索条件的个数;
爬取出所述目标检索条件下的数据量;
判断所述数据量是否小于或等于所述最大数据量;
若是,获得所述目标网站的最终统一资源定位符。
2.根据权利要求1所述的分布式深度爬取的方法,其特征在于,若所述数据量大于所述最大数据量,还包括:
结合所述目标检索条件,对除目标检索条件以外的所述检索条件逐个进行遍历,直至爬取出的数据量小于或等于所述最大数据量时获得所述最终统一资源定位符。
3.根据权利要求1所述的分布式深度爬取的方法,其特征在于,若所述预设个数为三个,所述将预设个数的所述检索条件组合成目标检索条件,包括:
确定每个所述检索条件下的子检索条件数量;
根据所述子检索条件数量从大到小对所述检索条件进行排序;
将所述子检索条件数量排名前三的所述检索条件组合成所述目标检索条件。
4.根据权利要求2所述的分布式深度爬取的方法,其特征在于,所述对除目标检索条件以外的所述检索条件逐个进行遍历,包括:
每次随机选取除所述目标检索条件以外的一个所述检索条件进行遍历。
5.根据权利要求2所述的分布式深度爬取的方法,其特征在于,所述对除目标检索条件以外的所述检索条件逐个进行遍历,包括:
根据除目标检索条件以外的所述检索条件的排名顺序从大到小逐个进行遍历。
6.根据权利要求1或2所述的分布式深度爬取的方法,其特征在于,在获得所述最终统一资源定位符之后,还包括:
将所述最终统一资源定位符保存在分布式缓存中。
7.根据权利要求6所述的分布式深度爬取的方法,其特征在于,所述将所述最终统一资源定位符保存在分布式缓存中之后,还包括:
从所述分布式缓存中读取所述最终统一资源定位符以得到爬取结果;
将所述爬取结果存储至数据库中。
8.一种分布式深度爬取的装置,其特征在于,包括:
确定模块,用于确定待爬取的目标网站;
第一获取模块,用于获取所述目标网站所有的检索条件,并确定所述目标网站所能显示的最大数据量;
组合模块,用于将预设个数的所述检索条件组合成目标检索条件;所述预设个数小于所有的所述检索条件的个数;
爬取模块,用于爬取出所述目标检索条件下的数据量;
判断模块,用于判断所述数据量是否小于或等于所述最大数据量;
第二获取模块,用于在所述数据量小于或等于所述最大数据量,获得所述目标网站的最终统一资源定位符。
9.一种分布式深度爬取的装置,其特征在于,包括存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的分布式深度爬取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的分布式深度爬取方法的步骤。
CN202111182163.2A 2021-10-11 2021-10-11 一种分布式深度爬取的方法、装置及介质 Active CN113722572B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111182163.2A CN113722572B (zh) 2021-10-11 2021-10-11 一种分布式深度爬取的方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111182163.2A CN113722572B (zh) 2021-10-11 2021-10-11 一种分布式深度爬取的方法、装置及介质

Publications (2)

Publication Number Publication Date
CN113722572A CN113722572A (zh) 2021-11-30
CN113722572B true CN113722572B (zh) 2024-03-29

Family

ID=78685845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111182163.2A Active CN113722572B (zh) 2021-10-11 2021-10-11 一种分布式深度爬取的方法、装置及介质

Country Status (1)

Country Link
CN (1) CN113722572B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076773B (zh) * 2023-08-23 2024-05-28 上海兰桂骐技术发展股份有限公司 一种基于互联网信息的数据源筛选优化方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102323955A (zh) * 2011-09-16 2012-01-18 邹春城 私有云搜索系统及其实现方法
US8606769B1 (en) * 2010-12-07 2013-12-10 Conductor, Inc. Ranking a URL based on a location in a search engine results page
CN104978408A (zh) * 2015-08-05 2015-10-14 许昌学院 基于Berkeley DB数据库的主题爬虫系统
CN106611027A (zh) * 2015-10-27 2017-05-03 北京国双科技有限公司 网站排名数据处理方法和装置
CN107291778A (zh) * 2016-04-11 2017-10-24 中兴通讯股份有限公司 数据的收集方法及装置
CN107391573A (zh) * 2017-06-19 2017-11-24 上海斐讯数据通信技术有限公司 一种基于信息重组的数据信息提取方法和系统
CN109033269A (zh) * 2018-07-10 2018-12-18 卓源信息科技股份有限公司 一种分布式区域人才供需主题数据爬取方法
CN110704713A (zh) * 2019-09-26 2020-01-17 国家计算机网络与信息安全管理中心 一种基于多数据源的论文数据爬取方法及系统
CN112650908A (zh) * 2020-12-25 2021-04-13 百果园技术(新加坡)有限公司 基于网络主题爬虫的数据处理方法、系统及装置
CN113051499A (zh) * 2021-03-23 2021-06-29 北京智慧星光信息技术有限公司 数据采集量的监测方法、系统、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040030741A1 (en) * 2001-04-02 2004-02-12 Wolton Richard Ernest Method and apparatus for search, visual navigation, analysis and retrieval of information from networks with remote notification and content delivery

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8606769B1 (en) * 2010-12-07 2013-12-10 Conductor, Inc. Ranking a URL based on a location in a search engine results page
CN102323955A (zh) * 2011-09-16 2012-01-18 邹春城 私有云搜索系统及其实现方法
CN104978408A (zh) * 2015-08-05 2015-10-14 许昌学院 基于Berkeley DB数据库的主题爬虫系统
CN106611027A (zh) * 2015-10-27 2017-05-03 北京国双科技有限公司 网站排名数据处理方法和装置
CN107291778A (zh) * 2016-04-11 2017-10-24 中兴通讯股份有限公司 数据的收集方法及装置
CN107391573A (zh) * 2017-06-19 2017-11-24 上海斐讯数据通信技术有限公司 一种基于信息重组的数据信息提取方法和系统
CN109033269A (zh) * 2018-07-10 2018-12-18 卓源信息科技股份有限公司 一种分布式区域人才供需主题数据爬取方法
CN110704713A (zh) * 2019-09-26 2020-01-17 国家计算机网络与信息安全管理中心 一种基于多数据源的论文数据爬取方法及系统
CN112650908A (zh) * 2020-12-25 2021-04-13 百果园技术(新加坡)有限公司 基于网络主题爬虫的数据处理方法、系统及装置
CN113051499A (zh) * 2021-03-23 2021-06-29 北京智慧星光信息技术有限公司 数据采集量的监测方法、系统、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
分布式网络爬虫在农产品搜索系统中的应用与研究;袁龙涛;《中国优秀硕士学位论文全文数据库 信息科技辑》(第03期);I138-6173 *
非合约对地观测数据源的动态汇聚;黄克颖 等;《计算机工程与科学》;第35卷(第11期);68-75 *

Also Published As

Publication number Publication date
CN113722572A (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
US9600400B1 (en) Performance testing of web application components using image differentiation
RU2659481C1 (ru) Оптимизированная для пакетной обработки архитектура визуализации и выборки
JP6827116B2 (ja) ウェブページのクラスタリング方法及び装置
US10083204B2 (en) Platform for authoring, storing, and searching workflows
CN108595583A (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
US8424004B2 (en) High performance script behavior detection through browser shimming
US20140108446A1 (en) Dynamic search box for web browser
US9454535B2 (en) Topical mapping
CN108052632A (zh) 一种网络信息获取方法、系统及企业信息搜索系统
CN106844486A (zh) 爬取动态网页的方法及装置
CN102262635A (zh) 一种网页爬虫系统及方法
CN110309386B (zh) 一种网页爬取的方法和装置
CN111259220B (zh) 一种基于大数据的数据采集方法和系统
CN113569181A (zh) 一种分页数据采集方法及系统
JP2017532655A (ja) カスケーディングスタイルシートファイルの圧縮
WO2022179128A1 (zh) 基于爬虫的数据抓取方法、装置、计算机设备及存储介质
CN113722572B (zh) 一种分布式深度爬取的方法、装置及介质
JP2006190253A (ja) ウェブページのアスペクトを評価するための方法と装置
US10289658B1 (en) Web page design scanner
CN114443928A (zh) 一种网络文本数据爬虫方法与系统
CN103914479A (zh) 资源请求的匹配方法和装置
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
CN114547495B (zh) 一种页面加载方法、装置、设备及可读存储介质
CN114443927A (zh) 一种高效网络爬取方法及装置
JP2024507029A (ja) ウェブページ識別方法、装置、電子機器、媒体およびコンピュータプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant