CN106598984A - 网络爬虫的数据处理方法及装置 - Google Patents

网络爬虫的数据处理方法及装置 Download PDF

Info

Publication number
CN106598984A
CN106598984A CN201510674190.XA CN201510674190A CN106598984A CN 106598984 A CN106598984 A CN 106598984A CN 201510674190 A CN201510674190 A CN 201510674190A CN 106598984 A CN106598984 A CN 106598984A
Authority
CN
China
Prior art keywords
url
bloom filter
cryptographic hash
data processing
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510674190.XA
Other languages
English (en)
Inventor
兰光明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510674190.XA priority Critical patent/CN106598984A/zh
Publication of CN106598984A publication Critical patent/CN106598984A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明公开了一种网络爬虫的数据处理方法及装置,涉及信息技术领域,可以提高分布式网络爬虫系统中URL去重的准确性,可以避免网络爬虫重复爬取相同URL对应的网页信息。所述方法包括:首先获取需要爬取的网页对应的URL;再计算所述URL对应的哈希值;然后根据所述哈希值,确定所述URL对应的目标布隆过滤器;最后将所述URL分配到所述目标布隆过滤器对应的服务器中进行所述URL的重复性校验。本发明适用于网络爬虫爬取数据的去重。

Description

网络爬虫的数据处理方法及装置
技术领域
本发明涉及信息技术领域,尤其涉及一种网络爬虫的数据处理方法及装置。
背景技术
随着信息技术的飞速发展,网络爬虫技术越来越受到重视。网络爬虫是一种可以自动下载网站数据的程序,它通过下载指定网页中的所有网址链接来获取开发者需要的信息。但是,在面对海量的网页信息时,用一台机器进行网络爬虫抓取所有网页信息是不可能的。为了抓取所有网页信息,往往是将网络爬虫分布到多个机器集群上进行爬取,并且对于已经爬取过的网页有不需要再次重复爬取的要求。
为了防止重复爬取,分布式网络爬虫在爬取的过程中,需要记录爬取过的URL(Uniform Resource Locator,统一资源定位符),并且由于URL数目过于巨大,数量级可达到十亿级,可以将这些爬取过的URL保存在布隆过滤器中,进而进行URL的重复性校验。
目前为了统一分布式网络爬虫系统中各服务器配置的布隆过滤器保存的历史URL,避免出现在一台服务器上进行爬取之后,在另外一台服务器上对同样的URL对应网页进行爬取的情况。可以采用镜像保存的方式,通过特定的通信方式,将一台服务器上爬取过的URL同步发送给其他服务器,进而可以保证分布式网络爬虫系统中URL去重的准确性。
然而,在一台服务器往其他服务器进行URL数据同步时,有时会受到网络延时等原因,同步有一定的延时,如果这时在另外的服务器恰好有该相同URL的爬取任务,网络爬虫将误认为该URL对应的网页没有被爬取过,会导致网络爬虫重复爬取相同的网页信息,造成分布式网络爬虫系统中URL去重的准确性较低,进而影响了网络爬虫爬取过程的效率。
发明内容
有鉴于此,本发明实施例提供了一种网络爬虫的数据处理方法及装置,主要目的是可以提高分布式网络爬虫系统中URL去重的准确性,可以避免网络爬虫重复爬取相同URL对应的网页信息。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明实施例提供了一种网络爬虫的数据处理方法,该方法包括:
获取需要爬取的网页对应的URL;
计算所述URL对应的哈希值;
根据所述哈希值,确定所述URL对应的目标布隆过滤器;
将所述URL分配到所述目标布隆过滤器对应的服务器中进行所述URL的重复性校验。
另一方面,本发明实施例还提供了一种网络爬虫的数据处理装置,该装置包括:
获取单元,用于获取需要爬取的网页对应的URL;
计算单元,用于计算所述获取单元获取的URL对应的哈希值;
确定单元,用于根据所述计算单元计算的哈希值,确定所述URL对应的目标布隆过滤器;
分配单元,用于将所述URL分配到所述确定单元确定的目标布隆过滤器对应的服务器中进行所述URL的重复性校验。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明实施例提供的一种网络爬虫的数据处理方法及装置,首先获取需要爬取的网页对应的URL;再计算所述URL对应的哈希值;然后根据所述哈希值,确定所述URL对应的目标布隆过滤器;最后将所述URL分配到所述目标布隆过滤器对应的服务器中进行所述URL的重复性校验。与目前通过镜像保存的方式将一台服务器爬取过的URL同步发送给其他服务器相比,本发明根据计算得到的URL的哈希值,确定分布式网络爬虫系统中唯一对应的目标布隆过滤器,在目标布隆过滤器对应的服务器中进行所述URL的重复性校验,避免了数据同步造成的网络延迟风险,可以提高分布式网络爬虫系统中URL去重的准确性,进而避免了网络爬虫重复爬取相同URL对应的网页信息,可以提高网络爬虫爬取过程的精确度,同时,由于不再采用镜像保存的方式,将大大提高分布式网络爬虫系统整体的过滤去重能力,可以实现系统整体容量的水平扩展。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的一种网络爬虫的数据处理方法流程示意图;
图2为本发明实施例提供的另一种网络爬虫的数据处理方法流程示意图;
图3为本发明实施例提供的一种网络爬虫的数据处理装置结构示意图;
图4为本发明实施例提供的另一种网络爬虫的数据处理装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种网络爬虫的数据处理方法,如图1所示,所述方法包括:
101、获取需要爬取的网页对应的URL。
其中,所述URL可以为网页对应的链接地址。
102、计算URL对应的哈希值。
对于本发明实施例,可以通过哈希算法计算得到所述URL对应的哈希值,具体地,将URL字符串转化为二进制的哈希值。
103、根据URL对应的哈希值,确定URL对应的目标布隆过滤器。
需要说明的是,由于相同的URL具有唯一的哈希值,所有对于每一个相同的URL,可以找到而且只能找到唯一的布隆过滤器,即所述URL对应的目标布隆过滤器,具体实施步骤可以如下实例所示,但不限于此。
例如,统计得到当前网络爬虫系统中存在的布隆过滤器的个数,具体可以为10个,并为每个布隆过滤器进行编号,从1号到10号;计算得到了URL对应的哈希值,将其转换为十进制的形式,具体为2001,对该哈希值与布隆过滤器的个数进行求模计算,具体是将该哈希值除以布隆过滤器的个数等到商和余数,根据得到的余数,确定布隆过滤器,此例中求模计算得到的余数为1,可以确定该URL对应1号布隆过滤器。
104、将URL分配到目标布隆过滤器对应的服务器中进行URL的重复性校验。
需要说明的是,在所述目标布隆过滤器对应的服务器中进行URL的重复性校验的过程可以包括:在所述服务器中计算所述URL对应的哈希值,检测所述目标布隆过滤器是否保存有所述哈希值,若是,则将所述URL删除,并不进行所述URL对应网页的爬取操作;若否,则将所述URL添加到待爬取的队列中,进而实现对所述URL对应网页的进行网络爬虫爬取操作。
本发明实施例提供的一种网络爬虫的数据处理方法,首先获取需要爬取的网页对应的URL;再计算所述URL对应的哈希值;然后根据所述哈希值,确定所述URL对应的目标布隆过滤器;最后将所述URL分配到所述目标布隆过滤器对应的服务器中进行所述URL的重复性校验。与目前通过镜像保存的方式将一台服务器爬取过的URL同步发送给其他服务器相比,本发明根据计算得到的URL的哈希值,确定分布式网络爬虫系统中唯一对应的目标布隆过滤器,在目标布隆过滤器对应的服务器中进行所述URL的重复性校验,避免了数据同步造成的网络延迟风险,可以提高分布式网络爬虫系统中URL去重的准确性,进而避免了网络爬虫重复爬取相同URL对应的网页信息,可以提升网络爬虫爬取过程的精确度,同时,由于不再采用镜像保存的方式,将大大提高分布式网络爬虫系统整体的过滤去重能力,可以实现系统整体容量的水平扩展。
本发明实施例提供了另一种网络爬虫的数据处理方法,如图2所示,所述方法包括:
201、获取需要爬取的网页对应的URL。
其中,所述URL可以为网页对应的链接地址。
202、计算URL对应的哈希值。
对于本发明实施例,可以通过哈希算法计算得到所述URL对应的哈希值,具体地,将URL字符串转化为二进制的哈希值。
203、获取当前分布式网络爬虫系统中布隆过滤器的个数。
需要说明的是,在分布式网络爬虫系统中有多台服务器,用于分别进行网络爬虫爬取操作,每个服务器都配置有布隆过滤器用于进行URL的重复性校验。为了进行本发明实施例的以下步骤,需要获取这些布隆过滤器的个数。
204、将URL对应的哈希值与布隆过滤器的个数进行求模计算,得到求模计算结果。
需要说明的是,计算得到的URL对应的哈希值为二进制形式的,为了说明本发明实施例,可以将所述哈希值转换为十进制的形式,例如,URL对应的哈希值转换得到十进制的表现形式为10020,当前网络爬虫系统中布隆过滤器的个数为100个,将10020与100进行求模计算,具体是10020除以100,得到商为100,余数为20。
205、根据求模计算结果,确定URL对应的目标布隆过滤器。
对于本发明实施例,所述步骤205具体可以包括:根据所述布隆过滤器的个数,为每一个布隆过滤器配置对应的标识信息;将标识信息与所述求模计算结果匹配的布隆过滤器,确定为所述URL对应的目标布隆过滤器。其中,所述标识信息可以为数字标识,也可以为数字编号等,本发明实施例不做限定。例如,1号、2号等。
例如,当网络爬虫系统中存在100个布隆过滤器,为该100个布隆过滤器分别配置数字标识,具体为1号至100号,当求模计算结果中的余数为99时,可以确定目标布隆过滤器对应的标识信息为99号,进而确定了99号布隆过滤器为目标布隆过滤器。当求模计算结果中的余数为0时,即实现了整除,可以确定目标布隆过滤器对应的标识信息为100号,进而确定了100号布隆过滤器为目标布隆过滤器。
206、将URL分配到目标布隆过滤器对应的服务器中进行URL的重复性校验。
对于本发明实施例,所述步骤206具体包括:判断所述目标布隆过滤器中是否存在所述URL对应的哈希值;若存在,则判定所述URL对应的网页被爬取过;若不存在,则判定所述URL对应的网页未被爬取过。
需要说明的是,当判定所述URL对应的网页被爬取过时,可以将所述URL进行删除,并不进行URL对应网页的网络爬虫爬取操作,当判定所述URL对应的网页未被爬取过,可以将所述URL添加到待爬取队列中,进而实现对所述URL对应网页的进行网络爬虫爬取操作。
进一步地,在所述判定所述URL对应的网页未被爬取过之后,还包括:将所述URL对应的哈希值保存在所述目标布隆过滤器中。以便当所述目标布隆过滤器对应的服务器再次接收到所述URL时,对所述URL进行删除操作,进而实现了URL的去重。
需要说明的是,现有技术中当分布式网络爬虫系统中添加多个布隆过滤器时,由于采用镜像保存的方式,会增加数据去重系统的复杂性,进而会更加受到网络延迟的因素的影响,会导致系统中布隆过滤器的扩展能力受到限制。与现有技术相比,本发明实施例所采用的方式,由于不再采用镜像保存的方式,每个布隆过滤器只负责系统中一小部分过滤功能,整体可以无限的水平扩展,在系统中添加新的布隆过滤器之后,只需要重新利用哈希值求模即可确定新的目标布隆过滤器,从而可以实现系统整体容量的水平扩展,提升了布隆过滤器的整体容量。
对于本发明实施例的具体应用场景可以如下所示,但不限于此,包括:
分布式爬虫系统中存在10个布隆过滤器,为每个布隆过滤器进行编号,1号至10号,当需要通过网络爬虫爬取网页信息时,获取该网页对应的URL,并计算该URL对应的哈希值,用十进制形式表示是3009,将3009除以10得到的余数为9,将该URL分配给9号布隆过滤器对应的服务器上,在该服务器上判断该URL对应的哈希值是否在9号布隆过滤器中存在,若存在,则将该URL删除,并不进行该URL对应网页的爬取;若不存在,则将该URL添加到待爬取的队列中,进而进行该URL对应网页的爬取,并将该URL对应的哈希值保存在9号布隆过滤器当中。
本发明实施例提供的另一种网络爬虫的数据处理方法,首先获取需要爬取的网页对应的URL;再计算所述URL对应的哈希值;然后根据所述哈希值,确定所述URL对应的目标布隆过滤器;最后将所述URL分配到所述目标布隆过滤器对应的服务器中进行所述URL的重复性校验。与目前通过镜像保存的方式将一台服务器爬取过的URL同步发送给其他服务器相比,本发明根据计算得到的URL的哈希值,确定分布式网络爬虫系统中唯一对应的目标布隆过滤器,在目标布隆过滤器对应的服务器中进行所述URL的重复性校验,避免了数据同步造成的网络延迟风险,可以提高分布式网络爬虫系统中URL去重的准确性,进而避免了网络爬虫重复爬取相同URL对应的网页信息,可以提升网络爬虫爬取过程的精确度,同时,由于不再采用镜像保存的方式,将大大提高分布式网络爬虫系统整体的过滤去重能力,可以实现系统整体容量的水平扩展。
进一步地,作为图1所示方法的具体实现,本发明实施例提供了一种网络爬虫的数据处理装置,如图3所示,所述装置包括:获取单元31、计算单元32、确定单元33、分配单元34。
所述获取单元31,可以用于获取需要爬取的网页对应的URL。
所述计算单元32,可以用于计算所述获取单元31获取的URL对应的哈希值。
所述确定单元33,可以用于根据所述计算单元32计算的哈希值,确定所述URL对应的目标布隆过滤器。
所述分配单元34,可以用于将所述URL分配到所述确定单元33确定的目标布隆过滤器对应的服务器中进行所述URL的重复性校验。
需要说明的是,本发明实施例提供的一种网络爬虫的数据处理装置所涉及各功能单元的其他相应描述,可以参考图1的对应描述,在此不再赘述。
本发明实施例提供的一种网络爬虫的数据处理装置,首先获取需要爬取的网页对应的URL;再计算所述URL对应的哈希值;然后根据所述哈希值,确定所述URL对应的目标布隆过滤器;最后将所述URL分配到所述目标布隆过滤器对应的服务器中进行所述URL的重复性校验。与目前通过镜像保存的方式将一台服务器爬取过的URL同步发送给其他服务器相比,本发明根据计算得到的URL的哈希值,确定分布式网络爬虫系统中唯一对应的目标布隆过滤器,在目标布隆过滤器对应的服务器中进行所述URL的重复性校验,避免了数据同步造成的网络延迟风险,可以提高分布式网络爬虫系统中URL去重的准确性,进而避免了网络爬虫重复爬取相同URL对应的网页信息,可以提升网络爬虫爬取过程的精确度,同时,由于不再采用镜像保存的方式,将大大提高分布式网络爬虫系统整体的过滤去重能力,可以实现系统整体容量的水平扩展。
进一步地,作为图2所示方法的具体实现,本发明实施例提供了另一种网络爬虫的数据处理装置,如图4所示,所述装置包括:获取单元41、计算单元42、确定单元43、分配单元44。
所述获取单元41,可以用于获取需要爬取的网页对应的URL。
所述计算单元42,可以用于计算所述获取单元41获取的URL对应的哈希值。
所述确定单元43,可以用于根据所述计算单元42计算的哈希值,确定所述URL对应的目标布隆过滤器。
所述分配单元44,可以用于将所述URL分配到所述确定单元43确定的目标布隆过滤器对应的服务器中进行所述URL的重复性校验。
进一步地,所述确定单元43包括:获取模块431、计算模块432、确定模块433。
所述获取模块431,可以用于获取当前分布式网络爬虫系统中布隆过滤器的个数。
所述计算模块432,可以用于将所述哈希值与所述获取模块431获取的布隆过滤器的个数进行求模计算,得到求模计算结果。
所述确定模块433,可以用于根据所述计算模块432计算得到的求模计算结果,确定所述URL对应的目标布隆过滤器。
进一步地,所述确定模块433包括:配置子模块4331、确定子模块4332。
所述配置子模块4331,可以用于根据所述布隆过滤器的个数,为每一个布隆过滤器配置对应的标识信息。
所述确定子模块4332,可以用于将标识信息与所述求模计算结果匹配的布隆过滤器,确定为所述URL对应的目标布隆过滤器。
进一步地,所述分配单元44包括:判断模块441、判定模块442。
所述判断模块441,可以用于判断所述目标布隆过滤器中是否存在所述URL对应的哈希值。
所述判定模块442,可以用于若所述判断模块441判断出所述目标布隆过滤器中存在所述URL对应的哈希值,则判定所述URL对应的网页被爬取过。
所述判定模块442,还可以用于若所述判断模块441判断出所述目标布隆过滤器中不存在所述URL对应的哈希值,则判定所述URL对应的网页未被爬取过。
进一步地,所述装置还包括:保存单元45。
所述保存单元45,可以用于若判定所述URL对应的网页未被爬取过,将所述URL对应的哈希值保存在所述目标布隆过滤器中。
需要说明的是,本发明实施例提供的另一种网络爬虫的数据处理装置所涉及各功能单元的其他相应描述,可以参考图2的对应描述,在此不再赘述。
本发明实施例提供的另一种网络爬虫的数据处理装置,首先获取需要爬取的网页对应的URL;再计算所述URL对应的哈希值;然后根据所述哈希值,确定所述URL对应的目标布隆过滤器;最后将所述URL分配到所述目标布隆过滤器对应的服务器中进行所述URL的重复性校验。与目前通过镜像保存的方式将一台服务器爬取过的URL同步发送给其他服务器相比,本发明根据计算得到的URL的哈希值,确定分布式网络爬虫系统中唯一对应的目标布隆过滤器,在目标布隆过滤器对应的服务器中进行所述URL的重复性校验,避免了数据同步造成的网络延迟风险,可以提高分布式网络爬虫系统中URL去重的准确性,进而避免了网络爬虫重复爬取相同URL对应的网页信息,可以提升网络爬虫爬取过程的精确度,同时,由于不再采用镜像保存的方式,将大大提高分布式网络爬虫系统整体的过滤去重能力,可以实现系统整体容量的水平扩展。
所述网络爬虫的数据处理装置包括处理器和存储器,上述获取单元、计算单元、确定单元和分配单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高分布式网络爬虫系统中URL去重的准确性,避免网络爬虫重复爬取相同URL对应的网页信息。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取需要爬取的网页对应的URL;计算所述URL对应的哈希值;根据所述哈希值,确定所述URL对应的目标布隆过滤器;将所述URL分配到所述目标布隆过滤器对应的服务器中进行所述URL的重复性校验。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种网络爬虫的数据处理方法,其特征在于,包括:
获取需要爬取的网页对应的URL;
计算所述URL对应的哈希值;
根据所述哈希值,确定所述URL对应的目标布隆过滤器;
将所述URL分配到所述目标布隆过滤器对应的服务器中进行所述URL的重复性校验。
2.根据权利要求1所述的网络爬虫的数据处理方法,其特征在于,所述根据所述哈希值,确定所述URL对应的目标布隆过滤器包括:
获取当前分布式网络爬虫系统中布隆过滤器的个数;
将所述哈希值与所述布隆过滤器的个数进行求模计算,得到求模计算结果;
根据所述求模计算结果,确定所述URL对应的目标布隆过滤器。
3.根据权利要求2所述的网络爬虫的数据处理方法,其特征在于,所述根据所述求模计算结果,确定所述URL对应的目标布隆过滤器包括:
根据所述布隆过滤器的个数,为每一个布隆过滤器配置对应的标识信息;
将标识信息与所述求模计算结果匹配的布隆过滤器,确定为所述URL对应的目标布隆过滤器。
4.根据权利要求1所述的网络爬虫的数据处理方法,其特征在于,所述将所述URL分配到所述目标布隆过滤器对应的服务器中进行所述URL的重复性校验包括:
判断所述目标布隆过滤器中是否存在所述URL对应的哈希值;
若存在,则判定所述URL对应的网页被爬取过;
若不存在,则判定所述URL对应的网页未被爬取过。
5.根据权利要求4所述的网络爬虫的数据处理方法,其特征在于,所述判定所述URL对应的网页未被爬取过之后,所述方法还包括:
将所述URL对应的哈希值保存在所述目标布隆过滤器中。
6.一种网络爬虫的数据处理装置,其特征在于,包括:
获取单元,用于获取需要爬取的网页对应的URL;
计算单元,用于计算所述获取单元获取的URL对应的哈希值;
确定单元,用于根据所述计算单元计算的哈希值,确定所述URL对应的目标布隆过滤器;
分配单元,用于将所述URL分配到所述确定单元确定的目标布隆过滤器对应的服务器中进行所述URL的重复性校验。
7.根据权利要求6所述的网络爬虫的数据处理装置,其特征在于,所述确定单元包括:
获取模块,用于获取当前分布式网络爬虫系统中布隆过滤器的个数;
计算模块,用于将所述哈希值与所述布隆过滤器的个数进行求模计算,得到求模计算结果;
确定模块,用于根据所述计算模块计算得到的求模计算结果,确定所述URL对应的目标布隆过滤器。
8.根据权利要求7所述的网络爬虫的数据处理装置,其特征在于,所述确定模块包括:
配置子模块,用于根据所述布隆过滤器的个数,为每一个布隆过滤器配置对应的标识信息;
确定子模块,用于将标识信息与所述求模计算结果匹配的布隆过滤器,确定为所述URL对应的目标布隆过滤器。
9.根据权利要求6所述的网络爬虫的数据处理装置,其特征在于,所述分配单元包括:
判断模块,用于判断所述目标布隆过滤器中是否存在所述URL对应的哈希值;
判定模块,用于若所述判断模块判断出所述目标布隆过滤器中存在所述URL对应的哈希值,则判定所述URL对应的网页被爬取过;
所述判定模块,还用于若所述判断模块判断出所述目标布隆过滤器中不存在所述URL对应的哈希值,则判定所述URL对应的网页未被爬取过。
10.根据权利要求9所述的网络爬虫的数据处理装置,其特征在于,所述装置还包括:
保存单元,用于若判定所述URL对应的网页未被爬取过,将所述URL对应的哈希值保存在所述目标布隆过滤器中。
CN201510674190.XA 2015-10-16 2015-10-16 网络爬虫的数据处理方法及装置 Pending CN106598984A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510674190.XA CN106598984A (zh) 2015-10-16 2015-10-16 网络爬虫的数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510674190.XA CN106598984A (zh) 2015-10-16 2015-10-16 网络爬虫的数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN106598984A true CN106598984A (zh) 2017-04-26

Family

ID=58554036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510674190.XA Pending CN106598984A (zh) 2015-10-16 2015-10-16 网络爬虫的数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN106598984A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107329969A (zh) * 2017-05-23 2017-11-07 合肥智权信息科技有限公司 一种基于多次校验的数据信息更新系统和方法
CN108153741A (zh) * 2018-01-12 2018-06-12 中译语通科技股份有限公司 基于多语言高效数据采集方法、计算机程序
CN109918554A (zh) * 2019-02-13 2019-06-21 平安科技(深圳)有限公司 网页数据爬取方法、装置、系统及计算机可读存储介质
CN109977261A (zh) * 2019-04-02 2019-07-05 北京奇艺世纪科技有限公司 一种数据请求的处理方法、装置及服务器
CN110851758A (zh) * 2019-10-30 2020-02-28 深圳前海微众银行股份有限公司 一种网页访客数量统计方法及装置
CN110929128A (zh) * 2019-12-11 2020-03-27 北京启迪区块链科技发展有限公司 一种数据爬取方法、装置、设备和介质
CN111125487A (zh) * 2019-12-24 2020-05-08 个体化细胞治疗技术国家地方联合工程实验室(深圳) 一种网络爬虫的爬行方法及装置
CN111209458A (zh) * 2018-11-22 2020-05-29 顺丰科技有限公司 一种网络爬虫的数据处理系统及方法
CN111629378A (zh) * 2020-06-05 2020-09-04 上海创蓝文化传播有限公司 一种基于布隆过滤器拦截风险短信的方法及装置
CN112448991A (zh) * 2019-09-05 2021-03-05 顺丰科技有限公司 一种地址去重方法、相关设备及存储介质
CN112711684A (zh) * 2019-10-24 2021-04-27 北京国双科技有限公司 重复数据检测方法及装置
CN112948654A (zh) * 2019-11-26 2021-06-11 上海哔哩哔哩科技有限公司 网页爬取方法、装置以及计算机设备
CN112989147A (zh) * 2021-02-20 2021-06-18 每日互动股份有限公司 数据信息的推送方法、装置、计算机设备及存储介质
CN113051498A (zh) * 2021-03-22 2021-06-29 全球能源互联网研究院有限公司 一种基于多重布隆过滤的url去重方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826110A (zh) * 2010-04-13 2010-09-08 北京大学 一种BitTorrent种子文件爬取方法
CN101848116A (zh) * 2010-04-21 2010-09-29 中国海洋大学 一种简单快捷自动的Web服务器压力测试方法
CN102006330A (zh) * 2010-12-01 2011-04-06 北京瑞信在线系统技术有限公司 分布式缓存系统、数据的缓存方法及缓存数据的查询方法
CN102298633A (zh) * 2011-09-08 2011-12-28 厦门市美亚柏科信息股份有限公司 一种分布式海量数据排重方法及系统
US20140359760A1 (en) * 2013-05-31 2014-12-04 Adi Labs, Inc. System and method for detecting phishing webpages

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826110A (zh) * 2010-04-13 2010-09-08 北京大学 一种BitTorrent种子文件爬取方法
CN101848116A (zh) * 2010-04-21 2010-09-29 中国海洋大学 一种简单快捷自动的Web服务器压力测试方法
CN102006330A (zh) * 2010-12-01 2011-04-06 北京瑞信在线系统技术有限公司 分布式缓存系统、数据的缓存方法及缓存数据的查询方法
CN102298633A (zh) * 2011-09-08 2011-12-28 厦门市美亚柏科信息股份有限公司 一种分布式海量数据排重方法及系统
US20140359760A1 (en) * 2013-05-31 2014-12-04 Adi Labs, Inc. System and method for detecting phishing webpages

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107329969A (zh) * 2017-05-23 2017-11-07 合肥智权信息科技有限公司 一种基于多次校验的数据信息更新系统和方法
CN108153741A (zh) * 2018-01-12 2018-06-12 中译语通科技股份有限公司 基于多语言高效数据采集方法、计算机程序
CN108153741B (zh) * 2018-01-12 2021-10-15 中译语通科技股份有限公司 基于多语言高效数据采集方法、计算机程序
CN111209458A (zh) * 2018-11-22 2020-05-29 顺丰科技有限公司 一种网络爬虫的数据处理系统及方法
CN109918554A (zh) * 2019-02-13 2019-06-21 平安科技(深圳)有限公司 网页数据爬取方法、装置、系统及计算机可读存储介质
CN109977261A (zh) * 2019-04-02 2019-07-05 北京奇艺世纪科技有限公司 一种数据请求的处理方法、装置及服务器
CN112448991B (zh) * 2019-09-05 2023-06-13 顺丰科技有限公司 一种地址去重方法、相关设备及存储介质
CN112448991A (zh) * 2019-09-05 2021-03-05 顺丰科技有限公司 一种地址去重方法、相关设备及存储介质
CN112711684A (zh) * 2019-10-24 2021-04-27 北京国双科技有限公司 重复数据检测方法及装置
CN110851758A (zh) * 2019-10-30 2020-02-28 深圳前海微众银行股份有限公司 一种网页访客数量统计方法及装置
CN110851758B (zh) * 2019-10-30 2024-02-06 深圳前海微众银行股份有限公司 一种网页访客数量统计方法及装置
CN112948654A (zh) * 2019-11-26 2021-06-11 上海哔哩哔哩科技有限公司 网页爬取方法、装置以及计算机设备
CN110929128A (zh) * 2019-12-11 2020-03-27 北京启迪区块链科技发展有限公司 一种数据爬取方法、装置、设备和介质
CN111125487A (zh) * 2019-12-24 2020-05-08 个体化细胞治疗技术国家地方联合工程实验室(深圳) 一种网络爬虫的爬行方法及装置
CN111629378B (zh) * 2020-06-05 2021-01-19 上海创蓝文化传播有限公司 一种基于布隆过滤器拦截风险短信的方法及装置
CN111629378A (zh) * 2020-06-05 2020-09-04 上海创蓝文化传播有限公司 一种基于布隆过滤器拦截风险短信的方法及装置
CN112989147A (zh) * 2021-02-20 2021-06-18 每日互动股份有限公司 数据信息的推送方法、装置、计算机设备及存储介质
CN113051498A (zh) * 2021-03-22 2021-06-29 全球能源互联网研究院有限公司 一种基于多重布隆过滤的url去重方法及系统
CN113051498B (zh) * 2021-03-22 2024-03-12 全球能源互联网研究院有限公司 一种基于多重布隆过滤的url去重方法及系统

Similar Documents

Publication Publication Date Title
CN106598984A (zh) 网络爬虫的数据处理方法及装置
CN108092962B (zh) 一种恶意url检测方法及装置
KR20200089749A (ko) 블록체인-기반 데이터 검증 방법 및 장치, 및 전자 디바이스
CN107766469A (zh) 一种缓存处理方法和装置
CN104933056A (zh) 统一资源定位符去重方法及装置
KR20170128431A (ko) 사용자 디바이스 식별을 위한 방법 및 시스템
US10073918B2 (en) Classifying URLs
CN107045507B (zh) 网页爬取方法及装置
CN106878370A (zh) 一种本地缓存的更新方法和设备
CN106570025A (zh) 一种数据过滤的方法及装置
CN109298987A (zh) 一种检测网络爬虫运行状态的方法及装置
CN107015986A (zh) 一种爬虫爬取网页的方法及装置
CN112015806A (zh) 区块链存储数据的方法及装置
CN105468412A (zh) 动态打包方法和装置
CN110309669A (zh) 一种数据标注方法、装置及设备
CN104375935A (zh) Sql注入攻击的测试方法和装置
CN108132948A (zh) 处理爬取网页的方法和装置
CN105975599A (zh) 一种监测网站的页面埋点的方法和装置
CN106611118B (zh) 申请登录凭证的方法和装置
CN106657422A (zh) 爬取网站页面的方法、装置及系统
CN107704464A (zh) 解析静态资源的路径的方法及装置
CN104077422B (zh) 下载apk的去重方法及装置
CN111125087B (zh) 数据的存储方法及装置
CN106598983A (zh) 信息显示方法及装置
CN111143720A (zh) 一种url去重方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170426