CN111209458A - 一种网络爬虫的数据处理系统及方法 - Google Patents

一种网络爬虫的数据处理系统及方法 Download PDF

Info

Publication number
CN111209458A
CN111209458A CN201811397873.5A CN201811397873A CN111209458A CN 111209458 A CN111209458 A CN 111209458A CN 201811397873 A CN201811397873 A CN 201811397873A CN 111209458 A CN111209458 A CN 111209458A
Authority
CN
China
Prior art keywords
url
crawled
webpage
characteristic information
hash function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811397873.5A
Other languages
English (en)
Inventor
曾庆维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SF Technology Co Ltd
SF Tech Co Ltd
Original Assignee
SF Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SF Technology Co Ltd filed Critical SF Technology Co Ltd
Priority to CN201811397873.5A priority Critical patent/CN111209458A/zh
Publication of CN111209458A publication Critical patent/CN111209458A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种网络爬虫的数据处理系统及方法,通过接收针对待爬取网页URL的重复性校验请求,以及待爬取网页URL多个特征信息集合成的特征信息集;将所述待爬取网页URL的每个特征信息输入至校验布隆过滤器,通过所有特征信息同时判断URL的重复性,由于每个特征信息均配置有一组或多组哈希函数组,即使某个特征信息在校验时,其中一哈希函数组中出现了误判,由于一个特征信息需要同时经一组或多组哈希函数组验证,因此除非每组哈希函数组都产生了误判,否则对最终的判断不影响,且由于所述待爬取网页URL的所有特征信息同时用来判断URL的重复性,即使某个特征信息在校验时有误判,对最终的判断不影响,因此保证了校验的准确性。

Description

一种网络爬虫的数据处理系统及方法
技术领域
本发明涉及PC互联网/移动互联网,尤其涉及一种网络爬虫的数据处理系统及方法。
背景技术
随着PC互联网/移动互联网的飞速发展,网络爬虫技术越来越受到重视。网络爬虫通过下载指定网页中的所有网址链接来获取信息。但是,在面对海量的网页信息时,为了尽可能多的爬取目标网页,往往是采用网络爬虫分布到多个机器集群上采用分布式网络爬虫进行爬取,且对已经爬取过的网页不再爬取。
为了防止重复爬取,目前常用的方式是将爬取过的URL保存在布隆过滤器中,通过布隆过滤器进行URL的重复性校验,布隆过滤器作为一种多哈希函数映射的快速查找算法,查询时间快,空间消耗小。它可以判断出某个元素URL肯定不在已经爬取过的URL集合里或者可能在集合里,即布隆过滤器不会漏报,但可能会出现在其他元素插入过程中出现占位,被偶然置为1,导致误报。因此,采用该种方法进行URL的重复性校验时,准确性有限,尤其是当URL数目过于巨大时,其准确性更是有待考证。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种网络爬虫的数据处理系统及方法。
根据本发明的一个方面,提供了一种网络爬虫的数据处理系统,包括:
URL特征信息获取单元,配置用于接收针对待爬取网页URL的重复性校验请求,以及所述待爬取网页URL多个特征信息集合成的所述待爬取网页URL的特征信息集;
URL重复性校验单元,配置用于将所述待爬取网页URL的特征信息集输入至校验布隆过滤器,对所述待爬取网页URL进行重复性校验,其中,所述校验布隆过滤器针对所述待爬取网页URL的每个特征信息均配置有一组或多组哈希函数组,且每组哈希函数组包括一个或多个哈希函数。
其中,多组哈希函数组,即哈希函数组的数量为2组及以上。
每组哈希函数组包括一个或多个哈希函数,每组哈希函数组中包括多个哈希函数时要求每组哈希函数组中哈希函数的数量为2个及以上。
进一步的,所述待爬取网页URL的多个特征信息,包括所述待爬取网页URL的内容、类型、字段长度、字符个数中的多个。即所述待爬取网页URL的多个特征信息,包括所述待爬取网页URL的内容、类型、字段长度、字符个数中的2个及以上,如包括所述待爬取网页URL的内容、类型,或所述待爬取网页URL的内容、类型、字段长度,或所述待爬取网页URL的内容、类型、字段长度、字符个数等。
进一步的,URL特征信息获取单元接收的重复性校验请求所针对的所述待爬取网页URL是根据预设网页链接深度所得。
预设网页链接深度包括外部链接深度、内部链接深度。其中,外部链接深度是指在建设网站外链接的时候,所进行的一系列的网站内部页面与对方网站内部页面间的所有链接;内部链接深度就是本网站内部页面之间的深度链接。
进一步的,URL重复性校验单元配置用于将所述待爬取网页URL的特征信息集输入至校验布隆过滤器配置的一组或多组哈希函数组中,得到相应的一组或多组数组位置,若每组数组位置在输入相应特征信息时被置为1的数量均超过预设阈值,则确认所述待爬取网页URL已被爬取。
根据本发明的另一个方面,提供了一种网络爬虫的数据处理方法,包括以下步骤:
S1、接收针对待爬取网页URL的重复性校验请求,以及所述待爬取网页URL多个特征信息集合成的所述待爬取网页URL的特征信息集;
S2、将所述待爬取网页URL的特征信息集输入至校验布隆过滤器,对所述待爬取网页URL进行重复性校验,其中,所述校验布隆过滤器针对所述待爬取网页URL的每个特征信息均配置有一组或多组哈希函数组,且每组哈希函数组包括一个或多个哈希函数。
进一步的,所述的网络爬虫的数据处理方法,还包括:
若所述待爬取网页URL属于所述已爬取URL集合,则所述待爬取网页URL已爬取过,接收针对下一待爬取网页URL的重复性校验请求,以及所述下一待爬取网页URL的特征信息集,执行步骤S1-S2,否则则驱动所述待爬取网页URL对应的网络爬虫系统,执行对所述待爬取网页URL的爬取操作。
进一步的,所述待爬取网页URL的多个特征信息,包括所述待爬取网页URL的内容、类型、字段长度、字符个数中的多个。
进一步的,S1接收的重复性校验请求所针对的所述待爬取网页URL是根据预设网页链接深度所得。
进一步的,S3包括:
将所述待爬取网页URL的特征信息集输入至校验布隆过滤器配置的一组或多组哈希函数组中,得到相应的一组或多组数组位置,若每组数组位置在输入相应特征信息时被置为1的数量均超过预设阈值,则确认所述待爬取网页URL已被爬取。
根据本发明的另一个方面,提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上任一项所述的方法。
根据本发明的另一个方面,提供了一种存储有计算机程序的计算机可读存介质,该程序被处理器执行时实现如上任一项所述的方法。
与现有技术相比,本发明具有以下有益效果:
1、本发明示例的网络爬虫的数据处理系统,URL特征信息获取单元配置用于接收针对待爬取网页URL的重复性校验请求,以及待爬取网页URL多个特征信息集合成的待爬取网页URL的特征信息集;URL重复性校验单元将所述待爬取网页URL的特征信息集输入至校验布隆过滤器,通过所述待爬取网页URL的所有特征信息同时判断所述待爬取网页URL的重复性,对所述待爬取网页URL进行重复性校验,由于所述校验布隆过滤器针对所述待爬取网页URL的每个特征信息均配置有一组或多组哈希函数组,而每组哈希函数组包括一个或多个哈希函数,即使在校验时,某个特征信息输入的一组哈希函数组中出现了占位情况,也对最终的判断不影响,除非每组哈希函数组都产生了误判,即使所述待爬取网页URL的某个特征信息在校验时可能有误判,但是同时用来判断所述待爬取网页URL重复性的所有特征信息同时出现误判的几率极低,即除非所述待爬取网页URL的所有特征信息对应的所有哈希函数组都有误判,否则则对最终的判断不影响,因此保证了所述待爬取网页URL重复性校验的准确性。
2、本发明示例的网络爬虫的数据处理方法,通过接收针对待爬取网页URL的重复性校验请求,以及待爬取网页URL多个特征信息集合成的待爬取网页URL的特征信息集;将所述待爬取网页URL的特征信息集输入至校验布隆过滤器,通过所述待爬取网页URL的所有特征信息同时判断所述待爬取网页URL的重复性,对所述待爬取网页URL进行重复性校验,且由于所述校验布隆过滤器针对所述待爬取网页URL的每个特征信息均配置有一组或多组哈希函数组,即使某个特征信息在校验时,其中一哈希函数组中出现了误判,由于一个特征信息需要同时经一组或多组哈希函数组验证,因此除非每组哈希函数组都产生了误判,否则对最终的判断不影响,且由于所述待爬取网页URL的所有特征信息同时用来判断所述待爬取网页URL的重复性,即使所述待爬取网页URL的某个特征信息在校验时有误判,对最终的判断不影响,因此保证了所述待爬取网页URL重复性校验的准确性。
附图说明
图1为本发明网络爬虫的数据处理系统框图;
图2为实施例1某网页寄托商品三级分类示意图;
图3为本发明网络爬虫的数据处理方法的流程图;
图4为本发明计算机系统的结构示意图,
图中,100 计算机系统,101 CPU,102 ROM,103RAM,104 总线,105 I/O接口,106输入部分,107 输出部分,108 存储部分,109 通信部分,110 驱动器,111 可拆卸介质。
具体实施方式
为了更好的了解本发明的技术方案,下面结合具体实施例、说明书附图对本发明作进一步说明。
实施例一:
本实施例提供了一种网络爬虫的数据处理系统,网络爬虫系统在对待爬取网页进行爬取时,为了防止重复爬取,需要先将待爬取网页的URL发送至相应校验服务器中配置的本实施例的网络爬虫的数据处理系统中进行重复性校验,若校验结果为待爬取网页URL未被爬取,所述待爬取网页URL对应的所述网络爬虫系统才对所述待爬取网页URL进行爬取。
上述网络爬虫的数据处理系统可以搭建在一台校验服务器中,所有网络爬虫系统获取的待爬取网页URL,都向这一台校验服务器的所述网络爬虫的数据处理系统发送针对待爬取网页URL的重复性校验请求,及待校验数据(待爬取网页URL多个特征信息集合成的待爬取网页URL的特征信息集),以此来判断所述待爬取网页URL是否爬取过,但是当面对海量网页信息的抓取时,为了尽可能多的抓取所有网页信息,往往是将网络爬虫系统分布到多个服务器集群上形成大规模的分布式爬虫系统,可能有上千台服务器集群同时向一台校验服务器发送待校验信息,数据量巨大,需要的内存可能会超过该校验服务器本身的内存,导致检验不畅,而且服务器集群与此校验服务器的通信也会成为整个爬虫系统的瓶颈,从而大大降低网络爬虫的效率。这时,需要将所述网络爬虫的数据处理系统搭建在多台校验服务器上,明确每台检验服务器的分工,在调度层面,确定每台检验服务器与所述网络爬虫系统所在服务器集群中具体服务器的对应关系,将所述网络爬虫系统获取的所述待爬取网页URL信息分配至相应的校验服务器上进行校验,以此减轻每台所述校验服务器的压力。
所述网络爬虫的数据处理系统具体包括:
URL特征信息获取单元配置用于接收针对待爬取网页URL的重复性校验请求,以及所述待爬取网页URL多个特征信息集合成的所述待爬取网页URL的特征信息集,URL特征信息获取单元接收的重复性校验请求所针对的所述待爬取网页URL是根据预设网页链接深度所得,预设网页链接深度包括外部链接深度、内部链接深度。其中,外部链接深度是指在建设网站外链接的时候,所进行的一系列的网站内部页面与对方网站内部页面间的所有链接;内部链接深度就是本网站内部页面之间的深度链接,比如,需要获取某网页寄托商品生鲜/水果/香蕉三级分类对应的URL,所述待爬取网页URL的多个特征信息包括所述待爬取网页URL的内容、类型、字段长度、字符个数中的多个,如所述待爬取网页URL的内容、类型、字段长度、字符个数,或所述待爬取网页URL的内容、类型、字段长度,或所述待爬取网页URL的内容、类型、字符个数等;
URL重复性校验单元配置用于将所述待爬取网页URL的特征信息集输入至校验布隆过滤器,对所述待爬取网页URL进行重复性校验,校验布隆过滤器中存有已爬取URL集合。具体是将所述待爬取网页URL的特征信息集输入至校验布隆过滤器配置的一组或多组哈希函数组中,得到相应的一组或多组数组位置,若每组数组位置在输入相应特征信息时被置为1的数量均超过预设阈值,则确认所述待爬取网页URL已被爬取。其中,所述校验布隆过滤器针对所述待爬取网页URL的每个特征信息均配置有一组或多组哈希函数组,且每组哈希函数组包括一个或多个哈希函数,哈希函数包括加法Hash、位运算Hash、乘法Hash、除法Hash、查表Hash、混合Hash等,故所述待爬取网页URL的相应特征信息配置的哈希函数组可以为加法Hash、位运算Hash、乘法Hash、除法Hash、查表Hash、混合Hash等组成的哈希函数组。目前通过布隆过滤器进行URL重复性校验时,一般通过所述待爬取网页URL的一个特征信息URL内容,所述布隆过滤器定义一组哈希函数组(当然每组哈希函数组有一个或多个哈希函数),然后通过判断其哈希值是否全为1验证所述待爬取网页URL是否已爬取过,若其哈希值全为1,则表明所述待爬取网页URL属于或可能属于布隆过滤器存储的已爬取URL集合,即所述待爬取网页URL已被爬取过或可能被爬取过,若其哈希值不全为1,即只要有任意一个哈希值为0,则确认所述待爬取网页URL不属于已爬取URL集合,进一步确认所述待爬取网页URL未被爬取过,但是由于传统的布隆过滤器针对所述待爬取网页URL的一个特征信息URL内容只定义了一组哈希函数,所以难免会有占位的情况,导致误判,影响爬取效率及效果,本实施例将所述待爬取网页URL的特征信息集输入至校验布隆过滤器,通过所述待爬取网页URL的多个特征信息同时判断所述待爬取网页URL的重复性,且每个特征信息经多组哈希函数组同时用来对所述待爬取网页URL进行重复性校验,即使某个特征信息在校验时,其中一组哈希函数组中出现了误判,由于一个特征信息需要同时经一组或多组哈希函数组映射到布隆过滤器相应的数组位,因此除非每组哈希函数组都产生了误判,否则对最终的判断不影响,且由于多个特征信息同时用来判断所述待爬取网页URL的重复性,即使某个特征信息在校验时有误判,对最终的判断结果不影响,即除非所述待爬取网页URL的所有特征信息对应的所有哈希函数组都有误判,否则则对最终的判断不影响,因此保证了URL重复性校验的准确性。
其中,若所述待爬取网页URL属于所述已爬取URL集合,则所述待爬取网页URL已爬取过,URL重复性校验单元则驱动URL特征信息获取单元接收针对下一待爬取网页URL的重复性校验请求,以及所述下一待爬取网页URL的特征信息集,否则则驱动所述待爬取网页URL对应的网络爬虫系统,执行对所述待爬取网页URL的爬取操作。
本实施例提供了一种网络爬虫的数据处理方法,包括以下步骤:
S1、接收针对待爬取网页URL的重复性校验请求,所针对的所述待爬取网页URL是根据预设网页链接深度所得,以及接收所述待爬取网页URL多个特征信息集合成的所述待爬取网页URL的特征信息集,所述待爬取网页URL的多个特征信息,包括所述待爬取网页URL的内容、类型、字段长度、字符个数中的多个,即包括所述待爬取网页URL的内容、类型、字段长度、字符个数中的2个及以上,如所述待爬取网页URL的内容、类型、字段长度、字符个数,或所述待爬取网页URL的内容、类型、字段长度,或所述待爬取网页URL的内容、类型、字符个数等;
S2、将所述待爬取网页URL的特征信息集输入至校验布隆过滤器,对所述待爬取网页URL进行重复性校验,校验布隆过滤器中存有已爬取URL集合,具体是将所述待爬取网页URL的特征信息集输入至校验布隆过滤器配置的一组或多组哈希函数组中,得到相应的一组或多组数组位置,若每组数组位置在输入相应特征信息时被置为1的数量均超过预设阈值,则确认所述待爬取网页URL已被爬取,其中,所述校验布隆过滤器针对所述待爬取网页URL的每个特征信息均配置有一组或多组哈希函数组,且每组哈希函数组包括一个或多个哈希函数。若所述待爬取网页URL属于所述已爬取URL集合,则所述待爬取网页URL已爬取过,接收针对下一待爬取网页URL的重复性校验请求,以及所述下一待爬取网页URL的特征信息集,执行步骤S1-S2,否则则驱动所述待爬取网页URL对应的网络爬虫系统,执行对所述待爬取网页URL的爬取操作。
上述网络爬虫的数据处理方法创造性的提出提取待爬取网页对应的URL的多个特征信息,校验布隆过滤器针对所述待爬取网页URL的每个特征信息均配置有一组或多组哈希函数组,通过将所述待爬取网页URL的每个特征信息一一输入校验布隆过滤器,通过该特征信息对应的一组或多组哈希函数组进行验证,若验证结果表明所述待爬取网页URL的每个特征信息都属于已爬取URL集合,则表明所述待爬取网页URL属于已爬取URL集合,即所述待爬取网页URL已爬取过,即使某个特征信息在校验时,其中一组哈希函数组中出现了误判,由于一个特征信息需要同时经一组或多组哈希函数组映射,因此除非每组哈希函数组都产生了误判,否则对最终的判断不影响,且由于所述待爬取网页URL是通过它的所有特征信息同时用来判断它的重复性,即使某个特征信息在校验时有误判,也对最终的判断也不影响,即除非所述待爬取网页URL的所有特征信息对应的所有哈希函数组都有误判,否则则对最终的判断不影响,因此大大保证了URL重复性校验的准确性。
应当理解,上述网络爬虫的数据处理方法中各步骤与网络爬虫的数据处理系统中记载的诸子单元相对应。由此,上文针对方法描述的操作和特征同样适用于上述系统及其中包含的单元,在此不再赘述。
本实施例还提供了一种设备,所述设备适于用来实现本申请实施例。
该设备包括计算机系统100,计算机系统100包括中央处理单元(CPU)101,其可以根据存储在只读存储器(ROM)102中的程序或者从存储部分加载到随机访问存储器(RAM)103中的程序而执行各种适当的动作和处理。在RAM103中,还存储有系统操作所需的各种程序和数据。CPU 101、ROM 102以及RAM 103通过总线104彼此相连。输入/输出(I/O)接口105也连接至总线104。
以下部件连接至I/O接口105:包括键盘、鼠标等的输入部分106;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分107;包括硬盘等的存储部分108;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分109。通信部分109经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口105。可拆卸介质111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器110上,以便于从其上读出的计算机程序根据需要被安装入存储部分108。
特别地,根据本发明的实施例,上文参考流程图3描述的过程可以被实现为计算机软件程序。例如,本发明的实施例一包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)101执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例一的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括URL特征信息获取单元、URL重复性校验单元。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,URL重复性校验单元还可以被描述为配置用于将所述待爬取网页URL的特征信息集输入至校验布隆过滤器,对所述待爬取网页URL进行重复性校验的URL重复性校验单元,其中,所述校验布隆过滤器针对所述待爬取网页URL的每个特征信息均配置有一组或多组哈希函数组,且每组哈希函数组包括一个或多个哈希函数。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的网络爬虫的数据处理方法。
例如,所述电子设备可以实现如图3中所示的:步骤S1、接收针对待爬取网页URL的重复性校验请求,以及所述待爬取网页URL多个特征信息集合成的所述待爬取网页URL的特征信息集;S2、将所述待爬取网页URL的特征信息集输入至校验布隆过滤器,对所述待爬取网页URL进行重复性校验,其中,所述校验布隆过滤器针对所述待爬取网页URL的每个特征信息均配置有一组或多组哈希函数组,且每组哈希函数组包括一个或多个哈希函数。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种网络爬虫的数据处理系统,其特征是,包括:
URL特征信息获取单元,配置用于接收针对待爬取网页URL的重复性校验请求,以及用于接收待爬取网页URL多个特征信息集合成的待爬取网页URL的特征信息集;
URL重复性校验单元,配置用于将所述待爬取网页URL的特征信息集输入至校验布隆过滤器,对所述待爬取网页URL进行重复性校验,其中,所述校验布隆过滤器针对所述待爬取网页URL的每个特征信息均配置有一组或多组哈希函数组,且每组哈希函数组包括一个或多个哈希函数。
2.根据权利要求1所述的网络爬虫的数据处理系统,其特征是,所述待爬取网页URL的多个特征信息,包括所述待爬取网页URL的内容、类型、字段长度、字符个数中的多个。
3.根据权利要求1所述的网络爬虫的数据处理系统,其特征是,URL特征信息获取单元接收的重复性校验请求所针对的所述待爬取网页URL是根据预设网页链接深度所得。
4.根据权利要求3所述的网络爬虫的数据处理系统,其特征是,预设网页链接深度包括外部链接深度、内部链接深度。
5.根据权利要求1-4任一所述的网络爬虫的数据处理系统,其特征是,
URL重复性校验单元配置用于将所述待爬取网页URL的特征信息集输入至校验布隆过滤器配置的一组或多组哈希函数组中,得到相应的一组或多组数组位置,若每组数组位置在输入相应特征信息时被置为1的数量均超过预设阈值,则确认所述待爬取网页URL已被爬取。
6.一种网络爬虫的数据处理方法,其特征是,包括以下步骤:
S1、接收针对待爬取网页URL的重复性校验请求,以及待爬取网页URL多个特征信息集合成的待爬取网页URL的特征信息集;
S2、将所述待爬取网页URL的特征信息集输入至校验布隆过滤器,对所述待爬取网页URL进行重复性校验,其中,所述校验布隆过滤器针对所述待爬取网页URL的每个特征信息均配置有一组或多组哈希函数组,且每组哈希函数组包括一个或多个哈希函数。
7.根据权利要求6所述的网络爬虫的数据处理方法,其特征是,还包括:
若所述待爬取网页URL属于所述已爬取URL集合,则所述待爬取网页URL已爬取过,接收针对下一待爬取网页URL的重复性校验请求,以及所述下一待爬取网页URL的特征信息集,执行步骤S1-S2,否则则驱动所述待爬取网页URL对应的网络爬虫系统,执行对所述待爬取网页URL的爬取操作。
8.根据权利要求6所述的网络爬虫的数据处理方法,其特征是,所述待爬取网页URL的多个特征信息,包括所述待爬取网页URL的内容、类型、字段长度、字符个数中的多个。
9.根据权利要求6所述的网络爬虫的数据处理方法,其特征是,S1接收的重复性校验请求所针对的所述待爬取网页URL是根据预设网页链接深度所得。
10.根据权利要求5-9任一所述的网络爬虫的数据处理方法,其特征是,S3包括:
将所述待爬取网页URL的特征信息集输入至校验布隆过滤器配置的一组或多组哈希函数组中,得到相应的一组或多组数组位置,若每组数组位置在输入相应特征信息时被置为1的数量均超过预设阈值,则确认所述待爬取网页URL已被爬取。
CN201811397873.5A 2018-11-22 2018-11-22 一种网络爬虫的数据处理系统及方法 Pending CN111209458A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811397873.5A CN111209458A (zh) 2018-11-22 2018-11-22 一种网络爬虫的数据处理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811397873.5A CN111209458A (zh) 2018-11-22 2018-11-22 一种网络爬虫的数据处理系统及方法

Publications (1)

Publication Number Publication Date
CN111209458A true CN111209458A (zh) 2020-05-29

Family

ID=70786618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811397873.5A Pending CN111209458A (zh) 2018-11-22 2018-11-22 一种网络爬虫的数据处理系统及方法

Country Status (1)

Country Link
CN (1) CN111209458A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112422707A (zh) * 2020-10-22 2021-02-26 北京安博通科技股份有限公司 域名数据挖掘方法、装置及Redis服务器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778217A (zh) * 2014-01-20 2014-05-07 北京集奥聚合科技有限公司 基于当前网页列表进行推荐的方法和系统
CN106407485A (zh) * 2016-12-20 2017-02-15 福建六壬网安股份有限公司 一种基于相似度比较的url去重方法和系统
CN106598984A (zh) * 2015-10-16 2017-04-26 北京国双科技有限公司 网络爬虫的数据处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778217A (zh) * 2014-01-20 2014-05-07 北京集奥聚合科技有限公司 基于当前网页列表进行推荐的方法和系统
CN106598984A (zh) * 2015-10-16 2017-04-26 北京国双科技有限公司 网络爬虫的数据处理方法及装置
CN106407485A (zh) * 2016-12-20 2017-02-15 福建六壬网安股份有限公司 一种基于相似度比较的url去重方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
潘昊等: "布隆过滤器在网页消重中的应用", 《软件》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112422707A (zh) * 2020-10-22 2021-02-26 北京安博通科技股份有限公司 域名数据挖掘方法、装置及Redis服务器

Similar Documents

Publication Publication Date Title
CN107895009B (zh) 一种基于分布式的互联网数据采集方法及系统
CN108875091B (zh) 一种统一管理的分布式网络爬虫系统
CN104933056A (zh) 统一资源定位符去重方法及装置
CN103501306B (zh) 一种网址识别的方法、服务器及系统
CN104239133A (zh) 一种日志处理方法、装置及服务器
CN105893622A (zh) 一种聚合搜索方法及聚合搜索系统
CN103530336A (zh) 统一资源定位符url中无效参数的识别设备及方法
CN109413046A (zh) 一种网络防护方法、系统及终端设备
CN103324713A (zh) 多级服务器中的数据处理方法、装置和数据处理系统
CN113392303A (zh) 后台爆破方法、装置、设备和计算机可读存储介质
CN112328805A (zh) 基于nlp的漏洞描述信息与数据库表的实体映射方法
CN110245281B (zh) 互联网资产信息收集方法及终端设备
CN112866279B (zh) 网页安全检测方法、装置、设备及介质
CN103530337A (zh) 识别统一资源定位符url中无效参数的设备及方法
CN111209458A (zh) 一种网络爬虫的数据处理系统及方法
CN107526833B (zh) 一种url管理方法、系统
CN107766224B (zh) 测试方法和测试装置
CN115795521B (zh) 访问控制方法、装置、电子设备及存储介质
CN112650739A (zh) 煤矿数据中台的数据存储处理方法和装置
Ham et al. Big Data Preprocessing Mechanism for Analytics of Mobile Web Log.
CN109086438B (zh) 用于查询信息的方法和装置
CN113792232B (zh) 页面特征计算方法、装置、电子设备、介质及程序产品
CN105389401A (zh) 数据库性能测试方法与装置
CN114363002B (zh) 一种网络攻击关系图的生成方法及装置
CN116204428A (zh) 一种测试用例生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200529