CN110866166A - 面向海量数据采集的分布式网络爬虫性能优化系统 - Google Patents

面向海量数据采集的分布式网络爬虫性能优化系统 Download PDF

Info

Publication number
CN110866166A
CN110866166A CN201911110921.2A CN201911110921A CN110866166A CN 110866166 A CN110866166 A CN 110866166A CN 201911110921 A CN201911110921 A CN 201911110921A CN 110866166 A CN110866166 A CN 110866166A
Authority
CN
China
Prior art keywords
link
module
url
crawling
url address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911110921.2A
Other languages
English (en)
Inventor
王维纲
张郭秋晨
张凯云
吴志成
吴艳林
纪纲
孙鹏
陈卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jinghang Computing Communication Research Institute
Original Assignee
Beijing Jinghang Computing Communication Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jinghang Computing Communication Research Institute filed Critical Beijing Jinghang Computing Communication Research Institute
Priority to CN201911110921.2A priority Critical patent/CN110866166A/zh
Publication of CN110866166A publication Critical patent/CN110866166A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明属于软件工程技术领域,具体涉及一种面向海量数据采集的分布式网络爬虫性能优化系统。所述系统中,初始化模块用于新建一个去重字符串和一个垃圾链接特征字符串;主节点爬行器用于读取到初始URL地址,爬取模块爬取初始URL地址,生成URL任务队列;爬取模块用于根据URL任务队列进行网页爬取,完成爬取工作。与现有技术相比较,本发明突破了分布式网络爬虫爬取性能瓶颈,爬取性能提高50%以上;提高了URL任务队列的去重效率,满足海量数据采集的效率要求;优化了URL任务队列的存储空间,极大地节省了服务器内存资源;增加了垃圾链接过滤环节,不仅节约服务器内存资源,而且显著提高爬虫效率。

Description

面向海量数据采集的分布式网络爬虫性能优化系统
技术领域
本发明属于软件工程技术领域,具体涉及一种面向海量数据采集的分布式网络爬虫性能优化系统。
背景技术
网络爬虫又名网络蜘蛛、网络蚂蚁或者网络机器人等,能够按照设定的规则自动地从网络中获取数据。分布式网络爬虫能够高效获取大规模数据集,广泛应用于搜索引擎和大数据分析中,已经成为海量数据采集的重要工具。
分布式网络爬虫通常包括一个主节点爬行器和多个从节点爬行器,使用Redis内存数据库持久化保存URL任务队列和去重队列。主节点爬行器根据初始URL(统一资源定位符)爬取网页,获得数据,同时也得到新的URL,将新的URL去重后放入URL任务队列;从节点爬行器从URL任务队列中获取URL地址,爬取网页,获得数据,同时也会得到新的URL,经过去重后也会放入URL任务队列,如此反复直到爬虫任务满足结束条件或者URL任务队列为空。
Redis内存数据库自带的URL去重原理是利用数据集合无重复的特性,适用于数据量规模不大的情况。当待去重的链接达到千万量级时,对服务器的内存要求明显提高,且去重效率大幅降低。经过实践,随着爬虫的不断运行,累积的URL任务队列和去重队列会持续占用Redis内存并不断增长,最终会因占满整个服务器的内存而使服务器宕机。
因此,现有的基于Redis的分布式网络爬虫,面对海量数据采集时,性能存在三个方面的不足:(1)庞大的去重队列保存在Redis集合中,不仅造成去重效率低下,也会过度消耗服务器内存资源;(2)垃圾链接层出不穷,Redis内存数据库无法有效分辨,严重影响正常的爬取工作;(3)URL任务队列数据量激增,也会过度占用服务器内存资源。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何解决现有的基于Redis内存数据库的分布式网络爬虫,面对海量数据采集时,存在的去重效率不高和服务器内存资源过度消耗以及垃圾链接无法有效根除的问题,
(二)技术方案
为解决上述技术问题,本发明提供一种面向海量数据采集的分布式网络爬虫性能优化系统,所述分布式网络爬虫性能优化系统包括:初始化模块、爬取模块;其中,
所述初始化模块用于新建一个去重字符串和一个垃圾链接特征字符串;
所述爬取模块用于在主节点爬行器读取到初始URL地址后,爬取初始URL地址,生成URL任务队列;
所述爬取模块还用于根据URL任务队列进行网页爬取,完成爬取工作。
其中,所述初始化模块包括:去重字符串生成单元、垃圾链接特征字符串生成单元;其中,
所述去重字符串生成单元用于在Redis内存数据库中新建一个去重字符串;
所述垃圾链接特征字符串生成单元用于根据垃圾链接的典型特征,在Redis内存数据库中新建一个垃圾链接特征字符串。
其中,所述去重字符串中所有的位数值为0。
其中,所述垃圾链接的典型特征包括:自动评论生成的链接,群发外部的链接。
其中,所述爬取模块包括:页面爬行模块、页面分析模块、链接处理模块;
所述页面爬行模块用于在用户根据数据采集主题,通过用户中心设定初始URL地址的集合之后,接收主节点爬行器所读取到的初始URL地址;
所述页面爬行模块还用于根据初始URL地址,对互联网网页发出请求;
互联网网页响应页面爬行模块的请求,并返回响应内容;
所述页面分析模块用于根据相关主题对响应内容进行解析,提取内容保存到数据库以备查询,同时获得新URL地址;
所述链接处理模块用于对新URL地址进行处理,保存到Redis内存数据库的URL任务队列中,形成URL任务队列。
其中,所述链接处理模块包括:垃圾链接过滤模块、链接去重处理模块、压缩处理模块和序列化处理模块;
所述垃圾链接过滤模块用于根据垃圾链接特征字符串作用于新URL地址,识别新URL地址是否包含垃圾链接特征,如果URL地址包含垃圾链接特征,则判断该URL地址属于垃圾链接,直接过滤掉,否则进行链接去重处理模块的处理;
所述链接去重处理模块用于对垃圾链接特征过滤后的URL地址,先经过密码散列函数进行压缩处理为相同位数,然后被k个不同的哈希函数运算,最终得到k个独立的哈希值,根据该k个独立的哈希值,判断Redis内存数据库中去重字符串中哈希值对应的字符位的数值是否全为1,如果数值全为1,则该URL地址属于重复链接,直接过滤掉;否则,该URL地址不属于重复链接;
所述压缩处理模块用于对链接去重处理模块去重后不属于重复链接的URL地址,进行加密压缩算法处理;
所述序列化处理模块用于将压缩后的URL地址和页面解析函数按照键值对数据格式,进行序列化处理;并将该序列化处理后的URL地址,保存到到Redis内存数据库的URL任务队列中,形成URL任务队列。
其中,所述链接去重处理模块,对于不属于重复链接的URL地址,还将该URL地址所对应的,去重字符串中哈希值对应的字符位不为1的数值全部设置为1。
其中,所述k的值包括5、7、9、11。
其中,所述分布式网络爬虫主从节点爬取模块还包括:判断模块、优先级确定模块、反序列化模块;
所述判断模块用于判断在URL任务队列中,待爬取URL地址是否满足爬虫结束条件,如果满足爬虫结束条件,则停止,否则进入优先级确定模块的工作;
所述优先级确定模块用于根据广度优先爬行策略,确定URL任务队列中待爬URL的优先级,然后主、从节点爬行器从URL任务队列中按照优先级读取待爬取URL;
所述反序列化模块用于将读取到的待爬取URL进行反序列化处理,获得URL地址;
然后由主从节点爬行器分别独立地调用各自页面爬行模块,依据URL地址,对互联网网页发出请求;网页响应页面爬行模块的请求,并返回响应内容;
然后由页面分析模块根据相关主题对响应内容进行解析,提取内容保存到数据库以备查询,同时获得新URL链接;
然后由链接处理模块继续对新URL进行处理,然后保存到Redis中的URL任务队列;
然后重复判断模块的工作,直至完成整个爬取工作。
其中,所述爬虫结束条件为:URL任务队列中,所有的URL地址均已被爬取过。
(三)有益效果
与现有技术相比较,本发明具备如下有益效果:
(1)突破了分布式网络爬虫爬取性能瓶颈,爬取性能提高50%以上;
(2)提高了URL任务队列的去重效率,满足海量数据采集的效率要求;
(3)优化了URL任务队列的存储空间,极大地节省了服务器内存资源;
(4)增加了垃圾链接过滤环节,不仅节约服务器内存资源,而且显著提高爬虫效率。
附图说明
图1为本发明分布式网络爬虫初始URL任务队列生成示意图。
图2为本发明分布式网络爬虫链接处理模块功能组成示意图。
图3为本发明分布式网络爬虫主、从节点爬取工作流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
为解决上述技术问题,本发明提供一种面向海量数据采集的分布式网络爬虫性能优化系统,所述分布式网络爬虫性能优化系统包括:初始化模块、爬取模块;其中,
所述初始化模块用于新建一个去重字符串和一个垃圾链接特征字符串;
所述爬取模块用于在主节点爬行器读取到初始URL地址后,爬取初始URL地址,生成URL任务队列;
所述爬取模块还用于根据URL任务队列进行网页爬取,完成爬取工作。
其中,所述初始化模块包括:去重字符串生成单元、垃圾链接特征字符串生成单元;其中,
所述去重字符串生成单元用于在Redis内存数据库中新建一个去重字符串;
所述垃圾链接特征字符串生成单元用于根据垃圾链接的典型特征,在Redis内存数据库中新建一个垃圾链接特征字符串。
其中,所述去重字符串中所有的位数值为0。
其中,所述垃圾链接的典型特征包括:自动评论生成的链接,群发外部的链接。
其中,所述爬取模块包括:页面爬行模块、页面分析模块、链接处理模块;
所述页面爬行模块用于在用户根据数据采集主题,通过用户中心设定初始URL地址的集合之后,接收主节点爬行器所读取到的初始URL地址;
所述页面爬行模块还用于根据初始URL地址,对互联网网页发出请求;
互联网网页响应页面爬行模块的请求,并返回响应内容;
所述页面分析模块用于根据相关主题对响应内容进行解析,提取内容保存到数据库以备查询,同时获得新URL地址;
所述链接处理模块用于对新URL地址进行处理,保存到Redis内存数据库的URL任务队列中,形成URL任务队列。
其中,所述链接处理模块包括:垃圾链接过滤模块、链接去重处理模块、压缩处理模块和序列化处理模块;
所述垃圾链接过滤模块用于根据垃圾链接特征字符串作用于新URL地址,识别新URL地址是否包含垃圾链接特征,如果URL地址包含垃圾链接特征,则判断该URL地址属于垃圾链接,直接过滤掉,否则进行链接去重处理模块的处理;
所述链接去重处理模块用于对垃圾链接特征过滤后的URL地址,先经过密码散列函数进行压缩处理为相同位数,然后被k个不同的哈希函数运算,最终得到k个独立的哈希值,根据该k个独立的哈希值,判断Redis内存数据库中去重字符串中哈希值对应的字符位的数值是否全为1,如果数值全为1,则该URL地址属于重复链接,直接过滤掉;否则,该URL地址不属于重复链接;
所述压缩处理模块用于对链接去重处理模块去重后不属于重复链接的URL地址,进行加密压缩算法处理;
所述序列化处理模块用于将压缩后的URL地址和页面解析函数按照键值对数据格式,进行序列化处理;并将该序列化处理后的URL地址,保存到到Redis内存数据库的URL任务队列中,形成URL任务队列。
其中,所述链接去重处理模块,对于不属于重复链接的URL地址,还将该URL地址所对应的,去重字符串中哈希值对应的字符位不为1的数值全部设置为1。
其中,所述k的值包括5、7、9、11。
其中,所述分布式网络爬虫主从节点爬取模块还包括:判断模块、优先级确定模块、反序列化模块;
所述判断模块用于判断在URL任务队列中,待爬取URL地址是否满足爬虫结束条件,如果满足爬虫结束条件,则停止,否则进入优先级确定模块的工作;
所述优先级确定模块用于根据广度优先爬行策略,确定URL任务队列中待爬URL的优先级,然后主、从节点爬行器从URL任务队列中按照优先级读取待爬取URL;
所述反序列化模块用于将读取到的待爬取URL进行反序列化处理,获得URL地址;
然后由主从节点爬行器分别独立地调用各自页面爬行模块,依据URL地址,对互联网网页发出请求;网页响应页面爬行模块的请求,并返回响应内容;
然后由页面分析模块根据相关主题对响应内容进行解析,提取内容保存到数据库以备查询,同时获得新URL链接;
然后由链接处理模块继续对新URL进行处理,然后保存到Redis中的URL任务队列;
然后重复判断模块的工作,直至完成整个爬取工作。
其中,所述爬虫结束条件为:URL任务队列中,所有的URL地址均已被爬取过。
此外,本发明还提供一种面向海量数据采集的分布式网络爬虫性能优化方法,所述分布式网络爬虫性能优化方法基于分布式网络爬虫性能优化系统来实施,所述分布式网络爬虫性能优化系统包括:初始化模块、爬取模块;
所述分布式网络爬虫性能优化方法包括如下步骤:
步骤1:所述初始化模块新建一个去重字符串和一个垃圾链接特征字符串;
步骤2:主节点爬行器读取到初始URL地址,所述爬取模块爬取初始URL地址,生成URL任务队列;
步骤3:所述爬取模块根据URL任务队列进行网页爬取,完成爬取工作。
其中,所述初始化模块包括:去重字符串生成单元、垃圾链接特征字符串生成单元;
所述步骤1包括:
步骤11:所述去重字符串生成单元在Redis内存数据库中新建一个去重字符串;
步骤12:所述垃圾链接特征字符串生成单元根据垃圾链接的典型特征,在Redis内存数据库中新建一个垃圾链接特征字符串。
其中,所述去重字符串中所有的位数值为0。
其中,所述垃圾链接的典型特征包括:自动评论生成的链接,群发外部的链接。
其中,所述爬取模块包括:页面爬行模块、页面分析模块、链接处理模块;
如图1所示,所述步骤2包括:
步骤21:用户根据数据采集主题,通过用户中心设定初始URL地址的集合;
步骤22:主节点爬行器读取到初始URL地址,并交给页面爬行模块;
步骤23:页面爬行模块根据初始URL地址,对互联网网页发出请求;
步骤24:互联网网页响应页面爬行模块的请求,并返回响应内容;
步骤25:页面分析模块根据相关主题对响应内容进行解析,提取内容保存到数据库以备查询,同时获得新URL地址;
步骤26:新URL地址经过链接处理模块处理,保存到Redis内存数据库的URL任务队列中,形成URL任务队列。
其中,如图2所示,所述链接处理模块包括:垃圾链接过滤模块、链接去重处理模块、压缩处理模块和序列化处理模块;
所述步骤26中包括:
步骤261:由垃圾链接过滤模块根据垃圾链接特征字符串作用于新URL地址,识别新URL地址是否包含垃圾链接特征,如果URL地址包含垃圾链接特征,则判断该URL地址属于垃圾链接,直接过滤掉,否则进行下一步处理;
步骤262:由链接去重处理模块对垃圾链接特征过滤后的URL地址,先经过密码散列函数进行压缩处理为相同位数,然后被k个不同的哈希函数运算,最终得到k个独立的哈希值,根据该k个独立的哈希值,判断Redis内存数据库中去重字符串中哈希值对应的字符位的数值是否全为1,如果数值全为1,则该URL地址属于重复链接,直接过滤掉;否则,该URL地址不属于重复链接;
步骤263:由压缩处理模块对步骤262去重后不属于重复链接的URL地址,进行加密压缩算法处理;
步骤264:由序列化处理模块将压缩后的URL地址和页面解析函数按照键值对数据格式,进行序列化处理;
步骤265:将该序列化处理后的URL地址,保存到到Redis内存数据库的URL任务队列中,形成URL任务队列。
其中,所述步骤262中,对于不属于重复链接的URL地址,还将该URL地址所对应的,去重字符串中哈希值对应的字符位不为1的数值全部设置为1。
其中,所述k的值包括5、7、9、11。
其中,所述分布式网络爬虫主从节点爬取模块还包括:判断模块、优先级确定模块、反序列化模块;
如图3所示,所述步骤3包括:
步骤31:所述判断模块判断在URL任务队列中,待爬取URL地址是否满足爬虫结束条件,如果满足爬虫结束条件,则停止,否则进行步骤32;
步骤32:所述优先级确定模块根据广度优先爬行策略,确定URL任务队列中待爬URL的优先级,然后主、从节点爬行器从URL任务队列中按照优先级读取待爬取URL;
步骤33:所述反序列化模块将读取到的待爬取URL进行反序列化处理,获得URL地址;
步骤34:主从节点爬行器分别独立地调用各自页面爬行模块,依据URL地址,对互联网网页发出请求;
步骤35:网页响应页面爬行模块的请求,并返回响应内容;
步骤36:页面分析模块根据相关主题对响应内容进行解析,提取内容保存到数据库以备查询,同时获得新URL链接;
步骤37:新URL经过链接处理模块处理,保存到Redis中的URL任务队列;
步骤38:重复步骤31,直至完成整个爬取工作。
其中,所述爬虫结束条件为:URL任务队列中,所有的URL地址均已被爬取过。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种面向海量数据采集的分布式网络爬虫性能优化系统,其特征在于,所述分布式网络爬虫性能优化系统包括:初始化模块、爬取模块;其中,
所述初始化模块用于新建一个去重字符串和一个垃圾链接特征字符串;
所述爬取模块用于在主节点爬行器读取到初始URL地址后,爬取初始URL地址,生成URL任务队列;
所述爬取模块还用于根据URL任务队列进行网页爬取,完成爬取工作。
2.如权利要求1所述的面向海量数据采集的分布式网络爬虫性能优化系统,其特征在于,所述初始化模块包括:去重字符串生成单元、垃圾链接特征字符串生成单元;其中,
所述去重字符串生成单元用于在Redis内存数据库中新建一个去重字符串;
所述垃圾链接特征字符串生成单元用于根据垃圾链接的典型特征,在Redis内存数据库中新建一个垃圾链接特征字符串。
3.如权利要求2所述的面向海量数据采集的分布式网络爬虫性能优化系统,其特征在于,所述去重字符串中所有的位数值为0。
4.如权利要求3所述的面向海量数据采集的分布式网络爬虫性能优化系统,其特征在于,所述垃圾链接的典型特征包括:自动评论生成的链接,群发外部的链接。
5.如权利要求4所述的面向海量数据采集的分布式网络爬虫性能优化系统,其特征在于,所述爬取模块包括:页面爬行模块、页面分析模块、链接处理模块;
所述页面爬行模块用于在用户根据数据采集主题,通过用户中心设定初始URL地址的集合之后,接收主节点爬行器所读取到的初始URL地址;
所述页面爬行模块还用于根据初始URL地址,对互联网网页发出请求;
互联网网页响应页面爬行模块的请求,并返回响应内容;
所述页面分析模块用于根据相关主题对响应内容进行解析,提取内容保存到数据库以备查询,同时获得新URL地址;
所述链接处理模块用于对新URL地址进行处理,保存到Redis内存数据库的URL任务队列中,形成URL任务队列。
6.如权利要求5所述的面向海量数据采集的分布式网络爬虫性能优化系统,其特征在于,所述链接处理模块包括:垃圾链接过滤模块、链接去重处理模块、压缩处理模块和序列化处理模块;
所述垃圾链接过滤模块用于根据垃圾链接特征字符串作用于新URL地址,识别新URL地址是否包含垃圾链接特征,如果URL地址包含垃圾链接特征,则判断该URL地址属于垃圾链接,直接过滤掉,否则进行链接去重处理模块的处理;
所述链接去重处理模块用于对垃圾链接特征过滤后的URL地址,先经过密码散列函数进行压缩处理为相同位数,然后被k个不同的哈希函数运算,最终得到k个独立的哈希值,根据该k个独立的哈希值,判断Redis内存数据库中去重字符串中哈希值对应的字符位的数值是否全为1,如果数值全为1,则该URL地址属于重复链接,直接过滤掉;否则,该URL地址不属于重复链接;
所述压缩处理模块用于对链接去重处理模块去重后不属于重复链接的URL地址,进行加密压缩算法处理;
所述序列化处理模块用于将压缩后的URL地址和页面解析函数按照键值对数据格式,进行序列化处理;并将该序列化处理后的URL地址,保存到到Redis内存数据库的URL任务队列中,形成URL任务队列。
7.如权利要求6所述的面向海量数据采集的分布式网络爬虫性能优化系统,其特征在于,所述链接去重处理模块,对于不属于重复链接的URL地址,还将该URL地址所对应的,去重字符串中哈希值对应的字符位不为1的数值全部设置为1。
8.如权利要求6所述的面向海量数据采集的分布式网络爬虫性能优化系统,其特征在于,所述k的值包括5、7、9、11。
9.如权利要求7所述的面向海量数据采集的分布式网络爬虫性能优化系统,其特征在于,所述分布式网络爬虫主从节点爬取模块还包括:判断模块、优先级确定模块、反序列化模块;
所述判断模块用于判断在URL任务队列中,待爬取URL地址是否满足爬虫结束条件,如果满足爬虫结束条件,则停止,否则进入优先级确定模块的工作;
所述优先级确定模块用于根据广度优先爬行策略,确定URL任务队列中待爬URL的优先级,然后主、从节点爬行器从URL任务队列中按照优先级读取待爬取URL;
所述反序列化模块用于将读取到的待爬取URL进行反序列化处理,获得URL地址;
然后由主从节点爬行器分别独立地调用各自页面爬行模块,依据URL地址,对互联网网页发出请求;网页响应页面爬行模块的请求,并返回响应内容;
然后由页面分析模块根据相关主题对响应内容进行解析,提取内容保存到数据库以备查询,同时获得新URL链接;
然后由链接处理模块继续对新URL进行处理,然后保存到Redis中的URL任务队列;
然后重复判断模块的工作,直至完成整个爬取工作。
10.如权利要求9所述的面向海量数据采集的分布式网络爬虫性能优化系统,其特征在于,所述爬虫结束条件为:URL任务队列中,所有的URL地址均已被爬取过。
CN201911110921.2A 2019-11-14 2019-11-14 面向海量数据采集的分布式网络爬虫性能优化系统 Pending CN110866166A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911110921.2A CN110866166A (zh) 2019-11-14 2019-11-14 面向海量数据采集的分布式网络爬虫性能优化系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911110921.2A CN110866166A (zh) 2019-11-14 2019-11-14 面向海量数据采集的分布式网络爬虫性能优化系统

Publications (1)

Publication Number Publication Date
CN110866166A true CN110866166A (zh) 2020-03-06

Family

ID=69654874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911110921.2A Pending CN110866166A (zh) 2019-11-14 2019-11-14 面向海量数据采集的分布式网络爬虫性能优化系统

Country Status (1)

Country Link
CN (1) CN110866166A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428115A (zh) * 2020-04-16 2020-07-17 行吟信息科技(上海)有限公司 一种网页信息处理方法及装置
CN111488508A (zh) * 2020-04-10 2020-08-04 长春博立电子科技有限公司 一种支持多协议分布式高并发的互联网信息采集系统及方法
CN113065051A (zh) * 2021-04-02 2021-07-02 西南石油大学 一种可视化农业大数据分析交互系统
CN113656673A (zh) * 2021-08-23 2021-11-16 刘文平 面向广告投放的主从分布内容爬取机器人
CN116910770A (zh) * 2023-09-13 2023-10-20 中国海洋大学 一种基于密度的固件基址识别系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101650715A (zh) * 2008-08-12 2010-02-17 厦门市美亚柏科信息股份有限公司 一种筛选网页上链接的方法和装置
CN108121810A (zh) * 2017-12-26 2018-06-05 北京锐安科技有限公司 一种数据去重方法、系统、中心服务器及分布式服务器
CN109088908A (zh) * 2018-06-06 2018-12-25 武汉酷犬数据科技有限公司 一种面向网络的分布式通用数据采集方法和系统
CN109542595A (zh) * 2017-09-21 2019-03-29 阿里巴巴集团控股有限公司 一种数据采集方法、装置和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101650715A (zh) * 2008-08-12 2010-02-17 厦门市美亚柏科信息股份有限公司 一种筛选网页上链接的方法和装置
CN109542595A (zh) * 2017-09-21 2019-03-29 阿里巴巴集团控股有限公司 一种数据采集方法、装置和系统
CN108121810A (zh) * 2017-12-26 2018-06-05 北京锐安科技有限公司 一种数据去重方法、系统、中心服务器及分布式服务器
CN109088908A (zh) * 2018-06-06 2018-12-25 武汉酷犬数据科技有限公司 一种面向网络的分布式通用数据采集方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王海林: "基于Spark的社交网络数据分析平台", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488508A (zh) * 2020-04-10 2020-08-04 长春博立电子科技有限公司 一种支持多协议分布式高并发的互联网信息采集系统及方法
CN111428115A (zh) * 2020-04-16 2020-07-17 行吟信息科技(上海)有限公司 一种网页信息处理方法及装置
CN113065051A (zh) * 2021-04-02 2021-07-02 西南石油大学 一种可视化农业大数据分析交互系统
CN113656673A (zh) * 2021-08-23 2021-11-16 刘文平 面向广告投放的主从分布内容爬取机器人
CN116910770A (zh) * 2023-09-13 2023-10-20 中国海洋大学 一种基于密度的固件基址识别系统及方法
CN116910770B (zh) * 2023-09-13 2023-12-19 中国海洋大学 一种基于密度的固件基址识别系统及方法

Similar Documents

Publication Publication Date Title
CN110866166A (zh) 面向海量数据采集的分布式网络爬虫性能优化系统
CN110874429A (zh) 面向海量数据采集的分布式网络爬虫性能优化方法
WO2021091489A1 (en) Method and apparatus for storing time series data, and server and storage medium thereof
CN105824744A (zh) 一种基于b2b平台的实时日志采集分析方法
CN103902593B (zh) 一种数据迁移的方法和装置
CN111586091B (zh) 一种实现算力组配的边缘计算网关系统
WO2008064593A1 (fr) Procédé et système d'analyse de journal basés sur un réseau de calcul distribué
CN111046011B (zh) 日志收集方法、系统、装置、电子设备及可读存储介质
CN102082792A (zh) 钓鱼网页检测方法及设备
CN103441906A (zh) 基于自主计算的代理缓存集群异常检测系统
CN102236581A (zh) 用于数据中心的映射化简方法和系统
CN103559259A (zh) 基于云平台的消除近似重复网页方法
WO2020155651A1 (zh) 存储、查询日志信息的方法、装置
CN106407224A (zh) 一种键值存储系统中文件压实的方法和装置
CN107104820B (zh) 基于f5服务器节点的动态扩容日常运维方法
CN111913917A (zh) 一种文件处理方法、装置、设备和介质
CN108090186A (zh) 一种大数据平台上的电力数据去重方法
CN105426407A (zh) 一种基于内容分析的web数据采集方法
CN110019193B (zh) 相似帐号识别方法、装置、设备、系统及可读介质
CN111506672B (zh) 实时分析环保监测数据的方法、装置、设备及存储介质
CN103647774A (zh) 基于云计算的web内容信息过滤方法
CN104424316A (zh) 一种数据存储方法、数据查询方法、相关装置和系统
CN112650739A (zh) 煤矿数据中台的数据存储处理方法和装置
CN108959614A (zh) 一种快照管理方法、系统、装置、设备及可读存储介质
CN117370314A (zh) 一种分布式数据库系统协同优化、数据处理系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200306