CN107943991A - 一种基于内存数据库的分布式爬虫框架及实现方法 - Google Patents

一种基于内存数据库的分布式爬虫框架及实现方法 Download PDF

Info

Publication number
CN107943991A
CN107943991A CN201711250004.5A CN201711250004A CN107943991A CN 107943991 A CN107943991 A CN 107943991A CN 201711250004 A CN201711250004 A CN 201711250004A CN 107943991 A CN107943991 A CN 107943991A
Authority
CN
China
Prior art keywords
reptile
url
filter
data
distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711250004.5A
Other languages
English (en)
Inventor
尹学渊
罗剑锋
何林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Hi Turn House Culture Communication Co Ltd
Original Assignee
Chengdu Hi Turn House Culture Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Hi Turn House Culture Communication Co Ltd filed Critical Chengdu Hi Turn House Culture Communication Co Ltd
Priority to CN201711250004.5A priority Critical patent/CN107943991A/zh
Publication of CN107943991A publication Critical patent/CN107943991A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于内存数据库的分布式爬虫框架及实现方法,所述的分布式爬虫框架包括以下模块:生产者爬虫、消费者爬虫、过滤器以及内存数据库、消息队列、存储介质,每个模块均可以单独运行、解耦合,互不干扰,而且各个模块均易于扩展。本分布式爬虫的实现方法具有以下优点:内存使用可控,不会随着URL不断增加而改变;调度快,在URL不断增加的情况下,不会降低任务调度速率;爬虫高效,分布式多节点爬取,扩展简单、自由度高;数据存储高效、安全。

Description

一种基于内存数据库的分布式爬虫框架及实现方法
技术领域
本发明属于计算机数据挖掘的技术领域,具体地说,涉及一种基于内存数据库的分布式爬虫框架及实现方法。
背景技术
如今我们正生活在一个信息爆炸的年代,随着互联网行业迅猛发展,这些信息每年以指数级增长。如何使用网络爬虫技术高效的爬取web中的数据成为一个严峻的问题,而单机爬虫不仅受到网络带宽、服务器配置等环境限制,并且很难在多个单机爬虫间进行协作,继而保证数据抓取过程中无重复请求,以及数据信息的唯一性。
因此,将网络爬虫采取分布式协作方式进行设计可以大大提高爬取数据的效率。
分布式网络爬虫在当今社会已经有了比较广泛的应用,例如Google和百度所使用的网络爬虫就采用了分布式系统,但是很少的想关信息进行交流,目前国外使用较多的分布式爬虫有Mercator、Google Crawler、UbiCrwaler、Internet Archive Crawler等,国内比较著名的是Web Gather。
Google的分布式网络爬虫系统是一台中央主机和三台负责爬虫的机器,并且这三台机器只与中央主机通信。中央主机从一个文件系统中读取URL,并把它们分给其它机器的爬虫进程中。爬虫采用异步I/O同时从三百个网站上获取数据。所有爬虫将下载下来的页面压缩并存储在磁盘上。然后索引进程从这些HTML页面中将URL提取出来存放在另外一个磁盘文件中。URLResolver进程读取这个存放链接的文件,将其中的相对链接转换(通过浏览文件夹按钮进行链接的方式即本地链接)为绝对链接(一个指向摸个文件的精确位置的超级链接,该文件可以存储在某个文件服务器、万维网或某家公司的内联网上),继而提供给主机。不足之处在于,一旦中央主机崩溃失效,则整个系统都会停止工作,而且中央主机的URL分配模块常常成为整个系统的性能瓶颈。
Mercator是Alta Vista搜索引擎的网络爬虫,它完全由JAVA编写。Mercator的扩展性非常好,可以通过增减或替换模块来实现不同的功能。Mercator采用的数据结构可以使无论爬行的规模有多大,只占用有限的内存,数据结构的大部分都在硬盘中存取。Mercator为最近访问的URL建立了缓存,该缓存的命中率达到了85%。Mercator证明了使用JAVA语言也可以达到较高的性能。
Internet Achieve采用多个机器共同搜集页面。每个Crawler进程负责收集64个Web网站的网页。Crawler从初始的URL库中读取,采用异步I/O并行爬行网页。网页下载后,提取出超链接。如果超链接属于本Crawler负责收集的Web站点,则加入未访问URL集合,否则存储到交叉的URL文件中。批处理模块定期分配这些交叉URL文件到相应的搜集模块,再次过程中要过滤到重复的URL。
现有技术缺点:针对开源大型爬虫,大多没有一个成型的可自定义的分布式调度;传统设计方式存在时延长、不能大数据化的弊端。
发明内容
针对现有技术中上述的不足,本发明提供一种基于内存数据库的分布式爬虫框架及实现方法,本发明的分布式爬虫的实现方法内存使用可控,不会随着URL不断增加而改变;调度快,在URL不断增加的情况下,不会降低任务调度速率;爬虫高效,分布式多节点爬取,扩展简单、自由度高。
为了达到上述目的,本发明采用的解决方案是:一种基于内存数据库的分布式爬虫框架及实现方法,所述的分布式爬虫框架包括以下模块:生产者爬虫、消费者爬虫、过滤器以及内存数据库、消息队列、存储介质。
所述的分布式爬虫实现方法包括以下步骤:
a、根据项目所需要的数据信息,生产者爬虫不断地从网络中提取相应的url地址;
b、过滤器将生产者爬虫提取的url进行去重处理;
c、内存数据库存储去重处理后的种子url队列,同时存储过滤器的位数组,并且向消费者爬虫调度分配url任务;
d、消费者爬虫循环地向内存数据库请求url任务,根据url地址进行实际的数据抓取,抓取数据后将数据保存至存储介质,并且在数据抓取过程中提取出待爬取的url,将爬取的url交给过滤器处理;
e、存储介质持久化保存实际数据、存储消费者爬虫抓取的原始数据。
进一步地,所述的过滤器采用布隆过滤器。
进一步地,所述的布隆过滤器利用布隆过滤算法对url进行判重,如果布隆过滤器判重结果为否,则表示url尚未加入到待抓取的种子url队列中,继而存储到种子url队列;如果布隆过滤器判重结果为是,则表示此url已经存储,直接丢弃。
进一步地,所述的Redis集群采用3组4核CPU、8G内存服务器。
进一步地,所述的过滤器利用Redis集群的服务器搭建。
进一步地,所述的生产者爬虫和消费者爬虫采用若干4核CPU、4G内存服务器。本发明的有益效果是:
1、由于爬取巨大的数据量和无规则的重复网址导致如何对海量数据进行过滤成为一个难题。如果每条网址都去持久化数据库中查找,效率非常低下,如果存放在内存中,目前还没有生产主机的内存能容纳这么巨量的网址。所以需要采用分布式多爬虫进行协作爬取。而协作过程中的必须保证各消费者爬虫之间爬取任务的唯一性,因此任务调度过程中,利用过滤器将生产者爬虫提取的url进行去重处理,避免对数据的重复提取。
2、由于网络请求的url数据量会不断增涨,而为了url去重则很可能导致去重所需的存储成本不断增加,继而导致更多的连带问题。所以控制去重所需的存储成本亦是爬虫框架稳定与否的关键。利用布隆过滤器即可既保证去重准确率达到99.9%以上,又能有效地控制用来去重所需要的存储成本。
3、为了能够保证高效的分配任务,保证各消费者爬虫获取任务url的速度。利用Redis内存数据库存储任务url,极大限度的提高消费者爬虫获取任务url的速率。
4、由于爬虫最终目地在于保存爬取的数据,所以数据的存储方案也必须考虑各种瓶颈:存储效率、存储空间、以及存储的安全。选择日志服务作为存储介质,可以保证数据存储效率,以及省去维护成本,并且爬虫抓取的原始数据非常安全。
附图说明
图1为本发明的基于内存数据库的分布式爬虫框架的系统结构图。
图2为本发明的基于内存数据库的分布式爬虫框架的系统模块图。
图3为本发明的过滤器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下结合附图对本发明作进一步描述:
参照附图1-附图3,本发明提供一种基于内存数据库的分布式爬虫框架及实现方法,所述的分布式爬虫框架包括以下模块:生产者爬虫、消费者爬虫、过滤器以及内存数据库、消息队列、存储介质;本实施例中,以Redis做为内存数据库,以RabbitMQ做为消息队列,以Loghub做为存储介质。
利用过滤器将生产者爬虫提取的url进行去重处理,避免对数据的重复提取。使用RabbitMQ做为消息队列,可以保证生产出来的任务url不会丢失,并且可以解决多生产者之间协作问题。利用Redis内存数据库存储任务url,极大限度的提高消费者爬虫获取任务url的速率。选择日志服务作为存储介质,可以保证数据存储效率,以及省去维护成本,并且爬虫抓取的原始数据非常安全。
所述的分布式爬虫实现方法包括以下步骤:
a、根据项目所需要的数据信息,生产者爬虫不断地从网络中提取相应的url地址;
b、过滤器将生产者爬虫提取的url进行去重处理;
c、内存数据库存储去重处理后的种子url队列,同时存储过滤器的位数组,并且向消费者爬虫调度分配url任务;
d、消费者爬虫循环地向内存数据库请求url任务,根据url地址进行实际的数据抓取,抓取数据后将数据保存至存储介质,并且在数据抓取过程中提取出待爬取的url,将爬取的url交给过滤器处理;
e、存储介质持久化保存实际数据、存储消费者爬虫抓取的原始数据。
本实施例中,所述的过滤器采用布隆过滤器。所述的布隆过滤器利用布隆过滤算法对url进行判重,如果布隆过滤器判重结果为否,则表示url尚未加入到待抓取的种子url队列中,继而存储到种子url队列;如果布隆过滤器判重结果为是,则表示此url已经存储,直接丢弃。
本实施例中,所述的Redis集群采用3组4核CPU、8G内存服务器。所述的过滤器利用Redis集群的服务器搭建。所述的生产者爬虫和消费者爬虫采用若干4核CPU、4G内存服务器。
本实施例中,生产者爬虫主要基于开源Scrapy框架开发并扩展,从而使生产者爬虫具有对特定网站进行全站爬取的功能,并且提取符合规则的Seed_urls。具体的,生产者爬虫继承CrawlSpider类,编写符合项目需求的爬虫程序;并且扩展Scrapy框架的Downloader_middlewares中间件,定制化请求及响应相关的信息。
Scrapy调度开始,生产者爬虫爬取相关的网页;提取相应的url存入RabbitMQ队列,通过过滤器提取出待爬取的url任务,并保存到Redis数据库,供消费者爬虫消费。该流程以过滤器作为中间件,解耦了生产者和Redis,使得生产者可以专心提取url任务,并且可以进行扩展,部署任意多的生产者爬虫。
本实施例中,消费者爬虫主要基于开源Scrapy框架以及第三方扩展包Scrapy-Redis进行开发并扩展,从而使消费者爬虫能够通过Redis数据库来进行任务调度,实现分布式爬虫。具体的,继承RedisSpider类,利用Scrapy-Redis包进行任务调度,并且编写符合对应任务需求的爬虫程序;并且扩展Scrapy框架的Item_pipelines、Downloader_middlewares等中间件,定制化请求及响应相关的信息,同时对爬虫进行通过中间件对爬虫进行异常处理。
Scrapy从对应的Redis中获取爬取url任务,爬取项目需要的数据,存入到存储介质。同时提取出url任务,继续存入RabbitMQ中,提高数据爬取的完整性。该流程以Redis作为调度队列,保证了任务获取速率,并且根据Redis本身提供的锁机制,保证消费者获取任务的唯一性,这也是本爬出框架分布式得以实施的关键所在。
本实施例中,过滤器主要基于布隆过滤器对url任务进行去重判断,保证url任务的唯一性。布隆过滤器位数组存储在Redis中。具体步骤如下:
从RabbitMQ队列中取出urls进行布隆判重:
1)计算url的布隆值;
2)如若布隆判重结果为“否”,则将url对应的布隆位置位,并且写入到Redis中;
3)如若布隆判重结果为“是”,则直接丢弃;
本发明的基于内存数据库的分布式爬虫框架及实现方法的具体优点如下:
1、本发明的消息队列的优点
解耦:各个模块可以高度分离,互不干扰牵连;数据同步:保证布隆过滤计算的单一操作,避免多线程/进程引起的数据同步问题;
2、布隆过滤算法+内存数据库的优点
极大降低内存:4G的内存可以满足40亿条记录的去重需求;去重计算高效:布隆数组存储在内存数组当中,因此存取是非常之高效的,这在单进程去重判断的模式是重中之重;
3、生产者消费者模式
解耦:解决了生产者和消费者的强耦合问题;支持并发:易于扩展,轻松实现多消费者、多生产者的分布式爬虫系统;避免忙闲不均:消费者统一从队列获取任务,机会均等;
4、选择日志服务作为存储介质:保证数据存储的高效、稳定、可扩展;后期可对原始数据进行重复清洗,处理。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种基于内存数据库的分布式爬虫框架及实现方法,其特征是:
所述的分布式爬虫框架包括以下模块:生产者爬虫、消费者爬虫、过滤器以及内存数据库、消息队列、存储介质;
所述的分布式爬虫实现方法包括以下步骤:
a、根据项目所需要的数据信息,生产者爬虫不断地从网络中提取相应的url地址;
b、过滤器将生产者爬虫提取的url进行去重处理;
c、内存数据库存储去重处理后的种子url队列,同时存储过滤器的位数组,并且向消费者爬虫调度分配url任务;
d、消费者爬虫循环地向内存数据库请求url任务,根据url地址进行实际的数据抓取,抓取数据后将数据保存至存储介质,并且在数据抓取过程中提取出待爬取的url,将爬取的url交给过滤器处理;
e、存储介质持久化保存实际数据、存储消费者爬虫抓取的原始数据。
2.根据权利要求1所述的分布式爬虫框架及实现方法,其特征是:所述的过滤器采用布隆过滤器。
3.根据权利要求2所述的分布式爬虫框架及实现方法,其特征是:所述的布隆过滤器利用布隆过滤算法对url进行判重,如果布隆过滤器判重结果为否,则表示url尚未加入到待抓取的种子url队列中,继而存储到种子url队列;如果布隆过滤器判重结果为是,则表示此url已经存储,直接丢弃。
4.根据权利要求1所述的分布式爬虫框架及实现方法,其特征是:所述的Redis集群采用3组4核CPU、8G内存服务器。
5.根据权利要求4所述的分布式爬虫框架及实现方法,其特征是:所述的过滤器利用Redis集群的服务器搭建。
6.根据权利要求1所述的分布式爬虫框架及实现方法,其特征是:所述的生产者爬虫和消费者爬虫采用若干4核CPU、4G内存服务器。
CN201711250004.5A 2017-12-01 2017-12-01 一种基于内存数据库的分布式爬虫框架及实现方法 Pending CN107943991A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711250004.5A CN107943991A (zh) 2017-12-01 2017-12-01 一种基于内存数据库的分布式爬虫框架及实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711250004.5A CN107943991A (zh) 2017-12-01 2017-12-01 一种基于内存数据库的分布式爬虫框架及实现方法

Publications (1)

Publication Number Publication Date
CN107943991A true CN107943991A (zh) 2018-04-20

Family

ID=61948313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711250004.5A Pending CN107943991A (zh) 2017-12-01 2017-12-01 一种基于内存数据库的分布式爬虫框架及实现方法

Country Status (1)

Country Link
CN (1) CN107943991A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063019A (zh) * 2018-07-12 2018-12-21 山东汇贸电子口岸有限公司 一种基于生产者消费者模式的轻量级垂直网络爬虫的实现方法
CN110147362A (zh) * 2019-04-04 2019-08-20 中电科大数据研究院有限公司 一种基于事件驱动的公文数据采集和处理系统及其方法
CN110457556A (zh) * 2019-07-04 2019-11-15 重庆金融资产交易所有限责任公司 分布式爬虫系统架构、爬取数据的方法和计算机设备
CN110929126A (zh) * 2019-12-02 2020-03-27 杭州安恒信息技术股份有限公司 一种基于远程过程调用实现的分布式爬虫调度方法
CN110968756A (zh) * 2018-09-29 2020-04-07 北京国双科技有限公司 网页爬取方法及装置
CN111125487A (zh) * 2019-12-24 2020-05-08 个体化细胞治疗技术国家地方联合工程实验室(深圳) 一种网络爬虫的爬行方法及装置
CN111221663A (zh) * 2019-11-21 2020-06-02 苏州浪潮智能科技有限公司 一种消息数据处理方法、装置、设备及可读存储介质
CN111522847A (zh) * 2020-04-16 2020-08-11 山东贝赛信息科技有限公司 一种用于分布式爬虫网址去重的方法
CN112035479A (zh) * 2020-08-31 2020-12-04 平安医疗健康管理股份有限公司 医药类数据库的访问方法、装置和计算机设备
CN112417242A (zh) * 2020-11-09 2021-02-26 深圳市宝视佳科技有限公司 分布式爬虫的集中管理系统
CN112422707A (zh) * 2020-10-22 2021-02-26 北京安博通科技股份有限公司 域名数据挖掘方法、装置及Redis服务器
CN112597373A (zh) * 2020-12-29 2021-04-02 科技谷(厦门)信息技术有限公司 一种基于分布式爬虫引擎的数据采集方法
CN112597371A (zh) * 2020-12-25 2021-04-02 牧原食品股份有限公司 一种基于消息中间件的数据采集系统、方法及装置
CN113392297A (zh) * 2020-03-12 2021-09-14 上海云盾信息技术有限公司 一种爬取数据的方法、系统及设备
CN115460290A (zh) * 2022-08-12 2022-12-09 北京连星科技有限公司 分布式网站IPv6支持度检测调度方法
CN116302536A (zh) * 2023-03-17 2023-06-23 广东朝恒科技有限公司 一种数据采集的内存优化方法以及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663058A (zh) * 2012-03-30 2012-09-12 华中科技大学 一种分布式网络爬虫系统中的url去重方法
CN103970788A (zh) * 2013-02-01 2014-08-06 北京英富森信息技术有限公司 一种基于网页爬取的爬虫技术
CN105677918A (zh) * 2016-03-03 2016-06-15 浪潮软件股份有限公司 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法
CN106096056A (zh) * 2016-06-30 2016-11-09 西南石油大学 一种基于分布式的舆情数据实时采集方法和系统
US20170116244A1 (en) * 2015-10-23 2017-04-27 International Business Machines Corporation Bloom filter index for device discovery
CN106709052A (zh) * 2017-01-06 2017-05-24 电子科技大学 一种基于关键词的主题网络爬虫设计方法
CN107193960A (zh) * 2017-05-24 2017-09-22 南京大学 一种分布式爬虫系统及周期性增量抓取方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663058A (zh) * 2012-03-30 2012-09-12 华中科技大学 一种分布式网络爬虫系统中的url去重方法
CN103970788A (zh) * 2013-02-01 2014-08-06 北京英富森信息技术有限公司 一种基于网页爬取的爬虫技术
US20170116244A1 (en) * 2015-10-23 2017-04-27 International Business Machines Corporation Bloom filter index for device discovery
CN105677918A (zh) * 2016-03-03 2016-06-15 浪潮软件股份有限公司 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法
CN106096056A (zh) * 2016-06-30 2016-11-09 西南石油大学 一种基于分布式的舆情数据实时采集方法和系统
CN106709052A (zh) * 2017-01-06 2017-05-24 电子科技大学 一种基于关键词的主题网络爬虫设计方法
CN107193960A (zh) * 2017-05-24 2017-09-22 南京大学 一种分布式爬虫系统及周期性增量抓取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
单劼 等: "浅谈布隆过滤器在内容管理系统中的应用", 《软件》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063019A (zh) * 2018-07-12 2018-12-21 山东汇贸电子口岸有限公司 一种基于生产者消费者模式的轻量级垂直网络爬虫的实现方法
CN110968756B (zh) * 2018-09-29 2023-05-12 北京国双科技有限公司 网页爬取方法及装置
CN110968756A (zh) * 2018-09-29 2020-04-07 北京国双科技有限公司 网页爬取方法及装置
CN110147362A (zh) * 2019-04-04 2019-08-20 中电科大数据研究院有限公司 一种基于事件驱动的公文数据采集和处理系统及其方法
CN110457556B (zh) * 2019-07-04 2023-11-14 重庆金融资产交易所有限责任公司 分布式爬虫系统架构、爬取数据的方法和计算机设备
CN110457556A (zh) * 2019-07-04 2019-11-15 重庆金融资产交易所有限责任公司 分布式爬虫系统架构、爬取数据的方法和计算机设备
CN111221663A (zh) * 2019-11-21 2020-06-02 苏州浪潮智能科技有限公司 一种消息数据处理方法、装置、设备及可读存储介质
CN111221663B (zh) * 2019-11-21 2022-07-22 苏州浪潮智能科技有限公司 一种消息数据处理方法、装置、设备及可读存储介质
CN110929126A (zh) * 2019-12-02 2020-03-27 杭州安恒信息技术股份有限公司 一种基于远程过程调用实现的分布式爬虫调度方法
CN111125487A (zh) * 2019-12-24 2020-05-08 个体化细胞治疗技术国家地方联合工程实验室(深圳) 一种网络爬虫的爬行方法及装置
CN113392297A (zh) * 2020-03-12 2021-09-14 上海云盾信息技术有限公司 一种爬取数据的方法、系统及设备
CN111522847A (zh) * 2020-04-16 2020-08-11 山东贝赛信息科技有限公司 一种用于分布式爬虫网址去重的方法
CN112035479A (zh) * 2020-08-31 2020-12-04 平安医疗健康管理股份有限公司 医药类数据库的访问方法、装置和计算机设备
CN112422707A (zh) * 2020-10-22 2021-02-26 北京安博通科技股份有限公司 域名数据挖掘方法、装置及Redis服务器
CN112417242A (zh) * 2020-11-09 2021-02-26 深圳市宝视佳科技有限公司 分布式爬虫的集中管理系统
CN112597371A (zh) * 2020-12-25 2021-04-02 牧原食品股份有限公司 一种基于消息中间件的数据采集系统、方法及装置
CN112597373A (zh) * 2020-12-29 2021-04-02 科技谷(厦门)信息技术有限公司 一种基于分布式爬虫引擎的数据采集方法
CN112597373B (zh) * 2020-12-29 2023-09-15 科技谷(厦门)信息技术有限公司 一种基于分布式爬虫引擎的数据采集方法
CN115460290A (zh) * 2022-08-12 2022-12-09 北京连星科技有限公司 分布式网站IPv6支持度检测调度方法
CN116302536A (zh) * 2023-03-17 2023-06-23 广东朝恒科技有限公司 一种数据采集的内存优化方法以及装置

Similar Documents

Publication Publication Date Title
CN107943991A (zh) 一种基于内存数据库的分布式爬虫框架及实现方法
CN109739849B (zh) 一种数据驱动的网络敏感信息挖掘与预警平台
CN109740037B (zh) 多源、异构流态大数据分布式在线实时处理方法及系统
Chen et al. Density-based clustering for real-time stream data
Hu et al. Toward scalable systems for big data analytics: A technology tutorial
US7693903B2 (en) Method for gathering and summarizing internet information
CN107315776A (zh) 一种基于云计算的数据管理系统
CN107239382A (zh) 一种容器应用的日志处理方法及系统
CN105677918A (zh) 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法
CN103970788A (zh) 一种基于网页爬取的爬虫技术
US20100094870A1 (en) Method for massively parallel multi-core text indexing
CN106776929A (zh) 一种信息检索的方法及装置
CN109740038A (zh) 网络数据分布式采集系统及方法
CN104182482B (zh) 一种新闻列表页判断方法及筛选新闻列表页的方法
CN103258017B (zh) 一种并行的垂直交叉网络数据采集方法及系统
CN115827907B (zh) 基于分布式内存的跨云多源数据立方体发现与集成方法
CN109543089A (zh) 一种网络安全情报数据的分类方法、系统及相关装置
Chauhan et al. Web page ranking using machine learning approach
CN110134901A (zh) 一种基于流量分析的多链路网页篡改判定方法
Aggarwal Collaborative crawling: Mining user experiences for topical resource discovery
CN102214248A (zh) 一种挖掘海量数据的高空间可伸性和高时间效率的多层频繁模式发现算法
Chen et al. Towards low-latency big data infrastructure at sangfor
CN110362776A (zh) 浏览器前端数据存储方法、装置、设备及可读存储介质
Su et al. Web crawler model of fetching data speedily based on Hadoop distributed system
Barbierato et al. Performance evaluation of a data lake architecture via modeling techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 610041 Building No. 722, Building No. 1, Unit 12, Layer 121, Middle Section of Yizhou Avenue, Chengdu High-tech Zone, Sichuan Province

Applicant after: CHENGDU HIFIVE TECHNOLOGY Co.,Ltd.

Address before: 610000 Huayang Avenue Section 117 and 119, Huayang Street, Tianfu New District, Chengdu City, Sichuan Province

Applicant before: CHENGDU HIFIVE CULTURE COMMUNICATION Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20180420

RJ01 Rejection of invention patent application after publication