CN112597371A - 一种基于消息中间件的数据采集系统、方法及装置 - Google Patents
一种基于消息中间件的数据采集系统、方法及装置 Download PDFInfo
- Publication number
- CN112597371A CN112597371A CN202011568126.0A CN202011568126A CN112597371A CN 112597371 A CN112597371 A CN 112597371A CN 202011568126 A CN202011568126 A CN 202011568126A CN 112597371 A CN112597371 A CN 112597371A
- Authority
- CN
- China
- Prior art keywords
- data
- data acquisition
- database
- message
- middleware
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013480 data collection Methods 0.000 claims description 18
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000013500 data storage Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 238000013481 data capture Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 239000002253 acid Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005111 flow chemistry technique Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/546—Message passing systems or structures, e.g. queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/54—Indexing scheme relating to G06F9/54
- G06F2209/547—Messaging middleware
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/54—Indexing scheme relating to G06F9/54
- G06F2209/548—Queue
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于消息中间件的数据采集系统,包括主节点、消息中间件、多个子节点和数据库,其中,主节点用于获取数据源URL列表,并将数据源URL列表中的URL通过消息中间件分发给各个子节点;子节点基于Scrapy采集框架实现,用于根据接收到的URL进行数据采集,并将数据采集结果通过数据库连接池存储至数据库。可见,该系统通过对Scrapy采集框架进行扩展,实现了一种高效的分布式环境下的数据采集方案,且各个节点和消息中间件稳定性较高,能够保证整个数据采集系统的可靠性。此外,本申请还提供了一种基于消息中间件的数据采集方法及装置,其技术效果与上述系统相对应。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种基于消息中间件的数据采集系统、方法及装置。
背景技术
随着互联网技术的发展,数据激增,在分布式环境下,数据监控是十分有必要的。数据监控的前提是数据采集,然而,目前在分布式环境中缺少可靠的数据采集方案,为数据监控的实施带来困难。
发明内容
本申请的目的是提供一种基于消息中间件的数据采集系统、方法及装置,用以解决目前在分布式环境中缺少可靠的数据采集方案的问题。其具体方案如下:
第一方面,本申请提供了一种基于消息中间件的数据采集系统,包括:主节点、消息中间件、多个子节点和数据库;
其中,所述主节点用于获取数据源URL列表,并将所述数据源URL列表中的URL通过所述消息中间件分发给各个所述子节点;
所述子节点基于Scrapy采集框架实现,用于根据接收到的URL进行数据采集,并将数据采集结果通过数据库连接池存储至所述数据库。
优选的,所述子节点用于:
根据接收到的URL对目标页面进行解析,得到数据采集结果,其中所述目标页面为以下任意类型:xpath,css,lxml。
优选的,所述子节点用于:
根据接收到的URL进行数据采集,将采集得到的数据存储至缓存中;在所述缓存中的数据满足目标条件时,将所述缓存中的数据作为数据采集结果通过数据库连接池存储至所述数据库,其中所述目标条件为数据量大于第一阈值或数据抓取深度大于第二阈值。
优选的,所述子节点用于:
每隔预设时间间隔根据接收到的URL进行数据采集。
优选的,所述子节点还用于:
根据所述数据采集结果的数据类型对所述数据采集结果进行数据清洗。
优选的,所述消息中间件为rabbitMQ。
优选的,所述数据库连接池用于:
在接收到所述子节点发送的数据采集结果之后,判断所述数据采集结果是否为重复数据,若不是,则将所述数据采集结果存储至所述数据库。
优选的,所述数据库连接池用于:
在接收到所述子节点发送的数据采集结果之后,计算所述数据采集结果的MD5值,将所述数据采集结果的MD5值与所述数据库中每条数据的MD5值做对此,若相同,则判定所述数据采集结果为重复数据,否则判定所述数据采集结果不为重复数据。
第二方面,本申请提供了一种基于消息中间件的数据采集方法,包括:
主节点获取数据源URL列表;
所述主节点将所述数据源URL列表中的URL通过消息中间件分发给多个子节点,所述子节点基于Scrapy采集框架实现;
所述子节点根据接收到的URL进行数据采集;
所述子节点将数据采集结果通过数据库连接池存储至数据库。
第三方面,本申请提供了一种基于消息中间件的数据采集装置,包括:
列表获取模块:用于主节点获取数据源URL列表;
URL分发模块:用于所述主节点将所述数据源URL列表中的URL通过消息中间件分发给多个子节点,所述子节点基于Scrapy采集框架实现;
数据采集模块:用于所述子节点根据接收到的URL进行数据采集;
数据存储模块:用于所述子节点将数据采集结果通过数据库连接池存储至数据库。
本申请所提供的一种基于消息中间件的数据采集系统,包括:主节点、消息中间件、多个子节点和数据库,其中,主节点用于获取数据源URL列表,并将数据源URL列表中的URL通过消息中间件分发给各个子节点;子节点基于Scrapy采集框架实现,用于根据接收到的URL进行数据采集,并将数据采集结果通过数据库连接池存储至数据库。可见,该系统通过对Scrapy采集框架进行扩展,实现了一种高效的分布式环境下的数据采集方案,且各个节点和消息中间件稳定性较高,能够保证整个数据采集系统的可靠性。
此外,本申请还提供了一种基于消息中间件的数据采集方法及装置,其技术效果与上述系统相对应,这里不再赘述。
附图说明
为了更清楚的说明本申请实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请所提供的一种基于消息中间件的数据采集系统实施例一的架构示意图;
图2为本申请所提供的一种基于消息中间件的数据采集系统实施例二的Scrapy采集框架扩展示意图;
图3为本申请所提供的一种基于消息中间件的数据采集系统实施例二中子节点数据采集过程的流程图;
图4为本申请所提供的一种基于消息中间件的数据采集方法实施例的流程图;
图5为本申请所提供的一种基于消息中间件的数据采集装置实施例的功能框图。
具体实施方式
本申请的核心是提供一种基于消息中间件的数据采集系统、方法及装置,实现在分布式环境下高效的数据采集过程。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面对本申请提供的一种基于消息中间件的数据采集系统实施例一进行介绍。
Scrapy是一个适用爬取网站数据、提取结构性数据的应用程序框架,由Twisted写的一个Python事件驱动网络框架,它使用的是非堵塞的异步处理,具备高效快速的优点。Scrapy应用在广泛领域,包括数据挖掘,信息处理或存储历史数据等。一般通过Scrapy框架实现爬虫,能够抓取指定网站的内容或图片。
针对实际数据需求,本实施例基于Scrapy采集框架开发数据采集系统的主节点和子节点。即,对Scrapy采集框架进行扩展,将消息中间件作为不同节点之间的调度者,使得主节点能够通过消息中间件将采集请求分配给不同的子节点,保证系统稳定性,提升数据采集效率。
之后部署整个数据采集系统,如图1所示,本实施例的数据采集系统包括:主节点、消息中间件、多个子节点和数据库。
其中,主节点用于获取数据源URL列表,并将数据源URL列表中的URL通过消息中间件分发给各个子节点;子节点用于根据接收到的URL进行数据采集,并将数据采集结果通过数据库连接池存储至数据库。
为避免持续的数据采集对目标网站服务器造成过大压力,作为一种优选的实施方式,本实施例预先设置时间间隔,之后子节点按照预设时间间隔周期性地对URL进行数据采集。
本实施例中子节点能够实现深度抓取,具体的,子节点根据接收到的URL对目标页面进行解析,从而得到数据采集结果,其中目标页面为以下任意类型:xpath,css,lxml。
除此之外,子节点能够在得到数据采集结果之后对其进行数据清洗,不同的数据类型采用不同的清洗方式。具体的,子节点根据数据采集结果的数据类型对数据采集结果进行数据清洗。
作为一种具体的实施方式,可以使用rabbitMQ作为消息中间件,从而避免解决重复获取URL的问题,且支持ACID。
本实施例中,数据库连接池起到连接子节点和数据的作用。在实际应用中,通过自定义数据库连接池,可以赋予数据库连接池以下功能:异步写入,根据目的数据调整字段,避免数据重复写入等。
具体的,当数据库连接池具备避免数据重复写入的功能时,数据库连接池用于在接收到子节点发送的数据采集结果之后,先判断数据采集结果是否为重复数据,若是,则不将数据采集结果写入数据库;若不是,则将数据采集结果写入数据库。
本实施例所提供一种基于消息中间件的数据采集系统,包括:主节点、消息中间件、多个子节点和数据库,其中,主节点用于获取数据源URL列表,并将数据源URL列表中的URL通过消息中间件分发给各个子节点;子节点基于Scrapy采集框架实现,用于根据接收到的URL进行数据采集,并将数据采集结果通过数据库连接池存储至数据库。可见,该系统通过对Scrapy采集框架进行扩展,实现了一种高效的分布式环境下的数据采集方案,且各个节点和消息中间件稳定性较高,具有事务性,能够保证整个数据采集系统的可靠性。
下面开始详细介绍本申请提供的一种基于消息中间件的数据采集系统实施例二,实施例二基于前述实施例一实现,并在实施例一的基础上进行了一定程度上的拓展。
具体的,本实施例使用Python作为系统编程语言,主要包括四部分:主节点,子节点,消息中间件,数据库。
其中,主节点和子节点是基于Scrapy采集框架开发得到的,具体的,在Scrapy采集框架的基础上扩展出消息中间件,使得主节点能够通过消息中间件将数据采集任务调度给各个子节点。
在系统部署过程中,本实施例使用docker部署数据采集系统,每个容器作为一个独立的节点,根据数需求横向扩展。通过docker,将不同的子节点部署在不同的服务器上。
基于Scrapy采集框架开发的节点如图2所示,其中,Scrapy引擎用来处理整个系统的数据流处理,作为框架核心触发事务。调度器用来接受Scrapy引擎发过来的请求,压入队列中,并在Scrapy引擎再次请求的时候返回,可以理解成一个URL(抓取网页的网址或者链接)的优先队列,由它来决定下一个要抓取的网址是什么,同时去除重复的网址。下载器用于下载网页内容,并将网页内容返回给爬虫。爬虫用于从特定的网页中提取自己需要的信息,即所谓的实体(item),用户也可以从中提取出链接,让爬虫继续抓取下一个页面。
因此,本系统中数据流向如下:主节点请求数据源URL列表,将各个URL作为采集任务通过消息中间件分发给子节点,子节点执行采集任务,采集数据,将采集得到的数据通过数据库连接池存储至数据库。
本实施例的子节点支持深度抓取,能够解析xpath,css,lxml页面。此外,通过设置时间间隔,让子节点周期性的采集数据,能够降低目标网站服务器的压力。
子节点的数据采集流程如图3所示,包括:启动数据采集线程;从消息中间件读取URL;根据该URL进行数据采集,将采集得到的数据存储至缓存中;判断缓存中的数据的数据量是否大于第一阈值,若是,则将缓存中的数据写入数据库,否则,继续判断缓存中数据的抓取深度是否大于第二阈值,若是,则将缓存中的数据写入数据库,否则不写入。其中,第一阈值和第二阈值可以根据实际需求自行设定和调整,本实施例不做限定。
作为一种具体的实施方式,本实施例使用rabbitMQ作为消息中间件。
在数据库连接池中,本实施例自定义封装入库组件,能够兼容mysql和redis,能够将数据采集结果的数据类型转换为mysql支持的类型,并反馈不符合的数据类型。此外,通过自定义数据库连接池,还能够识别重复数据避免数据重复写入,实现异步写入,实现字段调整等。
作为一种具体的实施方式,本实施例中,数据库连接池根据MD5值判断待写入数据库的数据是否为重复数据。具体过程如下:数据库连接池在接收到子节点发送的数据采集结果之后,计算数据采集结果的MD5值,将数据采集结果的MD5值与数据库中每条数据的MD5值做对此,若相同,则判定数据采集结果为重复数据,不将其写入数据库,否则判定数据采集结果不为重复数据,并将数据采集结果写入数据库。
综上,基于本实施例的数据采集系统,数据采集过程如下:子节点获取目标数据所在的URL,得到数据源URL列表,将URL缓存至消息中间键并分配给多个子节点,子节点根据分配得到的URL进行数据采集,将数据采集完成之后,进行数据的清洗和处理,根据数据类型不同,使用不同的清洗方式,将清洗完成之后的items传递给自定义的数据库连接池,并入库。
可见,本实施例提供的一种基于消息中间件的数据采集系统,至少具备以下优点:
1、对scrapy采集框架进行扩展,扩展消息中间键作为不同节点之间的请求调度,通过消息中间键将请求分配给不同的采集节点,提升稳定性,提升效率。
2、使用rabbitMQ作为消息中间件,解决重复读取URL的问题,支持ACID。
3、子节点支持深度抓取,能够解析xpath,css,lxml页面。
4、通过设置子节点的采集时间间隔,降低目的网站服务器的压力。
5、自定义数据库连接池,具有识别重复数据避免重复写入,异步写入,根据目的数据调整字段等功能。
下面对本申请实施例提供的一种基于消息中间件的数据采集方法进行介绍,下文描述的基于消息中间件的数据采集方法基于上文描述的基于消息中间件的数据采集系统实现。
如图4所示,本实施例的基于消息中间件的数据采集方法,包括:
S401、主节点获取数据源URL列表;
S402、主节点将数据源URL列表中的URL通过消息中间件分发给多个子节点,子节点基于Scrapy采集框架实现;
S403、子节点根据接收到的URL进行数据采集;
S404、子节点将数据采集结果通过数据库连接池存储至数据库。
本实施例的基于消息中间件的数据采集方法基于上文描述的基于消息中间件的数据采集系统实现,因此该方法的具体实施方式可见前文中的基于消息中间件的数据采集系统的实施例部分,在此不再展开介绍。
最后,本申请还提供了一种基于消息中间件的数据采集装置,如图5所示,包括:
列表获取模块501:用于主节点获取数据源URL列表;
URL分发模块502:用于主节点将数据源URL列表中的URL通过消息中间件分发给多个子节点,子节点基于Scrapy采集框架实现;
数据采集模块503:用于子节点根据接收到的URL进行数据采集;
数据存储模块504:用于子节点将数据采集结果通过数据库连接池存储至数据库。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种基于消息中间件的数据采集系统,其特征在于,包括:主节点、消息中间件、多个子节点和数据库;
其中,所述主节点用于获取数据源URL列表,并将所述数据源URL列表中的URL通过所述消息中间件分发给各个所述子节点;
所述子节点基于Scrapy采集框架实现,用于根据接收到的URL进行数据采集,并将数据采集结果通过数据库连接池存储至所述数据库。
2.如权利要求1所述的基于消息中间件的数据采集系统,其特征在于,所述子节点用于:
根据接收到的URL对目标页面进行解析,得到数据采集结果,其中所述目标页面为以下任意类型:xpath,css,lxml。
3.如权利要求2所述的基于消息中间件的数据采集系统,其特征在于,所述子节点用于:
根据接收到的URL进行数据采集,将采集得到的数据存储至缓存中;在所述缓存中的数据满足目标条件时,将所述缓存中的数据作为数据采集结果通过数据库连接池存储至所述数据库,其中所述目标条件为数据量大于第一阈值或数据抓取深度大于第二阈值。
4.如权利要求3所述的基于消息中间件的数据采集系统,其特征在于,所述子节点用于:
每隔预设时间间隔根据接收到的URL进行数据采集。
5.如权利要求4所述的基于消息中间件的数据采集系统,其特征在于,所述子节点还用于:
根据所述数据采集结果的数据类型对所述数据采集结果进行数据清洗。
6.如权利要求1所述的基于消息中间件的数据采集系统,其特征在于,所述消息中间件为rabbitMQ。
7.如权利要求1-6任意一项所述的基于消息中间件的数据采集系统,其特征在于,所述数据库连接池用于:
在接收到所述子节点发送的数据采集结果之后,判断所述数据采集结果是否为重复数据,若不是,则将所述数据采集结果存储至所述数据库。
8.如权利要求7所述的基于消息中间件的数据采集系统,其特征在于,所述数据库连接池用于:
在接收到所述子节点发送的数据采集结果之后,计算所述数据采集结果的MD5值,将所述数据采集结果的MD5值与所述数据库中每条数据的MD5值做对此,若相同,则判定所述数据采集结果为重复数据,否则判定所述数据采集结果不为重复数据。
9.一种基于消息中间件的数据采集方法,其特征在于,包括:
主节点获取数据源URL列表;
所述主节点将所述数据源URL列表中的URL通过消息中间件分发给多个子节点,所述子节点基于Scrapy采集框架实现;
所述子节点根据接收到的URL进行数据采集;
所述子节点将数据采集结果通过数据库连接池存储至数据库。
10.一种基于消息中间件的数据采集装置,其特征在于,包括:
列表获取模块:用于主节点获取数据源URL列表;
URL分发模块:用于所述主节点将所述数据源URL列表中的URL通过消息中间件分发给多个子节点,所述子节点基于Scrapy采集框架实现;
数据采集模块:用于所述子节点根据接收到的URL进行数据采集;
数据存储模块:用于所述子节点将数据采集结果通过数据库连接池存储至数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011568126.0A CN112597371A (zh) | 2020-12-25 | 2020-12-25 | 一种基于消息中间件的数据采集系统、方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011568126.0A CN112597371A (zh) | 2020-12-25 | 2020-12-25 | 一种基于消息中间件的数据采集系统、方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112597371A true CN112597371A (zh) | 2021-04-02 |
Family
ID=75202385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011568126.0A Pending CN112597371A (zh) | 2020-12-25 | 2020-12-25 | 一种基于消息中间件的数据采集系统、方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112597371A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114254032A (zh) * | 2022-02-25 | 2022-03-29 | 成都思维世纪科技有限责任公司 | 分布式共享连接的资产静态数据采集方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107943991A (zh) * | 2017-12-01 | 2018-04-20 | 成都嗨翻屋文化传播有限公司 | 一种基于内存数据库的分布式爬虫框架及实现方法 |
CN108134745A (zh) * | 2017-12-19 | 2018-06-08 | 深圳交控科技有限公司 | 分布式数据采集方法及装置 |
CN110334075A (zh) * | 2019-04-04 | 2019-10-15 | 平安科技(深圳)有限公司 | 基于消息中间件的数据迁移方法及相关设备 |
WO2019223599A1 (zh) * | 2018-05-25 | 2019-11-28 | 杭州海康威视数字技术股份有限公司 | 数据采集系统、方法、节点设备及存储介质 |
CN111580954A (zh) * | 2020-04-01 | 2020-08-25 | 中国科学院信息工程研究所 | 一种可扩展的分布式数据采集方法和系统 |
CN111898009A (zh) * | 2020-06-16 | 2020-11-06 | 华北电力大学 | 一种多源电力数据融合的分布式采集系统及方法 |
-
2020
- 2020-12-25 CN CN202011568126.0A patent/CN112597371A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107943991A (zh) * | 2017-12-01 | 2018-04-20 | 成都嗨翻屋文化传播有限公司 | 一种基于内存数据库的分布式爬虫框架及实现方法 |
CN108134745A (zh) * | 2017-12-19 | 2018-06-08 | 深圳交控科技有限公司 | 分布式数据采集方法及装置 |
WO2019223599A1 (zh) * | 2018-05-25 | 2019-11-28 | 杭州海康威视数字技术股份有限公司 | 数据采集系统、方法、节点设备及存储介质 |
CN110334075A (zh) * | 2019-04-04 | 2019-10-15 | 平安科技(深圳)有限公司 | 基于消息中间件的数据迁移方法及相关设备 |
CN111580954A (zh) * | 2020-04-01 | 2020-08-25 | 中国科学院信息工程研究所 | 一种可扩展的分布式数据采集方法和系统 |
CN111898009A (zh) * | 2020-06-16 | 2020-11-06 | 华北电力大学 | 一种多源电力数据融合的分布式采集系统及方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114254032A (zh) * | 2022-02-25 | 2022-03-29 | 成都思维世纪科技有限责任公司 | 分布式共享连接的资产静态数据采集方法及系统 |
CN114254032B (zh) * | 2022-02-25 | 2022-05-06 | 成都思维世纪科技有限责任公司 | 分布式共享连接的资产静态数据采集方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674432B (zh) | 二级缓存方法、装置及计算机可读存储介质 | |
CN107895009B (zh) | 一种基于分布式的互联网数据采集方法及系统 | |
CN100591078C (zh) | 一种网站缓存方法和一种网站缓存的装置 | |
CN110262807B (zh) | 集群创建进度日志采集系统、方法和装置 | |
CN104104707A (zh) | 网页数据更新方法、终端、缓存服务器及系统 | |
CN101924797A (zh) | 资源下载的处理方法、装置及系统 | |
CN107145556B (zh) | 通用的分布式采集系统 | |
CN103248707B (zh) | 文件访问方法、系统以及设备 | |
US7519636B2 (en) | Key sequenced clustered I/O in a database management system | |
CN110417873B (zh) | 一种实现记录网页交互操作的网络信息提取系统 | |
US20210303191A1 (en) | Method and system for synchronizing requests related to key-value storage having different portions | |
CN106789377A (zh) | 网元集群的服务参数更新方法 | |
CN109981715B (zh) | 一种会话管理的方法及装置 | |
WO2022062184A1 (zh) | 高并发查询方法、智能终端及存储介质 | |
WO2019041670A1 (zh) | 一种降低功能页面请求次数的方法、存储介质、设备及系统 | |
US20220138203A1 (en) | Method and system for searching a key-value storage | |
CN110795395A (zh) | 文件部署系统和文件部署方法 | |
CN103414693A (zh) | 打点方法及打点装置 | |
US7895247B2 (en) | Tracking space usage in a database | |
CN108667740B (zh) | 流量控制的方法、装置及系统 | |
CN112597371A (zh) | 一种基于消息中间件的数据采集系统、方法及装置 | |
CN112433921A (zh) | 用于动态埋点的方法及设备 | |
CN111898036A (zh) | 一种行为数据收集处理系统及方法 | |
CN111400627A (zh) | 一种信息获取方法、装置和电子设备及可读存储介质 | |
CN113778810A (zh) | 一种日志收集方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |