CN106874424A - 一种基于MongoDB和Redis的网页数据采集处理方法及系统 - Google Patents
一种基于MongoDB和Redis的网页数据采集处理方法及系统 Download PDFInfo
- Publication number
- CN106874424A CN106874424A CN201710056576.3A CN201710056576A CN106874424A CN 106874424 A CN106874424 A CN 106874424A CN 201710056576 A CN201710056576 A CN 201710056576A CN 106874424 A CN106874424 A CN 106874424A
- Authority
- CN
- China
- Prior art keywords
- mongodb
- request
- redis
- download
- message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/546—Message passing systems or structures, e.g. queues
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于MongoDB和Redis的网页数据采集处理方法及系统,该方法首先设定网页下载请求的格式;然后为下载请求分配全局唯一ID;依照配置中心预置的对应业务负载均衡策略,完成对请求的转发;采用MongoDB的副本集架构将请求按业务类型分库分表。将请求写入MongoDB数据库,并用id字段覆盖MongoDB默认的_id索引,对ts字段建立TTL索引,同时将id、biz、ts三个字段转json格式后,利用lpush操作压入Redis消息队列;最后各下载服务器一直保持监听Redis消息队列,轮询提取请求并下载解析网页,获取目标数据记录入库。本发明结合Redis内存消息队列和Mongodb副本集架构实施的分布式网页下载请求存储方案,构建成本低、简单实用。
Description
技术领域
本发明涉及数据采集技术领域,特别涉及一种基于MongoDB和Redis的网页数据采集处理方法及系统。
背景技术
当前处于一个信息爆发增长的数据时代,专业化的数据分析和深度挖掘,不断孕育出巨大商机。越来越多企业由传统模式的依靠直觉和经验判断,转向依靠大数据分析和预测来制定企业战略决策,各企业对数据的获取需求愈加强烈。特别地,对于那些并不直接生产大数据的互联网中小企业而言,通过网络爬虫技术实施有针对性、行业性、精准性的数据采集,间接建立企业的“大数据战略”体系,就显得尤为重要。不仅能大大降低企业大数据信息建设的成本,更能满足企业业务发展要求,充分利用网络数据价值,达到利益更大化。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于MongoDB和Redis的网页数据采集处理方法及系统,便于企业低成本、高效率建立满足自身业务发展需求的数据仓库。
本发明的目的是通过以下技术方案来实现的:一种基于MongoDB和Redis的网页数据采集处理方法,该方法包括以下步骤:
(1)设定网页下载请求的格式:请求唯一标识符id、业务类型biz、时间戳ts、请求实体内容data、消息处理状态flag;
(2)为下载请求分配全局唯一ID,对应下载请求的id字段;
(3)基于分布式协同服务,在配置中心预置各业务的网页请求解析规则映射表、持久化节点列表、MongoDB数据库名、集合名、集合水平拆分数、Redis消息队列名。
(4)依照配置中心预置的对应业务负载均衡策略,完成对请求的转发:首先根据下载请求的业务类型biz,从配置中心获取该biz预先定义的持久化节点列表、MongoDB数据库名、集合名、集合水平拆分数、Redis消息队列名,再结合对唯一标识符id求模取余策略,将请求持久化到MongoDB相应的数据库和集合,同时在Redis消息队列记录此条请求;
(5)采用MongoDB的副本集架构将请求按业务类型分库分表。将请求写入MongoDB数据库,并用id字段覆盖MongoDB默认的_id索引,对ts字段建立TTL索引,同时将id、biz、ts三个字段转json格式后,利用lpush操作压入Redis消息队列;
(6)各下载服务器一直保持监听Redis消息队列,轮询提取请求并下载解析网页,获取目标数据记录入库。
进一步地,所述步骤6具体为:首先利用rpop或其阻塞版操作brpop从队列弹出请求,再结合id、biz和ts这三个字段组合成查询过滤条件,然后调用MongoDB的原子操作findAndModify查询对应的MongoDB持久化节点的数据库和集合,即可得到完整的请求内容,根据该请求附带的解析规则映射表,解析页面获取目标数据记录入库。
进一步地,在步骤1-步骤6中,实时监控网页下载请求的生成速率;监控服务节点的健康状况:包括数据库存储容量、内存使用率、慢查询操作,以及内存消息队列的内存占用、消息积压程度等,当遭遇节点故障或服务性能下滑超过设定阈值时,及时以短信或邮件方式发送报警信息;监控下载请求的处理速率,发现请求积压严重或无法在计划时间内完成处理时,及时增加处理节点动态扩容。
进一步地,所述步骤2中,使用SnowFlake为下载请求分配全局唯一ID。
一种基于MongoDB和Redis的网页数据采集处理系统,该系统包括以下模块:全局ID生成器模块、请求路由转发模块、配置中心、持久化模块和消息队列模块;
所述全局ID生成器模块为下载请求分配全局唯一ID,对应下载请求的id字段;
所述配置中心基于分布式协同服务,预置各业务的网页请求解析规则映射表、持久化节点列表、MongoDB数据库名、集合名、集合水平拆分数、Redis消息队列名;
所述请求路由转发模块依照配置中心预置的对应业务负载均衡策略,完成对请求的转发:首先根据下载请求的业务类型biz,从配置中心获取该biz预先定义的持久化节点列表、MongoDB数据库名、集合名、集合水平拆分数、Redis消息队列名,再结合对唯一标识符id求模取余策略,将请求持久化到MongoDB相应的数据库和集合,同时在Redis消息队列记录此条请求;
所述持久化模块采用MongoDB的副本集架构将请求按业务类型分库分表;将请求写入MongoDB数据库,并用id字段覆盖MongoDB默认的_id索引,对ts字段建立TTL索引;
所述消息队列模块:在请求生成者端,将请求持久化到MongoDB同时,将id、biz、ts三个字段转json格式后,利用lpush操作压入Redis消息队列。在请求消费者端,各下载服务器一直保持监听Redis消息队列,利用rpop或其阻塞版操作brpop从队列弹出请求,再结合id、biz和ts这三个字段组合成查询过滤条件,然后调用MongoDB的原子操作findAndModify查询对应的MongoDB持久化节点的数据库和集合,即可得到完整的请求内容,根据该请求附带的解析规则映射表,解析页面获取目标数据记录入库。
进一步地,该系统还包括服务监控模块,该模块实时监控网页下载请求的生成速率;监控服务节点的健康状况:包括数据库存储容量、内存使用率、慢查询操作,以及内存消息队列的内存占用、消息积压程度等,当遭遇节点故障或服务性能下滑超过设定阈值时,及时以短信或邮件方式发送报警信息;监控下载请求的处理速率,发现请求积压严重或无法在计划时间内完成处理时,及时增加处理节点动态扩容。
本发明的有益效果是:本发明结合Redis内存消息队列和Mongodb副本集架构实施的分布式网页下载请求存储方案,构建成本低、简单实用,具体表现在:1.可支撑每日千万量级请求的高效可靠存储;2.服务端自动执行过期请求清理,避免了消息积压,提升请求处理效率。3.具备快速透明的消息查询跟踪功能,这是按业界较常用的内存消息队列或消息中间件存储方案,是难以做到的。
附图说明
图1是本发明实施例的网页下载请求的主要流程示意图;
图2是请求路由转发模块执行流程示意图;
图3是持久化模块结构示意图;
图4是下载服务器处理下载请求流程示意图。
具体实施方式
下面结合附图及具体实施方式对本发明作进一步详细说明。
为方便开展后续介绍,先阐述自定义的网页下载请求各字段格式设计:
1.字段名:id,数据类型为长整型,表示请求唯一标识符。通常由全局ID生成服务分配;一方面,可以根据该字段按指定负载均衡策略将该请求转发到指定存储节点和消息队列,另一方面,利用该字段覆盖MongoDB默认的_id索引,当按该字段查询和定位消息处理记录状态时,效率极高。
2.字段名:biz,数据类型为字符串,记录该消息由何种业务产生。对于请求的生产者,查询注册中心获取该类业务的消息队列各服务节点,路由到指定的消息队列;对于消费者,根据该字段可以筛选和处理其感兴趣的业务消息。
3.字段名:ts,数据类型为时间戳,记录消息写入队列时刻。特别地,通过在该字段上建立TTL索引,可以将那些超过预设时间但未被处理的消息交给MongoDB服务器自动清理掉,避免消息大量堆积;另一方面,请求消费者也可以根据该索引字段筛选或过滤消息。
4.字段名:data,数据类型为字节数组,真正的请求实体内容(如:页面Url,解析规则在配置中心对应提取编号、http请求头请求参数等),通常为了提高网络传输速率和减少消息耗用的存储空间,存储请求时,会采用某种序列化机制,将请求实体内容转化为字节数组。而在提取到请求后,将该字段的内容反序列化为可视对象。
5.字段名:flag,数据类型为整型,记录当前消息处理状态。通常持久化请求时状态默认赋值为0,当请求被处理后,状态同步更新为1。一般使用0和1两种状态即可。特定业亦可定义多种取值,协定消息处理的不同状态。
基于MongoDB和Redis这两种在互联网公司广泛应用的开源NoSQL数据库,构建一套简单灵活的网页数据采集方法体系。这一方法体系主要包含六个模块:全局ID生成器模块、请求路由转发模块、配置中心、持久化模块、消息队列模块、服务监控模块。完整的网页数据采集流程示意图如图1所示:首先,指定需要抓取的网页链接及相对应的解析规则说明。为了便于后期追踪和查询指定请求处理记录,通常会由全局ID生成服务,分配该请求一个唯一ID,然后将其包装为网页下载请求。之后,请求路由转发模块会根据该请求的业务类型,依照指定负载均衡策略,将请求持久化到数据库。同时,存储请求的部分关键字段到消息队列。值得说明的是,为了避免请求的生成者与请求执行者相耦合,并考虑到后期动态扩展要求,这一步并未直接将网页下载请求分配给指定的下载服务器。与此同时,各下载服务器一直保持监听消息队列和数据库的变更,定时轮询提取请求并下载网页,最后根据该请求附带的解析规则映射表,解析页面获取目标数据记录入库。
各模块具体介绍如下:
1.全局ID生成器模块:此模块用于给每个下载请求分配一个全局唯一ID,对应着下载请求的id字段。常用的全局ID生成方案包括32位长度的UUID、MongoDB采用的ObjectId、Twitter发明的SnowFlake算法、Flickr基于MySQL主键自增ID。在高并发大数据量的情况下,建议使用SnowFlake方案,性能非常突出。
2.请求路由转发模块:这一模块的主要功能类似关系型数据库中间件代理,基于客户端分库分表,以便降低单节点、单库、单表压力,提升存储和查询性能。具体应用时,依照配置中心预置的对应业务负载均衡策略(一致性哈希、简单求模取余等),完成对请求转发。一次简单的请求路由转发流程如图2所示:首先根据下载请求biz字段定义的类型,从配置中心获取该biz预先定义的持久化节点列表、MongoDB数据库名、集合名、集合水平拆分数、Redis消息队列名,再结合对id字段求模取余策略,将请求持久化到MongoDB相应的数据库和集合,同时在Redis消息队列记录此条请求。
3.配置中心:基于Redis、etcd或Zookeeper等分布式服务,存储各业务类型的网页请求解析规则映射表,统一注册和配置相关业务的服务节点、持久化节点列表、消息队列列表。支持动态修改配置而不用重启已部署线上应用程序。
4.持久化模块:基于MongoDB,采用其副本集(Replica Sets)架构,并按业务类型分库、拆分集合,提供数据存储的整体高可用性,如图3所示。使用该技术能够将数据副本保存到多台服务器,当一台或多台服务器故障时,系统会自动切换到副本集中的其他服务器,保证了数据安全性和服务的容错性。实际持久化请求时,会用请求id字段覆盖MongoDB默认的_id索引,并对ts字段建立TTL(time-to-live)索引。TTL索引支持对每个文档预先设置超时时间,这样做的好处是:当文档达到设置的老化程度后,MongoDB服务器会自动将其删除。默认情况下,MongoDB服务器每隔一分钟开展一次TTL索清理,应用程序无需提供额外编码就能避免了消息堆积,极大地方便了开发人员。
5.消息队列模块:利用Redis原生提供的list数据结构及lpush和rpop、brpop等原子操作构建而成。由于是基于内存存储,为降低内存占用率,并未将请求全部字段写入。实际使用中:请求生成者端,将完整的请求持久化到MongoDB同时,仅将id、biz、ts三个字段转json格式后,利用lpush操作压入队列;在请求消费者端,先利用rpop或其阻塞版操作brpop从队列弹出请求,再结合id、biz和ts这三个字段组合成查询过滤条件,然后调用MongoDB的原子操作findAndModify查询对应的MongoDB存储节点的数据库和集合,即可得到完整的请求内容,流程示意图如图4所示。由于Redis获取的数据直接源于内存,而查询MongoDB又能利用上其主键id索引,故这两步操作即便以事务方式执行,亦可获得极高的执行效率。
6.服务监控模块:主要监控三个方面,1.以不同的时间精度(1秒、5秒、1分钟等)监控网页下载请求的生成速率,当请求生成过快时以便能及时调控;2.各服务节点监控状态汇报,包括数据库存储容量、内存使用率、慢查询操作,以及内存消息队列的内存占用、消息积压程度等,当遭遇节点故障或服务性能下滑超过设定阈值时,能及时以短信或邮件方式发送报警信息;3.以不同的时间精度(1秒、5秒、1分钟等)监控下载请求的处理速率,一旦发现请求积压严重或无法在计划时间内完成处理,则及时增加处理节点动态扩容。
Claims (6)
1.一种基于MongoDB和Redis的网页数据采集处理方法,其特征在于,该方法包括以下步骤:
(1)设定网页下载请求的格式:请求唯一标识符id、业务类型biz、时间戳ts、请求实体内容data、消息处理状态flag;
(2)为下载请求分配全局唯一ID,对应下载请求的id字段;
(3)基于分布式协同服务,在配置中心预置各业务的网页请求解析规则映射表、持久化节点列表、MongoDB数据库名、集合名、集合水平拆分数、Redis消息队列名。
(4)依照配置中心预置的对应业务负载均衡策略,完成对请求的转发:首先根据下载请求的业务类型biz,从配置中心获取该biz预先定义的持久化节点列表、MongoDB数据库名、集合名、集合水平拆分数、Redis消息队列名,再结合对唯一标识符id求模取余策略,将请求持久化到MongoDB相应的数据库和集合,同时在Redis消息队列记录此条请求;
(5)采用MongoDB的副本集架构将请求按业务类型分库分表。将请求写入MongoDB数据库,并用id字段覆盖MongoDB默认的_id索引,对ts字段建立TTL索引,同时将id、biz、ts三个字段转json格式后,利用lpush操作压入Redis消息队列;
(6)各下载服务器一直保持监听Redis消息队列,轮询提取请求并下载解析网页,获取目标数据记录入库。
2.根据权利要求1所述的一种基于MongoDB和Redis的网页数据采集处理方法,其特征在于,所述步骤6具体为:首先利用rpop或其阻塞版操作brpop从队列弹出请求,再结合id、biz和ts这三个字段组合成查询过滤条件,然后调用MongoDB的原子操作findAndModify查询对应的MongoDB持久化节点的数据库和集合,即可得到完整的请求内容,根据该请求附带的解析规则映射表,解析页面获取目标数据记录入库。
3.根据权利要求1所述的一种基于MongoDB和Redis的网页数据采集处理方法,其特征在于,在步骤1-步骤6中,实时监控网页下载请求的生成速率;监控服务节点的健康状况:包括数据库存储容量、内存使用率、慢查询操作,以及内存消息队列的内存占用、消息积压程度等,当遭遇节点故障或服务性能下滑超过设定阈值时,及时以短信或邮件方式发送报警信息;监控下载请求的处理速率,发现请求积压严重或无法在计划时间内完成处理时,及时增加处理节点动态扩容。
4.根据权利要求1所述的一种基于MongoDB和Redis的网页数据采集处理方法,其特征在于,所述步骤2中,使用SnowFlake为下载请求分配全局唯一ID。
5.一种基于MongoDB和Redis的网页数据采集处理系统,其特征在于,该系统包括以下模块:全局ID生成器模块、请求路由转发模块、配置中心、持久化模块和消息队列模块;
所述全局ID生成器模块为下载请求分配全局唯一ID,对应下载请求的id字段;
所述配置中心基于分布式协同服务,预置各业务的网页请求解析规则映射表、持久化节点列表、MongoDB数据库名、集合名、集合水平拆分数、Redis消息队列名;
所述请求路由转发模块依照配置中心预置的对应业务负载均衡策略,完成对请求的转发:首先根据下载请求的业务类型biz,从配置中心获取该biz预先定义的持久化节点列表、MongoDB数据库名、集合名、集合水平拆分数、Redis消息队列名,再结合对唯一标识符id求模取余策略,将请求持久化到MongoDB相应的数据库和集合,同时在Redis消息队列记录此条请求;
所述持久化模块采用MongoDB的副本集架构将请求按业务类型分库分表;将请求写入MongoDB数据库,并用id字段覆盖MongoDB默认的_id索引,对ts字段建立TTL索引;
所述消息队列模块:在请求生成者端,将请求持久化到MongoDB同时,将id、biz、ts三个字段转json格式后,利用lpush操作压入Redis消息队列。在请求消费者端,各下载服务器一直保持监听Redis消息队列,利用rpop或其阻塞版操作brpop从队列弹出请求,再结合id、biz和ts这三个字段组合成查询过滤条件,然后调用MongoDB的原子操作findAndModify查询对应的MongoDB持久化节点的数据库和集合,即可得到完整的请求内容,根据该请求附带的解析规则映射表,解析页面获取目标数据记录入库。
6.根据权利要求5所述的一种基于MongoDB和Redis的网页数据采集处理系统,其特征在于,还包括服务监控模块,该模块实时监控网页下载请求的生成速率;监控服务节点的健康状况:包括数据库存储容量、内存使用率、慢查询操作,以及内存消息队列的内存占用、消息积压程度等,当遭遇节点故障或服务性能下滑超过设定阈值时,及时以短信或邮件方式发送报警信息;监控下载请求的处理速率,发现请求积压严重或无法在计划时间内完成处理时,及时增加处理节点动态扩容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710056576.3A CN106874424B (zh) | 2017-01-25 | 2017-01-25 | 一种基于MongoDB和Redis的网页数据采集处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710056576.3A CN106874424B (zh) | 2017-01-25 | 2017-01-25 | 一种基于MongoDB和Redis的网页数据采集处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106874424A true CN106874424A (zh) | 2017-06-20 |
CN106874424B CN106874424B (zh) | 2019-10-15 |
Family
ID=59158080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710056576.3A Expired - Fee Related CN106874424B (zh) | 2017-01-25 | 2017-01-25 | 一种基于MongoDB和Redis的网页数据采集处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106874424B (zh) |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451211A (zh) * | 2017-07-13 | 2017-12-08 | 广东技术师范学院 | 一种基于RabbitMQ和MongoDB的下载系统 |
CN107704532A (zh) * | 2017-09-21 | 2018-02-16 | 深圳易嘉恩科技有限公司 | 基于Redis缓存实例文档和分类标准的方法 |
CN107864233A (zh) * | 2017-11-08 | 2018-03-30 | 千寻位置网络有限公司 | 全局唯一id结构及生成方法 |
CN108228848A (zh) * | 2018-01-10 | 2018-06-29 | 山东浪潮通软信息科技有限公司 | 一种可扩展的业务数据分库实现方法 |
CN108388668A (zh) * | 2018-03-19 | 2018-08-10 | 四川意高汇智科技有限公司 | 用于大数据分析的云端数据处理方法 |
CN108449376A (zh) * | 2018-01-31 | 2018-08-24 | 合肥和钧正策信息技术有限公司 | 一种服务于企业的大数据计算节点的负载均衡方法 |
CN108595530A (zh) * | 2018-03-30 | 2018-09-28 | 武汉楚鼎信息技术有限公司 | 一种后台处理和存储用户消息的方法及系统装置 |
CN108769115A (zh) * | 2018-04-19 | 2018-11-06 | 中国科学院计算技术研究所 | 分布式rss数据采集方法和系统 |
CN109828994A (zh) * | 2018-12-05 | 2019-05-31 | 深圳市双合电气股份有限公司 | 一种政府能源管理平台的数据管理方法和系统 |
CN110096528A (zh) * | 2019-04-12 | 2019-08-06 | 中国银行股份有限公司 | 一种分布式系统中生成序列的方法、装置及系统 |
CN110502490A (zh) * | 2019-08-30 | 2019-11-26 | 浪潮软件集团有限公司 | 一种MongoDB数据库数据同步系统及实现方法 |
CN110740195A (zh) * | 2019-11-20 | 2020-01-31 | 山东鲁能软件技术有限公司 | 一种基于消息引擎的分布式系统数据同步方法及系统 |
CN110764970A (zh) * | 2019-10-30 | 2020-02-07 | 腾讯科技(深圳)有限公司 | 事件监听信息处理方法、系统及计算机可读存储介质 |
CN111198806A (zh) * | 2019-12-17 | 2020-05-26 | 航天信息股份有限公司 | 一种基于服务开放平台的服务调用数据统计分析方法及系统 |
CN111209284A (zh) * | 2020-01-10 | 2020-05-29 | 北京仁科互动网络技术有限公司 | 基于元数据的分表方法及装置 |
CN111277560A (zh) * | 2019-12-24 | 2020-06-12 | 普世(南京)智能科技有限公司 | 一种基于高带宽物理隔离单向传输的安全情报采集导入整编方法及系统 |
CN111367991A (zh) * | 2018-12-25 | 2020-07-03 | 中国科学院信息工程研究所 | 一种基于消息队列的MongoDB数据实时同步方法及系统 |
CN111367873A (zh) * | 2018-12-26 | 2020-07-03 | 深圳市优必选科技有限公司 | 日志数据的存储方法、装置、终端及计算机存储介质 |
CN111427700A (zh) * | 2020-03-03 | 2020-07-17 | 云知声智能科技股份有限公司 | 一种物联网消息服务方法及服务器 |
CN111931025A (zh) * | 2020-07-20 | 2020-11-13 | 湖北美和易思教育科技有限公司 | 一种基于Actor模型的数据持续抓取方法及系统 |
CN112131013A (zh) * | 2019-06-25 | 2020-12-25 | 顺丰科技有限公司 | 分布式系统中调用链的监控方法、装置、设备及存储介质 |
CN113114725A (zh) * | 2021-03-19 | 2021-07-13 | 中新网络信息安全股份有限公司 | 一种基于http协议多节点数据交互系统及其实现方法 |
CN113254465A (zh) * | 2021-05-25 | 2021-08-13 | 四川虹魔方网络科技有限公司 | 缓存最终一致性更新方法 |
CN113434376A (zh) * | 2021-06-24 | 2021-09-24 | 山东浪潮科学研究院有限公司 | 一种基于NoSQL的Web日志分析方法、装置 |
CN114327769A (zh) * | 2021-12-29 | 2022-04-12 | 科东(广州)软件科技有限公司 | 一种操作系统事件记录方法、装置及计算机系统 |
CN115292314A (zh) * | 2022-07-28 | 2022-11-04 | 上海数禾信息科技有限公司 | 序列号生成方法、装置、计算机设备和存储介质 |
CN116909780A (zh) * | 2023-09-12 | 2023-10-20 | 天津卓朗昆仑云软件技术有限公司 | 基于内存的本地分布式队列插件、系统和队列处理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103873597A (zh) * | 2014-04-15 | 2014-06-18 | 厦门市美亚柏科信息股份有限公司 | 分布式网页下载方法和系统 |
CN106096056A (zh) * | 2016-06-30 | 2016-11-09 | 西南石油大学 | 一种基于分布式的舆情数据实时采集方法和系统 |
CN106484886A (zh) * | 2016-10-17 | 2017-03-08 | 金蝶软件(中国)有限公司 | 一种数据采集的方法及其相关设备 |
-
2017
- 2017-01-25 CN CN201710056576.3A patent/CN106874424B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103873597A (zh) * | 2014-04-15 | 2014-06-18 | 厦门市美亚柏科信息股份有限公司 | 分布式网页下载方法和系统 |
CN106096056A (zh) * | 2016-06-30 | 2016-11-09 | 西南石油大学 | 一种基于分布式的舆情数据实时采集方法和系统 |
CN106484886A (zh) * | 2016-10-17 | 2017-03-08 | 金蝶软件(中国)有限公司 | 一种数据采集的方法及其相关设备 |
Non-Patent Citations (1)
Title |
---|
田丹: "《网站文本数据采集系统的设计与实现》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451211A (zh) * | 2017-07-13 | 2017-12-08 | 广东技术师范学院 | 一种基于RabbitMQ和MongoDB的下载系统 |
CN107451211B (zh) * | 2017-07-13 | 2019-11-19 | 广东技术师范学院 | 一种基于RabbitMQ和MongoDB的下载系统 |
CN107704532A (zh) * | 2017-09-21 | 2018-02-16 | 深圳易嘉恩科技有限公司 | 基于Redis缓存实例文档和分类标准的方法 |
CN107864233A (zh) * | 2017-11-08 | 2018-03-30 | 千寻位置网络有限公司 | 全局唯一id结构及生成方法 |
CN108228848A (zh) * | 2018-01-10 | 2018-06-29 | 山东浪潮通软信息科技有限公司 | 一种可扩展的业务数据分库实现方法 |
CN108449376A (zh) * | 2018-01-31 | 2018-08-24 | 合肥和钧正策信息技术有限公司 | 一种服务于企业的大数据计算节点的负载均衡方法 |
CN108388668A (zh) * | 2018-03-19 | 2018-08-10 | 四川意高汇智科技有限公司 | 用于大数据分析的云端数据处理方法 |
CN108595530A (zh) * | 2018-03-30 | 2018-09-28 | 武汉楚鼎信息技术有限公司 | 一种后台处理和存储用户消息的方法及系统装置 |
CN108769115A (zh) * | 2018-04-19 | 2018-11-06 | 中国科学院计算技术研究所 | 分布式rss数据采集方法和系统 |
CN109828994A (zh) * | 2018-12-05 | 2019-05-31 | 深圳市双合电气股份有限公司 | 一种政府能源管理平台的数据管理方法和系统 |
CN111367991A (zh) * | 2018-12-25 | 2020-07-03 | 中国科学院信息工程研究所 | 一种基于消息队列的MongoDB数据实时同步方法及系统 |
CN111367991B (zh) * | 2018-12-25 | 2024-03-12 | 中国科学院信息工程研究所 | 一种基于消息队列的MongoDB数据实时同步方法及系统 |
CN111367873A (zh) * | 2018-12-26 | 2020-07-03 | 深圳市优必选科技有限公司 | 日志数据的存储方法、装置、终端及计算机存储介质 |
CN110096528A (zh) * | 2019-04-12 | 2019-08-06 | 中国银行股份有限公司 | 一种分布式系统中生成序列的方法、装置及系统 |
CN112131013A (zh) * | 2019-06-25 | 2020-12-25 | 顺丰科技有限公司 | 分布式系统中调用链的监控方法、装置、设备及存储介质 |
CN110502490A (zh) * | 2019-08-30 | 2019-11-26 | 浪潮软件集团有限公司 | 一种MongoDB数据库数据同步系统及实现方法 |
CN110764970B (zh) * | 2019-10-30 | 2022-02-22 | 腾讯科技(深圳)有限公司 | 事件监听信息处理方法、系统及计算机可读存储介质 |
CN110764970A (zh) * | 2019-10-30 | 2020-02-07 | 腾讯科技(深圳)有限公司 | 事件监听信息处理方法、系统及计算机可读存储介质 |
CN110740195B (zh) * | 2019-11-20 | 2022-05-20 | 山东鲁能软件技术有限公司 | 一种基于消息引擎的分布式系统数据同步方法及系统 |
CN110740195A (zh) * | 2019-11-20 | 2020-01-31 | 山东鲁能软件技术有限公司 | 一种基于消息引擎的分布式系统数据同步方法及系统 |
CN111198806B (zh) * | 2019-12-17 | 2024-04-05 | 航天信息股份有限公司 | 基于服务开放平台的服务调用数据统计分析方法及系统 |
CN111198806A (zh) * | 2019-12-17 | 2020-05-26 | 航天信息股份有限公司 | 一种基于服务开放平台的服务调用数据统计分析方法及系统 |
CN111277560A (zh) * | 2019-12-24 | 2020-06-12 | 普世(南京)智能科技有限公司 | 一种基于高带宽物理隔离单向传输的安全情报采集导入整编方法及系统 |
CN111209284B (zh) * | 2020-01-10 | 2023-12-29 | 北京仁科互动网络技术有限公司 | 基于元数据的分表方法及装置 |
CN111209284A (zh) * | 2020-01-10 | 2020-05-29 | 北京仁科互动网络技术有限公司 | 基于元数据的分表方法及装置 |
CN111427700A (zh) * | 2020-03-03 | 2020-07-17 | 云知声智能科技股份有限公司 | 一种物联网消息服务方法及服务器 |
CN111427700B (zh) * | 2020-03-03 | 2023-05-05 | 云知声智能科技股份有限公司 | 一种物联网消息服务方法及服务器 |
CN111931025B (zh) * | 2020-07-20 | 2023-08-15 | 武汉美和易思数字科技有限公司 | 一种基于Actor模型的数据持续抓取方法及系统 |
CN111931025A (zh) * | 2020-07-20 | 2020-11-13 | 湖北美和易思教育科技有限公司 | 一种基于Actor模型的数据持续抓取方法及系统 |
CN113114725A (zh) * | 2021-03-19 | 2021-07-13 | 中新网络信息安全股份有限公司 | 一种基于http协议多节点数据交互系统及其实现方法 |
CN113254465B (zh) * | 2021-05-25 | 2022-11-01 | 四川虹魔方网络科技有限公司 | 缓存最终一致性更新方法 |
CN113254465A (zh) * | 2021-05-25 | 2021-08-13 | 四川虹魔方网络科技有限公司 | 缓存最终一致性更新方法 |
CN113434376B (zh) * | 2021-06-24 | 2023-04-11 | 山东浪潮科学研究院有限公司 | 一种基于NoSQL的Web日志分析方法、装置 |
CN113434376A (zh) * | 2021-06-24 | 2021-09-24 | 山东浪潮科学研究院有限公司 | 一种基于NoSQL的Web日志分析方法、装置 |
CN114327769A (zh) * | 2021-12-29 | 2022-04-12 | 科东(广州)软件科技有限公司 | 一种操作系统事件记录方法、装置及计算机系统 |
CN115292314A (zh) * | 2022-07-28 | 2022-11-04 | 上海数禾信息科技有限公司 | 序列号生成方法、装置、计算机设备和存储介质 |
CN115292314B (zh) * | 2022-07-28 | 2023-11-24 | 上海数禾信息科技有限公司 | 序列号生成方法、装置、计算机设备和存储介质 |
CN116909780A (zh) * | 2023-09-12 | 2023-10-20 | 天津卓朗昆仑云软件技术有限公司 | 基于内存的本地分布式队列插件、系统和队列处理方法 |
CN116909780B (zh) * | 2023-09-12 | 2023-11-17 | 天津卓朗昆仑云软件技术有限公司 | 基于内存的本地分布式队列插件、系统和队列处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106874424B (zh) | 2019-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106874424A (zh) | 一种基于MongoDB和Redis的网页数据采集处理方法及系统 | |
US11194552B1 (en) | Assisted visual programming for iterative message processing system | |
US11474673B1 (en) | Handling modifications in programming of an iterative message processing system | |
US11113353B1 (en) | Visual programming for iterative message processing system | |
EP2050001B1 (en) | System and apparatus for optimally trading off the replication overhead and consistency level in distributed applications | |
US7690000B2 (en) | Metadata journal for information technology systems | |
US7702718B2 (en) | Providing enterprise information | |
US20070299804A1 (en) | Method and system for federated resource discovery service in distributed systems | |
CN105608188A (zh) | 数据处理方法和数据处理装置 | |
CN111782692B (zh) | 一种频率控制方法及装置 | |
EP2767912A2 (en) | In-memory real-time synchronized database system and method | |
CN113312376B (zh) | 一种用于Nginx日志实时处理分析的方法及终端 | |
CN115185705A (zh) | 一种消息通知方法、装置、介质及设备 | |
CN112882900B (zh) | 一种记录业务数据变更日志的方法及设备 | |
US11789950B1 (en) | Dynamic storage and deferred analysis of data stream events | |
CN115757552B (zh) | 基于分布式微服务的银行历史数据管理系统 | |
CN111460038A (zh) | 一种数据准实时同步方法及装置 | |
CN118410076B (zh) | 指标的查询方法、统计方法、装置、设备和存储介质 | |
US8239417B2 (en) | System, method, and computer program product for accessing and manipulating remote datasets | |
CN114090631A (zh) | 一种数据查询方法、装置、电子设备及存储介质 | |
CN116594982A (zh) | 一种基于规则引擎和Clickhouse的流量数仓建设方法 | |
CN111488344A (zh) | 基于业务数据区块链的用户操作数据上链方法及系统 | |
US9305066B2 (en) | System and method for remote data harmonization | |
US11989592B1 (en) | Workload coordinator for providing state credentials to processing tasks of a data processing pipeline | |
CN103095765B (zh) | 对等通信网络及其分发数据内容的方法、通信节点 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191015 Termination date: 20210125 |