CN111723160B - 一种多源异构增量数据同步方法及系统 - Google Patents
一种多源异构增量数据同步方法及系统 Download PDFInfo
- Publication number
- CN111723160B CN111723160B CN202010857876.3A CN202010857876A CN111723160B CN 111723160 B CN111723160 B CN 111723160B CN 202010857876 A CN202010857876 A CN 202010857876A CN 111723160 B CN111723160 B CN 111723160B
- Authority
- CN
- China
- Prior art keywords
- data
- source
- incremental
- source end
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000005540 biological transmission Effects 0.000 claims abstract description 91
- 238000003860 storage Methods 0.000 claims abstract description 65
- 238000012545 processing Methods 0.000 claims abstract description 32
- 230000001360 synchronised effect Effects 0.000 claims description 37
- 238000007726 management method Methods 0.000 claims description 32
- 238000012544 monitoring process Methods 0.000 claims description 30
- 230000000007 visual effect Effects 0.000 claims description 20
- 238000012423 maintenance Methods 0.000 claims description 13
- 238000013506 data mapping Methods 0.000 claims description 11
- 238000012986 modification Methods 0.000 claims description 8
- 230000004048 modification Effects 0.000 claims description 8
- 230000010076 replication Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000003139 buffering effect Effects 0.000 claims description 4
- 238000007792 addition Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 230000004907 flux Effects 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 238000010223 real-time analysis Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000014759 maintenance of location Effects 0.000 description 3
- 230000002085 persistent effect Effects 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000002688 persistence Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/546—Message passing systems or structures, e.g. queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/54—Indexing scheme relating to G06F9/54
- G06F2209/548—Queue
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种多源异构增量数据同步方法及系统,方法包括:获取至少一个源端的增量流式数据;将获取的每一个源端的增量流式数据同步在分布式消息队列Kafka中以缓存;对所述分布式消息队列Kafka中的各增量流式数据按照存储策略进行逻辑处理,将处理后的增量流式数据存储到目标数据源中,其中,存储策略为预先在数据传输服务单元中配置的用于对增量流式数据进行存储的信息。上述方法可实现将关系库中的增量流式数据实时同步到分布式存储中,并实现了高扩展性和高可靠性、持久性。
Description
技术领域
本发明涉及数据处理技术,尤其涉及一种多源异构增量数据同步方法及系统。
背景技术
随着电网行业信息化建设发展,很多信息化系统已积累了大量的营销业务、用电信息、客户服务等各类海量数据,传统的关系型数据库在存储、计算、创新应用等方面限制突出,为提升电力大数据分析应用的基础支撑能力,搭建分布式存储与计算平台是必须的,那么就需要将业务信息化系统数据同步到分布式存储。
在业务系统种类非常多,底层数据存储多源异构的存储现状下,离线批量数据同步有着网络和磁盘IO耗费大、源库无增量标识下全量同步压力大耗时高、离线数据同步采用周期调度无法满足业务侧实时分析等痛点。也就是说,如何将关系库(如oracle、mysql)中数据增量、准实时同步至分布式存储(如hdfs、hive、kudu、其他olap存储),并实现扩展特性成为当前需要亟需解决的问题。
发明内容
鉴于现有技术的上述缺点、不足,本发明提供一种多源异构增量数据同步方法及系统,实现将关系库中的数据增量实时同步到分布式存储中,并实现扩展和高可用。
为了达到上述目的,本发明采用的主要技术方案包括:
第一方面,本发明实施例提供一种多源异构增量数据同步方法,包括:
获取至少一个源端的增量流式数据;
将获取的每一个源端的增量流式数据同步在分布式消息队列Kafka中以缓存;
对所述分布式消息队列Kafka中的各增量流式数据按照存储策略进行逻辑处理,将处理后的增量流式数据同步写入到目标数据源中;
在任一目标数据源中写入数据之后将所述写入数据的数据偏移量发送至数据传输服务单元中存储,使所述分布式消息队列Kafka实时读取存储单元预设时间内存储的数据偏移量,根据所述数据偏移量更新所述分布式消息队列Kafka中缓存的增量流式数据;
其中,存储策略为预先在数据传输服务单元中配置的用于对增量流式数据进行存储的信息。
可选地,获取至少一个源端的增量流式数据,包括:
针对每一个源端,查看源端的数据格式是否为JSON半结构化数据格式;
若是,则采用源端数据对应的数据复制工具对源端的数据库中的数据进行解析,获取该源端的增量流式数据;
否则,将采用源端数据对应的数据复制工具对源端的数据库中的数据进行解析,获取该源端的增量流式数据,并调用格式转换工具对获取的增量流式数据的格式转换为JSON半结构化数据格式。
可选地,在获取至少一个源端的增量流式数据之前,所述方法包括:
配置源端数据对应的数据复制工具;
配置数据复制工具的对应处理的数据格式为JSON半结构化数据格式;
配置用于数据传输服务的传输通道、传输通道对应的源端数据和目标端数据,且在该传输通道中配置用于Kafka队列的数据映射表,该数据映射表用于将源端增量流式数据写入目标数据源中。
可选地,所述目标数据源支持的存储介质包括下述的一种或多种:
Gbase数据库、Kudu数据库、Hive数据库、Hdfs分布式数据库、OLAP数据库;
可选地,源端为Oracle时,源端对应的数据复制工具为ogg;
源端为MySQL时,源端对应的数据复制工具为Canal。
可选地,JSON半结构化数据格式的属性包括下述的一种或多种:表名、操作类型、操作时间、当前时间、主键、操作后数据、操作前数据;
或者,
JSON半结构化数据格式的属性包括下述的一种或多种:表名、操作类型、操作时间、当前时间、主键、操作后数据、操作前数据;
所述操作类型包括:新增、修改和/或删除。
可选地,所述方法还包括:
根据用户输入的查看指令,向用户展示当前同步任务/同步作业的可视化图表,所述可视化图表可包括:资源占用信息、每一任务/作业的运行状态、错误次数;
和/或,接收用户输入的操作指令,对该操作指令对应的同步任务/作业进行相应处理;
和/或,接收用户输入的配置指令,对每一任何/作业进行配置操作;
和/或,接收用户输入的查看某一指定任务的可视化指令,向用户展示运行时长、接入总量、失败批次数、入库效率中的至少一个或多个指标信息。
第二方面,本发明实施例还提供一种多源异构增量数据同步系统,包括:
增量流式数据获取单元,用于获取至少一个源端的增量流式数据;
缓存单元,用于将增量流式数据获取单元获取的增量流式数据同步在分布式消息队列Kafka中以缓存;
数据传输服务单元,用于对所述分布式消息队列Kafka中的各增量流式数据按照存储策略进行逻辑处理,将处理后的增量流式数据同步写入到目标数据源中;
用于存储数据偏移量offset的存储单元,用于在任一目标数据源中写入数据之后将所述写入数据的数据偏移量发送至数据传输服务单元中存储,使所述分布式消息队列Kafka实时读取存储单元预设时间内存储的数据偏移量,根据所述数据偏移量更新所述分布式消息队列Kafka中缓存的增量流式数据;
其中,存储策略为预先在数据传输服务单元中配置的用于对增量流式数据进行存储的信息。
可选地,数据传输服务单元包括:
作业管理子单元,用于为待进行数据同步的作业进行任务的维护与管理操作,或者为正在进行数据同步的作业进行任务的维护与管理操作;
作业监控子单元,用于为正在进行或已完成的数据同步的作业展示实时的传输指标信息或已完成的传输指标信息;
任务概括子单元,用于展示数据传输服务单元中所有的任务信息;
调度与监控服务子单元,用于根据作业管理子单元、作业监控子单元或任务概括子单元的指令信息,与Flume集群交互,获取指令信息对应的传输信息,或者将用户在作业管理子单元中的维护与管理操作的指令信息通过调度服务提交到Flume集群;
Flume集群,包括多个进行逻辑处理的节点,Flume集群用于将分布式消息队列Kafka中缓存的任务通过轮询策略选择匹配的节点,以使节点对轮询的任务进行逻辑处理,以将处理后的增量流式数据同步写入到目标数据源中;
其中,所述Flume集群属于数据传输服务单元的底层,作业管理子单元、作业监控子单元和任务概括子单元均属于数据传输服务单元的应用层,所述调度监控服务子单元连接所述应用层和底层。
在本发明实施例中,利用分布式消息队列Kafka临时缓存其他来源的增量流式数据,通过分布式采集组件Flume将流式数据微批量同步目标存储,为业务系统增量数据准实时同步电网大数据分布式存储、以及后续交互式分析、实时分析处理提供了基础条件。
本发明的方法为其他电力系统的跨平台增量流式数据准实时同步提供了技术依据,实时同步监控手段的应用,可为今后实时数据同步性能、数据完整性提供借鉴。进一步地,本发明的方法描述了建立多源异构增量数据准实时同步应用的过程,可以实现对各种源端的增量数据进行同步。
附图说明
图1为本发明一实施例提供的多源异构增量数据同步方法的流程示意图;
图2为本发明另一实施例提供的多源异构增量数据同步方法的流程图;
图3为本发明一实施例提供的多源异构增量数据同步系统的结构示意图;
图4为数据传输服务单元底层中数据传输的示意图;
图5为基于数据传输服务单元的作业维护子单元的可视化界面的示意图;
图6为基于数据传输服务单元的作业管理子单元的可视化界面的示意图;
图7为本发明一实施例提供的进行传输通道配置的可视化界面的示意图。
具体实施方式
为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更清楚、透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
实施例一
如图1所示,本发明实施例提供一种多源异构增量数据同步方法,该方法可包括下述的步骤。
S1、获取至少一个源端的增量流式数据。
在实际应用中,该步骤还可以是获取源端的增量数据。本实施例的方法实现的是增量数据的同步方法。
该步骤可包括下述的子步骤:
针对每一个源端,查看源端的数据格式是否为JSON半结构化数据格式;
若是,则采用源端数据对应的数据复制工具对源端的数据库中的数据进行解析,获取该源端的增量流式数据;
否则,将采用源端数据对应的数据复制工具对源端的数据库中的数据进行解析,获取该源端的增量流式数据,并调用格式转换工具对获取的增量流式数据的格式转换为JSON半结构化数据格式。
在本实施例中,JSON半结构化数据格式的属性包括下述的一种或多种:表名、操作类型、操作时间、当前时间、主键、操作后数据、操作前数据;所述操作类型包括:新增、修改和/或删除等。
S2、将获取的每一个源端的增量流式数据同步在分布式消息队列Kafka(卡夫卡)中以缓存。
S3、对所述分布式消息队列Kafka中的各增量流式数据按照存储策略进行逻辑处理,将处理后的增量流式数据同步写入到目标数据源中。
S4、在任一目标数据源中写入数据之后将所述写入数据的数据偏移量发送至数据传输服务单元中存储,使所述分布式消息队列Kafka实时读取存储单元预设时间内存储的数据偏移量,根据所述数据偏移量更新所述分布式消息队列Kafka中缓存的增量流式数据;
在任一目标数据源中写入数据之后将写入数据的数据偏移量发送所述数据传输服务单元中存储,以使分布式消息队列Kafka实时读取所述存储单元预设时间内存储的数据偏移量,以更新分布式消息队列中缓存的增量流式数据,即可实现偏移量offset跟数据同时持久化。
通常,offset表来记录提交的offset,实时数据传输服务采用的是高并发随机读写的K-V数据库Hbase来记录。
目标数据源中的Hbase、Kudu数据库可在写入目标端发生错误时,调用重写实时数据传输服务的事务回滚,并将批量模式转为逐条输入模式,进而使脏数据做额外处理。
结合上述的方法,以kudu(卡都)同步作业配置进行说明,基于ogg(Oracle GoldenGate)数据复制oracle(甲骨文)数据至Kafka,通过数据传输服务单元读取Kafka消息数据进而将该读取的数据写入Kudu数据库中。
本实施例中目标数据源支持的存储介质可包括下述的一种或多种:
Gbase数据库、Kudu数据库、Hive数据库、Hdfs分布式数据库、OLAP数据库。
需要说明的是,在本实施例中,存储策略可为预先在数据传输服务单元中配置的用于对增量流式数据进行存储的信息,逻辑处理可为依据预先配置的存储策略中的映射表进行逻辑处理。
在实际应用中,在执行步骤S1之前,本实施例的方法还可包括下述的图中未示出的步骤S0:
S0、配置源端数据对应的数据复制工具;配置数据复制工具的对应处理的数据格式为JSON半结构化数据格式;以及
配置用于数据传输服务的传输通道、传输通道对应的源端数据和目标端数据,且在该传输通道中配置用于Kafka队列的数据映射表,该数据映射表用于将源端增量流式数据写入目标数据源中。
在另一可选的实现方式中,所述方法在上述步骤S3之后,还可包括下述的图中未示出的步骤S5:
S5、根据用户输入的查看指令,向用户展示当前同步任务/同步作业的可视化图表,所述可视化图表可包括:资源占用信息、每一任务/作业的运行状态、错误次数;
和/或,接收用户输入的操作指令,对该操作指令对应的同步任务/作业进行相应处理;
和/或,接收用户输入的配置指令,对每一任何/作业进行配置操作;
和/或,接收用户输入的查看某一指定任务的可视化指令,向用户展示运行时长、接入总量、失败批次数、入库效率中的至少一个或多个指标信息。
在本实施例中,利用分布式消息队列Kafka临时缓存其他来源的增量流式数据,通过分布式采集组件Flume将流式数据微批量同步目标存储,为业务系统增量数据准实时同步电网大数据分布式存储,以及后续交互式分析、实时分析处理提供了基础条件。
实施例二
如图2所示,本发明实施例提供一种多源异构增量数据同步方法的流程图,本实施例的方法可包括以下步骤:
步骤(1):配置获取源端数据变更的数据复制中间件和在数据传输服务单元中配置待同步的增量数据的信息。
首先,针对不同的关系型存储,选择对应的数据复制中间件,准实时获取源端数据库中的增量数据例如增量变更数据并发到下游。
在本实施例中,依据源端不同的数据存储类型,选择对应的数据复制工具。如图2中的Oracle的源端数据库,会选择Oracle Golden Gate(简称ogg)的数据复制中间件,实现Oracle数据库增量数据实时同步到Kafka中。
如图2中的MysQL的源端数据库,会选择开源中间件Canal(即数据复制中间件),基于MysQL数据库增量日志解析,实现MysQL数据库增量数据实时同步到Kafka中。
需要说明的是,在本实施例中,遵循的数据传输格式处理任何一个源端数据。
在本实施例中,整体采用JSON半结构化数据格式,该数据格式的属性可包含表名(table)、操作类型(op_type)、操作时间(op_ts)、当前时间(current_ts)、主键(primary_keys)、操作后数据(after)、操作前数据(before)。
其中,操作类型可包括:新增(I)、修改(U)和删除(D),主键使用数组类型可以支持多个联合主键描述。
步骤(2):使用分布式消息队列Kafka临时缓存源端的增量变更数据;
即,分布式消息队列Kafka作为步骤(1)数据发送的下游存储。
在本实施例中,使用分布式消息队列Kakfa作为临时缓存步骤(1)下发的JSON数据,可为数据流量削峰、数据处理解耦、一次写入多次订阅等提供支撑能力。
分布式消息队列Kakfa具备吞吐量高、持久化数据存储、分布式系统易于扩展等特点。
步骤(3):订阅分布式消息队列Kafka中数据,进行一定逻辑处理并提交目标存储的写入请求。
针对分布式消息队列中的每一队列中的每一数据均可为一个同步任务。在本实施例中,数据传输服务中的任务概况可以实现可视化展示所有数据同步任务的执行概况、执行时长排行;
作业管理可提供可视化及脚本维护的方式,进行数据同步作业任务的维护与管理,并提供可视化的web界面功能,用户可以配置数据同步任务,以及按钮触发执行。
作业监控用于提供可视化方式展示数据同步过程中的实时与历史指标,包括运行时长、接入总量、失败批次数、入库效率等指标。也就是说,对用户配置的同步作业,提供了监控的功能,可以查看同步作业的监控指标。
调度和监控服务是应用web程序的后台服务,前台用户配置的作业任务通过调度服务提交到Flume集群执行;监控服务定时收集运行作业的指标信息,支撑作业监控内容的展示。
此外,Flume集群中的各节点用于对数据进行同步写入处理,其通过多个节点,如Node1(节点1)、Node2(节点2)、Node3(节点3)实现对配置的多个作业进行数据同步处理,保证数据处理的高可靠性,同时具有可扩展性。
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。
步骤(4):作为目标存储,接收步骤(3)写入请求并处理。
在步骤(4)中,当前支持的存储有南大通用的分析型数据库(Gbase)、Hadoop体系的分析型存储(Kudu、Hive、Hdfs),用以接收步骤(3)写入请求并处理;借助于上述步骤(3)中的数据传输服务可有效提供交互式分析、实时分析的支撑能力,满足海量数据实时分析场景需求。
结合上述实施例一所描述的Kudu同步作业配置的内容,以下对上述步骤(1)进行举例说明:其对应上述步骤(1)。
第一、针对oracle开启归档日志,ogg配置,例如可配置JSON半结构化数据格式,特别需要说明的是,需要配置主键信息。
在ogg配置完成后,检查Kafka消息队列中是否有数据,根据数据接入范围,目标端Kudu建库、用户以及相关表结构。
此外,登录数据传输服务单元,触发作业管理子单元,在可视化界面中新增传输通道,并在传输通道中配置数据映射表,通常一个通道配置一张表。当然,在数据需要初始化的时候,可以选择数据回放时间进行增量数据回放。
若需要选择传输通道的高级配置,则可添加函数表达式。
在配置完成后,检查配置的是否可以正常启动,若可以正常启动,则确定配置完成。
第二、核查Kudu相关表是否已有数据入库,此时可在任务概括子单元中在SQL计算任务中进行新增,以便后续可以核查Kudu相关表记录与源业务系统相关表记录数,ogg复制进程中相关表的记录数进行比对。
本实施例的方法将Kafka消息队列的数据实时、可靠、高效同步至数据库中,目标数据源支持Gbase、Kudu、Hiver等存储介质,构建高性能、可扩展、高可用的实时数据传输通道。进而,可以其他电力系统的跨平台流式数据准实时同步提供了技术依据,实时同步监控手段的应用,可为今后实时数据同步性能、数据完成性提供借鉴;为业务系统增量数据准实时同步电网大数据分布式存储,以及后续交互式分析、实时分析处理提供了基础条件。
如图3所示,图3示出了本发明一实施例提供的多源异构增量数据同步系统的结构示意图;在本实施例中,多源异构增量数据同步系统可包括:
增量流式数据获取单元,用于获取至少一个源端的增量流式数据;
缓存单元,用于将增量流式数据获取单元获取的增量流式数据同步在分布式消息队列Kafka中以缓存;
数据传输服务单元,用于对所述分布式消息队列Kafka中的各增量流式数据按照存储策略进行逻辑处理,将处理后的增量流式数据同步写入到目标数据源中;
偏移量存储单元,如Hbase数据库,所述偏移量存储单元用于连接目标数据源和分布式消息队列Kafka,在任一目标数据源中写入数据之后将所述写入数据的数据偏移量发送至数据传输服务单元中存储,使所述分布式消息队列Kafka实时读取存储单元预设时间内存储的数据偏移量,根据所述数据偏移量更新所述分布式消息队列Kafka中缓存的增量流式数据。
在图4中,分布式消息队列Kafka缓存的数据经由Flume集群的各节点根据预先配置的存储策略进行通道选择,选择合适的子通道进而将流式数据写入目标数据源中。特别地,预先配置的存储策略中可有特殊配置时,通过拦截器进行特殊配置处理,再由Flume集群的各节点根据预先配置的存储策略进行通道选择。
此外,在图4中的分步式H-V数据库可存储偏移量offset,以使分布式消息队列Kafka实时更新,实现了offset持久化的断点续传机制、通道channel反压机制,解决作业/组件服务异常、目标端写入较慢等不稳定问题。
本实施例中的数据传输服务单元可具有链路稳定性、数据看可靠性、且支持历史数据迁移时增量数据回放、保证数据一致性,同时,支持一收多发,kafka消息队列数据同时同步到多种数据库中,以及支持节点的故障容灾,可实现链路的快速恢复即秒级恢复。
在图4中偏移量offset跟数据可同时持久化,如使用一张offset表来记录提交的offset,实时数据传输服务可采用高并发随机读写的K-V数据库Hbase来记录。
其中,存储策略为预先在数据传输服务单元中配置的用于对增量流式数据进行存储的信息。
在本实施例中,数据传输服务单元可包括:
作业管理子单元,用于为待进行数据同步的作业进行任务的维护与管理操作,或者为正在进行数据同步的作业进行任务的维护与管理操作;
作业监控子单元,用于为正在进行或已完成的数据同步的作业展示实时的传输指标信息或已完成的传输指标信息;
任务概括子单元,用于展示数据传输服务单元中所有的任务信息;
调度与监控服务子单元,用于根据作业管理子单元、作业监控子单元或任务概括子单元的指令信息,与Flume集群交互,获取指令信息对应的传输信息,或者将用户在作业管理子单元中的维护与管理操作的指令信息通过调度服务提交到Flume集群;
Flume集群,包括多个进行逻辑处理的节点,Flume集群用于将分布式消息队列Kafka中缓存的任务通过轮询策略选择匹配的节点,以使节点对轮询的任务进行逻辑处理,以将处理后的增量流式数据同步写入到目标数据源中;
其中,所述Flume集群属于数据传输服务单元的底层,作业管理子单元、作业监控子单元和任务概括子单元均属于数据传输服务单元的应用层,所述调度监控服务子单元连接所述应用层和底层。
结合图2所示的流程图,针对数据传输服务单元可用于将Kafka消息队列数据实时、可靠、高效同步到目标数据库中,以构建安全、扩展、高可用的数据架构。
在其他实施例中,目标数据源为Hbase、Kudu时 这些存储介质,可实现另一套事务机制,当写入目标端发生错误时,调用重写实时数据传输服务的事务回滚,并将批量模式转为逐条输入模式,脏数据做额外处理。
本实施例中的数据传输服务单元在数据同步过程中,可监控同步作业运行状态和入库的数据量,如图5和图6所示。例如,可以借助数据服务单元中作业监控子单元的状态指示标识即图表库查看某一作业同步时的运行状态和入库的数据量。
在一种可选的实现方式中,数据传输服务单元还包括作业管理子单元,当用户触发作业管理子单元后,可向用户展示可视化图表,以使用户清楚查看当前所有配置作业的运行状态,作业耗费资源情况,出错作业次数等全盘作业监控信息等。
该作业管理子单元,可用于提供同步任务的全生命周期管理功能,例如可以新增、修改、删除、启动、暂停、停止等任务操作,保证数据同步日常开发。
例如,用户在可视界面触发新增按钮,在弹出子界面中选择作业模式,并填写作业名称、源端数据源和目标端数据源的配置信息,进而触发下一步,实现新增作业。
在第二种可选的实现方式中,数据传输服务单元还包括作业维护子单元,当用户触发作业维护子单元后,可向用户展示用于进行传输通道配置的可视化界面,如图7所示,或者展示另一个传输通道配置的另一可视化界面。举例来说,在可视化界面配置时,可选择开启事务,记录数据的消费位点,实现数据强一致性,或者选择拦截处理类并填上函数表达式可实现字段转换、字符串截取、数据过滤等功能。
在第三种可选的实现方式中,数据传输服务单元还包括作业同步单元,该作业同步单元可为数据源间一对一单表映射,在本实施例中暂无提供多表映射,本实施例不对其限定,根据实际需要在作业同步单元中进行映射关系的配置。
在本实施例中,在同步作业配置完成之后,可以在作业启动前对该作业进行预检查,以验证配置或映射均无错误,在启动作业后,实时监听Kafka消息数据,将Kafka消息数据写入目标端数据库中。
在第四种可选的实现方式中,数据传输服务单元中的调度与监控服务子单元可为应用web程序的后台服务,前台用户配置的作业任务通过调度服务提交到Flume集群执行;监控服务定时收集运行作业的指标信息,支撑作业管理子单元中作业监控的展示。
此外,Flume集群对应的是开源的数据同步处理过程,其通过多个节点,如Node1、Node2、Node3实现对配置的多个作业进行数据同步处理。
为此,本实施例中的数据传输服务单元可具有下述的特性:
高可靠性:依赖消费偏移量offset持久化的断点续传机制、通道(channel)反压机制;解决作业/组件服务异常、目标端写入较慢等不稳定问题;
高扩展性:当接入的表数量增多时,对应的Kafka主题、分区增加时,可通过简单增加实时接入进程,以及扩充Flume集群中的Node节点来达到横向扩容;
数据一致性方案:实时数据传输服务采用的是高并发随机读写的K-V数据库Hbase来记录,其作为消费偏移量(offset)的持久化存储。只有当数据成功写入目标存储后,才提交消费偏移量持久化,如果同步任务异常中止则从上次提交的消费偏移量开始消费,保证数据不丢失。另外一类输出端,不具备多行事务性能力,类似像Hbase、Kudu,这些存储介质,需要另外实现一套事务机制,当写入目标端发生错误时,调用重写实时数据传输服务的事务回滚,并将批量模式转为逐条输入模式,脏数据做额外处理。
此外,本实施例中Flume集群的节点可以扩展,实现了分步式系统扩展的特点,也为数据流量削峰、数据处理解耦、一次写入多次订阅等提供支撑能力。进一步地,数据传输服务单元在接入的表数量增多时,对应的kafka主题、分区增加时,可通过简单增加实时接入进程,以及扩充flume node节点来达到横向扩容。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。
应当注意的是,在权利要求中,不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中,这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用,仅是为了表述方便,而不表示任何顺序。可将这些词语理解为部件名称的一部分。
此外,需要说明的是,在本说明书的描述中,术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管已描述了本发明的优选实施例,但本领域的技术人员在得知了基本创造性概念后,则可对这些实施例作出另外的变更和修改。所以,权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也应该包含这些修改和变型在内。
Claims (6)
1.一种多源异构增量数据同步方法,其特征在于,包括:
采用源端数据对应的数据复制工具获取至少一个源端的增量流式数据;包括:
针对每一个源端,查看源端的数据格式是否为JSON半结构化数据格式;
若是,则采用源端数据对应的数据复制工具对源端的数据库中的数据进行解析,获取该源端的增量流式数据;
否则,将采用源端数据对应的数据复制工具对源端的数据库中的数据进行解析,获取该源端的增量流式数据,并调用格式转换工具将获取的增量流式数据的格式转换为JSON半结构化数据格式;
将获取的每一个源端的增量流式数据在分布式消息队列Kafka中同步并缓存;
对所述分布式消息队列Kafka中的各增量流式数据按照存储策略进行逻辑处理,将处理后的增量流式数据同步写入到目标数据源中;
在任一目标数据源中写入数据之后将所述写入数据的数据偏移量发送至数据传输服务单元中存储,使所述分布式消息队列Kafka实时读取存储单元预设时间内存储的数据偏移量,根据所述数据偏移量更新所述分布式消息队列Kafka中缓存的增量流式数据;分步式消息队列Kafka中每一队列中的每一数据均为一个同步任务,数据传输服务中可视化展示所有同步任务的执行概况、执行时长和/或监控指标;
其中,存储策略为预先在所述数据传输服务单元中配置的用于对增量流式数据进行存储的信息;
在获取至少一个源端的增量流式数据之前,所述方法包括:
配置源端数据对应的数据复制工具;
配置数据复制工具处理的数据格式为JSON半结构化数据格式;
配置用于数据传输服务的传输通道、传输通道对应的源端数据和目标端数据,且在该传输通道中配置用于Kafka队列的数据映射表,该数据映射表用于将源端增量流式数据写入目标数据源中;
还包括:
根据用户输入的查看指令,向用户展示当前同步任务/同步作业的可视化图表,所述可视化图表包括:资源占用信息、每一任务/作业的运行状态、错误次数;
和/或,接收用户输入的操作指令,对该操作指令对应的同步任务/作业进行相应处理;
和/或,接收用户输入的配置指令,对每一任务/作业进行配置操作;
和/或,接收用户输入的查看某一指定任务的可视化指令,向用户展示运行时长、接入总量、失败批次数、入库效率中的至少一个或多个指标信息。
2.根据权利要求1所述的多源异构增量数据同步方法,其特征在于,所述目标数据源支持的存储介质包括下述的一种或多种:
Gbase数据库、Kudu数据库、Hive数据库、Hdfs分布式数据库、OLAP数据库。
3.根据权利要求1所述的多源异构增量数据同步方法,其特征在于:
源端为Oracle时,源端对应的数据复制工具为ogg;
源端为MySQL时,源端对应的数据复制工具为Canal。
4.根据权利要求1所述的多源异构增量数据同步方法,其特征在于,
JSON半结构化数据格式的属性包括下述的一种或多种:表名、操作类型、操作时间、当前时间、主键、操作后数据、操作前数据;
所述操作类型包括:新增、修改和/或删除。
5.一种多源异构增量数据同步系统,其特征在于,包括:
增量流式数据获取单元,用于配置源端数据对应的数据复制工具;配置数据复制工具处理的数据格式为JSON半结构化数据格式;包括:
针对每一个源端,查看源端的数据格式是否为JSON半结构化数据格式;
若是,则执行采用源端数据对应的数据复制工具对源端的数据库中的数据进行解析,获取该源端的增量流式数据;
否则,将采用源端数据对应的数据复制工具对源端的数据库中的数据进行解析,获取该源端的增量流式数据,并调用格式转换工具对获取的增量流式数据的格式转换为JSON半结构化数据格式;
配置用于数据传输服务的传输通道、传输通道对应的源端数据和目标端数据,且在该传输通道中配置用于Kafka队列的数据映射表,该数据映射表用于将源端增量流式数据写入目标数据源中,采用源端数据对应的数据复制工具获取至少一个源端的增量流式数据;
缓存单元,用于将增量流式数据获取单元获取的增量流式数据在分布式消息队列Kafka中同步并缓存;
数据传输服务单元,用于对所述分布式消息队列Kafka中的各增量流式数据按照存储策略进行逻辑处理,将处理后的增量流式数据同步写入到目标数据源中;
偏移量存储单元,用于在任一目标数据源中写入数据之后将所述写入数据的数据偏移量发送至数据传输服务单元中存储,使所述分布式消息队列Kafka实时读取存储单元预设时间内存储的数据偏移量,根据所述数据偏移量更新所述分布式消息队列Kafka中缓存的增量流式数据;分步式消息队列Kafka中每一队列中的每一数据均为一个同步任务,数据传输服务中可视化展示所有同步任务的执行概况、执行时长和/或监控指标;
其中,存储策略为预先在所述数据传输服务单元中配置的用于对增量流式数据进行存储的信息;
在获取至少一个源端的增量流式数据之前,所述同步系统包括:
配置源端数据对应的数据复制工具;
配置数据复制工具处理的数据格式为JSON半结构化数据格式;
配置用于数据传输服务的传输通道、传输通道对应的源端数据和目标端数据,且在该传输通道中配置用于Kafka队列的数据映射表,该数据映射表用于将源端增量流式数据写入目标数据源中;
还包括:
根据用户输入的查看指令,向用户展示当前同步任务/同步作业的可视化图表,所述可视化图表包括:资源占用信息、每一任务/作业的运行状态、错误次数;
和/或,接收用户输入的操作指令,对该操作指令对应的同步任务/作业进行相应处理;
和/或,接收用户输入的配置指令,对每一任务/作业进行配置操作;
和/或,接收用户输入的查看某一指定任务的可视化指令,向用户展示运行时长、接入总量、失败批次数、入库效率中的至少一个或多个指标信息。
6.根据权利要求5所述的多源异构增量数据同步系统,其特征在于,数据传输服务单元包括:
作业管理子单元,用于为待进行数据同步的作业进行任务的维护与管理操作,或者为正在进行数据同步的作业进行任务的维护与管理操作;
作业监控子单元,用于为正在进行或已完成的数据同步的作业展示实时的传输指标信息或已完成的传输指标信息;
任务概括子单元,用于展示数据传输服务单元中所有的任务信息;
调度与监控服务子单元,用于根据作业管理子单元、作业监控子单元或任务概括子单元的指令信息,与Flume集群交互,获取指令信息对应的传输信息,或者将用户在作业管理子单元中的维护与管理操作的指令信息通过调度服务提交到Flume集群;
Flume集群,包括多个进行逻辑处理的节点,Flume集群用于将分布式消息队列Kafka中缓存的任务通过轮询策略选择匹配的节点,以使节点对轮询的任务进行逻辑处理,以将处理后的增量流式数据同步写入到目标数据源中;
其中,所述Flume集群属于数据传输服务单元的底层,作业管理子单元、作业监控子单元和任务概括子单元均属于数据传输服务单元的应用层,所述调度与监控服务子单元连接所述应用层和底层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010857876.3A CN111723160B (zh) | 2020-08-24 | 2020-08-24 | 一种多源异构增量数据同步方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010857876.3A CN111723160B (zh) | 2020-08-24 | 2020-08-24 | 一种多源异构增量数据同步方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111723160A CN111723160A (zh) | 2020-09-29 |
CN111723160B true CN111723160B (zh) | 2021-03-23 |
Family
ID=72574175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010857876.3A Active CN111723160B (zh) | 2020-08-24 | 2020-08-24 | 一种多源异构增量数据同步方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111723160B (zh) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182087A (zh) * | 2020-09-30 | 2021-01-05 | 银盛支付服务股份有限公司 | 一种OGG同步实现Mongo多库连接方法及系统 |
CN112256796B (zh) * | 2020-10-26 | 2024-03-26 | 首都信息发展股份有限公司 | 异构数据实时同步系统及装置 |
CN112131262B (zh) * | 2020-10-29 | 2022-05-06 | 常州微亿智造科技有限公司 | 流式数据的处理系统和处理方法 |
CN112541036B (zh) * | 2020-11-24 | 2023-12-12 | 南方电网数字电网研究院有限公司 | 电网数据同步方法、系统、装置、计算机设备和存储介质 |
CN112486473B (zh) * | 2020-11-30 | 2022-09-13 | 中国电子科技集团公司第二十八研究所 | 基于Kafka和Redis的准实时目标航迹显示方法 |
CN112527879B (zh) * | 2020-12-15 | 2024-04-16 | 中国人寿保险股份有限公司 | 基于Kafka的实时数据抽取方法及相关设备 |
CN112699130A (zh) * | 2021-01-15 | 2021-04-23 | 广东电网有限责任公司广州供电局 | 电力数据处理方法、装置、计算机设备 |
CN112800073B (zh) * | 2021-01-27 | 2023-03-28 | 浪潮云信息技术股份公司 | 一种基于NiFi更新Delta Lake的方法 |
CN112800064B (zh) * | 2021-02-05 | 2023-06-02 | 成都延华西部健康医疗信息产业研究院有限公司 | 一种基于Confluent社区开源版的实时大数据应用开发方法及系统 |
CN112948342A (zh) * | 2021-02-25 | 2021-06-11 | 杭州沃趣科技股份有限公司 | 一种基于日志解析系统的数据处理方法 |
CN113051347B (zh) * | 2021-03-25 | 2024-03-29 | 未鲲(上海)科技服务有限公司 | 异构数据库之间数据同步方法、系统、设备及存储介质 |
CN113177091B (zh) * | 2021-05-19 | 2023-10-10 | 杭州华橙软件技术有限公司 | 增量数据的存储方法及装置、存储介质、电子装置 |
CN113297309B (zh) * | 2021-05-31 | 2023-11-10 | 平安证券股份有限公司 | 流数据写入方法、装置、设备及存储介质 |
CN113726840B (zh) * | 2021-06-18 | 2023-07-04 | 广东电网有限责任公司佛山供电局 | 一种调度一体化平台数据回流与增量同步的系统和方法 |
CN113362144B (zh) * | 2021-07-19 | 2023-05-05 | 贵州优特云科技有限公司 | 基于大数据的电商购物推荐方法及系统 |
CN113850662A (zh) * | 2021-08-13 | 2021-12-28 | 厦门国际银行股份有限公司 | 一种舆情预警处理系统及方法 |
CN113704213A (zh) * | 2021-08-20 | 2021-11-26 | 辽宁振兴银行股份有限公司 | 一种基于sqlldr2和ogg数据同步的实现方法 |
CN113656503A (zh) * | 2021-08-20 | 2021-11-16 | 北京健康之家科技有限公司 | 数据同步方法、装置、系统及计算机可读存储介质 |
CN113836224B (zh) * | 2021-09-07 | 2024-07-26 | 南方电网大数据服务有限公司 | Ogg到hdfs的同步文件处理方法、装置和计算机设备 |
CN113656511B (zh) * | 2021-10-20 | 2022-02-18 | 天津南大通用数据技术股份有限公司 | 一种基于源库不停机的异构数据库增量同步方法及系统 |
CN113961546B (zh) * | 2021-10-27 | 2024-03-22 | 国网江苏省电力有限公司营销服务中心 | 一种支持在线分析统计的实时查询库设计方法 |
CN114153620B (zh) * | 2022-02-08 | 2022-05-24 | 上海柯林布瑞信息技术有限公司 | Hudi运行环境资源优化分配方法及装置 |
CN114706867A (zh) * | 2022-03-25 | 2022-07-05 | 马上消费金融股份有限公司 | 数据同步方法、装置、电子设备及存储介质 |
CN114661823A (zh) * | 2022-04-01 | 2022-06-24 | 中国人民财产保险股份有限公司 | 数据同步的方法、装置、电子设备及可读存储介质 |
CN115098486A (zh) * | 2022-07-14 | 2022-09-23 | 广东嘉贸通科技有限公司 | 基于海关业务大数据的实时数据采集方法 |
CN114911862B (zh) * | 2022-07-18 | 2022-12-06 | 国网江苏省电力有限公司营销服务中心 | 一种网上国网运营链路大数据传输系统及方法 |
CN115422206A (zh) * | 2022-10-31 | 2022-12-02 | 四川互慧软件有限公司 | 一种数据库数据同步方法、系统、设备及存储介质 |
CN116319831A (zh) * | 2023-03-13 | 2023-06-23 | 上海博般数据技术有限公司 | 变电站集中监控系统与电网资源业务中台的数据同步方法 |
CN116860898B (zh) * | 2023-09-05 | 2024-04-23 | 建信金融科技有限责任公司 | 一种数据处理方法和装置 |
CN117076545A (zh) * | 2023-10-13 | 2023-11-17 | 中国电子科技集团公司第十五研究所 | 适用于军事行动大数据的数据处理方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108809855A (zh) * | 2018-05-24 | 2018-11-13 | 北京三快在线科技有限公司 | 消息管理方法、装置及电子设备 |
CN110737710A (zh) * | 2019-10-14 | 2020-01-31 | 神州数码融信软件有限公司 | 分布式数据自动结构化入库方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153828A (zh) * | 2017-12-12 | 2018-06-12 | 顺丰科技有限公司 | 一种实时数据的持久化方法、装置及设备、存储介质 |
CN108805741B (zh) * | 2018-04-23 | 2022-02-11 | 南方电网科学研究院有限责任公司 | 一种电能质量数据的融合方法、装置及系统 |
CN109542733B (zh) * | 2018-12-05 | 2020-05-01 | 焦点科技股份有限公司 | 一种高可靠的实时日志收集及可视化检索方法 |
-
2020
- 2020-08-24 CN CN202010857876.3A patent/CN111723160B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108809855A (zh) * | 2018-05-24 | 2018-11-13 | 北京三快在线科技有限公司 | 消息管理方法、装置及电子设备 |
CN110737710A (zh) * | 2019-10-14 | 2020-01-31 | 神州数码融信软件有限公司 | 分布式数据自动结构化入库方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111723160A (zh) | 2020-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111723160B (zh) | 一种多源异构增量数据同步方法及系统 | |
CN109918349B (zh) | 日志处理方法、装置、存储介质和电子装置 | |
WO2019154394A1 (zh) | 分布式数据库集群系统、数据同步方法及存储介质 | |
US9130971B2 (en) | Site-based search affinity | |
US8285686B2 (en) | Executing prioritized replication requests for objects in a distributed storage system | |
US9124612B2 (en) | Multi-site clustering | |
US20170357703A1 (en) | Dynamic partitioning techniques for data streams | |
CN107209704A (zh) | 检测丢失的写入 | |
US11397749B2 (en) | Asynchronous replication of in-scope table data | |
US7415467B2 (en) | Database replication system | |
CN110245134B (zh) | 一种应用于搜索服务的增量同步方法 | |
CN113438275B (zh) | 数据迁移方法、装置、存储介质及数据迁移设备 | |
JP2012003394A (ja) | データ処理の障害回復方法、システムおよびプログラム | |
US11841845B2 (en) | Data consistency mechanism for hybrid data processing | |
CN114153809A (zh) | 基于数据库日志并行实时增量统计的方法 | |
US20220318265A1 (en) | System And Method For Switching From Consistent Database To An Eventual Consistent Database Replica In Real Time While Preventing Reads Of Past Versions Of The Data | |
US11042454B1 (en) | Restoration of a data source | |
CN113076298A (zh) | 分布式小文件存储系统 | |
US10348596B1 (en) | Data integrity monitoring for a usage analysis system | |
Pereira et al. | Mediator framework for inserting xDRs into Hadoop | |
Soloviev et al. | New persistent back-end for the ATLAS online information service | |
Kona | Compactions in apache cassandra: Performance analysis of compaction strategies in apache cassandra | |
CN118377768A (zh) | 一种基于业务流的数据etl方法、装置、设备及介质 | |
CN118394266A (zh) | 基于分布式存储系统的数据调度方法和装置、存储介质及电子设备 | |
CN114048190A (zh) | 一种数据迁移方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |