CN116821246A - 一种基于大数据引擎计算的数据同步方法 - Google Patents

一种基于大数据引擎计算的数据同步方法 Download PDF

Info

Publication number
CN116821246A
CN116821246A CN202310850740.3A CN202310850740A CN116821246A CN 116821246 A CN116821246 A CN 116821246A CN 202310850740 A CN202310850740 A CN 202310850740A CN 116821246 A CN116821246 A CN 116821246A
Authority
CN
China
Prior art keywords
data
synchronization
node
uid
warehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310850740.3A
Other languages
English (en)
Inventor
全传晓
魏建华
章松杨
李方祥
孙奕为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shandong Digital Technology Group Co ltd
Original Assignee
Shenzhen Shandong Digital Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shandong Digital Technology Group Co ltd filed Critical Shenzhen Shandong Digital Technology Group Co ltd
Priority to CN202310850740.3A priority Critical patent/CN116821246A/zh
Publication of CN116821246A publication Critical patent/CN116821246A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于大数据引擎计算的数据同步方法,通过创建虚拟节点,作为控制节点的指定任务开始;通过创建数据同步节点,从源数据库中抽取待同步的数据并传输到大数据平台上并按照分区规则进行划分,从而保证目标数据仓库与源数据库中的数据完全一致;通过创建ODPS节点,对待同步的数据进行清洗、转换和格式化处理,使其适配目标数据仓库的存储格式和结构;通过创建数据同步节点,将预处理后的数据传输到目标数据仓库中并按照分区规则进行存储和归档。通过构建运维中心,保证目标数据仓库中的数据与源数据库中的数据完全一致。本方法数据处理速度快、容量大、效率高、准确性高、可扩展性好,能够满足当今大规模数据分析和应用的需求。

Description

一种基于大数据引擎计算的数据同步方法
技术领域
本发明涉及大数据技术领域,尤其涉及一种基于大数据引擎计算的数据同步方法。
背景技术
传统的数据同步方式主要包括基于ETL(Extract-Transform-Load)工具和手动编写脚本的方法,这些方法存在以下缺点和不足:处理数据量有限:传统的数据同步方式一般是单节点处理,处理速度慢,处理数据量有限。处理效率低下:传统的数据同步方式需要大量手动操作,需要人工干预和调整,耗时费力,效率低下。容易出错:传统的数据同步方式需要编写复杂的脚本进行数据转换和处理,容易出现错误,对数据准确性造成影响。难以扩展:传统的数据同步方式架构复杂、硬件成本高,难以扩展和升级,对系统性能和可用性带来影响。
发明内容
为克服现有技术中存在的不足,本发明提供一种基于大数据引擎计算的数据同步方法,通过高效稳定的数据采集、智能的数据分区、灵活可扩展的数据预处理、快速安全可靠的数据传输、实时可视化的数据同步监控,突破了传统数据同步方式的局限性,具有数据处理速度快、容量大、效率高、准确性高、可扩展性好等优点,能够满足当今大规模数据分析和应用的需求。
本发明解决上述技术问题的技术方案如下:
一种基于大数据引擎计算的数据同步方法,利用阿里云开放数据处理服务平台通过数据引擎进行数据同步并清洗脏数据,针对多维度的数据进行连表及处理,最终同步到用户需要的数据库中,包括:
S1创建虚拟节点,作为控制节点的指定任务开始,设置调度时间进行自动触发;
S2创建数据同步节点,采用基于时间戳的同步算法,利用dataworks大数据治理平台将mysql数据库中的数据同步到maxcompute中,将单节点的海量数量同步到分布式集群数据仓库;所述基于时间戳的同步算法,是指为每个数据源创建时间戳,并将其存储在云端对应的分区上;当数据发生变化时,将新的时间戳与其关联;数据源之间同步时,会比较它们各自的时间戳,并在此基础上进行同步;如果其中一个数据源的时间戳比另一个数据源的时间戳更近,则将前者的数据同步到后者;
通过上述高效、稳定的数据采集方式,能够从源数据库中抽取待同步的数据,并将其传输到大数据平台上;通过上述智能数据分区方式,能够根据数据特征和分析需求,将数据按照分区规则进行划分,以便于后续的并行计算和处理;通过上述自动化、高精度的数据校验和修正方式,能够保证目标数据仓库中的数据与源数据库中的数据完全一致,避免数据同步过程中出现的问题和异常情况。
S3在阿里云开放数据处理服务平台创建ODPS节点,针对同步过来的数据进行清洗加工处理,采用基于分布式同步算法,将数据处理任务分布到多台计算机上进行同步,将得到的规整数据存储在数据仓库的二级仓库,将加工好的数据存储在数据仓库的三级仓库;
所述基于分布式同步算法,其核心是归并思想加自定义排序,包括:
S3.1针对海量订单数据,将订单分区管理,按照完成时间进行归档操作,每天的订单存储在对应的天的分区里;S3.2将每条订单记录在同步的时候进行清洗,每条数据的格式为{uid,bill_no},其中uid为人员编号、bill_no为订单号;S3.3将当天的分区内的数据进行汇总,得到对应的{uid,List<bill_no>},存储到Map<uid,订单个数>中;
通过上述灵活、可扩展的数据预处理方式,能够对待同步的数据进行清洗、转换和格式化处理,使其能够适配目标数据仓库的存储格式和结构。
S3.4将不同的分区数据并行的两两组合进行合并处理,针对同一个uid,订单数量进行累加,得到新的Map<uid,订单个数>;
S3.5递归执行4步骤,得到最后的Map<uid,订单个数>;
S3.6根据订单个数排序,得到最终的人员成交订单排行榜汇总数据;
此方法可以快速地将不同业务维度下的数据,根据某一标准,快速地汇总出对应的排名数据,可以大大提高数据同步的速度,还可以利用集群的计算能力处理大量数据;通过上述灵活、可扩展的数据预处理方式,能够对待同步的数据进行清洗、转换和格式化处理,使其能够适配目标数据仓库的存储格式和结构;
S4创建数据同步节点,利用dataworks大数据治理平台将数仓中的数据同步到需要存储的存储空间;通过上述快速、安全、可靠的数据传输方式,能够将预处理后的数据传输到目标数据仓库中,并按照分区规则进行存储和归档。通过上述快速、安全、可靠的数据传输方式,能够将预处理后的数据传输到目标数据仓库中,并按照分区规则进行存储和归档。
S5构建运维中心,针对调度节点的跟踪与监控,及时掌握数据同步的执行结果及执行效率;通过上述自动化、高精度的数据校验和修正方式,能够保证目标数据仓库中的数据与源数据库中的数据完全一致,避免数据同步过程中出现的问题和异常情况。
进一步的,S2中所述创建数据同步节点,支持重跑策略及支持增量同步策略;所述重跑策略,指任务的幂等性,数据支持覆盖写,无论跑几次,数据的结果都保持一致;所述增量同步策略,指指根据业务创建的时间戳,每天同步获取新增的数据,保证同步的效率。
进一步的,S3.3中所述存储到Map<uid,订单个数>,包括以下步骤:
S3.3.1做插入操作时,首次初始化一定内存的容器,对于每个 hash值首次插入,做一个标识,标识为首次直接插入,无需进行循环操作,提高执行的效率;非首次插入时,直接进入 S3.3.2;S3.3.2如果已经初始化,则判断插入的数据的hash位置对应的节点是否为空,如果为空,则通过死循环操作进行插入,避免在插入的时候被其他请求完成插入;S3.3.3如果该节点不为空,再判断容器是否在扩容中,如果在扩容,则帮助其扩容;S3.3.4如果没有扩容,则进行最后一步,先加锁,然后找到hash值相同的那个节点,即hash冲突节点,循环判断这个节点上的链表,决定做覆盖操作还是插入操作;S3.3.5循环结束,插入完毕。
进一步的,S4中所述存储空间,包括:Object Storage Service对象存储,elaticserach分布式搜索引擎,redis远程字典服务,AnalyticDB MySQL云原生数据库。
本发明的有益效果是:
1.高效性,该方法采用大数据引擎计算,可以并行处理大量数据,实现高效的数据同步和传输,从而提高数据处理速度和效率。
2.精准性,该方法采用自动化的数据校验和修正方式,可以保证目标数据仓库中的数据与源数据库中的数据完全一致,避免数据同步过程中出现的问题和异常情况,从而提高数据同步的准确性。
3.灵活性,该方法采用智能的数据分区方式和灵活可扩展的数据预处理方式,可以根据具体业务需求进行扩展和定制,从而满足不同场景的数据同步需求。
4.实时性,该方法支持实时同步,并且可以实现增量更新,可以及时反映源数据库中的变化,满足实时性数据同步的需求。
5.可视化监控,该方法提供了实时、可视化的数据同步监控方式,可以及时发现和解决数据同步中出现的问题和异常情况,提高数据同步的效率和精度。
6.可扩展性,该方法采用大数据引擎计算,架构简单,硬件成本低,易于扩展和升级,对系统性能和可用性带来影响较小。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一种基于大数据引擎计算的数据同步方法流程图。
具体实施方式
以下将参照附图详细描述本发明的示例性实施例。应注意,以下的描述在本质上仅是解释性和示例性的,决不意在限制本发明及其应用或使用,除非另外特别说明,否则,在实施例阐述的组件和步骤的相对位置、数字表达式以及数值并不限制本发明的范围。另外,本领域技术人员已知的技术、方法和设备可能不被详细讨论,但在合适的情况下意在成为说明书的一部分。
Maxcompute:云原生大数据计算服务。
一级数仓:位于Maxcompute的数据存储第一层,逻辑划分,数据源层。
二级数仓:位于Maxcompute的数据存储第一层,逻辑划分,数据明细层。
三级数仓:位于Maxcompute的数据存储第一层,逻辑划分,数据汇总层
ODPS节点:一种编写SQL的脚本语言。
实施例1为本发明公开的一种基于大数据引擎计算的数据同步方法,如图1所示,利用阿里云开放数据处理服务平台通过数据引擎进行数据同步并清洗脏数据,针对多维度的数据进行连表及处理,最终同步到用户需要的数据库中;其特征在于,包括以下步骤:
S1创建虚拟节点,作为控制节点的指定任务开始,设置调度时间进行自动触发;
S2创建数据同步节点,采用基于时间戳的同步算法,利用dataworks大数据治理平台将mysql数据库中的数据同步到maxcompute中,将单节点的海量数量同步到分布式集群数据仓库;所述基于时间戳的同步算法,是指为每个数据源创建时间戳,并将其存储在云端对应的分区上;当数据发生变化时,将新的时间戳与其关联;数据源之间同步时,会比较它们各自的时间戳,并在此基础上进行同步;如果其中一个数据源的时间戳比另一个数据源的时间戳更近,则将前者的数据同步到后者;创建数据同步节点,支持重跑策略及支持增量同步策略。
S3在阿里云开放数据处理服务平台创建ODPS节点,针对同步过来的数据进行清洗加工处理,采用基于分布式同步算法,将数据处理任务分布到多台计算机上进行同步,将得到的规整数据存储在数据仓库的二级仓库,将加工好的数据存储在数据仓库的三级仓库;所述基于分布式同步算法,其核心是归并思想加自定义排序,包括:
S3.1针对海量订单数据,将订单分区管理,按照完成时间进行归档操作,每天的订单存储在对应的天的分区里;
S3.2将每条订单记录在同步的时候进行清洗,每条数据的格式为{uid,bill_no},其中uid为人员编号、bill_no为订单号;
S3.3将当天的分区内的数据进行汇总,得到对应的{uid,List<bill_no>},存储到Map<uid,订单个数>中,包括:
S3.3.1做插入操作时,首次初始化一定内存的容器,对于每个 hash值首次插入,做一个标识,标识为首次直接插入,无需进行循环操作,提高执行的效率;非首次插入时,直接进入 S3.3.2;
S3.3.2如果已经初始化,则判断插入的数据的hash位置对应的节点是否为空,如果为空,则通过死循环操作进行插入,避免在插入的时候被其他请求完成插入;
S3.3.3如果该节点不为空,再判断容器是否在扩容中,如果在扩容,则帮助其扩容;
S3.3.4如果没有扩容,则进行最后一步,先加锁,然后找到hash值相同的那个节点,即hash冲突节点,循环判断这个节点上的链表,决定做覆盖操作还是插入操作;
S3.3.5循环结束,插入完毕。
S3.4将不同的分区数据并行的两两组合进行合并处理,针对同一个uid,订单数量进行累加,得到新的Map<uid,订单个数>;
S3.5递归执行4步骤,得到最后的Map<uid,订单个数>;
S3.6根据订单个数排序,得到最终的人员成交订单排行榜汇总数据;
此方法可以快速地将不同业务维度下的数据,根据某一标准,快速地汇总出对应的排名数据,可以大大提高数据同步的速度,还可以利用集群的计算能力处理大量数据;
S4创建数据同步节点,利用dataworks大数据治理平台将数仓中的数据同步到需要存储的存储空间,本实施例选择Object Storage Service对象存储。
S5构建运维中心,针对调度节点的跟踪与监控,及时掌握数据同步的执行结果及执行效率。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于大数据引擎计算的数据同步方法,利用阿里云开放数据处理服务平台通过数据引擎进行数据同步并清洗脏数据,针对多维度的数据进行连表及处理,最终同步到用户需要的数据库中;其特征在于,包括以下步骤:
S1创建虚拟节点,作为控制节点的指定任务开始,设置调度时间进行自动触发;
S2创建数据同步节点,采用基于时间戳的同步算法,利用dataworks大数据治理平台将mysql数据库中的数据同步到maxcompute中,将单节点的海量数量同步到分布式集群数据仓库;所述基于时间戳的同步算法,是指为每个数据源创建时间戳,并将其存储在云端对应的分区上;当数据发生变化时,将新的时间戳与其关联;数据源之间同步时,会比较它们各自的时间戳,并在此基础上进行同步;如果其中一个数据源的时间戳比另一个数据源的时间戳更近,则将前者的数据同步到后者;
S3在阿里云开放数据处理服务平台创建ODPS节点,针对同步过来的数据进行清洗加工处理,采用基于分布式同步算法,将数据处理任务分布到多台计算机上进行同步,将得到的规整数据存储在数据仓库的二级仓库,将加工好的数据存储在数据仓库的三级仓库;
所述基于分布式同步算法,其核心是归并思想加自定义排序,包括:
S3.1针对海量订单数据,将订单分区管理,按照完成时间进行归档操作,每天的订单存储在对应的天的分区里;
S3.2将每条订单记录在同步的时候进行清洗,每条数据的格式为{uid,bill_no},其中uid为人员编号、bill_no为订单号;
S3.3将当天的分区内的数据进行汇总,得到对应的{uid,List<bill_no>},存储到Map<uid,订单个数>中;
S3.4将不同的分区数据并行的两两组合进行合并处理,针对同一个uid,订单数量进行累加,得到新的Map<uid,订单个数>;
S3.5递归执行4步骤,得到最后的Map<uid,订单个数>;
S3.6根据订单个数排序,得到最终的人员成交订单排行榜汇总数据;
此方法可以快速地将不同业务维度下的数据,根据某一标准,快速地汇总出对应的排名数据,可以大大提高数据同步的速度,还可以利用集群的计算能力处理大量数据;
S4创建数据同步节点,利用dataworks大数据治理平台将数仓中的数据同步到需要存储的存储空间;
S5构建运维中心,针对调度节点的跟踪与监控,及时掌握数据同步的执行结果及执行效率。
2.根据权利要求1所述的一种基于大数据引擎计算的数据同步方法,其特征在于:S2中所述创建数据同步节点,支持重跑策略及支持增量同步策略;
所述重跑策略,指任务的幂等性,数据支持覆盖写,无论跑几次,数据的结果都保持一致;
所述增量同步策略,指指根据业务创建的时间戳,每天同步获取新增的数据,保证同步的效率。
3.根据权利要求1所述的一种基于大数据引擎计算的数据同步方法,其特征在于:S3.3中所述存储到Map<uid,订单个数>,包括以下步骤:
S3.3.1做插入操作时,首次初始化一定内存的容器,对于每个 hash值首次插入,做一个标识,标识为首次直接插入,无需进行循环操作,提高执行的效率;非首次插入时,直接进入S3.3.2;
S3.3.2如果已经初始化,则判断插入的数据的hash位置对应的节点是否为空,如果为空,则通过死循环操作进行插入,避免在插入的时候被其他请求完成插入;
S3.3.3如果该节点不为空,再判断容器是否在扩容中,如果在扩容,则帮助其扩容;
S3.3.4如果没有扩容,则进行最后一步,先加锁,然后找到hash值相同的那个节点,即hash冲突节点,循环判断这个节点上的链表,决定做覆盖操作还是插入操作;
S3.3.5循环结束,插入完毕。
4.根据权利要求1所述的一种基于大数据引擎计算的数据同步方法,其特征在于:S4中所述存储空间,包括:Object Storage Service对象存储,elaticserach分布式搜索引擎,redis远程字典服务,AnalyticDB MySQL云原生数据库。
CN202310850740.3A 2023-07-12 2023-07-12 一种基于大数据引擎计算的数据同步方法 Pending CN116821246A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310850740.3A CN116821246A (zh) 2023-07-12 2023-07-12 一种基于大数据引擎计算的数据同步方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310850740.3A CN116821246A (zh) 2023-07-12 2023-07-12 一种基于大数据引擎计算的数据同步方法

Publications (1)

Publication Number Publication Date
CN116821246A true CN116821246A (zh) 2023-09-29

Family

ID=88120197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310850740.3A Pending CN116821246A (zh) 2023-07-12 2023-07-12 一种基于大数据引擎计算的数据同步方法

Country Status (1)

Country Link
CN (1) CN116821246A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110191361A1 (en) * 2010-01-30 2011-08-04 International Business Machines Corporation System and method for building a cloud aware massive data analytics solution background
CN107633025A (zh) * 2017-08-30 2018-01-26 苏州朗动网络科技有限公司 大数据业务处理系统及方法
CN113094154A (zh) * 2021-04-01 2021-07-09 国电南瑞科技股份有限公司 一种基于阿里云的大数据处理方法及系统
CN116308109A (zh) * 2022-12-30 2023-06-23 数字郑州科技有限公司 一种基于大数据的企业政策智能推荐及政策制定系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110191361A1 (en) * 2010-01-30 2011-08-04 International Business Machines Corporation System and method for building a cloud aware massive data analytics solution background
CN107633025A (zh) * 2017-08-30 2018-01-26 苏州朗动网络科技有限公司 大数据业务处理系统及方法
CN113094154A (zh) * 2021-04-01 2021-07-09 国电南瑞科技股份有限公司 一种基于阿里云的大数据处理方法及系统
CN116308109A (zh) * 2022-12-30 2023-06-23 数字郑州科技有限公司 一种基于大数据的企业政策智能推荐及政策制定系统

Similar Documents

Publication Publication Date Title
CN107038162B (zh) 基于数据库日志的实时数据查询方法和系统
US9645736B2 (en) Processing time series data from multiple sensors
CN103617176B (zh) 一种实现多源异构数据资源自动同步的方法
CN107766575B (zh) 读写分离的数据库访问方法及装置
CN104899295B (zh) 一种异构数据源数据关联分析方法
CN104599032A (zh) 一种面向资源管理的分布式内存电网构建方法及系统
CN111324610A (zh) 一种数据同步的方法及装置
CN104111996A (zh) 基于hadoop平台的医保门诊大数据抽取系统及方法
CN112286941B (zh) 一种基于Binlog+HBase+Hive的大数据同步方法和装置
CN111651519B (zh) 数据同步方法、数据同步装置、电子设备及存储介质
CN105279285B (zh) 一种关系型数据库与非关系型数据库的同步系统及方法
CN102750356A (zh) 一种键值库辅助索引的构建与管理方法
CN103970902A (zh) 一种大量数据情况下的可靠即时检索方法及系统
CN111460024A (zh) 基于Elasticsearch的实时业务系统
CN103514274A (zh) 非关系型数据库HBase的数据迁移方法
CN104572856A (zh) 一种服务起源数据的融合存储方法
CN109376196A (zh) 一种redo日志批量同步方法及装置
CN112328702B (zh) 数据同步方法及系统
CN114691704A (zh) 一种基于MySQL binlog的元数据同步方法
CN106780157B (zh) 基于Ceph的电网多时态模型存储与管理系统及方法
CN114416868B (zh) 一种数据同步方法、装置、设备及存储介质
Wang et al. Apache IoTDB: A time series database for IoT applications
CN109657000B (zh) 一种轨道交通综合监控系统的实时数据同步方法及装置
CN110704442A (zh) 一种大数据的实时获取方法及装置
CN116821246A (zh) 一种基于大数据引擎计算的数据同步方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination