CN116821246A

CN116821246A - 一种基于大数据引擎计算的数据同步方法

Info

Publication number: CN116821246A
Application number: CN202310850740.3A
Authority: CN
Inventors: 全传晓; 魏建华; 章松杨; 李方祥; 孙奕为
Original assignee: Shenzhen Shandong Digital Technology Group Co ltd
Current assignee: Shenzhen Shandong Digital Technology Group Co ltd
Priority date: 2023-07-12
Filing date: 2023-07-12
Publication date: 2023-09-29

Abstract

本发明涉及一种基于大数据引擎计算的数据同步方法，通过创建虚拟节点，作为控制节点的指定任务开始；通过创建数据同步节点，从源数据库中抽取待同步的数据并传输到大数据平台上并按照分区规则进行划分，从而保证目标数据仓库与源数据库中的数据完全一致；通过创建ODPS节点，对待同步的数据进行清洗、转换和格式化处理，使其适配目标数据仓库的存储格式和结构；通过创建数据同步节点，将预处理后的数据传输到目标数据仓库中并按照分区规则进行存储和归档。通过构建运维中心，保证目标数据仓库中的数据与源数据库中的数据完全一致。本方法数据处理速度快、容量大、效率高、准确性高、可扩展性好，能够满足当今大规模数据分析和应用的需求。

Description

一种基于大数据引擎计算的数据同步方法

技术领域

本发明涉及大数据技术领域，尤其涉及一种基于大数据引擎计算的数据同步方法。

背景技术

传统的数据同步方式主要包括基于ETL（Extract-Transform-Load）工具和手动编写脚本的方法，这些方法存在以下缺点和不足：处理数据量有限：传统的数据同步方式一般是单节点处理，处理速度慢，处理数据量有限。处理效率低下：传统的数据同步方式需要大量手动操作，需要人工干预和调整，耗时费力，效率低下。容易出错：传统的数据同步方式需要编写复杂的脚本进行数据转换和处理，容易出现错误，对数据准确性造成影响。难以扩展：传统的数据同步方式架构复杂、硬件成本高，难以扩展和升级，对系统性能和可用性带来影响。

发明内容

为克服现有技术中存在的不足，本发明提供一种基于大数据引擎计算的数据同步方法，通过高效稳定的数据采集、智能的数据分区、灵活可扩展的数据预处理、快速安全可靠的数据传输、实时可视化的数据同步监控，突破了传统数据同步方式的局限性，具有数据处理速度快、容量大、效率高、准确性高、可扩展性好等优点，能够满足当今大规模数据分析和应用的需求。

本发明解决上述技术问题的技术方案如下：

一种基于大数据引擎计算的数据同步方法，利用阿里云开放数据处理服务平台通过数据引擎进行数据同步并清洗脏数据，针对多维度的数据进行连表及处理，最终同步到用户需要的数据库中，包括：

S1创建虚拟节点，作为控制节点的指定任务开始，设置调度时间进行自动触发；

S2创建数据同步节点，采用基于时间戳的同步算法，利用dataworks大数据治理平台将mysql数据库中的数据同步到maxcompute中，将单节点的海量数量同步到分布式集群数据仓库；所述基于时间戳的同步算法，是指为每个数据源创建时间戳，并将其存储在云端对应的分区上；当数据发生变化时，将新的时间戳与其关联；数据源之间同步时，会比较它们各自的时间戳，并在此基础上进行同步；如果其中一个数据源的时间戳比另一个数据源的时间戳更近，则将前者的数据同步到后者；

通过上述高效、稳定的数据采集方式，能够从源数据库中抽取待同步的数据，并将其传输到大数据平台上；通过上述智能数据分区方式，能够根据数据特征和分析需求，将数据按照分区规则进行划分，以便于后续的并行计算和处理；通过上述自动化、高精度的数据校验和修正方式，能够保证目标数据仓库中的数据与源数据库中的数据完全一致，避免数据同步过程中出现的问题和异常情况。

S3在阿里云开放数据处理服务平台创建ODPS节点，针对同步过来的数据进行清洗加工处理，采用基于分布式同步算法，将数据处理任务分布到多台计算机上进行同步，将得到的规整数据存储在数据仓库的二级仓库，将加工好的数据存储在数据仓库的三级仓库；

所述基于分布式同步算法，其核心是归并思想加自定义排序，包括：

S3.1针对海量订单数据，将订单分区管理，按照完成时间进行归档操作，每天的订单存储在对应的天的分区里；S3.2将每条订单记录在同步的时候进行清洗，每条数据的格式为｛uid，bill_no｝，其中uid为人员编号、bill_no为订单号；S3.3将当天的分区内的数据进行汇总，得到对应的｛uid,List<bill_no>｝，存储到Map<uid，订单个数>中；

通过上述灵活、可扩展的数据预处理方式，能够对待同步的数据进行清洗、转换和格式化处理，使其能够适配目标数据仓库的存储格式和结构。

S3.4将不同的分区数据并行的两两组合进行合并处理，针对同一个uid，订单数量进行累加，得到新的Map<uid，订单个数>；

S3.5递归执行4步骤，得到最后的Map<uid，订单个数>；

S3.6根据订单个数排序，得到最终的人员成交订单排行榜汇总数据；

此方法可以快速地将不同业务维度下的数据，根据某一标准，快速地汇总出对应的排名数据，可以大大提高数据同步的速度，还可以利用集群的计算能力处理大量数据；通过上述灵活、可扩展的数据预处理方式，能够对待同步的数据进行清洗、转换和格式化处理，使其能够适配目标数据仓库的存储格式和结构；

S4创建数据同步节点，利用dataworks大数据治理平台将数仓中的数据同步到需要存储的存储空间；通过上述快速、安全、可靠的数据传输方式，能够将预处理后的数据传输到目标数据仓库中，并按照分区规则进行存储和归档。通过上述快速、安全、可靠的数据传输方式，能够将预处理后的数据传输到目标数据仓库中，并按照分区规则进行存储和归档。

S5构建运维中心，针对调度节点的跟踪与监控，及时掌握数据同步的执行结果及执行效率；通过上述自动化、高精度的数据校验和修正方式，能够保证目标数据仓库中的数据与源数据库中的数据完全一致，避免数据同步过程中出现的问题和异常情况。

进一步的，S2中所述创建数据同步节点，支持重跑策略及支持增量同步策略；所述重跑策略，指任务的幂等性，数据支持覆盖写，无论跑几次，数据的结果都保持一致；所述增量同步策略，指指根据业务创建的时间戳，每天同步获取新增的数据，保证同步的效率。

进一步的，S3.3中所述存储到Map<uid，订单个数>，包括以下步骤：

S3.3.1做插入操作时，首次初始化一定内存的容器，对于每个 hash值首次插入，做一个标识，标识为首次直接插入，无需进行循环操作，提高执行的效率；非首次插入时，直接进入 S3.3.2；S3.3.2如果已经初始化，则判断插入的数据的hash位置对应的节点是否为空，如果为空，则通过死循环操作进行插入，避免在插入的时候被其他请求完成插入；S3.3.3如果该节点不为空，再判断容器是否在扩容中，如果在扩容，则帮助其扩容；S3.3.4如果没有扩容，则进行最后一步，先加锁，然后找到hash值相同的那个节点，即hash冲突节点，循环判断这个节点上的链表，决定做覆盖操作还是插入操作；S3.3.5循环结束，插入完毕。

进一步的，S4中所述存储空间，包括：Object Storage Service对象存储，elaticserach分布式搜索引擎，redis远程字典服务，AnalyticDB MySQL云原生数据库。

本发明的有益效果是：

1.高效性，该方法采用大数据引擎计算，可以并行处理大量数据，实现高效的数据同步和传输，从而提高数据处理速度和效率。

2.精准性，该方法采用自动化的数据校验和修正方式，可以保证目标数据仓库中的数据与源数据库中的数据完全一致，避免数据同步过程中出现的问题和异常情况，从而提高数据同步的准确性。

3.灵活性，该方法采用智能的数据分区方式和灵活可扩展的数据预处理方式，可以根据具体业务需求进行扩展和定制，从而满足不同场景的数据同步需求。

4.实时性，该方法支持实时同步，并且可以实现增量更新，可以及时反映源数据库中的变化，满足实时性数据同步的需求。

5.可视化监控，该方法提供了实时、可视化的数据同步监控方式，可以及时发现和解决数据同步中出现的问题和异常情况，提高数据同步的效率和精度。

6.可扩展性，该方法采用大数据引擎计算，架构简单，硬件成本低，易于扩展和升级，对系统性能和可用性带来影响较小。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一种基于大数据引擎计算的数据同步方法流程图。

具体实施方式

以下将参照附图详细描述本发明的示例性实施例。应注意，以下的描述在本质上仅是解释性和示例性的，决不意在限制本发明及其应用或使用，除非另外特别说明，否则，在实施例阐述的组件和步骤的相对位置、数字表达式以及数值并不限制本发明的范围。另外，本领域技术人员已知的技术、方法和设备可能不被详细讨论，但在合适的情况下意在成为说明书的一部分。

Maxcompute：云原生大数据计算服务。

一级数仓：位于Maxcompute的数据存储第一层，逻辑划分，数据源层。

二级数仓：位于Maxcompute的数据存储第一层，逻辑划分，数据明细层。

三级数仓：位于Maxcompute的数据存储第一层，逻辑划分，数据汇总层

ODPS节点：一种编写SQL的脚本语言。

实施例1为本发明公开的一种基于大数据引擎计算的数据同步方法，如图1所示，利用阿里云开放数据处理服务平台通过数据引擎进行数据同步并清洗脏数据，针对多维度的数据进行连表及处理，最终同步到用户需要的数据库中；其特征在于，包括以下步骤：

S2创建数据同步节点，采用基于时间戳的同步算法，利用dataworks大数据治理平台将mysql数据库中的数据同步到maxcompute中，将单节点的海量数量同步到分布式集群数据仓库；所述基于时间戳的同步算法，是指为每个数据源创建时间戳，并将其存储在云端对应的分区上；当数据发生变化时，将新的时间戳与其关联；数据源之间同步时，会比较它们各自的时间戳，并在此基础上进行同步；如果其中一个数据源的时间戳比另一个数据源的时间戳更近，则将前者的数据同步到后者；创建数据同步节点，支持重跑策略及支持增量同步策略。

S3在阿里云开放数据处理服务平台创建ODPS节点，针对同步过来的数据进行清洗加工处理，采用基于分布式同步算法，将数据处理任务分布到多台计算机上进行同步，将得到的规整数据存储在数据仓库的二级仓库，将加工好的数据存储在数据仓库的三级仓库；所述基于分布式同步算法，其核心是归并思想加自定义排序，包括：

S3.1针对海量订单数据，将订单分区管理，按照完成时间进行归档操作，每天的订单存储在对应的天的分区里；

S3.2将每条订单记录在同步的时候进行清洗，每条数据的格式为｛uid，bill_no｝，其中uid为人员编号、bill_no为订单号；

S3.3将当天的分区内的数据进行汇总，得到对应的｛uid,List<bill_no>｝，存储到Map<uid，订单个数>中，包括：

S3.3.1做插入操作时，首次初始化一定内存的容器，对于每个 hash值首次插入，做一个标识，标识为首次直接插入，无需进行循环操作，提高执行的效率；非首次插入时，直接进入 S3.3.2；

S3.3.2如果已经初始化，则判断插入的数据的hash位置对应的节点是否为空，如果为空，则通过死循环操作进行插入，避免在插入的时候被其他请求完成插入；

S3.3.3如果该节点不为空，再判断容器是否在扩容中，如果在扩容，则帮助其扩容；

S3.3.4如果没有扩容，则进行最后一步，先加锁，然后找到hash值相同的那个节点，即hash冲突节点，循环判断这个节点上的链表，决定做覆盖操作还是插入操作；

S3.3.5循环结束，插入完毕。

S3.5递归执行4步骤，得到最后的Map<uid，订单个数>；

此方法可以快速地将不同业务维度下的数据，根据某一标准，快速地汇总出对应的排名数据，可以大大提高数据同步的速度，还可以利用集群的计算能力处理大量数据；

S4创建数据同步节点，利用dataworks大数据治理平台将数仓中的数据同步到需要存储的存储空间，本实施例选择Object Storage Service对象存储。

S5构建运维中心，针对调度节点的跟踪与监控，及时掌握数据同步的执行结果及执行效率。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据引擎计算的数据同步方法，利用阿里云开放数据处理服务平台通过数据引擎进行数据同步并清洗脏数据，针对多维度的数据进行连表及处理，最终同步到用户需要的数据库中；其特征在于，包括以下步骤：

S3.3将当天的分区内的数据进行汇总，得到对应的｛uid,List<bill_no>｝，存储到Map<uid，订单个数>中；

S3.5递归执行4步骤，得到最后的Map<uid，订单个数>；

S4创建数据同步节点，利用dataworks大数据治理平台将数仓中的数据同步到需要存储的存储空间；

2.根据权利要求1所述的一种基于大数据引擎计算的数据同步方法，其特征在于：S2中所述创建数据同步节点，支持重跑策略及支持增量同步策略；

所述重跑策略，指任务的幂等性，数据支持覆盖写，无论跑几次，数据的结果都保持一致；

所述增量同步策略，指指根据业务创建的时间戳，每天同步获取新增的数据，保证同步的效率。

3.根据权利要求1所述的一种基于大数据引擎计算的数据同步方法，其特征在于：S3.3中所述存储到Map<uid，订单个数>，包括以下步骤：

S3.3.1做插入操作时，首次初始化一定内存的容器，对于每个 hash值首次插入，做一个标识，标识为首次直接插入，无需进行循环操作，提高执行的效率；非首次插入时，直接进入S3.3.2；

S3.3.5循环结束，插入完毕。

4.根据权利要求1所述的一种基于大数据引擎计算的数据同步方法，其特征在于：S4中所述存储空间，包括：Object Storage Service对象存储，elaticserach分布式搜索引擎，redis远程字典服务，AnalyticDB MySQL云原生数据库。