CN110046168B

CN110046168B - 一种增量数据一致性实现方法及装置

Info

Publication number: CN110046168B
Application number: CN201910244138.9A
Authority: CN
Inventors: 彭虎; 傅尚强; 刘洋; 孙迁
Original assignee: Nanjing Suning Software Technology Co ltd
Current assignee: NANJING SUNING SOFTWARE TECHNOLOGY Co.,Ltd.
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2021-03-26
Anticipated expiration: 2039-03-28
Also published as: CA3176450A1; WO2020192064A1; CN110046168A

Abstract

本发明公开了一种增量数据一致性实现方法及装置，属于数据仓库技术领域，方法包括：初始化业务系统中具有关联关系的各数据表的全部数据，加载至第一数据库中以生成多个全量数据表；基于业务数据库的日志，将各数据表的实时数据分别同步至多个全量数据表中以及第二数据库的多个增量数据表中；提取多个增量数据表中的所有的业务唯一标识，在第二数据库中合并生成增量标识合并表；根据增量标识合并表，查询得到多个全量数据表中与增量标识合并表相关的业务数据，并对应写入第二数据库的一致性增量数据表中。本发明实施例在增量数据一致性的实现过程中对业务数据库的正常运行基本无影响，且对数据库资源损耗较小。

Description

一种增量数据一致性实现方法及装置

技术领域

本发明涉及数据仓库技术领域，尤其涉及一种增量数据一致性实现方法及装置。

背景技术

大数据数据仓库构建ODS(Operational Data Store,操作数据存储)负责关系数据表，需要构建一致性增量数据表，以确保具有关联关系的各数据表之间的增量数据保持一致。以零售交易订单进行举例，订单头表与各订单子表之间的一致性增量数据表能够保证变化单号在每个订单增量数据表中都存在，不会出现一个变化单号在某些表中存在，而在某些表中不存在，导致产生增量表数据无法关联的问题。

现在技术中，一般会采取如下方法来实现增量数据的一致性：

方法一：增量获取业务系统中的订单头表和各子表数据到大数据平台的增量数据表中，再使用hive/spark生成对应的全量数据表，根据增量数据表生成完整变化单号，去暴力匹配各表，最终生成各表的一致性增量数据表。

方法二：增量获取业务系统订单头表和各子表的单号数据到业务系统的单号变化中间表中，根据单号变化中间表中的单号到业务系统通过数据库索引获取头表和各子表对应单号的业务数据到数据仓库的一致性增量数据表中。

以上两种方案实现简单，但存在的一定缺陷和不足：

针对方法一：Hive生成全量数据表，需要全量读写全量订单数据，假设100亿订单，每天订单增量200万，更新200万数据每次需要读写100亿数据，生成一致性增量数据表需要再次全量读取全量数据表，对全量数据表两次全量读取和一次全量写，大数据平台资源损耗大，效率低。

针对方法二：需要业务系统创建单号变化中间表，并对此表有写权限，两次读取业务系统表数据，依赖业务系统数据表索引使用，整个过程对业务系统具有较大的依赖，并且抽取过程可能会产生数据库锁，特别大促期间系统降级，直接导致数据无法抽取，整个大数据计算因为数据无法抽取而停滞，导致分析数据无法正常按时生产。

此外，基于Hive的数据仓库无法支持单号索引查询，对订单回溯场景无法支持，比如售后客服等业务分析场景，需要关联业务对应的订单数据，对应订单时间范围较广不太确定，可能1个月内或超过1年，由于Hive表基本无索引能力，这类业务分析的基于Hive表实现较困难。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一，为此本发明提供一种增量数据一致性实现方法及装置。

本发明实施例提供的具体技术方案如下：

第一方面，本发明提供了一种增量数据一致性实现方法，包括：

初始化业务系统中具有关联关系的各数据表的全部数据，加载至第一数据库中以生成多个全量数据表；

基于所述业务系统的数据库日志，将所述各数据表的实时数据分别同步至所述多个全量数据表中以及第二数据库的多个增量数据表中；

提取所述多个增量数据表中的所有的业务唯一标识，在所述第二数据库中合并生成增量标识合并表；

根据所述增量标识合并表，查询得到所述多个全量数据表中与所述增量标识合并表相关的业务数据，并对应写入所述第二数据库的一致性增量数据表中。

在一个优选的实施方式中，所述基于所述业务系统的数据库日志，将所述各数据表的实时数据分别同步至所述多个全量数据表中以及第二数据库的多个增量数据表中，包括：

从所述业务系统的数据库日志中解析出所述各数据表的实时数据，并同步至实时数据流中；

将所述实时数据流中的数据落地所述多个全量数据表中；以及

将所述实时数据流中的数据写入所述多个增量数据表中。

在一个优选的实施方式中，所述第一数据库为KV数据库，所述第二数据库为Hive数据库。

在一个优选的实施方式中，所述根据所述增量标识合并表，查询得到所述多个全量数据表中与所述增量标识合并表相关的业务数据，包括：

针对所述增量标识合并表的每一个订单号，通过SQL查询接口分别查询所述多个全量数据表中匹配于所述订单号的业务数据，以得到所述查询结果。

在一个优选的实施方式中，所述方法还包括：

接收数据回溯查询指令，通过SQL查询接口在所述第一数据库中查询与所述数据回溯查询指令相关联的业务数据，并返回数据回溯查询结果。

第二方面，提供了一种增量数据一致性实现装置，包括：

初始化模块，用于初始化业务系统中具有关联关系的各数据表的全部数据，加载至第一数据库中以生成多个全量数据表；

实时同步模块，用于基于所述业务系统的数据库日志，将所述各数据表的实时数据分别同步至所述多个全量数据表中以及第二数据库的多个增量数据表中；

标识合并模块，用于提取所述多个增量数据表中的所有的业务唯一标识，在所述第二数据库中合并生成增量标识合并表；

查询模块，用于根据所述增量标识合并表，查询得到所述多个全量数据表中与所述增量标识合并表相关的业务数据；

写入模块，用于将与所述增量标识合并表相关的业务数据对应写入所述第二数据库的一致性增量数据表中。

在一个优选的实施方式中，所述实时同步模块具体用于：

将所述实时数据流中的数据写入所述多个增量数据表中。

在一个优选的实施方式中，所述查询模块具体用于：

针对所述增量标识合并表的每一个订单号，通过SQL查询接口分别查询所述多个全量数据表中匹配于所述订单号的业务数据。

在一个优选的实施方式中，所述查询模块还用于：

本发明提供的一种增量数据一致性实现方法及装置，由于通过利用数据库日志将业务数据库中的各数据表的实时数据同步至数据仓库中，相对于现有技术中通过创建单号变化中间表读取业务系统表数据，强依赖于业务系统数据表索引使用，本发明在业务数据库的数据采集过程中，对业务数据库的正常运行基本无影响；且在从多个增量数据表查询与增量标识合并表相关的业务数据时，仅需一次全量读取，对数据库资源损耗较小，且通过写入查询结果而得到的一致性增量数据表能够确保各数据表之间的增量数据保持一致；此外，由于一致性增量数据表中的数据分析支持基于增量数据的分析，因此日数据分析场景下仅需要检索各表中的日数据就能完成订单相关所有分析，并不需要检索历史分区数据，数据库资源消耗较小。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了一种增量数据一致性实现方法的流程图；

图2示出了操作性数据仓库ODS的订单增量数据一致性的实现流程图；

图3示出了一种增量数据一致性实现装置的框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非上下文明确要求，否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

实施例一

本发明实施例提供了一种增量数据一致性实现方法，该方法可以应用于数据仓库(例如，操作性数据仓库ODS)，如图1所示，该方法包括步骤：

S1：初始化业务系统中具有关联关系的各数据表的全部数据，加载至第一数据库中以生成多个全量数据表。

本实施例中，具有关联关系的各数据表可以是一对一关系或一对多关系，具有一对多关系的各数据表可以是以一个数据表作为父表，其他的多个数据表分别作为子表。例如，在零售交易订单场景中，订单头表为父表，订单商品表、订单支付表、订单扩展表等均为子表。

具体的，基于ETL工具从业务系统对应的业务数据库中抽取数据表的全部数据，经过清洗转换后，加载至第一数据库中，形成与各数据表的对应的多个全量数据表。

比如，可以将业务数据库中订单头表、订单商品表、订单支付表和订单扩展表各自的全部数据，加载到第一数据库中，生成订单头表、订单商品表、订单支付表和订单扩展表各自对应的全量数据表。

其中，第一数据库可以为KV(Key-Value)数据库。Key-Value数据库是一种以键值对存储数据的一种数据库，故也称键值数据库，其数据的存储与访问均是以键值对作为标识进行的，可以通过key快速查询到对应的value值，并可以对外提供很好地读写操作。Key-value数据库代表的有redis。

S2：基于业务系统的数据库日志，将各数据表的实时数据分别同步至多个全量数据表中以及第二数据库的多个增量数据表中。

其中，实时数据为各数据表中新增加或新修改的数据。

其中，第二数据库为Hive数据库。Hive数据库是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

具体的，从业务系统的数据库日志解析出各数据表的实时数据，并将实时数据同步至实时数据流中；

将实时数据流中的数据落地多个全量数据表中；

以及将实时数据流中的数据写入第二数据库的多个增量数据表中。

其中，数据库日志中记录了对业务数据库的操作信息，数据库日志具体可以为Binlog数据库日志，可以通过Binlog解析器定期解析Binlog数据库日志。

于本实施例中，可以在数据库日志发生更新时获取数据库日志，其中，更新包括对业务数据库的数据表的字段进行了增加、删除或修改操作。

需要说明的是，将实时数据流中的数据落地多个全量数据表中的步骤，以及将实时数据流中的数据落地多个全量数据表中的步骤，本发明实施例对这两个步骤的执行顺序不作具体限定，以同时执行上述两个步骤作为优选方案。

S3：提取多个增量数据表中的所有的业务唯一标识，在第二数据库中合并生成增量标识合并表。

其中，业务唯一标识可以唯一标识数据库表中的一条业务记录，在订单应用场景中，业务唯一标识为订单单号。

具体的，提取多个增量数据表中所有的业务唯一标识，对所有的业务唯一标识进行合并去重，生成增量标识合并表。

本实施例中，可以对所有的业务唯一标识合并成集合，并剔除其中重复的业务唯一标识，对去重后的业务唯一标识生成增量标识合并表，存储在Hive数据库中。

S4：根据增量标识合并表，查询得到多个全量数据表中与增量标识合并表相关的业务数据，并对应写入第二数据库的一致性增量数据表中。

具体的，该过程可以包括：

针对增量标识合并表的每一个订单号，通过SQL查询接口分别查询多个全量数据表中匹配于订单号的业务数据。

在具体实施过程中，可以通过开发SQL查询接口，将KV数据库查询集成到SQL中，降低开发难度，实现了通过SQL方式将Hive数据库和KV数据库进行实时关联。

由于Hive库和KV库能够通过SQL实现关联，使得KV库中的全量数据表可以支持基于单号的快速检索，提供数据索引检索能力，不增加hadoop平台或者业务系统的压力。

进一步地，除上述步骤之外，本发明实施例提供的方法还可以包括：

基于第二数据库中的一致性增量数据表进行与业务主题相关的指标、维度、属性分析，其中，业务主题可以是下单、执法、换退货。

由于一致性增量数据表的数据分析支持基于增量数据的分析，因此日数据分析场景下仅需要检索各表中的日数据就能完成订单相关所有分析，包括下单宽表、支付宽表、退换货分析宽表等，分析过程中并不需要检索历史分区数据，因此数据库资源消耗较小。

接收数据回溯查询指令，通过SQL查询接口在第一数据库中查询与数据回溯查询指令相关联的业务数据，并返回数据回溯查询结果。

示例性地，以客服投诉分析举例，当日客户投诉的订单可能是很长时间前的订单数据，Hive表难以实现长时间历史高效快速检索，而通过KV数据库的SQL查询接口进行查找全量数据表中的客户订单信息，实现业务数据的回溯查询，从而有力解决售后客服等业务需要检索以往订单数据关联业务场景以及获取关联订单作为维度分析业务的场景，且检索性能高，数据库资源消耗小。

下面以订单场景为例，对本发明实施例一提供的增量数据一致性实现方法进行进一步说明，如图2所示，图2示出一种操作性数据仓库ODS的订单增量数据一致性的实现过程，该过程包括：

步骤1：初始化业务系统中父子表各表的全部数据，对应加载到KV库中以形成多个全量数据表；

步骤2：从业务系统中通过数据库日志实时同步数据到数据流中；

步骤3：将实时数据流数据对应落地Hive库的增量数据表中；

步骤4：将实时数据流数据对应写入KV库中的全量数据表中；

步骤5：将各个增量数据表提取所有的单号合并去重写入Hive库的增量单号合并表中；

步骤6：根据增量单号合并表通过SQL查询接口查询调用各全量数据表的数据，并将查询结果写入Hive库的一致性增量数据表中。

通过上述步骤，最终可以生成数仓ODS的Hive库的一致性增量数据表和和KV库的全量数据表。

本发明提供的增量数据一致性实现方法，由于通过利用数据库日志将业务数据库中的各数据表的实时数据同步至数据仓库中，相对于现有技术中通过创建单号变化中间表读取业务系统表数据，强依赖于业务系统数据表索引使用，本发明在业务数据库的数据采集过程中，对业务数据库的正常运行基本无影响；且在从多个增量数据表查询与增量标识合并表相关的业务数据时，仅需一次全量读取，对数据库资源损耗较小，且通过写入查询结果而得到的一致性增量数据表能够确保各数据表之间的增量数据保持一致；此外，由于一致性增量数据表中的数据分析支持基于增量数据的分析，因此日数据分析场景下仅需要检索各表中的日数据就能完成订单相关所有分析，并不需要检索历史分区数据，数据库资源消耗较小。

实施例二

本发明实施例提供一种增量数据一致性实现装置，参照图3所示，该装置包括：

初始化模块31，用于初始化业务系统中具有关联关系的各数据表的全部数据，加载至第一数据库中以生成多个全量数据表；

实时同步模块32，用于基于业务数据库的日志，将各数据表的实时数据分别同步至多个全量数据表中以及第二数据库的多个增量数据表中；

标识合并模块33，用于提取多个增量数据表中的所有的业务唯一标识，在第二数据库中合并生成增量标识合并表；

查询模块34，用于根据增量标识合并表，查询得到多个全量数据表中与增量标识合并表相关的业务数据；以及

写入模块35，用于将与增量标识合并表相关的业务数据对应写入第二数据库的一致性增量数据表中。

进一步地，实时同步模块32具体用于：

从业务系统的数据库日志解析出各数据表的实时数据，并将实时数据同步至实时数据流中；

将实时数据流中的数据落地多个全量数据表中；以及

将实时数据流中的数据写入多个增量数据表中。

进一步地，第一数据库为KV数据库，第二数据库为Hive数据库。

进一步地，查询模块34具体用于：

进一步地，查询模块34还用于：

本发明提供的增量数据一致性实现装置，由于通过利用数据库日志将业务数据库中的各数据表的实时数据同步至数据仓库中，相对于现有技术中通过创建单号变化中间表读取业务系统表数据，强依赖于业务系统数据表索引使用，本发明在业务数据库的数据采集过程中，对业务数据库的正常运行基本无影响；且在从多个增量数据表查询与增量标识合并表相关的业务数据时，仅需一次全量读取，对数据库资源损耗较小，且通过写入查询结果而得到的一致性增量数据表能够确保各数据表之间的增量数据保持一致；此外，由于一致性增量数据表中的数据分析支持基于增量数据的分析，因此日数据分析场景下仅需要检索各表中的日数据就能完成订单相关所有分析，并不需要检索历史分区数据，数据库资源消耗较小。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的增量数据一致性实现装置在执行增量数据一致性实现方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将增量数据一致性实现装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的增量数据一致性实现方法与增量数据一致性实现装置实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种增量数据一致性实现方法，其特征在于，包括：

基于所述业务系统的数据库日志，将所述各数据表的实时数据分别同步至所述多个全量数据表中以及第二数据库的多个增量数据表中，所述实时数据为所述各数据表中新增加或新修改的数据；

2.根据权利要求1所述的方法，其特征在于，所述基于所述业务系统的数据库日志，将所述各数据表的实时数据分别同步至所述多个全量数据表中以及第二数据库的多个增量数据表中，包括：

将所述实时数据流中的数据写入所述多个增量数据表中。

3.根据权利要求1或2所述的方法，其特征在于，所述第一数据库为KV数据库，所述第二数据库为Hive数据库。

4.根据权利要求3所述的方法，其特征在于，所述根据所述增量标识合并表，查询得到所述多个全量数据表中与所述增量标识合并表相关的业务数据，包括：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

6.一种增量数据一致性实现装置，其特征在于，包括：

实时同步模块，用于基于所述业务系统的数据库日志，将所述各数据表的实时数据分别同步至所述多个全量数据表中以及第二数据库的多个增量数据表中，所述实时数据为所述各数据表中新增加或新修改的数据；

7.根据权利要求6所述的装置，其特征在于，所述实时同步模块具体用于：

将所述实时数据流中的数据写入所述多个增量数据表中。

8.根据权利要求6或7所述的装置，其特征在于，所述第一数据库为KV数据库，所述第二数据库为Hive数据库。

9.根据权利要求8所述的装置，其特征在于，所述查询模块具体用于：

10.根据权利要求8所述的装置，其特征在于，所述查询模块还用于：