CN112527922A

CN112527922A - 一种基于不变模型的数据仓库增量加工方法

Info

Publication number: CN112527922A
Application number: CN202011475971.3A
Authority: CN
Inventors: 冯林新; 安冬敏; 江军
Original assignee: Digital China Information Systems Co ltd
Current assignee: Digital China Information Systems Co ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-03-19
Anticipated expiration: 2040-12-15
Also published as: CN112527922B

Abstract

一种基于不变模型的数据仓库增量加工方法，其步骤包括：1.获取源端技术增量数据，将业务系统当天新增、删除以及修改的数据采用不变模型的方式存储至数据库对应的数据库表中；2.根据不变模型，计算源端业务增量；3.计算业务增量的前像快照；4.计算业务增量的后像快照；5.计算目标删除增量与目标插入增量；6.计算目标增量合并。本发明通过不变模型保留来源表的历史数据，在不变模型的基础上设计出适合各种场景的增量加工方法，在增量数据加工准确的前提下，大大提升数据加工的效率。

Description

一种基于不变模型的数据仓库增量加工方法

技术领域

本发明属于数据仓库增量加工领域，具体涉及基于不变模型的增量加工方法。

背景技术

越来越多的公司和企业都在建设自己内部的数据仓库，数据仓库建设的大体思路是采集各个业务系统中的数据，然后在数据仓库内部加工各个业务域数据，产出相关的业务指标和派生指标，在此基础上再根据报表的展示需要，加工出应用展示层的数据。目前数据仓库的离线批量加工方式都是T+1，即业务系统今天产生的数据，明天才可以看到对应展示层的数据。在T+1加工方式下，如果每天的加工都使用全量数据，随着时间的推移，业务系统产生的数据越来越多，数据仓库中的加工速度会越来越慢，甚至会导致T+1不能及时完成数据加工。但如果可以只依据来源表当天产生的增量数据，就可以生成目标表的增量数据，加工的速度就会大大提升。

在某些简单的加工场景下，如将一个来源表的数据，经过映射和过滤，生成目标表数据的场景，来源表的增量再经过相同的映射和过滤，就可以快速得到目标表的增量数据。但是在某些复杂的场景下，如多表关联，单表汇总的情况下，仅通过来源表的增量是不可能直接计算出目标表的增量的，因为在这些复杂场景下，不仅需要来源表的增量，还需要来源表的历史数据，而修改和删除操作都会让来源表数据发生变更，无法准确找到来源表的历史数据。

因此数据仓库的全量和增量加工存在着上述的问题，本发明提出了一种基于不变模型的增量加工算法，通过不变模型保留来源表的历史数据，在不变模型的基础上设计出适合各种场景的增量加工算法，在增量数据加工准确的前提下，大大提升数据加工的效率。

发明内容

针对目前数据仓库全量加工慢，增量加工场景复杂且历史数据不全的问题，本发明提出了基于不变模型的增量加工方法，在面临各种简单和复杂加工的场景下，生成一套增量加工的脚本，在保证加工准确的前提下，提高加工的效率。

为达到以上目的，本发明采用的方案如下：

一种基于不变模型的数据仓库增量加工方法，包括以下步骤：

一种基于不变模型的数据仓库增量加工方法，其特征在于，所述增量加工方法包括以下步骤：

步骤1：获取业务系统源端技术增量数据，并加载到来源表中；

所述来源表是一个基于不变模型的用来存储新增、删除以及修改的源端技术增量数据的数据库表；

步骤2：基于步骤1得到的源端技术增量数据，计算源端业务增量；

步骤3：计算业务增量的前像快照；

步骤4：计算业务增量的后像快照；

步骤5：计算目标表删除增量与目标表插入增量；

所述目标表是指基于来源表对当天数据加工结果的记录而形成的数据库表；

步骤6：将目标表删除增量与目标表插入增量合并到目标表中；

本发明进一步包括以下优选方案：

所述步骤1中，获取源端技术增量数据是指将业务系统当天新增、删除以及修改的数据采用不变模型的方式存储至数据库对应的来源表中；

将当前存储的源端技术增量数据作为可用于增量加工的数据；

所述增量加工是以当天新增数据为依据的数据加工方式，而不是以全量数据为依据的数据加工方式。

所述不变模型是指：

当新增业务数据时，插入新增的业务数据，其类型标识为“I”；

当修改业务数据时，将修改前与修改后的两条业务数据都插入到对应的不变模型中，其中修改前的数据的类型标识为“D”，修改后的数据类型标识为“I”，修改前与修改后的两条数据代表一次业务数据的修改；

当删除业务数据时，插入该条被删除的业务数据，其类型标识为“D”。

所述步骤2中，源端业务增量指的是源端技术增量数据与数据加工所需要的关联信息之和；

计算源端业务增量是计算增量加工所需的最小的完备数据集。所谓的完备数据集指的是针对一次数据加工而言的，完备数据集不一定是全量数据集，但全量数据集是完备数据集的一种特殊方式；

源端业务增量的计算方法包括原始业务增量、关联业务增量、分组业务增量以及全量业务增量的四种方法以及在这四种方法的基础上的组合。

所述原始业务增量适用于过滤、合并数据计算场景，该场景下源端业务增量与源端技术增量一致；

所述关联业务增量适用于与来源表关联的数据计算场景，该场景下业务增量是在其技术增量的基础上再加上与该来源表变化记录相关联的数据；

所述分组业务增量适用于数据进行分组计算的场景，该场景下业务增量的计算方法是将业务数据发生变化的分组数据作为业务增量；

所述全量业务增量适用于排序等业务场景，在该场景下只有全量数据才能满足业务增量对数据加工完整性的要求。

所述关联业务增量涉及表关联，所述表关联涉及多个来源表；通过将来源表当作节点，不同来源表之间的关联条件当作节点之间的连线，以其中某个来源表的节点作为根节点，构造出一个树结构；该来源表节点的业务增量由两部分构成：第一部分是与本表技术增量业务主键相同的数据；第二部分是与关联表的技术增量具有相同关联条件的，且在来源表中业务主键相同的所有数据。

所述步骤3中的前像快照是指以上次加工截止时间作为过滤条件，过滤出部分数据，然后按照来源表的业务主键分组，根据不变模型中的递增数据值型字段倒序，得到数值最大且标志为“I”的数据，即参与上次加工的数据为前像快照；

所述步骤4中后像快照是指在业务增量的所有数据中，按照来源表的业务主键分组，根据不变模型的递增数据值型字段倒序，得到数值最大且标志为“I”的数据，即参与本次加工的数据为后像快照。

所述步骤5中的目标表删除增量是指按照全量的加工逻辑计算一遍前像快照，得到上次加工的数据；

目标表插入增量是指按照全量的加工逻辑计算一遍后像快照，得到本次应该加工的数据。

所述步骤5计算目标增量合并是指按照不变模型的方式，将删除增量和新增增量插入到目标表中；

其中所述删除增量包括目标表需要删除的数据和修改前的数据；

所述插入增量包括目标表需要新增的数据或修改后的数据。

相对于现有技术，本发明具有以下有益技术效果:

本发明的增量加工算法，前提是所有模型都必须是不变模型，而不变模型是之前从未被使用过的创新性模型。该模型不仅可以提供历史数据，还可以帮助使用者准确找到上次加工使用的数据。而增量加工必须利用计算历史数据之前得到的结果，才可以将之前的数据置为无效，实现对目标表数据的增删改。本发明的增量加工算法充分利用了不变模型的特性以及快照技术的特点，在来源表产生的技术增量基础上，根据来源表所参与加工的业务场景，计算不同业务相关的增量，从而在业务增量中找到上次已参与加工和本次将参与加工的快照数据。通过上次已参与加工的快照数据和对应的加工逻辑，可以计算出上次的加工结果，即目标表中需要修改或删除的数据；通过本次将参与加工的快照数据和对应的加工逻辑，可以计算出本次的加工结果，即目标表中修改后或新增的数据。

附图说明

图1是本发明的整体方法流程图。

具体实施方式

下面结合附图和具体实施对本发明作进一步的详细描述。本发明的基于不变模型的增量加工算法，其流程如图1所示，包含以下步骤：

按照时间戳获取源端技术增量信息，所谓源端技术增量数据是指将业务系统当天新增、删除以及修改的数据采用不变模型的方式存储至数据库对应的来源表中。所述来源表是一个基于不变模型的用来存储新增、删除以及修改的源端技术增量数据的数据库表；因为来源表数据记录中增加时间类型字段的值为数据插入到表中的时间，因每次加工时需要记录下该次加工的时间，则下次增量加工时，可以根据上次加工的时间和本次加工的时间，确定来源表中新增、修改与删除的变化数据，即技术增量。将当前存储的源端技术增量数据作为可用于增量加工的数据。所述增量加工是以当天新增数据为依据的数据加工方式，而不是以全量数据为依据的数据加工方式。

对于不变模型来说，删除数据用插入一条删除的数据记录表示，修改数据则用插入一条删除的数据记录以及插入一条新增的数据记录表示。不变模型是指数据变化记录，但是为了准确区分出哪条是当前有效的记录，需要在来源表上增加对应的技术字段来标志出来当前数据的状态，即对新增的数据，在来源表中插入该数据并标志为“I”；对修改的数据，在来源表中插入两条数据，一条是修改前的数据并标志为“D”，一条是修改后的数据并标志为“I”。对删除的数据，在来源表中插入该数据并增加为“D”来源表中所有的数据记录都增加一个时间类型的字段，代表数据插入到表中的时间。来源表中所有的数据记录都增加一个递增的数值型字段，代表数据插入的先后顺序，对修改数据的情况，修改前的数据需要比修改后的数据先一步插入到表中；

仅根据源端技术增量不足以计算出目标增量，目标增量还包括源端业务增量的计算。源端业务增量指的是源端技术增量与数据加工所需要的关联信息之和，这些关联信息有可能未发生变化。计算源端业务增量的本质就是计算增量加工所需的最小的完备数据集。所谓的最小完备的数据集指的是本次增量加工所需要的最小的数据集。所述完备数据集指的是针对一次数据加工而言的，完备数据集不一定是全量数据集，但全量数据集是完备数据集的一种特殊方式；业务增量的基本计算方法包括原始业务增量、关联业务增量、分组业务增量以及全量业务增量的四种方法以及在这四种方法的基础上的组合，以下是对这四种方法的定义：

1、原始业务增量计算：所述原始业务增量适用于过滤、合并数据计算场景，该场景下源端业务增量与源端技术增量一致。在从一个数据集根据一定条件进行过滤场景中，技术增量就是业务增量，因为在这个场景中，增量的计算并不会涉及到来源表的历史数据，无需关联增量，仅通过来源表技术增量就可以算出目标表的增量；

2、关联业务增量计算：所述关联业务增量适用于与来源表关联的数据计算场景，该场景下业务增量是在其技术增量的基础上再加上与该来源表变化记录相关联的数据。增量的计算涉及到历史数据，表关联涉及多个来源表。因此可以将来源表当作节点，不同来源表之间的关联条件当作节点之间的连线，以其中某个表的节点作为根节点，构造出一个树结构。则该表节点的业务增量受两部分内容的影响：第一部分是与自己的技术增量业务主键相同的数据，由此可以找到上次和本次参与表关联的部分数据；第二部分是与关联表的技术增量具有相同关联条件的，且在来源表中业务主键相同的所有数据。如表A与表B进行关联，则表A的业务增量由两部分组成，一部分是A表中与A表技术增量具有相同业务主键的数据；另一部分是在A表中与B表技术增量符合关联条件的，且在A表中与这部分数据具有相同业务主键的数据；

3、分组业务增量计算：适用于数据进行分组计算的场景，该场景下业务增量的计算方法是将业务数据发生变化的分组数据作为业务增量。增量计算会涉及到历史数据，分组计算一般会统计某个数值，只要在来源表中取出与技术增量分组相同的全部数据，就可以重新计算上次已经加工出的数据和本次应该加工出的数据，则与技术增量分组相同的数据就是分区场景下的业务增量；

4、全量业务增量计算：适用于全量排序等业务场景，其需要全量数据来保证准确的全量业务增量计算。因此在该场景下只有全量数据才能满足业务增量对数据加工完整性的要求。

步骤3：计算业务增量的前像快照；

不变模型中包含一条数据在各时点的版本数据。上述的源端业务增量也包括参与本次数据加工的所有版本的数据。所述计算业务增量的前像快照就是在业务增量数据中提取本次加工起始时间戳的数据时点数。计算业务增量的前像快照，原理是利用快照的特点，找到参与上次加工的所有数据。具体实现业务增量前像快照的计算方法是，以上次加工截止时间作为过滤条件，过滤出部分数据，然后按照来源表的业务主键分组，根据不变模型中的递增数据值型字段倒序，得到数值最大且标志为“I”的数据，这部分数据就是参与上次加工的数据，称之为前像快照。

步骤4：计算业务增量的后像快照；

与业务增量的前像快照类似，业务增量的后像快照就是在业务增量数据中提取本次加工终止时间戳的数据时点数。计算业务增量的后像快照，原理也是利用快照的特点，找到需要参与本次加工的所有数据。具体实现业务增量后像快照的计算方法是，在业务增量的所有数据中，按照来源表的业务主键分组，根据不变模型的递增数据值型字段倒序，得到数值最大且标志为“I”的数据，这部分数据就是参与本次加工的数据，称之为后像快照。

步骤5：计算目标表删除增量与目标表插入增量；

用业务增量的前像快照数据计算本次增量加工的目标删除增量：前像快照中存在上次被加工的数据，因此按照全量的加工逻辑计算一遍前像快照，得到上次加工的数据，即目标删除增量。

用业务增量的后像快照数据计算本次增量加工的目标插入增量：插入增量包括目标表需要新增的数据或修改后的数据。后像快照中存在本次需要被加工的数据，因此按照全量的加工逻辑计算一遍后像快照，得到本次应该加工出的数据，即新增增量数据。

步骤6：将目标表删除增量与目标表插入增量合并到目标数据模型中

将目标删除增量与目标插入增量合并到目标数据模型中。删除增量中包含目标表需要删除的数据和修改前的数据，按照不变模型的思路，将删除增量的标志置为“D”，插入到目标表中。插入增量中包含目标表需要新增的数据或修改后的数据，按照不变模型的思路，将插入增量的标志置为“I”，插入到目标表中。这样可以得到目标表的增量数据，同时目标表是不变模型，将目标表作为后续加工的来源表时，也可以继续使用本发明的增量加工算法，增量加工后续的表。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于不变模型的数据仓库增量加工方法，其特征在于，所述增量加工方法包括以下步骤：

步骤3：计算业务增量的前像快照；

步骤4：计算业务增量的后像快照；

步骤5：计算目标表删除增量与目标表插入增量；

步骤6：将目标表删除增量与目标表插入增量合并到目标表中。

2.根据权利要求1所述的一种基于不变模型的数据仓库增量加工方法，其特征在于:

3.根据权利要求2所述的一种基于不变模型的数据仓库增量加工方法，其特征在于：

所述不变模型是指：

当业务系统新增业务数据时，对应的来源表插入新增的业务数据，其类型标识为“I”；

当业务系统修改业务数据时，对应的来源表将修改前与修改后的两条业务数据都插入到对应的不变模型中，其中修改前的数据的类型标识为“D”，修改后的数据类型标识为“I”，修改前与修改后的两条数据代表一次业务数据的修改；

当业务系统删除业务数据时，对应的来源表插入该条被删除的业务数据，其类型标识为“D”。

4.根据权利要求1所述的一种基于不变模型的数据仓库增量加工方法，其特征在于：

计算源端业务增量是计算增量加工所需的最小的完备数据集，所述完备数据集指的是针对一次数据加工而言的，完备数据集不一定是全量数据集，但全量数据集是完备数据集的一种特殊方式。

5.根据权利要求4所述的一种基于不变模型的数据仓库增量加工方法，其特征在于：

6.根据权利要求5所述的一种基于不变模型的数据仓库增量加工方法，其特征在于：

7.根据权利要求6所述的一种基于不变模型的数据仓库增量加工方法，其特征在于：

8.根据权利要求1所述的一种基于不变模型的数据仓库增量加工方法，其特征在于：

所述步骤3中的前像快照是指以上次加工截止时间作为过滤条件，过滤出部分数据，然后按照来源表的业务主键分组，根据不变模型中的递增数据值型字段倒序，得到数值最大且标志为“I”的数据，即参与上次加工的数据为前像快照。

9.根据权利要求1或8所述的一种基于不变模型的数据仓库增量加工方法，其特征在于：

10.根据权利要求1所述的一种基于不变模型的数据仓库增量加工方法，其特征在于：

目标表插入增量是指按照全量的加工逻辑计算一遍后像快照，得到本次应该加工的数据；

所述插入增量包括目标表需要新增的数据或修改后的数据。