CN110096509A

CN110096509A - 大数据环境下实现历史数据拉链表存储建模处理的系统及方法

Info

Publication number: CN110096509A
Application number: CN201910406723.4A
Authority: CN
Inventors: 陈顺宽
Original assignee: PRIMETON INFORMATION TECHNOLOGY Co Ltd
Current assignee: PRIMETON INFORMATION TECHNOLOGY Co Ltd
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2019-08-06

Abstract

本发明涉及一种大数据环境下实现历史数据拉链表存储建模处理的系统，包括数据初始化模块，用于拉链表模型字段建模表结构定义和模型初始化；数据正常拉链模块；数据回算拉链模块。本发明还涉及一种实现大数据环境下的历史数据拉链表存储建模处理的方法。采用了本发明的大数据环境下实现历史数据拉链表存储建模处理的系统及方法，通过数据的实际情况进行拉链存储，拉链后相同的数据不做重复存储可以最大限度的压缩存储的大小。拉链表模型自动定义数据结构规范满足多种业务发展需要，可以迅速的定位所需要时间段或者时间点的业务数据，检索效率非常高，该发明能够保证数据的完整性，系统的保持良好的性能，保持批量健壮性。还能明显节省硬件成本。

Description

大数据环境下实现历史数据拉链表存储建模处理的系统及方法

技术领域

本发明涉及计算机领域，尤其涉及大数据领域，具体是指一种大数据环境下实现历史数据拉链表存储建模处理的系统及方法。

背景技术

大数据时代，越来越多的企业需要大量的数据来满足业务的需要。大中型企业都需要保存，海量数据来分析、挖掘、存储历史数据。客户的数据越来越显的尤为重要。海量的数据存储及数据的读取访问对于大多数企业来说存在一定的瓶颈。传统的数据开发方法，在这块不能很好的解决存在的矛盾。

目前传统领域的数据建模对基础领域的基础数据采用直接存储、增量数据储存、按照日期月度滚动分区。直接存储的方案对于不需要保留历史数据的情况可以解决。保留历史数据的情况下需要耗费大量的存储空间存在比较多的冗余数据。保留数据周期非常短，基础数据只能保存一个月左右。增量数据能够满足较长的历史数据存储的应用。但对于存在不定期更新时更新效率比较低、同样查询效率比较低。增量数据在后期查询检索效率比较低。按照日期月度滚动分区，只保留一个月的数据。历史数据完整性较差，占用空间对于大数据量的，存在较多的冗余数据。拉链表存储数据解决方发，解决了以上三种现有常用方案的不理想的现状。拉链表存储数据方法，能够保持少量的空间、存储全量的历史数据、拥有高效率的读写速度，各方面的指标开销较小。

历史数据拉链表存储解决方发还不能很好的支持字段类型为大数据类型的数据(比如：LONG\CLOB\BLOB)等类型的数据。也不能跨数据库支持多种数据库的历史数据拉链。目前只支持oracle下的解决方案。在以后的后续过程中过程会根据需要支持大数据类型的数据格式和其他数据库的方案。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种满足读取速度快、系统性能好、硬件成本低的大数据环境下实现历史数据拉链表存储建模处理的系统及方法。

为了实现上述目的，本发明的大数据环境下实现历史数据拉链表存储建模处理的系统及方法如下：

该大数据环境下实现历史数据拉链表存储建模处理的系统，其主要特点是，所述的系统包括：

数据初始化模块，用于拉链表模型字段建模表结构定义和模型初始化；

数据正常拉链模块，与所述的数据初始化模块相连接，用于正常批量拉链表历史数据加载；

数据回算拉链模块，与所述的数据正常拉链模块相连接，用于回算已经发生的拉链表历史数据加载。

较佳地，所述的数据初始化模块包括：

拉链表模型结构定义单元，用于对拉链表模型进行结构定义，修改拉链表模型；

拉链表模型初始化单元，与所述的拉链表模型结构定义单元相连接，用于通过读取配置指定的模型基础生成对应的拉链表接口表和拉链表历史表。

该基于上述系统实现大数据环境下的历史数据拉链表存储建模处理的方法，其主要特点是，所述的方法包括以下步骤：

(1)所述的数据初始化模块进行拉链表结构定义，初始化拉链表接口和拉链表历史表结构；

(2)判断当前批量日期是否未跑过批量，如果是，则继续步骤(3)；否则，继续步骤(4)；

(3)所述的数据正常拉链模块加载拉链表接口数据，并加载正常批量拉链表历史数据；

(4)所述的数据回算拉链模块加载拉链表接口数据，并回算已经发生的拉链表历史数据加载。

较佳地，所述的步骤(3)中包括拉链表历史数据正常加载数据存储的过程，具体包括以下步骤：

(3.1)创建当月对应的分区，增加当前最新数据分区；

(3.2)抽取新增或有变化的数据，将全量表中新增和修改的数据插入到拉链表中，写入M表；

(3.3)将主键相同、依赖增量不同的数据插入到目标中，写入N表；

(3.4)将M表中新增标记的数据写入Y表；

(3.5)删除拉链表中已经在Y表存在的记录；

(3.6)将N表中的记录写入目标拉链历史表。

较佳地，所述的步骤(4)中包括拉链表历史数据回算数据加载存储的过程，具体包括以下步骤：

(4.1)取出拉链表当前业务日期不同的数据写入M表，取出发生日期前一天之后的所有数据写入Y表；

(4.2)取出发生前一天数据写入M0表，取出发生后一天数据写入Y表；

(4.3)将主键与临时表相同的数据插入到临时表中写入N表，将原数据与新数据之间的差值写入V表，将处理新数据后半部分的数据写入M1表中；

(4.4)合并所有变化的数据写入A表；

(4.5)删除拉链表中在Y表中已经存在的记录；

(4.6)将A表数据写入拉链表历史表。

采用了本发明的大数据环境下实现历史数据拉链表存储建模处理的系统及方法，作为数据仓库等系统建模的工具和装置。将数据接口每一个批量日期的数据通过增量或者全量的方式加载进来。通过数据的实际情况进行拉链存储，拉链后相同的数据不做重复存储可以最大限度的压缩存储的大小。拉链表模型自动定义数据结构规范满足多种业务发展需要，可以迅速的定位所需要时间段或者时间点的业务数据。检索效率非常高，查询的开销稳定不会随着时间变化数据量的增加而增加。综合以上内容该发明能够保证数据的完整性，系统的保持良好的性能，保持批量健壮性。还能明显节省硬件成本。

附图说明

图1为本发明的大数据环境下实现历史数据拉链表存储建模处理的系统的结构图。

图2为本发明的大数据环境下实现历史数据拉链表存储建模处理的系统的数据初始化模块的结构图。

图3为本发明的大数据环境下实现历史数据拉链表存储建模处理的系统的数据正常拉链模块的示意图。

图4为本发明的大数据环境下实现历史数据拉链表存储建模处理的系统的数据回算拉链模块的示意图。

图5为本发明的实现大数据环境下的历史数据拉链表存储建模处理的方法的流程图。

图6为本发明的实现大数据环境下的历史数据拉链表存储建模处理的方法的历史表分区维护示意图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

本发明的该大数据环境下实现历史数据拉链表存储建模处理的系统，其中包括：

作为本发明的优选实施方式，所述的数据初始化模块包括：

本发明的该基于上述系统实现大数据环境下的历史数据拉链表存储建模处理的方法，其中包括以下步骤：

(3.1)创建当月对应的分区，增加当前最新数据分区；

(3.4)将M表中新增标记的数据写入Y表；

(3.5)删除拉链表中已经在Y表存在的记录；

(3.6)将N表中的记录写入目标拉链历史表；

(4)所述的数据回算拉链模块加载拉链表接口数据，并回算已经发生的拉链表历史数据加载；

(4.4)合并所有变化的数据写入A表；

(4.5)删除拉链表中在Y表中已经存在的记录；

(4.6)将A表数据写入拉链表历史表。

本发明的具体实施方式中，本方案提供大数据环境下一种历史拉链数据存储建模的工具和方法，包括拉链表结构定义、拉链表接口和拉链表历史表结构初始化、正常数据拉链处理、历史数据回算拉链处理功能。该方案可以轻松的创建历史数据模型，通过历史数据拉链处理后，拉链表可以储存大数据量的非周期性变化数据。可以解决传统数据存储数量大，开销大的问题，能很好的降低存储空间能够满足少量TB级别的数据或者大量GB级别的数据。历史数据拉链存储解决方案能够保持较高的速度快速读数据、修改数据；历史数据拉链存储解决方案能够根据实际业务规则修改历史数据及历史数据容错机制处理；历史数据拉链存储解决方案能够存储大量的历史满足业务全生命周期的数据。

本方案提供大数据环境一种历史数据拉链存储方案，包括数据初始化模块，用于拉链表模型字段建模表结构定义和模型初始化；数据正常拉链模块，用于正常批量拉链表历史数据加载；数据回算拉链模块，用于回算已经发生的拉链表历史数据加载。

数据初始化模块包括拉链表模型结构定义和拉链表模型初始化两部分。拉链表模型字段建模表结构定义。该模块作为后面定义拉链表结构的基础。可以通过维护这一部分可以灵活的修改拉链表模型。

初始化拉链表接口表及拉链表历史表。这部分的程序通过读取配置指定的模型基础生成对应的拉链表接口表和拉链表历史表。该模块设置拉链表接口表及拉链表历史表名称，主键字段，字段序号，字段名称，字段类型，是否为空，字段中文描述，数据归属表空间，索引归属表空间，字段是否生效。设置完成后通过程序实现拉链表接口表和历史表结构初始化。

数据正常拉链模块用于拉链表接口数据加载(该模块的数据加载工作由相关的程序完成在拉链表内不做实现，只读取数据)，正常批量拉链表历史数据加载。

拉链表历史数据正常加载数据存储过程为：

1、检查当前批量日期对应的分区是否存在，不存在创建当月对应的分区数据。创建当月对应的分区需要备份最新数据分区数据再删除最新分区，再新增最新分区及最新分区的数据。每月固定日期创建分区，同时增加当前最新数据分区。非最新分区以当前跑批对应的月份作为分区。

2、抽取新增或有变化的数据，将全量表中的新增和修改的数据插入到拉链表中，写入M表中。

3、将主键相同，依赖增量不同的数据插入到目标中。(主键为主键字段，依赖增量字段为非主键字段)，写入N表中。

4、M表中是新增标记的数据写入Y表。

5、删除拉链表中已经在Y表存在的记录。

6、N表中的记录写入目标拉链历史表。

数据回算拉链模块用于拉链表接口数据加载(该模块的数据加载工作由相关的程序完成在拉链表内不做实现，只读取数据)。回算已经发生的拉链表历史数据加载。

拉链表历史数据回算数据加载存储过程为(跑批日期小于当前业务日期的情况)：

1、取拉链表当前业务日期不同的数据M表。

2、取出发生日期前一天之后的所有数据Y表。

3、取出发生前一天数据写入M0表。

4、取出发生后一天数据写入Y表。

5、将主键与临时表相同的数据插入到临时表中写入N表。

6、原数据与新数据之间的差值写入V表。

7、处理新数据后半部分的数据写入M1表中。

8、合并所有变化的数据写入A表。

9、删除拉链表中在Y表中已经存在的记录。

10、将A表数据写入拉链表历史表。

以上涉及到的字母表全程见专有术语定义

专有术语定义解释：

V_SRC_TABLE拉链表接口表

V_ZIP_TABLE拉链表历史表(历史表表名称在接口表后面增加”_HIS”)

T_V_SRC_TABLE_M拉链表变化的数据(新增、修改)

T_V_SRC_TABLE_N拉链表修改的数据

T_V_SRC_TABLE_Y拉链表不存在更新的数据

T_V_SRC_TABLE_M0拉链表业务日期前一天需要接链的数据

T_V_SRC_TABLE_M01拉链表业务日期后一天需要接链的数据

T_V_SRC_TABLE_V拉链表原数据与新数据存在差异的数据

T_V_SRC_TABLE_M1拉链表新数据后半部分数据

T_V_SRC_TABLE_A拉链表所有变化的数据汇总表

主键字段、依赖增量字段(为非主键字段)

拉链表的数据处理流程为：

该表格分为两部分，当程序判断当前批量日期未跑过批量的情况(N状态)下执行正常拉链表数据加载程序。当程序判断当前日期已经跑过批量的情况(Y状态)执行拉链表回算程序。多天历史的数据发生变化，可以支持循环加载历史数据，拉链表依次处理回算日期对应的数据。

本方案的具体实施例中历史数据拉链存储方案实施过程的步骤分别为：

1、拉链接口表、拉链表历史数据表维护。检查拉链接口和历史表是否满足设计业务规范

2、拉链表接口数据加载

3、拉链表历史表分区维护

历史表分区维护示意如图所示。

接口数据加载成功后，启动拉链表程序检查当前日期对应的i月份分区是否存在，不存在进行相应的分区维护和最新分区分维护(P_999912)。拉链表对应的分区存在直接进行数据拉链。

4、拉链表数据正常批量加载实例：2019-1-21日接口产生两笔接口数据，生成拉链数据后数据自动分链。新数据落在了新数据分区P_999912分区。开始日期为2019-01-01的数据落在了P_201901分区

本方案的实施例中当前批量日期2019-1-20，拉链表数据如下表1：

2019-1-21日批量日期接口数据如下表2：

账号	账户状态	余额	批量日期
				1	C	200	2019-1-21
2	A	200000	2019-1-21

正常批量数据拉链结果如下表3：

2019-3-1日批量日期接口数据如下表4：

账号	账户状态	余额	批量日期
				1	C	3000	2019-3-1

正常批量数据拉链结果如下表5：

从表2和表4为拉链表接口表2019-1-21日和2019-3-1日的接口数据。从表1、表3、表5我们可以看到历史数据分配在开始日期对应的月份分区内。最新的结束日期为99991230的数据分布在P_999912分区。以此类推账户1的数据在2019年03月份发生变化后新数据再次落在了P_999912分区，余额为3000的数据落在了P_201903分区。我们可以通过拉链表查询批量日期的真实数据。

查询某个数据的最新数据方法为：查询所有用户的最新数据只需要查询分区为P_999912的数据。

查询某个数据历史时间点的数据为：查询所有用户开始日期＜＝批量日期，结束日期＞批量日期。

查询历史数据时，由于历史数据所在分区按照结束日期进行设置，查询时无法确定该数据所在分区，因此，查询时只输入日期，而不是输入分区进行查询。

5、拉链表历史数据回算批量实施例如下：

当前批量日期已经为2019-3-1日了，现在回算2019-2-25批量日期的数据，如下表6所示：

账号	账户状态	余额	批量日期
				1	B	3000	2019-2-25

回算批量以后的数据如下表7：

表6为回算2019-2-25日接口数据，执行拉链表程序后，从表7中可以看到拉链表自动将原有拉链的数据自动断链，补充上2019-2-25日的数据，2019-2-26到2019-3-1的数据保持不变。拉链表的数据自动落在自己对应的分区。数据的检索方式与正常批量检索方式相同。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种大数据环境下实现历史数据拉链表存储建模处理的系统，其特征在于，所述的系统包括：

2.根据权利要求1所述的大数据环境下实现历史数据拉链表存储建模处理的系统，其特征在于，所述的数据初始化模块包括：

3.一种利用权利要求1所述的系统实现大数据环境下的历史数据拉链表存储建模处理的方法，其特征在于，所述的方法包括以下步骤：

4.根据权利要求3所述的实现大数据环境下的历史数据拉链表存储建模处理的方法，其特征在于，所述的步骤(3)中包括拉链表历史数据正常加载数据存储的过程，具体包括以下步骤：

(3.1)创建当月对应的分区，增加当前最新数据分区；

(3.4)将M表中新增标记的数据写入Y表；

(3.5)删除拉链表中已经在Y表存在的记录；

(3.6)将N表中的记录写入目标拉链历史表。

5.根据权利要求3所述的实现大数据环境下的历史数据拉链表存储建模处理的方法，其特征在于，所述的步骤(4)中包括拉链表历史数据回算数据加载存储的过程，具体包括以下步骤：

(4.4)合并所有变化的数据写入A表；

(4.5)删除拉链表中在Y表中已经存在的记录；

(4.6)将A表数据写入拉链表历史表。