CN112035450B

CN112035450B - 一种基于kettle的数据仓库实时构建方法

Info

Publication number: CN112035450B
Application number: CN202010753911.7A
Authority: CN
Inventors: 罗颖; 陈嘉龙
Original assignee: Shenzhen Zhongsheng Ruida Technology Co ltd
Current assignee: Shenzhen Zhongsheng Ruida Technology Co ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2021-10-29
Anticipated expiration: 2040-07-30
Also published as: CN112035450A

Abstract

一种基于kettle的数据仓库的实时构建方法，所述方法包括，构建多层数据处理架构将数据分层处理；从数据源中抽取所需的数据并将抽取的数据清洗得到符合预设要求的数据；将符合预设要求的数据进行联机分析处理、数据挖掘；对数据处理任务进行调度和监管。

Description

一种基于kettle的数据仓库实时构建方法

技术领域

本发明涉及计算机软件技术领域，具体为一种基于kettle的数据仓库实时构建方法。

背景技术

数据仓库的定位于数据库的定位不同，经过20年左右的发展，数据仓库技术已经逐渐趋于成熟，国外对数据仓库的研究起步比较早，研究的积累比较充分，数据仓库中的数据通常包含历史信息，系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息，通过这些信息，可以对企业的发展历程和未来趋势做出定量分析和预测。

随着计算机存储能力的提升和复杂算法的发展，近年来网络数据量成指数级增长，科学数据处理、商业智能数据分析等具有海量数据需求的应用变得越来越普遍，传统的Oracle(mysql)+sql技术架构已不能满足大数据处理要求，对于数据仓库的搭建，业界比较常用的是分布式+ETL的方式，但是基于服务的分布式+ETL数据仓库技术却一直没有比较好的解决方案。

发明内容

本发明为解决以上所述现有技术的缺点，本发明提供了一种基于kettle 的数据仓库的实时构建方法，用于解决现有技术中数据仓库的构建开发。

为了实现上述目的，本发明是通过如下的技术方案来实现：

本发明提出了基于kettle的数据仓库的实时构建方法，其特征在于，包括：

构建多层数据处理架构，利用分层处理架构将数据进行分层处理；

从数据源中抽取所需的数据并将抽取的数据清洗得到符合预设要求的数据；

将符合预设要求的数据进行联机分析处理、数据挖掘；

对数据处理任务进行调度和监管。

优选的，所述多层数据处理架构包括：临时存储从所述数据源表获取的数据的临时存储层、对清洗后的数据进行存储和处理的核心数据层、将数据进行组织形成对应数据主体的数据集市层已经面向用户处理用户输入的具体需求数据的应用层。

优选的，所述抽取数据中常用的捕获变化数据方法包括：

在数据源表上建立插入、修改及删除三个触发器，数据源表中的数据发生插入、修改及删除相应的变化，触发器将变化的数据写入一个临时表，抽取线程从临时表中抽取数据，临时表中抽取过的数据被标记或删除；

在数据源表上增加一个时间戳字段，系统在更新修改数据源表中数据的时候，同时修改时间戳字段的值，当进行数据抽取时，比较系统时间与时间戳字段的值是否一致，一致抽取对应数据，不一致则不进行抽取；

数据源表上建立一个MD5临时表，所述MD5临时表记录数据源表的主键以及根据所有字段的数据计算出来的MD5校验码，每次进行数据抽取时，对数据源表和MD5临时表进行MD5校验码的比对，不一致，则进行修改操作， MD5临时表中没有存在MD5校验码，进行新增操作，数据源表中不存在而MD5 仍保留的MD5校验码，执行删除操作；

通过分析数据库自身的日志来判断变化的数据。

优选的，所述捕获变化数据采用的是ZDI-CDC捕获数据更改平台。

优选的，所述通过分析数据库自身的日志来判断变化的数据具体步骤如下：

创建数据库日志，记录对数据表进行的数据库操作，所述数据操作包括插入、修改及删除；

统计预设时间段内数据库操作的总次数已经对数据表中每一列进行插入、修改及删除的次数；

根据数据库操作的总次数以及对数据表中每一列进行插入、修改删除的次数计算插入、修改及删除的次数占比；

根据插入、修改及删除的次数占比生成索引列名。

优选的，所述将抽取的数据清洗得到符合预设要求的数据中包括：

通过FILTER算子的运算符属性设定，确定数据的筛选条件，对源数据中不符合要求的记录进行筛选处理，获得第一源数据；

通过采用插值法对第一源数据中的空值进行处理，获得第二源数据；

通过PIVOT算子对第二源数据进行拆分，将第二源数据中的一条数据拆分成几条记录，然后分别插入到不同的目标数据中，通过MERGE算子设定相应的判断条件，看记录是否已经在目标数据中存在，若不存在插入新记录，若存在则选择更新或忽略，获得拆分后的源数据；

将拆分后的源数据汇总到一个临时库中，分配统一编号，将其抽取到数据仓库中。

优选的，所述对数据处理任务进行调度和监管的具体步骤如下：

将数据处理任务进行分组、配制任务之间的依赖关系及设置任务的优先级；

根据任务之间的依赖关系及任务的优先级进行调度；

对任务的新增、暂停和删除及任务的运行情况和耗时情况以及重新调度运行失败的任务等操作进行监管。

优选的，所述数据挖掘包括：

数据准备阶段：通过从各种相关的数据源表中选取数据并进行清查和转换，整合成功数据集合；

数据挖掘阶段：通过利用BP神经网络算法从备好的数据集合中对数据进行训练拟合模型，最终通过训练好的模型去判断数据的潜在的关联和规律；

挖掘结果展示和解释：通过以简洁、直观及易懂的界面形式解释数据挖掘所找出的数据集合的内在关联和规律。

所述方法还包括采用DSS应用开发，具体步骤如下：

S901、从数据仓库中确定一个数据范围；

S902、根据数据范围，编写抽取程序获得数据范围内的数据；

S903、将抽取的数据范围内的数据进行合并及提炼，得到合并及提炼后的数据，使数据满足分析处理要求；

S904、将合并及提炼后的数据进行分析处理，并看所得的结果是否满足了预设要求，如果不能满足，则返回步骤S901，开始新的一次循环，若满足，生成分析报告。

优选的，所述将抽取的数据清洗得到符合预设要求的数据中还包括，数据噪声点的处理，所述具体步骤如下：

步骤A1，根据以下公式求出衡量正常数据点与噪声点的阈值：

其中，p(i,j)代表数据临近区域内的数据点的均值，s(i,j)代表数据点标准方差值，L代表标准方差的动态范围内选取的数值，s(i,j)≤L≤s(i,j)+1，q(i,j) 代表衡量正常数据点与噪声点的阈值，k是定义的一个修正参数，0＜k＜1，n,m 分别代表数据的行数和列数；

步骤A2，根据下述公式对数据的噪声点进行处理:

其中，q(i,j)代表衡量正常数据点与噪声点的阈值，

代表数据点的平均值，x(i,j)代表横坐标为i纵坐标为j的去噪前数据点的数据值大小，r(i,j)代表去噪后的大小。

本发明提出了一种基于kettle的数据仓库的实时构建方法，所述方法包括，构建多层数据处理架构将数据分层处理；从数据源中抽取所需的数据并将抽取的数据清洗得到符合预设要求的数据；将符合预设要求的数据进行联机分析处理、数据挖掘；对数据处理任务进行调度和监管，通过本发明的技术方案，从而设计出最好的解决方案,高质量完成数据仓库的实时构建。

附图说明

图1为本发明所述方法的流程图；

图2为本发明所述ZDI-CDC的流程图；

图3为本发明所述Kafka的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提出一种基于kettle的数据仓库的实时构建方法，如图1 所述方法包括：

S1、构建多层数据处理架构，利用分层处理架构将数据进行分层处理；

S2、从数据源中抽取所需的数据并将抽取的数据清洗得到符合预设要求的数据；

S3、将符合预设要求的数据进行联机分析处理、数据挖掘；

S4、对数据处理任务进行调度和监管。

上述技术方案的工作原理为：所述多层数据处理架构包括：临时存储从所述数据源获取的数据的临时存储层、对清洗后的数据进行存储和处理的核心数据层、将数据进行组织形成对应数据主题的数据集市层以及面向用户处理用户输入的具体需求数据的应用层。数据分层可以简化整个数据仓库的构建工作，因为把原来一步的工作分到了多个步骤去完成，相当于把一个复杂的工作拆成了多个简单的工作，将数据仓库分为四层：ODS(临时存储层)、 PDW(数据仓库层)、MID(数据集市层)以及APP(应用层)。

以下对本实施例中的ODS(临时存储层)、PDW(数据仓库层)、MID(数据集市层)以及APP(应用层)进行具体说明。

临时存储层(ODS)是接口数据的临时存储区域，为后一步的数据处理做准备。一般来说ODS层的数据和源数据系统的数据是同构的，主要目的是简化后续数据加工处理的工作。

数据仓库层(PDW)的数据应该是一致的、准确的、干净的数据，即对源数据进行了清洗(去除了杂质)后的数据。这一层的数据一般是遵循数据库第三范式的，其数据粒度通常和ODS的粒度相同。在PDW层会保存BI(Business Intelligence，商业智能)系统中所有的历史数据。

数据集市层(MID)是面向主题来组织数据的，通常是星形或雪花结构的数据。从数据粒度来说，这层的数据是轻度汇总级的数据，已经不存在明细数据了。从数据的时间跨度来说，通常是PDW层的一部分，主要的目的是为了满足用户分析的需求。

应用层(APP)这层数据是完全为了满足具体的分析需求而构建的数据，也是星形或雪花结构的数据。从数据粒度来说是高度汇总的数据。从数据的广度来说，则并不一定会覆盖所有业务数据，而是MID层数据的一个子集。

以下对本实施例中数据源中抽取所需的数据方式进行具体说明：

增量抽取，增量抽取数据中常用的捕获数据方法包括触发器，在要抽取的表上建立、插入、修改及删除三个触发器；时间戳，在源表上增加一个时间戳字段；全表对比，ETL工具在抽取的表中建立结构类似的MD5临时表，记录源表主键根据源表主键已经根据所以字段的数据计算出MD5校验码，对源表和MD5临时表进行MD5校验码进行比对；日志对比，通过分析数据库自身的日志来判断变化的数据，日志对比主要创建数据库日志，记录对数据表进行的数据库操作，所述数据操作包括插入、修改、及删除；统计预设时间段内数据库操作的总次数已经对数据表中每一列进行插入、修改及删除的次数；根据数据库操作的总次数以及对数据表中每一列进行插入、修改删除的次数计算插入、修改及删除的次数占比；根据插入、修改及删除的次数占比生成索引列名，数据清洗包括，冗余数据的处理，通过FILTER算子的运算符属性设定，确定数据的筛选条件，从而可以去掉源数据中不符合要求的记录；数据的拆分，通过PIVOT算子对源数据进行拆分，将一条数据拆分成几天记录，任何分别插入到不同的目标中；数据的重复问题，通过实验MERGE算子设定相应的判断条件，看记录是否已经在目标数据中存在，若不存在插入新记录，若存在则选择更新或忽略；空值处理，采用插值法对源数据中的空值进行处理；数据一致性，将不同来源的数据汇总到一个临时库中，分配统一编号，将数据抽取到数据仓库中。数据挖掘的具体步骤，数据准备阶段，通过从各种相关的数据源中选取所需数据并进行清查和转换，整合成功数据集合；数据挖掘阶段，通过各种不同的算法从准备好的数据集合中发掘潜在的关联和规律；挖掘结果展示和解释，通过以简洁、直观及易懂的界面形式解释数据挖掘所找出的数据集合的内在关联和规律，数据任务进行调度将任务进行分组并根据配置的任务之间的依赖关系进行调度或根据设置的任务的优先级进行调度；对数据处理任务进行监管包括：监管任务的新增、暂停和删除、查看任务的运行情况和耗时情况以及重新调度运行失败的任务。

上述技术方案的效果为：数据分层可以简化整个数据仓库的构建工作，因为把原来一步的工作分到了多个步骤去完成，相当于把一个复杂的工作拆成了多个简单的工作，采用不同的数据抽取方式，利用ZDI-CDC数据捕获平台，能够更好的捕获有用的数据，对数据进行清洗达到筛选数据的功能，能够有效的构建数据仓库，同时，利用以上方法更为简单的构建数据仓库，从而达到了节省时间，提高数据的质量和一致性，更提供了历史的智慧，创建高的投资回报率。

如图2，3所示：从数据库进行传输数据通过ZDI-CDC捕获更改平台捕获数据库中数据，通过sql数据处理转换成json格式，配置Kafka，消费Kafka 数据服务，最终在解析成sql语句用于数据库采用ZDI-CDC捕获数据更改平台，并且利用Kafka和Kafka Connect实现了自己的持久性、可靠性和容错性。每一个部署在Kafka Connect分布式的、可扩展的、容错性的服务中的 connector监控一个上游数据库服务器，捕获所以捕获所有的数据库更改，然后记录到一个或者多个Kafka topic(通常一个数据库表对应一个kafka topic)，Kafka确保所有这些数据更改事件都能够多副本并且总体上有序 (Kafka只能保证一个topic的单个分区内有序)，这样，更多的客户端可以独立消费同样的数据更改事件而对上游数据库系统造成的影响降到很小(如果N 个应用都直接去监控数据库更改，对数据库的压力为N，而用ZDI-CDC汇报数据库更改事件到kafka，所有的应用都去消费kafka中的消息，可以把对数据库的压力降到1)。另外，客户端可以随时停止消费，然后重启，从上次停止消费的地方接着消费。每个客户端可以自行决定他们是否需要exactly-once 或者at-least-once消息交付语义保证，并且所有的数据库或者表的更改事件是按照上游数据库发生的顺序被交付的。

所述方法还包括采用DSS应用开发，具体步骤如下：

S901、从数据仓库中确定一个数据范围；

S902、根据数据范围，编写抽取程序获得数据范围内的数据；

以上述技术方案的工作原理：确定所需的数据，为满足DSS应用的要求，必须从数据仓库中确定一个数据范围，编程抽取数据，编写一个抽取程序来获得这些数据，为使用分析需求多变的特点，合并数据，如果有多个数据抽取源，要将抽来的数据进行合并，提炼，使数据符合分析处理的需求，分析数据，在上部准备好的数据集成上分析数据，并看所得的结果是否满足了预设要求，如果不能满足，则返回第一步，开始新的一次循环，若满足，生成分析报告。

以上述技术方案的效果：DSS应用开发易于使用，特别适合于非计算机专业人员以交互法方式使用，强调对环境及用户决策方法改变的灵活性及适应性，支持但不是代替高层决策者制定决策，决策者提供分析问题、建立模型、模拟决策过程和方案的环境，调用各种信息资源和分析工具，帮助决策者提高决策水平和质量。

所述将抽取的数据清洗得到符合预设要求的数据中还包括，数据噪声点的处理，所述具体步骤如下：

步骤A2，根据下述公式对数据的噪声点进行处理:

其中，q(i,j)代表衡量正常数据点与噪声点的阈值，

有益效果：以上技术通过求取预设阈值，当数据值的大小大于阈值则为噪声点，采用数据的均值代替噪声点，达到噪声点的去除，当数据值的大小小于等于阈值则为正常数据点，不要做修改，对所有数据进行比较，以便于对噪声点的筛选处理，为后期数据清洗得到符合预设要求的数据做了进一步的加强，其中计算阈值法是根据之前迭代而判断阈值发的改进，进而节省了大量的时间。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于kettle的数据仓库的实时构建方法，其特征在于，所述方法包括：

从数据源表中抽取所需的数据并将抽取的数据清洗得到符合预设要求的数据；

将符合预设要求的数据进行联机分析处理、数据挖掘；

对数据处理任务进行调度和监管；

其中，所述将抽取的数据清洗得到符合预设要求的数据中包括：

将拆分后的源数据汇总到一个临时库中，分配统一编号，将其抽取到数据仓库中；

其中，所述将抽取的数据清洗得到符合预设要求的数据中还包括，数据噪声点的处理，具体步骤如下：

其中，p(i,j)代表数据临近区域内的数据点的均值，s(i,j)代表数据点标准方差值，L代表标准方差的动态范围内选取的数值，s(i,j)≤L≤s(i,j)+1，q(i,j) 代表衡量正常数据点与噪声点的阈值，k是定义的一个修正参数，0＜k＜1，n, m分别代表数据的行数和列数；

步骤A2，根据下述公式对数据的噪声点进行处理：

其中，q(i,j)代表衡量正常数据点与噪声点的阈值，

2.根据权利要求1所述的基于kettle的数据仓库的实时构建方法，其特征在于，所述多层数据处理架构包括：临时存储从所述数据源表获取的数据的临时存储层、对清洗后的数据进行存储和处理的核心数据层、将数据进行组织形成对应数据主体的数据集市层已经面向用户处理用户输入的具体需求数据的应用层。

3.根据权利要求1所述的基于kettle的数据仓库的实时构建方法，其特征在于，所述抽取数据中常用的捕获变化数据方法包括：

数据源表上建立一个MD5临时表，所述MD5临时表记录数据源表的主键以及根据所有字段的数据计算出来的MD5校验码，每次进行数据抽取时，对数据源表和MD5临时表进行MD5校验码的比对，不一致，则进行修改操作，MD5临时表中没有存在MD5校验码，进行新增操作，数据源表中不存在而MD5 仍保留的MD5校验码，执行删除操作；

通过分析数据库自身的日志来判断变化的数据。

4.根据权利要求3所述的基于kettle的数据仓库的实时构建方法，其特征在于，所述捕获变化数据采用的是ZDI-CDC捕获数据更改平台。

5.根据权利要求3所述的基于kettle的数据仓库的实时构建方法，其特征在于，所述通过分析数据库自身的日志来判断变化的数据具体步骤如下：

创建数据库日志，记录对数据表进行的数据库操作，所述数据库操作包括插入、修改及删除；

根据插入、修改及删除的次数占比生成索引列名。

6.根据权利要求1所述的基于kettle的数据仓库的实时构建方法，其特征在于，所述对数据处理任务进行调度和监管的具体步骤如下：

根据任务之间的依赖关系及任务的优先级进行调度；

7.根据权利要求1所述的基于kettle的数据仓库的实时构建方法，其特征在于，所述数据挖掘包括：

8.根据权利要求1所述的基于kettle的数据仓库的实时构建方法，其特征在于，所述方法还包括采用DSS应用开发，具体步骤如下：

S901、从数据仓库中确定一个数据范围；

S902、根据数据范围，编写抽取程序获得数据范围内的数据；