CN104933160B

CN104933160B - 一种面向安全监测业务分析的etl框架设计方法

Info

Publication number: CN104933160B
Application number: CN201510363351.3A
Authority: CN
Inventors: 毛莺池; 贾必聪; 艾永平; 易魁; 许峰; 肖海斌; 周晓峰; 王龙宝; 邱小弟; 卢吉; 陈豪; 李然; 周健; 李洪波; 张鹏
Original assignee: Hohai University HHU; Huaneng Lancang River Hydropower Co Ltd
Current assignee: Hohai University HHU; Huaneng Lancang River Hydropower Co Ltd
Priority date: 2015-06-26
Filing date: 2015-06-26
Publication date: 2019-06-28
Anticipated expiration: 2035-06-26
Also published as: CN104933160A

Abstract

本发明公开了一种面向安全监测业务分析的ETL框架设计方法，包括数据抽取、数据转换和数据加载。数据抽取是指从多个异构数据源中获取源数据，通过使用XML适配器确认数据源和使用时间戳进行增量抽取完成；数据转换过程是连接数据抽取过程与数据加载过程的纽带，在该过程中使用“数据处理引擎”和“Redis存储引擎”两个组件进行数据转换；数据加载中，数据的加载主要为最初加载和增量装载两种装载类型，最初加载主要利用“批量加载引擎”进行处理，增量装载则使用“批量加载引擎”和“实时加载引擎”结合的方式进行处理。本发明可以实现异构数据的高度统一，为后续的决策支持工作打下基础。

Description

一种面向安全监测业务分析的ETL框架设计方法

技术领域

本发明涉及一种面向安全监测业务分析的ETL框架设计方法，具体涉及一种面向大坝工程安全监测领域中安全监测业务分析的数据抽取-转换-加载框架的设计，实现对安全监测异构数据的高度统一。

背景技术

大坝是我国国民经济建设及社会发展的重要基础设施，提高对大坝的安全认识和管理水平，对发挥大坝的作用具有重大意义。为保证大坝在筹备期、建设期及运行期各个阶段的坝体安全，根据坝型、地质条件的不同，一般的大坝安全监测体系设置有大坝强震监测系统、水库水情测报系统、应力应变监测系统及坝内温度裂缝专项监测等。

由于大坝安全的监测项目繁多且大多互相影响，现阶段大坝安全监测面临多套安全监测系统进行整理与集成的迫切需求。考虑到系统直接整合难度大，收效小，采用系统数据整合的方式无疑更加合理。

数据的集中存储并不是大坝安全监测数据整合的最终目的，实现异构数据的高度统一才能为后续的决策支持工作打下夯实的基础。数据仓库技术可以保证数据的准确性、一致性、易用性和综合性，为各类决策系统提供安全统一的数据源。利用数据仓库的特性，可以高效的进行数据挖掘(DM)、联机分析(OLAP)等后续工作。在大坝安全监测领域，建立基于异构数据源的数据仓库已迫在眉睫。

因此，如何解决传统的ETL框架处理该类业务数据时存在的并发限制和可扩展性等问题，在分析大坝安全领域实际产生数据的结构的基础上，是面向安全监测业务分析必须解决的问题，也是本发明所要解决的问题。

发明内容

发明目的：为了解决传统的ETL框架处理该类业务数据时存在的并发限制和可扩展性等问题。由于大坝安全的监测项目繁多且大多互相影响，现阶段大坝安全监测面临多套安全监测系统进行整理与集成的迫切需求。考虑到系统直接整合难度大，收效小，采用系统数据整合的方式无疑更加合理。如何实现对安全监测异构数据的高度统一，本发明给出一种面向安全监测业务分析的ETL框架设计方法解决此问题。

技术方案：一种面向安全监测业务分析的ETL框架设计方法，包括：

(1)数据抽取：使用XML适配器确认数据源；XML适配器采用XML配置文件的方式，确认数据源和数据仓库两方面的连接信息，并检查和确定数据源是否可以提供数据仓库需要的数据。使用增量抽取技术引擎进行数据抽取；在Storm平台的Spout组件中，利用守护进程nextTuple()方法，可以定时利用时间戳将源数据与数据仓库数据进行对比，若有增量数据，则可通过nextTuple()方法进行处理后提交给后续组件进行执行，从而完成增量数据抽取的工作。

(2)数据处理引擎通过数据转换算法家族来分配具体的数据处理策略，包括：1、选择过滤算法；2、分离/合并算法；3、排序算法；4、汇总算法；5、公式计算算法；6、字段转换算法。其中，最常用的算法策略为选择过滤算法和分离/合并算法。Redis存储引擎可用于缓存多个设备的临时记录信息，通过Storm平台的分布式并发特性，多个设备信息可以并行的进行处理，当每个设备的记录缓存到一定数据量后，可以将这些数据提交给数据处理引擎进行处理，数据处理引擎处理后的中间结果也可以继续缓存到Redis缓存引擎中，通过这种机制，在数据转换中，在不涉及到数据仓库相关数据的情况下，仅从数据源数据出发，不借助于任何数据仓库相关的关系型数据存储设备，即可进行大量的数据转换计算任务。

(3)数据加载中主要为最初加载和增量加载两种装载类型：最初加载主要利用“批量加载引擎”进行处理。增量加载则使用“批量加载引擎”和“实时加载引擎”结合的方式进行处理。

附图说明

图1为面向安全监测业务分析的ETL框架设计方法结构图；

图2为面向安全监测业务分析的ETL框架设计方法数据处理引擎结构图；

图3为面向安全监测业务分析的ETL框架设计方法Redis处理引擎结构图。

具体实施方式

下面结合具体实施例，进一步阐明本发明。

图1为面向安全监测业务分析的ETL框架设计方法结构图。面向安全监测业务分析的ETL框架设计方法包括数据抽取模块、数据转换模块和数据加载模块。

数据抽取模块是指从多个异构数据源中获取源数据的过程，通过使用XML适配器确认数据源和使用增量抽取技术引擎进行数据抽取。

数据转换模块是连接数据抽取过程与数据加载过程的纽带，在该过程中使用“数据处理引擎”和“Redis存储引擎”两个组件进行数据转换。

数据加载模块，数据的加载主要为最初加载和增量装载两种装载类型，最初加载主要利用“批量加载引擎”进行处理，增量装载则使用“批量加载引擎”和“实时加载引擎”结合的方式进行处理。

图2为面向安全监测业务分析的ETL框架设计方法数据处理引擎结构图。数据处理引擎通过数据转换算法家族来分配具体的数据处理策略，包括：1、选择过滤算法；2、分离/合并算法；3、排序算法；4、汇总算法；5、公式计算算法；6、字段转换算法。其中，最常用的的算法策略为选择过滤算法和分离/合并算法。

图3为面向安全监测业务分析的ETL框架设计方法Redis处理引擎结构图。Redis存储引擎的主要作用是缓存数据转换过程中需要存储的中间结果。对于高并发的应用，若采用数据库的形式来存储中间结果，首先，对数据库的读写压力非常巨大，很容易造成数据库的宕机，其次，假如将大量的中间结果存入数据库，对数据库的容量也是一个巨大的考验。针对上述情况，采用内存系统来缓存中间结果可以大幅度提高系统的读写效率，且缓存的空间易于清空重置，不存在存储空间大小的限制。

数据转换模块中的Redis存储引擎可用于缓存多个设备的临时记录信息，通过Storm平台的分布式并发特性，多个设备信息可以并行的进行处理，当每个设备的记录缓存到一定数据量后，可以将这些数据提交给数据处理引擎进行处理，数据处理引擎处理后的中间结果也可以继续缓存到Redis缓存引擎中，通过这种机制，在数据转换模块，在不涉及到数据仓库相关数据的情况下，仅从数据源数据出发，不借助于任何数据仓库相关的关系型数据存储设备，即可进行大量的数据转换计算任务，可大幅提高系统的并发性能和读写性能。

一种面向安全监测业务分析的ETL框架设计方法，包括：

(2)数据处理引擎通过数据转换算法家族来分配具体的数据处理策略，数据转换算法家族包括：1、选择过滤算法；2、分离/合并算法；3、排序算法；4、汇总算法；5、公式计算算法；6、字段转换算法等。其中，最常用的算法策略为选择过滤算法和分离/合并算法。本文提出了一种基于预处理的分配具体的数据处理策略。下面说明数据处理引擎如何通过数据转换算法家族来分配具体的数据处理策略。在取得需要进行处理的数据时，对已有数据进行备份，并将部分数据同时使用数据转换算法家族的算法进行转换，并及时记录不同算法对部分数据的处理效率，选择处理时间最短、效率最高的算法进行下一步运算，即可完成分配具体的数据处理策略。

Redis存储引擎可用于缓存多个设备的临时记录信息，通过Storm平台的分布式并发特性，多个设备信息可以并行的进行处理，当每个设备的记录缓存到一定数据量后，可以将这些数据提交给数据处理引擎进行处理，数据处理引擎处理后的中间结果也可以继续缓存到Redis缓存引擎中。对于缓存记录的替换和提交，通过设定一个最小空间minimum(Vol)，在更新缓存记录之前，判断该设备缓存空间的大小和最小空间minimum(Vol)的大小，如果大于最小空间，继续插入新的缓存数据，如果小于最小空间，停止插入新的数据，并将数据提交到数据处理引擎。

通过这种机制，在数据转换中，在不涉及到数据仓库相关数据的情况下，仅从数据源数据出发，不借助于任何数据仓库相关的关系型数据存储设备，即可进行大量的数据转换计算任务。

本发明提出的面向安全监测业务分析的ETL框架设计方法，所述步骤(1)数据抽取的具体过程如下：

(1.1)使用XML适配器确认数据源；XML设配器的主要功能是解决ETL数据抽取需求环节中的确认数据源需求，通过该需求可知，由于ETL的目的数据库为数据仓库，则需要确认数据源和数据仓库两方面的连接信息，并检查和确定数据源是否可以提供数据仓库需要的数据。

XML适配器采用XML配置文件的方式，在connectConfig文件中对数据源及数据仓库进行了配置，其具体配置方式如下所示：

从配置信息中可以看出，每个<connectConfig>标签适配于一个数据源，该标签下的所有子标签为数据源的连接属性，特别的，<key>标签为数据源对应信息标示位，它表明一组对应的数据源与数据仓库信息。通过该XML配置文件，可以适配多组数据源与数据仓库信息。

XML适配器采用XML配置文件的方式，在tableConfig文件中对数据源及数据仓库的字段对应信息进行了配置，其具体配置方式如下所示：

从配置信息中可以看出，每个<table>标签适配于一组表层面的对应信息，其中sourceTable代表源数据源的数据库表名，targetTable代表目标数据源中的数据库表名，特别的，sourceDef这个配置项比较特殊，由于ETL框架中特有的对源数据的分表转换设计，sourceDef这个配置项用于支持分表操作，作用是指明目标表是由原表的何种分类策略进行数据转换。<property>标签用于源表与目标表的字段对应，其中property对应于目标表中的字段，column对应于源表中的字段，而default属性可以指定目标表字段的默认值，timestamp属性指明表的时间戳，此属性对数据抽取过程中增量抽取的顺利实施影响重大。XML适配器适用于传统的关系型数据库，通过该适配器可以解决大部分的业务系统数据迁移问题。

(1.2)使用增量抽取技术引擎进行数据抽取；处理增量数据的处理问题是ETL工具设计中的一个重点。目前常用的捕获数据源变化数据的方法主要有以下几种：(1)读取数据库日志；(2)时间戳；(3)数据比较差异；(4)触发器+数据变更记录。对于ETL框架中的业务系统数据源数据，根据大坝安全监测数据的特点，数据记录的时间戳属性均被设计为数据表的主键，在这种情况下，直接使用时间戳来进行增量抽取，可以降低工作量和工作难度，并具有较高的执行效率。

在设计实现时，在Storm平台的Spout组件中，利用守护进程nextTuple()方法，可以定时利用时间戳将源数据与数据仓库数据进行对比，若有增量数据，则可通过nextTuple()方法进行处理后提交给后续组件进行执行，从而完成增量数据抽取的工作。

本发明提出的面向安全监测业务分析的ETL框架设计方法，所述步骤(2)数据转换的具体过程如下：

数据转换过程是连接数据抽取过程与数据加载过程的纽带，其在ETL过程中起到决定性的作用。ETL的转换过程包括以下4个方面：1、空值处理：若在转换过程中获取到某些字段存在空值，则可按照定义将该字段的空值替换为预订数值或者不作任何处理；2、格式化数据：根据业务数据源中各个字段的数据类型，进行数据格式的格式化化操作。例如，统一将数值类型转化成字符串类型；3、数据重构：根据数据建模关系进行字段的拆分、合并等操作，是最为典型的ETL的转换过程；4、数据过滤：根据数据建模关系对数据进行过滤，此过程比较复杂，依据业务规则的不同，在各个ETL过程中差异较大，是需要重点关注和解决的问题。

本方法提出的面向安全监测业务分析的ETL框架，结合大坝安全监测数据数据模型特点，在数据转换模块设计了“数据处理引擎”和“Redis存储引擎”两个组件，其中，“数据处理引擎”组件如图2所示，“Redis存储引擎”组件如图3所示。

(2.1)数据处理引擎；数据处理引擎通过数据转换算法家族来分配具体的数据处理策略，包括：1、选择过滤算法；2、分离/合并算法；3、排序算法；4、汇总算法；5、公式计算算法；6、字段转换算法。其中，最常用的算法策略为选择过滤算法和分离/合并算法。本文提出了一种基于预处理的分配具体的数据处理策略。下面说明数据处理引擎如何通过数据转换算法家族来分配具体的数据处理策略。在取得需要进行处理的数据时，对已有数据进行备份，并将数据中的一部分同时使用数据转换算法家族的算法进行转换，并及时记录不同算法对部分数据的处理效率，选择处理时间最短、效率最高的算法进行下一步运算，即可完成分配具体的数据处理策略。

(2.2)Redis存储引擎的主要作用是缓存数据转换过程中需要存储的中间结果。对于高并发的应用，若采用数据库的形式来存储中间结果，首先，对数据库的读写压力非常巨大，很容易造成数据库的宕机，其次，假如将大量的中间结果存入数据库，对数据库的容量也是一个巨大的考验。针对上述情况，采用内存系统来缓存中间结果可以大幅度提高系统的读写效率，且缓存的空间易于清空重置，不存在存储空间大小的限制。

数据转换模块中的Redis存储引擎可用于缓存多个设备的临时记录信息，通过Storm平台的分布式并发特性，多个设备信息可以并行的进行处理，当每个设备的记录缓存到一定数据量后，可以将这些数据提交给数据处理引擎进行处理，数据处理引擎处理后的中间结果也可以继续缓存到Redis缓存引擎中。对于缓存记录的替换和提交，通过设定一个最小空间minimum(Vol)，在更新缓存记录之前，判断该设备缓存空间的大小和最小空间minimum(Vol)的大小，如果大于最小空间，继续插入新的缓存数据，如果小于最小空间，停止插入新的数据，并将数据提交到数据处理引擎。

通过这种机制，在数据转换模块，在不涉及到数据仓库相关数据的情况下，仅从数据源数据出发，不借助于任何数据仓库相关的关系型数据存储设备，即可进行大量的数据转换计算任务，可大幅提高系统的并发性能和读写性能。

本发明提出的面向安全监测业务分析的ETL框架设计方法，所述步骤(2)数据加载的具体过程如下：

面向安全监测业务分析的ETL框架设计方法中，数据的加载主要为最初加载和增量装载两种装载类型。最初加载主要利用“批量加载引擎”进行处理，增量装载则使用“批量加载引擎”和“实时加载引擎”结合的方式进行处理。

以下为批量加载引擎实现方法。本方法提供了利用Java语言实现每加载1000条记录进行批量数据导入的功能。实时加载引擎可在该代码基础上进行简化，即对数据流中每个数据元组进行直接入库。效率上会稍低于批量加载引擎，但实时性会相应增加。

应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

Claims

1.一种面向安全监测业务分析的ETL框架设计方法，其特征在于，包括数据抽取、数据转换和数据加载，具体为：

（1）数据抽取：使用XML适配器确认数据源；XML适配器采用XML配置文件的方式，确认数据源和数据仓库两方面的连接信息，并检查和确定数据源是否可以提供数据仓库需要的数据；使用增量抽取技术引擎进行数据抽取；

XML适配器采用XML配置文件的方式，在connectConfig文件中对数据源及数据仓库进行了配置，每个<connectConfig>标签适配于一个数据源，该标签下的所有子标签为数据源的连接属性，特别的，<key>标签为数据源对应信息标示位，它表明一组对应的数据源与数据仓库信息；通过该XML配置文件，适配多组数据源与数据仓库信息；

在tableConfig文件中对数据源及数据仓库的字段对应信息进行了配置，每个<table>标签适配于一组表层面的对应信息，其中sourceTable代表源数据源的数据库表名，targetTable代表目标数据源中的数据库表名，sourceDef这个配置项用于支持分表操作，作用是指明目标表是由原表的何种分类策略进行数据转换；<property>标签用于源表与目标表的字段对应，其中property对应于目标表中的字段，column对应于源表中的字段，而default属性能指定目标表字段的默认值，timestamp属性指明表的时间戳，此属性对数据抽取过程中增量抽取的顺利实施影响重大；XML适配器适用于传统的关系型数据库，通过该适配器能解决大部分的业务系统数据迁移问题；

（2）数据转换：通过数据处理引擎和Redis存储引擎两个组件实现，数据处理引擎通过数据转换算法家族来分配具体的数据处理策略；

（3）数据加载：主要为最初加载和增量加载两种装载类型；最初加载主要利用“批量加载引擎”进行处理；增量加载则使用“批量加载引擎”和“实时加载引擎”结合的方式进行处理；

使用增量抽取技术引擎进行数据抽取，在Storm平台的Spout组件中，利用守护进程nextTuple()方法，定时利用时间戳将源数据与数据仓库数据进行对比，若有增量数据，则能通过nextTuple()方法进行处理后提交给后续组件进行执行，从而完成增量数据抽取的工作；

对于ETL框架中的业务系统数据源数据，根据大坝安全监测数据的特点，数据记录的时间戳属性均被设计为数据表的主键。

2.如权利要求1所述的面向安全监测业务分析的ETL框架设计方法，其特征在于：

（2.1）数据处理引擎通过数据转换算法家族来分配具体的数据处理策略，包括：1、选择过滤算法；2、分离/合并算法；3、排序算法；4、汇总算法；5、公式计算算法；6、字段转换算法；

（2.2）Redis存储引擎用于缓存多个设备的临时记录信息，通过Storm平台的分布式并发特性，多个设备信息能并行的进行处理，当每个设备的记录缓存到一定数据量后，将这些数据提交给数据处理引擎进行处理，数据处理引擎处理后的中间结果也能继续缓存到Redis缓存引擎中，通过这种机制，在数据转换模块，在不涉及到数据仓库相关数据的情况下，仅从数据源数据出发，不借助于任何数据仓库相关的关系型数据存储设备，即进行大量的数据转换计算任务。