CN104933160B - 一种面向安全监测业务分析的etl框架设计方法 - Google Patents

一种面向安全监测业务分析的etl框架设计方法 Download PDF

Info

Publication number
CN104933160B
CN104933160B CN201510363351.3A CN201510363351A CN104933160B CN 104933160 B CN104933160 B CN 104933160B CN 201510363351 A CN201510363351 A CN 201510363351A CN 104933160 B CN104933160 B CN 104933160B
Authority
CN
China
Prior art keywords
data
source
load
engine
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510363351.3A
Other languages
English (en)
Other versions
CN104933160A (zh
Inventor
毛莺池
贾必聪
艾永平
易魁
许峰
肖海斌
周晓峰
王龙宝
邱小弟
卢吉
陈豪
李然
周健
李洪波
张鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Huaneng Lancang River Hydropower Co Ltd
Original Assignee
Hohai University HHU
Huaneng Lancang River Hydropower Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU, Huaneng Lancang River Hydropower Co Ltd filed Critical Hohai University HHU
Priority to CN201510363351.3A priority Critical patent/CN104933160B/zh
Publication of CN104933160A publication Critical patent/CN104933160A/zh
Application granted granted Critical
Publication of CN104933160B publication Critical patent/CN104933160B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向安全监测业务分析的ETL框架设计方法,包括数据抽取、数据转换和数据加载。数据抽取是指从多个异构数据源中获取源数据,通过使用XML适配器确认数据源和使用时间戳进行增量抽取完成;数据转换过程是连接数据抽取过程与数据加载过程的纽带,在该过程中使用“数据处理引擎”和“Redis存储引擎”两个组件进行数据转换;数据加载中,数据的加载主要为最初加载和增量装载两种装载类型,最初加载主要利用“批量加载引擎”进行处理,增量装载则使用“批量加载引擎”和“实时加载引擎”结合的方式进行处理。本发明可以实现异构数据的高度统一,为后续的决策支持工作打下基础。

Description

一种面向安全监测业务分析的ETL框架设计方法
技术领域
本发明涉及一种面向安全监测业务分析的ETL框架设计方法,具体涉及一种面向大坝工程安全监测领域中安全监测业务分析的数据抽取-转换-加载框架的设计,实现对安全监测异构数据的高度统一。
背景技术
大坝是我国国民经济建设及社会发展的重要基础设施,提高对大坝的安全认识和管理水平,对发挥大坝的作用具有重大意义。为保证大坝在筹备期、建设期及运行期各个阶段的坝体安全,根据坝型、地质条件的不同,一般的大坝安全监测体系设置有大坝强震监测系统、水库水情测报系统、应力应变监测系统及坝内温度裂缝专项监测等。
由于大坝安全的监测项目繁多且大多互相影响,现阶段大坝安全监测面临多套安全监测系统进行整理与集成的迫切需求。考虑到系统直接整合难度大,收效小,采用系统数据整合的方式无疑更加合理。
数据的集中存储并不是大坝安全监测数据整合的最终目的,实现异构数据的高度统一才能为后续的决策支持工作打下夯实的基础。数据仓库技术可以保证数据的准确性、一致性、易用性和综合性,为各类决策系统提供安全统一的数据源。利用数据仓库的特性,可以高效的进行数据挖掘(DM)、联机分析(OLAP)等后续工作。在大坝安全监测领域,建立基于异构数据源的数据仓库已迫在眉睫。
因此,如何解决传统的ETL框架处理该类业务数据时存在的并发限制和可扩展性等问题,在分析大坝安全领域实际产生数据的结构的基础上,是面向安全监测业务分析必须解决的问题,也是本发明所要解决的问题。
发明内容
发明目的:为了解决传统的ETL框架处理该类业务数据时存在的并发限制和可扩展性等问题。由于大坝安全的监测项目繁多且大多互相影响,现阶段大坝安全监测面临多套安全监测系统进行整理与集成的迫切需求。考虑到系统直接整合难度大,收效小,采用系统数据整合的方式无疑更加合理。如何实现对安全监测异构数据的高度统一,本发明给出一种面向安全监测业务分析的ETL框架设计方法解决此问题。
技术方案:一种面向安全监测业务分析的ETL框架设计方法,包括:
(1)数据抽取:使用XML适配器确认数据源;XML适配器采用XML配置文件的方式,确认数据源和数据仓库两方面的连接信息,并检查和确定数据源是否可以提供数据仓库需要的数据。使用增量抽取技术引擎进行数据抽取;在Storm平台的Spout组件中,利用守护进程nextTuple()方法,可以定时利用时间戳将源数据与数据仓库数据进行对比,若有增量数据,则可通过nextTuple()方法进行处理后提交给后续组件进行执行,从而完成增量数据抽取的工作。
(2)数据处理引擎通过数据转换算法家族来分配具体的数据处理策略,包括:1、选择过滤算法;2、分离/合并算法;3、排序算法;4、汇总算法;5、公式计算算法;6、字段转换算法。其中,最常用的算法策略为选择过滤算法和分离/合并算法。Redis存储引擎可用于缓存多个设备的临时记录信息,通过Storm平台的分布式并发特性,多个设备信息可以并行的进行处理,当每个设备的记录缓存到一定数据量后,可以将这些数据提交给数据处理引擎进行处理,数据处理引擎处理后的中间结果也可以继续缓存到Redis缓存引擎中,通过这种机制,在数据转换中,在不涉及到数据仓库相关数据的情况下,仅从数据源数据出发,不借助于任何数据仓库相关的关系型数据存储设备,即可进行大量的数据转换计算任务。
(3)数据加载中主要为最初加载和增量加载两种装载类型:最初加载主要利用“批量加载引擎”进行处理。增量加载则使用“批量加载引擎”和“实时加载引擎”结合的方式进行处理。
附图说明
图1为面向安全监测业务分析的ETL框架设计方法结构图;
图2为面向安全监测业务分析的ETL框架设计方法数据处理引擎结构图;
图3为面向安全监测业务分析的ETL框架设计方法Redis处理引擎结构图。
具体实施方式
下面结合具体实施例,进一步阐明本发明。
图1为面向安全监测业务分析的ETL框架设计方法结构图。面向安全监测业务分析的ETL框架设计方法包括数据抽取模块、数据转换模块和数据加载模块。
数据抽取模块是指从多个异构数据源中获取源数据的过程,通过使用XML适配器确认数据源和使用增量抽取技术引擎进行数据抽取。
数据转换模块是连接数据抽取过程与数据加载过程的纽带,在该过程中使用“数据处理引擎”和“Redis存储引擎”两个组件进行数据转换。
数据加载模块,数据的加载主要为最初加载和增量装载两种装载类型,最初加载主要利用“批量加载引擎”进行处理,增量装载则使用“批量加载引擎”和“实时加载引擎”结合的方式进行处理。
图2为面向安全监测业务分析的ETL框架设计方法数据处理引擎结构图。数据处理引擎通过数据转换算法家族来分配具体的数据处理策略,包括:1、选择过滤算法;2、分离/合并算法;3、排序算法;4、汇总算法;5、公式计算算法;6、字段转换算法。其中,最常用的的算法策略为选择过滤算法和分离/合并算法。
图3为面向安全监测业务分析的ETL框架设计方法Redis处理引擎结构图。Redis存储引擎的主要作用是缓存数据转换过程中需要存储的中间结果。对于高并发的应用,若采用数据库的形式来存储中间结果,首先,对数据库的读写压力非常巨大,很容易造成数据库的宕机,其次,假如将大量的中间结果存入数据库,对数据库的容量也是一个巨大的考验。针对上述情况,采用内存系统来缓存中间结果可以大幅度提高系统的读写效率,且缓存的空间易于清空重置,不存在存储空间大小的限制。
数据转换模块中的Redis存储引擎可用于缓存多个设备的临时记录信息,通过Storm平台的分布式并发特性,多个设备信息可以并行的进行处理,当每个设备的记录缓存到一定数据量后,可以将这些数据提交给数据处理引擎进行处理,数据处理引擎处理后的中间结果也可以继续缓存到Redis缓存引擎中,通过这种机制,在数据转换模块,在不涉及到数据仓库相关数据的情况下,仅从数据源数据出发,不借助于任何数据仓库相关的关系型数据存储设备,即可进行大量的数据转换计算任务,可大幅提高系统的并发性能和读写性能。
一种面向安全监测业务分析的ETL框架设计方法,包括:
(1)数据抽取:使用XML适配器确认数据源;XML适配器采用XML配置文件的方式,确认数据源和数据仓库两方面的连接信息,并检查和确定数据源是否可以提供数据仓库需要的数据。使用增量抽取技术引擎进行数据抽取;在Storm平台的Spout组件中,利用守护进程nextTuple()方法,可以定时利用时间戳将源数据与数据仓库数据进行对比,若有增量数据,则可通过nextTuple()方法进行处理后提交给后续组件进行执行,从而完成增量数据抽取的工作。
(2)数据处理引擎通过数据转换算法家族来分配具体的数据处理策略,数据转换算法家族包括:1、选择过滤算法;2、分离/合并算法;3、排序算法;4、汇总算法;5、公式计算算法;6、字段转换算法等。其中,最常用的算法策略为选择过滤算法和分离/合并算法。本文提出了一种基于预处理的分配具体的数据处理策略。下面说明数据处理引擎如何通过数据转换算法家族来分配具体的数据处理策略。在取得需要进行处理的数据时,对已有数据进行备份,并将部分数据同时使用数据转换算法家族的算法进行转换,并及时记录不同算法对部分数据的处理效率,选择处理时间最短、效率最高的算法进行下一步运算,即可完成分配具体的数据处理策略。
Redis存储引擎可用于缓存多个设备的临时记录信息,通过Storm平台的分布式并发特性,多个设备信息可以并行的进行处理,当每个设备的记录缓存到一定数据量后,可以将这些数据提交给数据处理引擎进行处理,数据处理引擎处理后的中间结果也可以继续缓存到Redis缓存引擎中。对于缓存记录的替换和提交,通过设定一个最小空间minimum(Vol),在更新缓存记录之前,判断该设备缓存空间的大小和最小空间minimum(Vol)的大小,如果大于最小空间,继续插入新的缓存数据,如果小于最小空间,停止插入新的数据,并将数据提交到数据处理引擎。
通过这种机制,在数据转换中,在不涉及到数据仓库相关数据的情况下,仅从数据源数据出发,不借助于任何数据仓库相关的关系型数据存储设备,即可进行大量的数据转换计算任务。
(3)数据加载中主要为最初加载和增量加载两种装载类型:最初加载主要利用“批量加载引擎”进行处理。增量加载则使用“批量加载引擎”和“实时加载引擎”结合的方式进行处理。
本发明提出的面向安全监测业务分析的ETL框架设计方法,所述步骤(1)数据抽取的具体过程如下:
(1.1)使用XML适配器确认数据源;XML设配器的主要功能是解决ETL数据抽取需求环节中的确认数据源需求,通过该需求可知,由于ETL的目的数据库为数据仓库,则需要确认数据源和数据仓库两方面的连接信息,并检查和确定数据源是否可以提供数据仓库需要的数据。
XML适配器采用XML配置文件的方式,在connectConfig文件中对数据源及数据仓库进行了配置,其具体配置方式如下所示:
从配置信息中可以看出,每个<connectConfig>标签适配于一个数据源,该标签下的所有子标签为数据源的连接属性,特别的,<key>标签为数据源对应信息标示位,它表明一组对应的数据源与数据仓库信息。通过该XML配置文件,可以适配多组数据源与数据仓库信息。
XML适配器采用XML配置文件的方式,在tableConfig文件中对数据源及数据仓库的字段对应信息进行了配置,其具体配置方式如下所示:
从配置信息中可以看出,每个<table>标签适配于一组表层面的对应信息,其中sourceTable代表源数据源的数据库表名,targetTable代表目标数据源中的数据库表名,特别的,sourceDef这个配置项比较特殊,由于ETL框架中特有的对源数据的分表转换设计,sourceDef这个配置项用于支持分表操作,作用是指明目标表是由原表的何种分类策略进行数据转换。<property>标签用于源表与目标表的字段对应,其中property对应于目标表中的字段,column对应于源表中的字段,而default属性可以指定目标表字段的默认值,timestamp属性指明表的时间戳,此属性对数据抽取过程中增量抽取的顺利实施影响重大。XML适配器适用于传统的关系型数据库,通过该适配器可以解决大部分的业务系统数据迁移问题。
(1.2)使用增量抽取技术引擎进行数据抽取;处理增量数据的处理问题是ETL工具设计中的一个重点。目前常用的捕获数据源变化数据的方法主要有以下几种:(1)读取数据库日志;(2)时间戳;(3)数据比较差异;(4)触发器+数据变更记录。对于ETL框架中的业务系统数据源数据,根据大坝安全监测数据的特点,数据记录的时间戳属性均被设计为数据表的主键,在这种情况下,直接使用时间戳来进行增量抽取,可以降低工作量和工作难度,并具有较高的执行效率。
在设计实现时,在Storm平台的Spout组件中,利用守护进程nextTuple()方法,可以定时利用时间戳将源数据与数据仓库数据进行对比,若有增量数据,则可通过nextTuple()方法进行处理后提交给后续组件进行执行,从而完成增量数据抽取的工作。
本发明提出的面向安全监测业务分析的ETL框架设计方法,所述步骤(2)数据转换的具体过程如下:
数据转换过程是连接数据抽取过程与数据加载过程的纽带,其在ETL过程中起到决定性的作用。ETL的转换过程包括以下4个方面:1、空值处理:若在转换过程中获取到某些字段存在空值,则可按照定义将该字段的空值替换为预订数值或者不作任何处理;2、格式化数据:根据业务数据源中各个字段的数据类型,进行数据格式的格式化化操作。例如,统一将数值类型转化成字符串类型;3、数据重构:根据数据建模关系进行字段的拆分、合并等操作,是最为典型的ETL的转换过程;4、数据过滤:根据数据建模关系对数据进行过滤,此过程比较复杂,依据业务规则的不同,在各个ETL过程中差异较大,是需要重点关注和解决的问题。
本方法提出的面向安全监测业务分析的ETL框架,结合大坝安全监测数据数据模型特点,在数据转换模块设计了“数据处理引擎”和“Redis存储引擎”两个组件,其中,“数据处理引擎”组件如图2所示,“Redis存储引擎”组件如图3所示。
(2.1)数据处理引擎;数据处理引擎通过数据转换算法家族来分配具体的数据处理策略,包括:1、选择过滤算法;2、分离/合并算法;3、排序算法;4、汇总算法;5、公式计算算法;6、字段转换算法。其中,最常用的算法策略为选择过滤算法和分离/合并算法。本文提出了一种基于预处理的分配具体的数据处理策略。下面说明数据处理引擎如何通过数据转换算法家族来分配具体的数据处理策略。在取得需要进行处理的数据时,对已有数据进行备份,并将数据中的一部分同时使用数据转换算法家族的算法进行转换,并及时记录不同算法对部分数据的处理效率,选择处理时间最短、效率最高的算法进行下一步运算,即可完成分配具体的数据处理策略。
(2.2)Redis存储引擎的主要作用是缓存数据转换过程中需要存储的中间结果。对于高并发的应用,若采用数据库的形式来存储中间结果,首先,对数据库的读写压力非常巨大,很容易造成数据库的宕机,其次,假如将大量的中间结果存入数据库,对数据库的容量也是一个巨大的考验。针对上述情况,采用内存系统来缓存中间结果可以大幅度提高系统的读写效率,且缓存的空间易于清空重置,不存在存储空间大小的限制。
数据转换模块中的Redis存储引擎可用于缓存多个设备的临时记录信息,通过Storm平台的分布式并发特性,多个设备信息可以并行的进行处理,当每个设备的记录缓存到一定数据量后,可以将这些数据提交给数据处理引擎进行处理,数据处理引擎处理后的中间结果也可以继续缓存到Redis缓存引擎中。对于缓存记录的替换和提交,通过设定一个最小空间minimum(Vol),在更新缓存记录之前,判断该设备缓存空间的大小和最小空间minimum(Vol)的大小,如果大于最小空间,继续插入新的缓存数据,如果小于最小空间,停止插入新的数据,并将数据提交到数据处理引擎。
通过这种机制,在数据转换模块,在不涉及到数据仓库相关数据的情况下,仅从数据源数据出发,不借助于任何数据仓库相关的关系型数据存储设备,即可进行大量的数据转换计算任务,可大幅提高系统的并发性能和读写性能。
本发明提出的面向安全监测业务分析的ETL框架设计方法,所述步骤(2)数据加载的具体过程如下:
面向安全监测业务分析的ETL框架设计方法中,数据的加载主要为最初加载和增量装载两种装载类型。最初加载主要利用“批量加载引擎”进行处理,增量装载则使用“批量加载引擎”和“实时加载引擎”结合的方式进行处理。
以下为批量加载引擎实现方法。本方法提供了利用Java语言实现每加载1000条记录进行批量数据导入的功能。实时加载引擎可在该代码基础上进行简化,即对数据流中每个数据元组进行直接入库。效率上会稍低于批量加载引擎,但实时性会相应增加。
应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

Claims (2)

1.一种面向安全监测业务分析的ETL框架设计方法,其特征在于,包括数据抽取、数据转换和数据加载,具体为:
(1)数据抽取:使用XML适配器确认数据源;XML适配器采用XML配置文件的方式,确认数据源和数据仓库两方面的连接信息,并检查和确定数据源是否可以提供数据仓库需要的数据;使用增量抽取技术引擎进行数据抽取;
XML适配器采用XML配置文件的方式,在connectConfig文件中对数据源及数据仓库进行了配置,每个<connectConfig>标签适配于一个数据源,该标签下的所有子标签为数据源的连接属性,特别的,<key>标签为数据源对应信息标示位,它表明一组对应的数据源与数据仓库信息;通过该XML配置文件,适配多组数据源与数据仓库信息;
在tableConfig文件中对数据源及数据仓库的字段对应信息进行了配置,每个<table>标签适配于一组表层面的对应信息,其中sourceTable代表源数据源的数据库表名,targetTable代表目标数据源中的数据库表名,sourceDef这个配置项用于支持分表操作,作用是指明目标表是由原表的何种分类策略进行数据转换;<property>标签用于源表与目标表的字段对应,其中property对应于目标表中的字段,column对应于源表中的字段,而default属性能指定目标表字段的默认值,timestamp属性指明表的时间戳,此属性对数据抽取过程中增量抽取的顺利实施影响重大;XML适配器适用于传统的关系型数据库,通过该适配器能解决大部分的业务系统数据迁移问题;
(2)数据转换:通过数据处理引擎和Redis存储引擎两个组件实现,数据处理引擎通过数据转换算法家族来分配具体的数据处理策略;
(3)数据加载:主要为最初加载和增量加载两种装载类型;最初加载主要利用“批量加载引擎”进行处理;增量加载则使用“批量加载引擎”和“实时加载引擎”结合的方式进行处理;
使用增量抽取技术引擎进行数据抽取,在Storm平台的Spout组件中,利用守护进程nextTuple()方法,定时利用时间戳将源数据与数据仓库数据进行对比,若有增量数据,则能通过nextTuple()方法进行处理后提交给后续组件进行执行,从而完成增量数据抽取的工作;
对于ETL框架中的业务系统数据源数据,根据大坝安全监测数据的特点,数据记录的时间戳属性均被设计为数据表的主键。
2.如权利要求1所述的面向安全监测业务分析的ETL框架设计方法,其特征在于:
(2.1)数据处理引擎通过数据转换算法家族来分配具体的数据处理策略,包括:1、选择过滤算法;2、分离/合并算法;3、排序算法;4、汇总算法;5、公式计算算法;6、字段转换算法;
(2.2)Redis存储引擎用于缓存多个设备的临时记录信息,通过Storm平台的分布式并发特性,多个设备信息能并行的进行处理,当每个设备的记录缓存到一定数据量后,将这些数据提交给数据处理引擎进行处理,数据处理引擎处理后的中间结果也能继续缓存到Redis缓存引擎中,通过这种机制,在数据转换模块,在不涉及到数据仓库相关数据的情况下,仅从数据源数据出发,不借助于任何数据仓库相关的关系型数据存储设备,即进行大量的数据转换计算任务。
CN201510363351.3A 2015-06-26 2015-06-26 一种面向安全监测业务分析的etl框架设计方法 Active CN104933160B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510363351.3A CN104933160B (zh) 2015-06-26 2015-06-26 一种面向安全监测业务分析的etl框架设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510363351.3A CN104933160B (zh) 2015-06-26 2015-06-26 一种面向安全监测业务分析的etl框架设计方法

Publications (2)

Publication Number Publication Date
CN104933160A CN104933160A (zh) 2015-09-23
CN104933160B true CN104933160B (zh) 2019-06-28

Family

ID=54120327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510363351.3A Active CN104933160B (zh) 2015-06-26 2015-06-26 一种面向安全监测业务分析的etl框架设计方法

Country Status (1)

Country Link
CN (1) CN104933160B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202346B (zh) * 2016-06-29 2019-11-01 广东省信息网络有限公司 一种数据加载清洗引擎、调度与存储系统
CN106789978A (zh) * 2016-12-07 2017-05-31 高新兴科技集团股份有限公司 一种数据汇聚系统和方法
CN106709016B (zh) * 2016-12-27 2018-03-27 山东麦港数据系统有限公司 一种基于服务总线的数据交换方法
CN107807956A (zh) * 2017-09-30 2018-03-16 平安科技(深圳)有限公司 电子装置、数据处理方法及计算机可读存储介质
CN109492018B (zh) * 2018-09-12 2020-12-22 武汉达梦数据库股份有限公司 一种数据同步系统自适应动态调整方法和装置
CN109933575B (zh) * 2019-02-28 2021-04-27 鲁东大学 监测数据的存储方法及装置
CN110471968A (zh) * 2019-07-11 2019-11-19 新华三大数据技术有限公司 Etl任务的发布方法、装置、设备及存储介质
CN110968634B (zh) * 2019-12-03 2024-02-02 普元信息技术股份有限公司 大数据场景下基于xml描述实现利用可编程函数式进行etl转换处理的方法
CN112328638A (zh) * 2020-11-03 2021-02-05 平安普惠企业管理有限公司 网关上下游数据对比测试方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036025A (zh) * 2014-06-27 2014-09-10 蓝盾信息安全技术有限公司 一种基于分布式的海量日志采集系统
CN104050261A (zh) * 2014-06-16 2014-09-17 深圳先进技术研究院 基于Storm的可变逻辑的通用数据处理系统及方法
CN104615777A (zh) * 2015-02-27 2015-05-13 浪潮集团有限公司 一种基于流式计算引擎的实时数据处理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150046390A1 (en) * 2013-08-09 2015-02-12 Sap Ag Storing Metadata in a Table-based Format from Metadata in a Serial Format

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050261A (zh) * 2014-06-16 2014-09-17 深圳先进技术研究院 基于Storm的可变逻辑的通用数据处理系统及方法
CN104036025A (zh) * 2014-06-27 2014-09-10 蓝盾信息安全技术有限公司 一种基于分布式的海量日志采集系统
CN104615777A (zh) * 2015-02-27 2015-05-13 浪潮集团有限公司 一种基于流式计算引擎的实时数据处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"storm文档(9)——消息处理保证机制";录事参军;《http://blog.csdn.net/beitiandijun/article/details/41577125》;20141128;第1页第1段-第6页倒数第1段
"数据抽取、转换、加载描述规范的研究与应用";姚志鹏;《中国优秀硕士学位论文全文数据库 信息科技辑》;20131215(第S1期);正文第7页的1段-第44页第4段,图2.1-2.2、图3.1、图4.1-4.2、图5.1

Also Published As

Publication number Publication date
CN104933160A (zh) 2015-09-23

Similar Documents

Publication Publication Date Title
CN104933160B (zh) 一种面向安全监测业务分析的etl框架设计方法
CN102521406B (zh) 海量结构化数据复杂查询任务的分布式查询方法和系统
CN101515290B (zh) 具有双向互动特征的元数据管理系统及其实现方法
CN102521405B (zh) 支持高速加载的海量结构化数据存储、查询方法和系统
CN107391653B (zh) 一种分布式NewSQL数据库系统及图片数据储存方法
CN106126601A (zh) 一种社保大数据分布式预处理方法及系统
CN102841889A (zh) 一种基于orm架构的高效数据库访问的实现方法及装置
Liang et al. Express supervision system based on NodeJS and MongoDB
CN105164674A (zh) 涉及多个数据库和执行引擎的查询
CN103678665A (zh) 一种基于数据仓库的异构大数据整合方法和系统
CN106021484A (zh) 基于内存计算的可定制多模式大数据处理系统
EP2270691A1 (en) Computer-implemented method for operating a database and corresponding computer system
CN103425762A (zh) 基于Hadoop平台的电信运营商海量数据处理方法
CN103430144A (zh) 数据源分析
CN104391903A (zh) 一种基于分布存储和并行计算的电网数据质量检测方法
CN102918494A (zh) 基于数据库模型不可知论、纲要不可知论且工作负载不可知论的数据存储和存取模型的数据存储和/或检索
CN104239377A (zh) 跨平台的数据检索方法及装置
CN109669975B (zh) 一种工业大数据处理系统及方法
CN102479217A (zh) 一种分布式数据仓库中实现计算均衡的方法及装置
Hutchison et al. From NoSQL Accumulo to NewSQL Graphulo: Design and utility of graph algorithms inside a BigTable database
CN106649718A (zh) 一种用于pdm系统的大数据采集与处理方法
Costa et al. A survey on data-driven performance tuning for big data analytics platforms
Lu et al. TridentKV: A read-Optimized LSM-tree based KV store via adaptive indexing and space-efficient partitioning
CN105095255A (zh) 一种数据索引创建方法及装置
CN103365923A (zh) 用于评估数据库的分区方案的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant