CN1897025A - 海量数据处理中多线程工作包并行的etl技术 - Google Patents

海量数据处理中多线程工作包并行的etl技术 Download PDF

Info

Publication number
CN1897025A
CN1897025A CNA2006101065511A CN200610106551A CN1897025A CN 1897025 A CN1897025 A CN 1897025A CN A2006101065511 A CNA2006101065511 A CN A2006101065511A CN 200610106551 A CN200610106551 A CN 200610106551A CN 1897025 A CN1897025 A CN 1897025A
Authority
CN
China
Prior art keywords
saddlebag
data structure
data
subtask
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006101065511A
Other languages
English (en)
Other versions
CN1897025B (zh
Inventor
赵懿敏
李捷
曹小华
郭景东
沈晓军
魏凌
陈松乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LINKAGE SYSTEM INTEGRATION CO Ltd
Original Assignee
LINKAGE SYSTEM INTEGRATION CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LINKAGE SYSTEM INTEGRATION CO Ltd filed Critical LINKAGE SYSTEM INTEGRATION CO Ltd
Priority to CN2006101065511A priority Critical patent/CN1897025B/zh
Publication of CN1897025A publication Critical patent/CN1897025A/zh
Application granted granted Critical
Publication of CN1897025B publication Critical patent/CN1897025B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

海量数据处理中多线程工作包并行的ETL方法,对大量企业数据进行处理时采用的数据抽取、转换和装载,设有一系列相互衔接、自动进行的业务活动或任务的工作流,工作流遵循路由、规则和任务或操作;其中路由:定义对象及其传送所通过的路径;规则:定义信息的路由及路由隶属;规则包括流向控制条件与异常情况处理;任务或操作:定义工作流在面向某种状态、某种事务或某一工作组的具体操作;将调度对象分为任务、子任务、工作包三个级别,工作包是可调度的最小单位。每个工作包是各种具体操作的集合,工作包的功能由其中的具体操作完成;工作包有输入数据结构和输出数据结构,每个数据结构可具体定义数据项。

Description

海量数据处理中多线程工作包并行的ETL技术
                          技术领域
本发明涉及电信运营商数据仓库应用,尤其是海量数据处理中多线程工作包并行的ETL技术。
                          背景技术
ETL是对大量企业数据进行处理时采用的数据抽取(Extract)、转换(Transform)和装载(Load)技术。随着企业数据量的剧增,ETL技术日益受到人们的重视。ETL产品的长足发展,是企业应用和技术发展共同推动的结果。
ETL除了上述主要功能外,还要对自身处理进程进行调度和管理,另外一个重要因素就是扩展性,数据种类和来源随时都可能增加,理想的ETL解决方案要快速适应这些变化,满足用户的扩展需求。
第一代ETL工具,如CA InfoPump,Oracle SQL Loader,etc..没有集成化的开发环境和元数据交换,数据的抽取、加载和转化需要编写大量的脚本程序,同时要靠手工和外部作业调度来完成整个ETL过程。
第二代ETL工具,如Ardent(后被Informix收购,现在属Ascential Software公司)Data Stage,Oracle Warehouse Builder,以及Sagent等产品只是将数据转换引擎与元数据管理集成,并可利用内部的工作流定义自动化完成一般数据的抽取、转换和加载工作,但是没有数据仓库全过程的元数据集成和交换能力,对数据质量管理和异常处理的能力不高。
第三代数据仓库构建产品也称作为数据集成平台,或是ETL集成环境,而不是简单的单点工具,在这一类别里,Informatica PowerCenter,Ascential Software Data StageXE以及IBM Warehouse Manager(原称Visual Warehouse)都是可选的数据集成平台。
但是以上这些ETL工具,在多线程并发、自身的调度、管理、数据质量审核与监控以及系统的可扩展性上都尚有一些不足,不能完全满足用户对ETL技术的要求。
线程是操作系统的一种新概念,它又被称作轻量进程,是比传统进程更小的可并发执行的单位。C和C++采用单线程,.Java在两方面支持多线程。一方面,Java环境本身就是多线程的。若干个系统线程运行负责必要的无用单元回收,,多线程是Java语言的一大特性,多线程就是同时存在N个执行体,按几条不同的执行线索共同工作的情况。程序,进程,线程,可以从不同的角度去理解。程序就是一段静态的代码,可以理解成一组计算机命令的集合.进行就是这个程序一次动态过程。
如已经在专利公开中的文件中也包括了上述内容:CN200410095805.5数据处理方法和装置,将数据库从源计算机系统复制到目标计算机系统的方法,包括以下步骤:1)接收来自于源计算机系统的日志项;2)检查日志项,查看是否在动态索引中有一个输入项,它给出与一数据库项有关的处理信息,所述日志项与该数据库有关;以及3)如果在动态表中存在输入项,则按照相关的处理信息处理日志项;或者4)如果在动态索引中没有输入项,则在分配数据库中寻找数据库项的相关处理信息,建立输入项并在动态索引中存储,并且按照处理信息处理日志项。
CN03822194.2用于处理数据处理系统中的线程的方法和装置,包括:检测和一个用户线程相关联的、不被该用户线程需要的内核线程;以及响应内核线程不被需要,半分离该内核线程,其中用于该线程的数据不改变堆栈。
                           发明内容
ETL对大量企业数据进行处理时采用的数据抽取(Extract)、转换(Transform)和装载(Load)的方法,在进行ETL设计时,我们引入了工作流的原理。工作流(WORK FLOW)就是自动运作的业务过程部分或整体,表现为参与者对文件、信息或任务按照规程采取行动,并令其在参与者之间传递。简单地说,工作流就是一系列相互衔接、自动进行的业务活动或任务。我们可以将整个业务过程看作是一条河,其中流过的就是工作流。
在工作流的运动过程中,根据处理过程和工作条件来调整工作流向。工作流遵循3R准则,即:路由(ROUTER)、规则(RULES)和任务(ROLES)。
路由:定义对象及其传送所通过的路径。
规则:定义信息的路由及路由隶属。规则包括流向控制条件与异常情况处理。
任务:定义工作流在面向某种状态、某种事务或某一工作组的具体操作。
经营分析系统的流程调度部分采用工作流的设计原理,对系统的后台流程进行控制和管理。定义了以下对象:
任务、子任务、工作包——ROUTER;将调度对象分为任务、子任务、工作包三个级别,工作包是可调度的最小单位。每个工作包是各种具体操作的集合,工作包的功能由其中的具体操作完成。工作包有输入数据结构和输出数据结构,每个数据结构可具体定义数据项,工作包中各项操作是对输入数据结构的数据项进行操作,输出为输出数据结构数据项。一个子任务中的工作包之间可以有关联,工作包可以有前置工作包和后续工作包。任务又包括了子任务的集合与关联。
任务与子任务对应关系、子任务与工作包对应关系、工作包与操作的对应关系、前置子任务、后续子任务、前置工作包、后续工作包——PULES;
操作——ROLES。
数据结构是对数据格式的定义,数据结构中包含对每个数据项的具体描述,包括数据项名、数据项类型、数据项序号。是工作包组成部分,每个工作包都有一个输入数据结构和输出数据结构,工作包的所有操作都是对输入数据结构的数据项的操作,然后形成工作包输出数据结构的数据项,对工作包的操作为对数据结构的转换:将输入数据结构转换为输出数据结构。
模型是描述ETL平台流程调度所需数据模型及其之间的关系。与其相关的几个概念:任务、子任务、工作包、操作。
1、配置数据结构,对每个数据项的具体描述,包括数据项名、数据项类型、数据项序号;
2.配置任务,配置任务名称和运行控制属性;
3.配置子任务
4、配置工作包工作包的功能由其中的具体操作完成;
操作是最小的处理单元,其作用是对输入数据结构的数据项进行相应处理,生成输出数据结构的数据项;工作包操作配置的每一步是配置工作包输入数据结构和工作包输出数据结构:通过拖拉完成操作完成工作包操作配置。
每个任务可以对应一个线程,通过多线程的并发运行,从而实现了多任务可以同时运行,同时每个任务中的子任务、工作包等可以根据预先设定的条件自行运行;通过对工作包信息点的监控,可以方便地对数据质量及任务的运新情况进行监控。
预先设定的软件完成设定的任务,如传送、对比或各工作线程之一的任务,工作包信息点的监控文件采用网络监控驱动模块。由于后台采用的面向对象的C++进行开发,前台采用JAVA进行开发,所以该ETL工具还具备跨平台的特性。
综上所述,本发明的ETL工具具有以下特点:
·支持多种UNIX平台外,包括支持windows平台。
·支持多种数据源和目的,包括多种数据库及文件;
·采用哈希算法,提高运行速度。本发明综合利用现有技术提供速度的办法除了程序自身外,还可以充分利用多CPU处理器特性,多线程并行处理,速度提高方面同样非常明显。字段数为26的文件处理速度在18000行/秒左右。
·插件体系,使扩展非常容易。
·提供了元数据管理接口。
·提供完善的数据审核功能
                          附图说明
图1是本发明方法的定义结构和操作定义过程流程图即数据模型,
图2是本发明方法的任务和子任务流程图,
图3是本发明主界面构成图
图4是本发明数据结构创建向导图,整个分析系统的数据获取任务以此图示,
图5是本发明工作包内部流程图
                        具体实施方式
本发明的实体说明见下表:
  序号   实体名称   说明
  1.   任务   描述任务的基本信息
  2.   前置任务   描述某一任务执行的前提条件,即,其前置的任
  3.   后续任务   描述某一任务执行成功后,可以开始执行的任务
  4.   任务执行状态   描述任务当前的执行状态信息
  5.   任务执行状态历史   描述任务执行状态变化的历史信息
  6.   子任务   描述子任务的基本信息
  7.   子任务后续子任务   描述某一子任务执行成功后,可以开始执行的子务
  8.   子任务前置子任务   描述某一子任务执行的前提条件,即,其前置的任务
  9.   子任务运行数   描述某一子任务可并行运行数信息
  10.   子任务执行状态   描述子任务的当前的执行状态信息
  11.   子任务执行状态历史   描述子任务执行状态变化的历史信息
  12.   工作包   描述工作包的基本信息,工作包是可以独立运行体的最小单位
  13.   前置工作包   描述某一子任务中,某一工作包执行的前提条件即,其前置的工作包
  14.   后续工作包   描述某一子任务中,某一工作包执行成功后,可开始执行的工作包
  15.   工作包类型   描述工作包类型的基本信息
  16.   工作包执行状态   描述工作包当前的执行状态信息
  序号   实体名称   说明
  17.   工作包执行状态历史   描述工作包执行状态变化的历史信息
  18.   附加信息定义   描述附加信息的基本信息
  19.   工作包可选附加信息   描述某一类型工作包可配置的附加信息
  20.   工作包运行附加信息   描述某一工作包配置的附加信息
  21.   操作定义   描述操作的基本信息
  22.   操作类型定义   描述操作类型的基本信息
  23.   工作包可执行操作   描述某一类型工作包可配置的操作
  24.   工作包执行操作   描述某一工作包配置的操作
  25.   数据结构   描述数据结构的基本信息
  26.   工作包输入输出数据结   描述与工作包相关的数据结构信息
  27.   数据结构数据项定义   描述某一数据结构的数据项信息
  28.   操作数据项   描述某一操作的数据项信息
  29.   代码转换对照关系   描述代码转换的基本信息
  30.   主题定义   描述前端展现的各分析主题信息
  31.   业务功能   描述分析系统分析与报表功能的信息
  32.   业务功能与子任务对应系   描述前台业务分析功能与其相关的子任务的对应关系
  33.   状态定义   描述状态的基本信息
  34.   文件定义   描述相关的文件定义信息
为了统一控制整个数据获取与准备过程,达到自动流程调度的目的,将调度对象划分为不同级别,针对某个数据源的整个数据获取与准备过程称为一个任务,其下再分为有序的子任务,子任务下再分为工作包,工作包中含各个具体的操作。某一数据源的抽取、清洗、转换、装载、分析数据生成等都可细化为每个具体的操作。总体流程调度针对不同调度对象的配置规则,完成自动调度。对于每个数据获取子任务,需包含以下功能,如:数据抽取、数据转换、数据加载、分析数据生成等,这些功能并不完全是串行进行的,有些功能可以交叉进行,如:在进行数据抽取或数据加载的同时可进行数据转换工作。从处理效率上,我们尽量把功能相近的工作,组成一个工作包,将其合并在一起执行。工作包是最小执行单位。
整个分析系统的数据获取任务如图4所示,图中横列的任务(通过进程控制)是可以调整执行的先后顺序的,并且可以进行并行;工作包也是可以进行调度,并可以并行运行的(通过线程控制)。这样就实现了多进程与多线程的双重并行,大大提高了ETL程序的执行效率。
任务内部流程指任务内部子任务的执行顺序及判断逻辑,其流程图2如示。
不同的工作包内部流程不同,这里仅以文件转换工作包为例说明:如图5所示。为了便于逻辑上区分,将调度对象分为任务、子任务、工作包三个级别。任务是一个逻辑上的概念,主要目的是区分不同业务数据处理过程。子任务是任务中某个功能阶段的划分,各个任务可以根据其执行阶段的不同细分为各个明确的子任务,子任务按运行方式可以分为:实时运行子任务、定时运行子任务、手工触发子任务。工作包是比子任务更小一级的调度对象,隶属于子任务。工作包是可调度的最小单位,每个工作包是各种具体操作的集合,工作包的功能由其中的具体操作完成。工作包有输入数据结构和输出数据结构,每个数据结构可具体定义数据项,工作包中各项操作是对输入数据结构的数据项进行操作,输出为输出数据结构数据项。一个子任务中的工作包之间可以有关联,工作包可以有前置工作包和后续工作包。
数据结构是对数据格式的定义,数据结构中包含对每个数据项的具体描述,包括数据项名、数据项类型、数据项序号。虽然它不是直接可调度的对象,但却是工作包必不可少的组成部分,每个工作包都有一个输入数据结构和输出数据结构,工作包的所有操作都是对输入数据结构的数据项的操作,然后形成工作包输出数据结构的数据项,工作包的工作过程可以理解为对数据结构的转换:将输入数据结构转换为输出数据结构。
人机界面完成数据准备与获取平台中流程的配置和后台流程运行情况的前端展示。大致流程和界面分布如图3所示:
各操作界面功能如下:
1.主界面
大部分配置工作都在如上主界面中完成,在主界面中可以完成以下配置:
1)配置数据结构
2)配置任务
3)配置子任务
4)配置工作包
主界面的布局是:上侧为菜单和工具栏、左侧为对象窗口、右侧为配置窗口,配置窗口中分为以下几部分:左侧为工具栏、中间为配置桌面、下面为工作包类型工具栏。
1、配置数据结构
数据结构是很重要的一种对象,数据结构中包含对每个数据项的具体描述,包括数据项名、数据项类型、数据项序号。支持从库表或手工创建数据结构。
2.配置任务
任务是最高一级的调度对象,由于其只是为了便于逻辑上区分不同的处理过程,所以任务的属性比较简单,只需配置任务名称和运行控制属性。
3.配置子任务
子任务是任务中某个功能阶段的划分,各个任务可以根据其执行阶段的不同细分为各个明确的子任务,子任务可以有前置子任务和后续子任务。子任务根据触发方式的不同,可以分为:实时运行子任务、定时运行子任务、手工触发子任务。
如下界面配置子任务的运行方式:
4、配置工作包
工作包是比子任务更小一级的调度对象,隶属于子任务。工作包是可调度的最小单位,每个工作包是各种具体操作的集合,工作包的功能由其中的具体操作完成。
             根据工作包功能,可以分为以下几种类型:
1)表抽取工作包
从指定库表中选择指定的字段生成数据文件。
2)FTP抽取工作包
从远程主机指定目录中获取数据文件到本地。
3)文件转换工作包
对定分隔符的数据文件进行处理,生成新数据文件。
4)表转换工作包
对库表的数据进行处理,生成数据到指定库表。
5)文件装载工作包
对定分隔符的数据文件进行处理,装载到指定库表。
6)存储过程调用工作包
调用指定的存储过程。
配置工作包主要包括配置工作包所包含的操作和工作包附加信息,工作包的具体处理过程由其所包含的操作完成。
操作是最小的处理单元,其作用是对输入数据结构的数据项进行相应处理,生成输出数据结构的数据项。不同类型可配置的操作不同,以文件转换工作包为例,可配置的操作如下:
a)字段映射               b)字段合并
c)截取子串               d)去除两端空格
c)字段相加               f)字段相减
g)字段相乘               h)字段相除
i)字段替换               j)两端填充
工作包操作配置的每一步是配置工作包输入数据结构和工作包输出数据结构:通过拖拉完成操作完成工作包操作配置。
3.转换规则配置
转换规则定义一套旧值与新值的对应关系,在配置字段转换时可以选择已定义的转换规则作为转换标准,字段转换按配置的对应关系对输入数据结构的指定数据项进行转换,生成输出数据结构的指定数据项。转换规则配置界面如下:
4.填充规则配置
填充规则定义字段两填充时的规则,如填充位置、填充字符、填充长度,在配置字段填充时可以选择已定义的填充规则作为字符填充标准,填充规则配置界面如下:
5.基元信息配置
基元信息是工作包处理过程生成的基本信息单元,基元信息可分为一般基元信息、配置基元信息、性能基元信息、故障基元信息。基元信息配置界面如下:
不同类型的工作包可配置的基元信息不同,在配置工作时可以为工作包配置所需的基元信息,配置界面如下:
6.审核规则配置
为了校验工作包处理过程的准确性,可以对工作包处理过程进行审核,审核分为外部、工作包内部审核、工作包间审核。外部审核用于审核接收外部数据的工作包接受数据的准确性;工作包内部审核用于审核工作包处理过程的准确性;工作包间审核用于审核前后关联工作包间数据传送与接收的准确性。
审核规则配置界面如下:
7.对象运行状态监控
任务、子任务、工作包状态分为:运行、成功、失败、初始化。工具提供如下界面实时反映各级调度对象状态,便于实时监控,可实时停止或重新启动各调度对象。
工作包在运行过程会实时记录的基元信息,通过前台WEB界面反映各工作包的基元信息,以了解工作包运行过程中的具体信息。

Claims (5)

1、海量数据处理中多线程工作包并行的ETL方法,对大量企业数据进行处理时采用的数据抽取、转换和装载,其特征是设有一系列相互衔接、自动进行的业务活动或任务的工作流,工作流遵循路由、规则和任务或操作;
其中路由:定义对象及其传送所通过的路径;
规则:定义信息的路由及路由隶属。规则包括流向控制条件与异常情况处理;
任务或操作:定义工作流在面向某种状态、某种事务或某一工作组的具体操作;
将调度对象分为任务、子任务、工作包三个级别,工作包是可调度的最小单位。每个工作包是各种具体操作的集合,工作包的功能由其中的具体操作完成;工作包有输入数据结构和输出数据结构,每个数据结构可具体定义数据项,工作包中各项操作是对输入数据结构的数据项进行操作,输出为输出数据结构数据项;一个子任务中的工作包之间可以有关联,工作包可以有前置工作包和后续工作包,任务又包括了子任务的集合与关联;
每个任务对应一个线程,通过多线程的并发运行,从而实现了多任务可以同时运行,同时每个任务中的子任务、工作包等可以根据预先设定的条件自行运行;
数据结构中包含对每个数据项的具体描述,包括数据项名、数据项类型、数据项序号;每个工作包都有一个输入数据结构和输出数据结构,工作包的所有操作都是对输入数据结构的数据项的操作,然后形成工作包输出数据结构的数据项,对工作包的操作为对数据结构的转换:将输入数据结构转换为输出数据结构。
2、根据权利要求1所述的海量数据处理中多线程工作包并行的ETL方法,其特征是通过模型是描述ETL平台流程调度所需数据模型及其之间的关系,其中通过
1、)配置数据结构,对每个数据项的具体描述,包括数据项名、数据项类型、数据项序号;
2.)配置任务,配置任务名称和运行控制属性;
3.)配置子任务;
4、)配置工作包工作包的功能由其中的具体操作完成;
操作是最小的处理单元,对输入数据结构的数据项进行相应处理,生成输出数据结构的数据项;工作包操作配置的每一步是配置工作包输入数据结构和工作包输出数据结构:通过拖拉完成操作完成工作包操作配置。
3、根据权利要求1所述的海量数据处理中多线程工作包并行的ETL方法,其特征是将调度对象分为任务、子任务、工作包三个级别;用于区分不同业务数据处理过程;子任务是任务中某个功能阶段的划分,分为:实时运行子任务、定时运行子任务、手工触发子任务;工作包是比子任务更小一级的调度对象,隶属于子任务,工作包是可调度的最小单位,每个工作包是各种具体操作的集合,工作包的功能由其中的具体操作完成;工作包有输入数据结构和输出数据结构,每个数据结构可具体定义数据项,工作包中各项操作是对输入数据结构的数据项进行操作,输出为输出数据结构数据项。
4、根据权利要求3所述的海量数据处理中多线程工作包并行的ETL方法,其特征是一个子任务中的工作包之间有关联,工作包有前置工作包和后续工作包。
5、根据权利要求3所述的海量数据处理中多线程工作包并行的ETL方法,其特征是数据结构是对数据格式的定义,数据结构中包含对每个数据项的具体描述,包括数据项名、数据项类型、数据项序号,每个工作包都有一个输入数据结构和输出数据结构,工作包的所有操作都是对输入数据结构的数据项的操作,然后形成工作包输出数据结构的数据项,工作包的工作过程是对数据结构的转换:将输入数据结构转换为输出数据结构。
CN2006101065511A 2006-04-27 2006-07-12 海量数据处理中多线程工作包并行的etl技术 Expired - Fee Related CN1897025B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2006101065511A CN1897025B (zh) 2006-04-27 2006-07-12 海量数据处理中多线程工作包并行的etl技术

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200610039946 2006-04-27
CN200610039946.4 2006-04-27
CN2006101065511A CN1897025B (zh) 2006-04-27 2006-07-12 海量数据处理中多线程工作包并行的etl技术

Publications (2)

Publication Number Publication Date
CN1897025A true CN1897025A (zh) 2007-01-17
CN1897025B CN1897025B (zh) 2011-02-02

Family

ID=37609548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006101065511A Expired - Fee Related CN1897025B (zh) 2006-04-27 2006-07-12 海量数据处理中多线程工作包并行的etl技术

Country Status (1)

Country Link
CN (1) CN1897025B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882165A (zh) * 2010-08-02 2010-11-10 山东中创软件工程股份有限公司 基于etl的多线程数据处理方法
CN101957748A (zh) * 2009-07-17 2011-01-26 中国移动通信集团黑龙江有限公司 一种数据逻辑分析方法、装置及系统
CN101551811B (zh) * 2009-01-09 2011-04-27 南京联创科技集团股份有限公司 用于实时数据etl系统的记忆式调度方法
CN101510203B (zh) * 2009-02-25 2011-09-21 南京联创科技集团股份有限公司 基于拆分机制并行处理实现大数据量高性能处理的方法
CN101567013B (zh) * 2009-06-02 2011-09-28 阿里巴巴集团控股有限公司 一种etl调度的实现方法及装置
CN102279888A (zh) * 2011-08-24 2011-12-14 北京新媒传信科技有限公司 一种任务调度方法和系统
CN101571861B (zh) * 2008-04-29 2012-02-29 阿里巴巴集团控股有限公司 一种对数据表进行转换的方法及装置
CN101533417B (zh) * 2009-04-28 2012-04-18 阿里巴巴集团控股有限公司 一种实现etl调度的方法及系统
WO2012075622A1 (en) * 2010-12-07 2012-06-14 Sap Ag Implemantion of a process based on a user-defined sub-task sequence
CN101621529B (zh) * 2008-06-30 2012-10-10 上海全成通信技术有限公司 一种异构海量数据高效低成本的装载方法
CN102722354A (zh) * 2012-06-04 2012-10-10 南京中兴软创科技股份有限公司 面向计费业务的数据实时抽取和关键性指标实时分析方法
CN102770845A (zh) * 2009-12-04 2012-11-07 国际商业机器公司 档案管理调度的优化
CN102819589A (zh) * 2012-08-06 2012-12-12 北京久其软件股份有限公司 一种基于etl的数据优化方法及设备
CN103366471A (zh) * 2013-06-26 2013-10-23 福建联迪商用设备有限公司 一种联机业务并发处理方法、系统及服务器
CN101681272B (zh) * 2007-06-04 2014-07-16 微软公司 使用事务来并行化顺序框架
CN104182502A (zh) * 2014-08-18 2014-12-03 浪潮(北京)电子信息产业有限公司 一种数据抽取方法及装置
CN105488222A (zh) * 2015-12-24 2016-04-13 广州精点计算机科技有限公司 一种数据源回溯追踪方法及装置
CN105701117A (zh) * 2014-11-27 2016-06-22 华为技术有限公司 Etl调度方法及装置
CN105740069A (zh) * 2016-01-29 2016-07-06 中国电力科学研究院 一种多级数据转化任务的自动调度方法
CN110991732A (zh) * 2019-11-28 2020-04-10 武汉理工大学 一种基于能耗聚类的建材装备制造过程优化调度方法
CN114826645A (zh) * 2022-03-03 2022-07-29 深圳市迪讯飞科技有限公司 一种多路数据实时聚合的方法以及终端

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2281396A1 (en) * 1998-10-30 2000-04-30 Philip William Gillis Method and apparatus for storing data as liquid information
US7805341B2 (en) * 2004-04-13 2010-09-28 Microsoft Corporation Extraction, transformation and loading designer module of a computerized financial system

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101681272B (zh) * 2007-06-04 2014-07-16 微软公司 使用事务来并行化顺序框架
CN101571861B (zh) * 2008-04-29 2012-02-29 阿里巴巴集团控股有限公司 一种对数据表进行转换的方法及装置
CN101621529B (zh) * 2008-06-30 2012-10-10 上海全成通信技术有限公司 一种异构海量数据高效低成本的装载方法
CN101551811B (zh) * 2009-01-09 2011-04-27 南京联创科技集团股份有限公司 用于实时数据etl系统的记忆式调度方法
CN101510203B (zh) * 2009-02-25 2011-09-21 南京联创科技集团股份有限公司 基于拆分机制并行处理实现大数据量高性能处理的方法
CN101533417B (zh) * 2009-04-28 2012-04-18 阿里巴巴集团控股有限公司 一种实现etl调度的方法及系统
CN101567013B (zh) * 2009-06-02 2011-09-28 阿里巴巴集团控股有限公司 一种etl调度的实现方法及装置
CN101957748A (zh) * 2009-07-17 2011-01-26 中国移动通信集团黑龙江有限公司 一种数据逻辑分析方法、装置及系统
CN102770845A (zh) * 2009-12-04 2012-11-07 国际商业机器公司 档案管理调度的优化
CN102770845B (zh) * 2009-12-04 2015-02-25 国际商业机器公司 档案管理调度的优化
CN101882165B (zh) * 2010-08-02 2012-06-27 山东中创软件工程股份有限公司 基于etl的多线程数据处理方法
CN101882165A (zh) * 2010-08-02 2010-11-10 山东中创软件工程股份有限公司 基于etl的多线程数据处理方法
WO2012075622A1 (en) * 2010-12-07 2012-06-14 Sap Ag Implemantion of a process based on a user-defined sub-task sequence
CN102279888B (zh) * 2011-08-24 2014-04-30 北京新媒传信科技有限公司 一种任务调度方法和系统
CN102279888A (zh) * 2011-08-24 2011-12-14 北京新媒传信科技有限公司 一种任务调度方法和系统
CN102722354A (zh) * 2012-06-04 2012-10-10 南京中兴软创科技股份有限公司 面向计费业务的数据实时抽取和关键性指标实时分析方法
CN102722354B (zh) * 2012-06-04 2014-11-26 南京中兴软创科技股份有限公司 面向计费业务的数据实时抽取和关键性指标实时分析方法
CN102819589B (zh) * 2012-08-06 2015-02-04 北京久其软件股份有限公司 一种基于etl的数据优化方法及设备
CN102819589A (zh) * 2012-08-06 2012-12-12 北京久其软件股份有限公司 一种基于etl的数据优化方法及设备
CN103366471A (zh) * 2013-06-26 2013-10-23 福建联迪商用设备有限公司 一种联机业务并发处理方法、系统及服务器
CN104182502A (zh) * 2014-08-18 2014-12-03 浪潮(北京)电子信息产业有限公司 一种数据抽取方法及装置
CN104182502B (zh) * 2014-08-18 2017-10-27 浪潮(北京)电子信息产业有限公司 一种数据抽取方法及装置
CN105701117A (zh) * 2014-11-27 2016-06-22 华为技术有限公司 Etl调度方法及装置
CN105701117B (zh) * 2014-11-27 2019-06-21 华为技术有限公司 Etl调度方法及装置
CN105488222A (zh) * 2015-12-24 2016-04-13 广州精点计算机科技有限公司 一种数据源回溯追踪方法及装置
CN105740069A (zh) * 2016-01-29 2016-07-06 中国电力科学研究院 一种多级数据转化任务的自动调度方法
CN110991732A (zh) * 2019-11-28 2020-04-10 武汉理工大学 一种基于能耗聚类的建材装备制造过程优化调度方法
CN114826645A (zh) * 2022-03-03 2022-07-29 深圳市迪讯飞科技有限公司 一种多路数据实时聚合的方法以及终端
CN114826645B (zh) * 2022-03-03 2024-04-16 深圳市迪讯飞科技有限公司 一种多路数据实时聚合的方法以及终端

Also Published As

Publication number Publication date
CN1897025B (zh) 2011-02-02

Similar Documents

Publication Publication Date Title
CN1897025A (zh) 海量数据处理中多线程工作包并行的etl技术
CN1294486C (zh) 多重处理环境中透明动态优化的方法和系统
US7966340B2 (en) System and method of massively parallel data processing
JP6050272B2 (ja) Apache hadoop用の低レイテンシクエリエンジン
CN106897411A (zh) 基于Spark技术的ETL系统及其方法
CN107451220A (zh) 一种分布式NewSQL数据库系统
US20170004010A1 (en) File operation task optimization
CN106095878A (zh) 基于分库分表的数据库操作装置及方法
CN1670708A (zh) 一种计算机日志的管理方法
JP2014194769A6 (ja) Apache hadoop用の低レイテンシクエリエンジン
US20140101092A1 (en) Adjustment of map reduce execution
CN1885325A (zh) 工作任务细分结构设计管理器、设计工具及其方法
CN103186541A (zh) 一种映射关系生成方法及装置
CN104239529A (zh) 防止Hive数据倾斜的方法和装置
CN102446167B (zh) 一种基于逻辑模板对复杂字符串逻辑处理的方法和装置
Constantinescu et al. Towards knowledge capturing and innovative human-system interface in an open-source factory modelling and simulation environment
Li et al. A new speculative execution algorithm based on C4. 5 decision tree for Hadoop
CN104462158A (zh) 数据抓取方法和数据抓取系统
CN1306407C (zh) 为动态提供而自主地自学习资源选择的方法和系统
CN109522348A (zh) 一种融合多个智能分析语言的数据处理系统和方法
CN1318969C (zh) 一种工作流引擎高效处理的方法
CN1737795A (zh) 多数据源协同条件下的数据挖掘和知识发现方法
CN103455374B (zh) 一种基于MapReduce的分布式计算方法和装置
CN101069200A (zh) 记日志以捕获工作流并转换为工作流标记语言
CN116010447A (zh) 一种优化异构数据库用户查询的负载均衡方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110202

Termination date: 20210712