CN104850638B - Etl过程并行决策方法及装置 - Google Patents

Etl过程并行决策方法及装置 Download PDF

Info

Publication number
CN104850638B
CN104850638B CN201510272060.3A CN201510272060A CN104850638B CN 104850638 B CN104850638 B CN 104850638B CN 201510272060 A CN201510272060 A CN 201510272060A CN 104850638 B CN104850638 B CN 104850638B
Authority
CN
China
Prior art keywords
parallel
etl
parameter table
information
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510272060.3A
Other languages
English (en)
Other versions
CN104850638A (zh
Inventor
李青海
简宋全
侯大勇
邹立斌
许飞月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Fine Point Data Polytron Technologies Inc
Original Assignee
Guangdong Fine Point Data Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Fine Point Data Polytron Technologies Inc filed Critical Guangdong Fine Point Data Polytron Technologies Inc
Priority to CN201510272060.3A priority Critical patent/CN104850638B/zh
Publication of CN104850638A publication Critical patent/CN104850638A/zh
Application granted granted Critical
Publication of CN104850638B publication Critical patent/CN104850638B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明为一种ETL过程并行决策方法及装置,所述方法包括:步骤a,输出带有操作信息的ETL过程脚本文件并初始化并行参数表;步骤b,执行带有所述操作信息的所述ETL过程脚本文件并将执行信息记录在所述并行参数表中;步骤c,分析所述并行参数表并为每个操作的并行方式做决策,将决策结果写入所述并行参数表中,更新所述操作信息;步骤d,根据所述并行参数表执行带有更新后的所述操作信息的所述ETL过程脚本文件,实现ETL过程的并行;所述装置包括与各个步骤相对应的输出模块、第一运行模块、分析模块和第二运行模块。这样,就可以为各种不同的ETL过程自动提供并行方法,加快了ETL过程的执行速度。

Description

ETL过程并行决策方法及装置
技术领域
本发明涉及企业商业智能平台数据仓库构建技术领域,具体涉及一种ETL过程并行决策方法及装置。
背景技术
随着网络的兴起与飞速发展,大量的信息和数据迎面而来,用科学的方法去收集和整理数据,从而从不同视角对企业经营各方面信息的精确分析、准确判断受到了各大企业的关注。商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将数据转化为有用的信息,将企业中现有的数据转化为知识,帮助企业做出经营决策。商业智能技术具体包括了数据仓库、联机分析处理(OLAP)和数据挖掘等技术。
数据仓库技术(Data Warehousing)是基于信息系统业务发展的需要,基于数据库系统技术发展而来,并逐步独立的一系列新的应用技术。数据仓库就是面向主题的、集成的、相对稳定的、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。数据仓库中的数据面向主题,与传统数据库面向应用相对应,主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域:数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主题的转变。
ETL指在构建数据仓库过程中对数据源中数据进行抽取、转换和加载到数据仓库的过程。随着数据仓库系统的不断升级,数据仓库中的数量和企业对即时、准确、可靠数据的需求也与日俱增。数据仓库构建的ETL过程需要处理的数据量越来越大,面对 不同的主题的数据仓库的构建,需要不同的ETL过程。为了实现ETL过程的加速运行,为每一个ETL过程配置并行文件使得ETL过程开发变得复杂。
因此,如何为ETL过程自动配置并行方法进而提高ETL过程的速度成为了当前需要首要解决的问题。
鉴于上述缺陷,本发明创作者经过长时间的研究和试验终于提出了一种ETL过程并行决策方法及装置。
发明内容
本发明的目的在于提供一种ETL过程并行决策方法及装置,用以克服上述技术缺陷。
为实现上述目的,本发明采用的技术方案在于:首先提供一种ETL过程并行决策方法,其包括:
步骤a,输出带有操作信息的ETL过程脚本文件并初始化并行参数表;
步骤b,执行带有所述操作信息的所述ETL过程脚本文件并将执行信息记录在所述并行参数表中;
步骤c,分析所述并行参数表并为每个操作的并行方式做决策,将决策结果写入所述并行参数表中,更新所述操作信息;
步骤d,根据所述并行参数表执行带有更新后的所述操作信息的所述ETL过程脚本文件,实现ETL过程的并行。
其中,所述步骤a中,所述操作信息包括:是否统计、统计字段的信息。
其中,所述步骤d中,所述操作信息包括:是否统计、统计字段、执行时间、字段行数、是否并行、并行方式和并行的拷贝数。
其中,步骤a包括:
步骤a1,将所述ETL过程脚本文件划分成操作,对同一个字段或同一组字段的修改看作一个操作;
步骤a2,为操作编号,将操作号按照操作的执行顺序储存在 所述并行参数表中;
步骤a3,给所述ETL过程脚本文件添加操作划分的信息,生成带有所述操作信息的所述ETL过程脚本文件。
其中,所述步骤b包括:
步骤b1,执行带有所述操作信息的ETL过程脚本文件来处理源数据文件;
步骤b2,每一个操作结束时,将上述操作的执行时长和读写的行数输出;
步骤b3,将接收到的各个操作的所述执行时长和读写的行数输出到所述并行参数表。
其中,所述步骤c包括:
步骤c1,对输入的带有所述操作信息的所述ETL过程脚本文件进行分析,判断每一个操作是否可以并行,可以并行的操作将采取何种方式并行,将判断得到的信息输出到所述并行参数表;
步骤c2,对输入的所述并行参数表进行分析,判断每一个操作是否并行、采取的并行方式以及并行的拷贝数,将判断所得信息输出到所述并行参数表。
其中,所述步骤d包括:
步骤d1,接收所述并行参数表,根据所述并行参数表中操作的并行信息控制执行过程;
步骤d2,执行输入的带有所述操作信息的所述ETL过程脚本文件来处理所述源数据文件。
其次,提供一种与所述的ETL过程并行决策方法对应的ETL过程并行决策装置,其包括:
输出模块,输出带有操作信息的ETL过程脚本文件并初始化并行参数表;
第一运行模块,执行带有所述操作信息的所述ETL过程脚本文件并将执行信息记录在所述并行参数表中;
分析模块,分析所述并行参数表并为每个操作的并行方式做决策,将决策结果写入所述并行参数表中,更新所述操作信息;
第二运行模块,根据所述并行参数表执行带有更新后的所述操作信息的所述ETL过程脚本文件,实现ETL过程的并行。
其中,所述输出模块,包括:
操作划分子模块,将所述ETL过程脚本文件划分成操作,对同一个字段或同一组字段的修改看作一个操作;
操作编号子模块,为操作编号,将操作号按照操作的执行顺序储存在所述并行参数表中;
操作输出子模块,给所述ETL过程脚本文件添加操作划分的信息,生成带有所述操作信息的所述ETL过程脚本文件。
其中,所述第一运行模块,包括:
第一执行子模块,执行带有所述操作信息的ETL过程脚本文件来处理源数据文件;
执行记录子模块,每一个操作结束时,将上述操作的执行时长和读写的行数输出;
执行输出子模块,将接收到的各个操作的所述执行时长和读写的行数输出到所述并行参数表。
其中,所述分析模块,包括:
脚本分析子模块,对输入的带有所述操作信息的所述ETL过程脚本文件进行分析,判断每一个操作是否可以并行,可以并行的操作将采取何种方式并行,将判断得到的信息输出到所述并行参数表;
所述脚本分析子模块判断每个操作是否统计类操作,若不是,则该步骤可以采取单操作并行;若是,判断是否有连续的对不同字段的统计操作,若是,将连续的对不同字段的统计操作进行多操作并行,若不是,该操作不予并行。
参数分析子模块,对输入的所述并行参数表进行分析,判断每一个操作是否并行、采取的并行方式以及并行的拷贝数,将判断所得信息输出到所述并行参数表。
其中,所述第二运行模块,包括:
控制子模块,接收所述并行参数表,根据所述并行参数表中 操作的并行信息控制执行过程;
第二执行子模块,执行输入的带有所述操作信息的所述ETL过程脚本文件来处理所述源数据文件。
与现有技术比较本发明的有益效果在于:提供了一种ETL过程并行决策方法及装置,可以为不同的ETL过程作出并行决策,为所述ETL过程提供并行方法。一方面,它加快了ETL过程的执行速度,为ETL过程开发人员节省了ETL过程测试时间和开发时间,为企业数据仓库构建节约成本,为企业运营增加效益。另一方面,该装置具有ETL过程并行解决方法的多样性,可以为各种不同的ETL过程自动提供并行方法,省去了ETL开发人员为每一个ETL过程配置并行文件的过程,同样节省了ETL过程开发人员开发ETL过程的时间,加速各个主体的数据仓库额构建,为企业高层的业务决策提供了更为实时的数据信息,让决策更为科学和准确,给企业带来更多的便利和更好的效果。
附图说明
图1为本发明ETL过程并行决策方法的流程图;
图2为本发明ETL过程并行决策方法中并行参数表状态一;
图3为本发明ETL过程并行决策方法中并行参数表状态二;
图4为本发明ETL过程并行决策方法中并行参数表状态三;
图5为本发明ETL过程并行决策方法步骤a的流程图;
图6为本发明ETL过程并行决策方法步骤b的流程图;
图7为本发明ETL过程并行决策方法步骤c的流程图;
图8为本发明ETL过程并行决策方法步骤d的流程图;
图9为本发明ETL过程并行决策装置的结构图。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。
如图1所示,其为本发明ETL过程并行决策方法的流程图; 其中,所述ETL过程并行决策方法包括:
步骤a,输出带有操作信息的ETL过程脚本文件并初始化并行参数表;
本步骤中所述操作信息包括:是否统计、统计字段的信息;初始化后的并行参数表如图2本发明ETL过程并行决策方法中并行参数表状态一所示,从图中可以看出,0001、0002、0003、0004和0005代表操作号,0代表不进行统计,1代表进行统计,null代表空置或操作不执行,字段1、字段2代表对字段1、字段2进行统计字段操作。
步骤b,执行带有所述操作信息的所述ETL过程脚本文件并将执行信息记录在所述并行参数表中;
本步骤中,所述执行信息包括:执行时间、字段行数;记录执行信息后的并行参数表如图3本发明ETL过程并行决策方法中并行参数表状态二所示,从图中可以看出,执行时间以ms为单位,执行时间的行与操作号的列交叉处方框为执行此操作的时间,如执行操作0001的时间为2ms;行数的行与操作号的列交叉处方框为此操作需要执行的行数。
步骤c,分析所述并行参数表并为每个操作的并行方式做决策,将决策结果写入所述并行参数表中,更新所述操作信息;
本步骤中,所述决策结果包括:是否并行、并行方式和并行的拷贝数;写入决策结果后的并行参数表如图4本发明ETL过程并行决策方法中并行参数表状态三所示,从图中可以看出,是否并行的行中方框内数字1代表并行,0代表不并行(图中未出现);并行方式中row代表行并行,columnl代表列并行,并行的拷贝数即为字段行数,因此图中未标出并行的拷贝数。将决策结果写入所述并行参数表中后,更新后的所述操作信息包括:是否统计、统计字段、执行时间、字段行数、是否并行、并行方式和并行的拷贝数。
步骤d,根据所述并行参数表执行带有更新后的所述操作信息的所述ETL过程脚本文件,实现ETL过程的并行。
本步骤中,所述操作信息包括:是否统计、统计字段、执行时间、字段行数、是否并行、并行方式和并行的拷贝数;其中,本步骤中并不对已经执行过的信息进行再执行,如是否统计、统计字段、执行时间和字段行数,仅对未执行的操作信息进行执行,如是否并行、并行方式和并行的拷贝数。
该方法可以为不同的ETL过程作出并行决策,为所述ETL过程提供并行方法。一方面,它加快了ETL过程的执行速度,为ETL过程开发人员节省了ETL过程测试时间和开发时间,为企业数据仓库构建节约成本,为企业运营增加效益。另一方面,该方法具有ETL过程并行解决方法的多样性,可以为各种不同的ETL过程自动提供并行方法,省去了ETL开发人员为每一个ETL过程配置并行文件的过程,同样节省了ETL过程开发人员开发ETL过程的时间,加速各个主体的数据仓库额构建,为企业高层的业务决策提供了更为实时的数据信息,让决策更为科学和准确,给企业带来更多的便利和更好的效果。
实施例一
如上述所述的ETL过程并行决策方法,本实施例与其不同之处在于,如图5本发明ETL过程并行决策方法步骤a的流程图所示,其为;其中,步骤a包括:
步骤a1,将所述ETL过程脚本文件划分成操作,对同一个字段或同一组字段的修改看作一个操作;
对字段的修改的行为包括:删除字段、新增字段(单独新增一个常量字段,由其他字段计算得出一个新字段)、修改字段的格式(浮点型改为整数型)、更改字段(乘以100)等等。将ETL过程脚本文件划分成操作,对同一个字段或同一组字段的修改看作一个操作意为:首先对脚本文件划分操作,再对这些操作按某种规则进行编号。
划分:检索脚本文件,如果某段脚本是对一个字段(可以是表中的任何字段)进行修改,就将这段脚本视为一个操作。
编号:编号就是对操作进行编号,一般按照操作对应的脚本段落在脚本文件中的顺序来编号。
步骤a2,为操作编号,将操作号按照操作的执行顺序储存在所述并行参数表中;
本步骤中,操作号为图2、3、4中的0001、0002、0003、0004和0005。
步骤a3,给所述ETL过程脚本文件添加操作划分的信息,生成带有所述操作信息的所述ETL过程脚本文件。
实施例二
如上述所述的ETL过程并行决策方法,本实施例与其不同之处在于,如图6本发明ETL过程并行决策方法步骤b的流程图所示,其为;其中,步骤b包括:
步骤b1,执行带有所述操作信息的ETL过程脚本文件来处理源数据文件;
执行带有操作信息的ETL过程脚本文件来处理源数据文件,即为执行脚本文件中的脚本对源数据文件进行修改。
本步骤中,所述操作信息包括:是否统计、统计字段的信息。
本步骤中,处理源数据文件时采用管道并行技术。源数据文件在操作间的传递是以数据行为单位的,数据行以数据流的形式在操作间传递,除非一种特殊情况。所述特殊情况是,某操作需要对源数据字段做统计,所述某操作会等待上衣操作的全部数据到达该操作的缓存行集才开始执行操作。
步骤b2,每一个操作结束时,将上述操作的执行时长和读写的行数输出;
步骤b3,将接收到的各个操作的所述执行时长和读写的行数输出到所述并行参数表。
实施例三
如上述所述的ETL过程并行决策方法,本实施例与其不同之 处在于,如图7本发明ETL过程并行决策方法步骤c的流程图所示,其为;其中,步骤c包括:
步骤c1,对输入的带有所述操作信息的所述ETL过程脚本文件进行分析,判断每一个操作是否可以并行,可以并行的操作将采取何种方式并行,将判断得到的信息输出到所述并行参数表;
本步骤中所述操作信息包括:是否统计、统计字段的信息、执行时间、字段行数;
本步骤中,判断是否统计类操作,若不是,则该步骤可以采取单操作并行;若是,判断是否有连续的对不同字段的统计操作,若是,将连续的对不同字段的统计操作进行多操作并行,若不是,该操作不予并行。上述的单操作并行,将操作复制成多个操作拷贝,将所述操作即将处理的数据行按照轮询的方式分发给所述多个操作拷贝,多个操作拷贝并发执行。上述的多操作并行,即多操作并发执行。
步骤c2,对输入的所述并行参数表进行分析,判断每一个操作是否并行、采取的并行方式以及并行的拷贝数,将判断所得信息输出到所述并行参数表。
本步骤中,输入的并行参数表中包含步骤b3输出到并行参数表中的信息以及步骤c1输出到并行参数表中的判断得到的信息,本步骤对其进行分析,最终确认每一个操作是否并行、采取何种方式并行以及并行的拷贝数,并将这些信息一同写入并行参数表。
实施例四
如上述所述的ETL过程并行决策方法,本实施例与其不同之处在于,如图8本发明ETL过程并行决策方法步骤d的流程图所示,其为;其中,步骤d包括:
步骤d1,接收所述并行参数表,根据所述并行参数表中操作的并行信息控制执行过程;
发出执行信号,并在接收到结束信号后发出下一个执行信号。
步骤d2,执行输入的带有所述操作信息的所述ETL过程脚本 文件来处理所述源数据文件。
根据带有操作信息的ETL过程脚本文件执行ETL过程,每结束一个操作便发出结束信号,在接收到执行信号后执行下次操作,执行信号是接下来执行的操作及所述操作应该使用的并行方法。
本步骤中,所述操作信息包括:是否统计、统计字段、执行时间、字段行数、是否并行、并行方式和并行的拷贝数;其中,本步骤中并不对已经执行过的信息进行再执行,如是否统计、统计字段、执行时间和字段行数,仅对未执行的操作信息进行执行,如是否并行、并行方式和并行的拷贝数。
实施例五
本实施例为一种ETL过程并行决策装置,其与上述所述的ETL过程并行决策方法相对应;如图9本发明ETL过程并行决策装置的结构图所示,其为,其中,所述ETL过程并行决策装置包括:
输出模块1,输出带有操作信息的ETL过程脚本文件并初始化并行参数表;
第一运行模块2,执行带有所述操作信息的所述ETL过程脚本文件并将执行信息记录在所述并行参数表中;
分析模块3,分析所述并行参数表并为每个操作的并行方式做决策,将决策结果写入所述并行参数表中,更新所述操作信息;
第二运行模块4,根据所述并行参数表执行带有更新后的所述操作信息的所述ETL过程脚本文件,实现ETL过程的并行。
所述操作信息包括:是否统计、统计字段的信息;更新后的所述操作信息包括:是否统计、统计字段、执行时间、字段行数、是否并行、并行方式和并行的拷贝数;
所述输出模块1,包括:
操作划分子模块11,将所述ETL过程脚本文件划分成操作,对同一个字段或同一组字段的修改看作一个操作;
操作编号子模块12,为操作编号,将操作号按照操作的执行 顺序储存在所述并行参数表中;
操作输出子模块13,给所述ETL过程脚本文件添加操作划分的信息,生成带有所述操作信息的所述ETL过程脚本文件。
所述第一运行模块2,包括:
第一执行子模块21,执行带有所述操作信息的ETL过程脚本文件来处理源数据文件;
执行记录子模块22,每一个操作结束时,将上述操作的执行时长和读写的行数输出;
执行输出子模块23,将接收到的各个操作的所述执行时长和读写的行数输出到所述并行参数表。
所述分析模块3,包括:
脚本分析子模块31,对输入的带有所述操作信息的所述ETL过程脚本文件进行分析,判断每一个操作是否可以并行,可以并行的操作将采取何种方式并行,将判断得到的信息输出到所述并行参数表;
所述脚本分析子模块31判断每个操作是否统计类操作,若不是,则该步骤可以采取单操作并行;若是,判断是否有连续的对不同字段的统计操作,若是,将连续的对不同字段的统计操作进行多操作并行,若不是,该操作不予并行。
参数分析子模块32,对输入的所述并行参数表进行分析,判断每一个操作是否并行、采取的并行方式以及并行的拷贝数,将判断所得信息输出到所述并行参数表。
所述第二运行模块4,包括:
控制子模块41,接收所述并行参数表,根据所述并行参数表中操作的并行信息控制执行过程;
第二执行子模块42,执行输入的带有所述操作信息的所述ETL过程脚本文件来处理所述源数据文件。
该装置可以为不同的ETL过程作出并行决策,为所述ETL过程提供并行方法。一方面,它加快了ETL过程的执行速度,为ETL过程开发人员节省了ETL过程测试时间和开发时间,为企业数据 仓库构建节约成本,为企业运营增加效益。另一方面,该装置具有ETL过程并行解决方法的多样性,可以为各种不同的ETL过程自动提供并行方法,省去了ETL开发人员为每一个ETL过程配置并行文件的过程,同样节省了ETL过程开发人员开发ETL过程的时间,加速各个主体的数据仓库额构建,为企业高层的业务决策提供了更为实时的数据信息,让决策更为科学和准确,给企业带来更多的便利和更好的效果。
实施例六
如上述所述的ETL过程并行决策装置,本实施例与其不同之处在于,所述第一运行模块2与所述第二运行模块4为同一运行模块,所述第一执行子模块21,与所述第二执行子模块42为所述运行模块内的同一执行子模块,所述运行模块还包括:所述执行记录子模块、所述执行输出子模块、所述控制子模块。
这样,利用相同的模块和子模块完成相似的任务,可以减少模块和子模块的数量,减小对系统资源的占用,进一步提高ETL过程并行决策的速度。
以上所述仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

Claims (8)

1.一种ETL过程并行决策方法,其特征在于,包括:
步骤a,输出带有操作信息的ETL过程脚本文件并初始化并行参数表;
步骤b,执行带有所述操作信息的所述ETL过程脚本文件并将执行信息记录在所述并行参数表中;
步骤c,分析所述并行参数表并为每个操作的并行方式做决策,将决策结果写入所述并行参数表中,更新所述操作信息;
步骤d,根据所述并行参数表执行带有更新后的所述操作信息的所述ETL过程脚本文件,实现ETL过程的并行;
其中,所述步骤b包括:
步骤b1,执行带有所述操作信息的ETL过程脚本文件来处理源数据文件;
步骤b2,每一个操作结束时,将上述操作的执行时长和读写的行数输出;
步骤b3,将接收到的各个操作的所述执行时长和读写的行数输出到所述并行参数表。
2.根据权利要求1所述的ETL过程并行决策方法,其特征在于,所述步骤a中,所述操作信息包括:是否统计、统计字段的信息。
3.根据权利要求2所述的ETL过程并行决策方法,其特征在于,所述步骤d中,所述操作信息包括:是否统计、统计字段、执行时间、字段行数、是否并行、并行方式和并行的拷贝数。
4.根据权利要求1-3中任一所述的ETL过程并行决策方法,其特征在于,步骤a包括:
步骤a1,将所述ETL过程脚本文件划分成操作,对同一个字段或同一组字段的修改看作一个操作;
步骤a2,为操作编号,将操作号按照操作的执行顺序储存在所述并行参数表中;
步骤a3,给所述ETL过程脚本文件添加操作划分的信息,生成带有所述操作信息的所述ETL过程脚本文件。
5.根据权利要求1-2中任一所述的ETL过程并行决策方法,其特征在于,所述步骤c包括:
步骤c1,对输入的带有所述操作信息的所述ETL过程脚本文件进行分析,判断每一个操作是否可以并行,可以并行的操作将采取何种方式并行,将判断得到的信息输出到所述并行参数表;
步骤c2,对输入的所述并行参数表进行分析,判断每一个操作是否并行、采取的并行方式以及并行的拷贝数,将判断所得信息输出到所述并行参数表。
6.根据权利要求1-3中任一所述的ETL过程并行决策方法,其特征在于,所述步骤d包括:
步骤d1,接收所述并行参数表,根据所述并行参数表中操作的并行信息控制执行过程;
步骤d2,执行输入的带有所述操作信息的所述ETL过程脚本文件来处理源数据文件。
7.一种ETL过程并行决策装置,其特征在于,所述ETL过程并行决策装置包括:
输出模块,输出带有操作信息的ETL过程脚本文件并初始化并行参数表;
第一运行模块,执行带有所述操作信息的所述ETL过程脚本文件并将执行信息记录在所述并行参数表中;
分析模块,分析所述并行参数表并为每个操作的并行方式做决策,将决策结果写入所述并行参数表中,更新所述操作信息;
第二运行模块,根据所述并行参数表执行带有更新后的所述操作信息的所述ETL过程脚本文件,实现ETL过程的并行;
所述第一运行模块,包括:
第一执行子模块,执行带有所述操作信息的ETL过程脚本文件来处理源数据文件;
执行记录子模块,每一个操作结束时,将操作的执行时长和读写的行数输出;
执行输出子模块,将接收到的各个操作的所述执行时长和读写的行数输出到所述并行参数表。
8.根据权利要求7所述的ETL过程并行决策装置,其特征在于,所述输出模块,包括:
操作划分子模块,将所述ETL过程脚本文件划分成操作,对同一个字段或同一组字段的修改看作一个操作;
操作编号子模块,为操作编号,将操作号按照操作的执行顺序储存在所述并行参数表中;
操作输出子模块,给所述ETL过程脚本文件添加操作划分的信息,生成带有所述操作信息的所述ETL过程脚本文件。
CN201510272060.3A 2015-05-25 2015-05-25 Etl过程并行决策方法及装置 Active CN104850638B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510272060.3A CN104850638B (zh) 2015-05-25 2015-05-25 Etl过程并行决策方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510272060.3A CN104850638B (zh) 2015-05-25 2015-05-25 Etl过程并行决策方法及装置

Publications (2)

Publication Number Publication Date
CN104850638A CN104850638A (zh) 2015-08-19
CN104850638B true CN104850638B (zh) 2018-10-19

Family

ID=53850282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510272060.3A Active CN104850638B (zh) 2015-05-25 2015-05-25 Etl过程并行决策方法及装置

Country Status (1)

Country Link
CN (1) CN104850638B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260405B (zh) * 2015-09-22 2019-08-16 北京云知声信息技术有限公司 一种网络爬虫方法及装置
CN105468725B (zh) * 2015-11-20 2019-03-08 北京京东尚科信息技术有限公司 一种关系型数据库中表分段抽取系统及方法
CN107784039A (zh) * 2016-08-31 2018-03-09 阿里巴巴集团控股有限公司 一种数据加载方法、装置及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6374238B1 (en) * 1997-02-26 2002-04-16 Hitachi, Ltd. Routine executing method in database system
CN102103519A (zh) * 2009-12-21 2011-06-22 同济大学 一种基于脚本的Web服务执行优化方法
CN102722355A (zh) * 2012-06-04 2012-10-10 南京中兴软创科技股份有限公司 基于工作流机制的并发式etl转换方法
CN103942099A (zh) * 2014-04-30 2014-07-23 广州唯品会网络技术有限公司 基于Hive的并行执行任务方法及装置
CN104317843A (zh) * 2014-10-11 2015-01-28 上海瀚之友信息技术服务有限公司 一种数据同步etl系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6374238B1 (en) * 1997-02-26 2002-04-16 Hitachi, Ltd. Routine executing method in database system
CN102103519A (zh) * 2009-12-21 2011-06-22 同济大学 一种基于脚本的Web服务执行优化方法
CN102722355A (zh) * 2012-06-04 2012-10-10 南京中兴软创科技股份有限公司 基于工作流机制的并发式etl转换方法
CN103942099A (zh) * 2014-04-30 2014-07-23 广州唯品会网络技术有限公司 基于Hive的并行执行任务方法及装置
CN104317843A (zh) * 2014-10-11 2015-01-28 上海瀚之友信息技术服务有限公司 一种数据同步etl系统

Also Published As

Publication number Publication date
CN104850638A (zh) 2015-08-19

Similar Documents

Publication Publication Date Title
CN104317928A (zh) 一种基于分布式数据库的业务etl方法及系统
US9135071B2 (en) Selecting processing techniques for a data flow task
KR20220062228A (ko) 시퀀스 추출을 사용한 로봇 프로세스 자동화(rpa)를 위한 프로세스 이해
CN108037973A (zh) 一种与数据处理工具交互的数据流建模和处理系统
CN108718296A (zh) 基于sdn网络的网络管控方法、装置与计算机可读存储介质
US20220215246A1 (en) Method for constructing and training decentralized migration diagram neural network model for production process
CN104850638B (zh) Etl过程并行决策方法及装置
CN111813661A (zh) 一种全局业务数据驱动自动测试方法、装置、设备和介质
Liu et al. A novel CBR system for numeric prediction
CN109101519A (zh) 信息采集系统和异构信息融合系统
CN103077192A (zh) 一种数据处理方法及其系统
CN107229234A (zh) 面向航空电子数据的分布式挖掘系统及方法
CN107657425A (zh) 业务流程处理方法及装置、计算机可读介质、电子设备
CN109828790A (zh) 一种基于申威异构众核处理器的数据处理方法和系统
CN110134646B (zh) 知识平台服务数据存储与集成方法及系统
CN113919158A (zh) 一种用于飞行控制面板的仿真方法、装置及存储介质
CN117009038B (zh) 一种基于云原生技术的图计算平台
Boring et al. Task and procedure level primitives for modeling human error
Ulrich et al. Operator timing of task level primitives for use in computation-based human reliability analysis
CN110928761A (zh) 需求链及其应用的系统和方法
CN107451283A (zh) 数据的分析方法及装置
CN107025110A (zh) 一种基于软件开发要素及其联系的时态建模方法
CN113705684A (zh) 反向迭代的异常检测方法、装置、电子设备及介质
CN112381167A (zh) 训练任务分类模型的方法、任务分类方法和装置
CN105243490A (zh) 一种kpi统计系统及kpi统计方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 510630 A-701, 906 hi tech building, Tianhe North Road, Guangzhou, Guangdong

Applicant after: GUANGDONG KINGPOINT DATA SCIENCE AND TECHNOLOGY Co.,Ltd.

Address before: 510630 A-701, 906 hi tech building, Tianhe North Road, Guangzhou, Guangdong

Applicant before: GUANGZHOU KINGPOINT COMPUTER TECHNOLOGY CO.,LTD.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: ETL process parallel decision method and device

Effective date of registration: 20211022

Granted publication date: 20181019

Pledgee: Agricultural Bank of China Limited Dongcheng Branch of Guangzhou

Pledgor: GUANGDONG KINGPOINT DATA SCIENCE AND TECHNOLOGY Co.,Ltd.

Registration number: Y2021440000320

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20221230

Granted publication date: 20181019

Pledgee: Agricultural Bank of China Limited Dongcheng Branch of Guangzhou

Pledgor: GUANGDONG KINGPOINT DATA SCIENCE AND TECHNOLOGY Co.,Ltd.

Registration number: Y2021440000320

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Parallel decision method and device for ETL process

Effective date of registration: 20230131

Granted publication date: 20181019

Pledgee: Agricultural Bank of China Limited Dongcheng Branch of Guangzhou

Pledgor: GUANGDONG KINGPOINT DATA SCIENCE AND TECHNOLOGY Co.,Ltd.

Registration number: Y2023440020017

PE01 Entry into force of the registration of the contract for pledge of patent right