CN110851515B - 一种基于Spark分布式环境下的大数据ETL模型执行方法及介质 - Google Patents

一种基于Spark分布式环境下的大数据ETL模型执行方法及介质 Download PDF

Info

Publication number
CN110851515B
CN110851515B CN201911053365.XA CN201911053365A CN110851515B CN 110851515 B CN110851515 B CN 110851515B CN 201911053365 A CN201911053365 A CN 201911053365A CN 110851515 B CN110851515 B CN 110851515B
Authority
CN
China
Prior art keywords
model
data
time
etl
etl model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911053365.XA
Other languages
English (en)
Other versions
CN110851515A (zh
Inventor
郭宇达
朱欣焰
佘冰
呙维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201911053365.XA priority Critical patent/CN110851515B/zh
Publication of CN110851515A publication Critical patent/CN110851515A/zh
Application granted granted Critical
Publication of CN110851515B publication Critical patent/CN110851515B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于Spark分布式环境下的大数据ETL模型执行方法及介质,主要包括以下步骤:获取ETL分析模型,对其中涉及到的算子进行动态分析,判断是否包含与当前时间有关的算子;判断ETL模型的输出结果表是否全部存在;判断ETL模型的依赖数据表与输出结果表的更新时间之间的先后关系;对以上需要实际执行的ETL模型提交至优先队列。通过对数据集增加字段、记录元信息的方式保证ETL模型并行执行效率,通过对原始数据集特点以及ETL模型的动态分析,完成大数据ETL模型是否需要实际执行的判定,节省了计算资源,提高了分析性能,保障了分析系统的稳定性。

Description

一种基于Spark分布式环境下的大数据ETL模型执行方法及介质
技术领域
本发明属于大数据分析技术领域,具体涉及Spark分布式环境下的大数据ETL模型执行方法及系统。
背景技术
随着互联网快速发展,各行各业积累了大量数据资产,而ETL(Extract-Transform-Load,用来描述将数据从来源端经过抽取、转换、加载至目的端的过程)是对这些数据资产进行分析的第一步。同时随着大数据技术的发展,使得组建包含多台计算机的集群越来越方便、稳定、快捷,因此通过构建计算机集群,利用Spark分布式内存计算框架进行大数据ETL是当下较为前沿的一种技术。由于原始数据量大,ETL算子复杂等因素,一个ETL模型往往需要几分钟至几十分钟的运算时间,如果对所有ETL模型都不加分析地进行计算,可能执行多次模型分析会得到相同的结果,导致计算资源的浪费。
发明内容
针对背景技术中提出的问题,本发明提供了一种Spark分布式环境下的大数据ETL模型执行方法及系统,该方法及系统尤其适用于大数据ETL分析,可节省计算资源。
依据分析数据集的特点,可分为两类数据集,一类是稳定数据集,该类型数据在以小时或者天为单位的时间间隔内是稳定的,不会频繁发生变化;另一类数据集是活跃数据集,以分钟或小时为单位的时间间隔内是活跃的,不断会有新的数据记录添加至分析数据集内。而ETL模型是定时执行的,按照预设的时间点自动提交运行,因此会在一定时间周期内多次执行ETL模型。
基于上述特点,本发明提供了Spark分布式环境下的大数据ETL模型执行方法,步骤如下:
步骤1,本步骤为预处理步骤,包括对所有输入数据分别自动增加sparkid列,所增加sparkid列的字段类型为int 64,存储分区信息,该字段可支持的数据量约为9.2*1018,基本能够满足普通大数据分析。且该字段自增长,即每插入分析数据库一条数据,该插入的数据会额外增加一个自增的int字段,用于后续Spark并行读取。同时根据输入数据构造该数据的数据总量、sparkid上下限、数据更新时间等元信息,元信息随数据更新而更新。如车辆轨迹表,每月1000W数据量,则自动为该表增加sparkid列,从1-1000w自增,在进行ETL分析时,根据sparkid列分区读取,将数据分为1-100w,100w-200w…900w-1000w,加快读取效率。
步骤2,从分析数据库获取已创建的ETL模型,对ETL模型进行步骤分解,将ETL模型分解为原始算子,判断原始算子是否包含与当前时间有关的算子,如果有,则提交ETL模型至模型执行的优先队列中;如果没有则进行步骤3;算子与当前时间有关即意味着每次执行得到的结果都可能不同,有必要实际进行计算;例如筛选条件为最近3天内,则在执行ETL模型时,需要根据当前时间做动态判定,当前时间为2019-7-1022:00:00,则筛选的数据为2019-7-722:00:00至2019-7-1022:00:00;当前时间为2019-7-3012:00:00,则筛选的数据为2019-7-2712:00:00至2019-7-3012:00:00。
步骤3,获取ETL模型定义好的输出结果集信息,由于结果集的命名规则是固定的,采取模型序号加算子ID的方式构成;根据该命名规则得到该模型的输出结果表名称,判断所有输出结果表是否全部存在,若其中某一输出结果表不存在,则说明该ETL模型的某一结果表被删除,此时直接返回,将模型提交至优先队列;若全部存在,则进行步骤4。步骤4,从元信息表中获取ETL模型所有结果集信息,记录每个结果集的最后更新时间,此时间代表了上次ETL模型执行的时间点,结果表更新时间集合用Tr表示,集合中的元素为key-value键值对,其中key为结果表表名,value为结果表更新时间,即:
Tr={(tablename1,tr1),(tablename2,tr2)...(tablenamen,trn)}。
步骤5,获取ETL模型依赖的数据表元信息,也即模型输入数据,记录每个依赖数据表的最后更新时间,此时间代表了原始数据表最新的更新时间,依赖数据表更新时间集合用集合Td表示,集合中的元素为key-value键值对,其中key为依赖数据表表名,value为依赖数据表更新时间,即:
Td={(depency1,td1),(depency2,td2)...(depencyn,tdn)}。
步骤6,以步骤4中的Tr集合为准,依次判断td1是否早于tr1、tr2……trn中所有时间点,td2是否早于tr1、tr2……trn所有时间点,tdn是否早于tr1、tr2……trn中所有时间点,若全部满足则说明依赖数据集在上次执行完ETL模型后没有发生变化,此次不需要执行该ETL模型;若存在任一一个条件不满足,则说明依赖数据集在上次执行完ETL模型后进行了插入或更新,本次需要重新执行模型,则提交至优先队列执行ETL模型。
作为优选,设置一个定时任务,定时检测优先队列中是否存在需要执行的模型,在集群资源充足的条件下,选择优先级最大的若干个ETL模型提交至Spark集群进行运算。
一种计算机介质,其特征在于,存储有计算机程序,运行计算机程序包括以下步骤:
步骤1,本步骤为预处理步骤,包括对所有输入数据分别自动增加sparkid列,所增加sparkid列的字段类型为int 64,存储分区信息,该字段可支持的数据量约为9.2*1018,基本能够满足普通大数据分析。且该字段自增长,即每插入分析数据库一条数据,该插入的数据会额外增加一个自增的int字段,用于后续Spark并行读取。同时根据输入数据构造该数据的数据总量、sparkid上下限、数据更新时间等元信息,元信息随数据更新而更新。如车辆轨迹表,每月1000W数据量,则自动为该表增加sparkid列,从1-1000w自增,在进行ETL分析时,根据sparkid列分区读取,将数据分为1-100w,100w-200w…900w-1000w,加快读取效率。
步骤2,从分析数据库获取已创建的ETL模型,对ETL模型进行步骤分解,将ETL模型分解为原始算子,判断原始算子是否包含与当前时间有关的算子,如果有,则提交ETL模型至模型执行的优先队列中;如果没有则进行步骤3;算子与当前时间有关即意味着每次执行得到的结果都可能不同,有必要实际进行计算;例如筛选条件为最近3天内,则在执行ETL模型时,需要根据当前时间做动态判定,当前时间为2019-7-1022:00:00,则筛选的数据为2019-7-722:00:00至2019-7-1022:00:00;当前时间为2019-7-3012:00:00,则筛选的数据为2019-7-2712:00:00至2019-7-3012:00:00。
步骤3,获取ETL模型定义好的输出结果集信息,由于结果集的命名规则是固定的,采取模型序号加算子ID的方式构成;根据该命名规则得到该模型的输出结果表名称,判断所有输出结果表是否全部存在,若其中某一输出结果表不存在,则说明该ETL模型的某一结果表被删除,此时直接返回,将模型提交至优先队列;若全部存在,则进行步骤4。步骤4,从元信息表中获取ETL模型所有结果集信息,记录每个结果集的最后更新时间,此时间代表了上次ETL模型执行的时间点,结果表更新时间集合用Tr表示,集合中的元素为key-value键值对,其中key为结果表表名,value为结果表更新时间,即:
Tr={(tablename1,tr1),(tablename2,tr2)...(tablenamen,trn)}。
步骤5,获取ETL模型依赖的数据表元信息,也即模型输入数据,记录每个依赖数据表的最后更新时间,此时间代表了原始数据表最新的更新时间,依赖数据表更新时间集合用集合Td表示,集合中的元素为key-value键值对,其中key为依赖数据表表名,value为依赖数据表更新时间,即:
Td={(depency1,td1),(depency2,td2)...(depencyn,tdn)}。
步骤6,以步骤4中的Tr集合为准,依次判断td1是否早于tr1、tr2……trn中所有时间点,td2是否早于tr1、tr2……trn所有时间点,tdn是否早于tr1、tr2……trn中所有时间点,若全部满足则说明依赖数据集在上次执行完ETL模型后没有发生变化,此次不需要执行该ETL模型;若存在任一一个条件不满足,则说明依赖数据集在上次执行完ETL模型后进行了插入或更新,本次需要重新执行模型,则提交至优先队列执行ETL模型。
作为优选,设置一个定时任务,定时检测优先队列中是否存在需要执行的模型,在集群资源充足的条件下,选择优先级最大的若干个ETL模型提交至Spark集群进行运算。
本发明方法的思路如下:
针对分析数据集自动化增加内置列sparkid,同时构造数据集元信息实体模型DBTable,在实体模型中存储数据量、sparkid的上下限、数据更新时间等元信息,并同sparkid列作为Spark中加载数据集的partition列,结合sparkid上下限进行数据分区,以达到数据在集群节点均匀分布的目的。
基于Spark分布式环境下的空间大数据ETL模型执行技术就是一种针对原始数据集特点以及ETL模型进行动态分析,对确实需要执行的ETL模型,提交至Spark集群进行计算,而对多次执行得到相同结果的ETL模型不予执行,从而节省了计算资源,提高了分析性能,保障了分析系统的稳定性。考虑到实际分析中需要保证多个集群节点数据分配的均匀性,在原始数据集中对数据进行了特殊处理,为每条数据增加系统内置列sparkid,通过该列对原始数据集进行分区,保证数据在计算过程中的均匀分布。
本发明属于大数据分析领域,涉及到一种大数据ETL模型执行技术。该技术能够根据原始数据集的特点、ELT模型特点动态分析模型执行的必要性;通过分析原始数据的元信息,将分析数据集均匀地分布到各个计算节点,分布式、并行化地执行ELT模型,充分利用Spark集群性能;考虑到ETL模型执行的稳定性,采用了优先队列来控制ETL模型的并发数;能够以分布式的方式稳定、高效地执行ETL模型。
附图说明
图1为本发明整体流程图;
图2为实施例中的具体流程示意图。
具体实施方式
为了更清楚地说明本发明的技术方案和技术效果,下面将对照附图对本发明的具体实施方式进行详细说明。显而易见地,下面描述仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明技术方案的主要思想是:
考虑到ETL模型的输入数据量较大,采取Spark分布式内存计算框架进行ETL分析,构造输入数据元信息并为输入数据自动化增加sparkid列;针对稳定型输入数据和活跃型输入数据的数据更新时间,结合ETL模型自身特点,动态分析ETL模型执行的必要性,只针对执行结果有变化的模型进行分布式运算,略过执行结果不变的ETL模型,从而节省了计算资源,提高了分析性能,保障了分析系统的稳定性。
具体实施时,可利用计算机程序来自动实现本发明,具体流程参见图2,包括步骤:
步骤1,本步骤为预处理步骤,包括对所有输入数据分别自动增加sparkid列,所增加sparkid列的字段类型为int 64,存储分区信息,该字段可支持的数据量约为9.2*11018,基本能够满足普通大数据分析。且该字段自增长,即每插入分析数据库一条数据,该插入的数据会额外增加一个自增的int字段,用于后续Spark并行读取。同时根据输入数据构造该数据的数据总量、sparkid上下限、数据更新时间等元信息,元信息随数据更新而更新。如车辆轨迹表,每月1000W数据量,则自动为该表增加sparkid列,从1-1000w自增,在进行ETL分析时,根据sparkid列分区读取,将数据分为1-100w,100w-200w…900w-1000w,加快读取效率。
步骤2,从分析数据库获取已创建的ETL模型,对ETL模型进行步骤分解,将ETL模型分解为原始算子,判断原始算子是否包含与当前时间有关的算子,如果有,则提交ETL模型至模型执行的优先队列中;如果没有则进行步骤3;算子与当前时间有关即意味着每次执行得到的结果都可能不同,有必要实际进行计算;例如筛选条件为最近3天内,则在执行ETL模型时,需要根据当前时间做动态判定,当前时间为2019-7-1022:00:00,则筛选的数据为2019-7-722:00:00至2019-7-1022:00:00;当前时间为2019-7-3012:00:00,则筛选的数据为2019-7-2712:00:00至2019-7-3012:00:00。
步骤3,获取ETL模型定义好的输出结果集信息,由于结果集的命名规则是固定的,采取模型序号加算子ID的方式构成;根据该命名规则得到该模型的输出结果表名称,判断所有输出结果表是否全部存在,若其中某一输出结果表不存在,则说明该ETL模型的某一结果表被删除,此时直接返回,将模型提交至优先队列;若全部存在,则进行步骤4。步骤4,从元信息表中获取ETL模型所有结果集信息,记录每个结果集的最后更新时间,此时间代表了上次ETL模型执行的时间点,结果表更新时间集合用Tr表示,集合中的元素为key-value键值对,其中key为结果表表名,value为结果表更新时间,即:
Tr={(tablename1,tr1),(tablename2,tr2)...(tablenamen,trn)}。
步骤5,获取ETL模型依赖的数据表元信息,也即模型输入数据,记录每个依赖数据表的最后更新时间,此时间代表了原始数据表最新的更新时间,依赖数据表更新时间集合用集合Td表示,集合中的元素为key-value键值对,其中key为依赖数据表表名,value为依赖数据表更新时间,即:
Td={(depency1,td1),(depency2,td2)...(depencyn,tdn)}。
步骤6,以步骤4中的Tr集合为准,依次判断td1是否早于tr1、tr2……trn中所有时间点,td2是否早于tr1、tr2……trn所有时间点,tdn是否早于tr1、tr2……trn中所有时间点,若全部满足则说明依赖数据集在上次执行完ETL模型后没有发生变化,此次不需要执行该ETL模型;若存在任一一个条件不满足,则说明依赖数据集在上次执行完ETL模型后进行了插入或更新,本次需要重新执行模型,则提交至优先队列。
最后,若需要实际执行,则会将该模型提交至优先队列;系统可通过设置一个定时任务,定时检测优先队列中是否存在需要执行的模型,在集群资源充足的条件下,选择优先级最大的若干个ETL模型提交至Spark集群进行运算。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (4)

1.一种基于Spark分布式环境下的大数据ETL模型执行方法,其特征在于,包括:
步骤1,本步骤为预处理步骤,包括对所有输入数据分别自动增加sparkid列,所增加sparkid列的字段类型为int 64,存储分区信息,该字段可支持的数据量为9.2*1018,能够满足普通大数据分析;且该字段自增长,即每插入分析数据库一条数据,该插入的数据会额外增加一个自增的int字段,用于后续Spark并行读取;同时根据输入数据构造该数据的元信息,元信息包括该数据的数据总量、sparkid上下限、数据更新时间,元信息随数据更新而更新;
步骤2,从分析数据库获取已创建的ETL模型,对ETL模型进行步骤分解,将ETL模型分解为原始算子,判断原始算子是否包含与当前时间有关的算子,如果有,则提交ETL模型至模型执行的优先队列中;如果没有则进行步骤3;算子与当前时间有关即意味着每次执行得到的结果都可能不同,有必要实际进行计算;选定不同的时间条件,在执行ETL模型时,需要根据当前时间做动态判定;
步骤3,获取ETL模型定义好的输出结果集信息,由于结果集的命名规则是固定的,采取模型序号加算子ID的方式构成;根据该命名规则得到该模型的输出结果表名称,判断所有输出结果表是否全部存在,若其中某一输出结果表不存在,则说明该ETL模型的某一结果表被删除,此时直接返回,将模型提交至优先队列;若全部存在,则进行步骤4;
步骤4,从元信息表中获取ETL模型所有结果集信息,记录每个结果集的最后更新时间,此时间代表了上次ETL模型执行的时间点,结果表更新时间集合用Tr表示,集合中的元素为key-value键值对,其中key为结果表表名,value为结果表更新时间,即:
Tr={(tablename1,tr1),(tablename2,tr2)…(tablenamen,trn)};
步骤5,获取ETL模型依赖的数据表元信息,也即模型输入数据,记录每个依赖数据表的最后更新时间,此时间代表了原始数据表最新的更新时间,依赖数据表更新时间集合用集合Td表示,集合中的元素为key-value键值对,其中key为依赖数据表表名,value为依赖数据表更新时间,即:
Td={(depency1,td1),(depency2,td2)…(depencyn,tdn)};
步骤6,以步骤4中的Tr集合为准,依次判断td1是否早于tr1、tr2……trn中所有时间点,td2是否早于tr1、tr2……trn所有时间点,tdn是否早于tr1、tr2……trn中所有时间点,若全部满足则说明依赖数据集在上次执行完ETL模型后没有发生变化,此次不需要执行该ETL模型;若存在任一一个条件不满足,则说明依赖数据集在上次执行完ETL模型后进行了插入或更新,本次需要重新执行模型,则提交至优先队列执行ETL模型。
2.根据权利要求1所述的一种基于Spark分布式环境下的大数据ETL模型执行方法,其特征在于,设置一个定时任务,定时检测优先队列中是否存在需要执行的模型,在集群资源充足的条件下,选择优先级最大的若干个ETL模型提交至Spark集群进行运算。
3.一种计算机介质,其特征在于,存储有计算机程序,运行计算机程序包括以下步骤:
步骤1,本步骤为预处理步骤,包括对所有输入数据分别自动增加sparkid列,所增加sparkid列的字段类型为int 64,存储分区信息,该字段可支持的数据量为9.2*1018,能够满足普通大数据分析;且该字段自增长,即每插入分析数据库一条数据,该插入的数据会额外增加一个自增的int字段,用于后续Spark并行读取;同时根据输入数据构造该数据的元信息,所述元信息包括该数据的数据总量、sparkid上下限、数据更新时间,元信息随数据更新而更新;
步骤2,从分析数据库获取已创建的ETL模型,对ETL模型进行步骤分解,将ETL模型分解为原始算子,判断原始算子是否包含与当前时间有关的算子,如果有,则提交ETL模型至模型执行的优先队列中;如果没有则进行步骤3;算子与当前时间有关即意味着每次执行得到的结果都可能不同,有必要实际进行计算;选定不同的时间条件,在执行ETL模型时,需要根据当前时间做动态判定,当前时间为2019-7-1022:00:00,则筛选的数据为2019-7-722:00:00至2019-7-1022:00:00;当前时间为2019-7-3012:00:00,则筛选的数据为2019-7-2712:00:00至2019-7-3012:00:00;
步骤3,获取ETL模型定义好的输出结果集信息,由于结果集的命名规则是固定的,采取模型序号加算子ID的方式构成;根据该命名规则得到该模型的输出结果表名称,判断所有输出结果表是否全部存在,若其中某一输出结果表不存在,则说明该ETL模型的某一结果表被删除,此时直接返回,将模型提交至优先队列;若全部存在,则进行步骤4;步骤4,从元信息表中获取ETL模型所有结果集信息,记录每个结果集的最后更新时间,此时间代表了上次ETL模型执行的时间点,结果表更新时间集合用Tr表示,集合中的元素为key-value键值对,其中key为结果表表名,value为结果表更新时间,即:
Tr={(tablename1,tr1),(tablename2,tr2)…(tablenamen,trn)};
步骤5,获取ETL模型依赖的数据表元信息,也即模型输入数据,记录每个依赖数据表的最后更新时间,此时间代表了原始数据表最新的更新时间,依赖数据表更新时间集合用集合Td表示,集合中的元素为key-value键值对,其中key为依赖数据表表名,value为依赖数据表更新时间,即:
Td={(depency1,td1),(depency2,td2)…(depencyn,tdn)};
步骤6,以步骤4中的Tr集合为准,依次判断td1是否早于tr1、tr2……trn中所有时间点,td2是否早于tr1、tr2……trn所有时间点,tdn是否早于tr1、tr2……trn中所有时间点,若全部满足则说明依赖数据集在上次执行完ETL模型后没有发生变化,此次不需要执行该ETL模型;若存在任一一个条件不满足,则说明依赖数据集在上次执行完ETL模型后进行了插入或更新,本次需要重新执行模型,则提交至优先队列执行ETL模型。
4.根据权利要求3所述的一种计算机介质,其特征在于,设置一个定时任务,定时检测优先队列中是否存在需要执行的模型,在集群资源充足的条件下,选择优先级最大的若干个ETL模型提交至Spark集群进行运算。
CN201911053365.XA 2019-10-31 2019-10-31 一种基于Spark分布式环境下的大数据ETL模型执行方法及介质 Active CN110851515B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911053365.XA CN110851515B (zh) 2019-10-31 2019-10-31 一种基于Spark分布式环境下的大数据ETL模型执行方法及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911053365.XA CN110851515B (zh) 2019-10-31 2019-10-31 一种基于Spark分布式环境下的大数据ETL模型执行方法及介质

Publications (2)

Publication Number Publication Date
CN110851515A CN110851515A (zh) 2020-02-28
CN110851515B true CN110851515B (zh) 2023-04-28

Family

ID=69598920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911053365.XA Active CN110851515B (zh) 2019-10-31 2019-10-31 一种基于Spark分布式环境下的大数据ETL模型执行方法及介质

Country Status (1)

Country Link
CN (1) CN110851515B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035468A (zh) * 2020-08-24 2020-12-04 杭州览众数据科技有限公司 基于内存计算、web可视化配置的多数据源ETL工具
CN112115191B (zh) * 2020-09-22 2022-02-15 南京北斗创新应用科技研究院有限公司 一种大数据etl模型执行的分支优化方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304538A (zh) * 2018-01-30 2018-07-20 广东奡风科技股份有限公司 一种完全基于分布式内存计算的etl系统及其方法
CN108509603A (zh) * 2018-04-02 2018-09-07 焦点科技股份有限公司 一种数据仓库的自适应动态调度方法及系统
CN109918410A (zh) * 2018-10-31 2019-06-21 中国人民解放军国防科技大学 基于Spark平台的分布式大数据函数依赖发现方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10929417B2 (en) * 2015-09-11 2021-02-23 International Business Machines Corporation Transforming and loading data utilizing in-memory processing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304538A (zh) * 2018-01-30 2018-07-20 广东奡风科技股份有限公司 一种完全基于分布式内存计算的etl系统及其方法
CN108509603A (zh) * 2018-04-02 2018-09-07 焦点科技股份有限公司 一种数据仓库的自适应动态调度方法及系统
CN109918410A (zh) * 2018-10-31 2019-06-21 中国人民解放军国防科技大学 基于Spark平台的分布式大数据函数依赖发现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Denny, etc..Implementation of Change Data Capture in ETL Process for Data Warehouse Using HDFS and Apache Spark.《IEEE Access》.2017,第49-55页. *
丁祥武等.基于Spark的并行ETL.《计算机工程与设计》.2017,第38卷(第9期),第2580-2585页. *

Also Published As

Publication number Publication date
CN110851515A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
US11249997B1 (en) System-wide query optimization
US11341139B2 (en) Incremental and collocated redistribution for expansion of online shared nothing database
US10956422B2 (en) Integrating event processing with map-reduce
US9971827B2 (en) Subscription for integrating external data from external system
US20070179959A1 (en) Automatic discovery of data relationships
US8601007B2 (en) Net change notification based cached views with linked attributes
WO2012131927A1 (ja) 計算機システム及びデータ管理方法
Bei et al. Configuring in-memory cluster computing using random forest
US9916341B2 (en) Partition level operation with concurrent activities
CN107870949B (zh) 数据分析作业依赖关系生成方法和系统
CN110851515B (zh) 一种基于Spark分布式环境下的大数据ETL模型执行方法及介质
US20120303634A1 (en) In-Memory Data Grid Hash Scheme Optimization
WO2010058222A2 (en) Updating data within a business planning tool
US20230401537A1 (en) Forming event-based recommendations
US11238077B2 (en) Auto derivation of summary data using machine learning
US11934927B2 (en) Handling system-characteristics drift in machine learning applications
CN116126901A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN113220530B (zh) 数据质量监控方法及平台
Reniers et al. Schema design support for semi-structured data: Finding the sweet spot between NF and De-NF
MacDonald PhilDB: The time series database with built-in change logging
US20220207045A1 (en) Parallel operations relating to micro-models in a database system
WO2021171457A1 (ja) 制御方法、情報処理装置及び制御プログラム
Liu et al. Planning your sql-on-hadoop deployment using a low-cost simulation-based approach
US8296336B2 (en) Techniques for efficient dataloads into partitioned tables using swap tables
Benkrid et al. Towards an adaptive multidimensional partitioning for accelerating spark SQL

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230331

Address after: 430072 Hubei Province, Wuhan city Wuchang District of Wuhan University Luojiashan

Applicant after: WUHAN University

Address before: Room 4121, 4th Floor, Dongke Building, No. 312, Luoyu Road, Hongshan District, Wuhan City, Hubei Province 430070

Applicant before: WUHAN LIANTU SHIKONG INFORMATION TECHNOLOGY CO.,LTD.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant