CN110851515B

CN110851515B - 一种基于Spark分布式环境下的大数据ETL模型执行方法及介质

Info

Publication number: CN110851515B
Application number: CN201911053365.XA
Authority: CN
Inventors: 郭宇达; 朱欣焰; 佘冰; 呙维
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2023-04-28
Anticipated expiration: 2039-10-31
Also published as: CN110851515A

Abstract

本发明提出了一种基于Spark分布式环境下的大数据ETL模型执行方法及介质，主要包括以下步骤：获取ETL分析模型，对其中涉及到的算子进行动态分析，判断是否包含与当前时间有关的算子；判断ETL模型的输出结果表是否全部存在；判断ETL模型的依赖数据表与输出结果表的更新时间之间的先后关系；对以上需要实际执行的ETL模型提交至优先队列。通过对数据集增加字段、记录元信息的方式保证ETL模型并行执行效率，通过对原始数据集特点以及ETL模型的动态分析，完成大数据ETL模型是否需要实际执行的判定，节省了计算资源，提高了分析性能，保障了分析系统的稳定性。

Description

一种基于Spark分布式环境下的大数据ETL模型执行方法及介质

技术领域

本发明属于大数据分析技术领域，具体涉及Spark分布式环境下的大数据ETL模型执行方法及系统。

背景技术

随着互联网快速发展，各行各业积累了大量数据资产，而ETL(Extract-Transform-Load，用来描述将数据从来源端经过抽取、转换、加载至目的端的过程)是对这些数据资产进行分析的第一步。同时随着大数据技术的发展，使得组建包含多台计算机的集群越来越方便、稳定、快捷，因此通过构建计算机集群，利用Spark分布式内存计算框架进行大数据ETL是当下较为前沿的一种技术。由于原始数据量大，ETL算子复杂等因素，一个ETL模型往往需要几分钟至几十分钟的运算时间，如果对所有ETL模型都不加分析地进行计算，可能执行多次模型分析会得到相同的结果，导致计算资源的浪费。

发明内容

针对背景技术中提出的问题，本发明提供了一种Spark分布式环境下的大数据ETL模型执行方法及系统，该方法及系统尤其适用于大数据ETL分析，可节省计算资源。

依据分析数据集的特点，可分为两类数据集，一类是稳定数据集，该类型数据在以小时或者天为单位的时间间隔内是稳定的，不会频繁发生变化；另一类数据集是活跃数据集，以分钟或小时为单位的时间间隔内是活跃的，不断会有新的数据记录添加至分析数据集内。而ETL模型是定时执行的，按照预设的时间点自动提交运行，因此会在一定时间周期内多次执行ETL模型。

基于上述特点，本发明提供了Spark分布式环境下的大数据ETL模型执行方法，步骤如下：

步骤1，本步骤为预处理步骤，包括对所有输入数据分别自动增加sparkid列，所增加sparkid列的字段类型为int 64，存储分区信息，该字段可支持的数据量约为9.2*10¹⁸，基本能够满足普通大数据分析。且该字段自增长，即每插入分析数据库一条数据，该插入的数据会额外增加一个自增的int字段，用于后续Spark并行读取。同时根据输入数据构造该数据的数据总量、sparkid上下限、数据更新时间等元信息，元信息随数据更新而更新。如车辆轨迹表，每月1000W数据量，则自动为该表增加sparkid列，从1-1000w自增，在进行ETL分析时，根据sparkid列分区读取，将数据分为1-100w，100w-200w…900w-1000w，加快读取效率。

步骤2，从分析数据库获取已创建的ETL模型，对ETL模型进行步骤分解，将ETL模型分解为原始算子，判断原始算子是否包含与当前时间有关的算子，如果有，则提交ETL模型至模型执行的优先队列中；如果没有则进行步骤3；算子与当前时间有关即意味着每次执行得到的结果都可能不同，有必要实际进行计算；例如筛选条件为最近3天内，则在执行ETL模型时，需要根据当前时间做动态判定，当前时间为2019-7-1022:00:00，则筛选的数据为2019-7-722:00:00至2019-7-1022:00:00；当前时间为2019-7-3012:00:00，则筛选的数据为2019-7-2712:00:00至2019-7-3012:00:00。

步骤3，获取ETL模型定义好的输出结果集信息，由于结果集的命名规则是固定的，采取模型序号加算子ID的方式构成；根据该命名规则得到该模型的输出结果表名称，判断所有输出结果表是否全部存在，若其中某一输出结果表不存在，则说明该ETL模型的某一结果表被删除，此时直接返回，将模型提交至优先队列；若全部存在，则进行步骤4。步骤4，从元信息表中获取ETL模型所有结果集信息，记录每个结果集的最后更新时间，此时间代表了上次ETL模型执行的时间点，结果表更新时间集合用T_r表示，集合中的元素为key-value键值对，其中key为结果表表名，value为结果表更新时间，即：

T_r＝{(tablename₁，tr₁)，(tablename₂，tr₂)...(tablename_n，tr_n)}。

步骤5，获取ETL模型依赖的数据表元信息，也即模型输入数据，记录每个依赖数据表的最后更新时间，此时间代表了原始数据表最新的更新时间，依赖数据表更新时间集合用集合T_d表示，集合中的元素为key-value键值对，其中key为依赖数据表表名，value为依赖数据表更新时间，即：

T_d＝{(depency₁，td₁)，(depency₂，td₂)...(depency_n，td_n)}。

步骤6，以步骤4中的T_r集合为准，依次判断td₁是否早于tr₁、tr₂……tr_n中所有时间点，td₂是否早于tr₁、tr₂……tr_n所有时间点，td_n是否早于tr₁、tr₂……tr_n中所有时间点，若全部满足则说明依赖数据集在上次执行完ETL模型后没有发生变化，此次不需要执行该ETL模型；若存在任一一个条件不满足，则说明依赖数据集在上次执行完ETL模型后进行了插入或更新，本次需要重新执行模型，则提交至优先队列执行ETL模型。

作为优选，设置一个定时任务，定时检测优先队列中是否存在需要执行的模型，在集群资源充足的条件下，选择优先级最大的若干个ETL模型提交至Spark集群进行运算。

一种计算机介质，其特征在于，存储有计算机程序，运行计算机程序包括以下步骤：

T_d＝{(depency₁，td₁)，(depency₂，td₂)...(depency_n，td_n)}。

本发明方法的思路如下：

针对分析数据集自动化增加内置列sparkid，同时构造数据集元信息实体模型DBTable，在实体模型中存储数据量、sparkid的上下限、数据更新时间等元信息，并同sparkid列作为Spark中加载数据集的partition列，结合sparkid上下限进行数据分区，以达到数据在集群节点均匀分布的目的。

基于Spark分布式环境下的空间大数据ETL模型执行技术就是一种针对原始数据集特点以及ETL模型进行动态分析，对确实需要执行的ETL模型，提交至Spark集群进行计算，而对多次执行得到相同结果的ETL模型不予执行，从而节省了计算资源，提高了分析性能，保障了分析系统的稳定性。考虑到实际分析中需要保证多个集群节点数据分配的均匀性，在原始数据集中对数据进行了特殊处理，为每条数据增加系统内置列sparkid，通过该列对原始数据集进行分区，保证数据在计算过程中的均匀分布。

本发明属于大数据分析领域，涉及到一种大数据ETL模型执行技术。该技术能够根据原始数据集的特点、ELT模型特点动态分析模型执行的必要性；通过分析原始数据的元信息，将分析数据集均匀地分布到各个计算节点，分布式、并行化地执行ELT模型，充分利用Spark集群性能；考虑到ETL模型执行的稳定性，采用了优先队列来控制ETL模型的并发数；能够以分布式的方式稳定、高效地执行ETL模型。

附图说明

图1为本发明整体流程图；

图2为实施例中的具体流程示意图。

具体实施方式

为了更清楚地说明本发明的技术方案和技术效果，下面将对照附图对本发明的具体实施方式进行详细说明。显而易见地，下面描述仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明技术方案的主要思想是：

考虑到ETL模型的输入数据量较大，采取Spark分布式内存计算框架进行ETL分析，构造输入数据元信息并为输入数据自动化增加sparkid列；针对稳定型输入数据和活跃型输入数据的数据更新时间，结合ETL模型自身特点，动态分析ETL模型执行的必要性，只针对执行结果有变化的模型进行分布式运算，略过执行结果不变的ETL模型，从而节省了计算资源，提高了分析性能，保障了分析系统的稳定性。

具体实施时，可利用计算机程序来自动实现本发明，具体流程参见图2，包括步骤：

步骤1，本步骤为预处理步骤，包括对所有输入数据分别自动增加sparkid列，所增加sparkid列的字段类型为int 64，存储分区信息，该字段可支持的数据量约为9.2*110¹⁸，基本能够满足普通大数据分析。且该字段自增长，即每插入分析数据库一条数据，该插入的数据会额外增加一个自增的int字段，用于后续Spark并行读取。同时根据输入数据构造该数据的数据总量、sparkid上下限、数据更新时间等元信息，元信息随数据更新而更新。如车辆轨迹表，每月1000W数据量，则自动为该表增加sparkid列，从1-1000w自增，在进行ETL分析时，根据sparkid列分区读取，将数据分为1-100w，100w-200w…900w-1000w，加快读取效率。

T_d＝{(depency₁，td₁)，(depency₂，td₂)...(depency_n，td_n)}。

步骤6，以步骤4中的T_r集合为准，依次判断td₁是否早于tr₁、tr₂……tr_n中所有时间点，td₂是否早于tr₁、tr₂……tr_n所有时间点，td_n是否早于tr₁、tr₂……tr_n中所有时间点，若全部满足则说明依赖数据集在上次执行完ETL模型后没有发生变化，此次不需要执行该ETL模型；若存在任一一个条件不满足，则说明依赖数据集在上次执行完ETL模型后进行了插入或更新，本次需要重新执行模型，则提交至优先队列。

最后，若需要实际执行，则会将该模型提交至优先队列；系统可通过设置一个定时任务，定时检测优先队列中是否存在需要执行的模型，在集群资源充足的条件下，选择优先级最大的若干个ETL模型提交至Spark集群进行运算。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于Spark分布式环境下的大数据ETL模型执行方法，其特征在于，包括：

步骤1，本步骤为预处理步骤，包括对所有输入数据分别自动增加sparkid列，所增加sparkid列的字段类型为int 64，存储分区信息，该字段可支持的数据量为9.2*10¹⁸，能够满足普通大数据分析；且该字段自增长，即每插入分析数据库一条数据，该插入的数据会额外增加一个自增的int字段，用于后续Spark并行读取；同时根据输入数据构造该数据的元信息，元信息包括该数据的数据总量、sparkid上下限、数据更新时间，元信息随数据更新而更新；

步骤2，从分析数据库获取已创建的ETL模型，对ETL模型进行步骤分解，将ETL模型分解为原始算子，判断原始算子是否包含与当前时间有关的算子，如果有，则提交ETL模型至模型执行的优先队列中；如果没有则进行步骤3；算子与当前时间有关即意味着每次执行得到的结果都可能不同，有必要实际进行计算；选定不同的时间条件，在执行ETL模型时，需要根据当前时间做动态判定；

步骤3，获取ETL模型定义好的输出结果集信息，由于结果集的命名规则是固定的，采取模型序号加算子ID的方式构成；根据该命名规则得到该模型的输出结果表名称，判断所有输出结果表是否全部存在，若其中某一输出结果表不存在，则说明该ETL模型的某一结果表被删除，此时直接返回，将模型提交至优先队列；若全部存在，则进行步骤4；

步骤4，从元信息表中获取ETL模型所有结果集信息，记录每个结果集的最后更新时间，此时间代表了上次ETL模型执行的时间点，结果表更新时间集合用T_r表示，集合中的元素为key-value键值对，其中key为结果表表名，value为结果表更新时间，即：

T_r＝{(tablename₁,tr₁),(tablename₂,tr₂)…(tablename_n,tr_n)}；

T_d＝{(depency₁,td₁),(depency₂,td₂)…(depency_n,td_n)}；

2.根据权利要求1所述的一种基于Spark分布式环境下的大数据ETL模型执行方法，其特征在于，设置一个定时任务，定时检测优先队列中是否存在需要执行的模型，在集群资源充足的条件下，选择优先级最大的若干个ETL模型提交至Spark集群进行运算。

3.一种计算机介质，其特征在于，存储有计算机程序，运行计算机程序包括以下步骤：

步骤1，本步骤为预处理步骤，包括对所有输入数据分别自动增加sparkid列，所增加sparkid列的字段类型为int 64，存储分区信息，该字段可支持的数据量为9.2*10¹⁸，能够满足普通大数据分析；且该字段自增长，即每插入分析数据库一条数据，该插入的数据会额外增加一个自增的int字段，用于后续Spark并行读取；同时根据输入数据构造该数据的元信息，所述元信息包括该数据的数据总量、sparkid上下限、数据更新时间，元信息随数据更新而更新；

步骤2，从分析数据库获取已创建的ETL模型，对ETL模型进行步骤分解，将ETL模型分解为原始算子，判断原始算子是否包含与当前时间有关的算子，如果有，则提交ETL模型至模型执行的优先队列中；如果没有则进行步骤3；算子与当前时间有关即意味着每次执行得到的结果都可能不同，有必要实际进行计算；选定不同的时间条件，在执行ETL模型时，需要根据当前时间做动态判定，当前时间为2019-7-1022:00:00，则筛选的数据为2019-7-722:00:00至2019-7-1022:00:00；当前时间为2019-7-3012:00:00，则筛选的数据为2019-7-2712:00:00至2019-7-3012:00:00；

步骤3，获取ETL模型定义好的输出结果集信息，由于结果集的命名规则是固定的，采取模型序号加算子ID的方式构成；根据该命名规则得到该模型的输出结果表名称，判断所有输出结果表是否全部存在，若其中某一输出结果表不存在，则说明该ETL模型的某一结果表被删除，此时直接返回，将模型提交至优先队列；若全部存在，则进行步骤4；步骤4，从元信息表中获取ETL模型所有结果集信息，记录每个结果集的最后更新时间，此时间代表了上次ETL模型执行的时间点，结果表更新时间集合用T_r表示，集合中的元素为key-value键值对，其中key为结果表表名，value为结果表更新时间，即：

T_r＝{(tablename₁,tr₁),(tablename₂,tr₂)…(tablename_n,tr_n)}；

T_d＝{(depency₁,td₁),(depency₂,td₂)…(depency_n,td_n)}；

4.根据权利要求3所述的一种计算机介质，其特征在于，设置一个定时任务，定时检测优先队列中是否存在需要执行的模型，在集群资源充足的条件下，选择优先级最大的若干个ETL模型提交至Spark集群进行运算。