CN108614738A

CN108614738A - 一种面向交互式Spark应用的数据动态放置方法

Info

Publication number: CN108614738A
Application number: CN201810455119.6A
Authority: CN
Inventors: 梁毅; 程石帆; 常仕禄; 刘飞
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-05-14
Filing date: 2018-05-14
Publication date: 2018-10-02
Anticipated expiration: 2038-05-14
Also published as: CN108614738B

Abstract

本发明公开了一种面向交互式Spark应用的数据动态放置方法，该方法分为五个步骤：初始化、缓存RDD分区价值评估、缓存RDD分区的保留选取、缓存RDD分区数据的重放置和结束。本发明针对Spark交互式应用在动态资源分配的背景下，RDD数据无法可靠放置的不足，在相邻交互请求间存在较长时间间隔时，依据任务执行器中缓存RDD分区的价值以及数据迁移的代价，利用粒子群算法进行缓存RDD分区数据的重放置，从而达到充分利用任务执行器的内存空间且提高交互式请求执行效率的目的。

Description

一种面向交互式Spark应用的数据动态放置方法

技术领域

本发明属于分布式计算领域，具体涉及分布式内存计算平台Spark的数据放置方法。

背景技术

分布式内存计算平台Spark是海量数据处理领域的最新技术进展。Spark平台以弹性分布式数据集(RDD)作为海量分布存储数据的抽象表达，降低海量分布数据的操作门槛。交互式数据查询是Spark平台支撑的一类主要应用。交互式数据查询应用充分利用Spark平台提供的RDD数据缓存机制，将数据查询中反复使用的大规模RDD数据缓存于Spark任务执行器的内存空间中，减少数据读取开销，从而获得较高的查询效率。

交互式Spark应用中请求负载的到达具有较强的随机性，相邻请求间往往存在随机的时间间隔。为了充分利用平台资源，Spark平台采用动态资源分配技术，即检测到应用所分配的任务执行器处于闲置状态超过一个时间阈值时，则关闭任务执行器，释放执行器中任务占用的CPU和内存资源，待新的查询请求到来再重新分配资源。关闭任务执行器的过程直到当前应用所持有的任务执行器数量达到用户设置的下界为止。上述技术运用于实际Spark交互式数据查询应用存在如下不足：

(1)RDD缓存数据丢失，造成重计算开销。Spark交互式数据查询应用中查询请求间复用RDD数据集频繁发生。例如，在执行某次具体的查询时，用户缓存的RDD数据通常是会被重复使用的中间结果，这些结果往往会在之后几次的查询中再次使用。在Spark平台中，RDD数据是基于应用所分配的所有任务执行器分布存储的。因此，一旦在交互式应用中存在RDD缓存数据的任务执行器被关闭，就将导致在之后查询中再次使用这个RDD时，造成重计算开销。

(2)无法充分利用任务执行器的空闲内存空间，对RDD数据进行动态存储。如前所述，既有Spark资源动态分配技术不会对任务执行器上的RDD缓存数据进行任何形式的保存，一旦任务执行器超时则直接关闭。然而，由于RDD数据存储倾斜以及临时变量释放等原因，在空闲时间间隔内，该应用保留的任务执行器中往往存在空闲内存空间。既有Spark资源动态分配技术无法利用空闲时间间隔对任务执行器中的RDD缓存数据进行动态存储，达到先“腾空”任务执行器再释放资源的目的。因此，该技术无法利用既有资源保存RDD缓存数据。

发明内容

本发明方法针对Spark交互式应用在动态资源分配的背景下，RDD数据放置存在的不足，在相邻交互请求间存在较长时间间隔时，依据任务执行器中缓存RDD分区的价值以及数据迁移的代价，利用粒子群算法进行缓存RDD分区数据的重放置，从而达到充分利用任务执行器的内存空间且提高交互式请求执行效率的目的。

本发明采用的技术方案为一种面向交互式Spark应用的数据动态放置方法，该数据放置方法分为五个步骤：初始化、缓存RDD分区价值评估、缓存RDD分区的保留选取、缓存RDD分区数据的重放置和结束。在本方法中，有九个基本参数：任务执行器的过期时间τ、加速度常数c₁，c₂、惯性因子ω、随机函数r₁，r₂、迭代次数NI、粒子数量pNumber、用户给定的权值比例θ。τ取值为大于60的整数，c₁，c₂取值为1～3之间，ω为3～5之间、r₁，r₂的取值为0～1之间，NI取值为50～100之间，pNumber的取值为3～10之间，θ的取值为大于0的实数。

上述方法在计算机上按以下步骤实现：

在交互式Spark应用的非活跃期持续时间大于τ秒时，依次执行以下步骤：

步骤(1)初始化：从Spark平台既有数据管理组件及任务执行器管理组件采集用于数据放置决策的初始化信息INFO，INFO的表示形式如公式(1)所示。

INFO＝{minExeNum，NETINFO，EXEINFO，RDDINFO，PARINFO} (1)

其中，minExeNum为动态资源分配下应用持有任务执行器的最小数量，NETINFO为Spark平台网络信息，EXEINFO为Spark交互式应用包含的任务执行器信息，RDDINFO为Spark交互式应用所包含的缓存RDD信息，PARINFO为缓存RDD分区信息。其中，

NETINFO表示为NETINFO＝{workerNum，NET}。其中，workerNum为集群中工作节点的数量；NET为网络带宽集合，表示为NET＝{net_mn|1≤m≤workerNum，1≤n≤workerNum}，net_mn表示第m个工作节点到第n个工作节点的网络带宽。

EXEINFO表示为EXEINFO＝{exeNum，exeStorCap，EXE，CORE}。其中，exeNum为Spark交互式应用所包含的任务执行器的总数量；exeStorCap为任务执行器的存储容量；EXE为任务执行器集合，表示为EXE＝{exe₁，exe₂，...，exe_k-1，exe_k，...，exe_exeNum}，其中，exe_k＝k。CORE为任务执行器核数集合，表示为CORE＝{core_k|1≤k≤exeNum}，core_k表示exe_k的CPU核数；对于EXE中的元素的所有元素，满足core_k＞core_k-1。

RDDINFO表示为RDDINFO＝{rddNum，RS，TPN，RPN}。其中，rddNum为交互式应用包含的缓存RDD数量；RS为缓存RDD集合，表示为RS＝{rdd_i|1≤i≤rddNum}，rdd_i表示第i个缓存RDD；TPN为缓存RDD分区总数集合，表示为TPN＝{tpn_i|1≤i≤rddNum}，tpn_i表示rdd_i的缓存分区总数；RPN为缓存RDD在内存中的分区数量集合，表示为RPN＝{rpn_i|1≤i≤rddNum}，rpn_i表示rdd_i的在内存中的分区数量。

PARINFO表示为PARINFO＝{PA，SE，FR，FT，ST}。其中，PA为分区集合，表示为PA＝{pa_ij|1≤i≤rddNum，1≤j≤tpn_i}，pa_ij表示rdd_i的第j个分区；SE为分区大小集合，表示为SE＝{se_ij|1≤i≤rddNum，1≤j≤tpn_i}，se_ij表示分区pa_ij(pa_ij∈PA)的大小；FR为分区使用频度集合，表示为FR＝{fr_ij|1≤i≤rddNum，1≤j≤tpn_i}，fr_ij表示分区pa_ij(pa_ij∈PA)的使用频度；FT为分区对应任务的完成时间集合，表示为FT＝{ft_ij|1≤i≤rddNum，1≤j≤tpn_i}，ft_ij表示分区pa_ij(pa_ij∈PA)对应任务的完成时间；ST为分区对应任务的起始时间集合，表示为ST＝{st_ij|1≤i≤rddNum，1≤j≤tpn_i}，st_ij表示分区pa_ij(pa_ij∈PA)对应任务的起始时间。

如果minExeNum为0，则关闭所有任务执行器并执行步骤(5)。否则，执行步骤(2)。

步骤(2)缓存RDD分区价值评估。

步骤2.1)定义交互式应用的任务并行度为taskPar，利用公式(2)计算taskPar。

其中，core_k∈CORE。

步骤2.2)定义分区pa_ij(pa_ij∈PA)的重计算代价为rc_ij，对于每一个分区pa_ij(pa_ij∈PA)，利用公式(3)计算rc_ij。

rc_ij＝ft_ij-st_ij (3)

其中，ft_ij∈FT，st_ij∈ST。

步骤2.3)定义rdd_i(rdd_i∈RS)的完整度为cf_i。对于每一个rdd_i(rdd_i∈RS)，利用公式(4)计算cf_i。

其中，rpn_i∈RPN，tpn_i∈TPN。

步骤2.4)定义rdd_i(rdd_i∈RS)的分区缺失程度为lev_i。对于每一个rdd_i(rdd_i∈RS)，利用公式(5)计算lev_i。

其中，rpn_i∈RPN，tpn_i∈TPN。

步骤2.5)定义分区pa_ij(pa_ij∈PA)的价值为value_ij，对于每一个分区pa_ij(pa_ij∈PA)，利用公式(6)计算分区pa_ij(pa_ij∈PA)的价值value_ij。

其中，fr_ij∈FR。

步骤2.6)定义分区pa_ij放置到任务执行器exe_k上的数据迁移代价为DMC_ijk。对于每一个分区pa_ij(pa_ij∈PA)和每一个任务执行器exe_k(exe_k∈EXE)，利用公式(7)计算DMC_ijk。

其中，loce(exe_k)(exe_k∈EXE)为任务执行器exe_k所在的工作节点，locp(pa_ij)(pa_ij∈PA)为分区pa_ij所在的任务执行器。由公式(7)可知，如果loce(locp(pa_ij))＝loce(exe_k)，则DMC_ijk为0。这是因为如果分区与任务执行器位于同一工作节点上，分区的放置是没有数据迁移代价的。

步骤2.7)定义分区pa_ij(pa_ij∈PA)放置到任务执行器exe_k(exe_k∈EXE)上的收益为profit_ijk，对于每一个分区pa_ij(pa_ij∈PA)和每一个任务执行器exe_k(exe_k∈EXE)，利用公式(8)计算profit_ijk。

其中，对于不再保留的分区，将其放置到上，并令分区pa_ij(pa_ij∈PA)在exe₀上的收益profit_ij0为0。

步骤(3)缓存RDD分区的保留选取。

基于粒子群算法选取保留的缓存RDD分区。

步骤3.1)定义粒子群为PX，PX表示为PX＝{px_q|1≤q≤pNumber}。其中，px_q(px_q∈PX)表示为px_q＝{(pa_ij，exe_k)|pa_ij∈PA，exe_k∈EXE∪{exe₀}}，(pa_ij，exe_k)表示将分区pa_ij放置到任务执行器exe_k上。

步骤3.2)定义粒子px_q(px_q∈PX)上保留任务执行器集合为RE_q，RE_q表示为

步骤3.3)定义粒子px_q(px_q∈PX)上关闭任务执行器的集合为RM_q，RM_q表示为RM_q＝EXE-RE_q。

步骤3.4)随机初始化粒子群PX，对于粒子px_q(px_q∈PX)，px_q必须满足公式(9)。对于集合RE_q的大小|RE_q|，必须满足公式(10)。

|RE_q|＝minExeNum (10)

其中，se_ij∈SE。公式(9)表示在集合RE_q中，不存在任务执行器exe_k上所有分区大小之和大于任务执行器的存储容量ExeStorCap，公式(10)表示动态资源分配下保留的任务执行器数量|RE_q|必须与交互式应用持有任务执行器的最小数量minExeNum相等。

步骤3.5)定义收益权重系数为w₁，CPU核数的权重系数w₂。令

步骤3.6)定义迭代次数为δ，并令δ的初始值为0。

步骤3.7)定义粒子px_q(px_q∈PX)的适应度为fitness_q，利用公式(11)计算fitness_q。

步骤3.8)定义粒子pbest_q，pbest_q为相邻两轮迭代中，适应度较大的粒子，令对于每一个粒子px_q(px_q∈PX)，利用公式(12)求得pbest_q。

其中，表示粒子px_q在δ次迭代后的粒子，表示的适应度。

步骤3.9)定义粒子gbest，gbest可表示为粒子群PX中适应度最大的粒子，利用公式(13)求得gbest。

其中，表示取所有pbest_i粒子中，适应度最大的粒子。

步骤3.10)若{(pa_ij，exe_k)|(pa_ij，exe_k)∈pbest_q}，则令el_qij＝exe_k，el_qij即为粒子pbest_q中，分区pa_ij的位置。若{(pa_ij，exe_k)|(pa_ij，exe_k)∈gbest}，则令eg_ij＝exe_k，eg_ij即为粒子gbest中，分区pa_ij的位置。δ自增1，如果δ＜NI，则执行步骤3.10.1)到步骤3.10.5)，否则执行步骤(4)。

步骤3.10.1)定义粒子px_q(px_q∈PX)的每一个分区pa_ij(pa_ij∈PA)在第δ次迭代时的速度为粒子px_q中分区pa_ij(pa_ij∈PA)所处的任务执行器为exe_k。对于每一个粒子px_q(px_q∈PX)中的每一个分区pa_ij(pa_ij∈PA)，利用公式(14)和公式(15)进行计算粒子px_q(px_q∈PX)中分区pa_ij在第δ次迭代时的和exe_k。

根据公式(14)和公式(15)可知，当迭代次数δ＝0时，粒子px_q(px_q∈PX)中分区pa_ij的速度为v和x。v为区间[-exeNum-1，exeNum+1]的整数，x为区间[0，exeNum]的整数。当迭代次数δ＞0时，按照粒子群算法的转换公式对粒子px_q中的分区pa_ij(pa_ij∈PA)进行位置转换。

步骤3.10.2)若粒子满足步骤3.4)中的公式(9)和公式(10)，则执行步骤3.10.3)；否则执行步骤3.10.5)。

步骤3.10.3)利用公式(11)计算的适应度如果则令pbest_q为并执行步骤3.10.4)；否则，执行步骤执行3.10)。

步骤3.10.4)如果则令gbest为执行步骤3.10)。

步骤3.10.5)令为pbest_q，并执行步骤3.10)。

步骤(4)缓存RDD分区数据的重放置。

步骤4.1)定义gbest中保留的任务执行器集合为GME，GME可表示为

步骤4.2)对于每一个(pa_ij，exe_k)((pa_ij，exe_k)∈gbest)，执行以下步骤。

步骤4.2.1)若exe_k＝exe₀，则删除pa_ij。

步骤4.2.2)若exe_k≠exe₀，则判断，若exe_k≠locp(pa_ij)，则把分区pa_ij放置到任务执行器exe_k上。

步骤4.3)关闭集合EXE-GME中的所有任务执行器。

步骤(5)结束：中止数据动态放置过程。

为了实现上述方法，在Spark大数据处理平台中应用的任务执行器分配模块中增设一个决策模块并改造Spark的数据块管理模块。这个决策模块在交互式数据查询应用处于非活跃期时，会在任务执行器被关闭前收集相关信息(步骤(1))，然后利用这些信息对所有RDD缓存分区进行价值评估(步骤(2))，再基于粒子群算法求出求得所有数据放置方法(步骤(3))，接着根据全局最优粒子的各个分区位置进行分区放置(步骤(4))，最后结束本方法(步骤(5))，中止数据动态放置过程。

附图说明

图1为本发明方法所依附的Spark平台的部署图。

图2为采用本发明方法的Spark平台中新增软件模块及其交互式关系图。

图3为本发明方法的总体流程图。

图4为缓存RDD分区的价值评估流程图。

图5为缓存RDD分区的保留选取流程图。

图6为缓存RDD分区数据的重放置流程图。

具体实施方式

下面结合附图和具体实施方式对问发明加以说明。

本发明所提出的面向交互式应用的数据放置技术可依附于现有Spark数据处理平台，通过修改或增加现有的软件模块实现。图1是本方法所依附的Spark平台在动态资源分配下的部署图。该平台由多个计算机服务器(平台节点)组成。服务器间通过网络连接。平台节点分为三类，包括一个管理节点(Master)、一个客户端节点(Client)和多个计算节点(Worker)。本发明方法所依附的Spark平台的四类核心软件模块：任务执行器分配管理模块(ExecutorAllocationManager)、任务执行器模块(Executor)、主数据块管理模块(BlockManagerMaster)和从数据块管理模块(BlockManager)。ExecutorAllocationManager负责实现Spark平台上给交互式应用追增或关闭任务执行器的机制。在应用需要Executor时，它会为其增加Executor以保证应用的执行效率。在应用不需要Executor时，它会根据配置文件的要求来关闭这个应用持有的Executor，释放其占有的CPU和内存资源，并使得其他应用可以获取已释放的资源。Executor是Spark平台中资源的载体，它包含了CPU核数和内存。它是任务真正执行的地方，因此可以从Executor上得到在其上的任务执行开始时间和结束时间。BlockManagerMaster负责维护三个元数据信息，第一个元数据信息是BlockManagerId与对应Executor的内存使用情况、数据块的使用情况、已被缓存的数据块和Executor终端点的引用。第二个元数据信息是BlockManagerId与ExecutorId的对应列表。第三个元数据信息是数据块序号BlockId与BlockManagerId的对应列表。而BlockManager模块的功能主要有三个，一是负责与BlockManagerMaster通信；二是负责存储Block；三是负责数据块的传输。

为实现本发明方法，在Client的ExecutorAllocationManager模块中，我们新增了一个决策模块(DecisionMaker)，它负责实现发明内容中步骤(2)到(4)中的内容并进行给出最终的数据放置方案。而步骤(1)中的所述内容的实现则需要在交互式应用活跃时，Executor将自身CPU核数信息和任务执行信息汇报给BlockManagerMaster，在ExecutorAllocationManager即将关闭任务执行器时从BlockManagerMaster获取。

下面结合图2发明内容总流程说明本发明方法在计算机上的具体实施方法。在本实施方法中，九个基本参数的设置如下：用户配置的任务执行器的过期时间τ＝60、加速度常数c₁＝1.5、c₂＝3、惯性因子ω＝4、随机函数r₁，r₂在计算时由计算机产生取值为0～1之间的任意小数、迭代次数NI＝100、粒子数量pNumber＝3，权重比例θ的取值为3。

本实施方法可分为以下步骤：

在交互式Spark应用的非活跃期持续时间大于60秒时，依次执行以下步骤：

(1)初始化：从Spark平台既有数据管理组件及任务执行器管理组件采集用于数据放置决策的初始化信息INFO，INFO的表示形式如公式(1)所示。

INFO＝{3，NETINFO，EXEINFO，RDDINFO，PARINFO} (1)

其中，3为动态资源分配下应用持有任务执行器的最小数量，NETINFO为Spark平台网络信息，EXEINFO为Spark交互式应用包含的任务执行器信息，RDDINFO为Spark交互式应用所包含的缓存RDD信息，PARINFO为缓存RDD分区信息。其中，

NETINFO可表示为NETINFO＝{4，NET}。其中，6为集群中工作节点的数量；NET为网络带宽集合，可表示为 net_mn表示第m个工作节点到第n个工作节点的网络带宽，单位为MB/秒。

EXEINFO可表示为EXEINFO＝{4，1024，EXE，CORE}。其中，4为Spark交互式应用所包含的任务执行器的总数量；1024为任务执行器的存储容量，单位为MB；EXE为任务执行器集合，可表示为EXE＝{exe₁，exe₂，exe₃，exe₄}，其中，exe₁＝1，exe₂＝2，exe₃＝3，exe₄＝4。CORE为任务执行器核数集合，可表示为CORE＝{core_k|1≤k≤exeNum}＝{4，4，2，2}，core_k表示exe_k的CPU核数；对于EXE中的元素的所有元素，满足core_k＞core_k-1。

RDDINFO可表示为RDDINFO＝{10，RS，TPN，RPN}。其中，10为交互式应用包含的缓存RDD数量；RS为缓存RDD集合，可表示为RS＝{rdd_i|1≤i≤3}＝{rdd₁，rdd₂，rdd₃}，rdd_i表示第i个缓存RDD；TPN为缓存RDD分区总数集合，可表示为TPN＝{tpn_i|1≤i≤3}＝{3，3，3}，tpn_i表示rdd_i的缓存分区总数；RPN为缓存RDD在内存中的分区数量集合，可表示为RPN＝{rpn_i|1≤i≤3}＝{3，3，3}，rpn_i表示rdd_i的在内存中的分区数量。

PARINFO可表示为PARINFO＝{PA，SE，FR，FT，ST}。其中，PA为分区集合，可表示为:RA＝{pa₁₁，pa₁₂，pa₁₃，pa₂₁，pa₂₂，pa₂₃，pa₃₁，pa₃₂，pa₃₃}，pa_ij表示rdd_i的第j个分区；SE为分区大小集合，可表示为SE＝{se_ij|1≤i≤3，1≤j≤3}＝{50，600，700,550,71,660，300，88，90}，se_ij表示分区pa_ij(pa_ij∈PA)的大小；FR为分区使用频度集合，可表示为FR＝{fr_ij|1≤i≤rddNum，1≤j≤tpn_i}＝{2，2，2，3，3，3，1，1，1}，fr_ij表示分区pa_ij(pa_ij∈PA)的使用频度；FT为分区对应任务的完成时间集合，可表示为FT＝{ft_ij|1≤i≤3，1≤j≤3}＝{400，410，390，500，510，505，300，360，350}，ft_ij表示分区pa_ij(pa_ij∈PA)对应任务的完成时间；ST为分区对应任务的起始时间集合，可表示为ST＝{st_ij|1≤i≤3，1≤j≤3}＝{200，201，196，480，485，465，280，260，340}，st_ij表示分区pa_ij(pa_ij∈PA)对应任务的起始时间。

因为应用持有任务执行器的最小数量3，所以执行步骤(2)。

(2)缓存RDD分区价值评估。

2.1)定义交互式应用的任务并行度为taskPar，利用公式(2)计算taskPar。

其中，core_k∈CORE。

2.2)定义分区pa_ij(pa_ij∈PA)的重计算代价为rc_ij，对于每一个分区pa_ij(pa_ij∈PA)，利用公式(3)计算rc_ij。

rc_ij＝ft_ij-st_ij (3)

其中，ft_ij∈FT，st_ij∈ST。

2.3)定义rdd_i(rdd_i∈RS)的完整度为cf_i。对于每一个rdd_i(rdd_i∈RS)，利用公式(4)计算cf_i。

其中，rpn_i∈RPN，tpn_i∈TPN。

2.4)定义rdd_i(rdd_i∈RS)的分区缺失程度为lev_i。对于每一个rdd_i(rdd_i∈RS)，利用公式(5)计算lev_i。

其中，rpn_i∈RRN，tpn_i∈TPN。

2.5)定义分区pa_ij(pa_ij∈PA)的价值为value_ij，对于每一个分区pa_ij(pa_ij∈PA)，利用公式(6)计算分区pa_ij(pa_ij∈PA)的价值value_ij。

其中，fr_ij∈FR。

2.6)定义分区pa_ij放置到任务执行器exe_k上的数据迁移代价为DMC_ijk。对于每一个分区pa_ij(pa_ij∈PA)和每一个任务执行器exe_k(exe_k∈EXE)，利用公式(7)计算DMC_ijk。

其中，loce(exe_k)(exe_k∈EXE)为任务执行器exe_k所在的工作节点，locp(pa_ij)(pa_ij∈PA)为分区pa_ij所在的任务执行器。由公式(7)可知，如果loce(locp(pa_ij))＝loce(exe_k)，则DMC_ijk为0。这是因为如果分区与任务执行器位于同一工作节点上，分区的放置是没有数据迁移代价的。分区pa₁₁，pa₁₂，pa₁₃，pa₁₄，pa₂₁，pa₂₂，pa₂₃，pa₃₁，pa₃₂，pa₃₃的locp取值和任务执行器exe₁，exe₂，exe₃，exe₄的loce取值如下：

locp(pa₁₂)＝locp(pa₂₂)＝kocp(pa₃₁)＝1

locp(pa₁₃)＝locp(pa₃₂)＝locp(pa₃₃)＝2

locp(pa₁₁)＝locp(pa₂₁)＝3

locp(pa₂₃)＝4

loce(exe₁)＝1

loce(exe₂)＝2

loce(exe₃)＝3

loce(exe₄)＝4

2.7)定义分区pa_ij(pa_ij∈PA)放置到任务执行器exe_k(exe_k∈EXE)上的收益为profit_ijk，对于每一个分区pa_ij(pa_ij∈PA)和每一个任务执行器exe_k(exe_k∈EXE)，利用公式(8)计算profit_ijk。

分区pa₁₁，pa₁₂，pa₁₃，pa₁₄，pa₂₁，pa₂₂，pa₂₃，pa₃₁，pa₃₂，pa₃₃在任务执行器上的exe₁，exe₂，exe₃，exe₄的放置收益为如表1所示。

表1分区放置在不同任务执行器下的收益

	exe₀	exe₁	exe₂	exe₃	exe₄
						pa₁₁	0	266.66	246.15	400	285.71
pa₁₂	0	418	72.06	59.71	54.52
						pa₁₃	0	58.78	388	39.79	58.78
pa₂₁	0	9.23	7.61	60	11.11
						pa₂₂	0	75	47.83	43.85	41.92
pa₂₃	0	14.40	19.10	19.10	120
						pa₃₁	0	20	5.88	5	4.61
pa₃₂	0	58.68	100	47.61	58.68
						pa₃₃	0	5.81	10	4.70	5.81

(3)缓存RDD分区的保留选取。

本发明基于粒子群算法选取保留的缓存RDD分区。

3.1)定义粒子群为PX，PX可表示为PX＝{px_q|1≤q≤3}。其中，px_q(px_q∈PX)可表示为px_q＝{(pa_ij，exe_k)|pa_ij∈PA，exe_k∈EXE∪{exe₀}}，(pa_ij，exe_k)表示将分区pa_ij放置到任务执行器exe_k上。px₁、px₂、px₃的表示如下：

px₁＝{(pa₁₂，1)，(pa₂₂，1)，(pa₃₁，1)，(pa₁₃，2)，(pa₃₂，2)，(pa₃₃，2)，

(pa₂₁，3)，(pa₁₁，3)，(pa₂₃，0)}

px₂＝{(pa₁₂，0)，(pa₂₂，0)，(pa₃₁，0)，(pa₁₃，2)，(pa₃₂，2)，(pa₃₃，2)，

(pa₂₁，3)，(pa₁₁，3)，(pa₂₃，4)}

px₃＝{(pa₁₂，1)，(pa₂₂，1)，(pa₃₁，1)，(pa₁₃，0)，(pa₃₂，0)，(pa₃₃，0)，

(pa₂₁，3)，(pa₁₁，3)，(pa₂₃，4)}

3.2)定义粒子px_q(px_q∈PX)上保留任务执行器集合为RE_q，RE_q可表示为对于粒子px₁、px₂、px₃，RE₁、RE₂、RE₃的表示如下：

RE₁＝{1，2，3}

RE₂＝{2，3，4}

RE₃＝{1，3，4}

3.3)定义粒子px_q(px_q∈PX)上关闭任务执行器的集合为RM_q，RM_q可表示为RM_q＝EXE-RE_q。对于粒子px₁、px₂、px₃，RM₁，RM₂，RM₃的表示如下：

RM₁＝{4}

RM₂＝{1}

RM₃＝{2}

3.4)随机初始化粒子群PX，对于粒子px_q(px_q∈PX)，px_q必须满足公式(9)。对于集合RE_q的大小|RE_q|，必须满足公式(10)。

|RE_q|＝3

(10)

其中，se_ij∈SE。公式(9)表示在集合RE_q中，不存在任务执行器exe_k上所有分区大小之和大于任务执行器的存储容量1024MB，公式(10)表示动态资源分配下保留的任务执行器数量|RE_q|必须与交互式应用持有任务执行器的最小数量3相等。对于粒子px₁、px₂、px₃，均满足上述条件。

3.5)定义收益权重系数为w₁，CPU核数的权重系数w₂。令

3.6)定义迭代次数为δ，并令δ的初始值为0。

3.7)定义粒子px_q(px_q∈PX)的适应度为fitness_q，利用公式(11)计算fitness_q。

对于粒子px₁、px₂、px₃，fitness₁＝1103.75，fitness₂＝809.5，fitness₃＝820.75。

3.8)定义粒子pbest_q，pbest_q为相邻两轮迭代中，适应度较大的粒子，令对于每一个粒子px_q(px_q∈PX)，利用公式(12)求得pbest_q。

其中，表示粒子px_q在δ次迭代后的粒子，表示的适应度。对于粒子px₁、px₂、px₃，pbest₁＝px₁，pbest₂＝px₂，pbest₃＝px₃。

3.9)定义粒子gbest，gbest可表示为粒子群PX中适应度最大的粒子，利用公式(13)求得gbest。

其中，表示取所有pbest_i粒子中，适应度最大的粒子。对于粒子px₁、px₂、px₃，gbest＝px₁。

3.10)若{(pa_ij，exe_k)|(pa_ij，exe_k)∈pbest_q}，则令el_qij＝exe_k，el_qik即为粒子pbest_q中，分区pa_ik的位置。若{(pa_ij，exe_k)|(pa_ij，exe_k)∈gbest}，则令eg_ij＝exe_k，eg_ij即为粒子gbest中，分区pa_ij的位置。对于粒子pbest₁，el₁₁₁＝3，el₁₁₂＝1，el₁₁₃＝2，el₁₂₁＝3，el₁₂₂＝1，el₁₂₃＝0，el₁₃₁＝1，el₁₃₂＝2，el₁₃₃＝2。对于粒子pbest₂，el₁₁₁＝3，el₁₁₂＝0，el₁₁₃＝2，el₁₂₁＝3，el₁₂₂＝0，el₁₂₃＝4，el₁₃₁＝0，el₁₃₂＝2，el₁₃₃＝2。对于粒子pbest₃，el₁₁₁＝3，el₁₁₂＝1，el₁₁₃＝0，el₁₂₁＝3，el₁₂₂＝1，el₁₂₃＝4，el₁₃₁＝1，el₁₃₂＝0，el₁₃₃＝0。对于粒子gbest，eg₁₁₁＝3，eg₁₁₂＝1，eg₁₁₃＝2，eg₁₂₁＝3，eg₁₂₂＝1，eg₁₂₃＝0，eg₁₃₁＝1，eg₁₃₂＝2，eg₁₃₃＝2。δ自增1，如果δ＜100，则根据发明内容3.10)所述方法，求出迭代100次后的gbest。每次迭代过程求出的gbest表示如下：

迭代1次后求出的gbest：

gbest＝{(pa₁₂，1)，(pa₂₂，1)，(pa₃₁，1)，(pa₁₃，2)，(pa₃₂，2)，(pa₃₃，2)，

(pa₂₁，3)，(pa₁₁，3)，(pa₂₃，0)}

迭代2次后求出的gbest：

(pa₂₁，3)，(pa₁₁，3)，(pa₂₃，0)}

…

迭代100次后求出的gbest：

gbest＝{(pa₁₂，1)，(oa₂₂，1)，(pa₃₁，1)，(pa₁₃，2)，(pa₃₂，2)，(pa₃₃，0)，

(pa₂₁，3)，(pa₁₁，3)，(pa₂₃，3)}

(4)缓存RDD分区数据的重放置。

4.1)定义gbest中保留的任务执行器集合为GME，GME可表示为

4.2)根据发明内容4.2)所述内容，对缓存RDD分区数据进行重放置。

4.3)关闭集合EXE-GME中的所有任务执行器。

(5)结束：中止数据动态放置过程。

性能测试将依据本发明具体实施方案实现的集成数据放置方法的Spark平台与原生Spark平台进行性能比较。测试选取交互式请求的响应时间和任务执行器的平均存储内存利用率作为性能指标，旨在体现在使用动态资源分配策略的场景下，本发明实现的集成缓存RDD动态数据放置方法的Spark平台在执行交互式Spark应用作业时更有优势。其中交互式请求的响应时间指的是交互式请求被提交到Spark后，集群响应该请求所耗费的时间，以秒为单位。任务执行器的平均存储内存利用率指的是，在交互式Spark应用处于非活跃期时间超过任务执行器的过期时间时，剩余任务执行器中存储内存利用率。性能测试运行于由7个计算节点构成的集群系统，计算节点的硬件配置包括：6个Intel(R)Xeon(R)CPUE5-26600@2.20GHz的CPU、16GB DDR3RAM、1TB SATA硬盘，节点间采用千兆以太网互连，操作系统为Centos6.5。Java版本为jdk1.8.0_91，Scala版本为scala-2.11.8，Spark版本为2.1.0，Hadoop版本为2.7.2。选取的负载为选取TPC-H中的查询q1_pricing_summary_report作为负载。具体做法是，先将TPC-H生成的8个表缓存在任务执行器的内存中，经过关闭任务执行器的操作后，提交TPC-H的查询q1_pricing_summary_report。在提交查询前通过Spark监控界面测得任务执行器的平均任务内存利用率，在提交查询后测得查询的响应时间。本实验选取的对比对象为相同实验环境、相同配置下的原生Spark系统。

本实验测试将对集成RDD动态放置的Spark系统和原生Spark系统在不同的任务执行器保留个数、任务执行器内存配置、输入数据大小以进行实验。在本发明的所有实验中，任务执行器的过期时间都被统一设置为60秒。

不同任务执行器内存配置下的测试

该部分测试为保持任务执行器的保留个数和输入数据的大小不变，改变任务执行器的配置进行测试。实验中，可以固定任务执行器保留个数为3个，输入数据的大小为12GB。任务执行器的配置可以设置成5组，如表2所示。

表2任务执行器内存的取值范围

测试组编号	1	2	3	4	5
						任务执行器内存(GB)	4	6	8	10	12

表3q1_pricing_summary_report在不同任务执行器内存配置下的内存利用率测试结果

表4q1_pricing_summary_report在不同任务执行器配置下的请求平均响应时间测试结果

表3和表4分别给出在不同任务执行器配置下，原生Spark和使用数据放置技术的Spark在执行去q1_pricing_summary_report时内存利用率和作业执行时间的测试结果。有测试结果可知，采用本发明方法的Spark平台内存利用率最大提升了121.14％，平均提升了104.25％。作业执行时间最大缩短了69.27％，平均缩短了41.96％。实验结果表明，在固定输入数据和任务执行器保留个数的情况下，使用数据放置技术的Spark性能在不同任务执行器配置下均获得了优于原生Spark的性能，其原因是集成RDD动态放置的Spark将缓存的分区放置在了剩余的任务执行器中，任务执行器的内存设置的越高，缓存的分区就越多，执行查询时，需要从磁盘读取的数据量就越少，任务执行的就越快。而对于使用放置技术的Spark而言，任务执行器的内存越大，内存利用率就会越小，执行时间就会越短。这是因为输入数据和保留的任务执行器个数一定的情况下，任务执行器内存配置越大，内存利用率自然会变低。即使任务执行器的内存利用率变低了，也比原生Spark的内存利用率高。

不同输入数据大小下的测试

该部分测试为保持任务执行器配置和任务执行器保留个数不变，改变输入数据进行测试。实验中，可以设置任务执行器配置可固定为8GB，任务执行器保留个数可固定为3个。当前输入数据可以设置成5组，如表5所示。

表5输入数据的取值范围

测试组编号	1	2	3	4	5
						输入数据大小(GB)	4	8	12	16	20

表6q1_pricing_summary_report.hive在不同输入数据下的内存利用率测试结果

表7q1_pricing_summary_report.hive在不同输入数据下的请求平均响应时间测试结果

表6和表7分别给出在不同输入数据下，原生Spark和使用数据放置技术的Spark在执行q1_pricing_summary_report时内存利用率和作业执行时间的测试结果。由测试结果可知，采用本发明方法的Spark平台内存利用率最大提升了108.87％，平均提升了84.18％。作业执行时间最大缩短了68.99％，平均缩短了58.39％。实验结果表明，在固定任务执行器配置和任务执行器保留个数的情况下，使用数据放置技术的Spark性能获得了优于原生Spark的性能，其原因是集成RDD动态放置的Spark将缓存的分区放置在了剩余的任务执行器中，任务执行器的内存设置的越高，缓存的分区就越多，执行查询时，需要从磁盘读取的数据量就越少，任务执行的就越快。而对于集成RDD动态放置的Spark而言，输入数据越大，内存利用率就会越大，执行时间就会越长。即使执行时间随着输入数据的变大而变长，也不会影响其整体性能优于原生Spark。

不同任务执行器保留个数的测试

该部分测试为保持任务执行器配置和输入数据不变，改变任务执行器的保留个数进行测试。实验中，可以设置任务执行器配置可固定为8GB，输入数据固定为12GB，任务执行器的保留个数可以设置成5组，如表8所示。

表8任务执行器的保留个数取值范围

测试组编号	1	2	3	4	5
						任务执行器的保留个数	1	2	3	4	5

表9q1_pricing_summary_report.hive在不同任务执行器的保留个数下的内存利用率测试结果

表10q1_pricing_summary_report.hive在不同任务执行器的保留个数下的请求平均响应时间测试结果

表9和表10分别给出在不同任务执行器保留个数下，原生Spark和使用数据放置技术的Spark在执行q1_pricing_summary_report时内存利用率和作业执行时间的测试结果。有测试结果可知，采用本发明方法的Spark平台内存利用率最大提升了268.66％，平均提升了131.17％。作业执行时间最大缩短了62.99％，平均缩短了47.55％。实验结果表明，在不同的任务执行器保留个数下，使用数据放置技术的Spark性能获得了优于原生Spark的性能，其原因是集成RDD动态放置的Spark将缓存的分区放置在了剩余的任务执行器中，任务执行器的保留个数越多，能缓存的分区就越多，执行查询时，需要从磁盘读取的数据量就越少，任务执行的就越快。而对于集成RDD动态放置的Spark而言，任务执行器的保留个数越多，内存利用率就会越低，执行时间就会越短。即使内存利用率随着任务执行器的保留个数的变多而变低，也不会影响其整体性能优于原生Spark。

最后应说明的是：以上示例仅用以说明本发明而并非限制本发明所描述的技术，而一切不脱离发明的精神和范围的技术方案及其改进，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种面向交互式Spark应用的数据动态放置方法，其特征在于：该数据放置方法分为五个步骤：初始化、缓存RDD分区价值评估、缓存RDD分区的保留选取、缓存RDD分区数据的重放置和结束；在本方法中，有九个基本参数：任务执行器的过期时间τ、加速度常数c₁，c₂、惯性因子ω、随机函数r₁，r₂、迭代次数NI、粒子数量pNumber、用户给定的权值比例θ；τ取值为大于60的整数，c₁，c₂取值为1～3之间，ω为3～5之间、r₁，r₂的取值为0～1之间，NI取值为50～100之间，pNumber的取值为3～10之间，θ的取值为大于0的实数；

上述方法在计算机上按以下步骤实现：

步骤(1)初始化：从Spark平台既有数据管理组件及任务执行器管理组件采集用于数据放置决策的初始化信息INFO，INFO的表示形式如公式(1)所示；

INFO＝{minExeNum，NETINFO，EXEINFO，RDDINFO，PARINFO} (1)

其中，minExeNum为动态资源分配下应用持有任务执行器的最小数量，NETINFO为Spark平台网络信息，EXEINFO为Spark交互式应用包含的任务执行器信息，RDDINFO为Spark交互式应用所包含的缓存RDD信息，PARINFO为缓存RDD分区信息；其中，

NETINFO表示为NETINFO＝{workerNum，NET}；其中，workerNum为集群中工作节点的数量；NET为网络带宽集合，表示为NET＝{net_mn|1≤m≤workerNum，1≤n≤workerNum}，net_mn表示第m个工作节点到第n个工作节点的网络带宽；

EXEINFO表示为EXEINFO＝{exeNum，exeStorCap，EXE，CORE}；其中，exeNum为Spark交互式应用所包含的任务执行器的总数量；exeStorCap为任务执行器的存储容量；EXE为任务执行器集合，表示为EXE＝{exe₁，exe₂，...，exe_k-1，exe_k，...，exe_exeNum}，其中，exe_k＝k；CORE为任务执行器核数集合，表示为CORE＝{core_k|1≤k≤exeNum}，core_k表示exe_k的CPU核数；对于EXE中的元素的所有元素，满足core_k＞core_k-1；

RDDINFO表示为RDDINFO＝{rddNum，RS，TPN，RPN}；其中，rddNum为交互式应用包含的缓存RDD数量；RS为缓存RDD集合，表示为RS＝{rdd_i|1≤i≤rddNum}，rdd_i表示第i个缓存RDD；TPN为缓存RDD分区总数集合，表示为TPN＝{tpn_i|1≤i≤rddNum}，tpn_i表示rdd_i的缓存分区总数；RPN为缓存RDD在内存中的分区数量集合，表示为RPN＝{rpn_i|1≤i≤rddNum}，rpn_i表示rdd_i的在内存中的分区数量；

PARINFO表示为PARINFO＝{PA，SE，FR，FT，ST}；其中，PA为分区集合，表示为PA＝{pa_ij|1≤i≤rddNum，1≤j≤tpn_i}，pa_ij表示rdd_i的第j个分区；SE 为分区大小集合，表示为SE＝{se_ij|1≤i≤rddNum，1≤j≤tpn_i}，se_ij表示分区pa_ij(pa_ij∈PA)的大小；FR为分区使用频度集合，表示为FR＝{fr_ij|1≤i≤rddNum，1≤j≤tpn_i}，fr_ij表示分区pa_ij(pa_ij∈PA)的使用频度；FT为分区对应任务的完成时间集合，表示为FT＝{ft_ij|1≤i≤rddNum，1≤j≤tpn_i}，ft_ij表示分区pa_ij(pa_ij∈PA)对应任务的完成时间；ST为分区对应任务的起始时间集合，表示为ST＝{st_ij|1≤i≤rddNum，1≤j≤tpn_i}，st_ij表示分区pa_ij(pa_ij∈PA)对应任务的起始时间；

如果minExeNum为0，则关闭所有任务执行器并执行步骤(5)；否则，执行步骤(2)；

步骤(2)缓存RDD分区价值评估；

步骤2.1)定义交互式应用的任务并行度为taskPar，利用公式(2)计算taskPar；

其中，core_k∈CORE；

步骤2.2)定义分区pa_ij(pa_ij∈PA)的重计算代价为rc_ij，对于每一个分区pa_ij(pa_ij∈PA)，利用公式(3)计算rc_ij；

rc_ij＝ft_ij-st_ij (3)

其中，ft_ij∈FT，st_ij∈ST；

步骤2.3)定义rdd_i(rdd_i∈RS)的完整度为cf_i；对于每一个rdd_i(rdd_i∈RS)，利用公式(4)计算cf_i；

其中，rpn_i∈RPN，tpn_i∈TPN；

步骤2.4)定义rdd_i(rdd_i∈Rs)的分区缺失程度为lev_i；对于每一个rdd_i(rdd_i∈RS)，利用公式(5)计算lev_i；

其中，rpn_i∈RPN，tpn_i∈TPN；

步骤2.5)定义分区pa_ij(pa_ij∈PA)的价值为value_ij，对于每一个分区pa_ij(pa_ij∈PA)，利用公式(6)计算分区pa_ij(pa_ij∈PA)的价值value_ij；

其中，fr_ij∈FR；

步骤2.6)定义分区pa_ij放置到任务执行器exe_k上的数据迁移代价为DMC_ijk；对于每一个分区pa_ij(pa_ij∈PA)和每一个任务执行器exe_k(exe_k∈EXE)，利用公式(7)计算DMC_ijk；

其中，loce(exe_k)(exe_k∈EXE)为任务执行器exe_k所在的工作节点，locp(pa_ij)(pa_ij∈PA)为分区pa_ij所在的任务执行器；由公式(7)可知，如果loce(locp(pa_ij))＝loce(exe_k)，则DMC_ijk为0；这是因为如果分区与任务执行器位于同一工作节点上，分区的放置是没有数据迁移代价的；

步骤2.7)定义分区pa_ij(pa_ij∈PA)放置到任务执行器exe_k(exe_k∈EXE)上的收益为profit_ijk，对于每一个分区pa_ij(pa_ij∈PA)和每一个任务执行器exe_k(exe_k∈EXE)，利用公式(8)计算profit_ijk；

其中，对于不再保留的分区，将其放置到上，并令分区pa_ij(pa_ij∈PA)在exe₀上的收益profit_ij0为0；

步骤(3)缓存RDD分区的保留选取；

基于粒子群算法选取保留的缓存RDD分区；

步骤3.1)定义粒子群为PX，PX表示为PX＝{px_q|1≤q≤pNumber}；其中，px_q(px_q∈PX)表示为px_q＝{(pa_ij，exe_k)|pa_ij∈PA，exe_k∈EXE∪{exe₀}}，(pa_ij，exe_k)表示将分区pa_ij放置到任务执行器exe_k上；

步骤3.3)定义粒子px_q(px_q∈PX)上关闭任务执行器的集合为RM_q，RM_q表示为RM_q＝EXE-RE_q；

步骤3.4)随机初始化粒子群PX，对于粒子px_q(px_q∈PX)，px_q必须满足公式(9)；对于集合RE_q的大小|RE_q|，必须满足公式(10)；

|RE_q|＝minExeNum (10)

其中，se_ij∈SE；公式(9)表示在集合RE_q中，不存在任务执行器exe_k上所有分区大小之和大于任务执行器的存储容量ExeStorCap，公式(10)表示动态资源分配下保留的任务执行器数量|RE_q|必须与交互式应用持有任务执行器的最小数量minExeNum相等；

步骤3.5)定义收益权重系数为w₁，CPU核数的权重系数w₂；令

步骤3.6)定义迭代次数为δ，并令δ的初始值为0；

步骤3.7)定义粒子px_q(px_q∈PX)的适应度为fitness_q，利用公式(11)计算fitness_q；

步骤3.8)定义粒子pbest_q，pbest_q为相邻两轮迭代中，适应度较大的粒子，令对于每一个粒子px_q(px_q∈PX)，利用公式(12)求得pbest_q；

其中，表示粒子px_q在δ次迭代后的粒子，表示的适应度；

步骤3.9)定义粒子gbest，gbest可表示为粒子群PX中适应度最大的粒子，利用公式(13)求得gbest；

其中，表示取所有pbest_i粒子中，适应度最大的粒子；

步骤3.10)若{(pa_ij，exe_k)|(pa_ij，exe_k)∈pbest_q}，则令el_qij＝exe_k，el_qij即为粒子pbest_q中，分区pa_ij的位置；若{(pa_ij，exe_k)|(pa_ij，exe_k)∈gbest}，则令eg_ij＝exe_k，eg_ij即为粒子gbest中，分区pa_ij的位置；δ自增1，如果δ＜NI，则执行步骤3.10.1)到步骤3.10.5)，否则执行步骤(4)；

步骤3.10.1)定义粒子px_q(px_q∈PX)的每一个分区pa_ij(pa_ij∈PA)在第δ次迭代时的速度为粒子px_q中分区pa_ij(pa_ij∈PA)所处的任务执行器为exe_k；对于每一个粒子px_q(px_q∈PX)中的每一个分区pa_ij(pa_ij∈PA)，利用公式(14)和公式(15)进行计算粒子px_q(px_q∈PX)中分区pa_ij在第δ次迭代时的和exe_k；

根据公式(14)和公式(15)可知，当迭代次数δ＝0时，粒子px_q(px_q∈PX)中分区pa_ij的速度为v和x；v为区间[-exeNum-1，exeNum+1]的整数，x为区间[0，exeNum]的整数；当迭代次数δ＞0时，按照粒子群算法的转换公式对粒子px_q中的分区pa_ij(pa_ij∈PA)进行位置转换；

步骤3.10.2)若粒子满足步骤3.4)中的公式(9)和公式(10)，则执行步骤3.10.3)；否则执行步骤3.10.5)；

步骤3.10.3)利用公式(11)计算的适应度如果则令pbest_q为并执行步骤3.10.4)；否则，执行步骤执行3.10)；

步骤3.10.4)如果则令gbest为执行步骤3.10)；

步骤3.10.5)令为pbest_q，并执行步骤3.10)；

步骤(4)缓存RDD分区数据的重放置；

步骤4.1)定义gbest中保留的任务执行器集合为GME，GME可表示为

步骤4.2)对于每一个(pa_ij，exe_k)((pa_ij，exe_k)∈gbest)，执行以下步骤；

步骤4.2.1)若exe_k＝exe₀，则删除pa_ij；

步骤4.2.2)若exe_k≠exe₀，则判断，若exe_k≠locp(pa_ij)，则把分区pa_ij放置到任务执行器exe_k上；

步骤4.3)关闭集合EXE-GME中的所有任务执行器；

步骤(5)结束：中止数据动态放置过程。

2.根据权利要求1所述的一种面向交互式Spark应用的数据动态放置方法，其特征在于：在Spark大数据处理平台中应用的任务执行器分配模块中增设一个决策模块并改造Spark的数据块管理模块；这个决策模块在交互式数据查询应用处于非活跃期时，会在任务执行器被关闭前收集相关信息(步骤(1))，然后利用这些信息对所有RDD缓存分区进行价值评估(步骤(2))，再基于粒子群算法求出求得所有数据放置方法(步骤(3))，接着根据全局最优粒子的各个分区位置进行分区放置(步骤(4))，最后结束本方法(步骤(5))，中止数据动态放置过程。