CN110287010B

CN110287010B - 一种面向Spark时间窗口数据分析的缓存数据预取方法

Info

Publication number: CN110287010B
Application number: CN201910507343.XA
Authority: CN
Inventors: 梁毅; 陈金栋; 丁毅; 丁振兴; 李硕; 苏航
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2021-09-14
Anticipated expiration: 2039-06-12
Also published as: CN110287010A

Abstract

本发明公开了一种面向Spark时间窗口数据分析的缓存数据预取方法，该方法分为6个步骤：初始化、判断预取时机、计算预取数据规模、确定预取数据放置位置、判断是否结束预取和结束。本发明依据时间窗口数据处理需求，以时间窗口为序，分段将时间窗口所需处理的RDD数据读入Spark缓存空间，并将已处理的RDD数据移出缓存，从而保障在缓存空间有限的情况下，每一个时间窗口需要处理的RDD数据均被成功缓存于内存空间，提升应用的执行效率。

Description

一种面向Spark时间窗口数据分析的缓存数据预取方法

技术领域

本发明属于大数据计算领域，具体涉及分布式内存计算系统的缓存优化技术。

背景技术

Spark内存计算系统是大数据处理领域的最新技术进展。Spark系统的特点在于基于内存存储反复处理的海量数据,从而提升大数据处理效率。同时，Spark系统引入弹性分布式数据集(Resilient Distributed Dataset，RDD)作为海量、分布存储数据的抽象表达，降低了用户的操作门槛。

基于时间窗口的数据分析是指对一段时序连续的采集数据，以固定/可变的滑动时间窗口对局部数据进行反复的分析处理，并将局部处理结果进行聚合，形成最终的分析结果。时间窗口数据分析在移动互联网及物联网场景中广泛存在。时间窗口数据分析是较为典型的迭代型应用，是Spark系统支持的主要应用类之一。时间窗口数据分析应用通过充分利用Spark系统内存级数据缓存存储海量数据并基于时间窗口进行反复处理，可获得较高的数据处理效率。因此，Spark系统数据缓存性能是决定时间窗口数据分析应用运行效率的关键。然而，既有Spark系统数据缓存在支撑时间窗口数据分析应用运行上尚存在如下不足：

(1)无法依据数据时间窗口处理特征，分时、局部缓存海量数据，降低了缓存数据命中率。RDD是Spark系统中分布存储海量数据的抽象表达和缓存单位。既有Spark系统无法按需缓存RDD中的局部数据。因此，在内存空间受限的场景下，无法保障当前时间窗口数据缓存于内存中，增加了数据读取开销，降低应用执行效率。

(2)无法面向应用数据处理模式进行缓存数据预取，延长应用执行时间。既有Spark系统中，应用的数据读取和数据计算阶段相互独立，串行完成。然而时间窗口数据分析具有较为确定的数据处理模式，既有系统无法充分利用前期时间窗口数据处理阶段进行后续窗口数据的预取，延长了应用的执行时间。

发明内容

针对上述问题，本发明提出一种面向Spark时间窗口数据分析的缓存数据预取方法。本发明依据时间窗口数据处理需求，以时间窗口为序，分段将时间窗口所需处理的RDD数据读入Spark缓存空间，并将已处理的RDD数据移出缓存，从而保障在缓存空间有限的情况下，每一个时间窗口需要处理的RDD数据均被成功缓存于内存空间，提升应用的执行效率。

本发明所述的缓存管理方法分为6个步骤：初始化、判断预取时机、计算预取数据规模、确定预取数据放置位置、判断是否结束预取和结束。

上述方法在计算机上按以下步骤实现：

在Spark平台开始处理时间窗口数据分析应用的时候，依次执行以下步骤：

(1)初始化：从Spark平台的各个任务执行器收集节点信息INFO，INFO的表示形式如公式(1)所示

INFO＝{EXEINFO,timeWindowINFO} (1)

timeWindowINFO为Spark时间窗口数据分析应用需要处理的时间窗口信息，EXEINFO＝{exeNum，exeStorCap，EXE}，其中，exeNum为Spark时间窗口数据分析应用所包含的任务执行器总数量，exeStorCap为任务执行器的存储容量，EXE为任务执行器的集合，可表示为EXE＝{exe₁，exe₂，...,exe_exeNum}。

timeWindowINFO可表示为timeWindowINFO＝{twNum，TimeWindow}。其中，twNum为Spark时间窗口数据分析应用中时间窗口的个数；TimeWindow是时间窗口集合，可表示为TimeWindow＝{twData_i|1≤i≤twNum}，twData_i表示第i个时间窗口，对于第i个时间窗口，可表示为twData_i＝{startTime_i，endTime_i，BlockINFO_i}，其中，startTime_i是第i个时间窗口的起始时间，endTime_i是第i个时间窗口的终止时间，BlockINFO_i是第i个时间窗口中包含的数据块信息，可表示为BlockINFO_i＝{blockNum_i，blockDefaultSize，Blocks_i}，其中blockNum_i是第i个时间窗口中包含的数据块的数量，blockDefaultSize为数据块的默认大小，Block_i为第i个时间窗口包含的数据块集合，可表示为Block_i＝{(block_ij，loc_ij)|1≤j≤blockNum_i}，block_ij表示第i个时间窗口中包含的第j个数据块，loc_ij表示block_ij所在的位置具体在哪个任务执行器上。

1.1)获取时间窗口信息，包括起始时间st，终止时间ed和时间窗口移动步长wd。

1.2)根据st和ed确定第一个时间窗口。

1.3)获取第一个时间窗口的数据块Blocks₁。

1.4)计算Blocks₁对于任务执行器的数据本地性dataLoc_ij，利用公式(2)计算dataLoc_ij。

1.5)根据Blocks₁的数据本地性，将数据块与本地性较高的任务执行器做映射。

1.6)任务执行器缓存数据块。

(2)预取时机判断

2.1)判断是否一个时间窗口数据twData_i处理结束，若处理结束，则执行步骤2.2)，若没有处理结束，则等待。

2.2)定义第i个任务执行器的缓存时间窗口数据为twDataPar_j，利用每个任务执行器的监控器获取twDataPar_j。

2.3)计算第i个任务执行器的时间窗口数据总规模

TD_i表示E_i中所有局部结果数据分区的集合

2.4)定义第i个任务执行器的局部结果数据为locDataPar_j，利用每个任务执行器的监控器获取locDataPar_j。

2.5)计算第i个任务执行器的局部结果数据总规模

LD_i表示E_i中所有已处理的时间窗口数据分区的集合。

2.6)定义数据膨胀率为df_i，任务执行器E_i的数据膨胀率df_i是指E_i中局部结果数据分区总量与已处理的时间窗口数据分区总量的比值，利用公式(3)计算df_i。

2.7)定义第i个任务执行器剩余缓存空间RM_i，任务执行器E_i的缓存剩余空间是指在任务执行器中既有预取时间窗口数据全部处理完毕后，缓存的剩余空间规模，公式表达如公式(4)。

2.8)定义系统中剩余总缓存空间TFM，利用公式(5)计算TFM。

其中，exeNum表示任务执行器总数。

2.9)定义任务执行器的计算能力CC_i，用任务执行器E_i的CPU核心数量表示。

2.10)定义最小预取量MPS_i，利用公式(6)计算MPS_i。

其中，TCN表示集群中的CPU总核心数。

2.11)判断是否剩余缓存总空间满足TFM≥Size(twData_i+1)，若满足则执行步骤2.12)若不满足则执行步骤(2)。

2.12)判断每个任务执行器E_i是否满足RM_i≥MPS_i，1≤i≤exeNum，若满足则执行步骤(3)，若不满足则执行步骤(2)。

(3)判断预取数据规模

3.1)确定预取数据块数量k，k满足在不超过剩余缓存总空间条件下可预取的最大数据规模。利用公式(7)计算k。

3.2)定义核预取数据块BlockNum_i，利用公式(8)计算BlockNum_i。

(4)确定预取数据放置位置

4.1)创建每个任务执行器E_i的预取列表prefetchList_i，prefetchList_i用来记录每个任务执行器E_i需要预取的数据块。

4.2)获取需要预取的k个时间窗口中数据块的本地性dataLoc_ij，利用公式(9)计算dataLoc_ij。

4.3)根据dataLoc_ij填充prefetchList_i。

4.4)定义任务执行器的预取权值为当前任务执行器EPW_i的计算能力与集群中总CPU核心数的比值，利用公式(10)计算EPW_i。

4.5)计算平均预取长度avgPLS，利用公式(11)计算avgPLS。

其中，length是预取列表的长度。

4.6)对于每个任务执行器E_i，判断缓存列表prefetchList_i长度是否超过avgPLS，若超过则将多出的部分迁移到prefetchList_i低于avgPLS的任务执行器中。

4.7)每个任务执行器启动预取线程读取prefetchList_i中的数据块。

(5)判断是否完成全部数据预取，若完成全部数据预取，则执行步骤(6)，若未完成全部预取，则执行步骤(2)

(6)结束：中止预取

为实现上述方法，本发明需要在Spark系统中的每个任务执行器上增加信息收集模块，用于收集在时间窗口数据分析应用执行过程中各个节点的数据输入量、中间结果大小，利用收集到的相关信息进行初始化，并读取一个时间窗口(步骤(1))，利用这些信息读取时间窗口，获得初始数据膨胀率，并判断预取时机，若满足预取时机则执行步骤(3)，若未满足预取时机的继续执行步骤(2)(步骤(2))，然后结合Spark系统中收集到的节点信息和时间窗口对应的数据块信息，确定预取数据规模(步骤(3))，接下来利用信息收集模块收集的各个节点中的数据块本地性等信息，并结合任务执行器的计算能力，构建预取列表并完成预取(步骤(4))，判断是否完成所有数据的预取，若完成则执行步骤(6)，若未完成则执行步骤(2)，最后若所有时间窗口处理完成，则结束本方法(步骤,6))，中止预取流程。

附图说明

图1为本发明方法所依附的Spark平台的部署图。

图2为采用本发明方法的Spark平台中新增加的模块及其交互关系图。

图3为本发明方法的总体流程图。

图4为初始化流程图。

图5为预取时机判断流程图。

图6为预取数据规模选取流程图。

图7为预取数据放置位置选取流程图。

具体实施方式

下面结合附图和具体实施方式对本发明加以说明。

本发明所提出的一种面向Spark时间窗口数据分析应用的缓存管理方法可以依附于现有的Spark分布式内存计算平台，通过修改或增加现有的软件模块来实现。图1是本方法所依附的Spark平台的部署图。该平台由多个计算机服务器(平台节点)组成，服务器间通过网络连接。平台节点分为三类，包括一个管理节点(Master)、一个客户端节点(Client)和多个计算节点(Worker)。本发明方法所依附的Spark平台包含以下核心软件模块：DAG调度器模块(DAGScheduler)、任务执行器模块(Executor)、主数据块管理模块(BlockManagerMaster)和从数据块管理模块(BlockManager)。DAGScheduler负责提供时间窗口数据分析应用在执行过程中产生的DAG信息，将DAG信息收集，作为判断预取时机的参考信息。Executor负责收集自身的CPU核数信息以及任务执行的信息。BlockManagerMaster主要负责维护集群中数据块对应的元数据信息，以及BlockManager与Executor之间的对应情况，主要包括各个节点中的BlockManagerId与BlockManager对应的Executor的内存使用情况、管理的数据块列表、已缓存的数据块以及Executor终端点的引用，BlockManagerId与ExecutorId之间的映射表，各个BlockManager中BlockId与BlockManagerId的映射表。BlockManager模块的主要功能有四个，一是负责各个节点中BlockManager与BlockManagerMaster之间的通信；二是负责存储数据块；三是负责维护一个缓存列表，用来记录当前BlockManager需要缓存哪些数据块；四是负责数据块的读取和传输。

为实现本发明方法，在Master中，新增了一个预取管理模块(PrefetchManager)。PrefetchManager负责控制预取的整体流程，与各个模块协调，实现发明内容中的步骤(1)到步骤(6)，主要包括：第一，初始化时间窗口与磁盘中数据块之间的对应关系；第二，通过Prefetch收集的DAG信息判断预取操作的触发时机；第三，通过Monitor中获取的数据计算预取数据量的大小；第四，根据时间窗口数据分析应用的执行状态，判断是否结束预取流程。在Worker中，新增了一个任务执行器监控器模块(Monitor)。Monitor负责收集各个任务执行器中的信息，包括任务执行器的缓存数据大小、cpu核心数量、缓存总空间大小、并计算每个任务执行器的数据膨胀率。

下面结合图2发明内容流程说明本发明方法在计算机上的具体实施方法。

本实施方法可以分为以下步骤

在Spark平台中处理时间窗口数据分析应用时，依次执行以下步骤：

INFO＝{EXEINFO,timeWindowINFO} (1)

timeWindowINFO为Spark时间窗口数据分析应用需要处理的时间窗口信息，EXEINFO＝{6，4，EXE}，其中，6为Spark时间窗口数据分析应用所包含的任务执行器总数量，4为任务执行器的存储容量，单位为GB，EXE为任务执行器的集合，可表示为EXE＝{exe₁，exe₂，exe₃,exe₄,exe₅,exe₆}。

timeWindowINFO可表示为timeWindowINFO＝{5，TimeWindow}。其中，5为Spark时间窗口数据分析应用中时间窗口的个数；TimeWindow是时间窗口集合，可表示为

twData_i表示第i个时间窗口，对于第i个时间窗口，可表示为

其中，2013/1/1 00：00：00是第i个时间窗口的起始时间，2013/1/2 00：00：00是第i个时间窗口的终止时间，BlockINFO_i是第i个时间窗口中包含的数据块信息，可表示为BlockINFO_i＝{128,128,Blocks_i}，其中128是第1个时间窗口中包含的数据块的数量，128为数据块的默认大小，单位为MB，Block_i为第i个时间窗口包含的数据块集合，可表示为

block₁₁表示第i个时间窗口中包含的第j个数据块，loc表示block_ij所在的位置具体在某个任务执行器上。

1.1)获取时间窗口信息，包括起始时间2013/1/1 00：00：00，终止时间2013/1/100：00：00和时间窗口移动步长2.4h。

1.2)根据st和ed确定第一个时间窗口。

1.3)获取第一个时间窗口的数据块Blocks₁。

1.6)任务执行器预取数据块。

(2)预取时机判断

twDataPar₁＝128，twDataPar₂＝128，twDataPar₃＝128，twDataPar₄＝128

2.3)计算第i个任务执行器的时间窗口数据总规模

TD_i表示E_i中所有局部结果数据分区的集合

locDataPar₁＝132，locDataPar₂＝143，locDataPar₃＝137，locDataPar₄＝139

2.5)计算第i个任务执行器的局部结果数据总规模

LD_i表示E_i中所有已处理的时间窗口数据分区的集合。

df₁＝1.08，df₂＝1.10，df₃＝1.07，df₄＝1.10，df₅＝1.11，df₆＝1.06

RM₁＝3544，RM₂＝3252，RM₃＝3412，RM₄＝3392，RM₅＝3102，RM₆＝3417

2.8)定义系统中剩余总缓存空间TFM为在应用包含的所有任务执行器中所有缓存空间的总和，利用公式(5)计算TFM。

TFM＝16294

其中，6表示任务执行器总数。

2.9)定义任务执行器的计算能力CC_i是为了评估当前任务执行器能同时处理的任务数量，用任务执行器E_i的CPU核心数表示。

2.10)定义最小预取量MPS_i为每个任务执行器在与自己计算能力匹配的前提下，根据下一个时间窗口的数据块个数确定的最小预取量，利用公式(6)计算MPS_i。

MPS₁＝682，MPS₂＝682，MPS₃＝682，MPS₄＝682，MPS₅＝682，MPS₆＝682

其中，TCN表示集群中的CPU总核心数。

(3)判断预取数据规模

3.1)确定预取数据块数量k，k满足在不超过剩余缓存总空间条件下可预取的最大数据规模。k需要满足公式(7)。

k取值为3。

3.2)核预取数据块BlockNum_i是指每个任务执行器中CPU核心能占有的预取数据块数量，与每个任务执行器的计算能力所匹配，利用公式(8)计算BlockNum_i。

各个任务执行器的和预取数据块分别为：

BlockNum₁＝16

BlockNum₂＝16

BlockNum₃＝16

BlockNum₄＝16

BlockNum₅＝16

BlockNum₆＝16

(4)确定预取数据放置位置

4.3)根据dataLoc_ij填充prefetchList_i。

各个任务执行器的预取权值分别为：

EPW₁＝1.67

EPW₂＝1.67

EPW₃＝1.67

EPW₄＝1.67

EPW₅＝1.67

EPW₆＝1.67

4.5)计算平均预取长度avgPLS，利用公式(11)计算avgPLS。

其中，length是预取列表的长度。avgPLS＝16

(6)结束：中止预取流程

为了评估本文提出的机制与策略的性能，选取的性能测试评价指标为Spark时间窗口数据分析应用的应用执行时间。性能测试选取7个物理节点作为测试集群，节点的硬件配置包括：Intel(R)Xeon(R)CPU E5-2660 0@2.2.GHz的CPU、16GB DDR3 RAM、1TB SATA硬盘，节点间采用千兆以太网互连，操作系统为Centos6.5。实现选用真实场景下的数据集并进行扩增的到测试数据集，测试的应用包括移动平均法、分时段排序和分时段词频统计。

对方法进行测试，测试在不同输入数据规模场景下，分别改变任务执行器内存规模以及Spark时间窗口数据分析应用中时间窗口的数量进行测试。分别选取输入数据规模为20GB，在以上三种数据规模的场景下，分别是任务执行器的内存为8GB；每个应用程序的时间窗口数量分别为5个时间窗口、10个时间窗口和15个时间窗口。实验包含9组，如表1所示。

表1输入数据规模为20GB时测试环境配置情况

时间窗口为5个，任务执行器内存为8GB的测试结果如表2所示。

表2时间窗口为5个，任务执行器内存为8GB的测试结果

从以上实验结果可以看出，相比于原始Spark，采用了Spark时间窗口缓存管理方法的Spark平台在执行Spark时间窗口数据分析应用时，移动平均法、分时段排序和分时段词频统计的应用执行时间分别缩短了80.58％、56.01％和78.33％。

时间窗口为10个，任务执行器内存为8GB的测试结果如表3所示。

表3时间窗口为10个，任务执行器内存为8GB的测试结果

从以上实验结果可以看出，相比于原始Spark，采用了Spark时间窗口缓存管理方法的Spark平台在执行Spark时间窗口数据分析应用时，移动平均法、分时段排序和分时段词频统计的应用执行时间分别缩短了75.03％、55.99％和73.88％。

时间窗口为15个，.任务执行器内存为8GB的测试结果如表4所示。

表4时间窗口为15个，任务执行器内存为8GB的测试结果

从以上实验结果可以看出，相比于原始Spark，采用了Spark时间窗口缓存管理方法的Spark平台在执行Spark时间窗口数据分析应用时，移动平均法、分时段排序和分时段词频统计的应用执行时间分别缩短了72.28％、58.40％和71.26％。实验结果表明采用本方法的Spark平台在处理Spark时间窗口数据分析应用时，应用执行时间明显缩短，这是因为本方法将原本Spark平台的全文件读取创建RDD更改为根据时间窗口读取数据并创建RDD，并提供了预取策略，将Spark平台的数据读取与计算重叠，提高应用执行效率。

最后应说明的是：以上示例仅用以说明本发明而并非限制本发明所描述的技术，而一切不脱离发明的精神和范围的技术方案及其改进，其均应涵盖在本发明的权利要求范围当中。

以上实施例仅用以说明本发明，而并非限制本发明所描述的技术方案。因此，一切不脱离本发明的精神和范围的技术方案及其改进，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种面向Spark时间窗口数据分析的缓存数据预取方法，其特征在于：

本方法在计算机中实现，在Spark平台开始处理时间窗口数据分析应用的时候，依次执行以下步骤：

INFO＝{EXEINFO,timeWindowINFO} (1)

timeWindowINFO为Spark时间窗口数据分析应用需要处理的时间窗口信息，EXEINFO＝{exeNum，exeStorCap，EXE}，其中，exeNum为Spark时间窗口数据分析应用所包含的任务执行器总数量，exeStorCap为任务执行器的存储容量，EXE为任务执行器的集合，表示为EXE＝{exe₁，exe₂，...,exe_exeNum}；

timeWindowINFO表示为timeWindowINFO＝{twNum，TimeWindow}；其中，twNum为Spark时间窗口数据分析应用中时间窗口的个数；TimeWindow是时间窗口集合，表示为TimeWindow＝{twData_i|1≤i≤twNum}，twData_i表示第i个时间窗口，对于第i个时间窗口，表示为twData_i＝{startTime_i，endTime_i，BlockINFO_i}，其中，startTime_i是第i个时间窗口的起始时间，endTime_i是第i个时间窗口的终止时间，BlockINFO_i是第i个时间窗口中包含的数据块信息，表示为BlockINFO_i＝{blockNum_i，blockDefaultSize，Blocks_i}，其中blockNum_i是第i个时间窗口中包含的数据块的数量，blockDefaultSize为数据块的默认大小，Block_i为第i个时间窗口包含的数据块集合，表示为Block_i＝{(block_ij，loc_ij)|1≤j≤blockNum_i}，block_ij表示第i个时间窗口中包含的第j个数据块，loc_ij表示block_ij所在的位置具体在哪个任务执行器上；

1.1)获取时间窗口信息，包括起始时间st，终止时间ed和时间窗口移动步长wd；

1.2)根据st和ed确定第一个时间窗口；

1.3)获取第一个时间窗口的数据块Blocks₁；

1.4)计算Blocks₁对于任务执行器的数据本地性dataLoc_ij，利用公式(2)计算dataLoc_ij；

1.5)根据Blocks₁的数据本地性，将数据块与本地性较高的任务执行器做映射；

1.6)任务执行器缓存数据块；

(2)预取时机判断

2.1)判断是否一个时间窗口数据twData_i处理结束，若处理结束，则执行步骤2.2)，若没有处理结束，则等待；

2.2)定义第i个任务执行器的缓存时间窗口数据为twDataPar_j，利用每个任务执行器的监控器获取twDataPar_j；

2.3)计算第i个任务执行器的时间窗口数据总规模

TD_i表示E_i中所有局部结果数据分区的集合

2.4)定义第i个任务执行器的局部结果数据为locDataPar_j，利用每个任务执行器的监控器获取locDataPar_j；

2.5)计算第i个任务执行器的局部结果数据总规模

LD_i表示E_i中所有已处理的时间窗口数据分区的集合；

2.6)定义数据膨胀率为df_i，任务执行器E_i的数据膨胀率df_i是指E_i中局部结果数据分区总量与已处理的时间窗口数据分区总量的比值，利用公式(3)计算df_i；

2.7)定义第i个任务执行器剩余缓存空间RM_i，任务执行器E_i的缓存剩余空间是指在任务执行器中既有预取时间窗口数据全部处理完毕后，缓存的剩余空间规模，公式表达如公式(4)；

2.8)定义系统中剩余总缓存空间TFM，利用公式(5)计算TFM；

其中，exeNum表示任务执行器总数；

2.9)定义任务执行器的计算能力CC_i，用任务执行器E_i的CPU核心数量表示；

2.10)定义最小预取量MPS_i，利用公式(6)计算MPS_i；

其中，TCN表示集群中的CPU总核心数；

2.11)判断是否剩余缓存总空间满足TFM≥Size(twData_i+1)，若满足则执行步骤2.12)若不满足则执行步骤(2)；

2.12)判断每个任务执行器E_i是否满足RM_i≥MPS_i，1≤i≤exeNum，若满足则执行步骤(3)，若不满足则执行步骤(2)；

(3)判断预取数据规模

3.1)确定预取数据块数量k，k满足在不超过剩余缓存总空间条件下可预取的最大数据规模；利用公式(7)计算k；

3.2)定义核预取数据块BlockNum_i，利用公式(8)计算BlockNum_i；

(4)确定预取数据放置位置

4.1)创建每个任务执行器EPW_i的预取列表prefetchList_i，prefetchList_i用来记录每个任务执行器EPW_i需要预取的数据块；

4.2)获取需要预取的k个时间窗口中数据块的本地性dataLoc_ij，利用公式(9)计算dataLoc_ij；

4.3)根据dataLoc_ij填充prefetchList_i；

4.4)定义任务执行器的预取权值为当前任务执行器EPW_i的计算能力与集群中总CPU核心数的比值，利用公式(10)计算EPW_i；

4.5)计算平均预取长度avgPLS，利用公式(11)计算avgPLS；

其中，length是预取列表的长度；

4.6)对于每个任务执行器E_i，判断缓存列表prefetchList_i长度是否超过avgPLS，若超过则将多出的部分迁移到prefetchList_i低于avgPLS的任务执行器中；

4.7)每个任务执行器启动预取线程读取prefetchList_i中的数据块；

(6)结束：中止预取。

2.根据权利要求1所述的一种面向Spark时间窗口数据分析的缓存数据预取方法，其特征在于：当平台处理时间窗口数据分析应用时，在本方法的各步骤中，先从平台中各个组件采取信息，再读取一个时间窗口，计算数据膨胀率和剩余缓存空间，并判断与缓存时机，计算预缓存数据大小，随后进行预缓存数据的数据放置，当所有时间窗口处理结束后，结束流程。

3.根据权利要求1所述的一种面向Spark时间窗口数据分析的缓存数据预取方法，其特征在于：该平台由多个计算机服务器组成，服务器间通过网络连接；平台节点分为三类，包括一个管理节点Master、一个客户端节点Client和多个计算节点Worker；本方法所依附的Spark平台包含以下核心软件模块：DAG调度器模块DAGScheduler、任务执行器模块Executor、主数据块管理模块BlockManagerMaster和从数据块管理模块BlockManager；DAGScheduler负责提供时间窗口数据分析应用在执行过程中产生的DAG信息，将DAG信息收集，作为判断预缓存时机的参考信息；Executor负责收集自身的CPU核数信息以及任务执行的信息；BlockManagerMaster主要负责维护集群中数据块对应的元数据信息，以及BlockManager与Executor之间的对应情况，包括各个节点中的BlockManagerId与BlockManager对应的Executor的内存使用情况、管理的数据块列表、已缓存的数据块以及Executor终端点的引用，BlockManagerId与ExecutorId之间的映射表，各个BlockManager中BlockId与BlockManagerId的映射表；BlockManager模块的主要功能有四个，一是负责各个节点中BlockManager与BlockManagerMaster之间的通信；二是负责存储数据块；三是负责维护一个缓存列表，用来记录当前BlockManager需要缓存哪些数据块；四是负责数据块的读取和传输；

在Master中，新增一个预缓存管理模块PrefetchManager；PrefetchManager负责控制预缓存的整体流程，与各个模块协调，实现步骤(1)到步骤(6)；在Worker中，新增一个工作节点监控器模块Monitor；Monitor负责收集各个工作节点中的信息，包括工作节点的缓存数据大小、cpu核心数量、缓存总空间大小并计算每个工作节点的数据膨胀率。