CN110134714B

CN110134714B - 适用于大数据迭代计算的分布式计算框架缓存索引方法

Info

Publication number: CN110134714B
Application number: CN201910428559.7A
Authority: CN
Inventors: 宋杰; 王傲
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2021-04-20
Anticipated expiration: 2039-05-22
Also published as: CN110134714A

Abstract

本发明提供一种适用于大数据迭代计算的分布式计算框架缓存索引方法，涉及大数据环境下分布式计算框架技术领域。同一类型的迭代计算作业，从集群节点中获得若干历史执行日志并分析，获取每个集群节点的每个缓存数据块信息以及在该缓存数据块上执行的历史任务信息，构建分布式缓存索引；目标任务分发时，以目标任务的任务特征为输入，查找分布式缓存索引，确定目标任务所需数据所在节点的位置，完成任务分发；收集任务信息及任务使用的缓存数据信息，获得任务特征集合，加入缓存索引进行完善；如此反复，直到分布式缓存索引稳定。本发明充分利用历史任务的缓存，提高分布式缓存利用率，提高内存使用效率，加快迭代计算任务执行。

Description

适用于大数据迭代计算的分布式计算框架缓存索引方法

技术领域

本发明涉及大数据环境下分布式计算框架技术领域，尤其涉及一种适用于大数据迭代计算的分布式计算框架缓存索引方法。

背景技术

在大数据的背景下，越来越多的迭代计算应用于机器学习、数据挖掘、信息检索和推荐系统等领域。例如：著名的网页排名算法PageRank算法根据网页之间的链接关系，从任意迭代初始值开始，根据迭代函数更新每个网页的PageRank值直至收敛；K-Means算法，通过一个迭代过程，迭代更新数据聚类中心点(聚类代表)，根据最终收敛的不动点结果来判定数据单元的聚类所属关系等；类似迭代算法还包括协同过滤(CollaborativeFiltering)算法、逻辑回归(Logistic Regression)算法等。由此可见，迭代算法有着非常广泛的应用范围。

大数据环境下，随着数据处理规模越来越大，需要多迭代步反复计算的迭代算法性能瓶颈尤为明显，大数据上的迭代算法的运行消耗完全超出了单服务器的承受极限，提高大数据环境下的迭代计算效率成为重要问题，使用分布式计算框架处理大规模数据集已成为目前数据处理的主要做法，Google实验室的MapReduce编程模型的优势集中体现在并行计算上，善于进行批处理模式的计算，然而对于迭代计算并没有提供直接的支持，如基于MapReduce模型开源的Hadoop，不能透明高效地支持迭代计算，甚至Hadoop的某些特性不适合迭代计算，随后基于MapReduce模型进行迭代计算改进，产生了支持迭代计算的分布式计算框架，如HaLoop、Twister、Spark等。然而目前的这些分布式计算框架在迭代计算方面，缓存的使用并不够高效，导致在计算时造成大量的计算资源的浪费和性能损失。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种适用于大数据迭代计算的分布式计算框架缓存索引方法，是一种适用于大数据迭代计算的分布式计算框架内存优化方法。其目的在于充分利用历史任务的缓存，提高分布式缓存利用率，提高内存使用效率，加快迭代计算任务执行。

为解决上述技术问题，本发明所采取的技术方案是：

一种适用于大数据迭代计算的分布式计算框架缓存索引方法，包括如下步骤：

步骤1、同一类型的迭代计算作业，分布式计算系统按照默认的任务分发方式，在集群中经执行多次后，从集群节点中获得若干历史执行日志，对节点的日志进行分析，获取每个集群节点的每个缓存数据块信息以及在该缓存数据块上执行的历史任务信息；

所述缓存数据块为背景数据或是中间数据；所述背景数据为在每一次迭代过程中都被使用同时在整个计算过程中保持不变的数据集；所述中间数据为每一次迭代后的执行结果，作为下一次迭代的输入数据；所述历史任务信息具体包括：任务特征集合F＝{f₁,f₂,…,f_m}，该集合中每个具体属性f_j由具体的迭代算法决定，具体属性f_j的取值为0或1，j＝1,2,…,m，m表示由迭代算法所确定的属性数量；第i个节点上所有任务特征集合为

为节点id，节点数量为w；

表示第i个节点上的第q个任务特征集合，q＝1,2,…,n；n表示第i个节点上的任务特征集合的个数；

步骤2、针对步骤1所述的同一类型的迭代计算作业，根据步骤1从日志中获得的信息，构建分布式缓存索引，步骤如下：

步骤2.1、选取满足局部敏感哈希条件的哈希函数；

步骤2.2、确定哈希表的个数t、每个哈希表内的哈希函数的个数f；

步骤2.3、将所有任务特征集合经过局部敏感哈希函数映射到相应的桶内，构成了多个哈希表；

步骤3、在同一类型的迭代计算作业再次执行过程中，目标任务分发时，以目标任务的任务特征为输入，查找分布式缓存索引；根据查询结果，确定目标任务所需数据所在节点的位置，完成任务分发；具体查找步骤如下：

步骤3.1、将查询的目标任务的特征集合经过局部敏感哈希函数映射得到相应的哈希码，即桶号；

步骤3.2、将桶号中对应的所有任务特征集合取出；

步骤3.3、计算查询的目标任务与桶中任务之间的相似度，使用Jaccard相似度计算两个任务特征集合的相似度，如下式所示，

Sim(F_x,F_y)＝|F_x∩F_y|/|F_x∪F_y|

其中，F_x、F_y表示不同的任务特征集合，Sim(F_x,F_y)表示任务特征集合F_x和F_y的相似度；

根据计算得到的相似度，得到按相似度排序的任务特征集合，从而得到目标任务所需数据所在的候选节点，优先将任务分发到排列靠前的节点；相似度相同时的排序规则为集群节点的静态资源信息，所述静态资源信息包括CPU核数、内存大小；

所述候选节点必须是空闲节点，所以如果查询结果排列第一的节点非空闲，计算资源已经被占用完，不等待资源释放，立即将任务分发到查询结果排列第二的节点，依此类推；

步骤4、在每个任务执行结束的同时，收集任务信息及任务使用的缓存数据信息，获得任务特征集合，加入缓存索引中，从而完善分布式缓存索引，用于指导其他任务的分发，如此反复，直到分布式缓存索引稳定。

采用上述技术方案所产生的有益效果在于：本发明提供的一种适用于大数据迭代计算的分布式计算框架缓存索引方法，是面向迭代计算的分布式计算框架内存优化方法，通过对历史缓存构建分布式缓存索引，基于经验完成任务分发，最大化的满足了任务本地化需求，尽量地减少数据传输过程中本地和网络I/O代价，提高迭代计算性能。

附图说明

图1为本发明实施例提供的适用于大数据迭代计算的分布式计算框架缓存索引方法的流程图；

图2为本发明实施例提供的Spark集群系统架构图；

图3为本发明实施例提供的缓存索引结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1为本实施例提供的适用于大数据迭代计算的分布式计算框架缓存索引方法的流程图。

本实施例以Spark计算框架为例说明。Spark集群系统架构图如图2所示。Spark是UC Berkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，是一个高效的分布式计算系统。启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。Spark其工作重点是在提高基于内存的分布式系统的容错性能,虽然提供对迭代计算的支持，但对迭代计算的优化有限，Spark的核心思想就是充分利用内存作为缓存来实现不同阶段之间的数据共享，缓存是Spark构建迭代式算法的关键，因此对Spark的分布式缓存进行合理优化，从而对提高分布式缓存利用率，加快任务执行有着重大意义。

视任务所需数据和期望的访问位置为搜索目标，而所有数据及其副本以及存放位置为搜索范围，节点的现有资源(静态资源)为搜索约束(结果的排序规则)，那么任务分发规则也可以视为实时搜索问题。而在大数据环境中完成类似的搜索是困难的，需要充分利用先验知识提高搜索性能，分布式计算框架将迭代循环中保持不变的数据以及多次重用的中间结果数据缓存，任务执行过后节点上会有大量的历史数据缓存信息，索引是可以缩小搜索空间的数据结构，对这些节点的分布式缓存构建索引，通过查找缓存索引,将不同迭代但访问数据相同的任务以较高的概率分发到具有缓存数据的相同物理节点上，快速确定分发节点，即基于经验完成任务分发，最大化的满足任务本地化需求，这样可以大大减少网络间数据传输带来的性能消耗。

局部敏感哈希(Locality-Sensitive Hashing,LSH)的基本思想是：将原始数据空间中的两个相邻数据点通过相同的映射或投影变换(projection)后，这两个数据点在新的数据空间中仍然相邻的概率很大，而不相邻的数据点被映射到同一个桶的概率很小。即通过哈希函数映射变换操作，将原始数据集合分成了多个子集合，而每个子集合中的数据间是相邻的且该子集合中的元素个数较小。

哈希函数需要满足以下两个条件：

(1)如果d(x,y)≤d1，则h(x)＝h(y)的概率至少为p1；

(2)如果d(x,y)≥d2，则h(x)＝h(y)的概率至多为p2；

其中，d(x,y)表示x和y之间的距离，d1<d2，h(x)和h(y)分别表示对x和y进行hash变换。

满足以上两个条件的hash functions称为(d1,d2,p1,p2)-sensitive。而通过一个或多个(d1,d2,p1,p2)-sensitive的hash function对原始数据集合进行hashing生成一个或多个hash table的过程称为Locality-sensitive Hashing。

通过选取合适的哈希函数，以较高的概率将相似度高的历史任务特征集合映射到同一个桶内，在目标任务分发时，可以快速找到与目标任务相似的一些任务，由相似任务所在节点，以较高概率确定目标任务所需缓存数据块在这些相似任务的节点上。

本实施例提供的适用于大数据迭代计算的分布式计算框架缓存索引方法，缓存索引结构示意图如图3所示，在Spark下具体步骤如下：

步骤1、在Spark分布式集群系统中，针对特定数据集，K-Means迭代计算作业按照Spark默认的任务分发方式，在集群中已经执行了很多次，从集群节点中获得若干历史执行日志，对节点的日志进行分析，获得每个节点缓存的背景数据RDD或是中间数据RDD数据上执行过的任务的任务特征集合，每个任务特征集合F＝{f₁,f₂,…,f_m}，m＝32，每个节点的任务特征集合，如

n₁为T₁节点的任务特征集合总数，节点数量w＝5，获得所有节点任务特征集合{T₁,T₂,...,T₅}，

步骤2、针对步骤1所述的K-Means迭代计算作业，根据步骤1从日志中获得的信息，构建分布式缓存索引；步骤如下：

步骤2.1、选取满足局部敏感哈希条件的哈希函数H＝{h₁,h₂...h_x}，x为哈希函数总数，本实施例中取x＝50；

步骤2.2、确定哈希表的个数t＝5，每个哈希表内的哈希函数的个数f＝10，从H中随机选取；g_i(F)＝(h₁(F),h₂(F),.....,h₁₀(F))，1≤i≤5，F为任务特征；

步骤2.3、将所有任务特征集合经过局部敏感哈希函数g_i(F)映射到相应的桶内。

步骤3、在同一类型的K-Means迭代计算作业再次执行过程中，目标任务分发时，以目标任务的任务特征F为输入，查找分布式缓存索引；根据查询结果，确定目标任务所需数据所在节点的位置，完成任务分发；具体查找步骤如下：

步骤3.1、将查询的目标任务的特征集合F经过局部敏感哈希函数g_i(F)映射得到相应的哈希码，即桶号b_i，1≤i≤5；

步骤3.2、将所得桶号中对应的所有任务特征集合取出

Sim(Fx,Fy)＝|Fx∩Fy|/|Fx∪Fy|

根据相似度得到按相似度排序的任务特征集合

从而得到目标任务所需数据所在的候选节点，节点id依次为3、4、1、2、5；优先将任务分发到排列靠前的节点，相似度相同时的排序规则为集群节点的静态资源信息，包括CPU核数、内存大小；

因为此缓存索引不是确定的任务分发规则，不指定任务必须去某个节点，只是指导迭代计算环境中基于最优缓存命中率的任务分发，候选节点必须是空闲节点，所以如果查询结果排列第一的节点非空闲，计算资源已经被占用完，不等待资源释放，立即将任务分发到查询结果排列第二的节点，依此类推。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种适用于大数据迭代计算的分布式计算框架缓存索引方法，其特征在于：包括如下步骤：

i为节点id，节点数量为w；

步骤2.1、选取满足局部敏感哈希条件的哈希函数；

步骤3.2、将桶号中对应的所有任务特征集合取出；

Sim(F_x,F_y)＝|F_x∩F_y|/|F_x∪F_y|