CN108241472A

CN108241472A - 一种支持局部性表达函数的大数据处理方法和系统

Info

Publication number: CN108241472A
Application number: CN201711250255.3A
Authority: CN
Inventors: 汪小林; 潘成; 陈峯; 陈一峯; 罗英伟
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2017-12-01
Filing date: 2017-12-01
Publication date: 2018-07-03
Anticipated expiration: 2037-12-01
Also published as: CN108241472B

Abstract

本发明涉及一种支持局部性表达函数的大数据处理方法和系统。该方法包括以下步骤：1)发掘大数据处理系统中所处理的数据的局部性，形成局部性表达函数；2)将局部性表达函数部署在大数据处理系统中；3)大数据处理系统按照局部性表达函数分配工作任务。所述大数据处理系统采用分布式存储方式或集中式存储方式；所述局部性表达函数在大数据处理系统中的部署方式分为两种类型：内置式冷启动模式、外置式热插拔模式。本发明通过发掘数据中隐藏的局部性，并且使用自定义的局部性函数表达出来，最终被大数据处理系统识别，按照局部性来分配机器执行任务，从而达到优化处理效率。

Description

一种支持局部性表达函数的大数据处理方法和系统

技术领域

本发明涉及一种将数据的局部性表达函数与分布式处理系统结合的方法和系统，属于分布式系统领域。

背景技术

随着数据量越来越大，计算机需要处理的业务越来越复杂，单机已经无法满足需求。一个有效的解决方案是把众多廉价的计算机整合起来，共同提供服务，这就是分布式系统。

严格来说，分布式系统是一个硬件或软件组件分布在不同的网络计算机上，彼此之间仅仅通过消息传递进行通信和协调的系统。也就是说一个分布式系统中的计算机在空间部署上可以是随意分布的，这些计算机可能被放在不同的机柜上，也可能在不同的机房中，甚至分布在不同的城市。这些计算机之间通过网络来通信。

分布式系统从体量上实现了相当大的可扩展性，通过不断加入新的计算资源，可以处理的数据量也越来越大。但是随着任务中的数据量的不断扩张，也会有很多问题随之而来。比如不同机器在计算中需要传递的数据量会随着机器数量、运算数据、迭代次数等等因素的增加而增加，而不同机器之间是通过网络来传递数据的，网络带宽很容易会成为限制整体运算效率的瓶颈。又比如基于MapReduce架构的分布式系统，在多次迭代的过程中会产生大量的中间结果，这些结果没法都存储在内存中，只能换出到外存。大量数据在内外存的频繁换入换出，也会导致整体运算性能的下降。

充分发掘数据中的局部性可以帮助更好的优化分布式系统的计算。比如经典的PageRank算法，每一轮迭代计算中，都需要在各个网页链接之间传送数据。如果可以将整个网页链接关系的大图划分成几个较为均等的子图，并且各个网页之间的链接尽可能出现在同一个子图之内，那么在分布式迭代的过程中，可以将一个子图中的数据都放在一个物理节点上计算，可以大大节约网络带宽。再比如大规模(TB甚至更高级别)的<键,值>数据按键排序，数据中的键可能比较长，不太可能全部加载到内存中进行排序。使用外部排序的话，会产生很大的磁盘IO；或者采用分布式的排序，又会产生相当大的网络流量。如果此时有一种比key更简短的值可以代表整个键值对，并且满足一定的偏序关系，便可以将这个短小的值放入内存中进行预排序，预排序的结果可以对数据集进行更精确的划分，然后使用分布式的节点对每个划分好的子块进行细致的排序。这样可以降低一定程度的磁盘IO，从而达到优化整体任务的执行效果。

发明内容

本发明的目的是提出一种通用大数据处理系统和用户可自定义局部性表达函数(本发明将该局部性表达函数称为Locey)的结合方式，以优化数据处理效率。具体来说，大数据处理系统往往采用分布式的架构，需要多台机器之间分工协作，在处理不同类型的数据的时候，往往会产生机器与机器、内存与磁盘之间的数据传送。通过发掘数据中隐藏的局部性，并且使用自定义的局部性函数表达出来，最终被大数据处理系统识别，按照局部性来分配机器执行任务，从而达到优化处理效率。

本发明所述“局部性”是指程序运行时对数据访问的“时间局部性”与“空间局部性”的总称。时间局部性指的是“如果一个信息项正在被访问，那么在近期它很可能还会被再次访问”，空间局部性指的是“在最近的将来将用到的信息很可能与现在正在使用的信息在空间地址上是临近的”。

要使得分布式的大数据计算系统能够支持局部性表达函数，就必须先总结概括现有分布式的处理架构。分布式并行处理系统从磁盘I/O角度可以分为弱I/O和强I/O两种。一般的互联网大数据分析为弱I/O，这样存储可以采用分布式存储，具体为一个计算节点上挂一个大硬盘，典型例子为阿里云，硬件架构如图1。

在此类集群中将有一个主控节点用来控制和管理整个集群的正常运行，并协调管理集群中各个从节点完成数据存储和计算任务。每个从节点将同时担任数据存储节点和数据计算节点两种角色，这样设计的目的主要是在大数据环境下实现尽可能的本地化计算，以此提高系统的处理性能。为了能及时检测和发现集群中某个从节点发生故障失效，主控节点采用心跳机制定期检测从节点，如果从节点不能有效回应心跳信息，则系统认为这个从节点失效。

另一种分布式处理架构为强I/O类型。常见的业务有遥感图像处理等。强I/O对网速和磁盘寻址速度的要求很高。一般采用这样的系统架构，采用集中式存储，底层为SAN磁盘阵列，通过SAN交换机和计算服务器相连，各个计算服务器通过万兆以太网交换机相连，这样形成两个网络：存储网络和计算网络。硬件架构见图2。可以看到这种架构形成了三层网络，首先是存储阵列和计算节点基于数据存储形成了存储网络，然后各个计算节点基于管理的需要(如添加和删除节点)形成了管理网络，计算节点基于分布式计算的需要形成了计算网络(主要用于计算过程中的数据传输)。

如何将局部性表达函数的计算融入到分布式计算系统中，需要按照以上给出的两种类型来考虑。

1、针对基于分布式存储的大数据处理系统

分布式存储的处理系统的特点就是每个节点将同时担任数据存储节点和数据计算节点两种角色，这样可以尽可能将计算本地化。在这种结构下，如果某个机器它所需要的数据大都存储在自己的本机，那么在任务运行时，将会很大程度减少网络数据的传输。

根据不同任务的类型和结构各异的数据，这里将局部性表达函数按照启动时间分为两种可能性：内置式冷启动模式和外置式热插拔两种类型。

A、内置式冷启动模式

所谓内置式，是指整个分布式处理系统，在所有处理的环节，包括任务分配、数据载入、数据传输等各个方面都需要有局部性表达函数(Locey)的介入。所谓冷启动，指处理数据的人员需要在任务启动之前，就配置好各个地方需要的具体的Locey函数，迭代的收敛条件等等，并且定义不同的Locey值会对任务和数据的分配产生什么样的指导作用。

如图3所示，针对分布式存储的大数据处理系统，其中加入了内置式冷启动的Locey函数的主要的结构变动在集群控制器(集群主控节点)，主控节点在一开始启动任务的时候就将Locey函数发送到各个从节点，指定在从节点应该如何计算局部性表达函数，同时存储主控节点也接收各个从节点发来的局部性函数值，来决定数据在不同从节点之间的移动。如果配置了迭代阈值或者迭代次数，Locey的计算是伴随着正常的计算任务一起进行的，这也就意味着Locey的值也可能随着迭代计算每次都不同，从而数据也可能因此而在迭代中移动。

B、外置式热插拔模式

外置式热插拔模式是指局部性表达函数不是写在整个分布式系统内部，而是通过一个外部的插件来完成，在操作人员觉得合适的时候来运行。在原有分布式系统内部，只是提供一个可供外部调用的API，然后外部可以自由编写具体的局部性表达函数和指定的操作。当任务处理人员发现某个时刻从任务监控中发现了数据的偏斜的规律(比如在运行分布式排序的任务，发现在一个区域的数据都被分配给了一个固定的机器，导致这个节点的任务量比其他节点多了很多，而这个节点内部的数据实际上是可以继续细分的)，则可以在此刻执行外部的Locey插件，将数据按照Locey值的计算重新分布到各个计算节点。其架构如图4所示。在这其中，外部插件的编写依赖内部提供的API，并且可以在任意时间开始插件的运行和终止，从而做到热插拔。另外，每个插件可以封装成相对独立的功能，让多个不同的插件组合运行，互相之间共享计算的结果，从而增加插件的可复用性。

2、针对基于集中式存储的大数据处理系统

集中式存储和分布式存储最大的区别在于每个计算节点本身都不存储数据了，而是从统一的存储阵列读取数据，并通过万兆以太网来交换数据。所以计算节点的数据局部性没有分布式存储那么重要，但是如果发掘了计算任务中存在的局部性，从而使得每个计算节点中的计算任务有一定的“内敛性”——即跨节点的通信少、迭代次数少等等，也可以做到优化计算效率的结果。

同基于分布式存储的大数据处理系统类似，这里也将按照内置式冷启动模式和外置式热插拔两种类型来具体设计系统架构。

A、内置式冷启动模式

这个内置的冷启动是需要在主节点和从节点上都有配套的设置，启动时，需要由主节点将局部性表达函数发送到各个从节点，然后从节点通过计算后将结果通过万兆以太网发送到主节点，主节点再根据Locey配置的策略，从管理网络发布具体的任务分配情况。系统结构如图5。Locey函数在系统设计之初就已经嵌入其中，虽然依赖性高，但是可以根据系统的特点做特别的优化措施。

B、外置式热插拔模式

外置式的局部性管理，相当于在管理网络上再增加一个节点，专门用来发射局部性的管理指令，如图6所示。在结构上，Locey管理机和主控节点起到的职责是类似的，都可以负责计算任务的分配，并且在Locey管理机上线之后，可以主动发现主控节点，通过LoceyAPI与主控节点交互，传达相关的指令，最终以主控机的名义，在管理网络发布任务分配信息。

当计算任务的管理人员发现需要对任务进行调整的时候，可以将Locey管理机配置好并上线，作为主控节点的“参谋”影响主控节点发出的指令。

与现有技术相比，本发明具有以下有益效果：

1)通过局部性表达函数Locey，将程序运行时抽象的局部性，表达成具体可以衡量的数值，并用于指导数据的平衡分布；

2)针对不同应用场景，设计了如何将局部性表达函数嵌入到已有的分布式处理系统中，在分布式存储和集中式存储、内置式和外置式两个不同的维度的组合情况分别进行设计，基本覆盖了常见的分布式处理系统。

附图说明

图1为采用分布式存储的大数据处理系统架构图。

图2为采用集中式存储的大数据处理系统架构图。

图3为针对分布式存储的Locey内置式冷启动架构图。

图4为针对分布式存储的Locey外置式热插拔架构图。

图5为针对集中式存储的Locey内置式冷启动架构图。

图6为针对集中式存储的Locey外置式热插拔架构图。

图7为网页间的链接随着Locey迭代之后的变化图。

图8为100次PageRank迭代下locey对通信量的优化图。

具体实施方式

下面通过两个经典算法实例的叙述，对Locey函数如何结合大数据处理系统进行详细的说明。

1、Locey对PageRank算法的计算优化

PageRank在背景技术中有提到对其局部性的利用，可以降低PageRank算法的通讯量，从而提高计算的性能。这里详细叙述其过程。

对于谷歌当时发明PageRank算法，到如今各个互联网公司将这种算法应用到各处，大部分的使用场景都是基于分布式的存储来执行的。将大量的网页存放在分散的小机器中，并且在计算的时候，需要在各个机器之间不停传递数据执行迭代计算。

从经验出发，我们希望在整个图迭代计算的一开始，就能将大图划分成局部性比较好的子图，使得各个子图都有比较好的内聚性，从而降低各个子图之间的通讯量。这就符合了上面提到的针对分布式存储的内置式冷启动模式。Locey函数从执行一开始，就已经发布到各个执行节点中，在迭代的初期，伴随数据的传输，Locey也在迭代计算，逐步划分出局部性比较好的子图，之后Locey的计算就停止，图划分固定下来。

下面是具体的Locey函数：Locey为标量值，基于Locey的数值大小决定局部性(即根据Locey数值所处的区间分配到对应的处理节点上)。

对于一个网页之间的连接图G＝＜V,E＞有如下几个公式：

V_u＝{v:(u,v)∈E|(v,u)∈E}

locey⁰(u)＝RANDOM

其中，表示网页链接图中的点集，即网页集合，E表示网页链接图中的边集，即链接关系集合)；V_u表示节点u的邻域，即所有u指向的节点和所有指向u的节点集合；v和u表示网页链接图中任意一个点，即任意一个网页；(u,v)表示网页u有一条指向网页v的连接；(v,u)表示网页v有一条指向网页u的连接；locey⁰表示第0轮Locey值，即初始化的Locey值；RANDOM表示一个随机函数，每次调用都会产生一个随机数值；locey^k表示第k轮迭代之后，各个节点的locey函数值。weight(v)是用户自定义的节点的权重，可以是度数，度数的平方等等值，而locey(v)被初始化为一个随机的值，通过迭代，能够不断发现整个图的局部性。在计算PageRank的迭代中迭代计算Locey，不断基于新的Locey对点和边的数据进行划分与重分布，当Locey变化不大时，停止Locey的迭代计算。

如图7所示，该图表现的是网页间的链接，深浅表示链接的多少，横坐标和纵坐标都表示Locey值，每当两个网页之间有链接，那么将它们的Locey值组成一个二维坐标，在图中标一个黑点。最初niters＝0时(见(a)图)，网页间随机排列。经过1轮Locey计算并按Locey排序后(niters＝1，见(b)图)，临近(指Locey值相近)网页间的链接明显多于远距离网页间。经过8轮Locey计算并按Locey排序后(niters＝8，见(c)图)，网页间链接主要集中于临近网页间。

将临近的网页放在同一个计算节点上进行计算，可以大大降低各节点之间的通信量。图8显示了在100次迭代情况下，由于将Locey值相近的网页聚集放置后，在各个主机间(16节点集群/32节点集群)，总数据通信量(纵坐标)随着计算Locey的迭代次数(横坐标)的增加而减少的趋势。图8中(a)图、(b)图和(c)图采用了不同参数的收敛迭代函数，其中npow表示对weight函数取多少次方进行迭代，nparts表示数据划分的块数，即分配多少个计算节点。这体现出根据用户的调整，可以找到最佳的函数及参数来优化Locey的计算，达到好的实际效果。

2、Locey对排序算法的计算优化

在MapReduce架构的各种分布式系统中，经常会用到Shuffle、排序等操作。如果能对排序有不错的优化，那也能做到性能提高。这里对存储的方式就没有很特别的限制，待排序的数据可以是集中式存储的，也可以是分布式存储的。这里Locey的目标是能将全部的key转化之后装入内存，进行预排序，之后重新分布数据，让排序的范围变小，从而降低磁盘的IO量。

因为是数据排序之初想要进行预排序，所以Locey函数与分布式系统的结合方式应该着重于冷启动模式，并且内置式的会更好，可以伴随数据载入阶段进行Locey值的计算，理想的状况是数据加载完成，Locey的计算也完成了。

比如说针对64位整数的排序，可以将Locey函数取为高4位的二进制数，然后按照高4位的locey值预排序。因为Locey的值很短小，很有可能就可以全部装进内存进行排序，然后按预排序的结果分配到各个子节点进行更细粒度的排序。

当然，也可能遇到数据分布不均匀的情况，高4位可能并不能很好划分整个数据集群。那一个改进的Locey函数就可以从数据的采样分布结果入手，设计出一个能很好按照分布划分的Locey函数，再重新进行预排序、划分数据、细排序。

从上面这两个个例子也可以看出，Locey函数的选取完全是自由的，需要由数据处理的专业人员去挖掘数据中潜在的局部性，并将其用Locey函数表达出来，然后通过支持Locey的大数据处理系统去执行计算，达到减少通信量、减少IO、减少迭代次数等各种优化效果。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种支持局部性表达函数的大数据处理方法，其特征在于，包括以下步骤：

1)发掘大数据处理系统中所处理的数据的局部性，形成局部性表达函数；

2)将局部性表达函数部署在大数据处理系统中；

3)大数据处理系统按照局部性表达函数分配工作任务。

2.如权利要求1所述的方法，其特征在于，所述大数据处理系统采用分布式存储方式或集中式存储方式；所述局部性表达函数在在大数据处理系统中的部署方式分为两种类型：内置式冷启动模式、外置式热插拔模式。

3.如权利要求2所述的方法，其特征在于，对于采用内置式冷启动模式的局部性表达函数的分布式存储的大数据处理系统，主控节点在开始启动任务时将局部性表达函数发送到各个从节点，指定在从节点应该如何计算局部性表达函数，同时主控节点接收各个从节点发来的局部性函数值，来决定数据在不同从节点之间的移动。

4.如权利要求3所述的方法，其特征在于，如果配置了迭代阈值或者迭代次数，则局部性表达函数的值随着每次迭代计算而不同。

5.如权利要求2所述的方法，其特征在于，对于采用外置式热插拔模式的局部性表达函数的分布式存储的大数据处理系统，局部性表达函数通过外部的插件来部署，并在大数据处理系统内部提供一个可供外部调用的API，外部能够自由编写具体的局部性表达函数和指定的操作。

6.如权利要求5所述的方法，其特征在于，外部的插件能够在任意时间开始运行和终止，从而实现热插拔；每个插件能够封装成相对独立的功能，以使多个不同的插件组合运行，并且互相之间共享计算的结果，从而增加插件的可复用性。

7.如权利要求2所述的方法，其特征在于，对于采用内置式冷启动模式的局部性表达函数的集中式存储的大数据处理系统，由主控节点将局部性表达函数发送到各个从节点，从节点通过计算后将结果通过计算网络发送到主节点，主节点再根据局部性表达函数中配置的策略，从管理网络发布具体的任务分配情况。

8.如权利要求2所述的方法，其特征在于，对于采用外置式热插拔模式的局部性表达函数的集中式存储的大数据处理系统，在管理网络中增加一个局部性表达函数管理机，该局部性表达函数管理机与主控节点交互，实现任务的分配。

9.一种支持局部性表达函数的大数据处理系统，其特征在于，包括大数据处理系统，所述大数据处理系统中部署局部性表达函数，所述大数据处理系统按照所述局部性表达函数分配工作任务。

10.如权利要求9所述的系统，其特征在于，所述大数据处理系统采用分布式存储方式或集中式存储方式；所述局部性表达函数在在大数据处理系统中的部署方式分为两种类型：内置式冷启动模式、外置式热插拔模式。