CN103731498A

CN103731498A - 一种基于副本选择的大数据实时查询系统负载均衡方法

Info

Publication number: CN103731498A
Application number: CN201310755662.5A
Authority: CN
Inventors: 王敬昌; 吴勇; 陈岭; 赵江奇; 徐精忠; 李晓平; 赵宇亮
Original assignee: Zhejiang Hongcheng Computer Systems Co Ltd
Current assignee: Zhejiang Hongcheng Computer Systems Co Ltd
Priority date: 2013-12-31
Filing date: 2013-12-31
Publication date: 2014-04-16
Anticipated expiration: 2033-12-31
Also published as: CN103731498B

Abstract

本发明涉及计算机数据库处理领域，尤其涉及一种基于副本选择的大数据实时查询系统负载均衡方法，包括节点负载信息收集和节点负载均衡两个过程，节点负载均衡过程包括预处理和选择副本两个阶段。本发明的有益效果：本发明针对现有的大数据实时查询系统负载均衡方法过于简单且不考虑机器当前状态的问题，提出了新的基于副本选择的大数据实时查询系统负载均衡方法，本发明的优点包括：负载均衡效果优于现有的大数据实时查询系统；时间复杂度较小，为O(n²)，其中n为块的数目；适用于异构分布式系统和系统中运行其他任务的情况。

Description

一种基于副本选择的大数据实时查询系统负载均衡方法

技术领域

本发明涉及计算机数据库处理领域，尤其涉及一种基于副本选择的大数据实时查询系统负载均衡方法。

背景技术

在大数据时代，海量数据已不可能存储在单一服务器中。现有的大数据实时查询系统，如Google Dremel、Cloudera Impala等，均采用分布式计算架构，以保证大数据查询的实时性。如何在运行期间保证各个节点的负载均衡，一直是分布式系统关注的重点。

现有的大数据实时查询系统的数据库表逻辑上由存储的数据和描述表中数据形式的相关元数据组成。数据一般存放在分布式文件系统中。现有的分布式文件系统会对文件进行分块，将同一个文件的不同数据块存储在多个节点上，对每个数据块创建副本。因此，在数据库表载入内存的过程中，大数据实时查询系统需要为该表对应的每一个数据块选择副本，即选择某个节点上的副本。因为选中的节点需要完成将数据块副本从磁盘读入内存的任务，所以选择的过程中就需要考虑负载均衡。假设一个数据库表文件被划分成n个数据块，即B₁，B₂，...，B_n。现有的大数据实时查询系统会先为B₁选择副本，再为B₂选择副本，依次类推，最后为B_n选择副本。其通过每次选择已分配任务最少(用字节量衡量)的节点上的副本的策略实现负载均衡。现有的大数据实时查询系统的负载均衡方法存在如下问题，第一，无法得到较优的负载均衡。在每次选择副本的策略确定的情况下，按照不同的数据块先后顺序所产生的负载均衡程度是多样的，只考虑默认的数据块先后顺序，很难得到较优的负载均衡。第二，没有考虑分布式系统异构，如机器磁盘读取速率有差异的情况。

发明内容

本发明为克服上述的不足之处，目的在于提供一种基于副本选择的大数据实时查询系统负载均衡方法，在分布式数据库大量查询任务并发执行的情况下，保证集群中各个节点负载均衡，解决了现有技术中存在的问题，本发明通过以下技术方案达到上述目的：

一种基于副本选择的大数据实时查询系统负载均衡方法，包括节点负载信息收集和节点负载均衡两个过程，负载信息收集过程包括以下步骤：

1)节点负载信息汇报器到集群负载信息收集器注册；

节点负载信息汇报器发送节点的IP和主机名到集群负载信息收集器，集群负载信息收集器对节点的IP进行注册，创建该节点负载信息对象，该节点负载信息汇报器发送的负载信息都将存在该对象中，集群负载信息收集器还会建立从节点IP到节点主机名的映射；

2)节点负载信息汇报器获得节点最大可提供磁盘读取速率；

3)节点负载信息汇报器预估节点执行任务期间可提供磁盘读取速率，包括以下步骤：

(1)计算最近一次间隔时间内平均已使用磁盘读取速率，公式如下：

(2)计算最近一次间隔时间内平均可提供磁盘读取速率，公式如下：

平均可提供磁盘读取速率=最大可提供磁盘读取速率-平均已使用磁盘读取速率

(3)估计节点执行任务期间可提供磁盘读取速率，以此作为节点负载信息；

4)节点负载信息汇报器将节点执行任务期间可提供磁盘读取速率作为负载信息发送到集群负载信息收集器；

节点负载均衡过程包括预处理和选择副本两个阶段：

预处理阶段包括以下步骤：

1)协调器初始化节点负载数组；

2)协调器预估副本选择完成时节点负载数组的平均值，以此作为查询任务执行期间集群的平均负载量的估计值，包括以下步骤：

(1)协调器获得集群负载信息收集器估计的节点执行任务期间平均可提供的磁盘读取速率；

(2)协调器获得本次查询任务涉及的数据表的总字节量；

(3)协调器计算平均读入内存时间，公式如下：

(4)协调器预估副本选择完成时节点负载数组的平均值，公式如下：

3)协调器构造所有数据块的自由度，每个数据块自由度的计算步骤如下：

(1)协调器获得数据块的候选节点集；

同一数据块的多个副本所在的节点构成该数据块的候选节点集；

(2)协调器将候选节点集中轻负载节点的数目作为数据块的第一自由度；

负载量高于查询任务执行期间集群的平均负载量的节点是重负载节点，其他节点是轻负载节点；

(3)协调器将候选节点集中所有节点负载量之和的负值作为数据块的第二自由度；

选择副本阶段包括以下步骤：

1)协调器判断是否本次查询涉及的所有数据块已经完成副本选择；

2)协调器选择自由度最低的数据块；

数据块之间首先比较第一自由度，第一自由度最小的数据块加入候选数据块集合。如果候选数据块集合中的元素的个数大于1，则比较这些数据块的第二自由度。第二自由度最小的数据块将作为待选择副本的数据块。一般不会出现多个数据块的第一和第二自由度都相等的情况。如果出现，以数据量最大的数据块为待选择副本的数据块。如果待选数据块仍不唯一，则任选一个数据块；

3)协调器为上一步选出的数据块选择副本，选择负载量最少的节点上的副本；

4)协调器更新上一步选择的节点的负载量；

节点负载的增加量的计算公式如下：

协调器从节点负载数组中获得节点原先的负载量，加上节点负载增加量后，将节点最新负载存入节点负载数组中；

5)对于所有未选择副本的数据块，若在步骤3)选择的节点上有副本，则协调器更新该数据块的自由度；

所有未分配的且有副本在该节点的数据块需要重新计算第二自由度，若该节点由轻负载节点变成重负载节点，所有未分配的且有副本在该节点的数据块的第一自由度减1。

本发明的有益效果：本发明针对现有的大数据实时查询系统负载均衡方法过于简单且不考虑机器当前状态的问题，提出了新的基于副本选择的大数据实时查询系统负载均衡方法，本发明的优点包括：

1)负载均衡效果优于现有的大数据实时查询系统；

假设有一个自由度低的数据块，其候选节点集中只有一个节点C；有一个自由度高的数据块，其候选节点集中节点很多且包含节点C。若先为自由度高的数据块选择副本，则自由度高的数据块有一定概率选择节点C上的副本，自由度低的数据块别无选择，只能选择节点C上的副本，造成节点C负载量很大。若先为自由度低的数据块选择副本，其肯定选择节点C上的副本，则自由度高的数据块可以选择其他节点，避免出现节点C负载量过大的情况。

2)时间复杂度较小，为O(n²)，其中n为块的数目；

针对选择计划搜索空间过大的问题(若有100个数据块，每个数据块有3个副本，则搜素空间为3¹⁰⁰)，采用自由度低的数据块优先选择副本和每次选择负载量最小的节点的策略，也就是两次贪心策略，可以较快速的完成选择。

3)适用于异构分布式系统和系统中运行其他任务的情况。

针对异构分布式系统或系统中的某些节点在执行其他任务等问题，本发明预估节点未来一段时间可提供磁盘读取速率，保证负载均衡的有效性。

附图说明

图1：负载信息收集过程流程图；

图2：负载均衡过程流程图。

具体实施方式

以下结合附图对本发明做进一步的说明：

本发明分为节点负载信息收集和节点负载均衡两个过程，节点负载信息收集过程如图1所示，节点负载信息汇报器收集节点的负载信息，并将负载信息定期发送给集群负载信息收集器。协调器在负载均衡的过程中通过集群负载信息收集器获得所有节点的负载信息，并根据集群状态做出负载均衡决策。

节点负载信息收集部分的主要步骤包括：

1)节点负载信息汇报器到集群负载信息收集器注册；

节点负载信息汇报器发送节点的IP和主机名到集群负载信息收集器，集群负载信息收集器对节点的IP进行注册，创建该节点负载信息对象。该节点负载信息汇报器发送的负载信息都将存在该对象中。集群负载信息收集器还会建立从节点IP到节点主机名的映射。

2)节点负载信息汇报器获得节点最大可提供磁盘读取速率；

例如，在Linux操作系统下执行“hdparm-t／dev／sda”命令，可以获得磁盘设备的最大读取速率。

3)节点负载信息汇报器预估节点执行任务期间可提供磁盘读取速率，具体流程如下：

(1)计算最近一次间隔时间内平均已使用磁盘读取速率；

例如，在Linux操作系统下读取／proc／diskstats文件，获得磁盘设备当前已读取扇区数。该过程每隔一段时间执行一次，时间间隔根据系统规模来确定，设置较大的时间间隔能减少网络通信量，减轻集群负载信息收集器和节点负载信息汇报器的工作频率，反之能获得更多的平均已使用磁盘读取速率，可以更精确的估计节点执行任务期间平均可提供磁盘读取速率。最近一次间隔时间内平均已使用磁盘读取速率的计算公式如下：

(3)估计节点执行任务期间可提供磁盘读取速率，以此作为节点负载信息。

节点负载信息汇报器启动时刻记为t₀，间隔时间记为t，t₀+t时刻记为t₁，依次类推，t₀+n×t时刻记为t_n。(t_n-1，t_n)时间间隔内的平均磁盘可提供读取速率记为r_n(n≥1)，r_n可以由步骤(1)到步骤(3)得到。任务完成时刻记为t_f。(t_n，t_f)时间内的平均磁盘可提供读取速率记为R_n，则R_n的预估公式如下：

R_{n} = \{\begin{matrix} r_{1} & n = 1 \\ (1 - α) R_{n - 1} + {αr}_{n} & n > 1 \end{matrix}

其中，α∈(0，1)。α越接近0表示磁盘读取速率的历史情况对任务执行期间磁盘读取速率影响越大，α越接近1表示最近的磁盘读取速率对任务执行期间磁盘读取速率影响越大。具体的α值，可以根据系统规模进行调优。

4)节点负载信息汇报器将节点执行任务期间可提供磁盘读取速率作为负载信息发送到集群负载信息收集器。

所有机器上的节点负载信息汇报器均需要定时将负载信息报告给集群负载信息收集器。时间间隔根据系统规模来确定。设置较大的时间间隔能减少网络通信量，减轻集群负载信息收集器和节点负载信息汇报器的工作频率，反之，能获得更精确的各节点负载信息。当间隔时间等于计算负载的间隔时间时可以获得最高的精确度。继续缩小间隔时间并不会提高精确度。

节点负载均衡可以进一步分为预处理和选择副本两个阶段，总体流程如图2所示：

预处理阶段主要步骤包括：

1)协调器初始化节点负载数组；

因为在整个选择数据块副本的过程中，被选择的节点并没有真正开始执行读磁盘操作，所以需要负载数组记录节点负载变化。从系统中任取节点D，若在负载数组中节点D的负载为N，则表示节点D预计需要N ms(以ms为单位，既可以保证具体数值在int64_t表示范围以内，又可以保证很好的精度)完成其上分配的任务。如果选择的节点上没有部署大数据实时查询系统服务，记为节点E。那么就需要为其指派一个部署了大数据实时查询系统服务的节点，记为节点F。节点F远程请求节点E执行读磁盘操作。节点E完成读磁盘操作并将数据发送给节点F。因此，因尽量避免选择没有部署大数据实时查询系统服务的节点。但是另一方面，当某个数据块的其他副本所在的节点的负载很高时，应该选择没有部署大数据实时查询系统服务但是负载很轻的节点。为了权衡这两种情况，没有部署大数据实时查询系统服务的节点的初始负载应高于部署大数据实时查询系统服务的节点，具体数值可根据实际系统调优。

2)协调器预估副本选择完成时节点负载数组的平均值，以此作为查询任务执行期间集群的平均负载量的估计值，具体流程如下：

(2)协调器获得本次查询任务涉及的数据表的总字节量；

(3)协调器计算平均读入内存时间，公式如下：

(4)协调器预估副本选择完成时节点负载数组的平均值，公式如下所示：

协调器以该平均值作为查询任务执行期间集群的平均负载量的估计值；

(1)协调器获得数据块的候选节点集；

(3)协调器将候选节点集中所有节点负载量之和的负值作为数据块的第二自由度。

例如，集群中有ND₁，ND₂，ND₃和ND₄4个节点。ND₁的当前负载量为30000，ND₂的当前负载量为20000，ND₃的当前负载量为60000，ND₄的当前负载量为10000，预计任务分配完成之后的平均负载量为50000。数据块B_t在ND₂和ND₃有副本。因为ND₃的负载量60000高于平均负载量50000，所以ND₃为重负载节点，其他节点为轻负载节点。因为B_i的候选节点集中只有1个轻负载节点即ND₂，所以B_t的第一自由度为1，B_t的第二自由度为

-(ND₂的当前负载量+ND₃的当前负载量)=-(20000+60000)=-80000。

选择副本阶段主要步骤包括：

1)协调器判断是否本次查询涉及的所有数据块已经完成副本选择，如果是，则结束，否则，进入下一步；

2)协调器选择自由度最低的数据块；数据块之间首先比较第一自由度，第一自由度最小的数据块加入候选数据块集合。如果候选数据块集合中的元素的个数大于1，则比较这些数据块的第二自由度。第二自由度最小的数据块将作为待选择副本的数据块。一般不会出现多个数据块的第一和第二自由度都相等的情况。如果出现，以数据量最大的数据块为待选择副本的数据块。如果待选数据块仍不唯一，则任选一个数据块。

4)协调器更新上一步选择的节点的负载量；

节点负载的增加量公式如下所示：

协调器从节点负载数组中获得节点原先的负载量，加上节点负载增加量后，将节点最新负载存入节点负载数组中。

5)对于所有未选择副本的数据块，若在步骤3)选择的节点上有副本，则协调器更新该数据块的自由度，转至步骤1)。

所有未分配的且有副本在该节点的数据块需要重新计算第二自由度。若该节点由轻负载节点变成重负载节点，所有未分配的且有副本在该节点的数据块的第一自由度减1。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。