CN106095646A

CN106095646A - 基于多元线性回归模型的Hadoop集群节点性能计算方法

Info

Publication number: CN106095646A
Application number: CN201610482799.1A
Authority: CN
Inventors: 司宽社; 王球; 曾庆云
Original assignee: Jiangsu Dina Digital Technology Co Ltd
Current assignee: Jiangsu Dina Digital Technology Co Ltd
Priority date: 2016-06-27
Filing date: 2016-06-27
Publication date: 2016-11-09

Abstract

本发明提出了一种基于多元线性回归模型的Hadoop集群节点性能计算方法，包括如下步骤：建立节点性能和磁盘的I/O性能、内存性能和节点的CPU处理能力之间的线性回归模型；计算线性回归模型矩阵；获得偏回归系数估计量矩阵；计算节点的性能值，并通过性能值校验公式，校验该节点的性能值。本发明提出一种基于多元线性回归模型的Hadoop集群节点性能计算方法，所提出线性回归模型中自变量的值由基准性能测试工具得到，避免了直接用硬件参数参数值计算性能会带来误差的问题。

Description

基于多元线性回归模型的Hadoop集群节点性能计算方法

技术领域

本发明涉及节点性能技术领域，特别涉及一种基于多元线性回归模型的Hadoop集群节点性能计算方法。

背景技术

异构Hadoop集群是指节点之间性能差异较为明显的集群，为了更好地利用各节点的能力，实现集群中的能者多劳，需要有效评价各节点的性能。在Hadoop集群性能问题的研究中，因变量的变化往往受几个重要因素的影响，此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化，因此需要多元回归对问题进行分析。当多个自变量与因变量之间是线性关系时，所进行的回归分析就是多元性回归。

基准测试是指通过设计科学的测试方法、测试工具和测试系统，实现对一类测试对象的某项性能指标进行定量的和可对比的测试。例如，对计算机CPU进行浮点运算、数据访问的带宽和延迟等指标的基准测试，可以使用户清楚地了解每一款CPU的运算性能及作业吞吐能力是否满足应用程序的要求。不同的性能测试工具其测试结果会有较大不同，所以直接使用基准测试工具的结果作为节点的性能值是不可靠的。

王永洲等人提出了一种根据硬件参数来直接计算节点性能的方法，参数包括CPU主频、机器字长、内存大小、外存储器的容量和磁盘读写速度，为每个参数设定一个权重值，各参数的权重值和为1。将各参数与其权重值的乘积加和，即得到节点的性能值。这种计算方法较为简便，但是仅从硬件配置无法准确地衡量服务器性能。譬如说，两台同样配置的计算机，一台是新出厂，而另一台已使用五年之久，则后者性能会下降很多，故两者之间依然存在性能差异，所以仅根据硬件参数来衡量节点性能是不可靠的。

如中国专利CN 102929667 A的发明专利，该发明提供一种hadoop集群性能的优化方法，然而，该发明采用硬件参数的参数值来计算性能，其误差大，可靠性不好的问题。

发明内容

本发明的目的旨在至少解决所述技术缺陷之一。

为此，本发明的目的在于提出一种误差小的基于多元线性回归模型的Hadoop集群节点性能计算方法。

为了实现上述目的，本发明提供一种基于多元线性回归模型的Hadoop集群节点性能计算方法，包括如下步骤：

步骤S1，根据节点性能值、磁盘性能值、内存性能值、CPU性能值的特点，建立节点性能和磁盘的I/O性能、内存性能和节点的CPU处理能力之间的线性回归模型；

步骤S2，根据线性回归模型，计算线性回归模型矩阵；

步骤S3，根据多个节点执行基准测试工具以及分析节点日志信息，获得多组节点性能值、磁盘性能值、内存性能值、CPU性能值，将上述获得的性能值作为多元回归模型的样本数据，使用最小二乘法计算线性回归模型中的偏回归系数，获得偏回归系数估计量矩阵；

步骤S4，将偏回归系数估计量矩阵中的偏回归系数估计量代入线性回归模型中，计算节点的性能值，并通过性能值校验公式，校验该节点的性能值。

优选的，在步骤S1中，所述线性回归模型为：

F_i＝β₁+β₂D_i+β₃M_i+β₄C_i+e

其中，用F_i表示节点i的性能值，D_i表示磁盘性能值，M_i表示内存性能值，C_i表示CPU性能值，e表示机器的运行时间、老化程度以及机器所处机房的室温灰尘等不可控因素，β₁、β₂、β₃和β₄为偏回归系数，β₂为当计算机的内存和CPU不变时，其磁盘I/O能力每增加一个单位对节点性能值F_i的效应，β₃和β₄同理；将D_i、M_i和C_i视为自变量，将e视为方差。

优选的，在步骤S2中，所述线性回归模型矩阵为：

[\begin{matrix} F_{1} \\ F_{2} \\ ... \\ F_{n} \end{matrix}] = [\begin{matrix} 1 & D_{1} & M_{1} & C_{1} \\ 1 & D_{2} & M_{2} & C_{2} \\ ... & ... & ... & ... \\ 1 & D_{n} & M_{n} & C_{n} \end{matrix}] \times [\begin{matrix} β_{1} \\ β_{2} \\ β_{3} \\ β_{4} \end{matrix}] + [\begin{matrix} e_{1} \\ e_{2} \\ ... \\ e_{n} \end{matrix}] .

优选的，在步骤S3中，计算偏回归系数值包括以下步骤：

首先，使用下面的公式进行计算节点i的性能值：

公式为：

F_{i} = \frac{E_{j = 1}^{m} t_{j}}{m * S}

其中，i表示要计算的节点，m表示节点i在时间t_j内完成的任务数，t_j表示任务j执行的时间，S是一个常量，代表输入数据块的大小；

其次，用多个节点执行基准测试工具以及分析节点日志信息，获得多组F_i、D_i、M_i和C_i的值，这些值即为多元回归模型的样本数据；

接着，根据样本数据，用最小二乘法对线性回归模型矩阵的多元回归模型进行参数估计，所谓最小二乘法，就是根据样本数据构造合适的估计量和使得方差e_i的平方和最小；

最后，获得偏回归系数估计量的矩阵为：

\hat{β} = {(X^{'} X)}^{- 1} X^{'} Y

其中X为：Y为：且X'X满秩，当n≥4，样本容量不少于待估计参数个数。

优选的，在步骤S4中，校验节点的性能值校验公式为：

T_i/T_j＝F_i/F_j,(1≤i,j≤N,i≠j)

其中，j表示节点不为i的任意节点，T_S来表示此作业总的map任务数，T_i来表示节点i所完成的map任务数；因为Hadoop里每个map所处理的任务的数据量大小一致，所以T_i也可以表示节点i在一个作业的map运行时间内所处理的数据量大小；在理想情况下，T_i与F_i为线性关系；

T_i与T_S之间的关系公式如下：

Σ_{i = 1}^{N} T_{i} = T_{s}

当上述性能值校验公式对于集群中任意两节点都成立时，表示由上述线性回归模型计算出的节点性能值与实验所得节点性能值一致，则该性能值对于当前Hadoop应用场景是可接受的。

优选的，在步骤S4中，在实际应用中由于各种各样的细微差别以及Hadoop分配作业的机制十分复杂，所以上述性能值校验公式等号两边的值不一定精确地相等；

由此在上述性能值校验公式中，添加了一个结果容忍度阈值h，则改进后的性能值校验公式为：

F_i/F_j*(1-h)≤T_i/T_j≤F_i/F_j*(1+h),(1≤i,j≤N,i≠j)

其中，T_i表示节点i每次所完成的map任务数的平均值；T_j表示节点j每次所完成的map任务数的平均值；j表示节点不为i的任意节点。

优选的，所述结果容忍度阈值h值定位5％，即改进后的性能值校验公式允许误差范围为5％。

本发明提出一种基于多元线性回归模型的Hadoop集群节点性能计算方法，所提出线性回归模型中自变量的值由基准性能测试工具得到，避免了直接用硬件参数参数值计算性能会带来误差的问题。该方法使用最小二乘法计算线性回归模型中的偏回归系数，保证了系数的可靠性，从而使最终计算的节点性能值更加可信。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明的整体流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本发明提供一种基于多元线性回归模型的Hadoop集群节点性能计算方法，参考附图1，包括如下步骤：

本发明对Hadoop集群中节点性能进行计算时，主要关注磁盘读写速率、内存的随机访问存取速率以及CPU的运算速率三个参数，用F_i表示节点i的性能值，D_i表示磁盘性能值，M_i表示内存性能值，C_i表示CPU性能值，e表示机器的运行时间、老化程度以及机器所处机房的室温灰尘等不可控因素，将D_i、M_i和C_i视为自变量，将e视为方差。

其有如下特点：

(1)F_i会随着D_i、M_i和C_i线性变化，即因变量和三个自变量之间分别存在线性关系。

(2)计算机的硬件配置是由其厂商的配置表决定的，一台计算机的各硬件并不相互依赖，因此其中一个硬件的性能值并不能用其他几个硬件性能值的线性表达式进行表示，即自变量间不存在多重线性关系。

(3)节点性能的随机干扰项之间无自相关性，有类似白噪声的特性，其服从高斯分布。

(4)计算机的随机干扰项和各硬件性能之无关，即方差e和各自变量不相关。且e的大小不随变量取值水平的改变而改变，即方差存在齐性。

以上几种特点符合多元线性回归模型的条件，因此可以建立节点性能和磁盘的I/O性能、内存性能和节点的CPU处理能力之间的线性回归模型。

线性回归模型公式为：

F_i＝β₁+β₂D_i+β₃M_i+β₄C_i+e，(1)

其中，β₁、β₂、β₃和β₄为偏回归系数，β₂为当计算机的内存和CPU不变时，其磁盘I/O能力每增加一个单位对节点性能值F_i的效应，β₃和β₄同理。

步骤S2，根据线性回归模型，计算线性回归模型矩阵；

线性回归模型矩阵为：

[\begin{matrix} F_{1} \\ F_{2} \\ ... \\ F_{n} \end{matrix}] = [\begin{matrix} 1 & D_{1} & M_{1} & C_{1} \\ 1 & D_{2} & M_{2} & C_{2} \\ ... & ... & ... & ... \\ 1 & D_{n} & M_{n} & C_{n} \end{matrix}] \times [\begin{matrix} β_{1} \\ β_{2} \\ β_{3} \\ β_{4} \end{matrix}] + [\begin{matrix} e_{1} \\ e_{2} \\ ... \\ e_{n} \end{matrix}], - - - (2)

上述矩阵可以用来求β₁、β₂、β₃和β₄的值，在公式(2)中，要想求偏回归系数的值，需要先有F_i、D_i、M_i和C_i的值，D_i、M_i和C_i可以用计算机基准测量工具获得。

步骤S3，根据多个节点执行基准测试工具以及分析节点日志信息，获得多组节点性能值、磁盘性能值、内存性能值、CPU性能值，将上述获得的性能值作为多元回归模型的样本数据，使用最小二乘法计算线性回归模型中的偏回归系数，获得偏回归系数估计量矩阵。

计算偏回归系数值包括以下步骤：

首先，使用下面的公式进行计算节点i的性能值：

公式为：

F_{i} = \frac{E_{j = 1}^{m} t_{j}}{m * S}, - - - (3)

其中，i表示要计算的节点，m表示节点i在时间t_j内完成的任务数，t_j表示任务j执行的时间，S是一个常量，代表输入数据块的大小。

其次，用多个节点执行基准测试工具以及分析节点日志信息，获得多组F_i、D_i、M_i和C_i的值，这些值即为多元回归模型的样本数据。

接着，根据样本数据，用最小二乘法对线性回归模型矩阵的多元回归模型进行参数估计，所谓最小二乘法，就是根据样本数据构造合适的估计量和使得方差e_i的平方和最小；需要指出的是，要想求得偏回归系数，样本容量要不少于待估计参数个数。

最后，获得偏回归系数估计量的矩阵为：

\hat{β} = {(X^{'} X)}^{- 1} X^{'} Y, - - - (4)

其中X为：Y为：且X'X满秩，当n≥4，样本容量不少于待估计参数个数。有了偏回归系数的估计量，可以用其代替偏回归系数来根据公式(1)直接计算节点的性能值F_i，而不再需要通过在节点上运行作业的繁复方法。

校验节点的性能值校验公式为：

T_i/T_j＝F_i/F_j,(1≤i,j≤N,i≠j)，(5)

T_i与T_S之间的关系公式如下：

Σ_{i = 1}^{N} T_{i} = T_{s}, - - - (6)

在实际应用中由于各种各样的细微差别以及Hadoop分配作业的机制十分复杂，所以上述性能值校验公式等号两边的值不一定精确地相等；

由此在上述性能值校验公式中，添加了一个结果容忍度阈值h，结果容忍度阈值h值定位5％，即改进后的性能值校验公式允许误差范围为5％。

则改进后的性能值校验公式为：

F_i/F_j*(1-h)≤T_i/T_j≤F_i/F_j*(1+h),(1≤i,j≤N,i≠j)，(7)

在实验验证服务器节点性能时，以公式7作为基准测试工具测量结果的检验标准。需要指出的是，应该在集群中对同一作业运行多次，然后将节点i每次所完成的map任务数的平均值作为T_i，以降低一两次作业的误差对结果带来的影响。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求极其等同限定。

Claims

1.一种基于多元线性回归模型的Hadoop集群节点性能计算方法，其特征在于，包括如下步骤：

步骤S2，根据线性回归模型，计算线性回归模型矩阵；

2.如权利要求1所述的一种基于多元线性回归模型的Hadoop集群节点性能计算方法，其特征在于：在步骤S1中，所述线性回归模型为：

F_i＝β₁+β₂D_i+β₃M_i+β₄C_i+e

3.如权利要求1所述的一种基于多元线性回归模型的Hadoop集群节点性能计算方法，其特征在于：在步骤S2中，所述线性回归模型矩阵为：

[\begin{matrix} F_{1} \\ F_{2} \\ ... \\ F_{n} \end{matrix}] = [\begin{matrix} 1 & D_{1} & M_{1} & C_{1} \\ 1 & D_{2} & M_{2} & C_{2} \\ ... & ... & ... & ... \\ 1 & D_{n} & M_{n} & C_{n} \end{matrix}] \times [\begin{matrix} β_{1} \\ β_{2} \\ β_{3} \\ β_{4} \end{matrix}] + [\begin{matrix} e_{1} \\ e_{2} \\ ... \\ e_{n} \end{matrix}] .

4.如权利要求1所述的一种基于多元线性回归模型的Hadoop集群节点性能计算方法，其特征在于：在步骤S3中，计算偏回归系数值包括以下步骤：

首先，使用下面的公式进行计算节点i的性能值：

公式为：

F_{i} = \frac{E_{j = 1}^{m} t_{j}}{m * S}

最后，获得偏回归系数估计量的矩阵为：

\hat{β} = {(X^{'} X)}^{- 1} X^{'} Y

5.如权利要求1所述的一种基于多元线性回归模型的Hadoop集群节点性能计算方法，其特征在于：在步骤S4中，校验节点的性能值校验公式为：

T_i/T_j＝F_i/F_j,(1≤i,j≤N,i≠j)

T_i与T_S之间的关系公式如下：

Σ_{i = 1}^{N} T_{i} = T_{s}

6.如权利要求5所述的一种基于多元线性回归模型的Hadoop集群节点性能计算方法，其特征在于：在步骤S4中，在实际应用中由于各种各样的细微差别以及Hadoop分配作业的机制十分复杂，所以上述性能值校验公式等号两边的值不一定精确地相等；

F_i/F_j*(1-h)≤T_i/T_j≤F_i/F_j*(1+h),(1≤i,j≤N,i≠j)

7.如权利要求6所述的一种基于多元线性回归模型的Hadoop集群节点性能计算方法，其特征在于：所述结果容忍度阈值h值定位5％，即改进后的性能值校验公式允许误差范围为5％。