CN108376180B

CN108376180B - 影响大数据系统性能的关键参数查找方法及装置

Info

Publication number: CN108376180B
Application number: CN201810289920.8A
Authority: CN
Inventors: 王宏志; 赵志强
Original assignee: Hit Big Data Harbin Intelligent Technology Co ltd
Current assignee: Hit Big Data Harbin Intelligent Technology Co ltd
Priority date: 2018-04-03
Filing date: 2018-04-03
Publication date: 2020-09-01
Anticipated expiration: 2038-04-03
Also published as: CN108376180A

Abstract

本发明涉及一种基于聚类分析的影响大数据系统性能的关键参数查找方法及装置，其中方法包括：将大数据系统定义为由参数(w,p,t)组成的结构，其中w为应用层的负载程序向量，p为平台层的配置参数向量，t为程序运行所需时间；提取历史工作数据，根据应用层的负载进行分类，将负载程序向量w相同的数据样本分成一类；在每类负载相同的数据样本中，按照程序运行所需时间t从大到小进行排序，得到配置参数向量p的排序，对比t值最大的n个参数向量和最小的n个参数向量，找出全部参数向量组中维度差别最大的前q％的参数。本发明采用聚类分析的方法对大数据计算系统中的参数进行排序，避免了人工寻找影响参数的难题，不仅节省了人工查找参数的时间，而且方法简单快捷。

Description

影响大数据系统性能的关键参数查找方法及装置

技术领域

本发明涉及数据处理领域，尤其涉及一种基于聚类分析的影响大数据系统性能的关键参数查找方法及装置。

背景技术

近年来，大数据探索和分析在各个领域蓬勃发展。大数据系统可分为3个层次：(1)基础层：即基础数据加工层，将硬件资源分配给支持计算任务的执行平台层，(2)平台层：即核心业务层，既为应用层提供了一个易于处理数据集的接口，又能管理基础设施层分配的资源，(3)应用层：即预测结果输出层，预测出专家决策，给出大数据分析结果。

平台层在大数据系统中起到了承上启下的作用，也是一个大数据系统的核心部分。Hadoop系统中的MapReduce(映射规约)就是平台层中的一种模型。Hadoop是一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。MapReduce是Hadoop下的一种编程模型，用于大规模数据集(大于1TB)的并行运算。他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。Hadoop的MapReduce功能实现了将单个任务打碎，并将碎片任务(即Map处理)发送到多个节点上，之后再以单个数据集的形式加载(即Reduce处理)到数据仓库里。

配置参数对MapReduce工作性能有很大的影响。优质的配置参数使MapReduce工作出色，而配置参数错误是Hadoop的MapReduce系统性能退化和导致系统失效的主要原因。因此为了帮助平台管理员优化管理系统性能，需要寻找出影响拖慢系统性能的参数，以追求更快的工作表现。由于大规模分布式系统的行为和特点过于复杂，系统中存在数百参数，主要影响系统性能的配置参数有几十个，使配置参数调优变得麻烦。传统方法中，管理员对配置参数进行逐个认知学习，根据历史经验找出拖慢系统性能的参数。这种人工方法寻找影响系统性能的参数，非常复杂繁琐，寻找参数需要消耗大量时间，并基于人工经验，且所得效果不是很好，系统整体工作需要消耗很长时间。

发明内容

本发明要解决的技术问题在于，针对现有技术中的上述缺陷，提供一种基于聚类分析的影响大数据系统性能的关键参数查找方法及装置，通过对历史工作数据的排序，得出对系统性能影响最大的参数，方便系统管理员及时调整相应参数。

本发明第一方面，提供了一种基于聚类分析的影响大数据系统性能的关键参数查找方法，包括以下步骤：

结构定义步骤、将大数据系统定义为由参数(w,p,t)组成的结构，其中w为应用层的负载程序向量，p为平台层的配置参数向量，t为程序运行所需时间；

负载分类步骤、提取历史工作数据，根据应用层的负载进行分类，将负载程序向量w相同的数据样本分成一类；

参数查找步骤、在每类负载相同的数据样本中，按照程序运行所需时间t从大到小进行排序，得到t从大到小时配置参数向量p的排序，对比t值最大的n个参数向量和最小的n个参数向量，找出全部参数向量组中维度差别最大的前q％的参数作为该类负载的影响大数据系统性能的关键参数，其中4≤n≤8，4≤q≤8。

优选地，所述应用层的负载程序向量选自以下一组参数：运行队列中的任务数、系统调用的速率、CPU上下文切换率、空闲CPU时间百分比、空闲存储器的大小和1分钟内的平均负载。

优选地，所述平台层的配置参数向量选自以下一组参数：执行映射任务的Java虚拟机大小、并行处理映射任务的最大数量、映射输出被分割的最小尺寸、参与合并的排序数据流数目、用来存储和排序映射函数产生的键值对的缓冲区大小、从存储缓冲区溢出的阈值、SortMB中存储每个映射端缓冲区键值对的部分、压缩映射输出数据、http服务器的工作线程数、执行规约任务的Java虚拟机大小、并行处理规约任务的最大数量、规约任务数量、复制阶段并行运行的规约数量、优化清洗阶段从存储缓冲到合并的触发阈值、规约任务前需要完成的映射任务比例、优化清洗阶段已复制映射输出数目触发合并的阈值、用于缓冲优化清洗阶段从映射任务复制输出的规约存储比例、用于缓冲请求规约函数时映射任务输出的规约存储比例、压缩作业的输出和每个Java虚拟机运行的任务数量。

优选地，所述参数查找步骤中对比t值最大的n个参数向量和最小的n个参数向量，找出全部参数向量组中维度差别最大的前q％的参数作为该类负载的影响大数据系统性能的关键参数的步骤具体为：

设t值最大的n个参数向量构成的向量组为P1-Pn，t值最小的n个参数向量构成的向量组为P1’-Pn’，求|P’-P|，找出全部参数向量组中维度差别最大的前q％的参数，作为该类负载的影响大数据系统性能的关键参数。

优选地，n的取值为5，q的取值为5。

本发明第二方面，提供了一种基于聚类分析的影响大数据系统性能的关键参数查找装置，包括：

结构定义模块，用于将大数据系统定义为由参数(w,p,t)组成的结构，其中w为应用层的负载程序向量，p为平台层的配置参数向量，t为程序运行所需时间；

负载分类模块，用于提取历史工作数据，根据应用层的负载进行分类，将负载程序向量w相同的数据样本分成一类；

参数查找模块，用于在每类负载相同的数据样本中，按照程序运行所需时间t从大到小进行排序，得到t从大到小时配置参数向量p的排序，对比t值最大的n个参数向量和最小的n个参数向量，找出全部参数向量组中维度差别最大的前q％的参数作为该类负载的影响大数据系统性能的关键参数，其中4≤n≤8，4≤q≤8。

优选地，所述参数查找模块设t值最大的n个参数向量构成的向量组为P1-Pn，t值最小的n个参数向量构成的向量组为P1’-Pn’，求|P’-P|，找出全部参数向量组中维度差别最大的前q％的参数，作为该类负载的影响大数据系统性能的关键参数。

实施本发明的基于聚类分析的影响大数据系统性能的关键参数查找方法及装置，具有以下有益效果：本发明采用聚类分析的方法对大数据计算系统中的参数进行排序，避免了人工寻找影响参数的难题，不仅节省了人工查找参数的时间，而且方法简单快捷，使影响系统工作参数的寻找工作既能快速完成，又能达到更好的工作效果；同时还能针对不同基础层输入数据和应用层提出的应用负载要求，得出不同的影响参数。

附图说明

图1为根据本发明优选实施例的基于聚类分析的影响大数据系统性能的关键参数查找方法流程图；

图2为根据本发明的基于聚类分析的影响大数据系统性能的关键参数查找装置的模块框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种基于聚类分析的影响大数据系统性能的关键参数查找方法，用来找出拖慢系统性能得参数，通过对历史工作数据的排序，得出对系统性能影响最大的参数，方便系统管理员及时观测，并调整相应参数，提高系统性能。

请参阅图1，为根据本发明优选实施例的基于聚类分析的影响大数据系统性能的关键参数查找方法流程图。如图1所示，该实施例提供的基于聚类分析的影响大数据系统性能的关键参数查找方法包括以下步骤：

首先，在步骤S101中，执行结构定义步骤，将大数据系统简化定义为由参数(w,p,t)组成的结构，其中w为应用层的负载程序向量，p为平台层的配置参数向量，t为程序运行所需时间，即系统性能的体现。大数据系统分为3个部分：基础设施层、平台层和应用层。其中平台层是大数据系统主要进行计算的部分，应用层则是给出输入信息和所要处理的负载应用信息，因此影响系统性能的就是应用层负载和平台层参数。

优选地，应用层的负载程序向量是根据应用层的需求给出的向量，其参数包括但不限于以下一组参数中的一个或多个：运行队列中的任务数、系统调用的速率、CPU上下文切换率、空闲CPU时间百分比、空闲存储器的大小和1分钟内的平均负载。

优选地，所述平台层的配置参数向量中的参数包括但不限于以下一组参数中的一个或多个：执行映射任务的JVM(Java虚拟机)大小(MB)、并行处理Map(映射)任务的最大数量、Map(映射)输出被分割的最小尺寸、参与合并的排序数据流数目、用来存储和排序Map(映射)函数产生的键值对的缓冲区大小(MB)、从存储缓冲区溢出的阈值、SortMB中存储每个Map(映射)端缓冲区键值对的部分、压缩Map(映射)输出数据、http服务器的工作线程数、执行规约任务的JVM大小(MB)、并行处理Reduce(规约)任务的最大数量、Reduce(规约)任务数量、复制阶段并行运行的Reduce(规约)数量、Shuffle(优化清洗)阶段从存储缓冲到合并的触发阈值、Reduce(规约)任务前需要完成的Map(映射)任务比例、Shuffle(优化清洗)阶段已复制Map(映射)输出数目触发合并的阈值、用于缓冲Shuffle(优化清洗)阶段从Map(映射)任务复制输出的Reduce(规约)存储比例、用于缓冲请求Reduce(规约)函数时Map(映射)任务输出的Reduce(规约)存储比例、压缩作业的输出和每个JVM运行的任务数量。

随后，在步骤S102中，执行负载分类步骤，提取历史工作数据，根据应用层的负载进行分类，将负载程序向量w相同的数据样本分成一类。

随后，在步骤S103中，执行参数查找步骤，在每类负载相同的数据样本中，即在相同负载类别下，按照程序运行所需时间t从大到小进行排序，得到t从大到小时配置参数向量p的排序。随后，对比t值最大的n个参数向量和最小的n个参数向量，找出全部参数向量组中维度差别最大的前q％的参数作为该类负载的影响大数据系统性能的关键参数，即拖慢系统工作进程的参数。优选地，4≤n≤8，4≤q≤8。随着大数据计算系统的运行，时间越长，系统参数带来的影响越大，参数随时间衰减，导致系统运行变慢，效果变差。因此，程序运行所需时间t越小越好，越大越差，本发明中对比与程序运行所需时间t小时相差较多的参数就是拖慢进程的参数。

优选地，该步骤中设t值最大的n个参数向量构成的向量组为P1-Pn，t值最小的n个参数向量构成的向量组为P1’-Pn’，其中各参数表示为p，求|P’-P|，找出全部参数向量组中维度差别最大的前q％的参数，作为该类负载的影响大数据系统性能的关键参数。更优选地，参数n的取值为5，q的取值为5。对其他类别负载，进行重复聚类分析排序，即可得出针对不同负载的影响大数据系统性能的关键参数。

例如，设平台层的配置参数向量p包括a、b、c……，例如a为执行映射任务的JVM(Java虚拟机)大小(MB)，b为并行处理Map(映射)任务的最大数量，c为Map(映射)输出被分割的最小尺寸等。则p＝(a,b,c,……)，设t值最大的5个参数向量构成的第一向量组为P1-P5，则：

P1＝(a₁,b₁,c₁……)，P2＝(a₂,b₂,c₂……)，…，P5＝(a₅,b₅,c₅……)；

其中a_i，b_i和c_i分别为采用的配置参数向量p_i中执行映射任务的JVM(Java虚拟机)大小、并行处理Map(映射)任务的最大数量和为Map(映射)输出被分割的最小尺寸。1≤i≤n。

t值最小的5个参数向量构成的第二向量组为P1’-P5’，则：

P1’＝(a₁’,b₁’,c₁’,……)，P2’＝(a₂’,b₂’,c₂’……)，…，P5’＝(a₅’,b₅’,c₅’……)；

找出全部参数向量组中维度差别最大的前5％的参数，即：

计算第一个参数a在第一向量组的取值和第二向量组中的取值的差值平均值，即计算a₁-a₁’，a₁-a₂’，……，a₂-a₁’，a₂-a₂’，……，a₅-a₁’，a₅-a₂’，……a₅-a₅’的平均值；同样对于其余参数b，c等同样计算其余参数在第一向量组的取值和第二向量组中取值的差值平均值。将配置参数向量p中全部参数即上参数a、b、c中差值平均值降序排列，位于前5％的参数作为该类负载的影响大数据系统性能的关键参数，例如共60个参数，按照上述方法计算差值平均值进行排序后，依次为b、c、d、a、f……，则选取位于60个参数前5％的3个参数b、c、d作为关键参数。

请参阅图2，为根据本发的基于聚类分析的影响大数据系统性能的关键参数查找装置的模块框图。如图2所示，该基于聚类分析的影响大数据系统性能的关键参数查找装置200包括：

结构定义模块201，用于将大数据系统简化定义为由参数(w,p,t)组成的结构，其中w为应用层的负载程序向量，p为平台层的配置参数向量，t为程序运行所需时间，即系统性能的体现。大数据系统分为3个部分：基础设施层、平台层和应用层。其中平台层是大数据系统主要进行计算的部分，应用层则是给出输入信息和所要处理的负载应用信息，因此影响系统性能的就是应用层负载和平台层参数。

优选地，应用层的负载程序向量中的参数包括但不限于以下一组参数中的一个或多个：运行队列中的任务数、系统调用的速率、CPU上下文切换率、空闲CPU时间百分比、空闲存储器的大小和1分钟内的平均负载。

负载分类模块202，与结构定义模块201相连，用于提取历史工作数据，根据应用层的负载进行分类，将负载程序向量w相同的数据样本分成一类。

参数查找模块203，与负载分类模块202相连，用于在每类负载相同的数据样本中，即在相同负载类别下，按照程序运行所需时间t从大到小进行排序，得到t从大到小时配置参数向量p的排序。随后，对比t值最大的n个参数向量和最小的n个参数向量，找出全部参数向量组中维度差别最大的前q％的参数作为该类负载的影响大数据系统性能的关键参数，即拖慢系统工作进程的参数。优选地，4≤n≤8，4≤q≤8。

优选地，该参数查找模块203设t值最大的n个参数向量构成的向量组为P1-Pn，t值最小的n个参数向量构成的向量组为P1’-Pn’，求|P’-P|，找出全部参数向量组中维度差别最大的前5％的参数，作为该类负载的影响大数据系统性能的关键参数。更优选地，参数n的取值为5，q的取值为5。对其他类别负载，进行重复聚类分析排序，即可得出针对不同负载的影响大数据系统性能的关键参数。

综上所述，本发明提出一种基于聚类分析的方法，用来找出拖慢系统性能得参数，通过对历史工作数据的排序，得出对系统性能影响最大的参数，方便系统管理员及时观测，并调整相应参数，提高系统性能。采用本方法来发现影响大数据系统性能的参数，采用聚类分析的方法对大数据计算系统中的参数进行排序，避免了人工寻找影响参数的难题，通过对历史参数的分析。不仅节省了人工查找参数的时间，而且方法简单快捷，使影响系统工作参数的寻找工作既能快速完成，又能达到更好的工作效果。还能针对不同基础层输入数据和应用层提出的应用负载要求，得出不同的影响参数。

应该理解地是，本发明的基于聚类分析的影响大数据系统性能的关键参数查找方法与装置的原理和实现方式相同，因此对基于聚类分析的影响大数据系统性能的关键参数查找方法的具体实施例的阐述也适用于基于聚类分析的影响大数据系统性能的关键参数查找装置。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于聚类分析的影响大数据系统性能的关键参数查找方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于聚类分析的影响大数据系统性能的关键参数查找方法，其特征在于，所述应用层的负载程序向量选自以下一组参数：运行队列中的任务数、系统调用的速率、CPU上下文切换率、空闲CPU时间百分比、空闲存储器的大小和1分钟内的平均负载。

3.根据权利要求1所述的基于聚类分析的影响大数据系统性能的关键参数查找方法，其特征在于，所述平台层的配置参数向量选自以下一组参数：执行映射任务的Java虚拟机大小、并行处理映射任务的最大数量、映射输出被分割的最小尺寸、参与合并的排序数据流数目、用来存储和排序映射函数产生的键值对的缓冲区大小、从存储缓冲区溢出的阈值、排序缓冲区中存储每个映射端缓冲区键值对的部分、压缩映射输出数据、http服务器的工作线程数、执行规约任务的Java虚拟机大小、并行处理规约任务的最大数量、规约任务数量、复制阶段并行运行的规约数量、优化清洗阶段从存储缓冲到合并的触发阈值、规约任务前需要完成的映射任务比例、优化清洗阶段已复制映射输出数目触发合并的阈值、用于缓冲优化清洗阶段从映射任务复制输出的规约存储比例、用于缓冲请求规约函数时映射任务输出的规约存储比例、压缩作业的输出和每个Java虚拟机运行的任务数量。

4.根据权利要求1～3中任一项所述的基于聚类分析的影响大数据系统性能的关键参数查找方法，其特征在于，所述参数查找步骤中对比t值最大的n个参数向量和最小的n个参数向量，找出全部参数向量组中维度差别最大的前q％的参数作为该类负载的影响大数据系统性能的关键参数的步骤具体为：

设t值最大的n个参数向量构成的向量组为P1-Pn，t值最小的n个参数向量构成的向量组为P1’-Pn’，求|Pi’-Pi|，其中i＝1,2,…,n ，找出全部参数向量组中维度差别最大的前q％的参数，作为该类负载的影响大数据系统性能的关键参数。

5.根据权利要求4所述的基于聚类分析的影响大数据系统性能的关键参数查找方法，其特征在于，n的取值为5，q的取值为5。

6.一种基于聚类分析的影响大数据系统性能的关键参数查找装置，其特征在于，包括：

7.根据权利要求6所述的基于聚类分析的影响大数据系统性能的关键参数查找装置，其特征在于，所述应用层的负载程序向量选自以下一组参数：运行队列中的任务数、系统调用的速率、CPU上下文切换率、空闲CPU时间百分比、空闲存储器的大小和1分钟内的平均负载。

8.根据权利要求6所述的基于聚类分析的影响大数据系统性能的关键参数查找装置，其特征在于，所述平台层的配置参数向量选自以下一组参数：执行映射任务的Java虚拟机大小、并行处理映射任务的最大数量、映射输出被分割的最小尺寸、参与合并的排序数据流数目、用来存储和排序映射函数产生的键值对的缓冲区大小、从存储缓冲区溢出的阈值、排序缓冲区中存储每个映射端缓冲区键值对的部分、压缩映射输出数据、http服务器的工作线程数、执行规约任务的Java虚拟机大小、并行处理规约任务的最大数量、规约任务数量、复制阶段并行运行的规约数量、优化清洗阶段从存储缓冲到合并的触发阈值、规约任务前需要完成的映射任务比例、优化清洗阶段已复制映射输出数目触发合并的阈值、用于缓冲优化清洗阶段从映射任务复制输出的规约存储比例、用于缓冲请求规约函数时映射任务输出的规约存储比例、压缩作业的输出和每个Java虚拟机运行的任务数量。

9.根据权利要求6～8中任一项所述的基于聚类分析的影响大数据系统性能的关键参数查找装置，其特征在于，所述参数查找模块：设t值最大的n个参数向量构成的向量组为P1-Pn，t值最小的n个参数向量构成的向量组为P1’-Pn’，求|Pi’-Pi|，其中i＝1,2,…,n，找出全部参数向量组中维度差别最大的前q％的参数，作为该类负载的影响大数据系统性能的关键参数。

10.根据权利要求9所述的基于聚类分析的影响大数据系统性能的关键参数查找装置，其特征在于，所述参数查找模块使用的参数n的取值为5，q的取值为5。