CN108376180B - 影响大数据系统性能的关键参数查找方法及装置 - Google Patents

影响大数据系统性能的关键参数查找方法及装置 Download PDF

Info

Publication number
CN108376180B
CN108376180B CN201810289920.8A CN201810289920A CN108376180B CN 108376180 B CN108376180 B CN 108376180B CN 201810289920 A CN201810289920 A CN 201810289920A CN 108376180 B CN108376180 B CN 108376180B
Authority
CN
China
Prior art keywords
parameters
parameter
value
big data
load
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810289920.8A
Other languages
English (en)
Other versions
CN108376180A (zh
Inventor
王宏志
赵志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hit Big Data Harbin Intelligent Technology Co ltd
Original Assignee
Hit Big Data Harbin Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hit Big Data Harbin Intelligent Technology Co ltd filed Critical Hit Big Data Harbin Intelligent Technology Co ltd
Priority to CN201810289920.8A priority Critical patent/CN108376180B/zh
Publication of CN108376180A publication Critical patent/CN108376180A/zh
Application granted granted Critical
Publication of CN108376180B publication Critical patent/CN108376180B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于聚类分析的影响大数据系统性能的关键参数查找方法及装置,其中方法包括:将大数据系统定义为由参数(w,p,t)组成的结构,其中w为应用层的负载程序向量,p为平台层的配置参数向量,t为程序运行所需时间;提取历史工作数据,根据应用层的负载进行分类,将负载程序向量w相同的数据样本分成一类;在每类负载相同的数据样本中,按照程序运行所需时间t从大到小进行排序,得到配置参数向量p的排序,对比t值最大的n个参数向量和最小的n个参数向量,找出全部参数向量组中维度差别最大的前q%的参数。本发明采用聚类分析的方法对大数据计算系统中的参数进行排序,避免了人工寻找影响参数的难题,不仅节省了人工查找参数的时间,而且方法简单快捷。

Description

影响大数据系统性能的关键参数查找方法及装置
技术领域
本发明涉及数据处理领域,尤其涉及一种基于聚类分析的影响大数据系统性能的关键参数查找方法及装置。
背景技术
近年来,大数据探索和分析在各个领域蓬勃发展。大数据系统可分为3个层次:(1)基础层:即基础数据加工层,将硬件资源分配给支持计算任务的执行平台层,(2)平台层:即核心业务层,既为应用层提供了一个易于处理数据集的接口,又能管理基础设施层分配的资源,(3)应用层:即预测结果输出层,预测出专家决策,给出大数据分析结果。
平台层在大数据系统中起到了承上启下的作用,也是一个大数据系统的核心部分。Hadoop系统中的MapReduce(映射规约)就是平台层中的一种模型。Hadoop是一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。MapReduce是Hadoop下的一种编程模型,用于大规模数据集(大于1TB)的并行运算。他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(即Map处理)发送到多个节点上,之后再以单个数据集的形式加载(即Reduce处理)到数据仓库里。
配置参数对MapReduce工作性能有很大的影响。优质的配置参数使MapReduce工作出色,而配置参数错误是Hadoop的MapReduce系统性能退化和导致系统失效的主要原因。因此为了帮助平台管理员优化管理系统性能,需要寻找出影响拖慢系统性能的参数,以追求更快的工作表现。由于大规模分布式系统的行为和特点过于复杂,系统中存在数百参数,主要影响系统性能的配置参数有几十个,使配置参数调优变得麻烦。传统方法中,管理员对配置参数进行逐个认知学习,根据历史经验找出拖慢系统性能的参数。这种人工方法寻找影响系统性能的参数,非常复杂繁琐,寻找参数需要消耗大量时间,并基于人工经验,且所得效果不是很好,系统整体工作需要消耗很长时间。
发明内容
本发明要解决的技术问题在于,针对现有技术中的上述缺陷,提供一种基于聚类分析的影响大数据系统性能的关键参数查找方法及装置,通过对历史工作数据的排序,得出对系统性能影响最大的参数,方便系统管理员及时调整相应参数。
本发明第一方面,提供了一种基于聚类分析的影响大数据系统性能的关键参数查找方法,包括以下步骤:
结构定义步骤、将大数据系统定义为由参数(w,p,t)组成的结构,其中w为应用层的负载程序向量,p为平台层的配置参数向量,t为程序运行所需时间;
负载分类步骤、提取历史工作数据,根据应用层的负载进行分类,将负载程序向量w相同的数据样本分成一类;
参数查找步骤、在每类负载相同的数据样本中,按照程序运行所需时间t从大到小进行排序,得到t从大到小时配置参数向量p的排序,对比t值最大的n个参数向量和最小的n个参数向量,找出全部参数向量组中维度差别最大的前q%的参数作为该类负载的影响大数据系统性能的关键参数,其中4≤n≤8,4≤q≤8。
优选地,所述应用层的负载程序向量选自以下一组参数:运行队列中的任务数、系统调用的速率、CPU上下文切换率、空闲CPU时间百分比、空闲存储器的大小和1分钟内的平均负载。
优选地,所述平台层的配置参数向量选自以下一组参数:执行映射任务的Java虚拟机大小、并行处理映射任务的最大数量、映射输出被分割的最小尺寸、参与合并的排序数据流数目、用来存储和排序映射函数产生的键值对的缓冲区大小、从存储缓冲区溢出的阈值、SortMB中存储每个映射端缓冲区键值对的部分、压缩映射输出数据、http服务器的工作线程数、执行规约任务的Java虚拟机大小、并行处理规约任务的最大数量、规约任务数量、复制阶段并行运行的规约数量、优化清洗阶段从存储缓冲到合并的触发阈值、规约任务前需要完成的映射任务比例、优化清洗阶段已复制映射输出数目触发合并的阈值、用于缓冲优化清洗阶段从映射任务复制输出的规约存储比例、用于缓冲请求规约函数时映射任务输出的规约存储比例、压缩作业的输出和每个Java虚拟机运行的任务数量。
优选地,所述参数查找步骤中对比t值最大的n个参数向量和最小的n个参数向量,找出全部参数向量组中维度差别最大的前q%的参数作为该类负载的影响大数据系统性能的关键参数的步骤具体为:
设t值最大的n个参数向量构成的向量组为P1-Pn,t值最小的n个参数向量构成的向量组为P1’-Pn’,求|P’-P|,找出全部参数向量组中维度差别最大的前q%的参数,作为该类负载的影响大数据系统性能的关键参数。
优选地,n的取值为5,q的取值为5。
本发明第二方面,提供了一种基于聚类分析的影响大数据系统性能的关键参数查找装置,包括:
结构定义模块,用于将大数据系统定义为由参数(w,p,t)组成的结构,其中w为应用层的负载程序向量,p为平台层的配置参数向量,t为程序运行所需时间;
负载分类模块,用于提取历史工作数据,根据应用层的负载进行分类,将负载程序向量w相同的数据样本分成一类;
参数查找模块,用于在每类负载相同的数据样本中,按照程序运行所需时间t从大到小进行排序,得到t从大到小时配置参数向量p的排序,对比t值最大的n个参数向量和最小的n个参数向量,找出全部参数向量组中维度差别最大的前q%的参数作为该类负载的影响大数据系统性能的关键参数,其中4≤n≤8,4≤q≤8。
优选地,所述参数查找模块设t值最大的n个参数向量构成的向量组为P1-Pn,t值最小的n个参数向量构成的向量组为P1’-Pn’,求|P’-P|,找出全部参数向量组中维度差别最大的前q%的参数,作为该类负载的影响大数据系统性能的关键参数。
实施本发明的基于聚类分析的影响大数据系统性能的关键参数查找方法及装置,具有以下有益效果:本发明采用聚类分析的方法对大数据计算系统中的参数进行排序,避免了人工寻找影响参数的难题,不仅节省了人工查找参数的时间,而且方法简单快捷,使影响系统工作参数的寻找工作既能快速完成,又能达到更好的工作效果;同时还能针对不同基础层输入数据和应用层提出的应用负载要求,得出不同的影响参数。
附图说明
图1为根据本发明优选实施例的基于聚类分析的影响大数据系统性能的关键参数查找方法流程图;
图2为根据本发明的基于聚类分析的影响大数据系统性能的关键参数查找装置的模块框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种基于聚类分析的影响大数据系统性能的关键参数查找方法,用来找出拖慢系统性能得参数,通过对历史工作数据的排序,得出对系统性能影响最大的参数,方便系统管理员及时观测,并调整相应参数,提高系统性能。
请参阅图1,为根据本发明优选实施例的基于聚类分析的影响大数据系统性能的关键参数查找方法流程图。如图1所示,该实施例提供的基于聚类分析的影响大数据系统性能的关键参数查找方法包括以下步骤:
首先,在步骤S101中,执行结构定义步骤,将大数据系统简化定义为由参数(w,p,t)组成的结构,其中w为应用层的负载程序向量,p为平台层的配置参数向量,t为程序运行所需时间,即系统性能的体现。大数据系统分为3个部分:基础设施层、平台层和应用层。其中平台层是大数据系统主要进行计算的部分,应用层则是给出输入信息和所要处理的负载应用信息,因此影响系统性能的就是应用层负载和平台层参数。
优选地,应用层的负载程序向量是根据应用层的需求给出的向量,其参数包括但不限于以下一组参数中的一个或多个:运行队列中的任务数、系统调用的速率、CPU上下文切换率、空闲CPU时间百分比、空闲存储器的大小和1分钟内的平均负载。
优选地,所述平台层的配置参数向量中的参数包括但不限于以下一组参数中的一个或多个:执行映射任务的JVM(Java虚拟机)大小(MB)、并行处理Map(映射)任务的最大数量、Map(映射)输出被分割的最小尺寸、参与合并的排序数据流数目、用来存储和排序Map(映射)函数产生的键值对的缓冲区大小(MB)、从存储缓冲区溢出的阈值、SortMB中存储每个Map(映射)端缓冲区键值对的部分、压缩Map(映射)输出数据、http服务器的工作线程数、执行规约任务的JVM大小(MB)、并行处理Reduce(规约)任务的最大数量、Reduce(规约)任务数量、复制阶段并行运行的Reduce(规约)数量、Shuffle(优化清洗)阶段从存储缓冲到合并的触发阈值、Reduce(规约)任务前需要完成的Map(映射)任务比例、Shuffle(优化清洗)阶段已复制Map(映射)输出数目触发合并的阈值、用于缓冲Shuffle(优化清洗)阶段从Map(映射)任务复制输出的Reduce(规约)存储比例、用于缓冲请求Reduce(规约)函数时Map(映射)任务输出的Reduce(规约)存储比例、压缩作业的输出和每个JVM运行的任务数量。
随后,在步骤S102中,执行负载分类步骤,提取历史工作数据,根据应用层的负载进行分类,将负载程序向量w相同的数据样本分成一类。
随后,在步骤S103中,执行参数查找步骤,在每类负载相同的数据样本中,即在相同负载类别下,按照程序运行所需时间t从大到小进行排序,得到t从大到小时配置参数向量p的排序。随后,对比t值最大的n个参数向量和最小的n个参数向量,找出全部参数向量组中维度差别最大的前q%的参数作为该类负载的影响大数据系统性能的关键参数,即拖慢系统工作进程的参数。优选地,4≤n≤8,4≤q≤8。随着大数据计算系统的运行,时间越长,系统参数带来的影响越大,参数随时间衰减,导致系统运行变慢,效果变差。因此,程序运行所需时间t越小越好,越大越差,本发明中对比与程序运行所需时间t小时相差较多的参数就是拖慢进程的参数。
优选地,该步骤中设t值最大的n个参数向量构成的向量组为P1-Pn,t值最小的n个参数向量构成的向量组为P1’-Pn’,其中各参数表示为p,求|P’-P|,找出全部参数向量组中维度差别最大的前q%的参数,作为该类负载的影响大数据系统性能的关键参数。更优选地,参数n的取值为5,q的取值为5。对其他类别负载,进行重复聚类分析排序,即可得出针对不同负载的影响大数据系统性能的关键参数。
例如,设平台层的配置参数向量p包括a、b、c……,例如a为执行映射任务的JVM(Java虚拟机)大小(MB),b为并行处理Map(映射)任务的最大数量,c为Map(映射)输出被分割的最小尺寸等。则p=(a,b,c,……),设t值最大的5个参数向量构成的第一向量组为P1-P5,则:
P1=(a1,b1,c1……),P2=(a2,b2,c2……),…,P5=(a5,b5,c5……);
其中ai,bi和ci分别为采用的配置参数向量pi中执行映射任务的JVM(Java虚拟机)大小、并行处理Map(映射)任务的最大数量和为Map(映射)输出被分割的最小尺寸。1≤i≤n。
t值最小的5个参数向量构成的第二向量组为P1’-P5’,则:
P1’=(a1’,b1’,c1’,……),P2’=(a2’,b2’,c2’……),…,P5’=(a5’,b5’,c5’……);
找出全部参数向量组中维度差别最大的前5%的参数,即:
计算第一个参数a在第一向量组的取值和第二向量组中的取值的差值平均值,即计算a1-a1’,a1-a2’,……,a2-a1’,a2-a2’,……,a5-a1’,a5-a2’,……a5-a5’的平均值;同样对于其余参数b,c等同样计算其余参数在第一向量组的取值和第二向量组中取值的差值平均值。将配置参数向量p中全部参数即上参数a、b、c中差值平均值降序排列,位于前5%的参数作为该类负载的影响大数据系统性能的关键参数,例如共60个参数,按照上述方法计算差值平均值进行排序后,依次为b、c、d、a、f……,则选取位于60个参数前5%的3个参数b、c、d作为关键参数。
请参阅图2,为根据本发的基于聚类分析的影响大数据系统性能的关键参数查找装置的模块框图。如图2所示,该基于聚类分析的影响大数据系统性能的关键参数查找装置200包括:
结构定义模块201,用于将大数据系统简化定义为由参数(w,p,t)组成的结构,其中w为应用层的负载程序向量,p为平台层的配置参数向量,t为程序运行所需时间,即系统性能的体现。大数据系统分为3个部分:基础设施层、平台层和应用层。其中平台层是大数据系统主要进行计算的部分,应用层则是给出输入信息和所要处理的负载应用信息,因此影响系统性能的就是应用层负载和平台层参数。
优选地,应用层的负载程序向量中的参数包括但不限于以下一组参数中的一个或多个:运行队列中的任务数、系统调用的速率、CPU上下文切换率、空闲CPU时间百分比、空闲存储器的大小和1分钟内的平均负载。
优选地,所述平台层的配置参数向量中的参数包括但不限于以下一组参数中的一个或多个:执行映射任务的JVM(Java虚拟机)大小(MB)、并行处理Map(映射)任务的最大数量、Map(映射)输出被分割的最小尺寸、参与合并的排序数据流数目、用来存储和排序Map(映射)函数产生的键值对的缓冲区大小(MB)、从存储缓冲区溢出的阈值、SortMB中存储每个Map(映射)端缓冲区键值对的部分、压缩Map(映射)输出数据、http服务器的工作线程数、执行规约任务的JVM大小(MB)、并行处理Reduce(规约)任务的最大数量、Reduce(规约)任务数量、复制阶段并行运行的Reduce(规约)数量、Shuffle(优化清洗)阶段从存储缓冲到合并的触发阈值、Reduce(规约)任务前需要完成的Map(映射)任务比例、Shuffle(优化清洗)阶段已复制Map(映射)输出数目触发合并的阈值、用于缓冲Shuffle(优化清洗)阶段从Map(映射)任务复制输出的Reduce(规约)存储比例、用于缓冲请求Reduce(规约)函数时Map(映射)任务输出的Reduce(规约)存储比例、压缩作业的输出和每个JVM运行的任务数量。
负载分类模块202,与结构定义模块201相连,用于提取历史工作数据,根据应用层的负载进行分类,将负载程序向量w相同的数据样本分成一类。
参数查找模块203,与负载分类模块202相连,用于在每类负载相同的数据样本中,即在相同负载类别下,按照程序运行所需时间t从大到小进行排序,得到t从大到小时配置参数向量p的排序。随后,对比t值最大的n个参数向量和最小的n个参数向量,找出全部参数向量组中维度差别最大的前q%的参数作为该类负载的影响大数据系统性能的关键参数,即拖慢系统工作进程的参数。优选地,4≤n≤8,4≤q≤8。
优选地,该参数查找模块203设t值最大的n个参数向量构成的向量组为P1-Pn,t值最小的n个参数向量构成的向量组为P1’-Pn’,求|P’-P|,找出全部参数向量组中维度差别最大的前5%的参数,作为该类负载的影响大数据系统性能的关键参数。更优选地,参数n的取值为5,q的取值为5。对其他类别负载,进行重复聚类分析排序,即可得出针对不同负载的影响大数据系统性能的关键参数。
综上所述,本发明提出一种基于聚类分析的方法,用来找出拖慢系统性能得参数,通过对历史工作数据的排序,得出对系统性能影响最大的参数,方便系统管理员及时观测,并调整相应参数,提高系统性能。采用本方法来发现影响大数据系统性能的参数,采用聚类分析的方法对大数据计算系统中的参数进行排序,避免了人工寻找影响参数的难题,通过对历史参数的分析。不仅节省了人工查找参数的时间,而且方法简单快捷,使影响系统工作参数的寻找工作既能快速完成,又能达到更好的工作效果。还能针对不同基础层输入数据和应用层提出的应用负载要求,得出不同的影响参数。
应该理解地是,本发明的基于聚类分析的影响大数据系统性能的关键参数查找方法与装置的原理和实现方式相同,因此对基于聚类分析的影响大数据系统性能的关键参数查找方法的具体实施例的阐述也适用于基于聚类分析的影响大数据系统性能的关键参数查找装置。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于聚类分析的影响大数据系统性能的关键参数查找方法,其特征在于,包括以下步骤:
结构定义步骤、将大数据系统定义为由参数(w,p,t)组成的结构,其中w为应用层的负载程序向量,p为平台层的配置参数向量,t为程序运行所需时间;
负载分类步骤、提取历史工作数据,根据应用层的负载进行分类,将负载程序向量w相同的数据样本分成一类;
参数查找步骤、在每类负载相同的数据样本中,按照程序运行所需时间t从大到小进行排序,得到t从大到小时配置参数向量p的排序,对比t值最大的n个参数向量和最小的n个参数向量,找出全部参数向量组中维度差别最大的前q%的参数作为该类负载的影响大数据系统性能的关键参数,其中4≤n≤8,4≤q≤8。
2.根据权利要求1所述的基于聚类分析的影响大数据系统性能的关键参数查找方法,其特征在于,所述应用层的负载程序向量选自以下一组参数:运行队列中的任务数、系统调用的速率、CPU上下文切换率、空闲CPU时间百分比、空闲存储器的大小和1分钟内的平均负载。
3.根据权利要求1所述的基于聚类分析的影响大数据系统性能的关键参数查找方法,其特征在于,所述平台层的配置参数向量选自以下一组参数:执行映射任务的Java虚拟机大小、并行处理映射任务的最大数量、映射输出被分割的最小尺寸、参与合并的排序数据流数目、用来存储和排序映射函数产生的键值对的缓冲区大小、从存储缓冲区溢出的阈值、排序缓冲区中存储每个映射端缓冲区键值对的部分、压缩映射输出数据、http服务器的工作线程数、执行规约任务的Java虚拟机大小、并行处理规约任务的最大数量、规约任务数量、复制阶段并行运行的规约数量、优化清洗阶段从存储缓冲到合并的触发阈值、规约任务前需要完成的映射任务比例、优化清洗阶段已复制映射输出数目触发合并的阈值、用于缓冲优化清洗阶段从映射任务复制输出的规约存储比例、用于缓冲请求规约函数时映射任务输出的规约存储比例、压缩作业的输出和每个Java虚拟机运行的任务数量。
4.根据权利要求1~3中任一项所述的基于聚类分析的影响大数据系统性能的关键参数查找方法,其特征在于,所述参数查找步骤中对比t值最大的n个参数向量和最小的n个参数向量,找出全部参数向量组中维度差别最大的前q%的参数作为该类负载的影响大数据系统性能的关键参数的步骤具体为:
设t值最大的n个参数向量构成的向量组为P1-Pn,t值最小的n个参数向量构成的向量组为P1’-Pn’,求|Pi’-Pi|,其中i=1,2,…,n ,找出全部参数向量组中维度差别最大的前q%的参数,作为该类负载的影响大数据系统性能的关键参数。
5.根据权利要求4所述的基于聚类分析的影响大数据系统性能的关键参数查找方法,其特征在于,n的取值为5,q的取值为5。
6.一种基于聚类分析的影响大数据系统性能的关键参数查找装置,其特征在于,包括:
结构定义模块,用于将大数据系统定义为由参数(w,p,t)组成的结构,其中w为应用层的负载程序向量,p为平台层的配置参数向量,t为程序运行所需时间;
负载分类模块,用于提取历史工作数据,根据应用层的负载进行分类,将负载程序向量w相同的数据样本分成一类;
参数查找模块,用于在每类负载相同的数据样本中,按照程序运行所需时间t从大到小进行排序,得到t从大到小时配置参数向量p的排序,对比t值最大的n个参数向量和最小的n个参数向量,找出全部参数向量组中维度差别最大的前q%的参数作为该类负载的影响大数据系统性能的关键参数,其中4≤n≤8,4≤q≤8。
7.根据权利要求6所述的基于聚类分析的影响大数据系统性能的关键参数查找装置,其特征在于,所述应用层的负载程序向量选自以下一组参数:运行队列中的任务数、系统调用的速率、CPU上下文切换率、空闲CPU时间百分比、空闲存储器的大小和1分钟内的平均负载。
8.根据权利要求6所述的基于聚类分析的影响大数据系统性能的关键参数查找装置,其特征在于,所述平台层的配置参数向量选自以下一组参数:执行映射任务的Java虚拟机大小、并行处理映射任务的最大数量、映射输出被分割的最小尺寸、参与合并的排序数据流数目、用来存储和排序映射函数产生的键值对的缓冲区大小、从存储缓冲区溢出的阈值、排序缓冲区中存储每个映射端缓冲区键值对的部分、压缩映射输出数据、http服务器的工作线程数、执行规约任务的Java虚拟机大小、并行处理规约任务的最大数量、规约任务数量、复制阶段并行运行的规约数量、优化清洗阶段从存储缓冲到合并的触发阈值、规约任务前需要完成的映射任务比例、优化清洗阶段已复制映射输出数目触发合并的阈值、用于缓冲优化清洗阶段从映射任务复制输出的规约存储比例、用于缓冲请求规约函数时映射任务输出的规约存储比例、压缩作业的输出和每个Java虚拟机运行的任务数量。
9.根据权利要求6~8中任一项所述的基于聚类分析的影响大数据系统性能的关键参数查找装置,其特征在于,所述参数查找模块:设t值最大的n个参数向量构成的向量组为P1-Pn,t值最小的n个参数向量构成的向量组为P1’-Pn’,求|Pi’-Pi|,其中i=1,2,…,n,找出全部参数向量组中维度差别最大的前q%的参数,作为该类负载的影响大数据系统性能的关键参数。
10.根据权利要求9所述的基于聚类分析的影响大数据系统性能的关键参数查找装置,其特征在于,所述参数查找模块使用的参数n的取值为5,q的取值为5。
CN201810289920.8A 2018-04-03 2018-04-03 影响大数据系统性能的关键参数查找方法及装置 Active CN108376180B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810289920.8A CN108376180B (zh) 2018-04-03 2018-04-03 影响大数据系统性能的关键参数查找方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810289920.8A CN108376180B (zh) 2018-04-03 2018-04-03 影响大数据系统性能的关键参数查找方法及装置

Publications (2)

Publication Number Publication Date
CN108376180A CN108376180A (zh) 2018-08-07
CN108376180B true CN108376180B (zh) 2020-09-01

Family

ID=63031919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810289920.8A Active CN108376180B (zh) 2018-04-03 2018-04-03 影响大数据系统性能的关键参数查找方法及装置

Country Status (1)

Country Link
CN (1) CN108376180B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284283A (zh) * 2018-11-07 2019-01-29 西安交通大学城市学院 影响大数据系统性能的关键参数查找方法
CN112068933B (zh) * 2020-09-02 2021-08-10 成都鱼泡科技有限公司 一种实时分布式数据监听方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750780A (zh) * 2015-03-04 2015-07-01 北京航空航天大学 一种基于统计分析的Hadoop配置参数优化方法
CN106202431A (zh) * 2016-07-13 2016-12-07 华中科技大学 一种基于机器学习的Hadoop参数自动调优方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7509337B2 (en) * 2005-07-05 2009-03-24 International Business Machines Corporation System and method for selecting parameters for data mining modeling algorithms in data mining applications

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750780A (zh) * 2015-03-04 2015-07-01 北京航空航天大学 一种基于统计分析的Hadoop配置参数优化方法
CN106202431A (zh) * 2016-07-13 2016-12-07 华中科技大学 一种基于机器学习的Hadoop参数自动调优方法及系统

Also Published As

Publication number Publication date
CN108376180A (zh) 2018-08-07

Similar Documents

Publication Publication Date Title
Chen et al. Machine learning-based configuration parameter tuning on hadoop system
CN113010302B (zh) 量子-经典混合架构下多任务调度方法、系统及量子计算机系统架构
WO2015196911A1 (zh) 数据挖掘方法和节点
US9477512B2 (en) Task-based modeling for parallel data integration
US20140351820A1 (en) Apparatus and method for managing stream processing tasks
US9251155B1 (en) Maintaining sort order of data in databases
CN104199739B (zh) 一种基于负载均衡的推测式Hadoop调度方法
CN112789607A (zh) 自动选择并行化程度以在数据库系统中高效执行查询的方法
US11675515B2 (en) Intelligent partitioning engine for cluster computing
CN108376180B (zh) 影响大数据系统性能的关键参数查找方法及装置
CN111190753A (zh) 分布式任务处理方法、装置、存储介质和计算机设备
CN112948066A (zh) 一种基于异构资源的Spark任务调度方法
US11693876B2 (en) Efficient shared bulk loading into optimized storage
US20210081250A1 (en) Intelligent resource allocation agent for cluster computing
Pimpley et al. Towards Optimal Resource Allocation for Big Data Analytics.
US8667008B2 (en) Search request control apparatus and search request control method
Audibert et al. A case for disaggregation of ml data processing
CN114519006A (zh) 测试方法、装置、设备以及存储介质
CN104915430B (zh) 一种基于MapReduce的约束关系粗糙集规则获取方法
CN117687774A (zh) 用于算力调度的任务模型训练方法及算力调度方法和系统
CN110245022B (zh) 海量数据下并行Skyline处理方法及系统
CN113608858A (zh) 一种基于MapReduce架构的数据同步用块任务执行系统
CN112463334A (zh) 一种训练任务排队原因分析方法、系统、设备以及介质
Lee et al. Performance analysis of big data ETL process over CPU-GPU heterogeneous architectures
Marinho et al. LABAREDA: a predictive and elastic load balancing service for cloud-replicated databases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant