CN111522632A - 基于核聚类特征选择的Hadoop配置参数选择方法 - Google Patents

基于核聚类特征选择的Hadoop配置参数选择方法 Download PDF

Info

Publication number
CN111522632A
CN111522632A CN202010290249.6A CN202010290249A CN111522632A CN 111522632 A CN111522632 A CN 111522632A CN 202010290249 A CN202010290249 A CN 202010290249A CN 111522632 A CN111522632 A CN 111522632A
Authority
CN
China
Prior art keywords
kernel
sample
hadoop
configuration parameter
configuration parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010290249.6A
Other languages
English (en)
Inventor
刘俊
唐苏乐
徐光侠
马创
解绍词
杨敬尊
赵娟
李威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010290249.6A priority Critical patent/CN111522632A/zh
Publication of CN111522632A publication Critical patent/CN111522632A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/465Distributed object oriented systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于分布式处理系统技术领域,特别涉及一种基于核聚类特征选择的Hadoop配置参数选择方法,包括采集Hadoop平台不同配置参数的数据集;建立表示Hadoop平台配置参数的向量模型,用核宽向量表示该向量模型;基于所述核宽向量建立能反应配置参数重要性的核函数;执行核聚类算法形成聚类集合;利用梯度下降算法更新表示聚类集合中样本配置参数的核宽向量v,若v中的元素小于预先设置的阈值则将该元素删除;若相邻两时刻的核宽向量对应的配置参数集合一致则输出此时核宽向量中对应的配置参数的集合;本发明可以选择出系统中较少的重要配置参数,以减少分布式处理系统中平台管理人员的维护工作量。

Description

基于核聚类特征选择的Hadoop配置参数选择方法
技术领域
本发明属于分布式处理系统技术领域,特别涉及一种基于核聚类特征选择 的Hadoop配置参数选择方法。
背景技术
Hadoop是目前广泛使用的分布式处理系统,是基于MapReduce模型的理论 基础实现。参数优化是改善Hadoop作业性能的重要问题之一,主要源自于 MapReduce模型的配置参数多达190多个,这些配置参数主要包括I/O管理、槽 资源地分配、内存管理、并发度、map和reduce配置等。一般的Hadoop平台管 理员很难全部的理解并正确配置这些配置参数,因为完全正确地配置全部参数 使得MapReduce达到最优的性能是NP(NondeterministicPolynomially,非确定 性多项式)问题。
参数优化是达到设计目标的一种方法,通过将设计目标参数化,采用优化 方法,不断的调整设计变量,使得设计结果不断接近参数化的目标值。参数调 优是通过将一个系统或者模型中的各个配置参数进行优化组合,再配置到模型 或系统中,使得该模型或系统达到较好的性能。参数选择是参数优化中的一种 重要分支方法,其主要原理是从已存在的全部参数中选择能影响目标功能的部 分或少许参数以达到减少配置工作量的效果。
已经有许多研究主要集中在对Hadoop平台的所有配置参数全部进行调优, 即对平台中190多个配置参数寻找一个最佳的组合方案。但是,Hadoop平台的 参数太多,对所有的配置参数进行优化组合,寻求最佳方案比较困难。为此, 选择重要配置参数进行配置显得很有必要,配置参数优化是近年分布式处理系 统整体性能调优的重要研究热点之一。
目前的参数优化方法主要分为以下三种:
(1)基于模拟器的参数调优方法;例如,LiuY等人(参见文献Liu Y,Li M, Alham NK,Hammoud S.HSim:A MapReduce simulator in enabling Cloud Computing[J].FutureGeneration Computer Systems,2013,29(1):300-308.)提出了 一种基于模拟器评价的优化方法,此方法通过捕获集群中各节点、网络配置、 磁盘参数、数据置放策略和I/O等信息,并通过离散事件来模拟作业在某些配置 参数环境下的执行过程,以此来优化配置参数。但其最主要的缺点是用户仍需 要手动的调整部分参数,无法选择影响分布式处理系统作业性能的重要配置参 数,而且耗时很长。
(2)基于经验原则的参数调优方法;Kambatla K等人(参考文献Kambatla K,Pathak A,Pucha H.Towards Optimizing Hadoop Provisioning in the Cloud[C].Proceedings of the 1st USENIX Workshop on Hot Topics in Cloud Computing(HotCloud’09).San Diego,2009:156-172.)提出一种基于经验的参数调优算法。首先, 该方法利用默认的配置参数在Hadoop上执行一些典型的应用,如Testsort、 WordCount和K-means等,并记录执行过程中节点资源的使用情况。这些不同 资源的使用情况被定义为一个资源消耗集合S,并且执行典型应用生成的数据集 D将会被保存;其次,不断的调整Hadoop的配置参数,通过若干次调整就可以 找出一个作业在MapReduce中较好的参数配置方案,这些配置方案将会被保存。 再次,将需要优化参数的作业用数据集D和相同配置的参数在Hadoop上执行, 即可以得到资源消耗集合S1;最后,将集合S1和集合S中的元素按照一定的 规则进行匹配,得到的最佳的匹配项目就是对应的最佳参数配置方案。本方法 的优点是执行速度较快,实现容易,但是明显的不足是MapReduce中的配置参 数较多,并且,不能对所有的参数就进行配置和优化,无法选择影响分布式处 理系统作业性能的重要配置参数。
(3)基于机器学习的参数调优方法;Bu X等人(参考文献Bu X.Autonomicmanagement and performance optimization for cloud computing services[D].WayneState University,2013.)提出一种基于增强学习(Reinforcement Learning)的参数 优化方法,主要采用马尔可夫决策过程(Markov Decision Process,MDP)对参数 进行建模。将所有的参数配置情况定义为MDP中的状态空间,对于状态空间的 n个参数被看作是一个由n个向量构成的状态集合。并且将MDP中的行为定义 为三种:增加、减少和与其他参数相关联。但参数太多,无法选择影响分布式 处理系统作业性能的重要配置参数,会大大增加学习的时间,优化过程的效率 也有局限性。
以上方法在实际应用中,取得了较好的实践效果。然而,均存在着无法选 择影响分布式处理系统作业性能的重要配置参数的问题,加大了分布式系统管 理员的配置工作量。
发明内容
为了减少分布式系统管理员的配置工作量,本发明提出一种基于核聚类特 征选择的Hadoop配置参数选择方法,如图1,具体包括:
S1、采集Hadoop平台不同配置参数的数据集;
S2、建立表示Hadoop平台配置参数的向量模型,用核宽向量表示该向量模 型;基于所述核宽向量建立能反应配置参数重要性的核函数;
S3、设置循环条件,循环的结束条件为从Hadoop中配置参数中选择出的配 置参数集合不再发生变化;
S4、从步骤S1中收集的数据集中选取核聚类算法的初始点;
S5、将S2步骤中建立的核函数带入核聚类算法,执行核聚类算法形成聚类 集合;
S6、利用梯度下降算法更新表示聚类集合中样本配置参数的核宽向量v,若 v中的元素(vl)小于预先设置的阈值M则将该元素删除;
S7、若t时刻的核宽向量与t-1时刻的核宽向量对应的配置参数集合不一致, 则返回S5继续进行配置参数的删除;
S8、否则输出此时核宽向量中对应的配置参数的集合,得到选择的Hadoop 配置参数集合。
进一步的,采集Hadoop平台不同配置参数的数据集包括以下步骤:
S11、修改Hadoop平台的各个配置参数的数值,每次修改参数之后分别执 行CPU密集型、IO密集型和网络密集型应用程序;
S12、将采集Hadoop平台不同配置参数的数据集定义为D,D中的每一条 记录定义为R,并将R表示为:
R:(应用程序类型,配置参数1的值,配置参数2的值,…,配置参数n 的值);
其中,应用程序类型为CPU密集型、IO密集型或网络密集型。
进一步的,用核宽向量表示Hadoop平台配置参数的向量模型包括:
Figure BDA0002450117660000041
其中,σn表示Hadoop平台的配置参数n的重要程度。
进一步的,基于核宽向量建立能反应配置参数重要性的核函数包括:
Figure BDA0002450117660000042
其中,K(xi,xs,v)为基于核宽向量建立能反应配置参数重要性的核函数;v 为核宽向量;xi,xs为数据集中的两个样本。
进一步的,从收集的数据集中选取核聚类算法的初始点包括:从收集的数 据集中选取应用程序类型分别为CPU密集型、IO密集型、网络密集型三条数据 作为核聚类算法的初始点。
进一步的,采用全局感知的局部密度初始点计算算法,从收集的数据集中 选取核聚类算法的初始点,包括以下步骤:
S41、计算样本集合X={x1,x2,x3,…,xn}中每个样本是否为核心对象;
S42、将样本集合X={x1,x2,x3,…,xn}中非核心对象的样本剔除,获得 核心对象样本集合X’={x1’,x2’,x3’,…,xn’},其中n’<n;
S43、计算核心对象样本集合X’每个样本的可达密度,将形成所有样本的可 达密度集合,按照样本的可达密度按从大到小排列,可达密度集合表示为: ρ={ρ1’,ρ2’,ρ3’,…,ρn’},并用x(ρi)代表可达密度为ρi的样本点xi
S44、选择可达密度最大样本作为第一个聚类初始的中心点x(ρmax),将ρmax从可达密度集合中删除,并将可达密度集合中x(ρmax)的样本点删除,且将样 本点x(ρmax)加入聚类初始点集合;
S45、从可达密度集合中找出到聚类初始点集合中所有元素欧式距离之和最 远的样本,并且该距离之和大于样本之间的平均距离的N(C)倍,N(C)为C聚类 初始点集合中元素个数,选择该样本作为聚类另一初始中心点x(ρj);
S46、将ρj从可达密度集合中删除,并将可达密度集合中x(ρj)的样本点 删除,并将样本点可达密度集合中x(ρj)的样本点删除,且将样本点x(ρj)加 入聚类初始点集合;
S47、重复步骤S44~S46,直到选择的初始点达到预先设置的阈值,输出聚 类算法的初始点。
进一步的,执行核聚类算法形成聚类集合时,使样本到同类中心点的距离 最近,到不同类之间的距离远,且样本在不同的类中来回被选择的代价最小, 则样本选择同类中心点时,需要满足:
Figure BDA0002450117660000051
Figure BDA0002450117660000052
其中,F(v,C)是在执行聚类算法的同时执行惩罚函数来实现特征选择的目 标函数;Qv,w表示样本vi在类别Cw中被选择的代价;Q为样本在不同的类中来 回被选择的代价;f(v)为惩罚公式;λ为辅助参数;vi为hadoop平台配置参数 的核宽向量v中的第i个元素;K为聚类的个数;N为样本的数量。
进一步的,惩罚公式f(v)表示为:
Figure BDA0002450117660000053
其中,γ为惩罚参数;vj为hadoop平台配置参数的核宽向量v中的第j个 元素;n表示v的维度。
进一步的,样本vi在类别Cw中被选择的代价Qv,w表示为:
Figure BDA0002450117660000061
Figure BDA0002450117660000062
样本在不同的类中来回被选择的代价Q表示为:
Figure BDA0002450117660000063
其中,
Figure BDA0002450117660000064
为类别Ci中样本的个数;xi和xs为数据集中的两个样本;T0表示 总的迭代次数;
Figure BDA0002450117660000065
为样本xj第t次迭代的聚类中心,
Figure BDA0002450117660000066
为样本xj第t-1次迭代 的聚类中心。
本发明可以充分利用分布式处理平台Hadoop中配置参数的信息,将传统的 参数优化技术和特征选择理论相结合,达到更好的参数优化效果,尤其是选择 出系统中较少的重要配置参数,以减少分布式处理系统中平台管理人员的维护 工作量。
附图说明
图1为本发明一种基于核聚类特征选择的Hadoop配置参数选择方法流程 图;
图2为采用全局感知的局部密度初始点计算算法获得核聚类的初始点的实 施例。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造 性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明旨在解决以上现有技术的问题,提出了一种基于核聚类特征选择的Hadoop配置参数选择方法,包括以下步骤:
S1、采集Hadoop平台不同配置参数的数据集;
S2、建立表示Hadoop平台配置参数的向量模型,用核宽向量表示该向量模 型;基于所述核宽向量建立能反应配置参数重要性的核函数;
S3、设置循环条件,循环的结束条件为从Hadoop中配置参数中选择出的配 置参数集合不再发生变化;
S4、从步骤S1中收集的数据集中选取核聚类算法的初始点;
S5、将S2步骤中建立的核函数带入核聚类算法,执行核聚类算法形成聚类 集合;
S6、利用梯度下降算法更新表示聚类集合中样本配置参数的核宽向量v,若 v中的元素(vl)小于预先设置的阈值M则将该元素删除;
S7、若t时刻的核宽向量与t-1时刻的核宽向量对应的配置参数集合不一致, 则返回S5继续进行配置参数的删除;
S8、否则输出此时核宽向量中对应的配置参数的集合,得到选择的Hadoop 配置参数集合。
采集Hadoop平台不同配置参数的数据集,采集的具体步骤包括:
S11、修改Hadoop平台的各个配置参数的数值,每次修改参数之后分别执 行CPU密集型、IO密集型和网络密集型应用程序;
S12、将采集Hadoop平台不同配置参数的数据集定义为D,D中的每一条 记录定义为R,并将R表示为:
R:(应用程序类型,配置参数1的值,配置参数2的值,…,配置参数n 的值);
其中,应用程序类型为CPU密集型、IO密集型或网络密集型。
作为一个可选实施方式,在采集过程也可以表示为:
定义:采集Hadoop平台不同配置参数的数据集定义为D,D中的每一条记 录定义为R;
A:在Hadoop平台中分别执行CPU密集型、IO密集型和网络密集型应用 程序;
B:修改Hadoop平台的各个配置参数的数值,再执行步骤A;
执行完上诉步骤后,会形成一系列的数据集D,数据集的每条记录格式为:
R:(应用程序类型,配置参数1的值,配置参数1的值,…,配置参数n的 值),其中应用类型为三种类型,分别是:CPU密集型、IO密集型和网络密集 型。
步骤A中基于所述核宽向量建立能反应配置参数重要性的核函数,将核宽 向量和核函数互相结合,能从不同的维度反映配置参数的重要程度。
在本实施例中,建立表示Hadoop平台配置参数的向量模型,用核宽向量表示该 向量模型时,考虑在各向异性高斯核函数中不同的维度用不同的σj表示,不同 的σj决定了核函数的形状,并反映了样本数据中某个特征的重要程度,因此可 用该方法来评价特征的重要程度,即,特征j的重要程度由σj来决定。例如:如 果σj的值较大,那么就说明特征j的重要程度较低,因为其核函数的值趋近于0, 相反,如果它的值非常小,那么就说明其重要程度很高,因为其核函数的值很 大。本发明将σj值较大的维度删除,这样就达到配置参数选择的目的。
因此,给出了核宽向量v的生成方式:
Figure BDA0002450117660000081
即Hadoop平台的某一个配置参数可以看成核宽向量v中的一个特征,例如:hadoop平台的mapreduce.job.reduces为配置reduce数目的参数,那么mapreduce.job.reduce可以表示为σj,那么σj就可以反应mapreduce.job.reduces 这个配置参数的重要程度。
本实施在构建基于所述核宽向量建立能反应配置参数重要性的核函数时, 考虑核函数采用能从不同维度表现参数重要性的各项异性高斯核(Anistropic GaussianKernels,ANGKs),其定义为:
Figure BDA0002450117660000082
其中xi和xs为样本。核函数的形状由参数σ控制,σ被定义为一个包含n 个核宽参数的向量,n为每个样本的特征维度,具体如下:
σ=[σ123,…,σn];
因为在各向异性高斯核函数中不同的维度用不同的σj表示,不同的σj决定 了核函数的形状,反映了MapReduce模型中某个配置参数的重要程度。
所以,最终本实施例的核函数表示为:
Figure BDA0002450117660000091
本实施例采用的循环条件应能有效地控制配置参数的选择个数,因此循环 条件设置为核宽向量,循环条件的变量为核宽向量
Figure BDA0002450117660000092
循 环的结束条件为:
直到核宽向量
Figure BDA0002450117660000093
不再变化就终止循环,此时若仍然存 在不重要的配置参数,即t时刻的核宽向量与t-1时刻的核宽向量选择的配置参 数集合仍不一致时,管理员可以减小阈值M的数值。
在本实施例中,从数据集中选取核聚类算法的初始点是指从步骤S1中的采 集Hadoop平台不同配置参数的数据集D中选择3条记录。选择出3条记录的原 因是S1中的D包含三类数据。分别是:CPU密集型、IO密集型、网络密集型。 选择出的三条记录就是对应聚类算法的初始点。所述的核聚类的初始点可以有 效的减少聚类的有效性和迭代次数。
优选地,采用全局感知的局部密度初始点计算算法获得核聚类的初始点, 具体方法如下:
输入数据:集合X={x1,x2,x3,…,xn},该集合对应步骤S1数据集D中 的R。
输出数据:聚类初始点集合C。
步骤41:存在样本点集合X={x1,x2,x3,…,xn},计算每个样本是否为核 心对象,该集合会带入F(v,c)函数;
步骤42:删除样本点集合X={x1,x2,x3,…,xn}中所有的非核心对象,得 到新的核心对象样本集合X’={x1’,x2’,x3’,…,xn’},其中n’<n。删除非核心对 象就将噪声点和密度非常稀疏的点进行了排除。
步骤43:计算核心对象样本集合X’每个样本的可达密度,将形成所有样本 的可达密度集合,该集合定义为:ρ={ρ1’2’,…,ρn’}。
步骤44:将各样本的可达密度按从大到小排列,假设样本的可达密度从大 到小的顺序为:ρ={ρ12,…,ρn}。x(ρi)代表可达密度为ρi的样本点xi
步骤45:选择可达密度最大样本作为第一个聚类初始的中心点x(ρmax), 这里的max始终为1,因为进行了排序。并将ρmax从可达密度集合ρ={ρ12,…, ρn}中删除,并且从集合ρ={ρ12,…,ρn}中删除从x(ρmax)所有密度可达点 对应的ρi。同时将x(ρ1)加入集合C中。
步骤46:从集合ρ中找出到集合C中所有元素欧式距离之和最远的点,并 且该距离之大于样本之间的平均距离的N(C)倍,N(C)为C集合中元素个数,选 择该点作为聚类另一初始中心点(假设该点为x(ρj)),这样的选择方式可以保 证不同类之间的距离尽量大。选择之后将ρj从集合ρ={ρ12,…,ρn}中删除, 并删除x(ρj)所有密度可达点对应的ρi。同时将x(ρj)加入集合C中。图2举 例说明了选择欧式距离最远的点作为下一个路径初始中心点的例子,图2中的p 和q为集合c中的样本,假设ρ中剩余的样本为o和o’。从图中可以看出o到p 与q之间的距离之和小于o’到q与p之间的距离之和,所有应该选择o’加入集 合c。
步骤47:重复步骤45,46,直到所选择的初始点达到预先设置的阈值,在 本实施例中预先设置的阈值是指预先设置的聚类的类别,即选择的初始点的数 量达到聚类类别,本实施例中聚类的类别包括CPU密集型、IO密集型、网络密 集型这三类数据类型,即预先设置的阈值为3,本实施例选择的初始点数目为3。
步骤S5中的核聚类(K-means)算法在聚类的同时通过范数近似来改变核 聚类中核函数的核宽(也被称为参数),以此实现不重要配置参数的删除。
优选地,可用采用构造最小化目标函数的方法来实现,具体的构造步骤如 下:
在核K-means算法中核聚类特征选择算法中,假设样本有k类,为样本xi选择最好的一个类,那么应该满足下列不等式:
||Φ(xi)-uw||2≤||Φ(xi)-uw'||2,1≤i≤N,1≤w'≤k,1≤w≤k,w'≠w;
这里的xi与核K-means的定义一致,代表第i个样本,上述公式描述的是Φ(xi) 到类uw的距离小于到其他任何一个聚类中心uw’的距离,N为样本个数。
有效的聚类首先应尽量让样本到同类中心点的距离最近,到不同类之间的 距离远。其次,在聚类算法中应减少样本在不同的类中来回被选择的消耗,即若 样本xi在t次迭代属于Ci类,t+1次又属于Ci+1类,那么就要使得Ci类第t次的 聚类中心点到t+1次聚类中心点的距离尽量小。因此结合上面两点,提出了下面 的代价公式:
Figure BDA0002450117660000111
将上述公式变为:
Figure BDA0002450117660000112
其中:
Figure BDA0002450117660000113
Figure BDA0002450117660000114
为样本在不同的类中来回被选择的代价,所建立的目标 函数应最小化该代价,即样本xj在t时刻的聚类中心点与t-1时刻的距离尽量小, T0表示总的迭代次数;
其中,X={x1,x2,x3,…,xn}为样本集合,所有的样本点的聚类集合为C, 即被划分为的聚类为C={C1,C2,C3,…,CK},聚类的个数为K,uw为Cw类的聚类 中心,t为迭代次数。
Figure BDA0002450117660000121
为样本xj第t次迭代的聚类中心,
Figure BDA0002450117660000122
为样本xj第t-1 次迭代的聚类中心。
因此,目标函数通过惩罚核宽向量v来使得Cost(C)最小化,通过惩罚函数 删除核宽向量v不重要的核宽(对应特征),并且所选择的特征应尽量接近原始 特征的聚类效果。此外目标函数应遵守类内中样本最近和类间样本远的原则, 同时最小化样本在不同的类中来回被选择的代价。
因此建立下列最小化目标函数:
Figure BDA0002450117660000123
Figure BDA0002450117660000124
参数λ是一个预定义的参数,用于惩罚公式f(v)和代价函数,优选的,根据 其它参考文献可以设置为0.05。
惩罚公式应可以利用样本的部分特征来表达样本原有特征的特性,采用l0范数(||w||0)逼近的方法来实现。因此,惩罚公式可以定义为:
Figure BDA0002450117660000125
其中,v为n维,那么eTv<n,这里的vj是正数;γ为惩罚参数,优选的, 本发明将惩罚参数的值设置为5。
步骤S6中的梯度下降的方法是对S5步骤中的最小化目标函数执行梯度下 降的过程。梯度下降的过程也就是实现Hadoop重要配置参数的选择的过程。一 个具体的配置参数(或称为特征l)梯度下降的公式为:
Figure BDA0002450117660000126
其中
Figure BDA0002450117660000127
因此,
Figure BDA0002450117660000128
Figure BDA0002450117660000131
其中,
Figure BDA0002450117660000132
为类别Ci中样本的个数。
在本发明实施例中,步骤S6中的阈值M是一个根据经验设定数值,即为 本领域技术人员自定义的一个数值;核宽向量v中的某个元素vj也是一个数值。
在本实施例中,t时刻的核宽向量与t-1时刻的核宽向量相近似指的是t时刻 选择的配置参数集合与t-1时刻选择的配置参数集合一样。算法结束得到的结果 为选择出Hadoop平台中重要的配置参数集合。管理员可以对选择出配置参数进 行配置,而不是对所有的配置参数进行配置,从而节省工作人员配置参数的时 间。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言, 可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变 化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.基于核聚类特征选择的Hadoop配置参数选择方法,其特征在于,包括以下方法:
S1、采集Hadoop平台不同配置参数的数据集;
S2、建立表示Hadoop平台配置参数的向量模型,用核宽向量表示该向量模型;基于所述核宽向量建立能反应配置参数重要性的核函数;
S3、设置循环条件,循环的结束条件为从Hadoop中配置参数中选择出的配置参数集合不再发生变化;
S4、从步骤S1中收集的数据集中选取核聚类算法的初始点;
S5、将S2步骤中建立的核函数带入核聚类算法,执行核聚类算法形成聚类集合;
S6、利用梯度下降算法更新表示聚类集合中样本配置参数的核宽向量v,若v中的元素(vl)小于预先设置的阈值M则将该元素删除;
S7、若t时刻的核宽向量与t-1时刻的核宽向量对应的配置参数集合不一致,则返回S5继续进行配置参数的删除;
S8、否则输出此时核宽向量中对应的配置参数的集合,得到选择的Hadoop配置参数集合。
2.根据权利要求1所述的一种基于核聚类特征选择的Hadoop配置参数选择方法,其特征在于,采集Hadoop平台不同配置参数的数据集包括以下步骤:
S11、修改Hadoop平台的各个配置参数的数值,每次修改参数之后分别执行CPU密集型、IO密集型和网络密集型应用程序;
S12、将采集Hadoop平台不同配置参数的数据集定义为D,D中的每一条记录定义为R,并将R表示为:
R:(应用程序类型,配置参数1的值,配置参数2的值,…,配置参数n的值);
其中,应用程序类型为CPU密集型、IO密集型或网络密集型。
3.根据权利要求1所述的一种基于核聚类特征选择的Hadoop配置参数选择方法,其特征在于,用核宽向量表示Hadoop平台配置参数的向量模型包括:
Figure FDA0002450117650000021
其中,σn表示Hadoop平台的配置参数n的重要程度。
4.根据权利要求1所述的一种基于核聚类特征选择的Hadoop配置参数选择方法,其特征在于,基于核宽向量建立能反应配置参数重要性的核函数包括:
Figure FDA0002450117650000022
其中,K(xi,xs,v)为基于核宽向量建立能反应配置参数重要性的核函数;v为核宽向量;xi,xs为数据集中的两个样本。
5.根据权利要求1所述的一种基于核聚类特征选择的Hadoop配置参数选择方法,其特征在于,从收集的数据集中选取核聚类算法的初始点包括:从收集的数据集中选取应用程序类型分别为CPU密集型、IO密集型、网络密集型三条数据作为核聚类算法的初始点。
6.根据权利要求5所述的一种基于核聚类特征选择的Hadoop配置参数选择方法,其特征在于,采用全局感知的局部密度初始点计算算法,从收集的数据集中选取核聚类算法的初始点,包括以下步骤:
S41、计算样本集合X={x1,x2,x3,…,xn}中每个样本是否为核心对象;
S42、将样本集合X={x1,x2,x3,…,xn}中非核心对象的样本剔除,获得核心对象样本集合X’={x1’,x2’,x3’,…,xn’},其中n’<n;
S43、计算核心对象样本集合X’每个样本的可达密度,将形成所有样本的可达密度集合,按照样本的可达密度按从大到小排列,可达密度集合表示为:ρ={ρ1’,ρ2’,ρ3’,…,ρn’},并用x(ρi)代表可达密度为ρi的样本点xi
S44、选择可达密度最大样本作为第一个聚类初始的中心点x(ρmax),将ρmax从可达密度集合中删除,并将可达密度集合中x(ρmax)的样本点删除,且将样本点x(ρmax)加入聚类初始点集合;
S45、从可达密度集合中找出到聚类初始点集合中所有元素欧式距离之和最远的样本,并且该距离之和大于样本之间的平均距离的N(C)倍,N(C)为C聚类初始点集合中元素个数,选择该样本作为聚类另一初始中心点x(ρj);
S46、将ρj从可达密度集合中删除,并将可达密度集合中x(ρj)的样本点删除,并将样本点可达密度集合中x(ρj)的样本点删除,且将样本点x(ρj)加入聚类初始点集合;
S47、重复步骤S44~S46,直到选择的初始点达到预先设置的阈值,输出聚类算法的初始点。
7.根据权利要求1所述的一种基于核聚类特征选择的Hadoop配置参数选择方法,其特征在于,执行核聚类算法形成聚类集合时,使样本到同类中心点的距离最近,到不同类之间的距离远,且样本在不同的类中来回被选择的代价最小,则样本选择同类中心点时,需要满足:
Figure FDA0002450117650000031
Figure FDA0002450117650000032
其中,F(v,C)是在执行聚类算法的同时执行惩罚函数来实现特征选择的目标函数;Qv,w表示样本vi在类别Cw中被选择的代价;Q为样本在不同的类中来回被选择的代价;f(v)为惩罚公式;λ为辅助参数;vi为hadoop平台配置参数的核宽向量v中的第i个元素;K为聚类的个数;N为样本的数量。
8.根据权利要求1所述的一种基于核聚类特征选择的Hadoop配置参数选择方法,其特征在于,惩罚公式f(v)表示为:
Figure FDA0002450117650000033
其中,γ为惩罚参数;vj为hadoop平台配置参数的核宽向量v中的第j个元素;n表示v的维度;T表示转置运算。
9.根据权利要求1所述的一种基于核聚类特征选择的Hadoop配置参数选择方法,其特征在于,利用梯度下降算法更新表示聚类集合中样本配置参数的核宽向量v包括:
Figure FDA0002450117650000041
其中,
Figure FDA0002450117650000042
为求导标记;F(v,C)是在执行聚类算法的同时执行惩罚函数来实现特征选择的目标函数;Qv,w表示样本vi在类别Cw中被选择的代价;Q为样本在不同的类中来回被选择的代价;λ为辅助参数;K为聚类的个数;f(v)为惩罚公式。
10.根据权利要求7或9所述的一种基于核聚类特征选择的Hadoop配置参数选择方法,其特征在于,样本vi在类别Cw中被选择的代价Qv,w表示为:
Figure FDA0002450117650000043
Figure FDA0002450117650000044
样本在不同的类中来回被选择的代价Q表示为:
Figure FDA0002450117650000045
其中,
Figure FDA0002450117650000046
为类别Ci中样本的个数;xi和xs为数据集中的两个样本;T0表示总的迭代次数;
Figure FDA0002450117650000047
为样本xj第t次迭代的聚类中心,
Figure FDA0002450117650000048
为样本xj第t-1次迭代的聚类中心。
CN202010290249.6A 2020-04-14 2020-04-14 基于核聚类特征选择的Hadoop配置参数选择方法 Pending CN111522632A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010290249.6A CN111522632A (zh) 2020-04-14 2020-04-14 基于核聚类特征选择的Hadoop配置参数选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010290249.6A CN111522632A (zh) 2020-04-14 2020-04-14 基于核聚类特征选择的Hadoop配置参数选择方法

Publications (1)

Publication Number Publication Date
CN111522632A true CN111522632A (zh) 2020-08-11

Family

ID=71901989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010290249.6A Pending CN111522632A (zh) 2020-04-14 2020-04-14 基于核聚类特征选择的Hadoop配置参数选择方法

Country Status (1)

Country Link
CN (1) CN111522632A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114169539A (zh) * 2022-02-11 2022-03-11 阿里巴巴(中国)有限公司 模型训练方法、训练装置、电子设备和计算机可读介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150254331A1 (en) * 2008-08-08 2015-09-10 The Research Foundation For The State University Of New York System and method for pr0babilistic relational clustering
US20170124483A1 (en) * 2014-06-02 2017-05-04 Yottamine Analytics, Llc Digital Event Profile Filters Based on Cost Sensitive Support Vector Machine for Fraud Detection, Risk Rating or Electronic Transaction Classification
CN107203785A (zh) * 2017-06-02 2017-09-26 常州工学院 多路径高斯核模糊c均值聚类算法
CN110992369A (zh) * 2019-11-18 2020-04-10 天津大学 基于主动轮廓模型的手指静脉图像快速分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150254331A1 (en) * 2008-08-08 2015-09-10 The Research Foundation For The State University Of New York System and method for pr0babilistic relational clustering
US20170124483A1 (en) * 2014-06-02 2017-05-04 Yottamine Analytics, Llc Digital Event Profile Filters Based on Cost Sensitive Support Vector Machine for Fraud Detection, Risk Rating or Electronic Transaction Classification
CN107203785A (zh) * 2017-06-02 2017-09-26 常州工学院 多路径高斯核模糊c均值聚类算法
CN110992369A (zh) * 2019-11-18 2020-04-10 天津大学 基于主动轮廓模型的手指静脉图像快速分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JUN LIU等: "A Novel Configuration Tuning Method Based on Feature Selection for Hadoop MapReduce", 《IEEE ACCESS》 *
伊华伟等: "基于模糊核聚类和支持向量机的鲁棒协同推荐算法", 《电子与信息学报》 *
刘俊: "分布式数据处理系统中作业性能优化关键技术研究", 《中国优秀博硕士学位论文全文数据库(博士) 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114169539A (zh) * 2022-02-11 2022-03-11 阿里巴巴(中国)有限公司 模型训练方法、训练装置、电子设备和计算机可读介质

Similar Documents

Publication Publication Date Title
Schult et al. Dualconvmesh-net: Joint geodesic and euclidean convolutions on 3d meshes
Dong et al. A hybrid PSO/SA algorithm for bi-criteria stochastic line balancing with flexible task times and zoning constraints
CN111459617A (zh) 基于云平台的容器化应用自动分配优化系统及其方法
CN107908536B (zh) Cpu-gpu异构环境中对gpu应用的性能评估方法及系统
CN114610474B (zh) 一种异构超算环境下多策略的作业调度方法及系统
CN109471847B (zh) 一种i/o拥塞控制方法及控制系统
Wolfrath et al. Haccs: Heterogeneity-aware clustered client selection for accelerated federated learning
CN115688913A (zh) 一种云边端协同个性化联邦学习方法、系统、设备及介质
Nguyen et al. People-centric evolutionary system for dynamic production scheduling
CN104391879A (zh) 层次聚类的方法及装置
CN111428587A (zh) 人群计数及密度估计方法、装置、存储介质及终端
Saklani et al. Multicore Implementation of K-Means Clustering Algorithm
Zhang et al. Greedy orthogonal pivoting algorithm for non-negative matrix factorization
Chen et al. Autodal: Distributed active learning with automatic hyperparameter selection
CN111522632A (zh) 基于核聚类特征选择的Hadoop配置参数选择方法
CN113032367A (zh) 面向动态负载场景的大数据系统跨层配置参数协同调优方法和系统
Rostami et al. A multi-tier adaptive grid algorithm for the evolutionary multi-objective optimisation of complex problems
CN115496138A (zh) 一种基于自然邻居的自适应密度峰值聚类方法
US11676050B2 (en) Systems and methods for neighbor frequency aggregation of parametric probability distributions with decision trees using leaf nodes
CN115292361A (zh) 一种分布式能源异常数据的筛选方法及系统
CN110415162B (zh) 大数据中面向异构融合处理器的自适应图划分方法
CN115016911A (zh) 面向大规模联邦学习的任务编排方法、装置、设备和介质
CN114722490A (zh) 一种基于混合增点与区间缩减的代理模型全局优化方法
CN115686865B (zh) 一种基于多场景应用的超算节点资源分配系统
Jones et al. Maximizing Effectiveness of a High-Performance Computing Grid by Using the DASE Protocol

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200811

RJ01 Rejection of invention patent application after publication