CN111522632A

CN111522632A - 基于核聚类特征选择的Hadoop配置参数选择方法

Info

Publication number: CN111522632A
Application number: CN202010290249.6A
Authority: CN
Inventors: 刘俊; 唐苏乐; 徐光侠; 马创; 解绍词; 杨敬尊; 赵娟; 李威
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2020-08-11

Abstract

本发明属于分布式处理系统技术领域，特别涉及一种基于核聚类特征选择的Hadoop配置参数选择方法，包括采集Hadoop平台不同配置参数的数据集；建立表示Hadoop平台配置参数的向量模型，用核宽向量表示该向量模型；基于所述核宽向量建立能反应配置参数重要性的核函数；执行核聚类算法形成聚类集合；利用梯度下降算法更新表示聚类集合中样本配置参数的核宽向量v，若v中的元素小于预先设置的阈值则将该元素删除；若相邻两时刻的核宽向量对应的配置参数集合一致则输出此时核宽向量中对应的配置参数的集合；本发明可以选择出系统中较少的重要配置参数，以减少分布式处理系统中平台管理人员的维护工作量。

Description

基于核聚类特征选择的Hadoop配置参数选择方法

技术领域

本发明属于分布式处理系统技术领域，特别涉及一种基于核聚类特征选择的Hadoop配置参数选择方法。

背景技术

Hadoop是目前广泛使用的分布式处理系统，是基于MapReduce模型的理论基础实现。参数优化是改善Hadoop作业性能的重要问题之一，主要源自于 MapReduce模型的配置参数多达190多个，这些配置参数主要包括I/O管理、槽资源地分配、内存管理、并发度、map和reduce配置等。一般的Hadoop平台管理员很难全部的理解并正确配置这些配置参数，因为完全正确地配置全部参数使得MapReduce达到最优的性能是NP(NondeterministicPolynomially，非确定性多项式)问题。

参数优化是达到设计目标的一种方法，通过将设计目标参数化，采用优化方法，不断的调整设计变量，使得设计结果不断接近参数化的目标值。参数调优是通过将一个系统或者模型中的各个配置参数进行优化组合，再配置到模型或系统中，使得该模型或系统达到较好的性能。参数选择是参数优化中的一种重要分支方法，其主要原理是从已存在的全部参数中选择能影响目标功能的部分或少许参数以达到减少配置工作量的效果。

已经有许多研究主要集中在对Hadoop平台的所有配置参数全部进行调优，即对平台中190多个配置参数寻找一个最佳的组合方案。但是，Hadoop平台的参数太多，对所有的配置参数进行优化组合，寻求最佳方案比较困难。为此，选择重要配置参数进行配置显得很有必要，配置参数优化是近年分布式处理系统整体性能调优的重要研究热点之一。

目前的参数优化方法主要分为以下三种：

(1)基于模拟器的参数调优方法；例如，LiuY等人(参见文献Liu Y,Li M, Alham NK,Hammoud S.HSim:A MapReduce simulator in enabling Cloud Computing[J].FutureGeneration Computer Systems,2013,29(1):300-308.)提出了一种基于模拟器评价的优化方法，此方法通过捕获集群中各节点、网络配置、磁盘参数、数据置放策略和I/O等信息，并通过离散事件来模拟作业在某些配置参数环境下的执行过程，以此来优化配置参数。但其最主要的缺点是用户仍需要手动的调整部分参数，无法选择影响分布式处理系统作业性能的重要配置参数，而且耗时很长。

(2)基于经验原则的参数调优方法；Kambatla K等人(参考文献Kambatla K,Pathak A,Pucha H.Towards Optimizing Hadoop Provisioning in the Cloud[C].Proceedings of the 1st USENIX Workshop on Hot Topics in Cloud Computing(HotCloud’09).San Diego,2009:156-172.)提出一种基于经验的参数调优算法。首先，该方法利用默认的配置参数在Hadoop上执行一些典型的应用，如Testsort、 WordCount和K-means等，并记录执行过程中节点资源的使用情况。这些不同资源的使用情况被定义为一个资源消耗集合S，并且执行典型应用生成的数据集 D将会被保存；其次，不断的调整Hadoop的配置参数，通过若干次调整就可以找出一个作业在MapReduce中较好的参数配置方案，这些配置方案将会被保存。再次，将需要优化参数的作业用数据集D和相同配置的参数在Hadoop上执行，即可以得到资源消耗集合S1；最后，将集合S1和集合S中的元素按照一定的规则进行匹配，得到的最佳的匹配项目就是对应的最佳参数配置方案。本方法的优点是执行速度较快，实现容易，但是明显的不足是MapReduce中的配置参数较多，并且，不能对所有的参数就进行配置和优化，无法选择影响分布式处理系统作业性能的重要配置参数。

(3)基于机器学习的参数调优方法；Bu X等人(参考文献Bu X.Autonomicmanagement and performance optimization for cloud computing services[D].WayneState University,2013.)提出一种基于增强学习(Reinforcement Learning)的参数优化方法，主要采用马尔可夫决策过程(Markov Decision Process，MDP)对参数进行建模。将所有的参数配置情况定义为MDP中的状态空间，对于状态空间的 n个参数被看作是一个由n个向量构成的状态集合。并且将MDP中的行为定义为三种：增加、减少和与其他参数相关联。但参数太多，无法选择影响分布式处理系统作业性能的重要配置参数，会大大增加学习的时间，优化过程的效率也有局限性。

以上方法在实际应用中，取得了较好的实践效果。然而，均存在着无法选择影响分布式处理系统作业性能的重要配置参数的问题，加大了分布式系统管理员的配置工作量。

发明内容

为了减少分布式系统管理员的配置工作量，本发明提出一种基于核聚类特征选择的Hadoop配置参数选择方法，如图1，具体包括：

S1、采集Hadoop平台不同配置参数的数据集；

S2、建立表示Hadoop平台配置参数的向量模型，用核宽向量表示该向量模型；基于所述核宽向量建立能反应配置参数重要性的核函数；

S3、设置循环条件，循环的结束条件为从Hadoop中配置参数中选择出的配置参数集合不再发生变化；

S4、从步骤S1中收集的数据集中选取核聚类算法的初始点；

S5、将S2步骤中建立的核函数带入核聚类算法，执行核聚类算法形成聚类集合；

S6、利用梯度下降算法更新表示聚类集合中样本配置参数的核宽向量v，若 v中的元素(v_l)小于预先设置的阈值M则将该元素删除；

S7、若t时刻的核宽向量与t-1时刻的核宽向量对应的配置参数集合不一致，则返回S5继续进行配置参数的删除；

S8、否则输出此时核宽向量中对应的配置参数的集合，得到选择的Hadoop 配置参数集合。

进一步的，采集Hadoop平台不同配置参数的数据集包括以下步骤：

S11、修改Hadoop平台的各个配置参数的数值，每次修改参数之后分别执行CPU密集型、IO密集型和网络密集型应用程序；

S12、将采集Hadoop平台不同配置参数的数据集定义为D，D中的每一条记录定义为R，并将R表示为：

R：(应用程序类型，配置参数1的值，配置参数2的值，…，配置参数n 的值)；

其中，应用程序类型为CPU密集型、IO密集型或网络密集型。

进一步的，用核宽向量表示Hadoop平台配置参数的向量模型包括：

其中，σ_n表示Hadoop平台的配置参数n的重要程度。

进一步的，基于核宽向量建立能反应配置参数重要性的核函数包括：

其中，K(x_i,x_s,v)为基于核宽向量建立能反应配置参数重要性的核函数；v 为核宽向量；x_i,x_s为数据集中的两个样本。

进一步的，从收集的数据集中选取核聚类算法的初始点包括：从收集的数据集中选取应用程序类型分别为CPU密集型、IO密集型、网络密集型三条数据作为核聚类算法的初始点。

进一步的，采用全局感知的局部密度初始点计算算法，从收集的数据集中选取核聚类算法的初始点，包括以下步骤：

S41、计算样本集合X＝{x₁，x₂，x₃，…，x_n}中每个样本是否为核心对象；

S42、将样本集合X＝{x₁，x₂，x₃，…，x_n}中非核心对象的样本剔除，获得核心对象样本集合X’＝{x_1’，x_2’，x_3’，…，x_n’}，其中n’<n；

S43、计算核心对象样本集合X’每个样本的可达密度，将形成所有样本的可达密度集合，按照样本的可达密度按从大到小排列，可达密度集合表示为： ρ＝{ρ_1’，ρ_2’，ρ_3’，…，ρ_n’}，并用x(ρ_i)代表可达密度为ρ_i的样本点x_i；

S44、选择可达密度最大样本作为第一个聚类初始的中心点x(ρ_max)，将ρ_max从可达密度集合中删除，并将可达密度集合中x(ρ_max)的样本点删除，且将样本点x(ρ_max)加入聚类初始点集合；

S45、从可达密度集合中找出到聚类初始点集合中所有元素欧式距离之和最远的样本，并且该距离之和大于样本之间的平均距离的N(C)倍，N(C)为C聚类初始点集合中元素个数，选择该样本作为聚类另一初始中心点x(ρ_j)；

S46、将ρ_j从可达密度集合中删除，并将可达密度集合中x(ρ_j)的样本点删除，并将样本点可达密度集合中x(ρ_j)的样本点删除，且将样本点x(ρ_j)加入聚类初始点集合；

S47、重复步骤S44～S46，直到选择的初始点达到预先设置的阈值，输出聚类算法的初始点。

进一步的，执行核聚类算法形成聚类集合时，使样本到同类中心点的距离最近，到不同类之间的距离远，且样本在不同的类中来回被选择的代价最小，则样本选择同类中心点时，需要满足：

其中，F(v,C)是在执行聚类算法的同时执行惩罚函数来实现特征选择的目标函数；Q_v,w表示样本v_i在类别C_w中被选择的代价；Q为样本在不同的类中来回被选择的代价；f(v)为惩罚公式；λ为辅助参数；v_i为hadoop平台配置参数的核宽向量v中的第i个元素；K为聚类的个数；N为样本的数量。

进一步的，惩罚公式f(v)表示为：

其中，γ为惩罚参数；v_j为hadoop平台配置参数的核宽向量v中的第j个元素；n表示v的维度。

进一步的，样本v_i在类别C_w中被选择的代价Q_v,w表示为：

样本在不同的类中来回被选择的代价Q表示为：

其中，

为类别C_i中样本的个数；x_i和x_s为数据集中的两个样本；T₀表示总的迭代次数；

为样本x_j第t次迭代的聚类中心，

为样本x_j第t-1次迭代的聚类中心。

本发明可以充分利用分布式处理平台Hadoop中配置参数的信息，将传统的参数优化技术和特征选择理论相结合，达到更好的参数优化效果，尤其是选择出系统中较少的重要配置参数，以减少分布式处理系统中平台管理人员的维护工作量。

附图说明

图1为本发明一种基于核聚类特征选择的Hadoop配置参数选择方法流程图；

图2为采用全局感知的局部密度初始点计算算法获得核聚类的初始点的实施例。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明旨在解决以上现有技术的问题，提出了一种基于核聚类特征选择的Hadoop配置参数选择方法，包括以下步骤：

S1、采集Hadoop平台不同配置参数的数据集；

S4、从步骤S1中收集的数据集中选取核聚类算法的初始点；

采集Hadoop平台不同配置参数的数据集，采集的具体步骤包括：

其中，应用程序类型为CPU密集型、IO密集型或网络密集型。

作为一个可选实施方式，在采集过程也可以表示为：

定义：采集Hadoop平台不同配置参数的数据集定义为D，D中的每一条记录定义为R；

A：在Hadoop平台中分别执行CPU密集型、IO密集型和网络密集型应用程序；

B：修改Hadoop平台的各个配置参数的数值，再执行步骤A；

执行完上诉步骤后，会形成一系列的数据集D，数据集的每条记录格式为：

R：(应用程序类型，配置参数1的值，配置参数1的值，…,配置参数n的值)，其中应用类型为三种类型，分别是：CPU密集型、IO密集型和网络密集型。

步骤A中基于所述核宽向量建立能反应配置参数重要性的核函数，将核宽向量和核函数互相结合，能从不同的维度反映配置参数的重要程度。

在本实施例中，建立表示Hadoop平台配置参数的向量模型，用核宽向量表示该向量模型时，考虑在各向异性高斯核函数中不同的维度用不同的σ_j表示，不同的σ_j决定了核函数的形状，并反映了样本数据中某个特征的重要程度，因此可用该方法来评价特征的重要程度，即，特征j的重要程度由σ_j来决定。例如：如果σ_j的值较大，那么就说明特征j的重要程度较低，因为其核函数的值趋近于0，相反，如果它的值非常小，那么就说明其重要程度很高，因为其核函数的值很大。本发明将σ_j值较大的维度删除，这样就达到配置参数选择的目的。

因此，给出了核宽向量v的生成方式：

即Hadoop平台的某一个配置参数可以看成核宽向量v中的一个特征，例如：hadoop平台的mapreduce.job.reduces为配置reduce数目的参数，那么mapreduce.job.reduce可以表示为σ_j，那么σ_j就可以反应mapreduce.job.reduces 这个配置参数的重要程度。

本实施在构建基于所述核宽向量建立能反应配置参数重要性的核函数时，考虑核函数采用能从不同维度表现参数重要性的各项异性高斯核(Anistropic GaussianKernels,ANGKs),其定义为：

其中x_i和x_s为样本。核函数的形状由参数σ控制，σ被定义为一个包含n 个核宽参数的向量，n为每个样本的特征维度，具体如下：

σ＝[σ₁,σ₂,σ₃,…,σ_n]；

因为在各向异性高斯核函数中不同的维度用不同的σ_j表示，不同的σ_j决定了核函数的形状，反映了MapReduce模型中某个配置参数的重要程度。

所以，最终本实施例的核函数表示为：

本实施例采用的循环条件应能有效地控制配置参数的选择个数，因此循环条件设置为核宽向量，循环条件的变量为核宽向量

循环的结束条件为：

直到核宽向量

不再变化就终止循环，此时若仍然存在不重要的配置参数，即t时刻的核宽向量与t-1时刻的核宽向量选择的配置参数集合仍不一致时，管理员可以减小阈值M的数值。

在本实施例中，从数据集中选取核聚类算法的初始点是指从步骤S1中的采集Hadoop平台不同配置参数的数据集D中选择3条记录。选择出3条记录的原因是S1中的D包含三类数据。分别是：CPU密集型、IO密集型、网络密集型。选择出的三条记录就是对应聚类算法的初始点。所述的核聚类的初始点可以有效的减少聚类的有效性和迭代次数。

优选地，采用全局感知的局部密度初始点计算算法获得核聚类的初始点，具体方法如下：

输入数据：集合X＝{x₁，x₂，x₃，…，x_n}，该集合对应步骤S1数据集D中的R。

输出数据：聚类初始点集合C。

步骤41：存在样本点集合X＝{x₁，x₂，x₃，…，x_n}，计算每个样本是否为核心对象，该集合会带入F(v,c)函数；

步骤42：删除样本点集合X＝{x₁，x₂，x₃，…，x_n}中所有的非核心对象，得到新的核心对象样本集合X’＝{x_1’，x_2’，x_3’，…，x_n’},其中n’<n。删除非核心对象就将噪声点和密度非常稀疏的点进行了排除。

步骤43：计算核心对象样本集合X’每个样本的可达密度，将形成所有样本的可达密度集合，该集合定义为：ρ＝{ρ_1’,ρ_2’,…,ρ_n’}。

步骤44：将各样本的可达密度按从大到小排列，假设样本的可达密度从大到小的顺序为：ρ＝{ρ₁,ρ₂,…,ρ_n}。x(ρ_i)代表可达密度为ρ_i的样本点x_i。

步骤45：选择可达密度最大样本作为第一个聚类初始的中心点x(ρ_max)，这里的max始终为1，因为进行了排序。并将ρ_max从可达密度集合ρ＝{ρ₁,ρ₂,…, ρ_n}中删除，并且从集合ρ＝{ρ₁,ρ₂,…,ρ_n}中删除从x(ρ_max)所有密度可达点对应的ρ_i。同时将x(ρ₁)加入集合C中。

步骤46：从集合ρ中找出到集合C中所有元素欧式距离之和最远的点，并且该距离之大于样本之间的平均距离的N(C)倍，N(C)为C集合中元素个数，选择该点作为聚类另一初始中心点(假设该点为x(ρ_j))，这样的选择方式可以保证不同类之间的距离尽量大。选择之后将ρ_j从集合ρ＝{ρ₁,ρ₂,…,ρ_n}中删除，并删除x(ρ_j)所有密度可达点对应的ρ_i。同时将x(ρ_j)加入集合C中。图2举例说明了选择欧式距离最远的点作为下一个路径初始中心点的例子，图2中的p 和q为集合c中的样本，假设ρ中剩余的样本为o和o’。从图中可以看出o到p 与q之间的距离之和小于o’到q与p之间的距离之和，所有应该选择o’加入集合c。

步骤47：重复步骤45，46，直到所选择的初始点达到预先设置的阈值，在本实施例中预先设置的阈值是指预先设置的聚类的类别，即选择的初始点的数量达到聚类类别，本实施例中聚类的类别包括CPU密集型、IO密集型、网络密集型这三类数据类型，即预先设置的阈值为3，本实施例选择的初始点数目为3。

步骤S5中的核聚类(K-means)算法在聚类的同时通过范数近似来改变核聚类中核函数的核宽(也被称为参数)，以此实现不重要配置参数的删除。

优选地，可用采用构造最小化目标函数的方法来实现，具体的构造步骤如下：

在核K-means算法中核聚类特征选择算法中，假设样本有k类，为样本x_i选择最好的一个类，那么应该满足下列不等式：

||Φ(x_i)-u_w||²≤||Φ(x_i)-u_w'||²,1≤i≤N,1≤w'≤k,1≤w≤k,w'≠w；

这里的x_i与核K-means的定义一致，代表第i个样本，上述公式描述的是Φ(x_i) 到类u_w的距离小于到其他任何一个聚类中心u_w’的距离，N为样本个数。

有效的聚类首先应尽量让样本到同类中心点的距离最近，到不同类之间的距离远。其次,在聚类算法中应减少样本在不同的类中来回被选择的消耗，即若样本x_i在t次迭代属于C_i类，t+1次又属于C_i+1类，那么就要使得C_i类第t次的聚类中心点到t+1次聚类中心点的距离尽量小。因此结合上面两点，提出了下面的代价公式：

将上述公式变为：

其中：

为样本在不同的类中来回被选择的代价，所建立的目标函数应最小化该代价，即样本x_j在t时刻的聚类中心点与t-1时刻的距离尽量小， T₀表示总的迭代次数；

其中，X＝{x₁，x₂，x₃，…，x_n}为样本集合，所有的样本点的聚类集合为C，即被划分为的聚类为C＝{C₁,C₂,C₃,…,C_K}，聚类的个数为K，u_w为C_w类的聚类中心，t为迭代次数。

为样本x_j第t次迭代的聚类中心，

为样本x_j第t-1 次迭代的聚类中心。

因此，目标函数通过惩罚核宽向量v来使得Cost(C)最小化，通过惩罚函数删除核宽向量v不重要的核宽(对应特征)，并且所选择的特征应尽量接近原始特征的聚类效果。此外目标函数应遵守类内中样本最近和类间样本远的原则，同时最小化样本在不同的类中来回被选择的代价。

因此建立下列最小化目标函数：

参数λ是一个预定义的参数，用于惩罚公式f(v)和代价函数，优选的，根据其它参考文献可以设置为0.05。

惩罚公式应可以利用样本的部分特征来表达样本原有特征的特性，采用l₀范数(||w||₀)逼近的方法来实现。因此，惩罚公式可以定义为：

其中，v为n维，那么e^Tv<n，这里的v_j是正数；γ为惩罚参数，优选的，本发明将惩罚参数的值设置为5。

步骤S6中的梯度下降的方法是对S5步骤中的最小化目标函数执行梯度下降的过程。梯度下降的过程也就是实现Hadoop重要配置参数的选择的过程。一个具体的配置参数(或称为特征l)梯度下降的公式为：

其中

因此，

其中，

为类别C_i中样本的个数。

在本发明实施例中，步骤S6中的阈值M是一个根据经验设定数值，即为本领域技术人员自定义的一个数值；核宽向量v中的某个元素v_j也是一个数值。

在本实施例中，t时刻的核宽向量与t-1时刻的核宽向量相近似指的是t时刻选择的配置参数集合与t-1时刻选择的配置参数集合一样。算法结束得到的结果为选择出Hadoop平台中重要的配置参数集合。管理员可以对选择出配置参数进行配置，而不是对所有的配置参数进行配置，从而节省工作人员配置参数的时间。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于核聚类特征选择的Hadoop配置参数选择方法，其特征在于，包括以下方法：

S1、采集Hadoop平台不同配置参数的数据集；

S4、从步骤S1中收集的数据集中选取核聚类算法的初始点；

S6、利用梯度下降算法更新表示聚类集合中样本配置参数的核宽向量v，若v中的元素(v_l)小于预先设置的阈值M则将该元素删除；

S8、否则输出此时核宽向量中对应的配置参数的集合，得到选择的Hadoop配置参数集合。

2.根据权利要求1所述的一种基于核聚类特征选择的Hadoop配置参数选择方法，其特征在于，采集Hadoop平台不同配置参数的数据集包括以下步骤：

R：(应用程序类型，配置参数1的值，配置参数2的值，…，配置参数n的值)；

其中，应用程序类型为CPU密集型、IO密集型或网络密集型。

3.根据权利要求1所述的一种基于核聚类特征选择的Hadoop配置参数选择方法，其特征在于，用核宽向量表示Hadoop平台配置参数的向量模型包括：

其中，σ_n表示Hadoop平台的配置参数n的重要程度。

4.根据权利要求1所述的一种基于核聚类特征选择的Hadoop配置参数选择方法，其特征在于，基于核宽向量建立能反应配置参数重要性的核函数包括：

其中，K(x_i,x_s,v)为基于核宽向量建立能反应配置参数重要性的核函数；v为核宽向量；x_i,x_s为数据集中的两个样本。

5.根据权利要求1所述的一种基于核聚类特征选择的Hadoop配置参数选择方法，其特征在于，从收集的数据集中选取核聚类算法的初始点包括：从收集的数据集中选取应用程序类型分别为CPU密集型、IO密集型、网络密集型三条数据作为核聚类算法的初始点。

6.根据权利要求5所述的一种基于核聚类特征选择的Hadoop配置参数选择方法，其特征在于，采用全局感知的局部密度初始点计算算法，从收集的数据集中选取核聚类算法的初始点，包括以下步骤：

S43、计算核心对象样本集合X’每个样本的可达密度，将形成所有样本的可达密度集合，按照样本的可达密度按从大到小排列，可达密度集合表示为：ρ＝{ρ_1’，ρ_2’，ρ_3’，…，ρ_n’}，并用x(ρ_i)代表可达密度为ρ_i的样本点x_i；

7.根据权利要求1所述的一种基于核聚类特征选择的Hadoop配置参数选择方法，其特征在于，执行核聚类算法形成聚类集合时，使样本到同类中心点的距离最近，到不同类之间的距离远，且样本在不同的类中来回被选择的代价最小，则样本选择同类中心点时，需要满足：

8.根据权利要求1所述的一种基于核聚类特征选择的Hadoop配置参数选择方法，其特征在于，惩罚公式f(v)表示为：

其中，γ为惩罚参数；v_j为hadoop平台配置参数的核宽向量v中的第j个元素；n表示v的维度；T表示转置运算。

9.根据权利要求1所述的一种基于核聚类特征选择的Hadoop配置参数选择方法，其特征在于，利用梯度下降算法更新表示聚类集合中样本配置参数的核宽向量v包括：

其中，

为求导标记；F(v,C)是在执行聚类算法的同时执行惩罚函数来实现特征选择的目标函数；Q_v,w表示样本v_i在类别C_w中被选择的代价；Q为样本在不同的类中来回被选择的代价；λ为辅助参数；K为聚类的个数；f(v)为惩罚公式。

10.根据权利要求7或9所述的一种基于核聚类特征选择的Hadoop配置参数选择方法，其特征在于，样本v_i在类别C_w中被选择的代价Q_v,w表示为：

样本在不同的类中来回被选择的代价Q表示为：

其中，

为样本x_j第t次迭代的聚类中心，

为样本x_j第t-1次迭代的聚类中心。