CN106022385A - 基于动态规划和K-means聚类的特征选择算法 - Google Patents

基于动态规划和K-means聚类的特征选择算法 Download PDF

Info

Publication number
CN106022385A
CN106022385A CN201610363758.0A CN201610363758A CN106022385A CN 106022385 A CN106022385 A CN 106022385A CN 201610363758 A CN201610363758 A CN 201610363758A CN 106022385 A CN106022385 A CN 106022385A
Authority
CN
China
Prior art keywords
feature
sample
distance
algorithm
dynamic programming
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610363758.0A
Other languages
English (en)
Inventor
董敏
曹丹
刘皓熙
毕盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201610363758.0A priority Critical patent/CN106022385A/zh
Publication of CN106022385A publication Critical patent/CN106022385A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于动态规划和K‑means聚类的特征选择算法,包括步骤:1)数据预处理,主要解决特征数据中存在的数据重复、数据属性值缺失问题;2)借助动态规划的核心思想预选择出特征子集,并且采用类间类内距离作为动态规划决策过程中的性能函数;3)改进原始的K‑means聚类算法,并且使用改进后的K‑means算法对动态规划阶段生成的特征子集进行聚类,剔除冗余特征,优化选择出的特征子集。本发明能够选择出低噪声、强相关、无冗余的特征子集,实现特征的有效降维,提高机器学习算法的泛化能力和学习效率,降低算法的运行时间,最终生成一个简单高效且易于理解的学习模型。

Description

基于动态规划和K-means聚类的特征选择算法
技术领域
本发明涉及特征工程以及机器学习领域,尤其是指一种基于动态规划和K-means聚类的特征选择算法。
背景技术
动态规划的核心思想为:将复杂的原问题分解为若干个简单子问题,若干个子问题亦可称之若干个阶段,则原问题的求解过程转变为求解多个阶段的过程,通过这些子问题(多阶段)的解从而得出原问题的解。各个阶段最开始时所处的客观条件称之为该阶段的状态,当某一阶段的状态确定后,往往可以做出不同的决定,从而进入下一阶段,这种决定称之为决策,做出决策的判断依据为相应的性能函数,各个阶段的决策所构成的序列则称之为策略。目前,有一些研究已经将动态规划和特征选择进行了结合,如使用“熵”函数作为动态规划的性能函数,从而实现特征选择。采用“熵”函数作为动态规划的性能函数增加了计算成本,且单独使用动态规划选择出的特征子集之间存在冗余。
K-means聚类算法又称K-均值聚类算法,它根据对象(样本)之间的相似性将对象分属到相应类别中,同一类别中的对象具有较高的相似性,不同类别中的对象具有明显的差异性,因此可以利用它剔除冗余特征。但K-means聚类算法本身存在聚类个数无法确定、容易陷入局部最优解等缺点,同时,单独使用K-means聚类算法进行特征选择时不能保证选择出的特征子集具有低噪声、强相关的特点。
发明内容
本发明的目的在于克服现有技术的不足,提供一种行之有效、综合性能较强的基于动态规划和K-means聚类的特征选择算法,简称DKFS(Dynamic programming and K-means clustering Feature Selection)算法。
为实现上述目的,本发明所提供的技术方案为:基于动态规划和K-means聚类的特征选择算法,包括以下步骤:
1)数据预处理,主要解决特征数据中存在的数据重复、数据属性值缺失问题;
2)借助动态规划的核心思想预选择出特征子集,并且采用类间类内距离作为动态规划决策过程中的性能函数;
3)改进原始的K-means聚类算法,重点集中在确定聚类个数及选取初始中心点这两方面对原始的K-means聚类算法进行优化改进,并且引入加权欧氏距离,其改进思想是:使用迭代法确定聚类个数,利用标准差进行加权欧氏距离的计算,采用加权欧氏距离以及最大最小距离的原理进行初始中心点的选取;最后使用改进后的K-means算法对动态规划阶段生成的特征子集进行聚类,剔除冗余特征,优化选择出的特征子集。
在步骤2)中,首先原始特征空间经过数据归一化处理;其次根据相应准则确定迭代次数,即动态规划得出的近似最优的特征个数,具体是采用迭代法确定特征个数,即在选取不同特征个数的情况下运行算法,最终确定最佳的特征个数;接着进入第一阶段,从候选特征空间中只考虑一个特征,若某个特征使得性能函数取得最优值,则将该特征加入到最终特征空间中,且从候选特征空间中将其删除,候选特征空间即为原始特征空间;紧接着判断最终特征空间中的特征个数是否满足要求,若满足,则得到最终的特征空间,否则,进入第二个阶段;同样的从候选特征空间中只考虑一个特征,该特征和最终特征空间组合成最新的最终特征空间,若最新的最终特征空间使得性能函数取得最优值,则更新最终特征空间,将特征加入到最终特征空间中,且从候选特征空间中将其删除;重复上述过程,直至选择出满足相应要求的特征为止;
在给出基于类间类内距离的动态规划方法的具体实现过程前定义如下性质,假设样本个数为n,特征个数为m,类别个数为c;
定义1:样本数据Data=(X1,X2…Xn)T,其中Xi=(xi1,xi2…xim),xij即样本Xi在第j维特征上的值;
定义2:特征数据Feature=(F1,F2…Fm),其中Fj=(x1j,x2j…xnj)T,xij即样本Xi在第j维特征上的值;
定义3:样本Sample=(Data,Feature),其中样本可以形式化如下:
(F1 F2 … Fj … Fm)
X 1 X 2 ... X i ... X n x 11 x 12 ... x 1 j ... x 1 m x 21 x 22 ... x 2 j ... x 2 m ... ... ... ... ... ... x i 1 x i 2 ... x i j ... x i m ... ... ... ... ... ... x n 1 x n 2 ... x n j ... x n m
定义4:类内距离
其中nc为类别c中样本的个数,m为总的特征维数,m'为已选特征子集中的特征维数,m'≤m,xij即样本Xi在已选特征子集中相应第j维特征上的值,为指定类别下样本在已选特征子集中相应第j维特征上的均值;
定义5:类间距离
其中为所有样本在已选特征子集中相应第j维特征上的均值;
定义6:性能函数
所述动态规划方法的具体实现如下:
输入:所有样本数据Sample=(Data,Feature),类别数c,迭代次数t
输出:最优特征子集Re sult
步骤:
2.1)
2.2)对于任意Fi∈(Feature-Re sult),计算J(Fi∪Re sult);
2.3)选择使得J(Fi∪Re sult)最大的Fi
2.4)如果满足迭代次数,则返回Re sult,否则Re sult=Fi∪Re sult,跳至步骤2.2)。
在步骤3)中,聚类个数的确定如下:
首先确定聚类个数的范围,即特征子集划分成几类,若特征个数为n,则聚类个数的范围为其次按照相同间隔选择聚类个数,观察该聚类个数下聚类精度或者分类器的分类性能;最后确定使得聚类精度或者分类器的分类性能达到最优的聚类个数为K-means聚类算法的聚类数目;
加权欧氏距离的计算如下:
使用各个特征维度下样本的标准差来判断特征的重要性,从而进行特征的加权,其定义方式如下:
假设向量X1=(x11,x12…x1m)和Xn=(xn1,xn2…xnm),则:
X t * = 1 n Σ i = 1 n x i t
Y t * = 1 n Σ i = 1 n ( x i t - X t * ) 2
w t = Y i * Σ i = 1 m Y i *
加权欧氏距离:
d i s tan c e ( X 1 , X n ) = w 1 · ( x 11 - x n 1 ) 2 + ... + w m · ( x 1 m - x n m ) 2
其中t∈(1,2…m),表示第t维特征的均值,Yt *表示第t维特征的标准差,wt表示第t维特征的权重;
初始中心点的选择如下:
输入:特征信息Feature=(F1,F2…Fm),聚类个数即初始中心点个数k,人为设定的d1值,d2值,d1>d2,每个特征的密度值初始化为0,即:
density(Fi)=0
输出:初始中心点initialCentoids=(F1,F2…Fk)
步骤:
3.3.1)
3.3.2)对于任意Fi∈Feature,计算density(Fi),即特征的密度值,计算方式如下:
对于任意Fj∈(Feature-Fi),执行如下操作:
density(Fi)=density(Fi)+1if dis tan ce(Fi,Fj)<d1
其中dis tan ce(Fi,Fj)为特征Fi和Fj之间的加权欧式距离,见上式;
3.3.3)tFeature=max(density(Fi)),其中Fi∈Feature,则tFeature为第一个初始中心点,将tFeature加入到initialCentoids集合中;
3.3.4)对于任意Fi∈(Feature-initialCentoids),
计算dis tan ce(Fi,initialCentoids)=min(dis tan ce(Fi,Fj)),
Fj∈initialCentoids,则:
tFeature=max(density(Fi))
其中distance(Fi,initialCentoids)>d2;
3.3.5)tFeature为下一个初始中心点,将tFeature加入到initialCentoids集合中;
3.3.6)重复步骤3.3.4)-3.3.5)的操作,直至满足结束条件为止;
首先计算每个样本的密度,密度定义为:若其他样本与自身的距离小于人为设定的d1值,则密度加1,这样能够减少离群点对聚类结果的影响;接着选择密度最大的样本点作为第一个初始中心点;紧接着计算剩余样本集合中每个样本点与所有初始中心点的距离,则每个样本点与初始中心点集合的最终距离为样本点与所有初始中心点的距离中最小的距离,若某样本点与初始中心点集合的最终距离大于d2且该样本点的密度最大,则选择该样本点作为下一个初始中心点,这样能够避免初始中心点过于密集,导致算法陷入局部最优;重复上述步骤,直至选择出指定个数的初始中心点。
本发明与现有技术相比,具有如下优点与有益效果:
1、DKFS算法巧妙地结合了动态规划的核心思想,利用动态规划预选择出近似最优的特征子集,确保特征子集具有低噪声、强相关的特点;
2、DKFS算法采用类间类内距离作为动态规划决策过程中的性能函数,使得预选择出的特征子集具有更强的类别区分能力;
3、DKFS算法从聚类个数的确定和初始中心点的选取两方面对原始的K-means聚类算法进行改进,提高了聚类准确率,一定程度上改善了聚类效果;
4、DKFS算法使用改进后的K-means算法对动态规划选择出的特征子集进行聚类,较大程度地剔除冗余特征,确保特征子集之间的冗余性降到最低。
附图说明
图1为DKFS算法基本流程图。
图2为基于类间类内距离的动态规划方法基本流程图。
图3a为聚类个数过大效果演示图。
图3b为聚类个数过小效果演示图。
图4为初始中心点选取不当效果演示图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1所示,本实施例所述的基于动态规划和K-means聚类的特征选择算法,即DKFS(Dynamic programming and K-means clustering Feature Selection)算法,包括以下步骤:
1)利用相应的数据预处理方法解决特征数据中存在的数据重复、数据属性值缺失等问题;
2)借助动态规划的核心思想预选择出特征子集,并且采用类间类内距离作为动态规划决策过程中的性能函数;
3)改进原始的K-means聚类算法,重点集中在确定聚类个数及选取初始中心点这两方面对原始的K-means聚类算法进行优化改进,并且引入加权欧氏距离,其改进思想是:使用迭代法确定聚类个数,利用标准差进行加权欧氏距离的计算,采用加权欧氏距离以及最大最小距离的原理进行初始中心点的选取;最后使用改进后的K-means算法对动态规划阶段生成的特征子集进行聚类,剔除冗余特征,优化选择出的特征子集。
如图2所示,描述了基于类间类内距离的动态规划方法的基本过程。首先原始特征空间经过数据归一化等数据预处理后转换成完整、无噪声、质量较好的特征空间。其次根据相应准则确定迭代次数,即动态规划得出的近似最优的特征个数,本发明提出的算法采用迭代法确定特征个数,即在选取不同特征个数的情况下运行算法,最终确定使得实验效果取得最佳的特征个数。接着进入第一阶段,从候选特征空间中只考虑一个特征,若某个特征使得性能函数取得最优值,则将该特征加入到最终特征空间中,且从候选特征空间中将其删除,候选特征空间即为原始特征空间。紧接着判断最终特征空间中的特征个数是否满足要求,若满足,则得到最终的特征空间,否则,进入第二个阶段。同样的从候选特征空间中只考虑一个特征,该特征和最终特征空间组合成最新的最终特征空间,若最新的最终特征空间使得性能函数取得最优值,则更新最终特征空间,将特征加入到最终特征空间中,且从候选特征空间中将其删除。重复上述过程,直至选择出满足相应要求的特征为止。
在给出基于类间类内距离的动态规划方法的具体实现过程前定义如下性质,假设样本个数为n,特征个数为m,类别个数为c。
定义1:样本数据Data=(X1,X2…Xn)T,其中Xi=(xi1,xi2…xim),xij即样本Xi在第j维特征上的值;
定义2:特征数据Feature=(F1,F2…Fm),其中Fj=(x1j,x2j…xnj)T,xij即样本Xi在第j维特征上的值;
定义3:样本Sample=(Data,Feature),其中样本可以形式化如下:
(F1 F2 … Fj … Fm)
X 1 X 2 ... X i ... X n x 11 x 12 ... x 1 j ... x 1 m x 21 x 22 ... x 2 j ... x 2 m ... ... ... ... ... ... x i 1 x i 2 ... x i j ... x i m ... ... ... ... ... ... x n 1 x n 2 ... x n j ... x n m
定义4:类内距离
其中nc为类别c中样本的个数,m为总的特征维数,m'为已选特征子集中的特征维数,m'≤m,xij即样本Xi在已选特征子集中相应第j维特征上的值,为指定类别下样本在已选特征子集中相应第j维特征上的均值;
定义5:类间距离
其中为所有样本在已选特征子集中相应第j维特征上的均值;
定义6:性能函数
动态规划方法的具体实现如下:
输入:所有样本数据Sample=(Data,Feature),类别数c,迭代次数t
输出:最优特征子集Re sult
步骤:
step1:
step2:对于任意Fi∈(Feature-Re sult),计算J(Fi∪Re sult);
step3:选择使得J(Fi∪Re sult)最大的Fi
step4:如果满足迭代次数,则返回Re sult;
否则Re sult=Fi∪Re sult,跳至step2;
本发明提出的DKFS算法采用类间类内距离作为决策过程中的性能函数,利用动态规划的思想迭代选择特征。由于后一阶段的最优特征仅仅相对于前一阶段的特征空间而言,忽略了其他的特征组合情况,因此这一阶段产生的特征子集从全局来看只有近似最优解的性质,但是生成的特征子集仍然能够良好地反映出样本的分布情况,与所要解决的问题具有强相关性。通常,该阶段产生的结果中可能存在冗余特征,因此需要对特征进行聚类,最终选择无冗余且区分度高的特征。
传统K-means聚类算法的对象通常为样本数据,本发明将K-means聚类对象转换成特征数据,即对特征进行聚类,而非对样本进行聚类。K-means聚类算法具有原理简单、便于实现、且能够高效、快速处理大数据等优势,这些优势使其成为经典的聚类算法之一。同样的K-means聚类算法也存在缺点,如事先需要确定聚类个数、聚类效果依赖于初始中心点的选取、不适用于非球形分布的样本等等,这些缺点导致其应用受到局限,聚类结果存在误差,如图3a、图3b和图4所示,因此本发明提出先对K-means聚类算法进行改进,之后再利用改进后的K-means算法进行特征聚类。本发明重点集中在确定聚类个数及选取初始中心点这两方面对K-means聚类算法进行优化改进,并且引入加权欧氏距离。
1)加权欧氏距离
传统的K-means聚类算法通常采用欧式距离衡量对象(样本)之间的相似性,欧式距离计算简单、应用广泛、但其忽略了样本各个特征的量纲单位具有不一致性,以及没有考虑样本的分布情况给结果带来的影响,这在一定程度上降低了K-means算法的聚类准确率,因此,本发明引入加权欧氏距离。加权欧氏距离考虑了样本的分布情况及特征的重要性等因素将绝对距离转变为相对距离。
概率统计中经常使用样本的标准差来体现样本的分布情况,测量样本的离散程度。因此,本发明使用各个特征维度下样本的标准差来判断特征的重要性,从而进行特征的加权。其定义方式如下:
假设向量X1=(x11,x12…x1m)和Xn=(xn1,xn2…xnm),则:
X t * = 1 n Σ i = 1 n x i t
Y t * = 1 n Σ i = 1 n ( x i t - X t * ) 2
w t = Y i * Σ i = 1 m Y i *
加权欧氏距离:
d i s tan c e ( X 1 , X n ) = w 1 · ( x 11 - x n 1 ) 2 + ... + w m · ( x 1 m - x n m ) 2
其中t∈(1,2…m),表示第t维特征的均值,Yt *表示第t维特征的标准差,wt表示第t维特征的权重。
由加权欧氏距离的计算公式能够看出特征权重越大,则特征的标准差越大,表明该维特征下数据越离散,因此其对聚类的结果越重要,应该对该维特征越加予以重视。
2)确定聚类个数
本发明提出的算法根据分类性能或者聚类精度的好坏确定聚类个数。首先确定聚类个数的范围,即特征子集划分成几类,若特征个数为n,则聚类个数的范围为其次按照相同间隔选择聚类个数,观察该聚类个数下聚类精度或者分类器的分类性能。最后确定使得聚类精度或者分类器的分类性能达到最优的聚类个数为K-means聚类算法的聚类数目。
3)选择初始中心点
本发明在上述加权欧氏距离的基础上,利用最大最小距离的原理,以及借鉴袁方等人的思想,提出如下选择初始中心点的算法,由于本发明对特征进行聚类,因此将特征当作“样本”,样本当作“特征”,算法描述如下:
输入:特征信息Feature=(F1,F2…Fm),聚类个数即初始中心点个数k,人为设
定的d1值,d2值,d1>d2,每个特征的密度值初始化为0,即:
density(Fi)=0
输出:初始中心点initialCentoids=(F1,F2…Fk)
步骤:
step1:
step2:对于任意Fi∈Feature,计算density(Fi),即特征的密度值,计算方式如下:
对于任意Fj∈(Feature-Fi),执行如下操作:
density(Fi)=density(Fi)+1if dis tan ce(Fi,Fj)<d1
其中dis tan ce(Fi,Fj)为特征Fi和Fj之间的加权欧式距离,见上式;
step3:tFeature=max(density(Fi)),其中Fi∈Feature,则tFeature为第一个初
始中心点,将tFeature加入到initialCentoids集合中;
step4:对于任意Fi∈(Feature-initialCentoids),计算
dis tan ce(Fi,initialCentoids)=min(dis tan ce(Fi,Fj)),Fj∈initialCentoids,则:
tFeature=max(density(Fi))
其中dis tan ce(Fi,initialCentoids)>d2;
step5:tFeature为下一个初始中心点,将tFeature加入到initialCentoids集合中;
step6:重复step4-step5的操作,直至满足结束条件为止;
首先计算每个样本的密度,密度定义为:若其他样本与自身的距离小于人为设定的d1值,则密度加一,这样能够减少离群点对聚类结果的影响。接着选择密度最大的样本点作为第一个初始中心点。紧接着计算剩余样本集合中每个样本点与所有初始中心点的距离,则每个样本点与初始中心点集合的最终距离为样本点与所有初始中心点的距离中最小的距离,若某样本点与初始中心点集合的最终距离大于d2且该样本点的密度最大,则选择该样本点作为下一个初始中心点,这样能够避免初始中心点过于密集,导致算法陷入局部最优。重复上述步骤,直至选择出指定个数的初始中心点。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (3)

1.基于动态规划和K-means聚类的特征选择算法,其特征在于,包括以下步骤:
1)数据预处理,主要解决特征数据中存在的数据重复、数据属性值缺失问题;
2)借助动态规划的核心思想预选择出特征子集,并且采用类间类内距离作为动态规划决策过程中的性能函数;
3)改进原始的K-means聚类算法,重点集中在确定聚类个数及选取初始中心点这两方面对原始的K-means聚类算法进行优化改进,并且引入加权欧氏距离,其改进思想是:使用迭代法确定聚类个数,利用标准差进行加权欧氏距离的计算,采用加权欧氏距离以及最大最小距离的原理进行初始中心点的选取;最后使用改进后的K-means算法对动态规划阶段生成的特征子集进行聚类,剔除冗余特征,优化选择出的特征子集。
2.根据权利要求1所述的基于动态规划和K-means聚类的特征选择算法,其特征在于:在步骤2)中,首先原始特征空间经过数据归一化处理;其次根据相应准则确定迭代次数,即动态规划得出的近似最优的特征个数,具体是采用迭代法确定特征个数,即在选取不同特征个数的情况下运行算法,最终确定最佳的特征个数;接着进入第一阶段,从候选特征空间中只考虑一个特征,若某个特征使得性能函数取得最优值,则将该特征加入到最终特征空间中,且从候选特征空间中将其删除,候选特征空间即为原始特征空间;紧接着判断最终特征空间中的特征个数是否满足要求,若满足,则得到最终的特征空间,否则,进入第二个阶段;同样的从候选特征空间中只考虑一个特征,该特征和最终特征空间组合成最新的最终特征空间,若最新的最终特征空间使得性能函数取得最优值,则更新最终特征空间,将特征加入到最终特征空间中,且从候选特征空间中将其删除;重复上述过程,直至选择出满足相应要求的特征为止;
在给出基于类间类内距离的动态规划方法的具体实现过程前定义如下性质,假设样本个数为n,特征个数为m,类别个数为c;
定义1:样本数据Data=(X1,X2…Xn)T,其中Xi=(xi1,xi2…xim),xij即样本Xi在第j维特征上的值;
定义2:特征数据Feature=(F1,F2…Fm),其中Fj=(x1j,x2j…xnj)T,xij即样本Xi在第j维特征上的值;
定义3:样本Sample=(Data,Feature),其中样本可以形式化如下:
(F1 F2 … Fj … Fm)
X 1 X 2 ... X i ... X n x 11 x 12 ... x 1 j ... x 1 m x 21 x 22 ... x 2 j ... x 2 m ... ... ... ... ... ... x i 1 x i 2 ... x i j ... x i m ... ... ... ... ... ... x n 1 x n 2 ... x n j ... x n m
定义4:类内距离
其中nc为类别c中样本的个数,m为总的特征维数,m'为已选特征子集中的特征维数,m'≤m,xij即样本Xi在已选特征子集中相应第j维特征上的值,为指定类别下样本在已选特征子集中相应第j维特征上的均值;
定义5:类间距离
其中为所有样本在已选特征子集中相应第j维特征上的均值;
定义6:性能函数
所述动态规划方法的具体实现如下:
输入:所有样本数据Sample=(Data,Feature),类别数c,迭代次数t
输出:最优特征子集Result
步骤:
2.1)
2.2)对于任意Fi∈(Feature-Result),计算J(Fi∪Result);
2.3)选择使得J(Fi∪Result)最大的Fi
2.4)如果满足迭代次数,则返回Result,否则Result=Fi∪Result,跳至步骤2.2)。
3.根据权利要求1所述的基于动态规划和K-means聚类的特征选择算法,其特征在于,在步骤3)中,聚类个数的确定如下:
首先确定聚类个数的范围,即特征子集划分成几类,若特征个数为n,则聚类个数的范围为其次按照相同间隔选择聚类个数,观察该聚类个数下聚类精度或者分类器的分类性能;最后确定使得聚类精度或者分类器的分类性能达到最优的聚类个数为K-means聚类算法的聚类数目;
加权欧氏距离的计算如下:
使用各个特征维度下样本的标准差来判断特征的重要性,从而进行特征的加权,其定义方式如下:
假设向量X1=(x11,x12…x1m)和Xn=(xn1,xn2…xnm),则:
X t * = 1 n Σ i = 1 n x i t
Y t * = 1 n Σ i = 1 n ( x i t - X t * ) 2
w t = Y t * Σ i = 1 m Y i *
加权欧氏距离:
d i s tan c e ( X 1 , X n ) = w 1 · ( x 11 - x n 1 ) 2 + ... + w m · ( x 1 m - x n m ) 2
其中t∈(1,2…m),表示第t维特征的均值,Yt *表示第t维特征的标准差,wt表示第t维特征的权重;
初始中心点的选择如下:
输入:特征信息Feature=(F1,F2…Fm),聚类个数即初始中心点个数k,人为设定的d1值,d2值,d1>d2,每个特征的密度值初始化为0,即:
density(Fi)=0
输出:初始中心点initialCentoids=(F1,F2…Fk)
步骤:
3.3.1)
3.3.2)对于任意Fi∈Feature,计算density(Fi),即特征的密度值,计算方式如下:
对于任意Fj∈(Feature-Fi),执行如下操作:
density(Fi)=density(Fi)+1 if distance(Fi,Fj)<d1
其中distance(Fi,Fj)为特征Fi和Fj之间的加权欧式距离,见上式;
3.3.3)tFeature=max(density(Fi)),其中Fi∈Feature,则tFeature为第一个初始中心点,将tFeature加入到initialCentoids集合中;
3.3.4)对于任意Fi∈(Feature-initialCentoids),
计算distance(Fi,initialCentoids)=min(distance(Fi,Fj)),
Fj∈initialCentoids,则:
tFeature=max(density(Fi))
其中distance(Fi,initialCentoids)>d2;
3.3.5)tFeature为下一个初始中心点,将tFeature加入到initialCentoids集合中;
3.3.6)重复步骤3.3.4)-3.3.5)的操作,直至满足结束条件为止;
首先计算每个样本的密度,密度定义为:若其他样本与自身的距离小于人为设定的d1值,则密度加1,这样能够减少离群点对聚类结果的影响;接着选择密度最大的样本点作为第一个初始中心点;紧接着计算剩余样本集合中每个样本点与所有初始中心点的距离,则每个样本点与初始中心点集合的最终距离为样本点与所有初始中心点的距离中最小的距离,若某样本点与初始中心点集合的最终距离大于d2且该样本点的密度最大,则选择该样本点作为下一个初始中心点,这样能够避免初始中心点过于密集,导致算法陷入局部最优;重复上述步骤,直至选择出指定个数的初始中心点。
CN201610363758.0A 2016-05-26 2016-05-26 基于动态规划和K-means聚类的特征选择算法 Pending CN106022385A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610363758.0A CN106022385A (zh) 2016-05-26 2016-05-26 基于动态规划和K-means聚类的特征选择算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610363758.0A CN106022385A (zh) 2016-05-26 2016-05-26 基于动态规划和K-means聚类的特征选择算法

Publications (1)

Publication Number Publication Date
CN106022385A true CN106022385A (zh) 2016-10-12

Family

ID=57091310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610363758.0A Pending CN106022385A (zh) 2016-05-26 2016-05-26 基于动态规划和K-means聚类的特征选择算法

Country Status (1)

Country Link
CN (1) CN106022385A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778812A (zh) * 2016-11-10 2017-05-31 百度在线网络技术(北京)有限公司 聚类实现方法和装置
CN108564390A (zh) * 2017-12-29 2018-09-21 广东金赋科技股份有限公司 大量个体的数据趋势分析方法、电子设备和计算机存储介质
CN108921397A (zh) * 2018-06-13 2018-11-30 北京北交智行信息技术有限公司 基于全生命周期数据的复杂装备的健康评估方法
CN109598936A (zh) * 2018-12-18 2019-04-09 中国科学院地理科学与资源研究所 一种基于动态stknn模型的短时交通预测方法
CN110109055A (zh) * 2019-05-23 2019-08-09 南通云之建智能科技有限公司 一种基于rssi测距的室内定位方法
US10499287B1 (en) 2018-06-12 2019-12-03 Amdocs Development Limited System, method, and computer program for smart inter-radio access technology (IRAT) voice over long term evolution (LTE) mobility
CN111738304A (zh) * 2020-05-28 2020-10-02 思派健康产业投资有限公司 一种高维特征空间中基于聚类算法的就诊人群分组方法
CN112101611A (zh) * 2020-07-31 2020-12-18 重庆锐云科技有限公司 房地产客户复购时间的预测方法、服务器及存储介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778812A (zh) * 2016-11-10 2017-05-31 百度在线网络技术(北京)有限公司 聚类实现方法和装置
CN106778812B (zh) * 2016-11-10 2020-06-19 百度在线网络技术(北京)有限公司 聚类实现方法和装置
CN108564390A (zh) * 2017-12-29 2018-09-21 广东金赋科技股份有限公司 大量个体的数据趋势分析方法、电子设备和计算机存储介质
US10499287B1 (en) 2018-06-12 2019-12-03 Amdocs Development Limited System, method, and computer program for smart inter-radio access technology (IRAT) voice over long term evolution (LTE) mobility
CN108921397A (zh) * 2018-06-13 2018-11-30 北京北交智行信息技术有限公司 基于全生命周期数据的复杂装备的健康评估方法
CN108921397B (zh) * 2018-06-13 2022-07-08 任爽 基于全生命周期数据的复杂装备的健康评估方法
CN109598936A (zh) * 2018-12-18 2019-04-09 中国科学院地理科学与资源研究所 一种基于动态stknn模型的短时交通预测方法
CN110109055A (zh) * 2019-05-23 2019-08-09 南通云之建智能科技有限公司 一种基于rssi测距的室内定位方法
CN110109055B (zh) * 2019-05-23 2023-02-24 南通云之建智能科技有限公司 一种基于rssi测距的室内定位方法
CN111738304A (zh) * 2020-05-28 2020-10-02 思派健康产业投资有限公司 一种高维特征空间中基于聚类算法的就诊人群分组方法
CN112101611A (zh) * 2020-07-31 2020-12-18 重庆锐云科技有限公司 房地产客户复购时间的预测方法、服务器及存储介质
CN112101611B (zh) * 2020-07-31 2022-11-18 重庆锐云科技有限公司 房地产客户复购时间的预测方法、服务器及存储介质

Similar Documents

Publication Publication Date Title
CN106022385A (zh) 基于动态规划和K-means聚类的特征选择算法
Patel et al. Study of various decision tree pruning methods with their empirical comparison in WEKA
Ghanem et al. Multi-class pattern classification in imbalanced data
CN101968853B (zh) 基于改进的免疫算法优化支持向量机参数的表情识别方法
CN106096727A (zh) 一种基于机器学习的网络模型构造方法及装置
CN110516704B (zh) 一种基于关联规则的mlknn多标签分类方法
CN102664011A (zh) 一种快速说话人识别方法
CN113378913B (zh) 一种基于自监督学习的半监督节点分类方法
CN105976070A (zh) 基于重点元素的矩阵分解及微调方法
CN105718943A (zh) 基于粒子群优化算法的特征选择方法
CN104463194A (zh) 一种人车分类方法及装置
CN108446214A (zh) 基于dbn的测试用例进化生成方法
CN104820825A (zh) 基于Adaboost算法的人脸识别优化方法
CN113221950A (zh) 基于自监督图神经网络的图聚类方法、装置及存储介质
CN103903072A (zh) 一种基于决策者偏好的高维多目标集合进化优化方法
CN106951728B (zh) 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法
Bruzzese et al. DESPOTA: DEndrogram slicing through a pemutation test approach
CN113239199B (zh) 一种基于多方数据集的信用分类方法
Zhu et al. Loan default prediction based on convolutional neural network and LightGBM
CN110765582A (zh) 基于马尔可夫链的自组织中心K-means微电网场景划分方法
Li et al. Speech recognition based on k-means clustering and neural network ensembles
CN104572820B (zh) 模型的生成方法及装置、重要度获取方法及装置
CN108446718B (zh) 一种动态深度置信网络分析方法
CN103198357A (zh) 基于nsga-ⅱ优化改进的模糊分类模型构造方法
Lustosa Filho et al. An analysis of diversity measures for the dynamic design of ensemble of classifiers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161012

WD01 Invention patent application deemed withdrawn after publication