CN106022385A

CN106022385A - 基于动态规划和K-means聚类的特征选择算法

Info

Publication number: CN106022385A
Application number: CN201610363758.0A
Authority: CN
Inventors: 董敏; 曹丹; 刘皓熙; 毕盛
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2016-05-26
Filing date: 2016-05-26
Publication date: 2016-10-12

Abstract

本发明公开了一种基于动态规划和K‑means聚类的特征选择算法，包括步骤：1)数据预处理，主要解决特征数据中存在的数据重复、数据属性值缺失问题；2)借助动态规划的核心思想预选择出特征子集，并且采用类间类内距离作为动态规划决策过程中的性能函数；3)改进原始的K‑means聚类算法，并且使用改进后的K‑means算法对动态规划阶段生成的特征子集进行聚类，剔除冗余特征，优化选择出的特征子集。本发明能够选择出低噪声、强相关、无冗余的特征子集，实现特征的有效降维，提高机器学习算法的泛化能力和学习效率，降低算法的运行时间，最终生成一个简单高效且易于理解的学习模型。

Description

基于动态规划和K-means聚类的特征选择算法

技术领域

本发明涉及特征工程以及机器学习领域，尤其是指一种基于动态规划和K-means聚类的特征选择算法。

背景技术

动态规划的核心思想为：将复杂的原问题分解为若干个简单子问题，若干个子问题亦可称之若干个阶段，则原问题的求解过程转变为求解多个阶段的过程，通过这些子问题(多阶段)的解从而得出原问题的解。各个阶段最开始时所处的客观条件称之为该阶段的状态，当某一阶段的状态确定后，往往可以做出不同的决定，从而进入下一阶段，这种决定称之为决策，做出决策的判断依据为相应的性能函数，各个阶段的决策所构成的序列则称之为策略。目前，有一些研究已经将动态规划和特征选择进行了结合，如使用“熵”函数作为动态规划的性能函数，从而实现特征选择。采用“熵”函数作为动态规划的性能函数增加了计算成本，且单独使用动态规划选择出的特征子集之间存在冗余。

K-means聚类算法又称K-均值聚类算法，它根据对象(样本)之间的相似性将对象分属到相应类别中，同一类别中的对象具有较高的相似性，不同类别中的对象具有明显的差异性，因此可以利用它剔除冗余特征。但K-means聚类算法本身存在聚类个数无法确定、容易陷入局部最优解等缺点，同时，单独使用K-means聚类算法进行特征选择时不能保证选择出的特征子集具有低噪声、强相关的特点。

发明内容

本发明的目的在于克服现有技术的不足，提供一种行之有效、综合性能较强的基于动态规划和K-means聚类的特征选择算法，简称DKFS(Dynamic programming and K-means clustering Feature Selection)算法。

为实现上述目的，本发明所提供的技术方案为：基于动态规划和K-means聚类的特征选择算法，包括以下步骤：

1)数据预处理，主要解决特征数据中存在的数据重复、数据属性值缺失问题；

2)借助动态规划的核心思想预选择出特征子集，并且采用类间类内距离作为动态规划决策过程中的性能函数；

3)改进原始的K-means聚类算法，重点集中在确定聚类个数及选取初始中心点这两方面对原始的K-means聚类算法进行优化改进，并且引入加权欧氏距离，其改进思想是：使用迭代法确定聚类个数，利用标准差进行加权欧氏距离的计算，采用加权欧氏距离以及最大最小距离的原理进行初始中心点的选取；最后使用改进后的K-means算法对动态规划阶段生成的特征子集进行聚类，剔除冗余特征，优化选择出的特征子集。

在步骤2)中，首先原始特征空间经过数据归一化处理；其次根据相应准则确定迭代次数，即动态规划得出的近似最优的特征个数，具体是采用迭代法确定特征个数，即在选取不同特征个数的情况下运行算法，最终确定最佳的特征个数；接着进入第一阶段，从候选特征空间中只考虑一个特征，若某个特征使得性能函数取得最优值，则将该特征加入到最终特征空间中，且从候选特征空间中将其删除，候选特征空间即为原始特征空间；紧接着判断最终特征空间中的特征个数是否满足要求，若满足，则得到最终的特征空间，否则，进入第二个阶段；同样的从候选特征空间中只考虑一个特征，该特征和最终特征空间组合成最新的最终特征空间，若最新的最终特征空间使得性能函数取得最优值，则更新最终特征空间，将特征加入到最终特征空间中，且从候选特征空间中将其删除；重复上述过程，直至选择出满足相应要求的特征为止；

在给出基于类间类内距离的动态规划方法的具体实现过程前定义如下性质，假设样本个数为n，特征个数为m，类别个数为c；

定义1：样本数据Data＝(X₁,X₂…X_n)^T，其中X_i＝(x_i1,x_i2…x_im)，x_ij即样本X_i在第j维特征上的值；

定义2：特征数据Feature＝(F₁,F₂…F_m)，其中F_j＝(x_1j,x_2j…x_nj)^T，x_ij即样本X_i在第j维特征上的值；

定义3：样本Sample＝(Data,Feature)，其中样本可以形式化如下:

(F₁ F₂ … F_j … F_m)

(\begin{matrix} X_{1} \\ X_{2} \\ ... \\ X_{i} \\ ... \\ X_{n} \end{matrix}) (\begin{matrix} x_{11} & x_{12} & ... & x_{1 j} & ... & x_{1 m} \\ x_{21} & x_{22} & ... & x_{2 j} & ... & x_{2 m} \\ ... & ... & ... & ... & ... & ... \\ x_{i 1} & x_{i 2} & ... & x_{i j} & ... & x_{i m} \\ ... & ... & ... & ... & ... & ... \\ x_{n 1} & x_{n 2} & ... & x_{n j} & ... & x_{n m} \end{matrix})

定义4：类内距离

其中n_c为类别c中样本的个数，m为总的特征维数，m'为已选特征子集中的特征维数，m'≤m，x_ij即样本X_i在已选特征子集中相应第j维特征上的值，为指定类别下样本在已选特征子集中相应第j维特征上的均值；

定义5：类间距离

其中为所有样本在已选特征子集中相应第j维特征上的均值；

定义6：性能函数

所述动态规划方法的具体实现如下：

输入：所有样本数据Sample＝(Data,Feature)，类别数c，迭代次数t

输出：最优特征子集Re sult

步骤：

2.1)

2.2)对于任意F_i∈(Feature-Re sult)，计算J(F_i∪Re sult)；

2.3)选择使得J(F_i∪Re sult)最大的F_i；

2.4)如果满足迭代次数，则返回Re sult，否则Re sult＝F_i∪Re sult，跳至步骤2.2)。

在步骤3)中，聚类个数的确定如下：

首先确定聚类个数的范围，即特征子集划分成几类，若特征个数为n，则聚类个数的范围为其次按照相同间隔选择聚类个数，观察该聚类个数下聚类精度或者分类器的分类性能；最后确定使得聚类精度或者分类器的分类性能达到最优的聚类个数为K-means聚类算法的聚类数目；

加权欧氏距离的计算如下：

使用各个特征维度下样本的标准差来判断特征的重要性，从而进行特征的加权，其定义方式如下：

假设向量X₁＝(x₁₁,x₁₂…x_1m)和X_n＝(x_n1,x_n2…x_nm)，则：

X_{t}^{*} = \frac{1}{n} Σ_{i = 1}^{n} x_{i t}

Y_{t}^{*} = \sqrt{\frac{1}{n} Σ_{i = 1}^{n} {(x_{i t} - X_{t}^{*})}^{2}}

w_{t} = \frac{Y_{i}^{*}}{Σ_{i = 1}^{m} Y_{i}^{*}}

加权欧氏距离：

d i s \tan c e (X_{1}, X_{n}) = \sqrt{w_{1} \cdot {(x_{11} - x_{n 1})}^{2} + ... + w_{m} \cdot {(x_{1 m} - x_{n m})}^{2}}

其中t∈(1,2…m)，表示第t维特征的均值，Y_t ^*表示第t维特征的标准差，w_t表示第t维特征的权重；

初始中心点的选择如下：

输入：特征信息Feature＝(F₁,F₂…F_m)，聚类个数即初始中心点个数k，人为设定的d1值，d2值，d1＞d2，每个特征的密度值初始化为0，即：

density(F_i)＝0

输出：初始中心点initialCentoids＝(F₁,F₂…F_k)

步骤：

3.3.1)

3.3.2)对于任意F_i∈Feature，计算density(F_i)，即特征的密度值，计算方式如下：

对于任意F_j∈(Feature-F_i)，执行如下操作：

density(F_i)＝density(F_i)+1if dis tan ce(F_i,F_j)＜d1

其中dis tan ce(F_i,F_j)为特征F_i和F_j之间的加权欧式距离，见上式；

3.3.3)tFeature＝max(density(F_i))，其中F_i∈Feature，则tFeature为第一个初始中心点，将tFeature加入到initialCentoids集合中；

3.3.4)对于任意F_i∈(Feature-initialCentoids)，

计算dis tan ce(F_i,initialCentoids)＝min(dis tan ce(F_i,F_j))，

F_j∈initialCentoids，则：

tFeature＝max(density(F_i))

其中distance(F_i,initialCentoids)＞d2；

3.3.5)tFeature为下一个初始中心点，将tFeature加入到initialCentoids集合中；

3.3.6)重复步骤3.3.4)-3.3.5)的操作，直至满足结束条件为止；

首先计算每个样本的密度，密度定义为：若其他样本与自身的距离小于人为设定的d1值，则密度加1，这样能够减少离群点对聚类结果的影响；接着选择密度最大的样本点作为第一个初始中心点；紧接着计算剩余样本集合中每个样本点与所有初始中心点的距离，则每个样本点与初始中心点集合的最终距离为样本点与所有初始中心点的距离中最小的距离，若某样本点与初始中心点集合的最终距离大于d2且该样本点的密度最大，则选择该样本点作为下一个初始中心点，这样能够避免初始中心点过于密集，导致算法陷入局部最优；重复上述步骤，直至选择出指定个数的初始中心点。

本发明与现有技术相比，具有如下优点与有益效果：

1、DKFS算法巧妙地结合了动态规划的核心思想，利用动态规划预选择出近似最优的特征子集，确保特征子集具有低噪声、强相关的特点；

2、DKFS算法采用类间类内距离作为动态规划决策过程中的性能函数，使得预选择出的特征子集具有更强的类别区分能力；

3、DKFS算法从聚类个数的确定和初始中心点的选取两方面对原始的K-means聚类算法进行改进，提高了聚类准确率，一定程度上改善了聚类效果；

4、DKFS算法使用改进后的K-means算法对动态规划选择出的特征子集进行聚类，较大程度地剔除冗余特征，确保特征子集之间的冗余性降到最低。

附图说明

图1为DKFS算法基本流程图。

图2为基于类间类内距离的动态规划方法基本流程图。

图3a为聚类个数过大效果演示图。

图3b为聚类个数过小效果演示图。

图4为初始中心点选取不当效果演示图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1所示，本实施例所述的基于动态规划和K-means聚类的特征选择算法，即DKFS(Dynamic programming and K-means clustering Feature Selection)算法，包括以下步骤：

1)利用相应的数据预处理方法解决特征数据中存在的数据重复、数据属性值缺失等问题；

如图2所示，描述了基于类间类内距离的动态规划方法的基本过程。首先原始特征空间经过数据归一化等数据预处理后转换成完整、无噪声、质量较好的特征空间。其次根据相应准则确定迭代次数，即动态规划得出的近似最优的特征个数，本发明提出的算法采用迭代法确定特征个数，即在选取不同特征个数的情况下运行算法，最终确定使得实验效果取得最佳的特征个数。接着进入第一阶段，从候选特征空间中只考虑一个特征，若某个特征使得性能函数取得最优值，则将该特征加入到最终特征空间中，且从候选特征空间中将其删除，候选特征空间即为原始特征空间。紧接着判断最终特征空间中的特征个数是否满足要求，若满足，则得到最终的特征空间，否则，进入第二个阶段。同样的从候选特征空间中只考虑一个特征，该特征和最终特征空间组合成最新的最终特征空间，若最新的最终特征空间使得性能函数取得最优值，则更新最终特征空间，将特征加入到最终特征空间中，且从候选特征空间中将其删除。重复上述过程，直至选择出满足相应要求的特征为止。

在给出基于类间类内距离的动态规划方法的具体实现过程前定义如下性质，假设样本个数为n，特征个数为m，类别个数为c。

定义3：样本Sample＝(Data,Feature)，其中样本可以形式化如下:

(F₁ F₂ … F_j … F_m)

(\begin{matrix} X_{1} \\ X_{2} \\ ... \\ X_{i} \\ ... \\ X_{n} \end{matrix}) (\begin{matrix} x_{11} & x_{12} & ... & x_{1 j} & ... & x_{1 m} \\ x_{21} & x_{22} & ... & x_{2 j} & ... & x_{2 m} \\ ... & ... & ... & ... & ... & ... \\ x_{i 1} & x_{i 2} & ... & x_{i j} & ... & x_{i m} \\ ... & ... & ... & ... & ... & ... \\ x_{n 1} & x_{n 2} & ... & x_{n j} & ... & x_{n m} \end{matrix})

定义4：类内距离

定义5：类间距离

其中为所有样本在已选特征子集中相应第j维特征上的均值；

定义6：性能函数

动态规划方法的具体实现如下：

输入：所有样本数据Sample＝(Data,Feature)，类别数c，迭代次数t

输出：最优特征子集Re sult

步骤：

step1：

step2：对于任意F_i∈(Feature-Re sult)，计算J(F_i∪Re sult)；

step3：选择使得J(F_i∪Re sult)最大的F_i；

step4：如果满足迭代次数，则返回Re sult；

否则Re sult＝F_i∪Re sult，跳至step2；

本发明提出的DKFS算法采用类间类内距离作为决策过程中的性能函数，利用动态规划的思想迭代选择特征。由于后一阶段的最优特征仅仅相对于前一阶段的特征空间而言，忽略了其他的特征组合情况，因此这一阶段产生的特征子集从全局来看只有近似最优解的性质，但是生成的特征子集仍然能够良好地反映出样本的分布情况，与所要解决的问题具有强相关性。通常，该阶段产生的结果中可能存在冗余特征，因此需要对特征进行聚类，最终选择无冗余且区分度高的特征。

传统K-means聚类算法的对象通常为样本数据，本发明将K-means聚类对象转换成特征数据，即对特征进行聚类，而非对样本进行聚类。K-means聚类算法具有原理简单、便于实现、且能够高效、快速处理大数据等优势，这些优势使其成为经典的聚类算法之一。同样的K-means聚类算法也存在缺点，如事先需要确定聚类个数、聚类效果依赖于初始中心点的选取、不适用于非球形分布的样本等等，这些缺点导致其应用受到局限，聚类结果存在误差，如图3a、图3b和图4所示，因此本发明提出先对K-means聚类算法进行改进，之后再利用改进后的K-means算法进行特征聚类。本发明重点集中在确定聚类个数及选取初始中心点这两方面对K-means聚类算法进行优化改进，并且引入加权欧氏距离。

1)加权欧氏距离

传统的K-means聚类算法通常采用欧式距离衡量对象(样本)之间的相似性，欧式距离计算简单、应用广泛、但其忽略了样本各个特征的量纲单位具有不一致性，以及没有考虑样本的分布情况给结果带来的影响，这在一定程度上降低了K-means算法的聚类准确率，因此，本发明引入加权欧氏距离。加权欧氏距离考虑了样本的分布情况及特征的重要性等因素将绝对距离转变为相对距离。

概率统计中经常使用样本的标准差来体现样本的分布情况，测量样本的离散程度。因此，本发明使用各个特征维度下样本的标准差来判断特征的重要性，从而进行特征的加权。其定义方式如下：

假设向量X₁＝(x₁₁,x₁₂…x_1m)和X_n＝(x_n1,x_n2…x_nm)，则：

X_{t}^{*} = \frac{1}{n} Σ_{i = 1}^{n} x_{i t}

Y_{t}^{*} = \sqrt{\frac{1}{n} Σ_{i = 1}^{n} {(x_{i t} - X_{t}^{*})}^{2}}

w_{t} = \frac{Y_{i}^{*}}{Σ_{i = 1}^{m} Y_{i}^{*}}

加权欧氏距离：

d i s \tan c e (X_{1}, X_{n}) = \sqrt{w_{1} \cdot {(x_{11} - x_{n 1})}^{2} + ... + w_{m} \cdot {(x_{1 m} - x_{n m})}^{2}}

其中t∈(1,2…m)，表示第t维特征的均值，Y_t ^*表示第t维特征的标准差，w_t表示第t维特征的权重。

由加权欧氏距离的计算公式能够看出特征权重越大，则特征的标准差越大，表明该维特征下数据越离散，因此其对聚类的结果越重要，应该对该维特征越加予以重视。

2)确定聚类个数

本发明提出的算法根据分类性能或者聚类精度的好坏确定聚类个数。首先确定聚类个数的范围，即特征子集划分成几类，若特征个数为n，则聚类个数的范围为其次按照相同间隔选择聚类个数，观察该聚类个数下聚类精度或者分类器的分类性能。最后确定使得聚类精度或者分类器的分类性能达到最优的聚类个数为K-means聚类算法的聚类数目。

3)选择初始中心点

本发明在上述加权欧氏距离的基础上，利用最大最小距离的原理，以及借鉴袁方等人的思想，提出如下选择初始中心点的算法，由于本发明对特征进行聚类，因此将特征当作“样本”，样本当作“特征”，算法描述如下：

输入：特征信息Feature＝(F₁,F₂…F_m)，聚类个数即初始中心点个数k，人为设

定的d1值，d2值，d1＞d2，每个特征的密度值初始化为0，即：

density(F_i)＝0

输出：初始中心点initialCentoids＝(F₁,F₂…F_k)

步骤：

step1：

step2：对于任意F_i∈Feature，计算density(F_i)，即特征的密度值，计算方式如下：

对于任意F_j∈(Feature-F_i)，执行如下操作：

density(F_i)＝density(F_i)+1if dis tan ce(F_i,F_j)＜d1

step3：tFeature＝max(density(F_i))，其中F_i∈Feature，则tFeature为第一个初

始中心点，将tFeature加入到initialCentoids集合中；

step4：对于任意F_i∈(Feature-initialCentoids)，计算

dis tan ce(F_i,initialCentoids)＝min(dis tan ce(F_i,F_j))，F_j∈initialCentoids，则：

tFeature＝max(density(F_i))

其中dis tan ce(F_i,initialCentoids)＞d2；

step5：tFeature为下一个初始中心点，将tFeature加入到initialCentoids集合中；

step6：重复step4-step5的操作，直至满足结束条件为止；

首先计算每个样本的密度，密度定义为：若其他样本与自身的距离小于人为设定的d1值，则密度加一，这样能够减少离群点对聚类结果的影响。接着选择密度最大的样本点作为第一个初始中心点。紧接着计算剩余样本集合中每个样本点与所有初始中心点的距离，则每个样本点与初始中心点集合的最终距离为样本点与所有初始中心点的距离中最小的距离，若某样本点与初始中心点集合的最终距离大于d2且该样本点的密度最大，则选择该样本点作为下一个初始中心点，这样能够避免初始中心点过于密集，导致算法陷入局部最优。重复上述步骤，直至选择出指定个数的初始中心点。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.基于动态规划和K-means聚类的特征选择算法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于动态规划和K-means聚类的特征选择算法，其特征在于：在步骤2)中，首先原始特征空间经过数据归一化处理；其次根据相应准则确定迭代次数，即动态规划得出的近似最优的特征个数，具体是采用迭代法确定特征个数，即在选取不同特征个数的情况下运行算法，最终确定最佳的特征个数；接着进入第一阶段，从候选特征空间中只考虑一个特征，若某个特征使得性能函数取得最优值，则将该特征加入到最终特征空间中，且从候选特征空间中将其删除，候选特征空间即为原始特征空间；紧接着判断最终特征空间中的特征个数是否满足要求，若满足，则得到最终的特征空间，否则，进入第二个阶段；同样的从候选特征空间中只考虑一个特征，该特征和最终特征空间组合成最新的最终特征空间，若最新的最终特征空间使得性能函数取得最优值，则更新最终特征空间，将特征加入到最终特征空间中，且从候选特征空间中将其删除；重复上述过程，直至选择出满足相应要求的特征为止；

定义3：样本Sample＝(Data,Feature)，其中样本可以形式化如下:

(F₁ F₂ … F_j … F_m)

(\begin{matrix} X_{1} \\ X_{2} \\ ... \\ X_{i} \\ ... \\ X_{n} \end{matrix}) (\begin{matrix} x_{11} & x_{12} & ... & x_{1 j} & ... & x_{1 m} \\ x_{21} & x_{22} & ... & x_{2 j} & ... & x_{2 m} \\ ... & ... & ... & ... & ... & ... \\ x_{i 1} & x_{i 2} & ... & x_{i j} & ... & x_{i m} \\ ... & ... & ... & ... & ... & ... \\ x_{n 1} & x_{n 2} & ... & x_{n j} & ... & x_{n m} \end{matrix})

定义4：类内距离

定义5：类间距离

其中为所有样本在已选特征子集中相应第j维特征上的均值；

定义6：性能函数

所述动态规划方法的具体实现如下：

输入：所有样本数据Sample＝(Data,Feature)，类别数c，迭代次数t

输出：最优特征子集Result

步骤：

2.1)

2.2)对于任意F_i∈(Feature-Result)，计算J(F_i∪Result)；

2.3)选择使得J(F_i∪Result)最大的F_i；

2.4)如果满足迭代次数，则返回Result，否则Result＝F_i∪Result，跳至步骤2.2)。

3.根据权利要求1所述的基于动态规划和K-means聚类的特征选择算法，其特征在于，在步骤3)中，聚类个数的确定如下：

加权欧氏距离的计算如下：

假设向量X₁＝(x₁₁,x₁₂…x_1m)和X_n＝(x_n1,x_n2…x_nm)，则：

X_{t}^{*} = \frac{1}{n} Σ_{i = 1}^{n} x_{i t}

Y_{t}^{*} = \sqrt{\frac{1}{n} Σ_{i = 1}^{n} {(x_{i t} - X_{t}^{*})}^{2}}

w_{t} = \frac{Y_{t}^{*}}{Σ_{i = 1}^{m} Y_{i}^{*}}

加权欧氏距离：

d i s \tan c e (X_{1}, X_{n}) = \sqrt{w_{1} \cdot {(x_{11} - x_{n 1})}^{2} + ... + w_{m} \cdot {(x_{1 m} - x_{n m})}^{2}}

初始中心点的选择如下：

density(F_i)＝0

输出：初始中心点initialCentoids＝(F₁,F₂…F_k)

步骤：

3.3.1)

对于任意F_j∈(Feature-F_i)，执行如下操作：

density(F_i)＝density(F_i)+1 if distance(F_i,F_j)＜d1

其中distance(F_i,F_j)为特征F_i和F_j之间的加权欧式距离，见上式；

3.3.4)对于任意F_i∈(Feature-initialCentoids)，

计算distance(F_i,initialCentoids)＝min(distance(F_i,F_j))，

F_j∈initialCentoids，则：

tFeature＝max(density(F_i))

其中distance(F_i,initialCentoids)＞d2；

3.3.6)重复步骤3.3.4)-3.3.5)的操作，直至满足结束条件为止；