CN107291765A

CN107291765A - 基于dc规划处理缺失数据的聚类方法

Info

Publication number: CN107291765A
Application number: CN201610216242.3A
Authority: CN
Inventors: 陈松灿; 贺丹
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2016-04-05
Filing date: 2016-04-05
Publication date: 2017-10-24

Abstract

本发明提供了一种基于DC规划处理缺失数据的聚类方法，针对现实应用中真实采集的数据集常出现数据缺失的情况进行缺失项估计。主要包括四个步骤：1、对数据集缺失项采用该特征的平均值进行初始化处理；2、采用核模糊C均值聚类算法(KFCM)对预处理后数据集聚类，并采用凸差(DC)方法对KFCM目标函数进行非凸规划优化，使最优解尽可能跳出局部极值点的吸引域；3、求得聚类中心和数据隶属度后，将缺失数据项看作变量进行优化，以优化估计值更新缺失项；4、判断本次中所有缺失数据优化解与上一次缺失优化解的差是否小于给定阈值，迭代更新2、3直至满足收敛条件。本方法能够快速地求得缺失项的估计值，并提高原KFCM算法的聚类精度，且适用于大规模数据集。

Description

基于DC规划处理缺失数据的聚类方法

一、技术领域

本发明涉及一种基于DC规划理论和核模糊C均值聚类算法实现缺失数据集聚类的方法，多应用于数据挖掘领域，尤其适用大规模数据集聚类。

二、背景技术

随着现代信息技术的不断发展，人们能够轻易地获取庞大的数据资源，数据挖掘和分析技术变得越来越重要。聚类分析作为数据挖掘技术的重要工具，常用来对数据进行预处理，是其不可或缺的子领域。由于数据的快速增长，收集的数据资源中数据项缺失的情况也日益严重，这无疑增加了数据分析处理的难度。因此，如何有效地对缺失数据集进行处理成为现下亟待解决的问题。

近年来，国内外学者提出了各种不同的处理方法，已有的方法包括：将不完整的数据项直接删除处理；对含有缺失值的数据项使用部分距离进行度量；将缺失数据项当成额外变量进行最小值填充等。但这些方法都是针对缺失项数据进行单独处理，并未考虑缺失项对聚类过程的影响。因此，Hathaway等人提出在计算聚类中心、隶属度等聚类结果与计算缺失项估计值交替进行，既保证聚类性能又保证了缺失项尽可能接近所属类的聚类中心特征值。在模糊C均值聚类算法对缺失数据项训练填充的基础上，Zhang等人提出引入核方法，将数据从原空间映射到特征空间并在特征空间中进行聚类，该方法被称为核模糊C均值聚类算法(KFCM)。然而，由于KFCM目标函数的非凸性，在算法优化过程中非凸函数往往会陷入局部极值解。为了改善目标非凸导致的解缺陷问题，我们拟采用DC规划将原算法的目标函数变为两个凸函数之差形式，利用DCA算法将凸差形式用一阶线性形式逼近，将目标函数转化为近似凸函数，期望能搜索到算法相对更优的解。其中，DC规划是非凸规划和全局优化的重要组成部分，已在经济、工程、计算数学等领域取得了广泛的应用。求解DC规划问题的算法有很多，主要可分为两类：一类是基于组合优化的算法(如分支定界方法，割平面法等等)，通过某些变形来求解连续的问题，目的是要找出问题的全局最优解；第二类常用的算法在文献中通常被称为DCA算法。和组合优化的方法不同，DCA算法是基于凸分析和对偶理论的方法，通过讨论原始问题与对偶问题之间的关系来进行优化求解，在处理大规模问题时较之全局最优方法有很大的优势。

综上所述，考虑数据集中缺失项可能对聚类结果造成的影响，和缺失项估计值的准确性，本发明提出一种基于DC规划处理缺失数据的聚类方法，在聚类过程和缺失项填充过程的交替迭代求解中，尽可能地对所求结果进行优化调整。

三、发明内容

为解决现实应用中真实采集的数据集常出现数据缺失的情况，本发明提出一种基于DC规划处理缺失数据的聚类方法，具体步骤如下：

(1)初始化缺失数据项

在算法的初始化阶段，由KFCM算法迭代计算五次得到相应的初始聚类中心和初始隶属度矩阵，由数据集中包含缺失项的某列特征计算已知项的平均值作为初始缺失值。

(2)基于DC规划的KFCM聚类过程

采用核模糊C均值聚类算法(KFCM)对预处理后数据集聚类，并采用凸差(DC)方法对KFCM目标函数进行非凸规划优化，使最优解尽可能跳出局部极值点的吸引域。先对聚类中心和隶属度的可行域分别进行凸化，将可行域扩展为相应的凸集；再对KFCM目标函数进行DC分解，将非凸目标函数变为两个凸函数之差的形式；然后利用DCA算法优化DC规划，以凸函数与一阶线性函数之和的近似形式逼近凸差化的目标函数，根据对偶理论探讨原问题和对偶问题的关系，微分并投影求得聚类算法的聚类中心和隶属度矩阵；

(3)计算缺失数据项估计值

求得聚类中心和数据隶属度后，将缺失数据项统一看作变量，记录缺失项的行标号和列标号，利用拉格朗日乘子法和KKT条件求取最优值，即对缺失项求目标函数的导数并令其为零，可求得其最优值，再以最优的估计值更新缺失数据项；

(4)判断结果是否收敛

对数据集中所有缺失数据项更新完成后，通过比较本次缺失数据估计值与上一次结果的误差判断算法是否收敛；若满足算法收敛条件，即误差小于给定阈值，当前更新结果为算法执行的最终结果；否则，更新缺失数据项为当前求得的最优值，重新进行迭代求解过程直至满足收敛条件。

本发明提供了一种基于DC规划处理缺失数据的聚类方法，该方法采用聚类过程和缺失项填充过程的交替迭代处理，并提出在初始化阶段由数据集中已知项平均值作为初始缺失值；然后采用KFCM算法对预处理后数据集聚类，针对聚类算法目标函数的非凸性，采用DC规划方法凸化聚类中心和隶属度的可行域，凸差化算法的目标函数；采用DCA算法优化DC规划问题，微分并投影求得聚类算法的聚类中心和隶属度矩阵；再利用本次迭代聚类结果优化求解缺失数据项的估计值，对缺失项求目标函数的导数并令其为零得其最优值；对所有数据中缺失值优化求解后，比较本次缺失数据估计值与上一次结果的误差，迭代上述过程直至满足收敛条件。在与部分典型数据缺失处理方法的对比实验中，本发明在聚类精度和时间性能等方面都表现出一定的优越性，尤其是对大规模数据集的处理。

四、附图说明

附图1基于DC规划处理缺失数据的聚类方法流程图

附图2基于DC规划的KFCM算法流程图

五、具体实施方式

下面将结合附图对本发明的技术内容作进一步说明，本具体实施方式中实验数据均来自UCI标准数据库中的真实数据集，并按比例进行随机缺省。

附图1展示了本发明提到的基于DC规划处理缺失数据的聚类方法的具体流程图，包括如下步骤：

第一步，对数据集缺失项采用该特征的平均值进行初始化处理。在算法初始化阶段，由KFCM算法迭代计算五次得到相应的初始聚类中心和初始隶属度矩阵，由数据集中包含缺失项的某列特征计算已知项平均值作为初始缺失值。以KFCM算法初始化聚类中心和隶属度矩阵，以缺失特征的平均值初始化缺失项数据，减少了后续算法的迭代过程，加快了算法的运行速度。

第二步，采用核模糊C均值聚类算法(KFCM)对预处理后数据集聚类，并采用凸差(DC)方法对KFCM目标函数进行非凸规划优化，使最优解尽可能跳出局部极值点的吸引域。

先对聚类中心和隶属度的可行域分别进行凸化，将可行域扩展为相应的凸集；再对KFCM目标函数进行DC分解，将非凸目标函数变为两个凸函数之差的形式；然后利用DCA算法优化DC规划，以凸函数与一阶线性函数之和的近似形式逼近凸差化的目标函数，根据对偶理论探讨原问题和对偶问题的关系，微分并投影求得聚类算法的聚类中心和隶属度矩阵。

DC规划是非凸规划的重要组成部分，已在经济、工程等领域有着广泛的应用。DC规划存在众多求解方法，大致可分为两类：一类是基于组合优化的算法(如分支定界方法，割平面法等等)，目的是找出问题的全局最优解，但计算量往往很大；第二类常用算法通常被称为DCA算法，和组合优化方法不同，DCA基于凸分析和对偶理论，通过探讨原问题与对偶问题之间的相对关系来实现优化，大大减少优化过程的计算量。DCA诞生于1997年，由Tao与Hoai提出并逐步完善。该算法一般用来优化无约束DC规划，能快速地搜索到问题的解，在处理大规模问题时较之组合优化方法有很大的效率优势，故本方法选择了DCA对DC化的新算法进行优化求解，以期用尽可能小的计算代价来避免目标函数的解得到极值点或鞍点。

DCA算法的核心思想：根据DC规划的局部最优条件，将DC规划问题转换为求解序列{x^k}和{y^k}的收敛值(分别对应于原问题和对偶问题)。在DCA的第k次迭代过程中，先将函数h用其仿射形式逼近(相当于求解)，再对替换后的凸函数进行凸规划优化(相当于求解)。

KFCM算法的目标函数为：

分别对聚类中心和隶属度的可行域空间进行凸化，扩展得到其相应的凸集合。再对KFCM算法的目标函数进行DC分解：

J_m(T，V)＝G(T，V)-H(T，V)

其中，函数G和H在凸可行域中均为凸函数。

采用DCA来优化上述最值问题，将问题转化为凸函数与一阶线性函数之和的形式，分别求聚类中心和隶属度的次微分并分别投影到各自可行域空间中，得到本次迭代中聚类中心和隶属度矩阵。附图2展示了基于DC规划的KFCM算法流程图。

第三步，求得聚类中心和数据隶属度后，将缺失数据项统一看作变量，记录缺失项的行标号和列标号，利用拉格朗日乘子法和KKT条件求取最优值，即对缺失项求目标函数的导数并令其为零，可求得其最优值，再以最优的估计值更新缺失数据项。

记录缺失项的行标号和列标号，对缺失项求导并令其为零，得到缺失项的计算公式：

其中，x_kj是数据缺失项，v_ij和u_ik分别是上一步中得到的聚类中心和隶属度。

第四步，判断本次所有缺失数据优化解与上一次缺失优化解的差是否小于给定阈值，迭代更新第二、三步直至满足收敛条件。对数据集中所有缺失数据项更新完成后，通过比较本次与上一次结果的误差判断算法是否收敛；若满足算法收敛条件，即误差小于给定阈值，当前更新结果为算法执行的最终结果；否则，更新缺失数据项为当前求得的最优值，重新进行迭代求解过程。

为了验证本发明提出的方法DCKFCM的聚类有效性，结合本发明的实施方案进行实验分析，将DCKFCM与五种重要的缺失数据处理算法，WDS、PDS、OCS、NPS和KFCM对比。验证数据集为UCI标准数据集，如表1所示。

表1 UCI数据集描述

通过对比实验的聚类精度结果可知，经过DC规划改进后新算法的聚类性能得到了提升，尤其是对大规模数据集进行处理时聚类精度有明显提高，验证了本发明提出的聚类方法有效。且根据已有的结果数据显示，经过DC规划后的算法能缩短将近一半的运行时间。

Claims

1.一种基于DC规划处理缺失数据的聚类方法，其特征在于，包括下列步骤：

第一步，对数据集缺失项采用该特征的平均值进行初始化处理；

在算法的初始化阶段，由KFCM算法迭代计算五次得到相应的初始聚类中心和初始隶属度矩阵，由数据集中包含缺失项的某列特征计算已知项平均值作为初始缺失值；

第二步，采用核模糊C均值聚类算法(KFCM)对预处理后数据集聚类，并采用凸差(DC)方法对KFCM目标函数进行非凸规划优化，使最优解尽可能跳出局部极值点的吸引域；

先对聚类中心和隶属度的可行域分别进行凸化，将可行域扩展为相应的凸集；再对KFCM目标函数进行DC分解，将非凸目标函数变为两个凸函数之差的形式；然后利用DCA算法优化DC规划，以凸函数与一阶线性函数之和的近似形式逼近凸差化的目标函数，根据对偶理论探讨原问题和对偶问题的关系，微分并投影求得聚类算法的聚类中心和隶属度矩阵；

第三步，求得聚类中心和数据隶属度后，将缺失数据项统一看作变量，记录缺失项的行标号和列标号，利用拉格朗日乘子法和KKT条件求取最优值，即对缺失项求目标函数的导数并令其为零，可求得其最优值，再以最优的估计值更新缺失数据项；

第四步，判断本次所有缺失数据优化解与上一次缺失优化解的差是否小于给定阈值，迭代更新第二、三步直至满足收敛条件；

对数据集中所有缺失数据项更新完成后，通过比较本次与上一次结果的误差判断算法是否收敛；若满足算法收敛条件，即误差小于给定阈值，当前更新结果为算法执行的最终结果；否则，更新缺失数据项为当前求得的最优值，重新进行迭代求解过程。

2.根据权利要求1所述的基于DC规划处理缺失数据的聚类方法，其特征在于，在上述第一步中以KFCM算法初始化聚类中心和隶属度矩阵，以缺失特征的平均值初始化缺失项数据，减少了后续算法的迭代过程，加快了算法的运行速度。

3.根据权利要求1所述的基于DC规划处理缺失数据的聚类方法，其特征在于，在上述第二步中KFCM算法的目标函数为：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>J</mi> <mi>m</mi> </msub> <mrow> <mo>(</mo> <mi>U</mi> <mo>,</mo> <mi>V</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>u</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mi>m</mi> </msubsup> <msup> <mrow> <mo>||</mo> <mi>&Phi;</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mi>&Phi;</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>||</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>u</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mi>m</mi> </msubsup> <mrow> <mo>(</mo> <mi>K</mi> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> </mrow> <mo>)</mo> <mo>+</mo> <mi>K</mi> <mo>(</mo> <mrow> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>-</mo> <mn>2</mn> <mi>K</mi> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>.</mo> </mrow> </mtd> </mtr> </mtable> </mfenced>

J_m(T，V)＝G(T，V)-H(T，V)

其中，函数G和H在凸可行域中均为凸函数。

采用DCA来优化上述最值问题，将问题转化为凸函数与一阶线性函数之和的形式，分别求聚类中心和隶属度的次微分并分别投影到各自的可行域空间中，得到本次迭代中聚类的聚类中心和隶属度矩阵。

4.根据权利要求1所述的基于DC规划处理缺失数据的聚类方法，其特征在于，在上述第三步中记录缺失项的行标号和列标号，对缺失项求导并令其为零，得到缺失项的计算公式：

<mrow> <msub> <mi>x</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </munderover> <msubsup> <mi>u</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mi>m</mi> </msubsup> <mi>K</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>v</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </munderover> <msubsup> <mi>u</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mi>m</mi> </msubsup> <mi>K</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>.</mo> </mrow>

5.根据权利要求3所述的基于DC规划处理缺失数据的聚类方法，其特征在于，DC规划是非凸规划的重要组成部分，已在经济、工程等领域有着广泛的应用。

DC规划存在众多求解方法，大致可分为两类：一类是基于组合优化的算法(如分支定界方法，割平面法等等)，目的是找出问题的全局最优解，但计算量往往很大；第二类常用算法通常被称为DCA算法，和组合优化方法不同，DCA基于凸分析和对偶理论，通过探讨原问题与对偶问题之间的相对关系来实现优化，大大减少优化过程的计算量。DCA诞生于1997年，由Tao与Hoai提出并逐步完善。该算法一般用来优化无约束DC规划，能快速地搜索到问题的解，在处理大规模问题时较之组合优化方法有很大的效率优势，故本方法选择了DCA对DC化的新算法进行优化求解，以期用尽可能小的计算代价来避免目标函数的解得到极值点或鞍点。