CN107818328A

CN107818328A - 结合局部信息的不完整数据相似性刻画方法

Info

Publication number: CN107818328A
Application number: CN201610838409.XA
Authority: CN
Inventors: 陈松灿; 贺丹
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2016-09-14
Filing date: 2016-09-14
Publication date: 2018-03-20

Abstract

本发明提供了一种不完整数据集的相似性刻画方法，针对真实数据信息常存在不完整或不完全的情况，利用数据局部信息的相似性进行缺失(missing)项估计。主要包括六个步骤：1、对不完整数据集进行数据预处理，对不完整数据的缺失项进行特征平均值初始化；2、利用核模糊C均值聚类算法(KFCM)对初始化后的数据集进行聚类，并利用凸差(DC)规划对KFCM的非凸目标函数进行优化；3、求得数据聚类中心和隶属度，将数据缺失项等同地视为目标优化变量进行估值；4、利用k近邻填补算法(kNNI)估算数据缺失值；5、将步骤3与4的估值按参数加权，并优化获取最优填补值再次更新缺失项；6、重复步骤2‑5至迭代收敛条件满足。本方法能快速准确地估算出不完整数据中缺失值。

Description

结合局部信息的不完整数据相似性刻画方法

一、技术领域

本发明涉及一种基于DC规划的不完整数据相似性刻画方法，并利用k近邻填补算法来结合数据间的局部信息，使缺失项填补值或估算更为准确，可应用于诸如社会调查表、金融行业数据、天文采集数据、医疗信息数据或者各种网络数据等存在数据缺失项的数据分析场合。

二、背景技术

数据缺失在实际中是经常发生的，甚至不可避免的。由于某些信息无法获取或者在采集过程中被遗漏，以及对数据结构的理解差异等原因，部分数据会被标记为空白、未知或由特殊标志表示，这种数据通常被称为缺失数据(missing data)或者不完整数据(incomplete data)。数据缺失对数据挖掘的过程和结果都有不利影响，会对后续的数据分析造成相当大的困难。数据缺失可能直接影响到挖掘模式发现的准确性和运行性能，甚至导致输出错误的挖掘模型。处理有缺失数据的数据集也是非常困难的，因为现有的数据挖掘算法通常假设输入的数据是无缺失的。因此，如何高效而准确地处理不完整数据集并对其进行后续的数据挖掘和分析，是一个亟待解决的问题。

目前处理不完整数据的方法包括：直接删除法，只适用于具有缺失项的样本数很少的情况，否则会导致结果偏差较大；相似性传播算法将全部样本看作网络节点，通过网络中各边的信息传递来确定样本的聚类中心；特征加权惩罚项距离度量在k-means算法基础上，对缺失数据施加相应距离惩罚项，以弥补缺失项在聚类过程中造成的损失；k近邻填补算法根据两个样本间距离，选择不完整数据样本的k个最近邻的平均值进行填充；基于核模糊C均值聚类的不完整数据填补算法，通过引入核方法获得了更优的算法聚类性能和更好的对复杂数据结构的处理能力。

三、发明内容

为了提高现有不完整数据聚类算法填补值的准确性，本发明提出一种不完整数据集的相似性刻画方法，利用了数据局部信息的相似性进行缺失项填补值的估计，具体步骤如下：

(1)不完整数据预处理

由数据集中包含缺失项的某列特征计算其已知项的平均值，用平均值作为缺失项的初始估计值，并在算法的初始化阶段，由核模糊C均值聚类算法(KFCM)迭代计算五次，得到相应的初始聚类中心和初始隶属度矩阵。

(2)基于DC规划的核模糊C均值聚类

先对聚类中心和数据隶属度的可行域分别凸化处理，将其可行域扩展为相应的凸集；再对KFCM目标函数进行DC分解，将非凸目标函数变为两个凸函数之差的形式；然后利用DCA算法优化上述DC问题，以凸函数与一阶线性函数之和的近似形式逼近凸差化的目标函数，根据对偶理论定义原DC问题和对偶DC问题的关系，微分并投影到凸化可行域，求得算法的聚类中心和隶属度矩阵。

(3)利用拉格朗日乘子法计算数据缺失项的估值

在求得数据的聚类中心和隶属度之后，将缺失数据项统一看作目标变量，记录缺失项的行标号和列标号，利用拉格朗日乘子法和KKT条件求取最优值，即对缺失项求目标函数的导数并令其为零，优化求解得到其最优的估计值。

(4)利用k近邻填补算法计算数据缺失项的估值

最近邻算法的原理是指两个具有最近距离的事例的关系是最紧密的。因此，缺失数据的值可用它最近距离的事例该属性上的值来代替。将k近邻填补算法(kNNI)运用到数据填补中，利用与缺失记录最相似k条记录的加权均值作为填补估计值。

(5)加权估计值以更新数据缺失项

将第三步与第四步求得的估计值按参数加权，并优化获取最优填补估计值更新数据缺失项。

(6)判断结果是否收敛

对数据集所有缺失数据项填补更新完成后，通过比较本次与上一次结果之间的误差判断算法是否收敛；若满足算法收敛条件，即误差小于给定阈值，当前更新结果为算法执行的最终结果；否则，更新缺失数据项为当前求得的最优值，重新进行迭代求解过程。

本发明提供了一种结合局部信息的不完整数据相似性刻画方法，该方法采用聚类过程和缺失项优化过程的交替迭代，得到数据缺失项的一个最优估计值，并利用k近邻填补算法对数据间局部信息的相似性进行缺失项估计，将其估计值与最优估计值加权求和，提高了填补值的准确性。

四、附图说明

附图1结合局部信息的不完整数据相似性刻画方法流程图

附图2基于DC规划的核模糊C均值聚类算法流程图

五、具体实施方式

下面将结合附图对本发明的技术内容作进一步说明。

附图1展示了本发明中结合局部信息的不完整数据相似性刻画方法的流程图，包括如下步骤：

第一步，对不完整数据集进行数据预处理，对不完整数据的缺失项进行特征平均值初始化。由数据集中包含缺失项的某列特征计算其已知项的平均值，用平均值作为缺失项的初始估计值，并在算法初始化阶段，由核模糊C均值聚类算法(KFCM)迭代计算五次，得到初始聚类中心和初始隶属度矩阵。

第二步，利用KFCM算法对初始化后的数据集合聚类，并利用凸差(DC)规划对KFCM目标函数进行非凸优化。

DC规划是非凸规划的重要组成部分，已在经济、工程等领域有着广泛的应用。DC规划存在众多求解方法，大致可分为两类：一类是基于组合优化的算法(如分支定界方法，割平面法等等)，目的是找出问题的全局最优解，但计算量往往很大；第二类常用算法通常被称为DCA算法，和组合优化方法不同，DCA基于凸分析和对偶理论，通过探讨原问题与对偶问题之间的相对关系来实现优化，大大减少优化过程的计算量。DCA诞生于1997年，由Tao与Hoai提出并逐步完善。该算法一般用来优化无约束DC规划，能快速地搜索到问题的解，在处理大规模问题时较之组合优化方法有很大的效率优势，故本方法选择DCA算法对DC化的新算法进行优化求解，以期用尽可能小的计算代价来避免目标函数的解得到极值点或鞍点。

DCA算法的核心思想：根据DC规划的局部最优条件，将DC规划问题转换为求解序列{x^k}和{y^k}的收敛值(分别对应于原问题和对偶问题)。在DCA的第k次迭代过程中，先将函数h用其仿射形式逼近(相当于求解)，再对替换后的凸函数进行凸规划优化(相当于求解)。

KFCM算法的目标函数为：

分别对聚类中心和隶属度的可行域空间进行凸化，扩展得到其相应的凸集合。再对KFCM算法的目标函数进行DC分解：

J_m(T，V)＝G(T，V)-H(T，V)

其中，函数G和H在凸可行域中均为凸函数。

采用DCA来优化上述最值问题，将问题转化为凸函数与一阶线性函数之和的形式，分别求聚类中心和隶属度的次微分并分别投影到各自凸化可行域空间中，得到本次迭代聚类中心和隶属度矩阵。附图2展示了基于DC规划的核模糊C均值聚类算法流程图。

第三步，求得数据聚类中心和隶属度，将缺失数据项统一看作目标变量，记录缺失项的行标号和列标号，利用拉格朗日乘子法和KKT条件求取最优值，即对缺失项求目标函数的导数并令其为零，可优化求解得到其最优的估计值。

记录缺失项的行标号和列标号，对缺失项求导并令其为零，得到缺失项的计算公式：

其中，x_kj是数据缺失项，v_ij和u_ik分别是上一步中得到的聚类中心和隶属度。

第四步，利用k近邻填补算法(kNNI)计算数据缺失项的估计值，将k近邻算法运用到数据填补中，利用与缺失记录最相似k条记录的加权均值作为填补值。

其中，x_i＝(x_i ^c，x_i ^m)，x_i ^c是数据完整部分，x_i ^m是缺失的部分，D_ij表示项i和项j之间的距离。

第五步，将第三步与第四步求得的估计值按参数加权，调节参数取最优填补值更新数据缺失项。利用k近邻算法对缺失数据进行填补具有准确度高、对异常值不敏感的优点，在填补值的计算过程中增加了k近邻局部信息提供的约束作用，使得缺失项的填补值更接近于真实值：

其中，x_i＝(x_i ^c，x_i ^m)，x_i ^c是数据完整部分，x_i ^m是缺失的部分，x_i ³是第三步求得的估计值，x_i ⁴是第四步求得的估计值，α是属于[0，1]的加权参数。

第六步，判断本次缺失项填补值与上一次缺失项填补值之间的差是否小于给定的阈值，迭代更新第二、三、四、五步直至满足收敛条件。对数据集中所有缺失数据项更新完成后，通过比较本次与上一次结果的误差判断算法是否收敛；若满足算法收敛条件，即误差小于给定阈值，当前更新结果为算法执行的最终结果；否则，更新缺失数据项为当前求得的最优值，重新进行迭代求解过程。

熟知本领域的人士将理解，虽然这里为了便于解释描述了具体实施例，但是可在不背离本发明精神和范围的情况下作出各种改变。因此，除了所附权利要求之外，不能用于限制本发明。

Claims

1.一种结合局部信息的不完整数据相似性刻画方法，其特征在于，包括下列步骤：

第一步，对不完整数据集进行数据预处理，对不完整数据的缺失项进行特征平均值初始化；

由数据集中包含缺失项的某列特征计算其已知项的平均值，填写缺失项的值，并在算法的初始化阶段由核模糊C均值聚类算法迭代计算五次得到相应的初始聚类中心和初始隶属度矩阵；

第二步，利用核模糊C均值聚类算法(KFCM)对初始化后的数据集合聚类，并利用凸差(DC)规划对KFCM非凸目标函数进行优化；

先对聚类中心和数据隶属度的可行域分别凸化处理，将其可行域扩展为相应的凸集；再对KFCM目标函数进行DC分解，将非凸目标函数变为两个凸函数之差的形式；然后利用DCA算法优化上述DC问题，以凸函数与一阶线性函数之和的近似形式逼近凸差化的目标函数，根据对偶理论定义原DC问题和对偶DC问题的关系，微分并投影到凸化可行域，求得算法的聚类中心和隶属度矩阵；

第三步，求得数据聚类中心和隶属度，将数据缺失项视为目标优化变量，记录缺失项的行标号和列标号，利用拉格朗日乘子法和KKT条件求取最优值，即对缺失项求目标函数的导数并令其为零，可优化求解得到其最优的估值；

第四步，利用k近邻填补算法(kNNI)计算数据缺失项的估计值，将k近邻算法运用到数据填补中，利用与缺失记录最相似k条记录的加权均值作为填补值；

第五步，将第三步与第四步的估值按参数加权，并优化获取最优填补值再次更新缺失项；

第六步，判断本次缺失项填补值与上一次缺失项填补值之间的差是否小于给定的阈值，迭代更新第二、三、四、五步直至满足收敛条件；

对数据集中所有缺失数据项填补更新完成后，通过比较本次与上一次结果之间的误差判断算法是否收敛；若满足算法收敛条件，即误差小于给定阈值，当前更新结果为算法执行的最终结果；否则，更新缺失数据项为当前求得的最优值，重新进行迭代求解过程。

2.根据权利要求1所述的结合局部信息的不完整数据相似性刻画方法，其特征在于，在上述第一步中用缺失特征的已知项平均值来初始化缺失项数据，采用核模糊C均值聚类算法初始化聚类中心和隶属度矩阵，减少了后续算法的迭代过程，加快了算法的收敛速度。

3.根据权利要求1所述的结合局部信息的不完整数据相似性刻画方法，其特征在于，在上述第二步中核模糊C均值聚类算法的目标函数为：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>J</mi> <mi>m</mi> </msub> <mrow> <mo>(</mo> <mi>U</mi> <mo>,</mo> <mi>V</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>u</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mi>m</mi> </msubsup> <mo>|</mo> <mo>|</mo> <mi>&Phi;</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mi>&Phi;</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>u</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mi>m</mi> </msubsup> <mrow> <mo>(</mo> <mi>K</mi> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> </mrow> <mo>)</mo> <mo>+</mo> <mi>K</mi> <mo>(</mo> <mrow> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>-</mo> <mn>2</mn> <mi>K</mi> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>.</mo> </mrow> </mtd> </mtr> </mtable> </mfenced>

分别对聚类中心和隶属度的可行域空间进行凸化，扩展得到其相应的凸集合。再对核模糊C均值聚类算法的目标函数进行DC分解：

J_m(T，V)＝G(T，V)-H(T，V)

其中，函数G和H在凸可行域中均为凸函数。

采用DCA算法来优化上述DC问题，将问题转化为凸函数与一阶线性函数之和的形式，近似逼近凸差化的目标函数，分别求聚类中心和隶属度的次微分，并分别投影到各自的凸化可行域空间中，得到本次迭代的聚类中心和隶属度矩阵。

4.根据权利要求3所述的结合局部信息的不完整数据相似性刻画方法，其特征在于，DC规划是非凸规划的重要组成部分，已在经济、工程等领域有着广泛的应用。

DC规划存在众多求解方法，大致可分为两类：一类是基于组合优化的算法(如分支定界方法，割平面法等等)，目的是找出问题的全局最优解，但计算量往往很大；第二类常用算法通常被称为DCA算法，和组合优化方法不同，DCA基于凸分析和对偶理论，通过探讨原问题与对偶问题之间的相对关系来实现优化，大大减少优化过程的计算量。DCA诞生于1997年，由Tao与Hoai提出并逐步完善。该算法一般用来优化无约束DC规划，能快速地搜索到问题的解，在处理大规模问题时较之组合优化方法有很大的效率优势，故本方法选择了DCA算法对DC化的新目标进行优化求解，以期用尽可能小的计算代价来避免目标函数的解得到极值点或鞍点。

DCA算法的核心思想：根据DC规划的局部最优条件，将DC规划问题转换为求解序列{x^k}和{y^k}的收敛值(分别对应于原问题和对偶问题)。在DCA的第k次迭代过程中，先将函数h用其仿射形式逼近，相当于求解

<mrow> <msup> <mi>y</mi> <mi>k</mi> </msup> <mo>&Element;</mo> <mo>&part;</mo> <mi>h</mi> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mi>k</mi> </msup> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

再对替换后的凸函数进行凸规划优化，相当于求解

<mrow> <msup> <mi>x</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msup> <mo>&Element;</mo> <mo>&part;</mo> <msup> <mi>g</mi> <mo>*</mo> </msup> <mrow> <mo>(</mo> <msup> <mi>y</mi> <mi>k</mi> </msup> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

5.根据权利要求1所述的结合局部信息的不完整数据相似性刻画方法，其特征在于，在上述第三步中将缺失数据项统一看作目标变量，记录缺失项的行标号和列标号，利用拉格朗日乘子法和KKT条件求解，即对缺失项求目标函数的导数并令其为零，得到缺失项填补值的计算公式：

<mrow> <msub> <mi>x</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </munderover> <msubsup> <mi>u</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mi>m</mi> </msubsup> <mi>K</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>v</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </munderover> <msubsup> <mi>u</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mi>m</mi> </msubsup> <mi>K</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>.</mo> </mrow>

6.根据权利要求1所述的结合局部信息的不完整数据相似性刻画方法，其特征在于，在上述第四步中利用k近邻填补算法(kNNI)计算数据缺失项的估计值，将k近邻算法运用到数据填补中，设一个待填补项，利用与缺失记录最相似k条记录的加权均值作为缺失项的填补值：

<mrow> <msubsup> <mi>x</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mi>m</mi> </msubsup> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <mfrac> <msubsup> <mi>D</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>v</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msubsup> <mi>D</mi> <mrow> <mi>i</mi> <mi>v</mi> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> </mrow> </mfrac> <msub> <mi>x</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>.</mo> </mrow>

其中，是数据完整部分，是缺失的部分，D_ij表示项i和项j之间的距离。

7.根据权利要求1所述的结合局部信息的不完整数据相似性刻画方法，其特征在于，在上述第五步中，将第三步与第四步求得的估计填补值按参数加权，调节参数取得最优填补值以更新数据缺失项。利用k近邻算法对缺失数据进行填补具有准确度高、对异常值不敏感的优点，在填补值的计算过程中增加了k近邻局部信息提供的约束作用，使得缺失项的填补值更接近于真实值：

<mrow> <msubsup> <mi>x</mi> <mi>i</mi> <mi>m</mi> </msubsup> <mo>=</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&alpha;</mi> <mo>)</mo> </mrow> <msubsup> <mi>x</mi> <mi>i</mi> <mn>3</mn> </msubsup> <mo>+</mo> <msubsup> <mi>&alpha;x</mi> <mi>i</mi> <mn>4</mn> </msubsup> <mo>.</mo> </mrow>

其中，是数据完整部分，是缺失的部分，是第三步求得的估计值，是第四步求得的估计值，α是属于[0，1]的加权参数。