CN104866578A

CN104866578A - 一种不完整数据混合填充方法

Info

Publication number: CN104866578A
Application number: CN201510274616.2A
Authority: CN
Inventors: 陈志奎; 赵亮; 杨镇楠
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2015-05-26
Filing date: 2015-05-26
Publication date: 2015-08-26
Anticipated expiration: 2035-05-26
Also published as: CN104866578B

Abstract

本发明公开了一种不完整数据混合填充方法，包括步骤：(1)对数据集中缺失数据值进行特殊值填充预处理；(2)利用栈式自动编码机提取数据属性重要特征；(3)基于提取特征对填充后的数据集进行增量聚类；(4)在得到的每一个聚类结果中利用与缺失数据对象最相似的前k％个对象相应属性值，对其进行属性值加权填充。判断本次所有缺失数据填充值与上一次填充值的差异，迭代更新(2)-(4)直至满足填充值收敛条件。本发明实施考虑数据集中数据的局部相似特性，数据聚类的精确性，类中数据填充的准确性，以及算法实际应用的非监督性与时效性，构建不完整数据先聚类后填充算法，并利用特殊值填充、栈式自动编码机、增量聚类、类内前k％完整数据对象加权填充等思想保证填充结果的精度和填充算法的速度。

Description

一种不完整数据混合填充方法

技术领域

本发明涉及计算机技术领域，具体涉及一种基于栈式深度学习网络和增量聚类实现不完整数据混合填充的方法。

背景技术

随着物联网、社交网络及电子商务的发展，数据以前所未有的速度增长、积累，不完整数据也随之而来，导致数据质量严重降低。在实际的数据分析过程中，对缺失数据进行高效填充预处理是当前学术界与工业界面临的又一主要问题。

较早的方法利用数据集中属性值的平均值对缺失数据进行填充，另一种方法则是直接删除含有缺失值的记录。与直接删除缺失记录相比，平均值填充产生更多的错误分析结果，但是，简单的数据删除将会严重影响在数据统计分析与挖掘过程中数据集的可用性。虽然在之后的一些研究中，提出很多不完整数据填充算法，如最大期望估计法，K个最近邻数据填充方法，本地权重线性近似填充算法，贝叶斯主成分分析方法，基于支持向量回归技术填充方法和利用神经网络进行数据填充，以及多种技术结合的混合算法等。但这些方法都在整个数据集上对缺失数据值进行填充处理，没有很好的考虑局部数据的内在相似特性。因此，Rahman等人提出DMI算法，利用决策树方法将数据进行分类，再在同一类中对缺失数据属性值进行优化填充。另外，一些基于K-means和Fuzzy C-means的缺失数据聚类填充算法也相继被提出来，这些算法的整体思想就是利用聚类方法将不完整数据集进行分类，然后在每一类中对缺失数据进行填充处理。但在这些方法中，数据分类结果对缺失数据填充精度影响很大。虽然之后许多方法针对数据分类过程可能产生不准确等情况，提出一些基于聚类的混合数据填充算法，如Azim等人利用多层神经网络和模糊C-means聚类算法对不完整数据进行训练填充，I.B.Aydilek等利用基于支持向量机和遗传算法的模糊c-means算法对缺失数据填充。但是没有一种聚类能够保证划分结果的100％正确，所以在得到的簇中选取候选填充数据成为关键。此外现有数据填充用到的聚类算法大多需要指定聚类结果数目，没有一定的通用性。不但如此，在数据量不断扩张的今天，算法的实际应用中，非监督数据学习与快速的数据分析对数据价值的开发带来更大挑战。

综上所述，考虑数据集中数据的局部相似特性，数据聚类的精确性，类中数据填充的准确性，以及算法实际应用的非监督性与时效性，本发明提出一种基于栈式自动编码机与增量聚类的不完整数据混合填充方法。

发明内容

考虑到数据集中数据间的局部相似性，基于数据先聚类后填充的思想，本发明提出一种不完整数据混合填充方法。为了保证该方法的填充精度和执行速度，本发明利用特殊值填充预处理、栈式自动编码机、增量聚类、类内前k％相似对象加权填充等方法对不完整数据集进行分析处理。具体包括如下步骤：

(1)特殊值填充预处理：

由于本发明提出方法不断迭代更新，缺失数据初始填充值对最终填充精度影响很小，因此在利用栈式自动编码机对缺失数据进行特征深度提取之前，将缺失数据值设置为不同于所有数据集中数据的特殊值，减少缺失数据初始值设置的时间。

(2)栈式自动编码机特征提取：

以自动编码机为基础模块构建自底向上的栈式自动编码机深度学习网络，并根据逐层训练思想和反向传播算法计算、更新网络参数，提取数据对象的重要特征。在自动编码机训练的过程中，输入数据经过隐藏层，在输出层重构，然后通过反向传播算法更新网路参数，当训练稳定时，就在隐藏层保留了重构数据的重要特征。每一层自动编码机提取的数据特征都将作为上一层的输入，继续完成训练过程，最上层提取的特征即为整个栈式学习网络的输出。

(3)增量聚类数据划分：

在栈式深度学习网络训练稳定之后，利用增量数据聚类方法，对得到的数据特征值聚类。在聚类初始阶段读取数据特征集的前k条数据作为初始聚类中心，并维护各中心点和中心点间相似度矩阵，从第k+1条数据特征开始，计算其与现有各聚类中心间的相似度，得到相似度最大值maxValue，值越大越相似：如果maxValue小于等于中心点间相似度矩阵的最小值，将当前数据点设定为聚类中心；如果maxValue大于等于中心点间相似度矩阵的最大值，将当前数据点划分到与其最相似的中心点代表的簇中；如果maxValue小于中心点间相似度矩阵最大值，同时大于中心点间相似度矩阵的最小值，合并中心点最相似的两个簇，并将当前数据点设定为新的聚类中心点。更新中心点和中心点间相似度矩阵，继续读取下一条数据直到处理结束。

(4)类内前k％最相似数据加权填充：

得到不完整数据聚类结果后，在每一类中判断含有缺失属性值的数据对象比例，如果其超过给定阈值ξ，将类中数据划分到与其最相似的中心点所代表的其他簇中，再在对应类中完成缺失数据填充。如果缺失数据比例小于阈值ξ，则在类中计算含有缺失数据对象与其他对象的相似度，选取相似度最大且对应属性值不缺失的前k％个数据对象，利用其对应属性值进行相似度加权填充。

(5)填充收敛判断：

对数据集中所有缺失数据属性值填充结束后，通过比较连续两次填充结果的误差判断算法是否收敛。如果满足算法收敛条件，当前填充结果为算法执行填充最终结果，否则，更新缺失数据填充值，重新执行缺失值填充算法。

本发明提供了一种不完整数据混合填充方法，该方法采用先聚类后填充的思想对不完整数据填充处理，并针对现有方法不能对缺失数据进行直接聚类，提出特殊值填充方法在初始阶段对缺失数据值统一填充处理；然后利用栈式深度学习网络提取数据主要特征，提高数据聚类精度，同时降低数据属性维度；针对提取的数据特征，采用增量聚类方法对数据一遍式处增量处理，加快算法执行速度；然而聚类分析算法不能百分之百准确划分数据，所以在得到的聚类结果中利用与缺失数据对象最相似的前k％个数据对缺失值进行加权填充，保证填充值的准确性；对所有类中缺失值填充处理后，比较本次填充与上一次填充的误差，迭代上述过程直至误差最小。相比于现有一些缺失数据填充方法，本发明在填充精度和时间性能方面都有一定的优越性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中的一种不完整数据混合填充方法的结构示意图。

图2是本发明实施例中的自动编码机处理流程图。

图3是本发明实施例中的增量聚类算法流程图。

图4(a)本发明实施例中的wine数据集上RMSE值的示意图。

图4(b)本发明实施例中的pima数据集上RMSE值的示意图。

图4(c)本发明实施例中的yeast数据集上RMSE值的示意图。

图4(d)本发明实施例中的housing数据集上RMSE值的示意图。

图5(a)本发明实施例中的wine数据集上d2值的示意图。

图5(b)本发明实施例中的pima数据集上d2值的示意图。

图5(c)本发明实施例中的yeast数据集上d2值的示意图。

图5(d)本发明实施例中的housing数据集上d2值的示意图。

图6本发明不完整数据混合填充方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1示出了本发明实施例中的一种不完整数据混合填充方法的结构示意图，包括如下步骤：

(1)对不完整数据集进行归一化和特殊值填充预处理

设整个数据对象集合D包含n个数据对象，每个对象有m个属性，即D＝{x₁,x₂,...,x_n}，A＝{a₁,a₂,...,a_m}。对于每一个属性a_i(i＝1,...,m)，利用min-max标准化方法将对应的所有n个对象的不缺失属性值映射到[0-1]区间。对于每个对象包含的所有缺失属性值，利用数值-1对其进行初始化填补。

(2)栈式自动编码机特征提取

此示例利用两层自动编码机实现栈式深度学习网络，对于每一层自动编码机，实例如图2所示：

首先，通过编码函数f将输入层数据x映射到隐藏层特征h：

h＝f_θ(x)＝f(w⁽¹⁾x+b⁽¹⁾) (1)

其中，函数f为一个非线性激活函数，为sigmoid函数，即：f(t)＝1/(1+e^-t)。然后自动编码机通过解码函数将隐藏层特征h映射到网络的实际输出z:

z＝f_θ'(h)＝f(w⁽²⁾h+b⁽²⁾) (2)

其中，θ＝{w⁽¹⁾,b⁽¹⁾},θ'＝{w⁽²⁾,b⁽²⁾}为网络参数，w⁽¹⁾,w⁽²⁾代表网络的权重矩阵，b⁽¹⁾,b⁽²⁾是偏置向量，初始随机生成权重矩阵和偏置向量的值。

自动编码机通过最小化网络实际输出值z与输入值x之间的误差训练整个模型参数，定义误差函数如下：

J_{AE} (θ, θ^{'}) = \underset{x &Element; D}{Σ} L (x, z) + η Σ_{ij} W_{ij}^{2} - - - (3)

其中，L为损失函数，为平方差函数。为了防止过度拟合，在重构误差函数中加一个权重衰减的规则化项其中，η为权重衰减系数。在自动编码机的参数训练过程中，采用反向传播算法(BP)求解代价函数对权重矩阵和偏置向量的梯度，然后利用梯度下降法对参数进行更新，直到误差函数值满足给定的设置条件。

当第一层自动编码机训练稳定后，利用其隐藏层提取的特征，进行第二层自动编码机训练，得到第二层自动编码机隐藏层的数据特征，即为栈式深度网络学习得到的数据集特征。

(3)特征值增量聚类

通过栈式深度学习网络得到数据对象重要特征后，利用一种增量数据聚类方法实现对数据特征的划分，如图3所示，进而映射得到原始不完整数据集的聚类结果。

假设深度学习得到的数据特征中包含n个数据对象，每个对象有m'个属性，即D'＝{x₁,x₂,...,x_n}，A'＝{a₁,a₂,...,a_m'}。

首先，读取D'中的前K个数据作为聚类算法的初始聚类中心，并利用欧式距离计算个中心点间的相似度，得到中心点间相似度矩阵，距离越小，相似度越大。

从第K+1条数据开始，每次读取一条数据x_i，并按照公式(4)计算其与各聚类中心之间的距离，得到相似度最大值minDis(x_i,c_k)：

Dis (x_{i}, c_{k}) = \sqrt{Σ_{j = 1}^{m^{'}} {(x_{ij} - c_{kj})}^{2}} - - - (4)

a)如果minDis(x_i,c_k)小于等于聚类中心点间相似度的最小值maxDis(c_p,c_q)，将x_i设定为新增聚类中心点，并更新中心点和中心点间相似度矩阵；

b)如果minDis(x_i,c_k)小于聚类中心点间相似度的最大值minDis(c_p,c_q)，大于最小值maxDis(c_p,c_q)，则将最相似的两个聚类中心点代表的簇合并，并将x_i设定为新的聚类中心点，更新中心点和中心点间相似度矩阵。

c)如果minDis(x_i,c_k)大于等于聚类中心点间相似度的最大值minDis(c_p,c_q)，将x_i划入到相应的聚类簇中，更新中心点和中心点间相似度矩阵。

(4)类内前k％最相似数据加权填充

得到不完整数据聚类结果后，在每一类中判断含有缺失属性值的数据对象比例，如果其超过给定阈值ξ，利用欧氏距离公式将类中数据对应的数据特征划分到距离最近的簇中，并恢复成原始数据，再在对应类中完成缺失数据填充。

如果缺失数据比例小于阈值ξ，则在类中利用公式(5)计算缺失数据对象与其他对象的距离。

Dis (x_{i}, x_{j}) = \frac{m}{m^{'}} \sqrt{Σ_{k = 1}^{m} {(x_{ik} - x_{jk})}^{2}},

x_ik≠*且x_jk≠*

(5)Dis(x_i,x_j)表示数据对象x_i与x_j之间的距离，m为数据对象的属性个数，m'为两个数据对象同一属性的值都不缺失的数目，x_ik≠*表示第i个数据对象的第k个属性不为空。

选取距离最小且对应属性值不缺失的前k％个数据对象，利用其对应属性值加权填充。填充过程如下：

a)设{dis₁,dis₂,...,dis_k}为与缺失数据对象x_I最相近，对应属性无缺失的前k％个数据对象{x₁,x₂,...,x_k}之间的距离。

b)将{dis₁,dis₂,...,dis_k}按照公式(6)单位化：

p_{i} = \frac{1}{{dis}_{i}} / Σ_{i = 1}^{k} \frac{1}{{dis}_{i}} - - - (6)

c)按照公式(7)计算缺失属性I的值x_II：

x_{II} = Σ_{i = 1}^{k} p_{i} x_{iI} - - - (7)

其中，x_iI是x_i对应的第I个属性的值。

(5)收敛性判断

对数据集中所示缺失数据属性值填充结束后，通过比较连续两次填充结果判断算法是否收敛：

err = \sqrt{\frac{1}{t} Σ_{i = 1}^{t} {(I_{pre, i} - I_{cur, i})}^{2}} \leq γ - - - (8)

如公式(8)所示，t为数据缺失属性值总数，I_pre,i是第i个缺失值的上一次填充值，I_cur,i是缺失值的本次填充值，γ为给定阈值大于等于0。

如果满足算法收敛条件，当前填充结果为算法执行填充最终结果，否则，更新缺失数据填充值，重新执行(2)-(4)缺失值填充过程。

最后对所有数据还原成归一化前的数值。

结合本发明的方案，进行实验分析如下：

为了验证本发明提出方法SAICI的有效性，将SAICI和四种重要的数据填充算法FIMUS、FCM、DMI和EMI进行对比。验证数据集为UCI标准数据集，如表1所示。

数据集名称	数据对象个数	属性个数	类别个数
				wine	178	13	3
pima	768	8	2
				yeast	1484	9	10
housing	506	14	null

实验硬件环境配置为：AMD Phenom^TM II X49453.00GHz处理器，6G内存；软件环境为：Win764位操作系统，Matlab7.0。人为地从数据集中选择3％、6％、9％、12％和15％的数据对象并删除这些数据对象的部分属性值，模拟缺失数据。利用均方根误差RMSE和一致性指数d₂两个指标比较SAICI和其他算法的填充准确性和平均执行时间。在具体实验中，算法收敛指数γ取0.0001，类内含有缺失数据对象比例指数ξ取75％，类内填充候选数据比例指数k取30。

RMSE和d₂表示如下：

RMSE = {(\frac{1}{N} Σ_{i = 1}^{N} {[P_{i} - O_{i}]}^{2})}^{\frac{1}{2}} - - - (9)

d_{2} = 1 - [\frac{Σ_{i = 1}^{N} {(P_{i} - O_{i})}^{2}}{Σ_{i = 1}^{N} {(| P_{i} - \overset{&OverBar;}{O} | + | O_{i} - \overset{&OverBar;}{O} |)}^{2}}] - - - (10)

N表示人工创建的丢失属性值数目，O_i表示缺失值的真实值，P_i表示缺失值的填充值，表示所有缺失值对应真实值的平均值。RMSE取值越小填充准确性越高，d₂取值越大填充准确性越高。

在wine，pima，yeast和housing数据集上比较SAICI同现有一些其他算法的性能。具体得到结果如图4(a)-4(d)、图5(a)-图5(d)和表2所示。

表2五种缺失比例下的算法平均执行时间(单位：秒)

/s	SAICI	FIMUS	FCM	DMI	EMI
						wine	0.392	1.793	0.262	13.368	0.649
pima	3.469	317.248	0.894	414.786	2.674
						yeast	16.257	1512.95	14.994	83.146	5.417
housing	1.654	8.277	0.401	86.542	2.885

从中可以看出，相比于FIMUS、FCM、DMI和EMI数据填充算法，本发明提出方法在数据填充精度和数据处理时间上均有一定的优越性。虽然传统利用数据集中所有数据对缺失值进行填充算法EMI有一定的时间优势，但在测试的四种数据集上，EMI算法填充精度最低，而SAICI算法填充精度最高；另一种利用数据集所有数据进行混合填充算法FIMUS在测试的四种数据集上，填充精度最接近SAICI算法，而且在某些测试高于SAICI算法，但FIMUS混合数据填充算法时间复杂度过高，消耗系统过多处理时间，而SAICI算法能够保持较好的时间性能；虽然基于分类思想的FCM和DMI算法具有一定的优越性，但两种算法容易受到聚类或分类结果的影响，使得算法填充精度波动较大，而本发明提出算法利用栈式自动编码机保证聚类结果的精度，并在类中选择k％最相近数据保证缺失数据填充结果精度，使得数据填充整体精度大大提升。本发明提出的类内前k％最相近数据加权填充和类内全部数据加权填充比较结果如表3所示。

表3类内所有数据和前k％最相近数据加权填充比较

从表3可以看出，在4种数据集，5种数据丢失比例，共20中缺失数据填充情况下，前k％最相近数据加权填充方法在19种情况下都好于利用全局数据填充方法。

综上，本发明提出的一种不完整数据混合填充方法，利用特殊值填充预处理、栈式自动编码机、增量聚类、类内前k％相似数据对象加权填充等方法对不完整数据集进行分析处理，能够有效的提高缺失数据的填充精度。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

Claims

1.一种不完整数据混合填充方法，其特征在于，包括如下步骤：

(1)对数据集中所有缺失数据属性值进行特殊值填充预处理；在算法执行初始阶段，将数据集中所有缺失数据属性值设置为不同于所有已知数据属性值的一个特殊值；

(2)利用栈式自动编码机提取数据对象重要特征

以自动编码机为基础模块构建自底向上的栈式自动编码机深度学习网络，并根据逐层训练思想和反向传播算法计算、更新网络参数，提取数据对象的重要特征；在自动编码机训练的过程中，输入数据经过隐藏层，在输出层重构，然后通过反向传播算法更新网路参数，当训练稳定时，在隐藏层保留了重构数据的重要特征；每一层自动编码机提取的数据特征都将作为上一层的输入，继续完成训练过程，最上层提取的特征即为整个栈式学习网络的输出；

(3)基于提取的数据特征对填充后的数据集进行增量聚类

在聚类初始阶段读取数据特征集的前k条数据作为初始聚类中心，并维护各中心点和中心点间相似度矩阵，从第k+1条数据特征开始，计算其与现有各聚类中心间的相似度，得到相似度最大值maxValue，值越大越相似；

如果maxValue小于等于中心点间相似度矩阵的最小值，将当前数据点设定为聚类中心；如果maxValue大于等于中心点间相似度矩阵的最大值，将当前数据点划分到与其最相似的中心点代表的簇中；如果maxValue小于中心点间相似度矩阵最大值，同时大于中心点间相似度矩阵的最小值，合并中心点最相似的两个簇，并将当前数据点设定为新的聚类中心点；更新中心点和中心点间相似度矩阵，继续读取下一条数据直到处理结束；

(4)在得到的每一个聚类结果中利用与缺失数据对象最相近的前k％个对象相应属性值，对其进行属性值加权填充；

在得到的每一个数据类中判断含有缺失属性值的数据对象比例，如果其超过给定阈值，将类中数据划分到与其最相似的中心点所代表的其他簇中，再在对应类中完成缺失数据填充；如果缺失数据比例小于阈值，则在类中计算含有缺失数据对象与其他对象的相似度，选取相似度最大且对应属性值不缺失的前k％个数据对象，利用其对应属性值进行相似度加权填充；

(5)判断本次所有缺失数据填充值与上一次填充值的差异，迭代更新(2)-(4)直至满足填充值收敛条件；

对数据集中所有缺失数据属性值填充结束后，通过比较连续两次填充结果的误差判断算法是否收敛；如果满足算法收敛条件，当前填充结果为算法执行填充最终结果，否则，更新缺失数据填充值为当前计算得到的填充值，重新执行缺失值填充过程。