CN108197080A

CN108197080A - 一种基于多种算法融合的缺失值插补方法

Info

Publication number: CN108197080A
Application number: CN201611123384.1A
Authority: CN
Inventors: 陶波; 许飞月; 陈乐焱; 李青海
Original assignee: Guangdong Fine Point Data Polytron Technologies Inc
Current assignee: Guangdong Fine Point Data Polytron Technologies Inc
Priority date: 2016-12-08
Filing date: 2016-12-08
Publication date: 2018-06-22

Abstract

本发明提供一种基于多种算法融合的缺失值插补方法，其包括：步骤S1：对所有数据进行层次聚类；步骤S2：针对含有缺失值的类，根据是否为有缺失值的记录，将记录分为缺失数据组和完全数据组；步骤S3：将完全数据组中的数据随机分成训练集和测试集，用n种现有的插补方法预测测试集，构建一定数量的样本集；步骤S4：运用得到的样本集训练神经网络得出神经网络模型；步骤S5：运用神经网络模型对含有缺失值的类进行插补，得出最后的插补值；步骤S6：判断是否存在还有缺失值的类，如果是，则执行步骤S2，如果否，则执行步骤S7；步骤S7：结束。本发明运用现有多种方法得出的缺失值，解决人为主观的选择缺失值插补方法的不足，比较客观有效地插补缺失值。

Description

一种基于多种算法融合的缺失值插补方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于多种算法融合的缺失值插补方法。

背景技术

在许多需要收集数据的研究中，数据缺失是很常见的，缺失原因多种多样，主要有机械原因和人为原因。前者是由于机械原因导致的数据的收集或者保存失败，如数据存储的失败，存储器损坏等；后者是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失，如在问卷调查中被访人员拒绝透露有关问题的答案，或者回答的问题是无效的，录入人员失误漏录了数据。在调查前，做好规划，对一些重要的数据注重避免数据缺失是极有必要的，但对于已经缺失的数据，为了充分利用进行研究，寻找适合的插补方法对缺失值进行插补显得尤为重要。现阶段，已经出现的缺失值的插补方法有：均值替换法、热卡填充法、回归替换法、多重替代法等。在对数据的分布和缺失情况没有较为全面的了解时，无法得知哪种方法对缺失值的插补效果较好，此时，人们往往根据以往经验或者随意在众多的插补方法中选择一种进行插补，对缺失值插补的合理性难以掌控，尤其是对于一些较为关键的变量，用不同的插补方法得出的插补值可能相差甚远，进而得到的结果和研究结论可能会完全不同。由此，运用一种合理的插补方法是至关重要的，若是将各种插补方法的融合起来，进而得到插补值，是一种不错的想法。

鉴于上述缺陷，本发明创作者经过长时间的研究和实践终于获得了本发明。

发明内容

为解决上述技术缺陷，本发明采用的技术方案在于，提供了一种基于多种算法融合的缺失值插补方法，该方法包括以下步骤：

步骤S1：对所有数据进行层次聚类；

步骤S2：针对含有缺失值的类，根据是否为有缺失值的记录，将记录分为缺失数据组和完全数据组；

步骤S3：将所述完全数据组中的数据随机分成训练集和测试集，用n种现有的插补方法预测测试集，构建一定数量的样本集；

步骤S4：运用得到的样本集训练神经网络得出神经网络模型；

步骤S5：运用所述神经网络模型对含有缺失值的类进行插补，得出最后的插补值；

步骤S6：判断是否存在还有缺失值的类，如果是，则执行步骤S2，如果否，则执行步骤S7；

步骤S7：结束。

较佳的，所述步骤S3具体包括以下步骤：

步骤S31：在所述完全数据组中随机挑选一定数量记录作为训练集，挑选一定数量的记录作为测试集，其中，测试集的数据条数小于训练集的数据条数；

步骤S32：运用n种现有插补方法结合训练集得出n个模型，用模型预测测试集，得出测试集的预测值，将不同方法得出的预测值和真实值记为一个样本；

步骤S33：重复步骤S32，得出一定数量的样本集。

与现有技术相比，本发明提供的一种基于多种算法融合的缺失值插补方法，先对所有数据进行层次聚类，一定程度上保证了相似性较大的完整数据和缺失数据聚集在一起进行分析，更加合理以及便于构造适合缺失值插补的模型。此外，运用现有的多种方法得出的缺失值，结合神经网络给予一定的权重，进而得到的缺失值会更稳定，误差更小，且与直接将原有数据进行神经网络训练相比，减少了神经网络训练的变量数，提高效率且保证插补值的准确性和合理性，解决人为主观的选择缺失值插补方法的不足，比较客观有效地插补缺失值。

附图说明

为了更清楚地说明本发明各实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。

图1为本发明的一种基于多种算法融合的缺失值插补方法的流程图。

具体实施方式

以下结合附图，对本发明上述的和另外的技术特征和优点作更详细的说明。

人工神经网络(ANNs)，简称神经网络，是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂度通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

如图1所示，为本发明提供的一种基于多种算法融合的缺失值插补方法的流程图，该方法包括以下步骤：

步骤S1：对所有数据进行层次聚类。

这样能够在一定程度上保证同类型的完整数据和缺失数据聚到一起进行分析，更加合理以及便于构造适合缺失值插补的模型。

步骤S2：针对含有缺失值的类，根据是否为有缺失值的记录，将记录分为缺失数据组m₂和完全数据组m₁。

步骤S3：将完全数据组m₁中的数据随机分成训练集和测试集，用n种现有的插补方法预测测试集，构建一定数量的样本集。

具体的，包括以下步骤：

步骤S31：在完全数据组m₁中随机挑选一定数量记录作为训练集，挑选一定数量的记录作为测试集，其中，测试集的数据条数远小于训练集的数据条数。

步骤S32：运用n种现有插补方法结合训练集得出n个模型H₁,H₂,…,H_n，然后用模型预测测试集，得出测试集的预测值x_ij,j＝1,…,n，将不同方法得出的预测值和真实值记为一个样本X_i＝(x_i1,x_i2,…,x_in,y_i)，其中y_i为测试集的真实值。n种现有插补方法包括：均值替换法、热卡填充法、回归替换法和多重替代法。

步骤S33：重复步骤S32，得出一定数量的样本集X＝(X₁，X₂,…,X_g)。

步骤S4：运用得到的样本集X＝(X₁，X₂,…,X_g)训练神经网络得出神经网络模型。

步骤S5：运用神经网络模型对含有缺失值的类进行插补，得出最后的插补值。

步骤S6：判断是否存在还有缺失值的类，如果是，则执行步骤S2，如果否，则执行步骤S7。

步骤S7：结束。

以插补随机生成的带有缺失值的正态分布数据集为例。不妨假定只有一个变量含有缺失值，称为缺失值变量，首先将所有数据进行层次聚类，然后针对有缺失值的类，在完整数据中随机抽取一些作为训练集其余作为测试集，然后结合训练集采用均值替换法、热卡填充法、回归替换法、多重替代法对测试集中的缺失值变量进行预测，由此测试集中每个样本都得出4个预测值，与真实值构成一个含有5个变量的样本，不断重复改变训练集和测试集，得到足够多的含有5个变量的样本，然后用样本集训练神经网络做回归得出神经网络模型，最后，处理原数据中该类的缺失值，运用上述4种方法预测缺失值，将该4个值作为神经网络模型的解释变量，预测出的结果即为插补的最后值。

本发明提供的一种基于多种算法融合的缺失值插补方法，先对所有数据进行层次聚类，一定程度上保证了相似性较大的完整数据和缺失数据聚集在一起进行分析，更加合理以及便于构造适合缺失值插补的模型。此外，运用现有的多种方法得出的缺失值，结合神经网络给予一定的权重，进而得到的缺失值会更稳定，误差更小，且与直接将原有数据进行神经网络训练相比，减少了神经网络训练的变量数，提高效率且保证插补值的准确性和合理性，解决人为主观的选择缺失值插补方法的不足，比较客观有效地插补缺失值。

以上所述仅为本发明的较佳实施例，对本发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在本发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

Claims

1.一种基于多种算法融合的缺失值插补方法，其特征在于，该方法包括以下步骤：

步骤S1：对所有数据进行层次聚类；

步骤S7：结束。

2.根据权利要求1所述的基于多种算法融合的缺失值插补方法，其特征在于，所述步骤S3具体包括以下步骤：

步骤S33：重复步骤S32，得出一定数量的样本集。