CN107193876B

CN107193876B - 一种基于最近邻knn算法的缺失数据填补方法

Info

Publication number: CN107193876B
Application number: CN201710267672.2A
Authority: CN
Inventors: 程宏亮; 刘宏; 白朝旭; 饶思维; 张建
Original assignee: Meritdata Technology Co ltd
Current assignee: Meritdata Technology Co ltd
Priority date: 2017-04-21
Filing date: 2017-04-21
Publication date: 2020-10-09
Anticipated expiration: 2037-04-21
Also published as: CN107193876A

Abstract

本发明公开了一种基于最近邻KNN算法的缺失数据填补方法，包括：自动识别数据集中的存在缺失值的特征属性；遍历存在缺失值的特征属性利用近邻KNN算法逐步填充缺失值；在对每一个特征属性进行缺失值填充过程中，迭代KNN算法参数k，获得不同参数配置的KNN模型簇；根据优化目标函数遴选最优模型，并利用该模型对缺失数据进行缺失值填充。由于算法参数k对KNN算法影响较大，在此，我们采用寻优的策略运用到缺失值填充模型的建模中，可以很大程度提高模型的精度，填充数据的质量相应有了很大程度的提高。

Description

一种基于最近邻KNN算法的缺失数据填补方法

技术领域

本发明涉及企业数据治理领域，更具体的说，是一种基于最近邻KNN算法的缺失数据填补方法，涉及企业级数据治理体系下的缺失数据。

背景技术

数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理的过程。企业数据治理以提升企业数据质量为目的，通过制定相关的流程、政策、标准以及相关技术手段，用以保障企业数据信息的完整性、及时性、准确性、一致性和安全性。

而现实世界中的数据是错综复杂的，它们不可避免的存在数据缺失问题。数据缺失是企业数据信息的完整性存在的最大问题，也受到企业数据信息管理的极大重视，缺失数据智能填补方法能够很好的解决企业数据信息管理中缺失数据的问题，保障企业数据信息的完整性。

发明内容

本发明的目的是提供一种基于最近邻KNN算法的缺失数据填补方法，涉及企业级数据治理体系下的缺失数据，以解决企业结构化数据存在大量缺失值数据的问题，保障企业数据信息的完整性。

为了实现上述目的，本发明提供如下技术方案：

一种基于最近邻KNN算法的缺失数据填补方法，包括以下步骤：

步骤一、检验数据集，若数据集存在缺失值，自动获取存在缺失值的属性列集合以及对应的数据类型；

步骤二、对步骤一中的数据集进行预处理操作以满足KNN模型支持的数据格式后，构建训练数据集和验证数据集；

步骤三、根据训练数据集和验证数据集构建KNN模型；

步骤四、基于验证数据集和模型优化目标函数筛选最优KNN模型；

步骤五、基于最优KNN模型完成缺失值数据的预测和智能填充。

在本发明的一个优选实施例中，所述步骤二中预处理之后的数据进行筛选，针对步骤二中的数据集中的名词型属性列，对其做名词数据标签化处理，对于数据集中的数值型属性列，对其做数据归一化或标准化处理。

在本发明的一个优选实施例中，判断所述步骤一中缺失值数据集量，若无缺失值数据集数据量不大，则对步骤二中预处理之后的数据集随机拆分训练数据集和验证数据集；

若无缺失值数据集数据量较大，则对步骤二中预处理之后的数据集进行随机抽样或系统抽样的形式构建训练数据集和验证数据集。

在本发明的一个优选实施例中，保留步骤二中数据预处理之前的相关数据以供步骤五使用。

在本发明的一个优选实施例中，利用训练数据集和不同KNN模型参数建模得到KNN模型簇包括：

基于训练数据集对缺失值智能填补建模，如果属性列的数据类型为数值型数据，设定KNN模型参数k(近邻个数)的区间为[4，6]，如果属性列c_j的数据类型为名词型数据，设定缺失值属性列名词类别个数为p，由此设定k的区间为[p，p+2]，基于训练数据集Δ和不同的KNN模型参数k构建KNN模型簇Λ＝[M₁，M₂，...M_T]。

在本发明的一个优选实施例中，步骤四中筛选最优KNN模型，包括：

基于验证数据集和KNN模型簇Λ中的每一个模型得到验证数据集的预测集；

基于验证数据集的预测集和原始数据，利用模型优化目标函数筛选最优KNN模型。

在本发明的一个优选实施例中，所述基于验证数据集和KNN模型簇Λ中的每一个模型得到验证数据集的预测集，包括：

假定选取验证数据集的记录g剔除特定属性列数据构建缺失值数据；

计算记录g与验证数据集每个记录的欧式距离d_i(z_i，g)：

根据欧式距离d_i(z_i，g)最小的k个数据记录作为记录g的k最近邻；

计算缺失值记录g最近邻的权值，缺失值类型为数值型数据情况下：

缺失值类型为名词型数据情况下，w_l为k最近邻中各个类别出现的频次；

根据缺失值数据列c_j在k最近邻中对应的值x_l估算缺失数据的值

缺失值类型为数值型数据情况下：

缺失值类型为名词型数据情况下，

为k最近邻中出现频次最大的类别；

由此，得出预测数据集Y^Predict：

Y^Predict＝[y₁,y₂,...,y_M]^T

在本发明的一个优选实施例中，所述利用模型优化目标函数筛选最优KNN模型，包括：

缺失值类型为数值型数据情况下，目标函数S设定为：

其中，m表示验证集的数据样本数，g_f表示验证集中每个样本在缺失值数据列c_j的真实值，

为g_f对应的模型填充值。

缺失值类型为名词型数据情况下，目标函数S设定为：

其中，m表示验证集的数据样本数，h表示模型填充值和对应的验证集每个样本在缺失值数据列c_j的真实值相等的个数，ε为平滑因子。

基于验证数据集的原始值Y^True和预测数据集Y^Predict，依据模型优化目标函数对KNN模型簇Λ＝[M₁，M₂，...M_T]得到优化模型M_Q。

在本发明的一个优选实施例中，所述基于最优KNN模型完成缺失值数据的预测和智能填充，包括：

基于缺失值数据构建矩阵X^Lost：

带入数据X^Lost到模型M_Q得到预测数据集Y^Predict：

如果属性列c_j为名词型属性列，对预测数据Y^Predict进行反标签化复原数据，如果属性列c_j为数值型属性列，对预测数据Y^Predict进行反归一化或标准化复原数据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1基于最近邻KNN算法的缺失数据智能填补模型流程图，给出了缺失数据填补的最近邻KNN算法流程；

图2企业级数据治理体系缺失数据智能填补方法流程图，给出了企业级数据治理体系缺失数据智能填补方法的详细内容和操作流程；

图3缺失值数据填充准备工作流程图，给出了缺失值数据填充的准备工作流程；

图4完成数据属性列缺失值填充模型的训练个模型优化流程图，给出了缺失值填充模型的建模过程和参数优化流程；

图5基于优化的缺失值填充模型完成对缺失值数据的填充流程图，给出了基于最优化模型的缺失值数据的填充流程和复原数据处理操作；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。、

参照图1，步骤1、将目标数据(缺失值数据)构建为KNN模型支持的数据格式；

步骤2、数据预处理操作，对于数据集中的名词型属性列，对其做名词数据标签化处理，对于数据集中的数值型属性列，对其做数据归一化或标准化处理；

步骤3、计算目标数据与训练数据集每条记录的欧式距离d_i(z_i，g)：

步骤4、找出目标数据的k最近邻数据记录z：

z[z¹，z²，...，z^k]

步骤5、计算目标数据最近邻的权值w：

步骤6、计算预测数据：

步骤7、预测数据反向预处理，如果属性列为名词型属性列，对预测数据进行反标签化复原数据，如果属性列为数值型属性列，对预测数据进行反归一化或标准化复原数据。

参照图2，请参阅图2，其示出了本发明实施例提供的企业级数据治理体系缺失数据智能填补方法流程图，以下给出详细说明：

执行缺失值数据填充建模准备工作，获得无缺失值的样本构建完全值数据矩阵包括：

自动获取存在缺失值的属性列以及对应的数据类型，并根据每列数据的数据类型做相应预处理操作，对于数据集中的名词型属性列，对其做名词数据标签化处理，此外保留数据预处理的相关信息供数据复原使用；

对于数据集中的数值型属性列，对其做数据归一化或标准化处理，消除数据量级和单位的不统一对KNN模型预测精度的影响，此外保留数据预处理的相关信息供数据复原使用；

将预处理后的数据构建完全值数据矩阵Δ；

将完全值数据矩阵拆分得到训练数据集和验证数据集包括：

如果无缺失值数据集数据量不大，则对数据集随机拆分训练数据集和验证数据集；如果无缺失值数据集数据量较大，则对数据集进行随机抽样或系统抽样的形式构建训练数据集和验证数据集；

基于KNN模型参数最近邻个数k引入参数寻优策略，利用训练数据集和不同KNN模型参数建模得到KNN模型簇包括：

基于训练数据集对缺失值智能填补建模，如果属性列的数据类型为数值型数据，设定KNN模型参数k(近邻个数)的区间为[4，6]。如果属性列c_j的数据类型为名词型数据，设定缺失值属性列名词类别个数为p，由此设定k的区间为[p，p+2]，基于训练数据集Δ和不同的KNN模型参数k构建KNN模型簇Λ＝[M₁，M₂，...M_T]；

基于验证数据集和KNN模型簇Λ中的每一个模型得到验证数据集的预测集包括：假定选取验证数据集的记录g剔除特定属性列数据构建缺失值数据；

计算记录g与验证数据集每个记录的欧式距离d_i(z_i，g)：

缺失值类型为数值型数据情况下：

缺失值类型为名词型数据情况下，

为k最近邻中出现频次最大的类别；

由此，得出预测数据集Y^Predict：

Y^Predict＝[y₁,y₂,...,y_M]^T

基于验证数据集的预测集和原始数据，利用模型优化目标函数筛选最优KNN模型包括：

缺失值类型为数值型数据情况下，目标函数S设定为：

为g_f对应的模型填充值。

缺失值类型为名词型数据情况下，目标函数S设定为：

基于最优KNN模型完成缺失值数据的预测和智能填充包括：

基于缺失值数据构建矩阵X^Lost：

带入数据X^Lost到模型M_Q得到预测数据集Y^Predict：

请参阅图3，其示出了本发明实施例提供的缺失值数据填充准备工作流程图，可以包括：

S101：检验数据集，如果数据集不存在缺失值，算法结束不做任何处理，如果数据集存在缺失值，自动获取存在缺失值的属性列(注：在此定义数据集为一张二维数据表，数据表的每一列称之为属性列，数据表的每一行称之为一条记录)集合C以及对应的数据类型；

S102：对数据集进行预处理为缺失值填充建模(KNN模型)做准备，对于数据集中的名词型属性列，对其做名词数据标签化处理，此外保留数据预处理的相关信息供数据复原使用。

S103：对数据集进行预处理为缺失值填充建模(KNN模型)做准备，对于数据集中的数值型属性列，对其做数据归一化或标准化处理，消除数据量级和单位的不统一对KNN模型预测精度的影响，此外保留数据预处理的相关信息供数据复原使用。

归一化处理方法：

其中，A^min：A的最大值，A^max：A的最大值。

标准化处理方法：

其中，μ：A的均值，σ：A的方差。

此外保留数据预处理的相关信息供数据复原使用。

获得预处理的数据后，假定第j列数据存在缺失值，将缺失值j列定义为Y，抽离j列剩余的数据定义为X，将Y列数据拼接到X后构建如下形式的完全值数据矩阵Δ：

请参阅图4，其示出了本发明实施例提供的完成数据属性列缺失值填充模型的训练个模型优化流程图，可以包括：

S201：遍历存在缺失值的属性列集合C，逐一对每列数据进行缺失值智能填补处理。

遍历数据集的每条记录判断记录是否存在缺失值，将数据集拆分为无缺失值数据和存在缺失值数据集；

S202：如果无缺失值数据集数据量不大(10万级以下)，则对数据集随机拆分训练数据集和验证数据集，如果无缺失值数据集数据量较大(10万级以上)，则对数据集进行随机抽样或系统抽样的形式构建训练数据集和验证数据集。

数据集的格式如Δ下所示，比如对属性列c_j进行缺失值填充构建数据集时，X＝[X₁,X₂,...,X_M]^T为非属性列c_j数据，Y＝X_j为属性列c_j数据。

S203：基于训练数据集对存在缺失值的属性列c_j进行缺失值智能填补建模，如果属性列c_j的数据类型为数值型数据，设定KNN模型参数k(近邻个数)的区间为[4，6]，如果属性列c_j的数据类型为名词型数据，设定缺失值属性列名词类别个数为p，由此设定k的区间为[p，p+2]，基于训练数据集Δ和不同的KNN模型参数k构建KNN模型簇Λ＝[M₁，M₂，...M_T]。

S204：基于验证集数据对KNN模型簇Λ进行筛选操作，在对存在缺失值的属性列c_j进行缺失值填补而选择最优模型M_Q时，对于验证集中的记录g_i＝[g|Y_g]＝[x₁，x₂，...，x_N|x_j]，由每一个模型M_t计算和记录g_i最近邻的k个记录z＝[z¹，z²，...，z^k]，其中，

其中，i∈[1，M]，j∈[1，N]，根据z得出缺失值的属性列c_j的k近邻记录的第c_j的对应值

当缺失值类型为数值型数据情况下，由g＝[x₁，x₂，...，x_N]，z_i＝[x_i，1，x_i，2，…x_i，N]，

分别计算记录g_i和记录g_i最近邻的k个记录z^k的欧式距离d_i(z_i，g)和权值W，进而求出记录g_i的预测值

计算公式如下：

当缺失值类型为名词型数据情况下，根据记录g_i的k近邻记录的第c_j的对应值

采用投票机制，以y_j的众数作为记录g_i的预测值

如果存在并列众数的情况时，随机选择其中一种作为记录g_i的预测值

根据以上得出记录g_i的预测值

S205：由验证集的记录g_i求出对应的预测值

那么，遍历验证集中的每条记录，可以得到预测集

当缺失值类型为数值型数据情况下，对比验证集的每条记录的原始值g＝[g₁，g₂，...，g_M]和预测集

带入目标函数S，由此得到模型M_t的预测精度s_t：

其中，ε为平滑因子。

当缺失值类型为名词型数据情况下，对比验证集的每条记录的原始值g＝[g₁，g₂，...，g_M]和预测集

带入目标函数S，由此得到模型M_t的预测精度s_t：

其中，m表示验证集的数据样本数，h表示模型填充值和对应的验证集每个样本在缺失值数据列c_j的真实值相等的个数。

上述求出了模型M_t的预测精度s_t，那么对KNN模型簇Λ＝[M₁，M₂，...M_T]中的每个模型执行同样操作得到KNN模型簇Λ的模型精度S＝[s¹，s²，...，s^k]。

S206：根据KNN模型簇Λ的模型精度S＝[s¹，s²，…，s^k]对KNN模型簇Λ做模型筛选得到最优的模型M_Q作为属性列c_j的缺失值填充模型。

请参阅图5，其示出了本发明实施例提供的基于优化的缺失值填充模型完成对缺失值数据的填充流程图，可以包括：

S301：执行S201-S206步骤的操作完成属性列c_j的缺失值填充模型的训练和参数优化操作得到最优的缺失值填充模型M_Q，由属性列c_j缺失值数据剔除c_j构建数据矩阵X^Lost：

带入数据X^Lost到模型M_Q执行S204得到预测数据集Y^Predict：

Y^Predict＝[y₁,y₂,...,y_M]^T

S302：如果属性列c_j为名词型属性列，根据S102保留的数据标签化处理的相关信息对预测数据Y^Predict进行反标签化复原数据，如果属性列c_j为数值型属性列，根据S103保留的数据归一化或标准化处理的相关信息对预测数据Y^Predict进行反归一化或标准化复原数据。

S303：检验是否对所有的缺失值属性列完成缺失值填充，如果完成则结束进程，如果未完成则执行S301-S302。

具体示例：

接下来以某产品销售数据为例说明基于最近邻KNN算法的企业级数据治理体系缺失数据智能填补方法：

我们在此抽取一部分数据作为说明，原始数据如下表所示，其中，序号为200102和200104条记录分别对应于“客户状态”列和“运输成本”列为缺失数据。

表1，某产品销售数据

序号(c1)	客户状态(c2)	运输成本(c3)	单价(c4)	产品保证金(c5)
					200101	Texas	23	4	0.36
200102	Michigan	-	1	0.26
					200103	Texas	1	7	0.36
200104	-	6	28	0.51
					200105	Carolina	5	21	0.21
200106	Texas	11	11	0.36
					200107	Carolina	6	4	0.21
…	…	…	…	…
					210101	Texas	5	21	0.51

SS101：遍历数据表，获得存在缺失值字段集合C＝{’客户状态’：String，’运输成本’：Int}

SS102-103：执行预处理操作，由于‘客户状态’是名次列，对其做名词数据标签化处理，‘运输成本’列为数值列，对其做数据归一化处理：

表2，预处理后的数据

序号(c1)	客户状态(c2)	运输成本(c3)	单价(c4)	产品保证金(c5)
					200101	0	1.0	0.11	0.5
200102	1	-	0.0	0.17
					200103	0	0.0	0.22	0.5
200104	-	0.23	1.0	1.0
					200105	2	0.18	0.74	0.0
200106	0	0.45	0.37	0.5
					200107	2	0.23	0.11	0.21
…	…	…	…	…
					210101	0	0.18	0.71	1.0

标签化处理的相关信息为{‘客户状态’：[Texas-0，Michigan-1，Carolina-2]}，数据归一化处理的相关信息为{‘运输成本’：[max-23，min-1]，单价：[max-28，min-1]，‘产品保证金’：[max-0.51，min-0.21]}，保留这些相关信息供数据复原使用。

SS201-SS206：从预处理后的数据中随机拆分构建KNN模型的训练数据集和测试数据集，在此，我们以‘客户状态’数据列建模训练数据集和测试数据集的构建过程为例：

模型训练数据集

模型测试数据集

在此，基于KNN模型参数k＝{3,4,5,6}构造模型簇Knn^Model:

Knn^Model＝{M^k＝3,M^k＝4,M^k＝5,M^k＝6}

基于模型测试数据集

对模型簇Knn^Model中的模型择优，分别得到每个模型预测得到的k个近邻，在此，以k＝4为例，即基于模型M^k＝4做预测。

以测试集第一条记录X¹为例：

X¹＝[0.0 0.22 0.5|1]

模型M^k＝4对X¹预测的最近邻记录为：

记录X¹的预测值为X¹＝[0.0 0.22 0.5|predict＝1]，预测正确。

同理，对测试集每一条记录做预测，判断每一条记录的预测正确与否，最终，会得到模型M^k＝4的正确率。那么，分别对模型簇Knn^Model中每个模型做以上操作得到对应的着正确率，选取正确率最大的模型为最有模型。

同理，基于以上类似过程可以完成数值属性列缺失值填充模型的寻优操作，获得最优模型。

SS301：带入数据X^Lost到缺失值填充模型执行得到预测数据predict，在此，以近邻k＝4为例：

(1)针对名次列‘客户状态’做缺失值预测和填充，比如对100104记录缺失值填充过程如下：

‘客户状态’缺失值填充KNN模型数据为：

记录100104数据为：

KNN模型预测的最近邻4的记录为：

求得

的4个最近邻点的预测值：

predict＝[0,1,2,0]

根据投票机制，最近邻4的记录中，0出现次数最多，因此对应缺失数据预测为0：

X₂₀₀₁₀₄＝[0.23 1.0 1.0|predict＝0]

(2)针对数值列‘运输成本’做缺失值预测和填充，比如对100102记录缺失值填充过程如下：

‘运输成本’缺失值填充KNN模型数据为：

记录100102数据为：

KNN模型预测的最近邻4的记录为：

由距离公式

求得

4个最近邻点的距离为：

d(x₂₀₀₁₀₂,k)＝[1.06,1.26,1.12,1.01]

由权值公式：

可得：

w(x₂₀₀₁₀₂,k)＝[0.238,0.283,0.252,0.227]

由预测值公式：

可得：

X₂₀₀₁₀₂＝[1 0.0 0.17|predict＝0.45]

将缺失值预测值填入对应的原始数据：

表3，填充缺失值的销售数据

序号(c1)	客户状态(c2)	运输成本(c3)	单价(c4)	产品保证金(c5)
					200101	0	1.0	0.11	0.5
200102	1	0.45	0.0	0.17
					200103	0	0.0	0.22	0.5
200104	0	0.23	1.0	1.0
					200105	2	0.18	0.74	0.0
200106	0	0.45	0.37	0.5
					200107	2	0.23	0.11	0.21
…	…	…	…	…
					210101	0	0.18	0.71	1.0

SS302：对名词型属性列，进行反标签化复原数据，对数值型属性列，反归一化复原数据：

表4，复原后的销售数据

序号(c1)	客户状态(c2)	运输成本(c3)	单价(c4)	产品保证金(c5)
					200101	Texas	23	4	0.36
200102	Michigan	11	1	0.26
					200103	Texas	1	7	0.36
200104	Texas	6	28	0.51
					200105	Carolina	5	21	0.21
200106	Texas	11	11	0.36
					200107	Carolina	6	4	0.21
…	…	…	…	…
					210101	Texas	5	21	0.51

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于最近邻KNN算法的缺失数据填补方法，包括以下步骤：

步骤一、检验数据集，若数据集存在缺失值，自动获取存在缺失值的属性列集合以及对应的数据类型，

步骤三、根据训练数据集和验证数据集构建KNN模型；

步骤五、基于最优KNN模型完成缺失值数据的预测和智能填充；

步骤四中筛选最优KNN模型，包括：

基于验证数据集的预测集和原始数据，利用模型优化目标函数筛选最优KNN模型；

所述基于验证数据集和KNN模型簇Λ中的每一个模型得到验证数据集的预测集，包括：

计算记录g与验证数据集每个记录的欧式距离d_i(z_i，g)：

缺失值类型为数值型数据情况下：

缺失值类型为名词型数据情况下，W为目标数据最近邻的权值；w_l为k最近邻中各个类别出现的频次；

为k最近邻中出现频次最大的类别；y_l缺失值数据列c_j的k近邻记录的第c_j的对应值；

由此，得出预测数据集Y^Predict：

Y^Predict＝[y₁,y₂,...,y_M]^T；

所述利用模型优化目标函数筛选最优KNN模型，包括：

缺失值类型为数值型数据情况下，目标函数S设定为：

为g_f对应的模型填充值；

缺失值类型为名词型数据情况下，目标函数S设定为：

其中，m表示验证集的数据样本数，h表示模型填充值和对应的验证集每个样本在缺失值数据列c_j的真实值相等的个数；

2.根据权利要求1所述的一种基于最近邻KNN算法的缺失数据填补方法，其特征在于，所述步骤二中预处理之后的数据进行筛选，针对步骤二中的数据集中的名词型属性列，对其做名词数据标签化处理，对于数据集中的数值型属性列，对其做数据归一化或标准化处理。

3.根据权利要求1所述的一种基于最近邻KNN算法的缺失数据填补方法，其特征在于，判断所述步骤一中缺失值数据集量，若无缺失值数据集数据量不大，则对步骤二中预处理之后的数据集随机拆分训练数据集和验证数据集；

4.根据权利要求2所述的一种基于最近邻KNN算法的缺失数据填补方法，其特征在于，保留步骤二中数据预处理之前的相关数据以供步骤五使用。

5.根据权利要求2所述的一种基于最近邻KNN算法的缺失数据填补方法，其特征在于，利用训练数据集和不同KNN模型参数建模得到KNN模型簇包括：

基于训练数据集对缺失值智能填补建模，如果属性列的数据类型为数值型数据，设定KNN模型参数k的区间为[4，6]，如果属性列c_j的数据类型为名词型数据，设定缺失值属性列名词类别个数为p，由此设定k的区间为[p，p+2]，基于训练数据集Δ和不同的KNN模型参数k构建KNN模型簇Λ＝[M₁，M₂，...，M_T]。

6.根据权利要求1所述的一种基于最近邻KNN算法的缺失数据填补方法，其特征在于，所述基于最优KNN模型完成缺失值数据的预测和智能填充，包括：

基于缺失值数据构建矩阵X^Lost：

带入数据X^Lost到模型M_Q得到预测数据集Y^Predict：