CN106407258A

CN106407258A - 一种缺失数据预测方法及装置

Info

Publication number: CN106407258A
Application number: CN201610719167.2A
Authority: CN
Inventors: 蔡延光; 戚远航; 蔡颢; 梁秉毅
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2016-08-24
Filing date: 2016-08-24
Publication date: 2017-02-15

Abstract

本发明公开了一种缺失数据预测方法及装置，该方法包括：构建待填充数据集的决策树分类器；基于预设改进遗传算法对决策树分类器进行剪枝处理，获取最优决策树分类器；根据最优决策树分类器预测所述待填充数据集中的缺失数据。基于上述公开的方法，对数据库中缺失的数据进行有效的预测，从而保证了数据库信息完整性。

Description

一种缺失数据预测方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种缺失数据预测方法及装置。

背景技术

在各类数据库的数据源中，往往会存在一些空缺信息，有的是由于原始数据的缺失造成，有的则是因为操作的失误。数据库中的空缺信息会造成数据不完整，这成为各类数据库中一个普遍的问题，数据填充技术的提出就是希望一些手段来估算、预测或者找回数据源中的空缺信息。

目前，含有缺失数据的多变量数据集不能在绝大多数的统计模型中直接分析，一般当数据源中缺失数据较少时，可将缺失数据进行删除，但是当缺失数据较多时，删除大量的数据会导致数据库的分类精度降低。

有鉴于此，现有的技术方案对数据库中缺失的数据不能进行有效预测，使得数据库存在缺失数据。

发明内容

有鉴于此，本发明提供一种缺失数据预测方法及装置，以解决现有的技术方案对数据库中缺失的数据不能进行有效预测，使得数据库存在缺失数据的问题。技术方案如下：

一种缺失数据预测方法，包括：

构建待填充数据集的决策树分类器；

基于预设改进遗传算法对所述决策树分类器进行剪枝处理，获取最优决策树分类器；

根据所述最优决策树分类器预测所述待填充数据集中的缺失数据。

优选的，所述构建待填充数据集的决策树分类器，包括：

划分所述待填充数据集作为第一预设组数数据，并取所述第一预设组数中的第一设定组数数据作为训练数据集；

将所述训练数据集作为当前决策树分类器的根节点，并确定所述根节点为当前分割节点；

根据预设分割属性集合中的各个分割属性，分别对所述当前分割节点进行分割，并计算各个所述分割属性对应的信息增益值；

当各个所述信息增益值全为0时，确定所述当前分割节点作为所述当前决策树分类器的叶子节点，并确定所述当前决策树分类器为决策树分类器；

当各个所述信息增益值不全为0时，比较各个所述信息增益值，选取信息增益值最大的分割属性作为所述当前分割节点的测试属性；

基于所述测试属性对所述分割节点进行分割，得到第一分割子集和第二分割子集；

将所述第一分割子集和所述第二分割子集分别确定为所述当前分割节点，并返回执行所述根据预设分割属性集合中的各个分割属性，分别对所述当前分割节点进行分割，并计算各个所述分割属性对应的信息增益值，这一步骤。

优选的，所述基于预设改进遗传算法对所述决策树分类器进行剪枝处理，获取最优决策树分类器，包括：

划分所述待填充数据集为第二预设组数数据，并取所述第二预设组数数据中的第二设定组数数据作为测试数据集；

对所述决策树分类器的边进行二进制编码处理，并确定当前迭代次数k为0；

随机生成设定数量的第一决策树分类器并存储于第一种群中；

根据预设适应度函数，计算各个所述第一决策树分类器的适应度其中，N_Mi为所述第一决策树分类器H_n正确分类所述测试数据集的实例总数，N为所述测试数据集中实例总数；

比较各个所述第一决策树分类器的适应度，确定适应度最大的第一决策树分类器作为第一较优决策树分类器并存储于第二种群中；

基于预设自适应度遗传算法，对所述第一种群中剩余的各个第一决策树分类器进行染色交叉和变异处理，得到各个第二决策树分类器并存储于第三种群中；

根据所述预设适应度函数，计算各个所述第二决策树分类器的适应度其中，N′_Mi为所述第二决策树分类器H_n正确分类所述测试数据集的实例总数，N′为所述测试数据集中实例总数；

比较各个所述第二决策树分类器的适应度并淘汰适应度最小的第二决策树分类器；

确定剩余的第二决策树分类器作为第二最优决策树分类器并存储于所述第二种群中；

判断所述当前迭代次数k是否为预设最大迭代次数；

若是，比较所述第二种群中所述第一较优决策树分类器和各个所述第二较优决策树分类的适应度，并确定适应度最大的决策树分类器作为最优决策树分类器；

若否，将当前迭代次数k加1，并返回执行所述随机生成设定数量的第一决策树分类器并存储于第一种群中，这一步骤。

优选的，所述根据所述最优决策树分类器预测所述待填充数据集中的缺失数据，包括：

基于所述最优决策树分类器对所述待填充数据集进行分类，得到各个分类集合；

将缺少数据的分类集合确定为参考分类集，并将各个所述参考分类集中的所有数据作为填充参考样本X＝{X₁，X₂，…，X_m}；

基于预设排列顺序对所述填充参考样本进行排序，获取观察数据集合X_obs＝{X₁，X₂，…，X_p}和缺失数据集合X_miss＝{X_p+1，X_p+2，…，X_m}，其中，p为所述观察数据集合中的预设数据量；

确定当前迭代次数l为0，计算缺失数据的初始评价参量初始最大期望值E(X_fill|X_obs,θ⁽⁰⁾)＝θ⁽⁰⁾和初始预测值X_fill＝E(X_fill|X_obs,θ⁽⁰⁾)＝θ⁽⁰⁾；

将当前迭代次数l加1，计算当前最大期望值E(X_fill|X_obs,θ^(l))＝θ^(l-1)，其中，θ^(l)当前迭代次数l对应的评价参量、θ^(l-1)为迭代次数l-1对应的评价参量；

计算当前评价参量

判断当前迭代次数l对应的所述当前最大期望值和上一迭代次数l-1对应的最大期望值差的绝对值是否小于预设收敛值；

若是，计算最终预测值X_fill＝E(X_fill|X_obs,θ^(l))，并将所述最终预测值确定为所述缺失数据；

若否，返回执行所述将当前迭代次数l加1，计算当前最大期望值E(X_fill|X_obs,θ^(l))＝θ^(l-1)，这一步骤。

优选的，所述预设排列顺序为时间顺序。

优选的，所述预设收敛值为5。

一种缺失数据预测装置，包括：构建模块、最优决策器获取模块和缺失数据预测模块；

所述构建模块，用于构建待填充数据集的决策树分类器；

所述最优决策器获取模块，用于基于预设改进遗传算法对所述决策树分类器进行剪枝处理，获取最优决策树分类器；

所述缺失数据预测模块，用于根据所述最优决策树分类器预测所述待填充数据集中的缺失数据。

优选的，所述构建模块包括：训练数据集获取单元、第一获取单元、分割计算单元、第一确定单元、测试属性获取单元、分割单元和第二确定单元；

所述训练数据集获取单元，用于划分所述待填充数据集作为第一预设组数数据，并取所述第一预设组数中的第一设定组数数据作为训练数据集；

所述第一获取单元，用于将所述训练数据集作为当前决策树分类器的根节点，并确定所述根节点为当前分割节点；

所述分割计算单元，用于根据预设分割属性集合中的各个分割属性，分别对所述当前分割节点进行分割，并计算各个所述分割属性对应的信息增益值；

所述第一确定单元，用于当各个所述信息增益值全为0时，确定所述当前分割节点作为所述当前决策树分类器的叶子节点，并确定所述当前决策树分类器为决策树分类器；

所述测试属性获取单元，用于当各个所述信息增益值不全为0时，比较各个所述信息增益值，选取信息增益值最大的分割属性作为所述当前分割节点的测试属性；

所述分割单元，用于基于所述测试属性对所述分割节点进行分割，得到第一分割子集和第二分割子集；

所述第二确定单元，用于将所述第一分割子集和所述第二分割子集分别确定为所述当前分割节点，并触发所述分割计算单元。

优选的，所述最优决策器获取模块包括：测试数据集获取单元、编码处理单元、生成单元、第一计算单元、第一比较确定单元、交叉变异处理单元、第二计算单元、比较淘汰单元、第三确定单元、第一判断单元、第二比较确定单元和迭代单元；

所述测试数据集获取单元，用于划分所述待填充数据集为第二预设组数数据，并取所述第二预设组数数据中的第二设定组数数据作为测试数据集；

所述编码处理单元，用于对所述决策树分类器的边进行二进制编码处理，并确定当前迭代次数k为0；

所述生成单元，用于随机生成设定数量的第一决策树分类器并存储于第一种群中；

所述第一计算单元，用于根据预设适应度函数，计算各个所述第一决策树分类器的适应度其中，N_Mi为所述第一决策树分类器H_n正确分类所述测试数据集的实例总数，N为所述测试数据集中实例总数；

所述第一比较确定单元，用于比较各个所述第一决策树分类器的适应度，确定适应度最大的第一决策树分类器作为第一较优决策树分类器并存储于第二种群中；

所述交叉变异处理单元，用于基于预设自适应度遗传算法，对所述第一种群中剩余的各个第一决策树分类器进行染色交叉和变异处理，得到各个第二决策树分类器并存储于第三种群中；

所述第二计算单元，用于根据所述预设适应度函数，计算各个所述第二决策树分类器的适应度其中，N′_Mi为所述第二决策树分类器H_n正确分类所述测试数据集的实例总数，N′为所述测试数据集中实例总数；

所述比较淘汰单元，用于比较各个所述第二决策树分类器的适应度并淘汰适应度最小的第二决策树分类器；

所述第三确定单元，用于确定剩余的第二决策树分类器作为第二最优决策树分类器并存储于所述第二种群中；

所述第一判断单元，用于判断所述当前迭代次数k是否为预设最大迭代次数；若是，触发所述第二比较确定单元；若否，触发所述迭代单元；

所述第二比较确定单元，用于比较所述第二种群中所述第一较优决策树分类器和各个所述第二较优决策树分类的适应度，并确定适应度最大的决策树分类器作为最优决策树分类器；

所述迭代单元，用于将当前迭代次数k加1，并触发所述生成单元。

优选的，所述缺失数据预测模块包括：分类单元、参考样本获取单元、排序单元、确定计算单元、迭代计算单元、第三计算单元、第二判断单元和第四计算单元；

所述分类单元，用于基于所述最优决策树分类器对所述待填充数据集进行分类，得到各个分类集合；

所述参考样本获取单元，用于将缺少数据的分类集合确定为参考分类集，并将各个所述参考分类集中的所有数据作为填充参考样本X＝{X₁，X₂，…，X_m}；

所述排序单元，用于基于预设排列顺序对所述填充参考样本进行排序，获取观察数据集合X_obs＝{X₁，X₂，…，X_p}和缺失数据集合X_miss＝{X_p+1，X_p+2，…，X_m}，其中，p为所述观察数据集合中的预设数据量；

所述确定计算单元，用于确定当前迭代次数l为0，计算缺失数据的初始评价参量初始最大期望值E(X_fill|X_obs,θ⁽⁰⁾)＝θ⁽⁰⁾和初始预测值X_fill＝E(X_fill|X_obs,θ⁽⁰⁾)＝θ⁽⁰⁾；

所述迭代计算单元，用于将当前迭代次数l加1，计算当前最大期望值E(X_fill|X_obs,θ^(l))＝θ^(l-1)，其中，θ^(l)当前迭代次数l对应的评价参量、θ(l-¹⁾为迭代次数l-1对应的评价参量；

所述第三计算单元，用于计算当前评价参量

所述第二判断单元，用于判断当前迭代次数l对应的所述当前最大期望值和上一迭代次数l-1对应的最大期望值差的绝对值是否小于预设收敛值；若是，触发所述第四计算单元；若否，触发所述迭代计算单元；

所述第四计算单元，用于计算最终预测值X_fill＝E(X_fill|X_obs,θ^(l))，并将所述最终预测值确定为所述缺失数据。

相较于现有技术，本发明实现的有益效果为：

以上本发明提供的一种缺失数据预测方法及装置，该方法包括：构建待填充数据集的决策树分类器；基于预设改进遗传算法对决策树分类器进行剪枝处理，获取最优决策树分类器；根据最优决策树分类器预测所述待填充数据集中的缺失数据。基于上述公开的方法，对数据库中缺失的数据进行有效的预测，从而保证了数据库信息完整性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例一公开的一种缺失数据预测方法流程图；

图2为本发明实施例二公开的一种缺失数据预测方法部分流程图；

图3为本发明实施例二公开的另一种缺失数据预测方法部分流程图；

图4为本发明实施例二公开的另一种缺失数据预测方法部分流程图；

图5为本发明实施例三公开的一种缺失数据预测装置结构示意图；

图6为本发明实施例四公开的一种缺失数据预测装置部分结构示意图；

图7为本发明实施例四公开的另一种缺失数据预测装置部分结构示意图；

图8为本发明实施例四公开的另一种缺失数据预测装置部分结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例公开的一种缺失数据预测方法，流程图如图1所示，缺失数据预测方法包括：

S101，构建待填充数据集的决策树分类器；

S102，基于预设改进遗传算法对决策树分类器进行剪枝处理，获取最优决策树分类器；

S103，根据最优决策树分类器预测待填充数据集中的缺失数据。

需要说明的是，在决策树分类器构建过程中，根据属性可将待填充数据集分割为若干子集，在之后的决策树分类器对子集进行分类的过程中，将树生成阶段确定的分割属性作为测试属性对待填充数据集进行测试，并赋予类别值。构建决策树分类器的目的就是通过选择分割属性，将原本混乱的待填充数据集分割为较“纯净”的子集，也就是选择最有助于分类的测试属性。

本发明实施例公开的缺失数据预测方法，构建待填充数据集的决策树分类器；基于预设改进遗传算法对决策树分类器进行剪枝处理，获取最优决策树分类器；根据最优决策树分类器预测所述待填充数据集中的缺失数据。基于上述公开的方法，对数据库中缺失的数据进行有效的预测，从而保证了数据库信息完整性。

实施例二

基于上述本发明实施例一公开的一种缺失数据预测方法，如图1所示出的步骤S101中，构建待填充数据集的决策树分类器的具体执行过程，如图2所示，包括如下步骤：

S201，划分待填充数据集作为第一预设组数数据，并取第一预设组数中的第一设定组数数据作为训练数据集；

S202，将训练数据集作为当前决策树分类器的根节点，并确定根节点为当前分割节点；

S203，根据预设分割属性集合中的各个分割属性，分别对当前分割节点进行分割，并计算各个分割属性对应的信息增益值；

S204，当各个信息增益值全为0时，确定当前分割节点作为当前决策树分类器的叶子节点，并确定当前决策树分类器为决策树分类器；

S205，当各个信息增益值不全为0时，比较各个信息增益值，选取信息增益值最大的分割属性作为当前分割节点的测试属性；

S206，基于测试属性对分割节点进行分割，得到第一分割子集和第二分割子集；

S207，将第一分割子集和所述第二分割子集分别确定为当前分割节点，并返回执行步骤S203。

需要说明的是，在对节点进行分割之前，需要构造一个分割属性集合对节点进行分割，在其中选择最优的分割属性即上述测试属性。分割属性集合由所有对事物的测试构成。通过计算各个分割属性在当前分割节点的信息增益值，将信息增益值最大的分割属性作为当前分割节点的测试属性。

还需要说明的是，分割过程自顶向下递归进行，对于每个分割节点，选择信息增益值最大的分割属性对节点进行分割。如果分割属性集合在其上的信息增益值都为0，即代表分割前后该分割节点纯度不变，继续对该分割节点进行分割是无意义的，此时，该分割节点为叶子节点。最终，由有序的测试属性和叶子节点的类别标签构成一棵决策树分类器。

基于上述本发明实施例一公开的一种缺失数据预测方法，如图1所示出的步骤S102中，基于预设改进遗传算法对决策树分类器进行剪枝处理，获取最优决策树分类器的具体执行过程，如图3所示，包括如下步骤：

S301，划分待填充数据集为第二预设组数数据，并取第二预设组数数据中的第二设定组数数据作为测试数据集；

S302，对决策树分类器的边进行二进制编码处理，并确定当前迭代次数k为0；

S303，随机生成设定数量的第一决策树分类器并存储于第一种群中；

S304，根据预设适应度函数，计算各个第一决策树分类器的适应度f(H_n)₁；

在步骤S304中，采用公式(1)计算各个第一决策树分类器的适应度f(H_n)₁：

其中，N_Mi为第一决策树分类器H_n正确分类测试数据集的实例总数，N为测试数据集中实例总数；

S305，比较各个第一决策树分类器的适应度，确定适应度最大的第一决策树分类器作为第一较优决策树分类器并存储于第二种群中；

S306，基于预设自适应度遗传算法，对第一种群中剩余的各个第一决策树分类器进行染色交叉和变异处理，得到各个第二决策树分类器并存储于第三种群中；

S307，根据预设适应度函数，计算各个第二决策树分类器的适应度f(H_n)₂；

在步骤S304中，采用公式(2)计算各个第二决策树分类器的适应度f(H_n)₂；

其中，N′_Mi为第二决策树分类器H_n正确分类测试数据集的实例总数，N′为测试数据集中实例总数；

S308，比较各个第二决策树分类器的适应度并淘汰适应度最小的第二决策树分类器，

S309，确定剩余的第二决策树分类器作为第二最优决策树分类器并存储于第二种群中；

S310，判断当前迭代次数k是否为预设最大迭代次数；

S311，若是，比较第二种群中所述第一较优决策树分类器和各个第二较优决策树分类的适应度，并确定适应度最大的决策树分类器作为最优决策树分类器；

S312，若否，将当前迭代次数k加1，并返回执行所述步骤S303。

本发明实施例公开的缺失数据预测方法，基于预设改进遗传算法对决策树分类器进行剪枝处理，得到具有良好分类精度的最小决策树分类器。

基于上述本发明实施例一公开的一种缺失数据预测方法，如图1所示出的步骤S103中，根据最优决策树分类器预测待填充数据集中的缺失数据的具体执行过程，如图4所示，包括如下步骤：

S401，基于最优决策树分类器对待填充数据集进行分类，得到各个分类集合；

S402，将缺少数据的分类集合确定为参考分类集，并将各个参考分类集中的所有数据作为填充参考样本X＝{X₁，X₂，…，X_m}；

S403，基于预设排列顺序对填充参考样本进行排序，获取观察数据集合X_obs＝{X₁，X₂，…，X_p}和缺失数据集合X_miss＝{X_p+1，X_p+2，…，X_m}，其中，p为观察数据集合中的预设数据量；

S404，确定当前迭代次数l为0，计算缺失数据的初始评价参量θ⁽⁰⁾、初始最大期望值E(X_fill|X_obs,θ⁽⁰⁾)和初始预测值X_fill；

在步骤S404中，采用公式(3)计算初始评价参量θ⁽⁰⁾：

在步骤S404中，采用公式(4)计算初始评价参量E(X_fill|X_obs,θ⁽⁰⁾)：

E(X_fill|X_obs,θ⁽⁰⁾)＝θ⁽⁰⁾ (4)

在步骤S404中，采用公式(5)计算初始评价参量X_fill：

X_fill＝E(X_fill|X_obs,θ⁽⁰⁾)＝θ⁽⁰⁾ (5)；

S405，将当前迭代次数l加1，计算当前最大期望值E(X_fill|X_obs,θ^(l))；

在步骤S405中，采用公式(6)计算当前最大期望值E(X_fill|X_obs,θ^(l))：

E(X_fill|X_obs,θ^(l))＝θ^(l-1) (6)

其中，θ^(l)当前迭代次数l对应的评价参量、θ^(l-1)为迭代次数l-1对应的评价参量；

S406，计算当前评价参量θ^(l)；

在步骤S406中，采用公式(7)计算当前评价参量θ^(l)：

S407，判断当前迭代次数l对应的当前最大期望值和上一迭代次数l-1对应的最大期望值差的绝对值是否小于预设收敛值；若否，返回执行步骤S405；

S408，若是，计算最终预测值X_fill，并将最终预测值确定为缺失数据；

在步骤S408中，采用公式(8)计算最终预测值X_fill：

X_fill＝E(X_fill|X_obs,θ^(l)) (8)。

需要说明的是，预设排列顺序包括但不局限于时间顺序；预设收敛值可选为5，具体可根据实际情况进行选择。

本发明实施例公开的缺失数据预测方法，可根据最优决策树对数据库中缺失的数据进行有效的预测，从而保证了数据库信息完整性。

实施例三

基于上述本发明各实施例提供的缺失数据预测方法，本实施例三则对应提供了执行上述缺失数据预测方法的缺失数据预测装置，其结构示意图如图5所示，缺失数据预测装置500包括：构建模块501、最优决策器获取模块502和缺失数据预测模块503；

构建模块501，用于构建待填充数据集的决策树分类器；

最优决策器获取模块502，用于基于预设改进遗传算法对决策树分类器进行剪枝处理，获取最优决策树分类器；

缺失数据预测模块503，用于根据最优决策树分类器预测待填充数据集中的缺失数据。

本发明实施例公开的缺失数据预测装置，构建模块构建待填充数据集的决策树分类器；最优决策器获取模块基于预设改进遗传算法对决策树分类器进行剪枝处理，获取最优决策树分类器；缺失数据预测模块根据最优决策树分类器预测所述待填充数据集中的缺失数据。基于上述公开的装置，对数据库中缺失的数据进行有效的预测，从而保证了数据库信息完整性。

实施例四

结合上述实施例三公开的缺失数据预测装置和附图5，本实施例四还公开了一种缺失数据预测装置，其中，构建模块501的结构示意图如图6所示，包括：训练数据集获取单元601、第一获取单元602、分割计算单元603、第一确定单元604、测试属性获取单元605、分割单元606和第二确定单元607；

训练数据集获取单元601，用于划分待填充数据集作为第一预设组数数据，并取第一预设组数中的第一设定组数数据作为训练数据集；

第一获取单元602，用于将训练数据集作为当前决策树分类器的根节点，并确定根节点为当前分割节点；

分割计算单元603，用于根据预设分割属性集合中的各个分割属性，分别对当前分割节点进行分割，并计算各个分割属性对应的信息增益值；

第一确定单元604，用于当各个信息增益值全为0时，确定当前分割节点作为当前决策树分类器的叶子节点，并确定当前决策树分类器为决策树分类器；

测试属性获取单元605，用于当各个信息增益值不全为0时，比较各个信息增益值，选取信息增益值最大的分割属性作为当前分割节点的测试属性；

分割单元606，用于基于测试属性对所述分割节点进行分割，得到第一分割子集和第二分割子集；

第二确定单元607，用于将第一分割子集和第二分割子集分别确定为当前分割节点，并触发分割计算单元。

结合上述实施例三公开的缺失数据预测装置和附图5，本实施例四还公开了另一种缺失数据预测装置，其中，最优决策器获取模块502的结构示意图如图7所示，最优决策器获取模块502包括：测试数据集获取单元701、编码处理单元702、生成单元703、第一计算单元704、第一比较确定单元705、交叉变异处理单元706、第二计算单元707、比较淘汰单元708、第三确定单元709、第一判断单元710、第二比较确定单元711和迭代单元712；

测试数据集获取单元701，用于划分待填充数据集为第二预设组数数据，并取第二预设组数数据中的第二设定组数数据作为测试数据集；

编码处理单元702，用于对决策树分类器的边进行二进制编码处理，并确定当前迭代次数k为0；

生成单元703，用于随机生成设定数量的第一决策树分类器并存储于第一种群中；

第一计算单元704，用于根据预设适应度函数，计算各个第一决策树分类器的适应度其中，N_Mi为第一决策树分类器H_n正确分类测试数据集的实例总数，N为测试数据集中实例总数；

第一比较确定单元705，用于比较各个第一决策树分类器的适应度，确定适应度最大的第一决策树分类器作为第一较优决策树分类器并存储于第二种群中；

交叉变异处理单元706，用于基于预设自适应度遗传算法，对第一种群中剩余的各个第一决策树分类器进行染色交叉和变异处理，得到各个第二决策树分类器并存储于第三种群中；

第二计算单元707，用于根据预设适应度函数，计算各个第二决策树分类器的适应度其中，N′_Mi为第二决策树分类器H_n正确分类测试数据集的实例总数，N′为测试数据集中实例总数；

比较淘汰单元708，用于比较各个第二决策树分类器的适应度并淘汰适应度最小的第二决策树分类器；

第三确定单元709，用于确定剩余的第二决策树分类器作为第二最优决策树分类器并存储于所述第二种群中；

第一判断单元710，用于判断当前迭代次数k是否为预设最大迭代次数；若是，触发第二比较确定单元711；若否，触发迭代单元712；

第二比较确定单元711，用于比较第二种群中第一较优决策树分类器和各个第二较优决策树分类的适应度，并确定适应度最大的决策树分类器作为最优决策树分类器；

迭代单元712，用于将当前迭代次数k加1，并触发生成单元703。

结合上述实施例三公开的缺失数据预测装置和附图5，本实施例四还公开了另一种缺失数据预测装置，其中，缺失数据预测模块503的结构示意图如图8所示，缺失数据预测模块503包括：分类单元801、参考样本获取单元802、排序单元803、确定计算单元804、迭代计算单元805、第三计算单元806、第二判断单元807和第四计算单元808；

分类单元801，用于基于最优决策树分类器对待填充数据集进行分类，得到各个分类集合；

参考样本获取单元802，用于将缺少数据的分类集合确定为参考分类集，并将各个述参考分类集中的所有数据作为填充参考样本X＝{X₁，X₂，…，X_m}；

排序单元803，用于基于预设排列顺序对填充参考样本进行排序，获取观察数据集合X_obs＝{X₁，X₂，…，X_p}和缺失数据集合X_miss＝{X_p+1，X_p+2，…，X_m}，其中，p为观察数据集合中的预设数据量；

确定计算单元804，用于确定当前迭代次数l为0，计算缺失数据的初始评价参量初始最大期望值E(X_fill|X_obs,θ⁽⁰⁾)＝θ⁽⁰⁾和初始预测值X_fill＝E(X_fill|X_obs,θ⁽⁰⁾)＝θ⁽⁰⁾；

迭代计算单元805，用于将当前迭代次数l加1，计算当前最大期望值E(X_fill|X_obs,θ^(l))＝θ^(l-1)，其中，θ^(l)当前迭代次数l对应的评价参量、θ^(l-1)为迭代次数l-1对应的评价参量；

第三计算单元806，用于计算当前评价参量

第二判断单元807，用于判断当前迭代次数l对应的当前最大期望值和上一迭代次数l-1对应的最大期望值差的绝对值是否小于预设收敛值；若是，触发第四计算单元808；若否，触发迭代计算单元805；

第四计算单元808，用于计算最终预测值X_fill＝E(X_fill|X_obs,θ^(l))，并将最终预测值确定为缺失数据。

以上对本发明所提供的一种缺失数据预测算法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素，或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种缺失数据预测方法，其特征在于，包括：

构建待填充数据集的决策树分类器；

2.根据权利要求1所述的方法，其特征在于，所述构建待填充数据集的决策树分类器，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于预设改进遗传算法对所述决策树分类器进行剪枝处理，获取最优决策树分类器，包括：

判断所述当前迭代次数k是否为预设最大迭代次数；

4.根据权利要求1所述的方法，其特征在于，所述根据所述最优决策树分类器预测所述待填充数据集中的缺失数据，包括：

计算当前评价参量

5.根据权利要求4所述的方法，其特征在于，所述预设排列顺序为时间顺序。

6.根据权利要求4所述的方法，其特征在于，所述预设收敛值为5。

7.一种缺失数据预测装置，其特征在于，包括：构建模块、最优决策器获取模块和缺失数据预测模块；

所述构建模块，用于构建待填充数据集的决策树分类器；

8.根据权利要求7所述的装置，其特征在于，所述构建模块包括：训练数据集获取单元、第一获取单元、分割计算单元、第一确定单元、测试属性获取单元、分割单元和第二确定单元；

9.根据权利要求7所述的装置，其特征在于，所述最优决策器获取模块包括：测试数据集获取单元、编码处理单元、生成单元、第一计算单元、第一比较确定单元、交叉变异处理单元、第二计算单元、比较淘汰单元、第三确定单元、第一判断单元、第二比较确定单元和迭代单元；

10.根据权利要求7所述的装置，其特征在于，所述缺失数据预测模块包括：分类单元、参考样本获取单元、排序单元、确定计算单元、迭代计算单元、第三计算单元、第二判断单元和第四计算单元；

所述迭代计算单元，用于将当前迭代次数l加1，计算当前最大期望值E(X_fill|X_obs,θ^(l))＝θ^(l-1)，其中，θ^(l)当前迭代次数l对应的评价参量、θ^(l-1)为迭代次数l-1对应的评价参量；

所述第三计算单元，用于计算当前评价参量