CN106407258A - 一种缺失数据预测方法及装置 - Google Patents

一种缺失数据预测方法及装置 Download PDF

Info

Publication number
CN106407258A
CN106407258A CN201610719167.2A CN201610719167A CN106407258A CN 106407258 A CN106407258 A CN 106407258A CN 201610719167 A CN201610719167 A CN 201610719167A CN 106407258 A CN106407258 A CN 106407258A
Authority
CN
China
Prior art keywords
decision tree
tree classifier
unit
current
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610719167.2A
Other languages
English (en)
Inventor
蔡延光
戚远航
蔡颢
梁秉毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201610719167.2A priority Critical patent/CN106407258A/zh
Publication of CN106407258A publication Critical patent/CN106407258A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种缺失数据预测方法及装置,该方法包括:构建待填充数据集的决策树分类器;基于预设改进遗传算法对决策树分类器进行剪枝处理,获取最优决策树分类器;根据最优决策树分类器预测所述待填充数据集中的缺失数据。基于上述公开的方法,对数据库中缺失的数据进行有效的预测,从而保证了数据库信息完整性。

Description

一种缺失数据预测方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种缺失数据预测方法及装置。
背景技术
在各类数据库的数据源中,往往会存在一些空缺信息,有的是由于原始数据的缺失造成,有的则是因为操作的失误。数据库中的空缺信息会造成数据不完整,这成为各类数据库中一个普遍的问题,数据填充技术的提出就是希望一些手段来估算、预测或者找回数据源中的空缺信息。
目前,含有缺失数据的多变量数据集不能在绝大多数的统计模型中直接分析,一般当数据源中缺失数据较少时,可将缺失数据进行删除,但是当缺失数据较多时,删除大量的数据会导致数据库的分类精度降低。
有鉴于此,现有的技术方案对数据库中缺失的数据不能进行有效预测,使得数据库存在缺失数据。
发明内容
有鉴于此,本发明提供一种缺失数据预测方法及装置,以解决现有的技术方案对数据库中缺失的数据不能进行有效预测,使得数据库存在缺失数据的问题。技术方案如下:
一种缺失数据预测方法,包括:
构建待填充数据集的决策树分类器;
基于预设改进遗传算法对所述决策树分类器进行剪枝处理,获取最优决策树分类器;
根据所述最优决策树分类器预测所述待填充数据集中的缺失数据。
优选的,所述构建待填充数据集的决策树分类器,包括:
划分所述待填充数据集作为第一预设组数数据,并取所述第一预设组数中的第一设定组数数据作为训练数据集;
将所述训练数据集作为当前决策树分类器的根节点,并确定所述根节点为当前分割节点;
根据预设分割属性集合中的各个分割属性,分别对所述当前分割节点进行分割,并计算各个所述分割属性对应的信息增益值;
当各个所述信息增益值全为0时,确定所述当前分割节点作为所述当前决策树分类器的叶子节点,并确定所述当前决策树分类器为决策树分类器;
当各个所述信息增益值不全为0时,比较各个所述信息增益值,选取信息增益值最大的分割属性作为所述当前分割节点的测试属性;
基于所述测试属性对所述分割节点进行分割,得到第一分割子集和第二分割子集;
将所述第一分割子集和所述第二分割子集分别确定为所述当前分割节点,并返回执行所述根据预设分割属性集合中的各个分割属性,分别对所述当前分割节点进行分割,并计算各个所述分割属性对应的信息增益值,这一步骤。
优选的,所述基于预设改进遗传算法对所述决策树分类器进行剪枝处理,获取最优决策树分类器,包括:
划分所述待填充数据集为第二预设组数数据,并取所述第二预设组数数据中的第二设定组数数据作为测试数据集;
对所述决策树分类器的边进行二进制编码处理,并确定当前迭代次数k为0;
随机生成设定数量的第一决策树分类器并存储于第一种群中;
根据预设适应度函数,计算各个所述第一决策树分类器的适应度其中,NMi为所述第一决策树分类器Hn正确分类所述测试数据集的实例总数,N为所述测试数据集中实例总数;
比较各个所述第一决策树分类器的适应度,确定适应度最大的第一决策树分类器作为第一较优决策树分类器并存储于第二种群中;
基于预设自适应度遗传算法,对所述第一种群中剩余的各个第一决策树分类器进行染色交叉和变异处理,得到各个第二决策树分类器并存储于第三种群中;
根据所述预设适应度函数,计算各个所述第二决策树分类器的适应度其中,N′Mi为所述第二决策树分类器Hn正确分类所述测试数据集的实例总数,N′为所述测试数据集中实例总数;
比较各个所述第二决策树分类器的适应度并淘汰适应度最小的第二决策树分类器;
确定剩余的第二决策树分类器作为第二最优决策树分类器并存储于所述第二种群中;
判断所述当前迭代次数k是否为预设最大迭代次数;
若是,比较所述第二种群中所述第一较优决策树分类器和各个所述第二较优决策树分类的适应度,并确定适应度最大的决策树分类器作为最优决策树分类器;
若否,将当前迭代次数k加1,并返回执行所述随机生成设定数量的第一决策树分类器并存储于第一种群中,这一步骤。
优选的,所述根据所述最优决策树分类器预测所述待填充数据集中的缺失数据,包括:
基于所述最优决策树分类器对所述待填充数据集进行分类,得到各个分类集合;
将缺少数据的分类集合确定为参考分类集,并将各个所述参考分类集中的所有数据作为填充参考样本X={X1,X2,…,Xm};
基于预设排列顺序对所述填充参考样本进行排序,获取观察数据集合Xobs={X1,X2,…,Xp}和缺失数据集合Xmiss={Xp+1,Xp+2,…,Xm},其中,p为所述观察数据集合中的预设数据量;
确定当前迭代次数l为0,计算缺失数据的初始评价参量初始最大期望值E(Xfill|Xobs(0))=θ(0)和初始预测值Xfill=E(Xfill|Xobs(0))=θ(0)
将当前迭代次数l加1,计算当前最大期望值E(Xfill|Xobs(l))=θ(l-1),其中,θ(l)当前迭代次数l对应的评价参量、θ(l-1)为迭代次数l-1对应的评价参量;
计算当前评价参量
判断当前迭代次数l对应的所述当前最大期望值和上一迭代次数l-1对应的最大期望值差的绝对值是否小于预设收敛值;
若是,计算最终预测值Xfill=E(Xfill|Xobs(l)),并将所述最终预测值确定为所述缺失数据;
若否,返回执行所述将当前迭代次数l加1,计算当前最大期望值E(Xfill|Xobs(l))=θ(l-1),这一步骤。
优选的,所述预设排列顺序为时间顺序。
优选的,所述预设收敛值为5。
一种缺失数据预测装置,包括:构建模块、最优决策器获取模块和缺失数据预测模块;
所述构建模块,用于构建待填充数据集的决策树分类器;
所述最优决策器获取模块,用于基于预设改进遗传算法对所述决策树分类器进行剪枝处理,获取最优决策树分类器;
所述缺失数据预测模块,用于根据所述最优决策树分类器预测所述待填充数据集中的缺失数据。
优选的,所述构建模块包括:训练数据集获取单元、第一获取单元、分割计算单元、第一确定单元、测试属性获取单元、分割单元和第二确定单元;
所述训练数据集获取单元,用于划分所述待填充数据集作为第一预设组数数据,并取所述第一预设组数中的第一设定组数数据作为训练数据集;
所述第一获取单元,用于将所述训练数据集作为当前决策树分类器的根节点,并确定所述根节点为当前分割节点;
所述分割计算单元,用于根据预设分割属性集合中的各个分割属性,分别对所述当前分割节点进行分割,并计算各个所述分割属性对应的信息增益值;
所述第一确定单元,用于当各个所述信息增益值全为0时,确定所述当前分割节点作为所述当前决策树分类器的叶子节点,并确定所述当前决策树分类器为决策树分类器;
所述测试属性获取单元,用于当各个所述信息增益值不全为0时,比较各个所述信息增益值,选取信息增益值最大的分割属性作为所述当前分割节点的测试属性;
所述分割单元,用于基于所述测试属性对所述分割节点进行分割,得到第一分割子集和第二分割子集;
所述第二确定单元,用于将所述第一分割子集和所述第二分割子集分别确定为所述当前分割节点,并触发所述分割计算单元。
优选的,所述最优决策器获取模块包括:测试数据集获取单元、编码处理单元、生成单元、第一计算单元、第一比较确定单元、交叉变异处理单元、第二计算单元、比较淘汰单元、第三确定单元、第一判断单元、第二比较确定单元和迭代单元;
所述测试数据集获取单元,用于划分所述待填充数据集为第二预设组数数据,并取所述第二预设组数数据中的第二设定组数数据作为测试数据集;
所述编码处理单元,用于对所述决策树分类器的边进行二进制编码处理,并确定当前迭代次数k为0;
所述生成单元,用于随机生成设定数量的第一决策树分类器并存储于第一种群中;
所述第一计算单元,用于根据预设适应度函数,计算各个所述第一决策树分类器的适应度其中,NMi为所述第一决策树分类器Hn正确分类所述测试数据集的实例总数,N为所述测试数据集中实例总数;
所述第一比较确定单元,用于比较各个所述第一决策树分类器的适应度,确定适应度最大的第一决策树分类器作为第一较优决策树分类器并存储于第二种群中;
所述交叉变异处理单元,用于基于预设自适应度遗传算法,对所述第一种群中剩余的各个第一决策树分类器进行染色交叉和变异处理,得到各个第二决策树分类器并存储于第三种群中;
所述第二计算单元,用于根据所述预设适应度函数,计算各个所述第二决策树分类器的适应度其中,N′Mi为所述第二决策树分类器Hn正确分类所述测试数据集的实例总数,N′为所述测试数据集中实例总数;
所述比较淘汰单元,用于比较各个所述第二决策树分类器的适应度并淘汰适应度最小的第二决策树分类器;
所述第三确定单元,用于确定剩余的第二决策树分类器作为第二最优决策树分类器并存储于所述第二种群中;
所述第一判断单元,用于判断所述当前迭代次数k是否为预设最大迭代次数;若是,触发所述第二比较确定单元;若否,触发所述迭代单元;
所述第二比较确定单元,用于比较所述第二种群中所述第一较优决策树分类器和各个所述第二较优决策树分类的适应度,并确定适应度最大的决策树分类器作为最优决策树分类器;
所述迭代单元,用于将当前迭代次数k加1,并触发所述生成单元。
优选的,所述缺失数据预测模块包括:分类单元、参考样本获取单元、排序单元、确定计算单元、迭代计算单元、第三计算单元、第二判断单元和第四计算单元;
所述分类单元,用于基于所述最优决策树分类器对所述待填充数据集进行分类,得到各个分类集合;
所述参考样本获取单元,用于将缺少数据的分类集合确定为参考分类集,并将各个所述参考分类集中的所有数据作为填充参考样本X={X1,X2,…,Xm};
所述排序单元,用于基于预设排列顺序对所述填充参考样本进行排序,获取观察数据集合Xobs={X1,X2,…,Xp}和缺失数据集合Xmiss={Xp+1,Xp+2,…,Xm},其中,p为所述观察数据集合中的预设数据量;
所述确定计算单元,用于确定当前迭代次数l为0,计算缺失数据的初始评价参量初始最大期望值E(Xfill|Xobs(0))=θ(0)和初始预测值Xfill=E(Xfill|Xobs(0))=θ(0)
所述迭代计算单元,用于将当前迭代次数l加1,计算当前最大期望值E(Xfill|Xobs(l))=θ(l-1),其中,θ(l)当前迭代次数l对应的评价参量、θ(l-1)为迭代次数l-1对应的评价参量;
所述第三计算单元,用于计算当前评价参量
所述第二判断单元,用于判断当前迭代次数l对应的所述当前最大期望值和上一迭代次数l-1对应的最大期望值差的绝对值是否小于预设收敛值;若是,触发所述第四计算单元;若否,触发所述迭代计算单元;
所述第四计算单元,用于计算最终预测值Xfill=E(Xfill|Xobs(l)),并将所述最终预测值确定为所述缺失数据。
相较于现有技术,本发明实现的有益效果为:
以上本发明提供的一种缺失数据预测方法及装置,该方法包括:构建待填充数据集的决策树分类器;基于预设改进遗传算法对决策树分类器进行剪枝处理,获取最优决策树分类器;根据最优决策树分类器预测所述待填充数据集中的缺失数据。基于上述公开的方法,对数据库中缺失的数据进行有效的预测,从而保证了数据库信息完整性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例一公开的一种缺失数据预测方法流程图;
图2为本发明实施例二公开的一种缺失数据预测方法部分流程图;
图3为本发明实施例二公开的另一种缺失数据预测方法部分流程图;
图4为本发明实施例二公开的另一种缺失数据预测方法部分流程图;
图5为本发明实施例三公开的一种缺失数据预测装置结构示意图;
图6为本发明实施例四公开的一种缺失数据预测装置部分结构示意图;
图7为本发明实施例四公开的另一种缺失数据预测装置部分结构示意图;
图8为本发明实施例四公开的另一种缺失数据预测装置部分结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例公开的一种缺失数据预测方法,流程图如图1所示,缺失数据预测方法包括:
S101,构建待填充数据集的决策树分类器;
S102,基于预设改进遗传算法对决策树分类器进行剪枝处理,获取最优决策树分类器;
S103,根据最优决策树分类器预测待填充数据集中的缺失数据。
需要说明的是,在决策树分类器构建过程中,根据属性可将待填充数据集分割为若干子集,在之后的决策树分类器对子集进行分类的过程中,将树生成阶段确定的分割属性作为测试属性对待填充数据集进行测试,并赋予类别值。构建决策树分类器的目的就是通过选择分割属性,将原本混乱的待填充数据集分割为较“纯净”的子集,也就是选择最有助于分类的测试属性。
本发明实施例公开的缺失数据预测方法,构建待填充数据集的决策树分类器;基于预设改进遗传算法对决策树分类器进行剪枝处理,获取最优决策树分类器;根据最优决策树分类器预测所述待填充数据集中的缺失数据。基于上述公开的方法,对数据库中缺失的数据进行有效的预测,从而保证了数据库信息完整性。
实施例二
基于上述本发明实施例一公开的一种缺失数据预测方法,如图1所示出的步骤S101中,构建待填充数据集的决策树分类器的具体执行过程,如图2所示,包括如下步骤:
S201,划分待填充数据集作为第一预设组数数据,并取第一预设组数中的第一设定组数数据作为训练数据集;
S202,将训练数据集作为当前决策树分类器的根节点,并确定根节点为当前分割节点;
S203,根据预设分割属性集合中的各个分割属性,分别对当前分割节点进行分割,并计算各个分割属性对应的信息增益值;
S204,当各个信息增益值全为0时,确定当前分割节点作为当前决策树分类器的叶子节点,并确定当前决策树分类器为决策树分类器;
S205,当各个信息增益值不全为0时,比较各个信息增益值,选取信息增益值最大的分割属性作为当前分割节点的测试属性;
S206,基于测试属性对分割节点进行分割,得到第一分割子集和第二分割子集;
S207,将第一分割子集和所述第二分割子集分别确定为当前分割节点,并返回执行步骤S203。
需要说明的是,在对节点进行分割之前,需要构造一个分割属性集合对节点进行分割,在其中选择最优的分割属性即上述测试属性。分割属性集合由所有对事物的测试构成。通过计算各个分割属性在当前分割节点的信息增益值,将信息增益值最大的分割属性作为当前分割节点的测试属性。
还需要说明的是,分割过程自顶向下递归进行,对于每个分割节点,选择信息增益值最大的分割属性对节点进行分割。如果分割属性集合在其上的信息增益值都为0,即代表分割前后该分割节点纯度不变,继续对该分割节点进行分割是无意义的,此时,该分割节点为叶子节点。最终,由有序的测试属性和叶子节点的类别标签构成一棵决策树分类器。
基于上述本发明实施例一公开的一种缺失数据预测方法,如图1所示出的步骤S102中,基于预设改进遗传算法对决策树分类器进行剪枝处理,获取最优决策树分类器的具体执行过程,如图3所示,包括如下步骤:
S301,划分待填充数据集为第二预设组数数据,并取第二预设组数数据中的第二设定组数数据作为测试数据集;
S302,对决策树分类器的边进行二进制编码处理,并确定当前迭代次数k为0;
S303,随机生成设定数量的第一决策树分类器并存储于第一种群中;
S304,根据预设适应度函数,计算各个第一决策树分类器的适应度f(Hn)1
在步骤S304中,采用公式(1)计算各个第一决策树分类器的适应度f(Hn)1
其中,NMi为第一决策树分类器Hn正确分类测试数据集的实例总数,N为测试数据集中实例总数;
S305,比较各个第一决策树分类器的适应度,确定适应度最大的第一决策树分类器作为第一较优决策树分类器并存储于第二种群中;
S306,基于预设自适应度遗传算法,对第一种群中剩余的各个第一决策树分类器进行染色交叉和变异处理,得到各个第二决策树分类器并存储于第三种群中;
S307,根据预设适应度函数,计算各个第二决策树分类器的适应度f(Hn)2
在步骤S304中,采用公式(2)计算各个第二决策树分类器的适应度f(Hn)2
其中,N′Mi为第二决策树分类器Hn正确分类测试数据集的实例总数,N′为测试数据集中实例总数;
S308,比较各个第二决策树分类器的适应度并淘汰适应度最小的第二决策树分类器,
S309,确定剩余的第二决策树分类器作为第二最优决策树分类器并存储于第二种群中;
S310,判断当前迭代次数k是否为预设最大迭代次数;
S311,若是,比较第二种群中所述第一较优决策树分类器和各个第二较优决策树分类的适应度,并确定适应度最大的决策树分类器作为最优决策树分类器;
S312,若否,将当前迭代次数k加1,并返回执行所述步骤S303。
本发明实施例公开的缺失数据预测方法,基于预设改进遗传算法对决策树分类器进行剪枝处理,得到具有良好分类精度的最小决策树分类器。
基于上述本发明实施例一公开的一种缺失数据预测方法,如图1所示出的步骤S103中,根据最优决策树分类器预测待填充数据集中的缺失数据的具体执行过程,如图4所示,包括如下步骤:
S401,基于最优决策树分类器对待填充数据集进行分类,得到各个分类集合;
S402,将缺少数据的分类集合确定为参考分类集,并将各个参考分类集中的所有数据作为填充参考样本X={X1,X2,…,Xm};
S403,基于预设排列顺序对填充参考样本进行排序,获取观察数据集合Xobs={X1,X2,…,Xp}和缺失数据集合Xmiss={Xp+1,Xp+2,…,Xm},其中,p为观察数据集合中的预设数据量;
S404,确定当前迭代次数l为0,计算缺失数据的初始评价参量θ(0)、初始最大期望值E(Xfill|Xobs(0))和初始预测值Xfill
在步骤S404中,采用公式(3)计算初始评价参量θ(0)
在步骤S404中,采用公式(4)计算初始评价参量E(Xfill|Xobs(0)):
E(Xfill|Xobs(0))=θ(0) (4)
在步骤S404中,采用公式(5)计算初始评价参量Xfill
Xfill=E(Xfill|Xobs(0))=θ(0) (5);
S405,将当前迭代次数l加1,计算当前最大期望值E(Xfill|Xobs(l));
在步骤S405中,采用公式(6)计算当前最大期望值E(Xfill|Xobs(l)):
E(Xfill|Xobs(l))=θ(l-1) (6)
其中,θ(l)当前迭代次数l对应的评价参量、θ(l-1)为迭代次数l-1对应的评价参量;
S406,计算当前评价参量θ(l)
在步骤S406中,采用公式(7)计算当前评价参量θ(l)
S407,判断当前迭代次数l对应的当前最大期望值和上一迭代次数l-1对应的最大期望值差的绝对值是否小于预设收敛值;若否,返回执行步骤S405;
S408,若是,计算最终预测值Xfill,并将最终预测值确定为缺失数据;
在步骤S408中,采用公式(8)计算最终预测值Xfill
Xfill=E(Xfill|Xobs(l)) (8)。
需要说明的是,预设排列顺序包括但不局限于时间顺序;预设收敛值可选为5,具体可根据实际情况进行选择。
本发明实施例公开的缺失数据预测方法,可根据最优决策树对数据库中缺失的数据进行有效的预测,从而保证了数据库信息完整性。
实施例三
基于上述本发明各实施例提供的缺失数据预测方法,本实施例三则对应提供了执行上述缺失数据预测方法的缺失数据预测装置,其结构示意图如图5所示,缺失数据预测装置500包括:构建模块501、最优决策器获取模块502和缺失数据预测模块503;
构建模块501,用于构建待填充数据集的决策树分类器;
最优决策器获取模块502,用于基于预设改进遗传算法对决策树分类器进行剪枝处理,获取最优决策树分类器;
缺失数据预测模块503,用于根据最优决策树分类器预测待填充数据集中的缺失数据。
本发明实施例公开的缺失数据预测装置,构建模块构建待填充数据集的决策树分类器;最优决策器获取模块基于预设改进遗传算法对决策树分类器进行剪枝处理,获取最优决策树分类器;缺失数据预测模块根据最优决策树分类器预测所述待填充数据集中的缺失数据。基于上述公开的装置,对数据库中缺失的数据进行有效的预测,从而保证了数据库信息完整性。
实施例四
结合上述实施例三公开的缺失数据预测装置和附图5,本实施例四还公开了一种缺失数据预测装置,其中,构建模块501的结构示意图如图6所示,包括:训练数据集获取单元601、第一获取单元602、分割计算单元603、第一确定单元604、测试属性获取单元605、分割单元606和第二确定单元607;
训练数据集获取单元601,用于划分待填充数据集作为第一预设组数数据,并取第一预设组数中的第一设定组数数据作为训练数据集;
第一获取单元602,用于将训练数据集作为当前决策树分类器的根节点,并确定根节点为当前分割节点;
分割计算单元603,用于根据预设分割属性集合中的各个分割属性,分别对当前分割节点进行分割,并计算各个分割属性对应的信息增益值;
第一确定单元604,用于当各个信息增益值全为0时,确定当前分割节点作为当前决策树分类器的叶子节点,并确定当前决策树分类器为决策树分类器;
测试属性获取单元605,用于当各个信息增益值不全为0时,比较各个信息增益值,选取信息增益值最大的分割属性作为当前分割节点的测试属性;
分割单元606,用于基于测试属性对所述分割节点进行分割,得到第一分割子集和第二分割子集;
第二确定单元607,用于将第一分割子集和第二分割子集分别确定为当前分割节点,并触发分割计算单元。
本发明实施例公开的缺失数据预测装置,构建模块构建待填充数据集的决策树分类器;最优决策器获取模块基于预设改进遗传算法对决策树分类器进行剪枝处理,获取最优决策树分类器;缺失数据预测模块根据最优决策树分类器预测所述待填充数据集中的缺失数据。基于上述公开的装置,对数据库中缺失的数据进行有效的预测,从而保证了数据库信息完整性。
结合上述实施例三公开的缺失数据预测装置和附图5,本实施例四还公开了另一种缺失数据预测装置,其中,最优决策器获取模块502的结构示意图如图7所示,最优决策器获取模块502包括:测试数据集获取单元701、编码处理单元702、生成单元703、第一计算单元704、第一比较确定单元705、交叉变异处理单元706、第二计算单元707、比较淘汰单元708、第三确定单元709、第一判断单元710、第二比较确定单元711和迭代单元712;
测试数据集获取单元701,用于划分待填充数据集为第二预设组数数据,并取第二预设组数数据中的第二设定组数数据作为测试数据集;
编码处理单元702,用于对决策树分类器的边进行二进制编码处理,并确定当前迭代次数k为0;
生成单元703,用于随机生成设定数量的第一决策树分类器并存储于第一种群中;
第一计算单元704,用于根据预设适应度函数,计算各个第一决策树分类器的适应度其中,NMi为第一决策树分类器Hn正确分类测试数据集的实例总数,N为测试数据集中实例总数;
第一比较确定单元705,用于比较各个第一决策树分类器的适应度,确定适应度最大的第一决策树分类器作为第一较优决策树分类器并存储于第二种群中;
交叉变异处理单元706,用于基于预设自适应度遗传算法,对第一种群中剩余的各个第一决策树分类器进行染色交叉和变异处理,得到各个第二决策树分类器并存储于第三种群中;
第二计算单元707,用于根据预设适应度函数,计算各个第二决策树分类器的适应度其中,N′Mi为第二决策树分类器Hn正确分类测试数据集的实例总数,N′为测试数据集中实例总数;
比较淘汰单元708,用于比较各个第二决策树分类器的适应度并淘汰适应度最小的第二决策树分类器;
第三确定单元709,用于确定剩余的第二决策树分类器作为第二最优决策树分类器并存储于所述第二种群中;
第一判断单元710,用于判断当前迭代次数k是否为预设最大迭代次数;若是,触发第二比较确定单元711;若否,触发迭代单元712;
第二比较确定单元711,用于比较第二种群中第一较优决策树分类器和各个第二较优决策树分类的适应度,并确定适应度最大的决策树分类器作为最优决策树分类器;
迭代单元712,用于将当前迭代次数k加1,并触发生成单元703。
本发明实施例公开的缺失数据预测装置,构建模块构建待填充数据集的决策树分类器;最优决策器获取模块基于预设改进遗传算法对决策树分类器进行剪枝处理,获取最优决策树分类器;缺失数据预测模块根据最优决策树分类器预测所述待填充数据集中的缺失数据。基于上述公开的装置,对数据库中缺失的数据进行有效的预测,从而保证了数据库信息完整性。
结合上述实施例三公开的缺失数据预测装置和附图5,本实施例四还公开了另一种缺失数据预测装置,其中,缺失数据预测模块503的结构示意图如图8所示,缺失数据预测模块503包括:分类单元801、参考样本获取单元802、排序单元803、确定计算单元804、迭代计算单元805、第三计算单元806、第二判断单元807和第四计算单元808;
分类单元801,用于基于最优决策树分类器对待填充数据集进行分类,得到各个分类集合;
参考样本获取单元802,用于将缺少数据的分类集合确定为参考分类集,并将各个述参考分类集中的所有数据作为填充参考样本X={X1,X2,…,Xm};
排序单元803,用于基于预设排列顺序对填充参考样本进行排序,获取观察数据集合Xobs={X1,X2,…,Xp}和缺失数据集合Xmiss={Xp+1,Xp+2,…,Xm},其中,p为观察数据集合中的预设数据量;
确定计算单元804,用于确定当前迭代次数l为0,计算缺失数据的初始评价参量初始最大期望值E(Xfill|Xobs(0))=θ(0)和初始预测值Xfill=E(Xfill|Xobs(0))=θ(0)
迭代计算单元805,用于将当前迭代次数l加1,计算当前最大期望值E(Xfill|Xobs(l))=θ(l-1),其中,θ(l)当前迭代次数l对应的评价参量、θ(l-1)为迭代次数l-1对应的评价参量;
第三计算单元806,用于计算当前评价参量
第二判断单元807,用于判断当前迭代次数l对应的当前最大期望值和上一迭代次数l-1对应的最大期望值差的绝对值是否小于预设收敛值;若是,触发第四计算单元808;若否,触发迭代计算单元805;
第四计算单元808,用于计算最终预测值Xfill=E(Xfill|Xobs(l)),并将最终预测值确定为缺失数据。
本发明实施例公开的缺失数据预测装置,构建模块构建待填充数据集的决策树分类器;最优决策器获取模块基于预设改进遗传算法对决策树分类器进行剪枝处理,获取最优决策树分类器;缺失数据预测模块根据最优决策树分类器预测所述待填充数据集中的缺失数据。基于上述公开的装置,对数据库中缺失的数据进行有效的预测,从而保证了数据库信息完整性。
以上对本发明所提供的一种缺失数据预测算法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素,或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种缺失数据预测方法,其特征在于,包括:
构建待填充数据集的决策树分类器;
基于预设改进遗传算法对所述决策树分类器进行剪枝处理,获取最优决策树分类器;
根据所述最优决策树分类器预测所述待填充数据集中的缺失数据。
2.根据权利要求1所述的方法,其特征在于,所述构建待填充数据集的决策树分类器,包括:
划分所述待填充数据集作为第一预设组数数据,并取所述第一预设组数中的第一设定组数数据作为训练数据集;
将所述训练数据集作为当前决策树分类器的根节点,并确定所述根节点为当前分割节点;
根据预设分割属性集合中的各个分割属性,分别对所述当前分割节点进行分割,并计算各个所述分割属性对应的信息增益值;
当各个所述信息增益值全为0时,确定所述当前分割节点作为所述当前决策树分类器的叶子节点,并确定所述当前决策树分类器为决策树分类器;
当各个所述信息增益值不全为0时,比较各个所述信息增益值,选取信息增益值最大的分割属性作为所述当前分割节点的测试属性;
基于所述测试属性对所述分割节点进行分割,得到第一分割子集和第二分割子集;
将所述第一分割子集和所述第二分割子集分别确定为所述当前分割节点,并返回执行所述根据预设分割属性集合中的各个分割属性,分别对所述当前分割节点进行分割,并计算各个所述分割属性对应的信息增益值,这一步骤。
3.根据权利要求1所述的方法,其特征在于,所述基于预设改进遗传算法对所述决策树分类器进行剪枝处理,获取最优决策树分类器,包括:
划分所述待填充数据集为第二预设组数数据,并取所述第二预设组数数据中的第二设定组数数据作为测试数据集;
对所述决策树分类器的边进行二进制编码处理,并确定当前迭代次数k为0;
随机生成设定数量的第一决策树分类器并存储于第一种群中;
根据预设适应度函数,计算各个所述第一决策树分类器的适应度其中,NMi为所述第一决策树分类器Hn正确分类所述测试数据集的实例总数,N为所述测试数据集中实例总数;
比较各个所述第一决策树分类器的适应度,确定适应度最大的第一决策树分类器作为第一较优决策树分类器并存储于第二种群中;
基于预设自适应度遗传算法,对所述第一种群中剩余的各个第一决策树分类器进行染色交叉和变异处理,得到各个第二决策树分类器并存储于第三种群中;
根据所述预设适应度函数,计算各个所述第二决策树分类器的适应度其中,N′Mi为所述第二决策树分类器Hn正确分类所述测试数据集的实例总数,N′为所述测试数据集中实例总数;
比较各个所述第二决策树分类器的适应度并淘汰适应度最小的第二决策树分类器;
确定剩余的第二决策树分类器作为第二最优决策树分类器并存储于所述第二种群中;
判断所述当前迭代次数k是否为预设最大迭代次数;
若是,比较所述第二种群中所述第一较优决策树分类器和各个所述第二较优决策树分类的适应度,并确定适应度最大的决策树分类器作为最优决策树分类器;
若否,将当前迭代次数k加1,并返回执行所述随机生成设定数量的第一决策树分类器并存储于第一种群中,这一步骤。
4.根据权利要求1所述的方法,其特征在于,所述根据所述最优决策树分类器预测所述待填充数据集中的缺失数据,包括:
基于所述最优决策树分类器对所述待填充数据集进行分类,得到各个分类集合;
将缺少数据的分类集合确定为参考分类集,并将各个所述参考分类集中的所有数据作为填充参考样本X={X1,X2,…,Xm};
基于预设排列顺序对所述填充参考样本进行排序,获取观察数据集合Xobs={X1,X2,…,Xp}和缺失数据集合Xmiss={Xp+1,Xp+2,…,Xm},其中,p为所述观察数据集合中的预设数据量;
确定当前迭代次数l为0,计算缺失数据的初始评价参量初始最大期望值E(Xfill|Xobs(0))=θ(0)和初始预测值Xfill=E(Xfill|Xobs(0))=θ(0)
将当前迭代次数l加1,计算当前最大期望值E(Xfill|Xobs(l))=θ(l-1),其中,θ(l)当前迭代次数l对应的评价参量、θ(l-1)为迭代次数l-1对应的评价参量;
计算当前评价参量
判断当前迭代次数l对应的所述当前最大期望值和上一迭代次数l-1对应的最大期望值差的绝对值是否小于预设收敛值;
若是,计算最终预测值Xfill=E(Xfill|Xobs(l)),并将所述最终预测值确定为所述缺失数据;
若否,返回执行所述将当前迭代次数l加1,计算当前最大期望值E(Xfill|Xobs(l))=θ(l-1),这一步骤。
5.根据权利要求4所述的方法,其特征在于,所述预设排列顺序为时间顺序。
6.根据权利要求4所述的方法,其特征在于,所述预设收敛值为5。
7.一种缺失数据预测装置,其特征在于,包括:构建模块、最优决策器获取模块和缺失数据预测模块;
所述构建模块,用于构建待填充数据集的决策树分类器;
所述最优决策器获取模块,用于基于预设改进遗传算法对所述决策树分类器进行剪枝处理,获取最优决策树分类器;
所述缺失数据预测模块,用于根据所述最优决策树分类器预测所述待填充数据集中的缺失数据。
8.根据权利要求7所述的装置,其特征在于,所述构建模块包括:训练数据集获取单元、第一获取单元、分割计算单元、第一确定单元、测试属性获取单元、分割单元和第二确定单元;
所述训练数据集获取单元,用于划分所述待填充数据集作为第一预设组数数据,并取所述第一预设组数中的第一设定组数数据作为训练数据集;
所述第一获取单元,用于将所述训练数据集作为当前决策树分类器的根节点,并确定所述根节点为当前分割节点;
所述分割计算单元,用于根据预设分割属性集合中的各个分割属性,分别对所述当前分割节点进行分割,并计算各个所述分割属性对应的信息增益值;
所述第一确定单元,用于当各个所述信息增益值全为0时,确定所述当前分割节点作为所述当前决策树分类器的叶子节点,并确定所述当前决策树分类器为决策树分类器;
所述测试属性获取单元,用于当各个所述信息增益值不全为0时,比较各个所述信息增益值,选取信息增益值最大的分割属性作为所述当前分割节点的测试属性;
所述分割单元,用于基于所述测试属性对所述分割节点进行分割,得到第一分割子集和第二分割子集;
所述第二确定单元,用于将所述第一分割子集和所述第二分割子集分别确定为所述当前分割节点,并触发所述分割计算单元。
9.根据权利要求7所述的装置,其特征在于,所述最优决策器获取模块包括:测试数据集获取单元、编码处理单元、生成单元、第一计算单元、第一比较确定单元、交叉变异处理单元、第二计算单元、比较淘汰单元、第三确定单元、第一判断单元、第二比较确定单元和迭代单元;
所述测试数据集获取单元,用于划分所述待填充数据集为第二预设组数数据,并取所述第二预设组数数据中的第二设定组数数据作为测试数据集;
所述编码处理单元,用于对所述决策树分类器的边进行二进制编码处理,并确定当前迭代次数k为0;
所述生成单元,用于随机生成设定数量的第一决策树分类器并存储于第一种群中;
所述第一计算单元,用于根据预设适应度函数,计算各个所述第一决策树分类器的适应度其中,NMi为所述第一决策树分类器Hn正确分类所述测试数据集的实例总数,N为所述测试数据集中实例总数;
所述第一比较确定单元,用于比较各个所述第一决策树分类器的适应度,确定适应度最大的第一决策树分类器作为第一较优决策树分类器并存储于第二种群中;
所述交叉变异处理单元,用于基于预设自适应度遗传算法,对所述第一种群中剩余的各个第一决策树分类器进行染色交叉和变异处理,得到各个第二决策树分类器并存储于第三种群中;
所述第二计算单元,用于根据所述预设适应度函数,计算各个所述第二决策树分类器的适应度其中,N′Mi为所述第二决策树分类器Hn正确分类所述测试数据集的实例总数,N′为所述测试数据集中实例总数;
所述比较淘汰单元,用于比较各个所述第二决策树分类器的适应度并淘汰适应度最小的第二决策树分类器;
所述第三确定单元,用于确定剩余的第二决策树分类器作为第二最优决策树分类器并存储于所述第二种群中;
所述第一判断单元,用于判断所述当前迭代次数k是否为预设最大迭代次数;若是,触发所述第二比较确定单元;若否,触发所述迭代单元;
所述第二比较确定单元,用于比较所述第二种群中所述第一较优决策树分类器和各个所述第二较优决策树分类的适应度,并确定适应度最大的决策树分类器作为最优决策树分类器;
所述迭代单元,用于将当前迭代次数k加1,并触发所述生成单元。
10.根据权利要求7所述的装置,其特征在于,所述缺失数据预测模块包括:分类单元、参考样本获取单元、排序单元、确定计算单元、迭代计算单元、第三计算单元、第二判断单元和第四计算单元;
所述分类单元,用于基于所述最优决策树分类器对所述待填充数据集进行分类,得到各个分类集合;
所述参考样本获取单元,用于将缺少数据的分类集合确定为参考分类集,并将各个所述参考分类集中的所有数据作为填充参考样本X={X1,X2,…,Xm};
所述排序单元,用于基于预设排列顺序对所述填充参考样本进行排序,获取观察数据集合Xobs={X1,X2,…,Xp}和缺失数据集合Xmiss={Xp+1,Xp+2,…,Xm},其中,p为所述观察数据集合中的预设数据量;
所述确定计算单元,用于确定当前迭代次数l为0,计算缺失数据的初始评价参量初始最大期望值E(Xfill|Xobs(0))=θ(0)和初始预测值Xfill=E(Xfill|Xobs(0))=θ(0)
所述迭代计算单元,用于将当前迭代次数l加1,计算当前最大期望值E(Xfill|Xobs(l))=θ(l-1),其中,θ(l)当前迭代次数l对应的评价参量、θ(l-1)为迭代次数l-1对应的评价参量;
所述第三计算单元,用于计算当前评价参量
所述第二判断单元,用于判断当前迭代次数l对应的所述当前最大期望值和上一迭代次数l-1对应的最大期望值差的绝对值是否小于预设收敛值;若是,触发所述第四计算单元;若否,触发所述迭代计算单元;
所述第四计算单元,用于计算最终预测值Xfill=E(Xfill|Xobs(l)),并将所述最终预测值确定为所述缺失数据。
CN201610719167.2A 2016-08-24 2016-08-24 一种缺失数据预测方法及装置 Pending CN106407258A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610719167.2A CN106407258A (zh) 2016-08-24 2016-08-24 一种缺失数据预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610719167.2A CN106407258A (zh) 2016-08-24 2016-08-24 一种缺失数据预测方法及装置

Publications (1)

Publication Number Publication Date
CN106407258A true CN106407258A (zh) 2017-02-15

Family

ID=58005125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610719167.2A Pending CN106407258A (zh) 2016-08-24 2016-08-24 一种缺失数据预测方法及装置

Country Status (1)

Country Link
CN (1) CN106407258A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537336A (zh) * 2018-03-26 2018-09-14 上海电力学院 一种基于深度神经网络的空气质量预测方法
CN108650065A (zh) * 2018-03-15 2018-10-12 西安电子科技大学 基于窗口的流式数据缺失处理方法
CN108846434A (zh) * 2018-06-11 2018-11-20 广东工业大学 一种基于改进K-means聚类算法的缺失数据填充方法
CN109784362A (zh) * 2018-12-05 2019-05-21 国网辽宁省电力有限公司信息通信分公司 一种基于迭代knn和插补优先级的dga数据缺失值插补方法
CN109816017A (zh) * 2019-01-24 2019-05-28 电子科技大学 基于模糊聚类和拉格朗日插值的电网缺失数据填补方法
CN110135769A (zh) * 2018-02-02 2019-08-16 北京京东尚科信息技术有限公司 货品属性填充方法及装置、存储介质及电子终端
CN110275895A (zh) * 2019-06-25 2019-09-24 广东工业大学 一种缺失交通数据的填充设备、装置及方法
CN111737463A (zh) * 2020-06-04 2020-10-02 江苏名通信息科技有限公司 大数据缺失值填充方法、装置和计算机程序
CN114490619A (zh) * 2022-02-15 2022-05-13 北京大数据先进技术研究院 基于遗传算法的数据填补方法、装置、设备及存储介质
CN116720142A (zh) * 2023-06-08 2023-09-08 中国汽车工程研究院股份有限公司 一种有限证据下的事故未知信息快速重建方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135769A (zh) * 2018-02-02 2019-08-16 北京京东尚科信息技术有限公司 货品属性填充方法及装置、存储介质及电子终端
CN108650065A (zh) * 2018-03-15 2018-10-12 西安电子科技大学 基于窗口的流式数据缺失处理方法
CN108537336A (zh) * 2018-03-26 2018-09-14 上海电力学院 一种基于深度神经网络的空气质量预测方法
CN108537336B (zh) * 2018-03-26 2021-07-20 上海电力学院 一种基于深度神经网络的空气质量预测方法
CN108846434A (zh) * 2018-06-11 2018-11-20 广东工业大学 一种基于改进K-means聚类算法的缺失数据填充方法
CN109784362A (zh) * 2018-12-05 2019-05-21 国网辽宁省电力有限公司信息通信分公司 一种基于迭代knn和插补优先级的dga数据缺失值插补方法
CN109816017A (zh) * 2019-01-24 2019-05-28 电子科技大学 基于模糊聚类和拉格朗日插值的电网缺失数据填补方法
CN110275895A (zh) * 2019-06-25 2019-09-24 广东工业大学 一种缺失交通数据的填充设备、装置及方法
CN110275895B (zh) * 2019-06-25 2021-07-06 广东工业大学 一种缺失交通数据的填充设备、装置及方法
CN111737463A (zh) * 2020-06-04 2020-10-02 江苏名通信息科技有限公司 大数据缺失值填充方法、装置和计算机程序
CN111737463B (zh) * 2020-06-04 2024-02-09 江苏名通信息科技有限公司 大数据缺失值填充方法、装置和计算机可读存储器
CN114490619A (zh) * 2022-02-15 2022-05-13 北京大数据先进技术研究院 基于遗传算法的数据填补方法、装置、设备及存储介质
CN114490619B (zh) * 2022-02-15 2022-09-09 北京大数据先进技术研究院 基于遗传算法的数据填补方法、装置、设备及存储介质
CN116720142A (zh) * 2023-06-08 2023-09-08 中国汽车工程研究院股份有限公司 一种有限证据下的事故未知信息快速重建方法

Similar Documents

Publication Publication Date Title
CN106407258A (zh) 一种缺失数据预测方法及装置
CN107451747B (zh) 基于自适应非支配遗传算法的车间调度系统及其工作方法
US8495002B2 (en) Software tool for training and testing a knowledge base
CN107220734A (zh) 基于决策树的数控车床车削过程能耗预测系统
CN105929690B (zh) 一种基于分解多目标进化算法的柔性车间鲁棒调度方法
CN101694572B (zh) 一种提供自评价的数控刀具智能选取方法
CN106503792B (zh) 一种基于自适应模块化神经网络的瓦斯浓度预测方法
CN104536881A (zh) 基于自然语言分析的众测错误报告优先级排序方法
CN113886989B (zh) 一种基于机器学习的石油钻井的参数优化方法及系统
CN101533000A (zh) 一种构建水体富营养化风险分析模型的方法
CN111090579B (zh) 基于皮尔森相关性加权关联分类规则的软件缺陷预测方法
CN116384837B (zh) 用于工程质量检测的信息处理方法、系统和检测员终端
CN113221960B (zh) 一种高质量漏洞数据收集模型的构建方法及收集方法
CN104656620A (zh) 重型机床再制造综合评价系统
CN106708659A (zh) 一种自适应最近邻缺失数据的填充方法
CN113554213A (zh) 一种天然气需求预测方法、系统、存储介质及设备
CN115481577A (zh) 一种基于随机森林和遗传算法的油藏自动历史拟合方法
CN103353895A (zh) 一种配电网线损数据的预处理方法
Amarullah et al. Planning decision support system using building mall AHP (Analytical Hierarchy Process)
CN115033591A (zh) 一种电费数据异常智能检测方法、系统、存储介质及计算机设备
CN113569345B (zh) 一种基于多源信息融合的数控系统可靠性建模方法与装置
CN114548494A (zh) 一种可视化造价数据预测智能分析系统
Terry et al. Widespread analytical pitfalls in empirical coexistence studies and a checklist for improving their statistical robustness
CN113656868A (zh) 基于bim技术的医院建设协同管理平台
CN106970779A (zh) 一种面向内存计算的流式平衡图划分方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170215