CN106708659A - 一种自适应最近邻缺失数据的填充方法 - Google Patents

一种自适应最近邻缺失数据的填充方法 Download PDF

Info

Publication number
CN106708659A
CN106708659A CN201611097542.0A CN201611097542A CN106708659A CN 106708659 A CN106708659 A CN 106708659A CN 201611097542 A CN201611097542 A CN 201611097542A CN 106708659 A CN106708659 A CN 106708659A
Authority
CN
China
Prior art keywords
data
missing
filling
dataset
nearest neighbor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611097542.0A
Other languages
English (en)
Inventor
丁云飞
朱晨烜
王栋璀
刘洋
潘羿龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Dianji University
Original Assignee
Shanghai Dianji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Dianji University filed Critical Shanghai Dianji University
Priority to CN201611097542.0A priority Critical patent/CN106708659A/zh
Publication of CN106708659A publication Critical patent/CN106708659A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种自适应最近邻缺失数据的填充方法,其步骤为:1)选定作为目标的原始数据集,通过使用由KNN算法计算的估计值填充原始数据集中的缺失值来初始化数据;2)根据原数据集根据是否含有缺失数据,将其分为缺失数据集和完整数据集,然后根据最低缺失级别和缺失值属性对缺失数据集进行数据排序;3)在缺失数据集中选择一个具有最小缺失率的数据,并使用KNN算法在完整数据集上进行填充,得到更新数据;4)将所述更新数据移到完整数据集中用来估计下一个的缺失值;5)若缺失数据集中不含含有缺失值的数据,则停止;否则返回步骤3);6)比较更新的填充数据和旧的填充数据,如果收敛,则停止;否则使用更新的填写数据返回步骤3)。

Description

一种自适应最近邻缺失数据的填充方法
技术领域
本发明涉及缺失数据填充方法领域,具体地说,特别涉及到一种自适应最近邻缺失数据的填充方法。
背景技术
人们生产实践过程不可避免的产生大量数据,由于各种实际原因,不可避免的出现数据缺失。由于大多数数据分析工具只能处理完整的数据集,所以非常重要的是要对具有缺失值的数据集进行预处理以使其完整,才能更好的利用所有已知信息做出更加接近事物本质的预测与判断。对缺失数据的分析往往会影响到数据模式的准确与否,从而决定数据分析建模是否正确,更进一步会影响决策支持系统的分析结果和决策。因此,缺失值填充是一个非常重要的研究课题。
现有技术中中,处理这个缺失问题的常见方法是插补(填充)缺失值,如广泛应用的K最近邻填充算法(KNN)。虽然其算法简单,但算法本身在选择K的过程中可能会产生较大的偏向,从而导致带有较大偏差的填充值。更为重要的是这种方法不能最大限度的利用其他含有缺失数据的有用信息,填充的准确率不是很高。当缺失值的数量增加时,KNN法的性能降低。
发明内容
本发明的目的在于针对现有技术中的不足,提供一种自适应有序最近邻缺失数据填充方法,以解决现有KNN算法的正确率较低,无法利用含有缺失项里的其他完整数据提供可靠的填充值的问题。
本发明所解决的技术问题可以采用以下技术方案来实现:
一种自适应最近邻缺失数据的填充方法,包括如下步骤,
1)选定作为目标的原始数据集,通过使用由KNN算法计算的估计值填充原始数据集中的缺失值来初始化数据;
2)根据原数据集根据是否含有缺失数据,将其分为缺失数据集和完整数据集,然后根据最低缺失级别和缺失值属性对缺失数据集进行数据排序;
3)在缺失数据集中选择一个具有最小缺失率的数据,并使用KNN算法在完整数据集上进行填充,得到更新数据;
4)将所述更新数据移到完整数据集中用来估计下一个的缺失值;
5)若缺失数据集中没有含有缺失值的数据,则停止;否则返回步骤3);
6)比较更新的填充数据和旧的填充数据,如果收敛,则停止;否则使用更新的填写数据返回步骤3)。
所述步骤2)的数据排序具体方法如下:
a1)按照整个数据集原始数据的所有特征,计算出各个特征丢失数据的缺失率;
a2)将所有缺少一个特征的数据根据特征缺失率从小到大排序;
a3)将所有缺少两个或两个以上特征的数据放在一起,并按照丢失率大小,将具有相同的丢失率的数据放在一组,不用组按照丢失率从小到大排列;
对于每一组而言,其中组内排序根据各个对应特征属性上的缺失率总和进行再次排序;
通过多次排序,最后得到一个具有最优填充顺序的缺失数据集。
与现有技术相比,本发明的有益效果如下:
本发明以传统的KNN算法为基础,引入一个新定义的缺失率排序的概念,并利用自适应方法使其完整数据集不断得到更新和扩张,从而可以包含更多的缺失数据中的原有用信息进行下一次的填充。当所有缺失值自动更新并收敛后,就完成了对缺失数据的填充过程。
本发明在填充准确性上优于KNN算法,并能够有效的处理多维缺失数据,提高了填充值的可靠性和稳定性,为之后的数据模型建立与预测提供了更加接近事实的数据,从而提高了数据模型的准确性和决策的正确性。而且本算法设计简单,易在计算机上实现,具有较高的利用价值。
附图说明
图1为本发明所述自适应最近邻缺失数据的填充方法的示意图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
对于给定数据集{x1,...,xN},N和D分别是对象和特征属性的数量,这里KNN算法使用目标对象xi和每个候选对象xj之间的欧几里德距离dij来度量数据点之间的距离,其表示如下:
其中xik是第kth对象xi的特征。
如图1所示,本发明包括6个步骤。
(1)是选择KNN算法先进行首次填充,得到一个完整的数据集,从而完成数据的初始化。设置一个填充收敛条件,即迭代差的最小值。
(2)是将原数据集根据是否含有缺失数据,分为两个子数据集,即缺失数据集和完整数据集。然后针对缺失数据集里的数据各自不同的缺失率排序。本专利所提出的排序方法由三步组成。首先,按照整个数据集原始数据的所有特征,计算出各个特征丢失数据的缺失率;然后,将所有缺少一个特征的数据根据特征缺失率从小到大排序;最后,将所有缺少两个或两个以上的特征的数据放在一起,按照丢失率大小,将具有相同的丢失率的数据放在一组,所有组按照丢失率从小到大排列。对于每一组而言,其中组内排序根据各个对应特征属性上的缺失率总和进行再次排序。通过多次排序,最后得到一个具有最优填充顺序的缺失数据集。
(3)按照既得的最优填充顺序,从缺失数据集中选择一个具有最小缺失率的数据xi,使用KNN算法在完整数据集的基础上进行填充,得到一个更新的x′i
(4)将更新的数据x′i移到第二步中所分得的完整数据集中,重新更新过的完整数据集因为加入了具有部分原始数据的填充数据,从而增加了完整数据集的真实信息量。然后返回第三步,利用这些更新后的信息,即新的完整数据集,根据最优填充顺序,用来估计缺失数据集中的下一个的缺失值。
(5)利用KNN和最优填充顺序进行的有序填充过程不断进行,直到缺失数据集中数据中没有需要填充的缺失值,则停止;否则继续返回步骤3。
(6)在完成有序填充之后,得到一个新的填充数据集;比较新的填充数据和上一次所得到的填充数据,如果满足初始化所设置的收敛条件,则填充过程停止;否则使用更新的填充数据返回步骤3,继续更新完整数据集,进行再次有序最邻近填充过程。
为了验证本专利提出的自适应最近邻近缺失数据填充算法的有效性,我们在UCI数据集中的Iris和Abalone两个真实的数据集上进行了实例实验。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性。Abalone数据集包括涉及生活领域的8个类别的4177个数据对象,其中含有1个分类型属性,1个整数型属性和6个实数型属性。我们将本专利提出的方法与KNN进行比较,根据缺失率的不同,随机在两个数据集上不同数据和不同特征属性上产生。评价指标用均方根误差(RMSE)来衡量:
其中:ei是实际值,e′i是填充值,m是缺失值的个数。RMSE值越小,意味着填充准确率就越高。实验过程中,KNN算法的K选取从1到30所有的整数数值。对两个数据集的特征属性随机产生缺失,缺失率分别为5%、10%、20%和30%,并在每种缺失率上都连续进行100次随机缺失实验,取RMSE的平均值来进行评价。
针对两个含不同缺失率的实际数据集的两种算法的RMSE比较,可以得到:首先,在数据集不同的缺失率条件下,无论KNN的K值如何取值,自适应有序最邻近算法的RMSE值都小于KNN算法,即前者算法的填充准确率高于KNN算法。其原因在于这种自适应填充算法利用引入的最优排序方式,通过多次更新完整数据集,并将最大程度上能利用的信息提供给有序KNN来填充缺失值,这样的填充方式是有效的。其次,KNN算法的填充效果会随着K取值大小的不同而出现较大波动,而本自适应有序算法由于充分利用了所有有用信息,因此有着稳定的填充效果。KNN算法在实验中对较小的K值的填充效果非常差,其最优K值也没有规律得到。而自适应有序填充方法对不同的K值都具有及其接近的较好填充效果,对K值具有一定的鲁棒性。不同缺失率的实验中,只是K值在相同数据集不同的缺失率条件下会有差别。通过实例表明,自适应有序最邻近填充方法算法对参数K值具有一定的鲁棒性,其填充结果与KNN相比,具有较好的稳定性和较高的准确性。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (2)

1.一种自适应最近邻缺失数据的填充方法,其特征在于,包括如下步骤,
1)选定作为目标的原始数据集,通过使用由KNN算法计算的估计值填充原始数据集中的缺失值来初始化数据;
2)根据原数据集根据是否含有缺失数据,将其分为缺失数据集和完整数据集,然后根据最低缺失级别和缺失值属性对缺失数据集进行数据排序;
3)在缺失数据集中选择一个具有最小缺失率的数据,并使用KNN算法在完整数据集上进行填充,得到更新数据;
4)将所述更新数据移到完整数据集中用来估计下一个的缺失值;
5)若缺失数据集中没有含有缺失值的数据,则停止;否则返回步骤3);
6)比较更新的填充数据和旧的填充数据,如果收敛,则停止;否则使用更新的填写数据返回步骤3)。
2.根据权利要求1所述的自适应最近邻缺失数据的填充方法,其特征在于,所述步骤2)的数据排序具体方法如下:
a1)按照整个数据集原始数据的所有特征,计算出各个特征丢失数据的缺失率;
a2)将所有缺少一个特征的数据根据特征缺失率从小到大排序;
a3)将所有缺少两个或两个以上特征的数据放在一起,并按照丢失率大小,将具有相同的丢失率的数据放在一组,不用组按照丢失率从小到大排列;
对于每一组而言,其中组内排序根据各个对应特征属性上的缺失率总和进行再次排序;
通过多次排序,最后得到一个具有最优填充顺序的缺失数据集。
CN201611097542.0A 2016-12-02 2016-12-02 一种自适应最近邻缺失数据的填充方法 Pending CN106708659A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611097542.0A CN106708659A (zh) 2016-12-02 2016-12-02 一种自适应最近邻缺失数据的填充方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611097542.0A CN106708659A (zh) 2016-12-02 2016-12-02 一种自适应最近邻缺失数据的填充方法

Publications (1)

Publication Number Publication Date
CN106708659A true CN106708659A (zh) 2017-05-24

Family

ID=58935431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611097542.0A Pending CN106708659A (zh) 2016-12-02 2016-12-02 一种自适应最近邻缺失数据的填充方法

Country Status (1)

Country Link
CN (1) CN106708659A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993235A (zh) * 2019-04-10 2019-07-09 苏州浪潮智能科技有限公司 一种多变量数据分类方法与装置
CN110275895A (zh) * 2019-06-25 2019-09-24 广东工业大学 一种缺失交通数据的填充设备、装置及方法
CN110659268A (zh) * 2019-08-15 2020-01-07 中国平安财产保险股份有限公司 基于聚类算法的数据填充方法、装置及计算机设备
CN113435536A (zh) * 2021-07-15 2021-09-24 广东电网有限责任公司 一种电费数据预处理方法、装置、终端设备及介质
CN113707334A (zh) * 2021-08-31 2021-11-26 平安科技(深圳)有限公司 基于聚类分析的医疗数据缺失处理方法、装置及存储介质
CN114169500A (zh) * 2021-11-30 2022-03-11 电子科技大学 一种基于小规模电磁数据的神经网络模型处理方法
CN114530217A (zh) * 2022-02-16 2022-05-24 西安建筑科技大学 一种兰炭基多孔碳吸附重金属效率预测方法及相关装置
US20220391350A1 (en) * 2021-06-03 2022-12-08 Avalara, Inc. Computation module configured to estimate resource for target point from known resources of dots near the target point
CN116663711A (zh) * 2023-05-09 2023-08-29 南通大学 一种建筑能耗数据的预测处理方法及应用

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8165973B2 (en) * 2007-06-18 2012-04-24 International Business Machines Corporation Method of identifying robust clustering
CN104461772A (zh) * 2014-11-07 2015-03-25 沈阳化工大学 一种对缺失数据进行恢复处理的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8165973B2 (en) * 2007-06-18 2012-04-24 International Business Machines Corporation Method of identifying robust clustering
CN104461772A (zh) * 2014-11-07 2015-03-25 沈阳化工大学 一种对缺失数据进行恢复处理的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KI-YEOL KIM, BYOUNG-JIN KIM AND GWAN-SU YI: "Reuse of imputed data in microarray analysis increases imputation efficiency", 《BMC BIOINFORMATICS》 *
汪维清,罗先文,汪维华: "分组排序算法", 《计算机工程与应用》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993235A (zh) * 2019-04-10 2019-07-09 苏州浪潮智能科技有限公司 一种多变量数据分类方法与装置
CN110275895A (zh) * 2019-06-25 2019-09-24 广东工业大学 一种缺失交通数据的填充设备、装置及方法
CN110275895B (zh) * 2019-06-25 2021-07-06 广东工业大学 一种缺失交通数据的填充设备、装置及方法
CN110659268A (zh) * 2019-08-15 2020-01-07 中国平安财产保险股份有限公司 基于聚类算法的数据填充方法、装置及计算机设备
US20220391350A1 (en) * 2021-06-03 2022-12-08 Avalara, Inc. Computation module configured to estimate resource for target point from known resources of dots near the target point
US11762811B2 (en) * 2021-06-03 2023-09-19 Avalara, Inc. Computation module configured to estimate resource for target point from known resources of dots near the target point
CN113435536A (zh) * 2021-07-15 2021-09-24 广东电网有限责任公司 一种电费数据预处理方法、装置、终端设备及介质
CN113707334A (zh) * 2021-08-31 2021-11-26 平安科技(深圳)有限公司 基于聚类分析的医疗数据缺失处理方法、装置及存储介质
CN114169500A (zh) * 2021-11-30 2022-03-11 电子科技大学 一种基于小规模电磁数据的神经网络模型处理方法
CN114169500B (zh) * 2021-11-30 2023-04-18 电子科技大学 一种基于小规模电磁数据的神经网络模型处理方法
CN114530217A (zh) * 2022-02-16 2022-05-24 西安建筑科技大学 一种兰炭基多孔碳吸附重金属效率预测方法及相关装置
CN114530217B (zh) * 2022-02-16 2024-06-07 西安建筑科技大学 一种兰炭基多孔碳吸附重金属效率预测方法及相关装置
CN116663711A (zh) * 2023-05-09 2023-08-29 南通大学 一种建筑能耗数据的预测处理方法及应用

Similar Documents

Publication Publication Date Title
CN106708659A (zh) 一种自适应最近邻缺失数据的填充方法
CN110147450B (zh) 一种知识图谱的知识补全方法及装置
CN104679743B (zh) 一种确定用户的偏好模式的方法及装置
CN111814871A (zh) 一种基于可靠权重最优传输的图像分类方法
CN109492765A (zh) 一种基于迁移模型的图像增量学习方法
CN101256631B (zh) 一种字符识别的方法、装置
CN107230108A (zh) 业务数据的处理方法及装置
CN106919957B (zh) 处理数据的方法及装置
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN103631928A (zh) 一种基于局部敏感哈希的聚类索引方法及系统
CN102722554B (zh) 位置敏感哈希随机性减弱方法
CN113344019A (zh) 一种决策值选取初始聚类中心改进的K-means算法
CN107368540A (zh) 基于用户自相似度的多模型相结合的电影推荐方法
CN104239434A (zh) 一种基于带有多样化半径技术的小生境遗传算法的聚类方法
CN102254020A (zh) 基于特征权重的全局k-均值聚类方法
CN106372660A (zh) 一种基于大数据分析的航天产品装配质量问题分类方法
CN112085125A (zh) 基于线性自学习网络的缺失值填补方法、存储介质及系统
CN110188196A (zh) 一种基于随机森林的文本增量降维方法
CN106815447A (zh) 基于历史数据的复杂结构件加工特征智能定义与分类方法
CN110969260A (zh) 不平衡数据过采样方法、装置及存储介质
CN115481844A (zh) 基于特征提取和改进的svr模型的配网物资需求预测系统
CN108228896B (zh) 一种基于密度的缺失数据填补方法及装置
CN114417095A (zh) 一种数据集划分方法及装置
CN107729918B (zh) 基于代价敏感支持向量机的元胞自动机涌现现象的分类方法
CN109977131A (zh) 一种房型匹配系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170524

RJ01 Rejection of invention patent application after publication