CN108932301B - 数据填充方法及装置 - Google Patents

数据填充方法及装置 Download PDF

Info

Publication number
CN108932301B
CN108932301B CN201810592386.8A CN201810592386A CN108932301B CN 108932301 B CN108932301 B CN 108932301B CN 201810592386 A CN201810592386 A CN 201810592386A CN 108932301 B CN108932301 B CN 108932301B
Authority
CN
China
Prior art keywords
data
missing
cluster
filling
outlier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810592386.8A
Other languages
English (en)
Other versions
CN108932301A (zh
Inventor
马永军
汪睿
李亚军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University of Science and Technology
Original Assignee
Tianjin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University of Science and Technology filed Critical Tianjin University of Science and Technology
Priority to CN201810592386.8A priority Critical patent/CN108932301B/zh
Publication of CN108932301A publication Critical patent/CN108932301A/zh
Application granted granted Critical
Publication of CN108932301B publication Critical patent/CN108932301B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种数据填充方法及装置,其中,所述方法包括:将原始数据进行聚类,生成簇,并确定每个簇的中心;确定缺失数据所在的簇。从所在的簇中寻找与所述缺失数据最接近的数据,并根据所述最接近的数据的属性填充所述缺失数据的缺失属性;确定每个簇中的离群点,并判断填充缺失属性的数据是否为离群点;若所述填充缺失属性的数据为离群点,则返回将原始数据进行聚类步骤,直至所述缺失属性的数据为非离群点,或者满足预设的终止条件。能够有效克服不相关数据的相互干扰,进一步提升了填充属性数据的正确率。

Description

数据填充方法及装置
技术领域
本发明属于数据处理技术领域,尤其是涉及一种数据填充方法及装置。
背景技术
随着大数据时代的到来,数据处理的需求变的越来越大,范围也逐渐变广,随之而来的则是在数据获取过程中常见的数据缺失现象。这种现象导致在用缺失数据集进行数据挖掘和分析的时候造成明显的误差。为了让已有数据得到充分应用,使现有的算法不会因为缺失值而造成聚类结果偏差大,故需对数据进行预处理,有效的填补缺失数据,填补的缺失值应该尽量接近原值,并与已有数据集的分布特征一致,让在缺失数据集上进行数据挖掘和分析的结果更加准确。
目前,通常采用基于机器学习的数据填补方法,常有kNN、随机森林、贝叶斯和粗糙集等。原始kNN对于数据填补有着良好的应用,但当数据集中存在噪声时,原始算法会产生较大的偏差。随机森林法是利用重抽样技术生成多个分类树组成,从而对未知数据进行预测,在处理数据过程中,受异常值影响小,对数据的分布无限制,但是算法需要大量的迭代,算法复杂度较高,对于规模较大的数据集处理性能不佳。上述方法计算出的填补值不能对算法本身有着任何反馈和改进,并且用临近点或整个数据集对缺失数据进行填充,没有区分数据类型,影响了填补值的正确率。
发明内容
有鉴于此,本发明实施例提供了一种数据填充方法及装置,以解决现有技术中存在的数据填充没有区分数据类型进而降低填补值正确率的技术问题。
第一方面,本发明实施例提供了一种数据填充方法,包括:
将原始数据进行聚类,生成簇,并确定每个簇的中心;
确定缺失数据所在的簇。从所在的簇中寻找与所述缺失数据最接近的数据,并根据所述最接近的数据的属性填充所述缺失数据的缺失属性;
确定每个簇中的离群点,并判断填充缺失属性的数据是否为离群点;
若所述填充缺失属性的数据为离群点,则返回将原始数据进行聚类步骤,直至所述缺失属性的数据为非离群点,或者
满足预设的终止条件。
进一步的,所述判断填充缺失属性的数据是否为离群点,包括:
从簇中依次删除一个数据,并计算删除后所述簇中目标偏离参数,在所述目标偏离参数与初始目标偏离参数的差值大于预设的目标偏离阈值时,确定所述删除一个数据为离群点,并建立离群点集合;
若确定所述填充属性的数据位于所述离群点集合中,则所述填充属性的数据为离群点。
进一步的,所述计算删除后所述簇中目标偏离参数,包括:
利用下述公式计算目标偏离参数,将所述簇的均值作为填充缺失属性的数据进行填补。
Figure GDA0001732852160000021
其中,k是聚类数目,ci是簇中心,x是数据对象,dist为距离。
进一步的,所述方法还包括:
在满足预设的终止条件时,将迭代的缺失数据以簇均值填补。
进一步的,所述满足预设的终止条件,包括:
返回将原始数据进行聚类步骤的次数超过预设的迭代次数阈值。
更进一步的,在将原始数据进行聚类之前,还包括:
对数据进行高维映射,形成核矩阵,映射到高维空间;
对高维空间的数据进行线性处理,输出的所述数据的线性结果;
相应的,所述将原始数据进行聚类,包括:
对所述原始数据的线性结果进行聚类。
第二方面,本发明实施例还提供了一种数据填充装置,包括:
生成模块,用于将原始数据进行聚类,生成簇,并确定每个簇的中心;
填充模块,用于确定缺失数据所在的簇。从所在的簇中寻找与所述缺失数据最接近的数据,并根据所述最接近的数据的属性填充所述缺失数据的缺失属性;
判断模块,用于确定每个簇中的离群点,并判断填充缺失属性的数据是否为离群点;
返回模块,用于若所述填充缺失属性的数据为离群点,则返回将原始数据进行聚类步骤,直至所述缺失属性的数据为非离群点,或者
满足预设的终止条件。
进一步的,所述计算单元,用于从簇中依次删除一个数据,并计算删除后所述簇中目标偏离参数,在所述目标偏离参数与初始目标偏离参数的差值大于预设的目标偏离阈值时,确定所述删除一个数据为离群点,并建立离群点集合;
确定单元,用于若确定所述填充属性的数据位于所述离群点集合中,则所述填充属性的数据为离群点。
进一步的,所述计算单元用于:
利用下述公式计算目标偏离参数,将所述簇的均值作为填充缺失属性的数据进行填补。
Figure GDA0001732852160000031
其中,k是聚类数目,ci是簇中心,x是数据对象,dist为距离。
更进一步的,所述装置还包括:
均值填充模块,用于在满足预设的终止条件时,将迭代的缺失数据以簇均值填补。
本发明实施例提供的数据填充方法及装置,通过在通过聚类后,将同簇中最接近的数据属性填充至缺失数据,并判断填充后的数据是否为离群点,在所述填充数据为离群点时,重新进行聚类分析,直至填充数据为非离群点时,最终确定填充的属性数据正确。能够有效克服不相关数据的相互干扰,进一步提升了填充属性数据的正确率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明实施例一提供的数据填充方法的流程示意图;
图2是本发明实施例二提供的数据填充方法的流程示意图;。
图3是本发明实施例三提供的数据填充方法的流程示意图;
图4是本发明实施例四提供的数据填充装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的数据填充方法的流程示意图,本实施例可适用于对缺失属性的数据进行填充的情况,该方法可以由数据填充装置来执行,具体包括如下步骤:
S110,将原始数据进行聚类,生成簇,并确定每个簇的中心。
将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。在本实施例中,可以对原始数据进行聚类,所述原始数据可以是原始采集的数据,或者是经过初步处理过滤后得到的数据。示例性的,可以采用K-Means聚类算法对原始数据进行聚类,核K-Means是K-Means算法的一个改进,在K-Means的基础上,融合核方法的思想,在核空间中进行K-Means聚类,提取并放大数据特征,从而对于线性不可分样本以及不对称分布的样本进行聚类时,可以减小聚类误差,获得较好的聚类效果,而且减少了聚类的迭代次数,因此,核K-Means聚类算法既具有聚类算法的特性,可以根据数据的相似度,将数据分为各个簇,又可以使用核方法,提取并放大有用的特征,从而使聚类准确度更高。聚类的目的是将数据分为单个的簇,定义参数K,Ci是第i个聚类的中心点,即对于K-Means而言,令
Figure GDA0001732852160000051
最小或者不再变化,又采取核距离,即得:
Figure GDA0001732852160000052
即随机选择K个值作为初始聚类中心,通过高斯核函数映射到高维空间,在特征空间内执行算法,计算每个数据对象与每个簇中心的距离,并指派到最近距离的簇中,再重新计算簇的中心点,如此反复迭代,直到公式最小或不再变化。
S120,确定缺失数据所在的簇。从所在的簇中寻找与所述缺失数据最接近的数据,并根据所述最接近的数据的属性填充所述缺失数据的缺失属性。
在聚类结束之后,得到各个簇,使用距离来作为数据对象之间相似度的判断,在同簇之间计算与缺失数据最相似的数据对象,用距离最接近的数据对象的对应属性去填补缺失数据的缺失属性,这样使用同簇内的数据进行数据填补,使得只有相似的数据才能影响缺失值的填补,避免不同类别的数据相互影响。
示例性的,可以通过上述方法中确定缺失数据所在的簇,并可以利用上述核距离公式确定与所述缺失数据的簇中与缺失数据最接近的数据,并可读取该最接近的数据中属性,将其属性填充到缺失数据的缺失属性中,以使得缺失数据的属性完整。
即选择
Figure GDA0001732852160000061
最小的x',令x'的属性赋值给x的缺失属性。
S130,确定每个簇中的离群点,并判断填充缺失属性的数据是否为离群点。
离群点检测也被称之为异常检测,目的是发现与大部分其他对象不同的对象,即作为离群点的这一个数据对象,类似于由不同机制产生的,明显不同于其他数据对象。如果填充缺失属性的数据为离群点,则可以说明填充的属性数据存在问题。需要对其进行处理,以保证填充的数据误差在一定范围内。
离群点检测方法通常可以采用基于统计方法的离群点检测、基于邻近度的离群点检测、基于密度的离群点检测和基于聚类的离群点检测等。利用上述方法可以检测到每个簇中的离群点,并根据填补缺失属性后的数据的特征判断充缺失属性的数据是否为离群点。
S140,若所述填充缺失属性的数据为离群点,则返回将原始数据进行聚类步骤,直至所述缺失属性的数据为非离群点,或者满足预设的终止条件。
离群点的属性值明显偏离期望的或常见的属性值。因此,如果有填补值检测为离群点,则具有很大的可能性填补值准确度过低。因此,需要重新进行填充,具体的,在本实施方式中,由于部分填充缺失属性后的部分数据并不属于离群点,因此,可以针对第一次填充完成后的数据重新进行聚类迭代,反复进行优化,直至不存在填充缺失属性后的数据为离群点的情况。上述迭代过程完成,实现缺失属性的数据填充工作。或者,在满足预设的终止条件下,结束上述迭代过程。示例性的,所述预设的终止条件可以包括:返回将原始数据进行聚类步骤的次数超过预设的迭代次数阈值。所述预设的迭代次数阈值可以根据计算能力和设定的填充时长确定。可选的,所述预设的迭代次数阈值可以设为10次,在返回将原始数据进行聚类步骤次数达到10次后,终止上述迭代过程。采用预设的终止条件可以避免在用簇最相似数据去填补的时候,始终被检测出离群点,导致算法不断循环,无法结束。
本实施例在通过聚类后,将同簇中最接近的数据属性填充至缺失数据,并判断填充后的数据是否为离群点,在所述填充数据为离群点时,重新进行聚类分析,直至填充数据为非离群点时,最终确定填充的属性数据正确。能够有效克服不相关数据的相互干扰,进一步提升了填充属性数据的正确率。
在本实施例的一个优选实施方式中,所述方法还可包括如下步骤:在满足预设的终止条件时,将迭代的缺失数据以簇均值填补。通过上述步骤,可以在无法迭代补充数据时,用簇均值进行填补,虽然降低了一定的准确度,但可避免数据属性缺失。
实施例二
图2为本发明实施例二提供的数据填充方法的流程示意图。本实施例以上述实施例为基础进行优化,在本实施例中,将确定每个簇中的离群点,所述判断填充缺失属性的数据是否为离群点,具体优化为:从簇中依次删除一个数据,并计算删除后所述簇中目标偏离参数,在所述目标偏离参数与初始目标偏离参数的差值大于预设的目标偏离阈值时,确定所述删除一个数据为离群点,并建立离群点集合;若确定所述填充属性的数据位于所述离群点集合中,则所述填充属性的数据为离群点。
相应的,本实施例所提供的数据填充方法,具体包括:
S210,将原始数据进行聚类,生成簇,并确定每个簇的中心。
S220,确定缺失数据所在的簇。从所在的簇中寻找与所述缺失数据最接近的数据,并根据所述最接近的数据的属性填充所述缺失数据的缺失属性。
S230,从簇中依次删除一个数据,并计算删除后所述簇中目标偏离参数,在所述目标偏离参数与初始目标偏离参数的差值大于预设的目标偏离阈值时,确定所述删除一个数据为离群点,并建立离群点集合。
基于统计方法的离群点检测依赖于数据分布,参数分布和置信度区间,虽然有着坚实的数学基础,且当数据量充足,存在所检验类型的知识的时候,检测的效果显著,但是常用于单个属性,对于多元数据,可用的较少,而数据分布通常又都是未知的,也不能适合于混合类型数据,对于处理高维数据也难有良好的处理效果。基于邻近度的检测采取的是在对象之间定义一个邻近性度量,离群点为远离大部分对象的数据,当采用距离作为度量时,也称作基于距离的离群点检测,基于邻近度的检测比基于统计的检测更容易使用,但是它采取的是全局阈值,不能考虑密度的变化。基于密度的离群点检测认为,离群点就是低密度区域的对象,利用这个特点来计算数据对象的离群点得分,通过这个得分来判断离群点。此外对于密度不均匀的情况,只要能给出判断数据对象是离群点的度量,也能有不错的处理效果。但基于密度的检测通常存在低密度模式的问题。
因此,在本实施例中,可以采用基于聚类的离群点检测。其检测时间和空间复杂度低,只需要扫描数据集若干次,适用于大规模数据集,效率较高,且聚类中簇的定义与离群点的定义是一种互补的定义,可以清晰的分辨出簇与离群点。
示例性的,采用基于核K-Means聚类的检测来进行离群点检测,即在K-Means离群点检测的基础上,融入核方法,使用核函数将数据进行映射之后,在高维空间进行离群点检测,并采用核距离作为相似性度量。在使用核K-Means聚类算法进行离群点检测的时候,重点在于设定的目标函数,通过数据对象的加入或删除而导致目标函数的变化幅度从而确定数据对象是否为离群点。
在聚类算法中,离群点的定义如下:
若存在数据对象x不属于任意簇Ci,则定义x为离群点,离群点的检测可以表述为作为目标建立参数SSE异常的对象。
相应的,所述计算删除后所述簇中目标偏离参数,可以包括:
利用下述公式计算目标偏离参数,将所述簇的均值作为填充缺失属性的数据进行填补。
Figure GDA0001732852160000081
其中,k是聚类数目,ci是簇中心,x是数据对象,dist为距离。当加入某个对象x后,SSE显著增加,则可以确定这个x为离群点。
对于数据集F中的每一个簇,可以设定该簇的SSE阈值,所述SSE阈值可以根据经验确定。可选的,SSE阈值可以为20%,逐个删除数据对象,若删除后,存在SSE显著降低,即标记为离群点,加入离群点集合中。
S240,若确定所述填充属性的数据位于所述离群点集合中,则所述填充属性的数据为离群点。
在离群点集合中确认是否存在填补的缺失值,如果存在,则说明填充的数据为离群点。
S250,若所述填充缺失属性的数据为离群点,则返回将原始数据进行聚类步骤,直至所述缺失属性的数据为非离群点,或者满足预设的终止条件。
本实施例通过将确定每个簇中的离群点,所述判断填充缺失属性的数据是否为离群点,具体优化为:从簇中依次删除一个数据,并计算删除后所述簇中目标偏离参数,在所述目标偏离参数与初始目标偏离参数的差值大于预设的目标偏离阈值时,确定所述删除一个数据为离群点,并建立离群点集合;若确定所述填充属性的数据位于所述离群点集合中,则所述填充属性的数据为离群点。可以清晰的分辨出簇与离群点,并且能够有效减低而检测时间和空间复杂度适用于大规模数据集,效率较高。
实施例三
图3为本发明实施例三提供的数据填充方法的流程示意图。本实施例以上述实施例为基础进行优化,在本实施例中,在将原始数据进行聚类之前,还可增加如下步骤:对数据进行高维映射,形成核矩阵,映射到高维空间;对高维空间的数据进行线性处理,输出的所述数据的线性结果;相应的,将所述将原始数据进行聚类,具体优化为:对所述原始数据的线性结果进行聚类。
相应的,本实施例所提供的数据填充方法,具体包括:
S310,对数据进行高维映射,形成核矩阵,映射到高维空间。
原始数据存在在样本空间线性不可分模式的识别问题。因此,在本实施例中,可以先对原始数据进行高维映射。示例性的,可以经过一个非线性映射,将输入空间的数据映射到一个高维的特征空间中,在特征空间中用线性方法进行分析和识别。同时这种非线性映射具有提取放大数据特征的作用,突出了不同类型特征的差异,可以有效的减少误差,从而提高聚类效果。
核函数不仅能够影响算法的速度,同时对于最终的聚类结果也有着关键的影响,因此,在核方法中,核函数的地位十分关键,选择一个合适的核函数是算法的重要环节。特别的,当选择如核K-Means这类以核函数来计算不同样本之间的距离的算法的时候,核函数的选择值得更进一步的关注。
核函数定义如下:
对所有x,z∈X,X∈Rn,若函数k满足:
Figure GDA0001732852160000101
则称函数k是核函数,其中
Figure GDA0001732852160000102
是从输入空间X到特征空间H的映射。
核函数常分为线性核、高斯核(RBF核)、多项式核、感知器核(Sigmoid核)、拉普拉斯核、B样条核函数、结构数据核。而对于没有先验知识的情况下,通常采用高斯核函数。高斯核函数是一个普适的核函数,与多项式核函数相比,高斯核函数需要确定的参数要少。在合理选择参数的情况下,高斯核函数可用于任意分布的样本,是目前应用最广泛的核函数。因此,在本实施例中,可以选用高斯核函数。首先,从数据输入开始,数据所在的空间常称为输入空间或者样本空间,这时选取适合的核函数;再由核函数进行高维映射,形成核矩阵,映射到高维空间。
S320,对高维空间的数据进行线性处理,输出的所述数据的线性结果。
示例性的,可以在特征空间建造相应的线性分类器;最后得到输入空间或原始数据的非线性算法模型,从而对数据进行计算和结果输出。
S330,对所述原始数据的线性结果进行聚类,生成簇,并确定每个簇的中心。
S340,确定缺失数据所在的簇。从所在的簇中寻找与所述缺失数据最接近的数据,并根据所述最接近的数据的属性填充所述缺失数据的缺失属性。
S350,确定每个簇中的离群点,并判断填充缺失属性的数据是否为离群点。
S360,若所述填充缺失属性的数据为离群点,则返回将原始数据进行聚类步骤,直至所述缺失属性的数据为非离群点,或者满足预设的终止条件。
本实施例通过在将原始数据进行聚类之前,还可增加如下步骤:对数据进行高维映射,形成核矩阵,映射到高维空间;对高维空间的数据进行线性处理,输出的所述数据的线性结果;相应的,将所述将原始数据进行聚类,具体优化为:对所述原始数据的线性结果进行聚类。由于采用核聚类算法区分数据类型,利用核函数来提取放大特征。进一步提高了数据填补的准确性。
将上述数据填充方法与kNN、随机森林(Random Forest,RF)进行比较,采用UCI数据库中的lris和Wine数据集进行实验,其中lris也称鸢尾花卉数据集,数据集中含有150个样本,4个属性,Wine数据集是记录自3种不同起源的葡萄酒的相关数据,一共有178个样本,13个属性。实验环境采用Intel(R)Core(TM)i5-5200U CPU@2.20GHz处理器,8.00G内存,Windows 7旗舰版64位操作系统,Python3.5。为了充分检测KKMOD数据填补算法的有效性,设置数据集中数据对象的属性缺失,数据的个数不受影响,缺失比例分别设置为10%,15%,20%,25%,30%,35%,40%,45%,50%,缺失属性采用Python库中随机函数进行实现。同时为了得到客观真实的结果,对每一个缺失率重复3次试验,取其平均值作为最终实验结果。此外为了避免在用簇最相似数据去填补的时候,始终被检测出离群点,导致算法不断循环,无法结束,在离群点检测设置标记,如果次数达到10次及以上,则用簇均值进行填补缺失数据,再结束算法。从算法填补正确率、不同数据集下的KKMOD准确率两个方面评价KKMOD算法填补性能。
设数据集有N个对象,时间消耗为T,正确填补值为R,缺失率为σ,算法填补正确率(Accuracy Rate):
AR=R/(N*σ)
经上述实验可以发现kNN的填补效果与KKMOD和RF都有着一定的差距。而对于KKMOD和RF,可以看出在缺失率低的时候,KKMOD和RF有着差不多的填补效果,填补正确率都在0.6左右,有着相差不大的填补效果。但是随着缺失率的上升,KKMOD的填补正确率比RF有所改善。算法在实验过程中会随着聚类结果的不同而有着波动,但是总体来说,KKMOD算法的正确率要高于kNN与RF。
此外,采用本发明实施例提供的数据填充方法在不同的数据集下也能取得不错的填补正确率,没有因为更换相差较大的数据集,从而使得算法计算出来的填补值有着截然不同的结果。说明对于KKMOD算法而言,虽然数据集本身所具有的维度对数据填补算法有着影响,在当数据维度多时,KKMOD算法的填补正确率降低,但是在这种情况下也能保证正确率,有着一定的填补效果,具有良好的适应性。
实施例四
图4是本发明实施例三提供的数据填充装置的结构示意图,如图4所示,所述装置包括:
生成模块410,用于将原始数据进行聚类,生成簇,并确定每个簇的中心;
填充模块420,用于确定缺失数据所在的簇。从所在的簇中寻找与所述缺失数据最接近的数据,并根据所述最接近的数据的属性填充所述缺失数据的缺失属性;
判断模块430,用于确定每个簇中的离群点,并判断填充缺失属性的数据是否为离群点;
返回模块440,用于若所述填充缺失属性的数据为离群点,则返回将原始数据进行聚类步骤,直至所述缺失属性的数据为非离群点,或者
满足预设的终止条件。
本实施例提供的数据填充装置,通过在通过聚类后,将同簇中最接近的数据属性填充至缺失数据,并判断填充后的数据是否为离群点,在所述填充数据为离群点时,重新进行聚类分析,直至填充数据为非离群点时,最终确定填充的属性数据正确。能够有效克服不相关数据的相互干扰,进一步提升了填充属性数据的正确率。
在上述各实施例的基础上,所述判断模块,包括:
计算单元,用于从簇中依次删除一个数据,并计算删除后所述簇中目标偏离参数,在所述目标偏离参数与初始目标偏离参数的差值大于预设的目标偏离阈值时,确定所述删除一个数据为离群点,并建立离群点集合;
确定单元,用于若确定所述填充属性的数据位于所述离群点集合中,则所述填充属性的数据为离群点。
在上述各实施例的基础上,所述计算单元用于:
利用下述公式计算目标偏离参数,将所述簇的均值作为填充缺失属性的数据进行填补。
Figure GDA0001732852160000131
其中,k是聚类数目,ci是簇中心,x是数据对象,dist为距离。
在上述各实施例的基础上,所述装置还包括:
均值填充模块,用于在满足预设的终止条件时,将迭代的缺失数据以簇均值填补。
在上述各实施例的基础上,所述装置还包括:
映射模块,用于对数据进行高维映射,形成核矩阵,映射到高维空间;
线性处理模块,用于对高维空间的数据进行线性处理,输出的所述数据的线性结果;
相应的,所述聚类模块,用于:
对所述原始数据的线性结果进行聚类。
本发明实施例所提供的数据填充装置可执行本发明任意实施例所提供的数据填充方法,具备执行方法相应的功能模块和有益效果。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种数据填充方法,其特征在于,包括:
利用核K-Means聚类算法将原始数据进行聚类,生成簇,并确定每个簇的中心;
确定缺失数据所在的簇,利用核距离公式确定与所述缺失数据的簇中与缺失数据最接近的数据,从所在的簇中寻找与所述缺失数据最接近的数据,并根据所述最接近的数据的属性填充所述缺失数据的缺失属性;
确定每个簇中的离群点,并判断填充缺失属性的数据是否为离群点,所述确定每个簇中的离群点,判断填充缺失属性的数据是否为离群点,包括:
从簇中依次删除一个数据,并计算删除后所述簇中目标偏离参数,在所述目标偏离参数与初始目标偏离参数的差值大于预设的目标偏离阈值时,确定所述删除一个数据为离群点,并建立离群点集合;
若确定所述填充缺失属性的数据位于所述离群点集合中,则所述填充缺失属性的数据为离群点;
若所述填充缺失属性的数据为离群点,则返回将原始数据进行聚类步骤,直至所述填充缺失属性的数据为非离群点,或者
满足预设的终止条件。
2.根据权利要求1所述的方法,其特征在于,所述计算删除后所述簇中目标偏离参数,包括:
利用下述公式计算目标偏离参数,将所述簇的均值作为填充缺失属性的数据进行填补:
Figure FDA0002940889350000011
其中,k是聚类数目,ci是簇中心,x是数据对象,dist为距离。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在满足预设的终止条件时,将迭代的缺失数据以簇均值填补。
4.根据权利要求1所述的方法,其特征在于,所述满足预设的终止条件,包括:
返回将原始数据进行聚类步骤的次数超过预设的迭代次数阈值。
5.根据权利要求1所述的方法,其特征在于,在将原始数据进行聚类之前,还包括:
对数据进行高维映射,形成核矩阵,映射到高维空间;
对高维空间的数据进行线性处理,输出的所述数据的线性结果;
相应的,所述将原始数据进行聚类,包括:
对所述原始数据的线性结果进行聚类。
6.一种数据填充装置,其特征在于,包括:
生成模块,用于利用核K-Means聚类算法将原始数据进行聚类,生成簇,并确定每个簇的中心;
填充模块,用于确定缺失数据所在的簇,从所在的簇中寻找与所述缺失数据最接近的数据,并根据所述最接近的数据的属性填充所述缺失数据的缺失属性,所述从所在的簇中寻找与所述缺失数据最接近的数,包括:利用核距离公式确定与所述缺失数据的簇中与缺失数据最接近的数据;
判断模块,用于确定每个簇中的离群点,并判断填充缺失属性的数据是否为离群点;
返回模块,用于若所述填充缺失属性的数据为离群点,则返回将原始数据进行聚类步骤,直至所述填充缺失属性的数据为非离群点,或者
满足预设的终止条件;
所述判断模块,包括:
计算单元,用于从簇中依次删除一个数据,并计算删除后所述簇中目标偏离参数,在所述目标偏离参数与初始目标偏离参数的差值大于预设的目标偏离阈值时,确定所述删除一个数据为离群点,并建立离群点集合;
确定单元,用于若确定所述填充缺失属性的数据位于所述离群点集合中,则所述填充缺失属性的数据为离群点。
7.根据权利要求6所述的装置,其特征在于,所述计算单元用于:
利用下述公式计算目标偏离参数,将所述簇的均值作为填充缺失属性的数据进行填补:
Figure FDA0002940889350000031
其中,k是聚类数目,ci是簇中心,x是数据对象,dist为距离。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
均值填充模块,用于在满足预设的终止条件时,将迭代的缺失数据以簇均值填补。
CN201810592386.8A 2018-06-11 2018-06-11 数据填充方法及装置 Active CN108932301B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810592386.8A CN108932301B (zh) 2018-06-11 2018-06-11 数据填充方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810592386.8A CN108932301B (zh) 2018-06-11 2018-06-11 数据填充方法及装置

Publications (2)

Publication Number Publication Date
CN108932301A CN108932301A (zh) 2018-12-04
CN108932301B true CN108932301B (zh) 2021-04-27

Family

ID=64449547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810592386.8A Active CN108932301B (zh) 2018-06-11 2018-06-11 数据填充方法及装置

Country Status (1)

Country Link
CN (1) CN108932301B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611231A (zh) * 2019-02-25 2020-09-01 新奥数能科技有限公司 设备运行数据的清洗方法、装置、可读介质及电子设备
CN110659268A (zh) * 2019-08-15 2020-01-07 中国平安财产保险股份有限公司 基于聚类算法的数据填充方法、装置及计算机设备
CN111046977A (zh) * 2019-12-30 2020-04-21 成都康赛信息技术有限公司 基于em算法和knn算法的数据预处理方法
CN111339248A (zh) * 2020-02-12 2020-06-26 平安科技(深圳)有限公司 数据属性填充方法、装置、设备及计算机可读存储介质
CN111414353B (zh) * 2020-02-29 2024-05-28 平安科技(深圳)有限公司 智能化的缺失数据填充方法、装置及计算机可读存储介质
CN112906858A (zh) * 2021-01-26 2021-06-04 武汉工程大学 一种船舶运动轨迹实时预测方法
CN113076319B (zh) * 2021-04-13 2022-05-06 河北大学 基于离群值检测技术和位图索引的动态数据库填充方法
CN114564759B (zh) * 2022-04-28 2022-07-29 睿至科技集团有限公司 一种分布式数据的检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103338188A (zh) * 2013-06-08 2013-10-02 北京大学 一种适用于移动云的客户端动态认证方法
US9075701B2 (en) * 2012-05-04 2015-07-07 Electronics And Telecommunications Research Institute Apparatus and method for monitoring abnormal state of vehicle using clustering technique
CN106127262A (zh) * 2016-06-29 2016-11-16 海南大学 一种属性缺失数据集的聚类方法
CN106649456A (zh) * 2016-09-23 2017-05-10 西安电子科技大学 基于多智能体进化的聚类和离群点检测方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289585B (zh) * 2011-08-15 2014-06-18 重庆大学 基于数据挖掘的公共建筑能耗实时监测方法
CN103617568B (zh) * 2013-12-06 2017-02-15 国家电网公司 稳态电能质量预警机制中的异常数据判定阈值设定方法
CN104133866A (zh) * 2014-07-18 2014-11-05 国家电网公司 一种面向智能电网的缺失数据填充方法
CN104866578B (zh) * 2015-05-26 2018-01-26 大连理工大学 一种不完整物联网数据混合填充方法
JP2017037377A (ja) * 2015-08-07 2017-02-16 富士通株式会社 情報処理装置、シミュレーション方法、およびシミュレーションプログラム
US10140171B2 (en) * 2016-04-14 2018-11-27 International Business Machines Corporation Method and apparatus for downsizing the diagnosis scope for change-inducing errors
CN106919957B (zh) * 2017-03-10 2020-03-10 广州视源电子科技股份有限公司 处理数据的方法及装置
CN107169520A (zh) * 2017-05-19 2017-09-15 济南浪潮高新科技投资发展有限公司 一种大数据缺失属性补全方法
CN107992878A (zh) * 2017-10-30 2018-05-04 天津理工大学 一种基于ELM-Hierarchical Clustering 的离群点检测方法
CN108090627A (zh) * 2018-01-12 2018-05-29 国网河南省电力公司电力科学研究院 粒子滤波负荷预测分析及变压器选型方法以及装置
AU2018100062A4 (en) * 2018-01-14 2018-04-12 Warnakulasooriya, Sudeshinie Piumika DR Statistics based software system for finding the best treatment type and predicting the improvement.

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9075701B2 (en) * 2012-05-04 2015-07-07 Electronics And Telecommunications Research Institute Apparatus and method for monitoring abnormal state of vehicle using clustering technique
CN103338188A (zh) * 2013-06-08 2013-10-02 北京大学 一种适用于移动云的客户端动态认证方法
CN106127262A (zh) * 2016-06-29 2016-11-16 海南大学 一种属性缺失数据集的聚类方法
CN106649456A (zh) * 2016-09-23 2017-05-10 西安电子科技大学 基于多智能体进化的聚类和离群点检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Outlier detection and missing data filling methods for coastal water temperature data;Cho, Hong Yeon等;《JOURNAL OF COASTAL RESEARCH》;20131231;全文 *
面向不平衡数据的离群点检测研究;张艳;《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》;20180115(第1期);全文 *

Also Published As

Publication number Publication date
CN108932301A (zh) 2018-12-04

Similar Documents

Publication Publication Date Title
CN108932301B (zh) 数据填充方法及装置
CN109840588B (zh) 神经网络模型训练方法、装置、计算机设备及存储介质
CN111242199B (zh) 图像分类模型的训练方法及分类方法
US8073652B2 (en) Method and system for pre-processing data using the mahalanobis distance (MD)
CN110245687B (zh) 用户分类方法以及装置
WO2019200738A1 (zh) 数据特征提取的方法、装置、计算机设备和存储介质
CN110991474A (zh) 一种机器学习建模平台
CN111612080B (zh) 模型解释方法、设备及可读存储介质
CN111292377B (zh) 目标检测方法、装置、计算机设备和存储介质
CN115510981A (zh) 一种决策树模型特征重要性计算方法、装置及存储介质
CN114116829A (zh) 异常数据分析方法、异常数据分析系统和存储介质
CN112437053A (zh) 入侵检测方法及装置
CN110428438B (zh) 一种单木建模方法、装置和存储介质
Ma et al. Improving uncertainty calibration of deep neural networks via truth discovery and geometric optimization
CN117077018B (zh) 基于机器学习的数据处理方法、装置及存储介质
CN114003900A (zh) 变电站二次系统网络入侵检测方法、装置及系统
CN113436223A (zh) 点云数据的分割方法、装置、计算机设备和存储介质
CN116433050B (zh) 应用于农业大数据管理系统的异常报警方法及系统
CN110275895B (zh) 一种缺失交通数据的填充设备、装置及方法
CN117131348A (zh) 基于差分卷积特征的数据质量分析方法及系统
CN113762005A (zh) 特征选择模型的训练、对象分类方法、装置、设备及介质
CN110837853A (zh) 一种快速分类模型构建方法
KR101332630B1 (ko) 경량화된 랜덤펀스 및 이를 이용한 이미지 표현방법
Sedghi et al. Sparse inductive embedding: An explorative data visualization technique
CN111428741B (zh) 网络社区的发现方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant