CN108228896A

CN108228896A - 一种基于密度的缺失数据填补方法及装置

Info

Publication number: CN108228896A
Application number: CN201810113037.3A
Authority: CN
Inventors: 王建民; 宋韶旭; 孙宇
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-02-05
Filing date: 2018-02-05
Publication date: 2018-06-29
Anticipated expiration: 2038-02-05
Also published as: CN108228896B

Abstract

本发明提供一种基于密度的缺失数据填补方法及装置，所述方法包括：获取候选填补属性集合，其中，候选填补属性集合中包含多个用于填补缺失元组中缺失属性的候选填补属性；从候选填补属性集合中选择一个符合预设条件的候选填补属性作为缺失元组的最终填补值，所述预设条件为：使与填补后的缺失元组间的距离小于在第一预设距离的完整元组的个数最大。本发明提供的基于密度的缺失数据填补方法及装置，通过构建候选填补属性集合，并从中选择符合预设条件的候选填补属性作为所述缺失元组的最终填补值，选择具有最大邻居密度的候选填补属性作为最终填补结果，使缺失元组的相邻元组个数最大，确保了不会产生错误填补，并进一步提高了填补的准确率。

Description

一种基于密度的缺失数据填补方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于密度的缺失数据填补方法及装置。

背景技术

随着互联网和移动互联网的高速发展,人们产生的数据总量呈现急剧增长的趋势。随着数据量的不断增加，数据质量的问题也不断凸显。数据背后往往蕴含着巨大的财富，然而数据质量正是这些财富的保证，没有数据质量的保证，这一大堆的数据也只能挖掘出无用的信息。因此，数据质量的重要性不言而喻。而数据缺失问题正是数据质量问题中尤为严重的一类问题。在当今的很多数据库应用中，由于对给定数据库可能存在不完整接入、不准确提取或异构模式等各种问题，经常会出现数据缺失的情况。例如在工业大数据中，由于传感器的问题，经常会出现一大段连续时间内数据的缺失。这些包含空值的数据不仅使系统丢失了很大量的信息，同时也对后续的挖掘分析过程造成很大的麻烦，导致最后输出的结果不可靠。

现有技术中，数据填补技术主要分为两大类：基于统计分布的填补方法和基于规则的填补方法。基于统计分布的填补方法是利用统计分布确定缺失数据的相邻数据，根据相邻数据的值来填补缺失值。基于规则的填补方法是利用预设规则确定缺失数据的相邻数据，根据相邻数据的值来填补缺失值。

然而，现有技术中的数据填补方法都是针对特定的领域中的数据，具有较大的领域局限性。这两种方法都是基于缺失前的数据情况来进行确定填补的值，如果数据缺失情况较为严重的话，找出的相邻数据往往具有非常大的不准确性，从而导致填补的数据不准确，甚至无效。

发明内容

本发明的目的是提供一种基于密度的缺失数据填补方法及装置，解决了现有技术中的数据填补方法的应用范围小、准确性低的技术问题。

为了解决上述技术问题，一方面，本发明提供一种基于密度的缺失数据填补方法，包括：

获取候选填补属性集合，其中，所述候选填补属性集合中包含多个用于填补缺失元组中缺失属性的候选填补属性，所述缺失元组为至少缺失一个属性的元组，所述缺失属性对应一个候选填补属性；

获取所述候选填补属性集合中每一候选填补属性对应的填补元组，每一候选填补属性对应的填补元组为将每一候选填补属性填补至所述缺失元组后所得到的完整元组，所述完整元组为无属性缺失的元组；

计算每一填补元组与数据库中每个完整元组之间的第一距离，统计所述第一距离小于第一预设距离的完整元组的个数，并作为每一填补元组对应的邻居密度；

将最大的邻居密度对应的候选填补属性作为所述缺失元组中缺失属性的最终填补值。

进一步地，所述获取候选填补属性集合，具体为：

计算缺失元组与数据库中每个完整元组之间的第二距离；

获取所有的候选元组，每一候选元组为对应的第二距离小于第二预设距离的完整元组；

以每一候选元组中与所述缺失属性对应的属性为元素构建所述候选填补属性集合。

进一步地，所述计算缺失元组与数据库中每个完整元组之间的第二距离之前，还包括：

对数据库中所有元组的所有属性进行归一化处理。

进一步地，所述第一预设距离为第一预设欧氏距离。

另一方面，本发明提供一种基于密度的缺失数据填补装置，包括：

第一获取模块，用于获取候选填补属性集合，其中，所述候选填补属性集合中包含多个用于填补缺失元组中缺失属性的候选填补属性，所述缺失元组为至少缺失一个属性的元组，所述缺失属性对应一个候选填补属性；

第二获取模块，用于获取所述候选填补属性集合中每一候选填补属性对应的填补元组，每一候选填补属性对应的填补元组为将每一候选填补属性填补至所述缺失元组后所得到的完整元组，所述完整元组为无属性缺失的元组；

计算模块，用于计算每一填补元组与数据库中每个完整元组之间的第一距离，统计所述第一距离小于第一预设距离的完整元组的个数，并作为每一填补元组对应的邻居密度；

填补模块，用于将最大的邻居密度对应的候选填补属性作为所述缺失元组中缺失属性的最终填补值。

再一方面，本发明提供一种用于缺失数据填补的电子设备，包括：

存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述的方法。

又一方面，本发明提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述的方法。

又一方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。

本发明提供的基于密度的缺失数据填补方法及装置，通过构建候选填补属性集合，并从中选择符合预设条件的候选填补属性作为所述缺失元组的最终填补值，选择具有最大邻居密度的候选填补属性作为最终填补结果，使缺失元组的相邻元组个数最大，确保了不会产生错误填补，并进一步提高了填补的准确率。

附图说明

图1为依照本发明实施例的基于密度的缺失数据填补方法示意图；

图2为依照本发明实施例的基于密度的缺失数据填补装置示意图；

图3为本发明实施例提供的用于缺失数据填补的电子设备的结构示意图。

具体实施方式

为了使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为依照本发明实施例的基于密度的缺失数据填补方法示意图，如图1所示，本发明实施例提供一种基于密度的缺失数据填补方法，包括：

步骤S10、获取候选填补属性集合，其中，所述候选填补属性集合中包含多个用于填补缺失元组中缺失属性的候选填补属性，所述缺失元组为至少缺失一个属性的元组，所述缺失属性对应一个候选填补属性；

步骤S20、获取所述候选填补属性集合中每一候选填补属性对应的填补元组，每一候选填补属性对应的填补元组为将每一候选填补属性填补至所述缺失元组后所得到的完整元组，所述完整元组为无属性缺失的元组；

步骤S30、计算每一填补元组与数据库中每个完整元组之间的第一距离，统计所述第一距离小于第一预设距离的完整元组的个数，并作为每一填补元组对应的邻居密度；

步骤S40、将最大的邻居密度对应的候选填补属性作为所述缺失元组中缺失属性的最终填补值。

具体的，针对待填补的数据库T，T＝{t_i|i＝1,…,n}，其中，t_i表示第i个元组，t_i＝{t_i[A_j]|j＝1,…,m}，其中，t_i[A_j]表示第i个元组的第j个属性，n和m均为正整数。

然后，获取待填补的数据库T中每个缺失元组中的缺失属性的候选填补属性集合，其中，所述候选填补属性集合中包含多个用于填补缺失元组中缺失属性的候选填补属性，所述缺失元组为至少缺失一个属性的元组，所述缺失属性对应一个候选填补属性，即，一个缺失属性需要一个候选填补属性进行填补。针对每一个缺失元组，其缺失属性的候选填补属性集合用C(t_i'[A_j])表示。

最后，针对某个缺失元组t'_i的某个缺失属性t'_i[A_j]遍历其缺失属性候选填补属性集合C(t_i'[A_j])里面的每一个候选填补属性将该候选填补属性作为填补结果，得到填补元组，即填补后的缺失元组。经过填补后的缺失元组用来表示，再确定与所述填补元组之间的距离小于第一预设距离ε内的完整元组的个数，并以该个数作为每一填补元组对应的邻居密度，选择最大邻居密度对应的候选填补属性来作为缺失元组的最终填补值，即填补完该缺失属性值后，该缺失元组的邻居(相邻元组)个数最大。用公式表示如下：

其中，对于任意一个依次将所有缺失元组的所有缺失值进行填补，直到所有缺失值被填补为止，待填补的数据库T的填补完成。

本发明提供的基于密度的缺失数据填补方法，通过构建候选填补属性集合，并从中选择符合预设条件的候选填补属性作为所述缺失元组的最终填补值，选择具有最大邻居密度的候选填补属性作为最终填补结果，使缺失元组的相邻元组个数最大，确保了不会产生错误填补，并进一步提高了填补的准确率。

在上述实施例的基础上，进一步地，所述获取候选填补属性集合，具体为：

计算缺失元组与数据库中每个完整元组之间的第二距离；

具体的，当获取缺失元组t'_i中缺失属性t'_i[A_j]的候选填补属性集合时，首先需要计算缺失元组与数据库中每个完整元组之间的距离，与缺失元组t'_i之间的距离小于第二预设距离范围ε′内的完整元组N(t'_i)，构成候选元组，此时，计算距离时，针对有缺失属性的缺失元组t'_i，其相邻完整元组的定义为在该缺失元组的非缺失属性集上，与缺失元组t'_i之间的距离小于第二预设距离范围ε′的完整元组。即其中，ε'为预先给定的第二预设距离阈值，为缺失元组t'_i同完整元组在非缺失属性上的距离。

然后，以每一候选元组中与所述缺失属性对应的属性为元素构建所述候选填补属性集合。

针对每一个缺失元组，利用其各个相邻完整元组N(t′_i)在其缺失属性A_j上的取值构成缺失属性的填补候选集，构建出来的缺失属性的候选填补属性集合用C(t_i'[A_j])表示，

在以上各实施例的基础上，进一步地，所述计算缺失元组与数据库中每个完整元组之间的第二距离之前，还包括：

对数据库中所有元组的所有属性进行归一化处理。

具体的，在获取距离缺失元组的长度在第二预设距离范围内的完整元组之前，还包括对数据库中所有元组的所有属性的值进行归一化处理。

将数据库T中所有元组的所有属性值采用min-max的方式进行归一化，以避免对各属性度量单位选择的依赖性、提高对邻居元组判定的准确性。进行归一化处理的公式如下：

其中，max[A_j]，min[A_j]分别为数据库中属性A_j的最大值和最小值。

在以上各实施例的基础上，进一步地，所述第一预设距离为第一预设欧氏距离。

具体的，第一预设距离可以是曼哈顿距离等计算数据点间距离的方法。

为了进一步提高数据填补的准确性，第一预设距离为长度为第一预设值的欧氏距离ε。计算公式如下：

其中，S为缺失元组t’_i的非缺失属性的集合。

图2为依照本发明实施例的基于密度的缺失数据填补装置示意图，如图2所示，本发明实施例提供一种基于密度的缺失数据填补装置，包括第一获取模块10、第二获取模块20、计算模块30和填补模块40，其中，第一获取模块10用于获取候选填补属性集合，其中，所述候选填补属性集合中包含多个用于填补缺失元组中缺失属性的候选填补属性，所述缺失元组为至少缺失一个属性的元组，所述缺失属性对应一个候选填补属性；

第二获取模块20用于获取所述候选填补属性集合中每一候选填补属性对应的填补元组，每一候选填补属性对应的填补元组为将每一候选填补属性填补至所述缺失元组后所得到的完整元组，所述完整元组为无属性缺失的元组；

计算模块30用于计算每一填补元组与数据库中每个完整元组之间的第一距离，统计所述第一距离小于第一预设距离的完整元组的个数，并作为每一填补元组对应的邻居密度；

填补模块40用于将最大的邻居密度对应的候选填补属性作为所述缺失元组中缺失属性的最终填补值。

本发明实施例提供一种基于密度的缺失数据填补装置，用于完成上述各实施例中所述的方法，通过本实施例提供的填补装置完成上述实施例中所述的方法的具体步骤与上述实施例相同，此处不再赘述。

本发明提供的基于密度的缺失数据填补装置，通过构建候选填补属性集合，并从中选择符合预设条件的候选填补属性作为所述缺失元组的最终填补值，选择具有最大邻居密度的候选填补属性作为最终填补结果，使缺失元组的相邻元组个数最大，确保了不会产生错误填补，并进一步提高了填补的准确率。

图3为本发明实施例提供的用于缺失数据填补的电子设备的结构示意图，如图3所示，所述设备包括：处理器801、存储器802和总线803；

其中，处理器801和存储器802通过所述总线803完成相互间的通信；

处理器801用于调用存储器802中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：

本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：

本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置及设备等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于密度的缺失数据填补方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取候选填补属性集合，具体为：

计算缺失元组与数据库中每个完整元组之间的第二距离；

3.根据权利要求2所述的方法，其特征在于，所述计算缺失元组与数据库中每个完整元组之间的第二距离之前，还包括：

对数据库中所有元组的所有属性进行归一化处理。

4.根据权利要求1所述的方法，其特征在于，所述第一预设距离为第一预设欧氏距离。

5.一种基于密度的缺失数据填补装置，其特征在于，包括：

6.一种用于缺失数据填补的电子设备，其特征在于，包括：

存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至4任一所述的方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一所述的方法。