CN104516879A

CN104516879A - 用于管理含有具有缺失值的记录的数据库的方法和系统

Info

Publication number: CN104516879A
Application number: CN201310445615.0A
Authority: CN
Inventors: 黎文宪; 程羽
Original assignee: SAP SE
Current assignee: SAP SE
Priority date: 2013-09-26
Filing date: 2013-09-26
Publication date: 2015-04-15
Anticipated expiration: 2033-09-26
Also published as: US10387419B2; CN104516879B; US20150088907A1

Abstract

提供一种方法，所述方法包括：从数据集中选择包括缺失值的目标记录；将数据集的记录划分成为包括互相关数据的至少两个组，所述划分后记录包括具有与目标记录中的缺失值相同字段的值的记录，基于与划分后记录相关联的所述至少两个组中的每一个中的字段之间的关系预测缺失值，以及将目标记录的缺失值设置为该预测值。

Description

用于管理含有具有缺失值的记录的数据库的方法和系统

技术领域

实施例涉及管理含有具有缺失值（missing value）的记录的数据库。更具体地，实施例涉及输入用于记录中的缺失值的值。

背景技术

在数据库(或其他数据存储，例如XML文件)的任一数据集(例如，数据表或查询结果)中，存在含有具有缺失值的记录(或记录集)的条目的可能性。例如，因为在数据收集的时间该值未知，所以收集的数据可以是缺失值。例如，在基于数据的分析或研究中，缺失数据影响数据的质量。

作为一个例子，个人健康记录(PHR)数据库在促进医学和灾害研究中扮演重要角色，并且提供用于个人保健的分析服务。例如，PHR可以根据来自数据库的历史数据来提供个人的健康分析。在各种类型的健康促进机构中，历史数据可以为顾问和指导员提供支持。此外，可以通过PHR分析来安排和提醒通过健身巡回医疗带来的健康养护周期。此外，数据可用于创建用于推荐最佳健身计划或健康每日菜单的预测模型。通常，可以基于三个主要的方法来收集PHR数据：来自个人体重计的每日健康记录，来自健身中心的顾客记录以及来自大学和研究中心的统计数据库。然而，缺失值发生在PHR数据库中，在收集用于所有人的完整数据方面可能存在一些困难。

在传统的缺失值估算（imputation）方法中，具有缺失值的选定记录可以表示为全部其他相似记录的线性组合。换句话说，这些算法将数据集中的局部相似结构用于缺失值估算。典型地，与包含缺失值的记录呈现高度相关的记录的子集被用于估算缺失值。大部分方法还假定，彼此独立地考虑全部记录的特征，其大部分已经应用在微阵列数据分析中。

然而，在一些数据库(或数据集)中，一些数据特性可能线性互相关，并且数据可以基于该关系被分类。例如，可以通过PHR数据的特征将它们分类成为两个组。一组可以是度量数据，诸如身高、体重、验血结果；另一组可以从诸如疲劳、食欲之类的调查表生成并量化。因此，特征的类型可以不同地影响所述线性组合。当估算数据库中的缺失值时传统的缺失值估算方法不考虑互相关数据。因此，当估算数据库中的缺失值时存在对利用互相关数据的方法和系统的需要。

发明内容

一个实施例包括一种方法。所述方法包括：从数据集中选择包括缺失值的目标记录；将数据集的记录划分成为包括互相关数据的至少两个组，所述划分后的记录包括具有与目标记录中的缺失值相同字段的值的记录，基于与划分后的记录相关联的所述至少两个组中的每一个中的字段之间的关系预测缺失值，以及将目标记录的缺失值设置为该预测值。

另一实施例包括一种具有存储在其上的计算机可执行程序码的非瞬时计算机可读存储介质，当在计算机系统上运行该计算机可执行程序码时使得计算机系统执行如下步骤。所述步骤包括：从数据集中选择包括缺失值的目标记录；将数据集的记录划分成为包括互相关数据的至少两个组，所述划分后的记录包括具有与目标记录中的缺失值相同字段的值的记录，基于与划分后的记录相关联的所述至少两个组中的每一个中的字段之间的关系预测缺失值，以及将目标记录的缺失值设置为该预测值。

还一实施例包括一种装置。所述装置包括：值预测模块，被配置成从数据集中选择包括缺失值的目标记录；并且被配置成将该目标记录的缺失值设置为预测值。所述装置包括：模型生成模块，被配置成将数据集的记录划分成为包括互相关数据的至少两个组，所述划分后的记录包括具有与目标记录中的缺失值相同字段的值的记录；并且被配置成基于与划分后的记录相关联的所述至少两个组中的每一个中的字段之间的关系来预测缺失值。

附图说明

从此处以下给出的详细说明和附图中将更全面地理解示例实施例，其中通过相似的参考标号表示相似的元件，仅仅通过例示的方式给出详细说明和附图，并且因此不限制示例实施例，并且其中：

图1示出根据至少一个示例实施例的方法。

图2示出根据至少一个示例实施例的系统的框图。

图3示出根据至少一个示例实施例的数据存储的框图。

图4示出根据至少一个示例实施例的用于生成模型的框图。

图5示出根据至少一个示例实施例的数据集。

图6示出根据至少一个示例实施例的另一数据集。

图7示出根据至少一个示例实施例的、在生成模型中使用的输入/输出的框图。

图8示出根据至少一个示例实施例的一维的双局部线性模型的图。

图9示出根据至少一个示例实施例的另一方法。

应该注意到，这些附图是用来示出在特定示例实施例中使用的方法和/或结构的一般特性并且用于对下面提供的书面描述进行补充。然而，这些附图不是按比例的并且可能不精确地反映任一给出实施例的精确的结构或性能特征，并且将不会解释为定义或限制由示例实施例包含的数值范围或性质。例如，为了清楚，可以缩小或放大结构元件的布置。在多个附图中的相似或相同的参考数字的使用是用来指示相似或相同的元件或特征的存在。

具体实施方式

尽管示例实施例可以包括不同的修改和替换形式，但在附图中以举例的方式示出了示例实施例，并且将在此处详细描述示例实施例。然而，应当理解，并非意图将示例实施例局限于公开的具体形式，而是相反地，示例实施例应覆盖落入示例实施例范围内的所有修改、等效物以及替换物。遍及附图的描述，相似的附图标记始终指代相似的元件。

示例实施例描述利用两种类型的互相关数据构造和内插两个局部线性子模型的双局部线性模型。例如，第一类型的互相关数据可以基于定量(例如，度量)的数据而第二类型的互相关数据可以基于定性的(或主观的)数据。在PHR数据库的示例实现中，分别地，第一类型(或定量)的互相关数据可以是重要数据而第二类型(或定性的)互相关数据可以是调查表数据。因此，和传统的估算方法形成对比，不只利用局部相似信息，而且考虑数据特征之间的相关。

图1示出根据至少一个示例实施例的方法。关于图1描述的方法步骤可以作为存储在与系统(例如，如图2中所示的)相关联的存储器(例如，如下所述的至少一个存储器210)中的软件码来运行并且由与系统相关联的至少一个处理器(例如，如下所述的至少一个处理器205)运行。然而，预期存在替换实施例，诸如具体实现为专用处理器的系统。

例如，可以通过专用集成电路或ASIC来执行方法步骤。例如，ASIC可以被配置为一个或多个块、或者块的元素、(例如，下面描述的值预测模块225）和/或系统200。虽然如下所述的步骤被描述为由处理器运行，但是步骤不一定由相同的处理器运行。换句话说，至少一个处理器可以运行下面与图1相关描述的步骤。

如图1中所示，在步骤S105中处理器(例如，至少一个处理器205)选择具有缺失值的目标记录。例如，处理器可以过滤数据集以包括具有缺失值的记录。在一些示例实现中，处理器可以将目标记录选择为具有最少数目的缺失值的记录。在这种情况下，处理器可以过滤数据集以包括一(1)个缺失值。如果所得的过滤后数据集包括零(0)个记录，则处理器可以过滤数据集以包括两(2)个缺失值。此处理可以继续直到所得的过滤后数据集包括至少一(1)个记录。然后，处理器可以从所得的过滤后数据集中随机选择记录作为目标记录。

在步骤S110中处理器划分没有相应缺失值的记录。例如，没有相应缺失值的记录可以是数据集中不包括目标记录的全部记录(或其子集)。因此，处理器可以过滤数据集以排除目标记录。此外，处理器可以基于一些互相关数据特性来划分所得的过滤后数据集。例如，处理器可以将所得的过滤后数据集划分成为两种类型的互相关数据。例如，第一类型的互相关数据可以是基于定量(例如，度量)的数据而第二类型的互相关数据可以是基于定性的(或主观的)数据。然而，示例实施例不局限于包括定量和定性数据的组。因此，处理器将数据集的记录划分成为包括互相关数据的至少两组，划分后记录包括具有与目标记录中的缺失值相同字段的值的记录。

在步骤S115中，处理器基于划分后记录和目标记录的相应字段之间的关系来预测缺失值。处理器可以基于在与划分后记录相关联的至少两个组中的每一个中的字段之间的关系来预测缺失值。例如，处理器可以生成双局部线性模型(下面更详细地描述)，在该模型中利用两种类型的互相关数据来生成和内插两个局部线性子模型。处理器然后可以使用双局部线性模型以预测缺失值。然后，在步骤S120中处理器将目标记录的缺失值设置为预测值。例如，处理器可以在目标记录的相应字段中写入预测值。

图2示出根据至少一个示例实施例的系统的框图。如图2中所示，系统(或装置)200包括至少一个处理器205和至少一个存储器210。至少一个处理器205和至少一个存储器210经由总线215通信地耦接。例如，系统200可以是计算设备(例如，云计算设备、服务器或个人计算机）的元件。

在图2的示例中，系统200可以是至少一个计算设备并且应当理解为事实上表示被配置成执行此处描述的方法的任一计算设备。因而，系统200可以理解为包括可以被利用以实现此处描述的技术的多个标准组件，或其不同的或将来版本。举例来说，系统200示出为分别地包括至少一个处理器205，以及至少一个存储器210(例如，非瞬时计算机可读存储介质)。

因此，如可以理解的，可以利用至少一个处理器205运行存储在至少一个存储器210上的指令，以便从而实现此处描述的多个特征和功能，或额外或替换的特征和功能。当然，可以为多种其他目的而利用至少一个处理器205和至少一个存储器210。具体来说，可以理解的是至少一个存储器210可以理解为表示各种类型的存储器的示例以及可以用于实现此处描述的模块中的任何一个的有关的硬件和软件。如下所述的系统和/或方法可以包括数据和/或存储元件。例如，数据和/或存储元件(例如，数据库表)可以存储在至少一个存储器210中。

如图2中所示，至少一个存储器210包括数据存储220和值预测模块225以及模型生成模块230。数据存储220可以是数据库(包括数据表或数据集)或一些其它的数据结构(例如，XML文件)。值预测模块225可以被配置成使用模型(例如，双局部线性模型)来预测缺失值。值预测模块225还可以被配置成将记录中的字段设置为预测值。

模型生成模块230可以被配置成将数据集(例如，排除包括将被预测的缺失值的记录)划分成为两种类型的互相关数据。例如，第一类型的互相关数据可以基于定量(例如，度量)的数据而第二类型的互相关数据可以基于定性的(或主观的)数据。模型生成模块230可以被配置成基于第一类型的互相关数据来生成第一线性函数。模型生成模块230可以被配置成基于第二类型的互相关数据来生成第二线性函数。第一线性函数和第二线性函数中的每一个可以被加权重(或缩放)并且被组合以生成用于预测缺失值的双局部线性模型。虽然，讨论了导致生成双局部线性模型的两种类型的互相关数据，但是示例实施例不局限于此。例如，可以生成任何数量N的互相关数据划分以导致生成N-局部线性模型。

图3示出根据至少一个示例实施例的数据存储的框图。如图3中所示，例如，数据存储包括从包括第一类型记录305、第二类型记录310和源数据库315的若干数据源接收记录的记录数据库320。例如，记录数据库320可以划分成为两种类型的数据，包括第一类型数据325和第二类型数据330。两种类型的数据可以是互相关数据。例如，第一类型的互相关数据(例如，第一类型数据325)可以是基于定量(例如，度量)的数据而第二类型的互相关数据(例如，第二类型数据330)可以是基于定性(例如，主观)的数据。例如，PHR数据可以通过他们的特征被分类成为两个组。一组(例如，第一类型数据325)可以是度量数据，诸如身高、体重、验血结果；另一组(例如，第二类型数据330)可以从诸如疲劳、食欲之类的调查表被生成和量化。

图4示出根据至少一个示例实施例的用于生成模型的框图。如图4中所示，第一类型数据325的k个记录和第二类型数据330的j个记录(k可以等于或可以不等于j)输入到块405中，在块405中基于第一类型数据325的k个记录生成第一线性函数410而基于第二类型数据330的j个记录生成第二线性函数415。第一线性函数410和第二线性函数415中的每一个可以被加权重(或缩放)并且被组合以生成用于预测缺失值的双局部线性模型420。双局部线性模型420用于预测缺失值，该预测值然后插入到目标记录425中。虽然，讨论了导致生成双局部线性模型的两种类型的互相关数据，但是示例实施例不局限于此。例如，可以生成任何数量N的互相关数据划分以导致生成N-局部线性模型。

图5示出根据至少一个示例实施例的数据集。数据集包括多个列(字段或特征)505-540和多个行(或记录集)。数据集包括表示为NaN的缺失数据545、550。数据集还将列(字段或特征)505-525示出为第一类型数据(例如，第一类型数据325)并且将列(字段或特征)530-540示出为第二类型数据(例如，第二类型数据330)。

在示例实现中，PHR数据库D包含健身索引(列)的N个记录和n个特征，诸如体重、基础新陈代谢。在图5中，示出PHR数据的示例，其中NaN表示数据库中的缺失值，并且数据按照数据性质被分类到重要数据(第一类型数据)和调查表数据(第二类型数据)中。因此，在此示例实现中，相对于任何缺失数据y_i,j(i=1,2,…,n,j=1,2,…,N)，估算可以被认为是通过y_i,j=f(x_i,j)的预测问题，其中x_i,j表示没有缺失值的PHR数据库中的度量数据。

图6示出根据至少一个示例实施例的另一数据集(或图5中示出的数据集的子集)。在图6中，根据一些示例实现，为了估计缺失值y_i,j，如通过使用

A = [\begin{matrix} A_{1} & A_{2} \\ A_{3} & A_{4} \end{matrix}],

B=[B₁ B₂]^T和

C = {[\begin{matrix} C_{1}^{T} & C_{2}^{T} \end{matrix}]}^{T}

估计y_i,j一样来估计模型。因为以同等次序来考虑每个特征，所以[A₁ A₂]^T可以表示第一类型的互相关数据(例如，第一类型数据325或重要数据)，并且[A₃ A₄]^T可以表示第二类型的互相关数据(例如，第二类型数据330或调查表的数据)。

图7示出根据至少一个示例实施例的、在生成模型中使用的输入/输出的框图。如图7中所示，(列、字段或特征的)数目n1的第一类型的数据(例如，第一类型数据325)的k个记录和(列、字段或特征的)数目n2(n1可以等于或可以不等于n2)的第二类型数据(例如，第二类型数据330)的k个记录被输入用于(向目标记录)生成输出n=n1+n2。

在图7中，k可以是目标记录的k个最近邻(KNN)记录。换句话说，可以通过过滤数据集以包括KNN个记录或具有阈值之内的相似性的记录来在估算缺失值中利用局部相似信息。例如，参照图5，如果缺失数据550正在被估算，则特征(或列)510可以被限制为目标记录(例如，具有ID505=20的记录)中的值的+/-5。过滤的结果可以是包括值范围60-70的记录(例如，具有ID505=1、2和4的记录)，可以被利用作为KNN。

图8示出根据至少一个示例实施例的一维的双局部线性模型的曲线图。曲线图可以表示根据示例实施例型的模型，该模型用于表示缺失数据和非缺失数据之间的某些动态。模型可以向第一类型的互相关数据(例如，第一类型数据325或重要数据)以及第二类型的互相关数据(例如，第二类型数据330或调查表数据)给出不同的权重。模型可以表示为：

B_{i} = Σ_{p = 1}^{2} X_{i} W_{p} R_{p} (X_{i}, θ_{p}) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . (1)

其中

B=[B₁ B₂]^T是目标矢量；

B_i表示第i个元素(特征)；

X_i是全部k个最近邻记录的第i个特征向量；

W_p是模型的参数矩阵，W_p=[w_1p,w_2p,...,w_np]^T；

R_p(X_i,θ_p)是具有输入向量X_i和参数矢量θ的径向基函数。

具体地,R_p(X_i,θ_p)表示为：

R_{p} (x_{i}, θ_{p}) = \exp (- \frac{{| | x_{i} - u_{p} | |}^{2}}{σ_{p^{2}}}) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . (2)

从等式（1）中，模型可以实现为双局部线性模型，其中T₁=X_iW₁和T₂=X_iW₂是双线性子模型；R_p=(X_i,θ_p),p=1,2是用于内插两个线性子模型的加权函数。θ_p=[μ_p σ_p]是用于径向基函数的参数矢量，其引入用于每个线性子模型的局部性质。此想法可以通过图8中的一维情况更好的示出，在该一维情况中通过两个线性子模型来近似非线性函数。然而，可以以平滑和灵活方式定义每个子模型的工作区。因此，径向基函数可以应用在两个子区域中，该径向基函数提供局部线性工作区并对两个局部线性子模型两者给出不同的权重。

我们分别地关心重要特征和调查表特征以获得两个局部线性子区域。因此，两种数据两者利用关于每个特征的不同权重都将对目标记录有贡献。

为了识别所提出的模型的参数，可以实现两个步骤。

1.估计θ_p：此参数矢量包含径向基函数中的μ_pσ_p。μ_p是用于函数的位置的中心参数，并且它可以确定为每个局部线性区域的中心。具体地，μ_p可以被确定为多维空间中的重要数据集和调查表数据集的中心。σ_p是用于函数的形状的缩放参数，从而可以被确定为每个数据集的方差。

2.估计W_p：当确定和固定参数矢量θ_p时，可以在参数线性模型中转换如示出的等式(1)的模型：

B_i=Φ(X_i)^TΘ…………………………...………………………………(3)

其中

Φ(X_i)=[X_iR₁(X_i),X_iR₂(X_i)]………………………………………………(4)

Θ=[w₁₁,w₂₁,...,w_n1,w₁₁,w₂₂,...,w_n2]^T…………………………………..(5)

因此，参数Θ可以作为最小二乘算法估计。最终，可以通过使用识别的模型来估计缺失值y：

y=Φ(C)^TΘ………………………………………………………..….(6)

其中C表示包括其他非缺失数据的目标记录。

上面定义的估算问题落入预测类别。结果，估算的主过程可以粗略地分成两个步骤：

1.根据遵循B=f(A)的矩阵A和B确定或生成模型f，其对没有缺失值的记录(除第i个记录之外的全部记录)和具有缺失值的一个记录(第i个记录)之间的动态进行建模。

2.按照y_i,j=f(C)，通过估计的模型f来预测缺失值。

此外，第一类型的互相关数据(例如，第一类型数据325或重要数据)，以及第二类型的互相关数据(例如，第二类型数据330或调查表的数据)经常采用数据集中的不同特性。因此，在一些实现中，在估算过程中可以向第一类型的互相关数据(例如，第一类型数据325或重要数据)、以及第二类型的互相关数据(例如，第二类型数据330或调查表的数据)给出不同的权重(或缩放度)。

在预处理步骤中，选择具有最小数目的缺失值的目标记录。除了要估计的缺失数据之外，在均值估算算法中粗略地估算全部其他缺失数据，该全部其他缺失数据对于特定特征被简单地估计为全部其他记录的特征值的平均值。

在建模步骤中，首先选择目标记录的KNN个记录，其通过K表示(可以分别地相对于第一类型的互相关数据(例如，第一类型数据325或重要数据)、以及第二类型的互相关数据(例如，第二类型数据330或调查表的数据)被分成K₁和K₂)。为了防止提出的方法被过度拟合，KNN可以用于选择相似的记录以被在缺失数据估计中利用。此外，用于模型确定/生成目的的数据集可以如图7中所示被格式化。具有缺失值的目标记录可以通过使用KNN被建模，而第一类型的互相关数据(例如，第一类型数据325或重要数据)、以及第二类型的互相关数据(例如，第二类型数据330或调查表的数据)可以单独地对输出有贡献。在图9中进一步详述这些步骤中的每一个。

图9示出根据至少另一个示例实施例的另一方法。关于图9描述的方法步骤可以作为存储在与系统(例如，如图2中所示)相关联的存储器(例如，至少一个存储器210)中的软件码来运行并且由与系统相关联的至少一个处理器(例如，至少一个处理器205)运行。然而，预期存在替换实施例，诸如具体实现为专用处理器的系统。

例如，可以通过专用集成电路、或ASIC来执行方法步骤。例如，ASIC可以被配置为一个或多个块、或块的元素、(例如，值预测模块225）和/或系统200。虽然如下所述的步骤被描述为由处理器运行，但是步骤不一定由相同的处理器运行。换句话说，至少一个处理器可以运行下面关于图9描述的步骤。

如图9中所示，在步骤S905中处理器(例如，至少一个处理器205)从数据集中选择目标记录。例如，处理器可以过滤数据集以包括具有缺失值的记录。在一些示例实现中，处理器可以将目标记录选择为具有缺失值的记录和/或具有最少数目缺失值的记录。在这种情况下，处理器可以过滤数据集以包括一(1)个缺失值。如果所得的过滤后数据集包括零(0)个记录，则处理器可以过滤数据集以包括两(2)个缺失值。此处理可以继续直到所得的过滤后数据集包括至少一(1)个记录。然后，处理器可以从所得的过滤后数据集中随机选择记录作为目标记录。

在步骤S910中，处理器从目标记录中选择目标字段(特征)。例如，处理器可以选择包括缺失值(例如，包括缺失数据550的字段)的字段(特征或列)作为目标字段。

在步骤S915中，对于缺失用于目标字段的值的记录(不包括目标记录)，处理器过滤或估算值。例如，在一些示例实现中，数据集可以包括大量记录。因此，缺失用于选定的目标字段的值的记录（不包括选定的目标记录）的数目可能低于阈值。因此，处理器可以过滤数据集以从数据集排除那些缺失用于至少一个目标字段的值的记录，所述至少一个目标字段包括所述缺失值。例如，处理器可以过滤数据集以从数据集排除(或临时除去)那些缺失用于选定的目标字段的值的记录。可替换地，或另外，处理器可以确定(例如，估算)用于选定的目标字段的均值或平均值并且插入均值或平均值作为临时值以用于缺失用于选定的目标字段的相应值的每个记录。上述的阈值可以基于具有统计上显著的或足够数目的记录(例如，k个记录)以对所得的数据集进行建模。

在步骤S920中处理器选择目标记录的k个最近邻(KNN)记录。例如，目标记录的k个最近邻(KNN)记录可以分别地推断第一类型的互相关数据(例如，第一类型数据325或重要数据)、以及第二类型的互相关数据(例如，第二类型数据330或调查表的数据)中的每一个之内的局部相似性(在该方法中，在这一点上，即，是否基于第一类型的互相关数据和/或第二类型的互相关数据来过滤数据集)。换句话说，可以通过过滤数据集以包括KNN个记录或具有阈值之内的相似性的记录来在估算缺失值中利用局部相似信息。例如，参照图5，如果缺失数据550正在被估算，则特征(或列)510可以局限于目标记录(例如，具有ID505=20的记录)中的值的+/-5。过滤的结果可以是包括值范围60-70的记录(例如，具有ID505=1、2和4的记录)可以被利用作为KNN。

在步骤S925中，处理器基于第一类型的数据和第二类型的数据来划分KNN个记录。例如，处理器可以基于某些互相关数据特性来划分KNN个记录。例如，处理器可以将KNN个记录划分到两个类型的互相关数据中。例如，第一类型的互相关数据可以基于定量(例如，度量)的数据而第二类型的互相关数据可以基于定性的(或主观的)数据。然而，示例实施例不局限于此。例如，处理器可以将两个数据集生成为第一类型数据325的KNN个记录和第二类型数据330的KNN个记录(参照图3和图4)。例如，参照图5，第一数据集可以包括列(字段或特征)505-525作为第一类型数据(例如，第一类型数据325)，并且第二数据集可以包括列(字段或特征)530-540作为第二类型数据(例如，第二类型数据330)。

在步骤S930中，处理器基于划分的KNN个记录来确定双局部线性模型。例如，如上面讨论的，处理器可以基于第一类型的互相关数据生成第一线性函数(例如，第一线性函数410)，并且基于第二类型的互相关数据生成第二线性函数(例如，第二线性函数415)。两个线性函数可以表示为上面关于等式1讨论的子模型T₁=X_iW₁和T₂=X_iW₂。如上面关于等式1-6讨论的，第一线性函数和第二线性函数中的每一个可以被加权重(或缩放)并且被组合以生成用于预测缺失值的双局部线性局部模型。

在步骤S935中，处理器使用双局部线性模型来预测值。例如，如上面更详细地讨论的，处理器可以使用双局部线性模型来预测缺失值。例如，处理器可以使用等式6来预测值。在步骤S940中，处理器将用于目标记录的目标字段的值设置为预测值。最终，在步骤S945中，处理器确定数据集是否包括缺失值。例如，处理器可以执行数据集的搜索(例如，对于空字段和/或具有等于NaN的值的字段)。如果数据集包括缺失值，则过程返回到步骤S905。否则，过程结束。

列表1是关于图9描述的步骤的示例实现的伪码。行1-26描述主流程，其中预处理在行11-14中实现，双局部线性模型构造和参数估计在行15-24中实现，并且最后估算缺失值。在接下来的部分中，行27-42描述用于数据预处理的均值估算方法，并且行43-50示出用于对于选定的目标记录找到k个最近邻记录的示例算法，并且行51-61描述用于径向基函数中的中心和宽度参数的估计方法。

列表1

一些上面的示例实施例以被描绘为流程图的过程或方法来描述。虽然流程图将操作描述为顺序过程，但是可以平行、并行或同时地执行许多操作。此外，操作的次序可以重新排列。当过程的操作被完成时可以终止过程，但是还可以具有不包括在图中的额外的步骤。过程可以相应于方法、函数、过程、子例程、子程序等等。

通过流程图示出其中一些的上述讨论到的方法可以通过硬件、软件、固件、中间件、微码、硬件描述语言或其任何组合实现。当以软件、固件、中间件或微码实现时，用于执行必要的任务的程序代码或代码段可以存储在机器或诸如存储介质的计算机可读介质中。（多个）处理器可以执行必要的任务。

此处公开的特定结构细节和功能细节仅仅是代表性的，目的在于描述示例实施例。然而，示例实施例可以用许多替代形式来具体实现，不应被看作仅仅局限于此处描述的实施例。

将会理解，尽管此处可能使用词语第一、第二等等来描述不同的元件，但这些元件不应受到这些词语的限制。这些词语仅仅用于将一个元件与另一个元件区分开来。例如，第一元件可以被称为第二元件，并且类似地，第二元件可以被称为第一元件，而不偏离示例实施例的范围。如此处使用的，术语“和/或”包括一个或多个相关列出项目中的任意一个以及所有组合。

将会理解，当一个元件被称为“连接”或“耦接”到另一元件时，它可以直接连接或耦接到所述另一元件，或者也可以存在居间的元件。相反，当一个元件被称为“直接连接到”或“直接耦接到”另一元件时，不均在居间的元件。用于描述元素之间的关系的其他的词应当以类似的方式解释(例如，“之间”对于“直接之间”，“相邻”对于“直接相邻”等等）。

此处使用的术语仅仅是为了描述特定实施例，并非意图限制示例实施例。如此处使用的，单数形式“一”、“一个”也意图包括复数形式，除非上下文明确地给出相反指示。还将理解，当此处中使用词语“包括”、“包含”时，表明存在所描述的特征、整体、步骤、操作、元件和/或组件，但不排除存在或附加一个或多个其他特征、整体、步骤、操作、元件、组件和/或它们的组合。

还应注意到，在一些替换实现方式中，所提到的功能/动作可以不按附图中描述的顺序进行。例如，取决于所涉及的功能/动作，两个相继示出的图可能实际上是基本并发地执行的，或者有时可能以相反的次序执行。

除非另外定义，否则此处使用的所有术语（包括技术术语和科学术语）所具有的含义与本示例实施例所属领域的普通技术人员通常理解的含义相同。还将理解，术语，例如，通常使用的词典中定义的那些术语，应该被解释为所具有的含义与它们在相关领域上下文中的含义一致，而不应理想化地或过分形式化地对其进行解释，除非此处明确地如此定义。

上述示例实施例和相应详细说明的部分按照关于计算机存储器之内的数据比特的软件、或操作的算法和符号表示来呈现。这些描述和表示是本领域普通技术人员向本领域的其他普通技术人员有效地传达他们的工作的实质的那些。如此处使用的术语并且如通常使用的，算法被构思为导致期望的结果的自相一致的步骤。步骤是需要实体量的实体操作的那些步骤。通常，虽然不一定，但是这些量采取能够存储、转换、组合、比较和相反操作的光信号、电信号、或磁信号的形式。已经多次证明便利的是，主要地出于对公共使用的考虑，将这些信号称为比特、值、元素、码元、特性、术语、数字等等。

在上述说明性实施例中，提及可以实现为程序模块或功能处理的操作的动作和符号表示(例如，以流程图的形式)，包括执行特定任务或实现特定抽象数据类型并且可以使用现有的结构元件中的现有的硬件来描述和/或实现的例程、程序、对象、组件、数据结构等等。这种现有的硬件可以包括一个或多个中央处理单元(CPU)、数字信号处理器(DSP)、应用型专用集成电路、现场可编程门阵列(FPGA)计算机等等。

然而，应当记住的是，全部这些和类似术语将与合适的物理量相关联并且仅仅是应用于这些量的方便的标签。否则除非具体地陈述，或如从讨论明显的是，诸如“处理”或“计算”或“算出”或“确定”或“显示”等等的术语，指的是计算机系统或类似电子计算设备的动作和处理，所述计算机系统或类似电子计算设备将表示为计算机系统的寄存器和存储器之内的实体量、电子量的数据操作和变换成为其他数据，该其他数据类似地表示为计算机系统存储器或寄存器或其他的这种信息存储、传输或显示设备之内的实体量。

还注意的是，示例实施例的软件实现的方面以非瞬时程序存储器介质的某些形式被典型地编码或通过某些类型的传输介质被实现。程序存储器介质可以是磁性的(例如，软盘或硬盘)或光学的(例如，光盘只读存储器、或“CDROM”)，并且可以是只读或随机存取的。类似地，传输介质可以是绞合线对、同轴电缆、光学纤维或本领域已知的其它的适当的传输介质。示例实施例不由任何给定实现的这些方面限制。

最后，也应注意，当所附权利要求陈述此处描述的特征的特定组合时，本公开的范围不局限于以下权利要求的特定组合，但是此时不扩展为包含此处公开的特征或实施例的任何组合，而不管此时该特定组合是否已经具体地列举在权利要求中。

Claims

1.一种方法，包括：

从数据集中选择包括缺失值的目标记录；

将数据集的记录划分成为包括互相关数据的至少两组，划分后的记录包括具有与目标记录中的缺失值相同字段的值的记录；

基于与划分后记录相关联的至少两个组中的每一个中的字段之间的关系来预测缺失值；以及

将目标记录的缺失值设置为预测值。

2.如权利要求1所述的方法，其中从数据集中选择目标记录包括将目标记录选择为具有最少数目缺失值的记录。

3.如权利要求1所述的方法，还包括：

从目标记录中选择包括缺失值的目标字段。

4.如权利要求1所述的方法，其中将数据集的记录划分成为至少两个组包括：

过滤数据集以从数据集排除那些缺失用于至少一个目标字段的值的记录，所述至少一个目标字段包括缺失值。

5.如权利要求1所述的方法，其中将数据集的记录划分成为至少两个组包括：

确定用于目标字段的均值或平均值，以及

插入均值或平均值作为用于缺失用于目标字段的相应值的每个记录的临时值。

6.如权利要求1所述的方法，其中将数据集的记录划分成为至少两个组包括：

选择目标记录的k个最近邻(KNN)记录。

7.如权利要求1所述的方法，其中预测缺失值包括：

基于第一类型的互相关数据生成第一线性函数；

基于第二类型的互相关数据生成第二线性函数；

基于第一线性函数和第二线性函数生成双局部线性局部模型；以及

使用双局部线性局部模型预测缺失值。

8.如权利要求7所述的方法，其中

第一类型的互相关数据基于定量数据；以及

第二类型的互相关数据基于定性数据。

9.如权利要求1所述的方法，其中从个人的健康记录(PHR)数据库中选择所述数据集。

10.一种具有存储在其上的计算机可执行程序代码的非瞬时计算机可读存储介质，当在计算机系统上运行该计算机可执行程序代码时，使得计算机系统执行包括如下的步骤：

从数据集中选择包括缺失值的目标记录；

将目标记录的缺失值设置为预测值。

11.如权利要求10所述的非瞬时计算机可读存储介质，其中从数据集中选择目标记录包括将目标记录选择为具有最少数目缺失值的记录。

12.如权利要求10所述的非瞬时计算机可读存储介质，其中所述步骤进一步包括：

从目标记录中选择包括缺失值的目标字段。

13.如权利要求10所述的非瞬时计算机可读存储介质，其中将数据集的记录划分成为至少两个组包括：

14.如权利要求10所述的非瞬时计算机可读存储介质，其中将数据集的记录划分成为至少两个组包括：

确定用于目标字段的均值或平均值，以及

15.如权利要求10所述的非瞬时计算机可读存储介质，其中将数据集的记录划分成为至少两个组包括：

选择目标记录的k个最近邻(KNN)记录。

16.如权利要求10所述的非瞬时计算机可读存储介质，其中预测所述缺失值包括：

基于第一类型的互相关数据生成第一线性函数；

基于第二类型的互相关数据生成第二线性函数；

使用双局部线性局部模型预测缺失值。

17.如权利要求10所述的非瞬时计算机可读存储介质，其中

第一类型的互相关数据基于定量数据；以及

第二类型的互相关数据基于定性数据。

18.如权利要求10所述的非瞬时计算机可读存储介质，其中从个人的健康记录(PHR)数据库中选择所述数据集。

19.一种包括处理器和非瞬时计算机可读介质的装置，所述装置包括：

值预测模块，被配置成：

从数据集中选择包括缺失值的目标记录；以及

将目标记录的缺失值设置为预测值；以及

模型生成模块，被配置成：

将数据集的记录划分成为包括互相关数据的至少两组，划分后的记录包括具有与目标记录中的缺失值相同字段的值的记录；以及

基于与划分后记录相关联的至少两个组中的每一个中的字段之间的关系来预测缺失值。

20.如权利要求19所述的装置，其中所述模型生成模块进一步被配置成：

基于第一类型的互相关数据生成第一线性函数；

基于第二类型的互相关数据生成第二线性函数；

使用双局部线性局部模型预测缺失值。