CN106844781B

CN106844781B - 数据处理的方法及装置

Info

Publication number: CN106844781B
Application number: CN201710142066.8A
Authority: CN
Inventors: 徐骄
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2017-03-10
Filing date: 2017-03-10
Publication date: 2020-04-21
Anticipated expiration: 2037-03-10
Also published as: CN106844781A

Abstract

本发明实施例公开了一种数据处理的方法及装置。该方法包括：获取数据样本；计算包括缺失值的数据样本的属性值与未包括缺失值的数据样本的属性值之间的相似度；根据所述相似度从所述未包括缺失值的数据样本中确定填充样本；根据所述缺失值在所述填充样本中对应的属性值确定填充值，并根据所述填充值更新所述包括缺失值的数据样本。本发明实施例通过采用上述技术方案，根据与缺失值所对应数据样本相似度较大的未包含缺失值的数据样本的属性值对缺失值进行填充，综合考虑缺失值的属性特点和分布特征，无需删除包含缺失值的数据样本，可以提高填充值的正确性与数据信息的有效性，提高缺失值的处理速度，减少处理缺失值所需的时间。

Description

数据处理的方法及装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种数据处理的方法及装置。

背景技术

近年来，随着信息处理技术的发展，大数据被越来越多的应用到了导航系统或城市规划等各个领域。

目前的大数据架构通常是以数据流为导向来进行数据处理的，即，首先从数据源获取数据并将获取到的数据进行存储，然后对数据进行预处理，再根据预处理后的数据进行数据建模、数据分析与数据挖掘，最后实现数据变现。由此可见，数据预处理是大数据结构中整个数据处理过程的基础，其质量与精准度可能会直接影响到后续环节中数据维度建模的指标定义、数据挖掘算法的选择或数据的准确性度量等，是数据处理过程的重要环节之一。

数据预处理的过程中通常会涉及到对数据中的缺失值进行处理，现有技术中，在对数据进行处理时一般会采用人工填写、删除含缺失值的记录数据(即删除法)、使用特殊字符(如NULL)填充、或者使用统计学上的均值或众数进行缺失值的填补等方法对数据中的缺失值进行处理。但是，当数据量较多或达到一定级别时，人工填写需耗费较多的时间与精力，无法满足数据流实时快速传输与处理的需求；删除含缺失值的记录数据、使用统一的特殊字符或者使用统计学上的均值或众数进行缺失值填充不具有针对性，会导致数据准精确性和有效性降低，由此可见，现有技术无法同时满足缺失值处理的高效率和高精度的要求。

发明内容

有鉴于此，本发明实施例提供一种数据处理的方法及装置，以解决现有技术中的数据处理方法无法同时满足缺失值处理的高效率和高精度的要求的技术问题。

第一方面，本发明实施例提供了一种数据处理的方法，包括：

获取数据样本；

计算包括缺失值的数据样本的属性值与未包括缺失值的数据样本的属性值之间的相似度；

根据所述相似度从所述未包括缺失值的数据样本中确定填充样本；

根据所述缺失值在所述填充样本中对应的属性值确定填充值，并根据所述填充值更新所述包括缺失值的数据样本。

第二方面，本发明实施例还提供了一种数据处理的装置，包括：

数据样本获取模块，用于获取数据样本；

相似度计算模块，用于计算包括缺失值的数据样本的属性值与未包括缺失值的数据样本的属性值之间的相似度；

填充样本确定模块，用于根据所述相似度从所述未包括缺失值的数据样本中确定填充样本；

填充值确定模块，用于根据所述缺失值在所述填充样本中对应的属性值确定填充值，并根据所述填充值更新所述包括缺失值的数据样本。

本发明实施例提供的数据处理的技术方案，获取数据样本，计算包括缺失值的数据样本的属性值与未包括缺失值的数据样本的属性值相似度，根据所得到的相似度从未包含缺失值的数据样本中确定填充样本，根据填充样本的属性值确定填充值并将填充值填充到缺失值位置处。本发明实施例通过采用上述技术方案，根据与缺失值所对应数据样本相似度较大的未包含缺失值的数据样本的属性值对缺失值进行填充，综合考虑缺失值的属性特点和分布特征，无需删除包含缺失值的数据样本，可以提高填充值的正确性与数据信息的有效性，提高缺失值的处理速度，减少处理缺失值所需的时间。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例一提供的一种数据处理的方法的流程示意图；

图2为本发明实施例二提供的一种数据处理的方法的流程示意图；

图3为本发明实施例三提供的一种数据处理的方法的流程示意图；

图4为本发明实施例四提供的一种数据处理的装置的结构框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

实施例一

本发明实施例一提供一种数据处理的方法。该方法可由数据处理的装置执行，其中该装置可以由硬件和/或软件实现，一般可集成在数据处理平台中。图1是本发明实施例一提供的数据处理的方法的流程示意图，如图1所示，该方法包括：

S101、获取数据样本。

本实施例中，数据样本可以是实体类数据样本，数据样本包括第一数据样本和第二数据样本，其中第一数据样本是包括缺失值的数据样本，第二数据样本是不包括缺失值的数据样本。

具体应用中，数据样本可以预先存储在与数据处理平台相对应的数据库中，在获取数据样本时，直接从数据样本的存储位置调用该数据样本即可；也可以实时从数据传输接口获取其他平台或数据库发送的数据样本并对数据样本中的缺失值进行处理，此处不作限制。

S102、计算包括缺失值的数据样本的属性值与未包括缺失值的数据样本的属性值之间的相似度。

在对数据样本中包含的缺失值进行处理时，可以以横向或纵向的顺序进行处理，即，可以以数据样本为单位进行处理，也可以以属性为单位进行处理。包含缺失值的数据样本和不包含缺失值的数据样本的具体定义可以根据处理方式的不同灵活设定，例如，可以将任意一个或多个属性值缺失的数据样本均定义为包含缺失值的数据样本，相应的，将不包含缺失值的数据样本定义为所有属性值均不缺失的数据样本；也可以在对数据样本某一个属性中包含的缺失值进行处理时，只将该属性的属性值缺失的数据样本定义为包含缺失值的数据样本，相应的，将不包含缺失值的数据样本定义为该属性的属性值不缺失的数据样本，或者将不包含缺失值的数据样本定义为该属性的属性值不缺失且该属性的相关属性值也不缺失的数据样本。

在此，需要指出的是，相关属性优选为与缺失值所对应属性的业务关联度较大且缺失率较小的属性。其中，某一属性的缺失率可以通过统计多个样本中该属性值缺失的概率获得；与某一属性的关度联较大的属性可以在数据创建时由开发商和/或运营商进行定义，也可以通过相应的计算规则进行计算获得，如可以计算当某一属性数值变化时其他各属性的属性值变化的概率从而得到与该属性业务关联度比较大的属性。相关属性的个数可以根据需要灵活设置，可选是，与缺失值对应属性的相关属性的个数可以设置为3-5个，从而在保证填充值准确性的前提下减少确定填充值所需的计算量。

本实施例中，包括缺失值的数据样本的属性值与未包括缺失值的数据样本的属性值之间的相似度可以是包括缺失值的数据样本除缺失值所对应属性外所有属性值与未包括缺失值的数据样本的相应属性值之间的相似度；也可以是包括缺失值的数据样本中与缺失值所对应属性的相关属性与未包括缺失值的数据样的相应属性值之间的相似度，此处不作限制。举例而言，假设某包括缺失值的数据样本x共有10个属性，缺失值所对应属性为属性A，属性A有4个相关属性：属性B、属性C、属性D和属性E，则，数据样本x与未包括缺失值的数据样本的属性值之间的相似度可以是数据样本x除属性A之外的其他9个属性值与未包括缺失值的数据样本相应的9个属性值之间的相似度，也可以是数据样本x的4个相关属性(属性B、属性C、属性D和属性E)与未包括缺失值的数据样本相应的4个属性(属性B、属性C、属性D和属性E)之间的相似度。

本实施例中，可选的，可以以属性为单位对数据样本中的缺失值进行处理。在对某属性中的缺失值进行处理时，可以直接对该属性中的每个缺失值同时或依次进行处理，也可以首先根据该属性中各缺失值对应的数据样本的其他属性值或相关属性值对该属性中的各缺失值进行分组，例如，可以将各缺失值对应的数据样本的其他属性值或相关属性值完全相同的缺失值分为同一组，然后分别计算各组缺失值对应的数据样本的属性值与未包括缺失值的数据样本的属性值之间的相似度。相应的，在对某一属性中的某一个或某一组缺失值进行处理时，可以将该缺失值或该组缺失值对应的数据样本定义为包括缺失值的数据样本，将该属性的属性值不缺失且该属性的相关属性值也不缺失的数据样本定义为未包括缺失值的数据样本，从而减少在对缺失值进行处理的过程中所需的计算量。

S103、根据所述相似度从所述未包括缺失值的数据样本中确定填充样本。

本实施例中，可以预先设定确定填充样本的相似度阈值，然后将大于或等于所设定的相似度阈值的未包含缺失值的数据样本确定为填充样本；也可以首先获取预先设定填充样本的个数(假设为N个)，然后将未包括缺失值的数据本按照与包含缺失值的数据样本的属性值之间的相似度由高到低进行排序，并获取与填充样本的个数相符的相似度排序前N的未包括缺失值的数据样本为填充样本，此处不作限制。

S104、根据所述缺失值在所述填充样本中对应的属性值确定填充值，并根据所述填充值更新所述包括缺失值的数据样本。

示例性的，在确定填充样本后，可以首先获取填充样本中与缺失值对应属性相同属性的属性值，然后计算各属性值的平均值，将平均值处理为与该属性相对应的数据类型以确定填充值，并将填充值填充到与填充样本对应的缺失值位置处，从而实现对包括该缺失值的数据样本的更新。例如，假设缺失值对应的属性为年龄属性，填充样本(假设为5个)中年龄属性的属性值分别为28岁、28岁、28岁、28岁、27岁，则首先可以计算出各属性值的平均值为27.8岁，而年龄属性的属性值为整数，据此，对所得到的平均值进行处理可以确定填充值为28岁，然后将填充值(28)填充到该缺失值位置处以实现对包含该缺失值的数据样本的更新。

本发明实施例一提供的数据处理的方法，获取数据样本，计算包括缺失值的数据样本的属性值与未包括缺失值的数据样本的属性值相似度，根据所到的相似度从未包含缺失值的数据样本中确定填充样本，根据填充样本的属性值确定填充值并将填充值填充到缺失值位置处。本发明实施例通过采用上述技术方案，根据与缺失值所对应数据样本相似度较大的未包含缺失值的数据样本的属性值对缺失值进行填充，综合考虑缺失值的属性特点和分布特征，无需删除包含缺失值的数据样本，可以提高填充值的正确性与数据信息的有效性，提高缺失值的处理速度，减少处理缺失值所需的时间，进而提高后续数据处理流程的准确性与整个数据处理过程的平均速度。

在上述实施例的基础上，在所述根据所述相似度从所述未包括缺失值的数据样本中确定填充样本之前，还包括：根据样本数确定规则确定填充所述缺失值所需的填充样本数。本实施例中，由于不同缺失值通常具有不同的属性和/或相关属性值，而不同属性的缺失值和/或与不同相关属性值所对应的缺失值所需的填充样本的个数通常是不同的，因此，可以预先设定确定填充样本个数的算法，在根据相似度确定填充样本之前，首先通过所设定的算法确定该缺失值所需要的填充样本的个数(假设为N个)，然后从按照相似度排序的未包括缺失值的数据样本中选择相似度排序前N的数据样本为填充样本，从而提高根据填充样本中对应的属性值所确定的用于填充缺失值的填充值的准确性。

实施例二

图2为本发明实施例二提供的一种数据处理的方法的流程示意图。本实施例在上述实施例的基础上进行优化，进一步地，在所述计算包括缺失值的数据样本的属性值与未包括缺失值的数据样本的属性值之间的相似度之前，还包括：根据缺失值对应属性获取所述数据样本各属性的初始化贡献度，所述各属性为所述缺失值对应属性的相关属性。

进一步地，所述相关属性以及所述缺失值对应属性的属性值均为连续型数值；相应的，所述计算包括缺失值的数据样本的属性值与未包括缺失值的数据样本的属性值之间的相似度，具体为：根据所述相关属性的初始化贡献度与欧氏距离公式计算包括缺失值的数据样本的相关属性值与未包括缺失值的数据样本的相关属性值之间的相似度。

进一步地，所述相关属性或所述缺失值对应属性的属性值为离散型数值；相应的，所述计算包括缺失值的数据样本的属性值与未包括缺失值的数据样本的属性值之间的相似度，包括：如果所述相关属性或所述缺失值对应属性的属性值包含连续型数值，则将所述连续型数值进行离散化处理；计算所述缺失值对应属性包含的各离散型数值在所述未包含缺失值的数据样本中的第一贡献度；获取相关属性值与所述缺失值的相关属性值相同的未包含缺失值的数据样本为所述相关属性的子样本，并计算所述缺失值对应属性包含的各离散型数值在所述相关属性的子样本中的第二贡献度；根据所述第一贡献度和所述第二贡献度生成所述缺失值的综合贡献度矩阵；根据所述综合贡献度矩阵与所述相关属性的初始化贡献度计算包括缺失值的数据样本的相关属性值与未包括缺失值的数据样本的相关属性值之间的相似度。

相应的，如图2所示，本实施例提供的数据处理的方法包括：

S201、获取数据样本。

S202、根据缺失值对应属性获取所述数据样本各属性的初始化贡献度，所述各属性为所述缺失值对应属性的相关属性。

本实施例中，初始化贡献度可用于描述各属性与缺失值所对应属性业务关联度的大小。对于某一属性而言，其他各相关属性的初始化贡献度可以由开发商和/或运营商预先进行设定，也可以通过其他各相关属性与该属性的业务关联度计算获得，如可以将某一相关属性的初始化贡献度设置为其与缺失值对应属性的业务关联度等。相应的，在获取数据样本各属性的初始化贡献度时，可以直接从相应的存储位置获取缺失值对应属性的各相关属性的初始化贡献度，也可以根据其他各相关属性与缺失值对应属性的业务关联度计算获得缺失值对应属性的各相关属性的初始化贡献度。

S203、如果所述相关属性以及所述缺失值对应属性的属性值均为连续型数值，则根据所述相关属性的初始化贡献度与欧氏距离公式计算包括缺失值的数据样本的相关属性值与未包括缺失值的数据样本的相关属性值之间的相似度，执行步骤S209。

示例性的，假设缺失值所对应属性为属性A，属性A有4个相关属性：属性B、属性C、属性D和属性E，各相关属性对于属性A的初始化贡献度分别为a、b、c、d，则包括缺失值的数据样本(假设其相关属性值分别为：A1、B1、C1、D1)与某一未包括缺失值的数据样本(假设其相关属性值分别为：A2、B2、C2、D2)的与缺失值对应属性的相关属性值之间的相似度为：

其中，m为包括缺失值的数据样本与该未包括缺失值的数据样本之间的相似度。在此需要指出的是，如果缺失值对应属性的各相关属性的取值范围存在较明显的区别，如相关属性分别为年龄和工资时，其取值之差在数值上存在较大的差别，如工资的属性值之差通常会远远大于年龄的属性值之差，则可以通过如下公式计算未包括缺失值的数据样本与包括缺失值的数据样本之间的相似度：

S204、如果所述相关属性或所述缺失值对应属性的属性值为离散型数值，则当所述相关属性或所述缺失值对应属性的属性值包含连续型数值，将所述连续型数值进行离散化处理。

相应的，如果缺失值对应属性的相关属性或缺失值对应属性的属性值均为离散型数值，则可以直接进行后续计算第一贡献度的操作。

示例性的，假设相关属性包括年龄属性，年龄属性中的属性值为连续型数值，则可以根据具体需求将其离散化为合适的年龄区间，如可以将其离散化为长度为2或长度为5的年龄区间等，此处不作限制。举例而言，假设某一数据样本的年龄值为28岁，则可以将其离散化为25-30岁。在此，需要指出的是，各属性离散化时的区间长度可以由开发商或运营商预先进行设置，某一属性可以具有一个或多个离散化时的区间长度，当对应多个离散化时的区间长度时，可以由开发商或运营商在设置各区间长度的同时根据该属性中各属性值的分布情况和/或其相关属性的分布情况设置各区间长度的调用条件，相应的，在对某属性中的连续型数值进行离散化处理时，可以首先确定该属性中各属性值的分布情况和/或其相关属性值的分布情况，并根据其各属性值的分布情况和/或其相关属性值的分布情况进行区间长度的选取，然后按照所选取的区间长度对该属性的属性值进行离散化处理。

以年龄属性为例，假设年龄属性对应1岁、2岁和5岁三个离散化区间长度，各离散化区间长度的调用条件为：如果各数据样本年龄分布的总长度为0-9岁，则离散化区间长度为1岁；如果各数据样本年龄分布的总长度为10-19岁，则离散化区间长度为2岁；如果各数据样本年龄分布的总长度大于或等于20岁，则离散化区间长度为5岁，此时，在对年龄值进行离散化处理时，可以首先计算年龄属性中年龄分布的总长度，然后判断该年龄分布的总长度所属的区间范围以确定与其对应的离散化区间长度，并按照该离散化区间长度对其进行离散化处理。

S205、计算所述缺失值对应属性包含的各离散型数值在所述未包含缺失值的数据样本中的第一贡献度。

本实施例中，某一离散型数值在未包含缺失值的数据样本中的第一贡献度可以是与缺失值对应属性的属性值为该离散型数值的未包含缺失值的数据样本在所有未包含缺失值的数据样本中所占的比例。以缺失值所对应属性为婚姻状况为例，婚姻状况属性所包含的离散型数值分别为未婚、已婚、离异和丧偶，在对某一数据样本中缺失的婚姻状态属性值进行处理时，假设未包含缺失值的数据样本共有10000个，其中，婚姻状况信息为未婚、已婚、离异和丧偶的数据样本个数分别为3000、5000、1500和500，则缺失值对应属性(婚姻状况)包含的各离散型数值(未婚、已婚、离异和丧偶)在未包含缺失值的数据样本中的第一贡献度(以S1表示)分别为：S1_未婚＝3000/10000＝0.3，S1_已婚＝5000/10000＝0.5，S1_离异＝1500/10000＝0.15，S1_丧偶＝500/10000＝0.05。

S206、获取相关属性值与所述缺失值的相关属性值相同的未包含缺失值的数据样本为所述相关属性的子样本，并计算所述缺失值对应属性包含的各离散型数值在所述相关属性的子样本中的第二贡献度。

以缺失值所对应属性为婚姻状况、相关属性为年龄为例，婚姻状况属性所包含的离散型数值分别为未婚、已婚、离异和丧偶，年龄属性所包含的离散型数值为区间长度为5的离散型数值，即，其各离散型属性值分别为：[20,25)，[25,30)，[30,35)，[35,40)等，假设缺失值所对应数据样本的相关属性值为28岁，即与其对应的离散型属性值为[25,30)，在10000个数据样本中，相关属性值与缺失值的相关属性值相同(即，年龄属性值为[25,30))的相关属性的子样本共有2000个，其中，婚姻状况信息为未婚、已婚、离异和丧偶的数据样本个数分别为1100、700、150和50，则缺失值对应属性(婚姻状况)包含的各离散型数值(未婚、已婚、离异和丧偶)在相关属性(年龄)的子样本中的第二贡献度(以S2表示)分别为：S2_未婚＝1100/2000＝0.55，S2_已婚＝700/2000＝0.35，S2_离异＝150/2000＝0.075，S2_丧偶＝50/2000＝0.025。

S207、根据所述第一贡献度和所述第二贡献度生成所述缺失值的综合贡献度矩阵。

本实施例中，综合贡献度矩阵可以综合考虑缺失值对应属性的各属性值在所有数据样本中的分布情况以及缺失值对应属性的各属性值在相关属性子样本中的分布情况。缺失值的综合贡献度矩阵可以通过第一贡献度与第二贡献度相乘获得。以缺失值所对应属性为婚姻状况、相关属性为年龄为例，婚姻状况属性所包含的离散型数值分别为未婚、已婚、离异和丧偶，年龄属性所包含的离散型数值为区间长度为5的离散型数值，即，其各离散型属性值分别为：[20,25)，[25,30)，[30,35)，[35,40)等，假设缺失值对应属性(婚姻状况)包含的各离散型数值(未婚、已婚、离异和丧偶)在未包含缺失值的数据样本中的第一贡献度分别为S1_未婚＝0.3、S1_已婚＝0.5、S1_离异＝0.15、S1_丧偶＝0.05，缺失值对应属性(婚姻状况)包含的各离散型数值(未婚、已婚、离异和丧偶)在相关属性(年龄)的子样本中的第二贡献度分别为：S2_未婚＝0.55，S2_已婚＝0.35，S2_离异＝0.075，S2_丧偶＝0.025，则缺失值对应属性(婚姻状况)包含的各离散型数值(未婚、已婚、离异和丧偶)的综合贡献度分别为：

S_未婚＝S1_未婚×S2_未婚＝0.3×0.55＝0.165，

S_已婚＝S1_已婚×S2_已婚＝0.5×0.35＝0.175，

S_离异＝S1_离异×S2_离异＝0.15×0.57＝0.1125，

S_丧偶＝S1_丧偶×S2_丧偶＝0.05×0.025＝0.00125，

即，该缺失值的综合贡献度矩阵为[0.165,0.175,0.1125,0.00125]。

S208、根据所述综合贡献度矩阵与所述相关属性的初始化贡献度计算包括缺失值的数据样本的相关属性值与未包括缺失值的数据样本的相关属性值之间的相似度。

本实施例中，如果缺失值对应属性只有一个相关属性，则在计算各未包括缺失值的数据样本的相关属性与包括缺失值的数据样本的相关属性之间的相似度时，可以考虑或不考虑该相关属性的初始化贡献度，即，可以直接通过该相关属性的综合贡献度矩阵计算未包括缺失值的数据样本与包括缺失值的数据样本之间的相似度，也可以通过该相关属性的综合贡献度矩阵与该相关属性的初始化贡献度计算包括未缺失值的数据样本与包括缺失值的数据样本之间的相似度。考虑到计算方法的统一性，优选的，可以通过该相关属性的综合贡献度矩阵与该相关属性的初始化贡献度计算包括未缺失值的数据样本与包括缺失值的数据样本之间的相似度。例如，在计算某一未包括缺失值的数据样本与包括缺失值的数据样本之间的相似度时，可以首先确定该未包括缺失值的数据样本的相关属性的属性值，并通过与缺失值对应的综合贡献度矩阵确定该属性值的综合贡献度，然后将该相关属性的初始化贡献度与该综合贡献度相乘得到该未包括缺失值的数据样本与包括缺失值的数据样本之间的相似度。以缺失值所对应属性为婚姻状况、相关属性为年龄为例，假设缺失值年龄属性的综合贡献度矩阵为[0.165,0.175,0.1125,0.00125]，年龄属性的初始化贡献度为0.3，未包括缺失值的数据样本的婚姻状况值为未婚，如果该未包括缺失值的数据样本的年龄属性值与缺失值对应数据样本的年龄属性值相同，则其与缺失值对应数据样本的相似度为：m＝S_未婚×0.3＝0.165×0.3＝0.0495；如果该未包括缺失值的数据样本的年龄属性值与缺失值对应数据样本的年龄属性值不相同，则其与缺失值对应数据样本的相似度为0。

如果缺失值对应属性具有多个相关属性，则可以通过各相关属性的综合贡献度矩阵与各相关属性的初始化贡献度计算未包括缺失值的数据样本与包括缺失值的数据样本之间的相似度。例如，在计算某一未包括缺失值的数据样本与包括缺失值的数据样本之间的相似度时，可以首先根据各相关属性的综合贡献度矩阵与各相关属性的初始化贡献度计算与各相关属性对应的相似度因子，然后将各相似度因子相加得到该未包括缺失值的数据样本与包括缺失值的数据样本之间的相似度。以缺失值所对应属性为婚姻状况、相关属性为年龄和学历为例，假设缺失值年龄属性的综合贡献度矩阵为[0.165,0.175,0.1125,0.00125]，年龄属性的初始化贡献度为0.3，缺失值学历属性的综合贡献度矩阵为[0.215,0.165,0.0075,0.00025]，学历属性的初始化贡献度为0.2，未包括缺失值的数据样本的婚姻状况属性值为未婚，如果该未包括缺失值的数据样本的年龄属性值与缺失值对应数据样本的年龄属性值和学历属性值均相同，则其与缺失值对应数据样本的年龄相似度因子为m1＝S_{年龄，未婚}×0.3＝0.165×0.3＝0.0495，其与缺失值对应数据样本的学历相似度因子为m2＝S_{学历，未婚}×0.2＝0.215×0.2＝0.0430，从而可以得出，该未包括缺失值的数据样本与包括缺失值的数据样本之间的相似度为m＝m1+m2＝0.0495+0.0430＝0.0925。

S209、根据所述相似度从所述未包括缺失值的数据样本中确定填充样本。

S210、根据所述缺失值在所述填充样本中对应的属性值确定填充值，并根据所述填充值更新所述包括缺失值的数据样本。

本发明实施例二提供的数据处理的方法，当缺失值对应属性的属性值与缺失值对应属性的相关属性的属性值均为连续型数值时，根据各相关属性的初始化贡献度和欧氏距离公式计算各未包括缺失值的数据样本与包括缺失值的数据样本之间的相似度；当缺失值对应属性的属性值或缺失值对应属性的相关属性的属性值包含离散型数值时，根据缺失值对应属性包含的各离散型数值在未包含缺失值的数据样本中的第一贡献度、在各相关属性子样本中的第二贡献度以及各相关属性的初始化贡献度计算各未包括缺失值的数据样本与包括缺失值的数据样本之间的相似度。本实施例通过采用上述技术方案，对缺失值对应属性的属性值以及缺失值对应属性的相关属性值所属数据类型不同的缺失值采取不同的方法计算各未包括缺失值的数据样本与包括缺失值的数据样本之间的相似度，可以提高计算得到的相似度的准确性，从而提高根据相似度确定的填充样本，提高填充值的正确性与数据信息的有效性，提高缺失值的处理速度，减少处理缺失值所需的时间，进而提高后续数据处理流程的准确性与数据处理过程的整体平均速度。

实施例三

图3为本发明实施例三提供的一种数据处理的方法的流程示意图。本实施例在上述实施例的基础上进行优化，进一步地，所述根据样本数确定规则确定填充所述缺失值所需的填充样本数，包括：根据缺失值对应属性的非缺失率和未包括缺失值的数据样本的数量确定填充所述缺失值所需的第一样本数；根据缺失值对应属性的相关属性的贡献率和所述未包括缺失值的数据样本的数量确定填充所述缺失值所需的第二样本数；根据所述第一样本数与所述第二样本数确定填充所述缺失值所需的填充样本数。

相应的，如图3所示，本实施例提供的数据处理的方法包括：

S301、获取数据样本。

S302、计算包括缺失值的数据样本的属性值与未包括缺失值的数据样本的属性值之间的相似度。

S303、根据缺失值对应属性的非缺失率和未包括缺失值的数据样本的数量确定填充所述缺失值所需的第一样本数。

示例性的，可以通过公式N1＝(1-Rnm)×S计算填充某一缺失值所需的第一样本数，其中，N1位填充该缺失值所需的第一样本数，Rnm为该缺失值所对应属性的非缺失率，S为未包括缺失值的数据样本的数量。例如，假设某一缺失值对应属性为婚姻状况属性，在10000个数据样本中有2000个数据样本的年龄属性缺失，则该缺失值对应属性的非缺失率Rnm＝(10000-2000)/10000＝0.8，未包括缺失值的数据样本的数量为S＝10000-2000＝8000，填充该缺失值所需的第一样本数N1＝(1-Rnm)×S＝(1-0.8)×8000＝1600。

S304、根据缺失值对应属性的相关属性的贡献率和所述未包括缺失值的数据样本的数量确定填充所述缺失值所需的第二样本数。

本实施例中，在确定填充某一缺失值所需的第二样本数时，可以首先根据缺失值对应属性的初始化贡献度或综合贡献度矩阵确定该缺失值各相关属性的子贡献率，然后根据各相关属性的子贡献率计算得到该缺失值对应属性的相关属性的贡献率，并根据计算得到的相关属性的贡献率和未包括缺失值的数据样本的数量确定填充该缺失值所需的第二样本数。其中，相关属性的贡献率可以为各相关属性子贡献率的平均值；第二样本数可以为相关属性的贡献率与未包括缺失值的数据样本的数量的乘积。

示例性的，如果所述相关属性以及所述缺失值对应属性的属性值均为连续型数值，则各相关属性的子贡献率可以为各相关属性的初始化贡献度。例如，如果工资属性的初始化贡献度为0.1，则工资属性的子贡献率即为0.1。

如果所述相关属性或所述缺失值对应属性的属性值为离散型数值，则其某一相关属性的子贡献率可以为缺失值所对应属性的各离散型数值在该相关属性的子样本中所占比例与相应综合贡献度的乘积之和，其中，相关属性的子样本中的数据样本为相关属性值与缺失值的相关属性值相同的未包含缺失值的数据样本。以缺失值所对应属性为婚姻状况、相关属性为年龄为例，假设缺失值所对应数据样本的相关属性值为28岁，即与其对应的离散型属性值为[25,30)，该缺失值年龄属性的综合贡献度矩阵为[0.165,0.175,0.1125,0.00125]，在10000个数据样本中，相关属性值与缺失值的相关属性值相同(即，年龄属性值为[25,30))的相关属性的子样本共有2000个，其中，婚姻状况信息为未婚、已婚、离异和丧偶的数据样本个数分别为1100、700、150和50，则缺失值对应属性(婚姻状况)包含的各离散型数值(未婚、已婚、离异和丧偶)在相关属性(年龄)的子样本中所占的比例(以Q表示)分别为：Q_未婚＝1100/2000＝0.55，Q_已婚＝700/2000＝0.35，Q_离异＝150/2000＝0.075，Q_丧偶＝50/2000＝0.025，由此可以得出，该缺失值年龄属性的子贡献率为：

Rr_年龄＝Q_未婚×S_未婚+Q_已婚×S_已婚+Q_离异×S_离异+Q_丧偶×S_丧偶

＝0.55×0.165+0.35×0.175+0.075×0.1125+0.025×0.00125≈0.16

举例而言，假设某一缺失值对应属性为婚姻状况属性，其相关属性为年龄和学历，年龄属性的子贡献率Rr_年龄＝0.16，学历属性的子贡献率Rr_学历＝0.14，未包含缺失值的数据样本的个数为S＝8000，则该缺失值相关属性的贡献率为：Rr＝(Rr_年龄+Rr_学历)/2＝(0.16+0.14)/2＝0.15，由此可以得出，填充该缺失值所需的第二样本数N2＝Rr×S＝0.15×8000＝1200。

S305、根据所述第一样本数与所述第二样本数确定填充所述缺失值所需的填充样本数。

示例性的，在确定某一缺失值所需的填充样本数时，可以首先比较第一样本数和第二样本数的大小，然后选取第一样本数与第二样本数中较大的数值作为填充该缺失值所需的填充样本数。例如，假设第一样本数N1＝1600，第二样本数N2＝1200，则填充该缺失值所需的填充样本数N＝max(N1,N2)＝N1＝1600。

S306、根据所述相似度从所述未包括缺失值的数据样本中确定填充样本。

具体的，在确定填充样本时，可以按照相似度由高到底选取与填充样本数相等数量的数据样本为填充样本。

S307、根据所述缺失值在所述填充样本中对应的属性值确定填充值，并根据所述填充值更新所述包括缺失值的数据样本。

本发明实施例三提供的数据处理的方法，根据缺失值对应属性的缺失率、缺失值对应属性的相关属性的贡献率以及未包括缺失值的数据样本的数量确定填充该缺失值所需的填充样本数，可以为不同的属性的缺失值或同一属性的不同缺失值确定不同的填充样本数，提高根据填充样本所确定的填充值的正确性与数据信息的有效性，提高缺失值的处理速度，减少处理缺失值所需的时间，进而提高后续数据处理流程的准确性与数据处理过程的整体平均速度。

实施例四

本发明实施例四提供一种数据处理的装置。该装置可以由硬件和/或软件实现，一般可集成在数据处理平台中，可通过执行数据处理的方法对数据进行处理。图4所示为本发明实施例四提供的数据处理的装置的结构框图，如图4所示，该装置包括：

数据样本获取模块401，用于获取数据样本；

相似度计算模块402，用于计算包括缺失值的数据样本的属性值与未包括缺失值的数据样本的属性值之间的相似度；

填充样本确定模块403，用于根据所述相似度从所述未包括缺失值的数据样本中确定填充样本；

填充值确定模块404，用于根据所述缺失值在所述填充样本中对应的属性值确定填充值，并根据所述填充值更新所述包括缺失值的数据样本。

本发明实施例四提供的数据处理的装置，通过数据样本获取模块获取数据样本，通过相似度计算模块计算包括缺失值的数据样本的属性值与未包括缺失值的数据样本的属性值相似度，通过填充样本确定模块根据所得到的相似度从未包含缺失值的数据样本中确定填充样本，通过填充值确定模块根据填充样本的属性值确定填充值并将填充值填充到缺失值位置处。本发明实施例通过采用上述技术方案，根据与缺失值所对应数据样本相似度较大的未包含缺失值的数据样本的属性值对缺失值进行填充，综合考虑缺失值的属性特点和分布特征，无需删除包含缺失值的数据样本，可以提高填充值的正确性与数据信息的有效性，提高缺失值的处理速度，减少处理缺失值所需的时间，进而提高后续数据处理流程的准确性与整个数据处理过程的平均速度。

进一步地，本实施例提供的数据处理的装置还可以包括：初始化贡献度获取模块，用于在所述计算包括缺失值的数据样本的属性值与未包括缺失值的数据样本的属性值之间的相似度之前，根据缺失值对应属性获取所述数据样本各属性的初始化贡献度，所述各属性为所述缺失值对应属性的相关属性。

进一步地，所述相关属性以及所述缺失值对应属性的属性值均为连续型数值；相应的，所述相似度计算模块402可具体用于：根据所述相关属性的初始化贡献度与欧氏距离公式计算包括缺失值的数据样本的相关属性值与未包括缺失值的数据样本的相关属性值之间的相似度。

进一步地，所述相关属性或所述缺失值对应属性的属性值为离散型数值；相应的，所述相似度计算模块402可包括：离散化处理单元，用于如果所述相关属性或所述缺失值对应属性的属性值包含连续型数值，则将所述连续型数值进行离散化处理；第一贡献度计算单元，用于计算所述缺失值对应属性包含的各离散型数值在所述未包含缺失值的数据样本中的第一贡献度；第二贡献度计算单元，用于获取相关属性值与所述缺失值的相关属性值相同的未包含缺失值的数据样本为所述相关属性的子样本，并计算所述缺失值对应属性包含的各离散型数值在所述相关属性的子样本中的第二贡献度；综合贡献度矩阵生成单元，用于根据所述第一贡献度和所述第二贡献度生成所述缺失值的综合贡献度矩阵；相似度计算单元，用于根据所述综合贡献度矩阵与所述相关属性的初始化贡献度计算包括缺失值的数据样本的相关属性值与未包括缺失值的数据样本的相关属性值之间的相似度。

进一步地，本实施例提供的数据处理的装置还可以包括：填充样本数确定模块，用于在所述根据所述相似度从所述未包括缺失值的数据样本中确定填充样本之前，根据样本数确定规则确定填充所述缺失值所需的填充样本数。

进一步地，所述填充样本数确定模块包括：第一样本数确定单元，用于根据缺失值对应属性的非缺失率和未包括缺失值的数据样本的数量确定填充所述缺失值所需的第一样本数；第二样本数确定单元，用于根据缺失值对应属性的相关属性的贡献率和所述未包括缺失值的数据样本的数量确定填充所述缺失值所需的第二样本数；填充样本数确定单元，用于根据所述第一样本数与所述第二样本数确定填充所述缺失值所需的填充样本数。

本实施例提供的数据处理的装置可执行本发明任意实施例所提供的数据处理的方法，具备执行数据处理的方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的数据处理的方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种数据处理的方法，其特征在于，包括：

获取数据样本；

根据所述缺失值在所述填充样本中对应的属性值确定填充值，并根据所述填充值更新所述包括缺失值的数据样本；

其中，在所述根据所述相似度从所述未包括缺失值的数据样本中确定填充样本之前，还包括：

根据缺失值对应属性的非缺失率和未包括缺失值的数据样本的数量确定填充所述缺失值所需的第一样本数；

根据缺失值对应属性的相关属性的贡献率和所述未包括缺失值的数据样本的数量确定填充所述缺失值所需的第二样本数；

根据所述第一样本数与所述第二样本数确定填充所述缺失值所需的填充样本数。

2.根据权利要求1所述的方法，其特征在于，在所述计算包括缺失值的数据样本的属性值与未包括缺失值的数据样本的属性值之间的相似度之前，还包括：

根据缺失值对应属性获取所述数据样本各属性的初始化贡献度，所述各属性为所述缺失值对应属性的相关属性。

3.根据权利要求2所述的方法，其特征在于，所述相关属性以及所述缺失值对应属性的属性值均为连续型数值；

相应的，所述计算包括缺失值的数据样本的属性值与未包括缺失值的数据样本的属性值之间的相似度，具体为：

根据所述相关属性的初始化贡献度与欧氏距离公式计算包括缺失值的数据样本的相关属性值与未包括缺失值的数据样本的相关属性值之间的相似度。

4.根据权利要求2所述的方法，其特征在于，所述相关属性或所述缺失值对应属性的属性值为离散型数值；

相应的，所述计算包括缺失值的数据样本的属性值与未包括缺失值的数据样本的属性值之间的相似度，包括：

如果所述相关属性或所述缺失值对应属性的属性值包含连续型数值，则将所述连续型数值进行离散化处理；

计算所述缺失值对应属性包含的各离散型数值在所述未包括缺失值的数据样本中的第一贡献度；

获取相关属性值与所述缺失值的相关属性值相同的未包括缺失值的数据样本为所述相关属性的子样本，并计算所述缺失值对应属性包含的各离散型数值在所述相关属性的子样本中的第二贡献度；

根据所述第一贡献度和所述第二贡献度生成所述缺失值的综合贡献度矩阵；

根据所述综合贡献度矩阵与所述相关属性的初始化贡献度计算包括缺失值的数据样本的相关属性值与未包括缺失值的数据样本的相关属性值之间的相似度。

5.一种数据处理的装置，其特征在于，包括：

数据样本获取模块，用于获取数据样本；

填充值确定模块，用于根据所述缺失值在所述填充样本中对应的属性值确定填充值，并根据所述填充值更新所述包括缺失值的数据样本；

填充样本数确定模块，用于在所述根据所述相似度从所述未包括缺失值的数据样本中确定填充样本之前，根据样本数确定规则确定填充所述缺失值所需的填充样本数；

其中，所述填充样本数确定模块包括：

第一样本数确定单元，用于根据缺失值对应属性的非缺失率和未包括缺失值的数据样本的数量确定填充所述缺失值所需的第一样本数；

第二样本数确定单元，用于根据缺失值对应属性的相关属性的贡献率和所述未包括缺失值的数据样本的数量确定填充所述缺失值所需的第二样本数；

填充样本数确定单元，用于根据所述第一样本数与所述第二样本数确定填充所述缺失值所需的填充样本数。

6.根据权利要求5所述的装置，其特征在于，还包括：

初始化贡献度获取模块，用于在所述计算包括缺失值的数据样本的属性值与未包括缺失值的数据样本的属性值之间的相似度之前，根据缺失值对应属性获取所述数据样本各属性的初始化贡献度，所述各属性为所述缺失值对应属性的相关属性。

7.根据权利要求6所述的装置，其特征在于，当所述相关属性以及所述缺失值对应属性的属性值均为连续型数值是，所述相似度计算模块具体用于：

根据所述相关属性的初始化贡献度与欧氏距离公式计算包括缺失值的数据样本的相关属性值与未包括缺失值的数据样本的相关属性值之间的相似度；

当所述相关属性或所述缺失值对应属性的属性值为离散型数值时，所述相似度计算模块包括：

离散化处理单元，用于如果所述相关属性或所述缺失值对应属性的属性值包含连续型数值，则将所述连续型数值进行离散化处理；

第一贡献度计算单元，用于计算所述缺失值对应属性包含的各离散型数值在所述未包括缺失值的数据样本中的第一贡献度；

第二贡献度计算单元，用于获取相关属性值与所述缺失值的相关属性值相同的未包括缺失值的数据样本为所述相关属性的子样本，并计算所述缺失值对应属性包含的各离散型数值在所述相关属性的子样本中的第二贡献度；

综合贡献度矩阵生成单元，用于根据所述第一贡献度和所述第二贡献度生成所述缺失值的综合贡献度矩阵；

相似度计算单元，用于根据所述综合贡献度矩阵与所述相关属性的初始化贡献度计算包括缺失值的数据样本的相关属性值与未包括缺失值的数据样本的相关属性值之间的相似度。