CN109739839A

CN109739839A - 数据空值处理方法、装置及终端设备

Info

Publication number: CN109739839A
Application number: CN201811503839.1A
Authority: CN
Inventors: 吴又奎; 高健强; 褚杰
Original assignee: Zhongke Hengyun Co Ltd
Current assignee: Zhongke Hengyun Co Ltd
Priority date: 2018-12-10
Filing date: 2018-12-10
Publication date: 2019-05-10

Abstract

本发明适用于数据处理技术领域，提供了一种数据空值处理方法、装置及终端设备，所述方法包括：对预处理数据进行空值检测；若所述预处理数据中存在空值，则从所述预处理数据中获取第一空值的所有属性值所属的样本作为备选样本，所述第一空值为所述预处理数据中的任一空值；计算各个备选样本与所述第一空值的相似度，并将相似度最高的备选样本作为最终填补值填补所述第一空值。本发明通过获取第一空值的所有属性值，并从所有属性值中选择最佳的值来填充第一空值，从而排除一些无用的数据，提高空值填充的准确性。

Description

数据空值处理方法、装置及终端设备

技术领域

本发明属于数据处理技术领域，尤其涉及一种数据空值处理方法、装置及终端设备。

背景技术

在现实中，由于操作问题、仪器问题、系统问题等原因，在数据中普遍存在空缺数据情况。

目前，国内外已提出很多有关缺失值填充的方法。尽管这些方法在各自的应用环境下得到了很好的效果，但仍然存在一些不足，传统的空值处理方法不能有效利用空值中所蕴含的信息，引用一些无用的数据，导致空值处理准确性差的问题。

发明内容

有鉴于此，本发明实施例提供了一种数据空值处理方法、装置及终端设备，以解决现有技术中在空值处理时因引用无用数据而导致的空值填充准确性差的问题。

本发明实施例的第一方面提供了一种数据空值处理方法，包括：

对预处理数据进行空值检测；

若所述预处理数据中存在空值，则从所述预处理数据中获取第一空值的所有属性值所属的样本作为备选样本，所述第一空值为所述预处理数据中的任一空值；

计算各个备选样本与所述第一空值的相似度，并将相似度最高的备选样本作为最终填补值填补所述第一空值。

本发明实施例的第二方面提供了一种数据空值处理装置，包括：

空值检测模块，用于对预处理数据进行空值检测；

备选样本获取模块，用于若所述预处理数据中存在空值，则从所述预处理数据中获取第一空值的所有属性值所属的样本作为备选样本，所述第一空值为所述预处理数据中的任一空值；

空值填充模块，用于计算各个备选样本与所述第一空值的相似度，并将相似度最高的备选样本作为最终填补值填补所述第一空值。

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述数据空值处理方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上所述数据空值处理方法的步骤。

本发明实施例与现有技术相比存在的有益效果是：本发明提供的数据空值处理方法首先对预处理数据进行空值检测；若所述预处理数据中存在空值，则从所述预处理数据中获取第一空值的所有属性值所属的样本作为备选样本，所述第一空值为所述预处理数据中的任一空值；计算各个备选样本与所述第一空值的相似度，并将相似度最高的备选样本作为最终填补值填补所述第一空值。本发明通过获取第一空值的所有属性值，并从所有属性值中选择最佳的值来填充第一空值，从而排除一些无用的数据，提高空值填充的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的数据空值处理方法的实现流程示意图；

图2是本发明实施例提供的图1中S102的具体实现流程示意图；

图3是本发明实施例提供的图1中S103的具体实现流程示意图；

图4是本发明实施例提供的数据空值处理装置的结构示意图；

图5是本发明实施例提供的终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

本发明的说明书和权利要求书及上述附图中的术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含一系列步骤或单元的过程、方法或系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，术语“第一”、“第二”和“第三”等是用于区别不同对象，而非用于描述特定顺序。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例1：

图1示出了本发明的一个实施例提供的一种数据空值处理方法的实现流程，其过程详述如下：

S101：对预处理数据进行空值检测；

在本实施例中，可以从数据源中抽取原始数据，并对原始数据进行预处理。然后对预处理数据进行空值检测，检测预处理数据中是否存在空值。

S102：若所述预处理数据中存在空值，则从所述预处理数据中获取第一空值的所有属性值所属的样本作为备选样本，所述第一空值为所述预处理数据中的任一空值。

在本实施例中，若所述预处理数据中存在空值，则获取所述第一空值的所有可能的属性值。

在本实施例中，预处理数据存储于数据表中，预处理数据的各个样本包括多个属性，例如，一个班级成绩表包括多个学生样本，每个学生样本包括姓名、年龄、班级和成绩四个属性，若学生甲的成绩的属性值缺失，则可获取所有成绩的可能的属性值，例如其他学生成绩的值，当选取的为其他学生成绩的值时，可以将选取的其他学生数据作为备选样本，进行后续计算。

S103：计算各个备选样本与所述第一空值的相似度，并将相似度最高的备选样本作为最终填补值填补所述第一空值。

在本实施例中，当预处理数据中存在空值时，则获取第一空值的所有属性值，并将所有属性值的样本作为备选样本，然后从备选样本中选取最佳的样本的属性值作为最终填充值填充第一空值。

从上述实施例可知，本发明提供的数据空值处理方法首先对预处理数据进行空值检测；若所述预处理数据中存在空值，则从所述预处理数据中获取第一空值的所有属性值所属的样本作为备选样本，所述第一空值为所述预处理数据中的任一空值；计算各个备选样本与所述第一空值的相似度，并将相似度最高的备选样本作为最终填补值填补所述第一空值。本发明通过获取第一空值的所有属性值，并从所有属性值中选择最佳的值来填充第一空值，从而排除一些无用的数据，提高空值填充的准确性。

在本发明的一个实施例中，在图1中的S101之前，本发明实施例提供的方法还包括：

从数据源中采集原始数据，并对所述原始数据进行预处理，得到预处理数据。

在本实施例中，从数据源中采集原始数据后，需对所述原始数据进行数据转换及数据清洗处理，得到预处理数据。得到预处理数据的过程具体包括抽取、转换、清洗三个环节，其获取过程详述如下：

1)抽取：数据抽取是从不同的网络、不同的操作系统、不同的数据库以及数据格式、不同的应用中抽取数据的过程。此处的数据不仅是指关系数据库中的数据，还涉及到半结构化的数据和非结构化的数据。

对于半结构化数据，可以采用混合表示法对数据及数据模式进行建模，它包括一个概念层次图和一套知识框架，使用基于内容以及结构框架的方法对数据进行抽取。

对于非结构化的数据，可以采用模糊匹配方法识别表格中的直线行上的字段；针对于手写汉字文件的数据，采用基于引力的算法以有效识别并抽取表格中的汉字。

2)转换：由于抽取的数据存在格式不一致的情况，因此，需要对数据的名称和格式进行统一，通过数据粒度转换、商务规则计算和统一命名、数据格式和计量单位，并且，数据仓库中存在数据库中可能不存在的数据，因此，需要进行字段组合、分割和计算，从而完成数据的转换处理。

3)转换：在对原始数据完成数据转换得到第一处理数据后，需要对第一处理数据进行数据清洗，由于从操作系统中获取的第一处理数据可能存在许多问题，容易造成脏数据，因此，需要对第一处理数据进行清洗。

数据清洗的过程如下：

首先将第一处理数据缓存在缓存数据库中，然后根据预置的清洗规则对第一处理数据进行清洗，当第一处理数据清洗完成时，对清洗后的数据进行评价检测，当检测出清洗后的数据存在错误或产生丢失数据时，从缓存数据库中重新获取第一处理数据，并重新进行清洗，若多次检测清洗后的数据存在错误，用户可以对清洗规则进行修改和设置，从而提高数据清洗力度。

空值检测为数据清洗中的一个环节，通过空值检测完善数据中缺失的数据。

在完成数据清洗后，将清洗完成的第一处理数据按照物理数据模型定义的表机构装入目标数据库中，并允许人工干预，以及提供强大的错误报告。系统日志、数据备份与恢复功能。

在本发明的一个实施例中，在S102之后，本发明提供的数据空值处理方法还包括：对各个备选样本进行属性约简处理。

在本发明的一个实施例中，为了解决高维数据计算的复杂性和准确性问题。消除冗余和不相关属性对计算过程和最终结果造成的影响，对获取到的备选样本的属性进行属性约简，从而降低计算复杂程度，减少计算时间。

属性约简又称维规约或特征选择，从数学的角度考虑，就是有p维数据x＝(x₁,x₂……x_p)，通过某种方法，得到新的数据x'＝(x'₁，x'₂……x'_k),k≤p,新的数据在某种评判标准下，最大限度地保留原始数据的特征，通过属性约简可以降低各个备选样本的维度，从而简化计算，减少计算时间。

如图2所示，在本发明的一个实施例中，图2示出了图1中S102的具体实现流程，其过程详述如下：

S201：从所述预处理数据中获取与所述第一空值的决策属性相同的样本作为初始样本；

S202：备选样本获取单元，用于从所述初始样本中获取所述备选样本，所述备选样本为所述第一空值的所有属性值对应的样本。

在本实施例中，决策属性为确定样本分类结果的属性，例如，在学生成绩表中，根据学生的成绩可将样本分为成绩优的学生数据，成绩合格的学生数据和成绩不合格的学生数据，，则决策属性即为优、合格和差，若第一空值所属的样本的决策属性为优，则只选取优对应的样本数据作为第一数据。

在本实施例中，预处理数据中包括一些与第一空值的决策属性值不同的样本，这些样本对于空值填充是无用的，因此，可以只获取预处理数据中与第一空值的决策属性值相同的样本作为初始样本，从而删除大量无用的数据，减少运算量。

如图3所示，在本发明的一个实施例中，图3示出了图1中S103的具体实现流程，其过程详述如下：

S301：获取各个备选样本的空间坐标；

S302：根据各个备选样本的空间坐标及所述第一空值的空间坐标，计算各个备选样本与所述第一空值的欧式距离，作为各个备选样本的相对距离；

在本实施例中，假设数据X中存在空值，预处理数据中的一个样本的空间坐标为Y＝(y₁,y₂,y₃,.....y_n)，则可以通过计算X和Y的欧式距离来判断Y与X的相似度，将预处理数据中各个样本求与X求欧式距离，得到各个样本对应的相对距离。

S303：根据各个备选样本的相对距离，确定各个备选样本与第一空值的相似度；

在本实施例中，备选样本和第一空值的相似度与备选样本的相对距离呈正比，相对距离越近的备选样本与第一空值的相似度越高。

S304：将相似度最高的备选样本作为最终填补值填补所述第一空值。

在本实施例中，获取相似度最高的备选样本的属性值作为最终填补值填补所述第一空值，从而使空值填充的准确性更高。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

实施例2：

如图4所示，本发明的一个实施例提供的数据空值处理装置100，用于执行图1所对应的实施例中的方法步骤，其包括：

空值检测模块110，用于对预处理数据进行空值检测；

备选样本获取模块120，用于若所述预处理数据中存在空值，则从所述预处理数据中获取第一空值的所有属性值所属的样本作为备选样本，所述第一空值为所述预处理数据中的任一空值；

空值填充模块130，用于计算各个备选样本与所述第一空值的相似度，并将相似度最高的备选样本作为最终填补值填补所述第一空值。

在本发明的一个实施例中，数据空值处理装置100还包括：

预处理数据获取模块，用于从数据源中采集原始数据，并对所述原始数据进行预处理，得到预处理数据。

在本发明的一个实施例中，数据空值处理装置100还包括：

属性约简模块，用于对各个备选样本进行属性约简处理。

在本发明的一个实施例中，图4中备选样本获取模块120包括：

初始样本获取单元，用于从所述预处理数据中获取与所述第一空值的决策属性相同的样本作为初始样本；

备选样本获取单元，用于从所述初始样本中获取所述备选样本，所述备选样本为所述第一空值的所有属性值对应的样本。

在本发明的一个实施例中，图4中的空值填充模块130包括：

空间坐标获取单元，用于获取各个备选样本的空间坐标；

相对距离计算单元，用于根据各个备选样本的空间坐标及所述第一空值的空间坐标，计算各个备选样本与所述第一空值的欧式距离，作为各个备选样本的相对距离；

相似度确认单元，用于根据各个备选样本的相对距离，确定各个备选样本与第一空值的相似度；

空值填充单元，用于将相似度最高的备选样本作为最终填补值填补所述第一空值。

从上述实施例可知，通过获取相似度最高的备选样本的属性值作为最终填补值填补所述第一空值，使空值填充的准确性更高。

在一个实施例中，数据空值处理装置100还包括其他功能模块/单元，用于实现实施例1中各实施例中的方法步骤。

实施例3：

本发明实施例还提供了一种终端设备5，包括存储器51、处理器50以及存储在存储器51中并可在处理器50上运行的计算机程序52，所述处理器50执行所述计算机程序52时实现如实施例1中所述的各实施例中的步骤，例如图1所示的步骤S101至步骤S103。或者，所述处理器50执行所述计算机程序52时实现如实施例2中所述的各装置实施例中的各模块的功能，例如图4所示的模块110至130的功能。

所述终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备5可包括，但不仅限于，处理器50、存储器51。例如所述终端设备5还可以包括输入输出设备、网络接入设备、总线等。

所称处理器50可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器50等。

所述存储器51可以是所述终端设备5的内部存储单元，例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备，例如所述终端设备5上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器51还可以既包括终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序52以及所述终端设备5所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

实施例4：

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序52，计算机程序52被处理器50执行时实现如实施例1中所述的各实施例中的步骤，例如图1所示的步骤S101至步骤S103。或者，所述计算机程序52被处理器50执行时实现如实施例2中所述的各装置实施例中的各模块的功能，例如图4所示的模块110至130的功能。

所述的计算机程序52可存储于一计算机可读存储介质中，该计算机程序52在被处理器50执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序52包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本发明实施例系统中的模块或单元可以根据实际需要进行合并、划分和删减。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据空值处理方法，其特征在于，包括：

对预处理数据进行空值检测；

2.如权利要求1所述的数据空值处理方法，其特征在于，在所述对预处理数据进行空值检测之前，还包括：

3.如权利要求1所述的数据空值处理方法，其特征在于，在所述从所述预处理数据中获取第一空值的所有属性值所属的样本作为备选样本之后，还包括：

对各个备选样本进行属性约简处理。

4.如权利要求3所述的数据空值处理方法，其特征在于，所述从所述预处理数据中获取第一空值的所有属性值所属的样本作为备选样本，包括：

从所述预处理数据中获取与所述第一空值的决策属性相同的样本作为初始样本；

从所述初始样本中获取所述备选样本，所述备选样本为所述第一空值的所有属性值对应的样本。

5.如权利要求1至4任一项所述的数据空值处理方法，其特征在于，所述计算各个备选样本与所述第一空值的相似度，并将相似度最高的备选样本作为最终填补值填补所述第一空值，包括：

获取各个备选样本的空间坐标；

根据各个备选样本的空间坐标及所述第一空值的空间坐标，计算各个备选样本与所述第一空值的欧式距离，作为各个备选样本的相对距离；

根据各个备选样本的相对距离，确定各个备选样本与第一空值的相似度；

将相似度最高的备选样本作为最终填补值填补所述第一空值。

6.一种数据空值处理装置，其特征在于，包括：

空值检测模块，用于对预处理数据进行空值检测；

7.如权利要求6所述的数据空值处理装置，其特征在于，还包括：

8.如权利要求6所述的数据空值处理装置，其特征在于，还包括：

属性约简模块，用于对各个备选样本进行属性约简处理。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。