CN109739840A

CN109739840A - 数据空值处理方法、装置及终端设备

Info

Publication number: CN109739840A
Application number: CN201811504913.1A
Authority: CN
Inventors: 吴又奎; 王华青; 钟秋发
Original assignee: Zhongke Hengyun Co Ltd
Current assignee: Zhongke Hengyun Co Ltd
Priority date: 2018-12-10
Filing date: 2018-12-10
Publication date: 2019-05-10

Abstract

本发明适用于数据处理技术领域，提供了一种数据空值处理方法、装置及终端设备，包括：对预处理数据进行空值检测；若所述预处理数据中存在空值，则计算所述预处理数据中的各个样本与第一空值所属样本的距离，并按照计算出的距离大小对所述预处理数据中的各个样本排序，得到数据序列，并获取所述数据序列中前K个样本作为临近样本，所述K≥1；对所述临近样本的数值进行加权平均计算，得到第一平均值，并利用所述第一平均值填补所述第一空值。本发明通过获取距离第一空值最近的样本为临近样本，利用临近样本的数值平均值填充第一空值，从而排除一些无用的数据，提高空值填充的准确性。

Description

数据空值处理方法、装置及终端设备

技术领域

本发明属于数据处理技术领域，尤其涉及一种数据空值处理方法、装置及终端设备。

背景技术

在现实中，由于操作问题、仪器问题、系统问题等原因在数据中普遍存在空缺数据情况。

目前，国内外已提出很多有关缺失值填充的方法。尽管这些方法在各自的应用环境下得到了很好的效果，但仍然存在一些不足，传统的空值处理方法不能有效利用空值中所蕴含的信息，引用一些无用的数据，导致空值处理准确性差的问题。

发明内容

有鉴于此，本发明实施例提供了一种数据空值处理方法、装置及终端设备，以解决现有技术中在空值处理时因引用无用数据而导致的空值填充准确性差的问题。

本发明实施例的第一方面提供了一种数据空值处理方法，包括：

对预处理数据进行空值检测；

若所述预处理数据中存在空值，则计算所述预处理数据中的各个样本与第一空值所属样本的距离，并按照计算出的距离大小对所述预处理数据中的各个样本排序，得到数据序列，并获取所述数据序列中前K个样本作为临近样本，所述第一空值为所述预处理数据中的任一空值，所述K≥1；

对所述临近样本的数值进行加权平均计算，得到第一平均值，并利用所述第一平均值填补所述第一空值。

本发明实施例的第二方面提供了一种数据空值处理装置，包括：

空值检测模块，用于对预处理数据进行空值检测；

临近样本获取模块，用于若所述预处理数据中存在空值，则计算所述预处理数据中的各个样本与第一空值所属样本的距离，并按照计算出的距离大小对所述预处理数据中的各个样本排序，得到数据序列，并获取所述数据序列中前K个样本作为临近样本，所述第一空值为所述预处理数据中的任一空值，所述K≥1；

空值填充模块，用于对所述临近样本的数值进行加权平均计算，得到第一平均值，并利用所述第一平均值填补所述第一空值。

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述数据空值处理方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上所述数据空值处理方法的步骤。

本发明实施例与现有技术相比存在的有益效果是：本发明实施例提供的数据空值处理方法首先对预处理数据进行空值检测；若所述预处理数据中存在空值，则计算所述预处理数据中的各个样本与第一空值所属样本的距离，并按照计算出的距离大小对所述预处理数据中的各个样本排序，得到数据序列，并获取所述数据序列中前K个样本作为临近样本，所述K≥1；对所述临近样本的数值进行加权平均计算，得到第一平均值，并利用所述第一平均值填补所述第一空值。本发明实施例通过获取距离第一空值最近的样本为临近样本，利用临近样本的数值平均值填充第一空值，从而排除一些无用的数据，提高空值填充的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的数据空值处理方法的实现流程示意图；

图2是本发明实施例提供的图1中S102的实现流程示意图；

图3是本发明实施例提供的图1中S103的实现流程示意图；

图4是本发明实施例提供的数据空值处理装置的结构示意图；

图5是本发明实施例提供的终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

本发明的说明书和权利要求书及上述附图中的术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含一系列步骤或单元的过程、方法或系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，术语“第一”、“第二”和“第三”等是用于区别不同对象，而非用于描述特定顺序。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例1：

图1示出了本发明的一个实施例提供的一种数据空值处理方法的实现流程，其过程详述如下：

S101：对预处理数据进行空值检测。

在本实施例中，可以从数据源中抽取原始数据，并对原始数据进行预处理后，对预处理数据进行空值检测，检测预处理数据中是否存在空值。

S102：若所述预处理数据中存在空值，则计算所述预处理数据中的各个样本与第一空值所属样本的距离，并按照计算出的距离大小对所述预处理数据中的各个样本排序，得到数据序列，并获取所述数据序列中前K个样本作为临近样本，所述K≥1。

在本实施例中，若将预处理数据中的样本数据用N维数据表示，则预处理数据中各个样本数据处于一个N维空间，第一空值为一个未知样本，则通过计算第一空值所属样本与其他样本之间的空间距离，能够得出与第一空值相似的样本，从而根据这些临近样本的数据平均值来填充第一空值，使第一空值更加准确。

S103：对所述临近样本的数值进行加权平均计算，得到第一平均值，并利用所述第一平均值填补所述第一空值。

在本实施例中，由于得到的临近样本与第一空值所属样本的距离不同，不同的临近样本与第一空值的相似程度也不同，因此为了使得到的第一平均值更加准确，可以对临近样本进行加权平均计算，得到第一平均值来填充第一空值。

从上述实施例可知，本发明实施例提供的数据空值处理方法首先对预处理数据进行空值检测；若所述预处理数据中存在空值，则按照与第一空值所属样本的距离为所述预处理数据中的各个样本排序，得到数据序列，并获取所述数据序列中前K个样本作为临近样本，所述K≥1；对所述临近样本的数值进行加权平均计算，得到第一平均值，并利用所述第一平均值填补所述第一空值。本发明实施例通过获取距离第一空值最近的样本为临近样本，利用临近样本的数值平均值填充第一空值，从而排除一些无用的数据，提高空值填充的准确性。

在本发明的一个实施例中，在图1中S101之前，本实施例还包括：

从数据源中采集原始数据，并对所述原始数据进行预处理，得到预处理数据。

在本实施例中，从数据源中采集原始数据后，需对所述原始数据进行数据转换及数据清洗处理，得到预处理数据。得到预处理数据的过程具体包括抽取、转换、清洗三个环节，其获取过程详述如下：

1)抽取：数据抽取是从不同的网络、不同的操作系统、不同的数据库以及数据格式、不同的应用中抽取数据的过程。此处的数据不仅是指关系数据库中的数据，还涉及到半结构化的数据和非结构化的数据。

对于半结构化数据，可以采用混合表示法对数据及数据模式进行建模，它包括一个概念层次图和一套知识框架，使用基于内容以及结构框架的方法对数据进行抽取。

对于非结构化的数据，可以采用模糊匹配方法识别表格中的直线行上的字段；针对于手写汉字文件的数据，采用基于引力的算法以有效识别并抽取表格中的汉字。

2)转换：由于抽取的数据存在格式不一致的情况，因此，需要对数据的名称和格式进行统一，通过数据粒度转换、商务规则计算和统一命名、数据格式和计量单位，并且，数据仓库中存在数据库中可能不存在的数据，因此，需要进行字段组合、分割和计算，从而完成数据的转换处理。

3)转换：在对原始数据完成数据转换得到第一处理数据后，需要对第一处理数据进行数据清洗，由于从操作系统中获取的第一处理数据可能存在许多问题，容易造成脏数据，因此，需要对第一处理数据进行清洗。

数据清洗的过程如下：

首先将第一处理数据缓存在缓存数据库中，然后根据预置的清洗规则对第一处理数据进行清洗，当第一处理数据清洗完成时，对清洗后的数据进行评价检测，当检测出清洗后的数据存在错误或产生丢失数据时，从缓存数据库中重新获取第一处理数据，并重新进行清洗，若多次检测清洗后的数据存在错误，用户可以对清洗规则进行修改和设置，从而提高数据清洗力度。

空值检测为数据清洗中的一个环节，通过空值检测完善数据中缺失的数据。

在完成数据清洗后，将清洗完成的第一处理数据按照物理数据模型定义的表机构装入目标数据库中，并允许人工干预，以及提供强大的错误报告。系统日志、数据备份与恢复功能。

如图2所示，在本发明的一个实施例中，图2示出了图1中S102的具体实现流程，其过程详述如下：

S201：获取预处理数据中所有样本的空间坐标；

S202：根据各个样本的空间坐标及所述第一空值所属样本的空间坐标，计算所述预处理数据中各个样本与所述第一空值所属样本的距离，作为各个样本的相对距离；

S203：将各个样本按照相对距离由大到小的顺序进行排序，得到数据序列。

在本实施例中，假设数据X中存在空值，预处理数据中的一个样本的空间坐标为Y＝(y₁,y₂,y₃,.....y_n)，则可以通过计算X和Y的欧式距离来判断Y与X的相似度，将预处理数据中各个样本与X求欧式距离，得到各个样本对应的相对距离。

在获取到各个样本的相对距离后，可以将各个样本按照由大到小的顺序排序，得到数据序列，并提取数据序列中前K个样本作为临近样本，通过临近样本求平均值填充空值，K的取值决定了空值填充的准确性。

在本发明的一个实施例中，还可以预设一个距离阈值，将相对距离小于距离阈值的样本作为临近样本。

在本实施例中，也可以通过相关分析计算各个样本与第一空值所属样本的欧式距离。

在本发明的一个实施例中，图1中S102的具体实现流程还包括：

获取所述数据序列中前K个样本作为第一样本，并统计各个第一样本的属性，将出现次数最多的属性对应的第一样本作为临近样本。

在本实施例中，由于各个样本的属性不同，为了进一步准确的填充第一空值，可以将获取到的第一样本中出现次数最多的属性对应的样本作为临近样本。例如，若临近样本中存在3个数值型样本和2个非数值型样本，则将第一样本中的3个数值型样本作为临近样本进行平均值计算。

从上述实施例可知，通过欧式距离选取样本，并将选取的样本按照属性值的多少做进一步的筛选，能够剔除一些无用的数据，获取到与第一空值更加相似的平均值，从而即提高空值填充的准确性，又能提高空值填充的效率。

如图3所示，在本发明的一个实施例中，图3示出了图1中S103的具体实现流程。其过程详述如下：

S301：根据权值计算公式及各个临近样本的相对距离，计算各个临近样本的权值。

S302：根据各个临近样本的权值及数值，对所有临近样本的数值进行加权平均计算，得到第一平均值。

在本实施例中，由于各个临近样本与第一空值所属样本的距离不同，因此各个临近样本与第一空值的相似度也不同，为了提高空值填充的准确性，可以将与第一空值距离相对较近的临近样本的权重加大，将与第一空值相对较远的临近样本的权重减小，如此，通过加权平均，即可得到更为准确的第一平均值。

在本发明的一个实施例中，权值计算公式为：

其中，L_i表示第i个临近样本的相对距离，Q_i表示第i个临近样本的权值。

例如，若存在三个临近样本的数值分别为x₁＝20，x₂＝30，x₃＝40，对应的，这三个临近样本的相对距离分别为L₁＝100、L₂＝200、L₃＝300，则首先根据权值计算公式计算x₁、x₂和x₃的权值，分别为Q₁＝6/11、Q₂＝3/11、Q₃＝2/11。

在本实施例中，计算各个临近样本的权值与数值的乘积，然后将各个临近样本的乘积值求和，得到第一平均值。根据三个临近样本的权值，可以求得第一平均值为26.4。则用第一平均值26.4填充第一空值。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

实施例2：

如图4所示，本发明的一个实施例提供的数据空值处理装置100，用于执行图1所对应的实施例中的方法步骤，其包括：

空值检测模块110，用于对预处理数据进行空值检测；

临近样本获取模块120，用于若所述预处理数据中存在空值，则计算所述预处理数据中的各个样本与第一空值所属样本的距离，并按照计算出的距离大小对所述预处理数据中的各个样本排序，得到数据序列，并获取所述数据序列中前K个样本作为临近样本，所述第一空值为所述预处理数据中的任一空值，所述K≥1；

空值填充模块130，用于对所述临近样本的数值进行加权平均计算，得到第一平均值，并利用所述第一平均值填补所述第一空值。

在本发明的一个实施例中，数据空值处理装置100还包括：

预处理数据获取模块，用于从数据源中采集原始数据，并对所述原始数据进行预处理，得到预处理数据。

在本发明的一个实施例中，图4中临近样本获取模块120具体包括：

空间坐标获取单元，用于获取预处理数据中所有样本的空间坐标；

相对距离计算单元，用于根据各个样本的空间坐标及所述第一空值所属样本的空间坐标，计算所述预处理数据中各个样本与所述第一空值所属样本的距离，作为各个样本的相对距离；

数据序列获取单元，用于将各个样本按照相对距离由大到小的顺序进行排序，得到数据序列。

在本发明的一个实施例中，临近样本获取模块具体包括：获取所述数据序列中前K个样本作为第一样本，并统计各个第一样本的属性，将出现次数最多的属性对应的第一样本作为临近样本。

在本发明的一个实施例中，空值填充模块130具体包括：

权值计算单元，用于根据权值计算公式及各个临近样本的相对距离，计算各个临近样本的权值；

第一平均值计算单元，用于根据各个临近样本的权值及数值，对所有临近样本的数值进行加权平均计算，得到第一平均值。

在本发明的一个实施例中，权值计算公式为：

在一个实施例中，数据空值处理装置100还包括其他功能模块/单元，用于实现实施例1中各实施例中的方法步骤。

实施例3：

本发明实施例还提供了一种终端设备5，包括存储器51、处理器50以及存储在存储器51中并可在处理器50上运行的计算机程序52，所述处理器50执行所述计算机程序52时实现如实施例1中所述的各实施例中的步骤，例如图1所示的步骤S101至步骤S103。或者，所述处理器50执行所述计算机程序52时实现如实施例2中所述的各装置实施例中的各模块的功能，例如图4所示的模块110至130的功能。

所述终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备5可包括，但不仅限于，处理器50、存储器51。例如所述终端设备5还可以包括输入输出设备、网络接入设备、总线等。

所称处理器50可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器50等。

所述存储器51可以是所述终端设备5的内部存储单元，例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备，例如所述终端设备5上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器51还可以既包括终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序52以及所述终端设备5所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

实施例4：

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序52，计算机程序52被处理器50执行时实现如实施例1中所述的各实施例中的步骤，例如图1所示的步骤S101至步骤S103。或者，所述计算机程序52被处理器50执行时实现如实施例2中所述的各装置实施例中的各模块的功能，例如图4所示的模块110至130的功能。

所述的计算机程序52可存储于一计算机可读存储介质中，该计算机程序52在被处理器50执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序52包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本发明实施例系统中的模块或单元可以根据实际需要进行合并、划分和删减。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据空值处理方法，其特征在于，包括：

对预处理数据进行空值检测；

2.如权利要求1所述的一种数据空值处理方法，其特征在于，在所述对预处理数据进行空值检测之前，还包括：

从数据源中采集原始数据，并对所述原始数据进行预处理，得到所述预处理数据。

3.如权利要求1所述的一种数据空值处理方法，其特征在于，所述计算所述预处理数据中的各个样本与第一空值所属样本的距离，并按照计算出的距离大小对所述预处理数据中的各个样本排序，得到数据序列，包括：

获取预处理数据中所有样本的空间坐标；

根据各个样本的空间坐标及所述第一空值所属样本的空间坐标，计算所述预处理数据中各个样本与所述第一空值所属样本的距离，作为各个样本的相对距离；

将各个样本按照相对距离由大到小的顺序进行排序，得到数据序列。

4.如权利要求1所述的一种数据空值处理方法，其特征在于，所述获取所述数据序列中前K个样本作为临近样本，包括：

5.如权利要求3所述的一种数据空值处理方法，其特征在于，所述对所述临近样本的数值进行加权平均计算，得到第一平均值，包括：

根据权值计算公式及各个临近样本的相对距离，计算各个临近样本的权值；

根据各个临近样本的权值及数值，对所有临近样本的数值进行加权平均计算，得到第一平均值。

6.如权利要求5所述的一种数据空值处理方法，其特征在于，所述权值计算公式为：

7.一种数据空值处理装置，其特征在于，包括：

空值检测模块，用于对预处理数据进行空值检测；

8.如权利要求7所述的一种数据空值处理装置，其特征在于，还包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。