CN111177135A

CN111177135A - 一种基于界标的数据填补方法及装置

Info

Publication number: CN111177135A
Application number: CN201911381294.6A
Authority: CN
Inventors: 宋韶旭; 方晨光; 王建民
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-19
Anticipated expiration: 2039-12-27
Also published as: CN111177135B

Abstract

本发明实施例提供一种基于界标的数据填补方法及装置，该方法包括：获取待填补的原始数据，所述原始数据包括完整数据行和缺失数据行；将所述原始数据中的完整数据行输入至预设的生成对抗网络模型，输出完整数据行的界标；根据完整数据行的界标和完整数据行，对缺失数据行进行填补，得到填补后的缺失数据行；其中，所述生成对抗网络模型，根据多个完整数据行样本和对应的界标标签进行训练后得到。该方法能够得到数据行在值空间的准确界标，综合考虑到了界标数据和无缺失的完整数据，在数据缺少近邻点的情况下，也能进行填补。另外，填补数据部分依据真实的完整数据，能够有效避免神经网络的过拟合问题。

Description

一种基于界标的数据填补方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于界标的数据填补方法及装置。

背景技术

随着信息技术的发展，大数据时代的来临，人们在信息处理中面对的数据量也在飞速增加。而在大数据的背景下，随着数据量的增加，数据采集与数据挖掘已经成为信息技术中非常重要的一环，而这其中，数据质量是保证大数据情况下，数据挖掘技术能够顺利进行的保障。数据质量问题存在于数据的方方面面，包括数据缺失、数据错漏、数据异构等，产生这些数据质量的原因有很多，例如工业数据传感器在采集过程中会由于传感器的故障导致存在数据缺失的问题。数据质量问题会导致后续的数据挖掘、数据分析等步骤出现错误。

在数据填补领域，现有方法主要分为两大类：根据传统方法基于一定的规则或特性对数据进行填补和基于深度学习或神经网络对数据进行填补。目前，数据填补领域的方法有以下不足：根据传统方法基于一定的规则或特性对数据进行填补，这类方法都是针对特定的领域中的数据，具有一定的领域局限性，同时在数据缺少近邻点的情况下，填补的效果不佳。基于深度学习或神经网络对数据进行填补，这类方法存在模型过拟合、预测后直接忽略了原始数据中的准确部分的问题，使得填补的准确率有所降低。

发明内容

为了解决上述问题，本发明实施例提供一种基于界标的数据填补方法及装置。

第一方面，本发明实施例提供一种基于界标的数据填补方法，包括：获取待填补的原始数据，所述原始数据包括完整数据行和缺失数据行；将所述原始数据中的完整数据行输入至预设的生成对抗网络模型，输出完整数据行的界标；根据完整数据行的界标和完整数据行，对缺失数据行进行填补，得到填补后的缺失数据行；其中，所述生成对抗网络模型，根据多个完整数据行样本和对应的界标标签进行训练后得到。

进一步地，所述根据完整数据行的界标和完整数据行，对缺失数据行进行填补，包括：根据完整数据行的界标和完整数据行在值空间的分布，建立kd树结构；在kd树中找到缺失数据在值空间的多个临界点；根据所述多个临界点，对缺失数据行进行填补。

进一步地，所述根据所述多个临界点，对缺失数据行进行填补，包括：根据所述多个临界点，和预设的距离权重，对缺失数据行进行填补。

进一步地，将所述原始数据中的完整数据行输入至预设的生成对抗网络模型，包括：将所述完整数据行依次输入至所述生成对抗网络模型生成器的卷积层、全连接层和反卷积层；从生成器的反卷积层输出完整数据行在值空间以预设间隔分布的多个界标。

进一步地，所述将所述原始数据中的完整数据行输入至预设的生成对抗网络模型之前，还包括：获取多个与待填补原始数据类型相同的完整数据行；将每个完整数据行作为一个训练样本，得到多个训练样本，利用所述多个训练样本对所述生成对抗网络模型进行训练，得到所述预设的生成对抗网络模型。

进一步地，利用所述多个训练样本对所述生成对抗网络模型进行训练，包括：将任意一个完整数据行样本，输入至所述生成对抗网络模型，通过所述生成对抗网络模型的生成器生成预测界标；利用所述生成对抗网络模型的判别器，判断预测界标为界标标签的概率；根据判别器输出的结果，对生成器进行参数更新；根据整体的损失函数计算损失值，若损失函数收敛，则所述生成对抗网络模型训练完成。

进一步地，所述生成对抗网络模型的判别器由卷积层和全连接层构成。

第二方面，本发明实施例提供一种基于界标的数据填补装置，包括：获取模块，用于获取待填补的原始数据，所述原始数据包括完整数据行和缺失数据行；生成模块，用于将所述原始数据中的完整数据行输入至预设的生成对抗网络模型，输出完整数据行的界标；填补模块，用于根据完整数据行的界标和完整数据行，对缺失数据行进行填补，得到填补后的缺失数据行；其中，所述生成对抗网络模型，根据多个完整数据行样本和对应的界标标签进行训练后得到。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现本发明第一方面基于界标的数据填补方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明第一方面基于界标的数据填补方法的步骤。

本发明实施例提供的基于界标的数据填补方法及装置，将所述原始数据中的完整数据行输入至预设的生成对抗网络模型，输出完整数据行的界标，能够得到数据行在值空间的准确界标。根据完整数据行的界标和完整数据行，对缺失数据行进行填补，综合考虑到了界标数据和无缺失的完整数据，在数据缺少近邻点的情况下，也能进行填补。另外，填补数据部分依据真实的完整数据，能够有效避免神经网络的过拟合问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于界标的数据填补方法流程图；

图2为本发明另一实施例提供的基于界标的数据填补方法流程图；

图3为本发明实施例提供的界标填补示意图；

图4为本发明实施例提供的生成对抗网络模型结构示意图；

图5为本发明实施例提供的基于界标的数据填补装置结构图；

图6为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

数据质量是保证大数据情况下，数据挖掘技术能够顺利进行的保障，以车辆的工况数据为例，通过采集车辆的温度、振动和速度等数据，可对车辆的运行状况进行分析。但是工业传感器在采集过程中会存在数据缺失，或者数据异常，在剔除异常数据后，这些数据也成为了缺失数据。如果缺失数据无法得到较为准确的填补，则会严重影响分析结果的准确性。例如，无人驾驶应用场景的位置数据缺失，会影响无人驾驶导航的准确性。

为解决这一问题，本发明实施例提供一种基于界标的数据填补方法，图1为本发明实施例提供的基于界标的数据填补方法流程图，如图1所示，该方法，包括：

101、获取待填补的原始数据，原始数据包括完整数据行和缺失数据行。

原始数据可以是车辆工况数据，例如，每分钟获取车辆的水温数据5次，作为一个数据行，3秒得到3个数据行，每个数据行5个数据。由于第3秒传感器出错，5个数据中缺失1个，则第3秒的数据为待填补的数据行。第1、2秒的数据为完整数据行，3秒的总数据为待填补的原始数据。

102、将原始数据中的完整数据行输入至预设的生成对抗网络模型，输出完整数据行的界标，其中，生成对抗网络模型，根据多个完整数据行样本和对应的界标标签进行训练后得到。

本发明实施例通过预设一个训练好的生成对抗网络模型生成界标，将完整数据行输入预设的生成对抗网络模型后，可得到完整数据对应的界标。界标是按固定的间隔在原始数据的值空间中生成的数据点。例如，完整数据行为80.1、82.2、82.5、81.7、83.7，则可生成80、82、84等界标。

103、根据完整数据行的界标和完整数据行，对缺失数据行进行填补，得到填补后的缺失数据行。

在103中，根据完整数据行和生成的界标，综合确定缺失数据行中的缺失数据。从而得到填补后的缺失数据行。例如，通过平均值法。

本实施例提供的基于界标的数据填补方法，将原始数据中的完整数据行输入至预设的生成对抗网络模型，输出完整数据行的界标，能够得到数据行在值空间的准确界标。根据完整数据行的界标和完整数据行，对缺失数据行进行填补，综合考虑到了界标数据和无缺失的完整数据，在数据缺少近邻点的情况下，也能进行填补。另外，填补数据部分依据真实的完整数据，能够有效避免神经网络的过拟合问题。

基于上述实施例的内容，作为一种可选实施例，根据完整数据行的界标和完整数据行在值空间的分布，建立kd树结构；在kd树中找到缺失数据在值空间的多个临界点；根据多个临界点，对缺失数据行进行填补。

基于上述实施例的内容，作为一种可选实施例，所据多个临界点，对缺失数据的缺失数据行进行填补，包括：根据多个临界点，和预设的距离权重，对缺失数据行进行填补。

以下根据上述两种可选情况作进一步说明，需要说明的是，根据多个临界点，对缺失数据行进行填补，也可以通过加权法以外的方法。

图2为本发明另一实施例提供的基于界标的数据填补方法流程图，如图2所示。首先，通过预设的生成对抗网络模型，预测得到界标。得到界标后，集合完整的数据行，根据二者的值在原始数据空间中的分布，建立kd树结构。接下来接收缺失数据作为输入，在kd树中找到缺失数据在该空间中的近邻点，在根据距离权重，对该缺失数据进行修复。距离权重含义为，在修复缺失值时，是通过近邻点的值进行填补，但不是简单的取平均值，而是距离越近的点所占比重越大，这样能够提升修复结果的准确率。

图3为本发明实施例提供的界标填补示意图，如图3所示，其中圆形点表示界标预测模型预测得到的按照固定间隔分布的界标，方形点表示原始数据中的完整数据，三角形点表示原始数据中需要填补的缺失数据。如图所示，本发明通过查找缺失数据附近的界标以及完整数据，利用这些近邻数据对缺失数据进行填补。在填补过程中，会考虑到近邻点的距离，距离越近的点所占比重越大，这样能够提升修复结果的准确率。

本实施例提供的基于界标的数据填补方法，在kd树中找到缺失数据在值空间的多个临界点，根据多个临界点，对缺失数据行进行填补，充分利用了界标和完整数据行的特性，能够得到较为客观的填补数据。此外，根据预设的距离权重，对缺失数据行进行填补，由于数据的变化通常在临近的两个数据变化不大，从而充分利用了临近数据相似度较高的特性，使填补数据的准确率更高。

基于上述实施例的内容，作为一种可选实施例，将原始数据中的完整数据行输入至预设的生成对抗网络模型，包括：将完整数据行依次输入至生成对抗网络模型生成器的卷积层、全连接层和反卷积层；从生成器的反卷积层输出完整数据行在值空间以预设间隔分布的多个界标。

图4为本发明实施例提供的生成对抗网络模型结构示意图，如图4所示，生成器用于生成界标，其输入部分由卷积层构成，特征处理部分由全连接层构成，生成部分由反卷积层构成；判别器用于提升生成器的预测能力。其中，输入部分由卷积层构成，判别部分由全连接层构成。该模型生成器的输入为原始数据中的完整行，输出为根据这些完整行预测得到的界标。判别器的输入为生成器的输出，输出为一个布尔值。生成器在生成结果后，可以在结果中按照预设间隔取点，获得预测得到的界标。

本实施例提供的基于界标的数据填补方法，从生成器的反卷积层输出完整数据行在值空间以预设间隔分布的多个界标，有利于根据完整数据行的界标和完整数据行，对缺失数据行进行填补。

基于上述实施例的内容，作为一种可选实施例，将原始数据中的完整数据行输入至预设的生成对抗网络模型之前，还包括：获取多个与待填补原始数据类型相同的完整数据行；将每个完整数据行作为一个训练样本，得到多个训练样本，利用多个训练样本对生成对抗网络模型进行训练，得到预设的生成对抗网络模型。

预设的生成对抗网络模型在进行数据填补的应用前，还需对其进行训练。首先，获取多个与待填补原始数据类型相同的完整数据行，每个完整数据行作为一个样本。利用大量的完整数据行样本对建立的生成对抗网络模型进行训练，从而得到预设的生成对抗网络模型，能够应用于待填补的原始数据的数据填补。

基于上述实施例的内容，作为一种可选实施例，利用多个训练样本对生成对抗网络模型进行训练，包括：将任意一个完整数据行样本，输入至生成对抗网络模型，通过生成对抗网络模型的生成器生成预测界标；利用生成对抗网络模型的判别器，判断预测界标为界标标签的概率；根据判别器输出的结果，对生成器进行参数更新；根据整体的损失函数计算损失值，若损失函数收敛，则生成对抗网络模型训练完成。

该模型训练分为两步，首先将任意一个完整数据行样本，输入至生成对抗网络模型，通过生成对抗网络模型的生成器生成预测界标。第二步为固定生成器参数，将生成的预测界标数据输入到分类器中，分类器根据界标标签，判断预测界标是真实数据还是界标标签，并输出相应概率。之后训练将结果返回，并对模型参数进行更新，重新进行第一步对生成器的训练，形成迭代，不断提高模型预测准确率，直至整体的损失函数收敛。生成对抗网络模型的整体损失函数由两部分组成，一部分为生成器的均方根误差损失，另一部分为分类器的交叉熵损失，两者加权得到整体的损失函数。随着迭代次数增加，当损失函数收敛时，，则生成对抗网络模型训练完成，得到上述应用的预设的生成对抗网络模型。

基于上述实施例的内容，作为一种可选实施例，生成对抗网络模型的判别器由卷积层和全连接层构成。上述实施例已作说明，此处不再赘述。

图5为本发明实施例提供的基于界标的数据填补装置结构图，如图5所示，该基于界标的数据填补装置包括：获取模块501、生成模块502和填补模块503。其中，获取模块501用于获取待填补的原始数据，原始数据包括完整数据行和缺失数据行；生成模块502用于将原始数据中的完整数据行输入至预设的生成对抗网络模型，输出完整数据行的界标；填补模块503用于根据完整数据行的界标和完整数据行，对缺失数据行进行填补，得到填补后的缺失数据行；其中，生成对抗网络模型，根据多个完整数据行样本和对应的界标标签进行训练后得到。

本发明实施例提供的装置实施例是为了实现上述各方法实施例的，具体流程和详细内容请参照上述方法实施例，此处不再赘述。

本发明实施例提供的基于界标的数据填补装置，将原始数据中的完整数据行输入至预设的生成对抗网络模型，输出完整数据行的界标，能够得到数据行在值空间的准确界标。根据完整数据行的界标和完整数据行，对缺失数据行进行填补，综合考虑到了界标数据和无缺失的完整数据，在数据缺少近邻点的情况下，也能进行填补。另外，填补数据部分依据真实的完整数据，能够有效避免神经网络的过拟合问题。

图6为本发明实施例提供的一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)601、通信接口(Communications Interface)602、存储器(memory)603和总线604，其中，处理器601，通信接口602，存储器603通过总线604完成相互间的通信。通信接口602可以用于电子设备的信息传输。处理器601可以调用存储器603中的逻辑指令，以执行包括如下的方法：获取待填补的原始数据，原始数据包括完整数据行和缺失数据行；将原始数据中的完整数据行输入至预设的生成对抗网络模型，输出完整数据行的界标；根据完整数据行的界标和完整数据行，对缺失数据行进行填补，得到填补后的缺失数据行；其中，生成对抗网络模型，根据多个完整数据行样本和对应的界标标签进行训练后得到。

此外，上述的存储器603中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明上述各方法实施例的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：获取待填补的原始数据，原始数据包括完整数据行和缺失数据行；将原始数据中的完整数据行输入至预设的生成对抗网络模型，输出完整数据行的界标；根据完整数据行的界标和完整数据行，对缺失数据行进行填补，得到填补后的缺失数据行；其中，生成对抗网络模型，根据多个完整数据行样本和对应的界标标签进行训练后得到。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于界标的数据填补方法，其特征在于，包括：

获取待填补的原始数据，所述原始数据包括完整数据行和缺失数据行；

将所述原始数据中的完整数据行输入至预设的生成对抗网络模型，输出完整数据行的界标；

根据完整数据行的界标和完整数据行，对缺失数据行进行填补，得到填补后的缺失数据行；

其中，所述生成对抗网络模型，根据多个完整数据行样本和对应的界标标签进行训练后得到。

2.根据权利要求1所述的基于界标的数据填补方法，其特征在于，所述根据完整数据行的界标和完整数据行，对缺失数据行进行填补，包括：

根据完整数据行的界标和完整数据行在值空间的分布，建立kd树结构；

在kd树中找到缺失数据在值空间的多个临界点；

根据所述多个临界点，对缺失数据行进行填补。

3.根据权利要求2所述的基于界标的数据填补方法，其特征在于，所述根据所述多个临界点，对缺失数据行进行填补，包括：

根据所述多个临界点，和预设的距离权重，对缺失数据行进行填补。

4.根据权利要求1所述的基于界标的数据填补方法，其特征在于，将所述原始数据中的完整数据行输入至预设的生成对抗网络模型，包括：

将所述完整数据行依次输入至所述生成对抗网络模型生成器的卷积层、全连接层和反卷积层；

从生成器的反卷积层输出完整数据行在值空间以预设间隔分布的多个界标。

5.根据权利要求1所述的基于界标的数据填补方法，其特征在于，所述将所述原始数据中的完整数据行输入至预设的生成对抗网络模型之前，还包括：

获取多个与待填补原始数据类型相同的完整数据行，并设置对应的界标标签；

将每个完整数据行和对应的界标标签作为一个训练样本，得到多个训练样本，利用所述多个训练样本对所述生成对抗网络模型进行训练，得到所述预设的生成对抗网络模型。

6.根据权利要求5所述的基于界标的数据填补方法，其特征在于，利用所述多个训练样本对所述生成对抗网络模型进行训练，包括：

将任意一个完整数据行样本，输入至所述生成对抗网络模型，通过所述生成对抗网络模型的生成器生成预测界标；

利用所述生成对抗网络模型的判别器，判断预测界标为界标标签的概率；

根据判别器输出的结果，对生成器进行参数更新；根据整体的损失函数计算损失值，若损失函数收敛，则所述生成对抗网络模型训练完成。

7.根据权利要求6所述的基于界标的数据填补方法，其特征在于，所述生成对抗网络模型的判别器由卷积层和全连接层构成。

8.一种基于界标的数据填补装置，其特征在于，包括：

获取模块，用于获取待填补的原始数据，所述原始数据包括完整数据行和缺失数据行；

生成模块，用于将所述原始数据中的完整数据行输入至预设的生成对抗网络模型，输出完整数据行的界标；

填补模块，用于根据完整数据行的界标和完整数据行，对缺失数据行进行填补，得到填补后的缺失数据行；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于界标的数据填补方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述基于界标的数据填补方法的步骤。