CN116049672A - 一种缺失数据的填充方法及装置 - Google Patents

一种缺失数据的填充方法及装置 Download PDF

Info

Publication number
CN116049672A
CN116049672A CN202211716617.4A CN202211716617A CN116049672A CN 116049672 A CN116049672 A CN 116049672A CN 202211716617 A CN202211716617 A CN 202211716617A CN 116049672 A CN116049672 A CN 116049672A
Authority
CN
China
Prior art keywords
data
interpolation
filling
transverse
longitudinal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211716617.4A
Other languages
English (en)
Inventor
马永征
张中献
刘冰
李洪涛
杨学
王鹤子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Internet Network Information Center
Original Assignee
China Internet Network Information Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Internet Network Information Center filed Critical China Internet Network Information Center
Priority to CN202211716617.4A priority Critical patent/CN116049672A/zh
Publication of CN116049672A publication Critical patent/CN116049672A/zh
Priority to PCT/CN2023/133196 priority patent/WO2024139861A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供了一种缺失数据的填充方法及装置,以实现对缺失值的准确填充,该填充方法包括:对缺失数据进行预填充,得到预填充缺失数据,根据预填充缺失数据,确定与预填充缺失数据对应的插值数据和插值训练数据,生成对抗网络模型,根据预设长度对插值训练数据进行划分,得到插值训练向量,根据插值训练向量训练对抗网络模型,将插值数据输入至训练后的对抗网络模型中,得到初步填充插值数据,确定与初步填充插值数据对应的权重值,根据初步填充插值数据以及与初步填充插值数据对应的权重值,确定与缺失数据对应的填充值。

Description

一种缺失数据的填充方法及装置
技术领域
本申请涉及数据处理领域,特别是一种缺失数据的填充方法及装置。
背景技术
电子设备的使用会产生大量的数据,使得数据量呈几何倍数级增长,但是数据量级的飞速增加常常伴随着数据缺失的问题,由于缺失的数据可能隐藏着重要信息,处理不当会对数据的统计分析及应用造成不良影响。因此,如何合理有效地解决缺失值问题,提高原始数据的数据质量,进而提升数据分析的结果是人们关注的焦点。
发明内容
鉴于上述问题,本发明的目的在于提供一种缺失数据的填充方法及装置,从而实现对缺失数据的准确填充,具体方案如下:
第一方面,本申请实施例提供了一种缺失数据的填充方法,其特征在于,所述填充方法包括:
对缺失数据进行预填充,得到预填充缺失数据;
根据所述预填充缺失数据,确定与所述预填充缺失数据对应的插值数据和插值训练数据;所述插值数据为所述预填充缺失数据所在的数据矩阵中,所述预填充缺失数据所在行和列上的数据;所述插值数据包括横向插值数据和纵向插值数据;所述插值训练数据为所述预填充缺失数据所在的数据矩阵中与所述插值数据平行的完整行数据和完整列数据;所述插值训练数据包括,横向插值训练数据和纵向插值训练数据;
生成对抗网络模型;
根据预设长度对所述插值训练数据进行划分,得到插值训练向量;
根据所述插值训练向量训练所述对抗网络模型;
将所述插值数据输入至训练后的对抗网络模型中,得到初步填充插值数据;
确定与所述初步填充插值数据对应的权重值;
根据所述初步填充插值数据以及所述与所述初步填充插值数据对应的权重值,确定与所述缺失数据对应的填充值。
可选的,所述生成对抗网络模型包括:
生成横向对抗网络模型和纵向对抗网络模型。可选的,所述根据预设长度对所述插值训练数据进行划分,得到插值训练向量,包括:
所述插值训练向量包括横向插值训练向量和纵向插值训练向量;
以所述横向插值训练数据中的最左侧的数据作为起始点,根据所述预设长度向右进行向量划分,得到所述横向插值训练向量;
以所述纵向插值训练数据中的最顶端的数据作为起始点,根据所述预设长度向下进行向量划分,得到所述纵向插值训练向量。
可选的,所述确定与所述初步填充插值数据对应的权重值,包括:
计算所述横向插值数据与所述缺失数据的总距离,以及所述纵向插值数据与所述缺失数据的总距离;
对所述横向插值数据与所述缺失数据的总距离和所述纵向插值数据与所述缺失数据的总距离,进行归一化处理,得到所述与所述初步填充插值数据对应的权重值;
所述与所述初步填充插值数据对应的权重值包括横向初步填充结果权重值和纵向初步填充结果权重值。
可选的,所述计算所述横向插值数据与所述缺失数据的总距离,以及所述纵向插值数据与所述缺失数据的总距离,包括:
计算所述横向插值数据中各个数据与所述缺失数据的横向坐标距离;
根据所述横向坐标距离确定所述横向插值数据中各个数据的横向反距离权重;
根据所述横向反距离权重,确定所述横向插值数据与缺失数据的总距离;
计算所述纵向插值数据中各个数据与所述缺失数据的纵向坐标距离;
根据所述纵向坐标距离确定所述纵向插值数据中各个数据的纵向反距离权重;
根据所述纵向反距离权重,确定所述横向插值数据与缺失数据的总距离。
可选的,所述根据所述初步填充插值数据以及所述与所述初步填充插值数据对应的权重值,确定与所述缺失数据对应的填充值,包括:
根据所述与所述初步填充差值数据对应的权重值,对所述初步填充插值数据进行加权求和,得到所述与所述缺失数据对应的填充值。
第二方面,本申请实施例提供了一种缺失数据的填充装置,所述装置包括:
填充单元,用于对缺失数据进行预填充;
数据获取单元,用于根据所述预填充缺失数据,确定与所述预填充缺失数据对应的插值数据和插值训练数据;所述插值数据为所述预填充缺失数据所在的数据矩阵中,所述预填充缺失数据所在行和列上的数据;所述插值数据包括横向插值数据和纵向插值数据;所述插值训练数据为所述预填充缺失数据所在的数据矩阵中与所述插值数据平行的完整行数据和完整列数据;所述插值训练数据包括,横向插值训练数据和纵向插值训练数据;
生成单元,用于生成对抗网络模型;
划分单元,用于根据预设长度对所述插值训练数据进行划分,得到插值训练向量;
训练单元,用于根据所述插值训练向量训练所述对抗网络模型;
输入单元,用于将所述插值数据输入至训练后的对抗网络模型中,得到初步填充插值数据;
计算单元,用于确定与所述初步填充插值数据对应的权重值;根据所述初步填充插值数据以及所述与所述初步填充插值数据对应的权重值,确定与所述缺失数据对应的填充值。
可选的,所述生成单元,具体用于:
生成多组横向向量和多组纵向向量;
根据所述多组横向向量生成横向对抗网络模型;
根据所述多组纵向向量生成纵向对抗网络模型。
可选的,所述划分单元具体用于:
所述插值训练向量包括横向插值训练向量和纵向插值训练向量;
以所述横向插值训练数据中的最左侧的数据作为起始点,根据所述预设长度向右进行向量划分,得到所述横向插值训练向量;
以所述纵向插值训练数据中的最顶端的数据作为起始点,根据所述预设长度向下进行向量划分,得到所述纵向插值训练向量。
可选的,所述计算单元具体用于:
计算所述横向插值数据与所述缺失数据的总距离,以及所述纵向插值数据与所述缺失数据的总距离;
对所述横向插值数据与所述缺失数据的总距离和所述纵向插值数据与所述缺失数据的总距离,进行归一化处理,得到所述与所述初步填充插值数据对应的权重值;
所述与所述初步填充插值数据对应的权重值包括横向初步填充结果权重值和纵向初步填充结果权重值。
第三方面,本申请实施例提供了一种计算机可读存储介质,包括计算机操作指令,当所述计算机操作指令在计算机上运行时,使得所述计算机执行上述任意一种缺失数据的填充方法。
相对于现有技术,本申请具有以下有益效果:
通过对缺失数据进行预填充,充分利用现有数据搭建对抗网络模型,并通过横向插值训练向量和纵向插值训练向量对相应的对抗网络模型进行训练,将插值数据输入至训练后的对抗网络模型中,得到较为精准的初步填充插值数据,并确定与初步插值数据对应的权重值,根据初步填充插值数据和对应的权重值确定与缺失数据对应的填充值,从而通过对缺失数据的初步填充,提高初步插值数据的准确性,得到较为精准的填充值。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种缺失数据的填充方法的流程示意图;
图2为本申请实施例提供的一种缺失数据的填充装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
现有技术中缺失值有两类处理方法,一是直接删除缺失值所在数据项,二是对缺失值进行填充。直接删除,虽然操作简单,但会造成数据浪费,丢失大量重要信息,因此在实际应用中不常采用。现有的缺失值填充方法如:零值填充、均值填充、回归填充、聚类填充、KNN填充等,这些方法受缺失率影响较大,无法充分体现数据间的相互关系,填充结果的可变性较差,填充效率和准确性较低。
针对上述问题,本申请实施例提供了一种缺失数据的填充方法,如图1所示,该方法包括:
S101:对缺失数据进行预填充。
对缺失数据做预填充,填充值为0。如:当缺失数据为a时,则对数据矩阵[x1 a x3]进行预填充得到数据矩阵[x1 0x3]。
S102:根据所述预填充缺失数据,确定与所述预填充缺失数据对应的插值数据和插值训练数据;所述插值数据为所述预填充缺失数据所在的数据矩阵中,所述预填充缺失数据所在行和列上的数据;所述插值数据包括横向插值数据和纵向插值数据;所述插值训练数据为所述预填充缺失数据所在的数据矩阵中与所述插值数据平行的完整行数据和完整列数据;所述插值训练数据包括,横向插值训练数据和纵向插值训练数据。
确定与预填充后的缺失数据对应的插值数据和插值训练数据。插值数据包括横向插值数据和纵向插值数据。横向插值数据为预填充缺失数据所在的数据矩阵中,预填充缺失数据所在行上的数据,纵向插值数据为预填充缺失数据所在的数据矩阵中,预填充缺失数据所在列上的数据。
插值训练数据包括横向插值训练数据和纵向插值训练数据。横向插值训练数据为预填充缺失数据所在的数据矩阵中,与横向插值数据平行的完整行数据,纵向插值训练数据为预填充缺失数据所在的数据矩阵中,与纵向插值数据平行的完整列数据。从而通过将数据矩阵以缺失值为中心提取出横向插值数据和纵向插值数据,实现对现有数据资源的充分利用。
如,当数据矩阵具有三行三列时,若第一行数据矩阵为[x11 x12x13],第二行数据矩阵为[x21 a x23],第三行数据矩阵为[x31 x32 x33],a为缺失数据,则横向插值数据为[x21 a x23],纵向插值数据为[x12 ax32],横向插值训练数据为[x11 x12 x13]、[x31 x32x33],纵向插值训练数据为[x11 x21 x31]和[x13 x23 x33]。
S103:生成对抗网络模型。
搭建对抗网络模型。
在一种可选的实施例中,生成对抗网络模型包括:
生成横向对抗网络模型和纵向对抗网络模型。搭建横向对抗网络模型和纵向对抗网络模型,横向对抗网络模型和纵向对抗网络模型由生成器和判别器组成,生成器选用均方误差作为损失函数,判别器选用交叉熵损失函数。其中,生成器为引入自注意力机制的自编码器。
S104:根据预设长度对插值训练数据进行划分,得到插值训练向量。
根据预设长度对横向插值训练数据和纵向插值训练数据进行划分,得到与横向插值训练数据和纵向插值训练数据对应的插值训练向量。
在一种可选的实施例中,根据预设长度对插值训练数据进行划分,得到插值训练向量,包括:
插值训练向量包括横向插值训练向量和纵向插值训练向量;
以横向插值训练数据中的最左侧的数据作为起始点,根据预设长度向右进行向量划分,得到横向插值训练向量;
以纵向插值训练数据中的最顶端的数据作为起始点,根据预设长度向下进行向量划分,得到纵向插值训练向量。对抗网络模型中的自编码器根据预设长度,将输入数据划分为若干组长度符合预设长度的向量,在划分横向向量时,将横向插值训练数据中的最左侧数据作为划分的起始点,并按照预设长度向右侧进行划分,除最后一组横向向量外,相邻的横向向量之间不包含重叠部分,若最后一组横向向量的长度无法达到预设长度,则使最后一组横向向量向左借取数据进行补齐,使补齐后的最后一组横向向量满足预设长度。从而通过引入自注意力机制,提高自编码器初步填充结果的准确性。
如:若横向插值训练数据中的数据从左到右依次为[x1 x2 x3 x4 x5x6 x7],预设长度为2,则将x1作为起始点向右侧进行划分,第一组横向向量为[x1 x2],第二组横向向量为[x3 x4],第三组横向向量为[x5x6],此时横向数据所在行剩余的数据无法达到预设长度,需要向左侧借取1个数据,所以第四组横向向量为[x6 x7]。
在划分纵向向量时,将纵向插值训练数据中的最顶端数据作为划分的起始点,并按照预设长度向下进行向量划分,除最后一组纵向向量外,相邻的纵向向量之间不包含重叠部分,若最后一组纵向向量的长度无法达到预设长度,则使最后一组纵向向量向上借取数据进行补齐,使补齐后的最后一组纵向向量满足预设长度。
需要说明的是,预设长度可结合实际需求进行确定。
S105:根据插值训练向量训练对抗网络模型。
通过对抗网络模型中的生成器对缺失数据进行填充,采用横向插值训练向量对横向对抗网络模型训练,采用纵向插值训练向量对纵向对抗网络模型进行训练,得到训练后的横向对抗网络模型和训练后的纵向对抗网络模型。
在训练过程中,判别器对生成器生成的横\纵向数据是否为真实的横\纵向数据进行判别,生成器和判别器同步进行迭代更新,直至判别器无法判别生成器所生成的横\纵向数据是否为真实的横\纵向数据时,将此时所对应的生成器作为横\纵向对抗网络模型。
S106:将插值数据输入至训练后的对抗网络模型中,得到初步填充插值数据。
初步填充插值数据包括横向初步填充结果和纵向初步填充结果。
将横向插值数据输入到横向对抗网络模型中,得到横向初步填充结果f1,将纵向插值数据输入到纵向对抗网络模型中,得到纵向初步填充结果f2。
S107:确定与初步填充插值数据对应的权重值。
分别确定横向初步填充结果的权重值和纵向初步填充结果的权重值。
在一种可选的实施例中,确定与初步填充插值数据对应的权重值,包括:
计算横向插值数据与缺失数据的总距离,以及纵向插值数据与缺失数据的总距离;
对横向插值数据与缺失数据的总距离和纵向插值数据与缺失数据的总距离,进行归一化处理,得到与初步填充插值数据对应的权重值;与初步填充插值数据对应的权重值包括横向初步填充结果权重值和纵向初步填充结果权重值。
根据公式
Figure BDA0004026684230000091
对横向插值数据与缺失数据的总距离,以及纵向插值数据与缺失数据的总距离进行归一化处理,r的取值范围为1和2。在对横向初步填充结果权重值进行计算时,r=1,根据公式
Figure BDA0004026684230000092
计算横向初步填充结果权重值。其中,d1为横向插值数据与缺失数据的总距离,d2为纵向插值数据与缺失数据的总距离,ω1为横向初步填充结果权重值。在对纵向初步填充结果权重值进行计算时,r=2时,根据公式
Figure BDA0004026684230000093
计算纵向初步填充结果权重值。其中,ω2为纵向初步填充结果权重值。
在一种可选的实施例中,计算横向插值数据与缺失数据的总距离,以及纵向插值数据与缺失数据的总距离,包括:
计算横向插值数据中各个数据与缺失数据的横向坐标距离;
根据横向坐标距离确定横向插值数据中各个数据的横向反距离权重;
根据横向反距离权重,确定横向插值数据与缺失数据的总距离;
计算纵向插值数据中各个数据与缺失数据的纵向坐标距离;
根据纵向坐标距离确定纵向插值数据中各个数据的纵向反距离权重;
根据纵向反距离权重,确定横向插值数据与缺失数据的总距离。
根据公式
Figure BDA0004026684230000094
计算横向插值数据中各个数据的横向反距离权重,其中,λi为横向插值数据中各个数据的横向反距离权重,hi为横向插值数据中各个数据矩阵坐标与缺失数据矩阵坐标的坐标距离,i表示第i个横向插值数据,n表示横向插值数据的总个数。
根据公式d1=∑txrow,i确定横向插值数据与缺失数据的总距离,其中,d1为横向插值数据与缺失数据的总距离,xrow,为第i个横向插值数据,t为横向反距离权重的总数。
根据公式
Figure BDA0004026684230000101
计算纵向插值数据中各个数据的纵向反距离权重,其中,λj为纵向插值数据中各个数据的纵向反距离权重,hj为纵向插值数据中各个数据矩阵坐标与缺失数据矩阵坐标的坐标距离,j表示第j个纵向插值数据,m表示纵向插值数据的总个数。
根据公式d2=∑exrow,j*j确定横向插值数据与缺失数据的总距离,其中,d2为横向插值数据与缺失数据的总距离,xrow,j为第j个横向插值数据,e为纵向反距离权重的总数。
通过将权重的计算分成两步,首先考虑插值数据与缺失值的坐标距离远近,为每个插值数据赋予反距离权重(插值数据与缺失值坐标距离越远,权重越小)。其次考虑横纵向插值数据的多少,对横向插值数据与缺失值数据的总距离和纵向插值数据与缺失值数据的总距离做归一化处理,得到横向初步填充结果和纵向初步填充结果的权重。
S108:根据初步填充插值数据以及与初步填充插值数据对应的权重值,确定与缺失数据对应的填充值。
根据初步填充插值和与初步填充插值数据对应的权重值计算缺失数据的填充值。
在一种可选的实施例中,根据初步填充插值数据以及与初步填充插值数据对应的权重值,确定与缺失数据对应的填充值,包括:
根据与初步填充差值数据对应的权重值,对初步填充插值数据进行加权求和,得到与缺失数据对应的填充值。
根据公式F1*22*2对初步填充插值数据进行加权求和,确定与缺失数据对应的填充值,其中,F为与缺失数据对应的填充值。通过对横向初步填充结果权重值和纵向初步填充结果权重值进行加权求和,从而避免过度拟合,提高填充结果的可变性。
为便于理解,下面进行举例说明:
以14*12的矩阵为例,将xk,k作为缺失数据,则矩阵为:
Figure BDA0004026684230000111
A:将xk,k预填充为零,得到完整的数据矩阵。
B:将{xk,1,…,xk,k-1,0,xk,k+1,…,xk,12}作为与该缺失数据对应的横向插值数据,横向插值训练数据为其他完整行数据,将{x1,k,…,xk-1,k,0,xk+1,k,…,x14,k}作为与该缺失数据对应的纵向插值数据,纵向插值训练数据为其他完整列数据。
C:搭建横向对抗网络模型和纵向对抗网络模型,预设长度为3,生成器的编码器将每组横向插值训练数据划分为4组长度为3的向量,以第一行为例4组向量分别为(x1,1,x1,2,x1,3)、(x1,4,x1,5,x1,6)、(x1,7,x1,8,x1,9)、(x1,10,x1,11,x1,12)。将每组纵向插值训练数据划分为5组长度为3的向量,以第一列为例,5组向量分别为(x1,1,x2,1,x3,1)、(x4,1,x5,1,x6,1)、(x7,1,x8,1,x9,1)、(x10,1,x11,1,x12,1)、(x12,1,x13,1,x14,1)。
D:使用横向插值训练向量对横向对抗网络模型进行训练,使用纵向插值训练向量对纵向对抗网络模型进行训练。在训练过程中生成器和判别器同步迭代更新,直到判别器无法判别生成器所生成的横\纵向数据是否为真实的横纵向数据,这时得到的生成器可以作为对抗网络模型。
E:将横向插值数据输入到训练后的横向对抗网络模型中,得到横向初步填充结果f1,将纵向插值数据输入到训练后的纵向对抗网络模型中,得到纵向初步填充结果f2。
F:根据公式
Figure BDA0004026684230000121
计算横向插值数据中各个数据的横向反距离权重,根据公式d1=∑txrow,i确定横向插值数据与缺失数据的总距离。根据公式
Figure BDA0004026684230000122
计算纵向插值数据中各个数据的纵向反距离权重,根据公式d2=∑exrow,j*j确定横向插值数据与缺失数据的总距离,根据公式
Figure BDA0004026684230000123
对横向插值数据与缺失数据的总距离,以及纵向插值数据与缺失数据的总距离进行归一化处理,得到横向初步填充结果权重值和纵向初步填充结果权重值。
G:根据公式F1*12*2对初步填充插值数据进行加权求和,得到与缺失数据对应的填充值。
通过对缺失数据进行预填充,充分利用现有数据搭建对抗网络模型,并通过横向插值训练向量和纵向插值训练向量对相应的对抗网络模型进行训练,将插值数据输入至训练后的对抗网络模型中,得到较为精准的初步填充插值数据,并确定与初步插值数据对应的权重值,根据初步填充插值数据和对应的权重值确定与缺失数据对应的填充值,从而通过对缺失数据的初步填充,提高初步插值数据的准确性,得到较为精准的填充值。
如图2所示,本申请实施例提供了一种缺失数据的填充装置,该装置包括:
填充单元201,用于对缺失数据进行预填充;
数据获取单元202,用于根据预填充缺失数据,确定与预填充缺失数据对应的插值数据和插值训练数据;插值数据为预填充缺失数据所在的数据矩阵中,预填充缺失数据所在行和列上的数据;插值数据包括横向插值数据和纵向插值数据;插值训练数据为预填充缺失数据所在的数据矩阵中与插值数据平行的完整行数据和完整列数据;插值训练数据包括,横向插值训练数据和纵向插值训练数据;
生成单元203,用于生成对抗网络模型;
划分单元204,用于用于根据预设长度对插值训练数据进行划分,得到插值训练向量;
训练单元205,用于根据插值训练向量训练对抗网络模型;
输入单元206,用于将插值数据输入至训练后的对抗网络模型中,得到初步填充插值数据;
计算单元207,用于确定与初步填充插值数据对应的权重值;根据初步填充插值数据以及与初步填充插值数据对应的权重值,确定与缺失数据对应的填充值。
可选的,生成单元203,具体用于:
生成多组横向向量和多组纵向向量;
根据多组横向向量生成横向对抗网络模型;
根据多组纵向向量生成纵向对抗网络模型。
可选的,划分单元204具体用于:
在预填充缺失数据所在的数据矩阵中以横向数据所在行的最左侧的数据作为起始点,根据预设长度向右进行向量划分,得到多组横向向量;
在预填充缺失数据所在的数据矩阵中以纵向数据所在列的最顶端的数据作为起始点,根据预设长度向下进行向量划分,得到多组纵向向量。
可选的,计算单元207具体用于:
计算横向插值数据与缺失数据的总距离,以及纵向插值数据与缺失数据的总距离;
对横向插值数据与缺失数据的总距离和纵向插值数据与缺失数据的总距离,进行归一化处理,得到与初步填充插值数据对应的权重值;
与初步填充插值数据对应的权重值包括横向初步填充结果权重值和纵向初步填充结果权重值。
可选的,计算单元207具体用于:
计算所述横向插值数据中各个数据与所述缺失数据的横向坐标距离;
根据所述横向坐标距离确定所述横向插值数据中各个数据的横向反距离权重;
根据所述横向反距离权重,确定所述横向插值数据与缺失数据的总距离;
计算所述纵向插值数据中各个数据与所述缺失数据的纵向坐标距离;
根据所述纵向坐标距离确定所述纵向插值数据中各个数据的纵向反距离权重;
根据所述纵向反距离权重,确定所述横向插值数据与缺失数据的总距离。
可选的,计算单元207具体用于:
根据所述与所述初步填充差值数据对应的权重值,对所述初步填充插值数据进行加权求和,得到所述与所述缺失数据对应的填充值。
通过对缺失数据进行预填充,充分利用现有数据搭建对抗网络模型,并通过横向插值训练向量和纵向插值训练向量对相应的对抗网络模型进行训练,将插值数据输入至训练后的对抗网络模型中,得到较为精准的初步填充插值数据,并确定与初步插值数据对应的权重值,根据初步填充插值数据和对应的权重值确定与缺失数据对应的填充值,从而通过对缺失数据的初步填充,提高初步插值数据的准确性,得到较为精准的填充值。
本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括计算机操作指令,当所述计算机操作指令在计算机上运行时,使得所述计算机执行上述任意一种缺失数据的填充方法。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本申请的实施例可提供为方法、装置或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种缺失数据的填充方法,其特征在于,所述填充方法包括:
对缺失数据进行预填充,得到预填充缺失数据;
根据所述预填充缺失数据,确定与所述预填充缺失数据对应的插值数据和插值训练数据;所述插值数据为所述预填充缺失数据所在的数据矩阵中,所述预填充缺失数据所在行和列上的数据;所述插值数据包括横向插值数据和纵向插值数据;所述插值训练数据为所述预填充缺失数据所在的数据矩阵中与所述插值数据平行的完整行数据和完整列数据;所述插值训练数据包括,横向插值训练数据和纵向插值训练数据;
生成对抗网络模型;
根据预设长度对所述插值训练数据进行划分,得到插值训练向量;
根据所述插值训练向量训练所述对抗网络模型;
将所述插值数据输入至训练后的对抗网络模型中,得到初步填充插值数据;
确定与所述初步填充插值数据对应的权重值;
根据所述初步填充插值数据以及所述与所述初步填充插值数据对应的权重值,确定与所述缺失数据对应的填充值。
2.根据权利要求1所述的填充方法,其特征在于,所述生成对抗网络模型包括:
生成横向对抗网络模型和纵向对抗网络模型。
3.根据权利要求1所述的填充方法,其特征在于,所述根据预设长度对所述插值训练数据进行划分,得到插值训练向量,包括:
所述插值训练向量包括横向插值训练向量和纵向插值训练向量;
以所述横向插值训练数据中的最左侧的数据作为起始点,根据所述预设长度向右进行向量划分,得到所述横向插值训练向量;
以所述纵向插值训练数据中的最顶端的数据作为起始点,根据所述预设长度向下进行向量划分,得到所述纵向插值训练向量。
4.根据权利要求1所述的填充方法,其特征在于,所述确定与所述初步填充插值数据对应的权重值,包括:
计算所述横向插值数据与所述缺失数据的总距离,以及所述纵向插值数据与所述缺失数据的总距离;
对所述横向插值数据与所述缺失数据的总距离和所述纵向插值数据与所述缺失数据的总距离,进行归一化处理,得到所述与所述初步填充插值数据对应的权重值;
所述与所述初步填充插值数据对应的权重值包括横向初步填充结果权重值和纵向初步填充结果权重值。
5.根据权利要求4所述的填充方法,其特征在于,所述计算所述横向插值数据与所述缺失数据的总距离,以及所述纵向插值数据与所述缺失数据的总距离,包括:
计算所述横向插值数据中各个数据与所述缺失数据的横向坐标距离;
根据所述横向坐标距离确定所述横向插值数据中各个数据的横向反距离权重;
根据所述横向反距离权重,确定所述横向插值数据与缺失数据的总距离;
计算所述纵向插值数据中各个数据与所述缺失数据的纵向坐标距离;
根据所述纵向坐标距离确定所述纵向插值数据中各个数据的纵向反距离权重;
根据所述纵向反距离权重,确定所述横向插值数据与缺失数据的总距离。
6.根据权利要求5所述的填充方法,其特征在于,所述根据所述初步填充插值数据以及所述与所述初步填充插值数据对应的权重值,确定与所述缺失数据对应的填充值,包括:
根据所述与所述初步填充差值数据对应的权重值,对所述初步填充插值数据进行加权求和,得到所述与所述缺失数据对应的填充值。
7.一种缺失数据的填充装置,其特征在于,所述装置包括:
填充单元,用于对缺失数据进行预填充;
数据获取单元,用于根据所述预填充缺失数据,确定与所述预填充缺失数据对应的插值数据和插值训练数据;所述插值数据为所述预填充缺失数据所在的数据矩阵中,所述预填充缺失数据所在行和列上的数据;所述插值数据包括横向插值数据和纵向插值数据;所述插值训练数据为所述预填充缺失数据所在的数据矩阵中与所述插值数据平行的完整行数据和完整列数据;所述插值训练数据包括,横向插值训练数据和纵向插值训练数据;
生成单元,用于生成对抗网络模型;
划分单元,用于根据预设长度对所述插值训练数据进行划分,得到插值训练向量;
训练单元,用于根据所述插值训练向量训练所述对抗网络模型;
输入单元,用于将所述插值数据输入至训练后的对抗网络模型中,得到初步填充插值数据;
计算单元,用于确定与所述初步填充插值数据对应的权重值;根据所述初步填充插值数据以及所述与所述初步填充插值数据对应的权重值,确定与所述缺失数据对应的填充值。
8.根据权利要求7所述的填充装置,其特征在于,所述生成单元,具体用于:
生成横向对抗网络模型和纵向对抗网络模型。
9.根据权利要求7所述的填充装置,其特征在于,所述划分单元具体用于:
所述插值训练向量包括横向插值训练向量和纵向插值训练向量;
以所述横向插值训练数据中的最左侧的数据作为起始点,根据所述预设长度向右进行向量划分,得到所述横向插值训练向量;
以所述纵向插值训练数据中的最顶端的数据作为起始点,根据所述预设长度向下进行向量划分,得到所述纵向插值训练向量。
10.根据权利要求7所述的填充装置,其特征在于,所述计算单元具体用于:
计算所述横向插值数据与所述缺失数据的总距离,以及所述纵向插值数据与所述缺失数据的总距离;
对所述横向插值数据与所述缺失数据的总距离和所述纵向插值数据与所述缺失数据的总距离,进行归一化处理,得到所述与所述初步填充插值数据对应的权重值;
所述与所述初步填充插值数据对应的权重值包括横向初步填充结果权重值和纵向初步填充结果权重值。
CN202211716617.4A 2022-12-29 2022-12-29 一种缺失数据的填充方法及装置 Pending CN116049672A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211716617.4A CN116049672A (zh) 2022-12-29 2022-12-29 一种缺失数据的填充方法及装置
PCT/CN2023/133196 WO2024139861A1 (zh) 2022-12-29 2023-11-22 一种缺失数据的填充方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211716617.4A CN116049672A (zh) 2022-12-29 2022-12-29 一种缺失数据的填充方法及装置

Publications (1)

Publication Number Publication Date
CN116049672A true CN116049672A (zh) 2023-05-02

Family

ID=86125829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211716617.4A Pending CN116049672A (zh) 2022-12-29 2022-12-29 一种缺失数据的填充方法及装置

Country Status (2)

Country Link
CN (1) CN116049672A (zh)
WO (1) WO2024139861A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117828373A (zh) * 2024-03-05 2024-04-05 四川省医学科学院·四川省人民医院 基于集合划分和自监督学习的缺失数据填充方法及系统
WO2024139861A1 (zh) * 2022-12-29 2024-07-04 中国互联网络信息中心 一种缺失数据的填充方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9940541B2 (en) * 2015-07-15 2018-04-10 Fyusion, Inc. Artificially rendering images using interpolation of tracked control points
CN110175168B (zh) * 2019-05-28 2021-06-01 山东大学 一种基于生成对抗网络的时间序列数据填补方法及系统
CN113672605A (zh) * 2021-08-17 2021-11-19 杭州鲁尔物联科技有限公司 缺失值填补方法、装置、计算机设备及存储介质
CN115510042A (zh) * 2022-08-30 2022-12-23 北京邮电大学 基于生成对抗网络的电力系统负荷数据填补方法及装置
CN116049672A (zh) * 2022-12-29 2023-05-02 中国互联网络信息中心 一种缺失数据的填充方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024139861A1 (zh) * 2022-12-29 2024-07-04 中国互联网络信息中心 一种缺失数据的填充方法及装置
CN117828373A (zh) * 2024-03-05 2024-04-05 四川省医学科学院·四川省人民医院 基于集合划分和自监督学习的缺失数据填充方法及系统

Also Published As

Publication number Publication date
WO2024139861A1 (zh) 2024-07-04

Similar Documents

Publication Publication Date Title
CN116049672A (zh) 一种缺失数据的填充方法及装置
CN103116639B (zh) 基于用户-物品二分图模型的物品推荐方法及系统
US20150254554A1 (en) Information processing device and learning method
CN116316617B (zh) 多场站智能融合的新能源发电功率区域预测方法和系统
Ma et al. Research on slope reliability analysis using multi-kernel relevance vector machine and advanced first-order second-moment method
CN112818529A (zh) 一种约束空间近似正交空间填充试验设计方法
JP2023543004A (ja) ヒルベルト曲線に基づくr木インデックスのマージ更新方法、装置及び媒体
CN110011838B (zh) 一种动态网络PageRank值的实时跟踪方法
CN110083732B (zh) 图片检索方法、装置及计算机存储介质
CN105138527A (zh) 一种数据分类回归方法及装置
CN114281950A (zh) 基于多图加权融合的数据检索方法与系统
CN117349023A (zh) 应用部署方法、设备及存储介质
CN110147804B (zh) 一种不平衡数据处理方法、终端及计算机可读存储介质
CN114186168A (zh) 面向智能城市网络资源的相关性分析方法及装置
CN116342077B (zh) 一种适用于数据缺失场站的新能源功率迁移学习预测方法
CN117033969A (zh) 资源转移数据的监测方法、装置、计算机设备和存储介质
CN117875091B (zh) 基于适应性算法的高精度曲面建模方法的优化方法和装置
CN115640336B (zh) 业务大数据挖掘方法、系统及云平台
CN118072863B (zh) 基于贝叶斯优化的液晶材料配方设计方法、设备及介质
CN113408038B (zh) 一种基于数值模拟的地形插值方法及系统
CN113011113B (zh) 一种离散点云重复点快速查找方法
CN106910141B (zh) 一种复杂有源配电网分解方案优选方法及装置
CN118607725A (zh) 风功率预测方法、装置、计算机设备及存储介质
CN116933974A (zh) 输电工程全生命周期资源值确定方法、装置和计算机设备
CN118709802A (zh) 一种量子纠错处理方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination