CN108228896A - 一种基于密度的缺失数据填补方法及装置 - Google Patents

一种基于密度的缺失数据填补方法及装置 Download PDF

Info

Publication number
CN108228896A
CN108228896A CN201810113037.3A CN201810113037A CN108228896A CN 108228896 A CN108228896 A CN 108228896A CN 201810113037 A CN201810113037 A CN 201810113037A CN 108228896 A CN108228896 A CN 108228896A
Authority
CN
China
Prior art keywords
tuple
attribute
candidate
missing
fills
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810113037.3A
Other languages
English (en)
Other versions
CN108228896B (zh
Inventor
王建民
宋韶旭
孙宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201810113037.3A priority Critical patent/CN108228896B/zh
Publication of CN108228896A publication Critical patent/CN108228896A/zh
Application granted granted Critical
Publication of CN108228896B publication Critical patent/CN108228896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于密度的缺失数据填补方法及装置,所述方法包括:获取候选填补属性集合,其中,候选填补属性集合中包含多个用于填补缺失元组中缺失属性的候选填补属性;从候选填补属性集合中选择一个符合预设条件的候选填补属性作为缺失元组的最终填补值,所述预设条件为:使与填补后的缺失元组间的距离小于在第一预设距离的完整元组的个数最大。本发明提供的基于密度的缺失数据填补方法及装置,通过构建候选填补属性集合,并从中选择符合预设条件的候选填补属性作为所述缺失元组的最终填补值,选择具有最大邻居密度的候选填补属性作为最终填补结果,使缺失元组的相邻元组个数最大,确保了不会产生错误填补,并进一步提高了填补的准确率。

Description

一种基于密度的缺失数据填补方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于密度的缺失数据填补方法及装置。
背景技术
随着互联网和移动互联网的高速发展,人们产生的数据总量呈现急剧增长的趋势。随着数据量的不断增加,数据质量的问题也不断凸显。数据背后往往蕴含着巨大的财富,然而数据质量正是这些财富的保证,没有数据质量的保证,这一大堆的数据也只能挖掘出无用的信息。因此,数据质量的重要性不言而喻。而数据缺失问题正是数据质量问题中尤为严重的一类问题。在当今的很多数据库应用中,由于对给定数据库可能存在不完整接入、不准确提取或异构模式等各种问题,经常会出现数据缺失的情况。例如在工业大数据中,由于传感器的问题,经常会出现一大段连续时间内数据的缺失。这些包含空值的数据不仅使系统丢失了很大量的信息,同时也对后续的挖掘分析过程造成很大的麻烦,导致最后输出的结果不可靠。
现有技术中,数据填补技术主要分为两大类:基于统计分布的填补方法和基于规则的填补方法。基于统计分布的填补方法是利用统计分布确定缺失数据的相邻数据,根据相邻数据的值来填补缺失值。基于规则的填补方法是利用预设规则确定缺失数据的相邻数据,根据相邻数据的值来填补缺失值。
然而,现有技术中的数据填补方法都是针对特定的领域中的数据,具有较大的领域局限性。这两种方法都是基于缺失前的数据情况来进行确定填补的值,如果数据缺失情况较为严重的话,找出的相邻数据往往具有非常大的不准确性,从而导致填补的数据不准确,甚至无效。
发明内容
本发明的目的是提供一种基于密度的缺失数据填补方法及装置,解决了现有技术中的数据填补方法的应用范围小、准确性低的技术问题。
为了解决上述技术问题,一方面,本发明提供一种基于密度的缺失数据填补方法,包括:
获取候选填补属性集合,其中,所述候选填补属性集合中包含多个用于填补缺失元组中缺失属性的候选填补属性,所述缺失元组为至少缺失一个属性的元组,所述缺失属性对应一个候选填补属性;
获取所述候选填补属性集合中每一候选填补属性对应的填补元组,每一候选填补属性对应的填补元组为将每一候选填补属性填补至所述缺失元组后所得到的完整元组,所述完整元组为无属性缺失的元组;
计算每一填补元组与数据库中每个完整元组之间的第一距离,统计所述第一距离小于第一预设距离的完整元组的个数,并作为每一填补元组对应的邻居密度;
将最大的邻居密度对应的候选填补属性作为所述缺失元组中缺失属性的最终填补值。
进一步地,所述获取候选填补属性集合,具体为:
计算缺失元组与数据库中每个完整元组之间的第二距离;
获取所有的候选元组,每一候选元组为对应的第二距离小于第二预设距离的完整元组;
以每一候选元组中与所述缺失属性对应的属性为元素构建所述候选填补属性集合。
进一步地,所述计算缺失元组与数据库中每个完整元组之间的第二距离之前,还包括:
对数据库中所有元组的所有属性进行归一化处理。
进一步地,所述第一预设距离为第一预设欧氏距离。
另一方面,本发明提供一种基于密度的缺失数据填补装置,包括:
第一获取模块,用于获取候选填补属性集合,其中,所述候选填补属性集合中包含多个用于填补缺失元组中缺失属性的候选填补属性,所述缺失元组为至少缺失一个属性的元组,所述缺失属性对应一个候选填补属性;
第二获取模块,用于获取所述候选填补属性集合中每一候选填补属性对应的填补元组,每一候选填补属性对应的填补元组为将每一候选填补属性填补至所述缺失元组后所得到的完整元组,所述完整元组为无属性缺失的元组;
计算模块,用于计算每一填补元组与数据库中每个完整元组之间的第一距离,统计所述第一距离小于第一预设距离的完整元组的个数,并作为每一填补元组对应的邻居密度;
填补模块,用于将最大的邻居密度对应的候选填补属性作为所述缺失元组中缺失属性的最终填补值。
再一方面,本发明提供一种用于缺失数据填补的电子设备,包括:
存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述的方法。
又一方面,本发明提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述的方法。
又一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
本发明提供的基于密度的缺失数据填补方法及装置,通过构建候选填补属性集合,并从中选择符合预设条件的候选填补属性作为所述缺失元组的最终填补值,选择具有最大邻居密度的候选填补属性作为最终填补结果,使缺失元组的相邻元组个数最大,确保了不会产生错误填补,并进一步提高了填补的准确率。
附图说明
图1为依照本发明实施例的基于密度的缺失数据填补方法示意图;
图2为依照本发明实施例的基于密度的缺失数据填补装置示意图;
图3为本发明实施例提供的用于缺失数据填补的电子设备的结构示意图。
具体实施方式
为了使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为依照本发明实施例的基于密度的缺失数据填补方法示意图,如图1所示,本发明实施例提供一种基于密度的缺失数据填补方法,包括:
步骤S10、获取候选填补属性集合,其中,所述候选填补属性集合中包含多个用于填补缺失元组中缺失属性的候选填补属性,所述缺失元组为至少缺失一个属性的元组,所述缺失属性对应一个候选填补属性;
步骤S20、获取所述候选填补属性集合中每一候选填补属性对应的填补元组,每一候选填补属性对应的填补元组为将每一候选填补属性填补至所述缺失元组后所得到的完整元组,所述完整元组为无属性缺失的元组;
步骤S30、计算每一填补元组与数据库中每个完整元组之间的第一距离,统计所述第一距离小于第一预设距离的完整元组的个数,并作为每一填补元组对应的邻居密度;
步骤S40、将最大的邻居密度对应的候选填补属性作为所述缺失元组中缺失属性的最终填补值。
具体的,针对待填补的数据库T,T={ti|i=1,…,n},其中,ti表示第i个元组,ti={ti[Aj]|j=1,…,m},其中,ti[Aj]表示第i个元组的第j个属性,n和m均为正整数。
然后,获取待填补的数据库T中每个缺失元组中的缺失属性的候选填补属性集合,其中,所述候选填补属性集合中包含多个用于填补缺失元组中缺失属性的候选填补属性,所述缺失元组为至少缺失一个属性的元组,所述缺失属性对应一个候选填补属性,即,一个缺失属性需要一个候选填补属性进行填补。针对每一个缺失元组,其缺失属性的候选填补属性集合用C(ti'[Aj])表示。
最后,针对某个缺失元组t'i的某个缺失属性t'i[Aj]遍历其缺失属性候选填补属性集合C(ti'[Aj])里面的每一个候选填补属性将该候选填补属性作为填补结果,得到填补元组,即填补后的缺失元组。经过填补后的缺失元组用来表示,再确定与所述填补元组之间的距离小于第一预设距离ε内的完整元组的个数,并以该个数作为每一填补元组对应的邻居密度,选择最大邻居密度对应的候选填补属性来作为缺失元组的最终填补值,即填补完该缺失属性值后,该缺失元组的邻居(相邻元组)个数最大。用公式表示如下:
其中,对于任意一个依次将所有缺失元组的所有缺失值进行填补,直到所有缺失值被填补为止,待填补的数据库T的填补完成。
本发明提供的基于密度的缺失数据填补方法,通过构建候选填补属性集合,并从中选择符合预设条件的候选填补属性作为所述缺失元组的最终填补值,选择具有最大邻居密度的候选填补属性作为最终填补结果,使缺失元组的相邻元组个数最大,确保了不会产生错误填补,并进一步提高了填补的准确率。
在上述实施例的基础上,进一步地,所述获取候选填补属性集合,具体为:
计算缺失元组与数据库中每个完整元组之间的第二距离;
获取所有的候选元组,每一候选元组为对应的第二距离小于第二预设距离的完整元组;
以每一候选元组中与所述缺失属性对应的属性为元素构建所述候选填补属性集合。
具体的,当获取缺失元组t'i中缺失属性t'i[Aj]的候选填补属性集合时,首先需要计算缺失元组与数据库中每个完整元组之间的距离,与缺失元组t'i之间的距离小于第二预设距离范围ε′内的完整元组N(t'i),构成候选元组,此时,计算距离时,针对有缺失属性的缺失元组t'i,其相邻完整元组的定义为在该缺失元组的非缺失属性集上,与缺失元组t'i之间的距离小于第二预设距离范围ε′的完整元组。即其中,ε'为预先给定的第二预设距离阈值,为缺失元组t'i同完整元组在非缺失属性上的距离。
然后,以每一候选元组中与所述缺失属性对应的属性为元素构建所述候选填补属性集合。
针对每一个缺失元组,利用其各个相邻完整元组N(t′i)在其缺失属性Aj上的取值构成缺失属性的填补候选集,构建出来的缺失属性的候选填补属性集合用C(ti'[Aj])表示,
本发明提供的基于密度的缺失数据填补方法,通过构建候选填补属性集合,并从中选择符合预设条件的候选填补属性作为所述缺失元组的最终填补值,选择具有最大邻居密度的候选填补属性作为最终填补结果,使缺失元组的相邻元组个数最大,确保了不会产生错误填补,并进一步提高了填补的准确率。
在以上各实施例的基础上,进一步地,所述计算缺失元组与数据库中每个完整元组之间的第二距离之前,还包括:
对数据库中所有元组的所有属性进行归一化处理。
具体的,在获取距离缺失元组的长度在第二预设距离范围内的完整元组之前,还包括对数据库中所有元组的所有属性的值进行归一化处理。
将数据库T中所有元组的所有属性值采用min-max的方式进行归一化,以避免对各属性度量单位选择的依赖性、提高对邻居元组判定的准确性。进行归一化处理的公式如下:
其中,max[Aj],min[Aj]分别为数据库中属性Aj的最大值和最小值。
本发明提供的基于密度的缺失数据填补方法,通过构建候选填补属性集合,并从中选择符合预设条件的候选填补属性作为所述缺失元组的最终填补值,选择具有最大邻居密度的候选填补属性作为最终填补结果,使缺失元组的相邻元组个数最大,确保了不会产生错误填补,并进一步提高了填补的准确率。
在以上各实施例的基础上,进一步地,所述第一预设距离为第一预设欧氏距离。
具体的,第一预设距离可以是曼哈顿距离等计算数据点间距离的方法。
为了进一步提高数据填补的准确性,第一预设距离为长度为第一预设值的欧氏距离ε。计算公式如下:
其中,S为缺失元组t’i的非缺失属性的集合。
本发明提供的基于密度的缺失数据填补方法,通过构建候选填补属性集合,并从中选择符合预设条件的候选填补属性作为所述缺失元组的最终填补值,选择具有最大邻居密度的候选填补属性作为最终填补结果,使缺失元组的相邻元组个数最大,确保了不会产生错误填补,并进一步提高了填补的准确率。
图2为依照本发明实施例的基于密度的缺失数据填补装置示意图,如图2所示,本发明实施例提供一种基于密度的缺失数据填补装置,包括第一获取模块10、第二获取模块20、计算模块30和填补模块40,其中,第一获取模块10用于获取候选填补属性集合,其中,所述候选填补属性集合中包含多个用于填补缺失元组中缺失属性的候选填补属性,所述缺失元组为至少缺失一个属性的元组,所述缺失属性对应一个候选填补属性;
第二获取模块20用于获取所述候选填补属性集合中每一候选填补属性对应的填补元组,每一候选填补属性对应的填补元组为将每一候选填补属性填补至所述缺失元组后所得到的完整元组,所述完整元组为无属性缺失的元组;
计算模块30用于计算每一填补元组与数据库中每个完整元组之间的第一距离,统计所述第一距离小于第一预设距离的完整元组的个数,并作为每一填补元组对应的邻居密度;
填补模块40用于将最大的邻居密度对应的候选填补属性作为所述缺失元组中缺失属性的最终填补值。
本发明实施例提供一种基于密度的缺失数据填补装置,用于完成上述各实施例中所述的方法,通过本实施例提供的填补装置完成上述实施例中所述的方法的具体步骤与上述实施例相同,此处不再赘述。
本发明提供的基于密度的缺失数据填补装置,通过构建候选填补属性集合,并从中选择符合预设条件的候选填补属性作为所述缺失元组的最终填补值,选择具有最大邻居密度的候选填补属性作为最终填补结果,使缺失元组的相邻元组个数最大,确保了不会产生错误填补,并进一步提高了填补的准确率。
图3为本发明实施例提供的用于缺失数据填补的电子设备的结构示意图,如图3所示,所述设备包括:处理器801、存储器802和总线803;
其中,处理器801和存储器802通过所述总线803完成相互间的通信;
处理器801用于调用存储器802中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:
获取候选填补属性集合,其中,所述候选填补属性集合中包含多个用于填补缺失元组中缺失属性的候选填补属性,所述缺失元组为至少缺失一个属性的元组,所述缺失属性对应一个候选填补属性;
获取所述候选填补属性集合中每一候选填补属性对应的填补元组,每一候选填补属性对应的填补元组为将每一候选填补属性填补至所述缺失元组后所得到的完整元组,所述完整元组为无属性缺失的元组;
计算每一填补元组与数据库中每个完整元组之间的第一距离,统计所述第一距离小于第一预设距离的完整元组的个数,并作为每一填补元组对应的邻居密度;
将最大的邻居密度对应的候选填补属性作为所述缺失元组中缺失属性的最终填补值。
本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:
获取候选填补属性集合,其中,所述候选填补属性集合中包含多个用于填补缺失元组中缺失属性的候选填补属性,所述缺失元组为至少缺失一个属性的元组,所述缺失属性对应一个候选填补属性;
获取所述候选填补属性集合中每一候选填补属性对应的填补元组,每一候选填补属性对应的填补元组为将每一候选填补属性填补至所述缺失元组后所得到的完整元组,所述完整元组为无属性缺失的元组;
计算每一填补元组与数据库中每个完整元组之间的第一距离,统计所述第一距离小于第一预设距离的完整元组的个数,并作为每一填补元组对应的邻居密度;
将最大的邻居密度对应的候选填补属性作为所述缺失元组中缺失属性的最终填补值。
本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:
获取候选填补属性集合,其中,所述候选填补属性集合中包含多个用于填补缺失元组中缺失属性的候选填补属性,所述缺失元组为至少缺失一个属性的元组,所述缺失属性对应一个候选填补属性;
获取所述候选填补属性集合中每一候选填补属性对应的填补元组,每一候选填补属性对应的填补元组为将每一候选填补属性填补至所述缺失元组后所得到的完整元组,所述完整元组为无属性缺失的元组;
计算每一填补元组与数据库中每个完整元组之间的第一距离,统计所述第一距离小于第一预设距离的完整元组的个数,并作为每一填补元组对应的邻居密度;
将最大的邻居密度对应的候选填补属性作为所述缺失元组中缺失属性的最终填补值。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置及设备等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种基于密度的缺失数据填补方法,其特征在于,包括:
获取候选填补属性集合,其中,所述候选填补属性集合中包含多个用于填补缺失元组中缺失属性的候选填补属性,所述缺失元组为至少缺失一个属性的元组,所述缺失属性对应一个候选填补属性;
获取所述候选填补属性集合中每一候选填补属性对应的填补元组,每一候选填补属性对应的填补元组为将每一候选填补属性填补至所述缺失元组后所得到的完整元组,所述完整元组为无属性缺失的元组;
计算每一填补元组与数据库中每个完整元组之间的第一距离,统计所述第一距离小于第一预设距离的完整元组的个数,并作为每一填补元组对应的邻居密度;
将最大的邻居密度对应的候选填补属性作为所述缺失元组中缺失属性的最终填补值。
2.根据权利要求1所述的方法,其特征在于,所述获取候选填补属性集合,具体为:
计算缺失元组与数据库中每个完整元组之间的第二距离;
获取所有的候选元组,每一候选元组为对应的第二距离小于第二预设距离的完整元组;
以每一候选元组中与所述缺失属性对应的属性为元素构建所述候选填补属性集合。
3.根据权利要求2所述的方法,其特征在于,所述计算缺失元组与数据库中每个完整元组之间的第二距离之前,还包括:
对数据库中所有元组的所有属性进行归一化处理。
4.根据权利要求1所述的方法,其特征在于,所述第一预设距离为第一预设欧氏距离。
5.一种基于密度的缺失数据填补装置,其特征在于,包括:
第一获取模块,用于获取候选填补属性集合,其中,所述候选填补属性集合中包含多个用于填补缺失元组中缺失属性的候选填补属性,所述缺失元组为至少缺失一个属性的元组,所述缺失属性对应一个候选填补属性;
第二获取模块,用于获取所述候选填补属性集合中每一候选填补属性对应的填补元组,每一候选填补属性对应的填补元组为将每一候选填补属性填补至所述缺失元组后所得到的完整元组,所述完整元组为无属性缺失的元组;
计算模块,用于计算每一填补元组与数据库中每个完整元组之间的第一距离,统计所述第一距离小于第一预设距离的完整元组的个数,并作为每一填补元组对应的邻居密度;
填补模块,用于将最大的邻居密度对应的候选填补属性作为所述缺失元组中缺失属性的最终填补值。
6.一种用于缺失数据填补的电子设备,其特征在于,包括:
存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至4任一所述的方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一所述的方法。
CN201810113037.3A 2018-02-05 2018-02-05 一种基于密度的缺失数据填补方法及装置 Active CN108228896B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810113037.3A CN108228896B (zh) 2018-02-05 2018-02-05 一种基于密度的缺失数据填补方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810113037.3A CN108228896B (zh) 2018-02-05 2018-02-05 一种基于密度的缺失数据填补方法及装置

Publications (2)

Publication Number Publication Date
CN108228896A true CN108228896A (zh) 2018-06-29
CN108228896B CN108228896B (zh) 2019-02-05

Family

ID=62670464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810113037.3A Active CN108228896B (zh) 2018-02-05 2018-02-05 一种基于密度的缺失数据填补方法及装置

Country Status (1)

Country Link
CN (1) CN108228896B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109003619A (zh) * 2018-07-24 2018-12-14 Oppo(重庆)智能科技有限公司 语音数据生成方法及相关装置
CN113704697A (zh) * 2021-08-31 2021-11-26 平安科技(深圳)有限公司 基于多元回归模型的医疗数据缺失处理方法、装置及设备
CN113707334A (zh) * 2021-08-31 2021-11-26 平安科技(深圳)有限公司 基于聚类分析的医疗数据缺失处理方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678721A (zh) * 2014-01-02 2014-03-26 中国联合网络通信集团有限公司 一种处理缺失数据的方法及装置
US8941652B1 (en) * 2012-05-23 2015-01-27 Google Inc. Incremental surface hole filling
CN104850658A (zh) * 2015-06-04 2015-08-19 苏州大学张家港工业技术研究院 一种数据填充方法及系统
CN106155985A (zh) * 2016-06-02 2016-11-23 重庆大学 一种基于相邻数据特征的数据缺失填充方法
CN107193876A (zh) * 2017-04-21 2017-09-22 美林数据技术股份有限公司 一种基于最近邻knn算法的缺失数据填补方法
CN107273445A (zh) * 2017-05-26 2017-10-20 电子科技大学 一种大数据分析中缺失数据混合多重插值的装置和方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8941652B1 (en) * 2012-05-23 2015-01-27 Google Inc. Incremental surface hole filling
CN103678721A (zh) * 2014-01-02 2014-03-26 中国联合网络通信集团有限公司 一种处理缺失数据的方法及装置
CN104850658A (zh) * 2015-06-04 2015-08-19 苏州大学张家港工业技术研究院 一种数据填充方法及系统
CN106155985A (zh) * 2016-06-02 2016-11-23 重庆大学 一种基于相邻数据特征的数据缺失填充方法
CN107193876A (zh) * 2017-04-21 2017-09-22 美林数据技术股份有限公司 一种基于最近邻knn算法的缺失数据填补方法
CN107273445A (zh) * 2017-05-26 2017-10-20 电子科技大学 一种大数据分析中缺失数据混合多重插值的装置和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
武森 等: "基于不完备数据聚类的缺失数据填补方法", 《计算机学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109003619A (zh) * 2018-07-24 2018-12-14 Oppo(重庆)智能科技有限公司 语音数据生成方法及相关装置
CN113704697A (zh) * 2021-08-31 2021-11-26 平安科技(深圳)有限公司 基于多元回归模型的医疗数据缺失处理方法、装置及设备
CN113707334A (zh) * 2021-08-31 2021-11-26 平安科技(深圳)有限公司 基于聚类分析的医疗数据缺失处理方法、装置及存储介质
CN113704697B (zh) * 2021-08-31 2023-12-26 平安科技(深圳)有限公司 基于多元回归模型的医疗数据缺失处理方法、装置及设备

Also Published As

Publication number Publication date
CN108228896B (zh) 2019-02-05

Similar Documents

Publication Publication Date Title
CN104679743B (zh) 一种确定用户的偏好模式的方法及装置
US8237716B2 (en) Algorithm for drawing directed acyclic graphs
CN102982097B (zh) 用于基于知识的数据质量解决方案的域
CN103577440B (zh) 一种非关系型数据库中的数据处理方法和装置
CN109284363A (zh) 一种问答方法、装置、电子设备及存储介质
CN107704512A (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN108228896B (zh) 一种基于密度的缺失数据填补方法及装置
CN114881237B (zh) 量子计算处理方法、装置及电子设备
CN108089893A (zh) 冗余资源的确定方法、装置、终端设备与存储介质
US11841839B1 (en) Preprocessing and imputing method for structural data
Rendell Genetic plans and the probabilistic learning system: Synthesis and results
CN105630803B (zh) 文档型数据库建立索引的方法和装置
CN109447698A (zh) 一种基于神经网络的推荐算法
CN106528815B (zh) 一种路网移动对象概率聚集查询方法及系统
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN107357812A (zh) 一种数据查询方法及装置
CN108664583A (zh) 一种索引树建立方法以及图像检索方法
CN108052542A (zh) 一种基于presto的数据的多维数据的分析方法
CN108205571A (zh) 键值数据表的连接方法及装置
CN114064926A (zh) 多模态电力知识图谱构建方法、装置、设备及存储介质
CN112612903A (zh) 一种可解释的可生成规则的知识图谱嵌入表示学习方法
CN107609011A (zh) 一种数据库记录的维护方法和装置
CN107026897A (zh) 一种数据处理的方法、装置和系统
CN108536834A (zh) 更新列表的方法、装置和终端
CN111158732A (zh) 访问数据处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant