CN107463628A - 数据填充方法及其系统 - Google Patents

数据填充方法及其系统 Download PDF

Info

Publication number
CN107463628A
CN107463628A CN201710569008.3A CN201710569008A CN107463628A CN 107463628 A CN107463628 A CN 107463628A CN 201710569008 A CN201710569008 A CN 201710569008A CN 107463628 A CN107463628 A CN 107463628A
Authority
CN
China
Prior art keywords
data
reference data
target
filled
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710569008.3A
Other languages
English (en)
Other versions
CN107463628B (zh
Inventor
闫强
李爱华
葛胜利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710569008.3A priority Critical patent/CN107463628B/zh
Publication of CN107463628A publication Critical patent/CN107463628A/zh
Application granted granted Critical
Publication of CN107463628B publication Critical patent/CN107463628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种数据填充方法,该方法包括:接收包含有待填充数据的数据文件;获取数据文件中的待填充数据的定位信息,其中,待填充数据为目标数据在指定维度上的数据,目标数据为单维度或多维度数据;根据定位信息,确定用于填充待填充数据的参考数据,其中,目标数据与参考数据在对应维度上满足预定关系;以及利用参考数据填充待填充数据,以生成新的数据文件。本公开还提供了一种数据填充系统以及一种非易失性存储介质。

Description

数据填充方法及其系统
技术领域
公开涉及数据处理领域,更具体地,涉及一种数据填充方法及其系统。
背景技术
随着信息技术的飞速发展,各行各业积累了大量的数据,这些数据往往会存在一些空缺数据(又称为空值),而空缺数据的存在将直接破坏数据的完整性,严重制约后续的数据应用,严重影响数据应用结果的质量。由于好的数据质量是各种数据可以有效应用的基本条件,因此如何估算、预测、或者找回数据中的空缺数据就显得尤为重要。
目前,相关技术中提供了基于统计意义上的空值填充方法。然而,在实现本公开构思的过程中,发明人发现相关技术中至少存在如下问题:相关技术提供的方案一般基于全局数据的分布情况填充空值,导致空值填充质量不高。
针对相关技术中的上述问题,目前还未提出有效的解决方案。
发明内容
有鉴于此,本公开的一个方面提供了一种数据填充方法,包括:接收包含有待填充数据的数据文件;获取上述数据文件中的上述待填充数据的定位信息,其中,上述待填充数据为目标数据在指定维度上的数据,上述目标数据为单维度或多维度数据;根据上述定位信息,确定用于填充上述待填充数据的参考数据,其中,上述目标数据与上述参考数据在对应维度上满足预定关系;以及利用上述参考数据填充上述待填充数据,以生成新的数据文件。
根据本公开的实施例,根据上述定位信息,确定用于填充上述待填充数据的参考数据包括:根据上述定位信息,确定用于填充上述待填充数据的拟定参考数据;计算上述拟定参考数据与上述目标数据在对应维度上的相似度;以及根据相似度计算结果,从上述拟定参考数据中选出相似度满足预设条件的拟定参考数据作为上述参考数据。
根据本公开的实施例,根据相似度计算结果,从上述拟定参考数据中选出相似度满足预设条件的拟定参考数据作为上述参考数据包括:根据上述相似度计算结果,按照相似度大小对上述拟定参考数据进行排序,得到对应的拟定参考数据序列;从上述拟定参考数据序列中选出相似度排在前K位的目标拟定参考数据;计算上述目标拟定参考数据在目标维度上的均值,其中,上述目标维度为上述待填充数据在上述目标数据上的维度相同;若上述均值达到最小值,则将上述目标拟定参考数据作为上述参考数据。
根据本公开的实施例,利用上述参考数据填充上述待填充数据包括:将计算上述目标拟定参考数据在上述目标维度上的均值得到的最小值作为上述待填充数据进行填充。
根据本公开的实施例,在获取待填充数据的定位信息之前,上述方法还包括:对上述目标数据和上述参考数据分别进行标准化处理,得到标准化后的目标数据和标准化后的参考数据;以及利用标准化后的目标数据替换上述目标数据以及利用标准化后的参考数据替换上述参考数据。
本公开的另一方面还提供了一种数据填充系统,包括:接收模块,用于接收包含有待填充数据的数据文件;获取模块,用于获取待填充数据的定位信息,其中,上述待填充数据为目标数据在指定维度上的数据,上述目标数据为单维度或多维度数据;确定模块,用于根据上述定位信息,确定用于填充上述待填充数据的参考数据,其中,上述目标数据与上述参考数据在对应维度上满足预定关系;以及填充模块,用于利用上述参考数据填充上述待填充数据,以生成新的数据文件。
根据本公开的实施例,上述确定模块包括:第一确定单元,用于根据上述定位信息,确定用于填充上述待填充数据的拟定参考数据;计算单元,用于计算上述拟定参考数据与上述目标数据在对应维度上的相似度;以及第二确定单元,用于根据相似度计算结果,从上述拟定参考数据中选出相似度满足预设条件的拟定参考数据作为上述参考数据。
根据本公开的实施例,上述第二确定单元包括:排序子单元,用于根据上述相似度计算结果,按照相似度大小对上述拟定参考数据进行排序,得到对应的拟定参考数据序列;选择子单元,用于从上述拟定参考数据序列中选出相似度排在前K位的目标拟定参考数据;计算子单元,用于计算上述目标拟定参考数据在目标维度上的均值,其中,上述目标维度为上述待填充数据在上述目标数据上的维度相同;确定子单元,用于在上述均值达到最小值的情况下,将上述目标拟定参考数据作为上述参考数据。
根据本公开的实施例,上述填充模块还用于:将计算上述目标拟定参考数据在上述目标维度上的均值得到的最小值作为上述待填充数据进行填充。
根据本公开的实施例,上述系统还包括:处理模块,用于在获取待填充数据的定位信息之前,对上述目标数据和上述参考数据分别进行标准化处理,得到标准化后的目标数据和标准化后的参考数据;以及替换模块,用于利用标准化后的目标数据替换上述目标数据以及利用标准化后的参考数据替换上述参考数据。
本公开的另一方面还提供了一种非易失性存储介质,存储有计算机可执行指令,上述指令在被执行时用于实现如上的数据填充方法。
本公开的另一方面还提供了一种数据填充系统,包括:处理器;以及上述的非易失性存储介质。
根据本公开的实施例,可以至少部分地克服相关技术提供的方案在基于全局数据的分布情况填充空值时容易导致空值填充质量不高的技术问题。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的数据填充方法及其系统的系统架构;
图2示意性示出了根据本公开实施例的数据填充方法的流程图;
图3示意性示出了根据本公开实施例的数据文件的结构示意图;
图4示意性示出了根据本公开实施例的数据填充系统的框图;以及
图5示意性示出了根据本公开另一实施例的数据填充系统的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思,除非上下文另外明确指出。此外,在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。
因此,本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本公开的上下文中,计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
本公开的实施例提供了一种数据填充方法及系统。该数据填充方法可以用于对空缺数据进行填充,其中,空缺数据又称为空值。具体地,接收包含有待填充数据的数据文件;获取数据文件中的待填充数据的定位信息,其中,待填充数据为目标数据在指定维度上的数据,目标数据为单维度或多维度数据;根据定位信息,确定用于填充待填充数据的参考数据,其中,目标数据与参考数据在对应维度上满足预定关系;以及利用参考数据填充待填充数据,以生成新的数据文件。
图1示意性示出了根据本公开实施例的数据填充方法及其系统的系统架构。
如图1所示,系统架构100可以包括终端设备101、终端设备102、终端设备103,网络104和服务器105(此架构仅仅是示例,具体架构中包含的组建可以根据申请具体情况调整)。网络104用以在终端设备101、终端设备102、终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、终端设备102、终端设备103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、终端设备102、终端设备103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、终端设备102、终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、终端设备102、终端设备103所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本公开实施例所提供的数据填充方法可以由服务器105执行,也可以由不同于服务器105的另外一个服务器或者一个服务器集群执行。相应地,数据填充系统可以设置于服务器105中,也可以设置与服务器105以外的另一个服务器或者一个服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
本公开的实施例提供了一种数据充填方法。
图2示意性示出了根据本公开实施例的数据填充方法的流程图。
如图2所示,该方法可以包括操作S201~操作S204,其中:
操作S201,接收包含有待填充数据的数据文件。
需要说明的是,本公开实施例提供的技术方案,其可应用的业务场景十分广泛,在此不做限定。比如,可应用于数据挖掘,商业智能(Business Intelligence,简称为BI)分析或日常业务。这里的数据(可表示为[DATA])是一个泛指,并非限定,数据文件通常是解决业务问题的数据对应的文件,包括由常规的数据存储方法得到的数据结果集。
通常情况下,数据格式如表1所示,这里阐述的数据格式,只是数据输入的一种格式,各个指标都没有任何业务依赖,数据格式包括但不限于以下格式,在此不做限定。
表1
ID 指标1 指标2 指标3 …… 指标n
1 Val1 Val2 Val3 Valn
2 Val1 Val2 Valn
Val1 Val2 Val3 Valn
m Val1 Val2 Val3 Valn
可以看出,通常情况下,数据列表中有行信息和列信息,其中ID代表了一个特定的身份标识(IDentity,简称为ID),是本行数据的主键,也是数据的唯一标识,即ID可以确定一行数据,后续各指标数据都是该ID的表现数据,分别由代表不同维度的指标值组成,每个指标值代表对应ID的属性数据。一般地,指标数据可以通过数据抽取、转换和加载技术(Extraction Transformmation and Loading,简称为ETL)加工处理。首先通过结构化查询语言(Structured Query Language,简称为SQL)语句WHERE限定业务指标的条件,再将计算指标结果插入到目标表结构中。
操作S202,获取数据文件中的待填充数据的定位信息,其中,待填充数据为目标数据在指定维度上的数据,目标数据为单维度或多维度数据。
定位信息可以是代表数据身份标识的ID,是带填充数据所在行数据的主键,对于任何一个待填充的数据来说,定位信息是唯一的。通过定位信息能够找到待填充数据在数据结构集中的位置,根据定位信息,区分出带有一定定位信息的待充填数据对应的目标数据。
需要说明的是,获取数据文件中的待填充数据的定位信息可以通过多种方法,在此不做限定。
例如,在表1中,假定[DATA]数据由m行n列组成,m和n为大于1的整数。每一个ID代表一个特定的身份标识,后续n列指标值都是对应ID的表现数据,其中指标1可以是表示用户性别的数据,指标2可以是表示用户年龄的数据,指标3可以是表示用户购物偏好产品的数据等,每个指标值代表对应ID的属性数据,以上仅为示例,在此不做限定,通过空值所在位置确定的定位信息为第2行第3列。
操作S203,根据定位信息,确定用于填充待填充数据的参考数据,其中,目标数据与参考数据在对应维度上满足预定关系。
在通过空值的定位信息确定出待填充数据后,[DATA]数据就由包含空值的目标数据和不包含空值的填充数据组成,其中不包含空值的数据为填充数据,用来和目标数据进行相似度计算,选择与目标数据在对应维度上满足预定关系的填充数据为参考数据,参考数据可以是部分填充数据,也可以是全部填充数据,预定关系可以是经验值,在此不做限定。
需要说明的是,目标数据可以包含多个空值,参考数据中没有空值。
操作S204,利用参考数据填充待填充数据,以生成新的数据文件。
将参考数据在对应维度上的均值作为填充数据对待填充数据进行充填,生成新的数据文件,直到待充填数据被充填完成。
需要说明的是,上述数据文件可以包含多个空值,其中,每个空值的填充都适用于本公开提供的数据填充方法。
与相关技术相比,本公开实施例中提供的数据填充方法克服相关技术提供的方案在基于全局数据的分布情况填充空值时容易导致空值填充质量不高的技术问题,在较大范围内保证了数据相似性,使得空值填充的质量得以提高。
图3示意性示出了根据本公开实施例的数据文件的结构示意图。
如图3所示,[DATA]数据由待填充数据和拟定参考数据组成,其中,待填充数据为数据文件中包含空值的数据,可以包含多个空值,拟定参考数据为不包含空值的数据,待填充数据和拟定参考数据在对应维度上具有相关性或关联性。
需要说明的是,根据定位信息确定用于填充待填充数据的参考数据可以包括多种方式,在此不做限定。例如,作为一种可选的实施方式,根据定位信息,确定用于填充待填充数据的参考数据可以包括:根据定位信息,确定用于填充待填充数据的拟定参考数据;计算拟定参考数据与目标数据在对应维度上的相似度;以及根据相似度计算结果,从拟定参考数据中选出相似度满足预设条件的拟定参考数据作为参考数据。
对于待充填数据来说,首先通过邻域的差异性评估,确定最近邻域的范围,其中,邻域的范围指和目标数据相似度较高的数据条数,邻域就是指和本目标数据相似度较高的其他数据行组成的结果域。
例如,假设数据文件除ID以外的数据,第k行第k行i列个为Aki,第i个属性的前k行均值为第i个属性全部数据的均值为共有n个属性。
第f和k行数据的相似度系数P(f,k)为:
其中,为[DATA]中第i个属性A的均值
本公开实施例提供两种方法计算拟定参考数据和目标数据的相似度系数:
1、对于[DATA],排除a列中的数据,分别计算拟定参考数据和目标数据的相似度系数P(k,i),1<i<=n;
2、对于[DATA]中的a列数据,排除空值后计算均值,然后通过均值填充所有a列的空值,然后计算y行和各个数据行的相似度系数P(k,i),1<i<=n。
需要说明的是,除了上述两种方法之外,本公开还可以采用其他方法计算拟定参考数据和目标数据的相似度系数,在此不做详细介绍。另外,对于相似度系数来说,数据的值越大,说明相似度越高。而且相似度量是除ID以外的其他属性和自身均值差异程度决定的,有很好的数据性质,他综合的考虑了整合各个属性之间的联系。
与相关技术相比,本公开实施例中提供的数据填充方法利用相似度系数这个参数作为从拟定参考数据中选择参考数据的依据,而相似度系数有很好的数据性质,且综合的考虑了整合各个属性之间的联系,使得参考数据可信度更高,填充结果更可靠。
需要说明的是,根据相似度计算结果,从拟定参考数据中选出相似度满足预设条件的拟定参考数据作为参考数据可以包括多种方式,在此不做限定。例如,作为一种可选的实施方式,根据相似度计算结果,从拟定参考数据中选出相似度满足预设条件的拟定参考数据作为参考数据可以包括:根据相似度计算结果,按照相似度大小对拟定参考数据进行排序,得到对应的拟定参考数据序列;从拟定参考数据序列中选出相似度排在前K位的目标拟定参考数据;计算目标拟定参考数据在目标维度上的均值,其中,目标维度为待填充数据在目标数据上的维度相同;若均值达到最小值,则将目标拟定参考数据作为参考数据。
例如,假定第k行第a列数据为实验对比数据,这里的a通常情况下为需要数据填充的数据,用Dka来表示。确定K值的核心步骤如下:
1)在计算出目标数据和拟定参考数据的相似度系数P(k,i),(1<=i<=n)之后,按照拟定参考数据和目标数据的相似度系数值进行降序排列,可以得到相似度系数依次降低的拟定参考数据序列,这样,与目标数据相似度越高的数据排在前面。
需要说明的是,按照拟定参考数据和目标数据的相似度系数得到拟定参考数据序列可以包括多种方式,在此不做限定。
2)分别重复的从[DATA]中选取前x行数据,这里1<x<=n,这里建议x由小到大的取值,同等条件下x的值较小为佳。同时经过排序后的数据第一行相似度应该为1,本行数据和本行数据的相似度最大,所以我们在选择前x行数据时,这里的第一行数据排除在外。
需要说明的是,这里只是在效果衡量阶段进行数据行的排除,并非直接从[DATA]中数据删除。
3)效果的衡量可以通过下述方法衡量:
假设前x行a列的均值为同时记那么当x的值在变动时,的值一直也在变动,我们的目标即为当最小同时,x的值也最小。当然是一个相对收敛的值,我们可以找到一个x是的小于一定的阈值,这个阈值可以是经验值,按照数据的情况进行,默认可以赋值0.1,而数据层面可以通过收敛值确定,在此不再赘述。
4)重复步骤3)可以得到一个x值的列表,最终我们可以计算列表中x值的均值做为邻域范围K值。
与相关技术相比,本公开实施例中提供的数据填充方法是选择与目标数据相似度较高的参考数据来填充空值,保证了目标数据和参考数据之间的相似性,填充结果可靠性高。
作为一种可选的实施方式,利用参考数据填充待填充数据可以包括:将计算目标拟定参考数据在目标维度上的均值得到的最小值作为待填充数据进行填充。
例如,选取[DATA]中不包含第一行的前K值行,然后计算这个范围内的a列的数据均值,通过该均值第k行第a列的空值。在确定出与目标数据相似度高的参考数据后,利用邻域范围内参考数据的最小均值来填充空值,
与相关技术相比,本公开实施例中提供的数据填充方法利用邻域范围内对应维度的数据均值来填充空值,可以最大限度的考虑属性间存在的相关性或者关联性,保证空值的数据质量。
作为一种可选的实施方式,在获取待填充数据的定位信息之前,上述方法还包括:对目标数据和参考数据分别进行标准化处理,得到标准化后的目标数据和标准化后的参考数据;以及利用标准化后的目标数据替换目标数据以及利用标准化后的参考数据替换参考数据。
标准化也称为规范化,通常标准化的方式有两种,分别是最小-最大规范化和Z-SCORE。其中,最小-最大规范化很好的保持原始数据值之间的联系,而Z-SCORE更加倾向反应数据差异离散的程度。由于本方案后续更加倾向均值,所以这里选择最小-最大规范化。
假设μ为平均数,σ为标准差,X为每列属性的所有行数值,那么标准化后的数据为:
z=(x-μ)/σ
其中,
通过上述方式,我们可以将[DATA]中的所有连续指标进行标准化。
需要说明的是,对于标准化,常规的都为连续性指标,如果是离散的指标,无需标准化,非连续的不进入该装置。
与相关技术相比,本公开实施例中提供的数据填充方法,由于在计算目标数据和参考数据的相似度之前,对目标数据和参考数据分别进行了标准化处理,消除了由于数据单位大小不一致导致的数据度量效果差异的问题,使得各个属性等权重、等效果。
本公开的实施例提供了一种能够用于执行上述数据填充方法的数据填充系统。
图4示意性示出了根据本公开实施例的数据填充系统的框图。
如图4所示,该数据填充的系统400可以包括:接收模块401、获取模块402、确定模块403和填充模块404。该系统可以执行上面参考图2描述的方法,以实现对数据填充的目的。其中:
接收模块401用于接收包含有待填充数据的数据文件。
本公开实施例提供的技术方案,其可应用的业务场景十分广泛,在此不做限定。比如,可应用于数据挖掘,商业智能(Business Intelligence,简称为BI)分析或日常业务。这里的数据(可表示为[DATA])是一个泛指,并非限定,数据文件通常是解决业务问题的数据对应的文件,包括由常规的数据存储方法得到的数据结果集。
通常情况下,数据格式如表1所示,这里阐述的数据格式,只是数据输入的一种格式,各个指标都没有任何业务依赖,数据格式包括但不限于以下格式,在此不做限定。
可以看出,通常情况下,数据列表中有行信息和列信息,其中ID代表了一个特定的身份标识(IDentity,简称为ID),是本行数据的主键,也是数据的唯一标识,即ID可以确定一行数据,后续各指标数据都是该ID的表现数据,分别由代表不同维度的指标值组成,每个指标值代表对应ID的属性数据。一般地,指标数据可以通过数据抽取、转换和加载技术(Extraction Transformmation and Loading,简称为ETL)加工处理。首先通过结构化查询语言(Structured Query Language,简称为SQL)语句WHERE限定业务指标的条件,再将计算指标结果插入到目标表结构中。
获取模块402用于获取待填充数据的定位信息,其中,待填充数据为目标数据在指定维度上的数据,目标数据为单维度或多维度数据。
定位信息可以是代表数据身份标识的ID,是带填充数据所在行数据的主键,对于任何一个待填充的数据来说,定位信息是唯一的。通过定位信息能够找到待填充数据在数据结构集中的位置,根据定位信息,区分出带有一定定位信息的待充填数据对应的目标数据。
需要说明的是,获取数据文件中的待填充数据的定位信息可以通过多种方法,在此不做限定。
确定模块403用于根据定位信息,确定用于填充待填充数据的参考数据,其中,目标数据与参考数据在对应维度上满足预定关系。
在通过空值的定位信息确定出待填充数据后,[DATA]数据就由包含空值的目标数据和不包含空值的填充数据组成,其中不包含空值的数据为填充数据,用来和目标数据进行相似度计算,选择与目标数据在对应维度上满足预定关系的填充数据为参考数据,参考数据可以是部分填充数据,也可以是全部填充数据,预定关系可以是经验值,在此不做限定。
需要说明的是,目标数据可以包含多个空值,参考数据中没有空值。
填充模块404,用于利用参考数据填充待填充数据。
将参考数据在对应维度上的均值作为填充数据对待填充数据进行充填,生成新的数据文件,直到待充填数据被充填完成。
需要说明的是,上述数据文件可以包含多个空值,其中,每个空值的填充都适用于本公开提供的数据填充方法。
与相关技术相比,本公开实施例中提供的数据填充方法克服相关技术提供的方案在基于全局数据的分布情况填充空值时容易导致空值填充质量不高的技术问题,在较大范围内保证了数据相似性,使得空值填充的质量得以提高。
作为一种可选的实施方式,上述确定模块可以包括:第一确定单元,用于根据定位信息,确定用于填充待填充数据的拟定参考数据;计算单元,用于计算拟定参考数据与目标数据在对应维度上的相似度;以及第二确定单元,用于根据相似度计算结果,从拟定参考数据中选出相似度满足预设条件的拟定参考数据作为参考数据。
作为一种可选的实施方式,上述第二确定单元可以包括:排序子单元,用于根据相似度计算结果,按照相似度大小对拟定参考数据进行排序,得到对应的拟定参考数据序列选择子单元,用于从拟定参考数据序列中选出相似度排在前K位的目标拟定参考数据;计算子单元,用于计算目标拟定参考数据在目标维度上的均值,其中,目标维度为待填充数据在目标数据上的维度相同;确定子单元,用于在均值达到最小值的情况下,将目标拟定参考数据作为参考数据。
作为一种可选的实施方式,上述填充模块还用于:将计算目标拟定参考数据在目标维度上的均值得到的最小值作为待填充数据进行填充。
作为一种可选的实施方式,上述系统还可以包括:处理模块,用于在获取待填充数据的定位信息之前,对目标数据和参考数据分别进行标准化处理,得到标准化后的目标数据和标准化后的参考数据;以及替换模块,用于利用标准化后的目标数据替换目标数据以及利用标准化后的参考数据替换参考数据。
需要说明的是,装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似,在此不再赘述。
本公开的另一方面提供了一种非易失性存储介质,存储有计算机可执行指令,上述指令在被处理器执行时用于实现上述数据填充方法,在此不再赘述。
作为另一方面,根据本公开的实施例还提供了一种计算机可读介质。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,可以实现根据本公开实施例的一种数据填充方法,包括:接收包含有待填充数据的数据文件;获取数据文件中的待填充数据的定位信息,其中,待填充数据为目标数据在指定维度上的数据,目标数据为单维度或多维度数据;根据定位信息,确定用于填充待填充数据的参考数据,其中,目标数据与参考数据在对应维度上满足预定关系;以及利用参考数据填充待填充数据,以生成新的数据文件。
本公开的另一方面提供了一种数据充填系统,该系统可以包括处理器;以及上述实施例中的非易失性存储介质,在此不再赘述。
图5示意性示出了根据本公开实施例的数据填充的设备的框图。
如图5所示,计算机系统500包括中央处理单元(CPU 501),其可以根据存储在只读存储器(ROM 502)中的程序或者从存储部分508加载到随机访问存储器(RAM 503)中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出接口(I/O接口505)也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分505。通信部分505经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分505从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU 501)执行时,执行本公开的系统中限定的上述功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。

Claims (12)

1.一种数据填充方法,包括:
接收包含有待填充数据的数据文件;
获取所述数据文件中的所述待填充数据的定位信息,其中,所述待填充数据为目标数据在指定维度上的数据,所述目标数据为单维度或多维度数据;
根据所述定位信息,确定用于填充所述待填充数据的参考数据,其中,所述目标数据与所述参考数据在对应维度上满足预定关系;以及
利用所述参考数据填充所述待填充数据,以生成新的数据文件。
2.根据权利要求1所述的方法,其中,根据所述定位信息,确定用于填充所述待填充数据的参考数据包括:
根据所述定位信息,确定用于填充所述待填充数据的拟定参考数据;
计算所述拟定参考数据与所述目标数据在对应维度上的相似度;以及
根据相似度计算结果,从所述拟定参考数据中选出相似度满足预设条件的拟定参考数据作为所述参考数据。
3.根据权利要求2所述的方法,其中,根据相似度计算结果,从所述拟定参考数据中选出相似度满足预设条件的拟定参考数据作为所述参考数据包括:
根据所述相似度计算结果,按照相似度大小对所述拟定参考数据进行排序,得到对应的拟定参考数据序列;
从所述拟定参考数据序列中选出相似度排在前K位的目标拟定参考数据;
计算所述目标拟定参考数据在目标维度上的均值,其中,所述目标维度为所述待填充数据在所述目标数据上的维度相同;
若所述均值达到最小值,则将所述目标拟定参考数据作为所述参考数据。
4.根据权利要求3所述的方法,其中,利用所述参考数据填充所述待填充数据包括:
将计算所述目标拟定参考数据在所述目标维度上的均值得到的最小值作为所述待填充数据进行填充。
5.根据权利要求1所述的方法,其中,在获取待填充数据的定位信息之前,所述方法还包括:
对所述目标数据和所述参考数据分别进行标准化处理,得到标准化后的目标数据和标准化后的参考数据;以及
利用标准化后的目标数据替换所述目标数据以及利用标准化后的参考数据替换所述参考数据。
6.一种数据填充系统,包括:
接收模块,用于接收包含有待填充数据的数据文件;
获取模块,用于获取所述数据文件中的所述待填充数据的定位信息,其中,所述待填充数据为目标数据在指定维度上的数据,所述目标数据为单维度或多维度数据;
确定模块,用于根据所述定位信息,确定用于填充所述待填充数据的参考数据,其中,所述目标数据与所述参考数据在对应维度上满足预定关系;以及
填充模块,利用所述参考数据填充所述待填充数据,以生成新的数据文件。
7.根据权利要求6所述的系统,其中,所述确定模块包括:
第一确定单元,用于根据所述定位信息,确定用于填充所述待填充数据的拟定参考数据;
计算单元,用于计算所述拟定参考数据与所述目标数据在对应维度上的相似度;以及
第二确定单元,用于根据相似度计算结果,从所述拟定参考数据中选出相似度满足预设条件的拟定参考数据作为所述参考数据。
8.根据权利要求7所述的系统,其中,所述第二确定单元包括:
排序子单元,用于根据所述相似度计算结果,按照相似度大小对所述拟定参考数据进行排序,得到对应的拟定参考数据序列;
选择子单元,用于从所述拟定参考数据序列中选出相似度排在前K位的目标拟定参考数据;
计算子单元,用于计算所述目标拟定参考数据在目标维度上的均值,其中,所述目标维度为所述待填充数据在所述目标数据上的维度相同;
确定子单元,用于在所述均值达到最小值的情况下,将所述目标拟定参考数据作为所述参考数据。
9.根据权利要求8所述的系统,其中,所述填充模块还用于:
将计算所述目标拟定参考数据在所述目标维度上的均值得到的最小值作为所述待填充数据进行填充。
10.根据权利要求6所述的系统,其中,所述系统还包括:
处理模块,用于在获取待填充数据的定位信息之前,对所述目标数据和所述参考数据分别进行标准化处理,得到标准化后的目标数据和标准化后的参考数据;以及
替换模块,用于利用标准化后的目标数据替换所述目标数据以及利用标准化后的参考数据替换所述参考数据。
11.一种非易失性存储介质,存储有计算机可执行指令,所述指令在被处理器执行时用于实现权利要求1至5中任一项所述的数据填充方法。
12.一种数据填充系统,包括:
处理器;以及
权利要求11所述的非易失性存储介质。
CN201710569008.3A 2017-07-12 2017-07-12 数据填充方法及其系统 Active CN107463628B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710569008.3A CN107463628B (zh) 2017-07-12 2017-07-12 数据填充方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710569008.3A CN107463628B (zh) 2017-07-12 2017-07-12 数据填充方法及其系统

Publications (2)

Publication Number Publication Date
CN107463628A true CN107463628A (zh) 2017-12-12
CN107463628B CN107463628B (zh) 2021-05-25

Family

ID=60546558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710569008.3A Active CN107463628B (zh) 2017-07-12 2017-07-12 数据填充方法及其系统

Country Status (1)

Country Link
CN (1) CN107463628B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269937A (zh) * 2020-11-16 2021-01-26 加和(北京)信息科技有限公司 一种计算用户相似度的方法、系统及装置
CN114564472A (zh) * 2022-04-26 2022-05-31 安徽博微广成信息科技有限公司 元数据扩充方法以及存储介质、电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679868A (zh) * 2015-03-06 2015-06-03 四川深度信息技术有限责任公司 一种基于数据间关联关系的遗漏数据填补方法
CN106339588A (zh) * 2016-08-25 2017-01-18 华南理工大学 基于灰色系统理论的加速退化数据离散建模方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679868A (zh) * 2015-03-06 2015-06-03 四川深度信息技术有限责任公司 一种基于数据间关联关系的遗漏数据填补方法
CN106339588A (zh) * 2016-08-25 2017-01-18 华南理工大学 基于灰色系统理论的加速退化数据离散建模方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周慧明: "关系数据库中空值估计算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 *
温忠麟著: "《心理与教育统计》", 30 April 2016, 广东高等教育出版社 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269937A (zh) * 2020-11-16 2021-01-26 加和(北京)信息科技有限公司 一种计算用户相似度的方法、系统及装置
CN112269937B (zh) * 2020-11-16 2024-02-02 加和(北京)信息科技有限公司 一种计算用户相似度的方法、系统及装置
CN114564472A (zh) * 2022-04-26 2022-05-31 安徽博微广成信息科技有限公司 元数据扩充方法以及存储介质、电子设备
CN114564472B (zh) * 2022-04-26 2022-07-05 安徽博微广成信息科技有限公司 元数据扩充方法以及存储介质、电子设备

Also Published As

Publication number Publication date
CN107463628B (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN108520470B (zh) 用于生成用户属性信息的方法和装置
CN107423085B (zh) 用于部署应用的方法和装置
CN107480205B (zh) 一种进行数据分区的方法和装置
CN110674621B (zh) 一种属性信息填充方法和装置
CN110019367B (zh) 一种统计数据特征的方法和装置
CN111435376A (zh) 信息处理方法及系统、计算机系统和计算机可读存储介质
CN107291835B (zh) 一种搜索词的推荐方法和装置
CN107463628B (zh) 数据填充方法及其系统
CN112529646A (zh) 一种商品分类方法和装置
CN110443264A (zh) 一种聚类的方法和装置
CN113205189B (zh) 训练预测模型的方法、预测方法及装置
CN109978594B (zh) 订单处理方法、装置及介质
CN110503117A (zh) 数据聚类的方法和装置
CN113094415B (zh) 数据抽取方法、装置、计算机可读介质及电子设备
US20160378774A1 (en) Predicting Geolocation Of Users On Social Networks
CN112256566B (zh) 一种测试案例的保鲜方法和装置
CN107920100B (zh) 信息推送方法和装置
CN112308595B (zh) 用于确定货品状态的方法和装置
CN112632384B (zh) 针对应用程序的数据处理方法、装置、电子设备和介质
CN113362097B (zh) 一种用户确定方法和装置
CN113159877B (zh) 数据处理方法、装置、系统、计算机可读存储介质
CN113779370A (zh) 一种地址检索方法和装置
CN113239259A (zh) 确定相似店铺的方法和装置
CN113222632A (zh) 对象挖掘的方法和装置
CN112906723A (zh) 一种特征选择的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant