CN109033454A - 基于属性相似度的数据填补方法、装置、设备及存储介质 - Google Patents

基于属性相似度的数据填补方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109033454A
CN109033454A CN201810981153.7A CN201810981153A CN109033454A CN 109033454 A CN109033454 A CN 109033454A CN 201810981153 A CN201810981153 A CN 201810981153A CN 109033454 A CN109033454 A CN 109033454A
Authority
CN
China
Prior art keywords
data
attribute information
missing data
information
attributes similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810981153.7A
Other languages
English (en)
Inventor
彭泽武
杨秋勇
温柏坚
黄剑文
钱正浩
萧展辉
周珑
万婵
邓楚然
江疆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Information Center of Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Information Center of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd, Information Center of Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN201810981153.7A priority Critical patent/CN109033454A/zh
Publication of CN109033454A publication Critical patent/CN109033454A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于属性相似度的数据填补方法,在确定出待填补信息系统的各属性信息中含有缺失数据的属性信息之后,就在待填补信息系统中的多个目标对象中查找与各含有缺失数据的属性信息对应的数据,然后依据各目标对象的属性相似度为各目标对象赋权值,对查找到的多个数据进行加权求和,用加权求和后的数据值填补各含有缺失数据的属性信息对应的缺失数据,与现有技术中只选取一个最相似的对象中相同属性信息下的相关数据,直接用选取的该数据去填补缺失数据相比,应用本填补方法,产生的数据误差小,填补的数据准确性高。另外,本发明还公开了一种基于属性相似度的数据填补装置、设备及存储介质,效果如上。

Description

基于属性相似度的数据填补方法、装置、设备及存储介质
技术领域
本发明涉及计算机应用领域,特别涉及基于属性相似度的数据填补方法、装置、设备及存储介质。
背景技术
随着计算机与网络信息技术的发展,各领域的数据和信息量也在急剧增加。大数据时代的到来更是产生了大量体量大、种类多、结构多样的实时数据流,数据与信息系统不确定性日益显著,且采集到的数据往往包含着噪声甚至不完整的情况,缺失数据的填补工作对信息系统的后续处理如属性约简、规则提取等操作具有重要意义。在电力行业,由于电力大数据采集方式多样,且数据模型尚未统一,数据库中必然存在异常数据以及遗失数据。异常数据在经过数据识别后剔除,留下数据空穴,与遗失数据一起构成了不完备信息系统,即存在异常数据及遗失数据的信息系统。
目前,主要通过基于粗糙集理论来实施填补不完备信息系统中的缺失数据值。填补缺失数据值后应使原本不完备化的信息系统产生的分类规则集中,使具有缺失数据的对象与信息系统的其它相似对象的数据值之间的差异尽可能保持最小。但是,目前在填补不完备信息系统中的缺失数据值时,通常只是选取一个对象中相同属性下的相关数据,直接用选取的该数据去填补缺失数据,由于数据产生的随机性以及受其它一些因素的干扰,所以用该种方式去填补缺失数据时,会产生较大的误差,进而会影响数据的准确性。
由此可见,如何克服利用传统的数据填补方法对不完备信息系统中的缺失数据进行填补时,填补的数据准确性低的问题是本领域技术人员亟待解决的问题。
发明内容
本申请实施例提供了基于属性相似度的数据填补方法、装置、设备及存储介质,以解决现有技术中利用传统的数据填补方法对不完备信息系统中的缺失数据进行填补时,填补的数据准确性低的问题。
为解决上述技术问题,本发明提供了一种基于属性相似度的数据填补方法,包括:
获取待填补信息系统中的各属性信息,并确定出各所述属性信息中含有缺失数据的属性信息;
在所述待填补信息系统的多个目标对象中查找与各所述含有缺失数据的属性信息对应的数据;
根据各所述目标对象的属性相似度为各所述目标对象赋权值;
对各所述数据进行加权求和,并将所述加权求和后的数据值填补至与各所述含有缺失数据的属性信息对应的缺失数据位置处。
优选地,在所述确定出各所述属性信息中含有缺失数据的属性信息之后,还包括:
获取各所述属性信息中不含有缺失数据的属性信息;
计算所述不含有缺失数据的属性信息对应的目标对象与所述含有缺失数据的属性信息对应的目标对象之间的数据差值;
对应地,所述在所述待填补信息系统的多个目标对象中查找与各所述含有缺失数据的属性信息对应的数据具体为:
依据所述差值选取各所述目标对象,并查找与各所述含有缺失数据的属性信息对应的数据。
优选地,所述将所述加权求和后的数据值填补至与各所述含有缺失数据的属性信息对应的缺失数据位置处之后,还包括:
判断所述含有缺失数据的属性信息是否均被填补;
如果否,则更新所述含有缺失数据的属性信息,并进入所述在所述待填补信息系统的多个目标对象中查找与各所述含有缺失数据的属性信息对应的数据的步骤;
如果是,则结束对所述待填补信息系统的填补。
优选地,当所述含有缺失数据的属性信息均被填补之后,还包括:
显示提示信息。
优选地,所述确定出各所述属性信息中含有缺失数据的属性信息之后,还包括:
获取含有缺失数据项最少的目标属性信息;
对应地,所述在所述待填补信息系统的多个目标对象中查找与各所述含有缺失数据的属性信息对应的数据具体为:
在所述多个目标对象中查找与所述目标属性信息对应的数据。
为解决上述技术问题,本发明还提供了一种与基于属性相似度的数据填补方法对应的装置,包括:
获取模块,用于获取待填补信息系统中的各属性信息,并确定出各所述属性信息中含有缺失数据的属性信息;
查找模块,用于在所述待填补信息系统的多个目标对象中查找与各所述含有缺失数据的属性信息对应的数据;
赋权值模块,用于根据各所述目标对象的属性相似度为各所述目标对象赋权值;
填补模块,用于对各所述数据进行加权求和,并将所述加权求和后的数据值填补至与各所述含有缺失数据的属性信息对应的缺失数据位置处。
优选地,还包括:
判断模块,用于判断所述含有缺失数据的属性信息是否均被填补,如果否,则触发更新模块和所述查找模块,如果是,则触发结束模块;
所述更新模块,用于更新所述含有缺失数据的属性信息;
所述结束模块,用于结束对所述待填补信息系统的填补。
优选地,还包括:显示模块,用于当所述含有缺失数据的属性信息均被填补之后,显示提示信息。
为解决上述技术问题,本发明还提供了一种与基于属性相似度的数据填补方法对应的设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现上述任意一项基于属性相似度的数据填补方法的步骤。
为解决上述技术问题,本发明还提供了一种与基于属性相似度的数据填补方法对应的计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现上述任意一种基于属性相似度的数据填补方法的步骤。
相比于现有技术,本发明所提供的一种基于属性相似度的数据填补方法,首先获取待填补信息系统中的各属性信息,并确定出获取的各属性信息中含有缺失数据的属性信息;然后在待填补信息系统的多个目标对象中查找与各含有缺失数据的属性信息对应的数据;再根据各目标对象的属性相似度为各目标对象赋权值;最后对各数据进行加权求和,并将加权求和后的数据值填补至与各含有缺失数据的属性信息对应的缺失数据位置处,也就是说,是在待填补信息系统中的多个目标对象中查找与各含有缺失数据的属性信息对应数据,然后对查找到的多个数据进行加权求和,用加权求和后的数据值填补各含有缺失数据的属性信息对应的缺失数据,与现有技术中只选取一个最相似的对象中相同属性信息下的相关数据,直接用选取的该数据去填补缺失数据相比,应用本填补方法,产生的数据误差小,填补的数据准确性高。另外,本发明还提供了一种基于属性相似度的数据填补装置、设备及存储介质,效果如上。
附图说明
图1为本发明实施例所提供的一种基于属性相似度的数据填补方法流程图;
图2为本发明实施例所提供的另一种基于属性相似度的数据填补方法流程图;
图3为本发明实施例所提供的一种基于属性相似度的数据填补装置组成示意图;
图4为本发明实施例所提供的一种基于属性相似度的数据填补设备组成示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明的核心是提供基于属性相似度的数据填补方法、装置、设备及存储介质,可以解决现有技术中利用传统的数据填补方法对不完备信息系统中的缺失数据进行填补时,填补的数据准确性低的问题。
为了使本技术领域的人员更好地理解本发明的方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
图1为本发明实施例所提供的一种基于属性相似度的数据填补方法流程图,如图1所示,该数据填补方法包括:
S101:获取待填补信息系统中的各属性信息,并确定出各属性信息中含有缺失数据的属性信息。
待填补信息系统就是含有缺失数据信息系统,即信息系统的数据是不完整的,首先获取待填补信息系统中的各属性信息,然后再从获取的各属性信息中确定出含有缺失数据的属性信息。属性信息包括决策属性信息和非决策属性信息。决策属性信息在待填补信息系统中起确定性作用。
例如,表为待填补的信息系统表,如表1所示,待填补信息系统包含的属性信息为四个,分别为年均用电量信息,社会生产总值信息,人均可支配收入信息以及社会固定资产投资信息,含有缺失数据的属性信息为社会生产总值信息,人均可支配收入信息以及社会固定资产投资信息。
表1
S102:在待填补信息系统的多个目标对象中查找与各含有缺失数据的属性信息对应的数据。
具体地,以表1进行说明,从表1中可以看出,属性信息为社会生产总值信息在2001年含有缺失数据,这时就在2000年,2002年以及2003年中查找对应的社会生产总值信息的数据,选取三个目标对象只是最优的方式,在实际应用中还可以只选取两个目标对象,只要比现有技术多即可,现有技术中在对缺失数据进行填补时,只选取最相似的一个目标对象下与含有缺失数据的属性信息对应的数据。表1中查找的结果分别为1000,1012和1009。其它含有缺失数据的属性信息与社会生产总值的查找方法类似,在此不再赘述。
S103:根据各目标对象的属性相似度为各目标对象赋权值。
S104:对各数据进行加权求和,并将加权求和后的数据值填补至与各含有缺失数据的属性信息对应的缺失数据位置处。
具体就是在得出与各含有缺失数据的属性信息对应的数据之后,根据各目标对象的属性相似度为各目标对象赋权值,然后对多个目标对象中与各含有缺失数据的属性信息对应的数据进行加权求和,并将将计算出的加权求和后的数据值填补至与含有缺失数据的属性信息对应的缺失数据位置处。依然以表1中的社会生产总值信息为例进行说明,就是根据目标对象2000年,2002年以及2003年的属性相似度为目标对象(2000年,2002年以及2003年)下属性信息为社会生产总值信息的数据赋权重,假设对应的权值分别为0.5,0.3和0.2,在得到1000,1012和1009之后,对1000,1012以及1009进行加权求和,得到加权求和后的数据值为1000×0.5+1012×0.3+1009×0.2=1005.4填补至社会生产总值信息在2001年的空缺位置处。在本申请实施例中表1所示只是一种实例,并不代表待填补信息系统中只有这几种属性信息以及目标对象,并且表1中的具体数据只是为了说明本方案随机选取的数据,并不代表只能是表1中所示,权值可根据实际情况确定,本发明并不作限定。
在实际应用中,作为优选地实施方式,确定出各属性信息中含有缺失数据的属性信息之后,还包括:
获取含有缺失数据项最少的目标属性信息;
对应地,在待填补信息系统的多个目标对象中查找与各含有缺失数据的属性信息对应的数据具体为:
在多个目标对象中查找与目标属性信息对应的数据。
具体就是在对含有缺失数据的属性信息进行填补时,需先确定出含有缺失数据的属性信息中的决策属性信息,就是确定出含有缺失数据的在待填补信息系统中起决定性作用的属性信息,首先为决策属性信息填补缺失数据,在填补完决策属性信息的缺失数据之后,再确定出含有缺失数据个数最少的目标属性信息,并对该目标属性信息的缺失数据进行填补,如,表1中的社会生产总值信息含有1个缺失数据,即为目标属性信息,人均可支配收入信息含有2个缺失数据,社会固定资产投资信息含有3个缺失数据,这时就先填补社会生产总值信息中的缺失数据,再填补人均可支配收入信息中的缺失数据,最后填补社会固定资产投资信息中的缺失数据。
本申请实施例所提供的数据填补方法,在对含有缺失数据的属性信息进行填补时,是选取多个目标对象中与该含有缺失数据的属性信息对应的数据,量化了其它目标对象与含缺失数据的属性信息对应的对象间的相似度,并根据相似度赋权,再由其它目标对象的属性数据加权求和填补至含缺失数据对象的对应缺失属性数据处,进而可以提高填补数据的误差以及准确性。
本发明所提供的一种基于属性相似度的数据填补方法,首先获取待填补信息系统中的各属性信息,并确定出获取的各属性信息中含有缺失数据的属性信息;然后在待填补信息系统的多个目标对象中查找与各含有缺失数据的属性信息对应的数据;再根据各目标对象的属性相似度为各目标对象赋权值;最后对各数据进行加权求和,并将加权求和后的数据值填补至与各含有缺失数据的属性信息对应的缺失数据位置处,也就是说,是在待填补信息系统中的多个目标对象中查找与各含有缺失数据的属性信息对应数据,然后对查找到的多个数据进行加权求和,用加权求和后的数据值填补各含有缺失数据的属性信息对应的缺失数据,与现有技术中只选取一个最相似的对象中相同属性信息下的相关数据,直接用选取的该数据去填补缺失数据相比,应用本填补方法,产生的数据误差小,填补的数据准确性高。
为了进一步提高缺失数据的填补误差,在上述实施例的基础上,作为优选地实施方式,在确定出含有缺失数据的属性信息之后,还包括:
获取各属性信息中不含有缺失数据的属性信息;
计算不含有缺失数据的属性信息对应的目标对象与含有缺失数据的属性信息对应的目标对象之间的其它属性信息下的数据差值;
对应地,在待填补信息系统的多个目标对象中查找与各含有缺失数据的属性信息对应的数据为:
依据该数据差值选取各目标对象,并查找与各含有缺失数据的属性信息对应的数据。
具体就是在确定出获取的各属性信息中含有缺失数据的属性信息之后,接着确定出获取的各属性信息中不含有缺失数据的属性信息,然后依据不含有缺失数据的属性信息对应的目标对象与含有缺失数据的属性信息对应的目标对象之间的数据差值选出填补含有缺失数据的属性信息中的缺失数据时选取哪些目标对象比较合适。具体就是计算出其它对象与含有缺失数据的对象在所有属性信息上的差值,并以此来衡量各对象之间的相似度进行赋权值。
为了防止含有缺失数据的属性信息被遗漏,即出现遗留下未填补的缺失数据,在上述实施例的基础上,作为优选地实施方式,将加权求和后的数据值填补至与各含有缺失数据的属性信息对应的缺失数据位置处之后,还包括:
判断含有缺失数据的属性信息是否均被填补;
如果否,则更新含有缺失数据的属性信息,并进入在待填补信息系统的多个目标对象中查找与各含有缺失数据的属性信息对应的数据的步骤;
如果是,则结束对待填补信息系统的填补。
在上述实施例的基础上,作为优选地实施方式,当含有缺失数据的属性信息均被填补之后,还包括:
显示提示信息。
在含有缺失数据的属性信息均被填补之后,显示提示信息可以及时提醒相关人员,例如,显示“当前待填补信息系统中的所有含有缺失数据的属性信息均已被填补”。
图2为本发明实施例所提供的另一种基于属性相似度的数据填补方法流程图,图2所提供的是最优的实施方式,如图2所示,该方法包括:
S101:获取待填补信息系统中的各属性信息,并确定出各属性信息中含有缺失数据的属性信息。
S201:获取各属性信息中不含有缺失数据的属性信息。
S202:计算不含有缺失数据的属性信息对应的目标对象与含有缺失数据的属性信息对应的目标对象之间的数据差值。
S102:在待填补信息系统的多个目标对象中查找与各含有缺失数据的属性信息对应的数据。
在本申请实施例中该步骤具体可以依据该数据差值选取各目标对象,并查找与各含有缺失数据的属性信息对应的数据。
S103:根据各目标对象的属性相似度为各目标对象赋权值。
S104:对各数据进行加权求和,并将所述加权求和后的数据值填补至与各含有缺失数据的属性信息对应的缺失数据位置处。
S203:判断含有缺失数据的属性信息是否均被填补,如果否,则进入步骤S204,并返回步骤S102,如果是,则进入步骤S205。
S204:更新含有缺失数据的属性信息。
S205:显示提示信息。
S206:结束对待填补信息系统的填补。
在实际应用中,步骤S205和S206并没有先后顺序。
上文中对于一种基于属性相似度的数据填补方法的实施例进行了详细描述,基于上述实施例描述的基于属性相似度的数据填补方法,本发明实施例还提供了一种与该方法对应的基于属性相似度的数据填补装置。由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参照方法部分的实施例描述,这里不再赘述。
图3为本发明实施例所提供的一种基于属性相似度的数据填补装置组成示意图,如图3所示,该装置包括获取模块301,查找模块302,赋权值模块303以及填补模块304。
获取模块301,用于获取待填补信息系统中的各属性信息,并确定各属性信息中出含有缺失数据的属性信息;
查找模块302,用于在待填补信息系统的多个目标对象中查找与各含有缺失数据的属性信息对应的数据;
赋权值模块303,用于根据各目标对象的属性相似度为各目标对象赋权值;
填补模块304,用于对各数据进行加权求和,并将加权求和后的数据值填补至与各含有缺失数据的属性信息对应的缺失数据位置处。
本发明所提供的一种基于属性相似度的数据填补装置,首先获取待填补信息系统中的各属性信息,并确定出获取的各属性信息中含有缺失数据的属性信息;然后在待填补信息系统的多个目标对象中查找与各含有缺失数据的属性信息对应的数据;再根据各目标对象的属性相似度为各目标对象赋权值;最后对各数据进行加权求和,并将加权求和后的数据值填补至与各含有缺失数据的属性信息对应的缺失数据位置处,也就是说,是在待填补信息系统中的多个目标对象中查找与各含有缺失数据的属性信息对应数据,然后对查找到的多个数据进行加权求和,用加权求和后的数据值填补各含有缺失数据的属性信息对应的缺失数据,与现有技术中只选取一个最相似的对象中相同属性信息下的相关数据,直接用选取的该数据去填补缺失数据相比,应用本填补方法,产生的数据误差小,填补的数据准确性高。
在上述实施例的基础上,作为优选地实施方式,还包括:
判断模块,用于判断含有缺失数据的属性信息是否均被填补,如果否,则触发更新模块和查找模块302,如果是,则触发结束模块;
更新模块,用于更新含有缺失数据的属性信息;
结束模块,用于结束对待填补信息系统的填补。
在上述实施例的基础上,作为优选地实施方式,还包括:
显示模块,用于当含有缺失数据的属性信息均被填补之后,显示提示信息。
上文中对于一种基于属性相似度的数据填补方法的实施例进行了详细描述,基于上述实施例描述的基于属性相似度的数据填补方法,本发明实施例还提供了一种与该方法对应的基于属性相似度的数据填补设备。由于设备部分的实施例与方法部分的实施例相互对应,因此设备部分的实施例请参照方法部分的实施例描述,这里不再赘述。
图4为本发明实施例所提供的一种基于属性相似度的数据填补设备组成示意图,如图4所示,该设备包括存储器401和处理器402。
存储器401,用于存储计算机程序;
处理器402,用于执行计算机程序以实现上述任意一个实施例所提供的基于属性相似度的数据填补方法的步骤。
本发明所提供的一种基于属性相似度的数据填补设备,是在待填补信息系统中的多个目标对象中查找与各含有缺失数据的属性信息对应数据,然后对查找到的多个数据进行加权求和,用加权求和后的数据值填补各含有缺失数据的属性信息对应的缺失数据,与现有技术中只选取一个最相似的对象中相同属性信息下的相关数据,直接用选取的该数据去填补缺失数据相比,应用本填补方法,产生的数据误差小,填补的数据准确性高。
上文中对于基于属性相似度的数据填补方法的实施例进行了详细描述,基于上述实施例描述的基于属性相似度的数据填补方法,本发明实施例还提供了一种与该方法对应的计算机可读存储介质。由于计算机可读存储介质部分的实施例与方法部分的实施例相互对应,因此计算机可读存储介质部分的实施例请参照方法部分的实施例描述,这里不再赘述。
一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行以实现上述任意一个实施例所提供的基于属性相似度的数据填补方法的步骤。
本发明所提供的一种计算机可读存储介质,处理器可以读取可读存储介质中存储的程序,即可以实现上述任意一个实施例所提供的基于属性相似度的数据填补方法的步骤,是在待填补信息系统中的多个目标对象中查找与各含有缺失数据的属性信息对应数据,然后对查找到的多个数据进行加权求和,用加权求和后的数据值填补各含有缺失数据的属性信息对应的缺失数据,与现有技术中只选取一个最相似的对象中相同属性信息下的相关数据,直接用选取的该数据去填补缺失数据相比,应用本填补方法,产生的数据误差小,填补的数据准确性高。
以上对本发明所提供的基于属性相似度的数据填补方法、装置、设备及存储介质进行了详细介绍。本文中运用几个实例对本发明的原理及实施方式进行了阐述,以上实施例的说明,只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制,本领域技术人员,在没有创造性劳动的前提下,对本发明所做出的修改、等同替换、改进等,均应包含在本申请中。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个操作与另一个操作区分开来,而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”等类似词,使得包括一系列要素的单元、设备或系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种单元、设备或系统所固有的要素。

Claims (10)

1.一种基于属性相似度的数据填补方法,其特征在于,包括:
获取待填补信息系统中的各属性信息,并确定出各所述属性信息中含有缺失数据的属性信息;
在所述待填补信息系统的多个目标对象中查找与各所述含有缺失数据的属性信息对应的数据;
根据各所述目标对象的属性相似度为各所述目标对象赋权值;
对各所述数据进行加权求和,并将所述加权求和后的数据值填补至与各所述含有缺失数据的属性信息对应的缺失数据位置处。
2.根据权利要求1所述的基于属性相似度的数据填补方法,其特征在于,在所述确定出各所述属性信息中含有缺失数据的属性信息之后,还包括:
获取各所述属性信息中不含有缺失数据的属性信息;
计算所述不含有缺失数据的属性信息对应的目标对象与所述含有缺失数据的属性信息对应的目标对象之间的数据差值;
对应地,所述在所述待填补信息系统的多个目标对象中查找与各所述含有缺失数据的属性信息对应的数据具体为:
依据所述数据差值选取各所述目标对象,并查找与各所述含有缺失数据的属性信息对应的数据。
3.根据权利要求1所述的基于属性相似度的数据填补方法,其特征在于,所述将所述加权求和后的数据值填补至与各所述含有缺失数据的属性信息对应的缺失数据位置处之后,还包括:
判断所述含有缺失数据的属性信息是否均被填补;
如果否,则更新所述含有缺失数据的属性信息,并进入所述在所述待填补信息系统的多个目标对象中查找与各所述含有缺失数据的属性信息对应的数据的步骤;
如果是,则结束对所述待填补信息系统的填补。
4.根据权利要求3所述的基于属性相似度的数据填补方法,其特征在于,当所述含有缺失数据的属性信息均被填补之后,还包括:
显示提示信息。
5.根据权利要求1所述的基于属性相似度的数据填补方法,其特征在于,所述确定出各所述属性信息中含有缺失数据的属性信息之后,还包括:
获取含有缺失数据项最少的目标属性信息;
对应地,所述在所述待填补信息系统的多个目标对象中查找与各所述含有缺失数据的属性信息对应的数据具体为:
在所述多个目标对象中查找与所述目标属性信息对应的数据。
6.一种基于属性相似度的数据填补装置,其特征在于,包括:
获取模块,用于获取待填补信息系统中的各属性信息,并确定出各所述属性信息中含有缺失数据的属性信息;
查找模块,用于在所述待填补信息系统的多个目标对象中查找与各所述含有缺失数据的属性信息对应的数据;
赋权值模块,用于根据各所述目标对象的属性相似度为各所述目标对象赋权值;
填补模块,用于对各所述数据进行加权求和,并将所述加权求和后的数据值填补至与各所述含有缺失数据的属性信息对应的缺失数据位置处。
7.根据权利要求6所述的基于属性相似度的数据填补装置,其特征在于,还包括:
判断模块,用于判断所述含有缺失数据的属性信息是否均被填补,如果否,则触发更新模块和所述查找模块,如果是,则触发结束模块;
所述更新模块,用于更新所述含有缺失数据的属性信息;
所述结束模块,用于结束对所述待填补信息系统的填补。
8.根据权利要求7所述的基于属性相似度的数据填补装置,其特征在于,还包括:
显示模块,用于当所述含有缺失数据的属性信息均被填补之后,显示提示信息。
9.一种基于属性相似度的数据填补设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至5任意一项所述的基于属性相似度的数据填补方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1至5任意一项所述的基于属性相似度的数据填补方法的步骤。
CN201810981153.7A 2018-08-27 2018-08-27 基于属性相似度的数据填补方法、装置、设备及存储介质 Pending CN109033454A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810981153.7A CN109033454A (zh) 2018-08-27 2018-08-27 基于属性相似度的数据填补方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810981153.7A CN109033454A (zh) 2018-08-27 2018-08-27 基于属性相似度的数据填补方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN109033454A true CN109033454A (zh) 2018-12-18

Family

ID=64625294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810981153.7A Pending CN109033454A (zh) 2018-08-27 2018-08-27 基于属性相似度的数据填补方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109033454A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125635A (zh) * 2019-11-29 2020-05-08 广东电网有限责任公司 一种用户表码数据填补方法、装置、终端和存储介质
CN111141950A (zh) * 2019-12-03 2020-05-12 深圳供电局有限公司 一种计量自动化系统电表分时表码异常判断与修复方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216916A (zh) * 2013-06-04 2014-12-17 腾讯科技(深圳)有限公司 数据还原方法及装置
CN104679868A (zh) * 2015-03-06 2015-06-03 四川深度信息技术有限责任公司 一种基于数据间关联关系的遗漏数据填补方法
CN105956015A (zh) * 2016-04-22 2016-09-21 四川中软科技有限公司 一种基于大数据的服务平台整合方法
CN106844781A (zh) * 2017-03-10 2017-06-13 广州视源电子科技股份有限公司 数据处理的方法及装置
CN107038460A (zh) * 2017-04-10 2017-08-11 南京航空航天大学 一种基于改进knn的船舶监控数据缺失值填补方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216916A (zh) * 2013-06-04 2014-12-17 腾讯科技(深圳)有限公司 数据还原方法及装置
CN104679868A (zh) * 2015-03-06 2015-06-03 四川深度信息技术有限责任公司 一种基于数据间关联关系的遗漏数据填补方法
CN105956015A (zh) * 2016-04-22 2016-09-21 四川中软科技有限公司 一种基于大数据的服务平台整合方法
CN106844781A (zh) * 2017-03-10 2017-06-13 广州视源电子科技股份有限公司 数据处理的方法及装置
CN107038460A (zh) * 2017-04-10 2017-08-11 南京航空航天大学 一种基于改进knn的船舶监控数据缺失值填补方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
关欣等: "《基于粗糙集理论的雷达辐射源信号识别》", 30 April 2015, 国防工业出版社 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125635A (zh) * 2019-11-29 2020-05-08 广东电网有限责任公司 一种用户表码数据填补方法、装置、终端和存储介质
CN111125635B (zh) * 2019-11-29 2023-04-18 广东电网有限责任公司 一种用户表码数据填补方法、装置、终端和存储介质
CN111141950A (zh) * 2019-12-03 2020-05-12 深圳供电局有限公司 一种计量自动化系统电表分时表码异常判断与修复方法

Similar Documents

Publication Publication Date Title
CN108632097B (zh) 异常行为对象的识别方法、终端设备及介质
CN104050196B (zh) 一种兴趣点数据冗余检测方法及装置
US8812947B1 (en) Ranking graphical visualizations of a data set according to data attributes
CN102722531B (zh) 一种云环境中基于分片位图索引的查询方法
CN102456016B (zh) 一种对搜索结果进行排序的方法及装置
CN103778262B (zh) 基于叙词表的信息检索方法及装置
CN110443715A (zh) 基金产品推荐方法、装置、设备及计算机可读存储介质
CN107704512A (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN104252507B (zh) 一种企业数据匹配方法和装置
CN109033454A (zh) 基于属性相似度的数据填补方法、装置、设备及存储介质
CN106126681B (zh) 一种增量式流式数据聚类方法及系统
Bouallègue et al. Statistical modeling of 2-m temperature and 10-m wind speed forecast errors
CN110442574A (zh) 一种数据处理方法、电子设备和计算机可读存储介质
CN107451879B (zh) 信息判断方法及装置
CN113807827A (zh) 一种基于大数据的人力资源匹配算法
CN109597934A (zh) 确定点击推荐词的方法、装置、存储介质及电子设备
Chai et al. The adapted pure h-index
CN108509545A (zh) 一种文章的评论处理方法及系统
CN103593409A (zh) 实时数据库检索方法及检索系统
CN106484878A (zh) 基于区间树的高效计数方法
CN109002511A (zh) 一种公厕的智能推荐方法和装置
Nedelchev Bibliometric review of corporate governance theories and methods
CN114461813A (zh) 一种基于知识图谱的数据推送方法、系统和存储介质
Moundigbaye et al. Which panel data estimator should I use?: A corrigendum and extension. Economics Discussion Papers, No 2017-58
Alazraque-Cherni et al. Renewable energy investment in China: the impact of low oil prices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181218