CN110287179A - 一种数据缺失属性值的填充设备、装置及方法 - Google Patents
一种数据缺失属性值的填充设备、装置及方法 Download PDFInfo
- Publication number
- CN110287179A CN110287179A CN201910554940.8A CN201910554940A CN110287179A CN 110287179 A CN110287179 A CN 110287179A CN 201910554940 A CN201910554940 A CN 201910554940A CN 110287179 A CN110287179 A CN 110287179A
- Authority
- CN
- China
- Prior art keywords
- data
- cluster
- value
- missing
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据缺失属性值的填充设备,能获取不完全数据集;为不完全数据集中缺失属性填充初始值,得到初始完全数据集;利用基于布谷鸟算法的聚类算法对初始完全数据集进行聚类,得到聚类簇集合;确定聚类簇集合中各聚类簇的完整数据的缺失属性的均值,进而根据该均值更新该聚类簇中的初始值,得到目标完全数据集。可见,该方案基于布谷鸟算法对聚类算法进行了优化,此外该方案先为缺失属性填充初始值,再根据聚类得到的聚类簇中完整数据缺失属性的均值对初始值进行更新,对高缺失倍率和低缺失倍率的数据都能起到较好的填充效果。此外,本申请还提供了一种数据缺失属性值的填充装置、方法及可读存储介质,其作用与上述设备的作用相对应。
Description
技术领域
本申请涉及数据填充领域,特别涉及一种数据缺失属性值的填充设备、装置、方法及可读存储介质。
背景技术
数据集在收集与整理的过程中由于各种不可控原因导致数据的部分属性值缺失,从而对数据的质量造成非常严重的影响并且降低数据挖掘的效果。因此,为了提高对不完整数据集的分析效果,对其中的缺失数据进行填充是至关重要的。
然而,现有的缺失属性值填充方案要么对高缺失倍率数据的填充效果不理想,要么对低缺失倍率数据的填充效果不理想,难以均衡对不同缺失倍率数据的填充效果。
发明内容
本申请的目的是提供一种数据缺失属性值的填充设备、装置、方法及可读存储介质,用以解决现有的缺失属性值填充方案难以均衡对不同缺失倍率数据的填充效果的问题。具体方案如下:
第一方面,本申请提供了一种数据缺失属性值的填充设备,包括:
存储器:用于存储计算机程序;
处理器:用于执行所述计算机程序,以实现以下步骤:
获取不完全数据集;为所述不完全数据集中缺失数据的缺失属性填充初始值,得到初始完全数据集;利用基于布谷鸟算法的聚类算法对所述初始完全数据集进行聚类,得到聚类簇集合;确定所述聚类簇集合中聚类簇的完整数据,并确定该完整数据的缺失属性的均值,进而根据所述均值更新所述聚类簇中缺失数据的初始值,得到目标完全数据集。
可选的,所述处理器具体用于:
对所述不完全数据集进行随机划分,得到多个分组;确定各个所述分组中完全数据的缺失属性的随机均值;根据所述分组中完全数据的缺失属性的随机均值,填充相应的分组中的缺失数据,得到初始完全数据集。
可选的,所述处理器具体用于:
从所述初始完全数据集随机选取多个数据,以作为初始的聚类中心;
根据所述聚类中心,对所述初始完全数据集中的各个数据进行聚类划分操作,得到聚类结果;
确定所述聚类结果的适应度数值;
在所述适应度数值大于当前最优聚类中心的适应度数值时,根据所述聚类中心更新所述当前最优聚类中心;
根据莱维飞行策略,对所述聚类中心进行更新;
重复执行所述聚类划分操作,直至达到预设终止条件,得到聚类簇集合。
可选的,所述处理器还用于:
生成随机数,并在所述随机数大于预设阈值时,对更新后的聚类中心进行随机改变。
可选的,所述预设终止条件为:
达到预设最大迭代次数或满足适应度函数收敛条件。
第二方面,本申请提供了一种数据缺失属性值的填充装置,包括:
数据获取模块:用于获取不完全数据集;
第一填充模块:用于为所述不完全数据集中缺失数据的缺失属性填充初始值,得到初始完全数据集;
聚类模块:用于利用基于布谷鸟算法的聚类算法对所述初始完全数据集进行聚类,得到聚类簇集合;
第二填充模块:用于确定所述聚类簇集合中聚类簇的完整数据,并确定该完整数据的缺失属性的均值,进而根据所述均值更新所述聚类簇中缺失数据的初始值,得到目标完全数据集。
可选的,所述第一填充模块包括:
随机划分单元:用于对所述不完全数据集进行随机划分,得到多个分组;
随机均值确定单元:用于确定各个所述分组中完全数据的缺失属性的随机均值;
数据填充单元:用于根据所述分组中完全数据的缺失属性的随机均值,填充相应的分组中的缺失数据,得到初始完全数据集。
可选的,所述聚类模块包括:
初始聚类中心确定单元:用于从所述初始完全数据集随机选取多个数据,以作为初始的聚类中心;
聚类划分单元:用于根据所述聚类中心,对所述初始完全数据集中的各个数据进行聚类划分操作,得到聚类结果;
适应度数值确定单元:用于确定所述聚类结果的适应度数值;
当前最优聚类中心更新单元:用于在所述适应度数值大于当前最优聚类中心的适应度数值时,根据所述聚类中心更新所述当前最优聚类中心;
聚类中心更新单元:用于根据莱维飞行策略,对所述聚类中心进行更新;
聚类结果输出单元:用于重复执行所述聚类划分操作,直至达到预设终止条件,得到聚类簇集合。
第三方面,本申请提供了一种数据缺失属性值的填充方法,包括:
获取不完全数据集;
为所述不完全数据集中缺失数据的缺失属性填充初始值,得到初始完全数据集;
利用基于布谷鸟算法的聚类算法对所述初始完全数据集进行聚类,得到聚类簇集合;
确定所述聚类簇集合中聚类簇的完整数据,并确定该完整数据的缺失属性的均值,进而根据所述均值更新所述聚类簇中缺失数据的初始值,得到目标完全数据集。
第四方面,本申请提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时用于实现以下步骤:
获取不完全数据集;为所述不完全数据集中缺失数据的缺失属性填充初始值,得到初始完全数据集;利用基于布谷鸟算法的聚类算法对所述初始完全数据集进行聚类,得到聚类簇集合;确定所述聚类簇集合中聚类簇的完整数据,并确定该完整数据的缺失属性的均值,进而根据所述均值更新所述聚类簇中缺失数据的初始值,得到目标完全数据集。
本申请所提供的一种数据缺失属性值的填充设备,获取不完全数据集;为不完全数据集中缺失数据的缺失属性填充初始值,得到初始完全数据集;利用基于布谷鸟算法的聚类算法对初始完全数据集进行聚类,得到聚类簇集合;确定聚类簇集合中聚类簇的完整数据,并确定该完整数据的缺失属性的均值,进而根据均值更新聚类簇中缺失数据的初始值,得到目标完全数据集。可见,该方案基于布谷鸟算法对聚类算法进行了优化,此外,该方案先为缺失属性填充初始值,再根据聚类得到的聚类簇中完整数据缺失属性的均值对初始值进行更新,对高缺失倍率和低缺失倍率的数据都能起到较好的填充效果。
此外,本申请还提供了一种数据缺失属性值的填充装置、方法及可读存储介质,其作用与上述设备的作用相对应,这里不再赘述。
附图说明
为了更清楚的说明本申请实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请所提供的一种数据缺失属性值的填充设备实施例一的结构示意图;
图2为本申请所提供的一种数据缺失属性值的填充设备实施例二的工作流程示意图;
图3为本申请所提供的一种数据缺失属性值的填充装置实施例的功能框图;
图4为本申请所提供的一种数据缺失属性值的填充方法实施例一的实现流程图。
具体实施方式
本申请的核心是提供一种数据缺失属性值的填充设备、装置、方法及可读存储介质,实现了基于布谷鸟算法对聚类算法进行优化,此外,在填充过程中该方案先为缺失属性填充初始值,再根据聚类得到的聚类簇中完整数据缺失属性的均值对初始值进行更新,对高缺失倍率和低缺失倍率的数据都能起到较好的填充效果。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面对本申请提供的一种数据缺失属性值的填充设备实施例一进行介绍,参见图1,实施例一包括:
存储器100:用于存储计算机程序;
处理器200:用于执行所述计算机程序,以实现以下步骤:
获取不完全数据集;为所述不完全数据集中缺失数据的缺失属性填充初始值,得到初始完全数据集;利用基于布谷鸟算法的聚类算法对所述初始完全数据集进行聚类,得到聚类簇集合;确定所述聚类簇集合中聚类簇的完整数据,并确定该完整数据的缺失属性的均值,进而根据所述均值更新所述聚类簇中缺失数据的初始值,得到目标完全数据集。
上述不完全数据集主要指包括缺失数据的数据集合,本实施例中缺失数据主要指缺乏部分属性数值的数据,其中属性可以根据数据所在场景确定,例如,当上述数据为交通流数据时,其属性可以为平均车流量、最大车流量等。
在本实施例中,数据缺失属性值的填充设备可以是个人电脑,也可以是服务器、平板电脑、网络节点等。
存储器100用于存储数据缺失属性值的填充设备的应用软件及各类数据,例如计算机程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。处理器200用于运行存储器100中存储的程序代码,还可以对存储于存储器100中的数据进行处理。在一些实施例中,处理器200可以是中央处理器、控制器、微控制器、微处理器或其他数据处理芯片;存储器100可以包括以下任意一项或多项可读存储介质:闪存、硬盘、多媒体卡、卡型存储器、磁性存储器、磁盘、光盘。
存储器100与处理器200之间的总线可以是外设部件互连标准总线或扩展工业标准结构总线等,该总线具体可以分为地址总线、数据总线、控制总线。为便于表示,图1中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
作为一种具体的实施方式,所述处理器200具体用于:
对所述不完全数据集进行随机划分,得到多个分组;确定各个所述分组中完全数据的缺失属性的随机均值;根据所述分组中完全数据的缺失属性的随机均值,填充相应的分组中的缺失数据,得到初始完全数据集。
作为一种具体的实施方式,所述处理器200具体用于:
从所述初始完全数据集随机选取多个数据,以作为初始的聚类中心;
根据所述聚类中心,对所述初始完全数据集中的各个数据进行聚类划分操作,得到聚类结果;
确定所述聚类结果的适应度数值;
在所述适应度数值大于当前最优聚类中心的适应度数值时,根据所述聚类中心更新所述当前最优聚类中心;
根据莱维飞行策略,对所述聚类中心进行更新;
重复执行所述聚类划分操作,直至达到预设终止条件,得到聚类簇集合。
作为一种具体的实施方式,所述处理器200还用于:
生成随机数,并在所述随机数大于预设阈值时,对更新后的聚类中心进行随机改变。
作为一种具体的实施方式,所述预设终止条件为:
达到预设最大迭代次数或满足适应度函数收敛条件。
本实施例所提供一种数据缺失属性值的填充设备,能够获取不完全数据集;为不完全数据集中缺失数据的缺失属性填充初始值,得到初始完全数据集;利用基于布谷鸟算法的聚类算法对初始完全数据集进行聚类,得到聚类簇集合;确定聚类簇集合中聚类簇的完整数据,并确定该完整数据的缺失属性的均值,进而根据均值更新聚类簇中缺失数据的初始值,得到目标完全数据集。可见,该方案基于布谷鸟算法对聚类算法进行了优化,此外,该方案先为缺失属性填充初始值,再根据聚类得到的聚类簇中完整数据缺失属性的均值对初始值进行更新,对高缺失倍率和低缺失倍率的数据都能起到较好的填充效果。
下面开始详细介绍本申请提供的一种数据缺失属性值的填充设备实施例二,实施例二基于上述实施例一实现,并在实施例一的基础上进行了一定程度上的拓展。
本实施例的数据缺失属性值的填充设备主要包括存储器和处理器,本实施例主要的数据缺失属性值的填充设备的工作流程进行介绍。参见图2,实施例二具体包括:
S201、初始化参数;
作为一种具体的实施方式,本实施例中参数设置如下:不完全数据集为X,其中含有n个数据样本,每个数据样本的维度为m,数据样本记为xi={xi1,xi2,...,xij},(i=1,2,..,n),(j=1,2,...,m),数据集记为X={x1,x2,...,xn},聚类中心记为w={w1,w2,...,wk},聚类结果记为W={W1,W2,...,Wk}。聚类个数为k,巢寄行为被发现概率为P,最大迭代次数maxcount,误差阈值Φ,适应度函数f(x)如公式(1)所示:
其中,nz表示每个类中的数据样本个数。
S202、对不完全数据集,利用组内属性均值对缺失属性进行填充,得到初始完全数据集;
作为一种具体的实施方式,本实施例将不完全数据集X随机地分成v组,计算各组中缺失属性的均值,利用组内完全样本的属性均值填充缺失数据的属性值,如公式(2)所示,得到初始完全数据集X',公式(2)中xip'∈X':
S203、从初始完全数据集内随机地选取k个数据样本作为初始的聚类中心;
具体的,将初始的聚类中心记为w={w1,w2,...,wk}。
S204、根据距离最小原则,对当前的聚类中心执行聚类划分操作,并计算适应度函数值;
具体的,计算数据集X内的所有数据样本至k个聚类中心的欧式距离;然后根据欧式距离将每个数据样本划分至与其相距最近的聚类中心,划分完成后重新计算每个聚类中心的适应度函数f(x)的值;
欧式距离计算公式如公式(3)所示:
S205、根据莱维飞行策略更新k个聚类中心;
按公式(4)和公式(5)对k个聚类中心进行更新操作,并计算更新后的聚类中心的适应度函数f(x)的值并与上代聚类中心对比,取较优的聚类中心。公式(4)和公式(5)如下所示:
Levy(λ)~sλ,λ∈(1,3] (5)
其中,α表示步长控制量,且一般α=1,·代表点乘运算,Levy(λ)表示随机搜索路径,且L(λ)服从Levy分布,s为莱维飞行得出的随机步长。
S206、生成一个随机数Q,判断随机数与预设阈值的大小关系,若Q>P,则进入步骤S207;若Q≤P,则跳转至S208;
S207、随机地对聚类中心位置进行改变,对更新后的聚类中心重新进行聚类划分操作;
按公式(6)重新计算聚类中心,计算每个聚类中心的适应度函数f(x)的值并与当前聚类中心比较,取较优的聚类中心,进而依据更新后的聚类中心重新进行聚类划分。公式(6)如下所示:
S208、判断是否达到最大迭代次数或适应度函数收敛,若是,则进入步骤S209,否则进入步骤S204;
S209、利用聚类结果中的属性均值更新缺失样本中的属性值,形成目标完全数据集X”;
S210、判断是否满足算法结束条件,若满足则进入步骤S211;否则跳转至S203;
按公式(7)计算Δt值,若满足Δt<Φ或者算法达到最大的迭代次数,则填充结束并输出最终结果。公式(7)具体为:
S211、填充结束并输出最终结果。
可见,本实施例提供了一种数据缺失属性值的填充设备,主要对该设备的工作方案进行了介绍。该方案针对不完全数据集中部分数据的属性值缺失的问题,采用基于布谷鸟算法优化的聚类算法对数据集进行聚类,避免了常规聚类算法对初始参数较敏感且相对容易出现局部最优解的现象;此外,该方案将组内均值填充算法与优化后的聚类算法相结合,并采用递归填充策略,对缺失属性值进行填充。最终均衡了对高缺失倍率数据和低缺失倍率数据的填充效果,对高缺失倍率的数据集具有更好的处理性能,且对低缺失倍率的数据集的填充性能稳定。
下面对本申请实施例提供的一种数据缺失属性值的填充装置进行介绍,下文描述的一种数据缺失属性值的填充装置与上文描述的一种数据缺失属性值的填充设备可相互对应参照。
参见图3,该装置包括:
数据获取模块301、用于获取不完全数据集;
第一填充模块302、用于为所述不完全数据集中缺失数据的缺失属性填充初始值,得到初始完全数据集;
聚类模块303、用于利用基于布谷鸟算法的聚类算法对所述初始完全数据集进行聚类,得到聚类簇集合;
第二填充模块304、用于确定所述聚类簇集合中聚类簇的完整数据,并确定该完整数据的缺失属性的均值,进而根据所述均值更新所述聚类簇中缺失数据的初始值,得到目标完全数据集。
作为一种具体的实施方式,所述第一填充模块302包括:
随机划分单元:用于对所述不完全数据集进行随机划分,得到多个分组;
随机均值确定单元:用于确定各个所述分组中完全数据的缺失属性的随机均值;
数据填充单元:用于根据所述分组中完全数据的缺失属性的随机均值,填充相应的分组中的缺失数据,得到初始完全数据集。
作为一种具体的实施方式,所述聚类模块303包括:
初始聚类中心确定单元:用于从所述初始完全数据集随机选取多个数据,以作为初始的聚类中心;
聚类划分单元:用于根据所述聚类中心,对所述初始完全数据集中的各个数据进行聚类划分操作,得到聚类结果;
适应度数值确定单元:用于确定所述聚类结果的适应度数值;
当前最优聚类中心更新单元:用于在所述适应度数值大于当前最优聚类中心的适应度数值时,根据所述聚类中心更新所述当前最优聚类中心;
聚类中心更新单元:用于根据莱维飞行策略,对所述聚类中心进行更新;
聚类结果输出单元:用于重复执行所述聚类划分操作,直至达到预设终止条件,得到聚类簇集合。
本实施例的数据缺失属性值的填充装置用于实现前述的数据缺失属性值的填充设备的实施方案,具体的,该数据缺失属性值的填充装置可以为数据缺失属性值的填充设备的内部功能模块。
此外,本申请还提供了一种数据缺失属性值的填充方法,参见图4,包括:
步骤S401、获取不完全数据集;
步骤S402、为所述不完全数据集中缺失数据的缺失属性填充初始值,得到初始完全数据集;
步骤S403、利用基于布谷鸟算法的聚类算法对所述初始完全数据集进行聚类,得到聚类簇集合;
步骤S404、确定所述聚类簇集合中聚类簇的完整数据,并确定该完整数据的缺失属性的均值,进而根据所述均值更新所述聚类簇中缺失数据的初始值,得到目标完全数据集。
在本实施例中,所述为所述不完全数据集中缺失数据的缺失属性填充初始值,得到初始完全数据集,具体可以包括:
对所述不完全数据集进行随机划分,得到多个分组;确定各个所述分组中完全数据的缺失属性的随机均值;根据所述分组中完全数据的缺失属性的随机均值,填充相应的分组中的缺失数据,得到初始完全数据集。
在本实施例中,所述利用基于布谷鸟算法的聚类算法对所述初始完全数据集进行聚类,得到聚类簇集合,具体可以包括:
从所述初始完全数据集随机选取多个数据,以作为初始的聚类中心;
根据所述聚类中心,对所述初始完全数据集中的各个数据进行聚类划分操作,得到聚类结果;
确定所述聚类结果的适应度数值;
在所述适应度数值大于当前最优聚类中心的适应度数值时,根据所述聚类中心更新所述当前最优聚类中心;
根据莱维飞行策略,对所述聚类中心进行更新;
重复执行所述聚类划分操作,直至达到预设终止条件,得到聚类簇集合。
在本实施例中,在所述根据莱维飞行策略,对所述聚类中心进行更新之后,还可以包括:
生成随机数,并在所述随机数大于预设阈值时,对更新后的聚类中心进行随机改变。
在本实施例中,所述预设终止条件具体为:
达到预设最大迭代次数或满足适应度函数收敛条件。
最后,本申请还提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时用于实现以下步骤:
获取不完全数据集;为所述不完全数据集中缺失数据的缺失属性填充初始值,得到初始完全数据集;利用基于布谷鸟算法的聚类算法对所述初始完全数据集进行聚类,得到聚类簇集合;确定所述聚类簇集合中聚类簇的完整数据,并确定该完整数据的缺失属性的均值,进而根据所述均值更新所述聚类簇中缺失数据的初始值,得到目标完全数据集。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种数据缺失属性值的填充设备,其特征在于,包括:
存储器:用于存储计算机程序;
处理器:用于执行所述计算机程序,以实现以下步骤:
获取不完全数据集;为所述不完全数据集中缺失数据的缺失属性填充初始值,得到初始完全数据集;利用基于布谷鸟算法的聚类算法对所述初始完全数据集进行聚类,得到聚类簇集合;确定所述聚类簇集合中聚类簇的完整数据,并确定该完整数据的缺失属性的均值,进而根据所述均值更新所述聚类簇中缺失数据的初始值,得到目标完全数据集。
2.如权利要求1所述的数据缺失属性值的填充设备,其特征在于,所述处理器具体用于:
对所述不完全数据集进行随机划分,得到多个分组;确定各个所述分组中完全数据的缺失属性的随机均值;根据所述分组中完全数据的缺失属性的随机均值,填充相应的分组中的缺失数据,得到初始完全数据集。
3.如权利要求1所述的数据缺失属性值的填充设备,其特征在于,所述处理器具体用于:
从所述初始完全数据集随机选取多个数据,以作为初始的聚类中心;
根据所述聚类中心,对所述初始完全数据集中的各个数据进行聚类划分操作,得到聚类结果;
确定所述聚类结果的适应度数值;
在所述适应度数值大于当前最优聚类中心的适应度数值时,根据所述聚类中心更新所述当前最优聚类中心;
根据莱维飞行策略,对所述聚类中心进行更新;
重复执行所述聚类划分操作,直至达到预设终止条件,得到聚类簇集合。
4.如权利要求3所述的数据缺失属性值的填充设备,其特征在于,所述处理器还用于:
生成随机数,并在所述随机数大于预设阈值时,对更新后的聚类中心进行随机改变。
5.如权利要求3所述的数据缺失属性值的填充设备,其特征在于,所述预设终止条件为:
达到预设最大迭代次数或满足适应度函数收敛条件。
6.一种数据缺失属性值的填充装置,其特征在于,包括:
数据获取模块:用于获取不完全数据集;
第一填充模块:用于为所述不完全数据集中缺失数据的缺失属性填充初始值,得到初始完全数据集;
聚类模块:用于利用基于布谷鸟算法的聚类算法对所述初始完全数据集进行聚类,得到聚类簇集合;
第二填充模块:用于确定所述聚类簇集合中聚类簇的完整数据,并确定该完整数据的缺失属性的均值,进而根据所述均值更新所述聚类簇中缺失数据的初始值,得到目标完全数据集。
7.如权利要求6所述的数据缺失属性值的填充装置,其特征在于,所述第一填充模块包括:
随机划分单元:用于对所述不完全数据集进行随机划分,得到多个分组;
随机均值确定单元:用于确定各个所述分组中完全数据的缺失属性的随机均值;
数据填充单元:用于根据所述分组中完全数据的缺失属性的随机均值,填充相应的分组中的缺失数据,得到初始完全数据集。
8.如权利要求6所述的数据缺失属性值的填充装置,其特征在于,所述聚类模块包括:
初始聚类中心确定单元:用于从所述初始完全数据集随机选取多个数据,以作为初始的聚类中心;
聚类划分单元:用于根据所述聚类中心,对所述初始完全数据集中的各个数据进行聚类划分操作,得到聚类结果;
适应度数值确定单元:用于确定所述聚类结果的适应度数值;
当前最优聚类中心更新单元:用于在所述适应度数值大于当前最优聚类中心的适应度数值时,根据所述聚类中心更新所述当前最优聚类中心;
聚类中心更新单元:用于根据莱维飞行策略,对所述聚类中心进行更新;
聚类结果输出单元:用于重复执行所述聚类划分操作,直至达到预设终止条件,得到聚类簇集合。
9.一种数据缺失属性值的填充方法,其特征在于,包括:
获取不完全数据集;
为所述不完全数据集中缺失数据的缺失属性填充初始值,得到初始完全数据集;
利用基于布谷鸟算法的聚类算法对所述初始完全数据集进行聚类,得到聚类簇集合;
确定所述聚类簇集合中聚类簇的完整数据,并确定该完整数据的缺失属性的均值,进而根据所述均值更新所述聚类簇中缺失数据的初始值,得到目标完全数据集。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时用于实现以下步骤:
获取不完全数据集;为所述不完全数据集中缺失数据的缺失属性填充初始值,得到初始完全数据集;利用基于布谷鸟算法的聚类算法对所述初始完全数据集进行聚类,得到聚类簇集合;确定所述聚类簇集合中聚类簇的完整数据,并确定该完整数据的缺失属性的均值,进而根据所述均值更新所述聚类簇中缺失数据的初始值,得到目标完全数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910554940.8A CN110287179A (zh) | 2019-06-25 | 2019-06-25 | 一种数据缺失属性值的填充设备、装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910554940.8A CN110287179A (zh) | 2019-06-25 | 2019-06-25 | 一种数据缺失属性值的填充设备、装置及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110287179A true CN110287179A (zh) | 2019-09-27 |
Family
ID=68005545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910554940.8A Pending CN110287179A (zh) | 2019-06-25 | 2019-06-25 | 一种数据缺失属性值的填充设备、装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110287179A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414353A (zh) * | 2020-02-29 | 2020-07-14 | 平安科技(深圳)有限公司 | 智能化的缺失数据填充方法、装置及计算机可读存储介质 |
CN112101870A (zh) * | 2020-09-19 | 2020-12-18 | 炬星科技(深圳)有限公司 | 一种实物信息采集方法、设备及计算机可读存储介质 |
WO2021159655A1 (zh) * | 2020-02-12 | 2021-08-19 | 平安科技(深圳)有限公司 | 数据属性填充方法、装置、设备及计算机可读存储介质 |
CN114401116A (zh) * | 2021-12-20 | 2022-04-26 | 广东电网有限责任公司 | 基于HK-Means和安全性检测的可信数据传输方法 |
CN116112530A (zh) * | 2023-04-14 | 2023-05-12 | 河海大学 | 水利工程实时采集数据管理方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919957A (zh) * | 2017-03-10 | 2017-07-04 | 广州视源电子科技股份有限公司 | 处理数据的方法及装置 |
CN109460775A (zh) * | 2018-09-20 | 2019-03-12 | 国家计算机网络与信息安全管理中心 | 一种基于信息熵的数据填充方法及装置 |
-
2019
- 2019-06-25 CN CN201910554940.8A patent/CN110287179A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919957A (zh) * | 2017-03-10 | 2017-07-04 | 广州视源电子科技股份有限公司 | 处理数据的方法及装置 |
CN109460775A (zh) * | 2018-09-20 | 2019-03-12 | 国家计算机网络与信息安全管理中心 | 一种基于信息熵的数据填充方法及装置 |
Non-Patent Citations (2)
Title |
---|
丁斌 等: "基于K-means和布谷鸟算法的流程模型聚类", 《价值工程》 * |
赵星: "基于聚类的数据清洗研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021159655A1 (zh) * | 2020-02-12 | 2021-08-19 | 平安科技(深圳)有限公司 | 数据属性填充方法、装置、设备及计算机可读存储介质 |
CN111414353A (zh) * | 2020-02-29 | 2020-07-14 | 平安科技(深圳)有限公司 | 智能化的缺失数据填充方法、装置及计算机可读存储介质 |
CN111414353B (zh) * | 2020-02-29 | 2024-05-28 | 平安科技(深圳)有限公司 | 智能化的缺失数据填充方法、装置及计算机可读存储介质 |
CN112101870A (zh) * | 2020-09-19 | 2020-12-18 | 炬星科技(深圳)有限公司 | 一种实物信息采集方法、设备及计算机可读存储介质 |
CN114401116A (zh) * | 2021-12-20 | 2022-04-26 | 广东电网有限责任公司 | 基于HK-Means和安全性检测的可信数据传输方法 |
CN114401116B (zh) * | 2021-12-20 | 2023-06-23 | 广东电网有限责任公司 | 基于HK-Means和安全性检测的可信数据传输方法 |
CN116112530A (zh) * | 2023-04-14 | 2023-05-12 | 河海大学 | 水利工程实时采集数据管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287179A (zh) | 一种数据缺失属性值的填充设备、装置及方法 | |
RU2724136C1 (ru) | Способ и устройство обработки данных | |
CN102457571B (zh) | 一种云存储中数据均衡分布方法 | |
US7537523B2 (en) | Dynamic player groups for interest management in multi-character virtual environments | |
CN103995855B (zh) | 存储数据的方法和装置 | |
CN105654552B (zh) | 一种面向任意分布大规模点云数据的快速Delaunay构网方法 | |
CN106294421A (zh) | 一种数据写入、读取方法及装置 | |
CN103970879B (zh) | 一种调整数据块存储位置的方法及系统 | |
CN106598729A (zh) | 分布式并行计算系统的数据分配方法及系统 | |
CN115248781A (zh) | 一种组合测试用例生成方法、装置、设备及可读存储介质 | |
CN106973091B (zh) | 分布式内存数据重分布方法及系统、主控服务器 | |
CN104794237B (zh) | 网页信息处理方法及装置 | |
CN108509532B (zh) | 一种应用于地图的聚点方法和装置 | |
CN111291009B (zh) | 文件分块存储方法及装置 | |
CN107544848B (zh) | 集群扩展方法、装置、电子设备及存储介质 | |
CN116014764B (zh) | 一种分布式储能优化处理方法及装置 | |
CN110275895A (zh) | 一种缺失交通数据的填充设备、装置及方法 | |
CN116910061A (zh) | 一种数据库的分库分表方法、装置、设备及可读存储介质 | |
CN110765073A (zh) | 分布式存储系统的文件管理方法、介质、设备及装置 | |
CN106597435A (zh) | 实现基于粒子滤波slam算法的方法及系统 | |
CN106648891A (zh) | 基于MapReduce模型的任务执行方法和装置 | |
CN111160385A (zh) | 海量位置点聚合的方法、装置、设备及存储介质 | |
CN107104829B (zh) | 一种基于网络拓扑数据的物理设备匹配分配方法及装置 | |
CN112925793B (zh) | 一种多种结构数据分布式混合存储方法和系统 | |
CN109544329A (zh) | 撮合匹配方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190927 |