CN110287179A

CN110287179A - 一种数据缺失属性值的填充设备、装置及方法

Info

Publication number: CN110287179A
Application number: CN201910554940.8A
Authority: CN
Inventors: 蔡延光; 林枫; 蔡颢
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-09-27

Abstract

本申请公开了一种数据缺失属性值的填充设备，能获取不完全数据集；为不完全数据集中缺失属性填充初始值，得到初始完全数据集；利用基于布谷鸟算法的聚类算法对初始完全数据集进行聚类，得到聚类簇集合；确定聚类簇集合中各聚类簇的完整数据的缺失属性的均值，进而根据该均值更新该聚类簇中的初始值，得到目标完全数据集。可见，该方案基于布谷鸟算法对聚类算法进行了优化，此外该方案先为缺失属性填充初始值，再根据聚类得到的聚类簇中完整数据缺失属性的均值对初始值进行更新，对高缺失倍率和低缺失倍率的数据都能起到较好的填充效果。此外，本申请还提供了一种数据缺失属性值的填充装置、方法及可读存储介质，其作用与上述设备的作用相对应。

Description

一种数据缺失属性值的填充设备、装置及方法

技术领域

本申请涉及数据填充领域，特别涉及一种数据缺失属性值的填充设备、装置、方法及可读存储介质。

背景技术

数据集在收集与整理的过程中由于各种不可控原因导致数据的部分属性值缺失，从而对数据的质量造成非常严重的影响并且降低数据挖掘的效果。因此，为了提高对不完整数据集的分析效果，对其中的缺失数据进行填充是至关重要的。

然而，现有的缺失属性值填充方案要么对高缺失倍率数据的填充效果不理想，要么对低缺失倍率数据的填充效果不理想，难以均衡对不同缺失倍率数据的填充效果。

发明内容

本申请的目的是提供一种数据缺失属性值的填充设备、装置、方法及可读存储介质，用以解决现有的缺失属性值填充方案难以均衡对不同缺失倍率数据的填充效果的问题。具体方案如下：

第一方面，本申请提供了一种数据缺失属性值的填充设备，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序，以实现以下步骤：

获取不完全数据集；为所述不完全数据集中缺失数据的缺失属性填充初始值，得到初始完全数据集；利用基于布谷鸟算法的聚类算法对所述初始完全数据集进行聚类，得到聚类簇集合；确定所述聚类簇集合中聚类簇的完整数据，并确定该完整数据的缺失属性的均值，进而根据所述均值更新所述聚类簇中缺失数据的初始值，得到目标完全数据集。

可选的，所述处理器具体用于：

对所述不完全数据集进行随机划分，得到多个分组；确定各个所述分组中完全数据的缺失属性的随机均值；根据所述分组中完全数据的缺失属性的随机均值，填充相应的分组中的缺失数据，得到初始完全数据集。

可选的，所述处理器具体用于：

从所述初始完全数据集随机选取多个数据，以作为初始的聚类中心；

根据所述聚类中心，对所述初始完全数据集中的各个数据进行聚类划分操作，得到聚类结果；

确定所述聚类结果的适应度数值；

在所述适应度数值大于当前最优聚类中心的适应度数值时，根据所述聚类中心更新所述当前最优聚类中心；

根据莱维飞行策略，对所述聚类中心进行更新；

重复执行所述聚类划分操作，直至达到预设终止条件，得到聚类簇集合。

可选的，所述处理器还用于：

生成随机数，并在所述随机数大于预设阈值时，对更新后的聚类中心进行随机改变。

可选的，所述预设终止条件为：

达到预设最大迭代次数或满足适应度函数收敛条件。

第二方面，本申请提供了一种数据缺失属性值的填充装置，包括：

数据获取模块：用于获取不完全数据集；

第一填充模块：用于为所述不完全数据集中缺失数据的缺失属性填充初始值，得到初始完全数据集；

聚类模块：用于利用基于布谷鸟算法的聚类算法对所述初始完全数据集进行聚类，得到聚类簇集合；

第二填充模块：用于确定所述聚类簇集合中聚类簇的完整数据，并确定该完整数据的缺失属性的均值，进而根据所述均值更新所述聚类簇中缺失数据的初始值，得到目标完全数据集。

可选的，所述第一填充模块包括：

随机划分单元：用于对所述不完全数据集进行随机划分，得到多个分组；

随机均值确定单元：用于确定各个所述分组中完全数据的缺失属性的随机均值；

数据填充单元：用于根据所述分组中完全数据的缺失属性的随机均值，填充相应的分组中的缺失数据，得到初始完全数据集。

可选的，所述聚类模块包括：

初始聚类中心确定单元：用于从所述初始完全数据集随机选取多个数据，以作为初始的聚类中心；

聚类划分单元：用于根据所述聚类中心，对所述初始完全数据集中的各个数据进行聚类划分操作，得到聚类结果；

适应度数值确定单元：用于确定所述聚类结果的适应度数值；

当前最优聚类中心更新单元：用于在所述适应度数值大于当前最优聚类中心的适应度数值时，根据所述聚类中心更新所述当前最优聚类中心；

聚类中心更新单元：用于根据莱维飞行策略，对所述聚类中心进行更新；

聚类结果输出单元：用于重复执行所述聚类划分操作，直至达到预设终止条件，得到聚类簇集合。

第三方面，本申请提供了一种数据缺失属性值的填充方法，包括：

获取不完全数据集；

为所述不完全数据集中缺失数据的缺失属性填充初始值，得到初始完全数据集；

利用基于布谷鸟算法的聚类算法对所述初始完全数据集进行聚类，得到聚类簇集合；

确定所述聚类簇集合中聚类簇的完整数据，并确定该完整数据的缺失属性的均值，进而根据所述均值更新所述聚类簇中缺失数据的初始值，得到目标完全数据集。

第四方面，本申请提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现以下步骤：

本申请所提供的一种数据缺失属性值的填充设备，获取不完全数据集；为不完全数据集中缺失数据的缺失属性填充初始值，得到初始完全数据集；利用基于布谷鸟算法的聚类算法对初始完全数据集进行聚类，得到聚类簇集合；确定聚类簇集合中聚类簇的完整数据，并确定该完整数据的缺失属性的均值，进而根据均值更新聚类簇中缺失数据的初始值，得到目标完全数据集。可见，该方案基于布谷鸟算法对聚类算法进行了优化，此外，该方案先为缺失属性填充初始值，再根据聚类得到的聚类簇中完整数据缺失属性的均值对初始值进行更新，对高缺失倍率和低缺失倍率的数据都能起到较好的填充效果。

此外，本申请还提供了一种数据缺失属性值的填充装置、方法及可读存储介质，其作用与上述设备的作用相对应，这里不再赘述。

附图说明

为了更清楚的说明本申请实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请所提供的一种数据缺失属性值的填充设备实施例一的结构示意图；

图2为本申请所提供的一种数据缺失属性值的填充设备实施例二的工作流程示意图；

图3为本申请所提供的一种数据缺失属性值的填充装置实施例的功能框图；

图4为本申请所提供的一种数据缺失属性值的填充方法实施例一的实现流程图。

具体实施方式

本申请的核心是提供一种数据缺失属性值的填充设备、装置、方法及可读存储介质，实现了基于布谷鸟算法对聚类算法进行优化，此外，在填充过程中该方案先为缺失属性填充初始值，再根据聚类得到的聚类簇中完整数据缺失属性的均值对初始值进行更新，对高缺失倍率和低缺失倍率的数据都能起到较好的填充效果。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面对本申请提供的一种数据缺失属性值的填充设备实施例一进行介绍，参见图1，实施例一包括：

存储器100：用于存储计算机程序；

处理器200：用于执行所述计算机程序，以实现以下步骤：

上述不完全数据集主要指包括缺失数据的数据集合，本实施例中缺失数据主要指缺乏部分属性数值的数据，其中属性可以根据数据所在场景确定，例如，当上述数据为交通流数据时，其属性可以为平均车流量、最大车流量等。

在本实施例中，数据缺失属性值的填充设备可以是个人电脑，也可以是服务器、平板电脑、网络节点等。

存储器100用于存储数据缺失属性值的填充设备的应用软件及各类数据，例如计算机程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。处理器200用于运行存储器100中存储的程序代码，还可以对存储于存储器100中的数据进行处理。在一些实施例中，处理器200可以是中央处理器、控制器、微控制器、微处理器或其他数据处理芯片；存储器100可以包括以下任意一项或多项可读存储介质：闪存、硬盘、多媒体卡、卡型存储器、磁性存储器、磁盘、光盘。

存储器100与处理器200之间的总线可以是外设部件互连标准总线或扩展工业标准结构总线等，该总线具体可以分为地址总线、数据总线、控制总线。为便于表示，图1中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

作为一种具体的实施方式，所述处理器200具体用于：

确定所述聚类结果的适应度数值；

根据莱维飞行策略，对所述聚类中心进行更新；

作为一种具体的实施方式，所述处理器200还用于：

作为一种具体的实施方式，所述预设终止条件为：

达到预设最大迭代次数或满足适应度函数收敛条件。

本实施例所提供一种数据缺失属性值的填充设备，能够获取不完全数据集；为不完全数据集中缺失数据的缺失属性填充初始值，得到初始完全数据集；利用基于布谷鸟算法的聚类算法对初始完全数据集进行聚类，得到聚类簇集合；确定聚类簇集合中聚类簇的完整数据，并确定该完整数据的缺失属性的均值，进而根据均值更新聚类簇中缺失数据的初始值，得到目标完全数据集。可见，该方案基于布谷鸟算法对聚类算法进行了优化，此外，该方案先为缺失属性填充初始值，再根据聚类得到的聚类簇中完整数据缺失属性的均值对初始值进行更新，对高缺失倍率和低缺失倍率的数据都能起到较好的填充效果。

下面开始详细介绍本申请提供的一种数据缺失属性值的填充设备实施例二，实施例二基于上述实施例一实现，并在实施例一的基础上进行了一定程度上的拓展。

本实施例的数据缺失属性值的填充设备主要包括存储器和处理器，本实施例主要的数据缺失属性值的填充设备的工作流程进行介绍。参见图2，实施例二具体包括：

S201、初始化参数；

作为一种具体的实施方式，本实施例中参数设置如下：不完全数据集为X，其中含有n个数据样本，每个数据样本的维度为m，数据样本记为x_i＝{x_i1,x_i2,...,x_ij}，(i＝1,2,..,n)，(j＝1,2,...,m)，数据集记为X＝{x₁,x₂,...,x_n}，聚类中心记为w＝{w₁,w₂,...,w_k}，聚类结果记为W＝{W₁,W₂,...,W_k}。聚类个数为k，巢寄行为被发现概率为P，最大迭代次数maxcount，误差阈值Φ，适应度函数f(x)如公式(1)所示：

其中，n_z表示每个类中的数据样本个数。

S202、对不完全数据集，利用组内属性均值对缺失属性进行填充，得到初始完全数据集；

作为一种具体的实施方式，本实施例将不完全数据集X随机地分成v组，计算各组中缺失属性的均值，利用组内完全样本的属性均值填充缺失数据的属性值，如公式(2)所示，得到初始完全数据集X'，公式(2)中x_ip'∈X'：

S203、从初始完全数据集内随机地选取k个数据样本作为初始的聚类中心；

具体的，将初始的聚类中心记为w＝{w₁,w₂,...,w_k}。

S204、根据距离最小原则，对当前的聚类中心执行聚类划分操作，并计算适应度函数值；

具体的，计算数据集X内的所有数据样本至k个聚类中心的欧式距离；然后根据欧式距离将每个数据样本划分至与其相距最近的聚类中心，划分完成后重新计算每个聚类中心的适应度函数f(x)的值；

欧式距离计算公式如公式(3)所示：

S205、根据莱维飞行策略更新k个聚类中心；

按公式(4)和公式(5)对k个聚类中心进行更新操作，并计算更新后的聚类中心的适应度函数f(x)的值并与上代聚类中心对比，取较优的聚类中心。公式(4)和公式(5)如下所示：

Levy(λ)～s^λ,λ∈(1,3] (5)

其中，α表示步长控制量，且一般α＝1，·代表点乘运算，Levy(λ)表示随机搜索路径，且L(λ)服从Levy分布，s为莱维飞行得出的随机步长。

S206、生成一个随机数Q，判断随机数与预设阈值的大小关系，若Q>P，则进入步骤S207；若Q≤P，则跳转至S208；

S207、随机地对聚类中心位置进行改变，对更新后的聚类中心重新进行聚类划分操作；

按公式(6)重新计算聚类中心，计算每个聚类中心的适应度函数f(x)的值并与当前聚类中心比较，取较优的聚类中心，进而依据更新后的聚类中心重新进行聚类划分。公式(6)如下所示：

S208、判断是否达到最大迭代次数或适应度函数收敛，若是，则进入步骤S209，否则进入步骤S204；

S209、利用聚类结果中的属性均值更新缺失样本中的属性值，形成目标完全数据集X”；

S210、判断是否满足算法结束条件，若满足则进入步骤S211；否则跳转至S203；

按公式(7)计算Δt值，若满足Δt<Φ或者算法达到最大的迭代次数，则填充结束并输出最终结果。公式(7)具体为：

S211、填充结束并输出最终结果。

可见，本实施例提供了一种数据缺失属性值的填充设备，主要对该设备的工作方案进行了介绍。该方案针对不完全数据集中部分数据的属性值缺失的问题，采用基于布谷鸟算法优化的聚类算法对数据集进行聚类，避免了常规聚类算法对初始参数较敏感且相对容易出现局部最优解的现象；此外，该方案将组内均值填充算法与优化后的聚类算法相结合，并采用递归填充策略，对缺失属性值进行填充。最终均衡了对高缺失倍率数据和低缺失倍率数据的填充效果，对高缺失倍率的数据集具有更好的处理性能，且对低缺失倍率的数据集的填充性能稳定。

下面对本申请实施例提供的一种数据缺失属性值的填充装置进行介绍，下文描述的一种数据缺失属性值的填充装置与上文描述的一种数据缺失属性值的填充设备可相互对应参照。

参见图3，该装置包括：

数据获取模块301、用于获取不完全数据集；

第一填充模块302、用于为所述不完全数据集中缺失数据的缺失属性填充初始值，得到初始完全数据集；

聚类模块303、用于利用基于布谷鸟算法的聚类算法对所述初始完全数据集进行聚类，得到聚类簇集合；

第二填充模块304、用于确定所述聚类簇集合中聚类簇的完整数据，并确定该完整数据的缺失属性的均值，进而根据所述均值更新所述聚类簇中缺失数据的初始值，得到目标完全数据集。

作为一种具体的实施方式，所述第一填充模块302包括：

作为一种具体的实施方式，所述聚类模块303包括：

本实施例的数据缺失属性值的填充装置用于实现前述的数据缺失属性值的填充设备的实施方案，具体的，该数据缺失属性值的填充装置可以为数据缺失属性值的填充设备的内部功能模块。

此外，本申请还提供了一种数据缺失属性值的填充方法，参见图4，包括：

步骤S401、获取不完全数据集；

步骤S402、为所述不完全数据集中缺失数据的缺失属性填充初始值，得到初始完全数据集；

步骤S403、利用基于布谷鸟算法的聚类算法对所述初始完全数据集进行聚类，得到聚类簇集合；

步骤S404、确定所述聚类簇集合中聚类簇的完整数据，并确定该完整数据的缺失属性的均值，进而根据所述均值更新所述聚类簇中缺失数据的初始值，得到目标完全数据集。

在本实施例中，所述为所述不完全数据集中缺失数据的缺失属性填充初始值，得到初始完全数据集，具体可以包括：

在本实施例中，所述利用基于布谷鸟算法的聚类算法对所述初始完全数据集进行聚类，得到聚类簇集合，具体可以包括：

确定所述聚类结果的适应度数值；

根据莱维飞行策略，对所述聚类中心进行更新；

在本实施例中，在所述根据莱维飞行策略，对所述聚类中心进行更新之后，还可以包括：

在本实施例中，所述预设终止条件具体为：

达到预设最大迭代次数或满足适应度函数收敛条件。

最后，本申请还提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现以下步骤：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种数据缺失属性值的填充设备，其特征在于，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序，以实现以下步骤：

2.如权利要求1所述的数据缺失属性值的填充设备，其特征在于，所述处理器具体用于：

3.如权利要求1所述的数据缺失属性值的填充设备，其特征在于，所述处理器具体用于：

确定所述聚类结果的适应度数值；

根据莱维飞行策略，对所述聚类中心进行更新；

4.如权利要求3所述的数据缺失属性值的填充设备，其特征在于，所述处理器还用于：

5.如权利要求3所述的数据缺失属性值的填充设备，其特征在于，所述预设终止条件为：

达到预设最大迭代次数或满足适应度函数收敛条件。

6.一种数据缺失属性值的填充装置，其特征在于，包括：

数据获取模块：用于获取不完全数据集；

7.如权利要求6所述的数据缺失属性值的填充装置，其特征在于，所述第一填充模块包括：

8.如权利要求6所述的数据缺失属性值的填充装置，其特征在于，所述聚类模块包括：

9.一种数据缺失属性值的填充方法，其特征在于，包括：

获取不完全数据集；

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现以下步骤：