CN110659268A

CN110659268A - 基于聚类算法的数据填充方法、装置及计算机设备

Info

Publication number: CN110659268A
Application number: CN201910754315.8A
Authority: CN
Inventors: 杨春春
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2020-01-07

Abstract

本发明提供一种基于聚类算法的数据填充方法、装置及计算机设备，方法包括：确定缺失数据的属性；根据所述缺失数据的属性对数据进行二元组整合；对二元组整合后的数据进行聚类，形成类簇；确定所述缺失数据所在的类簇；根据所述缺失数据所在的类簇，确定填充所述缺失数据的参考数据集；根据所述参考数据集填充所述缺失数据。本发明，可以实现对缺失数据的填充，以及保证填充的缺失数据的准确度，为数据挖掘和分析的准确性提供依据。

Description

基于聚类算法的数据填充方法、装置及计算机设备

技术领域

本发明涉及大数据技术领域，尤其涉及一种基于聚类算法的数据填充方法、装置及计算机设备。

背景技术

随着大数据的兴起，数据处理的需求变得越来越大，范围也逐渐变广。然而，在数据获取过程中，或者在数据处理过程中，可能会发生数据缺失。传统的方法是忽略这些缺失数据，然而这种方式在利用缺失数据进行数据挖掘和分析的时候会造成误差。

发明内容

本发明的目的是提供一种基于聚类算法的数据填充方法、装置及计算机设备，用于解决现有技术存在的问题。

为实现上述目的，本发明提供一种基于聚类算法的数据填充方法，其特征在于，所述方法包括以下步骤：

确定缺失数据的属性；

根据所述缺失数据的属性对数据进行二元组整合；

对二元组整合后的数据进行聚类，形成类簇；

确定所述缺失数据所在的类簇；

根据所述缺失数据所在的类簇，确定填充所述缺失数据的参考数据集；

根据所述参考数据集填充所述缺失数据。

进一步地，所述确定所述缺失数据所在的类簇，包括：确定形成的每一个类簇的中心点，计算每一个类簇的中心点与缺失数据的距离，将最小距离对应的类簇确定为所述缺失数据所在的类簇。

进一步地，所述确定填充所述缺失数据的参考数据集，包括：确定所述缺失数据所在的类簇中的离群点，将确定的离群点从所述缺失数据所在的类簇中删除，将所述缺失数据所在的类簇中剩余的数据作为所述参考数据集。

进一步地，所述确定所述缺失数据所在的类簇中的离群点，包括：从所述缺失数据所在的类簇中依次删除一个数据，并计算删除后所述缺失数据所在的类簇中目标参数，在所述目标参数与初始目标参数的差值大于预设的目标偏离阈值时，确定所述删除一个数据为离群点；其中，初始目标参数是根据未删除数据前所述缺失数据所在的类簇计算得来的。

进一步地，所述计算删除后所述缺失数据所在的类簇中目标参数，包括：利用下述公式计算删除后所述缺失数据所在的类簇中目标参数：

其中，F用于表征计算的目标参数；K用于表征类簇的个数，x用于表征数据对象，C_i用于表征第i个聚类中心，dist用于表征距离。

进一步地，所述根据所述参考数据集填充所述缺失数据，包括：利用下述公式计算用于填充所述缺失数据的数据：

其中，x′用于表征用于填充所述缺失数据的数据，N用于表征所述参考数据集中的数据个数，x_N用于表征所述参考数据集中的第N个数据。

进一步地，进一步包括：判断计算的用于填充所述缺失数据的数据是否为所在类簇的离群点，若是，则返回所述对二元组整合后的数据进行聚类的步骤，直到计算的用于填充所述缺失数据的数据不是所在类簇的离群点为止或达到设定的迭代次数为止。

为实现上述目的，本发明实施例还提供了一种基于聚类算法的数据填充装置，所述方法包括以下内容：

第一确定模块，用于确定缺失数据的属性；

二元组整合模块，用于根据所述缺失数据的属性对数据进行二元组整合；

聚类模块，用于对二元组整合后的数据进行聚类，形成类簇；

第二确定模块，用于确定所述缺失数据所在的类簇；

第三确定模块，用于根据所述缺失数据所在的类簇，确定填充所述缺失数据的参考数据集；

填充模块，用于根据所述参考数据集填充所述缺失数据。

为实现上述目的，本发明实施例还提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述基于聚类算法的数据填充方法的步骤。

为实现上述目的，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述基于聚类算法的数据填充方法的步骤。

本发明提供的一种基于聚类算法的数据填充方法、装置及计算机设备，通过确定缺失数据的属性，根据所述缺失数据的属性对数据进行二元组整合，并对二元组整合后的数据进行聚类形成类簇，确定所述缺失数据所在的类簇，并确定填充缺失数据的参考数据集，以根据参考数据集填充缺失数据。本发明，可以实现对缺失数据的填充，以及保证填充的缺失数据的准确度，为数据挖掘和分析的准确性提供依据。

附图说明

图1为本发明基于聚类算法的数据填充方法实施例一的流程图；

图2为本发明基于聚类算法的数据填充装置实施例一的程序模块示意图；

图3为本发明基于聚类算法的数据填充装置实施例一的另一程序模块示意图；

图4为本发明基于聚类算法的数据填充装置实施例一的硬件结构示意图；

图5为本发明基于聚类算法的数据填充方法实施例二的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的基于聚类算法的数据填充方法、装置及计算机设备，适用于信息大数据技术领域，为一种在数据缺失情况下，通过聚类算法实习数据填充的方法。本发明通过确定缺失数据的属性，根据所述缺失数据的属性对数据进行二元组整合，并对二元组整合后的数据进行聚类形成类簇，确定所述缺失数据所在的类簇，并确定填充缺失数据的参考数据集，以根据参考数据集填充缺失数据。本发明，可以实现对缺失数据的填充，以及保证填充的缺失数据的准确度，为数据挖掘和分析的准确性提供依据。

实施例一

请参阅图1，本实施例的一种基于聚类算法的数据填充方法中，可以包括以下步骤：

步骤01，确定缺失数据的属性。

在数据采集或传输过程中由于人为操作失误或机械方面原因，可能会造成空值从而导致数据发生缺失。在本实施例中，可以利用空值定位的方式实现缺失数据的定位。

在本发明实施例中，在定位到缺失数据之后，可以根据数据内容来确定缺失数据的属性。例如，某个男生对篮球的喜爱程度发生了数据缺失，那么将对篮球的喜爱程度确定为缺失数据的属性。再如，某个用户对所购目标保险到期后的续保概率发生了数据缺失，那么将对目标保险到期后的续保概率确定为缺失数据的属性。

步骤02，根据所述缺失数据的属性对数据进行二元组整合。

其中，根据缺失数据的属性对数据进而二元组整合，可以是将缺失数据的属性与基准数据进行关系对应。接步骤01中的例子，某个男生对篮球的喜爱程度发生了数据缺失，那么基准数据为男生，将缺失数据的属性与基准数据进行关系进行对应可以是：将男生与对篮球的喜爱程度进行关系对应；某个用户对所购目标保险到期后的续保概率发生了数据缺失，基准数据是购买了目标保险的用户，将缺失数据的属性与基准数据进行关系对应可以是：将用户与对目标保险到期后的续保概率进行关系对应。

步骤03，对二元组整合后的数据进行聚类，形成类簇。

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。

在本发明实施例中，为了实现对缺失数据的填充，可以根据二元组整合后的数据，以基准数据为基准，对与缺失数据的属性相同的数据进行聚类。例如，以男生为基准，对对篮球的喜爱程度进行聚类，可以形成多个类簇，形成的类簇均为男生对篮球的喜爱程度，只是喜爱程度不同，例如，形成了五个类簇，分别为：非常喜欢、喜欢、一般、不喜欢、非常不喜欢。

本实施例中聚类所采用的方法可以是K均值聚类、均值漂移聚类算法、基于密度的聚类算法、高斯混合模型的最大期望聚类、凝聚层次聚类和图团体检测方式聚类中的任意一种。聚类完成后，形成有多个类簇，每个类簇对应有中心点。

步骤04，确定所述缺失数据所在的类簇。

为了实现对缺失数据的填充，首先需要确定缺失数据所在的类簇，在本实施例中可以通过距离来确定数据之间的相似度，因此，本实施例至少可以通过如下一种方式确定缺失数据所在的类簇：确定形成的每一个类簇的中心点，计算每一个类簇的中心点与缺失数据的距离，将最小距离对应的类簇确定为所述缺失数据所在的类簇。

在本发明一个实施例中，为了计算类簇中心点与缺失数据的距离，可以令

E_i取最小值时对应的i值为缺失数据所在的类簇；

其中，K为形成的类簇个数，C_i为第i个类簇的中心点，x_i为第i个类簇的中心点的坐标值。

步骤05，根据所述缺失数据所在的类簇，确定填充所述缺失数据的参考数据集。

在本发明实施例中，由于确定了缺失数据所在的类簇，那么可以将该缺失数据所在类簇的所有数据均确定为填充缺失数据的参考数据集中的数据。

在本发明一个实施例中，由于类簇中可能存在有离群点，离群点对缺失数据的参考性较低，因此，还可以使用如下一种方式确定缺失数据的参考数据集：确定所述缺失数据所在的类簇中的离群点，将确定的离群点从所述缺失数据所在的类簇中删除，将所述缺失数据所在的类簇中剩余的数据作为所述参考数据集。如此，可以保证参考数据集中的数据对缺失数据更具有参考性，进一步可以提高缺失数据填充的准确性。

其中，离群点检测方法通常可以采用基于统计方法的离群点检测、基于邻近度的离群点检测、基于密度的离群点检测和基于聚类的离群点检测等，利用上述方法可以检测到每个类簇中的离群点。具体地，为了确定缺失数据所在类簇中的离群点，可以使用如下一种方式来具体实现：从所述缺失数据所在的类簇中依次删除一个数据，并计算删除后所述缺失数据所在的类簇中目标参数，在所述目标参数与初始目标参数的差值大于预设的目标偏离阈值时，确定所述删除一个数据为离群点；其中，初始目标参数是根据未删除数据前所述缺失数据所在的类簇计算得来的。

在本实施例中，为了确定缺失数据所在类簇中的删除的数据是否为离群点，可以通过类簇中目标参数与初始目标参数的差值来确定的，在本发明一个实施例中，至少可以通过如下一种方式计算删除后所述缺失数据所在的类簇中目标参数：利用下述公式计算删除后所述缺失数据所在的类簇中目标参数：

本实施例中，在确定了离群点之后，将缺失数据所在类簇中的离群点删除得到参考数据集。

步骤06，根据所述参考数据集填充所述缺失数据。

由于参考数据集已经确定，那么可以利用参考数据集中的数据计算缺失数据，在本发明一个实施例中，至少开利用如下一种方式来根据所述参考数据集填充所述缺失数据，包括：利用下述公式计算用于填充所述缺失数据的数据：

进一步地，还可以利用期望最大值法计算填充的缺失数据。

在本发明一个实施例中，由于在根据参考数据集计算出缺失数据之后，还可以对缺失数据的准确性进行验证，进一步包括：判断计算的用于填充所述缺失数据的数据是否为所在类簇的离群点，若是，则返回所述对二元组整合后的数据进行聚类的步骤，直到计算的用于填充所述缺失数据的数据不是所在类簇的离群点为止或达到设定的迭代次数为止。

需要说明的是，在判断计算的用于填充所述缺失数据的数据是否为所在类簇的离群点时，可以使用步骤05中离群点检测方式来进行检测，在此不再赘述。

其中，判断用于填充所述缺失数据的数据为所在类簇的离群点时，那么表明计算的缺失数据结果准确性较低，那么可以重新返回步骤02进行聚类，若判断用于填充缺失数据的数据不是离群点时，表明计算的缺失数据结果准确性较高。

若在返回步骤03进行聚类后计算的缺失数据依然为离群点的次数达到设定次数时，则将该最后一次计算的数据填充到缺失数据中。

本发明实施例中，通过确定缺失数据的属性，根据所述缺失数据的属性对数据进行二元组整合，并对二元组整合后的数据进行聚类形成类簇，确定所述缺失数据所在的类簇，并确定填充缺失数据的参考数据集，以根据参考数据集填充缺失数据。本发明，可以实现对缺失数据的填充，以及保证填充的缺失数据的准确度，为数据挖掘和分析的准确性提供依据。

请继续参阅图2，示出了一种基于聚类算法的数据填充装置，在本实施例中，基于聚类算法的数据填充装置10可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本发明，并可实现上述基于聚类算法的数据填充方法。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序本身更适合于描述基于聚类算法的数据填充装置10在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能：

第一确定模块101，用于确定缺失数据的属性；

二元组整合模块102，用于根据所述缺失数据的属性对数据进行二元组整合；

聚类模块103，用于对二元组整合后的数据进行聚类，形成类簇；

第二确定模块104，用于确定所述缺失数据所在的类簇；

第三确定模块105，用于根据所述缺失数据所在的类簇，确定填充所述缺失数据的参考数据集；

填充模块106，用于根据所述参考数据集填充所述缺失数据。

本实施例中，通过第一确定模块确定缺失数据的属性，通过二元组整合模块根据所述缺失数据的属性对数据进行二元组整合，并利用聚类模块对二元组整合后的数据进行聚类形成类簇，利用第二确定模块确定所述缺失数据所在的类簇，并利用第三确定模块确定填充缺失数据的参考数据集，以使填充模块根据参考数据集填充缺失数据。本发明，可以实现对缺失数据的填充，以及保证填充的缺失数据的准确度，为数据挖掘和分析的准确性提供依据。

在本发明一个实施例中，所述第二确定模块，具体用于确定形成的每一个类簇的中心点，计算每一个类簇的中心点与缺失数据的距离，将最小距离对应的类簇确定为所述缺失数据所在的类簇。

在本发明一个实施例中，所述第三确定模块，具体用于确定所述缺失数据所在的类簇中的离群点，将确定的离群点从所述缺失数据所在的类簇中删除，将所述缺失数据所在的类簇中剩余的数据作为所述参考数据集。

在本发明一个实施例中，所述第三确定模块在确定所述缺失数据所在的类簇中的离群点时，具体用于从所述缺失数据所在的类簇中依次删除一个数据，并计算删除后所述缺失数据所在的类簇中目标参数，在所述目标参数与初始目标参数的差值大于预设的目标偏离阈值时，确定所述删除一个数据为离群点；其中，初始目标参数是根据未删除数据前所述缺失数据所在的类簇计算得来的。

在本发明一个实施例中，所述第三确定模块在计算删除后所述缺失数据所在的类簇中目标参数时，可以利用下述公式计算删除后所述缺失数据所在的类簇中目标参数：

在本发明一个实施例中，所述填充模块，具体用于可利用下述公式计算用于填充所述缺失数据的数据：

在本发明一个实施例中，为了保证填充的数据不是离群点数据，以及为了保证填充数据更准确，请参考图3，基于聚类算法的数据填充装置还可以包括：判断模块301，判断计算的用于填充所述缺失数据的数据是否为所在类簇的离群点，若是，则返回所述对二元组整合后的数据进行聚类的步骤，直到计算的用于填充所述缺失数据的数据不是所在类簇的离群点为止或达到设定的迭代次数为止。

本实施例还提供一种计算机设备，如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备20至少包括但不限于：可通过系统总线相互通信连接的存储器21、处理器22，如图4所示。需要指出的是，图4仅示出了具有组件21-22的计算机设备20，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备20的内部存储单元，例如该计算机设备20的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备20的外部存储设备，例如该计算机设备20上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备20的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备20的操作系统和各类应用软件，例如实施例一的基于聚类算法的数据填充装置10的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行基于聚类算法的数据填充装置10，以实现实施例一的基于聚类算法的数据填充方法。

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储基于聚类算法的数据填充装置10，被处理器执行时实现实施例一的基于聚类算法的数据填充方法。

实施例二

请参阅图5，本实施例的基于聚类算法的数据填充方法以实施例一为基础，包括以下步骤：

步骤501，确定缺失数据的属性。

步骤502，根据所述缺失数据的属性对数据进行二元组整合。

步骤503，对二元组整合后的数据进行聚类，形成类簇。

步骤504，确定形成的每一个类簇的中心点，计算每一个类簇的中心点与缺失数据的距离，将最小距离对应的类簇确定为所述缺失数据所在的类簇。

E_i取最小值时对应的i值为缺失数据所在的类簇；

步骤505，确定所述缺失数据所在的类簇中的离群点，将确定的离群点从所述缺失数据所在的类簇中删除，将所述缺失数据所在的类簇中剩余的数据作为用于填充缺失数据的参考数据集。

在本发明一个实施例中，至少可以通过如下一种方式计算删除后所述缺失数据所在的类簇中目标参数：利用下述公式计算删除后所述缺失数据所在的类簇中目标参数：

步骤506，判断计算的用于填充所述缺失数据的数据是否为所在类簇的离群点，若是，则返回步骤503，直到计算的用于填充所述缺失数据的数据不是所在类簇的离群点为止或达到设定的迭代次数为止，并执行步骤507。

步骤507，根据参考数据集利用平均值法计算缺失数据，将计算的结果填充到缺失数据中。

在本发明实施例中，可以采用平均值法计算缺失数据，也可以利用期望最大值法计算缺失数据，并在得到计算结果之后进一步确定该缺失数据是否为离群点，若是，需要返回步骤503重新聚类计算缺失数据，直到确定缺失数据为非离群点为止，或者，在返回步骤503进行聚类后计算的缺失数据依然为离群点的次数达到设定次数时，则将该最后一次计算的数据填充到缺失数据中。

本发明上述实施例，通过确定缺失数据的属性，根据所述缺失数据的属性对数据进行二元组整合，并对二元组整合后的数据进行聚类形成类簇，确定所述缺失数据所在的类簇，并将缺失数据所在类簇中的离群点删除之后生成填充缺失数据的参考数据集，以根据参考数据集填充缺失数据，可以实现对缺失数据的填充，以及保证填充的缺失数据的准确度。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于聚类算法的数据填充方法，其特征在于，所述方法包括以下步骤：

确定缺失数据的属性；

根据所述缺失数据的属性对数据进行二元组整合；

对二元组整合后的数据进行聚类，形成类簇；

确定所述缺失数据所在的类簇；

根据所述参考数据集填充所述缺失数据。

2.根据权利要求1所述基于聚类算法的数据填充方法，其特征在于，所述确定所述缺失数据所在的类簇，包括：确定形成的每一个类簇的中心点，计算每一个类簇的中心点与缺失数据的距离，将最小距离对应的类簇确定为所述缺失数据所在的类簇。

3.根据权利要求1所述基于聚类算法的数据填充方法，其特征在于，所述确定填充所述缺失数据的参考数据集，包括：确定所述缺失数据所在的类簇中的离群点，将确定的离群点从所述缺失数据所在的类簇中删除，将所述缺失数据所在的类簇中剩余的数据作为所述参考数据集。

4.根据权利要求3所述基于聚类算法的数据填充方法，其特征在于，所述确定所述缺失数据所在的类簇中的离群点，包括：从所述缺失数据所在的类簇中依次删除一个数据，并计算删除后所述缺失数据所在的类簇中目标参数，在所述目标参数与初始目标参数的差值大于预设的目标偏离阈值时，确定所述删除一个数据为离群点；其中，初始目标参数是根据未删除数据前所述缺失数据所在的类簇计算得来的。

5.根据权利要求4所述基于聚类算法的数据填充方法，其特征在于，所述计算删除后所述缺失数据所在的类簇中目标参数，包括：利用下述公式计算删除后所述缺失数据所在的类簇中目标参数：

6.根据权利要求1所述基于聚类算法的数据填充方法，其特征在于，所述根据所述参考数据集填充所述缺失数据，包括：利用下述公式计算用于填充所述缺失数据的数据：

7.根据权利要求6所述基于聚类算法的数据填充方法，其特征在于，进一步包括：判断计算的用于填充所述缺失数据的数据是否为所在类簇的离群点，若是，则返回所述对二元组整合后的数据进行聚类的步骤，直到计算的用于填充所述缺失数据的数据不是所在类簇的离群点为止或达到设定的迭代次数为止。

8.一种基于聚类算法的数据填充装置，其特征在于，所述方法包括以下内容：

第一确定模块，用于确定缺失数据的属性；

第二确定模块，用于确定所述缺失数据所在的类簇；

填充模块，用于根据所述参考数据集填充所述缺失数据。

9.一种计算机设备，其特征在于，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。