CN109460775A

CN109460775A - 一种基于信息熵的数据填充方法及装置

Info

Publication number: CN109460775A
Application number: CN201811102220.XA
Authority: CN
Inventors: 王进; 龚晓菲; 时忆杰; 何跃鹰
Original assignee: Beijing University of Posts and Telecommunications; National Computer Network and Information Security Management Center
Current assignee: Beijing University of Posts and Telecommunications; National Computer Network and Information Security Management Center
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2019-03-12
Anticipated expiration: 2038-09-20
Also published as: CN109460775B

Abstract

本发明实施例提供了一种基于信息熵的数据填充方法及装置，其中，方法包括：对已有数据中属性值完整的完整数据的属性值进行求均值或求众数，得到已有数据中缺少属性值的缺失数据中的预填充属性值；将预填充属性值预填充在缺失数据中，获得预填充后缺失数据；采用硬聚类算法K‑means，对预填充后缺失数据以及完整数据进行聚类，获得与预填充后缺失数据处于同一簇内，且与预填充后缺失数据相似度达到预设条件的完整数据，作为相似完整数据；计算相似完整数据的信息熵；基于信息熵，计算相似完整数据中的属性值对缺失数据的属性值所作贡献的权重；利用权重与相似完整数据的属性值，计算缺失属性值；将缺失属性值填充在缺失数据中。

Description

一种基于信息熵的数据填充方法及装置

技术领域

本发明涉及信息处理技术领域，特别是涉及一种基于信息熵的数据填充方法及装置。

背景技术

近年来，随着信息处理技术的发展，通常需要对数据进行处理，但是所处理的数据可能并不完整，比如，工业互联网平台可能采集到数据并不完整。这个工业互联网平台是工业云平台的延伸发展，使得工业设备分别与互联网以及工业云平台建立连接。由于人为失误和互联网的设备故障等因素，使得工业互联网平台从现场的工业设备及互联网中，采集的数据包含不完整的数据。这样，就需要在工业互联网平台上对数据进行分析之前，需要先对不完整的数据进行填充，将填充后的数据传输到工业云平台，从而使用数据分析出诸多信息，比如，检测工业设备的状态。

对于上述不完整的数据进行填充，目前一般采用如下统计学上的均值或众数，对数据中的缺失值进行处理：

获取所有完整的数据的属性值；对所有完整的数据的属性值，求均值或者求众数；将得到的均值或众数，作为数据中的缺失值，并将数据中的缺失值，填充在不完整的数据中。

这种方式实现了对数据中的缺失值进行处理，然而本申请发明人在实现本发明的过程中，采用如下统计学上的均值或众数，对数据中的缺失值进行处理，会存在如下问题：

使用统计学上的均值或众数对缺失值的填充，不具有针对性，会导致数据准确性降低。

发明内容

本发明实施例的目的在于提供一种基于信息熵的数据填充方法及装置，用以解决现有技术中使用统计学上的均值或众数进行缺失值的填充，不具有针对性，会导致数据准确性降低的技术问题。具体技术方案如下：

第一方面，本发明实施提供了基于信息熵的数据填充方法，包括：

对已有数据中属性值完整的完整数据的属性值进行求均值或求众数，得到所述已有数据中缺少属性值的缺失数据中的预填充属性值；

将所述预填充属性值预填充在所述缺失数据中，获得预填充后缺失数据；

采用硬聚类算法K-means，对预填充后缺失数据以及所述完整数据进行聚类，获得与所述预填充后缺失数据处于同一簇内，且与所述预填充后缺失数据相似度达到预设条件的完整数据，作为相似完整数据；

计算所述相似完整数据的信息熵；

基于所述信息熵，计算所述相似完整数据中的属性值对所述缺失数据的属性值所作贡献的权重；

利用所述权重与所述相似完整数据的属性值，计算所述缺失属性值；

将所述缺失属性值填充在所述缺失数据中。

进一步的，所述采用硬聚类算法K-means，对预填充后缺失数据以及所述完整数据进行聚类，获得与所述预填充后缺失数据处于同一簇内，且与所述预填充后缺失数据相似度达到预设条件的完整数据，作为相似完整数据，包括：

采用硬聚类算法K-means中的马氏距离，将预填充后缺失数据以及所述完整数据进行聚类，得到多个簇；

针对每个簇，计算处于同一簇内所述预填充后缺失数据以及所有完整数据之间的相似度；

查找所述预设条件为相似度由高到低的顺序，处于前M名的相似度对应的完整数据，作为相似完整数据，M为大于0的自然数。

进一步的，所述针对每个簇，计算处于同一簇内所述预填充后缺失数据以及所有完整数据之间的相似度，包括：

所述预填充后缺失数据包括多个属性，每个属性对应一个属性值，所述完整数据包括多个属性，每个属性对应一个属性值；

计算同一簇内的预填充后缺失数据的每个属性，分别与完整数据的每个属性之间的属性相似度；

获取用于指示所述缺失数据实际缺失的属性值的变量；

利用所述属性相似度及所述实际缺失的属性值的变量，针对每个簇，计算得到处于同一簇内所述预填充后缺失数据以及所有完整数据之间的相似度。

进一步的，所述基于所述信息熵，计算所述相似完整数据中的属性值对所述缺失数据的属性值所作贡献的权重，包括：

针对全部相似完整数据中的每个相似完整数据，将该相似完整数据的信息熵，在全部相似完整数据的信息熵的占比，分别确定为该相似完整数据中的属性值，对所述缺失数据的属性值所作贡献的权重。

进一步的，所述计算所述相似完整数据的信息熵，包括：

将获取的多个相似完整数据采用如下公式进行单位化：

其中，p_i为相似完整数据源发生不确定性的概率，i为不同相似完整数据的标识，i共有t个，i＝1,2,…,t，t为相似完整数据的个数，s_i为第i个相似完整数据；

采用如下公式，计算每个相似完整数据的熵值：

h_i＝-p_ilnp_i,i＝1,2,…,t

其中，h_i为相似完整数据的信息熵；

基于所述信息熵，采用如下公式，计算所述相似完整数据中的属性值，对所述缺失数据的属性值所作贡献的权重：

其中，w_i为所述相似完整数据中的属性值，对所述缺失数据的属性值所作贡献的权重；

利用权重与相似完整数据的属性值，采用如下公式，计算所述缺失属性值：

其中，f为缺失数据中填充的缺失属性值，x_i为与缺失数据的相似完整数据对应的属性值。

第二方面，本发明实施提供了基于信息熵的数据填充装置，包括：

预处理模块，用于对已有数据中属性值完整的完整数据的属性值进行求均值或求众数，得到所述已有数据中缺少属性值的缺失数据中的预填充属性值；

预填充模块，用于将所述预填充属性值预填充在所述缺失数据中，获得预填充后缺失数据；

聚类模块，用于采用硬聚类算法K-means，对预填充后缺失数据以及所述完整数据进行聚类，获得与所述预填充后缺失数据处于同一簇内，且与所述预填充后缺失数据相似度达到预设条件的完整数据，作为相似完整数据；

第一计算模块，用于计算所述相似完整数据的信息熵；

第二计算模块，用于基于所述信息熵，计算所述相似完整数据中的属性值对所述缺失数据的属性值所作贡献的权重；

第三计算模块，利用所述权重与所述相似完整数据的属性值，计算所述缺失属性值；

填充模块，用于将所述缺失属性值填充在所述缺失数据中。

进一步的，所述聚类模块具体用于：

获取用于指示所述缺失数据实际缺失的属性值的变量；

进一步的，所述第二计算模块，具体用于：

进一步的，所述第一计算模块，具体用于：

将获取的多个相似完整数据采用如下公式进行单位化：

采用如下公式，计算每个相似完整数据的熵值：

h_i＝-p_ilnp_i,i＝1,2,…,t

其中，h_i为相似完整数据的信息熵；

第三方面，本发明实施提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面的方法步骤。

第四方面，本发明实施提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面任一的方法。

第五方面，本发明实施还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面任一的方法。

本发明实施例提供的一种基于信息熵的数据填充方法及装置，对已有数据中属性值完整的完整数据的属性值进行求均值或求众数，并对已有数据中缺少属性值的缺失数据进行预填充；再然后，采用硬聚类算法K-means，对预填充后缺失数据以及所述完整数据进行聚类，获得与预填充后缺失数据处于同一簇内，且与预填充后缺失数据相似度达到预设条件的完整数据，作为相似完整数据，计算相似完整数据的信息熵；基于信息熵，计算相似完整数据中的属性值，对缺失样本的属性值所作贡献的权重，最后，将计算的缺失属性值，填充在缺失数据中。

由此可见，先对已有数据中缺少属性值的缺失数据进行预填充；然后，采用硬聚类算法K-means，对预填充后缺失数据以及完整数据进行聚类，信息熵基于聚类的相似完整数据计算得到，再然后基于信息熵，计算相似完整数据中的属性值，对缺失样本的属性值所作贡献的权重，用来优化预填充后缺失数据中的预填充属性值，最后实现将计算的缺失属性值，填充在缺失数据中。这样在预填充缺失数据的预填充属性值之后，再采用硬聚类算法K-means及信息熵对缺失数据中的预填充属性值进行优化，可以提高数据的准确性。并且，不仅相似完整数据为与预填充后缺失数据相似度达到预设条件的完整数据，考虑了预填充后缺失数据与完整数据关联，而且，基于相似完整数据，确定相似完整数据中的属性值，对缺失样本的属性值所作贡献的权重，也考虑了相似完整数据中的属性值与缺失样本的属性值的关联，使得得到的缺失属性值，具有针对性。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于信息熵的数据填充方法的第一流程示意图；

图2为本发明实施例提供的基于信息熵的数据填充方法的第二流程示意图；

图3为本发明实施例的基于信息熵的数据填充装置的结构示意图；

图4为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对现有技术中使用统计学上的均值或众数进行缺失值的填充，不具有针对性，会导致数据准确性降低的问题，本发明实施例提供一种基于信息熵的数据填充方法及装置，对已有数据中属性值完整的完整数据的属性值进行求均值或求众数，并对已有数据中缺少属性值的缺失数据进行预填充；再然后，采用硬聚类算法K-means，对预填充后缺失数据以及完整数据进行聚类，获得与预填充后缺失数据处于同一簇内，且与预填充后缺失数据相似度达到预设条件的完整数据，作为相似完整数据，计算相似完整数据的信息熵；基于信息熵，计算相似完整数据中的属性值，对缺失样本的属性值所作贡献的权重，最后，将计算的缺失属性值，填充在缺失数据中。

下面首先对本发明实施例提供的基于信息熵的数据填充方法进行介绍。

本发明实施例所提供的一种基于信息熵的数据填充方法，应用于电子设备。本发明针对多维数据中数据缺失情况进行填充，比如工控数据，网络数据等。真实的工控现场采集到的数据属性也是不确定的。

参见图1，图1为本发明实施例提供的基于信息熵的数据填充方法的第一流程示意图。本发明实施例所提供的基于信息熵的数据填充方法，可以包括如下步骤：

步骤110，对已有数据中属性值完整的完整数据的属性值进行求均值或求众数，得到已有数据中缺少属性值的缺失数据中的预填充属性值。

其中，已有数据是指已经保存或者缓存，并且未对缺少属性值的缺失数据进行填充属性值的数据。示例性的，工业互联网平台对数据进行分析之前，未对不完整的数据进行填充，且已经保存或者缓存在工业互联网平台上的数据。

完整数据是指所有属性值齐全，也就是，完整数据中的所有属性的属性值无缺失的数据；缺失数据是指属性值不齐全，也就是，所有属性中属性值有缺失的数据，这里缺失数据的属性相较于完整数据的属性是缺失的。属性值是指所有数字型属性所对应的数字，就是属性值。这里的属性包括：字符型属性和数字型属性，由于本发明针对多维数据中数据缺失情况进行填充，比如工控数据，网络数据等。真实的工控现场采集到的属性也是不确定的。其中，数字型属性分为连续属性和离散属性。连续属性KDDCUP99数据集中：连接持续时间 duration，以秒为单位，该duration的取值范围是[0,58329]内数据。过去两秒内，在与当前连接具有相同服务的连接中，出现“REJ”错误的连接的百分比 srv_rerror_rate，srv_rerror_rate的取值范围[0.00,1.00]。

离散类型属性KDDCUP99数据集中：Land用于表示若连接来自/送达同一个主机/端口则为1，否则为0，该Land为离散类型属性，该Land的取值为0或1。

logged in用于表示成功登录则为1，否则为0，该logged in为离散类型属性，该logged in的取值为0或1。

Suattempted用于表示若出现”su root”命令则为1，否则为0，该Suattempted 为离散类型属性，该Suattempted的取值为0或1。

上述步骤110中可以具体包括：若缺失数据的属性为连续属性，则对已有数据中属性值完整的完整数据的属性值进行求均值，得到上述预填充属性值。其中，求均值可以是算术平均得到的均值。这样既可以用预填充属性值来反映属性值完整的完整数据的平均水平，用预填充属性值表示属性值完整的完整数据的情况，直观且简明。

上述步骤110中可以具体包括：若缺失数据的属性为离散属性，则对已有数据中属性值完整的完整数据的属性值进行求众数，得到上述预填充属性值。这样众数不受预填充属性值中的极端数据的影响，并且简便求得预填充属性值。这里对于数字型属性，有分为连续属性和非连续属性，便于预填充阶段对数据进行预填充。

参见图2所示，在步骤110之前，所述方法还包括：获取所述已有数据中属性值，该步骤具体的实现过程如下：

步骤101，获取已有数据中的属性；

步骤102，判断已有数据中的属性是否为数字型属性，如果是，则执行步骤103；如果否，则执行步骤104；

步骤103，直接获取数字型属性，将数字型属性所对应的数字，确定为已有数据中属性值。这种方式方便快捷。

步骤104，将字符型属性转换为数字型属性；其中，字符型属性包括：字符型属性名称：比如：KDDCUP99数据集中：协议类型protocol type：TCP(Transmission ControlProtocol传输控制协议)，UDP(User Datagram Protocol 的，用户数据报协议)，ICMP(InternetControlMessageProtocol，因特网控制消息协议)，共有三种的属性均不是数字型的属性。假设转化步长c为0.5，本发明实施例的填充算法将字符型属性处理成数字型属性：0，0.5，1。服务service 共有70种字符型属性值。用于连接正常或错误的状态的Flag共11种字符型属性值。在此不一一举例。

步骤105，获取转换后数字型属性所对应的数字，将转换后数字型属性所对应的数字，确定为已有数据中属性值。具体上述步骤104可以通过如下第一步至第四步实现：

第一步，统计上述字符型属性在已有数据中的取值种类数z。比如，字符型属性只是由a，b，c组成的这3类，则种类数z为3。

第二步，将所有字符型属性中的每一个字符型属性的取值，先按照首字母排序，若多个字符型属性中的首字母相同，则比较多个字符型属性中的次字母，依次类推，得到排序后字符型属性中的所有排序后字符型属性的取值。

第三步，基于取值种类数z，利用转化步长的公式c＝1/(z-1)，计算转化步长c。

第四步，针对排序后字符型属性中的每个排序后字符型属性的取值，获取初始赋值0，然后从初始赋值0开始，按照排序顺序，以转化步长为c，对该排序后的字符型属性的取值进行赋值，转化为数字型属性，其中，数字型属性的取值范围为0到1之间。

示例性的，若取值种类数z为6，则转化步长c为0.2，对排序第一位的排序后字符型属性的取值进行赋值为初始赋值0，对排序第二位的排序后字符型属性的取值进行赋值为0.2，对排序第三位的排序后字符型属性的取值进行赋值为 0.4，排序第Z位的排序后字符型属性的取值进行赋值为C＝c(Z-1)，其中，Z 为排序次序，Z可以按照实际需求进行取值。可选的取值范围为1至样本总数，样本总数可用m表示，即[1,m]。这样，可以将字符型的属性转换为数字型属性，方便后期进行填充属性值的填充。

步骤120，将预填充属性值预填充在缺失数据中，获得预填充后缺失数据。

本步骤120中可以通过如下一种实现方式，获得预填充后缺失数据，可以包括：将预填充属性值预填充在缺失数据的缺失属性值的属性位置处，得到预填充后缺失数据。其中缺失属性值的属性位置包括缺失数据中任意属性缺失属性值所在的位置。预填充后缺失数据中缺失属性值的属性位置处的属性值，都用均值或众数填充完整。

本步骤120中可以通过如下另一种实现方式，获得预填充后缺失数据，可以包括：将预填充属性值预填充在缺失数据的缺失属性值的属性位置处，经过处理，得到预填充后缺失数据。其中，处理的方式包括：将预填充属性值预赋值给缺失数据的缺失属性值的属性位置，预填充后缺失数据中缺失属性值的属性位置处的属性值，都用均值或众数填充完整。

步骤130，采用硬聚类算法K-means，对预填充后缺失数据以及完整数据进行聚类，获得与预填充后缺失数据处于同一簇内，且与预填充后缺失数据相似度达到预设条件的完整数据，作为相似完整数据。

其中，与预填充后缺失数据处于同一簇内，且与预填充后缺失数据相似度达到预设条件的完整数据，称为相似完整数据。上述预填充后缺失数据的属性可以是一个，也可以是多个。

为了能够找到合适的相似完整数据，预设条件可以包括：与预填充后缺失数据最相近的完整数据；预设条件也可以包括：选择与预填充后缺失数据相似度靠近最大相似度的前几名的完整数据，在此不进行一一举例。

本步骤130中，可以采用硬聚类算法K-means中的欧式距离，绝对值距离或者明氏距离，对预填充后缺失数据以及完整数据进行聚类，可以实现聚类。但是采用欧式距离，绝对值距离或者明氏距离的实现聚类，没有充分考虑到不同数据之间的相似度，因此，本步骤130中，可以采用马氏距离，对预填充后缺失数据以及完整数据进行聚类，可以实现聚类。马氏距离可以有效计算两个未知数据的属性相似度，与欧式距离不同的是马氏距离考虑到数据各个属性之间的联系，并且马氏距离不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关。这样不仅可以实现将k-means中的欧式距离替换为马氏距离，更加能体现数据的属性之间的相似性，每个簇内的数据的属性更加相似，以便于之后用簇内数据的属性值进行填充更准确。

优选的，本步骤130，可以采用如下第1步骤至第3步骤的实现方式，采用硬聚类算法K-means，对预填充后缺失数据以及完整数据进行聚类，获得与预填充后缺失数据处于同一簇内，且与预填充后缺失数据相似度达到预设条件的完整数据，作为相似完整数据：

第1步骤，采用硬聚类算法K-means中的马氏距离，将预填充后缺失数据以及完整数据进行聚类，得到多个簇。

预填充后缺失数据以及完整数据，也可以称为预填充后的样本集。预填充后的样本集包括：样本，也就是，预填充后缺失数据及完整数据。

对于预填充后的样本集D＝{y₁,y₂,…y_m}，m为样本集中样本的个数，随机选择q个样本作为初始聚类中心{μ₁，μ₂,…,μ_q}，采用如下马氏距离计算公式，计算每个样本y_u与各初始聚类中心μ_v(1＜＜v＜＜q)的马氏距离：

，其中，将预填充后缺失数据以及完整数据，作为预填充后的样本集D，y_u为样本集D中第u样本，u为样本集中的某个样本的标识，1≤u≤m，μ_v为第v个初始聚类中心，v为q个聚类中心中的任一个聚类中心的标识，q为初始聚类中心的总数，S^-1为样本集D中任一样本y_u与各初始聚类中心的协方差矩阵，d_uv为样本集中样本y_u与各初始聚类中心μ_v的马氏距离。

这里的马氏距离就是为了计算初始聚类中心与样本集中样本y_u之间的相关性，也就是相似度。样本y_u属性之间距离远的相似度低，距离近的相似度高。

上述第1步骤进一步包括：首先，基于样本集中样本与初始聚类中心的相关性，以及初始聚类中心，得到最终的不再发生变化时簇中心；然后，基于最终的不再发生变化时簇中心及最终的不再发生变化时簇中心各自所聚类的簇成员，组成簇。所有最终的不再发生变化时簇中心各自所聚类的簇成员包括样本集中样本。以上两个步骤的具体可以采用如下第10步骤至第16步骤，确定多个簇：

第10步骤，针对样本集中的每个样本，将该样本与每个初始聚类中心的距离进行比较，采用如下公式，确定该样本的簇标记。

本第10步骤，采用如下公式，确定该样本的簇标记：

其中，λ_u为样本y_u的簇标记，λ_u取值范围[1,q]。

第11步骤，将该样本，划分在簇标记所确定的簇中。

第12步骤，基于将样本集中的每个样本已划分在簇标记所确定的簇，重新计算簇中的簇中心。

第13步骤，将样本集中的每个样本，分别与每个计算的簇中心之间的距离进行比较，将样本划分在距离最近的簇中心所对应的簇中。

第14步骤，基于将样本划分在距离最近的簇中心所对应的簇，重新计算簇中的簇中心；

第15步骤，本次计算簇中心，与上次计算簇中心是否相同；若相同，则说明簇中心不再发生变化，执行第16步骤；若不相同，则说明簇中心发生变化，返回继续执行13步骤；

第16步骤，获取由不再发生变化时簇中心以及不再发生变化时簇中心各自所聚类的簇成员，所确定的簇，作为得到的多个簇。此时，样本集中样本已经按照簇所确定的相似性，分好了簇，从而后续可以使用分好的簇。

第2步骤，针对每个簇，计算处于同一簇内预填充后缺失数据以及所有完整数据之间的相似度。

上述第2步骤可以采用如下第21步骤及第23步骤，计算处于同一簇内预填充后缺失数据以及所有完整数据之间的相似度：

第21步骤，预填充后缺失数据包括多个属性，每个属性对应一个属性值，完整数据包括多个属性，每个属性对应一个属性值；计算同一簇内的预填充后缺失数据的每个属性，分别与完整数据的每个属性之间的属性相似度。一个预填充后缺失数据的属性，可以找到满足与该属性相似度达到预设条件的多个完整数据。多个预填充后缺失数据的属性，可以分别找到满足与多个预填充后缺失数据的属性各自相似度达到预设条件的多个完整数据。

其中，同一簇内的预填充后缺失数据，可以称为缺失样本X；完整数据，可以称为完整样本Y。上述样本集中的样本可以是指缺失样本X或完整样本Y。缺失样本X，共有n个属性，e表示缺失样本X的n个属性中的第e个属性。

本第21步骤，采用如下公式，计算同一簇内的预填充后缺失数据的每个属性，分别与完整数据的每个属性之间的属性相似度：

其中，S(x,y)为缺失数据的每个属性与完整数据的每个属性之间的相似度， g(x,y)为g(x,y)＝|x-y|，x和y分别是缺失样本X和完整样本Y在第e个属性下的属性值，g_max为第e个属性中最大的属性值。这样后续可以通过属性相似度，计算得到处于同一簇内预填充后缺失数据以及所有完整数据之间的相似度。

第22步骤，获取用于指示缺失数据实际缺失的属性值的变量；使用实际缺失的属性值的变量Q_e，在预填充后缺失数据之前可以记录一下填充数据的缺失属性值的属性位置。使用变量Q_e记录缺失属性值的属性位置，该变量Q_e赋不同的值，来区分第e个属性值是否缺失。示例性的，如果变量Q_e为0，则第e 个属性值缺失；若变量Q_e为1，则第e个属性值未缺失。

第23步骤，利用属性相似度及实际缺失的属性值的变量，针对每个簇，计算得到处于同一簇内所述预填充后缺失数据以及所有完整数据之间的相似度。

本第23步骤，利用属性相似度及实际缺失的属性值的变量，采用如下公式，针对每个簇，计算得到处于同一簇内所述预填充后缺失数据以及所有完整数据之间的相似度：

其中，Sim(X,Y)为处于同一簇内所述预填充后缺失数据以及所有完整数据之间的相似度，在Q_e表示缺失数据每一维数据都缺失时，这样的缺失数据对样本参考价值不大，如果将这样的缺失数据进行填充，会降低数据的填充准确度，因此，舍弃Q_e所表示每一维数据都缺失的缺失数据，也就是本公式中的Q_e不包括缺失数据每一维数据都缺失。

第3步骤，查找预设条件为相似度由高到低的顺序，处于前M名的相似度对应的完整数据，作为相似完整数据，M为大于0的自然数。其中，本第3步骤，可以结合KNN(k-NearestNeighborK最近邻分类算法)的思想，查找预设条件为相似度由高到低的顺序，处于前M名的相似度对应的完整数据，作为相似完整数据。在此不再说明。这样通过改善聚类计算的方式，以及后续结合信息熵，来提高数据填充算法的精度。

步骤140，计算相似完整数据的信息熵。

本步骤140，采用如下两步，计算相似完整数据的信息熵：

首先，将获取的多个相似完整数据采用如下公式进行单位化：

其次，采用如下公式，计算每个相似完整数据的熵值：

h_i＝-p_ilnp_i,i＝1,2,…,t

其中，h_i为相似完整数据的信息熵。

步骤150，基于信息熵，计算相似完整数据中的属性值对缺失数据的属性值所作贡献的权重。

本步骤150具体包括：针对全部相似完整数据中的每个相似完整数据，将该相似完整数据的信息熵，在全部相似完整数据的信息熵的占比，分别确定为该相似完整数据中的属性值，对所述缺失数据的属性值所作贡献的权重。这样可以知道单个相似完整数据与全部相似完整数据之间的关联，使得得到的权重更加趋近于实际情况。这样通过改善相似度计算的方式，来提高填充数据的精度。

本步骤150，采用如下公式，基于信息熵，计算相似完整数据中的属性值，对缺失数据的属性值所作贡献的权重：

其中，w_i为所述相似完整数据中的属性值，对所述缺失数据的属性值所作贡献的权重。

步骤160，利用权重与相似完整数据的属性值，计算缺失属性值。

本步骤160，利用权重与相似完整数据的属性值，采用如下公式，计算所述缺失属性值：

步骤170，将缺失属性值，填充在缺失数据中。

本步骤170中采用至少如下一种实现方式，将缺失属性值填充在缺失数据中：

在一种实现方式中，首先，将缺失数据中缺失属性值的属性位置处的预填充数据删除，然后，将缺失属性值填充在缺失数据的缺失属性值的属性位置。在另一种实现方式中，将缺失属性值直接填充在缺失数据的缺失属性值的属性位置，替换掉上述预填充数据。这样后者更加便捷地实现将缺失属性值填充在缺失数据中。

本发明实施例中，先对已有数据中缺少属性值的缺失数据进行预填充；然后，采用硬聚类算法K-means，对预填充后缺失数据以及完整数据进行聚类，信息熵基于聚类的相似完整数据计算得到，再然后基于信息熵，计算相似完整数据中的属性值，对缺失样本的属性值所作贡献的权重，用来优化预填充后缺失数据中的预填充属性值，最后实现将计算的缺失属性值，填充在缺失数据中。这样在预填充缺失数据的预填充属性值之后，再采用硬聚类算法K-means及信息熵对缺失数据中的预填充属性值进行优化，可以提高数据的准确性。并且，不仅相似完整数据为与预填充后缺失数据相似度达到预设条件的完整数据，考虑了预填充后缺失数据与完整数据关联，而且，基于相似完整数据，确定相似完整数据中的属性值，对缺失样本的属性值所作贡献的权重，也考虑了相似完整数据中的属性值与缺失样本的属性值的关联，使得得到的缺失属性值，具有针对性。

本发明实施例相较于现有技术中，采用人工填写以及使用统计学上的均值或众数进行缺失值的填补等方法对缺失数据中的缺失属性值进行处理。但是，当数据量较多或达到一定级别时，人工填写需耗费较多的时间与精力，无法满足数据流实时快速传输与处理的需求，而且数据的准确性较低。本发明实施例可以不需要人工填写，自动将缺失属性值，填充在缺失数据中，满足了数据流实时快速传输与处理的需求，在预填充缺失数据的预填充属性值之后，再对缺失数据中的预填充属性值进行优化，可以提高数据的准确性。

下面继续对本发明实施例提供的基于信息熵的数据填充装置进行介绍。

如图3所示，本发明实施例还提供一种基于信息熵的数据填充装置，包括：

预处理模块21，用于对已有数据中属性值完整的完整数据的属性值进行求均值或求众数，得到所述已有数据中缺少属性值的缺失数据中的预填充属性值；

预填充模块22，用于将所述预填充属性值预填充在所述缺失数据中，获得预填充后缺失数据；

聚类模块23，用于采用硬聚类算法K-means，对预填充后缺失数据以及所述完整数据进行聚类，获得与所述预填充后缺失数据处于同一簇内，且与所述预填充后缺失数据相似度达到预设条件的完整数据，作为相似完整数据；

第一计算模块24，用于计算所述相似完整数据的信息熵；

第二计算模块25，用于基于所述信息熵，计算所述相似完整数据中的属性值对所述缺失数据的属性值所作贡献的权重；

第三计算模块26，利用所述权重与所述相似完整数据的属性值，计算所述缺失属性值；

填充模块27，用于将所述缺失属性值填充在所述缺失数据中。

在一种可能的实现方式中，所述聚类模块23具体用于：

在一种可能的实现方式中，所述马氏距离的计算公式如下：

其中，将预填充后缺失数据以及完整数据，作为预填充后的样本集D，y_u为样本集D中第u样本，u为样本集中的某个样本的标识，1≤u≤m，μ_v为第v 个初始聚类中心，v为q个聚类中心中的任一个聚类中心的标识，q为初始聚类中心的总数，S^-1为样本集D中任一样本y_u与各初始聚类中心的协方差矩阵， d_uv为样本集中样本y_u与各初始聚类中心μ_v的马氏距离。

在一种可能的实现方式中，所述聚类模块23具体用于：

获取用于指示所述缺失数据实际缺失的属性值的变量；

在一种可能的实现方式中，所述第二计算模块25，具体用于：

在一种可能的实现方式中，所述第一计算模块24，具体用于：

将获取的多个相似完整数据采用如下公式进行单位化：

采用如下公式，计算每个相似完整数据的熵值：

h_i＝-p_ilnp_i,i＝1,2,…,t

其中，h_i为相似完整数据的信息熵；

下面继续对本发明实施例提供的电子设备进行介绍。

本发明实施例还提供了一种电子设备，如图4所示，包括处理器31、通信接口32、存储器33和通信总线34，其中，处理器31，通信接口32，存储器33通过通信总线34完成相互间的通信，

存储器33，用于存放计算机程序；

处理器31，用于执行存储器33上所存放的程序时，实现如下步骤：

对预填充后缺失数据以及所述完整数据进行聚类，获得与所述预填充后缺失数据处于同一簇内，且与所述预填充后缺失数据相似度达到预设条件的完整数据，作为相似完整数据；

计算所述相似完整数据的信息熵；

将所述缺失属性值填充在所述缺失数据中。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于为，图中仅用一条粗线为，但并不为仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器 (DigitalSignal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例提供的方法可以应用于电子设备。具体的，该电子设备可以为：台式计算机、便携式计算机、智能移动终端、服务器等。在此不作限定，任何可以实现本发明的电子设备，均属于本发明的保护范围。

本发明实施例提供了一种计算机可读存储介质，存储介质内存储有计算机程序，计算机程序被处理器执行时实现上述的基于信息熵的数据填充方法的步骤。

本发明实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述的基于信息熵的数据填充方法的步骤。

本发明实施例提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述的基于信息熵的数据填充方法的步骤。

对于装置/电子设备/存储介质/包含指令的计算机程序产品/计算机程序实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置/电子设备/存储介质/包含指令的计算机程序产品/计算机程序实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于信息熵的数据填充方法，其特征在于，包括：

计算所述相似完整数据的信息熵；

将所述缺失属性值填充在所述缺失数据中。

2.如权利要求1所述的方法，其特征在于，所述采用硬聚类算法K-means，对预填充后缺失数据以及所述完整数据进行聚类，获得与所述预填充后缺失数据处于同一簇内，且与所述预填充后缺失数据相似度达到预设条件的完整数据，作为相似完整数据，包括：

3.如权利要求2所述的方法，其特征在于，所述针对每个簇，计算处于同一簇内所述预填充后缺失数据以及所有完整数据之间的相似度，包括：

获取用于指示所述缺失数据实际缺失的属性值的变量；

4.如权利要求1所述的方法，其特征在于，所述基于所述信息熵，计算所述相似完整数据中的属性值对所述缺失数据的属性值所作贡献的权重，包括：

5.如权利要求1或4所述的方法，其特征在于，所述计算所述相似完整数据的信息熵，包括：

将获取的多个相似完整数据采用如下公式进行单位化：

采用如下公式，计算每个相似完整数据的熵值：

h_i＝-p_ilnp_i,i＝1,2,…,t

其中，h_i为相似完整数据的信息熵；

6.一种基于信息熵的数据填充装置，其特征在于，包括：

第一计算模块，用于计算所述相似完整数据的信息熵；

填充模块，用于将所述缺失属性值填充在所述缺失数据中。

7.如权利要求6所述的装置，其特征在于，所述聚类模块具体用于：

8.如权利要求7所述的装置，其特征在于，所述聚类模块具体用于：

获取用于指示所述缺失数据实际缺失的属性值的变量；

9.如权利要求6所述的装置，其特征在于，所述第二计算模块，具体用于：

10.如权利要求6或7所述的装置，其特征在于，所述第一计算模块，具体用于：

将获取的多个相似完整数据采用如下公式进行单位化：

采用如下公式，计算每个相似完整数据的熵值：

h_i＝-p_ilnp_i,i＝1,2,…,t

其中，h_i为相似完整数据的信息熵；