CN104461772A

CN104461772A - 一种对缺失数据进行恢复处理的方法

Info

Publication number: CN104461772A
Application number: CN201410619144.5A
Authority: CN
Inventors: 郭金玉; 袁堂明; 李元
Original assignee: Shenyang University of Chemical Technology
Current assignee: Shenyang University of Chemical Technology
Priority date: 2014-11-07
Filing date: 2014-11-07
Publication date: 2015-03-25

Abstract

一种对缺失数据进行恢复处理的方法，涉及一种计算机数据处理方法，该方法按照 k NN规则，通过提取工业中完整的数据集，计算出缺失样本相应的 k 个近邻，即满足阈值条件下或者控制限下的样本，用于提取在缺失数据样本局部信息中缺失数据的相关信息。应用误差最小化准则，计算该缺失数据的近邻样本的权重。得到权值后，对相应的近邻样本进行加权重构，重构出缺失的数据点，从而完善了数据的完整性。使得计算机的运行时间大大缩短，提高了运行效率，降低了噪声的影响，提高了补值的精确度。该方法能够有效的提取工业中完整数据集中的相关信息。

Description

一种对缺失数据进行恢复处理的方法

技术领域

本发明涉及一种计算机数据处理方法,特别是涉及一种对缺失数据进行恢复处理的方法。

背景技术

目前数据挖掘技术已经广泛的应用于医疗、化工、工业以及数理统计过程中。随着大数据时代的来临，为了从大规模数据库中提取深层次的知识和信息，数据挖掘技术逐渐成为国内外研究的热点。

然而人们在收集相应的数据时，难免会遇到一些因设备故障、记录的误差或者其他的原因导致数据暂时无法获取或者遗漏的情况出现。在大多数情况下，这些缺失的数据很可能携带对数据分析或检测的重要信息，如果直接丢掉这些数据进行决策，一方面，会出现数据的不等长问题，而大部分算法不适用于不等长的数据；另一方面，包含缺失的数据集会导致数据挖掘发生混乱，从而影响最终的过程决策。目前相应的补值算法有平均值算法、EM算法。平均值补值算法对数据分布要求较高；EM算法受初值的影响较大，不同的初值，迭代次数相差很大。因此目前还没有一种对各类缺失数据进行恢复的有效方法，找到一种方法将缺失的数据进行恢复显的尤为重要。

发明内容

本发明的目的在于提供一种对缺失数据进行恢复处理的方法。该方法能够有效的提取工业中完整数据集中的相关信息,按照一定的规则，求出每个缺失样本的k个近邻及相应的权值，根据局部线性可微的原理，用k个近邻进行局部加权重构，重构出缺失的数据点，从而完善了数据的完整性，提高了数据的实用性。

本发明的目的是通过以下技术方案实现的：

一种对缺失数据进行恢复处理的方法，所述方法包括以下过程：

将不含缺失点的完整数据集作为建模数据，并称之为完备数据集；利用kNN规则计算出缺失样本相应的k个近邻，即满足阈值条件下或者控制限下的样本，提取缺失数据样本局部信息中缺失数据的相关信息；应用误差最小化准则，计算该缺失数据的近邻样本的权重；得到权值后，对样本进行加权重构，选取重构的缺失数据点，代替初始值，即可对缺失数据进行恢复。

所述的一种对缺失数据进行恢复处理的方法，所述的建模包括完备数据集和不完备数据集选取模型、不完备数据集初始化和排序模型、k近邻选择模型、数据点重构模型，以及数据库的更新模型；对于工业过程中的数据，要对缺失的数据进行初始化，保证计算数据的等长特性，以及方便计算机识别该样本是否存在数据缺失的现象；然后根据是否存在缺失进行数据样本的分离，分为完备数据集和不完备数据集；按照kNN规则选择近邻，对缺失的数据点进行局部加权重构。

所述的一种对缺失数据进行恢复处理的方法，所述k近邻选择模型利用kNN规则计算出缺失样本相应的k个近邻，即满足阈值条件或者控制限下的样本，在缺失数据样本局部信息中提取缺失数据的相关信息。

所述的一种对缺失数据进行恢复处理的方法，所述重构模型的各个近邻样本的权重由各个近邻所占的相关距离大小确定，充分地提取k个近邻样本中缺失样本的丢失信息，将近邻样本作为缺失样本局部信息，能够避免其它样本对缺失样本的干扰，提高数据恢复的精确度。

所述的一种对缺失数据进行恢复处理的方法，所述数据库模型，即样本模型的升级是利用缺失样本经过补值后并入到正常完备的数据集中，及时更新了数据库样本，以便后续的缺失样本能够搜索k个近邻，充分利用之前缺失的样本信息。

本发明的优点与效果是：

1. 本发明提高计算机的运行效率。传统的补值方法会在补值时，所有的已知的工业数据都会不加区分的使用。然而随着计算机技术和DCS数据的采集在工业中的广泛应用，使得计算机得到用来统计生产过程指标的数据成指数增长。如果在进行数据恢复时，所有的数据样本都要进行计算和循环，那么必将会给计算机带来巨大的计算负担，所以选择行之有效的样本进行计算对提高计算机的运行效率是非常重要的。由于本发明在补值的过程中会对在庞大的原始数据中选择的k个近邻进行数据点的重构，继而算法的计算量大大降低，与此同时，这也使得计算机的运行时间大大缩短，提高了运行效率。

2. 本发明降低了噪声的影响，提高了补值的精确度。在采集数据的过程中，不可避免地在各个环节因为各方面的原因引入噪声。如果含有噪声的数据都参与缺失数据的恢复，那么必然会对补值的精度带来很大的影响。本文充分利用局部信息，根据误差最小原则，选取k个近邻对缺失数据进行重构。如果该样本噪声十分大，偏离了原来所在的轨道，那么一般不会被作为k个近邻的一员而被选中。即使含有噪声的样本被作为近邻时，它相应的加权也会十分的小，对最终补值的精确度影响很小。

3. 本发明恢复了数据的等长特点。对于生产过程，一般来说，采样间隔和生产时间是一定的，对于批次的生产过程或者连续的生产过程，数据往往可以存储在一个数组或者矩阵中。它们都具有相同的长度，便于后续的数据分析。但是如果数据一旦发生缺失，直接省略会造成数据的不等长问题，不便于计算，无法求出相应的统计指标。经过本文方法的补值后，达到了恢复数据等长的目的。

附图说明

图1为本发明的核心算法流程图。

具体实施方式

下面结合附图所示实施例对本发明进行详细的说明。

本发明即为一种处理缺失数据的局部加权算法，该方法的具体过程是：

生产过程中采集到的数据有的存在缺失，有的是完整的，本方法的目的就是将缺失样本中的数据点进行恢复。首先，选取正常生产过程中非缺失的数据样本作为训练样本,按照完整性的大小依次对缺失数据进行数据的恢复。设定一个阈值，利用kNN规则，分别在训练集中找到缺失样本满足小于阈值条件下相应的k个最近邻。对每个样本计算相应的权重，通过局部加权，对缺失的数据点进行重构。当该缺失的数据点重构完成，对该样本下一个缺失的数据点按照相应的方法重构，当该样本缺失的所有数据点都恢复后，将该样本并入训练集中，更新训练集。当第二个缺失样本到来后，依次按照上述方法进行数据的重构，其他样本依次类推，从而将缺失的数据样本依次进行完善。

建模包括完备数据集和不完备数据集选取模型、不完备数据集初始化和排序模型、k近邻选择模型、数据点重构模型，以及数据库的更新模型。对于工业过程中的数据，要对缺失的数据进行初始化，一方面保证计算数据的等长特性，另一方面方便计算机识别该样本是否存在数据缺失的现象。初始化后进行数据样本的分离，根据是否存在缺失，分为完备数据集和和不完备数据集。不完备的数据集将进行数据的恢复，完备的数据集作为数据库用于不完备数据集中缺失样本搜索的近邻。按照kNN规则选择近邻，对缺失的数据点进行局部加权重构。

k近邻选择模型利用kNN规则计算出缺失样本相应的近邻，即满足阈值条件或者控制限下的样本作为缺失样本的k个近邻，该方法根据线性可微的原理，将数据进行小距离分割，局部呈现线性化，提取缺失数据样本局部信息中缺失数据的相关信息，重构出缺失数据。

重构模型中各个近邻样本的权重由各个近邻所占的相关距离的大小确定，如果近邻样本和缺失样本的距离较远，那么该近邻的权重较小，重构数据时，该近邻的信息的利用较少；反之，如果近邻样本和缺失样本的距离较近，该近邻的信息的利用较大。

数据库模型（样本模型）的升级是利用经过补值后的样本并入到正常完备的数据集中，及时更新数据库样本，以便后续的缺失样本能够搜索k个近邻，充分利用之前缺失的样本信息。整个过程中完备数据集的样本逐渐增加，不完备数据集的样本逐渐减少。当所有缺失样本的数据都恢复后，完备数据集的样本达到最大，不完备数据集的样本为0。

本发明是在大量的正常历史数据中提取相关信息,重构出缺失的数据点,从而达到了对数据恢复的目的。在此过程中,需要对样本数据进行初始化。为了消除量纲的影响,对于数值变化范围较大的样本数据要进行样本数据的标准化。经过数据的标准化后，所有的数据都分布在0和1之间，可以有效的降低原始数据的大小，减少了存储空间。在新的样本注入更新后，标准化的模型会得到更新，从而使得数据的建模样本得到升级。然后，对缺失的数据样本使用kNN规则提取相应的k个近邻。运用误差最小化准则，求得各个近邻最佳的权重。通过局部线性重构的算法，可以对缺失的数据点进行恢复。本技术解决了用于分析生产数据的数据缺失、噪声干扰等问题。为了充分的利用重构后的数据，本发明的算法能够对数据库及时的更新，从而建模样本不断升级，并且本发明的方法能够适用于在线和离线两种情况下缺失数据的恢复。

kNN规则：在选择近邻的时候，利用了kNN规则。简单的说，kNN规则就是通过计算各个样本之间的某种距离，然后对它们的距离矩阵进行估计，可以使用核密度方法估计出样本近邻的控制限，也可以使用其他的方法求出控制限。当新样本到来时，需要计算该样本和其他样本间的距离。如果该距离小于设定的控制限，那么数据库中的样本是该样本的近邻。反之不是。

软件系统：为了能够实现缺失数据的恢复，本发明采用MathWorks公司的MALTAB软件编程开发，对工业过程中采集到的数据进行检测。当检测到的数据存在缺失点时，及时对数据进行恢复，为后续的过程监视和数据的分析提供完整有效的数据。

首先将含有缺失的数据集 X 分为完备数据集 X _int和不完备数据集 X _mis，其中 X ∈R ^D×N，N为样本的个数，D为样本的维数即变量的个数。将缺失的数据点设置为NaN而不设置成0，一方面有助于matlab软件快速准确的找到缺失的数据点，即找到缺失的样本编号和变量编号；另一方面，这样就不会与原始数据本来就是0的数据点相混淆，解决了缺失样本的初值设置问题。将不含所有NaN数据点的样本归为 X _int，余下的归为 X _mis，并将 X _mis中的样本按照完整性的大小依次由小到大排序（这里的完整性的大小指的是缺失率的大小。缺失率越大，该样本的完整性越小）。其次，抽取完整性最大的样本 X ¹ _mis。假设N个样本中缺失n个数据点， X ¹ _mis缺失的变量数目为m。预先设定一个阈值θ，根据kNN规则，在完整数据集 X _int中求出在欧式距离小于阈值θ条件下 X ¹ _mis的k个最近邻，将该向量集合记为矩阵 X ₁。因为数据是不等长的，为了方便计算， X ₁按照样本 X ¹ _mis中已知未缺失变量保留 X _int中的变量，这样就保证了变量之间的等长，即 X ₁∈R ^(D-m)×k。

找到 X ¹ _mis相应的k个最近邻，按照局部线性重构的原理，将 X ¹ _mis用k个近邻的重构近似来表示。 X ¹ _mis的重构为：

其中 w ₁ ,w ₂ ,…, w _k为样本 X ¹ _mis的重构权值，由它们所组成的矩阵为 W ，其中。

为了使得（1）式中重构后的尽可能的无偏，需要找到一个最优的使得误差平方和最小。

确定最优的为；

找到权值w _i就可以对缺失的数据集 X ¹ _mis进行处理，此时如果用式子（1）重构，那么依然不能重构出它的缺失数据点。这时可以对 X ¹ _mis的k近邻进行处理构造新的近邻 X _1new，对新的近邻 X _1new进行加权重构，恢复的数据点为对应于 X ¹ _mis第一个缺失数据变量编号的变量。

假设新的近邻为 X _1new， X _1new∈R ^(D-m+1)×k。新的近邻 X _1new是在原来近邻的基础上多了一组变量，该变量是 X ¹ _mis缺失的第一个变量。对 X _1new进行加权重构为

()

这里 X ¹ _mis的长度为D-m+1，增加的一个变量即为缺失的数据点。将此数据点插入到 X _mis中，更新 X _mis。当 X ¹ _mis中所有的缺失数据按照上述方法重构后， X ¹ _mis的长度为D，该样本的补值完毕，此时将该样本归为完备的数据集 X _int，更新 X _int数据库。对其余的缺失样本根据完整性的大小运用上述方法依次进行补值。

Claims

1.一种对缺失数据进行恢复处理的方法，其特征在于，所述方法包括以下过程：

2.根据权利要求1所述的一种对缺失数据进行恢复处理的方法，其特征在于，所述的建模包括完备数据集和不完备数据集选取模型、不完备数据集初始化和排序模型、k近邻选择模型、数据点重构模型，以及数据库的更新模型；对于工业过程中的数据，要对缺失的数据进行初始化，保证计算数据的等长特性，以及方便计算机识别该样本是否存在数据缺失的现象；然后根据是否存在缺失进行数据样本的分离，分为完备数据集和不完备数据集；按照kNN规则选择近邻，对缺失的数据点进行局部加权重构。

3.根据权利要求2所述的一种对缺失数据进行恢复处理的方法，所述k近邻选择模型利用kNN规则计算出缺失样本相应的k个近邻，即满足阈值条件或者控制限下的样本，在缺失数据样本局部信息中提取缺失数据的相关信息。

4.根据权利要求1所述的一种对缺失数据进行恢复处理的方法，其特征在于，所述重构模型的各个近邻样本的权重由各个近邻所占的相关距离大小确定，充分地提取k个近邻样本中缺失样本的丢失信息，将近邻样本作为缺失样本局部信息，能够避免其它样本对缺失样本的干扰，提高数据恢复的精确度。

5.根据权利要求1所述的一种对缺失数据进行恢复处理的方法，其特征在于，所述数据库模型，即样本模型的升级是利用缺失样本经过补值后并入到正常完备的数据集中，及时更新了数据库样本，以便后续的缺失样本能够搜索k个近邻，充分利用之前缺失的样本信息。