CN109885563A

CN109885563A - 一种基于动态规则约束的数据清洗算法

Info

Publication number: CN109885563A
Application number: CN201910103445.5A
Authority: CN
Inventors: 丁国辉; 孙莎莎; 范纯龙; 滕一平; 李胜宇; 张荣博; 郑志勇; 许莉; 朱继召; 孙昊涵
Original assignee: Shenyang Aerospace University
Current assignee: Shenyang Aerospace University
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2019-06-14
Anticipated expiration: 2039-02-01
Also published as: CN109885563B

Abstract

本发明涉及数据清洗技术领域，具体而言，涉及一种以动态规则为约束的数据清洗方法。本发明的技术方案首先要对动态规则的求解，在求解过程中，以预测窗口为预测的最小单位，采用改进的ELM算法对速度变化率进行预测，改进步骤为引入验证集的概念，使用验证集中预测结果较好的数据，替换训练集中预测结果较差的数据，并根据替换率设置误差系数θ，最后用测试集合中预测值与误差系数进行加减运算，得到的区间就是动态规则。然后根据动态规则，以检测窗口为单位，利用异常点判断模型甄别数据点，根据异常点的类型，寻找窗口中间点满足动态规则的最优修复方案。

Description

一种基于动态规则约束的数据清洗算法

技术领域

本发明涉及数据清洗技术领域，具体而言，涉及一种以动态规则为约束的数据清洗方法。

背景技术

随着信息化进程的推进，大数据时代到来，如何有效地从海量数据中获取信息成为当前学术探讨的热点。数据挖掘作为一种获得信息的手段被广泛关注的同时，数据清洗作为提高和保障数据质量的一种重要手段，逐步成为一个新的研究热点。目前市场上，数据清洗的方法有很多，目前应用比较广泛的就是滤波器式的清洗方法，像Kalman滤波、非线性滤波等，主要是用于对信号数据的降噪、清洗。这种清洗方法是使用一种数据常规的固定形式来清洗数据，几乎改变了数据集中所有的数据点，这种做法将会改变原本正确的数据，从而引入新的错误。

针对多领域的数据清洗方法主要有Smoothing算法，它有很多改进的版本。例如，SWAB是一种基于线性插值/回归的流数据在线平滑方法。对于滑动窗口，SWAB使用线性插值或线性回归来寻找时间序列的近似直线。此外，移动平均也常用来平滑时间序列数据和进行预测。简单移动平均线(simple moving average,SMA)是最后k个数据的未加权平均值。这个平均值用于预测时间序列的下一个值。而在简单的移动平均线中，过去的观测值被平均加权，加权移动平均线(加权移动平均线，WMA)将因子相乘，赋予样本窗口中不同位置的数据不同的权重，例如，使用时间间隔的逆值作为权重。此外，指数加权移动平均线(EWMA)的权值随时间呈指数递减。很明显，这些方法都会修改大量的数据点，原始数据中正确数据点被严重损坏。

针对这类需要尽可能少改变原始数据点的问题，基于统计学的数据清洗方法对此有一定的研究，该类方法通过对字段进行计算，得到一些统计学量，例如方差、均值、中位数、众数等，根据这些统计学量来定义该字段不同属性的置信区间，以此来寻找离群点，这些离群点就是数据集中的异常点。但是这种数据点的修复仅依赖于前一个数据点的方法，在面对连续的异常点数据时，并不十分可靠。还有基于约束的方法，根据数据变化的规则来建立约束，通过这种约束来判断和检测数据集中的异常点。这种方法的重点在于找到一个适合该数据集的规则来对数据进行约束。先判断是否符合该规则，然后再利用该规则作为约束条件对异常点进行修复。这种方法与统计学方法有一定的相似性，但是可以通过规则约束使得数据点的修复并不仅仅依赖于前一个点，而是可以对比多种修复方案，从而使得修复的精准度更高一些。这种方法的缺点在于对于规则变化较大的数据，一个固定的规则很难满足所有的需求，并且在连续异常时，修复效果不理想。本发明就是针对已有的基于约束的数据清洗方法中存在的这两个问题进行研究。

本发明提出了一种基于动态规则约束的数据清洗算法，来解决流数据在线清洗中数据点改变过多、异常点检测精度不高和修复值严重偏离真实值的问题。该方法算法采用双窗口限流的策略，将整个待修复序列和待预测序列的全局最优问题分别转化为检测窗口和预测窗口的局部最优问题，从而实现在线清洗的功能。在动态规则约束求解的过程中，对机器学习中的ELM算法进行优化，运用优化后的算法对速度变化率进行预测，根据引入的误差系数θ求解动态规则。在清洗过程中，遵循最小改变原则，以动态规则为约束条件，基于中值定理的方法对数据进行清洗，并且在针对连续异常点的修复时，改变修复策略，使修复值更贴近真实值。

发明内容

本发明的技术方案首先要对动态规则的求解，在求解过程中，以预测窗口为预测的最小单位，采用改进的ELM算法对速度变化率进行预测，改进步骤为引入验证集的概念，使用验证集中预测结果较好的数据，替换训练集中预测结果较差的数据，并根据替换率设置误差系数θ，最后用测试集合中预测值与误差系数进行加减运算，得到的区间就是动态规则。然后根据动态规则，以检测窗口为单位，利用异常点判断模型甄别数据点，根据异常点的类型，寻找窗口中间点满足动态规则的最优修复方案。

(1)在线清洗技术的实现：本发明在清洗过程中采用双窗口限流的策略，将整个待修复序列和待预测序列的全局最优问题分别转化为检测窗口和预测窗口的局部最优问题，从而实现在线清洗的功能。

(2)动态规则的求解：在数据清洗过程中，本发明提出了一种约束条件——动态规则，采用机器学习的方法对规则进行预测。在预测过程中，使用机器学习中的极限学习机算法，并对其进行优化，运用优化后的算法对速度变化率进行预测，根据引入的误差系数θ求解动态规则。

(3)异常点判断模型的建立：本发明提出了一种异常点判断模型，利用动态规则和最小改变原则对数据点进行判断，通过给定连续异常点的起始条件和终止条件，对异常点的类型进行甄别。

(4)异常点修复策略：针对异常点的修复问题，本发明提出了一种基于中值定理的异常点修复方法，根据异常点的类型，采用不同的修复策略。在针对间断异常点的修复时，遵循中值定理和最小改变原则，将最优修复方案转化成寻找中间点的问题；在针对连续异常点的修复时，若异常点位于真实数据的上方，则采用间断异常点修复算法的下边界作为修复值，若位于下方，则采用上边界作为修复值。下面具体对每个步骤进行解释。

4.2.1在线清洗技术的实现

本发明利用贪心算法，采用双窗口限流的策略将数据清洗和数据预测的求解局最优解的问题，转化成为求解局部最优解的问题。

针对数据预测问题，需要将预测数据进行划分，被划分的每一个部分，我们叫它预测窗口。预测窗口将以预测集为滑动单位。在滑动过程中，测试集将作为下一个预测窗口的训练集，原训练集将丢掉最远时间点的测试集合大小的数据，以便于保证训练集合的大小不变。不断循环上述步骤。在数据预测开始之前，我们还需要一部分历史数据放入训练集合，该部分是要先于数据清洗过程进行的，也就是说要假定最先到来的那部分数据是正确的，当第一个预测窗口结束，数据清洗算法才能开始工作。

针对异常点检测问题，需要对待清洗序列进行划分，以检测窗口为异常点检测的最小单位，它将数据清洗所需的全局最优结果转化为检测窗口中的局部最优方案，并随着数据的不断到来，检测窗口依次向后滑动，继续执行检测算法，从而达到在线清洗的目的。

两个窗口之间是存在对应关系的，即每个预测窗口中都包含有n个速度变化率，而每个速度变化都必须唯一对应着一个检测窗口。若我们运用ELM算法训练历史数据得到速度变化率的预测集合L＝L[1],L[2],…,L[n-w]，其中L[i]是第i个检测窗口的速度变化率的预测值。而且在检测算法的执行过程中，速度变化率对应的动态规则——速度变化域，也是与检测窗口对应的。

4.2.2动态规则的求解

本发明针对动态规则，提出了一种基于数据预测的方法。首先选择速度变化率作为动态规则约束的基础元素。选择机器学习中的极限学习机对其进行预测，在预测过程中，本发明对极限学习机进行优化，采取二次预测的策略，提高预测的准确性。通过引入误差系数继续调整得到的结果，最终得到动态规则约束——速度变化域。

为了提高ELM算法的预测精度，本发明引入了验证集，在第一次训练中，将验证集和测试集一起作为测试集使用，训练集中预测效果较差的数据将被验证集中预测效果较好的数据替换掉，然后对改变后的训练集进行二次训练，运用调整过的预测模型，对测试集进行预测。

对于一个单隐层神经网络，假设有N个任意的样本(x_j,t_j)，其中x_j＝[x_j1,x_j2,…,x_jn]∈R^m,因此一个有L个隐层节点的单隐层神经网络可以表示为：

其中，g(x)为激活函数，w_i＝[w_i1,w_i2,…,w_in]^T是第i个隐层单元的输入权重，b_i是第i个隐层单元的偏置，β_i＝[β_i1,β_i2,…,β_im]^T是第i个隐层单元的输出权重。

单隐层神经网络学习的目标是使得输出的误差最小，可以表示为：即存在w_i,x_j和b_i使得：

其中，H是隐层节点的输出，β为输出权重，T为期望输出

为了能够训练单隐层神经网络，我们希望得到和β_i使得：

其中，i＝1，2，...，L，这等价于最小化损失函数：

假设有训练样本X＝{(x₁,y₁),(x₂,y₂),…,(x_n,y_n)}，测试样本Y＝{x₁,x₂,…,x_a}。将训练样本切分成两部分，分别作为训练集X_teain＝{(x_i,y_i)|i＝1,2,…,m}和验证集X_va1idation＝{(x_s,y_s)|s∈(m,n]}(m<n)。首先，将训练集作为训练样本进行学习，得到集合X′_train＝{(x_i,y_i′)|i＝1,2,…,m}。将验证集作为测试样本进行测试，得到一个验证集的预测数据X′_va1idation＝{(x_s,y′_s)|s∈(m,n]}(m<n)，将训练集和验证集中每个数据点的预测结果与真实结果进行比较，得到每个预测数据点的损失值集合L_validation＝{L_i|L_i＝|y_i-y_i′|,i＝1,2,…,n}。当x_i＝x_s时，有

将改变后的集合X_train作为训练样本，进行第二次学习，根据训练出的预测模型对测试集样本Y进行预测。

动态规则主要与预测的速度变化率和误差系数有关。在误差系数的计算上，我们依据的是验证集中每个预测数据点的损失值集合L_va1idation＝{L_i|L_i＝|y_i-y_i′|,i＝1,2,…,n}。因为二次训练结束的训练集是调整过的，其损失值集合不能够真实的反映预测误差，所以得采用一次训练结束后的结果。又由于一次训练结束后的训练集数据量过大，大量的计算会导致算法的时间复杂度增大，而验证集损失值集合基本可以反应预测效果，可以作为代表来计算误差系数。

对该损失值集合采用统计学策略，其选取方法有很多种，例如：众数、中位数、中值、最大值、均值、标准差等，遵循最小改变原则，我们最终确定使用验证集损失值集合中的最大值作为当前预测集的误差系数。

假设预测结果集Y_test＝{Y_i|Y₁,Y₂,…,Y_n}，该结果集对应的验证集损失值集合为L_va1idation＝{L_i|L₁,L₂,…,L_n}。那么其所对应的误差系数就是该损失值集合的最大值，即θ＝max(L_va1idation)。Θ仅在该预测集合内有效。速度变化率Y_i对应的速度变化域为(s_{i_nib},s_{i_nax})，即：

由此我们可以得到单位窗口内的约束集合为:

4.2.3异常点判断模型的建立

首先，我们假设当前序列为整个序列，寻找一个可以包含数据集中全部异常点作为全局最优结果。待清洗序列为x＝x[1],x[2],…,x[n]，其中x[i]是第i时刻的数据点，对应的时间戳为t[i]。我们运用ELM算法训练历史数据得到预测速率集合L＝L[1],L[2],…,L[n-w]，其中L[i]是第i个窗口的预测速率。窗口作为每次检测的最小单位，其长度为w，当两个点在同一个窗口时，有0<t[j]-t[i]≤w，检测窗口每次移动仅向后滑动一个数据点。根据训练模型中的验证集，计算得到一个误差系数θ。自此，我们得到一个速度变化率约束集合：

s＝{(s[1]_min,s[1]_max),(s[2]_min,s[2]_max),…,(s[s]_min,s[s]_max)}，s[i]_min＝L[i]-θ,s[i]_max＝L[i]+θ。(S[i]_min,s[i]_max)为第i个窗口中速率的变化范围。所以，当0<t[j]-t[i]≤w且i-w≤a≤i时，若数据点符合该公式，该数据点为正确的数据点，不是异常点；若数据点不能够满足公式，则该点为异常点，记为记作x[i]，若从x[i]到x[i+n](n>1)均不满足该公式，那么我们便称从x[i]到x[i+n](n>1)为连续的异常点。若x[i]<x[i-1]那么，那么我们称x[i]到x[i+n](n>1)为连续空值的异常点，若x[i]>x[i-1]那么，那么我们称x[i]到x[i+n](n>1)为连续异常值的异常点。在数据清洗过程中，结合中值定理，连续异常点的起始条件为:若x_k为异常点且x′_k-1≠x_k-1时，x_k为连续性异常点；终止条件为：若x_k-1为异常点且那么x_k为正确的点，连续性异常点结束。即当前数据点的落在了后一个数据点最优修复方案中，就认为连续性异常点问题结束。

4.2.4异常点修复策略

首先，假设当前序列为整个序列，因此最优解就是一个修复距离最小的修复方案。若待清洗序列为x＝x[1],x[2],…,x[n]，其中x[i]是第i时刻的数据点，对应的时间戳为t[i]。使用第三章构建的动态规则约束模型，我们可以得到一个速度变化域约束集合s＝{(s[1]_min,s[1]_max),(s[2]_min,a[2]_max),…,(s[s]_min,a[a]_max}，s[i]_min＝L[i]-0,s[i]_max＝L[i]+0。(s[i]_min,s[i]_max)为第i个窗口中速率的变化范围。所以，当0<t[j]-t[i]≤w且i-w≤a≤i时，若有

则该数据点被判断成为异常点，其修复距离为修复后的值x′与原序列中的值x之间的距离，即Δ(x,x′)＝∑_x[i]∈x|x[i]-x[i]′|

因此，本发明中当数据点需要被修复时，其修复值不但需要满足动态规则约束条件，还要使得Δ(x,x′)最小。而对于修复结果的评价标准，我们采用均方根值来表示修复值与真实值的偏离程度(又称为损失值)，公式为：

其中r[i]时刻的真实值。

为了提高修复速度，在寻找最优解的过程中，本发明基于中值定理的思想，利用中间点的范围中来寻找最优的修复方案，使用一个线性时间算法来计算最优修复方案。修复过程如下

目前修复执行到检测窗口i中的数据点x_k，而且在之前的修复步骤里，x′₁,……x′_k-1都是已经修复完毕的修复序列。数据点x_k之前窗口中每一个数据点的修复值为x_j′，t_k-w≤t_j≤t_k,1≤j≤k，可以基于动态规则约束给出x′_k的候选修复方案的区间[x′_j+s[j]_min(t_k-t_j),x′_j+s[i]_max(t_k-t_j)]。因此对任意1≤j<i<k，t_k-w≤t_j<t_i<t_k，有：

x′_j+s[i]_min(t_k-t_j)≤x′_i+s[i]_min(t_k-t_i)

x′_i+s[i]_max(t_k-t_j)≤x′_j+s[i]_max(t_k-t_j)

因此，考虑x_k的前一个窗口中最后的一个数据点x′_k-1，足以能够确定出x′_k所有可能的修复范围。原因是因为对任意的1≤j<i<k，x_i′应该在x_j′所指定范围中。换言之，x′_k由x′_i所计算出的候选修方案集合是x′_j所确定的集合的一个子集。

该定理的证明过程如下：

由x′_k-2所计算出的一个候选修复方案集合的范围x′_k中是包含由x′_k-1所计算出的候选修复方案集合的。因此，可以利用x′_k-1来获得x′_k的另一个更精确的候选修复方案集合，即其中

至此修复问题就转换成了寻找集合中的一个最优解x′_k问题。

用表示候选修复方案集合中的中间数，那么根据给出由x_i所计算出的候选修复方案其中x_i为x_k后面的数据点，结合数据点x_k-1所计算出的候选修复方案集合其中x_k-1是x_k前一个数据点。若恰好出现在集合中，那么修复方案就能够直接被确定，即若不满足这个条件，则需要利用候选修复方案集合来确定最优解。

对于其中有：

该定理的证明过程如下：

恒非负，因此函数是一个单调递增函数。

换句话说，就是对于任意候选修复方案，若有那么总是会有在候选修复方案集合中，并且成为该集合中的最优修复解。

对于候选修复方案为时，证明步骤同上。

因此，最优修复方案可以直接由以下公式进行计算：

本发明的有益效果

(1)在清洗过程中，采用双窗口限流策略，利用检测窗口和预测窗口，实现在线计算的功能；

(2)基于约束的数据清洗技术中，本发明提出了一种动态规则约束，使异常点的检测精度更高，修复值更贴近真实值；

(3)对于连续异常点问题，通过清洗策略调整，提高检测精度和降低修复序列的损失值。

附图说明

为了便于本领域技术人员理解，下面结合附图对本发明作进一步的说明。

图1为实施例1中预测算法的性能比较；

图2实施例1中优化后的预测算法性能比较；

图3为实施例1中异常点占比固定时的对比分析；

图4为实施例1中数据集大小固定时的对比分析；

图5为实施例1中连续异常点数量固定时的对比分析；

图6为实施例1中数据集大小固定时的对比分析。

具体实施方式

下面结合具体实施方式对本发明进一步说明，具体实施方式是对本发明原理的进一步说明，不以任何方式限制本发明，与本发明相同或类似技术均没有超出本发明保护的范围。

实施例1

本发明可以应用于在线的时序数据清洗场景中，数据拥有者首先根据自己数据的数据属性设置动态规则和计算方法，并将部分正确的历史数据放入到指定的文件中，进行动态规则预测的初始化工作。然后将待清洗序列与算法进行对接，即可完成清洗工作。

假设有待清洗序列x＝{1.0,1.5,2.0,2.5,10,15.0,0,30.0,33.5},其对应的真实序列值r＝{1.0,1.5,2.0,2.5,3.0,15.0,27.5,30.0,33.5}，对应的时间戳t＝80,81,82,83,84,85,86,87,88}，若设w＝1，将历史数据放入ELM模型中进行训练，我们得到预测速率集合为L＝{0.42,0.51,0.49,0.58,11.97,12.59,2.42,2.58}，计算得到的误差系数θ＝0.1，至此，我们可以得到集合

s＝{(0.32,0.52),(0.41,0.61),(0.39,0.59),(0.48,0.68),(11.87,12.07),(12.49,12.69),(2.32,2.52),(2.48,2.68)}。序列中数据点x[4]和x[5]的时间戳距离为同样的，数据点x[6]和

根据上面的判断，数据点x[5]和x[7]将被视为需要修复的异常点。根据速度约束，两个数据点的修复结果为：x[5]′＝2.98，x[7]′＝27.49，因此，序列x的修复距离为Δ(x,x′)＝∑_x[i]∈x|x[i]-x[i]′|＝35.97，其损失值为RMS＝0.00707。

实施例2

相对于现有工作，本发明对SCREEN算法进行改进，提出了一种基于动态规则约束的数据清洗算法，并且理论分析了本发明的安全性和实验验证了本发明具有较好的可用性。

在实验中，采用的是纽约出租车使用量的数据集。因为电表数据、飞机飞行参数等数据集都很难大量获得，且该公共数据集在数据波动上，与其类似并且具有代表性，可以使用它来代表所有速率变化不均匀的数据。在实验过程中对比的算法选择的是SCREEN算法，该算法是第一个基于约束的数据清洗方法，且比目前存在算法的损失值要低至少4倍，改变的数据点也最少，是目前算法中修复效果较好的算法。我们将从异常点检测的精度，异常点修复值的损失值，修复距离，时间花费等多个角度展开实验。实验结果如下：

首先对当前较为流行的机器学习方法进行对比研究，包括BP神经网络和ELM的各种改进版本，分别为FOS-ELM、NFOS-ELM、NAOS-ELM、OR-ELM及其本身，针对给定的数据集进行预测，我们将从两方面进行分析，首先是测试集中预测值与真实值之间的距离，称之为损失值，用残差平方和表示，其计算方法修复值的评价公式一致。另一个方面，计算了算法的时间花费，由于BP神经网络的时间花费远远高于其他算法，所以没有在图中体现。实验过程中，将训练数据集不断增大，分别比较在训练集增大的过程中，各个预测方法的损失值是如何变化，同时也可以反应预测算法预测的准确性是否稳定。在时间花费方面，随着训练集的增大，各个方法的时间花费都在变大，观察比较不同算法的增长速度，以期比较算法的优劣性。对于改进后的ELM算法和原算法，也采取同样的实验方法进行对比分析。

该算法于SCREEN算法在时间花费、检测精度、修复序列的损失值以及修复距离这四个方面进行对比分析进行比较，由于本发明中的算法添加了数据预测方法，因此其时间花费是要高于SCREEN算法的，该性能可以通过预测窗口的大小进行调节。检测精度就是待测序列中检测出的异常点与实际拥有的异常点之间的比值。损失值也就是修复值与真实值之间的残差平方和，而修复距离则是待测序列与修复序列之间改变量的和。基于动态规则约束的异常点检测算法的精度是SCREEN算法检测精度的3～5倍，损失值比SCREEN算法低20％～50％。

首先将待测序列中异常点占所有数据点的比例固定，然后通过改变待测数据集的大小来对两个算法的性能进行分析，当前实验修复算法执行的是间断异常点点的修复方法。

图3为异常点占比固定时的对比分析，将待测序列的大小固定，增加异常点占所有数据点的比例，对比分析当异常点的占比不断增大时，两个算法的性能变化。

图4为数据集大小固定时的对比分析，连续异常点数据修复方法的修复值更贴近真实值，且在连续点的个数不断增加时，算法的优势依然稳定。实验将从损失值和修复距离两个方面进行分析，首先将待测序列中连续异常点的数量固定，然后通过改变待测数据集的大小来对两个算法的性能进行分析。

图5为连续异常点数量固定时的对比分析；将待测序列的大小固定，增加每组连续异常点的个数，实验中每一百个点中有一组连续异常值，对比分析当连续异常点的个数不断增多时，两个算法损失值和修复距离的性能变化。

图6为数据集大小固定时的对比分析。

Claims

1.一种基于动态规则约束的数据清洗算法，其特征在于，包括如下步骤：(1)在线清洗技术的实现；(2)动态规则的求解；(3)异常点判断模型的建立：(4)异常点修复策略。

2.根据权利要求1所述的一种基于动态规则约束的数据清洗算法，其特征在于，所述步骤(1)在清洗过程中采用双窗口限流的策略，将整个待修复序列和待预测序列的全局最优问题分别转化为检测窗口和预测窗口的局部最优问题，从而实现在线清洗的功能。

3.根据权利要求1所述的一种基于动态规则约束的数据清洗算法，其特征在于，在数据清洗过程中，提出了一种约束条件即动态规则，所述步骤(2)采用机器学习的方法对规则进行预测；在预测过程中，使用机器学习中的极限学习机算法，并对其进行优化，运用优化后的算法对速度变化率进行预测，根据引入的误差系数θ求解动态规则。

4.根据权利要求1所述的一种基于动态规则约束的数据清洗算法，其特征在于，所述异常点判断模型为利用动态规则和最小改变原则对数据点进行判断，通过给定连续异常点的起始条件和终止条件，对异常点的类型进行甄别。

5.根据权利要求1所述的一种基于动态规则约束的数据清洗算法，其特征在于，所述异常点修复策略为根据异常点的类型，采用不同的修复策略；在针对间断异常点的修复时，遵循中值定理和最小改变原则，将最优修复方案转化成寻找中间点的问题；在针对连续异常点的修复时，若异常点位于真实数据的上方，则采用间断异常点修复算法的下边界作为修复值，若位于下方，则采用上边界作为修复值。