CN104679834A

CN104679834A - 一种时序数据清洗方法及系统

Info

Publication number: CN104679834A
Application number: CN201510064730.2A
Authority: CN
Inventors: 金学波; 窦超
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2015-02-06
Filing date: 2015-02-06
Publication date: 2015-06-03
Anticipated expiration: 2035-02-06
Also published as: CN104679834B

Abstract

本发明涉及一种时序数据清洗方法及系统，其中方法包括步骤1：采集一条原始数据，所述原始数据中包括多个原始时序数据；步骤2：对原始时序数据进行随机采样和估计得到多条估计数据，对随机采样产生的空缺点补齐，获得多条补齐估计数据；步骤3：按采样时间点对所有补齐估计数据进行分类，获得多组时间分类数据，并对每组时间分类数据按照大小进行排序得到多组排序数组；步骤4：对每组排序数组进行处理获得一个对应的平均值数据，多组排序数组对应多个平均值数据，多个平均值数据构成均值序列；步骤5：输出均值序列，所述均值序列即为清除野点和高频噪声的数据。一体式数据清理，处理空缺值、去除野点并平滑噪声数据。

Description

一种时序数据清洗方法及系统

技术领域

本发明涉及一种时序数据清洗方法及系统，属于数据处理技术领域。

背景技术

数据分析是目前人工智能和数据库领域研究的热点问题，数据分析过程中的第一个步骤就是数据预处理，数据预处理能有效提高数据质量,为数据挖掘内核提供更有针对性的可用数据,不仅可以节约大量的时间和空间,而且得到的挖掘结果能更好地起到决策和预测作用。

据统计，在整个时序数据分析的过程中，数据预处理占到了整个工作量的60％，其重要性可见一斑。其原因在于，原始时序数据往往带有一定的野点和高频噪声，因为现实世界的数据往往是不完整的、含噪声的和不一致的,真实的数据趋势湮没于野点及噪声之中，若无法有效地去除噪声及野点，对后端的分析，如预测、控制、建模等都将产生重大的影响，因此，实际时序数据分析前的数据预处理显得尤为重要。

目前数据预处理的常用步骤包括:数据清理、数据集成、数据变换以及数据归约。这些数据处理技术在数据挖掘之前使用，大大提高了数据分析模式的质量，降低实际分析所需要的时间。数据清理是处理数据中的遗漏、野点及高频噪声，目前有以下几种方法：

①忽略缺少数据或野点；

②人工填写空值或去除野点，该方法很费时，并且当数据集很大、缺少很多值时或存在很多野点时，该方法可能性不大；

③使用一个全局常量填充空缺值或野点；

④使用数据平均值填充空缺值或野点；

⑤使用与给定数据同一类的所有样本的平均值；

⑥使用最多可能的值填充空缺数据，可以用回归分析、判定树等方法来预测具有同一属性的空缺值，由于使用现有数据的多数信息推测空缺值，更大机会地保持了数据间的联系；

⑦使用分箱的方法将存储的值分布到一些箱中，用箱中的数据值来局部平滑存储数据的值，具体可以采用按箱平均值平滑、按箱中值平滑和按箱边界平滑；

⑧找到恰当的回归函数来平滑数据；

⑨使用聚类的方法将类似的值组织成群或“聚类”，落在聚类集合之外的值被视为孤立点，孤立点模式可能是垃圾数据，也可能是提供信息的重要数据，垃圾模式将从数据库中予以清除。

发明内容

本发明所要解决的技术问题是,针对目前方法只能分步处理，分别处理缺省值、野点及噪声数据的缺点，提供一种用于去除原始数据中的野点和高频噪声以供下一步的数据分析的，基于Kalman滤波器和统计平均的时序数据清洗方法及系统。

本发明解决上述技术问题的技术方案如下：一种时序数据清洗方法，具体包括以下步骤：

步骤1：采集一条原始数据，所述原始数据中包括多个原始时序数据；

步骤2：对原始时序数据进行随机采样和估计得到多条估计数据，对随机采样产生的空缺点补齐，获得多条补齐估计数据；

步骤3：按采样时间点对所有补齐估计数据进行分类，获得多组时间分类数据，并对每组时间分类数据按照大小进行排序得到多组排序数组；

步骤4：对每组排序数组进行处理获得一个对应的平均值数据，多组排序数组对应多个平均值数据，多个平均值数据构成均值序列；

步骤5：输出均值序列，所述均值序列即为清除野点和高频噪声的数据。

本发明的有益效果是：本发明所述的时序数据清洗方法的主要工作集中一体式数据清理上，处理空缺值(丢失数据)，去除野点并平滑噪声数据；并且处理结果中提供了数据的变化率，揭示了数据的变化特征，为很多利用数据变化率的数据分析方法提供了必要的数据。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述4具体包括以下步骤：

步骤4.1：取一组排序数组作为当前排序数组；

步骤4.2：计算当前排序数组中所有补齐估计数据的平均值获得平均值数据，并将当前排序数组中的最大值数据和最小值数据均替换为平均值数据，对当前排序数组重新排序，得到新最大值数据和新最小值数据；

步骤4.3：判断当前排序数组中的新最大值数据和新最小值数据是否均接近平均值数据；如果是，执行步骤4.4；否则，执行步骤4.2；

步骤4.4：采用平均值数据替换当前排序数组；

步骤4.5：判断是否还存在未替换的排序数组，如果是，执行步骤4.1；否则，执行步骤4.6；

步骤4.6：多组排序数组对应多个平均值数据，多个平均值数据构成均值序列。

进一步，所述步骤4.3中的当最大值数据与平均值数据的差值小于第一预设阈值的同时，最小值数据与平均值数据的差值小于第二预设阈值时，判定当前排序数组中的最大值数据和最小值数据接近平均值数据；其中第一预设阈值与第二预设阈值可以相同或不同。

进一步，所述步骤2具体包括以下步骤：

步骤2.1：对原始时序数据进行不规则随机采样，获得多条非等采样区间数据；

步骤2.2：对所有非等采样区间数据进行估计得到多条估计数据；

步骤2.3：对多条估计数据中由于随机采样产生的空缺点进行补齐，获得包含多个点数据的多条补齐估计数据。

进一步，所述步骤2.1中采用预设的采样率对原始时序数据进行不规则随机采样。

进一步，所述步骤2.2中采用自适应动力学模型和卡尔曼滤波对非等采样区间数据进行估计。

进一步，所述步骤2.3中采用线性插值补齐的方式补齐由于随机采样产生的空缺点。

采用上述进一步方案的有益效果是，利用自适应动力学模型、卡尔曼滤波和统计平均多次替换迭代的方法，同时去除了原始时序数据中的缺少值、野点和高频噪声。

实现本发明的基本思路是：首先，利用预设的采样率对含有N个数据的原始时序数据Z进行随机采样，产生M条非等采样区间数据Zsampling，再利用自适应动力学模型和卡尔曼滤波对M条非采样区间数据进行估计得到M条估计后数据Zestimated,进而使用线性插值补齐由于不规则采样出现的空缺点，得到含有N个点的滤波数据Zfiltered共M条；其次，找出所有同一采样时间点数据Zfiltered的最大值和最小值，并用对应均值来进行替换，重复该步骤直至所有滤波数据同一位置上的值相近，该均值序列即为清除野点和高频噪声后的一体化清洗之后的数据。

本发明解决上述技术问题的技术方案如下：一种时序数据清洗系统，包括采集模块、处理模块、分类排序模块、均值模块和输出模块；

所述采集模块用于采集一条原始数据，所述原始数据中包括多个原始时序数据；

所述处理模块用于对原始时序数据进行随机采样和估计得到多条估计数据，对随机采样产生的空缺点补齐，获得多条补齐估计数据；

所述分类排序模块用于按采样时间点对所有补齐估计数据进行分类，获得多组时间分类数据，并对每组时间分类数据按照大小进行排序得到多组排序数组；

所述均值模块用于对每组排序数组进行处理获得一个对应的平均值数据，多组排序数组对应多个平均值数据，多个平均值数据构成均值序列；

所述输出模块用于输出均值序列，所述均值序列即为清除野点和高频噪声的数据。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述均值模块包括计算模块和替换模块；

所述计算模块用于计算所有排序数组中所有补齐估计数据的平均值获得多个平均值数据，并将每个排序数组中的最大值数据和最小值数据均替换为平均值数据；

所述替换模块用于当排序数组中的最大值数据和最小值数据均接近平均值数据时，采用平均值数据替换当前排序数组；多组排序数组对应多个平均值数据，获得多个平均值数据构成均值序列。

进一步，所述处理模块包括采样模块、估计模块和补齐模块；

所述采样模块用于对原始时序数据进行不规则随机采样，获得多条非等采样区间数据；

所述估计模块用于对所有非等采样区间数据进行估计得到多条估计数据；

所述补齐模块用于对多条估计数据中由于随机采样产生的空缺点进行补齐，获得包含多个点数据的多条补齐估计数据。

进一步，所述采样模块中采用预设的采样率对原始时序数据进行不规则随机采样；

所述估计模块中采用自适应动力学模型和卡尔曼滤波对非等采样区间数据进行估计；

所述补齐模块中采用线性插值补齐的方式补齐由于随机采样产生的空缺点。

附图说明

图1为本发明所述的一种时序数据清洗方法流程图；

图2为本发明所述的一种时序数据清洗系统结构框图；

图3为为本发明具体实施例1所述的一种时序数据清洗方法流程图；

图4为本发明具体实施例1中采用线性插值来补齐空缺点的原理图。

附图中，各标号所代表的部件列表如下：

1、采集模块，2、处理模块，3、分类排序模块，4、均值模块，5、输出模块,21、采样模块，22、估计模块，23、补齐模块，41、计算模块，42、替换模块。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，为本发明所述的一种时序数据清洗方法，具体包括以下步骤：

步骤2：对原始时序数据进行不规则随机采样，获得多条非等采样区间数据；

步骤3：对所有非等采样区间数据进行估计得到多条估计数据；

步骤4：对多条估计数据中由于随机采样产生的空缺点进行补齐，获得包含多个点数据的多条补齐估计数据；

步骤5：按采样时间点对所有补齐估计数据进行分类，获得多组时间分类数据，并对每组时间分类数据按照大小进行排序得到多组排序数组；

步骤6：取一组排序数组作为当前排序数组；

步骤7：计算当前排序数组中所有补齐估计数据的平均值获得平均值数据，并将当前排序数组中的最大值数据和最小值数据均替换为平均值数据，对当前排序数组重新排序，得到新最大值数据和新最小值数据；

步骤8：判断当前排序数组中的新最大值数据和新最小值数据是否均接近平均值数据；如果是，执行步骤9；否则，执行步骤7；

步骤9：采用平均值数据替换当前排序数组；

步骤10：判断是否还存在未替换的排序数组，如果是，执行步骤6；否则，执行步骤11；

步骤11：多组排序数组对应多个平均值数据，多个平均值数据构成均值序列；

步骤12：输出均值序列，所述均值序列即为清除野点和高频噪声的数据。

所述步骤8中的当最大值数据与平均值数据的差值小于第一预设阈值的同时，最小值数据与平均值数据的差值小于第二预设阈值时，判定当前排序数组中的最大值数据和最小值数据接近平均值数据；其中第一预设阈值与第二预设阈值可以相同或不同。

所述步骤2中采用预设的采样率对原始时序数据进行不规则随机采样。

所述步骤3中采用自适应动力学模型和卡尔曼滤波对非等采样区间数据进行估计。

所述步骤4中采用线性插值补齐的方式补齐由于随机采样产生的空缺点。

如图2所示，为本发明所述的一种时序数据清洗系统，包括采集模块1、处理模块2、分类排序模块3、均值模块4和输出模块5；

所述采集模块1用于采集一条原始数据，所述原始数据中包括多个原始时序数据；

所述处理模块2用于对原始时序数据进行随机采样和估计得到多条估计数据，对随机采样产生的空缺点补齐，获得多条补齐估计数据；

所述分类排序模块3用于按采样时间点对所有补齐估计数据进行分类，获得多组时间分类数据，并对每组时间分类数据按照大小进行排序得到多组排序数组；

所述均值模块4用于对每组排序数组进行处理获得一个对应的平均值数据，多组排序数组对应多个平均值数据，多个平均值数据构成均值序列；

所述输出模块5用于输出均值序列，所述均值序列即为清除野点和高频噪声的数据。

所述均值模块4包括计算模块41和替换模块42；

所述计算模块41用于计算所有排序数组中所有补齐估计数据的平均值获得多个平均值数据，并将每个排序数组中的最大值数据和最小值数据均替换为平均值数据；

所述替换模块42用于当排序数组中的最大值数据和最小值数据均接近平均值数据时，采用平均值数据替换当前排序数组；多组排序数组对应多个平均值数据，获得多个平均值数据构成均值序列。

所述处理模块2包括采样模块21、估计模块22和补齐模块23；

所述采样模块21用于对原始时序数据进行不规则随机采样，获得多条非等采样区间数据；

所述估计模块22用于对所有非等采样区间数据进行估计得到多条估计数据；

所述补齐模块23用于对多条估计数据中由于随机采样产生的空缺点进行补齐，获得包含多个点数据的多条补齐估计数据。

所述采样模块21中采用预设的采样率对原始时序数据进行不规则随机采样；

所述估计模块22中采用自适应动力学模型和卡尔曼滤波对非等采样区间数据进行估计；

所述补齐模块23中采用线性插值补齐的方式补齐由于随机采样产生的空缺点。

如图3所示，本发明具体实施例1所述的一种基于Kalman滤波器和统计平均的时序数据清洗方法，包括如下步骤：

步骤1：通过对原始数据不规则随机采样获得非等采样区间数据；

1.1采集一条存在野点和高频噪声的长度为N的原始数据Z；

1.2设定采样率为A％，对原始数据Z不规则随机采样M次，得到M条长度为NxA％的非采样区间数据Zsampling。

在本发明中，采样率A和采样次数M需要预设，具体预设值的选择需根据原始时序数据Z的数据量大小以及数据的噪声、野点情况来进行调整。在实际应用时，可以根据多次实验的经验来选择合适的采样率及采样次数。例如，当数据量约为2000，且野点的数量不超过百分之1时，可预设采样率A为1％，采样次数M为20次。若对最终数据清洗结果不满意的情况下，可进一步适当调整采样率及采样次数以达到较好的效果。

步骤2：通过自适应动力学模型和卡尔曼滤波对非采样区间数据进行估计，从而得到去除高频噪声后的估计数据，并用线性插值法补齐由于不规则采样而产生的空缺点；

2.1采用自适应动力学模型的参数修正方法得到卡尔曼滤波所需参数；

\begin{matrix} A_{d} (t_{i - 1}) = \begin{matrix} [\begin{matrix} 1 & {th}_{i} & \frac{{ath}_{i} - 1 + e^{- α {th}_{i}}}{α^{2}} \\ 0 & 1 & \frac{1 - e^{- α {th}_{i}}}{α} \\ 0 & 0 & e^{- α {th}_{i}} \end{matrix}] \end{matrix} \\ U_{d} (t_{i - 1}) = [\begin{matrix} \frac{1}{α} ({- th}_{i} + \frac{α \cdot {th}_{i}^{2}}{2} + \frac{1 - e^{- α \cdot {th}_{i}}}{α}) \\ {th}_{i} - \frac{1 - e^{- α \cdot {th}_{i}}}{α} \\ 1 - e^{- α \cdot {th}_{i}} \end{matrix}] \\ Q_{d} (t_{i - 1}) = E [w_{d} (t_{i - 1}) w_{d}^{T} (t_{i - 1})] = 2 α δ_{α}^{2} [\begin{matrix} q_{11} & q_{12} & q_{13} \\ q_{12} & q_{22} & q_{23} \\ q_{13} & q_{23} & q_{33} \end{matrix}] \end{matrix}

其中

\begin{matrix} q_{11} = \frac{1}{2 α^{5}} [1 - e^{{- 2 \cdot th}_{i}} + 2 α \cdot {th}_{i} + \frac{2 α^{3} {th}_{i}^{3}}{3} - 2 α^{2} {th}_{i}^{2} - 4 α \cdot {th}_{i} e^{- α \cdot {th}_{i}}] \\ q_{12} = \frac{1}{2 α^{4}} [e^{- 2 α \cdot {th}_{i}} + 1 - 2 e^{- α \cdot {th}_{i}} + 2 α \cdot {th}_{i} e^{- α \cdot {th}_{i}} - 2 α \cdot {th}_{i} + α^{2} {th}_{i}^{2}] \\ q_{13} = \frac{1}{2 α^{3}} [1 - e^{- 2 α \cdot {th}_{i}} - 2 α \cdot {th}_{i} e^{- α \cdot {th}_{i}}] \\ q_{22} = \frac{1}{2 α^{3}} [4 e^{- α \cdot {th}_{i}} - 3 - e^{- 2 α \cdot {th}_{i}} + 2 α \cdot {th}_{i}] \\ q_{23} = \frac{1}{2 α^{2}} [e^{- 2 α \cdot {th}_{i}} + 1 - 2 α \cdot {th}_{i}] \\ q_{33} = \frac{1}{2 α} [1 - e^{- 2 α \cdot {th}_{i}}] \end{matrix}

其中A_d(t_i-1)是系统状态过程矩阵，U_d(t_i-1)为输入转移矩阵，Q_d(t_i-1)为过程噪声方差矩阵，th_i为采样数据间隔。其中α和的取值可以根据自适应参数模型进行计算得到。

2.2通过卡尔曼滤波来进行估计，对M条非等采样区间数据进行估计得到M条长度为NxA％的估计后数据Zestimated；

卡尔曼滤波过程如下：

预设动态系统方程：

x(t_i+1)＝A(t_i)x(t_i)+ω(t_i)

z(t_i)＝C(t_i)x(t_i)+v(t_i)

其中，x(t_i)是待估计量，z(t_i)是可以通过测量得到的测量数据。可以看到待估计量x(t_i)和测量的量z(t_i)都含有噪声，我们假设，ω(t_i)和v(t_i)是零均值、不相关白噪声，有已知的协方差矩阵Q(t_i)和R(t_i)。A(t_i)为t_i时刻目标的状态转移矩阵，C(t_i)为t_i时刻的测量矩阵。

Kalman滤波器初始化

\begin{matrix} \hat{x} (t_{0} | t_{0}) = E [x (t_{0})] \\ P (t_{0} | t_{0}) = E [(x (t_{0}) - \hat{x} (t_{0} | t_{0})) {(x (t_{0}) - \hat{x} (t_{0} | t_{0}))}^{T}] \end{matrix}

其中，P为估计方差及P(t₀|t₀)为初始估计值及初始估计方差。

Kalman滤波器每一步计算如下，其中i＝1,2,3…

1，时间更新预测

(1)向前推算状态变量：

\hat{x} (t_{i} | t_{i - 1}) = A (t_{i - 1}) \hat{x} (t_{i - 1} | t_{i - 1})

(2)向前推算误差协方差：

P(t_i|t_i-1)＝A(t_i-1)P(t_i-1|t_i-1)A^T(t_i-1)+Q(t_i-1)

2，测量更新校正

(1)计算卡尔曼增益

K(t_i)＝P(t_i|t_i)H^T(t_i)R^-1(t_i)

＝P(t_i|t_i-1)C^T(t_i)(R(t_i)+C(t_i)P(t_i|t_i-1)CT(t_i))-1

其中，K(t_i)为第t_i步估计的卡尔曼增益。

(2)由观测变量z(t_i)更新估计

\hat{x} (t_{i} | t_{i}) = \hat{x} (t_{i} | t_{i - 1}) + K (t_{i}) (z (t_{i}) - C (t_{i}) \hat{x} (t_{i} | t_{i - 1}))

(3)更新测量误差

P(t_i|t_i)＝(I-K(t_i)C(t_i))P(t_i|t_i-1)

在本发明中，我们将步骤1.2得到的非等采样区间数据Zsampling作为观测变量z(t_i)，最终通过该滤波得到M条长度为NxA％的估计后数据Zestimated。

2.3采用线性插值来补齐M条补齐由于不规则采样出现的空缺点得到M条含有N个点的滤波数据Zfiltered；

其基本原理可由下例说明：

假设我们已知坐标(x₀,y₀)与(x₀,y₀)，要得到[x₀,x₁]区间内某一位置x在直线上的值。根据图4中所示，我们得到

\frac{y - y_{0}}{x - x_{0}} = \frac{y_{1} - y_{0}}{x_{1} - x_{0}}

由于x值已知，所以可以从公式得到y的值。

y = y_{0} + (x - x_{0}) \frac{y_{1} - y_{0}}{x_{1} - x_{0}} = y_{0} + \frac{(x - x_{0}) y_{1} - (x - x_{0}) y_{0}}{x_{1} - x_{0}}

在本发明中，我们使用线性插值来补齐所有M条长度为NxA％的由于不规则采样出现的空缺点的估计数据，得到M条含有N个点的滤波数据Zfiltered。

步骤3：通过统计平均方法来替换迭代修正数据得到清除野点后的数据；

3.1找出所有同一采样时间点数据Zfiltered的最大值和最小值，并用对应均值来进行替换；

在本发明中，均值mean的计算方法为去除了数据的最大值和最小值之后，再对余下的数据求均值。

mean = \frac{Σ_{i = 1}^{N - 2} x_{i}}{N - 2}

其中，x_i为M条估计数据同一位置上的、除最大值最小值之外的值，i＝1，2，...，N-2。

然后用该均值mean替换相应采样时刻的原最大值和最小值，本方法可以有效地减小大幅偏离期望值的野点对均值大小产生的影响。

3.2重复3.1，直至所有滤波数据同一位置上的各个数据与对应均值都相近至一定范围内，具体如下式所示；

|均值-最大值|<ε₁

|均值-最小值|<ε₂

其中ε₁与ε₂分别为预设的均值与最大值、最小值的差值阈值，一般取为[1,10]，当均值与最值之间的差值绝对值小于该阈值时，则判定该步骤结束。

步骤4：输出该均值序列，即为所求的清除野点和高频噪声后的一体化清洗后的数据。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种时序数据清洗方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的一种时序数据清洗方法，其特征在于，所述4具体包括以下步骤：

步骤4.1：取一组排序数组作为当前排序数组；

步骤4.4：采用平均值数据替换当前排序数组；

3.根据权利要求2所述的一种时序数据清洗方法，其特征在于，所述步骤4.3中的当最大值数据与平均值数据的差值小于第一预设阈值的同时，最小值数据与平均值数据的差值小于第二预设阈值时，判定当前排序数组中的最大值数据和最小值数据接近平均值数据；其中第一预设阈值与第二预设阈值相同或不同。

4.根据权利要求1-3任一项所述的一种时序数据清洗方法，其特征在于，所述步骤2具体包括以下步骤：

5.根据权利要求4所述的一种时序数据清洗方法，其特征在于，所述步骤2.1中采用预设的采样率对原始时序数据进行不规则随机采样。

6.根据权利要求4所述的一种时序数据清洗方法，其特征在于，所述步骤2.2中采用自适应动力学模型和卡尔曼滤波对非等采样区间数据进行估计。

7.根据权利要求4所述的一种时序数据清洗方法，其特征在于，所述步骤2.3中采用线性插值补齐的方式补齐由于随机采样产生的空缺点。

8.一种时序数据清洗系统，其特征在于，包括采集模块、处理模块、分类排序模块、均值模块和输出模块；

9.根据权利要求8所述的一种时序数据清洗系统，其特征在于，所述均值模块包括计算模块和替换模块；

10.根据权利要求8或9所述的一种时序数据清洗系统，其特征在于，所述处理模块包括采样模块、估计模块和补齐模块；