CN104679834A - 一种时序数据清洗方法及系统 - Google Patents

一种时序数据清洗方法及系统 Download PDF

Info

Publication number
CN104679834A
CN104679834A CN201510064730.2A CN201510064730A CN104679834A CN 104679834 A CN104679834 A CN 104679834A CN 201510064730 A CN201510064730 A CN 201510064730A CN 104679834 A CN104679834 A CN 104679834A
Authority
CN
China
Prior art keywords
data
module
average
sequence
polishing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510064730.2A
Other languages
English (en)
Other versions
CN104679834B (zh
Inventor
金学波
窦超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Technology and Business University
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN201510064730.2A priority Critical patent/CN104679834B/zh
Publication of CN104679834A publication Critical patent/CN104679834A/zh
Application granted granted Critical
Publication of CN104679834B publication Critical patent/CN104679834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明涉及一种时序数据清洗方法及系统,其中方法包括步骤1:采集一条原始数据,所述原始数据中包括多个原始时序数据;步骤2:对原始时序数据进行随机采样和估计得到多条估计数据,对随机采样产生的空缺点补齐,获得多条补齐估计数据;步骤3:按采样时间点对所有补齐估计数据进行分类,获得多组时间分类数据,并对每组时间分类数据按照大小进行排序得到多组排序数组;步骤4:对每组排序数组进行处理获得一个对应的平均值数据,多组排序数组对应多个平均值数据,多个平均值数据构成均值序列;步骤5:输出均值序列,所述均值序列即为清除野点和高频噪声的数据。一体式数据清理,处理空缺值、去除野点并平滑噪声数据。

Description

一种时序数据清洗方法及系统
技术领域
本发明涉及一种时序数据清洗方法及系统,属于数据处理技术领域。
背景技术
数据分析是目前人工智能和数据库领域研究的热点问题,数据分析过程中的第一个步骤就是数据预处理,数据预处理能有效提高数据质量,为数据挖掘内核提供更有针对性的可用数据,不仅可以节约大量的时间和空间,而且得到的挖掘结果能更好地起到决策和预测作用。
据统计,在整个时序数据分析的过程中,数据预处理占到了整个工作量的60%,其重要性可见一斑。其原因在于,原始时序数据往往带有一定的野点和高频噪声,因为现实世界的数据往往是不完整的、含噪声的和不一致的,真实的数据趋势湮没于野点及噪声之中,若无法有效地去除噪声及野点,对后端的分析,如预测、控制、建模等都将产生重大的影响,因此,实际时序数据分析前的数据预处理显得尤为重要。
目前数据预处理的常用步骤包括:数据清理、数据集成、数据变换以及数据归约。这些数据处理技术在数据挖掘之前使用,大大提高了数据分析模式的质量,降低实际分析所需要的时间。数据清理是处理数据中的遗漏、野点及高频噪声,目前有以下几种方法:
①忽略缺少数据或野点;
②人工填写空值或去除野点,该方法很费时,并且当数据集很大、缺少很多值时或存在很多野点时,该方法可能性不大;
③使用一个全局常量填充空缺值或野点;
④使用数据平均值填充空缺值或野点;
⑤使用与给定数据同一类的所有样本的平均值;
⑥使用最多可能的值填充空缺数据,可以用回归分析、判定树等方法来预测具有同一属性的空缺值,由于使用现有数据的多数信息推测空缺值,更大机会地保持了数据间的联系;
⑦使用分箱的方法将存储的值分布到一些箱中,用箱中的数据值来局部平滑存储数据的值,具体可以采用按箱平均值平滑、按箱中值平滑和按箱边界平滑;
⑧找到恰当的回归函数来平滑数据;
⑨使用聚类的方法将类似的值组织成群或“聚类”,落在聚类集合之外的值被视为孤立点,孤立点模式可能是垃圾数据,也可能是提供信息的重要数据,垃圾模式将从数据库中予以清除。
发明内容
本发明所要解决的技术问题是,针对目前方法只能分步处理,分别处理缺省值、野点及噪声数据的缺点,提供一种用于去除原始数据中的野点和高频噪声以供下一步的数据分析的,基于Kalman滤波器和统计平均的时序数据清洗方法及系统。
本发明解决上述技术问题的技术方案如下:一种时序数据清洗方法,具体包括以下步骤:
步骤1:采集一条原始数据,所述原始数据中包括多个原始时序数据;
步骤2:对原始时序数据进行随机采样和估计得到多条估计数据,对随机采样产生的空缺点补齐,获得多条补齐估计数据;
步骤3:按采样时间点对所有补齐估计数据进行分类,获得多组时间分类数据,并对每组时间分类数据按照大小进行排序得到多组排序数组;
步骤4:对每组排序数组进行处理获得一个对应的平均值数据,多组排序数组对应多个平均值数据,多个平均值数据构成均值序列;
步骤5:输出均值序列,所述均值序列即为清除野点和高频噪声的数据。
本发明的有益效果是:本发明所述的时序数据清洗方法的主要工作集中一体式数据清理上,处理空缺值(丢失数据),去除野点并平滑噪声数据;并且处理结果中提供了数据的变化率,揭示了数据的变化特征,为很多利用数据变化率的数据分析方法提供了必要的数据。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述4具体包括以下步骤:
步骤4.1:取一组排序数组作为当前排序数组;
步骤4.2:计算当前排序数组中所有补齐估计数据的平均值获得平均值数据,并将当前排序数组中的最大值数据和最小值数据均替换为平均值数据,对当前排序数组重新排序,得到新最大值数据和新最小值数据;
步骤4.3:判断当前排序数组中的新最大值数据和新最小值数据是否均接近平均值数据;如果是,执行步骤4.4;否则,执行步骤4.2;
步骤4.4:采用平均值数据替换当前排序数组;
步骤4.5:判断是否还存在未替换的排序数组,如果是,执行步骤4.1;否则,执行步骤4.6;
步骤4.6:多组排序数组对应多个平均值数据,多个平均值数据构成均值序列。
进一步,所述步骤4.3中的当最大值数据与平均值数据的差值小于第一预设阈值的同时,最小值数据与平均值数据的差值小于第二预设阈值时,判定当前排序数组中的最大值数据和最小值数据接近平均值数据;其中第一预设阈值与第二预设阈值可以相同或不同。
进一步,所述步骤2具体包括以下步骤:
步骤2.1:对原始时序数据进行不规则随机采样,获得多条非等采样区间数据;
步骤2.2:对所有非等采样区间数据进行估计得到多条估计数据;
步骤2.3:对多条估计数据中由于随机采样产生的空缺点进行补齐,获得包含多个点数据的多条补齐估计数据。
进一步,所述步骤2.1中采用预设的采样率对原始时序数据进行不规则随机采样。
进一步,所述步骤2.2中采用自适应动力学模型和卡尔曼滤波对非等采样区间数据进行估计。
进一步,所述步骤2.3中采用线性插值补齐的方式补齐由于随机采样产生的空缺点。
采用上述进一步方案的有益效果是,利用自适应动力学模型、卡尔曼滤波和统计平均多次替换迭代的方法,同时去除了原始时序数据中的缺少值、野点和高频噪声。
实现本发明的基本思路是:首先,利用预设的采样率对含有N个数据的原始时序数据Z进行随机采样,产生M条非等采样区间数据Zsampling,再利用自适应动力学模型和卡尔曼滤波对M条非采样区间数据进行估计得到M条估计后数据Zestimated,进而使用线性插值补齐由于不规则采样出现的空缺点,得到含有N个点的滤波数据Zfiltered共M条;其次,找出所有同一采样时间点数据Zfiltered的最大值和最小值,并用对应均值来进行替换,重复该步骤直至所有滤波数据同一位置上的值相近,该均值序列即为清除野点和高频噪声后的一体化清洗之后的数据。
本发明解决上述技术问题的技术方案如下:一种时序数据清洗系统,包括采集模块、处理模块、分类排序模块、均值模块和输出模块;
所述采集模块用于采集一条原始数据,所述原始数据中包括多个原始时序数据;
所述处理模块用于对原始时序数据进行随机采样和估计得到多条估计数据,对随机采样产生的空缺点补齐,获得多条补齐估计数据;
所述分类排序模块用于按采样时间点对所有补齐估计数据进行分类,获得多组时间分类数据,并对每组时间分类数据按照大小进行排序得到多组排序数组;
所述均值模块用于对每组排序数组进行处理获得一个对应的平均值数据,多组排序数组对应多个平均值数据,多个平均值数据构成均值序列;
所述输出模块用于输出均值序列,所述均值序列即为清除野点和高频噪声的数据。
本发明的有益效果是:本发明所述的时序数据清洗方法的主要工作集中一体式数据清理上,处理空缺值(丢失数据),去除野点并平滑噪声数据;并且处理结果中提供了数据的变化率,揭示了数据的变化特征,为很多利用数据变化率的数据分析方法提供了必要的数据。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述均值模块包括计算模块和替换模块;
所述计算模块用于计算所有排序数组中所有补齐估计数据的平均值获得多个平均值数据,并将每个排序数组中的最大值数据和最小值数据均替换为平均值数据;
所述替换模块用于当排序数组中的最大值数据和最小值数据均接近平均值数据时,采用平均值数据替换当前排序数组;多组排序数组对应多个平均值数据,获得多个平均值数据构成均值序列。
进一步,所述处理模块包括采样模块、估计模块和补齐模块;
所述采样模块用于对原始时序数据进行不规则随机采样,获得多条非等采样区间数据;
所述估计模块用于对所有非等采样区间数据进行估计得到多条估计数据;
所述补齐模块用于对多条估计数据中由于随机采样产生的空缺点进行补齐,获得包含多个点数据的多条补齐估计数据。
进一步,所述采样模块中采用预设的采样率对原始时序数据进行不规则随机采样;
所述估计模块中采用自适应动力学模型和卡尔曼滤波对非等采样区间数据进行估计;
所述补齐模块中采用线性插值补齐的方式补齐由于随机采样产生的空缺点。
采用上述进一步方案的有益效果是,利用自适应动力学模型、卡尔曼滤波和统计平均多次替换迭代的方法,同时去除了原始时序数据中的缺少值、野点和高频噪声。
附图说明
图1为本发明所述的一种时序数据清洗方法流程图;
图2为本发明所述的一种时序数据清洗系统结构框图;
图3为为本发明具体实施例1所述的一种时序数据清洗方法流程图;
图4为本发明具体实施例1中采用线性插值来补齐空缺点的原理图。
附图中,各标号所代表的部件列表如下:
1、采集模块,2、处理模块,3、分类排序模块,4、均值模块,5、输出模块,21、采样模块,22、估计模块,23、补齐模块,41、计算模块,42、替换模块。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,为本发明所述的一种时序数据清洗方法,具体包括以下步骤:
步骤1:采集一条原始数据,所述原始数据中包括多个原始时序数据;
步骤2:对原始时序数据进行不规则随机采样,获得多条非等采样区间数据;
步骤3:对所有非等采样区间数据进行估计得到多条估计数据;
步骤4:对多条估计数据中由于随机采样产生的空缺点进行补齐,获得包含多个点数据的多条补齐估计数据;
步骤5:按采样时间点对所有补齐估计数据进行分类,获得多组时间分类数据,并对每组时间分类数据按照大小进行排序得到多组排序数组;
步骤6:取一组排序数组作为当前排序数组;
步骤7:计算当前排序数组中所有补齐估计数据的平均值获得平均值数据,并将当前排序数组中的最大值数据和最小值数据均替换为平均值数据,对当前排序数组重新排序,得到新最大值数据和新最小值数据;
步骤8:判断当前排序数组中的新最大值数据和新最小值数据是否均接近平均值数据;如果是,执行步骤9;否则,执行步骤7;
步骤9:采用平均值数据替换当前排序数组;
步骤10:判断是否还存在未替换的排序数组,如果是,执行步骤6;否则,执行步骤11;
步骤11:多组排序数组对应多个平均值数据,多个平均值数据构成均值序列;
步骤12:输出均值序列,所述均值序列即为清除野点和高频噪声的数据。
所述步骤8中的当最大值数据与平均值数据的差值小于第一预设阈值的同时,最小值数据与平均值数据的差值小于第二预设阈值时,判定当前排序数组中的最大值数据和最小值数据接近平均值数据;其中第一预设阈值与第二预设阈值可以相同或不同。
所述步骤2中采用预设的采样率对原始时序数据进行不规则随机采样。
所述步骤3中采用自适应动力学模型和卡尔曼滤波对非等采样区间数据进行估计。
所述步骤4中采用线性插值补齐的方式补齐由于随机采样产生的空缺点。
如图2所示,为本发明所述的一种时序数据清洗系统,包括采集模块1、处理模块2、分类排序模块3、均值模块4和输出模块5;
所述采集模块1用于采集一条原始数据,所述原始数据中包括多个原始时序数据;
所述处理模块2用于对原始时序数据进行随机采样和估计得到多条估计数据,对随机采样产生的空缺点补齐,获得多条补齐估计数据;
所述分类排序模块3用于按采样时间点对所有补齐估计数据进行分类,获得多组时间分类数据,并对每组时间分类数据按照大小进行排序得到多组排序数组;
所述均值模块4用于对每组排序数组进行处理获得一个对应的平均值数据,多组排序数组对应多个平均值数据,多个平均值数据构成均值序列;
所述输出模块5用于输出均值序列,所述均值序列即为清除野点和高频噪声的数据。
所述均值模块4包括计算模块41和替换模块42;
所述计算模块41用于计算所有排序数组中所有补齐估计数据的平均值获得多个平均值数据,并将每个排序数组中的最大值数据和最小值数据均替换为平均值数据;
所述替换模块42用于当排序数组中的最大值数据和最小值数据均接近平均值数据时,采用平均值数据替换当前排序数组;多组排序数组对应多个平均值数据,获得多个平均值数据构成均值序列。
所述处理模块2包括采样模块21、估计模块22和补齐模块23;
所述采样模块21用于对原始时序数据进行不规则随机采样,获得多条非等采样区间数据;
所述估计模块22用于对所有非等采样区间数据进行估计得到多条估计数据;
所述补齐模块23用于对多条估计数据中由于随机采样产生的空缺点进行补齐,获得包含多个点数据的多条补齐估计数据。
所述采样模块21中采用预设的采样率对原始时序数据进行不规则随机采样;
所述估计模块22中采用自适应动力学模型和卡尔曼滤波对非等采样区间数据进行估计;
所述补齐模块23中采用线性插值补齐的方式补齐由于随机采样产生的空缺点。
如图3所示,本发明具体实施例1所述的一种基于Kalman滤波器和统计平均的时序数据清洗方法,包括如下步骤:
步骤1:通过对原始数据不规则随机采样获得非等采样区间数据;
1.1采集一条存在野点和高频噪声的长度为N的原始数据Z;
1.2设定采样率为A%,对原始数据Z不规则随机采样M次,得到M条长度为NxA%的非采样区间数据Zsampling。
在本发明中,采样率A和采样次数M需要预设,具体预设值的选择需根据原始时序数据Z的数据量大小以及数据的噪声、野点情况来进行调整。在实际应用时,可以根据多次实验的经验来选择合适的采样率及采样次数。例如,当数据量约为2000,且野点的数量不超过百分之1时,可预设采样率A为1%,采样次数M为20次。若对最终数据清洗结果不满意的情况下,可进一步适当调整采样率及采样次数以达到较好的效果。
步骤2:通过自适应动力学模型和卡尔曼滤波对非采样区间数据进行估计,从而得到去除高频噪声后的估计数据,并用线性插值法补齐由于不规则采样而产生的空缺点;
2.1采用自适应动力学模型的参数修正方法得到卡尔曼滤波所需参数;
A d ( t i - 1 ) = 1 th i ath i - 1 + e - α th i α 2 0 1 1 - e - α th i α 0 0 e - α th i U d ( t i - 1 ) = 1 α ( - th i + α · th i 2 2 + 1 - e - α · th i α ) th i - 1 - e - α · th i α 1 - e - α · th i Q d ( t i - 1 ) = E [ w d ( t i - 1 ) w d T ( t i - 1 ) ] = 2 α δ α 2 q 11 q 12 q 13 q 12 q 22 q 23 q 13 q 23 q 33
其中
q 11 = 1 2 α 5 [ 1 - e - 2 · th i + 2 α · th i + 2 α 3 th i 3 3 - 2 α 2 th i 2 - 4 α · th i e - α · th i ] q 12 = 1 2 α 4 [ e - 2 α · th i + 1 - 2 e - α · th i + 2 α · th i e - α · th i - 2 α · th i + α 2 th i 2 ] q 13 = 1 2 α 3 [ 1 - e - 2 α · th i - 2 α · th i e - α · th i ] q 22 = 1 2 α 3 [ 4 e - α · th i - 3 - e - 2 α · th i + 2 α · th i ] q 23 = 1 2 α 2 [ e - 2 α · th i + 1 - 2 α · th i ] q 33 = 1 2 α [ 1 - e - 2 α · th i ]
其中Ad(ti-1)是系统状态过程矩阵,Ud(ti-1)为输入转移矩阵,Qd(ti-1)为过程噪声方差矩阵,thi为采样数据间隔。其中α和的取值可以根据自适应参数模型进行计算得到。
2.2通过卡尔曼滤波来进行估计,对M条非等采样区间数据进行估计得到M条长度为NxA%的估计后数据Zestimated;
卡尔曼滤波过程如下:
预设动态系统方程:
x(ti+1)=A(ti)x(ti)+ω(ti)
z(ti)=C(ti)x(ti)+v(ti)
其中,x(ti)是待估计量,z(ti)是可以通过测量得到的测量数据。可以看到待估计量x(ti)和测量的量z(ti)都含有噪声,我们假设,ω(ti)和v(ti)是零均值、不相关白噪声,有已知的协方差矩阵Q(ti)和R(ti)。A(ti)为ti时刻目标的状态转移矩阵,C(ti)为ti时刻的测量矩阵。
Kalman滤波器初始化
x ^ ( t 0 | t 0 ) = E [ x ( t 0 ) ] P ( t 0 | t 0 ) = E [ ( x ( t 0 ) - x ^ ( t 0 | t 0 ) ) ( x ( t 0 ) - x ^ ( t 0 | t 0 ) ) T ]
其中,P为估计方差及P(t0|t0)为初始估计值及初始估计方差。
Kalman滤波器每一步计算如下,其中i=1,2,3…
1,时间更新预测
(1)向前推算状态变量:
x ^ ( t i | t i - 1 ) = A ( t i - 1 ) x ^ ( t i - 1 | t i - 1 )
(2)向前推算误差协方差:
P(ti|ti-1)=A(ti-1)P(ti-1|ti-1)AT(ti-1)+Q(ti-1)
2,测量更新校正
(1)计算卡尔曼增益
K(ti)=P(ti|ti)HT(ti)R-1(ti)
=P(ti|ti-1)CT(ti)(R(ti)+C(ti)P(ti|ti-1)CT(ti))-1
其中,K(ti)为第ti步估计的卡尔曼增益。
(2)由观测变量z(ti)更新估计
x ^ ( t i | t i ) = x ^ ( t i | t i - 1 ) + K ( t i ) ( z ( t i ) - C ( t i ) x ^ ( t i | t i - 1 ) )
(3)更新测量误差
P(ti|ti)=(I-K(ti)C(ti))P(ti|ti-1)
在本发明中,我们将步骤1.2得到的非等采样区间数据Zsampling作为观测变量z(ti),最终通过该滤波得到M条长度为NxA%的估计后数据Zestimated。
2.3采用线性插值来补齐M条补齐由于不规则采样出现的空缺点得到M条含有N个点的滤波数据Zfiltered;
其基本原理可由下例说明:
假设我们已知坐标(x0,y0)与(x0,y0),要得到[x0,x1]区间内某一位置x在直线上的值。根据图4中所示,我们得到
y - y 0 x - x 0 = y 1 - y 0 x 1 - x 0
由于x值已知,所以可以从公式得到y的值。
y = y 0 + ( x - x 0 ) y 1 - y 0 x 1 - x 0 = y 0 + ( x - x 0 ) y 1 - ( x - x 0 ) y 0 x 1 - x 0
在本发明中,我们使用线性插值来补齐所有M条长度为NxA%的由于不规则采样出现的空缺点的估计数据,得到M条含有N个点的滤波数据Zfiltered。
步骤3:通过统计平均方法来替换迭代修正数据得到清除野点后的数据;
3.1找出所有同一采样时间点数据Zfiltered的最大值和最小值,并用对应均值来进行替换;
在本发明中,均值mean的计算方法为去除了数据的最大值和最小值之后,再对余下的数据求均值。
mean = Σ i = 1 N - 2 x i N - 2
其中,xi为M条估计数据同一位置上的、除最大值最小值之外的值,i=1,2,...,N-2。
然后用该均值mean替换相应采样时刻的原最大值和最小值,本方法可以有效地减小大幅偏离期望值的野点对均值大小产生的影响。
3.2重复3.1,直至所有滤波数据同一位置上的各个数据与对应均值都相近至一定范围内,具体如下式所示;
|均值-最大值|<ε1
|均值-最小值|<ε2
其中ε1与ε2分别为预设的均值与最大值、最小值的差值阈值,一般取为[1,10],当均值与最值之间的差值绝对值小于该阈值时,则判定该步骤结束。
步骤4:输出该均值序列,即为所求的清除野点和高频噪声后的一体化清洗后的数据。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种时序数据清洗方法,其特征在于,具体包括以下步骤:
步骤1:采集一条原始数据,所述原始数据中包括多个原始时序数据;
步骤2:对原始时序数据进行随机采样和估计得到多条估计数据,对随机采样产生的空缺点补齐,获得多条补齐估计数据;
步骤3:按采样时间点对所有补齐估计数据进行分类,获得多组时间分类数据,并对每组时间分类数据按照大小进行排序得到多组排序数组;
步骤4:对每组排序数组进行处理获得一个对应的平均值数据,多组排序数组对应多个平均值数据,多个平均值数据构成均值序列;
步骤5:输出均值序列,所述均值序列即为清除野点和高频噪声的数据。
2.根据权利要求1所述的一种时序数据清洗方法,其特征在于,所述4具体包括以下步骤:
步骤4.1:取一组排序数组作为当前排序数组;
步骤4.2:计算当前排序数组中所有补齐估计数据的平均值获得平均值数据,并将当前排序数组中的最大值数据和最小值数据均替换为平均值数据,对当前排序数组重新排序,得到新最大值数据和新最小值数据;
步骤4.3:判断当前排序数组中的新最大值数据和新最小值数据是否均接近平均值数据;如果是,执行步骤4.4;否则,执行步骤4.2;
步骤4.4:采用平均值数据替换当前排序数组;
步骤4.5:判断是否还存在未替换的排序数组,如果是,执行步骤4.1;否则,执行步骤4.6;
步骤4.6:多组排序数组对应多个平均值数据,多个平均值数据构成均值序列。
3.根据权利要求2所述的一种时序数据清洗方法,其特征在于,所述步骤4.3中的当最大值数据与平均值数据的差值小于第一预设阈值的同时,最小值数据与平均值数据的差值小于第二预设阈值时,判定当前排序数组中的最大值数据和最小值数据接近平均值数据;其中第一预设阈值与第二预设阈值相同或不同。
4.根据权利要求1-3任一项所述的一种时序数据清洗方法,其特征在于,所述步骤2具体包括以下步骤:
步骤2.1:对原始时序数据进行不规则随机采样,获得多条非等采样区间数据;
步骤2.2:对所有非等采样区间数据进行估计得到多条估计数据;
步骤2.3:对多条估计数据中由于随机采样产生的空缺点进行补齐,获得包含多个点数据的多条补齐估计数据。
5.根据权利要求4所述的一种时序数据清洗方法,其特征在于,所述步骤2.1中采用预设的采样率对原始时序数据进行不规则随机采样。
6.根据权利要求4所述的一种时序数据清洗方法,其特征在于,所述步骤2.2中采用自适应动力学模型和卡尔曼滤波对非等采样区间数据进行估计。
7.根据权利要求4所述的一种时序数据清洗方法,其特征在于,所述步骤2.3中采用线性插值补齐的方式补齐由于随机采样产生的空缺点。
8.一种时序数据清洗系统,其特征在于,包括采集模块、处理模块、分类排序模块、均值模块和输出模块;
所述采集模块用于采集一条原始数据,所述原始数据中包括多个原始时序数据;
所述处理模块用于对原始时序数据进行随机采样和估计得到多条估计数据,对随机采样产生的空缺点补齐,获得多条补齐估计数据;
所述分类排序模块用于按采样时间点对所有补齐估计数据进行分类,获得多组时间分类数据,并对每组时间分类数据按照大小进行排序得到多组排序数组;
所述均值模块用于对每组排序数组进行处理获得一个对应的平均值数据,多组排序数组对应多个平均值数据,多个平均值数据构成均值序列;
所述输出模块用于输出均值序列,所述均值序列即为清除野点和高频噪声的数据。
9.根据权利要求8所述的一种时序数据清洗系统,其特征在于,所述均值模块包括计算模块和替换模块;
所述计算模块用于计算所有排序数组中所有补齐估计数据的平均值获得多个平均值数据,并将每个排序数组中的最大值数据和最小值数据均替换为平均值数据;
所述替换模块用于当排序数组中的最大值数据和最小值数据均接近平均值数据时,采用平均值数据替换当前排序数组;多组排序数组对应多个平均值数据,获得多个平均值数据构成均值序列。
10.根据权利要求8或9所述的一种时序数据清洗系统,其特征在于,所述处理模块包括采样模块、估计模块和补齐模块;
所述采样模块用于对原始时序数据进行不规则随机采样,获得多条非等采样区间数据;
所述估计模块用于对所有非等采样区间数据进行估计得到多条估计数据;
所述补齐模块用于对多条估计数据中由于随机采样产生的空缺点进行补齐,获得包含多个点数据的多条补齐估计数据。
CN201510064730.2A 2015-02-06 2015-02-06 一种时序数据清洗方法及系统 Active CN104679834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510064730.2A CN104679834B (zh) 2015-02-06 2015-02-06 一种时序数据清洗方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510064730.2A CN104679834B (zh) 2015-02-06 2015-02-06 一种时序数据清洗方法及系统

Publications (2)

Publication Number Publication Date
CN104679834A true CN104679834A (zh) 2015-06-03
CN104679834B CN104679834B (zh) 2018-01-16

Family

ID=53314876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510064730.2A Active CN104679834B (zh) 2015-02-06 2015-02-06 一种时序数据清洗方法及系统

Country Status (1)

Country Link
CN (1) CN104679834B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106324583A (zh) * 2016-08-25 2017-01-11 哈尔滨工程大学 一种矢量阵被动声呐异常数据在线剔除方法
CN106446091A (zh) * 2016-09-13 2017-02-22 北京协力筑成金融信息服务股份有限公司 一种多源时序数据的预处理方法和装置
CN106649579A (zh) * 2016-11-17 2017-05-10 苏州航天系统工程有限公司 一种用于管网建模的时序数据清洗方法
CN106997391A (zh) * 2017-04-10 2017-08-01 华北电力大学(保定) 一种快速筛选大规模过程数据中的稳态工况数据的方法
CN107273930A (zh) * 2017-06-14 2017-10-20 成都四方伟业软件股份有限公司 一种动态流式数据的聚类方法
CN107918660A (zh) * 2017-11-21 2018-04-17 清华大学 基于多阶差分网络的高频时序数据处理方法
CN108801320A (zh) * 2017-04-28 2018-11-13 中国石油天然气股份有限公司 一种天然气测量系统的诊断方法
CN108829861A (zh) * 2018-06-22 2018-11-16 广州矽创信息科技有限公司 一种数据清洗方法和系统
CN109709806A (zh) * 2018-12-27 2019-05-03 杭州铭展网络科技有限公司 一种自适应数据采集系统
CN110531271A (zh) * 2019-10-14 2019-12-03 深圳市蓝度汽车电控技术有限公司 一种汽车电瓶静态电压的检测方法、系统及终端
CN110750536A (zh) * 2019-10-11 2020-02-04 清华大学 姿态时间序列数据的振动噪声平滑处理方法及系统
CN111221809A (zh) * 2020-01-08 2020-06-02 国电联合动力技术有限公司 基于实时数据库存储的数据清洗方法和系统及存储介质
CN111340312A (zh) * 2020-03-24 2020-06-26 国家电网有限公司 一种基于rnn网络预测物资采购需求量的方法
CN111398833A (zh) * 2020-03-13 2020-07-10 浙江大学 一种电池健康状态评估方法和评估系统
CN111401651A (zh) * 2020-03-24 2020-07-10 国家电网有限公司 一种基于lstm网络预测物资采购需求量的方法
CN111445009A (zh) * 2020-03-25 2020-07-24 国家电网有限公司 一种基于gru网络预测物资采购需求量的方法
CN111694822A (zh) * 2020-04-30 2020-09-22 云南电网有限责任公司信息中心 一种低压配网运行状态数据采集系统及其采集方法
CN111960217A (zh) * 2020-07-16 2020-11-20 浙江新再灵科技股份有限公司 基于物联网的电梯钢丝绳故障检测方法
CN112835750A (zh) * 2019-11-22 2021-05-25 上海欧菲智能车联科技有限公司 数据处理方法及数据处理系统
CN113589124A (zh) * 2021-07-16 2021-11-02 杭州中安电子有限公司 一种变频率数据采集的方法及装置
CN116049341A (zh) * 2023-03-08 2023-05-02 北京七兆科技有限公司 一种水文数据标准化方法、装置、设备及存储介质
CN111221809B (zh) * 2020-01-08 2024-05-24 国电联合动力技术有限公司 基于实时数据库存储的数据清洗方法和系统及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278762A (ja) * 2001-03-19 2002-09-27 Nippon Steel Corp データクラスタリング方法
CN101620619A (zh) * 2009-08-07 2010-01-06 北京航空航天大学 一种基于聚类方法的测量数据粗大误差处理系统及处理方法
CN102509001A (zh) * 2011-10-18 2012-06-20 西安交通大学 一种自动去除时序数据野值点的方法
CN104317801A (zh) * 2014-09-19 2015-01-28 东北大学 一种面向大数据的数据清洗系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278762A (ja) * 2001-03-19 2002-09-27 Nippon Steel Corp データクラスタリング方法
CN101620619A (zh) * 2009-08-07 2010-01-06 北京航空航天大学 一种基于聚类方法的测量数据粗大误差处理系统及处理方法
CN102509001A (zh) * 2011-10-18 2012-06-20 西安交通大学 一种自动去除时序数据野值点的方法
CN104317801A (zh) * 2014-09-19 2015-01-28 东北大学 一种面向大数据的数据清洗系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王霞等: "基于时序关系的RFID不确定数据清洗算法", 《辽宁大学学报(自然科学版)》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106324583A (zh) * 2016-08-25 2017-01-11 哈尔滨工程大学 一种矢量阵被动声呐异常数据在线剔除方法
CN106446091A (zh) * 2016-09-13 2017-02-22 北京协力筑成金融信息服务股份有限公司 一种多源时序数据的预处理方法和装置
CN106649579A (zh) * 2016-11-17 2017-05-10 苏州航天系统工程有限公司 一种用于管网建模的时序数据清洗方法
CN106997391B (zh) * 2017-04-10 2020-11-03 华北电力大学(保定) 一种快速筛选大规模过程数据中的稳态工况数据的方法
CN106997391A (zh) * 2017-04-10 2017-08-01 华北电力大学(保定) 一种快速筛选大规模过程数据中的稳态工况数据的方法
CN108801320A (zh) * 2017-04-28 2018-11-13 中国石油天然气股份有限公司 一种天然气测量系统的诊断方法
CN108801320B (zh) * 2017-04-28 2020-12-01 中国石油天然气股份有限公司 一种天然气测量系统的诊断方法
CN107273930A (zh) * 2017-06-14 2017-10-20 成都四方伟业软件股份有限公司 一种动态流式数据的聚类方法
CN107918660A (zh) * 2017-11-21 2018-04-17 清华大学 基于多阶差分网络的高频时序数据处理方法
CN107918660B (zh) * 2017-11-21 2018-12-11 清华大学 基于多阶差分网络的高频时序数据处理方法
CN108829861A (zh) * 2018-06-22 2018-11-16 广州矽创信息科技有限公司 一种数据清洗方法和系统
CN109709806A (zh) * 2018-12-27 2019-05-03 杭州铭展网络科技有限公司 一种自适应数据采集系统
CN110750536A (zh) * 2019-10-11 2020-02-04 清华大学 姿态时间序列数据的振动噪声平滑处理方法及系统
CN110531271A (zh) * 2019-10-14 2019-12-03 深圳市蓝度汽车电控技术有限公司 一种汽车电瓶静态电压的检测方法、系统及终端
CN112835750A (zh) * 2019-11-22 2021-05-25 上海欧菲智能车联科技有限公司 数据处理方法及数据处理系统
CN112835750B (zh) * 2019-11-22 2023-01-17 上海欧菲智能车联科技有限公司 数据处理方法及数据处理系统
CN111221809A (zh) * 2020-01-08 2020-06-02 国电联合动力技术有限公司 基于实时数据库存储的数据清洗方法和系统及存储介质
CN111221809B (zh) * 2020-01-08 2024-05-24 国电联合动力技术有限公司 基于实时数据库存储的数据清洗方法和系统及存储介质
CN111398833A (zh) * 2020-03-13 2020-07-10 浙江大学 一种电池健康状态评估方法和评估系统
CN111398833B (zh) * 2020-03-13 2021-08-31 浙江大学 一种电池健康状态评估方法
CN111340312A (zh) * 2020-03-24 2020-06-26 国家电网有限公司 一种基于rnn网络预测物资采购需求量的方法
CN111401651A (zh) * 2020-03-24 2020-07-10 国家电网有限公司 一种基于lstm网络预测物资采购需求量的方法
CN111445009A (zh) * 2020-03-25 2020-07-24 国家电网有限公司 一种基于gru网络预测物资采购需求量的方法
CN111694822A (zh) * 2020-04-30 2020-09-22 云南电网有限责任公司信息中心 一种低压配网运行状态数据采集系统及其采集方法
CN111960217A (zh) * 2020-07-16 2020-11-20 浙江新再灵科技股份有限公司 基于物联网的电梯钢丝绳故障检测方法
CN111960217B (zh) * 2020-07-16 2022-04-19 浙江新再灵科技股份有限公司 基于物联网的电梯钢丝绳故障检测方法
CN113589124A (zh) * 2021-07-16 2021-11-02 杭州中安电子有限公司 一种变频率数据采集的方法及装置
CN113589124B (zh) * 2021-07-16 2023-11-28 杭州中安电子有限公司 一种变频率数据采集的方法及装置
CN116049341A (zh) * 2023-03-08 2023-05-02 北京七兆科技有限公司 一种水文数据标准化方法、装置、设备及存储介质
CN116049341B (zh) * 2023-03-08 2023-08-15 北京七兆科技有限公司 一种水文数据标准化方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN104679834B (zh) 2018-01-16

Similar Documents

Publication Publication Date Title
CN104679834A (zh) 一种时序数据清洗方法及系统
CN104809333B (zh) 基于Kalman滤波器的容量预测方法和系统
CN107622162B (zh) 一种基于Copula函数的水位流量关系曲线推求方法
CN111598780B (zh) 一种适用于机载LiDAR点云的地形自适应插值滤波方法
CN107085764A (zh) 一种基于改进dfhmm模型的负荷分解方法及装置
CN102855634A (zh) 一种图像检测方法及装置
CN112783938B (zh) 一种水文遥测实时数据异常检测方法
CN101853485A (zh) 一种基于近邻传播聚类的非均匀点云简化处理方法
CN111275724A (zh) 一种基于八叉树和边界优化的机载点云屋顶平面分割方法
CN108197837A (zh) 基于KMeans聚类的光伏发电预测方法
CN103235982A (zh) 一种基于贝叶斯网络模型的渔场预报方法
CN103793438B (zh) 一种基于MapReduce的并行聚类方法
CN108416381B (zh) 一种面向三维点集的多密度聚类方法
CN114169434A (zh) 一种负荷预测方法
CN107818328A (zh) 结合局部信息的不完整数据相似性刻画方法
CN104462329B (zh) 一种适用于多样性环境的业务流程挖掘方法
Salvadori et al. From generalized Pareto to extreme values law: Scaling properties and derived features
CN114782837B (zh) 种植物估产方法、装置、电子设备和存储介质
CN111177881A (zh) 含光热-光伏发电电力系统随机生产模拟方法
Fernández et al. Approximate dynamic programming for automated vacuum waste collection systems
CN103020864B (zh) 玉米良种选育方法
CN110111275A (zh) 一种信号降噪的方法、系统及计算机存储介质
CN107220993B (zh) 基于Mean shift聚类的粒子滤波机动目标追踪方法
CN112837739B (zh) 基于自编码器与蒙特卡洛树的层次化特征系统发育模型
CN111125082B (zh) 基于关联规则挖掘的水泥工艺参数数据分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant