CN108733812B - 基于全局信息的时间序列数据中异常数据点的识别方法 - Google Patents

基于全局信息的时间序列数据中异常数据点的识别方法 Download PDF

Info

Publication number
CN108733812B
CN108733812B CN201810489464.1A CN201810489464A CN108733812B CN 108733812 B CN108733812 B CN 108733812B CN 201810489464 A CN201810489464 A CN 201810489464A CN 108733812 B CN108733812 B CN 108733812B
Authority
CN
China
Prior art keywords
speed
change rate
data
data point
speed change
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810489464.1A
Other languages
English (en)
Other versions
CN108733812A (zh
Inventor
王晓玲
刘小捷
宋光旋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201810489464.1A priority Critical patent/CN108733812B/zh
Publication of CN108733812A publication Critical patent/CN108733812A/zh
Application granted granted Critical
Publication of CN108733812B publication Critical patent/CN108733812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Testing And Monitoring For Control Systems (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了基于全局信息的时间序列数据中异常数据点的识别方法,包括步骤:获取原始时间序列数据及各数据点的观测值;计算各数据点的观测值变化速度和各数据点的速度变化率;根据各数据点的速度变化率,计算原始时间序列数据的平均速度变化率,统计各数据点的速度变化率的离散概率分布,并对离散概率分布进行拟合得到概率密度函数;根据时间序列数据的值变化速度约束和数据点的速度变化率,检测异常数据点。将时间序列数据的平均速度变化率和速度变化率的概率分布作为全局信息,充分反应了时间序列数据的整体特性,通过查找违背整体特性的数据点能够对异常数据点进行有效识别,识别出异常数据点。该方法对时间序列数据中突发异常数据点能准确识别。

Description

基于全局信息的时间序列数据中异常数据点的识别方法
技术领域
本发明属于数据清洗领域,更为具体地讲,涉及一种基于全局信息的时间序列数据中异常数据点的识别方法。
背景技术
随着信息技术的发展,数据无时无刻不在产生和使用。各行各业的数据在不断地增长,数据已经在人们的生活中成为了十分重要的角色。由于各种各样的传感器被广泛使用,日常生活中越来越多的时间序列数据被采集和应用,例如气温数据和GPS轨迹数据。因为这些数据中蕴含着丰富的信息,使得时间序列数据挖掘成为了当今的一个热门研究课题。然而,与此同时脏数据也广泛存在于时间序列数据中,低质量的时间序列数据给数据挖掘和分析带来了巨大的影响。毫无疑问,通过清洗时间序列数据,从而提高时间序列数据的数据质量,可以有效地改善数据挖掘的结果,具有重要意义。
其中,如何从时间序列数据中检测突发异常点,是数据清洗中的一项重要内容。由于传感器错误和其他原因,导致时间序列数据中通常存在一些错误的数据点。而这些错误的异常数据点的位置通常难以判断,使得时间序列数据清洗成为极具挑战性的问题。基于平滑的方法通常用于消除序列中的异常数据点,如简单移动平均(SMA)和指数加权移动平均(EWMA)。然而,这类方法仅对序列中的所有数据点都进行平滑处理,难以有效判断异常点的位置。
综上,目前在识别时间序列数据中的突发异常数据点时,存在难以有效准确的判断异常数据点的位置的问题,从而影响对异常数据点的识别。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于全局信息的时间序列数据中异常数据点的识别方法,实现对时间序列数据中突发异常数据点的准确识别。
为实现上述发明目的,本发明一种基于全局信息的时间序列数据中异常数据点的识别方法,包括以下步骤:
S1:获取原始时间序列数据;
S2:根据所述原始时间序列数据中各数据点的观测值,计算各数据点的观测值变化速度,并根据各数据点的观测值变化速度计算出各数据点的速度变化率;
S3:统计原始时间序列数据各数据点的平均速度变化率
Figure BDA0001667702960000028
和速度变化率的离散概率分布,并使用正太分布拟合速度变化率的概率分布,得到概率密度函数;
S4:检测异常数据点:在原始时间序列数据中,如果min{1-p(ui-1),p(ui-1)}、min{1-p(ui),p(ui)}和min{1-p(ui+1),p(ui+1)}都小于
Figure BDA0001667702960000021
则第i个数据点将被识别为异常数据点,其中,p(ui-1)为速度变化率小于第i-1个数据点的速度变化率ui-1的概率,其值为从负无穷到速度变化率ui-1对概率密度函数进行积分得到的值,p(ui)为速度变化率小于第i个数据点的速度变化率ui的概率,其值为从负无穷到速度变化率ui对概率密度函数进行积分得到的值,p(ui+1)为速度变化率小于第i+1个数据点的速度变化率ui+1的概率,其值为从负无穷到速度变化率ui+1对概率密度函数进行积分得到的值,
Figure BDA0001667702960000022
为速度变化率小于速度变化率
Figure BDA0001667702960000023
的概率,其值为从负无穷到速度变化率
Figure BDA0001667702960000024
对概率密度函数进行积分得到的值,
Figure BDA0001667702960000025
为速度变化率小于速度变化率
Figure BDA0001667702960000026
的概率,其值为从负无穷到速度变化率
Figure BDA0001667702960000027
对概率密度函数进行积分得到的值,smax和smin分别为最大和最小的值变化速度约束。
本发明的目的是这样实现的:
本发明通过获取原始时间序列数据及所述原始时间序列数据中各数据点的观测值;根据所述原始时间序列数据中各数据点的观测值,计算各数据点的观测值变化速度和各数据点的速度变化率;根据所述各数据点的速度变化率,计算所述原始时间序列数据的平均速度变化率,统计所述各数据点的速度变化率的离散概率分布,并对所述离散概率分布进行拟合得到概率密度函数;根据时间序列数据的值变化速度约束和数据点的速度变化率,检测异常数据点。由于时间序列数据的观测值变化速度的分布大多没有规律,本发明在观测值变化速度的基础上继续计算速度变化率,发现速度变化率的分布基本符合正太分布,进而使用正太分布进行拟合。将时间序列数据的平均速度变化率和速度变化率的概率分布作为全局信息,充分反应了时间序列数据的整体特性,通过查找违背整体特性的数据点能够对异常数据点进行有效识别。
附图说明
图1是本发明基于全局信息的时间序列数据中异常数据点的识别方法的总体流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
如图1所示,本发明基于全局信息的时间序列数据中异常数据点的识别方法,其具体步骤包括:
S101:获取原始时间序列数据:
获取包含异常点的原始时间序列数据x={<t1,x1>,<t2,x2>,...,<tn,xn>},其中,ti表示第i个数据点的观测时间,xi表示第i个数据点的观测值,i=1、2、3……n。表1是本实施例中的原始时间序列数据表。
Figure BDA0001667702960000031
Figure BDA0001667702960000041
表1
S102:计算各数据点的观测值变化速度和数据点的速度变化率
根据所述原始时间序列数据中各数据点的观测值,计算各数据点的观测值变化速度,并根据各数据点的观测值变化速度计算出各数据点的速度变化率:
原始时间序列数据中第i个数据点xi的观测值变化速度计算公式为
Figure BDA0001667702960000042
数据点的速度变化率计算公式为
Figure BDA0001667702960000043
其中,ti表示第i个数据点的观测时间,ti-1表示第i-1个数据点的观测时间,xi表示第i个数据点的观测值,xi-1表示第i-1个数据点的观测值,vi表示第i个数据点的观测值变化速度,vi-1表示第i-1个数据点的观测值变化速度。
由于时间序列数据的观测值变化速度的分布大多没有规律,本发明在观测值变化速度的基础上继续计算速度变化率,发现速度变化率的分布基本符合正太分布,进而在接下来的步骤中使用正太分布进行拟合。
表2是本实施例中的原始时间序列数据的观测值变化速度和速度变化率表。
Figure BDA0001667702960000044
Figure BDA0001667702960000051
表2
S103:拟合速度变化率的概率分布
统计原始时间序列数据各数据点的平均速度变化率
Figure BDA0001667702960000052
和速度变化率的离散概率分布,并使用正太分布拟合速度变化率的概率分布,得到概率密度函数。
本实施例中的平均速度变化率根据表2可以得到
Figure BDA0001667702960000053
表3是本实施例中的原始时间序列数据的速度变化率离散概率分布表。
速度变化率 概率
(-∞,-0.2) 0.04545
[-0.2,-0.1) 0.1364
[-0.1,0) 0.4545
[0,0.1) 0.2273
[0.1,0.2) 0.04545
[0.2,+∞) 0.0909
表3
使用正太分布拟合速度变化率的离散概率分布得到概率密度函数,计算公式为:
Figure BDA0001667702960000054
其中,
Figure BDA0001667702960000055
为原始时间序列数据各数据点的平均速度变化率,σ为原始时间序列数据各数据点速度变化率的标准差,u为速度变化率。
本实施例中得到平均速度变化率
Figure BDA0001667702960000056
标准差σ=0.1576,则概率密度函数为:
Figure BDA0001667702960000057
时间序列数据的平均速度变化率和速度变化率的概率分布作为一种全局信息,充分反应了时间序列数据的整体特性。
S104:异常数据点检测
检测异常数据点:在原始时间序列数据中,如果min{1-p(ui-1),p(ui-1)}、min{1-p(ui),p(ui)}和min{1-p(ui+1),p(ui+1)}都小于
Figure BDA0001667702960000061
则第i个数据点将被识别为异常数据点。
其中,p(ui-1)为速度变化率小于第i-1个数据点的速度变化率ui-1的概率,其值为从负无穷到速度变化率ui-1对概率密度函数进行积分得到的值,p(ui)为速度变化率小于第i个数据点的速度变化率ui的概率,其值为从负无穷到速度变化率ui对概率密度函数进行积分得到的值,p(ui+1)为速度变化率小于第i+1个数据点的速度变化率ui+1的概率,其值为从负无穷到速度变化率ui+1对概率密度函数进行积分得到的值,
Figure BDA0001667702960000062
为速度变化率小于速度变化率
Figure BDA0001667702960000063
的概率,其值为从负无穷到速度变化率
Figure BDA0001667702960000064
对概率密度函数进行积分得到的值,
Figure BDA0001667702960000065
为速度变化率小于速度变化率
Figure BDA0001667702960000066
的概率,其值为从负无穷到速度变化率
Figure BDA0001667702960000067
对概率密度函数进行积分得到的值,即:
Figure BDA0001667702960000068
其中,smax和smin分别为最大和最小的值变化速度约束,根据具体实施情况确定。
在本步骤中,通过查找违背上述整体特性的数据点能够对异常数据点进行有效识别。
本实施例中,变化速度的最大值smax=0.1和最小值smin=-0.1,根据速度变化率概率分布的概率密度函数得到:
Figure BDA0001667702960000069
表4是本实施例中的异常点检测结果
Figure BDA00016677029600000610
Figure BDA0001667702960000071
表4
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (2)

1.一种基于全局信息的时间序列数据中异常数据点的识别方法,其特征在于,包括以下步骤:
S1:获取传感器采集的时间序列数据作为原始时间序列数据;
S2:根据所述原始时间序列数据中各数据点的观测值,计算各数据点的观测值变化速度,并根据各数据点的观测值变化速度计算出各数据点的速度变化率;
S3:统计原始时间序列数据各数据点的平均速度变化率
Figure FDA00029638289700000110
和速度变化率的离散概率分布,并使用正太分布拟合速度变化率的概率分布,得到概率密度函数;
S4:检测异常数据点:在原始时间序列数据中,如果min{1-p(ui-1),p(ui-1)}、min{1-p(ui),p(ui)}和min{1-p(ui+1),p(ui+1)}都小于
Figure FDA0002963828970000011
则第i个数据点将被识别为异常数据点,其中,p(ui-1)为速度变化率小于第i-1个数据点的速度变化率ui-1的概率,其值为从负无穷到速度变化率ui-1对概率密度函数进行积分得到的值,p(ui)为速度变化率小于第i个数据点的速度变化率ui的概率,其值为从负无穷到速度变化率ui对概率密度函数进行积分得到的值,p(ui+1)为速度变化率小于第i+1个数据点的速度变化率ui+1的概率,其值为从负无穷到速度变化率ui+1对概率密度函数进行积分得到的值,
Figure FDA0002963828970000012
为速度变化率小于速度变化率
Figure FDA0002963828970000013
的概率,其值为从负无穷到速度变化率
Figure FDA0002963828970000014
对概率密度函数进行积分得到的值,
Figure FDA0002963828970000015
为速度变化率小于速度变化率
Figure FDA0002963828970000016
的概率,其值为从负无穷到速度变化率
Figure FDA0002963828970000017
对概率密度函数进行积分得到的值,smax和smin分别为最大和最小的值变化速度约束。
2.根据权利要求1所述的基于全局信息的时间序列数据中异常数据点的识别方法,其特征在于,步骤S2中原始时间序列数据为:
x={<t1,x1>,<t2,x2>,...,<tn,xn>};
第i个数据点的观测值变化速度计算公式为:
Figure FDA0002963828970000018
速度变化率计算公式为
Figure FDA0002963828970000019
其中,ti表示第i个数据点的观测时间,ti-1表示第i-1个数据点的观测时间,xi表示第i个数据点的观测值,xi-1表示第i-1个数据点的观测值,vi表示第i个数据点的观测值变化速度,vi-1表示第i-1个数据点的观测值变化速度。
CN201810489464.1A 2018-05-21 2018-05-21 基于全局信息的时间序列数据中异常数据点的识别方法 Active CN108733812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810489464.1A CN108733812B (zh) 2018-05-21 2018-05-21 基于全局信息的时间序列数据中异常数据点的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810489464.1A CN108733812B (zh) 2018-05-21 2018-05-21 基于全局信息的时间序列数据中异常数据点的识别方法

Publications (2)

Publication Number Publication Date
CN108733812A CN108733812A (zh) 2018-11-02
CN108733812B true CN108733812B (zh) 2021-09-14

Family

ID=63938672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810489464.1A Active CN108733812B (zh) 2018-05-21 2018-05-21 基于全局信息的时间序列数据中异常数据点的识别方法

Country Status (1)

Country Link
CN (1) CN108733812B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065466A (zh) * 2012-11-19 2013-04-24 北京世纪高通科技有限公司 一种交通异常状况的检测方法和装置
CN103226589A (zh) * 2012-10-15 2013-07-31 北京大学 获取图像的紧凑全局特征描述子的方法及图像检索方法
CN104793605A (zh) * 2015-04-10 2015-07-22 北京金控自动化技术有限公司 一种利用正态分布判定设备故障的方法
CN104849728A (zh) * 2015-05-12 2015-08-19 北京航空航天大学 地基增强系统的完好性评估方法
CN105071983A (zh) * 2015-07-16 2015-11-18 清华大学 一种面向云计算在线业务的异常负载检测方法
CN105119734A (zh) * 2015-07-15 2015-12-02 中国人民解放军防空兵学院 基于健壮多元概率校准模型的全网络异常检测定位方法
CN106571039A (zh) * 2016-08-22 2017-04-19 中海网络科技股份有限公司 一种高速公路违章行为自动抓拍系统
CN106909793A (zh) * 2017-03-03 2017-06-30 北京北青厚泽数据科技有限公司 检验服从近似正态分布的时间序列的异常的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140222653A1 (en) * 2011-09-08 2014-08-07 Tokyo Institute Of Technology Method and program for detecting change-point of time-series data, and method and program for predicting probability density distribution of future time-series data values

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103226589A (zh) * 2012-10-15 2013-07-31 北京大学 获取图像的紧凑全局特征描述子的方法及图像检索方法
CN103065466A (zh) * 2012-11-19 2013-04-24 北京世纪高通科技有限公司 一种交通异常状况的检测方法和装置
CN104793605A (zh) * 2015-04-10 2015-07-22 北京金控自动化技术有限公司 一种利用正态分布判定设备故障的方法
CN104849728A (zh) * 2015-05-12 2015-08-19 北京航空航天大学 地基增强系统的完好性评估方法
CN105119734A (zh) * 2015-07-15 2015-12-02 中国人民解放军防空兵学院 基于健壮多元概率校准模型的全网络异常检测定位方法
CN105071983A (zh) * 2015-07-16 2015-11-18 清华大学 一种面向云计算在线业务的异常负载检测方法
CN106571039A (zh) * 2016-08-22 2017-04-19 中海网络科技股份有限公司 一种高速公路违章行为自动抓拍系统
CN106909793A (zh) * 2017-03-03 2017-06-30 北京北青厚泽数据科技有限公司 检验服从近似正态分布的时间序列的异常的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
无线传感器网络中基于模式频繁度的异常检测方法;施晓斌等;《信息技术与网络安全》;20180110(第1期);70-75 *
面向移动用户的乘客需求预测系统;周春姐等;《计算机研究与发展》;20151015;143-148 *

Also Published As

Publication number Publication date
CN108733812A (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
CN110895526A (zh) 一种大气监测系统中数据异常的修正方法
CN112348237B (zh) 一种动态钻井数据异常趋势检测方法
CN116304898B (zh) 基于机器学习的传感器数据智能存储系统
CN116881745B (zh) 基于大数据的压力变送器异常监测方法
CN116992393B (zh) 一种基于工业物联网的安全生产监测方法
CN110287827B (zh) 一种基于数据关联性的桥梁应变数据异常值识别方法
CN113670616B (zh) 一种轴承性能退化状态检测方法及系统
CN113342610B (zh) 一种时序数据异常检测方法、装置、电子设备及存储介质
CN117238058A (zh) 基于数据分析的汽车用起动机监测方法
CN115265723B (zh) 基于数据处理的涡街流量计异常监测方法及系统
CN105389648A (zh) 一种常减压装置稳态工况的判别方法
CN115062272A (zh) 一种水质监测数据异常识别及预警方法
CN111353131B (zh) 一种码载偏离度阈值计算的方法
CN108733812B (zh) 基于全局信息的时间序列数据中异常数据点的识别方法
CN117216484B (zh) 基于多维数据分析的环境数据监测方法
CN113436190B (zh) 一种基于车道线曲线系数的车道线质量计算方法、装置及汽车
CN116304963B (zh) 一种适用于地质灾害预警的数据处理系统
CN116718218B (zh) 一种光电集成式传感芯片测试数据处理方法
CN111121946B (zh) 大动态范围大离散单区域多点精准确定异常值的方法
CN106814608B (zh) 基于后验概率分布的预测控制自适应滤波算法
CN114330553B (zh) 基于监督学习的数字采集系统校准方法
CN106778515B (zh) 一种法兰轴向漏磁阵列信号自动识别方法
CN113836813B (zh) 一种基于数据分析的高炉风口漏水检测方法
CN107104744B (zh) 一种认知无线网络中的频谱感知方法及装置
CN117433591B (zh) 基于多传感器数据的自动化设备监测系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant