CN102867052A - 一种基于特征点符号聚集近似的时间序列异常挖掘方法 - Google Patents

一种基于特征点符号聚集近似的时间序列异常挖掘方法 Download PDF

Info

Publication number
CN102867052A
CN102867052A CN2012103377405A CN201210337740A CN102867052A CN 102867052 A CN102867052 A CN 102867052A CN 2012103377405 A CN2012103377405 A CN 2012103377405A CN 201210337740 A CN201210337740 A CN 201210337740A CN 102867052 A CN102867052 A CN 102867052A
Authority
CN
China
Prior art keywords
symbol
distance
time series
unique point
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103377405A
Other languages
English (en)
Other versions
CN102867052B (zh
Inventor
朱跃龙
刘千
张鹏程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201210337740.5A priority Critical patent/CN102867052B/zh
Publication of CN102867052A publication Critical patent/CN102867052A/zh
Application granted granted Critical
Publication of CN102867052B publication Critical patent/CN102867052B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于特征点符号聚集近似的时间序列异常挖掘方法,用特征点符号聚集近似方法表征时间序列,并在此基础上对符号串进行距离度量,得出异常数据。该方法包括时间序列降维技术,选取符合条件的极值点和分段平均值作为特征点表征序列;符号化方法,利用符号化聚集近似的思想,将特征点序列转化为符号串;符号串间距离度量方法,定义了一个基于符号距离的动态时间弯曲距离用于度量两个符号串之间的距离,挖掘出异常数据。本发明突出了符号化方法简便快速、高度概括的特点,为后续的进一步挖掘节省了大量计算时间,提高了效率。

Description

一种基于特征点符号聚集近似的时间序列异常挖掘方法
技术领域
本发明涉及一种时间序列异常挖掘的技术,具体是一种基于特征点符号聚集近似的时间序列异常挖掘方法,使用时间序列的符号化方法以及在此基础上对于时间序列距离的度量。
背景技术
时间序列是一个由随时间变化的序列值或事件数据组成的集合,反映了属性值在时间顺序上的特征,这些记录集合往往采用等时间间隔进行度量,他们具有数据量大、维数高、更新速度快等特点,在医疗、气象、经济等领域普遍存在。在时间序列数据挖掘中,大部分挖掘任务是为了发现那些频繁出现的模式,期望发现某种规律,异常数据通常被作为噪声而忽略。但在一些领域中,尽管异常数据与正常数据相比并不是经常发生,但其发生的背后可能隐藏着一些重要的信息,异常数据的发现往往能带给人们更有价值和启发意义的知识。
目前,时间序列异常挖掘的主要方法主要存在以下的不足:
基于距离的方法所需对时间复杂度较大,效率不能保证;
生物学方法在正常数据越来越多样化的情况下,可能导致挖掘失败;
基于频率的方法需要给出一组标准的参考值;
支持向量机技术不仅理论复杂,而且对于建模过程要求也十分苛刻;
基于TSA-tree的方法无法保证挖掘结果的全面性和正确性。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于特征点符号聚集近似的时间序列异常挖掘方法,在保证挖掘结果全面正确的前提下,克服基于距离的时间序列异常挖掘方法计算量大、时间复杂度高的劣势,将复杂的时间序列分析问题尽可能地简单化。
技术方案:一种基于特征点符号聚集近似的时间序列异常挖掘方法,包括特征点符号聚集近似方法和符号串间距离的度量方法;
所述特征点符号聚集近似方法为:
a)时间序列降维,通过提取时间序列的特征点来表征该序列,所述特征点由三部分构成,即序列的起点和终点、极值特征点以及均值特征点。其中,选取保持时间段与时间序列长度之比大于等于阈值L的极值点,以及包含N个极值点的分段子序列平均值作为该序列的特征点,达到降维的目的。L的取值根据原始时间序列的长度、不同领域知识以及关注角度而定,一般情况下为0.01~0.1;N的取值最小为1,最大为该序列的所有极值特征点个数。
b)符号化:采用符号化聚集近似(Symbolic Aggregate Approximation,SAX)方法划分若干个个等概率空间,通过对时间序列的标准化使其满足标准正态分布,然后按照上述a)中的时间序列降维方法选取合适的特征点,逐一将特征点映射到对应的一个概率区间,处于同一概率区间的序列值用相同的符号表示,最后得到一个长度与特征点个数相同的符号串。
所述符号串间距离的度量方法为:根据动态时间弯曲(Dynamic TimeWarping,DTW)方法,采用字符间距离代替原来的欧式距离,得出两个符号串之间的距离,进而得到任意一个符号串与其余符号串之间的距离之和,称其为累积距离,从而根据该累积距离值的大小挖掘出异常数据。
有益效果:与现有的技术相比,本发明所提供的基于特征点符号聚集近似的时间序列异常挖掘方法,突出了符号化简便快速地表征时间序列的特点,将复杂的时间序列转化为抽象化的字符串,继而为后续的进一步挖掘节省了大量计算时间,挖掘结果不仅具有典型的代表意义,而且全部符合实际,类型多样。
附图说明
图1为本发明实施例的整体框架图;
图2为本发明实施例的降维方法流程图;
图3为本发明实施例的符号化方法流程图;
图4为本发明实施例的的距离度量方法流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本实施例提供的时间序列异常挖掘方法包含了三个主要模块:降维技术、符号化方法和距离度量方法,其中降维技术和符号化方法两部分组成了特征点符号聚集近似的主要内容。
如图2所示,待提取的特征点由以下三个部分组成:序列的起点和终点、符合保持极值时间段的极值特征点以及包含确定数目极值点的序列分段均值特征点。
符合提取条件的极值特征点需满足下面两个条件:
A)此点必须是该序列的极值点;
B)此点保持极值的时间段(此点前后相邻两个极值点之间的距离)与该序列长度的比值必须大于或等于阈值L。L的取值根据原始时间序列的长度、不同领域知识以及关注角度而定,一般情况下为0.01~0.1。
极值特征点不仅需要记录值的大小,还应保存其在序列中所对应的序号,将其视为该特征点的坐标。
均值特征点则是保证每段子序列包含N个极值特征点,然后照此原则划分原始序列,算出每段子序列的平均值,并将此段子序列起点和终点之和的一半作为此均值特征点的坐标。N的取值最小可为1,表示此段子序列只包含1个极值特征点,最大可为该序列的所有极值特征点个数,此时该序列的均值特征点只有一个,为该序列所有点的平均值。
降维方法步骤如下:
步骤101,输入待挖掘的原始时间序列;
步骤102,将原始序列的起点保存为特征点,并设置一个指向第二个点的游标;
步骤103,循环开始,判断游标指向的点是否为该时间序列的极值点;
步骤104,若不是极值点,则游标指向下一个点;
步骤105,若是极值点,则保存,游标指向下一个点;
步骤106,如此循环,直至游标指向序列终点;
步骤107,保存该序列终点为特征点;
步骤108,开始剩余寻找特征点,将游标置于极值点数组的第二个点;
步骤109,开始循环,判断游标指向的点前后两个极值点之差与序列长度之比是否大于等于L;
步骤110,若不满足,游标指向下一个点;
步骤111,若满足,则保存为特征点,游标指向下一个点;
步骤112,如此循环,直至游标指向数组最后一个点;
步骤113,根据N的大小,划分原始序列,算出分段平均值及其坐标;
步骤114,按照坐标大小将所有特征点非递减排序;
如图3所示,符号化方法的步骤如下:
步骤201,输入待挖掘的原始时间序列;
步骤202,由于本发明中所采用的符号化方法依托符号化聚集近似(SAX)的思想,因此在进行符号化之前,需要对原始时间序列进行标准化,使其满足标准正态分布。采用零-均值方法,对于原始序列C,将其标准化为序列
Figure BDA00002132448100041
其中u和v分别为该序列的平均值和标准差:
Figure BDA00002132448100042
步骤203,按照图2所示流程对序列进行降维;
步骤204,确定选取的符号总数a;
步骤205,将已提取特征值的特征点序列划分到a个等概率空间,根据特征点序列的值,把处于同一概率区间的值用同一个符号表示。如符号总数a=5时,即采用A、B、C、D、E共5个符号表示序列。这样,一个特征点序列就可以转换为一个符号串。
等概率区间的划分见表1,β1,β2,...,β9为分位点。相应数值根据标准正态分布表计算得出,例a=3时,每个空间的概率应为1/3,查找标准正态分布表,Φ(0.43)=0.6664,Φ(-0.43)=1-0.6664=0.3336,即得出分位点的数值。
表1符号总数a=3,4,......10时等概率区间的划分
Figure BDA00002132448100043
Figure BDA00002132448100051
步骤206,得到符号串。
如图4所示,距离度量方法的步骤如下:
步骤301,输入两个待计算距离的符号串;
步骤302,定义两个符号之间距离,通过一个矩阵来描述对应的各个符号间的距离,具体的计算方法如下,其中i,j分别表示行、列数,βn可参照表1:
dis [ i ] [ j ] = 0 , if | i - j | ≤ 1 β max ( i , j ) - 1 - β min ( i , j ) , otherwise - - - ( 2 )
符号总数a=5时,即采用A、B、C、D、E共5个符号表示序列,各符号间的距离见表2。例计算符号A和D之间的距离,dis[1][4]=β31=0.25-(-0.84)=1.09。
表2符号总数a=5时各符号之间的距离
  A   B   C   D   E
  A   0   0   0.59   1.09   1.68
  B   0   0   0   0.5   1.09
  C   0.59   0   0   0   0.59
  D   1.09   0.5   0   0   0
  E   1.68   1.09   0.59   0   0
步骤303,对于两个长度分别为m、n的符号串S、T之间距离,构造S和T之间的m*n关系矩阵D;
步骤304,关系矩阵D坐标(i,j)对应的矩阵元素Dij表示序列对应符号si,tj之间的距离,其中i≤m,j≤n:
Dij=d(si,tj)=dis(si,tj)                  (3)
dis(si,tj)引用公式2得出。
步骤305,符号串S、T之间的动态弯曲距离如下:
dDTW(1,1)=d(s1,t1)=dis(s1,t1)
dDTW(i,j)=d(si,tj)+min{dDTW(i-1,j),dDTW(i,j-1),dDTW(i,j)}     (4)
式中dDTW(i,j)为累加距离,由对准点和其下方位最佳弯曲路径中最小值相加得到。
步骤306,弯曲路径终点的值就是这两个符号串之间的动态弯曲距离。
通过上述方法可以得到任意一个时间序列与其他序列之间的距离之和,称为累积距离,根据该距离的大小递减排序,那些排在前面的序列被认为是与其他序列的相似程度较低,可视为存在异常情况。

Claims (3)

1.一种基于特征点符号聚集近似的时间序列异常挖掘方法,其特征在于:包括特征点符号聚集近似方法和符号串间距离的度量方法;
所述特征点符号聚集近似方法为:通过提取时间序列的特征点来表征所述时间序列,依据符号聚集近似方法,将时间序列划分到若干个等概率空间,得到一个可以表示时间序列的符号串;
所述符号串间距离的度量方法为:根据动态时间弯曲方法,定义两个符号串之间的动态弯曲距离,从而得到符号串之间的距离。
2.如权利要求1所述的基于特征点符号聚集近似的时间序列异常挖掘方法,其特征在于:特征点符号聚集近似方法包括降维和符号化;
所述降维为:选取保持时间段与时间序列长度之比大于等于阈值L的极值点,以及包含N个极值点的分段子序列平均值作为该序列的特征点,达到降维的目的;其中,L的取值根据原始时间序列的长度、不同领域知识以及关注角度而定,一般情况下为0.01~0.1;N的取值最小为1,最大为该序列的所有极值特征点个数;
所述符号化:采用符号化聚集近似方法划分若干个等概率空间,根据特征点的大小映射到不同的概率区间,处于同一概率区间的序列值用相同的符号表示,最后得到一个长度与特征点个数相同的符号串。
3.如权利要求1所述的基于特征点符号聚集近似的时间序列异常挖掘方法,其特征在于:符号串间距离的度量方法包括,定义符号之间的距离代替动态时间弯曲中的欧氏距离,以欧氏距离为基础得到两个符号串之间的距离,进而得到任意一个符号串与其余符号串之间的距离之和,称其为累积距离。
CN201210337740.5A 2012-09-13 2012-09-13 一种基于特征点符号聚集近似的时间序列异常挖掘方法 Expired - Fee Related CN102867052B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210337740.5A CN102867052B (zh) 2012-09-13 2012-09-13 一种基于特征点符号聚集近似的时间序列异常挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210337740.5A CN102867052B (zh) 2012-09-13 2012-09-13 一种基于特征点符号聚集近似的时间序列异常挖掘方法

Publications (2)

Publication Number Publication Date
CN102867052A true CN102867052A (zh) 2013-01-09
CN102867052B CN102867052B (zh) 2015-07-29

Family

ID=47445921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210337740.5A Expired - Fee Related CN102867052B (zh) 2012-09-13 2012-09-13 一种基于特征点符号聚集近似的时间序列异常挖掘方法

Country Status (1)

Country Link
CN (1) CN102867052B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182411A (zh) * 2013-05-24 2014-12-03 日电(中国)有限公司 基于Map-Reduce的高维数据相似性连接方法和装置
CN104714953A (zh) * 2013-12-12 2015-06-17 日本电气株式会社 时序数据的模体识别方法和装置
CN106778839A (zh) * 2016-11-30 2017-05-31 哈尔滨工业大学 基于局部极值优化提取的卫星遥测数据时间序列表示方法
CN108205686A (zh) * 2017-12-06 2018-06-26 中国电子科技集团公司电子科学研究院 视频情感分类方法及装置
CN111400424A (zh) * 2020-03-17 2020-07-10 北京明略软件系统有限公司 基于gis的人员异常聚集自动识别方法及装置
CN111835738A (zh) * 2020-06-30 2020-10-27 山东大学 一种基于时间序列挖掘的网络异常流量自动检测方法
CN116975545A (zh) * 2023-07-31 2023-10-31 长沙穗城轨道交通有限公司 一种站台门异常检测方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
EAMONN J. KEOGH EL AT.: "《Derivative Dynamic Time Warping》", 《SIAM:SOCIETY FOR INDUSTRIAL AND APPLIED MATHEMATICS》 *
JESSICA LIN EL AT.: "《A Symbolic Representation of Time Series, with Implications for Streaming Algorithms》", 《DMKD03: 8TH ACM SIGMOD WORKSHOP ON RESEARCH ISSUES IN DATA MINING AND KNOWLEDGE DISCOVERY》 *
李俊奎: "《时间序列相似性问题研究》", 《CNKI中国博士学位论文全文数据库(电子期刊)信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182411A (zh) * 2013-05-24 2014-12-03 日电(中国)有限公司 基于Map-Reduce的高维数据相似性连接方法和装置
CN104714953A (zh) * 2013-12-12 2015-06-17 日本电气株式会社 时序数据的模体识别方法和装置
CN106778839A (zh) * 2016-11-30 2017-05-31 哈尔滨工业大学 基于局部极值优化提取的卫星遥测数据时间序列表示方法
CN106778839B (zh) * 2016-11-30 2021-02-26 哈尔滨工业大学 基于局部极值优化提取的卫星遥测数据时间序列表示方法
CN108205686A (zh) * 2017-12-06 2018-06-26 中国电子科技集团公司电子科学研究院 视频情感分类方法及装置
CN111400424A (zh) * 2020-03-17 2020-07-10 北京明略软件系统有限公司 基于gis的人员异常聚集自动识别方法及装置
CN111400424B (zh) * 2020-03-17 2023-05-05 北京明略软件系统有限公司 基于gis的人员异常聚集自动识别方法及装置
CN111835738A (zh) * 2020-06-30 2020-10-27 山东大学 一种基于时间序列挖掘的网络异常流量自动检测方法
CN111835738B (zh) * 2020-06-30 2021-09-24 山东大学 一种基于时间序列挖掘的网络异常流量自动检测方法
CN116975545A (zh) * 2023-07-31 2023-10-31 长沙穗城轨道交通有限公司 一种站台门异常检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN102867052B (zh) 2015-07-29

Similar Documents

Publication Publication Date Title
CN102867052A (zh) 一种基于特征点符号聚集近似的时间序列异常挖掘方法
Tesler GRIMM: genome rearrangements web server
CN103761236A (zh) 一种增量式频繁模式增长数据挖掘方法
CN103279643B (zh) 一种时间序列相似度的计算方法
EP2963575B1 (en) Data analysis device and method therefor
KR102345498B1 (ko) 라인 분할 방법
CN105512727A (zh) 一种基于Markov的个人路径预测方法
CN113032403B (zh) 数据洞察方法、装置、电子设备及存储介质
CN103077228B (zh) 一种基于集合特征向量的快速聚类方法和装置
US20150355215A1 (en) Approach to assess available wind resource distribution based on interpolation method
CN110532297A (zh) 一种基于层次聚类的符号化水文时间序列异常模式检测方法
CN102244520A (zh) 一种卷积码编码参数的盲识别方法
CN115796378A (zh) 一种基于分段线性近似的用户负荷曲线相似性度量方法
CN102968610B (zh) 收据图像处理方法和设备
CN110134839B (zh) 时序数据特征处理方法、装置及计算机可读存储介质
CN103473268A (zh) 线性要素空间索引构建方法、系统和检索方法及其系统
CN102201882A (zh) 一种线性分组码编码参数的盲识别方法
CN103984723A (zh) 一种针对增量数据对频繁项进行更新数据挖掘方法
CN111460293A (zh) 信息推送方法、装置及计算机可读存储介质
CN106339293A (zh) 一种基于签名的日志事件提取方法
CN108021985A (zh) 一种模型参数训练方法及装置
CN102737254A (zh) 一种标志图像的识别方法
CN105447477A (zh) 基于公式库的公式识别方法及装置
CN104317861A (zh) 一种基于互信息的区间数据的属性选择方法
CN112559929B (zh) 提取网页页面目标信息的方法、电子设备和介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150729

Termination date: 20210913

CF01 Termination of patent right due to non-payment of annual fee