CN107844731A - 基于概率后缀树的长时间序列δ‑异常点检测方法 - Google Patents

基于概率后缀树的长时间序列δ‑异常点检测方法 Download PDF

Info

Publication number
CN107844731A
CN107844731A CN201610826095.1A CN201610826095A CN107844731A CN 107844731 A CN107844731 A CN 107844731A CN 201610826095 A CN201610826095 A CN 201610826095A CN 107844731 A CN107844731 A CN 107844731A
Authority
CN
China
Prior art keywords
string
node
tree
symbol
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610826095.1A
Other languages
English (en)
Inventor
杨卫东
丁希颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201610826095.1A priority Critical patent/CN107844731A/zh
Publication of CN107844731A publication Critical patent/CN107844731A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于时间序列数据的异常检测领域,涉及基于概率后缀树的长符号串异常点检测方法,该方法利用连续型数据的离散化技术和概率后缀树模型,检测长时间序列异常数据点,其包括,将原始连续的长时间序列数据离散化,得到长符号串,根据符号化的训练数据集,构建概率后缀树,利用已构建好的PST,检测待检测数据集中的δ‑异常点和利用F1‑Measure对检测效果进行评价。本发明经实验结果表明,能够有效地支持各钟类型长时间序列,召回率、准确率、精确率都较高,检测效果好,可应用于航空航天、医疗数据分析、金融数据分析、网络异常行为检测等各个领域。

Description

基于概率后缀树的长时间序列δ-异常点检测方法
技术领域
本发明属于时间序列异常检测技术领域,涉及利用符号化方法离散处理原始时间序列的技术,具体涉及基于概率后缀树的长符号串异常点检测方法。
背景技术
现有技术公开了时间序列数据是一种在日常应用中经常出现的数据形式,其在航空航天、医疗数据分析、金融数据分析、网络异常行为检测、天气预测等各个领域都有着广泛的应用。在这些应用领域中,挖掘序列中的频繁模式可能无法揭示数据行为中隐藏的异常信息,但这些异常信息通常能反映一定的问题,例如,用户日常操作信息中的异常数据可能意味着该账户密码泄露或是账户被盗用。医疗健康数据中的异常信息可能代表某种疾病正在蔓延。如果不能挖掘出这些信息中的异常,也就不能及时做出合理的决策来避免不必要的损失。因此,找出那些偏离常规模式的异常模式往往能揭示出数据中隐含的信息,从而解决很多实际应用问题。
资料显示对时间序列数据进行离散化处理后可以方便地使用很多现有的模型、算法、数据结构,如马尔可夫模型,有限自动状态机,后缀树等。
在时间序列的异常检测中,马尔可夫链模型被广泛使用,它基于前一个状态决定后一个状态的思想。对于一个长序列,给定一个频繁出现的前缀状态,其后缀状态的发生频率过低,那么这个后缀状态就认为是异常。但马尔可夫链最大的缺点是前缀状态的长度是固定的。
概率后缀树(PST)可以被看作是一种可变长前缀的马尔可夫链更简洁的表示,它扩充了原有的后缀树模型,以每个结点对应符号串的概率分布作为主要特征。在用马尔可夫模型计算条件概率时,前缀长度是定长的,而概率后缀树的前缀长度是可变的。
E.Keogh首次提出将后缀树模型用于异常模式检测,并明确定义了异常模式和树结点的概率[13]。P.Sun又对原有的PST模型进行了扩充,改进了结点的结构,然后通过相似性对比来找出异常序列。然而,这些算法都是在时间序列数据库中找寻异常的时间序列,鲜有检测异常数据点的算法。在长时间序列或流式数据中,异常检测主要是面向数据点。
为了解决现有技术存在的这个问题,针对长时间序列数据,本申请的发明人拟提出一种新的基于概率后缀树的δ-异常点检测方法,以有效地支持各钟类型长时间序列,且具有召回率、准确率、精确率都较高,检测效果好的优点。
与本发明相关的现有技术有:
[1]Sakurai Y,Matsubara Y,Faloutsos C.Mining and Forecasting of BigTime-series Data[C],Proceedings of the 2015 ACM SIGMOD InternationalConference on Management of Data.ACM,2015:919-922.
[2]Keogh E,Chu S,Hart D,and Pazzani M.An online algorithm forsegmenting time series.In ICDM,pages 289–296,2001.
[3]Matsubara Y,Sakurai Y,Panhuis W,and Faloutsos C.FUNNEL:automaticmining of spatially coevolving epidemics.In KDD,pages 105–114,2014.
[4]Zhu Y and Shasha D.Statstream:Statistical monitoring of thousandsof data streams in real time.In VLDB,pages 358–369,2002.
[5]Lazarevic A,Kumar V,Ozgur A,and Srivastava J,A Comparative Studyof Anomaly Detection Schemes in Network Intrusion Detection,Proceedings ofSIAM International Conference on Data Mining(2003).
[6]Shen J,Yang M,Zou B,et al.Outlier detection of air temperatureseries data using probabilistic finite state automata‐based algorithm[J].Complexity,2012,17(5):48-57.
[7]Aggarwal C.Outlier Analysis.Springer New York,2013.
[8]Chandola V,Banerjee A,and Kumar V.Anomaly detection:A survey.ACMComput.Surv.,41(3):15:1–15:58,July 2009.
[9]Michael C,Ghosh A.Two state-based approaches to program-basedanomaly detection[C].Computer Security Applications,2000.ACSAC'00.16th AnnualConference.IEEE,2000:21-30.
[10]Chandola V,Banerjee A,Kumar V.Outlier detection:A survey[J].ACMComputing Surveys,2007.
[11]Laptev N,Amizadeh S,Flint I.Generic and Scalable Framework forAutomated Time-series Anomaly Detection[C].Proceedings of the 21th ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining.ACM,2015:1939-1947.
[12]Pei S,Sanjay C,Bavani A.Mining for Outliers in SequentialDatabases.Proceedings of the 2006 SIAM International Conference on DataMining.
[13]Keogh E,Lonardi S,Chiu B Y.Finding surprising patterns in a timeseries database in linear time and space[C].Proceedings ofthe eighth ACMSIGKDD international conference on Knowledge discovery and data mining.ACM,2002:550-556.
[14]Lin J,Keogh E,Lonardi S,et al.Visually mining and monitoringmassive time series[C].Proceedings of the tenth ACM SIGKDD internationalconference on Knowledge discovery and data mining.ACM,2004:460-469.
[15]Lin J,Keogh E,Wei L,et al.Experiencing SAX:a novel symbolicrepresentation of time series[J].Data Mining and knowledge discovery,2007,15(2):107-144
[16]Keogh E,Lin J,Fu A.Hot sax:Efficiently finding the most unusualtime series subsequence[C].Data mining,fifth IEEE international conferenceon.IEEE,2005:8pp.
[17]http://www.cs.ucr.edu/~eamonn/time_series_data/
[18]Lin J,Keogh E,Lonardi S,et al.Visually mining and monitoringmassive time series[C].Proceedings of the tenth ACM SIGKDD internationalconference on Knowledge discovery and data mining.ACM,2004:460-469.
[19]http://www.cs.ucr.edu/~eamonn/discords/
[20]Ye N.A markov chain model of temporal behavior for anomalydetection[C].Proceedings of the 2000 IEEE Systems,Man,and CyberneticsInformation Assurance and Security Workshop.West Point,NY,2000,166:169.。
发明内容
本发明的目的在于解决现有技术存在的问题,针对长时间序列数据,提出一种新的基于概率后缀树的δ-异常点检测方法,以有效地支持各钟类型长时间序列,且具有召回率、准确率、精确率都较高,检测效果好的优点。
本发明提出一种利用连续型数据的离散化技术和概率后缀树模型,针对长时间序列异常数据点的检测方法,首先,对时间序列数据进行符号化处理,将时间序列数据转换为长符号串,然后,构建PST进行检测,其中,训练阶段,对训练数据集的符号化序列构建概率后缀树;检测阶段,利用已经构造好的PST,每次在待检测序列中选取长度为m的频繁出现子符号串,遍历PST,找到相应的结点,比较其后缀符号的概率与给定阈值δ-的大小关系,判定该符号是否异常,并定位异常符号在原始时间序列中的位置。
更具体的,本发明提出了基于概率后缀树长时间序列δ-异常点的检测方法,其是结合SAX[5]离散化技术和概率后缀树模型的方法,其中明确定义了概率后缀树的结构和δ异常点,可以记为δ-DDPST算法;本方法包括如下步骤:
(1)将原始连续的长时间序列数据离散化,得到长符号串;
(2)根据符号化的训练数据集,构建概率后缀树;
(3)利用已构建好的PST,检测待检测数据集中的δ-异常点;
(4)利用F1-Measure对检测效果进行评价。
本发明中,进行时间序列的离散化处理,
本发明借鉴SAX中提出的符号化表示方法,一方面,可以将原始的时间序列数据离散化,并保持大体趋势不变;另一方面,时间序列数据经过离散化处理转换为符号串后可以表示为PST,更加简洁,而且可以更加高效地计算不同符号串的后缀符号的概率,
所述的SAX的主要思想是可以将一段长度为n的时间序列划分为由n个长为1的子序列,然后再将其用符号化表示,其步骤具体如下:
(1)将数据转化成PAA段而并不降维
一个长度为n的时间序列C可以被表示为一个n维的向量空间,用来表示这个向量空间,其中表示向量的第i个元素,每一个也称为一个PAA段,整个向量空间正是由若干个等长的PAA段(如图1所示)构成的,每个PAA段与原始数据点一一对应;
(2)数据离散化处理
将一个时间序列数据用PAA段表示后,可以进行数据的离散化处理,经研究证实对于大量长时间的时间序列数据,高斯分布的假设是确实被证明的,对于过小的数据集,这种方法也只是会轻微的劣化有效性,并不会影响算法的正确性;
给出一个拥有高斯分布的标准化时间序列,可以非常简单地定义“断点”
定义1.断点:断点是一系列的数字β=β1,…,βa-1的集合,其中在N(0,1)的高斯分布中,βi到βi+1的面积都是1/a(β0到βa被定义为-∞和+∞);
这些断点会有一个已知独特的统计表来表示;
(3)PAA段的符号化
一旦断点已经被获取了,则可以对时间序列进行离散化,采用下述离散化的方法,首先,根据PAA段的覆盖范围和波动趋势人工给定符号表的大小,然后,给每一个PAA段分配符号,系数低于最小断点值的PAA段分配符号a,大于等于最小断点值并且小于下一个断点值的PAA段分配符号b,依此类推,给每一个PAA段都分配一个符号,最终形成符号化的序列数据,将原始时间序列数据表示为符号串的形式(如图2所示);
2.概率后缀树
如表1所示的基本概念及其定义,,
表1.
名称 描述
Σ 符号表
D 原始时间序列数据
S 符号化后的时间序列数据
MinCount 符号串的最小出现次数,用于判断符号串是否为频繁子串
L PST除根结点的最大深度
符号化序列中的每一个符号均取自于符号表,如:给定符号表∑={a,b,c},离散化操作后,得到一个由a,b,c构成的符号串S,如:abcbacbbbbcccaaaaa;
定义2.给定符号表Σ上的符号序列S,其对应的概率后缀树PST=<V,E>是一棵|Σ|叉树,其中V是树结点的集合,E是树边的集合:
·每条边e∈E都对应于一个符号e.label∈∑;
·每个结点v∈V都对应一个S中的符号串v.string=en…e1e0,它表示从根结点到结点v的路径上依次经过的边为e0→e1→…→en。不难看出,根节点vr对应于空串,即vr.string=Φ;
·每个结点v∈V所对应的符号串v.string在长符号串S中的出现次数标记为v.count;
·对于给定的每条边e=<vp,vc>∈E,其中vp是vc的父结点,有 成立;
·每个结点v∈V都对应有一个向量v.nextSymbol[s](s∈∑),它统计S中的符号串v.string出现后的下一个符号是s的次数;
·每个结点v∈V都对应有一个概率向量v.branchingProbability。对于每个符号s∈∑,v.branchingProbability[s]表示S中的符号串v.string出现后的下一个符号是s的概率,则:
图5给出了一个PST的例子,符号表为Σ={a,b,c},一个PST结点最多有3个孩子结点,设从根结点vr经过边e0(e0.label=b)到达结点v1,由图可知,v1.string=b,v1.count=5520,从v1经过边e1(e1.label=a),到达结点v2,v2.string=ab,v2.count=1650,v1.string在S中的下一个符号为a,b,c的分支概率分别为:v1.branchingProbability[a]=29.89%,v1.branchingProbability[b]=65.22%,v1.branchingProbability[c]=4.89%;
3.本发明中定义了异常检测,
定义3.给定阈值θ,对于S中的时间点t,存在某个子符号串smsm+1…st(m≤t),如果PST中相应结点v的v.string=smsm+1…st且v.count≥θ,那么称子符号串smsm+1…st为S的一个频繁子串;
定义4.对于S中的时间点t,如果存在某个频繁子串smsm+1…st-1(m≤t-1)对应的PST结点v满足v.branchingProbability[st](st∈∑)<δ,则称t是S中的一个δ-异常点;
本发明中,时间序列的异常检测可以分为两类:
a)在时间序列数据库中找出异常的序列;
b)在单个时间序列数据中找出异常的数据点。
4.本发明中进行了检测效果分析,
定义5.F1-Measure:在异常检测阶段,用F1-Measure作为检测效果的评价标准,其计算公式为:
其中
·P表示精确率,即正确检测出的异常点占所检测出的全部异常点的比例:
·R表示召回率,即正确检测出的异常点占实际异常点的比例:
本发明提出一种新的利用离散化技术获得符号化数据,并用概率后缀对其建模检测长时间序列中异常点方法,该方法可应用于航空航天器材运行数据的异常分析、金融数据的异常检测等领域,具有下述独特的特性优点:
1、将原本连续的长时间序列数据转化为离散数据类型,用离散模型处理连续型数据的挖掘问题。
2、针对长时间序列的异常点检测问题,提出了有效的检测方法。
3、明确定义了长时间序列中异常点的类型,回答了有关异常数据点的问题。
4、扩充了概率后缀树模型,并给出了树结构的明确定义。
为了便于理解,以下将通过具体的附图和实施例对本发明进行详细地描述。需要特别指出的是,具体实例和附图仅是为了说明,显然本领域的普通技术人员可以根据本文说明,在本发明的范围内对本发明做出各种各样的修正和改变,这些修正和改变也纳入本发明的范围内。另外,本发明引用了公开文献,这些文献是为了更清楚地描述本发明,它们的全文内容均纳入本文进行参考,就好像它们的全文已经在本文中重复叙述过一样。
附图说明
图1.原始时间序列转化为PAA段。
图2.PAA段的符号化过程。
图3为原始的训练数据集。
图4为原始检测数据集。
图5为检测数据集的PAA段表示。
图6为检测数据集的符号化表示。
图7为概率后缀树。
图8为δ取值与F1-Measure的关系。
图9为树深与运行时间的关系。
图10为树深与F1-Measure的关系。
图11为符号表大小与F1-Measure的关系。
图12为MinCount与F1-Measure的关系。
具体实施方式
实施例1
系统实现所用的编程环境是MyEclipse,Java虚拟机的版本是1.8。在具体实施时,该方法按下述步骤完成,
(1)离散化长时间序列采用SAX方法;
(2)构建概率后缀树的算法如表2所示;
表2.PST构建算法
构建过程分为两部分:首先,构建起整个树的结构,给每个树结点赋予相应的符号串;然后,遍历一遍符号化的训练数据集S,统计每个树结点对应的v.count和v.nextSymbol[s](s∈∑)并计算v.branchingProbability[s](s∈∑);
本实施例采用逐层构建的方法为每个PST结点的v.string赋值。PST的根结点属于第零层,第一层的结点数取决于符号表的大小|Σ|,即第一层包含|Σ|个结点,每个结点的v.string,例如,树深为L=5,符号表为∑={a,b,c},那么根结点的三个孩子结点分别为v1.string=a,v2.string=b和v3.string=c,然后为每个第一层结点构建其孩子结点,例如,对结点v1,它的三个孩子结点分别为v11.string=aa,v12.string=ba和v13.string=ca,依此类推,直到构建完成第L层的树结点;
搭建起树的框架后,遍历S。对S中的每个时间点t,找到子符号串st-m-1…st-1(m的取值依次为1,2,...,L)对应的树结点v,使v.count加1,v.nextSymbol[st]加1,遍历完长符号串S的每个时间点后,计算PST中每个结点的v.branchingProbability[s],至完成PST的构建过程;
(3)δ-异常点的检测算法分为两部分,判断一个子序列是否在PST中和检测异常点,如表3表4所示;
表3.isInPST
本实施例中,在长时间序列中,检测出异常的数据点,对于一个待检测序列,首先将其转换为长符号序列S,S中的每个时间点t都有若干个前缀st-m-1…st-1(m={2,3,...,L}),每次取长度为m的子符号串st-mst-m+1…st,遍历已构建好的PST,找到st-mst-m+1…st的前m-1个符号st-m-1…st-1在PST中对应的结点v(v.string=st-m-1…st-1),并判断st-m-1…st-1是否为频繁子串,如果是频繁子串且v.branchingProbability[st](st∈∑)<δ,则称时间点t为S中的一个δ-异常点,最后根据st的位置定位到原始时间序列D中的异常数据点;
表4.检测δ-异常点
本发明进行了实验检测,系统实现所用的编程环境是MyEclipse,Java虚拟机的版本是1.8。实验的运行环境为Core i5 CPU 3.10MHz,8GB内存,Windows 10 x64操作系统,实验的数据集来自E.Keogh的航天飞机Marotta Valve数据集,这是一个传感器时间序列,并且已经被NASA的工程师标记出了异常点,图1显示了原始训练数据集的一部分,包括4200个数据点,大约是4个周期;图2中是原始的检测数据集,异常的数据点是用黑框圈出来的部分;图3是原始检测数据集转换为PAA段的表示;图4是与图3相对应的符号化表示,∑={a,b,c,d};结果表明,本发明方法的查全率较高,而查准率稍低;图6显示了δ的不同取值对检测效果的影响;显而易见,δ对召回率的影响并不大,PST的大小随树深呈指数型增长,构建一棵PST对系统内存要求很大,本发明可以人为设置树的深度,同时可以设置阈值MinCount来修剪PST;图7给出了建树所需时间与树深的关系,当PST的深度大于3时,检测效果几乎不受到影响,图8显示了树深与F1-Measure的关系,符号表的大小在一定程度上影响了原始序列数据转换成的符号,也就间接影响了马尔可夫链中各符号的前后关系,也就改变了PST的结点值,对检测结果有一定的影响,图9显示了符号表大小与F1-Measure的关系,由图可知,符号表大小为3时,检测效果最佳;MinCount直接决定了PST的结构和待检测序列S中的频繁子串,对于小于这个阈值的子符号串不会被加入到PST中,那么在检测时,遇到相同的子符号串,在PST中找不到相同的结点,就认为它不是一个频繁子串,也就不会检测其后缀符号的分支概率;图10显示了不同取值的MinCount与F1-Measure的关系,MinCount取值大于15时,对于检测效果几乎没有影响。
实验结果表明本发明的基于概率后缀树的δ-异常点检测方法,能有效地支持各钟类型长时间序列,且具有召回率、准确率、精确率都较高,检测效果好。

Claims (5)

1.一种基于概率后缀树长时间序列δ-异常点的检测方法,其特征在于,利用连续型数据的离散化技术和概率后缀树模型,检测长时间序列异常数据点,其包括步骤:
(1)将原始连续的长时间序列数据离散化,得到长符号串;
(2)根据符号化的训练数据集,构建概率后缀树;
(3)利用已构建好的PST,检测待检测数据集中的δ-异常点;
(4)利用F1-Measure对检测效果进行评价。
2.根据权利要求1所述的方法,其特征在于所述的离散化方法中断点的定义如下:
定义1.断点:断点是一系列的数字β=β1,…,βa-1的集合,其中在N(0,1)的高斯分布中,βi到βi+1的面积都是1/a(β0到β0被定义为-∞和+∞)。
3.根据权利要求1所述的方法,其特征在于所述的概率后缀树的定义以及构建概率后缀树的方法如下:
定义2.给定符号表Σ上的符号序列S,其对应的概率后缀树PST=<V,E>是一棵|Σ|叉树,其中V是树结点的集合,E是树边的集合:
·每条边e∈E都对应于一个符号e.label∈∑;
·每个结点v∈V都对应一个S中的符号串v.string=en…e1e0,它表示从根结点到结点v的路径上依次经过的边为e0→e1→…→en。不难看出,根节点vr对应于空串,即vr.string=Φ;
·每个结点v∈V所对应的符号串v.string在长符号串S中的出现次数标记为v.count;
·对于给定的每条边e=<vp,vc>∈E,其中vp是vc的父结点,有 成立;
·每个结点v∈V都对应有一个向量v.nextSymbol[s](s∈∑),它统计S中的符号串v.string出现后的下一个符号是s的次数;
·每个结点v∈V都对应有一个概率向量v.branchingProbability,对于每个符号s∈∑,v.branchingProbability[s]表示S中的符号串v.string出现后的下一个符号是s的概率,则:
<mrow> <mi>v</mi> <mo>.</mo> <mi>b</mi> <mi>r</mi> <mi>a</mi> <mi>n</mi> <mi>c</mi> <mi>h</mi> <mi>i</mi> <mi>n</mi> <mi>g</mi> <mi>Pr</mi> <mi>o</mi> <mi>b</mi> <mi>a</mi> <mi>b</mi> <mi>i</mi> <mi>l</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mrow> <mo>&amp;lsqb;</mo> <mi>s</mi> <mo>&amp;rsqb;</mo> </mrow> <mo>=</mo> <mi>P</mi> <mrow> <mo>(</mo> <mrow> <mi>v</mi> <mo>.</mo> <mi>s</mi> <mi>t</mi> <mi>r</mi> <mi>i</mi> <mi>n</mi> <mi>g</mi> <mo>&amp;RightArrow;</mo> <mi>s</mi> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mi>P</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>e</mi> <mi>n</mi> </msub> <mn>...</mn> <msub> <mi>e</mi> <mn>1</mn> </msub> <msub> <mi>e</mi> <mn>0</mn> </msub> <mo>&amp;CirclePlus;</mo> <mi>s</mi> <mo>|</mo> <msub> <mi>e</mi> <mi>n</mi> </msub> <mn>...</mn> <msub> <mi>e</mi> <mn>1</mn> </msub> <msub> <mi>e</mi> <mn>0</mn> </msub> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>v</mi> <mo>.</mo> <mi>n</mi> <mi>e</mi> <mi>x</mi> <mi>t</mi> <mi>S</mi> <mi>y</mi> <mi>m</mi> <mi>b</mi> <mi>o</mi> <mi>l</mi> <mrow> <mo>&amp;lsqb;</mo> <mi>s</mi> <mo>&amp;rsqb;</mo> </mrow> </mrow> <mrow> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mi>a</mi> </mrow> <mi>&amp;Sigma;</mi> </munderover> <mi>v</mi> <mo>.</mo> <mi>n</mi> <mi>e</mi> <mi>x</mi> <mi>t</mi> <mi>S</mi> <mi>y</mi> <mi>m</mi> <mi>b</mi> <mi>o</mi> <mi>l</mi> <mrow> <mo>&amp;lsqb;</mo> <mi>i</mi> <mo>&amp;rsqb;</mo> </mrow> </mrow> </mfrac> </mrow>
所述的构建算法按表2所示,
构建过程分为两部分:首先,构建起整个树的结构,给每个树结点赋予相应的符号串;然后,遍历一遍符号化的训练数据集S,统计每个树结点对应的v.count和v.nextSymbol[s](s∈∑)并计算v.branchingProbability[s](s∈∑);
采用逐层构建的方法为每个PST结点的v.string赋值,PST的根结点属于第零层,第一层的结点数取决于符号表的大小|Σ|,即第一层包含|Σ|个结点,每个结点的v.string,例如,树深为L=5,符号表为∑={a,b,c}。那么根结点的三个孩子结点分别为v1.string=a,v2.string=b和v3.string=c,然后为每个第一层结点构建其孩子结点,例如,对结点v1,它的三个孩子结点分别为v11.string=aa,v12.string=ba和v13.string=ca,依此类推,直到构建完成第L层的树结点;搭建起树的框架后,遍历S,对S中的每个时间点t,找到子符号串st-m-1…st-1(m的取值依次为1,2,...,L)对应的树结点v,使v.count加1,v.nextSymbol[st]加1,遍历完长符号串S的每个时间点后,计算PST中每个结点的v.branchingProbability[s],完成PST的构建过程。
4.根据权利要求1所述的方法,其特征在于所述的频繁子串和δ-异常点的定义及其检测方法如下:
定义3.给定阈值θ,对于S中的时间点t,存在某个子符号串smsm+1…st(m≤t),如果PST中相应结点v的v.string=smsm+1…st且v.count≥θ,那么称子符号串smsm+1…st为S的一个频繁子串;
定义4.对于S中的时间点t,如果存在某个频繁子串smsm+1…st-1(m≤t-1)对应的PST结点v满足v.branchingProbability[st](st∈∑)<δ,则称t是S中的一个δ-异常点;
所述的检测方法按表3或表4所示:
表3.isInPST
表4.检测δ-异常点
5.根据权利要求1所述的方法,其特征在于所述的F1-Measure的定义如下:
定义5.F1-Measure:在异常检测阶段,用F1-Measure作为检测效果的评价标准,其计算公式为:
<mrow> <msub> <mi>F</mi> <mn>1</mn> </msub> <mo>-</mo> <mi>M</mi> <mi>e</mi> <mi>a</mi> <mi>s</mi> <mi>u</mi> <mi>r</mi> <mi>e</mi> <mo>=</mo> <mfrac> <mrow> <mn>2</mn> <mo>*</mo> <mi>P</mi> <mo>*</mo> <mi>R</mi> </mrow> <mrow> <mi>P</mi> <mo>+</mo> <mi>R</mi> </mrow> </mfrac> </mrow>
其中
·P表示精确率,即正确检测出的异常点占所检测出的全部异常点的比例:
<mrow> <mi>P</mi> <mo>=</mo> <mfrac> <mrow> <mi>t</mi> <mi>r</mi> <mi>u</mi> <mi>e</mi> <mi>P</mi> <mi>o</mi> <mi>s</mi> <mi>i</mi> <mi>t</mi> <mi>i</mi> <mi>v</mi> <mi>e</mi> </mrow> <mrow> <mi>t</mi> <mi>r</mi> <mi>u</mi> <mi>e</mi> <mi>P</mi> <mi>o</mi> <mi>s</mi> <mi>i</mi> <mi>t</mi> <mi>i</mi> <mi>v</mi> <mi>e</mi> <mo>+</mo> <mi>f</mi> <mi>a</mi> <mi>l</mi> <mi>s</mi> <mi>e</mi> <mi>P</mi> <mi>o</mi> <mi>s</mi> <mi>i</mi> <mi>t</mi> <mi>i</mi> <mi>v</mi> <mi>e</mi> </mrow> </mfrac> </mrow>
·R表示召回率,即正确检测出的异常点占实际异常点的比例:
<mrow> <mi>R</mi> <mo>=</mo> <mfrac> <mrow> <mi>t</mi> <mi>r</mi> <mi>u</mi> <mi>e</mi> <mi>P</mi> <mi>o</mi> <mi>s</mi> <mi>i</mi> <mi>t</mi> <mi>i</mi> <mi>v</mi> <mi>e</mi> </mrow> <mrow> <mi>t</mi> <mi>r</mi> <mi>u</mi> <mi>e</mi> <mi>P</mi> <mi>o</mi> <mi>s</mi> <mi>i</mi> <mi>t</mi> <mi>i</mi> <mi>v</mi> <mi>e</mi> <mo>+</mo> <mi>f</mi> <mi>a</mi> <mi>l</mi> <mi>s</mi> <mi>e</mi> <mi>N</mi> <mi>e</mi> <mi>g</mi> <mi>t</mi> <mi>i</mi> <mi>v</mi> <mi>e</mi> </mrow> </mfrac> <mo>.</mo> </mrow>
CN201610826095.1A 2016-09-17 2016-09-17 基于概率后缀树的长时间序列δ‑异常点检测方法 Pending CN107844731A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610826095.1A CN107844731A (zh) 2016-09-17 2016-09-17 基于概率后缀树的长时间序列δ‑异常点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610826095.1A CN107844731A (zh) 2016-09-17 2016-09-17 基于概率后缀树的长时间序列δ‑异常点检测方法

Publications (1)

Publication Number Publication Date
CN107844731A true CN107844731A (zh) 2018-03-27

Family

ID=61656415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610826095.1A Pending CN107844731A (zh) 2016-09-17 2016-09-17 基于概率后缀树的长时间序列δ‑异常点检测方法

Country Status (1)

Country Link
CN (1) CN107844731A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846016A (zh) * 2018-05-05 2018-11-20 复旦大学 一种面向中文分词的搜索算法
CN109542952A (zh) * 2018-11-23 2019-03-29 中国民用航空上海航空器适航审定中心 一种时间序列异常点的检测方法
CN109889538A (zh) * 2019-03-20 2019-06-14 中国工商银行股份有限公司 用户异常行为检测方法及系统
CN113654818A (zh) * 2021-07-21 2021-11-16 广州大学 基于胶囊网络的设备故障检测方法、系统、装置及介质
CN113670608A (zh) * 2021-07-21 2021-11-19 广州大学 基于后缀树和向量机的故障检测方法、系统、装置及介质
CN113670609A (zh) * 2021-07-21 2021-11-19 广州大学 基于灰狼优化算法的故障检测方法、系统、装置及介质
US11587448B2 (en) 2019-07-26 2023-02-21 General Electric Company Systems and methods for manifolds learning of airline network data

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1598817A (zh) * 2003-02-04 2005-03-23 微软公司 计算及通讯应用中构造使用重大事件的模型的系统及方法
CN102799616A (zh) * 2012-06-14 2012-11-28 北京大学 大规模社会网络中的离群点检测方法
CN103338467A (zh) * 2013-07-10 2013-10-02 南京邮电大学 无线网络中基于pst的用户行为学习方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1598817A (zh) * 2003-02-04 2005-03-23 微软公司 计算及通讯应用中构造使用重大事件的模型的系统及方法
CN102799616A (zh) * 2012-06-14 2012-11-28 北京大学 大规模社会网络中的离群点检测方法
CN103338467A (zh) * 2013-07-10 2013-10-02 南京邮电大学 无线网络中基于pst的用户行为学习方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHUANJUN JI 等: "Labeling Images by Integrating Sparse Multiple Distance Learning and Semantic Context Modeling", 《ECCV 2012: COMPUTER VISION – ECCV 2012》 *
WEIDONG YANG 等: "Labeling Images by Integrating Sparse Multiple Distance Learning and Semantic Context Modeling", 《ECCV 2012: COMPUTER VISION-ECCV 2012 》 *
杨卫东 等: "基于全局本体的多数据源模式匹配方法的研究", 《小型微型计算机系统》 *
董国宾 等: "基于RFID路径数据的异常路径检测", 《计算机应用研究》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846016A (zh) * 2018-05-05 2018-11-20 复旦大学 一种面向中文分词的搜索算法
CN108846016B (zh) * 2018-05-05 2021-08-20 复旦大学 一种面向中文分词的搜索算法
CN109542952A (zh) * 2018-11-23 2019-03-29 中国民用航空上海航空器适航审定中心 一种时间序列异常点的检测方法
CN109889538A (zh) * 2019-03-20 2019-06-14 中国工商银行股份有限公司 用户异常行为检测方法及系统
CN109889538B (zh) * 2019-03-20 2021-09-21 中国工商银行股份有限公司 用户异常行为检测方法及系统
US11587448B2 (en) 2019-07-26 2023-02-21 General Electric Company Systems and methods for manifolds learning of airline network data
CN113654818A (zh) * 2021-07-21 2021-11-16 广州大学 基于胶囊网络的设备故障检测方法、系统、装置及介质
CN113670608A (zh) * 2021-07-21 2021-11-19 广州大学 基于后缀树和向量机的故障检测方法、系统、装置及介质
CN113670609A (zh) * 2021-07-21 2021-11-19 广州大学 基于灰狼优化算法的故障检测方法、系统、装置及介质
CN113654818B (zh) * 2021-07-21 2022-09-16 广州大学 基于胶囊网络的设备故障检测方法、系统、装置及介质
CN113670608B (zh) * 2021-07-21 2022-09-16 广州大学 基于后缀树和向量机的故障检测方法、系统、装置及介质

Similar Documents

Publication Publication Date Title
CN107844731A (zh) 基于概率后缀树的长时间序列δ‑异常点检测方法
Qiu et al. Granger causality for time-series anomaly detection
US20160255109A1 (en) Detection method and apparatus
JP2016152048A (ja) 統計的学習によるブラックボックス・ソフトウェア試験
CN109542952A (zh) 一种时间序列异常点的检测方法
Xu et al. Real-time road traffic states measurement based on Kernel-KNN matching of regional traffic attractors
Zhou et al. Anomaly detection via a combination model in time series data
Gao et al. Discovering subdimensional motifs of different lengths in large-scale multivariate time series
Ott et al. Hardware performance counters for embedded software anomaly detection
Zhang et al. A novel anomaly detection method for multimodal WSN data flow via a dynamic graph neural network
Zhang et al. Intelligent fault detection of reciprocating compressor using a novel discrete state space
Lee et al. RePAD2: Real-Time, Lightweight, and Adaptive Anomaly Detection for Open-Ended Time Series
Saberi et al. A passive online technique for learning hybrid automata from input/output traces
Yu et al. MAG: A novel approach for effective anomaly detection in spacecraft telemetry data
Tilaro et al. Model learning algorithms for anomaly detection in cern control systems
Feng et al. RelSen: An optimization-based framework for simultaneously sensor reliability monitoring and data cleaning
Febrinanto et al. Entropy Causal Graphs for Multivariate Time Series Anomaly Detection
Zhang et al. Anomaly Detection of ICS based on EB-OCSVM
Zheng et al. Graph spatiotemporal process for multivariate time series anomaly detection with missing values
Zhang et al. Probabilistic autoencoder with multi-scale feature extraction for multivariate time series anomaly detection
Chen et al. Pattern mining for predicting critical events from sequential event data log
Bekiroglu et al. Hankel-based unsupervised anomaly detection
Hubballi Pairgram: Modeling frequency information of lookahead pairs for system call based anomaly detection
Zandrahimi et al. Two effective methods to detect anomalies in embedded systems
Mbiydzenyuy Univariate time series anomaly labelling algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180327

WD01 Invention patent application deemed withdrawn after publication