CN109542952A

CN109542952A - 一种时间序列异常点的检测方法

Info

Publication number: CN109542952A
Application number: CN201811410281.2A
Authority: CN
Inventors: 蔡喁
Original assignee: China Civil Aviation Shanghai Aircraft Airworthiness Certification Center
Current assignee: China Civil Aviation Shanghai Aircraft Airworthiness Certification Center
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2019-03-29

Abstract

本发明技术方案公开了一种时间序列异常点的检测方法，包括如下步骤：S1：离散化原始时间序列并获得符号串；S2：对符号串中数据进行标记，形成符号化的训练数据集；S3：根据符号化的训练数据集构建概率后缀树；S4：根据所述概率后缀树检测待检测数据序列中的异常点。本发明技术方案的时间序列异常点的检测方法能够找出偏离常规模式的异常模式，能够较准确的揭示出数据中隐含的信息，从而解决很多实际应用问题，时间序列经过离散化处理转换为符号串后可以表示为概率后缀树，更加简洁且可以更加高效地计算不同符号串的后缀符号的概率，且查全率高、检测效果佳。

Description

一种时间序列异常点的检测方法

技术领域

本发明涉及数据检测领域，尤其涉及一种时间序列异常点的检测方法。

背景技术

时间序列数据是一种在日常应用中经常出现的数据形式。它在航空航天、医疗数据分析、金融数据分析、网络异常行为检测、天气预测等各个领域都有着广泛的应用。在这些应用领域中，挖掘序列中的频繁模式可能无法揭示数据行为中隐藏的异常信息，但这些异常信息通常能反映一定的问题，例如，用户日常操作信息中的异常数据可能意味着该账户密码泄露或是账户被盗用。医疗健康数据中的异常信息可能代表某种疾病正在蔓延。如果不能挖掘出这些信息中的异常，也就不能及时做出合理的决策来避免不必要的损失。

现有技术也逐渐出现一些模型对时间序列的异常进行检测，如马尔可夫链模型、概率后缀树等。马尔可夫链模型被广泛使用，该模型是基于前一个状态决定后一个状态的思想，对于一个长序列，给定一个频繁出现的前缀状态，其后缀状态的发生频率过低，那么这个后缀状态就认为是异常，但是其最大的缺点是前缀状态的长度是固定的。概率后缀树(PST)可以被看作是一种可变长前缀的马尔可夫链更简洁的表示，它扩充了原有的后缀树模型，以每个结点对应符号串的概率分布作为主要特征。在用马尔可夫模型计算条件概率时，前缀长度是定长的，而概率后缀树的前缀长度是可变的。E.Keogh首次提出将后缀树模型用于异常模式检测，并明确定义了异常模式和树结点的概率。P.Sun又对原有的PST模型进行了扩充，改进了结点的结构，然后通过相似性对比来找出异常序列。

然而，这些算法都是在时间序列数据库中找寻异常的时间序列，鲜有检测异常数据点的算法。而在长时间序列或流式数据中，异常检测主要是面向数据点。

发明内容

有鉴于现有技术的上述缺陷，本发明技术方案所要解决的技术问题是现有技术不能挖掘出数据信息中的异常，即便能够挖掘出信息异常，其所用算法都是在时间序列数据库中找寻异常的序列，鲜有直接检测异常数据点的算法，如长时间序列或流式数据中的异常数据点便无法准确检测出。

为解决上述技术问题，本发明技术方案提供了一种时间序列异常点的检测方法，本发明技术方案主要是基于概率后缀树的符号串异常点检测，利用符号化方法离散处理原始时间序列的检测方法，其不仅能够满足于检测短序列数据，在长序列数据的检测上相比其他检测方式更具有优势。

本发明的时间序列异常点的检测方法，包括如下步骤：

S1：离散化原始时间序列并获得符号串；

S2：对符号串中数据进行标记，形成符号化的训练数据集；

S3：根据符号化的训练数据集构建概率后缀树；

S4：根据所述概率后缀树检测待检测数据序列中的异常点。

需要说明的是，步骤S1中，原始时间序列的长短根据实际情况确定，本发明的时间序列一般需要连续。步骤S1具体包括如下步骤：

S11：采用PAA方法对所述原始时间序列进行表示形成若干PAA段，若干所述PAA段与所述原始时间序列的数据点一一对应；所述PAA方法是指用等宽度窗口分割时间序列，每个窗口内的时间序列的值用窗口平均值来表示。

S12：将原始时间序列离散化并形成若干断点；本发明的离散化是指将原始时间序列等长分割，每个分割段作为一个离散数据，所述断点具有相应的数值，称为断点值。

S13：根据所述PAA段的覆盖范围和波动趋势给定符号表的大小，对若干所述PAA段分配符号，从而将原始时间序列以符号串的形式表示。

进一步地，所述原始时间序列且符合高斯分布，所述断点为一系列数字的集合，如下：

β＝(β₁,…,β_a-1,β_a)；

其中，β表示断点，在N(0,1)的高斯分布中，β₀到β₀定义为-∞到+∞，β_a-1到β₀的面积均为1/α，α为断点的个数。

将原始序列数据转化成PAA段时，尽量不要降低原始时间序的维度。

本发明一优选实施例，采用以下方式将原始序列数据转化成PAA段：

一个长度为n的序列C可以被表示为一个n维的向量空间，用来表示这个向量空间其中表示向量的第i个元素，每一个也称为一个PAA段，整个向量空间正是由若干个等长的PAA段构成的，每个PAA段与原始数据点一一对应。

进一步地，在步骤S13中，按照如下分组方式分配符号：将窗口平均值低于最小断点值的PAA段分为一组；大于或者等于最小断点值并且小于下一个断点值的PAA段为一组。

所述概率后缀树是一棵|Σ|叉树，其为树结点及树边的集合，如下：

PST＝(V，E)；

其中，PST指概率后缀树，V是树结点的集合，E是树边的集合，Σ为符号表，符号表上的符号序列为S；

每条边e∈E都对应于一个符号e.label∈∑；

每个结点v∈V都对应一个S中的符号串v.string＝e_n…e₁e₀，表示从根结点到结点v的路径上依次经过的边为e₀→e₁→…→e_n，根节点v_r对应于空串；

每个结点v∈V所对应的符号串v.string在符号序列S中的出现次数标记为v.count；

对于给定的每条边e＝(v_p,v_c)>∈E，其中v_p是v_c的父结点，有v_c.string＝成立；

每个结点v∈V都对应有一个向量v.nextSymbol[s](s∈∑)，统计符号序列S中的符号串v.string出现后的下一个符号是s的次数；

每个结点v∈V都对应有一个概率向量v.branchingProbability，对于每个符号s∈∑，v.branchingProbability[s]表示S中的符号串v.string出现后的下一个符号是s的概率，则:

进一步地，步骤S3包括如下步骤：

S31：采用逐层构建法构建所述概率后缀树的结构，其上设有根结点和若干层的树结点，并赋予若干所述树节点相应的符号串；

S32：遍历符号化的训练数据集，统计每个所述树结点对应的v.count和v.nextSymbol并计算v.branchingProbability。

在步骤S31中，逐层构建法具体如下：所述根结点位于所述概率后缀树的第零层，为所述根结点构建孩子结点作为所述概率后缀树的第一层树结点，再为所述第一层树结点构建孩子结点作为所述概率后缀树的第二层，直至将若干层的树结点构建完成，根结点的孩子结点及每一树结点的孩子结点的个数与符号表的大小相等，同时根据符号表赋予所述树结点相应的符号串。

本发明的S32具体为：找到训练数据集S₁中的每个时间点t₁对应的子符号串S_t1-m-1…S_t1-1以及所述子符号串对应的树结点v，其中m的取值依次为1,2,...,L，L的大小等于所述概率后缀树的树深，使v.count加1，v.nextSymbol[s_t]加1，遍历完长符号串S的每个时间点后，计算每个树结点的v.branchingProbability[s]，即完成了概率后缀树的构建过程。

本发明的S4具体包括以下步骤：

S41：将待检测时间序列转换为符号序列S，所述符号序列S的每个时间点t均具有若干前缀S_t-p-1…S_t-1，p的取值依次为1,2,...,L，L为概率后缀树除根结点的最大深度；

S42：每次取预设长度p的子符号串S_t-pS_t-p+1……S_t，遍历已构建好的概率后缀树，找到S_t-pS_t-p+1…S_t的前p-1个符号S_t-p-1……S_t-1在概率后缀树中对应的结点v，并判断S_t-p-1……S_t-1是否为频繁子串，若否，则无异常点，若是，则判断t是否为S的一个δ-异常点并进行S43；

S43：根据S_t的位置定位至原始时间序列中的异常数据点。

进一步地，判断是否为频繁子串的方法如下：给定阈值θ，对于符号序列S中的时间点t，存在某个子符号串S_p S_p+1+1……S_t，其中p≤t，如果概率后缀树中相应结点v的符号串为S_pS_p+1+1……S_t且v.count≥θ，那么称子符号串S_pS_p+1+1……S_t为S的一个频繁子串。

进一步地，对于符号序列S中的时间点t，如果存在某个频繁子串S_p S_p+1+1……S_t—1，其中p≤t-1，对应的结点v满足v.branchingProbability[s_t](s_t∈∑)＜δ，则时间点t是S中的一个δ-异常点。

与现有技术相比，本发明的技术方案具有以下优点：

本发明技术方案的时间序列异常点的检测方法能够找出偏离常规模式的异常模式，能够较准确的揭示出数据中隐含的信息，从而解决很多实际应用问题，时间序列经过离散化处理转换为符号串后可以表示为概率后缀树，更加简洁且可以更加高效地计算不同符号串的后缀符号的概率，且查全率高、检测效果佳。

附图说明

图1为本发明实施例的时间序列异常点的检测方法的流程图；

图2为本发明实施例的原始时间序列转化为PAA段的结构示意图；

图3为本发明实施例的原始时间序列数据表示为符号串的结果示意图；

图4为本发明实施例的概率后缀树的结构示意图；

图5为本发明实施例的原始训练数据集的部分结构示意图；

图6为本发明实施例的原始检测数据集的结构示意图；

图7为本发明实施例的原始检测数据集的PAA段表示；

图8为本发明实施例的原始检测数据集的符号化表示；

图9为本发明实施例的δ取值与F₁-Measure的关系图；

图10为本发明实施例的树深与运行时间的关系图；

图11为本发明实施例的树深与F₁-Measure的关系图；

图12为本发明实施例的符号表大小与F₁-Measure的关系图；

图13为本发明实施例的MinCount与F₁-Measure的关系图。

具体实施方式

如图1所示，本发明实施例的时间序列异常点的检测方法，包括如下步骤：

S1：离散化原始时间序列并获得符号串；

S2：对符号串中数据进行标记，形成符号化的训练数据集；

S3：根据符号化的训练数据集构建概率后缀树；

S4：根据概率后缀树检测待检测数据序列中的异常点。

需要说明的是，本实施例的步骤S1，原始时间序列的长短根据实际情况确定且需要连续。步骤S1具体包括如下步骤：

S11：采用PAA方法对原始时间序列进行表示形成若干PAA段，若干所述PAA段与所述原始时间序列的数据点一一对应；

S12：将原始时间序列离散化并形成若干断点，具体地，将原始时间序列等长分割，每个分割段作为一个离散数据。

S13：根据PAA段的覆盖范围和波动趋势给定符号表的大小，对若干PAA段分配符号，从而将原始时间序列以符号串的形式表示。

在本实施例中，将原始的时间序列离散化并保持大体趋势不变，时间序列经过离散化处理转换为符号串后可以表示为概率后缀树(PST)，更加简洁且可以更加高效地计算不同符号串的后缀符号的概率。将一段长度为n的时间序列划分为由n个长为1的子序列，然后再将其用符号化表示，具体操作如下：

(1)将数据转化成PAA段而并不降维

一个长度为n的时间序列C可以被表示为一个n维的向量空间，用来表示这个向量空间，其中表示向量的第i个元素，每一个也称为一个PAA段，整个向量空间正是由若干个等长的PAA段构成的，每个PAA段与原始数据点一一对应，原始时间序列转化为PAA段的结果如图2所示。

(2)数据离散化处理

将一个时间序列用PAA段表示后，就可以进行数据的离散化处理，经过大量长期的试验后，发现对于长时间的时间序列数据，高斯分布的假设是被证明正确的。对于过小的数据集，这种方法也只是会轻微的劣化有效性，并不会影响算法的正确性。

给出一个拥有高斯分布的时间序列，便可以定义断点，断点为一系列数字的集合，如下：

β＝(β₁,…,β_a-1,β_a)；

其中，β表示断点，在N(0,1)的高斯分布中，β₀到β_a定义为-∞到+∞，β_a-1到β_a的面积均为1/α，α为断点的个数。

(3)PAA段的符号化

一旦断点已经被获取了，则可以对时间序列进行离散化，下面为离散化的方法。首先，根据PAA段的覆盖范围和波动趋势人工给定符号表的大小。然后，给每一个PAA段分配符号。系数低于最小断点值的PAA段分配符号a，大于等于最小断点值并且小于下一个断点值的PAA段分配符号b，依此类推，给每一个PAA段都分配一个符号，最终形成符号化的序列数据，将原始时间序列数据表示为符号串的形式，符号化结果如图3所示。

离散化原始时间序列并获得符号串，即符号化序列，其中的每一个符号均取自于符号表，如：给定符号表∑＝{a,b,c}，离散化操作后，我们可以得到一个由a,b,c构成的符号串，如：abcbacbbbbcccaaaaa。

给定符号表Σ上的符号序列S，其对应的概率后缀树PST＝(V,E)是一棵|Σ|叉树，其中V是树结点的集合，E是树边的集合概率后缀树是一棵|Σ|叉树，其为树结点及树边的集合，如下：

每条边e∈E都对应于一个符号e.label∈∑；

图4给出了一个PST的例子，符号表为∑＝{a,b,c}，一个PST结点最多有3个孩子结点，设从根结点v_r经过边e₀(e₀.label＝b)到达结点v₁，由图可知，v₁.string＝b,v₁.count＝5520，从v₁经过边e₁(e₁.label＝a)，到达结点v₂，v₂.string＝ab,v₂.count＝1650，v₁.string在S中的下一个符号为a,b,c的分支概率分别为：v₁.branchingProbability[a]＝29.89％,v₁.branchingProbability[b]＝65.22％,v₁.branchingProbability[c]＝4.89％。

本实施例的步骤S3包括如下步骤：

S31：采用逐层构建法构建概率后缀树的结构，其上设有根结点和若干层的树结点，并赋予若干树节点相应的符号串；

S32：遍历符号化的训练数据集，统计每个树结点对应的v.count和v.nextSymbol并计算v.branchingProbability。

在步骤S31中，逐层构建法具体如下：根结点位于概率后缀树的第零层，为根结点构建孩子结点作为概率后缀树的第一层树结点，再为第一层树结点构建孩子结点作为概率后缀树的第二层，直至将若干层的树结点构建完成，根结点的孩子结点及每一树结点的孩子结点的个数与符号表的大小相等，同时根据符号表赋予树结点相应的符号串。

本发明的S32具体为：找到训练数据集S₁中的每个时间点t₁对应的子符号串以及子符号串对应的树结点v，其中m的取值依次为1,2,...,L，L为PST除根结点的最大深度，使v.count加1，v.nextSymbol[s_t]加1，遍历完长符号串S的每个时间点后，计算每个树结点的v.branchingProbability[s]，即完成了概率后缀树的构建过程。

在本实施例中，采用逐层构建的方法为每个PST结点的v.string赋值。PST的根结点属于第零层，第一层的结点数取决于符号表的大小|Σ|，即第一层包含|Σ|个结点，每个结点的v.string。例如，树深为L＝5，符号表为∑＝{a,b,c}。那么根结点的三个孩子结点分别为v₁.string＝a,v₂.string＝b和v₃.string＝c。然后为每个第一层结点构建其孩子结点，例如，对结点v₁，它的三个孩子结点分别为v₁₁.string＝aa,v₁₂.string＝ba和v₁₃.string＝ca，依此类推，直到构建完成第L层的树结点。

搭建起树的框架后，遍历S。对S中的每个时间点t，找到子符号串s_t-m-1…s_t-1(m的取值依次为1,2,...,L)对应的树结点v，使v.count加1，v.nextSymbol[s_t]加1。遍历完长符号串S的每个时间点后，计算PST中每个结点的v.branchingProbability[s]，这样我们就完成了PST的构建过程。

构建概率后缀树的算法如表1所示：

表1 构建概率后缀树的算法

本发明的S4具体包括以下步骤：

S43：根据S_t的位置定位至原始时间序列中的异常数据点。

判断一个子序列是否在PST中和检测异常点的算法如表2-3所示。

表2 判断是否在PST中的算法

表3 检测δ-异常点的算法

下面对本实施例的检测效果进行证明。

首先，介绍以下概念：

F₁-Measure：在异常检测阶段，我们用F₁-Measure作为检测效果的评价标准，其计算公式为：

其中P表示精确率，即正确检测出的异常点占所检测出的全部异常点的比例：

R表示召回率，即正确检测出的异常点占实际异常点的比例：

MinCount为符号串的最小出现次数，用于判断符号串是否为频繁子串。

然后，为了证明本发明的检测效果，我们进行了广泛的实验，如下：

系统实现所用的编程环境是MyEclipse，Java虚拟机的版本是1.8。实验的运行环境为Core i5 CPU 3.10MHz，8GB内存，Windows 10x64操作系统。实验的数据集来自E.Keogh的航天飞机Marotta Valve数据集，这是一个传感器时间序列，并且已经被NASA的工程师标记出了异常点，图5显示了原始训练数据集的一部分，包括4200个数据点，大约是4个周期。图6中是原始的检测数据集，异常的数据点是用黑框圈出来的部分。图7是原始检测数据集转换为PAA段的表示。图8是与图7相对应的符号化表示，∑＝{a,b,c,d}。

基于检测数据集，我们进行了大量的实验，结果表明该算法的查全率较高。图9显示了δ的不同取值对检测效果的影响。显而易见，δ对召回率的影响并不大。PST的大小随树深呈指数型增长。构建一棵PST对系统内存要求很大，我们可以人为设置树的深度，同时可以设置阈值MinCount来修剪PST。图10给出了建树所需时间与树深的关系。当PST的深度大于3时，检测效果几乎不受到影响，图11显示了树深与F₁-Measure的关系。符号表的大小在一定程度上影响了原始序列数据转换成的符号，也就间接影响了马尔可夫链中各符号的前后关系，也就改变了PST的结点值，对检测结果有一定的影响，图12显示了符号表大小与F₁-Measure的关系，由图可知，符号表大小为3时，检测效果最佳。MinCount直接决定了PST的结构和待检测序列S中的频繁子串，对于小于这个阈值的子符号串不会被加入到PST中，那么在检测时，遇到相同的子符号串，在PST中找不到相同的结点，就认为它不是一个频繁子串，也就不会检测其后缀符号的分支概率。图13显示了不同取值的MinCount与F₁-Measure的关系，MinCount取值大于15时，对于检测效果几乎没有影响。

以上详细描述了本发明的具体实施例，应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种时间序列异常点的检测方法，其特征在于，包括如下步骤：

S1：离散化原始时间序列并获得符号串；

S2：对符号串中数据进行标记，形成符号化的训练数据集；

S3：根据符号化的训练数据集构建概率后缀树；

S4：根据所述概率后缀树检测待检测数据序列中的异常点。

2.如权利要求1所述的时间序列异常点的检测方法，其特征在于，步骤S1具体包括如下步骤：

S12：将原始时间序列离散化并形成若干断点；

3.如权利要求2所述的时间序列异常点的检测方法，其特征在于，所述原始时间序列符合高斯分布，所述断点为一系列数字的集合，如下：

β＝(β₁,…,β_a-1,β_a)；

其中，β表示断点，在N(0,1)的高斯分布中，β₀到β₀定义为-∞到+∞，β_a-1到β_a的面积均为1/α，α为断点的个数。

4.如权利要求2所述的时间序列异常点的检测方法，其特征在于，在步骤S13中，按照如下分组方式分配符号：时间序列中，将窗口平均值低于最小断点值的PAA段分为一组；大于或者等于最小断点值并且小于下一个断点值的PAA段为一组。

5.如权利要求1所述的时间序列异常点的检测方法，其特征在于，所述概率后缀树是一棵|Σ|叉树，其为树结点及树边的集合，如下：

PST＝(V，E)；

每条边e∈E都对应于一个符号e.label∈∑；

对于给定的每条边e＝(v_p,v_c)>∈E，其中v_p是v_c的父结点，有成立；

每个结点v∈V都对应有一个向量v，nextSymbol[s](s∈∑)，统计符号序列S中的符号串v.string出现后的下一个符号是s的次数；

6.如权利要求5所述的时间序列异常点的检测方法，其特征在于，步骤S3包括如下步骤：

7.如权利要求5所述的时间序列异常点的检测方法，其特征在于，在步骤S31中，逐层构建法具体如下：所述根结点位于所述概率后缀树的第零层，为所述根结点构建孩子结点作为所述概率后缀树的第一层树结点，再为所述第一层树结点构建孩子结点作为所述概率后缀树的第二层，直至将若干层的树结点构建完成，根结点的孩子结点及每一树结点的孩子结点的个数与符号表的大小相等，同时根据符号表赋予所述树结点相应的符号串。

8.如权利要求5所述的时间序列异常点的检测方法，其特征在于，所述S32具体为：找到训练数据集S₁中的每个时间点t₁对应的子符号串以及所述子符号串对应的树结点v，其中m的取值依次为1,2,...,L，L的大小等于所述概率后缀树的树深，使v.count加1，v.nextSymbol[s_t]加1，遍历完长符号串S的每个时间点后，计算每个树结点的v.branchingProbability[s]，即完成了概率后缀树的构建过程。

9.如权利要求8所述的时间序列异常点的检测方法，其特征在于，所述S4具体包括以下步骤：

S43：根据S_t的位置定位至原始时间序列中的异常数据点。

10.如权利要求9所述的时间序列异常点的检测方法，其特征在于，判断是否为频繁子串的方法如下：给定阈值θ，对于符号序列S中的时间点t，存在某个子符号串S_pS_p+1+1……S_t，其中p≤t，如果概率后缀树中相应结点v的符号串为S_pS_p+1+1……S_t且v.count≥θ，那么称子符号串S_pS_p+1+1……S_t为S的一个频繁子串。

11.如权利要求10所述的时间序列异常点的检测方法，其特征在于，对于符号序列S中的时间点t，如果存在某个频繁子串S_pS_p+1+1……S_t—1，其中p≤t-1，对应的结点v满足v.branchingProbability[s_t](s_t∈∑)＜δ，则时间点t是S中的一个δ-异常点。