CN108491559A - 一种基于归一化互信息估计的时间序列异常检测方法 - Google Patents

一种基于归一化互信息估计的时间序列异常检测方法 Download PDF

Info

Publication number
CN108491559A
CN108491559A CN201810052021.6A CN201810052021A CN108491559A CN 108491559 A CN108491559 A CN 108491559A CN 201810052021 A CN201810052021 A CN 201810052021A CN 108491559 A CN108491559 A CN 108491559A
Authority
CN
China
Prior art keywords
mutual information
time series
normalized
sample point
numerical value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810052021.6A
Other languages
English (en)
Inventor
孙磊
秦坤
蒋志宏
林大泳
聂青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201810052021.6A priority Critical patent/CN108491559A/zh
Publication of CN108491559A publication Critical patent/CN108491559A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于归一化互信息估计的时间序列异常检测方法,属于时间序列异常检测、信息论以及数据挖掘技术领域。包括A.数据预处理,得到与时间序列采样片段对应的样本点集合;B.基于极限学习机对每两个相邻采样片段对应的样本点集合进行互信息估计;C.将得到的互信息利用最大熵进行归一化;D.循环步骤B和C,得到归一化互信息序列,通过和阈值比较确定序列突变发生的位置。本发明描述的是一种不需要参数寻优的、无需训练的算法,其使用极限学习机进行互信息的估计,使用随机产生的参数设置,缩减了执行时间,保证了算法模型的执行效率;同时对估计出的互信息使用最大熵进行归一化,保证了异常检测的准确率。

Description

一种基于归一化互信息估计的时间序列异常检测方法
技术领域
本发明涉及一种基于归一化互信息估计的时间序列异常检测方法,属于时间序列异常检测、信息论以及数据挖掘技术领域。
背景技术
时间序列的研究近年来逐渐受到重视,在临床医疗、军事、地质勘探和网络安全等领域广泛应用。时间序列的异常时间片段具有发生频率低、模式或统计特性较正常状态有显著差异等特点,往往包含着重要的信息,有研究的意义和价值。
经典的时间序列研究方法是基于时-频的信号检测方法,例如自相关法和循环相关法等,这些方法对于连续的信号可做到较好的特性描述,然而对于短时突变信号的检测效果欠佳。从统计角度出发,有CUSUM检验和广义似然比检验GLR等参数依赖的方法,该类方法认为信号的各阶统计特性都包含在其对应的概率密度函数当中,则可通过比较时间序列采样片段的概率分布来确定异常的发生。此外,一种近期兴起的检测方法是子空间方法,其通过使用预先设计的时间序列模型,运用主成份分析的方法可将相邻时间序列采样片段之间的差异性转化为子空间的距离进行描述,基于此的一个有效方法是Kawahara在2007年提出的子空间辨识方法,但上述方法缺陷在于都依赖于预置的参数模型,比如说自回归模型等,当信号的统计特性并不是非常明确时,比如突变信号的各个信号段之间或者噪声段之间的统计特性可能是时变的,甚至是无法测量的,这些方法将变得不适用。一些基于核函数的非参数突变点检测方法据此被提出,该类方法包括通过直接估计两相邻时间采样片段概率密度比的检测方法uLSIF模型以及基于uLSIF改进的RuLSIF模型等。然而这些方法在参数选择方面由于采用交叉验证的方法选取最优参数,会耗费了大量时间,计算成本较大。
因此,构建一种保证检测性能的同时尽量缩短检测时间,并且采用无参设置的时间序列异常检测算法具有较高的实用价值。
发明内容
本发明的目的在于针对现有时间序列异常检测算法在参数选择方面采用交叉验证方法选取最优参数导致耗费时间以及计算成本较大的技术缺陷,提出一种基于归一化互信息估计的时间序列异常检测算法。
一种基于归一化互信息估计的时间序列异常检测算法,包括以下步骤:
步骤A.对待检测的时间序列进行数据预处理,得到M个与时间序列采样片段对应的样本点集合,初始化m=1;
具体的,步骤A中的数据预处理,又包括如下子步骤:
步骤A1.使用时间窗以固定的时延长度在时间序列上滑动;
步骤A2.利用步骤A1的时间窗对时间序列进行依次截取,将截取的每一个子序列中的样本点放入样本点集合当中,最后产生M个与时间序列对应的样本点集合;
其中,步骤A1中的时间窗的长度是固定的;M等于待检测的时间序列的长度减去一个时间窗的长度后,再除以时延长度后的整数值;
步骤B.基于极限学习机对第m及第m+1个相邻采样片段对应的样本点集合进行互信息估计,求得第m对的互信息数值;
具体地,步骤B又包括以下子步骤:
步骤B1.分别对第m及第m+1个样本点集合进行最大最小归一化,得到第m对样本点集合;
步骤B2.初始化极限学习机(ELM),具体为:
选择高斯核函数作为隐藏层核函数,设置隐藏层节点个数N;对于每个隐藏层的核函数,从步骤B1输出的第m对样本点集合中的任意的相同位置处选取一对样本点作为核宽,在区间(a,b)中任取一点作为核中心,对N个核函数进行初始化;
步骤B3.求解权重矩阵,具体为:
步骤B3.1利用ELM估计联合概率密度与边缘概率密度乘积之比,即概率密度比;
步骤B3.2通过使得ELM的输出与概率密度比的差值的期望值最小,利用样本平均取代期望值,求得ELM隐藏层至输出层的权重矩阵;
步骤B4.求得互信息数值,具体为:将步骤B3.2求得的权重矩阵代入ELM当中,利用样本平均代替期望求得互信息数值;
步骤C.将步骤B求得的第m对互信息数值利用最大信息熵进行归一化,具体包括如下子步骤:
步骤C1.根据最大熵原理,分别计算第m对样本点集合的最大熵;
步骤C2.将步骤C1输出的两个最大熵中数值较大的最大熵作为归一化因子,对第m对样本点集合的互信息进行归一化;
步骤D.m=m+1,并判断m是否等于M,并根据判断结果决定是否跳至步骤B,具体为:
D.1若m小于M,则跳至步骤B;
D.2否则,若m等于M,跳至步骤E;
步骤E对生成的归一化互信息序列中的M-1个互信息数值与阈值进行比较,确定异常时间序列采样片段的位置;
其中,生成的归一化互信息序列是由执行M-1次步骤B和步骤C得出的归一化互信息值组成的集合;阈值是人为设定的数值;
步骤E,具体为:若某一个归一化互信息数值高于设置的阈值,则该数值对应的时间序列采样片段将视为一个发生突变的片段;
至此,从步骤A到步骤E,完成了一种基于归一化互信息估计的时间序列异常检测算法。
有益效果
本发明的一种基于归一化互信息估计的时间序列异常检测算法,与现有时间序列异常检测算法相比,具有如下有益效果:
1.本发明的一种基于归一化互信息估计的时间序列异常检测算法,是一种不需要参数寻优的、无需训练的算法;
2.本发明使用极限学习机进行互信息的估计,使用随机产生的参数设置,缩减了执行时间,保证了算法模型的执行效率;
3.本发明对估计出的互信息使用最大熵进行归一化,保证了异常检测的准确率。
附图说明
图1为本发明一种基于归一化互信息估计的时间序列异常检测方法及实施例中的流程图;
图2为本发明实施例使用的基于时延互信息计算的突变检测框架;
图3为本发明实施例使用的基于极限学习机的归一化互信息估计模型。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易被本领域技术人员理解,从而对本发明的保护范围做出更为明确的界定。
实施例
请参阅图1图2图3,本发明所提出的一种基于归一化互信息估计的时间序列异常检测方法。
由图1可以看出,一种基于归一化互信息估计的时间序列异常检测方法流程包括如下步骤:
步骤1.数据预处理,即:得到时间序列采样片段样本点集合;
步骤2.基于极限学习机对相邻样本点集合进行互信息估计;
步骤3.对估计的互信息使用最大熵进行归一化;
步骤4.比较归一化互信息数值与阈值大小,确定异常位置。
由图2可以看出,实施例使用的基于时延互信息计算的突变检测框架包括:待处理时间序列,序列中的样本点为yt∈R,t=1,2,...;长度为n的时间窗,时延长度τ;截取产生的样本点集合wt={yt,yt+1,...,yt+n-1},t=1,2,...;归一化互信息数值归一化互信息数值高于设置的某个阈值η,则该数值对应的时间序列采样片段将视为一个发生突变的片段的示意坐标图。
由图3可以看出,实施例使用的基于极限学习机的归一化互信息估计模型,包括极限学习机输出互信息g(xi,yj)、求得互信息及其归一化
本发明提出的一种基于归一化互信息估计的时间序列异常检测方法包括:
步骤a.对待检测的时间序列进行数据预处理,得到M个与时间序列采样片段对应的样本点集合,初始化m=1;
具体的,步骤a中的数据预处理,又包括如下子步骤:
步骤a1.使用时间窗以固定的时延长度在时间序列上滑动;
步骤a2.利用步骤A1的时间窗对时间序列进行依次截取,将截取的每一个子序列中的样本点放入样本点集合当中,最后产生M个与时间序列对应的样本点集合;
其中,步骤a1中的时间窗的长度是固定的,设置为n;M等于待检测的时间序列的长度减去一个时间窗的长度后,再除以时延长度后的整数值;
如图2所示,假设待处理时间序列中的样本点为yt∈R,t=1,2,...,使用长度为n的时间窗以时延长度τ对时间序列进截取,产生样本点集合wt={yt,yt+1,...,yt+n-1},t=1,2,...。
步骤b.基于极限学习机对步骤A输出的第m及第m+1个相邻采样片段对应的样本点集合进行互信息估计,求得第m对的互信息数值;
具体地,步骤b又包括以下子步骤:
步骤b1.分别对第m及第m+1个样本点集合进行最大最小归一化,得到第m对样本点集合:特别地,若两个相邻的样本点集和为wt和wt+1,并且其中存储的时间序列样本点为d维的,经过最大最小归一化之后,得到对应的样本对集合可认为它们是从具有密度为pxy(x,y)的联合分布中采样得出的,其中
步骤b2.初始化极限学习机:具体地,如图3上半部分所示,设置ELM隐藏层有N个节点,其中每个节点的核函数采用高斯内核函数则ELM的输出可表示为:
其中,βl表示连接第l个隐藏层节点到输出节点的输出权重。特别地,核函数采用高斯函数的具体形式可表示为其中代表第l核函数的核中心,可从集合当中任意选取;σl∈R表示核宽,是从区间(0,1)中任意取值的。
步骤b3.求解权重矩阵:特别地,在本实施例当中为求解β=[β1,...,βN]T。具体表述如下:
给定两个连续随机变量X,Y,两者间的互信息定义如下:
其中表示概率密度比,px(x)和py(y)分别表示x,y的边缘概率密度。优选地,使用ELM算法模型逼近概率密度比,即选择权重矩阵β使得ELM的输出与概率密度比的差值的期望值最小。上述差值可表示为:
上式中为简略表示,有赋值H=∫∫φ(x,y)φ(x,y)Tpx(x)py(y)dxdy,h=∫∫φ(x,y)pxy(x,y)dxdy,积分为一个常数。由于积分不可得,则可使用经验平均近似H和h中的期望:优选地,添加正则项λβTβ(其中λ≥0),则权重矩阵的求解可转化为如下优化问题:
最终可到一个解析解:
其中I为单位矩阵。
步骤b4.求解互信息数值:具体地,将b3求得的权重矩阵代入ELM的输出当中,并利用样本平均代替期望求得互信息的数值:
优选地,可选择使用多个相互独立的ELM,即具有独立任意选取的核宽及核中心等参数,进行互信息的估计,将多个估计结果的平均值作为最终的互信息估计数值。
步骤c.将步骤b求得的第m对互信息数值利用最大信息熵进行归一化。具体为:
根据香农最大熵原理,计算归一化后样本点集合对应的最大熵:
其中σi是样本点每个维度的标准差。同理可计算hG(Y),则互信息可做如下归一化:
则最终的归一化互信息估计可得出如下式:
该估计模型对应的使用的基于极限学习机的归一化互信息估计模型如图3所示。
步骤d.m=m+1,并判断m是否等于M,并根据判断结果决定是否跳至步骤b,具体为:
d.1若m小于M,则跳至步骤b;
d.2否则,若m等于M,跳至步骤e;
步骤e.对生成的归一化互信息序列中的M-1个互信息数值与阈值进行比较,确定异常时间序列采样片段的位置。具体讲,生成的归一化互信息序列是由执行M-1次步骤b和步骤c得出的归一化互信息值组成的集合;阈值是人为设定的数值η;若某一个归一化互信息数值高于设置的某个阈值η,则该数值对应的时间序列采样片段将视为一个发生突变的片段。如图二中所示,一个数值超过阈值η的归一化互信息数值其所对应的两个时间采样片段可视为包含有异常。
以上为结合具体的实施例对本发明的具体细节做出的进一步阐述。但不应将本发明的保护范围限制于此实施例,在不做出创新性改进的前提下,任何使用本发明所保护技术同等构思加以变换的技术,或仅有使用场景发生改变但核心技术与本发明相关的,都应涵盖在本发明的保护范围之内。
本发明参考以下非文献:
非专利文献1:Oh B S,Sun L,Ahn C S,et al.Extreme learning machine basedmutual information estimation with application to time-series change-pointsdetection[J].Neurocomputing,2017.
非专利文献2:Liu S,Yamada M,Collier N,et al.Change-Point Detection inTime-Series Data by Relative Density-Ratio Estimation[J].Neural Networks,2013,43(1):72-83.

Claims (7)

1.一种基于归一化互信息估计的时间序列异常检测算法,其特征在于:包括以下步骤:
步骤A.对待检测的时间序列进行数据预处理,得到M个与时间序列采样片段对应的样本点集合,初始化m=1;
步骤B.基于极限学习机对第m及第m+1个相邻采样片段对应的样本点集合进行互信息估计,求得第m对的互信息数值;
步骤C.将步骤B求得的第m对互信息数值利用最大信息熵进行归一化;
步骤D.m=m+1,并判断m是否等于M,并根据判断结果决定是否跳至步骤B,具体为:
D.1 若m小于M,则跳至步骤B;
D.2 否则,若m等于M,跳至步骤E;
步骤E 对生成的归一化互信息序列中的M-1个互信息数值与阈值进行比较,确定异常时间序列采样片段的位置;
至此,从步骤A到步骤E,完成了一种基于归一化互信息估计的时间序列异常检测算法。
2.根据权利要求1所述的一种基于归一化互信息估计的时间序列异常检测算法,其特征在于:步骤A中的数据预处理,又包括如下子步骤:
步骤A1.使用时间窗以固定的时延长度在时间序列上滑动;
步骤A2.利用步骤A1的时间窗对时间序列进行依次截取,将截取的每一个子序列中的样本点放入样本点集合当中,最后产生M个与时间序列对应的样本点集合。
3.根据权利要求2所述的一种基于归一化互信息估计的时间序列异常检测算法,其特征在于:步骤A1中的时间窗的长度是固定的;M等于待检测的时间序列的长度减去一个时间窗的长度后,再除以时延长度后的整数值。
4.根据权利要求1所述的一种基于归一化互信息估计的时间序列异常检测算法,其特征在于:步骤B又包括以下子步骤:
步骤B1.分别对第m及第m+1个样本点集合进行最大最小归一化,得到第m对样本点集合;
步骤B2.初始化极限学习机(ELM),具体为:
选择高斯核函数作为隐藏层核函数,设置隐藏层节点个数N;对于每个隐藏层的核函数,从步骤B1输出的第m对样本点集合中的任意的相同位置处选取一对样本点作为核宽,在区间(a,b)中任取一点作为核中心,对N个核函数进行初始化;
步骤B3.求解权重矩阵,具体为:
步骤B3.1 利用ELM估计联合概率密度与边缘概率密度乘积之比,即概率密度比;
步骤B3.2 通过使得ELM的输出与概率密度比的差值的期望值最小,利用样本平均取代期望值,求得ELM隐藏层至输出层的权重矩阵;
步骤B4.求得互信息数值,具体为:将步骤B3.2求得的权重矩阵代入ELM当中,利用样本平均代替期望求得互信息数值。
5.根据权利要求1所述的一种基于归一化互信息估计的时间序列异常检测算法,其特征在于:步骤C,具体包括如下子步骤:
步骤C1.根据最大熵原理,分别计算第m对样本点集合的最大熵;
步骤C2.将步骤C1输出的两个最大熵中数值较大的最大熵作为归一化因子,对第m对样本点集合的互信息进行归一化。
6.根据权利要求1所述的一种基于归一化互信息估计的时间序列异常检测算法,其特征在于:步骤E中,生成的归一化互信息序列是由执行M-1次步骤B和步骤C得出的归一化互信息值组成的集合;阈值是人为设定的数值。
7.根据权利要求1所述的一种基于归一化互信息估计的时间序列异常检测算法,其特征在于:步骤E,具体为:若某一个归一化互信息数值高于设置的阈值,则该数值对应的时间序列采样片段将视为一个发生突变的片段。
CN201810052021.6A 2018-01-19 2018-01-19 一种基于归一化互信息估计的时间序列异常检测方法 Pending CN108491559A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810052021.6A CN108491559A (zh) 2018-01-19 2018-01-19 一种基于归一化互信息估计的时间序列异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810052021.6A CN108491559A (zh) 2018-01-19 2018-01-19 一种基于归一化互信息估计的时间序列异常检测方法

Publications (1)

Publication Number Publication Date
CN108491559A true CN108491559A (zh) 2018-09-04

Family

ID=63343642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810052021.6A Pending CN108491559A (zh) 2018-01-19 2018-01-19 一种基于归一化互信息估计的时间序列异常检测方法

Country Status (1)

Country Link
CN (1) CN108491559A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708978A (zh) * 2020-07-23 2020-09-25 杭州电子科技大学 多尺度时频肌间耦合分析方法
CN111814436A (zh) * 2020-07-27 2020-10-23 上海观安信息技术股份有限公司 一种基于互信息和熵的用户行为序列检测方法及系统
CN112926613A (zh) * 2019-12-06 2021-06-08 北京沃东天骏信息技术有限公司 一种时间序列训练开始节点的定位方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926613A (zh) * 2019-12-06 2021-06-08 北京沃东天骏信息技术有限公司 一种时间序列训练开始节点的定位方法和装置
CN111708978A (zh) * 2020-07-23 2020-09-25 杭州电子科技大学 多尺度时频肌间耦合分析方法
CN111708978B (zh) * 2020-07-23 2023-05-02 杭州电子科技大学 多尺度时频肌间耦合分析方法
CN111814436A (zh) * 2020-07-27 2020-10-23 上海观安信息技术股份有限公司 一种基于互信息和熵的用户行为序列检测方法及系统
CN111814436B (zh) * 2020-07-27 2023-10-17 上海观安信息技术股份有限公司 一种基于互信息和熵的用户行为序列检测方法及系统

Similar Documents

Publication Publication Date Title
Fiot et al. Electricity demand forecasting by multi-task learning
US10387768B2 (en) Enhanced restricted boltzmann machine with prognosibility regularization for prognostics and health assessment
Li et al. Nonlinear sufficient dimension reduction for functional data
US20160239592A1 (en) Data-driven battery aging model using statistical analysis and artificial intelligence
Sun et al. Dynamic matrix factorization: A state space approach
CN105488539B (zh) 分类模型的生成方法及装置、系统容量的预估方法及装置
Luts et al. A mixed effects least squares support vector machine model for classification of longitudinal data
CN114297036B (zh) 数据处理方法、装置、电子设备及可读存储介质
CN106446317A (zh) 一种基于数学模型的密封式继电器贮存寿命预测方法
Cheng et al. Enhanced state estimation and bad data identification in active power distribution networks using photovoltaic power forecasting
CN108491559A (zh) 一种基于归一化互信息估计的时间序列异常检测方法
Wilber et al. Scale collapse and the emergence of the power law species–area relationship
Peng et al. Partial least squares and random sample consensus in outlier detection
Zagouras et al. Clustering the solar resource for grid management in island mode
CN112001644A (zh) 一种配电网运行可靠性检测方法、装置、终端及存储介质
Zhou et al. Data reconstruction in internet traffic matrix
Allen et al. Regime‐dependent statistical post‐processing of ensemble forecasts
Lai et al. Identifying multiple change points in a linear mixed effects model
Wang et al. Principal quantile regression for sufficient dimension reduction with heteroscedasticity
Wang et al. Multiple event identification and characterization by retrospective analysis of structured data streams
Lee et al. A study on the techniques of estimating the probability of failure
CN115423370A (zh) 一种继电保护设备健康状态评估方法及装置
CN115902557A (zh) 开关柜故障诊断处理方法、装置及非易失性存储介质
Apputhurai et al. Accounting for uncertainty in extremal dependence modeling using Bayesian model averaging techniques
Espinoza et al. Partially linear models and least squares support vector machines

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180904

RJ01 Rejection of invention patent application after publication