CN110232090B - 一种多视角时间序列异常点集成检测和可视化方法 - Google Patents

一种多视角时间序列异常点集成检测和可视化方法 Download PDF

Info

Publication number
CN110232090B
CN110232090B CN201910457709.7A CN201910457709A CN110232090B CN 110232090 B CN110232090 B CN 110232090B CN 201910457709 A CN201910457709 A CN 201910457709A CN 110232090 B CN110232090 B CN 110232090B
Authority
CN
China
Prior art keywords
data
abnormal
data point
matrix
anomaly
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910457709.7A
Other languages
English (en)
Other versions
CN110232090A (zh
Inventor
袁汉宁
王琴瑶
张棋帅
陈政聿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201910457709.7A priority Critical patent/CN110232090B/zh
Publication of CN110232090A publication Critical patent/CN110232090A/zh
Application granted granted Critical
Publication of CN110232090B publication Critical patent/CN110232090B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种多视角时间序列异常点集成检测和可视化方法,基于异常检测算法计算得出的数据点异常评分构建数据点异常评分矩阵,根据设定的视角数量对数据点异常评分矩阵进行分解,再对各视角下的数据点异常评分进行集成,形成更加准确的数据点异常评分值,从而有效地集成了各种时间序列异常检测算法,提高了数据点异常评分的准确性。

Description

一种多视角时间序列异常点集成检测和可视化方法
技术领域
本发明属于计算机应用技术领域,具体涉及一种多视角时间序列异常点集成检测和可视化方法。
背景技术
异常点是显著不同于预期对象的数据对象,时间序列是同一统计指标的数值按其发生的时间先后顺序排列而成的数列,时间序列异常检测是识别时间序列中显著不同于预期对象的数据对象的过程。时间序列中的异常点往往隐藏着重要信息,如代表设备故障、欺诈行为等信息。随着时序数据的广泛应用,时序数据异常点检测成为大数据挖掘领域的重要研究内容,具有重要理论与应用价值,其成果广泛应用于发动机状态检测、网络入侵检测、网络舆情监控、信用卡反欺诈、自然灾害分析等领域。
实际中时间序列可能具有各种形状和结构,且不同应用场景中对异常点的界定和理解也不同,难以使用单一的时间序列异常点检测模型实现有效的时间序列异常点检测。但现有的时间序列异常点检测算法主要是基于单一模型的,如基于ARIMA、基于指数平滑、基于马尔科夫链、隔离森林等方法。少量集成模型主要依赖数据或针对特定异常点检测算法,缺乏能有效集成多种时间序列异常检测算法的通用时间序列异常点集成检测模型。此外,由于时间序列存在可能具有各种形状和结构的特点,可视化方法是理解时间序列异常点的有效方法,但目前时间序列异常点可视化主要是基于单一视角的,不能实现不同视角下的时间序列异常点的多角度全方位展示和理解。
发明内容
有鉴于此,本发明提供了一种多视角时间序列异常点集成检测和可视化方法,基于异常检测算法计算得出的数据点异常评分构建数据点异常评分矩阵,根据设定的视角数量对数据点异常评分矩阵进行分解,再对各视角下的数据点异常评分进行集成,形成更加准确的数据点异常评分值,从而有效地集成了各种时间序列异常检测算法,提高了数据点异常评分的准确性。
本发明提供了一种多视角时间序列异常点集成检测和可视化方法,包括如下步骤:
步骤一、选择多种数据点异常检测算法分别计算各数据点的异常评分;
步骤二、根据步骤一中得到的各数据点的多个异常评分,以采用的异常检测算法为行、以检测的数据点为列,构建数据点异常评分矩阵;
步骤三、根据设定的特征视角数量G将所述数据点异常评分矩阵分解为两个正交矩阵,再将两个正交矩阵的行与列分别相乘得到G个不同视角下的数据点异常评分矩阵,采用可视化方法实现G个不同视角下的数据点异常评分矩阵的可视化;
步骤四、将步骤三中得到的G个不同视角下的数据点异常评分矩阵进行矩阵相加,得到集成数据点评分矩阵,再采用集成学习方法计算得到各数据点异常评分的集成结果,采用可视化方法实现集成数据点评分矩阵的可视化。
进一步地,所述步骤一中所述选择多种数据点异常检测算法的过程为,根据待检测数据是否为含有多条数据的时间序列数据选择异常检测算法,即,当待检测数据为含有多条数据的时间序列数据时,选择基于马尔科夫链、基于简单时序平均、基于加权移动平均及基于指数平滑的异常检测算法;当待检测数据为单条时间序列数据时,则选择基于回归分析、基于聚类距离、基于ARIMA模型、基于孤立森林及基于统计的异常检测算法。
进一步地,所述步骤三中所述根据设定的特征视角数量G将所述数据点异常评分矩阵分解为两个正交矩阵的过程为:设定公式(1)为目标函数:
Figure BDA0002077106230000031
其中,Psg为矩阵P(S*G)中第s行g列的元素,Qgt为矩阵Q(G*T)中第g行t列的元素,
Figure BDA0002077106230000032
为异常评分矩阵H和两个正交矩阵P(S*G)和Q(G*T)之积的KL散度,
Figure BDA0002077106230000033
是异常预测评分的误差;
公式(2)为损失函数:
Figure BDA0002077106230000034
其中,
Figure BDA0002077106230000035
为损失函数,
Figure BDA0002077106230000036
为正则化项;
基于设定的目标函数和损失函数,采用梯度下降法,计算得到正交矩阵P(S*G)和Q(G*T)。
进一步地,所述集成学习方法为投票法。
进一步地,所述可视化方法为热力图或时序图可视化方法。
有益效果:
本发明通过对多种异常检测算法分析结果进行多视角的集成形成更加准确的检测结果,因此本发明对使用的异常检测算法没有任何限制,能有效集成各种时间序列异常检测算法,具有通用性,并有效提高了异常点检测的准确率;通过设计异常评分的矩阵分解模型得到不同视角下数据点的异常分布,再采用可视化方法实现了从多个角度全方位地展示不同视角下的时间序列异常点分布。
附图说明
图1为本发明提供的一种多视角时间序列异常点集成检测和可视化方法流程图。
图2为本发明提供的一种多视角时间序列异常点集成检测和可视化方法的得到的原始H矩阵热力图。
图3为本发明提供的一种多视角时间序列异常点集成检测和可视化方法的视角一下的异常分布可视化结果图。
图4为本发明提供的一种多视角时间序列异常点集成检测和可视化方法的视角二下的异常分布可视化结果图。
图5为本发明提供的一种多视角时间序列异常点集成检测和可视化方法的视角三下的异常分布可视化结果图。
图6为本发明提供的一种多视角时间序列异常点集成检测和可视化方法的视角四下的异常分布可视化结果图。
图7为本发明提供的一种多视角时间序列异常点集成检测和可视化方法的视角五下的异常分布可视化结果图。
图8为本发明提供的一种多视角时间序列异常点集成检测和可视化方法输出的集成五个视角异常分布情况的H′矩阵热力图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
本发明提供的一种多视角时间序列异常点集成检测和可视化方法,其主要思想是:采用多种数据点异常检测算法分别计算各数据点的异常评分;根据步骤一中得到的各数据点的多个异常评分,以采用的异常检测算法为行、以检测的数据点为列,构建数据点异常评分矩阵;根据设定的特征视角数量G将所述数据点异常评分矩阵分解为两个正交矩阵,再将两个正交矩阵的行与列分别相乘得到G个不同视角下的数据点异常评分矩阵,采用可视化方法实现G个不同视角下的数据点异常评分矩阵的可视化;将步骤三中得到的G个不同视角下的数据点异常评分矩阵进行矩阵相加,得到集成数据点评分矩阵,再采用集成学习的方法计算得到各数据点异常评分的集成结果,采用可视化方法实现集成数据点评分矩阵的可视化。
本发明提供的一种多视角时间序列异常点集成检测和可视化方法,如图1所示,主要包括以下步骤:
步骤1、计算数据点异常评分
首先,根据待检测数据是否为含有多条数据的时间序列数据选择异常检测算法,即,当待检测数据为含有多条数据的时间序列数据时,选择异基于马尔科夫链、基于简单时序平均、基于加权移动平均及基于指数平滑等异常检测算法;当待检测数据为单条时间序列数据时,则选择基于回归分析、基于聚类距离、基于ARIMA模型、基于孤立森林及基于统计等异常检测算法。然后,采用上述方法,分别计算用户上传的数据中各个数据点的异常评分值,也就是数据点为异常点的概率。
这里,对大部分时间序列异常检测算法需要设置参数,在本发明中设置不同参数的同一类算法被认为是不同的算法。
步骤2、构建数据点异常评分矩阵
基于步骤1中由各个异常检测算法计算得到的所有数据点的异常评分,构建数据点异常评分矩阵H(S*T),其中S为异常检测算法的数目,T为待检测数据中的数据点个数,这里每个异常检测算法得到一个数据点,例如,H(S*T)中的元素H(s,t)代表使用第s个异常检测算法计算得到的第t个数据点p为异常点的概率值。
步骤3、根据设定的特征视角个数分解异常评分矩阵
根据设定的特征视角的个数G,考虑异常评分和评分的概率分布设计矩阵分解方法将评分矩阵H分解为两个正交矩阵P(S*G)和Q(G*T)的积,既H≈P(S*G)*Q(G*T)。为求解矩阵P和Q,设计如下的目标函数:
Figure BDA0002077106230000061
其中,Psg为矩阵P(S*G)中第s行g列的元素,Qgt为矩阵Q(G*T)中第g行t列的元素,
Figure BDA0002077106230000062
为异常评分矩阵H和两个正交矩阵P(S*G)和Q(G*T)之积的KL散度,
Figure BDA0002077106230000063
是异常预测评分的误差。通过添加二项正则式计算损失函数,损失函数如下:
Figure BDA0002077106230000064
其中,
Figure BDA0002077106230000065
为损失函数,
Figure BDA0002077106230000066
为L2正则化项。
通过梯度下降法求解矩阵,该种矩阵分解算法得到的预测评分不仅在数值上逼近未进行矩阵分解前的异常评分矩阵H(S*T),在概率分布上也逼近异常评分矩阵H(S*T)的分布。
再将矩阵P(S*G)中的每一列和Q(G*T)中的每一行相乘得到G个不同视角下的异常评分矩阵,即,每个数据点共有S*G个异常评分值。例如,当P中的第g列和Q中的第g行相乘时,结果如下所示:
P的第g列:
Figure BDA0002077106230000071
Q的第g行:(qg1,qg2,…,qgT)
Figure BDA0002077106230000072
同时,根据获得的不同视角下的数据点异常评分矩阵,采用热力图或时序图可视化方法实现不同视角下的数据点异常评分可视化。
步骤4、多视角下异常点集成检测
将步骤3中计算得到的G个不同视角下的异常评分矩阵进行矩阵相加运算,得到与异常评分矩阵H近似的集成数据点评分矩阵H′,再采用投票法计算集成数据点评分矩阵H′中每个数据点的集成异常评分。
同时,根据获得的集成数据点异常评分矩阵,采用热力图或时序图可视化方法实现可视化。
实施例1:
选取UCR时间序列数据库中的Trace数据集进行异常检测,选择多种时间序列异常点检测算法计算数据点为异常点的概率作为异常点评分;根据数据点为异常点的概率构建异常评分矩阵,矩阵元素H(s,t)表示采用时间序列异常点检测算法s计算得到的数据点t为异常点的概率,原始H矩阵热力图如图2所示;
假设当G=5时,基于异常点分布设计矩阵分解算法将异常评分矩阵分解为5个矩阵,绘制5个不同特征视角下异常评分矩阵的热力图实现不同特征视角下的异常点的可视化,如图3-图7所示,横轴为表示有30个数据点,纵轴表示有25种评分方法,颜色越深、数字相对越大则表示该数据点在此视角下为异常点的概率越大,由图可见多视角相当于有多个对异常的定义,从五张不同视角的热力图可以看出不同视角下对数据异常点的理解是不同的,有些数据点在视角一中为异常而在视角五中为正常值;然后,在每个矩阵中,采用多数投票法实现多个不同特征视角下的异常评分集成,再根据异常评分集成结果,绘制总体的异常检测图,如图8所示,最终通过此图来判断该点是否为异常点。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种多视角时间序列异常点集成检测和可视化方法,其特征在于,包括如下步骤:
步骤一、选择多种数据点异常检测算法分别计算各数据点的异常评分;
步骤二、根据步骤一中得到的各数据点的多个异常评分,以采用的异常检测算法为行、以检测的数据点为列,构建数据点异常评分矩阵;
步骤三、根据设定的特征视角数量G将所述数据点异常评分矩阵分解为两个正交矩阵,再将两个正交矩阵的行与列分别相乘得到G个不同视角下的数据点异常评分矩阵,采用可视化方法实现G个不同视角下的数据点异常评分矩阵的可视化;
步骤四、将步骤三中得到的G个不同视角下的数据点异常评分矩阵进行矩阵相加,得到集成数据点评分矩阵,再采用集成学习方法计算得到各数据点异常评分的集成结果,采用可视化方法实现集成数据点评分矩阵的可视化。
2.根据权利要求1所述的一种多视角时间序列异常点集成检测和可视化方法,其特征在于,所述步骤一中所述选择多种数据点异常检测算法的过程为,根据待检测数据是否为含有多条数据的时间序列数据选择异常检测算法,即,当待检测数据为含有多条数据的时间序列数据时,选择基于马尔科夫链、基于简单时序平均、基于加权移动平均及基于指数平滑的异常检测算法;当待检测数据为单条时间序列数据时,则选择基于回归分析、基于聚类距离、基于ARIMA模型、基于孤立森林及基于统计的异常检测算法。
3.根据权利要求1所述的一种多视角时间序列异常点集成检测和可视化方法,其特征在于,所述步骤三中所述根据设定的特征视角数量G将所述数据点异常评分矩阵分解为两个正交矩阵的过程为:设定公式(1)为目标函数:
Figure FDA0002969150950000021
其中,H(s,t)为数据点异常评分矩阵H(S*T)中的元素,Psg为矩阵P(S*G)中第s行g列的元素,Qgt为矩阵Q(G*T)中第g行t列的元素,
Figure FDA0002969150950000022
为异常评分矩阵H和两个正交矩阵P(S*G)和Q(G*T)之积的KL散度,
Figure FDA0002969150950000023
是异常预测评分的误差;
公式(2)为损失函数:
Figure FDA0002969150950000024
其中,
Figure FDA0002969150950000025
为损失函数,
Figure FDA0002969150950000026
为正则化项;
基于设定的目标函数和损失函数,采用梯度下降法,计算得到正交矩阵P(S*G)和Q(G*T)。
4.根据权利要求1所述的一种多视角时间序列异常点集成检测和可视化方法,其特征在于,所述集成学习方法为投票法。
5.根据权利要求1所述的一种多视角时间序列异常点集成检测和可视化方法,其特征在于,所述可视化方法为热力图或时序图可视化方法。
CN201910457709.7A 2019-05-29 2019-05-29 一种多视角时间序列异常点集成检测和可视化方法 Active CN110232090B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910457709.7A CN110232090B (zh) 2019-05-29 2019-05-29 一种多视角时间序列异常点集成检测和可视化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910457709.7A CN110232090B (zh) 2019-05-29 2019-05-29 一种多视角时间序列异常点集成检测和可视化方法

Publications (2)

Publication Number Publication Date
CN110232090A CN110232090A (zh) 2019-09-13
CN110232090B true CN110232090B (zh) 2021-07-09

Family

ID=67858191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910457709.7A Active CN110232090B (zh) 2019-05-29 2019-05-29 一种多视角时间序列异常点集成检测和可视化方法

Country Status (1)

Country Link
CN (1) CN110232090B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114969738B (zh) * 2022-05-27 2023-04-18 天翼爱音乐文化科技有限公司 一种接口异常行为监测方法、系统、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016056708A1 (ko) * 2014-10-10 2016-04-14 삼성에스디에스 주식회사 시계열 데이터의 분석을 통한 이상 감지 및 예측 시스템 및 방법
CN107463633A (zh) * 2017-07-17 2017-12-12 中国航天系统科学与工程研究院 一种基于eemd‑神经网络的实时数据异常值检测方法
CN108829878A (zh) * 2018-06-26 2018-11-16 北京理工大学 一种工业实验数据异常点检测方法及装置
CN109063366A (zh) * 2018-08-22 2018-12-21 深圳市建筑科学研究院股份有限公司 一种基于时间和空间加权的建筑性能数据在线预处理方法
CN109784374A (zh) * 2018-12-21 2019-05-21 西北工业大学 基于自适应邻近点的多视角聚类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080177994A1 (en) * 2003-01-12 2008-07-24 Yaron Mayer System and method for improving the efficiency, comfort, and/or reliability in Operating Systems, such as for example Windows

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016056708A1 (ko) * 2014-10-10 2016-04-14 삼성에스디에스 주식회사 시계열 데이터의 분석을 통한 이상 감지 및 예측 시스템 및 방법
CN107463633A (zh) * 2017-07-17 2017-12-12 中国航天系统科学与工程研究院 一种基于eemd‑神经网络的实时数据异常值检测方法
CN108829878A (zh) * 2018-06-26 2018-11-16 北京理工大学 一种工业实验数据异常点检测方法及装置
CN109063366A (zh) * 2018-08-22 2018-12-21 深圳市建筑科学研究院股份有限公司 一种基于时间和空间加权的建筑性能数据在线预处理方法
CN109784374A (zh) * 2018-12-21 2019-05-21 西北工业大学 基于自适应邻近点的多视角聚类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Fast search local extremum for maximal information;Shuliang Wang et al;《Journal of Computational and Applied Mathematics》;20170531;第372-387页 *
基于统计方法的异常点检测在时间序列数据上的应用;曹晨曦等;《合肥工业大学学报(自然科学版)》;20180930;第1284-1288页 *

Also Published As

Publication number Publication date
CN110232090A (zh) 2019-09-13

Similar Documents

Publication Publication Date Title
Yu et al. Multicollinearity in hierarchical linear models
Li et al. Applying various algorithms for species distribution modelling
Ye et al. Research on quantitative assessment of climate change risk at an urban scale: Review of recent progress and outlook of future direction
CN110738388B (zh) 关联图谱评估风险传导的方法、装置、设备和存储介质
Parnell et al. Early detection surveillance for an emerging plant pathogen: a rule of thumb to predict prevalence at first discovery
CN112132233A (zh) 一种基于有效影响因子的服刑人员危险行为预测方法及系统
Rogers Dengue: recent past and future threats
CN104076809B (zh) 数据处理装置以及数据处理方法
Menjoge et al. A diagnostic method for simultaneous feature selection and outlier identification in linear regression
Aziz et al. Machine learning-based soft computing regression analysis approach for crime data prediction
Yadav et al. Crime prediction using auto regression techniques for time series data
CN110162549B (zh) 一种火灾数据分析方法、装置、可读存储介质及终端设备
CN110232090B (zh) 一种多视角时间序列异常点集成检测和可视化方法
CN113364642A (zh) 网络安全态势感知可视化界面展示装置、系统、方法及设备
Manolakis et al. Count time-series analysis: A signal processing perspective
CN107885754B (zh) 基于lda模型从交易数据中提取信用变量的方法和装置
US8738564B2 (en) Method for pollen-based geolocation
Schon et al. How inter-state amity and animosity complement migration networks to drive refugee flows: A multi-layer network analysis, 1991–2016
CN115599774B (zh) 基于局部时空树回归模型的时空非平稳性分析方法及系统
US10698910B2 (en) Generating cohorts using automated weighting and multi-level ranking
CN113283484A (zh) 改进的特征选择方法、装置及存储介质
Igual et al. Regression analysis
Chang et al. A visualization decision support tool for multivariate SPC diagnosis using marginal CUSUM glyphs
Sommer Domestic autonomy and environmental international non-governmental organizations: a cross-national analysis of forest loss
Ma Discovering consensus preferences visually based on Gower plots

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant