CN115220940A - 时间序列异常预测和警报 - Google Patents

时间序列异常预测和警报 Download PDF

Info

Publication number
CN115220940A
CN115220940A CN202111346398.0A CN202111346398A CN115220940A CN 115220940 A CN115220940 A CN 115220940A CN 202111346398 A CN202111346398 A CN 202111346398A CN 115220940 A CN115220940 A CN 115220940A
Authority
CN
China
Prior art keywords
time series
series signal
anomaly
signal
anomalies
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111346398.0A
Other languages
English (en)
Inventor
J.多恩胡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Business Objects Software Ltd
Original Assignee
Business Objects Software Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Business Objects Software Ltd filed Critical Business Objects Software Ltd
Publication of CN115220940A publication Critical patent/CN115220940A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Educational Administration (AREA)
  • Medical Informatics (AREA)
  • Algebra (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Fuzzy Systems (AREA)
  • Health & Medical Sciences (AREA)

Abstract

提供了一种系统和方法,其可以基于另一个时间序列信号中协同出现且在先的异常来识别时间序列信号中异常的因果关系。在一个示例中,该方法可以包括识别第一数据值的时间序列信号内的重复出现的异常;基于第二数据值的时间序列信号中在先且协同出现的异常来确定第二数据值的时间序列信号,该第二数据值的时间序列信号是第一数据值的时间序列信号中的重复出现的异常的原因;以及存储第二数据值的时间序列信号中在先且协同出现的异常与第一数据值的时间序列信号中的重复出现的异常之间的相关性。

Description

时间序列异常预测和警报
技术领域
本发明涉及时间序列异常预测和警报。
背景技术
时间序列(time-series)数据包含在连续持续时间(例如,每小时、每天、每周、每月、每年等)观察到的顺序数据点(例如,数据值)。例如,月降雨量、日股价、年销售收入等是时间序列数据的示例。预报是一种机器学习过程,其可以用来观察时间序列数据的历史值,并预测时间序列数据的未来值。预测的时间序列值可以被绘制为随时间变化的多个数据点,并显示在用户界面上,以供分析师或其他用户可视化并根据预测可能采取措施。
在时间序列数据中,异常(anomaly)(也被称为离群值(outlier))是其值与数据的正常模式的值显著不同的数据点(单个实例或几个实例)。异常的原因通常包括数据或数据周围条件的意外改变。例如,机器故障、温度意外上升、意外的天气事件等。但是,由于异常通常是意外的,因此很难确定“何时”可能出现异常。
发明内容
根据本发明的一个方面,提供一种计算系统,包括:硬件处理器,被配置为识别第一数据值的时间序列信号内的重复出现的异常,并且基于第二数据值的时间序列信号中在先且协同出现的异常来确定第二数据值的时间序列信号,所述第二数据值的时间序列信号是第一数据值的时间序列信号中的重复出现的异常的原因;以及存储器,被配置为存储第二数据值的时间序列信号中在先且协同出现的异常与第一数据值的时间序列信号中的重复出现的异常之间的相关性。
根据本发明的一个方面,提供一种方法,包括:识别第一数据值的时间序列信号内的重复出现的异常;基于第二数据值的时间序列信号中在先且协同出现的异常来确定第二数据值的时间序列信号,所述第二数据值的时间序列信号是第一数据值的时间序列信号中的重复出现的异常的原因;以及存储第二数据值的时间序列信号中在先且协同出现的异常与第一数据值的时间序列信号中的重复出现的异常之间的相关性。
根据本发明的一个方面,提供一种方法,包括:识别第一时间序列信号内的重复出现的离群值;基于第一时间序列信号中的重复出现的离群值在预定距离内跟随第二时间序列值中的重复出现的信号改变而出现的频率,确定第二时间序列信号中的重复信号改变和第一时间序列信号中的重复出现的离群值之间的相关性;以及存储第二时间序列信号中的重复出现的信号改变和第一时间序列信号中的重复出现的离群值之间的相关性。
附图说明
参考以下结合附图的详细描述,示例实施例的特征和优点以及实现这些特征和优点的方式将变得更加清楚。
图1是示出根据示例实施例的异常警报系统的架构的图。
图2是示出根据示例实施例的具有异常警报的预报的时间序列信号的输出的图。
图3A是示出根据示例实施例的多个时间序列信号的曲线图的图。
图3B是示出根据示例实施例的、其中多个时间序列信号的异常数据相互比较的数据结构的图。
图3C是示出根据示例实施例的确定时间序列信号是否是另一个时间序列信号中异常的原因的过程的图。
图4是示出根据示例实施例的识别时间序列信号之间异常关系的因果模型的图。
图5是示出根据示例实施例的确定时间序列信号是另一个时间序列信号中异常的原因的方法的图。
图6是示出根据示例实施例的在本文的示例中使用的计算系统的图。
在整个附图和详细描述中,除非另有说明,相同的附图标记将被理解为指代相同的元件、特征和结构。为了清楚、说明和/或方便,可以放大或调整这些元件的相对尺寸和对这些元件的描绘。
具体实施方式
在以下描述中,阐述了具体细节,以便提供对各种示例实施例的透彻理解。应当理解,对于本领域技术人员来说,对实施例的各种修改是显而易见的,并且在不脱离本公开的精神和范围的情况下,本文所定义的一般原理可以被应用于其他实施例和应用。此外,在以下描述中,出于解释的目的,阐述了多个细节。然而,本领域普通技术人员应该理解,可以在不使用这些具体细节的情况下实践实施例。在其他实例中,没有示出或描述公知的结构和过程,以免不必要的细节模糊描述。因此,本公开不旨在限于所示的实施例,而是符合与本文所公开的原理和特征一致的最宽范围。
时间序列预报模型是用于预测在相等的时间增量(例如,分钟、天、小时、周、年等)上记录的项目(例如,成本、数量、金额、强度等)的值的单个集合。这些模型可以支持商业应用中常见的数据属性,诸如趋势、季节性、波动、剩余和时间相关性。可以基于可用的历史数据来训练模型特征。然后,训练好的模型可以用于预报数据的未来值。时间序列预报模型的一些示例包括指数平滑(exponential smoothing,ETS)和自回归积分移动平均(autoregressive integrated moving average,ARIMA),仅举几例。
大多数时间序列预报模型都是单变量的,并且试图学习随时间动态变化的时间序列信号。为了训练模型,对训练数据(历史上测量的数据值)执行模型的一系列模拟(机器学习算法)。结果得到可以预测未来数据模式的正常输出的模型。训练数据中经常会遇到异常。异常是其值与时间序列信号的正常模式或趋势显著不同的不规律的数据点。异常可能是不可预测和意想不到的外部因素的结果。当在训练数据中遇到异常时,通常阻止这些不规律部分被用于训练模型,以防止模型被异常和意外的行为扭曲。
示例实施例针对一种新的系统,该系统能够确定未来何时可能出现异常,并在异常出现之前向屏幕、应用等输出警告。预测性系统充当针对异常的早期预警系统,使观察者/分析者能够在异常出现之前采取缓解措施,以防止异常或在异常出现时更好地处理异常。在示例实施例中,(多个)预测性模型可以用于识别其他时间序列信号中的事件的模式(pattern),该其他时间序列信号促成或以其他方式引起目标时间序列信号中的异常。举个简单的示例,由于天气温暖,因此7月份冰淇淋的销售额通常会很高。当一年中的该时间的某个时间段(例如,3天或更多天)异常地冷时,可能会出现异常(销售额急剧下降)。因此,温度的时间序列信号中的异常可以与冰淇淋销售收入的时间序列信号中的异常具有因果关系。
本文所描述的预测性系统通过交叉检查在其他时间序列信号中协同出现(co-occurring)的异常(或其他事件)来识别目标时间序列信号的因果关系。例如,表示随时间变化的装运延迟的第一时间序列信号可以被确定为表示随时间变化的天然气价格的第二时间序列信号中异常的原因。在这个示例中,天然气价格中的异常(诸如价格的急剧上涨)可能是由装运延迟中协同出现且在先(preceding)的异常(例如,海上损失的时间等)引起的。也就是说,第二时间序列信号中的异常(至少部分地)是由第一时间序列信号中在先且协同出现的异常引起的。
本文所描述的预测性系统可以基于各种属性(诸如是相应异常协同出现的频率、相应异常之间的平均延迟等)来识别时间序列信号之间的这种因果关系。预测性系统可以生成存储第一时间序列信号中的异常和第二时间序列信号中的异常之间的关系的模型(例如,因果模型或因果图)。然后预测性系统可以使用因果模型来基于在第一时间序列信号中测量的实时数据来预测第二时间序列信号中异常的未来出现。此外,基于平均延迟,因果模型可以预测异常预计在未来“何时”出现。
时间序列分析(Time-series analysis,TSA)专用于从信号的历史分析中获知信号随时间的规律性。然而,TSA不能对目标信号内的异常事件进行建模,这些异常事件在本文中被称为异常。异常通常是意想不到的,并且不是信号的动态特征(诸如信号的趋势、季节性/周期性、残差等方面)的结果。相反,异常通常是与感兴趣的信号相关的其他信号(例如,数据值)中的异常的结果。例如,飞机机舱压力中的异常可能是飞机冷却系统中的异常与飞机高度中的异常相结合的结果。将这些异常联系在一起一直是困难的。此外,识别这种异常的未来出现是困难的。
示例实施例使用如在图1的示例中进一步描述的预测性系统来预测异常的未来出现。具体地,预测性系统可以识别目标信号中的、作为一个或多个其他时间序列信号中的异常(或其他信号改变事件)的结果的异常之间的相关性。目标信号通常具有与一个或多个其他时间序列信号中的异常以相同的频率协同出现并且具有一致的延迟(例如,目标信号中的异常在一个或多个其他时间序列信号中的异常之后的特定时间段之后发生)的异常。因此,一个或多个其他时间序列信号中的异常先于该时间序列信号中的异常,并且以相似的频率协同出现,并且相互之间具有相同的延迟。
此外,预测性系统可以识别目标时间序列信号(例如,感兴趣的信号)中异常的原因的因果解释。该解释可以描述其他时间序列信号,它出现的时间,以及为什么它被认为是目标信号中的异常的原因。此外,预测性系统可以向提供即将到来的异常的通知的用户界面输出警告/警报。例如,可以沿着目标时间序列信号的预报(未来值)的图显示警告。在一些实施例中,因果分析可以识别作为目标时间序列信号中异常的原因的单个时间序列信号。作为另一个示例,因果分析可以识别作为目标时间序列信号中异常的原因的多个时间序列信号。
图1示出了根据示例实施例的异常警报系统100的架构。图2示出了根据示例实施例的具有异常警报的预报的时间序列信号的输出,该异常警报可以由图1中的异常警报系统100输出。参考图1,系统100包括主机平台120,诸如云平台、数据库、网络服务器、本地服务器、用户设备、设备组合等。
在图1的示例中,主机平台120包括可以(例如,经由对训练数据110的迭代执行)训练时间序列预报模型、并且执行训练好的时间序列预报模型以对时间序列值的未来值进行预测的机器学习模块121。在示例实施例中,对时间序列预报模型的类型或可以使用的数据类型没有限制。数据类型包括销售量、收入、价格、压力、振动、温度等。主机平台120还包括识别由机器学习模块121的时间序列预报模型输出的时间序列信号内的异常的异常检测器122。这里,异常检测器122可以基于异常数据点和非异常数据点的值的差来识别时间序列信号中的离群值或其他不规律部分,这些非异常数据点具有通常由标准时间序列建模技术捕获的规律性。例如,具有比最近十(10)个数据点的平均值超出预定阈值的值的数据点可以被认为是异常,但是实施例不限于此。可以使用任何已知的异常检测过程。
主机平台120还包括可以交叉检查不同的时间序列信号,以识别促成/引起其他时间序列信号中的异常的时间序列信号的因果图构建器123。这些因果关系可以存储在因果图130中,因果图130可以包括模型、图等,如图4的示例所示。主机平台120可以使用因果图130来分析感兴趣的信号(以及与其具有因果关系的其他时间序列信号)的传入时间序列数据,以检测在感兴趣的时间序列信号中何时将出现未来异常。图3A-图3C提供了用于识别因果关系并构建图4所示因果图的过程的示例。
主机平台120还包括可以从因果图中提取关于过去异常的信息的异常解释器124,关于过去异常的信息可以用于提供关于过去异常的文本解释,这些过去异常在来自不同时间序列的其他过去异常之后一致地出现。过去异常信息可以嵌入因果图中,或者可以单独地存储(例如,在表格、数组、文档、对象等中)。主机平台120还包括可以从机器学习模块121接收预报的时间序列信号、基于在因果图中识别出的其他时间序列信号中协同出现且在先的异常(或其他事件)来预测感兴趣的时间序列信号中的未来异常、并如图2所示将警报输出到用户界面的异常警报器125。
主机平台120还包括可以从机器学习模块121、异常解释器124和异常警报器125接收数据、并且呈现可视化(例如,用户界面140)的图表呈现器126,可视化包括感兴趣的时间序列信号的曲线图或其他图表以及对由异常警报器125检测到的即将到来的未来异常的警告或早期警报。感兴趣的时间序列信号的曲线图还可以包括对先前异常的解释以及先前异常的细节,以及协同出现的时间序列信号内的变量或参数,其是感兴趣的时间序列信号中异常的成因/原因。模块(机器学习模块121、异常检测器122、因果图构建器123、异常解释器124、异常警报器125和图表呈现器126)中的每一个可以由在主机平台120内实现的处理设备(例如,一个或多个硬件处理器)来运行和执行。
图2示出了可以由图1的图表呈现器126输出的用户界面140的非限制性示例。参考图2,示出了包括销售收入随时间变化的曲线图的图。特别地,实际收入信号210是从已经发生的数据中测量出的,而预报的收入信号220是从先前的收入数据中预测出的。用户界面140示出了实际收入信号210与预报的收入信号220的比较。在这个示例中,异常在实际收入信号210中的点212处出现。该异常212代表实际收入信号21中最近出现的异常。这里,预测性系统(例如,主机平台120的模块)确定异常212的原因是未示出的另一个时间序列信号(温度)中的事件(例如,异常)。图表呈现器126可以在窗口214中显示关于该异常的信息。这里,窗口214可以包括对异常的描述、因果时间序列信号的标识符、出现在因果时间序列信号中的事件的标识符、因果时间序列信号中的异常和感兴趣的时间序列信号之间经过的时间等。
用户界面140还包括预测的异常222。这里,异常警报器125可以检测到未来异常222可能由于在不久的过去来自不同时间序列的其他事实异常的存在而出现。在这个示例中,主机平台120已经检测到与销售收入中的异常相关的温度的变化。因此,主机平台120还确定销售收入中的异常(先前与温度中的异常相关)也可能出现。主机平台120还可以基于根据两个时间序列信号中的异常对之间的先前出现测量出的延迟来预测异常将“何时”出现,如在图3B的示例中进一步描述的。图表呈现器126可以输出包括对预计的未来异常的警报以及对为什么预测到该异常的解释的窗口224,该解释包括关于相关因果时间序列信号中协同出现且在先的异常的信息。
在示例实施例中,目标信号中的异常被确定为是由不同时间序列信号中的异常或其他信号改变事件引起的。本文所描述的预测性系统可以接收在时间上一起出现的多个时间序列信号。预测性系统可以交叉分析不同的信号,以识别在另一个时间序列信号中引起异常的时间序列信号。可以用于识别这种因果相关性的指标之一是目标信号中的异常和因果信号中的异常的延迟的协同出现频率。协同出现频率可以用于构建因果图。然后,该因果图可以用于预测未来异常的出现,其中在因果信号中检测到协同出现的异常。
图3A示出了根据示例实施例的多个时间序列信号的曲线图300A。这里,第一数据值由时间序列信号310表示,第二数据值由时间序列信号320表示,并且第三数据值由时间序列信号330表示。数据值可以是任何种类的数据值,诸如温度、压力、加速度、距离、速度、销售量、收入、利润、价格、单位等。在该示例中,时间序列信号310是感兴趣的目标信号,而系统试图确定时间序列信号320和330中的任一个或二者是否是时间序列信号310中异常的原因。
在图3A中,时间序列信号310包括三个异常311、312和313。例如,异常311-313可以由图1中描述的异常检测器122识别。类似地,时间序列信号320包括三个异常321、322和323。同时,时间序列信号330包括两个异常331和332。系统可以将不同时间序列信号内的异常配对在一起。例如,异常311和异常321可以配对在一起。类似地,异常311和异常331可以配对在一起。配对可以基于异常出现的时间段和每个异常协同出现的次数。
如果每个异常不拟合先验分布,则可以对其进行识别。例如,如果线性回归在信号的时间序列点上全局拟合得很好,只有几个点离这条线“很远”,那么这几个点就被认为是异常。这里,可以将每个点与点和线之间的预定阈值距离进行比较,以确定该点是否离线足够远而被认为是异常。可以通过对信号应用简单差分来识别突变和局部变化,以检测异常(离群值)。异常检测器122还可以提供具有每个异常的数据记录,诸如序列ID、曲线图上的时间点、异常类型等。异常及其数据可以存储在存储器中,并被访问以与其他时间序列信号中的异常进行交叉比较。
曲线图300A还标识了时间序列信号320中异常出现的时间和时间序列信号310中配对的异常协同出现的时间之间的延迟值(时间量)。类似地,时间序列信号330中异常出现的时间和时间序列信号310中配对的异常出现的时间之间也产生延迟值。例如,异常321和出现异常311的出现之间的延迟是14分钟。异常331和异常311的出现之间的延迟是10分钟。协同出现的频率和延迟统计都可以用于确定因果关系。
图3B是示出根据示例实施例的、其中多个时间序列信号的异常数据相互比较的数据结构300B。数据结构300B可以是表格、数组、文档、电子表格、文件等。数据结构300B包括多个列和多个行,其中列表示时间点,行表示信号。数据结构300B中的单元340可以由预测性系统基于信号中异常的出现、用异常342来标记。在该示例中,信号310包括三个异常(对应于图3A中的311、312和313),并且它们出现在时间T4、T9和T15。同时,信号320包括出现在T2、T7和T13的异常。此外,信号330包括在时间T3和T8出现的异常。
图3C示出了根据示例实施例的确定时间序列信号是否是另一个时间序列信号中异常的原因的过程300C。例如,过程300C可以由诸如软件应用、计算设备、云平台、数据库、其组合等系统来执行。在这个示例中,使用三个属性来确定第二时间序列信号中的异常是否是第一时间序列信号中异常的原因。这三个属性包括协同出现的异常对的数量、在先(precedence)分数(将在下面进一步定义)和延迟系数值(将在下面进一步定义)。
在350中,系统检测所提供的时间序列信号中的每一个的异常。在351中,系统将协同出现的异常配对在一起。如果第二信号中的异常在第一信号中没有协同出现的对,或者反之亦然,则跳过该异常。配对过程可以识别在同一时间范围内出现的两个信号中的异常。在352中,系统将配对的异常的数量与预定阈值进行比较。这里,阈值可以是由软件的用户或操作者设置的任何期望的阈值。阈值可以被设置为使得足够多的对(例如,5个对或更多个对等)在异常在先分数被确定之前被找到。如果异常对的数量低于预定阈值,则该过程可以终止,并在358中确定不存在因果关系。
如果在352中确定比率高于预定阈值,则在353中,系统基于下面的等式1为两个信号生成在先分数:
在先分数(PS)=2/((1/(NPP/N(Ai)))+1/(NPP/N(Aj))))
这里,(i)表示目标信号,(j)表示因果信号。在等式1中,NPP表示两个信号中的异常之间的对(被称为在先对)的数量,N(Ai)是目标信号(i)中异常的计数,N(Aj)是因果信号(j)中异常的计数。此外,在354中,系统将在先分数与预定阈值(例如,90%等)进行比较。如果系统确定在先分数高于预定阈值,则系统继续到步骤355,否则,系统在358确定没有因果关系。
如果等式1被应用于图3A中的信号310(作为目标信号i)和图3A中的信号320(作为因果信号j),在先分数将如下:
PS=2/((1/(3/3)))+1/(3/3)))=1。
在该示例中,PS等于1意味着在观察过去的事实时,感兴趣(目标信号)的异常之前不断出现因果信号的异常。PS是对来自因果信号的异常在不久的将来引起目标信号中的异常的置信度的统计度量。此外,在该示例中,信号320和信号310具有为1的完美在先分数,这意味着信号320中的异常很可能是信号310中的异常的原因。此外,在354中,在先分数将与预定义的阈值进行比较,并且将被认为高于阈值(例如,100%大于90%等)。作为另一个示例,如果等式1被应用于作为目标信号的信号310和作为因果信号的信号330,在先分数将如下:
PS=2/((1/(2/3)))+1/(2/2))))=0.8
在该示例中,信号330中的异常可能是信号320中的异常的原因,但是这将取决于阈值是否低于0.8或80%。如果阈值较高(例如,90%),则该过程将以指示不存在因果关系的决定结束。
假设系统在354中确定在先分数高于预定阈值,则在355中,系统确定配对的异常(例如,因果信号中的异常和感兴趣的目标信号中的相应的配对的异常)之间的延迟系数值。例如,延迟系数值(delay coefficient value,DCV)可以通过将标准偏差(standarddeviation,STD)除以延迟均值(delay mean,DM)来确定。再次参考两个信号320和310的示例,延迟均值如下:
DM=(14分钟+13分钟+16分钟)/3=14.33
接下来,系统通过从每个数据点减去延迟均值、对差求平方、将差的平方相加、除以比数据点的数量小1的数、然后取平方根(SQUARE ROOT)来确定标准偏差(STD),结果如下:
(14-14.33)2=0.11
(13-14.33)2=1.78
(16-14.33)2=2.78
STD=SQUARE ROOT((0.109+1.777+2.777)/2)=2.33分钟
最后,延迟系数值可以通过取STD/DM并乘以100%来确定。这里,DCV=(2.33/14.33)*100%=16.25%。DCV用相对单位而不是时间单位来度量因果异常和结果得到的异常之间的延迟的可变性。接下来,在356中,系统确定延迟系数值是否小于阈值(例如,25%等)。如果小于阈值,则延迟足够相似,使得在第二信号中的异常和目标信号中的异常之间存在可能的因果关系。这里,在357中,系统确定存在因果联系,因为系统已经确定存在足够的异常对、对之间足够的在先性以及对中异常之间的共同延迟。然而,如果系统确定延迟系数大于预定阈值,则系统可以在358中确定不存在因果关系。
图4示出了根据示例实施例的识别时间序列信号之间异常关系的因果模型400。预测性系统可以使用因果模型400来基于其他信号的实时数据预测目标信号中异常的未来出现。参考图4,在使用图3C中描述的过程300C找到时间序列信号之间的因果关系之后,系统可以建立标识不同时间序列信号之间的因果关系的图的因果模型400。因果模型400包括表示不同信号的节点402,以及节点之间的链接404,其中指针指示因果关系。
在该示例中,由节点412表示的信号S2内的异常和由节点414表示的信号S4内的异常两者被确定为由节点416表示的信号S5中的异常的共同原因。在该示例中,运算符418可以被添加到图中,以指示S2异常和S4异常两者必须存在,以供系统预测S5中异常的出现。作为另一个示例,OR(或)运算符可以用于指定仅需要这些信号之一中的异常来预测目标信号S5的异常的未来出现。此外,关于目标信号S5,因果模型400可以包括由过程300C确定的信号S2的细节420和由过程300C确定的信号S4的细节430。这些细节420和430可以从因果模型400中提取,并在输出警报时显示。
图5示出了根据示例实施例的确定时间序列信号是另一个时间序列信号中异常的原因的方法500。例如,方法500可以由数据库节点、云平台、服务器、计算系统(用户设备)、设备/节点的组合等来执行。参考图5,在510中,该方法可以包括识别第一数据值的时间序列信号内的重复出现的(recurring)异常。例如,异常可以是其值比时间序列信号中的其他值超出预定阈值的时间序列数据点。异常可以表示不拟合数据值的正常趋势或模式的离群值。
在520中,该方法可以包括基于作为第一数据值的时间序列信号中的重复出现的异常的原因的第二数据值的时间序列信号中在先且协同出现的异常来确定第二数据值的时间序列信号。此外,在530中,该方法可以包括存储第二数据值的时间序列信号中在先且协同出现的异常与第一数据值的时间序列信号中的重复出现的异常之间的相关性。
虽然未在图5中示出,但是该方法还可以包括经由机器学习模型来确定第一数据值的未来时间序列信号,该未来时间序列信号包括第一数据值随时间的未来值。在该示例中,该方法还可以包括经由存储的相关性,基于在第二数据值的新的时间序列信号中检测到的在先且协同出现的事件,来检测第一数据值的未来信号中的未来异常。此外,该方法可以包括在这种异常实际出现之前输出对检测到的未来异常的警报(早期警告)。换句话说,该方法可以在异常发生之前输出警告,从而使得数据分析师、应用或其他系统能够采取补救措施来防止异常或在异常出现的情况下进行调整。
在一些实施例中,该方法还可以包括将第一数据值的时间序列信号中的异常与第二数据值的时间序列信号中的异常进行配对,并将配对的异常的映射存储在数据结构中。在一些实施例中,确定可以包括:当配对的异常大于预定阈值时,确定第二数据值的时间序列信号是第一数据值的时间序列信号中重复出现的异常的原因。在一些实施例中,该方法可以包括:对于每个异常的配对,识别第二数据值的时间序列信号中的相应异常和第一数据值的时间序列信号中的配对的异常之间的延迟,以生成多个所识别的延迟,并且将多个所识别的延迟与配对的异常的相应的映射相关联地存储在数据结构中。在一些实施例中,确定还可以包括:基于所识别的延迟来确定第二数据值的时间序列信号是第一数据值的时间序列信号中重复出现的异常的原因。
在一些实施例中,该方法还可以包括:基于第三数据值的时间序列信号中不同的在先且协同出现的异常来确定第三数据值的时间序列信号,该第三数据值的时间序列信号也是第一数据值的时间序列信号中重复出现的异常的原因。在该示例中,该方法还可以包括:存储第三数据值的时间序列信号中不同的在先且协同出现的异常与第一数据值的时间序列信号中的重复出现的异常之间的第二相关性。该相关性可以存储在主机设备的存储器中。
图6示出了根据示例实施例的计算系统600,该计算系统600可以用在本文所描述的任何方法和过程中。例如,计算系统600可以是数据库节点、服务器、云平台等。在一些实施例中,计算系统600可以分布在多个计算设备(诸如多个数据库节点)上。参考图6,计算系统600包括网络接口610、处理器620、输入/输出630和存储设备640,诸如内存存储等。尽管未在图6中示出,计算系统600也可以包括或电连接到其他组件,诸如显示器、(多个)输入单元、接收器、发送器、持久盘等。处理器620可以控制计算系统600的其他组件。
网络接口610可以通过诸如互联网、私有网络、公共网络、企业网络等网络发送和接收数据。网络接口610可以是无线接口、有线接口或其组合。处理器620可以包括一个或多个处理设备,每个处理设备包括一个或多个处理核心。在一些示例中,处理器620是多核处理器或多个多核处理器。此外,处理器620可以是固定的或者是可重新配置的。输入/输出630可以包括接口、端口、电缆、总线、板、线等,用于向计算系统600输入数据和从计算系统600输出数据。例如,数据可以被输出到计算系统600的嵌入式显示器、外部连接的显示器、连接到云的显示器、另外的设备等。网络接口610、输入/输出630、存储设备640或其组合可以与在其他设备上执行的应用进行交互。
存储设备640不限于特定的存储设备,并且可以包括任何已知的存储器设备,诸如RAM、ROM、硬盘等,并且可以包括或不包括在数据库系统、云环境、网络服务器等中。存储设备640可以存储软件模块或其他指令,其可以由处理器620执行以执行图5所示的方法。根据各种实施例,存储设备640可以包括具有多个表格、记录、分区和子分区的数据存储。存储设备640可用于存储数据库记录、文档、条目等。
基于前述说明书可以理解,本公开的上述示例可以使用包括计算机软件、固件、硬件或其任意组合或子集的计算机编程或工程技术来实现。根据本公开所讨论的示例,具有计算机可读代码的任何这样的最终程序可以被包含或提供在一个或多个非暂时性计算机可读介质中,从而制成计算机程序产品,即制品。例如,非暂时性计算机可读介质可以是但不限于固定驱动器、磁盘、光盘、磁带、闪存、外部驱动器、诸如只读存储器(ROM)、随机访问存储器(RAM)的半导体存储器和/或诸如互联网、云存储、物联网(IoT)或其他通信网络或链路的任何其他非暂时性发送和/或接收介质。包含计算机代码的制品可以通过直接从一种介质执行代码、通过将代码从一种介质复制到另一种介质、或者通过在网络上传输代码来制造和/或使用。
计算机程序(也被称为程序、软件、软件应用、“App”或代码)可以包括用于可编程处理器的机器指令,并且可以用高级过程和/或面向对象的编程语言和/或汇编/机器语言来实现。如本文所使用的,术语“机器可读介质”和“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置、云存储、物联网和/或设备(例如,磁盘、光盘、存储器、可编程逻辑器件(PLD)),包括接收机器指令作为机器可读信号的机器可读介质。然而,“机器可读介质”和“计算机可读介质”不包括瞬时信号。术语“机器可读信号”是指可以用于向可编程处理器提供机器指令和/或任何其他类型数据的任何信号。
本文对过程的上述描述和说明不应被视为暗示执行过程步骤的固定顺序。相反,处理步骤可以以任何可行的顺序执行,包括同时执行至少一些步骤。尽管已经结合具体示例描述了本公开,但是应当理解,在不脱离所附权利要求中阐述的本公开的精神和范围的情况下,可以对所公开的实施例进行对本领域技术人员而言显而易见的各种改变、替换和变更。

Claims (20)

1.一种计算系统,包括:
硬件处理器,被配置为识别第一数据值的时间序列信号内的重复出现的异常,并且基于第二数据值的时间序列信号中在先且协同出现的异常来确定第二数据值的时间序列信号,所述第二数据值的时间序列信号是第一数据值的时间序列信号中的重复出现的异常的原因;以及
存储器,被配置为存储第二数据值的时间序列信号中在先且协同出现的异常与第一数据值的时间序列信号中的重复出现的异常之间的相关性。
2.根据权利要求1所述的计算系统,其中,所述处理器还被配置为经由机器学习模型来确定包括第一数据值随时间的未来值的第一数据值的未来时间序列信号,并且经由所存储的相关性,基于在第二数据值的新的时间序列信号中检测到的在先且协同出现的事件,来检测第一数据值的未来信号中的未来异常。
3.根据权利要求2所述的计算系统,其中,所述处理器还被配置为输出警告检测到未来异常的警报。
4.根据权利要求1所述的计算系统,其中,所述处理器还被配置为将第一数据值的时间序列信号中的异常与第二数据值的时间序列信号中的异常进行配对,并将配对的异常的映射存储在存储器的数据结构中。
5.根据权利要求4所述的计算系统,其中,所述处理器被配置为当所述配对的异常多于预定阈值时,确定第二数据值的时间序列信号是第一数据值的时间序列信号中的重复出现的异常的原因。
6.根据权利要求4所述的计算系统,其中,所述处理器还被配置为对于异常的每次配对,识别第二数据值的时间序列信号中的相应异常和第一数据值的时间序列信号中的配对的异常之间的延迟,以生成多个所识别的延迟,并且将多个所识别的延迟与配对的异常的相应的映射相关联地存储在数据结构中。
7.根据权利要求6所述的计算系统,其中,所述处理器还被配置为基于所识别的延迟来确定第二数据值的时间序列信号是第一数据值的时间序列信号中的重复出现的异常的原因。
8.根据权利要求1所述的计算系统,其中,所述处理器还被配置为基于第三数据值的时间序列信号中不同的在先且协同出现的异常来确定第三数据值的时间序列信号,所述第三数据值的时间序列信号也是第一数据值的时间序列信号中的重复出现的异常的原因,并且
所述存储器还被配置为存储第三数据值的时间序列信号中不同的在先且协同出现的异常与第一数据值的时间序列信号中的重复出现的异常之间的第二相关性。
9.一种方法,包括:
识别第一数据值的时间序列信号内的重复出现的异常;
基于第二数据值的时间序列信号中在先且协同出现的异常来确定第二数据值的时间序列信号,所述第二数据值的时间序列信号是第一数据值的时间序列信号中的重复出现的异常的原因;以及
存储第二数据值的时间序列信号中在先且协同出现的异常与第一数据值的时间序列信号中的重复出现的异常之间的相关性。
10.根据权利要求9所述的方法,还包括:
经由机器学习模型来确定第一数据值的未来时间序列信号,所述未来时间序列信号包括第一数据值随时间的未来值;以及
经由所存储的相关性,基于在第二数据值的新的时间序列信号中检测到的在先且协同出现的事件,来检测第一数据值的未来信号中的未来异常。
11.根据权利要求10所述的方法,还包括输出警告检测到未来异常的警报。
12.根据权利要求9所述的方法,还包括:
将第一数据值的时间序列信号中的异常与第二数据值的时间序列信号中的异常进行配对,以及将配对的异常的映射存储在数据结构中。
13.根据权利要求12所述的方法,其中,确定包括:当所述配对的异常多于预定阈值时,确定第二数据值的时间序列信号是第一数据值的时间序列信号中的重复出现的异常的原因。
14.根据权利要求12所述的方法,还包括:
对于异常的每次配对,识别第二数据值的时间序列信号中的相应异常和第一数据值的时间序列信号中的配对的异常之间的延迟,以生成多个所识别的延迟,以及将多个所识别的延迟与配对的异常的相应的映射相关联地存储在数据结构中。
15.根据权利要求14所述的方法,其中,所述确定还包括:基于所识别的延迟来确定第二数据值的时间序列信号是第一数据值的时间序列信号中的重复出现的异常的原因。
16.根据权利要求9所述的方法,还包括:
基于第三数据值的时间序列信号中不同的在先且协同出现的异常来确定第三数据值的时间序列信号,所述第三数据值的时间序列信号也是第一数据值的时间序列信号中的重复出现的异常的原因;以及
存储第三数据值的时间序列信号中不同的在先且协同出现的异常与第一数据值的时间序列信号中的重复出现的异常之间的第二相关性。
17.一种方法,包括:
识别第一时间序列信号内的重复出现的离群值;
基于第一时间序列信号中的重复出现的离群值在预定距离内跟随第二时间序列值中的重复出现的信号改变而出现的频率,确定第二时间序列信号中的重复信号改变和第一时间序列信号中的重复出现的离群值之间的相关性;以及
存储第二时间序列信号中的重复出现的信号改变和第一时间序列信号中的重复出现的离群值之间的相关性。
18.根据权利要求17所述的方法,还包括:
经由机器学习模型确定第一时间序列信号的未来信号;以及
经由所存储的相关性,基于在第二时间序列信号的新的信号中检测到的重复出现的信号改变的实例,检测第一时间序列信号的未来信号中的未来异常。
19.根据权利要求17所述的方法,还包括:
将第一时间序列信号中的异常与第二时间序列信号中的信号改变进行配对,以及将配对的映射存储在数据结构中。
20.根据权利要求19所述的方法,其中,所述确定还包括:当配对多于预定阈值时,确定第二时间序列信号是第一时间序列信号中的重复出现的异常的原因。
CN202111346398.0A 2021-04-15 2021-11-15 时间序列异常预测和警报 Pending CN115220940A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/231,057 2021-04-15
US17/231,057 US20220335347A1 (en) 2021-04-15 2021-04-15 Time-series anomaly prediction and alert

Publications (1)

Publication Number Publication Date
CN115220940A true CN115220940A (zh) 2022-10-21

Family

ID=78535996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111346398.0A Pending CN115220940A (zh) 2021-04-15 2021-11-15 时间序列异常预测和警报

Country Status (3)

Country Link
US (1) US20220335347A1 (zh)
EP (1) EP4075306A1 (zh)
CN (1) CN115220940A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117787568B (zh) * 2024-02-23 2024-05-24 深圳市南粤建工有限公司 一种道路施工进度智能监测及预警方法

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8032023B2 (en) * 2008-11-07 2011-10-04 Alcatel Lucent Reconfigurable DWDM wavelength switch based on complementary bandpass filters
JP2011145846A (ja) * 2010-01-14 2011-07-28 Hitachi Ltd 異常検知方法、異常検知システム、及び異常検知プログラム
US8645304B2 (en) * 2011-08-19 2014-02-04 International Business Machines Corporation Change point detection in causal modeling
FR2988499B1 (fr) * 2012-03-23 2014-12-19 Univ Bretagne Occidentale Procede de detection d'au moins une anomalie dans un signal observe, produit programme d'ordinateur et dispositif correspondants
US9727533B2 (en) * 2014-05-20 2017-08-08 Facebook, Inc. Detecting anomalies in a time series
US9961571B2 (en) * 2015-09-24 2018-05-01 Futurewei Technologies, Inc. System and method for a multi view learning approach to anomaly detection and root cause analysis
US11082439B2 (en) * 2016-08-04 2021-08-03 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
US10635563B2 (en) * 2016-08-04 2020-04-28 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
DE102017000889A1 (de) * 2017-01-27 2018-08-02 Christian Overmann Modulares optisches Aufnahmesystem
CN107203806B (zh) * 2017-05-15 2020-01-10 东软集团股份有限公司 数据异常检测方法、装置、可读存储介质及电子设备
JP2019061577A (ja) * 2017-09-27 2019-04-18 パナソニックIpマネジメント株式会社 異常判定方法及びプログラム
US10628252B2 (en) * 2017-11-17 2020-04-21 Google Llc Real-time anomaly detection and correlation of time-series data
US10771488B2 (en) * 2018-04-10 2020-09-08 Cisco Technology, Inc. Spatio-temporal anomaly detection in computer networks using graph convolutional recurrent neural networks (GCRNNs)
US11860971B2 (en) * 2018-05-24 2024-01-02 International Business Machines Corporation Anomaly detection
US11620528B2 (en) * 2018-06-12 2023-04-04 Ciena Corporation Pattern detection in time-series data
US20210089927A9 (en) * 2018-06-12 2021-03-25 Ciena Corporation Unsupervised outlier detection in time-series data
JP7031743B2 (ja) * 2018-06-28 2022-03-08 日本電気株式会社 異常検知装置
US11467803B2 (en) * 2019-09-13 2022-10-11 Oracle International Corporation Identifying regulator and driver signals in data systems
US11137323B2 (en) * 2018-11-12 2021-10-05 Kabushiki Kaisha Toshiba Method of detecting anomalies in waveforms, and system thereof
US11645293B2 (en) * 2018-12-11 2023-05-09 EXFO Solutions SAS Anomaly detection in big data time series analysis
US20200342968A1 (en) * 2019-04-24 2020-10-29 GE Precision Healthcare LLC Visualization of medical device event processing
US11061393B2 (en) * 2019-08-28 2021-07-13 International Business Machines Corporation Consolidating anomaly root causes and alarms using graphical granger models
US11675646B2 (en) * 2020-06-25 2023-06-13 Amazon Technologies, Inc. Systems, apparatuses, and methods for anomaly detection
US20220198264A1 (en) * 2020-12-23 2022-06-23 Microsoft Technology Licensing, Llc Time series anomaly ranking
US11952142B2 (en) * 2021-05-10 2024-04-09 Honeywell International Inc. Methods and systems for depicting avionics data anomalies
WO2022251837A1 (en) * 2021-05-25 2022-12-01 Google Llc Machine learning time series anomaly detection
US20230085991A1 (en) * 2021-09-19 2023-03-23 SparkCognition, Inc. Anomaly detection and filtering of time-series data

Also Published As

Publication number Publication date
EP4075306A1 (en) 2022-10-19
US20220335347A1 (en) 2022-10-20

Similar Documents

Publication Publication Date Title
US9292408B2 (en) Automated detection of a system anomaly
US10402511B2 (en) System for maintenance recommendation based on performance degradation modeling and monitoring
US10592308B2 (en) Aggregation based event identification
US20210019211A1 (en) Method and device for determining a performance indicator value for predicting anomalies in a computing infrastructure from values of performance indicators
US20190228296A1 (en) Significant events identifier for outlier root cause investigation
US20200380335A1 (en) Anomaly detection in business intelligence time series
US10192050B2 (en) Methods, systems, apparatus, and storage media for use in detecting anomalous behavior and/or in preventing data loss
CN111045894B (zh) 数据库异常检测方法、装置、计算机设备和存储介质
JP6845819B2 (ja) 分析装置、分析方法、および分析プログラム
US11675641B2 (en) Failure prediction
US20090171879A1 (en) Systems and/or methods for prediction and/or root cause analysis of events based on business activity monitoring related data
KR102150815B1 (ko) 다수의 시스템 지시자의 모니터링
JP2007515020A (ja) 意味のある変動を明らかにする自動監視及び動的プロセスメトリクスの統計分析
CN112882889A (zh) 异常监控方法、系统、电子设备和存储介质
US20160110653A1 (en) Method and apparatus for predicting a service call for digital printing equipment from a customer
US20210026719A1 (en) Method and device for determining a technical incident risk value in a computing infrastructure from performance indicator values
US20220382857A1 (en) Machine Learning Time Series Anomaly Detection
EP3686819A1 (en) Cost analysis system and method for detecting anomalous cost signals
US20230297583A1 (en) Time Series Forecasting
CN115220940A (zh) 时间序列异常预测和警报
US20160162348A1 (en) Automated detection of a system anomaly
US20210248512A1 (en) Intelligent machine learning recommendation platform
WO2020261621A1 (ja) 監視システム、監視方法及びプログラム
CN113961441A (zh) 告警事件处理方法、审计方法、装置、设备、介质和产品
JP2013182471A (ja) プラントオペレーションの負荷評価装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination