CN108197011B - 一种基于人工智能大数据平台的单指标预测和预警方法 - Google Patents

一种基于人工智能大数据平台的单指标预测和预警方法 Download PDF

Info

Publication number
CN108197011B
CN108197011B CN201810083283.9A CN201810083283A CN108197011B CN 108197011 B CN108197011 B CN 108197011B CN 201810083283 A CN201810083283 A CN 201810083283A CN 108197011 B CN108197011 B CN 108197011B
Authority
CN
China
Prior art keywords
data
artificial intelligence
time
intelligence big
early warning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810083283.9A
Other languages
English (en)
Other versions
CN108197011A (zh
Inventor
刘斌
孙激
高闯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Paradise Insight Information Technology Co ltd
Original Assignee
Shanghai Paradise Insight Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Paradise Insight Information Technology Co ltd filed Critical Shanghai Paradise Insight Information Technology Co ltd
Priority to CN201810083283.9A priority Critical patent/CN108197011B/zh
Publication of CN108197011A publication Critical patent/CN108197011A/zh
Application granted granted Critical
Publication of CN108197011B publication Critical patent/CN108197011B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于人工智能大数据平台的单指标预测和预警方法,包括:(1)基于人工智能大数据平台的单指标预测;(2)基于人工智能大数据平台的单指标告警;基于历史的上下界预测指标值的范围区间,一旦在一段时间内连续多次打破历史的上下界阈值范围,即在这段时间内存在异常,进行告警。本发明通过基于历史的指标数据进行智能分析,通过人工智能大数据平台对指标的实时监控的指标数据,依据相应的预警策略,可以实时判断指标异常趋势,提前于监控系统发现潜在的风险,实现生产系统的预警,从而为运维专家留有足够的时间去排除系统故障,尽量避免生产系统风险。

Description

一种基于人工智能大数据平台的单指标预测和预警方法
技术领域
本发明涉及人工智能技术领域,具体是一种基于人工智能大数据平台的单指标预测和预警方法。
背景技术
目前传统的监控告警具有以下缺点:反应不迅速。监控阈值固定,无变化;时效性差。告警时往系统性能已经严重恶化,或者已经影响对外服务;辨识率差。系统发生告警时,往往会产生消息风暴,而传统的ITOM工具很难实现告警事件关联;没有价值。传统的数据中心运维仅仅着眼于ITOM收集的主机性能数据,对于主机性能数据与业务系统性能之间的数据关联,传统ITOM无法实现数据价值挖掘;缺乏技术支持。告警产生以后,在运维专家到达现场之前,往往无法正常开始抢修工作,缺少运维专家知识库的指引。
在数据中心的指标监控中,迫切地需要能够补足短时预测及长时趋势分析的短板,掌握运维的主动权,提前于监控系统发现潜在的风险,实现生产系统的预警,而不仅仅只是报警,从而为排除系统故障赢得更多的时间。因此,本发明提供一种基于人工智能大数据平台的单指标预测和预警方法。
发明内容
本发明的目的在于提供一种基于人工智能大数据平台的单指标预测和预警方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于人工智能大数据平台的单指标预测和预警方法,包括:
(1)基于人工智能大数据平台的单指标预测,包括以下步骤:
a.基于人工智能大数据平台在数据中心采集的KPI指标数据,首先对数据进行清洗,将数据对齐、补全操作;
b.然后根据指标数据历史特征,将指标数据大致分为六类:周期性平缓型数据、周期性震荡型数据、业务特征型数据如JVM、静止扰动型数据、城墙型离散数据、非规律性数据;
c.依据不同的数据类型再做相应的数据预处理,包括ARIMA/RNN时间序列预测、计算历史相对误差、基于历史的上下界预测;
(2)基于人工智能大数据平台的单指标告警;基于历史的上下界预测指标值的范围区间,一旦在一段时间内连续多次打破历史的上下界阈值范围,即在这段时间内存在异常,进行告警。
作为本发明进一步的方案:对于周期性平缓型和周期性震荡型这类周期性明显的数据,做如下处理:
1)先将序列划分为工作日序列和非工作日序列;
2)对于数据有短时震荡的特征,对数据进行HP滤波处理是数据变得平缓,将处于上边界的点和下边界的点分开,并且对于空缺点使用线性补全;
3)再将工作日中各个时间点数据抽出为单独的时间序列,同时将休息日中的各个时间点的数据也抽出得到单独的时间序列;
4)将处理得到各个时间点的上边界和下边界序列运用ARIMA/RNN模型进行预测;
5)根据预测出的上边界和下边界恢复出KPI的预测值。
作为本发明进一步的方案:对于业务特征型数据,在对于此类型数据主要做如下处理:
1)先对数据进行hp滤波处理,将数据平滑化;
2)使用时间序列的标准差判断数据处理震荡状态还是稳步上升状态;
3)对于震荡状态,使用滚动RNN/ARIMA进行预测;
4)对于稳步上升状态,使用线性回归处理。
作为本发明进一步的方案:对于静止扰动型和城墙型离散特征数据,主要根据其历史的四周的数据先进行hp滤波平滑化处理,确定数据的波峰和波谷,取出波峰数据的top5%作为数据的上边界阈值,波谷数据的bottom5%作为下边界阈值。
作为本发明进一步的方案:对于静止扰动型和城墙型离散特征数据,先计算其历史数据的均值和标准差,利用均值和标准差确定数据的历史波动范围特征,从而确定指标数据的上下界阈值。
作为本发明进一步的方案:步骤(2)设定一个时间窗口大小为M,连续N次打破历史的相对误差范围,就相应的对该时间窗口进行告警。
与现有技术相比,本发明的有益效果是:
本发明通过基于历史的指标数据进行智能分析,可以更加方便地把控指标数据的发展趋势,及时有效地避免生产系统的进一步恶化,使生产系统的潜在风险早于传统运维得到快速高效的处理。通过对数据中心的数据进行分类,根据不同数据类型选择不同的数据处理方法,可以有效的把握数据特征,对指标数据未来的趋势进行有效合理的预测。根据不同的业务场景设置相应的指标告警策略,从而可以灵活的与不同的业务场景需求相适应。通过人工智能大数据平台对指标的实时监控的指标数据,依据相应的预警策略,可以实时判断指标异常趋势,提前于监控系统发现潜在的风险,实现生产系统的预警,从而为运维专家留有足够的时间去排除系统故障,尽量避免生产系统风险。
附图说明
图1为单指标KPI异常分析整体架构图。
图2为本发明的流程图。
图3为业务特征型数据曲线图。
图4为jvm数据曲线图。
图5为静止扰动型数据曲线图。
图6为城墙型离散特征数据曲线图。
图7为人工智能大数据平台的告警规则示意图。
图8为单指表预警上下边界图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
请参阅图1-8,一种基于人工智能大数据平台的单指标预测和预警方法,包括:
单指标KPI异常分析方法,包括以下步骤:请求JDBC服务从hive获取数据;对数据进行清洗;对数据进行HP滤波;调用单指标算法对指标数据进行训练;将训练结果持久化到mysql;Spring-boot在web端将计算结果展示。其具体包括以下步骤:
(1)基于人工智能大数据平台的单指标预测,包括以下步骤:
a.基于人工智能大数据平台在数据中心采集的KPI指标数据,首先对数据进行清洗,将数据对齐、补全等操作;
b.然后根据指标数据历史特征,将指标数据大致分为六类:周期性平缓型数据、周期性震荡型数据、业务特征型数据如JVM、静止扰动型数据、城墙型离散数据、非规律性数据等;
c.依据不同的数据类型再做相应的数据预处理;
对于周期性平缓型和周期性震荡型这类周期性明显的数据,如CPU指标数据,其数据具有工作日、休息日以天为周期的模式,常常以每一天为一个小周期,每一周为一个大周期;且各个星期当中工作日遵循相类似的模式,休息日遵循相类似的模式;前者数据震荡不明显,较为平缓,后者有短时间内震荡幅度较大的特征;因此,在处理此类型数据可以做如下处理:
1)先将序列划分为工作日序列和非工作日序列;
2)对于数据有短时震荡的特征,对数据进行HP滤波处理是数据变得平缓,将处于上边界的点和下边界的点分开,并且对于空缺点使用线性补全;
3)再将工作日中各个时间点数据抽出为单独的时间序列,同时将休息日中的各个时间点的数据也抽出得到单独的时间序列;
4)将处理得到各个时间点的上边界和下边界序列运用ARIMA/RNN模型进行预测;
5)根据预测出的上边界和下边界恢复出KPI的预测值;
对于业务特征型数据如JVM这类指标数据,具有一些固定的特征:先稳步增加至一个『天花板』,再由系统清至较低的位置;这类数据在进行hp滤波处理后发现,在jvm数据稳步上升阶段保持着一定的斜率如图4所示,因此,在对于此类型数据主要做如下处理:
1)先对数据进行hp滤波处理,将数据平滑化;
2)使用时间序列的标准差判断数据处理『震荡』状态还是『稳步上升状态』;『震荡』状态的标准差相对变化比较大,而『稳步上升』状态的标准差变化较小;
3)对于『震荡』状态,使用滚动RNN/ARIMA进行预测;
4)对于『稳步上升』状态,使用线性回归处理;
可预测下一个点的值,加减n倍历史标准差可以得到上下边界,以此类推,连续滚动预测一天的数据,即可得到一天的上下边界序列;
对于静止扰动型和城墙型离散特征数据,这类数据长时间保持在相同一个值不动,偶尔会出现小的扰动;因此对于此类型数据,主要根据其历史的四周的数据先进行hp滤波平滑化处理,确定数据的波峰和波谷,取出波峰数据的top5%作为数据的上边界阈值,波谷数据的bottom5%作为下边界阈值;或者,对于此类型数据先计算其历史数据的均值和标准差,利用均值和标准差确定数据的历史波动范围特征,从而确定指标数据的上下界阈值;
(2)基于人工智能大数据平台的单指标告警;基于历史的上下界预测指标值的范围区间,一旦在一段时间内连续多次打破历史的上下界阈值范围,即超过制定规则,那么在这段时间内就存在异常,需要进行告警,这里可以根据业务场景需要,设定一个时间窗口大小为M,连续N次打破历史的相对误差范围,就相应的对该时间窗口进行告警。
基于人工智能大数据平台下的单指标预测,可以对每个KPI指标学习其历史的行为,当KPI偏离其历史的行为时,即认为是异常,从而改变了传统监控阀值固定,无法进行动态设定的运维痛点,改变了传统监控告警时,系统性能已严重恶化的运维现状。
本发明通过基于历史的指标数据进行智能分析,可以更加方便地把控指标数据的发展趋势,及时有效地避免生产系统的进一步恶化,使生产系统的潜在风险早于传统运维得到快速高效的处理。通过对数据中心的数据进行分类,根据不同数据类型选择不同的数据处理方法,可以有效的把握数据特征,对指标数据未来的趋势进行有效合理的预测。根据不同的业务场景设置相应的指标告警策略,从而可以灵活的与不同的业务场景需求相适应。通过人工智能大数据平台对指标的实时监控的指标数据,依据相应的预警策略,可以实时判断指标异常趋势,提前于监控系统发现潜在的风险,实现生产系统的预警,从而为运维专家留有足够的时间去排除系统故障,尽量避免生产系统风险。
在本基于人工智能大数据平台的单指标预测和预警方法的描述中,需要说明的是,除非另有明确的规定和限定,术语“设置”、“相连”及“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
上面对本专利的较佳实施方式作了详细说明,但是本专利并不限于上述实施方式,在本领域的普通技术人员所具备的知识范围内,还可以在不脱离本专利宗旨的前提下做出各种变化。

Claims (5)

1.一种基于人工智能大数据平台的单指标预测和预警方法,其特征在于,包括:
(1)基于人工智能大数据平台的单指标预测,包括以下步骤:
a.基于人工智能大数据平台在数据中心采集的KPI指标数据,首先对数据进行清洗,将数据对齐、补全操作;
b.然后根据指标数据历史特征,将指标数据大致分为六类:周期性平缓型数据、周期性震荡型数据、业务特征型数据、静止扰动型数据、城墙型离散数据、非规律性数据;
c.依据不同的数据类型再做相应的数据预处理,包括ARIMA/RNN时间序列预测、计算历史相对误差、基于历史的上下界预测;
(2)基于人工智能大数据平台的单指标告警;基于历史的上下界预测指标值的范围区间,一旦在一段时间内连续多次打破历史的上下界阈值范围,即在这段时间内存在异常,进行告警;
对于所述周期性平缓型和周期性震荡型这类周期性明显的数据,做如下处理:
1)先将序列划分为工作日序列和非工作日序列;
2)对于数据有短时震荡的特征,对数据进行HP滤波处理是数据变得平缓,将处于上边界的点和下边界的点分开,并且对于空缺点使用线性补全;
3)再将工作日中各个时间点数据抽出为单独的时间序列,同时将休息日中的各个时间点的数据也抽出得到单独的时间序列;
4)将处理得到各个时间点的上边界和下边界序列运用ARIMA/RNN模型进行预测;
5)根据预测出的上边界和下边界恢复出KPI的预测值。
2.根据权利要求1所述的基于人工智能大数据平台的单指标预测和预警方法,其特征在于,对于业务特征型数据,在对于此类型数据主要做如下处理:
1)先对数据进行hp滤波处理,将数据平滑化;
2)使用时间序列的标准差判断数据处理震荡状态还是稳步上升状态;
3)对于震荡状态,使用滚动RNN/ARIMA进行预测;
4)对于稳步上升状态,使用线性回归处理。
3.根据权利要求1或2所述的基于人工智能大数据平台的单指标预测和预警方法,其特征在于,对于静止扰动型和城墙型离散特征数据,主要根据其历史的四周的数据先进行hp滤波平滑化处理,确定数据的波峰和波谷,取波峰数据的95%作为数据的上边界阈值,取波谷数据的95%作为下边界阈值。
4.根据权利要求1或2所述的基于人工智能大数据平台的单指标预测和预警方法,其特征在于,对于静止扰动型和城墙型离散特征数据,先计算其历史数据的均值和标准差,利用均值和标准差确定数据的历史波动范围特征,从而确定指标数据的上下界阈值。
5.根据权利要求1任一所述的基于人工智能大数据平台的单指标预测和预警方法,其特征在于,步骤(2)设定一个时间窗口大小为M,连续N次打破历史的相对误差范围,就相应的对该时间窗口进行告警。
CN201810083283.9A 2018-01-29 2018-01-29 一种基于人工智能大数据平台的单指标预测和预警方法 Expired - Fee Related CN108197011B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810083283.9A CN108197011B (zh) 2018-01-29 2018-01-29 一种基于人工智能大数据平台的单指标预测和预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810083283.9A CN108197011B (zh) 2018-01-29 2018-01-29 一种基于人工智能大数据平台的单指标预测和预警方法

Publications (2)

Publication Number Publication Date
CN108197011A CN108197011A (zh) 2018-06-22
CN108197011B true CN108197011B (zh) 2021-06-01

Family

ID=62590984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810083283.9A Expired - Fee Related CN108197011B (zh) 2018-01-29 2018-01-29 一种基于人工智能大数据平台的单指标预测和预警方法

Country Status (1)

Country Link
CN (1) CN108197011B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135612B (zh) * 2018-07-05 2023-11-28 国网江苏省电力有限公司物资分公司 基于用电量分析的物资供应商生产能力监控及异常预警方法
CN109271374B (zh) * 2018-10-19 2021-01-26 国网江苏省电力有限公司信息通信分公司 一种基于机器学习的数据库健康度打分方法和打分系统
CN109872252A (zh) * 2019-03-07 2019-06-11 国网江苏省电力有限公司物资分公司 一种基于matlab算法的电力供应商综合评价方法
CN109993363A (zh) * 2019-04-01 2019-07-09 山东浪潮云信息技术有限公司 一种基于人工智能的自动化告警预测方法
CN110083507B (zh) * 2019-04-19 2020-11-24 中国科学院信息工程研究所 关键性能指标分类方法及装置
CN110232629A (zh) * 2019-05-22 2019-09-13 深圳壹账通智能科技有限公司 风控策略预警方法、装置、计算机设备和存储介质
CN110149237B (zh) * 2019-06-13 2021-06-22 东北大学 一种Hadoop平台计算节点负载预测方法
CN111158848A (zh) * 2019-12-05 2020-05-15 深圳市智象科技有限公司 基于ai技术的运维监控、分析处理平台
CN111325466A (zh) * 2020-02-20 2020-06-23 深圳壹账通智能科技有限公司 智能预警方法与系统
CN113032239A (zh) * 2021-05-28 2021-06-25 北京宝兰德软件股份有限公司 风险提示方法、装置、电子设备及存储介质
CN113204590B (zh) * 2021-05-31 2021-11-23 中国人民解放军国防科技大学 基于序列化自编码器的无监督kpi异常检测方法
CN113537555B (zh) * 2021-06-03 2023-04-11 太原理工大学 一种考虑扰动的交通子区模型预测滑模边界控制方法
CN114564370B (zh) * 2022-04-29 2022-11-08 天云软件技术有限公司 告警阈值的确定方法、装置、设备及计算机存储介质
CN114935721B (zh) * 2022-05-30 2023-03-24 深圳先进技术研究院 一种基于光纤光栅传感器的锂离子电池荷电状态估计方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105323111A (zh) * 2015-11-17 2016-02-10 南京南瑞集团公司 一种运维自动化系统及方法
CN105406991A (zh) * 2015-10-26 2016-03-16 上海华讯网络系统有限公司 基于网络监控指标由历史数据生成业务阈值的方法及系统
CN105718715A (zh) * 2015-12-23 2016-06-29 华为技术有限公司 异常检测方法和设备
CN105956734A (zh) * 2016-04-15 2016-09-21 广东轩辕网络科技股份有限公司 动态设置it设备的性能的指标阈值的方法及系统
US9547445B2 (en) * 2014-01-14 2017-01-17 Netapp, Inc. Method and system for monitoring and analyzing quality of service in a storage system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9794158B2 (en) * 2015-09-08 2017-10-17 Uber Technologies, Inc. System event analyzer and outlier visualization

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9547445B2 (en) * 2014-01-14 2017-01-17 Netapp, Inc. Method and system for monitoring and analyzing quality of service in a storage system
CN105406991A (zh) * 2015-10-26 2016-03-16 上海华讯网络系统有限公司 基于网络监控指标由历史数据生成业务阈值的方法及系统
CN105323111A (zh) * 2015-11-17 2016-02-10 南京南瑞集团公司 一种运维自动化系统及方法
CN105718715A (zh) * 2015-12-23 2016-06-29 华为技术有限公司 异常检测方法和设备
CN105956734A (zh) * 2016-04-15 2016-09-21 广东轩辕网络科技股份有限公司 动态设置it设备的性能的指标阈值的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《关于时间序列预测法的探讨》;赵仁义;《科技信息》;20111124(第15期);192-193页 *
《时间序列预测法》;文峰床垫;《https://baike.baidu.com/history/时间序列预测法/4014723/125631719》;20180119;1-3页 *

Also Published As

Publication number Publication date
CN108197011A (zh) 2018-06-22

Similar Documents

Publication Publication Date Title
CN108197011B (zh) 一种基于人工智能大数据平台的单指标预测和预警方法
CN108073497B (zh) 一种基于数据中心数据采集平台的多指标异动分析方法
US20190129395A1 (en) Process performance issues and alarm notification using data analytics
CN106873571B (zh) 一种基于数据和模型融合的预警方法
JP5778087B2 (ja) プロセス監視システム及び方法
CA2540336A1 (en) Equipment component monitoring and replacement management system
JP7296525B2 (ja) 分布図を通じた機器の予知保全方法
CN112417791B (zh) 基于线性回归与ahp算法的电力设备监视预警方法及系统
WO2015021751A1 (zh) 一种数据驱动的集成电路工艺设备异常预警技术方法
CN102565296A (zh) 再生水厂原水水质在线预警系统及预警方法
CN115794532A (zh) 多指标智能动态阈值监控方法及系统
CN116187725B (zh) 一种用于锻造自动线的锻造设备管理系统
CN108491965B (zh) 冲压设备的状态预测方法、装置、电子设备与存储介质
CN106600076A (zh) 一种转塔式rto废气处理设备的监控数据分析与预警方法
CN114995348A (zh) 一种变频传动全寿命周期管理方法
CN116993052A (zh) 一种基于数字孪生的智慧工厂生产在线监测分析系统
CN115407712A (zh) 一种钢厂液压站智慧维修保养系统及工作流程
US6885975B2 (en) Method and apparatus for managing process transitions
Yanabe et al. Anomaly detection based on histogram methodology and factor analysis using LightGBM for cooling systems
CN112306010A (zh) 一种数据处理方法及装置
CN109978192A (zh) 一种巨型水电厂状态维护模型构建方法及系统
CN108537174B (zh) 时变工况条件下旋转机械运行状态在线监测方法及系统
Butters et al. Statistical cluster analysis and visualisation for alarm management configuration
CN118193959B (zh) 一种电涌能量的监测方法及系统
CN113903099B (zh) 一种基于scada的设备监测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210601

Termination date: 20220129