CN112069039A - 人工智能开发平台的监控预知告警方法、装置及存储介质 - Google Patents

人工智能开发平台的监控预知告警方法、装置及存储介质 Download PDF

Info

Publication number
CN112069039A
CN112069039A CN202010890143.XA CN202010890143A CN112069039A CN 112069039 A CN112069039 A CN 112069039A CN 202010890143 A CN202010890143 A CN 202010890143A CN 112069039 A CN112069039 A CN 112069039A
Authority
CN
China
Prior art keywords
monitoring
alarm
data
training
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010890143.XA
Other languages
English (en)
Inventor
张书博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010890143.XA priority Critical patent/CN112069039A/zh
Publication of CN112069039A publication Critical patent/CN112069039A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种人工智能开发平台的监控预知告警方法、装置及存储介质,本发明将人工智能开发平台收集到的实时监控数据,按照设置的告警检测周期进行分组,形成原始训练集,使用LSTM神经网络模型进行训练,将得到的预测监控数据的LSTM模型进行保存,在预测场景下,实时使用卡尔曼滤波算法,对LSTM模型预测出的监控数据进行修正,计算出下个告警检测周期的较优监控预测数据,与告警管理模块的阈值进行对比,实现人工智能开发平台的监控预知告警功能。

Description

人工智能开发平台的监控预知告警方法、装置及存储介质
技术领域
本发明涉及人工智能技术领域,具体为一种人工智能开发平台的监控预知告警方法、装置及存储介质。
背景技术
对于人工智能开发平台来说,监控信息与告警机制是较为重要的。人工智能开发平台可以给用户提供训练深度学习模型的基础环境,算力,以及管理方法等服务,对于训练深度学习模型来说,资源的实时监控和合理分配就变得尤为重要,比如CPU,GPU,磁盘等。CPU,GPU,内存等的使用率,GPU的功耗,温度,是否存在掉卡现象等,这些指标如果异常,都将影响训练任务的进度,质量,甚至能否训练成功,类似的情况比如由于CPU的使用率过高,CPU的数据读取跟不上,导致GPU没有得到充分利用,形成资源浪费;再比如GPU温度过高产生的潜在威胁,或者由于某些物理原因导致GPU掉卡等,都有可能导致训练直接停止或失败,甚至造成硬件损坏等情况。但是对于告警机制而言,监控信息取到的都是实时数据,也就是说触发告警的条件是监控捕获到了已经发生了的异常事件,这样会比较被动的去处理异常事件带来的后果,而不是通过告警策略来预防异常。
LSTM(Long Short-Term Memory)长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM通过链式结构,可以使之前传入的信息保持不变流出,又通过“门”的结构,包括遗忘门、输入门、输出门,让信息选择性通过,从而添加或移除信息,解决梯度消失和梯度爆炸。
发明内容
本发明的目的在于提供一种人工智能开发平台的监控预知告警方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种人工智能开发平台的监控预知告警方法,包括以下步骤:
利用基于LSTM神经网络的预测模型,依据当前告警检测周期的监控数据,对下一周期的监控数据进行预测,得到监控预测值;
以告警检测周期为轴,将所述监控预测值和到达下一周期时得到的真实监控数据代入卡尔曼滤波中,得到该周期的最优监控预测值。
将所述最优监控预测值输入所述预测模型中,对再下一周期进行预测,得到最终监控预测值。
优选的,还包括:
将最终监控预测数据与告警阈值进行比较,若达到触发告警的条件,则生成告警信息。
优选的,在利用基于LSTM神经网络的预测模型,依据当前告警检测周期的监控数据,对下一周期的监控数据进行预测,得到监控预测值的步骤之前,还包括:
基于多个监控项的监控数据生成训练数据集;
基于所述训练数据集,按照每个监控项,按照单位告警检测周期,对初始LSTM神经网络进行训练,生成预测模型。
优选的,基于监控项的监控数据生成训练数据集的步骤,包括:
将监控数据作为训练文本,对训练文本进行预处理;
对预处理后的训练文本进行识别,生成训练文本的关键词;
对训练文本中的词语进行编码,得到高维空间连续词向量,对关键词进行同样的编码得到关键词向量;
将关键词向量添加至对应的词向量对词向量进行加权得到训练数据集。
优选的,所述监控项包括GPU温度,GPU使用率,GPU显存使用率,CPU使用率,内存使用率,磁盘读写指标。
优选的,利用基于LSTM神经网络的预测模型,依据当前告警检测周期的监控数据,对下一周期的监控数据进行预测,得到监控预测值的步骤之后,还包括:
对所述监控预测值进行分类。
优选的,卡尔曼滤波具体为:最终值=p*观察值+(1-p)预测值,其中观察值为获取到的实际监控值,预测值为所述监控预测值,p为卡尔曼增益,通过对p不断调优,使最终值根据观察值与预测值得到更为趋近于真实的结果。
优选的,一种人工智能开发平台的监控预知告警装置,包括
预测模块,用于利用基于LSTM神经网络的预测模型,依据当前告警检测周期的监控数据,对下一周期的监控数据进行预测,得到监控预测值;
优化模块,用于以告警检测周期为轴,将所述监控预测值和到达下一周期时得到的真实监控数据代入卡尔曼滤波中,得到该周期的最优监控预测值。
所述预测模块,还用于将所述最优监控预测值输入所述预测模型中,对再下一周期进行预测,得到最终监控预测值。
优选的,还包括
训练模块,用于基于多个监控项的监控数据生成训练数据集;基于所述训练数据集,按照每个监控项,按照单位告警检测周期,对初始LSTM神经网络进行训练,生成预测模型。
优选的,一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法的步骤。
与现有技术相比,本发明的有益效果是:本发明将人工智能开发平台收集到的实时监控数据,按照设置的告警检测周期进行分组,形成原始训练集,使用LSTM神经网络模型进行训练,将得到的预测监控数据的LSTM模型进行保存,在预测场景下,实时使用卡尔曼滤波算法,对LSTM模型预测出的监控数据进行修正,计算出下个告警检测周期的较优监控预测数据,与告警管理模块的阈值进行对比,实现人工智能开发平台的监控预知告警功能。
附图说明
图1为本发明流程图;
图2为本发明生成训练数据集流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供如下技术方案:一种人工智能开发平台的监控预知告警方法,包括以下步骤:
利用基于LSTM神经网络的预测模型,依据当前告警检测周期的监控数据,对下一周期的监控数据进行预测,得到监控预测值;
以告警检测周期为轴,将所述监控预测值和到达下一周期时得到的真实监控数据代入卡尔曼滤波中,得到该周期的最优监控预测值;其中,卡尔曼滤波具体为:最终值=p*观察值+(1-p)预测值,其中观察值为获取到的实际监控值,预测值为所述监控预测值,p为卡尔曼增益,通过对p不断调优,使最终值根据观察值与预测值得到更为趋近于真实的结果。
选择卡尔曼滤波是为了将本轮的预测值与真实值按照权重调优,尽量减少预测结果的误差与噪声,使预测值更加趋近真实,也能更好的作为入参传入到下一轮的LSTM网络中进行预测。
将所述最优监控预测值输入所述预测模型中,对再下一周期进行预测,得到最终监控预测值。
还包括:将最终监控预测数据与告警阈值进行比较,若达到触发告警的条件,则生成告警信息。
本发明中,在利用基于LSTM神经网络的预测模型,依据当前告警检测周期的监控数据,对下一周期的监控数据进行预测,得到监控预测值的步骤之前,还包括:基于多个监控项的监控数据生成训练数据集,监控项包括GPU温度,GPU使用率,GPU显存使用率,CPU使用率,内存使用率,磁盘读写指标;基于所述训练数据集,按照每个监控项,按照单位告警检测周期,对初始LSTM神经网络进行训练,生成预测模型,此外可以在多种情况下收集监控数据,多种情况包括单任务训练,多任务分布式训练,训练模型深度,参数量大小等,尽量保证场景全面。
如图2所示,本发明中,基于监控项的监控数据生成训练数据集的步骤,包括:
将监控数据作为训练文本,对训练文本进行预处理;
对预处理后的训练文本进行识别,生成训练文本的关键词;
对训练文本中的词语进行编码,得到高维空间连续词向量,对关键词进行同样的编码得到关键词向量;
将关键词向量添加至对应的词向量对词向量进行加权得到训练数据集。
其中,关键词包括实体关键词、关系关键词和事件关键词。对预处理后的训练文本进行命名实体识别,获得常见的如姓名、地址、组织机构、时间、货币、数量等命名实体,建立实体关键词。然后对预处理训练文本进行实体关系抽取,如实体间存在关系,判断实体关系是否属于常见的组件与整体、工具的使用、成员集合、因果、实体目的地、内容与容器、信息与主题、生产与被生产和实体与原产地等类型,并形成关系关键词。
本发明中,利用基于LSTM神经网络的预测模型,依据当前告警检测周期的监控数据,对下一周期的监控数据进行预测,得到监控预测值的步骤之后,还包括:对所述监控预测值进行分类。分类方法如下:设定特征点,然后对设定的特征点进行分类,得出特征点分类结果;对数据进行预处理,然后对预处理的数据进行识别,判断预处理的数据含有的设定的特征点;根据特征点分类结果对预处理后的数据含有的设定的特征点的类别进行区分,然后根据区分结果对数据进行分类,得出数据分类结果。采用的分类方法能够提高数据的识别精确度,进而提高数据的分类精确度,避免出现分类误差。
此外,本发明还公开了一种人工智能开发平台的监控预知告警装置,包括
预测模块,用于利用基于LSTM神经网络的预测模型,依据当前告警检测周期的监控数据,对下一周期的监控数据进行预测,得到监控预测值;
优化模块,用于以告警检测周期为轴,将所述监控预测值和到达下一周期时得到的真实监控数据代入卡尔曼滤波中,得到该周期的最优监控预测值。
所述预测模块,还用于将所述最优监控预测值输入所述预测模型中,对再下一周期进行预测,得到最终监控预测值。
还包括训练模块,用于基于多个监控项的监控数据生成训练数据集;基于所述训练数据集,按照每个监控项,按照单位告警检测周期,对初始LSTM神经网络进行训练,生成预测模型。
此外,本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法的步骤。
本发明中,卡尔曼滤波是预测和测量的结合,预测来自经验模型,是人对系统的建模推算得来的,另一部分是测量修正,是对模型的修正。简单来说就是预测误差滤波,使过程测量值信息不会被过滤掉,通过测量值不断修正预测值,使其得到动态的最优预测值。
本发明旨在通过监控得到的数据累积形成训练集,使用LSTM网络按照已设置的告警周期进行对监控数据的训练并预测,并使用卡尔曼滤波对预测结果进行调优,实现监控单元的数据预测,可实现提前一个告警周期对监控数据是否触发告警的预测。
综上所述,本发明将人工智能开发平台收集到的实时监控数据,按照设置的告警检测周期进行分组,形成原始训练集,使用LSTM神经网络模型进行训练,将得到的预测监控数据的LSTM模型进行保存,在预测场景下,实时使用卡尔曼滤波算法,对LSTM模型预测出的监控数据进行修正,计算出下个告警检测周期的较优监控预测数据,与告警管理模块的阈值进行对比,实现人工智能开发平台的监控预知告警功能。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (10)

1.一种人工智能开发平台的监控预知告警方法,其特征在于:包括以下步骤:
利用基于LSTM神经网络的预测模型,依据当前告警检测周期的监控数据,对下一周期的监控数据进行预测,得到监控预测值;
以告警检测周期为轴,将所述监控预测值和到达下一周期时得到的真实监控数据代入卡尔曼滤波中,得到该周期的最优监控预测值。
将所述最优监控预测值输入所述预测模型中,对再下一周期进行预测,得到最终监控预测值。
2.根据权利要求1所述的一种人工智能开发平台的监控预知告警方法,其特征在于:还包括:
将最终监控预测数据与告警阈值进行比较,若达到触发告警的条件,则生成告警信息。
3.根据权利要求1所述的一种人工智能开发平台的监控预知告警方法,其特征在于:在利用基于LSTM神经网络的预测模型,依据当前告警检测周期的监控数据,对下一周期的监控数据进行预测,得到监控预测值的步骤之前,还包括:
基于多个监控项的监控数据生成训练数据集;
基于所述训练数据集,按照每个监控项,按照单位告警检测周期,对初始LSTM神经网络进行训练,生成预测模型。
4.根据权利要求3所述的一种人工智能开发平台的监控预知告警方法,其特征在于:基于监控项的监控数据生成训练数据集的步骤,包括:
将监控数据作为训练文本,对训练文本进行预处理;
对预处理后的训练文本进行识别,生成训练文本的关键词;
对训练文本中的词语进行编码,得到高维空间连续词向量,对关键词进行同样的编码得到关键词向量;
将关键词向量添加至对应的词向量对词向量进行加权得到训练数据集。
5.根据权利要求3所述的一种人工智能开发平台的监控预知告警方法,其特征在于:所述监控项包括GPU温度,GPU使用率,GPU显存使用率,CPU使用率,内存使用率,磁盘读写指标。
6.根据权利要求1所述的一种人工智能开发平台的监控预知告警方法,其特征在于:利用基于LSTM神经网络的预测模型,依据当前告警检测周期的监控数据,对下一周期的监控数据进行预测,得到监控预测值的步骤之后,还包括:
对所述监控预测值进行分类。
7.根据权利要求1所述的一种人工智能开发平台的监控预知告警方法,其特征在于:卡尔曼滤波具体为:最终值=p*观察值+(1-p)预测值,其中观察值为获取到的实际监控值,预测值为所述监控预测值,p为卡尔曼增益,通过对p不断调优,使最终值根据观察值与预测值得到更为趋近于真实的结果。
8.一种人工智能开发平台的监控预知告警装置,其特征在于:包括
预测模块,用于利用基于LSTM神经网络的预测模型,依据当前告警检测周期的监控数据,对下一周期的监控数据进行预测,得到监控预测值;
优化模块,用于以告警检测周期为轴,将所述监控预测值和到达下一周期时得到的真实监控数据代入卡尔曼滤波中,得到该周期的最优监控预测值。
所述预测模块,还用于将所述最优监控预测值输入所述预测模型中,对再下一周期进行预测,得到最终监控预测值。
9.根据权利要求8所述的一种人工智能开发平台的监控预知告警装置,其特征在于:还包括
训练模块,用于基于多个监控项的监控数据生成训练数据集;基于所述训练数据集,按照每个监控项,按照单位告警检测周期,对初始LSTM神经网络进行训练,生成预测模型。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任意一项所述的方法的步骤。
CN202010890143.XA 2020-08-28 2020-08-28 人工智能开发平台的监控预知告警方法、装置及存储介质 Withdrawn CN112069039A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010890143.XA CN112069039A (zh) 2020-08-28 2020-08-28 人工智能开发平台的监控预知告警方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010890143.XA CN112069039A (zh) 2020-08-28 2020-08-28 人工智能开发平台的监控预知告警方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN112069039A true CN112069039A (zh) 2020-12-11

Family

ID=73660221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010890143.XA Withdrawn CN112069039A (zh) 2020-08-28 2020-08-28 人工智能开发平台的监控预知告警方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112069039A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988538A (zh) * 2021-03-12 2021-06-18 山东英信计算机技术有限公司 人工智能开发平台监控告警数据预测方法、装置及介质
WO2022016808A1 (zh) * 2020-07-22 2022-01-27 中国科学院深圳先进技术研究院 一种kubernetes集群资源动态调整方法及电子设备
CN115953738A (zh) * 2023-03-02 2023-04-11 上海燧原科技有限公司 一种图像识别分布式训练的监控方法、装置、设备及介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022016808A1 (zh) * 2020-07-22 2022-01-27 中国科学院深圳先进技术研究院 一种kubernetes集群资源动态调整方法及电子设备
CN112988538A (zh) * 2021-03-12 2021-06-18 山东英信计算机技术有限公司 人工智能开发平台监控告警数据预测方法、装置及介质
CN112988538B (zh) * 2021-03-12 2023-01-13 山东英信计算机技术有限公司 人工智能开发平台监控告警数据预测方法、装置及介质
CN115953738A (zh) * 2023-03-02 2023-04-11 上海燧原科技有限公司 一种图像识别分布式训练的监控方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
Li et al. DCT-GAN: dilated convolutional transformer-based GAN for time series anomaly detection
CN112069039A (zh) 人工智能开发平台的监控预知告警方法、装置及存储介质
CN109948669A (zh) 一种异常数据检测方法及装置
CN106600115A (zh) 一种企业信息系统运维智能分析方法
CN111930526B (zh) 负载预测方法、装置、计算机设备和存储介质
CN113568819A (zh) 异常数据检测方法、装置、计算机可读介质及电子设备
CN112329816A (zh) 数据分类方法、装置、电子设备和可读存储介质
CN117041017B (zh) 数据中心的智能运维管理方法及系统
CN112988509B (zh) 一种告警消息过滤方法、装置、电子设备及存储介质
CN110956278A (zh) 重新训练机器学习模型的方法和系统
CN116028315A (zh) 作业运行预警方法、装置、介质及电子设备
Sun et al. A classifier graph based recurring concept detection and prediction approach
Irfan et al. Energy theft identification using AdaBoost Ensembler in the Smart Grids
CN113553577B (zh) 基于超球面变分自动编码器的未知用户恶意行为检测方法及系统
CN108519993B (zh) 基于多数据流计算的社交网络热点事件检测方法
CN111523826B (zh) 一种数据采集方法、装置及设备
Huang et al. An active learning system for mining time-changing data streams
CN116843395A (zh) 一种业务系统的告警分级方法、装置、设备及存储介质
CN111984514A (zh) 基于Prophet-bLSTM-DTW的日志异常检测方法
CN115099946A (zh) 一种基于银行人脸存储平台的容量预测方法及系统
CN115278757A (zh) 一种检测异常数据的方法、装置及电子设备
Wang et al. A driver abnormal behavior warning method based on isolated forest algorithm.
CN111221704B (zh) 一种确定办公管理应用系统运行状态的方法及系统
Sabet et al. Similarity-aware CNN for efficient video recognition at the edge
Guo et al. Driving Risk Assessment Based on High-frequency, High-resolution Telematics Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20201211