CN112069039A

CN112069039A - 人工智能开发平台的监控预知告警方法、装置及存储介质

Info

Publication number: CN112069039A
Application number: CN202010890143.XA
Authority: CN
Inventors: 张书博
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2020-12-11

Abstract

本发明公开了一种人工智能开发平台的监控预知告警方法、装置及存储介质，本发明将人工智能开发平台收集到的实时监控数据，按照设置的告警检测周期进行分组，形成原始训练集，使用LSTM神经网络模型进行训练，将得到的预测监控数据的LSTM模型进行保存，在预测场景下，实时使用卡尔曼滤波算法，对LSTM模型预测出的监控数据进行修正，计算出下个告警检测周期的较优监控预测数据，与告警管理模块的阈值进行对比，实现人工智能开发平台的监控预知告警功能。

Description

人工智能开发平台的监控预知告警方法、装置及存储介质

技术领域

本发明涉及人工智能技术领域，具体为一种人工智能开发平台的监控预知告警方法、装置及存储介质。

背景技术

对于人工智能开发平台来说，监控信息与告警机制是较为重要的。人工智能开发平台可以给用户提供训练深度学习模型的基础环境，算力，以及管理方法等服务，对于训练深度学习模型来说，资源的实时监控和合理分配就变得尤为重要，比如CPU，GPU，磁盘等。CPU，GPU，内存等的使用率，GPU的功耗，温度，是否存在掉卡现象等，这些指标如果异常，都将影响训练任务的进度，质量，甚至能否训练成功，类似的情况比如由于CPU的使用率过高，CPU的数据读取跟不上，导致GPU没有得到充分利用，形成资源浪费；再比如GPU温度过高产生的潜在威胁，或者由于某些物理原因导致GPU掉卡等，都有可能导致训练直接停止或失败，甚至造成硬件损坏等情况。但是对于告警机制而言，监控信息取到的都是实时数据，也就是说触发告警的条件是监控捕获到了已经发生了的异常事件，这样会比较被动的去处理异常事件带来的后果，而不是通过告警策略来预防异常。

LSTM(Long Short-Term Memory)长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM通过链式结构，可以使之前传入的信息保持不变流出，又通过“门”的结构，包括遗忘门、输入门、输出门，让信息选择性通过，从而添加或移除信息，解决梯度消失和梯度爆炸。

发明内容

本发明的目的在于提供一种人工智能开发平台的监控预知告警方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种人工智能开发平台的监控预知告警方法,包括以下步骤：

利用基于LSTM神经网络的预测模型，依据当前告警检测周期的监控数据，对下一周期的监控数据进行预测，得到监控预测值；

以告警检测周期为轴，将所述监控预测值和到达下一周期时得到的真实监控数据代入卡尔曼滤波中，得到该周期的最优监控预测值。

将所述最优监控预测值输入所述预测模型中，对再下一周期进行预测，得到最终监控预测值。

优选的，还包括：

将最终监控预测数据与告警阈值进行比较，若达到触发告警的条件，则生成告警信息。

优选的，在利用基于LSTM神经网络的预测模型，依据当前告警检测周期的监控数据，对下一周期的监控数据进行预测，得到监控预测值的步骤之前，还包括：

基于多个监控项的监控数据生成训练数据集；

基于所述训练数据集，按照每个监控项，按照单位告警检测周期，对初始LSTM神经网络进行训练，生成预测模型。

优选的，基于监控项的监控数据生成训练数据集的步骤，包括：

将监控数据作为训练文本，对训练文本进行预处理；

对预处理后的训练文本进行识别，生成训练文本的关键词；

对训练文本中的词语进行编码，得到高维空间连续词向量，对关键词进行同样的编码得到关键词向量；

将关键词向量添加至对应的词向量对词向量进行加权得到训练数据集。

优选的，所述监控项包括GPU温度，GPU使用率，GPU显存使用率，CPU使用率，内存使用率，磁盘读写指标。

优选的，利用基于LSTM神经网络的预测模型，依据当前告警检测周期的监控数据，对下一周期的监控数据进行预测，得到监控预测值的步骤之后，还包括：

对所述监控预测值进行分类。

优选的，卡尔曼滤波具体为：最终值＝p*观察值+(1-p)预测值，其中观察值为获取到的实际监控值，预测值为所述监控预测值，p为卡尔曼增益，通过对p不断调优，使最终值根据观察值与预测值得到更为趋近于真实的结果。

优选的，一种人工智能开发平台的监控预知告警装置，包括

预测模块，用于利用基于LSTM神经网络的预测模型，依据当前告警检测周期的监控数据，对下一周期的监控数据进行预测，得到监控预测值；

优化模块，用于以告警检测周期为轴，将所述监控预测值和到达下一周期时得到的真实监控数据代入卡尔曼滤波中，得到该周期的最优监控预测值。

所述预测模块，还用于将所述最优监控预测值输入所述预测模型中，对再下一周期进行预测，得到最终监控预测值。

优选的，还包括

训练模块，用于基于多个监控项的监控数据生成训练数据集；基于所述训练数据集，按照每个监控项，按照单位告警检测周期，对初始LSTM神经网络进行训练，生成预测模型。

优选的，一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法的步骤。

与现有技术相比，本发明的有益效果是：本发明将人工智能开发平台收集到的实时监控数据，按照设置的告警检测周期进行分组，形成原始训练集，使用LSTM神经网络模型进行训练，将得到的预测监控数据的LSTM模型进行保存，在预测场景下，实时使用卡尔曼滤波算法，对LSTM模型预测出的监控数据进行修正，计算出下个告警检测周期的较优监控预测数据，与告警管理模块的阈值进行对比，实现人工智能开发平台的监控预知告警功能。

附图说明

图1为本发明流程图；

图2为本发明生成训练数据集流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供如下技术方案：一种人工智能开发平台的监控预知告警方法,包括以下步骤：

以告警检测周期为轴，将所述监控预测值和到达下一周期时得到的真实监控数据代入卡尔曼滤波中，得到该周期的最优监控预测值；其中，卡尔曼滤波具体为：最终值＝p*观察值+(1-p)预测值，其中观察值为获取到的实际监控值，预测值为所述监控预测值，p为卡尔曼增益，通过对p不断调优，使最终值根据观察值与预测值得到更为趋近于真实的结果。

选择卡尔曼滤波是为了将本轮的预测值与真实值按照权重调优，尽量减少预测结果的误差与噪声，使预测值更加趋近真实，也能更好的作为入参传入到下一轮的LSTM网络中进行预测。

还包括：将最终监控预测数据与告警阈值进行比较，若达到触发告警的条件，则生成告警信息。

本发明中，在利用基于LSTM神经网络的预测模型，依据当前告警检测周期的监控数据，对下一周期的监控数据进行预测，得到监控预测值的步骤之前，还包括：基于多个监控项的监控数据生成训练数据集，监控项包括GPU温度，GPU使用率，GPU显存使用率，CPU使用率，内存使用率，磁盘读写指标；基于所述训练数据集，按照每个监控项，按照单位告警检测周期，对初始LSTM神经网络进行训练，生成预测模型，此外可以在多种情况下收集监控数据，多种情况包括单任务训练，多任务分布式训练，训练模型深度，参数量大小等，尽量保证场景全面。

如图2所示，本发明中，基于监控项的监控数据生成训练数据集的步骤，包括：

将监控数据作为训练文本，对训练文本进行预处理；

对预处理后的训练文本进行识别，生成训练文本的关键词；

其中，关键词包括实体关键词、关系关键词和事件关键词。对预处理后的训练文本进行命名实体识别，获得常见的如姓名、地址、组织机构、时间、货币、数量等命名实体，建立实体关键词。然后对预处理训练文本进行实体关系抽取，如实体间存在关系，判断实体关系是否属于常见的组件与整体、工具的使用、成员集合、因果、实体目的地、内容与容器、信息与主题、生产与被生产和实体与原产地等类型，并形成关系关键词。

本发明中，利用基于LSTM神经网络的预测模型，依据当前告警检测周期的监控数据，对下一周期的监控数据进行预测，得到监控预测值的步骤之后，还包括：对所述监控预测值进行分类。分类方法如下：设定特征点，然后对设定的特征点进行分类，得出特征点分类结果；对数据进行预处理，然后对预处理的数据进行识别，判断预处理的数据含有的设定的特征点；根据特征点分类结果对预处理后的数据含有的设定的特征点的类别进行区分，然后根据区分结果对数据进行分类，得出数据分类结果。采用的分类方法能够提高数据的识别精确度，进而提高数据的分类精确度，避免出现分类误差。

此外，本发明还公开了一种人工智能开发平台的监控预知告警装置，包括

还包括训练模块，用于基于多个监控项的监控数据生成训练数据集；基于所述训练数据集，按照每个监控项，按照单位告警检测周期，对初始LSTM神经网络进行训练，生成预测模型。

此外，本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法的步骤。

本发明中，卡尔曼滤波是预测和测量的结合，预测来自经验模型，是人对系统的建模推算得来的，另一部分是测量修正，是对模型的修正。简单来说就是预测误差滤波，使过程测量值信息不会被过滤掉，通过测量值不断修正预测值，使其得到动态的最优预测值。

本发明旨在通过监控得到的数据累积形成训练集，使用LSTM网络按照已设置的告警周期进行对监控数据的训练并预测，并使用卡尔曼滤波对预测结果进行调优，实现监控单元的数据预测，可实现提前一个告警周期对监控数据是否触发告警的预测。

综上所述，本发明将人工智能开发平台收集到的实时监控数据，按照设置的告警检测周期进行分组，形成原始训练集，使用LSTM神经网络模型进行训练，将得到的预测监控数据的LSTM模型进行保存，在预测场景下，实时使用卡尔曼滤波算法，对LSTM模型预测出的监控数据进行修正，计算出下个告警检测周期的较优监控预测数据，与告警管理模块的阈值进行对比，实现人工智能开发平台的监控预知告警功能。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种人工智能开发平台的监控预知告警方法,其特征在于：包括以下步骤：

2.根据权利要求1所述的一种人工智能开发平台的监控预知告警方法，其特征在于：还包括：

3.根据权利要求1所述的一种人工智能开发平台的监控预知告警方法，其特征在于：在利用基于LSTM神经网络的预测模型，依据当前告警检测周期的监控数据，对下一周期的监控数据进行预测，得到监控预测值的步骤之前，还包括：

基于多个监控项的监控数据生成训练数据集；

4.根据权利要求3所述的一种人工智能开发平台的监控预知告警方法，其特征在于：基于监控项的监控数据生成训练数据集的步骤，包括：

将监控数据作为训练文本，对训练文本进行预处理；

对预处理后的训练文本进行识别，生成训练文本的关键词；

5.根据权利要求3所述的一种人工智能开发平台的监控预知告警方法，其特征在于：所述监控项包括GPU温度，GPU使用率，GPU显存使用率，CPU使用率，内存使用率，磁盘读写指标。

6.根据权利要求1所述的一种人工智能开发平台的监控预知告警方法，其特征在于：利用基于LSTM神经网络的预测模型，依据当前告警检测周期的监控数据，对下一周期的监控数据进行预测，得到监控预测值的步骤之后，还包括：

对所述监控预测值进行分类。

7.根据权利要求1所述的一种人工智能开发平台的监控预知告警方法，其特征在于：卡尔曼滤波具体为：最终值＝p*观察值+(1-p)预测值，其中观察值为获取到的实际监控值，预测值为所述监控预测值，p为卡尔曼增益，通过对p不断调优，使最终值根据观察值与预测值得到更为趋近于真实的结果。

8.一种人工智能开发平台的监控预知告警装置，其特征在于：包括

9.根据权利要求8所述的一种人工智能开发平台的监控预知告警装置，其特征在于：还包括

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7任意一项所述的方法的步骤。