CN112988538B

CN112988538B - 人工智能开发平台监控告警数据预测方法、装置及介质

Info

Publication number: CN112988538B
Application number: CN202110271760.6A
Authority: CN
Inventors: 李世刚
Original assignee: Shandong Yingxin Computer Technology Co Ltd
Current assignee: Shandong Yingxin Computer Technology Co Ltd
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2023-01-13
Anticipated expiration: 2041-03-12
Also published as: CN112988538A

Abstract

本发明公开了一种人工智能开发平台监控告警数据预测方法、装置及介质。所述方法包括：利用预先训练的基于卷积神经网络的第一预测模型，依据当前时刻之前的若干周期的监控告警数据对下一周期的监控告警数据进行预测，得到第一预测数据；利用预先训练的基于LSTM神经网络的第二预测模型，依据第一预测数据对下一周期的监控告警数据进行预测，得到第二预测数据；利用自回归模型依据当前时刻之前的若干告警检测周期的监控告警数据对下一周期的监控告警数据进行预测，得到第三预测数据；将第二预测数据和第三预测数据按预设权重进行融合作为下一周期预测数据。本发明的方案能够对人工智能开发平台中各监控项进行预测，不再依赖管理人员的业务经验。

Description

人工智能开发平台监控告警数据预测方法、装置及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种人工智能开发平台监控告警数据预测方法、装置、设备及介质。

背景技术

人工智能开发平台，主要用来为算法工程师提供一个统一化模型开发、训练平台，提高算法工程师的模型开发和训练效率。监控告警模块作为人工智能开发平台的重要功能模块，实现了对整个集群中节点的运行情况和资源的使用情况的实时监控，从而有效地提高了计算资源的利用率。并且在处理大规模集群产生的监控数据时，保证了监控数据的安全性。

目前，对于告警信息的处理一般是通过站内信或邮件的方式进行通知，通过监控节点、告警项、告警等级、告警时间等条件进行告警信息数据的导出，即仅仅是将告警信息的历史记录展现给管理员。然而现有的告警信息处理方法过于简单，人工智能开发平台中各节点和监控项的维护和管理工作很大程度上依赖于管理人员的工作能力和业务经验，大多数情况下，我们一直处于被动的处理告警的状态下，不利于及时发现系统存在的问题。

发明内容

有鉴于此，有必要针对以上技术问题提供自动对未来运行状态进行预测的一种人工智能开发平台监控告警数据预测方法、装置、设备及介质。

根据本发明的第一方面，提供了一种人工智能开发平台监控告警数据预测方法，所述方法包括：

利用预先训练的基于卷积神经网络的第一预测模型，依据当前时刻之前的若干告警检测周期的监控告警数据对下一周期的监控告警数据进行预测，得到第一预测数据；

利用预先训练的基于LSTM神经网络的第二预测模型，依据所述第一预测数据对下一周期的监控告警数据再次进行预测，得到第二预测数据；

利用自回归模型依据当前时刻之前的若干告警检测周期的监控告警数据对下一周期的监控告警数据进行预测，得到第三预测数据；

将所述第二预测数据和所述第三预测数据按预设权重进行融合作为下一周期预测数据。

在其中一个实施例中，所述方法还包括：

获取当前时刻邻近的前一周期监控告警数据；

计算所述第三预测数据与前一周期监控告警数据的偏差；

若偏差超出预设值阈值，则基于所述偏差对所述第三预测数据进行调整直至调整后的第三预测数据与前一周期监控告警数据偏差未超出所述预设阈值。

在其中一个实施例中，所述方法还包括：

利用所述前一周期监控告警数据和下述公式一对所述下一周期预测数据进行修正以得到修正后的下一周期预测数据；

其中，h_t为下一周期预测数据，p_t-1前一周期监控告警数据；Y_t为修正后的下一周期预测数据。

在其中一个实施例中，所述方法还包括：

利用预设卷积神经网络和下述公式二对训练样本进行卷积操作以提取临近性、周期性、趋势性特征以构建预测卷积神经网络；

其中，f是激励函数，

是第p层第m个特征图谱的输出，

是第p-1层第i个特征图谱的输出，G_m是前一层的特征集合，

是卷积核，

是偏置项的值，*是卷积操作；

利用下述公式三对训练样本、周期长短进行归一化处理将其转化为无量纲相对量，并输入所述预测卷积神经网络；

其中，max和min分别为训练样本的最大和最小值，经过归一化处理后原始数据的值都在[0，1]内；

初始化所述构建预测卷积神经网络的多通道卷积神经网络权值和偏置；

将训练样本通过卷积神经网络逐层计算，若训练次数达到第一设定迭代次数后停止训练以得到预先训练的基于卷积神经网络的第一预测模型。

在其中一个实施例中，所述方法还包括：

将预先训练的基于卷积神经网络的第一预测模型的对训练样本的输出作为预设LSTM神经网络的输入，将所述训练样本作为预设LSTM神经网络的输出；

对预设LSTM神经网络进行迭代训练，若训练次数达到第二设定迭代次数后停止训练以得到预先训练的基于LSTM神经网络的第二预测模型。

在其中一个实施例中，所述利用自回归模型依据当前告警检测周期的监控告警数据对下一周期的监控告警数据进行预测，得到第三预测数据的步骤包括：

利用训练样本和下述公式四以构建自回归模型；

其中，X_t是选取训练样本中一个周期的监控告警数据组成时间序列，中p和

分别为阶数和系数，而Δ_t为白噪声序列；

将当前时刻之前的若干周期的监控告警数据代入自回归模型得到第三预测数据。

在其中一个实施例中，所述监控告警数据的告警项包括GPU告警、CPU告警、网络告警、内存告警、磁盘告警中的一种或多种。

根据本发明的第二方面，提供了一种人工智能开发平台监控告警数据预测装置，所述装置包括：

第一预测模块，用于利用预先训练的基于卷积神经网络的第一预测模型，依据当前时刻之前的若干告警检测周期的监控告警数据对下一周期的监控告警数据进行预测，得到第一预测数据；

第二预测模块，用于利用预先训练的基于LSTM神经网络的第二预测模型，依据所述第一预测数据对下一周期的监控告警数据再次进行预测，得到第二预测数据；

第三预测模块，用于利用自回归模型依据当前时刻之前的若干告警检测周期的监控告警数据对下一周期的监控告警数据进行预测，得到第三预测数据；

融合模块，用于将所述第二预测数据和所述第三预测数据按预设权重进行融合作为下一周期预测数据。

根据本发明的第三方面，还提供了一种计算机设备，该计算机设备包括：

至少一个处理器；以及

存储器，存储器存储有可在处理器上运行的计算机程序，处理器执行程序时执行前述的了人工智能开发平台监控告警数据预测方法。

根据本发明的第四方面，还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时执行前述的人工智能开发平台监控告警数据预测方法。

上述一种人工智能开发平台监控告警数据预测方法，将监控告警数据预测任务分解为线性和非线性两个部分，对于非线性部分使用卷积神经网络和长短期记忆网络结合进行两次预测，对于线性部分则采用自回归模型来实现对监控告警数据中的趋势项进行预测，最后将两部分的预测数据融合起来完成对监控告警数据的预测，该模型结合使用卷积神经网络和LSTM神经网络提取数据之间的短期局部依赖模式，并且发现监控告警数据的长期变化趋势，同时使用自回归模型来增强神经网络的鲁棒性，有效地提高对监控告警数据的预测准确度，能够主动的对人工智能开发平台中各监控项进行预测分析，不再依赖管理人员的业务经验，保障平台的稳定可靠运行。

此外，本发明还提供了一种人工智能开发平台监控告警数据预测装置、一种计算机设备和一种计算机可读存储介质，同样能实现上述技术效果，这里不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明一个实施例提供的一种人工智能开发平台监控告警数据预测方法的流程示意图；

图2为本发明另一个实施例提供的某一周期的监控告警数据的折线图；

图3为本发明又一个是实施例提供的采用卷积神经网络、LSTM神经网络以及自回归模型的预测的拓扑示意图；

图4为本发明另一个实施例提供的一种人工智能开发平台监控告警数据预测装置的结构示意图；

图5为本发明另一个实施例中计算机设备的内部结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

在一个实施例中，请参照图1所示，本发明提供了一种人工智能开发平台监控告警数据预测方法，该方法包括以下步骤：

S100，利用预先训练的基于卷积神经网络的第一预测模型，依据当前时刻之前的若干告警检测周期的监控告警数据对下一周期的监控告警数据进行预测，得到第一预测数据；

其中，通常监控数据具有一定的规律性，因而周期可以设定为一周，当然周期也可以设定为两天、或者一个月等，监控周期值的设定可根据实际需求设定；假设以七天为周期的单位，可以采用连续两周的数据预测下一周的数据也可以采用一周的数据预测下一周的数据，此时预测到的第一预测数据包括当前时刻以后七天的预测数据。卷积神经网络(Convolutional Neural Network，简称CNN)可以发现数据的空间相关性，能够处理监控告警数据中的非线性部分。

S200，利用预先训练的基于LSTM神经网络的第二预测模型，依据所述第一预测数据对下一周期的监控告警数据再次进行预测，得到第二预测数据；

其中，长短期记忆网络(Long Short-Term Memory，简称LSTM)而LSTM的作用则是提取数据的长期依赖模式，使监控告警数据的预测更准确，并且也能够处理监控告警数据中非线性部分。

S300，利用自回归模型依据当前时刻之前的若干告警检测周期的监控告警数据对下一周期的监控告警数据进行预测，得到第三预测数据；其中，自回归模型(AutoRegressive，简称AR)，自回归模型则用能够处理监控告警数据中的线性部分,同时增强该混合模型对输入规模发生变化的监控告警的鲁棒性。

S400，将所述第二预测数据和所述第三预测数据按预设权重进行融合作为下一周期预测数据。

其中，融合是指将两部分数据按照预设权重值作和，例如设定第二预测数据对应的权重为0.7，第三预设数据对应的权重为0.3，此时融合后的数据即为0.7乘以第二预测数据与0.3乘以第三预测数据的乘积。

在又一个实施例中，请参照图2所示，所述监控告警数据的告警项包括GPU告警、CPU告警、网络告警、内存告警、磁盘告警中的一种或多种。

在又一个实施例中，请结合图3所示，本发明方法还包括以下步骤：

S510，获取当前周期邻近的前一周期监控告警数据；

S520，计算所述第三预测数据与前一周期监控告警数据的偏差；

S530，若偏差超出预设值阈值，则基于所述偏差对所述第三预测数据进行调整直至调整后的第三预测数据与前一周期监控告警数据偏差未超出所述预设阈值。

例如将步骤S400中生成的预测数据与相邻时间段中相同历史时期的单元连接起来，把历史时期中的监控告警数据考虑在预测过程中。假设当想要预测本周四的GPU监控告警数据时，除了将最近一周的GPU监控告警数据考虑在内，还可以将以往监控周期周四的GPU监控告警数据也应用到预测中，从而使预测更准确。

在又一个实施例中，通常在整个集群的运行过程中，由于一些客观的因素会造成监控告警数据的短期丢失，比如断电、集群节点扩缩容、或一些人为的操作不当等。这也会造成预测结果的不准确，因此本发明方法还采用同比数据对预测数据进行数据修，具体请继续参照图3所示，本发明方法还包括：

S600，利用所述前一周期监控告警数据和下述公式1对所述下一周期预测数据进行修正以得到修正后的下一周期预测数据；

上述方法，通过将融合后的预测数据采用上一个周期的监控告警数据进行数据修正，加入上一个周期的监控告警数据进行均衡，减少预测值与实际值的误差大小，使预测模型的准确率更高。

在又一个实施例中，发明方法还包括以下步骤：

S710，利用预设卷积神经网络和下述公式2对训练样本进行卷积操作以提取临近性、周期性、趋势性特征以构建预测卷积神经网络；举例来说，训练样本可以采集人工智能开发平台存储于influxdb时序数据库中的监控告警数据，该阶段主要完成监控告警数据的提取以自然周为单位进行监控告警数据的提取，例如可以采集连续五十周的数据。

其中，f是激励函数，

是第p层第m个特征图谱的输出，

是第p-1层第i个特征图谱的输出，G_m是前一层的特征集合，

是卷积核，

是偏置项的值，*是卷积操作；

S720，利用下述公式3对训练样本、周期长短进行预处理，即归一化处理，将其转化为无量纲相对量，并输入所述预测卷积神经网络；

S730，初始化所述构建预测卷积神经网络的多通道卷积神经网络权值和偏置；

S740，将训练样本通过卷积神经网络逐层计算，若训练次数达到第一设定迭代次数后停止训练以得到预先训练的基于卷积神经网络的第一预测模型。

在又一个实施例中，本发明方法还包括以下步骤：

S810，将预先训练的基于卷积神经网络的第一预测模型的对训练样本的输出作为预设LSTM神经网络的输入，将所述训练样本作为预设LSTM神经网络的输出；

S820，对预设LSTM神经网络进行迭代训练，若训练次数达到第二设定迭代次数后停止训练以得到预先训练的基于LSTM神经网络的第二预测模型。

下面对采用LSTM神经网络进行第二预测进行详细说明，即将步骤S740的输出作为本阶段的输入，应用LSTM网络抓取数据的长期发展趋势，将以往数据加入预测过程中，提高监控告警预测的准确率。对应的非线性部分中还可采历史数据对网络输出的预测数据进行调整，例如将当前被预测的数据与相邻时间段中相同历史时期的单元连接起来，假设预测的是第三周期的监控告警数据，那么可以采用第二周期的监控告警数据对应调整第三周期的预测结果，把历史时期中的监控告警数据考虑到预测过程中，能使监控告警预测更准确。

LSTM网络主要包括单元状态、遗忘门、输入门和输出门，预测数据主要包括以下步骤：

第一步，确定单元状态中要丢弃的信息，主要通过遗忘门f_x来实现这步操作，它按照一定的概率来选择遗忘掉上一层的单元状态与否，f_x的计算过程可由公式5所表示：

f_x＝σ(W_f*[h_t-1，x_t]+b_f) 公式5；

其中W_f是权值矩阵，b_f是遗忘门偏置项的值，[h_t-1，x_t]表示把h_t-1和x_t连接成一个更长的向量

第二步，修改单元状态中存放的信息，首先，使用sigmoid函数确定要更新哪部分值，第二个步骤是通过tanh函数创造一个新的单元值ct并将其加入到状态中。修改过程参加公式6和公式7；

i_t＝8(W_i*[h_t-1，x_t]+b_i) 公式6；

第三步，更新单元状态，即将c_t-1更新为c_t，c_t就是新的候选值，它集合了通过遗忘门的旧记忆和输入门的新记忆，具体地更新过程参考以下公式8；

第四步，最后确定输出，这个输出是基于单元状态的。首先经过一个sigmoid函数处理获得一个原始输出值，再把单元状态使用tanh进行计算，把它缩放成一个-1到1之间的值，再和前面的原始输出值逐对相乘，就得出了LSTM的输出，具体输出结果参加公式9和公式10。

O_t＝δ(W₀[h_t-1，x_t]+b_o) 公式9；

h_t＝O_t*tanh(C_t) 公式10；

在又一个实施例中，在前述实施例的基础上前述步骤S300具体包括以下子步骤：

S310，利用训练样本和下述公式11以构建自回归模型；

分别为阶数和系数，而Δ_t为白噪声序列，则可以将自回归模型简单理解为X的当前值等于一个或多个过去值的线性组合再加上一个随机误差；

S320，将当前时刻之前的若干周期的监控告警数据代入自回归模型得到第三预测数据。

在又一个实施例中，请结合图3所示，下面以人工智能开发平台存储于influxdb时序数据库中的监控告警数据为例进行说明，具体的预测方法如下：

步骤一：采集人工智能开发平台存储于influxdb时序数据库中的监控告警数据，用于预测模型的训练。

步骤二：应用卷积神经网络模型和LSTM神经网络模型结合处理监控告警数据中的线性部分；具体地，卷积神经网络模型用于获取变量的短期局部依赖模式，解决当前监控告警预测模型中存在的忽视区域间的空间相关性的问题，LSTM神经网络模型用于抓取数据的长期发展趋势，并将历史数据加入预测过程中对LSTM的数据结果进行调整，提高监控告警预测的准确率。

步骤三：应用自回归模型用于处理监控告警数据中的线性部分。

步骤四，将非线性部分和线性部分的预测数据按照预设的权重进行融合，例如非线性和线性部分各占比百分之五十，从而得到融合后的预测数据。

步骤五：通过对融合后的预测数据采用均值修正法进行修正，实现了对有监控告警数据丢失的情况下的预测，以减少预测的误差，提高预测的准确性。

上述方法，通过收集当前的监控告警数据，并将收集到的数据应用卷积神经网络模型和LSTM神经网络中进行依次进行两次预测处理得到监控告警数据中的线性部分，还应用自回归模型用于处理监控告警数据中的线性部分。通过结合卷积神经网络和LSTM神经网络的优势来完成监控告警数据中短期和长期依赖模式的获取，同时考虑监控告警的时间特性和空间相关性，还引入历史数据进行调整提供预测准确性，并使用自回归模型完成对数据中线性部分的处理，结合线性和非线性部分的输出得到最后的预测数据，使得该混合模型在监控告警预测任务上表现良好。

在又一个实施例中，请结合图4所示，本发明还提供了一种人工智能开发平台监控告警数据预测装置90，所述装置包括：

第一预测模,91，用于利用预先训练的基于卷积神经网络的第一预测模型，依据当前时刻之前的若干告警检测周期的监控告警数据对下一周期的监控告警数据进行预测，得到第一预测数据；

第二预测模块92，用于利用预先训练的基于LSTM神经网络的第二预测模型，依据所述第一预测数据对下一周期的监控告警数据再次进行预测，得到第二预测数据；

第三预测模块93，用于利用自回归模型依据当前时刻之前的若干告警检测周期的监控告警数据对下一周期的监控告警数据进行预测，得到第三预测数据；

融合模块94，用于将所述第二预测数据和所述第三预测数据按预设权重进行融合作为下一周期预测数据。

需要说明的是，关于人工智能开发平台监控告警数据预测装置的具体限定可以参见上文中对人工智能开发平台监控告警数据预测方法的限定，在此不再赘述。上述人工智能开发平台监控告警数据预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

根据本发明的另一方面，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图请参照图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时实现以上所述的人工智能开发平台监控告警数据预测方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。