CN115562948A

CN115562948A - 大规模并行化的多kpi预测方法及系统

Info

Publication number: CN115562948A
Application number: CN202211545798.9A
Authority: CN
Inventors: 张�诚; 杨瀚
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2022-12-05
Filing date: 2022-12-05
Publication date: 2023-01-03
Anticipated expiration: 2042-12-05
Also published as: CN115562948B

Abstract

本发明公开了一种大规模并行化的多KPI预测方法及系统，属于智能IT运维系统KPI预测领域，包括步骤：将时序上IT设备KPI映射为四维矩阵；构建深度学习网络并用数据准备阶段的数据作为深度学习网络输入层进行训练；部署在训练学习阶段已训练好的深度学习网络模型，并预测多IT设备多KPI在未来时刻的值。本发明能够满足大规模IT智能运维系统中多IT设备多KPI并行化训练、预测的需求，对于解决大规模IT系统中智能预测算法训练繁重、部署消耗空间大具有重要意义。

Description

大规模并行化的多KPI预测方法及系统

技术领域

本发明涉及智能IT运维系统KPI预测领域，更为具体的，涉及一种大规模并行化的多KPI预测方法及系统。

背景技术

近年来，随着数字化改革进程的不断推进，各个企事业单位投入了大量的IT设备。能否准确、快速地预测大量IT设备在未来的运行状态，决定了整个业务系统是否运转。目前，已经有许多的预测算法已经应用到IT设备KPI（Key Performance Indicators）预测中，也取得了不错的效果。但是在生产环境中IT设备众多，各个IT设备的KPI表现不一，而每一台IT设备的每一个KPI都需要各自的数据进行训练、预测，从而造成了在大规模IT系统中智能预测算法训练繁重、部署消耗空间大等问题。因此，能否解决该痛点，成为大规模IT系统中智能预测算法落地的关键。

发明内容

本发明的目的在于克服现有技术的不足，提供一种大规模并行化的多KPI预测方法及系统，能够满足大规模IT智能运维系统中多IT设备多KPI并行化训练、预测的需求，对于解决大规模IT系统中智能预测算法训练繁重、部署消耗空间大等问题具有重要意义。

本发明的目的是通过以下方案实现的：

一种大规模并行化的多KPI预测方法，包括数据准备阶段、训练学习阶段和预测应用阶段步骤：

在数据准备阶段，将时序上IT设备KPI映射为四维矩阵；

在训练学习阶段，构建深度学习网络并用数据准备阶段的数据作为深度学习网络输入层进行训练；

所述深度学习网络包括残差卷积网络层和骨干网络层；所述残差卷积网络层包括卷积层（Convolutional Neural Network，CNN）和批量归一化层（Batch Normalization，BN）层；数据输入后，先经过第一BN层和第一激活函数，然后再输入第一CNN层，之后再经过第二BN层和第二激活函数，然后再输入第二CNN层后输出；所述骨干网络层包括多个处理不同时间粒度的分支网络，处理时间差值、比值的全连接网络层（Full Connection, FC）和融合层（Fusion Layer，FL），融合层将处理不同时间粒度的分支网络的输出和处理时间差值、比值的全连接网络结构进行融合；

在预测应用阶段，部署在训练学习阶段已训练好的深度学习网络模型，并预测多IT设备多KPI在未来时刻的值。

进一步地，所述将时序上IT设备KPI映射为四维矩阵，包括步骤：将IT设备组成m*n的二维矩阵，再将m*n二维矩阵转换为k*m*n的三维矩阵，k表示IT设备具有k种需要学习、预测的KPI；再将m*n*k的三维矩阵转换为四维矩阵t*m*n*k，t表示时间，m，n，k均为整数。

进一步地，所述将时序上IT设备KPI映射为四维矩阵，包括步骤：首先基于各IT设备所在机房中的分布位置，生成所有IT设备组成的二维矩阵；然后监控到各IT设备各KPI的数据，生成所有IT设备所有KPI组成的三维矩阵；最后基于时序，生成时序上所有IT设备所有KPI组成的四维矩阵。

进一步地，在数据准备阶段，还包括步骤：

基于四维矩阵进行特征工程，按照时间粒度提取时间临近性、周期性和趋势性特征；

再基于时序时间戳准备外部环境数据，再将外部环境数据和提取的时间临近性、周期性和趋势性特征数据融合作为训练集。

进一步地，所述各IT设备所在机房中的分布位置包括机房的所有机架进行数字编号，对于一个机架，其行列数固定，有i行，j列，一共有i*j个机位，将在一个机架上部署的IT设备映射为i*j二维矩阵，二维矩阵中的每一个元素表示一台IT设备。

进一步地，所述基于四维矩阵进行特征工程，按照时间粒度提取时间临近性、周期性和趋势性特征，包括子步骤：对于获取的时间临近性、周期性和趋势性特征数据，计算采样时间点KPI数据与当前采样时间点KPI数据的差值、比值。

进一步地，所述处理不同时间粒度的分支网络结构相同。

进一步地，所述处理时间差值、比值的全连接网络结构，用于对差值、比值信息进行特征交叉，以充分拟合不同KPI之间可能存在的关联信息。

进一步地，所述融合层将处理不同时间粒度的分支网络的输出和处理时间差值、比值的全连接网络结构进行融合，包括子步骤：所述融合层将处理不同时间粒度的分支网络的输出结果与处理时间差值、比值的全连接网络输出结果进行加权融合，其中权重可学习。

一种大规模并行化的多KPI预测系统，包括计算机设备，所述计算机设备的存储器存储有程序，当程序被计算机设备的处理器加载运行时执行如上任一所述的方法。

本发明的有益效果包括：

本发明技术方案基于图像类比的输入层配合改进后的CNN算法网络，能够满足大规模IT智能运维系统中多IT设备多KPI并行化训练、预测的需求，对于解决大规模IT系统中智能预测算法训练繁重、部署消耗空间大等问题具有重要意义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的残差卷积网络结构；

图2为本发明实施例的基于深度学习的大规模IT系统预测方法整体框架结构图。

具体实施方式

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

为了解决背景中的问题，本发明的发明人发现：传统的做法是引入大数据平台，通过分布式存储，并行化计算的方法分布式部署算法模型。但这种方式仅仅只是改变了部署方式，并没有从根本上解决算法模型训练繁重、部署消耗空间大等技术问题。此外，分布式部署方式还造成了部署困难，部署成本上升的技术问题。因此，本发明的发明人认为使用一个模型训练且并行预测所有IT设备的所有KPI，对于在生产环境中大规模IT系统KPI预测具有重要意义。

传统的预测算法无法做到一个算法并行输入学习多个KPI数据，在经历了创造性的思考后，本发明的发明人认为基于深度学习的图像识别中的输入层则可以很好地解决该问题。输入层通常以像素点为基本单位，将一张图像视为m*n个像素点组成的二维矩阵（m代表图像高度，n代表图像宽度）；同时每个像素点具有RGB3维色域通道，可以进一步地将m*n二维矩阵转换为3*m*n的三维矩阵；进一步，多张图片叠加之后，可以进一步将3*m*n的三维矩阵转换为batch*3*m*n的四维矩阵（batch代表图片张数）。类似地，将每一台IT设备视为一个像素点，所有的IT设备可以组成m*n的二维矩阵；同时每一台IT设备都有k种需要学习、预测的KPI（如：CPU占用率、内存占用率、网卡流量等），可以进一步地将m*n二维矩阵转换为k*m*n的三维矩阵；进一步，由于KPI都是时序数据，再将时间维度考虑之后，可以进一步将m*n*k的三维矩阵转换为t*m*n*k。因此，基于此类比后，可以做到一个算法并行输入学习多个KPI数据。此外，基于深度学习的图像识别输出通常是类别型变量，不符合多IT设备多KPI预测的输出结果，无法直接使用，因此还需要再进行改进，以适应多IT设备多KPI预测的输出结果要求。

在上述发明构思的基础上，本发明技术方案提出了一种大规模IT系统多IT设备多KPI并行预测方案，包括相应算法、设备及系统等。在算法训练阶段，本发明算法可以同时学习多IT设备多KPI离线历史数据，生成一个统一框架下的模型。在预测阶段，基于本发明算法训练的模型可以对多IT设备多KPI的在线数据并行预测各自未来时刻的状态值，从而实现对大规模IT系统多IT设备多KPI并行预测。

本发明实施例技术方案提供的大规模IT系统多IT设备多KPI并行预测方法，如图2所示，包括以下步骤：

步骤一：准备输入层训练数据。首先基于大规模IT系统中各IT设备所在机房中的分布位置，生成所有IT设备组成的二维矩阵；然后基于Promethus监控到大规模IT系统中各IT设备各KPI的数据，生成所有IT设备所有KPI组成的三维矩阵；最后基于时序，生成时序上所有IT设备所有KPI组成的四维矩阵。

步骤二：进行特征工程。基于步骤一时序四维矩阵，进行特征工程，按照时间粒度提取时间临近性、周期性和趋势性特征。

步骤三：基于时序时间戳，准备外部环境数据。包括大规模IT系统中各IT设备所在机房中的温度、湿度，当前时间是一周中第几天，是否节假日。然后将此外部环境数据和步骤二数据融合作为后续步骤的训练集。

步骤四：算法模型训练。构建基于深度学习的大规模IT智能运维系统预警算法整体框架，并使用步骤一、二训练数据训练模型。

步骤五：模型部署与在线预测。部署步骤二中已训练模型，并在线实时预测大规模IT智能运维系统中多IT设备多KPI在未来时刻的值。

以上五个步骤中，步骤一、二、三基于历史数据构建训练数据集，属于数据准备阶段。步骤四基于大规模IT系统中多IT设备多KPI并行化训练的需求，构建深度学习算法模型，属于训练学习阶段。步骤五基于上述已训练好的模型完成部署并在线实时预测大规模IT系统中多IT设备多KPI在未来时刻的值，属于预测应用阶段。

进一步的实施方式中，本发明实施例技术方案提供的大规模IT系统多IT设备多KPI并行预测方法，根据实际情况，还包括如下具体实施过程。

步骤一：准备输入层训练数据。

上述方案的步骤一中，准备输入层训练数据是指将时序上所有IT设备所有KPI映射为四维矩阵。步骤一的具体实现步骤如下：

步骤101：对机房的所有机架进行数字编号，设最大编号为P。

步骤102：对于一个机架，其行列数固定（例如：有i行，j列，一共有i*j个机位）。因此将在一个机架上部署的IT设备映射为i*j二维矩阵，二维矩阵中的每一个元素表示一台IT设备。

步骤103：求

，

，然后生成m*n二维分块矩阵，每一块表示i*j二维矩阵。

步骤104：使用每个机架编号，依次从左到右、从上到下将该机架对应的i*j二维矩阵放入到二维分块矩阵中。令

，

，最终形成M*N二维矩阵。

步骤105：每一台IT设备都有K种需要学习、预测的KPI（如：CPU占用率、内存占用率、网卡流量等），可以进一步地将M*N二维矩阵转换为K*M*N的三维矩阵。

步骤106：截取30天以上的KPI监控数据，设定KPI数据监控频率为t min/次，则可计算采样数据频次为T=43200/t，并基于采样时间点生成采样时间戳，因此最终可获取T*K*M*N的四维矩阵。

步骤107：基于步骤106每一个采样时间戳，获取每个采样时间戳的下一个采样时间戳对应的每台IT设备每个KPI的值，作为标签。最终106与107的数据，形成训练数据。

步骤二：进行特征工程。

上述方案的步骤二中，准备对步骤一取得的四维矩阵进行特征工程。步骤二的具体实现步骤如下：

步骤201：取后3个星期的数据的采样时间点作为样本生成点。

步骤202：对于每一个采样时间点，获取每个IT设备每个KPI前10个采样时间点的数据，作为邻近性表达。

步骤203：对于每一个采样时间点，获取每个IT设备每个KPI前1天相同采样时间的前10个采样点的数据，作为周期性表达。

步骤204：对于每一个采样时间点，获取每个IT设备每个KPI前7天相同采样时间的前10个采样点的数据，作为趋势性表达。

步骤205：对于步骤202、步骤203、步骤204获取的数据，计算这些采样时间点KPI数据与当前采样时间点KPI数据的差值、比值。

步骤三：基于时序时间戳，准备外部环境数据。

上述方案的步骤三中，准备利用步骤一取得数据的时间戳，获取外部环境数据。步骤三的具体实现步骤如下：

步骤301：基于步骤106当前采样时间点数据的时间戳，获取对应时间戳的外部数据，包括：当前时间戳对应日期所处的一周中的第几天，当前时间戳对应日期是否节假日，当前时间戳对应时刻的机房温度，当前时间戳对应时刻的机房湿度。

步骤四：构建基于深度学习的大规模IT系统预警算法整体框架。

上述方案的步骤四中，准备利用步骤二特征工程后的数据与步骤三外部环境数据作为输入层，并构建深度学习网络以适应大规模IT系统多IT设备多KPI预警的需求。步骤四的具体实现步骤如下：

步骤401：定义残差卷积网络层基本单元，该残差网络基本单元包含了两个CNN层和两个BN层。该层的数据输入后，先经过一个BN层和Relu激活函数，然后再输入一个CNN层。之后再经过一个BN层和Relu激活函数，然后再输入一个CNN层后输出，即为残差卷积网络层。残差卷积网络层结构如图1所示。

步骤402：定义骨干网络层。骨干网络的拥有3个处理不同时间粒度的分支网络结构（分别用于处理步骤202-步骤204的邻近性、周期性、趋势性数据），1个处理时间差值、比值的全连接网络结构（用于处理步骤205步骤特征工程生成的差值、比值），1个融合层将不同时间粒度网络结构的输出和时间差值、比值的全连接网络结构进行融合，具体如下所述：

（1）3个处理不同时间粒度的分支网络结构相同，都包含了2个CNN层和3个残差卷积网络层。该层的数据输入后，先用1个卷积网络层将输出的特征维度从低维映射到高维，然后依次添加3个残差卷积网络层，最后再用1个卷积网络层将高数数据映射会原来的低维数据。

（2）1个处理时间差值、比值的全连接网络结构，包含了1个输入层，1个输出层，1个隐含层。其中输入层和输出层节点数为K，隐含层节点数为10。该全连接网络的主要目的是为了对差值、比值信息进行特征交叉，以充分拟合不同KPI之间可能存在的关联信息。

（3）一个融合层将（1）中处理3个不同时间粒度的分支网络输出结果与（2）中处理时间差值、比值的全连接网络输出结果进行加权融合，其中权重可学习。

步骤403：定义外部环境数据全连接网络层，包含了1个输入层，1个输出层，2个隐含层。其中输入层节点数为4，隐含层节点数为10，输出层节点数为K*M*N。

步骤404：直接将步骤402与步骤403的输出结果直接相加，得到最终的输出。

步骤405：基于步骤404的输出与步骤107每个时间戳每台IT设备每个KPI真实的数据，计算损失并反向传播更新参数。

步骤406：基于步骤401-405所构建的完整网络，使用步骤107的数据进行训练，得到训练好的模型。

步骤五：模型部署与在线预测。

上述方案的步骤五中，准备利用步骤四得到的模型与实时数据对多台IT设备多KPI进行预测。步骤五的具体实现步骤如下：

步骤501：基于当前时间戳，并采用步骤201-205，获取当前时间戳对应的历史数据并生成特征工程后的数据。

步骤502：基于当前时间戳，并采用步骤301，获取当前时间戳的外部数据。

步骤503：采用步骤406训练完成的网络结构模型，并结合步骤501、502的数据，预测多IT设备多KPI在下一个采样时间点的预测值。

综上五个大步骤，即可完成大规模IT智能运维系统多IT设备多KPI并行预测。实验证明，本发明技术方案基于图像类比的输入层配合改进后的CNN算法，能够满足大规模IT智能运维系统中多IT设备多KPI并行化训练、预测的需求，对于解决大规模IT系统中智能预测算法训练繁重、部署消耗空间大等问题具有重要意义。

需要说明的是，在本发明权利要求书中所限定的保护范围内，以下实施例均可以从上述具体实施方式中，例如公开的技术原理，公开的技术特征或隐含公开的技术特征等，以合乎逻辑的任何方式进行组合和/或扩展、替换。

实施例1

在数据准备阶段，将时序上IT设备KPI映射为四维矩阵；

所述深度学习网络包括残差卷积网络层和骨干网络层；所述残差卷积网络层包括CNN层和BN层；数据输入后，先经过第一BN层和第一激活函数，然后再输入第一CNN层，之后再经过第二BN层和第二激活函数，然后再输入第二CNN层后输出；所述骨干网络层包括多个处理不同时间粒度的分支网络，处理时间差值、比值的全连接网络和融合层，融合层将处理不同时间粒度的分支网络的输出和处理时间差值、比值的全连接网络结构进行融合；

实施例2

在实施例1的基础上，所述将时序上IT设备KPI映射为四维矩阵，包括步骤：将IT设备组成m*n的二维矩阵，再将m*n二维矩阵转换为k*m*n的三维矩阵，k表示IT设备具有k种需要学习、预测的KPI；再将m*n*k的三维矩阵转换为四维矩阵t*m*n*k，t表示时间，m，n，k均为整数。

实施例3

在实施例1的基础上，所述将时序上IT设备KPI映射为四维矩阵，包括步骤：首先基于各IT设备所在机房中的分布位置，生成所有IT设备组成的二维矩阵；然后监控到各IT设备各KPI的数据，生成所有IT设备所有KPI组成的三维矩阵；最后基于时序，生成时序上所有IT设备所有KPI组成的四维矩阵。

实施例4

在实施例1的基础上，在数据准备阶段，还包括步骤：

实施例5

在实施例3的基础上，所述各IT设备所在机房中的分布位置包括机房的所有机架进行数字编号，对于一个机架，其行列数固定，有i行，j列，一共有i*j个机位，将在一个机架上部署的IT设备映射为i*j二维矩阵，二维矩阵中的每一个元素表示一台IT设备。

实施例6

在实施例4的基础上，所述基于四维矩阵进行特征工程，按照时间粒度提取时间临近性、周期性和趋势性特征，包括子步骤：对于获取的时间临近性、周期性和趋势性特征数据，计算采样时间点KPI数据与当前采样时间点KPI数据的差值、比值。

实施例7

在实施例1的基础上，所述处理不同时间粒度的分支网络结构相同。

实施例8

在实施例1的基础上，所述处理时间差值、比值的全连接网络结构，用于对差值、比值信息进行特征交叉，以充分拟合不同KPI之间可能存在的关联信息。

实施例9

在实施例1的基础上，所述融合层将处理不同时间粒度的分支网络的输出和处理时间差值、比值的全连接网络结构进行融合，包括子步骤：所述融合层将处理不同时间粒度的分支网络的输出结果与处理时间差值、比值的全连接网络输出结果进行加权融合，其中权重可学习。

实施例10

一种大规模并行化的多KPI预测系统，包括计算机设备，所述计算机设备的存储器存储有程序，当程序被计算机设备的处理器加载运行时执行如实施例1~实施例9任一所述的方法。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

根据本发明实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

作为另一方面，本发明实施例还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

上述技术方案只是本发明的一种实施方式，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施方式所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

除以上实例以外，本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例，各个实施例的特征可以互换或替换，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种大规模并行化的多KPI预测方法，其特征在于，包括数据准备阶段、训练学习阶段和预测应用阶段步骤：

在数据准备阶段，将时序上IT设备KPI映射为四维矩阵；

所述深度学习网络包括残差卷积网络层和骨干网络层；所述残差卷积网络层包括卷积层CNN层和批量归一化层BN层；数据输入后，先经过第一BN层和第一激活函数，然后再输入第一CNN层，之后再经过第二BN层和第二激活函数，然后再输入第二CNN层后输出；所述骨干网络层包括多个处理不同时间粒度的分支网络，处理时间差值、比值的全连接网络层和融合层，融合层将处理不同时间粒度的分支网络的输出和处理时间差值、比值的全连接网络结构进行融合；

2.根据权利要求1所述的大规模并行化的多KPI预测方法，其特征在于，所述将时序上IT设备KPI映射为四维矩阵，包括步骤：将IT设备组成m*n的二维矩阵，再将m*n二维矩阵转换为k*m*n的三维矩阵，k表示IT设备具有k种需要学习、预测的KPI；再将m*n*k的三维矩阵转换为四维矩阵t*m*n*k，t表示时间，m，n，k均为整数。

3.根据权利要求1所述的大规模并行化的多KPI预测方法，其特征在于，所述将时序上IT设备KPI映射为四维矩阵，包括步骤：首先基于各IT设备所在机房中的分布位置，生成所有IT设备组成的二维矩阵；然后监控到各IT设备各KPI的数据，生成所有IT设备所有KPI组成的三维矩阵；最后基于时序，生成时序上所有IT设备所有KPI组成的四维矩阵。

4.根据权利要求1所述的大规模并行化的多KPI预测方法，其特征在于，在数据准备阶段，还包括步骤：

5.根据权利要求3所述的大规模并行化的多KPI预测方法，其特征在于，所述各IT设备所在机房中的分布位置包括机房的所有机架进行数字编号，对于一个机架，其行列数固定，有i行，j列，一共有i*j个机位，将在一个机架上部署的IT设备映射为i*j二维矩阵，二维矩阵中的每一个元素表示一台IT设备。

6.根据权利要求4所述的大规模并行化的多KPI预测方法，其特征在于，所述基于四维矩阵进行特征工程，按照时间粒度提取时间临近性、周期性和趋势性特征，包括子步骤：对于获取的时间临近性、周期性和趋势性特征数据，计算采样时间点KPI数据与当前采样时间点KPI数据的差值、比值。

7.根据权利要求1所述的大规模并行化的多KPI预测方法，其特征在于，所述处理不同时间粒度的分支网络结构相同。

8.根据权利要求1所述的大规模并行化的多KPI预测方法，其特征在于，所述处理时间差值、比值的全连接网络结构，用于对差值、比值信息进行特征交叉，以充分拟合不同KPI之间可能存在的关联信息。

9.根据权利要求1所述的大规模并行化的多KPI预测方法，其特征在于，所述融合层将处理不同时间粒度的分支网络的输出和处理时间差值、比值的全连接网络结构进行融合，包括子步骤：所述融合层将处理不同时间粒度的分支网络的输出结果与处理时间差值、比值的全连接网络输出结果进行加权融合，其中权重可学习。

10.一种大规模并行化的多KPI预测系统，其特征在于，包括计算机设备，所述计算机设备的存储器存储有程序，当程序被计算机设备的处理器加载运行时执行如权利要求1~9任一所述的方法。