CN112073239A

CN112073239A - 一种云计算环境分布式应用性能预测方法

Info

Publication number: CN112073239A
Application number: CN202010921199.7A
Authority: CN
Inventors: 赵来平; 周贤; 杨亚南; 李克秋
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2020-12-11
Anticipated expiration: 2040-09-04
Also published as: CN112073239B

Abstract

本发明公开了一种云计算环境分布式应用性能预测方法，步骤1、进行数据训练，即：将采集的所有应用单独运行下的各个容器资源层、微体系结构层的指标以及多应用混合运行干扰后的真实性能下降作为机器学习的训练数据集，对该训练数据集进行指标刻画，进而建立性能指标与应用性能之间的预测模型；步骤2、应用针对无干扰情况下的性能指标以及各个应用组件间的“时空重叠”编码信息输入训练好的模型中，从而得到应用在混部干扰下的性能下降预测结果。与现有技术相比，本发明可在4毫秒时间内完成预测的机器学习算法，并达到了98.48％的准确度；弥补了相关技术的不足，并且可以用于各种场景下的多分布式应用干扰的性能预测。

Description

一种云计算环境分布式应用性能预测方法

技术领域

本发明涉及大数据和云计算技术领域，特别涉及分布式计算的任务调度技术。

背景技术

近年来云计算飞速发展。然而随着云上业务的增加，系统的资源利用率却不高。目前技术中，通过混合放置云工作负载是提高云资源利用率的有效方法。但由于工作负载之间存在严重的资源争用，尤其是对于LC(latency-critical)服务，在服务器中的混合负载很容易导致违反QoS(Quality ofService)的问题。因此，对云计算环境混合负载下的应用性能预测至关重要。

由于精确的性能预测有助于有效地调度混合负载，因此，目前已经广泛地存在很多关于性能预测问题探讨。几乎所有工作都受限于在单服务器上构建干扰预测模型，因此现有的性能预测方法还不够实用。随着云工作负载的复杂性和规模不断增加，以分布式方式部署工作负载非常普遍，现有模型还无法处理分布式工作负载的“服务组件敏感性不一致”和“时空重叠”带来的干扰问题。

现有方法大多不能适用于当前最流行的分布式应用场景下的时空干扰问题，现存的性能预测模型多是针对“全重叠”的干扰场景，它们忽略了“部分重叠”的干扰场景，特别是对于分布式云服务而言，“部分重叠”的干扰场景尤为明显。

发明内容

为了解决云计算环境分布式应用在时空干扰下的性能预测问题，本发明提出一种云计算环境分布式应用性能预测方法，构建性能指标与应用性能之间的预测模型，并对“时空重叠”信息进行编码作为模型输入，准确而又迅速地预测出云计算环境中分布式应用在混合负载干扰下的性能下降情况。

本发明一种云计算环境分布式应用性能预测方法，包括以下步骤：

步骤1、进行数据训练，即：将采集的所有应用单独运行下的各个容器资源层、微体系结构层的指标以及多应用混合运行干扰后的真实性能下降作为机器学习的训练数据集，对该训练数据集进行指标刻画，进而建立性能指标与应用性能之间的预测模型；

步骤1-1、进行指标刻画，即为了更好地刻画云服务的负载特征，从应用层、资源层和微体系结构层采集应用性能相关的指标；具体的：分布式应用的各个组件服务跨服务器分布式地部署在多台机器所构成的容器之中，各个容器的配置可以不一样，但是必须满足应用服务的初始配置要求，使其可以成功运行；给每个容器分配一定量的资源以保障应用的初始配置使其可以成功运行，记录下此刻每个容器的CPU内核、内存、LLC和网络带宽的分配量；

在服务器上不加干扰地单独运行该应用，记录该应用运行时所部署的各个容器的性能指标使用情况，至少包括CPU内核、内存、网络、内存带宽和磁盘IO带宽等应用层指标以及指令未命中数、上下文切换次数、缓存未命中数、MLP，IPC在内的微体系结构层指标；同时记录这些容器的初始资源配置情况；

排除了相关系数绝对值小于0.1的指标，最后选择剩余的14个性能指标进行训练；

步骤1-2、建立性能指标与应用性能之间的预测模型：

在B，C，...的干扰下预测应用A的性能模型，表达式如下：

其中，R_A，R_B，R_C，...分别表示应用程序A，B，C，...的组件配置的资源分配向量；U_A，U_B，U_C，...分别表示采集的应用各种资源的实际利用率向量；D_A，D_B，D_C，...分别表示应用A，B，C，...之间的启动延迟，D_A＝0，并且D_B，D_C，..分别表示应用程序B，C，....与A相比的启动延迟；

R_i和U_i

都是二维向量，专门为应用程序组件之间的空间重叠信息编码而设计的，U_i的表达式如下：

其中，m表示应用程序组件的最大数量，而u^k _il表示U_i的在第l个组件上采集的第k个指标；如果不存在U_i的第l个分量，则(u¹ _il,u² _il,...,u¹³ _il)全部设置为0；对于任何两个应用程序的U_i和U_j，采用u^k _il和

共享相同的下标l表示它们混部的组件；

同样的，以相同的方式设计向量R_i；

对于BE(best-effort)任务，计算在其生命周期内各个容器性能指标的均值，并记录该任务的运行时长；而对于LC服务，测量其最大服务请求数，然后不断地改变LC服务的QPS，进行重复无干扰运行实验，并记录LC服务在不同QPS下的各个容器的性能指标使用情况；当多个分布式应用混合运行彼此间发生干扰时，记录下它们的性能下降情况，并记录应用间各个容器的干扰发生位置；对于BEs+BEs的混合场景，记录下各个任务之间的启动时间间隔；

针对不同的应用负载混部场景，性能指标与应用性能之间的预测模型具有不同的表现形式：

模型表现形式一、LCs+LCs：如果在混部应用中没有BE任务，则D_i＝0和T_i＝0

因为LC通常是长期运行的服务，所以干扰性能的主要因素是QPS而不是启动延迟；此外，P_{A∪{B，C，...}}代表A的IPC；

模型表现形式二、LCs+BEs：如果在混部应用中同时存在LC和BE，则将第一个到达的BE的启动延迟设置为0，而其它BE的延迟通过将它们的到达时间与第一个BE的到达时间进行比较来设置；同时，对于LC的D_i和T_i，有D_i＝0和T_i＝0；

模型表现形式三、BEs+BEs：如果在混部应用中没有LC工作负载，则将第一个到达的BE的启动延迟设置为0并且Ti≠0

此外，P_{A∪{B，C，...}}代表A的JCT；

步骤2、应用针对无干扰情况下的性能指标以及各个应用组件间的“时空重叠”编码信息输入训练好的模型中，从而得到应用在混部干扰下的性能下降预测结果，具体步骤如下：

步骤2-1、通过不断构建数据集训练模型，然后部署训练好的模型；

步骤2-2、当一个新来应用要与系统中已经在运行着的服务发生干扰时，先将新应用单独运行一段时间，并记录其各个容器的性能指标使用情况；

步骤2-3、采集系统中运行着的服务的性能指标使用情况；

步骤2-4、将这些性能指标与“时空重叠”编码信息一并输入到已经训练好的模型之中，就可以预测出新来应用与系统中应用混合运行发生干扰后的性能下降情况。

相较于现有技术，本发明所达成的有益技术效果如下：

1、可在4毫秒时间内完成预测的机器学习算法，并达到了98.48％的准确度；

2、综合考虑了分布式应用组件的不一致性和时空干扰等影响性能的因素，弥补了相关技术的不足，并且可以用于各种场景下的多分布式应用干扰的性能预测。

附图说明

图1为本发明的一种云计算环境分布式应用性能预测方法整体流程示意图；

图2为在不同混部场景下模型利用五种不同的算法和一种现有方法在不同的数据集大小下进行模型训练得到的预测误差的概率密度分布曲线示意图；

图3为在不同混部场景中不同数量应用混部下模型利用RFR算法在90％训练数据集大小下进行模型训练得到的预测误差的概率密度分布曲线示意图。

具体实施方式

以下结合附图和实施例对本发明进行详细说明

如图1所示，为本发明的一种基于机器学习的分布式应用在时空干扰下的精确性能预测方法，具体包括以下步骤：

步骤1-1、进行指标刻画，即为了更好地刻画云服务的负载特征，主要从应用层、资源层和微体系结构层采集应用性能相关的指标(指标包括IPC、CPU、Memory、Network、LLC、Memory IO、Disk IO、Branch MPKI、Context-switches、MLP、L1D MKPI、ITLB MKPI、L1IMPKI、L2 MPKI、L3 MPKI、DTLB MPKI等，如表1所示。此外，采用IPC和作业完成时间JCT作为衡量应用性能的指标。)；具体为：分布式应用的各个组件服务跨服务器分布式地部署在多台机器所构成的容器之中，各个容器的配置可以不一样，但是必须满足应用服务的初始配置要求，使其可以成功运行；给每个容器分配一定量的资源以保障应用的初始配置使其可以成功运行，记录下此刻每个容器的CPU内核、内存、LLC和网络带宽的分配量；

在服务器上不加干扰地单独运行该应用，记录该应用运行时所部署的各个容器的性能指标使用情况，包括CPU内核、内存、网络、内存带宽和磁盘IO带宽等应用层指标以及指令未命中数、上下文切换次数、缓存未命中数、MLP，IPC等微体系结构层指标；同时也记录这些容器的初始资源配置情况。为了标准化，采用每千条指令(MPKI)收集它们的指令未命中数。此外，采用IPC作为衡量LC性能的指标，以及工作完成时间(JCT)作为衡量BE性能的指标。

然而，在模型中纳入所有指标的蛮力方法是有问题的，因为不相关的指标很容易导致过度拟合，从而导致准确性下降。而且，高维输入还导致较长的预测时间。因此，它需要使用与固有特性或干扰高度相关的性能指标进行训练。为此，采用在机器学习领域中广泛使用的Pearson相关系数和Spearman相关系数来评估目标性能与其它性能指标之间的相关性。系数越大，指标与性能的相关性越高。如表1所示，为性能指标与性能之间的相关性列表，其中列出了所有指标和性能之间的相关性，并排除了相关系数绝对值小于0.1的指标。最后，选择剩余的14个性能指标进行训练。

表1

Metric	Pearson	Spearman	Metric	Pearson	Spearman
						Branch MPKI	-0.60	-0.72	L1I MPKI	0.38	0.45
Context-switches	0.96	0.96	L2 MPKI	0.54	0.81
						MLP	0.02	0.03	L3 MPKI	0.54	0.78
L1D MKPI	-0.37	-0.56	DTLB MPKI	-0.75	-0.85
						ITLB MKPI	-0.38	-0.54	IPC	0.85	0.89
CPU	0.81	0.82	LLC	0.83	0.84
						Memory	0.11	0.19	Memory IO<sup>*</sup>	0.04	0.05
Network	0.94	0.94	Disk IO<sup>*</sup>	0.08	0.08

步骤1-2、建立性能指标与应用性能之间的预测模型：

利用机器学习技术，本发明提出了一种回归模型，该模型可以预测干扰下任意数量的混合工作负载的性能下降。以下描述了在B，C，...的干扰下预测应用A的性能模型。

其中，R_A，R_B，R_C，...分别表示应用程序A，B，C，...的组件(容器或VM)配置的资源分配向量；U_A，U_B，U_C，...分别表示采集的应用各种资源的实际利用率向量；D_A，D_B，D_C，...分别表示应用A，B，C，...之间的启动延迟。特别地，其中D_A＝0，并且D_B，D_C，..分别表示应用程序B，C，....与A相比的启动延迟。注意到R_i和U_i

都是二维向量，这是专门为应用程序组件之间的空间重叠信息编码而设计的，如下所示。

其中，m表示应用程序组件的最大数量，而u^k _il(1≤l≤m，1≤k≤13)表示U_i的在第l个组件上采集的第k个指标。如果不存在U_i的第l个分量，则(u¹ _il,u² _il,...,u¹³ _il)全部设置为0。对于任何两个应用程序的U_i和U_j，采用u^k _il和

共享相同的下标l表示它们混部的组件。通过这种方式，能够在预测模型中对部分空间重叠信息进行编码。如果同一服务器中有多个组件，只需将它们的指标汇总在一起，生成一个“虚拟的较大组件”。同样的，以相同的方式设计向量R_i。虽然无法用可变数量的输入变量来训练机器学习模型，但只需固定P_{A∪{B，C，...}}中的工作负载数量为n即可，表示系统中允许的最大混部应用个数。如果混部工作负载的实际数量少于n，则将虚构工作负载的指标均设置为0。

特别地，对于BE(best-effort)任务，需要计算在其生命周期内各个容器性能指标的均值，并记录该任务的运行时长。而对于LC服务，需要测量其最大服务请求数，然后不断地改变LC服务的QPS(queries per second)，进行重复无干扰运行实验，并记录LC服务在不同QPS下的各个容器的性能指标使用情况。当多个分布式应用混合运行彼此间发生干扰时，记录下它们的性能下降情况，并记录应用间各个容器的干扰发生位置。对于BEs+BEs的混合场景，记录下各个任务之间的启动时间间隔。

因为LC通常是长期运行的服务，所以干扰性能的主要因素是QPS而不是启动延迟。此外，P_{A∪{B，C，...}}代表A的IPC。

模型表现形式二、LCs+BEs：如果在混部应用中同时存在LC和BE，则将第一个到达的BE的启动延迟设置为0，而其它BE的延迟通过将它们的到达时间与第一个BE的到达时间进行比较来设置。同时，对于LC的D_i和T_i，有D_i＝0和T_i＝0。

此外，P_{A∪{B，C，...}}代表A的JCT。

步骤2、应用针对无干扰情况下的性能指标以及各个应用组件间的“时空重叠”编码信息输入训练好的模型中，从而得到应用在混部干扰下的性能下降预测结果。具体步骤如下。

步骤2-3、采集系统中运行着的服务的性能指标使用情况；

本发明采用了五种典型的机器学习算法(包括K-Nearest Neighbor(KNN)Regression,Logistic Regression(LR),Random Forest Regression(RFR),SupportVector Regression(SVR)和Multi-layer Perceptron Neural Network(MLPNN)建立模型，并和现有的预测方法ESP进行比较。

如图2所示，为在不同混部场景下模型利用五种不同的算法和一种现有方法在不同的数据集大小下进行模型训练得到的预测误差的概率密度分布曲线示意图。当模型采用RFR算法进行性能预测时要优于其它算法，也比现有的ESP预测方法具有更小的预测误差。

此外，如图3所示，为在不同混部场景中不同数量应用混部下模型利用RFR算法在90％训练数据集大小下进行模型训练得到的预测误差的概率密度分布曲线示意图。该模型同样适用于多应用混部场景下的性能预测，且依旧具有较低的预测误差。

Claims

1.一种云计算环境分布式应用性能预测方法，其特征在于，该方法包括以下步骤：

步骤1-2、建立性能指标与应用性能之间的预测模型：

在B，C，...的干扰下预测应用A的性能模型，表达式如下：

R_i和

其中，m表示应用程序组件的最大数量，而u^k _il表示U_i的在第l个组件上采集的第k个指标；如果不存在U_i的第l个分量，则(u¹ _il,u² _il,...,u¹³ _il)全部设置为0；对于任何两个应用程序的U_i和U_j，采用u^k _il和u^k _jl共享相同的下标l表示它们混部的组件；

同样的，以相同的方式设计向量R_i；

模型表现形式一、LCs+LCs：如果在混部应用中没有BE任务，则D_i＝0和

模型表现形式三、BEs+BEs：如果在混部应用中没有LC工作负载，则将第一个到达的BE的启动延迟设置为0并且

此外，P_{A∪{B，C，...}}代表A的JCT；

步骤2-3、采集系统中运行着的服务的性能指标使用情况；