CN116521495A

CN116521495A - 一种基于强化学习的系统性能瓶颈检测方法

Info

Publication number: CN116521495A
Application number: CN202310276442.8A
Authority: CN
Inventors: 周勇; 王昭文; 安恉见
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2023-03-21
Filing date: 2023-03-21
Publication date: 2023-08-01

Abstract

本发明属于异常根因分析领域，涉及基于强化学习的系统性能瓶颈检测方法。所述的系统性能瓶颈检测方法如下：第一步，提取系统性能指标数据；第二步，用阈值法找出最开始的异常时间段和异常维度；第三步，对异常数据进行因果推断进而根因分析。本发明可以有效地解决高负载环境下的系统性能瓶颈检测问题，帮助系统管理员更快地识别和解决问题，减少系统崩溃的风险，提高系统的稳定性和可靠性，从而使系统能够更快地响应用户请求，提高用户满意度。本发明可以应用于更广泛的根因分析问题范围，利用人工智能方法有效地帮助了运维人员解决系统性能瓶颈检测问题，具有很好的适用性和鲁棒性。

Description

一种基于强化学习的系统性能瓶颈检测方法

技术领域

本发明属于异常根因分析领域，涉及基于强化学习的系统性能瓶颈检测方法。

背景技术

随着计算机技术的不断发展和计算机系统应用范围的不断扩大，对计算机系统性能的要求也越来越高。系统性能瓶颈是指导致计算机系统性能下降的根本原因，因此如何准确快速地检测和诊断系统性能瓶颈成为计算机系统性能分析的重要研究方向之一。

系统性能瓶颈检测旨在通过监测和分析系统各个方面的性能数据，识别并定位系统中的性能瓶颈，从而实现性能优化。传统的计算机系统性能分析方法通常基于统计学方法或规则引擎，包括性能监控、瓶颈测试、日志分析、系统剖析和数据分析等。这些方法虽然可以提供一定的诊断准确性，但它们的效率和精度都不足以满足现代计算机系统性能分析的要求。为了解决这些问题，研究者们开始探索利用人工智能技术来提高计算机系统性能分析的效率和准确性。

在实际应用中，根因分析是一种常用的技术，它可以帮助工程师快速、准确地找到性能瓶颈的根本原因。在根因分析中，机器学习技术可以帮助工程师自动化地分析数据，并找到系统性能瓶颈的真正原因。因此，近年来，越来越多的研究者开始探索将机器学习技术应用于根因分析的方法。

其中，因果推断是一种被广泛应用于根因分析的技术。因果推断的基本思想是，通过观察变量之间的因果关系，来推断系统中的根本原因。具体而言，因果推断首先会识别变量之间的关系，然后根据这些关系，推断变量之间的因果关系。在根因分析中，因果推断技术可以帮助工程师快速、准确地找到系统中的性能瓶颈。因为性能瓶颈通常是由多个因素共同作用引起的，因此，只有通过综合考虑多个因素之间的关系，才能真正找到性能瓶颈的根本原因。而因果推断技术可以有效地处理这种复杂的关系，从而实现精确的根因分析。

近年来，强化学习被发现可以应用于因果推断中，并取得了优异表现。本发明从中得到启发，将强化学习用于根因分析算法中并实验论证了其有效性。

在异常根因分析领域，这种基于强化学习的系统性能瓶颈检测方法的技术优势体现在：该方法能够识别系统性能的异常状况，并从复杂的数据中提取有用的特征和模式，挖掘数据间的因果关系，高效准确地找出导致系统性能异常的瓶颈所在。此外，该方法还具有较好的可扩展性和可复用性，可以应用于不同领域的根因分析任务中。因此，这种基于强化学习的系统性能瓶颈检测方法是一种具有广泛应用前景和实用价值的根因分析方法。

发明内容

本发明针对系统性能瓶颈检测问题，提供一种基于强化学习的根因分析方法，用以实现在高负载环境下自动检测系统中的性能瓶颈，从而有效提高系统的稳定性和性能表现。

为了实现具体目的，本发明的技术方案如下：

一种基于强化学习的系统性能瓶颈检测方法，整体流程图如图1所示，步骤如下：

第一步，提取系统性能指标数据：

在高压力测试环境中，收集多种性能指标数据，包括但不限于CPU占用率、内存使用率、操作系统内核调用次数、磁盘I/O、虚拟机资源使用情况、网络传输速度等，以确定系统性能瓶颈所在。对这些数据进行提取和归一化处理，以便进行更准确的分析。

第二步，用阈值法找出最开始的异常时间段和异常维度

2.1计算提取的数据在每个维度的高、低阈值。阈值计算方法采用n-sigma法。

2.2根据各维度阈值判断异常，并找出最早的异常时间点和对应的异常维度。

2.3在最早异常点前后划分异常时间段，该时间段内数据将作为后续根因分析算法的输入数据。

第三步，对异常数据进行因果推断进而根因分析。

3.1运用Actor-Critic算法发现异常时间段中各维度间因果关系。将第二步得到的异常数据输入Actor-Critic算法模型，训练至结果收敛后输出得到边长为输入数据维度数的图邻接矩阵，即因果图。其中，基于Actor-Critic的因果推断算法结构如图2所示；Actor-Critic网络中Actor结构如图3所示；GAT网络中Attention模块结构如图4所示；算法训练的评判指标奖励值随训练次数迭代变化图如图5所示。

所述的图结构的分数函数，具体如下：首先定义因果图的BIC分数，具体公式为：

其中右式前一项为似然函数，表示观测样本x中第k项第i维度的相对应预测值，n表示样本数量即时间长度，d表示维度个数，ε为避免对数真数为零的小数值，这里取10^-8；右式中后一项为惩罚项，m表示图的边数。

然后对图的分数进行了归一化处理得到因果图最终分数，具体公式为：

S(G)＝(S_BIC(G)-S_l)/(S_u-S_l)

其中S_l和S_u分别为因果图分数的高低阈值，S_l为除了对角线外皆为1的有向图分数，S_u为值皆为0的图的分数。

所述的Actor中的GAT网络结构，具体如下：Actor中的GAT网络是基于注意力机制的神经网络模型。在该模型中，GAT由多个注意力模块堆叠而成，而注意力模块的组成具体如下：首先，用一个一维卷积层将输入序列进行特征提取得到特征向量；然后，特征向量分别通过两个卷积层计算注意力系数，注意力系数计算需要将两个卷积层的输出相加并激活，随后进行softmax变换以确保注意力系数总和为1；将注意力系数与特征序列经过一个dropout层，将其中一部分元素随机置零；接着，根据注意力系数将特征序列进行加权求和，得到内嵌所有节点关系特征的编码；最后，用残差连接将输入序列的特征向量与输出向量相加，并使用激活函数对其进行非线性变换，得到最终的输出向量。

所述的Actor中的GAT网络提取出的特征通过双线性积与伯努利采样生成图结构的邻接矩阵，具体如下：在Actor结构中，将GAT网络提取到的特征编码与可学习权重进行双线性积计算，得到最终的邻接概率分布。双线性积计算公式如下：

其中W为学习权重矩阵，x_i、x_j为经过GAT编码得到的第i、j维度向量，p_ij(W)为节点i到j的邻接概率。最后，对节点间的概率分布进行伯努利采样，将每个节点对之间的概率转换为二进制样本，以获得生成图的邻接矩阵，即因果图。此过程通过将概率矩阵减去一个大的负值(即100000000)乘以一个掩码屏蔽了当前节点，确保它不会连接到自身。

3.2计算输入数据的Pearson相关系数取并取其绝对值得到相关性矩阵。

3.3根据因果图和相关性矩阵进行前向、后向、自向过渡得到边的转移概率矩阵。

3.4根据边的转移概率矩阵进行随机游走，最终得到异常根因分数列表。

本发明的有益效果：

该方法可以有效地解决高负载环境下的系统性能瓶颈检测问题，帮助系统管理员更快地识别和解决问题，减少系统崩溃的风险，提高系统的稳定性和可靠性，从而使系统能够更快地响应用户请求，提高用户满意度。本发明可以应用于更广泛的根因分析问题范围，利用人工智能方法有效地帮助了运维人员解决系统性能瓶颈检测问题，具有很好的适用性和鲁棒性。

附图说明

图1一种基于强化学习的系统性能瓶颈检测方法流程示意图；

图2基于Actor-Critic的因果推断算法结构示意图；

图3Actor-Critic网络中Actor结构示意图；

图4GAT网络中Attention模块结构示意图；

图5Actor-Critic算法因果图生成奖励值变化示意图。

具体实施方式

为使本发明的技术方案更加清楚，下面结合附图对本发明做进一步阐述。本发明按以下步骤具体实现：

第一步，提取系统性能指标数据。

在高压力环境下进行系统性能测试，以收集多种性能指标数据。为获取真实可靠的性能数据，测试环境需要符合实际生产环境，例如可以使用负载测试工具模拟真实的请求流量、并发用户数等情况。

第二步，用阈值法找出最早开始的异常时间段和异常维度

(1)计算提取的数据在每个维度的高、低阈值。

采用n-sigma阈值法计算每个维度的高低阈值，具体计算公式如下：

y_low/high＝y_mean±n*y_std

其中y_high和y_low分别表示某一维度数据的高、低阈值，y_mean和y_std分别表示该维度数据的均值和标准差，n为可变参数根据不同数据集取不同值。

(2)根据各维度阈值判断异常，并找出最早的异常时间点和对应的异常维度。对于数据的每一维度，找出其大于高阈值和小于低阈值的异常时间点，并比较它们的大小，最小的时间点为最先发生的异常时间点，记录下该时间点与其对应异常维度。

(3)在最早异常点前后划分异常时间段，该时间段内数据将作为后续根因分析算法的输入数据。

第三步，对异常数据进行根因分析。

(1)运用Actor-Critic算法发现异常时间段中各维度间因果关系。

将第二步得到的异常数据输入Actor-Critic算法模型，模型结构图如图2所示。该部分算法训练大概30轮后收敛(针对不同数据集收敛速度不同)，输出得到边长为输入数据维度数的图邻接矩阵，即因果图。该算法训练的评判指标奖励值随训练次数迭代变化图如图5所示。

首先，定义评判因果图好坏的分数函数。将因果图的BIC分数公式定义为：

S(G)＝(S_BIC(G)-S_l)/(S_u-S_l)

接着将基于Actor-Critic算法的网络模型用于搜索具有最佳分数的因果图，Actor网络负责生成图，Critic网络负责评判生成图好坏。在网络框架中，Actor采用了图注意力机制(GAT)用于提取特征关系并通过双线性积与伯努利采样生成图结构的邻接矩阵，Critic则采用两个全连接层预测生成图分数。其中Actor网络结构如图3所示。

GAT网络是基于注意力机制的神经网络模型。在该模型中，GAT由多个注意力模块堆叠而成，而注意力模块网络结构如图4所示，具体组成如下：首先，用一个一维卷积层将输入序列进行特征提取得到特征向量；然后，特征向量分别通过两个卷积层计算注意力系数，注意力系数计算需要将两个卷积层的输出相加并激活，随后进行softmax变换以确保注意力系数总和为1；将注意力系数与特征序列经过一个dropout层，将其中一部分元素随机置零；接着，根据注意力系数将特征序列进行加权求和，得到内嵌所有节点关系特征的编码；最后，用残差连接将输入序列的特征向量与输出向量相加，并使用激活函数对其进行非线性变换，得到最终的输出向量。

在Actor结构中，将GAT网络提取到的特征编码与可学习权重进行双线性积计算，得到最终的邻接概率分布。双线性积计算公式如下：

Actor-Critic算法训练目标是最大化奖励。在奖励的定义中，除生成图的分数外还加入了无环约束，具体公式为：

rewards：＝-S(G)-αS(A)

其中α≥0为惩罚参数，A为生成图矩阵，S(A)为无环约束，其定义为：

S(A)：＝trace(e^A)-d

(2)计算输入数据的Pearson相关系数取并取其绝对值得到相关性矩阵。

(3)根据因果图和相关性矩阵进行前向、后向、自向过渡得到边的转移概率矩阵。将步骤二找出异常维度作为开始节点，首先令因果图中所有的边乘以该边末端节点与开始节点的相关系数，得到节点的转移概率矩阵P，对矩阵P按第1维进行归一化；然后遍历所有的出边，根据P计算向前转移的概率，更新边的转移概率矩阵M，并对M按第3维进行归一化；遍历所有的入边，计算向后转移的概率以更新M并归一化，接着乘以向后转移系数；生成自环，得到原地转移概率并归一化，最后得到边的转移概率矩阵。计算过程中需要对前一个节点和后一个节点的影响强度系数，这里分别设定为0.1、0.2。

(4)根据边的转移概率矩阵进行随机游走，最终得到异常根因分数列表。

将步骤二找出异常维度作为开始节点，按照给定的边转移概率矩阵，每次随机转移到下一个节点。过程中，在对于从某个节点出发无法转移到其他节点的情况，该算法会提前结束该轮游走，以避免死循环的问题。多轮游走后，统计每个节点被访问的次数，作为其相关性得分。最后将相关性得分和对应的服务名一一对应组成列表，按照相关性得分降序排列，即最终的异常根因得分列表。

PR@k代表前k个指标中真值所占概率，该值越大代表根因查找的准确率越高。表1为该方法在不同数据集上的准确率，可以看出，本方法能够有效地检测出导致异常的根本指标，进而帮助运维人员分析性能瓶颈。

表1不同数据集上根因分析准确率

Claims

1.一种基于强化学习的系统性能瓶颈检测方法，其特征在于，步骤如下：

第一步，提取系统性能指标数据：

在高压力测试环境中，收集多种性能指标数据，包括CPU占用率、内存使用率、操作系统内核调用次数、磁盘I/O、虚拟机资源使用情况、网络传输速度，以确定系统性能瓶颈所在；对这些数据进行提取和归一化处理，以便进行更准确的分析；

第二步，用阈值法找出最早开始的异常时间段和异常维度

2.1计算提取的数据在每个维度的高、低阈值；阈值计算方法采用n-sigma法；

2.2根据各维度阈值判断异常，并找出最早的异常时间点和对应的异常维度；

2.3在最早异常点前后划分异常时间段，该时间段内数据将作为后续根因分析算法的输入数据；

第三步，对异常数据进行因果推断进而根因分析

3.1运用基于Actor-Critic的因果推断算法发现异常时间段中各维度间因果关系；将第二步得到的异常数据输入基于Actor-Critic的因果推断算法模型，训练至结果收敛后输出得到边长为输入数据维度数的图邻接矩阵，即因果图；

本发明提出了基于Actor-Critic的因果推断算法模型，并定义了图结构的分数函数和基于分数函数的强化学习奖励值，通过该模型能搜索出具有最佳得分的因果图；

所述的基于Actor-Critic的因果推断算法模型是在Actor-Critic网络框架中，Actor采用了GAT网络用于提取特征关系，并将特征通过双线性积与伯努利采样生成图结构的邻接矩阵即因果图，Critic则采用两个全连接层预测生成图分数；

3.2计算输入数据的Pearson相关系数取并取其绝对值得到相关性矩阵；

3.3根据因果图和相关性矩阵进行前向、后向、自向过渡得到边的转移概率矩阵；

2.如权利要求1所述的一种基于强化学习的系统性能瓶颈检测方法，其特征在于，所述的步骤3.1中，所述的图结构的分数函数，具体如下：首先定义因果图的BIC分数，具体公式为：

其中右式前一项为似然函数，表示观测样本x中第k项第i维度的相对应预测值，n表示样本数量即时间长度，d表示维度个数，ε为避免对数真数为零的小数值，这里取10^-8；右式中后一项为惩罚项，m表示图的边数；

S(G)＝(S_BIC(G)-S_l)/(S_u-S_l)

3.如权利要求1或2所述的基于强化学习的系统性能瓶颈检测方法，其特征在于，所述的步骤3.1中，所述的Actor中的GAT网络结构，具体如下：Actor中的GAT网络是基于注意力机制的神经网络模型；在该模型中，GAT由多个注意力模块堆叠而成，而注意力模块的组成具体如下：首先，用一个一维卷积层将输入序列进行特征提取得到特征向量；然后，特征向量分别通过两个卷积层计算注意力系数，注意力系数计算需要将两个卷积层的输出相加并激活，随后进行softmax变换以确保注意力系数总和为1；将注意力系数与特征序列经过一个dropout层，将其中一部分元素随机置零；接着，根据注意力系数将特征序列进行加权求和，得到内嵌所有节点关系特征的编码；最后，用残差连接将输入序列的特征向量与输出向量相加，并使用激活函数对其进行非线性变换，得到最终的输出向量。

4.如权利要求1或2所述的一种基于强化学习的系统性能瓶颈检测方法，其特征在于，所述的步骤3.1中，所述的Actor中的GAT网络提取出的特征通过双线性积与伯努利采样生成图结构的邻接矩阵，具体如下：在Actor结构中，将GAT网络提取到的特征编码与可学习权重进行双线性积计算，得到最终的邻接概率分布；双线性积计算公式如下：

其中W为学习权重矩阵，x_i、x_j为经过GAT编码得到的第i、j维度向量，p_ij(W)为节点i到j的邻接概率；最后，对节点间的概率分布进行伯努利采样，将每个节点对之间的概率转换为二进制样本，以获得生成图的邻接矩阵，即因果图；此过程通过将概率矩阵减去一个大的负值(即100000000)乘以一个掩码屏蔽了当前节点，确保它不会连接到自身。

5.如权利要求3所述的基于强化学习的系统性能瓶颈检测方法，其特征在于，所述的步骤3.1中，所述的Actor中的GAT网络提取出的特征通过双线性积与伯努利采样生成图结构的邻接矩阵，具体如下：在Actor结构中，将GAT网络提取到的特征编码与可学习权重进行双线性积计算，得到最终的邻接概率分布；双线性积计算公式如下：

6.如权利要求1或2或5所述的一种基于强化学习的系统性能瓶颈检测方法，其特征在于，所述的步骤3.1中，所述的基于分数函数的强化学习奖励值，具体如下：在强化学习的奖励定义中，除生成图的分数外还加入了无环约束，具体公式为：

rewards：=-S(G)-αS(A)

S(A)：=trace(e^A)-d。

7.如权利要求3所述的基于强化学习的系统性能瓶颈检测方法，其特征在于，所述的步骤3.1中，所述的基于分数函数的强化学习奖励值，具体如下：在强化学习的奖励定义中，除生成图的分数外还加入了无环约束，具体公式为：

rewards：=-S(G)-αS(A)

S(A)：=trace(e^A)-d。

8.如权利要求4所述的一种基于强化学习的系统性能瓶颈检测方法，其特征在于，所述的步骤3.1中，所述的基于分数函数的强化学习奖励值，具体如下：在强化学习的奖励定义中，除生成图的分数外还加入了无环约束，具体公式为：

rewards：=-S(G)-αS(A)

S(A)：=trace(e^A)-d。