CN115033477B

CN115033477B - 一种面向大规模微服务的性能异常主动检测和处理方法及系统

Info

Publication number: CN115033477B
Application number: CN202210644574.7A
Authority: CN
Inventors: 蔡斌雷; 王彬; 杨美红; 郭莹; 张虎
Original assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2023-06-27
Anticipated expiration: 2042-06-08
Also published as: CN115033477A

Abstract

本发明涉及一种面向大规模微服务的性能异常主动检测和处理方法及系统，包括：对微服务的资源使用情况以及运行时信息进行采集，通过采集信息判断微服务应用是否存在性能异常；如果微服务应用存在性能异常，首先，通过采集信息生成微服务历史执行图，然后，基于记忆化搜索对微服务关键路径进行提取，随后，基于部分SLO对关键微服务进行定位，最后，基于离散系数确定关键微服务的关键资源，并增加关键资源的配额，以避免或缓解尾延迟SLO违规。

Description

一种面向大规模微服务的性能异常主动检测和处理方法及系统

技术领域

本发明通过云原生技术，主动对大规模微服务的性能异常进行检测并处理，严格保障了应用的服务质量。

背景技术

近年来，云应用已逐渐从单体架构演变为易于开发和维护的微服务架构，如Amazon、Twitter和Netflix等大型云服务提供商已经采用了这种模式。采用微服务架构的云应用将每个业务功能都实现成一个可以独立执行的个体，随着应用规模不断扩大，业务功能和需求变得复杂，构成云应用的微服务规模也逐渐增大，一个成熟的云应用通常由成百上千个单一用途和松散耦合的微服务组成。例如，Netflix的云平台上已经运行了500个微服务，每天会有100-1000的变更部署到线上环境。云应用通常是交互式、延迟敏感型的服务，它们具有严格的尾延迟服务等级目标(Service Level Objective，SLO)要求。但是微服务之间存在的依赖关系使云应用的拓扑结构更加复杂，加剧了排队效应并引入了级联的尾延迟SLO违规。因此，对大规模微服务的性能异常进行主动地检测和处理，以严格保障云应用的尾延迟SLO，成为当前需要迫切解决的问题。

发明内容

针对现有技术的不足，本发明提出了一种面向大规模微服务的性能异常主动检测和处理方法，本发明还提出了一种面向大规模微服务的性能异常主动检测和处理系统。

本发明的目的是对大规模微服务的性能异常进行主动地检测和处理，以严格保障应用的尾延迟SLO。通过实时采集信息，主动检测大规模微服务应用的性能异常行为，基于记忆化搜索和部分SLO对造成应用性能异常的微服务进行定位，并通过离散系数确定并增加其关键资源使用配额，以避免或缓解尾延迟SLO违规，进而严格保障应用的尾延迟SLO。

本发明以时隙t为间隔采集微服务应用的资源使用信息及运行时信息，通过应用运行时信息检测应用是否出现性能异常，即应用的尾延迟是否违反SLO或即将违反SLO；若应用出现性能异常，则进入异常处理模块，定位造成SLO违规的微服务并通过增加其资源配额来解决性能异常；结合上述操作，本发明可以主动检测大规模微服务应用的性能异常并及时进行处理，严格保障应用的尾延迟SLO。

术语解释：

1、微服务(Microservices)：微服务是一种以业务功能为主的服务设计概念，应用程序在设计时就先以业务功能或流程进行划分，将各业务功能都实现成为一个可以自主执行的个体服务；然后通过特定的协议将个体服务进行整合，形成一个基于微服务架构的应用程序。微服务以模块化、灵活开发以及快速迭代的优势被广泛应用在企业生产中。

2、关键路径(Critical Path)：关键路径指在设计中从输入端到输出端经过的耗时最长的逻辑路径，关键路径的变化会直接影响到大规模微服务应用的端到端完成时间。一个大规模微服务应用可以有多个并行的关键路径。通过关键路径可以明确整个项目的完成耗时以及哪些活动是影响项目的关键因素。

3、离散系数(Coefficient of variation)：在概率论与统计学中，离散系数又被称为变异系数，是一个描述概率分布离散程度的归一化量度。离散系数定义为数据的标准差σ与平均数μ之比：

离散系数在平均值为0的时候没有定义。离散系数不需要参照数据的平均值，常用在多个总体均值不等的离散程度的比较上。

本发明的技术方案为：

一种面向大规模微服务的性能异常主动检测和处理方法，包括：

对微服务的资源使用情况以及运行时信息进行采集，通过采集信息判断微服务应用是否存在性能异常；如果微服务应用存在性能异常，首先，通过采集信息生成微服务历史执行图，然后，基于记忆化搜索对微服务关键路径进行提取，随后，基于部分SLO对关键微服务进行定位，最后，基于离散系数确定关键微服务的关键资源，并增加关键资源的配额，以避免或缓解尾延迟SLO违规。

根据本发明优选的，对微服务的资源使用情况以及运行时信息进行采集，是指：以时隙t为间隔，信息采集组件对任意微服务w的资源使用情况R_w以及微服务运行时信息Runtime_w进行采集，信息采集组件持续监控并记录每个微服务的资源使用情况以及每个请求所经历的延迟。

进一步优选的，通过容器技术对微服务w的资源使用情况进行采集，微服务w的资源使用情况包括CPU使用率、内存使用率、缓存使用、IO速率、网络带宽；通过读取容器每种资源使用的相关文件并进行聚合即获得微服务的多维度资源使用信息。

进一步优选的，通过基于全链路追踪技术的Jaeger获取每个微服务在时隙t内的运行时信息，包括微服务的延迟、名称以及操作。

进一步优选的，通过采集信息判断微服务应用是否存在性能异常，是指：

对采集信息进行整理，通过同一请求最晚离开微服务应用的时间减去最早进入微服务应用的时间得到微服务应用的端到端延迟Latency；

定义γ为SLO缓冲系数，

其中，N_violation表示固定时隙t内响应时间超过SLO的请求数量，N_receive表示固定时隙t内收到的请求总数；

如果Latency≥SLO×γ，则认为微服务应用发生性能异常，即尾延迟违反SLO或即将违反SLO；否则，认为微服务应用性能正常，结束。

根据本发明优选的，通过采集信息生成微服务历史执行图，是指：

将微服务的运行时信息按照相同请求进行划分，同一请求经过的所有微服务被划分为一个集合T内；遍历T内所有微服务的运行时信息，若微服务w_i与微服务w_j的操作Op_i与Op_j相对应，则认为两微服务之间有依赖关系，将代表两个微服务的点相连，并将子微服务的运行时间作为两者之间的路径权重；将集合T内所有微服务遍历后，计算微服务历史执行图中每个点的入度，入度是指微服务历史执行图中某点作为微服务历史执行图中边的终点的次数之和，将入度为0的点与设计的起点相连接，权重为对应微服务的运行时间，由此，得到在时隙t内出现的所有请求所经过的微服务历史执行图，记作Graph。

进一步优选的，入度的计算方法为：在微服务历史执行图中，如果微服务i与微服务j之间存在依赖关系，即代表两个微服务的点相连，且微服务j为子微服务，则微服务j的入度加1，遍历微服务历史执行图中所有的边，将子微服务对应点的入度分别加1，得到微服务历史执行图中每个点的入度。

进一步优选的，起点的设计方法为：假设微服务应用由n个微服务构成，由于微服务应用中的每个微服务都有一个唯一的数字对应，范围是[1，n]，为了使起点不对微服务应用造成影响，设置起点对应的数字为n+1。

根据本发明优选的，基于记忆化搜索对微服务关键路径进行提取，其中，微服务关键路径是指在微服务历史执行图中持续时间最长的路径，微服务关键路径的长度即为微服务应用的端到端延迟，包括：

通过微服务历史执行图Graph，基于记忆化搜索算法，对造成性能异常的微服务关键路径进行提取：

以起点作为根节点进行深度优先遍历，使用数组dp_i表示以i为起点所能得到的最长路径的长度，遍历根节点的所有子节点，维护dp数组

表示以i的子节点child为起点所能得到的最长路径的长度，Graph_i，child表示在微服务历史执行图中节点i到子节点child的距离，dp_i表示以节点i为起点所能走过的最长路径；如果i没有子节点，则dp_i＝0；在获取微服务关键路径的同时，对关键路径使用Path数组进行记录；

通过记忆化搜索算法对微服务历史执行图进行遍历后，遍历dp数组，得到最长路径所对应的起点，通过Path数组，得到关键路径上的每一个微服务；最后返回微服务关键路径的集合CP。

根据本发明优选的，基于部分SLO对关键微服务进行定位，关键微服务是指微服务关键路径上尾延迟异常的微服务，包括：

基于微服务应用的尾延迟SLO，为每个微服务w都制定一个尾延迟限制，记作SLO_w；

SLO_w的计算公式如式(I)所示：

式(I)中，Latency_a，Latency_b，Latency_w表示请求经过微服务a，b，w的响应时间；

对造成微服务性能异常的关键路径上的所有微服务进行遍历，将请求经过微服务w的时间Latency_w同制定的微服务w的SLO_W进行比较，若Latency_w＞SLO_W×(1-slack_w)，则认为微服务w是造成微服务应用性能异常的原因之一，是关键微服务；其中，微服务w的延迟松弛

TLa_w是指请求经过微服务w的尾延迟；将关键微服务进行聚合，得到集合CW。

进一步优选的，对时隙T_poll内所有经过微服务w的请求所经历的时间进行排序，得到请求经过微服务w的尾延迟TLa_w；时隙T_poll的计算公式如式(II)所示：

式(II)中，RPS是指服务的最低每秒请求数(Request Per Second)，percentile是指要测量的百分位尾部延迟。

根据本发明优选的，基于离散系数确定关键微服务的关键资源，并增加关键资源的配额，关键资源是指微服务中资源利用率变化大的资源；包括：

将资源分配决策用元组<action，resource，time>表示，其中，action表示需要执行资源分配的动作，有up，down两种动作，分别表示增加资源使用配额与减少资源使用配额；resource表示需要执行动作的资源种类，对关键微服务使用的每种资源的离散系数进行递减排序，优先处理离散系数大的关键资源；time表示执行动作的持续时间，根据经验以及工作负载的特点进行设置；对于元组<action，resource，time>总共有2×m种操作，其中，m表示微服务使用资源的数量，对基于离散系数排序后的每种资源轮询进行up操作，直到关键微服务的性能异常得到解决；性能异常解决后，再对每种资源进行down操作，使其资源使用配额恢复到异常处理之前的状态；

基于离散系数，确定关键微服务CW的关键资源CR_w，轮询增加关键资源CR_w的资源配额，离散系数c_v定义为数据的标准差σ与平均数μ之比：

将关键微服务所有资源对应的离散系数聚合后进行递减排序，轮询对每种资源执行资源分配决策，在第i轮操作时执行决策<up，resource_i，t>，即增加资源i的分配份额持续时间为t；增加资源i配额之后对关键微服务CW运行时信息进行采集，若关键微服务CW的延迟仍然大于SLO_w×(1-slack_w)，则继续执行第i+1轮询操作，以此类推，直到关键微服务的延迟小于SLO_w×(1-slack_w)，当性能异常解除后，对所有变化的资源进行down操作，把所有增加的资源恢复到调整之前的配额。

进一步优选的，定义第n个时间间隔的平均值为E_n，方差为F_n，均值的递推公式为

其中，E₀＝x₀，标准差由方差开平方获得，方差的递推公式为F_n＝F_n-1+(x_n-E_n-1)*(x_n-E_n)，其中，F₀＝0。

一种面向大规模微服务的性能异常主动检测和处理系统，包括：

异常检测模块，被配置为：对微服务的资源使用情况以及运行时信息进行采集，通过采集信息判断微服务应用是否存在性能异常；

异常处理模块，被配置为：如果微服务应用存在性能异常，首先，通过采集信息生成微服务历史执行图，然后，基于记忆化搜索对微服务关键路径进行提取，随后，基于部分SLO对关键微服务进行定位，最后，基于离散系数确定关键微服务的关键资源，并增加关键资源的配额，以避免或缓解尾延迟SLO违规。

本发明的有益效果为：

本发明通过信息采集可以主动检测微服务应用是否存在性能异常行为；对存在性能异常的微服务应用，利用记忆化搜索得到微服务关键路径，并根据部分SLO以及离散系数获得关键微服务的关键资源；轮询地将关键资源的配额增加一倍，来避免或缓解SLO违规，达到严格保障微服务应用尾延迟SLO的目的。

附图说明

图1为微服务关键路径示意图；

图2为基于记忆化搜索对微服务关键路径进行提取的流程示意图；

图3为基于部分SLO对关键微服务进行定位的流程示意图；

图4为基于离散系数确定关键微服务的关键资源的流程示意图；

图5为本发明面向大规模微服务的性能异常主动检测和处理方法整体流程示意图；

图6为本发明面向大规模微服务的性能异常主动检测和处理系统的整体架构示意图；

图7为微服务b的CPU实际使用与分配份额对比示意图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

一种面向大规模微服务的性能异常主动检测和处理方法，如图5所示，将应用程序以业务功能或流程进行划分，构建一个基于微服务架构的应用程序；包括：

实施例2

根据实施例1所述的一种面向大规模微服务的性能异常主动检测和处理方法，其区别在于：

微服务应用由n个微服务构成，由集合

表示，对于任意微服务w的m种资源使用情况用集合R_w＝{R_w1，R_w2，...，R_wm}表示，微服务w的运行时信息用集合Runtime_w＝{La_w，Name_w，Op_w}表示，其中La_w、Name_w、Op_w分别表示微服务w的延迟、名称以及操作，Latency表示微服务应用的端到端延迟。

对微服务的资源使用情况以及运行时信息进行采集，是指：本发明基于全链路追踪技术对大规模微服务的性能异常进行主动地检测。以时隙t为间隔，信息采集组件对任意微服务w的资源使用情况R_w以及微服务运行时信息Runtime_w进行采集，信息采集组件持续监控并记录每个微服务的资源使用情况以及每个请求所经历的延迟。通过采集数据，对大规模微服务的性能异常进行主动检测。

通过容器技术对微服务w的资源使用情况进行采集，微服务w的资源使用情况包括CPU使用率、内存使用率、缓存使用、IO速率、网络带宽；通过读取容器每种资源使用的相关文件并进行聚合即获得微服务的多维度资源使用信息。

通过读取容器每种资源使用的相关文件并进行聚合，具体是指：将微服务应用中每一个微服务封装进一个对应的容器，进行独立的维护和部署，每个容器都负责一个特定的业务功能。通过Cgroup中的cpuacct.usage文件、memory.usage_in_bytes文件及blkio.throttle.io_service_bytes文件分别获取每个微服务的CPU使用率、内存使用率及IO速率；使用Intel RDT(Resource Director Technology)技术对缓存信息进行采集；通过文件/proc/(pid)/net/dev，来获取上传与下载的网络流量数据。对每个微服务，读取相同时间戳下该微服务的每种资源使用情况，以单体微服务为单位将聚合后的信息存入元组。

通过基于全链路追踪技术的Jaeger获取每个微服务在时隙t内的运行时信息，包括微服务的延迟、名称以及操作。

通过采集信息判断微服务应用是否存在性能异常，是指：

定义γ为SLO缓冲系数，

如果Latency≥SLO×γ，则认为微服务应用发生性能异常，即尾延迟违反SLO或即将违反SLO；对性能异常进行进一步处理。否则，认为微服务应用性能正常，结束。

实施例3

通过采集信息生成微服务历史执行图，是指：

通过信息采集，将微服务的运行时信息按照相同请求进行划分，同一请求经过的所有微服务被划分为一个集合T内；遍历T内所有微服务的运行时信息，若微服务w_i与微服务w_j的操作Op_i与Op_j相对应，则认为两微服务之间有依赖关系，将代表两个微服务的点相连，并将子微服务的运行时间作为两者之间的路径权重；将集合T内所有微服务遍历后，计算微服务历史执行图中每个点的入度，入度是指微服务历史执行图中某点作为微服务历史执行图中边的终点的次数之和，将入度为0的点与设计的起点相连接，权重为对应微服务的运行时间，由此，得到在时隙t内出现性能异常的请求所经过的微服务历史执行图，记作Graph。微服务历史执行图由构成微服务应用的所有微服务的全局执行视图构建而成，清晰地展现了分布式执行的用户请求流程。

入度的计算方法为：在微服务历史执行图中，如果微服务i与微服务j之间存在依赖关系，即代表两个微服务的点相连，且微服务j为子微服务，则微服务j的入度加1，遍历微服务历史执行图中所有的边，将子微服务对应点的入度分别加1，得到微服务历史执行图中每个点的入度。

起点的设计方法为：假设微服务应用由n个微服务构成，由于微服务应用中的每个微服务都有一个唯一的数字对应，范围是[1，n]，为了使起点不对微服务应用造成影响，设置起点对应的数字为n+1。

实施例4

根据实施例3所述的一种面向大规模微服务的性能异常主动检测和处理方法，其区别在于：

基于记忆化搜索对微服务关键路径进行提取，其中，微服务关键路径是指在微服务历史执行图中持续时间最长的路径，微服务关键路径的长度即为微服务应用的端到端延迟，微服务关键路径如图1所示，基于记忆化搜索对微服务关键路径进行提取的流程如图2所示，包括：

微服务关键路径是在微服务历史执行图中持续时间最长的路径，它的变化会直接影响到大规模微服务的端到端延迟，且微服务的关键路径上一定存在造成应用性能异常的关键微服务。基于微服务之间的依赖关系生成微服务历史执行图，在此基础上，通过记忆化搜索算法对微服务关键路径进行提取，将提取后的路径发送到下一部分进一步的处理。

特别地，在深度优先遍历的过程中，需要搜索以每一个点为根节点的子图，每次搜索都重复遍历图的子结构。采用记忆化搜索算法，对已经遍历过的子结构的最优解使用数组记录，当下次需要重复遍历相同子结构时，直接返回数组数据，即每个子结构在搜索过程中只遍历了一次。具体来说，当搜索以点i为根节点的子图时，如果点j是i的子节点且以点j为起点的最长路径dp_j已经被计算，则直接返回dp_j的值，不再对以点j为根节点的子图进行遍历。与深度优先遍历算法相比，记忆化搜索算法极大的降低了时间复杂度。

通过记忆化搜索算法对微服务历史执行图进行遍历后，遍历dp数组，得到最长路径所对应的起点，通过Path数组，得到关键路径上的每一个微服务；微服务关键路径可能不止一条，最后返回微服务关键路径的集合CP。

上述算法的具体步骤如下：

1.对微服务历史执行图数组，入度数组，Path数组，dp数组进行初始化；

2.遍历Op集合，将操作对应的微服务建立联系，生成微服务历史执行图；

3.计算微服务历史执行图中每个点的入度，将入度为0的点与起点连接，边的权重为对应微服务运行时间；

4.基于记忆化搜索算法，得到微服务历史执行图中每条路径的长度，并通过数组Path记录路径；

5.遍历路径长度，找到路径最长的微服务关键路径，并根据Path数组得到关键路径上的每个微服务；

6.对所有微服务关键路径上的微服务进行整合，返回关键路径的集合CP。

实施例5

根据实施例4所述的一种面向大规模微服务的性能异常主动检测和处理方法，其区别在于：

基于部分SLO对关键微服务进行定位，关键微服务是指微服务关键路径上尾延迟异常的微服务，关键微服务是造成微服务应用性能异常的根本原因。需要特别注意的是，微服务关键路径上延迟最大的微服务并不一定是关键微服务。如图3所示，包括：

经过对微服务关键路径提取，得到了造成微服务应用性能异常的微服务关键路径集合CP，造成微服务应用性能异常的关键微服务一定存在于微服务关键路径上，但是并不是所有的关键路径上的微服务都是关键微服务，如果增加关键路径上所有微服务的资源配额，会造成大部分微服务的资源冗余，极大的降低资源利用率。

基于微服务应用的尾延迟SLO，为每个微服务w都制定一个尾延迟限制，记作SLO_w；当微服务存在性能异常时，微服务的延迟较正常状态下会发生较大变化，基于正常状态下计算得出的SLO_w来判断关键路径上的微服务是否发生了性能异常；在正常工作负载下使用静态满额资源配置的方案，基于全链路追踪技术采集一段时间内请求经过每个微服务的时间Latency_w。根据请求经过不同微服务的时间Latency_w，将微服务应用的端到端尾延迟SLO按比例进行划分，为每个微服务w制定一个基于部分SLO的尾延迟限制。

SLO_w的计算公式如式(I)所示：

对造成微服务性能异常的关键路径上的所有微服务进行遍历，将请求经过微服务w的时间Latency_w同制定的微服务w的SLO_W进行比较，若Latency_w＞SLO_W×(1-slack_w)，则认为微服务w是造成微服务应用性能异常的原因之一，是关键微服务，其中，微服务w的延迟松弛

TLa_w是指请求经过微服务w的尾延迟；将关键微服务进行聚合，得到集合CW，发送到下一模块进一步的处理。

对时隙T_poll内所有经过微服务w的请求所经历的时间进行排序，得到请求经过微服务w的尾延迟TLa_w；为了计算有统计意义的请求经过微服务的尾延迟TLa_w，应该确定一个合适的时间T_poll，使得在时隙T_poll内有足够数量的请求被统计。轮询间隔T_poll取决于服务的最低每秒请求数(Request Per Second，RPS)和要测量的百分位尾部延迟(percentile)。根据经验，需要确保至少有100个请求被采样，时隙T_poll的计算公式如式(II)所示：

式(II)中，RPS是指服务的最低每秒请求数，percentile是指要测量的百分位尾部延迟。

具体步骤如下所述：

1.将所有微服务关键路径上的微服务按名称分类，具有相同名称的微服务为一类；

2.对每一类微服务B，求出最大的请求经过微服务的耗时

3.读取记录微服务SLO_w的文件；

4.将微服务B的对应SLO_B与

进行比较；

5.若

则确定微服务B为关键微服务；

6.将关键微服务进行聚合，得到集合CW；

7.将集合CW发送到下一步。

实施例6

根据实施例5所述的一种面向大规模微服务的性能异常主动检测和处理方法，其区别在于：

基于离散系数确定关键微服务的关键资源，并增加关键资源的配额，关键资源是指微服务中资源利用率变化大的资源；增加或减少微服务的关键资源对微服务的延迟有着显著的影响，通过修改关键微服务关键资源配额来处理微服务性能异常。如图4所示，包括：

经过微服务关键路径提取与关键微服务定位，已经确定了造成微服务应用性能异常的关键微服务，接下来需要改变关键微服务的资源配额，以避免或缓解微服务应用尾延迟SLO违规。每个关键微服务涉及多个维度的资源使用，如CPU、内存、缓存等。通常情况下，造成微服务性能异常的原因主要是一种或几种资源利用率剧烈变化，如果增加关键微服务的所有资源配额，会造成部分资源冗余，降低资源利用率。

将资源分配决策用元组<action，resource，time>表示，其中，action表示需要执行资源分配的动作，有up，down两种动作，分别表示增加资源使用配额与减少资源使用配额；resource表示需要执行动作的资源种类，由于增加或减少微服务的关键资源对微服务的延迟有着显著的影响，所以对关键微服务使用的每种资源的离散系数进行递减排序，优先处理离散系数大的关键资源；time表示执行动作的持续时间，根据经验以及工作负载的特点进行设置；对于元组<action，resource，time>总共有2×m种操作，其中，m表示微服务使用资源的数量，对基于离散系数排序后的每种资源轮询进行up操作，直到关键微服务的性能异常得到解决；性能异常解决后，再对每种资源进行down操作，使其资源使用配额恢复到异常处理之前的状态；

基于离散系数，确定关键微服务CW的关键资源CR_w，轮询增加关键资源CR_w的资源配额，以避免或缓解微服务应用尾延迟SLO违规。离散系数c_v定义为数据的标准差σ与平均数μ之比：

将关键微服务所有资源对应的离散系数聚合后进行递减排序，轮询对每种资源执行资源分配决策，在第i轮操作时执行决策<up，resource_i，t>，即增加资源i的分配份额持续时间为t；增加资源i配额之后使用信息采集组件对关键微服务CW运行时信息进行采集，若关键微服务CW的延迟仍然大于SLO_w×(1-slack_w)，则继续执行第i+1轮询操作，以此类推，直到关键微服务的延迟小于SLO_w×(1-slack_w)，当性能异常解除后，对所有变化的资源进行down操作，把所有增加的资源恢复到调整之前的配额。

在异常检测时，已经基于容器技术对每种资源的历史使用情况进行了采集记录，此时只需要计算关键微服务CW的所有资源使用情况的均值μ与标准差σ即可。在每一个时隙t，都需要计算关键微服务每种资源的均值μ与标准差σ，随着数据量的不断增大，求均值与标准差的时间也会不断增加。为了避免计算时间过长带来的影响，通过递推公式来计算均值与标准差。定义第n个时间间隔的平均值为E_n，方差为F_n，均值的递推公式为

经过增加关键微服务的关键资源的配额，降低了微服务应用的端到端尾延迟，避免或缓解了微服务应用尾延迟SLO违规，达到了严格保障微服务应用尾延迟SLO的目的。

具体算法执行步骤如下：

1.基于历史信息计算关键微服务CW每种资源的离散系数；

2.对每种资源的离散系数进行聚合，得到数组DC；

3.对数组DC进行递减排序，将i初始化为0，代表第i种资源；

4.迭代步骤5-步骤7，直到关键微服务延迟La_w小于SLO_w×(1-slack_w)；

5.增加第i种资源的使用配额；

6.i＝(i+1)％m；

7.采集关键微服务CW的运行时信息；

8.将所有关键微服务增加配额的资源恢复到调整之前的使用配额。

图7展示了微服务b在不同负载下，CPU的实际使用情况以及CPU的分配份额。由图7可知，在时隙t的CPU的分配份额不足导致微服务应用的性能异常时，通过主动地检测异常，在时隙t+1将CPU的分配份额增加一倍，直到异常被处理。通过主动检测微服务应用的性能异常行为，并轮询将关键资源的配额增加一倍，来避免或缓解SLO违规，达到严格保障微服务应用尾延迟SLO的目的。

实施例7

一种面向大规模微服务的性能异常主动检测和处理系统，如图6所示，包括：

Claims

1.一种面向大规模微服务的性能异常主动检测和处理方法，其特征在于，包括：

对微服务的资源使用情况以及运行时信息进行采集，通过采集信息判断微服务应用是否存在性能异常；如果微服务应用存在性能异常，首先，通过采集信息生成微服务历史执行图，然后，基于记忆化搜索对微服务关键路径进行提取，随后，基于部分SLO对关键微服务进行定位，SLO是指服务等级目标；最后，基于离散系数确定关键微服务的关键资源，并增加关键资源的配额，以避免或缓解尾延迟SLO违规；

通过采集信息判断微服务应用是否存在性能异常，是指：

定义γ为SLO缓冲系数，

如果Latency≥SLO×γ，则认为微服务应用发生性能异常，即尾延迟违反SLO或即将违反SLO；否则，认为微服务应用性能正常，结束；

基于部分SLO对关键微服务进行定位，关键微服务是指微服务关键路径上尾延迟异常的微服务，包括：

SLO_w的计算公式如式(I)所示：

2.根据权利要求1所述的一种面向大规模微服务的性能异常主动检测和处理方法，其特征在于，对微服务的资源使用情况以及运行时信息进行采集，是指：以时隙t为间隔，信息采集组件对任意微服务w的资源使用情况R_w以及微服务运行时信息Runtime_w进行采集，信息采集组件持续监控并记录每个微服务的资源使用情况以及每个请求所经历的延迟。

3.根据权利要求2所述的一种面向大规模微服务的性能异常主动检测和处理方法，其特征在于，通过容器技术对微服务w的资源使用情况进行采集，微服务w的资源使用情况包括CPU使用率、内存使用率、缓存使用、IO速率、网络带宽；通过读取容器每种资源使用的相关文件并进行聚合即获得微服务的多维度资源使用信息。

4.根据权利要求2所述的一种面向大规模微服务的性能异常主动检测和处理方法，其特征在于，通过基于全链路追踪技术的Jaeger获取每个微服务在时隙t内的运行时信息，包括微服务的延迟、名称以及操作。

5.根据权利要求1所述的一种面向大规模微服务的性能异常主动检测和处理方法，其特征在于，通过采集信息生成微服务历史执行图，是指：

6.根据权利要求5所述的一种面向大规模微服务的性能异常主动检测和处理方法，其特征在于，入度的计算方法为：在微服务历史执行图中，如果微服务i与微服务j之间存在依赖关系，即代表两个微服务的点相连，且微服务j为子微服务，则微服务j的入度加1，遍历微服务历史执行图中所有的边，将子微服务对应点的入度分别加1，得到微服务历史执行图中每个点的入度。

7.根据权利要求6所述的一种面向大规模微服务的性能异常主动检测和处理方法，其特征在于，起点的设计方法为：假设微服务应用由n个微服务构成，由于微服务应用中的每个微服务都有一个唯一的数字对应，范围是[1，n]，为了使起点不对微服务应用造成影响，设置起点对应的数字为n+1。

8.根据权利要求5所述的一种面向大规模微服务的性能异常主动检测和处理方法，其特征在于，基于记忆化搜索对微服务关键路径进行提取，其中，微服务关键路径是指在微服务历史执行图中持续时间最长的路径，微服务关键路径的长度即为微服务应用的端到端延迟，包括：

表示以i的子节点child为起点所能得到的最长路径的长度，Graph_i,chila表示在微服务历史执行图中节点i到子节点child的距离，dp_i表示以节点i为起点所能走过的最长路径；如果i没有子节点，则dp_i＝0；在获取微服务关键路径的同时，对关键路径使用Path数组进行记录；

9.根据权利要求1所述的一种面向大规模微服务的性能异常主动检测和处理方法，其特征在于，对时隙T_poll内所有经过微服务w的请求所经历的时间进行排序，得到请求经过微服务w的尾延迟TLa_w；时隙T_poll的计算公式如式(II)所示：

10.根据权利要求1所述的一种面向大规模微服务的性能异常主动检测和处理方法，其特征在于，基于离散系数确定关键微服务的关键资源，并增加关键资源的配额，关键资源是指微服务中资源利用率变化大的资源；包括：

将资源分配决策用元组<action,resource，time>表示，其中，action表示需要执行资源分配的动作，有up，down两种动作，分别表示增加资源使用配额与减少资源使用配额；resource表示需要执行动作的资源种类，基于离散系数，对关键微服务使用的每种资源进行递减排序，优先处理离散系数大的关键资源；time表示执行动作的持续时间，根据经验以及工作负载的特点进行设置；对于元组<action,resource，time>总共有2×m种操作，其中，m表示微服务使用资源的数量，对基于离散系数排序后的每种资源轮询进行up操作，直到关键微服务的性能异常得到解决；性能异常解决后，再对每种资源进行down操作，使其资源使用配额恢复到异常处理之前的状态；

将关键微服务所有资源对应的离散系数聚合后进行递减排序，轮询对每种资源执行资源分配决策，在第i轮操作时执行决策<up,resource_i，t>，即增加资源i的分配份额持续时间为t；增加资源i配额之后对关键微服务CW运行时信息进行采集，若关键微服务CW的延迟仍然大于SLO_w×(1-slack_w)，则继续执行第i+1轮询操作，以此类推，直到关键微服务的延迟小于SLO_w×(1-slack_w)，当性能异常解除后，对所有变化的资源进行down操作，把所有增加的资源恢复到调整之前的配额。

11.根据权利要求10所述的一种面向大规模微服务的性能异常主动检测和处理方法，其特征在于，定义第n个时间间隔的平均值为E_n，方差为F_n，均值的递推公式为

12.一种面向大规模微服务的性能异常主动检测和处理系统，其特征在于，包括：

异常处理模块，被配置为：如果微服务应用存在性能异常，首先，通过采集信息生成微服务历史执行图，然后，基于记忆化搜索对微服务关键路径进行提取，随后，基于部分SLO对关键微服务进行定位，SLO是指服务等级目标；最后，基于离散系数确定关键微服务的关键资源，并增加关键资源的配额，以避免或缓解尾延迟SLO违规；

通过采集信息判断微服务应用是否存在性能异常，是指：

定义γ为SLO缓冲系数，

SLO_w的计算公式如式(I)所示：

TLaw是指请求经过微服务w的尾延迟；将关键微服务进行聚合，得到集合CW。