CN115033477B - 一种面向大规模微服务的性能异常主动检测和处理方法及系统 - Google Patents

一种面向大规模微服务的性能异常主动检测和处理方法及系统 Download PDF

Info

Publication number
CN115033477B
CN115033477B CN202210644574.7A CN202210644574A CN115033477B CN 115033477 B CN115033477 B CN 115033477B CN 202210644574 A CN202210644574 A CN 202210644574A CN 115033477 B CN115033477 B CN 115033477B
Authority
CN
China
Prior art keywords
micro
service
key
slo
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210644574.7A
Other languages
English (en)
Other versions
CN115033477A (zh
Inventor
蔡斌雷
王彬
杨美红
郭莹
张虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Shandong Computer Science Center National Super Computing Center in Jinan
Original Assignee
Qilu University of Technology
Shandong Computer Science Center National Super Computing Center in Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology, Shandong Computer Science Center National Super Computing Center in Jinan filed Critical Qilu University of Technology
Priority to CN202210644574.7A priority Critical patent/CN115033477B/zh
Publication of CN115033477A publication Critical patent/CN115033477A/zh
Application granted granted Critical
Publication of CN115033477B publication Critical patent/CN115033477B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1012Server selection for load balancing based on compliance of requirements or conditions with available server resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/064Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/062Generation of reports related to network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1074Peer-to-peer [P2P] networks for supporting data block transmission mechanisms
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Debugging And Monitoring (AREA)
  • Exchange Systems With Centralized Control (AREA)

Abstract

本发明涉及一种面向大规模微服务的性能异常主动检测和处理方法及系统,包括:对微服务的资源使用情况以及运行时信息进行采集,通过采集信息判断微服务应用是否存在性能异常;如果微服务应用存在性能异常,首先,通过采集信息生成微服务历史执行图,然后,基于记忆化搜索对微服务关键路径进行提取,随后,基于部分SLO对关键微服务进行定位,最后,基于离散系数确定关键微服务的关键资源,并增加关键资源的配额,以避免或缓解尾延迟SLO违规。

Description

一种面向大规模微服务的性能异常主动检测和处理方法及 系统
技术领域
本发明通过云原生技术,主动对大规模微服务的性能异常进行检测并处理,严格保障了应用的服务质量。
背景技术
近年来,云应用已逐渐从单体架构演变为易于开发和维护的微服务架构,如Amazon、Twitter和Netflix等大型云服务提供商已经采用了这种模式。采用微服务架构的云应用将每个业务功能都实现成一个可以独立执行的个体,随着应用规模不断扩大,业务功能和需求变得复杂,构成云应用的微服务规模也逐渐增大,一个成熟的云应用通常由成百上千个单一用途和松散耦合的微服务组成。例如,Netflix的云平台上已经运行了500个微服务,每天会有100-1000的变更部署到线上环境。云应用通常是交互式、延迟敏感型的服务,它们具有严格的尾延迟服务等级目标(Service Level Objective,SLO)要求。但是微服务之间存在的依赖关系使云应用的拓扑结构更加复杂,加剧了排队效应并引入了级联的尾延迟SLO违规。因此,对大规模微服务的性能异常进行主动地检测和处理,以严格保障云应用的尾延迟SLO,成为当前需要迫切解决的问题。
发明内容
针对现有技术的不足,本发明提出了一种面向大规模微服务的性能异常主动检测和处理方法,本发明还提出了一种面向大规模微服务的性能异常主动检测和处理系统。
本发明的目的是对大规模微服务的性能异常进行主动地检测和处理,以严格保障应用的尾延迟SLO。通过实时采集信息,主动检测大规模微服务应用的性能异常行为,基于记忆化搜索和部分SLO对造成应用性能异常的微服务进行定位,并通过离散系数确定并增加其关键资源使用配额,以避免或缓解尾延迟SLO违规,进而严格保障应用的尾延迟SLO。
本发明以时隙t为间隔采集微服务应用的资源使用信息及运行时信息,通过应用运行时信息检测应用是否出现性能异常,即应用的尾延迟是否违反SLO或即将违反SLO;若应用出现性能异常,则进入异常处理模块,定位造成SLO违规的微服务并通过增加其资源配额来解决性能异常;结合上述操作,本发明可以主动检测大规模微服务应用的性能异常并及时进行处理,严格保障应用的尾延迟SLO。
术语解释:
1、微服务(Microservices):微服务是一种以业务功能为主的服务设计概念,应用程序在设计时就先以业务功能或流程进行划分,将各业务功能都实现成为一个可以自主执行的个体服务;然后通过特定的协议将个体服务进行整合,形成一个基于微服务架构的应用程序。微服务以模块化、灵活开发以及快速迭代的优势被广泛应用在企业生产中。
2、关键路径(Critical Path):关键路径指在设计中从输入端到输出端经过的耗时最长的逻辑路径,关键路径的变化会直接影响到大规模微服务应用的端到端完成时间。一个大规模微服务应用可以有多个并行的关键路径。通过关键路径可以明确整个项目的完成耗时以及哪些活动是影响项目的关键因素。
3、离散系数(Coefficient of variation):在概率论与统计学中,离散系数又被称为变异系数,是一个描述概率分布离散程度的归一化量度。离散系数定义为数据的标准差σ与平均数μ之比:
Figure BDA0003683578250000021
离散系数在平均值为0的时候没有定义。离散系数不需要参照数据的平均值,常用在多个总体均值不等的离散程度的比较上。
本发明的技术方案为:
一种面向大规模微服务的性能异常主动检测和处理方法,包括:
对微服务的资源使用情况以及运行时信息进行采集,通过采集信息判断微服务应用是否存在性能异常;如果微服务应用存在性能异常,首先,通过采集信息生成微服务历史执行图,然后,基于记忆化搜索对微服务关键路径进行提取,随后,基于部分SLO对关键微服务进行定位,最后,基于离散系数确定关键微服务的关键资源,并增加关键资源的配额,以避免或缓解尾延迟SLO违规。
根据本发明优选的,对微服务的资源使用情况以及运行时信息进行采集,是指:以时隙t为间隔,信息采集组件对任意微服务w的资源使用情况Rw以及微服务运行时信息Runtimew进行采集,信息采集组件持续监控并记录每个微服务的资源使用情况以及每个请求所经历的延迟。
进一步优选的,通过容器技术对微服务w的资源使用情况进行采集,微服务w的资源使用情况包括CPU使用率、内存使用率、缓存使用、IO速率、网络带宽;通过读取容器每种资源使用的相关文件并进行聚合即获得微服务的多维度资源使用信息。
进一步优选的,通过基于全链路追踪技术的Jaeger获取每个微服务在时隙t内的运行时信息,包括微服务的延迟、名称以及操作。
进一步优选的,通过采集信息判断微服务应用是否存在性能异常,是指:
对采集信息进行整理,通过同一请求最晚离开微服务应用的时间减去最早进入微服务应用的时间得到微服务应用的端到端延迟Latency;
定义γ为SLO缓冲系数,
Figure BDA0003683578250000022
其中,Nviolation表示固定时隙t内响应时间超过SLO的请求数量,Nreceive表示固定时隙t内收到的请求总数;
如果Latency≥SLO×γ,则认为微服务应用发生性能异常,即尾延迟违反SLO或即将违反SLO;否则,认为微服务应用性能正常,结束。
根据本发明优选的,通过采集信息生成微服务历史执行图,是指:
将微服务的运行时信息按照相同请求进行划分,同一请求经过的所有微服务被划分为一个集合T内;遍历T内所有微服务的运行时信息,若微服务wi与微服务wj的操作Opi与Opj相对应,则认为两微服务之间有依赖关系,将代表两个微服务的点相连,并将子微服务的运行时间作为两者之间的路径权重;将集合T内所有微服务遍历后,计算微服务历史执行图中每个点的入度,入度是指微服务历史执行图中某点作为微服务历史执行图中边的终点的次数之和,将入度为0的点与设计的起点相连接,权重为对应微服务的运行时间,由此,得到在时隙t内出现的所有请求所经过的微服务历史执行图,记作Graph。
进一步优选的,入度的计算方法为:在微服务历史执行图中,如果微服务i与微服务j之间存在依赖关系,即代表两个微服务的点相连,且微服务j为子微服务,则微服务j的入度加1,遍历微服务历史执行图中所有的边,将子微服务对应点的入度分别加1,得到微服务历史执行图中每个点的入度。
进一步优选的,起点的设计方法为:假设微服务应用由n个微服务构成,由于微服务应用中的每个微服务都有一个唯一的数字对应,范围是[1,n],为了使起点不对微服务应用造成影响,设置起点对应的数字为n+1。
根据本发明优选的,基于记忆化搜索对微服务关键路径进行提取,其中,微服务关键路径是指在微服务历史执行图中持续时间最长的路径,微服务关键路径的长度即为微服务应用的端到端延迟,包括:
通过微服务历史执行图Graph,基于记忆化搜索算法,对造成性能异常的微服务关键路径进行提取:
以起点作为根节点进行深度优先遍历,使用数组dpi表示以i为起点所能得到的最长路径的长度,遍历根节点的所有子节点,维护dp数组
Figure BDA0003683578250000031
表示以i的子节点child为起点所能得到的最长路径的长度,Graphi,child表示在微服务历史执行图中节点i到子节点child的距离,dpi表示以节点i为起点所能走过的最长路径;如果i没有子节点,则dpi=0;在获取微服务关键路径的同时,对关键路径使用Path数组进行记录;
通过记忆化搜索算法对微服务历史执行图进行遍历后,遍历dp数组,得到最长路径所对应的起点,通过Path数组,得到关键路径上的每一个微服务;最后返回微服务关键路径的集合CP。
根据本发明优选的,基于部分SLO对关键微服务进行定位,关键微服务是指微服务关键路径上尾延迟异常的微服务,包括:
基于微服务应用的尾延迟SLO,为每个微服务w都制定一个尾延迟限制,记作SLOw
SLOw的计算公式如式(I)所示:
Figure BDA0003683578250000041
式(I)中,Latencya,Latencyb,Latencyw表示请求经过微服务a,b,w的响应时间;
对造成微服务性能异常的关键路径上的所有微服务进行遍历,将请求经过微服务w的时间Latencyw同制定的微服务w的SLOW进行比较,若Latencyw>SLOW×(1-slackw),则认为微服务w是造成微服务应用性能异常的原因之一,是关键微服务;其中,微服务w的延迟松弛
Figure BDA0003683578250000042
TLaw是指请求经过微服务w的尾延迟;将关键微服务进行聚合,得到集合CW。
进一步优选的,对时隙Tpoll内所有经过微服务w的请求所经历的时间进行排序,得到请求经过微服务w的尾延迟TLaw;时隙Tpoll的计算公式如式(II)所示:
Figure BDA0003683578250000043
式(II)中,RPS是指服务的最低每秒请求数(Request Per Second),percentile是指要测量的百分位尾部延迟。
根据本发明优选的,基于离散系数确定关键微服务的关键资源,并增加关键资源的配额,关键资源是指微服务中资源利用率变化大的资源;包括:
将资源分配决策用元组<action,resource,time>表示,其中,action表示需要执行资源分配的动作,有up,down两种动作,分别表示增加资源使用配额与减少资源使用配额;resource表示需要执行动作的资源种类,对关键微服务使用的每种资源的离散系数进行递减排序,优先处理离散系数大的关键资源;time表示执行动作的持续时间,根据经验以及工作负载的特点进行设置;对于元组<action,resource,time>总共有2×m种操作,其中,m表示微服务使用资源的数量,对基于离散系数排序后的每种资源轮询进行up操作,直到关键微服务的性能异常得到解决;性能异常解决后,再对每种资源进行down操作,使其资源使用配额恢复到异常处理之前的状态;
基于离散系数,确定关键微服务CW的关键资源CRw,轮询增加关键资源CRw的资源配额,离散系数cv定义为数据的标准差σ与平均数μ之比:
Figure BDA0003683578250000044
将关键微服务所有资源对应的离散系数聚合后进行递减排序,轮询对每种资源执行资源分配决策,在第i轮操作时执行决策<up,resourcei,t>,即增加资源i的分配份额持续时间为t;增加资源i配额之后对关键微服务CW运行时信息进行采集,若关键微服务CW的延迟仍然大于SLOw×(1-slackw),则继续执行第i+1轮询操作,以此类推,直到关键微服务的延迟小于SLOw×(1-slackw),当性能异常解除后,对所有变化的资源进行down操作,把所有增加的资源恢复到调整之前的配额。
进一步优选的,定义第n个时间间隔的平均值为En,方差为Fn,均值的递推公式为
Figure BDA0003683578250000051
其中,E0=x0,标准差由方差开平方获得,方差的递推公式为Fn=Fn-1+(xn-En-1)*(xn-En),其中,F0=0。
一种面向大规模微服务的性能异常主动检测和处理系统,包括:
异常检测模块,被配置为:对微服务的资源使用情况以及运行时信息进行采集,通过采集信息判断微服务应用是否存在性能异常;
异常处理模块,被配置为:如果微服务应用存在性能异常,首先,通过采集信息生成微服务历史执行图,然后,基于记忆化搜索对微服务关键路径进行提取,随后,基于部分SLO对关键微服务进行定位,最后,基于离散系数确定关键微服务的关键资源,并增加关键资源的配额,以避免或缓解尾延迟SLO违规。
本发明的有益效果为:
本发明通过信息采集可以主动检测微服务应用是否存在性能异常行为;对存在性能异常的微服务应用,利用记忆化搜索得到微服务关键路径,并根据部分SLO以及离散系数获得关键微服务的关键资源;轮询地将关键资源的配额增加一倍,来避免或缓解SLO违规,达到严格保障微服务应用尾延迟SLO的目的。
附图说明
图1为微服务关键路径示意图;
图2为基于记忆化搜索对微服务关键路径进行提取的流程示意图;
图3为基于部分SLO对关键微服务进行定位的流程示意图;
图4为基于离散系数确定关键微服务的关键资源的流程示意图;
图5为本发明面向大规模微服务的性能异常主动检测和处理方法整体流程示意图;
图6为本发明面向大规模微服务的性能异常主动检测和处理系统的整体架构示意图;
图7为微服务b的CPU实际使用与分配份额对比示意图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种面向大规模微服务的性能异常主动检测和处理方法,如图5所示,将应用程序以业务功能或流程进行划分,构建一个基于微服务架构的应用程序;包括:
对微服务的资源使用情况以及运行时信息进行采集,通过采集信息判断微服务应用是否存在性能异常;如果微服务应用存在性能异常,首先,通过采集信息生成微服务历史执行图,然后,基于记忆化搜索对微服务关键路径进行提取,随后,基于部分SLO对关键微服务进行定位,最后,基于离散系数确定关键微服务的关键资源,并增加关键资源的配额,以避免或缓解尾延迟SLO违规。
实施例2
根据实施例1所述的一种面向大规模微服务的性能异常主动检测和处理方法,其区别在于:
微服务应用由n个微服务构成,由集合
Figure BDA0003683578250000061
表示,对于任意微服务w的m种资源使用情况用集合Rw={Rw1,Rw2,...,Rwm}表示,微服务w的运行时信息用集合Runtimew={Law,Namew,Opw}表示,其中Law、Namew、Opw分别表示微服务w的延迟、名称以及操作,Latency表示微服务应用的端到端延迟。
对微服务的资源使用情况以及运行时信息进行采集,是指:本发明基于全链路追踪技术对大规模微服务的性能异常进行主动地检测。以时隙t为间隔,信息采集组件对任意微服务w的资源使用情况Rw以及微服务运行时信息Runtimew进行采集,信息采集组件持续监控并记录每个微服务的资源使用情况以及每个请求所经历的延迟。通过采集数据,对大规模微服务的性能异常进行主动检测。
通过容器技术对微服务w的资源使用情况进行采集,微服务w的资源使用情况包括CPU使用率、内存使用率、缓存使用、IO速率、网络带宽;通过读取容器每种资源使用的相关文件并进行聚合即获得微服务的多维度资源使用信息。
通过读取容器每种资源使用的相关文件并进行聚合,具体是指:将微服务应用中每一个微服务封装进一个对应的容器,进行独立的维护和部署,每个容器都负责一个特定的业务功能。通过Cgroup中的cpuacct.usage文件、memory.usage_in_bytes文件及blkio.throttle.io_service_bytes文件分别获取每个微服务的CPU使用率、内存使用率及IO速率;使用Intel RDT(Resource Director Technology)技术对缓存信息进行采集;通过文件/proc/(pid)/net/dev,来获取上传与下载的网络流量数据。对每个微服务,读取相同时间戳下该微服务的每种资源使用情况,以单体微服务为单位将聚合后的信息存入元组。
通过基于全链路追踪技术的Jaeger获取每个微服务在时隙t内的运行时信息,包括微服务的延迟、名称以及操作。
通过采集信息判断微服务应用是否存在性能异常,是指:
对采集信息进行整理,通过同一请求最晚离开微服务应用的时间减去最早进入微服务应用的时间得到微服务应用的端到端延迟Latency;
定义γ为SLO缓冲系数,
Figure BDA0003683578250000071
其中,Nviolation表示固定时隙t内响应时间超过SLO的请求数量,Nreceive表示固定时隙t内收到的请求总数;
如果Latency≥SLO×γ,则认为微服务应用发生性能异常,即尾延迟违反SLO或即将违反SLO;对性能异常进行进一步处理。否则,认为微服务应用性能正常,结束。
实施例3
根据实施例1所述的一种面向大规模微服务的性能异常主动检测和处理方法,其区别在于:
通过采集信息生成微服务历史执行图,是指:
通过信息采集,将微服务的运行时信息按照相同请求进行划分,同一请求经过的所有微服务被划分为一个集合T内;遍历T内所有微服务的运行时信息,若微服务wi与微服务wj的操作Opi与Opj相对应,则认为两微服务之间有依赖关系,将代表两个微服务的点相连,并将子微服务的运行时间作为两者之间的路径权重;将集合T内所有微服务遍历后,计算微服务历史执行图中每个点的入度,入度是指微服务历史执行图中某点作为微服务历史执行图中边的终点的次数之和,将入度为0的点与设计的起点相连接,权重为对应微服务的运行时间,由此,得到在时隙t内出现性能异常的请求所经过的微服务历史执行图,记作Graph。微服务历史执行图由构成微服务应用的所有微服务的全局执行视图构建而成,清晰地展现了分布式执行的用户请求流程。
入度的计算方法为:在微服务历史执行图中,如果微服务i与微服务j之间存在依赖关系,即代表两个微服务的点相连,且微服务j为子微服务,则微服务j的入度加1,遍历微服务历史执行图中所有的边,将子微服务对应点的入度分别加1,得到微服务历史执行图中每个点的入度。
起点的设计方法为:假设微服务应用由n个微服务构成,由于微服务应用中的每个微服务都有一个唯一的数字对应,范围是[1,n],为了使起点不对微服务应用造成影响,设置起点对应的数字为n+1。
实施例4
根据实施例3所述的一种面向大规模微服务的性能异常主动检测和处理方法,其区别在于:
基于记忆化搜索对微服务关键路径进行提取,其中,微服务关键路径是指在微服务历史执行图中持续时间最长的路径,微服务关键路径的长度即为微服务应用的端到端延迟,微服务关键路径如图1所示,基于记忆化搜索对微服务关键路径进行提取的流程如图2所示,包括:
微服务关键路径是在微服务历史执行图中持续时间最长的路径,它的变化会直接影响到大规模微服务的端到端延迟,且微服务的关键路径上一定存在造成应用性能异常的关键微服务。基于微服务之间的依赖关系生成微服务历史执行图,在此基础上,通过记忆化搜索算法对微服务关键路径进行提取,将提取后的路径发送到下一部分进一步的处理。
通过微服务历史执行图Graph,基于记忆化搜索算法,对造成性能异常的微服务关键路径进行提取:
以起点作为根节点进行深度优先遍历,使用数组dpi表示以i为起点所能得到的最长路径的长度,遍历根节点的所有子节点,维护dp数组
Figure BDA0003683578250000081
表示以i的子节点child为起点所能得到的最长路径的长度,Graphi,child表示在微服务历史执行图中节点i到子节点child的距离,dpi表示以节点i为起点所能走过的最长路径;如果i没有子节点,则dpi=0;在获取微服务关键路径的同时,对关键路径使用Path数组进行记录;
特别地,在深度优先遍历的过程中,需要搜索以每一个点为根节点的子图,每次搜索都重复遍历图的子结构。采用记忆化搜索算法,对已经遍历过的子结构的最优解使用数组记录,当下次需要重复遍历相同子结构时,直接返回数组数据,即每个子结构在搜索过程中只遍历了一次。具体来说,当搜索以点i为根节点的子图时,如果点j是i的子节点且以点j为起点的最长路径dpj已经被计算,则直接返回dpj的值,不再对以点j为根节点的子图进行遍历。与深度优先遍历算法相比,记忆化搜索算法极大的降低了时间复杂度。
通过记忆化搜索算法对微服务历史执行图进行遍历后,遍历dp数组,得到最长路径所对应的起点,通过Path数组,得到关键路径上的每一个微服务;微服务关键路径可能不止一条,最后返回微服务关键路径的集合CP。
上述算法的具体步骤如下:
1.对微服务历史执行图数组,入度数组,Path数组,dp数组进行初始化;
2.遍历Op集合,将操作对应的微服务建立联系,生成微服务历史执行图;
3.计算微服务历史执行图中每个点的入度,将入度为0的点与起点连接,边的权重为对应微服务运行时间;
4.基于记忆化搜索算法,得到微服务历史执行图中每条路径的长度,并通过数组Path记录路径;
5.遍历路径长度,找到路径最长的微服务关键路径,并根据Path数组得到关键路径上的每个微服务;
6.对所有微服务关键路径上的微服务进行整合,返回关键路径的集合CP。
实施例5
根据实施例4所述的一种面向大规模微服务的性能异常主动检测和处理方法,其区别在于:
基于部分SLO对关键微服务进行定位,关键微服务是指微服务关键路径上尾延迟异常的微服务,关键微服务是造成微服务应用性能异常的根本原因。需要特别注意的是,微服务关键路径上延迟最大的微服务并不一定是关键微服务。如图3所示,包括:
经过对微服务关键路径提取,得到了造成微服务应用性能异常的微服务关键路径集合CP,造成微服务应用性能异常的关键微服务一定存在于微服务关键路径上,但是并不是所有的关键路径上的微服务都是关键微服务,如果增加关键路径上所有微服务的资源配额,会造成大部分微服务的资源冗余,极大的降低资源利用率。
基于微服务应用的尾延迟SLO,为每个微服务w都制定一个尾延迟限制,记作SLOw;当微服务存在性能异常时,微服务的延迟较正常状态下会发生较大变化,基于正常状态下计算得出的SLOw来判断关键路径上的微服务是否发生了性能异常;在正常工作负载下使用静态满额资源配置的方案,基于全链路追踪技术采集一段时间内请求经过每个微服务的时间Latencyw。根据请求经过不同微服务的时间Latencyw,将微服务应用的端到端尾延迟SLO按比例进行划分,为每个微服务w制定一个基于部分SLO的尾延迟限制。
SLOw的计算公式如式(I)所示:
Figure BDA0003683578250000091
式(I)中,Latencya,Latencyb,Latencyw表示请求经过微服务a,b,w的响应时间;
对造成微服务性能异常的关键路径上的所有微服务进行遍历,将请求经过微服务w的时间Latencyw同制定的微服务w的SLOW进行比较,若Latencyw>SLOW×(1-slackw),则认为微服务w是造成微服务应用性能异常的原因之一,是关键微服务,其中,微服务w的延迟松弛
Figure BDA0003683578250000092
TLaw是指请求经过微服务w的尾延迟;将关键微服务进行聚合,得到集合CW,发送到下一模块进一步的处理。
对时隙Tpoll内所有经过微服务w的请求所经历的时间进行排序,得到请求经过微服务w的尾延迟TLaw;为了计算有统计意义的请求经过微服务的尾延迟TLaw,应该确定一个合适的时间Tpoll,使得在时隙Tpoll内有足够数量的请求被统计。轮询间隔Tpoll取决于服务的最低每秒请求数(Request Per Second,RPS)和要测量的百分位尾部延迟(percentile)。根据经验,需要确保至少有100个请求被采样,时隙Tpoll的计算公式如式(II)所示:
Figure BDA0003683578250000101
式(II)中,RPS是指服务的最低每秒请求数,percentile是指要测量的百分位尾部延迟。
具体步骤如下所述:
1.将所有微服务关键路径上的微服务按名称分类,具有相同名称的微服务为一类;
2.对每一类微服务B,求出最大的请求经过微服务的耗时
Figure BDA0003683578250000102
3.读取记录微服务SLOw的文件;
4.将微服务B的对应SLOB
Figure BDA0003683578250000103
进行比较;
5.若
Figure BDA0003683578250000104
则确定微服务B为关键微服务;
6.将关键微服务进行聚合,得到集合CW;
7.将集合CW发送到下一步。
实施例6
根据实施例5所述的一种面向大规模微服务的性能异常主动检测和处理方法,其区别在于:
基于离散系数确定关键微服务的关键资源,并增加关键资源的配额,关键资源是指微服务中资源利用率变化大的资源;增加或减少微服务的关键资源对微服务的延迟有着显著的影响,通过修改关键微服务关键资源配额来处理微服务性能异常。如图4所示,包括:
经过微服务关键路径提取与关键微服务定位,已经确定了造成微服务应用性能异常的关键微服务,接下来需要改变关键微服务的资源配额,以避免或缓解微服务应用尾延迟SLO违规。每个关键微服务涉及多个维度的资源使用,如CPU、内存、缓存等。通常情况下,造成微服务性能异常的原因主要是一种或几种资源利用率剧烈变化,如果增加关键微服务的所有资源配额,会造成部分资源冗余,降低资源利用率。
将资源分配决策用元组<action,resource,time>表示,其中,action表示需要执行资源分配的动作,有up,down两种动作,分别表示增加资源使用配额与减少资源使用配额;resource表示需要执行动作的资源种类,由于增加或减少微服务的关键资源对微服务的延迟有着显著的影响,所以对关键微服务使用的每种资源的离散系数进行递减排序,优先处理离散系数大的关键资源;time表示执行动作的持续时间,根据经验以及工作负载的特点进行设置;对于元组<action,resource,time>总共有2×m种操作,其中,m表示微服务使用资源的数量,对基于离散系数排序后的每种资源轮询进行up操作,直到关键微服务的性能异常得到解决;性能异常解决后,再对每种资源进行down操作,使其资源使用配额恢复到异常处理之前的状态;
基于离散系数,确定关键微服务CW的关键资源CRw,轮询增加关键资源CRw的资源配额,以避免或缓解微服务应用尾延迟SLO违规。离散系数cv定义为数据的标准差σ与平均数μ之比:
Figure BDA0003683578250000111
将关键微服务所有资源对应的离散系数聚合后进行递减排序,轮询对每种资源执行资源分配决策,在第i轮操作时执行决策<up,resourcei,t>,即增加资源i的分配份额持续时间为t;增加资源i配额之后使用信息采集组件对关键微服务CW运行时信息进行采集,若关键微服务CW的延迟仍然大于SLOw×(1-slackw),则继续执行第i+1轮询操作,以此类推,直到关键微服务的延迟小于SLOw×(1-slackw),当性能异常解除后,对所有变化的资源进行down操作,把所有增加的资源恢复到调整之前的配额。
在异常检测时,已经基于容器技术对每种资源的历史使用情况进行了采集记录,此时只需要计算关键微服务CW的所有资源使用情况的均值μ与标准差σ即可。在每一个时隙t,都需要计算关键微服务每种资源的均值μ与标准差σ,随着数据量的不断增大,求均值与标准差的时间也会不断增加。为了避免计算时间过长带来的影响,通过递推公式来计算均值与标准差。定义第n个时间间隔的平均值为En,方差为Fn,均值的递推公式为
Figure BDA0003683578250000112
其中,E0=x0,标准差由方差开平方获得,方差的递推公式为Fn=Fn-1+(xn-En-1)*(xn-En),其中,F0=0。
经过增加关键微服务的关键资源的配额,降低了微服务应用的端到端尾延迟,避免或缓解了微服务应用尾延迟SLO违规,达到了严格保障微服务应用尾延迟SLO的目的。
具体算法执行步骤如下:
1.基于历史信息计算关键微服务CW每种资源的离散系数;
2.对每种资源的离散系数进行聚合,得到数组DC;
3.对数组DC进行递减排序,将i初始化为0,代表第i种资源;
4.迭代步骤5-步骤7,直到关键微服务延迟Law小于SLOw×(1-slackw);
5.增加第i种资源的使用配额;
6.i=(i+1)%m;
7.采集关键微服务CW的运行时信息;
8.将所有关键微服务增加配额的资源恢复到调整之前的使用配额。
图7展示了微服务b在不同负载下,CPU的实际使用情况以及CPU的分配份额。由图7可知,在时隙t的CPU的分配份额不足导致微服务应用的性能异常时,通过主动地检测异常,在时隙t+1将CPU的分配份额增加一倍,直到异常被处理。通过主动检测微服务应用的性能异常行为,并轮询将关键资源的配额增加一倍,来避免或缓解SLO违规,达到严格保障微服务应用尾延迟SLO的目的。
实施例7
一种面向大规模微服务的性能异常主动检测和处理系统,如图6所示,包括:
异常检测模块,被配置为:对微服务的资源使用情况以及运行时信息进行采集,通过采集信息判断微服务应用是否存在性能异常;
异常处理模块,被配置为:如果微服务应用存在性能异常,首先,通过采集信息生成微服务历史执行图,然后,基于记忆化搜索对微服务关键路径进行提取,随后,基于部分SLO对关键微服务进行定位,最后,基于离散系数确定关键微服务的关键资源,并增加关键资源的配额,以避免或缓解尾延迟SLO违规。

Claims (12)

1.一种面向大规模微服务的性能异常主动检测和处理方法,其特征在于,包括:
对微服务的资源使用情况以及运行时信息进行采集,通过采集信息判断微服务应用是否存在性能异常;如果微服务应用存在性能异常,首先,通过采集信息生成微服务历史执行图,然后,基于记忆化搜索对微服务关键路径进行提取,随后,基于部分SLO对关键微服务进行定位,SLO是指服务等级目标;最后,基于离散系数确定关键微服务的关键资源,并增加关键资源的配额,以避免或缓解尾延迟SLO违规;
通过采集信息判断微服务应用是否存在性能异常,是指:
对采集信息进行整理,通过同一请求最晚离开微服务应用的时间减去最早进入微服务应用的时间得到微服务应用的端到端延迟Latency;
定义γ为SLO缓冲系数,
Figure FDA0004237296210000011
其中,Nviolation表示固定时隙t内响应时间超过SLO的请求数量,Nreceive表示固定时隙t内收到的请求总数;
如果Latency≥SLO×γ,则认为微服务应用发生性能异常,即尾延迟违反SLO或即将违反SLO;否则,认为微服务应用性能正常,结束;
基于部分SLO对关键微服务进行定位,关键微服务是指微服务关键路径上尾延迟异常的微服务,包括:
基于微服务应用的尾延迟SLO,为每个微服务w都制定一个尾延迟限制,记作SLOw
SLOw的计算公式如式(I)所示:
Figure FDA0004237296210000012
式(I)中,Latencya,Latencyb,Latencyw表示请求经过微服务a,b,w的响应时间;
对造成微服务性能异常的关键路径上的所有微服务进行遍历,将请求经过微服务w的时间Latencyw同制定的微服务w的SLOW进行比较,若Latencyw>SLOW×(1-slackw),则认为微服务w是造成微服务应用性能异常的原因之一,是关键微服务;其中,微服务w的延迟松弛
Figure FDA0004237296210000013
TLaw是指请求经过微服务w的尾延迟;将关键微服务进行聚合,得到集合CW。
2.根据权利要求1所述的一种面向大规模微服务的性能异常主动检测和处理方法,其特征在于,对微服务的资源使用情况以及运行时信息进行采集,是指:以时隙t为间隔,信息采集组件对任意微服务w的资源使用情况Rw以及微服务运行时信息Runtimew进行采集,信息采集组件持续监控并记录每个微服务的资源使用情况以及每个请求所经历的延迟。
3.根据权利要求2所述的一种面向大规模微服务的性能异常主动检测和处理方法,其特征在于,通过容器技术对微服务w的资源使用情况进行采集,微服务w的资源使用情况包括CPU使用率、内存使用率、缓存使用、IO速率、网络带宽;通过读取容器每种资源使用的相关文件并进行聚合即获得微服务的多维度资源使用信息。
4.根据权利要求2所述的一种面向大规模微服务的性能异常主动检测和处理方法,其特征在于,通过基于全链路追踪技术的Jaeger获取每个微服务在时隙t内的运行时信息,包括微服务的延迟、名称以及操作。
5.根据权利要求1所述的一种面向大规模微服务的性能异常主动检测和处理方法,其特征在于,通过采集信息生成微服务历史执行图,是指:
将微服务的运行时信息按照相同请求进行划分,同一请求经过的所有微服务被划分为一个集合T内;遍历T内所有微服务的运行时信息,若微服务wi与微服务wj的操作Opi与Opj相对应,则认为两微服务之间有依赖关系,将代表两个微服务的点相连,并将子微服务的运行时间作为两者之间的路径权重;将集合T内所有微服务遍历后,计算微服务历史执行图中每个点的入度,入度是指微服务历史执行图中某点作为微服务历史执行图中边的终点的次数之和,将入度为0的点与设计的起点相连接,权重为对应微服务的运行时间,由此,得到在时隙t内出现的所有请求所经过的微服务历史执行图,记作Graph。
6.根据权利要求5所述的一种面向大规模微服务的性能异常主动检测和处理方法,其特征在于,入度的计算方法为:在微服务历史执行图中,如果微服务i与微服务j之间存在依赖关系,即代表两个微服务的点相连,且微服务j为子微服务,则微服务j的入度加1,遍历微服务历史执行图中所有的边,将子微服务对应点的入度分别加1,得到微服务历史执行图中每个点的入度。
7.根据权利要求6所述的一种面向大规模微服务的性能异常主动检测和处理方法,其特征在于,起点的设计方法为:假设微服务应用由n个微服务构成,由于微服务应用中的每个微服务都有一个唯一的数字对应,范围是[1,n],为了使起点不对微服务应用造成影响,设置起点对应的数字为n+1。
8.根据权利要求5所述的一种面向大规模微服务的性能异常主动检测和处理方法,其特征在于,基于记忆化搜索对微服务关键路径进行提取,其中,微服务关键路径是指在微服务历史执行图中持续时间最长的路径,微服务关键路径的长度即为微服务应用的端到端延迟,包括:
通过微服务历史执行图Graph,基于记忆化搜索算法,对造成性能异常的微服务关键路径进行提取:
以起点作为根节点进行深度优先遍历,使用数组dpi表示以i为起点所能得到的最长路径的长度,遍历根节点的所有子节点,维护dp数组
Figure FDA0004237296210000033
Figure FDA0004237296210000034
表示以i的子节点child为起点所能得到的最长路径的长度,Graphi,chila表示在微服务历史执行图中节点i到子节点child的距离,dpi表示以节点i为起点所能走过的最长路径;如果i没有子节点,则dpi=0;在获取微服务关键路径的同时,对关键路径使用Path数组进行记录;
通过记忆化搜索算法对微服务历史执行图进行遍历后,遍历dp数组,得到最长路径所对应的起点,通过Path数组,得到关键路径上的每一个微服务;最后返回微服务关键路径的集合CP。
9.根据权利要求1所述的一种面向大规模微服务的性能异常主动检测和处理方法,其特征在于,对时隙Tpoll内所有经过微服务w的请求所经历的时间进行排序,得到请求经过微服务w的尾延迟TLaw;时隙Tpoll的计算公式如式(II)所示:
Figure FDA0004237296210000031
式(II)中,RPS是指服务的最低每秒请求数,percentile是指要测量的百分位尾部延迟。
10.根据权利要求1所述的一种面向大规模微服务的性能异常主动检测和处理方法,其特征在于,基于离散系数确定关键微服务的关键资源,并增加关键资源的配额,关键资源是指微服务中资源利用率变化大的资源;包括:
将资源分配决策用元组<action,resource,time>表示,其中,action表示需要执行资源分配的动作,有up,down两种动作,分别表示增加资源使用配额与减少资源使用配额;resource表示需要执行动作的资源种类,基于离散系数,对关键微服务使用的每种资源进行递减排序,优先处理离散系数大的关键资源;time表示执行动作的持续时间,根据经验以及工作负载的特点进行设置;对于元组<action,resource,time>总共有2×m种操作,其中,m表示微服务使用资源的数量,对基于离散系数排序后的每种资源轮询进行up操作,直到关键微服务的性能异常得到解决;性能异常解决后,再对每种资源进行down操作,使其资源使用配额恢复到异常处理之前的状态;
基于离散系数,确定关键微服务CW的关键资源CRw,轮询增加关键资源CRw的资源配额,离散系数cv定义为数据的标准差σ与平均数μ之比:
Figure FDA0004237296210000032
将关键微服务所有资源对应的离散系数聚合后进行递减排序,轮询对每种资源执行资源分配决策,在第i轮操作时执行决策<up,resourcei,t>,即增加资源i的分配份额持续时间为t;增加资源i配额之后对关键微服务CW运行时信息进行采集,若关键微服务CW的延迟仍然大于SLOw×(1-slackw),则继续执行第i+1轮询操作,以此类推,直到关键微服务的延迟小于SLOw×(1-slackw),当性能异常解除后,对所有变化的资源进行down操作,把所有增加的资源恢复到调整之前的配额。
11.根据权利要求10所述的一种面向大规模微服务的性能异常主动检测和处理方法,其特征在于,定义第n个时间间隔的平均值为En,方差为Fn,均值的递推公式为
Figure FDA0004237296210000041
其中,E0=x0,标准差由方差开平方获得,方差的递推公式为Fn=Fn-1+(xn-En-1)*(xn-En),其中,F0=0。
12.一种面向大规模微服务的性能异常主动检测和处理系统,其特征在于,包括:
异常检测模块,被配置为:对微服务的资源使用情况以及运行时信息进行采集,通过采集信息判断微服务应用是否存在性能异常;
异常处理模块,被配置为:如果微服务应用存在性能异常,首先,通过采集信息生成微服务历史执行图,然后,基于记忆化搜索对微服务关键路径进行提取,随后,基于部分SLO对关键微服务进行定位,SLO是指服务等级目标;最后,基于离散系数确定关键微服务的关键资源,并增加关键资源的配额,以避免或缓解尾延迟SLO违规;
通过采集信息判断微服务应用是否存在性能异常,是指:
对采集信息进行整理,通过同一请求最晚离开微服务应用的时间减去最早进入微服务应用的时间得到微服务应用的端到端延迟Latency;
定义γ为SLO缓冲系数,
Figure FDA0004237296210000042
其中,Nviolation表示固定时隙t内响应时间超过SLO的请求数量,Nreceive表示固定时隙t内收到的请求总数;
如果Latency≥SLO×γ,则认为微服务应用发生性能异常,即尾延迟违反SLO或即将违反SLO;否则,认为微服务应用性能正常,结束;
基于部分SLO对关键微服务进行定位,关键微服务是指微服务关键路径上尾延迟异常的微服务,包括:
基于微服务应用的尾延迟SLO,为每个微服务w都制定一个尾延迟限制,记作SLOw
SLOw的计算公式如式(I)所示:
Figure FDA0004237296210000043
式(I)中,Latencya,Latencyb,Latencyw表示请求经过微服务a,b,w的响应时间;
对造成微服务性能异常的关键路径上的所有微服务进行遍历,将请求经过微服务w的时间Latencyw同制定的微服务w的SLOw进行比较,若Latencyw>SLOW×(1-slackw),则认为微服务w是造成微服务应用性能异常的原因之一,是关键微服务;其中,微服务w的延迟松弛
Figure FDA0004237296210000051
TLaw是指请求经过微服务w的尾延迟;将关键微服务进行聚合,得到集合CW。
CN202210644574.7A 2022-06-08 2022-06-08 一种面向大规模微服务的性能异常主动检测和处理方法及系统 Active CN115033477B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210644574.7A CN115033477B (zh) 2022-06-08 2022-06-08 一种面向大规模微服务的性能异常主动检测和处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210644574.7A CN115033477B (zh) 2022-06-08 2022-06-08 一种面向大规模微服务的性能异常主动检测和处理方法及系统

Publications (2)

Publication Number Publication Date
CN115033477A CN115033477A (zh) 2022-09-09
CN115033477B true CN115033477B (zh) 2023-06-27

Family

ID=83123701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210644574.7A Active CN115033477B (zh) 2022-06-08 2022-06-08 一种面向大规模微服务的性能异常主动检测和处理方法及系统

Country Status (1)

Country Link
CN (1) CN115033477B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115358647A (zh) * 2022-10-24 2022-11-18 齐鲁云商数字科技股份有限公司 基于大数据的氢能产业链风险监测系统及监测方法
CN117575874B (zh) * 2024-01-16 2024-04-16 中国标准化研究院 一种基于多源数据的电子政务平台安全管理系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444012A (zh) * 2020-03-03 2020-07-24 中国科学院计算技术研究所 一种保证延迟敏感应用延迟slo的动态调控资源方法及系统
CN111611097A (zh) * 2020-05-13 2020-09-01 中国移动通信集团江苏有限公司 故障检测方法、装置、设备及存储介质
WO2020226979A2 (en) * 2019-04-30 2020-11-12 Intel Corporation Multi-entity resource, security, and service management in edge computing deployments
CN112000469A (zh) * 2020-08-06 2020-11-27 山东师范大学 保证关键微服务性能质量和降低机器功耗的方法及系统
CN113014421A (zh) * 2021-02-08 2021-06-22 武汉大学 一种面向云原生系统的微服务根因定位方法
CN113094235A (zh) * 2021-04-14 2021-07-09 天津大学 一种尾延迟异常云审计系统及方法
CN113127230A (zh) * 2021-04-14 2021-07-16 中国科学院计算技术研究所 一种感知存储后端尾延迟slo的动态调控资源方法及系统
CN113516174A (zh) * 2021-06-03 2021-10-19 清华大学 调用链异常检测方法、计算机设备以及可读存储介质
CN113946491A (zh) * 2021-10-19 2022-01-18 深圳壹账通智能科技有限公司 微服务数据处理方法、装置、计算机设备及存储介质
CN114201326A (zh) * 2021-12-02 2022-03-18 中国神华国际工程有限公司 一种基于属性关系图的微服务异常诊断方法
CN114371954A (zh) * 2021-12-27 2022-04-19 中国电信股份有限公司 一种微服务系统的自动恢复方法
CN114462644A (zh) * 2022-02-11 2022-05-10 阿里巴巴(中国)有限公司 用于微服务运维的方法及系统
CN114518948A (zh) * 2022-02-21 2022-05-20 南京航空航天大学 面向大规模微服务应用的动态感知重调度的方法及应用

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210117242A1 (en) * 2020-10-03 2021-04-22 Intel Corporation Infrastructure processing unit

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020226979A2 (en) * 2019-04-30 2020-11-12 Intel Corporation Multi-entity resource, security, and service management in edge computing deployments
CN111444012A (zh) * 2020-03-03 2020-07-24 中国科学院计算技术研究所 一种保证延迟敏感应用延迟slo的动态调控资源方法及系统
CN111611097A (zh) * 2020-05-13 2020-09-01 中国移动通信集团江苏有限公司 故障检测方法、装置、设备及存储介质
CN112000469A (zh) * 2020-08-06 2020-11-27 山东师范大学 保证关键微服务性能质量和降低机器功耗的方法及系统
CN113014421A (zh) * 2021-02-08 2021-06-22 武汉大学 一种面向云原生系统的微服务根因定位方法
CN113127230A (zh) * 2021-04-14 2021-07-16 中国科学院计算技术研究所 一种感知存储后端尾延迟slo的动态调控资源方法及系统
CN113094235A (zh) * 2021-04-14 2021-07-09 天津大学 一种尾延迟异常云审计系统及方法
CN113516174A (zh) * 2021-06-03 2021-10-19 清华大学 调用链异常检测方法、计算机设备以及可读存储介质
CN113946491A (zh) * 2021-10-19 2022-01-18 深圳壹账通智能科技有限公司 微服务数据处理方法、装置、计算机设备及存储介质
CN114201326A (zh) * 2021-12-02 2022-03-18 中国神华国际工程有限公司 一种基于属性关系图的微服务异常诊断方法
CN114371954A (zh) * 2021-12-27 2022-04-19 中国电信股份有限公司 一种微服务系统的自动恢复方法
CN114462644A (zh) * 2022-02-11 2022-05-10 阿里巴巴(中国)有限公司 用于微服务运维的方法及系统
CN114518948A (zh) * 2022-02-21 2022-05-20 南京航空航天大学 面向大规模微服务应用的动态感知重调度的方法及应用

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
?-Diagnosis:Unsupervised and Real-time Diagnosis of small-window long-tail latency in large-scale Microservice platforms;Huasong Shan,Yuan Chen,Haifeng Liu,Yunpeng Liu,Yunpeng Zhang ,Xiao Xiao,Xiangfeng He,Min Li,Wei Ding;ACM;全文 *
一种面向异常传播的微服务故障诊断方法;王焘,张树东,李安,邵亚茹,张文博;《计算机科学》;全文 *
企业微服务分布式体系构建及高可用性探索;张蕾;;电子元器件与信息技术(04);全文 *

Also Published As

Publication number Publication date
CN115033477A (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
CN115033477B (zh) 一种面向大规模微服务的性能异常主动检测和处理方法及系统
CN110502494B (zh) 日志处理方法、装置、计算机设备及存储介质
US10318366B2 (en) System and method for relationship based root cause recommendation
US10909018B2 (en) System and method for end-to-end application root cause recommendation
CN109039833B (zh) 一种监控带宽状态的方法和装置
US9141914B2 (en) System and method for ranking anomalies
US7509343B1 (en) System and method of collecting and reporting system performance metrics
US7184935B1 (en) Determining and annotating a signature of a computer resource
CN101505243B (zh) 一种Web应用性能异常侦测方法
US20060074621A1 (en) Apparatus and method for prioritized grouping of data representing events
US8270410B2 (en) Sampling techniques
US8627147B2 (en) Method and computer program product for system tuning based on performance measurements and historical problem data and system thereof
US8918345B2 (en) Network analysis system
US8505023B2 (en) Method and system for analyzing a sequence relation between a plurality of jobs across a plurality of time segments
Canali et al. Improving scalability of cloud monitoring through PCA-based clustering of virtual machines
Pellegrini et al. A machine learning-based framework for building application failure prediction models
US9600523B2 (en) Efficient data collection mechanism in middleware runtime environment
US7716431B2 (en) Analysis technique of execution states in computer system
CN112527448A (zh) 基于openstack的动态负载调整方法及其系统
US10574552B2 (en) Operation of data network
CN115442242A (zh) 一种基于重要性排序的工作流编排系统及其方法
US20140280860A1 (en) Method and system for signal categorization for monitoring and detecting health changes in a database system
Dogani et al. K-agrued: a container autoscaling technique for cloud-based web applications in kubernetes using attention-based gru encoder-decoder
US9225608B1 (en) Evaluating configuration changes based on aggregate activity level
US11722558B2 (en) Server-side resource monitoring in a distributed data storage environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20221208

Address after: 250014 No. 19, ASTRI Road, Lixia District, Shandong, Ji'nan

Applicant after: SHANDONG COMPUTER SCIENCE CENTER(NATIONAL SUPERCOMPUTER CENTER IN JINAN)

Applicant after: Qilu University of Technology

Address before: 250014 No. 19, ASTRI Road, Ji'nan, Shandong

Applicant before: SHANDONG COMPUTER SCIENCE CENTER(NATIONAL SUPERCOMPUTER CENTER IN JINAN)

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant