CN109144813B - 一种云计算系统服务器节点故障监控系统及方法 - Google Patents
一种云计算系统服务器节点故障监控系统及方法 Download PDFInfo
- Publication number
- CN109144813B CN109144813B CN201810833843.8A CN201810833843A CN109144813B CN 109144813 B CN109144813 B CN 109144813B CN 201810833843 A CN201810833843 A CN 201810833843A CN 109144813 B CN109144813 B CN 109144813B
- Authority
- CN
- China
- Prior art keywords
- fault
- cloud computing
- server
- server node
- cloud
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012544 monitoring process Methods 0.000 title claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000001514 detection method Methods 0.000 claims description 23
- 230000006854 communication Effects 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 230000006399 behavior Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 2
- 230000008713 feedback mechanism Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45591—Monitoring or debugging support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/805—Real-time
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/815—Virtual
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/875—Monitoring of systems including the internet
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明提供一种云计算系统服务器节点故障监控系统及方法,首先针对云计算系统的性能数据进行采集,利用故障检测器,对云计算的系统服务器节点故障进行检测,并分析服务器节点故障检测信息在服务器节点间的通信过程,最后通过服务器节点之间原有的信息交换,按照节点间的处理时间对故障检测阈值进行动态调整,应对服务器的动态性和随机性。在节点检测为故障之后进行故障处理。云计算系统由服务器节点、云控制节点、Web管理端等组成,在服务器节点上,部署了虚拟机管理软件,同时运行守护进程,虚拟机管理软件对硬件层进行管理。
Description
技术领域
本发明涉及服务器故障检测技术领域,具体涉及一种云计算系统服务器节点故障监控系统及方法。
背景技术
云计算是一种融合了多项计算机技术的以数据和处理能力为中心的密集型计算模式。它的发展是虚拟化、分布式系统、分布式并发编程模式、面向对象的体系结构、软件即服务和信息安全等各项技术共同发展的结果。
虚拟化技术是指计算元件在虚拟的基础上而不是真实的计算元件上运行,通过软件定义的方法重新划分信息技术(IT)资源,实现IT资源的动态分配、灵活调度和跨域共享,提供IT资源的利用率,使IT资源真正成为计算基础设施,以满足各种应用的灵活多变。
服务器虚拟化是指通过虚拟化技术将一台计算机虚拟为多台逻辑计算机。服务器的虚拟化是通过硬件和操作系统之间引入虚拟化层实现硬件与操作系统的解耦实现的。
现有的服务器节点故障检测方法包括:
t-故障一步检测算法,该算法首先对无故障服务器节点进行分析,同时要求节点故障数量不可高于t,通过分步实现检测;
心跳检测算法,需要对所有的服务器节点均每隔一段时间向其他节点传输一次信息,每次信息传输均利用不断增加计数器实现标记,若某段时间内未接收到传输信息,则认为出现故障;
成员关系检测算法,依据某种关系对系统中全部服务器节点建立组成员关系,同时按照成员关系实现故障检测;
利用特定故障检测消息对服务器节点是否出现故障进行判断,无法适应云计算系统服务器的动态性和随机性,检测结果无法做到完全可靠。
发明内容
为了克服上述现有技术中的不足,本发明提供一种云计算系统服务器节点故障监控系统级方法,以解决上述技术问题。
本发明的技术方案是:
一种云计算系统服务器节点故障监控系统,包括云计算系统和故障检测器,所述的云计算系统包括服务器节点、云控制节点和web管理端;
服务器节点部署虚拟机管理软件,同时在服务器节点运行守护进程;
web管理端运行客户端程序,客户端程序将请求传输到云控制节点,云控制节点进行资源的协调;
守护进程,用于控制在服务器节点运行的虚拟机,并对服务器节点的运行状态进行监控;
故障检测器安装于云控制节点的通信系统中,通过节点间的通信,接收守护进程对服务器节点的运行状态的监控数据,进行服务器节点故障的发现。
进一步的,守护进程,还用于实现故障检测器和云计算系统之间的信息交换;
云控制节点,还用于把故障检测器发现的故障信息发送到云运营商进行校验;
故障检测器,还用于接收被校验后的故障信息,完成自主校正。
进一步的,该系统还包括性能采集模块,所述性能采集模块,用于采集服务器节点运行的性能数据;
云控制节点,还用于依据服务器节点的性能数据和故障信息对云计算系统的运行状态进行分析。
进一步的,该系统还包括故障处理器,
故障处理器,用于接收云控制节点的分析数据进行重新配置。
本发明技术方案还提供一种云计算系统服务器节点故障监控方法,包括如下步骤:
采集云计算系统服务器节点的性能数据;
利用故障检测器对云计算的系统服务器节点故障进行检测;
分析服务器节点故障检测信息在服务器节点间的通信过程,通过节点间的通信,接收守护进程对服务器节点的运行状态的监控数据,进行服务器节点故障的发现。
进一步的,该方法还包括:
利用故障检测器对云计算的系统服务器节点故障进行检测,若云计算的系统服务器节点检测为故障,故障处理器对故障进行处理。
进一步的,步骤采集云计算系统服务器节点的性能数据,包括:
对运行性能数据进行采集,采集数据运用相同格式进行处理;
将描述云计算系统行为与状况的最关联性能指标进行提取;
其中,
设云计算性能输入数据集S中含有M条记录,各条记录均存在K个指标,N={ni,i=1,2,…,M}以及分类变量b,提取指标的目的在于从m个指标的M维检测空间Zn内找出最能描述b的度量子空间,即子集U。
进一步的,步骤利用故障检测器对云计算的系统服务器节点故障进行检测,包括:在故障检测中,变量b不是等于0就是等于1,当b=0的时表示处于正常工作状态,当b=1时表示处于故障状态。
从以上技术方案可以看出,本发明具有以下优点:针对云计算系统的性能数据进行采集,利用故障检测器,对云计算的系统服务器节点故障进行检测,并分析服务器节点故障检测信息在服务器节点间的通信过程,最后通过服务器节点之间原有的信息交换,接收守护进程对服务器节点的运行状态的监控数据,进行服务器节点故障的发现。云计算系统的云控制节点依据性能数据和故障信息对云计算系统的运行状态进行分析,故障处理器进行重新配置。故障检测器和云控制节点构成闭合反馈机制,从而适应云计算系统的动态性和随机性。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。
附图说明
图1为一种云计算系统服务器节点故障监控系统框架图。
具体实施方式
下面结合附图并通过具体实施例对本发明进行详细阐述,以下实施例是对本发明的解释,而本发明并不局限于以下实施方式。
实施例一
如图1所示,一种云计算系统服务器节点故障监控系统,包括云计算系统和故障检测器,所述的云计算系统包括服务器节点、云控制节点和web管理端;
服务器节点部署虚拟机管理软件,同时在服务器节点运行守护进程;
web管理端运行客户端程序,客户端程序将请求传输到云控制节点,云控制节点进行资源的协调;
守护进程,用于控制在服务器节点运行的虚拟机,并对服务器节点的运行状态进行监控;
故障检测器安装于云控制节点的通信系统中,通过节点间的通信,接收守护进程对服务器节点的运行状态的监控数据,进行服务器节点故障的发现。
守护进程,还用于实现故障检测器和云计算系统之间的信息交换;
云控制节点,还用于把故障检测器发现的故障信息发送到云运营商进行校验;
故障检测器,还用于接收被校验后的故障信息,完成自主校正。
该系统还包括性能采集模块,所述性能采集模块,用于采集服务器节点运行的性能数据;
云控制节点,还用于依据服务器节点的性能数据和故障信息对云计算系统的运行状态进行分析。
该系统还包括故障处理器,
故障处理器,用于接收云控制节点的分析数据进行重新配置。
云计算系统的云控制节点依据性能数据和故障信息对云计算系统的运行状态进行分析,故障处理器进行重新配置。故障检测器和云控制节点构成闭合反馈机制,从而适应云计算系统的动态性和随机性。
实施例二
一种云计算系统服务器节点故障监控方法,包括如下:
首先针对云计算系统的性能数据进行采集,利用故障检测器,对云计算的系统服务器节点故障进行检测,并分析服务器节点故障检测信息在服务器节点间的通信过程,最后通过服务器节点之间原有的信息交换,按照节点间的处理时间对故障检测阈值进行动态调整,应对服务器的动态性和随机性。在节点检测为故障之后进行故障处理。
云计算系统由服务器节点、云控制节点、Web管理端等组成,在服务器节点上,部署了虚拟机管理软件,同时运行守护进程,虚拟机管理软件对硬件层进行管理,在客户端程序将请求传输到云控制节点,云控制节点进行资源的协调,对可用云服务器状态进行评估为客户端提供一组服务器,选定服务器之后创建虚拟机等资源,通过相应的程序实现运行。云服务器运行的虚拟机通过服务器的守护进程控制,守护进程同时实现故障检测测和云计算系统间的信息交换,利用服务器守护进程对云服务器的运行状态进行监控,将相关数据传输至故障检测器,以便于故障检测器发现服务器节点故障,在发现故障之后,云控制节点把信息发送到云运营商进行校验。被校验后的故障传输到故障检测器,完成自主校正。
云计算系统中对运行性能数据进行采集,采集数据运用相同格式进行处理。云计算系统服务器或网络中的任意变量均可被看做运行性能数据集的一个指标,由于指标规模庞大,数据模型非常复杂,不仅如此,有些指标之间的关联性或外部因素会使采集的数据存在干扰。为了确保故障精确度,先将可以描述云计算系统行为与状况的最关联性能指标进行提取。该过程将云计算系统性能数据转变成仅留有最关键属性的度量空间。设云计算性能输入数据集S中含有M条记录,各条记录均存在K个指标,N={ni,i=1,2,…,M}以及分类变量b,提取指标的目的在于从m个指标的M维检测空间Zn内找出最能描述b的度量子空间,即子集U,在二阶故障检测中,变量b不是等于0就是等于1,当b=0的时表示处于正常工作状态,当b=1时表示处于故障状态。
通过服务器节点之间原有的信息交换,按照节点间的消息处理时间对故障检测阈值进行动态调整,从而应对服务器的动态性和随机性。
根据监控系统得出节点故障之后,故障恢复器对故障节点进行相关处理操作。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (2)
1.一种云计算系统服务器节点故障监控系统,其特征在于,包括云计算系统和故障检测器,所述的云计算系统包括服务器节点、云控制节点和web管理端;
服务器节点部署虚拟机管理软件,同时在服务器节点运行守护进程;
web管理端运行客户端程序,客户端程序将请求传输到云控制节点,云控制节点进行资源的协调;
守护进程,用于控制在服务器节点运行的虚拟机,并对服务器节点的运行状态进行监控;
故障检测器安装于云控制节点的通信系统中,通过节点间的通信,接收守护进程对服务器节点的运行状态的监控数据,进行服务器节点故障的发现;
守护进程,还用于实现故障检测器和云计算系统之间的信息交换;
云控制节点,还用于把故障检测器发现的故障信息发送到云运营商进行校验;
故障检测器,还用于接收被校验后的故障信息,完成自主校正;
该系统还包括性能采集模块,所述性能采集模块,用于采集服务器节点运行的性能数据;
云控制节点,还用于依据服务器节点的性能数据和故障信息对云计算系统的运行状态进行分析;
该系统还包括故障处理器,
故障处理器,用于接收云控制节点的分析数据进行重新配置;
工作过程如下:
采集云计算系统服务器节点的性能数据;
利用故障检测器对云计算的系统服务器节点故障进行检测;
分析服务器节点故障检测信息在服务器节点间的通信过程,通过节点间的通信,接收守护进程对服务器节点的运行状态的监控数据,进行服务器节点故障的发现;
利用故障检测器对云计算的系统服务器节点故障进行检测,若云计算的系统服务器节点检测为故障,故障处理器对故障进行处理;
采集云计算系统服务器节点的性能数据的步骤包括:
对运行性能数据进行采集,采集数据运用相同格式进行处理;
将描述云计算系统行为与状况的最关联性能指标进行提取;
云计算性能输入数据集S中含有M条记录,N={n i ,i=1,2,…,M}以及分类变量b,各条记录均存在K个指标,提取指标的目的在于从K个指标的M维检测空间Zn内找出最能描述b的度量子空间,即子集U;
利用故障检测器对云计算的系统服务器节点故障进行检测的步骤包括:
在故障检测中,变量b不是等于0就是等于1,当b=0的时表示处于正常工作状态,当b=1时表示处于故障状态。
2.一种云计算系统服务器节点故障监控方法,其特征在于,包括如下步骤:
采集云计算系统服务器节点的性能数据;
利用故障检测器对云计算的系统服务器节点故障进行检测;
分析服务器节点故障检测信息在服务器节点间的通信过程,通过节点间的通信,接收守护进程对服务器节点的运行状态的监控数据,进行服务器节点故障的发现;
利用故障检测器对云计算的系统服务器节点故障进行检测,若云计算的系统服务器节点检测为故障,故障处理器对故障进行处理;
采集云计算系统服务器节点的性能数据的步骤包括:
对运行性能数据进行采集,采集数据运用相同格式进行处理;
将描述云计算系统行为与状况的最关联性能指标进行提取;
其中,
云计算性能输入数据集S中含有M条记录,N={n i ,i=1,2,…,M}以及分类变量b,各条记录均存在K个指标,提取指标的目的在于从K个指标的M维检测空间Zn内找出最能描述b的度量子空间,即子集U;
利用故障检测器对云计算的系统服务器节点故障进行检测的步骤包括:
在故障检测中,变量b不是等于0就是等于1,当b=0的时表示处于正常工作状态,当b=1时表示处于故障状态;
其中,云计算系统由服务器节点、云控制节点、Web管理端组成,在服务器节点上,部署了虚拟机管理软件,同时运行守护进程,虚拟机管理软件对硬件层进行管理,在客户端程序将请求传输到云控制节点,云控制节点进行资源的协调,对可用云服务器状态进行评估为客户端提供一组服务器,选定服务器之后创建虚拟机,通过相应的程序实现运行;云服务器运行的虚拟机通过服务器的守护进程控制,守护进程同时实现故障检测和云计算系统间的信息交换,利用服务器守护进程对云服务器的运行状态进行监控,将相关数据传输至故障检测器,以便于故障检测器发现服务器节点故障,在发现故障之后,云控制节点把信息发送到云运营商进行校验;被校验后的故障传输到故障检测器,完成自主校正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810833843.8A CN109144813B (zh) | 2018-07-26 | 2018-07-26 | 一种云计算系统服务器节点故障监控系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810833843.8A CN109144813B (zh) | 2018-07-26 | 2018-07-26 | 一种云计算系统服务器节点故障监控系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109144813A CN109144813A (zh) | 2019-01-04 |
CN109144813B true CN109144813B (zh) | 2022-08-05 |
Family
ID=64797837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810833843.8A Active CN109144813B (zh) | 2018-07-26 | 2018-07-26 | 一种云计算系统服务器节点故障监控系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109144813B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110716818B (zh) * | 2019-09-30 | 2022-02-11 | 腾讯科技(深圳)有限公司 | 一种异常处理方法、装置、硬件保护设备及存储介质 |
CN111130934B (zh) * | 2019-12-20 | 2024-09-13 | 国铁吉讯科技有限公司 | 通信系统的监测方法、装置及系统 |
CN111211924A (zh) * | 2019-12-29 | 2020-05-29 | 苏州浪潮智能科技有限公司 | 一种计算节点单点高可用控制方法及装置 |
CN111143134B (zh) * | 2019-12-30 | 2024-06-04 | 深圳Tcl新技术有限公司 | 故障处理方法、设备及计算机存储介质 |
CN111552010A (zh) * | 2020-04-28 | 2020-08-18 | 杨军 | 一种全球气象灾害卫星遥感快速响应与可视化服务平台 |
CN111563018B (zh) * | 2020-04-28 | 2021-11-12 | 北京航空航天大学 | 一种人机物融合云计算平台的资源管理和监控方法 |
CN111737081B (zh) * | 2020-06-16 | 2022-05-17 | 平安科技(深圳)有限公司 | 云服务器监控方法、装置、设备及存储介质 |
CN112202640B (zh) * | 2020-09-30 | 2022-02-22 | 中国工商银行股份有限公司 | 应用于容器云平台的监控方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778031A (zh) * | 2014-01-15 | 2014-05-07 | 华中科技大学 | 一种云环境下的分布式系统多级故障容错方法 |
CN103812699A (zh) * | 2014-02-17 | 2014-05-21 | 无锡华云数据技术服务有限公司 | 基于云计算的监控管理系统 |
CN107491375A (zh) * | 2017-08-18 | 2017-12-19 | 国网山东省电力公司信息通信公司 | 一种云计算环境下的设备检测及故障预警系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8887006B2 (en) * | 2011-04-04 | 2014-11-11 | Microsoft Corporation | Proactive failure handling in database services |
-
2018
- 2018-07-26 CN CN201810833843.8A patent/CN109144813B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778031A (zh) * | 2014-01-15 | 2014-05-07 | 华中科技大学 | 一种云环境下的分布式系统多级故障容错方法 |
CN103812699A (zh) * | 2014-02-17 | 2014-05-21 | 无锡华云数据技术服务有限公司 | 基于云计算的监控管理系统 |
CN107491375A (zh) * | 2017-08-18 | 2017-12-19 | 国网山东省电力公司信息通信公司 | 一种云计算环境下的设备检测及故障预警系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109144813A (zh) | 2019-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109144813B (zh) | 一种云计算系统服务器节点故障监控系统及方法 | |
Wang et al. | Self-adaptive cloud monitoring with online anomaly detection | |
Lou et al. | Mining dependency in distributed systems through unstructured logs analysis | |
Nguyen et al. | Pal: P ropagation-aware a nomaly l ocalization for cloud hosted distributed applications | |
US11189382B2 (en) | Internet of things (IoT) hybrid alert and action evaluation | |
CN107544832B (zh) | 一种虚拟机进程的监控方法、装置和系统 | |
Gupta et al. | Context-aware time series anomaly detection for complex systems | |
TW201423398A (zh) | 虛擬機至實體機之間相關性能問題的根源分析的方法與系統 | |
Yu et al. | A scalable, non-parametric method for detecting performance anomaly in large scale computing | |
US11438245B2 (en) | System monitoring with metrics correlation for data center | |
EP2609714A1 (en) | Isolation of problems in a virtual environment | |
CN118119926A (zh) | 基于候选运行手册的结果与事件的补救的相关性推荐候选运行手册 | |
CN111769974B (zh) | 一种云系统故障诊断方法 | |
CN114116172A (zh) | 一种流量数据采集方法、装置、设备及存储介质 | |
Guan et al. | Efficient and accurate anomaly identification using reduced metric space in utility clouds | |
Gan et al. | Sage: Using unsupervised learning for scalable performance debugging in microservices | |
Lin | Monarch: Scalable monitoring and analytics for visibility and insights in virtualized heterogeneous cloud infrastructure | |
Jha et al. | Holistic measurement-driven system assessment | |
JP6775452B2 (ja) | 監視システム、プログラムおよび監視方法 | |
CN112685252A (zh) | 微服务监控方法、装置、设备和存储介质 | |
Perez-Espinoza et al. | A distributed architecture for monitoring private clouds | |
Zasadziński et al. | Fast root cause analysis on distributed systems by composing precompiled bayesian networks | |
Wang et al. | SaaS software performance issue identification using HMRF‐MAP framework | |
Zheng et al. | An optimization model of Hadoop cluster performance prediction based on Markov process. | |
CN109240890A (zh) | 一种基于统计分析的Spark拖延任务诊断方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |