CN109144813B

CN109144813B - 一种云计算系统服务器节点故障监控系统及方法

Info

Publication number: CN109144813B
Application number: CN201810833843.8A
Authority: CN
Inventors: 左强
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2018-07-26
Filing date: 2018-07-26
Publication date: 2022-08-05
Anticipated expiration: 2038-07-26
Also published as: CN109144813A

Abstract

本发明提供一种云计算系统服务器节点故障监控系统及方法，首先针对云计算系统的性能数据进行采集，利用故障检测器，对云计算的系统服务器节点故障进行检测，并分析服务器节点故障检测信息在服务器节点间的通信过程，最后通过服务器节点之间原有的信息交换，按照节点间的处理时间对故障检测阈值进行动态调整，应对服务器的动态性和随机性。在节点检测为故障之后进行故障处理。云计算系统由服务器节点、云控制节点、Web管理端等组成，在服务器节点上，部署了虚拟机管理软件，同时运行守护进程，虚拟机管理软件对硬件层进行管理。

Description

一种云计算系统服务器节点故障监控系统及方法

技术领域

本发明涉及服务器故障检测技术领域，具体涉及一种云计算系统服务器节点故障监控系统及方法。

背景技术

云计算是一种融合了多项计算机技术的以数据和处理能力为中心的密集型计算模式。它的发展是虚拟化、分布式系统、分布式并发编程模式、面向对象的体系结构、软件即服务和信息安全等各项技术共同发展的结果。

虚拟化技术是指计算元件在虚拟的基础上而不是真实的计算元件上运行，通过软件定义的方法重新划分信息技术(IT)资源，实现IT资源的动态分配、灵活调度和跨域共享，提供IT资源的利用率，使IT资源真正成为计算基础设施，以满足各种应用的灵活多变。

服务器虚拟化是指通过虚拟化技术将一台计算机虚拟为多台逻辑计算机。服务器的虚拟化是通过硬件和操作系统之间引入虚拟化层实现硬件与操作系统的解耦实现的。

现有的服务器节点故障检测方法包括：

t-故障一步检测算法，该算法首先对无故障服务器节点进行分析，同时要求节点故障数量不可高于t，通过分步实现检测；

心跳检测算法，需要对所有的服务器节点均每隔一段时间向其他节点传输一次信息，每次信息传输均利用不断增加计数器实现标记，若某段时间内未接收到传输信息，则认为出现故障；

成员关系检测算法，依据某种关系对系统中全部服务器节点建立组成员关系，同时按照成员关系实现故障检测；

利用特定故障检测消息对服务器节点是否出现故障进行判断，无法适应云计算系统服务器的动态性和随机性，检测结果无法做到完全可靠。

发明内容

为了克服上述现有技术中的不足，本发明提供一种云计算系统服务器节点故障监控系统级方法，以解决上述技术问题。

本发明的技术方案是：

一种云计算系统服务器节点故障监控系统，包括云计算系统和故障检测器，所述的云计算系统包括服务器节点、云控制节点和web管理端；

服务器节点部署虚拟机管理软件，同时在服务器节点运行守护进程；

web管理端运行客户端程序，客户端程序将请求传输到云控制节点，云控制节点进行资源的协调；

守护进程，用于控制在服务器节点运行的虚拟机，并对服务器节点的运行状态进行监控；

故障检测器安装于云控制节点的通信系统中，通过节点间的通信，接收守护进程对服务器节点的运行状态的监控数据，进行服务器节点故障的发现。

进一步的，守护进程，还用于实现故障检测器和云计算系统之间的信息交换；

云控制节点，还用于把故障检测器发现的故障信息发送到云运营商进行校验；

故障检测器，还用于接收被校验后的故障信息，完成自主校正。

进一步的，该系统还包括性能采集模块，所述性能采集模块，用于采集服务器节点运行的性能数据；

云控制节点，还用于依据服务器节点的性能数据和故障信息对云计算系统的运行状态进行分析。

进一步的，该系统还包括故障处理器，

故障处理器，用于接收云控制节点的分析数据进行重新配置。

本发明技术方案还提供一种云计算系统服务器节点故障监控方法，包括如下步骤：

采集云计算系统服务器节点的性能数据；

利用故障检测器对云计算的系统服务器节点故障进行检测；

分析服务器节点故障检测信息在服务器节点间的通信过程，通过节点间的通信，接收守护进程对服务器节点的运行状态的监控数据，进行服务器节点故障的发现。

进一步的，该方法还包括：

利用故障检测器对云计算的系统服务器节点故障进行检测，若云计算的系统服务器节点检测为故障，故障处理器对故障进行处理。

进一步的，步骤采集云计算系统服务器节点的性能数据，包括：

对运行性能数据进行采集，采集数据运用相同格式进行处理；

将描述云计算系统行为与状况的最关联性能指标进行提取；

其中，

设云计算性能输入数据集S中含有M条记录，各条记录均存在K个指标，N={ni,i=1,2,…,M}以及分类变量b，提取指标的目的在于从m个指标的M维检测空间Zⁿ内找出最能描述b的度量子空间，即子集U。

进一步的，步骤利用故障检测器对云计算的系统服务器节点故障进行检测，包括：在故障检测中，变量b不是等于0就是等于1，当b=0的时表示处于正常工作状态，当b=1时表示处于故障状态。

从以上技术方案可以看出，本发明具有以下优点：针对云计算系统的性能数据进行采集，利用故障检测器，对云计算的系统服务器节点故障进行检测，并分析服务器节点故障检测信息在服务器节点间的通信过程，最后通过服务器节点之间原有的信息交换，接收守护进程对服务器节点的运行状态的监控数据，进行服务器节点故障的发现。云计算系统的云控制节点依据性能数据和故障信息对云计算系统的运行状态进行分析，故障处理器进行重新配置。故障检测器和云控制节点构成闭合反馈机制，从而适应云计算系统的动态性和随机性。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

由此可见，本发明与现有技术相比，具有突出的实质性特点和显著地进步，其实施的有益效果也是显而易见的。

附图说明

图1为一种云计算系统服务器节点故障监控系统框架图。

具体实施方式

下面结合附图并通过具体实施例对本发明进行详细阐述，以下实施例是对本发明的解释，而本发明并不局限于以下实施方式。

实施例一

如图1所示，一种云计算系统服务器节点故障监控系统，包括云计算系统和故障检测器，所述的云计算系统包括服务器节点、云控制节点和web管理端；

守护进程，还用于实现故障检测器和云计算系统之间的信息交换；

该系统还包括性能采集模块，所述性能采集模块，用于采集服务器节点运行的性能数据；

该系统还包括故障处理器，

云计算系统的云控制节点依据性能数据和故障信息对云计算系统的运行状态进行分析，故障处理器进行重新配置。故障检测器和云控制节点构成闭合反馈机制，从而适应云计算系统的动态性和随机性。

实施例二

一种云计算系统服务器节点故障监控方法，包括如下：

首先针对云计算系统的性能数据进行采集，利用故障检测器，对云计算的系统服务器节点故障进行检测，并分析服务器节点故障检测信息在服务器节点间的通信过程，最后通过服务器节点之间原有的信息交换，按照节点间的处理时间对故障检测阈值进行动态调整，应对服务器的动态性和随机性。在节点检测为故障之后进行故障处理。

云计算系统由服务器节点、云控制节点、Web管理端等组成，在服务器节点上，部署了虚拟机管理软件，同时运行守护进程，虚拟机管理软件对硬件层进行管理，在客户端程序将请求传输到云控制节点，云控制节点进行资源的协调，对可用云服务器状态进行评估为客户端提供一组服务器，选定服务器之后创建虚拟机等资源，通过相应的程序实现运行。云服务器运行的虚拟机通过服务器的守护进程控制，守护进程同时实现故障检测测和云计算系统间的信息交换，利用服务器守护进程对云服务器的运行状态进行监控，将相关数据传输至故障检测器，以便于故障检测器发现服务器节点故障，在发现故障之后，云控制节点把信息发送到云运营商进行校验。被校验后的故障传输到故障检测器，完成自主校正。

云计算系统中对运行性能数据进行采集，采集数据运用相同格式进行处理。云计算系统服务器或网络中的任意变量均可被看做运行性能数据集的一个指标，由于指标规模庞大，数据模型非常复杂，不仅如此，有些指标之间的关联性或外部因素会使采集的数据存在干扰。为了确保故障精确度，先将可以描述云计算系统行为与状况的最关联性能指标进行提取。该过程将云计算系统性能数据转变成仅留有最关键属性的度量空间。设云计算性能输入数据集S中含有M条记录，各条记录均存在K个指标，N={ni,i=1,2,…,M}以及分类变量b，提取指标的目的在于从m个指标的M维检测空间Zn内找出最能描述b的度量子空间，即子集U，在二阶故障检测中，变量b不是等于0就是等于1，当b=0的时表示处于正常工作状态，当b=1时表示处于故障状态。

通过服务器节点之间原有的信息交换，按照节点间的消息处理时间对故障检测阈值进行动态调整，从而应对服务器的动态性和随机性。

根据监控系统得出节点故障之后，故障恢复器对故障节点进行相关处理操作。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种云计算系统服务器节点故障监控系统，其特征在于，包括云计算系统和故障检测器，所述的云计算系统包括服务器节点、云控制节点和web管理端；

故障检测器安装于云控制节点的通信系统中，通过节点间的通信，接收守护进程对服务器节点的运行状态的监控数据，进行服务器节点故障的发现;

故障检测器，还用于接收被校验后的故障信息，完成自主校正;

云控制节点，还用于依据服务器节点的性能数据和故障信息对云计算系统的运行状态进行分析;

该系统还包括故障处理器，

故障处理器，用于接收云控制节点的分析数据进行重新配置；

工作过程如下：

采集云计算系统服务器节点的性能数据；

利用故障检测器对云计算的系统服务器节点故障进行检测；

分析服务器节点故障检测信息在服务器节点间的通信过程，通过节点间的通信，接收守护进程对服务器节点的运行状态的监控数据，进行服务器节点故障的发现;

利用故障检测器对云计算的系统服务器节点故障进行检测，若云计算的系统服务器节点检测为故障，故障处理器对故障进行处理;

采集云计算系统服务器节点的性能数据的步骤包括：

将描述云计算系统行为与状况的最关联性能指标进行提取；

云计算性能输入数据集S中含有M条记录，N={n_i ，i=1,2,…,M}以及分类变量b，各条记录均存在K个指标，提取指标的目的在于从K个指标的M维检测空间Zⁿ内找出最能描述b的度量子空间，即子集U;

利用故障检测器对云计算的系统服务器节点故障进行检测的步骤包括：

在故障检测中，变量b不是等于0就是等于1，当b=0的时表示处于正常工作状态，当b=1时表示处于故障状态。

2.一种云计算系统服务器节点故障监控方法，其特征在于，包括如下步骤：

采集云计算系统服务器节点的性能数据；

利用故障检测器对云计算的系统服务器节点故障进行检测；

采集云计算系统服务器节点的性能数据的步骤包括：

将描述云计算系统行为与状况的最关联性能指标进行提取；

其中，

在故障检测中，变量b不是等于0就是等于1，当b=0的时表示处于正常工作状态，当b=1时表示处于故障状态；

其中,云计算系统由服务器节点、云控制节点、Web管理端组成，在服务器节点上，部署了虚拟机管理软件，同时运行守护进程，虚拟机管理软件对硬件层进行管理，在客户端程序将请求传输到云控制节点，云控制节点进行资源的协调，对可用云服务器状态进行评估为客户端提供一组服务器，选定服务器之后创建虚拟机，通过相应的程序实现运行；云服务器运行的虚拟机通过服务器的守护进程控制，守护进程同时实现故障检测和云计算系统间的信息交换，利用服务器守护进程对云服务器的运行状态进行监控，将相关数据传输至故障检测器，以便于故障检测器发现服务器节点故障，在发现故障之后，云控制节点把信息发送到云运营商进行校验；被校验后的故障传输到故障检测器，完成自主校正。