CN108092850A

CN108092850A - 一种基于心跳机制的集群服务器故障诊断方法与系统

Info

Publication number: CN108092850A
Application number: CN201711318289.1A
Authority: CN
Inventors: 张雪莹
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2017-12-12
Filing date: 2017-12-12
Publication date: 2018-05-29

Abstract

本发明提供一种基于心跳机制的集群服务器故障诊断方法与系统，所述方法包括：对本节点进行故障诊断获取本节点的测试向量；向其他节点发送本节点的测试向量；接收来自其他节点的测试向量；形成测试矩阵，根据所述测试矩阵判定节点间通信是否异常。本发明利用心跳机制，在节点之间相互发送测试信息进行测试，每个节点侦测其他节点传送的心跳信号，通过自身节点的测试向量以及其他各节点发送的测试向量组成测试矩阵，并利用系统级故障诊断模块对测试矩阵进行故障节点判别，定位到故障节点，从而形成分布式诊断，适用于集群服务器的故障诊断，不需要额外的设备就可以实现故障诊断，节约了人力以及时间成本。

Description

一种基于心跳机制的集群服务器故障诊断方法与系统

技术领域

本发明涉及高性能服务器领域，特别是一种基于心跳机制的集群服务器故障诊断方法与系统。

背景技术

集群服务器(cluster server)，将多个系统连到一起，使多台服务器能够像一台机器一样工作，换言之，就是一组相互独立的服务器在网络中表现为单一的系统，并以单一系统的模式加以管理。通常，一个服务器集群包含多台拥有共享数据存储空间的服务器，各服务器之间通过内部局域网相互通信。

现今随着科技的发展和进步，集群服务器的应用领域越来越广泛，目前已经应用于银行、军事、航天和气象服务等领域，且用来处理关键业务，如若发生系统数据丢失或者异常停机，都会对业务系统造成非常严重的后果。由于集群系统中服务器节点数量众多，当集群系统中的一个或多个节点发生故障时，计算机集群系统的计算速度通常会受到影响，甚至导致集群系统中所有节点都无法正常使用，因此对集群服务器的可靠性提出了很高的要求。

由于集群服务器中发生的故障，通常都是维护人员利用额外的设备进行逐台服务器进行故障检测，耗费大量的人力物力，且时间成本巨大。

发明内容

本发明的目的是提供一种基于心跳机制的集群服务器故障诊断方法与系统，旨在解决现有现有集群服务器故障检测中人工以及时间成本巨大，且需要借助额外工具的问题，实现不需要额外工具即可进行自动化检测，降低了人工以及时间成本。

为达到上述技术目的，本发明提供了一种基于心跳机制的集群服务器故障诊断方法，包括以下步骤：

对本节点进行故障诊断获取本节点的测试向量；

向其他节点发送本节点的测试向量；

接收来自其他节点的测试向量；

形成测试矩阵，根据所述测试矩阵判定节点间通信是否异常。

优选地，所述测试矩阵为：

σ_ij，i＝{0，1，2，…，n-1}，j＝{0，1，2，…，n-1}，为节点i到节点j的测试结果，当测试结果为0时，表示通信正常；测试结果为1时，则通信异常。

优选地，所述方法还包括对故障节点进行定位，具体为：

将测试矩阵进行转置后与转置前的测试矩阵进行逻辑或，获得诊断矩阵；

对诊断矩阵利用判别法则进行判别，对故障节点进行定位。

优选地，所述判别法则为：

1)如果σ_ii＝1，将节点i加入集合FS；

2)如果σ_ij＝0，将节点j加入集合FS；

3)如果σ_ij＝1，将节点i加入集合FS；

其中S为所有节点集合，NS为正常节点集合，FS为故障节点集合，S-NS-FS为需要进行判别的节点，S-FS为除故障节点以外的节点集合。

优选地，所述方法还包括：对筛选出的故障节点进行隔离并离线修复。

本发明还提供了一种基于心跳机制的集群服务器故障诊断系统，包括：

单机故障诊断模块，用于对当前节点进行故障诊断；

心跳模块，用于获取本节点的测试向量以及来自其他节点的测试向量，形成测试矩阵；

系统级故障诊断模块，用于将测试矩阵进行转置后与转置前的测试矩阵进行逻辑或，获得诊断矩阵，并对诊断矩阵利用判别法则进行判别，对故障节点进行定位。

优选地，所述测试矩阵为：

优选地，所述判别法则为：

1)如果σ_ii＝1，将节点i加入集合FS；

2)如果σ_ij＝0，将节点j加入集合FS；

3)如果σ_ij＝1，将节点i加入集合FS；

优选地，所述单机故障诊断模块包括：

硬件故障诊断单元，用于诊断硬件模块状态；

软件故障诊断单元，用于诊断系统运行状态。

优选地，所述系统还包括：

修复模块，用于对筛选出的故障节点进行隔离并离线修复。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

与现有技术相比，本发明利用心跳机制，在节点之间相互发送测试信息进行测试，每个节点侦测其他节点传送的心跳信号，通过自身节点的测试向量以及其他各节点发送的测试向量组成测试矩阵，实现基于心跳机制的自动故障检测。

并利用系统级故障诊断模块对测试矩阵进行故障节点判别，定位到故障节点，从而形成分布式诊断，适用于集群服务器的故障诊断，且由于采用心跳机制检测，不需要额外的设备就可以实现故障诊断，节约了人力以及时间成本。

附图说明

图1为本发明实施例中所提供的一种基于心跳机制的集群服务器故障诊断方法流程图；

图2为本发明实施例中所提供的一种基于心跳机制的集群服务器故障诊断系统结构框图。

具体实施方式

为了能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

下面结合附图对本发明实施例所提供的一种基于心跳机制的集群服务器故障诊断方法与系统进行详细说明。

如图1所示，本发明实施例公开了一种基于心跳机制的集群服务器故障诊断方法，下述为该方法的详细阐述。

建立测试模型。

利用每个节点自身的单机故障诊断模块对该节点进行故障诊断，所述故障诊断包括硬件故障诊断和软件故障诊断，所述硬件故障诊断包括对硬件模块状态的诊断，所述软件故障诊断包括对系统运行状态的诊断。

利用心跳模块周期性的给其他节点发送本节点的诊断测试结果，即测试向量，并接收来自其他节点的诊断测试结果，将本节点的测试向量和所获得的测试向量形成一个测试矩阵，并利用测试诊断规则对测试矩阵进行分析，判定节点间通信是否异常。

单机故障诊断模块当没有发现故障时，其所在节点的心跳模块发送到其他节点的信号为正常信号；单机故障诊断模块当发现故障时，其所在节点的心跳模块发送到其他节点的信号为节点故障信号；而当本节点死机或系统发生崩溃时，其所在节点的心跳模块无信号发送。

所述测试矩阵如下：

上述矩阵的每一行的元素都代表某个节点对其他节点的测试结果，如第i行的元素分别代表节点i对节点0到节点n-1的测试结果，例如σ_ij为节点i到节点j的测试结果，当测试结果为0时，表示通信正常；测试结果为1时，则通信异常。

心跳模块将上述测试矩阵发送至系统级故障诊断模块进行系统级的故障诊断，通过运算进行故障节点的定位，然后由故障处理模块进行处理。

系统级故障诊断模块将上述测试矩阵进行转置，再与转置前的测试矩阵进行逻辑或，得到诊断矩阵：

Z_新＝Z^T||Z

Z_新为诊断矩阵，Z^T为测试矩阵的转置，Z为转置前的测试矩阵。诊断矩阵{σ_ij}，i＝{0，1，2，…，n-1}，j＝{0，1，2，…，n-1}；σ_ij为1时，则表示节点i到节点j之间通信异常，则节点i或节点j为故障节点，或者两者均为故障节点。

并根据下述规则进行故障节点的定位：

1)如果σ_ii＝1，将节点i加入集合FS；

2)如果σ_ij＝0，将节点j加入集合FS；

3)如果σ_ij＝1，将节点i加入集合FS；

利用上述诊断规则对诊断矩阵进行判别，最后属于FS集合的节点为故障加点，需要对其进行隔离，并离线修复，属于NS集合的节点为正常节点。

本发明实施例利用心跳机制，在节点之间相互发送测试信息进行测试，每个节点侦测其他节点传送的心跳信号，通过自身节点的测试向量以及其他各节点发送的测试向量组成测试矩阵，实现基于心跳机制的自动故障检测。

如图2所示，本发明实施例还公开了一种基于心跳机制的集群服务器故障诊断系统，包括：

单机故障诊断模块，用于对当前节点进行故障诊断；

所述单机故障诊断模块包括：

硬件故障诊断单元，用于诊断硬件模块状态；

软件故障诊断单元，用于诊断系统运行状态。

心跳模块，用于获取本节点的测试向量以及来自其他节点的测试向量，形成测试矩阵；所述测试矩阵为：

Z_新＝Z^T||Z

所述判别法则为：

1)如果σ_ii＝1，将节点i加入集合FS；

2)如果σ_ij＝0，将节点j加入集合FS；

3)如果σ_ij＝1，将节点i加入集合FS；

所述系统还包括修复模块，用于对筛选出的故障节点进行隔离并离线修复。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于心跳机制的集群服务器故障诊断方法，其特征在于，包括以下步骤：

对本节点进行故障诊断获取本节点的测试向量；

向其他节点发送本节点的测试向量；

接收来自其他节点的测试向量；

2.根据权利要求1所述的一种基于心跳机制的集群服务器故障诊断方法，其特征在于，所述测试矩阵为：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <msub> <mi>&sigma;</mi> <mn>00</mn> </msub> </mtd> <mtd> <msub> <mi>&sigma;</mi> <mn>01</mn> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>&sigma;</mi> <mrow> <mn>0</mn> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>&sigma;</mi> <mn>10</mn> </msub> </mtd> <mtd> <msub> <mi>&sigma;</mi> <mn>11</mn> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>&sigma;</mi> <mn>00</mn> </msub> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mrow></mrow> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msub> <mi>&sigma;</mi> <mrow> <mi>n</mi> <mo>-</mo> <mn>10</mn> </mrow> </msub> </mtd> <mtd> <msub> <mi>&sigma;</mi> <mrow> <mi>n</mi> <mo>-</mo> <mn>11</mn> </mrow> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>&sigma;</mi> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mtd> </mtr> </mtable> </mfenced>

σ_ij，i＝{0，1，2，...，n-1}，j＝{0，1，2，...，n-1}，为节点i到节点j的测试结果，当测试结果为0时，表示通信正常；测试结果为1时，则通信异常。

3.根据权利要求1所述的一种基于心跳机制的集群服务器故障诊断方法，其特征在于，所述方法还包括对故障节点进行定位，具体为：

对诊断矩阵利用判别法则进行判别，对故障节点进行定位。

4.根据权利要求3所述的一种基于心跳机制的集群服务器故障诊断方法，其特征在于，所述判别法则为：

1)如果σ_ii＝1，将节点i加入集合FS；

2)如果σ_ij＝0，将节点j加入集合FS；

3)如果σ_ij＝1，将节点i加入集合FS；

5.根据权利要求3或4所述的一种基于心跳机制的集群服务器故障诊断方法，其特征在于，所述方法还包括：对筛选出的故障节点进行隔离并离线修复。

6.一种基于心跳机制的集群服务器故障诊断系统，其特征在于，包括：

单机故障诊断模块，用于对当前节点进行故障诊断；

7.根据权利要求6所述的一种基于心跳机制的集群服务器故障诊断系统，其特征在于，所述测试矩阵为：

8.根据权利要求6所述的一种基于心跳机制的集群服务器故障诊断系统，其特征在于，所述判别法则为：

1)如果σ_ii＝1，将节点i加入集合FS；

2)如果σ_ij＝0，将节点j加入集合FS；

3)如果σ_ij＝1，将节点i加入集合FS；

9.根据权利要求6所述的一种基于心跳机制的集群服务器故障诊断系统，其特征在于，所述单机故障诊断模块包括：

硬件故障诊断单元，用于诊断硬件模块状态；

软件故障诊断单元，用于诊断系统运行状态。

10.根据权利要求6-9任意一项所述的一种基于心跳机制的集群服务器故障诊断系统，其特征在于，所述系统还包括：

修复模块，用于对筛选出的故障节点进行隔离并离线修复。