CN108092850A - 一种基于心跳机制的集群服务器故障诊断方法与系统 - Google Patents

一种基于心跳机制的集群服务器故障诊断方法与系统 Download PDF

Info

Publication number
CN108092850A
CN108092850A CN201711318289.1A CN201711318289A CN108092850A CN 108092850 A CN108092850 A CN 108092850A CN 201711318289 A CN201711318289 A CN 201711318289A CN 108092850 A CN108092850 A CN 108092850A
Authority
CN
China
Prior art keywords
mtd
node
msub
test
mrow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711318289.1A
Other languages
English (en)
Inventor
张雪莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201711318289.1A priority Critical patent/CN108092850A/zh
Publication of CN108092850A publication Critical patent/CN108092850A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 
    • H04L67/1048Departure or maintenance mechanisms

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Environmental & Geological Engineering (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明提供一种基于心跳机制的集群服务器故障诊断方法与系统,所述方法包括:对本节点进行故障诊断获取本节点的测试向量;向其他节点发送本节点的测试向量;接收来自其他节点的测试向量;形成测试矩阵,根据所述测试矩阵判定节点间通信是否异常。本发明利用心跳机制,在节点之间相互发送测试信息进行测试,每个节点侦测其他节点传送的心跳信号,通过自身节点的测试向量以及其他各节点发送的测试向量组成测试矩阵,并利用系统级故障诊断模块对测试矩阵进行故障节点判别,定位到故障节点,从而形成分布式诊断,适用于集群服务器的故障诊断,不需要额外的设备就可以实现故障诊断,节约了人力以及时间成本。

Description

一种基于心跳机制的集群服务器故障诊断方法与系统
技术领域
本发明涉及高性能服务器领域,特别是一种基于心跳机制的集群服务器故障诊断方法与系统。
背景技术
集群服务器(cluster server),将多个系统连到一起,使多台服务器能够像一台机器一样工作,换言之,就是一组相互独立的服务器在网络中表现为单一的系统,并以单一系统的模式加以管理。通常,一个服务器集群包含多台拥有共享数据存储空间的服务器,各服务器之间通过内部局域网相互通信。
现今随着科技的发展和进步,集群服务器的应用领域越来越广泛,目前已经应用于银行、军事、航天和气象服务等领域,且用来处理关键业务,如若发生系统数据丢失或者异常停机,都会对业务系统造成非常严重的后果。由于集群系统中服务器节点数量众多,当集群系统中的一个或多个节点发生故障时,计算机集群系统的计算速度通常会受到影响,甚至导致集群系统中所有节点都无法正常使用,因此对集群服务器的可靠性提出了很高的要求。
由于集群服务器中发生的故障,通常都是维护人员利用额外的设备进行逐台服务器进行故障检测,耗费大量的人力物力,且时间成本巨大。
发明内容
本发明的目的是提供一种基于心跳机制的集群服务器故障诊断方法与系统,旨在解决现有现有集群服务器故障检测中人工以及时间成本巨大,且需要借助额外工具的问题,实现不需要额外工具即可进行自动化检测,降低了人工以及时间成本。
为达到上述技术目的,本发明提供了一种基于心跳机制的集群服务器故障诊断方法,包括以下步骤:
对本节点进行故障诊断获取本节点的测试向量;
向其他节点发送本节点的测试向量;
接收来自其他节点的测试向量;
形成测试矩阵,根据所述测试矩阵判定节点间通信是否异常。
优选地,所述测试矩阵为:
σij,i={0,1,2,…,n-1},j={0,1,2,…,n-1},为节点i到节点j的测试结果,当测试结果为0时,表示通信正常;测试结果为1时,则通信异常。
优选地,所述方法还包括对故障节点进行定位,具体为:
将测试矩阵进行转置后与转置前的测试矩阵进行逻辑或,获得诊断矩阵;
对诊断矩阵利用判别法则进行判别,对故障节点进行定位。
优选地,所述判别法则为:
1)如果σii=1,将节点i加入集合FS;
2)如果σij=0,将节点j加入集合FS;
3)如果σij=1,将节点i加入集合FS;
其中S为所有节点集合,NS为正常节点集合,FS为故障节点集合,S-NS-FS为需要进行判别的节点,S-FS为除故障节点以外的节点集合。
优选地,所述方法还包括:对筛选出的故障节点进行隔离并离线修复。
本发明还提供了一种基于心跳机制的集群服务器故障诊断系统,包括:
单机故障诊断模块,用于对当前节点进行故障诊断;
心跳模块,用于获取本节点的测试向量以及来自其他节点的测试向量,形成测试矩阵;
系统级故障诊断模块,用于将测试矩阵进行转置后与转置前的测试矩阵进行逻辑或,获得诊断矩阵,并对诊断矩阵利用判别法则进行判别,对故障节点进行定位。
优选地,所述测试矩阵为:
σij,i={0,1,2,…,n-1},j={0,1,2,…,n-1},为节点i到节点j的测试结果,当测试结果为0时,表示通信正常;测试结果为1时,则通信异常。
优选地,所述判别法则为:
1)如果σii=1,将节点i加入集合FS;
2)如果σij=0,将节点j加入集合FS;
3)如果σij=1,将节点i加入集合FS;
其中S为所有节点集合,NS为正常节点集合,FS为故障节点集合,S-NS-FS为需要进行判别的节点,S-FS为除故障节点以外的节点集合。
优选地,所述单机故障诊断模块包括:
硬件故障诊断单元,用于诊断硬件模块状态;
软件故障诊断单元,用于诊断系统运行状态。
优选地,所述系统还包括:
修复模块,用于对筛选出的故障节点进行隔离并离线修复。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
与现有技术相比,本发明利用心跳机制,在节点之间相互发送测试信息进行测试,每个节点侦测其他节点传送的心跳信号,通过自身节点的测试向量以及其他各节点发送的测试向量组成测试矩阵,实现基于心跳机制的自动故障检测。
并利用系统级故障诊断模块对测试矩阵进行故障节点判别,定位到故障节点,从而形成分布式诊断,适用于集群服务器的故障诊断,且由于采用心跳机制检测,不需要额外的设备就可以实现故障诊断,节约了人力以及时间成本。
附图说明
图1为本发明实施例中所提供的一种基于心跳机制的集群服务器故障诊断方法流程图;
图2为本发明实施例中所提供的一种基于心跳机制的集群服务器故障诊断系统结构框图。
具体实施方式
为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
下面结合附图对本发明实施例所提供的一种基于心跳机制的集群服务器故障诊断方法与系统进行详细说明。
如图1所示,本发明实施例公开了一种基于心跳机制的集群服务器故障诊断方法,下述为该方法的详细阐述。
建立测试模型。
利用每个节点自身的单机故障诊断模块对该节点进行故障诊断,所述故障诊断包括硬件故障诊断和软件故障诊断,所述硬件故障诊断包括对硬件模块状态的诊断,所述软件故障诊断包括对系统运行状态的诊断。
利用心跳模块周期性的给其他节点发送本节点的诊断测试结果,即测试向量,并接收来自其他节点的诊断测试结果,将本节点的测试向量和所获得的测试向量形成一个测试矩阵,并利用测试诊断规则对测试矩阵进行分析,判定节点间通信是否异常。
单机故障诊断模块当没有发现故障时,其所在节点的心跳模块发送到其他节点的信号为正常信号;单机故障诊断模块当发现故障时,其所在节点的心跳模块发送到其他节点的信号为节点故障信号;而当本节点死机或系统发生崩溃时,其所在节点的心跳模块无信号发送。
所述测试矩阵如下:
上述矩阵的每一行的元素都代表某个节点对其他节点的测试结果,如第i行的元素分别代表节点i对节点0到节点n-1的测试结果,例如σij为节点i到节点j的测试结果,当测试结果为0时,表示通信正常;测试结果为1时,则通信异常。
心跳模块将上述测试矩阵发送至系统级故障诊断模块进行系统级的故障诊断,通过运算进行故障节点的定位,然后由故障处理模块进行处理。
系统级故障诊断模块将上述测试矩阵进行转置,再与转置前的测试矩阵进行逻辑或,得到诊断矩阵:
Z=ZT||Z
Z为诊断矩阵,ZT为测试矩阵的转置,Z为转置前的测试矩阵。诊断矩阵{σij},i={0,1,2,…,n-1},j={0,1,2,…,n-1};σij为1时,则表示节点i到节点j之间通信异常,则节点i或节点j为故障节点,或者两者均为故障节点。
并根据下述规则进行故障节点的定位:
1)如果σii=1,将节点i加入集合FS;
2)如果σij=0,将节点j加入集合FS;
3)如果σij=1,将节点i加入集合FS;
其中S为所有节点集合,NS为正常节点集合,FS为故障节点集合,S-NS-FS为需要进行判别的节点,S-FS为除故障节点以外的节点集合。
利用上述诊断规则对诊断矩阵进行判别,最后属于FS集合的节点为故障加点,需要对其进行隔离,并离线修复,属于NS集合的节点为正常节点。
本发明实施例利用心跳机制,在节点之间相互发送测试信息进行测试,每个节点侦测其他节点传送的心跳信号,通过自身节点的测试向量以及其他各节点发送的测试向量组成测试矩阵,实现基于心跳机制的自动故障检测。
并利用系统级故障诊断模块对测试矩阵进行故障节点判别,定位到故障节点,从而形成分布式诊断,适用于集群服务器的故障诊断,且由于采用心跳机制检测,不需要额外的设备就可以实现故障诊断,节约了人力以及时间成本。
如图2所示,本发明实施例还公开了一种基于心跳机制的集群服务器故障诊断系统,包括:
单机故障诊断模块,用于对当前节点进行故障诊断;
所述单机故障诊断模块包括:
硬件故障诊断单元,用于诊断硬件模块状态;
软件故障诊断单元,用于诊断系统运行状态。
心跳模块,用于获取本节点的测试向量以及来自其他节点的测试向量,形成测试矩阵;所述测试矩阵为:
σij,i={0,1,2,…,n-1},j={0,1,2,…,n-1},为节点i到节点j的测试结果,当测试结果为0时,表示通信正常;测试结果为1时,则通信异常。
系统级故障诊断模块,用于将测试矩阵进行转置后与转置前的测试矩阵进行逻辑或,获得诊断矩阵,并对诊断矩阵利用判别法则进行判别,对故障节点进行定位。
系统级故障诊断模块将上述测试矩阵进行转置,再与转置前的测试矩阵进行逻辑或,得到诊断矩阵:
Z=ZT||Z
Z为诊断矩阵,ZT为测试矩阵的转置,Z为转置前的测试矩阵。诊断矩阵{σij},i={0,1,2,…,n-1},j={0,1,2,…,n-1};σij为1时,则表示节点i到节点j之间通信异常,则节点i或节点j为故障节点,或者两者均为故障节点。
所述判别法则为:
1)如果σii=1,将节点i加入集合FS;
2)如果σij=0,将节点j加入集合FS;
3)如果σij=1,将节点i加入集合FS;
其中S为所有节点集合,NS为正常节点集合,FS为故障节点集合,S-NS-FS为需要进行判别的节点,S-FS为除故障节点以外的节点集合。
所述系统还包括修复模块,用于对筛选出的故障节点进行隔离并离线修复。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于心跳机制的集群服务器故障诊断方法,其特征在于,包括以下步骤:
对本节点进行故障诊断获取本节点的测试向量;
向其他节点发送本节点的测试向量;
接收来自其他节点的测试向量;
形成测试矩阵,根据所述测试矩阵判定节点间通信是否异常。
2.根据权利要求1所述的一种基于心跳机制的集群服务器故障诊断方法,其特征在于,所述测试矩阵为:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <msub> <mi>&amp;sigma;</mi> <mn>00</mn> </msub> </mtd> <mtd> <msub> <mi>&amp;sigma;</mi> <mn>01</mn> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>&amp;sigma;</mi> <mrow> <mn>0</mn> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>&amp;sigma;</mi> <mn>10</mn> </msub> </mtd> <mtd> <msub> <mi>&amp;sigma;</mi> <mn>11</mn> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>&amp;sigma;</mi> <mn>00</mn> </msub> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mrow></mrow> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msub> <mi>&amp;sigma;</mi> <mrow> <mi>n</mi> <mo>-</mo> <mn>10</mn> </mrow> </msub> </mtd> <mtd> <msub> <mi>&amp;sigma;</mi> <mrow> <mi>n</mi> <mo>-</mo> <mn>11</mn> </mrow> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>&amp;sigma;</mi> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mtd> </mtr> </mtable> </mfenced>
σij,i={0,1,2,...,n-1},j={0,1,2,...,n-1},为节点i到节点j的测试结果,当测试结果为0时,表示通信正常;测试结果为1时,则通信异常。
3.根据权利要求1所述的一种基于心跳机制的集群服务器故障诊断方法,其特征在于,所述方法还包括对故障节点进行定位,具体为:
将测试矩阵进行转置后与转置前的测试矩阵进行逻辑或,获得诊断矩阵;
对诊断矩阵利用判别法则进行判别,对故障节点进行定位。
4.根据权利要求3所述的一种基于心跳机制的集群服务器故障诊断方法,其特征在于,所述判别法则为:
1)如果σii=1,将节点i加入集合FS;
2)如果σij=0,将节点j加入集合FS;
3)如果σij=1,将节点i加入集合FS;
其中S为所有节点集合,NS为正常节点集合,FS为故障节点集合,S-NS-FS为需要进行判别的节点,S-FS为除故障节点以外的节点集合。
5.根据权利要求3或4所述的一种基于心跳机制的集群服务器故障诊断方法,其特征在于,所述方法还包括:对筛选出的故障节点进行隔离并离线修复。
6.一种基于心跳机制的集群服务器故障诊断系统,其特征在于,包括:
单机故障诊断模块,用于对当前节点进行故障诊断;
心跳模块,用于获取本节点的测试向量以及来自其他节点的测试向量,形成测试矩阵;
系统级故障诊断模块,用于将测试矩阵进行转置后与转置前的测试矩阵进行逻辑或,获得诊断矩阵,并对诊断矩阵利用判别法则进行判别,对故障节点进行定位。
7.根据权利要求6所述的一种基于心跳机制的集群服务器故障诊断系统,其特征在于,所述测试矩阵为:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <msub> <mi>&amp;sigma;</mi> <mn>00</mn> </msub> </mtd> <mtd> <msub> <mi>&amp;sigma;</mi> <mn>01</mn> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>&amp;sigma;</mi> <mrow> <mn>0</mn> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>&amp;sigma;</mi> <mn>10</mn> </msub> </mtd> <mtd> <msub> <mi>&amp;sigma;</mi> <mn>11</mn> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>&amp;sigma;</mi> <mn>00</mn> </msub> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mrow></mrow> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msub> <mi>&amp;sigma;</mi> <mrow> <mi>n</mi> <mo>-</mo> <mn>10</mn> </mrow> </msub> </mtd> <mtd> <msub> <mi>&amp;sigma;</mi> <mrow> <mi>n</mi> <mo>-</mo> <mn>11</mn> </mrow> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>&amp;sigma;</mi> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mtd> </mtr> </mtable> </mfenced>
σij,i={0,1,2,...,n-1},j={0,1,2,...,n-1},为节点i到节点j的测试结果,当测试结果为0时,表示通信正常;测试结果为1时,则通信异常。
8.根据权利要求6所述的一种基于心跳机制的集群服务器故障诊断系统,其特征在于,所述判别法则为:
1)如果σii=1,将节点i加入集合FS;
2)如果σij=0,将节点j加入集合FS;
3)如果σij=1,将节点i加入集合FS;
其中S为所有节点集合,NS为正常节点集合,FS为故障节点集合,S-NS-FS为需要进行判别的节点,S-FS为除故障节点以外的节点集合。
9.根据权利要求6所述的一种基于心跳机制的集群服务器故障诊断系统,其特征在于,所述单机故障诊断模块包括:
硬件故障诊断单元,用于诊断硬件模块状态;
软件故障诊断单元,用于诊断系统运行状态。
10.根据权利要求6-9任意一项所述的一种基于心跳机制的集群服务器故障诊断系统,其特征在于,所述系统还包括:
修复模块,用于对筛选出的故障节点进行隔离并离线修复。
CN201711318289.1A 2017-12-12 2017-12-12 一种基于心跳机制的集群服务器故障诊断方法与系统 Pending CN108092850A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711318289.1A CN108092850A (zh) 2017-12-12 2017-12-12 一种基于心跳机制的集群服务器故障诊断方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711318289.1A CN108092850A (zh) 2017-12-12 2017-12-12 一种基于心跳机制的集群服务器故障诊断方法与系统

Publications (1)

Publication Number Publication Date
CN108092850A true CN108092850A (zh) 2018-05-29

Family

ID=62175222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711318289.1A Pending CN108092850A (zh) 2017-12-12 2017-12-12 一种基于心跳机制的集群服务器故障诊断方法与系统

Country Status (1)

Country Link
CN (1) CN108092850A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959024A (zh) * 2018-06-26 2018-12-07 郑州云海信息技术有限公司 一种集群监控方法和装置
CN109800160A (zh) * 2018-12-27 2019-05-24 深圳云天励飞技术有限公司 机器学习系统中的集群服务器故障测试方法和相关装置
CN111682976A (zh) * 2020-04-26 2020-09-18 合肥中科类脑智能技术有限公司 一种保证分布式多机通信监控的方法
CN113377627A (zh) * 2021-06-10 2021-09-10 广州朗国电子科技有限公司 一种业务服务器异常检测方法、系统、设备、存储介质
CN115102962A (zh) * 2022-06-22 2022-09-23 青岛中科曙光科技服务有限公司 集群管理方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1286405A (zh) * 1999-11-20 2001-03-07 深圳市中兴通讯股份有限公司 对配电网故障进行定位的方法
CN102565682A (zh) * 2010-12-14 2012-07-11 苏州工业园区谱芯科技有限公司 一种基于二分法的故障测试向量的定位方法
CN102818948A (zh) * 2012-07-16 2012-12-12 北京航空航天大学 基于模糊故障诊断和相关性模型诊断的dr合成诊断方法
CN106291328A (zh) * 2016-08-26 2017-01-04 北京空间飞行器总体设计部 一种航天器开关矩阵故障检测及定位装置
CN106594000A (zh) * 2016-12-15 2017-04-26 中国航空工业集团公司北京长城航空测控技术研究所 一种电液伺服阀故障诊断方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1286405A (zh) * 1999-11-20 2001-03-07 深圳市中兴通讯股份有限公司 对配电网故障进行定位的方法
CN102565682A (zh) * 2010-12-14 2012-07-11 苏州工业园区谱芯科技有限公司 一种基于二分法的故障测试向量的定位方法
CN102818948A (zh) * 2012-07-16 2012-12-12 北京航空航天大学 基于模糊故障诊断和相关性模型诊断的dr合成诊断方法
CN106291328A (zh) * 2016-08-26 2017-01-04 北京空间飞行器总体设计部 一种航天器开关矩阵故障检测及定位装置
CN106594000A (zh) * 2016-12-15 2017-04-26 中国航空工业集团公司北京长城航空测控技术研究所 一种电液伺服阀故障诊断方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
左德承,杨孝宗,高巍: "基于非完备性测试的一种分布式计算机系统诊断算法的设计", 《计算机工程与应用》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959024A (zh) * 2018-06-26 2018-12-07 郑州云海信息技术有限公司 一种集群监控方法和装置
CN109800160A (zh) * 2018-12-27 2019-05-24 深圳云天励飞技术有限公司 机器学习系统中的集群服务器故障测试方法和相关装置
CN111682976A (zh) * 2020-04-26 2020-09-18 合肥中科类脑智能技术有限公司 一种保证分布式多机通信监控的方法
CN111682976B (zh) * 2020-04-26 2022-03-01 合肥中科类脑智能技术有限公司 一种保证分布式多机通信监控的方法
CN113377627A (zh) * 2021-06-10 2021-09-10 广州朗国电子科技有限公司 一种业务服务器异常检测方法、系统、设备、存储介质
CN113377627B (zh) * 2021-06-10 2023-12-05 广州朗国电子科技股份有限公司 一种业务服务器异常检测方法、系统、设备、存储介质
CN115102962A (zh) * 2022-06-22 2022-09-23 青岛中科曙光科技服务有限公司 集群管理方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN108092850A (zh) 一种基于心跳机制的集群服务器故障诊断方法与系统
CN103746884B (zh) 一种利用交换机进行流量测试的方法及系统
Huang et al. Active fault tolerant control systems by the semi‐Markov model approach
US20110185229A1 (en) Fault diagnosis employing probabilistic models and statistical learning
CN107168842A (zh) 基于pmc模型的自适应顺序故障诊断方法
Zeng et al. A reliability modeling method for the system subject to common cause failures and competing failures
Deb et al. Tele-diagnosis: Remote monitoring of large-scale systems
US10861259B2 (en) Method for testing the integrity of the avionics of an aircraft, associated device and computer program product
Milanovic et al. Modeling business process availability
CN108875276A (zh) 一种数据驱动的闭环系统稳定性监测方法
CN111027721B (zh) 一种系统故障定位方法
Wang et al. Detecting causal structure on cloud application microservices using Granger causality models
CN107544830A (zh) 一种自动安装数据库的方法及装置
Liang et al. Intermittent fault diagnosability of interconnection networks
CN111342989A (zh) 一种基于串行总线的通用飞参系统及其实现方法
CN110018377A (zh) 一种arinc664p7终端设备的故障检测分析系统
US20080168161A1 (en) Systems and methods for managing faults within a high speed network employing wide ports
Zhang et al. On g-extra conditional diagnosability of twisted hypercubes under MM∗ model
CN104468196B (zh) 基于证据筛选的虚拟网络故障诊断方法及装置
Smith A damage-and fault-tolerant input/output network
Hao et al. Design and realization of IMA/DIMA system management based on avionics switched network
Deb et al. Towards systems level prognostics in the cloud
Kenning et al. Locating Datacenter Link Faults with a Directed Graph Convolutional Neural Network.
CN111552605B (zh) 基于网络端数据流信息的故障定位方法、系统和装置
Barranco et al. A model for quantifying the reliability of highly-reliable distributed systems based on fieldbus replicated buses

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180529

RJ01 Rejection of invention patent application after publication