CN107908502A - 一种基于大型系统拓扑结构的容错节点分配方法 - Google Patents

一种基于大型系统拓扑结构的容错节点分配方法 Download PDF

Info

Publication number
CN107908502A
CN107908502A CN201711114201.4A CN201711114201A CN107908502A CN 107908502 A CN107908502 A CN 107908502A CN 201711114201 A CN201711114201 A CN 201711114201A CN 107908502 A CN107908502 A CN 107908502A
Authority
CN
China
Prior art keywords
node
probability
failure
same time
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711114201.4A
Other languages
English (en)
Other versions
CN107908502B (zh
Inventor
全哲
乐雨泉
左克
林轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN201711114201.4A priority Critical patent/CN107908502B/zh
Publication of CN107908502A publication Critical patent/CN107908502A/zh
Application granted granted Critical
Publication of CN107908502B publication Critical patent/CN107908502B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1489Generic software techniques for error detection or fault masking through recovery blocks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开一种基于大型系统拓扑结构的容错节点分配方法,包括如下步骤:步骤一、定义系统拓扑结构中节点位置分布,确定节点的位置;步骤二、建模任意两个节点同时失效的概率模型,从而得到任意两个节点同时失效函数;步骤三、计算任意两点同时失效的概率,得到任意两点同时失效的概率为固定值;步骤四、构建节点分配模型,将计算节点集合抽象成对应的无向加权图G(V,E,W);步骤五、运行覆盖算法,求解最优节点组合,使得集合权值最小,并且将结果保存并返回。本发明相对于传统的节点分配技术,能够使得全系统内存检查点失效概率降低3倍。这也意味着我们能把多级检查点系统中的检查点恢复开销相对于传统做法降低67%。

Description

一种基于大型系统拓扑结构的容错节点分配方法
技术领域
本专利属于信息技术及计算机领域,尤其涉及一种基于大型系统拓扑结构的容错节点分配方法。
背景技术
当前高性能计算系统的计算节点普遍采用的是多核处理器和大容量存储器,随之而来的是系统的可靠性问题越来越严重,应用程序在高性能计算机系统运行时,经常会由于硬件或者软件错误导致系统出现故障。系统的平均无故障时间随高性能计算机体系结构的复杂化而大大缩短,比如,蓝色基因的平均无故障时间为八小时,甚至一些极大规模的系统平均无故障时间都不到半小时。容错技术是一种能够确保大规模系统能够持续正确运行的方法,它通过保证在单节点或者多节点系统故障情况下应用能够持续运行而提高系统的平均无故障时间。目前最流行的容错技术是检查点技术,这种技术把应用的状态定期保存到稳定存储设备上,当系统出现故障时,应用从检查点映像中恢复执行。对于内存检查点的容错节点分配方式,目前通常的做法主要分为以下几种:
1.通过备份每一个检查点文件到配对节点上,双备份模式的方法能够允许节点错误。只要配对节点不同时出错,应用程序就能无故障运行。但是这种做法需要两倍的存储空间,并且配对方式比本地存储速度上要慢。
2.XOR容错节点分配方法把节点分配到不相交且大小为N的集合。它计算来自不同节点文件中的异或部分文件,并且把这部分文件划分为大小为N的片段,之后把每个片段分散到一个节点中。每个节点再根据各自检查点文件所在位置把这些片段文件保存到本地存储。只要不是两个同集合节点同时出错,这种方式能够允许多节点错误。但是这种做法相比配对方式更耗时间。
综上所诉,高性能计算系统的容错处理是解决系统可靠性问题的关键技术。而目前主流的节点分配方式各自都存在着弊端。
发明内容
为解决上述问题,本发明公开了一种基于大型系统拓扑结构的容错节点分配方法。本发明相对于传统的节点分配技术,能够使得全系统内存检查点失效概率降低3倍。这也意味着我们能把多级检查点系统中的检查点恢复开销相对于传统做法降低67%。
为实现上述目的,本发明的技术方案为:
一种基于大型系统拓扑结构的容错节点分配方法,包括如下步骤:
步骤一、定义系统拓扑结构中节点位置分布,确定节点的位置;
步骤二、建模任意两个节点同时失效的概率模型,从而得到任意两个节点同时失效函数;
步骤三、计算任意两点同时失效的概率,得到任意两点同时失效的概率为固定值;
步骤四、构建节点分配模型,将计算节点集合抽象成对应的无向加权图G(V,E,W),其中G表示无向加权图,V表示顶点集,E表示边集,W表示边的权集,C表示clique集(最大团集)。步骤五、运行覆盖算法,求解最优节点组合,使得集合权值最小,并且将结果保存并返回。
进一步的改进,包括如下步骤:
步骤一、定义大型系统拓扑结构中节点的具体位置分布:
1)用1,2,3,…表示系统中计算节点的编号;
2)用(xi,yi,zi,ki)表示计算节点i在整个大型系统拓扑结构中所处的位置。其中xi表示计算节点i所在的主板号,yi表示计算节点i所在的机框号,zi表示计算节点i所在的机柜号,ki表示所计算节点i所在的组号;
3)表示节点i,j同时失效的概率。
步骤二、建模并计算任意两点同时失效的概率函数根据任意两个节点在系统中所处的位置得出配对节点同时失效的概率函数,函数包含五个部分:单节点失效概率,相同主板上节点同时失效概率,相同机框内节点同时失效概率,相同机柜内节点同时失效概率和同排机框内节点同时失效概率;概率函数具体计算过程如下:
3.1)计算单节点失效概率Ps,即节点,平均无故障时间MTBFn的倒数:
3.2)计算电源模块失效概率Pm,电源模块失效概率Pm等于电源模块平均无故障时间MTBFm的倒数:
3.3)计算同机框内两节点同时失效的概率Pb即等于电源模块失效概率Pm,即Pb=Pm
3.4)计算风扇故障概率Pf;风扇故障概率Pf等于风扇平均无故障运行时间MTBFf的倒数:
3.5)计算空调影响的节点失效概率Pc;同一组机柜有相同空调控制温度,一旦空调出现故障,节点也会同样因温度过高而出现故障,于是,空调影响的节点失效概率Pc为空调平均无故障时间(MTBFc)的倒数:
3.6)计算冷却系统故障导致的节点失效概率Pl。同一排节点也会受到冷却系统故障的影响,冷却系统故障导致的节点失效概率Pl为冷却系统平均无故障时间(MTBFl)的倒数:
3.7)得出任意两个节点i,j同时失效的失效函数进而得出同时失效函数公式:
其中:
其中,else表示其它情况;
步骤三、计算任意两点i,j同时失效的概率;通过判断两个节点的位置关系,并进一步求出这两个节点同时失效的概率,求解方式如下例:
4.1)若给定的两个节点i,j不在同一个主板,则:
4.2若给定的两个节点i,j在同一个机框,则:
4.3)继续可得:同理:
4.4)得到位置关系:b=0,f=1,c=1,l=1;
4.5)代入失效函数公式得:
Pi j=1-(1-Ps(i∩j))*(1-Pf(i∩j))*(1-Pc(i∩j))*(1-Pl(i∩j)),将Ps、Pm、Pb、Pf、Pc、Pl的计算公式代入失效函数公式即可可求出节点i,j同时失效的概率。
步骤四、构建节点分配模型:对于任意作业系统给作业分配的计算节点集合,基于概率模型,建立计算节点集合对应的无向加权图G(V,E,W),图的顶点对应所能选取的节点,而连接两个顶点的边表示这两个节点可以被分配在同一个检查点集合内,每条边所加的权值则表示相连两个节点同时失效的概率;
步骤五、运用k-clique覆盖算法,对于被抽象成无向加权图G(V,E,W)的目标系统,从中找出一个最优节点组合使得集合权值最小,即整个系统内存检查点出错概率最小。
进一步的改进,所述覆盖算法为k-clique覆盖算法。
附图说明
图1为本发明的总流程图;
图2为容错节点分配模型局部图;
图3为节点映射带权无向图。
实施例
实施例1
本发明提出了一种基于大型系统拓扑结构并利用k-clique覆盖算法的容错节点分配方法,此方法较大程度提升了全系统可恢复概率。
本发明首先针对目标系统建立起一个概率模型,通过该概率模型能计算出系统中任意两个计算节点同时出错的概率大小。然后我们将目标系统抽象成一张加权无向图,图中的顶点代表计算节点;边则表示此边相连的两个计算节点可以划分在同一个容错集合中;边上的权值通过概率模型计算得到,这个值是此边相连的两个计算节点同时出错的概率。对于任意作业系统给作业分配的计算节点集合,基于概率模型,建立计算节点集合对应的无向加权图;
第一步、做出容错节点分配方法的简单假设,这些简单假设使得此方法普适于大多数情况。假设包括以下几点:
1.假定模型遇到的错误不是极端的,而是一般可恢复的;
2.假定单节点故障没有传递性,是完全独立的。一个节点的错误不会对其他节点有直接或者间接的影响;
3.假定同种故障概率为定值,如单风扇故障率、单节点故障率、空调故障率和电源故障率等都为固定不变的数值。
第二步、定义大型系统拓扑结构中节点的具体位置分布(图2):
1.用1,2,3,…表示系统中计算节点的编号;
2.用(xi,yi,zi,ki)表示计算节点i在整个大型系统拓扑结构中所处的位置。其中xi表示计算节点i所在的主板号,yi表示计算节点i所在的机框号,zi表示计算节点i所在的机柜号,ki表示所计算节点i所在的组号;
3.表示节点i,j同时失效的概率。
第三步、建模并计算任意两点同时失效的概率函数这里,可以根据任意两个节点在系统中所处的位置得出配对节点同时失效的概率函数,函数包含五个部分:单节点失效概率,相同主板上节点同时失效概率,相同机框内节点同时失效概率,相同机柜内节点同时失效概率和同排机框内节点同时失效概率。概率函数具体计算过程如下:
3.1计算单节点失效概率Ps,即节点平均无故障时间(MTBFn)的倒数:
3.2计算电源模块失效概率Pm。同机框的节点共用电源模块,电源模块故障会引起同机框内计算节点同时失效,所以电源模块失效概率Pm等于电源模块平均无故障时间(MTBFm)的倒数:
3.3计算同机框内两节点同时失效的概率即等于电源模块失效概率Pb=Pm
3.4计算风扇故障概率Pf。同一机柜内的节点由相同的风扇组散热,当一台风扇出现故障的时候,各节点温度的升高引发节点故障,风扇故障概率(Pf)等于风扇平均无故障运行时间(MTBFf)的倒数:
3.5计算空调影响的节点失效概率Pc。同一组机柜有相同空调控制温度,一旦空调出现故障,节点也会同样因温度过高而出现故障,于是,空调影响的节点失效概率Pc为空调平均无故障时间(MTBFc)的倒数:
3.6计算冷却系统故障导致的节点失效概率Pl。同一排节点也会受到冷却系统故障的影响,冷却系统故障导致的节点失效概率Pl为冷却系统平均无故障时间(MTBFl)的倒数:
3.7得出任意两个节点(i,j)同时失效的失效函数上述讨论了任意两个计算节点同时失效的所有可能概率,由此我们得出同时失效函数:
其中:
第四步、计算任意两点(i,j)同时失效的概率。通过第三步,我们得出了任意二点同时失效的概率函数根据第三步3.7得出的失效函数,我们通过判断两个节点的位置关系,并进一步求出这两个节点同时失效的概率,求解方式如下例:
4.1假如给定的两个节点i,j不在同一个主板,则:
4.2继续判断是否在同一个机框,假定在同一个机框,则:
4.3继续可得:同理:
4.4得到位置关系:b=0,f=1,c=1,l=1;
4.5代入第三步3.7中的失效函数公式得:Pi j=1-(1-Ps(i∩j))*(1-Pf(i∩j))*(1-Pc(i∩j))*(1-Pl(i∩j)),将之前的各情况概率公式代入可求出节点i,j同时失效的概率。
第五步、构建节点分配模型(图3)。对于任意作业系统给作业分配的计算节点集合,基于概率模型,建立计算节点集合对应的无向加权图G(V,E,W),图的顶点对应所能选取的节点,而连接两个顶点的边表示这两个节点可以被分配在同一个检查点集合内,每条边所加的权值则表示相连两个节点同时失效的概率;
第六步、运用k-clique覆盖算法,对于被抽象成带权无向图G(V,E,W)的目标系统,从中找出一个最优节点组合使得集合权值最小(即整个系统内存检查点出错概率最小)。以内存双备份模式为例,此时clique大小为2(当采用XOR,clique大小为sizeXOR),具体过程如下例:
6.1带权无向图G(V,E,W),初始化顶点集V,边集E,边的权集W,clique集C;
6.2将图G(V,E,W)中的边全部去除;
6.3添加最小权值边的到图;
6.4根据每个顶点所连接的边数按升序重排,依次去寻找大小为2的clique,将找到的团加入到clique集C,并且在图G中将已加入C的顶点移除;
6.5如果图G顶点不为空,返回至6.3,否则执行6.6;
6.6返回大小为2的clique集C(这个集就是配对节点解)。
第七步、结束
与现有技术相比,采用本发明可达到以下技术效果:
1.第三步和第四步,我们将任意二个计算节点进行建模,并且基于第一步的简单假设,能够使得任意二个节点同时失效概率的计算适用于大多数情况。
2.第五步和第六步,我们把计算节点以及他们之间的同时失效概率转化为一个带权无向图,利用我们的容错节点分配方法在图中寻找clique,从而更合理地分配计算节点到XOR集。
3.我们将一般的跳步分配节点算法和我们的容错节点分配方法以为出错概率为指标进行了比较。实验结果表示,当XOR集大小较小时,我们的容错节点分配方法效果非常好。特别XOR为2时,我们的容错节点分配方法的出错概率只有跳步分配算法的十万分之一左右。
5.本发明提出了一种基于大型系统拓扑结构的容错节点分配方法,这种方法相对于传统的节点分配技术,能够使得全系统内存检查点失效概率降低3倍。这也意味着我们能把多级检查点系统中的检查点恢复开销相对于传统做法降低67%。
尽管本发明的实施方案已公开如上,但并不仅仅限于说明书和实施方案中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里所示出与描述的图例。

Claims (3)

1.一种基于大型系统拓扑结构的容错节点分配方法,其特征在于,包括如下步骤:
步骤一、定义系统拓扑结构中节点位置分布,确定节点的位置;
步骤二、建模任意两个节点同时失效的概率模型,从而得到任意两个节点同时失效函数;
步骤三、计算任意两点同时失效的概率,得到任意两点同时失效的概率为固定值;
步骤四、构建节点分配模型,将计算节点集合抽象成对应的无向加权图G(V,E,W),其中G表示无向加权图,V表示顶点集,E表示边集,W表示边的权集,C表示最大团集;
步骤五、运行覆盖算法,求解最优节点组合,使得集合权值最小,并且将结果保存并返回。
2.如权利要求1所述的基于大型系统拓扑结构的容错节点分配方法,其特征在于,包括如下步骤:
步骤一、定义大型系统拓扑结构中节点的具体位置分布:
1)用1,2,3,…表示系统中计算节点的编号;
2)用xi,yi,zi,ki分别表示计算节点i在整个大型系统拓扑结构中所处的位置;其中xi表示计算节点i所在的主板号,yi表示计算节点i所在的机框号,zi表示计算节点i所在的机柜号,ki表示所计算节点i所在的组号;
3)表示节点i,j同时失效的概率;
步骤二、建模并计算任意两点同时失效的概率函数根据任意两个节点在系统中所处的位置得出配对节点同时失效的概率函数,函数包含五个部分:单节点失效概率,相同主板上节点同时失效概率,相同机框内节点同时失效概率,相同机柜内节点同时失效概率和同排机框内节点同时失效概率;概率函数具体计算过程如下:
3.1)计算单节点失效概率Ps,即节点,平均无故障时间MTBFn的倒数:
3.2)计算电源模块失效概率Pm,电源模块失效概率Pm等于电源模块平均无故障时间MTBFm的倒数:
3.3)计算同机框内两节点同时失效的概率Pb即等于电源模块失效概率Pm,即Pb=Pm
3.4)计算风扇故障概率Pf;风扇故障概率Pf等于风扇平均无故障运行时间MTBFf的倒数:
3.5)计算空调影响的节点失效概率Pc;同一组机柜有相同空调控制温度,一旦空调出现故障,节点也会同样因温度过高而出现故障,于是,空调影响的节点失效概率Pc为空调平均无故障时间MTBFc的倒数:
3.6)计算冷却系统故障导致的节点失效概率Pl;同一排节点也会受到冷却系统故障的影响,冷却系统故障导致的节点失效概率Pl为冷却系统平均无故障时间MTBFl的倒数:
3.7)得出任意两个节点i,j同时失效的失效函数进而得出同时失效函数公式:
其中:
步骤三、计算任意两点i,j同时失效的概率;通过判断两个节点的位置关系,并进一步求出这两个节点同时失效的概率,得到两个节点的位置关系,代入失效函数公式,并将Ps、Pm、Pb、Pf、Pc、Pl的计算公式代入失效函数公式即可可求出节点i,j同时失效的概率;
步骤四、构建节点分配模型:对于任意作业系统给作业分配的计算节点集合,基于概率模型,建立计算节点集合对应的无向加权图G(V,E,W),图的顶点对应所能选取的节点,而连接两个顶点的边表示这两个节点可以被分配在同一个检查点集合内,每条边所加的权值则表示相连两个节点同时失效的概率;
步骤五、运用覆盖算法,对于被抽象成无向加权图G(V,E,W)的目标系统,从中找出一个最优节点组合使得集合权值最小,即整个系统内存检查点出错概率最小。
3.如权利要求1或2所述的基于大型系统拓扑结构的容错节点分配方法,其特征在于,所述覆盖算法为k-clique覆盖算法。
CN201711114201.4A 2017-11-11 2017-11-11 一种基于大型系统拓扑结构的容错节点分配方法 Active CN107908502B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711114201.4A CN107908502B (zh) 2017-11-11 2017-11-11 一种基于大型系统拓扑结构的容错节点分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711114201.4A CN107908502B (zh) 2017-11-11 2017-11-11 一种基于大型系统拓扑结构的容错节点分配方法

Publications (2)

Publication Number Publication Date
CN107908502A true CN107908502A (zh) 2018-04-13
CN107908502B CN107908502B (zh) 2021-11-05

Family

ID=61844934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711114201.4A Active CN107908502B (zh) 2017-11-11 2017-11-11 一种基于大型系统拓扑结构的容错节点分配方法

Country Status (1)

Country Link
CN (1) CN107908502B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117785567A (zh) * 2024-02-28 2024-03-29 上海特高信息技术有限公司 一种基于连接方向的可重构容错策略及重构控制器
CN118113526A (zh) * 2024-04-02 2024-05-31 深圳市爱瑞古德科技有限公司 提高数据中心容灾能力的分布式数据存储规划方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521667A (zh) * 2011-12-26 2012-06-27 华北电力大学(保定) 电力系统阶段式保护运行风险的概率评估方法
CN102842105A (zh) * 2012-07-09 2012-12-26 中国电力科学研究院 一种计及风电不确定性的暂态稳定风险在线评估方法
CN103298107A (zh) * 2013-05-10 2013-09-11 朱旭东 一种基于加权无向图的室内无线定位ap快速部署方法
CN103716250A (zh) * 2014-01-06 2014-04-09 中国人民解放军空军工程大学 面向负载均衡的ip网络弹性路由层优化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521667A (zh) * 2011-12-26 2012-06-27 华北电力大学(保定) 电力系统阶段式保护运行风险的概率评估方法
CN102842105A (zh) * 2012-07-09 2012-12-26 中国电力科学研究院 一种计及风电不确定性的暂态稳定风险在线评估方法
CN103298107A (zh) * 2013-05-10 2013-09-11 朱旭东 一种基于加权无向图的室内无线定位ap快速部署方法
CN103716250A (zh) * 2014-01-06 2014-04-09 中国人民解放军空军工程大学 面向负载均衡的ip网络弹性路由层优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张峰,等: "基于无向加权图的协同生产网络脆弱性分析方法", 《中国机械工程》 *
李斐,等: "基于UWG的客户协同产品创新系统稳定性研究", 《科学学研究》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117785567A (zh) * 2024-02-28 2024-03-29 上海特高信息技术有限公司 一种基于连接方向的可重构容错策略及重构控制器
CN117785567B (zh) * 2024-02-28 2024-05-28 上海特高信息技术有限公司 一种基于连接方向的可重构容错策略及重构控制器
CN118113526A (zh) * 2024-04-02 2024-05-31 深圳市爱瑞古德科技有限公司 提高数据中心容灾能力的分布式数据存储规划方法及系统

Also Published As

Publication number Publication date
CN107908502B (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
Beaudry Performance-related reliability measures for computing systems
Amir et al. Evaluating quorum systems over the internet
Ranganathan et al. Gossip-style failure detection and distributed consensus for scalable heterogeneous clusters
CN109885456A (zh) 一种基于系统日志聚类的多类型故障事件预测方法及装置
CN110932880A (zh) 容错移转装置及方法
CN107908502A (zh) 一种基于大型系统拓扑结构的容错节点分配方法
CN107070645A (zh) 比较数据表的数据的方法和系统
CN105323271A (zh) 一种云计算系统以及云计算系统的处理方法和装置
CN111163485A (zh) 一种传感器网络故障主动感知方法及系统
Paˆris et al. The performance of available copy protocols for the management of replicated data
US20210182110A1 (en) System, board card and electronic device for data accelerated processing
Hugue et al. Reliability modeling of large fault-tolerant systems
CN110798350A (zh) 一种基于不完整状态监测数据学习的系统可靠性模型构建与评估方法
Hedetniemi et al. Fault tolerant distributed coloring algorithms that stabilize in linear time
Chiang Eventually Byzantine Agreement on CDS-based mobile ad hoc network
CN106708714A (zh) 一种计算系统首次被无关触发概率的方法
CN114328036A (zh) 一种硬件故障检测方法、系统及相关设备
Angskun et al. Reliability analysis of self-healing network using discrete-event simulation
CN106777238B (zh) 一种hdfs分布式文件系统的自适应容错调节方法
Chang et al. A generalized grid quorum strategy for k-mutual exclusion in distributed systems
Lu et al. Probabilistic diagnosis of clustered faults for shared structures
Wang et al. A probabilistic approach to fault-tolerant routing algorithm on mesh networks
CN118245291B (zh) 一种面向多类脑芯片级联系统的硬件容错方法与装置
Ogale et al. A fusion-based approach for tolerating faults in finite state machines
Hilderman et al. Performance analysis of a regeneration-based dynamic voting algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant