CN105843706B - 一种基于mpi高性能计算分层回卷恢复协议的动态分组系统 - Google Patents

一种基于mpi高性能计算分层回卷恢复协议的动态分组系统 Download PDF

Info

Publication number
CN105843706B
CN105843706B CN201610171985.3A CN201610171985A CN105843706B CN 105843706 B CN105843706 B CN 105843706B CN 201610171985 A CN201610171985 A CN 201610171985A CN 105843706 B CN105843706 B CN 105843706B
Authority
CN
China
Prior art keywords
message
module
record
migration
application program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610171985.3A
Other languages
English (en)
Other versions
CN105843706A (zh
Inventor
廖小飞
金海�
张斌圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201610171985.3A priority Critical patent/CN105843706B/zh
Publication of CN105843706A publication Critical patent/CN105843706A/zh
Application granted granted Critical
Publication of CN105843706B publication Critical patent/CN105843706B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于MPI高性能计算分层回卷恢复协议的动态分组系统,包括消息监测模块、消息分析模块、进程迁移模块,属于高性能计算和系统容错领域。消息监测模块用于监测MPI高性能计算应用程序中各个进程间的消息传递记录,并将该记录以三元组(源进程、目的进程、消息大小)的格式保存,最后将该消息传递记录提交给消息分析模块;消息分析模块用于对消息监测模块收集到的消息传递记录进行分析,分析出当前应用程序的消息传递模式,作为下次应用程序是否执行进程迁移模块的依据,同时利用前一次的消息传递模式来判断此次是否需要执行进程迁移模块;进程迁移模块用于在应用程序的消息传递模式发生变化时对变化的进程进行迁移操作,从而实现对分层回卷恢复协议性能的优化。

Description

一种基于MPI高性能计算分层回卷恢复协议的动态分组系统
技术领域
本发明属于高性能计算和系统容错领域,更具体地,涉及一种基于MPI高性能计算分层回卷恢复协议的动态分组系统。
背景技术
随着高性能计算领域的发展,高性能计算机已经增长到百万级节点的规模,以后还可能会有进一步的增长。同时,高性能计算机系统其平均无故障时间(Mean TimeBetween Failures,简称MTBF)较以前大幅下降,甚至达到了若干小时的量级。然而,分布式商业应用和大规模科学计算应用程序的数据规模、计算复杂性和运行时间仍维持在较高的水平,甚至运行时间长达数月,远大于MTBF。这将导致系统花费过多的时间来处理系统错误,而严重降低了系统的效率。因此,必须考虑采用有效的容错技术,在保证计算性能的同时,尽可能地提高系统可靠性,以满足应用的需求。
针对MPI HPC应用,最常用的容错技术是回卷恢复技术,其中主要包括协作式检查点和消息日志协议。分层回卷回复协议,结合了协作式检查点和消息日志协议两者的优点,将应用程序的进程分组,并在组内应用协作式检查点,组间应用消息日志协议,避免了错误在组间传播的同时还减少了消息日志的记录。而分层回卷回复协议的核心问题就是如何将应用程序的进程分组以此来提高该协议的效率。一个好的分组策略需要降低组间消息传递的数量来提高系统无错时的性能,同时找到一个合适的分组大小来降低系统出错时带来的回滚开销。
然而,随着大规模的应用程序变得越来越复杂,运行时间越来越长,应用的通讯特点也变得越来越多变和复杂。甚至一个应用中存在多个通讯模式,在应用的不同阶段会有不同的改变。然而,现有的分组策略仅考虑了应用仅有单一通讯模式的情况,并不能适应通讯模式改变的情形。因此,静态分组机制在复杂应用中的效率并不是最好的,分层回卷回复协议的效率也有待进一步的提高。
发明内容
针对现有技术的以上缺陷或改进需求,本发明的目的在于提供一种基于MPI高性能计算分层回卷恢复协议的动态分组系统,旨在解决现有分层回卷恢复协议的分组机制不能适应应用通讯模式改变而导致效率低下的技术问题。
为实现上述目的,本发明提供了一种基于MPI高性能计算分层回卷恢复协议的动态分组系统,包括消息监测模块、消息分析模块、进程迁移模块。消息监测模块用于监测应用程序中各个进程间的消息传递记录,并将该记录以一定的格式保存,并将该消息传递记录提交给消息分析模块;消息分析模块用于对消息监测模块收集到的消息传递记录进行分析,分析出当前应用程序的消息传递模式,并利用分组算法获得当前最优的分组信息,作为下次应用程序是否执行进程迁移模块的依据,同时利用前一次的消息传递模式来判断此次是否需要执行进程迁移模块;进程迁移模块用于在应用程序的消息传递模式发生变化时对相关进程进行迁移操作,实时更新进程分组,实现动态分组功能,如果程序未结束,则重新回到消息监测模块,在新的分组下继续运行应用程序。
消息监测模块监测的信息为应用程序中各个进程的消息传递记录,包括源进程、目的进程、进程间传递的信息的大小、消息传递的时间点。监测功能的实现主要通过使用VampirTrace工具来记录应用程序间的消息传递。
消息分析模块通过分析消息检测模块监测到的进程间消息传递记录,利用分组算法MeTiS得到最佳的分组结果,并与当前使用的分组结果对比,判断是否需要进行进程迁移模块。
进程迁移模块是在当前的分组结果与得到的最佳分组结果不一致时执行的。进程迁移模块执行时,先暂停所有进程的通讯行为,每个进程将自己的进程快照使用BLCR保存,并从源节点传输到目的节点,读取进程快照并在目的节点上恢复进程,所有进程重新建立通讯连接,恢复通讯活动,完成进程迁移。
本发明还提供了一种基于MPI高性能计算分层回卷恢复协议的动态分组方法,包括以下步骤:
(1)初始化进程分组信息Clusterlast,并应用于程序中;
(2)初始化进程间消息传递记录Log;
(3)在一定时间内,消息监测模块监测进程间的消息传递信息,并将该信息以三元组的形式保存到Log中;
(4)消息分析模块从Log中读取消息监测模块保存的消息传递信息记录,并将其转化为二维数组Graph[x][y]中,使用图划分算法MeTiS进行分组,得到新的分组结果Clusternew
(5)对比两次分组Clusterlast和Clusternew,如果相同则跳转步骤(7),否则跳转步骤(6);
(6)执行进程迁移,同时更新分组信息Clusterlast←clusternew
(7)判断程序是否结束,如果是则结束,否则跳转步骤(2)。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下的优点和技术效果:
(1)本发明采用的消息监测模块,仅需要记录传递消息的源进程、目的进程、进程间传递的信息的大小和消息传递的时间点四种信息,较于传统的监测方法,得到了明显的简化,有效的降低了消息监测所引入的额外开销;
(2)本发明采用的消息分析模块,使用MeTiS算法针对进程间的消息传递将进程进行分组,得到的分组结果有效的减少了组间进程通讯消息的大小,从而有效的减少了节点内存的使用;
(3)本发明在消息分析模块中会先对比当前分组和得到的最佳分组,不一致时才执行进程迁移模块,明显的减少了进程迁移的次数,从而减少了进程迁移所引入的额外开销;
(4)本发明在整个系统中以一种运行时的形式工作,不涉及用户层程序的具体代码或额外操作,因此对用户层程序是完全透明的,不需要对用户层程序进行任何改动,具有很强的通用性和可移植性。
附图说明
图1为本发明基于MPI高性能计算分层回卷恢复协议的动态分组系统模块框图;
图2为本发明基于MPI高性能计算分层回卷恢复协议的动态分组方法的流程图;
图3为本发明基于MPI高性能计算分层回卷恢复协议的动态分组系统进程迁移流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明提供了一种基于MPI高性能计算分层回卷恢复协议的动态分组系统,包括消息监测模块、消息分析模块、进程迁移模块。消息监测模块用于监测应用程序中各个进程间的消息传递记录,并将该记录以一定的格式保存,并将该消息传递记录提交给消息分析模块;消息分析模块用于对消息监测模块收集到的消息传递记录进行分析,分析出当前应用程序的消息传递模式,并利用分组算法获得当前最优的分组信息,作为下次应用程序是否执行进程迁移模块的依据,同时利用前一次的消息传递模式来判断此次是否需要执行进程迁移模块;进程迁移模块用于在应用程序的消息传递模式发生变化时对相关进程进行迁移操作,实时更新进程分组,实现动态分组功能,如果程序未结束,则重新回到消息监测模块,在新的分组下继续运行应用程序。
消息监测模块监测的信息为应用程序中各个进程的消息传递记录,包括源进程、目的进程、进程间传递的信息的大小、消息传递的时间点。监测功能的实现主要通过使用VampirTrace工具来记录应用程序间的消息传递。
消息分析模块通过分析消息检测模块监测到的进程间消息传递记录,利用分组算法MeTiS得到最佳的分组结果,并与当前使用的分组结果对比,判断是否需要进行进程迁移模块。
进程迁移模块是在当前的分组结果与得到的最佳分组结果不一致时执行的。进程迁移模块执行时,先暂停所有进程的通讯行为,每个进程将自己的进程快照使用BLCR保存,并从源节点传输到目的节点,读取进程快照并在目的节点上恢复进程,所有进程重新建立通讯连接,恢复通讯活动,完成进程迁移。
如图2所示,本发明提供了一种基于MPI高性能计算分层回卷恢复协议的动态分组方法,包括以下步骤:
(1)初始化进程分组信息Clusterlast,并应用于程序中;
(2)初始化进程间消息传递记录Log;
(3)在一定时间内,消息监测模块监测进程间的消息传递信息,并将该信息以三元组的形式保存到Log中;
(4)消息分析模块从Log中读取消息监测模块保存的消息传递信息记录,并将其转化为二维数组Graph[x][y]中,使用图划分算法MeTiS进行分组,得到新的分组结果Clusternew
(5)对比两次分组Clusterlast和Clusternew,如果相同则跳转步骤(7),否则跳转步骤(6);
(6)执行进程迁移,同时更新分组信息Clusterlast←Clusternew
(7)判断程序是否结束,如果是则结束,否则跳转步骤(2)。
步骤(3)包括了以下子步骤:
(3-1)使用VampirTrace工具获取进程间传递的消息;
(3-2)将获取的消息记录以格式(Source,Dest,Size)三元组的形式保存;
(3-3)将这些信息使用OTF格式转化为文件保存。
步骤(4)包括了以下子步骤:
(4-1)以OTF格式读取文件,将消息记录转化为二维数组Graph[x][y];
(4-2)初始化图划分算法MeTiS需要的数据;
(4-3)使用图划分算法MeTiS进行进程分组,将结果保存到Clusternew中。
步骤(6)包括以下子步骤:
(6-1)暂停进程:所有进程暂停通讯行为,等待在途中消息传输完成,让所有进程进入一致状态;
(6-2)写入进程快照:进程暂停后,每个进程在自己的结点上保存自己当前的状况为快照,并用BLCR将其保存成文件;
(6-3)进程信息传输:将进程快照从源节点传输到目的节点;
(6-4)重启进程:读取进程快照,并通过BLCR在目的节点上恢复进程;
(6-5)重新连接:一旦目的结点上的进程重启了,应用的所有进程同步并重新建立通讯连接,恢复通讯活动,此时进程迁移工作完成。
本发明提供了一种基于MPI高性能计算分层回卷恢复协议的动态分组方法,其中由于采用了步骤(3-2),本发明采用的消息监测模块中,仅需要记录传递消息的源进程、目的进程、进程间传递的信息的大小和消息传递的时间点四种信息,较于传统的监测方法,得到了明显的简化,有效的降低了消息监测所引入的额外开销;由于采用了步骤(4-3),本发明采用的消息分析模块,使用MeTiS算法针对进程间的消息传递将进程进行分组,得到的分组结果有效的减少了组间进程通讯消息的大小,从而有效的减少了节点内存的使用;由于采用了步骤(5),本发明在消息分析模块中会先对比当前分组和得到的最佳分组,不一致时才执行进程迁移模块,明显的减少了进程迁移的次数,从而减少了进程迁移所引入的额外开销;由于采用了步骤(1)-(7),本发明在整个系统中以一种运行时的形式工作,不涉及用户层程序的具体代码或额外操作,因此对用户层程序是完全透明的,不需要对用户层程序进行任何改动,具有很强的通用性和可移植性。
如图3所示,本发明提供了一种基于MPI高性能计算分层回卷恢复协议的动态分组系统,进程迁移模块执行时,先暂停所有进程的通讯行为,每个进程将自己的进程快照使用BLCR保存,并从源节点传输到目的节点,读取进程快照并在目的节点上恢复进程,所有进程重新建立通讯连接,恢复通讯活动,完成进程迁移。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于MPI高性能计算分层回卷恢复协议的动态分组系统,其特征在于,包括消息监测模块、消息分析模块、进程迁移模块,其中:
所述消息监测模块用于监测应用程序中各个进程间的消息传递记录,并将该记录以三元组的格式保存,最后将该消息传递记录提交给消息分析模块,其中三元组包括源进程、目的进程以及消息大小;
所述消息分析模块用于对消息监测模块收集到的消息传递记录进行分析,分析出当前应用程序的消息传递模式,作为下次应用程序是否执行进程迁移模块的依据,同时利用前一次的消息传递模式来判断此次是否需要执行进程迁移模块;
所述进程迁移模块用于在应用程序的消息传递模式发生变化时对相关进程进行迁移操作,实时更新进程分组,实现动态分组功能,如果程序未结束,则重新回到消息监测模块,在新的分组下继续运行应用程序;所述进程迁移模块是在当前的分组结果与得到的最佳分组结果不一致时执行的;进程迁移模块执行时,先暂停所有进程的通讯行为,每个进程将自己的进程快照使用BLCR保存,并从源节点传输到目的节点,读取进程快照并在目的节点上恢复进程,所有进程重新建立通讯连接,恢复通讯活动,完成进程迁移;
所述进程迁移具体为:
暂停进程:所有进程暂停通讯行为,等待在途中消息传输完成,让所有进程进入一致状态;
写入进程快照:进程暂停后,每个进程在自己的结点上保存自己当前的状况为快照,并用BLCR将其保存成文件;
进程信息传输:将进程快照从源节点传输到目的节点;
重启进程:读取进程快照,并通过BLCR在目的节点上恢复进程;
重新连接:一旦目的结点上的进程重启了,应用的所有进程同步并重新建立通讯连接,恢复通讯活动,此时进程迁移工作完成。
2.根据权利要求1所述的动态分组系统,其特征在于,所述消息监测模块对应用程序运行时进程间的消息传递信息进行了监测统计记录,消息监测的内容包括MPI消息的源进程,MPI消息的目的进程以及MPI消息的大小。
3.根据权利要求1或2所述的动态分组系统,其特征在于,所述消息分析模块读取消息监测模块统计的信息记录,并将其转化为二维数组的形式;然后通过MeTiS图划分算法进行分组,得到分组结果;比较当前分组与上次分组,如果相同,则回到程序继续执行消息监测模块,否者进入进程迁移模块。
4.根据权利要求2所述的动态分组系统,其特征在于,所述消息监测模块的监测功能的实现主要通过使用VampirTrace工具来记录应用程序间的消息传递。
5.一种基于MPI高性能计算分层回卷恢复协议的动态分组方法,其特征在于,包括以下步骤:
(1)初始化进程分组信息Clusterlast,并应用于程序中;
(2)初始化进程间消息传递记录Log;
(3)在一定时间内,消息监测模块监测进程间的消息传递信息,并将该信息以三元组的形式保存到Log中;
(4)消息分析模块从Log中读取消息监测模块保存的消息传递信息记录,并将其转化为二维数组Graph[x][y]中,使用图划分算法MeTiS进行分组,得到新的分组结果Clusternew
(5)对比两次分组Clusterlast和Clusternew,如果相同则跳转步骤(7),否则跳转步骤(6);
(6)执行进程迁移,同时更新分组信息Clusterlast←Clusternew
(7)判断程序是否结束,如果是则结束,否则跳转步骤(2);
所述进程迁移是在当前的分组结果与得到的最佳分组结果不一致时执行的;进程迁移模块执行时,先暂停所有进程的通讯行为,每个进程将自己的进程快照使用BLCR保存,并从源节点传输到目的节点,读取进程快照并在目的节点上恢复进程,所有进程重新建立通讯连接,恢复通讯活动,完成进程迁移;步骤(6)包括以下子步骤:
(6-1)暂停进程:所有进程暂停通讯行为,等待在途中消息传输完成,让所有进程进入一致状态;
(6-2)写入进程快照:进程暂停后,每个进程在自己的结点上保存自己当前的状况为快照,并用BLCR将其保存成文件;
(6-3)进程信息传输:将进程快照从源节点传输到目的节点;
(6-4)重启进程:读取进程快照,并通过BLCR在目的节点上恢复进程;
(6-5)重新连接:一旦目的结点上的进程重启了,应用的所有进程同步并重新建立通讯连接,恢复通讯活动,此时进程迁移工作完成。
6.根据权利要求5所述的动态分组方法,其特征在于,所述步骤(3)包括了以下子步骤:
(3-1)使用VampirTrace工具获取进程间传递的消息;
(3-2)将获取的消息记录以格式(Source,Dest,Size)三元组的形式保存;
(3-3)将这些信息使用OTF格式转化为文件保存。
7.根绝权利要求5或6所述的动态分组方法,其特征在于,步骤(4)包括了以下子步骤:
(4-1)以OTF格式读取文件,将消息记录转化为二维数组Graph[x][y];
(4-2)初始化图划分算法MeTiS需要的数据;
(4-3)使用图划分算法MeTiS进行进程分组,将结果保存到Clusternew中。
CN201610171985.3A 2016-03-24 2016-03-24 一种基于mpi高性能计算分层回卷恢复协议的动态分组系统 Active CN105843706B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610171985.3A CN105843706B (zh) 2016-03-24 2016-03-24 一种基于mpi高性能计算分层回卷恢复协议的动态分组系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610171985.3A CN105843706B (zh) 2016-03-24 2016-03-24 一种基于mpi高性能计算分层回卷恢复协议的动态分组系统

Publications (2)

Publication Number Publication Date
CN105843706A CN105843706A (zh) 2016-08-10
CN105843706B true CN105843706B (zh) 2018-12-14

Family

ID=56583200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610171985.3A Active CN105843706B (zh) 2016-03-24 2016-03-24 一种基于mpi高性能计算分层回卷恢复协议的动态分组系统

Country Status (1)

Country Link
CN (1) CN105843706B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109426574B (zh) 2017-08-31 2022-04-05 华为技术有限公司 分布式计算系统,分布式计算系统中数据传输方法和装置
CN112363971A (zh) * 2020-11-10 2021-02-12 王志平 一种超级计算机架构实现方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103019852A (zh) * 2012-11-14 2013-04-03 北京航空航天大学 一种适用于大规模集群的mpi并行程序负载问题三维可视化分析方法
CN104850480A (zh) * 2015-05-18 2015-08-19 曙光信息产业(北京)有限公司 高密度存储服务器硬盘性能测试的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103019852A (zh) * 2012-11-14 2013-04-03 北京航空航天大学 一种适用于大规模集群的mpi并行程序负载问题三维可视化分析方法
CN104850480A (zh) * 2015-05-18 2015-08-19 曙光信息产业(北京)有限公司 高密度存储服务器硬盘性能测试的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SPBC:Leveraging the Characteristics of MPI HPC Applications for Scalable Checkpointing;Thomas Ropars etc.;《IEEE》;20140814;第1-11页 *
基于MPI并行程序的容错系统设计;李飞飞;《电脑知识与技术》;20110228;第7卷(第4期);第817-819页 *
大规模MPI并行计算的可扩展三模冗余容错机制;王之元等;《软件学报》;20120430;第23卷(第4期);第1022-第1034页 *

Also Published As

Publication number Publication date
CN105843706A (zh) 2016-08-10

Similar Documents

Publication Publication Date Title
Yang IoT stream processing and analytics in the fog
Joshi et al. On the delay-storage trade-off in content download from coded distributed storage systems
US10826812B2 (en) Multiple quorum witness
CN102411520B (zh) 一种基于数据单元的地震数据的灾难恢复方法
CN109510856A (zh) 通过存储域网络中的目标设备对交替主要成员端口的标识
WO2019197918A1 (en) Fault-tolerant federated distributed database
Zhuang et al. Hoplite: efficient and fault-tolerant collective communication for task-based distributed systems
CN105721582A (zh) 多节点文件备份系统
Kobusińska et al. Towards increasing reliability of clouds environments with restful web services
CN111769974B (zh) 一种云系统故障诊断方法
CN109144787A (zh) 一种数据恢复方法、装置、设备及可读存储介质
CN105843706B (zh) 一种基于mpi高性能计算分层回卷恢复协议的动态分组系统
Gadiraju et al. Recovery in the mobile wireless environment using mobile agents
Jaggi et al. Staggered checkpointing and recovery in cluster based mobile ad hoc networks
Semmoud et al. A New Fault-Tolerant Algorithm Based on Replication and Preemptive Migration in Cloud Computing
Akash et al. Rapid: A fast data update protocol in erasure coded storage systems for big data
WO2022238345A1 (en) Data synchronization in edge computing networks
CN104516778B (zh) 一种多任务环境下进程检查点的保存与恢复系统及方法
CN111381982B (zh) 一种适用于火星探测的三计算机数据交互与表决方法
CN105516274A (zh) 基于云平台实现对san通用管理的方法及系统
Niederbrucker et al. Improving fault tolerance and accuracy of a distributed reduction algorithm
Hong et al. Retracted: Artificial intelligence point‐to‐point signal communication network optimization based on ubiquitous clouds
Jaggi et al. Message efficient global snapshot recording using a self stabilizing spanning tree in a MANET
Acar et al. Ensuring federated learning reliability for infrastructure-enhanced autonomous driving
CN105631053B (zh) 用于数据库的数据集成分发方法和数据集成分发装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant