CN117076212A - Mpi通信数据内容的一致性检查方法、装置、介质及设备 - Google Patents

Mpi通信数据内容的一致性检查方法、装置、介质及设备 Download PDF

Info

Publication number
CN117076212A
CN117076212A CN202311336990.1A CN202311336990A CN117076212A CN 117076212 A CN117076212 A CN 117076212A CN 202311336990 A CN202311336990 A CN 202311336990A CN 117076212 A CN117076212 A CN 117076212A
Authority
CN
China
Prior art keywords
data
check
data content
consistency check
end process
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311336990.1A
Other languages
English (en)
Other versions
CN117076212B (zh
Inventor
孙超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Carpura Technology Co ltd
Original Assignee
Beijing Carpura Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Carpura Technology Co ltd filed Critical Beijing Carpura Technology Co ltd
Priority to CN202311336990.1A priority Critical patent/CN117076212B/zh
Publication of CN117076212A publication Critical patent/CN117076212A/zh
Application granted granted Critical
Publication of CN117076212B publication Critical patent/CN117076212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2064Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring while ensuring consistency
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/12Applying verification of the received information
    • H04L63/123Applying verification of the received information received data contents, e.g. message integrity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols

Abstract

本发明提供一种MPI通信数据内容的一致性检查方法、装置、介质及设备,响应于发送第一数据内容的MPI通信指令,发送端进程确定第一检查方法并生成第一数据内容的第一检验信息数据;将第一数据内容、第一检查方法的标记和第一检验信息数据合并为第二数据;响应于接收到第二数据的MPI通信指令,接收端进程从第二数据中获取第二检查方法的标记;若收到一致性检查的要求,从第二数据中获取第二数据内容、第二检查方法和第二检验信息数据,根据第二检查方法生成第二数据内容的第三检验信息数据,对比第二检验信息数据和第三检验信息数据确定当前通信的数据内容是否通过一致性检查。实现自动检测MPI通信是否出错,提高应用程序并行运行环境可靠性。

Description

MPI通信数据内容的一致性检查方法、装置、介质及设备
技术领域
本发明涉及MPI(Message Passing Interfaces,消息传递接口)通信技术领域,尤其涉及一种MPI通信数据内容的一致性检查方法、装置、介质及设备。
背景技术
很多应用程序已发展成为并行程序,通过有效使用高性能计算机上的众多计算节点与处理器核,来加快程序的运行。随着计算量的不断提高,应用程序的并行规模随之提升,当前已出现了可有效使用百万级甚至千万级处理器核的并行应用程序。
MPI是并行程序研发过程中最常用的并行编程方式,其提供了在不同进程之间进行数据通信和同步等待等的消息传递接口和功能机制。现在已有大量基于MPI研发的并行应用程序。MPI软件库必须具有稳定性和可靠性,这样才能为各类并行程序的研发提供稳定可靠的基础支撑。其中,MPI软件库可靠性的一种重要表现是:对于任意一条消息通信,该消息通信的接收进程所收到的数据内容与该消息通信的发送进程所发出的数据内容保持完全相同。
现有MPI软件库联合底层的网络软硬件系统,在确保可靠性方面有一些支撑,例如网络系统在数据传输过程中会以握手方式进行信息数据的传递,只有当发送端进程确认接收端进程已收到信息数据后,才会确认通信的完成;而当发送端进程发现接收端进程没有成功收到信息数据时(例如通信网络上的数据信息传递出现了丢包的情况),会重新发送信息数据。尽管这种方式在网络硬件系统没有明显的物理故障(如网线故障或交换机故障等)时,能确保接收端进程获取到信息数据,但并不能确保接收端进程所收到的信息数据完全正确。
在互联网环境下,网络传输的通信链路往往很长,传输过程中容易发生数据内容丢失或被改变的情况。为了检测出这种有错误的情况,TCP/IP等互联网通信协议采用了校验和方法,其在发送端进程按照一定方式计算出待发送信息数据的校验和,发送端进程将信息数据与校验和一起发给接收端进程;接收端进程在收到信息数据与校验和后,根据所收到的数据计算出新校验和,并通过对比收到的校验和与新校验和是否一致,确认接收端进程是否收到了正确的数据内容。
然而,对于高性能计算机中的网络通信而言,由于网络链路比较短,通信过程中信息数据内容出错的概率往往很低,因此几乎不对接收到的数据内容进行检测,即尚未使用上述校验和方法。但是,随着高性能计算机互联的层次结构变得更加复杂、所包含的计算节点越来越多、应用程序的并行规模越来越大,应用程序使用MPI通信过程中发生数据内容错误的概率快速提高。在实际测试中,已发现应用程序在运行一段时间后随机出现通信数据内容出错的现象。这种现象会造成应用程序的运行结果出现难以预计和解释的错误,或使得运行过程不稳定甚至出错退出等。
发明内容
针对上述问题,本发明提供一种MPI通信数据内容的一致性检查方法、装置、介质及设备,以在并行程序运行过程中自动检测MPI通信是否出错,从而提高应用程序并行运行环境的可靠性。
第一方面,本发明提供一种MPI通信数据内容的一致性检查方法,包括:
响应于发送第一数据内容的MPI通信指令,发送端进程确定是否需要对所述第一数据内容进行一致性检查;在需要对所述第一数据内容进行一致性检查的情况下,发送端进程确定一致性检查所采用的第一检查方法,并基于所述第一检查方法生成所述第一数据内容的第一检验信息数据;发送端进程将所述第一数据内容、所述第一检查方法的标记和所述第一检验信息数据合并为第二数据,将所述第二数据的MPI通信指令发送给接收端进程;
响应于接收到第二数据的MPI通信指令,接收端进程从所述第二数据中获取第二检查方法的标记;若收到一致性检查的要求,则从所述第二数据中获取第二数据内容、第二检查方法和第二检验信息数据,根据所述第二检查方法生成所述第二数据内容的第三检验信息数据,通过对比所述第二检验信息数据和第三检验信息数据,确定当前通信的数据内容是否通过一致性检查。
在一些实现方式中,还包括:设置一致性检查功能的开启状态或者关闭状态;
所述发送端进程确定是否需要对所述第一数据内容进行一致性检查,包括:
发送端进程根据已设置的一致性检查功能的开启状态或者关闭状态确定是否需要对所述第一数据内容进行一致性检查。
在一些实现方式中,还包括:设置一致性检查功能的开启状态或者关闭状态,以及一致性检查功能在开启状态下需要进行一致性检查的MPI通信指令和/或检查频率;
所述发送端进程确定是否需要对所述第一数据内容进行一致性检查,包括:
发送端进程根据已设置的一致性检查功能的开启状态或者关闭状态以及一致性检查功能在开启状态下需要进行一致性检查的MPI通信指令,确定是否需要对所述第一数据内容按照所述检查频率进行一致性检查。
在一些实现方式中,所述第一检查方法或所述第二检查方法包括:基于校验和的检查方法和基于镜像复制的数据内容检查方法中的一种或者两种。
在一些实现方式中,所述第一检查方法或所述第二检查方法包括:基于校验和的检查方法和基于镜像复制的数据内容检查方法;
基于所述第一检查方法生成所述第一数据内容的第一检验信息数据,包括:
分别根据基于校验和的检查方法和基于镜像复制的数据内容检查方法,生成所述第一数据内容的第一检验信息数据;
根据所述第二检查方法生成所述第二数据内容的第三检验信息数据,通过对比所述第二检验信息数据和第三检验信息数据,确定当前通信的数据内容是否通过一致性检查,包括:
分别根据基于校验和的检查方法和基于镜像复制的数据内容检查方法,生成所述第二数据内容的第三检验信息数据,若该两种检查方法中至少一种检查方法所生成的第三检验信息数据与对应的第二检验信息数据一致,则确定当前通信的数据内容通过一致性检查。
在一些实现方式中,在所述第一数据内容和所述第二数据内容的数据量超过设定阈值的情况下,基于所述第一检查方法生成所述第一数据内容的第一检验信息数据,包括:基于所述第一检查方法,采用局部采样方式生成所述第一数据内容的第一检验信息数据;根据所述第二检查方法生成所述第二数据内容的第三检验信息数据,包括:根据所述第二检查方法,采用局部采样方式生成所述第二数据内容的第三检验信息数据。
在一些实现方式中,所述局部采样方式包括均一跨距采样、非均一跨距采样、伪随机跨距采样中的一种;所述局部采样方式的采样起点为所述第一数据内容和所述第二数据内容的固定位置或者随着MPI通信次数的增加而动态变化。
在一些实现方式中,所述第一检查方法的标记包含是否需要进行一致性检查的标记信息和所采用的检查方法。
在一些实现方式中,响应于接收到第二数据的MPI通信指令,接收端进程从所述第二数据中获取第二检查方法的标记,包括:
接收端进程按照发送端进程合并第二数据的规则,从所述第二数据中获取第二检查方法的标记;
若无法从所述第二数据中获取到第二检查方法的标记,或所获取到的第二检查方法的标记不合法,则所述第二数据中的数据内容未通过一致性检查。
在一些实现方式中,在当前通信的数据内容未通过一致性检查的情况下,接收端进程尝试恢复正确的数据内容,或者,以报错方式中断应用程序的执行,或者令发送端进程与接收端进程重新发起MPI通信。
第二方面,本发明提供一种MPI通信数据内容的一致性检查装置,包括:
发送端进程响应模块,用于响应于发送第一数据内容的MPI通信指令,发送端进程确定是否需要对所述第一数据内容进行一致性检查;在需要对所述第一数据内容进行一致性检查的情况下,发送端进程确定一致性检查所采用的第一检查方法,并基于所述第一检查方法生成所述第一数据内容的第一检验信息数据;发送端进程将所述第一数据内容、所述第一检查方法的标记和所述第一检验信息数据合并为第二数据,将所述第二数据的MPI通信指令发送给接收端进程;
接收端进程响应模块,用于响应于接收到第二数据的MPI通信指令,接收端进程从所述第二数据中获取第二检查方法的标记;若收到一致性检查的要求,则从所述第二数据中获取第二数据内容、第二检查方法和第二检验信息数据,根据所述第二检查方法生成所述第二数据内容的第三检验信息数据,通过对比所述第二检验信息数据和第三检验信息数据,确定当前通信的数据内容是否通过一致性检查。
第三方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被至少一个处理器执行时,实现如第一方面所述的方法。
第四方面,本发明提供一种电子设备,包括存储器和至少一个处理器,所述存储器上存储有计算机程序,所述计算机程序被所述至少一个处理器执行时实现如第一方面所述的方法。
有益效果:
在并行程序运行过程中,发送端进程响应发送第一数据内容的通信指令,确定当前是否需要对第一数据内容进行一致性检查;在确认需要检查时,确定当前一致性检查所采用的第一检查方法,生成第一数据内容的第一检验信息数据,并将第一数据内容、第一检查方法的标记和第一检验信息数据合并后,发送给接收端进程;接收端进程响应接收MPI通信数据(第二数据)的通信指令,在接收到数据后从中获取到第二检查方法的标记;当收到一致性检测的要求时,从通信数据中获取到第二数据内容、第二检查方法和第二检验信息数据,根据第二检查方法生成第二数据内容的第三检验信息数据,通过对比第二检验信息数据和第三检验信息数据,即可确认当前的MPI通信数据内容是否通过了一致性检查。如此,实现了自动检测MPI通信是否出错,提高了应用程序并行运行环境的可靠性,避免造成应用程序的运行结果出现难以预计和解释的错误,或使得运行过程不稳定甚至出错退出等。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定。
图1是本发明实施例提供的MPI通信数据内容的一致性检查方法流程图;
图2是本发明实施例提供的MPI通信数据内容的一致性检查装置框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例提供一种MPI通信数据内容的一致性检查方法,如图1所示,包括:
步骤S101、响应于发送第一数据内容的MPI通信指令,发送端进程确定是否需要对第一数据内容进行一致性检查;在需要对第一数据内容进行一致性检查的情况下,发送端进程确定一致性检查所采用的第一检查方法,并基于第一检查方法生成第一数据内容的第一检验信息数据;发送端进程将第一数据内容、第一检查方法的标记和第一检验信息数据合并为第二数据,将第二数据的MPI通信指令发送给接收端进程;
步骤S102、响应于接收到第二数据的MPI通信指令,接收端进程从第二数据中获取第二检查方法的标记;若收到一致性检查的要求,则从第二数据中获取第二数据内容、第二检查方法和第二检验信息数据,根据第二检查方法生成第二数据内容的第三检验信息数据,通过对比第二检验信息数据和第三检验信息数据,确定当前通信的数据内容是否通过一致性检查。
本实施例的方法,在并行程序运行过程中,发送端进程响应发送第一数据内容的通信指令,确定当前是否需要对第一数据内容进行一致性检查;在确认需要检查时,确定当前一致性检查所采用的第一检查方法,生成第一数据内容的第一检验信息数据,并将第一数据内容、第一检查方法的标记和第一检验信息数据合并后,发送给接收端进程;接收端进程响应接收MPI通信数据(第二数据)的通信指令,在接收到数据后从中获取到第二检查方法的标记;当收到一致性检测的要求时,从通信数据中获取到第二数据内容、第二检查方法和第二检验信息数据,根据第二检查方法生成第二数据内容的第三检验信息数据,通过对比第二检验信息数据和第三检验信息数据,即可确认当前的MPI通信数据内容是否通过了一致性检查。如此,实现了自动检测MPI通信是否出错,提高了应用程序并行运行环境的可靠性。
在一些实现方式中,本实施例的方法还包括:
步骤S100、设置一致性检查功能的开启状态或者关闭状态。
相应地,发送端进程确定是否需要对第一数据内容进行一致性检查,包括:
发送端进程根据已设置的一致性检查功能的开启状态或者关闭状态确定是否需要对第一数据内容进行一致性检查。
其中,若设置一致性检查功能的状态为开启状态,则需要对第一数据内容按照检查频率进行一致性检查,进而在需要对第一数据内容进行一致性检查的情况下,发送端进程确定一致性检查所采用的第一检查方法,并基于第一检查方法生成第一数据内容的第一检验信息数据。反之,若设置一致性检查功能的状态为关闭状态,则不需要对第一数据内容按照检查频率进行一致性检查。
本实施例支持应用程序开启或关闭MPI通信过程中的一致性检查功能。由于一致性检查会带来额外开销,在通信网络系统100%稳定的高性能计算机上,用户或应用程序可以关闭该检查功能,从而避免额外开销;而在稳定性尚未被证明的通信网络系统环境下,用户或应用程序可以开启该检查功能。通过开启或关闭一致性检查功能,能够适配不同计算机性能或不同用户需求。
在一些实现方式中,本实施例的方法不仅包括设置一致性检查功能的开启状态或者关闭状态,还包括:一致性检查功能在开启状态下需要进行一致性检查的MPI通信指令和/或检查频率;
相应地,发送端进程确定是否需要对第一数据内容进行一致性检查,包括:
发送端进程根据已设置的一致性检查功能的开启状态或者关闭状态以及一致性检查功能在开启状态下需要进行一致性检查的MPI通信指令,确定是否需要对第一数据内容按照检查频率进行一致性检查。
例如,若设置一致性检查功能的状态为开启状态,则需要对第一数据内容进行一致性检查,此情况下,针对已设置的需要进行一致性检查的MPI通信指令进行按照检查频率进行一致性检查;反之,若设置一致性检查功能的状态为关闭状态,则不需要对第一数据内容按照检查频率进行一致性检查。
本实施例中,在已开启一致性检查功能的情况下,用户或应用程序可以通过设置需要进行一致性检查的MPI通信指令,来进一步限定对所有MPI通信指令进行检查,或仅对部分MPI通信指令进行检查。在已开启检查功能的情况下,用户或应用程序可以设置进行一致性检查的频率,例如,每次相关通信指令都检查,还是间隔N次进行一次检查。因此,发送端进程在响应发送第一数据内容的MPI通信指令时,需要确定本次MPI通信指令是否需要对第一数据内容进行一致性检查。
在实际应用中,检查方法可以有多种,包括基于校验和的检查方法和基于镜像复制的数据内容检查方法等。在大多数情况下,如果两个数据序列的校验和相同,则这两个数据序列完全相同;否则,这两个数据序列不完全相同。因此,校验和方法就能够使接收端进程准确判断是否收到了正确的数据。校验和本身的数据量很小(可以小到几个字节),这是校验和方法的明显优势,但是校验和方法不能让接收端进程判断出所收到数据内容中出错的部分。而基于镜像复制的方法可以帮助确定出错的部分数据,这对进一步找出通信网络系统的错误有积极意义。尽管镜像复制方法会明显增加通信量,但其对MPI小消息通信(如数据量在几十KB以下)的性能影响往往有限,因为此时通信开销集中在建立通信链接的延迟上,因此,镜像复制方法仍具有应用前景。
本实施例中,第一检查方法或第二检查方法包括:基于校验和的检查方法和基于镜像复制的数据内容检查方法中的一种或者两种。也就是说,第一检查方法、第二检查方法即可以指基于校验和的检查方法,也可以指基于镜像复制的数据内容检查方法,还可以指基于校验和的检查方法与于镜像复制的数据内容检查方法的结合。
在第一检查方法或第二检查方法包括基于校验和的检查方法和基于镜像复制的数据内容检查方法的情况下,基于第一检查方法生成第一数据内容的第一检验信息数据,包括:分别根据基于校验和的检查方法和基于镜像复制的数据内容检查方法,生成第一数据内容的第一检验信息数据;
相应地,根据第二检查方法生成第二数据内容的第三检验信息数据,通过对比第二检验信息数据和第三检验信息数据,确定当前通信的数据内容是否通过一致性检查,包括:分别根据基于校验和的检查方法和基于镜像复制的数据内容检查方法,生成第二数据内容的第三检验信息数据,若该两种检查方法中至少一种检查方法所生成的第三检验信息数据与对应的第二检验信息数据一致,则确定当前通信的数据内容通过一致性检查。
本实施例中,将校验和与镜像复制结合起来使用,既进行镜像复制,又计算并使用校验和。这种结合可以使得接收端进程在数据内容通信有错的情况,仍有机会找出正确的数据内容,而无需发送端进程重新发送数据内容。例如,当接收端进程发现收到的第二数据内容与收到的校验和不一致,但收到的镜像复制数据内容与收到的校验和一致时,可以把镜像复制数据内容确定为正确收到的数据。
在第一数据内容和第二数据内容的数据量超过设定阈值的情况下,基于第一检查方法生成第一数据内容的第一检验信息数据,包括:基于第一检查方法,采用局部采样方式生成第一数据内容的第一检验信息数据;根据第二检查方法生成第二数据内容的第三检验信息数据,包括:根据第二检查方法,采用局部采样方式生成第二数据内容的第三检验信息数据。
其中,设定阈值是指出错的bit数量上限,可以根据实际情况和需求设定,本实施例中不做具体数值的限定。
当第一数据内容的数据量较大时,无论是基于镜像复制还是校验和的检测方法,都会带来较大开销。此时数据内容的检查还可以进一步融合局部采样,仅对第一数据内容中的部分数据进行镜像复制或求取校验和。
其中,局部采样也可以有多种方式,本实施例中的局部采样方式可以包括均一跨距采样(例如对于10MB大小的数据,每间隔100KB位置采样出10KB数据)、非均一跨距采样、伪随机跨距采样中的一种;局部采样方式的采样起点为第一数据内容和第二数据内容的固定位置或者随着MPI通信次数的增加而动态变化(例如,第一次通信从第0字节位置开始采样,第二次通信从第10K字节位置开始采样)。
在具体实现时,MPI通信过程中所采用的检查方法及是否使用局部采样,既可以由用户或应用程序设定,也可以由MPI系统自适应决定。例如对于小消息的通信,MPI系统可自动采用镜像复制、或镜像复制与校验和结合的方法,且不采用局部采样(即考虑所有待发送数据);对于大消息,自动采用局部采样以降低开销。
下表对检查方法进行了进一步说明:
本实施例中的基于校验和的检查方法,既可以包括传统的求取校验和的方法,还可以包含CRC、ECC等在一定长度内拥有检查和纠正若干比特内的错误的方法(简称纠错方法),由此应对通信过程中因网络传输介质不稳定而导致的偶发性比特级错误。这类方法附加的校验与纠错用的数据量较少,对数据的传输总量影响较小,同时因为存在纠错能力,在遇到错误的时候可以自行纠错并恢复正确数据,而不需要再次进行数据传输。在一些情况下,这类纠错方法也存在一定缺陷,即:只能检测出一个校验区域内的若干比特以内的错误和纠正若干比特内的错误(例如,传统的ECC算法只能保证检测出不超过2比特的错误,只能修复1比特的错误),一旦错误超过上限阈值就可能无法检出或者修复。因此纠错方法可以与传统校验和方法配合使用。
在将第一数据内容、第一检查方法的标记和第一检验信息数据合并为一条综合消息作为第一数据时,第一检验信息数据可以是镜像复制产生的、计算校验和产生的、或二者联合产生的。在一些情况下,第一检查方法的标记包含是否需要进行一致性检查的标记信息和所采用的检查方法。在另一些情况下,第一检查方法的标记还可以进一步包含是否使用局部采样、以及如何进行局部采样的标记信息(如果存在)。
接收端进程按照发送端进程合并数据信息的规则,从第二数据中获取到第二检查方法的标记,在一些情况下,第二检查方法的标记中包含是否进行一致性检查的标记信息和所采用的检查方法。在另一些情况下,第二检查方法的标记中还可以进一步包含是否使用局部采样、以及如何进行局部采样的标记信息(如果存在)。
当接收到的数据信息有误的时候,可能出现无法正确获取到第二检查方法的标记的情况,例如第二检查方法标记中的信息内容不符合规则。这种情况下无法进一步开展一致性检查,则需要认为当前通信数据未通过一致性检查。
因此,相应地,响应于接收到第二数据的MPI通信指令,接收端进程从第二数据中获取第二检查方法的标记,包括:
接收端进程按照发送端进程合并第二数据的规则,从第二数据中获取第二检查方法的标记;以及
若无法从第二数据中获取到第二检查方法的标记,,所获取到的第二检查方法的标记不合法,则第二数据中的数据内容未通过一致性检查。
本实施例中,接收端进程解析出相应信息,按照相应规则获取到第三检验信息数据。当一致性检查方法包括镜像复制时,第三检验信息数据包括第二数据内容的相应镜像复制数据;当一致性检查方法包括校验和计算时,第三检验信息数据包括根据第二数据内容得到的校验和。
当一致性检查方法包括基于镜像复制的数据内容检查方法时,对比方法就是第三检验信息数据与第二检验信息数据中相应部分之间的逐个数据对比。当一致性检查方法包括基于校验和的检查方法时,对比方法就是第三检验信息数据中的校验和与第二检验信息数据中的校验和的对比。如果对比结果为一致,则当前通信数据确认通过了一致性检查;否则,确认未通过一致性检查。
在通过对比第二检验信息数据和第三检验信息数据,确定当前通信的数据内容未通过一致性检查的情况下,检验方法允许的话,接收端进程尝试恢复正确的数据内容,或者,以报错方式中断应用程序的执行,或者令发送端进程与接收端进程重新发起MPI通信。
实施例二
本实施例提供一种MPI通信数据内容的一致性检查装置,如图2所示,包括:
发送端进程响应模块201,用于响应于发送第一数据内容的MPI通信指令,发送端进程确定是否需要对第一数据内容进行一致性检查;在需要对第一数据内容进行一致性检查的情况下,发送端进程确定一致性检查所采用的第一检查方法,并基于第一检查方法生成第一数据内容的第一检验信息数据;发送端进程将第一数据内容、第一检查方法的标记和第一检验信息数据合并为第二数据,将第二数据的MPI通信指令发送给接收端进程;
接收端进程响应模块202,用于响应于接收到第二数据的MPI通信指令,接收端进程从第二数据中获取第二检查方法的标记;若收到一致性检查的要求,则从第二数据中获取第二数据内容、第二检查方法和第二检验信息数据,根据第二检查方法生成第二数据内容的第三检验信息数据,通过对比第二检验信息数据和第三检验信息数据,确定当前通信的数据内容是否通过一致性检查。
本实施例的装置,在并行程序运行过程中,发送端进程响应发送第一数据内容的通信指令,确定当前是否需要对第一数据内容进行一致性检查;在确认需要检查时,确定当前一致性检查所采用的第一检查方法,生成第一数据内容的第一检验信息数据,并将第一数据内容、第一检查方法的标记和第一检验信息数据合并后,发送给接收端进程;接收端进程响应接收MPI通信数据(第二数据)的通信指令,在接收到数据后从中获取到第二检查方法的标记;当收到一致性检测的要求时,从通信数据中获取到第二数据内容、第二检查方法和第二检验信息数据,根据第二检查方法生成第二数据内容的第三检验信息数据,通过对比第二检验信息数据和第三检验信息数据,即可确认当前的MPI通信数据内容是否通过了一致性检查。如此,实现了自动检测MPI通信是否出错,提高了应用程序并行运行环境的可靠性。
在一些实现方式中,本实施例的装置还包括:
设置模块,用于设置一致性检查功能的开启状态或者关闭状态。
相应地,发送端进程确定是否需要对第一数据内容进行一致性检查,包括:
发送端进程根据已设置的一致性检查功能的开启状态或者关闭状态确定是否需要对第一数据内容进行一致性检查。
其中,若设置一致性检查功能的状态为开启状态,则需要对第一数据内容按照检查频率进行一致性检查,进而在需要对第一数据内容进行一致性检查的情况下,发送端进程确定一致性检查所采用的第一检查方法,并基于第一检查方法生成第一数据内容的第一检验信息数据。反之,若设置一致性检查功能的状态为关闭状态,则不需要对第一数据内容按照检查频率进行一致性检查。
本实施例支持应用程序开启或关闭MPI通信过程中的一致性检查功能。由于一致性检查会带来额外开销,在通信网络系统100%稳定的高性能计算机上,用户或应用程序可以关闭该检查功能,从而避免额外开销;而在稳定性尚未被证明的通信网络系统环境下,用户或应用程序可以开启该检查功能。通过开启或关闭一致性检查功能,能够适配不同计算机性能或不同用户需求。
在一些实现方式中,设置模块不仅设置一致性检查功能的开启状态或者关闭状态,还设置一致性检查功能在开启状态下需要进行一致性检查的MPI通信指令和/或检查频率;
相应地,发送端进程确定是否需要对第一数据内容进行一致性检查,包括:
发送端进程根据已设置的一致性检查功能的开启状态或者关闭状态以及一致性检查功能在开启状态下需要进行一致性检查的MPI通信指令,确定是否需要对第一数据内容按照检查频率进行一致性检查。
例如,若设置一致性检查功能的状态为开启状态,则需要对第一数据内容进行一致性检查,此情况下,针对已设置的需要进行一致性检查的MPI通信指令进行按照检查频率进行一致性检查;反之,若设置一致性检查功能的状态为关闭状态,则不需要对第一数据内容按照检查频率进行一致性检查。
本实施例中,在已开启一致性检查功能的情况下,用户或应用程序可以通过设置需要进行一致性检查的MPI通信指令,来进一步限定对所有MPI通信指令进行检查,或仅对部分MPI通信指令进行检查。在已开启检查功能的情况下,用户或应用程序可以设置进行一致性检查的频率,例如,每次相关通信指令都检查,还是间隔N次进行一次检查。因此,发送端进程在响应发送第一数据内容的MPI通信指令时,需要确定本次MPI通信指令是否需要对第一数据内容进行一致性检查。
在实际应用中,检查方法可以有多种,包括基于校验和的检查方法和基于镜像复制的数据内容检查方法等。在大多数情况下,如果两个数据序列的校验和相同,则这两个数据序列完全相同;否则,这两个数据序列不完全相同。因此,校验和方法就能够使接收端进程准确判断是否收到了正确的数据。校验和本身的数据量很小(可以小到几个字节),这是校验和方法的明显优势,但是校验和方法不能让接收端进程判断出所收到数据内容中出错的部分。而基于镜像复制的方法可以帮助确定出错的部分数据,这对进一步找出通信网络系统的错误有积极意义。尽管镜像复制方法会明显增加通信量,但其对MPI小消息通信(如数据量在几十KB以下)的性能影响往往有限,因为此时通信开销集中在建立通信链接的延迟上,因此,镜像复制方法仍具有应用前景。
本实施例中,第一检查方法或第二检查方法包括:基于校验和的检查方法和基于镜像复制的数据内容检查方法中的一种或者两种。也就是说,第一检查方法、第二检查方法即可以指基于校验和的检查方法,也可以指基于镜像复制的数据内容检查方法,还可以指基于校验和的检查方法与于镜像复制的数据内容检查方法的结合。
在第一检查方法或第二检查方法包括基于校验和的检查方法和基于镜像复制的数据内容检查方法的情况下,基于第一检查方法生成第一数据内容的第一检验信息数据,包括:分别根据基于校验和的检查方法和基于镜像复制的数据内容检查方法,生成第一数据内容的第一检验信息数据;
相应地,根据第二检查方法生成第二数据内容的第三检验信息数据,通过对比第二检验信息数据和第三检验信息数据,确定当前通信的数据内容是否通过一致性检查,包括:分别根据基于校验和的检查方法和基于镜像复制的数据内容检查方法,生成第二数据内容的第三检验信息数据,若该两种检查方法中至少一种检查方法所生成的第三检验信息数据与对应的第二检验信息数据一致,则确定当前通信的数据内容通过一致性检查。
本实施例中,将校验和与镜像复制结合起来使用,既进行镜像复制,又计算并使用校验和。这种结合可以使得接收端进程在数据内容通信有错的情况,仍有机会找出正确的数据内容,而无需发送端进程重新发送数据内容。例如,当接收端进程发现收到的第二数据内容与收到的校验和不一致,但收到的镜像复制数据内容与收到的校验和一致时,可以把镜像复制数据内容确定为正确收到的数据。
在第一数据内容和第二数据内容的数据量超过设定阈值的情况下,基于第一检查方法生成第一数据内容的第一检验信息数据,包括:基于第一检查方法,采用局部采样方式生成第一数据内容的第一检验信息数据;根据第二检查方法生成第二数据内容的第三检验信息数据,包括:根据第二检查方法,采用局部采样方式生成第二数据内容的第三检验信息数据。
其中,设定阈值是指出错的bit数量上限,可以根据实际情况和需求设定,本实施例中不做具体数值的限定。
当第一数据内容的数据量较大时,无论是基于镜像复制还是校验和的检测方法,都会带来较大开销。此时数据内容的检查还可以进一步融合局部采样,仅对第一数据内容中的部分数据进行镜像复制或求取校验和。
其中,局部采样也可以有多种方式,本实施例中的局部采样方式可以包括均一跨距采样(例如对于10MB大小的数据,每间隔100KB位置采样出10KB数据)、非均一跨距采样、伪随机跨距采样中的一种;局部采样方式的采样起点为第一数据内容和第二数据内容的固定位置或者随着MPI通信次数的增加而动态变化(例如,第一次通信从第0字节位置开始采样,第二次通信从第10K字节位置开始采样)。
在具体实现时,MPI通信过程中所采用的检查方法及是否使用局部采样,既可以由用户或应用程序设定,也可以由MPI系统自适应决定。例如对于小消息的通信,MPI系统可自动采用镜像复制、或镜像复制与校验和结合的方法,且不采用局部采样(即考虑所有待发送数据);对于大消息,自动采用局部采样以降低开销。
本实施例中的基于校验和的检查方法,既可以包括传统的求取校验和的方法,还可以包含CRC、ECC等在一定长度内拥有检查和纠正若干比特内的错误的方法(简称纠错方法),由此应对通信过程中因网络传输介质不稳定而导致的偶发性比特级错误。这类方法附加的校验与纠错用的数据量较少,对数据的传输总量影响较小,同时因为存在纠错能力,在遇到错误的时候可以自行纠错并恢复正确数据,而不需要再次进行数据传输。在一些情况下,这类纠错方法也存在一定缺陷,即:只能检测出一个校验区域内的若干比特以内的错误和纠正若干比特内的错误(例如,传统的ECC算法只能保证检测出不超过2比特的错误,只能修复1比特的错误),一旦错误超过上限阈值就可能无法检出或者修复。因此纠错方法可以与传统校验和方法配合使用。
在将第一数据内容、第一检查方法的标记和第一检验信息数据合并为一条综合消息作为第一数据时,第一检验信息数据可以是镜像复制产生的、计算校验和产生的、或二者联合产生的。在一些情况下,第一检查方法的标记包含是否需要进行一致性检查的标记信息和所采用的检查方法。在另一些情况下,第一检查方法的标记还可以进一步包含是否使用局部采样、以及如何进行局部采样的标记信息(如果存在)。
接收端进程按照发送端进程合并数据信息的规则,从第二数据中获取到第二检查方法的标记,在一些情况下,第二检查方法的标记中包含是否进行一致性检查的标记信息和所采用的检查方法。在另一些情况下,第二检查方法的标记中还可以进一步包含是否使用局部采样、以及如何进行局部采样的标记信息(如果存在)。
当接收到的数据信息有误的时候,可能出现无法正确获取到第二检查方法的标记的情况,例如第二检查方法标记中的信息内容不符合规则。这种情况下无法进一步开展一致性检查,则需要认为当前通信数据未通过一致性检查。
因此,相应地,响应于接收到第二数据的MPI通信指令,接收端进程从第二数据中获取第二检查方法的标记,包括:
接收端进程按照发送端进程合并第二数据的规则,从第二数据中获取第二检查方法的标记;以及
若无法从第二数据中获取到第二检查方法的标记,或所获取到的第二检查方法的标记不合法,则第二数据中的数据内容未通过一致性检查。
本实施例中,接收端进程解析出相应信息,按照相应规则获取到第三检验信息数据。当一致性检查方法包括镜像复制时,第三检验信息数据包括第二数据内容的相应镜像复制数据;当一致性检查方法包括校验和计算时,第三检验信息数据包括根据第二数据内容得到的校验和。
当一致性检查方法包括基于镜像复制的数据内容检查方法时,对比方法就是第三检验信息数据与第二检验信息数据中相应部分之间的逐个数据对比。当一致性检查方法包括基于校验和的检查方法时,对比方法就是第三检验信息数据中的校验和与第二检验信息数据中的校验和的对比。如果对比结果为一致,则当前通信数据确认通过了一致性检查;否则,确认未通过一致性检查。
在通过对比第二检验信息数据和第三检验信息数据,确定当前通信的数据内容未通过一致性检查的情况下,检验方法允许的话,接收端进程尝试恢复正确的数据内容,或者,以报错方式中断应用程序的执行,或者令发送端进程与接收端进程重新发起MPI通信。
实施例三
本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被至少一个处理器执行时,实现实施例一的方法。
实施例四
本实施例提供一种电子设备,包括存储器和至少一个处理器,存储器上存储有计算机程序,计算机程序被至少一个处理器执行时实现实施例一的方法。
上述计算机可读存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
上述处理器可以是专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(Digital Signal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable LogicDevice,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器 (Microcontroller Unit, MCU)、微处理器或其他电子元件实现,用于执行上述实施例中的方法。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的。
需要说明的是,在本文中,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (13)

1.一种MPI通信数据内容的一致性检查方法,其特征在于,包括:
响应于发送第一数据内容的MPI通信指令,发送端进程确定是否需要对所述第一数据内容进行一致性检查;在需要对所述第一数据内容进行一致性检查的情况下,发送端进程确定一致性检查所采用的第一检查方法,并基于所述第一检查方法生成所述第一数据内容的第一检验信息数据;发送端进程将所述第一数据内容、所述第一检查方法的标记和所述第一检验信息数据合并为第二数据,将所述第二数据的MPI通信指令发送给接收端进程;
响应于接收到第二数据的MPI通信指令,接收端进程从所述第二数据中获取第二检查方法的标记;若收到一致性检查的要求,则从所述第二数据中获取第二数据内容、第二检查方法和第二检验信息数据,根据所述第二检查方法生成所述第二数据内容的第三检验信息数据,通过对比所述第二检验信息数据和第三检验信息数据,确定当前通信的数据内容是否通过一致性检查。
2.根据权利要求1所述的MPI通信数据内容的一致性检查方法,其特征在于,还包括:设置一致性检查功能的开启状态或者关闭状态;
所述发送端进程确定是否需要对所述第一数据内容进行一致性检查,包括:
发送端进程根据已设置的一致性检查功能的开启状态或者关闭状态确定是否需要对所述第一数据内容进行一致性检查。
3.根据权利要求1所述的MPI通信数据内容的一致性检查方法,其特征在于,还包括:设置一致性检查功能的开启状态或者关闭状态,以及一致性检查功能在开启状态下需要进行一致性检查的MPI通信指令和/或检查频率;
所述发送端进程确定是否需要对所述第一数据内容进行一致性检查,包括:
发送端进程根据已设置的一致性检查功能的开启状态或者关闭状态以及一致性检查功能在开启状态下需要进行一致性检查的MPI通信指令,确定是否需要对所述第一数据内容按照所述检查频率进行一致性检查。
4.根据权利要求1所述的MPI通信数据内容的一致性检查方法,其特征在于,所述第一检查方法或所述第二检查方法包括:基于校验和的检查方法和基于镜像复制的数据内容检查方法中的一种或者两种。
5.根据权利要求4所述的MPI通信数据内容的一致性检查方法,其特征在于,所述第一检查方法或所述第二检查方法包括:基于校验和的检查方法和基于镜像复制的数据内容检查方法;
基于所述第一检查方法生成所述第一数据内容的第一检验信息数据,包括:
分别根据基于校验和的检查方法和基于镜像复制的数据内容检查方法,生成所述第一数据内容的第一检验信息数据;
根据所述第二检查方法生成所述第二数据内容的第三检验信息数据,通过对比所述第二检验信息数据和第三检验信息数据,确定当前通信的数据内容是否通过一致性检查,包括:
分别根据基于校验和的检查方法和基于镜像复制的数据内容检查方法,生成所述第二数据内容的第三检验信息数据,若该两种检查方法中至少一种检查方法所生成的第三检验信息数据与对应的第二检验信息数据一致,则确定当前通信的数据内容通过一致性检查。
6.根据权利要求1所述的MPI通信数据内容的一致性检查方法,其特征在于,在所述第一数据内容和所述第二数据内容的数据量超过设定阈值的情况下,基于所述第一检查方法生成所述第一数据内容的第一检验信息数据,包括:基于所述第一检查方法,采用局部采样方式生成所述第一数据内容的第一检验信息数据;根据所述第二检查方法生成所述第二数据内容的第三检验信息数据,包括:根据所述第二检查方法,采用局部采样方式生成所述第二数据内容的第三检验信息数据。
7.根据权利要求6所述的MPI通信数据内容的一致性检查方法,其特征在于,所述局部采样方式包括均一跨距采样、非均一跨距采样、伪随机跨距采样中的一种;所述局部采样方式的采样起点为所述第一数据内容和所述第二数据内容的固定位置或者随着MPI通信次数的增加而动态变化。
8.根据权利要求1所述的MPI通信数据内容的一致性检查方法,其特征在于,所述第一检查方法的标记包含是否需要进行一致性检查的标记信息和所采用的检查方法。
9.根据权利要求1所述的MPI通信数据内容的一致性检查方法,其特征在于,响应于接收到第二数据的MPI通信指令,接收端进程从所述第二数据中获取第二检查方法的标记,包括:
接收端进程按照发送端进程合并第二数据的规则,从所述第二数据中获取第二检查方法的标记;
若无法从所述第二数据中获取到第二检查方法的标记,或所获取到的第二检查方法的标记不合法,则所述第二数据中的数据内容未通过一致性检查。
10.根据权利要求1所述的MPI通信数据内容的一致性检查方法,其特征在于,在当前通信的数据内容未通过一致性检查的情况下,接收端进程尝试恢复正确的数据内容,或者,以报错方式中断应用程序的执行,或者令发送端进程与接收端进程重新发起MPI通信。
11.一种MPI通信数据内容的一致性检查装置,其特征在于,包括:
发送端进程响应模块,用于响应于发送第一数据内容的MPI通信指令,发送端进程确定是否需要对所述第一数据内容进行一致性检查;在需要对所述第一数据内容进行一致性检查的情况下,发送端进程确定一致性检查所采用的第一检查方法,并基于所述第一检查方法生成所述第一数据内容的第一检验信息数据;发送端进程将所述第一数据内容、所述第一检查方法的标记和所述第一检验信息数据合并为第二数据,将所述第二数据的MPI通信指令发送给接收端进程;
接收端进程响应模块,用于响应于接收到第二数据的MPI通信指令,接收端进程从所述第二数据中获取第二检查方法的标记;若收到一致性检查的要求,则从所述第二数据中获取第二数据内容、第二检查方法和第二检验信息数据,根据所述第二检查方法生成所述第二数据内容的第三检验信息数据,通过对比所述第二检验信息数据和第三检验信息数据,确定当前通信的数据内容是否通过一致性检查。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被至少一个处理器执行时,实现如权利要求1至10中任一项所述的方法。
13.一种电子设备,其特征在于,包括存储器和至少一个处理器,所述存储器上存储有计算机程序,所述计算机程序被所述至少一个处理器执行时实现如权利要求1至10中任一项所述的方法。
CN202311336990.1A 2023-10-17 2023-10-17 Mpi通信数据内容的一致性检查方法、装置、介质及设备 Active CN117076212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311336990.1A CN117076212B (zh) 2023-10-17 2023-10-17 Mpi通信数据内容的一致性检查方法、装置、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311336990.1A CN117076212B (zh) 2023-10-17 2023-10-17 Mpi通信数据内容的一致性检查方法、装置、介质及设备

Publications (2)

Publication Number Publication Date
CN117076212A true CN117076212A (zh) 2023-11-17
CN117076212B CN117076212B (zh) 2024-02-23

Family

ID=88715658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311336990.1A Active CN117076212B (zh) 2023-10-17 2023-10-17 Mpi通信数据内容的一致性检查方法、装置、介质及设备

Country Status (1)

Country Link
CN (1) CN117076212B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101278512A (zh) * 2005-09-29 2008-10-01 杜比实验室特许公司 在基于分组的通信网中利用数据一致性检验进行纠错
CN101369241A (zh) * 2007-09-21 2009-02-18 中国科学院计算技术研究所 一种机群容错系统、装置及方法
CN105515835A (zh) * 2015-11-26 2016-04-20 北京航空航天大学 一种具有通信完整性检查功能的航空航天tte网络系统级网关
CN110572296A (zh) * 2019-07-17 2019-12-13 国网江苏省电力有限公司电力科学研究院 一种物联网终端设备通信协议一致性安全检测方法
CN110674005A (zh) * 2019-08-30 2020-01-10 苏州浪潮智能科技有限公司 一种监控服务器内存的方法、设备及可读介质
CN111290918A (zh) * 2020-02-26 2020-06-16 苏州浪潮智能科技有限公司 服务器运行状态监控方法、装置及计算机可读存储介质
CN113765976A (zh) * 2020-11-13 2021-12-07 北京京东乾石科技有限公司 一种通信方法和系统
WO2022267233A1 (zh) * 2021-06-23 2022-12-29 浙江中控技术股份有限公司 基于冗余设备的通信故障检测方法、设备和系统
CN115878333A (zh) * 2023-02-07 2023-03-31 北京卡普拉科技有限公司 进程组间的一致性判断方法、装置及设备
CN116737736A (zh) * 2023-06-08 2023-09-12 中国工商银行股份有限公司 数据一致性检查及修复方法、装置、设备、介质及产品

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101278512A (zh) * 2005-09-29 2008-10-01 杜比实验室特许公司 在基于分组的通信网中利用数据一致性检验进行纠错
CN101369241A (zh) * 2007-09-21 2009-02-18 中国科学院计算技术研究所 一种机群容错系统、装置及方法
CN105515835A (zh) * 2015-11-26 2016-04-20 北京航空航天大学 一种具有通信完整性检查功能的航空航天tte网络系统级网关
CN110572296A (zh) * 2019-07-17 2019-12-13 国网江苏省电力有限公司电力科学研究院 一种物联网终端设备通信协议一致性安全检测方法
CN110674005A (zh) * 2019-08-30 2020-01-10 苏州浪潮智能科技有限公司 一种监控服务器内存的方法、设备及可读介质
CN111290918A (zh) * 2020-02-26 2020-06-16 苏州浪潮智能科技有限公司 服务器运行状态监控方法、装置及计算机可读存储介质
CN113765976A (zh) * 2020-11-13 2021-12-07 北京京东乾石科技有限公司 一种通信方法和系统
WO2022267233A1 (zh) * 2021-06-23 2022-12-29 浙江中控技术股份有限公司 基于冗余设备的通信故障检测方法、设备和系统
CN115878333A (zh) * 2023-02-07 2023-03-31 北京卡普拉科技有限公司 进程组间的一致性判断方法、装置及设备
CN116737736A (zh) * 2023-06-08 2023-09-12 中国工商银行股份有限公司 数据一致性检查及修复方法、装置、设备、介质及产品

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张杰智;任国林;: "一种基于信道不可靠环境的协调式检查点协议", 计算机技术与发展, no. 02 *

Also Published As

Publication number Publication date
CN117076212B (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
CN113472607B (zh) 应用程序网络环境检测方法、装置、设备及存储介质
US9780938B2 (en) Patch download with improved acknowledge mechanism
WO2022116088A1 (zh) 固件数据处理方法及装置
EP1224548A1 (en) Mechanism to improve fault isolation and diagnosis in computers
WO2019057023A1 (zh) 数据恢复方法、发送/接收装置和计算机可读存储介质
US20230023776A1 (en) Codeword Synchronization Method, Receiver, Network Device, and Network System
CN117076212B (zh) Mpi通信数据内容的一致性检查方法、装置、介质及设备
CN110870286B (zh) 容错处理的方法、装置和服务器
CN115129509A (zh) 一种数据传输方法、装置、介质
TWI789453B (zh) 記憶體和操作該記憶體的方法
US9094162B2 (en) Error detection and correction of a data transmission
CN112003793B (zh) 一种数据镜像方法、装置、设备及介质
CN115484084B (zh) 单向数据传输方法及相关设备
KR101623305B1 (ko) 정보 검사 장치 및 방법과 정보 검사 장치를 포함하는 정보 처리 시스템
JP4702104B2 (ja) 通信装置、通信処理方法および通信処理プログラム
US11729643B2 (en) Communication device and image forming apparatus
CN113835940B (zh) 一种设置串行中断模式的方法、系统、设备和存储介质
CN117785782A (zh) 基于NVMe 2.0协议的数据检测方法、装置、设备及介质
CN116820832B (zh) 一种用于高速数据传输的错误校验方法、介质及装置
CN115633044B (zh) 报文的处理方法、装置、电子设备及存储介质
CN117971556A (zh) 一种交换机启动方法、装置、计算设备及可读存储介质
CN110838896B (zh) Ack/nack检测方法、装置及基站
CN117471144A (zh) 伺服设备的虚拟示波器数据处理方法、装置、设备及介质
CN115604251A (zh) 一种文件断点续传方法、装置、设备及可读存储介质
CN116668433A (zh) 数据传输方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant