CN104572283B - 一种暂停与恢复mpi并行应用程序运行的方法 - Google Patents

一种暂停与恢复mpi并行应用程序运行的方法 Download PDF

Info

Publication number
CN104572283B
CN104572283B CN201510003469.5A CN201510003469A CN104572283B CN 104572283 B CN104572283 B CN 104572283B CN 201510003469 A CN201510003469 A CN 201510003469A CN 104572283 B CN104572283 B CN 104572283B
Authority
CN
China
Prior art keywords
mpi
signal
communication
run
tcp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510003469.5A
Other languages
English (en)
Other versions
CN104572283A (zh
Inventor
曾小荟
罗文良
刘春�
龙满生
李金忠
刘欢
欧阳春娟
卜登立
吕敬祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xuzhou Junmai Network Technology Co ltd
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201510003469.5A priority Critical patent/CN104572283B/zh
Publication of CN104572283A publication Critical patent/CN104572283A/zh
Application granted granted Critical
Publication of CN104572283B publication Critical patent/CN104572283B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种暂停与恢复MPI并行应用程序运行的方法,事先需要暂停一些优先级低的并行计算任务,以便给新的紧急并行计算任务让出更多计算资源。具体地说:当MPI并行应用程序运行过程中收到暂停或恢复信号时,巧妙地利用改造的MPI库函数、改造的Linux操作系统信号机制与改造的TCP通信协议,协调一致地暂停或恢复MPI并行应用程序的各个进程。由于本方法是在MPI并行应用程序的下层改造MPI库函数、Linux操作系统信号机制与TCP通信协议,因此,对于在它们上层运行的MPI并行应用程序是透明的,该方法可以大大方便对MPI并行应用程序运行的控制与调度。

Description

一种暂停与恢复MPI并行应用程序运行的方法
技术领域
本发明属于计算机技术领域,涉及一种并行应用程序运行的控制方法,具体地说,涉及一种暂停与恢复MPI(Message Passing Interface,消息传递接口,简称为MPI)并行应用程序运行的方法。
背景技术
在并行计算机系统之中,为了解决随时插入紧急MPI并行计算任务的难题,必然需要挂起/暂停一些优先级低的并行计算任务,以便给新的紧急并行计算任务让出更多计算资源。目前,绝大多数的并行应用程序本身没有提供挂起/暂停的功能,而是需要从并行应用程序外部来完成该项任务,也就是需要同步地保存并行应用程序在各个计算节点上面进程的运行状态以及通信状态,其中的难点之一就在如何保存各个进程间的通信状态,使之保持一致性,然后挂起/暂停该程序,最后待紧急并行计算任务完成后,恢复运行被挂起/暂停的MPI并行应用程序。
一般来说,目前有两个办法来解决保存并行程序进程间通信状态一致性的问题:
一是从操作系统层着手来保存正在运行的并行程序的各种状态,然后暂停或中断该并行程序,等到运行完紧急任务后,再从暂停点继续运行程序或者从中断点处运行程序,这就需要操作系统提供直接的支持。然而,就我们所掌握的文献与资料来看,尽管目前在并行程序的容错方面取得了不少成果,比如运用检查点/卷回技术,但是实现比较复杂,需要大量修改操作系统内核,并且需要把并行应用程序的运行状态信息及通信状态信息保存到磁盘,在保存与恢复过程中要花费不少时间。
二是在应用层提供额外的接口支持,这需要充分利用操作系统提供的进程运行状态等信息,辅之以通信协议的支持,在保存好MPI并行应用程序的相关运行状态信息及通信状态信息后,就可以相对容易地暂停或中断并行应用程序,经过若干时间后再恢复运行。这种方法在国内外也有初步的尝试,存在的难点主要是普通的通信协议(比如TCP/IP通信协议)提供的支持非常有限,因此实现起来非常困难。就第二种解决挂起或暂停并行程序的方法而言,需要通信协议提供支持,从而能够获得MPI各个进程足够多的通信状态信息,以方便保存并行应用程序的信息,并且保证各个进程间通信状态的一致性,否则按照系统默认的方式挂起并行应用程序时,会导致正在进行通信的进程由于超时退出,最终导致整个并行应用程序的崩溃。
在传统的TCP/IP通信协议中,数据传输出错重传的最大时间大约为9分钟,该时间在目前的TCP通信协议实现中(某些商业版Solaris版本允许系统管理员改变这个时间)是不可变的,因此如果按照普通方式在以太网环境下把并行应用程序暂停,最终会使某些进程通信超时退出,进而导致整个并行应用程序的崩溃。我们在四台CPU为奔四2.8Ghz、内存为1GB的计算机硬件平台上(操作系统为Centos Linux 5.0)测试,如果按照普通方式暂停MPI并行应用程序的运行,该程序会因为通信超时而退出,超时退出时间大约为15分钟。
发明内容
本发明的目的在于克服上述技术存在的缺陷,提供一种暂停与恢复MPI并行应用程序运行的方法,解决在并行计算机系统之中随时插入紧急MPI并行计算任务的难题,事先需要暂停一些优先级低的并行计算任务,以便给新的紧急并行计算任务让出更多计算资源。具体地说:当MPI并行应用程序运行过程中收到暂停运行或继续运行信号时,巧妙地利用改造的MPI库函数、改造的Linux操作系统信号机制与改造的TCP通信协议,协调一致地暂停或恢复MPI并行应用程序的各个进程。由于本方法是在MPI并行应用程序的下层改造MPI库函数、Linux操作系统信号机制与TCP通信协议,对于在它们上层运行的MPI并行应用程序是透明的,因此,现有的MPI并行应用程序可以无缝运行在我们改造的系统之上,不需要对MPI并行应用程序的源代码做任何的修改,我们的方法可以大大方便对MPI并行应用程序运行的控制与调度。
其具体技术方案为:
一种暂停与恢复MPI并行应用程序运行的方法,充分利用我们改造的MPI库函数、改造的Linux操作系统信号机制与改造的TCP通信协议,协调一致地暂停或恢复MPI并行应用程序,包括以下步骤:
步骤1.在Linux操作系统中改造TCP通信协议的实现,在TCP通信协议实现中增加控制接口函数tcp_ioctl_MPI(),用来查询MPI进程间通信的详细状态,进而控制进程间的通信与处理各个进程间的通信同步问题。
步骤2.在Linux操作系统中改造信号机制,修改“处理暂停运行信号”的接口函数catch_tstp(),使并行应用程序在收到暂停运行信号时,先进入下层TCP通信协议,调用增加的控制接口函数tcp_ioctl_MPI(),解决各个进程间的通信暂停以及通信同步问题,即完成正在传输的数据,然后待通信状态一致后暂停通信,最后从下层TCP通信协议返回,按照系统默认的方式暂停运行;同时,修改“处理继续运行信号”的接口函数catch_cont(),使并行应用程序在收到继续运行信号时,先进入下层TCP通信协议,调用增加的控制接口函数tcp_ioctl_MPI(),解决各个进程间通信恢复以及通信同步问题,然后待各个进程间通信状态一致后,从下层TCP通信协议返回,按照系统默认的方式恢复运行。
步骤3.MPI_Init()函数是所有MPI并行应用程序调用的第一个MPI库函数,在该函数体的初始部分就立即安装暂停信号,使并行应用程序一开始运行就具有接收暂停信号的能力,也就是调用系统函数signal(SIGTSTP,catch_tstp)。这样,一旦MPI并行应用程序接收到暂停信号,就会调用修改的函数catch_tstp(),在函数catch_tstp()执行过程中,又会先进入下层TCP通信协议之中调用函数tcp_ioctl_MPI(),用来处理进程间的通信同步问题,在处理完通信同步后,该MPI并行应用程序的各个进程间暂停用户数据的通信,各个进程间仅仅接收与发送控制信息的通信,然后该并行应用程序的各个进程按照系统默认的暂停方式暂停运行,从而使整个并行应用程序暂停运行。
另外,也在MPI_Init()函数体内初始部分就立即安装继续运行信号,使并行应用程序一开始运行就具有接收继续运行信号的能力,也就是调用系统函数signal(SIGCONT,catch_cont)。这样,一旦MPI并行应用程序接收到继续运行信号,就会调用修改的函数catch_cont(),在函数catch_cont()执行过程中,又会先进入下层TCP通信协议,调用tcp_ioctl_MPI()处理进程间的通信同步问题,在处理完通信同步后,再按照系统默认的方式继续运行。
步骤4.当MPI并行应用程序接收到暂停信号时,由于在MPI并行应用程序调用的第一个MPI库函数MPI_Init()中事先安装了暂停信号,因此,MPI并行应用程序会通过signal(SIGTSTP,catch_tstp)函数调用修改的函数catch_tstp(),在catch_tstp()执行过程中又会进入TCP通信协议之中调用tcp_ioctl_MPI()函数处理完正在传输的用户数据(这里指把一条完整的消息传输完成),然后暂停进程的后续用户数据通信,以保证MPI并行应用程序在被暂停运行时,MPI并行应用程序的所有进程间没有正在传输的用户数据,各个进程间仅仅接收与发送控制信息的通信。
具体来说,当需要暂停并行应用程序时,通过MPI并行应用程序的主控进程所在的计算节点命令行界面,向MPI并行应用程序的主控进程发送暂停信号,然后MPI并行应用程序的各个进程进行如下步骤的操作:
(1)在MPI并行应用程序的主控进程已经接收到暂停运行信号后,通知其他非主控进程准备暂停运行;
(2)其他非主控进程回复主控进程,确认获得暂停运行的消息;
(3)并行应用程序的各个进程完成正在传输的用户数据,然后主控进程检查各进程间通信状态的一致性;
(4)若并行应用程序的各个进程通信状态一致,则暂停用户数据的通信,各个进程间仅仅接收与发送控制信息的通信;
(5)最后,MPI主控进程从TCP通信协议中返回后,立即执行系统默认的暂停运行操作;而非主控进程也各自从TCP通信协议中返回,立即执行系统默认的暂停运行操作;
步骤5.当需要恢复运行MPI并行应用程序时,通过MPI并行应用程序的主控进程所在的计算节点命令行界面,向MPI并行应用程序的主控进程发送继续运行信号,并行应用程序收到继续运行信号时,由于在MPI并行应用程序调用的第一个MPI库函数MPI_Init()中事先安装了继续运行信号,因此,MPI并行应用程序会通过signal(SIGCONT,catch_cont)函数调用修改的函数catch_cont(),在catch_cont()执行过程中又会进入TCP通信协议之中调用tcp_ioctl_MPI()函数,接着进行后续的用户数据通信,进而恢复整个并行应用程序的运行。
本方法所述的MPI并行应用程序恢复运行的具体操作步骤如下:
(1)在MPI主控进程已经接收到继续运行信号后,发送控制消息通知其他非主控进程准备继续运行;
(2)非主控进程所在的操作系统内核收到主控进程发来的控制消息要求继续运行后,给各个非主控进程发送继续运行信号;
(3)其他非主控进程回复主控进程,确认获得继续运行的消息;主控进程从非主控进程获得确认恢复运行的消息,然后各个进程间恢复正常的用户数据通信;
(4)MPI主控进程从TCP通信协议中返回后,执行继续运行操作;
(5)非主控进程各自也从TCP通信协议中返回,执行继续运行操作。
与现有技术相比,本发明的有益效果为:
为了解决随时插入紧急MPI并行计算任务的难题,必然需要挂起/暂停一些优先级低的并行计算任务,以便给新的紧急并行计算任务让出更多计算资源。本方法提出了一种暂停与恢复MPI并行应用程序运行的方法,在并行计算机系统之中,当MPI并行应用程序运行过程中收到暂停或继续运行信号时,利用改造的MPI库函数、改造的Linux操作系统信号机制与改造的TCP通信协议,协调一致地暂停或恢复MPI并行应用程序的各个进程。本方法在暂停或恢复MPI并行应用程序的过程中,不会出现MPI并行应用程序中的某一个或某几个进程因为通信超时而退出,最终避免因为某一个或某几个进程因通信超时退出而导致整个MPI并行应用程序崩溃的问题。本方法可以大大方便对MPI并行应用程序运行的控制与调度,不需要对MPI并行应用程序的源代码做任何的修改,现有的MPI并行应用程序可以无缝运行在我们改造的系统之上,解决了在并行计算机系统之中随时插入紧急MPI并行计算任务的难题。
附图说明
图1为本发明方法“暂停或恢复MPI并行应用程序运行”的处理过程示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合附图和具体实例进一步阐述本发明。
图1说明了本方法“暂停或恢复MPI并行应用程序运行”的处理过程,主要过程是这样的:
步骤1.在Linux操作系统中改造TCP通信协议的实现,在TCP通信协议实现中增加控制接口函数tcp_ioctl_MPI(),用来查询MPI进程间通信的详细状态,进而控制进程间的通信与处理各个进程间的通信同步问题。
步骤2.在Linux操作系统中改造信号机制,修改“处理暂停运行信号”的接口函数catch_tstp(),使并行应用程序在收到暂停运行信号时,先进入下层TCP通信协议,调用增加的控制接口函数tcp_ioctl_MPI(),解决各个进程间的通信暂停以及通信同步问题,即完成正在传输的数据,然后待通信状态一致后暂停通信,最后从下层TCP通信协议返回,按照系统默认的方式暂停运行;同时,修改“处理继续运行信号”的接口函数catch_cont(),使并行应用程序在收到继续运行信号时,先进入下层TCP通信协议,调用增加的控制接口函数tcp_ioctl_MPI(),解决各个进程间通信恢复以及通信同步问题,然后待各个进程间通信状态一致后,从下层TCP通信协议返回,按照系统默认的方式恢复运行。
步骤3.MPI_Init()函数是所有MPI并行应用程序调用的第一个MPI库函数,在该函数体的初始部分就立即安装暂停信号,使并行应用程序一开始运行就具有接收暂停信号的能力,也就是调用系统函数signal(SIGTSTP,catch_tstp)。这样,一旦MPI并行应用程序接收到暂停信号,就会调用修改的函数catch_tstp(),在函数catch_tstp()执行过程中,又会先进入下层TCP通信协议之中调用函数tcp_ioctl_MPI(),用来处理进程间的通信同步问题,在处理完通信同步后,该MPI并行应用程序的各个进程间暂停用户数据的通信,各个进程间仅仅接收与发送控制信息的通信,然后该并行应用程序的各个进程按照系统默认的暂停方式暂停运行,从而使整个并行应用程序暂停运行。
另外,也在MPI_Init()函数体内初始部分就立即安装继续运行信号,使并行应用程序一开始运行就具有接收继续运行信号的能力,也就是调用系统函数signal(SIGCONT,catch_cont)。这样,一旦MPI并行应用程序接收到继续运行信号,就会调用修改的函数catch_cont(),在函数catch_cont()执行过程中,又会先进入下层TCP通信协议,调用tcp_ioctl_MPI()处理进程间的通信同步问题,在处理完通信同步后,再按照系统默认的方式继续运行。
步骤4.当MPI并行应用程序接收到暂停信号时,由于在MPI并行应用程序调用的第一个MPI库函数MPI_Init()中事先安装了暂停信号,因此,MPI并行应用程序会通过signal(SIGTSTP,catch_tstp)函数调用修改的函数catch_tstp(),在catch_tstp()执行过程中又会进入TCP通信协议之中调用tcp_ioctl_MPI()函数处理完正在传输的用户数据(这里指把一条完整的消息传输完成),然后暂停进程的后续用户数据通信,以保证MPI并行应用程序在被暂停运行时,MPI并行应用程序的所有进程间没有正在传输的用户数据,各个进程间仅仅接收与发送控制信息的通信。
具体来说,当需要暂停并行应用程序时,通过MPI并行应用程序的主控进程所在的计算节点命令行界面,向MPI并行应用程序的主控进程发送暂停信号,然后MPI并行应用程序的各个进程进行如下步骤的操作:
(1)在MPI并行应用程序的主控进程已经接收到暂停运行信号后,通知其他非主控进程准备暂停运行;
(2)其他非主控进程回复主控进程,确认获得暂停运行的消息;
(3)并行应用程序的各个进程完成正在传输的用户数据,然后主控进程检查各进程间通信状态的一致性;
(4)若并行应用程序的各个进程通信状态一致,则暂停用户数据的通信,各个进程间仅仅接收与发送控制信息的通信;
(5)最后,MPI主控进程从TCP通信协议中返回后,立即执行系统默认的暂停运行操作;而非主控进程也各自从TCP通信协议中返回,立即执行系统默认的暂停运行操作;
步骤5.当需要恢复运行MPI并行应用程序时,通过MPI并行应用程序的主控进程所在的计算节点命令行界面,向MPI并行应用程序的主控进程发送继续运行信号,并行应用程序收到继续运行信号时,由于在MPI并行应用程序调用的第一个MPI库函数MPI_Init()中事先安装了继续运行信号,因此,MPI并行应用程序会通过signal(SIGCONT,catch_cont)函数调用修改的函数catch_cont(),在catch_cont()执行过程中又会进入TCP通信协议之中调用tcp_ioctl_MPI()函数,接着进行后续的用户数据通信,进而恢复整个并行应用程序的运行。
本方法所述的MPI并行应用程序恢复运行的具体操作步骤如下:
(1)在MPI主控进程已经接收到继续运行信号后,发送控制消息通知其他非主控进程准备继续运行;
(2)非主控进程所在的操作系统内核收到主控进程发来的控制消息要求继续运行后,给各个非主控进程发送继续运行信号;
(3)其他非主控进程回复主控进程,确认获得继续运行的消息;主控进程从非主控进程获得确认恢复运行的消息,然后各个进程间恢复正常的用户数据通信;
(4)MPI主控进程从TCP通信协议中返回后,执行继续运行操作;
(5)非主控进程各自也从TCP通信协议中返回,执行继续运行操作。
本发明提出了一种暂停与恢复MPI并行应用程序运行的方法,能够挂起/暂停一些优先级低的MPI并行计算任务,以便给新的紧急MPI并行计算任务让出更多计算资源,从而解决了随时插入紧急MPI并行计算任务的难题,本方法可以大大方便对MPI并行应用程序的控制与调度。
以上所述,仅为本发明最佳实施方式,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可显而易见地得到的技术方案的简单变化或等效替换均落入本发明的保护范围之内。

Claims (1)

1.一种暂停与恢复MPI并行应用程序运行的方法,其特征在于,包括以下步骤:
步骤1.在Linux操作系统中改造TCP通信协议的实现,在TCP通信协议实现中增加控制接口函数tcp_ioctl_MPI(),用来查询MPI进程间通信的详细状态,进而控制进程间的通信与处理各个进程间的通信同步问题;
步骤2.在Linux操作系统中改造信号机制,修改“处理暂停运行信号”的接口函数catch_tstp(),使并行应用程序在收到暂停运行信号时,先进入下层TCP通信协议,调用增加的控制接口函数tcp_ioctl_MPI(),解决各个进程间的通信暂停以及通信同步问题,即完成正在传输的数据,然后待通信状态一致后暂停通信,最后从下层TCP通信协议返回,按照系统默认的方式暂停运行;同时,修改“处理继续运行信号”的接口函数catch_cont(),使并行应用程序在收到继续运行信号时,先进入下层TCP通信协议,调用增加的控制接口函数tcp_ioctl_MPI(),解决各个进程间通信恢复以及通信同步问题,然后待各个进程间通信状态一致后从下层TCP通信协议返回,按照系统默认的方式恢复运行;
步骤3.MPI_Init()函数是所有MPI并行应用程序调用的第一个MPI库函数,在函数体的初始部分就立即安装暂停信号,使并行应用程序一开始运行就具有接收暂停信号的能力,也就是调用系统函数signal(SIGTSTP,catch_tstp);这样,一旦MPI并行应用程序接收到暂停信号,就会调用修改的接口函数catch_tstp(),在接口函数catch_tstp()执行过程中,又会先进入下层TCP通信协议之中调用函数tcp_ioctl_MPI(),用来处理进程间的通信同步问题,在处理完通信同步后,该MPI并行应用程序的各个进程间暂停用户数据的通信,各个进程间仅仅接收与发送控制信息的通信,然后该并行应用程序的各个进程按照系统默认的暂停方式暂停运行,从而使整个并行应用程序暂停运行;
另外,也在MPI_Init()函数体内初始部分就立即安装继续运行信号,使并行应用程序一开始运行就具有接收继续运行信号的能力,也就是调用系统函数signal(SIGCONT,catch_cont),这样,一旦MPI并行应用程序接收到继续运行信号,就会调用修改的接口函数catch_cont(),在接口函数catch_cont()执行过程中,又会先进入下层TCP通信协议,调用tcp_ioctl_MPI()处理进程间的通信同步问题,在处理完通信同步后,再按照系统默认的方式继续运行;
步骤4.当MPI并行应用程序接收到暂停信号时,由于在MPI并行应用程序调用的第一个MPI库函数MPI_Init()中事先安装了暂停信号,因此,MPI并行应用程序会通过signal(SIGTSTP,catch_tstp)函数调用修改的接口函数catch_tstp(),在接口函数catch_tstp()执行过程中又会进入TCP通信协议之中调用tcp_ioctl_MPI()函数处理完正在传输的用户数据,这里指把一条完整的消息传输完成,然后暂停进程的后续用户数据通信,以保证MPI并行应用程序在被暂停运行时,MPI并行应用程序的所有进程间没有正在传输的用户数据,各个进程间仅仅接收与发送控制信息的通信;
具体来说,当需要暂停并行应用程序时,通过MPI并行应用程序的主控进程所在的计算节点命令行界面,向MPI并行应用程序的主控进程发送暂停信号,然后MPI并行应用程序的各个进程进行如下步骤的操作:
(1)在MPI并行应用程序的主控进程已经接收到暂停运行信号后,通知其他非主控进程准备暂停运行;
(2)其他非主控进程回复主控进程,确认获得暂停运行的消息;
(3)并行应用程序的各个进程完成正在传输的用户数据,然后主控进程检查各进程间通信状态的一致性;
(4)若并行应用程序的各个进程通信状态一致,则暂停用户数据的通信,各个进程间仅仅接收与发送控制信息的通信;
(5)最后,MPI主控进程从TCP通信协议中返回后,立即执行系统默认的暂停运行操作;而非主控进程也各自从TCP通信协议中返回,立即执行系统默认的暂停运行操作;
步骤5.当需要恢复运行MPI并行应用程序时,通过MPI并行应用程序的主控进程所在的计算节点命令行界面,向MPI并行应用程序的主控进程发送继续运行信号,并行应用程序收到继续运行信号时,由于在MPI并行应用程序调用的第一个MPI库函数MPI_Init()中事先安装了继续运行信号,因此,MPI并行应用程序会通过signal(SIGCONT,catch_cont)函数调用修改的接口函数catch_cont(),在接口函数catch_cont()执行过程中又会进入TCP通信协议之中调用tcp_ioctl_MPI()函数,接着进行后续的用户数据通信,进而恢复整个并行应用程序的运行;
方法所述的MPI并行应用程序恢复运行的具体操作步骤如下:
(1)在MPI主控进程已经接收到继续运行信号后,发送控制消息通知其他非主控进程准备继续运行;
(2)非主控进程所在的操作系统内核收到主控进程发来的控制消息要求继续运行后,给各个非主控进程发送继续运行信号;
(3)其他非主控进程回复主控进程,确认获得继续运行的消息;主控进程从非主控进程获得确认恢复运行的消息,然后各个进程间恢复正常的用户数据通信;
(4)MPI主控进程从TCP通信协议中返回后,执行继续运行操作;
(5)非主控进程各自也从TCP通信协议中返回,执行继续运行操作。
CN201510003469.5A 2015-01-06 2015-01-06 一种暂停与恢复mpi并行应用程序运行的方法 Active CN104572283B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510003469.5A CN104572283B (zh) 2015-01-06 2015-01-06 一种暂停与恢复mpi并行应用程序运行的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510003469.5A CN104572283B (zh) 2015-01-06 2015-01-06 一种暂停与恢复mpi并行应用程序运行的方法

Publications (2)

Publication Number Publication Date
CN104572283A CN104572283A (zh) 2015-04-29
CN104572283B true CN104572283B (zh) 2017-12-05

Family

ID=53088430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510003469.5A Active CN104572283B (zh) 2015-01-06 2015-01-06 一种暂停与恢复mpi并行应用程序运行的方法

Country Status (1)

Country Link
CN (1) CN104572283B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6819660B2 (ja) * 2018-09-26 2021-01-27 横河電機株式会社 プロセス制御システム、プロセス制御装置、及びプログラム更新方法
CN112306714A (zh) * 2020-10-30 2021-02-02 联想(北京)有限公司 控制方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345422A (zh) * 2013-07-02 2013-10-09 厦门雅迅网络股份有限公司 一种基于Linux的多线程硬实时控制方法
CN103699449A (zh) * 2013-12-20 2014-04-02 北京遥测技术研究所 一种适用于监控mpi并行软件的通信方法
CN103744643A (zh) * 2014-01-10 2014-04-23 浪潮(北京)电子信息产业有限公司 一种多线程程序下多节点并行架构的方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2881308B1 (fr) * 2005-01-21 2007-03-23 Meiosys Soc Par Actions Simpli Procede d'acceleration de la transmission de donnees de journalisation en environnement multi ordinateurs et systeme utilisant ce procede
US7613597B2 (en) * 2006-01-20 2009-11-03 International Business Machines Corporation Non-intrusive method for simulation or replay of external events related to an application process, and a system implementing said method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345422A (zh) * 2013-07-02 2013-10-09 厦门雅迅网络股份有限公司 一种基于Linux的多线程硬实时控制方法
CN103699449A (zh) * 2013-12-20 2014-04-02 北京遥测技术研究所 一种适用于监控mpi并行软件的通信方法
CN103744643A (zh) * 2014-01-10 2014-04-23 浪潮(北京)电子信息产业有限公司 一种多线程程序下多节点并行架构的方法及装置

Also Published As

Publication number Publication date
CN104572283A (zh) 2015-04-29

Similar Documents

Publication Publication Date Title
CN108737468B (zh) 云平台服务集群、构建方法及装置
US11294699B2 (en) Dynamically scaled hyperconverged system establishing minimum supported interoperable communication protocol between clusters in a cluster group
US10768960B2 (en) Method for affinity binding of interrupt of virtual network interface card, and computer device
CN103744716B (zh) 一种基于当前vcpu调度状态的动态中断均衡映射方法
CN106201742B (zh) 一种共享内存管理方法、装置及系统
US10489183B2 (en) Virtual machine migration method and apparatus
CN102439564A (zh) 在Linux容器中启动应用程序的方法和系统
CN105677465B (zh) 应用于银行跑批处理的数据处理方法及装置
WO2015139510A1 (zh) 一种集群部署方法
CN107368353B (zh) 一种实现虚拟机内存热添加的方法和装置
CN105589697A (zh) 一种云平台的升级方法及装置
CN103873534A (zh) 一种应用集群迁移方法及装置
WO2020119377A1 (zh) 应用模块的启动方法、容器、控制设备及可读存储介质
WO2022267646A1 (zh) 一种容器集的部署方法及装置
CN111399968B (zh) 一种基于容器的虚拟资源管理方法、装置及系统
CN104572283B (zh) 一种暂停与恢复mpi并行应用程序运行的方法
WO2019000790A1 (zh) 一种以同步方式进行远程过程调用的方法及装置
CN105262604A (zh) 虚拟机迁移方法及设备
WO2017000586A1 (zh) 虚拟网元的升级方法、装置和计算机存储介质
CN115580645A (zh) 一种服务切换方法、装置、电子设备和存储介质
CN105446805B (zh) shell脚本子进程管理方法及系统
WO2019000791A1 (zh) 一种以异步方式进行远程过程调用的方法及装置
JP6564839B2 (ja) 組み込み型オペレーティングシステムに基づくmpi実現システムおよび方法
CN116319758A (zh) 数据迁移方法、装置、电子设备及可读存储介质
CN109728937A (zh) 一种语音模组的网络状态更新的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Zeng Xiaohui

Inventor after: Luo Wenliang

Inventor after: Liu Chun

Inventor after: Long Mansheng

Inventor after: Li Jinzhong

Inventor after: Liu Huan

Inventor after: Ouyang Chunjuan

Inventor after: Bo Dengli

Inventor after: Lv Jingxiang

Inventor before: Zeng Xiaohui

Inventor before: Luo Wenlang

Inventor before: Long Mansheng

Inventor before: Li Jinzhong

Inventor before: Bo Dengli

Inventor before: Lv Jingxiang

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20191022

Address after: 536000 Beihai city jinhaian Road No. 45 the Guangxi Zhuang Autonomous Region North Bay technology innovation center 4 Building No. 0905

Patentee after: Beihai Hesi Technology Co., Ltd.

Address before: 343009 Ji'an city of Jiangxi province Qingyuan District University of Jinggangshan Telecommunications Institute

Patentee before: Zeng Xiao Hui

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20191127

Address after: Room c506a-18, University Business Park, No. 99, University Road, Xuzhou hi tech Industrial Development Zone, Xuzhou City, Jiangsu Province

Patentee after: Xuzhou rongchuangda Electronic Technology Co., Ltd

Address before: 536000 Beihai city jinhaian Road No. 45 the Guangxi Zhuang Autonomous Region North Bay technology innovation center 4 Building No. 0905

Patentee before: Beihai Hesi Technology Co., Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210311

Address after: 221000 room 9b08, 9th floor, 113-115 Zhongshan South Road, Yunlong District, Xuzhou City, Jiangsu Province

Patentee after: Xuzhou Junmai Network Technology Co.,Ltd.

Address before: Room c506a-18, University Pioneer Park, 99 Daxue Road, Xuzhou hi tech Industrial Development Zone, 221000, Jiangsu Province

Patentee before: Xuzhou rongchuangda Electronic Technology Co.,Ltd.

TR01 Transfer of patent right