一种移动分布式计算系统及存储节点容错信息的方法
技术领域
本发明属于分布式计算容错领域,特别是一种移动分布式计算系统及存储节点容错信息的方法。
背景技术
移动分布式计算系统具有移动性、快速搭建性、自治性、拓扑结构易变性和对等性等特点,应用前景十分广泛。与传统的固定网络分布式计算相比,移动分布式计算系统的通讯带宽窄、移动主机节点的存储容量有限且易丢失、电池供电能力有限及移动主机节点的移动性,使其随着系统规模的增长,系统出错的概率大大增加。单个节点的错误可导致整个系统崩溃并损失前面所有的计算,传统分布式计算的容错技术已不适合移动分布式计算系统。
由于移动主机节点的存储器通常容量有限且不可靠,目前移动分布式计算检查点卷回恢复容错策略中都是利用基站上的可靠存储器存储移动主机节点计算进程状态,即移动主机节点每采取一新的进程检查点,会将其传输到本地基站,并由本地基站将收到的计算进程检查点信息保存在可靠存储器上。在移动分布式计算检查点卷回恢复容错策略中,根据预先设定的检查点周期,移动主机节点会周期性创建计算进程检查点并将其传送到基站。尤其是在一些协同检查点卷回恢复容错策略中,由于各移动主机节点创建计算进程检查点的时间大致相同,移动主机节点向基站发送各自计算进程检查点的时间也基本相同。由于基站通常仅具备有限的无线通信接口和无线频段,移动主机节点同时向基站发送进程检查点信息时,必然会有相互重叠通道中信号的碰撞产生,即产生无线传输冲突。所述进程检查点同时创建即传送的方式,在各移动主机节点向其基站传输进程检查点的过程中会相互产生严重的信号干扰,降低了移动分布式计算系统无线通信的传输吞吐量,甚至可能影响到移动主机节点计算进程间的正常通信。
发明内容
本发明的目的在于提供一种移动分布式计算系统及存储节点容错信息的方法,用于解决移动主机节点向基站传输计算进程检查点过程中产生的无线信号干扰,有效保障容错机制下移动分布式计算系统的通信吞吐量和性能。
实现本发明目的的技术方案为:一种移动分布式计算系统,包括网络共享存储设备和多个服务域,每个服务域包括一个基站和多个移动主机节点;
所述基站包括容错信息管理模块和无线接口,所述移动主机节点为具备无线通信模块的移动终端,基站与相应服务域内的移动主机节点无线连接,不同服务域的基站与基站之间有线连接;
所述网络共享存储设备与系统中各基站相连;基站利用容错信息管理模块按序收集并维护移动主机节点的容错信息,并将收集到的节点容错信息存储于网络共享存储设备,实现移动主机节点容错信息的存储与共享。
一种移动分布式计算系统的存储节点容错信息的方法,包括以下步骤:
步骤1、依据移动主机节点使用的检查点回卷恢复容错机制,在本地基站上配置并启用容错信息管理模块;
步骤2、基站的容错信息管理模块为服务域内的移动主机节点维护不重复的序号SN,SN为自然数,之后设定基准时间UT;
步骤3、基站的容错信息管理模块按照SN顺序收集移动主机节点的容错信息;
步骤4、基站的容错信息管理模块将收集到的节点容错信息通过高速有线网存储于网络共享存储设备,实现移动主机节点容错信息的存储与共享功能。
本发明与现有技术相比,其显著效果为:(1)本发明利用容错信息管理模块按一定顺序收集移动主机节点的容错信息,能够在一定程度上减少移动主机向本地基站传输计算进程检查点过程中产生的无线信号干扰,从而提高系统的通信吞吐量;(2)本发明统一使用基站上的容错信息管理功能模块维护移动主机节点的容错信息,能够更好地保障移动节点容错信息的可用性;(3)本发明将收集到的节点容错信息通过高速有线网存储于网络共享存储设备中,能够有效地支撑移动分布式计算系统中移动节点在不同基站范围的快速故障恢复功能,提升了系统的容错性能。
附图说明
图1为本发明的移动分布式计算系统结构图。
图2为本发明的移动分布式计算系统节点容错信息的结构图。
图3为本发明的存储节点容错信息方法的流程图。
图4为本发明的容错信息管理模块维护序号SN的流程图。
图5为本发明的容错信息管理模块协同、收集容错信息的流程图。
图6为本发明的容错信息管理模块存储容错信息的流程图。
图7为本发明的实施方式中存储移动分布式计算系统节点容错信息的结构图。
具体实施方式
结合图1,一种移动分布式计算系统,包括网络共享存储设备7和多个服务域5,每个服务域包括一个基站2和多个移动主机节点1;
结合图2,所述基站包括容错信息管理模块6和无线接口,所述移动主机节点为具备无线通信模块的移动终端,基站与相应服务域内的移动主机节点1无线3连接,不同服务域内基站与基站之间采用有线4连接;
基站2通过容错信息管理模块中的域节点列表记录移动主机节点1的状态信息,所述域节点列表是容错信息管理模块记录服务域5内移动主机节点信息的变量,包括移动主机节点标识和连接状态,其中,连接状态用于记录移动主机节点1加入基站服务域的时间以及移动主机节点1的无线链路是否有效;系统中移动主机节点采用周期性的检查点卷回恢复机制进行节点的容错功能;
所述网络共享存储设备7为支持iSCSI协议接口的可靠共享存储设备,通过高速以太网与系统中各基站相连;
所述容错信息管理模块6为PCI-Express接口(外围组件快速互联接口)的逻辑功能模块,基站利用容错信息管理模块6按序收集并维护移动主机节点的容错信息,并将收集到的节点容错信息通过高速有线网存储于网络共享存储设备7,实现移动主机节点容错信息的存储与共享。
结合图3,一种存储移动分布式计算系统的节点信息容错方法,包括以下步骤:
步骤1、依据移动主机节点使用的检查点回卷恢复容错机制,在本地基站上配置并启用容错信息管理模块;所述检查点回卷恢复容错机制是系统中移动主机节点的进程容错方法,具体为各移动主机节点1进程的执行过程中,每隔一定时间把进程状态保存到网络共享存储设备上,保存的进程状态称作进程检查点;当移动主机节点1的进程发生故障后,检查点回卷恢复容错机制获取保存的进程检查点文件,将移动主机节点1进程的状态恢复为检查点文件记录的状态,即进程检查点状态,并从此状态继续执行,以降低进程故障所导致的计算损失量;所示本地基站是指移动主机节点所在服务域中的基站,所述进程状态包括内存和CPU的寄存器的数据。
步骤2、基站的容错信息管理模块为服务域内的移动主机节点维护不重复的序号SN,SN为自然数,之后设定基准时间UT;结合图4,容错信息管理模块为服务域内移动主机节点维护不重复的序号SN,具体为:
步骤2-1、依据域节点列表,基站将域内所有移动主机节点的序号SN初始化为1到n,n为域内移动主机节点个数;
步骤2-2、判断移动主机节点是否断开或离开本域,若是,则容错信息管理模块回收该移动主机节点的序号SN,之后执行步骤2-3;否则不执行任何操作,直接执行步骤2-3;
步骤2-3、判断是否有新的移动主机节点加入本域,若有新移动主机节点加入,则基站选择尚未分配的最小序号SN分配给新连接的移动主机节点,之后跳转至步骤2-2;否则不执行任何操作,直接跳转至步骤2-2。
步骤3、基站的容错信息管理模块按照SN顺序收集移动主机节点的容错信息;结合图5,基站的容错信息管理模块按照SN顺序收集移动主机节点的容错信息,具体为:
步骤3-1、到达创建移动节点检查点周期后,本地基站上的容错信息管理模块通过无线接口给本域内移动主机节点发送创建检查点的请求,该请求同时附加上基准时间UT和移动主机节点对应的序号SN;
步骤3-2、移动主机节点接收到创建检查点的请求后,移动主机节点调用自身的进程检查点接口创建新的进程检查点文件;
步骤3-3、通过移动主机节点与基站间的无线接口,域内各移动主机节点按序号SN的顺序向本地基站的容错信息管理模块传输创建的进程检查点文件。域内各移动主机节点按序号SN的顺序向本地基站的容错信息管理模块传输创建的计算进程检查点信息,具体为:
序号SN=x的移动主机节点在完成新的计算进程检查点后,不立即向本地基站的容错信息管理模块传输该检查点信息,而是等待(x-1)*UT时间段后,才向本地基站的容错信息管理模块传输该检查点信息;即假定在时刻tn移动主机节点创建完新的计算进程检查点,则该移动主机节点向本地基站的容错信息管理模块传输该检查点信息的时间ts由下式确定:
ts=tn+(x‐1)*UT,x∈[1,n]。
步骤4、基站的容错信息管理模块将收集到的节点容错信息通过高速有线网存储于网络共享存储设备,实现移动主机节点容错信息的存储与共享功能;结合图6,具体为:
步骤4-1、本地基站的容错信息管理模块通过无线接口接收移动主机节点的进程检查点文件;
步骤4-2、本地基站的容错信息管理模块通过iSCSI协议将进程检查点文件存储于网络共享存储设备,并判断本地基站的容错信息管理模块是否已将服务域内全部移动主机节点的进程检查点文件存储至网络共享存储设备,若是,则跳转至步骤4-3,否则跳转至步骤4-1;
步骤4-3、本地基站的容错信息管理模块向其它基站容错信息管理模块广播存储的进程检查点文件状态,以支持其他基站对容错信息的存取。
下面结合具体实施例对本发明做更详细地描述:
实施例1
本发明的存储移动分布式计算系统中节点容错信息的方法系统结构如图7所示,其中,移动分布式计算系统由第一基站2-A及第二基站2-B、网络共享存储设备7和其间链路组成。在第一基站2-A覆盖的服务域内有三个移动主机节点,分别为1-A、1-B和1-C。第一基站2-A和第二基站2-B之间通过高速有线网络相连,同时具备容错信息管理模块6和无线接口。网络共享存储设备7是支持iSCSI协议接口的可靠共享存储设备,通过高速以太网分别与第一基站2-A和第二基站2-B,第一容错信息管理模块6-A和第二容错信息管理模块6-B为PCIE接口的逻辑功能模块。
通过移动主机节点1-A、1-B和1-C的无线通信模块与本地基站2-A的无线接口之间的无线链路3,可以实现移动主机节点1-A、1-B和1-C与本地基站2-A间的数据交换功能。经由第一基站2-A与第二基站2-B间有线链路5的数据转发,域内移动主机节点或不同域间移动主机节点之间可以实现数据通信功能。
第一基站2-A域内容错信息的存储过程如下:依据移动分布式计算系统的协同检查点回卷恢复容错策略,第一基站2-A配置并启用了第一容错信息管理模块6-A。第一容错信息管理模块6-A记录服务域内移动主机移动性信息,并维护不重复的序号SN,并设定基准时间UT=3s。其中,移动主机1-A分配的序号SN=1,移动主机节点1-B分配的序号SN=2,移动主机节点1-C分配的序号SN=3。
在时刻t1,第一基站2-A域到达创建移动节点检查点的时间。第一基站2-A上的容错信息管理模块6-A通过无线接口分别给本地移动主机节点1-A、1-B和1-C发送创建检查点的请求,并附加上基准时间UT和各移动主机节点的序号SN。接收到请求后移动主机节点1-A、1-B和1-C分别调用检查点接口创建新的计算进程检查点。移动主机节点1-A、1-B和1-C通过无线接口,按照序号SN顺序向第一基站2-A的第一容错信息管理模块6-A传输相关容错信息,即分别推迟0s,3s和6s时间后传输相关容错信息。第一基站2-A的第一容错信息管理模块6-A通过无线接口接收到1-A、1-B和1-C容错信息后,通过iSCSI协议将收到的容错信息存储于网络共享存储设备7,并向第二基站2-B的第二容错信息管理模块6-B广播相关容错信息状态。
第二基站2-B域内容错信息的存储过程与上述的第一基站2-A域内容错信息的存储过程相同。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。