CN104345771B - 一种多机热备份计算机初始同步方法 - Google Patents

一种多机热备份计算机初始同步方法 Download PDF

Info

Publication number
CN104345771B
CN104345771B CN201410492211.1A CN201410492211A CN104345771B CN 104345771 B CN104345771 B CN 104345771B CN 201410492211 A CN201410492211 A CN 201410492211A CN 104345771 B CN104345771 B CN 104345771B
Authority
CN
China
Prior art keywords
hot spare
computing machine
spare computing
information
machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410492211.1A
Other languages
English (en)
Other versions
CN104345771A (zh
Inventor
刘超伟
王婧
刘波
赵玮
胡洪凯
徐建
梁洁玫
王勇
何健
李森
丁泳鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Control Engineering
Original Assignee
Beijing Institute of Control Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Control Engineering filed Critical Beijing Institute of Control Engineering
Priority to CN201410492211.1A priority Critical patent/CN104345771B/zh
Publication of CN104345771A publication Critical patent/CN104345771A/zh
Application granted granted Critical
Publication of CN104345771B publication Critical patent/CN104345771B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1461Backup scheduling policy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种多机热备份计算机初始同步方法,包括以下步骤:热备份计算机接收外部输入的同一个同步时钟信号;各热备份计算机完成初始化工作后即向其他单机发送A信息,A信息内容为本机具备同步工作条件;某热备份计算机收到所有其他热备份计算机发送来A信息,则向其他热备份计算机发送B信息,B信息内容为当下一个同步时钟信号的上升沿到来时,当前热备份计算机即开始工作;当某机收到B信息则其向其他机发送B信息;若某热备份计算机连续N(N为预设值)个同步时钟周期未收到其他机发送来的A信息,则其向其他机发送B信息。采用本发明可实现多机热备份计算机初始同步,提高热备份计算机可靠性和自主运行能力。

Description

一种多机热备份计算机初始同步方法
技术领域
本发明涉及一种多机热备份计算机初始同步方法,适用于对多机有较高初始同步要求或自主运行能力的星载计算机。
背景技术
我国目前三机热备份计算机三机同步依靠容错板提供统一的控制周期信号来实现,控制周期信号与三机时钟完全异步。这种设计可实现三机同步,但不能保证三机初始同步(即三机同时第一次进入控制周期中断开始任务调度和执行),具体原因如下:
三机上电/复位初始化时间存在差异,造成三机在上电/复位初始化完成后存在无法初始同步风险。
容错板三机复位信号接口电路完全独立,不同接口电路识别同一复位信号存在差异,导致三机复位信号结束时刻存在差异(三机同时上电情况下,上电复位结束时刻时间差异在10ms左右,遥控和看门狗复位结束时刻时间差异在1us左右)。
三机同时加电情况下,三机电源模块不同,造成三机电源建立时间差异较大,存在无法上电初始同步风险。三机依次加电情况下,三机无法上电初始同步,该种方式下往往需要补发三机遥控复位指令方式来实现三机初始同步,但遥控复位也存在无法初始同步风险,而且某些在轨任务不允许发送遥控复位或不具备发送遥控复位条件。
对于热备份计算机初始不同步问题,以往型号热备份计算机往往通过应用层处理该问题,采取各种方式来容忍三机初始不同步,或者通过补发遥控复位来避免该问题(有一定概率无法避免该问题)。但三机热备份计算机同步能力和可靠性仍存在缺陷,同时也降低了产品自主运行能力,很难适用于今后若干重大型号三机或多机热备份计算机设计可靠性需求和自主运行能力。
发明内容
本发明的技术解决问题是:克服现有技术的不足,提供了一种多机热备份计算机初始同步方法,可确保在上电/复位情况下热备份计算机能自主实现初始同步。
本发明的技术解决方案是:
一种热备份计算机初始同步方法,步骤如下:
(1)令所有热备份计算机上电复位后,各热备份计算机进行初始化,之后进入步骤(2);
(2)各热备份计算机接收外部输入的同一个同步时钟信号,进入步骤(3);
(3)各热备份计算机通过数据交换通道向其他热备份计算机发送A信息,同时将本机的超时次数置零,之后进入步骤(4);
(4)各热备份计算机均查看是否收到其他热备份计算机发送来的A信息,如果接收到其他所有热备份计算机发送过来的A信息,则进入步骤(5);否则跳转至步骤(7);
(5)查看当前热备份计算机同步时钟信号上升沿是否来过,若来过则进入步骤(6);否则继续步骤(5);
(6)当前热备份计算机通过数据交换通道向其他热备份计算机发送B信息,之后进入步骤(11);
(7)各热备份计算机均查看是否收到其他任一热备份计算机发送来的B信息,如果收到,则返回步骤(6);否则进入步骤(8);
(8)判断下一个所述同步时钟信号的上升沿是否到来,若到来,则进入步骤(9),否则返回步骤(4);
(9)当前热备份计算机超时次数加1,之后进入步骤(10);
(10)判断所述当前热备份计算机的超时次数是否大于预设值N,若大于N,则进入步骤(6),否则返回步骤(4);N为正整数;
(11)当前热备份计算机在下一个同步时钟信号的上升沿到来后即开始工作,完成热备份计算机初始同步。
所述A信息的内容为:本机具备同步工作条件。
所述B信息的内容为:当下一个同步时钟信号的上升沿到来时,当前热备份计算机即开始工作。
本发明与现有技术相比的有益效果是:
(1)本发明方法改变以往型号需要应用层面采用各种处理措施或地面干预方式容忍初始不同步问题,提高多机热备份计算机自主运行能力;
(2)本发明方法可通过调整超时等待时间(N)方式确保热备份计算机各单机上电/复位时间差异情况下初始同步,设计简单、实现方便、扩大了热备份计算机应用范围,提高热备份计算机可靠性;
(3)本发明方法采用多机数据交换方式以及超时等待方式对上电/复位过程中的故障情况进行处理,增强热备份计算机容错能力和可靠性,提高了热备份计算机初始同步灵活性。
附图说明
图1为正常情况下热备份计算机初始同步时序关系图;
t1时刻OBCA初始化结束向其他单机发送A信息;
t2时刻为同步时钟信号上升沿;
t3时刻OBCB初始化结束向其他单机发送A信息;
t4时刻OBCC初始化结束向其他单机A信息;
t5时刻OBCA收到所有其他机A信息;
t6时刻OBCA向其他机发送B信息;
t7时刻OBCB和OBCC向其他机发送B信息;
t8时刻各热备份计算机均一起开始进行任务调度;
图2为故障情况下热备份计算机初始同步时序关系图;
t1时刻OBCA初始化结束向其他单机发送A信息;
t2时刻为同步时钟信号上升沿,OBCA机超时次数为1;
t3时刻OBCB初始化结束向其他单机发送A信息;
t4时刻OBCC初始化结束后发现其故障,不能向其他单机发送A信息;
t5时刻OBCA机超时次数为2,OBCB机超时次数为1;
t6时刻OBCA机超时次数为3,OBCB机超时次数为2;
t7时刻OBCA机超时次数为4,OBCB机超时次数为3;
t8时刻OBCA机超时次数为5,OBCB机超时次数为4;
t9时刻OBCA机超时次数为6,OBCB机超时次数为5,OBCA机超时次数大于5,OBCA机向其他单机发送B信息;
t10时刻OBCB向其他机发送B信息;
t11时刻OBCA和OBCB均一起开始进行任务调度;
图3为热备份计算机初始同步方法流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行进一步的详细描述。
如图3所示,本发明提供了一种热备份计算机初始同步方法,步骤如下:
(1)令所有热备份计算机上电复位后,各热备份计算机进行初始化,之后进入步骤(2)。
由于各热备份计算机上电时刻差异、上电复位结束时刻差异、初始化时间差异,造成各热备份计算机初始化完成时刻不一致,存在较大时间差,可能会造成多机热备份计算机第一次任务调度时刻不一致而无法同步工作,即初始不同步。
(2)各热备份计算机接收外部输入的同一个同步时钟信号,进入步骤(3)。
为保证多机热备份计算机的可靠性,在配置有多机热备份计算机的系统中,互相作为热备份的计算机在系统中同时进行相同的工作并产生各自的输出,且各热备份计算机需要在相同的时钟源控制下进行同步的工作,即系统为热备份计算机提供同一个同步时钟信号,保证各热备份计算机在相同的时钟源控制下同步进行工作。
(3)各热备份计算机通过数据交换通道向其他热备份计算机发送A信息,同时将本机的超时次数置零,之后进入步骤(4)。A信息的内容为:本机具备同步工作条件。
为保证多机热备份计算机同步工作,且各机运算和执行结果一致性,各热备份计算机之间均提供了数据交换通道,使各热备份计算机均能接收到其他机信息同时把本机信息发送其他机。
在初始同步时,热备份计算机可使用数据交换通道向其他机发送A信息,同时也可通过数据交换通道收到其他机发送来的A信息或者B信息。
若某热备份计算机故障,其A信息无法发送给其他机,将造成其他机无法收到其A信息。针对这种情况,设置了本机的超时次数。在初始化完成后,本机超时次数清零。
(4)各热备份计算机均查看是否收到其他热备份计算机发送来的A信息,如果接收到其他所有热备份计算机发送过来的A信息,则进入步骤(5);否则跳转至步骤(7)。
当某热备份计算机收到所有其他热备份计算机发送来的A信息,说明所有单机均已完成初始化工作并具备同步工作条件,则当前热备份计算机可进行步骤(5)工作,准备同步工作;当未收齐所有其他热备份计算机A信息时,说明还有热备份计算机未具备同步工作条件,此时热备份计算机不能同步工作,本机必须进行等待,直到超时。
(5)查看当前热备份计算机同步时钟信号上升沿是否来过,若来过则进入步骤(6);否则继续步骤(5)。
当某热备份计算机进入步骤(5),说明其已经收到所有其他热备份计算机A信息,但此时当前热备份计算机还不能立即向其他机发送B信息。由于B信息发送需要时间,在B信息传输时间内或者其他机处理B信息时间内同步时钟信号上升沿到来则会造成当前热备份计算机提前一个同步时钟周期时间开始进行任务调度,而其他机较当前热备份计算机晚一个同步时钟周期时间开始进行任务调度,则热备份计算机初始不同步。B信息的内容为:当下一个同步时钟信号的上升沿到来时,当前热备份计算机即开始工作。
因此,当某热备份计算机进入步骤(5)后,当前热备份计算机必须检测其同步时钟信号上升沿,若上升沿到来,则向其他机发送B信息。由于各机同步时钟信号为同一个信号产生,且B信息传输和处理时间远小于同步时钟信号一个周期时间,其他单机将有充足时间处理B信息,可确保下一个同步时钟信号上升沿所有热备份计算机均开始进行任务调度,实现热备份计算机初始同步。
(6)当前热备份计算机通过数据交换通道向其他热备份计算机发送B信息,之后进入步骤(11)。
当某热备份计算机向其他机发送B信息后,说明当前热备份计算机可在下一个同步时钟信号上升沿开始进行任务调度。
(7)各热备份计算机均查看是否收到其他任一热备份计算机发送来的B信息,如果收到,则返回步骤(6);否则进入步骤(8)。
当某热备份计算机收到任一机B信息,说明有热备份计算机将在下一个同步时钟信号上升沿开始任务调度,当前热备份计算机也必须在下一个同步时钟信号上升沿开始任务调度,不能再继续查询是否收齐所有其他机的A信息或等待。
(8)判断下一个所述同步时钟信号的上升沿是否到来,若到来,则进入步骤(9),否则返回步骤(4)。
热备份计算机超时时间是依靠本机同步时钟信号来计数实现了,当检测到本机同步时钟信号上升沿后即进行超时计数。
(9)当前热备份计算机超时次数加1,之后进入步骤(10)。
(10)判断所述当前热备份计算机的超时次数是否大于预设值N,若大于N,则进入步骤(6),否则返回步骤(4);N为正整数;
预设值N的设置必须考虑热备份计算机系统任务需求,根据任务需求、实时性要求等综合考虑进行取值。
超时次数大于预设值N时,说明多机热备份计算机中至少有一个故障,其他机无法收到其A信息。此时正常单机不能再继续等待其信息而必须准备开始任务调度,否则故障单机的故障将造成所有单机均无法工作。
超时次数不大于预设值N时,根据任务情况,其他机还可以继续等待,该情况不影响多机热备份计算机系统任务完成。
(11)当前热备份计算机在下一个同步时钟信号的上升沿到来后即开始工作,完成热备份计算机初始同步。
各热备份计算机接收同一个同步时钟信号,多机热备份计算机可通过数据交换通道进行信息交换,使各热备份计算机可在同步时钟信号配合下约定任务调度起始时刻,在起始时刻共同开始进行任务调度。当各机均正常情况下,至少某一热备份计算机将收齐所有其他机发送信息,则其可发起并约定任务调度起始时刻,在起始时刻共同开始进行任务调度。
各热备份计算机均设置超时次数N,当某热备份计算机故障时,至少某一热备份计算机超时次数将会超时,此时正常工作单机可通过数据交换通道进行信息交换而约定任务调度起始时刻,在起始时刻共同开始进行任务调度,此时故障单机将被放弃。各热备份计算机约定任务调度起始时刻必须留有足够时间,使其他热备份计算机能够及时或有足够时间响应约定任务调度起始时间,一般为下一个同步时钟信号上升沿时刻。
实施例:
如图1所示为正常情况下热备份计算机初始同步时序关系图,以三机热备份计算机为例。图1中同步信号为各热备份计算机接收外部输入的同一个同步时钟信号,其上升沿时刻为各热备份计算机开始周期性任务调度的起始时刻。各热备份计算机完成初始化时刻不一致,图1中t1时刻OBCA机完成初始化工作并开始向其他热备份计算机发送A信息。t3时刻OBCB机完成初始化工作并开始向其他热备份计算机发送A信息。t4时刻OBCC机完成初始化工作并开始向其他热备份计算机发送A信息。t4时刻延后一个A信息时间后,即t5时刻OBCA接收到所有其他机A信息,OBCA机开始查看其同步时钟信号上升沿是否到来。t6时刻OBCA机检测到其同步时钟信号上升沿到来,开始向其他机发送B信息。t6时刻延后一个B信息时间后,即t7时刻OBCB和OBCC接收到OBCA机B信息,OBCB和OBCC向其他机发送B信息。OBCA、OBCB和OBCC开始查看其同步时钟信号上升沿是否到来。t8时刻OBCA、OBCB和OBCC均检测到其同步时钟信号上升沿到来,均一起开始进行任务调度,完成了多机热备份计算机初始同步。三机均工作正常,未出现超时情况。
如图2所示,为故障情况下热备份计算机初始同步时序关系图,以三机热备份计算机为例,预设值N取5。图2中同步信号为各热备份计算机接收外部输入的同一个同步时钟信号,其上升沿时刻为各热备份计算机开始周期性任务调度的起始时刻。各热备份计算机完成初始化时刻不一致,图2中t1时刻OBCA机完成初始化工作并开始向其他热备份计算机发送A信息。t2时刻OBCA机超时次数为1。t3时刻OBCB机完成初始化工作并开始向其他热备份计算机发送A信息,t4时刻OBCC机完成初始化工作后发现其故障,不能向其他单机发送A信息。OBCA和OBCB一直不能收到所有其他机A信息,只能等到超时。t5时刻OBCA超时次数为2,OBCB超时次数为1。t6时刻OBCA超时次数为3,OBCB超时次数为2。t7时刻OBCA超时次数为4,OBCB超时次数为3。t8时刻OBCA超时次数为5,OBCB超时次数为4。t9时刻OBCA超时次数为6,OBCB超时次数为5,OBCA超时次数大于5,OBCA超时,OBCA向其他机发送B信息。t9时刻延后一个B信息时间后,即t10时刻OBCB接收到OBCA机B信息,OBCB向其他机发送B信息。OBCA、OBCB开始查看其同步时钟信号上升沿是否到来。T1时刻OBCA、OBCB检测到其同步时钟信号上升沿到来,一起开始进行任务调度,完成了多机热备份计算机初始同步。三机中OBCC故障,造成OBCA超时,但OBCA和OBCB不收OBCC故障影响,仍完成OBCA和OBCB初始同步并工作正常。

Claims (1)

1.一种多机热备份计算机初始同步方法,其特征在于步骤如下:
(1)令所有热备份计算机上电复位后,各热备份计算机进行初始化,之后进入步骤(2);
(2)各热备份计算机接收外部输入的同一个同步时钟信号,各热备份计算机接收到该同步时钟信号之后进入步骤(3);
(3)各热备份计算机通过数据交换通道向其他热备份计算机发送A信息,同时将本机的超时次数置零,之后进入步骤(4);
(4)各热备份计算机均查看是否收到其他热备份计算机发送来的A信息,如果接收到其他所有热备份计算机发送来的A信息,则进入步骤(5);否则跳转至步骤(7);
(5)查看当前热备份计算机同步时钟信号上升沿是否到来,若到来则进入步骤(6);否则继续进行步骤(5);
(6)当前热备份计算机通过数据交换通道向其他热备份计算机发送B信息,之后进入步骤(11);
(7)各热备份计算机均查看是否收到其他任一热备份计算机发送来的B信息,如果收到,则返回步骤(6);否则进入步骤(8);
(8)判断下一个所述同步时钟信号的上升沿是否到来,若到来,则进入步骤(9),否则返回步骤(4);
(9)当前热备份计算机超时次数加1,之后进入步骤(10);
(10)判断所述当前热备份计算机的超时次数是否大于预设值N,若大于N,则进入步骤(6),否则返回步骤(4);N为正整数;
(11)当前热备份计算机在下一个同步时钟信号的上升沿到来后即开始工作,完成热备份计算机初始同步;
所述A信息的内容为:本机具备同步工作条件;所述B信息的内容为:当下一个同步时钟信号的上升沿到来时,当前热备份计算机即开始工作。
CN201410492211.1A 2014-09-23 2014-09-23 一种多机热备份计算机初始同步方法 Active CN104345771B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410492211.1A CN104345771B (zh) 2014-09-23 2014-09-23 一种多机热备份计算机初始同步方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410492211.1A CN104345771B (zh) 2014-09-23 2014-09-23 一种多机热备份计算机初始同步方法

Publications (2)

Publication Number Publication Date
CN104345771A CN104345771A (zh) 2015-02-11
CN104345771B true CN104345771B (zh) 2016-03-30

Family

ID=52501612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410492211.1A Active CN104345771B (zh) 2014-09-23 2014-09-23 一种多机热备份计算机初始同步方法

Country Status (1)

Country Link
CN (1) CN104345771B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473156A (zh) * 2013-09-24 2013-12-25 北京控制工程研究所 一种基于实时操作系统的星载计算机三机热备份容错方法
CN103473154A (zh) * 2013-08-23 2013-12-25 北京控制工程研究所 一种三机热备份计算机的当班机确定系统
CN103677080A (zh) * 2013-12-04 2014-03-26 北京控制工程研究所 一种三机热备份的时间同步方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8276013B2 (en) * 2008-02-13 2012-09-25 Broadcom Corporation System and method for reducing a link failure detection delay using a link energy signal while in a low power idle mode

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473154A (zh) * 2013-08-23 2013-12-25 北京控制工程研究所 一种三机热备份计算机的当班机确定系统
CN103473156A (zh) * 2013-09-24 2013-12-25 北京控制工程研究所 一种基于实时操作系统的星载计算机三机热备份容错方法
CN103677080A (zh) * 2013-12-04 2014-03-26 北京控制工程研究所 一种三机热备份的时间同步方法

Also Published As

Publication number Publication date
CN104345771A (zh) 2015-02-11

Similar Documents

Publication Publication Date Title
JP6523497B1 (ja) マスタ制御装置およびこれを用いた同期通信システム
EP3002682A1 (en) Method for redundant operation of a controller
CN106603367A (zh) 一种用于时间同步的can总线通信方法
CN106293919A (zh) 一种时间触发的嵌入式任务调度装置与方法
CN102739491B (zh) 一种以太网通信主站实现方法
CN107483135A (zh) 一种高同步的时间触发以太网装置及方法
EP3026515A1 (en) Programmable controller system and controller therefor
CN110879565A (zh) 双机冗余控制系统及其冗余控制/故障监测方法和装置
CN102724083A (zh) 基于软件同步的可降级三模冗余计算机系统
CN104219288A (zh) 基于多线程的分布式数据同步方法及其系统
CN104268037A (zh) 热冗余联锁子系统及其主备切换方法
CN109947030A (zh) 伺服内部控制周期动态跟随EtherCat总线同步周期的方法
JP6679618B2 (ja) 分散システムにおける相互時間の領域一致を実現するための方法及び装置
CN103684734B (zh) 一种热备份冗余计算机时间同步系统及方法
US20140298070A1 (en) Processor time synchronization apparatus and method in data communication system with multiple processors and line interfaces
CN103995742A (zh) 一种基于mcu的嵌入式实时调度控制装置及方法
CN103678022A (zh) 容错系统和用于执行容错的方法
CN105608039B (zh) 一种基于fifo和arinc659总线的双余度计算机周期控制系统及方法
CN105824275A (zh) 一种控制从站伺服驱动器同步主站的方法
CN104345771B (zh) 一种多机热备份计算机初始同步方法
CN106656817A (zh) 降低tcam由读写引起查找冲突的方法
CN100530106C (zh) 多机容错系统内核的实现方法
US11301308B2 (en) Method for synchronized operation of multicore processors
US20070113224A1 (en) Task Matching For Coordinated Circuits
CN103678023A (zh) 容错系统和用于执行容错的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant