CN117785614A - 双余度计算机的故障监控及切换方法 - Google Patents

双余度计算机的故障监控及切换方法 Download PDF

Info

Publication number
CN117785614A
CN117785614A CN202311828065.0A CN202311828065A CN117785614A CN 117785614 A CN117785614 A CN 117785614A CN 202311828065 A CN202311828065 A CN 202311828065A CN 117785614 A CN117785614 A CN 117785614A
Authority
CN
China
Prior art keywords
computer
fault monitoring
switching
circuit
chvalid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311828065.0A
Other languages
English (en)
Inventor
亢晓丽
王树争
向桂林
孔梁
胡益诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Aeronautics Computing Technique Research Institute of AVIC
Original Assignee
Xian Aeronautics Computing Technique Research Institute of AVIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Aeronautics Computing Technique Research Institute of AVIC filed Critical Xian Aeronautics Computing Technique Research Institute of AVIC
Priority to CN202311828065.0A priority Critical patent/CN117785614A/zh
Publication of CN117785614A publication Critical patent/CN117785614A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本发明的双余度计算机的故障监控及切换方法,使用处理器功能电路、可编程逻辑电路和带使能控制功能的总线控制,对每个余度的计算机板仅需通过可编程逻辑对外提供1位离散量输出和1位离散量输入就可完成主从设备的故障判断和切换功能。当正在工作中的主设备失效或者出现故障时,热备份的从设备能够感知到主设备出现故障并自动切换获得外部总线控制权,保证整个计算机系统平滑过渡到热备份的处理器功能电路来控制外部总线。

Description

双余度计算机的故障监控及切换方法
技术领域
本发明涉及嵌入式计算机的技术领域,尤其涉及一种双余度计算机的故障监控及切换方法。
背景技术
为了提高产品的可靠性,在某些特殊用途的计算机系统中往往会对整个设备或者部分关键功能采用双余度热备份设计,当其中一个设备失效或者出现故障后,另一个备份的设备能够接管任务,以保证系统仍然可以继续正常工作。现有机载双余度嵌入式计算机中,故障监控及切换功能,占用处理器功能电路的资源较多,降低系统的响应速度。
发明内容
有鉴于此,本发明提供的双余度计算机的故障监控及切换方法,解决现有技术中的系统,双余度切换的响应速度较慢的技术问题。
一种双余度计算机的故障监控及切换方法,适用于机载双余度计算机的切换,计算机的硬件电路包括,处理器功能电路、可编程逻辑电路和带使能控制功能的总线控制器,可编程逻辑电路驻留有故障监测和切换逻辑,总线控制器上设置有使能端,其方法包括:
故障监测和切换逻辑驻留在所述可编程逻辑电路中,且双余度计算机板的功能相同,包括计算机板CPUA和计算机板CPUB,所述故障监测和切换逻辑驻留用于双余度计算机的故障检测和切换;
所述可编程逻辑电路对外提供1位的离散量输出信号CHVALID_O和1位的离散量输入信号CHVALID_I,互为备份的两个所述计算机板将所述离散量输出信号CHVALID_O和离散量输入信号CHVALID_I交叉相连,其中,
所述计算机板CPUA的离散量输出信号CHVALID_O等于计算机板CPUB的离散量输入信号CHVALID_I,计算机板CPUA的离散量输入信号CHVALID_I等于计算机板CPUB的离散量输出信号CHVALID_O,其中,
当故障监控逻辑监测到所述计算机板CPUA的处理器功能电路上运行的软件出现异常,或者,所述处理器功能电路上的硬件出现异常时,所述故障监测和切换逻辑将释放总线控制器的控制权限,并且,通知热备份所述计算机板CPUB能够接管总线控制权;
当所述计算机板CPUB上的处理器功能电路工作正常时,所述计算机板CPUB将接管总线控制器的控制权,总线切换操作完成。
有益效果
采用可编程逻辑实现故障监控和切换功能,每个余度的计算机板对外提供1位离散量输出和1位离散量输入相互通信和钳位来可完成设备的故障判断和切换功能,工作机理简洁清晰、控制实现简单、占用资源少、运行稳定可靠。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明方法的硬件框图;
图2为本发明方法的双余度计算机工作状态图。
具体实施方式
下面结合附图对本公开实施例进行详细描述。
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践方面。
参见图1所示的双余度计算机的故障监控及切换方法,适用于机载双余度计算机的切换,两个机载双余度计算机的硬件电路包括:处理器功能电路、可编程逻辑电路和带使能控制功能的总线控制器,可编程逻辑电路驻留有故障监测和切换逻辑(是FPGA内部的设计的逻辑代码),总线控制器上设置有使能端,其方法包括:
故障监测和切换逻辑驻留在可编程逻辑电路中,双余度计算机板的功能相同,故障监测和切换逻辑驻留用于双余度计算机的故障检测和切换。计算机包括计算机板CPUA和计算机板CPUB,其中,
可编程逻辑电路对外提供1位的离散量输出信号CHVALID_O和1位的离散量输入信号CHVALID_I,互为备份的两个计算机板将离散量输出信号CHVALID_O和离散量输入信号CHVALID_I交叉相连,交叉相连表示为,计算机板CPUA的离散量输出信号CHVALID_O等于计算机板CPUB的离散量输入信号CHVALID_I,计算机板CPUA的离散量输入信号CHVALID_I等于计算机板CPUB的离散量输出信号CHVALID_O,以实现了一个完整的故障切换链路,
当故障监控逻辑监测到计算机板CPUA的处理器功能电路上运行的软件出现异常,或者,处理器功能电路上的关键硬件出现异常时,故障监测和切换逻辑将释放总线控制器的控制权限,并且,通知热备份计算机板CPUB能够接管总线控制权,此时,计算机板CPUB有权限控制总线控制器;
当计算机板CPUB上的处理器功能电路工作正常时,计算机板CPUB将接管总线控制器的控制权,总线切换操作完成。使用每个计算机板的可编程逻辑可以通过监控看门狗的状态来判定处理器功能电路上软件的运行情况。每个计算机板的可编程逻辑也可以通过监控自检测的状态来判定处理器功能电路关键硬件的工作情况,通过每个计算机板通过本板输出的CHVALID_O对总线控制器上进行使能控制,实现总线控制权的获取和释放。
作为本案所提供的具体实施方式,监控软件出现异常或关键硬件出现异常,包括,故障监测和切换逻辑通过“看门狗”电路的状态判定对应计算机板CPUA和计算机板CPUB上软件的运行状态,其中,
当“看门狗”电路处于“未叫”的状态时,则,判定当前两个处理器功能电路运行正常,即为,两个处理器功能电路正常运行时,“看门狗”电路的被按照既定的周期完成喂狗操作,若“看门狗”电路处于“未叫”状态,则处理器功能电路上的软件可以正常运行;
当处理器功能电路的自检测状态处于正常时,故障监控和切换逻辑判定当前两个计算机板能够正常完成总线控制器总线的通信工作,通知使能端打开总线控制器,获取控制权限;
当处理器功能电路上的软件运行异常,且出现超时的情况时,软件无法按照既定的周期完成喂狗操作,看门狗主要是监控处理器功能电路上软件的运行状态,“看门狗”电路处于“狗叫”状态,则判定处理器功能电路上的软件无法正常运行,故障监控和切换逻辑认为当前计算机板无法正常完成总线通信工作,通过使能端关闭总线控制器,释放总线的控制权限。
作为本案所提供的具体实施方式,故障监测和切换逻辑通过监控处理器功能电路的自检测状态,判断当前两个处理器功能电路的工作情况,其中,
当处理器功能电路在自检测正常时,通过在故障监测和切换逻辑中设置的错误状态寄存器,传送故障监控及切换逻辑自检测结果信息。定义,处理器功能电路--自检处于“正常”状态,则处理器功能电路上的关键硬件工作正常;
当“看门狗”电路处于“未叫”状态时,故障监控和切换逻辑判定当前两个计算机板能够完成总线控制器中总线的通信工作,且通过使能端打开总线控制器,以获取总线控制器的控制权限;
当处理器功能电路自检测并处于异常状态时,通过错误状态寄存器传送自检测结果信息,定义,自检处于“非正常”状态,则处理器功能电路异常,故障监控和切换逻辑判定当前计算机板无法正常完成总线通信工作,(计算机板CPUA和计算机板CPUB各自完成自检测功能)通过使能端关闭总线控制器,释放总线控制器的总线控制权限。(需要指出的是,双余度计算机不能同时报故障,至多一个出现故障)
作为本案所提供的具体实施方式,切换逻辑中的1位离散量输出信号CHVALID_O和1位离散量输入信号CHVALID_I互斥,两个离散量信号不会同时出现为有效状态,有效状态是指高电平“1”的情况。(计算机板CPUA输出离散量信号CHVALID_O为“1”必然会反馈到另一个计算机板的CHVALID_I上进行钳制,使另一个计算机板输出CHVALID_O为“0”。但是当两个计算机板均出现软件或关键硬件故障时会出现两者的CHVALID_O均为“0”的情况,此时两个计算机板均释放总线控制权。因此,不会出现两个计算机板上的总线控制器同时打开造成冲突的情况)。
上述汇总的,总线控制器具有使能控制功能,用于总线的收发驱动和控制。
上述的双余度计算机每个计算机板硬件电路需要具备以下功能块:
1.处理器功能电路,用于产品计算、处理和通信的主功能模块;
2.可编程逻辑电路,用于完成本计算机处理器功能电路软硬件工作状态的监控和出现故障时总线控制权限切换的功能;
3.带使能控制功能的总线控制器,用于总线的收发驱动和控制。
双余度计算机每个计算机板需对外提供以下接口:
1.离散量输入信号CHVALID_I;
2.离散量输出信号CHVALID_O;
3.连接到外设的外部总线。
参照附图2所示的流程:
步骤1,产品上电后,双余度计算机中两个计算机板分别为CPUA和CPUB,两者均处于默认控制禁止的状态,此时看门狗“未叫”,通过预先设置自检测正常位为“异常”进入Stauts1;
步骤2,假设系统中计算机板CPUA启动较快,会抢先进入Stauts2,此时CPUA控制处于“使能”状态,同时CPUA会通过CPUA:CHVALID_O钳制CPUB:CHVALID_I,强制CPUB控制进入“禁止”状态;
步骤3,如果系统中计算机板CPUB启动较快,会抢先进入Stauts3,此时CPUB控制处于“使能”状态,同时CPUB会通过CPUB:CHVALID_O钳制CPUA:CHVALID_I强制CPUA控制进入“禁止”状态;
步骤4,当产品在Status2运行过程中,CPUA突发故障,而CPUB此时作为热备份工作正常,产品将通过CPUA:CHVALID_O解锁当前的总线控制权,并通知CPUB可获取总线控制权。此时,CPUB将进入控制“使能”状态,CPUB再通过CPUB:CHVALID_O反向钳制CPUA:CHVALID_I强制CPUA进入控制“禁止”状态,进入Status3;
步骤5,当产品在Status3运行过程中,CPUB突发故障,而CPUA此时作为热备份工作正常,产品将通过CPUB:CHVALID_O解锁当前的总线控制权,并通知CPUA可获取总线控制权。此时,CPUA将进入控制“使能”状态,CPUA再通过CPUA:CHVALID_O反向钳制CPUB:CHVALID_I强制CPUB控制“禁止”状态,进入Status2;
步骤6,当产品在Status2运行过程中,CPUA突发故障,而CPUB此时也存在故障,CPUA和CPUB都将释放总线控制权,处于控制“禁止”状态,进入Status4;
步骤7,当产品在Status3运行过程中,CPUB突发故障,而CPUA此时也存在故障,CPUA和CPUB都将释放总线控制权,处于控制“禁止”状态,进入Status4。
每个余度的计算机板仅需通过可编程逻辑对外提供1位离散量输出和1位离散量输入就可完成主从设备的故障判断和切换功能。当正在工作中的主设备失效或者出现故障时,热备份的从设备能够感知到主设备出现故障并自动切换获得外部总线控制权,保证整个计算机系统平滑过渡到热备份的处理器功能电路来控制外部总线。
以上,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。

Claims (5)

1.一种双余度计算机的故障监控及切换方法,适用于机载双余度计算机的切换,计算机的硬件电路包括,处理器功能电路、可编程逻辑电路和带使能控制功能的总线控制器,可编程逻辑电路驻留有故障监测和切换逻辑,总线控制器上设置有使能端,其特征在于,其方法包括:
故障监测和切换逻辑驻留在所述可编程逻辑电路中,且双余度计算机板的功能相同,包括计算机板CPUA和计算机板CPUB,所述故障监测和切换逻辑驻留用于双余度计算机的故障检测和切换;
所述可编程逻辑电路对外提供1位的离散量输出信号CHVALID_O和1位的离散量输入信号CHVALID_I,互为备份的两个所述计算机板将所述离散量输出信号CHVALID_O和离散量输入信号CHVALID_I交叉相连,其中,
所述计算机板CPUA的离散量输出信号CHVALID_O等于计算机板CPUB的离散量输入信号CHVALID_I,计算机板CPUA的离散量输入信号CHVALID_I等于计算机板CPUB的离散量输出信号CHVALID_O,其中,
当故障监控逻辑监测到所述计算机板CPUA的处理器功能电路上运行的软件出现异常,或者,所述处理器功能电路上的硬件出现异常时,所述故障监测和切换逻辑将释放总线控制器的控制权限,并且,通知热备份所述计算机板CPUB能够接管总线控制权;
当所述计算机板CPUB上的处理器功能电路工作正常时,所述计算机板CPUB将接管总线控制器的控制权,总线切换操作完成。
2.根据权利要求1所述的双余度计算机的故障监控及切换方法,其特征在于,监控所述软件出现异常或关键硬件出现异常,包括:
所述故障监测和切换逻辑通过“看门狗”电路的状态判定对应计算机板CPUA和计算机板CPUB上软件的运行状态,其中,
当“看门狗”电路处于“未叫”的状态时,则,判定当前两个处理器功能电路运行正常;
当处理器功能电路的自检测状态处于正常时,所述故障监控和切换逻辑判定当前两个计算机板能够正常完成总线控制器总线的通信工作,通知所述使能端打开总线控制器,获取控制权限;
当处理器功能电路上的软件运行异常,且出现超时的情况时,“看门狗”电路处于“狗叫”状态,则判定处理器功能电路上的软件无法正常运行,通过所述使能端关闭总线控制器。
3.根据权利要求2所述的双余度计算机的故障监控及切换方法,其特征在于,
所述故障监测和切换逻辑通过监控处理器功能电路的自检测状态,判断当前两个处理器功能电路的工作情况,其中,
当处理器功能电路在自检测正常时,通过在故障监测和切换逻辑中设置的错误状态寄存器,传送故障监控及切换逻辑自检测结果信息;
当“看门狗”电路处于“未叫”状态时,所述故障监控和切换逻辑判定当前两个计算机板能够完成总线控制器中总线的通信工作,且通过所述使能端打开总线控制器,以获取总线控制器的控制权限;
当处理器功能电路自检测并处于异常状态时,通过所述错误状态寄存器传送自检测结果信息,所述故障监控和切换逻辑判定当前计算机板无法正常完成总线通信工作,通过所述使能端关闭总线控制器,释放总线控制器的总线控制权限。
4.根据权利要求3所述的双余度计算机的故障监控及切换方法,其特征在于,切换逻辑中的1位离散量输出信号CHVALID_O和1位离散量输入信号CHVALID_I互斥。
5.根据权利要求1所述的双余度计算机的故障监控及切换方法,其特征在于,所述总线控制器具有使能控制功能,用于总线的收发驱动和控制。
CN202311828065.0A 2023-12-27 2023-12-27 双余度计算机的故障监控及切换方法 Pending CN117785614A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311828065.0A CN117785614A (zh) 2023-12-27 2023-12-27 双余度计算机的故障监控及切换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311828065.0A CN117785614A (zh) 2023-12-27 2023-12-27 双余度计算机的故障监控及切换方法

Publications (1)

Publication Number Publication Date
CN117785614A true CN117785614A (zh) 2024-03-29

Family

ID=90381279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311828065.0A Pending CN117785614A (zh) 2023-12-27 2023-12-27 双余度计算机的故障监控及切换方法

Country Status (1)

Country Link
CN (1) CN117785614A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117994995A (zh) * 2024-04-02 2024-05-07 杭州海康威视数字技术股份有限公司 多信号机协同控制方法、信号机、设备及计算机程序产品
CN118260223A (zh) * 2024-05-31 2024-06-28 苏州元脑智能科技有限公司 双主设备的总线电路、总线控制方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117994995A (zh) * 2024-04-02 2024-05-07 杭州海康威视数字技术股份有限公司 多信号机协同控制方法、信号机、设备及计算机程序产品
CN117994995B (zh) * 2024-04-02 2024-06-18 杭州海康威视数字技术股份有限公司 多信号机协同控制方法、信号机、设备及计算机程序产品
CN118260223A (zh) * 2024-05-31 2024-06-28 苏州元脑智能科技有限公司 双主设备的总线电路、总线控制方法及装置

Similar Documents

Publication Publication Date Title
CN117785614A (zh) 双余度计算机的故障监控及切换方法
WO2017056688A1 (ja) 監視システム及び車両用制御装置
JP2001060160A (ja) 制御装置のcpu二重化システム
JPS6027041B2 (ja) ハイアラキ制御システムにおける下位制御装置の切換方法
CN115328706A (zh) 双cpu冗余架构综合控制方法及系统
CN110114805B (zh) 防火控制单元
CN220455472U (zh) 一种开关检测装置和机器人
JPS6032374B2 (ja) デ−タ伝送装置
JP2002108638A (ja) マイクロコンピュータのエラー検出方法及びエラー検出回路及びマイクロコンピュータシステム
US7016995B1 (en) Systems and methods for preventing disruption of one or more system buses
KR100299673B1 (ko) 프로세서간 통신장치의 스탠바이 링크 테스트 방법
JP3291729B2 (ja) 二重化計算機システム
CN115276922A (zh) 一种适用于全电子系统的主备状态控制方法
KR200310455Y1 (ko) 교환기에서스탠바이버스시험회로
KR920004292B1 (ko) 이중화 장치 및 방법
KR0179894B1 (ko) 엘리베이터 군관리 시스템의 오류 복구 장치
JP2611549B2 (ja) エレベータの群管理制御装置
CN116455732A (zh) 面向列车主动安全的数据冗余传输控制方法及其系统组成
KR0161163B1 (ko) 전전자 교환기에 있어서 이중화된 게이트웨이노드에 대한 글로벌버스 이중화구조
JPS6113627B2 (zh)
KR100194983B1 (ko) 사설교환기에서의 장애발생보드 블럭킹방법
CN117002562A (zh) 一种基于嵌入式软件冗余的车载台
KR200270668Y1 (ko) 제어부의 상태를 반영하는 이중화 장치
KR20220144693A (ko) 제어기 및 이를 포함하는 통신 시스템
KR20000021045A (ko) 컴퓨터 제어의 이중화 방법 및 그 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination