CN106815093B - 一种基于国产龙芯处理器间互连的计算机故障容错装置 - Google Patents

一种基于国产龙芯处理器间互连的计算机故障容错装置 Download PDF

Info

Publication number
CN106815093B
CN106815093B CN201510854445.0A CN201510854445A CN106815093B CN 106815093 B CN106815093 B CN 106815093B CN 201510854445 A CN201510854445 A CN 201510854445A CN 106815093 B CN106815093 B CN 106815093B
Authority
CN
China
Prior art keywords
computer system
system module
unit
cpu unit
slave
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510854445.0A
Other languages
English (en)
Other versions
CN106815093A (zh
Inventor
黄晨
施清平
白健
安雪岩
罗一丹
汪文明
易航
张利彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Launch Vehicle Technology CALT
Beijing Institute of Astronautical Systems Engineering
Original Assignee
China Academy of Launch Vehicle Technology CALT
Beijing Institute of Astronautical Systems Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Launch Vehicle Technology CALT, Beijing Institute of Astronautical Systems Engineering filed Critical China Academy of Launch Vehicle Technology CALT
Priority to CN201510854445.0A priority Critical patent/CN106815093B/zh
Publication of CN106815093A publication Critical patent/CN106815093A/zh
Application granted granted Critical
Publication of CN106815093B publication Critical patent/CN106815093B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error
    • G06F11/1428Reconfiguring to eliminate the error with loss of hardware functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明涉及地面核心信息控制设备的主控单元技术领域,具体涉及一种基于国产龙芯处理器间互连的计算机故障容错装置。本发明技术方案利用国产龙芯3A多核处理器特有的级间互连接口,以及HT总线的高速双向、串行点对点、包交换、虚通道、乱序执行等特有技术,实现了双机数据状态共享的同步一致和握手互检的故障检测。本发明将有效弥补国产通用处理器可靠性和资源发挥的不足,通过对系统功能的冗余备份及故障容错设计,全面提升信息系统中核心主控单元的安全性、可靠性及测试性,有力确保信息系统国产化建设后的工作性能与适用性。

Description

一种基于国产龙芯处理器间互连的计算机故障容错装置
技术领域
本发明涉及地面核心信息控制设备的主控单元技术领域,具体涉及一种基于国产龙芯处理器间互连的计算机故障容错装置。
背景技术
信息控制设备主控单元日常应用中,完成了大量的数据监管与信息应用工作,直接关系着整个信息系统的工作性能。受信息安全等因素困扰,国产化处理器已经成为了信息系统的优先选择,然而由于测试不足、技术薄弱等原因,基于国产处理器的计算机系统往往可靠性较低,缺乏备保措施,难以满足实际使用需求。
现有国产化计算机系统往往具有以下几项不足:
系统内各台主机间功能相互独立,未形成系统,即使通过传统总线交互数据,数量不足,价值有限,难以进行更深层次的分析应用,无法充分发挥计算机系统的性能特点;
系统内各台主机的各个功能模块间相互重叠,无法独立完成所需功能,系统构成灵活度不足,系统内存在故障单点模式,严重影响系统工作可靠性;
系统内各台主机间缺乏必要的检测和诊断机制,故障或者错误,特别是程序跑飞现象难以有效隔离,无法保障整个系统对于故障的适应性。
发明内容
针对上述现有技术,本发明的目的在于提供一种基于国产龙芯处理器间互连的计算机故障容错装置,提高国产计算机系统的工作可靠性,充分发挥国产计算机系统的工作性能,有效隔离单机故障模式对系统影响,满足信息系统工作需要。
为了达到上述目的,本发明采用以下技术方案。
一种基于国产龙芯处理器间互连的计算机故障容错装置,该装置包括主计算机系统模块和从计算机系统模块;
主计算机系统模块和从计算机系统模块都包括:CPU单元、北/南桥单元、存储单元、接口单元、供电单元;CPU单元包括龙芯3A多核处理器,主计算机系统模块的CPU单元和从计算机系统模块的CPU单元通过HT总线接口实现互连;存储单元包括内存、启动ROM和硬盘;
龙芯3A多核处理器集成2组独立的HT总线接口,HT0总线接口和HT1总线接口,主计算机系统模块CPU单元的龙芯3A多核处理器HT0总线接口与从计算机系统模块CPU单元的龙芯3A多核处理器HT0总线接口连接,实现主计算机系统模块和从计算机系统模块的互连;HT1总线接口与北/南桥单元的HT总线接口相连接,龙芯3A多核处理器未使用管脚要通过电阻下拉。
所述基于国产龙芯处理器间互连的计算机故障容错装置,龙芯3A多核处理器为龙芯3A四核处理器;北/南桥单元包括RS780E北桥芯片和SB710南桥芯片;存储单元包括DDR内存、启动配置ROM和硬盘,HT总线为16位或8位HT总线。
所述基于国产龙芯处理器间互连的计算机故障容错装置,该装置正常工作时,由主计算机系统模块完成该装置的控制与数据管理工作,从计算机系统模块通过HT总线跟踪主计算机系统模块CPU单元的进程操作及工作状态,并在从计算机系统模块存储单元的硬盘中同步备份主计算机系统模块存储单元硬盘中的数据,利用高速缓存一致性协议,保证主计算机系统模块和从计算机系统模块的数据与缓存状态均保持一致。
所述基于国产龙芯处理器间互连的计算机故障容错装置,主计算机系统模块和从计算机系统模块间的CPU单元龙芯3A处理器通过HT0总线实现龙芯3A处理器的GPIO和INT相互连接;实现主计算机系统模块CPU单元和从计算机系统模块CPU单元之间中断握手操作,实现主计算机系统模块和从计算机系统模块的相互监测与备份,避免故障串扰和时钟差异的存在;
从计算机系统模块或主计算机系统模块通过利用供电单元的称供电信号构成逻辑判断,并将判断结果传送给主计算机系统模块或从计算机系统模块;
从计算机系统模块或主计算机系统模块,通过接口单元采集主计算机系统模块或从计算机系统模块的实时信息,实时信息包括电流信号、电压信号和温度信号;
当从计算机系统模块或主计算机系统模块采集到对方的供电信息和实时信息中,与被采集的主计算机系统模块或从计算机系统模块的接口单元相关的供电信息和实时信息中任一信息超出了设定的故障限时,认为被采集的主计算机系统模块或从计算机系统模块的接口单元发生故障;
当从计算机系统模块或主计算机系统模块采集到对方的供电信息、实时信息和握手信息中,与被采集的主计算机系统模块或从计算机系统模块的CPU单元相关的供电信息和实时信息、以及被采集的主计算机系统模块或从计算机系统模块的CPU单元的握手信息中,任一信息超出了设定的故障限,认为被采集的主计算机系统模块或从计算机系统模块的CPU单元故障。
所述基于国产龙芯处理器间互连的计算机故障容错装置,当从计算机系统模块诊断出主计算机系统模块的接口单元故障时,认为主计算机系统模块接口单元失效,从计算机系统模块的CPU单元仍保持通过HT总线接口获取主计算机系统模块的CPU单元进程操作数据,从计算机系统模块的接口单元将取代主计算机系统模块的接口单元完成对外信息交互工作。
所述基于国产龙芯处理器间互连的计算机故障容错装置,当从计算机系统模块诊断出主计算机系统模块的CPU单元故障时,认为主计算机系统模块的CPU单元失效,从计算机系统模块利用存储单元的硬盘之中同步备份的主计算机系统模块存储单元的硬盘中的操作数据,从计算机系统模块的CPU单元取代主计算机系统模块的CPU单元完成对外信息交互工作,独立保证信息系统工作的正常。
所述基于国产龙芯处理器间互连的计算机故障容错装置,当主计算机系统模块诊断出从计算机系统模块接口单元或CPU单元故障时,认为从计算机系统模块接口单元或CPU单元失效,主计算机系统模块将断开与从计算机系统模块之间的HT总线互连,停止采集从计算机系统模块的握手信息、供电信息和实时信息,主计算机系统模块将独立保证信息系统工作的正常。
一种基于国产龙芯处理器间互连的计算机故障容错装置进行计算机故障容错的方法,该方法包括以下步骤:
步骤一、故障诊断;
主计算机系统模块和从计算机系统模块间的CPU单元龙芯3A处理器通过HT0总线实现龙芯3A处理器的GPIO和INT相互连接;实现主计算机系统模块CPU单元和从计算机系统模块CPU单元之间中断握手操作,实现主计算机系统模块和从计算机系统模块的相互监测与备份,避免故障串扰和时钟差异的存在;
从计算机系统模块或主计算机系统模块通过利用供电单元的称供电信号构成逻辑判断,并将判断结果传送给主计算机系统模块或从计算机系统模块;
从计算机系统模块或主计算机系统模块,通过接口单元采集主计算机系统模块或从计算机系统模块的实时信息,实时信息包括电流信号、电压信号和温度信号;
当从计算机系统模块或主计算机系统模块采集到对方的供电信息、实时信息和握手信息中;
1)与被采集的主计算机系统模块或从计算机系统模块的接口单元相关的供电信息和实时信息中任一信息超出了设定的故障限时,认为被采集的主计算机系统模块或从计算机系统模块的接口单元发生故障;
2)与被采集的主计算机系统模块或从计算机系统模块的CPU单元相关的供电信息和实时信息、以及被采集的主计算机系统模块或从计算机系统模块的CPU单元的握手信息中,任一信息超出了设定的故障限,认为被采集的主计算机系统模块或从计算机系统模块的CPU单元故障;
3)否则,认为被采集的主计算机系统模块或从计算机系统模块工作正常;
步骤二、故障容错;
1)当从计算机系统模块诊断出主计算机系统模块的接口单元故障时,认为主计算机系统模块接口单元失效,从计算机系统模块的CPU单元仍保持通过HT总线接口获取主计算机系统模块的CPU单元进程操作数据,从计算机系统模块的接口单元将取代主计算机系统模块的接口单元完成对外信息交互工作;
2)当从计算机系统模块诊断出主计算机系统模块的CPU单元故障时,认为主计算机系统模块的CPU单元失效,从计算机系统模块利用存储单元的硬盘之中同步备份的主计算机系统模块存储单元的硬盘中的操作数据,从计算机系统模块的CPU单元取代主计算机系统模块的CPU单元完成对外信息交互工作,独立保证信息系统工作的正常;
3)当主计算机系统模块诊断出从计算机系统模块接口单元或CPU单元故障时,认为从计算机系统模块接口单元或CPU单元失效,主计算机系统模块将断开与从计算机系统模块之间的HT总线互连,停止采集从计算机系统模块的握手信息、供电信息和实时信息,主计算机系统模块将独立保证信息系统工作的正常;
4)否则,由主计算机系统模块完成该装置的控制与数据管理工作,从计算机系统模块通过HT总线跟踪主计算机系统模块CPU单元的进程操作及工作状态,并在从计算机系统模块存储单元的硬盘中同步备份主计算机系统模块存储单元硬盘中的数据,利用高速缓存一致性协议,保证主计算机系统模块和从计算机系统模块的数据与缓存状态均保持一致。
本发明实施例提供的技术方案带来的有益效果是:
本发明技术方案利用国产龙芯3A多核处理器特有的级间互连接口,以及HT(HyperTransport)总线的高速双向、串行点对点、包交换、虚通道、乱序执行等特有技术,实现了双机数据状态共享的同步一致和握手互检的故障检测。
本发明的使用,将有效弥补国产通用处理器可靠性和资源发挥的不足,通过对系统功能的冗余备份及故障容错设计,全面提升信息系统中核心主控单元的安全性、可靠性及测试性,有力确保信息系统国产化建设后的工作性能与适用性。
附图说明
图1是本发明基于国产龙芯处理器间互连的计算机故障容错装置示意图;
图2是本发明基于国产龙芯处理器间互连的计算机故障容错装置正常工作时信号通路示意图;
图3是本发明基于国产龙芯处理器间互连的计算机故障容错装置主计算机系统模块接口单元故障时信号通路示意图;
图4是本发明基于国产龙芯处理器间互连的计算机故障容错装置主计算机系统模块CPU单元故障时信号通路示意图。
具体实施方式
下面结合附图和具体实施方式对本发明一种基于国产龙芯处理器间互连的计算机故障容错装置作详细说明。
如图1所示,本发明一种基于国产龙芯处理器间互连的计算机故障容错装置包括主计算机系统模块和从计算机系统模块;
主计算机系统模块和从计算机系统模块都包括:CPU单元、北/南桥单元、存储单元、接口单元、供电单元;CPU单元包括龙芯3A多核处理器,主计算机系统模块的CPU单元和从计算机系统模块的CPU单元通过HT(Hyper Transport)总线接口实现互连,HT总线为16位或8位HT总线;存储单元包括内存、启动ROM和硬盘;
龙芯3A多核处理器包括龙芯3A四核处理器;北/南桥单元包括RS780E北桥芯片和SB710南桥芯片;存储单元包括DDR内存、启动配置ROM和硬盘;接口单元则依据系统需求具体设计,可以包含网络信号、串并行接口总线、视频信号、音频信号等;
龙芯3A多核处理器集成2组独立的HT(Hyper Transport)总线接口HT0和HT1,主计算机系统模块CPU单元的龙芯3A多核处理器HT0总线接口与从计算机系统模块CPU单元的龙芯3A多核处理器HT0总线接口连接,实现主计算机系统模块和从计算机系统模块的互连;HT1总线接口与北/南桥单元的HT总线接口相连接,龙芯3A多核处理器未使用管脚要通过电阻下拉。
(1)正常工作:
如图2所示,当本发明基于国产龙芯处理器间互连的计算机故障容错装置正常工作时,由主计算机系统模块完成信息系统的控制与数据管理工作,从计算机系统模块通过HT(HyperTransport)总线跟踪主计算机系统模块CPU单元的进程操作及工作状态,包括CPU进程信息、硬盘存储信息等,并在从计算机系统模块存储单元的硬盘之中同步备份主计算机系统模块存储单元硬盘中的数据,利用高速缓存一致性协议,保证主计算机系统模块和从计算机系统模块的数据与缓存状态均保持一致。
(2)故障诊断:
主计算机系统模块和从计算机系统模块间的CPU单元龙芯3A处理器通过HT0总线实现龙芯3A处理器的GPIO(通用输入输出接口)和INT(中断接口)相互连接;实现主计算机系统模块CPU单元和从计算机系统模块CPU单元之间中断握手操作,实现相互监测与备份,避免故障串扰和时钟差异的存在。
从(或主)计算机系统模块通过利用供电单元的POWERGOOD(上电好)信号(或称供电信号)构成硬件逻辑判断,并将判断结果传送给主(或从)计算机系统模块。
从(或主)计算机系统模块,通过接口单元采集主(或从)计算机系统模块的实时信息,实时信息包括电流信号、电压信号和温度信号。
计算机系统存在故障包括接口单元故障和CPU单元故障;
如果从(或主)计算机系统模块采集到主(或从)计算机系统模块的供电信息和实时信息中,与主(或从)计算机系统模块的接口单元相关的供电信息和实时信息中任一信息超出了接口单元相关的供电信息和实时信息设定的故障限,认为主(或从)计算机系统模块的接口单元故障。
如果从(或主)计算机系统模块采集到主(或从)计算机系统模块的供电信息、实时信息和握手信息中,与主(或从)计算机系统模块的CPU单元相关的供电信息和实时信息、以及主(或从)计算机系统模块的CPU单元的握手信息中,任一信息超出了主(或从)计算机系统模块设定的故障限,认为主(或从)计算机系统模块的CPU单元故障。
(3)故障处置:
如图3所示,当从计算机系统模块诊断出主计算机系统模块的接口单元故障时,说明主计算机系统模块接口单元已经失效,从计算机系统模块的CPU单元仍保持通过HT总线接口获取主计算机系统模块的CPU单元进程操作数据,从计算机系统模块的接口单元将取代主计算机系统模块的接口单元完成对外信息交互工作。
如图4所示,当从计算机系统模块诊断出主计算机系统模块的CPU单元故障时,说明主计算机系统模块的CPU单元已经失效,从计算机系统模块利用存储单元的硬盘之中同步备份的主计算机系统模块存储单元的硬盘中的操作数据,从计算机系统模块的CPU单元取代主计算机系统模块的CPU单元完成对外信息交互工作,独立保证信息系统工作的正常。
当主计算机系统模块诊断出从计算机系统模块接口单元或CPU单元故障时,说明从计算机系统模块接口单元或CPU单元已经失效,主计算机系统模块将断开与从计算机系统模块之间的HT总线互连,停止采集从计算机系统模块的握手信息、供电信息和实时信息,主计算机系统模块将独立保证信息系统工作的正常。

Claims (5)

1.一种基于国产龙芯处理器间互连的计算机故障容错装置,其特征在于,该装置包括主计算机系统模块和从计算机系统模块;主计算机系统模块和从计算机系统模块都包括:CPU单元、北/南桥单元、存储单元、接口单元、供电单元;CPU单元包括龙芯3A多核处理器,主计算机系统模块的CPU单元和从计算机系统模块的CPU单元通过HT总线接口实现互连;存储单元包括内存、启动ROM和硬盘;龙芯3A多核处理器集成2组独立的HT总线接口,HT0总线接口和HT1总线接口,主计算机系统模块CPU单元的龙芯3A多核处理器HT0总线接口与从计算机系统模块CPU单元的龙芯3A多核处理器HT0总线接口连接,实现主计算机系统模块和从计算机系统模块的互连;HT1总线接口与北/南桥单元的HT总线接口相连接,龙芯3A多核处理器未使用管脚通过电阻下拉;
龙芯3A多核处理器为龙芯3A四核处理器;北/南桥单元包括RS780E北桥芯片和SB710南桥芯片;存储单元包括DDR内存、启动配置ROM和硬盘,HT总线为16位或8位HT总线;
该装置正常工作时,由主计算机系统模块完成该装置的控制与数据管理工作,从计算机系统模块通过HT总线跟踪主计算机系统模块CPU单元的进程操作及工作状态,并在从计算机系统模块存储单元的硬盘中同步备份主计算机系统模块存储单元硬盘中的数据,利用高速缓存一致性协议,保证主计算机系统模块和从计算机系统模块的数据与缓存状态均保持一致;
主计算机系统模块和从计算机系统模块间的CPU单元龙芯3A处理器通过HT0总线实现龙芯3A处理器的GPIO和INT相互连接;实现主计算机系统模块CPU单元和从计算机系统模块CPU单元之间中断握手操作,实现主计算机系统模块和从计算机系统模块的相互监测与备份,避免故障串扰和时钟差异的存在;从计算机系统模块或主计算机系统模块通过利用供电单元的称供电信号构成逻辑判断,并将判断结果传送给主计算机系统模块或从计算机系统模块;从计算机系统模块或主计算机系统模块,通过接口单元采集主计算机系统模块或从计算机系统模块的实时信息,实时信息包括电流信号、电压信号和温度信号;当从计算机系统模块或主计算机系统模块采集到对方的供电信息和实时信息中,与被采集的主计算机系统模块或从计算机系统模块的接口单元相关的供电信息和实时信息中任一信息超出了设定的故障限时,认为被采集的主计算机系统模块或从计算机系统模块的接口单元发生故障;当从计算机系统模块或主计算机系统模块采集到对方的供电信息、实时信息和握手信息中,与被采集的主计算机系统模块或从计算机系统模块的CPU单元相关的供电信息和实时信息、以及被采集的主计算机系统模块或从计算机系统模块的CPU单元的握手信息中,任一信息超出了设定的故障限,认为被采集的主计算机系统模块或从计算机系统模块的CPU单元故障。
2.根据权利要求1所述基于国产龙芯处理器间互连的计算机故障容错装置,其特征在于,当从计算机系统模块诊断出主计算机系统模块的接口单元故障时,认为主计算机系统模块接口单元失效,从计算机系统模块的CPU单元仍保持通过HT总线接口获取主计算机系统模块的CPU单元进程操作数据,从计算机系统模块的接口单元将取代主计算机系统模块的接口单元完成对外信息交互工作。
3.根据权利要求1所述基于国产龙芯处理器间互连的计算机故障容错装置,其特征在于,当从计算机系统模块诊断出主计算机系统模块的CPU单元故障时,认为主计算机系统模块的CPU单元失效,从计算机系统模块利用存储单元的硬盘之中同步备份的主计算机系统模块存储单元的硬盘中的操作数据,从计算机系统模块的CPU单元取代主计算机系统模块的CPU单元完成对外信息交互工作,独立保证信息系统工作的正常。
4.根据权利要求1所述基于国产龙芯处理器间互连的计算机故障容错装置,其特征在于,当主计算机系统模块诊断出从计算机系统模块接口单元或CPU单元故障时,认为从计算机系统模块接口单元或CPU单元失效,主计算机系统模块将断开与从计算机系统模块之间的HT总线互连,停止采集从计算机系统模块的握手信息、供电信息和实时信息,主计算机系统模块将独立保证信息系统工作的正常。
5.一种利用权利要求1所述的基于国产龙芯处理器间互连的计算机故障容错装置进行计算机故障容错的方法,其特征在于,该方法包括以下步骤:步骤一、故障诊断;主计算机系统模块和从计算机系统模块间的CPU单元龙芯3A处理器通过HT0总线实现龙芯3A处理器的GPIO和INT相互连接;实现主计算机系统模块CPU单元和从计算机系统模块CPU单元之间中断握手操作,实现主计算机系统模块和从计算机系统模块的相互监测与备份,避免故障串扰和时钟差异的存在;从计算机系统模块或主计算机系统模块通过利用供电单元的称供电信号构成逻辑判断,并将判断结果传送给主计算机系统模块或从计算机系统模块;从计算机系统模块或主计算机系统模块,通过接口单元采集主计算机系统模块或从计算机系统模块的实时信息,实时信息包括电流信号、电压信号和温度信号;当从计算机系统模块或主计算机系统模块采集到对方的供电信息、实时信息和握手信息中;1)与被采集的主计算机系统模块或从计算机系统模块的接口单元相关的供电信息和实时信息中任一信息超出了设定的故障限时,认为被采集的主计算机系统模块或从计算机系统模块的接口单元发生故障;2)与被采集的主计算机系统模块或从计算机系统模块的CPU单元相关的供电信息和实时信息、以及被采集的主计算机系统模块或从计算机系统模块的CPU单元的握手信息中,任一信息超出了设定的故障限,认为被采集的主计算机系统模块或从计算机系统模块的CPU单元故障;3)否则,认为被采集的主计算机系统模块或从计算机系统模块工作正常;步骤二、故障容错;1)当从计算机系统模块诊断出主计算机系统模块的接口单元故障时,认为主计算机系统模块接口单元失效,从计算机系统模块的CPU单元仍保持通过HT总线接口获取主计算机系统模块的CPU单元进程操作数据,从计算机系统模块的接口单元将取代主计算机系统模块的接口单元完成对外信息交互工作;2)当从计算机系统模块诊断出主计算机系统模块的CPU单元故障时,认为主计算机系统模块的CPU单元失效,从计算机系统模块利用存储单元的硬盘之中同步备份的主计算机系统模块存储单元的硬盘中的操作数据,从计算机系统模块的CPU单元取代主计算机系统模块的CPU单元完成对外信息交互工作,独立保证信息系统工作的正常;3)当主计算机系统模块诊断出从计算机系统模块接口单元或CPU单元故障时,认为从计算机系统模块接口单元或CPU单元失效,主计算机系统模块将断开与从计算机系统模块之间的HT总线互连,停止采集从计算机系统模块的握手信息、供电信息和实时信息,主计算机系统模块将独立保证信息系统工作的正常;4)否则,由主计算机系统模块完成该装置的控制与数据管理工作,从计算机系统模块通过HT总线跟踪主计算机系统模块CPU单元的进程操作及工作状态,并在从计算机系统模块存储单元的硬盘中同步备份主计算机系统模块存储单元硬盘中的数据,利用高速缓存一致性协议,保证主计算机系统模块和从计算机系统模块的数据与缓存状态均保持一致。
CN201510854445.0A 2015-11-30 2015-11-30 一种基于国产龙芯处理器间互连的计算机故障容错装置 Active CN106815093B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510854445.0A CN106815093B (zh) 2015-11-30 2015-11-30 一种基于国产龙芯处理器间互连的计算机故障容错装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510854445.0A CN106815093B (zh) 2015-11-30 2015-11-30 一种基于国产龙芯处理器间互连的计算机故障容错装置

Publications (2)

Publication Number Publication Date
CN106815093A CN106815093A (zh) 2017-06-09
CN106815093B true CN106815093B (zh) 2020-08-21

Family

ID=59157146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510854445.0A Active CN106815093B (zh) 2015-11-30 2015-11-30 一种基于国产龙芯处理器间互连的计算机故障容错装置

Country Status (1)

Country Link
CN (1) CN106815093B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107505883B (zh) * 2017-07-31 2020-05-19 北京航天自动控制研究所 一种基于微控制器的高可靠双冗余集成控制模块
CN108051998B (zh) * 2017-11-16 2020-11-13 中国航空工业集团公司西安飞机设计研究所 一种冗余系统同步与监控判决方法
CN112084135A (zh) * 2020-09-18 2020-12-15 西安超越申泰信息科技有限公司 一种基于国产处理器的高可靠计算机

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1908849A (zh) * 2005-08-02 2007-02-07 华为技术有限公司 一种基于Opteron处理器的服务器系统
CN101178674A (zh) * 2007-12-13 2008-05-14 北京理工大学 基于龙芯的三模冗余容错控制系统
CN102404139A (zh) * 2011-10-21 2012-04-04 浪潮电子信息产业股份有限公司 一种提高容错服务器应用层级容错性能的方法
CN202771303U (zh) * 2012-05-30 2013-03-06 曙光信息产业股份有限公司 一种基于sr5670和sp5100的双路主板

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1908849A (zh) * 2005-08-02 2007-02-07 华为技术有限公司 一种基于Opteron处理器的服务器系统
CN101178674A (zh) * 2007-12-13 2008-05-14 北京理工大学 基于龙芯的三模冗余容错控制系统
CN102404139A (zh) * 2011-10-21 2012-04-04 浪潮电子信息产业股份有限公司 一种提高容错服务器应用层级容错性能的方法
CN202771303U (zh) * 2012-05-30 2013-03-06 曙光信息产业股份有限公司 一种基于sr5670和sp5100的双路主板

Also Published As

Publication number Publication date
CN106815093A (zh) 2017-06-09

Similar Documents

Publication Publication Date Title
CN101359309B (zh) 串行附接小型计算机系统接口硬盘状态指示装置及方法
CN107347018B (zh) 一种三冗余1553b总线动态切换方法
CN102622279B (zh) 冗余控制系统、方法及管理控制器
CN105589776B (zh) 一种故障定位方法及服务器
CN107634855A (zh) 一种嵌入式系统的双机热备方法
CN106815093B (zh) 一种基于国产龙芯处理器间互连的计算机故障容错装置
CN103425553B (zh) 一种双机热备份系统及该系统的故障检测方法
CN108829567A (zh) 支持双重点灯的单块NVMe硬盘背板及硬盘背板的点灯方法
CN104050061A (zh) 一种基于PCIe总线多主控板冗余备份系统
CN106936616A (zh) 备份通信方法和装置
CN103744743A (zh) 一种基于数据库rac模式心跳信号的冗余配置的方法
CN105760241A (zh) 一种内存数据导出方法和系统
CN115550291B (zh) 交换机的复位系统及方法、存储介质、电子设备
CN107124317A (zh) 一种容灾系统
CN104734904B (zh) 旁路设备的自动测试方法及系统
CN102929755A (zh) 一种cpu模块地址和数据总线的故障检测方法
CN102768561B (zh) 一种双桥片主板冗余的设计方法
CN103838656A (zh) 计算机系统及其操作方法
CN105306352A (zh) 一种工业现场总线协议网关装置
CN101145894A (zh) 高可用双机容错系统的高可靠仲裁装置
CN103646140A (zh) 一种基于numa计算机体系结构的xdp设计方法
CN113791937A (zh) 一种数据同步冗余系统及其控制方法
CN212541329U (zh) 基于国产龙芯平台的双冗余计算机设备
CN101788940A (zh) 基于可编程逻辑器件2x2冗余容错计算机上电复位的电路
CN117111525A (zh) 一种基于多cpu的可信冗余控制系统及控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant