CN116302697A - 一种全接口冗余的高可靠计算机系统 - Google Patents

一种全接口冗余的高可靠计算机系统 Download PDF

Info

Publication number
CN116302697A
CN116302697A CN202310265207.0A CN202310265207A CN116302697A CN 116302697 A CN116302697 A CN 116302697A CN 202310265207 A CN202310265207 A CN 202310265207A CN 116302697 A CN116302697 A CN 116302697A
Authority
CN
China
Prior art keywords
module
network
switching
modules
interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310265207.0A
Other languages
English (en)
Inventor
司呈强
吴佳毅
姚承利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CSIC (WUHAN) LINCOM ELECTRONICS CO LTD
Original Assignee
CSIC (WUHAN) LINCOM ELECTRONICS CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CSIC (WUHAN) LINCOM ELECTRONICS CO LTD filed Critical CSIC (WUHAN) LINCOM ELECTRONICS CO LTD
Priority to CN202310265207.0A priority Critical patent/CN116302697A/zh
Publication of CN116302697A publication Critical patent/CN116302697A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1469Backup restoration techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4063Device-to-bus coupling
    • G06F13/4068Electrical coupling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • G06F13/4204Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus
    • G06F13/4221Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus being an input/output bus, e.g. ISA bus, EISA bus, PCI bus, SCSI bus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • G06F13/4282Bus transfer protocol, e.g. handshake; Synchronisation on a serial bus, e.g. I2C bus, SPI bus
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提供一种全接口冗余的高可靠计算机系统,包括两套计算机单元、一块仲裁切换模块、两块网络交换模块、两块网络管理模块、两块电源模块和机箱组成;所述计算机单元包括主处理模块、网络通信模块、数据装载模块、串口通信模块、I/O接口模块;通过一块仲裁切换模块实现了串口、I/O、VGA、USB等常用硬件接口的冗余切换,同时基于IPMI总线实现了故障诊断管理功能;通过两块网络交换模块构建了双星网络拓扑,实现了多组双冗余网络功能,每组双冗余网络接口均支持相同MAC、相同IP地址。

Description

一种全接口冗余的高可靠计算机系统
技术领域
本发明涉及高可靠计算机技术领域,尤其涉及一种全接口冗余的高可靠计算机系统。
背景技术
在某些计算机系统关键的应用中,需要保证系统能够长时间稳定、无误差工作,任何微小的故障都会引起不可估量的损失,所以对计算机系统的可靠性提出了越来越高的要求。提高计算机系统的可靠性有两种方法:一种方法是从提高原系统本身可靠性来实现,如对元器件进行严格筛选、电路设计更加周全、改进结构热设计、提高生产装配工艺等手段,但应用这些手段在系统可靠性被提高到某一阶段后则会出现瓶颈,想要继续提升可靠性十分困难而且需要付出巨大的成本代价。在对可靠性要求非常高的系统中这样的可靠性仍然远远不足以满足需求。另外一种办法是采取容错技术,即保证系统在发生硬件故障或软件故障等情况下,仍然能保证系统的正常工作的技术。在容错系统中需要实现对计算机系统的故障诊断、仲裁切换,而且能够实现快速修复故障或者隔离故障,从而保证局部的故障不影响整个系统的正常工作。采用容错技术设计高可靠的计算机系统可以弥补常规技术手段的不足,大幅提高系统的可靠性和安全性。
发明内容
本发明的目的在于针对上述现有技术的不足,提供了一种全接口冗余的高可靠计算机系统,当系统内任一功能模块发生故障时,仲裁切换模块能够迅速进行仲裁切换,提高了计算机系统的可靠性和安全性。
为实现上述目的,本发明采用了如下技术方案:
本发明提供了一种全接口冗余的高可靠计算机系统,包括两套计算机单元、一块仲裁切换模块、两块网络交换模块、两块网络管理模块、两块电源模块和机箱组成;
所述计算机单元包括主处理模块、网络通信模块、数据装载模块、串口通信模块、I/O接口模块。
进一步,所述主处理模块采用多组PICE总线分别与所述串口通信模块、所述I/O接口模块和所述网络通信模块互联;所述数据装载模块通过SATA接口扩展所述主处理模块存储容量;所述网络通信模块扩展引出网络接口,两套所述计算机单元之间通过网络接口进行数据同步。
进一步,所述仲裁切换模块采用串口分别与两块所述主处理模块连接;所述计算机单元通过所述网络通信模块引出四路千兆以太网接口,配置为双冗余网络,每组所述双冗余网络均同时与两块所述网络交换模块连接对应的所述网络交换模块端口配置为主备模式;两块所述网络交换模块合并对外引出五组双冗余网络接口,每组所述双冗余网络接口均支持相同IP和MAC。
进一步,所述网络管理模块通过两路双冗余网络分别与两块所述网络交换模块相连接,所述网络管理模块支持八路管理网口,通过转发软件实现每路所述管理网口具有相同IP和端口。
进一步,两块所述电源模块采用并联均流为两个所述计算机单元、所述仲裁切换模块、所述网络交换模块、所述网络管理模块供电,支持两个所述计算单元独立上下电工作。
进一步,系统上电,所述仲裁切换模块开始工作,对两套计算机的工作状态进行监视和判断;
如果判断两套计算机状态正常,则进一步判断手动切换信号;
如未收到手动切换信号,则将第一计算机单元缺省配置为控制机;将第二计算机单元配置为备份机,随后由所述仲裁切换模块接管所述控制机全部对外接口,而所述备份机处于待命状态,系统正常工作;
当所述仲裁切换模块判断两套计算机出现状态异常或受到手动切换信号,则触发切换,进行控制权的重新分配,即将原备份机状态配置为新控制机,同时将原控制机状态配置为所述新备份机,随后由所述仲裁切换模块接管新控制机的全部对外接口;所述仲裁切换模块始终处于监视状态。
本发明的有益效果为:通过一块仲裁切换模块实现串口、I/O、VGA、USB等常用硬件接口的冗余切换,同时基于IPMI总线实现故障诊断管理功能;通过两块网络交换模块构建双星网络拓扑,实现多组双冗余网络功能,即每组双冗余网络接口均支持相同MAC、相同IP地址。基于以上系统架构,当系统内任一功能模块发生故障时,仲裁切换模块能够迅速进行仲裁切换,可对所有对外接口进行冗余切换,快速恢复系统对外通信,从而大幅提高了计算机系统的可靠性和安全性。
附图说明
图1为本发明一种全接口冗余的高可靠计算机系统的原理框图;
图2为本发明一种全接口冗余的高可靠计算机系统的切换流程图;
图3为本发明一种全接口冗余的高可靠计算机系统的诊断管理原理框图;
图4为本发明一种全接口冗余的高可靠计算机系统的电源控制方案原理框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
请参阅图1至图4,一种全接口冗余的高可靠计算机系统,包括两套计算机单元、一块仲裁切换模块9、两块网络交换模块、两块网络管理模块、两块电源模块和机箱组成;
所述第一计算机单元1001包括第一主处理模块101、第一网络通信模块301、第一数据装载模块201、第一串口通信模块401、第一I/O接口模块501;所述第二计算机单元1002包括第一主处理模块102、第一网络通信模块302、第一数据装载模块202、第一串口通信模块402、第一I/O接口模块502。
两块网络管理模块分别为第一网络管理模块601和第二网络管理模块602;两块网络管理模块分别为第一网络管理模块701和第二网络管理模块702;两块电源模块分别为第一电源模块801和第二电源模块802,仲裁切换模块为9。
所述主处理模块采用多组PICE总线分别与所述串口通信模块、所述I/O接口模块和所述网络通信模块互联;所述数据装载模块通过SATA接口扩展所述主处理模块存储容量;所述网络通信模块扩展引出网络接口,两套所述计算机单元之间通过网络接口进行数据同步。
所述仲裁切换模块9采用串口分别与第一主处理模块101和第二主处理模块102连接;所述计算机单元通过所述网络通信模块引出四路千兆以太网接口,配置为两组双冗余网络,每组所述双冗余网络均同时与两块所述网络交换模块连接,对应的所属网络交换模块端口配置为主备模式,
两块所述网络交换模块合并对外引出五组双冗余网络接口,每组所述双冗余网络均支持相同IP和MAC。;
所述网络管理模块通过两路双冗余网络分别与两块所述网络交换模块连接,所述网络管理模块支持八路管理网口,通过转发软件实现每路所述管理网口具有相同IP和端口。
在一种具体的实施方式中,接口切换功能实现方法为:
在计算机单元与仲裁切换模块之间连接的硬件接口包括串口、I/O、VGA、USB等,仲裁切换模块上设计有串口切换单元电路、I/O切换单元电路、VGA接口切换单元电路、USB接口切换单元电路等,配合接口切换软件,实现以上接口的二选一切换控制功能。
在一种具体的实施方式中,诊断管理功能实现方法如下:
1)主处理模块作为每个计算机单元的主设备,设计有ChMC(Chassis ManagementController),其余各模块设计有BMC(Baseboard Management Controller),ChMC通过IPMB总线获取各模块BMC采集到的状态信息,如电源、电流、核心器件温度、关键状态等参数信息,ChMC和BMC之间的通信符合标准IPMI协议;
2)仲裁切换模块作为系统的主设备,采用串口分别与两块主处理模块连接,通过串口获取操作系统或应用软件的运行状态,从而将软件故障纳入诊断管理的范畴;
3)系统中设计有两条独立的IPMB管理总线,分别对应第一计算机单元和第二计算机单元。在每个计算机单元中,主处理模块均作为主设备,支持通过IPMB总线获取各外设功能模块的状态,获取到的信息支持本地存储、显示,还支持通过串口传输到仲裁切换模块,由仲裁切换模块进行仲裁判断,作为是否切换的依据之一。在系统内部冗余设计有备用BMC单元,支持统一获取所有功能模块的状态信息,并通过备用串口传输到仲裁切换模块。
在一种具体的实施方式中,系统切换的流程如下:
1)系统上电,所述仲裁切换模块开始工作,对两套计算机的工作状态进行监视和判断;
2)如果判断两套计算机状态正常,则进一步判断手动切换信号;
3)如未收到手动切换信号,则将第一计算机单元缺省配置为控制机;将第二计算机单元配置为备份机,随后由所述仲裁切换模块接管所述控制机全部对外接口,而所述备份机处于待命状态,系统正常工作;
4)当所述仲裁切换模块判断两套计算机出现状态异常或受到手动切换信号,则触发切换,进行控制权的重新分配,即将原备份机状态配置为所述新控制机,同时将原控制机状态配置为所述新备份机,随后由所述仲裁切换模块接管原主机的全部对外接口;所述仲裁切换模块始终处于监视状态。
针对网络交换模块与两套计算机之间联动的实现方案,举三种典型示例说明:
第一种,上电后默认第一计算机单元作为控制机,第二计算机单元作为备份机,当第一计算机单元发生自身故障,则触发仲裁切换模块仲裁切换机制生效,对第一计算机单元进行复位,第一计算机单元复位重启后切换为备份机模式,第二计算机单元切换为控制机模式,第二计算机单元接管对外接口,与第一计算机单元连接的第一网络交换模块的端口由于link状态变化切换到备用端口,从而实现第二计算机单元1002通过第一网络交换模块与外部网络通信;
第二种,上电后默认第一计算机单元作为控制机,第二计算机单元作为备份机,当第一网络通信模块故障,也即出现内部双冗余网络故障,则调用双冗余驱动实现网络接口切换,从而实现第一计算机板单元通过第一网络交换模块继续与外部网络通信;
第三种,上电后默认第一计算机单元作为控制机,第二计算机单元作为备份机,当第一网络交换模块故障,基于堆叠级联和端口主备的策略,从而实现第一计算机单元通过第二网络交换模块与外部网络通信。
在本计算机系统架构中,采用第一电源模块801和第二电源模块802共同为系统内的功能模块供电,电源模块输出包括+12V、+5V和+3.3V。其中,第一电源模块801的+5V和第二电源模块802的+5V经过5V并联电路后共同为仲裁切换模块供电,任一电源模块工作,仲裁切换模块即可正常工作;第一电源模块801的+12V和+3.3V分别为第一计算机单元1001、第一网络交换模块601和第一网络管理模块701独立供电,第二电源模块802的+12V和+3.3V分别为第二计算机单元1002、第二网络交换模块602和第二网络管理模块702独立供电。
本计算机系统架构采用220V交流电输入,依次经过外部电源接口、保险、滤波器后到达第一电源模块801和第二电源模块802输入端。在加固机箱的前面板设计有开机按钮,开机按钮接入电源模块的使能控制引脚,通过开关按钮的闭合状态决定是否输出。结合图4所示的电源控制方案可以实现电源模块单独上下电控制功能。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求。

Claims (6)

1.一种全接口冗余的高可靠计算机系统,其特征在于:包括两套计算机单元、一块仲裁切换模块、两块网络交换模块、两块网络管理模块、两块电源模块和机箱组成;
所述计算机单元包括主处理模块、网络通信模块、数据装载模块、串口通信模块、I/O接口模块。
2.根据权利要求1所述的一种全接口冗余的高可靠计算机系统,其特征在于:所述主处理模块采用多组PCIE总线分别与所述串口通信模块、所述I/O接口模块和所述网络通信模块互联;所述数据装载模块通过SATA接口扩展所述主处理模块存储容量;所述网络通信模块扩展引出网络接口;两套所述计算机单元之间通过网络接口进行数据同步。
3.根据权利要求2所述的一种全接口冗余的高可靠计算机系统,其特征在于:所述仲裁切换模块采用串口分别与两块所述主处理模块连接;所述计算机单元通过所述网络通信模块引出四路千兆以太网接口,配置为两组双冗余网络,每组所述双冗余网络均同时与两块所述网络交换模块连接,对应的所述网络交换模块相对应端口配置为主备模式;两块所述网络交换模块合并对外引出五组双冗余网络接口,每组所述双冗余网络接口均支持相同IP和MAC。
4.根据权利要求3所述的一种全接口冗余的高可靠计算机系统,其特征在于:所述网络管理模块通过两路双冗余网络分别与两块所述网络交换模块相连接,所述网络管理模块支持八路管理网口,通过转发软件实现每路所述管理网口具有相同IP和端口。
5.根据权利要求4所述的一种全接口冗余的高可靠计算机系统,其特征在于:两块所述电源模块采用并联均流为两个所述计算机单元、所述仲裁切换模块、所述网络交换模块、所述网络管理模块供电,支持两个所述计算单元独立上下电工作。
6.根据权利要求5所述的一种全接口冗余的高可靠计算机系统,其特征在于:系统上电,所述仲裁切换模块开始工作,对两套计算机的工作状态进行监视和判断;
如果判断两套计算机状态正常,则进一步判断手动切换信号;
如未收到手动切换信号,则将第一计算机单元缺省配置为控制机;将第二计算机单元配置为备份机,随后由所述仲裁切换模块接管所述控制机全部对外接口,而所述备份机处于待命状态,系统正常工作;
当所述仲裁切换模块判断两套计算机出现状态异常或受到手动切换信号,则触发切换,进行控制权的重新分配,即将原备份机状态配置为新控制机,同时将原控制机状态配置为所述新备份机,随后由所述仲裁切换模块接管新控制机的全部对外接口;所述仲裁切换模块始终处于监视状态。
CN202310265207.0A 2023-03-17 2023-03-17 一种全接口冗余的高可靠计算机系统 Pending CN116302697A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310265207.0A CN116302697A (zh) 2023-03-17 2023-03-17 一种全接口冗余的高可靠计算机系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310265207.0A CN116302697A (zh) 2023-03-17 2023-03-17 一种全接口冗余的高可靠计算机系统

Publications (1)

Publication Number Publication Date
CN116302697A true CN116302697A (zh) 2023-06-23

Family

ID=86783051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310265207.0A Pending CN116302697A (zh) 2023-03-17 2023-03-17 一种全接口冗余的高可靠计算机系统

Country Status (1)

Country Link
CN (1) CN116302697A (zh)

Similar Documents

Publication Publication Date Title
CN107187465B (zh) 一种单元级热备冗余的ato系统架构
CN101207408B (zh) 一种用于主备倒换的综合故障检测装置和方法
CN103647781A (zh) 一种基于设备冗余和网络冗余的混合冗余可编程控制系统
US20070088978A1 (en) Internal failover path for SAS disk drive enclosure
US20190235465A1 (en) Backplane-based plc system with hot swap function
CN110427283B (zh) 一种双余度的燃油管理计算机系统
WO2008119288A1 (fr) Système, dispositif, équipement et procédé de surveillance de la gestion
JP2008097164A (ja) 複数の機能要素から構成されるシステムの故障監視方法
CN101488101A (zh) Cpci冗余备份系统
CN103428114A (zh) 一种atca万兆交换板及系统
US10298520B2 (en) Relay apparatus
CN111628944B (zh) 交换机及交换机系统
CN112445751B (zh) 适用于多模冗余系统的计算机主机接口板
CN111984471B (zh) 一种机柜电源bmc冗余管理系统及方法
CN212541329U (zh) 基于国产龙芯平台的双冗余计算机设备
CN110247809B (zh) 双环网控制系统的通信控制方法
US7627774B2 (en) Redundant manager modules to perform management tasks with respect to an interconnect structure and power supplies
CN116302697A (zh) 一种全接口冗余的高可靠计算机系统
CN115576187A (zh) 一种多重冗余设计plc控制系统及系统控制方法
CN115408240A (zh) 一种冗余系统主备方法、装置、设备及储存介质
JP2002136000A (ja) 無停電電源システム
TWI704464B (zh) 資料備援系統
JP5176914B2 (ja) 伝送装置及び冗長構成部の系切替え方法
JP2003242048A (ja) バスシステム
JP3261014B2 (ja) データ処理システムにおけるモジュール交換方法および自己診断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination