CN106844113B - 一种采用冗余pch的服务器故障恢复系统及方法 - Google Patents

一种采用冗余pch的服务器故障恢复系统及方法 Download PDF

Info

Publication number
CN106844113B
CN106844113B CN201710142913.0A CN201710142913A CN106844113B CN 106844113 B CN106844113 B CN 106844113B CN 201710142913 A CN201710142913 A CN 201710142913A CN 106844113 B CN106844113 B CN 106844113B
Authority
CN
China
Prior art keywords
cpu
pch
south bridge
bridge chip
main cpu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710142913.0A
Other languages
English (en)
Other versions
CN106844113A (zh
Inventor
程万前
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201710142913.0A priority Critical patent/CN106844113B/zh
Publication of CN106844113A publication Critical patent/CN106844113A/zh
Application granted granted Critical
Publication of CN106844113B publication Critical patent/CN106844113B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2041Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with more than one idle spare processing component

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提供一种采用冗余PCH的服务器故障恢复系统及方法,系统包括管理控制器BMC,BIOS芯片,南桥芯片PCH,若干CPU板,每个CPU板包括若干CPU,全部CPU板所含的CPU中只有一个主CPU,其余为从CPU;南桥芯片PCH包括一个工作南桥芯片PCH,以及冗余南桥芯片PCH,冗余南桥芯片PCH的数量至少为1个,至多为从CPU的个数;工作南桥芯片PCH与主CPU通过DIM总线连接,冗余南桥芯片PCH与从CPU通过DMI总线连接;南桥芯片PCH与BIOS芯片连接;管理控制器BMC与CPU板连接,管理控制器BMC与南桥芯片PCH连接,各CPU之间通过总线连接。

Description

一种采用冗余PCH的服务器故障恢复系统及方法
技术领域
本发明属于服务器故障恢复领域,具体涉及一种采用冗余PCH的服务器故障恢复系统及方法。
背景技术
在八路服务器设计中,通常采用一个南桥芯片(PCH,platform controller hub)通过DMI总线与一个CPU相连接,该CPU称为主CPU,负责与PCH的数据交互。在系统开机启动时,PCH从BIOS中获取系统的设置信息、设备驱动程序和自检程序等,并通过与主CPU之间的DMI总线来完成对所有CPU和内存的自检。自检完成后,BIOS会开始引导操作系统,完成开机。在这种设计中,系统可以屏蔽掉故障的从CPU,但是如果主CPU出现故障,与PCH之间的DMI总线便无法工作,BIOS程序无法加载,系统无法屏蔽主CPU,必须通过人工更换主CPU的方式完成故障恢复,增加了服务器的宕机时间,这将对产品的可靠性产生不良影响。
此为现有技术不足之处。因此,针对现有技术中的上述缺陷,提供设计一种采用冗余PCH的服务器故障恢复系统及方法,是非常有必要的。
发明内容
本发明的目的在于,针对上述主CPU出现故障时,系统无法恢复功能的缺陷,提供一种采用冗余PCH的服务器故障恢复系统及方法,以解决上述技术问题。
为实现上述目的,本发明给出以下技术方案:
一种采用冗余PCH的服务器故障恢复系统,包括
管理控制器,BIOS芯片, 南桥芯片PCH,若干CPU板,每个CPU板包括若干CPU,全部CPU板所含的CPU中只有一个主CPU,其余为从CPU;
南桥芯片PCH包括一个工作南桥芯片PCH,以及冗余南桥芯片PCH,冗余南桥芯片PCH的数量至少为1个,至多为从CPU的个数;
工作南桥芯片PCH与主CPU通过DIM总线连接,冗余南桥芯片PCH与从CPU通过DMI总线连接;
南桥芯片PCH与BIOS芯片连接;
管理控制器BMC与CPU板连接,管理控制器BMC与南桥芯片PCH连接,各CPU之间通过总线连接;各CPU之间的连接方式有多种,可以为环状连接,也可以为两两连接,即各CPU之间实现直接连接或者间接连接都可以;
BIOS芯片, 用于存放系统的设置信息、设备驱动和自检程序;
CPU板用于放置CPU,并接收屏蔽CPU的信号;
工作南桥芯片PCH用于获取BIOS芯片中存放的系统的设置信息、设备驱动和自检程序传递给主CPU;用于转发主CPU发出的CPU故障信息;
管理控制器BMC,用于接收工作南桥芯片PCH转发的CPU故障信息,用于屏蔽故障从CPU,用于配置主CPU, 用于配置工作南桥芯片PCH。
进一步地,所述CPU板为四个,每个CPU板上有两个CPU,服务器为八路服务器。
进一步地,所述南桥芯片PCH设置在独立的PCH板卡上,CPU板上设置有连接PCH板卡的连接器。
进一步地,各CPU之间通过QPI总线连接。
进一步地,各CPU之间通过UPI总线连接。
进一步地,每个CPU板上设置有一个BIOS芯片,与南桥芯片PCH连接的CPU所在的CPU板上的BIOS芯片同对应的南桥芯片PCH连接。
本发明还给出以下技术方案:
一种采用冗余PCH的服务器故障恢复方法,包括如下步骤:
步骤1.设置主CPU,设置与主CPU连接的南桥芯片默认为工作南桥芯片PCH;
步骤2.服务器尝试开机;
步骤3.工作南桥芯片PCH获取BIOS芯片中存放的系统的设置信息、设备驱动和自检程序传递给主CPU;
步骤4.若主CPU不发生故障,主CPU加载自检程序,进行自检,若从CPU没有故障,进入步骤7,若从CPU发生故障,进入步骤6;
若主CPU发生故障,自检程序无法加载,进入步骤5;
步骤5.工作南桥芯片PCH向管理控制器BMC报告;
管理控制器BMC将故障主CPU配置为从CPU,将另外一个从CPU配置为主CPU;
管理控制器BMC关闭工作南桥芯片PCH的功能,开启另一个与新的主CPU连接的冗余南桥芯片PCH的功能;回到步骤2;
步骤6. 工作南桥芯片PCH向管理控制器BMC报告;
管理控制器BMC向CPU板发送CPU配置信号屏蔽掉故障的从CPU;
步骤7.自检完成后,主CPU通过从BIOS获取的程序引导操作系统,完成开机。
进一步地,在步骤1之前增加如下步骤:
步骤1ˊ.判断是否有故障恢复需求;
步骤2ˊ.若有故障恢复需求,进入步骤1;
步骤3ˊ.若没有故障恢复需求,则只保留工作南桥芯片PCH与主CPU的连接,断开冗余南桥芯片PCH与从CPU的连接,主CPU加载自检程序,进行自检,若从CPU发生故障进入步骤6;若从CPU没有故障,进入步骤7。
本发明的有益效果在于:
本专利可应用到八路服务器产品中,本专利可以保证服务器在任意一个CPU出现故障时都能够正常开机,增强系统的可靠性,应用时,可以根据是否有故障恢复的需求决定是连接1个PCH板卡还是多个PCH板卡,提高设计的灵活性。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
图1为本发明的系统图;
图2为本发明的方法流程图;
其中,1.管理控制器BMC;2.BIOS芯片;3.第一南桥芯片PCH;4.第二南桥芯片PCH;5.第一CPU板;6.第二CPU板;7.第三CPU板;8.第四CPU板;9.第一CPU;10.第二CPU;11.第三CPU;12.第四CPU;13.第五CPU;14.第六CPU;15.第七CPU;16.第八CPU。
具体实施方式:
为使得本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明具体实施例中的附图,对本发明中的技术方案进行清楚、完整地描述。
实施例1如图1所示,本发明提供一种采用冗余PCH的服务器故障恢复系统,包括管理控制器BMC 1,BIOS芯片2, 南桥芯片PCH,第一CPU板5,第二CPU板6,第三CPU板7,第四CPU板8,第一CPU板5上有第一CPU 9和第二CPU 10,第二CPU板 6上有第三CPU 11和第四CPU12,第三CPU板7上有第五CPU 13和第六CPU 14,第四CPU板8上有第七CPU 15和第八CPU 16,第一CPU 9为主CPU,其余为从CPU;
南桥芯片PCH包括第一南桥芯片PCH 3和第二南桥芯片PCH 4,第一南桥芯片PCH 3为工作南桥芯片PCH,第二南桥芯片PCH 4为冗余南桥芯片PCH;第一南桥芯片PCH 3和第二南桥芯片PCH 4在独立的PCH板卡上,第一CPU板5和第四CPU板8上设置有连接PCH板卡的连接器;
第一南桥芯片PCH 3与第一CPU 9通过DIM总线连接,第二南桥芯片PCH 4与第七CPU 15通过DMI总线连接;
南桥芯片PCH与BIOS芯片2连接;每个CPU板上设置有一个BIOS芯片2,第一南桥芯片PCH 3与第一CPU板5上的BIOS芯片2连接,第二南桥芯片PCH 4与第四CPU板8上的BIOS芯片2连接;
管理控制器BMC 1与第一CPU板5、第二CPU板6、第三CPU板7、第四CPU板8连接,管理控制器BMC 1与第一南桥芯片PCH 3、第二南桥芯片PCH 4连接各CPU之间通过总线连接;第一CPU 9、第二CPU 10、第三CPU 11、第四CPU 12、第五CPU 13、第六CPU 14、第七CPU 15、第八CPU 16之间通过UPI总线连接;
实施例2如图2所示,一种采用冗余PCH的服务器故障恢复方法,包括如下步骤:
步骤1.设置主CPU,设置与主CPU连接的南桥芯片PCH默认为工作南桥芯片PCH;
步骤2.服务器尝试开机;
步骤3.工作南桥芯片PCH获取BIOS芯片中存放的系统的设置信息、设备驱动和自检程序传递给主CPU;
步骤4.若主CPU不发生故障,主CPU加载自检程序,进行自检,若从CPU没有故障,进入步骤7,若从CPU发生故障,进入步骤6;
若主CPU发生故障,自检程序无法加载,进入步骤5;
步骤5.工作南桥芯片PCH向管理控制器BMC报告;
管理控制器BMC将故障主CPU配置为从CPU,将另外一个从CPU配置为主CPU;
管理控制器BMC关闭工作南桥芯片PCH的功能,开启另一个与新的主CPU连接的冗余南桥芯片PCH的功能;回到步骤2;
步骤6. 工作南桥芯片PCH向管理控制器BMC报告;
管理控制器BMC向CPU板发送CPU配置信号屏蔽掉故障的从CPU;
步骤7.自检完成后,主CPU通过从BIOS获取的程序引导操作系统,完成开机。
DMI是指Direct Media InterfaceI(直接媒体接口)。 DMI是Intel(英特尔)公司开发用于连接主板南北桥的总线,取代了以前的Hub-Link总线。DMI采用点对点的连接方式,时钟频率为100MHz,由于它是基于PCI-Express总线,因此具有PCI-E总线的优势。DMI实现了上行与下行各1GB/s的数据传输率,总带宽达到2GB/s,这个高速接口集成了高级优先服务,允许并发通讯和真正的同步传输能力。它的基本功能对于软件是完全透明的,因此早期的软件也可以正常操作。
BIOS——Basic Input Output System,译为基本输入输出系统,是用于计算机开机过程中各种硬件设备的初始化和检测的芯片。
本发明的实施例是说明性的,而非限定性的,上述实施例只是帮助理解本发明,因此本发明不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他的具体实施方式,同样属于本发明保护的范围。

Claims (7)

1.一种采用冗余PCH的服务器故障恢复系统,其特征在于,包括
管理控制器BMC,BIOS芯片,南桥芯片PCH,若干CPU板,每个CPU板包括若干CPU,全部CPU板所含的CPU中只有一个主CPU,其余为从CPU;
南桥芯片PCH包括一个工作南桥芯片PCH,以及冗余南桥芯片PCH,冗余南桥芯片PCH的数量至少为1个,至多为从CPU的个数;
工作南桥芯片PCH与主CPU通过DIM总线连接,冗余南桥芯片PCH与从CPU通过DMI总线连接;
南桥芯片PCH与BIOS芯片连接;
管理控制器BMC与CPU板连接,管理控制器BMC与南桥芯片PCH连接,各CPU之间通过总线连接;
所述南桥芯片PCH设置在独立的PCH板卡上,CPU板上设置有连接PCH板卡的连接器;
所述采用冗余PCH的服务器故障恢复系统工作过程如下:
设置主CPU,设置与主CPU连接的南桥芯片PCH默认为工作南桥芯片PCH;
服务器尝试开机;
工作南桥芯片PCH获取BOIS芯片中存放的系统的设置信息、设备驱动和自检程序传递给主CPU;
若主CPU不发生故障,主CPU加载自检程序,进行自检,
若从CPU没有故障,自检完成后,主CPU通过从BIOS获取的程序引导操作系统,完成开机;
若从CPU发生故障,工作南桥芯片PCH向管理控制器BMC报告;
管理控制器BMC向CPU板发送CPU配置信号屏蔽掉故障的从CPU;若主CPU发生故障,自检程序无法加载,工作南桥芯片PCH向管理控制器BMC报告;
管理控制器BMC将故障主CPU配置为从CPU,将另外一个从CPU配置为主CPU;
管理控制器BMC关闭工作南桥芯片PCH的功能,开启另一个与新的主CPU连接的冗余南桥芯片PCH的功能;进行下一次开机尝试。
2.如权利要求1所述的一种采用冗余PCH的服务器故障恢复系统,其特征在于,所述CPU板为四个,每个CPU板上有两个CPU,服务器为八路服务器。
3.如权利要求1所述的一种采用冗余PCH的服务器故障恢复系统,其特征在于,各CPU之间通过UPI总线连接。
4.如权利要求1所述的一种采用冗余PCH的服务器故障恢复系统,其特征在于,各CPU之间通过QPI总线连接。
5.如权利要求1所述的一种采用冗余PCH的服务器故障恢复系统,其特征在于,每个CPU板上设置有一个BOIS芯片,与同一南桥芯片PCH连接的CPU和BOIS芯片在同一个CPU板上。
6.一种采用冗余PCH的服务器故障恢复方法,其特征在于,包括如下步骤:
步骤1.设置主CPU,设置与主CPU连接的南桥芯片PCH默认为工作南桥芯片PCH;
步骤2.服务器尝试开机;
步骤3.工作南桥芯片PCH获取BOIS芯片中存放的系统的设置信息、设备驱动和自检程序传递给主CPU;
步骤4.若主CPU不发生故障,主CPU加载自检程序,进行自检,若从CPU没有故障,进入步骤7,若从CPU发生故障,进入步骤6;
若主CPU发生故障,自检程序无法加载,进入步骤5;
步骤5.工作南桥芯片PCH向管理控制器BMC报告;
管理控制器BMC将故障主CPU配置为从CPU,将另外一个从CPU配置为主CPU;
管理控制器BMC关闭工作南桥芯片PCH的功能,开启另一个与新的主CPU连接的冗余南桥芯片PCH的功能;回到步骤2;
步骤6.工作南桥芯片PCH向管理控制器BMC报告;
管理控制器BMC向CPU板发送CPU配置信号屏蔽掉故障的从CPU;
步骤7.自检完成后,主CPU通过从BIOS获取的程序引导操作系统,完成开机。
7.如权利要求6所述一种采用冗余PCH的服务器故障恢复方法,其特征在于,在步骤1之前增加如下步骤:
步骤1ˊ.判断是否有故障恢复需求;
步骤2ˊ.若有故障恢复需求,进入步骤1;
步骤3ˊ.若没有故障恢复需求,则只保留工作南桥芯片PCH与主CPU的连接,断开冗余南桥芯片PCH与从CPU的连接,主CPU加载自检程序,进行自检,若从CPU发生故障进入步骤6;若从CPU没有故障,进入步骤7。
CN201710142913.0A 2017-03-10 2017-03-10 一种采用冗余pch的服务器故障恢复系统及方法 Active CN106844113B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710142913.0A CN106844113B (zh) 2017-03-10 2017-03-10 一种采用冗余pch的服务器故障恢复系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710142913.0A CN106844113B (zh) 2017-03-10 2017-03-10 一种采用冗余pch的服务器故障恢复系统及方法

Publications (2)

Publication Number Publication Date
CN106844113A CN106844113A (zh) 2017-06-13
CN106844113B true CN106844113B (zh) 2020-09-29

Family

ID=59145011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710142913.0A Active CN106844113B (zh) 2017-03-10 2017-03-10 一种采用冗余pch的服务器故障恢复系统及方法

Country Status (1)

Country Link
CN (1) CN106844113B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153648B (zh) * 2017-12-27 2021-04-20 西安奇维科技有限公司 一种实现灵活调度的多冗余计算机的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1821973A (zh) * 2004-12-21 2006-08-23 日本电气株式会社 容错计算机系统及其中断控制方法
CN104579802A (zh) * 2015-02-15 2015-04-29 浪潮电子信息产业股份有限公司 一种多路服务器快速故障恢复的方法
CN104793974A (zh) * 2015-04-28 2015-07-22 浪潮电子信息产业股份有限公司 一种启动系统的方法及一种计算机系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105408862B (zh) * 2013-08-14 2019-01-18 英特尔公司 用于微型服务器和群集化片上系统部署的可管理性冗余

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1821973A (zh) * 2004-12-21 2006-08-23 日本电气株式会社 容错计算机系统及其中断控制方法
CN104579802A (zh) * 2015-02-15 2015-04-29 浪潮电子信息产业股份有限公司 一种多路服务器快速故障恢复的方法
CN104793974A (zh) * 2015-04-28 2015-07-22 浪潮电子信息产业股份有限公司 一种启动系统的方法及一种计算机系统

Also Published As

Publication number Publication date
CN106844113A (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
US8521929B2 (en) Virtual serial port management system and method
CN104579772B (zh) 计算机设备与计算机设备的配置管理方法
CN102081568B (zh) 多主机板服务器系统
CN103207852B (zh) 多总线嵌入式处理装置
US8397053B2 (en) Multi-motherboard server system
US20140223064A1 (en) Connecting expansion slots
CN103078747A (zh) PCIe交换机及其工作方法
US10579572B2 (en) Apparatus and method to provide a multi-segment I2C bus exerciser/analyzer/fault injector and debug port system
CN102222056A (zh) 具有嵌入式系统的电子设备
CN106844113B (zh) 一种采用冗余pch的服务器故障恢复系统及方法
CN105490844A (zh) 一种PCIe端口重构方法
CN116820827B (zh) 一种节点服务器的基板管理控制器的控制方法及其系统
CN111858148A (zh) 一种PCIE Switch芯片配置文件恢复系统及方法
CN113836058A (zh) 一种板卡间数据交换方法、装置、设备及存储介质
CN103532728A (zh) 一种对故障dsp芯片复位的方法及装置
CN107704403B (zh) 一种优化主背板信号传输的装置及方法
CN107659413B (zh) 小型通信设备
US9639438B2 (en) Methods and systems of managing an interconnection
CN113051208B (zh) 一种时钟控制电路及终端设备
CN107741916A (zh) 一种基于复用pcie设备获取rom信息的方法
CN104572423A (zh) 调试系统及其调试装置和方法
CN114721900B (zh) 连接关系的建立方法、主板、装置、设备和存储介质
CN113765827B (zh) 一种交换机固件保护系统
US20240057240A1 (en) Light control device, light control method and server thereof
CN114138540B (zh) 一种多个相同板卡共用时的区分结构及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200828

Address after: 215100 No. 1 Guanpu Road, Guoxiang Street, Wuzhong Economic Development Zone, Suzhou City, Jiangsu Province

Applicant after: SUZHOU LANGCHAO INTELLIGENT TECHNOLOGY Co.,Ltd.

Address before: 450000 Henan province Zheng Dong New District of Zhengzhou City Xinyi Road No. 278 16 floor room 1601

Applicant before: ZHENGZHOU YUNHAI INFORMATION TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant