CN113868004B - 一种服务器 - Google Patents

一种服务器 Download PDF

Info

Publication number
CN113868004B
CN113868004B CN202111128278.3A CN202111128278A CN113868004B CN 113868004 B CN113868004 B CN 113868004B CN 202111128278 A CN202111128278 A CN 202111128278A CN 113868004 B CN113868004 B CN 113868004B
Authority
CN
China
Prior art keywords
cpu
circuit
firmware
pfr
fpga
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111128278.3A
Other languages
English (en)
Other versions
CN113868004A (zh
Inventor
张明哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202111128278.3A priority Critical patent/CN113868004B/zh
Publication of CN113868004A publication Critical patent/CN113868004A/zh
Application granted granted Critical
Publication of CN113868004B publication Critical patent/CN113868004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请公开了一种服务器,包括:第一CPU,第二CPU,CPU外置电路以及第一BMC,第一BMC用于:在接收到第一指令时,通过CPU外置电路控制第一CPU和第二CPU均为整体模式,以利用第一CPU和第二CPU共同完成业务;在接收到第二指令,或者检测出第一CPU和第二CPU中的任意一个CPU故障时,通过CPU外置电路控制第一CPU和第二CPU均为分区模式,以利用第一CPU和第二CPU独立完成业务。应用本申请的方案,有效地保障了双CPU架构的灵活性以及可靠性。

Description

一种服务器
技术领域
本发明涉及电路技术领域,特别是涉及一种服务器。
背景技术
随着服务器的快速发展,服务器得到了越来越广泛的应用。具有两个CPU的2路服务器是目前较为常用的一种服务器,这种服务器的两个CPU在一块主板上组成一个整系统,相较于单个CPU,可以有效地提高服务器的性能,例如图1为传统的具有两个CPU的服务器的架构示意图。
目前,随着客户的需求越来越多样,业务类型越来越多,客户可能会需要服务器进行分区,从而处理不同的业务,但是,目前的这种两个CPU的服务器架构,无法实现每个CPU单独工作,即无法进行CPU Partition。此外,当有一个CPU故障时,整个系统会宕机或者无法正常运行,可靠性不足。
综上所述,对于具有两个CPU的服务器架构,如何提高灵活性以及可靠性,是目前本领域技术人员急需解决的技术问题。
发明内容
本发明的目的是提供一种服务器,对于具有两个CPU的服务器架构,以提高灵活性以及可靠性。
为解决上述技术问题,本发明提供如下技术方案:
一种服务器,包括:第一CPU,第二CPU,CPU外置电路以及第一BMC,所述第一BMC用于:
在接收到第一指令时,通过所述CPU外置电路控制所述第一CPU和所述第二CPU均为整体模式,以利用所述第一CPU和所述第二CPU共同完成业务;
在接收到第二指令,或者检测出所述第一CPU和所述第二CPU中的任意一个CPU故障时,通过所述CPU外置电路控制所述第一CPU和所述第二CPU均为分区模式,以利用所述第一CPU和所述第二CPU独立完成业务。
优选的,所述CPU外置电路包括:FPGA,第一电源电路,第二电源电路,第一固件电路,第二固件电路,第一PFR以及第二PFR;
所述第一CPU的UPI信号线与所述第二CPU的UPI信号线连接;所述第一CPU的各个通信总线与所述第一BMC连接,所述第二CPU的各个通信总线与所述FPGA连接,所述FPGA与所述第一BMC通信连接,所述第一CPU和所述第二CPU的可配置端口均与所述FPGA连接;
所述第一电源电路与所述第一CPU和所述FPGA连接,所述第二电源电路与所述第二CPU和所述FPGA连接;所述第一固件电路与所述第一CPU连接,所述第二固件电路与所述第二CPU连接;所述第一PFR与所述第一CPU和所述第一固件电路连接,所述第二PFR与所述第二CPU和所述第二固件电路连接,且所述第一PFR与所述第二PFR连接;
所述第一BMC具体用于:
在接收到第一指令时,通过所述FPGA控制所述第一CPU和所述第二CPU均为整体模式,以利用所述第一CPU和所述第二CPU共同完成业务;且在整体模式下,利用所述第一电源电路为所述第一CPU供电,利用所述第二电源电路为所述第二CPU供电,利用所述第一PFR进行所述第一固件电路和所述第二固件电路的监控;
在接收到第二指令,或者检测出所述第一CPU和所述第二CPU中的任意一个CPU故障时,通过所述FPGA控制所述第一CPU和所述第二CPU均为分区模式,以利用所述第一CPU和所述第二CPU独立完成业务;且在分区模式下,利用所述第一PFR进行所述第一固件电路的监控,利用所述第二PFR进行所述第二固件电路的监控,当检测出所述第一CPU或者所述第二CPU故障时,通过相应的电源电路断开故障CPU的供电。
优选的,所述CPU外置电路包括:FPGA,第一电源电路,第二电源电路,第一固件电路,第二固件电路,第一PFR以及第二PFR;
所述第一CPU的UPI信号线与所述第二CPU的UPI信号线连接;所述第一CPU的各个通信总线与所述第一BMC连接,所述第二CPU的各个通信总线与所述第一BMC连接,所述第一CPU和所述第二CPU的可配置端口均与所述FPGA连接;
所述第一电源电路与所述第一CPU和所述FPGA连接,所述第二电源电路与所述第二CPU和所述FPGA连接;所述第一固件电路与所述第一CPU连接,所述第二固件电路与所述第二CPU连接;所述第一PFR与所述第一CPU和所述第一固件电路连接,所述第二PFR与所述第二CPU和所述第二固件电路连接,且所述第一PFR与所述第二PFR连接;
所述第一BMC具体用于:
在接收到第一指令时,通过所述FPGA控制所述第一CPU和所述第二CPU均为整体模式,以利用所述第一CPU和所述第二CPU共同完成业务;且在整体模式下,利用所述第一电源电路为所述第一CPU供电,利用所述第二电源电路为所述第二CPU供电,利用所述第一PFR进行所述第一固件电路和所述第二固件电路的监控;
在接收到第二指令,或者检测出所述第一CPU和所述第二CPU中的任意一个CPU故障时,通过所述FPGA控制所述第一CPU和所述第二CPU均为分区模式,以利用所述第一CPU和所述第二CPU独立完成业务;且在分区模式下,利用所述第一PFR进行所述第一固件电路的监控,利用所述第二PFR进行所述第二固件电路的监控,当检测出所述第一CPU或者所述第二CPU故障时,通过相应的电源电路断开故障CPU的供电。
优选的,所述CPU外置电路还包括:与所述第一CPU连接的第一PCIE设备,与所述第二CPU连接的第二PCIE设备。
优选的,所述第一PCIE设备和所述第二PCIE设备通过多路选择装置与所述第一BMC连接,以允许所述第一BMC在分区模式下控制所述第一PCIE设备所挂载的CPU以及控制所述第二PCIE设备所挂载的CPU。
优选的,所述第一PCIE设备和所述第二PCIE设备均与所述第一BMC连接以及多主机设备连接,以允许所述第一BMC在分区模式下控制所述第一PCIE设备所挂载的CPU以及控制所述第二PCIE设备所挂载的CPU。
优选的,所述第一固件电路和所述第二固件电路均为Flash,TPM以及RTC分布式布置的固件电路。
优选的,还包括第二BMC,所述第一BMC具体用于:
在接收到第一指令时,通过所述CPU外置电路控制所述第一CPU为整体模式,以利用所述第一CPU和所述第二CPU共同完成业务;
在接收到第二指令,或者检测出所述第一CPU和所述第二CPU中的任意一个CPU故障时,通过所述CPU外置电路控制所述第一CPU为分区模式,以利用所述第一CPU独立完成业务;
所述第二BMC具体用于:
在接收到第一指令时,通过所述CPU外置电路控制所述第二CPU为整体模式,以利用所述第一CPU和所述第二CPU共同完成业务;
在接收到第二指令,或者检测出所述第一CPU和所述第二CPU中的任意一个CPU故障时,通过所述CPU外置电路控制所述第二CPU为分区模式,以利用所述第二CPU独立完成业务。
优选的,所述CPU外置电路包括:FPGA,第一电源电路,第二电源电路,第一固件电路,第二固件电路,第一PFR以及第二PFR;
所述第一CPU的UPI信号线与所述第二CPU的UPI信号线连接;所述第一CPU的各个通信总线与所述第一BMC连接,所述第二CPU的各个通信总线与所述第二BMC连接,所述第一CPU和所述第二CPU的可配置端口均与所述FPGA连接;
所述第一电源电路与所述第一CPU和所述FPGA连接,所述第二电源电路与所述第二CPU和所述FPGA连接;所述第一固件电路与所述第一CPU连接,所述第二固件电路与所述第二CPU连接;所述第一PFR与所述第一CPU和所述第一固件电路连接,所述第二PFR与所述第二CPU和所述第二固件电路连接,且所述第一PFR与所述第二PFR连接;
所述第一BMC具体用于:
在接收到第一指令时,通过所述FPGA控制所述第一CPU为整体模式,以利用所述第一CPU和所述第二CPU共同完成业务;且在整体模式下,利用所述第一电源电路为所述第一CPU供电,利用所述第二电源电路为所述第二CPU供电,利用所述第一PFR进行所述第一固件电路和所述第二固件电路的监控;
在接收到第二指令,或者检测出所述第一CPU和所述第二CPU中的任意一个CPU故障时,通过所述FPGA控制所述第一CPU为分区模式,以利用所述第一CPU和所述第二CPU独立完成业务;且在分区模式下,利用所述第一PFR进行所述第一固件电路的监控,当检测出所述第一CPU故障时,通过所述第一电源电路断开故障CPU的供电;
所述第二BMC具体用于:
在接收到第一指令时,通过所述FPGA控制所述第二CPU为整体模式,以利用所述第一CPU和所述第二CPU共同完成业务;
在接收到第二指令,或者检测出所述第一CPU和所述第二CPU中的任意一个CPU故障时,通过所述FPGA控制所述第二CPU为分区模式,以利用所述第一CPU和所述第二CPU独立完成业务;且在分区模式下,利用所述第二PFR进行所述第一固件电路的监控,利用所述第二PFR进行所述第二固件电路的监控,当检测出所述第二CPU故障时,通过所述第二电源电路断开故障CPU的供电。
优选的,所述CPU外置电路还包括:与所述第一CPU连接的第一PCIE设备,与所述第二CPU连接的第二PCIE设备。
应用本发明实施例所提供的技术方案,第一BMC可以通过CPU外置电路控制第一CPU和第二CPU均为整体模式,使得可以利用第一CPU和第二CPU共同完成业务。同时,第一BMC也可以通过CPU外置电路控制第一CPU和第二CPU均为分区模式,从而可以使得第一CPU和第二CPU独立完成业务,也就提高了本申请的服务器的灵活性。同时,由于本申请支持第一CPU和第二CPU独立完成业务,因此,在检测出第一CPU和第二CPU中的任意一个CPU故障时,便可以CPU外置电路控制第一CPU和第二CPU均为分区模式,即单个CPU故障并不会影响另一CPU的正常工作,有效地保障了本申请的服务器的可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为传统的具有两个CPU的服务器的架构示意图;
图2为本发明中第一服务器的结构示意图;
图3为本发明中第二服务器的结构示意图;
图4为本发明中第三服务器的结构示意图;
图5为本发明中第四服务器的结构示意图。
具体实施方式
本发明的核心是提供一种服务器,有效地保障了双CPU架构的灵活性以及可靠性。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图2,图2为本发明中一种服务器的结构示意图,该服务器可以包括:第一CPU10,第二CPU20,CPU外置电路以及第一BMC30,第一BMC30用于:
在接收到第一指令时,通过CPU外置电路控制第一CPU10和第二CPU20均为整体模式,以利用第一CPU10和第二CPU20共同完成业务;
在接收到第二指令,或者检测出第一CPU10和第二CPU20中的任意一个CPU故障时,通过CPU外置电路控制第一CPU10和第二CPU20均为分区模式,以利用第一CPU10和第二CPU20独立完成业务。
本申请的方案中,需要支持第一CPU10和第二CPU20共同完成业务,也需要支持第一CPU10和第二CPU20各自独立完成业务,因此,CPU外置电路的具体构成以及连接关系,需要能够满足本申请的这一需求。第一BMC30则可以用来实现模式的选择。
具体的,第一BMC30在接收到第一指令时,说明当前需要第一CPU10和第二CPU20共同完成业务,因此,便会通过CPU外置电路控制第一CPU10和第二CPU20均为整体模式,并且可以理解的是,此时的CPU外置电路的配置情况,也是支持第一CPU10和第二CPU20共同完成业务。在整体模式下,通常可以选取其中的一个CPU为主CPU,例如默认第一CPU10为主CPU,即以第一CPU10的相关数据为准。
而第一BMC30在接收到第二指令时,说明当前需要第一CPU10和第二CPU20独立完成业务。此外,当检测出第一CPU10和第二CPU20中的任意一个CPU故障时,为了避免故障的CPU对于非故障CPU的影响,本申请的方案便会让第一CPU10和第二CPU20独立完成业务。同样的,此时的CPU外置电路的配置情况,需要支持第一CPU10和第二CPU20独立完成业务。
CPU外置电路的具体构成以及连接关系可以根据实际需要进行设定和调整,能够实现本申请的上述功能需求即可,例如在本发明的一种具体实施方式中,可参阅图2,CPU外置电路可以包括:FPGA(Field Programmable Gate Array,现场可编程逻辑门阵列)45,第一电源电路41,第二电源电路42,第一固件电路46,第二固件电路47,第一PFR(PlatformFirmware Resilience,平台固件回弹)43以及第二PFR44。
第一CPU10的UPI信号线与第二CPU20的UPI信号线连接;第一CPU10的各个通信总线与第一BMC30连接,第二CPU20的各个通信总线与FPGA45连接,FPGA45与第一BMC30通信连接,第一CPU10和第二CPU20的可配置端口均与FPGA45连接;
第一电源电路41与第一CPU10和FPGA45连接,第二电源电路42与第二CPU20和FPGA45连接;第一固件电路46与第一CPU10连接,第二固件电路47与第二CPU20连接;第一PFR43与第一CPU10和第一固件电路46连接,第二PFR44与第二CPU20和第二固件电路47连接,且第一PFR43与第二PFR44连接;
第一BMC30具体用于:
在接收到第一指令时,通过FPGA45控制第一CPU10和第二CPU20均为整体模式,以利用第一CPU10和第二CPU20共同完成业务;且在整体模式下,利用第一电源电路41为第一CPU10供电,利用第二电源电路42为第二CPU20供电,利用第一PFR43进行第一固件电路46和第二固件电路47的监控;
在接收到第二指令,或者检测出第一CPU10和第二CPU20中的任意一个CPU故障时,通过FPGA45控制第一CPU10和第二CPU20均为分区模式,以利用第一CPU10和第二CPU20独立完成业务;且在分区模式下,利用第一PFR43进行第一固件电路46的监控,利用第二PFR44进行第二固件电路47的监控,当检测出第一CPU10或者第二CPU20故障时,通过相应的电源电路断开故障CPU的供电。
在该种实施方式中,考虑到第一CPU10的UPI(Ultra Path Interconnect,超路径互连)信号线与第二CPU20的UPI信号线直接连接,并不会影响第一CPU10和第二CPU20的合并使用以及分区使用,因此,直接将第一CPU10的UPI信号线与第二CPU20的UPI信号线连接即可。
而对于第一CPU10和第二CPU20的各个通信总线,为了支持两种模式,该种实施方式中是将第一CPU10的各个通信总线与第一BMC30连接,而第二CPU20的各个通信总线与FPGA45连接,且FPGA45与第一BMC30通信连接,而且第一CPU10和第二CPU20的可配置端口均是与FPGA45连接的,这样,使得第一BMC30可以通过FPGA45,控制第一CPU10和第二CPU20均为整体模式,或者是控制第一CPU10和第二CPU20均为分区模式。
第一CPU10和第二CPU20的各个通信总线的类型可以根据实际情况进行设定和调整,图2中仅示出了SMBUS,UART以及eSPI。
并且,本申请设置了第一电源电路41与第一CPU10和FPGA45连接,第二电源电路42与第二CPU20和FPGA45连接,这样使得在整体模式下,可以利用第一电源电路41为第一CPU10供电,利用第二电源电路42为第二CPU20供电,而在分区模式下,也可以利用第一电源电路41为第一CPU10供电,利用第二电源电路42为第二CPU20供电,即第一CPU10供电和第二CPU20的供电可以互不影响。并且,当第一CPU10或者第二CPU20故障时,便可以通过相应的电源电路断开故障CPU的供电,例如通过相应电源电路中的可控开关电路来分别实现不同CPU的供电控制。
由于需要支持分区模式,本申请设置了第一PFR43以及第二PFR44,
第一PFR43与第一CPU10和第一固件电路46连接,第二PFR44与第二CPU20和第二固件电路47连接。第一PFR43需要与第一CPU10双向通信,第二PFR44需要与第二CPU20双向通信。
在整体模式下,可以利用第一PFR43进行第一固件电路46和第二固件电路47的监控,即在整体模式下,对于第一固件电路46和第二固件电路47的操作,均需要由第一PFR43验证,此时的第二PFR44相当于起到透传的作用。而在分区模式下,便需要利用第一PFR43和第二PFR44分别进行第一固件电路46和第二固件电路47的监控。
在本发明的一种具体实施方式中,CPU外置电路还可以包括:与第一CPU10连接的第一PCIE设备48,与第二CPU20连接的第二PCIE设备49。
该种实施方式中,第一CPU10和第二CPU20可以单独接出PCIE设备各自管理,即在分区模式下,第一CPU10和第二CPU20各自都具有可以使用的PCIE设备。此外,在整体模式下,可以由主CPU,例如默认第一CPU10为主CPU,实现各个PCIE设备的管理。本申请的图2便是采用的该种实施方式。
在本发明的一种具体实施方式中,可参阅图3,CPU外置电路包括:FPGA45,第一电源电路41,第二电源电路42,第一固件电路46,第二固件电路47,第一PFR43以及第二PFR44;
第一CPU10的UPI信号线与第二CPU20的UPI信号线连接;第一CPU10的各个通信总线与第一BMC30连接,第二CPU20的各个通信总线与第一BMC30连接,第一CPU10和第二CPU20的可配置端口均与FPGA45连接;
第一电源电路41与第一CPU10和FPGA45连接,第二电源电路42与第二CPU20和FPGA45连接;第一固件电路46与第一CPU10连接,第二固件电路47与第二CPU20连接;第一PFR43与第一CPU10和第一固件电路46连接,第二PFR44与第二CPU20和第二固件电路47连接,且第一PFR43与第二PFR44连接;
第一BMC30具体用于:
在接收到第一指令时,通过FPGA45控制第一CPU10和第二CPU20均为整体模式,以利用第一CPU10和第二CPU20共同完成业务;且在整体模式下,利用第一电源电路41为第一CPU10供电,利用第二电源电路42为第二CPU20供电,利用第一PFR43进行第一固件电路46和第二固件电路47的监控;
在接收到第二指令,或者检测出第一CPU10和第二CPU20中的任意一个CPU故障时,通过FPGA45控制第一CPU10和第二CPU20均为分区模式,以利用第一CPU10和第二CPU20独立完成业务;且在分区模式下,利用第一PFR43进行第一固件电路46的监控,利用第二PFR44进行第二固件电路47的监控,当检测出第一CPU10或者第二CPU20故障时,通过相应的电源电路断开故障CPU的供电。
本申请的图3的实施方式中,相较于图2的实施方式,是选择将第二CPU20的各个通信总线与第一BMC30连接,需要说明的是,采用图3的这种实施方式时,由于第一CPU10的各个通信总线以及第二CPU20的各个通信总线均与第一BMC30连接,因此第一BMC30内部需要有独立的空间来支持在分区模式下这两个CPU独立运行的功能。两个CPU的可配置端口,即Strap端口仍是均与FPGA45连接,使得通过FPGA45可以控制第一CPU10和第二CPU20的模式选择。
在本发明的一种具体实施方式中,第一PCIE设备48和第二PCIE设备49通过多路选择装置与第一BMC30连接,以允许第一BMC30在分区模式下控制第一PCIE设备48所挂载的CPU以及控制第二PCIE设备49所挂载的CPU。
在前述的实施方式中,允许两个CPU分别管理各自的PCIE设备,例如图2,而该种实施方式中,则是进一步的将第一PCIE设备48和第二PCIE设备49通过多路选择装置与第一BMC30连接,从而允许第一BMC30在分区模式下控制第一PCIE设备48所挂载的CPU以及控制第二PCIE设备49所挂载的CPU,这样使得例如第一CPU10故障时,不用重新插拔第一PCIE设备48,直接将第一PCIE设备48挂载至正常,独立工作的第二CPU20即可,提高了操作的方便性。多路选择装置在图3中标示为MUX50。
在本发明的一种具体实施方式中,可参阅图4,第一PCIE设备48和第二PCIE设备49均与第一BMC30连接以及多主机设备51连接,以允许第一BMC30在分区模式下控制第一PCIE设备48所挂载的CPU以及控制第二PCIE设备49所挂载的CPU。
该种实施方式中,第一PCIE设备48和第二PCIE设备49均与第一BMC30连接以及多主机设备51连接,使得不需要使用图3中的多路选择装置,便能够使得任意一个PCIE设备可以自由选择所需要挂载的CPU,也就使得在分区模式下,各个PCIE设备均可以独立运行,互不影响,相当于是图3的升级版。
在本发明的一种具体实施方式中,第一固件电路46和第二固件电路47均为Flash,TPM以及RTC分布式布置的固件电路。本申请的图2至图4中,第一固件电路46和第二固件电路47均为Flash,TPM以及RTC分布式布置的固件电路,相较于集成化的设计,采用分布式布置,使得单一器件故障时,不会影响固件电路中的其他器件,并且可以单独更换。
在本发明的一种具体实施方式中,还可以包括第二BMC31,第一BMC30具体用于:
在接收到第一指令时,通过CPU外置电路控制第一CPU10为整体模式,以利用第一CPU10和第二CPU20共同完成业务;
在接收到第二指令,或者检测出第一CPU10和第二CPU20中的任意一个CPU故障时,通过CPU外置电路控制第一CPU10为分区模式,以利用第一CPU10独立完成业务;
第二BMC31具体用于:
在接收到第一指令时,通过CPU外置电路控制第二CPU20为整体模式,以利用第一CPU10和第二CPU20共同完成业务;
在接收到第二指令,或者检测出第一CPU10和第二CPU20中的任意一个CPU故障时,通过CPU外置电路控制第二CPU20为分区模式,以利用第二CPU20独立完成业务。
在前述实施方式中,是由第一BMC30通过对CPU外置电路的控制,实现整体模式和分区模式的选择,这样对于第一BMC30的要求较高,该种实施方式中,便由第二BMC31协助第一BMC30实现前述实施方式中的第一BMC30的功能,即相当于允许第一BMC30和第二BMC31分别控制第一CPU10和第二CPU20,使得本申请的服务器能够支持第一CPU10和第二CPU20独立运行的分区模式。
采用两个BMC的实施方式时,可参阅图5,CPU外置电路可以具体包括:FPGA45,第一电源电路41,第二电源电路42,第一固件电路46,第二固件电路47,第一PFR43以及第二PFR44;
第一CPU10的UPI信号线与第二CPU20的UPI信号线连接;第一CPU10的各个通信总线与第一BMC30连接,第二CPU20的各个通信总线与第二BMC31连接,第一CPU10和第二CPU20的可配置端口均与FPGA45连接;
第一电源电路41与第一CPU10和FPGA45连接,第二电源电路42与第二CPU20和FPGA45连接;第一固件电路46与第一CPU10连接,第二固件电路47与第二CPU20连接;第一PFR43与第一CPU10和第一固件电路46连接,第二PFR44与第二CPU20和第二固件电路47连接,且第一PFR43与第二PFR44连接;
第一BMC30具体用于:
在接收到第一指令时,通过FPGA45控制第一CPU10为整体模式,以利用第一CPU10和第二CPU20共同完成业务;且在整体模式下,利用第一电源电路41为第一CPU10供电,利用第二电源电路42为第二CPU20供电,利用第一PFR43进行第一固件电路46和第二固件电路47的监控;
在接收到第二指令,或者检测出第一CPU10和第二CPU20中的任意一个CPU故障时,通过FPGA45控制第一CPU10为分区模式,以利用第一CPU10和第二CPU20独立完成业务;且在分区模式下,利用第一PFR43进行第一固件电路46的监控,当检测出第一CPU10故障时,通过第一电源电路41断开故障CPU的供电;
第二BMC31具体用于:
在接收到第一指令时,通过FPGA45控制第二CPU20为整体模式,以利用第一CPU10和第二CPU20共同完成业务;
在接收到第二指令,或者检测出第一CPU10和第二CPU20中的任意一个CPU故障时,通过FPGA45控制第二CPU20为分区模式,以利用第一CPU10和第二CPU20独立完成业务;且在分区模式下,利用第二PFR44进行第一固件电路46的监控,利用第二PFR44进行第二固件电路47的监控,当检测出第二CPU20故障时,通过第二电源电路42断开故障CPU的供电。
可以看出,CPU外置电路的设置与上文实施例的原理是相似的,但由于该种实施方式中具有两个BMC,因此,第一CPU10的各个通信总线以及第二CPU20的各个通信总线分别与第一BMC30和第二BMC31连接,以允许第一BMC30和第二BMC31分别控制第一CPU10和第二CPU20,使得本申请的服务器能够支持第一CPU10和第二CPU20独立运行的分区模式。
图5的实施方式对于单个BMC的要求较低,但是需要使用两个BMC,总体成本会更高,此外,图5的实施方式由于在分区模式下是两个BMC分别控制两个CPU,因此对于技术人员的要求较低,即电路连线以及相关程序的设计较为简单方便。
同样的,采用图5的实施方式时, CPU外置电路还可以包括:与第一CPU10连接的第一PCIE设备48,与第二CPU20连接的第二PCIE设备49,即第一CPU10和第二CPU20可以单独接出PCIE设备各自管理。
应用本发明实施例所提供的技术方案,第一BMC30可以通过CPU外置电路控制第一CPU10和第二CPU20均为整体模式,使得可以利用第一CPU10和第二CPU20共同完成业务。同时,第一BMC30也可以通过CPU外置电路控制第一CPU10和第二CPU20均为分区模式,从而使得第一CPU10和第二CPU20独立完成业务,也就提高了本申请的服务器的灵活性。同时,由于本申请支持第一CPU10和第二CPU20独立完成业务,因此,在检测出第一CPU10和第二CPU20中的任意一个CPU故障时,便可以CPU外置电路控制第一CPU10和第二CPU20均为分区模式,即单个CPU故障并不会影响另一CPU的正常工作,有效地保障了本申请的服务器的可靠性。
还需要说明的是,在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
工作人员还可以进一步意识到,结合本申请中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本申请中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (9)

1.一种服务器,其特征在于,包括:第一CPU,第二CPU,CPU外置电路以及第一BMC,所述第一BMC用于:
在接收到第一指令时,通过所述CPU外置电路控制所述第一CPU和所述第二CPU均为整体模式,以利用所述第一CPU和所述第二CPU共同完成业务;
在接收到第二指令,或者检测出所述第一CPU和所述第二CPU中的任意一个CPU故障时,通过所述CPU外置电路控制所述第一CPU和所述第二CPU均为分区模式,以利用所述第一CPU和所述第二CPU独立完成业务;
还包括第二BMC,所述第一BMC具体用于:
在接收到第一指令时,通过所述CPU外置电路控制所述第一CPU为整体模式,以利用所述第一CPU和所述第二CPU共同完成业务;
在接收到第二指令,或者检测出所述第一CPU和所述第二CPU中的任意一个CPU故障时,通过所述CPU外置电路控制所述第一CPU为分区模式,以利用所述第一CPU独立完成业务;
所述第二BMC具体用于:
在接收到第一指令时,通过所述CPU外置电路控制所述第二CPU为整体模式,以利用所述第一CPU和所述第二CPU共同完成业务;
在接收到第二指令,或者检测出所述第一CPU和所述第二CPU中的任意一个CPU故障时,通过所述CPU外置电路控制所述第二CPU为分区模式,以利用所述第二CPU独立完成业务。
2.根据权利要求1所述的服务器,其特征在于,所述CPU外置电路包括:FPGA,第一电源电路,第二电源电路,第一固件电路,第二固件电路,第一PFR以及第二PFR;
所述第一CPU的UPI信号线与所述第二CPU的UPI信号线连接;所述第一CPU的各个通信总线与所述第一BMC连接,所述第二CPU的各个通信总线与所述FPGA连接,所述FPGA与所述第一BMC通信连接,所述第一CPU和所述第二CPU的可配置端口均与所述FPGA连接;
所述第一电源电路与所述第一CPU和所述FPGA连接,所述第二电源电路与所述第二CPU和所述FPGA连接;所述第一固件电路与所述第一CPU连接,所述第二固件电路与所述第二CPU连接;所述第一PFR与所述第一CPU和所述第一固件电路连接,所述第二PFR与所述第二CPU和所述第二固件电路连接,且所述第一PFR与所述第二PFR连接;
所述第一BMC具体用于:
在接收到第一指令时,通过所述FPGA控制所述第一CPU和所述第二CPU均为整体模式,以利用所述第一CPU和所述第二CPU共同完成业务;且在整体模式下,利用所述第一电源电路为所述第一CPU供电,利用所述第二电源电路为所述第二CPU供电,利用所述第一PFR进行所述第一固件电路和所述第二固件电路的监控;
在接收到第二指令,或者检测出所述第一CPU和所述第二CPU中的任意一个CPU故障时,通过所述FPGA控制所述第一CPU和所述第二CPU均为分区模式,以利用所述第一CPU和所述第二CPU独立完成业务;且在分区模式下,利用所述第一PFR进行所述第一固件电路的监控,利用所述第二PFR进行所述第二固件电路的监控,当检测出所述第一CPU或者所述第二CPU故障时,通过相应的电源电路断开故障CPU的供电。
3.根据权利要求1所述的服务器,其特征在于,所述CPU外置电路包括:FPGA,第一电源电路,第二电源电路,第一固件电路,第二固件电路,第一PFR以及第二PFR;
所述第一CPU的UPI信号线与所述第二CPU的UPI信号线连接;所述第一CPU的各个通信总线与所述第一BMC连接,所述第二CPU的各个通信总线与所述第一BMC连接,所述第一CPU和所述第二CPU的可配置端口均与所述FPGA连接;
所述第一电源电路与所述第一CPU和所述FPGA连接,所述第二电源电路与所述第二CPU和所述FPGA连接;所述第一固件电路与所述第一CPU连接,所述第二固件电路与所述第二CPU连接;所述第一PFR与所述第一CPU和所述第一固件电路连接,所述第二PFR与所述第二CPU和所述第二固件电路连接,且所述第一PFR与所述第二PFR连接;
所述第一BMC具体用于:
在接收到第一指令时,通过所述FPGA控制所述第一CPU和所述第二CPU均为整体模式,以利用所述第一CPU和所述第二CPU共同完成业务;且在整体模式下,利用所述第一电源电路为所述第一CPU供电,利用所述第二电源电路为所述第二CPU供电,利用所述第一PFR进行所述第一固件电路和所述第二固件电路的监控;
在接收到第二指令,或者检测出所述第一CPU和所述第二CPU中的任意一个CPU故障时,通过所述FPGA控制所述第一CPU和所述第二CPU均为分区模式,以利用所述第一CPU和所述第二CPU独立完成业务;且在分区模式下,利用所述第一PFR进行所述第一固件电路的监控,利用所述第二PFR进行所述第二固件电路的监控,当检测出所述第一CPU或者所述第二CPU故障时,通过相应的电源电路断开故障CPU的供电。
4.根据权利要求2或3所述的服务器,其特征在于,所述CPU外置电路还包括:与所述第一CPU连接的第一PCIE设备,与所述第二CPU连接的第二PCIE设备。
5.根据权利要求4所述的服务器,其特征在于,所述第一PCIE设备和所述第二PCIE设备通过多路选择装置与所述第一BMC连接,以允许所述第一BMC在分区模式下控制所述第一PCIE设备所挂载的CPU以及控制所述第二PCIE设备所挂载的CPU。
6.根据权利要求4所述的服务器,其特征在于,所述第一PCIE设备和所述第二PCIE设备均与所述第一BMC连接以及多主机设备连接,以允许所述第一BMC在分区模式下控制所述第一PCIE设备所挂载的CPU以及控制所述第二PCIE设备所挂载的CPU。
7.根据权利要求2或3所述的服务器,其特征在于,所述第一固件电路和所述第二固件电路均为Flash,TPM以及RTC分布式布置的固件电路。
8.根据权利要求1所述的服务器,其特征在于,所述CPU外置电路包括:FPGA,第一电源电路,第二电源电路,第一固件电路,第二固件电路,第一PFR以及第二PFR;
所述第一CPU的UPI信号线与所述第二CPU的UPI信号线连接;所述第一CPU的各个通信总线与所述第一BMC连接,所述第二CPU的各个通信总线与所述第二BMC连接,所述第一CPU和所述第二CPU的可配置端口均与所述FPGA连接;
所述第一电源电路与所述第一CPU和所述FPGA连接,所述第二电源电路与所述第二CPU和所述FPGA连接;所述第一固件电路与所述第一CPU连接,所述第二固件电路与所述第二CPU连接;所述第一PFR与所述第一CPU和所述第一固件电路连接,所述第二PFR与所述第二CPU和所述第二固件电路连接,且所述第一PFR与所述第二PFR连接;
所述第一BMC具体用于:
在接收到第一指令时,通过所述FPGA控制所述第一CPU为整体模式,以利用所述第一CPU和所述第二CPU共同完成业务;且在整体模式下,利用所述第一电源电路为所述第一CPU供电,利用所述第二电源电路为所述第二CPU供电,利用所述第一PFR进行所述第一固件电路和所述第二固件电路的监控;
在接收到第二指令,或者检测出所述第一CPU和所述第二CPU中的任意一个CPU故障时,通过所述FPGA控制所述第一CPU为分区模式,以利用所述第一CPU和所述第二CPU独立完成业务;且在分区模式下,利用所述第一PFR进行所述第一固件电路的监控,当检测出所述第一CPU故障时,通过所述第一电源电路断开故障CPU的供电;
所述第二BMC具体用于:
在接收到第一指令时,通过所述FPGA控制所述第二CPU为整体模式,以利用所述第一CPU和所述第二CPU共同完成业务;
在接收到第二指令,或者检测出所述第一CPU和所述第二CPU中的任意一个CPU故障时,通过所述FPGA控制所述第二CPU为分区模式,以利用所述第一CPU和所述第二CPU独立完成业务;且在分区模式下,利用所述第二PFR进行所述第一固件电路的监控,利用所述第二PFR进行所述第二固件电路的监控,当检测出所述第二CPU故障时,通过所述第二电源电路断开故障CPU的供电。
9.根据权利要求8所述的服务器,其特征在于,所述CPU外置电路还包括:与所述第一CPU连接的第一PCIE设备,与所述第二CPU连接的第二PCIE设备。
CN202111128278.3A 2021-09-26 2021-09-26 一种服务器 Active CN113868004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111128278.3A CN113868004B (zh) 2021-09-26 2021-09-26 一种服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111128278.3A CN113868004B (zh) 2021-09-26 2021-09-26 一种服务器

Publications (2)

Publication Number Publication Date
CN113868004A CN113868004A (zh) 2021-12-31
CN113868004B true CN113868004B (zh) 2023-07-25

Family

ID=78994542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111128278.3A Active CN113868004B (zh) 2021-09-26 2021-09-26 一种服务器

Country Status (1)

Country Link
CN (1) CN113868004B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110515723A (zh) * 2019-08-09 2019-11-29 苏州浪潮智能科技有限公司 一种双路服务器及其cpu负载均衡系统
CN111459751A (zh) * 2020-03-20 2020-07-28 苏州浪潮智能科技有限公司 一种高端服务器管理系统
CN112987900A (zh) * 2021-02-24 2021-06-18 山东英信计算机技术有限公司 一种多路服务器及多路服务器信号互联系统
CN113204375A (zh) * 2021-04-25 2021-08-03 山东英信计算机技术有限公司 一种多路服务器分区方法、系统及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110515723A (zh) * 2019-08-09 2019-11-29 苏州浪潮智能科技有限公司 一种双路服务器及其cpu负载均衡系统
CN111459751A (zh) * 2020-03-20 2020-07-28 苏州浪潮智能科技有限公司 一种高端服务器管理系统
CN112987900A (zh) * 2021-02-24 2021-06-18 山东英信计算机技术有限公司 一种多路服务器及多路服务器信号互联系统
CN113204375A (zh) * 2021-04-25 2021-08-03 山东英信计算机技术有限公司 一种多路服务器分区方法、系统及设备

Also Published As

Publication number Publication date
CN113868004A (zh) 2021-12-31

Similar Documents

Publication Publication Date Title
US8745438B2 (en) Reducing impact of a switch failure in a switch fabric via switch cards
US8948000B2 (en) Switch fabric management
US8880938B2 (en) Reducing impact of a repair action in a switch fabric
US20080126597A1 (en) Alternative Local Card, Central Management Module and System Management Architecture For Multi-Mainboard System
US8677175B2 (en) Reducing impact of repair actions following a switch failure in a switch fabric
US20060028993A1 (en) Apparatus, method and system for selectively coupling a LAN controller to a platform management controller
CN111078403B (zh) 一种服务器加gpu的配置方法及系统
CN111367392B (zh) 一种动态电源管理系统
CN113868004B (zh) 一种服务器
US7627774B2 (en) Redundant manager modules to perform management tasks with respect to an interconnect structure and power supplies
US20230334155A1 (en) Data center security control module and control method thereof
US8745436B2 (en) Information processing apparatus, information processing system, and control method therefor
CN214776672U (zh) 一种箭载综合电子系统架构
CN115459239A (zh) 一种电源模组和供电方法
CN111913551B (zh) 重置基板管理控制器的控制方法
CN114189471A (zh) 跨设备链路聚合组主备配置方法、系统、终端及存储介质
US9858135B2 (en) Method and associated apparatus for managing a storage system
CN111382014A (zh) 一种基于服务器系统盘故障的冗余控制系统及方法
CN108701117B (zh) 互连系统、互连控制方法和装置
CN110719236A (zh) 单板,背板式交换机,及连接电源的方法
CN215494926U (zh) 一种存储设备、硬件集群、服务器以及服务器集群
CN107483290B (zh) 基于交换机的主引擎选举方法和装置
CN110660429B (zh) 存储系统和存储控制装置
KR100800836B1 (ko) 셀 버스의 전원 이중화 장치
CN117092902A (zh) 多数据通道背板、多数据通道管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant