CN108182163B - 一种计算板级热插拔控制装置及控制方法 - Google Patents

一种计算板级热插拔控制装置及控制方法 Download PDF

Info

Publication number
CN108182163B
CN108182163B CN201810001506.2A CN201810001506A CN108182163B CN 108182163 B CN108182163 B CN 108182163B CN 201810001506 A CN201810001506 A CN 201810001506A CN 108182163 B CN108182163 B CN 108182163B
Authority
CN
China
Prior art keywords
smbus
computing board
pin
computing
hot plug
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810001506.2A
Other languages
English (en)
Other versions
CN108182163A (zh
Inventor
孔祥涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201810001506.2A priority Critical patent/CN108182163B/zh
Publication of CN108182163A publication Critical patent/CN108182163A/zh
Application granted granted Critical
Publication of CN108182163B publication Critical patent/CN108182163B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4063Device-to-bus coupling
    • G06F13/4068Electrical coupling
    • G06F13/4081Live connection to bus, e.g. hot-plugging

Abstract

本发明公开了本发明提供了一种计算板级热插拔控制装置及控制方法,PCH部署在主节点NODE1上,在每个计算板节点中增加U2、U3对PCH的SMBUS进行路由切换。从而在NODE1、NODE2、NODE3、NODE4上都能实现CPU热拔出流程,U2有Q0、Q1、Q2、Q3四个通道,通过U2,SMBUS可切换到NODE1、NODE2、NODE3、NODE4。保证机器在不关机即业务不需要暂停的情况下,实现故障期间替换或维护,避免了系统整体断电才能进行计算版维护的业务暂停带来的经济损失。

Description

一种计算板级热插拔控制装置及控制方法
技术领域
本发明涉及服务器技术领域,尤其是一种8路服务器2S x 4架构下计算板节点热插拔硬件控制电路以及控制方法。
背景技术
在高端服务器领域,8路服务器的处理器的配置个数为8颗。8路服务器能发挥更强大的处理及运算能力,以及具有高度的可扩展性。强大的处理能力和内存容量是核心数据库、虚拟化、商业智能分析、大型ERP、高性能计算的最佳硬件平台。
8路服务器的架构一般分为两类,第一类架构中计算板有两块,每一块计算板上配置四颗处理器。两块计算板通过背板将高速总线、控制信号进行连接。即4S x 2架构。第二类架构中计算板有四块,每块计算板上配置两颗处理器。四块计算板通过背板将高速总线、控制信号进行连接。即2S x 4架构。在多路服务器中,如果需要更换部件。现有技术方案需要将系统整体断电才能进行计算板的维护。现有技术方案的缺点是服务器断电维护会导致业务暂停,带来一定的经济损失。
发明内容
本发明的目的是提供一种计算板级热插拔控制装置及控制方法,实现服务器在线状态下将某个或某几个CPU热移除。
为实现上述目的,本发明采用下述技术方案:
本发明第一发明提供了一种计算板级热插拔控制装置,实现对四块计算板Node1、Node2、Node3、Node4分别配置的两颗处理器的热插拔操作,所述计算板信号通过背板进行连接,包括位于计算板Node1的热插拔控制模块,监控热拔出触发中断和发送CPU下电命令;和,分别位于四块计算板Node1、Node2、Node3、Node4上的SMBUS接口管理模块、IO接口管理模块和CPU电平控制模块;
所述热插拔控制模块的SMBUS端口与SMBUS接口管理模块连接,SMBUS接口管理模块的通道选择端口与CPU电平控制模块连接,SMBUS接口管理模块与IO接口管理模块连接,读取/控制IO接口管理模块的IO状态;
所述CPU电平控制模块的指令输入端与IO接口管理模块连接,所述CPU电平控制模块的触发输入端分别与计算板配置的两颗处理器CPU0和CPU1的上下电时序控制端连接。
结合第一方面,在第一方面第一种可能的实现方式中,所述热插拔控制模块为Intel PCH,所述SMBUS接口管理模块包括SMBUS expander芯片U2和多路复用器U3;IntelPCH的引脚SMBUS master接SMBUS expander芯片U2的IN端,控制切换到后端四块计算板的SMBUS通道其中任意一个。
进一步地,所述计算板Node1的SMBUS expander芯片U2的引脚Q0与计算板Node1的多路复用器U3的引脚B0连接;
所述计算板Node2的SMBUS expander芯片U2的引脚Q0与计算板Node2的多路复用器U3的引脚B0连接,计算板Node2的多路复用器U3的引脚B1与计算板Node1的SMBUSexpander芯片U2的引脚Q1连接;
所述计算板Node3的SMBUS expander芯片U2的引脚Q0与计算板Node3的多路复用器U3的引脚B0连接,计算板Node3的多路复用器U3的引脚B2与计算板Node1的SMBUSexpander芯片U2的引脚Q2连接;
所述计算板Node4的SMBUS expander芯片U2的引脚Q0与计算板Node4的多路复用器U3的引脚B0连接,计算板Node4的多路复用器U3的引脚B3与计算板Node1的SMBUSexpander芯片U2的引脚Q3连接。
进一步地,所述IO引脚管理模块包括IO expander芯片U4,所述CPU电平控制模块包括CPLD,IO expander芯片U4的IO接口与CPLD连接,读取/控制IO输出电平状态;多路复用器U3的控制端S0、S1与CPLD连接;CPLD的触发输入端分别与计算板配置的两颗处理器CPU0和CPU1的上下电时序控制端连接。
本发明第二方面提供了一种计算板级热插拔控制方法,包括以下步骤:
PCH通过SMBUS轮询每个计算板IO expander芯片U4的电平变化确定触发热插拔的计算板;
进入中断处理流程,PCH通过SMBUS发送下电指令到引发热插拔操作的计算板CPLD;
触发热插拔的计算板CPLD接收到下电指令后控制相应计算板配置的处理器进行下电操作。
结合第二方面,在第二方面的第一种可能的实现方式中,所述进入中断处理流程,包括,清空热拔出CPU的电源管理事件及调用QPI库做相应的离线操作。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明提供了一种8路服务器2S x 4架构下的热插拔控制电路和操作方法,保证机器在不关机即业务不需要暂停的情况下,实现故障期间替换或维护,避免了系统整体断电才能进行计算版维护的业务暂停带来的经济损失。
附图说明
图1是本发明计算板级热插拔控制电路原理图;
图2是本发明计算板级热插拔控制方法流程图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
本发明内容主要涉及2S x 4架构,在2S x 4架构中,一个系统中计算板数量多达4块,每块计算板硬件构成完全相同并且是最小的一个独立的分区。为了达到更高的RAS特性,提供一种计算板级的热拔出控制电路和方法。所谓计算板级的热拔出,即在整个系统正常运行的状态下,将其中一个计算板从整个系统中移除,进而将计算板节点物理拔出,热插拔的意义在于保证机器在不关机即业务不需要暂停的情况下,可以实现故障期间替换或维护。
如图1所示,Node1、Node2、Node3、Node4为四块计算板,计算板基于Intel平台设计。每块计算板搭配两颗Intel处理器CPU0和CPU1。计算板间信号通过背板互连,每个计算板硬件组成完全一致。计算板热拔出相关控制硬件由U1、U2、U3、U4、U5及CPU0和CPU1组成。
U1:Intel PCH(Platform Control Hub)是热拔出控制单元核心。监控热拔出触发中断和发送CPU下电命令。
U2:PCA9546是SMBUS expander,SMBUS master接PCA9546的IN端,并能控制切换到后端4个通道其中任意一个。
U3:SMBUS MUX,即多路复用器。S1、S0两个控制端来选择接通输入进来的哪路SMBUS。S1、S0由板卡上逻辑单元(CPLD)根据板卡ID来自动切换。
U4:PCA9555是IO expander,Master通过SMBUS可以控制IO输出电平值状态,也可以读到IO管脚上的电平值状态。
U5:CPLD(复杂可编程逻辑器件),用于接收U4发送的命令,继而控制CPU的上下电时序。上下电包含对CPU PWRGD和CPU RESET_N的控制。
在2S x 4架构中若要实现CPU热拔出,由于物理结构限制需要增加硬件切换线路。CPU分布于独立的4个计算板上,CPU电源控制仍然需要各计算板上CPLD单元完成,但是CPU热拔出的核心控制在PCH中,PCH在一个分区中只部署一个。NODE1是主节点,即PCH部署在NODE1上,NODE2、NODE3、NODE4中PCH不安装,故在图中用虚线框表示,在每个计算板节点中增加U2、U3对PCH的SMBUS进行路由切换,从而实现在NODE1、NODE2、NODE3、NODE4上都能实现CPU热拔出流程。
U2有Q0、Q1、Q2、Q3四个通道。通过U2,SMBUS可切换到NODE1、NODE2、NODE3、NODE4。U2的Q0通道接到U3的B0通道。U2的Q1通道连接到NODE2节点的U3的B1通道。U2的Q2通道连接到NODE3节点的U3的B2通道。U2的Q3通道连接到NODE4节点的U3的B3通道。
计算板Node1的SMBUS expander芯片U2的引脚Q0与计算板Node1的多路复用器U3的引脚B0连接;计算板Node2的SMBUS expander芯片U2的引脚Q0与计算板Node2的多路复用器U3的引脚B0连接,计算板Node2的多路复用器U3的引脚B1与计算板Node1的SMBUSexpander芯片U2的引脚Q1连接;计算板Node3的SMBUS expander芯片U2的引脚Q0与计算板Node3的多路复用器U3的引脚B0连接,计算板Node3的多路复用器U3的引脚B2与计算板Node1的SMBUS expander芯片U2的引脚Q2连接;计算板Node4的SMBUS expander芯片U2的引脚Q0与计算板Node4的多路复用器U3的引脚B0连接,计算板Node4的多路复用器U3的引脚B3与计算板Node1的SMBUS expander芯片U2的引脚Q3连接。
如图2所示,按键按下,发起一个负脉冲信号;负脉冲信号进入到PCA9555输入端;PCH通过SMBUS轮询到PCA9555GPI输入端电平变化,继而引发内部中断处理流程;中断处理流程包括清空热拔出CPU的电源管理事件及调用QPI库做相应的离线操作;PCH通过SMBUS向PCA9555发送特定command产生相应输出电平,表示可以下电;CPLD读到PCA9555下电命令的电平后控制CPU电源下电操作;将断电后的计算板节点拔出。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (3)

1.一种计算板级热插拔控制装置,实现对四块计算板Node1、Node2、Node3、Node4分别配置的两颗处理器的热插拔操作,所述计算板信号通过背板进行连接,其特征是,包括位于计算板Node1的热插拔控制模块,监控热拔出触发中断和发送CPU下电命令;和,分别位于四块计算板Node1、Node2、Node3、Node4上的SMBUS接口管理模块、IO接口管理模块和CPU电平控制模块;
所述热插拔控制模块的SMBUS端口与SMBUS接口管理模块连接,SMBUS接口管理模块的通道选择端口与CPU电平控制模块连接,SMBUS接口管理模块与IO接口管理模块连接,读取/控制IO接口管理模块的IO状态;
所述CPU电平控制模块的指令输入端与IO接口管理模块连接,所述CPU电平控制模块的触发输入端分别与计算板配置的两颗处理器CPU0和CPU1的上下电时序控制端连接;
所述热插拔控制模块为Intel PCH,所述SMBUS接口管理模块包括SMBUS expander芯片U2和多路复用器U3;Intel PCH的引脚SMBUS master接SMBUS expander芯片U2的IN端,控制切换到后端四块计算板的SMBUS通道其中任意一个;
所述计算板Node1的SMBUS expander芯片U2的引脚Q0与计算板Node1的多路复用器U3的引脚B0连接;
所述计算板Node2的SMBUS expander芯片U2的引脚Q0与计算板Node2的多路复用器U3的引脚B0连接,计算板Node2的多路复用器U3的引脚B1与计算板Node1的SMBUS expander芯片U2的引脚Q1连接;
所述计算板Node3的SMBUS expander芯片U2的引脚Q0与计算板Node3的多路复用器U3的引脚B0连接,计算板Node3的多路复用器U3的引脚B2与计算板Node1的SMBUS expander芯片U2的引脚Q2连接;
所述计算板Node4的SMBUS expander芯片U2的引脚Q0与计算板Node4的多路复用器U3的引脚B0连接,计算板Node4的多路复用器U3的引脚B3与计算板Node1的SMBUS expander芯片U2的引脚Q3连接。
2.如权利要求1所述的一种计算板级热插拔控制装置,其特征是,所述IO引脚管理模块包括IO expander芯片U4,所述CPU电平控制模块包括CPLD,IO expander芯片U4的IO接口与CPLD连接,读取/控制IO输出电平状态;多路复用器U3的控制端S0、S1与CPLD连接;CPLD的触发输入端分别与计算板配置的两颗处理器CPU0和CPU1的上下电时序控制端连接。
3.一种计算板级热插拔控制方法,其特征是,包括以下步骤:
PCH通过SMBUS轮询每个计算板IO expander芯片U4的电平变化确定触发热插拔的计算板;
进入中断处理流程,PCH通过SMBUS发送下电指令到引发热插拔操作的计算板CPLD;
触发热插拔的计算板CPLD接收到下电指令后控制相应计算板配置的处理器进行下电操作;
所述进入中断处理流程,包括,清空热拔出CPU的电源管理事件及调用QPI库做相应的离线操作。
CN201810001506.2A 2018-01-02 2018-01-02 一种计算板级热插拔控制装置及控制方法 Active CN108182163B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810001506.2A CN108182163B (zh) 2018-01-02 2018-01-02 一种计算板级热插拔控制装置及控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810001506.2A CN108182163B (zh) 2018-01-02 2018-01-02 一种计算板级热插拔控制装置及控制方法

Publications (2)

Publication Number Publication Date
CN108182163A CN108182163A (zh) 2018-06-19
CN108182163B true CN108182163B (zh) 2021-03-02

Family

ID=62549758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810001506.2A Active CN108182163B (zh) 2018-01-02 2018-01-02 一种计算板级热插拔控制装置及控制方法

Country Status (1)

Country Link
CN (1) CN108182163B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990307A (zh) * 2019-11-29 2020-04-10 浪潮商用机器有限公司 一种服务器的布线系统以及服务器
CN112987900B (zh) * 2021-02-24 2023-02-28 山东英信计算机技术有限公司 一种多路服务器及多路服务器信号互联系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN202512565U (zh) * 2012-03-14 2012-10-31 浪潮电子信息产业股份有限公司 一种io box板
CN104598004A (zh) * 2015-01-13 2015-05-06 浪潮电子信息产业股份有限公司 一种满足更高节点布署密度的rack机柜铜排供电方法
CN104820655A (zh) * 2015-05-15 2015-08-05 浪潮电子信息产业股份有限公司 一种基于fpga的cpu热插拔实现方法及系统
CN105677373A (zh) * 2014-11-17 2016-06-15 杭州华为数字技术有限公司 一种节点热插拔的方法和numa节点

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112017008407B1 (pt) * 2015-12-29 2023-04-04 xFusion Digital Technologies Co., Ltd Método de gerenciamento de sistema de cpu e múltiplas cpus

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN202512565U (zh) * 2012-03-14 2012-10-31 浪潮电子信息产业股份有限公司 一种io box板
CN105677373A (zh) * 2014-11-17 2016-06-15 杭州华为数字技术有限公司 一种节点热插拔的方法和numa节点
CN104598004A (zh) * 2015-01-13 2015-05-06 浪潮电子信息产业股份有限公司 一种满足更高节点布署密度的rack机柜铜排供电方法
CN104820655A (zh) * 2015-05-15 2015-08-05 浪潮电子信息产业股份有限公司 一种基于fpga的cpu热插拔实现方法及系统

Also Published As

Publication number Publication date
CN108182163A (zh) 2018-06-19

Similar Documents

Publication Publication Date Title
US9477564B2 (en) Method and apparatus for dynamic node healing in a multi-node environment
US9582448B2 (en) Transmission apparatus and control unit
KR100725080B1 (ko) 정보 처리 장치 및 시스템 버스 제어 방법
US8843689B2 (en) Concurrent repair of the PCIe switch units in a tightly-coupled, multi-switch, multi-adapter, multi-host distributed system
CN108182163B (zh) 一种计算板级热插拔控制装置及控制方法
CN111124981B (zh) 一种服务器i2c设备的管理系统及方法
CN111367392B (zh) 一种动态电源管理系统
US7822895B1 (en) Scalable CPU (central processing unit) modules for enabling in-place upgrades of electronics systems
CN114442787B (zh) 服务器进入功耗封顶后实现整机功耗回调的方法、系统
CN111984471B (zh) 一种机柜电源bmc冗余管理系统及方法
CN112069106B (zh) 一种基于fpga的多路服务器peci链路控制系统
US20060195558A1 (en) Redundant manager modules
US20200314172A1 (en) Server system and management method thereto
JP2015045905A (ja) 情報処理システム、情報処理システムの障害処理方法
CN216352292U (zh) 服务器主板及服务器
WO2022267341A1 (zh) 数据处理装置、方法、计算机设备及存储介质
CN101410808A (zh) 检查管理网络的潜在故障的方法
KR100950555B1 (ko) 스위치 보드 변경 방법
WO2022078519A1 (zh) 一种计算机设备和管理方法
KR100388965B1 (ko) 교환기의 프로세서 보드별 크로스 이중화 장치
CN113868161B (zh) 一种基于i3c的设备管理方法、装置、设备及可读介质
CN117033281A (zh) 一种多节点系统中PCIe设备复用系统
CN106843444B (zh) 一种多架构cpu能耗控制系统
KR19980047016A (ko) 비동기전달모드 교환기에서의 동적 감시 주기를 이용한 다중 프로세서 상태 감시방법
TW202207042A (zh) 伺服系統

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210202

Address after: Building 9, No.1, guanpu Road, Guoxiang street, Wuzhong Economic Development Zone, Wuzhong District, Suzhou City, Jiangsu Province

Applicant after: SUZHOU LANGCHAO INTELLIGENT TECHNOLOGY Co.,Ltd.

Address before: Room 1601, floor 16, 278 Xinyi Road, Zhengdong New District, Zhengzhou City, Henan Province

Applicant before: ZHENGZHOU YUNHAI INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant