CN104572561A

CN104572561A - 实现clump整体热插拔的方法和系统

Info

Publication number: CN104572561A
Application number: CN201510048098.2A
Authority: CN
Inventors: 叶丰华
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2015-01-30
Filing date: 2015-01-30
Publication date: 2015-04-29

Abstract

本发明提供一种实现clump热插拔的系统和方法，该系统包括：至少两个clump，所有clump通过总线互连，所有clump中包括主clump和从clump；系统管理控制器SMC，与所有clump相连，获取每一个clump的设备信息，当确定其中第一clump故障需要退出系统后，以中断形式向主clump发送第一clump热移除指令；主clump，接收到第一clump热移除指令后，进行退出第一clump的终止处理。发明能够减少系统的关机时间，提高系统的稳定性。

Description

实现clump整体热插拔的方法和系统

技术领域

本发明涉及通信技术领域，特别涉及一种在多路服务器中实现clump整体热插拔的方法和系统。

背景技术

随着计算机技术的发展，计算机系统的服务器数量及连接拓扑越来越复杂。对于由多路服务器组成的计算机系统，其运营和维护显得至关重要。

目前，对于多路服务器组成的计算机系统，其维护的方式包括：多路服务器监测自己的运行状态，如果出现故障，则进行报警，维护人员根据报警关闭整个计算机系统，然后，将故障的服务器拔出；后续，如果需要重新插入维修好的服务器，也需要关闭整个计算机系统，将修好的服务器插入，然后再开启整个计算机系统。

由此可见，在现有技术中，对于多路服务器，任何一个其中的服务器拔出或插入，都会导致多路服务器组成的整个计算机系统的关闭重启，因此，大大增加了关机时间，不利于系统的运营。

发明内容

本发明提供一种实现clump热插拔的系统和方法，能够减少多路服务器组成的计算机系统的关机时间。

本发明的技术方案是这样实现的：

一种实现clump热插拔的系统，包括：

至少两个clump，所有clump通过总线互连，所有clump中包括主clump和从clump；

系统管理控制器SMC，与所有clump相连，获取每一个clump的设备信息，当确定其中第一clump故障需要退出系统后，以中断形式向主clump发送第一clump热移除指令；

主clump，接收到第一clump热移除指令后，进行退出第一clump的终止处理。

其中，所述主clump中配置有操作系统OS，所述主clump和所有从clump中均配置有基本输入输出系统BIOS；

所述OS，提供热插拔服务、热备份服务、提供第一clump热插拔驱动的支持，将故障信息发送给BIOS；

所述BIOS，进行热插拔中断处理、资源分配、寄存器控制和信号控制，并与SMC进行故障信息交互和硬件信号控制；

每一个clump中的硬件，与BIOS和SMC进行交互，负责总线控制、热插拔信号触发、电源控制和热插拔状态指示；

所述SMC，负责故障信息收集，与BIOS配合进行硬件信号控制。

优选地，所述SMC与所有clump中的BIOS相连；通过接收各个BIOS发来的故障信息，获取每一个clump的设备信息；

主clump中的BIOS，用于收集主clump的OS报告的故障信息、主clump内部的硬件故障信息、系统IO状态故障信息中的一个或多个，并发送给所述SMC；

从clump中的BIOS，用于收集所在clump内部硬件故障信息，并发送给所述SMC。

优选地，所述主clump中配置有操作系统OS，所述主clump和所有从clump中均配置有基本输入输出系统BIOS；

所述SMC，用于以中断形式将第一clump热移除指令发送给所述主clump中的BIOS；及进一步用于控制第一clump的复位信号，使其处于复位状态，并控制状态指示灯指示系统正在处于热拔状态，及控制第一clump关闭电源；

所述主clump中的BIOS，进一步用于处理所述中断，并上报给OS；并进一步对除第一clump之外的所有clump进行重新分配处理器路由、内存地址、IO资源和芯片组寄存器控制；及在接收到热移除指令后，与所述SMC配合控制硬件信号、进行互连总线的开关、时序信号的触发、电源控制及状态指示；

所述主clump中的OS，进一步用于提供clump热插拔驱动的支持，将第一clump所负责的任务进行迁移或终止，并卸载驱动，释放相应资源；

所述第一clump中的BIOS，进一步用于通过寄存器控制断开与其他clump之间的总线互连。

可选地，所述SMC，进一步用于开启新插入的第一clump的电源系统；及进一步通知主clump的BIOS对新插入的第一clump进行链路检测和训练，重新分配处理器路由关系和内存地址，并将资源交由OS接管，

所述主clump中的OS，进一步用于重新加载驱动，对任务进行迁回或开始新的任务，完成所述第一clump热添加工作；

新插入的第一clump，通过内部的上电时序完成信号上电和复位。

一种实现clump热插拔的方法，将至少两个clump通过总线互连，确定主clump和从clump，以及将SMC与所有clump相连，还包括：

SMC获取每一个clump的设备信息，当确定其中第一clump故障需要退出系统后，以中断形式向主clump发送第一clump热移除指令；

主clump接收到第一clump热移除指令后，进行退出第一clump的终止处理。

其中，进一步包括：在所述主clump中配置操作系统OS，在所述主clump和所有从clump中均配置基本输入输出系统BIOS；通过所述OS、BIOS、硬件和SMC之间的配合，实现所述第一clump的热插拔。

优选地，进一步包括：将所述SMC与所有clump中的BIOS相连；主clump中的BIOS收集主clump的OS报告的故障信息、主clump内部的硬件故障信息、系统IO状态故障信息中的一个或多个，并发送给所述SMC；从clump中的BIOS收集所在clump内部硬件故障信息，并发送给所述SMC；

所述SMC获取每一个clump的设备信息包括：所述SMC通过接收各个BIOS发来的故障信息，获取每一个clump的设备信息。

优选地，进一步包括：在所述主clump中配置操作系统OS，在所述主clump和所有从clump中均配置基本输入输出系统BIOS；

所述以中断形式向主clump发送第一clump热移除指令包括：所述SMC以中断形式将第一clump热移除指令发送给所述主clump中的BIOS；

该方法进一步包括：所述SMC进一步控制第一clump的复位信号，使其处于复位状态，并控制状态指示灯指示系统正在处于热拔状态，及控制第一clump关闭电源；主clump中的BIOS进一步处理所述中断，并上报给OS；并进一步对除第一clump之外的所有clump进行重新分配处理器路由、内存地址、IO资源和芯片组寄存器控制；及在接收到热移除指令后，与所述SMC配合控制硬件信号、进行互连总线的开关、时序信号的触发、电源控制及状态指示；主clump中的OS进一步提供clump热插拔驱动的支持，将第一clump所负责的任务进行迁移或终止，并卸载驱动，释放相应资源；所述第一clump中的BIOS进一步通过寄存器控制断开与其他clump之间的总线互连。

可选地，该方法进一步包括：

所述SMC开启新插入的第一clump的电源系统；及进一步通知主clump的BIOS对新插入的第一clump进行链路检测和训练，重新分配处理器路由关系和内存地址，并将资源交由OS接管，所述主clump中的OS重新加载驱动，对任务进行迁回或开始新的任务，完成所述第一clump热添加工作；新插入的第一clump通过内部的上电时序完成信号上电和复位。

可见，本发明实施例提供了一种实现clump整体热插拔的方法和系统，能够将所有clump通过总线互连，并分为主clump和从clump；由SMC负责确定故障的clump，由主clump进行退出clump的终止处理。具体地，是由配置在主clump中的OS，配置在每一个clump中的BIOS，每一个clump的硬件以及SMC配合，完成多路服务器中clump的热插拔。整个过程无需关闭整个多路服务器的计算机系统，实现了热插拔，大大减少了关机时间，不会影响整个系统的运行。

附图说明

图1是本发明一个实施例中实现clump热插拔的系统的结构示意图。

图2是本发明一个实施例中BIOS与SMC配合进行故障信息收集的示意图。

图3是本发明一个实施例中实现热插拔的组件工作组成示意图。

图4是本发明一个实施例中实现clump热插拔的方法的流程图。

图5是本发明另一个实施例中实现clump热插拔的方法的流程图。

图6是本发明又一个实施例中实现clump热插拔的工作流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明一个实施例提出了一种实现clump热插拔的系统，参见图1，多路服务器是由多个计算节点组成，每一个计算节点称为一个clump，该系统包括：

至少两个clump，所有clump通过总线互连，所有clump中包括主clump101和从clump 102；

系统管理控制器(SMC)103，与所有clump相连，获取每一个clump的设备信息，当确定其中第一clump102故障需要退出系统后，以中断形式向主clump 101发送第一clump热移除指令；

主clump 101，接收到第一clump热移除指令后，进行退出第一clump102的终止处理。

具体地，在本发明系统的一个实施例中，可以由配置在主clump中的操作系统(OS)，配置在每一个clump中的基本输入输出系统(Basic Input OutputSystem，BIOS)，每一个clump的硬件以及SMC配合，完成多路服务器中clump的热插拔。基于此的实现方式可以实现多节点系统故障的判断、资源的在线重新分配、硬件信号的控制等，具体可以包括：

主clump中配置有操作系统OS，所述主clump和所有从clump中均配置有基本输入输出系统BIOS；

所述SMC，负责故障信息收集，与BIOS配合进行硬件信号控制。

可见，本发明实施例提供的实现clump整体热插拔的系统，能够将所有clump通过总线互连，并分为主clump和从clump；由SMC负责确定故障的clump，由主clump进行退出clump的终止处理。具体地，是由配置在主clump中的OS，配置在每一个clump中的BIOS，每一个clump的硬件以及SMC配合，完成多路服务器中clump的热插拔。整个过程无需关闭整个多路服务器的计算机系统，实现了热插拔，大大减少了关机时间，不会影响整个系统的运行。这样，诸如银行、电信等行业的关键应用对服务器的可靠性要求越来越高，本发明实施例的系统则可以满足该要求。

在本发明系统的一个实施例中，SMC可以从主clump和从clump两个方向同时收集设备信息，以便更为全面准确地判断故障的clump，具体的实现可以包括：

所述SMC，进一步与主clump中的BIOS和所有从clump中的BIOS相连；通过接收各个BIOS发来的故障信息，获取每一个clump的设备信息；

主clump中的BIOS，用于负责收集主clump的OS报告的故障信息、主clump内部的硬件故障信息、系统IO状态故障信息中的一个或多个，并发送给所述SMC；

从clump中的BIOS，用于负责收集所在clump内部硬件故障信息，并发送给所述SMC。

可将该实施例提供了完整清楚的故障信息收集和上报方案，具体是由每个clump中的BIOS负责收集和上报故障信息，并明确了主clump中的BIOS负责收集的信息类型和从clump中的BIOS负责收集的信息类型。

基于上述实施例，本发明系统的一个实施例中，BIOS与SMC配合进行故障信息收集的方式可以如图2所示。

在本发明系统的一个实施例中，一种实现所有clump中的故障从clump进行热拔出的具体实现包括：

所述主clump中配置有操作系统OS，所述主clump和所有从clump中均配置有基本输入输出系统BIOS；

在本发明系统一个实施例中，一种实现所有clump中的故障从clump维修之后，重新热插入多路服务器的计算机系统中的具体实现包括：

所述SMC，进一步用于开启新插入的第一clump的电源系统；及进一步通知主clump的BIOS对新插入的第一clump进行链路检测和训练，重新分配处理器路由关系和内存地址，并将资源交由OS接管，

在本发明系统的一个实施例中，实现热插拔的组件工作组成可以如图3所示。

本发明的一个实施例提出了一种实现clump热插拔的方法，参见图4，包括：

步骤401：将至少两个clump通过总线互连。

步骤402：确定主clump和从clump。

步骤403：将SMC与所有clump相连。

步骤404：SMC获取每一个clump的设备信息。

步骤405：SMC确定其中第一clump故障需要退出系统，以中断形式向主clump发送第一clump热移除指令。

步骤406：主clump接收到第一clump热移除指令后，进行退出第一clump的终止处理。

参见图5，在本发明方法的另一个实施例中，可以通过OS、BIOS、硬件和SMC之间的配合，实现从clump的热插拔，具体可以包括：

步骤501：将至少两个clump通过总线互连。

步骤502：确定主clump和从clump。

步骤503：在主clump中配置OS，在主clump和所有从clump中均配置BIOS。

步骤504：将SMC与所有clump中的BIOS相连。

步骤505：主clump中的BIOS收集主clump的OS报告的故障信息、主clump内部的硬件故障信息、系统IO状态故障信息中的一个或多个，并发送给所述SMC。

步骤506：从clump中的BIOS收集所在clump内部硬件故障信息，并发送给所述SMC。

步骤507：SMC接收BIOS发来的信息，获取每一个clump的设备信息。

步骤508：SMC根据获取的每一个clump的设备信息，在判断出其中有发生故障需要退出系统的从clump记为clump1时，执行步骤509。

步骤509：SMC以中断形式将clump1热移除指令发送给主clump中的BIOS。

步骤510：主clump中的BIOS处理所述中断，并上报给主clump中的OS。

步骤511：主clump中的BIOS对除clump1之外的所有clump进行重新分配处理器路由、内存地址、IO资源和芯片组寄存器控制；与SMC配合控制硬件信号、进行互连总线的开关、时序信号的触发、电源控制及状态指示。

步骤512：主clump中的OS提供clump热插拔驱动的支持，将clump1所负责的任务进行迁移或终止，并卸载驱动，释放相应资源。

步骤513：SMC控制clump1的复位信号，使其处于复位状态，并控制状态指示灯指示系统正在处于热拔状态，及控制clump1关闭电源。

步骤514：clump1中的BIOS通过寄存器控制断开与其他clump之间的总线互连。

至此，则实现了对故障的从clump1进行热拔出的过程。

在从clump1故障维修或升级之后，可以进一步将clump1重新热插入多路服务器系统中，其具体实现过程可以包括：SMC开启新插入的clump1的电源系统；及通知主clump的BIOS对新插入的clump1进行链路检测和训练，重新分配处理器路由关系和内存地址，并将资源交由OS接管，所述主clump中的OS重新加载驱动，对任务进行迁回或开始新的任务，完成clump1热添加工作；新插入的clump1通过内部的上电时序完成信号上电和复位。

在本发明方法的一个实施例中，clump整体热插拔的工作流程也可以参见图6所示。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.实现clump热插拔的系统，其特征在于，包括：

2.根据权利要求1所述的系统，其特征在于，所述主clump中配置有操作系统OS，所述主clump和所有从clump中均配置有基本输入输出系统BIOS；

所述SMC，负责故障信息收集，与BIOS配合进行硬件信号控制。

3.根据权利要求2所述的系统，其特征在于，所述

所述SMC与所有clump中的BIOS相连；通过接收各个BIOS发来的故障信息，获取每一个clump的设备信息；

4.根据权利要求2所述的系统，其特征在于，所述主clump中配置有操作系统OS，所述主clump和所有从clump中均配置有基本输入输出系统BIOS；

5.根据权利要求4所述的系统，其特征在于，所述SMC，进一步用于开启新插入的第一clump的电源系统；及进一步通知主clump的BIOS对新插入的第一clump进行链路检测和训练，重新分配处理器路由关系和内存地址，并将资源交由OS接管，

6.实现clump热插拔的方法，其特征在于，将至少两个clump通过总线互连，确定主clump和从clump，以及将SMC与所有clump相连，还包括：

7.根据权利要求6所述的方法，其特征在于，进一步包括：

在所述主clump中配置操作系统OS，在所述主clump和所有从clump中均配置基本输入输出系统BIOS；

通过所述OS、BIOS、硬件和SMC之间的配合，实现所述第一clump的热插拔。

8.根据权利要求7所述的方法，其特征在于，进一步包括：将所述SMC与所有clump中的BIOS相连；主clump中的BIOS收集主clump的OS报告的故障信息、主clump内部的硬件故障信息、系统IO状态故障信息中的一个或多个，并发送给所述SMC；从clump中的BIOS收集所在clump内部硬件故障信息，并发送给所述SMC；

9.根据权利要求7所述的方法，其特征在于，进一步包括：在所述主clump中配置操作系统OS，在所述主clump和所有从clump中均配置基本输入输出系统BIOS；

10.根据权利要求9所述的方法，其特征在于，该方法进一步包括：