CN106897175A - 热替换nc节点的方法及装置 - Google Patents
热替换nc节点的方法及装置 Download PDFInfo
- Publication number
- CN106897175A CN106897175A CN201710088308.XA CN201710088308A CN106897175A CN 106897175 A CN106897175 A CN 106897175A CN 201710088308 A CN201710088308 A CN 201710088308A CN 106897175 A CN106897175 A CN 106897175A
- Authority
- CN
- China
- Prior art keywords
- nodes
- failure
- cpu
- replacing
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/1629—Error detection by comparing the output of redundant processing systems
- G06F11/1654—Error detection by comparing the output of redundant processing systems where the output of only one of the redundant processing components can drive the attached hardware, e.g. memory or I/O
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2017—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where memory access, memory control or I/O control functionality is redundant
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hardware Redundancy (AREA)
Abstract
本发明涉及服务器故障的技术领域,公开了一种热替换NC节点的方法,包括在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作;基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据;移除并更换故障NC节点。本发明还公开了一种热替换NC节点的装置,包括缓存一致性写回操作模块、CPU设置模块和故障NC节点移除更换模块。本发明能够快速方便的,在不停机的情况下,将出现故障的NC节点进行热替换。
Description
技术领域
本发明涉及服务器故障的技术领域,特别是涉及一种热替换NC节点的方法及装置。
背景技术
随着日常生活中的业务越来越多,越来越复杂,对服务器的性能要求也越来越高,为提高服务器的性能,单靠提高单个CPU节点的性能已经无法满足人们对服务器性能的要求,因此需要提高服务器中CPU的路数来提高性能;同时也对服务器的可靠性要求也越来越高,在服务器日常运转中,一旦服务器停机会对业务带来极大不便,服务器NC节点出现故障时,尽可能在不停机的情况下,将出现故障的那个NC节点进行热替换。
在服务器领域,系统运行的稳定性和可靠性是非常重要的。人们希望服务器不间断运行,以便保证商业网站、电信系统和银行系统等的持续运转。由于服务器需要保持不间断的待机能力,所以热插拔就成为鉴别服务器可用性的关键因素。
发明内容
本发明目的是提供一种热替换NC节点的方法及装置,能够快速方便的,在不停机的情况下,将出现故障的NC节点进行热替换。
为了实现上述目的,本发明采用以下的技术方案:
本发明提供一种热替换NC节点的方法,包括以下步骤:
在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作;
基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据;
移除并更换故障NC节点。
优选地,在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作之前,还包括:将出现故障的NC节点告知服务器系统。
优选地,通过外部配置的方式,将出现故障的NC节点告知服务器系统。
优选地,在基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据之后,还包括:基本输入输出系统告知服务器系统,故障NC节点停止运行。
优选地,在移除并更换故障NC节点之后,还包括:将更换后的NC节点进行上电,初始化更换后的NC节点与其他NC节点间的链路参数以及更换后的NC节点与同一节点的CPU间的链路参数。
优选地,在将更换后的NC节点进行上电,初始化更换后的NC节点与其他NC节点间的链路参数以及更换后的NC节点与同一节点的CPU间的链路参数之后,还包括:初始化更换后的NC节点,将更换后的NC节点添加到服务器系统中。
本发明还提供一种热替换NC节点的装置,包括:
缓存一致性写回操作模块,用于在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作;
CPU设置模块,用于基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据;
故障NC节点移除更换模块,用于移除并更换故障NC节点。
优选地,还包括:第一告知模块,用于将出现故障的NC节点告知服务器系统;
第二告知模块,用于基本输入输出系统告知服务器系统,故障NC节点停止运行。
优选地,还包括:初始化模块,用于将更换后的NC节点进行上电,初始化更换后的NC节点与其他NC节点间的链路参数以及更换后的NC节点与同一节点的CPU间的链路参数。
优选地,还包括:更换后的NC节点添加模块,用于初始化更换后的NC节点,将更换后的NC节点添加到服务器系统中。
与现有技术相比,本发明具有以下优点:
本发明在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作,然后基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据,移除并更换故障NC节点,最后初始化更换后的NC节点与其他NC节点间的链路参数以及更换后的NC节点与同一节点的CPU间的链路参数,将更换后的NC节点添加到服务器系统中。在服务器NC节点出现故障时,在不停机的情况下,将出现故障的NC节点进行热替换,提高了服务器系统运行的稳定性和可靠性。
上述热替换NC节点的方法的有益效果与热替换NC节点的装置的有益效果类似,此处不再赘述。
附图说明
图1是本发明实施例一种热替换NC节点的方法的流程示意图;
图2是本发明实施例服务器的结构框图;
图3是本发明实施例一种热替换NC节点的装置的结构示意图。
具体实施方式
为了便于理解,对本发明中出现的部分名词作以下解释说明:
BIOS:基本输入输出系统(Basic Input Output System),它是一组固化到计算机内主板上一个ROM芯片上的程序,它保存着计算机最重要的基本输入输出的程序、开机后自检程序和系统自启动程序,它可从CMOS中读写系统设置的具体信息。其主要功能是为计算机提供最底层的、最直接的硬件设置和控制。
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述:
本实施例提供一种热替换NC节点的方法,包括以下步骤:
在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作;
基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据;
移除并更换故障NC节点。
请参考图1和图2,图1是本发明实施例一种热替换NC节点的方法的流程示意图,图2是本发明实施例服务器的结构框图,其中Clump指的是节点,图2以服务器16路为例进行说明,但本发明不仅仅限于16路的使用。
本实施例提供一种热替换NC节点的方法,包括以下步骤:
步骤S101,通过外部配置的方式,将出现故障的NC节点告知服务器系统;
在本实施例中,每个NC节点对应一个拨码开关,NC节点出现故障时,可以通过拨码开关的方式告知服务器系统出现故障的NC节点。
步骤S102,在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作;
由于NC节点出现故障时,需要进行移除操作,因此将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作,这样保证内存中的数据都是最新的,后面进行移除故障NC节点时,保证了缓存的一致性。
步骤S103,基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据;
BIOS设置同一节点的CPU和其他NC节点,不再向故障NC节点发送数据,这样,与故障NC节点处于同一节点的CPU和故障NC节点的数据链路断开。
步骤S104,基本输入输出系统告知服务器系统,故障NC节点停止运行;
步骤S105,移除并更换故障NC节点;
步骤S106,将更换后的NC节点进行上电,初始化更换后的NC节点与其他NC节点间的链路参数以及更换后的NC节点与同一节点的CPU间的链路参数;
步骤S107,初始化更换后的NC节点,将更换后的NC节点添加到服务器系统中。
在本实施例中,更换后的NC节点完成与其他NC节点间的链路以及更换后的NC节点与同一节点的CPU间的链路初始化后,向主CPU节点发送中断,主CPU 节点收到后,初始化更换后的NC节点,然后将更换后的NC节点添加到服务器系统中。
本发明在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作,然后基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据,移除并更换故障NC节点,最后初始化更换后的NC节点与其他NC节点间的链路参数以及更换后的NC节点与同一节点的CPU间的链路参数,将更换后的NC节点添加到服务器系统中。在服务器NC节点出现故障时,在不停机的情况下,将出现故障的NC节点进行热替换,提高了服务器系统运行的稳定性和可靠性。
本发明实施例还提供一种热替换NC节点的装置,包括:
缓存一致性写回操作模块,用于在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作;
CPU设置模块,用于基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据;
故障NC节点移除更换模块,用于移除并更换故障NC节点。
请参考图3,图3是本发明一种热替换NC节点的装置的结构示意图;本实施例提供一种热替换NC节点的装置,包括:第一告知模块301、缓存一致性写回操作模块302、CPU设置模块303、第二告知模块304、故障NC节点移除更换模块305、初始化模块306和更换后的NC节点添加模块307,第一告知模块301依次顺序与缓存一致性写回操作模块302、CPU设置模块303、第二告知模块304、故障NC节点移除更换模块305、初始化模块306和更换后的NC节点添加模块307连接。
第一告知模块301,用于将出现故障的NC节点告知服务器系统;
缓存一致性写回操作模块302,用于在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作;
CPU设置模块303,用于基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据;
第二告知模块304,用于基本输入输出系统告知服务器系统,故障NC节点停止运行;
故障NC节点移除更换模块305,用于移除并更换故障NC节点;
初始化模块306,用于将更换后的NC节点进行上电,初始化更换后的NC节点与其他NC节点间的链路参数以及更换后的NC节点与同一节点的CPU间的链路参数;
更换后的NC节点添加模块307,用于初始化更换后的NC节点,将更换后的NC节点添加到服务器系统中。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种热替换NC节点的方法,其特征在于,包括以下步骤:
在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作;
基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据;
移除并更换故障NC节点。
2.根据权利要求1所述的热替换NC节点的方法,其特征在于,在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作之前,还包括:将出现故障的NC节点告知服务器系统。
3.根据权利要求2所述的热替换NC节点的方法,其特征在于,通过外部配置的方式,将出现故障的NC节点告知服务器系统。
4.根据权利要求1所述的热替换NC节点的方法,其特征在于,在基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据之后,还包括:基本输入输出系统告知服务器系统,故障NC节点停止运行。
5.根据权利要求1所述的热替换NC节点的方法,其特征在于,在移除并更换故障NC节点之后,还包括:将更换后的NC节点进行上电,初始化更换后的NC节点与其他NC节点间的链路参数以及更换后的NC节点与同一节点的CPU间的链路参数。
6.根据权利要求5所述的热替换NC节点的方法,其特征在于,在将更换后的NC节点进行上电,初始化更换后的NC节点与其他NC节点间的链路参数以及更换后的NC节点与同一节点的CPU间的链路参数之后,还包括:初始化更换后的NC节点,将更换后的NC节点添加到服务器系统中。
7.一种热替换NC节点的装置,其特征在于,包括:
缓存一致性写回操作模块,用于在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作;
CPU设置模块,用于基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据;
故障NC节点移除更换模块,用于移除并更换故障NC节点。
8.根据权利要求7所述的热替换NC节点的装置,其特征在于,还包括:
第一告知模块,用于将出现故障的NC节点告知服务器系统;
第二告知模块,用于基本输入输出系统告知服务器系统,故障NC节点停止运行。
9.根据权利要求7所述的热替换NC节点的装置,其特征在于,还包括:
初始化模块,用于将更换后的NC节点进行上电,初始化更换后的NC节点与其他NC节点间的链路参数以及更换后的NC节点与同一节点的CPU间的链路参数。
10.根据权利要求7所述的热替换NC节点的装置,其特征在于,还包括:
更换后的NC节点添加模块,用于初始化更换后的NC节点,将更换后的NC节点添加到服务器系统中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710088308.XA CN106897175A (zh) | 2017-02-19 | 2017-02-19 | 热替换nc节点的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710088308.XA CN106897175A (zh) | 2017-02-19 | 2017-02-19 | 热替换nc节点的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106897175A true CN106897175A (zh) | 2017-06-27 |
Family
ID=59184007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710088308.XA Pending CN106897175A (zh) | 2017-02-19 | 2017-02-19 | 热替换nc节点的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106897175A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301104A (zh) * | 2017-07-17 | 2017-10-27 | 郑州云海信息技术有限公司 | 一种器件更换方法及装置 |
CN111901709A (zh) * | 2020-03-25 | 2020-11-06 | 北京控制与电子技术研究所 | 一种多网络控制备份的光纤通信网络系统 |
CN113312657A (zh) * | 2021-07-30 | 2021-08-27 | 杭州乒乓智能技术有限公司 | 一种应用服务器不停机发布方法及应用服务器 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116476A (zh) * | 2013-02-22 | 2013-05-22 | 浪潮电子信息产业股份有限公司 | 一种多控制器间的缓存管理系统 |
CN105245361A (zh) * | 2015-09-10 | 2016-01-13 | 浪潮(北京)电子信息产业有限公司 | 用于Linux系统的数据高可用系统、方法和装置 |
CN105406980A (zh) * | 2015-10-19 | 2016-03-16 | 浪潮(北京)电子信息产业有限公司 | 一种多节点备份方法及装置 |
CN105808391A (zh) * | 2016-04-05 | 2016-07-27 | 浪潮电子信息产业股份有限公司 | 一种热替换cpu节点的方法及装置 |
-
2017
- 2017-02-19 CN CN201710088308.XA patent/CN106897175A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116476A (zh) * | 2013-02-22 | 2013-05-22 | 浪潮电子信息产业股份有限公司 | 一种多控制器间的缓存管理系统 |
CN105245361A (zh) * | 2015-09-10 | 2016-01-13 | 浪潮(北京)电子信息产业有限公司 | 用于Linux系统的数据高可用系统、方法和装置 |
CN105406980A (zh) * | 2015-10-19 | 2016-03-16 | 浪潮(北京)电子信息产业有限公司 | 一种多节点备份方法及装置 |
CN105808391A (zh) * | 2016-04-05 | 2016-07-27 | 浪潮电子信息产业股份有限公司 | 一种热替换cpu节点的方法及装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301104A (zh) * | 2017-07-17 | 2017-10-27 | 郑州云海信息技术有限公司 | 一种器件更换方法及装置 |
CN111901709A (zh) * | 2020-03-25 | 2020-11-06 | 北京控制与电子技术研究所 | 一种多网络控制备份的光纤通信网络系统 |
CN111901709B (zh) * | 2020-03-25 | 2023-01-17 | 北京控制与电子技术研究所 | 一种多网络控制备份的光纤通信网络系统 |
CN113312657A (zh) * | 2021-07-30 | 2021-08-27 | 杭州乒乓智能技术有限公司 | 一种应用服务器不停机发布方法及应用服务器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103488498A (zh) | 一种计算机启动方法及计算机 | |
CN104077199B (zh) | 基于共享磁盘的高可用集群的隔离方法和系统 | |
CN103139018B (zh) | 一种调变一体化系统下的网卡状态监测与tcp通信方法 | |
CN101160794B (zh) | 一种智能网业务控制设备容灾系统和方法 | |
CN106897175A (zh) | 热替换nc节点的方法及装置 | |
CN102681917A (zh) | 一种操作系统及其修复方法 | |
CN103425506A (zh) | 关机方法及开机方法及通信终端 | |
CN102394914A (zh) | 集群脑裂处理方法和装置 | |
CN103984768B (zh) | 一种数据库集群管理数据的方法、节点及系统 | |
CN105446916B (zh) | Usb总线状态切换方法及装置 | |
CN103024065A (zh) | 用于云存储系统的系统配置管理方法 | |
CN104834543A (zh) | 带外刷新bios固件的方法及装置 | |
CN103905220B (zh) | 数据同步处理方法及系统 | |
CN103346914A (zh) | 分布式文件系统的拓扑结构更新方法和装置 | |
CN105577408A (zh) | 一种vnfm容灾保护的方法、装置和nfvo | |
CN105790825A (zh) | 一种分布式保护中控制器热备份的方法和装置 | |
CN101593082A (zh) | 一种管理存储设备电源电路的装置、方法和计算机 | |
CN102725746B (zh) | 对分布式计算机系统中内存的管理方法和装置 | |
CN102075341A (zh) | 一种主备同步方法及系统 | |
WO2006005251A1 (fr) | Procede et systeme de realisation de la fonction de commutation dans un systeme de communication | |
CN105912280A (zh) | 能够进行数据分类的存储终端 | |
CN109936532A (zh) | 一种数据总线传输安全防护系统 | |
CN105897623A (zh) | 一种数据的传输方法和装置 | |
CN103873516A (zh) | 提高云计算资源池中物理服务器使用率的ha方法和系统 | |
CN102487332B (zh) | 故障处理方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170627 |
|
RJ01 | Rejection of invention patent application after publication |