CN106897175A - 热替换nc节点的方法及装置 - Google Patents

热替换nc节点的方法及装置 Download PDF

Info

Publication number
CN106897175A
CN106897175A CN201710088308.XA CN201710088308A CN106897175A CN 106897175 A CN106897175 A CN 106897175A CN 201710088308 A CN201710088308 A CN 201710088308A CN 106897175 A CN106897175 A CN 106897175A
Authority
CN
China
Prior art keywords
nodes
failure
cpu
replacing
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710088308.XA
Other languages
English (en)
Inventor
王棚辉
乔英良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710088308.XA priority Critical patent/CN106897175A/zh
Publication of CN106897175A publication Critical patent/CN106897175A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1629Error detection by comparing the output of redundant processing systems
    • G06F11/1654Error detection by comparing the output of redundant processing systems where the output of only one of the redundant processing components can drive the attached hardware, e.g. memory or I/O
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2017Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where memory access, memory control or I/O control functionality is redundant

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明涉及服务器故障的技术领域,公开了一种热替换NC节点的方法,包括在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作;基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据;移除并更换故障NC节点。本发明还公开了一种热替换NC节点的装置,包括缓存一致性写回操作模块、CPU设置模块和故障NC节点移除更换模块。本发明能够快速方便的,在不停机的情况下,将出现故障的NC节点进行热替换。

Description

热替换NC节点的方法及装置
技术领域
本发明涉及服务器故障的技术领域,特别是涉及一种热替换NC节点的方法及装置。
背景技术
随着日常生活中的业务越来越多,越来越复杂,对服务器的性能要求也越来越高,为提高服务器的性能,单靠提高单个CPU节点的性能已经无法满足人们对服务器性能的要求,因此需要提高服务器中CPU的路数来提高性能;同时也对服务器的可靠性要求也越来越高,在服务器日常运转中,一旦服务器停机会对业务带来极大不便,服务器NC节点出现故障时,尽可能在不停机的情况下,将出现故障的那个NC节点进行热替换。
在服务器领域,系统运行的稳定性和可靠性是非常重要的。人们希望服务器不间断运行,以便保证商业网站、电信系统和银行系统等的持续运转。由于服务器需要保持不间断的待机能力,所以热插拔就成为鉴别服务器可用性的关键因素。
发明内容
本发明目的是提供一种热替换NC节点的方法及装置,能够快速方便的,在不停机的情况下,将出现故障的NC节点进行热替换。
为了实现上述目的,本发明采用以下的技术方案:
本发明提供一种热替换NC节点的方法,包括以下步骤:
在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作;
基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据;
移除并更换故障NC节点。
优选地,在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作之前,还包括:将出现故障的NC节点告知服务器系统。
优选地,通过外部配置的方式,将出现故障的NC节点告知服务器系统。
优选地,在基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据之后,还包括:基本输入输出系统告知服务器系统,故障NC节点停止运行。
优选地,在移除并更换故障NC节点之后,还包括:将更换后的NC节点进行上电,初始化更换后的NC节点与其他NC节点间的链路参数以及更换后的NC节点与同一节点的CPU间的链路参数。
优选地,在将更换后的NC节点进行上电,初始化更换后的NC节点与其他NC节点间的链路参数以及更换后的NC节点与同一节点的CPU间的链路参数之后,还包括:初始化更换后的NC节点,将更换后的NC节点添加到服务器系统中。
本发明还提供一种热替换NC节点的装置,包括:
缓存一致性写回操作模块,用于在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作;
CPU设置模块,用于基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据;
故障NC节点移除更换模块,用于移除并更换故障NC节点。
优选地,还包括:第一告知模块,用于将出现故障的NC节点告知服务器系统;
第二告知模块,用于基本输入输出系统告知服务器系统,故障NC节点停止运行。
优选地,还包括:初始化模块,用于将更换后的NC节点进行上电,初始化更换后的NC节点与其他NC节点间的链路参数以及更换后的NC节点与同一节点的CPU间的链路参数。
优选地,还包括:更换后的NC节点添加模块,用于初始化更换后的NC节点,将更换后的NC节点添加到服务器系统中。
与现有技术相比,本发明具有以下优点:
本发明在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作,然后基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据,移除并更换故障NC节点,最后初始化更换后的NC节点与其他NC节点间的链路参数以及更换后的NC节点与同一节点的CPU间的链路参数,将更换后的NC节点添加到服务器系统中。在服务器NC节点出现故障时,在不停机的情况下,将出现故障的NC节点进行热替换,提高了服务器系统运行的稳定性和可靠性。
上述热替换NC节点的方法的有益效果与热替换NC节点的装置的有益效果类似,此处不再赘述。
附图说明
图1是本发明实施例一种热替换NC节点的方法的流程示意图;
图2是本发明实施例服务器的结构框图;
图3是本发明实施例一种热替换NC节点的装置的结构示意图。
具体实施方式
为了便于理解,对本发明中出现的部分名词作以下解释说明:
BIOS:基本输入输出系统(Basic Input Output System),它是一组固化到计算机内主板上一个ROM芯片上的程序,它保存着计算机最重要的基本输入输出的程序、开机后自检程序和系统自启动程序,它可从CMOS中读写系统设置的具体信息。其主要功能是为计算机提供最底层的、最直接的硬件设置和控制。
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述:
本实施例提供一种热替换NC节点的方法,包括以下步骤:
在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作;
基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据;
移除并更换故障NC节点。
请参考图1和图2,图1是本发明实施例一种热替换NC节点的方法的流程示意图,图2是本发明实施例服务器的结构框图,其中Clump指的是节点,图2以服务器16路为例进行说明,但本发明不仅仅限于16路的使用。
本实施例提供一种热替换NC节点的方法,包括以下步骤:
步骤S101,通过外部配置的方式,将出现故障的NC节点告知服务器系统;
在本实施例中,每个NC节点对应一个拨码开关,NC节点出现故障时,可以通过拨码开关的方式告知服务器系统出现故障的NC节点。
步骤S102,在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作;
由于NC节点出现故障时,需要进行移除操作,因此将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作,这样保证内存中的数据都是最新的,后面进行移除故障NC节点时,保证了缓存的一致性。
步骤S103,基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据;
BIOS设置同一节点的CPU和其他NC节点,不再向故障NC节点发送数据,这样,与故障NC节点处于同一节点的CPU和故障NC节点的数据链路断开。
步骤S104,基本输入输出系统告知服务器系统,故障NC节点停止运行;
步骤S105,移除并更换故障NC节点;
步骤S106,将更换后的NC节点进行上电,初始化更换后的NC节点与其他NC节点间的链路参数以及更换后的NC节点与同一节点的CPU间的链路参数;
步骤S107,初始化更换后的NC节点,将更换后的NC节点添加到服务器系统中。
在本实施例中,更换后的NC节点完成与其他NC节点间的链路以及更换后的NC节点与同一节点的CPU间的链路初始化后,向主CPU节点发送中断,主CPU 节点收到后,初始化更换后的NC节点,然后将更换后的NC节点添加到服务器系统中。
本发明在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作,然后基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据,移除并更换故障NC节点,最后初始化更换后的NC节点与其他NC节点间的链路参数以及更换后的NC节点与同一节点的CPU间的链路参数,将更换后的NC节点添加到服务器系统中。在服务器NC节点出现故障时,在不停机的情况下,将出现故障的NC节点进行热替换,提高了服务器系统运行的稳定性和可靠性。
本发明实施例还提供一种热替换NC节点的装置,包括:
缓存一致性写回操作模块,用于在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作;
CPU设置模块,用于基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据;
故障NC节点移除更换模块,用于移除并更换故障NC节点。
请参考图3,图3是本发明一种热替换NC节点的装置的结构示意图;本实施例提供一种热替换NC节点的装置,包括:第一告知模块301、缓存一致性写回操作模块302、CPU设置模块303、第二告知模块304、故障NC节点移除更换模块305、初始化模块306和更换后的NC节点添加模块307,第一告知模块301依次顺序与缓存一致性写回操作模块302、CPU设置模块303、第二告知模块304、故障NC节点移除更换模块305、初始化模块306和更换后的NC节点添加模块307连接。
第一告知模块301,用于将出现故障的NC节点告知服务器系统;
缓存一致性写回操作模块302,用于在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作;
CPU设置模块303,用于基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据;
第二告知模块304,用于基本输入输出系统告知服务器系统,故障NC节点停止运行;
故障NC节点移除更换模块305,用于移除并更换故障NC节点;
初始化模块306,用于将更换后的NC节点进行上电,初始化更换后的NC节点与其他NC节点间的链路参数以及更换后的NC节点与同一节点的CPU间的链路参数;
更换后的NC节点添加模块307,用于初始化更换后的NC节点,将更换后的NC节点添加到服务器系统中。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种热替换NC节点的方法,其特征在于,包括以下步骤:
在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作;
基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据;
移除并更换故障NC节点。
2.根据权利要求1所述的热替换NC节点的方法,其特征在于,在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作之前,还包括:将出现故障的NC节点告知服务器系统。
3.根据权利要求2所述的热替换NC节点的方法,其特征在于,通过外部配置的方式,将出现故障的NC节点告知服务器系统。
4.根据权利要求1所述的热替换NC节点的方法,其特征在于,在基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据之后,还包括:基本输入输出系统告知服务器系统,故障NC节点停止运行。
5.根据权利要求1所述的热替换NC节点的方法,其特征在于,在移除并更换故障NC节点之后,还包括:将更换后的NC节点进行上电,初始化更换后的NC节点与其他NC节点间的链路参数以及更换后的NC节点与同一节点的CPU间的链路参数。
6.根据权利要求5所述的热替换NC节点的方法,其特征在于,在将更换后的NC节点进行上电,初始化更换后的NC节点与其他NC节点间的链路参数以及更换后的NC节点与同一节点的CPU间的链路参数之后,还包括:初始化更换后的NC节点,将更换后的NC节点添加到服务器系统中。
7.一种热替换NC节点的装置,其特征在于,包括:
缓存一致性写回操作模块,用于在不停机的情况下,将所有NC节点的内存以及节点下CPU管理的内存进行缓存一致性写回操作;
CPU设置模块,用于基本输入输出系统设置同一节点的CPU和其他NC节点,停止向故障NC节点发送数据;
故障NC节点移除更换模块,用于移除并更换故障NC节点。
8.根据权利要求7所述的热替换NC节点的装置,其特征在于,还包括:
第一告知模块,用于将出现故障的NC节点告知服务器系统;
第二告知模块,用于基本输入输出系统告知服务器系统,故障NC节点停止运行。
9.根据权利要求7所述的热替换NC节点的装置,其特征在于,还包括:
初始化模块,用于将更换后的NC节点进行上电,初始化更换后的NC节点与其他NC节点间的链路参数以及更换后的NC节点与同一节点的CPU间的链路参数。
10.根据权利要求7所述的热替换NC节点的装置,其特征在于,还包括:
更换后的NC节点添加模块,用于初始化更换后的NC节点,将更换后的NC节点添加到服务器系统中。
CN201710088308.XA 2017-02-19 2017-02-19 热替换nc节点的方法及装置 Pending CN106897175A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710088308.XA CN106897175A (zh) 2017-02-19 2017-02-19 热替换nc节点的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710088308.XA CN106897175A (zh) 2017-02-19 2017-02-19 热替换nc节点的方法及装置

Publications (1)

Publication Number Publication Date
CN106897175A true CN106897175A (zh) 2017-06-27

Family

ID=59184007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710088308.XA Pending CN106897175A (zh) 2017-02-19 2017-02-19 热替换nc节点的方法及装置

Country Status (1)

Country Link
CN (1) CN106897175A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301104A (zh) * 2017-07-17 2017-10-27 郑州云海信息技术有限公司 一种器件更换方法及装置
CN111901709A (zh) * 2020-03-25 2020-11-06 北京控制与电子技术研究所 一种多网络控制备份的光纤通信网络系统
CN113312657A (zh) * 2021-07-30 2021-08-27 杭州乒乓智能技术有限公司 一种应用服务器不停机发布方法及应用服务器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116476A (zh) * 2013-02-22 2013-05-22 浪潮电子信息产业股份有限公司 一种多控制器间的缓存管理系统
CN105245361A (zh) * 2015-09-10 2016-01-13 浪潮(北京)电子信息产业有限公司 用于Linux系统的数据高可用系统、方法和装置
CN105406980A (zh) * 2015-10-19 2016-03-16 浪潮(北京)电子信息产业有限公司 一种多节点备份方法及装置
CN105808391A (zh) * 2016-04-05 2016-07-27 浪潮电子信息产业股份有限公司 一种热替换cpu节点的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116476A (zh) * 2013-02-22 2013-05-22 浪潮电子信息产业股份有限公司 一种多控制器间的缓存管理系统
CN105245361A (zh) * 2015-09-10 2016-01-13 浪潮(北京)电子信息产业有限公司 用于Linux系统的数据高可用系统、方法和装置
CN105406980A (zh) * 2015-10-19 2016-03-16 浪潮(北京)电子信息产业有限公司 一种多节点备份方法及装置
CN105808391A (zh) * 2016-04-05 2016-07-27 浪潮电子信息产业股份有限公司 一种热替换cpu节点的方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301104A (zh) * 2017-07-17 2017-10-27 郑州云海信息技术有限公司 一种器件更换方法及装置
CN111901709A (zh) * 2020-03-25 2020-11-06 北京控制与电子技术研究所 一种多网络控制备份的光纤通信网络系统
CN111901709B (zh) * 2020-03-25 2023-01-17 北京控制与电子技术研究所 一种多网络控制备份的光纤通信网络系统
CN113312657A (zh) * 2021-07-30 2021-08-27 杭州乒乓智能技术有限公司 一种应用服务器不停机发布方法及应用服务器

Similar Documents

Publication Publication Date Title
CN103488498A (zh) 一种计算机启动方法及计算机
CN104077199B (zh) 基于共享磁盘的高可用集群的隔离方法和系统
CN103139018B (zh) 一种调变一体化系统下的网卡状态监测与tcp通信方法
CN101160794B (zh) 一种智能网业务控制设备容灾系统和方法
CN106897175A (zh) 热替换nc节点的方法及装置
CN102681917A (zh) 一种操作系统及其修复方法
CN103425506A (zh) 关机方法及开机方法及通信终端
CN102394914A (zh) 集群脑裂处理方法和装置
CN103984768B (zh) 一种数据库集群管理数据的方法、节点及系统
CN105446916B (zh) Usb总线状态切换方法及装置
CN103024065A (zh) 用于云存储系统的系统配置管理方法
CN104834543A (zh) 带外刷新bios固件的方法及装置
CN103905220B (zh) 数据同步处理方法及系统
CN103346914A (zh) 分布式文件系统的拓扑结构更新方法和装置
CN105577408A (zh) 一种vnfm容灾保护的方法、装置和nfvo
CN105790825A (zh) 一种分布式保护中控制器热备份的方法和装置
CN101593082A (zh) 一种管理存储设备电源电路的装置、方法和计算机
CN102725746B (zh) 对分布式计算机系统中内存的管理方法和装置
CN102075341A (zh) 一种主备同步方法及系统
WO2006005251A1 (fr) Procede et systeme de realisation de la fonction de commutation dans un systeme de communication
CN105912280A (zh) 能够进行数据分类的存储终端
CN109936532A (zh) 一种数据总线传输安全防护系统
CN105897623A (zh) 一种数据的传输方法和装置
CN103873516A (zh) 提高云计算资源池中物理服务器使用率的ha方法和系统
CN102487332B (zh) 故障处理方法、装置和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170627

RJ01 Rejection of invention patent application after publication