CN110109782B - 一种故障PCIe设备的更换方法、装置及系统 - Google Patents

一种故障PCIe设备的更换方法、装置及系统 Download PDF

Info

Publication number
CN110109782B
CN110109782B CN201910379824.7A CN201910379824A CN110109782B CN 110109782 B CN110109782 B CN 110109782B CN 201910379824 A CN201910379824 A CN 201910379824A CN 110109782 B CN110109782 B CN 110109782B
Authority
CN
China
Prior art keywords
pcie
fault
server
host server
bmc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910379824.7A
Other languages
English (en)
Other versions
CN110109782A (zh
Inventor
曲勇
胡雷钧
乔英良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Wave Intelligent Technology Co Ltd
Original Assignee
Suzhou Wave Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Wave Intelligent Technology Co Ltd filed Critical Suzhou Wave Intelligent Technology Co Ltd
Priority to CN201910379824.7A priority Critical patent/CN110109782B/zh
Publication of CN110109782A publication Critical patent/CN110109782A/zh
Application granted granted Critical
Publication of CN110109782B publication Critical patent/CN110109782B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant

Abstract

本发明公开了一种故障PCIe设备的更换方法,包括:当确定故障PCIe设备时,管理服务器通过故障PCIe设备的拓扑信息,确定故障PCIe设备级联的目标主机服务器;控制目标主机服务器关机;向池化服务器的BMC发送故障PCIe设备的PCIe Slot下电指令;若故障PCIe设备更换完毕,向池化服务器的BMC发送PCIe Slot上电指令;控制目标主机服务器开机;该方法在更换故障PCIe设备时,不会影响所有共享资源池的主机服务器的业务运行,降低运维的成本与风险;本发明还公开了一种故障PCIe设备的更换装置、系统及计算机可读存储介质,具有上述有益效果。

Description

一种故障PCIe设备的更换方法、装置及系统
技术领域
本发明涉及计算机技术领域,特别涉及一种故障PCIe设备的更换方法、装置、系统及计算机可读存储介质。
背景技术
随着云计算技术的发展,现已进入大数据时代,数据中心处理的数据规模成几何倍数增长,大数据环境下对服务器计算资源及存储资源的需求日益剧增。因此,PCIeSwitch服务器支持的融合架构成为新技术趋势,在硬件层面将GPU、SSD等计算及存储资源整合成为资源池,不同设备之间的同类资源能够任意重组;在软件层,通过上层软件实时感知前端业务的资源需求,通过硬件重组、动态分配和组合资源来满足各类需求。
目前,池化服务器中更换故障PCIe设备时需整机关机,即所有共享资源池的主机服务器(即Host服务器)先关机,然后池化服务器再关机。等到故障PCIe设备更换完毕后再按开机顺序整机开机。可见,当前技术在更换故障PCIe设备时会影响所有共享资源池的Host服务器的业务运行,增加了运维的成本与风险。
发明内容
本发明的目的是提供一种故障PCIe设备的更换方法、装置、系统及计算机可读存储介质,能够在更换故障PCIe设备时,不会影响所有共享资源池的主机服务器的业务运行,降低运维的成本与风险。
为解决上述技术问题,本发明提供一种故障PCIe设备的更换方法,包括:
当确定故障PCIe设备时,管理服务器通过所述故障PCIe设备的拓扑信息,确定所述故障PCIe设备级联的目标主机服务器;
控制所述目标主机服务器关机;
向池化服务器的BMC发送所述故障PCIe设备的PCIe Slot下电指令,以使所述池化服务器的主板CPLD控制所述故障PCIe设备的PCIe Slot下电;
若所述故障PCIe设备更换完毕,向所述池化服务器的BMC发送PCIe Slot上电指令,以使所述主板CPLD控制对应PCIe Slot上电;
控制所述目标主机服务器开机。
可选地,所述确定故障PCIe设备的方式,包括:
从第一主机服务器获取池化服务器设备的健康状态信息,并根据所述健康状态信息确定运行状态异常的所述故障PCIe设备。
可选地,所述控制所述目标主机服务器开机之前,还包括:
判断所述PCIe Slot是否成功上电;
若是,则执行所述控制所述目标主机服务器开机的步骤。
可选地,所述向池化服务器的BMC发送所述故障PCIe设备的PCIe Slot下电指令,包括:
所述管理服务器向第二主机服务器的BMC发送所述故障PCIe设备的PCIe Slot下电指令;
所述第二主机服务器的BMC通过I2C向所述池化服务器的BMC发送所述故障PCIe设备的PCIe Slot下电指令;
所述池化服务器的BMC将所述故障PCIe设备的PCIe Slot下电指令发送给所述主板CPLD。
本发明还提供一种故障PCIe设备的更换装置,包括:
目标主机服务器确定模块,用于当确定故障PCIe设备时,管理服务器通过所述故障PCIe设备的拓扑信息,确定所述故障PCIe设备级联的目标主机服务器;
关机模块,用于控制所述目标主机服务器关机;
下电模块,用于向池化服务器的BMC发送所述故障PCIe设备的PCIe Slot下电指令,以使所述池化服务器的主板CPLD控制所述故障PCIe设备的PCIe Slot下电;
上电模块,用于若所述故障PCIe设备更换完毕,向所述池化服务器的BMC发送PCIeSlot上电指令,以使所述主板CPLD控制对应PCIe Slot上电;
开机模块,用于控制所述目标主机服务器开机。
可选地,所述故障PCIe设备的更换装置还包括:
故障PCIe设备确定模块,用于从第一主机服务器获取池化服务器设备的健康状态信息,并根据所述健康状态信息确定运行状态异常的所述故障PCIe设备。
可选地,所述故障PCIe设备的更换装置还包括:
判断模块,用于判断所述PCIe Slot是否成功上电;若是,则触发所述开机模块。
本发明还提供一种故障PCIe设备的更换系统,包括:池化服务器、主机服务器以及管理服务器;其中,所述管理服务器用于时实现上述所述的故障PCIe设备的更换方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的故障PCIe设备的更换方法的步骤。
本发明所提供的故障PCIe设备的更换方法,包括:当确定故障PCIe设备时,管理服务器通过故障PCIe设备的拓扑信息,确定故障PCIe设备级联的目标主机服务器;控制目标主机服务器关机;向池化服务器的BMC发送故障PCIe设备的PCIe Slot下电指令,以使池化服务器的主板CPLD控制故障PCIe设备的PCIe Slot下电;若故障PCIe设备更换完毕,向池化服务器的BMC发送PCIe Slot上电指令,以使主板CPLD控制对应PCIe Slot上电;控制目标主机服务器开机。
可见,该方法在更换故障PCIe设备时,仅需要关闭与该故障PCIe设备存在拓扑关系的目标主机服务器,并只需将该故障PCIe设备对应的PCIe Slot下电,更换故障PCIe设备即可完成故障PCIe设备的更换,实现了通过PCIe Slot单独上下电更换故障PCIe设备;即不需要关闭全部的主机服务器,也不需要整体关闭池化服务器就能够完成故障PCIe设备的更换;克服了相关技术中池化服务器在更换故障PCIe设备时需整机关机所带来的问题,即所有共享资源池的主机服务器先关机,然后池化服务器再关机,等到故障PCIe设备更换完毕后再按开机顺序整机开机;即相关技术在更换故障PCIe设备时会影响所有共享资源池的主机服务器的业务运行,增加了运维的成本与风险;本发明还提供了一种故障PCIe设备的更换装置、系统及计算机可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例所提供的故障PCIe设备的更换方法的流程图;
图2为本发明实施例所提供的故障PCIe设备的更换装置的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,相关技术中在更换故障PCIe设备时需要对全部的主机服务器以及池化服务器进行关机,进行故障PCIe设备的更换,这样的操作会严重影响所有共享资源池的主机服务器的业务运行,增加了运维的成本与风险;本实施例中通过故障PCIe设备对应的PCIeSlot单独上下电方法,来避免上述问题。具体请参考图1,图1为本发明实施例所提供的故障PCIe设备的更换方法的流程图;该方法可以包括:
S101:当确定故障PCIe设备时,管理服务器通过故障PCIe设备的拓扑信息,确定故障PCIe设备级联的目标主机服务器。
本实施例中并不限定故障PCIe设备确定方式,只要可以确定存在故障PCIe设备即可。在确定故障PCIe设备时,就可以触发本实施例提供的故障PCIe设备的更换方法。其中,PCIe(Peripheral Component Interface Express,总线和接口标准)具体的,确定故障PCIe设备的方式可以包括:从第一主机服务器获取池化服务器设备的健康状态信息,并根据健康状态信息确定运行状态异常的故障PCIe设备。
需要说明的是,本实施例中第一主机服务器可以是整个系统中全部主机服务器中的任何一个主机服务器。本实施例中并不限定健康状态信息的具体内容,以及健康状态信息的获取方式。例如可以是主机服务器通过轮询池化服务器获取,管理服务器再从主机服务器中获取。具体的,在PCIe Switch服务器系统中,主机服务器的BMC与池化服务器的BMC可以通过I2C通信。进而在整机上电后各个主机服务器的BMC通过IPMI命令从池化服务器的BMC轮询信息,进行整机管理。其中,轮询信息就可以包括各PCIe设备的健康状态信息以及各PCIe设备的拓扑信息。具体的,通过健康状态信息可获知各PCIe设备是否出现异常,即可以根据健康状态信息确定故障PCIe设备;PCIe设备的拓扑信息中可获知各PCIe设备被分配到了哪个主机服务器。本实施例中并不对轮询过程进行限定,可以参考相关技术。
在确定了故障PCIe设备后,就可以通过故障PCIe设备的拓扑信息,确定故障PCIe设备级联的目标主机服务器。这是由于PCIe设备的拓扑信息中可包含各PCIe设备被分配到了哪个主机服务器。也就是说拓扑信息可以确定当前与故障PCIe设备相连的主机服务器是哪个,进而可以确定故障PCIe设备级联的目标主机服务器。即管理服务器可从任何一个主机服务器的BMC获取其级联的池化服务器中的PCIe设备的健康状态信息,当发现某个PCIe设备运行异常后,可从拓扑信息中查询出该故障PCIe设备被分配到了哪个主机服务器,将该主机服务器确定为目标主机服务器。
S102:控制目标主机服务器关机。
本实施例中为了克服相关技术中在发现故障PCIe设备时,需要整个系统停止运行,进而才能够更换故障PCIe设备,所带来的系统中全部业务暂停的问题。具体的,相关技术中所有共享资源池的主机服务器先关机,然后池化服务器再关机,等到故障PCIe设备更换完毕后再按开机顺序整机开机;即相关技术在更换故障PCIe设备时会影响所有共享资源池的主机服务器的业务运行,增加了运维的成本与风险。本实施例中在确定故障PCIe设备后,并非关闭全部的主机服务器,而是确定该故障PCIe设备对应的目标主机服务器,进而只控制目标主机服务器关机即可,其他主机服务器不需要关机,可以正常运行上层业务。即在更换故障PCIe设备时只需将目标主机服务器关机即可。
S103:向池化服务器的BMC发送故障PCIe设备的PCIe Slot下电指令,以使池化服务器的主板CPLD控制故障PCIe设备的PCIe Slot下电。
本实施例在将目标主机服务器关机后,就可以更换该故障PCIe设备。因此本实施例在执行步骤S103时,必须要确保目标主机服务器为关机状态。因此,优选的,可以在执行步骤S103之前,首先检测目标主机服务器是否处于关机状态,若是,则执行步骤S103。若不是,则可以输出提示信息,当然也可以是再次执行步骤S102以控制目标主机服务器关机。
本实施例中并不限定管理服务器如何向池化服务器的BMC发送故障PCIe设备的PCIe Slot下电指令,可以是直接发送,当然也可以是通过主机服务器发送。即优选的,管理服务器向第二主机服务器的BMC发送故障PCIe设备的PCIe Slot下电指令;第二主机服务器的BMC通过I2C向池化服务器的BMC发送故障PCIe设备的PCIe Slot下电指令;池化服务器的BMC将故障PCIe设备的PCIe Slot下电指令发送给主板CPLD,以使主板CPLD控制故障PCIe设备的PCIe Slot单独下电。其中,BMC(Baseboard Management Controller,基板管理控制器),CPLD(Complex Programmable Logic Device,复杂可编程逻辑器件)。
本实施例中并不对第二主机服务器进行限定,其可以是系统中除了目标主机服务器之外任何一个主机服务器。即管理服务器通过系统中第二主机服务器的BMC发送控制池化服务器中对应PCIe Slot单独下电的指令(即故障PCIe设备的PCIe Slot下电指令)。具体的,管理服务器向第二主机服务器的BMC发送故障PCIe设备的PCIe Slot下电指令;第二主机服务器的BMC在收到指令后会将指令通过I2C发送至池化服务器的BMC;池化服务器的BMC在收到指令后给其主板CPLD发送该指令;主板CPLD根据该指令控制故障PCIe设备的PCIeSlot下电,最终实现该故障PCIe设备的PCIe Slot单独下电。本实施例中并不对PCIe Slot下电指令的具体内容进行限定,只要可以实现PCIe Slot单独下电即可。其中,PCIe Slot为PCIe插槽。
S104:若故障PCIe设备更换完毕,向池化服务器的BMC发送PCIe Slot上电指令,以使主板CPLD控制对应PCIe Slot上电。
本实施例中在故障PCIe设备的PCIe Slot下电后,即可更换该故障PCIe设备。并在故障PCIe设备更换完毕后,向池化服务器的BMC发送PCIe Slot上电指令,以使主板CPLD控制对应PCIe Slot单独上电。本实施例中并不限定管理服务器如何向池化服务器的BMC发送PCIe Slot上电指令,可以是直接发送,当然也可以是通过主机服务器发送。具体可以参考PCIe Slot下电指令的发送过程。即优选的,管理服务器向第三主机服务器的BMC发送PCIeSlot上电指令;第三主机服务器的BMC通过I2C向池化服务器的BMC发送PCIe Slot上电指令;池化服务器的BMC将PCIe Slot上电指令发送给主板CPLD,以使主板CPLD控制对应PCIeSlot单独上电。
本实施例中并不对第三主机服务器进行限定,其可以是系统中除了目标主机服务器之外任何一个主机服务器。即管理服务器通过系统中第三主机服务器的BMC发送控制池化服务器中对应PCIe Slot上电的指令(即PCIe Slot上电指令)。具体的,管理服务器向第三主机服务器的BMC发送PCIe Slot上电指令;第三主机服务器的BMC在收到指令后会将指令通过I2C发送至池化服务器的BMC;池化服务器的BMC在收到指令后给其主板CPLD发送该指令;主板CPLD根据该指令控制控制对应PCIe Slot单独上电。本实施例中并不对PCIeSlot上电的指令的具体内容进行限定,只要可以实现PCIe Slot单独上电即可。当然第二主机服务器和第三主机服务器可以是同一个主机服务器。
S105:控制目标主机服务器开机。
本实施例中在更换后的PCIe设备的PCIe Slot上电后,即可控制对应的目标主机服务器开机。进而仅对目标主机服务器关机,就可以完成故障PCIe设备的更换,简化服务器运维管理流程,降低运维成本与风险,避免了因更换故障PCIe设备导致的系统全部业务暂停。进一步,为了保证安全的控制目标主机服务器开机。本实施例需要在更换的PCIe设备的PCIe Slot成功上电后再开机,进而优选的,本实施例在控制目标主机服务器开机之前还可以包括:判断PCIe Slot是否成功上电;若是,则执行控制目标主机服务器开机的步骤,即步骤S105。若否,则可输出提示信息,本实施例中并不限定提示信息的内容以及输出形式。当然也可以是重新执行步骤S104以便更换的PCIe设备的PCIe Slot成功上电。
基于上述技术方案,本发明实施例提供的故障PCIe设备的更换方法,通过主机服务器的BMC对池化服务器的BMC发送PCIe Slot单独上以及下电指令,池化服务器的BMC在收到指令后与其主板CPLD通信,通过CPLD实现PCIe Slot单独上以及下电控制。即在进行故障PCIe设备更换时无需对整机进行开关机操作,从而避免了因故障设备更换导致的整体业务暂停。其简化服务器运维管理流程,降低运维成本与风险。避免了相关技术中池化服务器内PCIe设备因故障更换时需要整机关机,更换完毕后再整机开机的过程。
下面对本发明实施例提供的故障PCIe设备的更换装置、系统及计算机可读存储介质进行介绍,下文描述的故障PCIe设备的更换装置、系统及计算机可读存储介质与上文描述的故障PCIe设备的更换方法可相互对应参照。
请参考图2,图2为本发明实施例所提供的故障PCIe设备的更换装置的结构框图;该装置可以包括:
目标主机服务器确定模块100,用于当确定故障PCIe设备时,管理服务器通过故障PCIe设备的拓扑信息,确定故障PCIe设备级联的目标主机服务器;
关机模块200,用于控制目标主机服务器关机;
下电模块300,用于向池化服务器的BMC发送故障PCIe设备的PCIe Slot下电指令,以使池化服务器的主板CPLD控制故障PCIe设备的PCIe Slot下电;
上电模块400,用于若故障PCIe设备更换完毕,向池化服务器的BMC发送PCIe Slot上电指令,以使主板CPLD控制对应PCIe Slot上电;
开机模块500,用于控制目标主机服务器开机。
基于上述实施例,该装置还可以包括:
故障PCIe设备确定模块,用于从第一主机服务器获取池化服务器设备的健康状态信息,并根据健康状态信息确定运行状态异常的故障PCIe设备。
基于上述实施例,该装置还可以包括:
判断模块,用于判断PCIe Slot是否成功上电;若是,则触发开机模块。
需要说明的是,基于上述任意实施例,装置可以是基于BMC。该BMC可以是在管理服务器中。
本发明实施例还提供一种故障PCIe设备的更换系统,包括:池化服务器、主机服务器以及管理服务器;其中,管理服务器用于时实现上述任意实施例所述的故障PCIe设备的更换方法的步骤。如管理服务器实现当确定故障PCIe设备时,管理服务器通过故障PCIe设备的拓扑信息,确定故障PCIe设备级联的目标主机服务器;控制目标主机服务器关机;向池化服务器的BMC发送故障PCIe设备的PCIe Slot下电指令,以使池化服务器的主板CPLD控制故障PCIe设备的PCIe Slot下电;若故障PCIe设备更换完毕,向池化服务器的BMC发送PCIeSlot上电指令,以使主板CPLD控制对应PCIe Slot上电;控制目标主机服务器开机。
其中,池化服务器、主机服务器以及管理服务器可以组成PCIe Switch服务器系统,各主机服务器(即Host服务器)通过PCIe互联与池化服务器间的实现计算、存储资源的池化,Host服务器的BMC通过I2C与池化服务器的BMC通信。本实施例中管理服务器通过Host服务器的BMC对池化服务器的BMC发送故障PCIe设备对应的PCIe Slot单独上\下电指令,池化服务器的BMC收到指令后与其主板CPLD通信,通过CPLD实现对应PCIe Slot单独上\下电控制。本实施例适用于全部的PCIe Switch服务器系统,可应用于所有PCIe设备池化服务器,或其它架构相似的服务器。
本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述任意实施例所述的故障PCIe设备的更换方法的步骤。如计算机程序被处理器执行时实现当确定故障PCIe设备时,管理服务器通过故障PCIe设备的拓扑信息,确定故障PCIe设备级联的目标主机服务器;控制目标主机服务器关机;向池化服务器的BMC发送故障PCIe设备的PCIe Slot下电指令,以使池化服务器的主板CPLD控制故障PCIe设备的PCIe Slot下电;若故障PCIe设备更换完毕,向池化服务器的BMC发送PCIe Slot上电指令,以使主板CPLD控制对应PCIe Slot上电;控制目标主机服务器开机。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种故障PCIe设备的更换方法、装置、系统及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (9)

1.一种故障PCIe设备的更换方法,其特征在于,包括:
当确定故障PCIe设备时,管理服务器通过所述故障PCIe设备的拓扑信息,确定所述故障PCIe设备级联的目标主机服务器;
控制所述目标主机服务器关机;
当检测到所述目标主机服务器处于关机状态时,向池化服务器的BMC发送所述故障PCIe设备的PCIe Slot下电指令,以使所述池化服务器的主板CPLD控制所述故障PCIe设备的PCIe Slot下电;
若所述故障PCIe设备更换完毕,向所述池化服务器的BMC发送PCIe Slot上电指令,以使所述主板CPLD控制对应PCIe Slot上电;
控制所述目标主机服务器开机。
2.根据权利要求1所述的故障PCIe设备的更换方法,其特征在于,所述确定故障PCIe设备的方式,包括:
从第一主机服务器获取池化服务器设备的健康状态信息,并根据所述健康状态信息确定运行状态异常的所述故障PCIe设备。
3.根据权利要求1所述的故障PCIe设备的更换方法,其特征在于,所述控制所述目标主机服务器开机之前,还包括:
判断所述PCIe Slot是否成功上电;
若是,则执行所述控制所述目标主机服务器开机的步骤。
4.根据权利要求1所述的故障PCIe设备的更换方法,其特征在于,所述向池化服务器的BMC发送所述故障PCIe设备的PCIe Slot下电指令,包括:
所述管理服务器向第二主机服务器的BMC发送所述故障PCIe设备的PCIe Slot下电指令;
所述第二主机服务器的BMC通过I2C向所述池化服务器的BMC发送所述故障PCIe设备的PCIe Slot下电指令;
所述池化服务器的BMC将所述故障PCIe设备的PCIe Slot下电指令发送给所述主板CPLD。
5.一种故障PCIe设备的更换装置,其特征在于,包括:
目标主机服务器确定模块,用于当确定故障PCIe设备时,管理服务器通过所述故障PCIe设备的拓扑信息,确定所述故障PCIe设备级联的目标主机服务器;
关机模块,用于控制所述目标主机服务器关机;
下电模块,用于当检测到所述目标主机服务器处于关机状态时,向池化服务器的BMC发送所述故障PCIe设备的PCIe Slot下电指令,以使所述池化服务器的主板CPLD控制所述故障PCIe设备的PCIe Slot下电;
上电模块,用于若所述故障PCIe设备更换完毕,向所述池化服务器的BMC发送PCIeSlot上电指令,以使所述主板CPLD控制对应PCIe Slot上电;
开机模块,用于控制所述目标主机服务器开机。
6.根据权利要求5所述的故障PCIe设备的更换装置,其特征在于,还包括:
故障PCIe设备确定模块,用于从第一主机服务器获取池化服务器设备的健康状态信息,并根据所述健康状态信息确定运行状态异常的所述故障PCIe设备。
7.根据权利要求5所述的故障PCIe设备的更换装置,其特征在于,还包括:
判断模块,用于判断所述PCIe Slot是否成功上电;若是,则触发所述开机模块。
8.一种故障PCIe设备的更换系统,其特征在于,包括:池化服务器、主机服务器以及管理服务器;其中,所述管理服务器用于时实现如权利要求1至4任一项所述的故障PCIe设备的更换方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的故障PCIe设备的更换方法的步骤。
CN201910379824.7A 2019-05-08 2019-05-08 一种故障PCIe设备的更换方法、装置及系统 Active CN110109782B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910379824.7A CN110109782B (zh) 2019-05-08 2019-05-08 一种故障PCIe设备的更换方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910379824.7A CN110109782B (zh) 2019-05-08 2019-05-08 一种故障PCIe设备的更换方法、装置及系统

Publications (2)

Publication Number Publication Date
CN110109782A CN110109782A (zh) 2019-08-09
CN110109782B true CN110109782B (zh) 2020-03-20

Family

ID=67488767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910379824.7A Active CN110109782B (zh) 2019-05-08 2019-05-08 一种故障PCIe设备的更换方法、装置及系统

Country Status (1)

Country Link
CN (1) CN110109782B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750464A (zh) * 2019-09-05 2020-02-04 北京浪潮数据技术有限公司 一种计算机节点存储池化方法、装置及系统
CN111241013B (zh) * 2020-01-18 2022-07-19 苏州浪潮智能科技有限公司 一种基于池化实现NVMe设备配置的方法及系统
CN112699073A (zh) * 2021-01-06 2021-04-23 同方计算机有限公司 Bmc系统可控的pcie卡在线更换方法及系统
CN113253813B (zh) * 2021-06-30 2021-10-01 广东天叶互联网有限公司 一种基于互联网的大数据处理用服务器

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407148A (zh) * 2016-10-24 2017-02-15 郑州云海信息技术有限公司 一种pcie设备热拔插设计方法
US10223318B2 (en) * 2017-05-31 2019-03-05 Hewlett Packard Enterprise Development Lp Hot plugging peripheral connected interface express (PCIe) cards
CN107302465B (zh) * 2017-08-18 2021-06-29 郑州云海信息技术有限公司 一种PCIe Switch服务器整机管理方法

Also Published As

Publication number Publication date
CN110109782A (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
CN110109782B (zh) 一种故障PCIe设备的更换方法、装置及系统
CN108038019B (zh) 一种基板管理控制器的故障自动恢复方法及系统
US9588571B2 (en) Dynamic power supply management
CN107122321B (zh) 硬件修复方法、硬件修复系统以及计算机可读取存储装置
CN103201724B (zh) 在高可用性虚拟机环境中提供高可用性应用程序
US10310756B2 (en) Node interconnection apparatus, resource control node, and server system
US10049010B2 (en) Method, computer, and apparatus for migrating memory data
CN106354610B (zh) 伺服器系统及其操作方法
US10585755B2 (en) Electronic apparatus and method for restarting a central processing unit (CPU) in response to detecting an abnormality
US20130111075A1 (en) Switching control device and switching control method
CN111694710A (zh) 基板管理控制器故障监控方法、装置、设备及存储介质
US20040177242A1 (en) Dynamic computer system reset architecture
CN111338698A (zh) 一种bios准确引导服务器启动的方法及系统
GB2412190A (en) A recovery framework
CN113608970A (zh) 核心板,服务器,故障修复方法、装置以及存储介质
CN104572198A (zh) 一种业务恢复方法及装置
CN115098294B (zh) 异常事件的处理方法、电子设备及管理终端
US10572435B2 (en) Techniques of accessing serial console of BMC using host serial port
US11347288B2 (en) Power management in a blade enclosure
CN110287066B (zh) 一种服务器分区迁移方法及相关装置
TWI554876B (zh) 節點置換處理方法與使用其之伺服器系統
CN114116276A (zh) Bmc挂死自恢复方法、系统、终端及存储介质
JP2023544001A (ja) アクセラレータカードのセキュリティモードの静的構成
CN114115703A (zh) 裸金属服务器在线迁移方法以及系统
CN107423113B (zh) 一种管理虚拟设备的方法、带外管理设备及备用虚拟设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant