CN106155970A - 自动硬件恢复方法及自动硬件恢复系统 - Google Patents

自动硬件恢复方法及自动硬件恢复系统 Download PDF

Info

Publication number
CN106155970A
CN106155970A CN201610307717.XA CN201610307717A CN106155970A CN 106155970 A CN106155970 A CN 106155970A CN 201610307717 A CN201610307717 A CN 201610307717A CN 106155970 A CN106155970 A CN 106155970A
Authority
CN
China
Prior art keywords
peripheral assembly
quick peripheral
node
assembly interconnecting
controller
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610307717.XA
Other languages
English (en)
Other versions
CN106155970B (zh
Inventor
施青志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quanta Computer Inc
Original Assignee
Quanta Computer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/708,857 external-priority patent/US9934187B2/en
Priority claimed from US15/071,474 external-priority patent/US9965367B2/en
Application filed by Quanta Computer Inc filed Critical Quanta Computer Inc
Publication of CN106155970A publication Critical patent/CN106155970A/zh
Application granted granted Critical
Publication of CN106155970B publication Critical patent/CN106155970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4063Device-to-bus coupling
    • G06F13/4068Electrical coupling
    • G06F13/4081Live connection to bus, e.g. hot-plugging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2213/00Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F2213/0024Peripheral component interconnect [PCI]

Abstract

自动硬件恢复方法及自动硬件恢复系统。在一些例子中,系统可接收关联一节点的快速外围组件互连装置的装置失效的通知。系统也可接收用以断开快速外围组件互连装置与节点之间的链接的第一请求、及用以将替换快速外围组件互连装置于断开链接后与此节点连接的第二请求。此系统可以接着重配置快速外围组件互连切换结构以断开快速外围组件互连装置与节点之间的链接,并将替换快速外围组件互连装置与此节点连接。

Description

自动硬件恢复方法及自动硬件恢复系统
技术领域
本发明涉及硬件恢复,具体而言,涉及自动硬件恢复系统。
背景技术
计算机的效能及处理能力于近数十年来有巨大且稳定的成长。不足为奇地,计算系统,譬如服务器,已越来越复杂,其通常配备越来越多的数量及类型的组件,譬如处理器、存储器和附加卡。大部分专家同意此趋势将持续至未来。
然而,随着硬件组件的数量及复杂度成长,计算系统越来越易于遭受装置失效。确实,装置失效是系统管理员所面对的普遍常见的问题,尤其是在较大、较复杂的环境及架构中,譬如数据中心及解集架构(例如Rack ScaleArchitecture等)。不幸的是,装置失效可以是非常具有破坏性的。例如,长时间的装置失效可破坏计算或网络服务,且有时候甚至会导致数据遗失。
为了改正装置的失效,系统管理员通常必须执行手动的硬件恢复过程。此硬件恢复过程可包括关闭系统或服务的电源以替换失效的系统组件。整体恢复过程可以是无效率的,且可能导致对使用者意义重大的服务上的破坏。此外,仰赖于使用者输入来完成恢复过程上的某些步骤会进一步延迟系统的恢复并致使对使用者来说更大的破坏。
发明内容
本揭示文件的附加特征及优点将阐述于随后的说明内容中,且部分于说明内容将是明显的、或可藉由在此公开的原理的实行所习得。本揭示文件的附加特征及优点可藉由附加的权利要求中特别指出的手段或组合来理解和取得。本揭示文件的附加特征及其他特征将自随后的说明内容及附加的权利要求中更加完全显现、或可由此处阐述的原理的实行所习得。
此处阐述的方法可以用以执行自动系统恢复。例如,此处阐述的方法可以在多种环境及架构中执行自动系统硬件恢复,包括解集的架构。自动系统恢复可限制或除去使用者手动输入的需求且可大大减少使用者所经历的例如硬件失效造成的任何破坏。此外,自动系统恢复可实施于支持快速外围组件互连(PCIe)热插拔、通用串行总线(USB)热插拔的架构、以及不支持热插拔程序的架构。
本揭示文件公开用于自动硬件恢复的系统、方法、及非暂时性计算机可读存储介质。在一些配置中,系统可接收关联一节点的装置的装置失效的通知,此装置譬如为快速外围组件互连或任何类型的具有热插拔能力的装置。装置失效可以是装置的硬件和/或软件失效。此外,此装置包括任何组件或扩展卡,譬如网络接口卡(NIC)、存储装置(例如固态硬盘)、图形处理单元(GPU)等。
接着,系统可接收用以断开装置(例如PCIe装置)与节点之间的链接的第一请求、及用以将替换装置(例如PCIe替换装置)于断开链接后与此节点连接的第二请求。基于第一及第二请求,系统可接着重配置装置切换结构(例如PCIe switch fabric)以断开此装置与此节点之间的链接,并将替换装置与此节点连接。
附图说明
为了描述使上文记述和本揭示文件的其他优点及特征能被了解的方式,在上文简短描述的原理的更详细描述将藉由此处绘示于附加图示的具体实施例的参考来提供。应理解图式仅描绘本发明的示范实施例,并不用以限制发明范围,本文原理通过随附的图式的使用,以附加特性及细节来描述及解释:
图1A~图1B绘示示例系统实施例;
图2A绘示示例快速外围组件互连系统支持热插拔操作的方块图;
图2B绘示在快速外围组件互连系统中不藉由使用者输入的热插拔操作的示例过程的方块图;
图2C绘示在快速外围组件互连系统中不藉由使用者输入或控制器的热插拔操作的示例过程的方块图;
图3A绘示自动硬件恢复的示例架构的示意图;
图3B绘示在示例架构中用于自动恢复的热插拔机制的示意方块图;
图3C绘示在示例架构中用于自动恢复的热调换机制的示意方块图;
图4绘示用以执行自动恢复程序的示例方法;
图5绘示用以执行热新增程序的示例方法;以及
图6绘示用以执行热移除程序的示例方法。
【符号说明】
100、150、200、312、314、316、318:系统
102:总线
104:存储器
106:只读存储器
108:随机存取存储器
110、138:控制器
112:存储装置
114~118:模块
120:输入装置
122:输出装置
124:通信接口
126:传感器
128:快取
130:处理器
132:快闪存储器
134、162:固件
136:显示器
152:芯片组、硬件组件
154:桥接器
156:接口组件
158:通信接口
160:处理器、硬件组件
164:输出装置、硬件组件
166:存储装置
168:存储器、存储装置、硬件组件
202:控制器
204:根端口
206:电源控制模块
208:金属氧化物半导体场效晶体管
210:扩展槽
212:按钮
214:保留闩
216、218:指示灯
220、222、226、230、232、234、254、
256、266:信号
224、258:电源故障状况
228:输入
250、270:过程
252:硬件组成管理器
260:注意按压按钮输入(说明书无)
262:手动操作保留闩(说明书无)
264:保留指示灯(说明书无)
300:架构
302:切换结构
304:结构控制器
306:硬件监控系统
310:网络装置
322:基本输入/输出系统、BIOS
324:操作系统、OS
326:装置集区
328:装置
330:链接
400、500、600:方法
402、404、406、502、504、506、508、510、512、602、604、606、608、610、612:步骤
具体实施方式
本揭示文件的各种实施例于下文作详细地讨论。当讨论特定的实施方式时,应理解其仅用于说明的目的。本领域技术人员将了解到其他组件及配置可在不背离本发明的精神及范围的情况下被使用。
本揭示文件公开用于自动硬件恢复的系统、方法、及非暂时性计算机可读存储介质。用于自动硬件恢复的示例系统及配置的简短介绍描述首先于此公开。包括例子及变化例的自动硬件恢复的详细描述将随后提出。应作为不同实施例来描述的此等变化例被阐述。请参阅图1A和图1B。
图1A和图1B绘示示例系统实施例。当实行本发明技术时,更多适当的实施例对于本领域技术人员是易见的。本领域技术人员将易于理解到其他系统实施例是可行的。
图1A绘示系统总线计算系统架构(系统100),其中系统的组件使用总线102与彼此电性通信。示例系统100包括处理器130(CPU或处理器)及将各个系统组件耦接至处理器130的系统总线102,此等系统组件包括系统存储器104,譬如只读存储器106(ROM)及随机存取存储器108(RAM)。系统100可包括高速存储器的快取,此高速存储器直接与处理器130连接、或位于处理器130的近处、或整合作为处理器130的部分。系统100可自存储器104和/或存储装置112复制数据至快取128以供处理器130来快速存取。在此方式中,快取可提供性能提升以避免处理器130在等待数据时延迟。此些或其他模块可控制或被配置来控制处理器130来执行不同操作。其他系统存储器104同样可供使用。存储器104可包括多个不同类型的具有不同性能特性的存储器。处理器130可包括任何一般目的处理器及配置以控制处理器130和特殊目的处理器的硬件模块或软件模块,譬如存储装置112中的模块一114、模块二116、和模块三118,其中软件指令整合至实际处理器设计中。处理器130实质上可为完全自足式计算系统,包含多个内核或处理器、总线、存储器控制器、快取等。多内核处理器可为对称或非对称。
为了致使与系统100的使用者互动,输入装置120可代表任何数量的输入机制,譬如用于发言之麦克风、用于手势或图形输入的触摸感应屏幕、键盘、鼠标、动作输入、发言等。输出装置122也可为本领域技术人员所知悉的一数量的输出机制的一或多个。在一些例子中,多模系统可使一使用者提供多个类型的输入来与系统100通信。通信接口124一般可支配及管理使用者输入和系统输出。本文公开技术在操作于任何特定硬件配置上是没有限制的,因此基本特征可被容易地置换以供开发出的改良式硬件或固件配置。
存储装置112是非依电性存储器且可为硬盘或其他类型的可存储可被计算机存取的数据的计算机可读介质,譬如磁性卡带、快闪存储卡、固态存储器装置、数字通用磁碟、卡匣、随机存取存储器108(RAM)、只读存储器106(ROM)、及其等的混合。
存储装置112可包括软件模块114、116、118以控制处理器130。其他硬件或软件模块是可考虑的。存储装置112可被连接至系统总线102。在一方面,执行特定功能的硬件模块可包括存储于计算机可读介质的软件组件以实现功能,此计算机可读介质与必要硬件组件连接,譬如处理器130、总线102、显示器136等。
控制器110可为系统100上的特定微控制器或处理器,譬如BMC(基板管理控制器)。在一些情况中,控制器110可为智慧平台管理接口(IPMI)的部分。此外,在一些情况中,控制器110可内嵌在主机板或系统100的主要电路板上。控制器110可管理系统管理软件及平台硬件之间的接口。控制器110也可与各种系统装置及组件(内部和/或外部)进行通信,譬如控制器或外围组件,此将在下文作进一步描述。
控制器110可对于通知、警示、和/或事件产生特定回应并与远程装置或组件(例如电子邮件讯息、网络讯息等)进行通信、及产生用于自动硬件恢复程序的指令或命令等。管理者也可与控制器110进行远程通信以初始或进行特定硬件恢复程序或操作,此将在下文作进一步描述。
在系统100上的不同类型的传感器(例如传感器126)可向控制器110报告譬如冷却风扇转速、电力状态、操作系统(OS)状态、硬件状态等参数。控制器110也可包括系统事件日志控制器和/或存储器以管理和维护控制器110接收的事件、警示、及通知。例如,控制器110或系统事件日志控制器可接收来自一或多个装置及组件的警示或通知,并维护此等警示或通知于系统事件日志存储组件中。
快闪存储器132可以是可被系统100使用来存储和/或数据传输的电子非依电性计算机存储介质或芯片。快闪存储器132可被电气抹除和/或重新编程。快闪存储器132可包括例如抹除式可编程只读存储器(EPROM)、电可抹除可编程只读存储器(EEPROM)、ROM、NVRAM或互补式金属氧化物半导体(CMOS)。快闪存储器132可存储当系统100第一次通电时由系统100执行的固件134、及一组指定用于固件134的配置。快闪存储器132也可存储由固件134使用的配置。
固件134可包括基本输入/输出系统或其取代物或等效物,譬如可延伸固件接口(EFI)或统一可延伸固件接口(UEFI)。固件134可在系统100每次被启动时被载入及执行作为次序程序。固件134可基于此配置置来识别、启始及检测存在于系统100中的硬件。固件134可在系统100上执行自我检测,譬如开机自我检测(POST)。此自我检测可检测譬如硬件驱动器、光学读取装置、冷却装置、存储器模块、扩展卡等各种硬件组件的功能。固件134可定址及分配存储器104、只读存储器106、随机存取存储器108和/或存储装置112中的区域以存储操作系统(OS)。固件134可载入启动载入器和/或OS,并将系统100的控制提供给OS。
系统100的固件134可包括定义固件134如何控制系统100中各种硬件组件的固件配置。固件配置可决定系统100中各种硬件组件的启动顺序。固件134可提供譬如UEFI的可允许不同于固件预设配置中参数的多种不同参数设定的接口。举例来说,一使用者(例如管理者)可使用固件134来指定周期及总线速率、定义何种外围设备附接于系统100、设定状态监测(例如风扇速率及CPU温度限制)、和/或提供影响系统100的整体效能及电力使用的多种其他参数。
当固件134以存储于快闪存储器132中来说明时,本领域技术人员将容易了解到固件134可存储于其他存储器组件中,譬若诸如存储器104或只读存储器106。然而,用于解释的目的,固件134以存储于快闪存储器132中作为一非限制例子来说明。
系统100可包括一或多个传感器126。此一或多个传感器126可包括例如一或多个温度传感器、热感测器(thermal sensor)、氧气传感器、化学传感器、噪声传感器、热传感器(heat sensor)、电流传感器、电压传感器、气流传感器、流动传感器、红外线传感器、热流传感器、温度计、高温计等。此一或多个传感器126可例如与处理器、快取128、快闪存储器132、通信接口124、存储器104、只读存储器106、随机存取存储器108、控制器110及存储装置112通过总线102来通信。此一或多个传感器126也可与系统中譬如内部整合电路(I2C)、通用型输出(GPO)等其他组件通过一或多个不同装置来通信。
图1B绘示具有芯片组架构的计算机系统150的例子,此芯片组架构可用以执行所描述的方法或操作、及产生和显示图形使用者接口(GUI)。计算机系统150可包括可用来实行公开技术的计算机硬件、软件及固件。计算机系统150可包括处理器160、任何数量的能够执行软件和固件的物理上和/或逻辑上不同的资源的表示体、以及配置来执行识别的计算的硬件。处理器160可与能控制至处理器160的输入和自处理器160的输出的芯片组152通信。在此例中,芯片组152输出信息至譬如显示器的输出装置164,并可读取及写入信息至例如可包括磁性介质的存储装置166、及固态介质。芯片组152也可读取来自随机存取存储器168的数据及写入数据至随机存取存储器168。用以与多种使用者接口组件156介接的桥接器154可被提供来介接芯片组152。此种使用者接口组件156可包括键盘、麦克风、触摸检测及处理电路、譬如鼠标的指向装置等。一般而言,至计算机系统150的输入可来自多种资源、机器生成和/或人为生成的任何一个。
芯片组152也可与一或多个可具有不同物理接口的通信接口158介接。此种通信接口可包括用于有线及无线局域网络、宽带无线网络、以及个人局域网络的接口。在此公开之用以产生、显示及使用GUI的方法的一些应用可包括藉由处理器160分析存储于存储装置166或168的数据来通过物理接口接收有序数据组或接收由机器本身产生的有序数据组。更进一步地,此机器可接收来自一使用者通过使用者接口组件156的输入并执行适当的功能,譬如藉由使用处理器160解释此等输入来浏览功能。
此外,芯片组152也可与固件162通信,固件162可在电源开启时被计算机系统150执行。固件162可基于一组固件配置来识别、启始及检测存在于计算机系统150中的硬件。固件162可在计算机系统150上执行自我检测,譬如POST。此自我检测可检测各种硬件组件152~168的功能。固件162可定址及分配存储器168中的区域以存储OS。固件162可载入启动载入器和/或OS,并将计算机系统150的控制提供给OS。在一些情况中,固件162可与硬件组件152~160及164~168进行通信。于此,固件162可通过芯片组152和/或一或多个组件来与硬件组件152~160及164~168进行通信。在一些情况中,固件162可直接与硬件组件152~160及164~168进行通信。
可理解的是示例系统100和150可具有多于一个处理器(例如130、160)或为一群组的部分或计算装置的丛集互联在一起以提供更大的处理能力。
为使解释更清晰。在一些例子中本揭示技术可呈现为包括含有功能区块的独立功能区块,功能区块包括在软件或是硬件和软件组合中实施的方法的装置、装置组件、步骤或常规。
在一些实施例中,计算机可读存储装置、介质、及存储器可包括含有一位串流的有线或无线信号等。然而,当提及时,非依电性计算机可读存储介质明确地排除譬如能量、载波信号、电磁波及信号本身的介质。
根据上述例子的方法可实施为使用存储于计算机可读介质或可自计算机可读介质取得的计算机可执行指令。此等指令可包括例如致使或配置通用目的计算机、特殊目的计算机或特殊目的处理装置执行特定的一功能或一组功能的指令或数据。使用的计算机资源的部分可通过网络存取。计算机可执行指令可例如为二进位、譬如组合语言之中间格式指令、固件或资源代码。可使用来存储指令、使用的信息、和/或在根据所描述例子的方法期间产生的信息的计算机可读介质的例子包括磁性或光学硬盘、快闪存储器、具有非依电性存储器的USB装置、连网存储装置等。
根据此等揭示内容以实施方法的装置可包含硬件、固件和/或软件,且可采取任何不同的形式因子。此等形式因子的典型例子包括膝上型计算机、智能手机、小尺寸个人计算机、个人数字助理、机架式装置、独立式装置等。在此描述的功能也可体现于外围或外接卡。此种功能也可藉由下文进一步的例子来实施在不同芯片或执行于单一装置的不同过程之中的电路板上。
此等指令、用以传送此等指令的介质、用以执行前述的计算资源、及其他用以支持此等计算资源的结构皆用以提供于此描述的功能的手段。
图2A绘示支持热插拔操作的一示例快速外围组件互连(PCIe)系统200的方块图。系统200可支持热增加及热移除操作。系统200可包括对于系统200的用以增加及移除PCIe装置的扩展槽210。系统200可于扩展槽210上的装置被安装或移除时触发热新增或热移除操作,此将在下文描述。
热新增操作
系统200可支持热新增操作,如下文所示。当PCIe装置被插入扩展槽210时,一存在检测信号226可被扩展槽210发送至控制器202来指示此PCIe装置已被插入至扩展槽210。控制器202可例如为PCIe热插拔控制器或输入/输出扩展器(例如I2C切换器或扩展器)。控制器202可例如通过一总线或譬如SMBus(系统管理总线)或I2C总线的通信通道来介接一或多个处理器、芯片组、外围设备及组件。在一些配置中,控制器202可为一复杂可编程逻辑装置(CPLD)、现场可编程门阵列(FPGA)、电可抹除可编程只读存储器(EEPROM)切换器、或任何I/O切换器或扩展器。控制器202可传送控制信号220至PCIe切换器或根端口204以管理热新增及热移除操作。PCIe切换器或根端口204可包括一或多个热插拔暂存器、逻辑、和/或组件以控制、管理、和/或处理热插拔信号(例如PCIe热插拔信号)。
在安装PCIe装置时的手动操作的保留闩214的关闭可触发手动操作保留闩信号230被传送至控制器202。
此外,系统200可包括可被用来触发热新增操作的注意按钮212。当注意按钮212被启动,注意按钮按压输入228可被传送至控制器202。
控制器202可传送电源指示信号234以启动电源指示灯218(例如电源LED)。电源指示灯218在被启动时可指示系统200处于过渡状态。举例来说,电源指示灯218在启动时可闪烁以指示过渡状态。
控制器202可接着传送电源信号222至电源控制模块206以供电给扩展槽210。金属氧化物半导体场效晶体管208可被使用来切换或放大电源信号222。
热插拔驱动可致使关联于扩展槽210的总线的重新记数。系统200可检测插入至扩展槽210的PCIe装置、配置此装置、及载入任何关联于此装置的驱动。
电源故障状况224或手动操作保留闩214的开启可转换扩展槽210上的PCIe装置至失能状态。控制器202可发送注意指示信号232以启动注意指示灯216(指示LED)来指出操作上的问题。
热移除操作
当操作上的问题发生时,系统200可执行如下文描述的热移除。热移除操作可藉由启动注意按压按钮212而被请求或触发。控制器202可接着传递此请求至热插拔驱动。电源指示灯218可启动来指示过渡状态。扩展槽210中的PCIe装置可被离线或断连。举例来说,系统200的操作系统(OS)可断连PCIe装置。
扩展槽210可接着被断电。电源指示灯218也可被断电以指示物理上移除PCIe装置是安全的。
使用者可开启手动操作保留闩214来移除PCIe装置。至扩展槽210的切换信号可被断电。使用者可接着移除PCIe装置,而存在检测信号226可被传送至控制器202以指示扩展槽210目前是无载的。
图2B绘示快速外围组件互连(PCIe)系统200中无使用者输入的热插拔操作的示例过程250的方块图。在过程250中,控制器138可接收来自硬件组成管理器252的指示PCIe装置已被插入扩展槽210的请求。控制器138可为微控制器或处理器,譬若诸如BMC。硬件组成管理器252可为网络和/或数据中心之中的模块或装置,此数据中心维护网络和/或数据中心之中各种组成物理机器的信息。
当控制器138接收来自硬件组成管理器252的请求时,其可接着模拟指示扩展槽中PCIe装置存在的存在检测信号254。控制器138也可模拟手动操作保留闩214的关闭。此外,控制器138可接收来自控制器202的电源信号256以供电扩展槽210。
控制器138可接着藉由发送注意按压按钮输入228至控制器202以启始热新增操作。控制器138也可检测指示OS载入用于PCIe装置的驱动的过渡状态的电源指示信号266。热插拔驱动可致使扩展槽210的总线的重新记数。系统200可接着检测及发现增加的PCIe装置、配置此PCIe装置、及载入其的驱动。
电源故障状况258或手动操作保留闩214的开启可转换扩展槽210上的PCIe装置至失能状态。控制器202可发送保留指示信号264来指示操作上的问题给控制器138。控制器138可检测操作上的问题及启始热移除操作。
对于热移除操作,控制器138可接收来自硬件组成管理者252的对于PCIe装置的热移除的请求。控制器138可模拟注意按压按钮输入228及传递此输入228至控制器202。控制器202可传递此请求至热插拔驱动。控制器138可检测指示过渡状态的电源指示信号266。
OS可将PCIe装置从系统200移除或断连。控制器202也可断电该扩展槽210。控制器138可通知硬件组成管理器252热移除过程已成功完成。
图2C绘示快速外围组件互连(PCIe)系统200中无使用者输入或控制器的热插拔操作的示例过程270的方块图。控制器138可接收来自硬件组成管理器252的请求以执行热新增或热移除。控制器138可接着处理来自硬件组成管理器252的请求、如上述图2B所描述的模拟控制器202的行为、以及置换使用者输入来执行热插拔程序。
图3A绘示自动硬件恢复的示例架构300的示意图。架构300可包括系统312~318。系统312~318可为服务器、主机、或任何计算装置,譬如绘示于图1A的系统100。此外,系统312~318可存在于网络中的数据中心里。此网络可为譬如局域网络(LAN)的私人网络、譬如互联网的公用网络、分散式网络、譬如包括私人网络和公用网络的网络的并合网络等。
系统312~318可包括个别操作系统(OS)324、譬如基本输入/输出系统(BIOS)322的个别固件、及个别控制器138。操作系统324、基本输入/输出系统322、及控制器138可提供系统312~318的硬件及软件计算环境,且可管理及整合硬件组件与在个别系统312~318上运行的软件。此外,操作系统324、基本输入/输出系统322及控制器138可执行各种功能、操作、和/或自动硬件恢复的任务。
举例来说,基本输入/输出系统322可检测硬件错误及通知控制器138,控制器138可接着转送此等错误至硬件监控系统306。同样地,控制器138可检测系统312~318上的硬件错误并发送此等所检测的错误的指示或日志至硬件监控系统306,硬件监控系统306将在下文进一步描述。控制器138也可作为代理来自基本输入/输出系统322和/或操作系统324发送错误至硬件监控系统306。此外,控制器138可提供硬件控制机制来置换人为输入以进行热插拔程序。
操作系统324也可检测硬件错误及通知控制器138,控制器138可接着转送此等错误至硬件监控系统306。举例来说,若操作系统324具有可用的对于硬件监控系统306的通信路径以递送错误通知讯息至硬件监控系统306,操作系统324也可检测硬件错误及发送此等硬件错误至硬件监控系统306而不必要使用控制器138作为代理来转送至硬件监控系统306。
架构300可包括解集架构。为此,架构300可包括装置集区326,其可包括各种用以与系统312~318通信地耦合的装置328。装置集区326中的装置328可包括任何外围设备、输入/输出、和/或扩展装置或组件,譬如PCIe装置。举例来说,装置328可包括网络接口组件、固态硬盘(SSD)、图形处理单元、扩展卡等。
装置集区326中的装置328的一或多个可与系统312~318通信地耦合。举例来说,系统312可与装置1通信地耦合、系统314可与装置2通信地耦合、系统316可与装置3通信地耦合、系统318可与装置4通信地耦合。此外,装置集区326可包括一或多个额外设备,其等可能不与系统312~318的任何一个通信地耦合。举例来说,装置集区326可包括装置5~8,装置5~8不与系统312~318的任何一个通信地耦合。
若有必要的话,装置328中不与系统312~318的任何一个通信地耦合的装置(例如装置5~8)于装置集区326中是可用于与任何系统312~318通信地耦合的。举例来说,装置5~8于装置集区326中可用于通过自动恢复和/或自动增加操作来与系统312~318耦接,此将在下文进一步描述。额外装置(例如装置5~8)可因此提供冗余、故障安全、可扩展性、发展、升级等选项,此将在下文进一步解释。
装置328可与系统312~318通过切换结构302通信地耦接。切换结构302可为总线结构,譬如PCIe结构。此外,切换结构302可提供系统312~318与装置集区326中装置328之间总线通信的路由和/或切换。因此,切换结构302可提供多主机通信及I/O分享能力。
系统312~318与装置集区326中装置328之间的通信可通过切换结构302藉由总线链接330来进行路由。更进一步地,切换结构302中的路由可由结构控制器304来配置。结构控制器304可提供逻辑、指令、和/或配置以供通过切换结构302来连接装置328至系统312~318的路由通信。
系统312~318与结构控制器304可与硬件组成管理器252及硬件监控系统306通过网络装置310(例如切换器或路由器)来通信。硬件组成管理器252可为系统312~318以及一或多个特定数据中心和/或网络中的任何其他装置或系统来维护信息及数据,譬如硬件及配置细节。举例来说,硬件组成管理器252可维护指示出装置328中哪个与系统312~318中哪个通信耦接的数据。硬件组成管理器252也可维护指示出装置集区326中装置328的哪个是可与系统312~318通信耦接的数据。
此外,硬件组成管理器252可存储安装、移除和/或恢复事件及程序。举例来说,硬件组成管理器252可维护关于任何装置被增加或自系统312~318移除、系统312~318经历的任何硬件错误、由系统312~318执行的任何恢复程序、系统312~318和/或装置328经历的任何硬件状况、关联系统312~318及装置328的硬件状态信息、执行统计、配置数据、链接或路由信息等信息及统计。
硬件监控系统306可在搜集架构300中硬件错误事件。举例来说,硬件监控系统306可搜集数据中心中的硬件错误或故障事件。硬件监控系统306也可存储和/或实施一或多个预定策略以供执行错误恢复。举例来说,硬件监控系统306可实施预定策略以在系统中心或网络中当系统上(例如系统312、系统314等)有错误或故障被检测到时执行自动错误恢复。错误恢复策略可以是基于关联错误或故障的系统和/或装置的状态、架构和/或配置;切换结构302的拓朴和/或状态;关联网络或数据中心的配置、状态和/或拓朴;架构300的配置或状态;软件环境或设定(例如OS、BIOS、BMC等);错误或故障的类型;总线或I/O标准(例如PCIe);任何错误恢复偏好或要求等。其他错误恢复策略的非限制例子将在下文作进一步描述。
图3A中装置集区326仅显示八个装置,然而更多或较少的装置及装置类型仍在本文被考虑。确实,在本领域技术人员将容易察觉到在各种实施例或实施方式中,装置集区326中装置328可包括不同数量及类型的装置。而图3A中的八个装置为提供来作为清楚解释用途的非限制例子。
此外,显示在图3A中的架构300中元件的数量及类型为提供来作为清楚解释用途的非限制例子。确实,在本领域技术人员将容易察觉到,架构300可包括更多或较少系统、切换器、硬件组成管理器、硬件监控系统、切换结构、结构控制器、数据中心、装置集区、及其他元件。此外,架构300可包括不同于图3A所示的元件,譬如不同切换器、管理系统、切换结构、结构控制器、数据中心、装置集区、拓朴、配置、通信链接、通信及装置类型或标准等。
图3B绘示在示例架构300中用于自动恢复的热插拔机制的示意方块图。在此例中,恢复可于装置1的故障(1)之后被执行,装置1与系统312通信耦接。系统312可经由控制器138、BIOS 322或OS 324来检测(2)装置1的故障。控制器138或OS 324可接着发送错误日志(3)至硬件监控系统306。
硬件监控系统306可接着发送恢复请求(4)至硬件组成管理器252。恢复请求可要求硬件组成管理器252执行硬件恢复程序以解决装置1的故障。
硬件组成管理器252可接着发送一请求至控制器138以执行热插拔移除程序(5)。控制器138可接着发送指示装置1将被移除的一通知(6)至OS 324。此通知可通过控制热插拔信号而被传送,譬如控制标准PCIe热插拔信号。OS 324可接着发送装置移除成功信号至控制器138。装置移除成功信号可经由热插拔信号(例如PCIe热插拔信号)而被传送。在接收到装置移除成功信号后,控制器138可发送通知给硬件组成管理器252。
硬件组成管理器252可接着发送断接/连接请求(8)至结构控制器304。此断接/连接请求可包括第一请求以断开系统312与装置1间的链接330、及第二请求以将装置5连接至系统312。
结构控制器304可重组(9)切换结构302以断开装置1与系统312间的链接330,并通过链接330将装置5连接至系统312。
切换结构302可通知硬件组成管理器252,装置5已被分配给系统312。硬件组成管理器252可发送插入请求(11)给控制器138。此插入请求可为执行譬如PCIe热插拔插入程序的热插拔装置插入程序的请求。
控制器138可接着发送插入通知(12)给OS 324,指出装置5已被插入或加入。控制器138可例如经由控制PCIe热插拔信号来发送插入通知给OS 324。
装置5可接着连接(13)至系统312。装置5可经由链接330来连接至系统312。链接330可为总线通信链接,譬如PCIe总线链接。
控制器138可发送通知(14)给硬件组成管理器252,指示装置插入成功。控制器138可通过例如PCIe热插拔信号在自OS 324接收装置成功插入信号后发送此通知。
硬件组成管理器252可接着发送成功通知(15)给硬件监控系统306。此成功通知可指出自动硬件恢复是成功的。
图3C绘示在示例架构300中用于自动恢复的热调换机制的示意方块图。自动恢复可在装置1的故障(1)之后被执行,装置1与系统312通信耦接。系统312可经由控制器138、BIOS 322或OS 324来检测(2)装置1的故障。控制器138或OS 324可接着发送错误日志(3)至硬件监控系统306。
硬件监控系统306可接着发送恢复请求(4)至硬件组成管理器252。恢复请求可要求硬件组成管理器252执行硬件恢复程序以解决装置1的故障。
硬件组成管理器252可接着发送断接/连接请求(5)至结构控制器304。此断接/连接请求可包括第一请求以断开系统312与装置1间的链接330、及第二请求以将装置5连接至系统312。
结构控制器304可重组(6)切换结构302以断开装置1与系统312间的链接330,并通过链接330将装置5连接至系统312。
装置5可接着连接(7)至系统312。装置5可经由链接330来连接至系统312。链接330可为总线通信链接,譬如PCIe总线链接。结构控制器304可发送通知(8)至硬件处组成管理器252,指示装置5已被分配给系统312。
硬件处组成管理器252可接着发送成功通知(9)给硬件监控系统306。成功通知可指示自动硬件恢复是成功的。
上文已公开一些基本系统组件及概念,本揭示文件将转向第4~6图所示的示例方法实施例。为了清楚起见,方法将以第3A~3C图所示的配置来实现各种步骤的结构控制器304、系统312、控制器138、OS 324、硬件组成管理器252、及硬件监控系统306来描述。在本文概述的步骤为示例性的且可实施于任何步骤组合,包括排除、增加或调整某些步骤的组合。
图4绘示用以执行自动恢复程序的示例方法400。在步骤402,结构控制器304可响应关联于一节点(例如系统312)的快速外围组件互连(PCIe)装置的故障被检测,接收第一请求以断开快速外围组件互连装置与节点间的链接。此请求可要求热插拔移除或恢复程序,如前文所述。
结构控制器304可自硬件组成管理器252接收此第一请求。硬件组成管理器252可基于一指令来产生此第一请求来执行热插拔装置移除程序,此指令可由硬件组成管理器252自控制器138接收。
此外,快速外围组件互连装置的故障可由系统312经由控制器138、BIOS322或OS 324来检测。装置故障的检测可触发移除程序。举例来说,装置故障可触发控制器138来发送错误日志给硬件监控系统306,响应此错误日志的发送,硬件监控系统306可触发一请求至硬件组成管理器252来执行自动恢复程序。
在步骤404,结构控制器可接收第二请求以将替换快速外围组件互连装置(例如绘示于图3A的装置5~8的任何一个)与节点(例如系统312)连接。此第二请求可为针对热插拔装置插入或恢复程序,如前文所述。
在步骤406,结构控制器可重组快速外围组件互连切换结构(例如切换结构302)以:断开快速外围组件互连装置(例如装置1)与节点(例如系统312)间的链接,并将替换快速外围组件互连装置(例如绘示于图3A的装置5~8的任何一个)与此节点连接。
替换快速外围组件互连装置可接着连接至此节点。此节点可接着如预期地使用该替换快速外围组件互连装置。若替换快速外围组件互连装置的故障被检测,另一自动恢复程序可被实行以再次替换此替换快速外围组件互连装置。
图5绘示用以执行热新增程序的示例方法500。在步骤502,控制器138可接收装置已被增加至扩展槽的通知。控制器138可例如自硬件组成管理器252接收此通知。
在步骤504,控制器138可模拟指示扩展槽中装置存在的存在检测事件。
在步骤506,控制器138可模拟手动操作保留闩(例如MRL 214)的关闭。
在步骤508,控制器138可基于注意按钮信号(例如注意按压按钮输入228)来启动热新增。控制器138也可检测指示OS驱动载入的过渡态的电力链路转换。
在步骤510,热插拔驱动可致使关联于扩展槽(例如插槽总线)的总线的重新列举。在步骤512,装置被重组且关联的驱动被载入。举例来说,系统312可检测或找出被热新增的装置,并配置此装置及载入关联的驱动。
后续电力故障状况或手动操作的保留闩的开启可转换装置至失能状态。热插拔软件可致动注意LED(发光二极管)信号(例如使LED信号闪烁或发光)以指示控制器138可检测的操作问题。
装置的失能状态可触发热移除程序。图6绘示用以执行热移除程序的示例方法600。
在步骤602,控制器138可接收针对一装置的热移除的请求。使请求可例如由控制器138自硬件组成管理器252接收。在步骤604,控制器138可模拟注意按钮输入(例如绘示于图2A中的228)。注意按钮输入可触发热移除。此外,注意按钮输入可与欲被移除的特定装置和/或对应的扩展槽相关联。
在步骤606,热插拔控制器(例如控制器302)可递送请求至热插拔驱动。在步骤608,控制器138可检测指示过渡态的电力链路转换。OS 324可接着藉由例如移除或断开装置来使欲被移除的装置断线。
在步骤610,关联于此装置的扩展槽可被断电。在扩展槽被断电后,控制器138也可关闭电力链路信号来指示自扩展槽移除此装置是安全的。此时,装置可以自扩展槽被移除。
在步骤612,控制器138可通知硬件组成管理器252,热移除程序已完成。控制器138也可解除判定存在检测信号以指示扩展槽是空的。
为使解释清晰,本揭示技术以关于快速外围组件互连装置来描述。然而,关于上文描述例子的方法及概念可被实施于其他类型装置的硬件恢复。确实,本文描述的概念可被实施于任何支持热插拔或热交换的装置的包括热新增及热移除的硬件恢复,支持热插拔或热交换的装置例如为通用串行总线(USB)装置。再次地,快速外围组件互连装置在本文作为非限制例子使用以供清楚解释用途。
为使解释清晰,在某些情况下,本揭示技术可呈现为以实施于软件、或硬件与软件的组合的方法来包括含有装置、装置组件、步骤或常规的功能区块的独立功能区块。
在一些实施例中,计算机可读存储装置、介质及存储器可包括含有一位流等的有线或无线信号。然而,当提及时,非依电性计算机可读存储介质明确地排除譬如能源、载波信号、电磁波及信号本身的介质。
根据上文描述例子的方法可实施以使用存储于计算机可读介质或可自计算机可读介质取得的计算机可执行指令。此等指令可包含例如可致使或配置通用目的计算机的指令及数据、特殊用途计算机、或特殊用途执行装置以执行某一功能或某组功能。使用的计算机资源的部分可通过网络存取。此等计算机可执行指令可例如为二进制、譬如组合语言之中间格式指令、固件、或资源代码。可使用来存储指令、使用的信息、和/或在根据所描述例子的方法期间产生的信息的计算机可读介质的例子包括磁性或光学盘碟、快闪存储器、具有非依电性存储器的USB装置、连网的存储装置等。
实施根据本揭示内容的方法的装置可包含硬件、固件和/或软件,且可采取各种形式因子的任何一个。此等形式因子的典型例子包括膝上型计算机、智能手机、小型个人计算机、个人数字助理等。此处描述的功能也可实施于外围设备或外接卡。此等功能也可藉由进一步的例子来实施在不同芯片或执行于单一装置的不同进程的电路板上。
此等指令、用以转送此等指令的介质、用以执行此等指令的计算资源、及其他用以支持此等计算资源的结构为用以提供于本文公开内容所描述的功能的手段。
尽管各种例子及其他信息使用来解释权利要求范围内的方面,权利要求不应基于例子中的特定特征或配置而受限,因为本领域技术人员将能够使用这些例子来推导出各式各样的实施方式。更进一步来说,尽管标的内容可能以特定结构特征和/或方法步骤的例子的文字描述,应理解附加权利要求中定义的标的内容并不必要受限于此等描述的特征或行为。举例来说,此种功能可以以不同方式分配或执行于本文提出的组件以外的组件。更确切地说,所描述特征及步骤描述作为附加权利要求范围中系统及方法的组件的例子。
权利要求用语界定一组中“至少一个”是指示此组或此组中多个部件的一个满足此权利要求。有形的计算机可读存储介质、计算机可读存储装置或计算机可读存储器装置明确地排除譬如暂态波、能源、载波信号、电磁波及信号本身。

Claims (10)

1.一种自动硬件恢复方法,包含:
藉由结构控制器接收与一节点连接的快速外围组件互连装置的一装置故障的通知;
藉由该结构控制器接收第一请求,该第一请求用以断开该快速外围组件互连装置与该节点之间的链接;
藉由该结构控制器接收第二请求,该第二请求用以将替换快速外围组件互连装置与该节点连接;以及
藉由该结构控制器重新配置快速外围组件互连切换结构,藉以:
断开该快速外围组件互连装置与该节点间的该链接;以及
将该替换快速外围组件互连装置与该节点连接。
2.如权利要求1所述的自动硬件恢复方法,进一步包含:
检测该节点上该快速外围组件互连装置的该装置故障,其中该装置故障是由基板管理控制器、基本输入输出系统及操作系统中至少一个所检测;
基于该装置故障,藉由该基板管理控制器接收第三请求以执行快速外围组件互连装置热插拔装置移除程序;
藉由该基板管理控制器经由快速外围组件互连装置热插拔信号,发送该快速外围组件互连装置将从该节点被移除的通知至该操作系统;以及
藉由该基板管理控制器自该操作系统接收该快速外围组件互连装置已被移除的通知。
3.如权利要求2所述的自动硬件恢复方法,进一步包含:
藉由该基板管理控制器接收第四请求以执行快速外围组件互连热插拔装置插入程序;
响应该第四请求,藉由该基板管理控制器经由控制快速外围组件互连热插拔信号,发送该替换快速外围组件互连装置将被连接至该节点的通知给该操作系统;以及
藉由该基板管理控制器接收来自该操作系统的该替换快速外围组件互连装置已被连接的通知。
4.如权利要求1所述的自动硬件恢复方法,进一步包含:
藉由关联于该节点的基板管理控制器接收该替换快速外围组件互连装置已被连接至关联于该节点的插槽的通知;
藉由该基板管理控制器模拟存在检测接脚或暂存器以指示该替换快速外围组件互连装置已被连接至关联于该节点的该插槽;
藉由该基板管理控制器模拟手动操作保留闩的关闭;以及
基于关联于注意按钮的信号,藉由该基板管理控制器启动一热新增操作,该注意按钮被配置来允许使用者输入对于热插拔操作的请求,该信号在无使用者经由该注意按钮来输入该请求的情况下被触发。
5.如权利要求4所述的自动硬件恢复方法,进一步包含藉由该基板管理控制器来检测指示载入于该节点上的操作系统驱动的过渡状态的电力链路信号。
6.如权利要求4所述的自动硬件恢复方法,进一步包含:
检测该替换快速外围组件互连装置;
载入关联于该替换快速外围组件互连装置的热插拔驱动;
重新列举关联于该节点的插槽总线,该重新列举由该热插拔驱动触发;以及
配置该替换快速外围组件互连装置。
7.如权利要求6所述的自动硬件恢复方法,进一步包含基于电力故障状况或该手动操作保留闩的开启中至少一个,将该快速外围组件互连装置转换至失能状态。
8.如权利要求1所述的自动硬件恢复方法,进一步包含:
基于注意按钮的模拟使用者启动,藉由基板管理控制器来获得对于该外围组件互连装置的热移除的请求,该注意按钮用以允许使用者输入对于该外围组件互连装置的热插拔操作的请求;
发送该热移除的请求至关联于该外围组件互连装置的热插拔驱动;
藉由该基板管理控制器来检测指示关联于该外围组件互连装置的过渡状态的电力链路信号;
藉由关联于该节点的操作系统来断开该外围组件互连装置;
断电关联于该外围组件互连装置的插槽;以及
产生指示物理移除该外围组件互连装置是安全的电力链路信号状态。
9.一种自动硬件恢复系统,包含:
处理器;以及
计算机可读存储介质,具有存储在其中的指令,当被该处理器执行时,致使该处理器执行的操作包含:
接收节点上的快速外围组件互连装置的装置故障的通知;
接收断开该快速外围组件互连装置与该节点间的链接的第一请求;
接收将替换快速外围组件互连装置与该节点连接的第二请求;以及
重新配置快速外围组件互连切换结构以:
断开该快速外围组件互连装置与该节点间的该链接;以及
将该替换快速外围组件互连装置与该节点连接。
10.如权利要求9所述的系统,该计算机可读存储介质存储额外指令,当被该处理器执行时,致使该处理器执行的进一步操作包含经由扩展槽和总线链路中的至少一个,将该替换快速外围组件互连装置与该节点连接。
CN201610307717.XA 2015-05-11 2016-05-11 自动硬件恢复方法及自动硬件恢复系统 Active CN106155970B (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US14/708,857 2015-05-11
US14/708,857 US9934187B2 (en) 2014-12-17 2015-05-11 Hot-pluggable computing system
US201562272815P 2015-12-30 2015-12-30
US62/272,815 2015-12-30
US15/071,474 US9965367B2 (en) 2014-12-17 2016-03-16 Automatic hardware recovery system
US15/071,474 2016-03-16

Publications (2)

Publication Number Publication Date
CN106155970A true CN106155970A (zh) 2016-11-23
CN106155970B CN106155970B (zh) 2018-11-16

Family

ID=57353089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610307717.XA Active CN106155970B (zh) 2015-05-11 2016-05-11 自动硬件恢复方法及自动硬件恢复系统

Country Status (2)

Country Link
CN (1) CN106155970B (zh)
TW (1) TWI559148B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160196194A1 (en) * 2014-12-17 2016-07-07 Quanta Computer Inc. Automatic hardware recovery system
CN109284207A (zh) * 2018-08-30 2019-01-29 紫光华山信息技术有限公司 硬盘故障处理方法、装置、服务器和计算机可读介质
CN111124970A (zh) * 2018-10-31 2020-05-08 杭州海康威视数字技术股份有限公司 子板热插拔方法及装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI612424B (zh) * 2016-12-09 2018-01-21 英業達股份有限公司 交換器系統
US10296434B2 (en) * 2017-01-17 2019-05-21 Quanta Computer Inc. Bus hang detection and find out
US11163643B2 (en) 2017-04-13 2021-11-02 Hewlett-Packard Development Company, L.P. Boot data validity
US20190286590A1 (en) * 2018-03-14 2019-09-19 Quanta Computer Inc. Cpld cache application in a multi-master topology system
TWI726502B (zh) * 2019-11-26 2021-05-01 神雲科技股份有限公司 更新韌體不需斷電的伺服器及主機板模組

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110145634A1 (en) * 2009-12-16 2011-06-16 Nec Corporation Apparatus, a recovery method and a program thereof
CN102662903A (zh) * 2012-03-31 2012-09-12 浪潮电子信息产业股份有限公司 一种通过cpld或fpga实现pcie设备热插拔的方法
US20130111075A1 (en) * 2011-10-31 2013-05-02 Fujitsu Limited Switching control device and switching control method
US20130346662A1 (en) * 2010-06-24 2013-12-26 International Business Machines Corporation Using a pci standard hot plug controller to modify the hierarchy of a distributed switch
CN103797469A (zh) * 2013-05-20 2014-05-14 华为技术有限公司 一种计算机系统、高速外围组件互联端点设备的访问方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9146892B2 (en) * 2007-10-11 2015-09-29 Broadcom Corporation Method and system for improving PCI-E L1 ASPM exit latency
WO2013101180A1 (en) * 2011-12-30 2013-07-04 Intel Corporation Pcie device power state control

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110145634A1 (en) * 2009-12-16 2011-06-16 Nec Corporation Apparatus, a recovery method and a program thereof
US20130346662A1 (en) * 2010-06-24 2013-12-26 International Business Machines Corporation Using a pci standard hot plug controller to modify the hierarchy of a distributed switch
US20130111075A1 (en) * 2011-10-31 2013-05-02 Fujitsu Limited Switching control device and switching control method
CN102662903A (zh) * 2012-03-31 2012-09-12 浪潮电子信息产业股份有限公司 一种通过cpld或fpga实现pcie设备热插拔的方法
CN103797469A (zh) * 2013-05-20 2014-05-14 华为技术有限公司 一种计算机系统、高速外围组件互联端点设备的访问方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160196194A1 (en) * 2014-12-17 2016-07-07 Quanta Computer Inc. Automatic hardware recovery system
US9965367B2 (en) * 2014-12-17 2018-05-08 Quanta Computer Inc. Automatic hardware recovery system
CN109284207A (zh) * 2018-08-30 2019-01-29 紫光华山信息技术有限公司 硬盘故障处理方法、装置、服务器和计算机可读介质
CN111124970A (zh) * 2018-10-31 2020-05-08 杭州海康威视数字技术股份有限公司 子板热插拔方法及装置
CN111124970B (zh) * 2018-10-31 2021-11-23 杭州海康威视数字技术股份有限公司 子板热插拔方法及装置

Also Published As

Publication number Publication date
TWI559148B (zh) 2016-11-21
TW201640363A (zh) 2016-11-16
CN106155970B (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
CN106155970A (zh) 自动硬件恢复方法及自动硬件恢复系统
US9965367B2 (en) Automatic hardware recovery system
CN106648958B (zh) 基本输入输出系统回复管理系统及其方法以及程序产品
EP3602374B1 (en) System and method for restoration of a trusted system firmware state
CN106681751A (zh) 统一固件管理系统和管理方法以及计算机可读取介质
CN107170474A (zh) 可扩展存储盒、计算机实施方法以及计算机可读存储装置
CN104899055B (zh) 一种基于bios控制的me更新系统及其更新方法
CN107818021A (zh) 使用bmc作为代理nvmeof发现控制器向主机提供nvm子系统的方法
CN101458552B (zh) 电源管理系统与方法
CN107122321A (zh) 硬件修复方法、硬件修复系统以及计算机可读取存储装置
CN103955441B (zh) 一种设备管理系统、方法及一种io扩展接口
CN103154927A (zh) 设备硬件代理
CN101202764A (zh) 确定虚拟以太网适配器的链路状态的方法和系统
US9298371B1 (en) System and method of reducing write cycles and increasing longevity of non-volatile memory in baseboard management controller (BMC)
CN1623131A (zh) 具有安全装置直接连接以增加安全性的嵌入式处理器
CN102479142A (zh) 一种机架服务器系统及其监控方法
CN102253845B (zh) 服务器系统
CN106033375A (zh) 电源管理的系统及其方法及非暂时计算机可读取媒体
CN102331959A (zh) 伺服器系统
CN106033384A (zh) 撷取控制台消息的系统及其方法和非暂态计算机可读媒体
CN106406980B (zh) 一种虚拟机的部署方法和装置
CN104247353B (zh) 针对一体化机架中存储服务虚拟化的方法和系统
CN107145399A (zh) 一种共享内存管理方法及共享内存管理设备
JP2014217186A (ja) 電子装置、検証方法及び検証プログラム
TWI791913B (zh) 經由邊帶介面恢復場域可程式閘陣列韌體之系統及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant