CN102216903B - 响应于并行维护的硬件恢复 - Google Patents

响应于并行维护的硬件恢复 Download PDF

Info

Publication number
CN102216903B
CN102216903B CN2009801452037A CN200980145203A CN102216903B CN 102216903 B CN102216903 B CN 102216903B CN 2009801452037 A CN2009801452037 A CN 2009801452037A CN 200980145203 A CN200980145203 A CN 200980145203A CN 102216903 B CN102216903 B CN 102216903B
Authority
CN
China
Prior art keywords
replaceable unit
fru
system configuration
service processor
scene replaceable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009801452037A
Other languages
English (en)
Other versions
CN102216903A (zh
Inventor
A·R·塞古拉
S·R·贝利
B·W·毕舍普
A·基塔莫恩
E·洛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN102216903A publication Critical patent/CN102216903A/zh
Application granted granted Critical
Publication of CN102216903B publication Critical patent/CN102216903B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/004Error avoidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Abstract

公开一种计算机实现的方法、数据处理系统、和装置,例如在并行维护操作期间响应于系统总线上的硬件接口错误。服务处理器可接收所述系统总线上的错误。所述错误识别至少一个第一现场可替换单元,并且可禁止针对所述至少一个第一现场可替换单元的时钟信号的抑制。服务处理器向合格现场可替换单元(FRU)列表增加所述至少一个第一现场可替换单元的标识符。服务处理器递归地增加现场可替换单元依赖的至少一个现场可替换单元。服务处理器抑制针对所述至少一个第一现场可替换单元的时钟信号。服务处理器禁止将所述至少一个第一现场可替换单元标记为不可用于下一初始程序加载。

Description

响应于并行维护的硬件恢复
技术领域
概括地说,本发明涉及用于重新配置数据处理系统的计算机实现的方法、数据处理系统、和计算机程序产品。更具体地,本发明涉及最小化在更大型数据处理系统上的并行维护操作中发现的错误的影响。
背景技术
通常,数据中心管理器依赖于期望具有100%正常运行时间的服务器。作为考虑到服务器组件的修护和升级的方式,工程师将这样的服务器设计为容纳现场可替换单元。高级的现场可替换单元被配置为响应于并行维护操作。并行维护操作是当现场可替换单元(FRU)连接到的、或FRU要连接到的系统正在运行时FRU的增加、修护、或重新配置。
发明内容
本发明提供一种计算机实现的方法、数据处理系统、和装置,例如在并行维护操作期间响应于系统总线上的硬件接口错误。服务处理器可接收所述系统总线上的错误。所述错误识别至少一个第一现场可替换单元,并且可禁止针对所述至少一个第一现场可替换单元的时钟信号的抑制。服务处理器向合格现场可替换单元(FRU)列表增加所述至少一个第一现场可替换单元的标识符。服务处理器递归地增加现场可替换单元依赖的至少一个现场可替换单元。服务处理器抑制针对所述至少一个第一现场可替换单元的时钟信号。服务处理器禁止将所述至少一个第一现场可替换单元标记为不可用于下一初始程序加载。
附图说明
在所附权利要求中阐述了认为是本发明特有的新颖性特征。然而,当结合附图阅读时,通过参照示例性实施例的以下具体描述将更好地理解发明本身、及其优选实施方式、以及其他目的和优点,其中:
图1是根据本发明示例性实施例的数据处理系统的框图;
图2是根据本发明示例性实施例的示例性逻辑分区平台的框图;
图3是根据本发明示例性实施例的可能正在接收并行维护的数据处理系统的框图;以及
图4是根据本发明示例性实施例可在并行维护操作期间发生的处理错误的步骤的流程图。
具体实施方式
现在参照附图,具体地参照图1,示出可实现本发明的数据处理系统的框图。数据处理系统100可以是对称多处理器(SMP)系统,其包括连接至系统总线106的多个处理器101、102、103和104。例如,数据处理系统100可以是IBM eServer,这是纽约阿蒙克的国际商业机器公司的产品,实现为网络中的服务器。(IBM和eServer是国际商业机器公司的商标。)或者,可采用单处理器系统。同样连接至系统总线106还有存储器控制器/高速缓存108,其提供对于多个本地存储器160-163的接口。I/O总线桥110连接至系统总线106,并提供对于I/O总线112的接口。如图所示,存储器控制器/高速缓存108和I/O总线桥110可被集成,如图所示。
数据处理系统100是逻辑分区(LPAR)数据处理系统。因此,数据处理系统100可具有同时运行的多个异构操作系统或单操作系统的多个实例。这些多个操作系统中的每个可具有其中执行的任意数目个软件程序。数据处理系统100在逻辑上分区,从而可向不同逻辑分区分配不同PCI I/O适配器120-121、128-129和136、图形适配器148、和硬盘适配器149。在这个情况下,图形适配器148连接显示设备(未示出),而硬盘适配器149连接至并控制硬盘150。
因此,例如,假设数据处理系统100分成三个逻辑分区P1、P2和P3。向这三个分区中的每个分配PCI I/O适配器120-121、128-129和136、图形适配器148、和硬盘适配器149中的每个。在这些实例中,存储器160-163可采用双列直插式存储器模块(DIMM)的形式。通常,DIMM并非基于每个DIMM分配给分区。相反,分区将得到平台所见的总存储器的一部分。例如,可向逻辑分区P1分配处理器101、本地存储器160-163的存储器的某些部分、和I/O适配器120、128和129。同样,例如,可向逻辑分区P2分配处理器102-103、本地存储器160-163的存储器的某些部分、和I/O适配器121和136;以及可向逻辑分区P3分配处理器104、本地存储器160-163的存储器的某些部分、图形适配器148、和硬盘适配器149。
向不同的逻辑分区分配在数据处理系统100中执行的每个操作系统。因此,在数据处理系统100中执行的每个操作系统仅可访问在其逻辑分区内的这些I/O单元。因此,例如,高级交互执行(AIX)操作系统的一个实例可在分区P1内执行,AIX操作系统的第二实例或镜像可在分区P2内执行,以及Linux操作系统可在逻辑分区P3内操作。AIX是国际商业机器公司的注册商标。Linux是Linus Torvalds的商标。
连接至I/O总线112的外围组件互连(PCI)主机桥114提供对于PCI本地总线115的接口。多个PCI输入/输出适配器120-121通过PCI到PCI桥116、PCI总线118、PCI总线119、I/O槽170、和I/O槽171连接至PCI总线115。PCI到PCI桥116提供对于PCI总线118和PCI总线119的接口。PCI I/O适配器120和121分别位于I/O槽170和171中。典型的PCI总线方案支持四个和八个之间的I/O适配器,即,用于插件连接器的扩展槽。每个PCI I/O适配器120-121提供数据处理系统100和输入/输出设备(例如对于数据处理系统100的客户端的其他计算机)之间的接口。
额外PCI主机桥122提供用于额外PCI总线123的接口。PCI总线123连接至多个PCI I/O适配器128-129。PCI I/O适配器128-129通过PCI到PCI桥124、PCI总线126、PCI总线127、I/O槽172、和I/O槽173连接至PCI总线123。PCI到PCI桥124提供对于PCI总线126和PCI总线127的接口。PCI I/O适配器128和129分别位于I/O槽172和173中。这样,可通过PCI I/O适配器128-129中的每个支持额外I/O设备(例如调制解调器或网络适配器)。因此,数据处理系统100允许对于多个网络计算机的连接。
存储器映射图形适配器148插入至I/O槽174,并通过PCI总线144、PCI到PCI桥142、PCI总线141、和PCI主机桥140连接至I/O总线112。硬盘适配器149可位于I/O槽175中,其连接至PCI总线145。随后,这个总线连接至PCI到PCI桥142,其通过PCI总线141连接至PCI主机桥140。
PCI主机桥130提供用于PCI总线131的接口,以连接至I/O总线112。PCI I/O适配器136连接至I/O槽176,其通过总线133连接至PCI到PCI桥132。PCI到PCI桥132连接至PCI总线131。这个PCI总线还将PCI主机桥130连接至服务处理器邮箱接口和ISA总线接入通过逻辑194和PCI到PCI桥132。服务处理器邮箱接口和ISA总线接入通过逻辑194转发指向PCI/ISA桥193的PCI接入。NVRAM存储器192(还已知为非易失性RAM)连接至ISA总线196。
服务处理器135通过其本地PCI总线195连接至服务处理器邮箱接口和ISA总线接入通过逻辑194。服务处理器135还经由多个JTAG/I2C总线134连接至处理器101-104。JTAG/I2C总线134是JTAG/扫描总线的组合,由电气和电子工程师协会标准1149.1和Philips I2C总线定义。然而,或者,JTAG/I2C总线134可仅由Philips I2C总线替换或仅由JTAG/扫描总线替换。主机处理器101、102、103和104的所有SP-ATTN信号在一起连接至服务处理器135的中断输入信号。服务处理器135具有其自身的本地存储器191,并具有对于硬件OP面板190的接入。
当数据处理系统100初始加电时,服务处理器135使用JTAG/I2C总线134询问系统(主机)处理器101-104、存储器控制器/高速缓存108、和I/O桥110。在这个步骤完成时,服务处理器135具有数据处理系统100的清单和拓扑的理解。服务处理器135还执行内建自我测试(BIST)、基本保证测试(BAT)、和通过询问主机处理器101-104、存储器控制器/高速缓存108、和I/O桥110发现的所有原件上的存储器测试。由服务处理器135来收集和报告在BIST、BAT、和存储器测试期间检测到的故障的任何错误信息。
如果在除掉BIST、BAT、和存储器测试期间发现有缺陷的原件之后系统资源的有意义或有效配置仍旧是可能的,则允许数据处理系统100继续向本地或主机存储器160-163中加载可执行代码。然后,服务处理器135释放主机处理器101-104,用于执行加载到本地存储器160-163中的代码的执行。当主机处理器101-104正在执行数据处理系统100中各个操作系统的代码时,服务处理器135进入监视和报告错误的模式。服务处理器135监视的项目的类型包括例如,冷却扇速度和运行、热传感器、电源稳压器、以及处理器101-104、本地存储器160-163、和I/O桥110报告的可恢复和不可恢复错误。
服务处理器135保存和报告与数据处理系统100中所有所述项目相关的错误信息。服务处理器135还基于错误的类型和定义的阈值采取动作。例如,服务处理器135注意到处理器的高速缓存存储器上过多的可恢复错误,并确定这个条件是硬故障的预测。基于这个确定,服务处理器135可标记那个处理器或其他资源,用于在未来初始程序加载(IPL)时解除配置。IPL有时候还称为“引导”或“引导程序”。
数据处理系统100可使用各种商业可用的计算机系统来实现。例如,数据处理系统100可使用国际商业机器公司可用的IBM eServer iSeriesModel 840系统来实现。(iSeries是国际商业机器公司的商标。)这样的系统可使用也是国际商业机器公司可用的OS/400操作系统来支持逻辑分区。(OS/400是国际商业机器公司的商标。)
本领域普通技术人员可理解,图1中所示的硬件可改变。例如,可额外使用其他外围设备(例如光盘驱动器等)或代替所示的硬件。所示的实例不意味着暗示对于本发明的架构的限制。
现在参照图2,示出可实现本发明的示例性逻辑分区平台的框图。逻辑分区平台200的硬件可实现为例如图1中的数据处理系统100。逻辑分区平台200包括分区硬件230;操作系统202、204、206、208;和分区管理固件210。操作系统202、204、206、208可以是一个操作系统的多个副本或逻辑分区平台200上同时运行的多个异构操作系统。这些操作系统可使用OS/400实现,其被设计为与分区管理固件(例如管理程序)对接。OS/400仅用作这些示例性实施例中的实例。当然,依据特定方案,可使用其他类型的操作系统(例如AIX和Linux)。操作系统202、204、206、208位于分区203、205、207和209中。管理程序软件是用于实现分区管理固件210的软件的实例,并且是国际商业机器公司可用的。固件是存储器芯片中存储的“软件”,其无需电力保持其内容,例如只读存储器(ROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、和非易失性随机存取存储器(非易失性RAM)。
此外,这些分区还包括分区固件211、213、215和217。分区固件211、213、215和217可使用初始引导程序代码、IEEE-1275标准开放固件、和运行时抽象软件(RTAS)来实现,后者是国际商业机器公司可用的。当分区203、205、207和209被实例化时,通过平台固件210向分区203、205、207和209上加载引导程序代码的副本。之后,控制转移至引导程序代码,其中引导程序代码随后加载开放固件和RTAS。然后,向分区的存储器分派与分区关联或向其分配的处理器,以执行分区固件。
分区硬件230包括多个处理器232-238、多个系统存储器单元240-246、多个输入/输出(I/O)适配器248-262、和存储器单元270。向逻辑分区平台200中的多个分区之一分配处理器232-238、存储器单元240-246、NVRAM存储装置298、和I/O适配器248-262,其每个对应于操作系统202、204、206和208之一。
分区管理固件210对于分区203、205、207和209执行多个功能和业务,以建立和执行逻辑分区平台200的划分。分区管理固件210是等同于基础硬件的固件实现的虚拟机。因此,分区管理固件210通过视觉化逻辑分区平台200的所有硬件资源允许独立操作系统影像202、204、206和208的同时执行。服务处理器290可用于提供各种业务,例如分区中平台错误的处理。这些业务也可用作向卖方(例如国际商业机器公司)回报错误的业务代理。不同分区的操作可通过硬件管理控制台(例如硬件管理控制台280)来控制。硬件管理控制器280是单独数据处理系统,系统管理员可从中执行各种功能,包括向不同分区的资源的重新分配。
示例性实施例的方面允许用户在与正在接收并行维护操作的FRU通信或对应的活动FRU上继续操作。由此,中央电子机柜(CEC)可能不会遭受响应于在并行维护期间接收的FRU的故障而引起的性能降级。此外,一个或多个实施例可允许将活动FRU配置和操作用于执行初始程序加载的目的。
图3是根据本发明示例性实施例的可能正在接收并行维护的数据处理系统300的框图。图3可以是图1的数据处理系统的早期形式。即,数据处理系统300能够接收升级,以将数据处理系统300重新配置成为数据处理系统100。由此,灵活服务处理器305可针对例如中央电子机柜(CEC)的数据处理系统执行错误检测和恢复功能。对于数据处理系统的现场可替换单元(FRU)或其他组件,错误是无效状态。例如,错误可以是CEC并行维护(CCM)可恢复错误、CCM不可恢复错误、CCM关键错误等。
例如,CEC机柜301可包括两个背板,背板302和背板304,其每个分别用“FRU 7”和“FRU 8”来标识。现场可替换单元的标识符是将FRU唯一标识为数据处理系统的组件的标识符。类似地,每个背板包括至少一个处理器,例如分别为处理器312(FRU 3)和处理器314(FRU 4)。在这个配置中,背板302是对于处理器312的支持的现场可替换单元。支持的现场可替换单元是提供对于被支持的现场可替换单元要运行所需的电互连和/或机械支持的现场可替换单元。在这个情况下,背板302提供对于支持处理器312(被支持的现场可替换单元)的槽和其他支持特征。
每个背板可在总线之间通信以到达I/O适配器。I/O适配器323可连接至耦合至背板302的总线331。总线331可通过总线接口耦合至背板302。总线接口可以是例如I/O控制器集线器(ICH)、外围组件互连(PCI)主机桥等。类似地,I/O适配器325可连接至耦合至背板304的总线。此外,灵活服务处理器305可经由总线329与背板和被支持的FRU通信。灵活服务处理器305可依赖于固件307,以提供控制CEC机柜301的FRU的配置和测试的方式的机械指令。例如,固件可访问FRU列表309,如下所述,其可提供与经过并行维护的FRU相关的细节。此外,例如硬件管理控制台(HMC)313的客户端可用于控制当在CEC机柜301上执行并行维护时采取的操作和步骤。客户端可以是允许系统管理员配置和管理分区以及在当前FRU上执行维护并增加至数据处理系统配置的工作站。
图4是根据本发明示例性实施例可在并行维护操作期间发生的处理错误的步骤的流程图。并行维护可以是I/O适配器(例如图3的I/O适配器323)的增加。在这个情况下,I/O适配器323是中央电子机柜(CEC)并行维护(CCM)现场可替换单元或CCM FRU。CCM FRU是作为并行维护的目标的FRU。图3的处理器312还可以是活动FRU。活动FRU是在中央电子机柜(CEC)中配置和运行的FRU。
例如图3的灵活服务处理器305的服务处理器检测向总线增加的CCMFRU(步骤401)。该总线为例如图3的总线329。服务处理器可确定是否接收到总线上的错误(步骤403)。可生成与并行维护操作相关的错误。在步骤403的否定确定可导致随后的处理终止。如果接收到总线上的错误,则服务处理器可禁止针对活动FRU的时钟信号的抑制。由此,活动FRU保持运行,同时时钟信号继续传播(步骤407)。
接下来,服务处理器可向合格FRU列表增加活动FRU(步骤409)。合格现场可替换单元(FRU)列表是将错误标识符与错误中标识的FRU关联的数据结构。此外,合格FRU列表也可将支持的现场可替换单元与错误标识符关联。合格FRU列表可以是例如图3的合格FRU列表309。合格FRU列表中列出的FRU可由下一初始程序加载(IPL)使用。
接下来,服务处理器可递归地增加作为活动FRU的支持FRU的所有FRU(步骤411)。由此,在处理器312是活动FRU的情况下,服务处理器可向合格FRU列表增加背板302。因此,合格FRU列表可包括错误标识符,以及被确定为错误的一个或多个FRU,或支持错误的FRU。在这个实例中,这样的FRU可以是“FRU 3”和“FRU 7”。接下来,服务处理器可停止CEC并行维护(CCM)FRU上的时钟信号(步骤413)。服务处理器可通过协作地指示FRU停止在FRU中生成的或经由FRU传播的时钟来停止时钟信号。例如,服务处理器可向安装在FRU上的集成电路中的寄存器中写入。这样的寄存器可专用于指示用于FRU的电路执行的进一步行为的时钟状态。
服务处理器可禁止将CCM FRU标记为不可用于下一初始程序加载(步骤415)。在服务处理器依赖于表或其他数据结构将FRU标识为不可用的方面,服务处理器避免向这样的数据结构增加CCM FRU。不可用意味着CCM FRU不与任意进程关联或不可由任意进程选择以通过服务处理器将FRU配置为活动。接下来,服务处理器可中止CCM操作(步骤417)。如果中止了CCM操作,则处理可随后终止。例如,如果正在增加I/O适配器323,则服务处理器可中止这个操作。由此,服务处理器可将与中止的CCM操作相关的FRU与比特设置关联,从而用信号通知FRU遭受CCM不可恢复错误。
接下来,服务处理器可向客户端通知服务处理器接收的错误(步骤419)。客户端可以是例如硬件维护控制台。由此,访问这样的控制台的用户可确定中央电子机柜的当前状态。
接下来,访问处理器接收用于第二并行维护操作的FRU的用户选择(步骤451)。用户选择是对于客户端的用户输入或基于对于客户端的用户输入向服务处理器传播的任意信号。接下来,服务处理器确定系统配置标准是否满足于选择的FRU(步骤452)。系统配置标准可包括选择的FRU是否在合格FRU列表中的测试。由此,如果选择的FRU没有在合格FRU列表中找到,则可能不满足系统配置标准。另一方面,如果满足系统配置标准,则服务处理器确定未测试的FRU是否在合格FRU列表中(步骤453)。当在步骤451至步骤465的用户选择之间的间隔期间FRU未被测试时,这样的FRU是未测试的FRU。系统配置标准是指示数据处理系统被配置为执行并行维护和/或硬件支持(例如冗余)是否允许执行并行维护的一个或多个测试或确定。系统配置标准可在步骤452或步骤457和459中测试,如下所述,或步骤452、457和459的任意组合中。如果满足系统配置标准,则服务处理器可获得下一未测试的FRU用于测试(步骤455)。接下来,服务处理器确定FRU是否为固件的兼容类型(步骤457)。如果FRU不是兼容类型,则处理可在步骤453继续。
否则,服务处理器确定FRU是否具有相关的冗余FRU(步骤459)。如果步骤459的结果为否定,则服务处理器确定是否存在限制理由,并且如果存在则向客户端报告(步骤465)。进一步处理可在步骤453继续。然而,如果步骤459的结果为肯定,则服务处理器向客户端报告可修复FRU(步骤463)。进一步处理可在步骤453继续。客户端可以是例如图3的HMC 313。修复可包括例如,重试命令或操作,向用户显示消息,记录错误,和继续CCM操作。接收关于可修复的FRU的状态的信息的用户可执行进一步测试,能够响应于这样的报告修复FRU。进一步测试可以是替换可用FRU。因此,步骤463可提示用户物理地替换FRU。用户协调的修复可以是通过FRU的新CCM操作。
确定在步骤452满足系统配置标准的失败可使得服务处理器返回错误(步骤471)。在这个步骤期间,服务处理器可向客户端用信号通知系统配置标准的状态。在步骤471之后,处理可终止。
示例性实施例允许用户在传送或与在错误状态的FRU相应的活动FRU上继续操作。由此,中央电子机柜(CEC)并行维护(CCM)可能不会遭受响应于接收并行维护的FRU的故障而引起的性能降级。此外,一个或多个实施例可允许将活动FRU配置和操作用于执行初始程序加载的目的。

Claims (18)

1.一种在并行维护操作期间响应于系统总线上的硬件接口错误的方法,所述方法包括:
由服务处理器接收所述系统总线上的错误,所述错误识别至少一个第一现场可替换单元;
禁止针对所述至少一个第一现场可替换单元的时钟信号的抑制;
向合格现场可替换单元(FRU)列表增加所述至少一个第一现场可替换单元的标识符;
响应于所述至少一个第一现场可替换单元依赖于支持的现场可替换单元,向合格FRU列表增加至少所述支持的现场可替换单元;
抑制针对所述至少一个第一现场可替换单元的时钟信号;以及
禁止将所述至少一个第一现场可替换单元标记为不可用于下一初始程序加载。
2.如权利要求1所述的方法,还包括:
中止与错误相应的并行维护操作;以及
向客户端通知错误。
3.如权利要求2所述的方法,还包括:
接收用于第二并行维护操作的第二现场可替换单元的用户选择;
基于所述用户选择确定是否满足系统配置标准;以及
响应于满足系统配置标准的确定,测试所述第二现场可替换单元。
4.如权利要求3所述的方法,其中所述第二现场可替换单元是所述至少一个第一现场可替换单元。
5.如权利要求3所述的方法,其中测试还包括:向客户端报告测试结果。
6.如权利要求3所述的方法,其中确定是否满足系统配置标准还包括:确定所述第二现场可替换单元是否兼容于灵活服务处理器中的固件。
7.如权利要求3所述的方法,其中确定是否满足系统配置标准还包括:确定所述第二现场可替换单元是否与相应于所述第二现场可替换单元的冗余现场可替换单元关联,以及基于所述第二现场可替换单元被配置为活动的而满足所述系统配置标准。
8.如权利要求7所述的方法,其中所述第二现场可替换单元是支持的现场可替换单元,并且其中禁止标记所述至少一个第一现场可替换单元包括:禁止所述支持的现场可替换单元。
9.如权利要求1所述的方法,还包括:
接收用于第二并行维护操作的第二现场可替换单元的用户选择;
基于所述用户选择确定是否满足系统配置标准;
响应于满足系统配置标准的确定,获得下一未测试的现场可替换单元用于测试;以及
响应于满足系统配置标准的确定,测试所述第二现场可替换单元。
10.一种在并行维护操作期间响应于系统总线上的硬件接口错误的系统,所述系统包括:
用于由服务处理器接收所述系统总线上的错误,所述错误识别至少一个第一现场可替换单元的装置;
用于禁止针对所述至少一个第一现场可替换单元的时钟信号的抑制的装置;
用于向合格现场可替换单元(FRU)列表增加所述至少一个第一现场可替换单元的标识符的装置;
用于响应于所述至少一个第一现场可替换单元依赖于支持的现场可替换单元,向合格FRU列表增加至少所述支持的现场可替换单元的装置;
用于抑制针对所述至少一个第一现场可替换单元的时钟信号的装置;以及
用于禁止将所述至少一个第一现场可替换单元标记为不可用于下一初始程序加载的装置。
11.如权利要求10所述的系统,还包括:
用于中止与错误相应的并行维护操作的装置;以及
用于向客户端通知错误的装置。
12.如权利要求11所述的系统,还包括:
用于接收用于第二并行维护操作的第二现场可替换单元的用户选择的装置;
用于基于所述用户选择确定是否满足系统配置标准的装置;以及
用于响应于满足系统配置标准的确定,测试所述第二现场可替换单元的装置。
13.如权利要求12所述的系统,其中所述第二现场可替换单元是所述至少一个第一现场可替换单元。
14.如权利要求12所述的系统,其中测试还包括:向客户端报告测试结果。
15.如权利要求12所述的系统,其中确定是否满足系统配置标准还包括:确定所述第二现场可替换单元是否兼容于灵活服务处理器中的固件。
16.如权利要求12所述的系统,其中确定是否满足系统配置标准还包括:确定所述第二现场可替换单元是否与相应于所述第二现场可替换单元的冗余现场可替换单元关联,以及基于所述第二现场可替换单元被配置为活动的而满足所述系统配置标准。
17.如权利要求16所述的系统,其中所述第二现场可替换单元是支持的现场可替换单元,并且其中禁止标记所述至少一个第一现场可替换单元包括:禁止所述支持的现场可替换单元。
18.如权利要求10所述的系统,还包括:
用于接收用于第二并行维护操作的第二现场可替换单元的用户选择的装置;
用于基于所述用户选择确定是否满足系统配置标准的装置;
用于响应于满足系统配置标准的确定,获得下一未测试的现场可替换单元用于测试的装置;以及
用于响应于满足系统配置标准的确定,测试所述第二现场可替换单元的装置。
CN2009801452037A 2008-11-20 2009-11-10 响应于并行维护的硬件恢复 Expired - Fee Related CN102216903B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/274,434 2008-11-20
US12/274,434 US8010838B2 (en) 2008-11-20 2008-11-20 Hardware recovery responsive to concurrent maintenance
PCT/EP2009/064877 WO2010057807A1 (en) 2008-11-20 2009-11-10 Hardware recovery responsive to concurrent maintenance

Publications (2)

Publication Number Publication Date
CN102216903A CN102216903A (zh) 2011-10-12
CN102216903B true CN102216903B (zh) 2013-09-18

Family

ID=41716320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801452037A Expired - Fee Related CN102216903B (zh) 2008-11-20 2009-11-10 响应于并行维护的硬件恢复

Country Status (4)

Country Link
US (1) US8010838B2 (zh)
EP (1) EP2366149A1 (zh)
CN (1) CN102216903B (zh)
WO (1) WO2010057807A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110678028B (zh) * 2013-02-28 2021-05-28 甲骨文国际公司 架装式现场可更换单元的带外管理
US9384104B2 (en) 2013-11-27 2016-07-05 International Business Machines Corporation Testing a processor assembly
US9582350B2 (en) * 2014-10-07 2017-02-28 International Business Machines Corporation Device driver error isolation on devices wired via FSI chained interface
US10241875B2 (en) 2016-09-15 2019-03-26 International Business Machines Corporation Switching initial program load responsibility when components fail

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0347558A2 (en) * 1988-06-24 1989-12-27 International Business Machines Corporation Apparatus for partitioned clock stopping in response to classified processor errors
CN1540514A (zh) * 2003-04-21 2004-10-27 日本电气株式会社 数据处理设备和数据处理方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT388705B (de) * 1987-08-24 1989-08-25 Intec Plastic Prod Verbundplatte
US5293556A (en) * 1991-07-29 1994-03-08 Storage Technology Corporation Knowledge based field replaceable unit management
US5579491A (en) * 1994-07-07 1996-11-26 Dell U.S.A., L.P. Local proactive hot swap request/acknowledge system
US5978938A (en) * 1996-11-19 1999-11-02 International Business Machines Corporation Fault isolation feature for an I/O or system bus
US6247080B1 (en) * 1997-05-13 2001-06-12 Micron Electronics, Inc. Method for the hot add of devices
US6287492B1 (en) * 1999-05-15 2001-09-11 Eddy & Martin Goldfarb And Accociates Activity apparatus and method for compressing pliant translucent material to generally instantaneously create a lithophane-type pictorial work
US6523140B1 (en) * 1999-10-07 2003-02-18 International Business Machines Corporation Computer system error recovery and fault isolation
US6829729B2 (en) * 2001-03-29 2004-12-07 International Business Machines Corporation Method and system for fault isolation methodology for I/O unrecoverable, uncorrectable error
US20020184576A1 (en) * 2001-03-29 2002-12-05 International Business Machines Corporation Method and apparatus for isolating failing hardware in a PCI recoverable error
US6901537B2 (en) * 2002-02-27 2005-05-31 International Business Machines Corporation Method and apparatus for preventing the propagation of input/output errors in a logical partitioned data processing system
US6976191B2 (en) * 2002-03-07 2005-12-13 International Business Machines Corporation Method and apparatus for analyzing hardware errors in a logical partitioned data processing system
US6934888B2 (en) * 2002-03-07 2005-08-23 International Business Machines Corporation Method and apparatus for enhancing input/output error analysis in hardware sub-systems
US7137020B2 (en) * 2002-05-17 2006-11-14 Sun Microsystems, Inc. Method and apparatus for disabling defective components in a computer system
US7222270B2 (en) * 2003-01-10 2007-05-22 International Business Machines Corporation Method for tagging uncorrectable errors for symmetric multiprocessors
US20040221198A1 (en) * 2003-04-17 2004-11-04 Vecoven Frederic Louis Ghislain Gabriel Automatic error diagnosis
US7313717B2 (en) * 2003-04-17 2007-12-25 Sun Microsystems, Inc. Error management
US7134052B2 (en) * 2003-05-15 2006-11-07 International Business Machines Corporation Autonomic recovery from hardware errors in an input/output fabric
US7487403B2 (en) * 2004-11-12 2009-02-03 International Business Machines Corporation Method for handling a device failure
US20060184840A1 (en) 2005-02-11 2006-08-17 International Business Machines Corporation Using timebase register for system checkstop in clock running environment in a distributed nodal environment
US7568122B2 (en) * 2005-03-16 2009-07-28 Dot Hill Systems Corporation Method and apparatus for identifying a faulty component on a multiple component field replaceable unit
US20080133962A1 (en) 2006-12-04 2008-06-05 Bofferding Nicholas E Method and system to handle hardware failures in critical system communication pathways via concurrent maintenance
US7752485B2 (en) * 2007-08-17 2010-07-06 International Business Machines Corporation Method and system for virtual removal of physical field replaceable units

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0347558A2 (en) * 1988-06-24 1989-12-27 International Business Machines Corporation Apparatus for partitioned clock stopping in response to classified processor errors
CN1540514A (zh) * 2003-04-21 2004-10-27 日本电气株式会社 数据处理设备和数据处理方法

Also Published As

Publication number Publication date
CN102216903A (zh) 2011-10-12
WO2010057807A1 (en) 2010-05-27
US8010838B2 (en) 2011-08-30
EP2366149A1 (en) 2011-09-21
US20100125747A1 (en) 2010-05-20

Similar Documents

Publication Publication Date Title
KR100530710B1 (ko) 이종 분할 시스템에서의 글로벌 에러 보고 방법 및 장치
CN102597962B (zh) 用于虚拟计算环境中的故障管理的方法和系统
US8086906B2 (en) Correlating hardware devices between local operating system and global management entity
CN101165676B (zh) 隔离数据处理系统的多个输入/输出适配器单元的方法和系统
US8713350B2 (en) Handling errors in a data processing system
US6901537B2 (en) Method and apparatus for preventing the propagation of input/output errors in a logical partitioned data processing system
JP3910554B2 (ja) 論理パーティション・データ処理システムでのエラーまたはイベントを処理する方法、コンピュータ・プログラム、データ処理システム
JP3697178B2 (ja) ハードウェア・デバイスを管理する方法、システムおよびコンピュータ・プログラム・プロダクト
US7257734B2 (en) Method and apparatus for managing processors in a multi-processor data processing system
US8949659B2 (en) Scheduling workloads based on detected hardware errors
JP2017224272A (ja) ハードウェア障害回復システム
EP3306476B1 (en) Method and apparatus for hot cpu removal and hot cpu adding during operation
TWI310899B (en) Method, system, and product for utilizing a power subsystem to diagnose and recover from errors
US7137020B2 (en) Method and apparatus for disabling defective components in a computer system
US9229843B2 (en) Predictively managing failover in high availability systems
US8145956B2 (en) Information processing apparatus, failure processing method, and recording medium in which failure processing program is recorded
CN102216903B (zh) 响应于并行维护的硬件恢复
US6055647A (en) Method and apparatus for determining computer system power supply redundancy level
US7103789B2 (en) Method, system, and product for indicating power status of field replaceable units
US7500051B2 (en) Migration of partitioned persistent disk cache from one host to another
US8024544B2 (en) Free resource error/event log for autonomic data processing system
US8139595B2 (en) Packet transfer in a virtual partitioned environment
US6934888B2 (en) Method and apparatus for enhancing input/output error analysis in hardware sub-systems
US7234085B2 (en) Method, system, and product for hierarchical encoding of field replaceable unit service indicators
US20230027027A1 (en) Systems and methods for warranty recommendation using multi-level collaborative filtering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130918

CF01 Termination of patent right due to non-payment of annual fee