CN101223508B - 数据处理系统中重新配置功能性能力的方法和系统 - Google Patents

数据处理系统中重新配置功能性能力的方法和系统 Download PDF

Info

Publication number
CN101223508B
CN101223508B CN2006800254660A CN200680025466A CN101223508B CN 101223508 B CN101223508 B CN 101223508B CN 2006800254660 A CN2006800254660 A CN 2006800254660A CN 200680025466 A CN200680025466 A CN 200680025466A CN 101223508 B CN101223508 B CN 101223508B
Authority
CN
China
Prior art keywords
hardware
data handling
handling system
hardware cell
functional capabilities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2006800254660A
Other languages
English (en)
Other versions
CN101223508A (zh
Inventor
K-J·屈尔
C·迈尔
J·普罗布斯特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN101223508A publication Critical patent/CN101223508A/zh
Application granted granted Critical
Publication of CN101223508B publication Critical patent/CN101223508B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2284Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by power-on test, e.g. power-on self test [POST]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2041Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with more than one idle spare processing component

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明涉及一种用于在具有休眠资源的数据处理系统中重新配置功能性能力的方法、计算机程序产品和系统。数据处理系统的休眠资源被用于替换(360)故障硬件单元的功能性特性,目的是补偿丧失的资源。如果有足够的休眠资源可用于替换故障硬件单元的功能性特性,则数据处理系统可以被使用,并且其能力不会有任何衰退。否则,该衰退被减少。虽然故障硬件单元的功能性部分被从系统隔离(340),但是仍从它的非功能性部分读取它的配置数据。接着,针对丢失的资源来分析配置数据中所包含的启用限定数据。接着,启用可用的休眠资源直到所有丧失的资源都被替换或者没有更多的休眠资源可用于替换为止。

Description

数据处理系统中重新配置功能性能力的方法和系统
技术领域
本发明一般涉及可配置的数据处理系统。特别地,本发明涉及一种用于在具有休眠资源的数据处理系统中重新配置功能性能力的方法、系统和计算机程序产品。
背景技术
计算机系统可包括多个类似或完全相同的、提供相同类型资源的硬件单元,例如存储器卡、多芯片处理器模块、具有多个端口的输入/输出卡,等等。硬件单元自身可以包括多个部件;例如,处理器集合(processor book)可包括多芯片处理器模块和许多存储器,其中多芯片处理器模块包含许多处理器,而计算机系统可以包含超过一个这些处理器集合。硬件单元通常是可现场替换的,这意味着它们可以被现场工程师在客户所在处进行替换。
出于各种各样的原因,虽然硬件单元可能不会被用到其全部的物理能力,但是这种使用可能受某些固件所支持的控制机制的限制。例如,在多芯片处理器模块中所包含的12个物理处理器中的仅仅3个可被启用(enable)用于执行。未被使用的资源被称为休眠资源。这具有多种优点,例如计算机系统的能力可以基于性能或其它需求被动态地改变。
另一优点是粒度:休眠资源能够提供广范围的系统配置而无需物理上反映每个配置。现代计算机的多种模型、变体和能力给客户提供了多种选择;所伴随的对制造和储存这种计算机的多种变体和模型的需求将给计算机制造商带来相当大的负担。
例如,针对可能被使用的每个数量的处理器来构建特殊的多芯片处理器配置是过于昂贵的。计算机系统的每种现有模型、可变的功能性特性或能力都代表了大量不同的系统、组件和部件,其必须被制造和储存以维持客户的满意度。
国际专利申请PCT/EP03/13073讲解了一种用于在数据处理系统中可选地激活可替换的硬件单元的方法和系统。首先,可替换的硬件单元被添加到数据处理系统,并且接着它的类型被确定。如果该可替换的硬件单元属于第一种类型,则确定将被电子地启用的其功能性能力的子集。可选地,如果该可替换的硬件单元属于另一种类型,则启用该可替换的硬件单元的全部功能性能力。该方法能够解决当硬件单元被用在数据处理系统的大不相同的模型或配置中时硬件单元的兼容性问题。对于不能全部使用硬件单元的全套能力的模型或配置,仅启用功能性能力的子集。
美国专利申请2003/0120914A1描述了一种方法和系统,用于在计算机系统中临时灵活地进行能力升级/降级而不会牵连操作系统。休眠资源被用于升级计算机系统的能力。通过停用已使用的资源(其接着变成休眠资源)来进行能力降级。在J.Probst等人的“Flexible configuration andconcurrent upgrade for the IBM eServer z900”(IBM J.Res.&Dev,Vol.46,No.4/5,2002)中描述了针对
Figure G2006800254660D00021
z900的对这种方法的使用。
现有技术的两种方法都使用了计算机系统的重要产品数据(VPD),其描述了在计算机系统中所包含的单独的硬件单元等等。特别地,VPD描述了一硬件单元是否被使用,以及因此它是否是休眠资源。VPD的这种子集被称作启用限定数据。通常,系统VPD包括它的各种硬件单元的VPD。包括硬件单元的启用限定数据的VPD被存储在作为相应硬件单元的一部分的设备中,例如被存储在串行电可擦写可编程只读存储器(SEEPROM)或智能芯片中。
为了确保VPD(特别是启用限定数据)的完整性以及防止篡改和误用,安全保护机制将已加密版本的启用限定数据存储在硬件单元中。接着,当已加密版本的启用限定数据被从硬件单元读取时,系统固件对该已加密版本的启用限定数据进行解密。美国专利5,982,899描述了这种机制。它使用被并入每个硬件单元上的芯片的固有且不可改变的标识符以及一种具有私钥/公钥对的非对称加密方法,以阻止伪造并防止VPD被误用。
不可改变的标识符对于该特定芯片而言是特定的。这种标识符通常是基于由现代CMOS制造技术提供作为标准服务的电子芯片标识符。该标识符被用于对VPD进行编码。这种编码将VPD链接到特定的硬件单元并防止对相同硬件单元的其它样品的VPD的进行克隆。为了防止作假,使用仅仅对于该硬件单元的受限的制造过程而言是已知的私钥对已被编码的VPD进行编码。
系统固件在系统上电阶段通过从它的各种硬件单元收集所有的VPD来聚集该系统VPD。可在单独的服务处理器或服务控制台的帮助下以及/或者在单独的服务处理器或服务控制台上管理并存储系统VPD。基于系统VPD里的启用限定数据,计算机系统的可用硬件能力被确定。
硬件单元的启用限定数据还可在系统VPD中被盖写。可以使一有效期与被用来盖写系统VPD里的硬件单元的启用限定数据的启用限定数据相关联。这允许对计算机系统进行临时升级,其在该有效期到达时被撤销。
在系统运行时期间,无论何时当新的硬件单元被逻辑地添加到该系统或被逻辑地从该系统移除之时,VPD就被系统固件更新。然而,当通过某种手段检测到硬件单元出故障了时,在它的正常工作阶段该硬件单元不被逻辑地从系统中移除。它仅仅通过特殊的移除操作被逻辑地移除,该特殊的移除操作经常是由系统操作员独立地触发。当它被逻辑地移除时,接着它经常也被物理地从系统中移除。另一方面,当硬件单元先前已经被物理地添加到系统中时,它可以仅仅被逻辑地添加到系统(在特殊的添加操作中)。
如果故障硬件单元被检测到,则整个故障硬件单元被停用并被系统固件从系统中隔离。被物理地从系统移除而没有触发移除操作的硬件单元在系统看来是故障硬件单元。
如果在系统上电阶段期间故障硬件单元被检测到,则该故障硬件单元的启用限定数据不被读取并且系统的可用能力仅根据剩下的硬件单元的启用限定数据被确定。这是与硬件单元在系统运行时发生故障的情况大不相同,因为接着系统VPD已经被完整地创建。
直到现在,才认识到被引进来简化系统配置的休眠资源还可被用于补偿由于故障硬件单元所造成的系统衰退。即使在系统上电阶段期间有足够的休眠资源可用于替换故障硬件单元的已启用资源,当前的数据处理系统将仍然不使用它们并且将不提供相同的能力,就像该硬件单元没有发生故障一样。当没有足够的休眠资源可用时,当前的系统将也不减少它们的能力的衰退。
发明内容
因此,本发明的目的是提供一种对现有技术进行了改善的、用于在具有休眠资源的数据处理系统中重新配置功能性能力的方法以及相应的计算机系统和计算机程序产品。
该目的是通过如在各独立的权利要求中所限定的本发明来实现的。在各从属权利要求中描述了并在以下描述中讲解了本发明的更多有利的实施例。
根据本发明,数据处理系统的休眠资源被用于替换故障硬件单元的功能性特性,目的是补偿丧失的资源。这使得能够将对该故障硬件的替换推迟到稍后的日期,同时该数据处理系统仍然可以以其全部能力或以已减少的衰退来被使用。
在一个实施例中,当在计算机系统的上电阶段期间检测到故障硬件单元,则系统固件用休眠资源所提供的功能性能力来替换该故障硬件的功能性能力。如果有足够量的所需休眠资源可用于替换该故障硬件单元的功能性能力,则该计算机系统可以被一直使用而它的能力不会有任何衰退,直到执行了对该故障硬件单元的物理替换为止。否则,它的能力的衰退相比于现有技术状态被减少了。
本发明的优点是通过以下步骤来实现的:虽然故障硬件单元的功能性部分被从数据处理系统隔离,但是仍从它的非功能性部分读取该故障硬件单元的VPD。接着,针对由于隔离该故障硬件单元所造成的丢失的资源来分析它的VPD中所包含的该故障硬件单元的启用限定数据。在分派步骤中,接着启用可用的休眠资源直到所有丢失的资源被替换或没有任何更多的休眠资源可用于替换为止。当稍后替换该故障硬件单元时,基于由休眠资源所进行的资源补偿来启用该替换部分的资源。
在本发明的一个实施例中,故障硬件单元的VPD被存储在该故障硬件单元的非功能性部分里的非易失性存储器(例如SEEPROM或智能芯片)中,并且该VPD被用功能性部分里的芯片的不可改变的唯一的芯片标识符来进行编码。因为,当该功能性部分被从系统隔离时该芯片不再可被访问,所以该标识符的明文拷贝或已加密的拷贝被保持在非功能性部分里的第二非易失性存储器里。
为了防止误用,通过将该标识符克隆到该第二非易失性存储器,VPD在硬件单元第一次被检测到有故障之后以及在核实了各故障部分仍然插在系统中之后的有限的时间量内可被使用。该有限的时间量可以是该数据处理系统的正常服务周期,例如一周。在服务期间,可以完成对该损坏的硬件单元的替换。
附图说明
现在,结合附图来描述本发明和其优点。
图1是可被用于实现本发明的方法的数据处理系统里的硬件单元的示意性框图;
图2是根据本发明的硬件单元的示意性框图;
图3是说明根据本发明的方法的流程图。
具体实施方式
图1示出其中可实现本发明的硬件配置100,例如IBM zSeries 990企业服务器。该硬件配置包括计算机110和硬件控制台120。计算机110包括主存储装置130、服务处理器131、电源和制冷设备132、I/O(输入/输出)通道133、每个都包括有一个或多个处理器和高速缓冲存储器的四个处理器集合134、135、136、137,以及包括LIC模块(授权的内部码,也被称为系统固件)138。如图1中所示,硬件控制台120被连接到服务处理器131,其是计算机110的一部分。服务处理器131与硬件控制台120之间的连接可以通过现有技术中所公知的商用通信链路(例如以太网)来实现。服务处理器131向硬件控制台120提供对计算机110内的功能和电路的访问。特别地,服务处理器131提供对硬件单元130、132、133、134、135、136、137、138的访问。
服务处理器131可以被实现成内嵌在计算机110里的单独的计算机系统,其包括它自己的主存储装置和诸如闪存、ROM(只读存储器)和SEEPROM之类的其它存储设备。接着,该内嵌的系统131控制计算机110。服务处理器131的处理器体系结构可以与计算机110的处理器体系结构完全不同。服务处理器所执行的软件可以是LIC 138的一部分或者它还可以被存储在它的存储设备中的一个上,并且从系统控制台120进行接收和/或更新。
在F.Baitinger等人的:“System control structure of the IBM eServerz900”(IBM J.Res.&Dev.,Vol.46,No.4/5,2002)中描述了(主)服务处理器(以及它的从属服务处理器)的冗余实现以及对硬件单元的访问。该服务处理器被用冗余的服务组件所扩充,其充当系统控制台120的代理并且给系统管理员提供直接用户接口。该服务组件和该系统控制台120还可被实现为计算机系统,其中该系统控制台120是独立的计算机而该服务组件被内嵌在计算机110里。
已经确认,电源和制冷设备132可被实现成单独的设备。设备132是允许计算机110进行工作的基础结构的一部分。I/O通道133可以像通常在现有技术里所提供和所公知的那样由一个或多个I/O适配器来形成。此外,I/O通道133可被连接到磁盘、磁带、终端、LAN(局域网)、打印机或其它I/O设备或I/O子系统。
LIC模块138可作为系统固件在处理器集合134、135、136、137里的一个或多个处理器上运行,供用于内部的目的,例如与硬件控制台120进行通信或实现诸如STSI(存储系统信息)之类的复杂的指令。
在资源方面,硬件配置100提供处理器能力、存储装置以及I/O路径。整个处理器能力主要由处理器的数目、单个处理器的性能、高速缓存的大小和高速缓存的访问效率所确定。主存储装置130提供用于存储指令(程序)和数据的存储器。
处理器集合134、135、136、137被实现为现场可替换的硬件单元,其被插在计算机110里,并包括它们的VPD。该系统VPD从所有这些硬件单元的VPD中聚集。
图2示出根据本发明的处理器集合134的一种可能的实现。处理器集合134包括功能性部分140、和非功能性部分141。功能性部分140对计算机110的能力做出贡献。非功能性部分属于使计算机110能够工作的基础结构;特别地它是所谓的系统控制结构的一部分。
功能性部分140包括包含着两个或更多处理器的处理器多芯片模块(MCM)142和高速缓冲存储器143。MCM 142和高速缓存143二者都可以被服务处理器131访问。MCM里的芯片中的一个包含不可改变的ECID(工程芯片标识符)144,其是在该芯片的制造期间被生成的。ECID144对于该特定的芯片是唯一的。在相同或不同的MCM上的其它芯片具有不同的ECID。
在MCM 142里所包含的处理器中的至少一个必须被保留用于专门执行LIC 138。这种被保留的处理器被称作SAP(系统辅助处理器)并被用于通过处理来自它所执行的系统固件里的其它处理器的所有I/O请求来改善计算机110的整个I/O性能。不是SAP的处理器被称作CP(中央处理单元)。
处理器集合134的非功能性部分141包括第一SEEPROM 145。在本发明的一个实施例中,非功能性部分141还包括第二SEEPROM 146。例如,智能芯片可以代替SEEPROM被用作非易失性存储器。第一SEEPROM 145和第二SEEPROM 146可以被服务处理器131例如经由标准的内部集成电路(I2C)总线进行访问。
第一SEEPROM包含处理器集合134的VPD 147。在处理器集合134的制造期间,VPD 147被创建并被存储在SEEPROM 145里。VPD 147可以以已加密的形式被存储。在本发明的优选实施例中,VPD 147被用ECID144进行编码并用只对制造过程是已知的密钥进行加密。在那种情况下,服务处理器131能够使用公钥对VPD 147进行解密并且能够通过使用ECID 144对VPD 147进行解码。
因为当功能性部分140出现故障时ECID 144的完整性可能不再被保证而且ECID 144可能不再被服务处理器131所访问,所以在制造期间ECID 144的拷贝148被以明文或已加密的形式存储在第二SEEPROM 146里。非功能性部分141发生故障的可能性与功能性部分140发生故障的可能性相比可以被忽略。
对克隆ECID 144的拷贝148和克隆VPD 147的增加的曝光可以由已加密的时间戳所补偿,该已加密的时间戳是由服务处理器131在它第一次检测到该处理器集合的功能性部分140发生故障的时候以及可选地通过核实相应的故障部分是否仍被插在计算机110里来添加到第二SEEPROM146的。该时间戳被用于确定直到何时该VPD 147被服务处理器131视为失效的有效时间(expiration time)。该有效时间可以是正常的服务周期时间(例如,一周),从而可以保证故障硬件单元134可以直到该有效时间到达之前被替换。在该有效时间之后,服务处理器131将从系统VPD移除VPD 147,并且当系统VPD将被构建时它将不使用VPD 147。
计算机110的工作可以被分为三个阶段:上电、正常工作和(可选地)断电。在上电阶段,所有硬件和系统固件都被初始化并且被启动到计算机系统如在它的体系结构里所限定的那样进行工作的点。在随后的正常工作阶段期间,在计算机110上操作系统被启动(被引导)、执行并终止。在最后的断电阶段,硬件和固件被准备从而其后可安全地将该计算机系统从电力网络中断开连接。上电阶段的启动也被称为上电复位,因为即使当计算机110从最后的正常工作阶段以来未从电力网络中断开连接时,计算机110里的所有易失性的状态信息都被(或者可能都被)丢失。
在上电阶段期间,服务处理器131基于各硬件单元在计算机110里的物理位置将硬件单元初始化到预定状态。特别地,它通过使用JTAG(联合测试关联专家组,IEEE1149.1边界扫描标准)或其它的替换接口将启动样式扫描进被链起的锁存器里,对处理器集合134中的MCM 142里的所有芯片进行初始化。其后,它通过使用JTAG接口来初始化并控制MCM142和高速缓存143里的芯片的内装自测(BIST),针对它们的正确的行为对MCM 142和高速缓存143里的芯片进行测试。
如果BIST中的一个失败了(例如当高速缓冲存储器143的控制器发生故障时),则整个处理器集合134被标记为损坏并被从计算机110隔离。如果可能,处理器集合134被带到限定的状态从而它被从计算机110隔离并且可以不影响它的行为。在大多数情况下,处理器集合134中的许多部件中只有一个具有较小的损坏,并且对处理器集合134的隔离将能进行而不会带来任何问题。
根据本发明,仅仅功能性部分140被隔离,而非功能性部分141仍然保留由服务处理器131使用。对于其它硬件单元,其它特殊的测试被用于核实它们的正确行为;例如参见L.C.Alves等人的:“RAS design of theIBM eServer z900”,IBM J.Res.&Dev.,Vol.46,No.4/5,2002。对不同的硬件单元的初始化和测试可以被并行地执行。
在服务处理器131已经初始化并测试了硬件单元之后,它读取它的VPD并将它存储在主存储装置130中。如果硬件单元被隔离,则它的VPD仍然可以被从非功能性部分读取,因为非功能性部分未被隔离。接着,故障硬件单元的VPD的拷贝将被在主存储装置130里标记为发生故障。一旦所有的硬件单元都被初始化并且故障硬件单元被从计算机110中隔离,则在主存储装置130里的各种硬件单元的VPD的拷贝被合并进系统VPD,其也被存储在主存储装置130里。
特别地,系统VPD包含每个硬件单元的启用限定数据。对于处理器集合134,该启用限定数据限定了作为SAP的MCM 142的处理器的数目、作为CP的MCM 142的处理器的数目以及作为备用处理器的MCM 142的处理器的数目。备用处理器是将不被启用的休眠资源。高速缓存143只可以被MCM 142的处理器使用并且不可以通过该启用限定数据被启用或停用。
当系统VPD被构建在主存储装置130中时,服务处理器131替换系统VPD里的故障硬件单元中的损失的资源:对于故障硬件单元的每个被启用的资源,如果等效的休眠资源可用则就启用它。例如,对于在处理器集合134的VPD里的被标记为已启用的处理器,来自处理器集合135、136、137之一的、被标记为休眠的另一处理器在系统VPD里被改变成已启用。
当针对损失的资源的替换步骤完成时,服务处理器131将LIC 138装载到所有可用的CP和SAP并且启动系统固件。该步骤常被称为IML(初始微码装载)。当IML已经完成时,计算机110的正常工作阶段就开始了。装载和启动操作系统的随后的步骤被称为IPL(初始程序装载)。在IML期间,系统固件使用主存储装置130里的系统VPD中的启用限定数据来确定哪些资源必须被启用以及哪些资源必须被保持未被使用作为休眠资源。系统固件仅使已启用的资源对于操作系统是可用的。
图3概述了用于构建系统VPD的步骤。在步骤300中,将确定对硬件单元的测试是否成功。如果测试是成功的,则在步骤310中硬件单元的VPD被读取并被存储在主存储装置130里。接着,在步骤320中确定是否存在更多的待处理的硬件单元。如果存在,则重复步骤300。否则,在步骤330中构建系统VPD。如果对硬件单元的测试不成功,则在步骤340中该硬件单元的功能性部分被从系统隔离。接着,在步骤350中,该故障硬件单元的VPD被读取并被存储在主存储装置130中,其中它被标记为发生故障。其后,在步骤320中确定是否存在更多的待处理的硬件单元。如果否,在步骤330中构建系统VPD。
在系统VPD被构建之后,接着在步骤360中休眠资源被启用直到在该系统VPD里的被标记为已启用的故障硬件单元的所有资源都被这些休眠资源所替换或者没有任何更多的可被启用的休眠资源可用为止。接着,在该系统VPD里的被标记为已启用的所有资源在它们的VPD被标记为发生故障时都被标记为停用。这确保了属于未出故障的硬件单元的所有已启用的资源。
在本发明的一个实施例中,硬件单元的VPD包含隔离信息,该隔离信息限定了由服务处理器131在它将该硬件单元从系统隔离时所执行的动作。接着,在在步骤350中读取VPD之后,在步骤340中执行对硬件单元的隔离。
故障处理器集合134可以在服务工作期间被替换。现场的工程师触发将处理器集合134从硬件控制台120上的计算机110配置中逻辑地移除。接着,通过拔出故障处理器集合134来将它从计算机110中物理地移除。接着,作为替代,替换部分将被插入计算机110中。在最后的步骤中,该替换部分将被逻辑地添加到计算机110配置。该步骤再次由现场工程师在硬件控制台120上触发。
故障处理器集合134的整个替换过程可以与计算机110的正常工作阶段并发地执行。当处理器集合134被逻辑地从系统配置中移除时,接着它的VPD被从该系统VPD中移除。当处理器集合134的替换部分被逻辑地添加到系统配置时,接着如同在上电阶段期间那样它被测试。当所有这些测试都成功时,接着它的VPD将被读取并添加到该系统配置。否则,替换部分也将被从计算机110中隔离。
接着,在主存储装置130里的它的启用限定数据的拷贝被服务处理器131基于在步骤360中由休眠资源进行的资源补偿等级来修改并且被添加到系统VPD中。如果该故障处理器集合的所有已启用资源都被休眠资源替换,则替换部分的所有资源变成了休眠资源。否则,将被启用的资源的数目是由没有任何休眠资源被剩余用于对其进行替换的故障处理器集合134的资源的数目来给定的。未被启用的替换部分的剩下的资源在正常工作期间变成了休眠资源。
一旦系统VPD被更新,则服务处理器将初始化被新启用的资源;例如,对于新的CP和SAP,它将对这些处理器执行局部IML。接着,它将通知系统固件关于配置改变,其接着将使新的资源成为一整体。如果操作系统的正在运行的实例能够检测并添加新的资源,则它可以立即使用它们。否则,它将在下一次IPL中使用它们。
例如,在美国专利申请2003/0120914中所描述的能力虚拟器(virtualizer)(用硬件、软件/固件、或二者来实现)可以立即使用新的资源;例如,用于平衡工作量。这种能力虚拟器的例子是IBM zSeries 990的LPAR(逻辑分区)管理程序。它用作将物理资源分开成包括虚拟计算机的多组虚拟资源的逻辑功能。
在计算机110的下一个上电阶段中,在主存储装置130里的系统VPD被丢失,因为该主存储装置或者被硬件清除(因为电源连接被停用)或者它被服务处理器131在上电阶段期间清除。如果故障硬件单元的替换部分在步骤300中通过了测试,则它的VPD被合并在系统VPD里,特别地它的启用限定数据被用于启用它的资源。来自其它处理器集合135、136、137的任何休眠资源都不会被启用来替换该替换部分的资源。
对故障硬件单元的替换还可以在计算机110未连接到电源网络时被执行。接着,不一定要使用针对系统配置的任何逻辑添加/移除步骤。本发明不受限于计算机的上电阶段。它还可在计算机系统的正常工作期间被使用。各种其它检测故障硬件单元的方法是可能的。也不存在对服务处理器的需要:例如,它的任务可以由在计算机系统中的一个或多个处理器上被执行的系统固件来完成。
专用SAP对于本发明而言不是必需的。然而,除了SAP和CP里的处理器的区别以外,启用限定数据里的多种其它区别也是可能的。例如,在IBM zSeries eServer 990里,处理器也可被用作IFL(用于Linux的集成的工具)、ICF(集成的耦合工具)、以及zAAP(zSeries应用辅助处理器)。
如果硬件单元的能力是通过不仅在物理粒度级别上而且在逻辑粒度级别上启用或停用物理资源可以调整的,则本发明也可以被使用。这种情形的例子是系统固件对处理器性能的降低,该系统固件通过连续执行与运行在该处理器上的操作系统并发的程序代码来永久地分派处理器能力。在这种情况下,需要用于调整逻辑级别的信息可被包含在启用限定数据里并也被考虑进来。
VPD可被存储在计算机系统的任何类型的存储设备里。它可在硬件制造时被存储。然而,当计算机已经被安装在客户地点时,还可能将VPD经由电话线、经由LAN、或其它通信手段传送给计算机系统。此外,还可能使用相同的存储装置用于VPD和ECID二者。各种对称和非对称的加密方法可被用于VPD,例如DES方法和RSA方法。用于使用ECID来对VPD进行编码的各种方法也是可能的,其包括根本就不使用ECID。
本发明可以用硬件、软件、或硬件和软件的组合来实现。它优选地被实现为软件、一系列的机器可读指令,特别是被实现为一个或多个硬件机器上执行的所谓的固件,其控制并监视这些硬件机器并常被用于实现对于该硬件的被很好地限定了的接口,其可被其它程序(特别是操作系统)使用。
尽管已经示出并描述了特定的实施例,但是本发明的各种修改对于本领域的技术人员而言是显而易见的。

Claims (10)

1.一种用于在具有休眠资源的数据处理系统(110)中重新配置功能性能力的方法,包括以下步骤:
-在所述数据处理系统上电期间检测硬件单元(134)是否发生故障;
-从检测到的故障硬件单元中的未出故障的非功能性部分(141)读取(350)配置数据(147),所述配置数据指明了所述故障硬件单元的功能性能力;
-分析所述数据处理系统的所有硬件单元(134、135、136、137)的配置数据,以识别与所述故障硬件单元的功能性能力等效的休眠资源;
-启用所述数据处理系统的已识别的休眠资源来替换(360)所述故障硬件单元的至少某些功能性能力;
其中在从检测到所述故障硬件单元的误动作以来的预置时间已经过去了之后,将该已读出的配置数据标记成失效。
2.根据权利要求1所述具有休眠资源的数据处理系统中重新配置功能性能力的方法,其中当误动作被检测到(300)时所述故障硬件单元(340)中的故障部分(140)被从所述数据处理系统隔离。
3.根据权利要求1或2中所述的具有休眠资源的数据处理系统中重新配置功能性能力的方法,其中硬件单元(134、135、136、137)的配置数据被用该硬件单元中所存储的不可改变的标识符(144)进行编码,该方法包括另外的以下步骤:
-读取所述唯一的标识符的拷贝(148);
-用所述唯一的硬件标识符的所述拷贝来解码所述硬件单元的所述配置数据。
4.根据权利要求1或2中所述的具有休眠资源的数据处理系统中重新配置功能性能力的方法,包括进一步的以下步骤:
-在所述数据处理系统正常工作期间调换所述故障硬件单元;
-分析在没有被调换的硬件单元时所述故障硬件单元的哪些功能性能力不可被替换并且被丢失了;
-仅启用所述被调换的硬件单元的丢失了的功能性能力;
-将所述被调换的硬件单元的剩下的功能性能力配置成休眠资源。
5.根据权利要求4所述的具有休眠资源的数据处理系统中重新配置功能性能力的方法,其中在所述数据处理系统的下一次上电时根据所述被调换的硬件单元的配置数据来启用所述被调换的硬件单元的所有功能性能力。
6.一种数据处理系统(110),包括用于实现根据权利要求1至5中的任何一个的方法的装置。
7.根据权利要求6所述的数据处理系统,其中硬件单元(134、135、136、137)的配置数据被存储在所述硬件单元的非功能性部分(141)的第一非易失性存储器(145)中并且被用来自所述硬件单元的功能性部分(140)的芯片(142)的唯一的芯片标识符(144)进行编码,并且硬件单元的所述非功能性部分在第二非易失性存储器(146)中包含所述唯一的芯片标识符的拷贝(148)。
8.根据权利要求6或7所述的数据处理系统,其中根据权利要求1至5中的任何一个所述的方法是由服务处理器(131)来执行的。
9.根据权利要求6或7所述的数据处理系统,其中根据权利要求1至5中的任何一个的方法是由所述数据处理系统的系统固件(138)部件来执行的。
10.根据权利要求6或7所述的数据处理系统,其中所述数据处理系统的系统固件(138)包括能力虚拟器。
CN2006800254660A 2005-07-12 2006-02-16 数据处理系统中重新配置功能性能力的方法和系统 Active CN101223508B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP05106372.5 2005-07-12
EP05106372 2005-07-12
PCT/EP2006/060010 WO2007006592A2 (en) 2005-07-12 2006-02-16 Method and system for reconfiguring functional capabilities in a data processing system with dormant resources

Publications (2)

Publication Number Publication Date
CN101223508A CN101223508A (zh) 2008-07-16
CN101223508B true CN101223508B (zh) 2010-05-26

Family

ID=36659935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006800254660A Active CN101223508B (zh) 2005-07-12 2006-02-16 数据处理系统中重新配置功能性能力的方法和系统

Country Status (5)

Country Link
US (1) US7536604B2 (zh)
EP (1) EP1902368B1 (zh)
CN (1) CN101223508B (zh)
TW (1) TWI417744B (zh)
WO (1) WO2007006592A2 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7454687B2 (en) * 2005-07-06 2008-11-18 International Busniess Machines Corporation Method and infrastructure for recognition of the resources of a defective hardware unit
US8185731B2 (en) * 2007-09-25 2012-05-22 International Business Machines Corporation Device for configuring functional capabilities in a data processing system
US20090172576A1 (en) * 2007-12-28 2009-07-02 Nixon Cheaz Method and System for Enabling and Disabling Features of a Computer Application Using a Preview Mode Within a Graphical User Interface
US8196143B2 (en) 2008-05-05 2012-06-05 International Business Machines Corporation Storing resource information
US9838697B2 (en) 2014-06-25 2017-12-05 Qualcomm Incorporated Multi-layer video coding
US9955150B2 (en) * 2015-09-24 2018-04-24 Qualcomm Incorporated Testing of display subsystems
CN105679377B (zh) * 2016-01-11 2018-07-03 福州瑞芯微电子股份有限公司 CPU cache存储器的自适应测试方法及装置
US10496811B2 (en) * 2016-08-04 2019-12-03 Data I/O Corporation Counterfeit prevention
US9715466B1 (en) * 2016-09-23 2017-07-25 International Business Machines Corporation Processing input/output operations in a channel using a control block
US10134139B2 (en) 2016-12-13 2018-11-20 Qualcomm Incorporated Data content integrity in display subsystem for safety critical use cases

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1164708A (zh) * 1996-03-19 1997-11-12 株式会社东芝 计算机系统及其软件故障恢复方法
US6697979B1 (en) * 1997-12-22 2004-02-24 Pact Xpp Technologies Ag Method of repairing integrated circuits
US20050044220A1 (en) * 2003-08-05 2005-02-24 Sajeev Madhavan Method and system of managing computing resources

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3787816A (en) * 1972-05-12 1974-01-22 Burroughs Corp Multiprocessing system having means for automatic resource management
JPS58501602A (ja) * 1981-09-18 1983-09-22 クリスチャン ロプシング エ−・エス マルチプロセッサ・コンピュ−タシステム
US6018812A (en) * 1990-10-17 2000-01-25 501 Charles Stark Draper Laboratory, Inc. Reliable wafer-scale integrated computing systems
US5812757A (en) * 1993-10-08 1998-09-22 Mitsubishi Denki Kabushiki Kaisha Processing board, a computer, and a fault recovery method for the computer
EP0787328B1 (en) * 1995-08-11 2002-10-23 International Business Machines Corporation Method for verifying the configuration of a computer system
JP3892998B2 (ja) * 1999-09-14 2007-03-14 富士通株式会社 分散処理装置
US6550020B1 (en) * 2000-01-10 2003-04-15 International Business Machines Corporation Method and system for dynamically configuring a central processing unit with multiple processing cores
US7194616B2 (en) * 2001-10-27 2007-03-20 International Business Machines Corporation Flexible temporary capacity upgrade/downgrade in a computer system without involvement of the operating system
US6931568B2 (en) * 2002-03-29 2005-08-16 International Business Machines Corporation Fail-over control in a computer system having redundant service processors
TWI225218B (en) * 2002-08-29 2004-12-11 Faraday Tech Corp Decoding method for decoding instructions in an executing package
EP1573552B1 (en) * 2002-12-20 2007-09-05 International Business Machines Corporation Method and system for alternatively activating a replaceable hardware unit
JP4478580B2 (ja) 2002-12-20 2010-06-09 インターナショナル・ビジネス・マシーンズ・コーポレーション 交換可能ハードウェア・ユニットを二者択一的に活動化するための方法およびシステム
KR100553920B1 (ko) * 2003-02-13 2006-02-24 인터내셔널 비지네스 머신즈 코포레이션 컴퓨터 클러스터 운영 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1164708A (zh) * 1996-03-19 1997-11-12 株式会社东芝 计算机系统及其软件故障恢复方法
US6697979B1 (en) * 1997-12-22 2004-02-24 Pact Xpp Technologies Ag Method of repairing integrated circuits
US20050044220A1 (en) * 2003-08-05 2005-02-24 Sajeev Madhavan Method and system of managing computing resources

Also Published As

Publication number Publication date
EP1902368B1 (en) 2015-10-14
US7536604B2 (en) 2009-05-19
WO2007006592A3 (en) 2007-04-19
TW200712920A (en) 2007-04-01
CN101223508A (zh) 2008-07-16
US20070011407A1 (en) 2007-01-11
WO2007006592A2 (en) 2007-01-18
EP1902368A2 (en) 2008-03-26
TWI417744B (zh) 2013-12-01

Similar Documents

Publication Publication Date Title
CN101223508B (zh) 数据处理系统中重新配置功能性能力的方法和系统
CN109471770B (zh) 一种系统管理方法和装置
CN102207879B (zh) Lua脚本热更新方法及系统
CN114116280B (zh) 交互式bmc自恢复方法、系统、终端及存储介质
US10706691B2 (en) Switching dual virtual self-service terminals (SSTs)
EP1943593B1 (en) Methods and apparatus for automatically multi-booting a computer system
CN112148485A (zh) 超融合平台故障恢复方法、装置、电子装置和存储介质
CN109783390A (zh) Psu固件升降级稳定性测试方法、装置、终端及存储介质
CN109614153A (zh) 多核芯片及系统
CN101515834B (zh) 一种主控卡、基于多备份主控卡的切换系统及其切换方法
EP3534259B1 (en) Computer and method for storing state and event log relevant for fault diagnosis
CN116266150A (zh) 一种业务恢复方法、数据处理单元及相关设备
CN101008900A (zh) 一种区分系统冷启动和热启动的方法及装置
CN114008545B (zh) 连接到微处理器的可配置存储器设备
JP7063315B2 (ja) 情報処理装置、管理プログラム、管理方法、および、情報処理システム
US9645857B2 (en) Resource fault management for partitions
CN111176878A (zh) 一种服务器bbu备电诊断方法、系统、终端及存储介质
US9158666B2 (en) Computer system and computer system information storage method
CN107122228B (zh) 超融合系统的管理平台的部署方法和装置
EP2829974A2 (en) Memory dump method, information processing apparatus and program
CN116700801A (zh) 配置信息的管理方法、装置及服务器
CN101158920A (zh) 一种检测操作系统故障的方法和装置
EP0851352A2 (en) Input/output control device and method applied to fault-resilient computer system
US9690744B2 (en) Information processing apparatus and method for hot plug
CN114116306B (zh) 磁盘阵列掉电下的数据备份方法、系统、终端及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant