CN1326041C - 数据处理系统以及用于监视数据处理系统的方法 - Google Patents

数据处理系统以及用于监视数据处理系统的方法 Download PDF

Info

Publication number
CN1326041C
CN1326041C CNB2005100093079A CN200510009307A CN1326041C CN 1326041 C CN1326041 C CN 1326041C CN B2005100093079 A CNB2005100093079 A CN B2005100093079A CN 200510009307 A CN200510009307 A CN 200510009307A CN 1326041 C CN1326041 C CN 1326041C
Authority
CN
China
Prior art keywords
resource
subregion
idling
logout
data handling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005100093079A
Other languages
English (en)
Other versions
CN1696904A (zh
Inventor
法萨尔·M.·阿瓦达
乔·内森·布朗
菲利普·伯纳德·布克斯
小维克托·艾克斯皮诺扎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1696904A publication Critical patent/CN1696904A/zh
Application granted granted Critical
Publication of CN1326041C publication Critical patent/CN1326041C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0784Routing of error reports, e.g. with a specific transmission path or data flow
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5077Logical partitioning of resources; Management or configuration of virtualized resources

Abstract

本申请涉及数据处理系统以及用于监视数据处理系统的方法。具体地,本发明提供了一种系统、方法和计算机程序产品,用于监视能够从数据处理系统的空闲资源池分配给数据处理系统的不同分区的资源。一个空闲资源事件记录与空闲资源池相关联,用于保存空闲资源池中的每一个资源的事件记录。当一个资源从空闲资源池被分配给一个分区时,所分配资源的事件记录就从空闲资源事件记录转移到与该分区相关联的事件记录。

Description

数据处理系统以及用于监视数据处理系统的方法
技术领域
本发明总体上涉及数据处理领域,尤其涉及用于监视能够从数据处理系统的空闲资源池中被分配给数据处理系统的不同分区的资源的系统、方法和计算机程序产品。
背景技术
越来越多地,大型的对称多处理器数据处理系统不再是被用作单个的大型数据处理系统,而是被分区,用作多个较小的系统。这些系统通常被称为逻辑分区(LPAR,logical partitioned)数据处理系统。一个数据处理系统内的逻辑分区功能允许单个操作系统的多个拷贝或者多个异类操作系统在单个数据处理系统平台上同时运行。平台资源的一个不重叠子集被分配给其中运行一个操作系统的一个分区。这些平台资源可以包括一个或者多个不同架构的处理器,各有自己的中断管理区、系统存储区以及输入输出(I/O)适配器总线插槽。分区的资源由平台的固件提供给操作系统。
在一个平台内运行的每一个操作系统都受到保护不受其它操作系统的影响,从而一个逻辑分区中的软件错误不会影响任意其它分区中的正确操作。通过分配平台资源的要由每一个操作系统直接管理的不相交集合,并提供保证各操作系统不能控制没有分配给该系统的资源的机制,提供这种保护。另外,防止在控制操作系统的分配资源时的软件错误影响任意其它操作系统的资源。这样,每一个操作系统直接控制平台内的可分配资源的一个独立集合。
对于逻辑分区数据处理系统中的硬件资源,这些资源在各分区之间是被不相交地共享的。硬件资源例如可以包括输入输出(I/O)适配器、存储器DIMM、非易失性随机存取存储器(NVRAM)以及硬盘驱动器。
在自主数据处理系统中,例如在动态逻辑分区(DLPAR)数据处理系统或者处理能力按需动态升级(DCUoD,Dynamic CapacityUpgrade on Demand)数据处理系统中,可分配资源经常在空闲资源池和逻辑分区之间移动,以满足分区的动态工作负荷的要求。自主计算的一个重要方面是服务器自我修复的能力。实现自我修复的一种技术是数据处理系统用来自可用资源池的类似资源,或者用按需升级处理能力的资源(capacity upgrade on demand resource),来替代预计要失效的资源。失效预测一般是通过分析与每一个资源相关联的错误记录实现的。
实现数据处理系统的这种自我修复功能的一个问题在于,当资源在分区和空闲资源池之间移动时,也就是当资源在资源被分配给某个分区的状态和资源没有被分配给某个分区但是在需要时可用于分配的状态之间移动时,系统不能监视对某个资源记录的有关错误。尤其是,当一个资源从第一分区移动到空闲资源池,然后再被分配给第二分区时,在第一分区中时可能对该资源记录到的错误会丢失。如果与资源的故障预测有关的错误在该资源被分配给第一分区时被记录在该分区中,则当该资源被分配给第二分区时可能会意想不到地出现故障,这是因为对于第二分区中的预测故障分析(Predictive Failure Analysis(PFA)),无法考虑当被分配给第一分区时针对该资源记录的错误。
因此,希望能够精确地监视能够从数据处理系统的空闲资源池被分配给数据处理系统的不同分区的资源。
发明内容
本发明提供了一种系统、方法和计算机程序产品,用于监视能够从数据处理系统的空闲资源池被分配给数据处理系统的不同分区的资源。一个空闲资源事件记录与空闲资源池相关联,用于维护空闲资源池中的每一个资源的事件的记录。当一个资源从空闲资源池被分配给一个分区时,所分配资源的事件的记录就从空闲资源事件记录转移到与该分区相关联的事件记录。
本发明提供的一种数据处理系统包括:多个分区;空闲资源池,该空闲资源池保证至少一个能够从所述空闲资源池被分配给所述多个分区中的任何分区的资源,所述资源此时并没有被分配到所述多个分区中的任何一个分区;以及与所述空闲资源池相关联的空闲资源事件记录,用于保存所述空闲资源池中的所述至少一个资源中的每个资源的事件记录。
本发明提供一种监视数据处理系统中的资源的方法,所述数据处理系统具有多个分区,还包括空闲资源池,该空闲资源池保证至少一个能够从所述空闲资源池被分配给所述多个分区中的任何分区的资源,所述资源此时并没有被分配到所述多个分区中的任何一个分区,该方法包括:提供与所述空闲资源池相关联的空闲资源事件记录,用于保存所述至少一个资源中,在所述空闲资源池中的每个资源的事件记录。
本发明允许针对预测故障分析以及其它目的,精确地监视能够从数据处理系统的空闲资源池被分配给数据处理系统的不同分区的资源。
附图说明
在所附的权利要求中给出了被认为是本发明的特点的新颖特征。但是,本发明本身以及其使用的最优模式,以及其它的目的和优点,要在结合附图阅读对说明性实施例的详细说明之后才能得到最好的理解。附图中:
图1是可以实现本发明的数据处理系统的框图;
图2是可以实现本发明的举例的逻辑分区平台的框图;
图3A、3B和3C的示意图简要地图示了一种已知的用于监视能够从数据处理系统的空闲资源池被分配给数据处理系统的不同分区的资源的方法,用于帮助解释本发明;
图4A、4B和4C的示意图简要地图示了本发明的优选实施例的一种用于监视能够从数据处理系统的空闲资源池被分配给数据处理系统的不同分区的资源的方法;
图5的流程图图示了本发明的优选实施例的一种用于监视从数据处理系统的一个分区转移到空闲资源池的资源的方法;
图6的流程图图示了本发明的优选实施例的一种用于监视从数据处理系统的空闲资源池被分配到一个分区的资源的方法。
具体实施方式
现在看附图,图1图示了可以实现本发明的数据处理系统的框图。数据处理系统100可以是包括连接到系统总线106的多个处理器101、102、103和104的对称多处理器(SMP)系统。连接到系统总线106的还有存储器控制器/高速缓存108,其提供到多个本地存储器160-163的接口。I/O总线桥110连接到系统总线106,提供到I/O总线112的接口。存储器控制器/高速缓存108和I/O总线桥110可以如图所示集成在一起。
数据处理系统100是一个逻辑分区(logical partitioned(LPAR))数据处理系统。因此,数据处理系统100可以具有多个同时运行的异类操作系统(或者单个操作系统的多个实例)。这些操作系统都可具有在其中执行的任意数量的软件程序。数据处理系统100被逻辑分区,使得不同的PCI I/O适配器120-121、128-129以及136、图形适配器148和硬盘适配器149可以被分配给不同的逻辑分区。在此例中,图形适配器148为显示设备(未图示)提供连接,而硬盘适配器149提供控制硬盘150的连接。
这样,例如,假设数据处理系统100被分为三个逻辑分区P1、P2和P3。每一个PCI I/O适配器120-121、128-129、36、图形适配器148、硬盘适配器149,每一个主处理器101-104,以及来自本地存储器160-163的存储器,被分配给这三个分区中的每一个。在这些例子中,存储器160-163可以是双列直插存储器模块(DIMM)。DIMM一般不是按每个DIMM被分配给各分区。相反,一个分区可以获得平台所见的总存储空间的一部分。例如,处理器101、来自本地存储器160-163的存储空间的某些部分以及I/O适配器120、128和129可以被分配给逻辑分区P1;处理器102-103、来自本地存储器160-163的存储空间的某些部分以及PCI I/O适配器121和136可以被分配给逻辑分区P2;处理器104、来自本地存储器160-163的存储空间的某些部分、图形适配器148以及硬盘适配器149可以被分配给逻辑分区P3。
在数据处理系统100内执行的每一个操作系统被分配给不同的逻辑分区。这样,在数据处理系统100内执行的每一个操作系统只可以访问在其逻辑分区内的I/O单元。这样,例如,高级交互执行(AIX)操作系统的一个实例可以在分区P1内执行,AIX操作系统的第二实例(镜像)可以在分区P2内执行,LINUX或者OS/400操作系统可以在逻辑分区P3内工作。
连接到I/O总线112的外设部件互连(PCI)主桥(host bridge)114提供到PCI本地总线115的接口。多个PCI输入输出适配器120-121可以通过PCI到PCI桥116、PCI总线118、PCI总线119、I/O插槽170以及I/O插槽171连接到PCI总线115。PCI到PCI桥116提供到PCI总线118和PCI总线119的接口。PCI I/O适配器120和121分别被置入I/O插槽170和171内。典型的PCI总线实现能够支持4到8个I/O适配器(也就是用于内装连接器的扩展槽)。每一个PCI I/O适配器120-121提供数据处理系统100和输入输出设备之间的接口,输入输出设备例如是作为数据处理系统100的客户机的其它网络计算机。
另外一个PCI主桥122提供用于另外的PCI总线123的接口。PCI总线123连接到多个PCI I/O适配器128-129。PCI I/O适配器128-129可以通过PCI到PCI桥124,PCI总线126、PCI总线127、I/O插槽172和I/O插槽173连接到PCI总线123。PCI到PCI桥124提供到PCI总线126和PCI总线127的接口。PCI I/O适配器128和128分别被置入I/O插槽172和173内。这样,另外的I/O设备,比如调制解调器或者网络适配器可以通过每一个PCI I/O适配器128-129得到支持。这样,数据处理系统100允许连接到多个网络计算机。
插入到I/O插槽174的存储器映射图形适配器148可以通过PCI总线144、PCI到PCI桥142、PCI总线141和PCI主桥140连接到I/O总线112。硬盘适配器149可以被置入连接到PCI总线145的I/O插槽175。该总线又连接到PCI到PCI桥142,后者通过PCI总线141连接到PCI主桥140。
PCI主桥130为PCI总线131提供连接到I/O总线112的接口。PCI I/O适配器136连接到I/O插槽176,后者通过PCI总线133连接到PCI到PCI桥132。PCI到PCI桥132连接到PCI总线131。该PCI总线也将PCI主桥130连接到服务处理器邮箱接口和ISA总线访问传递逻辑(ISA bus access pass-through logic)194以及PCI到PCI桥132。服务处理器邮箱接口和ISA总线访问传递逻辑194转发以PCI/ISA桥193为目的地的PCI访问。NVRAM存储器192被连接到ISA总线196。服务处理器135通过其本地PCI总线195被耦接到服务处理器邮箱接口和ISA总线访问传递逻辑194。服务处理器135还通过多个JTAG/I2C总线134连接到处理器101-104。JTAG/I2C总线134是JTAG/扫描总线(见IEEE 1149.1)以及飞利浦I2C总线的组合。但是,作为替代方案,JTAG/I2C总线134也可以替换为飞利浦I2C总线或者JTAG/扫描总线。主处理器101、102、103和104的所有SP-ATTN信号被一起连接到服务处理器的中断输入信号。服务处理器135具有自己的本地存储器191,具有对硬件OP面板190的访问权。
当数据处理系统100最初加电时,服务处理器135使用JTAG/I2C总线134询问系统(主机)处理器101-104、存储器控制器/高速缓存108以及I/O桥110。在完成该步骤后,服务处理器135对数据处理系统100具有一个设备目录和拓扑结构方面的了解。服务处理器135还对通过询问主处理器101-104、存储器控制器/高速缓存108和I/O桥110找到的所有部件执行内部自检(Built-In-Self-Tests(BIST))、基本保证检验(Basic Assurance Tests(BATs))和存储器测试。在BIST、BAT和存储器测试期间检测到的故障的任意错误信息由服务处理器135进行收集和报告。
如果在将BIST、BAT和存储器测试期间找到的有故障的原件剔除之后还能够形成系统资源的有意义/有效配置,则允许数据处理系统100继续向本地(主机)存储器160-163装入可执行代码。服务处理器135然后释放主处理器101-104以执行装入本地存储器160-163的代码。当主处理器101-104执行来自数据处理系统100内的各操作系统的代码时,服务处理器135进入监视和报告错误的模式。由服务处理器135监视的项目类型包括,例如,冷却风扇的速度和工作情况,热传感器,电源调节器,处理器101-104,本地存储器160-163以及I/O桥110报告的可恢复的和不可恢复的错误。
服务处理器135负责保存和报告与数据处理系统100中所有被监视项目有关的错误信息。服务处理器135还根据错误的类型和所定义的阈值采取行动。例如,服务处理器135可以注意处理器的高速缓存上的过多的可恢复错误,从而判断这预示着硬错误。根据该判断,服务处理器135可以将该资源标记为在当前的运行期间和未来的初始程序装入(IPL)过程中退出配置。IPL有时也称为“引导”或者“自引导”。
本领域的普通技术人员知道,图1所示的硬件是可以变化的。例如,除了图示的硬件之外或者取代图1所示的硬件,还可以使用其它外围设备,比如光盘驱动器等。图示的例子不是要对本发明进行结构上的限制。
见图2,其中图示了可以实现本发明的举例的逻辑分区平台的框图。逻辑分区平台200中的硬件可以被实现为,例如,图1中的数据处理系统100。逻辑分区平台200包括分区的硬件230、操作系统202、204、206、208以及分区管理固件210。操作系统202、204、206和208可以是单个操作系统的多个拷贝,或者是同时在逻辑分区平台200上运行的多个异类操作系统。利用可从国际商用机器公司(International Business Machine Corporation of Armonk,NewYork)购得的OS/400操作系统可实现这些操作系统,OS/400操作系统被设计为与分区管理固件比如Hypervisor(管理程序)相互作用。OS/400只是用作这些说明性实施例中的一个例子。当然,取决于具体的实现,其它类型的操作系统也可以使用,比如AIX和LINUX。操作系统202、204、206和208位于分区203、205、207和209中。Hypervisor(管理程序)软件是可以用来实现分区管理固件210的软件的一个例子,可以从国际商用机器公司获得。固件是存储在不需电能也能保持其内容的存储器芯片上的“软件”。所述存储器芯片比如是只读存储器(ROM)、可编程ROM(PROM)、可擦可编程ROM(EPROM)、电可擦可编程ROM(EEPROM)以及非易失性随机存取存储器(非易失性RAM)。
另外,这些分区还包括分区固件211、213、215和217。分区固件211、213、215和217可以用初始引导代码、IEEE-1275标准开放固件(IEEE-1275 Standard Open Firmware)以及可从国际商用机器公司获得的运行时摘要软件(runtime abstraction software(RTAS))来实现。当分区203、205、207和209被实例化时,引导程序代码的一个拷贝由平台固件210装入分区203、205、207和209。之后,控制转移到引导程序代码,引导程序代码然后装入开放固件和RTAS。与分区相关或者被分配给分区的处理器然后被分派给分区的存储器以执行分区固件。
被分区的硬件230包括多个处理器232-238、多个系统存储器单元240-246、多个输入输出(I/O)适配器248-262以及存储单元270。每一个处理器232-238、存储器单元240-246、NVRAM存储器298和I/O适配器248-262可以被分配给逻辑分区平台200中的多个分区之一,每一个分区对应于操作系统202、204、206和208之一。
分区管理固件210对分区203、205、207和209执行许多功能和服务,以创立和实施逻辑分区平台200的分区。分区管理固件210是用固件实现的与底层硬件相同的虚拟机。这样,通过将逻辑分区平台200的所有硬件资源虚拟化,分区管理固件210允许同时执行独立的OS镜像202、204、206和208。
服务处理器290可以用来提供各种服务,比如处理分区中的平台错误。这些服务也可以作为将错误报告给供货商比如国际商用机器公司的服务代理。不同分区的操作可以通过硬件管理控制台比如硬件管理控制台280加以控制。硬件管理控制台280是一个单独的数据处理系统,系统管理员可以从该数据处理系统执行各种功能,包括向不同分区重新分派资源。
图3A、3B和3C的示意图简要地图示了一种已知的用于监视能够从数据处理系统的空闲资源池被分配给数据处理系统的不同分区的资源的方法,用于帮助解释本发明。图3A图解了具有包括分区302和304的多个逻辑分区以及空闲资源池306的数据处理系统300的第1种状态。操作系统312在分区302中运行,操作系统314在分区304中运行。
三个资源320、322和324被分配给分区302,三个资源330、332和334被分配给分区304,三个资源340、342和344目前未被分配给任何分区,并被保持在空闲资源池306中。空闲资源池306中的资源340、342和344可用于在需要时分配给数据处理系统300中的多个分区中的任何分区,包括分区302和304。资源320-324、330-334和340--344例如可以是I/O适配器或者通过I/O适配器连接到系统300的设备。
事件记录352与分区302相关联,事件记录354与分区304相关联。事件记录352和354分别保持与分配给分区302和304的每一个资源相关联的事件的记录。所述事件可以是资源所遇到的某些出错情况的结果,或者与资源相关联的消息的信息类型。事件记录中的事件一般被用于根据对资源的事件历史的分析对资源的故障进行预测。
如图3A所示,与分区302相关联的事件记录352包括被分配给分区302的每一个资源320、322和324的事件记录。与分区304相关联的事件记录354包括被分配给分区304的每一个资源330、332和334的事件记录。
图3B图解了数据处理系统300的第2种状态。在第2种状态中,例如由于已满足分区304对资源332的临时需要的结果,资源332已经从分区304被移动到空闲资源池306。如图3B所示,在资源332移动到空闲资源池306之后,与分区304相关联的事件记录354中资源332的事件仍然留在事件记录354中。
图3C图解了数据处理系统300的第3种状态。在第3种状态中,例如由于需要满足分区302的增加的I/O要求,资源332已经从空闲资源池306被分配给分区302。注意,当资源332被分配给304时所发生的资源332的事件仍然留在与分区304相关联的事件记录354中。
图4A、4B和4C的示意图简要地图示了根据本发明的一个优选实施例的一种用于监视能够从数据处理系统的空闲资源池被分配给数据处理系统的不同分区的资源的方法。图4A图解了具有包括分区402和404的多个逻辑分区以及空闲资源池406的数据处理系统400的第1种状态。操作系统412在分区402中运行,操作系统414在分区404中运行。
三个资源420、422和424被分配给分区402,三个资源430、432和434被分配给分区404,三个资源440、442和444当前没有被分配给任何分区,被保留在空闲资源池406中。空闲资源池中的资源440、442和444可用于在需要时分配给数据处理系统400中的多个分区中的任何分区,包括分区402和404。
图4A-4C所示的数据处理系统400与图3A-3C所示的数据处理系统300的不同之处在于数据处理系统400包括与空闲资源池406相关联的空闲资源事件记录(FREL)456。FREL 456包括空闲资源池406中的资源的事件记录。具体地,在FREL 456中记录的事件是当资源被分配给数据处理系统400中的某个分区比如分区402和404之一时,对资源440、442和444发生的事件的结果。
在图4A所图示的数据处理系统400的第1种状态下,FREL 456包括空闲资源池406中的资源440、442和444的事件记录。
图4B图解了数据处理系统400的第2种状态。在第2种状态中,由于已满足分区404中对资源432的临时需要,资源432已经从分区404移动到空闲资源池406。如图4B所示,与分区404相关联的事件记录454中关于资源432的事件记录已经随同资源432向空闲资源池406的移动一起从事件记录454移动到FREL 456。这样,在第2种状态中,除了留在FREL 456中的资源440、442和444的资源的事件记录之外,FREL 456还包括资源432的事件记录。
图4C图解了数据处理系统的第3种状态。在第3种状态中,资源432已经从空闲资源池406被分配给分区402。如图4C所示,FREL456中与资源432相关联的事件也已随同资源432从空闲资源池406向分区402的移动从FREL 456移动到与分区402相关联的事件记录452。
在图3A-3C所图示的系统300中,当资源332被分配给分区304或者数据处理系统300的任何其它分区时,分区302中的操作系统312看不到资源332的事件历史。这种信息的缺乏会妨碍应用程序对资源332作出准确的故障预测,从而可能会发生资源332在被分配给分区302时发生故障而不报警的情况。
另一方面,在图4A-4C所图示的系统400中,操作系统412看得见资源432的完整事件历史,因而能够根据资源432先前被分配给数据处理系统400的另一个分区时的在先事件历史,并根据在资源432当前被分配给分区402期间可能发生的任何新事件,更准确地预测资源432的故障。
图5的流程图图解了根据本发明的一个优选实施例,监视从数据处理系统的一个分区转移到空闲资源池的资源的方法。该方法总体上用附图标记500表示,一开始是判断资源是否应当从分区移动到空闲资源池(步骤502)。如果不是,则该方法返回。如果是,则判断在与分区相关联的事件记录中是否有该资源的事件(步骤504)。如果没有,则将该资源转移到空闲资源池,方法结束。如果有,则将该分区的事件记录中与该资源相关联的事件拷贝到空闲资源池中的FREL(步骤506),方法结束。所述事件也可以从该分区的事件记录中被删除(步骤506),或者,该分区的事件记录可以保留所移动的资源的事件记录。在后一种可选的情况下,如果以后该资源又从空闲资源池被重新分配给该分区,那么不转移FREL中该资源的作为记录在该分区的事件记录中的错误的副本的任何事件。在该可选的实施例中,FREL还保持对资源发生了事件的特定分区的记录,以及该资源的事件的数量。
图6的流程图图解了根据本发明的一个优选实施例,监视从数据处理系统的空闲资源池被分配给分区的资源的方法。该方法总体上用附图标记600表示,一开始是判断资源是否要从空闲资源池移动到分区(步骤602)。若否,则方法返回。若是,则判断与空闲资源池相关联的FREL是否有对该资源记录的事件(步骤604)。若无,则将该资源分配给该分区,方法结束。若是,则将FREL中该资源的事件拷贝到该分区的事件记录,并删除FREL中该资源的事件记录(步骤606),该方法结束。
使用本发明,在从空闲资源池向分区分配资源的数据处理系统中,与一个分区相关联的操作系统能够看见与当前分配给该分区的资源相关联的所有事件。因此,能够根据对该资源记录的事件的全系统的总览,更准确地判断特定资源何时应当被更换。这减少了把资源分配给分区时资源故障的出现。
另外,使用本发明,应用程序能够更好地判断相同的资源当中哪些资源应当被分配给需要另外的资源以针对关键应用提供服务的分区。例如,如果某个资源的预测故障阈值为某一类型的10个错误,并且FREL中该资源的记录表明对该资源已经发生了八次错误,则应用程序可以决定使用记录的错误更少或者没有错误记录的另一个相同资源,以降低出现故障或者必需进行延期维护的风险。
总之,本发明提供了一种监视能够从数据处理系统的空闲资源池被分配给数据处理系统的不同分区的资源的方法、设备和系统。本发明允许在数据处理系统工作期间从空闲资源池向不同分区分配资源时,精确地监视与资源相关的错误或者其它事件。
重要的是要注意到,尽管对本发明的描述是在全功能数据处理系统的上下文中进行的,本领域的普通技术人员知道,本发明的处理过程能够以指令的计算机可读介质的形式以及多种形式分布,无论实际用于进行所述分布的信号承载介质的具体类型如何,本发明都同样适用。计算机可读介质的例子包括可记录类型的介质,比如软盘、硬盘驱动器、RAM、CD-ROM、DVD-ROM,以及传输类型的介质,比如数字和模拟通信链路,使用诸如射频和光波传输等传输形式的有线或者无线通信链路。计算机可读介质可以采用编码格式的形式,所述编码格式被解码以实际用于具体的数据处理系统。
上面对本发明的说明是为了解释和说明的目的,不是要穷尽本发明或者将本发明限于所公开的形式。对于本领域普通技术人员,许多修改和变化都是显而易见的。上述实施例的选择和描述是为了更好地解释本发明的原理和其实际应用,并使本领域的普通技术人员能够理解本发明的针对所能想到的具体用途进行了各种适当的修改的各种实施例。

Claims (15)

1.一种数据处理系统,包括:
多个分区;
空闲资源池,该空闲资源池保证至少一个能够从所述空闲资源池被分配给所述多个分区中的任何分区的资源,所述资源此时并没有被分配到所述多个分区中的任何一个分区;以及
与所述空闲资源池相关联的空闲资源事件记录,用于保存所述空闲资源池中的所述至少一个资源中的每个资源的事件记录。
2.如权利要求1所述的数据处理系统,其中,所述空闲资源事件记录保存当所述至少一个资源被分配给所述多个分区中的任何分区时,关于每个所述至少一个资源发生的事件的记录。
3.如权利要求2所述的数据处理系统,其中,一个事件记录与所述多个分区中的每一个相关联,其中,当一个资源从所述空闲资源池被分配给一个分区时,该资源的事件从所述空闲资源事件记录被转移到该分区的事件记录。
4.如权利要求2所述的数据处理系统,其中,一个事件记录与所述多个分区的每一个相关联,其中,当一个资源从一个分区移动到所述空闲资源池时,该资源的事件从该分区的事件记录转移到所述空闲资源事件记录。
5.如权利要求1所述的数据处理系统,其中,所述至少一个资源包括多个资源,其中,所述空闲资源事件记录保存所述多个资源中在所述空闲资源池中的每个资源的事件记录。
6.如权利要求1所述的数据处理系统,其中,所述事件包括与所述至少一个资源相关联的信息。
7.如权利要求1所述的数据处理系统,其中,所述事件包括所述至少一个资源遇到的错误。
8.如权利要求1所述的数据处理系统,其中,所述数据处理系统包括动态逻辑分区数据处理系统。
9.如权利要求1所述的数据处理系统,其中,所述数据处理系统包括按需建立动态处理能力的数据处理系统。
10.一种监视数据处理系统中的资源的方法,所述数据处理系统具有多个分区,还包括空闲资源池,该空闲资源池保证至少一个能够从所述空闲资源池被分配给所述多个分区中的任何分区的资源,所述资源此时并没有被分配到所述多个分区中的任何一个分区,该方法包括:
提供与所述空闲资源池相关联的空闲资源事件记录,用于保存所述至少一个资源中,在所述空闲资源池中的每个资源的事件记录。
11.如权利要求10所述的方法,其中,当所述至少一个资源被分配给所述多个分区中的任何分区时,发生所述至少一个资源中的每个资源的事件。
12.如权利要求11所述的方法,其中,一个事件记录与所述多个分区中的每一个相关联,该方法还包括:当一个资源从所述空闲资源池被分配给一个分区时,将该资源的事件从所述空闲资源事件记录转移到该分区的事件记录。
13.如权利要求11所述的方法,其中,一个事件记录与所述多个分区的每一个相关联,该方法还包括:当一个资源从一个分区移动到所述空闲资源池时,将该资源的事件从该分区的事件记录转移到所述空闲资源事件记录。
14.如权利要求12所述的方法,还包括:当所述资源从所述空闲资源池被分配给所述分区时,从所述空闲资源事件记录删除该资源的事件记录。
15.如权利要求13所述的方法,还包括:当所述资源从所述分区移动到所述空闲资源池时,从所述分区的事件记录删除该资源的事件记录。
CNB2005100093079A 2004-05-13 2005-02-18 数据处理系统以及用于监视数据处理系统的方法 Expired - Fee Related CN1326041C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/845,534 2004-05-13
US10/845,534 US8024544B2 (en) 2004-05-13 2004-05-13 Free resource error/event log for autonomic data processing system

Publications (2)

Publication Number Publication Date
CN1696904A CN1696904A (zh) 2005-11-16
CN1326041C true CN1326041C (zh) 2007-07-11

Family

ID=35349640

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100093079A Expired - Fee Related CN1326041C (zh) 2004-05-13 2005-02-18 数据处理系统以及用于监视数据处理系统的方法

Country Status (3)

Country Link
US (1) US8024544B2 (zh)
CN (1) CN1326041C (zh)
TW (1) TWI352287B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100636268B1 (ko) * 2004-01-27 2006-10-19 삼성전자주식회사 임베디드 멀티태스크 운영체제를 사용하는 시스템에서운영체제의 소프트웨어 모듈 상태 감시 장치 및 그 방법
US7428622B2 (en) * 2004-09-28 2008-09-23 Akhil Tulyani Managing disk storage media based on access patterns
JP2007109085A (ja) * 2005-10-14 2007-04-26 Sony Computer Entertainment Inc 発熱制御方法、装置およびシステム
US9530110B2 (en) * 2006-05-03 2016-12-27 Ca, Inc. Autonomic management of autonomous management systems
JP5180729B2 (ja) * 2008-08-05 2013-04-10 株式会社日立製作所 計算機システム及びバス割当方法
US9069730B2 (en) * 2009-06-29 2015-06-30 Hewlett-Packard Development Company, L. P. Coordinated reliability management of virtual machines in a virtualized system
US8352702B2 (en) * 2009-12-17 2013-01-08 International Business Machines Corporation Data processing system memory allocation
US9110878B2 (en) * 2012-01-18 2015-08-18 International Business Machines Corporation Use of a warning track interruption facility by a program
US11537480B1 (en) * 2014-09-30 2022-12-27 Acronis International Gmbh Systems and methods of backup and recovery of journaling systems
CN106681835B (zh) * 2016-12-28 2019-04-05 华为技术有限公司 资源分配的方法和资源管理器
CN112019454A (zh) * 2019-05-29 2020-12-01 潘仲光 资源处理方法、设备及存储介质
US10877820B1 (en) * 2019-09-30 2020-12-29 Arm Limited Application event delivery

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6279098B1 (en) * 1996-12-16 2001-08-21 Unisys Corporation Method of and apparatus for serial dynamic system partitioning
US6477682B2 (en) * 1998-09-24 2002-11-05 Sun Microsystems, Inc. Technique for partitioning data to correct memory part failures
WO2003071424A2 (en) * 2002-02-21 2003-08-28 International Business Machines Corporation Apparatus and method of dynamically repartitioning a computer system in response to partition workloads
US6701464B2 (en) * 2001-03-01 2004-03-02 International Business Machines Corporation Method and system for reporting error logs within a logical partition environment

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4528624A (en) * 1981-03-25 1985-07-09 International Business Machines Corporation Method and apparatus for allocating memory space based upon free space in diverse memory devices
US5875477A (en) * 1995-12-22 1999-02-23 Intel Corporation Method and apparatus for error management in a solid state disk drive using primary and secondary logical sector numbers
US7065380B2 (en) * 2001-07-19 2006-06-20 Texas Instruments Incorporated Software partition of MIDI synthesizer for HOST/DSP (OMAP) architecture
US20030163651A1 (en) * 2002-02-26 2003-08-28 International Business Machines Corporation Apparatus and method of transferring data from one partition of a partitioned computer system to another
US7237176B2 (en) * 2004-01-12 2007-06-26 Hewlett-Packard Development Company, L.P. Partitioning data for error correction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6279098B1 (en) * 1996-12-16 2001-08-21 Unisys Corporation Method of and apparatus for serial dynamic system partitioning
US6477682B2 (en) * 1998-09-24 2002-11-05 Sun Microsystems, Inc. Technique for partitioning data to correct memory part failures
US6701464B2 (en) * 2001-03-01 2004-03-02 International Business Machines Corporation Method and system for reporting error logs within a logical partition environment
WO2003071424A2 (en) * 2002-02-21 2003-08-28 International Business Machines Corporation Apparatus and method of dynamically repartitioning a computer system in response to partition workloads

Also Published As

Publication number Publication date
US20050268065A1 (en) 2005-12-01
US8024544B2 (en) 2011-09-20
TWI352287B (en) 2011-11-11
TW200612244A (en) 2006-04-16
CN1696904A (zh) 2005-11-16

Similar Documents

Publication Publication Date Title
CN1326041C (zh) 数据处理系统以及用于监视数据处理系统的方法
KR100530710B1 (ko) 이종 분할 시스템에서의 글로벌 에러 보고 방법 및 장치
US6842870B2 (en) Method and apparatus for filtering error logs in a logically partitioned data processing system
CN100456249C (zh) 逻辑分区的数据处理系统及其中管理共享资源的方法
US6920587B2 (en) Handling multiple operating system capabilities in a logical partition data processing system
US11050637B2 (en) Resource lifecycle optimization in disaggregated data centers
CN102597962B (zh) 用于虚拟计算环境中的故障管理的方法和系统
US7055071B2 (en) Method and apparatus for reporting error logs in a logical environment
CN1329838C (zh) 消除分区间转换存储通道和分区分析的方法和设备
CN101202764B (zh) 确定虚拟以太网适配器的链路状态的方法和系统
US6865688B2 (en) Logical partition management apparatus and method for handling system reset interrupts
US6910160B2 (en) System, method, and computer program product for preserving trace data after partition crash in logically partitioned systems
CN1707462B (zh) 逻辑分区数据系统及其传输数据的方法
US20070260910A1 (en) Method and apparatus for propagating physical device link status to virtual devices
CN103890714A (zh) 涉及基于集群的资源池的主机感知资源管理的系统和方法
US20140115382A1 (en) Scheduling Workloads Based on Detected Hardware Errors
CN1702625A (zh) 保存跟踪数据的方法和装置
US20090083467A1 (en) Method and System for Handling Interrupts Within Computer System During Hardware Resource Migration
US7904564B2 (en) Method and apparatus for migrating access to block storage
US20210191798A1 (en) Root cause identification of a problem in a distributed computing system using log files
US7266631B2 (en) Isolation of input/output adapter traffic class/virtual channel and input/output ordering domains
US8139595B2 (en) Packet transfer in a virtual partitioned environment
US7302690B2 (en) Method and apparatus for transparently sharing an exception vector between firmware and an operating system
US20140122850A1 (en) Non-interrupting performance tuning using runtime reset
US7275185B2 (en) Method and apparatus for device error log persistence in a logical partitioned data processing system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070711

Termination date: 20220218

CF01 Termination of patent right due to non-payment of annual fee