CN100405311C - 用于计算机系统中的多个分区的错误监视的方法 - Google Patents

用于计算机系统中的多个分区的错误监视的方法 Download PDF

Info

Publication number
CN100405311C
CN100405311C CNB2006100003236A CN200610000323A CN100405311C CN 100405311 C CN100405311 C CN 100405311C CN B2006100003236 A CNB2006100003236 A CN B2006100003236A CN 200610000323 A CN200610000323 A CN 200610000323A CN 100405311 C CN100405311 C CN 100405311C
Authority
CN
China
Prior art keywords
subregion
state
supervisor
subjected
partition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2006100003236A
Other languages
English (en)
Other versions
CN1801106A (zh
Inventor
P·R·孔达耶里
R·K·库尔卡尼
M·米斯拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1801106A publication Critical patent/CN1801106A/zh
Application granted granted Critical
Publication of CN100405311C publication Critical patent/CN100405311C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2043Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share a common memory address space

Abstract

一种用于计算机系统中的分区的错误监视的方法和计算机程序产品。全局监控者映射(GSM)将每个受监控分区与监视所述受监控分区的监控者分区相关联。分区状态缓冲区(PSB)指示所述分区的状态(GOOD、BAD、NOCARE)。所述BAD状态表示所述分区遇到了至少一个当前未修复的错误。所述监控者分区从所述全局监控者映射来确定其受监控分区并从所述分区状态缓冲区来确定其受监控分区的状态。如果所述受监控分区的状态为BAD,则所述监控者分区执行恢复过程。所述恢复过程包括:获得访问所述受监控分区的物理和逻辑资源的许可,所述资源包含所述受监控分区的错误数据;收集所述错误数据;以及将所述受监控分区的状态设置为所述NOCARE状态。

Description

用于计算机系统中的多个分区的错误监视的方法
技术领域
本发明涉及计算机系统中的分区的错误监视。
背景技术
在具有多个分区的数据处理系统中,如果分区由于一个或多个错误而停止,则不能立即或很快地获得有关一个或多个错误的性质和起因的信息。因此,从一个或多个错误成功地恢复可能很困难,或者不得不被推迟到分区的下一次成功重新引导时。因此,需要一种促进从一个或多个错误及时恢复分区的方法。
发明内容
本发明提供了一种用于计算机系统中的多个分区的错误监视的方法,每个分区都具有其自己的操作系统,所述计算机系统包括在所述操作系统之间或之中调停的系统管理程序,所述方法包括执行存储在所述计算机系统的至少一个计算机可用介质上的计算机可读程序代码,所述执行包括:
提供以一对一映射的方式将每个分区与从所述多个分区选择的监控者分区相关联的全局监控者映射(GSM);
为所述多个分区中的每个分区提供分区状态缓冲区(PSB),所述分区状态缓冲区指示所述分区的状态,所述状态从包括BAD状态和NOCARE状态的状态组来选择,所述BAD状态表示所述分区遇到了至少一个当前未修复的错误;
由所述监控者分区中的第一监控者分区确定与所述全局监控者映射中的所述第一监控者分区关联的分区,该分区与被表示为受监控分区的所述第一监控者分区关联;
从所述分区状态缓冲区确定所述受监控分区的状态;
如果所述确定步骤确定所述受监控分区的状态不是BAD状态,则退出所述方法,否则执行恢复过程,所述恢复过程包括:
由所述第一监控者分区获得访问所述受监控分区的物理和逻辑资源的许可;
由所述第一监控者分区收集与所述受监控分区有关的错误数据,从所述受监控分区的所述物理和逻辑资源进行所述收集;以及
在所述分区状态缓冲区中将所述受监控分区的状态设置为NOCARE状态。
本发明提供了一种计算机程序产品,所述计算机程序产品包括至少一个其中包含计算机可读程序代码的计算机可用介质,所述计算机可读程序代码包括算法,所述算法适合于实现用于监视计算机系统中的多个分区的方法,每个分区都具有其自己的操作系统,所述计算机系统包括在所述操作系统之间或之中调停的系统管理程序,所述方法包括:
提供以一对一映射的方式将每个分区与从所述多个分区选择的监控者分区相关联的全局监控者映射(GSM);
为所述多个分区中的每个分区提供分区状态缓冲区(PSB),所述分区状态缓冲区指示所述分区的状态,所述状态从包括BAD状态和NOCARE状态的状态组来选择,所述BAD状态表示所述分区遇到了至少一个当前未修复的错误;
由所述监控者分区中的第一监控者分区确定与所述全局监控者映射中的所述第一监控者分区关联的分区,该分区与被表示为受监控分区的所述第一监控者分区关联;
从所述分区状态缓冲区确定所述受监控分区的状态;
如果所述确定步骤确定所述受监控分区的状态不是BAD状态,则退出所述方法,否则执行恢复过程,所述恢复过程包括:
由所述第一监控者分区获得访问所述受监控分区的物理和逻辑资源的许可;
由所述第一监控者分区收集与所述受监控分区有关的错误数据,从所述受监控分区的所述物理和逻辑资源进行所述收集;以及
在所述分区状态缓冲区中将所述受监控分区的状态设置为NOCARE状态。
本发明有利地促进了从与分区有关的错误及时地恢复计算机系统的所述分区。
附图说明
图1示出了根据本发明的实施例的计算机系统的分区、系统管理程序和共享存储器资源;
图2示出了根据本发明的实施例的图1的系统管理程序;
图3示出了根据本发明的实施例的图1的一个分区;
图4示出了根据本发明的实施例的包括全局监控者映射和错误日志区域的图1的共享存储器资源;
图5示出了根据本发明的实施例的其中具有错误表项的图4的错误日志区域;
图6示出了根据本发明的实施例的图5的错误表项中的内容;
图7示出了根据本发明的实施例的图4的全局监控者映射;
图8示出了根据本发明的实施例的图2的分区状态缓冲区;
图9示出了根据本发明的实施例的与分区的错误监视结合使用的计算机系统;
图10-13示出了根据本发明的实施例的共同描述了用于分区的错误监视的方法的流程图。
具体实施方式
本发明描述了一种包括检测和报告分区错误的分区错误监视方法。所述错误可以导致分区出现故障(即,变得不能工作)。图1-9描述了作为本发明的基础的硬件、软件和数据结构。图10-13示出了共同描述了用于计算机系统中的分区的错误监视的本发明的方法的流程图。
图1示出了根据本发明的实施例的计算机系统10的N个分区、系统系统管理程序12和共享存储器资源36。计算机系统10还具有硬件配置(即,处理器、存储设备、输入/输出设备等),其中例如以下描述的图9中的计算机系统90中示出的硬件配置。在图1中,所述分区被表示为分区1、分区2、...、分区N,其中N至少是2。每个分区都共享整个计算机系统10的资源(处理器、存储器、输入/输出等)以便所述分区适合于用作具有其自己的操作系统的自主计算机系统。系统管理程序12调停分区之间的数据移动、控制分区之间的数据访问以及防止某一分区的存储器由于其他分区中错误而受到损害。如以下将描述的,结合本发明的分区错误监视方法来使用系统管理程序12。
共享存储器资源36可以包括非易失性随机存取存储器(NVRAM)。共享存储器资源36位于所述N个分区之外并被所述N个分区所共享。共享存储器资源36的内容将结合图4在以下进行描述。
每个分区都具有从包括GOOD状态、BAD状态和NOCARE状态的一组状态中选择的状态。在任意给定时刻,分区只具有一个状态。如以下描述的,每个分区的状态被存储在图2和8的分区状态缓冲区(PSB)26中。具有GOOD状态的分区没有遇到当前未修复的错误。具有BAD状态的分区遇到了至少一个当前未修复的错误。具有NOCARE状态的分区被指派了NOCARE状态(如下所述,参见图12的步骤64)以响应判定该分区具有BAD状态(如下所述,参见图11的步骤53)。具有NOCARE状态的分区的事件扫描例程将不会执行图13的算法,其中图13将在以下进行描述。因此,遇到至少一个当前未修复的错误的分区可以具有BAD状态(在图12的步骤64的执行之前)或NOCARE状态(在图12的步骤64的执行时)。当修复具有NOCARE状态的分区遇到的所述至少一个错误时,该分区被指派GOOD状态(其替代了NOCARE状态)。
每个分区的状态被存储在系统管理程序12(参见图2,将在以下描述)内的分区状态缓冲区26中。分区状态缓冲区26包括分别对应于N个分区的N个存储区域,以便N个存储区域的存储区域K存储分区K的状态,K=1、2、...、N。图8示出了20个分区(即,N=20)的情况下的分区状态缓冲区26的一个实例,其中根据本发明的实施例来存储20个分区中的每个分区的状态(GOOD、BAD或NOCARE)。存储在分区状态缓冲区26中的状态可以是任何格式。例如,N个存储区域中的每个存储区域都可以包括用于每个分区的一个字节的存储器。每个这样的存储器字节都包括足够的位来表示最大的可能状态数(例如,每个字节包括至少2个位以用于3种状态GOOD、BAD和NOCARE,这3种状态可以分别被表示为00、01和02)。作为另一个实例,可以通过字符串来表示所述状态(例如,状态GOOD、BAD和NOCARE可以被分别表示为“G”、“B”或“N”,或被分别表示为“GOOD”、“BAD”或“NOCARE”)。当计算机系统10(参见图1)引导时,由系统管理程序12将N个分区的状态初始地指派给分区状态缓冲区26。当系统管理程序12检测到分区状态的更改时,分区状态缓冲区26被更新。
在本发明中,每个分区都被另一个称为“监控者分区”的分区所监控(即,监视)。换言之,“监控者分区”监控(即,监视)“受监控分区”以确定所述受监控分区具有何种状态(例如,GOOD、BAD或NOCARE)。如下文所述,如图4的共享存储器资源36内的全局监控者映射(GSM)24中所指定的,受监控分区与关联的监控者分区之间存在一对一的对应(即,映射)。全局监控者映射24可以以任何格式(如算法或数据结构)来表达。所述算法适合于生成全局监控者映射24中受监控分区与对应的监控者分区之间的映射关系。所述数据结构可以包括文件、表、算法等。例如,图7示出了根据本发明的实施例的作为表的全局监控者映射24,该表显示了受监控分区与关联的监控者分区之间的示例性一对一关系。图7中示出的全局监控者映射24是“升序顺序分区号映射”的一个实施例。图7中的全局监控者映射24可以出于任何原因(例如,其中包括为说明被破坏并且不再用作监控者分区的分区)而被动态地更改。例如,当分区获得BAD状态时,图7中的全局监控者映射24可以被动态地更改。作为另一个实例,图7中的全局监控者映射24可以被动态地更改为“升序顺序分区号映射”的更通用的实施例,其中监控者分区被动态地指派从低到高的编号,使得下一个较高编号的分区成为先前较低编号的GOOD分区(即,具有GOOD状态的分区)的监控者,并且最高编号的GOOD分区使最低编号的GOOD分区作为其监控者。
图2示出了根据本发明的实施例的图1的系统管理程序12。系统管理程序12包括分区状态缓冲区26(如上所述)、分区状态固件例程16以及访问许可固件例程14。分区状态缓冲区26根据以下描述的图11的步骤52来确定分区1、2、...、N的状态(GOOD、BAD、NOCARE)。系统管理程序12还包括访问许可固件例程14,该例程14根据以下描述的图12的步骤61许可“监控者”分区(其可以是分区1、2...、N中的任何分区)访问“受监控”分区的资源。
图3示出了根据本发明的实施例的表示图1的N个分区中的任何分区的分区30。分区30包括硬件32、操作系统33和事件扫描例程34。硬件32(即,处理器、存储器、输入/输出等)与必要的软件一起足以使得分区30能够用作自主的计算机系统。在以下对图9的讨论中,分区30的硬件32将涉及计算机系统90的硬件。操作系统33是软件包的一部分,其与硬件32一起使得分区30能够用作自主的计算机系统。如以下将描述的,事件扫描例程34与本发明的分区错误监视方法结合使用。
图4示出了图1的共享存储器资源36。根据本发明的实施例,共享存储器资源36包括全局监控者映射24和N个错误日志区域(ELA)。共享存储器资源36可以包括一个物理数据存储设备的存储区域以便存储全局监控者映射24和N个错误日志区域。共享存储器资源36可以可替代地将全局监控者映射24和N个错误日志区域存储在多个物理数据存储设备的存储区域中。如上所述,图7提供了示出了全局监控者映射24的一个实例。
在图4中,N个错误日志区域被表示为错误日志区域(1)、错误日志区域(2)、...、错误日志区域(N),其分别与图1的分区1、分区2...分区N相关联。错误日志区域(I)包括与为分区I(其中I=1、2...、N)先前检测的一个或多个错误有关的信息和/或与以下描述的分区I监控的故障分区有关的一个或多个错误。图4中的N个错误日志区域中的每个区域都可以是存储数据的任何数据格式(如,文件格式、记录格式等)。图4中的N个错误日志区域中的每个区域都可以被相邻地存储在共享存储器资源36中。图4中的N个错误日志区域可以可替代地被不相邻地存储在共享存储器资源36中(例如,对于连续的错误表项具有固定的地址偏移量,通过从某个错误表项指向下一个连续错误表项的指针等)。以下将结合图5和6披露N个错误日志区域中的每个区域的内容。
图5示出了根据本发明的实施例的表示图4的N个错误日志区域中的任何区域的错误日志区域(ELA)38。错误日志区域38具有M个错误表项,表项(1)、表项(2)、...、表项(M),其中M=0或M是正整数。如果M=0,则错误日志区域38为空;即,错误日志区域38不包括任何错误表项。图5中的M个错误表项可以是存储数据的任何数据格式(即,文件格式、记录格式、公共硬件参考平台(CHRP)格式等)并且可以相邻地或不相邻地分布在错误日志区域38内。错误日志区域38中的每个错误表项都属于与错误日志区域38关联的分区中的单个检测的错误情况。所述单个检测的错误情况可以属于分区中导致分区发生故障的错误,或属于分区中不会导致分区发生故障的错误。
图6示出了根据本发明的实施例的图5的M个错误表项中的任何表项的数据内容。图6示出了错误表项包括以下项:分区标识符(PI)和错误描述符(ED)。PI和ED项可以相邻地或不相邻地分布在错误日志区域38内。分区标识符(PI)标识了具有检测到的错误的分区。错误描述符(ED)描述了所述分区的检测到的错误。错误描述符可以是用于描述检测到的错误的任何格式。例如,错误描述符可以包括代表特定错误情况的单个ASCII字符。作为另一个实例,错误描述符可以包括一般地标识错误(例如,输入/输出错误)的第一部分和包含更具体地描述错误(例如,诸如光盘驱动器之类的指定输入/输出数据存储设备的电源被禁用)的文本的第二部分。
图9示出了根据本发明的实施例的与分区的错误监视结合使用的计算机系统。计算机系统90包括图3的分区30的硬件32。计算机系统90包括处理器91、与处理器91相连的输入设备92、与处理器91相连的输出设备93以及都与处理器91相连的存储设备94和95。输入设备92可以是键盘、鼠标等。输出设备93可以是打印机、绘图仪、计算机屏幕、磁带、可移动硬盘、软盘等。存储设备94和95可以是硬盘、软盘、磁带、光学存储装置(如光盘(CD)或数字视频光盘(DVD))、动态随机存取存储器(DRAM)、只读存储器(ROM)等。存储设备95包括计算机代码97。计算机代码97包括与分区的错误监视结合使用的算法。处理器91执行计算机代码97。存储设备94包括输入数据96。输入数据96包括计算机代码97所需的输入。输出设备93显示来自计算机代码97的输出。存储设备94和95之一或两者(或者一个或多个图9中未示出的其他存储设备)可以被用作其中包含计算机可读程序代码和/或其中存储有其他数据的计算机可用介质(或计算机可读介质或程序存储设备),其中所述计算机可读程序代码包括计算机代码97。通常,计算机系统90的计算机程序产品(或者,可替代地,制品)可以包括所述计算机可用介质(或所述程序存储设备)。虽然图9示出了作为硬件和软件的特定配置的计算机系统90,但是出于上述目的,如本领域的技术人员公知的硬件和软件的任何配置都可以与图9的特定计算机系统90结合使用。例如,存储设备94和95可以是单个存储设备的一部分,而不是单独的存储设备。
图9的计算机系统90描述了图1的总体计算机系统10的硬件配置,其中图1的总体计算机系统10包括N个分区,并且其中图9中的计算机代码97表示图1的总体计算机系统10所使用的任何软件(例如,图1的系统管理程序12)。图9的计算机系统90还描述了图3的分区30的硬件32,其中图9中的计算机代码97表示图3的分区30所使用的任何软件(例如,图3中的操作系统33和事件扫描例程34)。因此,共同实现本发明的分区错误监视方法的总体计算机代码或软件可以位于至少一个计算机可用介质上。图1的N个分区可以共享图9中示出的某些硬件资源(例如,图1中的共享存储器资源36,其可以由图9的存储设备94和95中的至少一个来表示)。
图10-13示出了根据本发明的实施例的共同描述了用于计算机系统中的分区的错误监视的方法的流程图。由图7的一个或多个计算机代码97来实现与图10-13关联的算法。
图10是包括初始化本发明的分区错误监视方法的步骤41-43的流程图。步骤41提供了已经结合图4和7在以上描述的全局监控者映射24。如以上说明的,在步骤41中被最初地生成之后,全局监控者映射24可以被动态地更改。步骤42提供了已经结合图2和8在以上描述的分区状态缓冲区26。如以上说明的,当系统管理程序12检测到分区的状态时,分区状态缓冲区26被更新。步骤43提供了已经结合图4-6在以上描述的N个错误日志区域(即,错误日志区域(1)、错误日志区域(2)、...、错误日志区域(N))。在执行了图10的初始化步骤41-43后,每个监控者分区被定期地执行,或按照图11根据调度算法来执行。
图11是包括由每个监控者分区执行的步骤51-53的流程图。在步骤51中,监控者分区调用其事件扫描例程来确定该监控者分区被指派进行监控的受监控分区。所述监控者分区通过直接分析全局监控者映射24来从全局监控者映射24(参见图4和7)确定受监控分区,或者通过调用方法(例如,调用图1的系统管理程序12的子程序)从全局监控者映射24的分析来确定受监控分区。
在图11的步骤52中,监控者分区确定受监控分区的状态(例如,GOOD、BAD或NOCARE状态)。为了确定受监控分区的状态,监控者分区的事件扫描例程调用系统管理程序12的分区状态固件例程16(参见图2)。分区状态固件例程16从分区状态缓冲区26(参见图2和8)的分析来确定受监控分区的状态。
步骤53判定受监控分区的状态是否为BAD状态。如果判定受监控分区的状态不是BAD状态,则退出图12的方法。如果判定受监控分区的状态是BAD状态,则接着执行图12的恢复过程。
图12是包括用于实现恢复过程(由于图11的步骤53中的受监控分区具有BAD状态的判定,其意味着受监控分区遇到了至少一个当前未修复的错误)的步骤61-64的流程图。图12的恢复过程通过使监控者分区访问来自受监控分区的资源的有关数据来促进所述至少一个错误的修复。
在步骤61中,监控者分区调用系统管理程序12(参见图2)的访问许可固件例程14以获得访问受监控分区的物理和逻辑资源(例如,存储器、硬件寄存器等)的许可。在被许可所述访问时,受监控分区进入监控模式,使得监控者分区被系统管理程序12看作受监控分区。
在步骤62中,处于监控模式中的监控者分区通过查看具有BAD状态的受监控分区的物理和逻辑资源(例如,存储器和寄存器)来执行错误检查。在从受监控分区的物理和逻辑资源(例如,存储器数据和寄存器转储)收集了相关的错误数据后,监控者分区退出监控模式并将所述错误数据传送给自身(即,传送给监控者分区)。
在步骤63中,监控者分区在所述监控者分区的错误日志区域中生成错误日志(例如,以CHRP格式或其他适合的格式)。所述生成的错误日志包括与发生故障的受监控分区有关的、从步骤62中收集(从受监控分区的物理和逻辑资源)的相关错误数据得出的信息。例如,生成的日志可以包括在步骤62中收集的相关错误数据的子集和/或其标识。如以下描述的,生成的错误日志被与图13的步骤71-72结合使用。
在步骤64中,监控者分区将受监控分区的状态设置为NOCARE状态以防止监控者分区进入监控模式。
图13是包括步骤71-72的流程图,所述步骤由监控者分区的错误扫描例程执行以获得和报告来自监控者分区(与以上所述的图12中的恢复过程的步骤63中生成的错误日志有关)的错误日志区域中的表项的内容。
图13的步骤71扫描监控者分区的错误日志区域以查找已经在图12的步骤63中的监控者分区的错误日志区域中生成的受监控分区的错误日志。步骤71标识与受监控分区有关的错误表项。
图13的步骤72将与受监控分区(如从步骤71确定的)有关的每个错误表项报告给监控者分区的操作系统。所述错误表项的报告使得管理员或用户能够采取纠正操作来修复导致受监控分区获得BAD状态的错误。这使得错误表项(参见图6)的错误描述符(ED)中的错误的详细信息在受监控分区遇到错误后不久就可用。
尽管出于示例目的在此描述了本发明的各实施例,但是对于本领域的技术人员来说,许多修改和变化将是显而易见的。因此,所附权利要求旨在包括落入本发明的真实精神和范围内的所有这些修改和变化。

Claims (30)

1.一种用于计算机系统中的多个分区的错误监视的方法,每个分区都具有其自己的操作系统,所述计算机系统包括在所述操作系统之间或在操作系统内部调停的系统管理程序,所述方法包括:
提供以一对一映射的方式将每个分区与从所述多个分区选择的监控者分区相关联的全局监控者映射;
为所述多个分区中的每个分区提供分区状态缓冲区,所述分区状态缓冲区指示所述分区的状态,所述状态从包括BAD状态和NOCARE状态的状态组来选择,所述BAD状态表示所述分区遇到了至少一个当前未修复的错误;
由所述监控者分区中的第一监控者分区确定与所述全局监控者映射中的所述第一监控者分区关联的受监控分区;
从所述分区状态缓冲区确定所述受监控分区的状态;
如果所述确定步骤确定所述受监控分区的状态不是BAD状态,则退出所述方法,否则执行恢复过程,所述恢复过程包括:
由所述第一监控者分区获得访问所述受监控分区的物理和逻辑资源的许可;
由所述第一监控者分区收集与所述受监控分区有关的错误数据,
从所述受监控分区的所述物理和逻辑资源进行所述收集;以及
在所述分区状态缓冲区中将所述受监控分区的状态设置为NOCARE状态。
2.根据权利要求1的方法,其中所述方法还包括在所述第一监控者分区的错误日志区域中存储与从所述受监控分区的所述物理和逻辑资源收集的所述错误数据有关的信息,所述存储由所述第一监控者分区来执行。
3.根据权利要求2的方法,其中所述方法还包括:
扫描所述第一监控者分区的所述错误日志区域以查找一个或多个错误表项的存在,所述错误表项包括与从所述受监控分区的所述物理和逻辑资源收集的所述错误数据有关的信息;以及
报告包括由所述扫描确定为存在的所述一个或多个错误表项中的每个错误表项的信息。
4.根据权利要求3的方法,其中所述多个分区中的每个分区都具有事件扫描例程,并且其中所述扫描和报告由所述第一监控者分区的所述事件扫描例程来执行。
5.根据权利要求3的方法,其中所述报告包括将所述信息报告给所述第一监控者分区的所述操作系统。
6.根据权利要求1的方法,其中所述方法还包括在所述多个分区引导时初始化所述分区状态缓冲区。
7.根据权利要求1的方法,其中所述方法还包括在所述多个分区中的一个分区的状态被更改时更新所述分区状态缓冲区。
8.根据权利要求1的方法,其中对于所述多个分区中的每个分区,所述分区状态缓冲区都包括一个字节的存储器。
9.根据权利要求1的方法,其中所述确定所述受监控分区的状态包括由所述第一监控者分区调用所述系统管理程序的分区状态固件例程。
10.根据权利要求9的方法,其中所述多个分区中的每个分区都具有事件扫描例程,并且其中所述调用由所述第一监控者分区的所述事件扫描例程来执行。
11.根据权利要求1的方法,其中所述全局监控者映射是升序顺序分区号映射。
12.根据权利要求1的方法,其中所述方法还包括当所述多个分区中的一个分区获得所述BAD状态时更改所述全局监控者映射。
13.根据权利要求1的方法,其中所述获得访问许可包括调用所述系统管理程序的访问许可固件例程。
14.根据权利要求1的方法,其中所述全局监控者映射包含在数据结构中,并且其中所述数据结构位于所述计算机系统的共享存储器资源中。
15.根据权利要求14的方法,其中所述共享存储器资源包括非易失性随机存取存储器。
16.一种用于计算机系统中的多个分区的错误监视的设备,其中每个分区都具有其自己的操作系统,所述计算机系统包括在所述操作系统之间或在操作系统内部调停的系统管理程序,所述设备包括:
用于提供以一对一映射的方式将每个分区与从所述多个分区选择的监控者分区相关联的全局监控者映射的装置;
用于为所述多个分区中的每个分区提供分区状态缓冲区的装置,所述分区状态缓冲区指示所述分区的状态,所述状态从包括BAD状态和NOCARE状态的状态组来选择,所述BAD状态表示所述分区遇到了至少一个当前未修复的错误;
用于由所述监控者分区中的第一监控者分区确定与所述全局监控者映射中的所述第一监控者分区关联的受监控分区的装置;
用于从所述分区状态缓冲区确定所述受监控分区的状态的装置;
用于如果确定所述受监控分区的状态不是BAD状态,则退出所述错误监视的装置;
用于如果确定所述受监控分区的状态是BAD状态,则执行恢复过程的装置,其中所述执行恢复过程的装置包括:
用于由所述第一监控者分区获得访问所述受监控分区的物理和逻辑资源的许可的装置;
用于由所述第一监控者分区收集与所述受监控分区有关的错误数据的装置,其中从所述受监控分区的所述物理和逻辑资源进行所述收集;以及
用于在所述分区状态缓冲区中将所述受监控分区的状态设置为NOCARE状态的装置。
17.根据权利要求16的设备,其中由所述第一监控者分区在所述第一监控者分区的错误日志区域中存储与从所述受监控分区的所述物理和逻辑资源收集的所述错误数据有关的信息。
18.根据权利要求17的设备,还包括:
用于扫描所述第一监控者分区的所述错误日志区域以查找一个或多个错误表项的存在的装置,所述错误表项包括与从所述受监控分区的所述物理和逻辑资源收集的所述错误数据有关的信息;以及
用于报告包括由所述扫描确定为存在的所述一个或多个错误表项中的每个错误表项的信息的装置。
19.根据权利要求18的设备,其中所述多个分区中的每个分区都具有事件扫描例程,并且其中所述用于报告包括由所述扫描确定为存在的所述一个或多个错误表项中的每个错误表项的信息的装置是所述第一监控者分区的所述事件扫描例程。
20.根据权利要求18的设备,其中所述报告包括将所述信息报告给所述第一监控者分区的所述操作系统。
21.根据权利要求16的设备,还包括用于在所述多个分区引导时初始化所述分区状态缓冲区的装置。
22.根据权利要求16的设备,还包括用于在所述多个分区中的一个分区的状态被更改时更新所述分区状态缓冲区的装置。
23.根据权利要求16的设备,其中对于所述多个分区中的每个分区,所述分区状态缓冲区都包括一个字节的存储器。
24.根据权利要求16的设备,其中所述用于确定所述受监控分区的状态的装置通过由所述第一监控者分区调用所述系统管理程序的分区状态固件例程来确定所述受监控分区的状态。
25.根据权利要求24的设备,其中所述多个分区中的每个分区都具有事件扫描例程,并且其中所述调用由所述第一监控者分区的所述事件扫描例程来执行。
26.根据权利要求16的设备,其中所述全局监控者映射是升序顺序分区号映射。
27.根据权利要求16的设备,还包括用于当所述多个分区中的一个分区获得所述BAD状态时更改所述全局监控者映射的装置。
28.根据权利要求16的设备,其中所述获得访问许可包括调用所述系统管理程序的访问许可固件例程。
29.根据权利要求16的设备,其中所述全局监控者映射包含在数据结构中,并且其中所述数据结构位于所述计算机系统的共享存储器资源中。
30.根据权利要求29的设备,其中所述共享存储器资源包括非易失性随机存取存储器。
CNB2006100003236A 2005-01-04 2006-01-04 用于计算机系统中的多个分区的错误监视的方法 Active CN100405311C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/029,780 US7325163B2 (en) 2005-01-04 2005-01-04 Error monitoring of partitions in a computer system using supervisor partitions
US11/029,780 2005-01-04

Publications (2)

Publication Number Publication Date
CN1801106A CN1801106A (zh) 2006-07-12
CN100405311C true CN100405311C (zh) 2008-07-23

Family

ID=36642072

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100003236A Active CN100405311C (zh) 2005-01-04 2006-01-04 用于计算机系统中的多个分区的错误监视的方法

Country Status (2)

Country Link
US (4) US7325163B2 (zh)
CN (1) CN100405311C (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4295184B2 (ja) * 2004-09-17 2009-07-15 株式会社日立製作所 仮想計算機システム
US7321987B2 (en) * 2005-01-04 2008-01-22 International Business Machines Corporation Error monitoring of partitions in a computer system using partition status indicators
US7325163B2 (en) * 2005-01-04 2008-01-29 International Business Machines Corporation Error monitoring of partitions in a computer system using supervisor partitions
US8578385B2 (en) * 2005-04-21 2013-11-05 Microsoft Corporation Method and system for virtual service isolation
US8065441B2 (en) * 2005-08-19 2011-11-22 Intel Corporation Method and apparatus for supporting universal serial bus devices in a virtualized environment
US8078907B2 (en) * 2006-01-19 2011-12-13 Silicon Graphics, Inc. Failsoft system for multiple CPU system
US7657776B2 (en) * 2006-09-20 2010-02-02 Hewlett-Packard Development Company, L.P. Containing machine check events in a virtual partition
US7934121B2 (en) * 2006-11-21 2011-04-26 Microsoft Corporation Transparent replacement of a system processor
US7877358B2 (en) * 2006-11-21 2011-01-25 Microsoft Corporation Replacing system hardware
US8473460B2 (en) * 2006-11-21 2013-06-25 Microsoft Corporation Driver model for replacing core system hardware
US8086906B2 (en) 2007-02-15 2011-12-27 Microsoft Corporation Correlating hardware devices between local operating system and global management entity
WO2008120383A1 (ja) * 2007-03-29 2008-10-09 Fujitsu Limited 情報処理装置、障害処理方法
US8209683B2 (en) * 2007-04-17 2012-06-26 International Business Machines Corporation System and method for probing hypervisor tasks in an asynchronous environment
US7673169B1 (en) * 2007-05-09 2010-03-02 Symantec Corporation Techniques for implementing an adaptive data access error handling policy
US8082400B1 (en) * 2008-02-26 2011-12-20 Hewlett-Packard Development Company, L.P. Partitioning a memory pool among plural computing nodes
US9286080B2 (en) * 2008-07-02 2016-03-15 Hewlett-Packard Development Company, L.P. Memory management for hypervisor loading
US20100115508A1 (en) * 2008-10-30 2010-05-06 Lenovo Plug-in architecture for hypervisor-based system
US8151147B2 (en) * 2009-12-17 2012-04-03 Hewlett-Packard Development Company, L.P. Synchronize error handling for a plurality of partitions
US9449324B2 (en) 2010-11-11 2016-09-20 Sony Corporation Reducing TV licensing costs
US9329920B2 (en) 2011-03-31 2016-05-03 Hewlett-Packard Development Company, L.P. Supervisor system resuming control
US8762790B2 (en) 2011-09-07 2014-06-24 International Business Machines Corporation Enhanced dump data collection from hardware fail modes
CN104798046A (zh) * 2012-10-01 2015-07-22 Abb技术有限公司 对称多处理器布置、安全关键系统及其方法
US9021328B2 (en) 2013-01-15 2015-04-28 International Business Machines Corporation Shared error protection for register banks
US9041428B2 (en) 2013-01-15 2015-05-26 International Business Machines Corporation Placement of storage cells on an integrated circuit
US9201727B2 (en) 2013-01-15 2015-12-01 International Business Machines Corporation Error protection for a data bus
US9043683B2 (en) 2013-01-23 2015-05-26 International Business Machines Corporation Error protection for integrated circuits
WO2015029406A1 (ja) * 2013-08-29 2015-03-05 セイコーエプソン株式会社 送信システム、送信装置、及び、データ送信方法
US9842015B2 (en) * 2013-09-27 2017-12-12 Intel Corporation Instruction and logic for machine checking communication
KR20180039785A (ko) * 2016-10-10 2018-04-19 에스케이하이닉스 주식회사 메모리 시스템 및 메모리 시스템의 동작방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020152052A1 (en) * 2001-04-13 2002-10-17 Kaoru Tsuru Electronic apparatus for detecting an abnormal state, a method for detecting the abnormal state, a system of the electronic apparatus for detecting the abnormal state, a computer program for detecting the abnormal state and a computer-readable storage medium for recording the computer program for detecting the abnormal state
JP2002351855A (ja) * 2001-05-28 2002-12-06 Mitsubishi Electric Corp 計算機異常処理システムおよび、計算機異常処理方法および、計算機で動作する計算機異常処理プログラムおよび、コンピュータにより読み取り可能な記録媒体に記録された計算機異常処置プログラム
US20030233502A1 (en) * 2002-06-14 2003-12-18 Hitachi, Ltd. Method and apparatus for storage system
JP2004341779A (ja) * 2003-05-15 2004-12-02 Nec Corp コンピュータ相互監視方式および方法ならびにコンピュータ相互監視プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6438671B1 (en) * 1999-07-01 2002-08-20 International Business Machines Corporation Generating partition corresponding real address in partitioned mode supporting system
US6754855B1 (en) * 1999-12-01 2004-06-22 Microsoft Corporation Automated recovery of computer appliances
US6658591B1 (en) * 2000-06-08 2003-12-02 International Business Machines Corporation Recovery from data fetch errors in hypervisor code
US6567897B2 (en) * 2001-03-01 2003-05-20 International Business Machines Corporation Virtualized NVRAM access methods to provide NVRAM CHRP regions for logical partitions through hypervisor system calls
US6701464B2 (en) * 2001-03-01 2004-03-02 International Business Machines Corporation Method and system for reporting error logs within a logical partition environment
US6842870B2 (en) * 2001-09-20 2005-01-11 International Business Machines Corporation Method and apparatus for filtering error logs in a logically partitioned data processing system
US6920587B2 (en) * 2002-04-25 2005-07-19 International Business Machines Corporation Handling multiple operating system capabilities in a logical partition data processing system
US7325163B2 (en) * 2005-01-04 2008-01-29 International Business Machines Corporation Error monitoring of partitions in a computer system using supervisor partitions

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020152052A1 (en) * 2001-04-13 2002-10-17 Kaoru Tsuru Electronic apparatus for detecting an abnormal state, a method for detecting the abnormal state, a system of the electronic apparatus for detecting the abnormal state, a computer program for detecting the abnormal state and a computer-readable storage medium for recording the computer program for detecting the abnormal state
JP2002351855A (ja) * 2001-05-28 2002-12-06 Mitsubishi Electric Corp 計算機異常処理システムおよび、計算機異常処理方法および、計算機で動作する計算機異常処理プログラムおよび、コンピュータにより読み取り可能な記録媒体に記録された計算機異常処置プログラム
US20030233502A1 (en) * 2002-06-14 2003-12-18 Hitachi, Ltd. Method and apparatus for storage system
JP2004341779A (ja) * 2003-05-15 2004-12-02 Nec Corp コンピュータ相互監視方式および方法ならびにコンピュータ相互監視プログラム

Also Published As

Publication number Publication date
CN1801106A (zh) 2006-07-12
US7325163B2 (en) 2008-01-29
US7562262B2 (en) 2009-07-14
US20080005608A1 (en) 2008-01-03
US7770075B2 (en) 2010-08-03
US7516369B2 (en) 2009-04-07
US20090013147A1 (en) 2009-01-08
US20060149995A1 (en) 2006-07-06
US20080072104A1 (en) 2008-03-20

Similar Documents

Publication Publication Date Title
CN100405311C (zh) 用于计算机系统中的多个分区的错误监视的方法
CN102597962B (zh) 用于虚拟计算环境中的故障管理的方法和系统
US7941707B2 (en) Gathering information for use in diagnostic data dumping upon failure occurrence
CN100356335C (zh) 保存跟踪数据的方法和装置
US8314694B2 (en) System and method for suppressing redundant alarms
CN106294134B (zh) 代码的崩溃定位方法及装置
CN101025701A (zh) 存储器转储方法、存储器转储程序以及计算机系统
JP2010086099A (ja) ログ管理方法、ログ管理装置、ログ管理装置を備えた情報処理装置、及びプログラム
KR100990700B1 (ko) 정보 처리 장치, 장해 처리 방법, 및 장해 처리 프로그램을기록한 컴퓨터 판독 가능한 기록 매체
KR102232876B1 (ko) 디지털 설비의 고장 유형 분석 시스템 및 방법
EP2390739B1 (en) A method and apparatus for providing industrial plant information
CN115102838A (zh) 服务器宕机风险的应急处理方法和装置、电子设备
US20220035359A1 (en) System and method for determining manufacturing plant topology and fault propagation information
JP3682778B2 (ja) 故障措置システム、及び、故障要因特定方法
EP3820655B1 (en) Diagnosis method and apparatus
JP5696492B2 (ja) 故障検出装置、故障検出方法、及び、故障検出プログラム
JPH11120462A (ja) アラーム管理装置
JPH11188584A (ja) 稼動管理装置および稼動管理方法、記憶媒体
JP2010055305A (ja) 診断項目登録システム、方法及びプログラム
WO2021187128A1 (ja) 監視システム、監視装置及び監視方法
WO2021156971A1 (ja) 警報監視システム、警報監視方法、及びプログラム
KR20170032608A (ko) 엔터프라이즈 비즈니스 서비스 레벨의 통합 모니터링 방법 및 시스템
CN115357474A (zh) 本地测试方法、装置、设备及存储介质
JP6515632B2 (ja) モジュール管理装置、モジュール管理方法、および、モジュール管理プログラム
CN117573451A (zh) 磁盘管理方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant