CN1627265A - 利用电源子系统诊断并从错误中恢复的方法、系统和产品 - Google Patents

利用电源子系统诊断并从错误中恢复的方法、系统和产品 Download PDF

Info

Publication number
CN1627265A
CN1627265A CN200410064427.4A CN200410064427A CN1627265A CN 1627265 A CN1627265 A CN 1627265A CN 200410064427 A CN200410064427 A CN 200410064427A CN 1627265 A CN1627265 A CN 1627265A
Authority
CN
China
Prior art keywords
subsystem
integrated circuit
jtag
couple
power supply
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200410064427.4A
Other languages
English (en)
Other versions
CN100351800C (zh
Inventor
彼得·J·L·范吉亚
路易斯·G·罗德里格斯
史蒂文·冯格维博尔
彼得·A·温德林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1627265A publication Critical patent/CN1627265A/zh
Application granted granted Critical
Publication of CN100351800C publication Critical patent/CN100351800C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2236Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test CPU or processors
    • G06F11/2242Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test CPU or processors in multi-processor systems, e.g. one processor becoming the test master

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Tests Of Electronic Circuits (AREA)

Abstract

披露了一种用于诊断并从I/O子系统错误中恢复的方法、系统、以及计算机程序产品。数据处理系统包括计算机,该计算机包括电源子系统和至少一个I/O子系统。对在I/O子系统中出现错误做出确定。利用电源子系统,访问包括在I/O子系统中的集成电路中的寄存器,以在I/O子系统处于错误状态时诊断错误。

Description

利用电源子系统诊断并从错误中恢复的方法、系统和产品
技术领域
本发明一般涉及一种改进的数据处理系统,并尤其涉及一种利用数据处理系统的电源子系统来诊断并从错误中恢复的方法、系统和产品。更确切地说,本发明涉及利用数据处理系统的电源子系统来诊断并从I/O子系统错误中恢复。
背景技术
在计算机系统中,可出现很多不同种类的错误。由于存储在该计算机系统中帮助诊断的信息(如某些寄存器的内容)由该错误而导致不能被访问,所以这些错误中的一些难以诊断并修复。
尤其是输入/输出(I/O)适配器错误,若没有专门的调试软件,则可能难以诊断,并且,可能难以在制造者的位置远程地再现该错误。难以诊断I/O错误是由于平面布线造成的。可以有超过十个PCI装置,并且几乎不可能将问题隔离到一个适配器。在很多情况中,一旦一个PCI装置引起错误,将从其它PCI设备引起一些副作用错误。
目前,难以排除在客户位置处的重大故障。当前的一个途径是运行操作系统转储(dump),以及希望返回到制造者处来找到并排除该问题。
为了正确的诊断I/O错误,I/O芯片的扩展寄存器信息是必要的。我们必须能够收集该扩展寄存器信息,以在故障时诊断每个装置的状态。
因此,存在对用于利用数据处理系统的电源子系统诊断并从I/O子系统错误恢复的方法、系统、以及产品的需要。
发明内容
披露了一种利用计算机系统的电源子系统来诊断并从I/O子系统错误中恢复的方法、系统、以及计算机程序产品。数据处理系统包括计算机系统和硬件管理计算机系统。计算机系统的电源子系统包括电源子系统的电源内的JTAG引擎。通过JTAG/I2C总线,将JTAG引擎耦接到I/O子系统中的多个不同的集成电路。在JTAG引擎内从计算机系统外部的硬件管理计算机系统接收命令。该命令指定将要利用指定的一个集成电路来执行的操作。JTAG引擎运行这样的命令,该命令利用指定的集成电路来执行指定的操作。随后,将该操作的结果从该电源返回到硬件管理计算机系统,用于分析。可利用该操作的结果来诊断并纠正错误。
一旦出现I/O错误,可使用本发明来得到扩展寄存器信息,以在故障时诊断每个装置的状态。
在下面的书面详细描述中,本发明上面的以及另外的目的、特点和优点将变得清晰。
附图说明
在所附的权利要求中阐明了本发明的新颖的特点、确信的特征。然而,当结合附图阅读时,通过参考下面对演示性实施例的详细描述,将最好地理解本发明自身以及其使用的优选模式、进一步目的和优点,附图中:。
图1为根据本发明,可实现本发明的数据处理系统的方框图;
图2为根据本发明,图1的I/O子系统和电源子系统的更详细的方框图;
图3a描述了根据本发明的显示硬件管理控制台的高级流程图,该硬件管理控制台向电源子系统传送命令,以利用该电源子系统诊断并从错误中恢复;
图3b显示了根据本发明的描述包括在电源子系统内的电源控制器的高级流程图,该电源控制器处理命令,以诊断并从错误中恢复;
图3c为根据本发明,描述了显示包括在电源子系统内的电源的高级流程图,其运行命令以从I/O子系统的集成电路读取或写入到该I/O子系统的集成电路;以及
图4为根据本发明,显示了命令的分组定义的方框图,其中数据处理系统的电源子系统利用该命令以诊断并从I/O子系统的错误中恢复。
具体实施方式
通过参照附图,可以更好地理解本发明的优选实施例和它的优点,相同的标记用于附图的相同及对应的部分。
披露了利用计算机的电源子系统来诊断并从I/O子系统错误中恢复的方法、系统、以及计算机程序产品。将计算机耦接到与该计算机分离的硬件管理计算机系统。计算机的电源子系统包括电源控制器,其耦接到一个或更多电源,其中每个I/O抽屉(drawer)中放置一个电源。每个电源包括处理器和JTAG引擎。将JTAG引擎耦接到集成电路,该集成电路为I/O子系统的一部分。例如,将JTAG引擎耦接到使用JTAG/I2C总线的I/O抽屉中的每个PCI-PCI桥和每个EADS芯片。
当I/O抽屉中出现错误时,JTAG引擎可访问任何使用JTAG/I2C总线的EADS或PCI-PCI桥芯片内的寄存器。当出现错误时,硬件管理计算机传送命令到电源控制器,该电源控制器将该命令转发到由该命令指定的I/O抽屉中的电源。
随后,I/O抽屉中的JTAG引擎通过确定环号(ring number)来确定该命令指定了哪个具体的芯片。该抽屉中的每个芯片与唯一的JTAG环号相关联。电源的JTAG引擎使用该环号来确定将要访问哪个芯片。随后,JTAG引擎读取那个芯片的寄存器的内容,或者写入数据到该寄存器。
从该电源将运行该命令的结果返回到电源控制器,随后,该电源控制器将该结果转发回该硬件管理计算机。随后,该硬件管理计算机评估该结果,以诊断并使该I/O抽屉从错误中恢复。
图1描述了根据本发明,可实现本发明的数据处理系统的方框图。数据处理系统100可为对称多处理器(SMP)系统,其包括连接到系统总线106的多个处理器102、103、104、以及105。例如,数据处理系统100可为纽约Armonk的国际商用机器公司的产品IBM RS/6000。数据处理系统100包括中央电子集合体101,其包括逻辑分区硬件。CEC 101包括连接到系统总线106的多个处理器102、103、104、以及105。可替换地,可使用单处理器系统。存储控制器/缓冲存储器108也连接到系统总线106,该存储控制器/缓冲存储器108提供到多个本地存储器160-163的接口。RIO集线器110被连接到系统总线106,并提供到RIO总线112的接口。如所描述的,可将存储控制器/缓冲存储器108和RIO集线器110集成。
数据处理系统100是逻辑分区的数据处理系统。因此,数据处理系统100可具有同步运行的多个不同种类的操作系统(或单个操作系统的多个实例)。这些多操作系统中的每个可具有在其中运行的任意数目的软件程序。数据处理系统100被逻辑分区,使得可与PCI I/O适配器耦接的不同的PCI插槽,如插槽120、121、以及127-130、图形适配器148、以及硬盘适配器149,可分别分配到不同的逻辑分区。此情况中,图形适配器148为显示装置(未示出)提供连接,而硬盘适配器149提供连接以控制硬盘150。
因此,例如,假设将数据处理系统100划分为三个逻辑分区:P1、P2和P3。将插槽120、121、以及127-130、图形适配器148、以及硬盘适配器149中的每个、主机处理器102-105中的每个、以及本地存储器160-163中的每个分配到所述三个分区中的一个。
描述了两个I/O抽屉202和204。本领域的技术人员可知晓,数据处理系统100可包括任意数目的I/O抽屉。
I/O抽屉202包括RIO至PCI桥114,以及如下所述耦接到RIO至PCI桥114的装置。如下所述,I/O抽屉204包括RIO至PCI桥140,以及耦接到RIO至PCI桥140的装置。
RIO至PCI桥114被连接到RIO总线112,并提供到PCI总线117和PCI总线118的接口。RIO至PCI桥114包括一个或更多PCI主桥(PHB),如PHB115和PHB 116。将每个PHB通过PCI总线耦接到PCI至PCI桥。例如,将PHB 115通过PCI总线117耦接到PCI至PCI桥119。将PHB 116通过PCI总线118耦接到PCI至PCI桥126。将每个PCI至PCI桥耦接到一个或更多PCI插槽。例如,使用PCI总线122,将PCI至PCI桥119耦接到插槽120和插槽121。尽管只示出了两个插槽,但通常每个PHB支持四个或八个插槽。使用PCI总线131,将PCI至PCI桥126耦接到插槽127-130。
每个插槽包括可附带PCI I/O适配器的EADS芯片。例如,插槽120包括EADS 124。可将I/O适配器插入到插槽中并由此耦接到EADS。例如,将I/O适配器125插入到插槽120中并耦接到EADS 124。可利用I/O适配器,将I/O装置耦接到数据处理系统100。例如,如所描述的,将I/O装置123耦接到I/O适配器125。
可经由PCI总线144、EADS 143、PCI总线142、PCI至PCI桥244、PCI至PCI总线141、以及RIO至PCI桥140,将存储映射图形适配器148连接到RIO总线112。可将硬盘150耦接到硬盘适配器149,该硬盘适配器149连接到PCI总线145。将此总线依次地连接到EADS 143、PCI至PCI桥244、以及PCI总线141,其中,将该EADS 143通过PCI总线142连接到RIO至PCI桥140。
RIO至PCI桥132为PCI总线133提供接口以连接到RIO总线112。通过PCI总线135将PCI I/O适配器136连接到EADS 134。将EADS 134连接到PCI总线133。此PCI总线也将RIO至PCI桥132连接到服务处理器信箱接口及ISA总线访问通过逻辑194。服务处理器信箱接口及ISA总线访问通过逻辑194转发去往PCI/ISA桥193的PCI访问。将NVRAM存储器192连接到ISA总线196。将服务处理器135经由它的本地PCI总线195耦接到服务处理器信箱接口及ISA总线访问通过逻辑194。也将服务处理器135通过多个JTAG/I2C总线134连接到处理器102-105。JTAG/I2C总线134是JTAG/扫描总线(参看IEEE 1149.1)以及飞利浦I2C总线的结合。然而,可选择地,JTAG/I2C总线134可由仅飞利浦I2C总线或仅JTAG/扫描总线替换。将主处理器102、103、104、以及105的所有SP-ATTN信号一起连接到该服务处理器的中断输入信号。服务处理器135具有它自己的本地存储器191,并且,具有到硬件OP-板190的访问权。
当数据处理系统100一开始加电时,服务处理器135使用JTAG/I2C总线134来询问该系统(主)处理器102-105、存储控制器/缓冲存储器108、以及RIO集线器110。完成此步骤时,服务处理器135便具有了对数据处理系统100的存货清单和拓扑的了解。在通过询问主处理器102-105、存储控制器/缓冲存储器108、以及RIO集线器110找到的所有元件上,服务处理器135还运行嵌入自检(BIST)、基本确保测试(BAT)、以及存储器测试。在BIST、BAT、以及存储器测试期间检测的故障的错误信息,由服务处理器135进行汇总和报告。
如果取出在BIST、BAT、以及存储器测试期间发现有故障的元件之后,仍有可能实现系统资源的有意义/有效的配置,则允许数据处理系统100进行将可运行的代码加载到本地(主)存储器160-163。随后,为了运行加载到主存储器160-163的代码,服务处理器135释放主处理器102-105。当主处理器102-105正在从数据处理系统100内的各个操作系统运行代码时,服务处理器135进入监视和报告错误的模式。举例来说,由服务处理器135监视的项目的类型包括:降温风扇速度和工作、温度传感器、电源调节器、以及由处理器102-105、本地存储器160-163、以及RIO集线器110报告的可恢复以及不可恢复的错误。服务处理器135有责任保存并报告涉及数据处理系统100中所有监视项目的错误信息。服务处理器135还根据错误的类型和定义的阈值采取行动。例如,服务处理器135可注意到在处理器的缓冲存储器上过多的可恢复错误,并决定此为硬件故障的预兆。基于此确定,服务处理器135可标记出那个资源,以在当前运行的会话和将来的初始化程序加载(IPL)期间取消配置。有时,IPL也被称作“引导”或“自引导”。
可使用各种商用计算机系统来实现数据处理系统100。例如,数据处理系统100可使用IBM eServer Model 840系统实现,该系统可获得于国际商用机器公司。这样的系统可使用OS/400操作系统来支持逻辑分区,该操作系统也可获得于国际商用机器公司。
本领域的普通技术人员应当理解,图1描述的硬件可做出变化。例如,也可使用其他外设,如光盘驱动器和类似装置来补充或替换描述的硬件。描述的例子并不意味着暗示有关本发明的结构限制。
图2为根据本发明的图1的I/O子系统和电源子系统的更详细的方框图。数据处理系统100包括耦接到CEC 101的硬件管理控制台(HMC)206。HMC206是分离的计算机系统,其用于管理CEC 101以及数据处理系统100的其它组件,如I/O抽屉202和204。数据处理系统100包括电源子系统,其包括电源控制器208以及一个或更多的电源,如电源210和212。数据处理系统100还包括一个或更多I/O子系统,每个I/O子系统包括一个或更多I/O抽屉、如I/O抽屉202和204。
将HMC 206通过串行电缆207耦接到电源控制器208。利用JTAG/I2C总线209将电源控制器208耦接到一个或更多I/O抽屉。
I/O抽屉202包括电源210,电源210通过JTAG/I2C总线216耦接到EADS124、EADS 214、PCI-PCI桥119、以及PCI-PCI桥126。EADS 124包括用于将EADS 124耦接到JTAG/I2C总线216的I2C端口218。EADS 214包括用于将EADS 214耦接到JTAG/I2C总线216的I2C端口220。PCI-PCI桥119包括用于将PCI-PCI桥119耦接到JTAG/I2C总线216的JTAG端口222。以及,PCI-PCI桥126包括用于将PCI-PCI桥126耦接到JTAG/I2C总线216的JTAG端口224。
利用处理器226,电源210通过JTAG/I2C总线209接收并传送命令。电源210还包括用于通过处理器总线230从处理器226接收命令的JTAG引擎228。随后,JTAG引擎228根据JTAG标准来处理命令,以根据包括在该命令中的环选择来选择集成电路,即芯片,如I/O芯片,并且执行该命令中指定的操作。可从选择的芯片内的寄存器读取或向其写入。因此,可通过读取一个或更多所选芯片的寄存器,从芯片获得扩展寄存器信息,以在故障时诊断每个装置的状态。
例如,EADS 124可与环选择0相联合,而EADS 214与环选择2相联合,PCI-PCI桥119与环选择3相联合,PCI-PCI桥126与环选择4相联合。这样,可通过JTAG引擎228将命令适当地路由到指定的芯片。
利用处理器232,电源212通过JTAG/I2C总线209接收并传送命令。电源212还包括用于通过处理器总线236从处理器232接收命令的JTAG引擎234。随后,JTAG引擎234根据JTAG标准来处理命令,以根据包括在该命令中的环选择来选择芯片,并且执行该命令中指定的操作。
将电源212通过JTAG/I2C总线238耦接到EADS 143和PCI-PCI桥244。EADS 143包括用于将EADS 143耦接到JTAG/I2C总线238的I2C端口240。PCI-PCI桥244包括用于将PCI-PCI桥244耦接到JTAG/I2C总线238的JTAG端口242。
无论在任意I/O抽屉中是否出现了错误,均可运行这里以及通过图3a-3c描述的处理。因此,如果在适配器中出现了错误,可从与适配器相连接的EADS芯片和/或PCI/PCI桥读取或向其写入。无论是否出现了错误的状况,均可读取一个或所有这些芯片内的寄存器的内容。无论I/O抽屉中是否出现了错误,也均可访问与其他适配器相连接的芯片的内容
图3a根据本发明描述了显示硬件管理控制台的高级流程图,该硬件管理控制台向电源子系统传送命令,以利用该电源子系统进行诊断并从错误中恢复。如所描述的,由块300启动该处理,并且,之后转到块302,其显示了选择I/O抽屉以进行评估。接下来,块304描述了在所选的I/O抽屉中选择一个集成电路,即芯片。接下来,块306描述了HMC确定与所选的芯片相关联的环号。每个芯片与特定的环号相结合,将由JTAG引擎使用该环号,以选择芯片。
随后,该处理转到块308,其描述了指定数据和处理的类型,如读取或写入操作,以实现利用该芯片。之后,块310描述了HMC构造命令。该命令包括图4显示的信息、用于识别将要利用哪个芯片的环选择、数据和其它信息,以及具体的I/O抽屉的识别,所述图4显示的信息包括指明了处理的类型的命令主要部分和次要部分。随后,块312显示了HMC传送命令到数据处理系统的电源控制器。接下来,块314描述了HMC从电源控制器接收回复。接下来,块316显示了HMC使用该回复来诊断并修复错误。随后,如所描述的,该处理由块318中止。
图3b为根据本发明,显示了描述包括在电源子系统内的电源控制器的高级流程图,该电源控制器处理命令以诊断并从错误中恢复;如所描述的,由块320启动该处理,并且之后转到块322,其显示了电源控制器从HMC接收命令。接下来,块324描述了电源控制器确定该命令指定了哪个I/O抽屉。
随后,该处理转到块326,其显示了电源控制器将该命令转发到所选的I/O抽屉中的电源。随后,块328描述了电源控制器从该电源接收回复、增加序列号、并将该回复转发到HMC。随后,如所描述的,该处理由块330中止。
图3c为根据本发明,描述了显示包括在电源子系统内的电源的高级流程图,该电源运行命令,以从I/O子系统中的集成电路读取或向该I/O子系统中的集成电路写入。如所描述的,由块350启动该处理,并且之后转到块352,其显示了电源的处理器接收命令并将它转发到该电源的JTAG引擎。接下来,块354描述了JTAG引擎运行该命令以读取或写入与包括在该命令中的环号相关联的芯片。随后,块356显示了JTAG引擎生成具有该命令的运行结果的回复。之后,块358描述了JTAG引擎将该回复转发到电源的处理器。随后,块360显示了该处理器将该回复发送到电源控制器。随后,如所描述的,该处理由块362中止
图4为根据本发明,显示了命令的分组定义400的方框图,其中数据处理系统的电源子系统利用该命令以诊断并从I/O子系统的错误中恢复。分组定义400包括识别发送方的发送方识别符402。一些数据处理系统包括多个不同的HMC。在这些系统中,通过发送方识别符402识别发送命令的具体的HMC。还包括作为该分组的序列号的序列号404。在传送期间,当丢失或破坏了分组时,序列号404允许重试命令。电源控制器将处理具有各自序列号的分组一次。
利用命令主要部分(command major)406和命令次要部分(commandminor)408来描述将要由JTAG引擎执行的操作。例如,命令主要部分406可通过EADS芯片的I2C端口来指定该EADS芯片的访问,或通过PCI-PCI桥的JTAG总线来指定该PCI-PCI桥的访问。命令次要部分408将指定读取或写入操作。
环选择410指示将要访问哪个芯片。例如,每个芯片与不同的环号相关联。此号码用作环选择410,以识别该芯片。
校验和412是数据字的和的二进制反码。字计数414指明了分组中的数据字的数目。位计数416指明了用于最后数据字的位数。校验和412、字计数414、以及位计数416用于验证是否准确地完成了分组传送。
数据字0 418、数据字1 420、到数据字59 422包括将要为写入操作写入的数据。当命令是从电源子系统到HMC的回复时,数据字0 418、数据字1420、到数据字59 422包括在运行读取操作之后,从芯片寄存器读取的数据。
下面为本发明的处理的例子。
为从EADS集成电路读取或向其写入,在分组中利用下面的值:
发送方识别符  =适当的号码
序列号        =依次的下一个号码
命令主要部分  =0x20(指明EADS I2C访问)
命令次要部分  =0x00(以读取芯片)
                0x10(以写入芯片)
环选择        =0x01(板1上的EADS 1)
                0x02(板1上的EADS 2)
                0x03(板1上的EADS 3)
                0x81(板2上的EADS 1)
                0x82(板2上的EADS 2)
                0x83(板2上的EADS 3)
校验和        =未使用
字计数        =0x03
位计数        =0x00
对于读取操作:
将这些值从HMC发送到电源控制器:
数据字0       =要读取的选择的I2C寄存器
数据字1       =0x0000
数据字2       =0x0000
将这些值从电源控制器返回到HMC:
数据字0       =要读取的选择的寄存器的高16位的内容
数据字1       =要读取的选择的寄存器的低16位的内容
对于写入操作:
将这些值从HMC发送到电源控制器:
数据字0       =选择的要写入的寄存器
数据字1       =要写入选择的寄存器的高16位的内容
数据字1       =要写入选择的寄存器的低16位的内容
将发送到电源控制器的报头复制到来自于电源控制器的响应,并且增加序列号。
为从PCI-PCI桥集成电路读取或向其写入,在分组中利用下面的值:
发送方识别符  =适当的号码
序列号        =依次的下一个号码
命令主要部分  =0x40(指明PCI-PCI JTAG访问)
命令次要部分  =0x00(以读取芯片)
                0x80(以写入芯片)
环选择        =0x00(板1上的PCI-PCI)
                0x80(板2上的PCI-PCI)
校验和        =未使用
字计数        =0x03
位计数        =0x00
数据字0       =选择的JTAG寄存器
数据字1       =寄存器值
数据字2       =寄存器值
数据字3       =寄存器值
数据字4       =寄存器值
特别应当注意,尽管已在全部功能的数据处理系统的上下文描述了本发明,但本领域的普通技术人员应当理解,本发明的处理能够以指令的计算机可读介质的形式以及各种形式发布,并且,无论实际用于实现发布的信号承载媒介的具体类型是什么,均可同样应用本发明。计算机可读媒介的例子包括可记录型媒介,如软盘、硬盘驱动器、RAM、CD-ROM、DVD-ROM、以及传输型媒介,如数字和模拟通信链路、有线或无线通信链路,其使用这样的传输形式,例如,无线电频率和光波传输。计算机可读媒介可采用编码的格式,在具体数据处理系统中,其对于实际使用而解码。
为演示和描述的目的,已呈现了本发明的描述,并且本发明的描述不试图将本发明彻底包括或限制在所披露的形式。对于本领域的普通技术人员来说,显然可以有很多修改和变化。选择并描述了实施例,是为了最好地说明本发明的原理、实践应用,以及使其他本领域的普通技术人员理解本发明的带有各种变化的各种实施例,其适用于具体使用目的。

Claims (25)

1、一种数据处理系统中的方法,用于诊断错误,所述数据处理系统包括计算机,该计算机包括电源子系统和至少一个I/O子系统,所述方法包括以下步骤:
确定在所述至少一个I/O子系统中出现错误;以及
利用所述电源子系统,访问包括在所述I/O子系统中的集成电路中的寄存器,以在所述I/O子系统处于错误状态时诊断所述错误。
2、根据权利要求1的方法,其特征在于,所述数据处理系统包括耦接到所述计算机的硬件管理计算机系统,该方法还包括:
将所述硬件管理计算机系统耦接到包括在所述计算机中的中央电子集合体;以及
由所述硬件管理计算机系统访问所述电源子系统。
3、根据权利要求1的方法,还包括:
在所述电源子系统中,包括电源控制器和至少一个电源;以及
所述电源位于所述至少一个I/O子系统中。
4、根据权利要求3的方法,还包括:
在所述至少一个电源中,包括处理器和JTAG处理引擎。
5、根据权利要求4的方法,还包括:
所述至少一个I/O子系统内包括I/O适配器,该I/O适配器耦接到第一集成电路和耦接到所述第一集成电路的第二集成电路;以及
将所述第一和第二集成电路耦接到所述处理引擎。
6、根据权利要求5的方法,还包括:
利用JTAG/I2C总线,将所述第一和第二集成电路耦接到所述JTAG处理引擎。
7、根据权利要求1的方法,其特征在于,所述数据处理系统包括耦接到所述计算机的硬件管理计算机系统,该方法还包括:
将所述硬件管理计算机系统耦接到包括在所述计算机中的中央电子集合体;以及
将命令从所述硬件管理计算机系统传送到所述电源子系统,以访问所述至少一个I/O子系统。
8、根据权利要求7的方法,还包括:
在包括于所述I/O子系统内的电源中接收所述命令;
在所述电源内执行所述命令;以及
当所述I/O子系统处于错误状态时,响应于执行所述命令,由所述电源访问包括在所述I/O子系统中的集成电路。
9、根据权利要求7的方法,还包括:
所述电源子系统中,包括至少一个电源,所述电源位于所述至少一个I/O子系统中;
所述至少一个电源中包括JTAG引擎;
所述至少一个I/O子系统内包括I/O适配器,该I/O适配器耦接到第一集成电路和耦接到所述第一集成电路的第二集成电路;
利用JTAG/I2C总线,将所述第一和第二集成电路耦接到所述JTAG引擎;
将所述命令从所述硬件管理计算机系统发送到所述电源,以访问所述至少一个I/O子系统;
在所述JTAG引擎内接收所述命令;以及
响应于所述JTAG引擎处理所述命令,由所述JTAG引擎访问所述第一或第二集成电路。
10、根据权利要求9的方法,还包括:
读取包括在所述第一或第二集成电路内的寄存器的内容。
11、根据权利要求9的方法,还包括:
写入数据以存储到包括于所述第一或第二集成电路中的寄存器。
12、根据权利要求9的方法,还包括:
将唯一的JTAG环号与所述第一和第二集成电路相关联;以及
利用与所述第一和第二集成电路相关联的JTAG环号,确定将要访问所述第一或第二集成电路。
13、一种数据处理系统,用于诊断错误,所述数据处理系统包括计算机,该计算机包括电源子系统和至少一个I/O子系统,所述系统包括:
所述计算机包括CPU运行代码,其用于确定在所述至少一个I/O子系统中出现错误;以及
所述电源子系统,用于利用所述电源子系统来访问集成电路中的寄存器,以当所述I/O子系统处于错误状态时,诊断所述错误,其中该集成电路包括在所述I/O子系统内。
14、根据权利要求13的系统,其特征在于,所述数据处理系统包括耦接到所述计算机的硬件管理计算机系统,该系统还包括:
将所述硬件管理计算机系统耦接到包括在所述计算机中的中央电子集合体;以及
所述硬件管理计算机系统用于访问所述电源子系统。
15、根据权利要求13的系统,还包括:
所述电源子系统中包括的电源控制器和至少一个电源;以及
所述电源位于所述至少一个I/O子系统中。
16、根据权利要求15的系统,还包括:
所述至少一个电源中包括的处理器和JTAG处理引擎。
17、根据权利要求16的系统,还包括:
所述至少一个I/O子系统内包括的I/O适配器,所述I/O适配器耦接到第一集成电路和耦接到所述第一集成电路的第二集成电路;以及
将所述第一和第二集成电路耦接到所述处理引擎。
18、根据权利要求17的系统,还包括:
利用JTAG/I2C总线,将所述第一和第二集成电路耦接到所述JTAG处理引擎。
19、根据权利要求13的系统,其特征在于,所述数据处理系统包括耦接到所述计算机的硬件管理计算机系统,该系统还包括:
将所述硬件管理计算机系统耦接到包括在所述计算机中的中央电子集合体;以及
所述硬件管理计算机系统将命令传送到所述电源子系统,以访问所述至少一个I/O子系统。
20、根据权利要求19的系统,还包括:
所述电源,包括在所述I/O子系统内,用于接收所述命令;
所述电源,用于运行所述命令;以及
当所述I/O子系统处于错误状态时,响应于运行所述命令,所述电源访问包括在所述I/O子系统中的集成电路。
21、根据权利要求19的系统,还包括:
至少一个电源,包括在所述电源子系统中,所述电源位于所述至少一个I/O子系统中;
JTAG引擎,包括在所述至少一个电源中;
I/O适配器,包括在所述至少一个I/O子系统内,所述I/O适配器耦接到第一集成电路和耦接到所述第一集成电路的第二集成电路;
所述第一和第二集成电路,利用JTAG/I2C总线耦接到所述JTAG引擎;
所述硬件管理计算机系统,由于将所述命令发送到所述电源,以访问所述至少一个I/O子系统;
所述JTAG引擎,用于接收所述命令;以及
所述JTAG引擎,用于响应于所述JTAG引擎处理所述命令,而访问所述第一或第二集成电路。
22、根据权利要求21的系统,还包括:
所述JTAG引擎,用于读取包括在所述第一或第二集成电路中的寄存器的内容。
23、根据权利要求22的系统,还包括:
所述JTAG引擎,由于写入数据以存储到包括在所述第一或第二集成电路中的所述寄存器。
24、根据权利要求21的系统,还包括:
唯一的JTAG环号,与所述第一和第二集成电路相关联;以及
利用所述JTAG环号来确定将要访问所述第一或第二集成电路。
25、一种计算机程序产品,其用于诊断错误,所述产品包括:
提供数据处理系统,该数据处理系统包括计算机,该计算机包括电源子系统和至少一个I/O子系统;
指令装置,用于确定在所述至少一个I/O子系统中出现错误;以及
指令装置,用于利用所述电源子系统,访问包括在所述I/O子系统中的集成电路中的寄存器,以在所述I/O子系统处于错误状态时,诊断所述错误。
CNB2004100644274A 2003-12-10 2004-08-24 利用电源子系统诊断并从错误中恢复的方法和系统 Expired - Fee Related CN100351800C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/733,949 US7219258B2 (en) 2003-12-10 2003-12-10 Method, system, and product for utilizing a power subsystem to diagnose and recover from errors
US10/733,949 2003-12-10

Publications (2)

Publication Number Publication Date
CN1627265A true CN1627265A (zh) 2005-06-15
CN100351800C CN100351800C (zh) 2007-11-28

Family

ID=34700394

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100644274A Expired - Fee Related CN100351800C (zh) 2003-12-10 2004-08-24 利用电源子系统诊断并从错误中恢复的方法和系统

Country Status (3)

Country Link
US (1) US7219258B2 (zh)
CN (1) CN100351800C (zh)
TW (1) TWI310899B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101414970B (zh) * 2008-11-26 2011-11-30 中兴通讯股份有限公司 Ioc模块分配方法及io交换器

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7290180B2 (en) * 2004-09-02 2007-10-30 International Business Machines Corporation Method to use an alternate I/O debug path
US7454657B2 (en) * 2004-09-02 2008-11-18 International Business Machines Corporation Method for self-diagnosing remote I/O enclosures with enhanced FRU callouts
US7136778B2 (en) * 2004-09-02 2006-11-14 International Business Machines Corporation Method for non-invasive performance monitoring and tuning
US7337357B2 (en) * 2004-11-16 2008-02-26 International Business Machines Corporation Apparatus, system, and method for limiting failures in redundant signals
US20060112316A1 (en) * 2004-11-18 2006-05-25 Jui-Kuo Chiang Method of monitoring status of processor
US7861106B2 (en) * 2005-08-19 2010-12-28 A. Avizienis And Associates, Inc. Hierarchical configurations in error-correcting computer systems
US7624303B2 (en) * 2006-08-23 2009-11-24 Micrel, Inc. Generation of system power-good signal in hot-swap power controllers
US9298568B2 (en) * 2008-02-07 2016-03-29 International Business Machines Corporation Method and apparatus for device driver state storage during diagnostic phase
US7715215B1 (en) 2009-01-29 2010-05-11 International Business Machines Corporation Control of an AC-to-DC power supply assembly fed by a three-phase AC source
US8020043B2 (en) * 2009-03-06 2011-09-13 Cisco Technology, Inc. Field failure data collection
US8112674B2 (en) * 2009-04-01 2012-02-07 International Business Machines Corporation Device activity triggered device diagnostics
US20110087812A1 (en) * 2009-08-28 2011-04-14 Enfora, Inc. Multi-master bi-directional i2c bus buffer
TWI399647B (zh) * 2009-10-15 2013-06-21 Wistron Corp 回復電腦系統之基本輸出入系統之方法及相關電腦系統
GB2480847B (en) * 2010-06-03 2014-12-10 St Microelectronics Res & Dev Remote testing system
US8677180B2 (en) 2010-06-23 2014-03-18 International Business Machines Corporation Switch failover control in a multiprocessor computer system
US8645767B2 (en) 2010-06-23 2014-02-04 International Business Machines Corporation Scalable I/O adapter function level error detection, isolation, and reporting
US8683108B2 (en) 2010-06-23 2014-03-25 International Business Machines Corporation Connected input/output hub management
US8745292B2 (en) 2010-06-23 2014-06-03 International Business Machines Corporation System and method for routing I/O expansion requests and responses in a PCIE architecture
US8615622B2 (en) 2010-06-23 2013-12-24 International Business Machines Corporation Non-standard I/O adapters in a standardized I/O architecture
US8656228B2 (en) 2010-06-23 2014-02-18 International Business Machines Corporation Memory error isolation and recovery in a multiprocessor computer system
US8645606B2 (en) 2010-06-23 2014-02-04 International Business Machines Corporation Upbound input/output expansion request and response processing in a PCIe architecture
US8918573B2 (en) 2010-06-23 2014-12-23 International Business Machines Corporation Input/output (I/O) expansion response processing in a peripheral component interconnect express (PCIe) environment
ES2395107B1 (es) * 2011-07-08 2013-10-09 Caf Power & Automation, S.L.U. Módulo de entradas y salidas para sistemas de monitorización y control de vehículos ferroviarios.
US9842016B2 (en) 2015-11-12 2017-12-12 International Business Machines Corporation Multiple path error data collection in a storage management system

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69415600T2 (de) 1993-07-28 1999-07-15 Koninklijke Philips Electronics N.V., Eindhoven Mikrokontroller mit hardwaremässiger Fehlerbeseitigungsunterstützung nach dem Boundary-Scanverfahren
US5862152A (en) 1995-11-13 1999-01-19 Motorola, Inc. Hierarchically managed boundary-scan testable module and method
US5852617A (en) 1995-12-08 1998-12-22 Samsung Electronics Co., Ltd. Jtag testing of buses using plug-in cards with Jtag logic mounted thereon
US5631912A (en) 1995-12-19 1997-05-20 Samsung Electronics Co., Ltd. High impedance test mode for JTAG
US5732268A (en) * 1996-02-26 1998-03-24 Award Software International Extended BIOS adapted to establish remote communication for diagnostics and repair
CN1154926C (zh) * 1996-11-04 2004-06-23 神达电脑股份有限公司 系统主机板及输入输出系统检测方法
CN1501248B (zh) * 1997-04-02 2010-05-26 松下电器产业株式会社 数据输入存贮器并对存储器内存入的数据进行运算输出并能高速操作的数据输入输出装置
US6718482B2 (en) * 1997-09-12 2004-04-06 Hitachi, Ltd. Fault monitoring system
US6347368B1 (en) 1997-12-30 2002-02-12 Jerry David Harthcock Microcomputing device for exchanging data while executing an application
US6282674B1 (en) 1998-09-30 2001-08-28 International Business Machines Corporation Apparatus and method for retrieval of circuit state information
US6427216B1 (en) 1999-03-11 2002-07-30 Agere Systems Guardian Corp. Integrated circuit testing using a high speed data interface bus
US6546507B1 (en) 1999-08-31 2003-04-08 Sun Microsystems, Inc. Method and apparatus for operational envelope testing of busses to identify halt limits
JP2001325124A (ja) * 2000-05-17 2001-11-22 Fujitsu Ltd 計算機、システム管理支援装置及び管理方法
US6883109B2 (en) 2001-07-30 2005-04-19 Hewlett-Packard Development Company, L.P. Method for accessing scan chains and updating EEPROM-resident FPGA code through a system management processor and JTAG bus
US7428661B2 (en) 2001-09-21 2008-09-23 Sam Michael Test and debug processor and method
JP3771162B2 (ja) * 2001-10-03 2006-04-26 株式会社日立製作所 保守管理方法、保守管理システム、情報処理システムおよびコンピュータプログラム
US20030126533A1 (en) 2001-12-28 2003-07-03 Mcadams Mark Alan Testing of circuit modules embedded in an integrated circuit
US20030163773A1 (en) 2002-02-26 2003-08-28 O'brien James J. Multi-core controller

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101414970B (zh) * 2008-11-26 2011-11-30 中兴通讯股份有限公司 Ioc模块分配方法及io交换器

Also Published As

Publication number Publication date
CN100351800C (zh) 2007-11-28
US20050144533A1 (en) 2005-06-30
TWI310899B (en) 2009-06-11
US7219258B2 (en) 2007-05-15
TW200532439A (en) 2005-10-01

Similar Documents

Publication Publication Date Title
CN100351800C (zh) 利用电源子系统诊断并从错误中恢复的方法和系统
CN100375960C (zh) 用于调试输入/输出故障的方法和系统
KR100530710B1 (ko) 이종 분할 시스템에서의 글로벌 에러 보고 방법 및 장치
US7962793B2 (en) Self-diagnosing remote I/O enclosures with enhanced FRU callouts
CN107832199A (zh) 基于cpld的硬盘监控系统
CN1310159C (zh) 增强总线的方法、装置和系统
JP2004220582A (ja) 論理環境においてエラーログを報告するための方法および装置
CN110489367B (zh) 一种灵活调配且易于cpld管理背板的方法与系统
CN101078985A (zh) 用于识别在计算机系统上运行的操作系统的方法和设备
CN1337623A (zh) 通过资源恢复得到系统最优可用性的方法和系统
CN106649021B (zh) PCIe从设备测试装置
US7103789B2 (en) Method, system, and product for indicating power status of field replaceable units
JP2005327288A (ja) パーティション間の隠れストレージ・チャネル及びパーティション分析を排除する方法及び装置
CN1841547A (zh) 识别故障模块的方法及装置
CN100385404C (zh) 用于监视数据处理系统中的输入/输出性能的方法和系统
US20050060604A1 (en) Method, system, and product for isolating memory system defects to a particular memory system component
CN1682195A (zh) 同步或异步定时的处理单元的同步方法和电路装置
US7954012B2 (en) Hierarchical debug information collection
CN1940880A (zh) 用于自动识别部件的多个组合的方法和装置
US7234085B2 (en) Method, system, and product for hierarchical encoding of field replaceable unit service indicators
CN111596199B (zh) 一种测试芯片、集成电路测试方法及系统和检测设备
CN100397351C (zh) 计算机系统的除错装置及方法
CN117648134B (zh) 一种服务器多背板丝印自适应定位方法、装置及存储介质
CN113535490B (zh) 侦错装置及其操作方法
WO2024183529A1 (zh) 用于医疗设备的数据处理方法、装置、电子设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20071128

Termination date: 20100824