CN100375960C - 用于调试输入/输出故障的方法和系统 - Google Patents

用于调试输入/输出故障的方法和系统 Download PDF

Info

Publication number
CN100375960C
CN100375960C CNB2005100826332A CN200510082633A CN100375960C CN 100375960 C CN100375960 C CN 100375960C CN B2005100826332 A CNB2005100826332 A CN B2005100826332A CN 200510082633 A CN200510082633 A CN 200510082633A CN 100375960 C CN100375960 C CN 100375960C
Authority
CN
China
Prior art keywords
drawer
long
input
range
data handling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005100826332A
Other languages
English (en)
Other versions
CN1744049A (zh
Inventor
迈克·康拉德·杜龙
马克·戴维·麦克劳克林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1744049A publication Critical patent/CN1744049A/zh
Application granted granted Critical
Publication of CN100375960C publication Critical patent/CN100375960C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0745Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an input/output transactions management context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2294Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by remote test
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/273Tester hardware, i.e. output processing circuits
    • G06F11/2736Tester hardware, i.e. output processing circuits using a dedicated service processor for test

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

帮助调试I/O故障的一种方法、系统和计算机产品。当在RIO抽屉上检测到I/O故障时,数据处理系统使用整体电源控制器来提供备择路径,而不是使用现有的RIO链路,以便访问该I/O抽屉上的寄存器。该系统登录到整体电源控制器上,该整体电源控制器提供该数据处理系统和该RIO抽屉之间的通信路径。该通信路径允许该数据处理系统读取该I/O抽屉上的芯片寄存器。该数据处理系统通过使用该通信路径来捕获该I/O抽屉中的I/O故障信息,其中利用该I/O故障信息来调试该I/O故障。

Description

用于调试输入/输出故障的方法和系统
技术领域
本发明一般涉及改进的数据处理系统,特别地,涉及用于处理数据处理系统中的错误的方法、系统和计算机产品。更特别地,本发明提供使用备择路径来捕获来自输入/输出(I/O)抽屉的故障数据的方法、系统和计算机产品。
背景技术
多处理器数据处理系统是包含多个中央处理单元的数据处理系统。此类系统允许逻辑分区,其中单个多处理器数据处理系统可以像该系统是两个或多个独立系统那样运行。在此类系统中,每个逻辑分区代表该系统中的各种资源的一种分割,并作为独立的逻辑系统来操作。这些分区中每个分区都是逻辑上的分区,因为资源的分割可以是物理的或虚拟的。例如,可以把一个多处理器数据处理系统划分为多个独立服务器,其中每个分区都有它自己的处理器、主存储器和输入/输出设备。
许多系统都包括多个远程输入/输出子系统,其中每个子系统均包括一个桥或某些其它接口,以便经由首要或主输入/输出集线器连接该子系统和该数据处理系统的其它部分。每个远程I/O子系统也称为“RIO抽屉”。每个RIO抽屉可以包括许多周边元件,如硬盘驱动器、磁带驱动器或图形适配器。
RIO抽屉与计算机的处理器和存储部件一般是物理分离的。通过使用RIO网络电缆,把该RIO抽屉及其部件连接到主计算机,其中RIO网络电缆允许该RIO抽屉内包含的I/O设备与该计算机的剩余部分一起运行,就像它们在该系统总线上一样。
某些现有系统,如IBM eServer pSeries Regatta 690和IBM eServerpSeries和iSeries Squadrons系统,位于纽约阿芒克的国际商业机器公司的产品,并没有访问RIO抽屉的JTAG。相反,这些系统使用RIO电缆来访问远程I/O抽屉。利用RIO链路把中央电子组合体(CEC)连接到I/O设备的主机。这些链路提供从CEC中的处理器到I/O抽屉的通信路径。当I/O错误发生时,核心调试程序(KDB)或管理程序只能通过该RIO电缆来访问I/O故障信息。
只允许通过RIO电缆访问I/O抽屉的问题在于,如果该抽屉中发生I/O错误并且该RIO路径不起作用,则很难甚至不可能访问远程I/O抽屉中的寄存器信息。因此,CEC的系统也许不能读取全部的所需寄存器以便做出该I/O故障的全面诊断,因为无法转储来自该I/O抽屉上的芯片中的环形缓冲数据。上述环形缓冲数据为硬件或软件开发人员提供用来诊断现场故障所需的数据。另外,当使用KDB/管理程序RIO路径来读取该I/O抽屉时,读取该RIO抽屉中的无效地址引起KDB会话失败,并且可能引起整个系统失败。因此,如果在没有JTAG访问的系统中的RIO抽屉中发生I/O错误,则仅仅使用RIO链路的系统可能不能读取全部的所需寄存器以便对该问题做出全面诊断,并且如果试图这样做的话,可能导致检查中止(checkstop)系统。所以系统开发人员必须注意生成无效地址。
因此,具有用来帮助调试I/O故障的改进的方法、系统和计算机产品将是有利的。
发明内容
本发明提供用来帮助调试I/O故障的方法、系统和计算机产品。当在RIO抽屉上检测到I/O故障时,数据处理系统使用整体电源控制器来提供备择路径,而不是使用现有的RIO链路,以便访问该I/O抽屉上的寄存器。该系统登录到整体电源控制器上,该整体电源控制器提供该数据处理系统和该RIO抽屉之间的通信路径。该通信路径允许该数据处理系统读取该I/O抽屉上的芯片寄存器。该数据处理系统通过使用该通信路径来捕获该I/O抽屉中的I/O故障信息,其中利用该I/O故障信息来调试该I/O故障。
附图说明
所附权利要求书阐述了被认为是本发明之特征的新颖特征。然而,通过连同附图一起阅读说明性的实施方式的下述详细描述,将更好地理解该发明本身、其优选使用方式、其它目的及其优点,其中:
图1是根据本发明的可以实施本发明的示例性数据处理系统的框图;
图2是根据本发明之优选实施方式的用于提供用来帮助调试I/O故障的备择路径的系统的框图;
图3是根据本发明的在不使用RIO总线的情况下调试远程I/O故障的过程的流程图;
图4是根据本发明的在不使用RIO总线的情况下调试远程I/O故障的过程的流程图;以及
图5是根据本发明的在不使用RIO总线的情况下调试远程I/O障的过程的流程图。
具体实施方式
现在参照附图,特别地,参照图1,该图描述了一个可以实施本发明的数据处理系统的框图。数据处理系统100包括中央电子组合体101,后者包括逻辑分区的硬件。CEC 101包括与系统总线106相连的多个处理器102、103、104和105。作为选择,可以使用单处理器系统。同时与系统总线106连接的是存储控制器/高速缓冲存储器108,它提供多个局部存储器160-163的接口。RIO集线器110与系统总线106相连,并提供RIO总线112的接口。可以按所示方式集成存储控制器/高速缓冲存储器108和RIO集线器110。
数据处理系统100为逻辑分区的数据处理系统。因此,数据处理系统100可以有多个同时运行的异构操作系统(或单一操作系统的多个实例)。这些多个操作系统的每个操作系统可以有许多在其内执行的软件程序。对数据处理系统100进行逻辑分区,以便把可以连接PCI I/O适配器的不同的PCI插槽,如插槽120、121和127-130,图形适配器148和硬盘适配器149分配给不同的逻辑分区。在这种情况下,图形适配器148提供用于显示设备(未示出)的连接,而硬盘适配器149提供用于控制硬盘150的连接。
把在数据处理系统100内执行的每个操作系统分配给不同的逻辑分区。因此,在数据处理系统100内执行的每个操作系统只能访问在其逻辑分区内的那些I/O单元。因此例如,高级交互执行(AlX)操作系统的一个实例可以在分区P1内执行,AIX操作系统的第二实例(也称为映象)可以在分区P2内执行,而Windows 2000操作系统可以在逻辑分区P3内运行。WindoWs 2000是位于华盛顿雷德蒙的微软公司的产品和商标。
数据处理系统100包括RIO附件150,后者包括与RIO总线112相连的多个I/O抽屉151和I/O抽屉152。I/O抽屉151中的RIO到PCI桥114与RIO总线112相连,并提供到PCI总线117和PCI总线118的接口。RIO到PCI桥114包括一个或多个PCI主桥(PHB),如PHB 115和PHB 116。通过PCI总线连接每个PHB和PCI到PCI桥。例如,通过PCI总线117连接PHB 115和PCI到PCI桥119。通过PCI总线118连接PHB 116和PCI到PCI桥126。每个PCI到PCI桥与一个或多个PCI插槽相连。例如,通过使用PCI总线122,连接PCI到PCI桥119和插槽120以及插槽121。尽管只显示了两个插槽,但是每个PHB一般支持四个或八个插槽。通过使用PCI总线131,连接PCI到PCI桥126和插槽127-130。
每个插槽包括一块可以连接PCI I/O适配器的EADS芯片。例如,插槽120包括EADS 124。可以把I/O适配器插入到插槽中,并由此与EADS相连。例如,把I/O适配器125插入到插槽120中,并与EADS 124相连。通过使用I/O适配器,I/O设备可以与数据处理系统100相连。例如,如图所示,I/O设备123与I/O适配器125相连。
通过PCI总线144、EADS 142、PCI总线141以及RIO到PCI桥140,可以连接存储映象的图形适配器148和RIO总线112。可以把硬盘150连接到与PCI总线145相连的硬盘适配器149中。反过来,连接该总线145和EADS 142,其中通过PCI总线141,连接EADS142和RIO到PCI桥140。
RIO到PCI桥132提供PCI总线133与RIO总线112相连的接口。利用PCI总线135连接PCI I/O适配器136和EADS 134。EADS132与PCI总线133相连。同时,该PCI总线131把RIO到PCI桥132连接到服务处理器邮箱接口和ISA总线访问通过逻辑194以及PCI到PCI桥132。服务处理器邮箱接口和ISA总线访问通过逻辑194转发前往PCI/ISA桥193的PCI访问。NVRAM存储器192连接到ISA总线196。服务处理器135通过其局部PCI总线195连接到服务处理器邮箱接口和ISA总线访问通过逻辑194。同时,服务处理器135经由多个JTAG/I2C总线134,连接到处理器102-105。JTAG/I2C总线134为JTAG/扫描总线(参见IEEE 1149.1)和飞利浦I2C总线的组合。然而,作为选择,可单独利用飞利浦I2C总线或单独利用JTAG/扫描总线替换JTAG/I2C总线134。主处理器102、103、104和105的所有SP-ATTN信号连接在一起,作为服务处理器的中断输入信号。服务处理器135有它自己的局部存储器191,并且有到硬件OP面板197的访问。
在最初给数据处理系统100加电时,服务处理器135使用JTAG/扫描I2C总线134来询问系统(主)处理器102-105、存储控制器/高速缓冲存储器108和RIO集线器110。在完成此步骤后,服务处理器135具有数据处理系统100的详细目录和拓扑理解。同时,服务处理器135对通过询问主处理器102-105、存储控制器/高速缓冲存储器108和RIO集线器110发现的所有元件执行内置自检(BIST)、基本正确性检测(BAT)和存储器测试。由服务处理器135收集并报告BIST、BAT和存储器测试期间检测出的故障的出错信息。
如果在去除BIST、BAT和存储器测试期间发现的故障元件后系统资源的有意义的/有效配置仍然可行,则允许数据处理系统100继续向局部(主)存储器160-163中加载可执行代码。接着,服务处理器135释放主处理器102-105以执行加载到主存储器160-163中的代码。在主处理器102-105执行数据处理系统100内的各个操作系统的代码时,服务处理器135进入监控和报告错误的模式。由服务处理器135监控的项目类型包括:例如,风扇速度和操作,热传感器,电源稳压器,以及由处理器102-105、局部存储器160-163和RIO集线器110报告的可恢复的和不可恢复的错误。服务处理器135负责保存并报告与数据处理系统100中的所有被监控项目有关的出错信息。
数据处理系统100是由整体电源控制器(BPC)190供电的,BPC190为该数据处理系统中的各种部件,如处理器和I/O附件,提供电源。例如,整体电源控制器190通过使用I2C路径向CEC 101、服务处理器135和RIO附件150供电。各I2C路径主要用于电源控制。
可以使用可从市场上买到的各种计算机系统来实现数据处理系统100。例如,可使用可从国际商业机器公司获得的IBM eServerpSeries Regatta 690系统或IBM eServer pSeries Squadron系统来实现数据处理系统100。
本领域的一般技术人员可以理解,图1描述的硬件可以改变。例如,除所示硬件之外,也可以使用诸如光盘驱动器之类的其它外围设备,或用它们代替所示硬件。所示例子并不意味着对本发明的体系结构的限制。
如上所述,诸如IBM eServer pSeries Regatta 690服务器和IBMeServer pSeries Squadron服务器之类的某些系统只使用RIO电缆来连接该CEC中的处理器和该I/O抽屉。本发明的机制通过提供到达该I/O抽屉的备择路径,允许读取该I/O抽屉上的芯片寄存器以帮助调试I/O故障。整体电源控制器提供的备择路径提供对该I/O抽屉寄存器的访问,同时提供对该RIO路径不能访问的寄存器的访问。整体电源控制器接口提供的路径允许该系统读取该I/O抽屉上的所有芯片寄存器,包括JTAG可访问的寄存器。当检测到I/O错误时,该系统可以登录到整体电源控制器上。该系统使用整体电源控制器提供的备择路径来访问该I/O抽屉。命令被发送到整体电源控制器,再到该I/O抽屉内的分布式转换器组件(DCA),后者具有到达该抽屉上的芯片寄存器的I2C路径。该系统读取该I/O抽屉上的芯片寄存器,并分析该寄存器信息以诊断I/O故障。
即使功能链路,或RIO链路,不能正常工作,本发明的机制也允许访问该I/O抽屉上的芯片寄存器。例如,当检测到I/O错误并且功能路径工作时,如果用户从核心调试程序中输入无效地址,则功能路径将中断。在此种情况中,用户可以依赖整体电源控制器提供的备择路径来获得寄存器信息并调试I/O故障。用户也可以选择在不输入地址的情况下使用备择路径,仅仅因为备择路径比功能路径更容易使用。另外,如果功能路径没有工作并且正在使用该系统来发起(bringup)或调试远程I/O连接,则用户可以使用备择路径来读取该I/O抽屉上的寄存器,以便减少发起和调试时间。例如,发起通常包括在该系统上安装可用固件并运行该固件。在遇到系统错误时,调试该错误直到找出其根本原因并进行必要的代码变更。在不使用备择路径的情况下,发起RIO链路是非常困难的,因为只能看到一端的寄存器(即,可从CEC中经由JTAG访问的寄存器)。通过使用备择路径允许查看两端的寄存器,从而能够降低用来确定故障的根本原因所需的时间。
如果一接通I/O设备的电源后就可以访问备择路径,则也能减少调试时间以及调式电源排序问题。在此种情况中,不需要初始化功能链路并且不需要在服务处理器上运行代码。
另外,本发明的机制通过捕获来自该I/O抽屉的故障数据帮助调试I/O故障。通过使用整体电源控制器提供的备择路径,系统或客户工程师(CE)可以捕获该I/O抽屉上的芯片的环形转储。该系统本身可以执行环形转储,或者CE可以收集与该系统相连的另一台工作站的转储。可以在实验室中按上述方式捕获故障数据,但也可以在现场获取必要的调试数据以确定I/O故障的根本原因。
现在参照图2,该图根据本发明之优选实施方式描绘提供用来帮助调试I/O故障的备择路径的系统的框图。可以在图1中的数据处理系统100中实施图2中的部件。
系统200包括一个I/O抽屉202。I/O抽屉202包括一个PCI主桥(PHB)204。然而,尽管仅仅描绘了一个I/O抽屉202和一个PHB204,但是本领域的熟练技术人员应该认识到,可以包含比图2所示部件更多的I/O抽屉和PHB。例如,每个PHB可以支持4到8个PCI扩展槽,例如,PCI扩展槽可以实现为图1所示的I/O适配器136。
在现有系统中,利用RIO链路206来连接中央电子组合体(CEC)208和I/O抽屉202。由于CEC 208包括一个或多个系统处理器和存储器,这些RIO链路提供从CEC中的处理器到该I/O抽屉的通信路径。
然而,正如图2所示的那样,系统200可以使用整体电源控制器提供的通信路径来访问芯片寄存器,以帮助调试该I/O抽屉上的故障。在该说明性的例子中,允许诸如服务分区210、灵活服务处理器(FSP)212和服务控制台214之类的各种部件访问该抽屉上的芯片寄存器。如图所示,服务控制台214可以包括例如Linux伙伴系统、硬件管理控制台(HMC)或膝上型电脑,每一个都能使系统管理员监控系统200的硬件问题,尽管也可以使用其它系统来实现本发明的特征。
服务分区210、FSP 212和服务控制台214可以经由整体电源控制器216访问该I/O抽屉上的芯片寄存器。可以使用诸如以太网接口218或系统电源控制网络(SPCN)接口220之类的连接接口,把服务分区210、FSP 212和服务控制台214连接到整体电源控制器216。系统200使用服务分区210、FSP 212和服务控制台214登录到整体电源控制器216上。因为整体电源控制器216和I/O抽屉202相连,所以服务分区210、FSP 212和服务控制台214可以向I/O抽屉202发送命令。
系统200通过使用RS422/UART连接222向I/O抽屉202内的分布式转换器组件(DCA)220发送命令,其中RS422/UART连接222连接整体电源控制器216和DCA 220。RS422是处理数据通信的电子工业协会规范。DCA 220被直接插入到I/O抽屉202中,并接收整体电源控制器216提供的电源。DCA 220转换该电源,并提供该I/O抽屉的逻辑和存储电路所需的精确电压。在I/O抽屉202内,DCA220包括到达该抽屉上的芯片寄存器的I2C路径。系统可以使用I2C连接226来访问芯片寄存器224。
图3是根据本发明的在不使用RIO总线的情况下调试远程I/O故障的过程的流程图。如果到远程I/O抽屉的功能链路或RIO链路中断,则可以实现该过程。该RIO连接没有中断也可以实现该过程,但是用户希望避在使用该RIO链路试图访问该I/O抽屉时输入无效地址造成的不良后果。可以在诸如图1所示的数据处理系统100之类的数据处理系统中实现图3中描述的过程。
该过程首先检测系统中的I/O故障(步骤302)。当检测到I/O故障时,该系统进入操作系统调试程序,并且该CEC和该远程I/O抽屉之间的功能路径或RIO链路正在正常工作。该系统可以使用检测到该I/O故障的服务分区、处理器或控制台,或者作为选择,使用另一个服务分区、处理器或控制台登录到整体电源控制器上(步骤304)。一旦该系统登录到整体电源控制器上,该系统就可以使用整体电源控制器提供的备择路径来向该远程I/O抽屉发送命令(步骤306),而无需使用该RIO电缆提供的路径。以此方式,即使该RIO链路中断,也能访问该远程I/O抽屉上的寄存器信息。
该系统现在可以使用该备择路径来捕获该I/O抽屉中的I/O故障信息(步骤308)。然后使用该I/O故障信息来调试该远程I/O错误(步骤310)。
图4是根据本发明的在不使用RIO总线的情况下调试远程I/O故障的过程的流程图。可以在诸如图1所示的数据处理系统100之类的数据处理系统中实现图4中描述的过程。
该过程首先使用该系统发起远程I/O链路(步骤402)。该系统可以使用服务处理器、服务分区和/或服务控制台来执行系统配置。该系统可以使用检测到该I/O故障的服务分区、处理器或控制台,或者作为选择,使用另一个服务分区、处理器或控制台登录到整体电源控制器上(步骤404)。一旦该系统登录到整体电源控制器上,该系统就可以使用整体电源控制器提供的备择路径来向该远程I/O抽屉发送命令(步骤406),而无需使用该RIO电缆提供的路径。然后该系统可以捕获该远程I/O抽屉上的寄存器中的I/O故障信息(步骤408)。以此方式,通过按上述方式使用该备择路径能够减少该远程I/O链路的发起时间。
图5是根据本发明的在不使用RIO总线的情况下调试远程I/O故障的过程的流程图。该过程在优点在于,不需要初始化该功能链路或RIO链路,并且不需要在该服务处理器上运行代码。可以在诸如图1所示的数据处理系统100之类的数据处理系统中实现图5中描述的过程。
该过程首先向该远程I/O抽屉供电(步骤502)。在接通该I/O抽屉的电源后不久,该系统就可以使用到达该远程I/O抽屉的备择路径(步骤504)。当向该远程I/O抽屉供电时,通过自动登录到整体电源控制器上,该系统可以使用该备择路径。该系统可以使用服务分区、处理器或控制台登录到整体电源控制器上。一旦该系统登录到整体电源控制器上,该系统就可以使用整体电源控制器提供的备择路径来向该远程I/O抽屉发送命令(步骤506),而无需使用该RIO电缆提供的路径。该系统现在可以使用该备择路径来捕获该远程I/O抽屉上的I/O故障信息以帮助调试(步骤508)。
因此,本发明的机制帮助在不使用RIO总线的情况下的调试过程。通过使用整体电源控制器提供的备择路径,该系统捕获故障数据必要的调试数据以确定该I/O故障的根本原因。即使功能链路或RIO链路不能正常工作,该系统也可以访问该I/O抽屉上的芯片寄存器。在此种情况中,用户可以依赖整体电源控制器提供的备择路径来获取I/O故障信息,以调试该I/O故障。另外,如果功能路径不工作并且正在利用该系统发起或调试远程I/O链路,则用户可以使用该备择路径来读取该I/O抽屉上的寄存器,以降低发起和调试时间。如果一接通该I/O设备的电源就能访问该备择路径,则也能减少调试时间以及调试电源排序问题。在此种情况中,不需要初始化功能链路并且不需要在服务处理器上运行代码。
重要的是请注意,尽管本发明是在全功能数据处理系统的情况下描述的,但是本领域的一般技术人员可以理解,可以以指令的计算机可读介质的形式,以及多种形式分发本发明的进程,并且不论实际完成分发的信号承载介质的特定类型,本发明同样适用。计算机可读介质的例子包括可记录类型的介质,如软盘、硬盘驱动器、RAM、CD-ROM、DVD-ROM,以及传输类型的介质,如数字和模拟通信链路,使用诸如射频和光波传输之类的传输形式的有线或无线通信链路。计算机可读介质可以采取编码格式的形式,其中当在特定数据处理系统中实际使用时进行解码。
提供本发明的说明书的目的是为了说明和描述,而不是用来穷举的或将本发明限制为所公开的形式。对本领域的一般技术人员而言,许多修改和变更都是显而易见的。选择并描述实施方式是为了更好地解释本发明的原理,其实际应用,并使本领域一般技术人员以外的人理解带有各种修改的各种实施方式的本发明同样适用于设想的特定用途。

Claims (21)

1.一种用于调试数据处理系统中的输入/输出故障的方法,包括:
响应于检测远程输入/输出抽屉中的输入/输出故障,登录到整体电源控制器上,其中该整体电源控制器提供该数据处理系统和该远程输入/输出抽屉之间的通信路径,并且其中该通信路径允许该数据处理系统读取该远程输入/输出抽屉上的芯片寄存器;以及
通过使用该通信路径捕获在远程输入/输出抽屉中的输入/输出故障信息,其中该输入/输出故障信息用于调试该输入/输出故障。
2.如权利要求1的方法,其中捕获输入/输出故障信息提供用来确定该输入/输出故障之根本原因的必要调试数据。
3.如权利要求1的方法,其中捕获该远程输入/输出抽屉中的输入/输出故障信息可以减少用于远程I/O链路的发起时间。
4.如权利要求1的方法,其中该芯片寄存器是JTAG可访问的寄存器。
5.如权利要求1的方法,其中该通信路径包括I2C链路。
6.如权利要求1的方法,其中利用以太网接口或系统电源控制网络接口之一连接该数据处理系统和该整体电源控制器。
7.如权利要求1的方法,其中通过使用RS422/UART链路,连接该整体电源控制器和该远程输入/输出抽屉内的分布式转换器组件。
8.如权利要求1的方法,其中该数据处理系统通过使用该RS422/UART链路向该分布式转换器组件发送命令。
9.用于调试数据处理系统内的输入/输出故障的方法,包括:
向远程输入/输出抽屉供电;
响应于为该远程输入/输出抽屉提供的电源,经由整体电源控制器在该数据处理系统和该远程输入/输出抽屉之间自动提供通信路径,其中该通信路径允许该数据处理系统向该远程输入/输出抽屉发送命令;以及
通过使用该通信路径捕获该远程输入/输出抽屉中的输入/输出故障信息,其中该输入/输出故障信息用于调试输入/输出故障。
10.如权利要求9的方法,其中该通信路径是连接该远程输入/输出抽屉的唯一通信路径。
11.用于调试输入/输出故障的数据处理系统,包括:
响应于检测远程输入/输出抽屉中的输入/输出故障而登录到整体电源控制器上的登录装置,其中该整体电源控制器提供该数据处理系统和该远程输入/输出抽屉之间的通信路径,并且其中该通信路径允许该数据处理系统读取该远程输入/输出抽屉上的芯片寄存器;以及
通过使用该通信路径捕获该远程输入/输出抽屉中的输入/输出故障信息的捕获装置,其中该输入/输出故障信息用于调试该输入/输出故障。
12.如权利要求11的数据处理系统,其中捕获输入/输出故障信息提供用来确定该输入/输出故障之根本原因的必要调试数据。
13.如权利要求11的数据处理系统,其中捕获该远程输入/输出抽屉中的输入/输出故障信息可以减少用于远程I/O链路的发起时间。
14.如权利要求11的数据处理系统,其中该芯片寄存器是JTAG可访问的寄存器。
15.如权利要求11的数据处理系统,其中该通信路径包括I2C链路。
16.如权利要求11的数据处理系统,其中利用以太网接口或系统电源控制网络接口之一连接该数据处理系统和该整体电源控制器。
17.如权利要求11的数据处理系统,其中通过使用RS422/UART链路,连接该整体电源控制器和该远程输入/输出抽屉内的分布式转换器组件。
18.如权利要求11的数据处理系统,其中该数据处理系统通过使用该RS422/UART链路向该分布式转换器组件发送命令。
19.用于输入/输出故障的数据处理系统,包括:
向远程输入/输出抽屉供电的供应装置;
响应于为该远程输入/输出抽屉提供的电源,经由整体电源控制器在该数据处理系统和该远程输入/输出抽屉之间自动提供通信路径的提供装置,其中该通信路径允许该数据处理系统向该远程输入/输出抽屉发送命令;以及
通过使用该通信路径捕获该远程输入/输出抽屉中的输入/输出故障信息的捕获装置,其中该输入/输出故障信息用于调试输入/输出故障。
20.如权利要求19的数据处理系统,其中该通信路径是连接该远程输入/输出抽屉的唯一通信路径。
21.用于调试输入/输出故障的数据处理系统,包括:
远程输入/输出抽屉;
整体电源控制器,其中该整体电源控制器在该数据处理系统和该远程输入/输出抽屉之间提供通信路径,并且其中该通信路径允许该数据处理系统读取该远程输入/输出抽屉上的芯片寄存器;以及
服务处理器,其中响应检测该远程输入/输出抽屉中的输入/输出故障,该服务处理器登录到该整体电源控制器上,并且其中该服务处理器通过使用该通信路径捕获该远程输入/输出抽屉中的输入/输出故障信息,并且其中用户可以利用该输入/输出故障信息来调试该输入/输出故障。
CNB2005100826332A 2004-09-02 2005-07-06 用于调试输入/输出故障的方法和系统 Expired - Fee Related CN100375960C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/932,704 US7290180B2 (en) 2004-09-02 2004-09-02 Method to use an alternate I/O debug path
US10/932,704 2004-09-02

Publications (2)

Publication Number Publication Date
CN1744049A CN1744049A (zh) 2006-03-08
CN100375960C true CN100375960C (zh) 2008-03-19

Family

ID=36035542

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100826332A Expired - Fee Related CN100375960C (zh) 2004-09-02 2005-07-06 用于调试输入/输出故障的方法和系统

Country Status (2)

Country Link
US (1) US7290180B2 (zh)
CN (1) CN100375960C (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7210068B1 (en) 2002-03-06 2007-04-24 Network Appliance, Inc. System and method for multipath I/O support for fibre channel devices
US7337427B2 (en) * 2004-01-08 2008-02-26 International Business Machines Corporation Self-healing cross development environment
US7454657B2 (en) * 2004-09-02 2008-11-18 International Business Machines Corporation Method for self-diagnosing remote I/O enclosures with enhanced FRU callouts
US8588970B2 (en) * 2006-10-13 2013-11-19 Honeywell International Inc. Robotic system with distributed integrated modular avionics across system segments
US9235495B2 (en) 2006-12-22 2016-01-12 International Business Machines Corporation Method and system that provides an interactive debugging session
US8006135B2 (en) * 2009-01-14 2011-08-23 International Business Machines Corporation Method and system for remote node debugging using an embedded node controller
CN102222056A (zh) * 2010-04-13 2011-10-19 鸿富锦精密工业(深圳)有限公司 具有嵌入式系统的电子设备
CN102945196B (zh) * 2012-10-29 2015-02-04 杭州华为数字技术有限公司 服务器io诊断的方法及装置
CN104750605B (zh) * 2013-12-30 2018-08-14 伊姆西公司 将内核对象信息包括在用户转储中
US9842016B2 (en) 2015-11-12 2017-12-12 International Business Machines Corporation Multiple path error data collection in a storage management system
US10599508B2 (en) * 2017-06-08 2020-03-24 International Business Machines Corporation I/O error diagnostics

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1073272A (zh) * 1991-12-09 1993-06-16 横河电机株式会社 分布式控制系统
US6282674B1 (en) * 1998-09-30 2001-08-28 International Business Machines Corporation Apparatus and method for retrieval of circuit state information
US20020124062A1 (en) * 2001-03-01 2002-09-05 International Business Machines Corporation Simultaneous configuration of remote input/output hubs utilizing slave processors in a multi-processor, multi-RHO hub data processing system

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US628674A (en) * 1899-07-11 Hook and eye
US4347563A (en) * 1980-06-16 1982-08-31 Forney Engineering Company Industrial control system
US5909595A (en) * 1995-05-15 1999-06-01 Nvidia Corporation Method of controlling I/O routing by setting connecting context for utilizing I/O processing elements within a computer system to produce multimedia effects
US6961785B1 (en) * 2000-08-03 2005-11-01 International Business Machines Corporation Permanent open firmware PCI host bridge (PHB) unit addressing to support dynamic memory mapping and swapping of I/O drawers
US6944854B2 (en) * 2000-11-30 2005-09-13 International Business Machines Corporation Method and apparatus for updating new versions of firmware in the background
JP4404493B2 (ja) * 2001-02-01 2010-01-27 日本電気株式会社 計算機システム
US6832342B2 (en) 2001-03-01 2004-12-14 International Business Machines Corporation Method and apparatus for reducing hardware scan dump data
US7117385B2 (en) * 2003-04-21 2006-10-03 International Business Machines Corporation Method and apparatus for recovery of partitions in a logical partitioned data processing system
US7574581B2 (en) * 2003-04-28 2009-08-11 International Business Machines Corporation Cross-chip communication mechanism in distributed node topology to access free-running scan registers in clock-controlled components
US7107495B2 (en) 2003-06-19 2006-09-12 International Business Machines Corporation Method, system, and product for improving isolation of input/output errors in logically partitioned data processing systems
US7430691B2 (en) * 2003-10-09 2008-09-30 International Business Machines Corporation Method, system, and product for providing extended error handling capability in host bridges
US7219258B2 (en) * 2003-12-10 2007-05-15 International Business Machines Corporation Method, system, and product for utilizing a power subsystem to diagnose and recover from errors
US7536677B2 (en) * 2003-12-19 2009-05-19 International Business Machines Corporation Method, system, and product for determining defect detection efficiency
US7234085B2 (en) * 2004-01-13 2007-06-19 International Business Machines Corporation Method, system, and product for hierarchical encoding of field replaceable unit service indicators
US7103789B2 (en) * 2004-01-13 2006-09-05 International Business Machines Corporation Method, system, and product for indicating power status of field replaceable units

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1073272A (zh) * 1991-12-09 1993-06-16 横河电机株式会社 分布式控制系统
US6282674B1 (en) * 1998-09-30 2001-08-28 International Business Machines Corporation Apparatus and method for retrieval of circuit state information
US20020124062A1 (en) * 2001-03-01 2002-09-05 International Business Machines Corporation Simultaneous configuration of remote input/output hubs utilizing slave processors in a multi-processor, multi-RHO hub data processing system

Also Published As

Publication number Publication date
US20060059466A1 (en) 2006-03-16
US7290180B2 (en) 2007-10-30
CN1744049A (zh) 2006-03-08

Similar Documents

Publication Publication Date Title
CN100375960C (zh) 用于调试输入/输出故障的方法和系统
US7669084B2 (en) Method for self-diagnosing remote I/O enclosures with enhanced FRU callouts
KR100530710B1 (ko) 이종 분할 시스템에서의 글로벌 에러 보고 방법 및 장치
US6742139B1 (en) Service processor reset/reload
US6792564B2 (en) Standardized format for reporting error events occurring within logically partitioned multiprocessing systems
TWI310899B (en) Method, system, and product for utilizing a power subsystem to diagnose and recover from errors
JP5579354B2 (ja) 関連アプリケーションに対するトラック・データ・クロスリファレンスを保存する方法及び装置
US5933614A (en) Isolation of PCI and EISA masters by masking control and interrupt lines
US6070253A (en) Computer diagnostic board that provides system monitoring and permits remote terminal access
US7107495B2 (en) Method, system, and product for improving isolation of input/output errors in logically partitioned data processing systems
US7877643B2 (en) Method, system, and product for providing extended error handling capability in host bridges
CN100385404C (zh) 用于监视数据处理系统中的输入/输出性能的方法和系统
CN101025707A (zh) 使用输入/输出设备评估数据处理系统健康的方法和系统
US7685473B2 (en) Computer system, method of detecting a stall in a computer system, and signal-bearing medium embodying a program causing a computer system to perform a method of detecting a stall in a computer system
US6976191B2 (en) Method and apparatus for analyzing hardware errors in a logical partitioned data processing system
US6934888B2 (en) Method and apparatus for enhancing input/output error analysis in hardware sub-systems
US7302690B2 (en) Method and apparatus for transparently sharing an exception vector between firmware and an operating system
US20100125747A1 (en) Hardware Recovery Responsive to Concurrent Maintenance
US20030191978A1 (en) Multiple fault location in a series of devices
US7171580B2 (en) Method and apparatus for enhancing system clock availability
EP1649372A2 (en) Maintenance interface unit for servicing multiprocessor systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080319

Termination date: 20110706