CN1499390A - 增强总线的方法、装置和系统 - Google Patents

增强总线的方法、装置和系统 Download PDF

Info

Publication number
CN1499390A
CN1499390A CNA2003101017247A CN200310101724A CN1499390A CN 1499390 A CN1499390 A CN 1499390A CN A2003101017247 A CNA2003101017247 A CN A2003101017247A CN 200310101724 A CN200310101724 A CN 200310101724A CN 1499390 A CN1499390 A CN 1499390A
Authority
CN
China
Prior art keywords
bus
signal
equipment
equipment interface
test signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2003101017247A
Other languages
English (en)
Other versions
CN1310159C (zh
Inventor
Pm
P·M·布兰德
J·B·威廉斯
B·R·怀亚特
黄杰豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1499390A publication Critical patent/CN1499390A/zh
Application granted granted Critical
Publication of CN1310159C publication Critical patent/CN1310159C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/221Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test buses, lines or interfaces, e.g. stuck-at or open line faults

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bus Control (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了增强总线的方法和装置。实施例可测试总线区段、设备接口以及设备和设备接口之间的耦合,以发现位错误,若干实施例产生测试信号以响应设备与设备接口的耦合,在总线上传输该测试信号并当设备接口处的总线信号不同于预期的总线信号时产生一个出错信号。该测试信号可包含一个或多个位模式,被配置成能识别在适配器卡插入该设备接口插槽时发生的与总线区段、使适配器卡与总线隔离的总线开关以及该适配器卡的电路或缓冲器关联的一个或多个故障。在许多这样的实施例中,是在该设备接口的总线一侧和/或插槽一侧确定总线信号。

Description

增强总线的方法、装置和系统
技术领域
本发明涉及错误检测和总线隔离领域。更具体地说,本发明提供方法和装置以检测总线上的错误和/或故障,如总线开关和缓冲器错误、适配器卡错误以及热插接适配器卡总线短路等。
背景技术
服务器应用往往要求服务器保持连续操作。例如,一个“On-Forever(永远开通)”服务器有一个或多个外围部件互连(PCI)总线,以其设备接口使PCI适配器卡与总线相连,同时该服务器保持操作。特别是,该设备接口包括电源控制器和连到PCI插槽的总线开关,以隔离PCI插槽的连接,直到一个适配器卡(往往称作热插接适配器卡)被插入该插槽为止。
在适配器卡插入可用插槽之后,热插接控制器根据连到该总线的其他适配器卡的要求,确定该适配器卡的电源和频率要求并为该总线选择电源和频率。当已建立电源和频率要求之后,电源控制器把电源加到该适配卡。然后控制器通过总线开关把该适配器卡连到该总线,从而启动该适配器卡。PCI桥协调服务器和适配器卡之间的通信。
电源控制器调节连到该总线的适配器卡的电源,并识别“过电流”故障,但该总线对于其他类型的故障而言仍是脆弱的。例如,电源控制器不识别与总线开关相关联的故障以及缓冲器问题、适配器卡问题以及总线短路,如易出故障的连接器以及机械性误插入的适配器卡引起的故障。这些故障干扰桥和适配器卡之间的通信而且能例如造成系统崩溃。再有,电源控制器不能确定造成总线区段不操作和服务器崩溃的故障的起源,所以技术人员不得不验证每个适配器卡、总线开关和总线区段的正确操作,以确定故障源和修复服务器。
发明内容
上文中指出的问题大部分可通过测试总线区段、设备接口以及设备和设备接口间的耦合以发现位错误的方法和装置来解决。实施例可以确定一个测试信号以响应设备与设备接口的耦合,在总线上传输该测试信号并当设备接口处的总线信号不同于预期的总线信号时产生一个出错信号。更具体地说,一些实施例把测试信号传输到一个桥,该桥经由总线把该测试信号传输到设备接口。该测试信号可包含一个或多个位模式,被配置成识别与总线区段、使适配器卡与总线隔离的总线开关以及适配器卡或适配器卡缓冲器关联的一个或多个故障。在许多这样的实施例,总线信号是在设备接口的总线一侧和/或插槽一侧被确定。再有,该总线信号可在总线与适配器卡隔离的情况下被确定和/或在总线与适配器卡在通信上耦合的情况下被确定。当在设备接口的总线信号不同于预期为测试信号(如该测试信号)的响应的比较信号时,可产生一个出错信号。
附图说明
一旦阅读了下文中的详细描述并参考附图,本发明的其他目的和优点将变得显然。在附图中,相似参考符号可指出类似的元素。
图1描绘一个系统的实施例,该系统包含一个或多个处理器、系统存储器、以及一个或多个用于热插接设备的桥,以检测输入输出(I/O)总线上的错误和/或故障;
图2描绘一个装置的实施例,该装置包含一个热插接控制器、一个PCI主机桥、一个设备接口以及一个适配器卡,以检测PCI总线上的错误和/或故障;
图3描绘图2的总线开关的实施例,该总线开关用于检测总线上的错误和/或故障;
图4描绘检测总线上错误和/或故障的一个实施例的流程图;以及
图5描绘一个机器可访问的介质的实施例,该介质有指令用于检测总线上的错误和/或故障。
具体实施方式
下面是附图中描绘的本发明实施例的详细描述。该实施例的详细程度将能做到清楚地公开本发明。然而,提供的细节不想限制实施例的预期的改变,相反,本发明要覆盖落入所附权利要求定义的本发明的精神和范围内的所有修改、等效物和替代物。下面的详细描述被设计成使这些实施例对本领域普通技术人员是明了的。
公开了增强总线的方法和装置。实施例可测试总线区段、设备接口、设备(如适配器)和设备接口之间的耦合以发现位错误。若干实施例产生一个测试信号以响应设备与设备接口的耦合,在总线上传输该测试信号并当设备接口处总线信号不同于预期的总线信号时产生一个出错信号。更具体地说,一些实施例把该测试信号传输到一个桥,该桥经由总线把该测试信号传输到设备接口。该测试信号可包含一个或多个位模式,被配置成标识与总线区段、使适配器卡与总线隔离的总线开关以及插入设备接口插槽的适配器卡电路、寄存器或缓冲器相关联的一个或多个故障。在许多这样的实施例中,总线信号是在设备接口的总线一侧和/或插槽一侧被确定。再有,该总线信号可在总线与设备隔离的情况下被确定和/或在总线与设备在通信上耦合的情况下被确定。当在设备接口的总线信号不同于预期为测试信号的响应的信号时,可产生一个出错信号。
现在转向附图,图1描述系统100的一个实施例,系统100包含一个或多个处理器P1至Pn经由系统总线120与系统存储器130耦合以及一个或多个桥B1至Bm与热插接控制器140和160耦合,以利于在系统100继续操作的同时经由设备接口146、148、166及168把外围设备150、155、170及175耦合到系统总线120。系统100可检测输入输出(I/O)总线144和164上的错误和/或故障,如总线开关和缓冲器错误、适配器卡错误以及在耦合外围设备150、155、170、175之后但在外围设备150、155、170、175完全激活之前发生的总线短路等。在一些实施例中,系统100可确定故障源,隔离该故障或相应的总线并经由硬件和/或软件用户接口把故障通知用户。在另一些实施例中,与故障源对应的I/O总线144和164可被禁止。
处理器P1至Pn可以由任何种类的处理器实现,如通用微处理器。在一些实施例中,处理器P1至Pn包含为服处器和经由桥B1和Bm来自外围设备150、155、170、175的服务请求设计的处理器。例如,处理器P1至Pn中的一个或多个可执行小应用程序(如操作系统(O/S)小应用程序)以向热插接控制器140和160发出诊断命令。在许多这样的实施例中,小应用程序可指令处理器P1至Pn建立或选择不同的测试信号,如数据或位模式,供热插接控制器140和160使用。这些测试信号可被配置成确定可能禁止适当操作的总线故障或部件故障。例如,当在外围设备150、155、170、175(如适配器卡)中识别出一个故障时,该适配器卡可被禁止激活。另一方面,当在一个总线区段或在设备接口146的总线开关中识别出故障时,相应的I/O总线144可被禁止,以避免使系统100崩溃。
系统存储器130可以由易失性存储器元件(如动态随机存取存储器(DRAM)阵列)实现,可包含由外围设备150、155、170、175经由桥B1和B2访问的数据。在又一些实施例中,系统存储器130可包含只读存储器(ROM)和/或非易失读/写存储器。
桥B1至Bm分别与I/O总线144至164耦合,以协调I/O总线144至164上的通信及I/O总线144至164与系统总线120之间的通信。桥B1至Bm可有助于系统总线120和热插接控制器140至160之间的通信。例如,桥B1可以仲裁外围设备150和外围设备155之间对I/O总线144的访问。
在本实施例中,桥B1把测试信号传输给I/O总线144的设备接口146和148以检测故障。例如,桥B1可接收一个测试信号(如位模式)和把该测试信号经由总线I/O144传输给设备接口148或外围设备155的一个指示。桥B1能传输该测试信号以及可由设备接口148或外围设备155识别的一个地址。在一些实施例中,把这一事务编址到设备接口148有助于以测试信号测试外围设备155以及设备接口148的总线隔离开关。
热插接控制器140和160可类似地起作用,以检测、识别和隔离在系统100保持操作而外围设备与总线耦合时出现的故障。例如,热插接控制器140可在系统100保持操作的同时使外围设备150与I/O总线144耦合,并有助于在外围设备150完全激活之前检测伴随I/O总线144和外围设备150的故障。具体地说,热插接控制器140根据从O/S小应用程序接收的指令,响应外围设备150与I/O总线144的耦合,确定一个用于I/O总线144的测试信号。在一些实施例中,该指令描述一个要进行的测试而热插接控制器140确定一个或多个与该测试关联的测试信号。在一些这样的实施例中,热插接控制器140通过把一个或多个位模式组合来产生测试信号。在另一些实施例中,O/S小应用程序向热插接控制器140传输测试信号。然后热插接控制器140能向桥B1发送一个指令以驱动I/O总线14上的测试信号。
热插接控制器140还可经由次级总线142把一个比较信号传输给设备接口146和/或148以确定由故障造成的位错误,该比较信号代表对I/O总线144上传输该测试信号的预期响应。例如,可将外围设备150插入设备接口146的插槽中并保持与I/O总线144隔离。处理器P1可执行一个O/S小应用程序以向热插接控制器140发出命令。响应这些命令,热插接控制器140可以经由次级总线142把一个测试信号传输给桥B1和设备接口146。桥B1可把该测试信号传输给设备接口146。
在许多实施例中,热插接控制器140可以向设备接口146传输一个不同于测试信号的比较信号,以确定是否一个故障影响从桥B1到设备接口146传输的数据。在这样的实施例中,可以通过存储和/或检索来自外围设备150的缓冲器和/或寄存器的数据使测试信号可与外围设备150交互作用。再有,热插接控制器140从设备接口146接收一个出错信号以响应测试信号和比较信号以描述在设备接口146处I/O总线144上的总线信号与该比较信号的差别。在一些实施例中,当检测到故障时,热插接控制器140接收出错信号。在另一些实施例,热插接控制器140接收该信号并确定是有一个故障与该出错信号关联还是把该出错信号转发给一个O/S小应用程序以对该出错信号进行解释。
热插接控制器160以类似的方式通过I/O总线164和总线162与桥Bm、设备接口166和168、以及外围设备170和175交互作用。在一些实施例中,热插接控制器140和160可以包含产生测试信号的逻辑,无需从处理器P1至Pn接收命令和/或指令或接收O/S小应用程序。在又一些实施例中,热插接控制器140至160可包含一个处理器来执行类似于该O/S小应用程序的软件。
设备接口146使外围设备150与I/O总线144耦合并根据设备接口146处的总线信号与比较信号之差产生出错信号。在一些实施例中,总线信号是在设备接口146的总线一侧从I/O总线144上被取样的,以确定在设备接口146和桥B1之间是否有故障。在一些实施例中,总线信号是在设备接口146的插槽一侧被取样而同时外围设备150保持与I/O总线144隔离,以确定与设备接口146关联的故障。在这样的实施例中,能通过比较总线信号和测试信号以确定I/O总线144上传输的测试信号和响应传输该测试信号而接收的总线信号之间的差别,从而产生出错信号。在又一些实施例中,在外围设备150与I/O总线144耦合的同时在设备接口146的插槽一侧取样总线信号,以确定与外围设备150关联的故障。在这些实施例中,能通过比较总线信号与比较信号来产生出错信号。
在若干实施例中,一旦确定了错误,该错误可以按与设备接口166和168或桥B1和Bm耦合的灯光形式显示给用户。在又一些实施例中,该出错信号可得到解释,该故障可经由图形用户界面(GUI)或音频接口等告知用户。例如,O/S小应用程序可从热插接控制器140检索出错信号,解释该出错信号和在与系统关联的终端上显示有关该故障的消息。
现在参考图2,图中显示装置200的实施例,其中包含热插接控制器210,PCI主机桥280,设备接口230,以及适配器卡270,以检测PCI总线282上的错误和/或故障。热插接控制器210可以确定适配器卡270的电源和频率能力,指示电源控制器240向适配器卡270提供电源并响应适配器卡270与PCI扩展插槽连接器260的耦合,产生对PCI总线282的测试信号。例如,热插接控制器210接收来自设备接口230的PCI扩展插槽连接器260的信号212,并包含逻辑以确定PCI扩展插槽连接器260与适配器卡270耦合。对此做出响应,热插接控制器210发送一个插槽复位信号214并从适配器卡270接收“能力信号”。然后,热插接控制器210发送一个插槽电源控制信号218以向适配器卡270提供电源。
设备接口230的电源控制器240接收信号218并改变电源场效应晶体管(FET)的状态,从而经由插槽电源244从系统和辅助电源242向PCI扩展插槽连接器260提供电源。在一些实施例中,电源控制器240可包含电路来确定何时电源调节是好的和/或何时发生了过流故障。电源调节状态和过流故障能经由插槽电源状态216传输给热插接控制器210。
在对适配器卡270加电之后和在适配器卡270完全激活之前,热插接控制器210有好处地试图检测、识别和隔离与PCI总线282、设备接口230以及与设备接口230耦合的适配器卡(如适配器卡270)有关联的一个或多个故障。特别是,热插接控制器210产生一个包含位模式的测试信号,它被配置成识别故障,如PCI总线282上的短路,FET总线开关250的误功能总线开关,与适配器卡关联的故障,或与适配器卡270和设备接口230之间的连接有关联的故障。测试信号经由JTAG总线228传输给PCI主机桥280,预期作为对测试信号的响应的比较信号经由I2C总线222传输给设备接口230。测试信号被预加载到连在PCI主机桥280输出针脚的边界扫描寄存器的被锁住的输出端,而热插接控制器210经由JTAG总线228发出一个JTAG EXTEST指令,以驱动测试信号穿过输出针脚。热插接控制器210可以等待若干周期以捕获出错信号220,该出错信号220是在传输测试信号之后根据PCI总线282上的总线信号由设备接口230确定的。出错信号220被传输到热插接控制器210,以与测试信号造成的一个或多个其他出错信号一起解释出错信号220。
热插接控制器210,可利用经由I2C总线222及插槽总线控制224传输的信号来调节设备接口230的测试条件。例如,在若干实施例中,热插接控制器210经由I2C总线222发送一个信号,以控制在总线一侧总线信号和插槽一侧总线线信号之间选择与设备接口230关联的总线信号。总线一侧总线信号是从PCI总线282上取样的信号,而插槽一侧总线信号是从插槽PCI总线信号254中取样的信号。
在许多实施例中,热插接控制器210经由插槽总线控制224发送一个信号,以控制FET总线开关250的状态。例如,热插接控制器210可以经由插槽总线控制224发送一个信号,通过使PCI总线282和插槽PCI总线信号254之间耦合的FET断开(OFF)或接通(ON)使得FET总线开关250将适配器卡270与PCI总线282隔离。
在其他实施例中,热插接控制器210的行动可包含响应软件(如小应用程序)发出的指令或命令。在许多这样的实施例中,该小应用程序可接收出错信号或代表出错信号的数据,并解释出错信号以确定故障源并产生指令隔离故障,如使适配器卡270与PCI总线282隔离。
图3描绘图2中所示多个FET总线开关250的一个总线开关300的实施例,用于检测总线(如总线360)和插槽总线370上的错误和/或故障。总线开关300包含开关304、314和324,多路复用器308、318和328,比较器310、320、330和340,以及I2C控制器340。开关304、314和324根据插槽总线控制信号SEL#提供总线360和370之间的隔离或耦合。例如,总线360可以包含一个系统的次级总线以连接外围设备,而插槽总线370可以包含一个总线把插槽内的适配器卡耦合到总线360,于是一个控制器可以发送一个信号SEL#使总线360与插槽总线370隔离,直至插槽总线370进行过故障检验为止,这些故障诸如适配器卡的机械误插接,适配器卡中的故障,与适配器耦合的设备中的故障,或者在适配器卡插入插槽时引起的故障。在又一些实施例中,开关304、314和324可以在一些测试中把总线360与插槽总线370隔离而在另一些测试中使总线360与插槽总线370耦合。
多路复用器308、318和328可有助于比较来自开关304、314和324的总线一侧和插槽一侧的总线信号。特别是,多路复用器308、318和328可以与节点302、312和322耦合以对总线一侧的总线信号A(0)、A(1)和A(n)取样,还可以与节点306、316和326耦合以对插槽一侧的总线信号B(0)、B(1)和B(n)取样。来自I2C控制器340的信号I2CompSel可以响应来自一个控制器的I2C总线上的信号,从而选择要取样的总线信号。在另一些实施例中,每个多路复用器308、318和328的单独的信号可有助于进一步的测试。
比较器310、320和330可以比较总线360上数据模式的位,如A(0)上的一位对来自I2C控制器340的一位I2CReg(0),以确定是否有与总线360关联的故障。例如,一个控制器产生一个测试信号并经由总线360把该测试信号传输给FET总线开关300。该控制器还经由I2C总线向I2C控制器340传输一个比较信号,或者是预期作为对节点302、312和322处测试信号的响应的信号。作为响应,I2C控制器340向多路复用器306、316和326发出信号以选择总线一侧的总线信号,并把比较信号位I2CReg(0∶n)传输给相应的比较器310至330,以产生比较信号Compare(0)至Compare(n)。在本实施例中,比较器包含XOR逻辑,以在总线信号和测试信号二者都为低值时产生一个高输出,否则产生一个低输出。
比较器350把比较器310、320和330的输出组合,从而产生出错信号“总线开关出错”。比较器350以AND逻辑组合这些输出以产生一个出错信号,当所有测试信号为高值时该出错信号包含一个逻辑1或高输出,否则包含一个逻辑零或低输出。在一些实施例中,比较器350的输出可以向I2C控制器340提供反馈,以指出该逻辑为产生一个出错信号造成的延迟。
图4显示在总线上检测错误和/或故障的一个实施例的流程图。该实施例包含确定一测试信号以响应一设备与一设备接口的总线耦合(400)。确定一测试信号以响应一设备与一设备接口的总线耦合(400)可包含从一小应用程序接收一个位模式或数据。在一些实施例中,确定一测试信号以响应一设备与一设备接口的总线耦合(400)可包含选择一个测试信号或位模式,它被配置成识别与总线关联的故障。例如,一个控制器可选择一测试信号以检测一外围总线上的故障,如短路或有故障的连接器。
在确定检测信号之后,许多实施例包含在总线上传输该测试信号(410)和经由第二总线向设备接口传输比较信号(420)。例如,一个控制器向与该总线耦合的一个桥传输该测试信号,而该测试信号被锁存在桥的输出寄存器上。该控制器还传输一个比较信号以比较设备接口的电路。
在传输该测试信号之后确定设备接口处总线上的总线信号(430)在为取样该总线信号而选定的节点处读取总线上的信号。在一些实施例中,确定总线信号(430)进一步包含接收一个信号,该信号指出从哪些节点对总线信号取样。例如,该控制器可向设备接口传输一个节点选择信号,而该设备接口可把该信号转换成用于多路复用器的多个信号,用于与该设备接口耦合的总线的每个信号介质。更具体地说,每个多路复用器的状态可以确定该总线信号是来自于设备接口的总线一侧还是来自于设备接口的插槽一侧。在许多实施例中,从设备接口的总线一侧对总线信号取样有利于检测和隔离在设备接口与桥或控制器之间的总线区段中的故障。在若干这样的实施例中,从设备接口的插槽一侧对总线信号取样可以有助于检测和隔离与耦合到该设备接口插槽的适配器卡关联的故障或与开关(如设备接口的FET开关)关联的故障。
在测试信号和比较信号在总线上传输而且在设备接口处从总线上对总线信号取样之后,总线信号和比较信号可进行比较以确定是否存在故障。当比较表明存在故障时,许多实施例包含根据总线信号和比较信号之间的差异产生一个出错信号(445)以把该错误告知控制器,这里的比较信号是作为在总线上传输测试信号的响应所预期的信号。该控制器能解释与一个或多个测试信号关联的出错信号以确定是否存在故障和故障位于何处,从而能使该故障与系统的其余部分隔离。例如,当故障是在一个总线区段或一个总线开关上时,该总线可以有利地被禁止以避由于不能操作的外围总线造成全系统范围的崩溃。另一方面,当故障与适配器卡关联时,进一步的测试可指出该故障是否与该适配器卡的缓冲器或寄存器关联,或与适配器卡和插槽之间的错误连接关联,或与适配器卡到设备接口插槽的机械插入关联。在这后几种情况中,可使该插槽与总线隔离直至该故障被纠正或修复。
在若干实施例中,一旦确定一个错误,该错误可以按与设备接口耦合的灯光形式显示给用户和/或通过解释该出错信号和通过图形用户界面(GUI)把故障告知用户。
现在参考图5,图中显示本发明的机器可访问介质实施例,机器可访问介质包括提供(即存储和/或传输)机器(即计算机)可读形式的信息的任何机制,当由机器执行时,它能完成这里描述的功能。例如,一个机器可访问介质可以包括只读存储器(ROM);随机存取存储器(RAM);磁盘存储介质;光存储介质;闪速存储设备;电的、光的、声的或其他形式的传播信号(如载波、红外信号、数字信号等);等等。本发明的若干实施例能包含不只一个机器可访问介质,这取决于机器的设计。
实施例500可包含指令,用于确定测试信号(510),解释出错信号以确定与设备关联的故障(520),当故障与该设备关联时使该设备与总线隔离(530)以及经由用户接口通告该故障(540)。确定测试信号(510)可确定一个测试信号,该信号在总线上传输以响应一设备与一设备接口对总线的耦合,并包含选择位模式的指令,该位模式被配置成识别与该总线关联的故障(515)。例如,确定测试信号的指令可使处理器向一控制器发出一个或多个诊断命令,在一总线区段上建立不同的数据模式以确定总线故障。
解释出错信号以确定与总线关联的故障(520)可解释响应该测试信号的传输而产生的出错信号,以确定与总线关联的故障。解释出错信号以确定与总线关联的故障(520)可包含指令用于基于对另一出错信号的解释来解释出错信号(525)。例如,在确定检测信号之后,该检测信号可被传输到设备接口,以确定是与总线关联的故障还是与该设备接口关联的故障造成来自适配器卡的测试信号或是对测试信号的响应中的出错位。一个比较信号也可经由另一不同的总线从控制器传输到设备接口,以提供该测试信号或该测试信号正确响应的模板。然后,该比较信号能与设备接口处的总线信号逐位比较,以确定是否由于一个故障造成了错误。对信号的比较能有助于产生出错信号,而出错信号能被传输到控制器,然后,对该错误信号进行解释,如果适用的话,还要考虑由先前的诊断造成的其他出错信号,以确定该故障可能位于何处。
当故障与设备关联时使该设备与总线隔离(530)可在对出错信号的解释表明该故障与该设备关联时使该设备与总线隔离并可包含指令向总线开关传输一个信号(535)。向总线开关传输一个信号(535)可包含传输一个改变FET状态的信号以使适配器卡与总线隔离。另一方面,当不能由适配器卡隔离故障时,例如由于FET故障,则可以使该总线处于不活动状态直至修复为止,以防止全系统崩溃。
又一些实施例可包含经由用户接口通告故障(540)。经由用户接口通告故障(540)可包含指令用于经由系统传输或广播一个消息以向用户指出问题。例如,该系统可包含一个服务器的一个部分,一个消息可被发送到一个管理终端,它被设计成监视和/或维护一个或多个服务器。
借助这里公开的内容,本领域技术人员将会清楚看出,本发明企图在一个保持操作的系统中,在完全激活一个热插接设备和/或与该热插接设备关联的总线之前,检测并在一些实施例中隔离与该热插接设备和总线的耦合相关联的故障。应该理解,在详细描述和附图中显示和描述的本发明的形式只是作为当前优选的示例而采取的。下列权利要求应被广义地解释,以包含对所公开的优选实施例的所有改变。

Claims (28)

1.一种装置,包含:
一个控制器,用于产生测试信号以响应一设备与一总线的耦合;
一个桥,用于与该控制器响应性耦合,以在该总线上传输该测试信号;以及
一个设备接口,用于使该设备与该总线耦合并从该总线接收一个总线信号,该设备接口与该控制器及桥耦合,以根据该总线信号及从该测试信号中导出的信号确定一个出错信号。
2.权利要求1的装置,其中该控制器包含在该设备与该设备接口耦合之后检测该设备的逻辑。
3.权利要求1的装置,其中该控制器包含根据该出错信号确定故障源的电路。
4.权利要求3的装置,其中该控制器包含传输一个信号以隔离该故障源的电路。
5.权利要求1的装置,其中该设备接口包含一个总线开关耦合于该设备和该总线之间,用于使该设备与该总线隔离。
6.权利要求5的装置,其中该设备接口包含与该总线开关耦合的电路以从该控制器接收一个比较信号并将该比较信号与该总线信号比较,其中该比较信号包含一个预期为该总线信号的信号。
7.权利要求6的装置,其中该电路包含一个多路复用器,其在该总线开关的第一侧及第二侧与总线耦合,用于确定该总线信号以响应一个控制信号。
8.权利要求6的装置,其中该逻辑电路包含比较电路用于根据该比较信号与该总线信号的比较结果产生该出错信号。
9.一个系统,包含:
一个控制器,用于产生测试信号以响应一设备与一总线的耦合;
一个与该控制器耦合的桥,用于在该总线上传输该测试信号;
一个设备接口,用于使该设备与该总线耦合并从该总线接收一个总线信号,该设备接口与该控制器及桥耦合,以根据该测试信号及该总线信号确定一个出错信号;以及
一个与该桥耦合的处理器,用于与该设备通信。
10.权利要求9的系统,进一步包含与该桥耦合的存储器设备。
11.权利要求9的系统,其中该桥包含一个外围部件互连桥。
12.权利要求9的系统,其中该设备接口包含一个具有场效应晶体管的总线开关以使该总线与该设备隔离。
13.权利要求9的系统,其中该设备接口包含比较电路,其在一总线开关的总线一侧与该总线耦合以确定该总线信号。
14.权利要求9的系统,其中该设备接口包含比较电路,其在一总线开关的插槽一侧与该总线耦合以确定该总线信号。
15.权利要求9的系统,其中逻辑电路包含比较电路,用于根据比较信号的一位与该总线信号的一位的比较结果产生出错信号,其中该比较信号是一个预期响应该测试信号的传输经由该总线接收的总线信号。
16.权利要求9的系统,其中该处理器指令该控制器根据一个小应用程序的执行而产生该测试信号。
17.一种含有指令的机器可读介质,当由机器执行时,它使所述机器实现多种操作,包含:
确定一个要在总线上传输的测试信号以响应一设备与一设备接口的总线耦合;
对响应该测试信号的传输而产生的出错信号进行解释,以确定与该总线关联的故障;以及
当对出错信号的解释表明该故障与该设备关联时使该设备与该总线隔离。
18.权利要求17的机器可访问介质,进一步包含经由用户接口通告该故障。
19.权利要求17的机器可访问介质,其中确定测试信号包含选择位模式,该位模式被配置成能识别该故障。
20.权利要求17的机器可访问介质,其中解释出错信号包含基于对另一出错信号的解释来解释该出错信号。
21.权利要求17的机器可访问介质,其中隔离该设备包含向总线开关传输一个信号。
22.一种方法,包含:
确定一测试信号以响应一设备与一设备接口的总线耦合;
在该总线上传输该测试信号;
在传输该测试信号之后确定该设备接口处的总线信号;以及
基于该总线信号和一个比较信号之间的差异产生一个出错信号,其中该比较信号预期为在总线上传输该测试信号的响应。
23.权利要求22的方法,进一步包含经由第二条总线向该设备接口传输该比较信号。
24.权利要求22的方法,进一步包含比较该总线信号和该比较信号。
25.权利要求22的方法,其中确定一个测试信号包含选择一个位模式,该位模式被配置成能识别与该总线关联的故障。
26.权利要求22的方法,其中确定一个总线信号包含确定在该设备接口输入端的总线信号,以检测桥和该设备接口之间的总线上的故障。
27.权利要求22的方法,其中确定一个总线信号包含确定在该设备接口输出端的总线信号,以检测和该设备接口相关联的总线上的故障。
28.权利要求22的方法,其中产生一个出错信号包含以XOR逻辑组合该总线信号和该比较信号。
CNB2003101017247A 2002-10-30 2003-10-21 增强总线的方法、装置和系统 Expired - Fee Related CN1310159C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/283,994 2002-10-30
US10/283,994 US7069477B2 (en) 2002-10-30 2002-10-30 Methods and arrangements to enhance a bus

Publications (2)

Publication Number Publication Date
CN1499390A true CN1499390A (zh) 2004-05-26
CN1310159C CN1310159C (zh) 2007-04-11

Family

ID=32174787

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2003101017247A Expired - Fee Related CN1310159C (zh) 2002-10-30 2003-10-21 增强总线的方法、装置和系统

Country Status (3)

Country Link
US (1) US7069477B2 (zh)
JP (1) JP3745761B2 (zh)
CN (1) CN1310159C (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040044928A1 (en) * 2002-09-04 2004-03-04 Der-Shyong Chang Test device and method for information transmission interfaces
US7656867B2 (en) * 2003-11-25 2010-02-02 Marcon International, Inc. Serial bus identification circuit for a computer chip enclosed in a stainless steel can
TW200537305A (en) * 2004-05-04 2005-11-16 Quanta Comp Inc Communication system, transmission device and the control method thereof
US7257654B1 (en) * 2004-11-09 2007-08-14 Advanced Micro Devices, Inc. PCI bridge device configured for using JTAG scan for writing internal control registers and outputting debug state
JP4487756B2 (ja) * 2004-12-16 2010-06-23 日本電気株式会社 コンピュータシステム及びシステム監視プログラム
CN100444123C (zh) * 2004-12-31 2008-12-17 北京中星微电子有限公司 一种接口测试响应设备
TWI275932B (en) * 2005-08-19 2007-03-11 Wistron Corp Methods and devices for detecting and isolating serial bus faults
US7502953B2 (en) * 2006-01-05 2009-03-10 International Business Machines Corporation Dynamically adding additional masters onto multi-mastered IIC buses with tunable performance
US7437496B2 (en) * 2006-04-28 2008-10-14 Ixia Hot swap adapter
CN100511162C (zh) * 2006-09-29 2009-07-08 华为技术有限公司 一种隔离总线故障的方法、装置与一种单板
US7853850B2 (en) * 2007-02-01 2010-12-14 Raytheon Company Testing hardware components to detect hardware failures
CN100585568C (zh) * 2008-06-17 2010-01-27 炬力集成电路设计有限公司 一种ahb总线测试方法与系统
JP5401679B2 (ja) * 2009-02-19 2014-01-29 株式会社日立製作所 計算機システム、管理方法及び管理サーバ
US8656228B2 (en) 2010-06-23 2014-02-18 International Business Machines Corporation Memory error isolation and recovery in a multiprocessor computer system
US8683108B2 (en) 2010-06-23 2014-03-25 International Business Machines Corporation Connected input/output hub management
US8677180B2 (en) 2010-06-23 2014-03-18 International Business Machines Corporation Switch failover control in a multiprocessor computer system
US8615622B2 (en) 2010-06-23 2013-12-24 International Business Machines Corporation Non-standard I/O adapters in a standardized I/O architecture
US8918573B2 (en) 2010-06-23 2014-12-23 International Business Machines Corporation Input/output (I/O) expansion response processing in a peripheral component interconnect express (PCIe) environment
US8645606B2 (en) 2010-06-23 2014-02-04 International Business Machines Corporation Upbound input/output expansion request and response processing in a PCIe architecture
US8645767B2 (en) 2010-06-23 2014-02-04 International Business Machines Corporation Scalable I/O adapter function level error detection, isolation, and reporting
US8745292B2 (en) 2010-06-23 2014-06-03 International Business Machines Corporation System and method for routing I/O expansion requests and responses in a PCIE architecture
US8949499B2 (en) * 2010-06-24 2015-02-03 International Business Machines Corporation Using a PCI standard hot plug controller to modify the hierarchy of a distributed switch
JP5585332B2 (ja) * 2010-09-14 2014-09-10 日本電気株式会社 耐故障システム、マスタft制御lsi、スレーブft制御lsiおよび耐故障制御方法
US9411762B2 (en) * 2013-03-15 2016-08-09 Intel Corporation Method and system for platform management messages across peripheral component interconnect express (PCIe) segments
CN104679615A (zh) * 2013-11-26 2015-06-03 英业达科技有限公司 总线压力测试系统及其方法
US10444283B1 (en) * 2017-02-14 2019-10-15 Intel Corporation Sharing a JTAG interface among multiple partitions
US11372462B2 (en) * 2020-03-24 2022-06-28 Hitachi Energy Switzerland Ag Protected power and data bus connection of peripheral device and host device

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5833743A (ja) 1981-08-25 1983-02-28 Nec Home Electronics Ltd コンピユ−タのインタ−フエイス検査装置
JPS58203533A (ja) 1982-05-24 1983-11-28 Meidensha Electric Mfg Co Ltd デ−タ処理装置
JPH07334433A (ja) 1994-06-08 1995-12-22 Nec Corp バス制御装置
US5701409A (en) * 1995-02-22 1997-12-23 Adaptec, Inc. Error generation circuit for testing a digital bus
US5852617A (en) * 1995-12-08 1998-12-22 Samsung Electronics Co., Ltd. Jtag testing of buses using plug-in cards with Jtag logic mounted thereon
US6032271A (en) 1996-06-05 2000-02-29 Compaq Computer Corporation Method and apparatus for identifying faulty devices in a computer system
US6141711A (en) * 1996-12-19 2000-10-31 National Semiconductor Corporation Method and apparatus to enable insertion/ejection of a device in a computer system while maintaining operation of the computer system and application software
US5930496A (en) * 1997-09-26 1999-07-27 Compaq Computer Corporation Computer expansion slot and associated logic for automatically detecting compatibility with an expansion card
US6070207A (en) * 1998-01-26 2000-05-30 Intel Corporation Hot plug connected I/O bus for computer system
US6363452B1 (en) * 1999-03-29 2002-03-26 Sun Microsystems, Inc. Method and apparatus for adding and removing components without powering down computer system
JP2001005743A (ja) 1999-06-17 2001-01-12 Toyo Commun Equip Co Ltd 伝送装置

Also Published As

Publication number Publication date
US20040088604A1 (en) 2004-05-06
JP3745761B2 (ja) 2006-02-15
US7069477B2 (en) 2006-06-27
JP2004152298A (ja) 2004-05-27
CN1310159C (zh) 2007-04-11

Similar Documents

Publication Publication Date Title
CN1310159C (zh) 增强总线的方法、装置和系统
US5815647A (en) Error recovery by isolation of peripheral components in a data processing system
US6792378B2 (en) Method for testing I/O ports of a computer motherboard
US7715450B2 (en) Sideband bus setting system and method thereof
US6003081A (en) Data processing system and method for generating a detailed repair request for a remote client computer system
US6055653A (en) Method and apparatus for testing gang memory modules
US20020152418A1 (en) Apparatus and method for two computing elements in a fault-tolerant server to execute instructions in lockstep
US20100017552A1 (en) Converter and control system
US7650540B2 (en) Detecting and differentiating SATA loopback modes
US7073088B2 (en) Data bus arrangement and control method for efficiently compensating for faulty signal lines
CN102053898A (zh) 针对主机pcie插槽上总线接口的测试方法及其读写测试方法
US20070250651A1 (en) System and Method of Substituting Redundant Same Address Devices on a Multi-Mastered IIC Bus
CN101661453B (zh) 刀片服务器中识别刀片序号的方法
CN102455965A (zh) 电子装置测试系统及方法
CN113434442A (zh) 一种交换机及数据访问方法
EP0772134A1 (en) Adapter card slot isolation for hot plugging
US7168029B2 (en) Method for testing a universal serial bus host controller
CN109710479B (zh) 一种处理方法及第一设备、第二设备
CN1142499C (zh) 利用片上总线传输数据的装置和方法
CN1276356C (zh) Pci系统的检测方法
US6919878B2 (en) Keyboard/mouse switching controller
US11321260B2 (en) USB hub device having functionality of self firmware updating and host electronic system having the same
CN216014148U (zh) 一种服务器和服务器背板
US11809340B2 (en) Memory card for data transfer system, data storage device, system host, and memory card identification method
US20240045826A1 (en) Micro controller unit, operation system, and control method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070411

Termination date: 20101021