CN1391673A - 对等互连的诊断 - Google Patents

对等互连的诊断 Download PDF

Info

Publication number
CN1391673A
CN1391673A CN 00816032 CN00816032A CN1391673A CN 1391673 A CN1391673 A CN 1391673A CN 00816032 CN00816032 CN 00816032 CN 00816032 A CN00816032 A CN 00816032A CN 1391673 A CN1391673 A CN 1391673A
Authority
CN
China
Prior art keywords
loop
equipment
error
link
counting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 00816032
Other languages
English (en)
Inventor
M·H·米勒
J·A·库姆斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seagate Technology LLC
Original Assignee
Seagate Technology LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seagate Technology LLC filed Critical Seagate Technology LLC
Publication of CN1391673A publication Critical patent/CN1391673A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Small-Scale Networks (AREA)

Abstract

一种信息处理系统(例如,磁盘驱动器)包括一个控制器,该控制器与回路中的其他设备进行通信并执行分布式或对等回路错误诊断。回路的一个例子是光纤通道调停回路。通过监控错误计数以确定错误计数是否正在增加,分布式或对等回路错误诊断技术就能识别并诊断直接的上游设备和直接的上游链路中的错误。增加的错误计数或改变的回路配置指出错误来源不是上游设备,而未改变的错误计数和未改变的回路配置则指出错误来源是上游链路。

Description

对等互连的诊断
相关申请
该申请声明了在35U.S.C.219(e)下于2000年11月22日提交的序列号为60/166,805的美国临时申请的权益。
发明领域
本发明涉及回路诊断的领域。尤其是,本发明涉及对等的接口诊断。
发明背景
任何计算机系统的一个关键部件是存储数据的设备。计算机系统具有许多可存储数据的不同的地方。在计算机系统中,用于存储大量数据的一个常见的地方是在磁盘驱动器上。磁盘驱动器的最基本的部分是一个旋转的磁盘、将转换器移到磁盘上的各个位置的一个致动器,以及用于读、写数据到磁盘和从磁盘读、写数据的电路。磁盘驱动器还包括电路,用于对数据进行编码,以便可以成功地对数据检索和写到磁盘表面。微处理器控制磁盘驱动器的大多数操作,并控制将数据传送回提出请求的计算机和从提出请求的计算机取出用于存储到磁盘的数据。
代表数据的信息存储在存储磁盘的表面上。磁盘驱动器系统读、写存储在存储磁盘上的各个磁道上的信息。
光纤通道(FC)是由ANSI标准化的一种串行数据转移结构。一种著名的FC标准是光纤通道调停回路(FC-AL)。这个标准定义分布式菊花链回路。FC用于该回路上的对等通信。
FC-AL是为新的大容量存储设备和需要极高带宽的其他外围设备而设计的。除了其他的较高层次协议外,FC-AL还支持“小型计算机系统接口”(SCSI)命令集。这些较高层次的协议对FC的映射被称作“FC-4层”。
在FC-AL中,来自起源设备的信息在到达接收设备之前可以通过多个其他的设备,以及各个设备之间的链路。然而,信息在多个链路上的通过增加了在点到点的连通上隔离临界的和失败链路的复杂性,但存在隔离临界链路的三项传统的技术。隔离临界FC链路的一项技术是利用链路状况来隔离有问题的链路。第二种方法是使用FC-4映射的错误报告的特点。第三种方法是结合前两种方法。
这三项技术的主要要求是掌握拓扑结构(即连通顺序)的知识。可以在从回路位置映射进行FC-AL定义回路初始化的期间,或通过固有装置(implicitmeans)来获得拓扑结构的知识。固有装置的一个例子是使用硬地址的磁盘驱动器外壳。
在临界链路隔离中使用链路状况的第一种方法要求在回路上的至少一个设备中实行管理应用程序(MA)。可以执行几项MA,以覆盖任何一个设备的故障。MA可以在正常的回路操作期间定期调查回路,或者要求检测链路错误的设备报告事件,在轮询法模式中,积累在所有设备中的链路状况用来定位临界链路。在报告错误识别模式中,从报告错误的所有设备累积而来的状况用来定位临界链路。
利用这种方法,可以对单个错误的来源进行隔离,但并不保证实行这种隔离。
使用链路状况可使方法FC-4独立化。这是多协议回路中的一个优点。但是,使用链路状况的缺点是:轮询法或报告错误模式的额外开销降低了回路的效率。
第二种方法使用FC-4映射的错误报告的特点。使用FC-4报告的错误来隔离回路上的错误来源,这要求保持错误记录。通过分析记录以确定哪些设备正在报告错误和哪些设备不正在报告错误,来定位来源。
通过使用FC-4报告的错误来隔离回路上的错误来源,可以不再要求MA来保持链路错误历史记录和调查回路。不调查回路可减少回路上的额外开销。此外,只有当错误发生时,才对其进行报告。
通过使用FC-4报告的错误来隔离回路上的错误来源,在用单个主设备接收所有被报告错误的设备中能最好地执行。这种设备的一个例子是单启动的SCSI存储子系统。
只依靠FC-4错误状况至少有三个缺点。发生单个错误不会提供充分的信息来隔离来源。此外,必须累积状况以建立历史记录,以便隔离错误来源。最后,在支持多协议的回路或接收FC-4状况的多个设备中,由于没有向公共目标设备报告错误,因此,实现会变得困难。
隔离临界FC链路的第三项技术使用链路状况和FC-4错误报告来隔离有问题的链路。不采用轮询法,并且可以隔离单个错误的来源。
至于对链路状况的任何使用,都需要MA来保持所有设备的错误计数。当报告FC-4错误或MA检测链路错误时,MA从所有设备中读取累积的链路状况,以确定可能的错误来源。
具有多个FC-4的回路上的实施有一个缺点:MA必须支持所有的FC-4。
参考图1,示出回路105的图例,它包括SCSI光纤通道协议(FCP)设备。该回路包括一个SCSI启动程序设备110,该设备用作回路主导装置并与SCSI目标设备120、130和140进行通信。设备120与设备130之间的链路或互连150是临界的和/或失败的。
由FC-4提供的错误检测与报告可以用来隔离临界链路(如果有的话)。
由于临界链路150,回路主导装置110将经历命令超时和数据错误。命令超时是命令、转移就绪或响应帧期间的错误的结果。当这些帧被错误地接收时,就放弃它们。由于超时可由给目标的帧丢失而产生、命令,或者由于目标、转移就绪和响应而产生,因此,无法确定坏链路的位置。
在写数据操作中,设备120不会经历来自回路主导装置110的数据的错误。但是,设备120和设备130将检测由临界链路引入的错误,在FCP响应中,报告有关写数据的错误。
在读数据操作中,回路主导装置110不会检测从设备130和设备140读取的数据的错误。
人们需要的是不要求掌握回路的拓扑结构知识的回路错误诊断,这会减少回路额外开销通信量并提高诊断的效率。
发明概要
在隔离错误来源的对等方法中,管理应用程序(MA)功能被分配给回路上的所有设备。链路状况用于错误来源的隔离。尤其是,每个设备保持与其输入连接的设备和上游设备的特性和链路错误状况。当设备检测有关其输入的链路错误时,设备请求上游设备进行链路错误计数。
当上游设备的链路状况指出设备也检测出链路错误时,错误来源是回路上的一个不同的链路。如果来自上游设备的链路状况没有指出它检测出错误,则错误来源可能是上游设备与设备自身之间的互连。然后,设备可以在上游设备与其自身之间开始进行诊断转换,以便验证互连是临界的。
有利的是,关于回路错误诊断的本发明不要求掌握回路的全部拓扑结构的知识。本发明还减少了回路额外开销通信量,因为错误隔离被分配给回路中的每个设备。此外,回路诊断的效率提高了,这是因为离问题来源最近的设备实行诊断。另外,本发明使回路上的每个设备的性能降低达到最小化,因为当每个设备空闲时,该设备中的诊断功能可加以执行,从而避免诊断影响设备在更高优先权任务期间的性能。
附图简述
图1是由SCSI FC通道协议设备组成的传统回路的方框图。
图2是具有一个多重磁盘堆栈和用于将转换器装载到磁盘表面并从磁盘表面卸载转换器的滑道(ramp)组件的磁盘驱动器分解视图。
图3是回路错误诊断方法的程序图。
图4是回路错误诊断方法的程序图。
图5是识别局部记录在分布式菊花链对等回路上的错误状态的方法的程序图。
图6是确定诊断和解决错误的方法的程序图。
图7是回路中确定上游设备和/或上游链路中的错误的一种同等装置的方框图。
图8是同等装置中的回路错误隔离管理应用程序的方框图。
图9是一种计算机系统的示意视图。
关于较佳实施例的描述
在以下对较佳实施例的详细描述中,参考构成其一部分的附图,在附图中,通过插图说明来示出可实践本发明的一些特殊的实施例。不言而喻,在不脱离本发明的范围的前提下,可以利用其他的实施例,并可以进行结构修改。
本申请中描述的发明对于具有旋转或直线驱动的所有磁盘驱动器的机械配置都有用。此外,本发明也对各种磁盘驱动器有用,这些磁盘驱动器包括硬盘驱动器、zip驱动器、软盘驱动器,并且可能需要从表面卸载转换器并停放转换器的任何其他类型的驱动器。图2是一种具有旋转的致动器类型的磁盘驱动器200的分解视图。磁盘驱动器200包括一个外套或底部212,以及一个盖子214。底部212和盖子214构成磁盘外壳。致动组件220旋转地附着于致动轴杆218的底部212。致动组件220包括具有多个支臂223的一个梳状结构222。负载杆或负载弹簧224附着于梳齿222上的各个支臂223。负载杆或负载弹簧也被称作悬挂件。承载一个磁性转换器250的滑动器226附着于每个负载弹簧224的末端。具有转换器250的滑动器226构成多次提到的磁头。应该注意,许多滑动器有一个转换器250,图中示出这一点。还应该注意,本发明同样可应用于具有不只一个转换器的滑动器,例如被称作MR或磁阻磁头的部件,其中,一个转换器250通常用于读取,另一个转换器通常用于写入。音圈228位于与负载弹簧224和滑动器226相对的致动臂组件220的末端。
第一个磁体230和第二个磁体231附着于底部212的内部。如图2所示,第二个磁体231与盖子214关联。第一和第二个磁体230、231,以及音圈228是音圈电机的关键部件,音圈电机向致动组件220施加一个力,使其围绕致动轴杆218旋转。主轴电机也被安装到底部212。主轴电机包括称作主轴孔233的一个旋转部分。在这种特殊的磁盘驱动器中,主轴电机位于孔内部。在图2中,许多磁盘234附着于主轴孔233。在其他的磁盘驱动器中,单个磁盘或许多不同的磁盘可能附着于孔。这里描述的本发明同样可应用于具有多个磁盘的磁盘驱动器和具有单个磁盘的磁盘驱动器。这里描述的本发明也同样可应用于具有在孔233内部或在轴心下面的主轴电机的磁盘驱动器。
接下来参考图3,示出回路错误诊断的方法300的程序图。方法300包括确定回路310中的上游设备的特性。其后,方法300包括保存特性320。在一个实施例中,在设备的初始化期间执行确定步骤310和保存步骤320。在另一个实施例中,从回路映射中检索回路中的上游设备的特性。随后,方法300包括请求来自回路330中的上游设备的链路错误计数。方法300还包括局部存储链路错误计数340。随后,方法300包括监控回路的错误350。其后,方法300包括确定错误存在于设备360的输入端。如果错误不存在,则方法继续采取动作350。如果错误存在,那么,请求来自回路中的上游设备的当前链路错误计数370。方法随后确定回路的配置是否已经变化。如果回路的配置已经变化,则方法继续采取动作310,否则,方法继续确定当前的链路错误计数与被保存的错误计数相比是否有所变化385。如果当前的链路错误计数与被保存的错误计数相比有所变化(这指出回路中的其他地方有错误),则方法继续采取动作,局部存储链路错误计数340。如果当前的链路错误计数与被保存的错误计数相比没有变化,则错误发生在上游设备与检测错误的设备之间的链路上,在测试链路处继续执行方法390,并报告错误395。
关于回路错误诊断的本发明不要求掌握回路的全部拓扑结构的知识,并且减少了回路额外开销通信量,因为错误隔离被分配给回路中的每个设备。而且,由于离问题来源最近的设备执行诊断,因此,回路诊断的效率提高了。此外,本发明使回路上的每个设备的性能降低达到最小化,因为当每个设备空闲时,该设备中的诊断功能可加以执行,从而避免诊断影响设备在更高优先权任务期间的性能。
接下来参考图4,示出回路错误诊断的方法400的程序图。方法400包括识别局部被记录在分布式菊花链对等回路中的设备上的链路错误状态410。以下结合图5更详细地描述这种识别。在一个实施例中,分布式菊花链对等回路是光纤通道调停回路(FC-AL)。在另一个实施例中,设备是磁盘驱动器如在图2的磁盘驱动器220。
光纤通道(FC)设备检测并计算设备接收的错误。这些计数被保存在链路错误状况块(LESB)中。可能在设备中遇到的错误包括链路失败(例如,字同步损失超过规定的时间)、同步的损失(例如,字同步损失少于规定的时间,无效传输超过规定的字数),检测到运行的非奇偶错误或无效字符的无效传输字,以及/或一个无效的循环冗余检测。
如果LESB中的任何字段增加,则设备检测到错误。
精通该技术领域的人十分了解从回路上的设备获得链路状况的几项技术。一项技术使用读取链路状况(RLS)扩展链路服务(ELS),它返回被寻址的设备的LESB。在RLS ELS的一个实施例中,设备支持RLS的实施,RLS允许对接收RLS的设备运用LESB。从回路上的设备获得链路状况的另一个实施例是通过使用小型计算机系统接口(SCSI)记录读出命令,其中,磁盘驱动器返回记录页中的LESB。这项技术适用于具有不将FC ELS信息传送给应用程序的磁盘驱动器的各种系统。而从回路上的磁盘驱动器获得链路状况的另一个实施例是通过使用外壳服务接口(ESI),其中,支持SFF委员会工业集团说明书(SFF)8067的磁盘驱动器定义外壳启动的ESI。一项功能为外壳处理器提供LESB、回路初始化计数,以及有关两个设备的当前状况。外壳处理器可以将这个信息用于回路管理或将其提供给另一个管理实体。从回路上的设备获得链路状况的另一个实施例是通过使用报告设备状况(RPS)ELS,其中,LESB具有RLS请求的设备、回路初始化计数和该设备的当前状况。
从回路上的设备获得链路状况的这些方法都具有一个共同的元件:LESB。
方法400还包括诊断错误420。回路错误诊断的方法400不要求掌握回路的全部拓扑结构的知识,并减少了回路额外开销通信量,这是因为错误隔离分配给回路中的每个设备。此外,由于离问题来源最近的设备执行诊断,因此,回路诊断的效率提高了。此外,方法400使回路上的每个设备的性能降低达到最小化,因为当每个设备空闲时,该设备中的诊断功能可加以执行,从而避免诊断影响设备在更高优先权任务期间的性能。
接下来参考图5,示出识别局部记录在设备(不是在如图4的步骤410中的分布式菊花链对等回路中)上的错误状态的方法500的程序图。
方法500包括从本地来源接收分布式菊花链对等回路中的直接上游设备的一个当前的错误状况计数510。方法500还包括从本地来源接收分布式菊花链对等回路520中的直接上游设备的一个先前的错误状况计数520。在一个实施例中,接收520在设备的初始化期间执行。在不同的实施例中,接收520在接收510之前、期间和/或之后执行。其后,方法500包括将当前的错误状况计数与先前的错误状况计数进行比较530。随后,方法500包括确定该比较指出一个错误540。
接下来参考图6,示出确定、诊断和解决错误的方法600的程序图。在方法600中,图5中的确定步骤540确定当前的错误状况计数不同于先前的错误状况计数610。随后,在方法600中,图4中的诊断步骤410包括测试在分布式菊花链对等回路中该设备与直接的上游设备之间的链路620。在测试620的一个实施例中,测试包括:通过分布式菊花链对等回路,从一个设备到另一个设备沿回路发送数据,并确定当传输数据时,数据是否由其所要发送的设备接收。
如果确定上游链路中有错误,则生成的错误报告指出,怀疑错误在分布式菊花链对等回路中的设备与直接的上游设备之间的链路中630。在不同的实施例中,在测试620之前、期间和/或之后执行生成630。
图7是回路中的同等装置700的方框图。
装置700包括与回路720耦合的一个通信输入/输出部件710。装置确定上游设备和/或上游链路中的错误。在一个实施例中,回路720是FC-AL。回路720的剩余部分包括至少另一个设备(未示出),该设备处于来自同等装置700的回路720中的上游。在一个实施例中,回路中的其他设备是同等装置700。通信设备710与回路错误隔离管理应用程序730耦合。在不同的实施例中,回路错误隔离管理应用程序730执行方法300、400、500和/或600的各个步骤。
同等装置700不要求掌握回路的全部拓扑结构的知识。同等装置700减少了回路额外开销通信量,这是因为错误隔离被分配给回路中的每个设备。此外,由于离问题来源最近的同等装置700执行诊断,因此,回路诊断的效率提高了。此外,本发明使回路上的每个设备的性能降低达到最小化,因为当每个同等装置700空闲时,该同等装置700中的诊断功能可加以执行,从而避免诊断影响同等装置700在更高优先权任务期间的性能。
在一个实施例中,同等装置700包括一个磁盘驱动器(例如,图2中的磁盘驱动器200)。
图8是同等装置(例如,同等装置700)中的回路错误隔离管理应用程序(MA)800的方框图。MA 800包括回路中的上游设备的特性(未示出)的判定程序810。判定程序810通过图700中的通信输入/输出端710来接收特性。特性由本地存储器820局部地存储在同等装置700上。存储器820与判定程序耦合。在一个实施例中,判定程序810包括来自回路映射的上游设备的特性的一个检索程序。
MA 800还包括来自回路中的上游设备的链路错误计数的一个请求程序830。请求程序830与链路错误计数840的本地存储器耦合。链路错误计数840的本地存储器存储链路错误计数,用于以后与当前的链路错误计数进行比较。
MA 800还包括来自回路中的上游设备的当前的链路错误计数的一个请求程序850。请求程序850与图700中的通信输入/输出端710耦合。请求程序850接收链路错误的当前的计数。
MA 800还包括配置回路变化的判定程序860。判定程序860与图700中的通信输入/输出端710耦合。
比较器870比较从请求程序850接收的当前的链路错误计数、从存储器840接收的被保存的错误计数和从判定程序860接收的回路配置的变化,并且,相应地调用链路错误的解决程序880或设备错误诊断请求的发生器与发送器890。在一个实施例中,请求程序880包括一个链路试验器。
在装置800的一个实施例中,初始化程序与回路中的上游设备的特性的判定程序810耦合,与特性的本地存储器840耦合。
在装置800的另一个实施例中,包括与链路错误计数的本地存储器耦合的一个回路错误监控器。此外,有关同等装置的通信输入的错误的检测器与该监控器耦合。
系统700和800部件可以具体表现为计算机硬件电路或计算机可读程序或两者的组合。
尤其是,在装置700和800的计算机可读程序实施例中,程序可以使用面向对象的语言(例如,Java、Smalltalk或C++)以面向对象的方式构建,并且程序可以使用面向过程的程序语言(例如,COBOL或C)以面向程序的方式构建。软件组件利用精通该技术领域的人众所周知的许多方法来进行通信,例如,应用程序接口(A.P.L)或工序间的通信技术(例如,远程过程调用(R.P.C)、公用对象请求代理程序体系(CORBA)、组件对象模型(COM)、分布式组件对象模型(DCOM)、分布式系统对象模型(DSOM)和远程方法调用(RMI))。这些组件可以在少至一台计算机或多至与组件同样多的计算机上运行。
图9是一种计算机系统的示意视图。有利的是,本发明很适用于计算机系统2000,其中,计算机系统2000包括与回路中的上游设备耦合的一个通信设备,以及用于识别被局部记录在分布式菊花链对等回路中的设备上的错误状态的装置。
计算机系统2000也可以称作电子系统或信息处理系统,它包括一个中央处理器、一个存储器和一个系统总线。信息处理系统包括一个中央处理器2004、一个随机存取存储器2032,以及用于通信联络地将中央处理器2004和随机存取存储器2032耦合在一起的一个系统总线2030。信息处理系统2002包括一个磁盘驱动器设备,该设备包括上述的滑道。信息处理系统2002也可以包括一个输入/输出总线2010和几个设备外围设备(例如,2012、2014、2016、2018、2020和2022,它们可以附着于输入输出总线2010)。外围设备可包括硬盘驱动器、磁光驱动器、软盘驱动器、监控器、键盘和其他这类的外围设备。任何类型的磁盘驱动器都可以使用如上所述的将滑动器装载或卸载到磁盘表面上的方法。
关于回路错误诊断的本发明不要求掌握回路的拓扑结构的知识,并减少了回路额外开销通信量,这是因为错误隔离被分配给回路中的每个设备。而且,由于离问题来源最近的设备执行诊断,因此回路诊断的效率提高了。此外,本发明使回路上的每个设备的性能降低达到最小化,因为当每个设备空闲时,该设备中的诊断功能可加以执行,从而避免诊断影响设备在更高优先权任务期间的性能。
结论
总之,用于管理互连错误的一种方法包括识别局部记录在分布式菊花链对等回路100中的设备上的错误状态的步骤410和诊断错误的步骤420。在一个实施例中,设备例如110、120、130和/或140执行该方法。在另一个实施例中,分布式菊花链对等回路包括一个FC-AL 150。在另一个实施例中,设备是磁盘驱动器200。
在另一个实施例中,识别步骤310包括:在分布式菊花链对等回路100中,从本地来源接收直接的上游设备120或130的一个当前的错误状况计数370;在分布式菊花链对等回路150中,从本地来源接收直接的上游设备120或130的一个先前的错误状况计数330;如在375中,将当前的错误状况计数与先前的错误状况计数进行比较;并确定该比较指出错误385。在另一个实施例中,在接收步骤520之后执行接收步骤370。
在另一个实施例中,接收步骤330在设备110、120、130和/或140的初始化期间执行。
在另一个实施例中,确定步骤540包括:确定当前的错误状况计数不同于先前的错误状况计数610。当错误状况计数不同时,上游设备也已经检测到一个错误,上游设备与设备之间的链路不是错误的来源。
在一个附加实施例中,诊断步骤420包括测试630分布式菊花链对等回路中的设备与直接的上游设备之间的一个链路。测试步骤630还可包括:通过分布式菊花链对等回路将数据从直接的上游设备传送到该设备,并确定当传输数据时,设备没有接收到数据。
在另一个实施例中,诊断步骤420包括:生成错误报告620,指出怀疑错误在分布式菊花链对等回路中的设备与直接的上游设备之间的一个链路中。
本发明包括一个信息处理系统900,该系统包括与回路720中的上游设备耦合的一个通信设备710,以及用于识别局部记录在分布式菊花链对等回路730中的设备上的错误状态的一个装置。
本发明还包括回路150中的一个同等装置700,该装置包括一个通信输入端710,以及与通信输入端进行通信的一个回路错误隔离管理应用程序730。回路错误隔离管理应用程序730的一个实施例包括回路中的上游设备的特性的一个判定程序810、与判定程序进行通信的特性的本地存储器820、与存储器进行通信的来自回路中的上游设备的链路错误计数的请求程序830、与请求程序830进行通信的链路错误计数的一个本地存储器840、来自回路中的上游设备的当前的链路错误计数的请求程序850、配置回路变化的一个判定程序860、与判定程序860进行通信的当前的链路错误计数和被保存的错误计数的比较器870、链路错误计数的存储器840、当前的链路错误计数的存储器850、与比较器进行通信的链路错误的解决程序880、与比较器870和特性的存储器820进行通信的设备错误诊断请求的发送器890。在装置700的一个实施例中,同等装置700包括具有一个底部和旋转地附着于该底部的一个磁盘驱动器200。在另一个实施例中,解决程序880包括一个链路试验器。在另一个实施例中,回路中的上游设备的特性的判定程序810包括从回路映射中检索上游设备的特性的一个检索器。在另一个实施例中,装置包括与回路中的上游设备的特性的判定程序810进行通信并与特性的本地存储器进行通信的一个初始化程序。
信息处理系统(例如,磁盘驱动器)包括与回路中的其他设备进行通信的一个控制器,并执行分布式或对等回路错误诊断。回路的一个例子是光纤通道调停回路。通过监控错误计数以确定错误计数是否正在增加,分布式或对等回路错误诊断技术就能识别和诊断直接的上游设备和直接的上游链路中的错误。增加的错误计数或改变的回路配置指出,错误来源不是上游设备;而未改变的错误计数和未改变的回路配置则指出,错误来源是上游链路。
不言而喻,以上的描述意在进行说明,而不是加以限制。通过阅读以上描述,精通该技术领域的人将了解许多其他的实施例。所以,应该参考所附的权利要求以及被授权这些权利要求的同等物的全部范围,来确定本发明的范围。

Claims (10)

1.分布式菊花链对等回路中的回路错误诊断的一种方法,该方法由分布式菊花链对等回路中的设备执行,其特征在于,所述方法包括以下步骤:
(a)识别局部记录在分布式菊花链对等回路中的设备上的错误状态;以及,
(b)诊断错误。
2.如权利要求1所述的方法,其特征在于,所述识别步骤(a)包括:
(a)(1)从本地来源接收分布式菊花链对等回路中的上游设备的一个当前的错误状况计数;
(a)(2)从本地来源接收分布式菊花链对等回路中的上游设备的一个先前的错误状况计数;以及,
(a)(3)将当前的错误状况计数与先前的错误状况计数进行比较。
3.如权利要求2所述的方法,其特征在于,
识别步骤(a)还包括确定比较指出错误和从一个组中选择当前的错误状况计数的步骤(a)(4):该组包括等同于先前的错误状况计数和不等同于先前的错误状况计数;以及,
诊断步骤(b)包括生成错误报告的步骤(b)(1),该错误报告指出,怀疑错误在分布式菊花链对等回路中的设备与上游设备之间的一个链路中。
4.如权利要求3所述的方法,其特征在于,所述诊断步骤(b)包括:
(b)(1)确定不怀疑错误来源在分布式菊花链对等回路中的设备与上游设备之间的一个链路中;以及,
(b)(2)测试分布式菊花链对等回路中的设备与上游设备之间的一个链路。
5.如权利要求4所述的方法,其特征在于,所述测试步骤(b)(2)包括:
(b)(2)(i)通过分布式菊花链对等回路将数据从上游设备传输到该设备;以及,
(b)(2)(ii)确定当传输数据时,该设备没有接收到数据。
6.回路中的一种同等装置,其特征在于,包括:
一个通信输入端;以及,
与所述通信输入端耦合的一个回路错误隔离管理应用程序。
7.如权利要求6所述的同等装置,其特征在于,所述回路错误隔离管理应用程序包括:
回路中的上游设备的特性的一个判定程序;
特性的本地存储器,与所述判定程序耦合;
来自回路中的上游设备的链路错误计数的一个请求程序,与所述存储器耦合;
链路错误计数的本地存储器,与所述请求程序耦合;
来自回路中的上游设备的当前链路错误计数的一个请求程序;
配置回路变化的一个判定程序;
当前链路错误计数与被保存的错误计数的比较器,与所述判定程序、链路错误计数的存储器和当前的链路错误计数的存储器耦合;
链路错误的一个解决程序,与所述比较器耦合;以及,
与所述比较器和特性存储器耦合的设备错误诊断请求发送器。
8.如权利要求6所述的同等装置,其特征在于,
所述解决程序包括一个链路试验器;
回路中的上游设备的特性判定程序包括从回路映射中检索上游设备特性的一个检索程序;并且,
所述装置包括初始化程序,与回路中的上游设备的特性判定程序耦合,并与特性本地存储器耦合。
9.如权利要求6所述的同等装置,其特征在于,所述同等装置还包括一个磁盘驱动器。
10.一种信息处理系统,其特征在于,包括:
与回路中的上游设备耦合的一个通信设备;以及,
用于识别局部记录在分布式菊花链对等回路中的设备上的错误状态的装置。
CN 00816032 1999-11-22 2000-11-22 对等互连的诊断 Pending CN1391673A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16680599P 1999-11-22 1999-11-22
US60/166,805 1999-11-22

Publications (1)

Publication Number Publication Date
CN1391673A true CN1391673A (zh) 2003-01-15

Family

ID=22604768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 00816032 Pending CN1391673A (zh) 1999-11-22 2000-11-22 对等互连的诊断

Country Status (6)

Country Link
JP (1) JP4672224B2 (zh)
KR (1) KR100824109B1 (zh)
CN (1) CN1391673A (zh)
DE (1) DE10085218T1 (zh)
GB (1) GB2372606B (zh)
WO (1) WO2001038982A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102183548A (zh) * 2011-03-16 2011-09-14 复旦大学 一种基于菊花链回路设计的定位失效凸点的方法

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8812706B1 (en) 2001-09-06 2014-08-19 Qualcomm Incorporated Method and apparatus for compensating for mismatched delays in signals of a mobile display interface (MDDI) system
TWI374635B (en) 2003-06-02 2012-10-11 Qualcomm Inc Generating and implementing a signal protocol and interface for higher data rates
JP2007509533A (ja) 2003-10-15 2007-04-12 クゥアルコム・インコーポレイテッド 高速データレートインタフェース
TWI381686B (zh) 2003-11-12 2013-01-01 Qualcomm Inc 具有改良的鏈路控制之高資料速率介面
JP2007512785A (ja) 2003-11-25 2007-05-17 クゥアルコム・インコーポレイテッド 改良されたリンク同期を備えた高速データレートインタフェース
EP2247069B1 (en) 2003-12-08 2013-09-11 Qualcomm Incorporated High data rate interface with improved link synchronization
EP1733537A1 (en) 2004-03-10 2006-12-20 Qualcomm, Incorporated High data rate interface apparatus and method
KR20060130749A (ko) 2004-03-17 2006-12-19 퀄컴 인코포레이티드 고 데이터 레이트 인터페이스 장치 및 방법
AU2005227500B2 (en) 2004-03-24 2008-12-04 Qualcomm Incorporated High data rate interface apparatus and method
EP1978692B1 (en) 2004-06-04 2011-07-27 QUALCOMM Incorporated High data rate interface apparatus and method
US8650304B2 (en) 2004-06-04 2014-02-11 Qualcomm Incorporated Determining a pre skew and post skew calibration data rate in a mobile display digital interface (MDDI) communication system
US8699330B2 (en) 2004-11-24 2014-04-15 Qualcomm Incorporated Systems and methods for digital data transmission rate control
US8873584B2 (en) 2004-11-24 2014-10-28 Qualcomm Incorporated Digital data interface device
US8692838B2 (en) 2004-11-24 2014-04-08 Qualcomm Incorporated Methods and systems for updating a buffer
US8692839B2 (en) 2005-11-23 2014-04-08 Qualcomm Incorporated Methods and systems for updating a buffer
US8028109B2 (en) 2006-03-09 2011-09-27 Marvell World Trade Ltd. Hard disk drive integrated circuit with integrated gigabit ethernet interface module
JP4291384B2 (ja) 2007-08-23 2009-07-08 ファナック株式会社 数値制御装置に接続されたioユニットの断線と電源断の検出方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3564145A (en) * 1969-04-30 1971-02-16 Ibm Serial loop data transmission system fault locator
US4769761A (en) * 1986-10-09 1988-09-06 International Business Machines Corporation Apparatus and method for isolating and predicting errors in a local area network
JPH0227819A (ja) * 1988-07-18 1990-01-30 Fujitsu Ltd 回線切替装置における切替トリガ検出回路
JPH09219720A (ja) * 1996-02-14 1997-08-19 Toshiba Corp 通信ネットワークにおける障害検出方法及び装置
US5812754A (en) * 1996-09-18 1998-09-22 Silicon Graphics, Inc. Raid system with fibre channel arbitrated loop
JP2002368768A (ja) * 2001-06-05 2002-12-20 Hitachi Ltd ファイバチャネル調停ループ対応の電子装置及びファイバチャネル調停ループの障害検出方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102183548A (zh) * 2011-03-16 2011-09-14 复旦大学 一种基于菊花链回路设计的定位失效凸点的方法

Also Published As

Publication number Publication date
KR20020050300A (ko) 2002-06-26
JP2003515967A (ja) 2003-05-07
DE10085218T1 (de) 2002-10-31
KR100824109B1 (ko) 2008-04-21
GB2372606B (en) 2004-06-02
GB2372606A (en) 2002-08-28
JP4672224B2 (ja) 2011-04-20
WO2001038982A1 (en) 2001-05-31
GB0212193D0 (en) 2002-07-03

Similar Documents

Publication Publication Date Title
CN1391673A (zh) 对等互连的诊断
US6490253B1 (en) Peer to peer interconnect diagnostics
US5159597A (en) Generic error recovery
CN100555240C (zh) 用于诊断应用程序的方法和系统
US4928245A (en) Automated cartridge system
US5255136A (en) High capacity submicro-winchester fixed disk drive
US7496796B2 (en) Apparatus, system, and method for predicting storage device failure
US4864511A (en) Automated cartridge system
US4932826A (en) Automated cartridge system
US7069479B2 (en) Method and apparatus for obtaining diagnostic data for a device attached to a computer system
US20030158933A1 (en) Failover clustering based on input/output processors
US20070174663A1 (en) Analysis of mutually exclusive conflicts among redundant devices
US20110252270A1 (en) Updating a list of quorum disks
US20020196744A1 (en) Path discovery and mapping in a storage area network
CN1550989A (zh) 有计划的计算机问题诊断和解决及其自动报告和更新
CN1520556A (zh) 使用本地标识符的端节点分区
JP2007506205A (ja) 仮想ディスクをフォーマッティングするシステムおよび方法
US20020188697A1 (en) A method of allocating storage in a storage area network
CN1744049A (zh) 用于调试输入/输出故障的方法和系统
CN1294507C (zh) 从多个控制节点中选择一个首领的装置和方法
US8161316B1 (en) Managing loop interface instability
US20030014207A1 (en) Remote execution of diagnostic firmware in a block data storage device
CN1305265C (zh) San系统中基于负载自适应的异步远程镜像方法
US20070073828A1 (en) Apparatus, system, and method for link layer message transfer over a durable and shared medium
US20070088810A1 (en) Apparatus, system, and method for mapping a storage environment

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication