CN105975357B - 一种定位故障的方法和系统 - Google Patents

一种定位故障的方法和系统 Download PDF

Info

Publication number
CN105975357B
CN105975357B CN201610280318.9A CN201610280318A CN105975357B CN 105975357 B CN105975357 B CN 105975357B CN 201610280318 A CN201610280318 A CN 201610280318A CN 105975357 B CN105975357 B CN 105975357B
Authority
CN
China
Prior art keywords
hard disk
expansion card
physical channel
disk expansion
serial port
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610280318.9A
Other languages
English (en)
Other versions
CN105975357A (zh
Inventor
张国强
岳远斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201610280318.9A priority Critical patent/CN105975357B/zh
Publication of CN105975357A publication Critical patent/CN105975357A/zh
Application granted granted Critical
Publication of CN105975357B publication Critical patent/CN105975357B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0745Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an input/output transactions management context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种定位故障的系统和方法。该系统包括:硬盘扩展卡,通过至少一个上行物理信道连接所述HBA,以及通过至少两个下行物理信道连接所述至少两个硬盘;并且,所述硬盘扩展卡还通过配置的串口连接到所述故障信息提供设备;所述硬盘扩展卡,用于监控每一个所述上行物理信道和每一个下行物理信道,当监控到其中任意一个第一物理信道发生故障时,将所述第一物理信道的故障信息写入所述硬盘扩展卡中的寄存器;还用于通过自身配置的所述串口将所述寄存器中所述第一物理信道的故障信息发送给所述故障信息提供设备;所述故障信息提供设备,用于提供所述第一物理信道的故障信息。本方案能够实时地定位故障。

Description

一种定位故障的方法和系统
技术领域
本发明涉及服务器技术领域,特别涉及一种定位故障的方法和系统。
背景技术
随着互联网产业快速发展,大容量、高可靠性、高节点密度、支持普遍热插拔的存储服务器成为一种必然趋势。然而,不可避免的,服务器在工作过程中,会发生意外情况,影响整机柜的正常使用,甚至造成系统宕机。
在存储服务器中,比如Rack机柜存储服务器,一个重要的故障来源为存储子系统。即:从主机总线适配器(Host Bus Adapter,HBA)经硬盘扩展(Expander)卡至硬盘端的存储信号链路部分。其中,HBA是一个在服务器和存储装置间提供输入/输出(I/O)处理和物理连接的电路板和/或集成电路适配器。因为HBA减轻了主处理器在数据存储和检索任务的负担,它能够提高服务器的性能。一个HBA和与之相连的磁盘子系统有时一起被称作一个磁盘通道。
在目前,对存储子系统的链路故障检测往往采用模块细分方式,即对存储链路的各个部分按模块划分,待服务器节点停止工作后再针对模块分别分析,无法实现实时的故障定位。
发明内容
本发明实施例提供了一种定位故障的方法和系统,能够实现实时的故障定位。
一种定位故障的系统,包括:
HBA、硬盘扩展卡、至少两个硬盘以及故障信息提供设备,其中,
所述硬盘扩展卡通过至少一个上行物理信道连接所述HBA,以及通过至少两个下行物理信道连接所述至少两个硬盘;并且,所述硬盘扩展卡还通过配置的串口连接到所述故障信息提供设备;
所述硬盘扩展卡,用于监控每一个所述上行物理信道和每一个下行物理信道,当监控到其中任意一个第一物理信道发生故障时,将所述第一物理信道的故障信息写入所述硬盘扩展卡中的寄存器;还用于通过自身配置的所述串口将所述寄存器中所述第一物理信道的故障信息发送给所述故障信息提供设备;
所述故障信息提供设备,用于提供所述第一物理信道的故障信息。
所述硬盘扩展卡包括:至少一个上行SAS接口、至少一个下行SAS接口、所述串口、所述寄存器以及处理模块;其中,
每一个所述上行SAS接口,用于连接所述HBA,接收所述HBA发送的业务信号;
每一个所述下行SAS接口,用于连接至少一个硬盘;
所述处理模块,用于监控每一个所述上行物理信道和每一个下行物理信道,当监控到其中任意一个第一物理信道发生故障时,将所述第一物理信道的故障信息写入所述寄存器;还通过所述串口将所述寄存器中所述第一物理信道的故障信息发送给所述故障信息提供设备。
所述处理模块,进一步用于将从每一个所述上行SAS接口接收到的业务信号进行扩展,将扩展出的业务信号发送给对应的下行SAS接口。
包括两个所述上行SAS接口、三个下行SAS接口、十二个下行物理信道。
进一步包括硬盘背板和连接器,其中,
所述至少两个硬盘通过所述连接器设置在所述硬盘背板上,
所述硬盘扩展卡连接到所述硬盘背板,通过所述硬盘背板连接所述至少两个硬盘。
所述HBA卡包括:SAS/RAID卡。
所述HBA用于在进入操作系统后,对硬盘进行读写操作,该读写操作的业务指令通过所述上行物理信道传输到所述硬盘扩展卡,所述硬盘扩展卡将所述读写操作的业务指令通过所述下行物理信道传输到硬盘。
所述故障信息提供设备为个人电脑PC机;
所述PC机,用于在DOS命令行下,接收输入的指令将所述硬盘扩展卡的所述串口打开,并设置波特率,以及选择相应的串口号,设置所述波特率与所述硬盘扩展卡端的波特率相同,建立与所述硬盘扩展卡的串口连接;
所述输入的指令为:xutil-s com1set smartcli;
和/或,
所述波特率为38400。
一种定位故障的方法,
通过至少一个上行物理信道连接HBA和硬盘扩展卡;
通过至少两个下行物理信道连接所述硬盘扩展卡和至少两个硬盘;
通过在所述硬盘扩展卡上配置的串口连接所述硬盘扩展卡和故障信息提供设备;
还包括:
所述硬盘扩展卡监控每一个所述上行物理信道和每一个下行物理信道;
当监控到其中任意一个第一物理信道发生故障时,所述硬盘扩展卡将所述第一物理信道的故障信息写入所述硬盘扩展卡中的寄存器;
所述硬盘扩展卡通过自身配置的所述串口将所述寄存器中所述第一物理信道的故障信息发送给所述故障信息提供设备。
本发明实施例提供了定位故障的方法和系统,由于通过硬盘扩展卡将HBA与扩展的多个硬盘相连,并且在硬盘扩展卡上配置串口,通过串口将硬盘扩展卡连接到能够提供故障信息的故障信息提供设备,这样,硬盘扩展卡在HBA与硬盘之间传输业务信号时,不仅可以监控并在寄存器中记录上下行物理信道的故障,并且还可以通过串口将在寄存器中记录的故障信息实时传输到外部的故障信息提供设备,从而实现了故障的实时定位。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例中定位故障的系统的结构示意图。
图2是本发明另一个实施例中定位故障的系统的结构示意图。
图3是本发明又一个实施例中定位故障的系统的结构示意图。
图4是本发明一个实施例中定位故障的方法的流程图。
图5是本发明另一个实施例中定位故障的方法的流程图。
图6是本发明一个实施例中定位故障的测试结果的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明一个实施例提出了一种定位故障的系统,参见图1,包括:
HBA101、硬盘扩展卡102、至少两个硬盘103以及故障信息提供设备104,其中,
所述硬盘扩展卡102通过至少一个上行物理信道连接所述HBA101,以及通过至少两个下行物理信道连接所述至少两个硬盘103;并且,所述硬盘扩展卡102还通过配置的串口连接到所述故障信息提供设备104;
所述硬盘扩展卡102,用于监控每一个所述上行物理信道和每一个下行物理信道,当监控到其中任意一个第一物理信道发生故障时,将所述第一物理信道的故障信息写入所述硬盘扩展卡102中的寄存器;还用于通过自身配置的所述串口将所述寄存器中所述第一物理信道的故障信息发送给所述故障信息提供设备104;
所述故障信息提供设备104,用于提供所述第一物理信道的故障信息。
可见,在图1所示的本发明实施例中,由于通过硬盘扩展卡将HBA与扩展的多个硬盘相连,并且在硬盘扩展卡上配置串口,通过串口将硬盘扩展卡连接到能够提供故障信息的故障信息提供设备,这样,硬盘扩展卡在HBA与硬盘之间传输业务信号时,不仅可以监控并在寄存器中记录上下行物理信道的故障,并且还可以通过串口将在寄存器中记录的故障信息实时传输到外部的故障信息提供设备,从而实现了故障的实时定位。
在本发明一个实施例中,参见图2所示,硬盘扩展卡102可以包括:至少一个上行SAS接口201、至少一个下行SAS接口202、串口203、寄存器204以及处理模块205;其中,
每一个所述上行SAS接口201,用于连接所述HBA101,接收所述HBA101发送的业务信号;
每一个所述下行SAS接口202,用于连接至少一个硬盘103;
所述处理模块205,用于监控每一个所述上行物理信道和每一个下行物理信道,当监控到其中任意一个第一物理信道发生故障时,将所述第一物理信道的故障信息写入所述寄存器204;还通过所述串口203将所述寄存器204中所述第一物理信道的故障信息发送给所述故障信息提供设备104。
所述处理模块,进一步用于将从每一个所述上行SAS接口接收到的业务信号进行扩展,将扩展出的业务信号发送给对应的下行SAS接口。
可见,通过上述图2所示的结构,硬盘扩展卡能够具体利用SAS接口来实现上下行物理信道。
在本发明的一个实施例中,参见图2,对于硬盘扩展卡102,可以包括2个所述上行SAS接口201、3个下行SAS接口202,每一个SAS接口对应4个物理信道,因此,总共有8个上行物理信道,12个下行物理信道。对应于此种结构,每一个下行物理信道可以对应于一个硬盘103,因此,可以连接12个硬盘103。
在本发明的一个实施例中,参见图3,定位故障的系统可以进一步包括硬盘背板301和连接器302,其中,
所述至少两个硬盘103通过所述连接器302设置在所述硬盘背板301上,
所述硬盘扩展卡102连接到所述硬盘背板301,通过所述硬盘背板301连接所述至少两个硬盘103。
可见,上述图3所示结构提供了一种定位故障的系统的具体实现,即通过硬盘背板301和连接器302来实现硬盘扩展卡102与每一个硬盘103的连接。
在本发明一个实施例中,所述HBA卡可以包括:SAS/RAID卡。
参见图3,在本发明一个实施例中,定位故障的系统实现了整个存储信号链路的连接:HBA可以在服务器节点和存储装置间提供I/O接口和物理连接。目前常见的HBA卡多指SAS/RAID卡,发出SAS协议信号及对应控制信息。硬盘扩展卡用于SAS信号信道扩展,增加HBA接入的硬盘数量,硬盘扩展卡在上行物理信道接收待扩展的HBA链路信号,下行为扩展后的信道输出。硬盘通过硬盘背板与硬盘扩展卡相连接,从而实现整个存储信号链路的连接。
在本发明一个实施例中,存储信号链路的连接允许从HBA至硬盘的信号传输,具体的一种工作过程参见图1至图3中的任意一个,可以是:HBA101用于在进入操作系统后,对硬盘103进行读写操作,该读写操作的业务指令通过所述上行物理信道传输到所述硬盘扩展卡102,所述硬盘扩展卡102将所述读写操作的业务指令通过所述下行物理信道传输到硬盘103。
在本发明一个实施例中,基于上述存储信号链路的连接,一种将故障实时定位出来的实现方式可以包括:
故障信息提供设备104为个人电脑PC机;
所述PC机,用于在DOS命令行下,接收输入的指令将所述硬盘扩展卡102的所述串口打开,并设置波特率,以及选择相应的串口号,设置所述波特率与所述硬盘扩展卡102端的波特率相同,建立与所述硬盘扩展卡102的串口连接。此后,硬盘扩展卡102则可以通过建立的串口连接将寄存器中记录的第一物理信道的故障信息发送给所述故障信息提供设备104。
其中,输入的指令为:xutil-s com1set smartcli;
波特率可以为38400。
本发明一个实施例还提出了一种定位故障的方法。参见图4,包括:
401:通过至少一个上行物理信道连接HBA和硬盘扩展卡。
402:通过至少两个下行物理信道连接所述硬盘扩展卡和至少两个硬盘。
403:通过在所述硬盘扩展卡上配置的串口连接所述硬盘扩展卡和故障信息提供设备。
上述过程是预处理的系统构建过程。在系统构建完成后,各个设备则可以配合完成实时的定位故障的处理。
404:硬盘扩展卡监控每一个所述上行物理信道和每一个下行物理信道。
405:当监控到其中任意一个第一物理信道发生故障时,所述硬盘扩展卡将所述第一物理信道的故障信息写入所述硬盘扩展卡中的寄存器。
406:所述硬盘扩展卡通过自身配置的所述串口将所述寄存器中所述第一物理信道的故障信息发送给所述故障信息提供设备。
可见,在搭建完系统架构后,硬盘扩展卡通过监控在存储信号链路,即上行物理信道和下行物理信道,则可以实时将故障的信息记录到存储器中,并通过串口实时地将故障报告出来,由外部的故障信息提供设备来向用户提供。
下面以20路的硬盘扩展(Expander)卡为例,且以该Expander卡的接口为SAS卡,故障信息提供设备为PC机为例,来详细说明在本发明一个实施例中定位故障的方法的过程。参见图5,并可以进一步参见图3,该过程包括:
501:将HBA卡、Expander卡、硬盘依次连接。
502:将Expander卡的两个上行MINISAS接口接HBA卡,用于接收HBA发出的SAS信号;下行三个MINISAS接口输出12路SAS信号至硬盘背板,硬盘背板通过专用的连接器与硬盘相连接。
这里,每一个MINISAS接口对应4路SAS信号。所以,三个下行MINISAS接口输出12路SAS信号,因此,可以连接硬盘背板上的12个硬盘。两个上行MINISAS接口接收8路SAS信号。因此,总共是20路SAS信号。
每一路SAS信号对应一个物理信道。
503:将通用串口线缆一端连接至Expander卡上的串口,一端连接至PC机。
504:上电开启要测试的Rack机柜服务器节点,进入操作系统后,对硬盘进行读写操作,使存储子系统链路中有信息传输。
505:在PC机端DOS命令行下,输入指令将Expander卡端串口打开。
这里,Expander对应命令为:xutil-s com1set smartcli。
506:设置波特率(默认38400)。
507:在PC机端开启串口调试软件,选择相应的串口号,设置波特率与Expander卡端相同,建立串口连接。
508:串口连接建立后,输入bug检测命令用于bug定位。
如在本步骤中,输入counters即可显示对应信道产生的bug。若反馈信息中无异常报错,则该链路中无bug发生。
509:Expander卡监控每一个所述上行物理信道和每一个下行物理信道。
510:当Expander卡监控到其中任意一个第一物理信道发生故障时,将所述第一物理信道的故障信息写入Expander卡的寄存器。
511:Expander卡通过自身配置的所述串口将所述寄存器中所述第一物理信道的故障信息发送给PC机。
512:PC机实时处理接收到的第一物理信道的故障信息。
比如,本步骤中,将故障信息结果显示给用户。
图6为一次实施中的测试结果,可见物理信道14、15有bug信息产生,对应Expander卡下游硬盘中第7、8顺位。更具体的,可以判断是Expander卡至第7、8顺位硬盘的连接线路发生了故障。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明的各个实施例至少具有如下的有益效果:
1、由于通过硬盘扩展卡将HBA与扩展的多个硬盘相连,并且在硬盘扩展卡上配置串口,通过串口将硬盘扩展卡连接到能够提供故障信息的故障信息提供设备,这样,硬盘扩展卡在HBA与硬盘之间传输业务信号时,不仅可以监控并在寄存器中记录上下行物理信道的故障,并且还可以通过串口将在寄存器中记录的故障信息实时传输到外部的故障信息提供设备,从而实现了故障的实时定位。
2、本发明实施例中,可以通过硬盘扩展卡内部寄存器与串口的配置,通过寄存器记录物理信道的故障信息,通过串口将故障信息实时在线引出到外部设备,因此能够实现故障的实时准确定位,极大节约时间成本。
3、通过在线检测的方式,可以最大限度减少因存储子系统信息bug而必须关机检测的次数,提高了服务器产品性能稳定性和工作可持续性。
4、该方法可适用于多个Expander卡,同时兼容SAS/SATA硬盘,具有方案普遍性,有效节约经济成本。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种定位故障的系统,其特征在于,包括:
HBA、硬盘扩展卡、至少两个硬盘以及故障信息提供设备,其中,
所述硬盘扩展卡通过至少一个上行物理信道连接所述HBA,以及通过至少两个下行物理信道连接所述至少两个硬盘;并且,所述硬盘扩展卡还通过配置的串口连接到所述故障信息提供设备;
所述硬盘扩展卡,用于监控每一个所述上行物理信道和每一个下行物理信道,当监控到其中任意一个第一物理信道发生故障时,将所述第一物理信道的故障信息写入所述硬盘扩展卡中的寄存器;还用于通过自身配置的所述串口将所述寄存器中所述第一物理信道的故障信息发送给所述故障信息提供设备;
所述故障信息提供设备,用于提供所述第一物理信道的故障信息。
2.根据权利要求1所述的系统,其特征在于,所述硬盘扩展卡包括:至少一个上行SAS接口、至少一个下行SAS接口、所述串口、所述寄存器以及处理模块;其中,
每一个所述上行SAS接口,用于连接所述HBA,接收所述HBA发送的业务信号;
每一个所述下行SAS接口,用于连接至少一个硬盘;
所述处理模块,用于监控每一个所述上行物理信道和每一个下行物理信道,当监控到其中任意一个第一物理信道发生故障时,将所述第一物理信道的故障信息写入所述寄存器;还通过所述串口将所述寄存器中所述第一物理信道的故障信息发送给所述故障信息提供设备。
3.根据权利要求2所述的系统,其特征在于,所述处理模块,进一步用于将从每一个所述上行SAS接口接收到的业务信号进行扩展,将扩展出的业务信号发送给对应的下行SAS接口。
4.根据权利要求2所述的系统,其特征在于,包括两个所述上行SAS接口、三个下行SAS接口、十二个下行物理信道。
5.根据权利要求1所述的系统,其特征在于,进一步包括硬盘背板和连接器,其中,
所述至少两个硬盘通过所述连接器设置在所述硬盘背板上,
所述硬盘扩展卡连接到所述硬盘背板,通过所述硬盘背板连接所述至少两个硬盘。
6.根据权利要求1所述的系统,其特征在于,
所述HBA卡包括:SAS/RAID卡。
7.根据权利要求1所述的系统,其特征在于,
所述HBA用于在进入操作系统后,对硬盘进行读写操作,该读写操作的业务指令通过所述上行物理信道传输到所述硬盘扩展卡,所述硬盘扩展卡将所述读写操作的业务指令通过所述下行物理信道传输到硬盘。
8.根据权利要求1至7中任一所述的系统,其特征在于,
所述故障信息提供设备为个人电脑PC机;
所述PC机,用于在DOS命令行下,接收输入的指令将所述硬盘扩展卡的所述串口打开,并设置波特率,以及选择相应的串口号,设置所述波特率与所述硬盘扩展卡端的波特率相同,建立与所述硬盘扩展卡的串口连接。
9.根据权利要求8所述的系统,其特征在于,
所述输入的指令为:xutil-s com1 set smartcli;
和/或,
所述波特率为38400。
10.一种定位故障的方法,其特征在于,
通过至少一个上行物理信道连接HBA和硬盘扩展卡;
通过至少两个下行物理信道连接所述硬盘扩展卡和至少两个硬盘;
通过在所述硬盘扩展卡上配置的串口连接所述硬盘扩展卡和故障信息提供设备;
还包括:
所述硬盘扩展卡监控每一个所述上行物理信道和每一个下行物理信道;
当监控到其中任意一个第一物理信道发生故障时,所述硬盘扩展卡将所述第一物理信道的故障信息写入所述硬盘扩展卡中的寄存器;
所述硬盘扩展卡通过自身配置的所述串口将所述寄存器中所述第一物理信道的故障信息发送给所述故障信息提供设备。
CN201610280318.9A 2016-04-29 2016-04-29 一种定位故障的方法和系统 Active CN105975357B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610280318.9A CN105975357B (zh) 2016-04-29 2016-04-29 一种定位故障的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610280318.9A CN105975357B (zh) 2016-04-29 2016-04-29 一种定位故障的方法和系统

Publications (2)

Publication Number Publication Date
CN105975357A CN105975357A (zh) 2016-09-28
CN105975357B true CN105975357B (zh) 2018-12-14

Family

ID=56993493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610280318.9A Active CN105975357B (zh) 2016-04-29 2016-04-29 一种定位故障的方法和系统

Country Status (1)

Country Link
CN (1) CN105975357B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391140B (zh) * 2017-07-25 2020-08-25 苏州浪潮智能科技有限公司 一种存储设备的图片显示的方法和系统
CN107729169A (zh) * 2017-09-25 2018-02-23 郑州云海信息技术有限公司 一种四子星服务器节点对应盘位的远程定位方法与装置
CN109144918A (zh) * 2018-07-16 2019-01-04 郑州云海信息技术有限公司 一种支持多硬盘存储的拓扑结构
CN109245819A (zh) * 2018-07-19 2019-01-18 郑州云海信息技术有限公司 一种故障定位方法及相关装置
CN109144928A (zh) * 2018-08-28 2019-01-04 郑州云海信息技术有限公司 一种存储系统
CN111897711B (zh) * 2020-06-15 2023-05-26 建信金融科技有限责任公司 代码中bug的定位方法、装置、电子设备及可读存储介质
CN113505045B (zh) * 2021-05-20 2024-07-05 新华三信息技术有限公司 一种硬盘故障展示方法、装置以及服务器

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102661788A (zh) * 2012-05-30 2012-09-12 上海奥通激光技术有限公司 一种激光能量检测装置
CN104035831A (zh) * 2014-07-01 2014-09-10 浪潮(北京)电子信息产业有限公司 一种高端容错计算机管理系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6567272B1 (en) * 2001-11-09 2003-05-20 Dell Products L.P. System and method for utilizing system configurations in a modular computer system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102661788A (zh) * 2012-05-30 2012-09-12 上海奥通激光技术有限公司 一种激光能量检测装置
CN104035831A (zh) * 2014-07-01 2014-09-10 浪潮(北京)电子信息产业有限公司 一种高端容错计算机管理系统及方法

Also Published As

Publication number Publication date
CN105975357A (zh) 2016-09-28

Similar Documents

Publication Publication Date Title
CN105975357B (zh) 一种定位故障的方法和系统
US10929260B2 (en) Traffic capture and debugging tools for identifying root causes of device failure during automated testing
US6904544B2 (en) Method, system, program, and data structures for testing a network system including input/output devices
US8296782B2 (en) System eliminating hardware duplication during application testing of an internal storage array across different operating systems
JP4886601B2 (ja) Usbインタフェース設備に対して操作を行う装置及び方法
US9811480B2 (en) Universal serial bus emulation of peripheral devices
CN112306766A (zh) 用于错误检测的方法、电子设备、存储系统和计算机程序产品
US9772956B2 (en) Universal serial bus emulation of a host connection
EP3117327B1 (en) Universal serial bus emulation of peripheral devices
US10809298B2 (en) Batch testing system and method thereof
US10235278B2 (en) Software testing using statistical error injection
WO2024152604A1 (zh) 一种PCIe器件链路训练管理方法、管理装置及服务器
CN112527582A (zh) 服务器线缆的检测方法、检测装置、检测设备及存储介质
CN116627861B (zh) 基于扩展器的数据处理方法、系统、电子设备及存储介质
CN111176913A (zh) 一种检测服务器中Cable Port的电路和方法
CN104239174A (zh) Bmc远程调试系统及方法
US6943463B2 (en) System and method of testing connectivity between a main power supply and a standby power supply
TW201423387A (zh) Sas擴展卡測試系統及方法
CN113138951B (zh) 一种通过sgpio共接多种设备的方法、系统及介质
CN115617629A (zh) 存储阵列性能测试方法、系统、电子设备及存储介质
CN101751314B (zh) 通用侦错辅助装置
CN103870368A (zh) Sas扩展卡测试系统及方法
CN112596983A (zh) 一种服务器内连接器的监测方法
CN111459734A (zh) 一种故障监控周期的测试方法、系统及计算机存储介质
CN115801540B (zh) 一种PCIe设备降级检测方法、装置、终端及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant