CN114116354A - 一种带外检验硬盘序方法、装置、设备及存储介质 - Google Patents

一种带外检验硬盘序方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114116354A
CN114116354A CN202111445602.4A CN202111445602A CN114116354A CN 114116354 A CN114116354 A CN 114116354A CN 202111445602 A CN202111445602 A CN 202111445602A CN 114116354 A CN114116354 A CN 114116354A
Authority
CN
China
Prior art keywords
hard disk
lighting state
lighting
communication connection
lamp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111445602.4A
Other languages
English (en)
Inventor
佟序
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Information Technologies Co Ltd
Original Assignee
New H3C Information Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Information Technologies Co Ltd filed Critical New H3C Information Technologies Co Ltd
Priority to CN202111445602.4A priority Critical patent/CN114116354A/zh
Publication of CN114116354A publication Critical patent/CN114116354A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2221Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test input/output devices or peripheral units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/325Display of status information by lamps or LED's
    • G06F11/326Display of status information by lamps or LED's for error or online/offline status

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种带外检验硬盘序方法、装置、设备及存储介质,所述方法包括:与所述阵列卡、所述背板建立第一链路连接;获取所述阵列卡的数量以及每个阵列卡连接的硬盘通道信息,所述硬盘通道信息包括硬盘序号;与所述背板经由第二线缆建立第二通信连接;通过第一链路连接向所述背板发送硬盘灯点灯指令;通过第二通信连接读取所述硬盘灯的点灯状态;根据所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态确定硬盘的关联错误。这样,通过第一链路连接发送指令进行硬盘灯点亮,通过第二通信连接获取硬盘灯状态,从而对两个路径的信息进行对比,确定硬盘在阵列卡中的顺序是否准确;无需人工外部观察,且不依赖OS安装。

Description

一种带外检验硬盘序方法、装置、设备及存储介质
技术领域
本发明涉及服务器技术领域,具体而言,涉及一种带外检验硬盘序方法、装置、设备及存储介质。
背景技术
当前典型的服务器链路系统中,硬盘插入背板上的硬盘槽,背板上的硬盘槽通过Expander映射表、SAS线缆与阵列卡连通。这种典型的链路,受到背板走线,Expander映射表和SAS线缆的线序,这三个因素的影响,任何一个部分发生改变,都会导致硬盘在阵列卡中的顺序发生错乱,也即是硬盘存在关联错误。
为了避免错乱的发生,一般在OS内部安装驱动之后,通过驱动控制进行硬盘灯顺序点灯,通过人工外部观察是否准确。但是这种检测方式不仅依赖OS安装,还依赖外部人工,无法实现自动化检测。
发明内容
本发明解决的问题是现有硬盘的关联错误/硬盘序的检测无法实现自动化。
为解决上述问题,本发明首先提供一种带外检验硬盘序方法,应用于基板管理控制器,所述基板管理控制器与至少一个阵列卡通过第一线缆连接,所述阵列卡与背板通过第三线缆连接,所述基板管理控制器与所述背板通过第二线缆连接,包括:
与所述阵列卡、所述背板建立第一链路连接;
获取所述阵列卡的数量以及每个阵列卡连接的硬盘通道信息,所述硬盘通道信息包括硬盘序号;
与所述背板经由第二线缆建立第二通信连接;
通过第一链路连接向所述背板发送硬盘灯点灯指令;
通过第二通信连接读取所述硬盘灯的点灯状态;
根据所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态确定硬盘的关联错误。
这样,通过第一链路连接发送指令进行硬盘灯点亮,通过第二通信连接获取硬盘灯状态,从而对两个路径的信息进行对比,确定硬盘在阵列卡中的顺序是否准确;无需人工外部观察,且不依赖OS安装。
优选地,所述通过第一链路连接向所述背板发送硬盘灯点灯指令;通过第二通信连接读取所述硬盘灯的点灯状态;根据所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态确定硬盘的关联错误,包括:
通过第一链路连接发送第一个硬盘对应的硬盘灯点灯指令;
第一预设时间后,通过第二通信连接读取该硬盘的硬盘灯的点灯状态;
根据所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态,确定当前测试的硬盘的关联错误;
按照预设顺序对同一阵列卡的所有硬盘进行遍历,确定所有硬盘的关联错误;
对所有阵列卡进行遍历,确定所述阵列卡中各个硬盘的关联错误。
优选地,所述根据所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态,确定当前测试的硬盘的关联错误,包括:
判断所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态是否相符;
若所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态相符,则当前测试的所述硬盘不存在关联错误;
若所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态不相符,则当前测试的所述硬盘存在关联错误。
优选地,所述通过第一链路连接向所述背板发送硬盘灯点灯指令;通过第二通信连接读取所述硬盘灯的点灯状态;根据所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态确定硬盘的关联错误,包括:
通过第一链路连接发送多个硬盘对应的硬盘灯点灯指令,多个所述硬盘对应的硬盘灯点灯指令中,每个硬盘灯点灯指令的点灯状态均不相同;
第一预设时间后,通过第二通信连接读取多个所述硬盘的硬盘灯的点灯状态;
根据所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态,确定当前测试的多个所述硬盘的关联错误;
按照预设策略对同一阵列卡的所有硬盘进行遍历,确定所有硬盘的关联错误;
对所有阵列卡进行遍历,确定所述阵列卡中各个硬盘的关联错误。
优选地,所述第一链路连接,包括所述基板管理控制器与所述阵列卡经由所述第一线缆建立的第一通信连接,和,所述阵列卡与所述背板经由第三线缆建立的第三通信连接。
优选地,所述第一通信连接为MCTP连接。
优选地,所述第二通信连接为I2C连接。
其次,提供一种带外检验硬盘序装置,应用于基板管理控制器,所述基板管理控制器与至少一个阵列卡通过第一线缆连接,所述阵列卡与背板通过第三线缆连接,所述基板管理控制器与所述背板通过第二线缆连接,其包括:
第一连接模块,其用于与所述阵列卡、所述背板建立第一链路连接;
获取模块,其用于获取所述阵列卡的数量以及每个阵列卡连接的硬盘通道信息,所述硬盘通道信息包括硬盘序号;
第二连接模块,其用于与所述背板经由第二线缆建立第二通信连接;
发送模块,其用于通过第一链路连接向所述背板发送硬盘灯点灯指令;
读取模块,其用于通过第二通信连接读取所述硬盘灯的点灯状态;
判断模块,其用于根据所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态确定硬盘的关联错误。
再次,提供一种电子设备,包括存储有计算机程序的计算机可读存储介质和处理器,所述计算机程序被所述处理器读取并运行时,实现如前述所述的方法。
最后,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器读取并运行时,实现如前述所述的方法。
这样,通过第一链路连接发送指令进行硬盘灯点亮,通过第二通信连接获取硬盘灯状态,从而对两个路径的信息进行对比,确定硬盘在阵列卡中的顺序是否准确;无需人工外部观察,且不依赖OS安装。
这样,通过第一线缆-第三线缆路径可以接收硬盘灯点灯指令,从而将对应的硬盘灯点亮,进而可以与第二线缆路径获取的硬盘灯状态进行对比,确定硬盘在阵列卡中的顺序是否准确。
附图说明
图1为现有涉及硬件的结构框图;
图2为根据本发明实施例的带外检验硬盘序方法的流程图;
图3为根据本发明实施例的基板管理控制器侧的带外检验硬盘序方法的流程图;
图4为根据本发明一实施例的基板管理控制器侧的带外检验硬盘序方法S40-S60的流程图;
图5为根据本发明实施例的基板管理控制器侧的带外检验硬盘序方法S73的流程图;
图6为根据本发明另一实施例的基板管理控制器侧的带外检验硬盘序方法S40-S60的流程图;
图7为根据本发明实施例的阵列卡侧的带外检验硬盘序方法的流程图;
图8为根据本发明实施例的背板侧的带外检验硬盘序方法的流程图;
图9为根据本发明实施例的基板管理控制器侧的带外检验硬盘序装置的结构框图;
图10为根据本发明实施例的电子设备的结构框图。
具体实施方式
随着当前服务器系统中的计算性能的提升,对存储系统的容量和性能的需求也在逐渐增加,存储模块也就是硬盘的数量也在增加。当前服务器系统的SATA/SAS硬盘,因为协议成熟,性价比好,可以满足大部分的非极端场景的业务需求,在未来一段时间还会占据很大一部分的市场份额。
服务器的BMC系统一直在提高服务器的可管理性,友好性等方面深入挖掘,包括对存储系统的监管和控制。一般在服务器的BMC的界面或者命令行中都可以查询到系统中的逻辑盘的信息和物理盘的信息,这些信息对客户的部署和运维都有非常关键的指示作用,但是SATA/SAS硬盘组成的存储系统中都存在一个比较难以管控的问题,那就是硬盘顺序与实际地址不相符的问题。
典型的服务器存储系统的链路中,硬盘插入背板上的硬盘槽,背板上的硬盘槽通过Expander映射表、SAS线缆与阵列卡连通。这条链路受到背板走线,Expander映射表和SAS线缆的线序,这三个因素的影响,任何一个部分发生改变,都会导致硬盘在阵列卡中的顺序发生改变。为了便于理解和撰写,本申请中,将硬盘顺序(硬盘序)与实际地址不相符,称为关联错误,硬盘存在关联错误,即是硬盘的顺序和实际地址不相符。
需要说明的是,本申请中,硬盘序的检测,也即是硬盘的关联错误的检测。
例如线缆导致的问题:当前主流的存储系统的需求或者存储控制卡的规格都是8个SAS口的,也就是说一张存储控制卡直连硬盘的模式下,可以用2个miniSAS或者SlimSAS线缆分别连接4个硬盘。SAS phy是最小物理传输单元,一个SAS phy的连接电缆由4根电缆组成,TX/RX各2根。一旦这线缆出现错误,硬盘的顺序也就和默认的规格的顺序不一致了,也就是会导致硬盘乱序。
这种情况是比较直观的错误,这种情况或者是Expander的映射表等导致的硬盘顺序与实际地址不相符的问题,一般在生产制造过程中极低概率偶发性的出现,并且比较难以检查,一般的检测的机制,都是会检查功能相关的例如是否在位,性能相关的例如带宽或者时延是否达标,但是硬盘的顺序如果出错,比较难以检测出来。
为了解决这种问题,现有的处理方式是在SAS线缆上加入防呆设计以及人工检测避免接反;但是对4口等支持更多端口的存储控制卡的的线缆的连接还是存在可能接反的问题,人工检查还是存在一定程度的随机误差;另外,这种方法只能保证端口正确,没法保证每个线缆里面的线序是否正确,也就是这种方式保证的是端口级别的,不是硬盘级别的;且这种方法没法管控其他因素,也就是Expander映射表出问题导致的错误。
更好的处理方式是在生产中添加一个依赖OS的检测流程,例如在OS内部安装驱动之后,驱动调用阵列卡的FW会将盘序顺序上报到OS,OS依据上报拿到的盘序进行点灯,从外部观察点灯的顺序如果和预期的顺序是相反的,那么就说明硬盘顺序存在错误。
这种方法是在针对结果进行管控的,但是也存在缺点:依赖OS安装,OS内部建立起有效的链路和控制机制,比较繁琐和耗费资源;依赖外部人工或者半自动化的检测机制,不是自动化的方式。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
本申请实施例提供了一种带外检验硬盘序方法。如图1所示,本发明的方法中涉及的硬件包括:基板管理控制器,所述基板管理控制器与至少一个阵列卡通过第一线缆连接,所述阵列卡与背板通过第三线缆连接,所述基板管理控制器与所述背板通过第二线缆连接。
如图2所示,本申请实施例的具体方案流程如下:
S1,基板管理控制器与阵列卡经由第一线缆建立第一通信连接,与背板经由第二线缆建立第二通信连接;阵列卡与背板上的硬盘接口经由第三线缆建立第三通信连接;
其中,所述第一线缆为PCle总线;所述第二线缆为AUX线缆;所述第三线缆为SAS线缆。
优选地,所述第一通信连接和第三通信连接组成了第一链路连接,这样,通过第一链路连接,基板管理控制器与背板建立了连通路径。
在此需要说明的是,硬盘与背板的安装关系;背板上设置有硬盘接口和一一对应的硬盘灯,每个硬盘接口对应插入一个硬盘;硬盘安装在硬盘架上,然后将硬盘架插入硬盘接口,从而完成硬盘的接入。硬盘灯的灯光由于位置关系,不易被观察到,硬盘架上设置有导光座,导光座的位置与硬盘灯对应,从而可以使硬盘灯的灯光通过导光座被外部观察到。
其中,硬盘灯可以用于指示硬盘的安装状态;但也可以被控制在未安装硬盘的时候产生对应的灯光变化。
因此,本申请所述的硬盘序,表示的是硬盘的顺序序号,事实上也是硬盘接口对应的顺序;硬盘的顺序,实质上为其插入的硬盘接口的位置顺序(第三线缆连接顺序),在硬盘接口顺序确定的情况下,改变硬盘的插入位置,会同时改变该硬盘所对应的顺序。
举例说明,如果接口a和接口b的顺序分别为a、b;则其上插入的硬盘a1、b1的硬盘的顺序也分别为a、b;如果将硬盘a1、b1的插入接口调换,则硬盘a1、b1的硬盘顺序/硬盘序号也同样会调换为b、a。
因此,可以确认的是,对于硬盘序的检测,可以在插入硬盘后通过硬盘灯来检测,也可以在未插入硬盘后通过硬盘灯来检测;其检测方式和检测结果是相同的。
亦因此,本申请中,将第三线缆的接口称为背板上的硬盘接口,至于硬盘接口上是否是插入硬盘的状态均可;因此,该硬盘接口事实上表征了硬盘序的固定对象,其插入硬盘的状态下也可以称为硬盘端。在本申请中,为了便于理解,称为硬盘接口。
这样,通过第一通信连接、第三通信连接建立一条BMC(基板管理控制器)到硬盘灯的路径;通过第二通信连接建立第二条BMC到硬盘灯的路径;两条路径互不干扰。
其中,第一线缆属于高速串行点对点双通道高带宽传输,所连接的设备分配独享通道带宽,不共享总线带宽,主要支持主动电源管理,错误报告,端对端的可靠性传输,热插拔以及服务质量(QOS)等功能。
优选地,所述第一通信连接为MCTP连接。
其中,MCTP(Management Component Transport Protocol,管理组件传输协议)是一种独立于物理媒体的协议,用于管理计算机系统中智能设备之间的交互。此协议独立于底层物理总线,是一种独立于总线“数据链路层”的消息类型。
其中,BMC直接具有硬件的管理权限,可以直接操作阵列卡的底层权限。
优选地,所述第二通信连接为I2C连接。
优选地,所述第三通信连接为SGPIO通信连接。
其中,串行通用输入输出(SGPIO)是一种主板与硬盘背板之间的通讯方式。该工具可以用于控制同一个enclosure中的LED。
S2,多个阵列卡向基板管理控制器发送每个阵列卡连接的硬盘通道信息,所述硬盘通道信息包括硬盘序号;
其中,BMC通过阵列卡自定义的协议和MCTP模块与支持MCTP的存储控制卡进行交互。可以获取到阵列卡的信息,逻辑盘的信息,或者物理盘的信息等。例如阵列卡的信息,阵列卡的数量,阵列卡支持的硬盘数量,连接的硬盘信息;几个硬盘槽,阵列卡支持的SAS通道数量和通道连接状态等等。
S3,基板管理控制器通过第一通信连接向所述阵列卡发送硬盘灯点灯指令,阵列卡将所述硬盘灯点灯指令通过第三通信连接发送给所述背板;
其中,所述硬盘灯点灯指令包括硬盘灯的地址/序号和硬盘灯变化状态。
其中,每个硬盘包含3位信号灯,act、locate、fail,根据其状态不同组合,可以实现对每个盘的点灯命令(硬盘灯变化状态),对于act而言,只有0和1两种状态,0表示绿灯常亮,1表示绿灯闪烁。
其中,硬盘灯变化状态根据三位信号灯的不同组合,具有多个状态,可以选择其中之一作为硬盘灯点灯指令。
优选地,硬盘灯点灯指令中的硬盘灯变化状态为使用act设定为0。
其中,基板管理控制器的硬盘灯点灯指令为串行信号;阵列卡的硬盘灯点灯指令为并行信号。
其中,阵列卡接收到基板管理控制器的硬盘灯点灯指令后,将串行信号转换为与硬盘灯/硬盘接口数量相同的并行信号,通过连接的第三线缆发送。
例如,阵列卡连接8个硬盘灯/硬盘接口,则基板管理控制器预发送序号5硬盘灯的点灯指令,则依次发送1-8个信号,其中第5个信号为具体的硬盘灯变化状态,其余7个信号保持默认的变化状态;阵列卡接收依次发送的串行的8个信号后,将其转换为并行信号,通过8个连通硬盘接口的SAS发送。
在此需要说明的是,上述序号5硬盘灯,在基板管理控制器内记载的形式可以为具体的物理地址、虚拟地址等,并不一定是数字5的直接形式。
S4,背板执行所述硬盘灯点灯指令,并记录所有硬盘灯的点灯状态;
其中,背板执行硬盘灯点灯指令,可以通过背板CPLD的硬盘点灯模块完成,具体过程在此不再赘述。
其中,背板上设置有寄存器,每个硬盘灯对应一个寄存器;所述寄存器用于记录对应的硬盘灯的点灯状态。这样,可以直接读取寄存器的硬盘灯状态。
S5,基板管理控制器通过第二通信连接读取所述背板上硬盘灯的点灯状态;
基板管理控制器通过第二通信连接与背板上的寄存器连通,直接读取寄存器中的硬盘灯状态。
S6,基板管理控制器根据所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态确定硬盘的关联错误。
如果某个序号的硬盘灯点灯指令中的点灯状态和该序号对应的寄存器中的点灯状态一致,则该序号的硬盘灯/硬盘接口是准确的,即不存在关联错误,否则是不准确的,存在关联错误;这样,遍历所有序号的硬盘灯/硬盘接口,确定所有硬盘的关联错误。
这样,通过第一线缆-第三线缆路径进行硬盘灯点亮,通过第二线缆路径获取硬盘灯状态,从而对两个路径的信息进行对比,确定硬盘在阵列卡中的顺序是否准确;无需人工外部观察,且不依赖OS安装。
本申请实施例提供了一种带外检验硬盘序方法,应用于基板管理控制器,该方法可以由带外检验硬盘序装置来执行,该带外检验硬盘序装置可以集成在电脑、服务器、计算机等电子设备中。如图3所示,其为根据本发明实施例的基板管理控制器侧的带外检验硬盘序方法的流程图;其中,所述带外检验硬盘序方法,应用于基板管理控制器,所述基板管理控制器与至少一个阵列卡通过第一线缆连接,所述阵列卡与背板通过第三线缆连接,所述基板管理控制器与所述背板通过第二线缆连接,包括:
S10,与所述阵列卡、所述背板建立第一链路连接;
优选地,所述第一链路连接,包括所述基板管理控制器与所述阵列卡经由所述第一线缆建立的第一通信连接,和,所述阵列卡与所述背板经由第三线缆建立的第三通信连接。
优选地,所述第一通信连接为MCTP连接。
其中,MCTP(Management Component Transport Protocol,管理组件传输协议)是一种独立于物理媒体的协议,用于管理计算机系统中智能设备之间的交互。此协议独立于底层物理总线,是一种独立于总线“数据链路层”的消息类型。
其中,所述基板管理控制器为设置在主板上的组件,阵列卡设置在主板或者转接卡上。主板上有第二线缆与背板连接。
S20,获取所述阵列卡的数量以及每个阵列卡连接的硬盘通道信息,所述硬盘通道信息包括硬盘序号;
其中,BMC直接具有硬件的管理权限,可以直接操作阵列卡的底层权限。其中,所述阵列卡的数量以及每个阵列卡连接的硬盘通道信息,可以由BMC通过底层权限直接获取,也可以有阵列卡发送得到。
S30,与所述背板经由第二线缆建立第二通信连接;
优选地,所述第二通信连接为I2C连接。
S40,通过第一链路连接向所述背板发送硬盘灯点灯指令;
其中,所述硬盘灯点灯指令可以为mctp请求,其中包含硬盘灯的地址/序号和硬盘灯变化状态。
其中,硬盘灯变化状态根据三位信号灯的不同组合,具有多个状态,可以选择其中之一作为硬盘灯点灯指令。
优选地,硬盘灯点灯指令中的硬盘灯变化状态为使用act设定为0。
优选地,硬盘灯点灯指令为串行信号。
S50,通过第二通信连接读取硬盘灯的点灯状态;
S60,根据所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态确定硬盘的关联错误。
这样,通过第一链路连接发送指令进行硬盘灯点亮,通过第二通信连接获取硬盘灯状态,从而对两个路径的信息进行对比,确定硬盘在阵列卡中的顺序是否准确;无需人工外部观察,且不依赖OS安装。
优选地,如图4所示,所述S40-S60包括:
S71,通过第一链路连接发送第一个硬盘对应的硬盘灯点灯指令;
优选地,该硬盘序号按照升序或降序或预设顺序进行依次选择。
S72,第一预设时间后,通过第二通信连接读取该硬盘的硬盘灯的点灯状态;
通过设置第一预设时间,从而留出间隔时间,供背板执行硬盘灯点灯指令和寄存器读取硬盘灯的点灯状态。
优选地,所述第一预设时间为100ms及以上,这样可以留出充分的时间供背板执行硬盘灯点灯指令和寄存器读取硬盘灯的点灯状态。
S73,根据所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态,确定当前测试的硬盘的关联错误;
S74,按照预设顺序对同一阵列卡的所有硬盘进行遍历,确定所有硬盘的关联错误;
其中,每个阵列卡均连通有多个硬盘通道/硬盘接口/硬盘,通过选择同一个阵列卡的另外一个硬盘,重新执行S71-S75来完成该硬盘的关联错误的确定;这样不断循环,直至该阵列卡的所有硬盘序号均完成关联错误的确定,即为遍历完成。
S75,对所有阵列卡进行遍历,确定所述阵列卡中各个硬盘的关联错误。
其中,每个基板管理控制器均连通至少一个阵列卡,选择另外一个阵列卡,重新执行S71-S76来完成该阵列卡的硬盘序号的关联错误的确定;这样不断循环,直至所有阵列卡的所有硬盘序号均完成关联错误的确定,即为遍历完成。
这样,通过遍历,从而对两个路径的信息进行对比,确定所有硬盘在对应的阵列卡中的顺序的准确性。
优选地,如图5所示,所述S73,根据所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态,确定当前测试的硬盘的关联错误,包括:
S731,判断所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态是否相符;
S732,若所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态相符,则当前测试的所述硬盘不存在关联错误;
S733,若所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态不相符,则当前测试的所述硬盘存在关联错误。
在此需要说明的是,上述S71-S75,仅是给出了一种对所有硬盘在对应的阵列卡中的顺序的准确性的具体判断方式,但是并未限定具体的执行过程,例如可以将不同阵列卡通过并行的方式同时执行其中的硬盘序判断过程,这样,多个阵列卡可以同时完成硬盘序的判断过程,大大加快完成过程;例如,还可以将同一阵列卡中的不同序号的硬盘接口的判断过程通过并行的方式同时执行,这样可以进一步加快完成过程。
优选地,每个硬盘灯点灯指令可以包含至少两个硬盘灯的地址/序号,这样后续同时读取该至少两个硬盘灯的点灯状态判断是否一致;这样可以通过一次硬盘灯点灯指令完成至少两个硬盘灯的关联错误的判断。但是这样会存在该至少两个硬盘灯互相颠倒的可能。
优选地,每个硬盘灯点灯指令可以包含至少两个硬盘灯的地址/序号,且每隔硬盘灯的点灯状态均不相同,这样不仅可以一次完成至少两个硬盘灯的关联错误的判断,且避免了该至少两个硬盘灯互相颠倒的问题。
优选地,每个硬盘灯点灯指令包含一个阵列卡的所有硬盘灯的地址/序号,这样可以通过一次硬盘灯点灯指令完成一个阵列卡的所有硬盘灯的关联错误的判断。
优选地,每个硬盘灯点灯指令包含一个阵列卡的所有硬盘灯的地址/序号,且每隔硬盘灯的点灯状态均不相同,这样可以通过一次硬盘灯点灯指令完成一个阵列卡的所有硬盘灯的关联错误的判断。
优选地,如图6所示,所述S40-S60包括:
S81,通过第一链路连接发送多个硬盘对应的硬盘灯点灯指令,多个所述硬盘对应的硬盘灯点灯指令中,每个硬盘灯点灯指令的点灯状态均不相同;
S82,第一预设时间后,通过第二通信连接读取多个所述硬盘的硬盘灯的点灯状态;
S83,根据所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态,确定当前测试的多个所述硬盘的关联错误;
S84,按照预设策略对同一阵列卡的所有硬盘进行遍历,确定所有硬盘的关联错误;
S85,对所有阵列卡进行遍历,确定所述阵列卡中各个硬盘的关联错误。
这样,通过第一链路连接,一次发送多个硬盘对应的硬盘灯点灯指令,从而可以在一次循环中完成多个硬盘的关联错误确定,大大降低了遍历需要循环的次数。
本申请实施例提供了一种带外检验硬盘序方法,应用于阵列卡,该方法可以由带外检验硬盘序装置来执行,该带外检验硬盘序装置可以集成在电脑、服务器、计算机等电子设备中。如图7所示,其为根据本发明实施例的阵列卡侧的带外检验硬盘序方法的流程图;其中,所述带外检验硬盘序方法,应用于阵列卡,所述阵列卡与背板通过第三线缆连接,与基板管理控制器通过第一线缆连接,所述背板与所述基板管理控制器通过第二线缆连接,包括:
S201,与基板管理控制器经由第一线缆建立第一通信连接;
优选地,所述第一通信连接为MCTP连接。
S202,与背板上的硬盘接口经由第三线缆建立第三通信连接;
优选地,第三通信连接为SGPIO通信连接。
S203,向所述基板管理控制器发送连接的硬盘通道信息,所述硬盘通道信息包括硬盘序号;
这样,每个阵列卡均向基板管理控制器发送硬盘通道信息,基板管理控制器可以获取每个阵列卡连接的硬盘通道信息以及阵列卡的数量。
S204,接收所述基板管理控制器通过第一通信连接发送的硬盘灯点灯指令;
其中,所述硬盘灯点灯指令包括硬盘灯的地址/序号和硬盘灯变化状态。
其中,硬盘灯变化状态根据三位信号灯的不同组合,具有多个状态,可以选择其中之一作为硬盘灯点灯指令。
优选地,硬盘灯点灯指令中的硬盘灯变化状态为使用act设定为0。
S205,将所述硬盘灯点灯指令通过第三通信连接发送给所述背板。
其中,基板管理控制器的硬盘灯点灯指令为串行信号;阵列卡的硬盘灯点灯指令为并行信号。
其中,阵列卡接收到基板管理控制器的硬盘灯点灯指令后,将串行信号转换为与硬盘灯/硬盘接口数量相同的并行信号,通过第三通信连接发送。
这样,通过第一线缆-第三线缆路径可以接收硬盘灯点灯指令,从而将对应的硬盘灯点亮,进而可以与第二线缆路径获取的硬盘灯状态进行对比,确定硬盘在阵列卡中的顺序是否准确。
本申请实施例提供了一种带外检验硬盘序方法,应用于背板,该方法可以由带外检验硬盘序装置来执行,该带外检验硬盘序装置可以集成在电脑、服务器、计算机等电子设备中。如图8所示,其为根据本发明实施例的背板侧的带外检验硬盘序方法的流程图;其中,所述带外检验硬盘序方法,应用于背板,所述背板与至少一个阵列卡通过第三线缆连接,与基板管理控制器通过第二线缆连接,所述基板管理控制器与至少一个阵列卡通过第一线缆连接,包括:
S301,与所述基板管理控制器经由第二线缆建立第二通信连接;
优选地,所述第二通信连接为I2C连接。
S302,与所述阵列卡经由第三线缆建立第三通信连接;
优选地,第三通信连接为SGPIO通信连接。
S303,接收所述阵列卡通过第三通信连接发送的硬盘灯点灯指令;
S304,执行所述硬盘灯点灯指令;
S305,记录所有硬盘灯的点灯状态,供所述基板管理控制器通过第二通信连接进行读取。
这样,通过第一线缆-第三线缆路径接收硬盘灯点灯指令,将对应的硬盘灯点亮,并记录点灯状态从而供通过第二线缆路径获取的硬盘灯状态;进而进行对比,确定硬盘在阵列卡中的顺序是否准确。
本申请实施例提供了一种带外检验硬盘序装置,应用于基板管理控制器,用于执行本发明上述内容所述的带外检验硬盘序方法,以下对所述带外检验硬盘序装置进行详细描述。
如图9所示,所述带外检验硬盘序装置,应用于基板管理控制器,所述基板管理控制器与至少一个阵列卡通过第一线缆连接,所述阵列卡与背板通过第三线缆连接,所述基板管理控制器与所述背板通过第二线缆连接,其包括:
第一连接模块11,其用于与所述阵列卡、所述背板建立第一链路连接,与所述背板经由第二线缆建立第二通信连接;
获取模块12,其用于获取所述阵列卡的数量以及每个阵列卡连接的硬盘通道信息,所述硬盘通道信息包括硬盘序号;
发送模块13,其用于通过第一链路连接向所述背板发送硬盘灯点灯指令;
读取模块14,其用于通过第二通信连接读取所述硬盘灯的点灯状态;
判断模块15,其用于根据所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态确定硬盘的关联错误。
这样,通过第一链路连接发送指令进行硬盘灯点亮,通过第二通信连接获取硬盘灯状态,从而对两个路径的信息进行对比,确定硬盘在阵列卡中的顺序是否准确;无需人工外部观察,且不依赖OS安装。
优选地,所述第二通信连接为I2C连接。
优选地,所述第一通信连接为MCTP连接。
优选地,硬盘灯点灯指令中的硬盘灯变化状态为使用act设定为0。
优选地,硬盘灯点灯指令为串行信号。
优选地,所述判断模块15还用于:通过第一链路连接发送第一个硬盘对应的硬盘灯点灯指令;第一预设时间后,通过第二通信连接读取该硬盘的硬盘灯的点灯状态;根据所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态,确定当前测试的硬盘的关联错误;按照预设顺序对同一阵列卡的所有硬盘进行遍历,确定所有硬盘的关联错误;对所有阵列卡进行遍历,确定所述阵列卡中各个硬盘的关联错误。
优选地,所述判断模块15还用于:判断所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态是否相符;若所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态相符,则当前测试的所述硬盘不存在关联错误;若所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态不相符,则当前测试的所述硬盘存在关联错误。
优选地,所述判断模块15还用于:通过第一链路连接发送多个硬盘对应的硬盘灯点灯指令,多个所述硬盘对应的硬盘灯点灯指令中,每个硬盘灯点灯指令的点灯状态均不相同;第一预设时间后,通过第二通信连接读取多个所述硬盘的硬盘灯的点灯状态;根据所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态,确定当前测试的多个所述硬盘的关联错误;按照预设策略对同一阵列卡的所有硬盘进行遍历,确定所有硬盘的关联错误;对所有阵列卡进行遍历,确定所述阵列卡中各个硬盘的关联错误。
优选地,所述第一链路连接,包括所述基板管理控制器与所述阵列卡经由所述第一线缆建立的第一通信连接,和,所述阵列卡与所述背板经由第三线缆建立的第三通信连接。
本申请实施例提供了一种电子设备,如图10所示,其包括存储有计算机程序的计算机可读存储介质301和处理器302,所述计算机程序被所述处理器读取并运行时,实现如前述所述的方法。
这样,通过第一链路连接发送指令进行硬盘灯点亮,通过第二通信连接获取硬盘灯状态,从而对两个路径的信息进行对比,确定硬盘在阵列卡中的顺序是否准确;无需人工外部观察,且不依赖OS安装。
本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器读取并运行时,实现如前述所述的方法。
本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是空调器,制冷装置,个人计算机,服务器,或者网络设备等)或processor(处理器)执行本发明实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
这样,通过第一链路连接发送指令进行硬盘灯点亮,通过第二通信连接获取硬盘灯状态,从而对两个路径的信息进行对比,确定硬盘在阵列卡中的顺序是否准确;无需人工外部观察,且不依赖OS安装。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本申请中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于带外检验硬盘序的方法、带外检验硬盘序的装置、电子设备、机器可读存储介质实施例而言,由于其基本相似于最前端所述带外检验硬盘序方法实施例,所以描述的比较简单,相关之处参见最前端所述带外检验硬盘序方法实施例的部分说明即可。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (10)

1.一种带外检验硬盘序方法,应用于基板管理控制器,所述基板管理控制器与至少一个阵列卡通过第一线缆连接,所述阵列卡与背板通过第三线缆连接,所述基板管理控制器与所述背板通过第二线缆连接,其特征在于,包括:
与所述阵列卡、所述背板建立第一链路连接;
获取所述阵列卡的数量以及每个阵列卡连接的硬盘通道信息,所述硬盘通道信息包括硬盘序号;
与所述背板经由第二线缆建立第二通信连接;
通过第一链路连接向所述背板发送硬盘灯点灯指令;
通过第二通信连接读取所述硬盘灯的点灯状态;
根据所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态确定硬盘的关联错误。
2.如权利要求1所述的方法,其特征在于,所述通过第一链路连接向所述背板发送硬盘灯点灯指令;通过第二通信连接读取所述硬盘灯的点灯状态;根据所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态确定硬盘的关联错误,包括:
通过第一链路连接发送第一个硬盘对应的硬盘灯点灯指令;
第一预设时间后,通过第二通信连接读取该硬盘的硬盘灯的点灯状态;
根据所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态,确定当前测试的硬盘的关联错误;
按照预设顺序对同一阵列卡的所有硬盘进行遍历,确定所有硬盘的关联错误;
对所有阵列卡进行遍历,确定所述阵列卡中各个硬盘的关联错误。
3.如权利要求2所述的方法,其特征在于,所述根据所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态,确定当前测试的硬盘的关联错误,包括:
判断所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态是否相符;
若所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态相符,则当前测试的所述硬盘不存在关联错误;
若所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态不相符,则当前测试的所述硬盘存在关联错误。
4.如权利要求1所述的方法,其特征在于,所述通过第一链路连接向所述背板发送硬盘灯点灯指令;通过第二通信连接读取所述硬盘灯的点灯状态;根据所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态确定硬盘的关联错误,包括:
通过第一链路连接发送多个硬盘对应的硬盘灯点灯指令,多个所述硬盘对应的硬盘灯点灯指令中,每个硬盘灯点灯指令的点灯状态均不相同;
第一预设时间后,通过第二通信连接读取多个所述硬盘的硬盘灯的点灯状态;
根据所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态,确定当前测试的多个所述硬盘的关联错误;
按照预设策略对同一阵列卡的所有硬盘进行遍历,确定所有硬盘的关联错误;
对所有阵列卡进行遍历,确定所述阵列卡中各个硬盘的关联错误。
5.如权利要求1-4中任一项所述的方法,其特征在于,所述第一链路连接,包括所述基板管理控制器与所述阵列卡经由所述第一线缆建立的第一通信连接,和,所述阵列卡与所述背板经由第三线缆建立的第三通信连接。
6.如权利要求5所述的方法,其特征在于,所述第一通信连接为MCTP连接。
7.如权利要求5所述的方法,其特征在于,所述第二通信连接为I2C连接。
8.一种带外检验硬盘序装置,应用于基板管理控制器,所述基板管理控制器与至少一个阵列卡通过第一线缆连接,所述阵列卡与背板通过第三线缆连接,所述基板管理控制器与所述背板通过第二线缆连接,其特征在于,包括:
第一连接模块,其用于与所述阵列卡、所述背板建立第一链路连接,与所述背板经由第二线缆建立第二通信连接;
获取模块,其用于获取所述阵列卡的数量以及每个阵列卡连接的硬盘通道信息,所述硬盘通道信息包括硬盘序号;
发送模块,其用于通过第一链路连接向所述背板发送硬盘灯点灯指令;
读取模块,其用于通过第二通信连接读取所述硬盘灯的点灯状态;
判断模块,其用于根据所述硬盘灯点灯指令对应的点灯状态和读取的所述点灯状态确定硬盘的关联错误。
9.一种电子设备,其特征在于,包括存储有计算机程序的计算机可读存储介质和处理器,所述计算机程序被所述处理器读取并运行时,实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器读取并运行时,实现如权利要求1-7任一项所述的方法。
CN202111445602.4A 2021-11-30 2021-11-30 一种带外检验硬盘序方法、装置、设备及存储介质 Pending CN114116354A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111445602.4A CN114116354A (zh) 2021-11-30 2021-11-30 一种带外检验硬盘序方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111445602.4A CN114116354A (zh) 2021-11-30 2021-11-30 一种带外检验硬盘序方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114116354A true CN114116354A (zh) 2022-03-01

Family

ID=80368486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111445602.4A Pending CN114116354A (zh) 2021-11-30 2021-11-30 一种带外检验硬盘序方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114116354A (zh)

Similar Documents

Publication Publication Date Title
CN107577569A (zh) 一种服务器硬盘连接结构及其应用方法
CN110489367B (zh) 一种灵活调配且易于cpld管理背板的方法与系统
CN107491148A (zh) 一种服务器硬盘连接结构
WO2018148405A1 (en) Real-time capture of traffic upon failure for protocol debug
CN103686030A (zh) 检测应用于画面拼接显示单元中的视频信号接口的方法和设备
CN104572386A (zh) 一种Linux下自动测试HBA卡带宽的方法
CN103631688A (zh) 一种测试接口信号的方法及系统
CN110795317A (zh) 一种使用cpld实现自适应硬盘背板点灯的方法与系统
CN112034947A (zh) 增强服务器硬盘兼容性的背板设计系统和参数调优方法
CN112069766A (zh) 一种服务器内减少硬盘背板线缆的方法及装置
CN111475431A (zh) 一种主板,背板,识别系统以及识别方法
CN102053898A (zh) 针对主机pcie插槽上总线接口的测试方法及其读写测试方法
CN114116354A (zh) 一种带外检验硬盘序方法、装置、设备及存储介质
CN113204475B (zh) 一种服务器背板硬盘点灯装置、方法及服务器
CN111930574A (zh) Ssd测试系统及ssd测试方法
CN115480975A (zh) 接线检查方法及装置
CN116340075A (zh) 硬盘测试装置、系统、方法及计算机可读存储介质
CN116521463A (zh) 服务器硬盘连接拓扑自动识别方法、装置、设备和介质
CN116009785A (zh) 一种硬盘管理的方法及计算设备
CN100511172C (zh) 一种板间透传总线的测试装置及方法
TWI742461B (zh) 硬碟安裝檢測系統
CN100405313C (zh) 链接控制卡测试系统及方法
CN109769155B (zh) 一种光纤端口的控制实现方法
CN103095487B (zh) 一种多网口状态指示方法及装置
CN112596983A (zh) 一种服务器内连接器的监测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination