CN105760247A - 一种硬盘故障处理系统和方法 - Google Patents

一种硬盘故障处理系统和方法 Download PDF

Info

Publication number
CN105760247A
CN105760247A CN201610082840.6A CN201610082840A CN105760247A CN 105760247 A CN105760247 A CN 105760247A CN 201610082840 A CN201610082840 A CN 201610082840A CN 105760247 A CN105760247 A CN 105760247A
Authority
CN
China
Prior art keywords
sas
hard disk
expansion module
controller
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610082840.6A
Other languages
English (en)
Inventor
史文举
张燕群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201610082840.6A priority Critical patent/CN105760247A/zh
Publication of CN105760247A publication Critical patent/CN105760247A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提供一种硬盘故障处理系统和方法,其中系统包括:控制器、中间件、SAS扩展模块、CPLD和硬盘模块,硬盘模块包括至少一SAS硬盘,SAS扩展模块第一端通过I2C接口与CPLD和硬盘模块依次相连,第二端通过SAS接口与所有SAS硬盘均相连,第三端通过中间件与控制器相连,用于检测各SAS硬盘工作状态,当检测到故障SAS硬盘时,通过CPLD调用GPIO对故障SAS硬盘进行复位,并向控制器发送操作日志;控制器用于接收该操作日志,并根据该操作日志统计对各SAS硬盘进行复位的次数,当存在复位的次数大于预设阈值的SAS硬盘时,发出警报。减少了管理人员的工作量,管理人员将具有较高的工作效率和较低的出错率,且降低了管理人员对正常硬盘进行误插拔操作的可能。

Description

一种硬盘故障处理系统和方法
技术领域
本发明涉及故障处理技术领域,特别是涉及一种硬盘故障处理系统和方法。
背景技术
在存储系统中,当存储上层软件发现某个硬盘发生故障时,将由管理界面发出警报,然后由管理人员在接收到该警报后对故障的硬盘进行插拔操作,若该故障硬盘在进行插拔操作后恢复正常工作,则继续使用该硬盘进行工作,若该故障硬盘在进行插拔操作后为能恢复正常工作,则更换一块新的硬盘代替该硬盘进行工作。
每次只要一检查到有硬盘发生故障,便进行报警,然后对该故障硬盘进行插拔操作,较为费时费力;且一旦某次检测结果出错,误将正常的硬盘认为是故障硬盘,将导致管理界面进行误报警,进而致使管理人员对正常的硬盘进行误插拔操作;同时,由于存储系统中一般包括的硬盘数目较多,每次只要一检查到有硬盘发生故障,便进行报警,然后对该故障硬盘进行插拔操作,将给管理人员带来较大的工作量,将致使管理人员的出错率提高,进而进一步地提升了对正常硬盘进行误插拔操作的可能,影响到存储系统的工作性能。
发明内容
有鉴于此,本发明实施例提供一种硬盘故障处理系统和方法,以解决现有技术中较为费时费力,管理人员工作量较大,出错率较高,对正常的硬盘进行误插拔操作的可能性较高,影响到存储系统的工作性能的问题。
为实现上述目的,本发明实施例提供如下技术方案:
一种硬盘故障处理系统,包括:控制器、中间件、SAS扩展模块、CPLD和硬盘模块,所述硬盘模块包括至少一个SAS硬盘;其中,
所述SAS扩展模块的第一端通过I2C接口与所述CPLD和硬盘模块依次相连,第二端通过SAS接口与所有所述SAS硬盘均相连,第三端通过所述中间件与所述控制器相连,用于检测所述硬盘模块中各SAS硬盘的工作状态,当检测到故障SAS硬盘时,通过所述CPLD调用GPIO对所述故障SAS硬盘进行复位,并通过所述中间件向所述控制器发送操作日志;
所述控制器,用于接收所述SAS扩展模块发送的操作日志,并根据所述操作日志统计所述SAS扩展模块对各所述SAS硬盘进行复位的次数,当存在复位的次数大于预设阈值的SAS硬盘时,发出警报。
其中,所述硬盘故障处理系统还包括:备用控制器;其中,
所述备用控制器与所述中间件相连,用于当所述控制器故障时,接收所述SAS扩展模块发送的操作日志,并根据所述操作日志统计所述SAS扩展模块对各所述SAS硬盘进行复位的次数,当存在复位的次数大于预设阈值的SAS硬盘时,发出警报。
其中,所述硬盘故障处理系统还包括:备用SAS扩展模块和多路选择器;其中,
所述多路选择器的第一端通过I2C接口与所述CPLD和硬盘模块依次相连,第二端通过I2C接口与所述SAS扩展模块相连,在接收到所述控制器/备用控制器发送的切换指令后,切换所述多路选择器的第二端通过I2C接口与所述备用SAS扩展模块相连;
所述备用SAS扩展模块的第一端通过I2C接口或UART接口与所述SAS扩展模块相连,第二端通过SAS接口与所有所述SAS硬盘均相连,第三端通过中间件与所述控制器相连,用于检测所述SAS扩展模块是否正常,当检测到所述SAS扩展模块故障时,通过所述中间件向所述控制器/备用控制器发送故障信息,在接收到所述控制器/备用控制器在接收到所述故障信息后返回的工作指令后,检测所述硬盘模块中是否存在故障SAS硬盘,当检测到故障SAS硬盘时,通过所述CPLD调用GPIO对所述故障SAS硬盘进行复位,并通过所述中间件向所述控制器发送操作信息;
所述控制器/备用控制器,还用于接收所述备用SAS扩展模块发送的故障信息,并在接收到所述故障信息后向所述备用SAS扩展模块发送工作指令和向所述多路选择器发送切换指令。
一种硬盘故障处理方法,基于上述的硬盘故障处理系统,包括:
SAS扩展模块检测硬盘模块中各SAS硬盘的工作状态,当检测到故障SAS硬盘时,通过CPLD调用GPIO对所述故障SAS硬盘进行复位,并通过中间件向控制器发送操作日志;
所述控制器在接收到所述SAS扩展模块发送的操作日志后,根据所述操作日志统计所述SAS扩展模块对各所述SAS硬盘进行复位的次数,当存在复位的次数大于预设阈值的SAS硬盘时,发出警报。
其中,所述SAS扩展模块通过CPLD调用GPIO对所述故障SAS硬盘进行复位包括:
所述SAS扩展模块确定所述故障SAS硬盘是否为高电平复位;
若是,则通过CPLD调用GPIO对所述故障SAS硬盘发送高电平,控制所述故障SAS硬盘进行复位;
若否,则通过CPLD调用GPIO对所述故障SAS硬盘发送低电平,控制所述故障SAS硬盘进行复位。
其中,所述SAS扩展模块通过CPLD调用GPIO对所述故障SAS硬盘进行复位后还包括:
检测所述控制器是否故障;
若未检测到所述控制器故障,则所述SAS扩展模块通过中间件向所述控制器发送操作日志;
若检测到所述控制器故障,则所述SAS扩展模块通过中间件向备用控制器发送操作日志。
其中,所述SAS扩展模块通过中间件向备用控制器发送操作日志后还包括:
所述备用控制器接收所述SAS扩展模块发送的操作日志,并根据所述操作日志统计所述SAS扩展模块对各所述SAS硬盘进行复位的次数,当存在复位的次数大于预设阈值的SAS硬盘时,发出警报。
其中,所述SAS扩展模块检测所述硬盘模块中各SAS硬盘的工作状态前还包括:
通过备用SAS扩展模块检测所述SAS扩展模块是否故障;
若检测到所述SAS扩展模块故障,则所述备用SAS扩展模块通过所述中间件向所述控制器/备用控制器发送故障信息。
其中,所述备用SAS扩展模块通过所述中间件向所述控制器/备用控制器发送故障信息后还包括:
多路选择器判断是否接收到所述控制器/备用控制器发送的切换指令;
若接收到,则切换所述多路选择器的第二端通过I2C接口与所述备用SAS扩展模块相连。
其中,所述切换所述多路选择器的第二端通过I2C接口与所述备用SAS扩展模块相连后还包括:
所述备用SAS扩展模块判断是否接收到所述控制器/备用控制器发送的工作指令;
若接收到,则检测所述硬盘模块中是否存在故障SAS硬盘,当检测到故障SAS硬盘时,通过所述CPLD调用GPIO对所述故障SAS硬盘进行复位,并通过所述中间件向所述控制器发送操作信息。
基于上述技术方案,本发明实施例提供的硬盘故障处理系统和方法,包括控制器、中间件、SAS扩展模块、CPLD和硬盘模块,硬盘模块包括至少一个SAS硬盘,SAS扩展模块的第一端通过I2C接口与CPLD和硬盘模块依次相连,第二端通过SAS接口与所有SAS硬盘均相连,第三端通过中间件与控制器相连,用于检测硬盘模块中各SAS硬盘的工作状态,当检测到存在故障SAS硬盘时,通过CPLD调用GPIO对该检测到的故障SAS硬盘进行复位,并通过中间件向控制器发送操作日志,控制器在接收到该SAS扩展模块发送的操作日志后,将根据该操作日志统计该SAS扩展模块对各SAS硬盘进行复位的次数,当确定存在复位的次数大于预设阈值的SAS硬盘时,发出警报。当检测到有硬盘发送故障时,即检测到存在故障硬盘时,仅对该故障硬盘进行复位操作,若对某硬盘重复进行复位操作的次数大于预设阈值,则再由控制器发出报警,告知管理人员对该故障硬盘进行插拔,减少了管理人员的工作量,管理人员将具有较高的工作效率和较低的出错率,且在某硬盘重复进行多次复位操作后再对该硬盘进行插拔操作,降低了管理人员对正常硬盘进行误插拔操作的可能,提高了系统的工作性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的硬盘故障处理系统的系统框图;
图2为本发明实施例提供的硬盘故障处理系统的另一系统框图;
图3为本发明实施例提供的硬盘故障处理系统的又一系统框图;
图4为本发明实施例提供的硬盘故障处理方法的流程图;
图5为本发明实施例提供的硬盘故障处理方法中SAS扩展模块通过CPLD调用GPIO对故障SAS硬盘进行复位的方法流程图;
图6为本发明实施例提供的硬盘故障处理方法中通过备用SAS对故障SAS硬盘进行复位的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的硬盘故障处理系统的系统框图,减少了管理人员的工作量,管理人员将具有较高的工作效率和较低的出错率,且降低了管理人员对正常硬盘进行误插拔操作的可能,提高了系统的工作性能;参照图1,该硬盘故障处理系统可以包括:控制器10、中间件20、SAS扩展模块30、CPLD40和硬盘模块50。
硬盘模块50中包括至少一个SAS(SerialAttachedSCSI,串行连接SCSI,其中,SCSI:SmallComputerSystemInterface,小型计算机系统接口)硬盘51。
可选的,可设置硬盘模块50中包括12个SAS硬盘。
SAS扩展模块30的第一端通过I2C(Inter-IntegratedCircuit,内置集成电路)接口与CPLD(ComplexProgrammableLogicDevice,复杂可编程逻辑器件)40和硬盘模块50依次相连,第二端通过SAS接口与硬盘模块50中所有SAS硬盘均相连,第三端通过中间件20与控制器10相连。
SAS扩展模块30,用于检测硬盘模块50中各SAS硬盘51的工作状态,当检测到某SAS硬盘故障时,即当检测到硬盘模块50中存在故障SAS硬盘时,通过CPLD40调用GPIO(GeneralPurposeInputOutput,通用输入/输出口)对该检测到的故障SAS硬盘进行复位,并通过中间件20向控制器10发送操作日志;
控制器10则用于接收SAS扩展模块30发送的操作日志,并根据该接收的操作日志统计SAS扩展模块30对各SAS硬盘51进行复位的次数,当确定存在复位的次数大于预设阈值的SAS硬盘时,即确定某硬盘故障的次数大于预设阈值,则发出警报。在控制器10发出警报后,管理人员将该对故障的次数大于预设阈值的SAS硬盘进行插拔操作。
基于上述技术方案,本发明实施例提供的硬盘故障处理系统和方法,包括控制器、中间件、SAS扩展模块、CPLD和硬盘模块,硬盘模块包括至少一个SAS硬盘,SAS扩展模块的第一端通过I2C接口与CPLD和硬盘模块依次相连,第二端通过SAS接口与所有SAS硬盘均相连,第三端通过中间件与控制器相连,用于检测硬盘模块中各SAS硬盘的工作状态,当检测到存在故障SAS硬盘时,通过CPLD调用GPIO对该检测到的故障SAS硬盘进行复位,并通过中间件向控制器发送操作日志,控制器在接收到该SAS扩展模块发送的操作日志后,将根据该操作日志统计该SAS扩展模块对各SAS硬盘进行复位的次数,当确定存在复位的次数大于预设阈值的SAS硬盘时,发出警报。当检测到有硬盘发送故障时,即检测到存在故障硬盘时,仅对该故障硬盘进行复位操作,若对某硬盘重复进行复位操作的次数大于预设阈值,则再由控制器发出报警,告知管理人员对该故障硬盘进行插拔,减少了管理人员的工作量,管理人员将具有较高的工作效率和较低的出错率,且在某硬盘重复进行多次复位操作后再对该硬盘进行插拔操作,降低了管理人员对正常硬盘进行误插拔操作的可能,提高了系统的工作性能。
可选的,图2示出了本发明实施例提供的硬盘故障处理系统的另一系统框图,参照图2,该硬盘故障处理系统还可以包括:备用控制器60。
备用控制器60与中间件10相连,当检测到控制器10故障时,可由该备用控制器代替该被检测到故障的控制器继续进行工作。即,当检测到控制器10故障时,由该备用控制器60代替该控制器10进行接收SAS扩展模块30发送的操作日志,根据该操作日志统计SAS扩展模块30对各SAS硬盘51进行复位的次数,在确定存在复位的次数大于预设阈值的SAS硬盘时,发出警报。
可选的,图3示出了本发明实施例提供的硬盘故障处理系统的又一系统框图,参照图3,该硬盘故障处理系统还可以包括:备用SAS扩展模块70和多路选择器80。
多路选择器80的第一端通过I2C接口与CPLD40和硬盘模块50依次相连,且多路选择器80的第二端默认通过I2C接口与SAS扩展模块相连,即若多路选择器80在启动后未接收到控制器10/备用控制器60发出的切换指令,则多路选择器80的第二端将一直通过I2C接口与SAS扩展模块30相连,而一旦多路选择器80接收到控制器10/备用控制器60发出的切换指令,多路选择器80在接收到控制器10/备用控制器60发送的切换指令后,将切换其第二端通过I2C接口与备用SAS扩展模块70相连。
在该多路选择器80切换其第二端通过I2C接口与备用SAS扩展模块70相连后,备用SAS扩展模块70将通过I2C接口依次与多路选择器80、CPLD40和硬盘模块50相连,同时SAS扩展模块30将中断与CPLD40和硬盘模块50的连接关系。
备用SAS扩展模块70的第一端通过I2C接口或UART(UniversalAsynchronousReceiver/Transmitter,通用异步收发传输器)接口与SAS扩展模块30相连,第二端通过SAS接口与硬盘模块50中所有SAS硬盘51均相连,第三端通过中间件10与控制器20相连。
备用SAS扩展模块70的第一端通过I2C接口或UART接口与SAS扩展模块30相连,可通过该I2C接口或UART接口向SAS扩展模块30发送心跳信息,从而通过是否接收到该心跳信息的反馈来检测SAS扩展模块30是否正常工作,即检测该SAS扩展模块30是否发送故障。
若备用SAS扩展模块70检测到SAS扩展模块30故障,则将通过中间件20向控制器10或备用控制器60发送故障信息,而若在通过中间件20向控制器10/备用控制器60发送故障信息后,接收到控制器10/备用控制器60返回的工作指令,则由该备用SAS扩展模块70代替该被检测为故障的SAS扩展模块30继续进行工作。即,当检测到SAS扩展模块30故障时,由备用SAS扩展模块70代替SAS扩展模块30继续检测硬盘模块40中是否存在故障SAS硬盘,并在检测到故障SAS硬盘时,通过CPLD40调用GPIO对该故障SAS硬盘进行复位,然后通过中间件20向控制器10发送操作信息。
当本发明实施例提供的硬盘故障处理系统中包括备用SAS扩展模块70和多路选择器80时,本硬盘故障处理系统中控制器10/备用控制器60将还用于接收备用SAS扩展模块70发送的故障信息,并在接收到该故障信息后向备用SAS扩展模块70发送工作指令,和向多路选择器80发送切换指令。
本发明实施例提供的硬盘故障处理系统,减少了管理人员的工作量,管理人员将具有较高的工作效率和较低的出错率,且降低了管理人员对正常硬盘进行误插拔操作的可能。
下面对本发明实施例提供的硬盘故障处理方法进行介绍,下文描述的硬盘故障处理方法基于上文描述硬盘故障处理系统。
图4为本发明实施例提供的硬盘故障处理方法的流程图,参照图4,该硬盘故障处理方法可以包括:
步骤S100:SAS扩展模块检测所述硬盘模块中各SAS硬盘的工作状态,当检测到故障SAS硬盘时,通过CPLD调用GPIO对所述故障SAS硬盘进行复位,并通过中间件向控制器发送操作日志;
在硬盘模块工作的过程中,由SAS扩展模块检测该硬盘模块中各SAS硬盘的工作状态,若检测到该硬盘模块中存在故障SAS硬盘,则通过CPLD调用GPIO对该故障SAS硬盘进行复位,并通过中间件向控制器发送操作日志。
可选的,当检测到某SAS硬盘故障时,可通过先确定该故障SAS硬盘是高电平复位还是低电平复位,在确定该故障SAS硬盘为高电平复位时,通过CPLD调用GPIO对该故障SAS硬盘发送高电平,在确定该故障SAS硬盘为低电平复位时,通过CPLD调用GPIO对该故障SAS硬盘发送低电平,来实现对该故障SAS硬盘进行复位操作。
可选的,在SAS扩展模块通过CPLD调用GPIO对故障SAS硬盘进行复位后,还可先检测该控制器是否发生故障,若检测到控制器未故障,则SAS扩展模块通过中间件向该控制器发送操作日志,若检测到该控制器故障,则SAS扩展模块通过中间件向备用控制器发送操作日志,由该备用控制器代替该控制器继续进行后续工作。
也就是说,若检测到该控制器故障,则由备用控制器代替该控制器继续接收SAS扩展模块发送的操作日志,并根据该操作日志统计SAS扩展模块对各SAS硬盘进行复位的次数,当存在复位的次数大于预设阈值的SAS硬盘时,发出警报。
可选的,在SAS扩展模块检测硬盘模块中各SAS硬盘的工作状态前,还可先通过备用SAS扩展模块检测该SAS扩展模块是否发生故障,若检测到该SAS扩展模块未故障,则继续使用该SAS扩展模块进行工作;而若检测到该SAS扩展模块故障,则由备用SAS扩展模块通过中间件向控制器/备用控制器发送故障信息。
控制器/备用控制器在接收到备用SAS扩展模块发送的故障信息后,将决定是否由该备用SAS扩展模块代替该SAS扩展模块继续进行工作,若控制器/备用控制器决定由该备用SAS扩展模块代替该SAS扩展模块继续进行工作,则将向备用SAS扩展模块发送工作指令,并向多路选择器发送切换指令。
若多路选择器接收到控制器/备用控制器发送的切换指令,则该多路选择器将切换其第二端通过I2C接口与备用SAS扩展模块相连,在该多路选择器将切换其第二端通过I2C接口与备用SAS扩展模块相连后,该备用SAS扩展模块将通过I2C接口依次与多路选择器、CPLD和硬盘模块相连,同时SAS扩展模块将中断与CPLD和硬盘模块的连接关系。
若备用SAS扩展模块接收到控制器/备用控制器发送的工作指令,则该备用SAS扩展模块将代替该SAS扩展模块继续进行工作。即该备用SAS扩展模块将代替该SAS扩展模块继续检测硬盘模块中是否存在故障SAS硬盘,当检测到故障SAS硬盘时,通过CPLD调用GPIO对故障SAS硬盘进行复位,并通过所述中间件向所述控制器发送操作信息。
步骤S110:所述控制器在接收到所述SAS扩展模块发送的操作日志后,根据所述操作日志统计所述SAS扩展模块对各所述SAS硬盘进行复位的次数,当存在复位的次数大于预设阈值的SAS硬盘时,发出警报。
在SAS扩展模块通过中间件向控制器发送操作日志后,响应的,控制器将接收到该SAS扩展模块发送的操作日志,并在接收到该SAS扩展模块发送的操作日志后,根据该操作日志统计该SAS扩展模块对各SAS硬盘进行复位的次数,并在确定存在复位的次数大于预设阈值的SAS硬盘时,即确定某SAS硬盘故障的次数大于预设阈值时,发出警报。在控制器发出警报后,管理人员将该对故障的次数大于预设阈值的SAS硬盘进行插拔操作。
可选的,图5示出了本发明实施例提供的硬盘故障处理方法中SAS扩展模块通过CPLD调用GPIO对故障SAS硬盘进行复位的方法流程图,参照图5,该SAS扩展模块通过CPLD调用GPIO对故障SAS硬盘进行复位的方法可以包括:
步骤S200:所述SAS扩展模块确定所述故障SAS硬盘是否为高电平复位;
SAS硬盘可能为高电平复位的SAS硬盘,也可能是低电平复位的SAS硬盘,因此,在当检测到某SAS硬盘故障时,应先确定该故障SAS硬盘是高电平复位的SAS硬盘还是低电平复位的SAS硬盘。
步骤S210:若是,则通过CPLD调用GPIO对所述故障SAS硬盘发送高电平,控制所述故障SAS硬盘进行复位;
若确定故障SAS硬盘为高电平复位的SAS硬盘,则通过CPLD调用GPIO对该故障SAS硬盘发送高电平,从而对该故障SAS硬盘进行复位操作。
步骤S220:若否,则通过CPLD调用GPIO对所述故障SAS硬盘发送低电平,控制所述故障SAS硬盘进行复位。
若确定故障SAS硬盘不为高电平复位的SAS硬盘,即可确定该故障SAS硬盘为低电平复位的SAS硬盘,则通过CPLD调用GPIO对该故障SAS硬盘发送低电平,从而对该故障SAS硬盘进行复位操作。
可选的,图6示出了本发明实施例提供的硬盘故障处理方法中通过备用SAS对故障SAS硬盘进行复位的方法流程图,参照图6,该通过备用SAS对故障SAS硬盘进行复位的方法可以包括:
步骤S300:备用SAS扩展模块检测所述SAS扩展模块是否故障,若检测到所述SAS扩展模块故障,则进入步骤S310;
在SAS扩展模块检测硬盘模块中各SAS硬盘的工作状态前,还可先通过备用SAS扩展模块检测该SAS扩展模块是否发生故障。
可选的,备用SAS扩展模块可通过向SAS扩展模块发送心跳信息,通过是否接收到该心跳信息的反馈来检测SAS扩展模块是否发生故障。
步骤S310:所述备用SAS扩展模块通过所述中间件向所述控制器/备用控制器发送故障信息;
若检测到SAS扩展模块故障,则由备用SAS扩展模块通过中间件向控制器/备用控制器发送故障信息,控制器/备用控制器在接收到备用SAS扩展模块发送的故障信息后,将决定是否由该备用SAS扩展模块代替该SAS扩展模块继续进行工作,若控制器/备用控制器决定由该备用SAS扩展模块代替该SAS扩展模块继续进行工作,则将向备用SAS扩展模块发送工作指令,并向多路选择器发送切换指令。
步骤S320:多路选择器判断是否接收到所述控制器/备用控制器发送的切换指令,若接收到,则进入步骤S330;
步骤S330:切换所述多路选择器的第二端通过I2C接口与所述备用SAS扩展模块相连;
若多路选择器接收到控制器/备用控制器发送的切换指令,则该多路选择器将切换其第二端通过I2C接口与备用SAS扩展模块相连,在该多路选择器将切换其第二端通过I2C接口与备用SAS扩展模块相连后,该备用SAS扩展模块将通过I2C接口依次与多路选择器、CPLD和硬盘模块相连,同时SAS扩展模块将中断与CPLD和硬盘模块的连接关系。
步骤S340:所述备用SAS扩展模块判断是否接收到所述控制器/备用控制器发送的工作指令,若接收到,则进入步骤S350;
步骤S350:所述备用SAS扩展模块检测所述硬盘模块中是否存在故障SAS硬盘,当检测到故障SAS硬盘时,通过所述CPLD调用GPIO对所述故障SAS硬盘进行复位,并通过所述中间件向所述控制器发送操作信息。
若备用SAS扩展模块接收到控制器/备用控制器发送的工作指令,则该备用SAS扩展模块将代替该SAS扩展模块继续进行工作。即该备用SAS扩展模块将代替该SAS扩展模块继续检测硬盘模块中是否存在故障SAS硬盘,当检测到故障SAS硬盘时,通过CPLD调用GPIO对故障SAS硬盘进行复位,并通过所述中间件向所述控制器发送操作信息。
本发明实施例提供的硬盘故障处理方法,减少了管理人员的工作量,管理人员将具有较高的工作效率和较低的出错率,且降低了管理人员对正常硬盘进行误插拔操作的可能。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的方法而言,由于其与实施例公开的系统相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种硬盘故障处理系统,其特征在于,包括:控制器、中间件、SAS扩展模块、CPLD和硬盘模块,所述硬盘模块包括至少一个SAS硬盘;其中,
所述SAS扩展模块的第一端通过I2C接口与所述CPLD和硬盘模块依次相连,第二端通过SAS接口与所有所述SAS硬盘均相连,第三端通过所述中间件与所述控制器相连,用于检测所述硬盘模块中各SAS硬盘的工作状态,当检测到故障SAS硬盘时,通过所述CPLD调用GPIO对所述故障SAS硬盘进行复位,并通过所述中间件向所述控制器发送操作日志;
所述控制器,用于接收所述SAS扩展模块发送的操作日志,并根据所述操作日志统计所述SAS扩展模块对各所述SAS硬盘进行复位的次数,当存在复位的次数大于预设阈值的SAS硬盘时,发出警报。
2.根据权利要求1所述的硬盘故障处理系统,其特征在于,还包括:备用控制器;其中,
所述备用控制器与所述中间件相连,用于当所述控制器故障时,接收所述SAS扩展模块发送的操作日志,并根据所述操作日志统计所述SAS扩展模块对各所述SAS硬盘进行复位的次数,当存在复位的次数大于预设阈值的SAS硬盘时,发出警报。
3.根据权利要求2所述的硬盘故障处理系统,其特征在于,还包括:备用SAS扩展模块和多路选择器;其中,
所述多路选择器的第一端通过I2C接口与所述CPLD和硬盘模块依次相连,第二端通过I2C接口与所述SAS扩展模块相连,在接收到所述控制器/备用控制器发送的切换指令后,切换所述多路选择器的第二端通过I2C接口与所述备用SAS扩展模块相连;
所述备用SAS扩展模块的第一端通过I2C接口或UART接口与所述SAS扩展模块相连,第二端通过SAS接口与所有所述SAS硬盘均相连,第三端通过中间件与所述控制器相连,用于检测所述SAS扩展模块是否正常,当检测到所述SAS扩展模块故障时,通过所述中间件向所述控制器/备用控制器发送故障信息,在接收到所述控制器/备用控制器在接收到所述故障信息后返回的工作指令后,检测所述硬盘模块中是否存在故障SAS硬盘,当检测到故障SAS硬盘时,通过所述CPLD调用GPIO对所述故障SAS硬盘进行复位,并通过所述中间件向所述控制器发送操作信息;
所述控制器/备用控制器,还用于接收所述备用SAS扩展模块发送的故障信息,并在接收到所述故障信息后向所述备用SAS扩展模块发送工作指令和向所述多路选择器发送切换指令。
4.一种硬盘故障处理方法,其特征在于,基于权利要求1-3任一项所述的硬盘故障处理系统,包括:
SAS扩展模块检测硬盘模块中各SAS硬盘的工作状态,当检测到故障SAS硬盘时,通过CPLD调用GPIO对所述故障SAS硬盘进行复位,并通过中间件向控制器发送操作日志;
所述控制器在接收到所述SAS扩展模块发送的操作日志后,根据所述操作日志统计所述SAS扩展模块对各所述SAS硬盘进行复位的次数,当存在复位的次数大于预设阈值的SAS硬盘时,发出警报。
5.根据权利要求4所述的硬盘故障处理方法,其特征在于,所述SAS扩展模块通过CPLD调用GPIO对所述故障SAS硬盘进行复位包括:
所述SAS扩展模块确定所述故障SAS硬盘是否为高电平复位;
若是,则通过CPLD调用GPIO对所述故障SAS硬盘发送高电平,控制所述故障SAS硬盘进行复位;
若否,则通过CPLD调用GPIO对所述故障SAS硬盘发送低电平,控制所述故障SAS硬盘进行复位。
6.根据权利要求4所述的硬盘故障处理方法,其特征在于,所述SAS扩展模块通过CPLD调用GPIO对所述故障SAS硬盘进行复位后还包括:
检测所述控制器是否故障;
若未检测到所述控制器故障,则所述SAS扩展模块通过中间件向所述控制器发送操作日志;
若检测到所述控制器故障,则所述SAS扩展模块通过中间件向备用控制器发送操作日志。
7.根据权利要求6所述的硬盘故障处理方法,其特征在于,所述SAS扩展模块通过中间件向备用控制器发送操作日志后还包括:
所述备用控制器接收所述SAS扩展模块发送的操作日志,并根据所述操作日志统计所述SAS扩展模块对各所述SAS硬盘进行复位的次数,当存在复位的次数大于预设阈值的SAS硬盘时,发出警报。
8.根据权利要求6所述的硬盘故障处理方法,其特征在于,所述SAS扩展模块检测所述硬盘模块中各SAS硬盘的工作状态前还包括:
通过备用SAS扩展模块检测所述SAS扩展模块是否故障;
若检测到所述SAS扩展模块故障,则所述备用SAS扩展模块通过所述中间件向所述控制器/备用控制器发送故障信息。
9.根据权利要求8所述的硬盘故障处理方法,其特征在于,所述备用SAS扩展模块通过所述中间件向所述控制器/备用控制器发送故障信息后还包括:
多路选择器判断是否接收到所述控制器/备用控制器发送的切换指令;
若接收到,则切换所述多路选择器的第二端通过I2C接口与所述备用SAS扩展模块相连。
10.根据权利要求9所述的硬盘故障处理方法,其特征在于,所述切换所述多路选择器的第二端通过I2C接口与所述备用SAS扩展模块相连后还包括:
所述备用SAS扩展模块判断是否接收到所述控制器/备用控制器发送的工作指令;
若接收到,则检测所述硬盘模块中是否存在故障SAS硬盘,当检测到故障SAS硬盘时,通过所述CPLD调用GPIO对所述故障SAS硬盘进行复位,并通过所述中间件向所述控制器发送操作信息。
CN201610082840.6A 2016-02-05 2016-02-05 一种硬盘故障处理系统和方法 Pending CN105760247A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610082840.6A CN105760247A (zh) 2016-02-05 2016-02-05 一种硬盘故障处理系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610082840.6A CN105760247A (zh) 2016-02-05 2016-02-05 一种硬盘故障处理系统和方法

Publications (1)

Publication Number Publication Date
CN105760247A true CN105760247A (zh) 2016-07-13

Family

ID=56329690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610082840.6A Pending CN105760247A (zh) 2016-02-05 2016-02-05 一种硬盘故障处理系统和方法

Country Status (1)

Country Link
CN (1) CN105760247A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943658A (zh) * 2017-11-28 2018-04-20 郑州云海信息技术有限公司 一种在Linux系统下获取SAS卡故障日志的方法与系统
CN108197457A (zh) * 2017-12-20 2018-06-22 新华三技术有限公司 硬盘安全控制方法及装置
CN108256359A (zh) * 2018-01-22 2018-07-06 郑州云海信息技术有限公司 一种存储硬盘供电保护系统及保护方法
CN108287770A (zh) * 2018-03-01 2018-07-17 联想(北京)有限公司 电子设备、信息处理方法及可读存储介质
CN108363380A (zh) * 2017-01-26 2018-08-03 英飞凌科技股份有限公司 传感器控制器和传感器信号接收器及其方法
CN109189627A (zh) * 2018-10-08 2019-01-11 郑州云海信息技术有限公司 一种硬盘故障监控检测方法、装置、终端及存储介质
WO2019128673A1 (zh) * 2017-12-29 2019-07-04 华为技术有限公司 硬盘闪断的处理方法、装置、设备和存储介质
CN112131151A (zh) * 2020-10-29 2020-12-25 苏州浪潮智能科技有限公司 一种服务器及其存储设备
CN113204466A (zh) * 2021-04-29 2021-08-03 山东英信计算机技术有限公司 一种过温保护方法和电子设备
CN113254247A (zh) * 2021-05-14 2021-08-13 山东英信计算机技术有限公司 一种服务器bmc i2c异常恢复方法及相关装置
CN117971608A (zh) * 2024-03-29 2024-05-03 苏州元脑智能科技有限公司 一种硬盘日志的获取方法、发送方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915268A (zh) * 2012-10-19 2013-02-06 上海斐讯数据通信技术有限公司 一种区分设备复位原因并记录复位历史的电路
CN103870367A (zh) * 2012-12-07 2014-06-18 鸿富锦精密工业(深圳)有限公司 Sas扩展卡自动切换系统及方法
CN104123213A (zh) * 2014-08-08 2014-10-29 浪潮电子信息产业股份有限公司 一种sas硬盘背板远程管理系统
CN104123246A (zh) * 2013-04-23 2014-10-29 鸿富锦精密工业(深圳)有限公司 接口扩展装置及串行连接接口扩展器
CN104636221A (zh) * 2013-11-12 2015-05-20 研祥智能科技股份有限公司 一种计算机系统故障处理方法和装置
CN105045688A (zh) * 2015-08-17 2015-11-11 山东超越数控电子有限公司 一种带管理功能的双活双控存储系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915268A (zh) * 2012-10-19 2013-02-06 上海斐讯数据通信技术有限公司 一种区分设备复位原因并记录复位历史的电路
CN103870367A (zh) * 2012-12-07 2014-06-18 鸿富锦精密工业(深圳)有限公司 Sas扩展卡自动切换系统及方法
CN104123246A (zh) * 2013-04-23 2014-10-29 鸿富锦精密工业(深圳)有限公司 接口扩展装置及串行连接接口扩展器
CN104636221A (zh) * 2013-11-12 2015-05-20 研祥智能科技股份有限公司 一种计算机系统故障处理方法和装置
CN104123213A (zh) * 2014-08-08 2014-10-29 浪潮电子信息产业股份有限公司 一种sas硬盘背板远程管理系统
CN105045688A (zh) * 2015-08-17 2015-11-11 山东超越数控电子有限公司 一种带管理功能的双活双控存储系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王凤禄: "SAS通道技术", 《计算机与网络》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363380A (zh) * 2017-01-26 2018-08-03 英飞凌科技股份有限公司 传感器控制器和传感器信号接收器及其方法
CN107943658A (zh) * 2017-11-28 2018-04-20 郑州云海信息技术有限公司 一种在Linux系统下获取SAS卡故障日志的方法与系统
CN107943658B (zh) * 2017-11-28 2020-05-15 苏州浪潮智能科技有限公司 一种在Linux系统下获取SAS卡故障日志的方法与系统
CN108197457A (zh) * 2017-12-20 2018-06-22 新华三技术有限公司 硬盘安全控制方法及装置
CN108197457B (zh) * 2017-12-20 2021-04-06 新华三技术有限公司 硬盘安全控制方法及装置
WO2019128673A1 (zh) * 2017-12-29 2019-07-04 华为技术有限公司 硬盘闪断的处理方法、装置、设备和存储介质
CN108256359A (zh) * 2018-01-22 2018-07-06 郑州云海信息技术有限公司 一种存储硬盘供电保护系统及保护方法
CN108256359B (zh) * 2018-01-22 2021-10-26 郑州云海信息技术有限公司 一种存储硬盘供电保护系统及保护方法
CN108287770B (zh) * 2018-03-01 2020-12-18 联想(北京)有限公司 电子设备、信息处理方法及可读存储介质
CN108287770A (zh) * 2018-03-01 2018-07-17 联想(北京)有限公司 电子设备、信息处理方法及可读存储介质
CN109189627A (zh) * 2018-10-08 2019-01-11 郑州云海信息技术有限公司 一种硬盘故障监控检测方法、装置、终端及存储介质
CN109189627B (zh) * 2018-10-08 2021-10-22 郑州云海信息技术有限公司 一种硬盘故障监控检测方法、装置、终端及存储介质
CN112131151A (zh) * 2020-10-29 2020-12-25 苏州浪潮智能科技有限公司 一种服务器及其存储设备
CN113204466A (zh) * 2021-04-29 2021-08-03 山东英信计算机技术有限公司 一种过温保护方法和电子设备
CN113204466B (zh) * 2021-04-29 2022-11-18 山东英信计算机技术有限公司 一种过温保护方法和电子设备
CN113254247A (zh) * 2021-05-14 2021-08-13 山东英信计算机技术有限公司 一种服务器bmc i2c异常恢复方法及相关装置
CN117971608A (zh) * 2024-03-29 2024-05-03 苏州元脑智能科技有限公司 一种硬盘日志的获取方法、发送方法、装置、设备及介质
CN117971608B (zh) * 2024-03-29 2024-06-07 苏州元脑智能科技有限公司 一种硬盘日志的获取方法、发送方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN105760247A (zh) 一种硬盘故障处理系统和方法
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
US7565567B2 (en) Highly available computing platform
CN100388217C (zh) 用于通信系统中的动态阈值缩放的方法和系统
US10095576B2 (en) Anomaly recovery method for virtual machine in distributed environment
CN109143954B (zh) 一种实现控制器复位的系统及方法
CN110581852A (zh) 一种高效型拟态防御系统及方法
US8037352B2 (en) Method for auto power restoration
CN103812675A (zh) 一种实现业务交付平台异地容灾切换的方法和系统
CN104036043A (zh) 一种mysql高可用的方法及管理节点
CN101799776A (zh) 多核处理器故障处理方法、多核处理器及通信设备
US6839866B2 (en) System and method for the use of reset logic in high availability systems
CN104734979A (zh) 一种路由器外接存储设备的控制方法
CN102404141A (zh) 一种告警抑制的方法及装置
CN104469699A (zh) 集群仲裁方法和多集群配合系统
CN111399879A (zh) 一种cpld的固件升级系统和方法
CN105068763B (zh) 一种针对存储故障的虚拟机容错系统和方法
US11704180B2 (en) Method, electronic device, and computer product for storage management
CN103577284B (zh) 非透明桥芯片的异常检测与恢复方法
CN114675998A (zh) 一种监控定时快照任务的方法、装置、设备及介质
CN102662787A (zh) 一种保护系统盘raid的方法
CN101938365A (zh) 以太网中的故障处理方法和装置
CN111880992B (zh) 一种存储设备中控制器状态的监测及维护方法
CN105786632A (zh) 掉电保护方法、装置及其系统
CN111078454A (zh) 一种云平台配置恢复方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160713