CN117407200A - 一种硬盘的管理方法、系统、装置及主机 - Google Patents

一种硬盘的管理方法、系统、装置及主机 Download PDF

Info

Publication number
CN117407200A
CN117407200A CN202311269303.9A CN202311269303A CN117407200A CN 117407200 A CN117407200 A CN 117407200A CN 202311269303 A CN202311269303 A CN 202311269303A CN 117407200 A CN117407200 A CN 117407200A
Authority
CN
China
Prior art keywords
expander
hard disk
physical link
state
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311269303.9A
Other languages
English (en)
Inventor
季树荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Metabrain Intelligent Technology Co Ltd
Original Assignee
Suzhou Metabrain Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Metabrain Intelligent Technology Co Ltd filed Critical Suzhou Metabrain Intelligent Technology Co Ltd
Priority to CN202311269303.9A priority Critical patent/CN117407200A/zh
Publication of CN117407200A publication Critical patent/CN117407200A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0635Configuration or reconfiguration of storage systems by changing the path, e.g. traffic rerouting, path reconfiguration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0653Monitoring storage devices or systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0661Format or protocol conversion arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种硬盘的管理方法及相关组件,涉及链路监测领域,包括获取扩展器发送的物理链路的状态信息,物理链路包括处理器与扩展器之间的物理链路及扩展器与硬盘之间的物理链路,状态信息包括物理链路的使能状态及连接状态;根据物理链路的状态信息确定硬盘的工作状态及扩展器的工作状态是否正常;在硬盘工作状态异常时,控制扩展器与硬盘断开连接;在扩展器工作状态异常时,与扩展器断开连接。通过获取扩展器发送的物理链路的状态信息,若与扩展器连接的硬盘工作状态异常,则断开与硬盘的连接以防止单个硬盘的故障扩散。若扩展器本身工作状态异常,则断开与扩展器的连接,防止扩展器执行错误指令,影响存储系统的安全运行。

Description

一种硬盘的管理方法、系统、装置及主机
技术领域
本发明涉及链路监测领域,特别是涉及一种硬盘的管理方法、系统、装置及主机。
背景技术
存储系统的主要功能是提供一套安全可靠的数据管理系统,一般需要通过扩展器去进行硬盘管理,处理器与扩展器连接,扩展器与中板连接,中板上设置有多个硬盘。扩展器监测硬盘的状态信息,并将状态信息发送到处理器中,以供处理器状态信息进行相应的处理,维护整个存储系统的安全运行。那么,扩展器与处理器及硬盘之间的连接影响存储系统的正常运行,因此提供一种基于扩展器的硬盘的管理方法对于存储系统的正常运行是十分重要的。
发明内容
本发明的目的是提供一种硬盘的管理方法、系统、装置及主机,若与扩展器连接的硬盘工作状态异常,则断开与硬盘的连接以防止单个硬盘的故障扩散。若扩展器本身工作状态异常,则断开与扩展器的连接,防止扩展器执行错误指令,影响存储系统的安全运行。
为解决上述技术问题,本发明提供了一种硬盘的管理方法,包括:
获取扩展器发送的物理链路的状态信息,所述物理链路包括处理器与所述扩展器之间的物理链路及所述扩展器与硬盘之间的物理链路,所述状态信息包括所述物理链路的使能状态及连接状态;
根据所述物理链路的状态信息确定所述硬盘的工作状态及所述扩展器的工作状态是否正常;
在所述硬盘工作状态异常时,控制所述扩展器与所述硬盘断开连接;
在所述扩展器工作状态异常时,与所述扩展器断开连接。
另一方面,根据所述物理链路的状态信息确定所述硬盘的工作状态是否正常,包括:
在所述硬盘与所述扩展器之间的所述物理链路连接完整且可以进行数据传输时,确定所述硬盘的工作状态正常。
另一方面,还包括:
获取所述扩展器发送的物理链路的链路连接变化次数及带宽;
其中,所述链路连接变化次数为所述物理链路的断开次数与连接次数的和,所述带宽表征所述物理链路可提供的带宽;
控制所述扩展器与所述硬盘断开连接之前,还包括:
在所述扩展器与所述硬盘之间的物理链路的可提供的带宽异常且链路连接变化次数超过变化阈值,则确定所述硬盘的工作状态异常,进入控制所述扩展器与所述硬盘断开连接的步骤。
另一方面,还包括:
获取所述扩展器根据所述处理器发送的指令返回的结果;
确定所述返回的结果为错误的次数;
与所述扩展器断开连接之前,还包括:
在所述错误的次数超过错误阈值时,确定所述扩展器的工作状态异常,进入与所述扩展器断开连接的步骤。
另一方面,在所述扩展器与多个硬盘连接,且与每个硬盘之间均存在一条物理链路时,根据所述物理链路的状态信息确定所述扩展器的工作状态是否正常,包括:
若所述扩展器与所述硬盘之间的物理链路的使能状态及连接状态存在异常,则确定与所述硬盘的工作状态异常;
确定与所述扩展器连接的硬盘的工作状态为异常的硬盘数量;
若所述硬盘数量超过故障阈值,则确定所述扩展器的工作状态异常。
另一方面,在所述处理器与所述扩展器之间的物理链路为多条时,获取扩展器发送的物理链路的状态信息,包括:
获取扩展器发送的所述处理器与所述扩展器之间的每条所述物理链路的使能状态及连接状态;
根据所述物理链路的状态信息确定所述扩展器的工作状态是否正常,包括:
若存在所述物理链路的使能状态及连接状态异常,则确定所述扩展器的工作状态异常;
若所有的所述物理链路的使能状态及连接状态均正常,则确定所述扩展器的工作状态正常。
为解决上述技术问题,本发明还提供了一种硬盘的管理系统,包括:
状态信息获取单元,用于获取扩展器发送的物理链路的状态信息,处理器与所述扩展器通过所述物理链路连接,所述扩展器与硬盘通过物理链路连接,所述状态信息包括所述物理链路的使能状态及连接状态;
工作状态判定单元,用于根据所述物理链路的状态信息确定所述硬盘的工作状态及所述扩展器的工作状态是否正常;
第一断开单元,用于在所述硬盘工作状态异常时,控制所述扩展器与所述硬盘断开连接;
第二断开单元,用于在所述扩展器工作状态异常时,与所述扩展器断开连接。
为解决上述技术问题,本发明还提供了一种硬盘的管理装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述硬盘的管理方法的步骤。
为解决上述技术问题,本发明还提供了一种主机,包括上述的硬盘的管理装置,还包括扩展器及硬盘;
所述硬盘的管理装置中的处理器与所述扩展器通过物理链路连接,所述扩展器与每个所述硬盘通过物理链路连接。
为解决上述技术问题,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述硬盘的管理方法的步骤。
本申请提供了一种硬盘的管理方法及相关组件,涉及链路监测领域,包括获取扩展器发送的物理链路的状态信息,物理链路包括处理器与扩展器之间的物理链路及扩展器与硬盘之间的物理链路,状态信息包括物理链路的使能状态及连接状态;根据物理链路的状态信息确定硬盘的工作状态及扩展器的工作状态是否正常;在硬盘工作状态异常时,控制扩展器与硬盘断开连接;在扩展器工作状态异常时,与扩展器断开连接。通过获取扩展器发送的物理链路的状态信息,若与扩展器连接的硬盘工作状态异常,则断开与硬盘的连接以防止单个硬盘的故障扩散。若扩展器本身工作状态异常,则断开与扩展器的连接,防止扩展器执行错误指令,影响存储系统的安全运行。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种硬盘的管理方法的流程图;
图2为本发明提供的一种踢盘的流程图;
图3为本发明提供的一种硬盘的管理系统的结构示意图;
图4为本发明提供的一种硬盘的管理装置的结构示意图;
图5为本发明提供的一种主机的结构示意图。
具体实施方式
本发明的核心是提供一种一种硬盘的管理方法及相关组件,防止单个硬盘的故障扩散,防止扩展器执行错误指令,影响存储系统的安全运行。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
存储系统的主要功能是提供一套安全可靠的数据管理系统,一般需要通过扩展器去进行硬盘管理,处理器与扩展器连接,扩展器与中板连接,中板上设置有多个硬盘。扩展器监测硬盘的状态信息,并将状态信息发送到处理器中,以供处理器状态信息进行相应的处理,维护整个存储系统的安全运行。那么,扩展器与处理器及硬盘之间的连接影响存储系统的正常运行,因此提供一种基于扩展器的硬盘的管理方法对于存储系统的正常运行是十分重要的。
图1为本发明提供的一种硬盘的管理方法的流程图,该硬盘的管理方法包括:
S11:获取扩展器发送的物理链路的状态信息,物理链路包括处理器与扩展器之间的物理链路及扩展器与硬盘之间的物理链路,状态信息包括物理链路的使能状态及连接状态;
处理器与扩展器之间通过物理链路PHY(Port Physical Layer,端口物理层)连接,扩展器与硬盘之间同样通过物理链路连接,可以理解的是物理链路的状态决定着处理器与扩展器及扩展器与硬盘之间的数据传输是否正常,进而影响存储系统的正常运行。
处理器与扩展器(expander)之间还需要设置一个协议转换器,由于处理器为PCIE(Peripheral Component Interconnect Express,高速串行计算机扩展总线标准)协议,而扩展器与硬盘之间为SAS(Serial Attached SCSI,串行连接SCSI接口)协议,SCSI(SmallComputer System Interface,小型计算机系统接口)。所以处理器与硬盘之间的协议不相同,无法直接传输数据,所以通过协议转换器对处理器以及扩展器之间传输的数据进行协议转换。
物理链路的状态可以包括连接是否完整,例如连接在处理器与扩展器之间的物理链路是否与处理器及扩展器连接上;还可以包括使能状态是否正常,可以理解的是使能物理链路后,物理链路才可以进行数据传输,所以使能状态与连接状态同时对于物理链路是否能正常传输数据起到重要的作用。
S12:根据物理链路的状态信息确定硬盘的工作状态及扩展器的工作状态是否正常;
如果物理链路的状态信息例如连接状态异常或使能状态异常,说明该物理链路不能进行传输数据。若处理器与扩展器之间的物理链路异常,则处理器与扩展器之间不能传输数据,该扩展器连接的多个硬盘也就不能被处理器进行使用,此时就认定扩展器的工作状态异常,存储系统的稳定性受到影响。
同样的,如果扩展器与硬盘之间的物理链路异常,则扩展器与硬盘之间不能传输数据,处理器也就无法通过扩展器使用该硬盘,此时就认定该硬盘的工作状态异常,存储系统的稳定性同样受到影响。
S13:在硬盘工作状态异常时,控制扩展器与硬盘断开连接;
可以理解的是,如果一个硬盘出现故障时,有可能会影响其他硬盘与扩展器的正常交互,进而引起故障扩散。所以在确定一个硬盘的工作状态异常时,需要及时控制扩展器与该硬盘断开连接,扩展器连接的其他硬盘还可以继续被使用,不会影响其他硬盘的正常工作。具体的,断开连接的方式可以为发送不使能指令至扩展器与硬盘之间的物理链路,即控制扩展器与该硬盘之间的物理链路不使能,进而踢掉该硬盘。
S14:在扩展器工作状态异常时,与扩展器断开连接。
可以理解的是,如果一个扩展器出现故障,那么与该扩展器连接的所有硬盘均不能给控制器调用,进而无法使用硬盘进行数据存储,影响存储系统的稳定性。所以当一个扩展器出现故障时,处理器会断开与该扩展器的连接,不使用该扩展器与硬盘进行数据交互。具体的,断开连接的方式可以为发送不使能指令至处理器与该扩展器之间的物理链路,即控制处理器与该扩展器之间的物理链路不使能,进而踢掉该扩展器。
此外,还需要说明的是,在存储系统中,扩展器的数量不止一个,往往使用双控冗余的控制策略,即使用两个扩展器对硬盘进行控制,当其中一个扩展器工作异常,则会与该扩展器断开连接,通过另一个工作状态正常的扩展器对硬盘进行控制。但是控制策略也有双控冗余变成了单控运行,影响存储系统的安全运行。
本申请提供了一种硬盘的管理方法,涉及链路监测领域,包括获取扩展器发送的物理链路的状态信息,物理链路包括处理器与扩展器之间的物理链路及扩展器与硬盘之间的物理链路,状态信息包括物理链路的使能状态及连接状态;根据物理链路的状态信息确定硬盘的工作状态及扩展器的工作状态是否正常;在硬盘工作状态异常时,控制扩展器与硬盘断开连接;在扩展器工作状态异常时,与扩展器断开连接。通过获取扩展器发送的物理链路的状态信息,若与扩展器连接的硬盘工作状态异常,则断开与硬盘的连接以防止单个硬盘的故障扩散。若扩展器本身工作状态异常,则断开与扩展器的连接,防止扩展器执行错误指令,影响存储系统的安全运行。
在上述实施例的基础上:
在一些实施例中,根据物理链路的状态信息确定硬盘的工作状态是否正常,包括:
在硬盘与扩展器之间的物理链路连接完整且可以进行数据传输时,确定硬盘的工作状态正常。
使能状态表征物理链路是否可以进行数据传输,连接状态表征物理链路的连接是否完整,链路连接变化次数为物理链路的断开次数与连接次数的和,带宽表征物理链路可提供的带宽。
如上,如果物理链路的状态信息例如连接状态异常或使能状态异常,说明该物理链路不能进行传输数据。若处理器与扩展器之间的物理链路异常,则处理器与扩展器之间不能传输数据,该扩展器连接的多个硬盘也就不能被处理器进行使用,此时就认定扩展器的工作状态异常,存储系统的稳定性受到影响。
此外,链路连接变化次数为链路的断开次数和连接次数的和,即该链路断开一次,链路连接变化次数会加一,该链路再连接一次,链路连接变化次数依然会加一,可以理解的是物理链路连接越不稳定,越容易经常的断开连接,链路连接变化次数将会越大,所以链路连接变化次数表征链路的连接稳定程度。
带宽表征物理链路可提供的带宽,在物理链路状态正常时,可提供的带宽应为预设的数值,如果可提供的带宽异常,说明该条物理链路能传输的数据无法达到预期的数量,链路的稳定性也比较差。
综上,通过物理链路的使能状态、连接状态、链路连接变化次数及带宽可以确定物理链路的状态是否正常。
在一些实施例中,还包括:
获取扩展器发送的物理链路的链路连接变化次数及带宽;
其中,链路连接变化次数为物理链路的断开次数与连接次数的和,带宽表征物理链路可提供的带宽;
控制扩展器与硬盘断开连接之前,还包括:
在扩展器与硬盘之间的物理链路的可提供的带宽异常且链路连接变化次数超过变化阈值,则确定硬盘的工作状态异常,进入控制扩展器与硬盘断开连接的步骤。
假设扩展器的物理链路PHY1连接的外部器件为硬盘1,当PHY1的带宽异常,且链路连接变化次数超过变化阈值,处理器会下发对该硬盘1对应的物理链路PHY1的不使能指令,也就是俗称的踢盘,扩展器接收指令后会执行指令将该条物理链路PHY1进行不使能,以免该盘的异常影响其他盘的正常交互,引起故障扩散。
如果硬盘与扩展器之间频繁的断开连接再连接,证明扩展器与该硬盘之间并不适合传输数据,该条物理链路应该断开连接。由扩展器采集到的物理链路的状态信息发送至处理器,处理器确定当前的硬盘需要踢盘时,就会发送不使能指令至扩展器,进而扩展器控制该条物理链路不使能,即不能传输数据,不再使用该硬盘。
图2为本发明提供的一种踢盘的流程图;
连接器与硬盘之间通过物理链路连接,同时在获取物理链路的状态信息时需要预先进行协议协商,在协议协商通过后,硬盘会将物理链路的状态信息返回至扩展器,具体的硬盘会将物理链路的链路连接变化次数及带宽发送至扩展器,扩展器会记录该硬盘发送的信息即协商结果在内存中。扩展器后续会将该物理链路的状态信息上报至处理器,处理器接收到后会进行逻辑判断,如果该物理链路的链路连接变化次数超过变化阈值,则确定该物理链路不适合传输数据,需要断开连接,所以处理器会发送不使能指令至扩展器。扩展器在接收到不使能指令后会预先进行逻辑处理,确定该指令为不使能指令后,将目标物理链路置为不使能,进而该硬盘与扩展器之间的连接为虚线意为断开连接。扩展器与硬盘重新协商后得到的结果重新上传至处理器,以便处理器确定扩展器已经将该物理链路断开,保存该信息以便进行后续的处理。
还包括:扩展器还用于检测物理链路的SCSI指令的传输错误计数;
在确定传输错误计数超过预设次数时,主动修复与硬盘之间的物理链路。
扩展器通过监测SCSI指令的传输错误计数,来判断扩展器和硬盘盘之间指令交互的状态,增加主动修复方式,因为上述针对的是物理上的连接状态,但是指令质量的好坏有时并不是通过物理链路的状态可以表现的,因此在物理状态正常的状态下,扩展器主动通过判断SCSI指令的指令状况,执行对物理链路的SCSI指令传输通道的重置,进而主动去作出对物理链路的修复,减少物理链路持续恶化,导致物理链路物理状态异常需要处理器踢端口的情况。
具体的,扩展器与硬盘之间传输数据需要校验协议,扩展器通过物理链路发送SAS协议的文件,获取硬盘返回的数据,确定返回的数据是否有错误,进而确定SCSI指令的传输错误,错误出现时将SCSI指令的传输错误计数加一,如果SCSI指令的传输错误计数超过一定数值,将会重置该物理链路。
在一些实施例中,获取扩展器发送的物理链路的状态信息,包括:
获取扩展器根据处理器发送的指令返回的结果;
确定返回的结果为错误的次数;
与扩展器断开连接之前,还包括:
在错误的次数超过错误阈值时,确定扩展器的工作状态异常,进入与扩展器断开连接的步骤。
处理器与扩展器之间也会进行数据传输,传输的过程也需要按照协议进行发送数据或接收数据,如果控制器发送的指令后,扩展器返回的结果错误将会将错误的次数加一。
指令质量的好坏有时并不是通过物理链路的状态可以表现的,因此在物理状态正常的状态下,扩展器主动通过判断SCSI指令的指令状况,执行对物理链路的SCSI指令传输通道的重置,进而主动去作出对物理链路的修复,减少物理链路持续恶化,导致物理链路物理状态异常需要处理器踢端口的情况。
此外,在扩展器监测到宽端口中物理链路的SCSI指令的传输错误计数超过阈值,则扩展器进行主动修复,将故障物理链路重新使能,进行协议重新协商,进而达到修复异常物理链路的目的,在扩展器完成修复宽端口,以免处理器因为物理链路的异常而执行踢端口,致使存储系统进入单扩展器状态,双控制器的冗余策略失效。如果次数超过预设次数,处理器也会断开与扩展器的物理链路的连接。
在一些实施例中,在扩展器与多个硬盘连接,且与每个硬盘之间均存在一条物理链路时,根据物理链路的状态信息确定扩展器的工作状态是否正常,包括:
若扩展器与硬盘之间的物理链路的使能状态及连接状态存在异常,则确定硬盘的工作状态异常;
确定与扩展器连接的硬盘的工作状态为异常的硬盘数量;
若硬盘数量超过故障阈值,则确定扩展器的工作状态异常。
一个扩展器会连接多个硬盘,与每个硬盘之间均包括一个物理链路,扩展器会将每条物理链路的状态信息均发送至控制器,如果该扩展器与硬盘连接的物理链路正常,则证明该硬盘工作状态正常,如果该扩展器与硬盘连接的物理链路异常,则证明该硬盘工作状态异常。如果一个扩展器连接的硬盘中,处于工作状态的异常的硬盘数量超过故障阈值,则说明该扩展器可能出现了故障进而导致的与其连接的多个硬盘均出现状态异常,此时需要踢掉该扩展器,处理器发送不使能指令至该扩展器,以实现与扩展器之间的物理链路的断开。
扩展器在实际应用中往往会会接入12个硬盘或25个硬盘等等,若处理器统计的盘对应的物理链路异常的个数超过阈值,例如连接12个硬盘时如果有超过六个硬盘的物理链路均异常,处理器会认为该扩展器不可靠,会下发指令踢掉宽端口,即认为扩展器的工作状态异常。
在一些实施例中,在处理器与扩展器之间的物理链路为多条时,获取扩展器发送的物理链路的状态信息,包括:
获取扩展器发送的处理器与扩展器之间的每条物理链路的使能状态及连接状态;
根据物理链路的状态信息确定扩展器的工作状态是否正常,包括:
若存在物理链路的使能状态及连接状态异常,则确定扩展器的工作状态异常;
若所有的物理链路的使能状态及连接状态均正常,则确定扩展器的工作状态正常。
一个端口由一个或以上的物理链路组成,如果端口中只有一个物理链路,该端口被称为窄端口;如包括多余一个的物理链路,则称为宽端口。扩展器与处理器之间往往采用宽端口即有多条物理链路,扩展器与硬盘之间往往采用窄端口即与每个硬盘之间有一条物理链路。
以扩展器与处理器之间有四个物理链路为例,若四根物理链路中的一根物理链路或几根物理链路状态异常,就会向扩展器下发踢宽端口的指令,扩展器接收指令后,会将该宽端口对应的四根物理链路执行不使能的动作,处理器断开与该扩展器的物理连接,因为处理器判断与该扩展器的链路异常,若继续使用该扩展器管理硬盘,会因为物理链路异常引起其他不可控的结果,比如交互信息传输错误,导致扩展器错误执行处理器指令,影响整个存储系统的安全运行,因此需要断开连接,防止故障扩散到整个存储系统。
图3为本发明提供的一种硬盘的管理系统的结构示意图,该硬盘的管理系统包括:
状态信息获取单元21,用于获取扩展器发送的物理链路的状态信息,物理链路包括处理器与扩展器之间的物理链路及扩展器与硬盘之间的物理链路,状态信息包括物理链路的使能状态及连接状态;
工作状态判定单元22,用于根据物理链路的状态信息确定硬盘的工作状态及扩展器的工作状态是否正常;
第一断开单元23,用于在硬盘工作状态异常时,控制扩展器与硬盘断开连接;
第二断开单元24,用于在扩展器工作状态异常时,与扩展器断开连接。
处理器与扩展器之间通过物理链路PHY(Port Physical Layer,端口物理层)连接,扩展器与硬盘之间同样通过物理链路连接,可以理解的是物理链路的状态决定着处理器与扩展器及扩展器与硬盘之间的数据传输是否正常,进而影响存储系统的正常运行。
处理器与扩展器(expander)之间还需要设置一个协议转换器,由于处理器为PCIE(Peripheral Component Interconnect Express,高速串行计算机扩展总线标准)协议,而扩展器与硬盘之间为SAS(Serial Attached SCSI,串行连接SCSI接口)协议,SCSI(SmallComputer System Interface,小型计算机系统接口)。所以处理器与硬盘之间的协议不相同,无法直接传输数据,所以通过协议转换器对处理器以及扩展器之间传输的数据进行协议转换。
物理链路的状态可以包括连接是否完整,例如连接在处理器与扩展器之间的物理链路是否与处理器及扩展器连接上;还可以包括使能状态是否正常,可以理解的是使能物理链路后,物理链路才可以进行数据传输,所以使能状态与连接状态同时对于物理链路是否能正常传输数据起到重要的作用。
如果物理链路的状态信息例如连接状态异常或使能状态异常,说明该物理链路不能进行传输数据。若处理器与扩展器之间的物理链路异常,则处理器与扩展器之间不能传输数据,该扩展器连接的多个硬盘也就不能被处理器进行使用,此时就认定扩展器的工作状态异常,存储系统的稳定性受到影响。
同样的,如果扩展器与硬盘之间的物理链路异常,则扩展器与硬盘之间不能传输数据,处理器也就无法通过扩展器使用该硬盘,此时就认定该硬盘的工作状态异常,存储系统的稳定性同样受到影响。
可以理解的是,如果一个硬盘出现故障时,有可能会影响其他硬盘与扩展器的正常交互,进而引起故障扩散。所以在确定一个硬盘的工作状态异常时,需要及时控制扩展器与该硬盘断开连接,扩展器连接的其他硬盘还可以继续被使用,不会影响其他硬盘的正常工作。具体的,断开连接的方式可以为发送不使能指令至扩展器与硬盘之间的物理链路,即控制扩展器与该硬盘之间的物理链路不使能,进而踢掉该硬盘。
可以理解的是,如果一个扩展器出现故障,那么与该扩展器连接的所有硬盘均不能给控制器调用,进而无法使用硬盘进行数据存储,影响存储系统的稳定性。所以当一个扩展器出现故障时,处理器会断开与该扩展器的连接,不使用该扩展器与硬盘进行数据交互。具体的,断开连接的方式可以为发送不使能指令至处理器与该扩展器之间的物理链路,即控制处理器与该扩展器之间的物理链路不使能,进而踢掉该扩展器。
此外,还需要说明的是,在存储系统中,扩展器的数量不止一个,往往使用双控冗余的控制策略,即使用两个扩展器对硬盘进行控制,当其中一个扩展器工作异常,则会与该扩展器断开连接,通过另一个工作状态正常的扩展器对硬盘进行控制。但是控制策略也有双控冗余变成了单控运行,影响存储系统的安全运行。
本申请提供了一种硬盘的管理系统,涉及链路监测领域,包括获取扩展器发送的物理链路的状态信息,物理链路包括处理器与扩展器之间的物理链路及扩展器与硬盘之间的物理链路,状态信息包括物理链路的使能状态及连接状态;根据物理链路的状态信息确定硬盘的工作状态及扩展器的工作状态是否正常;在硬盘工作状态异常时,控制扩展器与硬盘断开连接;在扩展器工作状态异常时,与扩展器断开连接。通过获取扩展器发送的物理链路的状态信息,若与扩展器连接的硬盘工作状态异常,则断开与硬盘的连接以防止单个硬盘的故障扩散。若扩展器本身工作状态异常,则断开与扩展器的连接,防止扩展器执行错误指令,影响存储系统的安全运行。
在上述实施例的基础上:
工作状态判定单元22,具体用于在硬盘与扩展器之间的物理链路连接完整且可以进行数据传输时,确定硬盘的工作状态正常;
其中,使能状态表征物理链路是否可以进行数据传输,连接状态表征物理链路的连接是否完整,链路连接变化次数为物理链路的断开次数与连接次数的和,带宽表征物理链路可提供的带宽。
连接变化次数及带宽获取单元,用于获取扩展器发送的物理链路的链路连接变化次数及带宽;
其中,链路连接变化次数为物理链路的断开次数与连接次数的和,带宽表征物理链路可提供的带宽;
硬盘状态异常单元,用于在扩展器与硬盘之间的物理链路的可提供的带宽异常且链路连接变化次数超过变化阈值,则确定硬盘的工作状态异常,进入控制扩展器与硬盘断开连接的步骤。
状态信息获取单元21,具体用于获取扩展器根据处理器发送的指令返回的结果;
错误次数获取单元,用于确定返回的结果为错误的次数。
工作状态判定单元22,具体用于在错误的次数超过错误阈值时,确定扩展器的工作状态异常。
在扩展器与多个硬盘连接,且与每个硬盘之间均存在一条物理链路时,工作状态判定单元22,具体用于若扩展器与硬盘之间的物理链路的使能状态及连接状态存在异常,则确定硬盘的工作状态异常;
扩展器异常判定单元,用于若硬盘数量超过故障阈值,则确定扩展器的工作状态异常。
在处理器与扩展器之间的物理链路为多条时,状态信息获取单元21,具体用于获取扩展器发送的处理器与扩展器之间的每条物理链路的使能状态及连接状态;
工作状态判定单元22,具体用于若存在物理链路的使能状态及连接状态异常,则确定扩展器的工作状态异常;
扩展器正常判定单元,用于若所有的物理链路的使能状态及连接状态均正常,则确定扩展器的工作状态正常。
图4为本发明提供的一种硬盘的管理装置的结构示意图,该硬盘的管理装置包括:
存储器31,用于存储计算机程序;
处理器32,用于执行计算机程序时实现上述硬盘的管理方法的步骤。
本申请提供的硬盘的管理装置的介绍请参照上述实施例,在此处不再赘述。
图5为本发明提供的一种主机的结构示意图,该主机包括上述的硬盘2的管理装置,还包括扩展器1及硬盘2;
硬盘2的管理装置中的处理器32与扩展器1通过物理链路连接,扩展器1与每个硬盘2通过物理链路连接。
处理器32与扩展器1之间通过物理链路PHY(Port Physical Layer,端口物理层)连接,扩展器1与硬盘2之间同样通过物理链路连接,可以理解的是物理链路的状态决定着处理器32与扩展器1及扩展器1与硬盘2之间的数据传输是否正常,进而影响存储系统的正常运行。
处理器32与扩展器1(expander)之间还需要设置一个协议转换器4,由于处理器32为PCIE(Peripheral Component Interconnect Express,高速串行计算机扩展总线标准)协议,而扩展器1与硬盘2之间为SAS(Serial Attached SCSI,串行连接SCSI接口)协议,SCSI(Small Computer System Interface,小型计算机系统接口)。所以处理器32与硬盘2之间的协议不相同,无法直接传输数据,所以通过协议转换器4对处理器32以及扩展器1之间传输的数据进行协议转换。此外,扩展器1并不是直接与硬盘2连接的,而是扩展器1连接到中板3上,硬盘2设置在中板3上。
本申请提供的主机的介绍请参照上述实施例,在此处不再赘述。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种硬盘的管理方法,其特征在于,包括:
获取扩展器发送的物理链路的状态信息,所述物理链路包括处理器与所述扩展器之间的物理链路及所述扩展器与硬盘之间的物理链路,所述状态信息包括所述物理链路的使能状态及连接状态;
根据所述物理链路的状态信息确定所述硬盘的工作状态及所述扩展器的工作状态是否正常;
在所述硬盘工作状态异常时,控制所述扩展器与所述硬盘断开连接;
在所述扩展器工作状态异常时,与所述扩展器断开连接。
2.如权利要求1所述的硬盘的管理方法,其特征在于,根据所述物理链路的状态信息确定所述硬盘的工作状态是否正常,包括:
在所述硬盘与所述扩展器之间的所述物理链路连接完整且可以进行数据传输时,确定所述硬盘的工作状态正常。
3.如权利要求1所述的硬盘的管理方法,其特征在于,还包括:
获取所述扩展器发送的物理链路的链路连接变化次数及带宽;
其中,所述链路连接变化次数为所述物理链路的断开次数与连接次数的和,所述带宽表征所述物理链路可提供的带宽;
控制所述扩展器与所述硬盘断开连接之前,还包括:
在所述扩展器与所述硬盘之间的物理链路的可提供的带宽异常且链路连接变化次数超过变化阈值,则确定所述硬盘的工作状态异常,进入控制所述扩展器与所述硬盘断开连接的步骤。
4.如权利要求1所述的硬盘的管理方法,其特征在于,还包括:
获取所述扩展器根据所述处理器发送的指令返回的结果;
确定所述返回的结果为错误的次数;
与所述扩展器断开连接之前,还包括:
在所述错误的次数超过错误阈值时,确定所述扩展器的工作状态异常,进入与所述扩展器断开连接的步骤。
5.如权利要求1所述的硬盘的管理方法,其特征在于,在所述扩展器与多个硬盘连接,且与每个硬盘之间均存在一条物理链路时,根据所述物理链路的状态信息确定所述扩展器的工作状态是否正常,包括:
若所述扩展器与所述硬盘之间的物理链路的使能状态及连接状态存在异常,则确定所述硬盘的工作状态异常;
确定与所述扩展器连接的硬盘的工作状态为异常的硬盘数量;
若所述硬盘数量超过故障阈值,则确定所述扩展器的工作状态异常。
6.如权利要求1至5任一项所述的硬盘的管理方法,其特征在于,在所述处理器与所述扩展器之间的物理链路为多条时,获取扩展器发送的物理链路的状态信息,包括:
获取扩展器发送的所述处理器与所述扩展器之间的每条所述物理链路的使能状态及连接状态;
根据所述物理链路的状态信息确定所述扩展器的工作状态是否正常,包括:
若存在所述物理链路的使能状态及连接状态异常,则确定所述扩展器的工作状态异常;
若所有的所述物理链路的使能状态及连接状态均正常,则确定所述扩展器的工作状态正常。
7.一种硬盘的管理系统,其特征在于,包括:
状态信息获取单元,用于获取扩展器发送的物理链路的状态信息,所述物理链路包括处理器与所述扩展器之间的物理链路及所述扩展器与硬盘之间的物理链路,所述状态信息包括所述物理链路的使能状态及连接状态;
工作状态判定单元,用于根据所述物理链路的状态信息确定所述硬盘的工作状态及所述扩展器的工作状态是否正常;
第一断开单元,用于在所述硬盘工作状态异常时,控制所述扩展器与所述硬盘断开连接;
第二断开单元,用于在所述扩展器工作状态异常时,与所述扩展器断开连接。
8.一种硬盘的管理装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述硬盘的管理方法的步骤。
9.一种主机,其特征在于,包括如权利要求8所述的硬盘的管理装置,还包括扩展器及硬盘;
所述硬盘的管理装置中的处理器与所述扩展器通过物理链路连接,所述扩展器与每个所述硬盘通过物理链路连接。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述硬盘的管理方法的步骤。
CN202311269303.9A 2023-09-28 2023-09-28 一种硬盘的管理方法、系统、装置及主机 Pending CN117407200A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311269303.9A CN117407200A (zh) 2023-09-28 2023-09-28 一种硬盘的管理方法、系统、装置及主机

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311269303.9A CN117407200A (zh) 2023-09-28 2023-09-28 一种硬盘的管理方法、系统、装置及主机

Publications (1)

Publication Number Publication Date
CN117407200A true CN117407200A (zh) 2024-01-16

Family

ID=89495338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311269303.9A Pending CN117407200A (zh) 2023-09-28 2023-09-28 一种硬盘的管理方法、系统、装置及主机

Country Status (1)

Country Link
CN (1) CN117407200A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117785074A (zh) * 2024-02-28 2024-03-29 济南浪潮数据技术有限公司 一种输入输出超时处理的方法、装置、服务器及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117785074A (zh) * 2024-02-28 2024-03-29 济南浪潮数据技术有限公司 一种输入输出超时处理的方法、装置、服务器及介质

Similar Documents

Publication Publication Date Title
US7386760B2 (en) Method, system, and program for error handling in a dual adaptor system where one adaptor is a master
US20070288585A1 (en) Cluster system
CN117407200A (zh) 一种硬盘的管理方法、系统、装置及主机
JP2006504186A (ja) 複数の伝送路フェイルオーバー、フェイルバックおよび負荷分散を備えるシステム
US20060146809A1 (en) Method and apparatus for accessing for storage system
US20040073648A1 (en) Network calculator system and management device
KR100810551B1 (ko) 단말 장치, 단말 장치의 제어 방법, 네트워크 시스템과 그 제어 방법, 및 프로그램을 기록한 컴퓨터-판독가능한 기록 매체
CN111737037A (zh) 基板管理控制方法、主从异构bmc控制系统及存储介质
CA2699514A1 (en) Software method and system for controlling and observing computer networking devices
WO2019227836A1 (zh) 一种基于bmc的文件传输方法、装置、设备及介质
CN114884803B (zh) 多重冗余状态的处理方法、装置、设备和介质
WO2019227839A1 (zh) 一种基于bmc的文件传输方法、装置、设备及介质
CN114296995B (zh) 一种服务器自主修复bmc的方法、系统、设备及存储介质
JP6962243B2 (ja) コンピュータシステム
US6957361B2 (en) Method, system, and program for error handling in a dual adaptor system
JP2004110801A (ja) 再初期化したチャネル間接続の妥当性を検査するための技法
JP2002116920A (ja) クラスタシステム、クラスタシステムにおける監視方法およびコンピュータプログラム
US20130198377A1 (en) Control method, control system, information processing apparatus, and computer-readable non-transitory medium
CN112034774A (zh) 一种热冗余控制方法
US7724642B2 (en) Method and apparatus for continuous operation of a point-of-sale system during a single point-of-failure
KR100303344B1 (ko) 시스템이중화를위한프로토콜및시스템절체우선순위관리방법
CN112084074B (zh) 远程连线控制方法
US9213588B2 (en) Fault detection and identification in a multi-initiator system
JP2002373084A (ja) 二重化システムの状態交換・障害検出兼用方法
CN116701036A (zh) 一种bmc系统自动检测修复方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination