CN111143106A - 一种双端口ssd的修复方法、装置、设备和介质 - Google Patents

一种双端口ssd的修复方法、装置、设备和介质 Download PDF

Info

Publication number
CN111143106A
CN111143106A CN201911414830.8A CN201911414830A CN111143106A CN 111143106 A CN111143106 A CN 111143106A CN 201911414830 A CN201911414830 A CN 201911414830A CN 111143106 A CN111143106 A CN 111143106A
Authority
CN
China
Prior art keywords
ssd
repair
response
port
switch system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911414830.8A
Other languages
English (en)
Other versions
CN111143106B (zh
Inventor
钱海军
江博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201911414830.8A priority Critical patent/CN111143106B/zh
Publication of CN111143106A publication Critical patent/CN111143106A/zh
Application granted granted Critical
Publication of CN111143106B publication Critical patent/CN111143106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4004Coupling between buses
    • G06F13/4022Coupling between buses using switching circuits, e.g. switching matrix, connection or expansion network
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/04Detection or location of defective memory elements, e.g. cell constructio details, timing of test signals
    • G11C29/08Functional testing, e.g. testing during refresh, power-on self testing [POST] or distributed testing
    • G11C29/12Built-in arrangements for testing, e.g. built-in self testing [BIST] or interconnection details
    • G11C29/44Indication or identification of errors, e.g. for repair
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2213/00Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F2213/0026PCI express

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种双端口SSD的修复方法,包括:响应于检测到SSD故障,通知PCIe switch系统故障信息;响应于出现故障的SSD的数量小于设定值,PCIe switch系统关闭出现故障的SSD对应的PCIe链路的端口,并延时指定时间之后使能端口以对SSD进行第一次修复;响应于检测到SSD的第一次修复失败,对SSD重复预设次数的关闭并使能SSD对应的端口的操作以进行第二次修复;响应于检测到SSD的第二次修复失败,同步另一个控制器查看SSD的另一端口是否有数据传输;响应于另一端口无数据传输,PCIe switch系统对整个SSD进行一次下电操作和上电操作。本发明还公开了一种装置、设备和介质。本发明可以对不同的SSD故障状态做出相应的修复策略,保证了SSD能够稳定被存储系统识别。

Description

一种双端口SSD的修复方法、装置、设备和介质
技术领域
本发明涉及固态盘技术领域,更具体地,特别是指一种双端口SSD的修复方法、装置、设备和介质。
背景技术
随着数据时代的降临,数据数量的越来越多,对存储数据传输的速率要求也越来越高,全闪存应运而生。当然对存储系统的稳定性要求也越来越高。因此,需要一种用于处理SSD(Solid State Drives,固态盘)故障的方法或装置等以确保存储系统能正常的运行。
发明内容
有鉴于此,本发明实施例的目的在于提供一种双端口SSD的修复方法,用于修复NVMe(Non-Volatile Memory express,非易失性内存)SSD插拔过程或者系统升级过程出现的盘无法识别的问题。
基于上述目的,本发明一方面提供了一种双端口SSD的修复方法,该方法包括:响应于检测到SSD故障,通知PCIe switch系统故障信息;响应于出现故障的SSD的数量小于设定值,PCIe switch系统关闭出现故障的SSD对应的PCIe链路的端口,并延时指定时间之后使能端口以对SSD进行第一次修复;响应于检测到SSD的第一次修复失败,对SSD重复预设次数的关闭并使能SSD对应的端口的操作以进行第二次修复;响应于检测到SSD的第二次修复失败,同步另一个控制器查看SSD的另一端口是否有数据传输;响应于另一端口无数据传输,PCIe switch系统对整个SSD进行一次下电操作和上电操作。
在本发明的双端口SSD的修复方法的一些实施方式中,该方法还包括:响应于检测到出现故障的SSD数量大于等于设定值,复位SSD以及PCIe switch系统。
在本发明的双端口SSD的修复方法的一些实施方式中,SSD故障包括非易失性内存识别错误或者链接的带宽出现异常。
在本发明的双端口SSD的修复方法的一些实施方式中,响应于检测到SSD故障,通知PCIe switch系统故障信息还包括:通过PCIe链路向PCIe switch系统发送多区域数据处理中心数据以通知PCIe switch系统对SSD进行修复。
在本发明的双端口SSD的修复方法的一些实施方式中,响应于另一端口无数据传输,PCIe switch系统对整个SSD进行一次下电操作和上电操作还包括:在下电操作和上电操作之间间隔预设时间,并使能端口。
本发明实施例的另一方面,还提供了一种双端口SSD的修复装置,该装置包括:检测故障模块,检测故障模块配置为响应于检测到SSD故障,通知PCIe switch系统故障信息;第一修复模块,第一修复模块配置为响应于出现故障的SSD的数量小于设定值,PCIeswitch系统关闭出现故障的SSD对应的PCIe链路的端口,并延时指定时间之后使能端口以对SSD进行第一次修复;第二修复模块,第二修复模块配置为响应于检测到SSD的第一次修复失败,对SSD重复预设次数的关闭并使能SSD对应的端口的操作以进行第二次修复;第三修复模块,第三修复模块配置为响应于检测到SSD第二次修复失败,同步另一个控制器查看SSD的另一端口是否有数据传输;第四修复模块响,第四修复模块配置为响应于另一端口无数据传输,PCIe switch系统对整个SSD进行一次下电操作和上电操作。
在本发明的双端口SSD的修复的装置的一些实施方式中,该装置还包括:第五修复模块,第五修复模块配置为响应于检测到出现故障的SSD数量大于等于设定值,复位SSD以及PCIe switch系统。
在本发明的双端口SSD的修复的装置的一些实施方式中,检测故障模块还配置为:通过PCIe链路向PCIe switch系统发送多区域数据处理中心数据以通知PCIe switch系统对SSD进行修复。
本发明实施例的另一方面,还提供了一种计算机设备,该计算机设备包括:至少一个处理器;以及存储器,存储器存储有可在处理器上运行的计算机程序,处理器执行程序时执行前述的双端口SSD的修复方法。
本发明实施例的再一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,其特征在于,计算机程序被处理器执行时执行前述的双端口SSD的修复方法。
本发明至少具有以下有益技术效果:可以对修复SSD做出相应的策略并修复SSD,保证了SSD能够正常稳定的被存储系统识别,还解决了SSD单端口无法识别的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1示出了根据本发明的双端口SSD的修复方法的实施例的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
基于上述目的,本发明实施例的第一个方面,提出了一种双端口SSD的修复方法的实施例。图1示出的是根据本发明的双端口SSD的修复方法的实施例的示意图。如图1所示的实施例中,该方法至少包括如下步骤:
S100、响应于检测到SSD故障,通知PCIe switch系统故障信息;
S200、响应于出现故障的SSD的数量小于设定值,PCIe switch系统关闭出现故障的SSD对应的PCIe链路的端口,并延时指定时间之后使能端口以对SSD进行第一次修复;
S300、响应于检测到SSD的第一次修复失败,对SSD重复预设次数的关闭并使能SSD对应的端口的操作以进行第二次修复;
S400、响应于检测到SSD的第二次修复失败,同步另一个控制器查看SSD的另一端口是否有数据传输;
S500、响应于另一端口无数据传输,PCIe switch系统对整个SSD进行一次下电操作和上电操作。
在本发明的一些实施例中,存储智能管理软件用于数据处理和存储,PCIe switch系统用于扩展PCIe链路和管理存储系统。PCIe switch系统检测整个存储系统的电压、温度并控制风扇的转速用于调节存储系统的温度,并且协助存储智能管理软件管理NVMe SSD。
PCIe switch系统检测到存储智能管理软件发送过来的命令做出相应的动作,当少于3块SSD检测有问题时,发出重置命令并且unbind PCIe switch对应的PCIe的端口;延迟1s之后再使能SSD的PCIe链路的重置并bind PCIe对应的端口。此时PCIe switch检测NVMe SSD的链接状态,若是此时链接正常结束修复,并上报给存储智能管理软件修复完成。若是仍然不能修复,重复3次重置NVMe SSD并unbind、bind PCIe switch对应的端口。仍然不能修复时通知存储智能管理软件SSD修复失败,存储智能管理软件检测到SSD修复失败之后,同步另外一个正常的控制器查看SSD的另外一个端口是否有数据传输,若是无数据传输,则再次下发命令给PCIe switch对整个SSD进行一次上下电。PCIe switch接收到命令之后通过UART(Universal Asynchronous Receiver/Transmitter,通用异步收发传输器)同步命令给另外一个控制器的PCIe switch,同时对该SSD进行下电操作和上电操作并bindPCIe的端口。
根据本发明的双端口SSD的修复方法的一些实施方式,该方法还包括:
响应于检测到出现故障的SSD数量大于等于设定值,复位SSD以及PCIe switch系统。
在本发明的一些实施例中,若检查到出现问题的SSD大于3块盘时,复位SSD的同时复位PCIe switch。
根据本发明的双端口SSD的修复方法的一些实施方式,SSD故障包括:
非易失性内存识别错误或者链接的带宽出现异常。
在本发明的一些实施例中,当存储智能管理软件检测到NVMe识别错误或者link的带宽出现问题时通知PCIe switch系统对盘进行修复。
根据本发明的双端口SSD的修复方法的一些实施方式,响应于检测到SSD故障,通知PCIe switch系统故障信息还包括:
通过PCIe链路向PCIe switch系统发送多区域数据处理中心数据以通知PCIeswitch系统对SSD进行修复。
在本发明的一些实施例中,通过PCIe链路发送MRPC(MultiRegional ProcessingCenter,多区域处理中心)通知PCIe switch系统对盘进行修复。根据检测到系统无法识别盘的数量发出对应的命令。
根据本发明的双端口SSD的修复方法的一些实施方式,响应于另一端口无数据传输,PCIe switch系统对整个SSD进行一次下电操作和上电操作还包括:
在下电操作和上电操作之间间隔预设时间,并使能端口。
在本发明的一些实施例中,下电操作延迟1s之后再同时给SSD进行上电操作并bind PCIe的端口。
本发明实施例的另一方面,提出了一种双端口SSD的修复装置的实施例。该装置包括:
检测故障模块,检测故障模块配置为响应于检测到SSD故障,通知PCIe switch系统故障信息;
第一修复模块,第一修复模块配置为响应于出现故障的SSD的数量小于设定值,PCIe switch系统关闭出现故障的SSD对应的PCIe链路的端口,并延时指定时间之后使能端口以对SSD进行第一次修复;
第二修复模块,第二修复模块配置为响应于检测到SSD的第一次修复失败,对SSD重复预设次数的关闭并使能SSD对应的端口的操作以进行第二次修复;
第三修复模块,第三修复模块配置为响应于检测到SSD第二次修复失败,同步另一个控制器查看SSD的另一端口是否有数据传输;
第四修复模块响,第四修复模块配置为响应于另一端口无数据传输,PCIe switch系统对整个SSD进行一次下电操作和上电操作。
根据本发明的双端口SSD的修复装置的一些实施方式,该装置还包括:
第五修复模块,第五修复模块配置为响应于检测到出现故障的SSD数量大于等于设定值,复位SSD以及PCIe switch系统。
根据本发明的双端口SSD的修复装置的一些实施方式,检测故障模块还配置为:
通过PCIe链路向PCIe switch系统发送多区域数据处理中心数据以通知PCIeswitch系统对SSD进行修复。
基于上述目的,本发明实施例的另一方面,还提出了一种计算机设备,该计算机设备包括:至少一个处理器;以及存储器,存储器存储有可在处理器上运行的计算机程序,处理器执行程序时执行前述的双端口SSD的修复方法。
本发明实施例的再一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,其特征在于,计算机程序被处理器执行时执行前述的双端口SSD的修复方法。
同样地,本领域技术人员应当理解,以上针对根据本发明的双端口SSD的修复方法阐述的所有实施方式、特征和优势同样地适用于根据本发明的装置、计算机设备和介质。为了本公开的简洁起见,在此不再重复阐述。
需要特别指出的是,上述双端口SSD的修复方法、装置、设备和介质的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于双端口SSD的修复方法、装置、设备和介质也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在实施例之上。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,双端口SSD的修复方法的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,程序的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。
此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
此外,应该明白的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDRSDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里功能的下列部件来实现或执行:通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。
结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器,使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中,存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中,处理器和存储介质可以作为分立组件驻留在用户终端中。
在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (10)

1.一种双端口SSD的修复方法,其特征在于,所述方法包括:
响应于检测到SSD故障,通知PCIe switch系统故障信息;
响应于出现故障的所述SSD的数量小于设定值,所述PCIe switch系统关闭所述出现故障的所述SSD对应的PCIe链路的端口,并延时指定时间之后使能所述端口以对所述SSD进行第一次修复;
响应于检测到所述SSD的所述第一次修复失败,对所述SSD重复预设次数的关闭并使能所述SSD对应的所述端口的操作以进行第二次修复;
响应于检测到所述SSD的所述第二次修复失败,同步另一个控制器查看所述SSD的另一端口是否有数据传输;
响应于所述另一端口无数据传输,所述PCIe switch系统对整个所述SSD进行一次下电操作和上电操作。
2.根据权利要求1所述的双端口SSD的修复方法,其特征在于,所述方法还包括:
响应于检测到出现故障的所述SSD数量大于等于所述设定值,复位所述SSD以及所述PCIe switch系统。
3.根据权利要求1所述的双端口SSD的修复方法,其特征在于,所述SSD故障包括非易失性内存识别错误或者所述链接的带宽出现异常。
4.根据权利要求1所述的双端口SSD的修复方法,其特征在于,所述响应于检测到SSD故障,通知PCIe switch系统故障信息还包括:
通过所述PCIe链路向所述PCIe switch系统发送多区域数据处理中心数据以通知所述PCIe switch系统对所述SSD进行修复。
5.根据权利要求1所述的双端口SSD的修复方法,其特征在于,所述响应于所述另一端口无数据传输,所述PCIe switch系统对整个SSD进行一次下电操作和上电操作还包括:
在所述下电操作和所述上电操作之间间隔预设时间,并使能所述端口。
6.一种双端口SSD的修复装置,其特征在于,所述装置包括:
检测故障模块,所述检测故障模块配置为响应于检测到SSD故障,通知PCIe switch系统故障信息;
第一修复模块,所述第一修复模块配置为响应于出现故障的所述SSD的数量小于设定值,所述PCIe switch系统关闭所述出现故障的所述SSD对应的PCIe链路的端口,并延时指定时间之后使能所述端口以对所述SSD进行第一次修复;
第二修复模块,所述第二修复模块配置为响应于检测到所述SSD的第一次修复失败,对所述SSD重复预设次数的关闭并使能所述SSD对应的所述端口的操作以进行第二次修复;
第三修复模块,所述第三修复模块配置为响应于检测到SSD第二次修复失败,同步另一个控制器查看所述SSD的另一端口是否有数据传输;
第四修复模块响,所述第四修复模块配置为响应于所述另一端口无数据传输,所述PCIe switch系统对整个SSD进行一次下电操作和上电操作。
7.根据权利要求6所述的双端口SSD的修复装置,其特征在于,所述装置还包括:
第五修复模块,所述第五修复模块配置为响应于检测到出现故障的所述SSD数量大于等于所述设定值,复位所述SSD以及所述PCIe switch系统。
8.根据权利要求6所述的双端口SSD的修复装置,其特征在于,所述检测故障模块还配置为:
通过所述PCIe链路向所述PCIe switch系统发送多区域数据处理中心数据以通知所述PCIe switch系统对所述SSD进行修复。
9.一种计算机设备,其特征在于,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行如权利要求1-5任意一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时执行权利要求1-5任意一项所述的方法。
CN201911414830.8A 2019-12-31 2019-12-31 一种双端口ssd的修复方法、装置、设备和介质 Active CN111143106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911414830.8A CN111143106B (zh) 2019-12-31 2019-12-31 一种双端口ssd的修复方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911414830.8A CN111143106B (zh) 2019-12-31 2019-12-31 一种双端口ssd的修复方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN111143106A true CN111143106A (zh) 2020-05-12
CN111143106B CN111143106B (zh) 2023-01-06

Family

ID=70522773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911414830.8A Active CN111143106B (zh) 2019-12-31 2019-12-31 一种双端口ssd的修复方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN111143106B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625388A (zh) * 2020-05-28 2020-09-04 深圳忆联信息系统有限公司 Ssd前端错误处理方法、装置、计算机设备和存储介质
CN112214094A (zh) * 2020-09-18 2021-01-12 苏州浪潮智能科技有限公司 一种应对硬盘的电源发生抖动的方法和设备
CN112562774A (zh) * 2020-12-14 2021-03-26 深圳市网心科技有限公司 存储设备挂载方法、装置、计算机设备和存储介质
CN113114595A (zh) * 2021-04-08 2021-07-13 山东华芯半导体有限公司 一种双端口PCIe SSD链路容错装置及方法
CN113282449A (zh) * 2021-05-08 2021-08-20 山东英信计算机技术有限公司 一种jbof管理方法、装置、设备及可读介质
CN113868000A (zh) * 2021-09-03 2021-12-31 苏州浪潮智能科技有限公司 一种链路故障修复方法、系统及相关组件
CN114564334A (zh) * 2022-04-27 2022-05-31 苏州浪潮智能科技有限公司 一种mrpc数据处理方法、系统及相关组件

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110601905A (zh) * 2019-09-29 2019-12-20 苏州浪潮智能科技有限公司 一种故障检测方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110601905A (zh) * 2019-09-29 2019-12-20 苏州浪潮智能科技有限公司 一种故障检测方法和装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625388A (zh) * 2020-05-28 2020-09-04 深圳忆联信息系统有限公司 Ssd前端错误处理方法、装置、计算机设备和存储介质
CN111625388B (zh) * 2020-05-28 2023-07-04 深圳忆联信息系统有限公司 Ssd前端错误处理方法、装置、计算机设备和存储介质
CN112214094A (zh) * 2020-09-18 2021-01-12 苏州浪潮智能科技有限公司 一种应对硬盘的电源发生抖动的方法和设备
CN112562774A (zh) * 2020-12-14 2021-03-26 深圳市网心科技有限公司 存储设备挂载方法、装置、计算机设备和存储介质
CN112562774B (zh) * 2020-12-14 2024-02-23 深圳市网心科技有限公司 存储设备挂载方法、装置、计算机设备和存储介质
CN113114595A (zh) * 2021-04-08 2021-07-13 山东华芯半导体有限公司 一种双端口PCIe SSD链路容错装置及方法
CN113282449A (zh) * 2021-05-08 2021-08-20 山东英信计算机技术有限公司 一种jbof管理方法、装置、设备及可读介质
CN113868000A (zh) * 2021-09-03 2021-12-31 苏州浪潮智能科技有限公司 一种链路故障修复方法、系统及相关组件
CN113868000B (zh) * 2021-09-03 2023-07-18 苏州浪潮智能科技有限公司 一种链路故障修复方法、系统及相关组件
CN114564334A (zh) * 2022-04-27 2022-05-31 苏州浪潮智能科技有限公司 一种mrpc数据处理方法、系统及相关组件
CN114564334B (zh) * 2022-04-27 2022-07-22 苏州浪潮智能科技有限公司 一种mrpc数据处理方法、系统及相关组件

Also Published As

Publication number Publication date
CN111143106B (zh) 2023-01-06

Similar Documents

Publication Publication Date Title
CN111143106B (zh) 一种双端口ssd的修复方法、装置、设备和介质
CN111090545B (zh) 一种恢复故障cpld的方法、设备及介质
US11194679B2 (en) Method and apparatus for redundancy in active-active cluster system
WO2016101718A1 (zh) 数据补全方法和装置
CN111124722B (zh) 一种隔离故障内存的方法、设备及介质
CN111240595A (zh) 一种存储缓存优化的方法、系统、设备及介质
CN111858431B (zh) 一种基于pcie的扩展柜的热插拔方法、装置、设备和介质
CN110580235B (zh) 一种sas扩展器通信方法及装置
CN111090567A (zh) 一种链路告警方法、设备以及存储介质
CN111726246A (zh) 网卡绑定模式的主备网卡切换方法、装置和存储介质
US20160239390A1 (en) Disk preservation and failure prevention in a raid array
CN115291497A (zh) 一种功能应用的监控方法及车辆控制器系统
CN111030892B (zh) 一种测试bmc ncsi自适应模式下网络功能的方法、设备及介质
CN110049380B (zh) 一种基于bmc的交换机的温度控制方法、系统及可读介质
US20130151886A1 (en) Computing device and method for switching physical links of a sas expander of the computing device
CN111309553B (zh) 一种监控存储Jbod的方法、系统、设备及介质
CN111813606A (zh) 一种双节点虚拟机容错的方法、系统、设备及介质
CN111030851B (zh) 一种网络诊断恢复的管理方法、设备及可读介质
CN105260137B (zh) 在sas存储系统中实现hba卡访问sata磁盘的方法及设备
CN111181779A (zh) 一种集群故障转移性能的测试方法、设备以及存储介质
CN111193818A (zh) 一种获取ip地址的方法、系统、设备及介质
CN111045710A (zh) 一种基于IPMI命令的SAS-Expander固件升级的方法、设备及介质
CN110781042B (zh) 一种基于bmc检测ubm背板的方法、设备及介质
CN109254881B (zh) 一种基于热备冗余显示器故障的诊断方法和系统
CN111611135A (zh) 一种cpld或fpga信号处理的方法、装置、设备及可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant