CN109032863A - 一种NVMe固态硬盘及其故障原因的确定方法、系统 - Google Patents

一种NVMe固态硬盘及其故障原因的确定方法、系统 Download PDF

Info

Publication number
CN109032863A
CN109032863A CN201810797734.5A CN201810797734A CN109032863A CN 109032863 A CN109032863 A CN 109032863A CN 201810797734 A CN201810797734 A CN 201810797734A CN 109032863 A CN109032863 A CN 109032863A
Authority
CN
China
Prior art keywords
solid state
hard disk
state hard
flash controller
nvme solid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810797734.5A
Other languages
English (en)
Inventor
李鹏
郑志林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810797734.5A priority Critical patent/CN109032863A/zh
Publication of CN109032863A publication Critical patent/CN109032863A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2221Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test input/output devices or peripheral units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/04Detection or location of defective memory elements, e.g. cell constructio details, timing of test signals
    • G11C29/08Functional testing, e.g. testing during refresh, power-on self testing [POST] or distributed testing
    • G11C29/48Arrangements in static stores specially adapted for testing by means external to the store, e.g. using direct memory access [DMA] or using auxiliary access paths

Abstract

本申请公开了一种NVMe固态硬盘,所述NVMe固态硬盘包括:与主机连接,用于进行信息交互的所述U.2连接器;通过系统管理总线与U.2连接器连接的MCU;与所述MCU通过集成电路总线连接的Flash控制器;其中,所述Flash控制器的Debug接口通过所述系统管理总线与所述U.2连接器连接,以便当所述NVMe固态硬盘出现故障时所述主机利用所述Debug接口获取所述Flash控制器的日志信息。本申请能够在固态硬盘出现故障时进行快速诊断,提高对固态硬盘进行问题定位的效率。本申请还公开了一种NVMe固态硬盘故障原因的确定方法、系统及一种计算机可读存储介质,具有以上有益效果。

Description

一种NVMe固态硬盘及其故障原因的确定方法、系统
技术领域
本发明涉及数据存储领域,特别涉及一种NVMe固态硬盘、一种NVMe固态硬盘故障原因的确定方法、系统及一种计算机可读存储介质。
背景技术
进入21世纪以来,随着互联网的普及互联网上新产生的信息量与日俱增。互联网公司利用店庆等节日创造中日成效额上千亿的购物盛会,整点秒杀抢购限量的3C产品等都会使用户瞬间访问网站的数据量激增;为了能够满足大量用户瞬间访问网站不会瘫痪,数据中心会增加配置SSD(Solid State Drives,固态硬盘)的服务器数量,后端也会配备全闪存阵列。
随着SSD在数据中心的大量应用,其运维问题是相关IT人员面对的首要问题:当NVMe(Non-Volatile Memory Express,非易失性存储器标准)SSD同主机Host之间连接的接口PCIE(peripheral component interconnect express,高速串行计算机扩展总线标准)出故障时,或者SSD盘直接挂死,此时需要对SSD盘进行问题定位。现有技术中,对固态硬盘进行定位的方法为:从服务器或者全闪存阵列上将此固态硬盘拔下来,然后寄送给原厂,由原厂相关工程师将硬盘壳拆开,利用内部专用的Debug口进行问题的定位。现有技术中这种固态硬盘调试诊断的方法,周期长、效率低,无法快速的对固态硬盘进行问题定位。
因此,如何在固态硬盘出现故障时进行快速诊断,提高对固态硬盘进行问题定位的效率是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种NVMe固态硬盘、一种NVMe固态硬盘故障原因的确定方法、系统及一种计算机可读存储介质,能够在固态硬盘出现故障时进行快速诊断,提高对固态硬盘进行问题定位的效率。
为解决上述技术问题,本申请提供一种NVMe固态硬盘,该NVMe固态硬盘包括:
与主机连接,用于进行信息交互的所述U.2连接器;
通过系统管理总线与U.2连接器连接的MCU;
与所述MCU通过集成电路总线连接的Flash控制器;其中,所述Flash控制器的Debug接口通过所述系统管理总线与所述U.2连接器连接,以便当所述NVMe固态硬盘出现故障时所述主机利用所述Debug接口获取所述Flash控制器的日志信息。
可选的,所述MCU和所述Flash控制器之间设有心跳链路;
所述MCU用于根据所述心跳链路的信号控制所述Debug接口对应的开关模块的开关状态;其中,所述Debug接口通过所述开关模块与所述系统管理总线连接,当所述心跳链路的信号正常时,所述MCU控制所述开关模块断开;当所述心跳链路的信号异常时,所述MCU控制所述开关模块闭合,以便传输所述日志信息。
可选的,所述Flash控制器还通过PCIE链路与所述U.2连接器连接。
可选的,所述Flash控制器的NVMe外带管理接口通过所述系统管理总线与所述U.2连接器连接。
本申请还提供了一种NVMe固态硬盘故障原因的确定方法,该方法应用于如上述任一项所述的NVMe固态硬盘,所述方法包括:
检测所述NVMe固态硬盘与主机的连接状态;
当所述连接状态为连接超时时,判断所述NVMe固态硬盘与所述主机之间的信息交互是否中断;
若是,则通过系统管理总线从Debug接口获取Flash控制器的日志信息,并根据所述日志信息确定故障原因。
可选的,所述通过系统管理总线从Debug接口获取Flash控制器的日志信息包括:
当所述所述NVMe固态硬盘与所述主机之间的信息交互中断时,检测心跳链路的信号是否正常;
若否,则向所述系统管理总线的开关模块发送闭合指令,以使所述Debug接口接入所述系统管理总线;
通过所述系统管理总线从所述Debug接口获取所述Flash控制器的日志信息。
可选的,还包括:
通过所述Debug接口对Flash控制器进行在线排除程序故障操作得到内部寄存器的配置信息,以便利用所述配置信息确定所述故障原因。
本申请还提供了一种确定NVMe固态硬盘故障原因的系统,该系统应用于如上述任一项所述的NVMe固态硬盘,所述系统包括:
状态监测模块,用于检测所述NVMe固态硬盘与主机的连接状态;
判断模块,用于当所述连接状态为连接超时时,判断所述NVMe固态硬盘与所述主机之间的信息交互是否中断;
故障确定模块,用于当所述NVMe固态硬盘与所述主机之间的信息交互中断时,则通过系统管理总线从Debug接口获取Flash控制器的日志信息,并根据所述日志信息确定故障原因。
可选的,还包括:
故障排除模块,用于通过所述Debug接口对Flash控制器进行在线排除程序故障操作得到内部寄存器的配置信息,以便利用所述配置信息确定所述故障原因。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述NVMe固态硬盘故障原因的确定方法执行的步骤。
本发明提供了一种NVMe固态硬盘,包括:与主机连接,用于进行信息交互的所述U.2连接器;通过系统管理总线与U.2连接器连接的MCU;与所述MCU通过集成电路总线连接的Flash控制器;其中,所述Flash控制器的Debug接口通过所述系统管理总线与所述U.2连接器连接,以便当所述NVMe固态硬盘出现故障时所述主机利用所述Debug接口获取所述Flash控制器的日志信息。
本申请通过从Flash控制器的Debug接口引出系统管理总线,连接到U.2连接器上。当固态硬盘出现异常状况时,无法通过PCIE链路进行信息交互,但是由于系统管理总线与MCU连接,因此系统管理总线仍然可以传输信息,即固态硬盘出现故障时无法影响系统管理总线中的信息交互。采用本申请的固态硬盘,可以在固态硬盘出现异常状况时通过系统管理总线从Debug接口获取Flash控制器的日志信息,根据日志信息确定导致固态硬盘异常的原因。本申请能够在固态硬盘出现故障时进行快速诊断,提高对固态硬盘进行问题定位的效率。本申请能够在固态硬盘出现故障时进行快速诊断,提高对固态硬盘进行问题定位的效率。本申请同时还提供了一种NVMe固态硬盘故障原因的确定方法、系统及一种计算机可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种NVMe固态硬盘的结构示意图;
图2为本申请实施例所提供的另一种NVMe固态硬盘的结构示意图;
图3为本申请实施例所提供的NVMe固态硬盘故障原因的确定方法的流程图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面请参见图1,图1为本申请实施例所提供的一种NVMe固态硬盘的结构示意图。
具体步骤可以包括:
与主机400连接,用于进行信息交互的所述U.2连接器100;
通过系统管理总线与U.2连接器100连接的MCU200;
U.2连接器100是指具有U.2接口的连接器,NVMe固态硬盘使用U.2连接器100中除SAS和SATA之外的管脚。NVMe固态硬盘通过U.2连接器100与主机400之间的通信接口主要有PCIE和系统管理总线(SMbus)。NVMe固态硬盘包括Flash控制器(Flash controller)300和MCU(Microcontroller Unit,微控制单元)200。主机400通过U.2接口同NVMe固态硬盘的PCIE和系统管理总线接口分别进行数据和管理信息交互,其中系统管理总线接口主要用来对NVMe固态硬盘内部的Flash控制器300和MCU200来做带外管理接口和访问VPD(VitalProduct Data,产品关键数据)的功能。VPD主要包含产品的型号,容量,接口之类的一些信息。
与所述MCU200通过集成电路总线(Inter-Integrated Circuit,IIC)连接的Flash控制器300;其中,所述Flash控制器300的Debug接口通过所述系统管理总线与所述U.2连接器100连接,以便当所述NVMe固态硬盘出现故障时所述主机400利用所述Debug接口(Debugport)获取所述Flash控制器300的日志信息。
其中,本实施例相对于现有技术的改进点在于Flash控制器300的Debug接口通过系统管理总线与U.2连接器连接,以便当所述NVMe固态硬盘出现故障时通过系统管理总线传输所述Flash控制器300的日志信息。
在现有技术中,当NVMe固态硬盘整个挂死时,其大多数情况表现出来的是主机不能通过PCIE链路同NVMe固态硬盘进行信息交互,此时相当于Flash控制器300已经挂死,此时如果对Flash控制器300进行复位操作,下次如果能够正常重启,有可能会不清楚上次异常问题产生的原因;如果重启以后也无法对NVMe固态硬盘进行访问,就需要运维人员将NVMe固态硬盘从整机上拆卸下来,返回原厂,由原厂相关工程师通过内部的Debug接口来进行问题的定位分析。
本实施例利用了当NVMe固态硬盘出现故障时,Flash控制器300挂死,Flash控制器300无法通过PCIE链路进行信息交互,但是由于系统管理总线与MCU200连接,因此系统管理总线还可以传输信息,即,本申请利用了基于服务器、存储或者其他相关设备与NVMe固态硬盘间的带外通信接口系统管理总线仍然可以进行信息交互的特点,通过系统管理总线从Debug接口获取NVMe固态硬盘的日志信息(包括关键信息和相关健康日志),进而实现NVMe固态硬盘的故障确定。本实施例适用于Flash控制器300挂死但MCU200正常工作的一类NVMe固态硬盘的故障。
需要说明的是,现有技术中存在Flash控制器300的MI接口(ManagementInterface NVMe,带外管理接口)通过系统管理总线与U.2连接器连接的结构,在本实施例中Flash控制器300的Debug接口与所述U.2连接器100连接的也是通过该系统管理总线实现的。当所述NVMe固态硬盘出现故障时,可以通过系统管理总线传输所述Flash控制器300的日志信息至主机400,以便根据日志信息确定故障原因。
本实施例通过从Flash控制器的Debug接口引出系统管理总线,连接到U.2连接器300上。当固态硬盘出现异常状况时,无法通过PCIE链路进行信息交互,但是由于系统管理总线与MCU连接,因此系统管理总线仍然可以传输信息,即固态硬盘出现故障时无法影响系统管理总线中的信息交互。采用本申请的固态硬盘,可以在固态硬盘出现异常状况时通过系统管理总线从Debug接口获取Flash控制器的日志信息,根据日志信息确定导致固态硬盘异常的原因。本申请能够在固态硬盘出现故障时进行快速诊断,提高对固态硬盘进行问题定位的效率。
请参见图2,图2为本申请实施例所提供的另一种NVMe固态硬盘的结构示意图,本实施例在图1实施例的基础上对Debug接口与系统管理总线的连接关系进行了具体的介绍。
进一步的,所述MCU200和所述Flash控制器300之间设有心跳链路;
所述MCU200用于根据所述心跳链路的信号控制所述Debug接口对应的开关模块的开关状态;其中,所述Debug接口通过所述开关模块500与所述系统管理总线连接,当所述心跳链路的信号正常时,所述MCU200控制所述开关模块500断开;当所述心跳链路的信号异常时,所述MCU200控制所述开关模块500闭合,以便传输所述日志信息。
其中,在MCU200和Flash控制器300之间设置心跳链路(Heartbeat),Flash控制器300送给MUC200一个Heartbeat信号,假定Flash控制器300正常时此信号电平为高,Flash控制器300异常时,此信号为低,MCU200便可以通过此信号判断Flash控制器300是否正常;当Flash控制器300正常时,通过MCU200可以通过输出的控制信号Ctrl会把开关模块500打开,此时Flash控制器的Debug接口与U.2连接器100之间的系统管理总线是断开的;当Flash控制器异常时,发送至MCU200的Heartbeat信号为低,此时MCU200输出的控制信号Ctrl把开关模块500关闭,此时主机通过系统管理总线可以同Flash控制器的Debug接口建立通信,从而能够获取Flash控制器300的内部寄存器信息中的日志信息,进而实现在线诊断调试过程。新引入的系统管理总线接口是Flash控制器的Debug接口,在Flash控制器300正常时,不应该将其暴露给用户,防止用户误操作,造成NVMe固态硬盘出现异常状况
进一步的,所述Flash控制器300还通过PCIE3.0*4链路与所述U.2连接器100连接。
进一步的,所述U.2连接器100分别通过系统管理总线和PCIE3.0链路与主机400连接。
进一步的,所述Flash控制器300的NVMe外带管理接口(MI,NVMe ManagementInterface)通过所述系统管理总线与所述U.2连接器100连接。
进一步的,U.2连接器100通过系统管理总线与MCU200的VPD(Vital ProductData,产品关键数据)接口连接。
下面请参见图3,图3为本申请实施例所提供的NVMe固态硬盘故障原因的确定方法的流程图;本实施例描述的方法,可以应用于图1或图2对应实施例中描述的任意一种NVMe固态硬盘
具体步骤可以包括:
S101:检测所述NVMe固态硬盘与主机的连接状态;
当NVMe固态硬盘正常工作时,主机通过PCIE链路同NVMe固态硬盘进行正常数据交互;NVMe固态硬盘与主机的连接状态可以包括正常连接和连接超时,
S102:当所述连接状态为连接超时时,判断所述NVMe固态硬盘与所述主机之间的信息交互是否中断;若是,则进入S203;若否,则结束流程;
当发生连接超时时可以进行再次尝试连接,若再次尝试失败后,可以确认主机无法通过PCIE链路同NVMe固态硬盘进行数据交互,即NVMe固态硬盘与所述主机之间的信息交互是否中断,需要进行NVMe固态硬盘故障原因的确定。
S103:通过系统管理总线从Debug接口获取Flash控制器的日志信息,并根据所述日志信息确定故障原因。
由于系统管理总线是基于服务器、存储或者其他相关设备与NVMe固态硬盘之间的带外通信总线,因此NVMe固态硬盘出现故障不会影响系统管理总线的信息传输,可以通过系统管理总线获取Flash控制器的日志信息,并根据所述日志信息确定故障原因。
本实施例通过从Flash控制器的Debug接口引出系统管理总线,连接到U.2连接器上。当固态硬盘出现异常状况时,无法通过PCIE链路进行信息交互,但是由于系统管理总线与MCU连接,因此系统管理总线仍然可以传输信息,即固态硬盘出现故障时无法影响系统管理总线中的信息交互。采用本申请的固态硬盘,可以在固态硬盘出现异常状况时通过系统管理总线从Debug接口获取Flash控制器的日志信息,根据日志信息确定导致固态硬盘异常的原因。本申请能够在固态硬盘出现故障时进行快速诊断,提高对固态硬盘进行问题定位的效率。
作为一种优选的实施方案,进一步的,当MCU和Flash控制器之间设有心跳链路,MCU用于根据所述心跳链路的信号控制所述Debug接口对应的开关模块的开关状态时(即针对图2中对应的NVMe固态硬盘);S203中所述通过系统管理总线获取Flash控制器的日志信息的操作包括:
当所述所述NVMe固态硬盘与所述主机之间的信息交互中断时,MCU检测心跳链路的信号是否正常;若否,则向所述系统管理总线的开关模块发送闭合指令,以使所述系统管理总线导通;通过所述系统管理总线获取所述Flash控制器的所述日志信息。
在MCU和Flash控制器之间设置心跳链路(Heartbeat),Flash控制器送给MUC一个Heartbeat信号,假定Flash控制器正常时此信号电平为高,Flash控制器异常时,此信号为低,MCU便可以通过此信号判断Flash控制器是否正常;当Flash控制器正常时,通过MCU可以通过输出的控制信号Ctrl会把开关模块SW1打开,此时Flash控制器的Debug接口与U.2连接器之间的系统管理总线是断开的;当Flash控制器异常时,发送至MCU的Heartbeat信号为低,此时MCU输出的控制信号Ctrl把开关模块SW1关闭,此时主机通过系统管理总线可以同Flash控制器的Debug接口建立通信,从而能够获取Flash控制器的内部寄存器信息中的日志信息,进而实现在线诊断调试过程。新引入的系统管理总线接口是Flash控制器的Debug接口,在Flash控制器正常时,不应该将其暴露给用户,防止用户误操作,造成NVMe固态硬盘出现异常状况。
作为另一种优选的实施方案,当无法通过日志信息确定故障原因时,还可以包括:通过所述系统管理总线进行在线排除程序故障操作获取所述Flash控制器的内部配置器的配置信息,并上传所述配置信息以便确定所述故障原因。
请参见图4,图4为本申请实施例所提供的一种确定NVMe固态硬盘故障原因的系统的结构示意图;
本申请还提供了一种确定NVMe固态硬盘故障原因的系统,该系统应用于图1中所述任意一种NVMe固态硬盘,所述系统包括:
状态监测模块601,用于检测所述NVMe固态硬盘与主机的连接状态;
判断模块602,用于当所述连接状态为连接超时时,判断所述NVMe固态硬盘与所述主机之间的信息交互是否中断;
故障确定模块603,用于当所述NVMe固态硬盘与所述主机之间的信息交互中断时,则通过系统管理总线获取Flash控制器的日志信息,并根据所述日志信息确定故障原因。
进一步的,故障确定模块603包括:
检测单元,用于当所述所述NVMe固态硬盘与所述主机之间的信息交互中断时,检测心跳链路的信号是否正常;若否,则向所述系统管理总线的开关模块发送闭合指令,以使所述Debug接口接入所述系统管理总线;
日志获取单元,用于通过所述系统管理总线从所述Debug接口获取所述Flash控制器的日志信息。
进一步的,该系统还包括:
故障排除模块,用于通过所述Debug接口对所述Flash控制器进行在线排除程序故障操作得到内部寄存器的配置信息,以便利用所述配置信息确定所述故障原因。
由于系统部分的实施例与方法部分的实施例相互对应,因此系统部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本申请还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种NVMe固态硬盘,其特征在于,包括:
与主机连接,用于进行信息交互的所述U.2连接器;
通过系统管理总线与U.2连接器连接的MCU;
与所述MCU通过集成电路总线连接的Flash控制器;其中,所述Flash控制器的Debug接口通过所述系统管理总线与所述U.2连接器连接,以便当所述NVMe固态硬盘出现故障时所述主机利用所述Debug接口获取所述Flash控制器的日志信息。
2.根据权利要求1所述NVMe固态硬盘,其特征在于,所述MCU和所述Flash控制器之间设有心跳链路;
所述MCU用于根据所述心跳链路的信号控制所述Debug接口对应的开关模块的开关状态;其中,所述Debug接口通过所述开关模块与所述系统管理总线连接,当所述心跳链路的信号正常时,所述MCU控制所述开关模块断开;当所述心跳链路的信号异常时,所述MCU控制所述开关模块闭合,以便传输所述日志信息。
3.根据权利要求1所述NVMe固态硬盘,其特征在于,所述Flash控制器还通过PCIE链路与所述U.2连接器连接。
4.根据权利要求1所述NVMe固态硬盘,其特征在于,所述Flash控制器的NVMe外带管理接口通过所述系统管理总线与所述U.2连接器连接。
5.一种NVMe固态硬盘故障原因的确定方法,其特征在于,应用于如权利要求1至4任一项所述的NVMe固态硬盘,所述方法包括:
检测所述NVMe固态硬盘与主机的连接状态;
当所述连接状态为连接超时时,判断所述NVMe固态硬盘与所述主机之间的信息交互是否中断;
若是,则通过系统管理总线从Debug接口获取Flash控制器的日志信息,并根据所述日志信息确定故障原因。
6.根据权利要求5所述确定方法,其特征在于,所述通过系统管理总线从Debug接口获取Flash控制器的日志信息包括:
当所述所述NVMe固态硬盘与所述主机之间的信息交互中断时,检测心跳链路的信号是否正常;
若否,则向所述系统管理总线的开关模块发送闭合指令,以使所述Debug接口接入所述系统管理总线;
通过所述系统管理总线从所述Debug接口获取所述Flash控制器的日志信息。
7.根据权利要求5所述确定方法,其特征在于,还包括:
通过所述Debug接口对所述Flash控制器进行在线排除程序故障操作得到内部寄存器的配置信息,以便利用所述配置信息确定所述故障原因。
8.一种NVMe固态硬盘故障原因的确定系统,其特征在于,应用于如权利要求1至4任一项所述的NVMe固态硬盘,所述系统包括:
状态监测模块,用于检测所述NVMe固态硬盘与主机的连接状态;
判断模块,用于当所述连接状态为连接超时时,判断所述NVMe固态硬盘与所述主机之间的信息交互是否中断;
故障确定模块,用于当所述NVMe固态硬盘与所述主机之间的信息交互中断时,则通过系统管理总线从Debug接口获取Flash控制器的日志信息,并根据所述日志信息确定故障原因。
9.根据权利要求8所述确定系统,其特征在于,还包括:
故障排除模块,用于通过所述Debug接口对所述Flash控制器进行在线排除程序故障操作得到内部寄存器的配置信息,以便利用所述配置信息确定所述故障原因。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求5至7任一项所述的NVMe固态硬盘故障原因的确定方法的步骤。
CN201810797734.5A 2018-07-19 2018-07-19 一种NVMe固态硬盘及其故障原因的确定方法、系统 Pending CN109032863A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810797734.5A CN109032863A (zh) 2018-07-19 2018-07-19 一种NVMe固态硬盘及其故障原因的确定方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810797734.5A CN109032863A (zh) 2018-07-19 2018-07-19 一种NVMe固态硬盘及其故障原因的确定方法、系统

Publications (1)

Publication Number Publication Date
CN109032863A true CN109032863A (zh) 2018-12-18

Family

ID=64643939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810797734.5A Pending CN109032863A (zh) 2018-07-19 2018-07-19 一种NVMe固态硬盘及其故障原因的确定方法、系统

Country Status (1)

Country Link
CN (1) CN109032863A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741786A (zh) * 2019-01-09 2019-05-10 郑州云海信息技术有限公司 一种固态硬盘监控方法、装置及设备
CN110033820A (zh) * 2019-04-22 2019-07-19 湖南国科微电子股份有限公司 数据存储异常检测方法与装置
CN110377231A (zh) * 2019-07-12 2019-10-25 苏州浪潮智能科技有限公司 一种vmd控制方法、装置、电子设备和可读存储介质
CN110618891A (zh) * 2019-08-15 2019-12-27 苏州浪潮智能科技有限公司 一种固态硬盘故障在线处理方法及固态硬盘
CN111104360A (zh) * 2019-11-30 2020-05-05 北京浪潮数据技术有限公司 一种基于NVMe协议的固态硬盘

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102288877A (zh) * 2011-08-01 2011-12-21 中煤科工集团重庆研究院 基于pci-e技术的矿用电缆网在线故障定位系统
CN202976066U (zh) * 2012-10-30 2013-06-05 记忆科技(深圳)有限公司 固态硬盘的故障指示结构
CN107423180A (zh) * 2017-07-28 2017-12-01 郑州云海信息技术有限公司 一种固态硬盘及其诊断方法
CN107832164A (zh) * 2017-11-20 2018-03-23 郑州云海信息技术有限公司 一种基于Ceph的故障硬盘处理的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102288877A (zh) * 2011-08-01 2011-12-21 中煤科工集团重庆研究院 基于pci-e技术的矿用电缆网在线故障定位系统
CN202976066U (zh) * 2012-10-30 2013-06-05 记忆科技(深圳)有限公司 固态硬盘的故障指示结构
CN107423180A (zh) * 2017-07-28 2017-12-01 郑州云海信息技术有限公司 一种固态硬盘及其诊断方法
CN107832164A (zh) * 2017-11-20 2018-03-23 郑州云海信息技术有限公司 一种基于Ceph的故障硬盘处理的方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741786A (zh) * 2019-01-09 2019-05-10 郑州云海信息技术有限公司 一种固态硬盘监控方法、装置及设备
CN110033820A (zh) * 2019-04-22 2019-07-19 湖南国科微电子股份有限公司 数据存储异常检测方法与装置
CN110377231A (zh) * 2019-07-12 2019-10-25 苏州浪潮智能科技有限公司 一种vmd控制方法、装置、电子设备和可读存储介质
CN110377231B (zh) * 2019-07-12 2022-07-22 苏州浪潮智能科技有限公司 一种vmd控制方法、装置、电子设备和可读存储介质
CN110618891A (zh) * 2019-08-15 2019-12-27 苏州浪潮智能科技有限公司 一种固态硬盘故障在线处理方法及固态硬盘
CN111104360A (zh) * 2019-11-30 2020-05-05 北京浪潮数据技术有限公司 一种基于NVMe协议的固态硬盘

Similar Documents

Publication Publication Date Title
CN109032863A (zh) 一种NVMe固态硬盘及其故障原因的确定方法、系统
CN105938450B (zh) 自动除错信息收集的方法及系统
CN103543961B (zh) 一种基于PCIe的存储扩展系统及存储扩展方法
CN106817243A (zh) 服务器资源的管理系统及其管理方法
TWI229796B (en) Method and system to implement a system event log for system manageability
CN106936616A (zh) 备份通信方法和装置
CN103888299B (zh) 一种智能网络监测系统的工作方法
CN101359309A (zh) 串行附接小型计算机系统接口硬盘状态指示装置及方法
CN105718408A (zh) 可热插拔的计算系统、计算机实施方法及系统
TW200809521A (en) Fault-isolating SAS expander
CN101359307A (zh) Sas信道的测试装置及其测试方法
CN102801531B (zh) 一种基于声音传输的动态令牌的工作方法
CN106708707A (zh) 一种基于服务器架构的服务器监控系统
CN106708646A (zh) 硬盘异常自动复位方法及其装置
US20140059390A1 (en) Use of service processor to retrieve hardware information
CN103684918A (zh) 链路故障检测方法和装置
CN115878356A (zh) 磁盘故障预测方法及装置
CN101488105B (zh) 实现存储双控制器高可用性的方法及存储双控制器系统
CN103593275B (zh) 磁盘信息显示方法及装置
CN107729199A (zh) 一种存储设备的硬盘检测方法和系统
CN110413435A (zh) 一种通信故障恢复方法、系统及相关组件
CN207148703U (zh) 一种高性能统一存储系统主板
CN110109802A (zh) 一种实时读取硬盘温度的方法与系统
CN106648949B (zh) 一种存储系统及数据传输方法
CN109271096A (zh) Nvme存储扩展系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181218

RJ01 Rejection of invention patent application after publication