CN110688268A - Nvme ssd的故障定位方法、装置、设备及介质 - Google Patents

Nvme ssd的故障定位方法、装置、设备及介质 Download PDF

Info

Publication number
CN110688268A
CN110688268A CN201910865024.6A CN201910865024A CN110688268A CN 110688268 A CN110688268 A CN 110688268A CN 201910865024 A CN201910865024 A CN 201910865024A CN 110688268 A CN110688268 A CN 110688268A
Authority
CN
China
Prior art keywords
nvme ssd
fault
information
state information
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910865024.6A
Other languages
English (en)
Inventor
毕延帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Wave Intelligent Technology Co Ltd
Original Assignee
Suzhou Wave Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Wave Intelligent Technology Co Ltd filed Critical Suzhou Wave Intelligent Technology Co Ltd
Priority to CN201910865024.6A priority Critical patent/CN110688268A/zh
Publication of CN110688268A publication Critical patent/CN110688268A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了一种NVME SSD的故障定位方法、装置、设备及计算机可读存储介质。其中,方法包括预先为NVME SSD下电过程中的各流程设置相应的标识信息;当检测到NVME SSD异常掉电或热插拨时,开始计时;当检测到目标流程完成下电时,则自动将目标流程相应的标识信息记录至NVME SSD的DDR中;若计时时长达到预设时长,且当前DDR中不包含下电过程中所有流程的标识信息,则判定出现故障,并将NVME SSD当前的下电流程状态信息和响应的日志信息发送至NVME SSD内部的非易失介质中,以便根据下电流程状态信息和日志信息定位故障。本申请在NVME SSD进行热插拔测试或异常掉电测试过程中发生故障后,可以有效地收集日志信息,有利于准确、快速、高效地定位故障。

Description

NVME SSD的故障定位方法、装置、设备及介质
技术领域
本公开涉及固态硬盘的故障检测技术领域,特别是涉及一种 NVME SSD的故障定位方法、装置、设备及计算机可读存储介质。
背景技术
随着互联网、云技术的快速发展,数据呈现爆炸式增长,相应的数据存储技术也面临着严峻的挑战。在大数据时代,海量数据的存储位于越来重要的地位,在CPU等计算部件速率越来越高的同时,数据的存储成为系统性能提升的瓶颈。固态硬盘(Solid StateDrive,SSD) 由于其读写速度快、能耗低,且随着NAND价格逐渐下降,而被广泛应用。
NVME(Non-Volatile Memory Express,非易失性内存主机控制器接口规范)硬盘为目前服务器领域性能比较高端的一种硬盘类型,其接口基于PCIe(peripheralcomponent interconnect express,高速串行计算机扩展总线标准)协议,具有接口速率高、IO吞吐快的特点。
而基于u.2接口的NVME SSD均支持热插拔异常掉电功能,而若在对NVME SSD进行热插拔或异常掉电测试过程中发生故障,SSD 盘片会完全断电,由于相关技术的NVME SSD是基于上层NVME协议通信,故很难有效地收集日志信息,以对故障进行问题定位。
鉴于此,如何在NVME SSD进行热插拔测试或异常掉电测试过程中发生故障后,有效地收集日志信息,是本领域技术人员需要解决的问题。
发明内容
本公开实施例提供了一种NVME SSD的故障定位方法、装置、设备及计算机可读存储介质,在NVME SSD进行热插拔测试或异常掉电测试过程中发生故障后,可以有效地收集日志信息,有利于快速、准确、高效地定位故障。
为解决上述技术问题,本发明实施例提供以下技术方案:
本发明实施例一方面提供了一种NVME SSD的故障定位方法,包括:
预先为NVME SSD下电过程中的各流程设置相应的标识信息;
当检测到NVME SSD异常掉电或热插拨时,开始计时;
当检测到目标流程完成下电时,则自动将所述目标流程相应的标识信息记录至所述NVME SSD的DDR中;
若计时时长达到预设时长,判断所述DDR中是否包含下电过程中所有流程的标识信息;
若否,则判定异常掉电或热插拨过程中出现故障,将所述NVME SSD当前的下电流程状态信息和响应的日志信息发送至所述NVME SSD内部的非易失介质中,以用于根据所述下电流程状态信息和所述日志信息定位故障。
可选的,所述将所述NVME SSD的当前状态信息和响应的日志信息发送至所述NVMESSD内部的非易失介质中之后,还包括:
所述NVME SSD再次上电后,将所述下电流程状态信息和所述日志信息通过相应的PCIE调试接口从所述NVME SSD内部导出至目标位置。
可选的,所述将所述下电流程状态信息和所述日志信息通过相应的PCIE调试接口从所述NVME SSD内部导出至目标位置包括:
将所述NVME SSD下电过程的相关变量和结构体,与所述下电流程状态信息和所述日志信息通过相应的PCIE调试接口一起导出至目标位置。
可选的,所述预先为NVME SSD下电过程中的各流程设置相应的标识信息为:
预先为所述NVME SSD下电过程中的各流程的每个阶段设置相应的FLAG标识,以用于当检测到目标阶段完成时自动将相应FLAG 标识记录至所述DDR中。
可选的,所述将所述NVME SSD当前的下电流程状态信息和响应的日志信息发送至所述NVME SSD内部的非易失介质中之后,还包括:
若根据所述下电流程状态信息和所述日志信息确定所述NVME SSD在异常掉电或热插拨过程中未出现故障的频率超过频率阈值,则增加所述预设时长;
若根据所述下电流程状态信息和所述日志信息定位故障出错的频率超过第二频率阈值,则缩短所述预设时长。
可选的,所述判断所述DDR中是否包含下电过程中所有流程的标识信息之后,还包括:
若所述DDR中不包含下电过程所有阶段的标识信息,则反馈故障报告信息,并进行报警提示。
本发明实施例另一方面提供了一种NVME SSD的故障定位装置,设置在SSD内部,包括:
预处理模块,用于预先为NVME SSD下电过程中的各流程设置相应的标识信息;
计时模块,用于当检测到NVME SSD异常掉电或热插拨时,开始计时;
标识信息记录模块,用于当检测到目标流程完成下电时,则自动将所述目标流程相应的标识信息记录至所述NVME SSD的DDR中;
判断模块,用于若计时时长达到预设时长,判断所述DDR中是否包含下电过程中所有流程的标识信息;
故障信息采集模块,用于若所述DDR中不包含下电过程所有阶段的标识信息,则判定异常掉电或热插拨过程中出现故障,将所述NVME SSD当前的下电流程状态信息和响应的日志信息发送至所述 NVME SSD内部的非易失介质中,以用于根据所述下电流程状态信息和所述日志信息定位故障。
可选的,还包括时长更新模块,所述时长更新模块包括第一更新子模块和第二更新子模块;
所述第一更新子模块用于若根据所述下电流程状态信息和所述日志信息确定所述NVME SSD在异常掉电或热插拨过程中未出现故障的频率超过频率阈值,则增加所述预设时长;
所述第二更新子模块用于若根据所述下电流程状态信息和所述日志信息定位故障出错的频率超过第二频率阈值,则缩短所述预设时长。
本发明实施例还提供了一种NVME SSD的故障定位设备,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述NVME SSD的故障定位方法的步骤。
本发明实施例最后还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有NVME SSD的故障定位程序,所述NVME SSD的故障定位程序被处理器执行时实现如前任一项所述NVME SSD 的故障定位方法的步骤。
本申请提供的技术方案的优点在于,通过NVME SSD内部的定时检测机制配合下电流程的标识判断,一旦识别热插拔或异常掉电测试中发生故障后便快速高效地将当前下电过程状态信息和日志信息保存至非易失介质保存,从而解决了在热插拔或异常掉电测试中无法有效定位故障的难点,由于日志信息和下电过程状态信息均是在发生故障时采集的,这些采集的信息可全面有效地反映故障问题,故通过日志信息和下电过程状态信息可快速、准确、高效地定位故障,有利于快速修复故障问题,提升NVME SSD的可靠性和稳定性。
此外,本发明实施例还针对NVME SSD的故障定位方法提供了相应的实现装置、设备及计算机可读存储介质,进一步使得所述方法更具有实用性,所述装置、设备及计算机可读存储介质具有相应的优点。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
为了更清楚的说明本发明实施例或相关技术的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种NVME SSD的故障定位方法的流程示意图;
图2为本发明实施例提供的另一种NVME SSD的故障定位方法的流程示意图;
图3为本发明实施例提供的NVME SSD的故障定位装置的一种具体实施方式结构图;
图4为本发明实施例提供的NVME SSD的故障定位装置的另一种具体实施方式结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在介绍了本发明实施例的技术方案后,下面详细的说明本申请的各种非限制性实施方式。
首先参见图1,图1为本发明实施例提供的一种NVME SSD的故障定位方法的流程示意图,本发明实施例可包括以下内容:
S101:预先为NVME SSD下电过程中的各流程设置相应的标识信息。
可以理解的是,NVME SSD支持热插拨功能,也就是说,NVME SSD在正常热插拨过程中会在规定时间内完成设备的下电流程,以保证设备存储数据不会丢失。下电过程中势必设计多个模块,每个模块会有1个或多个阶段。为了更加精准进行故障定位,不仅为各流程设置标识信息,还可以为各个模块的每个流程的每个阶段均设置一个标识信息。可以设置任何一种对每个阶段或每个流程起到唯一标识作用的信息,本申请对此不做任何限定,例如可预先为NVME SSD下电过程中的各流程的每个阶段设置相应的FLAG标识,以用于当检测到目标阶段完成时自动将相应FLAG标识记录至DDR中。
S102:当检测到NVME SSD异常掉电或热插拨时,开始计时。
作为一种可选的实施方式,S102中还可设置一个倒定时器,计时时长为预设时长,那么在S104中,当倒计时结束后,可直接触发S105 步骤,不需要一直进行计时时长和预设时长的关系,有利于提升整个方法的实现效率。
S103:当检测到目标流程完成下电时,则自动将目标流程相应的标识信息记录至NVME SSD的DDR中。
需要说明的是,若S101中为下电过程中的每个流程设置一个标识信息,那么系统在检测到下电过程中的一个流程完成时,便会将该流程对应的标识信息自动记录在NVMESSD的DDR中;一个流程内可以包括多个阶段,若S101中为下电过程中的每个流程的每个阶段均设置一个标识信息,那么系统在检测到下电过程中的一个流程的某一个阶段完成时,便会将该阶段对应的标识信息自动记录在NVME SSD的DDR中。
S104:判断计时时长是否达到预设时长,若是,则执行S105;若否,则返回S103。
在本申请中,预设时长与NVME SSD的设备物理参数及软件环境、用户需求进行确定,预设时长设置太长或太短,均不利于准确定位故障,一般来说预设时长不大于该NVMESSD在正常热插拨过程中完成下电过程的规定时长,例如预设时长可为30ms。
S105:判断DDR中是否包含下电过程中所有流程的标识信息,若否,则执行S106。
此处,若S101为下电过程中的每个流程的每个阶段均设置一个标识信息,则需要判断DDR中是否包含下电过程中所有流程的所有阶段的标识信息。
S106:判定异常掉电或热插拨过程中出现故障,将NVME SSD 当前的下电流程状态信息和响应的日志信息发送至NVME SSD内部的非易失介质中,以用于根据下电流程状态信息和日志信息定位故障。
其中,下电流程状态信息为下电过程中每个流程的各个阶段的下电完成情况。相关工作人员可根据NVME SSD内部保存的下电流程状态信息和响应的日志信息定位异常掉电或热插拨过程中出现的故障,并根据故障相关信息对故障进行修复。若DDR中中包含下电过程中的所有流程的标识信息,则在异常掉电或热插拨过程中没有出现故障。
在本发明实施例提供的技术方案中,通过NVME SSD内部的定时检测机制配合下电流程的标识判断,一旦识别热插拔或异常掉电测试中发生故障后便快速高效地将当前下电过程状态信息和日志信息保存至非易失介质保存,从而解决了在热插拔或异常掉电测试中无法有效定位故障的难点,由于日志信息和下电过程状态信息均是在发生故障时采集的,这些采集的信息可全面有效地反映故障问题,故通过日志信息和下电过程状态信息可快速、准确、高效地定位故障,有利于快速修复故障问题,提升NVME SSD的可靠性和稳定性。
基于上述实施例例,请参阅图2,本申请在S106之后,还可包括:
S107:若DDR中不包含下电过程所有阶段的标识信息,则反馈故障报告信息,并进行报警提示。
S108:NVME SSD再次上电后,将下电流程状态信息和日志信息通过相应的PCIE调试接口从NVME SSD内部导出至目标位置。
在本发明实施例中,由于下电流程状态信息和日志信息存储在下 NVME SSD内部,若有需要,可在NVME SSD再次上电后,可通过预先在例如PCIE接口处设置增加日志导出功能,然后通过该接口将所需信息导出进行分析。为了更加全面地反映并还原故障发生时的整个系统状态,进一步提升故障分析速度,还可以将NVME SSD下电过程的相关变量和结构体等软件代码,与下电流程状态信息和日志信息通过相应的PCIE调试接口一起导出至目标位置。
S109:根据下电流程状态信息和日志信息定位NVME SSD故障的准确率更新预设时长。
可以理解的是,预设时长对故障定位准确度有一定的影响,随着 NVME SSD的使用时间增长,NVME SSD性能会下降,下电完成所需实际时间可能发生变化;或者是NVME SSD软硬件的更新,导致下电完成所需实际时间可能发生变化,故预设时长进行相应的更新,有利于提升故障定位准确度。本申请可根据故障定位准确率来确定是否需要对预设时长进行更新,可包括两种情况:
若根据下电流程状态信息和日志信息确定NVME SSD在异常掉电或热插拨过程中未出现故障的频率超过频率阈值,则增加预设时长。举例来说,若在连续10次的发生故障的热插拨测试中,根据分析S106 存储的下电流程状态信息和日志信息发现热插拨测试过程中并没有故障的次数多达6次,那么也就是说预设时长较系统下电所需时长较短,有些流程在预设时长内还未完成下电,但是这些流程是可以在规定时长内完成下电流程,这些流程会被认为是发生故障导致的下电失败。
若根据下电流程状态信息和日志信息定位故障出错的频率超过第二频率阈值,则缩短预设时长。举例来说,若在连续10次的发生故障的热插拨测试中,根据分析S106存储的下电流程状态信息和日志信息定位故障出错的次数多达6次,可能由于预设时长维持时间较长,有效日志信息被覆盖,导致定位故障出错。
由上可知,本发明实施例通过对预设时长进行更新,有利于确定故障定位的准确度。
本发明实施例还针对NVME SSD的故障定位方法提供了相应的实现装置,进一步使得所述方法更具有实用性。下面对本发明实施例提供的NVME SSD的故障定位装置进行介绍,下文描述的NVME SSD 的故障定位装置与上文描述的NVME SSD的故障定位方法可相互对应参照。
参见图3,图3为本发明实施例提供的NVME SSD的故障定位装置在一种具体实施方式下的结构图,设置在SSD内部,该装置可包括:
预处理模块301,用于预先为NVME SSD下电过程中的各流程设置相应的标识信息。
计时模块302,用于当检测到NVME SSD异常掉电或热插拨时,开始计时。
标识信息记录模块303,用于当检测到目标流程完成下电时,则自动将目标流程相应的标识信息记录至NVME SSD的DDR中。
判断模块304,用于若计时时长达到预设时长,判断DDR中是否包含下电过程中所有流程的标识信息。
故障信息采集模块305,用于若DDR中不包含下电过程所有阶段的标识信息,则判定异常掉电或热插拨过程中出现故障,将NVME SSD当前的下电流程状态信息和响应的日志信息发送至NVME SSD 内部的非易失介质中,以用于根据下电流程状态信息和日志信息定位故障。
可选的,在本实施例的一些实施方式中,请参阅图4,所述装置还可以包括时长更新模块306,所述时长更新模块306包括第一更新子模块和第二更新子模块;
第一更新子模块用于若根据下电流程状态信息和日志信息确定 NVME SSD在异常掉电或热插拨过程中未出现故障的频率超过频率阈值,则增加预设时长;
第二更新子模块用于若根据下电流程状态信息和日志信息定位故障出错的频率超过第二频率阈值,则缩短预设时长。
在另外一些实施方式中,所述装置例如还可包括信息反馈模块 307和报警模块308;其中,所述信息反馈模块307用于若DDR中不包含下电过程所有阶段的标识信息,则反馈故障报告信息;所述报警模块308用于若DDR中不包含下电过程所有阶段的标识信息,则进行报警提示。
作为本实施例的一种可选实施方式,所述预处理模块301例如还可为预先为NVMESSD下电过程中的各流程的每个阶段设置相应的 FLAG标识,以用于当检测到目标阶段完成时自动将相应FLAG标识记录至DDR中的模块。
此外,请参阅图4,所述装置例如还可包括数据导出模块309,所述数据导出模块309用于NVME SSD再次上电后,将下电流程状态信息和日志信息通过相应的PCIE调试接口从NVME SSD内部导出至目标位置。
本发明实施例所述NVME SSD的故障定位装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例在NVME SSD进行热插拔测试或异常掉电测试过程中发生故障后,可以有效地收集日志信息,有利于快速、准确、高效地定位故障。
本发明实施例还提供了一种NVME SSD的故障定位设备,具体可包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序以实现如上任意一实施例所述 NVME SSD的故障定位方法的步骤。
本发明实施例所述NVME SSD的故障定位设备的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例在NVME SSD进行热插拔测试或异常掉电测试过程中发生故障后,可以有效地收集日志信息,有利于快速、准确、高效地定位故障。
本发明实施例还提供了一种计算机可读存储介质,存储有NVME SSD的故障定位程序,所述NVME SSD的故障定位程序被处理器执行时如上任意一实施例所述NVME SSD的故障定位方法的步骤。该存储介质可以为U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例所述计算机可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例在NVME SSD进行热插拔测试或异常掉电测试过程中发生故障后,可以有效地收集日志信息,有利于快速、准确、高效地定位故障。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种NVME SSD的故障定位方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本公开进行若干改进和修饰,这些改进和修饰也落入本公开权利要求的保护范围内。

Claims (10)

1.一种NVME SSD的故障定位方法,其特征在于,包括:
预先为NVME SSD下电过程中的各流程设置相应的标识信息;
当检测到所述NVME SSD异常掉电或热插拨时,开始计时;
当检测到目标流程完成下电时,则自动将所述目标流程相应的标识信息记录至所述NVME SSD的DDR中;
若计时时长达到预设时长,判断所述DDR中是否包含下电过程中所有流程的标识信息;
若否,则判定异常掉电或热插拨过程中出现故障,将所述NVMESSD当前的下电流程状态信息和响应的日志信息发送至所述NVMESSD内部的非易失介质中,以用于根据所述下电流程状态信息和所述日志信息定位故障。
2.根据权利要求1所述的NVME SSD的故障定位方法,其特征在于,所述将所述NVME SSD的当前状态信息和响应的日志信息发送至所述NVME SSD内部的非易失介质中之后,还包括:
所述NVME SSD再次上电后,将所述下电流程状态信息和所述日志信息通过相应的PCIE调试接口从所述NVME SSD内部导出至目标位置。
3.根据权利要求2所述的NVME SSD的故障定位方法,其特征在于,所述将所述下电流程状态信息和所述日志信息通过相应的PCIE调试接口从所述NVME SSD内部导出至目标位置包括:
将所述NVME SSD下电过程的相关变量和结构体,与所述下电流程状态信息和所述日志信息通过相应的PCIE调试接口一起导出至目标位置。
4.根据权利要求1-3任意一项所述的NVME SSD的故障定位方法,其特征在于,所述预先为NVME SSD下电过程中的各流程设置相应的标识信息为:
预先为所述NVME SSD下电过程中的各流程的每个阶段设置相应的FLAG标识,以用于当检测到目标阶段完成时自动将相应FLAG标识记录至所述DDR中。
5.根据权利要求1-3任意一项所述的NVME SSD的故障定位方法,其特征在于,所述将所述NVME SSD当前的下电流程状态信息和响应的日志信息发送至所述NVME SSD内部的非易失介质中之后,还包括:
若根据所述下电流程状态信息和所述日志信息确定所述NVMESSD在异常掉电或热插拨过程中未出现故障的频率超过频率阈值,则增加所述预设时长;
若根据所述下电流程状态信息和所述日志信息定位故障出错的频率超过第二频率阈值,则缩短所述预设时长。
6.根据权利要求5所述的NVME SSD的故障定位方法,其特征在于,所述判断所述DDR中是否包含下电过程中所有流程的标识信息之后,还包括:
若所述DDR中不包含下电过程所有阶段的标识信息,则反馈故障报告信息,并进行报警提示。
7.一种NVME SSD的故障定位装置,其特征在于,设置在SSD内部,包括:
预处理模块,用于预先为NVME SSD下电过程中的各流程设置相应的标识信息;
计时模块,用于当检测到NVME SSD异常掉电或热插拨时,开始计时;
标识信息记录模块,用于当检测到目标流程完成下电时,则自动将所述目标流程相应的标识信息记录至所述NVME SSD的DDR中;
判断模块,用于若计时时长达到预设时长,判断所述DDR中是否包含下电过程中所有流程的标识信息;
故障信息采集模块,用于若所述DDR中不包含下电过程所有阶段的标识信息,则判定异常掉电或热插拨过程中出现故障,将所述NVME SSD当前的下电流程状态信息和响应的日志信息发送至所述NVME SSD内部的非易失介质中,以用于根据所述下电流程状态信息和所述日志信息定位故障。
8.根据权利要求7所述的NVME SSD的故障定位装置,其特征在于,还包括时长更新模块,所述时长更新模块包括第一更新子模块和第二更新子模块;
所述第一更新子模块用于若根据所述下电流程状态信息和所述日志信息确定所述NVME SSD在异常掉电或热插拨过程中未出现故障的频率超过频率阈值,则增加所述预设时长;
所述第二更新子模块用于若根据所述下电流程状态信息和所述日志信息定位故障出错的频率超过第二频率阈值,则缩短所述预设时长。
9.一种NVME SSD的故障定位设备,其特征在于,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至6任一项所述NVME SSD的故障定位方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有NVMESSD的故障定位程序,所述NVME SSD的故障定位程序被处理器执行时实现如权利要求1至6任一项所述NVMESSD的故障定位方法的步骤。
CN201910865024.6A 2019-09-09 2019-09-09 Nvme ssd的故障定位方法、装置、设备及介质 Withdrawn CN110688268A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910865024.6A CN110688268A (zh) 2019-09-09 2019-09-09 Nvme ssd的故障定位方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910865024.6A CN110688268A (zh) 2019-09-09 2019-09-09 Nvme ssd的故障定位方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN110688268A true CN110688268A (zh) 2020-01-14

Family

ID=69109096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910865024.6A Withdrawn CN110688268A (zh) 2019-09-09 2019-09-09 Nvme ssd的故障定位方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN110688268A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292796A (zh) * 2020-01-18 2020-06-16 苏州浪潮智能科技有限公司 一种raid损坏详细信息获取方法、系统、终端及存储介质
CN113808655A (zh) * 2021-09-23 2021-12-17 长江存储科技有限责任公司 用于进行掉电测试的方法、装置和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104536855A (zh) * 2014-12-03 2015-04-22 曙光信息产业(北京)有限公司 故障检测方法及装置
CN108009062A (zh) * 2017-12-14 2018-05-08 郑州云海信息技术有限公司 一种企业级ssd系统掉电功能测试方法、装置及系统
CN109117297A (zh) * 2018-08-30 2019-01-01 浪潮电子信息产业股份有限公司 一种固态硬盘的故障定位方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104536855A (zh) * 2014-12-03 2015-04-22 曙光信息产业(北京)有限公司 故障检测方法及装置
CN108009062A (zh) * 2017-12-14 2018-05-08 郑州云海信息技术有限公司 一种企业级ssd系统掉电功能测试方法、装置及系统
CN109117297A (zh) * 2018-08-30 2019-01-01 浪潮电子信息产业股份有限公司 一种固态硬盘的故障定位方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292796A (zh) * 2020-01-18 2020-06-16 苏州浪潮智能科技有限公司 一种raid损坏详细信息获取方法、系统、终端及存储介质
CN111292796B (zh) * 2020-01-18 2022-08-12 苏州浪潮智能科技有限公司 一种raid损坏详细信息获取方法、系统、终端及存储介质
CN113808655A (zh) * 2021-09-23 2021-12-17 长江存储科技有限责任公司 用于进行掉电测试的方法、装置和系统
CN113808655B (zh) * 2021-09-23 2023-10-03 长江存储科技有限责任公司 用于进行掉电测试的方法、装置和系统

Similar Documents

Publication Publication Date Title
CN102117660B (zh) 用于测试数据存储装置的测试仪
CN102157176B (zh) 数据存储装置测试仪
CN111312325B (zh) 一种bbu故障诊断方法、装置、电子设备及存储介质
CN103744764A (zh) 一种基于Crontab的整机内存稳定性的测试方法
CN112732477B (zh) 一种带外自检故障隔离的方法
CN110008129B (zh) 一种存储定时快照的可靠性测试方法、装置及设备
US20140068350A1 (en) Self-checking system and method using same
CN104572422A (zh) 一种基于Linux系统开关机下内存监测实现方法
CN106547653B (zh) 计算机系统故障状态检测方法、装置及系统
CN110688268A (zh) Nvme ssd的故障定位方法、装置、设备及介质
CN110704287B (zh) Linux系统下RAID卡异常日志收集方法、系统及存储介质
CN113409881B (zh) 闪存擦除中断恢复测试方法、装置、电子设备及存储介质
CN110739025B (zh) 一种存储设备掉电测试方法、装置及系统
CN112416670B (zh) 硬盘测试方法、装置、服务器和存储介质
CN110704257A (zh) 固态硬盘及其质量监测方法、装置和计算机可读存储介质
CN115718450A (zh) 一种设备停线监控方法、装置、电子设备及系统
CN113849388B (zh) 一种测试方法和装置、电子设备和存储介质
CN109522263B (zh) 一种i2c链路监控系统
CN104102563A (zh) 一种发现服务器系统的mca错误的方法及装置
CN116909800B (zh) 崩溃信息的定位方法、崩溃信息的定位装置及存储介质
CN109741786A (zh) 一种固态硬盘监控方法、装置及设备
CN104021057A (zh) 一种cpu启动故障定位系统及其定位方法
WO2024124862A1 (zh) 基于服务器的内存处理方法和装置、处理器及电子设备
CN116701140A (zh) 一种存储芯片性能检测装置、方法、系统及存储介质
CN109102839B (zh) 一种坏块标记方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200114

WW01 Invention patent application withdrawn after publication