CN110618891B - 一种固态硬盘故障在线处理方法及固态硬盘 - Google Patents

一种固态硬盘故障在线处理方法及固态硬盘 Download PDF

Info

Publication number
CN110618891B
CN110618891B CN201910753278.9A CN201910753278A CN110618891B CN 110618891 B CN110618891 B CN 110618891B CN 201910753278 A CN201910753278 A CN 201910753278A CN 110618891 B CN110618891 B CN 110618891B
Authority
CN
China
Prior art keywords
module
solid state
state disk
fault
end module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910753278.9A
Other languages
English (en)
Other versions
CN110618891A (zh
Inventor
毕延帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201910753278.9A priority Critical patent/CN110618891B/zh
Publication of CN110618891A publication Critical patent/CN110618891A/zh
Application granted granted Critical
Publication of CN110618891B publication Critical patent/CN110618891B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种固态硬盘故障在线处理方法,固态硬盘内部发生错误的故障模块通过中断方式通知与主机交互的前端模块;前端模块保留与主机接口,将与故障模块通信的接口设置为回环模式;回环模式下,前端模块接收并向故障模块转达主机下发的命令,故障模块直接返回完成,不执行命令对应功能;前端模块向主机返回中止。还公开了一种固态硬盘,其特征是,所述固态硬盘根据功能划分为前端模块、算法模块和后端模块,算法模块和后端模块内部包括检测代码,用于检测模块内部错误。在固态硬盘发生软件逻辑故障后,通过将故障模块的连接接口设置为回环模式,保证固态硬盘不掉盘,屏蔽固态硬盘的部分功能,防止故障扩散。

Description

一种固态硬盘故障在线处理方法及固态硬盘
技术领域
本发明涉及固态硬盘技术领域,具体涉及一种固态硬盘故障在线处理方法及固态硬盘。
背景技术
随着互联网、云计算、物联网等技术的发展,固态硬盘作为新的一代存储,已经被广泛应用。
作为数据中心的最底端,固态硬盘承载着存储数据的关键任务。根据不同功能,可以将固态硬盘内部架构划分为不同模块,其中,用于与主机交互的部分为前端模块,固态硬盘的其他模块需通过前端模块接收并执行主机下达的命令,但是,由于固态硬盘对上层接口比较单一,因此在主机端看来,固态硬盘就是黑盒子,固态硬盘内部某一模块一旦发生故障,很难准确定位,如果将出现故障的固态硬盘断电寄回厂家定位的话,必然会丢失故障现场,无法获取准确信息。
因此,保护固态硬盘故障第一现场的情况至关重要。
发明内容
为了解决上述技术问题,本发明提供了一种固态硬盘故障在线处理方法,通过将固态硬盘内部模块接口设置为回环模式,保证故障现场不丢失,防止故障扩散。
为实现上述目的,本发明采用以下技术方案:
一种固态硬盘故障在线处理方法,其特征是,
固态硬盘内部发生错误的故障模块通过中断方式通知与主机交互的前端模块;
前端模块保留与主机接口,将与故障模块通信的接口设置为回环模式;
回环模式下,前端模块接收并向故障模块转达主机下发的命令,故障模块直接返回完成,不执行命令对应功能;
前端模块向主机返回中止。
进一步地,所述故障模块通过assert代码自检。
进一步地,主机接收中止后,下发日志收集命令,前端模块响应获取并上报。
进一步地,前端模块从固态硬盘内部公用的DDR空间导出日志。
进一步地,前端模块从故障模块收集日志。
本发明还提供了一种固态硬盘,用于实现上述固态硬盘故障在线处理方法,其特征是,所述固态硬盘根据功能划分为前端模块、算法模块和后端模块,算法模块和后端模块内部包括检测代码,用于检测模块内部错误;
所述前端模块用于与主机交互,接收并分发主机命令;
所述算法模块用于解析前端模块分发的命令,调度内部资源,实现数据管理算法;
所述后端模块用于管理NAND存储介质和数据纠错。
进一步地,所述检测代码为assert代码。
进一步地,所述前端模块通过PCIE接口与主机连接。
本发明的有益效果是:
本发明提供的固态硬盘故障在线处理方法,在固态硬盘发生软件逻辑故障后,通过将故障模块的连接接口设置为回环模式,一方面保证固态硬盘不掉盘,另一方面又能屏蔽固态硬盘的部分功能,从而防止故障扩散,防止破坏故障现场,并能支持远程连接主机,及时将固态硬盘的调试和故障信息导出,防止固态硬盘故障第一现场的信息丢失,保证了日志的在线收集。
附图说明
图1是本发明实施例固态硬盘故障在线处理方法流程图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
本发明实施例提供了一种固态硬盘故障在线处理方法及固态硬盘,以解决保证固态硬盘故障现场不丢失,防止故障扩散的问题。
如图1所示,本发明实施例提供了一种固态硬盘故障在线处理方法,具体包括:
1)固态硬盘内部发生错误的故障模块通过中断方式通知与主机交互的前端模块。
需要说明的是,固态硬盘内部按照不同的功能,可以划分为不同的功能模块,如解析调度功能、数据管理功能、数据纠错功能等等,其中,前端模块负责与主机交互,接收并分发主机命令。
各个模块内部包括自行检测或者逻辑判断assert代码,用于检测内部错误,内部发生错误的模块为故障模块。
2)前端模块保留与主机接口,将与故障模块通信的接口设置为回环模式。
需要说明的是,所述回环模式是指模块接收到读、写、擦等命令时,直接返回完成,但不进行对应功能及算法启动。
3)回环模式下,前端模块接收并向故障模块转达主机下发的命令,故障模块直接返回完成,不执行命令对应功能。
由于故障模块已经发生assert,通过将其通信接口设置为回环模式,从而屏蔽下一步动作,防止破坏错误现场。
4)前端模块向主机返回中止。
前端模块接收回环模式的故障模块返回的完成命令,可以顺利响应主机命令并返回,保证了设备不丢失,对于当前命令向主机返回中止。
前端模块向主机返回中止后,主机为了收集日志,在接收到中止后,下发日志收集命令,前端模块响应获取并上报,最终实现了固态硬盘发生内部逻辑故障后的在线收集功能,即主机远程导出固态硬盘故障信息。
本发明的一种实施例中前端模块直接从固态硬盘内部公用的DDR空间导出日志。
本发明的另一种实施例中前端模块还可以间接从故障模块收集日志。
本发明实施例还提供了一种实现所述处理方法的固态硬盘,所述固态硬盘内部根据不同的功能划分为前端模块、算法模块和后端模块。
所述前端模块负责与主机交互,接收主机命令,分发主机命令;
所述算法模块用于解析前端模块分发的命令,调度内部资源,实现数据映射表转换、磨损均衡、垃圾回收、坏块管理等数据管理算法;
所述后端模块用于管理NAND存储介质和数据纠错。
算法模块和后端模块内部包括检测代码,用于检测模块内部错误。
优选的,所述检测代码为assert代码。
优选的,所述前端模块通过PCIE接口与主机连接。
本发明实施例所述固态硬盘包括但不限于NVME协议的PCIE固态硬盘。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制。对于所属领域的技术人员来说,在上述说明的基础上还可以做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (8)

1.一种固态硬盘故障在线处理方法,其特征是,
固态硬盘内部发生错误的故障模块通过中断方式通知与主机交互的前端模块;
前端模块保留与主机接口,将与故障模块通信的接口设置为回环模式;
所述回环模式是指模块接收到读、写、擦命令时,直接返回完成,但不进行对应功能及算法启动;
回环模式下,前端模块接收并向故障模块转达主机下发的命令,故障模块直接返回完成,不执行命令对应功能;
前端模块向主机返回中止。
2.根据权利要求1所述的固态硬盘故障在线处理方法,其特征是,所述故障模块通过assert代码自检。
3.根据权利要求1所述的固态硬盘故障在线处理方法,其特征是,主机接收中止后,下发日志收集命令,前端模块响应获取并上报。
4.根据权利要求3所述的固态硬盘故障在线处理方法,其特征是,前端模块从固态硬盘内部公用的DDR空间导出日志。
5.根据权利要求3所述的固态硬盘故障在线处理方法,其特征是,前端模块从故障模块收集日志。
6.一种固态硬盘,用于实现权利要求1-5任意一项所述的固态硬盘故障在线处理方法,其特征是,所述固态硬盘根据功能划分为前端模块、算法模块和后端模块,算法模块和后端模块内部包括检测代码,用于检测模块内部错误;
所述前端模块用于与主机交互,接收并分发主机命令;
所述算法模块用于解析前端模块分发的命令,调度内部资源,实现数据管理算法;
所述后端模块用于管理NAND存储介质和数据纠错。
7.根据权利要求6所述的固态硬盘,其特征是,所述检测代码为assert代码。
8.根据权利要求6所述的固态硬盘,其特征是,所述前端模块通过PCIE接口与主机连接。
CN201910753278.9A 2019-08-15 2019-08-15 一种固态硬盘故障在线处理方法及固态硬盘 Active CN110618891B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910753278.9A CN110618891B (zh) 2019-08-15 2019-08-15 一种固态硬盘故障在线处理方法及固态硬盘

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910753278.9A CN110618891B (zh) 2019-08-15 2019-08-15 一种固态硬盘故障在线处理方法及固态硬盘

Publications (2)

Publication Number Publication Date
CN110618891A CN110618891A (zh) 2019-12-27
CN110618891B true CN110618891B (zh) 2023-01-06

Family

ID=68921826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910753278.9A Active CN110618891B (zh) 2019-08-15 2019-08-15 一种固态硬盘故障在线处理方法及固态硬盘

Country Status (1)

Country Link
CN (1) CN110618891B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590416B (zh) * 2021-06-30 2023-09-15 郑州云海信息技术有限公司 Cpu系统固件断言处理方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944066A (zh) * 2009-07-10 2011-01-12 成都市华为赛门铁克科技有限公司 固态硬盘的接口处理方法、固态硬盘以及存储系统
CN109032863A (zh) * 2018-07-19 2018-12-18 郑州云海信息技术有限公司 一种NVMe固态硬盘及其故障原因的确定方法、系统
CN109240870A (zh) * 2018-09-25 2019-01-18 浪潮电子信息产业股份有限公司 一种固态硬盘故障定位方法及相关装置

Also Published As

Publication number Publication date
CN110618891A (zh) 2019-12-27

Similar Documents

Publication Publication Date Title
CN101359309B (zh) 串行附接小型计算机系统接口硬盘状态指示装置及方法
CN101093462B (zh) 数据库应用集群压力测试自动化方法
CN106649071B (zh) 进程内部日志上报的方法和装置
CN103415840A (zh) 跨硬件层和软件层的错误管理
CN111984487A (zh) 一种离机记录故障硬件位置的方法及装置
CN101819550A (zh) 串行连接小型计算机系统接口测试系统及方法
CN117012258B (zh) 一种存储芯片状态数据的分析装置、方法及介质
CN106528354A (zh) 一种烧录存储器电源 fru id的自动化方法
CN110618891B (zh) 一种固态硬盘故障在线处理方法及固态硬盘
CN111459764B (zh) 一种日志管理方法及终端
CN111240879B (zh) 一种sas卡固件日志收集方法、系统、装置及存储介质
CN103049345A (zh) 基于异步通信机制的磁盘状态变迁检测方法及装置
CN107357809A (zh) 海量平台海迅实时库量测数据接入系统
US7032019B1 (en) Apparatuses for generation and collection of information based on priority and predetermined collecting conditions
CN110515757A (zh) 分布式存储系统的信息处理方法、装置、服务器、介质
CN104699564A (zh) 一种采用Raid0磁盘组服务器的自动恢复方法及装置
CN102033787B (zh) 一种对集群存储介质进行容错性管理的方法
CN103390429B (zh) 一种硬盘的在线检测方法及服务器
CN105700996A (zh) 一种日志的输出方法及装置
CN112416655A (zh) 一种基于企业服务门户的存储灾备系统及数据复制方法
CN102541577A (zh) 基于fpga的嵌入式系统及其配置方法
CN109545266A (zh) 一种固态硬盘发现弱块的方法及其系统
US20240212783A1 (en) Method and system for detecting memory error, and device
US11892920B2 (en) Method, electronic device, and program product for failure handling
CN117806861A (zh) PCIe终端设备错误记录方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant