CN115240759A - 一种固态硬盘检测方法、装置、设备及存储介质 - Google Patents

一种固态硬盘检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115240759A
CN115240759A CN202210910220.2A CN202210910220A CN115240759A CN 115240759 A CN115240759 A CN 115240759A CN 202210910220 A CN202210910220 A CN 202210910220A CN 115240759 A CN115240759 A CN 115240759A
Authority
CN
China
Prior art keywords
solid state
state
disk
hard disk
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210910220.2A
Other languages
English (en)
Inventor
杨立群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Inspur Data Technology Co Ltd
Original Assignee
Jinan Inspur Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Data Technology Co Ltd filed Critical Jinan Inspur Data Technology Co Ltd
Priority to CN202210910220.2A priority Critical patent/CN115240759A/zh
Publication of CN115240759A publication Critical patent/CN115240759A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/56External testing equipment for static stores, e.g. automatic test equipment [ATE]; Interfaces therefor
    • G11C29/56008Error analysis, representation of errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种固态硬盘检测方法、装置、设备及存储介质,涉及存储系统技术领域,包括:对当前待检测固态硬盘进行识别以确定出当前待检测固态硬盘对应的硬盘型号;根据硬盘型号调用与硬盘型号对应的硬盘健康自检策略;基于硬盘健康自检策略对当前待检测固态硬盘的存储环境进行检查得到相应的硬盘检查结果。本申请通过识别当前待检测固态硬盘的硬盘型号,然后根据该硬盘型号调用相应的硬盘健康自检策略,进而基于该硬盘自检策略对当前待检测固态硬盘的存储环境进行检查,从而提高存储环境在业务场景中的可靠性。

Description

一种固态硬盘检测方法、装置、设备及存储介质
技术领域
本发明涉及存储系统技术领域,特别涉及一种固态硬盘检测方法、装置、设备及存储介质。
背景技术
当前,针对固态硬盘中的数据盘检测方法是基于设备资源、网络环境等维度方面检查,并非对实际的数据盘进行检查,然而数据盘的检测,往往是在后期通过fio、iperf等工具压力自检或者在实际的业务场景中进行测试检测,也就是说,在环境部署初期,对工具和设备配置要求不高的前提下,很少会深入数据盘收集信息进行检测,也即在当前检测方式下进行数据盘的检测,即使检测通过,但是仍会在后期的使用过程中出现各种问题,而数据盘故障导致数据丢失一般都会是事故级的问题,存在相当大的隐患。
发明内容
有鉴于此,本发明的目的在于提供一种固态硬盘检测方法、装置、设备及存储介质,能够提高存储环境在业务场景中的可靠性。其具体方案如下:
第一方面,本申请公开了一种固态硬盘检测方法,包括:
对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号;
根据所述硬盘型号调用与所述硬盘型号对应的硬盘健康自检策略;
基于所述硬盘健康自检策略对当前所述待检测固态硬盘的存储环境进行检查得到相应的硬盘检查结果。
可选的,所述对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号之前,还包括:
确定预先搭建的分布式存储集群的集群状态,并基于所述集群状态确定是否检查OSD状态;
当检查到的所述OSD状态为预设目标状态,则判断OSD CrushMap是否一致;
如果所述OSD CrushMap一致,则对MON状态和MDS状态进行检查得到相应的状态检查结果;
相应的,所述对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号,包括:
基于所述状态检查结果确定是否对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号。
可选的,所述确定预先搭建的分布式存储集群的集群状态,包括:
通过目标调用指令调用集群状态获取函数,并利用所述集群状态获取函数获取预先搭建的分布式存储集群的状态;
将获取到的所述状态确定为所述分布式存储集群的集群状态。
可选的,所述基于所述集群状态确定是否检查OSD状态,包括:
当所述集群状态为HEALTH_OK状态时,则检查OSD状态;
当所述集群状态为HEALTH_ERROR状态时,则结束当前的自检测流程并打印当前的执行结果。
可选的,所述当检查到的所述OSD状态为预设目标状态,则判断OSD CrushMap是否一致,包括:
当检查到的所述OSD状态为up且in状态时,则判断OSD CrushMap是否一致。
可选的,所述基于所述状态检查结果确定是否对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号,包括:
如果所述检查结果表明所有所述MON处于在线状态,则对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号;
或,如果所述检查结果表明所有所述MON处于在线状态且所述MDS状态处于up且active状态,则对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号。
可选的,所述基于所述硬盘健康自检策略对当前所述待检测固态硬盘的存储环境进行检查得到相应的硬盘检查结果之后,还包括:
根据所述检查结果确定出相应的处理措施;
将所述处理措施发送至客户端以便所述客户端根据所述处理措施对所述待检测固态硬盘执行相应的处理操作。
第二方面,本申请公开了一种固态硬盘检测装置,包括:
硬盘型号识别模块,用于对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号;
自检策略调用模块,用于根据所述硬盘型号调用与所述硬盘型号对应的硬盘健康自检策略;
硬盘检查模块,用于基于所述硬盘健康自检策略对当前所述待检测固态硬盘的存储环境进行检查得到相应的硬盘检查结果。
第三方面,本申请公开了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现前述公开的固态硬盘检测方法的步骤。
第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的固态硬盘检测方法的步骤。
可见,本申请提供了一种固态硬盘检测方法,包括:对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号;根据所述硬盘型号调用与所述硬盘型号对应的硬盘健康自检策略;基于所述硬盘健康自检策略对当前所述待检测固态硬盘的存储环境进行检查得到相应的硬盘检查结果。由此可知,本申请通过识别当前待检测固态硬盘的硬盘型号,然后根据该硬盘型号调用相应的硬盘健康自检策略,进而基于该硬盘自检策略对当前待检测固态硬盘的存储环境进行检查,从而提高存储环境在业务场景中的可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种固态硬盘检测方法流程图;
图2为本申请公开的一种具体的固态硬盘检测方法流程图;
图3为本申请公开的一种具体的固态硬盘检测方法流程图;
图4为本申请公开的一种具体的固态硬盘检测方法流程图;
图5为本申请公开的一种具体的固态硬盘检测方法流程图;
图6为本申请公开的一种具体的固态硬盘检测方法流程图;
图7为本申请公开的一种具体的固态硬盘检测方法流程图;
图8为本申请公开的一种固态硬盘检测装置结构示意图;
图9为本申请公开的一种电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
当前,针对固态硬盘中的数据盘检测方法是基于设备资源、网络环境等维度方面检查,并非对实际的数据盘进行检查,然而数据盘的检测,往往是在后期通过fio、iperf等工具压力自检或者在实际的业务场景中进行测试检测,也就是说,在环境部署初期,对工具和设备配置要求不高的前提下,很少会深入数据盘收集信息进行检测,也即在当前检测方式下进行数据盘的检测,即使检测通过,但是仍会在后期的使用过程中出现各种问题,而数据盘故障导致数据丢失一般都会是事故级的问题,存在相当大的隐患。为此,本申请提供了一种固态硬盘检测方案,能够提高存储环境在业务场景中的可靠性。
本发明实施例公开了一种固态硬盘检测方法,参见图1所示,该方法包括:
步骤S11:对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号。
本实施例中,当前需要对固态硬盘的存储环境进行检查时,对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号。可以理解的是,对固态硬盘进行识别确定出固态硬盘的硬盘类型主要是因为不同类型的固态硬盘具有不同的硬盘健康自检策略,从而需要根据识别出的硬盘类型选取相应的硬盘健康自检策略对待检测固态硬盘进行检查。例如,上述待检测固态硬盘的硬盘型号可以包括但不限于SATA(SerialAdvanced Technology Attachment,串行高级技术附件,即串口硬盘)和NVME(NonVolatile Memory Express,非易失性内存主机控制器接口规范)等。
步骤S12:根据所述硬盘型号调用与所述硬盘型号对应的硬盘健康自检策略。
本实施例中,对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号之后,根据所述硬盘型号调用与所述硬盘型号对应的硬盘健康自检策略。也就是说,识别出SSD(Solid State Disk,固态硬盘)的型号后,根据识别出的SSD型号调用相应的健康检查方案。例如,当待处理固态硬盘为SATA SSD时,调用与SATA SSD对应的硬盘健康自检策略,其中,该SATA SSD进行自检时可以参照的检查项目可以包括但不限于:
第一:检测项目为:SATA SSD温度,查询命令为:smartctl-a/dev/sdxxx,smart信息序列号:190/194,控制阈值:门限70度,即大于或者等于70度对SATA SSD进行分析,相关的处理措施:标记异常,具体处理措施看实际情况,检测频率:一次/天;
第二:检测项目为:SATA SSD寿命,查询命令为:smartctl-a/dev/sdxxx,smart信息序列号:233(Intel)、202(micron),控制阈值:smart threshold值+5,相关的处理措施:换盘,检测频率:一次/天;
第三:检测项目为:SATA SSD备份扇区使用情况,查询命令为:smartctl-a/dev/sdxxx,smart信息序列号:5,控制阈值:门限为0,出现RAW VALUE大于0就换盘,相关的处理措施:换盘,检测频率:一次/天;
第四:检测项目为:写入总量,查询命令为:smartctl-a/dev/sdxxx,smart信息序列号:Intel SATA SSD参考241项,三星SSD参考241项Total LBAs Written,例如:
Host write=566320*65536*512=19,002,545,930,240Bytes;
控制阈值:门限=容量×DWPD×年数×365×95%;
其中,DWPD表示每日整盘写入次数。
DWPD参数:三星PM*系列是1.3*3年,IntelS4510系列是1.3~1.9*5年,IntelS4610系列是3.1-3.5*5年,出现RAW VALUE大于0就换盘,相关的处理措施:换盘,检测频率:一次/天;
第五:检测项目为:SATA SSD error,查询命令为:smartctl-a/dev/sdxxx,smart信息序列号:184end to end error SSD内部逻辑块地址与真实物理地址间映射出错次数,控制阈值:门限为0,出现RAW VALUE大于0就换盘,相关的处理措施:换盘,检测频率:一次/天;
第六:检测项目为:SATA SSD error,查询命令为:smartctl-a/dev/sdxxx,smart信息序列号:187reported uncorrected硬件出现不可修复错误,控制阈值:门限为0,出现RAW VALUE大于0就换盘,相关的处理措施:换盘,检测频率:一次/天;
第七:检测项目为:SATA SSD上电总时长,查询命令为:smartctl-a/dev/sdxxx,smart信息序列号:9,控制阈值:26000小时(三星)/43000小时(Intel&Micron),相关的处理措施:换盘,检测频率:一次/天;
第八:检测项目为:磨损坏块占比,查询命令为:smartctl-a/dev/sdxxx,smart信息序列号:177Wear Leveling Count磨损坏块占比,控制阈值:按照当前管软最严标准执行,相关的处理措施:换盘,检测频率:一次/天;
第九:检测项目为:error log,查询命令为:smartctl-a/dev/sdxxx,smart信息序列号:任何error log,控制阈值:具体分析log,相关的处理措施:具体分析,检测频率:一次/天。
当待处理固态硬盘为NVME SSD时,调用与NVME SSD对应的硬盘健康自检策略,其中,该NVME SSD进行自检时可以参照的检查项目可以包括但不限于:
第一:检测项目为:NVMe SSD的告警,查询命令为:nvme smart-log/dev/nvme*,smart信息序列号:1(critical warning),控制阈值:参考具体告警含义,相关的处理措施:具体分析,检测频率:一次/天;
第二:检测项目为:NVMe SSD温度,查询命令为:nvme smart-log/dev/nvme*,smart信息序列号:2(temperature),控制阈值:参考自研ssd的温控(≥70为高温告警),相关的处理措施:标记异常,具体分析,检测频率:一次/天;
第三:检测项目为:NVMe SSD的OP,查询命令为:nvme smart-log/dev/nvme*,smart信息序列号:3(available spare),控制阈值:参参考预留空间告警比例(目前自研设置为10%),相关的处理措施:换盘,检测频率:一次/天;
第四:检测项目为:NVMe SSD的percentage used,查询命令为:nvme smart-log/dev/nvme*,smart信息序列号:5(percentage used),控制阈值:95%(100%代表寿命已用尽,转为不可靠状态),相关的处理措施:换盘,检测频率:一次/天;
第五:检测项目为:NVMe SSD的media and data integrity errors(介质和数据完整性错误计数),查询命令为:nvme smart-log/dev/nvme*,smart信息序列号:14(mediaerror),控制阈值:门限为0,大于0就要分析,相关的处理措施:具体分析,检测频率:一次/天;
第六:检测项目为:写入总量,查询命令为:nvme smart-log/dev/nvme*,smart信息序列号:Host write connands data units written写入总量(单位0.5MiB),例如:data_units_written:215,892,表示host已经累计写入:
215,892x 512x1000=110,536,704,000bytes;
控制阈值:容量×DWPD×年数×365×95%,相关的处理措施:换盘,检测频率:一次/天;
第七:检测项目为:error log,查询命令为:nvme smart-log/dev/nvme*,smart信息序列号:任何error log,控制阈值:具体分析log,相关的处理措施:具体分析,检测频率:一次/天。
也即,识别SSD环境可靠的关键参数,建立环境可靠性参数判断方式,并通过有效的指令进行识别。
步骤S13:基于所述硬盘健康自检策略对当前所述待检测固态硬盘的存储环境进行检查得到相应的硬盘检查结果。
本实施例中,根据所述硬盘型号调用与所述硬盘型号对应的硬盘健康自检策略之后,基于所述硬盘健康自检策略对当前所述待检测固态硬盘的存储环境进行检查得到相应的硬盘检查结果,也就是说,对相关型号的SSD按不同的检查项目进行关键参数检查,得到相关的反馈信息,根据该反馈信息确定SSD的存储环境是否健康。不同类型的固态硬盘参照不同的自检策略识别SSD的存储环境是否健康,如果执行任一上述检测项目时,对与该检测项目关联的关键参数进行检查时,该关键参数超过更换硬盘的门限值时,则得到固态硬盘反馈的自检结果为NO GOOD;如果执行所述硬盘健康自检策略中所有的检测项目都通过,则得到固态硬盘反馈的自检结果为GOOD。
可见,本申请实施例中通过识别当前待检测固态硬盘的硬盘型号,然后根据该硬盘型号调用相应的硬盘健康自检策略,进而基于该硬盘自检策略对当前待检测固态硬盘的存储环境进行检查,从而提高存储环境在业务场景中的可靠性。也就是说,本申请实施例深入数据盘收集信息进行检测,极大程度上避免了在后期的使用过程中出现各种问题,降低了数据盘不可靠的隐患,以及在后期应用和运营的过程中,仍可以将该方式作为一个日常自检的预警方式来维持存储集群可靠性。
参见图2所示,本发明实施例公开了一种具体的固态硬盘检测方法,相较于上一实施例,本实施例对技术方案作了进一步的说明和优化。
步骤S21:对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号。
步骤S22:根据所述硬盘型号调用与所述硬盘型号对应的硬盘健康自检策略。
步骤S23:基于所述硬盘健康自检策略对当前所述待检测固态硬盘的存储环境进行检查得到相应的硬盘检查结果。
关于上述步骤S21至步骤S23的具体内容可以参考前述实施例中公开的相应内容,在此不再进行赘述。
步骤S24:根据所述检查结果确定出相应的处理措施。
本实施例中,基于所述硬盘健康自检策略对当前所述待检测固态硬盘的存储环境进行检查得到相应的硬盘检查结果之后,对该检查结果进行分析,如果该待处理固态硬盘存在一些故障问题,可以针对该故障问题确定出适合的处理措施。
步骤S25:将所述处理措施发送至客户端以便所述客户端根据所述处理措施对所述待检测固态硬盘执行相应的处理操作。
本实施例中,确定出相关的处理措施之后,将该处理措施发送至客户端,有客户端根据该处理措施对待检测固态硬盘执行相关的处理操作,从而解决待处理固态硬盘存在的故障问题。
可见,本申请实施例中通过识别当前待检测固态硬盘的硬盘型号,然后根据该硬盘型号调用相应的硬盘健康自检策略,进而基于该硬盘自检策略对当前待检测固态硬盘的存储环境进行检查,并根据检查结果确定出相应的处理措施,使得客户端能够根据该处理措施对对存在故障的所述待检测固态硬盘执行相应的处理操作,从而提高存储环境在业务场景中的可靠性。
参见图3所示,本发明实施例公开了一种具体的固态硬盘检测方法,相较于上一实施例,本实施例对技术方案作了进一步的说明和优化。
步骤S31:确定预先搭建的分布式存储集群的集群状态,并基于所述集群状态确定是否检查OSD状态。
需要指出的是,分布式存储系统,是围绕数据生产、分析、备份、归档,构建融合统一的数据底座,提供数据存储端到端的业务应用场景,实现方式是将数据分散存储在多台独立的设备上,数据则是通过内存存入到数据盘中,在如今数字化时代,数据规模和复杂度的增加往往非常迅速,数据存储环境可靠性至关重要。服务器作为存储节点的载体,固态硬盘是必不可少的,其中分为系统盘和数据盘,而数据盘则是用来储存该存储节点,本申请的技术方案能够在完成存储集群搭建后进行数据盘存储环境的自检测,以提高存储环境在业务场景中的可靠性。
本实施例中,预先搭建出的分布式存储集群,并预先创建存储池,并导出供客户端使用的配置文件后,查看集群容量使用情况,查看OSD(Object Storage Device,对象存储资源)状态,从而判断是否容量均衡,也即,确定出预先搭建出的分布式存储集群的集群状态然后基于该集群状态确定是否检查OSD状态。可以理解的是,当所述集群状态为HEALTH_OK状态时,则检查OSD状态;当所述集群状态为HEALTH_ERROR状态时,则结束当前的自检测流程并打印当前的执行结果。也就是说,针对SSD的自检进行判断,如果无ERR,则进行下一步,否则跳出整个自检流程,并打印中止节点的执行结果,该执行结果即Health ERR反馈的信息。
步骤S32:当检查到的所述OSD状态为预设目标状态,则判断OSD CrushMap是否一致。
本实施例中,在集群状态为HEALTH_OK状态时,检查OSD,并且该OSD的状态为预设目标状态时,进而判断OSD CrushMap是否一致。
步骤S33:如果所述OSD CrushMap一致,则对MON状态和MDS状态进行检查得到相应的状态检查结果。
本实施例中,在判断OSD CrushMap是否一致时,如果所述OSD CrushMap一致,则对MON状态和MDS状态进行检查得到相应的状态检查结果。可以理解的是,只有确保OSDCrushMap一致之后,才对MON状态和MDS状态进行检查。也即,判断weight列和reweight列的信息是否保持一致,当weight列和reweight列的信息保持一致,才对MON状态和MDS状态进行检查。如果所述OSD CrushMap不一致,则结束当前的自检测流程并打印当前的执行结果。
步骤S34:基于所述状态检查结果确定是否对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号。
本实施例中,对MON状态和MDS状态进行检查得到相应的状态检查结果之后,基于所述状态检查结果确定是否对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号。可以理解的是,在所述状态检查结果满足条件时,才对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号。例如,通过cephmon/mds stat来查看是否mon都在线以及mds是否已经部署,反馈状态是否为up|active。
步骤S35:根据所述硬盘型号调用与所述硬盘型号对应的硬盘健康自检策略。
步骤S36:基于所述硬盘健康自检策略对当前所述待检测固态硬盘的存储环境进行检查得到相应的硬盘检查结果。
关于上述步骤S35至步骤S36的具体内容可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本申请实施例中当所述集群状态为HEALTH_OK状态时,则检查OSD状态,并且在所述OSD状态为预设目标状态时,判断出的OSD CrushMap保持一致时,对MON状态和MDS状态进行检查得到相应的状态检查结果,基于该检查结果确定是否识别当前待检测固态硬盘的硬盘型号,如果能够识别当前待检测固态硬盘的硬盘型号,则根据该硬盘型号调用相应的硬盘健康自检策略,进而基于该硬盘自检策略对当前待检测固态硬盘的存储环境进行检查,从而提高存储环境在业务场景中的可靠性。
参见图4所示,本发明实施例公开了一种具体的固态硬盘检测方法,相较于上一实施例,本实施例对技术方案作了进一步的说明和优化。
步骤S41:通过目标调用指令调用集群状态获取函数,并利用所述集群状态获取函数获取预先搭建的分布式存储集群的状态。
本实施例中,可以通过目标调用指令调用集群状态获取函数,并利用所述集群状态获取函数获取预先搭建的分布式存储集群的状态。例如,通过ceph–s调用get_cluster_status函数,利用get_cluster_status函数获取预先搭建的分布式存储集群的状态。
步骤S42:将获取到的所述状态确定为所述分布式存储集群的集群状态。
本实施例中,利用所述集群状态获取函数获取预先搭建的分布式存储集群的状态之后,将获取到的所述状态确定为所述分布式存储集群的集群状态,也就是说,根据反馈的集群ID确认该集群的健康情况。
步骤S43:基于所述集群状态确定是否检查OSD状态。
步骤S44:当检查到的所述OSD状态为预设目标状态,则判断OSD CrushMap是否一致;
步骤S45:如果所述OSD CrushMap一致,则对MON状态和MDS状态进行检查得到相应的状态检查结果;
步骤S46:基于所述状态检查结果确定是否对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号。
步骤S47:根据所述硬盘型号调用与所述硬盘型号对应的硬盘健康自检策略。
步骤S48:基于所述硬盘健康自检策略对当前所述待检测固态硬盘的存储环境进行检查得到相应的硬盘检查结果。
关于上述步骤S43至步骤S48的具体内容可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本申请实施例中通过目标调用指令调用集群状态获取函数,并将利用所述集群状态获取函数获取到的预先搭建的分布式存储集群的状态确定为集群状态,当所述集群状态为HEALTH_OK状态时,则检查OSD状态,并且在所述OSD状态为预设目标状态时,判断出的OSD CrushMap保持一致时,对MON状态和MDS状态进行检查得到相应的状态检查结果,基于该检查结果确定是否识别当前待检测固态硬盘的硬盘型号,如果能够识别当前待检测固态硬盘的硬盘型号,则根据该硬盘型号调用相应的硬盘健康自检策略,进而基于该硬盘自检策略对当前待检测固态硬盘的存储环境进行检查,从而提高存储环境在业务场景中的可靠性。
参见图5所示,本发明实施例公开了一种具体的固态硬盘检测方法,相较于上一实施例,本实施例对技术方案作了进一步的说明和优化。
步骤S51:确定预先搭建的分布式存储集群的集群状态,并基于所述集群状态确定是否检查OSD状态。
步骤S52:当检查到的所述OSD状态为up且in状态时,则判断OSD CrushMap是否一致。
本实施例中,在集群状态为HEALTH_OK状态时,检查OSD,并且该OSD的状态为为up且in状态时,进而判断OSD CrushMap是否一致。例如,通过ceph osd stat反馈的信息进行查询,确认所有OSD状态为up且in状态,然后检查OSD CrushMap是否一致。
步骤S53:如果所述OSD CrushMap一致,则对MON状态和MDS状态进行检查得到相应的状态检查结果。
步骤S54:基于所述状态检查结果确定是否对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号。
步骤S55:根据所述硬盘型号调用与所述硬盘型号对应的硬盘健康自检策略。
步骤S56:基于所述硬盘健康自检策略对当前所述待检测固态硬盘的存储环境进行检查得到相应的硬盘检查结果。
关于上述步骤S51以及上述步骤S53至步骤S56的具体内容可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本申请实施例中当所述集群状态为HEALTH_OK状态时,则检查OSD状态,并且在所述OSD状态为up且in状态时,判断出的OSD CrushMap保持一致时,对MON状态和MDS状态进行检查得到相应的状态检查结果,基于该检查结果确定是否识别当前待检测固态硬盘的硬盘型号,如果能够识别当前待检测固态硬盘的硬盘型号,则根据该硬盘型号调用相应的硬盘健康自检策略,进而基于该硬盘自检策略对当前待检测固态硬盘的存储环境进行检查,从而提高存储环境在业务场景中的可靠性。
参见图6所示,本发明实施例公开了一种具体的固态硬盘检测方法,相较于上一实施例,本实施例对技术方案作了进一步的说明和优化。
步骤S61:确定预先搭建的分布式存储集群的集群状态,并基于所述集群状态确定是否检查OSD状态。
步骤S62:当检查到的所述OSD状态为预设目标状态,则判断OSD CrushMap是否一致。
步骤S63:如果所述OSD CrushMap一致,则对MON状态和MDS状态进行检查得到相应的状态检查结果。
步骤S64:如果所述检查结果表明所有所述MON处于在线状态,则对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号。
本实施例中,对MON状态和MDS状态进行检查时,得到的检查结果表明所有所述MON处于在线状态,则对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号。
步骤S65:根据所述硬盘型号调用与所述硬盘型号对应的硬盘健康自检策略。
步骤S66:基于所述硬盘健康自检策略对当前所述待检测固态硬盘的存储环境进行检查得到相应的硬盘检查结果。
关于上述步骤S61至步骤S63以及上述步骤S65至步骤S66的具体内容可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本申请实施例中当所述集群状态为HEALTH_OK状态时,则检查OSD状态,并且在所述OSD状态为预设目标状态时,判断出的OSD CrushMap保持一致时,对MON状态和MDS状态进行检查,当所述MON处于在线状态时,则识别当前待检测固态硬盘的硬盘型号,进而根据识别出的硬盘型号调用相应的硬盘健康自检策略,进而基于该硬盘自检策略对当前待检测固态硬盘的存储环境进行检查,从而提高存储环境在业务场景中的可靠性。
参见图7所示,本发明实施例公开了一种具体的固态硬盘检测方法,相较于上一实施例,本实施例对技术方案作了进一步的说明和优化。
步骤S71:确定预先搭建的分布式存储集群的集群状态,并基于所述集群状态确定是否检查OSD状态。
步骤S72:当检查到的所述OSD状态为预设目标状态,则判断OSD CrushMap是否一致。
步骤S73:如果所述OSD CrushMap一致,则对MON状态和MDS状态进行检查得到相应的状态检查结果。
步骤S74:如果所述检查结果表明所有所述MON处于在线状态且所述MDS状态处于up且active状态,则对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号。
本实施例中,对MON状态和MDS状态进行检查时,得到的检查结果表明所有所述MON处于在线状态且所述MDS状态处于up且active状态,则对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号。
步骤S75:根据所述硬盘型号调用与所述硬盘型号对应的硬盘健康自检策略。
步骤S76:基于所述硬盘健康自检策略对当前所述待检测固态硬盘的存储环境进行检查得到相应的硬盘检查结果。
关于上述步骤S71至步骤S73以及上述步骤S75至步骤S76的具体内容可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本申请实施例中当所述集群状态为HEALTH_OK状态时,则检查OSD状态,并且在所述OSD状态为预设目标状态时,判断出的OSD CrushMap保持一致时,对MON状态和MDS状态进行检查,当所有所述MON处于在线状态且所述MDS状态处于up且active状态时,则识别当前待检测固态硬盘的硬盘型号,进而根据识别出的硬盘型号调用相应的硬盘健康自检策略,进而基于该硬盘自检策略对当前待检测固态硬盘的存储环境进行检查,从而提高存储环境在业务场景中的可靠性。
相应的,本申请实施例还公开了一种固态硬盘检测装置,参见图8所示,该装置包括:
硬盘型号识别模块11,用于对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号;
自检策略调用模块12,用于根据所述硬盘型号调用与所述硬盘型号对应的硬盘健康自检策略;
硬盘检查模块13,用于基于所述硬盘健康自检策略对当前所述待检测固态硬盘的存储环境进行检查得到相应的硬盘检查结果。
由上可见,本申请实施例中通过识别当前待检测固态硬盘的硬盘型号,然后根据该硬盘型号调用相应的硬盘健康自检策略,进而基于该硬盘自检策略对当前待检测固态硬盘的存储环境进行检查,从而提高存储环境在业务场景中的可靠性。
在一些具体的实施例中,所述固态硬盘检测装置,还可以包括:
集群状态确定模块,用于确定预先搭建的分布式存储集群的集群状态;
OSD状态检查模块,用于基于所述集群状态确定是否检查OSD状态;
判断模块,用于当检查到的所述OSD状态为预设目标状态,则判断OSD CrushMap是否一致;
状态检查模块,用于当所述OSD CrushMap一致时,则对MON状态和MDS状态进行检查得到相应的状态检查结果;
在一些具体的实施例中,所述硬盘型号识别模块11,还可以包括:
硬盘型号确定单元,用于基于所述状态检查结果确定是否对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号。
在一些具体的实施例中,所述集群状态确定模块,还可以包括:
函数调用单元,用于通过目标调用指令调用集群状态获取函数;
集群状态获取单元,用于利用所述集群状态获取函数获取预先搭建的分布式存储集群的状态;
在一些具体的实施例中,所述OSD状态检查模块,还可以包括:
OSD状态检查单元,用于当所述集群状态为HEALTH_OK状态时,则检查OSD状态;
检测结束单元,当所述集群状态为HEALTH_ERROR状态时,则结束当前的自检测流程并打印当前的执行结果。
在一些具体的实施例中,所述判断模块,还可以包括:
CrushMap判断单元,用于当检查到的所述OSD状态为up且in状态时,则判断OSDCrushMap是否一致。
在一些具体的实施例中,所述硬盘型号确定单元,还可以包括:
第一硬盘型号确定子单元,用于当所述检查结果表明所有所述MON处于在线状态时,则对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号;
或,第二硬盘型号确定子单元,用于当所述检查结果表明所有所述MON处于在线状态且所述MDS状态处于up且active状态时,则对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号。
在一些具体的实施例中,所述固态硬盘检测装置,还可以包括:
处理措施确定模块,用于根据所述检查结果确定出相应的处理措施;
硬盘处理模块,用于将所述处理措施发送至客户端以便所述客户端根据所述处理措施对所述待检测固态硬盘执行相应的处理操作。
进一步的,本申请实施例还提供了一种电子设备。图9是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图9为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的固态硬盘检测方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的固态硬盘检测方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本申请实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现前述任一实施例公开的固态硬盘检测方法步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种固态硬盘检测方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种固态硬盘检测方法,其特征在于,包括:
对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号;
根据所述硬盘型号调用与所述硬盘型号对应的硬盘健康自检策略;
基于所述硬盘健康自检策略对当前所述待检测固态硬盘的存储环境进行检查得到相应的硬盘检查结果。
2.根据权利要求1所述的固态硬盘检测方法,其特征在于,所述对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号之前,还包括:
确定预先搭建的分布式存储集群的集群状态,并基于所述集群状态确定是否检查OSD状态;
当检查到的所述OSD状态为预设目标状态,则判断OSD CrushMap是否一致;
如果所述OSD CrushMap一致,则对MON状态和MDS状态进行检查得到相应的状态检查结果;
相应的,所述对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号,包括:
基于所述状态检查结果确定是否对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号。
3.根据权利要求2所述的固态硬盘检测方法,其特征在于,所述确定预先搭建的分布式存储集群的集群状态,包括:
通过目标调用指令调用集群状态获取函数,并利用所述集群状态获取函数获取预先搭建的分布式存储集群的状态;
将获取到的所述状态确定为所述分布式存储集群的集群状态。
4.根据权利要求2所述的固态硬盘检测方法,其特征在于,所述基于所述集群状态确定是否检查OSD状态,包括:
当所述集群状态为HEALTH_OK状态时,则检查OSD状态;
当所述集群状态为HEALTH_ERROR状态时,则结束当前的自检测流程并打印当前的执行结果。
5.根据权利要求2所述的固态硬盘检测方法,其特征在于,所述当检查到的所述OSD状态为预设目标状态,则判断OSD CrushMap是否一致,包括:
当检查到的所述OSD状态为up且in状态时,则判断OSD CrushMap是否一致。
6.根据权利要求2所述的固态硬盘检测方法,其特征在于,所述基于所述状态检查结果确定是否对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号,包括:
如果所述检查结果表明所有所述MON处于在线状态,则对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号;
或,如果所述检查结果表明所有所述MON处于在线状态且所述MDS状态处于up且active状态,则对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号。
7.根据权利要求1至6任一项所述的固态硬盘检测方法,其特征在于,所述基于所述硬盘健康自检策略对当前所述待检测固态硬盘的存储环境进行检查得到相应的硬盘检查结果之后,还包括:
根据所述检查结果确定出相应的处理措施;
将所述处理措施发送至客户端以便所述客户端根据所述处理措施对所述待检测固态硬盘执行相应的处理操作。
8.一种固态硬盘检测装置,其特征在于,包括:
硬盘型号识别模块,用于对当前待检测固态硬盘进行识别以确定出当前所述待检测固态硬盘对应的硬盘型号;
自检策略调用模块,用于根据所述硬盘型号调用与所述硬盘型号对应的硬盘健康自检策略;
硬盘检查模块,用于基于所述硬盘健康自检策略对当前所述待检测固态硬盘的存储环境进行检查得到相应的硬盘检查结果。
9.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求1至7任一项所述的固态硬盘检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的固态硬盘检测方法的步骤。
CN202210910220.2A 2022-07-29 2022-07-29 一种固态硬盘检测方法、装置、设备及存储介质 Pending CN115240759A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210910220.2A CN115240759A (zh) 2022-07-29 2022-07-29 一种固态硬盘检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210910220.2A CN115240759A (zh) 2022-07-29 2022-07-29 一种固态硬盘检测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115240759A true CN115240759A (zh) 2022-10-25

Family

ID=83678256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210910220.2A Pending CN115240759A (zh) 2022-07-29 2022-07-29 一种固态硬盘检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115240759A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383097A (zh) * 2023-03-27 2023-07-04 深圳市芯存科技有限公司 Spi Nand flash坏块管理方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383097A (zh) * 2023-03-27 2023-07-04 深圳市芯存科技有限公司 Spi Nand flash坏块管理方法和系统
CN116383097B (zh) * 2023-03-27 2024-05-17 深圳市芯存科技有限公司 Spi Nand flash坏块管理方法和系统

Similar Documents

Publication Publication Date Title
US7664986B2 (en) System and method for determining fault isolation in an enterprise computing system
US9298800B2 (en) Discovering relationships between data processing environment components
US7165190B1 (en) Method and mechanism for managing traces within a computer system
US8910172B2 (en) Application resource switchover systems and methods
US20040133670A1 (en) Distributed notification and action mechanism for mirroring-related events
US8949653B1 (en) Evaluating high-availability configuration
JP2007529059A (ja) リレーショナル・コンフィギュレーション・ミラーリングのシステムおよび方法
CN106294073A (zh) 服务调用方法及装置
US11494130B2 (en) Operation data accessing device and accessing method thereof
CN114443332B (zh) 一种存储池的检测方法、装置、电子设备及存储介质
WO2021112909A1 (en) Managing replication state for deleted objects
CN111522703A (zh) 监控访问请求的方法、设备和计算机程序产品
CN114553672B (zh) 一种应用系统性能瓶颈确定方法、装置、设备、介质
US11210183B2 (en) Memory health tracking for differentiated data recovery configurations
CN102981939B (zh) 磁盘监控方法
CN115240759A (zh) 一种固态硬盘检测方法、装置、设备及存储介质
US10783042B2 (en) System and method of assessing and managing storage device degradation
CN108306780B (zh) 一种基于云环境的虚拟机通信质量自优化的系统和方法
CN105825641A (zh) 一种业务报警方法和装置
CN115686921A (zh) 一种多路径异常检测修复方法、装置、设备及介质
US20090241136A1 (en) Method to Precondition a Storage Controller for Automated Data Collection Based on Host Input
CN115687026A (zh) 多节点服务器故障预警方法、装置、设备及介质
CN104348641A (zh) 一种故障的检测方法和故障检测装置
CN109471590A (zh) 一种挂载点管理方法、装置及存储节点
CN102822806B (zh) 检测应用的无进展状态

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination