CN114816267A - 一种存储设备的监控方法及系统 - Google Patents

一种存储设备的监控方法及系统 Download PDF

Info

Publication number
CN114816267A
CN114816267A CN202210609660.4A CN202210609660A CN114816267A CN 114816267 A CN114816267 A CN 114816267A CN 202210609660 A CN202210609660 A CN 202210609660A CN 114816267 A CN114816267 A CN 114816267A
Authority
CN
China
Prior art keywords
information
control module
storage device
state
management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210609660.4A
Other languages
English (en)
Inventor
郭睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210609660.4A priority Critical patent/CN114816267A/zh
Publication of CN114816267A publication Critical patent/CN114816267A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0653Monitoring storage devices or systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种存储设备的监控方法及系统,设备管控模块监控存储设备的状态信息,并将存储设备的状态信息配置成参数信息;设备管控模块对参数信息进行分析判断;当参数信息出现异常信息时,分析出异常信息表示的故障状态;对故障状态进行报警。本发明通过对存储设备的架构优化,新增设备管控模块,用于对存储设备的带外和带内信息管理,避免了存储设备信息监控对主控的依赖性,确保存储设备或主控失效后,系统仍然可以与服务器进行信息交流,保证故障监控和信息收集,实现更高可靠性的监控功能。

Description

一种存储设备的监控方法及系统
技术领域
本发明涉及存储设备监控技术领域,尤其涉及一种存储设备的监控方法及系统。
背景技术
E3.S作为新型的存储设备,在使用过程中,可能会出现一些问题或异常,当前传统的监控方式是BMC带外监控或OS带内监控,服务器通过访问盘的主控获取的故障或监控信息,收集到异常信息后将故障在服务器的BMC或系统中展示,供用户进行故障分析与判断。
但是现在的监控方式有一个致命问题,无论是带外还是带内,E3.S的信息反馈全部依靠于盘的主控,当存储设备遇到严重故障时,盘的主控失效宕机,带外和带内监控都会瘫痪,无法再与外界进行通信和故障信息的收集与反馈。而且BMC监控依靠于盘的主控状态,主控异常时,BMC监控失效;
如果BMC和SMART LOG信息反馈效率受主控繁忙度影响,存储设备性能越高,主控越繁忙,BMC与SMART LOG的监控频率越低,监控易遗漏异常信息。
发明内容
本发明提供一种存储设备的监控方法,监控方法实现对故障诊断精准定位的功能,大大提升了服务器运行的可靠性。
存储设备的监控方法包括:设备管控模块监控存储设备的状态信息,并将存储设备的状态信息配置成参数信息;
设备管控模块对参数信息进行分析判断;
当参数信息出现异常信息时,分析出异常信息表示的故障状态;
对故障状态进行报警。
进一步需要说明的是,方法中,设备管控模块基于内部配置的预设数量寄存器对存储设备状态信息进行解析,并解析生成基于寄存器所输出的参数信息。
进一步需要说明的是,方法还包括:
设备管控模块基于内部配置的第一寄存器对存储设备的剩余空间状态信息进行解析,并解析生成剩余空间参数信息;
当存储设备剩余空间低于阈值时,第一寄存器动作,设备管控模块分析出剩余空间参数信息为故障状态;
基于存储设备剩余空间低于阈值进行报警。
进一步需要说明的是,设备管控模块基于内部配置的第二寄存器对存储设备的运行温度状态信息进行解析,并解析生成运行温度参数信息;
当存储设备运行温度超过阈值时,第二寄存器动作,设备管控模块分析出运行温度参数信息为故障状态;
基于存储设备运行温度超过阈值进行报警。
进一步需要说明的是,设备管控模块基于内部配置的第三寄存器对存储设备的Media Error告警状态信息进行解析,并解析生成Media Error参数信息;
当存储设备出现Media Error参数信息时,第三寄存器动作,设备管控模块分析出Media Error告警状态信息;
基于存储设备出现Media Error参数信息进行报警。
进一步需要说明的是,设备管控模块基于内部配置的第四寄存器对存储设备的写入状态信息进行解析,并解析生成写入状态参数信息;
当存储设备无法进行数据写入时,第四寄存器动作,设备管控模块分析出写入状态参数信息为故障状态;
基于存储设备无法进行数据写入进行报警。
进一步需要说明的是,设备管控模块基于内部配置的第五寄存器对存储设备的备份状态信息进行解析,并解析生成备份状态参数信息;
当对存储设备内部数据进行备份失效时,第五寄存器动作,设备管控模块分析出备份失效信息为故障状态;
基于存储设备备份失效状态进行报警。
本发明还提供一种存储设备的监控系统,系统包括:主机;主机内部设有主控模块、存储设备和设备管控模块;
设备管控模块监控存储设备的状态信息,并将存储设备的状态信息配置成参数信息;
设备管控模块对所述参数信息进行分析判断;
当参数信息出现异常信息时,分析出异常信息表示的故障状态;
对故障状态进行报警。
进一步需要说明的是,设备管控模块还用于对存储设备的状态信息进行解析,解析生成基于寄存器所输出的参数信息;
对存储设备的每种状态信息配置一寄存器,并基于寄存器所输出的参数信息,表示存储设备的当前状态信息;
当存储设备出现异常信息时,异常信息所对应的寄存器动作,并输出故障状态;设备管控模块对故障状态进行报警。
进一步需要说明的是,还包括:服务器;
设备管控模块与服务器通信连接,设备管控模块将存储设备的状态信息以及故障状态发送给服务器。
从以上技术方案可以看出,本发明具有以下优点:
本发明提供的系统中,设备管控模块与服务器通信连接,设备管控模块将存储设备的状态信息以及故障状态发送给服务器,使监控人员通过服务器监控存储设备的每种状态信息以及故障信息。如果出现故障信息可以及时进行处理。
本发明对E3.S存储设备的现有的架构设计进行了优化,单独建立一个设备管控模块进行故障监控与收集,设备管控模块通过PCIE Pin脚与主机独立沟通,解决存储设备带内或带外监控必须依赖E3.S存储设备主控的问题。
本发明通过设备管控模块监控,用户可以在E3.S存储设备的剩余(冗余)空间到达阈值、盘体超温和温度传感器损坏、存储设备发生Media error、盘的状态进入Error Mode或Read Only模式、易失性内存(DRAM)失效的五个方面对服务器系统进行监控,达到故障诊断精准定位的功能,大大提升了服务器运行的可靠性。
本发明通过对E3.S存储设备的架构优化,设置设备管控模块用于盘的带外和带内信息管理,抛离了存储设备信息监控对主控的依赖性,确保盘或主控失效后,设备管控模块仍然可以与服务器进行信息交流,保证故障监控和信息收集,实现更高可靠性的监控功能。
附图说明
为了更清楚地说明本发明的技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为存储设备的监控系统示意图;
图2为存储设备的监控系统实施例示意图;
图3为存储设备的监控方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的存储设备的监控系统和方法中是基于E3.S存储设备进行监控,主要是解决E3.S存储设备在使用过程中,出现一些问题或异常,如果BMC和SMART LOG信息反馈效率受主控繁忙度影响,存储设备性能越高,主控越繁忙,BMC与SMART LOG的监控频率越低,监控易遗漏异常信息的问题。
特此本发明提供了存储设备的监控系统,如图1所示,系统包括:主机2;主机2内部设有主控模块3、存储设备4和设备管控模块5;设备管控模块5监控存储设备4的状态信息,并将存储设备4的状态信息配置成参数信息;设备管控模块5对所述参数信息进行分析判断;当参数信息出现异常信息时,分析出异常信息表示的故障状态;对故障状态进行报警。本发明涉及的设备管控模块为Device Management Controller设备管理控制器。
在本发明的一种实施例中,以下将给出一种可能的实施例对其具体的实施方案进行非限制性阐述。
系统架构可以包括主机2,通信总线和服务器1。通信总线是用以在主机2和服务器1之间提供通信链路的介质。通信总线可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
应该理解,主机2、通信总线和服务器1的数目仅仅是示意性的。根据实现需要,可以具有任意数目的主机、通信总线和服务器。比如服务器1可以是多个服务器组成的服务器集群等。
用户可以使用主机通过通信总线与服务器交互,以接收或发送消息等。主机可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式计算机、数字电影放映机等等。
对于本发明涉及的设备管控模块来讲,设备管控模块还用于对存储设备的状态信息进行解析,解析生成基于寄存器所输出的参数信息;
对存储设备的每种状态信息配置一寄存器,并基于寄存器所输出的参数信息,表示存储设备的当前状态信息;当存储设备出现异常信息时,异常信息所对应的寄存器动作,并输出故障状态;设备管控模块对故障状态进行报警。
比如可以设置第一寄存器对存储设备的剩余空间状态信息进行解析,并解析生成剩余空间参数信息;当存储设备剩余空间低于阈值时,第一寄存器动作,设备管控模块分析出剩余空间参数信息为故障状态;基于存储设备剩余空间低于阈值进行报警。
示例性的讲,设备管控模块基于内部配置的第二寄存器对存储设备的运行温度状态信息进行解析,并解析生成运行温度参数信息;当存储设备运行温度超过阈值时,第二寄存器动作,设备管控模块分析出运行温度参数信息为故障状态;基于存储设备运行温度超过阈值进行报警。
设备管控模块基于内部配置的第三寄存器对存储设备的Media Error告警状态信息进行解析,并解析生成Media Error参数信息;当存储设备出现Media Error参数信息时,第三寄存器动作,设备管控模块分析出Media Error告警状态信息;基于存储设备出现Media Error参数信息进行报警。
设备管控模块基于内部配置的第四寄存器对存储设备的写入状态信息进行解析,并解析生成写入状态参数信息;当存储设备无法进行数据写入时,第四寄存器动作,设备管控模块分析出写入状态参数信息为故障状态;基于存储设备无法进行数据写入进行报警。
设备管控模块基于内部配置的第五寄存器对存储设备的备份状态信息进行解析,并解析生成备份状态参数信息;当对存储设备内部数据进行备份失效时,第五寄存器动作,设备管控模块分析出备份失效信息为故障状态;基于存储设备备份失效状态进行报警。
这样本发明实现了对E3.S存储设备的运行温度超过阈值状态,Media Error状态,无法进行数据写入状态,备份失效状态等进行监控。
当然本发明并不局限于上述状态,可以根据实际需要监控对E3.S存储设备的其他状态。保证系统的稳定运行。
本发明通过设备管控模块监控,用户可以在E3.S存储设备的剩余(冗余)空间到达阈值、盘体超温和温度传感器损坏、存储设备发生Media error、盘的状态进入Error Mode或Read Only模式、易失性内存(DRAM)失效的五个方面对服务器系统进行监控,达到故障诊断精准定位的功能,大大提升了服务器运行的可靠性。
本发明提供的系统中,设备管控模块与服务器通信连接,设备管控模块将存储设备的状态信息以及故障状态发送给服务器,使监控人员通过服务器监控存储设备的每种状态信息以及故障信息。如果出现故障信息可以及时进行处理。
本发明对E3.S存储设备的现有的架构设计进行了优化,单独建立一个设备管控模块进行故障监控与收集,设备管控模块通过PCIE Pin脚与主机独立沟通,解决存储设备带内或带外监控必须依赖E3.S存储设备主控的问题。
本发明通过对E3.S存储设备的架构优化,设置设备管控模块用于盘的带外和带内信息管理,抛离了存储设备信息监控对主控的依赖性,确保盘或主控失效后,设备管控模块仍然可以与服务器进行信息交流,保证故障监控和信息收集,实现更高可靠性的监控功能。
基于上述系统,本发明还提供一种存储设备的监控方法,如图2所示,方法包括:
S101、设备管控模块监控存储设备的状态信息,并将存储设备的状态信息配置成参数信息;
S102、设备管控模块对参数信息进行分析判断;
S103、当参数信息出现异常信息时,分析出异常信息表示的故障状态;
S104、对故障状态进行报警。
在本发明的一种实施例中,以下将给出一种可能的实施例对其具体的实施方案进行非限制性阐述。
设备管控模块基于内部配置的预设数量寄存器对存储设备状态信息进行解析,并解析生成基于寄存器所输出的参数信息。
其中,设备管控模块基于内部配置的第一寄存器对存储设备的剩余空间状态信息进行解析,并解析生成剩余空间参数信息;
当存储设备剩余空间低于阈值时,第一寄存器动作,设备管控模块分析出剩余空间参数信息为故障状态;基于存储设备剩余空间低于阈值进行报警。
另一种监控方式为:设备管控模块基于内部配置的第二寄存器对存储设备的运行温度状态信息进行解析,并解析生成运行温度参数信息;
当存储设备运行温度超过阈值时,第二寄存器动作,设备管控模块分析出运行温度参数信息为故障状态;
基于存储设备运行温度超过阈值进行报警。
本发明中,设备管控模块基于内部配置的第三寄存器对存储设备的Media Error告警状态信息进行解析,并解析生成Media Error参数信息;
当存储设备出现Media Error参数信息时,第三寄存器动作,设备管控模块分析出Media Error告警状态信息;
基于存储设备出现Media Error参数信息进行报警。
本发明的实施例中,设备管控模块基于内部配置的第四寄存器对存储设备的写入状态信息进行解析,并解析生成写入状态参数信息;
当存储设备无法进行数据写入时,第四寄存器动作,设备管控模块分析出写入状态参数信息为故障状态;
基于存储设备无法进行数据写入进行报警。
本发明的实施例中,设备管控模块基于内部配置的第五寄存器对存储设备的备份状态信息进行解析,并解析生成备份状态参数信息;
当对存储设备内部数据进行备份失效时,第五寄存器动作,设备管控模块分析出备份失效信息为故障状态;
基于存储设备备份失效状态进行报警。
这样,本发明对E3.S存储设备的现有的架构设计进行了优化,单独建立一个设备管控模块进行故障监控与收集,设备管控模块通过PCIE Pin脚与主机独立沟通,解决存储设备带内或带外监控必须依赖E3.S存储设备主控的问题。
下面将结合本发明实施例中,对本发明实施例中的技术方案进行清楚、完整地描述,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明在设备管控模块中,配置了五个寄存器,每个寄存器代表不同的监控项目,当各寄存器的bit值发生变化时,代表E3.S存储设备有对应的故障发生,寄存器的bit初始值都是0,如果寄存器的bit值变为1,则代表有对应的故障发生,设备管控模块独立运作,即使主控或存储设备失效,寄存器值的变化仍然可被主机收集。
五个寄存器对应的意义分别如下:
①第一寄存器:Available spare space has fallen below the threshold,存储设备剩余空间低于阈值告警:此告警发生时,说明存储设备的冗余空间不足,已达到冗余空间的阈值,建议更换寿命无异常的存储设备。
②第二寄存器:Temperature is above an over temperature threshold orbelow an under temperature threshold,存储设备温度超过阈值告警:此告警发生时,说明服务器整机或机房散热异常,建议提升系统风扇转速或降低机房环境温度
③第三寄存器:NVM subsystem reliability has been degraded due tosignificant media related errors or any internal error that degrades NVMsubsystem reliability Media Error告警:此告警发生时,说明存储设备发生了严重错误,SMART LOG的信息也会发生异常,避免客户发生数据丢失的风险,请尽快更换无异常的存储设备
④第四寄存器:Media has been placed in read only mode Error Mode/ReadOnly模式告警:此告警发生时,说明存储设备进入“只读”模式,无法进行数据写入,避免发生数据丢失的风险,请尽快更换无异常的存储设备
⑤第五寄存器:Volatile memory backup device has failed.This field isonly valid if the controller has a volatile memory backup solution存储设备备份系统失效告警:此告警发生时,说明存储设备内部DRAM器件损坏,盘无法正常工作,请尽快更换无异常的存储设备。
本发明通过设备管控模块监控,用户可以在E3.S存储设备的剩余(冗余)空间到达阈值、盘体超温和温度传感器损坏、存储设备发生Media error、盘的状态进入Error Mode或Read Only模式、易失性内存(DRAM)失效的五个方面对服务器系统进行监控,达到故障诊断精准定位的功能,大大提升了服务器运行的可靠性。
本发明提供的系统中,设备管控模块与服务器通信连接,设备管控模块将存储设备的状态信息以及故障状态发送给服务器,使监控人员通过服务器监控存储设备的每种状态信息以及故障信息。如果出现故障信息可以及时进行处理。
本发明提供的存储设备的监控方法及系统是结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属技术领域的技术人员能够理解,本发明提供的存储设备的监控方法的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
本发明涉及的存储设备例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种存储设备的监控方法,其特征在于,方法包括:
设备管控模块监控存储设备的状态信息,并将存储设备的状态信息配置成参数信息;
设备管控模块对参数信息进行分析判断;
当参数信息出现异常信息时,分析出异常信息表示的故障状态;
对故障状态进行报警。
2.根据权利要求1所述的存储设备的监控方法,其特征在于,方法中,设备管控模块基于内部配置的预设数量寄存器对存储设备状态信息进行解析,并解析生成基于寄存器所输出的参数信息。
3.根据权利要求2所述的存储设备的监控方法,其特征在于,方法还包括:
设备管控模块基于内部配置的第一寄存器对存储设备的剩余空间状态信息进行解析,并解析生成剩余空间参数信息;
当存储设备剩余空间低于阈值时,第一寄存器动作,设备管控模块分析出剩余空间参数信息为故障状态;
基于存储设备剩余空间低于阈值进行报警。
4.根据权利要求2所述的存储设备的监控方法,其特征在于,方法还包括:
设备管控模块基于内部配置的第二寄存器对存储设备的运行温度状态信息进行解析,并解析生成运行温度参数信息;
当存储设备运行温度超过阈值时,第二寄存器动作,设备管控模块分析出运行温度参数信息为故障状态;
基于存储设备运行温度超过阈值进行报警。
5.根据权利要求2所述的存储设备的监控方法,其特征在于,方法还包括:
设备管控模块基于内部配置的第三寄存器对存储设备的Media Error告警状态信息进行解析,并解析生成Media Error参数信息;
当存储设备出现Media Error参数信息时,第三寄存器动作,设备管控模块分析出Media Error告警状态信息;
基于存储设备出现Media Error参数信息进行报警。
6.根据权利要求2所述的存储设备的监控方法,其特征在于,方法还包括:
设备管控模块基于内部配置的第四寄存器对存储设备的写入状态信息进行解析,并解析生成写入状态参数信息;
当存储设备无法进行数据写入时,第四寄存器动作,设备管控模块分析出写入状态参数信息为故障状态;
基于存储设备无法进行数据写入进行报警。
7.根据权利要求2所述的存储设备的监控方法,其特征在于,方法还包括:
设备管控模块基于内部配置的第五寄存器对存储设备的备份状态信息进行解析,并解析生成备份状态参数信息;
当对存储设备内部数据进行备份失效时,第五寄存器动作,设备管控模块分析出备份失效信息为故障状态;
基于存储设备备份失效状态进行报警。
8.一种存储设备的监控系统,其特征在于,系统采用如权利要求1至7任意一项所述的存储设备的监控方法,其特征在于,系统包括:主机;主机内部设有主控模块、存储设备和设备管控模块;
设备管控模块监控存储设备的状态信息,并将存储设备的状态信息配置成参数信息;
设备管控模块对所述参数信息进行分析判断;
当参数信息出现异常信息时,分析出异常信息表示的故障状态;
对故障状态进行报警。
9.根据权利要求8所述的存储设备的监控系统,其特征在于,设备管控模块设置预设数量的寄存器;
设备管控模块还用于对存储设备的状态信息进行解析,解析生成基于寄存器所输出的参数信息;
对存储设备的每种状态信息配置一寄存器,并基于寄存器所输出的参数信息,表示存储设备的当前状态信息;
当存储设备出现异常信息时,异常信息所对应的寄存器动作,并输出故障状态;设备管控模块对故障状态进行报警。
10.根据权利要求8所述的存储设备的监控系统,其特征在于,设备管控模块设置预设数量的寄存器;
还包括:服务器;
设备管控模块与服务器通信连接,设备管控模块将存储设备的状态信息以及故障状态发送给服务器。
CN202210609660.4A 2022-05-31 2022-05-31 一种存储设备的监控方法及系统 Pending CN114816267A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210609660.4A CN114816267A (zh) 2022-05-31 2022-05-31 一种存储设备的监控方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210609660.4A CN114816267A (zh) 2022-05-31 2022-05-31 一种存储设备的监控方法及系统

Publications (1)

Publication Number Publication Date
CN114816267A true CN114816267A (zh) 2022-07-29

Family

ID=82519812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210609660.4A Pending CN114816267A (zh) 2022-05-31 2022-05-31 一种存储设备的监控方法及系统

Country Status (1)

Country Link
CN (1) CN114816267A (zh)

Similar Documents

Publication Publication Date Title
CN104639380A (zh) 服务器监控方法
CN109189627B (zh) 一种硬盘故障监控检测方法、装置、终端及存储介质
CN109284207A (zh) 硬盘故障处理方法、装置、服务器和计算机可读介质
CN112732477B (zh) 一种带外自检故障隔离的方法
CN111124722B (zh) 一种隔离故障内存的方法、设备及介质
CN111796959B (zh) 宿主机容器自愈方法、装置及系统
CN111722690B (zh) 服务器电源模块监控方法、装置、服务器和存储介质
CN115878356A (zh) 磁盘故障预测方法及装置
CN100351806C (zh) 具有专用系统管理总线的计算机系统
CN113487182B (zh) 设备健康状态评估方法、装置、计算机设备和介质
US11640377B2 (en) Event-based generation of context-aware telemetry reports
CN109271270A (zh) 存储系统中底层硬件的故障排除方法、系统及相关装置
CN110968456B (zh) 分布式存储系统中故障磁盘的处理方法及装置
CN114816267A (zh) 一种存储设备的监控方法及系统
CN113010375B (zh) 设备告警方法及相关设备
CN115543665A (zh) 一种内存可靠性评估方法、装置及存储介质
JPWO2011051999A1 (ja) 情報処理装置及び情報処理装置の制御方法
CN112084097B (zh) 一种磁盘告警方法及装置
CN111831511A (zh) 一种云服务的业务主机的检测处理方法、装置及介质
CN111190781A (zh) 服务器系统的测试自检方法
CN113568806A (zh) 一种sas卡链路状态监控方法、系统、装置及可读存储介质
JP7436737B1 (ja) マルチベンダーを支援するサーバ管理システム
CN111314103B (zh) 一种数据交换平台的监控系统和存储介质
CN116483613B (zh) 故障内存条的处理方法及装置、电子设备及存储介质
JP2009015553A (ja) 記憶装置およびプログラムおよびメモリ故障救済方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination