CN116881101A - 一种硬盘日志记录、解析及监控方法、系统、设备及介质 - Google Patents

一种硬盘日志记录、解析及监控方法、系统、设备及介质 Download PDF

Info

Publication number
CN116881101A
CN116881101A CN202310833732.8A CN202310833732A CN116881101A CN 116881101 A CN116881101 A CN 116881101A CN 202310833732 A CN202310833732 A CN 202310833732A CN 116881101 A CN116881101 A CN 116881101A
Authority
CN
China
Prior art keywords
hard disk
log
fault data
firmware
log register
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310833732.8A
Other languages
English (en)
Inventor
梁文俊
路明远
周春法
张希伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202310833732.8A priority Critical patent/CN116881101A/zh
Publication of CN116881101A publication Critical patent/CN116881101A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种硬盘日志记录、解析及监控方法、系统、设备及介质,属于硬盘故障分析技术领域,所述方法步骤:S1.预先在硬盘固件设置预留区域,并在预留区域内定义日志寄存器;S2.配置硬盘固件在硬盘工作时按照设定频率采集硬盘故障数据,并将硬盘故障数据保存在定义的日志寄存器中;S3.配置硬盘固件提供接口,向服务器主机端和BMC输出日志寄存器中的硬盘故障数据。本发明通过设计硬盘固件的方式,在硬盘预留区设置日志寄存器记录硬盘故障数据,实现作为硬盘关键信息的硬盘故障日志的自主记录、解析,并能通过BMC实时监控,实现硬盘健康监控和故障预警,不依赖黑盒日志,提升了硬盘故障问题分析时效

Description

一种硬盘日志记录、解析及监控方法、系统、设备及介质
技术领域
本发明属于硬盘故障分析技术领域,具体涉及一种硬盘日志记录、解析及监控方法、系统、设备及介质。
背景技术
SMART,是Self-Monitoring,Analysis and Reporting Technology的简称,硬盘自我检测分析与报告技术。
SCSI,是Small Computer System Interface的简称,小型计算机系统接口。
随着服务器云存储业务的发展,机械硬盘的应用数量越来越大,随着而来硬盘故障数量也越来越多。现有硬盘故障分析,主要依靠硬盘黑盒日志和硬盘SMART日志来进行。但是硬盘黑盒日志的解析是硬盘厂商的解析工具,终端用户和服务器厂商无法自主打开和分析硬盘黑盒日志,只能通过抓取黑盒日志后交由硬盘厂商分析,分析失效低;至于硬盘SMART日志则只简单记录硬盘的基本信息,而且SMART日志由行业标准控制,该日志单一数据量少,导致硬盘的故障问题分析过程比较被动,通过硬盘SMART日志对硬盘的故障分析作用有限;还有一种SCSI日志虽然也可以记录部分硬盘指标参数,但SCSI日志分布在多个日志数据中,需要许多的命令串行访问,影响系统性能。
综上,现有的硬盘黑盒日志需要交由硬盘厂商分析,时效低,SMART日志数据量少,以及SCSI日志需要很多命令串行访问,效率低,缺少可行的硬盘故障分析方式。
因此,针对上述缺陷,提供一种硬盘日志记录、解析及监控方法、系统、设备及介质,是非常有必要的。
发明内容
针对上述现有的硬盘黑盒日志需要交由硬盘厂商分析,时效低,SMART日志数据量少,以及SCSI日志需要很多命令串行访问,效率低,缺少可行的硬盘故障分析方式的缺陷,本发明提供一种硬盘日志记录、解析及监控方法、系统、设备及介质,以解决上述技术问题。
第一方面,本发明提供一种硬盘日志记录、解析及监控方法,包括如下步骤:
S1.预先在硬盘固件设置预留区域,并在预留区域内定义日志寄存器;
S2.配置硬盘固件在硬盘工作时按照设定频率采集硬盘故障数据,并将硬盘故障数据保存在定义的日志寄存器中;
S3.配置硬盘固件提供接口,向服务器主机端和BMC输出日志寄存器中的硬盘故障数据。
进一步地,步骤S1具体步骤如下:
S11.预先在硬盘固件设计时,在硬盘的保留区内预留设定容量大小的空间,作为预留区域;
S12.在预留区域内定义日志寄存器;
S13.在硬盘日志文件中建立日志页数据结构,设置日志页数据结构属性;
S14.建立日志页数据结构与日志寄存器的关联。预留区域内定义日志寄存器,用于自主存放作为硬盘的关键指标参数的硬盘故障数据,日志页数据结构限定了日志寄存器内存放数据的格式。
进一步地,设置日志页数据结构属性为可访问和可记录。
进一步地,步骤S2具体步骤如下:
S21.硬盘固件在硬盘工作时,启动定时计时;
当未达到采集周期时,进入步骤S3;
当达到采集周期时,进入步骤S22;
S22.硬盘固件采集硬盘故障数据,并将采集的硬盘故障数据以非密方式保存在日志寄存器中,返回步骤S21。硬盘固件每间隔采集周期采集一次硬盘故障数据。
进一步地,硬盘故障数据包括硬盘基板信息、磁头健康信息、磁片健康信息、工作负载、报错信息、工作环境信息以及可靠性信息。
进一步地,步骤S3具体步骤如下:
S31.硬盘固件判断是否接收到服务器主机端或BMC的读取日志命令;
若是,进入步骤S32;
若否,返回步骤S21;
S32.硬盘固件实时更新日志寄存器中硬盘故障数据,同时向服务器主机端或BMC返回硬盘故障数据。当收到服务器主机端读取日志读取命令时,硬盘固件自动更新硬盘故障数据,并记录到日志文件中。
进一步地,步骤S31之前还包括如下步骤:
S31A.预先将日志寄存器的API接口地址提供给服务器主机端;
S31B.预先为日志寄存器配置CDB命令访问接口提供给BMC;
步骤S31具体步骤如下:
S311.硬盘固件判断是否检测到服务器主机端通过SCSI命令访问日志寄存器的API接口;
若是,判定服务器主机端读取日志寄存器中硬盘故障数据,进入步骤S32;
若否,进入步骤S312;
S312.硬盘固件判断是否检测到BMC通过CDB命令访问日志寄存器;
若是,判定BMC读取日志寄存器中硬盘故障数据;
若否,返回步骤S21;
步骤S32具体步骤如下:
S321.硬盘固件实时采集硬盘故障数据,并将采集的硬盘故障数据更新到日志寄存器中;
S322.硬盘固件判断硬盘故障数据读取主体;
当为服务器主机端读取时,进入步骤S323;
当为BMC读取时,进入步骤S324;
S323.硬盘固件向服务主机端返回日志寄存器中硬盘故障数据;
S324.硬盘固件向BMC返回日志寄存器中硬盘故障数据。日志寄存器通过预先设定的API接口接收服务器主机端的读取日志寄存器指令,而通过预先设定CDB命令接口接收BMC的读取日志寄存器指令。
进一步地,步骤S3中还包括如下步骤:
S33.硬盘固件定时对日志寄存器中硬盘故障数据的存储时长进行检查,判断是否超过设定时长阈值;
若是,对超过设定时长阈值的硬盘故障数据进行清理;
若否,不对日志寄存器中硬盘故障数据进行处理。日志寄存器可记录设定时长阈值内的硬盘故障数据,超过设定时长阈值的硬盘故障数据则进行清理。
进一步地,步骤S324之后还包括如下步骤:
S325.BMC对接收的日志寄存器中硬盘故障数据进行解析,并将解析后数据量化显示到BMC管理界面中;
S326.BMC判断硬盘故障数据中各数据是否超过设定的监控阈值;
若是,对超过设定监控阈值的硬盘故障数据进行预警;
若否,对硬盘基板健康信息进行显示。BMC对硬盘故障数据进行监控分析,对硬盘故障数据进行预警。
第二方面,本发明提供一种硬盘日志记录、解析及监控系统,包括:
日志寄存器定义模块,用于预先在硬盘固件设置预留区域,并在预留区域内定义日志寄存器;
硬盘故障数据定时采集模块,用于配置硬盘固件在硬盘工作时按照设定频率采集硬盘故障数据,并将硬盘故障数据保存在定义的日志寄存器中;
硬盘故障数据输出模块,用于配置硬盘固件提供接口,向服务器主机端和BMC输出日志寄存器中的硬盘故障数据。
进一步地,日志寄存器定义模块包括:
硬盘区域预留单元,用于预先在硬盘固件设计时,在硬盘的保留区内预留设定容量大小的空间,作为预留区域;
日志寄存器定义单元,用于在预留区域内定义日志寄存器;
日志页数据结构及属性设置单元,用于在硬盘日志文件中建立日志页数据结构,设置日志页数据结构属性;
日志数据结构与寄存器关联单元,用于建立日志页数据结构与日志寄存器的关联。
进一步地,设置日志页数据结构属性为可访问和可记录。
进一步地,硬盘故障数据定时采集模块包括:
定时计时启动单元,用于硬盘固件在硬盘工作时,启动定时计时;
故障数据周期更新单元,用于达到采集周期时,在硬盘固件采集硬盘故障数据,并将采集的硬盘故障数据以非密方式保存在日志寄存器中。
进一步地,硬盘故障数据包括硬盘基板信息、磁头健康信息、磁片健康信息、工作负载、报错信息、工作环境信息以及可靠性信息。
进一步地,硬盘故障数据输出模块包括:
日志读取命令接收判断单元,用于在硬盘固件判断是否接收到服务器主机端或BMC的读取日志命令;
硬盘故障数据返回单元,用于接收到服务器主机端或BMC的读取日志命令时,在硬盘固件实时更新日志寄存器中硬盘故障数据,同时向服务器主机端或BMC返回硬盘故障数据。
进一步地,硬盘故障数据输出模块还包括:
主机接口提供单元,用于预先将日志寄存器的API接口地址提供给服务器主机端;
BMC接口提供单元,用于预先为日志寄存器配置CDB命令访问接口提供给BMC。
进一步地,日志读取命令接收判断单元包括:
主机访问检测子单元,用于在硬盘固件判断是否检测到服务器主机端通过SCSI命令访问日志寄存器的API接口;
主机访问判定子单元,用于检测到服务器主机端通过SCSI命令访问日志寄存器的API接口时,判定服务器主机端读取日志寄存器中硬盘故障数据;
BMC访问检测子单元,用于未检测到服务器主机端通过SCSI命令访问日志寄存器的API接口时,在硬盘固件判断是否检测到BMC通过CDB命令访问日志寄存器;
BMC访问判定子单元,用于检测到BMC通过CDB命令访问日志寄存器时,判定BMC读取日志寄存器中硬盘故障数据。
进一步地,硬盘故障数据返回单元包括:
硬盘故障数据更新子单元,用于硬盘固件实时采集硬盘故障数据,并将采集的硬盘故障数据更新到日志寄存器中;
故障数据读取主体判断子单元,用于在硬盘固件判断硬盘故障数据读取主体;
主机数据返回子单元,用于服务器主机端读取时,在硬盘固件向服务主机端返回日志寄存器中硬盘故障数据;
BMC数据返回子单元,用于BMC读取时,在硬盘固件向BMC返回日志寄存器中硬盘故障数据。
进一步地,硬盘故障数据输出模块还包括:
数据存储时长判断单元,用于在硬盘固件定时对日志寄存器中硬盘故障数据的存储时长进行检查,判断是否超过设定时长阈值;
数据清理单元,用于在存储时长超过设定时长阈值时,对超过设定时长阈值的硬盘故障数据进行清理。
进一步地,硬盘故障数据返回单元还包括:
BMC数据解析及显示子单元,用于在BMC对接收的日志寄存器中硬盘故障数据进行解析,并将解析后数据量化显示到BMC管理界面中;
数据监控子单元,用于在BMC判断硬盘故障数据中各数据是否超过设定的监控阈值;
数据预警子单元,用于硬盘故障数据中各数据超过设定的监控阈值时,对超过设定监控阈值的硬盘故障数据进行预警;
数据健康信息显示子单元,用于硬盘故障数据中各数据未超过设定监控阈值时,对硬盘基板健康信息进行显示。
第三方面,本发明提供一种设备,包括处理器和存储器;
其中,该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,使得设备执行上述第一方面所述的方法。
第四方面,本发明提供了一种存储介质,
所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。
日志寄存器提供一种轻量级和可视的方法来提取硬盘关键指标数据,对硬盘性能无影响,日志寄存器内所有硬盘故障数据都是可访问的,便于服务器主机端与BMC的读取,日志寄存器的记录方式相比SATA SMART日志方式或SCSI日志方式可记录更多的硬盘指标参数,记录全面的专有的日志,并提供接口对指标的访问,通过单命令可获取全部硬盘故障数据信息,命令开销低。
本发明的有益效果在于:
本发明提供的硬盘日志记录、解析及监控方法、系统、设备及介质,通过设计硬盘固件的方式,在硬盘预留区设置日志寄存器记录硬盘故障数据,实现作为硬盘关键信息的硬盘故障日志的自主记录、解析,并能通过BMC实时监控,实现硬盘健康监控和故障预警,不依赖黑盒日志,提升了硬盘故障问题分析时效。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明硬盘日志记录、解析及监控方法实施例1流程示意图。
图2是本发明硬盘日志记录、解析及监控方法实施例2流程示意图。
图3是本发明硬盘日志记录、解析及监控方法实施例3流程示意图.
图4是本发明硬盘日志记录、解析及监控系统示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
BMC,是Baseboard Management Controller的简称,基板管理控制器。
API,是Application Programming Interface的简称,应用程序编程接口。
CDB,是Command Descriptor Block的简称,命令描述符块。
实施例1:
如图1所示,本发明提供一种硬盘日志记录、解析及监控方法,包括如下步骤:
S1.预先在硬盘固件设置预留区域,并在预留区域内定义日志寄存器;
S2.配置硬盘固件在硬盘工作时按照设定频率采集硬盘故障数据,并将硬盘故障数据保存在定义的日志寄存器中;
S3.配置硬盘固件提供接口,向服务器主机端和BMC输出日志寄存器中的硬盘故障数据。
本发明提供的硬盘日志记录、解析及监控方法,通过设计硬盘固件的方式,在硬盘预留区设置日志寄存器记录硬盘故障数据,实现作为硬盘关键信息的硬盘故障日志的自主记录、解析,并能通过BMC实时监控,实现硬盘健康监控和故障预警,不依赖黑盒日志,提升了硬盘故障问题分析时效。
实施例2:
如图2所示,本发明提供一种硬盘日志记录、解析及监控方法,包括如下步骤:
S1.预先在硬盘固件设置预留区域,并在预留区域内定义日志寄存器;步骤S1具体步骤如下:
S11.预先在硬盘固件设计时,在硬盘的保留区内预留设定容量大小的空间,作为预留区域;
S12.在预留区域内定义日志寄存器;
S13.在硬盘日志文件中建立日志页数据结构,设置日志页数据结构属性;
S14.建立日志页数据结构与日志寄存器的关联;
S2.配置硬盘固件在硬盘工作时按照设定频率采集硬盘故障数据,并将硬盘故障数据保存在定义的日志寄存器中;步骤S2具体步骤如下:
S21.硬盘固件在硬盘工作时,启动定时计时;
当未达到采集周期时,进入步骤S3;
当达到采集周期时,进入步骤S22;
S22.硬盘固件采集硬盘故障数据,并将采集的硬盘故障数据以非密方式保存在日志寄存器中,返回步骤S21;硬盘故障数据包括硬盘基板信息、磁头健康信息、磁片健康信息、工作负载、报错信息、工作环境信息以及可靠性信息;
S3.配置硬盘固件提供接口,向服务器主机端和BMC输出日志寄存器中的硬盘故障数据;步骤S3具体步骤如下:
S31.硬盘固件判断是否接收到服务器主机端或BMC的读取日志命令;
若是,进入步骤S32;
若否,返回步骤S21;
S32.硬盘固件实时更新日志寄存器中硬盘故障数据,同时向服务器主机端或BMC返回硬盘故障数据。
实施例3:
如图3所示,本发明提供一种硬盘日志记录、解析及监控方法,包括如下步骤:
S1.预先在硬盘固件设置预留区域,并在预留区域内定义日志寄存器;步骤S1具体步骤如下:
S11.预先在硬盘固件设计时,在硬盘的保留区内预留设定容量大小的空间,作为预留区域;预留区域在硬盘的非可见区,例如在保留区内设定2M容量的空接作为预留区域;
S12.在预留区域内定义日志寄存器;
S13.在硬盘日志文件中建立日志页数据结构,设置日志页数据结构属性;例如设置日志页数据结构属性为可访问可记录;
S14.建立日志页数据结构与日志寄存器的关联;
S2.配置硬盘固件在硬盘工作时按照设定频率采集硬盘故障数据,并将硬盘故障数据保存在定义的日志寄存器中;步骤S2具体步骤如下:
S21.硬盘固件在硬盘工作时,启动定时计时;例如采集周期设定为30分钟;
当未达到采集周期时,进入步骤S3;
当达到采集周期时,进入步骤S22;
S22.硬盘固件采集硬盘故障数据,并将采集的硬盘故障数据以非密方式保存在日志寄存器中,返回步骤S21;硬盘故障数据包括硬盘基板信息、磁头健康信息、磁片健康信息、工作负载、报错信息、工作环境信息以及可靠性信息;
S3.配置硬盘固件提供接口,向服务器主机端和BMC输出日志寄存器中的硬盘故障数据;步骤S3具体步骤如下:
S31A.预先将日志寄存器的API接口地址提供给服务器主机端;
S31B.预先为日志寄存器配置CDB命令访问接口提供给BMC;
S31.硬盘固件判断是否接收到服务器主机端或BMC的读取日志命令;
若是,进入步骤S32;
若否,返回步骤S21;
步骤S31具体步骤如下:
S311.硬盘固件判断是否检测到服务器主机端通过SCSI命令访问日志寄存器的API接口;
若是,判定服务器主机端读取日志寄存器中硬盘故障数据,进入步骤S32;
若否,进入步骤S312;
S312.硬盘固件判断是否检测到BMC通过CDB命令访问日志寄存器;
若是,判定BMC读取日志寄存器中硬盘故障数据;
若否,进入步骤S33;
S32.硬盘固件实时更新日志寄存器中硬盘故障数据,同时向服务器主机端或BMC返回硬盘故障数据;步骤S32具体步骤如下:
S321.硬盘固件实时采集硬盘故障数据,并将采集的硬盘故障数据更新到日志寄存器中;
S322.硬盘固件判断硬盘故障数据读取主体;
当为服务器主机端读取时,进入步骤S323;
当为BMC读取时,进入步骤S324;
S323.硬盘固件向服务主机端返回日志寄存器中硬盘故障数据;
S324.硬盘固件向BMC返回日志寄存器中硬盘故障数据;
S325.BMC对接收的日志寄存器中硬盘故障数据进行解析,并将解析后数据量化显示到BMC管理界面中;
S326.BMC判断硬盘故障数据中各数据是否超过设定的监控阈值;
若是,对超过设定监控阈值的硬盘故障数据进行预警,进入步骤S33;
若否,对硬盘基板健康信息进行显示;
S33.硬盘固件定时对日志寄存器中硬盘故障数据的存储时长进行检查,判断是否超过设定时长阈值;例如设定时长阈值为12个月;
若是,对超过设定时长阈值的硬盘故障数据进行清理,返回步骤S21;
若否,不对日志寄存器中硬盘故障数据进行处理,返回步骤S21。
例如,硬盘固件每隔30分钟把硬盘故障数据的原始数据以非加密方式保存在日志寄存器中,并将日志寄存器的API接口地址提供给服务器主机端,以及为日志寄存器配置CDB命令访问接口提供给BMC;从而日志寄存器在服务器主机端主动访问以及BMC也未读取日志寄存器数据时,每30分钟记录一次硬盘故障数据,累计最长可记录12个月的硬盘故障数据,以非加密格式进行保存管理,便于服务器主机端自主查询或硬盘故障问题分析;
通过日志寄存器的CDB命令访问接口,BMC进行数据的访问和提取,实现硬盘的现场可访问性,当BMC主动访问硬盘日志寄存器时,将触发硬盘实时刷新日志寄存器数据,保证硬盘故障数据的实时监控,并在BMC的监控日志中实时显示,进行硬盘的健康监控和故障预警。
实施例4:
如图4所示,本发明提供一种硬盘日志记录、解析及监控系统,包括:
日志寄存器定义模块,用于预先在硬盘固件设置预留区域,并在预留区域内定义日志寄存器;
硬盘故障数据定时采集模块,用于配置硬盘固件在硬盘工作时按照设定频率采集硬盘故障数据,并将硬盘故障数据保存在定义的日志寄存器中;
硬盘故障数据输出模块,用于配置硬盘固件提供接口,向服务器主机端和BMC输出日志寄存器中的硬盘故障数据。
本发明提供的硬盘日志记录、解析及监控系统,通过设计硬盘固件的方式,在硬盘预留区设置日志寄存器记录硬盘故障数据,实现作为硬盘关键信息的硬盘故障日志的自主记录、解析,并能通过BMC实时监控,实现硬盘健康监控和故障预警,不依赖黑盒日志,提升了硬盘故障问题分析时效。
实施例5:
如图4所示,本发明提供一种硬盘日志记录、解析及监控系统,包括:
日志寄存器定义模块,用于预先在硬盘固件设置预留区域,并在预留区域内定义日志寄存器;日志寄存器定义模块包括:
硬盘区域预留单元,用于预先在硬盘固件设计时,在硬盘的保留区内预留设定容量大小的空间,作为预留区域;
日志寄存器定义单元,用于在预留区域内定义日志寄存器;
日志页数据结构及属性设置单元,用于在硬盘日志文件中建立日志页数据结构,设置日志页数据结构属性;设置日志页数据结构属性为可访问和可记录;
日志数据结构与寄存器关联单元,用于建立日志页数据结构与日志寄存器的关联;
硬盘故障数据定时采集模块,用于配置硬盘固件在硬盘工作时按照设定频率采集硬盘故障数据,并将硬盘故障数据保存在定义的日志寄存器中;硬盘故障数据定时采集模块包括:
定时计时启动单元,用于硬盘固件在硬盘工作时,启动定时计时;
故障数据周期更新单元,用于达到采集周期时,在硬盘固件采集硬盘故障数据,并将采集的硬盘故障数据以非密方式保存在日志寄存器中;硬盘故障数据包括硬盘基板信息、磁头健康信息、磁片健康信息、工作负载、报错信息、工作环境信息以及可靠性信息;
硬盘故障数据输出模块,用于配置硬盘固件提供接口,向服务器主机端和BMC输出日志寄存器中的硬盘故障数据;硬盘故障数据输出模块包括:
日志读取命令接收判断单元,用于在硬盘固件判断是否接收到服务器主机端或BMC的读取日志命令;
硬盘故障数据返回单元,用于接收到服务器主机端或BMC的读取日志命令时,在硬盘固件实时更新日志寄存器中硬盘故障数据,同时向服务器主机端或BMC返回硬盘故障数据。
实施例6:
如图4所示,本发明提供一种硬盘日志记录、解析及监控系统,包括:
日志寄存器定义模块,用于预先在硬盘固件设置预留区域,并在预留区域内定义日志寄存器;日志寄存器定义模块包括:
硬盘区域预留单元,用于预先在硬盘固件设计时,在硬盘的保留区内预留设定容量大小的空间,作为预留区域;
日志寄存器定义单元,用于在预留区域内定义日志寄存器;
日志页数据结构及属性设置单元,用于在硬盘日志文件中建立日志页数据结构,设置日志页数据结构属性;设置日志页数据结构属性为可访问和可记录;
日志数据结构与寄存器关联单元,用于建立日志页数据结构与日志寄存器的关联;
硬盘故障数据定时采集模块,用于配置硬盘固件在硬盘工作时按照设定频率采集硬盘故障数据,并将硬盘故障数据保存在定义的日志寄存器中;硬盘故障数据定时采集模块包括:
定时计时启动单元,用于硬盘固件在硬盘工作时,启动定时计时;
故障数据周期更新单元,用于达到采集周期时,在硬盘固件采集硬盘故障数据,并将采集的硬盘故障数据以非密方式保存在日志寄存器中;硬盘故障数据包括硬盘基板信息、磁头健康信息、磁片健康信息、工作负载、报错信息、工作环境信息以及可靠性信息;
硬盘故障数据输出模块,用于配置硬盘固件提供接口,向服务器主机端和BMC输出日志寄存器中的硬盘故障数据;硬盘故障数据输出模块包括:
日志读取命令接收判断单元,用于在硬盘固件判断是否接收到服务器主机端或BMC的读取日志命令;日志读取命令接收判断单元包括:日志读取命令接收判断单元包括:
主机访问检测子单元,用于在硬盘固件判断是否检测到服务器主机端通过SCSI命令访问日志寄存器的API接口;
主机访问判定子单元,用于检测到服务器主机端通过SCSI命令访问日志寄存器的API接口时,判定服务器主机端读取日志寄存器中硬盘故障数据;
BMC访问检测子单元,用于未检测到服务器主机端通过SCSI命令访问日志寄存器的API接口时,在硬盘固件判断是否检测到BMC通过CDB命令访问日志寄存器;
BMC访问判定子单元,用于检测到BMC通过CDB命令访问日志寄存器时,判定BMC读取日志寄存器中硬盘故障数据;
主机访问检测子单元,用于在硬盘固件判断是否检测到服务器主机端通过SCSI命令访问日志寄存器的API接口;
主机访问判定子单元,用于检测到服务器主机端通过SCSI命令访问日志寄存器的API接口时,判定服务器主机端读取日志寄存器中硬盘故障数据;
BMC访问检测子单元,用于未检测到服务器主机端通过SCSI命令访问日志寄存器的API接口时,在硬盘固件判断是否检测到BMC通过CDB命令访问日志寄存器;
BMC访问判定子单元,用于检测到BMC通过CDB命令访问日志寄存器时,判定BMC读取日志寄存器中硬盘故障数据;
硬盘故障数据返回单元,用于接收到服务器主机端或BMC的读取日志命令时,在硬盘固件实时更新日志寄存器中硬盘故障数据,同时向服务器主机端或BMC返回硬盘故障数据;硬盘故障数据返回单元包括:
硬盘故障数据更新子单元,用于硬盘固件实时采集硬盘故障数据,并将采集的硬盘故障数据更新到日志寄存器中;
故障数据读取主体判断子单元,用于在硬盘固件判断硬盘故障数据读取主体;
主机数据返回子单元,用于服务器主机端读取时,在硬盘固件向服务主机端返回日志寄存器中硬盘故障数据;
BMC数据返回子单元,用于BMC读取时,在硬盘固件向BMC返回日志寄存器中硬盘故障数据;
BMC数据解析及显示子单元,用于在BMC对接收的日志寄存器中硬盘故障数据进行解析,并将解析后数据量化显示到BMC管理界面中;
数据监控子单元,用于在BMC判断硬盘故障数据中各数据是否超过设定的监控阈值;
数据预警子单元,用于硬盘故障数据中各数据超过设定的监控阈值时,对超过设定监控阈值的硬盘故障数据进行预警;
数据健康信息显示子单元,用于硬盘故障数据中各数据未超过设定监控阈值时,对硬盘基板健康信息进行显示;
主机接口提供单元,用于预先将日志寄存器的API接口地址提供给服务器主机端;
BMC接口提供单元,用于预先为日志寄存器配置CDB命令访问接口提供给BMC;
数据存储时长判断单元,用于在硬盘固件定时对日志寄存器中硬盘故障数据的存储时长进行检查,判断是否超过设定时长阈值;
数据清理单元,用于在存储时长超过设定时长阈值时,对超过设定时长阈值的硬盘故障数据进行清理。
实施例7:
本发明提供一种设备,包括处理器和存储器;
其中,该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,使得设备执行实施例1、实施例2或实施例3所述的方法。
本发明提供的硬盘日志记录、解析及监控设备,通过设计硬盘固件的方式,在硬盘预留区设置日志寄存器记录硬盘故障数据,实现作为硬盘关键信息的硬盘故障日志的自主记录、解析,并能通过BMC实时监控,实现硬盘健康监控和故障预警,不依赖黑盒日志,提升了硬盘故障问题分析时效。
实施例8:
本发明提供一种存储介质,
所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行实施例1、实施例2或实施例3所述的方法。
本发明提供的硬盘日志记录、解析及监控存储介质,通过设计硬盘固件的方式,在硬盘预留区设置日志寄存器记录硬盘故障数据,实现作为硬盘关键信息的硬盘故障日志的自主记录、解析,并能通过BMC实时监控,实现硬盘健康监控和故障预警,不依赖黑盒日志,提升了硬盘故障问题分析时效。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种硬盘日志记录、解析及监控方法,其特征在于,包括如下步骤:
S1.预先在硬盘固件设置预留区域,并在预留区域内定义日志寄存器;
S2.配置硬盘固件在硬盘工作时按照设定频率采集硬盘故障数据,并将硬盘故障数据保存在定义的日志寄存器中;
S3.配置硬盘固件提供接口,向服务器主机端和基板管理控制器输出日志寄存器中的硬盘故障数据。
2.如权利要求1所述的硬盘日志记录、解析及监控方法,其特征在于,步骤S1具体步骤如下:
S11.预先在硬盘固件设计时,在硬盘的保留区内预留设定容量大小的空间,作为预留区域;
S12.在预留区域内定义日志寄存器;
S13.在硬盘日志文件中建立日志页数据结构,设置日志页数据结构属性;
S14.建立日志页数据结构与日志寄存器的关联。
3.如权利要求2所述的硬盘日志记录、解析及监控方法,其特征在于,步骤S2具体步骤如下:
S21.硬盘固件在硬盘工作时,启动定时计时;
当未达到采集周期时,进入步骤S3;
当达到采集周期时,进入步骤S22;
S22.硬盘固件采集硬盘故障数据,并将采集的硬盘故障数据以非密方式保存在日志寄存器中,返回步骤S21。
4.如权利要求3所述的硬盘日志记录、解析及监控方法,其特征在于,步骤S3具体步骤如下:
S31.硬盘固件判断是否接收到服务器主机端或基板管理控制器的读取日志命令;
若是,进入步骤S32;
若否,返回步骤S21;
S32.硬盘固件实时更新日志寄存器中硬盘故障数据,同时向服务器主机端或基板管理控制器返回硬盘故障数据。
5.如权利要求4所述的硬盘日志记录、解析及监控方法,其特征在于,步骤S31之前还包括如下步骤:
S31A.预先将日志寄存器的应用程序编程接口地址提供给服务器主机端;
S31B.预先为日志寄存器配置命令描述符块格式命令访问接口提供给基板管理控制器;
步骤S31具体步骤如下:
S311.硬盘固件判断是否检测到服务器主机端通过小型计算机系统接口命令访问日志寄存器的应用程序编程接口;
若是,判定服务器主机端读取日志寄存器中硬盘故障数据,进入步骤S32;
若否,进入步骤S312;
S312.硬盘固件判断是否检测到基板管理控制器通过命令描述符块格式命令访问日志寄存器;
若是,判定基板管理控制器读取日志寄存器中硬盘故障数据;
若否,返回步骤S21;
步骤S32具体步骤如下:
S321.硬盘固件实时采集硬盘故障数据,并将采集的硬盘故障数据更新到日志寄存器中;
S322.硬盘固件判断硬盘故障数据读取主体;
当为服务器主机端读取时,进入步骤S323;
当为基板管理控制器读取时,进入步骤S324;
S323.硬盘固件向服务主机端返回日志寄存器中硬盘故障数据;
S324.硬盘固件向基板管理控制器返回日志寄存器中硬盘故障数据。
6.如权利要求5所述的硬盘日志记录、解析及监控方法,其特征在于,步骤S3中还包括如下步骤:
S33.硬盘固件定时对日志寄存器中硬盘故障数据的存储时长进行检查,判断是否超过设定时长阈值;
若是,对超过设定时长阈值的硬盘故障数据进行清理;
若否,不对日志寄存器中硬盘故障数据进行处理。
7.如权利要求5所述的硬盘日志记录、解析及监控方法,其特征在于,步骤S324之后还包括如下步骤:
S325.基板管理控制器对接收的日志寄存器中硬盘故障数据进行解析,并将解析后数据量化显示到基板管理控制器管理界面中;
S326.基板管理控制器判断硬盘故障数据中各数据是否超过设定的监控阈值;
若是,对超过设定监控阈值的硬盘故障数据进行预警;
若否,对硬盘基板健康信息进行显示。
8.一种硬盘日志记录、解析及监控系统,其特征在于,包括:
日志寄存器定义模块,用于预先在硬盘固件设置预留区域,并在预留区域内定义日志寄存器;
硬盘故障数据定时采集模块,用于配置硬盘固件在硬盘工作时按照设定频率采集硬盘故障数据,并将硬盘故障数据保存在定义的日志寄存器中;
硬盘故障数据输出模块,用于配置硬盘固件提供接口,向服务器主机端和基板管理控制器输出日志寄存器中的硬盘故障数据。
9.一种设备,其特征在于,包括处理器和存储器;
其中,该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,使得设备执行上述权利要求1-7任一项所述的方法。
10.一种存储介质,其特征在于,
所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述权利要求1-7任一项所述的方法。
CN202310833732.8A 2023-07-07 2023-07-07 一种硬盘日志记录、解析及监控方法、系统、设备及介质 Pending CN116881101A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310833732.8A CN116881101A (zh) 2023-07-07 2023-07-07 一种硬盘日志记录、解析及监控方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310833732.8A CN116881101A (zh) 2023-07-07 2023-07-07 一种硬盘日志记录、解析及监控方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
CN116881101A true CN116881101A (zh) 2023-10-13

Family

ID=88258020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310833732.8A Pending CN116881101A (zh) 2023-07-07 2023-07-07 一种硬盘日志记录、解析及监控方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN116881101A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117971613A (zh) * 2024-03-29 2024-05-03 苏州元脑智能科技有限公司 硬盘监控系统、方法、设备、存储介质及基板管理控制器
CN117971607A (zh) * 2024-03-29 2024-05-03 苏州元脑智能科技有限公司 一种硬盘监控方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117971613A (zh) * 2024-03-29 2024-05-03 苏州元脑智能科技有限公司 硬盘监控系统、方法、设备、存储介质及基板管理控制器
CN117971607A (zh) * 2024-03-29 2024-05-03 苏州元脑智能科技有限公司 一种硬盘监控方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN103578568A (zh) 固态硬盘的性能测试方法及装置
CN103793479A (zh) 日志管理方法及系统
CN103207820B (zh) 基于raid卡日志的硬盘的故障定位方法及装置
CN108491861A (zh) 基于多源多参量融合的输变电设备状态异常模式识别方法及装置
US7908239B2 (en) System for storing event data using a sum calculator that sums the cubes and squares of events
CN116881101A (zh) 一种硬盘日志记录、解析及监控方法、系统、设备及介质
US11347573B2 (en) In-drive bus trace
CN110704287B (zh) Linux系统下RAID卡异常日志收集方法、系统及存储介质
US20160204997A1 (en) Extracting Log Files From Storage Devices
CN103716174A (zh) 测试日志撷取系统及方法
CN112800061B (zh) 一种数据存储方法、装置、服务器及存储介质
WO2023185767A1 (zh) 慢盘检测方法、装置、电子设备及存储介质
CN111813585A (zh) 慢盘的预测和处理
US8843781B1 (en) Managing drive error information in data storage systems
CN103778024A (zh) 服务器系统及其讯息处理方法
CN107153453A (zh) 一种Linux系统复位处理方法及装置
CN113239007B (zh) 多层次异构日志事务分析方法、系统、设备和存储介质
CN104516953B (zh) 一种用于电力调度自动化海量报文的黑匣子系统
CN107247505A (zh) 一种易于查看的云服务器电源blackbox设计方法
CN116361111A (zh) 一种数据获取方法、装置及电子设备
CN113392079B (zh) 一种分布式存储集群日志存储优化方法、系统及终端
CN111324516A (zh) 自动记录异常事件的方法及装置、存储介质、电子设备
CN112860469A (zh) 一种卡顿日志信息收集方法、装置、设备及存储介质
CN113157506B (zh) 一种基于变点小波法的硬盘失效分析方法
CN114706720B (zh) 分布式存储系统慢盘判断方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination