CN114911670A

CN114911670A - 一种服务器磁盘监控及故障预测的方法

Info

Publication number: CN114911670A
Application number: CN202210384705.2A
Authority: CN
Inventors: 朱颖航; 朱品燕
Original assignee: Beijing Yunji Zhizao Technology Co ltd
Current assignee: Beijing Yunji Zhizao Technology Co ltd
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2022-08-16

Abstract

本发明公开了一种服务器磁盘监控及故障预测的方法，包括服务器硬件管理，所述服务器硬件管理包括带内和带外两部分，所述服务器硬件管理内设置有数据信息和管理信息，所述数据信息和管理信息通过网络设备以太网端口进行传送，本发明采用了上述技术方案，简化了在公有云/私有云中使用多个厂商服务器环境下，现有x86平台服务器对于磁盘监控管理成本，相对于之前需要维护多套不同厂商管理措施和软件的方式，本发明最终只需要基于通用的API完成对于所有x86服务器磁盘的监管控，且基于采集的smart数据实现了对于故障的预测分析。

Description

一种服务器磁盘监控及故障预测的方法

技术领域

本发明涉及服务器监控和故障预测领域，具体是指一种服务器磁盘监控及故障预测的方法。

背景技术

该领域目前存在2种方案：

1.带内agent的形式，此种形式以各类厂商自己的工具，例如dell的Openmanage、HP的System Management Homepage，开源工具以smartmontools为例，通过带内agent获取磁盘的状态信息(SMART信息为主)，再结合内置的固定阈值来实现对于磁盘本身状态的判定；

2.带外ipmi的方式，此类方式较为简单，通过判断连接到硬盘的硬件信号状态，来判断磁盘是否正常；

现有技术中存在的缺点如下：

(1)其实现方式与厂商相关，通常使用厂家自带的工具，a)首先基于开源的工具获取磁盘smart数据，b)基于smart阈值判定的实现方式主要来自于每个厂商自有的故障数据集，而真实环境下磁盘的故障与数据中心内的通风、震动状态，以及软件使用状态密切相关，与厂商自身的实现有明显差别，基于1的固定阈值方式通常不会准确。

(2)其实现方式通常采用服务器硬件布线+传感器检测的方式，该方式由于并不探查具体io协议栈内容，只能通过检测信号有无、强弱的方式来进行检测，故只能感知到磁盘本身断电，芯片故障等严重的错误，检测内容较少。

为了解决上述问题，一种服务器磁盘监控及故障预测的方法成为整个社会亟待解决的技术问题。

发明内容

为解决上述技术问题，本发明提供的技术方案为：一种服务器磁盘监控及故障预测的方法，包括服务器硬件管理，所述服务器硬件管理包括带内和带外两部分，所述服务器硬件管理内设置有数据信息和管理信息，所述数据信息和管理信息通过网络设备以太网端口进行传送，包括以下方法：

(1)针对服务器硬件监控，需要针对不同硬部件使用原生的应用编程接口(API)获取相关的metric，例如hdd使用ATA/SCSI协议，以及部分RAID厂商提供的工具等。获取metric的同时会对数据划分类别，按照基本配置信息、故障信息、功耗信息、使用情况等类别进行归一化分类，所以针对x86平台，最重要的是定义一套通用的硬件监控及数据展示API；

(2)在对数据进行标准化定义的过程中，会参照硬件设备本身的属性，以脱离于具体表示形式的方式定义数据格式，具体命名方式为设备类型.数据维度(基本信息/故障/功耗/运行时os内状态).具体维度，该命名方式可以支持随着硬件类型/某类型硬件数量动态调整变化；

(3)数据进行标准化的结果如下，定义的依据为硬盘固有的配置信息(basic)，运行时操作系统层面(以linux为例)以及内部的配置信息(status/smart)

(4)在采集程序agent内部会基于设备功能性模型，提供对应的高级功能输出。

进一步地，所述带外包括以下两个部分：

(1)基于IPMI协议的服务器厂商自定义拓展，核心集中在各种不同的自定义命令，可以接管服务器主要的硬件设备管理，受限于带外协议以及资源的限制，部分信息暂时无法获取。

(2)新一代的DMTF组织推出的redfish协议，核心集中在数据的完整和自解释性，使用HTTP协议作为应用协议而非传输协议，并将大部分操作抽象为CRUD接口。

发明与现有技术相比的优点在于：本发明采用了上述技术方案，简化了在公有云/私有云中使用多个厂商服务器环境下，现有x86平台服务器对于磁盘监控管理成本，相对于之前需要维护多套不同厂商管理措施和软件的方式，本发明最终只需要基于通用的API完成对于所有x86服务器磁盘的监管控，且基于采集的smart数据实现了对于故障的预测分析。

附图说明

图1是各smart属性变化点到故障时间的平均分布。

具体实施方式

下面结合附图对本发明做进一步的详细说明。

结合附图，对本发明进行详细介绍。

本发明在具体实施时提供了一种服务器磁盘监控及故障预测的方法，包括服务器硬件管理，所述服务器硬件管理包括带内和带外两部分，所述服务器硬件管理内设置有数据信息和管理信息，所述数据信息和管理信息通过网络设备以太网端口进行传送，包括以下方法：

作为本发明的进一步阐述，所述带外包括以下两个部分：

与通过带外使用IPMI协议进行服务器硬部件数据采集监控的方式不同，采用带内成熟的设备接口获取到的数据更为全面和准确，同时也能保证更高的时效性。

本发明的具体实施方式如下：实例：

数据采集，部署采集agent，至少每隔2小时采集一次磁盘的smart数据，必须包含以下smart属性： '1_value','3_value','5_value','5_raw','7_value','9_value','10_value','187_value','189_value ','194_value','195_value','197_value','197_raw','198_value' 其中1_value表示smart属性1的value值，5_raw表示smart属性5的raw值

数据记录格式为：

timestamp,'1_value','3_value','5_value','5_raw','7_value','9_value','10_value','187_value', '189_value','194_value','195_value','197_value','197_raw','198_value'

数据存储有2种方式：1>使用监控server上传存储的数据；

2>将smart数据写入本地文件，使用第三方agent处理数据导出；

d)积累20天的数据作为模型训练样本

e)模型更新完成后，将模型预测服务打包为独立部署包，部署到测试机器上

f)部署后可定时对smart属性值做预测，输出可能故障的磁盘结果

具体磁盘故障预测分析过程：

主要smart属性分析：

根据过去磁盘运维经验，对数据集中故障样本相关系数分析，部分结果如下：

如上表，63％故障盘与SMART_193_raw(the load cycle count)的增加正相关，类似的SMART_7_raw(seek error count),SMART_1_normalized(read error rate),SMART_240_raw(transfer error rate), SMART_197_raw(nr.of pending sectors),SMART_198_raw(uncorrectable sector count), SMART_187_raw(number of uncorrectableerrors),SMART_5_raw(reallocated sector count)等属性在故障盘中正相关的比例在19％-26％之间

i.加入变化率特征分析：

数据集提供了一个季度持续的时序数据，对主要smart属性在故障前若干天的变化率，以及实际值和时序预测值的偏差进行分析。在检测到变化率较大的变异点后，统计变异点到故障的天数特征。

ii.基于如上分析，最后smart所选取的属性

为：’1_value','3_value','5_value','5_raw','7_value','9_value','10_value','187_va lue','189_value','194_value','195_value','197_value','197_raw','198_value'。

所选取的smart变化率的属性

为：’1_value','5_value','5_raw','7_value','187_value','194_value','195_value','1 97_value','197_raw'属性的变化率。

b)模型选择：对比了常用的分类模型如决策树，随机森林，GBDT，SVM，LR等之后，本次实验过程中选取了xgboost和GBDT作为模型进行训练

c)模型训练与验证结果

训练集：样本：9998910，磁盘数：109877

验证集：样本：2499728，磁盘数：27470

正样本：要预测磁盘分类；负样本：其他分类

评估指标：Tp＝预测正确正样本，Fp＝预测错误正样本，Tn＝预测正确负样本，Fn＝预测错误负样本

精确率：

召回率：

测试结果：

以上对本发明及其实施方式进行了描述，这种描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.一种服务器磁盘监控及故障预测的方法，其特征在于：包括服务器硬件管理，所述服务器硬件管理包括带内和带外两部分，所述服务器硬件管理内设置有数据信息和管理信息，所述数据信息和管理信息通过网络设备以太网端口进行传送，包括以下方法：

2.根据权利要求1所述的一种服务器磁盘监控及故障预测的方法，其特征在于：所述带外包括以下两个部分：