CN114911670A - 一种服务器磁盘监控及故障预测的方法 - Google Patents

一种服务器磁盘监控及故障预测的方法 Download PDF

Info

Publication number
CN114911670A
CN114911670A CN202210384705.2A CN202210384705A CN114911670A CN 114911670 A CN114911670 A CN 114911670A CN 202210384705 A CN202210384705 A CN 202210384705A CN 114911670 A CN114911670 A CN 114911670A
Authority
CN
China
Prior art keywords
data
server
information
protocol
management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210384705.2A
Other languages
English (en)
Inventor
朱颖航
朱品燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yunji Zhizao Technology Co ltd
Original Assignee
Beijing Yunji Zhizao Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunji Zhizao Technology Co ltd filed Critical Beijing Yunji Zhizao Technology Co ltd
Priority to CN202210384705.2A priority Critical patent/CN114911670A/zh
Publication of CN114911670A publication Critical patent/CN114911670A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种服务器磁盘监控及故障预测的方法,包括服务器硬件管理,所述服务器硬件管理包括带内和带外两部分,所述服务器硬件管理内设置有数据信息和管理信息,所述数据信息和管理信息通过网络设备以太网端口进行传送,本发明采用了上述技术方案,简化了在公有云/私有云中使用多个厂商服务器环境下,现有x86平台服务器对于磁盘监控管理成本,相对于之前需要维护多套不同厂商管理措施和软件的方式,本发明最终只需要基于通用的API完成对于所有x86服务器磁盘的监管控,且基于采集的smart数据实现了对于故障的预测分析。

Description

一种服务器磁盘监控及故障预测的方法
技术领域
本发明涉及服务器监控和故障预测领域,具体是指一种服务器磁盘监控及故障预测的方法。
背景技术
该领域目前存在2种方案:
1.带内agent的形式,此种形式以各类厂商自己的工具,例如dell的Openmanage、HP的System Management Homepage,开源工具以smartmontools为例,通过带内agent获取磁盘的状态信息(SMART信息为主),再结合内置的固定阈值来实现对于磁盘本身状态的判定;
2.带外ipmi的方式,此类方式较为简单,通过判断连接到硬盘的硬件信号状态,来判断磁盘是否正常;
现有技术中存在的缺点如下:
(1)其实现方式与厂商相关,通常使用厂家自带的工具,a)首先基于开源的工具获取磁盘smart数据,b)基于smart阈值判定的实现方式主要来自于每个厂商自有的故障数据集,而真实环境下磁盘的故障与数据中心内的通风、震动状态,以及软件使用状态密切相关,与厂商自身的实现有明显差别,基于1的固定阈值方式通常不会准确。
(2)其实现方式通常采用服务器硬件布线+传感器检测的方式,该方式由于并不探查具体io协议栈内容,只能通过检测信号有无、强弱的方式来进行检测,故只能感知到磁盘本身断电,芯片故障等严重的错误,检测内容较少。
为了解决上述问题,一种服务器磁盘监控及故障预测的方法成为整个社会亟待解决的技术问题。
发明内容
为解决上述技术问题,本发明提供的技术方案为:一种服务器磁盘监控及故障预测的方法,包括服务器硬件管理,所述服务器硬件管理包括带内和带外两部分,所述服务器硬件管理内设置有数据信息和管理信息,所述数据信息和管理信息通过网络设备以太网端口进行传送,包括以下方法:
(1)针对服务器硬件监控,需要针对不同硬部件使用原生的应用编程接口(API)获取相关的metric,例如hdd使用ATA/SCSI协议,以及部分RAID厂商提供的工具等。获取metric的同时会对数据划分类别,按照基本配置信息、故障信息、功耗信息、使用情况等类别进行归一化分类,所以针对x86平台,最重要的是定义一套通用的硬件监控及数据展示API;
(2)在对数据进行标准化定义的过程中,会参照硬件设备本身的属性,以脱离于具体表示形式的方式定义数据格式,具体命名方式为设备类型.数据维度(基本信息/故障/功耗/运行时os内状态).具体维度,该命名方式可以支持随着硬件类型/某类型硬件数量动态调整变化;
(3)数据进行标准化的结果如下,定义的依据为硬盘固有的配置信息(basic),运行时操作系统层面(以linux为例)以及内部的配置信息(status/smart)
(4)在采集程序agent内部会基于设备功能性模型,提供对应的高级功能输出。
进一步地,所述带外包括以下两个部分:
(1)基于IPMI协议的服务器厂商自定义拓展,核心集中在各种不同的自定义命令,可以接管服务器主要的硬件设备管理,受限于带外协议以及资源的限制,部分信息暂时无法获取。
(2)新一代的DMTF组织推出的redfish协议,核心集中在数据的完整和自解释性,使用HTTP协议作为应用协议而非传输协议,并将大部分操作抽象为CRUD接口。
发明与现有技术相比的优点在于:本发明采用了上述技术方案,简化了在公有云/私有云中使用多个厂商服务器环境下,现有x86平台服务器对于磁盘监控管理成本,相对于之前需要维护多套不同厂商管理措施和软件的方式,本发明最终只需要基于通用的API完成对于所有x86服务器磁盘的监管控,且基于采集的smart数据实现了对于故障的预测分析。
附图说明
图1是各smart属性变化点到故障时间的平均分布。
具体实施方式
下面结合附图对本发明做进一步的详细说明。
结合附图,对本发明进行详细介绍。
本发明在具体实施时提供了一种服务器磁盘监控及故障预测的方法,包括服务器硬件管理,所述服务器硬件管理包括带内和带外两部分,所述服务器硬件管理内设置有数据信息和管理信息,所述数据信息和管理信息通过网络设备以太网端口进行传送,包括以下方法:
(1)针对服务器硬件监控,需要针对不同硬部件使用原生的应用编程接口(API)获取相关的metric,例如hdd使用ATA/SCSI协议,以及部分RAID厂商提供的工具等。获取metric的同时会对数据划分类别,按照基本配置信息、故障信息、功耗信息、使用情况等类别进行归一化分类,所以针对x86平台,最重要的是定义一套通用的硬件监控及数据展示API;
(2)在对数据进行标准化定义的过程中,会参照硬件设备本身的属性,以脱离于具体表示形式的方式定义数据格式,具体命名方式为设备类型.数据维度(基本信息/故障/功耗/运行时os内状态).具体维度,该命名方式可以支持随着硬件类型/某类型硬件数量动态调整变化;
(3)数据进行标准化的结果如下,定义的依据为硬盘固有的配置信息(basic),运行时操作系统层面(以linux为例)以及内部的配置信息(status/smart)
(4)在采集程序agent内部会基于设备功能性模型,提供对应的高级功能输出。
作为本发明的进一步阐述,所述带外包括以下两个部分:
(1)基于IPMI协议的服务器厂商自定义拓展,核心集中在各种不同的自定义命令,可以接管服务器主要的硬件设备管理,受限于带外协议以及资源的限制,部分信息暂时无法获取。
(2)新一代的DMTF组织推出的redfish协议,核心集中在数据的完整和自解释性,使用HTTP协议作为应用协议而非传输协议,并将大部分操作抽象为CRUD接口。
与通过带外使用IPMI协议进行服务器硬部件数据采集监控的方式不同,采用带内成熟的设备接口获取到的数据更为全面和准确,同时也能保证更高的时效性。
本发明的具体实施方式如下:实例:
数据采集,部署采集agent,至少每隔2小时采集一次磁盘的smart数据,必须包含以下smart属性: '1_value','3_value','5_value','5_raw','7_value','9_value','10_value','187_value','189_value ','194_value','195_value','197_value','197_raw','198_value' 其中1_value表示smart属性1的value值,5_raw表示smart属性5的raw值
数据记录格式为:
timestamp,'1_value','3_value','5_value','5_raw','7_value','9_value','10_value','187_value', '189_value','194_value','195_value','197_value','197_raw','198_value'
数据存储有2种方式:1>使用监控server上传存储的数据;
2>将smart数据写入本地文件,使用第三方agent处理数据导出;
d)积累20天的数据作为模型训练样本
e)模型更新完成后,将模型预测服务打包为独立部署包,部署到测试机器上
f)部署后可定时对smart属性值做预测,输出可能故障的磁盘结果
具体磁盘故障预测分析过程:
主要smart属性分析:
根据过去磁盘运维经验,对数据集中故障样本相关系数分析,部分结果如下:
Figure RE-GDA0003752059960000041
如上表,63%故障盘与SMART_193_raw(the load cycle count)的增加正相关,类似的SMART_7_raw(seek error count),SMART_1_normalized(read error rate),SMART_240_raw(transfer error rate), SMART_197_raw(nr.of pending sectors),SMART_198_raw(uncorrectable sector count), SMART_187_raw(number of uncorrectableerrors),SMART_5_raw(reallocated sector count)等属性在故障盘中正相关的比例在19%-26%之间
i.加入变化率特征分析:
数据集提供了一个季度持续的时序数据,对主要smart属性在故障前若干天的变化率,以及实际值和时序预测值的偏差进行分析。在检测到变化率较大的变异点后,统计变异点到故障的天数特征。
ii.基于如上分析,最后smart所选取的属性
为:’1_value','3_value','5_value','5_raw','7_value','9_value','10_value','187_va lue','189_value','194_value','195_value','197_value','197_raw','198_value'。
所选取的smart变化率的属性
为:’1_value','5_value','5_raw','7_value','187_value','194_value','195_value','1 97_value','197_raw'属性的变化率。
b)模型选择:对比了常用的分类模型如决策树,随机森林,GBDT,SVM,LR等之后,本次实验过程中选取了xgboost和GBDT作为模型进行训练
c)模型训练与验证结果
训练集:样本:9998910,磁盘数:109877
验证集:样本:2499728,磁盘数:27470
正样本:要预测磁盘分类;负样本:其他分类
评估指标:Tp=预测正确正样本,Fp=预测错误正样本,Tn=预测正确负样本,Fn=预测错误负样本
精确率:
Figure RE-GDA0003752059960000051
召回率:
Figure RE-GDA0003752059960000052
测试结果:
Figure RE-GDA0003752059960000053
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (2)

1.一种服务器磁盘监控及故障预测的方法,其特征在于:包括服务器硬件管理,所述服务器硬件管理包括带内和带外两部分,所述服务器硬件管理内设置有数据信息和管理信息,所述数据信息和管理信息通过网络设备以太网端口进行传送,包括以下方法:
(1)针对服务器硬件监控,需要针对不同硬部件使用原生的应用编程接口(API)获取相关的metric,例如hdd使用ATA/SCSI协议,以及部分RAID厂商提供的工具等。获取metric的同时会对数据划分类别,按照基本配置信息、故障信息、功耗信息、使用情况等类别进行归一化分类,所以针对x86平台,最重要的是定义一套通用的硬件监控及数据展示API;
(2)在对数据进行标准化定义的过程中,会参照硬件设备本身的属性,以脱离于具体表示形式的方式定义数据格式,具体命名方式为设备类型.数据维度(基本信息/故障/功耗/运行时os内状态).具体维度,该命名方式可以支持随着硬件类型/某类型硬件数量动态调整变化;
(3)数据进行标准化的结果如下,定义的依据为硬盘固有的配置信息(basic),运行时操作系统层面(以linux为例)以及内部的配置信息(status/smart)
(4)在采集程序agent内部会基于设备功能性模型,提供对应的高级功能输出。
2.根据权利要求1所述的一种服务器磁盘监控及故障预测的方法,其特征在于:所述带外包括以下两个部分:
(1)基于IPMI协议的服务器厂商自定义拓展,核心集中在各种不同的自定义命令,可以接管服务器主要的硬件设备管理,受限于带外协议以及资源的限制,部分信息暂时无法获取。
(2)新一代的DMTF组织推出的redfish协议,核心集中在数据的完整和自解释性,使用HTTP协议作为应用协议而非传输协议,并将大部分操作抽象为CRUD接口。
CN202210384705.2A 2022-04-13 2022-04-13 一种服务器磁盘监控及故障预测的方法 Pending CN114911670A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210384705.2A CN114911670A (zh) 2022-04-13 2022-04-13 一种服务器磁盘监控及故障预测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210384705.2A CN114911670A (zh) 2022-04-13 2022-04-13 一种服务器磁盘监控及故障预测的方法

Publications (1)

Publication Number Publication Date
CN114911670A true CN114911670A (zh) 2022-08-16

Family

ID=82765070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210384705.2A Pending CN114911670A (zh) 2022-04-13 2022-04-13 一种服务器磁盘监控及故障预测的方法

Country Status (1)

Country Link
CN (1) CN114911670A (zh)

Similar Documents

Publication Publication Date Title
CN107025153B (zh) 磁盘的故障预测方法和装置
CN110321371B (zh) 日志数据异常检测方法、装置、终端及介质
CN110413227B (zh) 一种硬盘设备的剩余使用寿命在线预测方法和系统
US8655623B2 (en) Diagnostic system and method
CN101093462B (zh) 数据库应用集群压力测试自动化方法
CN110502374A (zh) 识别自动测试时设备故障的根本原因的流量捕获调试工具
US9311176B1 (en) Evaluating a set of storage devices and providing recommended activities
CN108052528A (zh) 一种存储设备时序分类预警方法
CN110164501B (zh) 一种硬盘检测方法、装置、存储介质及设备
CN102568522A (zh) 硬盘性能的测试方法和装置
CN111949459B (zh) 一种基于迁移学习和主动学习的硬盘故障预测方法及系统
CN111309502A (zh) 固态硬盘寿命预测方法
CN111813585A (zh) 慢盘的预测和处理
Xu et al. General feature selection for failure prediction in large-scale SSD deployment
CN111767162B (zh) 一种面向不同型号硬盘的故障预测方法及电子装置
CN112433928A (zh) 一种存储设备的故障预测方法、装置、设备及存储介质
CN115248757A (zh) 一种硬盘健康评估方法和存储设备
CN117009243A (zh) 芯片性能自动化测试方法、装置、计算机设备及存储介质
CN112118127B (zh) 一种基于故障相似度的服务可靠性保障方法
CN113778766A (zh) 基于多维特征的硬盘故障预测模型建立方法及其应用
CN116682479A (zh) 一种企业级固态硬盘时延指标的测试方法及测试系统
CN114911670A (zh) 一种服务器磁盘监控及故障预测的方法
CN109489223A (zh) 数据处理方法、装置、设备和空调
CN115981911A (zh) 内存故障的预测方法、电子设备和计算机可读存储介质
CN111381990A (zh) 一种基于流特征的磁盘故障预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination