CN109032891A - 一种云计算服务器硬盘故障预测方法及装置 - Google Patents

一种云计算服务器硬盘故障预测方法及装置 Download PDF

Info

Publication number
CN109032891A
CN109032891A CN201810811260.5A CN201810811260A CN109032891A CN 109032891 A CN109032891 A CN 109032891A CN 201810811260 A CN201810811260 A CN 201810811260A CN 109032891 A CN109032891 A CN 109032891A
Authority
CN
China
Prior art keywords
hard disk
information
failure
building environment
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810811260.5A
Other languages
English (en)
Inventor
高晓锋
郭锋
韩笑莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810811260.5A priority Critical patent/CN109032891A/zh
Publication of CN109032891A publication Critical patent/CN109032891A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种云计算服务器硬盘故障预测方法及装置,涉及云计算IaaS层技术。本发明公开的云计算服务器硬盘故障预测方法,包括:采集并存储硬盘信息以及机房环境信息;根据所采集的硬盘信息和机房环境信息,结合硬盘历史故障数据进行分析,预测服务器硬盘故障。本申请技术方案在硬盘出现故障前提前预警,使得云计算IaaS层服务器硬盘故障的发现无需人工干预,自动完成,从而提高云计算IaaS层的服务质量,提高运维效率。

Description

一种云计算服务器硬盘故障预测方法及装置
技术领域
本发明涉及云计算IaaS(Infrastructure as a Service,基础设施即服务)层技术,特别涉及一种服务器硬盘故障预测的方案。
背景技术
随着云计算、数据中心的普及,IaaS层基础设施特别是服务器,规模已经到达万级数量。服务器硬盘虽然故障率较低,便随着数量的增多,服务年限的增加,故障率也会随着增加,因此采用一种自动方法对服务器硬盘进行预测,以便及时更换即将损坏的硬盘对提高IaaS层的服务质量非常有必要。
目前的服务器硬盘只能靠SMART(Self-Monitoring Analysis and ReportingTechnology,自动检测分析及报告技术)记录硬盘信息,当出现故障后,系统启动时提示用户,无法提供自动预测功能,当硬盘规模较大,服务年限长时,会给IaaS的服务质量造成不良影响,严重情况下会导致数据丢失,而且靠人工维护费时费力,无法解决这个问题。
发明内容
本发明公开了一种云计算服务器硬盘故障预测方法及装置,可以解决无法对服务器硬盘故障进行提前预警的问题。
本发明公开了一种云计算服务器硬盘故障预测方法,包括:
采集并存储硬盘信息以及机房环境信息;
根据所采集的硬盘信息和机房环境信息,结合硬盘历史故障数据进行分析,预测服务器硬盘故障。
可选地,上述方法中,所述硬盘信息至少包括如下任一种或几种信息:
硬盘基本信息、硬盘自动检测分析及报告技术SMART信息、硬盘参数信息。
可选地,上述方法中,所述机房环境信息至少包括如下任一种或几种:
温度、湿度、通风情况。
可选地,上述方法中,所述根据所采集的硬盘信息和机房环境信息,结合硬盘历史故障数据进行分析,预测服务器硬盘故障,包括:
针对服务器中的每块硬盘的硬盘信息结合硬盘历史故障数据进行学习训练,建立逻辑回归预测学习模型并进行优化,根据优化后的模型分析当前采集的硬盘信息,并结合当前机房环境信息对硬盘故障进行预测。
可选地,上述方法还包括:
在预测服务器硬盘故障后,向用户提示硬盘故障预测信息。
本发明还公开了一种云计算服务器硬盘故障预测装置,包括:
信息采集模块,采集硬盘信息存储至硬盘信息库,以及采集机房环境信息并存储至机房环境信息库;
机器学习算法预测模块,根据所采集的硬盘信息和机房环境信息,结合硬盘历史故障数据进行分析,预测服务器硬盘故障。
可选地,上述装置中,所述硬盘信息至少包括如下任一种或几种信息:
硬盘基本信息、硬盘自动检测分析及报告技术SMART信息、硬盘参数信息。
可选地,上述装置中,所述机房环境信息至少包括如下任一种或几种:
温度、湿度、通风情况。
可选地,上述装置中,所述机器学习算法预测模块,根据所采集的硬盘信息和机房环境信息,结合硬盘历史故障数据进行分析,预测服务器硬盘故障,包括:
针对服务器中的每块硬盘的硬盘信息结合硬盘历史故障数据进行学习训练,建立逻辑回归预测学习模型并进行优化,根据优化后的模型分析当前采集的硬盘信息,并结合当前采集的机房环境信息对硬盘故障进行预测。
可选地,上述装置还包括:
故障预测信息显示模块,在所述机器学习算法预测模块预测出服务器硬盘故障时,向用户提示硬盘故障预测信息。
本申请技术方案在硬盘出现故障前提前预警,使得云计算IaaS层服务器硬盘故障的发现无需人工干预,自动完成,从而提高云计算IaaS层的服务质量,提高运维效率。
附图说明
图1为本发明实施例中服务器硬盘故障自动预测装置架构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文将结合具体实施方式对本发明技术方案作进一步详细说明。需要说明的是,在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
实施例1
本实施例提出一种云计算IaaS层服务器硬盘故障预测装置,主要包括如下模块。
信息采集模块,采集硬盘信息存储至硬盘信息库,以及采集机房环境信息并存储至机房环境信息库;
机器学习算法预测模块,根据所采集的硬盘信息和机房环境信息,结合硬盘历史故障数据进行分析,预测服务器硬盘故障。
硬盘信息至少包括如下任一种或几种信息:
硬盘基本信息、硬盘SMART信息、硬盘参数信息。
机房环境信息至少包括如下任一种或几种:
温度、湿度、通风情况。
另外,在上述装置的基础上,还可以增加故障预测信息显示模块,该模块可以在机器学习算法预测模块预测出服务器硬盘故障时,向用户提示硬盘故障预测信息。
下面结合附图1说明具体应用中,本发明的云计算服务器硬盘故障预测装置的具体实现,此时总体架构可分为五个部分:信息采集模块、硬盘信息库、机房环境信息库、机器学习算法预测模块、故障预测信息显示模块。
信息采集模块,主要负责采集硬盘信息,即跟硬盘故障相关的信息,如硬盘基本信息、硬盘SMART信息、硬盘参数信息等,以及采集机房环境信息。
硬盘信息库,负责存储信息采集模块采集到的所有硬盘信息。
机房环境信息库,负责存储信息采集模块采集到的机房环境信息。
机器学习算法模块,负责结合硬盘信息和机房环境信息进行硬盘故障预测分析。
其中,机器学习算法模块可以针对每块硬盘分别根据硬盘信息结合硬盘历史故障数据进行学习训练,建立逻辑回归预测学习模型,优化模型,再根据优化模型分析当前采集的硬盘信息,并结合机房环境信息对硬盘故障进行预测。
故障预测信息显示模块,在预测出硬盘故障时,显示硬盘故障预测信息。
其中,利用上述装置进行硬盘故障预测分析的完整过程可参照如下示例。
(1)信息采集模块收集硬盘信息;
可以在http://www.Backblaze.co/网站下载从2013年到2018年公开免费硬盘数据集约73653块硬盘每天的记录信息,包含硬盘信息,例如硬盘序列号、日期,硬盘厂商,硬盘型号,硬盘SMART信息。
(2)机器学习算法模块,选择SMART属性。使用突变点(changepoint)检测方法对SMART属性分类,选择与磁盘故障(本文中磁盘与硬盘为同一概念,故下文中出现的磁盘均等同于硬盘,磁盘故障也等同与硬盘故障)相关的SMART属性,主要用于建立学习模型时对硬盘故障特征的分析;
机器学习算法模块,生成时间序列。具体可以使用指数平滑生成时间序列数据。
机器学习算法模块,解决数据不平衡性。由于故障磁盘相对正常磁盘比率较低,采用随机抽样选择有代表性的正常磁盘数据,用这些数据代表正常磁盘,从而使正常磁盘与故障磁盘比例达到平衡。
机器学习算法模块,对磁盘状态进行分类,可以采用逻辑回归算法对磁盘状态(包括磁盘正常运行状态和异常状态)进行分类,采用RGF正则化贪心森林算法(RegularizedGreedy Forest)对算法进行全局优化改进。
上述机器学习算法模块进行的各种操作主要是为了根据硬盘信息结合硬盘历史故障数据进行学习训练,建立逻辑回归预测学习模型并进行优化。由于在建模过程中提取了硬盘故障特征,因此优化后的模型可以预先分析出硬盘故障特征,从而根据当前采集的硬盘信息和机房环境信息对硬盘故障进行预测。还要注意的是,机器学习算法模块,为了针对不同厂商不同型号磁盘提高预测精度,对不同厂商可以采用不同的预测模型(不同厂商的磁盘SMART信息有差异),还可以对相同厂商不同磁盘采用迁移学习方法以减少训练数据数量。另外,关于环境信息说明:根据硬盘制造商提供的数据和相关的实验,硬盘工作的正常温度约为摄氏0-60度。采集机房环境信息是为了确保在极端条件下预测的严谨性,如火灾、水灾、超高(低)温、环境封闭影响散热等,在这些情况下,硬盘可能无法正常工作,也可能瞬间损坏,本申请技术方案会将这些情况下硬盘的损坏标记为特殊原因,并记录相关信息。即机器学习算法模块在学习训练建立模型时可以不考虑机房环境信息,而在预测硬盘故障时,则要考虑机房环境信息。
使用上述装置,可以实现云计算IaaS层服务器硬盘的故障预测,提高云计算IaaS层的服务质量,减轻运维人员的工作负担,提高云计算运维管理的自动化水平。
实施例2
本实施例提供一种云计算IaaS层服务器硬盘故障预测方法,其实现过程包括如下操作:
首先,采集并存储硬盘信息以及机房环境信息;
具体地,可以定期采集服务器硬盘信息及机房环境信息并将采集到的信息分别存放在硬盘信息库和机房环境信息库中。
其次,根据所采集的硬盘信息和机房环境信息,结合硬盘历史故障数据进行分析,预测服务器硬盘故障。
具体地,可以利用机器学习算法针对每块硬盘信息结合硬盘历史故障数据进行学习训练,建立逻辑回归预测学习模型,优化模型,再根据优化模型分析当前采集的硬盘信息、以及当前采集的机房环境信息对硬盘故障进行预测。
其中,建立逻辑回归预测学习模型并优化模型的具体操作可参见上述实施例1的相应内容,在此不再赘述。
最后,还可以输出硬盘故障预测信息提示给用户。
从上述实施例可以看出,本申请技术方案可实现服务器硬盘故障(尤其适用于云计算IaaS层服务器硬盘故障)的自动预测,提高云计算IaaS层的服务质量,减轻运维人员的工作负担,提高云计算运维管理的自动化水平。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。
以上所述,仅为本发明的较佳实例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种云计算服务器硬盘故障预测方法,其特征在于,包括:
采集并存储硬盘信息以及机房环境信息;
根据所采集的硬盘信息和机房环境信息,结合硬盘历史故障数据进行分析,预测服务器硬盘故障。
2.如权利要求1所述的方法,其特征在于,所述硬盘信息至少包括如下任一种或几种信息:
硬盘基本信息、硬盘自动检测分析及报告技术SMART信息、硬盘参数信息。
3.如权利要求1所述的方法,其特征在于,所述机房环境信息至少包括如下任一种或几种:
温度、湿度、通风情况。
4.如权利要求1至3任一项所述的方法,其特征在于,所述根据所采集的硬盘信息和机房环境信息,结合硬盘历史故障数据进行分析,预测服务器硬盘故障,包括:
针对服务器中的每块硬盘的硬盘信息结合硬盘历史故障数据进行学习训练,建立逻辑回归预测学习模型并进行优化,根据优化后的模型分析当前采集的硬盘信息,并结合当前机房环境信息对硬盘故障进行预测。
5.如权利要求4所述的方法,其特征在于,还包括:
在预测服务器硬盘故障后,向用户提示硬盘故障预测信息。
6.一种云计算服务器硬盘故障预测装置,其特征在于,包括:
信息采集模块,采集硬盘信息存储至硬盘信息库,以及采集机房环境信息并存储至机房环境信息库;
机器学习算法预测模块,根据所采集的硬盘信息和机房环境信息,结合硬盘历史故障数据进行分析,预测服务器硬盘故障。
7.如权利要求6所述的装置,其特征在于,所述硬盘信息至少包括如下任一种或几种信息:
硬盘基本信息、硬盘自动检测分析及报告技术SMART信息、硬盘参数信息。
8.如权利要求6所述的装置,其特征在于,所述机房环境信息至少包括如下任一种或几种:
温度、湿度、通风情况。
9.如权利要求6至8任一项所述的装置,其特征在于,所述机器学习算法预测模块,根据所采集的硬盘信息和机房环境信息,结合硬盘历史故障数据进行分析,预测服务器硬盘故障,包括:
针对服务器中的每块硬盘的硬盘信息结合硬盘历史故障数据进行学习训练,建立逻辑回归预测学习模型并进行优化,根据优化后的模型分析当前采集的硬盘信息,并结合当前采集的机房环境信息对硬盘故障进行预测。
10.如权利要求9所述的装置,其特征在于,还包括:
故障预测信息显示模块,在所述机器学习算法预测模块预测出服务器硬盘故障时,向用户提示硬盘故障预测信息。
CN201810811260.5A 2018-07-23 2018-07-23 一种云计算服务器硬盘故障预测方法及装置 Pending CN109032891A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810811260.5A CN109032891A (zh) 2018-07-23 2018-07-23 一种云计算服务器硬盘故障预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810811260.5A CN109032891A (zh) 2018-07-23 2018-07-23 一种云计算服务器硬盘故障预测方法及装置

Publications (1)

Publication Number Publication Date
CN109032891A true CN109032891A (zh) 2018-12-18

Family

ID=64644180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810811260.5A Pending CN109032891A (zh) 2018-07-23 2018-07-23 一种云计算服务器硬盘故障预测方法及装置

Country Status (1)

Country Link
CN (1) CN109032891A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754094A (zh) * 2018-12-20 2019-05-14 广州航天海特系统工程有限公司 机电设备智能化运维方法、系统、设备及存储介质
CN111158964A (zh) * 2019-11-26 2020-05-15 北京邮电大学 一种磁盘故障预测方法、系统、装置及存储介质
CN111858283A (zh) * 2020-07-24 2020-10-30 山东海量信息技术研究院 一种边缘数据中心的硬盘故障预处理方法及相关组件
CN113607413A (zh) * 2021-08-26 2021-11-05 上海航数智能科技有限公司 一种基于可控温湿度的轴承部件故障监测预测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279775A (zh) * 2011-08-19 2011-12-14 西安交通大学 一种Linux系统下的硬盘故障处理方法
CN105045689A (zh) * 2015-06-25 2015-11-11 浪潮电子信息产业股份有限公司 一种利用raid卡批量检测硬盘监控和报警的方法
CN105260279A (zh) * 2015-11-04 2016-01-20 四川效率源信息安全技术股份有限公司 基于smart数据动态诊断硬盘故障的方法和装置
CN105512004A (zh) * 2015-12-11 2016-04-20 浪潮电子信息产业股份有限公司 一种避免环境温、湿度异常导致服务器硬盘故障的方法
CN105589795A (zh) * 2014-12-31 2016-05-18 中国银联股份有限公司 基于预测模型的磁盘故障预测方法及装置
CN107025154A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
CN107392320A (zh) * 2017-07-28 2017-11-24 郑州云海信息技术有限公司 一种使用机器学习预测硬盘故障的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279775A (zh) * 2011-08-19 2011-12-14 西安交通大学 一种Linux系统下的硬盘故障处理方法
CN105589795A (zh) * 2014-12-31 2016-05-18 中国银联股份有限公司 基于预测模型的磁盘故障预测方法及装置
CN105045689A (zh) * 2015-06-25 2015-11-11 浪潮电子信息产业股份有限公司 一种利用raid卡批量检测硬盘监控和报警的方法
CN105260279A (zh) * 2015-11-04 2016-01-20 四川效率源信息安全技术股份有限公司 基于smart数据动态诊断硬盘故障的方法和装置
CN105512004A (zh) * 2015-12-11 2016-04-20 浪潮电子信息产业股份有限公司 一种避免环境温、湿度异常导致服务器硬盘故障的方法
CN107025154A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
CN107392320A (zh) * 2017-07-28 2017-11-24 郑州云海信息技术有限公司 一种使用机器学习预测硬盘故障的方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754094A (zh) * 2018-12-20 2019-05-14 广州航天海特系统工程有限公司 机电设备智能化运维方法、系统、设备及存储介质
CN111158964A (zh) * 2019-11-26 2020-05-15 北京邮电大学 一种磁盘故障预测方法、系统、装置及存储介质
CN111158964B (zh) * 2019-11-26 2021-06-08 北京邮电大学 一种磁盘故障预测方法、系统、装置及存储介质
CN111858283A (zh) * 2020-07-24 2020-10-30 山东海量信息技术研究院 一种边缘数据中心的硬盘故障预处理方法及相关组件
CN113607413A (zh) * 2021-08-26 2021-11-05 上海航数智能科技有限公司 一种基于可控温湿度的轴承部件故障监测预测方法

Similar Documents

Publication Publication Date Title
CN109032891A (zh) 一种云计算服务器硬盘故障预测方法及装置
CN109739739B (zh) 磁盘故障的预测方法、设备及存储介质
US11558272B2 (en) Methods and systems for predicting time of server failure using server logs and time-series data
CN109558287B (zh) 一种固态硬盘寿命预测方法、装置和系统
CN109828869B (zh) 预测硬盘故障发生时间的方法、装置及存储介质
BR102018009859A2 (pt) Método e sistema para otimização com base em dados de indicadores de desempenho em indústrias de fabricação e processo
TWI647564B (zh) 用於診斷資料中心儲存設備之剩餘壽命的方法與系統
CN105988910A (zh) 存储装置寿命监控系统以及其存储装置寿命监控方法
JP2011209879A (ja) 評価装置および評価プログラム
CN104142663A (zh) 云平台中的工业设备和系统证明
CN110164501A (zh) 一种硬盘检测方法、装置、存储介质及设备
CN111966569A (zh) 硬盘健康度评估方法和装置、计算机可读存储介质
US11734103B2 (en) Behavior-driven die management on solid-state drives
CN111915026A (zh) 故障处理方法、装置、电子设备及存储介质
CN111459692A (zh) 用于预测驱动器故障的方法、设备和计算机程序产品
CN116457802A (zh) 利用未被标记的传感器数据对工业系统中的罕见故障的自动实时检测、预测和阻止
CN112527572A (zh) 磁盘故障预测方法、装置、计算机可读存储介质及服务器
CN114528942A (zh) 工程机械的数据样本库的构建、故障预测方法及工程机械
CN110520702A (zh) 监视电子设备的热健康
US11645119B2 (en) Dynamic allocation of resources in surge demand
CN117591351A (zh) 磁盘故障检测模型的训练方法以及磁盘故障检测方法
CN115793990B (zh) 存储器健康状态确定方法、装置、电子设备及存储介质
US20230034061A1 (en) Method for managing proper operation of base station and system applying the method
Bechina et al. A system of systems approach to smart Building Management: an AI vision for Facility Management
Kuznietsova et al. Data mining methods application for increasing the data storage systems fault-tolerance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181218

RJ01 Rejection of invention patent application after publication