CN110164501A - 一种硬盘检测方法、装置、存储介质及设备 - Google Patents

一种硬盘检测方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN110164501A
CN110164501A CN201810714321.6A CN201810714321A CN110164501A CN 110164501 A CN110164501 A CN 110164501A CN 201810714321 A CN201810714321 A CN 201810714321A CN 110164501 A CN110164501 A CN 110164501A
Authority
CN
China
Prior art keywords
hard disk
hard
value
risk
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810714321.6A
Other languages
English (en)
Other versions
CN110164501B (zh
Inventor
叶茂
柳永康
李靖
韩霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810714321.6A priority Critical patent/CN110164501B/zh
Publication of CN110164501A publication Critical patent/CN110164501A/zh
Application granted granted Critical
Publication of CN110164501B publication Critical patent/CN110164501B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/04Detection or location of defective memory elements, e.g. cell constructio details, timing of test signals
    • G11C29/08Functional testing, e.g. testing during refresh, power-on self testing [POST] or distributed testing
    • G11C29/10Test algorithms, e.g. memory scan [MScan] algorithms; Test patterns, e.g. checkerboard patterns 

Abstract

本发明实施例公开了硬盘检测方法、装置、存储介质以及终端,应用于硬件安全技术领域。该方法包括:获取硬盘数据;根据硬盘数据,通过最佳支持向量机模型获取所述硬盘的二分类输出,判断硬盘是否为第一类型硬盘;若是,获取所述第一类型硬盘的风险系数;其中,所述风险系数根据硬盘数据获得;将所述第一类型硬盘的硬盘数据和所述风险系数输入风险预估模型得到所述硬盘的损坏风险值。通过具体的损坏风险值可以判断硬盘损坏风险的大小,从而更加准确直观。

Description

一种硬盘检测方法、装置、存储介质及设备
技术领域
本发明涉及计算机技术领域,特别涉及一种硬盘检测方法、装置、存储介质及设备。
背景技术
硬盘是集精密机械、微电子电路、电磁转换为一体的电脑存储设备,它存储着电脑系统资源和重要的信息及数据,这些因素使硬盘在PC机中成为最为重要的一个硬件设备之一。
对于硬盘的检测,现有的一种检测方法是目前业界普遍采用阈值判定方法,也就是线上监控S.M.A.R.T阈值的变化,如果超出阈值就告警。现有的另一种硬盘检测方法通过云计算平台硬盘故障预测,根据预测时间窗口内的硬盘维修记录将硬盘S.M.A.R.T日志数据标记为正常硬盘样本和故障硬盘样本,之后采用K-means聚类算法将去除噪音后的正常硬盘样本划分为K个不相交子集,并分别与故障硬盘样本结合,根据SMOTE过采样算法生成K组平衡训练集,以此训练得到K个支持向量机分类器,用于故障硬盘的预测。
由于阈值判定方法中的阈值是厂商设置的,厂商为了减少因误告导致的返厂检测维修的硬盘数量,会将阈值设置得相当严格,虽然误报率可以低至0.1%,但会导致只检测到很少数的硬盘故障。此外,在使用S.M.A.R.T数据时由于数据选择不当导致弱化故障相关特征,并且不同型号的硬盘的同种特性范围不一,不能简单填充缺失值,会导致预测模型产生严重偏差。投票模式容易导致误判,即利用多个“平衡”数据集上分别建立的模型,投票决出是否故障判断,容易受数据集分布的影响,而且通过K个支持向量机分类器模型投票得出每块盘是否即将故障的二值判断,但却没有对即将故障盘的风险进行评估,无法为硬盘属主提供一段时间内的故障概率的推断。
发明内容
本发明实施例提供一种硬盘检测方法、装置及存储介质,实现了准确高效地预测硬盘故障风险。
本发明实施例第一方面提供一种硬盘检测方法,包括:
获取硬盘数据;
根据硬盘数据,通过最佳支持向量机模型获取所述硬盘的二分类输出,判断硬盘是否为第一类型硬盘;
若是,获取所述第一类型硬盘的风险系数;其中,所述风险系数根据硬盘数据获得;
将所述第一类型硬盘的硬盘数据和所述风险系数输入风险预估模型得到所述硬盘的损坏风险值。本发明实施例第二方面提供一种硬盘检测装置,包括:
获取模块,用于获取硬盘数据;
第一判断模块,用于根据硬盘数据,通过最佳支持向量机模型获取所述硬盘的二分类输出,判断硬盘是否为第一类型硬盘;;
获取模块,获取所述第一类型硬盘的风险系数;
输出模块,用于将所述第一类型硬盘的硬盘数据和所述风险系数输入风险预估模型得到所述硬盘的损坏风险值。
本发明实施例第三方面提供一种存储介质,所述存储介质储存多条指令,所述指令适于由处理器加载并执行如本发明实施例第一方面所述的硬盘检测方法。
本发明实施例第四方面提供一种终端设备,包括处理器和存储介质,所述处理器,用于实现各个指令;所述存储介质储存多条指令,所述指令适于由处理器加载并执行如本发明实施例第一方面所述的硬盘检测方法。
可见,在本实施例的方法中,选取适当的硬盘数据,将硬盘数据输入到最佳支持向量机模型得到二分类输出,根据归入第一类型硬盘的硬盘数据和风险系数得到硬盘的损坏风险值,判断得到损坏风险值是否落入预设的范围内,从而对硬盘的故障风险做出了十分直观的评估,而不仅仅是“是”或者“否”的结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种终端设备的结构示意图。
图2是本发明一个实施例提供的一种硬盘检测方法的流程图;
图3是本发明一个实施例中一种硬盘故障预测策略设置图;
图4是本发明一个实施例提供的另一种硬盘检测方法的流程图;
图5是本发明一个实施例提供的另一种硬盘检测方法的流程图;
图6是本发明一个实施例提供的另一种硬盘检测方法的流程图;
图7是本发明一个实施例提供的另一种硬盘检测方法的流程图;
图8是本发明一个实施例提供的一种硬盘检测装置的结构示意图;
图9是本发明一个实施例提供的另一种硬盘检测装置的结构示意图;
图10是本发明一个实施例提供的另一种硬盘检测装置的结构示意图;
图11是本发明一个实施例提供的另一种硬盘检测装置的结构示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排它的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供一种终端设备,其结构示意图如图1所示,该终端设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)20(例如,一个或一个以上处理器)和存储器21,一个或一个以上存储应用程序221或数据222的存储介质22(例如一个或一个以上海量存储设备)。其中,存储器21和存储介质22可以是短暂存储或持久存储。存储在存储介质22的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对终端设备中的一系列指令操作。更进一步地,中央处理器20可以设置为与存储介质22通信,在终端设备上执行存储介质22中的一系列指令操作。
具体地,在存储介质22中储存的应用程序221包括硬盘检测的应用程序。更进一步地,中央处理器20可以设置为与存储介质22通信,在终端设备上执行存储介质22中储存的硬盘检测的应用程序对应的一系列操作。
终端设备还可以包括一个或一个以上电源23,一个或一个以上有线或无线网络接口24,一个或一个以上输入输出接口25,和/或,一个或一个以上操作系统223,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
图2是本申请一个示例性的实施例提供的一种硬盘检测方法,包括:
步骤101,获取硬盘数据。
这里,终端通过多种方式都能获取硬盘数据,比如在线的方式或者离线的方式获取硬盘数据。
可选地,硬盘数据包括:硬盘型号、服务器型号、上架时间、版本号,以及硬盘的属性值。其中,硬盘的属性值来自S.M.A.R.T,S.M.A.R.T全称是Self-Monitoring,Analysisand Reporting Technology,即硬盘“自我监测、分析与报告技术”,该技术的主要功能是为了排除硬盘中可预测的机械故障(不可预测的故障则包括硬盘电路板损坏、外力的撞击等),力求做到在故障发生之前提出警告,从而及早采取防范措施,保护硬盘数据不受损失。
可选地,硬盘的属性值包括Read Error Rate,Spin Up Time,ReallocatedSector Count,Seek Error Rate,Power On Hours Count,Spin Retry Count,Recalibration Retries,Power Cycle Count,Unsafe Shutdown Count,TemperatureCelsius,Reallocation Event Count,Current Pending Sector Count,OfflineUncorrectable其中的任一项或多项。硬盘的属性值有200多项,通过跟厂商密切合作研究,选取故障关联度最高的13项S.M.A.R.T数据作为硬盘属性值,提高了数据精确度,这13项数据的说明见表1。
表1
ID# S.M.A.R.T信息项 说明
1 Read Error Rate 错误读取率
3 Spin Up Time 硬盘启动时间
5 Reallocated Sector Count 重新分配扇区次数
7 Seek Error Rate 磁头寻道错误率
9 Power On Hours Count 硬盘总工作时间
10 Spin Retry Count 旋转重试次数
11 Recalibration Retries 校准重试次数
12 Power Cycle Count 硬件重启次数
192 Unsafe Shutdown Count 非安全下电次数
194 Temperature Celsius 硬盘温度
196 Reallocation Event Count 重新分配事件次数
197 Current Pending Sector Count 读阻塞扇区数
198 Offline Uncorrectable 不可恢复错误数
步骤103,根据硬盘数据,通过最佳支持向量机模型获取所述硬盘的二分类输出,判断硬盘是否为第一类型硬盘。
对硬盘的属性值进行归一化和数据预处理,作为最佳支持向量机模型的输入数据,得到所述硬盘的二分类输出。二分类输出只给出正反面两种答案,在此,二分类输出分为“是第一类型硬盘”和“不是第一类型硬盘”。第一类型硬盘是通过最佳支持向量机模型得到的,这是判断硬盘是否为预测故障盘的第一步,即在此仅针对硬盘是否故障做一次预判断。
步骤105,若是,获取所述第一类型硬盘的风险系数;其中,所述风险系数根据硬盘数据获得。
通过支持向量机模型只能得到二分类输出,无法获知硬盘故障的风险大小,所以为了进一步细化故障风险,引入了风险统计模型。根据支持向量机模型的二分类输出以及硬盘对应详细配置信息,如硬盘型号、服务器类型、上架时间、版本号等,再将配置信息输入到风险系数模型,获取到对应第一类型硬盘的风险系数,并将获取到的第一类型硬盘的风险系数进行统计。
其中,风险系数模型是由管理人员根据故障策略来建立的,如根据硬盘型号、服务器类型、上架时间、版本号等指标来建立模型,其中每一个指标的比重不同,比如上架时间的比重较高,因为硬盘的使用时间越久则损坏的可能性越大,通过查询该模型可得到一块硬盘的风险系数。
步骤107,将所述第一类型硬盘的硬盘数据和所述风险系数输入风险预估模型得到所述硬盘的损坏风险值。
示意性地,见图3。其中,硬盘型号、服务器类型、上架时间、版本号都是可以使用的指标,这些指标可以通过人为增加或者删除的功能进行增加或者删除,同时,对于这些指标的具体数值也可以进行设置。损坏风险值是一个或者多个数值的集合,只有当这些数值都满足相应的条件时才能判断硬盘为第二预测故障硬盘,第二预测故障硬盘是最终认定的预测故障硬盘,第一预测故障硬盘是在得到第二预测故障硬盘的过程中得到的中间步骤产物。这些数值分别是风险系数、硬盘型号、服务器型号、服务器上架时间、版本号其中的任一项或多项所对应的数值,例如硬盘型号可以分为1、2、3,上架时间可以用区间来表示,等等。
例如,风险预估模型只考虑风险系数情况下,风险系数(图2中的预测比)位于0.8到1(左开右闭)之间则认为该硬盘的损坏风险值较大,则提示需要立即备份该硬盘数据;风险系数位于0.6到0.8(左开右闭)之间则认为该硬盘的损坏风险值中等,可暂时不更换硬盘;风险系数位于0.3到0.6(左开右闭)之间则认为该硬盘的损坏风险值较小,可不更换硬盘。
上述方法步骤存储在存储介质中22,并由中央处理器20执行。
其中,第一类型硬盘可以被定义为预故障硬盘,当第一类型硬盘被分出来之后再根据第一类型硬盘的硬盘数据获取第一类型硬盘的风险系数;再将第一类型硬盘的硬盘数据和风险系数输入风险预估模型得到硬盘的损坏风险值。这个损坏风险值就表明了第一类型硬盘将会损坏的可能性大小,损坏风险值越大则该硬盘的损坏可能性就越大,反之则越小。从而,可以定量地判断某个硬盘的损坏可能性大小。
图4是本申请一个示例性的实施例提供的一种硬盘检测方法,包括:
步骤201,获取硬盘数据。
由于步骤201与上述步骤101相同,故在此不再赘述。
步骤202,对硬盘的属性值进行阈值检查,判断硬盘的属性值是否满足第一阈值条件;若满足所述第一阈值条件,则判断所述硬盘为所述第一类型硬盘。
阈值(Threshold),又称门限值。是由硬盘厂商指定的可靠的属性值,通过特定公式计算而得。如果有一个属性值超出相应的阈值,就意味着硬盘将变得不可靠,保存在硬盘里的数据也很容易丢失。属性值的组成和大小对不同硬盘来说是有差异的,故针对不同型号的硬盘设定不同的阈值。在对硬盘的属性值进行检查的过程中,有些属性值超出了第一阈值,从而可以轻易地对超出第一阈值的硬盘进行归类为第一类型硬盘,其中第一类型硬盘可以定义为预故障硬盘,从而不需要通过支持向量机模型进行二分类输出判断。对于没有超出第一阈值的硬盘,则判断不是第一类型硬盘,需要进行后续的判断。
步骤203,结合所述硬盘数据,根据硬盘数据,通过最佳支持向量机模型获取所述硬盘的二分类输出,判断硬盘是否为第一类型硬盘。
由于步骤203与上述步骤103相同,故在此不再赘述。
步骤205,若是,获取所述第一类型硬盘的风险系数;其中,所述风险系数根据硬盘数据获得。
由于步骤205与上述步骤105相同,故在此不再赘述。
步骤207,将所述第一类型硬盘的硬盘数据和所述风险系数输入风险预估模型得到所述硬盘的损坏风险值。
可见,在本实施例的方法中,通过对硬盘的属性值进行阈值检查,提前就可以将硬盘进行分类,即超出阈值的硬盘的属性值和未超出阈值的硬盘的属性值,超出阈值的硬盘的属性值的硬盘判定为第一类型硬盘,未超出阈值的硬盘的属性值输入到最佳支持向量机模。通过该方法,可以预先筛选硬盘的属性值,故可以提高最佳支持向量机模效率和准确率。
图5是本申请一个示例性的实施例提供的一种硬盘检测方法,包括:
步骤301,获取硬盘数据。
由于步骤301与上述步骤101相同,故在此不再赘述。
步骤301,将满足第二阈值条件的硬盘打上第一样本标签,将不满足所述第二阈值条件的硬盘打上第二样本标签;对所述硬盘的属性值进行数据格式处理;选择支持向量机模型;利用所述硬盘的属性值对所述支持向量机模型进行训练得到所述最佳支持向量机模型。其中,第一样本标签是好样本标签,第二样本标签是坏样本标签。
在获取13项上述硬盘的属性值时,由于原始值范围不一会影响权重,故主要取的是标准值,将原始值变成标准值的标准化公式如下:
其中x是特征原始值,xmax和xmin分别是数据集中各型号硬盘各种特征的最大值和最小值。
此外,#5和#197这两种数据的原始值raw也会考虑,所以一共就有15项硬盘的属性值。#5和#197这两种数据不进行标准化,只进行格式化的处理。
根据不同的硬盘型号,分别建立支持向量机模型,避免不同型号的硬盘间S.M.A.R.T特性范围的差异性带来的特征弱化问题,并且使得多个型号硬盘的预测性能都能保持较高的水准。支持向量机是监督学习模型,故需要人为打标签的操作。将超阈值的所述硬盘的属性值打上坏样本标签,将没有超阈值的所述硬盘的属性值打上好样本标签;在样本的数据采集过程中,采用略大于1:1的比例选取好盘样本和坏盘样本,并将硬盘的属性值严重超阈值的情况也纳入坏盘样本,即在步骤202中得到的硬盘纳入坏盘样本,从而降低了样本差异性。
由于一般好盘数量比坏盘数量大很多,为了尽可能覆盖更多的好盘,所以每块好盘随机选取n条样本,其中:
若坏样本数s_bad>=好盘数量d_good,则n=ceil(s_bad/d_good),即每块好盘随机取n条样本,n为坏样本数除以好盘数量并向上取整;
若坏样本数s_bad<好盘数量d_good,则n=1,即随机选取s_bad块好盘,每块盘随机取1条样本。
从好盘和坏盘中各自随机选取60%作为训练集,20%作为交叉验证集,剩下20%作为测试集,并且采集测试集上各硬盘的详细配置数据,主要包括硬盘型号、服务器型号、服务器上架月份、版本号等指标信息。
获取到标签化数据后,下一步建立SVM预测模型。
可选地,本实施例采用LIBSVM软件包中的支持向量机SVM建模工具来建立预测模型。LIBSVM是台湾大学林智仁(Lin Chih-Jen)教授等开发设计的一个简单、易于使用和快速有效的支持向量机SVM模式识别与回归的软件包。首先按照LIBSVM软件包所要求的格式准备数据集,选用RBF径向基函数作为核函数,利用交叉验证集进行五次交叉验证选取最佳惩罚因子Cost(设置为1)和最佳核函数的参数Gamma(设置为1/k),然后在训练集上进行训练得到最佳支持向量机模型。再将测试集用最佳SVM模型进行测试验证,得到测试集上的二分类结果,并跟实际标签对比得到测试集上的预测性能。通过上述训练后得到所需的最佳支持向量机模型。
步骤303,结合所述硬盘数据,通过最佳支持向量机模型得到所述硬盘的二分类输出。
由于步骤303与上述步骤103相同,故在此不再赘述。
步骤305,统计所述第一类型硬盘的风险系数。
由于步骤305与上述步骤105相同,故在此不再赘述。
步骤307,将所述第一类型硬盘的硬盘数据和所述风险系数输入风险预估模型得到所述硬盘的损坏风险值。
由于步骤307与上述步骤107相同,故在此不再赘述。
上述方法步骤存储在存储介质中22,并由中央处理器20执行。
可见,在本实施例的方法中,选取支持向量机模型,对获取到的15项硬盘的属性值进行打标签处理,利用LIBSVM进行模型训练得到最佳向量机模型,将硬盘数据输入到最佳支持向量机模型得到二分类输出,判断硬盘是否为第一类型硬盘;根据判定为第一类型硬盘的硬盘数据和风险系数得到硬盘的损坏风险值,判断得到损坏风险值是否落入预设的范围内,从而对硬盘的故障风险做出了十分明确的评估,而不仅仅是“是”或者“否”的结果。
图6本申请一个示例性的实施例提供的一种硬盘检测方法,包括:
步骤401,获取硬盘数据。
由于步骤401与上述步骤101相同,故在此不再赘述。
步骤403,根据硬盘数据,通过最佳支持向量机模型获取所述硬盘的二分类输出,判断硬盘是否为第一类型硬盘。
由于步骤403与上述步骤103相同,故在此不再赘述。
步骤405,若是,获取所述第一类型硬盘的风险系数;其中,根据所述第一类型硬盘的硬盘型号、服务器型号、上架时间、版本号,通过查询风险系数模型得到所述风险系数。
由步骤403得到的二分类输出可以判断硬盘是否为第一类型硬盘,如果是第一类型硬盘,则还需获取硬盘的风险系数。利用硬盘的硬盘型号、服务器型号、上架时间、版本号中的任一项或多项进行建模,在建模时可以考虑每个因素的权重,根据这些因素的重要性的大小设置不同的权重,如给上架时间即设置比较高的参数。得到模型之后将获得的硬盘型号、服务器型号、上架时间、版本号中的任一项或多项数据输入到该模型中得到风险系数,统计这些风险系数。
步骤407,将所述第一类型硬盘的硬盘数据和所述风险系数输入风险预估模型得到所述硬盘的损坏风险值。
由于步骤407与上述步骤107相同,故在此不再赘述。
上述方法步骤存储在存储介质中22,并由中央处理器20执行。
可见,在本实施例的方法中,通过对硬盘的属性值进行阈值检查,提前就可以将硬盘进行分类,即超出阈值的硬盘的属性值和未超出阈值的硬盘的属性值,超出阈值的硬盘的属性值的硬盘判定为第一类型硬盘,未超出阈值的硬盘的属性值输入到最佳支持向量机模。在获取硬盘的风险系数时,利用硬盘的硬盘型号、服务器型号、上架时间、版本号中的任一项或多项进行建模,在建模时可以考虑每个因素的权重,根据这些因素的重要性的大小设置不同的权重,从而可以更加灵活有效地反映硬盘的状况。
图7是本申请一个示例性的实施例提供的一种硬盘检测方法,包括:
步骤501,获取硬盘数据。
由于步骤501与上述步骤101相同,故在此不再赘述。
步骤503,根据硬盘数据,通过最佳支持向量机模型获取所述硬盘的二分类输出,判断硬盘是否为第一类型硬盘。
由于步骤503与上述步骤103相同,故在此不再赘述。
步骤505,若是,获取所述第一类型硬盘的风险系数;其中,所述风险系数根据硬盘数据获得。
由于步骤505与上述步骤105相同,故在此不再赘述。
步骤507,将所述第一类型硬盘的硬盘数据和所述风险系数输入风险预估模型得到所述硬盘的损坏风险值。
由于步骤507与上述步骤107相同,故在此不再赘述。
步骤509,当所述损坏风险值落入所述损坏风险值的第一预设范围时,则判断所述硬盘是第二类型硬盘;所述损坏风险值落入所述损坏风险值的第二预设范围时,则判断所述硬盘不是所述第二类型硬盘。
其中,第二类型硬盘是我们想要得到最终结果,即可能损坏的硬盘。损坏风险值是一个或者多个数值的集合,只有当这些数值都满足相应的条件时才能判断硬盘为第二预测故障硬盘,第二预测故障硬盘是最终认定的预测故障硬盘,第一预测故障硬盘是在得到第二预测故障硬盘的过程中得到的中间步骤产物。这些数值分别是风险系数、硬盘型号、服务器型号、上架时间、版本号其中的任一项或多项所对应的数值,例如硬盘型号可以分为1、2、3,上架时间可以用区间来表示,等等。其中,硬盘型号、服务器型号、上架时间、版本号其中的任一项或多项可以人为删除或者增加。
示例性地,风险系数为0.76,上架时间为43个月,从而该硬盘就属于编号2的情况,即可以判断该硬盘为第二类型硬盘,需要注意的是此时只考虑上架时间,没有考虑其他因素,此时将第二类型硬盘的相关信息包括硬盘SN、盘符、是否有做RAID、近期采集到的带外异常日志等信息提供给管理人员,提醒他及时做好数据备份和业务迁移,并更换硬盘。如果风险系数不变,上架时间为20个月,则不满足其中任何一种情况,此时需要人为判断是否将该硬盘归为第二类型硬盘。实际来看,损坏风险值主要参考风险系数,其次可以再看上架时间以及硬盘型号,其他的因素可不参考或者作为次要参考。
示例性地,针对上述示例,可以再将硬盘型号纳入指标,针对不同的硬盘型号,如有三种型号的硬盘分别为1、2、3,每一种硬盘型号可以对应不同的预测比区间范围和上架月份区间范围,这是由于不同型号的硬盘在质量或者参数等方面有着一些区别。将第一类型硬盘的硬盘数据和风险系数输入到风险预估模型中,风险预估模型根据管理人员设置的规则提取相关指标,此处提取硬盘型号、上架时间和风险系数;并且,风险预估模型判断该第一类型硬盘是哪种硬盘型号,再针对该硬盘型号所对应的上架时间以及风险系数(图2中预测比)进行对比再输出是否为第二类型硬盘的结果。
当损坏风险值落入第二预设范围时,则提示管理人员进行人工判断所述硬盘是否为所述第二类型硬盘,管理人员根据各个指标的数值以及意义判断该硬盘是否属于第二类型硬盘。
示例性地,如表2,针对多个型号的硬盘进行检测,第一种型号的45天内预测正确率达到86%,可以覆盖40%的硬盘故障,也就是说86%的故障可以通过提前通过告警得知,而且被告警的的硬盘中有40%的硬盘后续损坏了。多个型号预测正确率和故障覆盖率数据已经得出,其中预测正确率故障覆盖率都处于较高水平。故障覆盖率recall=预测故障并且实际故障的盘/实际故障的盘。
表2
上述方法步骤存储在存储介质中22,并由中央处理器20执行。
可见,在本实施例的方法中,在检测硬盘的过程中,在将硬盘数据和风险系数输入风险预估模型得到硬盘的损坏风险值之后,当损坏风险值落入损坏风险值的第一预设范围时,则判断硬盘为第二类型硬盘;当损坏风险值落入损坏风险值的第二预设范围时,则判断所述硬盘不是所述第二类型硬盘。损坏风险值落入第二预设范围,则判断所述硬盘为第二类型硬盘;损坏风险值落入损第二预设范围时,则提示管理人员进行人工判断所述硬盘是否为所述第二类型硬盘,可通过硬盘型号、服务器型号、上架时间、版本号等这些中的指标可以降低人工判断的情况出现的概率,十分人性化。
本发明实施例还提供一种硬盘检测装置,其结构示意图如图8所示,具体可以包括:
获取模块601,用于获取硬盘数据;
第一判断模块603,根据硬盘数据,通过最佳支持向量机模型获取所述硬盘的二分类输出,判断硬盘是否为第一类型硬盘;
统计模块605,用于获取所述第一类型硬盘的风险系数;
输出模块607,用于将所述第一类型硬盘的硬盘数据和所述风险系数输入风险预估模型得到所述硬盘的损坏风险值。
其中,第一类型硬盘可以被定义为预故障硬盘,当第一类型硬盘被分出来之后再根据第一类型硬盘的硬盘数据获取第一类型硬盘的风险系数;再将第一类型硬盘的硬盘数据和风险系数输入风险预估模型得到硬盘的损坏风险值。这个损坏风险值就表明了第一类型硬盘将会损坏的可能性大小,损坏风险值越大则该硬盘的损坏可能性就越大,反之则越小。从而,可以定量地判断某个硬盘的损坏可能性大小。
参考图9所示,在一个具体的实施例的装置中,硬盘检测装置除了可以包括如图8所示的结构外,还可以包括:
训练模块702,用于在所述通过最佳支持向量机模型得到所述硬盘的二分类输出之前,用于对所述硬盘的属性值进行数据格式处理;以及,
利用所述硬盘的属性值对所述支持向量机模型进行训练得到最佳支持向量机模型。
图9中的获取模块701、第一判断模块703、统计模块705、输出模块707和图8中的获取模块601、第一判断模块603、统计模块605、输出模块607相同,在此不再赘述。
可见,在本实施例的装置中,选取支持向量机模型,对获取到的15项硬盘的属性值进行打标签处理,利用LIBSVM进行模型训练得到最佳向量机模型,将硬盘数据输入到最佳支持向量机模型得到二分类输出,判断硬盘是否为第一类型硬盘;根据判定为第一类型硬盘的硬盘数据和风险系数得到硬盘的损坏风险值,判断得到损坏风险值是否落入预设的范围内,从而对硬盘的故障风险做出了十分明确的评估,而不仅仅是“是”或者“否”的二分类输出结果。
参考图10所示,在一个具体的实施例的装置中,硬盘检测装置除了可以包括如图8所示的结构外,还可以包括:
第二判断模块802,用于在所述通过最佳支持向量机模型得到所述硬盘的二分类输出之前,用于对硬盘的属性值进行阈值检查,判断硬盘的属性值是否满足第一阈值条件;若满足所述第一阈值条件,则判断所述硬盘为所述第一类型硬盘。
图9中的获取模块801、第一判断模块803、统计模块805、输出模块807和图7中的获取模块701、第一判断模块703、统计模块705、输出模块707相同,故在此不再赘述。
可见,在本实施例的装置中,判断模块通过对硬盘的属性值进行阈值检查,提前就可以将硬盘进行分类,即超出阈值的硬盘的属性值和未超出阈值的硬盘的属性值,超出阈值的硬盘的属性值的硬盘判定为第一类型硬盘,未超出阈值的硬盘的属性值输入到最佳支持向量机模。通过该方法,可以预先筛选硬盘的属性值,故可以提高最佳支持向量机模效率和准确率。
在一个具体的实施例的装置中,硬盘检测装置除了可以包括如图8所示的结构外,还可以包括:打标签模块,用于将满足第二阈值条件的硬盘打上第一样本标签,将不满足所述第二阈值条件的硬盘打上第二样本标签;格式处理模块,用于对所述硬盘的属性值进行数据格式处理。其中,第一样本标签是好样本标签,第二样本标签是坏样本标签。
可见,在本实施例的方法中,选取支持向量机模型,对获取到的15项硬盘的属性值进行打标签处理,并对所述硬盘的属性值进行数据格式处理,利用LIBSVM进行模型训练得到最佳向量机模型,将硬盘数据输入到最佳支持向量机模型得到二分类输出,判断硬盘是否为第一类型硬盘;根据判定为第一类型硬盘的硬盘数据和风险系数得到硬盘的损坏风险值,判断得到损坏风险值是否落入预设的范围内,从而对硬盘的故障风险做出了十分明确的评估,而不仅仅是“是”或者“否”的结果。
参考图11所示,在一个具体的实施例的装置中,硬盘检测装置除了可以包括如图8所示的结构外,还可以包括:
第三判断模块909,在所述将所述第一类型硬盘的硬盘数据和所述风险系数输入风险预估模型得到所述硬盘的损坏风险值之后,用于当所述损坏风险值落入所述损坏风险值的一预设范围时,则判断所述硬盘为第二类型硬盘;当所述损坏风险值未落入所述损坏风险值的一预设范围时,则提示管理人员进行人工判断所述硬盘是否为所述第二类型硬盘。
图10中的获取模块901、第一判断模块903、统计模块905、输出模块907和图7中的获取模块701、第一判断模块703、统计模块705、输出模块707相同,故在此不再赘述。
可见,在本实施例的装置中,在检测硬盘的过程中,在将硬盘数据和风险系数输入风险预估模型得到硬盘的损坏风险值之后,当损坏风险值落入损坏风险值的一预设范围时,第二预测模块则判断硬盘为第二类型硬盘;当损坏风险值未落入损坏风险值的一预设范围时,第二预测模块则提示管理人员进行人工判断硬盘是否为第二类型硬盘。大多数情况下,损坏风险值都能落入一预设范围,即能够自动判断所述硬盘为第二类型硬盘;很少部分情况下,损坏风险值未落入损坏风险值的一预设范围时,则提示管理人员进行人工判断所述硬盘是否为所述第二类型硬盘,通过删除硬盘型号、服务器型号、上架时间、版本号等这些中的指标可以降低人工判断的情况出现的概率,如图2中的“增加”和“删除”按钮。
本发明实施例还提供一种存储介质,所述存储介质储存多条指令,所述指令适于由处理器加载并执行如上述硬盘检测装置所执行的硬盘检测方法。
本发明实施例还提供一种终端设备,包括处理器和存储介质,所述处理器,用于实现各个指令;
所述存储介质用于储存多条指令,所述指令用于由处理器加载并执行如上述硬盘检测装置所述的硬盘检测方法。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM)、随机存取存储器RAM)、磁盘或光盘等。
以上对本发明实施例所提供的硬盘检测方法、装置及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (13)

1.一种硬盘检测方法,其特征在于,包括:
获取硬盘数据;
根据硬盘数据,通过最佳支持向量机模型获取所述硬盘的二分类输出,判断硬盘是否为第一类型硬盘;
若是,获取所述第一类型硬盘的风险系数;其中,所述风险系数根据硬盘数据获得;
将所述第一类型硬盘的硬盘数据和所述风险系数输入风险预估模型得到所述硬盘的损坏风险值。
2.如权利要求1所述的方法,其特征在于,所述硬盘数据包括:
硬盘型号、服务器型号、上架时间、版本号以及硬盘的属性值其中的任一项或多项。
3.如权利要求2所述的方法,其特征在于,所述硬盘的属性值包括:
错误读取率Read Error Rate,硬盘启动时间Spin Up Time,重新分配扇区次数Reallocated Sector Count,磁头寻道错误率Seek Error Rate,硬盘总工作时间Power OnHours Count,旋转重试次数Spin Retry Count,校准重试次数Recalibration Retries,硬件重启次数Power Cycle Count,非安全下电次数Unsafe Shutdown Count,硬盘温度Temperature Celsius,重新分配事件次数Reallocation Event Count,读阻塞扇区数Current Pending Sector Count,不可恢复错误数Offline Uncorrectable其中的任一项或多项。
4.如权利要求2所述的方法,其特征在于,在所述通过最佳支持向量机模型得到所述硬盘的二分类输出之前还包括:
对硬盘的属性值进行阈值检查,判断硬盘的属性值是否满足第一阈值条件;
若满足所述第一阈值条件,则判断所述硬盘为所述第一类型硬盘。
5.如权利要求2所述的方法,其特征在于,在所述通过最佳支持向量机模型得到所述硬盘的二分类输出之前还包括:
将满足第二阈值条件的硬盘打上第一样本标签,将不满足所述第二阈值条件的硬盘打上第二样本标签;
对所述硬盘的属性值进行数据格式处理;
选择支持向量机模型;
利用所述硬盘的属性值对所述支持向量机模型进行训练得到所述最佳支持向量机模型。
6.如权利要求1所述的方法,其特征在于,所述获取所述第一类型硬盘的风险系数,包括:
根据所述第一类型硬盘的硬盘型号、服务器型号、上架时间、版本号,通过查询风险系数模型得到所述风险系数。
7.如权利要求1所述的方法,其特征在于,在所述将所述第一类型硬盘的硬盘数据和所述风险系数输入风险预估模型得到所述硬盘的损坏风险值之后包括:
当所述损坏风险值落入所述损坏风险值的第一预设范围时,则判断所述硬盘是第二类型硬盘;
当所述损坏风险值落入所述损坏风险值的第二预设范围时,则判断所述硬盘不是所述第二类型硬盘。
8.一种硬盘检测装置,其特征在于,包括:
获取模块,用于获取硬盘数据;
第一判断模块,用于根据硬盘数据,通过最佳支持向量机模型获取所述硬盘的二分类输出,判断硬盘是否为第一类型硬盘;
获取模块,获取所述第一类型硬盘的风险系数;
输出模块,用于将所述第一类型硬盘的硬盘数据和所述风险系数输入风险预估模型得到所述硬盘的损坏风险值。
9.如权利要求8所述的装置,其特征在于,所述装置还包括:
第二判断模块,用于对硬盘的属性值进行阈值检查,判断硬盘的属性值是否满足第一阈值条件;
若满足所述第一阈值条件,则判断所述硬盘为所述第一类型硬盘。
10.如权利要求8所述的装置,其特征在于,所述装置还包括:
打标签模块,用于将满足第二阈值条件的硬盘打上第一样本标签,将不满足所述第二阈值条件的硬盘打上第二样本标签;
格式处理模块,用于对所述硬盘的属性值进行数据格式处理。
11.如权利要求8所述的装置,其特征在于,所述装置还包括:
第三判断模块,用于当所述损坏风险值落入所述损坏风险值的第一预设范围时,则判断所述硬盘是第二类型硬盘;
当所述损坏风险值落入所述损坏风险值的第二预设范围时,则判断所述硬盘不是第二类型硬盘。
12.一种存储介质,其特征在于,所述存储介质储存多条指令,所述指令适于由处理器加载并执行如权利要求1至7任一项所述的硬盘检测方法。
13.一种终端设备,其特征在于,包括处理器和存储介质,所述处理器,用于实现各个指令;
所述存储介质用于储存多条指令,所述指令用于由处理器加载并执行如权利要求1至7任一项所述的硬盘检测方法。
CN201810714321.6A 2018-06-29 2018-06-29 一种硬盘检测方法、装置、存储介质及设备 Active CN110164501B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810714321.6A CN110164501B (zh) 2018-06-29 2018-06-29 一种硬盘检测方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810714321.6A CN110164501B (zh) 2018-06-29 2018-06-29 一种硬盘检测方法、装置、存储介质及设备

Publications (2)

Publication Number Publication Date
CN110164501A true CN110164501A (zh) 2019-08-23
CN110164501B CN110164501B (zh) 2022-05-20

Family

ID=67645026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810714321.6A Active CN110164501B (zh) 2018-06-29 2018-06-29 一种硬盘检测方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN110164501B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026337A (zh) * 2019-12-30 2020-04-17 中科星图股份有限公司 一种基于机器学习和ceph思想的分布式储存方法
CN111611117A (zh) * 2020-05-22 2020-09-01 浪潮电子信息产业股份有限公司 硬盘故障的预测方法、装置、设备及计算机可读存储介质
CN113380316A (zh) * 2020-02-25 2021-09-10 深信服科技股份有限公司 磁盘信息挖掘方法、装置、设备及存储介质
CN115658362A (zh) * 2022-10-26 2023-01-31 超聚变数字技术有限公司 一种确定硬盘状态的方法以及相关设备
CN116701150A (zh) * 2023-06-19 2023-09-05 深圳市银闪科技有限公司 一种基于物联网的存储数据安全监管系统及方法
TWI816552B (zh) * 2022-08-24 2023-09-21 新加坡商鴻運科股份有限公司 硬碟性能檢測方法及相關設備
WO2023236753A1 (zh) * 2022-06-09 2023-12-14 中兴通讯股份有限公司 一种硬盘故障预测方法、装置、存储介质及电子装置
CN117234826A (zh) * 2023-11-10 2023-12-15 深圳市领德创科技有限公司 一种固态硬盘可靠性验证的无干扰测试平台及工作方法
CN117520104A (zh) * 2024-01-08 2024-02-06 中国民航大学 一种预测硬盘异常状态的系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006003945A (ja) * 2004-06-15 2006-01-05 Ricoh Co Ltd 情報処理装置および情報処理方法および情報処理装置の検査方法
CN101079003A (zh) * 2006-05-23 2007-11-28 北京金元龙脉信息科技有限公司 对计算机bios固件进行安全风险检测的系统和方法
US20080189578A1 (en) * 2007-02-05 2008-08-07 Microsoft Corporation Disk failure prevention and error correction
CN103475532A (zh) * 2012-06-08 2013-12-25 腾讯科技(深圳)有限公司 硬件检测方法和系统
CN104268040A (zh) * 2014-09-16 2015-01-07 深圳市腾讯计算机系统有限公司 一种磁盘性能检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006003945A (ja) * 2004-06-15 2006-01-05 Ricoh Co Ltd 情報処理装置および情報処理方法および情報処理装置の検査方法
CN101079003A (zh) * 2006-05-23 2007-11-28 北京金元龙脉信息科技有限公司 对计算机bios固件进行安全风险检测的系统和方法
US20080189578A1 (en) * 2007-02-05 2008-08-07 Microsoft Corporation Disk failure prevention and error correction
CN103475532A (zh) * 2012-06-08 2013-12-25 腾讯科技(深圳)有限公司 硬件检测方法和系统
CN104268040A (zh) * 2014-09-16 2015-01-07 深圳市腾讯计算机系统有限公司 一种磁盘性能检测方法及装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026337A (zh) * 2019-12-30 2020-04-17 中科星图股份有限公司 一种基于机器学习和ceph思想的分布式储存方法
CN113380316A (zh) * 2020-02-25 2021-09-10 深信服科技股份有限公司 磁盘信息挖掘方法、装置、设备及存储介质
CN111611117A (zh) * 2020-05-22 2020-09-01 浪潮电子信息产业股份有限公司 硬盘故障的预测方法、装置、设备及计算机可读存储介质
CN111611117B (zh) * 2020-05-22 2022-06-10 浪潮电子信息产业股份有限公司 硬盘故障的预测方法、装置、设备及计算机可读存储介质
WO2023236753A1 (zh) * 2022-06-09 2023-12-14 中兴通讯股份有限公司 一种硬盘故障预测方法、装置、存储介质及电子装置
TWI816552B (zh) * 2022-08-24 2023-09-21 新加坡商鴻運科股份有限公司 硬碟性能檢測方法及相關設備
CN115658362A (zh) * 2022-10-26 2023-01-31 超聚变数字技术有限公司 一种确定硬盘状态的方法以及相关设备
CN116701150A (zh) * 2023-06-19 2023-09-05 深圳市银闪科技有限公司 一种基于物联网的存储数据安全监管系统及方法
CN116701150B (zh) * 2023-06-19 2024-01-16 深圳市银闪科技有限公司 一种基于物联网的存储数据安全监管系统及方法
CN117234826A (zh) * 2023-11-10 2023-12-15 深圳市领德创科技有限公司 一种固态硬盘可靠性验证的无干扰测试平台及工作方法
CN117234826B (zh) * 2023-11-10 2024-04-05 深圳市领德创科技有限公司 一种固态硬盘可靠性验证的无干扰测试平台及工作方法
CN117520104A (zh) * 2024-01-08 2024-02-06 中国民航大学 一种预测硬盘异常状态的系统
CN117520104B (zh) * 2024-01-08 2024-03-29 中国民航大学 一种预测硬盘异常状态的系统

Also Published As

Publication number Publication date
CN110164501B (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
CN110164501A (zh) 一种硬盘检测方法、装置、存储介质及设备
CN108052528B (zh) 一种存储设备时序分类预警方法
CN108986869B (zh) 一种使用多模型预测的磁盘故障检测方法
CN108647136B (zh) 基于smart信息和深度学习的硬盘损坏预测方法及装置
De Santo et al. Deep Learning for HDD health assessment: An application based on LSTM
CN109739739B (zh) 磁盘故障的预测方法、设备及存储介质
WO2017129032A1 (zh) 磁盘的故障预测方法和装置
US20140067734A1 (en) Anomaly detection in spatial and temporal memory system
JP2011209879A (ja) 評価装置および評価プログラム
EP3663919B1 (en) System and method of automated fault correction in a network environment
CN111966569A (zh) 硬盘健康度评估方法和装置、计算机可读存储介质
CN111984511B (zh) 一种基于二分类的多模型磁盘故障预测方法和系统
CN110119344B (zh) 基于s.m.a.r.t参数的硬盘健康状态分析方法
CN114943321A (zh) 一种针对硬盘的故障预测方法、装置及设备
CN115358155A (zh) 一种电力大数据异常预警方法、装置、设备及可读存储介质
CN117094184B (zh) 基于内网平台的风险预测模型的建模方法、系统及介质
CN109960598A (zh) 一种磁盘扇区故障检测方法、装置及设备
CN116401137B (zh) 一种芯粒健康状态预测方法、装置、电子设备及存储介质
CN116381542B (zh) 基于人工智能的电源设备的健康诊断方法及装置
JP7322962B2 (ja) 生成方法、生成プログラムおよび情報処理装置
CN115793990B (zh) 存储器健康状态确定方法、装置、电子设备及存储介质
CN115438244A (zh) 一种数据库健康度评估方法及装置
JP7371694B2 (ja) 劣化検出方法、劣化検出プログラムおよび情報処理装置
CN112737834A (zh) 一种云硬盘故障预测方法、装置、设备及存储介质
Svendsen Online failure prediction in UNIX systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant