CN113127274A - 磁盘故障预测方法、装置、设备及计算机存储介质 - Google Patents

磁盘故障预测方法、装置、设备及计算机存储介质 Download PDF

Info

Publication number
CN113127274A
CN113127274A CN201911421659.3A CN201911421659A CN113127274A CN 113127274 A CN113127274 A CN 113127274A CN 201911421659 A CN201911421659 A CN 201911421659A CN 113127274 A CN113127274 A CN 113127274A
Authority
CN
China
Prior art keywords
disk
data
failure prediction
dimension
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911421659.3A
Other languages
English (en)
Other versions
CN113127274B (zh
Inventor
郭志斌
滕滨
张琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201911421659.3A priority Critical patent/CN113127274B/zh
Publication of CN113127274A publication Critical patent/CN113127274A/zh
Application granted granted Critical
Publication of CN113127274B publication Critical patent/CN113127274B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2221Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test input/output devices or peripheral units

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种磁盘故障预测方法、装置、设备及计算机存储介质。所述磁盘故障预测方法包括:获取目标磁盘中每块磁盘的磁盘数据,所述磁盘数据包括目标动环监控告警数据;对所述磁盘数据进行归一化处理,以生成归一化磁盘数据;根据所述归一化磁盘数据和预构建的第一决策树模型,确定所述目标磁盘中每块磁盘的第一故障预测结果。本发明实施例增加了动环波动对磁盘运行干扰情况的预测,通过获取目标动环监控告警数据在内的磁盘数据,结合预构建的第一决策树模型,判断磁盘优化后的故障预测结果,提高对磁盘预测的准确性。

Description

磁盘故障预测方法、装置、设备及计算机存储介质
技术领域
本发明属于磁盘故障预测技术领域,尤其涉及一种磁盘故障预测方法、装置、设备及计算机存储介质。
背景技术
磁盘是存储数据的主要介质,磁盘一旦出故障,便会造成巨大的数据损失。因此如何保证磁盘的稳定性能非常重要。尤其对于一些线上服务,大都依赖于服务器中磁盘的海量数据,如果硬盘出故障,就会导致上述在线服务异常,甚至暂停使用。
现有磁盘故障预测方法较多,各类场景也较为全面,但是没有考虑动环的波动对磁盘运行的干扰情况,如供电系统对磁盘运行情况的干扰,或者极端温度条件对磁盘运行的干扰,磁盘故障预测结果不准确。
发明内容
本发明实施例提供一种磁盘故障预测方法、装置、设备及计算机存储介质,提高了磁盘故障预测的准确性。
第一方面,本发明实施例提供一种磁盘故障预测方法,方法包括:
获取目标磁盘中每块磁盘的磁盘数据,所述磁盘数据包括目标动环监控告警数据;
对所述磁盘数据进行归一化处理,以生成归一化磁盘数据;
根据所述归一化磁盘数据和预构建的第一决策树模型,确定所述目标磁盘中每块磁盘的第一故障预测结果。
第二方面,本发明实施例提供了一种磁盘故障预测装置,装置包括:
第一获取模块,用于获取目标磁盘中每块磁盘的磁盘数据,所述磁盘数据包括目标动环监控告警数据;
第一生成模块,对所述磁盘数据进行归一化处理,以生成归一化磁盘数据;
第一确定模块,根据所述归一化磁盘数据和预构建的第一决策树模型,确定所述目标磁盘中每块磁盘的第一故障预测结果。
第三方面,本发明实施例提供了一种磁盘故障预测设备,设备包括:
处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如第一方面所述的磁盘故障预测方法。
第四方面,本发明实施例提供了一种计算机存储介质,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如第一方面所述的磁盘故障预测方法。
本发明实施例提供的磁盘故障预测方法、装置、设备及计算机存储介质,通过获取目标磁盘中每块磁盘的包括目标动环监控告警数据在内的磁盘数据,并将磁盘数据进行归一化处理后,再根据预构建的第一决策树模型,确定所述目标磁盘中每块磁盘的第一故障预测结果。本发明增加了动环波动对磁盘运行干扰情况的预测,通过获取目标动环监控告警数据在内的磁盘数据,结合预构建的第一决策树模型,判断磁盘的故障预测结果,提高对磁盘故障预测的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一个磁盘故障预测方法的流程示意图;
图2是本发明实施例提供的一个构建第一决策树模型的流程示意图;
图3是本发明实施例提供的一个第一决策树模型的结构示意图;
图4是本发明实施例提供的另一个磁盘故障预测装置的结构示意图;
图5是本发明实施例提供的又一个磁盘故障预测装置的结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了解决现有技术问题,本发明实施例提供了一种磁盘故障预测方法、装置、设备及计算机存储介质。下面首先对本发明实施例所提供的磁盘故障预测方法进行介绍。
图1示出了本发明一个实施例提供的磁盘故障预测方法的流程示意图。如图1所示,本发明实施例提供的磁盘故障预测方法,包括S101、S102及S103。
S101、获取目标磁盘中每块磁盘的磁盘数据,所述磁盘数据包括目标动环监控告警数据。
本发明实施例的目标磁盘为待测磁盘,磁盘数据可以是自我监测、分析和报告技术(Self Monitoring Analysis And Reporting Technology,SMART)数据,包括但不限于底层读取错误率(Raw Read Error Rate),读写通量性能(Throughput Performance),重定位扇区计数(Reallocated Sector Count),寻道错误率(Seek Error Rate),寻道性能(Seek Time Performance),磁盘加电时间(Power-On Hours),磁头校准重试(Recalibration Retries),设备开关计数(Device Power Cycle Count),软件读取错误率(Soft Read Error Rate),加速度错误率(G-Sense Error Rate),电源关闭磁头收回计数(Power-Off Retract Count),磁头升降计数(Load/Unload Cycle Count),硬盘温度记录(Temperature),重定位事件计数(Reallocation Events Count),等候重定的扇区计数(Current Pending Sector Count),通讯CRC错误(Ultra DMA CRC Error Count UDMA),写错误发生率(Write(Multi-Zone)Error Rate),盘体偏移(Disk Shift)等中的一种或多种。
本发明实施例的目标动环监控告警数据是目标磁盘在受到动环干扰时的告警数据,包括但不限于电池组电压过低告警、电池单体电压过低告警,输出电压高告警、输出电压低告警、输出过载告警、输出频率高告警、输出频率低告警、油机运行状态告警、A相输出电压过高告警、B相输出电压过高告警、C相输出电压过高告警、A相输出电压过低告警、B相输出电压过低告警、C相输出电压过低告警等数据中的一种或多种。
本发明的目标磁盘可以是固态硬盘或机械硬盘,由于固态硬盘和机械硬盘的磁盘数据显著不同,在对磁盘进行故障预测时,将固态硬盘和机械硬盘的磁盘数据分别作为两个不同的集合进行模型训练和模型应用,分别开展相关磁盘故障预测工作。
S102、对所述磁盘数据进行归一化处理,以生成归一化磁盘数据。
本发明实施例中的归一化处理方法可以采用现有的归一化方法,在一个具体的示例中,为了构建标准正态分布,本发明采用以下方法进行磁盘数据的归一化:
若:X~N(μ,σ2);
令:t=(x-μ)/σ (1);
那么:T~N(0,1);
其中,X为所有磁盘数据的样本值,μ为所有磁盘数据的均值,σ2为所有磁盘数据的方差,σ为所有磁盘数据的标准值,把x转换成t后满足标准正态分布,也即T~N(0,1)。
S103、根据所述归一化磁盘数据和预构建的第一决策树模型,确定所述目标磁盘中每块磁盘的第一故障预测结果。
本发明实施例中预构建的第一决策树模型是根据预先知晓真实值的样本磁盘数据训练得到的,第一决策树模型包括故障磁盘取值范围和非故障取值范围,根据归一化磁盘数据与预构建的第一决策树模型,确定磁盘的第一故障预测结果,第一故障预测结果为一个预测值,若第一故障预测结果在所述故障磁盘取值范围内时,判断该磁盘为潜在故障磁盘,若第一故障预测结果在所述非故障磁盘取值范围内时,则判断该磁盘为非潜在故障磁盘。本发明实施例获取的磁盘数据包括目标动环监控告警数据,并对目标动环监控告警数据进行归一化处理,然后结合决策树模型,确定磁盘的故障预测结果,提高了磁盘故障预测的准确性。
在本发明的S103步骤之前,也即在所述根据所述归一化磁盘数据和预构建的第一决策树模型,确定所述目标磁盘中每块磁盘的第一故障预测结果之前,所述方法还包括:
S201、获取样本磁盘在N个维度上的样本数据;
S202、对所述样本数据进行所述归一化处理,以生成归一化样本数据;
S203、对所述归一化样本数据进行离散化处理,以生成离散化样本数据;
S204、对所述离散化样本数据进行训练,得到所述第一决策树模型。
在本发明的一些实施例中,在步骤S201,即获取样本磁盘在N个维度上的样本数据的步骤中,上述样本磁盘数据为预先知晓真实值的样本,样本的真实值可以是1或者0,用于表示样本为正样本或负样本,正样本用于表示该样本为故障磁盘,负样本表示该样本为正常磁盘或非故障磁盘,样本数据可以与磁盘数据的选择方法一致,例如SMART数据,具体选择可同上文,再此不再详细说明。
在本发明的一些实施例中,在步骤S202,即对所述样本数据进行所述归一化处理,以生成归一化样本数据的步骤中,归一化处理能够将数据集中在一个较小的范围内,便于构建决策树模型,能够有效提高决策树模型的精度和收敛速度,归一化方法可采用上文中提到的归一化方法,不再详细说明。
在本发明的一些实施例中,在步骤S203,即对所述归一化样本数据进行离散化处理,以生成离散化样本数据的步骤中,包括:
利用区块对所述归一化样本数据进行离散,以生成离散化样本数据;
其中,在每一个维度上,所述区块的数值由归一化样本数据正态分布两侧位置到中心位置逐渐减小。
本发明实施例提供的离散化处理方法便于进一步构建决策树模型,并提高模型算法的时空效率,由于归一化处理已经样本数据归一化到(-1,1)之间,同时正态分布的数据越靠近中心位置的中轴线集中度越高,为了准确反映离散化后各区块中数据对预测模型的影响,本发明采用非均匀分配数据离散区块的方法对归一化样本数据进行离散化处理,也即采用,在利用区块对所述归一化样本数据进行离散,以生成离散化样本数据时,在每一个维度上,所述区块的数值由归一化样本数据正态分布两侧位置到中心位置逐渐减小。例如,在|X|>=0.5时,以0.1作为一个区块间隔,如:间隔为[-1,-0.9],(-0.9,-0.8],(-0.8,-0.7],(-0.7,-0.6],(-0.6,-0.5],以及[0.5,0.6),[0.6,0.7),[0.7,0.8),[0.8,0.9),[0.9,1];在0.3>=|X|>0.5,以0.05作为一个区块间隔,如:间隔为(-0.5,-0.45],(-0.45,-0.4],(-0.4,-0.35],(-0.35,-0.3],[0.3,0.35),[0.35,0.4),[0.4,0.45),[0.45,0.5),在更靠近正太分布中心的位置,则采用更小的区块间隔。
在本发明的一些实施例中,在步骤S204,所述对所述离散化样本数据进行训练,得到所述第一决策树模型,包括:
计算所述离散化样本数据在每一个维度的信息增益;
将每一个维度的所述信息增益由大到小排序,形成一个信息增益数组;
以所述信息增益数组中由大到小的信息增益所在维度作为节点依次展开,得到所述第一决策树模型。
在本发明的一些实施例中,所述计算所述离散化样本数据在每一个维度的信息增益,包括:
计算所述离散化样本数据的总体条件熵H,H=X*log2 X+Y*log2 Y,其中,X是总体样本数据中故障磁盘的占比,Y是总体样本数据中非故障磁盘的占比;
计算所述离散化样本数据在每一个维度的每一个区块上的特征条件熵H(c|Xi);(H(c|Xi))=Xi*log2 Xi+Yi*log2 Yi,其中Xi是第i个区块中的故障磁盘占比,Yi是第i个区块中的非故障磁盘占比;
根据所述特征条件熵计算所述离散化样本数据在每一个维度的类别熵H(c);
Figure BDA0002352547580000071
其中Pi为X=Xi时的概率分布。
根据所述总体条件熵和类别熵计算所述离散化样本数据在每一个维度的信息增益Zn,Zn=H-H(c)。
在本发明的一些实施例中,将每一个维度的所述信息增益由大到小排序,形成一个信息增益数组,信息增益数组可表示为Z(n)={Z1,Z2,…,Zn}。
在本发明的一些实施例中,以所述信息增益数组中由大到小的信息增益所在维度作为节点依次展开,得到所述第一决策树模型,包括:
以所述信息增益数组中的信息增益最大值所在维度作为第一决策树模型的根节点;
以所述信息增益数组中的信息增益第二大值所在维度作为所述根节点的第2层子节点;
以所述信息增益数组中的信息增益第n大值所在维度作为第n-1层的子节点,其中,3≤n≤N;
在确定信息增益第n大值所在维度中的第i个区块为故障盘或非故障盘的情况下,确定所述信息增益第n大值所在维度中的第i个区块为叶子节点,得到所述第一决策树模型,所述第一决策树模型的结构示意图可参见图3。
在一个可选的示例中,在构建决策树模型时,将样本数据表示为
Figure BDA0002352547580000072
其中,
Figure BDA0002352547580000073
Figure BDA0002352547580000074
为0或1,权重值
Figure BDA0002352547580000075
Figure BDA0002352547580000076
其中,i表示第i个样本,n表示n个维度,k表示1至n之间任意一个维度,wk表示k维度上的权重值,w0表示截距。权重值需满足条件:
Figure BDA0002352547580000077
能取得最小值,其中,J为最优化目标函数,
Figure BDA0002352547580000078
为预测值,计算公式为:
Figure BDA0002352547580000079
上述预测值即为训练样本磁盘数据得到的故障预测结果,由于样本磁盘是否为故障磁盘为已知量,因此,在得到故障预测结果后,将正样本的预测结果和负样本的预测结果进行区分,得到故障磁盘的预测值取值范围和非故障磁盘的预测值取值范围。
在现有的磁盘分布式存储架构中,多采用冗余存储的方式,即在M个节点上存储同一份数据,以避免单个节点故障引起的数据丢失,在这种情况下,存储同一份数据的M个磁盘,如果有1个磁盘出现故障,另外M-1块磁盘出现故障所带来的风险将显著增加,所以应该综合考虑分布式存储这个特征,将磁盘故障引起风险高低这个因素也考虑到磁盘故障预测模型当中。因此,本发明实施例还提供一种能够有效解决分布式存储架构中,磁盘故障引起高风险的解决方案,下面对其进行具体介绍。
在本发明实施例中,将包括存储相同数据的存储结点磁盘和备份结点磁盘编成一个磁盘组,该组内的各磁盘是否为故障盘是一个独立事件,也即编为一组的磁盘中有一块为故障磁盘,不会对其他磁盘是否为故障磁盘产生影响,但是如果其他磁盘也发生故障后,将会对整个存储系统产生较为显著的影响;在做每块磁盘的故障优化预测时,可以首先利用第一决策树模型对每个磁盘组内的每块磁盘进行故障预测,得到每块磁盘的故障预测结果,判断是否是潜在的故障磁盘,如果是潜在的故障磁盘,还需要对该潜在故障磁盘所在的磁盘组进行重新故障预测,得到该磁盘组的磁盘预测结果,根据每块磁盘的故障预测结果及该磁盘所在磁盘组的磁盘预测结果综合考虑得到每块磁盘的故障预测优化结果,从而降低分布式存储架构中磁盘故障引起的风险,对同组磁盘连续出现故障,带来的数据丢失风险进行了补偿,用适度提高故障预测概率的方法,避免同组磁盘连续故障带来的系统风险。下面对该方案进行具体说明。
在本发明的一些实施例中,所述目标磁盘包括至少一个磁盘组,每个磁盘组包括存储相同数据的存储结点磁盘和备份结点磁盘,所述第一决策树模型包括故障磁盘取值范围;在步骤S103,所述根据所述归一化磁盘数据和预构建的第一决策树模型,确定所述目标磁盘中每块磁盘的第一故障预测结果,包括:
根据所述第一决策树模型和每个磁盘组中所述存储结点磁盘的归一化磁盘数据和所述备份结点磁盘的归一化磁盘数据,确定每个磁盘组中所述存储结点磁盘和所述备份结点磁盘的第二故障预测结果;
当所述第二故障预测结果在所述故障磁盘取值范围内时,对所述存储结点磁盘的磁盘数据和所述备份结点磁盘的磁盘数据进行重新预测,确定每个磁盘组的第三故障预测结果;重新预测的方式在下文中具体说明;
根据所述第二故障预测结果和所述第三故障预测结果,确定目标磁盘中每块磁盘的第一故障预测结果。
在本发明实施例中,第一故障预测结果可代表磁盘的故障预测优化结果,第二故障预测结果可代表每块磁盘的故障预测结果,第三故障预测结果可代表该磁盘所在磁盘组的磁盘预测结果,综合考虑两方面的预测结果能够避免同组磁盘连续故障带来的系统风险。
在本发明的一些实施例中,所述对所述存储结点磁盘的磁盘数据和所述备份结点磁盘的磁盘数据进行重新预测,确定每个磁盘组的第三故障预测结果,包括:
对所述存储结点磁盘的磁盘数据和所述备份结点磁盘的磁盘数据计算算数平均数,以形成磁盘组数据;
对所述磁盘组数据进行所述归一化处理,以生成归一化磁盘组数据;
根据所述第一决策树模型和所述归一化磁盘组数据,确定所述磁盘组的第三故障预测结果。
在本发明的一些实施例中,考虑动环波动对磁盘数据的影响,所述磁盘故障预测方法还包括:
获取样本磁盘在N个维度上的样本数据,所述样本数据包括样本动环监控告警数据,所述样本动环监控告警数据的发生时间点为T;所述样本动环监控告警数据是样本磁盘在受到动环干扰时的告警数据,其选择类型可参照目标动环监控告警数据,在此不再详细说明;
遍历N个维度上的所述样本数据,得到遍历结果;其中,任意一个维度上的所述样本数据可用Y表示;
计算所述样本数据在每个维度上的第一数学期望,可用μY表示;
根据所述第一数学期望,计算在所述发生时间点T时的任意一个维度上,各样本数据大于第一数学期望的概率,得到第一概率,可用P(Y>μY)表示;
从所述样本数据中,剔除掉在所述发生时间点T时,在任意一个维度上满足第一概率大于第一阈值的样本数据,得到剔除后的样本数据;其中,第一阈值可用
Figure BDA0002352547580000101
表示,
Figure BDA0002352547580000102
为预设定值;也即当在所述发生时间点T的任意一个维度上,样本数据满足
Figure BDA0002352547580000103
时,剔除掉该时间点上的所有样本数据,得到剔除后的样本数据;如果发现每个维度上的样本数据均不满足
Figure BDA0002352547580000104
时,则忽略所述动环监控告警数据对磁盘故障的干扰;
对所述剔除后的样本数据进行训练,得到第二决策树模型;用所述剔除后的样本数据构建第二决策树模型的方法,可采用步骤S201~S204的方法。
本发明实施例构建的第二决策树模型是用剔除掉样本动环监控告警数据发生点时的样本数据所剩下的有效数据构建而成的,其预测故障的准确性更高。
在本发明的一些实施例中,磁盘数据包括N个维度上的数据,所述目标动环监控告警数据的发生时间点为t,在所述剔除后的样本数据构建第二决策树模型之后,所述磁盘故障预测方法还可包括:
遍历每个磁盘在每个维度上的所述磁盘数据,得到遍历结果;其中,任意一个维度上的磁盘数据可用y表示;
计算所述磁盘数据在每个维度上的第二数学期望,可用μy表示;
根据所述第二数学期望,计算在所述发生时间点t时,在任意一个维度上,各磁盘数据大于第二数学期望的概率,得到第二概率,可用P(y>μy)表示;
从所述磁盘数据中,剔除掉在所述发生时间点t时的任意一个维度上,满足第二概率大于第二阈值的磁盘数据,得到剔除后的磁盘数据;其中,第二阈值可用
Figure BDA0002352547580000105
表示,
Figure BDA0002352547580000106
为预设定值;也即当在所述发生时间点T的任意一个维度上磁盘数据满足
Figure BDA0002352547580000107
时,剔除掉该时间点上的所有磁盘数据,得到剔除后的磁盘数据;
根据所述第二决策树模型和所述剔除后的磁盘数据,确定所述目标磁盘中每个磁盘的第四故障预测结果。
所述第四故障预测结果即为考虑了动环波动影响后得到的预测结果,该预测方法能够排除动环干扰,特别是电源系统带来的电磁场干扰磁盘故障预测结果的情况。
基于上述实施例提供的磁盘故障预测方法,本申请还提供了一种磁盘故障预测装置的具体实现方式。图4示出了一种磁盘故障预测装置的结构示意图。请参见图4,本发明实施例提供的磁盘故障预测装置400包括:
第一获取模块401,用于获取目标磁盘中每块磁盘的磁盘数据,所述磁盘数据包括目标动环监控告警数据;
第一生成模块402,对所述磁盘数据进行归一化处理,以生成归一化磁盘数据;
第一确定模块403,根据所述归一化磁盘数据和预构建的第一决策树模型,确定所述目标磁盘中每块磁盘的第一故障预测结果。
本发明提供的磁盘故障预测装置利用预构建的第一决策树模型及包括目标动环监控告警数据的磁盘数据,确定磁盘的第一故障预测结果,充分考虑动环波动对磁盘运行干扰的情况,提高磁盘故障预测的准确性。
图5示出了另一种磁盘故障预测装置的结构示意图。请参见图5,在本发明的一些实施例中,所述磁盘故障预测装置还可包括:
第一决策树模型构建模块404,用于构建第一决策树模型。
所述第一决策树模型构建模块包括:
第二获取模块405,用于获取样本磁盘在N个维度上的样本数据;
第二生成模块406,用于对所述样本数据进行所述归一化处理,以生成归一化样本数据;
第三生成模块407,用于对所述归一化样本数据进行离散化处理,以生成离散化样本数据;
第一训练模块408,用于对所述离散化样本数据进行训练,得到所述第一决策树模型。
在本发明的一些实施例中,所述目标磁盘包括至少一个磁盘组,每个磁盘组包括存储相同数据的存储结点磁盘和备份结点磁盘,所述第一决策树模型包括故障磁盘取值范围;所述第一确定模块403包括:
第二确定模块409,用于根据所述第一决策树模型和每个磁盘组中所述存储结点磁盘的归一化磁盘数据和所述备份结点磁盘的归一化磁盘数据,确定每个磁盘组中所述存储结点磁盘和所述备份结点磁盘的第二故障预测结果;
第三确定模块410,用于当所述第二故障预测结果在所述故障磁盘取值范围内时,对所述存储结点磁盘的磁盘数据和所述备份结点磁盘的磁盘数据进行重新预测,确定每个磁盘组的第三故障预测结果;
第四确定模块411,用于根据所述第二故障预测结果和所述第三故障预测结果,确定目标磁盘中每块磁盘的第一故障预测结果。
本发明实施例通过综合考虑磁盘分布式存储的特征,在预测每块磁盘的故障预测结果后,若判断该块磁盘为潜在故障磁盘,还需要预测该块磁盘所在磁盘组的故障预测结果,综合考虑两方面的预测结果能够避免同组磁盘连续故障带来的系统风险。
在本发明的一些实施例中,所述第三确定模块410包括:
第一计算模块412,对所述存储结点磁盘的磁盘数据和所述备份结点磁盘的磁盘数据计算算数平均数,以形成磁盘组数据;
第四生成模块413,对所述磁盘组数据进行所述归一化处理,以生成归一化磁盘组数据;
第五确定模块414,根据所述第一决策树模型和所述归一化磁盘组数据,确定所述磁盘组的第三故障预测结果。
本发明实施例在确定所述磁盘组的第三故障预测结果时,对该组磁盘进行整体预测,将该组磁盘的磁盘数据计算算数平均数,以形成磁盘组数据,然后进行归一化处理,再结合第一决策树模型,即可确定所述磁盘组的第三故障预测结果。
在本发明的一些实施例中,磁盘故障预测装置还可包括:
第二决策树模型构建模块415,用于根据包括样本动环监控告警数据的样本数据构建第二决策树模型,可包括:
第三获取模块416,用于获取样本磁盘在N个维度上的样本数据,所述样本数据包括样本动环监控告警数据,所述样本动环监控告警数据的发生时间点为T;
第一遍历模块417,用于遍历N个维度上的所述样本数据,得到遍历结果;
第二计算模块418,计算所述样本数据在每个维度上的第一数学期望;
第三计算模块419,根据所述第一数学期望,计算在所述发生时间点T时的任意一个维度上,各样本数据大于第一数学期望的概率,得到第一概率;
第一剔除模块420,从所述样本数据中,剔除掉在所述发生时间点T时,在任意一个维度上满足第一概率大于第一阈值的样本数据,得到剔除后的样本数据;
第二训练模块421,用于对所述剔除后的样本数据训练,得到第二决策树模型。
本发明实施例提供的磁盘故障预测装置根据剔除样本动环监控告警数据发生时间点时的无效样本数据,重新构建得到第二决策树模型,为预测包括目标动环监控告警数据的磁盘数据提供基础。
在本发明的一些实施例中,目标动环监控告警数据的发生时间点为t,所述磁盘故障预测装置还可包括:
第二遍历模块422,遍历每个磁盘在每个维度上的所述磁盘数据,得到遍历结果;
第四计算模块423,计算所述磁盘数据在每个维度上的第二数学期望;
第五计算模块424,根据所述第二数学期望,计算在所述发生时间点t时,在任意一个维度上,各磁盘数据大于第二数学期望的概率,得到第二概率;
第二剔除模块425,从所述磁盘数据中,剔除掉在所述发生时间点t时的任意一个维度上,满足第二概率大于第二阈值的磁盘数据,得到剔除后的磁盘数据;
第六确定模块426,根据所述第二决策树模型和所述剔除后的磁盘数据,确定所述目标磁盘中每个磁盘的第四故障预测结果。
本发明实施例提供的磁盘故障预测装置利用第二决策树模型及剔除目标动环监控告警数据发生时间点时的无效样本数据,对目标磁盘进行再次故障预测,在充分考虑动环波动对磁盘运行干扰的情况下,提高磁盘故障预测的准确性。
基于上述实施例提供的磁盘故障预测方法,本申请还提供了一种磁盘故障预测设备的具体实现方式。该磁盘故障预测设备可以包括处理器以及存储有计算机程序指令的存储器。
具体地,上述处理器可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器可在综合网关容灾设备的内部或外部。在特定实施例中,存储器是非易失性固态存储器。在特定实施例中,存储器包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器通过读取并执行存储器中存储的计算机程序指令,以实现上述实施例中的任意一种磁盘故障预测方法。
在一个示例中,磁盘故障预测设备还可包括通信接口和总线。处理器、存储器、通信接口通过总线连接并完成相互间的通信。
通信接口,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线包括硬件、软件或两者,举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
另外,结合上述实施例中的磁盘故障预测方法,本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种磁盘故障预测方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (13)

1.一种磁盘故障预测方法,其特征在于,包括:
获取目标磁盘中每块磁盘的磁盘数据,所述磁盘数据包括目标动环监控告警数据;
对所述磁盘数据进行归一化处理,以生成归一化磁盘数据;
根据所述归一化磁盘数据和预构建的第一决策树模型,确定所述目标磁盘中每块磁盘的第一故障预测结果。
2.根据权利要求1所述的方法,其特征在于,所述目标磁盘包括至少一个磁盘组,每个磁盘组包括存储相同数据的存储结点磁盘和备份结点磁盘,所述第一决策树模型包括故障磁盘取值范围;
所述根据所述归一化磁盘数据和预构建的第一决策树模型,确定所述目标磁盘中每块磁盘的第一故障预测结果,包括:
根据所述第一决策树模型和每个磁盘组中所述存储结点磁盘的归一化磁盘数据和所述备份结点磁盘的归一化磁盘数据,确定每个磁盘组中所述存储结点磁盘和所述备份结点磁盘的第二故障预测结果;
当所述第二故障预测结果在所述故障磁盘取值范围内时,对所述存储结点磁盘的磁盘数据和所述备份结点磁盘的磁盘数据进行重新预测,确定每个磁盘组的第三故障预测结果;
根据所述第二故障预测结果和所述第三故障预测结果,确定目标磁盘中每块磁盘的第一故障预测结果。
3.根据权利要求2所述的方法,其特征在于,所述对所述存储结点磁盘的磁盘数据和所述备份结点磁盘的磁盘数据进行重新预测,确定每个磁盘组的第三故障预测结果,包括:
对所述存储结点磁盘的磁盘数据和所述备份结点磁盘的磁盘数据计算算数平均数,以形成磁盘组数据;
对所述磁盘组数据进行所述归一化处理,以生成归一化磁盘组数据;
根据所述第一决策树模型和所述归一化磁盘组数据,确定所述磁盘组的第三故障预测结果。
4.根据权利要求1所述的方法,其特征在于,在所述根据所述归一化磁盘数据和预构建的第一决策树模型,确定所述目标磁盘中每块磁盘的第一故障预测结果之前,所述方法还包括:
获取样本磁盘在N个维度上的样本数据;
对所述样本数据进行所述归一化处理,以生成归一化样本数据;
对所述归一化样本数据进行离散化处理,以生成离散化样本数据;
对所述离散化样本数据进行训练,得到所述第一决策树模型。
5.根据权利要求4所述的方法,其特征在于,所述对所述归一化样本数据进行离散化处理,以生成离散化样本数据,包括:
利用区块对所述归一化样本数据进行离散,以生成离散化样本数据;
其中,在每一个维度上,所述区块的数值由归一化样本数据正态分布两侧位置到中心位置逐渐减小。
6.根据权利要求4或5所述的方法,其特征在于,所述对所述离散化样本数据进行训练,得到所述第一决策树模型,包括:
计算所述离散化样本数据在每一个维度的信息增益;
将每一个维度的所述信息增益由大到小排序,形成一个信息增益数组;
以所述信息增益数组中由大到小的信息增益所在维度作为节点依次展开,得到所述第一决策树模型。
7.根据权利要求6所述的方法,其特征在于,所述计算所述离散化样本数据在每一个维度的信息增益,包括:
计算所述离散化样本数据的总体条件熵;
计算所述离散化样本数据在每一个维度的每一个区块上的特征条件熵;
根据所述特征条件熵计算所述离散化样本数据在每一个维度的类别熵;
根据所述总体条件熵和类别熵计算所述离散化样本数据在每一个维度的信息增益。
8.根据权利要求6所述的方法,其特征在于,所述以所述信息增益数组中由大到小的信息增益所在维度作为节点依次展开,得到所述第一决策树模型,包括:
以所述信息增益数组中的信息增益最大值所在维度作为第一决策树模型的根节点;
以所述信息增益数组中的信息增益第二大值所在维度作为所述根节点的第2层子节点;
以所述信息增益数组中的信息增益第n大值所在维度作为第n-1层的子节点,其中,3≤n≤N;
在确定信息增益第n大值所在维度中的第i个区块为故障盘或非故障盘的情况下,确定所述信息增益第n大值所在维度中的第i个区块为叶子节点,得到所述第一决策树模型。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取样本磁盘在N个维度上的样本数据,所述样本数据包括样本动环监控告警数据,所述样本动环监控告警数据的发生时间点为T;
遍历N个维度上的所述样本数据,得到遍历结果;
计算所述样本数据在每个维度上的第一数学期望;
根据所述第一数学期望,计算在所述发生时间点T时的任意一个维度上,各样本数据大于第一数学期望的概率,得到第一概率;
从所述样本数据中,剔除掉在所述发生时间点T时,在任意一个维度上满足第一概率大于第一阈值的样本数据,得到剔除后的样本数据;
对所述剔除后的样本数据进行训练,得到第二决策树模型。
10.根据权利要求9所述的方法,其特征在于,所述目标动环监控告警数据的发生时间点为t;所述方法还包括:
遍历每个磁盘在每个维度上的所述磁盘数据,得到遍历结果;
计算所述磁盘数据在每个维度上的第二数学期望;
根据所述第二数学期望,计算在所述发生时间点t时,在任意一个维度上,各磁盘数据大于第二数学期望的概率,得到第二概率;
从所述磁盘数据中,剔除掉在所述发生时间点t时的任意一个维度上,满足第二概率大于第二阈值的磁盘数据,得到剔除后的磁盘数据;
根据所述第二决策树模型和所述剔除后的磁盘数据,确定所述目标磁盘中每个磁盘的第四故障预测结果。
11.一种磁盘故障预测装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标磁盘中每块磁盘的磁盘数据,所述磁盘数据包括目标动环监控告警数据;
第一生成模块,对所述磁盘数据进行归一化处理,以生成归一化磁盘数据;
第一确定模块,根据所述归一化磁盘数据和预构建的第一决策树模型,确定所述目标磁盘中每块磁盘的第一故障预测结果。
12.一种磁盘故障预测设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-10任意一项所述的磁盘故障预测方法。
13.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-10任意一项所述的磁盘故障预测方法。
CN201911421659.3A 2019-12-31 2019-12-31 磁盘故障预测方法、装置、设备及计算机存储介质 Active CN113127274B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911421659.3A CN113127274B (zh) 2019-12-31 2019-12-31 磁盘故障预测方法、装置、设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911421659.3A CN113127274B (zh) 2019-12-31 2019-12-31 磁盘故障预测方法、装置、设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN113127274A true CN113127274A (zh) 2021-07-16
CN113127274B CN113127274B (zh) 2024-03-19

Family

ID=76770124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911421659.3A Active CN113127274B (zh) 2019-12-31 2019-12-31 磁盘故障预测方法、装置、设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN113127274B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701150A (zh) * 2023-06-19 2023-09-05 深圳市银闪科技有限公司 一种基于物联网的存储数据安全监管系统及方法
CN117251352A (zh) * 2023-11-15 2023-12-19 苏州元脑智能科技有限公司 一种磁盘故障预测方法、系统、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104244300A (zh) * 2013-06-17 2014-12-24 中国移动通信集团浙江有限公司 一种实现基站动环监控的方法及系统
US9612896B1 (en) * 2015-08-24 2017-04-04 EMC IP Holding Company LLC Prediction of disk failure
CN107025153A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
CN107025154A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
CN110413205A (zh) * 2018-04-28 2019-11-05 伊姆西Ip控股有限责任公司 用于向磁盘阵列进行写入的方法、设备和计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104244300A (zh) * 2013-06-17 2014-12-24 中国移动通信集团浙江有限公司 一种实现基站动环监控的方法及系统
US9612896B1 (en) * 2015-08-24 2017-04-04 EMC IP Holding Company LLC Prediction of disk failure
CN107025153A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
CN107025154A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
CN110413205A (zh) * 2018-04-28 2019-11-05 伊姆西Ip控股有限责任公司 用于向磁盘阵列进行写入的方法、设备和计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王小妮等: "《数据挖掘技术》", 北京:北京航空航天大学出版社 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701150A (zh) * 2023-06-19 2023-09-05 深圳市银闪科技有限公司 一种基于物联网的存储数据安全监管系统及方法
CN116701150B (zh) * 2023-06-19 2024-01-16 深圳市银闪科技有限公司 一种基于物联网的存储数据安全监管系统及方法
CN117251352A (zh) * 2023-11-15 2023-12-19 苏州元脑智能科技有限公司 一种磁盘故障预测方法、系统、设备及存储介质
CN117251352B (zh) * 2023-11-15 2024-02-20 苏州元脑智能科技有限公司 一种磁盘故障预测方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN113127274B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
Li et al. Hard drive failure prediction using decision trees
JP7158586B2 (ja) ハードディスク故障発生時期の予測方法、装置及び記憶媒体
US20230385141A1 (en) Multi-factor cloud service storage device error prediction
CN110413227B (zh) 一种硬盘设备的剩余使用寿命在线预测方法和系统
CN107025153B (zh) 磁盘的故障预测方法和装置
CN112433896B (zh) 一种服务器磁盘故障预测方法、装置、设备及存储介质
CN111858108B (zh) 一种硬盘故障预测方法、装置、电子设备和存储介质
CN113127274B (zh) 磁盘故障预测方法、装置、设备及计算机存储介质
CN114943321A (zh) 一种针对硬盘的故障预测方法、装置及设备
CN113688564B (zh) 一种预测ssd硬盘剩余寿命的方法、装置、终端及存储介质
CN112331249B (zh) 预测存储器件寿命的方法、装置、终端设备和存储介质
CN117170915A (zh) 数据中心设备故障预测方法、装置和计算机设备
CN114036826A (zh) 模型训练方法、根因确定方法、装置、设备及存储介质
CN117572159A (zh) 基于大数据分析的电力故障检测方法及系统
CN112968804B (zh) 一种基于容错哈密顿圈的数据中心网络故障诊断方法
CN115705274A (zh) 硬盘故障预测方法、装置、计算机可读介质及电子设备
Liu et al. SPAE: Lifelong disk failure prediction via end-to-end GAN-based anomaly detection with ensemble update
CN111783883A (zh) 一种异常数据的检测方法及装置
Lyu et al. Assessing the maturity of model maintenance techniques for AIOps solutions
CN116074181A (zh) 保护机制影响下基于图推理的服务故障根因定位方法及装置
Zhou et al. Asldp: An active semi-supervised learning method for disk failure prediction
CN111695829B (zh) 一种指标波动周期计算方法、装置、存储介质及电子设备
CN115460056A (zh) 网络检测方法、电子设备、计算机可读介质
US20240152133A1 (en) Threshold acquisition apparatus, method and program for the same
Arifuzzaman et al. Be smart, save i/o: A probabilistic approach to avoid uncorrectable errors in storage systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant