CN111858265A - 一种存储系统的存储故障预测方法、系统及装置 - Google Patents

一种存储系统的存储故障预测方法、系统及装置 Download PDF

Info

Publication number
CN111858265A
CN111858265A CN202010616525.3A CN202010616525A CN111858265A CN 111858265 A CN111858265 A CN 111858265A CN 202010616525 A CN202010616525 A CN 202010616525A CN 111858265 A CN111858265 A CN 111858265A
Authority
CN
China
Prior art keywords
neural network
state data
network model
storage medium
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010616525.3A
Other languages
English (en)
Inventor
晏海龙
张东
颜秉珩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010616525.3A priority Critical patent/CN111858265A/zh
Publication of CN111858265A publication Critical patent/CN111858265A/zh
Priority to PCT/CN2021/076815 priority patent/WO2022001125A1/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种存储系统的存储故障预测方法、系统及装置,本申请基于具有时序特性的存储介质的运行状态数据及用于处理时序特性数据的循环神经网络,实现对存储介质的故障预测,可显著提前故障预测时间,至少可提前几天预测存储介质的故障,从而提高系统安全性;而且,本申请将存储介质的运行状态数据处理得到与存储介质的运行变化情况的相关性高于一定值的运行状态数据进行模型训练,从而在保证重要数据信息丢失较少的原则下减少模型训练的数据量,以加快模型训练速度。

Description

一种存储系统的存储故障预测方法、系统及装置
技术领域
本发明涉及存储领域,特别是涉及一种存储系统的存储故障预测方法、系统及装置。
背景技术
随着互联网的发展,各行各业都趋向于数据化,所需存储的数据量都呈现爆发式增长。目前,这些数据大都存储在互联网存储系统中,具体存储于存储系统的存储介质中,所以存储介质的好坏决定了存储系统的存储性能。一旦存储介质发生故障,轻则会造成存储系统对外提供的数据服务不可用,重则可能会导致存储在内的数据永久丢失,给用户带来巨大损失。
现有技术中,存储系统的存储故障处理机制主要分为两种:
1)被动容错机制:被动容错机制是指系统在存储介质发生故障之后,对存储在内的数据进行备份,以对系统进行恢复。但是,对数据进行备份需要以大量存储介质为基础,增加了系统运营负担;而且,若用户在系统数据备份时发起数据请求,此数据请求将会有一定的响应延迟,不利于用户体验。
2)主动容错机制:主动容错机制是指系统在存储介质发生故障之前提前预知其故障,以提前对即将故障的存储介质进行数据迁移及数据备份,从而大大减少了数据丢失的风险。目前,通常采用的系统存储故障预测方法为:提前为存储介质的多个运行参数一一设置安全阈值,在存储系统运行过程中,监测存储介质的各运行参数值,并当存储介质的任一运行参数值超过其对应的安全阈值时,认为存储介质即将在24小时内故障,系统会发出预警信息。但是,此系统存储故障预测方法可提前预测出的存储介质即将发生故障的时间较短(24小时以内),即留给管理人员处理系统数据的时间较短,不利于系统整体的安全性。
因此,如何提供一种解决上述技术问题的方案是本领域的技术人员目前需要解决的问题。
发明内容
本发明的目的是提供一种存储系统的存储故障预测方法、系统及装置,基于具有时序特性的存储介质的运行状态数据及用于处理时序特性数据的循环神经网络,实现对存储介质的故障进行预测,可以显著提前故障预测时间,至少可提前几天预测存储介质的故障,从而提高系统安全性;而且,本申请将存储介质的运行状态数据处理得到与存储介质的运行变化情况的相关性高于一定值的运行状态数据进行模型训练,从而在保证重要数据信息丢失较少的原则下减少模型训练的数据量,以加快模型训练速度。
为解决上述技术问题,本发明提供了一种存储系统的存储故障预测方法,包括:
预先获取存储系统的存储介质在预设第一时间内均正常运行的第一运行状态数据及在故障发生前预设第二时间内运行的第二运行状态数据;
将所述第一运行状态数据和所述第二运行状态数据进行预处理,以得到与所述存储介质的运行变化情况的相关性高于一定值的运行状态数据;
基于所述运行状态数据对预先建立好的循环神经网络模型进行训练,以得到用于对所述存储介质的故障进行预测的循环神经网络模型;
在所述存储系统运行过程中,基于所述循环神经网络模型对所述存储介质的当前运行状态数据进行分析处理,得到所述存储介质的故障预测结果。
优选地,预先获取存储系统的存储介质在预设第一时间内均正常运行的第一运行状态数据及在故障发生前预设第二时间内的运行的第二运行状态数据的过程,包括:
预先获取存储系统的存储介质在预设第一时间内均正常运行的多个第一运行状态数据,并将多个所述第一运行状态数据作为负样本;
获取所述存储介质在故障发生前预设第二时间内运行的多个第二运行状态数据,并将多个所述第二运行状态数据作为正样本;
其中,所述正样本和所述负样本的比例均衡,二者共同组成用于训练所述循环神经网络模型的样本集。
优选地,将所述第一运行状态数据和所述第二运行状态数据进行预处理,以得到与所述存储介质的运行变化情况的相关性高于一定值的运行状态数据;基于所述运行状态数据对预先建立好的循环神经网络模型进行训练,以得到用于对所述存储介质的故障进行预测的循环神经网络模型的过程,包括:
基于获取的n个样本xi=(xi1,xi2,...,xip)T,i=1,2,...,n构造样本矩阵;其中,每个样本采集p维向量数据x=(x1,x2,...,xp)T,n>p且n、p均为正整数;
基于标准变换关系式
Figure BDA0002563917620000031
对所述样本矩阵进行标准变换,得到标准化矩阵Z;其中,
Figure BDA0002563917620000032
基于样本相关矩阵求取关系式
Figure BDA0002563917620000033
得到样本相关矩阵R,并对样本相关矩阵R的特征方程|R-λIp|=0进行求解,得到p个特征根;
基于
Figure BDA0002563917620000034
确定m值,并基于Rb=λjb对每个λj,j=1,2,...,m进行求解,得到单位矩阵
Figure BDA0002563917620000035
其中,Q为预设信息最低利用率,p>m且m为正整数;
基于指标转换关系式
Figure BDA0002563917620000036
得到样本新变量Uij,并基于样本新变量Uij对预先建立好的循环神经网络模型进行训练,以得到用于对所述存储介质的故障进行预测的循环神经网络模型。
优选地,基于样本新变量Uij对预先建立好的循环神经网络模型进行训练,以得到用于对所述存储介质的故障进行预测的循环神经网络模型的过程,包括:
获取各样本新变量Uij的算术平均值μ和标准差σ,并基于标准化关系式g2=(g1-μ)/σ对每个新变量进行标准化处理,得到各标准化变量值;其中,g1为每个新变量标准化处理之前的变量值,g2为每个新变量标准化处理之后的变量值;
基于所述各标准化变量值的绝对值对预先建立好的循环神经网络模型进行训练,以得到用于对所述存储介质的故障进行预测的循环神经网络模型。
优选地,基于所述运行状态数据对预先建立好的循环神经网络模型进行训练,以得到用于对所述存储介质的故障进行预测的循环神经网络模型的过程,包括:
将所述运行状态数据组成的样本集划分为训练集、验证集及测试集;
基于所述训练集对预先建立好的循环神经网络模型进行训练,得到第一循环神经网络模型;
基于所述验证集对所述第一循环神经网络模型进行验证,并根据验证结果判断所述第一循环神经网络模型的训练是否达标;
若训练达标,则基于所述测试集对所述第一循环神经网络模型进行测试,并根据测试结果判断所述第一循环神经网络模型的测试是否通过;
若测试通过,则将测试通过的第一循环神经网络模型作为用于对所述存储介质的故障进行预测的循环神经网络模型;
若测试未通过,则再次获取新样本集对所述第一循环神经网络模型继续训练,并返回基于所述测试集对所述第一循环神经网络模型进行测试的步骤;
若训练未达标,则再次获取新样本集对所述第一循环神经网络模型继续训练,并返回基于所述验证集对所述第一循环神经网络模型进行验证的步骤。
优选地,所述存储介质的第一运行状态数据及第二运行状态数据均具体为所述存储介质的SMART数据。
优选地,所述循环神经网络模型具体为BERT或Transformer。
优选地,所述存储故障预测方法还包括:
将所述存储介质的故障预测结果记录在系统日志中,并在所述存储系统的管理界面上显示所述故障预测结果。
为解决上述技术问题,本发明还提供了一种存储系统的存储故障预测系统,包括:
数据获取模块,用于预先获取存储系统的存储介质在预设第一时间内均正常运行的第一运行状态数据及在故障发生前预设第二时间内的运行的第二运行状态数据;
数据提取模块,用于将所述第一运行状态数据和所述第二运行状态数据进行预处理,以得到与所述存储介质的运行变化情况的相关性高于一定值的运行状态数据;
模型训练模块,用于基于所述运行状态数据对预先建立好的循环神经网络模型进行训练,以得到用于对所述存储介质的故障进行预测的循环神经网络模型;
故障预测模块,用于在所述存储系统运行过程中,基于所述循环神经网络模型对所述存储介质的当前运行状态数据进行分析处理,得到所述存储介质的故障预测结果。
为解决上述技术问题,本发明还提供了一种存储系统的存储故障预测装置,包括:
存储器,用于存储计算机程序;
处理器,用于在执行所述计算机程序时实现上述任一种存储系统的存储故障预测方法的步骤。
本发明提供了一种存储系统的存储故障预测方法,预先获取存储系统的存储介质在预设第一时间内均正常运行的第一运行状态数据及在故障发生前预设第二时间内运行的第二运行状态数据;将第一运行状态数据和第二运行状态数据进行预处理,以得到与存储介质的运行变化情况的相关性高于一定值的运行状态数据;基于运行状态数据,对预先建立好的循环神经网络模型进行训练,以得到用于对存储介质的故障进行预测的循环神经网络模型;在存储系统运行过程中,基于循环神经网络模型对存储介质的当前运行状态数据进行分析处理,得到存储介质的故障预测结果。可见,本申请基于具有时序特性的存储介质的运行状态数据及用于处理时序特性数据的循环神经网络,实现对存储介质的故障进行预测,可以显著提前故障预测时间,至少可提前几天预测存储介质的故障,从而提高系统安全性;而且,本申请将存储介质的运行状态数据处理得到与存储介质的运行变化情况的相关性高于一定值的运行状态数据进行模型训练,从而在保证重要数据信息丢失较少的原则下减少模型训练的数据量,以加快模型训练速度。
本发明还提供了一种存储系统的存储故障预测系统及装置,与上述存储故障预测方法具有相同的有益效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种存储系统的存储故障预测方法的流程图;
图2为本发明实施例提供的一种存储系统的整体预测示意图;
图3为本发明实施例提供的一种循环神经网络的训练示意图。
具体实施方式
本发明的核心是提供一种存储系统的存储故障预测方法、系统及装置,基于具有时序特性的存储介质的运行状态数据及用于处理时序特性数据的循环神经网络,实现对存储介质的故障进行预测,可以显著提前故障预测时间,至少可提前几天预测存储介质的故障,从而提高系统安全性。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,图1为本发明实施例提供的一种存储系统的存储故障预测方法的流程图。
该存储系统的存储故障预测方法包括:
步骤S1:预先获取存储系统的存储介质在预设第一时间内均正常运行的第一运行状态数据及在故障发生前预设第二时间内运行的第二运行状态数据。
需要说明的是,本申请的预设是提前设置好的,只需要设置一次,除非根据实际情况需要修改,否则不需要重新设置。
具体地,本申请提前获取存储系统(如云服务器)的存储介质(如机械硬盘、固态硬盘、闪存等存储介质)在预设第一时间内均正常运行的第一运行状态数据,同时获取存储系统的存储介质在故障发生前预设第二时间内运行的第二运行状态数据,目的是获取具有时序特性的运行状态数据,以供后续较适用于处理时序特性数据的循环神经网络模型训练使用。
步骤S2:将第一运行状态数据和第二运行状态数据进行预处理,以得到与存储介质的运行变化情况的相关性高于一定值的运行状态数据。
具体地,考虑到步骤S1获取的第一运行状态数据和第二运行状态数据中,并不是所有运行状态数据都能够很好地表征存储介质的运行变化情况,所以本申请将第一运行状态数据和第二运行状态数据进行预处理,目的是得到与存储介质的运行变化情况的相关性高于一定值的运行状态数据,以基于处理得到的这些运行状态数据进行后续模型训练,从而在保证重要数据信息丢失较少的原则下减少模型训练的数据量,进而加快模型训练速度。
步骤S3:基于运行状态数据对预先建立好的循环神经网络模型进行训练,以得到用于对存储介质的故障进行预测的循环神经网络模型。
具体地,第一运行状态数据为表示存储介质在预设第一时间内均正常运行的数据,其作为用于告知循环神经网络模型存储介质的正常运行状态的样本数据;第二运行状态数据为表示存储介质在故障发生前预设第二时间内运行的数据,其作为用于告知循环神经网络模型存储介质故障发生前的运行状态的样本数据。
基于将第一运行状态数据和第二运行状态数据进行处理得到的运行状态数据,对预先建立好的循环神经网络模型进行训练,目的是得到用于对存储介质的故障进行预测的循环神经网络模型,以供后续预测存储介质故障使用。
步骤S4:在存储系统运行过程中,基于循环神经网络模型对存储介质的当前运行状态数据进行分析处理,得到存储介质的故障预测结果。
具体地,在存储系统运行过程中,实时获取存储系统的存储介质的运行状态数据,并基于循环神经网络模型对获取的存储介质的运行状态数据进行分析处理,以得到存储介质的故障预测结果,供管理人员参考。需要说明的是,基于具有时序特性的存储介质的运行状态数据及用于处理时序特性数据的循环神经网络,至少可提前几天预测存储介质的故障,从而留给管理人员较多处理系统数据的时间,利于系统整体的安全性。
本发明提供了一种存储系统的存储故障预测方法,预先获取存储系统的存储介质在预设第一时间内均正常运行的第一运行状态数据及在故障发生前预设第二时间内运行的第二运行状态数据;将第一运行状态数据和第二运行状态数据进行预处理,以得到与存储介质的运行变化情况的相关性高于一定值的运行状态数据;基于运行状态数据对预先建立好的循环神经网络模型进行训练,以得到用于对存储介质的故障进行预测的循环神经网络模型;在存储系统运行过程中,基于循环神经网络模型对存储介质的当前运行状态数据进行分析处理,得到存储介质的故障预测结果。可见,本申请基于具有时序特性的存储介质的运行状态数据及用于处理时序特性数据的循环神经网络,实现对存储介质的故障进行预测,可以显著提前故障预测时间,至少可提前几天预测存储介质的故障,从而提高系统安全性;而且,本申请将存储介质的运行状态数据处理得到与存储介质的运行变化情况的相关性高于一定值的运行状态数据进行模型训练,从而在保证重要数据信息丢失较少的原则下减少模型训练的数据量,以加快模型训练速度。
在上述实施例的基础上:
请参照图2,图2为本发明实施例提供的一种存储系统的整体预测示意图。
作为一种可选的实施例,预先获取存储系统的存储介质在预设第一时间内均正常运行的第一运行状态数据及在故障发生前预设第二时间内的运行的第二运行状态数据的过程,包括:
预先获取存储系统的存储介质在预设第一时间内均正常运行的多个第一运行状态数据,并将多个第一运行状态数据作为负样本;
获取存储介质在故障发生前预设第二时间内运行的多个第二运行状态数据,并将多个第二运行状态数据作为正样本;
其中,正样本和负样本的比例均衡,二者共同组成用于训练循环神经网络模型的样本集。
具体地,本申请提前获取的存储介质在预设第一时间内均正常运行的第一运行状态数据的数量为多个,且多个第一运行状态数据作为训练循环神经网络模型的负样本;同样地,本申请提前获取的存储介质在故障发生前预设第二时间内运行的第二运行状态数据的数量为多个,且多个第二运行状态数据作为训练循环神经网络模型的正样本。
需要说明的是,这里的正样本和负样本的比例应尽量保证均衡,即构成正样本的数据量与构成负样本的数据量尽量保证相等。
作为一种可选的实施例,将第一运行状态数据和第二运行状态数据进行预处理,以得到与存储介质的运行变化情况的相关性高于一定值的运行状态数据;基于运行状态数据对预先建立好的循环神经网络模型进行训练,以得到用于对存储介质的故障进行预测的循环神经网络模型的过程,包括:
基于获取的n个样本xi=(xi1,xi2,...,xip)T,i=1,2,...,n构造样本矩阵;其中,每个样本采集p维向量数据x=(x1,x2,...,xp)T,n>p且n、p均为正整数;
基于标准变换关系式
Figure BDA0002563917620000091
对样本矩阵进行标准变换,得到标准化矩阵Z;其中,
Figure BDA0002563917620000092
基于样本相关矩阵求取关系式
Figure BDA0002563917620000093
得到样本相关矩阵R,并对样本相关矩阵R的特征方程|R-λIp|=0进行求解,得到p个特征根;
基于
Figure BDA0002563917620000094
确定m值,并基于Rb=λjb对每个λj,j=1,2,...,m进行求解,得到单位矩阵
Figure BDA0002563917620000095
其中,Q为预设信息最低利用率,p>m且m为正整数;
基于指标转换关系式
Figure BDA0002563917620000101
得到样本新变量Uij,并基于样本新变量Uij对预先建立好的循环神经网络模型进行训练,以得到用于对存储介质的故障进行预测的循环神经网络模型。
具体地,在基于第一运行状态数据和第二运行状态数据对循环神经网络模型进行训练时,可先对第一运行状态数据和第二运行状态数据进行如下预处理:
在获取第一运行状态数据和第二运行状态数据时,具体获取了n个样本,表示为:xi=(xi1,xi2,...,xip)T,i=1,2,...,n;其中,每个样本包含p维向量数据,具体是p种运行状态在一段时间内的数据构成p维运行状态数据,p维运行状态数据构成一个样本,表示为:x=(x1,x2,...,xp)T
基于获取的n个样本xi=(xi1,xi2,...,xip)T,i=1,2,...,n构造样本矩阵,并基于标准变换关系式
Figure BDA0002563917620000102
对样本矩阵进行标准变换,得到标准化矩阵Z,然后基于样本相关矩阵求取关系式
Figure BDA0002563917620000103
得到样本相关矩阵R,并对样本相关矩阵R的特征方程|R-λIp|=0进行求解,得到p个特征根,表示为λj,j=1,2,...,p。
基于
Figure BDA0002563917620000104
确定m值,设Q=85%,即使信息的利用率达到85%以上,并基于Rb=λjb对每个λj,j=1,2,...,m进行求解,得到单位矩阵
Figure BDA0002563917620000105
然后基于指标转换关系式
Figure BDA0002563917620000106
得到样本新变量Uij,即样本新变量Uij包含n个样本,每个样本包含m维新向量数据。
可见,本申请用m维的Y空间代替p维的X空间(m<p,对多变量数据进行最佳综合简化),而低维的Y空间代替高维的X空间所损失的重要信息很少,即在保证重要数据信息丢失较少的原则下,对高维变量空间进行降维处理,以减少模型训练的数据量,加快循环神经网络模型的训练速度。
基于此,本申请基于样本新变量Uij对预先建立好的循环神经网络模型进行训练,以得到用于对存储介质的故障进行预测的循环神经网络模型。
作为一种可选的实施例,基于样本新变量Uij对预先建立好的循环神经网络模型进行训练,以得到用于对存储介质的故障进行预测的循环神经网络模型的过程,包括:
获取各样本新变量Uij的算术平均值μ和标准差σ,并基于标准化关系式g2=(g1-μ)/σ对每个新变量进行标准化处理,得到各标准化变量值;其中,g1为每个新变量标准化处理之前的变量值,g2为每个新变量标准化处理之后的变量值;
基于各标准化变量值的绝对值对预先建立好的循环神经网络模型进行训练,以得到用于对存储介质的故障进行预测的循环神经网络模型。
具体地,在基于第一运行状态数据和第二运行状态数据对循环神经网络模型进行训练时,还可对第一运行状态数据和第二运行状态数据进行如下处理:
考虑到在多变量体系中,由于各变量的性质不同,通常具有不同的量纲和数量级,当各变量间的水平相差很大时,如果直接用原始变量值进行分析,就会突出数值较高的变量在综合分析中的作用,相对削弱数值水平较低变量的作用,所以为了保证综合分析结果的可靠性,本申请还对各样本新变量Uij进行标准化处理,具体是获取各样本新变量Uij的算术平均值μ和标准差σ,并基于标准化关系式g2=(g1-μ)/σ对每个新变量进行标准化处理,得到各标准化变量值。
基于此,本申请基于各标准化变量值的绝对值对预先建立好的循环神经网络模型进行训练,以得到用于对存储介质的故障进行预测的循环神经网络模型。
请参照图3,图3为本发明实施例提供的一种循环神经网络的训练示意图。
作为一种可选的实施例,基于运行状态数据对预先建立好的循环神经网络模型进行训练,以得到用于对存储介质的故障进行预测的循环神经网络模型的过程,包括:
将运行状态数据组成的样本集划分为训练集、验证集及测试集;
基于训练集对预先建立好的循环神经网络模型进行训练,得到第一循环神经网络模型;
基于验证集对第一循环神经网络模型进行验证,并根据验证结果判断第一循环神经网络模型的训练是否达标;
若训练达标,则基于测试集对第一循环神经网络模型进行测试,并根据测试结果判断第一循环神经网络模型的测试是否通过;
若测试通过,则将测试通过的第一循环神经网络模型作为用于对存储介质的故障进行预测的循环神经网络模型;
若测试未通过,则再次获取新样本集对第一循环神经网络模型继续训练,并返回基于测试集对第一循环神经网络模型进行测试的步骤;
若训练未达标,则再次获取新样本集对第一循环神经网络模型继续训练,并返回基于验证集对第一循环神经网络模型进行验证的步骤。
具体地,本申请提前将基于运行状态数据构成的样本集划分为训练集、验证集及测试集;其中,训练集用于训练循环神经网络模型;验证集用于验证已训练过的循环神经网络模型;测试集用于测试训练通过的循环神经网络模型,使得循环神经网络模型的预测准确性较高。
基于此,循环神经网络模型的整个训练过程包括:1)基于训练集对预先建立好的循环神经网络模型进行训练,得到训练完成的循环神经网络模型(称为第一循环神经网络模型)。2)基于验证集对第一循环神经网络模型进行验证,并根据验证结果判断第一循环神经网络模型的训练是否达标(若第一循环神经网络模型基于验证集可准确预测验证集表示的存储介质的故障信息,则第一循环神经网络模型的训练达标,否则不达标);若训练达标,则执行后续基于测试集对第一循环神经网络模型进行测试的步骤;若训练未达标,则不执行后续基于测试集对第一循环神经网络模型进行测试的步骤,而是重新获取新样本集,并基于新样本集对第一循环神经网络模型继续训练,并返回基于验证集对第一循环神经网络模型进行验证的步骤,直至验证结果为第一循环神经网络模型的训练达标,才执行后续基于测试集对第一循环神经网络模型进行测试的步骤。3)基于测试集对第一循环神经网络模型进行测试,并根据测试结果判断第一循环神经网络模型的测试是否通过(若第一循环神经网络模型基于测试集可准确预测测试集表示的存储介质的故障信息,则第一循环神经网络模型的测试通过,否则不通过),若测试通过,则将测试通过的第一循环神经网络模型作为用于对存储介质的故障进行预测的循环神经网络模型,即可投入使用;若测试未通过,则重新获取新样本集,并基于新样本集对第一循环神经网络模型继续训练,并返回基于测试集对第一循环神经网络模型进行测试的步骤,直至测试结果为第一循环神经网络模型的测试通过,才将其投入使用。
作为一种可选的实施例,存储介质的第一运行状态数据及第二运行状态数据均具体为存储介质的SMART数据。
具体地,本申请的存储介质的第一运行状态数据及第二运行状态数据可直接采用存储介质的SMART(Self-Monitoring Analysis and Reporting Technology,自我监测、分析及报告技术)数据,SMART数据是与存储介质的健康状况密切相关的一些数据,如寻道错误率、盘片启动时间、重新映射扇区计数、加电时间、磁头写入高度、温度等。
作为一种可选的实施例,循环神经网络模型具体为BERT或Transformer。
具体地,本申请的循环神经网络模型可采用高精度的BERT(BidirectionalEncoder Representation from Transformers,双向编码器)或Transformer(循环神经网络的一种),也可采用LSTM(Long Short-Term Memory,长短期记忆网络),本申请在此不做特别的限定。
作为一种可选的实施例,存储故障预测方法还包括:
将存储介质的故障预测结果记录在系统日志中,并在存储系统的管理界面上显示故障预测结果。
进一步地,本申请可将存储系统的存储故障预测结果记录在系统日志中,作为后续分析系统存储故障的依据;同时,本申请还可将存储故障预测结果显示在存储系统的管理界面上,供管理人员及时查看。
本申请还提供了一种存储系统的存储故障预测系统,包括:
数据获取模块,用于预先获取存储系统的存储介质在预设第一时间内均正常运行的第一运行状态数据及在故障发生前预设第二时间内的运行的第二运行状态数据;
数据提取模块,用于将第一运行状态数据和第二运行状态数据进行预处理,以得到与存储介质的运行变化情况的相关性高于一定值的运行状态数据;
模型训练模块,用于基于运行状态数据对预先建立好的循环神经网络模型进行训练,以得到用于对存储介质的故障进行预测的循环神经网络模型;
故障预测模块,用于在存储系统运行过程中,基于循环神经网络模型对存储介质的当前运行状态数据进行分析处理,得到存储介质的故障预测结果。
本申请提供的存储故障预测系统的介绍请参考上述存储故障预测方法的实施例,本申请在此不再赘述。
本申请还提供了一种存储系统的存储故障预测装置,包括:
存储器,用于存储计算机程序;
处理器,用于在执行计算机程序时实现上述任一种存储系统的存储故障预测方法的步骤。
本申请提供的存储故障预测装置的介绍请参考上述存储故障预测方法的实施例,本申请在此不再赘述。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种存储系统的存储故障预测方法,其特征在于,包括:
预先获取存储系统的存储介质在预设第一时间内均正常运行的第一运行状态数据及在故障发生前预设第二时间内运行的第二运行状态数据;
将所述第一运行状态数据和所述第二运行状态数据进行预处理,以得到与所述存储介质的运行变化情况的相关性高于一定值的运行状态数据;
基于所述运行状态数据对预先建立好的循环神经网络模型进行训练,以得到用于对所述存储介质的故障进行预测的循环神经网络模型;
在所述存储系统运行过程中,基于所述循环神经网络模型对所述存储介质的当前运行状态数据进行分析处理,得到所述存储介质的故障预测结果。
2.如权利要求1所述的存储系统的存储故障预测方法,其特征在于,预先获取存储系统的存储介质在预设第一时间内均正常运行的第一运行状态数据及在故障发生前预设第二时间内的运行的第二运行状态数据的过程,包括:
预先获取存储系统的存储介质在预设第一时间内均正常运行的多个第一运行状态数据,并将多个所述第一运行状态数据作为负样本;
获取所述存储介质在故障发生前预设第二时间内运行的多个第二运行状态数据,并将多个所述第二运行状态数据作为正样本;
其中,所述正样本和所述负样本的比例均衡,二者共同组成用于训练所述循环神经网络模型的样本集。
3.如权利要求2所述的存储系统的存储故障预测方法,其特征在于,将所述第一运行状态数据和所述第二运行状态数据进行预处理,以得到与所述存储介质的运行变化情况的相关性高于一定值的运行状态数据;基于所述运行状态数据对预先建立好的循环神经网络模型进行训练,以得到用于对所述存储介质的故障进行预测的循环神经网络模型的过程,包括:
基于获取的n个样本xi=(xi1,xi2,...,xip)T,i=1,2,...,n构造样本矩阵;其中,每个样本采集p维向量数据x=(x1,x2,...,xp)T,n>p且n、p均为正整数;
基于标准变换关系式
Figure FDA0002563917610000021
对所述样本矩阵进行标准变换,得到标准化矩阵Z;其中,
Figure FDA0002563917610000022
基于样本相关矩阵求取关系式
Figure FDA0002563917610000023
得到样本相关矩阵R,并对样本相关矩阵R的特征方程|R-λIp|=0进行求解,得到p个特征根;
基于
Figure FDA0002563917610000024
确定m值,并基于Rb=λjb对每个λj,j=1,2,...,m进行求解,得到单位矩阵
Figure FDA0002563917610000025
其中,Q为预设信息最低利用率,p>m且m为正整数;
基于指标转换关系式
Figure FDA0002563917610000026
得到样本新变量Uij,并基于样本新变量Uij对预先建立好的循环神经网络模型进行训练,以得到用于对所述存储介质的故障进行预测的循环神经网络模型。
4.如权利要求3所述的存储系统的存储故障预测方法,其特征在于,基于样本新变量Uij对预先建立好的循环神经网络模型进行训练,以得到用于对所述存储介质的故障进行预测的循环神经网络模型的过程,包括:
获取各样本新变量Uij的算术平均值μ和标准差σ,并基于标准化关系式g2=(g1-μ)/σ对每个新变量进行标准化处理,得到各标准化变量值;其中,g1为每个新变量标准化处理之前的变量值,g2为每个新变量标准化处理之后的变量值;
基于所述各标准化变量值的绝对值对预先建立好的循环神经网络模型进行训练,以得到用于对所述存储介质的故障进行预测的循环神经网络模型。
5.如权利要求2所述的存储系统的存储故障预测方法,其特征在于,基于所述运行状态数据对预先建立好的循环神经网络模型进行训练,以得到用于对所述存储介质的故障进行预测的循环神经网络模型的过程,包括:
将所述运行状态数据组成的样本集划分为训练集、验证集及测试集;
基于所述训练集对预先建立好的循环神经网络模型进行训练,得到第一循环神经网络模型;
基于所述验证集对所述第一循环神经网络模型进行验证,并根据验证结果判断所述第一循环神经网络模型的训练是否达标;
若训练达标,则基于所述测试集对所述第一循环神经网络模型进行测试,并根据测试结果判断所述第一循环神经网络模型的测试是否通过;
若测试通过,则将测试通过的第一循环神经网络模型作为用于对所述存储介质的故障进行预测的循环神经网络模型;
若测试未通过,则再次获取新样本集对所述第一循环神经网络模型继续训练,并返回基于所述测试集对所述第一循环神经网络模型进行测试的步骤;
若训练未达标,则再次获取新样本集对所述第一循环神经网络模型继续训练,并返回基于所述验证集对所述第一循环神经网络模型进行验证的步骤。
6.如权利要求1所述的存储系统的存储故障预测方法,其特征在于,所述存储介质的第一运行状态数据及第二运行状态数据均具体为所述存储介质的SMART数据。
7.如权利要求1所述的存储系统的存储故障预测方法,其特征在于,所述循环神经网络模型具体为BERT或Transformer。
8.如权利要求1所述的存储系统的存储故障预测方法,其特征在于,所述存储故障预测方法还包括:
将所述存储介质的故障预测结果记录在系统日志中,并在所述存储系统的管理界面上显示所述故障预测结果。
9.一种存储系统的存储故障预测系统,其特征在于,包括:
数据获取模块,用于预先获取存储系统的存储介质在预设第一时间内均正常运行的第一运行状态数据及在故障发生前预设第二时间内的运行的第二运行状态数据;
数据提取模块,用于将所述第一运行状态数据和所述第二运行状态数据进行预处理,以得到与所述存储介质的运行变化情况的相关性高于一定值的运行状态数据;
模型训练模块,用于基于所述运行状态数据对预先建立好的循环神经网络模型进行训练,以得到用于对所述存储介质的故障进行预测的循环神经网络模型;
故障预测模块,用于在所述存储系统运行过程中,基于所述循环神经网络模型对所述存储介质的当前运行状态数据进行分析处理,得到所述存储介质的故障预测结果。
10.一种存储系统的存储故障预测装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于在执行所述计算机程序时实现如权利要求1-8任一种所述的存储系统的存储故障预测方法的步骤。
CN202010616525.3A 2020-06-30 2020-06-30 一种存储系统的存储故障预测方法、系统及装置 Withdrawn CN111858265A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010616525.3A CN111858265A (zh) 2020-06-30 2020-06-30 一种存储系统的存储故障预测方法、系统及装置
PCT/CN2021/076815 WO2022001125A1 (zh) 2020-06-30 2021-02-19 一种存储系统的存储故障预测方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010616525.3A CN111858265A (zh) 2020-06-30 2020-06-30 一种存储系统的存储故障预测方法、系统及装置

Publications (1)

Publication Number Publication Date
CN111858265A true CN111858265A (zh) 2020-10-30

Family

ID=72989652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010616525.3A Withdrawn CN111858265A (zh) 2020-06-30 2020-06-30 一种存储系统的存储故障预测方法、系统及装置

Country Status (2)

Country Link
CN (1) CN111858265A (zh)
WO (1) WO2022001125A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112737834A (zh) * 2020-12-25 2021-04-30 北京浪潮数据技术有限公司 一种云硬盘故障预测方法、装置、设备及存储介质
CN112822099A (zh) * 2020-12-29 2021-05-18 北京浪潮数据技术有限公司 一种网卡工作模式的切换方法、装置和介质
WO2022001125A1 (zh) * 2020-06-30 2022-01-06 苏州浪潮智能科技有限公司 一种存储系统的存储故障预测方法、系统及装置
CN115758225A (zh) * 2023-01-06 2023-03-07 中建科技集团有限公司 基于多模态数据融合的故障预测方法、装置与存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110106734A1 (en) * 2009-04-24 2011-05-05 Terrance Boult System and appartus for failure prediction and fusion in classification and recognition
CN108647136B (zh) * 2018-05-10 2021-05-04 南京道熵信息技术有限公司 基于smart信息和深度学习的硬盘损坏预测方法及装置
CN109634790B (zh) * 2018-11-22 2020-07-10 华中科技大学 一种基于循环神经网络的磁盘故障预测方法
CN109919335A (zh) * 2019-03-11 2019-06-21 西安电子科技大学 基于深度学习的磁盘故障预测系统
CN110471820B (zh) * 2019-08-05 2023-01-17 南开大学 一种基于循环神经网络的云存储系统磁盘故障预测方法
CN111858265A (zh) * 2020-06-30 2020-10-30 苏州浪潮智能科技有限公司 一种存储系统的存储故障预测方法、系统及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022001125A1 (zh) * 2020-06-30 2022-01-06 苏州浪潮智能科技有限公司 一种存储系统的存储故障预测方法、系统及装置
CN112737834A (zh) * 2020-12-25 2021-04-30 北京浪潮数据技术有限公司 一种云硬盘故障预测方法、装置、设备及存储介质
CN112822099A (zh) * 2020-12-29 2021-05-18 北京浪潮数据技术有限公司 一种网卡工作模式的切换方法、装置和介质
CN115758225A (zh) * 2023-01-06 2023-03-07 中建科技集团有限公司 基于多模态数据融合的故障预测方法、装置与存储介质
CN115758225B (zh) * 2023-01-06 2023-08-29 中建科技集团有限公司 基于多模态数据融合的故障预测方法、装置与存储介质

Also Published As

Publication number Publication date
WO2022001125A1 (zh) 2022-01-06

Similar Documents

Publication Publication Date Title
CN111858265A (zh) 一种存储系统的存储故障预测方法、系统及装置
CN112115024B (zh) 一种用于故障预测神经网络模型的训练方法与设备
Lin et al. Predicting node failure in cloud service systems
CN108737406B (zh) 一种异常流量数据的检测方法及系统
CN111967571B (zh) 一种基于mhma的异常检测方法和设备
Bodik et al. Fingerprinting the datacenter: automated classification of performance crises
CN108959004B (zh) 磁盘故障预测方法、装置、设备及计算机可读存储介质
CN110164501B (zh) 一种硬盘检测方法、装置、存储介质及设备
CN112433896B (zh) 一种服务器磁盘故障预测方法、装置、设备及存储介质
CN112596964B (zh) 磁盘故障的预测方法及装置
CN109918313B (zh) 一种基于GBDT决策树的SaaS软件性能故障诊断方法
CN111949459B (zh) 一种基于迁移学习和主动学习的硬盘故障预测方法及系统
CN110083518B (zh) 一种基于AdaBoost-Elman的虚拟机软件老化预测方法
CN114325405A (zh) 电池组一致性分析方法、建模方法、装置、设备及介质
CN114741369A (zh) 一种基于自注意力机制的图网络的系统日志检测方法
CN116306806A (zh) 故障诊断模型确定方法、装置及非易失性存储介质
CN111949496B (zh) 一种数据检测方法及装置
CN113822336A (zh) 一种云硬盘故障预测方法、装置、系统及可读存储介质
CN115514620B (zh) 一种异常检测的方法和云网络平台
CN112348685A (zh) 信用评分方法、装置、设备及存储介质
CN116599743A (zh) 4a异常绕行检测方法、装置、电子设备及存储介质
CN113676377B (zh) 基于大数据的在线用户数评估方法、装置、设备及介质
CN110852443A (zh) 特征稳定性检测方法、设备及计算机可读介质
CN112445687A (zh) 一种计算设备的卡顿检测方法及相关装置
CN115599077A (zh) 车辆故障定界方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20201030

WW01 Invention patent application withdrawn after publication