CN115827356A - 服务器磁盘故障检测方法及系统、存储介质、电子设备 - Google Patents

服务器磁盘故障检测方法及系统、存储介质、电子设备 Download PDF

Info

Publication number
CN115827356A
CN115827356A CN202310154363.XA CN202310154363A CN115827356A CN 115827356 A CN115827356 A CN 115827356A CN 202310154363 A CN202310154363 A CN 202310154363A CN 115827356 A CN115827356 A CN 115827356A
Authority
CN
China
Prior art keywords
disk
server
fault
monitoring data
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310154363.XA
Other languages
English (en)
Inventor
刘爱贵
周意贺
阮薛平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dadao Yunxing Technology Co ltd
Original Assignee
Beijing Dadao Yunxing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dadao Yunxing Technology Co ltd filed Critical Beijing Dadao Yunxing Technology Co ltd
Priority to CN202310154363.XA priority Critical patent/CN115827356A/zh
Publication of CN115827356A publication Critical patent/CN115827356A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本申请属于服务器磁盘技术领域,公开了服务器磁盘故障检测方法及系统、存储介质、电子设备,所述方法包括收集服务器监控数据;对服务器监控数据进行聚类分析,获取磁盘故障因素;根据磁盘故障因素,在服务器监控数据中,筛选出磁盘IO特征数据;收集磁盘故障单;对磁盘故障单进行预处理;将磁盘故障单作为标签的磁盘IO特征数据,作为训练集,训练出能够识别磁盘故障的BP神经网络模型;将待测磁盘的IO特征输入BP神经网络模型,来检测磁盘的故障状况。因此,本公开实施例能够通过BP神经网络模型来检测服务器磁盘的故障,解决了现有技术中服务器磁盘检测的精准设置阈值难度大从而引起适用性差的问题,从而降低了服务器磁盘检测的难度。

Description

服务器磁盘故障检测方法及系统、存储介质、电子设备
技术领域
本申请属于服务器磁盘技术领域,涉及一种服务器磁盘故障检测方法及系统、存储介质、电子设备。
背景技术
目前,计算机的系统运维工作都会涉及到磁盘的监控和故障诊断,随着业务的不断扩展,计算机系统运维所维护的磁盘数量会大大增加,并且磁盘会经常出现坏盘或者故障的情况,这将严重影响业务系统的正常运行,所以时刻对磁盘是否存在故障进行诊断是很有必要的。
磁盘故障诊断就是研究与硬盘故障率相关的多个因素,比如环境因素,磁盘IO负载,磁盘S.M.A.R.T参数,上架时间,机型,业务等。磁盘IO负载有多种说法,有时被称为活跃程度利用率等。
现有的服务器磁盘故障检测存在着一些缺点,即用户只能根据磁盘监控指标并根据自身经验或者固定的指标阈值进行磁盘诊断,这种方案要求技术人员对磁盘的故障原理有深刻的理解,例如当今几乎所有的硬盘驱动厂商都开始在他们的产品中实施S.M.A.R.T,通过S.M.A.R.T可以对各硬盘的内部特性进行监控并且使用一个阈值算法来引发一个S.M.A.R.T告警信号,即当任何特性超过某个阈值时发出报警。这种方法对阈值的设置是非常关键的,这就要求技术人员对磁盘非常熟悉。目前也有研究者观测随着时间的推移S.M.A.R.T参数的变化,采用HMM和HSM来为好盘和坏盘建模从而实现硬盘的故障预测,并评估了预测效果。这些方案不能有效地降低技术人员的技术门槛。
发明内容
为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
为了解决相关技术中存在的问题,本公开实施例提供了服务器磁盘故障检测方法及系统、存储介质、电子设备,用以解决现有技术中服务器磁盘检测的精准设置阈值难度大从而引起适用性差的问题。
第一方面,在一些实施例中,提供了一种服务器磁盘故障检测方法,所述方法包括:
收集磁盘故障单;
对磁盘故障单进行预处理;
收集服务器监控数据;
对服务器监控数据进行聚类分析,获取磁盘故障因素;
根据磁盘故障因素,在服务器监控数据中,筛选出磁盘IO特征数据;
将磁盘故障单作为标签的磁盘IO特征数据,作为训练集,训练出能够识别磁盘故障的BP神经网络模型;
将待测磁盘的IO特征输入BP神经网络模型,来检测磁盘的故障状况。
优选地,对服务器监控数据进行聚类分析,获取磁盘故障因素,包括:
判断服务器监控数据是否进行相关性分析;
在服务器监控数据不需要进行相关性分析的情况下,选取聚类数据列,并使用K-means算法实现聚类;
在服务器监控数据需要进行相关性分析的情况下,则判断是否需要结合上架时间,若是则分析机械随上架时间的硬盘故障率变化;若否,则分析机型的总体硬盘故障率。
优选地,训练BP神经网络模型,包括:
对模型参数进行初始化;
求隐藏层、输出层各单元的输出;
对训练集计算总体误差;
判断损失函数Loss是否满足要求,若否,则继续;若是,则结束;
应用链式法则,求损失函数关于每层权值矩阵的梯度;
梯度下降算法调整各层的权值和偏置;
重新执行求隐藏层、输出层各单元的输出。
优选地,收集服务器监控数据,包括:采用时间序列数据库Influxdb存储磁盘监控数据。
优选地,收集磁盘故障单,包括:从mysql中获取磁盘故障单。
优选地,对磁盘故障单进行预处理,包括:
过滤掉非磁盘数据;
补全故障单中的字段;
忽略无信息故障条目;
合并重复的故障条目。
优选地,在训练的BP神经网络模型中使用均方误差损失函数、二项分类的交叉熵损失函数和多项分类的交叉熵损失函数的任一种;
均方误差损失函数公式为,
Figure SMS_1
二项分类的交叉熵损失函数公式为,
Figure SMS_2
多项分类的交叉熵损失函数为,
Figure SMS_3
式中,
Figure SMS_4
为训练样本总数,
Figure SMS_5
为神经网络的输出,
Figure SMS_6
为训练标签。
第二方面,在一些实施例中,公开了一种服务器磁盘故障检测系统,包括:
收集监控数据模块,被配置为收集服务器监控数据;
磁盘故障因素模块,被配置为对服务器监控数据进行聚类分析,获取磁盘故障因素;
特征数据模块,被配置为根据磁盘故障因素,在服务器监控数据中,筛选出磁盘IO特征数据;
收集磁盘故障单模块,被配置为收集磁盘故障单;
磁盘故障单预处理模块,被配置为对磁盘故障单进行预处理;
训练BP神经网络模块,被配置为将磁盘故障单作为标签的磁盘IO特征数据,作为训练集,训练出能够识别磁盘故障的BP神经网络模型;
预测模块,被配置为将待测磁盘的IO特征输入BP神经网络模型,来检测磁盘的故障状况。
第三方面,在一些实施例中,公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行如上述的服务器磁盘故障检测方法。
第四方面,在一些实施例中,公开了一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行如上述的服务器磁盘故障检测方法。
本公开实施例提供的一种服务器磁盘故障检测方法及系统、存储介质、电子设备,可以实现以下技术效果:
本公开实施例公开了服务器磁盘故障检测方法及系统、存储介质、电子设备,所述方法在通过在服务器监控数据分析出磁盘故障因素,从而筛选出磁盘IO特征数据,同时磁盘故障单,然后将磁盘故障单作为标签的磁盘IO特征数据,作为训练集,训练出能够识别磁盘故障的BP神经网络模型,最后通过BP神经网络模型来检测服务器磁盘的故障状况。因此,本公开实施例能够通过BP神经网络模型来检测服务器磁盘的故障,解决了现有技术中服务器磁盘检测的精准设置阈值难度大从而引起适用性差的问题,从而降低了服务器磁盘检测的难度。
以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
附图说明
一个或多个实施例通过与之对应的附图进行示例性说明,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:
图1是本公开实施例提供的一种服务器磁盘故障检测方法的流程图;
图2是本公开实施例提供的另一种服务器磁盘故障检测方法的流程图;
图3是本公开实施例提供的另一种服务器磁盘故障检测方法的流程图;
图4是本公开实施例中一种磁盘故障诊断的神经网络结构设计示意图;
图5是本公开实施例提供的一种服务器磁盘故障检测系统的示意图;
图6是本公开实施例提供的一种服务器磁盘故障检测电子设备示意图。
具体实施方式
为了能够更加详尽地了解本公开实施例的特点与技术内容,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或多个实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和系统可以简化展示。
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。其他实施方案可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。在本文中,各实施方案可以被单独地或总地用术语“发明”来表示,这仅仅是为了方便,并且如果事实上公开了超过一个的发明,不是要自动地限制该应用的范围为任何单个发明或发明构思。本文中,诸如第一和第二等之类的关系术语仅仅用于将一个实体或者操作与另一个实体或操作区分开来,而不要求或者暗示这些实体或操作之间存在任何实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者电子设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法或者电子设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法或者电子设备中还存在另外的相同要素。本文中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的方法、产品等而言,由于其与实施例公开的方法部分相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
磁盘故障诊断就是研究与硬盘故障率相关的多个因素,比如环境因素,磁盘 IO负载,磁盘 S.M.A.R.T 参数,上架时间,机型,业务等。磁盘 IO 负载有多种说法,有时被称为活跃程度利用率等。
现有的磁盘故障检测存在着一些缺点,即用户只能根据磁盘监控指标并根据自身经验或者固定的指标阈值进行磁盘诊断,这种方案要求技术人员对磁盘的故障原理有深刻的理解,例如当今几乎所有的硬盘驱动厂商都开始在他们的产品中实施 S.M.A.R.T ,通过S.M.A.R.T 可以对各硬盘的内部特性进行监控并且使用一个阈值算法来引发一个S.M.A.R.T 告警信号,即当任何特性超过某个阈值时发出报警。这种方法对阈值的设置是非常关键的,这就要求技术人员对磁盘非常熟悉。目前也有研究者观测随着时间的推移S.M.A.R.T 参数的变化,采用HMM和 HSM来为好盘和坏盘建模从而实现硬盘的故障预测,并评估了预测效果。这些方案不能有效地降低技术人员的技术门槛。
对于上述的现有技术来说,由于实际情况中,对于磁盘故障原理非常理解的技术人员有限,不能根据磁盘的关键指标的阈值进行磁盘的故障诊断。另一方面,对于监控磁盘的S.M.A.R.T 信息来说,并非所有硬盘都拥有完整的S.M.A.R.T 信息,很多硬盘的S.M.A.R.T 信息存在大量缺失,甚至根本没有 S.M.A.R.T信息,故这种方法的适用范围不够广范。
为了解决相关技术中存在的问题,本公开实施例提供了服务器磁盘故障检测方法及系统、存储介质、电子设备,用以解决现有技术中的数据在服务器磁盘检测的过程中,为了解决现有技术中服务器磁盘检测的精准设置阈值难度大从而引起适用性差的问题。
图1所示,为本公开实施例提供一种服务器磁盘故障检测方法的流程图。
本公开实施例提供一种服务器磁盘故障检测方法,包括:
S110,收集磁盘故障单。
S120,对磁盘故障单进行预处理。
S130,收集服务器监控数据。
S140,对服务器监控数据进行聚类分析,获取磁盘故障因素。
S150,根据磁盘故障因素,在服务器监控数据中,筛选出磁盘IO特征数据。
S160,将磁盘故障单作为标签的磁盘IO特征数据,作为训练集,训练出能够识别磁盘故障的BP神经网络模型。
S170,将待测磁盘的IO特征输入BP神经网络模型,来检测磁盘的故障状况。
应理解,S110至S130是为了获取磁盘IO特征数据,S140至S150,是为了获取磁盘故障单。然后将将磁盘故障单作为标签的磁盘IO特征数据,作为训练集,用来训练BP神经网络模型。
本公开实施例并没有采用阈值方式来判断服务器磁盘的故障,而是采用了BP神经网络对磁盘I/O负载建模,不断调整连接权值矩阵和偏置向量的分布以达到学习要求。这样,就把解决故障诊断问题的知识和经验分布存储到网络的相互连接及连接权值矩阵和偏置向量中。在知识推理或者故障诊断预测方面,对于特定的输入或故障特征,神经网络通过前向计算产生一个输出结果,同时计算出各个输出节点代表的类概率,再通过比较输出节点和神经网络本身的存储信息而得出特定解,即故障诊断结果。而在此过程中,其余的解同时被排除,这样神经网络就完成了磁盘故障并行预测的过程。
需要说明的是,本公开实施例中的所有磁盘,均为服务器磁盘。
一种优化的实施例中,参见图2,对服务器监控数据进行聚类分析,获取磁盘故障因素,包括:
判断服务器监控数据是否进行相关性分析;
在服务器监控数据不需要进行相关性分析的情况下,选取聚类数据列,并使用K-means算法实现聚类;
在服务器监控数据需要进行相关性分析的情况下,则判断是否需要结合上架时间,若是则分析机械随上架时间的硬盘故障率变化;若否,则分析机型的总体硬盘故障率。
应理解,磁盘的配置信息包含机型、业务、上架时间等,本发明对磁盘故障相关的几个因素进行分析,统计不同机型、业务的服务器的磁盘故障率,并分析出现这种现象的原因。由于不同机型的服务器对应的CPU、内存型号、磁盘个数等配置不同,导致其磁盘故障率不同。
一种故障统计分析表,如表1。
表1
Figure SMS_7
一种优化的实施例中,参见图3,训练BP神经网络模型,包括:
对模型参数进行初始化;
求隐藏层、输出层各单元的输出;
对训练集计算总体误差;
判断损失函数Loss是否满足要求,若否,则继续;若是,则结束;
应用链式法则,求损失函数关于每层权值矩阵的梯度;
梯度下降算法调整各层的权值和偏置;
重新执行求隐藏层、输出层各单元的输出。
应理解,神经网络设计的一个关键点是它的架构,指神经元之间的连接模式,每一层可以选择多少个隐藏单元,以及选择多少个隐藏层。首先输入层单元数量已经确定为特征的维度。
一个具体的例子为,参见图4,为本公开实施例中一种磁盘故障诊断的神经网络结构设计示意图。本公开实施例为9维的IO统计特征值,其次输出层单元数量也确定,由区分的类别个数决定,本发明可以区分好盘和坏盘,因此输出层单元数量为2。对于隐藏层的数量及神经元的个数不容易确定,也没有统一的标准,为此本文将采用两个隐藏层,神经元个数都为10个。因此本发明的磁盘故障诊断的BP神经网络架构最终为N(9,10,10,2)的结构。参见图5,为一种磁盘故障诊断的神经网络结构设计的示意图。
根据上述的神经网络学习算法,学习率是指导我们如何通过损失函数的梯度调整网络权值矩阵和偏置向量的超参数。学习率太小,神经网络的收敛速度会很慢,这意味着训练网络需要更长的时间。学习率太大,网络的损失值容易发生震荡,最终可能导致神经网络无法收敛,在训练开始时,学习率以0.01~0.001为宜。本文设定学习率
Figure SMS_8
为0.001。
训练一个非常大的深度神经网络可能会非常慢。目前本公开实施例公开了三种加速训练的方法:对权重应用良好的初始化方法、使用良好的激活函数、使用标准化后的气阀故障特征;另一个巨大的速度提升来自使用比普通梯度下降优化器GradientDescentOptimizer更快的优化器。本公开实施例采用最流行的AdamOptimizer。根据经验,在训练时几乎总是应该使用AdamOptimizer。
进一步地,代价函数的选择与输出层的激活函数选择紧密相关;对于回归问题,均方误差损失函数是BP神经网络的常用损失函数,此时输出层可以是线性激活函数;对于分类问题,二项分类的交叉熵损失函数是BP神经网络的常用损失函数,此时输出层可以用二项分布输出的sigmoid激活函数。另外,还可以用多项分类的交叉熵损失函数。
对应地,均方误差损失函数公式为,
Figure SMS_9
二项分类的交叉熵损失函数公式为,
Figure SMS_10
多项分类的交叉熵损失函数为,
Figure SMS_11
式中,
Figure SMS_12
为训练样本总数,
Figure SMS_13
为神经网络的输出,
Figure SMS_14
为训练标签。
由于本公开实施例用于仅用于区分好的磁盘和坏的磁盘,因此在实际应用中,可以选择二项分类的交叉熵损失函数为较好的损失函数。
根据J的结果,进行误差的反向传播,直到计算出每一层神经元的激励值误差,不含输入层,在求解J对每层权值矩阵和偏置向量的梯度,再利用梯度下降法或更高级的优化算法更新整个网络的权值和偏置,设学习率
Figure SMS_15
为较小的常数,可知下一次每层的权值和偏置调整为:
Figure SMS_16
一种优选的实施例中,收集服务器监控数据,包括:采用时间序列数据库Influxdb存储磁盘监控数据。
一个例子为,参见表2,为磁盘监控数据。
表2
字段名称 数据类型 字段说明
Io_read Float 读磁盘,表示平均每秒把数据从硬盘读入物理内存的块数
Io_write Float 写磁盘,表示平均每秒把数据从物理内存写入硬盘的块数
Io_cpu Float IO时间/CPU时间占比,表示一秒之中有百分之几的时间用于 IO 操作
一种优选的实施例中,收集磁盘故障单,包括:从mysql中获取磁盘故障单。
一个例子为,参见表3,为服务器磁盘故障单。
表3
字段名称 数据类型 字段说明
Host_id Int 服务器编号
Disk_id Int 磁盘编号
Slot_num Int 磁盘槽位号
Fail_date Datetime 磁盘的故障时间
Resolv_date Datetime 磁盘的恢复时间
一种优选的实施例中,对磁盘故障单进行预处理,包括:过滤掉非磁盘数据;补全故障单中的字段;忽略无信息故障条目;合并重复的故障条目。
应理解,收集好上述的数据之后,进行数据的预处理,其目的是在保证数据真实性的前提下对重复数据和无效数据进行过滤,保证数据的干净。
另外,一个具体将磁盘故障单作为标签的磁盘IO特征数据,作为训练集的例子。IO特征数据选用2020年1月1日到2021年1月1日之间的8000条磁盘故障单数据,过滤后的磁盘故障单一共7400条,涉及20多种磁盘型号,服务器1500台。故障预测选用2021年1月1日到2021年3月1日300次磁盘故障数据。然后根据故障开始和结束时间进行数据聚合计算,包括9个统计项将作为BP神经网络模型的训练输入特征,选用如下的9个统计项是因为上述9项与磁盘故障的相关性较强,能够很好的表征磁盘IO的大小和波动情况,如下表4。表4为磁盘IO统计特征。
磁盘特征 描述
Avg(io_read) 磁盘在故障时间段的读磁盘的均值
Max(io_read) 磁盘在故障时间段的读磁盘的最大值
STD(io_read) 磁盘在故障时间段的读磁盘的标准差
Avg(io_write) 磁盘在故障时间段的写磁盘的均值
Max(io_wirte) 磁盘在故障时间段的写磁盘的最大值
STD(io_wirte) 磁盘在故障时间段的写磁盘的标准差
Avg(io_cpu) 磁盘在故障时间段的io/cpu时间比的均值
Max(io_cpu) 磁盘在故障时间段的io/cpu时间比的最大值
STD(io_cpu) 磁盘在故障时间段的io/cpu时间比的标准差
图5示出了根据本发明实施例提供的服务器磁盘故障检测方法系统,该系统包括:
收集监控数据模块,被配置为收集服务器监控数据;
磁盘故障因素模块,被配置为对服务器监控数据进行聚类分析,获取磁盘故障因素;
特征数据模块,被配置为根据磁盘故障因素,在服务器监控数据中,筛选出磁盘IO特征数据;
收集磁盘故障单模块,被配置为收集磁盘故障单;
磁盘故障单预处理模块,被配置为对磁盘故障单进行预处理;
训练BP神经网络模块,被配置为将磁盘故障单作为标签的磁盘IO特征数据,作为训练集,训练出能够识别磁盘故障的BP神经网络模型;
预测模块,被配置为将待测磁盘的IO特征输入BP神经网络模型,来检测磁盘的故障状况。
结合图6所示,本公开实施例提供服务器磁盘故障检测的电子设备,包括处理器(processor)60和存储器(memory)61。可选地,该电子设备还可以包括通信接口(CommunicationInterface)62和总线63。其中,处理器60、通信接口62、存储器61可以通过总线63完成相互间的通信。通信接口62可以用于信息传输。处理器60可以调用存储器61中的逻辑指令,以执行上述服务器磁盘故障检测方法。
本公开实施例提供了一种存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为执行上述用于服务器磁盘故障检测方法。
上述的存储介质可以是暂态计算机可读存储介质,也可以是非暂态计算机可读存储介质。非暂态存储介质,包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
综上,本公开实施例公开了服务器磁盘故障检测方法及系统、存储介质、电子设备,所述方法在通过在服务器监控数据分析出磁盘故障因素,从而筛选出磁盘IO特征数据,同时磁盘故障单,然后将磁盘故障单作为标签的磁盘IO特征数据,作为训练集,训练出能够识别磁盘故障的BP神经网络模型,最后通过BP神经网络模型来检测服务器磁盘的故障状况。因此,本公开实施例能够通过BP神经网络模型来检测服务器磁盘的故障,从而降低了服务器磁盘检测的难度。
以上描述和附图充分地示出了本公开的实施例,以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且,本申请中使用的用词仅用于描述实施例并且不用于限制实施例。如在实施例的描述中使用的,除非上下文清楚地表明,否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地,如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的匹配。另外,当用于本申请中时,术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素,和/或组件的存在,但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法或者电子设备中还存在另外的相同要素。本文中,每个实施例重点说明的可以是与其他实施例的不同之处,各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言,如果其与实施例公开的方法部分相对应,那么相关之处可以参见方法部分的描述。
本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能,但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、系统和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中,不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生,有时不同的操作或步骤之间不存在特定的顺序。例如,两个连续的操作或步骤实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的匹配,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的匹配来实现。

Claims (10)

1.一种服务器磁盘故障检测方法,其特征在于,所述方法包括:
收集磁盘故障单;
对磁盘故障单进行预处理;
收集服务器监控数据;
对服务器监控数据进行聚类分析,获取磁盘故障因素;
根据磁盘故障因素,在服务器监控数据中,筛选出磁盘IO特征数据;
将磁盘故障单作为标签的磁盘IO特征数据,作为训练集,训练出能够识别磁盘故障的BP神经网络模型;
将待测磁盘的IO特征输入BP神经网络模型,来检测磁盘的故障状况。
2.根据权利要求1所述的一种服务器磁盘故障检测方法,其特征在于,对服务器监控数据进行聚类分析,获取磁盘故障因素,包括:
判断服务器监控数据是否进行相关性分析;
在服务器监控数据不需要进行相关性分析的情况下,选取聚类数据列,并使用K-means算法实现聚类;
在服务器监控数据需要进行相关性分析的情况下,则判断是否需要结合上架时间,若是则分析机械随上架时间的硬盘故障率变化;若否,则分析机型的总体硬盘故障率。
3.根据权利要求1所述的一种服务器磁盘故障检测方法,其特征在于,训练BP神经网络模型,包括:
对模型参数进行初始化;
求隐藏层、输出层各单元的输出;
对训练集计算总体误差;
判断损失函数Loss是否满足要求,若否,则继续;若是,则结束;
应用链式法则,求损失函数关于每层权值矩阵的梯度;
梯度下降算法调整各层的权值和偏置;
重新执行求隐藏层、输出层各单元的输出。
4.根据权利要求1所述的一种服务器磁盘故障检测方法,其特征在于,收集服务器监控数据,包括:
采用时间序列数据库Influxdb存储磁盘监控数据。
5.根据权利要求1所述的一种服务器磁盘故障检测方法,其特征在于,收集磁盘故障单,包括:
从mysql中获取磁盘故障单。
6.根据权利要求1所述的一种服务器磁盘故障检测方法,其特征在于,对磁盘故障单进行预处理,包括:
过滤掉非磁盘数据;
补全故障单中的字段;
忽略无信息故障条目;
合并重复的故障条目。
7.根据权利要求1所述的一种服务器磁盘故障检测方法,在训练的BP神经网络模型中使用均方误差损失函数、二项分类的交叉熵损失函数和多项分类的交叉熵损失函数的任一种;
均方误差损失函数公式为,
Figure QLYQS_1
二项分类的交叉熵损失函数公式为,
Figure QLYQS_2
多项分类的交叉熵损失函数为,
Figure QLYQS_3
式中,
Figure QLYQS_4
为训练样本总数,
Figure QLYQS_5
为神经网络的输出,
Figure QLYQS_6
为训练标签。
8.一种服务器磁盘故障检测系统,其特征在于,所述系统包括:
收集监控数据模块,被配置为收集服务器监控数据;
磁盘故障因素模块,被配置为对服务器监控数据进行聚类分析,获取磁盘故障因素;
特征数据模块,被配置为根据磁盘故障因素,在服务器监控数据中,筛选出磁盘IO特征数据;
收集磁盘故障单模块,被配置为收集磁盘故障单;
磁盘故障单预处理模块,被配置为对磁盘故障单进行预处理;
训练BP神经网络模块,被配置为将磁盘故障单作为标签的磁盘IO特征数据,作为训练集,训练出能够识别磁盘故障的BP神经网络模型;
预测模块,被配置为将待测磁盘的IO特征输入BP神经网络模型,来检测磁盘的故障状况。
9.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1至7中任一项所述的方法。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1至7中任一项所述的方法。
CN202310154363.XA 2023-02-23 2023-02-23 服务器磁盘故障检测方法及系统、存储介质、电子设备 Pending CN115827356A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310154363.XA CN115827356A (zh) 2023-02-23 2023-02-23 服务器磁盘故障检测方法及系统、存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310154363.XA CN115827356A (zh) 2023-02-23 2023-02-23 服务器磁盘故障检测方法及系统、存储介质、电子设备

Publications (1)

Publication Number Publication Date
CN115827356A true CN115827356A (zh) 2023-03-21

Family

ID=85522131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310154363.XA Pending CN115827356A (zh) 2023-02-23 2023-02-23 服务器磁盘故障检测方法及系统、存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN115827356A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399237A (zh) * 2019-06-29 2019-11-01 苏州浪潮智能科技有限公司 一种磁盘故障预测方法、系统、终端及存储介质
US20200104200A1 (en) * 2018-09-27 2020-04-02 Oracle International Corporation Disk drive failure prediction with neural networks
CN112433896A (zh) * 2020-11-05 2021-03-02 北京浪潮数据技术有限公司 一种服务器磁盘故障预测方法、装置、设备及存储介质
CN112527572A (zh) * 2019-09-19 2021-03-19 中兴通讯股份有限公司 磁盘故障预测方法、装置、计算机可读存储介质及服务器
CN114328048A (zh) * 2021-12-22 2022-04-12 郑州云海信息技术有限公司 一种磁盘故障预测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200104200A1 (en) * 2018-09-27 2020-04-02 Oracle International Corporation Disk drive failure prediction with neural networks
CN110399237A (zh) * 2019-06-29 2019-11-01 苏州浪潮智能科技有限公司 一种磁盘故障预测方法、系统、终端及存储介质
CN112527572A (zh) * 2019-09-19 2021-03-19 中兴通讯股份有限公司 磁盘故障预测方法、装置、计算机可读存储介质及服务器
CN112433896A (zh) * 2020-11-05 2021-03-02 北京浪潮数据技术有限公司 一种服务器磁盘故障预测方法、装置、设备及存储介质
CN114328048A (zh) * 2021-12-22 2022-04-12 郑州云海信息技术有限公司 一种磁盘故障预测方法及装置

Similar Documents

Publication Publication Date Title
CN110378869B (zh) 一种样本自动标注的钢轨扣件异常检测方法
US11631032B2 (en) Failure feedback system for enhancing machine learning accuracy by synthetic data generation
US8370108B2 (en) Diagnostic device
CN111507376B (zh) 一种基于多种无监督方法融合的单指标异常检测方法
WO2003090160A2 (en) Processing mixed numeric and/or non-numeric data
CN110609524A (zh) 一种工业设备剩余寿命预测模型及其构建方法和应用
CN110837523A (zh) 一种基于级联神经网络的高置信改造质量和减假暂量化评估方法
CN107025468A (zh) 基于pca‑ga‑svm算法的高速公路拥堵识别方法
KR20210108874A (ko) 기계 학습을 사용하여 스토리지 장치 장애를 예측하는 시스템 및 장치
CN111160329A (zh) 一种根因分析的方法及装置
CN112116002A (zh) 一种检测模型的确定方法、验证方法和装置
CN117034143B (zh) 一种基于机器学习的分布式系统故障诊断方法及装置
CN114266289A (zh) 一种复杂装备健康状态评估方法
CN111079348B (zh) 一种缓变信号检测方法和装置
CN115719283A (zh) 一种智能化会计管理系统
CN114816962A (zh) 基于attention-lstm的网络故障预测方法
US20240184678A1 (en) Deep Learning Method Integrating Prior Knowledge for Fault Diagnosis
CN111177010A (zh) 一种软件缺陷严重程度识别方法
CN112733897B (zh) 确定多维样本数据的异常原因的方法和设备
CN112884480A (zh) 异常交易识别模型的构造方法、装置、计算机设备和介质
Yang et al. Zte-predictor: Disk failure prediction system based on lstm
O’Connell et al. Logistic regression and extensions
CN115827356A (zh) 服务器磁盘故障检测方法及系统、存储介质、电子设备
CN115204475A (zh) 一种戒毒场所安全事件风险评估方法
Watts et al. Local score dependent model explanation for time dependent covariates

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20230321