CN108415819B - 一种硬盘故障追踪方法和装置 - Google Patents

一种硬盘故障追踪方法和装置 Download PDF

Info

Publication number
CN108415819B
CN108415819B CN201810212388.XA CN201810212388A CN108415819B CN 108415819 B CN108415819 B CN 108415819B CN 201810212388 A CN201810212388 A CN 201810212388A CN 108415819 B CN108415819 B CN 108415819B
Authority
CN
China
Prior art keywords
neural network
recurrent neural
hard disk
expression
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810212388.XA
Other languages
English (en)
Other versions
CN108415819A (zh
Inventor
包卫东
朱晓敏
王吉
周文
张耀鸿
陈超
马力
张国良
陈俊杰
杨骋
吴冠霖
韩浩然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201810212388.XA priority Critical patent/CN108415819B/zh
Publication of CN108415819A publication Critical patent/CN108415819A/zh
Application granted granted Critical
Publication of CN108415819B publication Critical patent/CN108415819B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种硬盘故障追踪方法和装置,所述方法包括:对于每次周期性获取的硬盘不同的自动检测分析及报告技术SMART属性值,根据当前获取的所述硬盘的SMART属性值生成属性集成;将所述属性集成输入到递归神经网络中,并根据所述递归神经网络输出的隐层状态,生成反映当前的隐层状态与所述硬盘的健康状态之间的差异的注意力分布向量;根据所述注意力分布向量中的权重值的大小,追踪所述硬盘的故障原因。应用本发明可以提供故障追踪诊断,有助于管理者追溯到具体的日子、找出故障的原因。

Description

一种硬盘故障追踪方法和装置
技术领域
本发明涉及硬盘故障监控技术领域,特别是指一种硬盘故障追踪方法和装置。
背景技术
在大数据时代,配备大型存储系统的数据中心在存储和处理数据方面起着重要的作用。然而,复杂的系统引起了IT设备故障的严重问题,其中硬盘是最常见的故障组件。虽然单个硬盘故障可能是比较罕见的,但成千上万个硬盘垒叠在一起,放大了失效的概率,使得在数据中心存储系统中,故障事件成为普遍而不是例外。考虑到数据丢失和服务中断造成的巨大的经济损失,硬盘可靠性问题是数据中心管理员最关心的问题之一。
人们采取措施减轻或消除硬盘故障所带来的负面影响,如纠错码(ECC)和冗余磁盘阵列(RAID)。这两种技术可被归为被动容错方法。另外,主动故障预测是另一种提前预测故障的方法。除了一些突然出现的故障,比如电子元件的意外崩溃,大多数硬盘在最终损坏之前都经历了一个性能恶化的过程。因此,我们可以预测故障、评估硬盘剩余寿命。
目前大多数故障预测模型在预测结果以外几乎不能提供其他信息。然而很多时候数据中心管理员通常想知道故障的原因。然而,确定故障过程和失效原因是一项困难而耗时的工作。现有的故障预测方法不能提供故障追踪诊断。
发明内容
有鉴于此,本发明的目的在于提出一种硬盘故障追踪方法和装置,可以提供故障追踪诊断,有助于管理者追溯到具体的日子、找出故障的原因。
基于上述目的本发明提供一种硬盘故障追踪方法,包括:
对于每次周期性获取的硬盘不同的自动检测分析及报告技术SMART属性值,根据当前获取的所述硬盘的SMART属性值生成属性集成;
将所述属性集成输入到递归神经网络中,并根据所述递归神经网络输出的隐层状态,生成反映当前的隐层状态与所述硬盘的健康状态之间的差异的注意力分布向量;
根据所述注意力分布向量中的权重值的大小,追踪所述硬盘的故障原因。
其中,所述根据所述递归神经网络输出的隐层状态,生成反映当前的隐层状态与所述硬盘的健康状态之间的差异的注意力分布向量,具体包括:
根据所述递归神经网络输出的隐层状态ht,依据如下表达式六,生成注意力分布向量at
Figure GDA0002968103820000021
其中,i是自然数,其在表达式六中的求和范围为[t-T+1,t];T为输入所述递归神经网络的序列的时间窗口的大小;ut是隐层状态ht通过tanh激活函数被转化为一个基于位置的表示,根据如下表达式七计算得到;
Figure GDA0002968103820000025
是健康状态向量,预先在训练过程中进行学习得到;
ut=tanh(Waht+ba) (表达式七)
其中,
Figure GDA0002968103820000022
是预先在训练过程中进行学习得到的参数,dr为所述递归神经网络的递归单元个数;
Figure GDA0002968103820000023
表示dr×dr的实数矩阵,
Figure GDA0002968103820000024
表示dr维的实数向量。
其中,所述递归神经网络具体为引入门控递归单元的递归神经网络;其中,所述递归神经网络中的门控递归单元包括门控单元和递归单元;其中,
一个门控递归单元中,门控单元用以控制递归单元的信息流,使该递归单元捕获长时间尺度的依赖。
本发明还提供一种硬盘故障追踪装置,包括:
特征整合模块,用于对于每次周期性地获取的硬盘不同的自动检测分析及报告技术SMART属性值,根据当前获取的所述硬盘的SMART属性值生成属性集成;
时间依赖提取模块,用于将所述属性集成输入到递归神经网络中,将所述递归神经网络的隐层状态作为输出;
注意力机制模块,用于根据所述递归神经网络的隐层状态,生成反映当前的隐层状态与所述硬盘的健康状态之间的差异的注意力分布向量;根据所述注意力分布向量中的权重值的大小,追踪所述硬盘的故障原因。
本发明的技术方案中,设计了一个注意力机制,为递归神经网络输出的隐层状态,生成注意力分布向量,用以反映当前的隐层状态与所述硬盘的健康状态之间的差异;通过分析注意力分布,其中较高的注意力权重意味着更重要的角色,从而可以深入了解过去哪几天对硬盘当前状态的影响最大;从而可以自动地揭示硬盘的退化进程,有助于追踪硬盘故障的原因。
进一步,本发明的技术方案,为了捕捉SMART数据中的长期时间依赖性,在现有的简单RNN的基础上引入了门控递归单元(GRU),避免了处理长时间序列时出现的梯度消失和爆炸问题。从而可以对硬盘驱动器的正常状态的偏差可以追溯到更早的时期,以利于提高故障检测率或故障预测能力。
附图说明
图1为本发明实施例提供的一种硬盘状态监控方法流程图;
图2为本发明实施例提供的一种门控递归单元的内部连接结构图;
图3为本发明实施例提供的一种硬盘状态监控装置内部结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
本发明的技术方案中设计了一个注意力机制,为递归神经网络输出的隐层状态,生成注意力分布向量,用以反映当前的隐层状态与所述硬盘的健康状态之间的差异;通过分析注意力分布,其中较高的注意力权重意味着更重要的角色,从而可以深入了解过去哪几天对硬盘当前状态的影响最大;从而可以自动地揭示硬盘的退化进程,有助于追踪硬盘故障的原因。
下面结合附图详细说明本发明实施例的技术方案。
本发明实施例提供的一种硬盘状态监控方法,可以周期性地进行硬盘故障状态监控、分析并进行故障追踪:周期性获取被监测硬盘的不同的SMART属性值,比如,每天获取被监测硬盘的不同的SMART属性值,进而,在每次获取所述硬盘的SMART属性值后进行如下操作,根据获取的SMART属性值监控所述硬盘是否将出现故障状态:
在一次获取被监测硬盘的不同的SMART属性值后进行硬盘状态监控的具体方法,流程如图1所示,包括如下步骤:
步骤S101:获取被监测硬盘不同的SMART属性值,并得到该硬盘当前的属性集成表示。
具体地,对于每次周期性获取的硬盘不同的自动检测分析及报告技术SMART属性值,根据当前获取的所述硬盘的SMART属性值,得到该硬盘的属性集成表示;比如,可以根据当前获取的被监测硬盘第t天的不同的SMART属性值,进而得到属性集成表示。
例如,根据当前获取的第t天的SMART属性值所组成的SMART向量
Figure GDA0002968103820000051
得到的属性集成表示为
Figure GDA0002968103820000052
可根据如下表达式一计算得到:
vt=ReLU(WVst+bv) (表达式一)
其中,
Figure GDA0002968103820000053
表示SMART属性值的权重矩阵,
Figure GDA0002968103820000054
是偏置向量。ReLU是定义为ReLU(x)=x+=max(0,x)的激活函数,其中,max是逐元素操作;WV和bv是预先在训练过程中进行学习得到的向量;
Figure GDA0002968103820000055
表示维度为ds的实数向量;
Figure GDA0002968103820000056
表示维度为dv的实数向量;ds为SMART属性值个数、dv为属性集成值个数,
Figure GDA0002968103820000057
表示dv×ds的实数矩阵。
步骤S102:将上述得到的属性集成输入到递归神经网络中,将所述递归神经网络的隐层状态作为输出。
本步骤中,将上述得到的属性集成输入到递归神经网络,将所述递归神经网络的隐层状态作为输出。
更优地,为了捕捉SMART数据中的长期时间依赖性,本发明实施例对现有的递归神经网络引入门控递归单元。具体地,可以将上述得到的属性集成输入到引入门控递归单元的递归神经网络中,将该递归神经网络的隐层状态作为输出。
本发明实施例的引入门控递归单元的递归神经网络中,门控递归单元包括门控单元和递归单元;其中,一个门控递归单元中,门控单元用以控制递归单元的信息流,使该递归单元可以捕获长时间尺度的依赖;其中,一个门控单元包括重置门和更新门,用以允许该递归单元保持现有内容或在现有内容基础上更新内容。图2示出了门控递归单元的内部连接结构。
递归神经网络(RNN)维持一个递归的隐层状态,由当前输入和以前的隐层状态在每个时间步骤中更新得到,而引入门控递归单元的递归神经网络的输入vt与输出ht之间的关系可以通过以下四个表达式的递归算法实现:
rt=sigmoid(Wrvt+Urht-1) (表达式二)
zt=sigmoid(Wzvt+Uzht-1) (表达式三)
ht′=tanh(W vt+U(rt⊙ht-1)) (表达式四)
ht=zt⊙ht-1+(1-zt)⊙h′t (表达式五)
其中,⊙是逐元素乘法操作;参数Wr、Ur、Wz、Uz、W、U是预先在训练过程中进行学习得到的权重向量;Sigmoid函数可将任意实数值转换到[0,1]范围内;Tanh函数可将任意实数值转换到[-1,1]范围内。
rt表示重置门,h't表示备选状态,zt表示更新门,ht表示递归神经网络的当前隐层状态(递归神经网络第t天的隐层状态),即递归神经网络当前的输出;ht-1表示递归神经网络上一次时间步骤中得到的隐层状态(递归神经网络第t-1天的隐层状态);
当重置门rt接近于0时,备选状态h't可以忘记之前的隐层状态,并重置为当前的输入;更新门zt控制从上一次时间步骤的隐层状态ht-1和备选状态h't中流入的信息量。
引入门控递归单元的递归神经网络的输出中,具有所述硬盘的SMART数据的长期信息,根据获取的SMART数据的长期信息,可以对硬盘驱动器的正常状态的偏差可以追溯到更早的时期,以利于提早监控到所述硬盘是否将出现故障状态,从而提高故障检测率或故障预测能力。
步骤S103:根据从所述递归神经网络的输出中获取的信息,监控所述硬盘是否将出现故障状态,并追踪所述硬盘的故障原因。
本步骤中,在根据从所述递归神经网络的输出中获取的信息,监控所述硬盘是否将出现故障状态时,还可在获取所述递归神经网络输出的隐层状态所反映的所述硬盘的SMART数据的长期信息的基础上,设计一个注意力机制,该注意力机制能够自动聚焦于硬盘的退化过程。该注意力机制可以显示哪些信息对故障预测影响最大,提供故障追踪诊断。它有助于管理者追溯到具体的日子、找出故障的原因。
具体地,可以根据所述递归神经网络输出的隐层状态,生成注意力分布向量;其中,所述注意力分布向量作为当前的隐层状态的权重向量,反映了当前的隐层状态与所述硬盘的健康状态之间的差异;根据所述注意力分布向量中的权重值的大小,追踪所述硬盘的故障原因。
具体可以根据所述递归神经网络输出的隐层状态ht,依据如下表达式六,生成注意力分布向量at
Figure GDA0002968103820000071
其中,i是自然数,其在表达式六中的求和范围为[t-T+1,t];T为输入所述递归神经网络的序列的时间窗口的大小。ut是隐层状态ht通过tanh激活函数被转化为一个基于位置的表示,根据如下表达式七计算得到;
Figure GDA0002968103820000072
是健康状态向量,可以被视作健康硬盘的特征的高阶表示;
Figure GDA0002968103820000073
可以预先在训练过程中进行学习得到。上式被用来比较健康状态向量与当前隐层状态之间的差异,并得到该差异的权重。
ut=tanh(Waht+ba) (表达式七)
其中,
Figure GDA0002968103820000081
表示维度为dr×dr的实数矩阵,
Figure GDA0002968103820000082
表示维度为dr的实数向量,均是预先在训练过程中进行学习得到的参数;dr为所述递归神经网络的递归单元个数。
在得到注意力分布向量at后,可以根据如下表达式八得到具有注意权重的隐层状态
Figure GDA0002968103820000083
Figure GDA0002968103820000084
借助于注意力机制,可以聚焦故障信息最丰富的部分,因此常常能做出更好的评估和预测。更重要的是,通过分析注意力分布,其中较高的注意力权重意味着更重要的角色,从而可以深入了解过去哪几天对硬盘当前状态的影响最大;它可以自动地揭示硬盘的退化进程,并帮助我们追踪硬盘故障的原因。
事实上,在执行步骤S101之前,即周期性获取被监测硬盘的不同的SMART属性值之前,可先进行训练过程。训练过程中包括使用健康硬盘和故障硬盘的SMART数据对所述递归神经网络进行训练,即训练得到上述的递归神经网络中的参数;训练过程也可包括学习其它参数:
具体地,在训练过程中,可以使用健康硬盘和故障硬盘的SMART数据进行计算和验证,确定递归神经网络中的参数Wr、Ur、Wz、Uz、W、U。当然,在训练过程中还可同时得到WV和bv,以及注意力机制中的参数
Figure GDA0002968103820000085
Wa、ba。而训练方法可以采用本领域技术人员所熟知的梯度下降法等,此处不赘述。
基于上述方法,本发明实施例提供的一种硬盘状态监控装置,内部结构如图3所示,包括:特征整合模块301、时间依赖提取模块302、注意力机制模块303。
其中,特征整合模块301用于周期性获取被监测硬盘的不同的SMART属性值;对于每次周期性地获取的硬盘不同的自动检测分析及报告技术SMART属性值,根据当前获取的所述硬盘的SMART属性值生成属性集成;具体地,特征整合模块301周期性获取被监测硬盘的不同的SMART属性值;对于当前获取的所述硬盘的第T天的SMART属性值所组成的SMART向量
Figure GDA0002968103820000091
可根据如下表达式一计算得到的属性集成。
时间依赖提取模块302用于将特征整合模块301得到的属性集成输入到递归神经网络中,将所述递归神经网络的隐层状态作为输出。更优地,时间依赖提取模块302将特征整合模块301得到的属性集成输入到引入门控递归单元的递归神经网络中,将所述递归神经网络的隐层状态作为输出;而递归神经网络的输入与输出之间的关系具体通过上述表达式二、三、四、五的递归算法实现。
注意力机制模块303用于根据从所述递归神经网络的输出中获取的信息,监控所述硬盘是否将出现故障状态,并进行故障追踪。具体地,注意力机制模块303根据所述递归神经网络输出的隐层状态,生成注意力分布向量;其中,所述注意力分布向量作为当前的隐层状态的权重向量,反映了当前的隐层状态与所述硬盘的健康状态之间的差异;根据所述注意力分布向量中的权重值的大小,追踪所述硬盘的故障原因,即通过监控所述权重向量中权重值的大小,确定所述硬盘是否将出现故障状态。注意力机制模块303可以根据上述表达式六、七计算得到注意力分布向量。
进一步,本发明实施例提供的一种硬盘状态监控装置还可包括:训练模块304。
训练模块304用于使用健康硬盘和故障硬盘的SMART数据对上述的递归神经网络进行训练,即使用健康硬盘和故障硬盘的SMART数据训练上述的递归神经网络,确定递归神经网络中的参数Wr、Ur、Wz、Uz、W、U。
训练模块304还可在训练递归神经网络的同时,训练得到参数WV和bv,以及注意力机制中的参数
Figure GDA0002968103820000092
Wa、ba
本发明的技术方案中,设计了一个注意力机制,为递归神经网络输出的隐层状态,生成注意力分布向量,用以反映当前的隐层状态与所述硬盘的健康状态之间的差异;通过分析注意力分布,其中较高的注意力权重意味着更重要的角色,从而可以深入了解过去哪几天对硬盘当前状态的影响最大;从而可以自动地揭示硬盘的退化进程,有助于追踪硬盘故障的原因。
进一步,本发明的技术方案,为了捕捉SMART数据中的长期时间依赖性,在现有的简单RNN的基础上引入了门控递归单元(GRU),避免了处理长时间序列时出现的梯度消失和爆炸问题。从而可以对硬盘驱动器的正常状态的偏差可以追溯到更早的时期,以利于提高故障检测率或故障预测能力。本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随即存储器)、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种硬盘故障追踪方法,包括:
对于每次周期性获取的硬盘不同的自动检测分析及报告技术SMART属性值,根据当前获取的所述硬盘的SMART属性值生成属性集成;
将所述属性集成输入到递归神经网络中,并根据所述递归神经网络输出的隐层状态,生成反映当前的隐层状态与所述硬盘的健康状态之间的差异的注意力分布向量:根据所述递归神经网络输出的隐层状态ht,依据如下表达式六、七,生成注意力分布向量at
根据所述注意力分布向量中的权重值的大小,追踪所述硬盘的故障原因;
其中,表达式六、七如下:
Figure FDA0002968103810000011
其中,i是自然数,其在表达式六中的求和范围为[t-T+1,t];T为输入所述递归神经网络的序列的时间窗口的大小;ut是隐层状态ht通过tanh激活函数被转化为一个基于位置的表示,根据如下表达式七计算得到;
Figure FDA0002968103810000012
是健康状态向量,预先在训练过程中进行学习得到;
ut=tanh(Waht+ba) (表达式七)
其中,
Figure FDA0002968103810000013
是预先在训练过程中进行学习得到的参数,dr为所述递归神经网络的递归单元个数;
Figure FDA0002968103810000014
表示dr×dr的实数矩阵,
Figure FDA0002968103810000015
表示dr维的实数向量。
2.根据权利要求1所述的方法,其特征在于,所述递归神经网络具体为引入门控递归单元的递归神经网络;其中,所述递归神经网络中的门控递归单元包括门控单元和递归单元;其中,
一个门控递归单元中,门控单元用以控制递归单元的信息流,使该递归单元捕获长时间尺度的依赖。
3.根据权利要求2所述的方法,其特征在于,所述门控单元包括重置门和更新门,用以允许该递归单元保持现有内容或在现有内容基础上更新内容;以及
所述递归神经网络的输入与输出之间的关系具体通过以下四个表达式的递归算法实现:
rt=sigmoid(Wrvt+Urht-1) (表达式二)
zt=sigmoid(Wzvt+Uzht-1) (表达式三)
ht′=tanh(Wvt+U(rt⊙ht-1)) (表达式四)
ht=zt⊙ht-1+(1-zt)⊙h′t (表达式五)
其中,⊙是逐元素乘法操作;rt表示重置门,h't表示备选状态,zt表示更新门,ht表示递归神经网络的当前隐层状态,即递归神经网络当前的输出;ht-1表示递归神经网络上一次时间步骤中得到的隐层状态;参数Wr、Ur、Wz、Uz、W、U是预先在训练过程中进行学习得到的。
4.根据权利要求1所述的方法,其特征在于,所述根据当前获取的所述硬盘的SMART属性值生成属性集成,具体包括:
根据当前获取的所述硬盘的第t天的SMART属性值所组成的SMART向量
Figure FDA0002968103810000021
得到的属性集成表示为
Figure FDA0002968103810000022
根据如下表达式一计算得到:
vt=ReLU(WVst+bv) (表达式一)
其中,
Figure FDA0002968103810000031
表示SMART属性值的权重矩阵,
Figure FDA0002968103810000032
是偏置向量, ReLU是定义为ReLU(x)=x+=max(0,x)的激活函数,其中,max是逐元素操作;WV和bv是预先在训练过程中进行学习得到的向量;ds为SMART属性值个数、dv为属性集成值个数;
Figure FDA0002968103810000033
表示dv×ds的实数矩阵,
Figure FDA0002968103810000034
表示dv维的实数向量。
5.一种硬盘故障追踪装置,包括:
特征整合模块,用于对于每次周期性地获取的硬盘不同的自动检测分析及报告技术SMART属性值,根据当前获取的所述硬盘的SMART属性值生成属性集成;
时间依赖提取模块,用于将所述属性集成输入到递归神经网络中,将所述递归神经网络的隐层状态作为输出;
注意力机制模块,用于根据所述递归神经网络的隐层状态,生成反映当前的隐层状态与所述硬盘的健康状态之间的差异的注意力分布向量:根据所述递归神经网络输出的隐层状态ht,依据如下表达式六、七,生成注意力分布向量at;根据所述注意力分布向量中的权重值的大小,追踪所述硬盘的故障原因;
其中,表达式六、七如下:
Figure FDA0002968103810000035
其中,i是自然数,其在表达式六中的求和范围为[t-T+1,t];T为输入所述递归神经网络的序列的时间窗口的大小;ut是隐层状态ht通过tanh激活函数被转化为一个基于位置的表示,根据如下表达式七计算得到;
Figure FDA0002968103810000036
是健康状态向量,预先在训练过程中进行学习得到;
ut=tanh(Waht+ba) (表达式七)
其中,
Figure FDA0002968103810000041
是预先在训练过程中进行学习得到的参数,dr为所述递归神经网络的递归单元个数;
Figure FDA0002968103810000042
表示dr×dr的实数矩阵,
Figure FDA0002968103810000043
表示dr维的实数向量。
6.根据权利要求5所述的装置,其特征在于,所述递归神经网络具体为引入门控递归单元的递归神经网络;其中,所述递归神经网络中的门控递归单元包括门控单元和递归单元;其中,
一个门控递归单元中,门控单元用以控制递归单元的信息流,使该递归单元捕获长时间尺度的依赖。
7.根据权利要求6所述的装置,其特征在于,所述门控单元包括重置门和更新门,用以允许该递归单元保持现有内容或在现有内容基础上更新内容;以及
所述递归神经网络的输入与输出之间的关系具体通过以下四个表达式的递归算法实现:
rt=sigmoid(Wrvt+Urht-1) (表达式二)
zt=sigmoid(Wzvt+Uzht-1) (表达式三)
ht′=tanh(Wvt+U(rr⊙ht-1)) (表达式四)
ht=zt⊙ht-1+(1-zt)⊙h′t (表达式五)
其中,⊙是逐元素乘法操作;rt表示重置门,h't表示备选状态,zt表示更新门,ht表示递归神经网络的当前隐层状态,即递归神经网络当前的输出;ht-1表示递归神经网络上一次时间步骤中得到的隐层状态;参数Wr、Ur、Wz、Uz、W、U是预先在训练过程中进行学习得到的。
8.根据权利要求6或7所述的装置,其特征在于,
所述特征整合模块具体用于根据当前获取的所述硬盘的第t天的SMART属性值所组成的SMART向量
Figure FDA0002968103810000051
得到的属性集成表示为
Figure FDA0002968103810000052
根据如下表达式一计算得到:
vt=ReLU(WVst+bv) (表达式一)
其中,
Figure FDA0002968103810000053
表示SMART属性值的权重矩阵,
Figure FDA0002968103810000054
是偏置向量, ReLU是定义为ReLU(x)=x+=max(0,x)的激活函数,其中,max是逐元素操作;WV和bv是预先在训练过程中进行学习得到的向量;ds为SMART属性值个数、dv为属性集成值个数;
Figure FDA0002968103810000055
表示dv×ds的实数矩阵,
Figure FDA0002968103810000056
表示dv维的实数向量。
CN201810212388.XA 2018-03-15 2018-03-15 一种硬盘故障追踪方法和装置 Active CN108415819B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810212388.XA CN108415819B (zh) 2018-03-15 2018-03-15 一种硬盘故障追踪方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810212388.XA CN108415819B (zh) 2018-03-15 2018-03-15 一种硬盘故障追踪方法和装置

Publications (2)

Publication Number Publication Date
CN108415819A CN108415819A (zh) 2018-08-17
CN108415819B true CN108415819B (zh) 2021-05-25

Family

ID=63131578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810212388.XA Active CN108415819B (zh) 2018-03-15 2018-03-15 一种硬盘故障追踪方法和装置

Country Status (1)

Country Link
CN (1) CN108415819B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109830254A (zh) * 2018-12-17 2019-05-31 武汉忆数存储技术有限公司 一种闪存寿命预测方法、系统、存储介质
CN109817267B (zh) * 2018-12-17 2021-02-26 武汉忆数存储技术有限公司 一种基于深度学习的闪存寿命预测方法、系统及计算机可读存取介质
CN111966569B (zh) * 2019-05-20 2024-10-18 中国电信股份有限公司 硬盘健康度评估方法和装置、计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129397A (zh) * 2010-12-29 2011-07-20 深圳市永达电子股份有限公司 一种自适应磁盘阵列故障预测方法及系统
CN107239446A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络与注意力机制的情报关系提取方法
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN107578124A (zh) * 2017-08-28 2018-01-12 国网山东省电力公司电力科学研究院 基于多层改进gru神经网络的短期电力负荷预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4803212B2 (ja) * 2008-05-28 2011-10-26 ソニー株式会社 データ処理装置、データ処理方法、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129397A (zh) * 2010-12-29 2011-07-20 深圳市永达电子股份有限公司 一种自适应磁盘阵列故障预测方法及系统
CN107239446A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络与注意力机制的情报关系提取方法
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN107578124A (zh) * 2017-08-28 2018-01-12 国网山东省电力公司电力科学研究院 基于多层改进gru神经网络的短期电力负荷预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"面向磁盘故障预测的机器学习方法比较";董 勇,蒋艳凰,卢宇彤,周恩强;《计算机工程与科学》;20151231;第37卷(第12期);第2200-2207页 *

Also Published As

Publication number Publication date
CN108415819A (zh) 2018-08-17

Similar Documents

Publication Publication Date Title
CN108415810B (zh) 一种硬盘状态监控方法和装置
CN111124840B (zh) 业务运维中告警的预测方法、装置与电子设备
Chen et al. Outage prediction and diagnosis for cloud service systems
CN110413227B (zh) 一种硬盘设备的剩余使用寿命在线预测方法和系统
US11294754B2 (en) System and method for contextual event sequence analysis
CN108052528A (zh) 一种存储设备时序分类预警方法
US20060149990A1 (en) System and method for fault identification in an electronic system based on context-based alarm analysis
CN108415819B (zh) 一种硬盘故障追踪方法和装置
US20040010733A1 (en) System and method for fault identification in an electronic system based on context-based alarm analysis
Su et al. Detecting outlier machine instances through gaussian mixture variational autoencoder with one dimensional cnn
Chang et al. OBDD-based evaluation of reliability and importance measures for multistate systems subject to imperfect fault coverage
CN112560269B (zh) 基于Rhapsody状态机的高容错电子系统任务可靠性仿真分析方法
CN109684320B (zh) 监测数据在线清洗的方法和设备
WO2024087404A1 (zh) 核反应堆故障判定方法、装置、设备、存储介质和产品
Levitin et al. Reliability of non-coherent warm standby systems with reworking
CN116112283A (zh) 一种基于cnn-lstm的电力系统网络安全态势预测方法及系统
CN118484356A (zh) 一种基于rpa的服务器状态监测方法及系统
Yazdi et al. SEFEE: Lightweight storage error forecasting in large-scale enterprise storage systems
CN116541222A (zh) 一种硬盘状态数据生成方法、系统、设备及介质
Yang et al. Bayesian network based software reliability prediction by dynamic simulation
CN116149895A (zh) 大数据集群性能预测方法、装置和计算机设备
US20220050763A1 (en) Detecting regime change in time series data to manage a technology platform
Chakraborty et al. ESRO: Experience Assisted Service Reliability against Outages
CN114676021A (zh) 作业日志监控方法、装置、计算机设备和存储介质
CN114756401A (zh) 基于日志的异常节点检测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant