CN108415819B - 一种硬盘故障追踪方法和装置 - Google Patents
一种硬盘故障追踪方法和装置 Download PDFInfo
- Publication number
- CN108415819B CN108415819B CN201810212388.XA CN201810212388A CN108415819B CN 108415819 B CN108415819 B CN 108415819B CN 201810212388 A CN201810212388 A CN 201810212388A CN 108415819 B CN108415819 B CN 108415819B
- Authority
- CN
- China
- Prior art keywords
- neural network
- recurrent neural
- hard disk
- expression
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000000306 recurrent effect Effects 0.000 claims abstract description 92
- 238000013528 artificial neural network Methods 0.000 claims abstract description 79
- 239000013598 vector Substances 0.000 claims abstract description 53
- 230000010354 integration Effects 0.000 claims abstract description 21
- 230000036541 health Effects 0.000 claims abstract description 16
- 238000001514 detection method Methods 0.000 claims abstract description 10
- 238000004458 analytical method Methods 0.000 claims abstract description 7
- 238000005516 engineering process Methods 0.000 claims abstract description 7
- 230000014509 gene expression Effects 0.000 claims description 44
- 238000012549 training Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 17
- 230000007246 mechanism Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000003745 diagnosis Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000012544 monitoring process Methods 0.000 description 9
- 230000007774 longterm Effects 0.000 description 8
- 238000006731 degradation reaction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000008033 biological extinction Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Hardware Design (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Debugging And Monitoring (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种硬盘故障追踪方法和装置,所述方法包括:对于每次周期性获取的硬盘不同的自动检测分析及报告技术SMART属性值,根据当前获取的所述硬盘的SMART属性值生成属性集成;将所述属性集成输入到递归神经网络中,并根据所述递归神经网络输出的隐层状态,生成反映当前的隐层状态与所述硬盘的健康状态之间的差异的注意力分布向量;根据所述注意力分布向量中的权重值的大小,追踪所述硬盘的故障原因。应用本发明可以提供故障追踪诊断,有助于管理者追溯到具体的日子、找出故障的原因。
Description
技术领域
本发明涉及硬盘故障监控技术领域,特别是指一种硬盘故障追踪方法和装置。
背景技术
在大数据时代,配备大型存储系统的数据中心在存储和处理数据方面起着重要的作用。然而,复杂的系统引起了IT设备故障的严重问题,其中硬盘是最常见的故障组件。虽然单个硬盘故障可能是比较罕见的,但成千上万个硬盘垒叠在一起,放大了失效的概率,使得在数据中心存储系统中,故障事件成为普遍而不是例外。考虑到数据丢失和服务中断造成的巨大的经济损失,硬盘可靠性问题是数据中心管理员最关心的问题之一。
人们采取措施减轻或消除硬盘故障所带来的负面影响,如纠错码(ECC)和冗余磁盘阵列(RAID)。这两种技术可被归为被动容错方法。另外,主动故障预测是另一种提前预测故障的方法。除了一些突然出现的故障,比如电子元件的意外崩溃,大多数硬盘在最终损坏之前都经历了一个性能恶化的过程。因此,我们可以预测故障、评估硬盘剩余寿命。
目前大多数故障预测模型在预测结果以外几乎不能提供其他信息。然而很多时候数据中心管理员通常想知道故障的原因。然而,确定故障过程和失效原因是一项困难而耗时的工作。现有的故障预测方法不能提供故障追踪诊断。
发明内容
有鉴于此,本发明的目的在于提出一种硬盘故障追踪方法和装置,可以提供故障追踪诊断,有助于管理者追溯到具体的日子、找出故障的原因。
基于上述目的本发明提供一种硬盘故障追踪方法,包括:
对于每次周期性获取的硬盘不同的自动检测分析及报告技术SMART属性值,根据当前获取的所述硬盘的SMART属性值生成属性集成;
将所述属性集成输入到递归神经网络中,并根据所述递归神经网络输出的隐层状态,生成反映当前的隐层状态与所述硬盘的健康状态之间的差异的注意力分布向量;
根据所述注意力分布向量中的权重值的大小,追踪所述硬盘的故障原因。
其中,所述根据所述递归神经网络输出的隐层状态,生成反映当前的隐层状态与所述硬盘的健康状态之间的差异的注意力分布向量,具体包括:
根据所述递归神经网络输出的隐层状态ht,依据如下表达式六,生成注意力分布向量at:
其中,i是自然数,其在表达式六中的求和范围为[t-T+1,t];T为输入所述递归神经网络的序列的时间窗口的大小;ut是隐层状态ht通过tanh激活函数被转化为一个基于位置的表示,根据如下表达式七计算得到;是健康状态向量,预先在训练过程中进行学习得到;
ut=tanh(Waht+ba) (表达式七)
其中,所述递归神经网络具体为引入门控递归单元的递归神经网络;其中,所述递归神经网络中的门控递归单元包括门控单元和递归单元;其中,
一个门控递归单元中,门控单元用以控制递归单元的信息流,使该递归单元捕获长时间尺度的依赖。
本发明还提供一种硬盘故障追踪装置,包括:
特征整合模块,用于对于每次周期性地获取的硬盘不同的自动检测分析及报告技术SMART属性值,根据当前获取的所述硬盘的SMART属性值生成属性集成;
时间依赖提取模块,用于将所述属性集成输入到递归神经网络中,将所述递归神经网络的隐层状态作为输出;
注意力机制模块,用于根据所述递归神经网络的隐层状态,生成反映当前的隐层状态与所述硬盘的健康状态之间的差异的注意力分布向量;根据所述注意力分布向量中的权重值的大小,追踪所述硬盘的故障原因。
本发明的技术方案中,设计了一个注意力机制,为递归神经网络输出的隐层状态,生成注意力分布向量,用以反映当前的隐层状态与所述硬盘的健康状态之间的差异;通过分析注意力分布,其中较高的注意力权重意味着更重要的角色,从而可以深入了解过去哪几天对硬盘当前状态的影响最大;从而可以自动地揭示硬盘的退化进程,有助于追踪硬盘故障的原因。
进一步,本发明的技术方案,为了捕捉SMART数据中的长期时间依赖性,在现有的简单RNN的基础上引入了门控递归单元(GRU),避免了处理长时间序列时出现的梯度消失和爆炸问题。从而可以对硬盘驱动器的正常状态的偏差可以追溯到更早的时期,以利于提高故障检测率或故障预测能力。
附图说明
图1为本发明实施例提供的一种硬盘状态监控方法流程图;
图2为本发明实施例提供的一种门控递归单元的内部连接结构图;
图3为本发明实施例提供的一种硬盘状态监控装置内部结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
本发明的技术方案中设计了一个注意力机制,为递归神经网络输出的隐层状态,生成注意力分布向量,用以反映当前的隐层状态与所述硬盘的健康状态之间的差异;通过分析注意力分布,其中较高的注意力权重意味着更重要的角色,从而可以深入了解过去哪几天对硬盘当前状态的影响最大;从而可以自动地揭示硬盘的退化进程,有助于追踪硬盘故障的原因。
下面结合附图详细说明本发明实施例的技术方案。
本发明实施例提供的一种硬盘状态监控方法,可以周期性地进行硬盘故障状态监控、分析并进行故障追踪:周期性获取被监测硬盘的不同的SMART属性值,比如,每天获取被监测硬盘的不同的SMART属性值,进而,在每次获取所述硬盘的SMART属性值后进行如下操作,根据获取的SMART属性值监控所述硬盘是否将出现故障状态:
在一次获取被监测硬盘的不同的SMART属性值后进行硬盘状态监控的具体方法,流程如图1所示,包括如下步骤:
步骤S101:获取被监测硬盘不同的SMART属性值,并得到该硬盘当前的属性集成表示。
具体地,对于每次周期性获取的硬盘不同的自动检测分析及报告技术SMART属性值,根据当前获取的所述硬盘的SMART属性值,得到该硬盘的属性集成表示;比如,可以根据当前获取的被监测硬盘第t天的不同的SMART属性值,进而得到属性集成表示。
vt=ReLU(WVst+bv) (表达式一)
其中,表示SMART属性值的权重矩阵,是偏置向量。ReLU是定义为ReLU(x)=x+=max(0,x)的激活函数,其中,max是逐元素操作;WV和bv是预先在训练过程中进行学习得到的向量;表示维度为ds的实数向量;表示维度为dv的实数向量;ds为SMART属性值个数、dv为属性集成值个数,表示dv×ds的实数矩阵。
步骤S102:将上述得到的属性集成输入到递归神经网络中,将所述递归神经网络的隐层状态作为输出。
本步骤中,将上述得到的属性集成输入到递归神经网络,将所述递归神经网络的隐层状态作为输出。
更优地,为了捕捉SMART数据中的长期时间依赖性,本发明实施例对现有的递归神经网络引入门控递归单元。具体地,可以将上述得到的属性集成输入到引入门控递归单元的递归神经网络中,将该递归神经网络的隐层状态作为输出。
本发明实施例的引入门控递归单元的递归神经网络中,门控递归单元包括门控单元和递归单元;其中,一个门控递归单元中,门控单元用以控制递归单元的信息流,使该递归单元可以捕获长时间尺度的依赖;其中,一个门控单元包括重置门和更新门,用以允许该递归单元保持现有内容或在现有内容基础上更新内容。图2示出了门控递归单元的内部连接结构。
递归神经网络(RNN)维持一个递归的隐层状态,由当前输入和以前的隐层状态在每个时间步骤中更新得到,而引入门控递归单元的递归神经网络的输入vt与输出ht之间的关系可以通过以下四个表达式的递归算法实现:
rt=sigmoid(Wrvt+Urht-1) (表达式二)
zt=sigmoid(Wzvt+Uzht-1) (表达式三)
ht′=tanh(W vt+U(rt⊙ht-1)) (表达式四)
ht=zt⊙ht-1+(1-zt)⊙h′t (表达式五)
其中,⊙是逐元素乘法操作;参数Wr、Ur、Wz、Uz、W、U是预先在训练过程中进行学习得到的权重向量;Sigmoid函数可将任意实数值转换到[0,1]范围内;Tanh函数可将任意实数值转换到[-1,1]范围内。
rt表示重置门,h't表示备选状态,zt表示更新门,ht表示递归神经网络的当前隐层状态(递归神经网络第t天的隐层状态),即递归神经网络当前的输出;ht-1表示递归神经网络上一次时间步骤中得到的隐层状态(递归神经网络第t-1天的隐层状态);
当重置门rt接近于0时,备选状态h't可以忘记之前的隐层状态,并重置为当前的输入;更新门zt控制从上一次时间步骤的隐层状态ht-1和备选状态h't中流入的信息量。
引入门控递归单元的递归神经网络的输出中,具有所述硬盘的SMART数据的长期信息,根据获取的SMART数据的长期信息,可以对硬盘驱动器的正常状态的偏差可以追溯到更早的时期,以利于提早监控到所述硬盘是否将出现故障状态,从而提高故障检测率或故障预测能力。
步骤S103:根据从所述递归神经网络的输出中获取的信息,监控所述硬盘是否将出现故障状态,并追踪所述硬盘的故障原因。
本步骤中,在根据从所述递归神经网络的输出中获取的信息,监控所述硬盘是否将出现故障状态时,还可在获取所述递归神经网络输出的隐层状态所反映的所述硬盘的SMART数据的长期信息的基础上,设计一个注意力机制,该注意力机制能够自动聚焦于硬盘的退化过程。该注意力机制可以显示哪些信息对故障预测影响最大,提供故障追踪诊断。它有助于管理者追溯到具体的日子、找出故障的原因。
具体地,可以根据所述递归神经网络输出的隐层状态,生成注意力分布向量;其中,所述注意力分布向量作为当前的隐层状态的权重向量,反映了当前的隐层状态与所述硬盘的健康状态之间的差异;根据所述注意力分布向量中的权重值的大小,追踪所述硬盘的故障原因。
具体可以根据所述递归神经网络输出的隐层状态ht,依据如下表达式六,生成注意力分布向量at:
其中,i是自然数,其在表达式六中的求和范围为[t-T+1,t];T为输入所述递归神经网络的序列的时间窗口的大小。ut是隐层状态ht通过tanh激活函数被转化为一个基于位置的表示,根据如下表达式七计算得到;是健康状态向量,可以被视作健康硬盘的特征的高阶表示;可以预先在训练过程中进行学习得到。上式被用来比较健康状态向量与当前隐层状态之间的差异,并得到该差异的权重。
ut=tanh(Waht+ba) (表达式七)
借助于注意力机制,可以聚焦故障信息最丰富的部分,因此常常能做出更好的评估和预测。更重要的是,通过分析注意力分布,其中较高的注意力权重意味着更重要的角色,从而可以深入了解过去哪几天对硬盘当前状态的影响最大;它可以自动地揭示硬盘的退化进程,并帮助我们追踪硬盘故障的原因。
事实上,在执行步骤S101之前,即周期性获取被监测硬盘的不同的SMART属性值之前,可先进行训练过程。训练过程中包括使用健康硬盘和故障硬盘的SMART数据对所述递归神经网络进行训练,即训练得到上述的递归神经网络中的参数;训练过程也可包括学习其它参数:
具体地,在训练过程中,可以使用健康硬盘和故障硬盘的SMART数据进行计算和验证,确定递归神经网络中的参数Wr、Ur、Wz、Uz、W、U。当然,在训练过程中还可同时得到WV和bv,以及注意力机制中的参数Wa、ba。而训练方法可以采用本领域技术人员所熟知的梯度下降法等,此处不赘述。
基于上述方法,本发明实施例提供的一种硬盘状态监控装置,内部结构如图3所示,包括:特征整合模块301、时间依赖提取模块302、注意力机制模块303。
其中,特征整合模块301用于周期性获取被监测硬盘的不同的SMART属性值;对于每次周期性地获取的硬盘不同的自动检测分析及报告技术SMART属性值,根据当前获取的所述硬盘的SMART属性值生成属性集成;具体地,特征整合模块301周期性获取被监测硬盘的不同的SMART属性值;对于当前获取的所述硬盘的第T天的SMART属性值所组成的SMART向量可根据如下表达式一计算得到的属性集成。
时间依赖提取模块302用于将特征整合模块301得到的属性集成输入到递归神经网络中,将所述递归神经网络的隐层状态作为输出。更优地,时间依赖提取模块302将特征整合模块301得到的属性集成输入到引入门控递归单元的递归神经网络中,将所述递归神经网络的隐层状态作为输出;而递归神经网络的输入与输出之间的关系具体通过上述表达式二、三、四、五的递归算法实现。
注意力机制模块303用于根据从所述递归神经网络的输出中获取的信息,监控所述硬盘是否将出现故障状态,并进行故障追踪。具体地,注意力机制模块303根据所述递归神经网络输出的隐层状态,生成注意力分布向量;其中,所述注意力分布向量作为当前的隐层状态的权重向量,反映了当前的隐层状态与所述硬盘的健康状态之间的差异;根据所述注意力分布向量中的权重值的大小,追踪所述硬盘的故障原因,即通过监控所述权重向量中权重值的大小,确定所述硬盘是否将出现故障状态。注意力机制模块303可以根据上述表达式六、七计算得到注意力分布向量。
进一步,本发明实施例提供的一种硬盘状态监控装置还可包括:训练模块304。
训练模块304用于使用健康硬盘和故障硬盘的SMART数据对上述的递归神经网络进行训练,即使用健康硬盘和故障硬盘的SMART数据训练上述的递归神经网络,确定递归神经网络中的参数Wr、Ur、Wz、Uz、W、U。
本发明的技术方案中,设计了一个注意力机制,为递归神经网络输出的隐层状态,生成注意力分布向量,用以反映当前的隐层状态与所述硬盘的健康状态之间的差异;通过分析注意力分布,其中较高的注意力权重意味着更重要的角色,从而可以深入了解过去哪几天对硬盘当前状态的影响最大;从而可以自动地揭示硬盘的退化进程,有助于追踪硬盘故障的原因。
进一步,本发明的技术方案,为了捕捉SMART数据中的长期时间依赖性,在现有的简单RNN的基础上引入了门控递归单元(GRU),避免了处理长时间序列时出现的梯度消失和爆炸问题。从而可以对硬盘驱动器的正常状态的偏差可以追溯到更早的时期,以利于提高故障检测率或故障预测能力。本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随即存储器)、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种硬盘故障追踪方法,包括:
对于每次周期性获取的硬盘不同的自动检测分析及报告技术SMART属性值,根据当前获取的所述硬盘的SMART属性值生成属性集成;
将所述属性集成输入到递归神经网络中,并根据所述递归神经网络输出的隐层状态,生成反映当前的隐层状态与所述硬盘的健康状态之间的差异的注意力分布向量:根据所述递归神经网络输出的隐层状态ht,依据如下表达式六、七,生成注意力分布向量at;
根据所述注意力分布向量中的权重值的大小,追踪所述硬盘的故障原因;
其中,表达式六、七如下:
其中,i是自然数,其在表达式六中的求和范围为[t-T+1,t];T为输入所述递归神经网络的序列的时间窗口的大小;ut是隐层状态ht通过tanh激活函数被转化为一个基于位置的表示,根据如下表达式七计算得到;是健康状态向量,预先在训练过程中进行学习得到;
ut=tanh(Waht+ba) (表达式七)
2.根据权利要求1所述的方法,其特征在于,所述递归神经网络具体为引入门控递归单元的递归神经网络;其中,所述递归神经网络中的门控递归单元包括门控单元和递归单元;其中,
一个门控递归单元中,门控单元用以控制递归单元的信息流,使该递归单元捕获长时间尺度的依赖。
3.根据权利要求2所述的方法,其特征在于,所述门控单元包括重置门和更新门,用以允许该递归单元保持现有内容或在现有内容基础上更新内容;以及
所述递归神经网络的输入与输出之间的关系具体通过以下四个表达式的递归算法实现:
rt=sigmoid(Wrvt+Urht-1) (表达式二)
zt=sigmoid(Wzvt+Uzht-1) (表达式三)
ht′=tanh(Wvt+U(rt⊙ht-1)) (表达式四)
ht=zt⊙ht-1+(1-zt)⊙h′t (表达式五)
其中,⊙是逐元素乘法操作;rt表示重置门,h't表示备选状态,zt表示更新门,ht表示递归神经网络的当前隐层状态,即递归神经网络当前的输出;ht-1表示递归神经网络上一次时间步骤中得到的隐层状态;参数Wr、Ur、Wz、Uz、W、U是预先在训练过程中进行学习得到的。
5.一种硬盘故障追踪装置,包括:
特征整合模块,用于对于每次周期性地获取的硬盘不同的自动检测分析及报告技术SMART属性值,根据当前获取的所述硬盘的SMART属性值生成属性集成;
时间依赖提取模块,用于将所述属性集成输入到递归神经网络中,将所述递归神经网络的隐层状态作为输出;
注意力机制模块,用于根据所述递归神经网络的隐层状态,生成反映当前的隐层状态与所述硬盘的健康状态之间的差异的注意力分布向量:根据所述递归神经网络输出的隐层状态ht,依据如下表达式六、七,生成注意力分布向量at;根据所述注意力分布向量中的权重值的大小,追踪所述硬盘的故障原因;
其中,表达式六、七如下:
其中,i是自然数,其在表达式六中的求和范围为[t-T+1,t];T为输入所述递归神经网络的序列的时间窗口的大小;ut是隐层状态ht通过tanh激活函数被转化为一个基于位置的表示,根据如下表达式七计算得到;是健康状态向量,预先在训练过程中进行学习得到;
ut=tanh(Waht+ba) (表达式七)
6.根据权利要求5所述的装置,其特征在于,所述递归神经网络具体为引入门控递归单元的递归神经网络;其中,所述递归神经网络中的门控递归单元包括门控单元和递归单元;其中,
一个门控递归单元中,门控单元用以控制递归单元的信息流,使该递归单元捕获长时间尺度的依赖。
7.根据权利要求6所述的装置,其特征在于,所述门控单元包括重置门和更新门,用以允许该递归单元保持现有内容或在现有内容基础上更新内容;以及
所述递归神经网络的输入与输出之间的关系具体通过以下四个表达式的递归算法实现:
rt=sigmoid(Wrvt+Urht-1) (表达式二)
zt=sigmoid(Wzvt+Uzht-1) (表达式三)
ht′=tanh(Wvt+U(rr⊙ht-1)) (表达式四)
ht=zt⊙ht-1+(1-zt)⊙h′t (表达式五)
其中,⊙是逐元素乘法操作;rt表示重置门,h't表示备选状态,zt表示更新门,ht表示递归神经网络的当前隐层状态,即递归神经网络当前的输出;ht-1表示递归神经网络上一次时间步骤中得到的隐层状态;参数Wr、Ur、Wz、Uz、W、U是预先在训练过程中进行学习得到的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810212388.XA CN108415819B (zh) | 2018-03-15 | 2018-03-15 | 一种硬盘故障追踪方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810212388.XA CN108415819B (zh) | 2018-03-15 | 2018-03-15 | 一种硬盘故障追踪方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108415819A CN108415819A (zh) | 2018-08-17 |
CN108415819B true CN108415819B (zh) | 2021-05-25 |
Family
ID=63131578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810212388.XA Active CN108415819B (zh) | 2018-03-15 | 2018-03-15 | 一种硬盘故障追踪方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108415819B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109830254A (zh) * | 2018-12-17 | 2019-05-31 | 武汉忆数存储技术有限公司 | 一种闪存寿命预测方法、系统、存储介质 |
CN109817267B (zh) * | 2018-12-17 | 2021-02-26 | 武汉忆数存储技术有限公司 | 一种基于深度学习的闪存寿命预测方法、系统及计算机可读存取介质 |
CN111966569B (zh) * | 2019-05-20 | 2024-10-18 | 中国电信股份有限公司 | 硬盘健康度评估方法和装置、计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102129397A (zh) * | 2010-12-29 | 2011-07-20 | 深圳市永达电子股份有限公司 | 一种自适应磁盘阵列故障预测方法及系统 |
CN107239446A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络与注意力机制的情报关系提取方法 |
CN107562812A (zh) * | 2017-08-11 | 2018-01-09 | 北京大学 | 一种基于特定模态语义空间建模的跨模态相似性学习方法 |
CN107578124A (zh) * | 2017-08-28 | 2018-01-12 | 国网山东省电力公司电力科学研究院 | 基于多层改进gru神经网络的短期电力负荷预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4803212B2 (ja) * | 2008-05-28 | 2011-10-26 | ソニー株式会社 | データ処理装置、データ処理方法、及びプログラム |
-
2018
- 2018-03-15 CN CN201810212388.XA patent/CN108415819B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102129397A (zh) * | 2010-12-29 | 2011-07-20 | 深圳市永达电子股份有限公司 | 一种自适应磁盘阵列故障预测方法及系统 |
CN107239446A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络与注意力机制的情报关系提取方法 |
CN107562812A (zh) * | 2017-08-11 | 2018-01-09 | 北京大学 | 一种基于特定模态语义空间建模的跨模态相似性学习方法 |
CN107578124A (zh) * | 2017-08-28 | 2018-01-12 | 国网山东省电力公司电力科学研究院 | 基于多层改进gru神经网络的短期电力负荷预测方法 |
Non-Patent Citations (1)
Title |
---|
"面向磁盘故障预测的机器学习方法比较";董 勇,蒋艳凰,卢宇彤,周恩强;《计算机工程与科学》;20151231;第37卷(第12期);第2200-2207页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108415819A (zh) | 2018-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108415810B (zh) | 一种硬盘状态监控方法和装置 | |
CN111124840B (zh) | 业务运维中告警的预测方法、装置与电子设备 | |
Chen et al. | Outage prediction and diagnosis for cloud service systems | |
CN110413227B (zh) | 一种硬盘设备的剩余使用寿命在线预测方法和系统 | |
US11294754B2 (en) | System and method for contextual event sequence analysis | |
CN108052528A (zh) | 一种存储设备时序分类预警方法 | |
US20060149990A1 (en) | System and method for fault identification in an electronic system based on context-based alarm analysis | |
CN108415819B (zh) | 一种硬盘故障追踪方法和装置 | |
US20040010733A1 (en) | System and method for fault identification in an electronic system based on context-based alarm analysis | |
Su et al. | Detecting outlier machine instances through gaussian mixture variational autoencoder with one dimensional cnn | |
Chang et al. | OBDD-based evaluation of reliability and importance measures for multistate systems subject to imperfect fault coverage | |
CN112560269B (zh) | 基于Rhapsody状态机的高容错电子系统任务可靠性仿真分析方法 | |
CN109684320B (zh) | 监测数据在线清洗的方法和设备 | |
WO2024087404A1 (zh) | 核反应堆故障判定方法、装置、设备、存储介质和产品 | |
Levitin et al. | Reliability of non-coherent warm standby systems with reworking | |
CN116112283A (zh) | 一种基于cnn-lstm的电力系统网络安全态势预测方法及系统 | |
CN118484356A (zh) | 一种基于rpa的服务器状态监测方法及系统 | |
Yazdi et al. | SEFEE: Lightweight storage error forecasting in large-scale enterprise storage systems | |
CN116541222A (zh) | 一种硬盘状态数据生成方法、系统、设备及介质 | |
Yang et al. | Bayesian network based software reliability prediction by dynamic simulation | |
CN116149895A (zh) | 大数据集群性能预测方法、装置和计算机设备 | |
US20220050763A1 (en) | Detecting regime change in time series data to manage a technology platform | |
Chakraborty et al. | ESRO: Experience Assisted Service Reliability against Outages | |
CN114676021A (zh) | 作业日志监控方法、装置、计算机设备和存储介质 | |
CN114756401A (zh) | 基于日志的异常节点检测方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |