CN109800134A - 一种诊断数据中心储存设备的剩余寿命的方法和系统 - Google Patents

一种诊断数据中心储存设备的剩余寿命的方法和系统 Download PDF

Info

Publication number
CN109800134A
CN109800134A CN201711140711.9A CN201711140711A CN109800134A CN 109800134 A CN109800134 A CN 109800134A CN 201711140711 A CN201711140711 A CN 201711140711A CN 109800134 A CN109800134 A CN 109800134A
Authority
CN
China
Prior art keywords
storage facilities
remaining life
operational attribute
damage
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201711140711.9A
Other languages
English (en)
Inventor
陈文贤
谢文杰
洪崇轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xianzhi Yunduan Data Co Ltd
Original Assignee
Xianzhi Yunduan Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xianzhi Yunduan Data Co Ltd filed Critical Xianzhi Yunduan Data Co Ltd
Priority to CN201711140711.9A priority Critical patent/CN109800134A/zh
Publication of CN109800134A publication Critical patent/CN109800134A/zh
Withdrawn legal-status Critical Current

Links

Abstract

本案揭露一种诊断数据中心储存设备剩余寿命的方法与系统。方法包含:a)依序且周期性地收集一数据中心损坏储存设备的操作属性及至损坏时间纪录;b)将同时或落于连续时段内所收集到的操作属性进行分群,以便每一群具有相同数量的操作属性;c)依序地为各操作属性群标注时间卷标;d)通过通过机器学习/深入学习算法,以根据时间卷标顺序馈入操作属性群和和损坏时间纪录,由操作属性和损坏时间纪录产生储存设备的剩余寿命的一趋势模式;以及e)输入一目前运作的储存设备的一组操作属性至该趋势模式中以为该储存设备计算一剩余寿命。

Description

一种诊断数据中心储存设备的剩余寿命的方法和系统
技术领域
本发明关于一种诊断数据中心储存设备之剩余寿命的方法与系统,特别是关于一种通过建模收集到的储存设备操作属性而用于诊断在数据中心储存设备的剩余寿命的方法与系统。
背景技术
在数据中心里有成千上万个储存设备,例如硬盘、固态硬盘、磁盘,甚至是光盘,这些储存设备连接到远程设备且能够被存取以提供各种服务。储存设备是数据中心中最昂贵的组件。一方面,需要提供足够数量的储存设备来满足在数据中心的一部分服务器上运行的工作负载的要求;另一方面,由于长期使用,储存设备的寿命短于同样使用于个人计算机中的使用寿命。如何节省储存设备在采购和维护方面的费用是降低数据中心固定成本的关键因素。
很明显,如果有可用的数据中心的运作趋势,储存设备可以自动部署,以实现最经济的配置,实现最有效地使用储存设备,从而可以实现上述目标。然而,由于工作负载不可预测的要求,所有储存设备是被动地被使用,而不是依预先设定规划使用。因此,必须要准备更多备用储存设备,从而造成不可忽视的负担。在这种情况下,重要的是要掌握储存设备的寿命,若是可以更准确的学习和处理储存设备的剩余寿命,则造成的浪费越少,风险越小,从而可以提供更多的价值。
储存设备的实际寿命是当储存设备最终损坏时可以获得的客观数据,但没有人可以在未知的未来中准确地预测出确切时间点。幸运的是,存储设备的一些操作属性可以被追踪及记录。根据相关记录,通过在同一数据中心(工作环境)中比较其他储存设备,储存设备损坏可以通过一些方法大致预测,但结果并不总是准确的。现在,数据中心的管理者面临两难的境地:在实际损坏之前太早从数据中心移除由任何预测方法预测会很快将要损坏的储存设备,这会是一种浪费;反之,如果太晚,巨大的数据将会丢失,没有备份。这对数据中心来说是无法负担的。
因此,需要可靠方法来确定储存设备的终止天数。有许多的已知技术,比如美国专利第9,229,796号(system and method for determining disk failure indicator topredict future disk failures)、第9,542,296号(disk replacement using apredictive Statistical模型)、第9,612,896号(prediction of disk failure)、第 9,244,790号(system and method for predicting future disk failures),及美国专利申请案第20170206026号(predicting solid state drive reliability),揭露不同的方法。然而,其结果可能没有太多实际意义,因为该些方法不考虑环境的动态变化。一个事故就可能会减少或延长储存设备的使用寿命。因此,数据中心对储存设备的剩余寿命进行连续评估是有意义的,预期的和必要的。
发明内容
为了满足上述要求,本发明揭露了一种诊断数据中心储存设备之剩余寿命的方法,该方法包含步骤:a)依序且周期性地收集一数据中心的损坏储存设备的操作属性及该损坏储存设备的至损坏时间纪录;b)将同时或落于连续时段内所收集到的操作属性进行分群,以便每一群具有相同数量的操作属性;c)依序地为各操作属性群标注时间卷标;d)通过机器学习/深入学习算法,以及根据时间卷标顺序馈入所述操作属性群和损坏时间纪录,由所述操作属性和损坏时间纪录产生储存设备的剩余寿命的一趋势模式;以及e)输入一目前运作的储存设备的一组操作属性至该趋势模式中以为该储存设备计算一剩余寿命。
在其中一个实施例中,依照本发明,该至损坏时间纪录为记录时刻与故障时刻之间的时间间隔,以秒、小时以及天为单位。操作属性可以是,但不限于,自我监测分析及报告技术(Self-Monitoring,Analysis and Reporting Technology)属性、储存设备的每秒读写操作次数(Input/Output Operations Per Second,IOPS)、来自储存设备的吞吐量或用于储存设备的带宽。储存设备可以是,但不限于,硬盘、固态硬盘、磁盘或光盘。机器学习/深入学习算法可以是,但不限于,随机森林(Random Forest,RF)算法、支持向量机(SupportVector Machine,SVM)算法,或递归神经网络(Recurrent Neural Network,RNN)算法。
在其中一个实施例中,该方法进一步在步骤e)后包含一步骤:f)周期性地或当得到数据中心的一新损坏储存设备的操作属性与对应的至损坏时间纪录时,执行步骤a)到步骤d)。
在其中一个实施例中,该方法进一步在步骤e)后包含一步骤:f1)当计算的剩余寿命短于所有储存设备的一默认值时,发出警讯。
在其中一个实施例中,该方法进一步在步骤e)后包含一步骤:f2)当一计算的剩余寿命较先前计算的剩余寿命显著下降时,发出警讯,并找出不正常变异的操作属性。
在其中一个实施例中,该方法进一步于步骤f2)后包含一步骤:f3)提供关于异常原因的报告及建议以用于修复该储存设备。
本发明也揭露一种用于数据中心的储存设备的诊断剩余寿命系统。该诊断剩余寿命系统具有直接或间接与数据中心的储存设备连接的一执行服务器,用以依序且周期性地收集损坏储存设备的操作属性及损坏储存设备的至损坏时间纪录。该执行服务器包含:一操作属性数据库,用以储存收集的操作属性和损坏时间纪录;一数据执行模块,用以分群操作属性数据库中该些同时或落于连续时段内收集的操作属性以便每一群具有相同数量的操作属性,以及依序地为各操作属性群标注时间卷标;一机器学习/深入学习模块,通过机器学习/深入学习算法,以来自数据执行模块的根据时间卷标顺序馈入该些操作属性群和损坏时间纪录,由操作属性和损坏时间纪录产生储存设备的剩余寿命的一趋势模式;以及一剩余寿命计算模块,通过输入目前运作的储存设备的操作属性至一最近产生的趋势模式中并取得结果,用来对所有目前运作的储存设备计算剩余寿命。
在其中一个实施例中,损坏时间纪录为记录时刻与故障时刻之间的时间间隔,以秒、小时或天为单位。具体地,操作属性可以是,但不限于,自我监测分析及报告技术属性、储存设备的每秒读写操作次数、来自储存设备的吞吐量或用于储存设备的带宽。储存设备可以是,但不限于,硬盘、固态硬盘、磁盘,或光盘。机器学习/深入学习算法可以是,但不限于,随机森林算法、支持向量机算法,或递归神经网络算法。
在其中一个实施例中,操作属性数据库可进一步当获得数据中心的一新损坏储存设备的收集的操作属性与对应的至损坏时间纪录时,用以储存该些数据。该诊断剩余寿命系统可进一步包含一警讯模块,用以当计算的剩余寿命短于所有储存设备的一默认值时,发出警讯。该警讯模块可进一步当一计算的剩余寿命较先前计算的剩余寿命显著下降时,发出警讯,并找出不正常变异的操作属性。该诊断剩余寿命系统可进一步包含一报告模块,用以提供关于异常原因的报告及建议以用于修复该储存设备。
具体地,该操作属性数据库、该数据执行模块、该机器学习/深入学习模块、该剩余寿命计算模块、该警讯模块,或该报告模块可以是执行服务器中组装的硬件或安装的软件。
在其中一个实施例中,数据执行模块进一步判断是否来自数据中心的一新安装的储存设备的操作属性与其它的储存设备的操作属性相同、确认是否该机器学习/深入学习模块中有趋势模式可应用到该新安装的储存设备,及选择操作属性供该机器学习/深入学习模块为所有储存设备建立一新的趋势模式。
附图说明
图1为一个实施例提供的依照本发明的流程图,显示一种用于诊断数据中心的储存设备剩余寿命的方法步骤;
图2为一个实施例提供的表列损坏储存设备之收集的操作属性和损坏时间纪录;
图3为一个实施例提供的表列由1/1到1/25,损坏储存设备的操作属性和损坏时间纪录;
图4为一个实施例提供的显示分群结果;
图5为一个实施例提供的显示其它的分群结果;
图6为一个实施例提供的显示来自一趋势模式计算的储存设备剩余寿命的典型结果。
图7、图8为一个实施例提供的显示计算的剩余寿命及日期(上方),及随日期变化的操作属性(下方)的图表;
图9为一个实施例提供的依照本发明为实现上述用于数据中心储存设备的诊断剩余寿命系统的示意图;
图10为一个实施例提供的为操作数据执行模块的步骤的流程图。
具体实施方式
本发明将参照下列的实施方式而更具体地描述。
本发明揭露一种通过建模收集到的储存设备操作属性而用于诊断在数据中心储存设备之剩余寿命的方法与系统。请参阅图1,该图显示本方法步骤的流程图。该方法应用到的数据中心包括许多的储存设备,取决于数据中心的设计容量,可能成千上万个。该些储存设备可以是,但不限于,硬盘、固态硬盘、磁盘,或是光盘。通常来说,最多的储存设备是硬盘,第二多的储存设备是固态硬盘。某些数据中心可能仅使用硬盘来运作而其它某些数据中心可能有所有种类的储存设备。依照本发明,用于诊断剩余寿命的储存设备应为相同的硬件。也就是说,收集的硬盘数据仅用于硬盘,收集的固态硬盘数据仅用于固态硬盘。如果方法的应用目标属于两个或多个类型,则是无意义的。如果一数据中心具有的储存设备超过两种类型,需要为每一种独立地以该方法处理。为了全面了解本发明,下面的实施例中将仅使用“储存设备”来描述硬盘,固态硬盘,磁盘或光盘中的任何一个的行为。
本方法的第一步骤为依序且周期性地收集一数据中心的损坏储存设备的操作属性及该损坏储存设备的至损坏时间纪录(S01)。某些储存设备可能会损坏,不能每天或于一段时间内工作,那新的储存设备就需要取而代之。前述的操作属性可包含,但不限于自我监测分析及报告技术属性、储存设备的每秒读写操作次数、来自储存设备的吞吐量或用于储存设备的带宽。举例而言,如果该储存设备是一台硬盘或固态硬盘,则可以使用自我监测分析及报告技术属性、储存设备的每秒读写操作次数、来自储存设备的吞吐量或用于储存设备的带宽。当然,对磁盘或光盘来说,相关的操作属性也能分别应用上。要强调的是,操作属性的收集是依序且周期性地。比如,一组操作属性能于每小时收集一次,或每天收集两次等等。收集顺序应维持一定,后收集的资料不允许在早期收集的资料之前出现。一组操作属性包含所有针对一储存设备同时收集的操作属性。以自我监测分析及报告技术属性而言,储存设备管理领域的每个人都知道每一个自我监测分析及报告技术属性标有一个ID并命名一个属性名称,且描述一个硬盘或固态硬盘的物理原始值。举例而言,具有属性名称“读错误率”的ID 0x01 用于从磁盘表面读取数据时发生的硬件读取错误率的数据,具有属性名称“上电时间”的ID 0x09用于显示开机状态下的小时总计数等等。所有或某些自我监测分析及报告技术属性可被用于本方法。另一方面,每一组操作属性跟随着相同储存设备的至损坏时间纪录。前述至损坏时间纪录为记录时刻与故障时刻之间的时间间隔,以秒、小时,及/或天为单位。如果一台储存设备于 2017/09/01/13:00:00被判定为“损坏”,于2017/8/26/12:00:00获得的至损坏时间纪录可以为522,000秒、145小时,或6.042天。图2表列一数据中心的损坏储存设备之收集的操作属性和损坏时间纪录的例子。
本方法的第二步骤为将同时或落于连续时段内所收集到的操作属性进行分群,以便每一群具有相同数量的操作属性(S02)。为了说明这一步骤,请参阅图3,该图表列由1/1到1/25,数据中心的损坏储存设备的操作属性和损坏时间纪录的例子。在这例子中,作为简化案例,8个储存设备,S1到S8,使用于一数据中心。“O”意味有24组收集的操作属性(每小时一次),“X”意味当天有最后一组来自储存设备的操作属性出现在最上列,“-“意味没有收集到操作属性。由图3可以清楚看出储存设备S1、S3、S4、S5、S6,及S8于1/1到1/25 间皆正常工作。然而,储存设备S2在1/13损坏,储存设备S7在1/25损坏。因此,关于储存设备S2的288组操作属性及关于储存设备S7的576组操作属性分别地收集。与此同时,储存设备S2与S7的至损坏时间纪录可以在该些储存设备被判定损坏后计算得到。数据中心由1/1开始工作,所有储存设备也在1/1 上线。
其中1/13执行的分群结果显示于图4。在本例中,一组中有23个不同的操作属性。由储存设备S2收集的操作属性组数为6624个。分群操作属性是为了解决在后续步骤中发生的不平衡资料的问题。在图4中,有2个分群模型。模型1(M1)表列于第4列到第6列。连续3天中收集的各组操作属性各分为一群。如此一来,共有4群,各别标示时间标签01到04。每一组的时间间隔为3 天。一群中的操作属性可被视为“同时”获得且处于类似的操作环境下。因为所有群包含相同数量的操作属性,当分析进行时,每一群具有相同的权重,用于各群的算法也不会太复杂。模型2(M2)表列于第7列到第9列。连续2天中收集的各组操作属性各分为一群。如此一来,共有6群,各别标示时间标签 01到06。每一群的时间间隔变成2天。当然,如果一组中操作属性的数量很大,一组本身就可以被视为一群,无须进一步的合并。
其中,
1/25执行的分群结果显示于图5。在图5中,因为有两个储存设备的操作属性被收集,每一笔至损坏时间纪录可能对应到不同数量组的操作属性。举例而言,01到12(天)的至损坏时间纪录对应48组操作属性(由储存设备S2与S7 获得),13到24(天)的至损坏时间纪录对应24组操作属性(由储存设备S7 获得)。在本例中有2个分群模型。模型3(M3)表列于第4列到第6列。于连续4.5天、4.5天、6天,及9天中收集到的各组操作属性各自分为一群。因此,该4群各自被标示时间标签01到04。在这个例子中,每一群的时间间隔不尽相同。“4.5天”意味于连续的4天及之后的半天中收集的操作属性分为一群。时间间隔没有必要包括一个整天。如此一来,每一群可以拥有相同数量组,216组,的操作属性。相似地,于连续3天、3天、3天、3天、6天,及6收集的操作属性亦各自分为一群。该6群各自被标示时间标签01到06。在这个例子中,虽然所有群的时间间隔不尽相同,每一群仍然有144组操作属性。一群中操作属性的组的数量也可下降到48、24或更少,并不为本发明所局限。如果有更多的损坏储存设备,分组可以更弹性。
本发明的第三步骤为依序地为各操作属性群标注时间卷标(S03)。标注时间标签的方式参照图4与图5,已揭露于上方文字中,此处不予赘述。
本发明的第三步骤为通过机器学习/深入学习算法,根据时间卷标顺序馈入该些操作属性群和损坏时间纪录,由该些操作属性和损坏时间纪录产生储存设备的剩余寿命的一趋势模式(S04)。剩余寿命为来自趋势模式,为每一储存设备计算的时间,提供了一个基于来自数据中心的损坏储存设备的数据(操作属性和损坏时间纪录群)的寿命值。如上所述,趋势模式为一个或多个机器学习/ 深入学习算法所建立,许多的机器学习/深入学习算法可供应用,本发明对此不限定。
可选的,建议使用随机森林算法、支持向量机算法,或递归神经网络算法。由该趋势模式为一储存设备计算的剩余寿命的典型结果显示于图6,如图6所示每一天计算的剩余寿命值连成了一条折线,从左到右延伸,而真正的寿命值(来自至损坏时间纪录)是一条斜线,用于参考可行性。
具体地,输入一目前运作的储存设备的一组操作属性至该趋势模式中以为该储存设备计算一剩余寿命(S05)。图6是步骤S05的结果。每一天,可以将所有储存设备计算出的剩余寿命提供给数据中心的管理员作判断参考:应备份或更换哪一个储存设备,以免数据丢失。
在其中一个实施例中,在步骤S05后,可以有进一步的步骤:周期性地或当得到数据中心的一新损坏储存设备的操作属性与对应的至损坏时间纪录时,执行步骤S01到步骤S04(S06)。这意味趋势模式的更新(重建)可以是周期性的:可以是每天于12:00进行一次,也可以是每隔1、2、6或12小时进行一次。最重要的是,如果发现了新的损坏储存设备,所有来自该储存设备的操作属性与计算的至损坏时间纪录可以被用来及时重建该趋势模式。
可选的,步骤S05之后也可以有一步骤:当计算的剩余寿命短于所有储存设备的一默认值时,发出警讯(S07)。请复见图6。图表上的每条水平线指的是一个剩余寿命。如果剩余寿命25天设为该默认值,当水平线穿过折在线的点时,警讯将在5/10开始提醒管理员。当然,警告同步提供给所有遇到剩余寿命默认值的储存设备。
在其中一个实施例中,步骤S05之后最好包括一个步骤:当一计算的剩余寿命较先前计算的剩余寿命显著下降时,发出警讯,并找出不正常变异的操作属性(S08)。为了全面了解这一步骤,请见图7,该图显示计算的剩余寿命及日期(上方),及随日期变化的操作属性(下方)的图表。由于空间有限,省略了两个轴上的单位。明显地,每一图表所有的水平轴显示数据收集或计算的日期,而垂直轴显示各自的值。由图7,由一圆圈标注的计算的剩余寿命较先前计算的剩余寿命显著下降。如此发现操作属性0x04、0x0C,与0xC1异常升高。
可选地,在步骤S08之后,可以有进一步的步骤:提供关于异常原因的报告及建议以用于修复该储存设备(S09)。在此情况下,报告的原因与储存设备的异常关机有关。提出的建议可以是检查电源的稳定性。另一个例子显示于图8。由椭圆形包围的计算的剩余寿命较先前计算的剩余寿命显著下降,且没有恢复到预期的水平。此时察觉操作属性0xC5与0xC6异常升高。这是关于储存设备的坏轨,向管理员提出的报告将建议修理坏轨。
在另一个实施例中揭露于数据中心的储存设备实现上述方法的一种诊断剩余寿命系统。请参阅图9,其为该诊断剩余寿命系统的示意图。诊断剩余寿命系统具有一执行服务器10,该执行服务器10直接或间接,例如经由一主机30,连接数据中心里的储存设备20。执行服务器10用以依序且周期性地收集损坏储存设备的操作属性及损坏储存设备的至损坏时间纪录。该执行服务器10包含一操作属性数据库110、一数据执行模块120、一机器学习/深入学习模块130、一剩余寿命计算模块140、一警讯模块150,及一报告模块160。上述任何模块可以是执行服务器10中组装的硬件或安装的软件。每一模块的功能将于下方详细说明。
具体的操作属性数据库110储存收集的操作属性和损坏时间纪录,它能进一步于数据中心的一新损坏储存设备的收集的操作属性与对应的至损坏时间纪录时,储存该些数据。数据执行模块120运作来分群操作属性数据库110中该些同时或落于连续时段内收集的操作属性以便每一群具有相同数量的操作属性,它也能依序地为各操作属性群标注时间卷标。机器学习/深入学习模块130 是用来通过机器学习/深入学习算法,以来自数据执行模块120之根据时间卷标顺序馈入该些操作属性群和损坏时间纪录,由该些操作属性和损坏时间纪录产生储存设备20的剩余寿命的一趋势模式。剩余寿命计算模块140能通过输入目前运作的储存设备20的操作属性至一最近产生的趋势模式中并取得结果,用以对所有目前运作的储存设备20计算剩余寿命。警讯模块150用以当计算的剩余寿命短于所有储存设备20的一默认值时,发出警讯,它也能当一计算的剩余寿命较先前计算的剩余寿命显著下降时,发出警讯,并找出不正常变异的操作属性。报告模块160能提供关于异常原因的报告及建议以用于修复该储存设备20。
具体地,以上的实施例是基于所有储存设备包含相同的操作属性的情况。然而,实际上,并非所有采购的储存设备都能提供相同的操作属性,因此这些储存设备来自不同的制造商。在此情况下,数据执行模块120能进一步判断是否来自数据中心的一新安装的储存设备20的操作属性与其它的储存设备20的操作属性相同、确认是否该机器学习/深入学习模块130中有趋势模式可应用到该新安装的储存设备20,以及选择操作属性供该机器学习/深入学习模块130 为所有储存设备20建立一新的趋势模式。操作数据执行模块120步骤的流程图如图10所示。当数据执行模块120接收来自数据中心的新安装的储存设备20 的操作属性时,数据执行模块120判断是否来自数据中心的一新安装的储存设备20的操作属性与其它储存设备20的操作属性相同。如果答案为否,数据执行模块120选择操作属性供机器学习/深入学习模块130来为所有储存设备20 建立一个新的趋势模式。被选到的操作属性可能包含新发现的操作属性,被选到的操作属性的种类可能是经常用到的,而选择操作属性的方式取决于管理员的决定。如果答案为是,数据执行模块120进一步确认是否该机器学习/深入学习模块130中有趋势模式可应用到新安装的储存设备20。如果机器学习/深入学习模块130没有任何趋势模式可应用到新安装的储存设备20,数据执行模块120将选择操作属性供机器学习/深入学习模块130为所有储存设备20建立一新的趋势模式。现在我们拥有了储存设备20剩余寿命的趋势模式及其操作属性,剩余寿命计算模块140便能通过输入目前运作的储存设备20的输入操作属性到最近产生的趋势模式中,为所有目前运作的储存设备20计算剩余寿命。那么,警讯模块150可在事先为所有储存设备20设定计算的剩余寿命的默认值,用以发出警讯。最后,报告模块160提出提供报告,提醒管理员尽早为储存设备20准备。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
符号说明
10 执行服务器
20 储存设备
30 主机
110 操作属性数据库
120 数据执行模块
130 机器学习/深入学习模块
140 剩余寿命计算模块
150 警讯模块
160 报告模块

Claims (20)

1.一种诊断数据中心储存设备的剩余寿命的方法,其特征在于,所述方法包含步骤:
a)依序且周期性地收集一数据中心的损坏储存设备的操作属性以及该损坏储存设备的至损坏时间纪录;
b)将同时或落于连续时段内所收集到的操作属性进行分群,以便每一群具有相同数量的操作属性;
c)依序地为各操作属性群标注时间卷标;
d)通过机器学习/深入学习算法,以根据时间卷标顺序馈入该些操作属性群和损坏时间纪录,由该些操作属性和损坏时间纪录产生储存设备的剩余寿命的一趋势模式;及
e)输入一目前运作的储存设备的一组操作属性至该趋势模式中以为该储存设备计算一剩余寿命。
2.根据权利要求1所述的一种诊断数据中心储存设备的剩余寿命的方法,其特征在于,所述至损坏时间纪录为记录时刻与故障时刻之间的时间间隔以秒、小时或天为单位。
3.根据权利要求1所述的一种诊断数据中心储存设备的剩余寿命的方法,其特征在于,所述操作属性为自我监测分析及报告技术(Self-Monitoring,Analysis and ReportingTechnology)属性、储存设备的每秒读写操作次数(Input/Output Operations PerSecond,IOPS)、来自储存设备的吞吐量或用于储存设备的带宽。
4.根据权利要求1所述的一种诊断数据中心储存设备的剩余寿命的方法,其特征在于,所述储存设备为硬盘、固态硬盘、磁盘或光盘。
5.根据权利要求1所述的一种诊断数据中心储存设备的剩余寿命的方法,其特征在于,所述机器学习/深入学习算法为随机森林(Random Forest,RF)算法、支持向量机(SupportVector Machine,SVM)算法,或递归神经网络(Recurrent Neural Network,RNN)算法。
6.根据权利要求1所述的一种诊断数据中心储存设备的剩余寿命的方法,其特征在于,所述步骤e)后包含一步骤:f)周期性地或当得到数据中心的一新损坏储存设备的操作属性与对应的至损坏时间纪录时,执行步骤a)到步骤d)。
7.根据权利要求1所述的一种诊断数据中心储存设备的剩余寿命的方法,其特征在于,所述步骤e)后包含一步骤:f1)当计算的剩余寿命短于所有储存设备的一默认值时,发出警讯。
8.根据权利要求1所述的一种诊断数据中心储存设备的剩余寿命的方法,其特征在于,所述步骤e)后包含一步骤:f2)当一计算的剩余寿命较先前计算的剩余寿命显著下降时,发出警讯,并找出不正常变异的操作属性。
9.根据权利要求8所述的一种诊断数据中心储存设备的剩余寿命的方法,其特征在于,所述步骤f2)后包含一步骤:f3)提供关于异常原因的报告及建议以用于修复该储存设备。
10.一种用于数据中心的储存设备的诊断剩余寿命系统,具有直接或间接与数据中心的储存设备连接的一执行服务器,用以依序且周期性地收集损坏储存设备的操作属性及损坏储存设备的至损坏时间纪录,其特征在于该执行服务器包含:
一操作属性数据库,用以储存收集的操作属性和损坏时间纪录;
一数据执行模块,用以分群操作属性数据库中该些同时或落于连续时段内收集的操作属性以便每一群具有相同数量的操作属性,以及依序地为各操作属性群标注时间卷标;
一机器学习/深入学习模块,通过机器学习/深入学习算法,以来自数据执行模块之该根据时间卷标顺序馈入该些操作属性群和损坏时间纪录,由该些操作属性和损坏时间纪录产生储存设备的剩余寿命的一趋势模式;以及
一剩余寿命计算模块,通过输入目前运作的储存设备的操作属性至一最近产生的趋势模式中并取得结果,来对所有目前运作的储存设备计算剩余寿命。
11.根据权利要求10所述的一种用于数据中心的储存设备的诊断剩余寿命系统,其特征在于,所述至损坏时间纪录为记录时刻与故障时刻之间的时间间隔,以秒、小时,以及天为单位。
12.根据权利要求10所述的一种诊断数据中心储存设备的剩余寿命的系统,其特征在于,所述操作属性包括自我监测分析及报告技术属性、储存设备的每秒读写操作次数、来自储存设备的吞吐量或用于储存设备的带宽。
13.根据权利要求10所述的一种诊断数据中心储存设备的剩余寿命的系统,其特征在于,所述储存设备为硬盘、固态硬盘、磁盘或光盘。
14.根据权利要求10所述的一种诊断数据中心储存设备的剩余寿命的系统,其特征在于,所述机器学习/深入学习算法为随机森林算法、支持向量机算法,或递归神经网络算法。
15.根据权利要求10所述的一种诊断数据中心储存设备的剩余寿命的系统,其特征在于,所述操作属性数据库进一步当获得数据中心的一新损坏储存设备的收集的操作属性与对应的至损坏时间纪录时,用以储存该些数据。
16.根据权利要求10所述的一种诊断数据中心储存设备的剩余寿命的系统,其特征在于,所述系统进一步包含一警讯模块,用以当计算的剩余寿命短于所有储存设备的一默认值时,发出警讯。
17.根据权利要求16所述的一种诊断数据中心储存设备的剩余寿命的系统,其特征在于,所述警讯模块当一计算的剩余寿命较先前计算的剩余寿命显著下降时,发出警讯,并找出不正常变异的操作属性。
18.根据权利要求17所述的一种诊断数据中心储存设备的剩余寿命的系统,其特征在于,所述警讯模块内进一步包含一报告模块,用以提供关于异常原因的报告及建议以用于修复该储存设备。
19.根据权利要求10所述的一种诊断数据中心储存设备的剩余寿命的系统,其特征在于,所述操作属性数据库、所述数据执行模块、所述机器学习/深入学习模块、所述剩余寿命计算模块、所述警讯模块和所述报告模块是执行服务器中组装的硬件或安装的软件。
20.根据权利要求10所述的一种诊断数据中心储存设备的剩余寿命的系统,其特征在于,所述数据执行模块进一步判断是否来自数据中心的一新安装的储存设备的操作属性与其它的储存设备的操作属性相同、确认是否该机器学习/深入学习模块中有趋势模式可应用到该新安装的储存设备,及选择操作属性供该机器学习/深入学习模块为所有储存设备建立一新的趋势模式。
CN201711140711.9A 2017-11-16 2017-11-16 一种诊断数据中心储存设备的剩余寿命的方法和系统 Withdrawn CN109800134A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711140711.9A CN109800134A (zh) 2017-11-16 2017-11-16 一种诊断数据中心储存设备的剩余寿命的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711140711.9A CN109800134A (zh) 2017-11-16 2017-11-16 一种诊断数据中心储存设备的剩余寿命的方法和系统

Publications (1)

Publication Number Publication Date
CN109800134A true CN109800134A (zh) 2019-05-24

Family

ID=66555790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711140711.9A Withdrawn CN109800134A (zh) 2017-11-16 2017-11-16 一种诊断数据中心储存设备的剩余寿命的方法和系统

Country Status (1)

Country Link
CN (1) CN109800134A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413227A (zh) * 2019-06-22 2019-11-05 华中科技大学 一种硬盘设备的剩余使用寿命在线预测方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140146648A1 (en) * 2011-09-30 2014-05-29 Oracle International Corporation Storage tape analytics user interface providing library health analysis and monitoring alerts
CN105224434A (zh) * 2014-06-27 2016-01-06 英特尔公司 使用机器学习识别软件阶段
US20160232450A1 (en) * 2015-02-05 2016-08-11 Wistron Corporation Storage device lifetime monitoring system and storage device lifetime monitoring method thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140146648A1 (en) * 2011-09-30 2014-05-29 Oracle International Corporation Storage tape analytics user interface providing library health analysis and monitoring alerts
CN105224434A (zh) * 2014-06-27 2016-01-06 英特尔公司 使用机器学习识别软件阶段
US20160232450A1 (en) * 2015-02-05 2016-08-11 Wistron Corporation Storage device lifetime monitoring system and storage device lifetime monitoring method thereof
CN105988910A (zh) * 2015-02-05 2016-10-05 纬创资通股份有限公司 存储装置寿命监控系统以及其存储装置寿命监控方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413227A (zh) * 2019-06-22 2019-11-05 华中科技大学 一种硬盘设备的剩余使用寿命在线预测方法和系统
CN110413227B (zh) * 2019-06-22 2021-06-11 华中科技大学 一种硬盘设备的剩余使用寿命在线预测方法和系统

Similar Documents

Publication Publication Date Title
TWI647564B (zh) 用於診斷資料中心儲存設備之剩餘壽命的方法與系統
CN104272266B (zh) 对具有多个监视对象器件的计算机系统进行管理的管理系统
CN102509178B (zh) 配网设备状态评估系统
CN100541485C (zh) 维护支持方法与维护支持设备
CN110413227B (zh) 一种硬盘设备的剩余使用寿命在线预测方法和系统
KR101044744B1 (ko) 신뢰도 기반 배전기자재 유지보수 시스템과 방법
CN101632093A (zh) 用于使用统计学分析来管理性能故障的系统和方法
JP2019185422A (ja) 故障予知方法、故障予知装置および故障予知プログラム
WO1999045468A1 (en) System and method for optimizing performance monitoring of complex information technology systems
KR102432284B1 (ko) It관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템 및 그 운용방법
CN104461824A (zh) 一种磁盘健康信息优化管理方法和装置
CN111563022A (zh) 一种集中式存储器监控方法和装置
CN109032891A (zh) 一种云计算服务器硬盘故障预测方法及装置
CN117235524A (zh) 自动估值模型的学习训练平台
CN108021484A (zh) 云端服务系统中磁盘预期寿命值的延长方法及其系统
CN109800134A (zh) 一种诊断数据中心储存设备的剩余寿命的方法和系统
CN111061581B (zh) 一种故障检测方法、装置及设备
US20060168479A1 (en) Real time event logging and analysis in a software system
CN116149895A (zh) 大数据集群性能预测方法、装置和计算机设备
Beduschi et al. Optimizing rotating equipment maintenance through machine learning algorithm
CN115640158A (zh) 一种基于数据库的检测分析方法及装置
CN108764715A (zh) 设备操作技能评估系统及方法
JP6666489B1 (ja) 障害予兆検知システム
Pundir et al. Machine learning based predictive maintenance model
JP2021028751A (ja) 故障予兆診断システムおよび方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40009917

Country of ref document: HK

WW01 Invention patent application withdrawn after publication

Application publication date: 20190524

WW01 Invention patent application withdrawn after publication