CN103116531A - 存储系统故障预测方法和装置 - Google Patents

存储系统故障预测方法和装置 Download PDF

Info

Publication number
CN103116531A
CN103116531A CN2013100305556A CN201310030555A CN103116531A CN 103116531 A CN103116531 A CN 103116531A CN 2013100305556 A CN2013100305556 A CN 2013100305556A CN 201310030555 A CN201310030555 A CN 201310030555A CN 103116531 A CN103116531 A CN 103116531A
Authority
CN
China
Prior art keywords
fault
value
sub
storage system
fault type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013100305556A
Other languages
English (en)
Inventor
王佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN2013100305556A priority Critical patent/CN103116531A/zh
Publication of CN103116531A publication Critical patent/CN103116531A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种存储系统故障预测方法和装置。涉及计算机应用领域;解决了现有处理方式无法满足高可用性要求高的存储系统的问题。该方法包括:收集系统内不同故障类型的故障信息;对各个故障类型的故障信息分别进行预处理,获取各故障类型下的子故障类型和各子故障类型对应的故障发生的时间序列;预测所述子故障类型对应的故障的下一次发生时间。本发明提供的技术方案适用于高可用存储系统,实现了高准确性的故障预测。

Description

存储系统故障预测方法和装置
技术领域
本发明涉及计算机应用领域,尤其涉及一种存储系统故障预测方法和装置。
背景技术
随着互联网和电子商务的快速发展,网络数据信息呈现爆炸性增长趋势,存储网络技术越来越被企业所接受,并在企业的商业活动中充当非常重要的角色。构建高可用性的存储网络是至关重要的,若存储网络系统发生故障,如服务器故障或各种设备故障,造成系统服务中断将会造成客户的流失和企业收入的损失。研究表明,在网络存储系统中,若系统发生1小时的停机,企业将损失15万美元到645万美元之间。为了保证企业达到24小时*365天的应用需求,必须构建高可用存储系统。
实现高可用存储系统的关键技术之一是故障的失效检测。通过失效检测技术,可以及时发现系统的故障设备、节点或应用程序,然后通过资源切换、状态恢复或重启,来保证系统服务的连续性。
高可用存储系统中的故障发展呈现出以下特点:
1、具有突发性,并可在短时间内产生大量数据丢失,造成业务中断。例如:银行系统掉电故障;
2、具有滞后性,使得存储系统不会及时发现故障,故障不断注入,造成系统业务运行不顺畅,甚至中断时间较长。例如:网线被拔出;
3、故障对节点上运行的其他程序影响范围越来越大,例如:CPU的不断升高,内存的不断降低,必然成为其他程序正常运行的瓶颈;
4、具有多样性,使得存储系统对故障检测识别度降低,易有遗漏。
系统故障的突发性和滞后性使其成为高可用存储系统的杀手锏,如何有效地检测及预测故障,提供一种灵活的故障预测机制成为衡量存储系统高可用性好坏的标准。目前,高可用存储系统中,对于节点自身故障的处理是通过系统中其他节点来判断,其他节点如果在超时时间仍收不到该节点的心跳,则认为该节点出现故障,以进行故障处理和资源切换。而这种方式属于故障发现故障再处理,即对于已出现的故障进行分析,并不能对故障的发展趋势进行预测,会使得业务中断时间延时,无法满足高可用性要求高的存储系统。
发明内容
本发明提供了一种存储系统故障预测方法和装置,解决了现有处理方式无法满足高可用性要求高的存储系统的问题。
一种系统故障预测方法,包括:
收集系统内不同故障类型的故障信息;
对各个故障类型的故障信息分别进行预处理,获取各故障类型下的子故障类型和各子故障类型对应的故障发生的时间序列;
预测所述子故障类型对应的故障的下一次发生时间。
优选的,所述故障类型包括处理器(CPU)故障、内存故障、文件访问故障、网卡流量故障和主机硬件故障。
优选的,对各个故障类型的故障信息分别进行预处理,获取各故障类型下的子故障类型和各子故障类型对应的故障发生的时间序列包括:
获取各故障类型的聚类信息,所述聚类信息包括相关系数、最大值、最小值、中间值、平均值、出现频率最高的值和标准差;
分别对各故障类型的聚类特征使用K-MEANS聚类算法进行聚类,将每个故障类型细化成多个具有相似聚类特征的子故障类型;
获取各子故障类型中故障发生的时间序列。
优选的,所述预测所述子故障类型对应的故障的下一次发生时间具体为:
构建ARIMA模型;
检测所述ARIMA模型的有效性;
在所述ARIMA模型有效时,使用子故障类型中故障发生的时间序列作为输入,预测下一次所述子故障类型对应的故障发生的时间。
优选的,所述使用子故障类型中故障发生的时间序列作为输入,预测下一次所述子故障类型对应的故障发生的时间包括:
从所述时间序列中提取当前时刻的前p个数据点代入所述ARIMA模型,预测出下q个时刻的故障值及其置信区间,其中p>q>0。
优选的,所述检测所述ARIMA模型的有效性的步骤之后,还包括:
在所述ARIMA模型无效时,重新估计该ARIMA模型的参数。
优选的,所述预测所述子故障类型对应的故障的下一次发生时间的步骤之后,还包括:
验证当前时刻的实际故障值是否偏离所述置信区间;
在所述当前的实际故障值偏离所述置信区间时,判定故障异常,通过邮件日志、系统日志、短信通知进行故障报警,并进行故障数据处理。
优选的,所述预测所述子故障类型对应的故障的下一次发生时间的步骤之后,还包括:
验证当前时刻的实际故障值是否偏离所述置信区间;
在所述当前的实际故障值位于所述置信区间时,判断当前时间的实际故障值与前一时刻的实际故障值之差的绝对值是否大于模型临界值;
在所述绝对值大于所述模型临界值时,启动所述ARIMA模式的再学习,修改所述ARIMA模型的模型参数。
优选的,所述判断当前时间的实际故障值与前一时刻的实际故障值之差的绝对值是否大于模型临界值的步骤之后,还包括:
在所述绝对值不大于所述模型临界值时,时刻比较变量进行加1操作,并判断其值是否等于p;
在所述时刻比较变量的值超过p时,将所述时刻比较变量恢复为初始值。
本发明还提供了一种存储系统故障预测装置,包括:
数据收集模块,用于收集系统内不同故障类型的故障信息;
数据聚类模块,用于对各个故障类型的故障信息分别进行预处理,获取各故障类型下的子故障类型和各子故障类型对应的故障发生的时间序列;
数据预测模块,用于预测所述子故障类型对应的故障的下一次发生时间。
本发明提供了一种存储系统故障预测方法和装置,收集系统内不同故障类型的故障信息,对各个故障类型的故障信息分别进行预处理,获取各故障类型下的子故障类型和各子故障类型对应的故障发生的时间序列,预测所述子故障类型对应的故障的下一次发生时间,避免了故障发现时故障再处理的滞后性,通过故障预测,有效预防故障对存储网络及网络节点上运行的其他程序带来的影响,解决了现有处理方式无法满足高可用性要求高的存储系统的问题。
附图说明
图1是本发明的实施例一提供的一种存储系统故障预测装置的结构示意图;
图2是本发明的实施例二提供的一种存储系统故障预测方法中建立ARIMA模型前的数据收集和聚类流程示意图;
图3是本发明的实施例二提供的一种存储系统故障预测方法中预测子故障类型对应的故障的下一次发生时间的流程示意图。
具体实施方式
系统故障的突发性和滞后性使其成为高可用存储系统的杀手锏,如何有效地检测及预测故障,提供一种灵活的故障预测机制成为衡量存储系统高可用性好坏的标准。目前,高可用存储系统中,对于节点自身故障的处理是通过系统中其他节点来判断,其他节点如果在超时时间仍收不到该节点的心跳,则认为该节点出现故障,以进行故障处理和资源切换。而这种方式属于故障发现故障再处理,即对于已出现的故障进行分析,并不能对故障的发展趋势进行预测,会使得业务中断时间延时,无法满足高可用性要求高的存储系统。
为了解决上述问题,本发明的实施例提供了一种存储系统故障预测方法和装置,基于ARIMA模型的自学习,一方面可以根据不同类型故障的历史数据对故障进行预测,当实时故障数据超过预测故障的置信区间时,进行报警;一方面对ARIMA模型进行了改进,通过数据本身的特点进行实时的模型修正,使得模型吻合当前的数据特性。ARIMA模型的基本思想是:将预测对象随时间推移而形成的数据序列视为一个随机序列,用一定的数学模型来近似描述这个序列。这个模型一旦被识别后就可以从时间序列的过去值及现在值来预测未来值。(参见George E.P.Box,Gwilym M.Jenkins.Time SeriesForecasting and Control[M].Prentice Hall.1976.)
ARIMA(p,d,q)过程可以分为两部分:AR(p)过程和MA(q)过程。(参见中国人民银行调查统计司.时间序列X-12-ARIMA季节调整[M]:原理与方法.中国金融出版社.2006.以及冯文权.经济预测与决策技术[M].武汉大学出版社.2002.)AR称为自回归模型,MA称为移动平均模型。
其中,AR(p)过程表示的是预测值受到的观察值序列的影响,MA(q)过程表示的是预测值受到的随机干扰的影响,p和q是ARIMA模型的第一和第二参数。由于许多随机过程并不能纯粹用这两个过程表示,且随机序列也不一定是平稳的。因此在这两个过程计算之前做了d次差分,使序列变成一个平稳的随机序列。
下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
首先结合附图,对本发明的实施例一进行说明。
本发明实施例提供了一种存储系统故障预测装置,该装置的结构如图1所示,包括:
数据收集模块101,用于收集系统内不同故障类型的故障信息;
数据聚类模块102,用于对各个故障类型的故障信息分别进行预处理,获取各故障类型下的子故障类型和各子故障类型对应的故障发生的时间序列;
数据预测模块103,用于预测所述子故障类型对应的故障的下一次发生时间。
优选的,该装置还包括:
数据处理模块104,用于根据预测的故障发生时间,选择存储系统中最优机下达失效切换指令进行业务资源切换,从而保障存储系统的高可用。
数据收集模块101收集高可用存储系统主机的故障信息,涉及不同的资源耗费信息,包括CPU、内存、进程访问控制信息、网卡流量和主机硬件属性信息等。
数据聚类模块102,用于按类统计高可用存储系统中故障信息。
数据预测模块103,对于每一种故障类型采用ARIMA模型建立预测因子,预测故障发生时间。根据所采集的故障信息,对每种故障类型的数据量进行预处理,获取每种故障的聚类特征。其中,聚类特征包括:相关系数、最大值、最小值、中间值、平均值、出现频率最高的值和标准差。根据每种故障的聚类特征,采用K-MEANS聚类算法依次对每个故障类型进行聚类,并将每个故障类型细化成多个具有相似聚类特征(例如,根据CPU、内存、进程访问控制信息、网卡流量和主机硬件属性信息等,对每一种故障类型根据聚类特征进行聚类,以提高故障预测的准确度)的子故障类型,同时获得为进行数据预测所需的各子故障类型对应故障发生的时间序列。数据预测模块103的工作流程如下:
步骤1:通过历史数据学习,估计ARIMA模型的第一参数和第二参数,并检验该ARIMA模型的有效性,从而获得初始的差分自回归移动平均ARIMA模型;
步骤2:将某一子故障类型时间序列的当前时刻的前p个数据点代入上述ARIMA模型中进行计算,预测出下q个时刻的故障数据及其置信区间,其中p>q>0;
步骤3:判断实际的故障值(如CPU使用百分比、内存容量等)是否位于所属类型模型预测的置信区间内,如果不在所述置信区间内,则执行步骤4;如果位于置信区间内,则执行步骤5;
步骤4:通过邮件日志、系统日志、短信通知进行故障报警,以提醒用户对故障进行处理;当故障报警后,系统将选择最优机进行资源业务切换;
步骤5:将当前时刻的实际值与前一时刻实际的故障值作差,若所得差的绝对值大于模型临界值,则启动该类别故障ARIMA模型进行再学习,以修改该模型参数;若所得差的绝对值小于等于模型临界值,则时刻比较变量(用来记录已经进行了多少次的当前时刻与前一时刻故障差的计算)自动加1,当时刻比较变量值等于p时,需要对该模型修正参数进行再学习。
数据处理模块104,根据所预测的故障发生时间,选择最优机(指集群中没有故障的优先级最高的机器,将组资源切换到这个最优机上,从而保证资源的高可用)下达失效切换指令,如果有异常故障数据,则进行故障报警。
至此,已经完整实现了基于ARIMA模型的智能化高可用的存储系统故障预测装置,该装置与传统的故障发现故障再分析处理方式相比,可以实时预测故障发展趋势,避免了业务因故障检测不当带来的中断。同时,对故障进行聚类分析,获取故障数据本身的特性,并在故障检测正常运行中,可以进行自学习,修改模型参数,取得更精确预测效果。
因此,采用该存储系统故障预测装置,使其应用在高可用存储系统中,能够使故障检测更加灵活,并根据故障数据统计信息,选择最优机下达失效切换指令,达到真正的高可用。
下面结合附图,对本发明的实施例二进行说明。
本发明实施例提供了一种存储系统故障预测方法,与图1所示的存储系统故障预测装置相结合,能够实现对存储系统故障的预测。
首先,对建立ARIMA模型前的数据收集和聚类流程进行说明,如图2所示,包括:
步骤201、收集系统内不同故障类型的故障信息;
数据预测模型建立前,如何对大量具有多样性的故障信息进行收集和聚类是非常重要的,需要通过聚类建立每种故障类型的时间序列,以进行精确预测。首先,需要根据先验知识将可预测故障分为五种类型:CPU、内存、进程访问控制信息、网卡流量和主机硬件属性信息,对于像硬关机、掉电故障存在突发性和偶然性,不属于可预测故障。
步骤202、对各个故障类型的故障信息分别进行预处理,获取各故障类型下的子故障类型和各子故障类型对应的故障发生的时间序列;
本步骤中,对每种故障类型,按照聚类特征采用K-MEANS聚类算法依次对每个类型的故障进行聚类,并将每个故障类型细化成多个具有相似聚类特征的子故障类型,同时获得为进行数据预测所需的时间序列。
步骤203、预测所述子故障类型对应的故障的下一次发生时间;
在完成聚类和获取时间序列后,就可以根据每种子故障类别的历史数据(即时间序列),建立相应的ARIMA模型进行故障预测,ARIMA模型的基本思想是:将预测对象随时间推移而形成的数据序列视为一个随机序列,用一个数学模型来近似描述这个序列。这个模型一旦被识别后,就可以从时间序列的过去值及现在值来预测未来值。
利用ARIMA模型预测子故障类型对应的故障的下一次发生时间的流程具体如图3所示,包括:
步骤301、构建ARIMA模型;
本步骤中,通过数据聚类模块获取的故障历史数据的学习,估计初始ARIMA模型的参数,检验是否具有统计意义。
步骤302、检测所述ARIMA模型的有效性;
本步骤中,对ARIMA模型的有效性进行检验。如果无效,则重新估计该ARIMA模型的参数,执行步骤301;如果有效,执行步骤303。
步骤303、从所述时间序列中提取当前时刻的前p个数据点代入所述ARIMA模型;
其中p>0。
步骤304、预测出下q个时刻的故障值及其置信区间;
其中q>0且p>q>0。
步骤305、判断当前时刻的实际故障值是否位于预测所述的置信区间内;
本步骤中,如果不在置信区间内,则认为故障异常,通过邮件日志、系统日志、短信通知进行故障报警,并进行故障数据处理。如果位于置信区间内,则执行步骤306。
步骤306、判断当前时刻的实际故障值与前一时刻的实际故障值之差的绝对值是否大于模型临界值;
若超过,则执行步骤307;否则,执行步骤308。
模型临界值是指:对历史故障值做差分,得到一个满足均值为0的正态分布的差分序列,计算纵轴为0.90以上的置信区间[-a,+a],a即为临界值。
步骤307、启动再学习,修改ARIMA模型参数,以进行精确预测。
步骤308、时刻比较变量进行加1操作,并判断其值是否等于p;
若超过,则将其恢复成初始值,执行步骤307;否则,进入下一时刻实际故障值的判断。
本发明提供了一种存储系统故障预测方法和装置,收集系统内不同故障类型的故障信息,对各个故障类型的故障信息分别进行预处理,获取各故障类型下的子故障类型和各子故障类型对应的故障发生的时间序列,预测所述子故障类型对应的故障的下一次发生时间,避免了故障发现时故障再处理的滞后性,通过故障预测,有效预防故障对存储网络及网络节点上运行的其他程序带来的影响,解决了现有处理方式无法满足高可用性要求高的存储系统的问题。本发明的实施例提供了基于时间序列ARIMA模型的故障检测技术,通常用于高可用存储系统,旨在最优化地发现节点故障,将资源切换到最优机,防止因节点中断(宕机,掉电,死机等)对业务造成的影响,最大化保证存储网络的高可用性和高可靠性。采用该技术一方面避免了故障发现时故障再处理的滞后性,一方面通过故障预测,有效预防故障对存储网络及网络节点上运行的其他程序带来的影响。
基于ARIMA模型的智能化高可用存储系统故障检测装置对系统故障进行聚类,根据不同类型的故障以及故障本身具有的特性进行预测,从而做到定制性检测需求;其次,本发明提供的技术方案可以对故障的发展趋势进行预测,相比当前对已出现的故障进行分析再处理的方式,减少甚至避免了业务中断时间;然后,在ARIMA模型正常运作时,实时判别ARIMA模型的参数是否仍适用于当前的实际值,若发现不再适用时,自动进行再学习,通过再学习获得新的模型参数,以此提高模型预测的准确性。
因此将本发明的实施例提供的存储系统故障预测方法和装置应用于高可用存储系统中,能够对系统的故障设备、节点或应用程序进行提前感知和及时发现,减少业务中断时间,进一步提高系统的高可用性。
本领域普通技术人员可以理解上述实施例的全部或部分步骤可以使用计算机程序流程来实现,所述计算机程序可以存储于一计算机可读存储介质中,所述计算机程序在相应的硬件平台上(如系统、设备、装置、器件等)执行,在执行时,包括方法实施例的步骤之一或其组合。
可选地,上述实施例的全部或部分步骤也可以使用集成电路来实现,这些步骤可以被分别制作成一个个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
上述实施例中的各装置/功能模块/功能单元可以采用通用的计算装置来实现,它们可以集中在单个的计算装置上,也可以分布在多个计算装置所组成的网络上。
上述实施例中的各装置/功能模块/功能单元以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。上述提到的计算机可读取存储介质可以是只读存储器,磁盘或光盘等。
任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求所述的保护范围为准。

Claims (10)

1.一种存储系统故障预测方法,其特征在于,包括:
收集系统内不同故障类型的故障信息;
对各个故障类型的故障信息分别进行预处理,获取各故障类型下的子故障类型和各子故障类型对应的故障发生的时间序列;
预测所述子故障类型对应的故障的下一次发生时间。
2.根据权利要求1所述的存储系统故障预测方法,其特征在于,所述故障类型包括处理器(CPU)故障、内存故障、文件访问故障、网卡流量故障和主机硬件故障。
3.根据权利要求1所述的存储系统故障预测方法,其特征在于,对各个故障类型的故障信息分别进行预处理,获取各故障类型下的子故障类型和各子故障类型对应的故障发生的时间序列包括:
获取各故障类型的聚类信息,所述聚类信息包括相关系数、最大值、最小值、中间值、平均值、出现频率最高的值和标准差;
分别对各故障类型的聚类特征使用K-MEANS聚类算法进行聚类,将每个故障类型细化成多个具有相似聚类特征的子故障类型;
获取各子故障类型中故障发生的时间序列。
4.根据权利要求3所述的存储系统故障预测方法,其特征在于,所述预测所述子故障类型对应的故障的下一次发生时间具体为:
构建ARIMA模型;
检测所述ARIMA模型的有效性;
在所述ARIMA模型有效时,使用子故障类型中故障发生的时间序列作为输入,预测下一次所述子故障类型对应的故障发生的时间。
5.根据权利要求4所述的存储系统故障预测方法,其特征在于,所述使用子故障类型中故障发生的时间序列作为输入,预测下一次所述子故障类型对应的故障发生的时间包括:
从所述时间序列中提取当前时刻的前p个数据点代入所述ARIMA模型,预测出下q个时刻的故障值及其置信区间,其中p>q>0。
6.根据权利要求4所述的存储系统故障预测方法,其特征在于,所述检测所述ARIMA模型的有效性的步骤之后,还包括:
在所述ARIMA模型无效时,重新估计该ARIMA模型的参数。
7.根据权利要求5所述的存储系统故障预测方法,其特征在于,所述预测所述子故障类型对应的故障的下一次发生时间的步骤之后,还包括:
验证当前时刻的实际故障值是否偏离所述置信区间;
在所述当前的实际故障值偏离所述置信区间时,判定故障异常,通过邮件日志、系统日志、短信通知进行故障报警,并进行故障数据处理。
8.根据权利要求5所述的存储系统故障预测方法,其特征在于,所述预测所述子故障类型对应的故障的下一次发生时间的步骤之后,还包括:
验证当前时刻的实际故障值是否偏离所述置信区间;
在所述当前的实际故障值位于所述置信区间时,判断当前时间的实际故障值与前一时刻的实际故障值之差的绝对值是否大于模型临界值;
在所述绝对值大于所述模型临界值时,启动所述ARIMA模式的再学习,修改所述ARIMA模型的模型参数。
9.根据权利要求8所述的存储系统故障预测方法,其特征在于,所述判断当前时间的实际故障值与前一时刻的实际故障值之差的绝对值是否大于模型临界值的步骤之后,还包括:
在所述绝对值不大于所述模型临界值时,时刻比较变量进行加1操作,并判断其值是否等于p;
在所述时刻比较变量的值超过p时,将所述时刻比较变量恢复为初始值。
10.一种存储系统故障预测装置,其特征在于,包括:
数据收集模块,用于收集系统内不同故障类型的故障信息;
数据聚类模块,用于对各个故障类型的故障信息分别进行预处理,获取各故障类型下的子故障类型和各子故障类型对应的故障发生的时间序列;
数据预测模块,用于预测所述子故障类型对应的故障的下一次发生时间。
CN2013100305556A 2013-01-25 2013-01-25 存储系统故障预测方法和装置 Pending CN103116531A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013100305556A CN103116531A (zh) 2013-01-25 2013-01-25 存储系统故障预测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013100305556A CN103116531A (zh) 2013-01-25 2013-01-25 存储系统故障预测方法和装置

Publications (1)

Publication Number Publication Date
CN103116531A true CN103116531A (zh) 2013-05-22

Family

ID=48414913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013100305556A Pending CN103116531A (zh) 2013-01-25 2013-01-25 存储系统故障预测方法和装置

Country Status (1)

Country Link
CN (1) CN103116531A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679481A (zh) * 2013-12-25 2014-03-26 乐视网信息技术(北京)股份有限公司 收集电子商务网站故障信息的方法和系统
CN104461771A (zh) * 2014-11-03 2015-03-25 北京百度网讯科技有限公司 数据备份处理方法和装置
CN104734901A (zh) * 2013-12-23 2015-06-24 上海联影医疗科技有限公司 一种医学影像设备可用性的管理系统及其方法
CN105589795A (zh) * 2014-12-31 2016-05-18 中国银联股份有限公司 基于预测模型的磁盘故障预测方法及装置
CN106598486A (zh) * 2016-11-11 2017-04-26 工业和信息化部电信研究院 一种云服务数据存储持久性评估装置和方法
CN108022020A (zh) * 2017-12-15 2018-05-11 东软集团股份有限公司 设备故障管理方法、装置、存储介质和电子设备
CN108196985A (zh) * 2017-12-29 2018-06-22 中国电子科技集团公司信息科学研究院 一种基于智能预测的存储系统故障预测方法与装置
CN108491305A (zh) * 2018-03-09 2018-09-04 网宿科技股份有限公司 一种服务器故障的检测方法及系统
CN108763002A (zh) * 2018-05-25 2018-11-06 郑州云海信息技术有限公司 基于机器学习预测cpu故障的方法及系统
CN109347653A (zh) * 2018-09-07 2019-02-15 阿里巴巴集团控股有限公司 一种指标异常发现方法和装置
CN109635962A (zh) * 2018-12-17 2019-04-16 广州甘来信息科技有限公司 基于自贩机的检修时间预测方法、装置、设备及存储介质
CN109800995A (zh) * 2019-01-30 2019-05-24 北京数介科技有限公司 一种电网设备故障识别方法及系统
CN109828182A (zh) * 2018-11-29 2019-05-31 广东电网有限责任公司信息中心 一种基于故障分类处理的电网系统故障分析预警方法
CN109992440A (zh) * 2019-04-02 2019-07-09 北京睿至大数据有限公司 一种基于知识图谱和机器学习的it根故障分析识别方法
CN109992477A (zh) * 2019-03-27 2019-07-09 联想(北京)有限公司 用于电子设备的信息处理方法、系统以及电子设备
CN110008056A (zh) * 2019-03-28 2019-07-12 联想(北京)有限公司 内存管理方法、装置、电子设备及计算机可读存储介质
CN110768987A (zh) * 2019-10-28 2020-02-07 电子科技大学 一种基于sdn的虚拟蜜网动态部署方法及系统
CN111752798A (zh) * 2020-06-23 2020-10-09 深圳市得一微电子有限责任公司 一种固态存储设备空闲时稳定性分析数据收集方法
CN111900498A (zh) * 2020-06-30 2020-11-06 成都四威功率电子科技有限公司 一种电池管理系统故障信息的存储与检索方法
CN113420422A (zh) * 2021-05-31 2021-09-21 济南浪潮数据技术有限公司 一种告警日志占比预测方法、系统、设备以及介质
CN117473514A (zh) * 2023-12-28 2024-01-30 华东交通大学 一种工控系统的智能运维方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102088709A (zh) * 2010-11-30 2011-06-08 哈尔滨工业大学 基于聚类和arima模型的话务量预测方法
CN102355381A (zh) * 2011-08-18 2012-02-15 网宿科技股份有限公司 自适应的差分自回归移动平均模型的流量预测方法和系统
CN102495305A (zh) * 2011-11-24 2012-06-13 广州市地下铁道总公司 基于灰色理论的轨道交通运营机电设备故障趋势分析方法
US20120226645A1 (en) * 2011-03-04 2012-09-06 UltraTick Predicting the Performance of a Financial Instrument
CN102663412A (zh) * 2012-02-27 2012-09-12 浙江大学 基于最小二乘支持向量机的电力设备载流故障趋势预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102088709A (zh) * 2010-11-30 2011-06-08 哈尔滨工业大学 基于聚类和arima模型的话务量预测方法
US20120226645A1 (en) * 2011-03-04 2012-09-06 UltraTick Predicting the Performance of a Financial Instrument
CN102355381A (zh) * 2011-08-18 2012-02-15 网宿科技股份有限公司 自适应的差分自回归移动平均模型的流量预测方法和系统
CN102495305A (zh) * 2011-11-24 2012-06-13 广州市地下铁道总公司 基于灰色理论的轨道交通运营机电设备故障趋势分析方法
CN102663412A (zh) * 2012-02-27 2012-09-12 浙江大学 基于最小二乘支持向量机的电力设备载流故障趋势预测方法

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104734901B (zh) * 2013-12-23 2019-06-28 武汉联影医疗科技有限公司 一种医学影像设备可用性的管理系统及其方法
CN104734901A (zh) * 2013-12-23 2015-06-24 上海联影医疗科技有限公司 一种医学影像设备可用性的管理系统及其方法
CN103679481A (zh) * 2013-12-25 2014-03-26 乐视网信息技术(北京)股份有限公司 收集电子商务网站故障信息的方法和系统
CN104461771A (zh) * 2014-11-03 2015-03-25 北京百度网讯科技有限公司 数据备份处理方法和装置
CN105589795A (zh) * 2014-12-31 2016-05-18 中国银联股份有限公司 基于预测模型的磁盘故障预测方法及装置
CN106598486A (zh) * 2016-11-11 2017-04-26 工业和信息化部电信研究院 一种云服务数据存储持久性评估装置和方法
CN106598486B (zh) * 2016-11-11 2019-08-02 工业和信息化部电信研究院 一种云服务数据存储持久性评估装置和方法
CN108022020A (zh) * 2017-12-15 2018-05-11 东软集团股份有限公司 设备故障管理方法、装置、存储介质和电子设备
CN108022020B (zh) * 2017-12-15 2020-09-18 东软集团股份有限公司 设备故障管理方法、装置、存储介质和电子设备
CN108196985A (zh) * 2017-12-29 2018-06-22 中国电子科技集团公司信息科学研究院 一种基于智能预测的存储系统故障预测方法与装置
CN108491305A (zh) * 2018-03-09 2018-09-04 网宿科技股份有限公司 一种服务器故障的检测方法及系统
CN108491305B (zh) * 2018-03-09 2021-05-25 网宿科技股份有限公司 一种服务器故障的检测方法及系统
CN108763002A (zh) * 2018-05-25 2018-11-06 郑州云海信息技术有限公司 基于机器学习预测cpu故障的方法及系统
CN109347653B (zh) * 2018-09-07 2021-06-04 创新先进技术有限公司 一种指标异常发现方法和装置
CN109347653A (zh) * 2018-09-07 2019-02-15 阿里巴巴集团控股有限公司 一种指标异常发现方法和装置
CN109828182A (zh) * 2018-11-29 2019-05-31 广东电网有限责任公司信息中心 一种基于故障分类处理的电网系统故障分析预警方法
CN109828182B (zh) * 2018-11-29 2021-01-19 广东电网有限责任公司信息中心 一种基于故障分类处理的电网系统故障分析预警方法
CN109635962A (zh) * 2018-12-17 2019-04-16 广州甘来信息科技有限公司 基于自贩机的检修时间预测方法、装置、设备及存储介质
CN109800995A (zh) * 2019-01-30 2019-05-24 北京数介科技有限公司 一种电网设备故障识别方法及系统
CN109992477B (zh) * 2019-03-27 2021-07-16 联想(北京)有限公司 用于电子设备的信息处理方法、系统以及电子设备
CN109992477A (zh) * 2019-03-27 2019-07-09 联想(北京)有限公司 用于电子设备的信息处理方法、系统以及电子设备
CN110008056A (zh) * 2019-03-28 2019-07-12 联想(北京)有限公司 内存管理方法、装置、电子设备及计算机可读存储介质
CN109992440A (zh) * 2019-04-02 2019-07-09 北京睿至大数据有限公司 一种基于知识图谱和机器学习的it根故障分析识别方法
CN110768987A (zh) * 2019-10-28 2020-02-07 电子科技大学 一种基于sdn的虚拟蜜网动态部署方法及系统
CN111752798A (zh) * 2020-06-23 2020-10-09 深圳市得一微电子有限责任公司 一种固态存储设备空闲时稳定性分析数据收集方法
CN111752798B (zh) * 2020-06-23 2022-12-27 深圳市得一微电子有限责任公司 一种固态存储设备空闲时稳定性分析数据收集方法
CN111900498A (zh) * 2020-06-30 2020-11-06 成都四威功率电子科技有限公司 一种电池管理系统故障信息的存储与检索方法
CN111900498B (zh) * 2020-06-30 2022-10-21 成都四威功率电子科技有限公司 一种电池管理系统故障信息的存储与检索方法
CN113420422A (zh) * 2021-05-31 2021-09-21 济南浪潮数据技术有限公司 一种告警日志占比预测方法、系统、设备以及介质
CN117473514A (zh) * 2023-12-28 2024-01-30 华东交通大学 一种工控系统的智能运维方法及系统
CN117473514B (zh) * 2023-12-28 2024-03-15 华东交通大学 一种工控系统的智能运维方法及系统

Similar Documents

Publication Publication Date Title
CN103116531A (zh) 存储系统故障预测方法和装置
US9672085B2 (en) Adaptive fault diagnosis
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
CN106775929B (zh) 一种虚拟化平台安全监控方法及系统
US20190324831A1 (en) System and Method for Online Unsupervised Event Pattern Extraction and Holistic Root Cause Analysis for Distributed Systems
CN102231681B (zh) 一种高可用集群计算机系统及其故障处理方法
US11030038B2 (en) Fault prediction and detection using time-based distributed data
CN104796273A (zh) 一种网络故障根源诊断的方法和装置
JP6160064B2 (ja) 適用判定プログラム、障害検出装置および適用判定方法
US10282458B2 (en) Event notification system with cluster classification
CN114328102B (zh) 设备状态监控方法、装置、设备及计算机可读存储介质
US9244711B1 (en) Virtual machine capacity planning
KR102139058B1 (ko) 서버 관리 장치를 구비한 클라우드 서버 및 로컬 서버를 이용하는 제로클라이언트 단말기용 클라우드 컴퓨팅 시스템
CN104574219A (zh) 电网业务信息系统运行工况的监测预警方法及系统
CN103475696A (zh) 云计算集群服务器状态监控系统和方法
CN113537337A (zh) 训练方法、异常检测方法、装置、设备和存储介质
Guan et al. Anomaly detection in large-scale coalition clusters for dependability assurance
US8402308B2 (en) Apparatus and method for failure management of RFID middleware management system
US9443196B1 (en) Method and apparatus for problem analysis using a causal map
KR102188987B1 (ko) 서버 관리 장치를 구비한 클라우드 서버 및 로컬 서버를 이용하는 제로클라이언트 단말기용 클라우드 컴퓨팅 시스템의 운영 방법
US20230315954A1 (en) Method and device for dynamic failure mode effect analysis and recovery process recommendation for cloud computing applications
CN116264541A (zh) 一种基于多维度的数据库容灾方法及装置
CN202153352U (zh) 防止计算机控制系统失效的看门狗装置
AU2014200806B1 (en) Adaptive fault diagnosis
Gabel et al. Latent fault detection with unbalanced workloads

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130522