CN108415789B - 面向大规模混合异构存储系统的节点故障预测系统及方法 - Google Patents

面向大规模混合异构存储系统的节点故障预测系统及方法 Download PDF

Info

Publication number
CN108415789B
CN108415789B CN201810069687.2A CN201810069687A CN108415789B CN 108415789 B CN108415789 B CN 108415789B CN 201810069687 A CN201810069687 A CN 201810069687A CN 108415789 B CN108415789 B CN 108415789B
Authority
CN
China
Prior art keywords
fault
sequence
node
source
typical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810069687.2A
Other languages
English (en)
Other versions
CN108415789A (zh
Inventor
伍卫国
薛尚山
董小社
张兴军
聂世强
刘钊华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201810069687.2A priority Critical patent/CN108415789B/zh
Publication of CN108415789A publication Critical patent/CN108415789A/zh
Application granted granted Critical
Publication of CN108415789B publication Critical patent/CN108415789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Abstract

本发明提供一种面向大规模混合异构存储系统的节点故障预测系统及方法。采用基于时间序列的关联规则挖掘算法构建节点故障预测系统架构,节点故障预测主要流程为:采集各存储节点的状态数据和日志信息,进行数据预处理并基于滑动窗口生成序列模式,序列模式与故障识别过程中提取的故障序列一起作为关联规则算法的输入,输出结果为典型故障序列,典型故障序列与实时产生的序列模式进行匹配,匹配结果满足既定规则则发出预警通知系统管理员,管理员可根据主观兴趣度对预测结果给予反馈。本发明针对大规模混合异构存储系统的节点进行实时在线故障预测,能够获得比现有故障预测算法更好的准确率和查全率,以及更好的可扩展性。

Description

面向大规模混合异构存储系统的节点故障预测系统及方法
技术领域
本发明涉及存储系统可靠性与可用性领域,尤其涉及对大规模混合异构存储系统节点的故障预测。
背景技术
基于NVM构建大数据存储软硬件系统,可以较好地满足大数据存储对容量、性能与功耗等方面的需求。但是,即使使用相对可靠的单个部件,部件的绝对数量也会导致系统故障率提高。存储系统故障带来的经济损失不容小觑,节点的故障预测与消除以及数据预迁移是保证系统可靠性和可用性的重要技术,良好的故障预测算法可以极大程度减少系统维护开销。传统的基于磁盘的存储系统的性能瓶颈依旧停留在存储介质,故障预测研究都只关注磁盘故障预测,却没有考虑节点故障预测。但是,当使用新型非易失性存储介质后,存储系统性能的瓶颈点将转移至CPU、网络等,系统的故障分布也会随之改变。节点故障预测关键问题在于确定状态信息与故障之间的关系,国内外研究人员都只关注于高性能计算节点的故障预测,针对计算节点的故障与状态信息相关性问题研究取得了重要成果。然而,存储节点的故障相关性研究极少,缺乏具有公信力的节点故障预测模型,基于新介质的大规模混合异构存储系统又是未来的发展方向,研究分析存储节点故障分布特征,开创性地提出节点故障预测模型,对节点故障进行预测及报警,在节点故障前完成数据迁移,降低由存储器件缺陷、老化及故障所带来的数据不可用风险,对大规模混合异构存储系统的可靠性和可用性保障有着重要意义。
目前国内外针对节点故障预测使用的预测算法主要有以下几种。
一、基于故障跟踪的故障预测算法。分析故障数据集中故障信息的时空特性、出现次数、频率等信息进行函数拟合,预测过程使用已发生的故障来预测新故障的到来,算法准确率较低。
二、基于规则的故障预测算法。使用均值分析的方法,得出导致节点故障的各个特征值的阈值,根据阈值对特征数据进行分类,预测故障发生。算法未考虑特征数据相关性,导致误报率较高。
三、基于支持向量机、神经网络等预测算法。这种方法只需要将故障数据集进行相应的数据格式转换,在预测模块中进行输入输出即可得到故障预测分类。算法准确率较高,但是计算开销较大,而且通常需要大量的训练集,存在优化空间。
四、基于系统状态转换概率和基于事件相关性的预测算法。这类预测算法需要仔细分析事件日志与故障间的概率关系。前者建立事件发生的相应状态转换图,分析故障发生,但是状态转换需要较高的专家领域知识;后者通过事件序列与故障发生的概率关系进行故障预测,算法准确率相对较高、时间复杂度较低,具有可解释性,被很多研究者所青睐,但不足之处在于:由于需要一定的专业知识,并且对数据集具有较高要求,应用场景受限,所以在预测的准确率、查全率,以及可扩展性仍有待提高,以便其能满足于大规模混合异构存储系统的节点故障预测的需要。
发明内容
本发明的目的在于提供一种面向大规模混合异构存储系统的节点故障预测系统及方法,本发明针对大规模混合异构存储系统的节点进行实时在线故障预测,能够获得比现有故障预测算法更好的准确率和查全率,以及更好的可扩展性。
为达到上述目的,本发明采用了以下技术方案:
一种面向大规模混合异构存储系统的节点故障预测系统,该预测系统包括数据收集模块、消息预处理模块、故障识别模块、关联规则挖掘模块、典型故障序列数据库及故障预测模块;
所述数据收集模块采集所在存储节点的日志信息和状态数据并发送至消息预处理模块;
所述消息预处理模块将存储节点的日志信息处理后按时间窗口提取日志类型,将提取的日志类型按时间先后进行排列,得到各个时间窗口对应的序列模式;消息预处理模块利用存储节点的状态数据获取存储节点的性能异常信息;
所述故障识别模块在发现故障存储节点后利用存储节点的性能异常信息以及系统事件日志对发生故障的存储节点的故障源进行定位,并根据时间窗口的划定,提取存储节点故障发生时间前的一定观察时间内的各序列模式作为故障序列;
所述关联规则挖掘模块计算各故障序列对故障源的置信度C和代表度R,根据每个故障序列的置信度C和代表度R的加权和W,将W符合要求的对应故障序列加入典型故障序列数据库中对应于该故障源的典型故障序列集中;所述代表度
Figure BDA0001557789620000021
其中,|AFi|表示某故障序列在故障发生时间前的观察时间内出现的总次数,|Fi|表示所述故障对应故障源在所有时间窗口内出现的总次数;
所述故障预测模块将存储节点当前观察时间内的各序列模式依次在典型故障序列数据库中进行匹配,根据匹配结果进行故障源分类统计,依据统计结果输出预测的故障源。
优选的,所述消息预处理模块基于Levenshtein距离对存储节点的日志信息进行自动分类,通过对分类后的日志信息进行格式化和过滤,保留包括时间戳、节点名和日志类型在内的日志信息,然后基于重叠滑动窗口模式将各时间窗口内的日志信息生成为序列模式。
优选的,所述存储节点的状态数据包括CPU中断次数、平均每秒分配的内存大小、磁盘接收到的I/O请求大小及I/O服务响应时间等不变量,经性能异常指示器(不变量异常指示器)计算,得到性能异常信息。
优选的,所述事件日志通过使用IPMI(智能平台管理接口)接口采集,故障源选自某个存储节点的CPU、磁盘、内存、网络或其他无法故障定位的部分。
优选的,所述加权和W=αC+βR,其中,α>β,当某个故障序列的W大于给定阈值,则将该故障序列作为典型故障序列,记录在典型故障序列数据库。
优选的,所述典型故障序列数据库内对应故障源的典型故障序列按照通过FP-tree算法确定的聚类中心进行聚类和更新。
优选的,所述故障源分类统计的对象为当前观察时间内匹配到的典型故障序列的W按故障源分类叠加所得叠加值E,
Figure BDA0001557789620000031
n为当前观察时间内匹配到的某故障源对应典型故障序列的个数,各故障源的统计结果中若存在大于给定阈值的叠加值,则预测故障发生,并以最大叠加值对应故障源作为预测故障源。
优选的,所述预测系统还包括用于根据预测的故障源对系统管理员进行预警通知的模块以及用于根据系统管理员的反馈对关联规则进行学习与参数调整的模块。
一种面向大规模混合异构存储系统的节点故障预测方法,该预测方法包括以下步骤:
1)采集存储节点的日志信息和状态数据;
2)对于存储节点的日志信息,按时间窗口提取日志类型,将提取的日志类型按时间先后进行排列,得到各个时间窗口对应的序列模式,并发送至管理节点进行存储;对于存储节点的状态数据,经过性能异常指示器计算后,将计算得到的性能异常信息发送至管理节点;若管理节点发现储存节点故障发生,则管理节点利用系统事件日志以及该存储节点的性能异常信息对发生故障的存储节点的故障源进行定位,并根据时间窗口的划定,提取该存储节点故障发生时间前的观察时间内的各序列模式作为故障序列,然后转至步骤3);若管理节点未发现储存节点故障发生,则转至步骤4);
3)管理节点计算各故障序列对所定位故障源的置信度C和代表度R,根据每个故障序列的置信度C和代表度R的加权和W,将W符合要求的对应故障序列加入典型故障序列数据库中对应于该故障源的典型故障序列集中;所述代表度
Figure BDA0001557789620000032
其中,|AFi|表示某故障序列在故障发生时间前的观察时间内出现的总次数,|Fi|表示所述故障对应故障源在所有时间窗口内出现的总次数;
4)管理节点将存储节点当前观察时间内的各序列模式依次在典型故障序列数据库中进行匹配,根据匹配结果进行故障源分类统计,依据统计结果输出预测的故障源。
优选的,基于Levenshtein距离对采集的存储节点的日志信息进行自动分类,通过对分类后的日志信息进行格式化和过滤,保留包括时间戳、节点名和日志类型在内的日志信息,然后基于重叠滑动窗口模式将各时间窗口内的日志信息生成为序列模式。
优选的,所述加权和W=αC+βR,其中,α>β,当某个故障序列的W大于给定阈值,则将该故障序列作为典型故障序列,记录在典型故障序列数据库。
优选的,所述管理节点通过IPMI接口规范获取记录存储节点的工作状态的系统事件日志,所述存储节点的状态数据包括CPU中断次数、平均每秒分配的内存大小、磁盘接收到的I/O请求大小及I/O服务响应时间,使用性能异常指示器与系统事件日志分析结果定位故障源;管理节点使用FP-tree算法选择聚类中心,对加入典型故障序列数据库的典型故障序列进行聚类。
优选的,所述故障源分类统计的对象为当前观察时间内匹配到的典型故障序列的W按故障源分类叠加所得叠加值E,
Figure BDA0001557789620000041
n为当前观察时间内匹配到的某故障源对应典型故障序列的个数,各故障源的统计结果中若存在大于给定阈值的叠加值,则预测故障发生,并以最大叠加值对应故障源作为预测故障源。
优选的,所述预测方法还包括以下步骤:管理节点根据预测的故障源发出预警,通知系统管理员,并根据系统管理员对预测结果给予的反馈对关联规则进行学习与参数调整。
本发明的有益效果体现在:
本发明采用基于时间序列的关联规则挖掘算法进行实时在线的系统故障预测,基于时间序列的关联规则挖掘综合置信度和代表度建立典型故障序列数据库,置信度确保了关联规则的准确度,代表度确定了关联规则的不可替代性,通过引入代表度的限定,可以更准确地提取与特定故障类型对应的典型故障序列,同时通过将实时获取的序列模式参照典型故障序列特性进行匹配,以及对匹配结果进行分类统计,使得本发明可提高故障预测的准确率和查全率以及可扩展性。
进一步的,本发明对典型故障序列数据库进行聚类,在对典型故障序列进行聚类时,使用FP-tree算法根据序列频繁性来确定聚类中心,能较好的保证聚类簇内序列的相似性,使典型故障序列的提取更具有典型性,提高了预测的查全率。
进一步的,本发明通过使用IPMI接口采集数据,所述IPMI接口是智能型平台管理接口,其并不依赖于服务器的处理器、BIOS或操作系统来工作,用户可以利用IPMI监视服务器的物理健康特征,如温度、电压、风扇工作状态、电源状态等,因此可以在服务器宕机后通过IPMI接口带外采集相关事件日志,定位服务器故障源;同时,通过服务器运行期间记录的性能异常数据,利用性能异常指示更为准确的定位故障源。
附图说明
图1为本发明的节点故障预测系统架构图。
图2为本发明的节点故障序列提取示意图,图中的数字表示日志类型。
图3为代表度示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步地详细说明。应当理解,此处所描述的实施例仅用于解释本发明的基本构想,并不用于限定本发明的保护范围。
本发明针对大规模混合异构存储系统设计了一种高效的、简洁的节点故障预测方法,其基于时间序列的关联规则挖掘算法发掘隐藏在大量日志信息中的有价值的规律,计算日志记录与故障事件的相关性,提供故障预测及报警服务。
本发明采用基于时间序列的关联规则挖掘算法构建节点故障预测系统架构。节点故障预测主要流程为:采集各存储节点的状态数据和日志信息,对日志信息进行数据预处理并基于滑动窗口生成序列模式后发送至管理节点进行存储,对存储节点状态数据,经过性能异常指示器计算后发送至管理节点,管理节点发现存储节点故障后利用计算结果对故障源进行定位,根据时间窗口的划定,提取存储节点故障发生时间前的观察期(观察时间)窗口内的各序列模式作为故障序列,序列模式与提取的故障序列一起作为关联规则算法的输入,输出结果为典型故障序列,实时产生的序列模式与典型故障序列进行匹配,根据匹配结果发出预警通知系统管理员,并以固定的格式(预测故障发生时间区间、故障节点、故障类型)发送至数据迁移模块,管理员可根据主观兴趣度对预测结果给予反馈。
所述节点故障预测系统架构如图1所示,包括数据收集模块、消息预处理模块、故障识别模块、关联规则挖掘模块及故障预测模块。数据收集模块及数据预处理模块部署在分布式存储系统的各个存储节点上,数据收集模块负责采集所在存储节点的状态数据及日志信息,并发送至消息预处理模块。其余各个模块均部署在管理节点上。
所述消息预处理模块对采集到的存储节点的日志信息(预处理模块在各自节点运行,生成序列模式后再发送给管理节点)进行分类,针对存储节点的日志信息格式不统一的问题,采用基于Levenshtein距离的日志自动分类方法,对日志进行格式化处理,然后采用基于语义的过滤方法对庞大的日志量进行过滤与噪声消除,最后基于日志信息分类结果,采用基于重叠滑动窗口模式对窗口内日志生成序列模式后发送至管理节点。此处的数据传输可以使用网络传输、进程内通信等方式,管理节点负责接收数据预处理模块处理后的数据并进行存储和处理。
所述日志自动分类方法是对日志条目中的自然语言进行正则匹配处理后,基于levenshtein距离进行分类(因为日志是自然语言,无法对自然语言直接产生序列模式,所以要进行分词处理,按语义进行分类)。各存储节点日志采用统一的公共分类数据库进行对比分类,对比分类算法基于Levenshtein距离设置阈值,距离大于设定阈值则被分为一类,否则新建分类。分类后将日志格式化为六元组(序列号,时间戳,节点名,日志类型,日志内容,日志分类),由于日志信息存在大量的重复条目及噪声数据,需要对日志信息进行过滤,基于不同的分类结果设置不同的间隔时间阈值进行格式化后日志过滤,从而去除重复条目。过滤后,采用基于重叠窗滑动窗口模式(窗口滑动距离小于一个时间窗口,例如,时间窗口滑动距离为二分之一大小的时间窗口),将每个时间窗口内的日志生成为分类序列(指按时间戳排列的若干个日志的日志类型),即序列模式,将各个序列模式存入管理节点的序列数据库中,可作为基于时间序列的关联规则挖掘算法的输入,进行自学习及用来故障预测。
所述故障识别模块发现故障并进行故障源定位,然后根据时间窗口的划定,提取故障发生时间前的观察期窗口内的序列模式,作为故障序列记录。故障序列的提取首先要发现故障并对故障源进行定位。本发明通过IPMI接口规范获取存储节点温度、电压、风扇灯工作状态,分析系统事件日志内容,可以较为准确的定位硬件故障源。同时,分析监控数据变化趋势和存储节点、设备失效之间的关系,根据系统不变量,使用性能异常指示器与系统事件日志分析结果双重定位故障源,具有更高的准确度。
管理节点通过周期轮询检测各个存储节点心跳来发现节点故障。带外采集可以很好的解决意外宕机(因为停电、主板损坏等突发事件导致)致使事件信息无法及时的被存储节点日志系统所记录的问题,BMC(基板管理控制器)允许带外服务器管理,且操作系统不必承担数据传输任务。本发明通过IPMI接口读取由BMC记录的SEL(系统事件日志),分析事件日志可以确定硬件故障源。为了更准确地定位,管理节点还从性能监控信息数据库中提取此存储节点的性能异常记录,性能异常记录是由周期性的性能数据采集,通过性能异常指示器计算得出,由性能异常记录和SEL双重定位故障源(主要为了解决由SEL无法查明的或者由异常记录无法定位的问题,发生故障后,二者至少有其一可以用来定位故障源,如果二者定位不同,以SEL定位为准),结果更精确。故障被识别后进行故障序列提取,如图2所示,提取序列数据库中故障前的观察时间窗口内的分类序列(序列模式),得到故障序列,观察时间窗口通常是时间窗口大小的倍数,一般取3~12小时,取值过小导致不利于发掘故障与序列间的相关性,过大导致时间复杂度上升,时间窗口大小影响序列元素个数,通常取值20~60min,预测提前时间取值范围通常为20~120min,其后一个时间窗口即为所识别故障的发生区间(故障区间)。观察时间窗口滑动距离为一个故障区间,这样可以保证故障预测在时间维度上全覆盖(相当于所有窗口都推移一个故障区间)。
上述性能异常指示器按以下公式计算,通过性能异常指示器可以定位故障源:
Figure BDA0001557789620000071
Figure BDA0001557789620000072
Figure BDA0001557789620000073
Figure BDA0001557789620000074
Figure BDA0001557789620000075
Inetwork=Idisk∧Imemory∧Icpu∧Ireq
其中Ireq(n)表示第n个采样周期I/O请求异常指示,值为0时表示出现异常;reqn表示第n个采样周期系统接收的I/O请求大小;corr(x,y)表示x与y之间的相关性;ux、uy分别表示x、y的均值;Icpu、Imemory、Idisk、Inetwork分别为CPU、内存、磁盘、网络故障指示器,当它们值为0时表示对应部分出现故障;interrupt、mem、iosize、svvtm分别表示第n个采样周期平均每秒CPU中断次数、平均每秒分配的内存大小、磁盘接收到的I/O请求大小、I/O服务响应时间;
Figure BDA0001557789620000077
取值为0.5。若Ireq(n)=0,而Icpu、Imemory、Idisk、Inetwork均不为0,则定义存储节点出现除CUP、内存、磁盘和网络以外的其他故障(other)。
所述关联规则挖掘模块基于时间序列进行关联规则挖掘。关联规则挖掘算法输出产物为典型故障序列,该算法主要涉及序列置信度和代表度两方面,对置信度和代表度设置不同的权值,计算结果大于一定阈值才会被记录为典型故障序列,为了获得更好的查全率,使用FP-tree算法选择聚类中心,对典型故障序列进行聚类。
对每个故障序列计算其对故障的置信度
Figure BDA0001557789620000076
A表示故障前观察时间窗口内的某一个故障序列,Fi表示故障,|A|表示序列A在所有时间窗口内出现的总次数,|AFi|表示序列A在故障Fi前观察时间窗口内出现的总次数,置信度是对关联规则准确度的衡量。然后计算故障序列对故障的代表度
Figure BDA0001557789620000081
|Fi|表示故障(故障按故障源分为CPU故障、内存故障、网络故障、磁盘故障或其他故障五种类型)在所有时间窗口内出现的总次数。i指五种故障类型中的特定一种(由故障源定位确定)。
如图3所示,序列A对故障F1、F2都满足置信度阈值,但是通过计算得知序列A对故障F2的代表度更高,因此,序列A的出现对节点的故障预测偏斜于F2。本发明根据序列对故障的置信度和代表度设置不同的权值,最终根据W=αC+βR值的大小选择出典型故障序列存储在数据库(典型故障序列数据库),其中,W大于一定阈值(取值范围为0.5~0.8)才会被记录为典型故障序列,用于基于序列匹配的故障预测,C为置信度,R为代表度,α>β,α+β=1。同一故障序列,当其加入典型故障序列数据库时,需要按故障源区别,即同一典型故障序列可能同时出现在2个以上故障源对应的典型故障序列集中,典型故障序列数据库对不同故障源的典型故障序列数据是分列记录的,各自聚类。
为了提高查全率,本发明对典型故障序列进行聚类,具有共同特性的相似序列可被归类。本发明采用FP-tree算法进行聚类中心的选定,聚类中心应当在故障前观察时间窗口内出现且足够频繁,具有较高的代表性才有资格作为聚类中心。通过FP-tree算法挖掘故障序列中频繁闭项集(例如共同的几个日志类型),以产生的频繁闭项集作为聚类中心,更新典型故障序列数据库。本发明只需得到频繁闭项集,对FP-tree挖掘过程进行优化,较大程度的减少了算法时间复杂度。
所述故障预测模块实现实时在线的故障预测,故障预测通过序列匹配实现。对实时日志信息采用基于重叠滑动窗口划分生成序列模式后,与典型故障序列数据库进行序列匹配,若一个观察时间窗口内匹配到的典型故障序列叠加权值大于设定阈值,则预测该类型故障。系统发出故障预警后,管理员可基于主观兴趣度对预测结果进行反馈。所述基于主观兴趣度即为用户可以决定规则的有效性、可行性。
实时日志信息经过预处理生成序列模式后与典型故障序列进行匹配,并计算一个观察时间窗口内匹配到的典型故障序列对应W值之和(叠加值)。叠加值大于一定阈值(取值范围1.5~2之间)才会发出报警,报警故障类别为所计算的叠加值值最大的一个故障类型(故障源)。即计算M=max(Ecpu,Ememory,Enetwork,Edisk,Eother),
Figure BDA0001557789620000082
j∈(cpu,memo ry,network,disk,other),其中n为一个观察时间窗口内某故障源对应典型故障序列匹配的个数,
Figure BDA0001557789620000083
表示任意故障类型在此观察时间窗口内所匹配到的典型故障序列的W值的叠加,Wi表示当前匹配到的典型故障序列的W值。
根据计算得出报警故障类别后,可扫描故障所在节点的性能异常记录数据,双重定位故障源,然后通过邮件的方式向管理员发出报警,并将报警信息以固定的格式(预测故障发生时间、故障节点、故障类型)发送给数据迁移模块,数据迁移模块根据报警信息并结合管理员反馈信息进行迁移调度。管理员可根据经验知识和专家领域知识,对预测结果进行反馈,系统根据反馈结果进行学习与参数调整,若管理员反馈结果为预测正确,则系统会更新相应数据库中的部分值,包括故障序列置信度、代表度、故障次数等。若管理员反馈结果为预测错误,则系统不做任何更新。
仿真实验中过滤时间间隔为20min,α为0.9,β为0.1,W的阈值为0.5,E的阈值为1.5,取时间窗口为20min,观察时间窗口为6h,预测提前时间为1h,则预测周期为7h,故障区间为1h,采用十折交叉验证,平均查全率、查准率都在0.8以上。
系统可扩展性主要体现在较为耗时的数据采集和预处理都分布在各个存储节点上,各存储节点只与管理节点进行数据库交互,并且大部分数据库操作可以并行执行,存储节点的插入与删除不会影响系统架构,也不会给系统带来较大额外开销,因此,本发明可以很好地支持大规模存储系统。
总之,本发明针对大规模混合异构存储系统的节点的故障预测系统,采用基于时间序列的关联规则挖掘算法,能够自学习关联规则,在没有大量训练集的情况下依然可以使用。基于日志分类的过滤算法能够在最大程度保留日志有效信息的基础上完成重复条目及噪声过滤。同时,本发明的双重故障源定位可以帮助系统管理员更高效地对系统故障进行及时处理,减少人工及设备成本。另外,本发明的典型故障序列选取算法以及序列聚类算法能较好的提升预测准确率和查全率,根据置信度和代表度设置不同阈值可以选出对故障最具影响力的序列,而聚类算法可以防止由于意外条目的加入导致典型故障序列的分割而降低查全率的问题发生。经过实验验证,本发明的故障预测比现有的算法具有更高的准确率和查全率,并且在面向混合异构存储系统时,有更好的可扩展性。

Claims (10)

1.一种面向大规模混合异构存储系统的节点故障预测系统,其特征在于:该预测系统包括数据收集模块、消息预处理模块、故障识别模块、关联规则挖掘模块、典型故障序列数据库及故障预测模块;
所述数据收集模块将所在存储节点的日志信息和状态数据发送至消息预处理模块;
所述消息预处理模块将存储节点的日志信息处理后按时间窗口提取日志类型,将提取的日志类型进行排列,得到各个时间窗口对应的序列模式;消息预处理模块利用存储节点的状态数据获取存储节点的性能异常信息;
所述故障识别模块利用存储节点的性能异常信息以及系统事件日志对发生故障的存储节点的故障源进行定位,并根据时间窗口的划定,提取存储节点故障发生时间前的观察时间内的各序列模式作为故障序列;
所述关联规则挖掘模块计算各故障序列对故障源的置信度C和代表度R,根据每个故障序列的置信度C和代表度R的加权和W,将W符合要求的对应故障序列加入典型故障序列数据库中对应于该故障源的典型故障序列集中;所述代表度
Figure FDA0002395812220000011
其中,|AFi|表示某故障序列在故障发生时间前的观察时间内出现的总次数,|Fi|表示所述故障对应故障源在所有时间窗口内出现的总次数;置信度C表示为:
Figure FDA0002395812220000012
其中,A表示故障前观察时间窗口内的某一个故障序列,Fi表示故障,|A|表示序列A在所有时间窗口内出现的总次数;
所述故障预测模块将存储节点当前观察时间内的各序列模式在典型故障序列数据库中进行匹配,根据匹配结果进行故障源分类统计,依据统计结果输出预测的故障源。
2.根据权利要求1所述一种面向大规模混合异构存储系统的节点故障预测系统,其特征在于:所述消息预处理模块基于Levenshtein距离对存储节点的日志信息进行自动分类,通过对分类后的日志信息进行格式化和过滤,保留包括时间戳、节点名和日志类型在内的日志信息,然后基于重叠滑动窗口模式将各时间窗口内的日志信息生成为序列模式。
3.根据权利要求1所述一种面向大规模混合异构存储系统的节点故障预测系统,其特征在于:所述存储节点的状态数据包括CPU中断次数、平均每秒分配的内存大小、磁盘接收到的I/O请求大小及I/O服务响应时间,经性能异常指示器计算,得到性能异常信息;所述事件日志通过使用IPMI接口采集,故障源选自某个存储节点的CPU、磁盘、内存、网络或其他无法故障定位的部分;
上述性能异常指示器按以下公式计算:
Figure FDA0002395812220000021
Figure FDA0002395812220000022
Figure FDA0002395812220000023
Figure FDA0002395812220000024
Figure FDA0002395812220000025
Inetwork=Idisk∧Imemory∧Icpu∧Ireq
其中Ireq(n)表示第n个采样周期I/O请求异常指示,值为0时表示出现异常;reqn表示第n个采样周期系统接收的I/O请求大小;corr(x,y)表示x与y之间的相关性;ux、uy分别表示x、y的均值;Icpu、Imemory、Idisk、Inetwork分别为CPU、内存、磁盘、网络故障指示器,当它们值为0时表示对应部分出现故障;interrupt、mem、iosize、svvtm分别表示第n个采样周期平均每秒CPU中断次数、平均每秒分配的内存大小、磁盘接收到的I/O请求大小、I/O服务响应时间;
Figure FDA0002395812220000026
取值为0.5。
4.根据权利要求1所述一种面向大规模混合异构存储系统的节点故障预测系统,其特征在于:所述加权和W=αC+βR,其中,α>β,α+β=1,当某个故障序列的W大于给定阈值,则将该故障序列作为典型故障序列,记录在典型故障序列数据库。
5.根据权利要求1所述一种面向大规模混合异构存储系统的节点故障预测系统,其特征在于:所述典型故障序列数据库内对应故障源的典型故障序列按照通过FP-tree算法确定的聚类中心进行聚类和更新。
6.根据权利要求1所述一种面向大规模混合异构存储系统的节点故障预测系统,其特征在于:所述故障源分类统计的对象为当前观察时间内匹配到的典型故障序列的W按故障源分类叠加所得叠加值E,
Figure FDA0002395812220000027
n为当前观察时间内匹配到的某故障源对应典型故障序列的个数,各故障源的统计结果中若存在大于给定阈值的叠加值,则预测故障发生,并以最大叠加值对应故障源作为预测故障源。
7.根据权利要求1所述一种面向大规模混合异构存储系统的节点故障预测系统,其特征在于:所述预测系统还包括用于根据预测的故障源对系统管理员进行预警通知的模块以及用于根据系统管理员的反馈对关联规则进行学习与参数调整的模块。
8.一种面向大规模混合异构存储系统的节点故障预测方法,其特征在于:该预测方法包括以下步骤:
1)采集存储节点的日志信息和状态数据;
2)对于存储节点的日志信息,按时间窗口提取日志类型,将提取的日志类型进行排列,得到各个时间窗口对应的序列模式,并发送至管理节点进行存储;对于存储节点的状态数据,经过性能异常指示器计算后,将计算得到的性能异常信息发送至管理节点;若管理节点发现储存节点故障发生,则管理节点利用性能异常信息以及系统事件日志对发生故障的存储节点的故障源进行定位,并根据时间窗口的划定,提取存储节点故障发生时间前的观察时间内的各序列模式作为故障序列,然后转至步骤3);若管理节点未发现储存节点故障发生,则转至步骤4);上述性能异常指示器按以下公式计算:
Figure FDA0002395812220000031
Figure FDA0002395812220000032
Figure FDA0002395812220000033
Figure FDA0002395812220000034
Figure FDA0002395812220000035
Inetwork=Idisk∧Imemory∧Icpu∧Ireq
其中Ireq(n)表示第n个采样周期I/O请求异常指示,值为0时表示出现异常;reqn表示第n个采样周期系统接收的I/O请求大小;corr(x,y)表示x与y之间的相关性;ux、uy分别表示x、y的均值;Icpu、Imemory、Idisk、Inetwork分别为CPU、内存、磁盘、网络故障指示器,当它们值为0时表示对应部分出现故障;interrupt、mem、iosize、svvtm分别表示第n个采样周期平均每秒CPU中断次数、平均每秒分配的内存大小、磁盘接收到的I/O请求大小、I/O服务响应时间;
Figure FDA0002395812220000036
取值为0.5;
3)管理节点计算各故障序列对故障源的置信度C和代表度R,根据每个故障序列的置信度C和代表度R的加权和W,将W符合要求的对应故障序列加入典型故障序列数据库中对应于该故障源的典型故障序列集中;所述代表度
Figure FDA0002395812220000041
其中,|AFi|表示某故障序列在故障发生时间前的观察时间内出现的总次数,|Fi|表示所述故障对应故障源在所有时间窗口内出现的总次数;置信度C表示为:
Figure FDA0002395812220000042
其中,A表示故障前观察时间窗口内的某一个故障序列,Fi表示故障,|A|表示序列A在所有时间窗口内出现的总次数;
4)管理节点将存储节点当前观察时间内的各序列模式在典型故障序列数据库中进行匹配,根据匹配结果进行故障源分类统计,依据统计结果输出预测的故障源。
9.根据权利要求8所述一种面向大规模混合异构存储系统的节点故障预测方法,其特征在于:基于Levenshtein距离对采集的存储节点的日志信息进行自动分类,通过对分类后的日志信息进行格式化和过滤,保留包括时间戳、节点名和日志类型在内的日志信息,然后基于重叠滑动窗口模式将各时间窗口内的日志信息生成为序列模式;
所述加权和W=αC+βR,其中,α>β,α+β=1,当某个故障序列的W大于给定阈值,则将该故障序列作为典型故障序列,记录在典型故障序列数据库;
所述管理节点通过IPMI接口规范获取记录存储节点的工作状态的系统事件日志,所述存储节点的状态数据包括CPU中断次数、平均每秒分配的内存大小、磁盘接收到的I/O请求大小及I/O服务响应时间,使用性能异常指示器与系统事件日志分析结果定位故障源;管理节点使用FP-tree算法选择聚类中心,对加入典型故障序列数据库的典型故障序列进行聚类;
所述故障源分类统计的对象为当前观察时间内匹配到的典型故障序列的W按故障源分类叠加所得叠加值E,
Figure FDA0002395812220000043
n为当前观察时间内匹配到的某故障源对应典型故障序列的个数,各故障源的统计结果中若存在大于给定阈值的叠加值,则预测故障发生,并以最大叠加值对应故障源作为预测故障源。
10.根据权利要求8所述一种面向大规模混合异构存储系统的节点故障预测方法,其特征在于:所述预测方法还包括以下步骤:管理节点根据预测的故障源发出预警,通知系统管理员,并根据系统管理员对预测结果给予的反馈对关联规则进行学习与参数调整。
CN201810069687.2A 2018-01-24 2018-01-24 面向大规模混合异构存储系统的节点故障预测系统及方法 Active CN108415789B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810069687.2A CN108415789B (zh) 2018-01-24 2018-01-24 面向大规模混合异构存储系统的节点故障预测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810069687.2A CN108415789B (zh) 2018-01-24 2018-01-24 面向大规模混合异构存储系统的节点故障预测系统及方法

Publications (2)

Publication Number Publication Date
CN108415789A CN108415789A (zh) 2018-08-17
CN108415789B true CN108415789B (zh) 2020-05-22

Family

ID=63126505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810069687.2A Active CN108415789B (zh) 2018-01-24 2018-01-24 面向大规模混合异构存储系统的节点故障预测系统及方法

Country Status (1)

Country Link
CN (1) CN108415789B (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109656793A (zh) * 2018-11-22 2019-04-19 安徽继远软件有限公司 一种基于多源异构数据融合的信息系统性能立体监测方法
CN111241145A (zh) * 2018-11-28 2020-06-05 中国移动通信集团浙江有限公司 一种基于大数据的自愈规则挖掘方法及装置
CN109614289A (zh) * 2018-12-10 2019-04-12 浪潮(北京)电子信息产业有限公司 一种存储节点监控方法、系统、设备及计算机存储介质
CN110096366B (zh) * 2019-05-10 2022-03-04 苏州浪潮智能科技有限公司 一种异构内存系统的配置方法、装置及服务器
CN110704221B (zh) * 2019-09-02 2020-10-27 西安交通大学 一种基于数据增强的数据中心故障预测方法
CN112579327A (zh) * 2019-09-27 2021-03-30 阿里巴巴集团控股有限公司 一种故障检测方法、装置及设备
CN110704278A (zh) * 2019-09-30 2020-01-17 山东超越数控电子股份有限公司 一种智能服务器管理系统及其管理方法
CN110879771A (zh) * 2019-11-05 2020-03-13 北京航空航天大学 一种基于关键词序列挖掘的用户异常检测的日志分析系统
CN111027591B (zh) * 2019-11-13 2022-07-12 西安交通大学 一种面向大规模集群系统的节点故障预测方法
CN111158964B (zh) * 2019-11-26 2021-06-08 北京邮电大学 一种磁盘故障预测方法、系统、装置及存储介质
CN113127237A (zh) * 2019-12-27 2021-07-16 北京金风慧能技术有限公司 风力发电机组的主故障识别方法和系统
CN111314110B (zh) * 2020-01-17 2023-05-02 南京大学 一种用于分布式系统的故障预警方法
CN111309562B (zh) * 2020-02-27 2023-07-28 上海上大鼎正软件股份有限公司 服务器故障的预测方法、装置、设备和存储介质
CN111444031A (zh) * 2020-02-27 2020-07-24 平安科技(深圳)有限公司 服务器故障预警方法、装置、计算机设备及存储介质
CN111161887B (zh) * 2020-03-30 2020-11-24 广州地理研究所 基于人口迁徙大数据的流行病疫区返程人群规模预测方法
CN111488265A (zh) * 2020-04-27 2020-08-04 北京奇艺世纪科技有限公司 故障预测方法、装置、设备及可读存储介质
CN111858469B (zh) * 2020-07-24 2024-01-26 成都成信高科信息技术有限公司 一种基于时间滑动窗口的自适应分级存储的方法
US11204758B1 (en) * 2020-08-11 2021-12-21 Oracle International Corporation Computer cloud system with predictive patching
CN111949501A (zh) * 2020-08-14 2020-11-17 中国工商银行股份有限公司 It系统运行风险监控方法及装置
CN112328461A (zh) * 2020-10-29 2021-02-05 无锡先进技术研究院 基于分布式存储的性能瓶颈预测方法、设备及存储介质
CN112836509A (zh) * 2021-02-22 2021-05-25 西安交通大学 一种专家系统知识库构建方法及系统
CN113064873B (zh) * 2021-04-15 2022-11-15 上海浦东发展银行股份有限公司 一种高召回率的日志异常检测方法
CN112866040B (zh) * 2021-04-23 2021-11-30 睿至科技集团有限公司 一种通过区块链技术对用户的数据实现点对点的传输方法
CN113590424A (zh) * 2021-07-30 2021-11-02 北京京东振世信息技术有限公司 一种故障监控方法、装置、设备及存储介质
CN113779008A (zh) * 2021-09-07 2021-12-10 杭州天宽科技有限公司 电力内网运行数据智能存储系统
CN113791926A (zh) * 2021-09-18 2021-12-14 平安普惠企业管理有限公司 智能告警分析方法、装置、设备及存储介质
CN113806178A (zh) * 2021-09-22 2021-12-17 中国建设银行股份有限公司 一种集群节点故障检测方法及装置
CN117009117A (zh) * 2022-04-27 2023-11-07 深圳富联富桂精密工业有限公司 日志信息获取系统及方法
CN116328244B (zh) * 2023-03-21 2023-09-01 江苏智慧工场技术研究院有限公司 一种消防巡检方法、系统及存储介质
CN116521453B (zh) * 2023-06-30 2023-09-26 中国民航大学 基于整数线性规划模型ilp的云集群容灾方法及相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111296A (zh) * 2011-01-10 2011-06-29 浪潮通信信息系统有限公司 基于最大频繁项集的通信告警关联规则挖掘方法
EP2446147A1 (fr) * 2009-06-26 2012-05-02 Adixen Vacuum Products Procede de prediction d'une defaillance de la rotation du rotor d'une pompe a vide et dispositif de pompage associe
CN103996077A (zh) * 2014-05-22 2014-08-20 中国南方电网有限责任公司电网技术研究中心 一种基于多维时间序列的电气设备故障预测方法
CN106570128A (zh) * 2016-11-03 2017-04-19 南京邮电大学 一种基于关联规则分析的挖掘算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2446147A1 (fr) * 2009-06-26 2012-05-02 Adixen Vacuum Products Procede de prediction d'une defaillance de la rotation du rotor d'une pompe a vide et dispositif de pompage associe
CN102111296A (zh) * 2011-01-10 2011-06-29 浪潮通信信息系统有限公司 基于最大频繁项集的通信告警关联规则挖掘方法
CN103996077A (zh) * 2014-05-22 2014-08-20 中国南方电网有限责任公司电网技术研究中心 一种基于多维时间序列的电气设备故障预测方法
CN106570128A (zh) * 2016-11-03 2017-04-19 南京邮电大学 一种基于关联规则分析的挖掘算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"A Survey on Failure Prediction of Large-Scale Server Clusters";Xiaoshe Dong;《 Eighth ACIS International Conference on Software Engineering, Artificial Intelligence, Networking, and Parallel/Distributed Computing (SNPD 2007)》;20070813;全文 *

Also Published As

Publication number Publication date
CN108415789A (zh) 2018-08-17

Similar Documents

Publication Publication Date Title
CN108415789B (zh) 面向大规模混合异构存储系统的节点故障预测系统及方法
Rettig et al. Online anomaly detection over big data streams
CN110865929B (zh) 异常检测预警方法及系统
US11403164B2 (en) Method and device for determining a performance indicator value for predicting anomalies in a computing infrastructure from values of performance indicators
US11836162B2 (en) Unsupervised method for classifying seasonal patterns
US20190228022A1 (en) System for detecting and characterizing seasons
CN105071983A (zh) 一种面向云计算在线业务的异常负载检测方法
US10699211B2 (en) Supervised method for classifying seasonal patterns
CN113887616A (zh) 一种epg连接数的实时异常检测系统及方法
US11307916B2 (en) Method and device for determining an estimated time before a technical incident in a computing infrastructure from values of performance indicators
CN103761173A (zh) 一种基于日志的计算机系统故障诊断方法及装置
CN114465874B (zh) 故障预测方法、装置、电子设备与存储介质
CN111290913A (zh) 一种基于运维数据预测的故障定位可视化系统和方法
WO2020108159A1 (zh) 一种网络故障根因检测方法、系统及存储介质
US11675643B2 (en) Method and device for determining a technical incident risk value in a computing infrastructure from performance indicator values
CN104777827A (zh) 高速铁路信号系统车载设备故障诊断方法
CN104574219A (zh) 电网业务信息系统运行工况的监测预警方法及系统
CN114267178A (zh) 一种车站的智能运营维护方法及装置
CN114327964A (zh) 业务系统的故障原因处理方法、装置、设备及存储介质
CN113569462A (zh) 一种计及天气因素的配电网故障等级预测方法及系统
CN112118127B (zh) 一种基于故障相似度的服务可靠性保障方法
CN117041312A (zh) 基于物联网的企业级信息技术监控系统
CN106649034A (zh) 一种可视化智能运维方法及平台
Li et al. Microservice anomaly detection based on tracing data using semi-supervised learning
Zhu et al. A Performance Fault Diagnosis Method for SaaS Software Based on GBDT Algorithm.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant