CN108337108A - 一种基于关联分析的云平台故障自动化定位方法 - Google Patents

一种基于关联分析的云平台故障自动化定位方法 Download PDF

Info

Publication number
CN108337108A
CN108337108A CN201711463907.1A CN201711463907A CN108337108A CN 108337108 A CN108337108 A CN 108337108A CN 201711463907 A CN201711463907 A CN 201711463907A CN 108337108 A CN108337108 A CN 108337108A
Authority
CN
China
Prior art keywords
failure
cloud platform
analysis
localization method
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201711463907.1A
Other languages
English (en)
Inventor
吴昊
舒畅
孔金珠
魏立峰
谭郁松
李志伟
李宝
张建锋
张冬松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Kylin Information Technology Co Ltd
Original Assignee
Tianjin Kylin Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Kylin Information Technology Co Ltd filed Critical Tianjin Kylin Information Technology Co Ltd
Priority to CN201711463907.1A priority Critical patent/CN108337108A/zh
Publication of CN108337108A publication Critical patent/CN108337108A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

一种基于关联分析的云平台故障自动化定位方法,步骤包括:S1、读取策略库中的策略:根据数字化后的故障编码和定义好的故障分析树生成故障发生模型;S2、对所述故障发生模型进行推导,得到根故障发生的根原因;S3、收集故障的基础数据并分析,生成当前系统存在的故障对应的故障编码;S4、计算所述故障的故障发生路径,并进行分析得到分析结果;S5、进行未知故障的探测。本发明的有益效果是:能够自动推导出引起故障的根本原因并直接告知管理员,加速了故障排查进度。

Description

一种基于关联分析的云平台故障自动化定位方法
技术领域
本发明属于云平台故障管理技术领域,具体地说,涉及一种基于关联分析的云平台故障自动化定位方法。
背景技术
云计算是提升资源利用率的有效途径,对于数据中心管理有重要意义。当前数据中心管理的一个重要趋势,就是从传统的基于物理服务器的管理,向云化服务器管理转变。云环境下数据中心管理在享有云化管理带来的高效性的同时,也不可避免带来管理的复杂性。这主要表现在对于云平台本身的运营和维护中。因为云平台系统本身的复杂性和硬件环境的随机性问题,导致云平台的故障率相较于传统较高,对于云平台故障恢复的时间和人力成本也较高,甚至在某种程度上成为制约云计算应用的一个重要障碍。如何对云平台实施有效的故障管理,即改进和提升故障管理的效率,继而降低管理成本,是本领域亟待解决的问题。
为应对云平台在运维中的故障,业界通常采用监控的方式,即部署一套监控软件对指标项进行采集、呈现和基于阈值的报警。但是这种传统监控方式在实际云平台运维环境中会存在如下问题:
(1)因需要检测过多的问题点带来的高成本和高开销
传统监控实施的检测方式是撒网式,需要对所有可能的问题点进行探测。当检测点数量较多时,一是需要付出过高的工作成本去布控,二是过多的检测点会造成过高的系统资源开销。
(2)难以探测一些非直接性问题点
运维中的问题分为很多类,有一些是直接的,有一些是非直接性的,更多地表现为系统性的、综合性的问题,例如云平台不能完成启动虚拟机的操作。这类问题点的检测难以实施,即使实施一般也会对系统产生资源占用的消极影响。在传统监控方式中,该类问题通常表现为监控盲区。
(3)当系统出现故障问题时,需要人工参与来分析和定位问题,管理成本较高
在实际云平台系统运行中,在理想状态下监控反映了所有问题,但是问题是并没有指向一个根本问题。在工程化的故障管理理论和实践中,系统在某一时刻抛出的问题是存在关联性的,主要表现为连续的条件因果关系。即某一些问题点在一定条件下会导致另一问题点,而这一问题点又在另一种条件下会导致另外的一个问题点,不断类似重复。要定位一个表现故障,需要找到引发根本问题点。由于传统监控方式仍停留在采集和探测层面,并没有纳入对于采集到的数据点的分析,所以在故障发生的某一时刻,并不能自动化、程序化地定位问题,这一过程还需要人工参与。这是造成故障管理成本高的一个重要因素。
另一方面,即使采取人工参与方法,但是管理员通过监控得到的故障信息很可能是零散、割裂的,仍不能通过这些信息去理解一个故障发生的路径,而这种对于发生路径的理解对于问题定位和解决尤为重要。
中国发明专利“监控云平台的故障定位方法及系统”(申请号CN201710166542.X),该发明公开了一种监控云平台的故障定位方法,所述方法包括如下步骤:监控云平台接收摄像头广播的心跳消息;监控云平台在设定时间内未收到第一摄像头的心跳消息时,向第一摄像头发送确认消息;监控云平台在设定时间内未收到确认消息的响应消息时,指示监控云平台的另一设备再次发送确认,如在设定时间内仍然未收到确认消息的响应消息,确定第一摄像头故障。该发明提供的技术方案适用于摄像机构成的监控系统,并没有涉及到本专利申请中所考虑的传统云计算环境中系统故障管理问题。
中国发明专利“面向云平台的软件故障容忍方法”(申请号CN201110405522.6),该发明提供了一种面向云平台的软件故障容忍方法,包括:对需要保护的软件进行压力测试,以获取软件的营救点,周期性地在虚拟机中对软件构建检查点,检测软件是否出现故障,若出现故障,则获取软件故障相关信息,根据软件故障相关信息判断故障是否是栈溢出故障,若故障是栈溢出故障,则判断漏洞营救表中是否存在与故障匹配的函数调用栈信息,若漏洞营救表中存在与故障匹配的函数调用栈信息,则提取函数调用栈信息,将软件回滚到距离故障最近的检查点,根据函数调用栈信息获取候选营救点,并按候选营救点的权值大小对候选营救点进行测试,以得到能够容忍故障的最佳营救点。虽然该发明可以有效地提高软件容错能力,降低了容错机制所带来的数据冗余度,但是并没有考虑过本专利申请中利用故障问题数字编码实现基于关联分析的故障自动化定位方法。
中国发明专利“一种基于云平台的故障处理方法和装置”(申请号CN201510401576.3),该发明公开了一种基于云平台的故障处理方法和装置,该方法包括:当接收到目标对象的故障处理请求时,采集所述目标对象所处终端的第一目标数据和/或所处服务端的第二目标数据;采用所述第一目标数据和/或所述第二目标数据,与预设的故障模型进行匹配,所述故障模型关联有一个或多个故障解决方式;当匹配成功时,从所述一个或多个故障解决方式中选取目标故障解决方式;输出所述目标故障解决方式。虽然该发明可以提高检测的覆盖率、避免用户直接描述问题,提高检测的效率,但是并没有考虑过本专利申请中利用故障问题数字编码实现基于关联分析的故障自动化定位方法。
中国发明专利“一种基于云平台的故障处理方法及装置”(申请号CN201710391948.8),该发明公开了一种基于云平台的故障处理方法及装置,该方法包括:在云端系统运行中出现故障时,判断故障种类为硬件故障还是软件故障;若故障种类为硬件故障,执行硬件故障对应的故障处理方案;若故障种类为软件故障,执行软件故障对应的故障处理方案。虽然该发明可以节省人工成本,但并没有涉及到本专利申请中利用故障问题数字编码实现基于关联分析的故障自动化定位问题。
中国发明专利“用于跨云管理和故障查找的方法和系统”(申请号CN201280024366.1),该发明描述了向应用提供横跨两个或更多个云的能力的云管理系统,同时允许将分布式应用作为单个应用来进行操作、管理、以及故障查找;该系统提供跨各数据中心通信以执行并对应用的在不同的位置处运行的各实例的知识进行集中的基础结构;该系统所提供的基础结构监视该应用和各云之间的连接,具有知道问题是否处于应用内或是因为各云之间的连接的智能。该发明可以创建跨多个云的单个监视和故障查找接口和知识以及执行结构,使得分布在多个云的各应用可被更容易地监视、管理以及调试,但是并没有考虑过本专利申请中利用故障问题数字编码实现基于关联分析的故障自动化定位方法。
中国发明专利“一种云平台故障恢复方法和系统”(申请号CN201310140872.3),该发明提供了一种云平台故障恢复方法和系统,方法包括通过任务执行时间和磁盘读写速度对服务器进行故障检测;通过故障检测的结果计算出系统的服务器故障率;如果服务器故障率小于预置的阈值,对服务器进行自动恢复,否则,禁止对服务器进行自动恢复。应用该发明进行云平台故障恢复,由于基于宏观现象来检测硬件故障,并进行有效的故障自动恢复的策略,保证了云平台在宏观上的硬件可靠,防止硬件层面的问题对用户体验产生不良影响。但是该发明并没有涉及到本专利申请中云平台系统故障的自动化定位问题。
中国发明专利“基于隐半马尔可夫模型的云计算平台系统故障预测方法”(申请号CN201610195766.9),该发明公开了一种基于隐半马尔可夫模型的云计算平台系统故障预测方法。具体步骤如下:从海量日志文件中提取错误事件,并错误事件赋予类型和时间信息;将同一错误事件的重复的报告合并为同一事件;将若干连续事件组合成事件序列,并根据是否对系统故障造成影响分成为故障相关事件序列和故障无关事件序列;根据序列似然值,对所有的事件序列进行聚类处理;在每一类内部进行噪声消除处理;分别计算实时提取出的事件序列与故障相关的HSMM和故障无关的HSMM的序列似然值,再利用贝叶斯分类器,通过计算判断系统是否会发生故障。该发明基于机器学习的理论,可以实现云计算平台的实时系统故障预测的功能,但是并没有涉及到本专利申请中利用故障问题数字编码实现基于关联分析的故障自动化定位问题。
发明内容
有鉴于此,本发明为了解决现有技术存在的缺陷和不足,提供了一种基于关联分析的云平台故障自动化定位方法,对采集到的问题点按照预先建立的分析策略模型进行关联性分析,当实际故障发生时,能够自动推导出引起故障的根本原因并直接告知管理员,加速了故障排查进度。
为了解决上述技术问题,本发明公开了一种基于关联分析的云平台故障自动化定位方法,并采用以下技术方案来实现。
一种基于关联分析的云平台故障自动化定位方法,步骤包括:
S1、读取策略库中的策略:根据数字化后的故障编码和定义好的故障策略生成故障发生模型;
S2、对所述故障发生模型进行推导,得到根故障发生的根原因;
S3、收集故障的基础数据并分析,生成当前系统存在的故障对应的故障编码;
S4、将所述S3中的故障编码与所述S2中推导出的所述根原因进行对比分析,并根据所述故障发生模型,计算所述故障的故障发生路径,并进行分析得到分析结果;
S5、进行未知故障的探测:根据所述分析结果和当前监控到的故障进行对比,确定是否为未知故障;若为未知故障则将所述未知故障加入到所述故障发生模型中,并更新所述策略库;若不是未知故障,则根据所述当前故障的信息和所述分析结果完成故障定位。
进一步的,所述故障编码为采用数字化编码规则对故障进行定义得到的所述故障对应的唯一的编码;所述故障发生模型为所述故障之间关系的树形结构的定义。
更进一步的,所述故障编码为8位长度的16进制数字。
进一步的,所述故障分析模型中的父节点和其子节点的关系采用与门和/或或门来表示。
进一步的,所述故障分析模型中遇到相似的树形结构时采用范化机制,只定义一次规则生成多个类似的树形结构。
进一步的,所述S2中所述根故障的推导采用自顶而下的图形演绎的方式;优选的,所述图形演绎的方式的步骤包括:S21、找到所有的顶故障作为演绎的开始;S22、根据逻辑门的特性,若父节点和其子节点之间为与门关系则增加根原因集合的长度,若所述父节点和所述子节点之间为或门关系则增加所述根原因集合的数量;S23、将演绎所得的所述根原因集合进行合并去重,得到导致所述顶故障的组合原因。
进一步的,所述S4中计算所述故障发生路径的具体方式是:将当前系统采集到的故障点与推导出的故障发生根原因的集合进行对比,过滤掉不会导致所述系统出问题的所述故障点,然后对所述故障发生模型的树形结构由下而上进行推导,得到所述故障发生路径。
进一步的,其特征在于:步骤还包括S6、对所述故障编码进行解析,转化成文字语言在显示端进行显示;所述S6在所述定位方法中的执行顺序不是一定的,根据具体需要进行调整。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现以上任一所述方法的步骤。
一种基于关联分析的云平台故障自动化定位装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以上任一所述方法的步骤。
与现有技术相比,本发明可以获得包括以下技术效果:1)使得针对故障问题的沟通和历史管理变得容易和清晰,提升了可管理性;2)对问题数量的精简过滤,提升了问题排查效率;3)对于故障发生路径的计算和展示能力,提升了问题的可管理性;4)能够自动化定位故障,提供自动化修复的支持,为提升问题修复效率提供了技术基础;5)可以探测未知故障问题,优化故障管理能力。
当然,实施本发明的任一产品必不一定需要同时达到以上所述的所有技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明一个实施例的故障自动化定位方法的流程架构示意图。
图2是本发明一个实施例的采用与门表示各个故障之间关联信息的示例图。
图3是本发明一个实施例的采用或门表示各个故障之间关联信息的示例图。
图4是本发明一个实施例的简单树形结构的故障示例图。
具体实施方式
以下将配合附图及实施例来详细说明本发明的实施方式,藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
一种基于关联分析的云平台故障自动化定位方法,包括故障自动化定位方法的流程架构、故障问题点的数字编码化、故障发生模型的定义、故障发生根原因的推导、故障发生路径的计算和未知故障问题的探测。
(一)故障自动化定位方法的流程架构
流程架构示意图如图1所示,主要包括策略库、读取策略、根故障推导、收集故障、故障发生路径计算、结果分析、未知故障探测等多个模块,具体流程步骤如下:
S101:策略库采用数字化编码规则进行故障定义,还采用基于故障分析树的树形结构对故障点之间关系进行定义,当读取策略时,则会根据数字化后的编码和定义好的故障分析树来生成故障发生模型;
S102:根故障推导采用自顶而下、图形演绎的方式对读取策略生成的故障发生模型进行推导,得到故障发生的根原因;
S103:收集故障,对监控得到的基础数据进行分析,按照数字化编码规则生成当前系统存在的故障数字编码;
S104:将步骤103生成的当前故障数字编码与步骤102推导而出的根原因进行对比分析,并根据故障发生模型树形结构模型,自下而上地计算故障发生路径,进行结果分析;
S105:未知故障的探测是根据分析结果和当前监控的发生故障进行对比,探知未知故障,丰富故障发生模型,然后返回步骤101,更新策略库。
(二)故障问题点的数字编码化
本发明将云平台运维过程中的一系列故障,根据故障的类型、作用组件、节点的不同,抽象为一定长度的数字编码,并保证每一个数字编码能够代表唯一确定的监控故障点。通过使用数字编码进行数据的传递和分析,本发明可以提高数据的传递效率和安全性。另外,本发明还对具体数字编码进行解析,在显示端能够根据不同编码转化成特定的文字语言进行描述。
故障编码可以采用8位长度的16进制数字,针对不同的故障类型,将故障分为几个大类,用故障编码的前四位进行表示:0001-0fff表示顶故障,1000-1fff表示节点故障,2000-2fff表示服务故障,3000-3fff表示存储故障,4000-4fff代表网络故障,其他范围的故障编码预留;根据故障作用于的组件不同,将同一故障类型进一步分解,用故障编码的中间五六位进行表示,例如01表示nova组件,02表示glance组件,03表示cinder组件,04代表neutron组件,其他范围预留;最后对作用于同一组件的同一故障类型,根据故障发生于的具体节点进行区分,用故障编码的最后两位进行表示。
示例:故障编码20020101:
其中,前四位2002代表Openstack云平台中的某一组件的某一节点连接数据库出错,中间两位01代表nova组件,最后两位01代表云环境中的第一个节点node-1,从而整体故障编码代表了Openstack云平台中的nova组件在node-1节点上连接数据库出错。
可见,通过故障编码,可以将一大段文字描述信息用一个8位长度的16进制数字加以代替,大大减少了程序中数据的传递效率,同时使用编码后的数据能够加强系统的安全。同时在程序前端,也可提供故障编码的反查,能够将8位的故障编码重新转化成文字描述,供用户查看。
(三)故障发生模型的定义
本发明的故障发生模型采用树形结构表示,其中父节点和子节点的关系则采用与门和或门来表示。根据这两种门模型,故障发生模型可以清晰的定义各个故障之间的推导关系,同时还加入范化机制,进一步减少模型定义的复杂度。
树形结构的最顶层称为顶故障,是用户在实际过程中能够看到的故障,例如云平台创建虚拟机失败;树的中间层称为中间故障,是逻辑推导时使用到的抽象故障;树的最底层称为根原因,是在监控过程中,根据系统日志、插件返回信息或系统状态信息提取出来的故障。
图2和图3分别是采用与门和或门表示各个故障之间关联信息的具体实施例。其中,图2表示一个与门结构,它代表只有当故障2、3和4全部发生时,故障1才会发生这一逻辑;图3表示一个或门结构,它代表只要故障6、7和8中某一个发生了,故障5就发生。
相似的树形结构可以借助范化机制,只需要定义一次规则,便可以生成多个类似的树形结构。例如故障编码20020101,前四位2002表示Openstack云平台中的某一组件的某一节点连接数据库出错,而云平台系统中的nova、glance、cinder和neutron四个组件的同一故障树形结构都相似,此时只需要定义一次,经过程序的范化处理,就能生产4个相似的树形结构,极大减少规则定义的工作量。
(四)故障发生根原因的推导
根据上述定义的故障发生模型,本发明使用自顶而下的分析方式,遇到与门则增加根原因集合的长度,遇到或门则增加根原因集合的数量来进行图形演绎,并对最后的结果进行分析合并,获得最精简的根原因集合。
从上到下进行故障发生根原因推导的图形演绎时,首先,找到所有的顶故障作为演绎的开始,这些故障始终在故障模型树的顶端;其次,根据逻辑门的特性,与门则增加根原因集合的长度,或门则增加根原因集合的数量;最后,将演绎所得的根原因集合进行合并去重,得到导致顶故障的各种组合原因。
图4是本发明中具体实施例的一个简单树形结构的故障示例图。对故障1进行演绎,最开始时,结果集合为顶故障本身{故障1};由于故障1由故障2或故障3导致,则结果集数量增加,变为{故障2}、{故障3};由于故障2为故障4、5、6同时导致,属于与门,则结果集长度增加,变为{故障4,故障5,故障6}、{故障3};由于故障3由故障4、7、8中任意一个导致,属于或门,则结果集数量增加为{故障4,故障5,故障6}、{故障4}、{故障7}、{故障8};最后,将所得结果合并去重,由于{故障4}是一个结果集,对于另外一个结果集{故障4,故障5,故障6},不管故障5和6是否发生,都会导致故障1的发生,所以结果集{故障4,故障5,故障6}可以去掉,最终结果为{故障4}、{故障7}、{故障8}。
(五)故障发生路径的计算
本发明的故障发生路径计算方式是将当前系统采集到的故障问题点与推导出的故障发生根原因最小集合进行对比,过滤掉那些不会导致系统出问题的故障点,然后对故障发生模型的树形结构由下而上进行推导,从而得到系统内部所有故障发生路径。
故障发生路径的计算需要依托底层的监控系统。监控系统周期性的获取系统中的各种监控指标(如系统日志、节点状态、网络状态等),根据指标结果和故障生成规则产生故障编码,传入分析器,分析器根据上述推导规则计算出造成系统顶故障的各种根原因集合,与当前实际产生的故障编码进行对比,然后从下往上点亮父节点,生成故障路径。
以图4的故障模型为示例,如果系统监控到故障4和8发生,传入分析器后,故障4与故障8会与根原因集合{故障4}、{故障7}、{故障8}对比,故障4生成对应的故障路径{故障4-故障2-故障1}、{故障4-故障3-故障1},故障8生成对应的故障路径{故障8-故障3-故障1}。
(六)未知故障问题的探测
本发明会对部分中间故障进行监控,还可以对于模型中存在疏漏而未定义规则的问题进行纠正,例如,在故障模型中,当子层级的故障没有检测或推导出来,然而父层级的故障却被系统监控出来时,说明定义的故障模型并不完善,还需要根据实际情况增加子层级的故障点,丰富故障模型。
由于故障模型是根据之前的运维经验总结得来的,难免会存在一些未知的故障,还需要在实际使用中完善一个对未知故障问题进行探测的机制。对于未知故障的探测,本发明是基于已知的各个故障点,对一些可能存在问题的中间故障进行监控。当发现存在中间故障被监控出来,而此故障的子故障没有被监控时,就需要去排查是子故障监控出问题了还是存在未知的故障点没有定义,从而达到探测未知故障模型的目的。
本发明的有益效果是:1)使得针对故障问题的沟通和历史管理变得容易和清晰,提升了可管理性;2)对问题数量的精简过滤,提升了问题排查效率;3)对于故障发生路径的计算和展示能力,提升了问题的可管理性;4)能够自动化定位故障,提供自动化修复的支持,为提升问题修复效率提供了技术基础;5)可以探测未知故障问题,优化故障管理能力。
以上对本发明实施例所提供的一种基于关联分析的云平台故障自动化定位方法,进行了详细介绍。以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
如在说明书及权利要求当中使用了某些词汇来指称特定组件或模块。本领域技术人员应可理解,不同机构可能会用不同名词来称呼同一个组件或模块。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件或模块在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”、“包括”为开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。说明书后续描述为实施本发明的较佳实施方式,然所述描述乃以说明本发明的一般原则为目的,并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
上述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明创造构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (10)

1.一种基于关联分析的云平台故障自动化定位方法,步骤包括:
S1、读取策略库中的策略:根据数字化后的故障编码和定义好的故障策略生成故障发生模型;
S2、对所述故障发生模型进行推导,得到根故障发生的根原因;
S3、收集故障的基础数据并分析,生成当前系统存在的故障对应的故障编码;
S4、将所述S3中的故障编码与所述S2中推导出的所述根原因进行对比分析,并根据所述故障发生模型,计算所述故障的故障发生路径,并进行分析得到分析结果;
S5、进行未知故障的探测:根据所述分析结果和当前监控到的故障进行对比,确定是否为未知故障;若为未知故障则将所述未知故障加入到所述故障发生模型中,并更新所述策略库;若不是未知故障,则根据所述当前故障的信息和所述分析结果完成故障定位。
2.根据权利要求1所述基于关联分析的云平台故障自动化定位方法,其特征在于:所述故障编码为采用数字化编码规则对故障进行定义得到的所述故障对应的唯一的编码;所述故障发生模型为所述故障之间关系的树形结构的定义。
3.根据权利要求2所述基于关联分析的云平台故障自动化定位方法,其特征在于:所述故障编码为8位长度的16进制数字。
4.根据权利要求1所述基于关联分析的云平台故障自动化定位方法,其特征在于:所述故障分析模型中的父节点和其子节点的关系采用与门和/或或门来表示。
5.根据权利要求1-4任一所述基于关联分析的云平台故障自动化定位方法,其特征在于:所述故障分析模型中遇到相似的树形结构时采用范化机制,只定义一次规则生成多个类似的树形结构。
6.根据权利要求1所述基于关联分析的云平台故障自动化定位方法,其特征在于:所述S2中所述根故障的推导采用自顶而下的图形演绎的方式;优选的,所述图形演绎的方式的步骤包括:S21、找到所有的顶故障作为演绎的开始;S22、根据逻辑门的特性,若父节点和其子节点之间为与门关系则增加根原因集合的长度,若所述父节点和所述子节点之间为或门关系则增加所述根原因集合的数量;S23、将演绎所得的所述根原因集合进行合并去重,得到导致所述顶故障的组合原因。
7.根据权利要求1所述基于关联分析的云平台故障自动化定位方法,其特征在于:所述S4中计算所述故障发生路径的具体方式是:将当前系统采集到的故障点与推导出的故障发生根原因的集合进行对比,过滤掉不会导致所述系统出问题的所述故障点,然后对所述故障发生模型的树形结构由下而上进行推导,得到所述故障发生路径。
8.根据权利要求1-4、6-7任一所述基于关联分析的云平台故障自动化定位方法,其特征在于:步骤还包括S6、对所述故障编码进行解析,转化成文字语言在显示端进行显示;所述S6在所述定位方法中的执行顺序不是一定的,根据具体需要进行调整。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-4、6-7任一所述方法的步骤。
10.一种基于关联分析的云平台故障自动化定位装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1-4、6-7所述方法的步骤。
CN201711463907.1A 2017-12-28 2017-12-28 一种基于关联分析的云平台故障自动化定位方法 Withdrawn CN108337108A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711463907.1A CN108337108A (zh) 2017-12-28 2017-12-28 一种基于关联分析的云平台故障自动化定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711463907.1A CN108337108A (zh) 2017-12-28 2017-12-28 一种基于关联分析的云平台故障自动化定位方法

Publications (1)

Publication Number Publication Date
CN108337108A true CN108337108A (zh) 2018-07-27

Family

ID=62924666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711463907.1A Withdrawn CN108337108A (zh) 2017-12-28 2017-12-28 一种基于关联分析的云平台故障自动化定位方法

Country Status (1)

Country Link
CN (1) CN108337108A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109120450A (zh) * 2018-08-29 2019-01-01 郑州云海信息技术有限公司 一种虚拟化管理平台中neutron网络异常处理的方法及装置
CN109165124A (zh) * 2018-08-07 2019-01-08 南京翼辉信息技术有限公司 一种基于故障树的嵌入式系统硬件故障检测及处理方法
CN109800052A (zh) * 2018-12-15 2019-05-24 深圳先进技术研究院 应用于分布式容器云平台的异常检测与定位方法及装置
CN111125164A (zh) * 2018-10-30 2020-05-08 千寻位置网络有限公司 参考站故障排查的方法及系统、排障终端
CN112905999A (zh) * 2021-03-01 2021-06-04 武汉未意信息技术有限公司 恶意网站软件漏洞扫描安全检测系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722722A (zh) * 2012-05-25 2012-10-10 清华大学 基于逻辑推理和故障辨识的混合故障检测诊断方法
US20150019187A1 (en) * 2013-07-15 2015-01-15 The Boeing Company System and method for assessing cumulative effects of a failure
CN105281945A (zh) * 2014-09-19 2016-01-27 中国人民解放军第二炮兵工程大学 基于数据流的确定性网络完整性故障检测方法
CN107025290A (zh) * 2017-04-14 2017-08-08 北京航天发射技术研究所 一种故障树数据的存储方法及读取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722722A (zh) * 2012-05-25 2012-10-10 清华大学 基于逻辑推理和故障辨识的混合故障检测诊断方法
US20150019187A1 (en) * 2013-07-15 2015-01-15 The Boeing Company System and method for assessing cumulative effects of a failure
CN105281945A (zh) * 2014-09-19 2016-01-27 中国人民解放军第二炮兵工程大学 基于数据流的确定性网络完整性故障检测方法
CN107025290A (zh) * 2017-04-14 2017-08-08 北京航天发射技术研究所 一种故障树数据的存储方法及读取方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165124A (zh) * 2018-08-07 2019-01-08 南京翼辉信息技术有限公司 一种基于故障树的嵌入式系统硬件故障检测及处理方法
CN109120450A (zh) * 2018-08-29 2019-01-01 郑州云海信息技术有限公司 一种虚拟化管理平台中neutron网络异常处理的方法及装置
CN111125164A (zh) * 2018-10-30 2020-05-08 千寻位置网络有限公司 参考站故障排查的方法及系统、排障终端
CN109800052A (zh) * 2018-12-15 2019-05-24 深圳先进技术研究院 应用于分布式容器云平台的异常检测与定位方法及装置
CN112905999A (zh) * 2021-03-01 2021-06-04 武汉未意信息技术有限公司 恶意网站软件漏洞扫描安全检测系统

Similar Documents

Publication Publication Date Title
CN111209131B (zh) 一种基于机器学习确定异构系统的故障的方法和系统
CN108337108A (zh) 一种基于关联分析的云平台故障自动化定位方法
US10931511B2 (en) Predicting computer network equipment failure
US11614943B2 (en) Determining problem dependencies in application dependency discovery, reporting, and management tool
US11379292B2 (en) Baseline modeling for application dependency discovery, reporting, and management tool
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
US10747544B1 (en) Dependency analyzer in application dependency discovery, reporting, and management tool
CN102937930B (zh) 应用程序监控系统及方法
CN110262972A (zh) 一种面向微服务应用的失效测试工具及方法
Lou et al. Mining dependency in distributed systems through unstructured logs analysis
US20210374044A1 (en) Testing agent for application dependency discovery, reporting, and management tool
US20190179691A1 (en) Log-based computer failure diagnosis
CN109800127A (zh) 一种基于机器学习的系统故障诊断智能化运维方法及系统
US20200409822A1 (en) Intelligent services and training agent for application dependency discovery, reporting, and management tool
CN105426680B (zh) 基于特征配置的故障树生成方法
KR20180108446A (ko) Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법
CN105095052B (zh) Soa环境下的故障检测方法及装置
CN115809183A (zh) 基于知识图谱的信创终端故障发现及处置的方法
CN102857371B (zh) 一种面向集群系统的动态配置管理方法
CN113282635A (zh) 一种微服务系统故障根因定位方法及装置
CN109501834A (zh) 一种道岔转辙机故障预测方法及装置
CN105867347B (zh) 一种基于机器学习技术的跨空间级联故障检测方法
CN109034423A (zh) 一种故障预警判定的方法、装置、设备及存储介质
CN105574590A (zh) 自适应总控灾备切换装置、系统及信号发生方法
CN114707401A (zh) 信号系统设备的故障预警方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Wu Hao

Inventor after: Shu Chang

Inventor after: Kong Jinzhu

Inventor after: Wei Lifeng

Inventor after: Li Zhiwei

Inventor after: Zhang Dongsong

Inventor before: Wu Hao

Inventor before: Shu Chang

Inventor before: Kong Jinzhu

Inventor before: Wei Lifeng

Inventor before: Tan Yusong

Inventor before: Li Zhiwei

Inventor before: Li Bao

Inventor before: Zhang Jianfeng

Inventor before: Zhang Dongsong

CB03 Change of inventor or designer information
WW01 Invention patent application withdrawn after publication

Application publication date: 20180727

WW01 Invention patent application withdrawn after publication