CN112559237A - 运维系统排障方法、装置、服务器和存储介质 - Google Patents

运维系统排障方法、装置、服务器和存储介质 Download PDF

Info

Publication number
CN112559237A
CN112559237A CN202110188400.XA CN202110188400A CN112559237A CN 112559237 A CN112559237 A CN 112559237A CN 202110188400 A CN202110188400 A CN 202110188400A CN 112559237 A CN112559237 A CN 112559237A
Authority
CN
China
Prior art keywords
troubleshooting
abstract
fault
rule
configuration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110188400.XA
Other languages
English (en)
Other versions
CN112559237B (zh
Inventor
汤汝鸣
隋楷心
刘大鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bishi Technology Co ltd
Original Assignee
Beijing Bishi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Bishi Technology Co ltd filed Critical Beijing Bishi Technology Co ltd
Priority to CN202110188400.XA priority Critical patent/CN112559237B/zh
Publication of CN112559237A publication Critical patent/CN112559237A/zh
Application granted granted Critical
Publication of CN112559237B publication Critical patent/CN112559237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例涉及运维系统排障技术领域,公开了一种运维系统排障方法、装置、服务器和存储介质。该方法根据排障规则数据、故障因果关系数据创建抽象排障规则,抽象排障规则包括抽象配置事件和抽象配置规则,抽象配置事件表示虚拟排障对象,抽象配置规则表示虚拟配置事件之间的关系;当排障启动条件被触发后,根据抽象排障规则、排障知识图谱生成实例排障图,实例排障图包实例化的虚拟事件和实例化的抽象配置规则,对实例排障图中的实例配置事件逐一进行故障排查,本发明通过建立通用排障规则,在具体业务场景,对不同的运维实体对象进行抽象,通过学习专家的运维经验,将运维经验抽象成排障图,由排障引擎自动执行,完成运维系统排障工作。

Description

运维系统排障方法、装置、服务器和存储介质
技术领域
本发明实施例涉及运维系统排障技术领域,特别涉及运维系统排障方法、装置、服务器和存储介质。
背景技术
在大型企业,尤其是银行、证券等公司的数据中心、生产网络中,运行着数量庞大的各类业务系统(简称为系统),而各个系统本身、系统之间的数据吞吐量也十分巨大。在这些网络中,各种系统复杂而庞大,同时,各个系统组件之间的关联关系也极其复杂,这对于整个系统的运维工作提出了巨大的挑战。为了有效监控、排查复杂网络条件中的各种故障,在大型的生产网络中,建立了许多不同的网络、设备的监控设施和平台,对系统及其关联的网络设备、物理组件等关键指标进行监控和告警,这些告警、错误日志、监控指标等构成了业务排障的基础。
在一个复杂的生产网络中,故障的影响范围往往不会局限于单一的设备。一般当业务系统发生故障时,故障会级联触发多个其他的系统异常,例如某个业务系统的交易量发生了明显下降,这既有可能是由于该业务系统本身的设备故障导致的,也有可能是其下游应用或子系统的故障导致的。这一现象导致在实际处理中,运维人员往往需要排查更广的范围才能准确判断故障发生的原因。另一方面,在实际的大型企业的内部网络环境中,不同的业务系统、设备可能归属于不同的运维处室、小组,其数据可能存在于不同的监控平台。为准确排查故障原因,运维人员需要协调不同部门的人员,将这些散落在不同的地方的数据、信息进行统一的收集、汇总、处理,需要很高的沟通成本,效率低下。最后,传统的方法是通过人工逐个排查,手动做信息汇总,让运维专家来决定如何止损和找到故障根本原因,整个过程耗时长。同时专家排障经验都在人脑中,很难做到积累并传承。
总结来说,发明人发现传统的排障流程至少存在如下问题:
1)故障涉及多个系统异常,排障范围广、难度高;
2)多方协作排障,信息收集慢,人工排障时间长;
3)专家积累大量故障分析决策经验,难以沉淀固化、重复利用。
发明内容
为有效解决背景技术中的至少一个问题,本发明实施方式的目的在于提供一种运维系统排障方法、装置、服务器和存储介质,建立通用排障规则,在具体业务场景,对不同的运维实体对象进行抽象,通过学习专家的运维经验,将运维经验抽象成排障图,由排障引擎自动执行,完成运维系统排障工作。
为解决上述技术问题,一方面,本发明的实施方式提供了一种运维系统排障方法,包括:
获取排障规则数据;
获取故障因果关系数据;
根据所述排障规则数据、所述故障因果关系数据创建抽象排障规则,所述抽象排障规则包括抽象配置事件和抽象配置规则,所述抽象配置事件表示虚拟排障对象,所述抽象配置规则表示所述虚拟配置事件之间的关系;
获取排障知识图谱,所述排障知识图谱包括故障特征及相应故障原因;
当排障启动条件被触发后,根据所述抽象排障规则、所述排障知识图谱生成实例排障图,所述实例排障图包括实例配置事件和实例配置规则,所述实例配置事件是实例化的所述虚拟事件,所述实例配置规则是实例化的所述抽象配置规则;
对所述实例排障图中的实例配置事件逐一进行故障排查。
进一步可选的,在所述排障启动条件被触发前,所述方法还包括:
获取异常检测数据;
所述根据所述抽象排障规则、所述排障知识图谱生成实例排障图为:根据所述抽象排障规则、所述排障知识图谱和所述异常检测数据生成实例排障图。
进一步可选的,所述排障启动条件包括以下方式中的一种或多种:
方式一、其他监控和/或告警平台的API触发;
方式二、流式数据阈值触发;
方式三、流式数据异常检测触发;
方式四、其他脚本命令触发。
进一步可选的,还包括:
对排查出的故障信息进行根因定位,以确定故障产生的原因。
进一步可选的,所述抽象排障规则和所述实例排障图是包括节点和边的树状图,所述抽象配置事件和所述实例配置事件与节点对应,所述抽象配置规则和所述实例配置规则与边对应,所述根据所述抽象排障规则、所述排障知识图谱生成实例排障图包括:
对于每个包含子结点的节点,给每个子节点赋值一个实体对象,所述实体对象由相应的根结点或父结点确定。
进一步可选的,所述根据所述抽象排障规则、所述排障知识图谱生成实例排障图还包括:
根据所述抽象排障规则图中边的类型确定子结点的实体对象。
进一步可选的,所述Oracle排障知识图谱还包括实体的空间关系,所述根据所述抽象排障规则图中边的类型确定子结点的实体对象包括:
若边的类型为“同对象”,则子结点直接继承父结点的实体对象;和/或,
若边的类型不是“同对象”,则调用相应的空间关系数据,根据父结点、子结点各自的空间类型,查找对应的实体对象。
进一步可选的,还包括:
图形化显示所述抽象排障规则,和/或,图形化显示所述实例排障图。
进一步可选的,所述抽象配置事件和实例配置事件包括基本事件和虚拟事件,所述基本事件为真实事件,所述虚拟事件为概念事件,每个所述虚拟事件链接至少一个基本事件,所述虚拟事件链接的任一个所述基本事件,只要有一个基本事件结点异常则相应虚拟事件结点异常。
进一步可选的,所述基本事件包含检测实体、检测数据、检测方法和可视化面板。
进一步可选的,所述检测实体抽象成类型,根据需求定义生效范围,与所述排障知识图谱CMDB管理解耦;和/或,
所述检测数据抽象成类型或者接口,根据需求定义生效范围,与指标对象管理解耦;和/或,
所述测方法为规则、算法或查询脚本,与检测逻辑解耦。
进一步可选的,所述抽象配置规则包括相应抽象配置事件的原因事件、结果事件、空间关系、时间关系和权重五部分。
进一步可选的,所述基本事件为指定对象,或所述基本事件为指定类型对象。
进一步可选的,所述虚拟事件链接的基本事件之间为或的关系。
另一方面,一种运维系统排障装置,包括:
规则数据获取模块,用于获取排障规则数据;
因果关系获取模块,用于获取故障因果关系数据;
抽象规则创建模块,用于根据所述排障规则数据、所述故障因果关系数据创建抽象排障规则,所述抽象排障规则包括抽象配置事件和抽象配置规则,所述抽象配置事件表示虚拟排障对象,所述抽象配置规则表示所述虚拟配置事件之间的关系;
图谱获取模块,用于获取排障知识图谱,所述排障知识图谱包括故障特征及相应故障原因;
实例排障图创建模块,用于当排障启动条件被触发后,根据所述抽象排障规则、所述排障知识图谱生成实例排障图,所述实例排障图包括实例配置事件和实例配置规则,所述实例配置事件是实例化的所述虚拟事件,所述实例配置规则是实例化的所述抽象配置规则;
故障排查模块,用于对所述实例排障图中的实例配置事件逐一进行故障排查。
再一方面,一种服务器,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的运维系统排障方法。
又一方面,一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行上述的运维系统排障方法。
本发明实施例提供的运维系统排障方法、装置、服务器和存储介质,提出了一个基于排障图和专家领域知识的自动化排障系统,将整个专家人工排障的流程自动化。传统的自动化排障流程需要对每一个运维实体对象进行单独的配置,这样的流程费时费力,且随着系统的升级、变更,难以有效地进行维护。因此,本方法中提出的排障引擎,将对不同的运维实体对象进行抽象,对运维实体、故障类型进行分类,通过学习专家的运维经验,将运维经验抽象成排障图,将历史的告警、故障抽象为特定的排障事件和规则。通过高度抽象的配置,结合CMDB等信息,对抽象化的排障流程进行实例化,以减少人工配置的复杂度。
具体的,首先,提出了一种通用的排障引擎架构,能够适用于应用、存储、网络、硬件等各个领域的运维排障问题。其次,必示排障引擎能够集中收集并展示运维需要用到的各种数据,方便运维人员查看。在此基础上,通过排障引擎中的智能异常检测方法、根因定位、根因止损、影响力分析的算法得到具体的排障结果数据,辅助运维人员的排障工作。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本发明实施例提供的一种运维系统排障方法流程;
图2是本发明实施例中运维排障系统功能结构框图;
图3是本发明实施例提供的另一种运维系统排障方法流程;
图4是本发明实施例抽象排障图结构示意图;
图5是本发明实施例中基本事件和虚拟事件结构示意图;
图6是本发明实施例中数据库异常虚拟结点结构示意图;
图7是本发明实施例中事件配置规则结构示意图;
图8是本发明实施例中运维系统排障装置功能结构示意图;
图9、图10是本发明实施例中 TOP3等待事件虚拟排障图及相应实例化实例排障图;
图11、图12是本发明实施例中TOP5等待事件虚拟排障图及相应实例化实例排障图;
图13、图14是本发明实施例中CMDB中物理拓扑信息虚拟排障图及相应实例化实例排障图;
图15是本发明实施例中某应用场景中虚拟排障图结构示意图;
图16是本发明实施例中响应时间异常实例排障图结构示意图;
图17是本发明实施例中存储排障场景实例排障图结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
本发明的第一实施方式涉及一种运维系统排障方法。其流程如图1所示,具体如下:
101、获取排障规则数据;
102、获取故障因果关系数据;
103、根据排障规则数据、故障因果关系数据创建抽象排障规则,抽象排障规则包括抽象配置事件和抽象配置规则,抽象配置事件表示虚拟排障对象,抽象配置规则表示虚拟配置事件之间的关系;
104、获取排障知识图谱,排障知识图谱包括故障特征及相应故障原因;
105、当排障启动条件被触发后,根据抽象排障规则、排障知识图谱生成实例排障图,实例排障图包括实例配置事件和实例配置规则,实例配置事件是实例化的虚拟事件,实例配置规则是实例化的抽象配置规则;
106、对实例排障图中的实例配置事件逐一进行故障排查。
本实施提供的一种运维系统排障方法,将整个专家人工排障的流程自动化。传统的自动化排障流程需要对每一个运维实体对象进行单独的配置,这样的流程费时费力,且随着系统的升级、变更,难以有效地进行维护。因此,本方法中提出的运维系统排障,首先建立通用排障规则,在具体业务场景,将对不同的运维实体对象进行抽象,对运维实体、故障类型进行分类,通过学习专家的运维经验,将运维经验抽象成排障图,由排障引擎自动执行,完成运维系统排障工作,具体的,可以将历史的告警、故障抽象为特定的排障事件和规则。通过高度抽象的配置,结合CMDB等信息,对抽象化的排障流程进行实例化,以减少人工配置的复杂度。
作为上述实施例的一种改进,本发明实施例提供另一种运维系统排障方法。该方法由运维系统排障引擎实现,运维系统排障引擎是一种利用类树状结构将人工排障知识进行抽象、编排并自动化执行的故障分析方法,主要用于IT技术架构的系统排障,定位系统故障的原因,并推荐最好的故障止损和解决办法。参见图2,排障引擎可以按照应用、中间件、基础组件等不同领域进行组织、连接,不同的领域专家可以维护自己负责领域的排障引擎,按照实际故障场景可以将不同的领域知识编排在一起,实现快速的运维系统排障工作,主要用途为:实现IT系统的自动化排障、根因分析、修复方案推荐;对于问题事件提供影响力分析功能;将不同领域的排障知识按照统一规范进行整理和保存;综合组织多种类型的数据并集中显示,方便运维人员了解系统的健康状况。其流程如图3所示,具体如下:
301、获取排障规则数据;
其中,排障规则数据可以由人工输入,如运维人员可以通过配置页面完成Oracle排障规则数据的配置,并通过图形化界面进行显示。
302、获取故障因果关系数据;
基于历史数据,排障引擎将通过机器学习算法(FP-Growth、Pearson Correlation等)自动化挖掘各个事件之间的关联关系,对排障规则进行补充、优化。在排障规则图中,一个特定的排障事件对应图中的一个结点,两个相关联事件之间的关系则对应图中相应结点之间的一条边。由于关联事件之间存在因果关系,因此排障规则图中的边为有向边。边的方向为从原因事件指向结果事件。本发明实施例对于因果关系挖掘的算法不做限定,也非本发明所关注的创新部分,此处不再赘述。
303、根据排障规则数据、故障因果关系数据创建抽象排障规则,抽象排障规则包括抽象配置事件和抽象配置规则,抽象配置事件表示虚拟排障对象,抽象配置规则表示虚拟配置事件之间的关系;
抽象排障规则可以命名为抽象排障图,是排障引擎工作的基础,抽象排障图基于专家领域知识和以往的排障经验,运维人员将对不同的运维实体对象类型进行抽象,对各运维实体上可能发生的故障类型进行分类,并建立排障的大致流程,将基本的运维经验由运维系统完成,抽象排障图是一种将专家经验抽象定义的数据结构,参见图4,综合串联了运维数据(如指标、日志等)、配置数据(CMDB知识图谱,即排障知识图谱)、检测方法(异常检测、脚本查询)等运维信息。图上的结点称为事件、边称为规则。图4表示应用成功率或者响应时间出问题,可能原因是数据库,数据库下又细分了AAS -Total、CPU利用率、内存利用率、表空间使用率。
其中,配置数据可以包括相应抽象配置事件的原因事件、结果事件、空间关系、时间关系和权重五部分。
304、获取排障知识图谱,排障知识图谱包括故障特征及相应故障原因;
305、获取异常检测数据;
306、当排障启动条件被触发后,根据抽象排障规则、排障知识图谱和异常检测数据生成实例排障图,实例排障图包括实例配置事件和实例配置规则,实例配置事件是实例化的虚拟事件,实例配置规则是实例化的抽象配置规则;
一些可选实施例中,排障启动条件包括以下方式中的一种或多种:
方式一、其他监控和/或告警平台的API触发;
方式二、流式数据阈值触发;
方式三、流式数据异常检测触发;
方式四、其他脚本命令触发。
抽象排障规则和实例排障图是包括节点和边的树状图,抽象配置事件和实例配置事件与节点对应,抽象配置规则和实例配置规则与边对应。
一些可选实施例中,根据抽象排障规则、排障知识图谱生成实例排障图可以包括但不限于通过以下过程实现:
对于每个包含子结点的节点,给每个子节点赋值一个实体对象,实体对象由相应的根结点或父结点确定。
根据抽象排障规则图中边的类型确定子结点的实体对象。
具体的,若边的类型为“同对象”,则子结点直接继承父结点的实体对象;若边的类型不是“同对象”,则调用相应的空间关系数据,根据父结点、子结点各自的空间类型,查找对应的实体对象。
一些可选实施例中,如图5所示,抽象配置事件和实例配置事件包括基本事件和虚拟事件,基本事件为真实事件,虚拟事件为概念事件,每个虚拟事件链接至少一个基本事件,虚拟事件链接的任一个基本事件,只要有一个基本事件结点异常则相应虚拟事件结点异常。
基本事件:包含检测实体、检测数据、检测方法、可视化面板四部分。
检测实体:代表具体的机器、IP、设备等信息。
基本用法:指定特定类型机器的具体某台主机,只针对特定的主机生效。
高级用法:只指定实体的类型,比如实体设置为DB标签,表示所有的数据库机器,相当于通过标签方式做了实体的筛选。
检测数据:代表指标、日志、告警、接口等数据;
基本用法:指定特定的指标名称,比如AAS-Total, 表示数据库平均会话数,可以填写大于等于1个指标,如果是单个指标则一般使用单指标异常检测方法,多指标则使用多指标异常检测方法。
高级用法:指定获取指标的接口或者指标的类型,在事件实例化时动态的获取对应的检测指标,生成多个事件实例,跟检测实体的高级用法类似。可以填写正则表达式,Restful接口等.
检测方法:具体判断结点是否异常检测逻辑,常见的有单指标异常检测、多指标异常检测、日志关键字检测、匹配告警等,支持定义扩展更多的方法。
检测方法的分析结果为正常、异常两种状态,同时包含检测报告
可视化面板:给出结点详细的可视化风格,一般是折线图、柱状图、柄状图、日志等。不同的事件可以选择不同的可视化风格。
需要说明的是,检测实体可以抽象成类型,可以灵活定义生效范围,可以跟CMDB管理解耦;检测数据可以抽象成类型或者接口,可以灵活定位生效范围,跟指标对象管理解耦;检测方法按灵活可扩展,可以是规则、算法、查询脚本等,跟检测逻辑解耦;支持丰富的可视化面板,灵活可扩展,可视化是事件管理解耦;结合实际CMDB信息、指标管理接口等信息,在故障时刻可以按照当前CMDB等信息自动的实例化事件,实现全方位的监控和排查。
举例:
基本用法:
1.数据库平均会话数:检测数据库实例的AAS-TOTAL是否异常,检测方法为单指标异常检测,结果为AAS-TOTAL是否为异常,同时给出详细的异常信息。
表1 AAS-TOTAL(DB)
Figure 22100DEST_PATH_IMAGE001
2. CPU利用率:检测数据库实例DB1001的CPU使用异常,检测方法为恒定阈值,这种事件只在DB1001机器生效,其他数据库机器不生效
表2 CPU利用率(DB1001)
Figure 695658DEST_PATH_IMAGE002
3.数据库错误日志:检测数据库实例的日志是否包含错误关键字,如果包含则异常
表3数据库错误日志(DB)
Figure 160138DEST_PATH_IMAGE003
- 高级用法:
1 . TOP-K等待事件分析:数据库AAS-Total告警时,接下来需要分析当前发生哪些等待事件,一般只需要分析Top-K的等待事件,实际等待事件可能无法提前配置在事件中,需要在触发排障时动态生成,所以检测数据需要配置成接口。事件实例化时会动态生成不同检测数据的事件实例。主要用法定位发现新的数据库等待事件。
表4 TOP-K等待事件(DB)
Figure 235541DEST_PATH_IMAGE004
2. 新模式日志发现:实际有些新的故障无法通过之前配置模式(关键字、日志模板)的日志监控告警发现问题,需要通过一些新模式的日志定位原因。
表5新模式日志(DB)
Figure 760063DEST_PATH_IMAGE005
虚拟事件结点:是一种逻辑概念的事件,它链接到多个基本事件结点,只要有一个基本事件结点异常则虚拟事件结点异常。如图6所示数据库异常虚拟结点。需要说明的是,虚拟事件没有明确的检测数据,结点的状态取决于子结点;方便配置不同领域的事件的因果关系,触发领域的全流程的自动化排障;方便总结归纳问题,比如CPU异常可能是CPUUSAGE、CPU IDL等多个基本事件的组合关系。
本发明实施例中,虚拟事件为基本事件或的关系,对于多个事件的与、异或、与或组合等复杂的关系本发明实施不做过多描述,目前我们只需要或的关系,其他的关系做成单个基本结点,在检测方法中实现复杂的关系,方便维护理解。
排障图中,关于事件配置规则对应的边,用于表达事件之间的因果关系。图7是一个事件配置规则的例子,数据库的核心指标AAS-TOTAL可能会导致相关业务的响应时间异常。
配置事件规则:由原因事件、结果事件、空间关系、时间关系、权重五部分组成,其中,原因事件:会来带影响的事件,比如上面例子中的AAS-TOTAL事件;结果事件:为被影响的事件,比如上面例子中的响应时间事件;空间关系:表示两个事件在空间存在一定的关系;
基本用法:通过查询物理拓扑、应用拓扑得到的关系;
关联:查询CMDB,判断从物理拓扑上是否关联;
同对象:两个事件属于同一个实体;
上游业务:在业务场景中关联关系的细分,表示寻找上游业务;
下游业务:在业务场景中关联关系的细分,表示寻找下游业务;
高级用法:通过算法计算得到的关系;
TOP-K实体:通过脚本或者接口查询指标最大的TOP-K实体;
多维算法:通过多维定位算法定位到具体哪些维度属性的事件有问题,输出具体的维度的虚拟事件,比如AP异常、交易码异常等;
调用链算法:通过调用链算法,输出TOP-3的异常业;
链路包含:属于同一个网络路径;
时间关系:表示两个事件因果关系成立的最大时间间隔;
权重:表示因果关系成立置信度,用于根因排序。可以人工设置或者算法学习更新。
307、对实例排障图中的实例配置事件逐一进行故障排查。
308、对排查出的故障信息进行根因定位,以确定故障产生的原因。
309、图形化显示抽象排障规则,和/或,图形化显示实例排障图。
实例化排障则是排障引擎实际的工作流程,在接收到具体的排障需求时(例如告警、异常检测结果、特定脚本等),排障引擎会根据触发条件(例如告警的具体时间、设备位置、现象),基于已配置的排障规则,自动化生成排障结果:
1)生成排障图:在故障发生时,必示排障引擎根据已配置的抽象排障图、CMDB空间关系、实际发生故障的时间和实例等信息生成具体的实例化排障图,图中的结点为待排障的事件,边为事件之间的关系;
2)执行排障流程:结合平时运维用到的告警、日志、指标等数据,对每一项待排障的事件,调用对应的智能检测算法排查各个事件是否异常;
再得到每个待排障事件的异常检测结果后,排障引擎会汇总所有数据,展示排障结果。上述排障结果可以进一步被其他的上层应用使用,以展示更全面的排障结果。
本实施提供的一种运维系统排障方法,将整个专家人工排障的流程自动化。传统的自动化排障流程需要对每一个运维实体对象进行单独的配置,这样的流程费时费力,且随着系统的升级、变更,难以有效地进行维护。因此,本方法中提出的运维系统排障,首先建立通用排障规则,在具体业务场景,将对不同的运维实体对象进行抽象,对运维实体、故障类型进行分类,通过学习专家的运维经验,将运维经验抽象成排障图,由排障引擎自动执行,完成运维系统排障工作,具体的,可以将历史的告警、故障抽象为特定的排障事件和规则。通过高度抽象的配置,结合CMDB等信息,对抽象化的排障流程进行实例化,以减少人工配置的复杂度。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第三实施方式涉及一种运维系统排障装置,如图8所示,包括:
规则数据获取模块81,用于获取排障规则数据;
因果关系获取模块82,用于获取故障因果关系数据;
抽象规则创建模块83,用于根据所述排障规则数据、所述故障因果关系数据创建抽象排障规则,所述抽象排障规则包括抽象配置事件和抽象配置规则,所述抽象配置事件表示虚拟排障对象,所述抽象配置规则表示所述虚拟配置事件之间的关系;
图谱获取模块84,用于获取排障知识图谱,所述排障知识图谱包括故障特征及相应故障原因;
实例排障图创建模块85,用于当排障启动条件被触发后,根据所述抽象排障规则、所述排障知识图谱生成实例排障图,所述实例排障图包括实例配置事件和实例配置规则,所述实例配置事件是实例化的所述虚拟事件,所述实例配置规则是实例化的所述抽象配置规则;
故障排查模块86,用于对所述实例排障图中的实例配置事件逐一进行故障排查。
本实施提供的一种运维系统排障装置,将整个专家人工排障的流程自动化。传统的自动化排障流程需要对每一个运维实体对象进行单独的配置,这样的流程费时费力,且随着系统的升级、变更,难以有效地进行维护。因此,本方法中提出的运维系统排障,首先建立通用排障规则,在具体业务场景,将对不同的运维实体对象进行抽象,对运维实体、故障类型进行分类,通过学习专家的运维经验,将运维经验抽象成排障图,由排障引擎自动执行,完成运维系统排障工作。
不难发现,本实施方式为与第一实施方式相对应的装置实施例,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
由于第二实施方式与本实施方式相互对应,因此本实施方式可与第二实施方式互相配合实施。第二实施方式中提到的相关技术细节在本实施方式中依然有效,在第二实施方式中所能达到的技术效果在本实施方式中也同样可以实现,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第二实施方式中。
本发明第四实施方式涉及一种服务器,包括
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的运维系统排障方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本发明第五实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
具体排障场景
数据库CPU场景分析:数据库实例DB1001发生CPU告警,查询到TOP3的SQL ID有ID1, ID2, DI3。最终将图9所述虚拟排障图自动实例化图10所示实例排障图。
参见图11、图12,数据库TOP5等待事件分析:数据库实例DB1001发生AAS-TOTAL告警,自动实例化排障图,生成TOP3的等待事件,并触发后续的排查。CMDB中物理拓扑信息:DB1001机器关联的存储是SAN1001。
网络定位场景: CMDB中物理拓扑信息:10.0.0.1访问11.0.0.1 80端口经过了Switch1, Router1, Switch2, Router2这些设备。具体的排障图和实例化后的排障图如图13、图14所示。
应用排障场景:
成功率异常场景:成功率下降一般分为两种,系统成功率下降一般原因是调用超时、报错导致的;业务成功率下降一般原因是业务上的逻辑错误,比如转账金额不对等。
人工排障的流程:
找到故障时刻变化量最大的错误码。
利用TOP-K的错误码过滤交易明细数据,构建子服务的调用链,找到带错误码最根源的子服务。
做多维定位分析,判断是内部问题还是外部问题。如果是外部问题则停止定位分析,如果是内部问题需要对根源的子服务定位他们的AP、DB、网络等具体问题。
将人工排障流程自动化,需要配置的排障图如图15所示:
响应时间异常:一般需要通过调用链信息定位到响应时间异常且对总耗时贡献最大的子系统,或者两个子系统的边上耗时(网络、主机队列问题)。如果定位某个系统处理时间长,需要进一步排查系统各个组件。排障图配置如图16所示:
存储排障场景:存储排障的过程由存储SG(Storage Group)对应的DB发生读写异常触发,首先需要确定SG的黄金指标RT和其他几个重点指标是否异常,随后去按照SG到DB的拓扑链路(存储-前端口-存储交换机-核心交换机-主机交换机-HBA卡-主机)逐个排查链路中各个实体是否发生日志或者指标异常。排障图配置如图17所示:
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (17)

1.一种运维系统排障方法,其特征在于,包括:
获取排障规则数据;
获取故障因果关系数据;
根据所述排障规则数据、所述故障因果关系数据创建抽象排障规则,所述抽象排障规则包括抽象配置事件和抽象配置规则,所述抽象配置事件表示虚拟排障对象,所述抽象配置规则表示所述虚拟配置事件之间的关系;
获取排障知识图谱,所述排障知识图谱包括故障特征及相应故障原因;
当排障启动条件被触发后,根据所述抽象排障规则、所述排障知识图谱生成实例排障图,所述实例排障图包括实例配置事件和实例配置规则,所述实例配置事件是实例化的所述虚拟事件,所述实例配置规则是实例化的所述抽象配置规则;
对所述实例排障图中的实例配置事件逐一进行故障排查。
2.根据权利要求1所述的运维系统排障方法,其特征在于,在所述排障启动条件被触发前,所述方法还包括:
获取异常检测数据;
所述根据所述抽象排障规则、所述排障知识图谱生成实例排障图为:根据所述抽象排障规则、所述排障知识图谱和所述异常检测数据生成实例排障图。
3.根据权利要求1所述的运维系统排障方法,其特征在于,所述排障启动条件包括以下方式中的一种或多种:
方式一、其他监控和/或告警平台的API触发;
方式二、流式数据阈值触发;
方式三、流式数据异常检测触发;
方式四、其他脚本命令触发。
4.根据权利要求1所述的运维系统排障方法,其特征在于,还包括:
对排查出的故障信息进行根因定位,以确定故障产生的原因。
5.根据权利要求1所述的运维系统排障方法,其特征在于,所述抽象排障规则和所述实例排障图是包括节点和边的树状图,所述抽象配置事件和所述实例配置事件与节点对应,所述抽象配置规则和所述实例配置规则与边对应,所述根据所述抽象排障规则、所述排障知识图谱生成实例排障图包括:
对于每个包含子结点的节点,给每个子节点赋值一个实体对象,所述实体对象由相应的根结点或父结点确定。
6.根据权利要求5所述的运维系统排障方法,其特征在于,所述根据所述抽象排障规则、所述排障知识图谱生成实例排障图还包括:
根据所述抽象排障规则中边的类型确定子结点的实体对象。
7.根据权利要求6所述的运维系统排障方法,其特征在于,所述Oracle排障知识图谱还包括实体的空间关系,所述根据所述抽象排障规则图中边的类型确定子结点的实体对象包括:
若边的类型为“同对象”,则子结点直接继承父结点的实体对象;
若边的类型不是“同对象”,则调用相应的空间关系数据,根据父结点、子结点各自的空间类型,查找对应的实体对象。
8.根据权利要求1所述的运维系统排障方法,其特征在于,还包括:
图形化显示所述抽象排障规则,和/或,图形化显示所述实例排障图。
9.根据权利要求3所述的运维系统排障方法,其特征在于,所述抽象配置事件和实例配置事件包括基本事件和虚拟事件,所述基本事件为真实事件,所述虚拟事件为概念事件,每个所述虚拟事件链接至少一个基本事件,所述虚拟事件链接的任一个所述基本事件,只要有一个基本事件结点异常则相应虚拟事件结点异常。
10.根据权利要求9所述的运维系统排障方法,其特征在于,所述基本事件包含检测实体、检测数据、检测方法和可视化面板。
11.根据权利要求10所述的运维系统排障方法,其特征在于,所述检测实体抽象成类型,根据需求定义生效范围,与所述排障知识图谱CMDB管理解耦;和/或,
所述检测数据抽象成类型或者接口,根据需求定义生效范围,与指标对象管理解耦;和/或,
所述检测方法为规则、算法或查询脚本,与检测逻辑解耦。
12.根据权利要求1所述的运维系统排障方法,其特征在于,所述抽象配置规则包括相应抽象配置事件的原因事件、结果事件、空间关系、时间关系和权重五部分。
13.根据权利要求9所述的运维系统排障方法,其特征在于,所述基本事件为指定对象,或所述基本事件为指定类型对象。
14.根据权利要求9所述的运维系统排障方法,其特征在于,所述虚拟事件链接的基本事件之间为或的关系。
15.一种运维系统排障装置,其特征在于,包括:
规则数据获取模块,用于获取排障规则数据;
因果关系获取模块,用于获取故障因果关系数据;
抽象规则创建模块,用于根据所述排障规则数据、所述故障因果关系数据创建抽象排障规则,所述抽象排障规则包括抽象配置事件和抽象配置规则,所述抽象配置事件表示虚拟排障对象,所述抽象配置规则表示所述虚拟配置事件之间的关系;
图谱获取模块,用于获取排障知识图谱,所述排障知识图谱包括故障特征及相应故障原因;
实例排障图创建模块,用于当排障启动条件被触发后,根据所述抽象排障规则、所述排障知识图谱生成实例排障图,所述实例排障图包括实例配置事件和实例配置规则,所述实例配置事件是实例化的所述虚拟事件,所述实例配置规则是实例化的所述抽象配置规则;
故障排查模块,用于对所述实例排障图中的实例配置事件逐一进行故障排查。
16.一种服务器,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至14中任一所述的运维系统排障方法。
17.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至14中任一项所述的运维系统排障方法。
CN202110188400.XA 2021-02-19 2021-02-19 运维系统排障方法、装置、服务器和存储介质 Active CN112559237B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110188400.XA CN112559237B (zh) 2021-02-19 2021-02-19 运维系统排障方法、装置、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110188400.XA CN112559237B (zh) 2021-02-19 2021-02-19 运维系统排障方法、装置、服务器和存储介质

Publications (2)

Publication Number Publication Date
CN112559237A true CN112559237A (zh) 2021-03-26
CN112559237B CN112559237B (zh) 2021-07-06

Family

ID=75034341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110188400.XA Active CN112559237B (zh) 2021-02-19 2021-02-19 运维系统排障方法、装置、服务器和存储介质

Country Status (1)

Country Link
CN (1) CN112559237B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268891A (zh) * 2021-06-30 2021-08-17 云智慧(北京)科技有限公司 一种运维系统的建模方法和装置
CN113326172A (zh) * 2021-08-04 2021-08-31 云智慧(北京)科技有限公司 一种运维知识的处理方法、装置及设备
CN113360722A (zh) * 2021-06-25 2021-09-07 杭州优云软件有限公司 一种基于多维数据图谱的故障根因定位方法及系统
CN114153646A (zh) * 2021-12-09 2022-03-08 建信金融科技有限责任公司 一种运维故障处置方法、装置及存储介质、处理器

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5642033A (en) * 1995-12-29 1997-06-24 Bartol; Luis E. Overload-protected and reference-voltage-loss-protected electronic voltage regulator for vehicular-type alternators that both tolerates momentary high field currents and suppresses low frequency noise
CN109218114A (zh) * 2018-11-12 2019-01-15 西安微电子技术研究所 一种基于决策树的服务器故障自动检测系统及检测方法
CN111209131A (zh) * 2019-12-30 2020-05-29 航天信息股份有限公司广州航天软件分公司 一种基于机器学习确定异构系统的故障的方法和系统
CN111541559A (zh) * 2020-03-23 2020-08-14 广东工业大学 一种基于因果规则的故障定位方法
CN112152830A (zh) * 2019-06-28 2020-12-29 中国电力科学研究院有限公司 一种智能的故障根因分析方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5642033A (en) * 1995-12-29 1997-06-24 Bartol; Luis E. Overload-protected and reference-voltage-loss-protected electronic voltage regulator for vehicular-type alternators that both tolerates momentary high field currents and suppresses low frequency noise
CN109218114A (zh) * 2018-11-12 2019-01-15 西安微电子技术研究所 一种基于决策树的服务器故障自动检测系统及检测方法
CN112152830A (zh) * 2019-06-28 2020-12-29 中国电力科学研究院有限公司 一种智能的故障根因分析方法及系统
CN111209131A (zh) * 2019-12-30 2020-05-29 航天信息股份有限公司广州航天软件分公司 一种基于机器学习确定异构系统的故障的方法和系统
CN111541559A (zh) * 2020-03-23 2020-08-14 广东工业大学 一种基于因果规则的故障定位方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360722A (zh) * 2021-06-25 2021-09-07 杭州优云软件有限公司 一种基于多维数据图谱的故障根因定位方法及系统
CN113360722B (zh) * 2021-06-25 2022-08-09 杭州优云软件有限公司 一种基于多维数据图谱的故障根因定位方法及系统
CN113268891A (zh) * 2021-06-30 2021-08-17 云智慧(北京)科技有限公司 一种运维系统的建模方法和装置
CN113326172A (zh) * 2021-08-04 2021-08-31 云智慧(北京)科技有限公司 一种运维知识的处理方法、装置及设备
CN113326172B (zh) * 2021-08-04 2021-11-02 云智慧(北京)科技有限公司 一种运维知识的处理方法、装置及设备
CN114153646A (zh) * 2021-12-09 2022-03-08 建信金融科技有限责任公司 一种运维故障处置方法、装置及存储介质、处理器

Also Published As

Publication number Publication date
CN112559237B (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN112559237B (zh) 运维系统排障方法、装置、服务器和存储介质
CN111209131B (zh) 一种基于机器学习确定异构系统的故障的方法和系统
CN105095048B (zh) 一种基于业务规则的监控系统告警关联处理方法
KR20210019564A (ko) 운영 유지 시스템 및 방법
CN112152830A (zh) 一种智能的故障根因分析方法及系统
CN108197261A (zh) 一种智慧交通操作系统
CN105095052B (zh) Soa环境下的故障检测方法及装置
CN109669844A (zh) 设备故障处理方法、装置、设备和存储介质
CN101997709A (zh) 一种根告警数据分析的方法及其系统
CN112559376A (zh) 一种数据库故障的自动定位方法、装置及电子设备
CN113360722B (zh) 一种基于多维数据图谱的故障根因定位方法及系统
CN111259073A (zh) 基于日志、流量和业务访问的业务系统运行状态智能研判系统
CN112415331A (zh) 基于多源故障信息的电网二次系统故障诊断方法
CN115237717A (zh) 一种微服务异常检测方法和系统
CN111913824B (zh) 确定数据链路故障原因的方法及相关设备
KR20190001501A (ko) 통신망의 인공지능 운용 시스템 및 이의 동작 방법
CN108108445A (zh) 一种智能数据处理方法和系统
CN117041029A (zh) 网络设备故障处理方法、装置、电子设备及存储介质
CN113505048A (zh) 基于应用系统画像的统一监控平台及实现方法
CN114579407A (zh) 一种因果关系检验和微服务指标预测报警方法
CN112241424A (zh) 一种基于知识图谱的空管设备应用系统及方法
CN107579844A (zh) 一种基于业务路径和频度矩阵的动态关联故障挖掘方法
CN115438093A (zh) 一种电力通信设备故障判断方法与检测系统
CN112559238B (zh) 用于Oracle数据库的排障策略生成方法装置、处理器和存储介质
Peng et al. Research on data quality detection technology based on ubiquitous state grid internet of things platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant