CN111144720B - 运维场景的关联分析方法、装置及计算机可读存储介质 - Google Patents

运维场景的关联分析方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN111144720B
CN111144720B CN201911284870.5A CN201911284870A CN111144720B CN 111144720 B CN111144720 B CN 111144720B CN 201911284870 A CN201911284870 A CN 201911284870A CN 111144720 B CN111144720 B CN 111144720B
Authority
CN
China
Prior art keywords
node
association
fault
influence
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911284870.5A
Other languages
English (en)
Other versions
CN111144720A (zh
Inventor
王智超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Big Data Technologies Co Ltd
Original Assignee
New H3C Big Data Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Big Data Technologies Co Ltd filed Critical New H3C Big Data Technologies Co Ltd
Priority to CN201911284870.5A priority Critical patent/CN111144720B/zh
Publication of CN111144720A publication Critical patent/CN111144720A/zh
Application granted granted Critical
Publication of CN111144720B publication Critical patent/CN111144720B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了一种运维场景的关联分析方法、装置及计算机可读存储介质,方法包括:获取故障结点;获取所述故障结点的关联结点;所述关联结点为与所述故障结点存在关联关系的结点;若待分析结点为关联结点,则获取所述待分析结点与所述故障结点之间的关联路径;根据关联结点信息,计算所述关联路径上的每一关联结点的结点分数;根据所述关联路径和所述结点分数,获取所述待分析结点对应于所述故障结点的关联受影响度。本申请的运维场景的关联分析方法,采用的计算方式更合理,得到的关联受影响度更加准确、更具有参考价值,可以为运维提供更加有效准确的数据,在关联分析的过程中能够更快地聚焦,排除关联度较低的数据,减轻运维人员的工作负担。

Description

运维场景的关联分析方法、装置及计算机可读存储介质
技术领域
本申请涉及计算机网络技术领域,具体涉及一种运维场景的关联分析方法、装置及计算机可读存储介质。
背景技术
运维场景中的关联分析越来越重要,关联分析是智能化运维的一个基础。关联分析是一种简单、实用的分析技术,就是发现存在于大量数据集中的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。CMDB(Configuration ManagementDatabase,配置管理数据库)是关联分析的重要组成部分。现有技术的CMDB提供的数据已经无法满足日益复杂的场景。因此需要对关联分析算法进行升级优化。
现有方案是只要存在关系就认为存在影响。每个参数都会对分析结果造成一定的影响,如配置项关系影响方向的不同直接对计算下层结点影响造成相当大误差,正向影响是加权,而反向影响正好相反。配置项关系影响方向即影响的走向,就是事件发生后影响的走向。配置项关系影响系数即产生的数据偏差值。关联受影响度即某一结点故障对当前结点的关联影响数值。连接关系为物理或逻辑上存在连接属性且没有直接影响,如交换机连接服务器。
如图1所示,URL应用安装在Linux_172.50.2.109操作系统上,并使用了MySQL数据库,MySQL数据库应用运行在Linux_192.168.51.230操作系统上。Linux_172.50.2.109是一个CAS集群(一种云计算管理平台)主机上的虚拟机。CAS集群有外挂了ONEStor(一种分布式存储系统)存储。ESX(虚拟主机软件)也外挂了同一个ONEStor存储。当CAS集群出现故障时,通过原计算方式计算所得到的下游ONEStor和上游操作系统Linux_172.50.2.109所受到的影响是一致的,由于通过原计算方式计算得到的所受的影响只和层级和告警级别有关,此时二者到集群层级数一致,若告警级别一致,则算出来的关联受影响度一致。这显然是不合理的,应该对上层Linux及上层的MySQL影响更大,对下层影响应该减少,即下层关联度要高于上层关联度。原有关联度计算方法为:假定两结点同时产生了重要告警,Linux_172.50.2.109和ONEStor关联度都是81;有公式100-(N*15+M),其中N为层级数,M为告警级别(1~5,级别不同数据不同)。现有方案是没有考虑到影响是存在方向和系数的,如果业务链中间出现问题,则认为对业务链上层和下层在关系远近一致的情况下关联影响是一样的,显然这不符合实际情况。同理一个不同类型的结点配置项关系影响系数也是不一样的。现有方案中无法计算出在关系远近一致的情况下,上下游业务谁受到的关联影响会更大。现有技术方案得到的关联受影响度不够准确,增加了运维人员的工作负担。
发明内容
本申请的目的是提供一种运维场景的关联分析方法、装置及计算机可读存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本申请实施例的一个方面,提供一种运维场景的关联分析方法,包括:
获取故障结点;
获取所述故障结点的关联结点;所述关联结点为与所述故障结点存在关联关系的结点;
若待分析结点为关联结点,则获取所述待分析结点与所述故障结点之间的关联路径;
根据关联结点信息,计算所述关联路径上的每一关联结点的结点分数;
根据所述关联路径和所述结点分数,获取所述待分析结点对应于所述故障结点的关联受影响度;
其中,所述关联结点信息包括所述关联结点的配置项关系影响方向和配置项关系影响系数。
进一步地,所述获取故障结点,包括:根据告警信息确定故障结点。
进一步地,在若待分析结点为关联结点,则获取所述待分析结点与所述故障结点之间的关联路径之前,所述方法还包括:获取所述故障结点所在的业务关系网的拓扑信息;所述业务关系网的拓扑信息包括所述故障结点、所述关联结点以及连接所述故障结点和所述关联结点的关联路径。
进一步地,所述方法还包括:若所述关联结点对应于所述故障结点的关联受影响度小于预设阈值,则不再将所述关联结点作为对应于所述故障结点的关联结点。
进一步地,所述根据所述关联路径和所述结点分数,获取所述待分析结点对应于所述故障结点的关联受影响度,包括:
若所述待分析结点与所述故障结点之间存在多条关联路径,则针对每一条所述关联路径获取所述待分析结点对应于所述故障结点的关联受影响度,从对应于各所述关联路径的关联受影响度中选出最大的一个值作为最终的关联受影响度。
进一步地,所述根据所述关联路径和所述结点分数,获取所述待分析结点对应于所述故障结点的关联受影响度,包括:
以预设总分数减去所述关联路径上的各关联结点的结点分数,得到关联受影响度;或者,
以预设总分数减去所述关联路径上的各关联结点的结点分数和告警等级分数,得到关联受影响度;所述告警等级分数是通过所述告警信息得到的。
进一步地,所述根据关联结点信息,计算所述关联路径上的每一关联结点的结点分数,包括:计算所述配置项关系影响方向和所述配置项关系影响系数的乘积,以所述乘积作为所述关联结点的结点分数。
进一步地,所述关联结点信息还包括所述关联结点的结点类型系数;
所述计算所述关联路径上的每一关联结点的结点分数,包括:
计算所述配置项关系影响方向和所述配置项关系影响系数的乘积;
对所述乘积和所述结点类型系数进行加权求和,得到所述关联结点的结点分数。
根据本申请实施例的另一个方面,提供一种运维场景的关联分析装置,包括:
第一模块,用于获取故障结点;
第二模块,用于获取所述故障结点的关联结点;所述关联结点为与所述故障结点存在关联关系的结点;
第三模块,用于若待分析结点为关联结点,则获取所述待分析结点与所述故障结点之间的关联路径;
第四模块,用于根据关联结点信息,计算所述关联路径上的每一关联结点的结点分数;
第五模块,用于根据所述关联路径和所述结点分数,获取所述待分析结点对应于所述故障结点的关联受影响度;
其中,所述关联结点信息包括所述关联结点的配置项关系类型、配置项关系影响方向和配置项关系影响系数。
进一步地,所述装置还包括第六模块,所述第六模块用于在若待分析结点为关联结点,则获取所述待分析结点与所述故障结点之间的关联信息之前,获取所述故障结点所在的业务关系网的拓扑信息;所述业务关系网的拓扑信息包括所述故障结点、所述关联结点以及连接所述故障结点和所述关联结点的关联路径。
进一步地,所述第五模块具体用于:
若所述待分析结点与所述故障结点之间存在多条关联路径,则针对每一条所述关联路径获取所述待分析结点对应于所述故障结点的关联受影响度,从对应于各所述关联路径的关联受影响度中选出最大的一个值作为最终的关联受影响度。
进一步地,所述第五模块包括第三计算模块;所述第三计算模块用于以预设总分数减去所述关联路径上的各关联结点的结点分数,得到关联受影响度;或者,
用于以预设总分数减去所述关联路径上的各关联结点的结点分数和告警等级分数,得到关联受影响度;所述告警等级分数是通过所述告警信息得到的。
进一步地,所述第四模块具体用于计算所述配置项关系影响方向和所述配置项关系影响系数的乘积,以所述乘积作为所述关联结点的结点分数。
进一步地,所述关联结点信息还包括所述关联结点的结点类型系数;所述第四模块包括:
第一计算模块,用于计算所述配置项关系影响方向和所述配置项关系影响系数的乘积;
第二计算模块,用于对所述乘积和所述结点类型系数进行加权求和,得到所述关联结点的结点分数。
根据本申请实施例的另一个方面,提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现所述的运维场景的关联分析方法。
本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果:
本申请实施例提供的运维场景的关联分析方法,采用的计算方式更合理,得到的关联受影响度更加准确、更具有参考价值,可以为运维提供更加有效准确的数据,在关联分析的过程中能够更快地聚焦,排除关联度较低的数据,减轻运维人员的工作负担。
本申请的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者,部分特征和优点可以从说明书中推知或毫无疑义地确定,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了现有技术的一个业务关系网的示意图;
图2示出了本申请的一实施例的运维场景的关联分析方法的流程图;
图3示出了本申请的另一实施例的运维场景的关联分析方法的流程图;
图4示出了本申请的一实施例的业务关系网的示意图;
图5示出了本申请的又一实施例的运维场景的关联分析方法的流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本申请做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本申请的一个实施例提供了一种运维场景的关联分析方法,包括:
获取故障结点;
获取所述故障结点的关联结点;所述关联结点为与所述故障结点存在关联关系的结点;
若待分析结点为关联结点,则获取所述待分析结点与所述故障结点之间的关联路径;
根据关联结点信息,计算所述关联路径上的每一关联结点的结点分数;
根据所述关联路径和所述结点分数,获取所述待分析结点对应于所述故障结点的关联受影响度;
其中,所述关联结点信息包括所述关联结点的配置项关系影响方向和配置项关系影响系数。
在某些实施方式中,所述获取故障结点,包括:根据告警信息确定故障结点。
在某些实施方式中,在若待分析结点为关联结点,则获取所述待分析结点与所述故障结点之间的关联路径之前,所述方法还包括:获取所述故障结点所在的业务关系网的拓扑信息;所述业务关系网的拓扑信息包括所述故障结点、所述关联结点以及连接所述故障结点和所述关联结点的关联路径。
在某些实施方式中,所述方法还包括:若所述关联结点对应于所述故障结点的关联受影响度小于预设阈值,则不再将所述关联结点作为对应于所述故障结点的关联结点。
在某些实施方式中,所述根据所述关联路径和所述结点分数,获取所述待分析结点对应于所述故障结点的关联受影响度,包括:
若所述待分析结点与所述故障结点之间存在多条关联路径,则针对每一条所述关联路径获取所述待分析结点对应于所述故障结点的关联受影响度,从对应于各所述关联路径的关联受影响度中选出最大的一个值作为最终的关联受影响度。
在某些实施方式中,所述根据所述关联路径和所述结点分数,获取所述待分析结点对应于所述故障结点的关联受影响度,包括:
以预设总分数减去所述关联路径上的各关联结点的结点分数,得到关联受影响度;或者,
以预设总分数减去所述关联路径上的各关联结点的结点分数和告警等级分数,得到关联受影响度;所述告警等级分数是通过所述告警信息得到的。
在某些实施方式中,所述根据关联结点信息,计算所述关联路径上的每一关联结点的结点分数,包括:计算所述配置项关系影响方向和所述配置项关系影响系数的乘积,以所述乘积作为所述关联结点的结点分数。
在某些实施方式中,所述关联结点信息还包括所述关联结点的结点类型系数;
所述计算所述关联路径上的每一关联结点的结点分数,包括:
计算所述配置项关系影响方向和所述配置项关系影响系数的乘积;
对所述乘积和所述结点类型系数进行加权求和,得到所述关联结点的结点分数。
本实施例还提供了一种运维场景的关联分析装置,包括:
第一模块,用于获取故障结点;
第二模块,用于获取所述故障结点的关联结点;所述关联结点为与所述故障结点存在关联关系的结点;
第三模块,用于若待分析结点为关联结点,则获取所述待分析结点与所述故障结点之间的关联路径;
第四模块,用于根据关联结点信息,计算所述关联路径上的每一关联结点的结点分数;
第五模块,用于根据所述关联路径和所述结点分数,获取所述待分析结点对应于所述故障结点的关联受影响度;
其中,所述关联结点信息包括所述关联结点的配置项关系类型、配置项关系影响方向和配置项关系影响系数。
在某些实施方式中,所述装置还包括第六模块,所述第六模块用于在若待分析结点为关联结点,则获取所述待分析结点与所述故障结点之间的关联信息之前,获取所述故障结点所在的业务关系网的拓扑信息;所述业务关系网的拓扑信息包括所述故障结点、所述关联结点以及连接所述故障结点和所述关联结点的关联路径。
在某些实施方式中,所述第五模块具体用于:
若所述待分析结点与所述故障结点之间存在多条关联路径,则针对每一条所述关联路径获取所述待分析结点对应于所述故障结点的关联受影响度,从对应于各所述关联路径的关联受影响度中选出最大的一个值作为最终的关联受影响度。
在某些实施方式中,所述第五模块包括第三计算模块;所述第三计算模块用于以预设总分数减去所述关联路径上的各关联结点的结点分数,得到关联受影响度;或者,
用于以预设总分数减去所述关联路径上的各关联结点的结点分数和告警等级分数,得到关联受影响度;所述告警等级分数是通过所述告警信息得到的。
在某些实施方式中,所述第四模块具体用于计算所述配置项关系影响方向和所述配置项关系影响系数的乘积,以所述乘积作为所述关联结点的结点分数。
在某些实施方式中,所述关联结点信息还包括所述关联结点的结点类型系数;所述第四模块包括:
第一计算模块,用于计算所述配置项关系影响方向和所述配置项关系影响系数的乘积;
第二计算模块,用于对所述乘积和所述结点类型系数进行加权求和,得到所述关联结点的结点分数。
本实施例还提供了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现所述的运维场景的关联分析方法。
如图2所示,本申请的另一个实施例提供了一种运维场景的关联分析方法01,包括:
S1、获取故障结点。
具体地,所述获取故障结点,包括:根据告警信息确定故障结点,获取所述故障结点的信息;所述故障结点的信息包括预先设置的权重分数。
S2、获取所述故障结点的关联结点;所述关联结点为与所述故障结点存在关联关系的结点。
S3、若待分析结点为关联结点,则获取所述待分析结点与所述故障结点之间的关联信息。
S4、根据所述关联信息,获取所述待分析结点对应于所述故障结点的关联受影响度。
其中,所述关联信息包括所述待分析结点与所述故障结点之间的关联路径以及所述关联路径上的各关联结点的结点分数。
如图3所示,本申请的另一个实施例提供了一种运维场景的关联分析方法02,包括:
S10、获取故障结点。
具体地,所述获取故障结点,包括:接收告警信息,根据告警信息确定故障结点,获取所述故障结点的信息;所述故障结点的信息包括预先设置的权重分数。
S20、获取所述故障结点的关联结点;所述关联结点为与所述故障结点存在关联关系的结点。
S30、获取所述故障结点所在的业务关系网;所述业务关系网包括所述故障结点、所述关联结点以及连接所述故障结点和所述关联结点的关联路径。
具体地,利用故障结点、关联结点以及连接所述故障结点和所述关联结点的关联路径,构建所述故障结点所在的业务关系网。
S40、若待分析结点为关联结点,即待分析结点位于业务关系网内,则获取所述待分析结点与所述故障结点之间的关联信息;
若待分析结点不是关联结点,即待分析结点不在业务关系网中,则该待分析结点对应于该故障结点的关联受影响度为0。
S50、根据所述关联信息,获取所述待分析结点对应于所述故障结点的关联受影响度。
其中,所述关联信息包括所述待分析结点与所述故障结点之间的关联路径以及所述关联路径上的各关联结点的结点分数。
在某些实施方式中,所述获取所述待分析结点与所述故障结点之间的关联信息,包括:
S301、查找出所述待分析结点与所述故障结点之间的关联路径;
S302、根据关联结点信息,计算所述关联路径上的每一关联结点的结点分数;
所述关联结点信息包括所述关联结点的结点类型、结点类型系数、配置项关系类型、配置项关系影响方向和配置项关系影响系数。
在某些实施方式中,S50、根据所述关联信息,获取所述待分析结点对应于所述故障结点的关联受影响度,包括:
以预设总分数减去所述关联路径上的各关联结点的结点分数,得到关联受影响度。
在某些实施方式中,所述以预设总分数减去所述关联路径上的各关联结点的结点分数,得到关联受影响度,替换为:以预设总分数减去所述关联路径上的各关联结点的结点分数和告警等级分数,得到关联受影响度;所述告警等级分数是通过所述告警信息得到的。
在某些实施方式中,S302、根据关联结点信息,计算所述关联路径上的每一关联结点的结点分数,包括:
S3021、计算所述故障结点的权重分数与所述关联结点的结点类型系数的乘积,得到第一乘积;故障结点的权重分数为预设的;
S3022、计算链路因子、所述配置项关系影响方向和所述配置项关系影响系数的乘积,得到第二乘积;链路因子是预设的;
S3023、计算所述第一乘积和所述第二乘积的和,得到所述关联结点的结点分数。
在某些实施方式中,所述方法还包括:S60、若所述关联结点对应于所述故障结点的关联受影响度小于预设阈值,则将所述关联结点从所述业务关系网中取消。
在某些实施方式中,S50、根据所述关联信息,获取所述待分析结点对应于所述故障结点的关联受影响度,包括:
若所述待分析结点与所述故障结点之间存在多条关联路径,则针对每一条所述关联路径获取所述待分析结点对应于所述故障结点的关联受影响度,从对应于各所述关联路径的关联受影响度中选出最大的一个值作为最终的关联受影响度。具体来说,如果某个关联结点与故障结点之间存在多条关联路径,那么沿着每一条关联路径所计算得到的关联受影响度可能是不同的,则取最大的那个关联受影响度作为最终的关联受影响度。
所述关联结点信息包括所述关联结点的结点类型、结点类型系数、配置项关系类型、配置项关系影响方向和配置项关系影响系数。
结点类型和结点类型系数是预先设置的,如表1所示,结点类型的定义和结点类型系数可以根据实际需要进行调整。
表1
结点类型 结点类型系数
存储结点(例如ONEStor) 0.9
虚拟机结点(例如CAS、ESX) 0.8
操作系统结点(例如Linux系统) 0.8
数据库结点(例如MySql) 0.9
应用结点(例如URL) 0.7
配置项关系类型、配置项关系影响方向和配置项关系影响系数是预先设置的,如表2所示,可根据实际应用情况进行调整。
表2
Figure BDA0002317716470000111
Figure BDA0002317716470000121
CI关系类型即配置项关系类型。
配置项关系影响方向即影响的走向,就是事件发生后影响的走向。配置项关系影响系数即产生的数据偏差值。关联受影响度即当前结点受到故障结点影响的关联影响数值。
连接关系:物理或逻辑上存在连接属性且没有直接影响,例如互相连接的交换机与服务器之间的关系。
依赖关系:某结点运行时必须依赖于另一结点提供某种必备支持。例如程序运行时依赖某个第三方库,如果没有第三方库,程序将无法运行,则程序跟第三方库之间的关系就是依赖关系。
部署关系:某结点上面装了其他结点。例如机架上部署了多个机架服务器,机架与机架服务器之间的关系就是部署关系。
运行关系:一个结点运行在另一个结点上面。例如数据库运行在操作系统上,数据库与操作系统之间的关系就是运行关系。
包含关系:一个结点作为某个集合的一部分存在。例如业务系统包含了多个集群,业务系统与集群之间的关系就是包含关系。
成员关系:一个结点与其某些成员并列存在,例如集群由多个成员构成,则集群与成员之间的关系就是成员关系。
待分析结点对应于所述故障结点的关联受影响度是沿着关联路径来计算的。待分析结点指的是需要求其对应于故障结点的关联受影响度的关联结点。关联路径的方向为从故障结点指向待分析结点。在一条关联路径中,如果关联结点Pm与关联结点Pn相邻(相邻指的是在同一条关联路径上的两关联结点之间不存在其他关联结点),且沿着关联路径的方向由Pm指向Pn,则称Pm为Pn的上游结点,Pn为Pm的下游结点。
例如,如图4所示,业务关系网包括P1~P9共9个结点,其中P1为故障结点。P2~P9分别为与P1存在业务关联关系的结点,即P2~P9分别为对应于P1的关联结点。在该业务关系网中,P4与P1的关联路径有两条,分别为:P1→P5→P4和P1→P6→P4,P5和P6均为P4与P1之间的中间结点;P8与P1之间的关联路径有三条,分别为:P1→P5→P8、P1→P5→P4→P8、P1→P6→P4→P8,P5、P4和P6均为P8与P1之间的中间结点,关联路径P1→P5→P8中,P5为P8的上游结点,P8为P5的下游结点,关联路径P1→P5→P4→P8中,P4为P5的下游结点,P4为P8的上游结点;P2与P1之间的关联路径只有一条,即P2→P1。所述中间结点指的是位于所述关联结点与所述故障结点之间的关联结点。在不同的关联路径上,P4的配置项关系类型分别为:P4与P6之间的配置项关系类型、P4与P5之间的配置项关系类型。即一个关联结点的配置项类型指的是该关联结点与其在关联路径上的上游结点的配置项关系类型。每条关联路径包括一个或多于一个的路径段,例如关联路径P1→P5→P8由P1→P5和P5→P8组成。如果在某条关联路径上的故障结点与某关联结点之间存在n个中间结点,则该关联路径包括n+1个路径段,n为非负整数。
对照表2,若P4与P8之间的配置项关系类型为依赖关系,则配置项关系影响方向为-1,配置项关系影响系数为0.8;若P4与P5之间的配置项关系类型为运行关系,则配置项关系影响方向为-1,配置项关系影响系数为0.7。配置项关系影响系数可以根据实际需要进行调整。对应于故障结点,关联结点是分层的,在某条关联路径上与故障结点直接相关联(即与故障结点之间不存在中间结点)的关联结点为第一层结点,在某条关联路径上与故障结点之间存在一个中间结点的关联结点称为第二层结点……依次类推。
如果某个关联结点与故障结点之间存在多条关联路径,那么,在不同关联路径上,该关联结点的层数可能是不同的,例如,在关联路径P1→P5→P8上,关联结点P8为第二层结点,在关联路径P1→P5→P4→P8上,关联结点P8为第三层结点。关联路径的方向是从低层结点(低层结点即层数较小的结点)指向高层结点(高层结点即层数较大的结点)的。在同一条关联路径上,离故障结点越“远”的关联结点,层数越高。
关联结点的配置项关系类型指的是该关联结点与其上游结点的配置项关系类型。配置项关系指的是一个关联结点与其上游结点之间的关系。
在图2中,P5和P6均为P4与P1之间的中间结点。
以预设总分数减去所述关联路径上的各关联结点的结点分数,得到关联受影响度,即相当于以预设总分数减去所述关联结点的结点分数和所述各中间结点的结点分数,得到关联受影响度。
具体来说,对于某关联路径上的某个第m层关联结点(m为正整数),该第m层关联结点对应于故障结点的关联受影响度的计算公式为:
关联受影响度
=100-[(Node*N1+Link*LD1*L1)+(Node*N2+Link*LD2*L2)+…+(Node*Nm+Link*LDm*Lm)];
某个第m层关联结点(m为正整数)的结点分数的计算公式为:
S=Node*Nm+Link*LDm*Lm;
其中Node代表故障结点的权重分数(即预先设置的所述权重分数),Link代表链路因子;一般地,Node和Link分别默认为10和5,也可以根据实际需要对Node和Link的值进行调整;N1、N2、N3、……Nm依次代表第一层关联结点、第二层关联结点、第三层关联结点、……第m层关联结点的结点类型系数;LD1、LD2、LD3、……LDm依次代表第一层关联结点、第二层关联结点、第三层关联结点、……第m层关联结点的配置项关系影响方向;L1、L2、L3、……Lm依次代表第一层关联结点、第二层关联结点、第三层关联结点、……第m层关联结点的配置项关系影响系数。
由于中间结点也是关联结点,获取中间结点的结点分数的方法与获取关联结点的结点分数的方法是相同的。
若所述关联结点对应于所述故障结点的关联受影响度小于预设阈值,则将所述关联结点从所述业务关系网中取消。例如,假如图2中的结点P6的关联受影响度小于预设阈值,则将通过P6相连接的两个路径段P1→P6和P6→P4连接起来。
一个关联结点对应于故障结点的关联受影响度越大,说明该关联结点受到故障结点的影响越大。
在某些实施方式中,如果需要计算业务关系网中不同路径的多个关联结点对应于故障结点的关联受影响度,则按广度优先算法查询递推计算每层关联结点的关系影响度。例如,在业务关系网中以故障结点为出发点,依次按层遍历每层所有结点并计算对每个结点的关联受影响度。
本实施例还提供了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现上述的运维场景的关联分析方法。
如图5所示为本申请另一实施例的运维场景的关联分析方法的流程图。
利用本申请的方法针对图1所示的业务关系网计算得到:ONEStor与CAS的结点关联度为95,Linux_172.50.2.109与CAS的结点关联度为88;比较这两个分数即可知ONEStor与CAS的结点关联度更高,符合下游业务关联度更高的规律。说明利用本实施例的方法得到的关联受影响度更加准确合理。
本实施例的方法算出的关联受影响度更具有参考价值,采用的计算方式更合理,可以为运维提供更加有效准确的数据。在关联分析的过程中能够更快的聚焦,排除一些关联度较低的数据,减轻运维人员的工作负担。
需要说明的是:
术语“模块”并非意图受限于特定物理形式。取决于具体应用,模块可以实现为硬件、固件、软件和/或其组合。此外,不同的模块可以共享公共组件或甚至由相同组件实现。不同模块之间可以存在或不存在清楚的界限。
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述实施例仅表达了本申请的实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (15)

1.一种运维场景的关联分析方法,其特征在于,包括:
获取故障结点;
获取所述故障结点的关联结点;所述关联结点为与所述故障结点存在关联关系的结点;
若待分析结点为关联结点,则获取所述待分析结点与所述故障结点之间的关联路径;
根据关联结点信息,计算所述关联路径上的每一关联结点的结点分数;
根据所述关联路径和所述结点分数,获取所述待分析结点对应于所述故障结点的关联受影响度;
其中,所述关联结点信息包括所述关联结点的配置项关系影响方向和配置项关系影响系数,所述配置项关系影响方向为事件发生后影响的走向;所述配置项关系影响系数为产生的数据偏差值。
2.根据权利要求1所述的方法,其特征在于,所述获取故障结点,包括:根据告警信息确定故障结点。
3.根据权利要求2所述的方法,其特征在于,在若待分析结点为关联结点,则获取所述待分析结点与所述故障结点之间的关联路径之前,所述方法还包括:获取所述故障结点所在的业务关系网的拓扑信息;所述业务关系网的拓扑信息包括所述故障结点、所述关联结点以及连接所述故障结点和所述关联结点的关联路径。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:若所述关联结点对应于所述故障结点的关联受影响度小于预设阈值,则不再将所述关联结点作为对应于所述故障结点的关联结点。
5.根据权利要求3所述的方法,其特征在于,所述根据所述关联路径和所述结点分数,获取所述待分析结点对应于所述故障结点的关联受影响度,包括:
若所述待分析结点与所述故障结点之间存在多条关联路径,则针对每一条所述关联路径获取所述待分析结点对应于所述故障结点的关联受影响度,从对应于各所述关联路径的关联受影响度中选出最大的一个值作为最终的关联受影响度。
6.根据权利要求2所述的方法,其特征在于,所述根据所述关联路径和所述结点分数,获取所述待分析结点对应于所述故障结点的关联受影响度,包括:
以预设总分数减去所述关联路径上的各关联结点的结点分数,得到关联受影响度;或者,
以预设总分数减去所述关联路径上的各关联结点的结点分数和告警等级分数,得到关联受影响度;所述告警等级分数是通过所述告警信息得到的。
7.根据权利要求1所述的方法,其特征在于,所述根据关联结点信息,计算所述关联路径上的每一关联结点的结点分数,包括:计算所述配置项关系影响方向和所述配置项关系影响系数的乘积,以所述乘积作为所述关联结点的结点分数。
8.根据权利要求1所述的方法,其特征在于,所述关联结点信息还包括所述关联结点的结点类型系数;
所述计算所述关联路径上的每一关联结点的结点分数,包括:
计算所述配置项关系影响方向和所述配置项关系影响系数的乘积;
对所述乘积和所述结点类型系数进行加权求和,得到所述关联结点的结点分数。
9.一种运维场景的关联分析装置,其特征在于,包括:
第一模块,用于获取故障结点;
第二模块,用于获取所述故障结点的关联结点;所述关联结点为与所述故障结点存在关联关系的结点;
第三模块,用于若待分析结点为关联结点,则获取所述待分析结点与所述故障结点之间的关联路径;
第四模块,用于根据关联结点信息,计算所述关联路径上的每一关联结点的结点分数;
第五模块,用于根据所述关联路径和所述结点分数,获取所述待分析结点对应于所述故障结点的关联受影响度;
其中,所述关联结点信息包括所述关联结点的配置项关系类型、配置项关系影响方向和配置项关系影响系数,所述配置项关系影响方向为事件发生后影响的走向;所述配置项关系影响系数为产生的数据偏差值。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括第六模块,所述第六模块用于在若待分析结点为关联结点,则获取所述待分析结点与所述故障结点之间的关联信息之前,获取所述故障结点所在的业务关系网的拓扑信息;所述业务关系网的拓扑信息包括所述故障结点、所述关联结点以及连接所述故障结点和所述关联结点的关联路径。
11.根据权利要求9所述的装置,其特征在于,所述第五模块具体用于:
若所述待分析结点与所述故障结点之间存在多条关联路径,则针对每一条所述关联路径获取所述待分析结点对应于所述故障结点的关联受影响度,从对应于各所述关联路径的关联受影响度中选出最大的一个值作为最终的关联受影响度。
12.根据权利要求9所述的装置,其特征在于,所述第五模块包括第三计算模块;所述第三计算模块用于以预设总分数减去所述关联路径上的各关联结点的结点分数,得到关联受影响度;或者,
用于以预设总分数减去所述关联路径上的各关联结点的结点分数和告警等级分数,得到关联受影响度;所述告警等级分数是通过所述告警信息得到的。
13.根据权利要求9所述的装置,其特征在于,所述第四模块具体用于计算所述配置项关系影响方向和所述配置项关系影响系数的乘积,以所述乘积作为所述关联结点的结点分数。
14.根据权利要求9所述的装置,其特征在于,所述关联结点信息还包括所述关联结点的结点类型系数;所述第四模块包括:
第一计算模块,用于计算所述配置项关系影响方向和所述配置项关系影响系数的乘积;
第二计算模块,用于对所述乘积和所述结点类型系数进行加权求和,得到所述关联结点的结点分数。
15.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以实现如权利要求1-8中任一所述的运维场景的关联分析方法。
CN201911284870.5A 2019-12-13 2019-12-13 运维场景的关联分析方法、装置及计算机可读存储介质 Active CN111144720B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911284870.5A CN111144720B (zh) 2019-12-13 2019-12-13 运维场景的关联分析方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911284870.5A CN111144720B (zh) 2019-12-13 2019-12-13 运维场景的关联分析方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111144720A CN111144720A (zh) 2020-05-12
CN111144720B true CN111144720B (zh) 2022-07-26

Family

ID=70518345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911284870.5A Active CN111144720B (zh) 2019-12-13 2019-12-13 运维场景的关联分析方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111144720B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035288B (zh) * 2020-09-01 2023-08-15 中国银行股份有限公司 一种作业故障影响确定方法及相关设备
CN113450033B (zh) * 2021-09-02 2022-02-08 广州嘉为科技有限公司 一种基于cmdb的变更影响分析方法及管理设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103378980A (zh) * 2012-04-16 2013-10-30 中兴通讯股份有限公司 一种层网络告警与业务相关性分析方法和装置
US9742638B1 (en) * 2013-08-05 2017-08-22 Amazon Technologies, Inc. Determining impact of network failures
CN107657375A (zh) * 2017-09-25 2018-02-02 国网上海市电力公司 一种用于电网故障判定、核查及故障影响范围分析的方法
CN109150635A (zh) * 2018-10-26 2019-01-04 中国农业银行股份有限公司 故障影响分析方法及装置
CN110266550A (zh) * 2019-07-25 2019-09-20 中国联合网络通信集团有限公司 故障影响预测的方法及装置
CN110532343A (zh) * 2019-09-04 2019-12-03 广东电网有限责任公司 一种配电网中压故障综合分析与信息提示系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103378980A (zh) * 2012-04-16 2013-10-30 中兴通讯股份有限公司 一种层网络告警与业务相关性分析方法和装置
US9742638B1 (en) * 2013-08-05 2017-08-22 Amazon Technologies, Inc. Determining impact of network failures
CN107657375A (zh) * 2017-09-25 2018-02-02 国网上海市电力公司 一种用于电网故障判定、核查及故障影响范围分析的方法
CN109150635A (zh) * 2018-10-26 2019-01-04 中国农业银行股份有限公司 故障影响分析方法及装置
CN110266550A (zh) * 2019-07-25 2019-09-20 中国联合网络通信集团有限公司 故障影响预测的方法及装置
CN110532343A (zh) * 2019-09-04 2019-12-03 广东电网有限责任公司 一种配电网中压故障综合分析与信息提示系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Equivalence, Dominance, and Similarity Relations between Fault Pairs and a Fault Pair Collapsing Process for Fault Diagnosis;Irith Pomeranz;《IEEE Transactions on Computers》;20101231;全文 *
一种基于INW-ESN的故障融合预测方法;王浩天等;《振动.测试与诊断》;20180215(第01期);全文 *
基于网络拓扑结构的告警事件关联分析算法研究;刘军等;《数字技术与应用》;20170415(第04期);全文 *

Also Published As

Publication number Publication date
CN111144720A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
US11269718B1 (en) Root cause detection and corrective action diagnosis system
US9071535B2 (en) Comparing node states to detect anomalies
US9317829B2 (en) Diagnosing incidents for information technology service management
US9626416B2 (en) Performance checking component for an ETL job
US20080140817A1 (en) System and method for performance problem localization
US20220075704A1 (en) Perform preemptive identification and reduction of risk of failure in computational systems by training a machine learning module
US20170294112A1 (en) Alarm causality templates for network function virtualization
US8112758B2 (en) Methods and apparatus for resource allocation in partial fault tolerant applications
CN111144720B (zh) 运维场景的关联分析方法、装置及计算机可读存储介质
CN113900844B (zh) 一种基于服务码级别的故障根因定位方法、系统及存储介质
US20180121275A1 (en) Method and apparatus for detecting and managing faults
US10185614B2 (en) Generic alarm correlation by means of normalized alarm codes
US20150066435A1 (en) System and method for cognitive alarm management for the power grid
US20200099570A1 (en) Cross-domain topological alarm suppression
CN114036826A (zh) 模型训练方法、根因确定方法、装置、设备及存储介质
CN115118621B (zh) 一种基于依赖关系图的微服务性能诊断方法及系统
CN115373888A (zh) 故障定位方法、装置、电子设备和存储介质
Yu et al. TraceRank: Abnormal service localization with dis‐aggregated end‐to‐end tracing data in cloud native systems
CN111027591B (zh) 一种面向大规模集群系统的节点故障预测方法
CN114637649B (zh) 一种基于oltp数据库系统的告警根因分析方法及装置
CN113962273A (zh) 一种基于多指标的时间序列异常检测方法、系统及存储介质
US20220060371A1 (en) Fault localization for cloud-native applications
US10936657B2 (en) Affinity determination using graphs
US9684556B2 (en) Method and apparatus for a self-adjusting calibrator
CN113568991A (zh) 一种基于动态风险的告警处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant