CN108197016A - 一种云平台故障原因分析方法、装置、设备及存储介质 - Google Patents

一种云平台故障原因分析方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN108197016A
CN108197016A CN201810026247.9A CN201810026247A CN108197016A CN 108197016 A CN108197016 A CN 108197016A CN 201810026247 A CN201810026247 A CN 201810026247A CN 108197016 A CN108197016 A CN 108197016A
Authority
CN
China
Prior art keywords
entity
entity attribute
cloud platform
attribute
faulty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810026247.9A
Other languages
English (en)
Inventor
江均勇
岳海涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Cloud Information Technology Co Ltd
Original Assignee
Shanghai Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Cloud Information Technology Co Ltd filed Critical Shanghai Cloud Information Technology Co Ltd
Priority to CN201810026247.9A priority Critical patent/CN108197016A/zh
Publication of CN108197016A publication Critical patent/CN108197016A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Abstract

本发明公开了一种云平台故障原因分析方法、装置、设备及存储介质。该方法包括:获取云平台中至少一个实体的运行日志,运行日志包括监控信息和实体关系信息;当监控信息为故障提示信息时,根据故障提示信息确定对应的故障实体并根据实体关系信息从故障实体中确定对应的故障实体属性;根据故障实体属性确定目标故障实体属性,基于目标故障实体属性确定云平台故障原因。本发明实施例解决了现有技术中无法智能确定云平台故障原因的问题,实现了快速准确确定云平台故障原因。

Description

一种云平台故障原因分析方法、装置、设备及存储介质
技术领域
本发明实施例涉及云计算技术,尤其涉及一种云平台故障原因分析方法、装置、设备及存储介质。
背景技术
在信息技术高度发达的当今社会,随着线下和线上的各类数据不断增长,云计算也从概念走向了落地,在各个领域都出现了相对成熟的应用。随着云计算的不断发展,一方面其推动了信息技术的发展,另一方面其也增加了数据中心运维的难度,具体体现在如下几方面:
其一,云计算需要用廉价设备取代昂贵设备。当今云计算普遍采用X86服务器来替代小型机或超级计算机等,而这些X86服务器无论是性能还是可靠性都是存在较大差异的,这本身就是一个巨大的挑战;其二,设备的日益增多。传统的运维可能只需要十台或上百台的小型机设备,并且各业务系统相对独立,即使出现故障也不会相互影响,但是在云计算时代,运维需要成千上万台设备,且云平台往往承载着众多业务系统,一旦云平台出现故障,将会影响所有运行在该云平台上的业务系统;其三,对外开放接口。云计算对用户开放接口,允许用户去定义虚拟的计算、存储和网络资源,并进行组合使用,上述一方面增加了灵活性,但另一方面也增加了配置和管理的复杂度,同时也增大了故障发生的概率;其四,技术堆栈的复杂。云计算在底层采用各种虚拟化技术、容器技术以及软件定义网络技术等,这些技术增加了故障定位和排查的难度和复杂度,同时也对运维人员提出了更高的要求。
发明内容
本发明提供一种云平台故障原因分析方法、装置、设备及存储介质,以实现快速准确确定云平台故障原因。
第一方面,本发明实施例提供了一种云平台故障原因分析方法,该方法包括:
获取云平台中至少一个实体的运行日志,所述运行日志包括监控信息和实体关系信息;
当所述监控信息为故障提示信息时,根据所述故障提示信息确定对饮的故障实体并根据所述实体关系信息从所述故障实体中确定对应的故障实体属性;
根据所述故障实体属性确定目标故障实体属性,基于所述目标故障实体属性确定所述云平台故障原因。
进一步的,所述根据所述故障实体属性确定目标故障实体属性,基于所述目标故障实体属性确定所述云平台故障原因,包括:
当所述故障实体属性的个数为至少两个时,获取所述故障实体属性发生故障的第一时刻;
当所述第一时刻的个数为至少两个时,获取所述故障实体属性的第一预设权值;
当所述第一预设权值的个数为一个时,将所述第一预设权值对应的故障实体属性确定为所述目标故障实体属性,基于所述目标故障实体属性确定所述云平台故障原因。
进一步的,所述根据所述故障实体属性确定目标故障实体属性,基于所述目标故障实体属性确定所述云平台故障原因,还包括:
当所述第一时刻的个数为一个时,将所述第一时刻对应的故障实体属性确定为所述目标故障实体属性,基于所述目标故障实体属性确定所述云平台故障原因。
进一步的,所述根据所述故障实体属性确定目标故障实体属性,基于所述目标故障实体属性确定所述云平台故障原因,还包括:
当所述第一预设权值的个数为至少两个时,获取用户输入的选择指令,根据所述选择指令确定所述目标故障实体属性,基于所述目标实体属性确定所述云平台故障原因。
进一步的,该方法还包括:
根据所述云平台故障原因,基于预设规则对故障实体属性的预设权值进行调整以更新所述预设权值,所述预设权值包括所述第一预设权值。
第二方面,本发明实施例还提供了一种云平台故障原因分析装置,该装置包括:
运行日志获取模块,用于获取云平台中至少一个实体的运行日志,所述运行日志包括监控信息和实体关系信息;
故障实体属性确定模块,用于当所述监控信息为故障提示信息时,根据所述故障提示信息确定对应的故障实体并根据所述实体关系信息从所述故障实体中确定对应的故障实体属性;
云平台故障原因确定模块,用于根据所述故障实体属性确定目标故障实体属性,基于所述目标故障实体属性确定所述云平台故障原因。
进一步的,所述云平台故障原因确定模块,包括:
第一时刻获取单元,用于当所述故障实体属性的个数为至少两个时,获取所述故障实体属性发生故障的第一时刻;
第一预设权值获取单元,用于当所述第一时刻的个数为至少两个时,获取所述故障实体属性的第一预设权值;
云平台故障原因第一确定单元,用于当所述第一预设权值的个数为一个时,将所述第一预设权值对应的故障实体属性确定为所述目标故障实体属性,基于所述目标故障实体属性确定所述云平台故障原因。
进一步的,所述云平台故障原因确定模块,还包括:
云平台故障原因第二确定单元,当所述第一时刻的个数为一个时,将所述第一时刻对应的故障实体属性确定为所述目标故障实体属性,基于所述目标故障实体属性确定所述云平台故障原因。
第三方面,本发明实施例还提供了一种设备,该设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或两个处理器实现如前文所述的云平台故障原因分析方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前文所述的云平台故障原因分析方法。
本发明通过获取云平台中至少一个实体的运行日志,运行日志包括监控信息和实体关系信息,当监控信息为故障提示信息时,根据故障提示信息确定故障实体并根据实体关系信息从故障实体中确定对应的故障实体属性,再根据故障实体属性确定目标故障实体属性,最后基于目标故障实体属性确定云平台故障原因,解决了现有技术中无法智能确定云平台故障原因的问题,实现了快速准确确定云平台故障原因。
附图说明
图1是本发明实施例一中的一种云平台故障原因分析方法的流程图;
图2是本发明实施例二中的一种云平台故障原因分析方法的流程图;
图3是本发明实施例三中的一种云平台故障原因分析装置的结构示意图;
图4是本发明实施例四中的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种云平台故障原因方法的流程图,本实施例可适用于快速准确确定云平台故障原因的情况,该方法可以由云平台故障原因分析装置来执行,该装置可以采用软件和/或硬件的方式实现,该装置可以配置于设备中,例如典型的是计算机等。如图1所示,该方法具体包括如下步骤:
S110、获取云平台中至少一个实体的运行日志,运行日志包括监控信息和实体关系信息;
在本发明的具体实施例中,云平台可以提供基于“云”的服务,实现了物理设备的虚拟机化以及统一管理,通过接口调用实现资源的自助式按需申请和使用。在云平台中运行有多种实体,这里所说的实体可以包括两大类,一类是物理实体,另一类是虚拟实体,物理实体可以理解为实际存在的硬件设备,虚拟实体可以理解为承载实现某种功能的载体,如网络功能和业务功能等。其中,物理实体可以包括物理主机、物理交换机、存储设备和路由器等的至少一种,虚拟实体可以包括云主机、虚拟交换机、虚拟防火墙和虚拟路由器等的至少一种,其中,物理主机可以指实际存在的硬件专用主机,而云主机可以是使用虚拟技术在物理主机上虚拟化出来的虚拟空间。当然可以理解的是物理实体和虚拟实体还包括其他种类,根据实际情况进行设定,在此不作具体限定。运行日志可以包括监控信息和实体关系信息,其中,监控信息可以用于指示当前云平台中各个实体的运行情况,当实体无法正常运行时,这里所说的无法正常运行可能是该实体本身出现故障导致的无法正常运行,也可能是由于其它实体的故障导致的无法正常运行,即该实体本身没有出现故障,也可以将上述两种情形均归结为故障,只是故障是自身还是外部导致的,同时,可以生成故障提示信息,故障提示信息可以以报警声音形式呈现,也可以以指示灯颜色变化形式呈现,如由绿色变为红色,当然可以理解的是,故障提示信息的具体呈现形式可以根据实际情况进行设定,在此不作具体限定。此外,监控信息也包括实体处于正常运行状态的信息。实体关系信息可以用于确定实体之间的关系,可以包括实体属性依赖关系和实体间依赖关系,其中,实体属性可以表示实体所固有的属性,换句话说,可以理解为每个实体由哪些部分组成,这些部分便可以该实体的实体属性。实体属性依赖关系可以表明各个实体属性所隶属的实体,即可以通过实体依赖关系确定出隶属于每个实体的实体属性,实体属性依赖关系表现出了层次性,这个层次性可以理解为隶属于上一级的实体属性可以是其下一级实体属性所隶属的实体。实体间依赖关系可以表示结构上独立的实体间存在着功能上的关系,这种关系可以为网络路径上的依赖关系,也可以为业务层面上的依赖关系,当然也可以为其它功能上的关系,可以根据实际情况进行设定,在此不作具体限定。此外,需要说明的是,运行日志中还包括各个实体的基本参数信息等其它内容。
示例性的,如针对物理主机来说,其包括的实体属性可以有虚拟机、容器、CPU、内 存、网卡、硬盘、网桥、NTP(Network Time Protocol,网络时间协议)、DNS(Domain Name System,域名系统)、Libvirt服务、iptables、namespace、依赖进程状态和依赖服务状态等。 再针对隶属于物理主机的实体属性硬盘来说,其包括的实体属性可以有盘头、磁头、盘片主 轴、控制电机、磁头控制器、数据转换器、接口和缓存等。上述可以体现出实体属性依赖关系 所呈现出的层次性。针对实体交换机和服务器来说,两者在结构上是独立的不存在包含关 系的实体,但存在着网络路径上的依赖关系,具体的,数据通过路径通常是先经过交换机再 经过服务器,因此,当交换机出现故障时,数据便无法传送至服务器,也会引起服务器运行 不正常。针对实体A和实体B两者在结构上是独立的实体,但存在着业务层面上的依赖关系, 如实体A部署数据库,实体B部署Web服务器,由于数据库和Web服务器有业务层面上的依赖 关系,相应的,分别加载数据库和Web服务器的实体A和实体B也便有了业务层面上的依赖关 系。上述所说的网络路径上的依赖关系和业务层面上的依赖关系均属于实体间依赖关系。
需要说明的是,上述实体关系的确定可以通过大数据挖掘技术实现,在此不作详细说明。
S120、当监控信息为故障提示信息时,根据故障提示信息确定对应的故障实体并根据实体关系信息从故障实体中确定对应的故障实体属性;
在本发明的具体实施例中,如前文所述,由于监控信息中包括有故障提示信息,故障提示信息可以是在实体运行不正常时生成的,用于告知该实体当前出现了故障,因此,当监控信息为故障提示信息时,可以根据故障提示信息确定出对应的故障实体。又由于故障实体下包括隶属于该实体的实体属性,而且要分析的是造成云平台故障的根本原因,再针对找到的这个根本原因制定相应的解决策略,该实体中任何一个实体属性出现故障表面上呈现出的均是该实体出现了故障,因此,还需要进一步确定出造成该实体故障的对应的实体属性作为故障实体属性。前文所述的实体关系信息中包括有实体属性依赖关系的信息,因此可以基于该信息确定出对应的故障实体属性。
需要说明的是,由于需要分析的是造成云平台故障的根本原因,因此,上述所确定的故障实体属性也是最底层的,也即是实体属性关系所呈现的层次性中位于最底层的实体属性。故障实体属性的个数大于等于故障实体的个数。
示例性的,如当监控信息为故障提示信息时,根据故障提示信息确定对应的故障实体为物理主机,再根据实体属性依赖关系信息确定出对应的故障实体属性为CPU和硬盘。
S130、根据故障实体属性确定目标故障实体属性,基于目标故障实体属性确定云平台故障原因。
在本发明的具体实施例中,如前文所述,当实体无法正常运行时,这里所说的无法正常运行可能是该实体本身出现故障导致的无法正常运行,也可能是由于其它实体的故障导致的无法正常运行,即该实体本身没有出现故障,因此,基于该实体确定出的故障实体属性也未必是其本身出现了故障,也可能是由其它故障实体属性导致的,即需要进一步从多个故障实体属性中依据相应的排查规则确定出目标故障实体属性,再基于该目标故障实体属性来确定导致云平台出现故障的根本原因。
具体的,上述所说的排查规则可以为时间规则和/或权值规则等,各个规则可以单独使用,也可以组合使用,当组合使用时,可以为各个规则建立优先级,即排查是按照优先级顺序依次进行的,当依据优先级高的规则已确定出目标故障属性,便不再进行优先级低于该规则的规则的判断过程。其中,时间规则可以理解为对各个故障实体属性发生故障时的时间进行排序,将排序最靠前的所对应的故障实体属性确定为目标故障实体属性。权值规则可以理解为各个实体属性预设权值,那么便可以获知每个故障实体属性所对应的权值,将权值大于某一预设阈值所对应的故障实体属性确定为目标故障实体属性。当上述两种规则组合使用时,可以设定时间规则的优先级高于权值规则的优先级,因此,先依据时间规则进行判断,当无法基于时间规则确定出目标故障实体属性时,再根据权值规则进行判断。示例性的,如当时间排序最靠前的所对应的故障实体属性至少有两个,或者当时间排序最靠前的所对应的故障实体属性为一个但是这个时间与其它时间比较接近,可以理解为时间差小于预设差值,上述已经无法根据时间规则确定出目标故障实体属性,需要再基于权值规则进行判断,可以将权值大于某一预设阈值所对应的故障实体属性确定为目标故障实体属性,以此完成了确定目标故障实体的过程。
需要说明的是,上述排查规则的具体设定可以根据实际情况进行,在此不作具体限定。当根据设定的排查规则依旧无法确定出目标故障实体时,可以根据用户输入的指令来确定。
示例性的,如故障实体属性CPU发生故障的时间为2017年12月10日下午3点10分,故障实体属性硬盘发生故障的时间为2017年12月10日下午4点,由于CPU发生故障的时间早于硬盘,那么便将CPU确定为目标故障实体属性。
本实施例的技术方案,通过获取云平台中至少一个实体的运行日志,运行日志包括监控信息和实体关系信息,当监控信息为故障提示信息时,根据故障提示信息确定故障实体并根据实体关系信息从故障实体中确定对应的故障实体属性,再根据故障实体属性确定目标故障实体属性,最后基于目标故障实体属性确定云平台故障原因,解决了现有技术中无法智能确定云平台故障原因的问题,实现了快速准确确定云平台故障原因。
进一步的,在上述技术方案的基础上,根据故障实体属性确定目标故障实体属性,基于目标故障实体属性确定云平台故障原因,具体可以包括:
当故障实体属性的个数为至少两个时,获取故障实体属性发生故障的第一时刻;
在本发明的具体实施例中,故障实体属性的个数为至少两个,上述故障实体属性的关系可以分为两种情况来说明,其一,基于实体属性依赖关系确定出上述故障实体属性隶属于同一个实体;其二,基于实体属性依赖关系确定出上述故障实体属性不完全隶属于同一个实体或者分别隶属于不同实体但是基于实体间依赖关系确定出上述实体存在实体间依赖关系,其中,不完全隶属于同一实体可以理解为存在一部分实体隶属于同一个实体,而另一部分并不隶属于该实体,上述也可以理解为基于实体属性依赖关系确定出上述故障实体属性隶属于至少两个实体且基于实体间依赖关系确定出上述实体存在实体间依赖关系。第一时刻可以表示故障发生的最早时刻。当确定出故障实体属性的个数为至少两个时,获取各个故障实体属性发生故障的时间,并对时间进行排序得到时间排序结果,从排序结果中获取排序最早的时刻确定为第一时刻。
需要说明的是,上述确定故障实体属性的关系的过程可以先进行实体属性依赖关系判断,当上述故障实体属性的关系不满足实体属性依赖关系时,再进行实体间依赖关系判断。也可以同时进行实体属性依赖关系和实体间依赖关系的判断,具体可以根据实际情况进行设定,在此不作具体限定。优选的,先进行实体属性依赖关系判断,当上述故障实体属性的关系不满足实体属性依赖关系时,再进行实体间依赖关系判断。
当第一时刻的个数为至少两个时,获取故障实体属性的第一预设权值;
当第一预设权值的个数为一个时,将第一预设权值对应的故障实体属性确定为目标故障实体属性,基于目标故障实体属性确定云平台故障原因。
在发明的具体实施例中,便可以通过获取各个故障实体属性的预设权值来进一步进行判断,并对预设权值进行排序得到权值排序结果,从排序结果中获取权值最大的权值作为第一预设权值,当第一预设权值的个数为一个时,即可以说明此时只有一个故障实体属性的预设权值在权值排序结果中权值最大,也即可以根据权值规则来确定出目标故障实体属性,具体的,可以将第一预设权值对应的故障实体属性确定为目标故障实体属性,再基于目标故障实体属性确定云平台故障原因。
进一步的,在上述技术方案的基础上,根据故障实体属性确定目标故障实体属性,基于目标故障实体属性确定云平台故障原因,具体还可以包括:
当第一时刻的个数为一个时,将第一时刻对应的故障实体属性确定为目标故障实体属性,基于目标故障实体属性确定云平台故障原因。
在本发明的具体实施例中,当第一时刻的个数为一个时,即可以说明此时只有一个故障实体属性发生故障的时间在时间排序结果中排序最早,也即根据时间规则可以确定出目标故障实体属性,具体的,可以将第一时刻对应的故障实体属性确定为目标故障实体属性,再基于目标故障实体属性确定云平台故障原因。
进一步的,在上述技术方案的基础上,根据故障实体属性确定目标故障实体属性,基于目标故障实体属性确定云平台故障原因,具体还可以包括:
当第一预设权值的个数为至少两个时,获取用户输入的选择指令,根据选择指令确定目标故障实体属性,基于目标故障实体属性确定云平台故障原因。
在本发明的具体实施例中,当第一预设权值的个数为至少两个时,即可以说明此时至少有两个故障实体属性预设权值相同且在权值排序结果中权值最大,也即根据权值规则也无法确定出目标故障实体属性,便可以通过获取用户输入的选择指令来进一步进行判断,具体的,可以将所有故障实体属性在用户操作界面上进行显示,用户根据显示的结果来选择将哪个故障实体属性确定为目标故障实体属性,那么,获取用户输入的选择指令确定出的目标故障实体属性后,再基于目标故障实体属性确定云平台故障原因。
进一步的,在上述技术方案的基础上,该方法具体还可以包括:
根据云平台故障原因,基于预设规则对故障实体属性的预设权值进行调整以更新预设权值,预设权值包括第一预设权值。
在本发明的具体实施例中,由于是基于目标故障实体属性确定出的云平台故障原因,因此,根据云平台故障原因也即根据目标故障实体属性,再结合预设规则对各个故障实体属性的预设权值进行调整以更新预设权值,其中,预设规则可以是用户根据实际经验设定的规则,也可以是基于算法逻辑设定的规则,当然可根据具体情况进行设定,在此不作具体限定。此外,预设权值可以包括第一预设权值。
上述对预设权值调整的目的在于使确定的故障结果更加接近实际情况,从而进一步提高故障确定的正确率。
需要说明的是,上述可以理解为是构建标准知识库的过程,可以将每次确定的云平台故障原因保存至该标准知识库中,实现故障原因的积累,并且还可以在该标准知识库中添加人工经验。同时,可以将该标准知识库用于后续的故障确定,从而使得故障原因的确定具有记忆功能。
实施例二
图2为本发明实施例二提供的一种云平台故障原因方法的流程图,本实施例可适用于快速准确确定云平台故障原因的情况,该方法可以由云平台故障原因分析装置来执行,该装置可以采用软件和/或硬件的方式实现,该装置可以配置于设备中,例如典型的是计算机等。如图2所示,该方法具体包括如下步骤:
S201、获取云平台中至少一个实体的运行日志,运行日志包括监控信息和实体关系信息;
S202、判断监控信息是否为故障提示信息;若是,则执行S203;若否,则继续执行S202;
S203、根据故障提示信息确定对应的故障实体并根据实体关系信息从故障实体中确定对应的故障实体属性;
S204、判断故障实体属性的个数是否为至少两个;若是,则执行S205;若否,则执行S206;
S205、获取故障实体属性发生故障的第一时刻;
S206、将故障实体属性确定为目标故障实体属性,并基于目标故障实体属性确定云平台故障原因;
S207、判断第一时刻的个数是否为至少两个;若是,则执行S208;若否,则执行S209;
S208、获取故障实体属性的第一预设权值;
S209、将第一时刻对应的故障实体属性确定为目标故障实体属性,基于目标故障实体属性确定云平台故障原因;
S210、判断第一预设权值的个数是否为一个;若是,则执行S211;若否,则执行S212;
S211、将第一预设权值对应的故障实体属性确定为目标故障实体属性,基于目标故障实体属性确定云平台故障原因;
S212、获取用户输入的选择指令,根据选择指令确定目标故障实体属性,基于目标故障实体属性确定云平台故障原因。
在本发明的具体实施例中,可以通过云平台系统来实现上述云平台故障原因的确定过程,具体的,该系统可以分为四部分,分别为云平台、监控运维系统、日志采集及分析平台和故障智能定位系统。其中,监控运维系统可以包括云主机监控、虚拟化监控、数据库监控、物理主机监控和物理网络监控等,可以用于对云及上层资源的监控,能够对云平台的各种实体进行监控;日志采集及分析平台包括云主机日志、虚拟化日志、物理主机日志、存储系统日志和交换设备日志等,可以用于对云平台的各类日志进行采集和统一管理,实现了日志的查询和检索;故障智能定位系统可以包括云服务管理、标准知识库、故障预测、人机交互、模型管理、权值管理、日志搜索管理和监控搜索管理等,其中,日志搜索管理和监控搜索管理分别对接日志采集及分析平台和监控运维系统,实现故障的定位及分析;模型管理可以用于对各种实体进行实体关系建立,权值管理可以用于管理预设权值;云服务管理可以用于与云平台进行交互处理;标准知识库可以用于保存基于运维人员的经验以及实际云平台故障原因。
示例性的,如根据故障提示信息确定出对应的故障实体为物理主机,根据实体关系信息从物理主机中确定对应的故障实体属性为CPU和硬盘,由于故障实体属性的个数为两个,因此获取故障实体属性发生故障的时刻,CPU发生故障时的时刻为2017年12月10日下午3点,硬盘发生故障的时刻同样为2017年12月10日下午3点,由于两者发生故障时的时刻相同,均作为第一时刻,即第一时刻的个数为两个,那么分别获取CPU和硬盘的预设权值,CPU的预设权值为0.2,硬盘的预设权值为0.3,由于0.3大于0.2,于是可以获知第一预设权值的个数为一个,第一预设权值为0.3,那么将第一预设权值0.3所对应的故障实体属性硬盘确定为目标故障实体属性,最后基于目标故障实体属性确定云平台故障原因。或者,CPU的预设权值为0.2,硬盘的预设权值同样为0.2,由于两者的预设权值相同,均作为第一预设权值,即第一预设权值的个数为两个,此时,需要获取用户输入的选择指令,根据选择指令来确定目标故障实体属性,基于目标故障实体属性确定云平台故障原因。
又或者,CPU发生故障时的时刻为2017年12月10日下午3点,硬盘发生故障的时刻同样为2017年12月10日下午3点15分,由于CPU发生故障的时刻早于硬盘,将CPU发生故障的时刻作为第一时刻,那么第一时段的个数为一个,于是将第一时刻对应的故障实体属性CPU确定为目标故障实体属性,再基于目标故障实体属性确定云平台故障原因。
本实施例的技术方案,通过获取云平台中至少一个实体的运行日志,运行日志包括监控信息和实体关系信息,当监控信息为故障提示信息时,根据故障提示信息确定故障实体并根据实体关系信息从故障实体中确定对应的故障实体属性,再根据故障实体属性确定目标故障实体属性,最后基于目标故障实体属性确定云平台故障原因,解决了现有技术中无法智能确定云平台故障原因的问题,实现了快速准确确定云平台故障原因。
实施例三
图3为本发明实施例三提供的一种云平台故障原因分析装置的结构示意图,本实施例可适用于快速准确确定云平台故障原因的情况,该装置可以采用软件和/或硬件的方式实现,该装置可以配置于设备中,例如典型的是计算机等。如图3所示,该装置具体包括:
运行日志获取模块310,用于获取云平台中至少一个实体的运行日志,运行日志包括监控信息和实体关系信息;
故障实体属性确定模块320,用于当监控信息为故障提示信息时,根据故障提示信息确定对应的故障实体并根据实体关系信息从故障实体中确定对应的故障实体属性;
云平台故障原因确定模块330,用于根据故障实体属性确定目标故障实体属性,基于目标故障实体属性确定云平台故障原因。
本实施例的技术方案,通过运行日志获取模块310获取云平台中至少一个实体的运行日志,运行日志包括监控信息和实体关系信息,故障实体属性确定模块320当监控信息为故障提示信息时,根据故障提示信息确定故障实体并根据实体关系信息从故障实体中确定对应的故障实体属性,云平台故障原因确定模块330再根据故障实体属性确定目标故障实体属性,最后基于目标故障实体属性确定云平台故障原因,解决了现有技术中无法智能确定云平台故障原因的问题,实现了快速准确确定云平台故障原因。
进一步的,在上述技术方案的基础上,云平台故障原因确定模块330,具体可以包括:
第一时刻获取单元,用于当故障实体属性的个数为至少两个时,获取故障实体属性发生故障的第一时刻;
第一预设权值获取单元,用于当第一时刻的个数为至少两个时,获取故障实体属性的第一预设权值;
云平台故障原因第一确定单元,用于当第一预设权值的个数为一个时,将第一预设权值对应的故障实体属性确定为目标故障实体属性,基于目标故障实体属性确定云平台故障原因。
进一步的,在上述技术方案的基础上,云平台故障原因确定模块330,具体还可以包括:
云平台故障原因第二确定单元,当第一时刻的个数为一个时,将第一时刻对应的故障实体属性确定为目标故障实体属性,基于目标故障实体属性确定云平台故障原因。
进一步的,在上述技术方案的基础上,云平台故障原因确定模块330,具体还可以包括:
云平台故障原因第三确定单元,用于当第一预设权值的个数为至少两个时,获取用户输入的选择指令,根据选择指令确定目标故障实体属性,基于目标实体属性确定云平台故障原因。
进一步的,在上述技术方案的基础上,该方法还可以包括:
预设权值更新模块,用于根据云平台故障原因,基于预设规则对故障实体属性的预设权值进行调整以更新预设权值,预设权值包括第一预设权值。
本发明实施例所提供的配置于设备的云平台故障原因分析装置可执行本发明任意实施例所提供的应用于设备的云平台故障原因分析方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4为本发明实施例四提供的一种设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性设备412的框图。图4显示的设备412仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,设备412以通用计算设备的形式表现。设备412的组件可以包括但不限于:一个或者多个处理器416,系统存储器428,连接于不同系统组件(包括系统存储器428和处理器416)的总线418。
总线418表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
设备412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备412访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器428可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)430和/或高速缓存存储器432。设备412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统434可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储器428可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块442的程序/实用工具440,可以存储在例如存储器428中,这样的程序模块442包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块442通常执行本发明所描述的实施例中的功能和/或方法。
设备412也可以与一个或多个外部设备414(例如键盘、指向设备、显示器424等)通信,还可与一个或者多个使得用户能与该设备412交互的设备通信,和/或与使得该设备412能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口422进行。并且,设备412还可以通过网络适配器420与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器420通过总线418与设备412的其它模块通信。应当明白,尽管图4中未示出,可以结合设备412使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器416通过运行存储在系统存储器428中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种云平台故障原因分析方法,包括:
获取云平台中至少一个实体的运行日志,运行日志包括监控信息和实体关系信息;
当监控信息为故障提示信息时,根据故障提示信息确定对应的故障实体并根据实体关系信息从故障实体中确定对应的故障实体属性;
根据故障实体属性确定目标故障实体属性,基于目标故障实体属性确定云平台故障原因。
实施例五
本发明实施例五还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的一种云平台故障原因分析方法,该方法包括:
获取云平台中至少一个实体的运行日志,运行日志包括监控信息和实体关系信息;
当监控信息为故障提示信息时,根据故障提示信息确定对应的故障实体并根据实体关系信息从所故障实体中确定对应的故障实体属性;
根据故障实体属性确定目标故障实体属性,基于目标故障实体属性确定云平台故障原因。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、Ruby、Go,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种云平台故障原因分析方法,其特征在于,包括:
获取云平台中至少一个实体的运行日志,所述运行日志包括监控信息和实体关系信息;
当所述监控信息为故障提示信息时,根据所述故障提示信息确定对应的故障实体并根据所述实体关系信息从所述故障实体中确定对应的故障实体属性;
根据所述故障实体属性确定目标故障实体属性,基于所述目标故障实体属性确定所述云平台故障原因。
2.根据权利要求1所述的方法,其特征在于,所述根据所述故障实体属性确定目标故障实体属性,基于所述目标故障实体属性确定所述云平台故障原因,包括:
当所述故障实体属性的个数为至少两个时,获取所述故障实体属性发生故障的第一时刻;
当所述第一时刻的个数为至少两个时,获取所述故障实体属性的第一预设权值;
当所述第一预设权值的个数为一个时,将所述第一预设权值对应的故障实体属性确定为所述目标故障实体属性,基于所述目标故障实体属性确定所述云平台故障原因。
3.根据权利要求2所述的方法,其特征在于,所述根据所述故障实体属性确定目标故障实体属性,基于所述目标故障实体属性确定所述云平台故障原因,还包括:
当所述第一时刻的个数为一个时,将所述第一时刻对应的故障实体属性确定为所述目标故障实体属性,基于所述目标故障实体属性确定所述云平台故障原因。
4.根据权利要求2所述的方法,其特征在于,所述根据所述故障实体属性确定目标故障实体属性,基于所述目标故障实体属性确定所述云平台故障原因,还包括:
当所述第一预设权值的个数为至少两个时,获取用户输入的选择指令,根据所述选择指令确定所述目标故障实体属性,基于所述目标实体属性确定所述云平台故障原因。
5.根据权利要求2-4任一项所述的方法,其特征在于,还包括:
根据所述云平台故障原因,基于预设规则对故障实体属性的预设权值进行调整以更新所述预设权值,所述预设权值包括所述第一预设权值。
6.一种云平台故障原因分析装置,其特征在于,包括:
运行日志获取模块,用于获取云平台中至少一个实体的运行日志,所述运行日志包括监控信息和实体关系信息;
故障实体属性确定模块,用于当所述监控信息为故障提示信息时,根据所述故障提示信息确定对应的故障实体并根据所述实体关系信息从所述故障实体中确定对应的故障实体属性;
云平台故障原因确定模块,用于根据所述故障实体属性确定目标故障实体属性,基于所述目标故障实体属性确定所述云平台故障原因。
7.根据权利要求6所述的装置,其特征在于,所述云平台故障原因确定模块,包括:
第一时刻获取单元,用于当所述故障实体属性的个数为至少两个时,获取所述故障实体属性发生故障的第一时刻;
第一预设权值获取单元,用于当所述第一时刻的个数为至少两个时,获取所述故障实体属性的第一预设权值;
云平台故障原因第一确定单元,用于当所述第一预设权值的个数为一个时,将所述第一预设权值对应的故障实体属性确定为所述目标故障实体属性,基于所述目标故障实体属性确定所述云平台故障原因。
8.根据权利要求7所述的装置,其特征在于,所述云平台故障原因确定模块,还包括:
云平台故障原因第二确定单元,当所述第一时刻的个数为一个时,将所述第一时刻对应的故障实体属性确定为所述目标故障实体属性,基于所述目标故障实体属性确定所述云平台故障原因。
9.一种设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求要求1-5中任一所述的云平台故障原因分析方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的云平台故障原因分析方法。
CN201810026247.9A 2018-01-11 2018-01-11 一种云平台故障原因分析方法、装置、设备及存储介质 Pending CN108197016A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810026247.9A CN108197016A (zh) 2018-01-11 2018-01-11 一种云平台故障原因分析方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810026247.9A CN108197016A (zh) 2018-01-11 2018-01-11 一种云平台故障原因分析方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN108197016A true CN108197016A (zh) 2018-06-22

Family

ID=62589170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810026247.9A Pending CN108197016A (zh) 2018-01-11 2018-01-11 一种云平台故障原因分析方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN108197016A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766204A (zh) * 2018-12-13 2019-05-17 平安普惠企业管理有限公司 智能故障处理方法、装置、设备及可读存储介质
CN110515758A (zh) * 2019-08-27 2019-11-29 北京博睿宏远数据科技股份有限公司 一种故障定位方法、装置、计算机设备及存储介质
CN112583611A (zh) * 2019-09-27 2021-03-30 北京金山云网络技术有限公司 一种获取故障信息的方法、装置、电子设备及介质
CN114500249A (zh) * 2022-04-18 2022-05-13 中国工商银行股份有限公司 一种根因定位方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140172371A1 (en) * 2012-12-04 2014-06-19 Accenture Global Services Limited Adaptive fault diagnosis
CN105577411A (zh) * 2014-10-17 2016-05-11 武汉科技大学 基于服务起源的云服务监控方法和装置
CN106130809A (zh) * 2016-09-07 2016-11-16 东南大学 一种基于日志分析的IaaS云平台网络故障定位方法及系统
US9552248B2 (en) * 2014-12-11 2017-01-24 Pure Storage, Inc. Cloud alert to replica

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140172371A1 (en) * 2012-12-04 2014-06-19 Accenture Global Services Limited Adaptive fault diagnosis
CN105577411A (zh) * 2014-10-17 2016-05-11 武汉科技大学 基于服务起源的云服务监控方法和装置
US9552248B2 (en) * 2014-12-11 2017-01-24 Pure Storage, Inc. Cloud alert to replica
CN106130809A (zh) * 2016-09-07 2016-11-16 东南大学 一种基于日志分析的IaaS云平台网络故障定位方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766204A (zh) * 2018-12-13 2019-05-17 平安普惠企业管理有限公司 智能故障处理方法、装置、设备及可读存储介质
CN110515758A (zh) * 2019-08-27 2019-11-29 北京博睿宏远数据科技股份有限公司 一种故障定位方法、装置、计算机设备及存储介质
CN110515758B (zh) * 2019-08-27 2023-03-31 北京博睿宏远数据科技股份有限公司 一种故障定位方法、装置、计算机设备及存储介质
CN112583611A (zh) * 2019-09-27 2021-03-30 北京金山云网络技术有限公司 一种获取故障信息的方法、装置、电子设备及介质
CN114500249A (zh) * 2022-04-18 2022-05-13 中国工商银行股份有限公司 一种根因定位方法和装置
CN114500249B (zh) * 2022-04-18 2022-07-08 中国工商银行股份有限公司 一种根因定位方法和装置

Similar Documents

Publication Publication Date Title
CN108197016A (zh) 一种云平台故障原因分析方法、装置、设备及存储介质
WO2019133763A1 (en) System and method of application discovery
Kholidy Correlation‐based sequence alignment models for detecting masquerades in cloud computing
CN106383706A (zh) 基于虚拟桌面和虚拟操作系统的自适应云桌面服务系统
US10756952B2 (en) Determining a storage network path utilizing log data
US20200092168A1 (en) Production software application performance and resiliency testing
CN109710615A (zh) 数据库的访问管理方法、系统、电子设备和存储介质
CN110069358A (zh) 调用链跟踪分析方法、装置、电子设备及存储介质
US20200073781A1 (en) Systems and methods of injecting fault tree analysis data into distributed tracing visualizations
CN112954031B (zh) 一种基于云手机的设备状态通知方法
CN116458135A (zh) 改变影响模拟分析
CN107977254A (zh) 云数据系统中请求的响应方法和计算机可读存储介质
CN114253864A (zh) 一种业务测试方法、装置、电子设备及存储介质
CN114553672B (zh) 一种应用系统性能瓶颈确定方法、装置、设备、介质
US10210127B2 (en) Storage system cabling analysis
US6775243B1 (en) Graphically distinguishing a path between two points on a network
CN112437105A (zh) 用于实时流数据中的间断的基于人工智能的外推模型
CN103414717A (zh) 一种关于c/s结构业务系统的仿真监控方法和系统
CN109308243B (zh) 数据处理方法、装置、计算机设备和介质
US7418376B1 (en) Method for generating a simulated network based on an actual managed network
US20230325294A1 (en) Models for detecting and managing excessive log patterns
CN110515758A (zh) 一种故障定位方法、装置、计算机设备及存储介质
US20230153725A1 (en) Techniques for determining service risks and causes
CN112068953B (zh) 一种云资源精细化管理溯源系统及方法
US9191267B2 (en) Device management for determining the effects of management actions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20211221