CN107451040B - 故障原因的定位方法、装置及计算机可读存储介质 - Google Patents

故障原因的定位方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN107451040B
CN107451040B CN201710555558.XA CN201710555558A CN107451040B CN 107451040 B CN107451040 B CN 107451040B CN 201710555558 A CN201710555558 A CN 201710555558A CN 107451040 B CN107451040 B CN 107451040B
Authority
CN
China
Prior art keywords
information
fault
cause
analysis
locating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710555558.XA
Other languages
English (en)
Other versions
CN107451040A (zh
Inventor
匡雄波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN201710555558.XA priority Critical patent/CN107451040B/zh
Publication of CN107451040A publication Critical patent/CN107451040A/zh
Application granted granted Critical
Publication of CN107451040B publication Critical patent/CN107451040B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems

Abstract

本发明公开了一种故障原因的定位方法,所述定位方法应用于虚拟化平台,所述虚拟化平台所在的虚拟化环境中包括多个物理设备和网络,所述定位方法包括:虚拟化平台获取虚拟化环境中产生的信息,其中,所述信息包括历史告警事件和当前运行状态信息;采用预存的分析策略对获取的所述信息进行分析;通过分析结果定位出所述信息对应的故障原因。本发明还公开了一种故障原因的定位装置和计算机可读存储介质。本发明提高故障原因的定位效率,并且提高了故障原因定位的准确性。

Description

故障原因的定位方法、装置及计算机可读存储介质
技术领域
本发明涉及互联网技术领域,尤其涉及一种故障原因的定位方法、装置及计算机可读存储介质。
背景技术
目前,IT(Internet Technology,互联网技术)的发展已经非常成熟,但在IT运维中,一直有很大的难点,具体原因是:传统的很多物理设备的管理都是独立的,因此出现什么问题,很难快速的定位,导致一旦出现信息故障,排查起来就非常困难,而且耗时耗力。
此外,现有的故障原因定位过程,仅仅是对系统输出的告警事件进行分析,由于分析的对象较为单一,因此对故障原因的定位也不够准确。
发明内容
本发明的主要目的在于提出一种故障原因的定位方法、装置及计算机可读存储介质,旨在解决现有的互联网中出现信息故障时,很难快速定位到故障原因、以及定位不够准确的技术问题。
为实现上述目的,本发明提供了一种故障原因的定位方法,所述定位方法应用于虚拟化平台,所述虚拟化平台所在的虚拟化环境中包括多个物理设备和网络,所述故障原因的定位方法包括:
虚拟化平台获取虚拟化环境中产生的信息,其中,所述信息包括历史告警事件和当前运行状态信息;
采用预存的分析策略对获取的所述信息进行分析;
通过分析结果定位出所述信息对应的故障原因。
可选地,所述虚拟化平台获取虚拟化环境中产生的信息的步骤之前,所述定位方法包括:
在虚拟化环境中接收到触发条件时,所述虚拟化平台基于所述触发条件触发预设的经验库启动,以便后续通过所述经验库中预存的分析策略对获取的所述信息进行分析。
可选地,所述触发条件包括:虚拟化环境中出现告警状态,或者当前运行状态改变,或者当前产生新告警事件。
可选地,所述采用预存的分析策略对获取的所述信息进行分析的步骤包括:
在预存的分析策略中提取出分析规则,所述分析规则包括分析条件和执行指令;
根据提取的所述分析规则,对获取的所述信息进行分析,以确定分析结果。
可选地,所述根据提取的所述分析规则,对获取的所述信息进行分析,以确定分析结果的步骤之后,所述定位方法还包括:
将分析结果对应的告警状态与原先的告警状态进行比对;
在比对结果不匹配时,采用分析结果对应的告警状态更新原先的告警状态。
可选地,所述通过分析结果定位出所述信息对应的故障原因的步骤之后,所述定位方法还包括:
确定故障原因的类型;
在故障原因为预设类型的故障原因时,执行修复操作;
在故障原因不为预设类型的故障原因时,输出提示信息,以供用户执行修复操作。
可选地,所述定位方法还包括:
获取第三方经验信息,并将第三方经验信息与虚拟化环境中产生的信息进行比对;
基于所述信息与第三方经验信息中的公有特征,提取出与所述信息的关联度大于预设阈值的第三方经验信息;
将提取出的第三方经验信息作为分析策略录入到经验库中,以完成经验库的升级。
可选地,所述获取第三方经验信息的步骤包括:
获取人工在物理设备中手动输入的第三方经验信息;
或者,从学习库中获取第三方经验信息。
此外,为实现上述目的,本发明还提供一种故障原因的定位装置,所述定位装置应用于虚拟化平台中,所述装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的故障原因的定位程序,所述故障原因的定位程序被所述处理器执行时实现如上文所述的故障原因的定位方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有故障原因的定位程序,所述故障原因的定位程序被处理器执行时实现如上文所述的故障原因的定位方法的步骤。
本发明的技术方案中,虚拟化平台先获取虚拟化环境中产生的信息,所述信息包括历史告警事件和当前运行状态信息,然后虚拟化平台采用预存的分析策略对获取的所述信息进行分析,最终通过分析结果定位出信息对应的故障原因。本发明实现了在虚拟化平台中对各个物理设备进行故障原因的定位,由虚拟化平台进行统一管理和定位,可以实现故障原因的快读定位,从而提高故障原因的定位效率。此外,本发明由虚拟化平台对历史告警事件以及当前运行状态信息进行分析,通过双重信息的分析,提高了故障原因定位的准确性。
附图说明
图1为实现本发明各个实施例一种平台的硬件结构示意图;
图2为本发明故障原因的定位方法第一实施例的流程示意图;
图3为图2中步骤S20的细化流程示意图;
图4为本发明第一实施场景示意图;
图5为本发明第二实施场景示意图;
图6为本发明故障原因的定位方法第二实施例的流程示意图;
图7为本发明第三实施场景示意图;
图8为本发明故障原因的定位方法第三实施例的流程示意图;
图9为本发明故障原因的定位方法第四实施例的流程示意图;
图10为本发明第四实施场景示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要理解的是,目前随着虚拟化技术和虚拟化平台的飞速发展,可以将传统的计算,网络,存储都在统一的虚拟化平台中来完成,由于传统的故障信息排除较为困难,其中有很大的原因在于很多物理设备的管理都是独立的,因此出现什么问题,很难快速的定位,而虚拟化环境解决了这个问题,由于所有虚拟化环境中的设备或网络,都是受虚拟化平台的监控,这样一来就可以快速定位出故障原因。
此外,还需要说明的是,即使现有技术中通过虚拟化平台来实现故障信息的定位,现有技术中还是存在以下几点缺陷:
第一,异常信息太多太杂,虚拟化平台会记录所有的异常信息,在虚拟化平台记录异常信息之后,按照现有技术的处理方式,需要IT运维人员根据这些信息进行关联分析,找到最有效的信息,由于这个过程需要人工进行查找,因此操作较为困难。
第二,排除问题人员的水平参差不齐,排查问题通常依赖IT运维人员,所以很多时候,问题出现后水平一般都人员根本排查不出来真正问题所在,都是先简单的通过备份来快速恢复,这样也容易造成问题的反复出现,费事费力,而且头痛医头脚痛医脚的做法,也只会让病因得不到及时解决,日后IT运维带来更多隐患。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的平台结构示意图。
本发明实施例平台指虚拟化平台,即云平台。
如图1所示,该平台可以包括:处理器1001,例如CPU,通信总线1002、网络接口1003,存储器1004。其中,通信总线1002用于实现这些组件之间的连接通信。网络接口1003可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1004可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的平台结构并不构成对平台的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机可读存储介质的存储器1004中可以包括操作系统、网络通信模块、故障原因的定位程序。其中,操作系统是管理和控制平台与软件资源的程序,支持网络通信模块、故障原因的定位程序以及其他程序或软件的运行;网络通信模块用于管理和控制网络接口1003。
在图1所示的平台中,网络接口1003主要用于连接前端页面,与前端页面进行数据通信;本发明平台中的处理器1001、存储器1004可以设置在故障原因的定位装置中,所述定位装置通过处理器1001调用存储器1004中存储的故障原因的定位程序,以执行以下步骤:
获取虚拟化环境中产生的信息,其中,所述信息包括历史告警事件和当前运行状态信息;
采用预存的分析策略对获取的所述信息进行分析;
通过分析结果定位出所述信息对应的故障原因。
进一步地,所述虚拟化平台获取虚拟化环境中产生的信息的步骤之前,所述定位装置通过处理器1001调用存储器1004中存储的故障原因的定位程序,以执行以下步骤:
在虚拟化环境中接收到触发条件时,基于所述触发条件触发预设的经验库启动,以便后续通过所述经验库中预存的分析策略对获取的所述信息进行分析。
进一步地,所述触发条件包括:虚拟化环境中出现告警状态,或者当前运行状态改变,或者当前产生新告警事件。
进一步地,所述定位装置通过处理器1001调用存储器1004中存储的故障原因的定位程序,以执行采用预存的分析策略对获取的所述信息进行分析的步骤:
在预存的分析策略中提取出分析规则,所述分析规则包括分析条件和执行指令;
根据提取的所述分析规则,对获取的所述信息进行分析,以确定分析结果。
进一步地,所述根据提取的所述分析规则,对获取的所述信息进行分析,以确定分析结果的步骤之后,所述定位装置通过处理器1001调用存储器1004中存储的故障原因的定位程序,以执行以下步骤:
将分析结果对应的告警状态与原先的告警状态进行比对;
在比对结果不匹配时,采用分析结果对应的告警状态更新原先的告警状态。
进一步地,所述通过分析结果定位出所述信息对应的故障原因的步骤之后,所述定位装置通过处理器1001调用存储器1004中存储的故障原因的定位程序,以执行以下步骤:
确定故障原因的类型;
在故障原因为预设类型的故障原因时,执行修复操作;
在故障原因不为预设类型的故障原因时,输出提示信息,以供用户执行修复操作。
进一步地,所述定位装置通过处理器1001调用存储器1004中存储的故障原因的定位程序,以执行以下步骤:
获取第三方经验信息,并将第三方经验信息与虚拟化环境中产生的信息进行比对;
基于所述信息与第三方经验信息中的公有特征,提取出与所述信息的关联度大于预设阈值的第三方经验信息;
将提取出的第三方经验信息作为分析策略录入到经验库中,以完成经验库的升级。
进一步地,所述定位装置通过处理器1001调用存储器1004中存储的故障原因的定位程序,以执行获取第三方经验信息的步骤:
获取人工在物理设备中手动输入的第三方经验信息;
或者,从学习库中获取第三方经验信息。
基于上述终端平台结构,提出本发明故障原因的定位方法的各个实施例。
本发明提供一种故障原因的定位方法。
参照图2,图2为本发明故障原因的定位方法第一实施例的流程示意图。
在本实施例中,所述故障原因的定位方法应用于虚拟化平台中,所述虚拟化平台优选为图1中所述的平台,所述虚拟化平台所在的虚拟化环境中包括多个物理设备和网络,所述故障原因的定位方法包括:
虚拟化平台获取虚拟化环境中产生的信息,其中,所述信息包括历史告警事件和当前运行状态信息;采用预存的分析策略对获取的所述信息进行分析;通过分析结果定位出所述信息对应的故障原因。
在本实施例中,所述虚拟化平台表示云平台,可以在本地终端中登陆运行,也可以直接在服务器端中运行。所述虚拟机化平台中,包括多个虚拟机、物理设备和网络,所述虚拟机和物理设备的个数不做限定,根据实际情况设定,所述物理设备优选为物理主机。
在本实施例中,所述“虚拟化平台获取虚拟化环境中产生的信息”的步骤之前,所述定位方法包括:
步骤A,在虚拟化环境中接收到触发条件时,所述虚拟化平台基于所述触发条件触发预设的经验库启动,以便后续通过所述经验库中预存的分析策略对获取的所述信息进行分析。
其中,所述触发条件包括:虚拟化环境中出现告警状态,或者当前运行状态改变,或者当前产生新告警事件。
即本实施例中,在虚拟化环境中接收到触发条件时,虚拟化平台通过该触发条件触发预设的经验库启动,以通过触发的经验库进行后续的信息分析过程,具体地:通过所述经验库中预存的分析策略对信息进行分析。
本实施例中,所述触发条件包括虚拟化环境中出现告警状态,或者是虚拟化环境中当前运行状态改变,或者是当前产生新告警事件。需要说明的是,虚拟化环境中只要出现上述三个触发条件的一个或多个,即可触发经验库启动。其中,所述经验库包括但不限于:告警类经验库、网络攻击安全类经验库。
本实施例中,为了更好理解告警状态,当前运行状态改变和当前产生新告警事件这三个触发条件,详述如下:
其中,告警状态可以是指虚拟化平台在CPU利用率或内存利用率达到预设比例如90%时,输出通知信息的一种状态,也就是说,告警状态仅仅是一种状态,不会在虚拟化平台中产生事件进行记录,具有时效性,过了当前时刻,该告警状态可能就会更改。
当前运行状态改变可以是指虚拟化平台从一个运行状态变成另一个运行状态,需要说明的是,在当前运行状态改变时,可能产生事件,也可能不产生事件,具体需要根据实际情况进行分析。
当前产生新告警事件可以是指虚拟化平台出现异常时,所记录的某个事件,该记录的事件就是指告警事件。
以下是本实施例中实现故障原因的定位的具体步骤:
步骤S10,虚拟化平台获取虚拟化环境中产生的信息,其中,所述信息包括历史告警事件和当前运行状态信息;
在本实施例中,虚拟化平台在接收到触发条件,并基于所述触发条件触发预设的经验库启动之后,即可在虚拟化环境中获取产生的信息,所述信息包括历史告警事件和当前运行状态信息。
步骤S20,采用预存的分析策略对获取的所述信息进行分析;
在获取到信息之后,所述虚拟化平台采用预存的分析策略对该获取的信息进行分析,即,所述虚拟机平台对告警事件和当前运行状态信息进行分析。
具体地,参照图3,所述步骤S20包括:
步骤S21,在预存的分析策略中提取出分析规则,所述分析规则包括分析条件和执行指令;
步骤S22,根据提取的所述分析规则,对获取的所述信息进行分析,以确定分析结果。
即,在本实施例中,虚拟化平台先在预存的分析策略中提取出分析规则,该分析规则包括分析条件和执行指令,例如在满足什么条件时,执行什么动作。在提取出分析规则之后,即可根据该分析规则对信息进行分析,以得到分析结果,例如,虚拟化平台在根据分析规则,对CPU利用率和内存利用率进行分析,先通过该分析规则检测到CPU利用率大于90%时,再通过该分析规则对内存利用率进行分析,若检测到内存利用率也达到90%时,若分析规则满足这两个条件的结论是:软件异常,即可确定该信息的分析结果是软件异常。
步骤S30,通过分析结果定位出信息对应的故障原因。
在确定分析结果之后,即可根据分析结果确定信息对应的故障原因。即,信息的分析结果是软件异常,该信息对应的故障原因就是软件异常。
需要说明的是,虚拟化平台通过预存的分析策略对信息进行分析之后,还有可能分析出无异常的结果,即对获取的信息进行分析之后,确定虚拟化环境无异常。
应当理解的是,现有技术中,对故障信息的分析,一般都只是对历史告警事件进行分析,即现有的分析方式,仅仅是获取历史告警事件进行分析,由于历史告警事件无法全面的反应当前的实际状态,因此,对故障原因的定位不够准确。
而本实施例中,是对历史告警事件和当前运行状态信息进行分析,提高分析的全面性和准确性。此外,本实施例在虚拟化环境中出现告警状态,或者当前运行状态改变,或者当前产生新告警事件,都可以进行故障信息的分析,相当于满足其中一个触发条件即可进行分析,防止漏查,也提高分析的全面性和准确性。
为更好理解本实施例,举例如下:
如图4所示,在虚拟机1触发策略1和策略2的情况下,记录虚拟机1在不同策略下对应的告警事件(虚拟机1CPU异常/虚拟机1内存异常),然后虚拟化平台基于该告警事件,触发经验库启动,以通过经验库中的分析策略对虚拟化环境中产生的信息进行分析,最终得到分析结果(虚拟机1资源负载过高)。
如图5所示,以物理主机1为例,在物理主机1触发策略1的情况下,记录该策略下对应的告警事件(物理主机1CPU异常),然后虚拟化平台基于该告警事件,触发经验库启动,以通过经验库中的分析策略对虚拟化环境中产生的信息(物理主机3CPU空闲,动态平衡服务已启用)进行分析,最终得到分析结果(动态平衡服务异常)。
本实施例的技术方案中,虚拟化平台先获取虚拟化环境中产生的信息,所述信息包括历史告警事件和当前运行状态信息,然后虚拟化平台采用预存的分析策略对获取的所述信息进行分析,最终通过分析结果定位出信息对应的故障原因。本发明实现了在虚拟化平台中对各个物理设备进行故障原因的定位,由虚拟化平台进行统一管理和定位,可以实现故障原因的快读定位,从而提高故障原因的定位效率。此外,本发明由虚拟化平台对历史告警事件以及当前运行状态信息进行分析,通过双重信息的分析,提高了故障原因定位的准确性。
进一步地,基于第一实施例提出本发明故障原因的定位方法的第二实施例。
故障原因的定位方法的第二实施例与故障原因的定位方法的第一实施例的区别在于,参照图6,所述步骤S22之后,所述定位方法还包括:
步骤S23,将分析结果对应的告警状态与原先的告警状态进行比对;
步骤S24,在比对结果不匹配时,采用分析结果对应的告警状态更新原先的告警状态。
在本实施例中,在根据提取的所述分析规则对获取的所述信息进行分析,以确定分析结果之后,确定该分析结果对应的告警状态,然后将分析结果对应的告警状态与原先的告警状态进行比对,以确定该分析结果对应的告警状态是否与一开始触发经验库启动的告警状态一致,若不一致,说明一开始系统检测出的告警状态有偏差,不够准确。
那么,将分析结果对应的告警状态替换原先的告警状态,以实现告警状态的更新,从而提高故障原因检测的准确性。
可以理解,虚拟化环境一开始出现告警状态时,该告警状态为软件异常,后续通过经验库对虚拟化环境中的当前运行状态和历史告警事件等进行分析之后,发现分析结果的告警状态是硬盘异常。而硬盘异常包括了软件异常和其它异常情况,说明虚拟化平台一开始检测到的异常情况并不全面,因此,本实施例中,采用分析结果对应的告警状态更新原先的告警状态,提高了故障原因检测的准确性。
为了更好理解本实施例,举例如下:
如图7所示,在虚拟化环境中出现告警状态,或者当前运行状态改变,或者当前产生新告警事件时,触发经验库启动,此时,虚拟化平台获取虚拟化环境中产生的信息,包括历史告警事件和当前运行状态,然后虚拟化平台采用经验库中的分析策略对获取的信息进行分析,以根据分析结果定位到故障原因,此时,若分析结果对应的告警状态与触发经验库启动的告警状态进行不匹配,则将分析结果对应的告警状态作为有效告警状态,以更新分析结果对应的告警状态,实现告警状态的更新。
进一步地,基于第一实施例提出本发明故障原因的定位方法的第三实施例。
故障原因的定位方法的第三实施例与故障原因的定位方法的第一实施例的区别在于,参照图8,所述步骤S30之后,所述定位方法还包括:
步骤S40,确定故障原因的类型;
步骤S50,在故障原因为预设类型的故障原因时,执行修复操作;
步骤S60,在故障原因不为预设类型的故障原因时,输出提示信息,以供用户执行修复操作。
在本实施例中,在通过分析结果,定位出信息对应的故障原因之后,所述虚拟化平台进一步确定该故障原因的类型,具体地:将该故障原因与预设类型的故障原因进行比对,以分析该故障原因的类型是否为预设类型。本实施例中,该预设类型是指虚拟化平台可以自行修复的故障类型,例如,磁盘故障或软件故障。当检测到该故障原因为所述预设类型的故障原因,则所述虚拟化平台自动执行修复操作,若检测到该故障原因不是预设类型的故障原因,例如是网线没插好、网络设置不正确等等,此时,虚拟化平台输出提示信息,以提示用户执行修复操作,如提示用户将网线查好,或者提示用户设置正确的网络。
本实施例中,在通过分析结果,定位出信息对应的故障原因之后,根据故障原因的类型执行相应的操作,使得故障原因的定位之后,根据具体的情况提供对应的解决方案,以便及时修复故障原因。
进一步地,基于第一至第三实施例提出本发明故障原因的定位方法的第四实施例。
故障原因的定位方法的第四实施例与故障原因的定位方法的第一至第三实施例的区别在于,参照图9,所述定位方法还包括:
步骤S70,获取第三方经验信息,并将第三方经验信息与虚拟化环境中产生的信息进行比对;
在本实施例中,可以在采用经验库中预存的分析策略对信息进行分析之前,先对经验库中的分析策略进行升级,升级之后,再采用升级后的分析策略对信息进行分析,即在步骤S10之前,执行步骤S70。
此外,还可以在本次对信息进行分析之后,再对经验库中的分析策略进行升级,升级之后,下次采用升级后的分析策略对信息进行升级。即在步骤S30之后,执行步骤S70。具体采用何种方式,不做限定。
本实施例中,所述获取第三方经验信息的步骤包括:
获取人工在物理设备中手动输入的第三方经验信息;
或者,从学习库中获取第三方经验信息。
在本实施例中,所述第三方经验信息包括技术经验信息、IT运维经验信息、各个物理设备上报的大数据信息。在第三方经验信息为技术经验信息、IT运维经验信息时,该第三方经验信息可以是人工事先在物理设备中输入的,由该物理设备上传至虚拟化平台。当该第三方经验信息是大数据信息时,可以是虚拟化平台在学习库存储的第三方经验信息达到预设数量时,从学习库中获取的。其中,大数据信息也可以是各个物理设备事先上报,由虚拟化平台存储到存储器的学习库中。
在获取到第三方经验信息之后,将第三方经验信息与虚拟化环境中产生的信息进行比对,将获取的第三方经验信息与虚拟化环境中产生的信息进行比对,实际上就是将信息的各个特征与第三方经验信息的各个特征进行比对,各个特征包括CPI、内存、软件、磁盘等特征。
步骤S80,基于所述信息与第三方经验信息中的公有特征,提取出与所述信息的关联度大于预设阈值的第三方经验信息;
在对信息以及第三方经验信息的各个特征进行比对,确定出信息与第三方经验信息中的公有特征之后,进一步确定与所述信息的关联度大于预设阈值的第三方经验信息,然后提取出该第三方经验信息。
步骤S90,将提取出的第三方经验信息作为分析策略录入到经验库中,以完成经验库的升级。
在本实施例中,提取出第三方经验信息之后,即可将提取出的第三方经验信息作为分析策略录入到经验库中,以完成经验库的升级。
在本实施例中,通过第三方经验信息对经验库不断完善和升级,以通过升级后的经验库进行故障信息进行分析,有效提高故障信息分析的准确性。
为更加理解本实施例,举例如下:
参照图10,在获取到第三方经验信息(技术经验、IT运维经验、各个物理设备上报的大数据信息)之后,将获取的第三方经验信息与虚拟化环境中产生的信息进行比对,以实现对分析策略的更新,后续基于更新的分析策略实现经验库的升级。
综上所述,本发明中,虚拟化平台将所有零散繁杂的信息经过综合分析,可找到最有效的信息和问题根源,并提供对应的解决方案,这样一来,IT运维人员可以花更少的时间找到有效信息并定位到问题的根源,也可以降低对IT运维人员能力的依赖,还提高了工作效率和故障信息分析的准确性。
此外,本发明实施例还提出一种计算机可读存储介质。
所述计算机可读存储介质上存储有故障原因的定位程序,所述故障原因的定位程序被处理器执行时实现如下操作:
获取虚拟化环境中产生的信息,其中,所述信息包括历史告警事件和当前运行状态信息;
采用预存的分析策略对获取的所述信息进行分析;
通过分析结果定位出所述信息对应的故障原因。
进一步地,所述虚拟化平台获取虚拟化环境中产生的信息的步骤之前,所述故障原因的定位程序被处理器执行时,实现以下步骤:
在虚拟化环境中接收到触发条件时,所述虚拟化平台基于所述触发条件触发预设的经验库启动,以便后续通过所述经验库中预存的分析策略对获取的所述信息进行分析。
进一步地,所述触发条件包括:虚拟化环境中出现告警状态,或者当前运行状态改变,或者当前产生新告警事件。
进一步地,所述故障原因的定位程序被处理器执行时,实现采用预存的分析策略对获取的所述信息进行分析的步骤:
在预存的分析策略中提取出分析规则,所述分析规则包括分析条件和执行指令;
根据提取的所述分析规则,对获取的所述信息进行分析,以确定分析结果。
进一步地,所述根据提取的所述分析规则,对获取的所述信息进行分析,以确定分析结果的步骤之后,所述故障原因的定位程序被处理器执行时,还实现以下步骤:
将分析结果对应的告警状态与原先的告警状态进行比对;
在比对结果不匹配时,采用分析结果对应的告警状态更新原先的告警状态。
进一步地,所述通过分析结果定位出所述信息对应的故障原因的步骤之后,所述故障原因的定位程序被处理器执行时,还实现以下步骤:
确定故障原因的类型;
在故障原因为预设类型的故障原因时,执行修复操作;
在故障原因不为预设类型的故障原因时,输出提示信息,以供用户执行修复操作。
进一步地,所述故障原因的定位程序被处理器执行时,还实现以下步骤:
获取第三方经验信息,并将第三方经验信息与虚拟化环境中产生的信息进行比对;
基于所述信息与第三方经验信息中的公有特征,提取出与所述信息的关联度大于预设阈值的第三方经验信息;
将提取出的第三方经验信息作为分析策略录入到经验库中,以完成经验库的升级。
进一步地,所述故障原因的定位程序被处理器执行时,还实现获取第三方经验信息的步骤:
获取人工在物理设备中手动输入的第三方经验信息;
或者,从学习库中获取第三方经验信息。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种故障原因的定位方法,其特征在于,所述定位方法应用于虚拟化平台,所述虚拟化平台所在的虚拟化环境中包括多个物理设备和网络,所述故障原因的定位方法包括:
虚拟化平台获取虚拟化环境中产生的信息,其中,所述信息包括历史告警事件和当前运行状态信息;
采用预存的分析策略对获取的所述信息进行分析;
通过分析结果定位出所述信息对应的故障原因;
所述虚拟化平台获取虚拟化环境中产生的信息的步骤之前,所述定位方法包括:
在虚拟化环境中接收到触发条件时,所述虚拟化平台基于所述触发条件触发预设的经验库启动,以便后续通过所述经验库中预存的分析策略对获取的所述信息进行分析;所述触发条件包括:虚拟化环境中出现告警状态,或者当前运行状态改变,或者当前产生新告警事件。
2.如权利要求1所述的故障原因的定位方法,其特征在于,所述采用预存的分析策略对获取的所述信息进行分析的步骤包括:
在预存的分析策略中提取出分析规则,所述分析规则包括分析条件和执行指令;
根据提取的所述分析规则,对获取的所述信息进行分析,以确定分析结果。
3.如权利要求2所述的故障原因的定位方法,其特征在于,所述根据提取的所述分析规则,对获取的所述信息进行分析,以确定分析结果的步骤之后,所述定位方法还包括:
将分析结果对应的告警状态与原先的告警状态进行比对;
在比对结果不匹配时,采用分析结果对应的告警状态更新原先的告警状态。
4.如权利要求1所述的故障原因的定位方法,其特征在于,所述通过分析结果定位出所述信息对应的故障原因的步骤之后,所述定位方法还包括:
确定故障原因的类型;
在故障原因为预设类型的故障原因时,执行修复操作;
在故障原因不为预设类型的故障原因时,输出提示信息,以供用户执行修复操作。
5.如权利要求1至4任一项所述的故障原因的定位方法,其特征在于,所述定位方法还包括:
获取第三方经验信息,并将第三方经验信息与虚拟化环境中产生的信息进行比对;
基于所述信息与第三方经验信息中的公有特征,提取出与所述信息的关联度大于预设阈值的第三方经验信息;
将提取出的第三方经验信息作为分析策略录入到经验库中,以完成经验库的升级。
6.如权利要求5所述的故障原因的定位方法,其特征在于,所述获取第三方经验信息的步骤包括:
获取人工在物理设备中手动输入的第三方经验信息;
或者,从学习库中获取第三方经验信息。
7.一种故障原因的定位装置,其特征在于,所述定位装置应用于虚拟化平台中,所述定位装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的故障原因的定位程序,所述故障原因的定位程序被所述处理器执行时实现如权利要求1至6中任一项所述的故障原因的定位方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有故障原因的定位程序,所述故障原因的定位程序被处理器执行时实现如权利要求1至6中任一项所述的故障原因的定位方法的步骤。
CN201710555558.XA 2017-07-07 2017-07-07 故障原因的定位方法、装置及计算机可读存储介质 Active CN107451040B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710555558.XA CN107451040B (zh) 2017-07-07 2017-07-07 故障原因的定位方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710555558.XA CN107451040B (zh) 2017-07-07 2017-07-07 故障原因的定位方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN107451040A CN107451040A (zh) 2017-12-08
CN107451040B true CN107451040B (zh) 2020-12-01

Family

ID=60488755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710555558.XA Active CN107451040B (zh) 2017-07-07 2017-07-07 故障原因的定位方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN107451040B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110095144B (zh) * 2018-01-30 2021-07-09 中电长城(长沙)信息技术有限公司 一种终端设备本地故障识别方法及系统
CN109002384A (zh) * 2018-06-29 2018-12-14 郑州云海信息技术有限公司 一种服务器故障的报警方法、装置、设备及存储介质
CN109245819A (zh) * 2018-07-19 2019-01-18 郑州云海信息技术有限公司 一种故障定位方法及相关装置
CN109783260A (zh) * 2018-12-13 2019-05-21 平安普惠企业管理有限公司 智能it全流程运维方法、装置、设备及可读存储介质
CN110164101B (zh) * 2019-04-09 2021-05-11 烽台科技(北京)有限公司 一种处理报警信息的方法及设备
CN110363381B (zh) * 2019-05-31 2023-12-22 创新先进技术有限公司 一种信息处理方法和装置
CN110262968A (zh) * 2019-06-10 2019-09-20 天翼电子商务有限公司 提升应用故障定位效率的方法、系统、介质、及电子设备
CN111176870B (zh) * 2019-08-01 2022-07-08 腾讯科技(深圳)有限公司 一种原因定位方法、装置、终端及存储介质
CN112804072B (zh) * 2019-11-14 2023-05-16 深信服科技股份有限公司 一种故障信息收集方法、装置、目标电子设备及存储介质
CN111736780B (zh) 2020-08-07 2021-02-02 苏州浪潮智能科技有限公司 一种固态硬盘的擦除方法、装置、设备及存储介质
CN112187571B (zh) * 2020-09-16 2022-12-20 苏州浪潮智能科技有限公司 一种基于x86虚拟化环境下的虚拟网络故障检测方法及装置
CN113965448A (zh) * 2021-09-14 2022-01-21 国科信创科技有限公司 基于ai搜索树的网络安全信息分析方法、装置及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103227734A (zh) * 2013-04-27 2013-07-31 华南理工大学 一种OpenStack云平台异常的检测方法
JP2013187627A (ja) * 2012-03-06 2013-09-19 Ntt Docomo Inc 通信網監視システム、監視装置および通信網監視方法
CN105187239A (zh) * 2015-08-17 2015-12-23 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于数据挖掘的通信告警分析系统及其处理方法
CN105808368A (zh) * 2016-03-15 2016-07-27 南京联成科技发展有限公司 一种基于随机概率分布的信息安全异常检测的方法及系统
CN106250288A (zh) * 2016-07-29 2016-12-21 浪潮软件集团有限公司 一种基于数据挖掘的根告警分析识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106681882A (zh) * 2015-11-06 2017-05-17 上海瑞致软件有限公司 基于Apriori算法的IT服务集中监控管理系统
CN105391579B (zh) * 2015-11-25 2018-08-24 国家电网公司 基于关键告警集和监督分类的电力通信网故障定位方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013187627A (ja) * 2012-03-06 2013-09-19 Ntt Docomo Inc 通信網監視システム、監視装置および通信網監視方法
CN103227734A (zh) * 2013-04-27 2013-07-31 华南理工大学 一种OpenStack云平台异常的检测方法
CN105187239A (zh) * 2015-08-17 2015-12-23 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于数据挖掘的通信告警分析系统及其处理方法
CN105808368A (zh) * 2016-03-15 2016-07-27 南京联成科技发展有限公司 一种基于随机概率分布的信息安全异常检测的方法及系统
CN106250288A (zh) * 2016-07-29 2016-12-21 浪潮软件集团有限公司 一种基于数据挖掘的根告警分析识别方法

Also Published As

Publication number Publication date
CN107451040A (zh) 2017-12-08

Similar Documents

Publication Publication Date Title
CN107451040B (zh) 故障原因的定位方法、装置及计算机可读存储介质
US20190332513A1 (en) Method and apparatus for dealing with abnormality of application program and storage medium
US10635473B2 (en) Setting support program, setting support method, and setting support device
CN112631913B (zh) 应用程序的运行故障监控方法、装置、设备和存储介质
CN107800783B (zh) 远程监控服务器的方法及装置
JP6282217B2 (ja) 不正プログラム対策システムおよび不正プログラム対策方法
CN110063042A (zh) 一种数据库故障的响应方法及其终端
CN110673936A (zh) 编排业务的断点续作方法、装置、存储介质及电子设备
CN112529223A (zh) 一种设备故障报修方法、装置、服务器及储存介质
JP6028657B2 (ja) 検証プログラム、検証方法および検証装置
WO2014204470A1 (en) Generating a fingerprint representing a response of an application to a simulation of a fault of an external service
CN108650123B (zh) 故障信息记录方法、装置、设备和存储介质
CN108255703B (zh) 一种sql脚本的故障修复方法及其终端
CN112650674A (zh) 远程获取、调试网页日志的方法、计算机设备及存储介质
CN111752838A (zh) 问题排查方法、装置、服务器及存储介质
CN111416857A (zh) 客户端崩溃处理方法、装置、系统、设备和存储介质
CN111367725A (zh) 异步任务的在线监控方法、前端控制系统和业务响应平台
CN112181695A (zh) 异常应用处理方法、装置、服务器及存储介质
CN113656378A (zh) 一种服务器管理方法、装置、介质
CN114184885A (zh) 一种故障检测方法、装置及存储介质
US20140149989A1 (en) Apparatus and method for extracting restriction condition
CN114817010A (zh) 一种基于Python的Redfish自动化测试方法及装置
JP5150546B2 (ja) 情報処理装置、操作履歴取得方法、コンピュータプログラム
CN115333923B (zh) 一种故障点溯源分析方法、装置、设备及介质
CN114880157B (zh) 一种故障注入方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant