CN109783260A - 智能it全流程运维方法、装置、设备及可读存储介质 - Google Patents
智能it全流程运维方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN109783260A CN109783260A CN201811530998.0A CN201811530998A CN109783260A CN 109783260 A CN109783260 A CN 109783260A CN 201811530998 A CN201811530998 A CN 201811530998A CN 109783260 A CN109783260 A CN 109783260A
- Authority
- CN
- China
- Prior art keywords
- point
- fault
- alarm
- intelligent
- whole process
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明公开了一种智能IT全流程运维方法、装置、设备及可读存储介质,所述方法包括:获取预设时间内的所有告警事件,对所述所有告警事件进行故障分析,得到分析报告;根据所述分析报告确定目标故障点,并获取所述目标故障点的故障因子;根据所述故障因子从预存的应急数据库中获取对应的目标api应急工具,以对所述目标故障点对于进行故障修复。本发明解决现有技术中IT运维智能度低,影响运维效率的技术问题。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种智能IT全流程运维方法、装置、设备及可读存储介质。
背景技术
当前未存在自动化运行的智能IT运维,由于IT运维的不智能,导致整个运维流程当中需要大量的人为操作,这极大地降低了运维过程中的效率。例如系统发生故障时,需要人为去分析问题,人为定位修复点,人为开会决定解决方案,并执行方案排解故障等,人为操作,极大地延长了运营周期,影响了工作效率。
发明内容
本发明的主要目的在于提供一种智能IT全流程运维方法、装置、设备及可读存储介质,旨在解决现有技术中IT运维智能度低,影响运维效率的技术问题。
为实现上述目的,本发明提供一种智能IT全流程运维方法,所述智能IT全流程运维方法包括:
获取预设时间内的所有告警事件,对所述所有告警事件进行故障分析,得到分析报告;
根据所述分析报告确定目标故障点,并获取所述目标故障点的故障因子;
根据所述故障因子从预存的应急数据库中获取对应的目标api应急工具,以对所述目标故障点对于进行故障修复。
可选地,所述获取预设时间内的所有告警事件,对所述所有告警事件进行故障分析,得到分析报告步骤包括:
获取预设时间内的所有告警事件,并获取各所述告警事件中的所有告警异常点;
针对每个告警异常点,执行如下步骤:
统计所述告警异常点对应的告警指标,并从所述告警指标中获取所述告警异常点当前的业务量;
通过预存的第一规则计算所述告警异常点的关联分值,并通过预存的第二规则计算所述告警异常点的告警分值;
若所述告警分值小于第一阈值、所述业务量大于第二阈值以及所述关联分值大于第三阈值,则判定所述告警异常点的故障类型为关联故障类型;
若所述告警分值大于或等于第一阈值、所述业务量小于或等于第二阈值,则判定所述告警异常点的故障类型为节点故障类型;
根据所述告警异常点以及告警异常点的类型生成分析报告。
可选地,所述通过预存的第一规则计算所述告警异常点的关联分值步骤包括:
获取所述告警异常点预设的上下游调用关系,并获取所述上游调用关系对应的上游网络权值,以及所述下游调用关系对应的下游网络权值;
将所述上游网络权值以及下游网络权值之和设为所述告警异常点的关联分值。
可选地,所述根据所述分析报告确定目标故障点,并获取所述目标故障点的故障因子步骤包括:
将所述分析报告中的告警异常点设为所有潜在故障点;
针对每个潜在故障点,执行如下步骤:
对所述潜在故障点进行健康探测,并获得第一探测返回值;
获取所述第一探测返回值指定的新的故障点,并对所述新的故障点进行持续健康探测,直至不再产生新的故障点为止,将所述不再产生新的故障点对应的故障点确定为目标故障点,得到所述目标故障点的第二探测返回值;
输出所述目标故障点与所述第二探测返回值,基于预设的所述第二探测返回值指向的故障因子设为所述目标故障点的故障因子。
可选地,所述对所述潜在故障点进行健康探测,并获得第一探测返回值步骤包括:
获取所述潜在故障点的节点类型,并从预设工具库中获取到与所述节点类型相对应的探测功能;
获取所述探测功能的探测指标,并根据所述探测指标对所述潜在故障点中的指标数据进行嗅探测试,以获得所述潜在故障点的第一探测返回值。
可选地,所述根据所述故障因子从预存的应急数据库中获取对应的目标api应急工具,以对所述目标故障点对于进行故障修复步骤包括:
从预存的应急数据库中获取所述故障因子对应的所有api应急工具;
判断各个单独的所述api应急工具能否排除所述故障因子;
若各个单独的所述api应急工具都未能排除所述故障因子,则组合编排所述各api应急工具,以生成所述故障因子的目标应急工具集;
将所述目标应急工具集设为所述目标api应急工具,以对所述目标故障点对于进行故障修复。
可选地,所述若各个单独的所述api应急工具都未能排除所述故障因子,则组合编排所述各api应急工具,以生成所述故障因子的目标应急工具集步骤包括:
若各个单独的所述api应急工具都未能排除所述故障因子,则生成组合编排指令,获取所述组合编排指令中所携带的各个功能步骤以及各个功能步骤的执行顺序;
从预存的api应急工具映射表中获取执行所述各个功能步骤所需的各个初始api应急工具;
按照所述各个功能步骤的执行顺序将所述各个初始api应急工具进行排序,并将所有所述初始api应急工具和对应的功能步骤按照所述执行顺序封装为目标应急工具集。
本发明还提供一种智能IT全流程运维装置,所述智能IT全流程运维装置包括:
第一获取模块,用于获取预设时间内的所有告警事件,对所述所有告警事件进行故障分析,得到分析报告;
第二获取模块,用于根据所述分析报告确定目标故障点,并获取所述目标故障点的故障因子;
第三获取模块,用于根据所述故障因子从预存的应急数据库中获取对应的目标api应急工具,以对所述目标故障点进行故障修复。
可选地,所述第一获取模块包括:
第一获取单元,用于获取预设时间内的所有告警事件,并获取各所述告警事件中的所有告警异常点;
统计单元,用于统计所述告警异常点对应的告警指标,并从所述告警指标中获取所述告警异常点当前的业务量;
计算单元,用于通过预存的第一规则计算所述告警异常点的关联分值,并通过预存的第二规则计算所述告警异常点的告警分值;
第一判定单元,用于若所述告警分值小于第一阈值、所述业务量大于第二阈值以及所述关联分值大于第三阈值,则判定所述告警异常点的故障类型为关联故障类型;
第二判定单元,用于若所述告警分值大于或等于第一阈值、所述业务量小于或等于第二阈值,则判定所述告警异常点的故障类型为节点故障类型;
生成单元,用于根据所述告警异常点以及告警异常点的类型生成分析报告。
可选地,所述计算单元包括:
第二获取单元,用于获取所述告警异常点预设的上下游调用关系,并获取所述上游调用关系对应的上游网络权值,以及所述下游调用关系对应的下游网络权值;
设置单元,用于将所述上游网络权值以及下游网络权值之和设为所述告警异常点的关联分值。
可选地,所述第二获取单元包括:
设置子单元,用于将所述分析报告中的告警异常点设为所有潜在故障点;
健康探测子单元,用于对所述潜在故障点进行健康探测,并获得第一探测返回值;
第一获取子单元,用于获取所述第一探测返回值指定的新的故障点,并对所述新的故障点进行持续健康探测,直至不再产生新的故障点为止,将所述不再产生新的故障点对应的故障点确定为目标故障点,得到所述目标故障点的第二探测返回值;
输出子单元,用于输出所述目标故障点与所述第二探测返回值,基于预设的所述第二探测返回值指向的故障因子设为所述目标故障点的故障因子。
可选地,所述健康探测子单元用于实现:
获取所述潜在故障点的节点类型,并从预设工具库中获取到与所述节点类型相对应的探测功能;
获取所述探测功能的探测指标,并根据所述探测指标对所述潜在故障点中的指标数据进行嗅探测试,以获得所述潜在故障点的第一探测返回值。
可选地,所述第三获取模块包括:
第三获取单元,用于从预存的应急数据库中获取所述故障因子对应的所有api应急工具;
判断单元,用于判断各个单独的所述api应急工具能否排除所述故障因子;
组合编排单元,用于若各个单独的所述api应急工具都未能排除所述故障因子,则组合编排所述各api应急工具,以生成所述故障因子的目标应急工具集;
修复单元,用于将所述目标应急工具集设为所述目标api应急工具,以对所述目标故障点对于进行故障修复。
可选地,所述组合编排单元包括:
生成子单元,用于若各个单独的所述api应急工具都未能排除所述故障因子,则生成组合编排指令,获取所述组合编排指令中所携带的各个功能步骤以及各个功能步骤的执行顺序;
第二获取子单元,用于从预存的api应急工具映射表中获取执行所述各个功能步骤所需的各个初始api应急工具;
排序子单元,用于按照所述各个功能步骤的执行顺序将所述各个初始api应急工具进行排序,并将所有所述初始api应急工具和对应的功能步骤按照所述执行顺序封装为目标应急工具集。
此外,为实现上述目的,本发明还提供一种智能IT全流程运维设备,所述智能IT全流程运维设备包括:存储器、处理器,通信总线以及存储在所述存储器上的智能IT全流程运维程序,
所述通信总线用于实现处理器与存储器间的通信连接;
所述处理器用于执行所述智能IT全流程运维程序,以实现以下步骤:
获取预设时间内的所有告警事件,对所述所有告警事件进行故障分析,得到分析报告;
根据所述分析报告确定目标故障点,并获取所述目标故障点的故障因子;
根据所述故障因子从预存的应急数据库中获取对应的目标api应急工具,以对所述目标故障点对于进行故障修复。
此外,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行以用于:
获取预设时间内的所有告警事件,对所述所有告警事件进行故障分析,得到分析报告;
根据所述分析报告确定目标故障点,并获取所述目标故障点的故障因子;
根据所述故障因子从预存的应急数据库中获取对应的目标api应急工具,以对所述目标故障点对于进行故障修复。
本发明通过获取预设时间内的所有告警事件,对所述所有告警事件进行故障分析,得到分析报告;根据所述分析报告确定目标故障点,并获取所述目标故障点的故障因子;根据所述故障因子从预存的应急数据库中获取对应的目标api应急工具,以对所述目标故障点进行故障修复。即在本申请中,在检测到告警事件时,自动地对告警事件进行故障分析,得到分析报告,并自动地确定目标故障点,并获取所述目标故障点的故障因子,以自动地获取目标api应急工具,以对所述目标故障点进行故障修复,也即在本申请中,实现全流程的自动化的IT运维,而不是人为操作,因而,提升了运维效率,解决了现有技术中IT运维智能度低,影响运维效率的技术问题。
附图说明
图1为本发明智能IT全流程运维方法第一实施例的流程示意图;
图2为本发明智能IT全流程运维方法中获取预设时间内的所有告警事件,对所述所有告警事件进行故障分析,得到分析报告步骤的细化流程示意图;
图3是本发明实施例方法涉及的硬件运行环境的设备结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种智能IT全流程运维方法,在本发明智能IT全流程运维方法的第一实施例中,参照图1,所述智能IT全流程运维方法包括:
步骤S10,获取预设时间内的所有告警事件,对所述所有告警事件进行故障分析,得到分析报告;
步骤S20,根据所述分析报告确定目标故障点,并获取所述目标故障点的故障因子;
步骤S30,根据所述故障因子从预存的应急数据库中获取对应的目标api应急工具,以对所述目标故障点对于进行故障修复。
具体步骤如下:
步骤S10,获取预设时间内的所有告警事件,对所述所有告警事件进行故障分析,得到分析报告;
在本实施例中,提出一种智能IT全流程运维方法,该智能IT全流程运维方法可以应用于智能IT全流程运维系统(可以简称为系统)。
获取预设时间内的所有告警事件,如获取1小时内的所有告警事件或者实时获取告警事件,其中,告警事件通过预先设置在智能IT全流程运维系统中的各个监控节点监测得到,在得到告警事件后,针对该告警事件进行故障分析,得到分析报告,该分析报告中包括告警时间,告警次数,以及告警类型等信息。
具体地,参照图2,所述获取预设时间内的所有告警事件,对所述所有告警事件进行故障分析,得到分析报告步骤包括:
步骤S11,获取预设时间内的所有告警事件,并获取各所述告警事件中的所有告警异常点;
需要说明的是,每个告警事件涉及一个或者多个告警异常点,告警异常点包括各个节点如下属子系统节点以及流程节点等。
针对每个告警异常点,执行如下步骤:
步骤S12,统计所述告警异常点对应的告警指标,并从所述告警指标中获取所述告警异常点当前的业务量;
在本实施例中,智能IT全流程运维系统采集到所有告警事件,从告警事件中得到告警异常点以及对应的告警指标,从告警指标中得到每个告警异常点的业务量,根据预设的权重以及该业务量等计算告警异常点的告警分值和关联分值,再通过阈值比对确定当前告警异常点是关联故障还是节点故障,以供智能IT全流程运维系统得到故障处理方向,进而,根据故障处理方向进行进一步的故障处理。
具体地,在智能IT全流程运维系统中,存在监控子系统,该监控子系统监控各个IT业务子系统,以获取各个IT业务子系统的相关告警事件,而对于智能IT全流程运维系统而言,每个IT业务子系统都是节点,通过各个IT业务子系统即各个节点形成智能IT全流程运维系统的数据结构,在该数据结构中,两个节点之间的有方向的连线表示哪个子系统调用哪个子系统,以便后续获取各告警异常点的关联关系。在本实施例中,实时从各个监控子系统中,提取预设时间段内如最近1小时内的告警事件,并从告警事件中提取出每个事件中涉及的告警异常点和告警指标。例如,智能IT全流程运维系统获取到2条告警事件,分别是:1、A节点无法调用B节点,A节点的ip1地址和B节点的ip2地址不通;2、A节点的数据库无法正常调用。那么系统将获取到告警异常点A和B,以及告警指标ip1、ip2、数据库调用异常。
智能IT全流程运维系统将对各告警指标进行统计分类,以将各告警指标对应到各自的告警异常点之下,从而得到各告警异常点存在何种告警指标。即智能IT全流程运维系统获取到告警异常点和告警指标之后,通过统计可将各告警指标对应到各自的告警异常点之下。如上述A节点的告警指标包括ip1地址不通和数据库无法调用,而B节点的告警指标包括ip2地址不通。同时智能IT全流程运维系统从所述告警指标中获取所述告警异常点当前的业务量,系统将从告警指标中得到当前各告警异常点的业务量是指告警异常点当前传送数据的数量,特别地,该业务量可以是关键业务量,即智能IT全流程运维系统将从告警指标中得到当前各告警异常点的关键业务量,该关键业务量或者业务量代表着当前该告警异常点的数据吞吐量所处的状态,如数据吞吐量是高还是低等。通常地,若一个告警异常点发生指标异常时,那么其关键业务量或者业务量也会发生较大的变化,而这种变化从侧面反映了当前告警异常点的故障存在。
步骤S13,通过预存的第一规则计算所述告警异常点的关联分值,并通过预存的第二规则计算所述告警异常点的告警分值;
在本实施例中,通过预存的第一规则计算所述告警异常点的关联分值,并通过预存的第二规则计算所述告警异常点的告警分值,其中,该关联分值是当前告警异常点受其他告警异常点影响的量化指标,告警分值是当前不同告警异常点中各自自身对应的告警程度,该第一规则可以是调用权重规则,是第二规则可以是节点重要等级权重规则。
其中,通过预存的第一规则计算所述告警异常点的关联分值步骤包括:
步骤A1,获取所述告警异常点预设的上下游调用关系,并获取所述上游调用关系对应的上游网络权值,以及所述下游调用关系对应的下游网络权值;
在本实施例中,智能IT全流程运维系统将获取各告警异常点的上下游调用关系,并获取所述上游调用关系对应的上游网络权值,以及所述下游调用关系对应的下游网络权值,例如B告警异常点的上游调用节点为A节点,下游调用节点为C节点,这样,B告警异常点的上下游调用关系分别为B被A调用,B调用C。因而,需获取B告警异常点被A调用对应的上游网络权值,并获取B调用C对应的下游网络权值。不同的告警异常点被调用的权值是预设的,例如对于B节点而言,B被A调用的上游网络权值为3。
步骤A2,将所述上游网络权值以及下游网络权值之和设为所述告警异常点的关联分值。
将所述上游网络权值以及下游网络权值之和设为所述告警异常点的关联分值,例如,在得到B调用C的下游网络权值为5,B被A调用的上游网络权值为3,那么B节点的关联分值为3+5=8。
步骤S14,若所述告警分值小于第一阈值、所述业务量大于第二阈值以及所述关联分值大于第三阈值,则判定所述告警异常点的故障类型为关联故障类型;
在本实施例中,在得到关联分值、所述业务量以及所述告警分值后,根据所述告警异常点的关联分值、所述业务量以及所述告警分值确定所述告警异常点的故障类型,其中,故障类型包括关联故障类型以及节点故障类型,其中,关联故障类型即是该告警异常点是受到关联影响的,节点故障类型即是该节点是未受到关联影响,确定该节点本身存在故障。
在本实施例中,若是当前告警分值小于第一阈值,且业务量大于第二阈值,说明当前该告警异常点本身的数据处理能力处于正常范围内,因此该告警异常点极可能受到关联影响,因此系统将判定该异常节点为关联故障。
步骤S15,若所述告警分值大于或等于第一阈值、所述业务量小于或等于第二阈值,则判定所述告警异常点的故障类型为节点故障类型;
若告警分值大于等于第一阈值,说明当前该告警异常点的节点本身的告警程度超过了门限值,而业务量小于或等于第二阈值,说明当前该节点的数据处理能力低于门限值,此时,系统判定该节点为节点故障。
步骤S16,根据所述告警异常点以及告警异常点的类型生成分析报告。
在得到告警异常点以及告警异常点的类型后,生成分析报告,该分析报告将告警异常点与对应的告警异常点的类型关联存储。
步骤S20,根据所述分析报告确定目标故障点,并获取所述目标故障点的故障因子;
在得到分析报告后,将所述分析报告中的告警异常点设为所有潜在故障点,自动根据潜在故障点确定目标故障点,具体地,若潜在故障节点为关联故障类型,则一般该故障节点不是目标故障节点,若潜在故障节点为节点故障类型,则节点故障类型可能为目标故障节点,具体还需对各个潜在故障点进行探测,判断该各个潜在故障点是否为引起故障的最根本因子,尤其是判断该节点故障类型的潜在故障点是否为引起故障的最根本因子,若是潜在故障点为引起故障的最根本因子,则引起故障的最根本因子对应的潜在故障点为目标故障点,同时,可以获取该目标故障点的故障因子,在本实施例中,故障因子即是故障原因。
步骤S30,根据所述故障因子从预存的应急数据库中获取对应的目标api应急工具,以对所述目标故障点对于进行故障修复。
在预存的应急数据库中,存有对各个故障因子对应的各个故障点进行故障修复的api应急工具,在得到故障因子后,根据所述故障因子从预存的应急数据库中获取对应的目标api应急工具,自动对所述目标故障点对于进行故障修复。
本发明通过获取预设时间内的所有告警事件,对所述所有告警事件进行故障分析,得到分析报告;根据所述分析报告确定目标故障点,并获取所述目标故障点的故障因子;根据所述故障因子从预存的应急数据库中获取对应的目标api应急工具,以对所述目标故障点进行故障修复。即在本申请中,在检测到告警事件时,自动地对告警事件进行故障分析,得到分析报告,并自动地确定目标故障点,并获取所述目标故障点的故障因子,以自动地获取目标api应急工具,以对所述目标故障点进行故障修复,也即在本申请中,实现全流程的自动化的IT运维,而不是人为操作,因而,提升了运维效率,解决了现有技术中IT运维智能度低,影响运维效率的技术问题。
进一步地,本发明提供智能IT全流程运维方法的另一实施例,在该实施例中,所述根据所述分析报告确定目标故障点,并获取所述目标故障点的故障因子步骤包括:
步骤S21,将所述分析报告中的告警异常点设为所有潜在故障点;
在本实施例中,将所有告警异常点设为所有潜在故障点,或者将节点故障类型的告警异常点设为所有潜在故障点。
针对每个潜在故障点,执行如下步骤:
步骤S22,对所述潜在故障点进行健康探测,并获得第一探测返回值;
所述潜在故障点中必定存在有一个或几个故障点失误导致其他节点也发生故障。本实施例中,智能IT全流程运维系统通过对各个潜在故障点进行健康探测,以得到各个第一探测返回值。
进一步地,为方便理解,以下通过例子进行解释说明:A故障点为产品订单节点,B故障点为订单数据库,故障情况为A故障点无法调用B故障点数据库中的订单内容。智能IT全流程运维系统将确定A故障点调用订单编号是否正确,通过将已知订单编号对A故障点的订单调用进行检测,判断A故障点是否正常检索到B节点中的订单编号,若能正常检索到B节点中的订单编号则判断A故障点能否利用订单编号查询到该编号的记录,若能利用订单编号查询到该编号的记录则判断A点能够将记录中的订单内容正常拉取,能将记录中的订单内容正常拉取则判断A点拉取的内容是否发生改变,若A点拉取的内容不发生改变则判断A点显示订单内容的方式是否正常。若这个探测流程中哪个步骤与正常步骤应得的步骤结果不同,则系统将定位到该步骤结果不同的步骤节点上。例如智能IT全流程运维系统定位到A故障点调用B故障点中订单记录时,B节点无法反馈相应的记录信息,则智能IT全流程运维系统将探测到调用过程中哪个步骤失误导致调用失败,并返回一个代表该步骤调用失败的第一探测返回值。
具体地,所述对所述潜在故障点进行健康探测,并获得第一探测返回值步骤包括:
步骤B1,获取所述潜在故障点的节点类型,并从预设工具库中获取到与所述节点类型相对应的探测功能;
在本实施例中,不同的潜在故障点在智能IT全流程运维系统中具有各自的节点类型,而不同的节点类型在智能IT全流程运维系统系统的预设功能库中都有对应的专属探测功能,获取所述潜在故障点的节点类型,并从预设工具库中获取到与所述节点类型相对应的探测功能,例如,潜在故障点为网络通讯节点,那么系统将在预设功能库中获取到与网络通讯节点类别相互映射的网络探测功能。
步骤B2,获取所述探测功能的探测指标,并根据所述探测指标对所述潜在故障点中的指标数据进行嗅探测试,以获得所述潜在故障点的第一探测返回值。
不同探测功能具有不同的探测指标,例如网络探测功能的探测指标是网络链接状态,数据传输速率等等。在本实施例中,通过探测功能对相应的潜在故障点中的指标数据进行嗅探测试。所述嗅探测试即为对潜在故障点中的指标数据进行分类筛选,以将指标数据中与探测指标同类型的指标数据筛选出来,并对筛选出来的该同类型的指标数据进行溯源探测,从而进一步获得该潜在故障点对应的各个第一探测返回值或者第二探测返回值(如果该潜在故障点为目标故障点)。
例如当前探测指标对潜在故障点中的网络连接状态进行探测,那么系统的探测步骤可包括以下步骤:定位确定网络连接状态的连接双端对象,从A节点向B节点发起建立网络连接指令,系统确定A节点的ip1地址,获取B节点的ip2地址,并确立A节点和B节点的之间的DNS解析服务是否正确等等。通过探测功能对网络连接中所涉及到的所有网络指标数据的输出输入进行测试,从而确认每一个流程当中哪个环节出现问题。
步骤S23,获取所述第一探测返回值指定的新的故障点,并对所述新的故障点进行持续健康探测,直至不再产生新的故障点为止,将所述不再产生新的故障点对应的故障点确定为目标故障点,得到所述目标故障点的第二探测返回值;
第一探测返回值可能会指向一个新的故障点,因此,智能IT全流程运维系统将对该新的故障点进行再一次的健康探测,重新得到一个新的第一探测返回值,再由新的第一探测返回值指向另一故障点,循环迭代以上步骤,直到最后不再产生新的故障点为止,将所述不再产生新的故障点对应的故障点确定为目标故障点,得到所述目标故障点的第二探测返回值。
也就是说,智能IT全流程运维系统需要对潜在故障点进行迭代探测,即迭代得到每个潜在故障点的第一探测返回值,若第一探测返回值指向新的故障点,说明数据探测未探测到底,若不再生成新的故障点,说明系统已遍历当前所有可能出现异常的故障点。此时,经过对多个潜在故障点的探测到底的操作,智能IT全流程运维系统将得到经过由各第一探测返回值多次指向的一个或多个目标故障点,也即智能IT全流程运维系统已经提取出各个潜在故障点所产生交集的公共故障点(目标故障点)。公共故障点可以不止一个,是对所有关联故障点产生数据偏移的源头。
例如A调用B时产生故障,A调用C是产生故障,而B调用C并未产生故障,那么作为BC共同的交集故障点,A即为源头故障点。
步骤S24,输出所述目标故障点与所述第二探测返回值,基于预设的所述第二探测返回值指向的故障因子设为所述目标故障点的故障因子。
在得到目标故障点以及第二探测返回值后,输出该目标故障点与第二探测返回值,以提示用户或者是运维人员。
在本实施例中,通过将所述分析报告中的告警异常点设为所有潜在故障点;针对每个潜在故障点,执行如下步骤:对所述潜在故障点进行健康探测,并获得第一探测返回值;获取所述第一探测返回值指定的新的故障点,并对所述新的故障点进行持续健康探测,直至不再产生新的故障点为止,将所述不再产生新的故障点对应的故障点确定为目标故障点,得到所述目标故障点的第二探测返回值;输出所述目标故障点与所述第二探测返回值,基于预设的所述第二探测返回值指向的故障因子设为所述目标故障点的故障因子。在本实施例中,自动并准确识别故障因子,为实现IT的全自动全流程运维奠定基础。
进一步地,本发明提供智能IT全流程运维方法的另一实施例,在该实施例中,所述根据所述故障因子从预存的应急数据库中获取对应的目标api应急工具,以对所述目标故障点对于进行故障修复步骤包括:
步骤S31,从预存的应急数据库中获取所述故障因子对应的所有api应急工具;
从预存的应急数据库中获取所述故障因子对应的所有api应急工具,例如,智能IT全流程运维系统中,存在文件系统调用异常的故障因子,而针对文件系统调用异常的故障因子的api应急工具可以包括工具1:文件系统探测工具,工具2:文件调用工具,工具3:系统扩容工具等等。
步骤S32,判断各个单独的所述api应急工具能否排除所述故障因子;
在本实施例中,智能IT全流程运维系统将调用应用系统故障因子对应的所有api应急工具,并判断各个单独的所述api应急工具是否能够排除所述故障因子,例如,应用上述工具1探测文件系统是否存在调用衔接问题,若工具1无法排除故障因子,则应用工具2,若工具2无法排除故障因子,则应用工具3,判断各个单独的所述api应急工具是否能够排除所述故障因子过程中,若是单独的所述api应急工具能够排除所述故障因子,则不执行后续步骤。需要说明的是,api工具各自有输入参数和输出参数,均为各api工具执行其功能步骤时的参数,在上述判断各个单独的所述api应急工具是否能够排除所述故障因子过程中,可以初始化所述api应急工具的配置参数,例如,智能IT全流程运维系统需要利用api应急工具对系统进行扩容,则可以将系统中现有的容量,ip信息作为相应api应急工具的初始化配置参数,以便该相应api应急工具在执行扩容功能时,计算应扩容多少容量,配置什么ip等等数据。
步骤S33,若各个单独的所述api应急工具都未能排除所述故障因子,则组合编排所述各api应急工具,以生成所述故障因子的目标应急工具集;
在本实施例中,若各个单独的所述api应急工具都未能排除所述故障因子,则组合编排所述各api应急工具,组合编排各api应急工具后,得到目标应急工具集,其中目标应急工具集中各api应急工具是可以有序集合的。
具体地,所述若各个单独的所述api应急工具都未能排除所述故障因子,则组合编排所述各api应急工具,以生成所述故障因子的目标应急工具集步骤包括:
步骤C1,若各个单独的所述api应急工具都未能排除所述故障因子,则生成组合编排指令,获取所述组合编排指令中所携带的各个功能步骤以及各个功能步骤的执行顺序;
在本实施例中,组合编排指令中携带各类信息。若各个单独的所述api应急工具都未能排除所述故障因子,则生成组合编排指令,获取所述组合编排指令中所携带的各个功能步骤以及各个功能步骤的执行顺序。
步骤C2,从预存的api应急工具映射表中获取执行所述各个功能步骤所需的各个初始api应急工具;
从预存的api应急工具映射表中获取执行所述各个功能步骤所需的各个初始api应急工具,具体地,在本实施例中,各个api工具执行着不同的功能步骤,例如,工具t1,工具t2都需要用于解决问题a,则工具t1,工具t2为初始api应急工具。
步骤C3,按照所述各个功能步骤的执行顺序将所述各个初始api应急工具进行排序,并将所有所述初始api应急工具和对应的功能步骤按照所述执行顺序封装为目标应急工具集。
获取各个功能步骤的执行顺序,按照所述各个功能步骤的执行顺序将所述各个初始api应急工具进行排序,并将所有所述初始api应急工具和对应的功能步骤按照所述执行顺序封装为目标应急工具集,例如,工具t1和工具t2在解决问题a上的前后方向是一致的,故,先排序工具t1,后排序工具t2,需要说明的是,先后排序的工具t1和工具t2所引用的参数可以是相承的,即工具t1的输出参数刚好为工具t2的输入参数,例如工具t1的输出参数为系统名d、系统编号123456、系统容量的缺失量为1G。而工具t2的输入参数为系统编号、系统容量的缺失量。若先后排序的工具t1和工具t2所引用的参数可以是相承的,那么可以根据相承的参数,以对对工具t1和工具t2进行编排组合。本实施例根据相承的参数,以对对工具t1和工具t2进行编排组合的意义在于,确定第一应急工具和第二应急工具进行组合编排的合格性,避免第一应急工具和第二应急工具通过组合编排出来的新工具是无效工具,而出现无法执行或执行异常的现象。需要说明的是,本实施例中的第一应急工具和第二应急工具为泛称,指代的是某一类工具而不是具体的工具对象,即第一应急工具可以为若干个同属性工具,第二应急工具同理。
步骤S34,将所述目标应急工具集设为所述目标api应急工具,以对所述目标故障点对于进行故障修复。
在得到目标应急工具集后,将直接调用所述工具,排除所述故障因子对应的系统故障点。例如,调用测试网络连接、DNS解析测试、数据解析测试组成的网络连接故障工具集,进行网络连接故障的排除。
在本实施例中,通过从预存的应急数据库中获取所述故障因子对应的所有api应急工具;判断各个单独的所述api应急工具能否排除所述故障因子;若各个单独的所述api应急工具都未能排除所述故障因子,则组合编排所述各api应急工具,以生成所述故障因子的目标应急工具集;将所述目标应急工具集设为所述目标api应急工具,以对所述目标故障点对于进行故障修复,在本实例中,节约了修复时间。
参照图3,图3是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例智能IT全流程运维设备可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、便携计算机等终端设备。
如图3所示,该智能IT全流程运维设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该智能IT全流程运维设备还可以包括目标用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。目标用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选目标用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图3中示出的智能IT全流程运维设备结构并不构成对智能IT全流程运维设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图3所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及智能IT全流程运维程序。操作系统是管理和控制智能IT全流程运维设备硬件和软件资源的程序,支持智能IT全流程运维程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与智能IT全流程运维设备中其它硬件和软件之间通信。
在图3所示的智能IT全流程运维设备中,处理器1001用于执行存储器1005中存储的智能IT全流程运维程序,实现上述任一项所述的智能IT全流程运维方法的步骤。
本发明智能IT全流程运维设备具体实施方式与上述智能IT全流程运维方法各实施例基本相同,在此不再赘述。
本发明还提供一种智能IT全流程运维装置,所述智能IT全流程运维装置包括:
第一获取模块,用于获取预设时间内的所有告警事件,对所述所有告警事件进行故障分析,得到分析报告;
第二获取模块,用于根据所述分析报告确定目标故障点,并获取所述目标故障点的故障因子;
第三获取模块,用于根据所述故障因子从预存的应急数据库中获取对应的目标api应急工具,以对所述目标故障点对于进行故障修复。
本发明智能IT全流程运维装置具体实施方式与上述智能IT全流程运维方法各实施例基本相同,在此不再赘述。
本发明提供了一种可读存储介质,所述可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的智能IT全流程运维方法的步骤。
本发明可读存储介质具体实施方式与上述智能IT全流程运维方法各实施例基本相同,在此不再赘述。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利处理范围内。
Claims (10)
1.一种智能IT全流程运维方法,其特征在于,所述智能IT全流程运维方法包括:
获取预设时间内的所有告警事件,对所述所有告警事件进行故障分析,得到分析报告;
根据所述分析报告确定目标故障点,并获取所述目标故障点的故障因子;
根据所述故障因子从预存的应急数据库中获取对应的目标api应急工具,以对所述目标故障点进行故障修复。
2.如权利要求1所述的智能IT全流程运维方法,其特征在于,所述获取预设时间内的所有告警事件,对所述所有告警事件进行故障分析,得到分析报告步骤包括:
获取预设时间内的所有告警事件,并获取各所述告警事件中的所有告警异常点;
针对每个告警异常点,执行如下步骤:
统计所述告警异常点对应的告警指标,并从所述告警指标中获取所述告警异常点当前的业务量;
通过预存的第一规则计算所述告警异常点的关联分值,并通过预存的第二规则计算所述告警异常点的告警分值;
若所述告警分值小于第一阈值、所述业务量大于第二阈值以及所述关联分值大于第三阈值,则判定所述告警异常点的故障类型为关联故障类型;
若所述告警分值大于或等于第一阈值、所述业务量小于或等于第二阈值,则判定所述告警异常点的故障类型为节点故障类型;
根据所述告警异常点以及告警异常点的类型生成分析报告。
3.如权利要求2所述的智能IT全流程运维方法,其特征在于,所述通过预存的第一规则计算所述告警异常点的关联分值步骤包括:
获取所述告警异常点预设的上下游调用关系,并获取所述上游调用关系对应的上游网络权值,以及所述下游调用关系对应的下游网络权值;
将所述上游网络权值以及下游网络权值之和设为所述告警异常点的关联分值。
4.如权利要求1所述的智能IT全流程运维方法,其特征在于,所述根据所述分析报告确定目标故障点,并获取所述目标故障点的故障因子步骤包括:
将所述分析报告中的告警异常点设为所有潜在故障点;
针对每个潜在故障点,执行如下步骤:
对所述潜在故障点进行健康探测,并获得第一探测返回值;
获取所述第一探测返回值指定的新的故障点,并对所述新的故障点进行持续健康探测,直至不再产生新的故障点为止,将所述不再产生新的故障点对应的故障点确定为目标故障点,得到所述目标故障点的第二探测返回值;
输出所述目标故障点与所述第二探测返回值,基于预设的所述第二探测返回值指向的故障因子设为所述目标故障点的故障因子。
5.如权利要求4所述的智能IT全流程运维方法,其特征在于,所述对所述潜在故障点进行健康探测,并获得第一探测返回值步骤包括:
获取所述潜在故障点的节点类型,并从预设工具库中获取到与所述节点类型相对应的探测功能;
获取所述探测功能的探测指标,并根据所述探测指标对所述潜在故障点中的指标数据进行嗅探测试,以获得所述潜在故障点的第一探测返回值。
6.如权利要求1所述的智能IT全流程运维方法,其特征在于,所述根据所述故障因子从预存的应急数据库中获取对应的目标api应急工具,以对所述目标故障点进行故障修复步骤包括:
从预存的应急数据库中获取所述故障因子对应的所有api应急工具;
判断各个单独的所述api应急工具能否排除所述故障因子;
若各个单独的所述api应急工具都未能排除所述故障因子,则组合编排所述各api应急工具,以生成所述故障因子的目标应急工具集;
将所述目标应急工具集设为所述目标api应急工具,以对所述目标故障点进行故障修复。
7.如权利要求6所述的智能IT全流程运维方法,其特征在于,所述若各个单独的所述api应急工具都未能排除所述故障因子,则组合编排所述各api应急工具,以生成所述故障因子的目标应急工具集步骤包括:
若各个单独的所述api应急工具都未能排除所述故障因子,则生成组合编排指令,获取所述组合编排指令中所携带的各个功能步骤以及各个功能步骤的执行顺序;
从预存的api应急工具映射表中获取执行所述各个功能步骤所需的各个初始api应急工具;
按照所述各个功能步骤的执行顺序将所述各个初始api应急工具进行排序,并将所有所述初始api应急工具和对应的功能步骤按照所述执行顺序封装为目标应急工具集。
8.一种智能IT全流程运维装置,其特征在于,所述智能IT全流程运维装置包括:
第一获取模块,用于获取预设时间内的所有告警事件,对所述所有告警事件进行故障分析,得到分析报告;
第二获取模块,用于根据所述分析报告确定目标故障点,并获取所述目标故障点的故障因子;
第三获取模块,用于根据所述故障因子从预存的应急数据库中获取对应的目标api应急工具,以对所述目标故障点进行故障修复。
9.一种智能IT全流程运维设备,其特征在于,所述智能IT全流程运维设备包括:存储器、处理器,通信总线以及存储在所述存储器上的智能IT全流程运维程序,
所述通信总线用于实现处理器与存储器间的通信连接;
所述处理器用于执行所述智能IT全流程运维程序,以实现如权利要求1至7中任一项所述的智能IT全流程运维方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有智能IT全流程运维程序,所述智能IT全流程运维程序被处理器执行时实现如权利要求1-7中任一项所述的智能IT全流程运维方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811530998.0A CN109783260A (zh) | 2018-12-13 | 2018-12-13 | 智能it全流程运维方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811530998.0A CN109783260A (zh) | 2018-12-13 | 2018-12-13 | 智能it全流程运维方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109783260A true CN109783260A (zh) | 2019-05-21 |
Family
ID=66496910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811530998.0A Pending CN109783260A (zh) | 2018-12-13 | 2018-12-13 | 智能it全流程运维方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109783260A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111915275A (zh) * | 2020-07-31 | 2020-11-10 | 上海燕汐软件信息科技有限公司 | 一种应用操作的流程管理方法、装置及系统 |
CN112446511A (zh) * | 2020-11-20 | 2021-03-05 | 中国建设银行股份有限公司 | 一种故障处置方法、装置、介质及设备 |
CN112800282A (zh) * | 2021-01-15 | 2021-05-14 | 厦门大学 | 一种业务流程异常节点溯源方法 |
CN113570084A (zh) * | 2021-07-29 | 2021-10-29 | 重庆允成互联网科技有限公司 | 一种基于设备维修生成故障分析报告的方法和系统 |
CN115936633A (zh) * | 2023-01-09 | 2023-04-07 | 广东远景信息科技有限公司 | 应急流程衔接方法、电子设备及存储介质 |
CN116915509A (zh) * | 2023-09-12 | 2023-10-20 | 北京微步在线科技有限公司 | 一种流量告警处理方法、装置、计算机设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070177523A1 (en) * | 2006-01-31 | 2007-08-02 | Intec Netcore, Inc. | System and method for network monitoring |
CN107018030A (zh) * | 2017-06-01 | 2017-08-04 | 厦门华厦学院 | 基于智能终端的移动网络故障分析系统 |
CN107202604A (zh) * | 2017-03-02 | 2017-09-26 | 湖南工业大学 | 一种告警处理方法及系统 |
CN107451040A (zh) * | 2017-07-07 | 2017-12-08 | 深信服科技股份有限公司 | 故障原因的定位方法、装置及计算机可读存储介质 |
-
2018
- 2018-12-13 CN CN201811530998.0A patent/CN109783260A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070177523A1 (en) * | 2006-01-31 | 2007-08-02 | Intec Netcore, Inc. | System and method for network monitoring |
CN107202604A (zh) * | 2017-03-02 | 2017-09-26 | 湖南工业大学 | 一种告警处理方法及系统 |
CN107018030A (zh) * | 2017-06-01 | 2017-08-04 | 厦门华厦学院 | 基于智能终端的移动网络故障分析系统 |
CN107451040A (zh) * | 2017-07-07 | 2017-12-08 | 深信服科技股份有限公司 | 故障原因的定位方法、装置及计算机可读存储介质 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111915275A (zh) * | 2020-07-31 | 2020-11-10 | 上海燕汐软件信息科技有限公司 | 一种应用操作的流程管理方法、装置及系统 |
CN112446511A (zh) * | 2020-11-20 | 2021-03-05 | 中国建设银行股份有限公司 | 一种故障处置方法、装置、介质及设备 |
CN112800282A (zh) * | 2021-01-15 | 2021-05-14 | 厦门大学 | 一种业务流程异常节点溯源方法 |
CN113570084A (zh) * | 2021-07-29 | 2021-10-29 | 重庆允成互联网科技有限公司 | 一种基于设备维修生成故障分析报告的方法和系统 |
CN113570084B (zh) * | 2021-07-29 | 2023-12-29 | 重庆允丰科技有限公司 | 一种基于设备维修生成故障分析报告的方法和系统 |
CN115936633A (zh) * | 2023-01-09 | 2023-04-07 | 广东远景信息科技有限公司 | 应急流程衔接方法、电子设备及存储介质 |
CN115936633B (zh) * | 2023-01-09 | 2023-11-03 | 广东远景信息科技有限公司 | 应急流程衔接方法、电子设备及存储介质 |
CN116915509A (zh) * | 2023-09-12 | 2023-10-20 | 北京微步在线科技有限公司 | 一种流量告警处理方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783260A (zh) | 智能it全流程运维方法、装置、设备及可读存储介质 | |
CN111104535B (zh) | 一种数据管理系统及数据管理方法 | |
EP0482522A1 (en) | Automatic test generation for model-based real-time fault diagnostic systems | |
CN111756582B (zh) | 基于nfv日志告警的业务链监控方法 | |
CN110287081A (zh) | 一种服务监控系统和方法 | |
US20080244319A1 (en) | Method and Apparatus For Detecting Performance, Availability and Content Deviations in Enterprise Software Applications | |
CN109633351B (zh) | 智能it运维故障定位方法、装置、设备及可读存储介质 | |
CN106201829A (zh) | 监控阈值确定方法及装置、监控报警方法、装置及系统 | |
CN107480389A (zh) | 一种面向调度主站的智能告警测试仿真系统及方法 | |
CN101594192B (zh) | 一种信号处理设备和光接口板的在线故障检测方法和装置 | |
CN110535945A (zh) | 存储集群告警功能的测试方法、装置、设备及存储介质 | |
CN100514307C (zh) | 一种测试代价敏感的系统故障定位方法及其装置 | |
CN108304286A (zh) | 一种对转码服务器并发性能进行自动化测试的系统及方法 | |
CN110765189A (zh) | 互联网产品的异常管理方法和系统 | |
CN111240876B (zh) | 微服务的故障定位方法、装置、存储介质及终端 | |
CN106411637A (zh) | 物联网设备场景测试方法 | |
CN104583789A (zh) | 测试单元控制器的决策和执行树的创建和调度 | |
CN116719664B (zh) | 基于微服务部署的应用和云平台跨层故障分析方法及系统 | |
CN111881014A (zh) | 一种系统测试方法、装置、存储介质及电子设备 | |
US11120037B2 (en) | Test data integration system and method thereof | |
CN110609761B (zh) | 确定故障源的方法、装置、存储介质和电子设备 | |
CN105447518A (zh) | 一种基于K-means遥测数据判读系统 | |
CN111159029A (zh) | 自动化测试方法、装置、电子设备及计算机可读存储介质 | |
CN111158979A (zh) | 服务的拨测方法、系统、装置及存储介质 | |
CN110188040A (zh) | 一种针对软件系统故障检测与健康状态评估的软件平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |