CN109633351A - 智能it运维故障定位方法、装置、设备及可读存储介质 - Google Patents

智能it运维故障定位方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN109633351A
CN109633351A CN201811530943.XA CN201811530943A CN109633351A CN 109633351 A CN109633351 A CN 109633351A CN 201811530943 A CN201811530943 A CN 201811530943A CN 109633351 A CN109633351 A CN 109633351A
Authority
CN
China
Prior art keywords
point
fault
intelligent
return value
fault point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811530943.XA
Other languages
English (en)
Other versions
CN109633351B (zh
Inventor
方振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN201811530943.XA priority Critical patent/CN109633351B/zh
Publication of CN109633351A publication Critical patent/CN109633351A/zh
Priority to PCT/CN2019/117548 priority patent/WO2020119369A1/zh
Application granted granted Critical
Publication of CN109633351B publication Critical patent/CN109633351B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R31/00Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
    • G01R31/50Testing of electric apparatus, lines, cables or components for short-circuits, continuity, leakage current or incorrect line connections

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种智能IT运维故障定位方法、装置、设备及可读存储介质,所述方法包括:接收故障分析报告,并获取所述故障分析报告中的所有潜在故障点;针对每个潜在故障点,执行如下步骤:对所述潜在故障点进行健康探测,并获得第一探测返回值;获取所述第一探测返回值指定的新的故障点,并对所述新的故障点进行持续健康探测,直至不再产生新的故障点为止,将所述不再产生新的故障点对应的故障点确定为目标故障点,得到所述目标故障点的第二探测返回值;输出所述目标故障点与所述第二探测返回值。本发明解决现有IT系统运维过错中,对故障修复节点的定位效率低下,造成修复周期过长的技术问题。

Description

智能IT运维故障定位方法、装置、设备及可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种智能IT运维故障定位方法、装置、设备及可读存储介质。
背景技术
目前,在IT系统运维过程中,不可避免地会出现各类故障事故,为尽可能的减少因故障事故而带来的损失,常常需要迅速地定位故障,在定位后,才能快速找到对应的修复解决方案,由于传统的故障修复工具没有高效的快速定位子工具,都是人工排查,因而使得对故障修复节点的定位效率低下,消耗宝贵的修复时间,延长了修复周期,影响了用户的使用体验。
发明内容
本发明的主要目的在于提供一种智能IT运维故障定位方法、装置、设备及可读存储介质,旨在解决现有IT系统运维过错中,对故障修复节点的定位效率低下,造成修复周期过长的技术问题。
为实现上述目的,本发明提供一种智能IT运维故障定位方法,所述智能IT运维故障定位方法包括:
接收故障分析报告,并获取所述故障分析报告中的所有潜在故障点;
针对每个潜在故障点,执行如下步骤:
对所述潜在故障点进行健康探测,并获得第一探测返回值;
获取所述第一探测返回值指定的新的故障点,并对所述新的故障点进行持续健康探测,直至不再产生新的故障点为止,将所述不再产生新的故障点对应的故障点确定为目标故障点,得到所述目标故障点的第二探测返回值;
输出所述目标故障点与所述第二探测返回值。
可选地,所述对所述潜在故障点进行健康探测,并获得第一探测返回值步骤包括:
定位所述潜在故障点所引用的运算源和运算流程,对所述运算源和运算流程进行健康探测,得到所述运算源以及各运算流程对应的第一探测返回值;
其中,所述健康探测包括利用所述运算源以及各个运算流程在正常状态下的预存的数据I/O指标进行探测的步骤。
可选地,所述对所述潜在故障点进行健康探测,并获得第一探测返回值步骤还包括:
获取所述潜在故障点的节点类型,并从预设工具库中获取到与所述节点类型相对应的探测功能;
获取所述探测功能的探测指标,并根据所述探测指标对所述潜在故障点中的指标数据进行嗅探测试,以获得所述潜在故障点的第一探测返回值。
可选地,所述输出所述目标故障点与所述第二探测返回值步骤之后包括:
获取并根据所述目标故障点的故障状态,从预存的方案数据库中选取所述目标故障点对应的目标应急预案,并对所述目标故障点执行所述目标应急预案;
在执行所述目标应急预案之后,重新对所述目标故障点进行健康探测。
可选地,所述在执行所述目标应急预案之后,重新对所述目标故障点进行健康探测步骤之后包括:
获取重新对所述目标故障点进行健康探测后得到的第三探测返回值,并确定所述第三探测返回值是否指向新的故障点;
若所述第三探测返回值指向新的故障点,则输出无法自动处理的警告信息。
可选地,所述获取并根据所述目标故障点的故障状态,从预存的方案数据库中选取所述目标故障点对应的目标应急预案步骤包括:
获取并根据所述目标故障点的故障状态,得到预存的所述目标故障点对应的所有应急预案;若所述所有应急预案为多个,统计过去历史时间段所述各应急预案执行后所述目标故障点成功通过健康探测的通过频次;
从预存的方案数据库中选取通过频次最高的应急预案,将所述通过频次最高的应急预案设置为目标应急预案。
本发明还提供一种智能IT运维故障定位装置,所述智能IT运维故障定位装置包括:
接收模块,用于接收故障分析报告,并获取所述故障分析报告中的所有潜在故障点;
针对每个潜在故障点,存在执行模块,所述执行模块包括:
健康探测子模块,用于对所述潜在故障点进行健康探测,并获得第一探测返回值;
第一获取子模块,用于获取所述第一探测返回值指定的新的故障点,并对所述新的故障点进行持续健康探测,直至不再产生新的故障点为止,将所述不再产生新的故障点对应的故障点确定为目标故障点,得到所述目标故障点的第二探测返回值;
输出子模块,用于输出所述目标故障点与所述第二探测返回值。
可选地,所述健康探测子模块包括:
定位单元,用于定位所述潜在故障点所引用的运算源和运算流程,对所述运算源和运算流程进行健康探测,得到所述运算源以及各运算流程对应的第一探测返回值;
其中,所述健康探测包括利用所述运算源以及各个运算流程在正常状态下的预存的数据I/O指标进行探测的步骤。
可选地,所述健康探测子模块包括:
第一获取单元,用于获取所述潜在故障点的节点类型,并从预设工具库中获取到与所述节点类型相对应的探测功能;
第二获取单元,用获取所述探测功能的探测指标,并根据所述探测指标对所述潜在故障点中的指标数据进行嗅探测试,以获得所述潜在故障点的第一探测返回值。
可选地,所述智能IT运维故障定位装置还包括:
第一获取模块,用于获取并根据所述目标故障点的故障状态,从预存的方案数据库中选取所述目标故障点对应的目标应急预案,并对所述目标故障点执行所述目标应急预案;
再次探测模块,用于在执行所述目标应急预案之后,重新对所述目标故障点进行健康探测。
可选地,所述智能IT运维故障定位装置还包括:
第二获取模块,用于获取重新对所述目标故障点进行健康探测后得到的第三探测返回值,并确定所述第三探测返回值是否指向新的故障点;
输出模块,用于若所述第三探测返回值指向新的故障点,则输出无法自动处理的警告信息。
可选地,所述第一获取模块包括:
第二获取子模块,用于获取并根据所述目标故障点的故障状态,得到预存的所述目标故障点对应的所有应急预案;若所述所有应急预案为多个,统计过去历史时间段所述各应急预案执行后所述目标故障点成功通过健康探测的通过频次;
选取子模块,用于从预存的方案数据库中选取通过频次最高的应急预案,将所述通过频次最高的应急预案设置为目标应急预案。
此外,为实现上述目的,本发明还提供一种智能IT运维故障定位设备,所述智能IT运维故障定位设备包括:存储器、处理器,通信总线以及存储在所述存储器上的智能IT运维故障定位程序,
所述通信总线用于实现处理器与存储器间的通信连接;
所述处理器用于执行所述智能IT运维故障定位程序,以实现以下步骤:
接收故障分析报告,并获取所述故障分析报告中的所有潜在故障点;
针对每个潜在故障点,执行如下步骤:
对所述潜在故障点进行健康探测,并获得第一探测返回值;
获取所述第一探测返回值指定的新的故障点,并对所述新的故障点进行持续健康探测,直至不再产生新的故障点为止,将所述不再产生新的故障点对应的故障点确定为目标故障点,得到所述目标故障点的第二探测返回值;
输出所述目标故障点与所述第二探测返回值。
此外,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行以用于:
在接收故障分析报告,并获取所述故障分析报告中的所有潜在故障点;
针对每个潜在故障点,执行如下步骤:
对所述潜在故障点进行健康探测,并获得第一探测返回值;
获取所述第一探测返回值指定的新的故障点,并对所述新的故障点进行持续健康探测,直至不再产生新的故障点为止,将所述不再产生新的故障点对应的故障点确定为目标故障点,得到所述目标故障点的第二探测返回值;
输出所述目标故障点与所述第二探测返回值。
本发明通过接收故障分析报告,并获取所述故障分析报告中的所有潜在故障点;针对每个潜在故障点,执行如下步骤:对所述潜在故障点进行健康探测,并获得第一探测返回值;获取所述第一探测返回值指定的新的故障点,并对所述新的故障点进行持续健康探测,直至不再产生新的故障点为止,将所述不再产生新的故障点对应的故障点确定为目标故障点,得到所述目标故障点的第二探测返回值;输出所述目标故障点与所述第二探测返回值。即在本申请中,在接收得到故障分析报告后,即自动获取潜在故障点,并自动对潜在故障点进行持续的迭代健康探测,而不是人工的探测,以快速获取得到目标故障点,即是快速定位到目标故障点,由于快速定位到目标故障点,因而节约了定位时间,因而,也相应地节约了修复时间,提升了用户即是运维人员的体验。因而解决了现有技术中对故障修复节点的定位效率低下,消耗宝贵的修复时间,延长了修复周期,影响了用户的使用体验的技术问题。
附图说明
图1为本发明智能IT运维故障定位方法第一实施例的流程示意图;
图2为本发明智能IT运维故障定位方法中所述对所述潜在故障点进行健康探测,并获得第一探测返回值步骤的细化流程示意图;
图3是本发明实施例方法涉及的硬件运行环境的设备结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种智能IT运维故障定位方法,在本发明智能IT运维故障定位方法的第一实施例中,参照图1,所述智能IT运维故障定位方法包括:
步骤S10,接收故障分析报告,并获取所述故障分析报告中的所有潜在故障点;
针对每个潜在故障点,执行如下步骤:
步骤S20,对所述潜在故障点进行健康探测,并获得第一探测返回值;
步骤S30,获取所述第一探测返回值指定的新的故障点,并对所述新的故障点进行持续健康探测,直至不再产生新的故障点为止,将所述不再产生新的故障点对应的故障点确定为目标故障点,得到所述目标故障点的第二探测返回值;
步骤S40,输出所述目标故障点与所述第二探测返回值。
具体步骤如下:
步骤S10,接收故障分析报告,并获取所述故障分析报告中的所有潜在故障点;
需要说明的是,在本实施例中,实现对可信度前列的多个潜在故障点发起定位探测,以最终探测得到确定的目标故障点。
具体地,智能IT运维故障定位方法应用于智能IT运维故障定位系统,在接收故障分析报告之前,与智能IT运维故障定位系统通信的智能IT运维故障分析系统会得到某一时刻的各相关方报警信息,在得到各相关方报警信息后,智能IT运维分析系统会根据预存的故障分析程序进行该各相关方报警信息的分析,得到故障分析报告,并将该故障分析报告发送给智能IT运维故障定位系统,其中,故障分析报告中列举各个潜在的故障点。
对于智能IT运维故障定位系统而言,在接收故障分析报告后,即可解析获取得到所述故障分析报告中的所有潜在故障点,例如,当前系统中A节点无法调用B节点,而报告中将A节点和B节点同时列为潜在故障点。那么系统将直接获取到A节点和B节点即所有潜在故障点,并对所有潜在故障点即A节点和B节点进行定位探测,以确定是A节点存在故障,还是B节点存在故障,或者是A节点与B节点均存在故障,并进一步地确定故障节点的具体故障流程或者故障源头。
针对每个潜在故障点,执行如下步骤:
步骤S20,对所述潜在故障点进行健康探测,并获得第一探测返回值;
所述潜在故障点中必定存在有一个或几个故障点失误导致其他节点也发生故障。本实施例中,智能IT运维故障定位系统通过对各个潜在故障点进行健康探测,以得到各个第一探测返回值。
具体地,所述对所述潜在故障点进行健康探测,并获得第一探测返回值步骤包括:
步骤S21,定位所述潜在故障点所引用的运算源和运算流程,对所述运算源和运算流程进行健康探测,得到所述运算源以及各运算流程对应的第一探测返回值;
其中,所述健康探测包括利用所述运算源以及各个运算流程在正常状态下的预存的数据I/O指标进行探测的步骤。
在本实施例中,在健康探测过程中,将潜在故障节点假设为正常节点,并定位得到所述潜在故障点所引用的运算源和各个运算流程,对所述运算源和各个运算流程进行健康探测,具体地,通过预存的运算源和各个运算流程在正常状态下的数据I/O指标进行探测。
需要说明的是,在本实施例中,还可以在获取所述潜在故障点的节点类型后,从预设工具库中获取到与所述节点类型相对应的探测功能,并获取所述探测功能的探测指标,并根据所述探测指标对所述潜在故障点中的运算源和运算流程进行嗅探测试,在嗅探测后,再准确地选取所述运算源以及各个运算流程在正常状态下的预存的数据I/O指标进行探测,以获得所述潜在故障点的第一探测返回值,以节约探测流程。
用以具体实施例进行说明,A故障点中需要执行A1、A2、A3三个顺序环节即是A1、A2、A3三个运算流程。智能IT运维故障定位系统从A1环节出发,通过在A1环节中输入预设的起始参数(数据I/O指标),A1环节会得到一个运算值,判断该运算值与预设的结果数值是否一致。若一致,则说明A1环节没有问题,此时,智能IT运维故障定位系统会接收到A1环节没有问题的第一探测返回值如a10,反之,则说明A1环节存在问题,此时,智能IT运维故障定位系统会接收到A1环节有问题的第一探测返回值如a11,即是智能IT运维故障定系统将定位到A1环节引用的运算源和运算流程,从而得到该定位过程对应的各个第一探测返回值。再对后续的A2环节进行探测,原理同A1环节。最终获取到A故障点中所有的第一探测返回值。若是A故障点完整正常,那么即是A故障点在将A3环节的数值提供给B故障点时,B故障点发生错误,此时可获得故障点为B节点的探测返回值如b。
进一步地,为方便理解,以下通过例子进行解释说明:A故障点为产品订单节点,B故障点为订单数据库,故障情况为A故障点无法调用B故障点数据库中的订单内容。智能IT运维故障定位系统将确定A故障点调用订单编号是否正确,通过将已知订单编号对A故障点的订单调用进行检测,判断A故障点是否正常检索到B节点中的订单编号,若能正常检索到B节点中的订单编号则判断A故障点能否利用订单编号查询到该编号的记录,若能利用订单编号查询到该编号的记录则判断A点能够将记录中的订单内容正常拉取,能将记录中的订单内容正常拉取则判断A点拉取的内容是否发生改变,若A点拉取的内容不发生改变则判断A点显示订单内容的方式是否正常。若这个探测流程中哪个步骤与正常步骤应得的步骤结果不同,则系统将定位到该步骤结果不同的步骤节点上。例如智能IT运维故障定位系统定位到A故障点调用B故障点中订单记录时,B节点无法反馈相应的记录信息,则智能IT运维故障定位系统将探测到调用过程中哪个步骤失误导致调用失败,并返回一个代表该步骤调用失败的第一探测返回值。
步骤S30,获取所述第一探测返回值指定的新的故障点,并对所述新的故障点进行持续健康探测,直至不再产生新的故障点为止,将所述不再产生新的故障点对应的故障点确定为目标故障点,得到所述目标故障点的第二探测返回值;
第一探测返回值可能会指向一个新的故障点,因此,智能IT运维故障定位系统将对该新的故障点进行再一次的健康探测,重新得到一个新的第一探测返回值,再由新的第一探测返回值指向另一故障点,循环迭代以上步骤,直到最后不再产生新的故障点为止,将所述不再产生新的故障点对应的故障点确定为目标故障点,得到所述目标故障点的第二探测返回值。
也就是说,智能IT运维故障定位系统需要对潜在故障点进行迭代探测,即迭代得到每个潜在故障点的第一探测返回值,若第一探测返回值指向新的故障点,说明数据探测未探测到底,若不再生成新的故障点,说明系统已遍历当前所有可能出现异常的故障点。此时,经过对多个潜在故障点的探测到底的操作,智能IT运维故障定位系统将得到经过由各第一探测返回值多次指向的一个或多个目标故障点,也即智能IT运维故障定位系统已经提取出各个潜在故障点所产生交集的公共故障点(目标故障点)。公共故障点可以不止一个,是对所有关联故障点产生数据偏移的源头。
例如A调用B时产生故障,A调用C是产生故障,而B调用C并未产生故障,那么作为BC共同的交集故障点,A即为源头故障点。
步骤S40,输出所述目标故障点与所述第二探测返回值。
在得到目标故障点以及第二探测返回值后,输出该目标故障点与第二探测返回值,以提示用户或者是运维人员。
本发明通过接收故障分析报告,并获取所述故障分析报告中的所有潜在故障点;针对每个潜在故障点,执行如下步骤:对所述潜在故障点进行健康探测,并获得第一探测返回值;获取所述第一探测返回值指定的新的故障点,并对所述新的故障点进行持续健康探测,直至不再产生新的故障点为止,将所述不再产生新的故障点对应的故障点确定为目标故障点,得到所述目标故障点的第二探测返回值;输出所述目标故障点与所述第二探测返回值。即在本申请中,在接收得到故障分析报告后,即自动获取潜在故障点,并自动对潜在故障点进行持续的迭代健康探测,而不是人工的探测,以快速获取得到目标故障点,即是快速定位到目标故障点,由于快速定位到目标故障点,因而节约了定位时间,因而,也相应地节约了修复时间,提升了用户即是运维人员的体验。因而解决了现有技术中对故障修复节点的定位效率低下,消耗宝贵的修复时间,延长了修复周期,影响了用户的使用体验的技术问题。
进一步地,参照图2,本发明提供智能IT运维故障定位方法的另一实施例,在该实施例中,所述对所述潜在故障点进行健康探测,并获得第一探测返回值步骤还包括:
步骤S22,获取所述潜在故障点的节点类型,并从预设工具库中获取到与所述节点类型相对应的探测功能;
在本实施例中,不同的潜在故障点在智能IT运维故障定位系统中具有各自的节点类型,而不同的节点类型在智能IT运维故障定位系统系统的预设功能库中都有对应的专属探测功能,获取所述潜在故障点的节点类型,并从预设工具库中获取到与所述节点类型相对应的探测功能,例如,潜在故障点为网络通讯节点,那么系统将在预设功能库中获取到与网络通讯节点类别相互映射的网络探测功能。
步骤S23,获取所述探测功能的探测指标,并根据所述探测指标对所述潜在故障点中的指标数据进行嗅探测试,以获得所述潜在故障点的第一探测返回值。
不同探测功能具有不同的探测指标,例如网络探测功能的探测指标是网络链接状态,数据传输速率等等。在本实施例中,通过探测功能对相应的潜在故障点中的指标数据进行嗅探测试。所述嗅探测试即为对潜在故障点中的指标数据进行分类筛选,以将指标数据中与探测指标同类型的指标数据筛选出来,并对筛选出来的该同类型的指标数据进行溯源探测,从而进一步获得该潜在故障点对应的各个第一探测返回值或者第二探测返回值。
例如当前探测指标对潜在故障点中的网络连接状态进行探测,那么系统的探测步骤可包括以下步骤:智能IT运维故障定位确定网络连接状态的连接双端对象,从A节点向B节点发起建立网络连接指令,系统确定A节点的ip1地址,获取B节点的ip2地址,并确立A节点和B节点的之间的DNS解析服务是否正确等等。通过探测功能对网络连接中所涉及到的所有网络指标数据的输出输入进行测试,从而确认每一个流程当中哪个环节出现问题。
在本实施例中,获取所述潜在故障点的节点类型,并从预设工具库中获取到与所述节点类型相对应的探测功能;获取所述探测功能的探测指标,并根据所述探测指标对所述潜在故障点中的指标数据进行嗅探测试,以获得所述潜在故障点的第一探测返回值。由于准确进行嗅探测试,因而,能够为有序并快速定位得到目标故障点奠下基础。
进一步地,本发明提供智能IT运维故障定位方法的另一实施例,在该实施例中,所述所述输出所述目标故障点与所述第二探测返回值步骤之后包括:
步骤S50,获取并根据所述目标故障点的故障状态,从预存的方案数据库中选取所述目标故障点对应的目标应急预案,并对所述目标故障点执行所述目标应急预案;
在本实施例中,预存有方案数据库,方案数据库中包括了各种针对目标故障点的节点类型或者故障状态的应急预案,用于解决目标故障点的故障情况。系统在确定目标故障点之后,直接从系统数据库中调取相应的目标应急预案并执行。
步骤S60,在执行所述目标应急预案之后,重新对所述目标故障点进行健康探测。
系统执行完目标应急预案后,为验证是否解决当前目标故障点的问题,将重新对目标故障点进行健康探测,步骤与上述健康探测的步骤一致。
所述在执行所述目标应急预案之后,重新对所述目标故障点进行健康探测步骤之后包括:
步骤S70,获取重新对所述目标故障点进行健康探测后得到的第三探测返回值,并确定所述第三探测返回值是否指向新的故障点;
获取重新对所述目标故障点进行健康探测后得到的第三探测返回值,并确定所述第三探测返回值是否指向新的故障点,在本实施例中,重新对所述目标故障点进行健康探测后,若得到新的故障点,则很显然智能IT运维故障定位系统并没有解决相应目标故障点的故障状态。
步骤S80,若所述第三探测返回值指向新的故障点,则输出无法自动处理的警告信息。
若智能IT运维故障定位系统无法自动完成上述故障状态的处理,因而需要输出无法自动处理的警告信息,以便运维人员进行人工处理,以提高智能IT运维故障定位系统的容错性能。
在本实施例中,通过获取并根据所述目标故障点的故障状态,从预存的方案数据库中选取所述目标故障点对应的目标应急预案,并对所述目标故障点执行所述目标应急预案;在执行所述目标应急预案之后,重新对所述目标故障点进行健康探测。因而能够避免可能存在的目标应急预案与目标故障点的故障状态不一致的情况,提高智能IT运维故障定位系统的容错性。
进一步地,本发明提供智能IT运维故障定位方法的另一实施例,在该实施例中,所述获取并根据所述目标故障点的故障状态,从预存的方案数据库中选取所述目标故障点对应的目标应急预案步骤包括:
步骤S51,获取并根据所述目标故障点的故障状态,得到预存的所述目标故障点对应的所有应急预案;若所述所有应急预案为多个,统计过去历史时间段所述各应急预案执行后所述目标故障点成功通过健康探测的通过频次;
在本实施例中,目标故障点对应的所有应急预案可以为多个,因而,系统统计过去历史时间段所述各应急预案执行后所述目标故障点成功通过健康探测的通过频次。
步骤S52,从预存的方案数据库中选取通过频次最高的应急预案,将所述通过频次最高的应急预案设置为目标应急预案。
具体地,系统自动识别直接通过健康探测的应急预案的成功次数,从预存的方案数据库中选取通过频次最高的应急预案,将其设置最优先推荐预案,在以后的应急预案匹配中优先推荐实施,因而,系统将所述通过频次最高的应急预案设置为目标应急预案。
在本实施例中,由于获取并根据所述目标故障点的故障状态,得到预存的所述目标故障点对应的所有应急预案;若所述所有应急预案为多个,统计过去历史时间段所述各应急预案执行后所述目标故障点成功通过健康探测的通过频次;从预存的方案数据库中选取通过频次最高的应急预案,将所述通过频次最高的应急预案设置为目标应急预案。因而,能够最快速地解决目标故障点,因而能够提升运维人员即用户的体验。
参照图3,图3是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例智能IT运维故障定位设备可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面3)播放器、便携计算机等终端设备。
如图3所示,该智能IT运维故障定位设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该智能IT运维故障定位设备还可以包括目标用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。目标用户接口可以包括显示屏(Display)、输入子模块,用于比如键盘(Keyboard),可选目标用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图3中示出的智能IT运维故障定位设备结构并不构成对智能IT运维故障定位设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图3所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及智能IT运维故障定位程序。操作系统是管理和控制智能IT运维故障定位设备硬件和软件资源的程序,支持智能IT运维故障定位程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与智能IT运维故障定位设备中其它硬件和软件之间通信。
在图3所示的智能IT运维故障定位设备中,处理器1001用于执行存储器1005中存储的智能IT运维故障定位程序,实现上述任一项所述的智能IT运维故障定位方法的步骤。
本发明智能IT运维故障定位设备具体实施方式与上述智能IT运维故障定位方法各实施例基本相同,在此不再赘述。
本发明还提供一种智能IT运维故障定位装置,所述智能IT运维故障定位装置包括:
接收模块,用于接收故障分析报告,并获取所述故障分析报告中的所有潜在故障点;
针对每个潜在故障点,存在执行模块,所述执行模块包括:
健康探测子模块,用于对所述潜在故障点进行健康探测,并获得第一探测返回值;
第一获取子模块,用于获取所述第一探测返回值指定的新的故障点,并对所述新的故障点进行持续健康探测,直至不再产生新的故障点为止,将所述不再产生新的故障点对应的故障点确定为目标故障点,得到所述目标故障点的第二探测返回值;
输出子模块,用于输出所述目标故障点与所述第二探测返回值。
可选地,所述健康探测子模块包括:
定位单元,用于定位所述潜在故障点所引用的运算源和运算流程,对所述运算源和运算流程进行健康探测,得到所述运算源以及各运算流程对应的第一探测返回值;
其中,所述健康探测包括利用所述运算源以及各个运算流程在正常状态下的预存的数据I/O指标进行探测的步骤。
可选地,所述健康探测子模块包括:
第一获取单元,用于获取所述潜在故障点的节点类型,并从预设工具库中获取到与所述节点类型相对应的探测功能;
第二获取单元,用获取所述探测功能的探测指标,并根据所述探测指标对所述潜在故障点中的指标数据进行嗅探测试,以获得所述潜在故障点的第一探测返回值。
可选地,所述智能IT运维故障定位装置还包括:
第一获取模块,用于获取并根据所述目标故障点的故障状态,从预存的方案数据库中选取所述目标故障点对应的目标应急预案,并对所述目标故障点执行所述目标应急预案;
再次探测模块,用于在执行所述目标应急预案之后,重新对所述目标故障点进行健康探测。
可选地,所述智能IT运维故障定位装置还包括:
第二获取模块,用于获取重新对所述目标故障点进行健康探测后得到的第三探测返回值,并确定所述第三探测返回值是否指向新的故障点;
输出模块,用于若所述第三探测返回值指向新的故障点,则输出无法自动处理的警告信息。
可选地,所述第一获取模块包括:
第二获取子模块,用于获取并根据所述目标故障点的故障状态,得到预存的所述目标故障点对应的所有应急预案;若所述所有应急预案为多个,统计过去历史时间段所述各应急预案执行后所述目标故障点成功通过健康探测的通过频次;
选取子模块,用于从预存的方案数据库中选取通过频次最高的应急预案,将所述通过频次最高的应急预案设置为目标应急预案。
本发明智能IT运维故障定位装置具体实施方式与上述智能IT运维故障定位方法各实施例基本相同,在此不再赘述。
本发明提供了一种可读存储介质,所述可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的智能IT运维故障定位方法的步骤。
本发明可读存储介质具体实施方式与上述智能IT运维故障定位方法各实施例基本相同,在此不再赘述。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利处理范围内。

Claims (10)

1.一种智能IT运维故障定位方法,其特征在于,所述智能IT运维故障定位方法包括:
接收故障分析报告,并获取所述故障分析报告中的所有潜在故障点;
针对每个潜在故障点,执行如下步骤:
对所述潜在故障点进行健康探测,并获得第一探测返回值;
获取所述第一探测返回值指定的新的故障点,并对所述新的故障点进行持续健康探测,直至不再产生新的故障点为止,将所述不再产生新的故障点对应的故障点确定为目标故障点,得到所述目标故障点的第二探测返回值;
输出所述目标故障点与所述第二探测返回值。
2.如权利要求1所述的智能IT运维故障定位方法,其特征在于,所述对所述潜在故障点进行健康探测,并获得第一探测返回值步骤包括:
定位所述潜在故障点所引用的运算源和运算流程,对所述运算源和运算流程进行健康探测,得到所述运算源以及各运算流程对应的第一探测返回值;
其中,所述健康探测包括利用所述运算源以及各个运算流程在正常状态下的预存的数据I/O指标进行探测的步骤。
3.如权利要求1所述的智能IT运维故障定位方法,其特征在于,所述对所述潜在故障点进行健康探测,并获得第一探测返回值步骤还包括:
获取所述潜在故障点的节点类型,并从预设工具库中获取到与所述节点类型相对应的探测功能;
获取所述探测功能的探测指标,并根据所述探测指标对所述潜在故障点中的指标数据进行嗅探测试,以获得所述潜在故障点的第一探测返回值。
4.如权利要求1所述的智能IT运维故障定位方法,其特征在于,所述输出所述目标故障点与所述第二探测返回值步骤之后包括:
获取并根据所述目标故障点的故障状态,从预存的方案数据库中选取所述目标故障点对应的目标应急预案,并对所述目标故障点执行所述目标应急预案;
在执行所述目标应急预案之后,重新对所述目标故障点进行健康探测。
5.如权利要求4所述的智能IT运维故障定位方法,其特征在于,所述在执行所述目标应急预案之后,重新对所述目标故障点进行健康探测步骤之后包括:
获取重新对所述目标故障点进行健康探测后得到的第三探测返回值,并确定所述第三探测返回值是否指向新的故障点;
若所述第三探测返回值指向新的故障点,则输出无法自动处理的警告信息。
6.如权利要求5所述的智能IT运维故障定位方法,其特征在于,所述获取并根据所述目标故障点的故障状态,从预存的方案数据库中选取所述目标故障点对应的目标应急预案步骤包括:
获取并根据所述目标故障点的故障状态,得到预存的所述目标故障点对应的所有应急预案;若所述所有应急预案为多个,统计过去历史时间段所述各应急预案执行后所述目标故障点成功通过健康探测的通过频次;
从预存的方案数据库中选取通过频次最高的应急预案,将所述通过频次最高的应急预案设置为目标应急预案。
7.一种智能IT运维故障定位装置,其特征在于,所述智能IT运维故障定位装置包括:
接收模块,用于接收故障分析报告,并获取所述故障分析报告中的所有潜在故障点;
针对每个潜在故障点,存在执行模块,所述执行模块包括:
健康探测子模块,用于对所述潜在故障点进行健康探测,并获得第一探测返回值;
第一获取子模块,用于获取所述第一探测返回值指定的新的故障点,并对所述新的故障点进行持续健康探测,直至不再产生新的故障点为止,将所述不再产生新的故障点对应的故障点确定为目标故障点,得到所述目标故障点的第二探测返回值;
输出子模块,用于输出所述目标故障点与所述第二探测返回值。
8.如权利要求7所述的智能IT运维故障定位装置,其特征在于,所述健康探测子模块包括:
定位单元,用于定位所述潜在故障点所引用的运算源和运算流程,对所述运算源和运算流程进行健康探测,得到所述运算源以及各运算流程对应的第一探测返回值;
其中,所述健康探测包括利用所述运算源以及各个运算流程在正常状态下的预存的数据I/O指标进行探测的步骤。
9.一种智能IT运维故障定位设备,其特征在于,所述智能IT运维故障定位设备包括:存储器、处理器,通信总线以及存储在所述存储器上的智能IT运维故障定位程序,
所述通信总线用于实现处理器与存储器间的通信连接;
所述处理器用于执行所述智能IT运维故障定位程序,以实现如权利要求1-6中任一项所述的智能IT运维故障定位方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有智能IT运维故障定位程序,所述智能IT运维故障定位程序被处理器执行时实现如权利要求1-6中任一项所述的智能IT运维故障定位方法的步骤。
CN201811530943.XA 2018-12-13 2018-12-13 智能it运维故障定位方法、装置、设备及可读存储介质 Active CN109633351B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811530943.XA CN109633351B (zh) 2018-12-13 2018-12-13 智能it运维故障定位方法、装置、设备及可读存储介质
PCT/CN2019/117548 WO2020119369A1 (zh) 2018-12-13 2019-11-12 智能it运维故障定位方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811530943.XA CN109633351B (zh) 2018-12-13 2018-12-13 智能it运维故障定位方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN109633351A true CN109633351A (zh) 2019-04-16
CN109633351B CN109633351B (zh) 2021-10-22

Family

ID=66073827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811530943.XA Active CN109633351B (zh) 2018-12-13 2018-12-13 智能it运维故障定位方法、装置、设备及可读存储介质

Country Status (2)

Country Link
CN (1) CN109633351B (zh)
WO (1) WO2020119369A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020119369A1 (zh) * 2018-12-13 2020-06-18 平安普惠企业管理有限公司 智能it运维故障定位方法、装置、设备及可读存储介质
CN113283462A (zh) * 2021-03-24 2021-08-20 国网四川省电力公司电力科学研究院 一种基于改进idnn模型的二次系统故障定位方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112242938B (zh) * 2020-10-14 2022-08-19 亚信科技(中国)有限公司 探测方法、装置、电子设备及计算机可读存储介质
CN112433926B (zh) * 2020-11-27 2024-03-01 中国建设银行股份有限公司 基于it产品的故障分析方法、系统、设备和存储介质
CN113537760A (zh) * 2021-07-14 2021-10-22 深圳供电局有限公司 一种故障处理预案智能推荐方法及系统
CN114294778B (zh) * 2021-12-27 2023-11-14 深圳市兴特能源科技有限公司 一种教室灯具的空气循环消毒净化方法及系统
CN115857461B (zh) * 2023-03-02 2023-05-09 东莞正大康地饲料有限公司 小猪预混合饲料生产在线监控方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008217735A (ja) * 2007-03-08 2008-09-18 Nec Corp 障害解析システム、方法、及び、プログラム
CN102306244A (zh) * 2011-07-29 2012-01-04 北京航星机器制造公司 一种基于检测点评估的排故方法
CN103412805A (zh) * 2013-07-31 2013-11-27 交通银行股份有限公司 一种it故障源诊断方法及系统
CN106059813A (zh) * 2016-06-14 2016-10-26 西安电子科技大学 一种基于动态时间间隔的综合探测方法
CN106789243A (zh) * 2016-12-22 2017-05-31 烟台东方纵横科技股份有限公司 一种具有智能故障分析功能的it运维系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2680494A1 (en) * 2012-06-29 2014-01-01 Alcatel-Lucent Home network trouble shooting
CN107342878A (zh) * 2016-04-29 2017-11-10 中兴通讯股份有限公司 一种故障处理方法及装置
CN107809322A (zh) * 2016-09-06 2018-03-16 中兴通讯股份有限公司 运维工单的分配方法和装置
CN106941423B (zh) * 2017-04-13 2018-06-05 腾讯科技(深圳)有限公司 故障原因定位方法及装置
CN107862393A (zh) * 2017-10-31 2018-03-30 广西宜州市联森网络科技有限公司 一种it运维管理系统
CN107612756A (zh) * 2017-10-31 2018-01-19 广西宜州市联森网络科技有限公司 一种具有智能故障分析处理功能的运维管理系统
CN108768753B (zh) * 2018-06-26 2022-03-25 腾讯科技(深圳)有限公司 告警源的定位方法、装置、存储介质及电子装置
CN109633351B (zh) * 2018-12-13 2021-10-22 平安普惠企业管理有限公司 智能it运维故障定位方法、装置、设备及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008217735A (ja) * 2007-03-08 2008-09-18 Nec Corp 障害解析システム、方法、及び、プログラム
CN102306244A (zh) * 2011-07-29 2012-01-04 北京航星机器制造公司 一种基于检测点评估的排故方法
CN103412805A (zh) * 2013-07-31 2013-11-27 交通银行股份有限公司 一种it故障源诊断方法及系统
CN106059813A (zh) * 2016-06-14 2016-10-26 西安电子科技大学 一种基于动态时间间隔的综合探测方法
CN106789243A (zh) * 2016-12-22 2017-05-31 烟台东方纵横科技股份有限公司 一种具有智能故障分析功能的it运维系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴凯: "面向功能安全ECU监控系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020119369A1 (zh) * 2018-12-13 2020-06-18 平安普惠企业管理有限公司 智能it运维故障定位方法、装置、设备及可读存储介质
CN113283462A (zh) * 2021-03-24 2021-08-20 国网四川省电力公司电力科学研究院 一种基于改进idnn模型的二次系统故障定位方法
CN113283462B (zh) * 2021-03-24 2022-09-20 国网四川省电力公司电力科学研究院 一种基于改进idnn模型的二次系统故障定位方法

Also Published As

Publication number Publication date
WO2020119369A1 (zh) 2020-06-18
CN109633351B (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN109633351A (zh) 智能it运维故障定位方法、装置、设备及可读存储介质
CN107908541B (zh) 接口测试方法、装置、计算机设备及存储介质
US10853227B2 (en) Systems and methods for modular test platform for applications
CN111124919A (zh) 一种用户界面的测试方法、装置、设备及存储介质
CN106886493B (zh) 一种自动化测试系统的建立方法与装置
CN106330593A (zh) 协议检测方法及装置
US11310140B2 (en) Mitigating failure in request handling
CN110784374A (zh) 业务系统运行状态的监控方法、装置、设备和系统
CN109783260A (zh) 智能it全流程运维方法、装置、设备及可读存储介质
CN113672441B (zh) 对智能设备的测试方法及装置
CN107733710A (zh) 链路调用关系的构建方法、装置、计算机设备及存储介质
CN107015912A (zh) 实现远程调试的系统、方法、装置、及电子设备
CN104065526A (zh) 一种服务器故障报警的方法和装置
CN112100078A (zh) 一种生成接口测试用例的方法、装置及设备
CN112463588A (zh) 一种自动化测试系统及方法、存储介质、计算设备
CN108345533A (zh) 一种应用程序调试方法、设备及服务器
CN111061448A (zh) 日志信息的显示方法、装置、电子设备及存储介质
CN113747150B (zh) 一种基于容器云实现的视频服务系统的测试方法和系统
CN106294097B (zh) 一种应用程序测试方法及设备
CN108946370B (zh) 电梯故障信息处理方法、系统、设备和可读存储介质
CN109274533B (zh) 一种基于规则引擎的Web服务故障的定位装置和方法
US8639983B1 (en) Self-service testing
CN106940647B (zh) 代码管理方法和装置
US11281521B1 (en) Methods, systems and computer readable media for troubleshooting test environments using automated analysis of log file data
CN114218072A (zh) 测试脚本生成方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant