CN111796955A - 故障根源定位方法、系统、装置及存储介质 - Google Patents

故障根源定位方法、系统、装置及存储介质 Download PDF

Info

Publication number
CN111796955A
CN111796955A CN202010467262.4A CN202010467262A CN111796955A CN 111796955 A CN111796955 A CN 111796955A CN 202010467262 A CN202010467262 A CN 202010467262A CN 111796955 A CN111796955 A CN 111796955A
Authority
CN
China
Prior art keywords
transaction
root
error
fault
codes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010467262.4A
Other languages
English (en)
Other versions
CN111796955B (zh
Inventor
李琪
章彩红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202010467262.4A priority Critical patent/CN111796955B/zh
Publication of CN111796955A publication Critical patent/CN111796955A/zh
Application granted granted Critical
Publication of CN111796955B publication Critical patent/CN111796955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开提供了一种故障根源定位方法、系统、装置及存储介质,其中,所述故障根源定位方法包括:获取告警信息,根据所述告警信息确定故障场景;根据所述故障场景匹配对应的定位方法;获取与所述故障场景对应的分析码,根据所述定位方法分析所述分析码获取直接根源对象;根据所述直接根源对象获取最终根源对象。采用本公开提供的技术方案可以自动计算故障原因,实现快速故障定位,帮助运维人员迅速完成根因排查和故障处置。同时,无需人工参与,在减少人力成本的同时提高了准确率。

Description

故障根源定位方法、系统、装置及存储介质
技术领域
本发明涉及计算机应用技术领域,更为具体而言,涉及一种故障根源定位方法、系统、装置及存储介质。
背景技术
商业银行数据中心作为“金融业跳动的心脏”,稳定运行和控制风险是第一要务。一方面,基础设施故障、突发业务压力、频繁变更上线等都可能影响系统的稳定和服务质量,随着业务部门和上级监管机构要求不断提高,银行对数据中心高可用性的要求也日益严格;另一方面,数据中心对外部基础设施、外部技术和服务的依赖性不断增强,网络入侵、信息泄露等安全风险日益突出。
目前商业银行数据中心部署有交易监控机制,记录每笔实际发生的交易明细,基于这些交易明细数据,可以进行多维度的统计分析。针对商业银行的常用统计指标,例如:系统成功率、业务成功率、平均响应时间、平均处理时间进行实时监控,可以在单点故障场景中迅速定位故障发生的位置及组件。但是,在涉及到多组件同时发现故障场景中,目前还需要运维人员根据专家经验和故障涉及的交易明细一个个组件排查和定位,确定故障的根源组件并处置。这种排查步骤复杂且耗时长,在处理应急过程中不能够满足迅速定位故障根源并处置的运维要求。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种故障根源定位方法、系统、服务器及存储介质,实现自动化快速故障定位。
根据本发明的第一方面,本发明的实施方式提供了一种故障根源定位方法,包括:获取告警信息,根据所述告警信息确定故障场景;根据所述故障场景匹配对应的定位方法;获取与所述故障场景对应的分析码,根据所述定位方法分析所述分析码获取直接根源对象;根据所述直接根源对象获取最终根源对象。
在本发明的一些实施方式中,所述故障场景包括:系统/业务成功率故障场景和平均响应/平均处理时间故障场景。
在本发明的一些实施方式中,若所述故障场景为所述系统/业务成功率故障场景,所述获取与所述故障场景对应的分析码,根据所述定位方法分析所述分析码获取直接根源对象包括:根据预设的筛选条件获取根源错误码作为所述分析码;根据所述根源错误码和所述定位方法获取目标交易明细数据;根据所述目标交易明细数据确定所述直接根源对象。
在本发明的一些实施方式中,所述根据预设的筛选条件获取根源错误码包括:获取所述故障场景下的全量错误码;筛选所述全量错误码中类别标识为系统错的错误码为第一类错误码;筛选所述第一类错误码中平均错误笔数超过预设错误阈值的错误码作为第二类错误码;筛选所述第二类错误码中平均错误笔数增长率超过预设增长率阈值的错误码作为第三类错误码;将所述第三类错误码按照平均错误笔数增长率从大到小的顺序进行排序,根据所述预设的筛选条件取排序前n位的所述第三类错误码作为所述根源错误码。
在本发明的一些实施方式中,所述获取所述故障场景下的全量错误码包括:获取所述告警信息对应的视图;根据所述视图的类别获取对应的处理方法;根据所述处理方法及所述视图获取所述全量错误码。
在本发明的一些实施方式中,所述视图的类别包括:总览视图、错误码视图和其他视图。
在本发明的一些实施方式中,所述根据所述根源错误码和所述定位方法获取目标交易明细数据包括:根据所述根源错误码筛选全量交易明细数据,将满足预设条件的交易明细数据作为所述目标交易明细数据;其中,所述预设条件为:所述交易明细数据的错误码属于所述根源错误码,错误类型为系统/业务失败,时间、对象及子系统信息与所述告警信息匹配。
在本发明的一些实施方式中,其特征在于,所述根据所述目标交易明细数据确定直接根源对象包括:统计所述目标交易明细数据对应的全局跟踪号;获取所述全局跟踪号在预设的时间段内对应的第一类交易明细数据;将所述第一类交易明细数据按照所述全局跟踪号分组;对于每个所述分组,分别执行以下操作:筛选所述分组中接收方为空的节点;若所述节点只有一个,则确定所述节点对应的组件为所述直接根源对象;若所述节点的个数大于一个,则确定所述节点中交易实际发生时间满足预设条件的节点对应的组件为所述直接根源对象。
在本发明的一些实施方式中,若所述故障场景为所述平均响应/平均处理时间故障场景,所述获取与所述故障场景对应的分析码,根据所述定位方法分析所述分析码获取直接根源对象包括:根据预设的筛选条件获取根源交易码作为所述分析码;根据所述根源交易码和所述定位方法获取目标交易线集;根据所述目标交易线集确定所述直接根源对象。
在本发明的一些实施方式中,所述根据预设的筛选条件获取根源交易码包括:获取所述故障场景下的全量交易码;筛选所述全量交易码中平均交易笔数超过预设交易阈值的交易码作为第一类交易码;筛选所述第一类交易码中平均响应/平均处理时间增长量超过预设增长量阈值的交易码作为第二类交易码;筛选所述第二类交易码中平均响应/平均处理时间增长率超过预设增长率阈值的交易码作为第三类交易码;将所述第三类交易码按照平均响应/平均处理时间增长量从大到小的顺序进行排序,根据所述预设的筛选条件取排序前n位的所述第三类交易码作为所述根源交易码。
在本发明的一些实施方式中,所述获取所述故障场景下的全量交易码包括:获取所述告警信息对应的视图;根据所述视图的类别获取对应的处理方法;根据所述处理方法及所述视图获取所述全量交易码。
在本发明的一些实施方式中,所述视图的类比包括:总览视图、交易码视图和其他视图。
在本发明的一些实施方式中,所述根据所述根源交易码和所述定位方法获取目标交易线集包括:根据所述根源交易码筛选全量交易明细数据获取根源交易明细数据;根据所述根源交易明细数据对应的全局跟踪号形成所述目标交易线集;其中,所述根据所述根源交易码筛选全量交易明细数据获取根源交易明细数据包括:确定所述告警信息对应的错误时间段;确定所述根源交易码对应的交易明细数据作为第一类交易明细数据;筛选所述第一类交易明细数据中在所述错误时间段内的响应时间满足预设响应时间的交易明细数据作为所述根源交易明细数据。
在本发明的一些实施方式中,所述根据所述目标交易线集确定直接根源对象包括:筛选所述目标交易线集中平均响应/平均处理时间增长量大于预设的增长量参数和平均响应/平均处理时间增长率大于预设的增长率参数且处于交易线末端的节点作为所述直接根源对象。
根据本发明的第二方面,本发明的实施方式提供了一种故障根源定位系统,包括:场景确定模块,用于获取告警信息,根据所述告警信息确定故障场景;方法匹配模块,用于根据所述故障场景匹配对应的定位方法;分析模块,用于获取与所述故障场景对应的分析码,根据所述定位方法分析所述分析码获取直接根源对象;定位模块,用于根据所述直接根源对象获取最终根源对象。
在本发明的一些实施方式中,所述故障场景包括:系统/业务成功率故障场景和平均响应/平均处理时间故障场景。
在本发明的一些实施方式中,若所述故障场景为所述系统/业务成功率故障场景,所述分析模块用于:根据预设的筛选条件获取根源错误码作为所述分析码;根据所述根源错误码和所述定位方法获取目标交易明细数据;根据所述目标交易明细数据确定直接根源对象。
在本发明的一些实施方式中,所述根据预设的筛选条件获取根源错误码包括:获取所述故障场景下的全量错误码;筛选全量错误码中类别标识为系统错的错误码为第一类错误码;筛选所述第一类错误码中平均错误笔数超过预设错误阈值的错误码作为第二类错误码;筛选所述第二类错误码中平均错误笔数增长率超过预设增长率阈值的错误码作为第三类错误码;将所述第三类错误码按照平均错误笔数增长率从大到小的顺序进行排序,根据所述预设的筛选条件取排序前n位的所述第三类错误码作为所述根源错误码。
在本发明的一些实施方式中,所述获取所述故障场景下的全量错误码包括:获取所述告警信息对应的视图;根据所述视图的类别获取对应的处理方法;根据所述处理方法及所述视图获取所述全量错误码。
在本发明的一些实施方式中,所述视图的类别包括:总览视图、错误码视图和其他视图。
在本发明的一些实施方式中,所述根据所述根源错误码和所述定位方法获取目标交易明细数据包括:根据所述根源错误码筛选全量交易明细数据,将满足预设条件的交易明细数据作为所述目标交易明细数据;其中,所述预设条件为:所述交易明细数据的错误码属于所述根源错误码,错误类型为系统/业务失败,时间、对象及子系统信息与所述告警信息匹配。
在本发明的一些实施方式中,其特征在于,所述根据所述目标交易明细数据确定直接根源对象包括:统计所述目标交易明细数据对应的全局跟踪号;获取所述全局跟踪号在预设的时间段内对应的第一类交易明细数据;将所述第一类交易明细数据按照所述全局跟踪号分组;对于每个所述分组,分别执行以下操作:筛选所述分组中接收方为空的节点;若所述节点只有一个,则确定所述节点对应的组件为所述直接根源对象;若所述节点的个数大于一个,则确定所述节点中交易实际发生时间满足预设条件的节点对应的组件为所述直接根源对象。
在本发明的一些实施方式中,若所述故障场景为所述平均响应/平均处理时间故障场景,所述分析模块用于:根据预设的筛选条件获取根源交易码作为所述分析码;根据所述根源交易码和所述定位方法获取目标交易线集;根据所述目标交易线集确定直接根源对象。
在本发明的一些实施方式中,所述根据预设的筛选条件获取根源交易码包括:获取所述故障场景下的全量交易码;筛选全量交易码中平均交易笔数超过预设交易阈值的交易码作为第一类交易码;筛选所述第一类交易码中平均响应/平均处理时间增长量超过预设增长量阈值的交易码作为第二类交易码;筛选所述第二类交易码中平均响应/平均处理时间增长率超过预设增长率阈值的交易码作为第三类交易码;将所述第三类交易码按照平均响应/平均处理时间增长量从大到小的顺序进行排序,根据所述预设的筛选条件取排序前n位的所述第三类交易码作为所述根源交易码。
在本发明的一些实施方式中,所述获取所述故障场景下的全量交易码包括:获取所述告警信息对应的视图;根据所述视图的类别获取对应的处理方法;根据所述处理方法及所述视图获取所述全量交易码。
在本发明的一些实施方式中,所述视图的类比包括:总览视图、交易码视图和其他视图。
在本发明的一些实施方式中,所述根据所述根源交易码和所述定位方法获取目标交易线集包括:根据所述根源交易码筛选全量交易明细数据获取根源交易明细数据;根据所述根源交易明细数据对应的全局跟踪号形成所述目标交易线集;其中,所述根据所述根源交易码筛选全量交易明细数据获取根源交易明细数据包括:确定所述告警信息对应的错误时间段;确定所述根源交易码对应的交易明细数据作为第一类交易明细数据;筛选所述第一类交易明细数据中在所述错误时间段内的响应时间满足预设响应时间的交易明细数据作为所述根源交易明细数据。
在本发明的一些实施方式中,所述根据所述目标交易线集确定直接根源对象包括:筛选所述目标交易线集中平均响应/平均处理时间增长量大于预设的增长量参数和平均响应/平均处理时间增长率大于预设的增长率参数且处于交易线末端的节点作为所述直接根源对象。
根据本发明的第三方面,本发明的实施方式提供了一种故障根源定位装置,包括存储器和处理器,所述存储器用于存储计算机可读指令;所述处理器用于执行所述计算机可读指令从而实现前述任一项实施方式所述的方法。
根据本发明的第四方面,本发明的实施方式还提供了一种计算机存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现前述任一项实施方式所述的方法。
本发明实施方式可以基于不同的故障场景自动获取对应的分析码,从而自动计算故障原因,汇聚计算出导致故障发生可能性最高的监控对象及根源组件,实现快速实现故障定位,帮助运维人员迅速完成根因排查和故障处置。同时,无需人工参与,在减少人力成本的同时提高了准确率。
附图说明
为了便于理解本发明,以下通过具体实施方式并结合附图对本发明进行具体说明。
图1是根据本发明一种实施方式的故障根源定位方法的流程示意图;
图2是根据图1中确定的故障场景为系统/业务成功率故障场景时,处理102的流程示意图;
图3是图2中处理104的流程示意图;
图4是图3中处理107的流程示意图;
图5是根据图1中确定的故障场景为平均响应/平均处理时间故障场景时,处理102的流程示意图;
图6是图5中处理115的流程示意图;
图7是根据本发明一种实施方式的故障根源定位系统的框图。
具体实施方式
以下结合附图和具体实施方式对本发明的各个方面进行详细阐述。其中,众所周知的模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。并且,所描述的特征、架构或功能可在一个或一个以上实施方式中以任何方式组合。本领域技术人员应当理解,下述的各种实施方式只用于举例说明,而非用于限制本发明的保护范围。还可以容易理解,本文所述和附图所示的各实施方式中的模块或单元或处理方式可以按各种不同配置进行组合和设计。
图1是根据本发明一种实施方式的故障根源定位方法的流程示意图。在本发明的实施方式中,参照图1,该故障根源定位方法可以包括:
100:获取告警信息,根据告警信息确定故障场景;
101:根据故障场景匹配对应的定位方法;
102:获取与故障场景对应的分析码,根据定位方法分析分析码获取直接根源对象;
103:根据直接根源对象获取最终根源对象。
在本发明的实施方式中,故障场景包括系统/业务成功率故障场景和平均响应/平均处理时间故障场景。
在发生系统/业务成功率低的告警时,说明存在系统中发生了许多系统/业务失败的交易,可能有系统出现故障。在本发明的实施方式中,当确定的故障场景为系统/业务成功率故障场景时,通过以下方式实现处理102:
图2示出了在确定的故障场景为系统/业务成功率故障场景时,处理102的具体处理。参照图2,处理102可以包括:
104:根据预设的筛选条件获取根源错误码作为分析码;
105:根据根源错误码和定位方法获取目标交易明细数据;
106:根据目标交易明细数据确定直接根源对象。
具体的,在本发明的一种实施方式中,如图3所示,处理104可以包括:
107:获取故障场景下的全量错误码;
108:筛选全量错误码中类别标识为系统错的错误码为第一类错误码;
109:筛选第一类错误码中平均错误笔数超过预设错误阈值的错误码作为第二类错误码;
110:筛选第二类错误码中平均错误笔数增长率超过预设增长率阈值的错误码作为第三类错误码;
111:将第三类错误码按照平均错误笔数增长率从大到小的顺序进行排序,根据所述预设的筛选条件取排序前n位的第三类错误码作为根源错误码。
以下将以举例的形式给出一种筛选条件,并非用于限制本发明的保护范围,例如,筛选条件可以是:
(1)类别标识为系统错,即以X或者Z开头的错误码;
(2)一分钟内平均错误笔数超过50笔;
(3)一分钟内平均错误笔数增长率超过50%;
由此,将满足上述条件的结果按照一分钟内平均错误笔数增长率从大到小进行排序,取排序前3位的错误码作为根源错误码。
在本发明的实施方式中,一分钟内平均错误笔数和一分钟内平均错误笔数增长率的阈值可以取与上一个类型日期(工作日/非工作日)在该时间段内的平均笔数计算获得,如果没有,则取笔数阈值为0,取增长率阈值为100%。
获取全量错误码时,由于钻进来的视图不同,处理逻辑也有所不同。在本发明的一种实施方式中,如图4所示,处理107可以包括:
112:获取告警信息对应的视图;
113:根据视图的类别获取对应的处理方法;
114:根据处理方法及视图获取所述全量错误码。
在本发明的实施方式中,视图的类别包括:总览视图、错误码视图和其他视图。在总览视图下,可以直接从该系统的错误码视图中获取全量错误码,再按上述条件找寻符合条件的根源错误码。在错误码视图下,可以直接将钻取进来的对象作为根源错误码,此时只有一个根源错误码。在其他视图下,可以从当前视图下再钻取错误码视图以获取全量错误码,再按上述条件找寻符合条件的根源错误码。
在本发明的一种实施方式中,处理105可以通过以下方式实现:
根据根源错误码筛选全量交易明细数据,将满足预设条件的交易明细数据作为目标交易明细数据;其中,预设条件为:交易明细数据的错误码属于根源错误码,错误类型为系统/业务失败,时间、对象及子系统信息与告警信息匹配。
获取到目标交易明细数据后,需要确定直接根源对象,在本发明的实施方式中,可以通过以下方式进行确定:
统计目标交易明细数据对应的全局跟踪号,获取全局跟踪号在预设的时间段内,例如前后1个小时内,对应的第一类交易明细数据,并将第一类交易明细数据按照全局跟踪号分组。
对于每个分组,分别执行以下操作:
筛选分组中接收方为空的节点,若节点只有一个,则确定该节点对应的组件为直接根源对象,若节点的个数大于一个,则确定节点中交易实际发生时间满足预设条件的节点,例如交易实际发生时间最大的节点,对应的组件为直接根源对象。
在发生平均响应/平均处理时间长的告警时,说明存在系统响应时间和处理时间过长,可能有系统出现故障。在本发明的实施方式中,当确定的故障场景为平均响应/平均处理时间故障场景时,通过以下方式实现处理102:
图5示出了在确定的故障场景为平均响应/平均处理时间故障场景时,处理102的具体处理。参照图5,处理102可以包括:
115:根据预设的筛选条件获取根源交易码作为分析码;
116:根据根源交易码和定位方法获取目标交易线集;
117:根据目标交易线集确定直接根源对象。
具体的,在本发明的一种实施方式中,如图6所示,处理115可以包括:
118:获取故障场景下的全量交易码;
119:筛选全量交易码中平均交易笔数超过预设交易阈值的交易码作为第一类交易码;
120:筛选第一类交易码中平均响应/平均处理时间增长量超过预设增长量阈值的交易码作为第二类交易码;
121:筛选第二类交易码中平均响应/平均处理时间增长率超过预设增长率阈值的交易码作为第三类交易码;
122:将第三类交易码按照平均响应/平均处理时间增长量从大到小的顺序进行排序,根据预设的筛选条件取排序前n位的第三类交易码作为根源交易码。
以下将以举例的形式给出一种筛选条件,并非用于限制本发明的保护范围,例如,筛选条件可以是:
(1)每分钟平均交易笔数超过50笔;
(2)平均响应/平均处理时间增长量超过100ms;
(3)平均响应/平均处理时间增长率超过100%;
由此,将满足上述条件的结果按照平均响应/平均处理时间增长量从大到小进行排序,取排序前3位的交易码作为根源交易码。
在本发明的实施方式中,平均处理时间/平均响应时间增长量的阈值可以取对应的二级视图的基线值,如果没有,则可以取与上一个类型日期(工作日/非工作日)在该时间段内的平均处理时间,如果也没有,则取阈值为0。
同样的,获取全量交易码时,由于钻进来的视图不同,处理逻辑也有所不同。平均响应/平均处理时间故障场景下,具体的处理方法和系统/业务成功率故障场景下获取全量错误码的方式基本一致,如下:
获取告警信息对应的视图,根据视图的类别获取对应的处理方法,根据处理方法及视图获取所述全量交易码。
在本发明的实施方式中,视图的类别包括:总览视图、交易码视图和其他视图。在总览视图下,可以直接从该系统的交易码视图中获取全量交易码,再按上述条件找寻符合条件的根源交易码。在交易码视图下,可以直接将钻取进来的对象作为根源交易码,此时只有一个根源交易码。在其他视图下,可以从当前视图下再钻取交易码视图以获取全量交易码,再按上述条件找寻符合条件的根源交易码。
在本发明的一种实施方式中,处理116可以通过以下方式实现:
根据根源交易码筛选全量交易明细数据获取根源交易明细数据,根据根源交易明细数据对应的全局跟踪号形成目标交易线集。
其中,根据根源交易码筛选全量交易明细数据获取根源交易明细数据包括:确定告警信息对应的错误时间段,确定根源交易码对应的交易明细数据作为第一类交易明细数据,筛选第一类交易明细数据中在该错误时间段内的响应时间满足预设响应时间的交易明细数据,例如响应时间最长的前m位交易明细数据,作为根源交易明细数据。
获取到目标交易线集后,需要确定直接根源对象,在本发明的实施方式中,可以通过以下方式进行确定:
筛选目标交易线集中平均响应/平均处理时间增长量大于预设的增长量参数和平均响应/平均处理时间增长率大于预设的增长率参数且处于交易线末端的节点作为直接根源对象。
本发明可以基于不同的故障场景自动获取对应的分析码,从而自动计算故障原因,汇聚计算出导致故障发生可能性最高的监控对象及根源组件,实现快速实现故障定位,帮助运维人员迅速完成根因排查和故障处置。同时,无需人工参与,在减少人力成本的同时提高了准确率。
图7是根据本发明一种实施方式的故障根源定位系统1的框图,参照图7,该系统1包括:场景确定模块11,用于获取告警信息,根据告警信息确定故障场景;方法匹配模块12,用于根据故障场景匹配对应的定位方法;分析模块13,用于获取与故障场景对应的分析码,根据定位方法分析分析码获取直接根源对象;定位模块14,用于根据直接根源对象获取最终根源对象。
在本发明的实施方式中,故障场景包括:系统/业务成功率故障场景和平均响应/平均处理时间故障场景。
在本发明的实施方式中,若故障场景为所述系统/业务成功率故障场景,则分析模块13用于:根据预设的筛选条件获取根源错误码作为分析码;根据根源错误码和定位方法获取目标交易明细数据;根据目标交易明细数据确定直接根源对象。
在本发明的实施方式中,分析模块13根据预设的筛选条件获取根源错误码包括:获取故障场景下的全量错误码;筛选全量错误码中类别标识为系统错的错误码为第一类错误码;筛选第一类错误码中平均错误笔数超过预设错误阈值的错误码作为第二类错误码;筛选第二类错误码中平均错误笔数增长率超过预设增长率阈值的错误码作为第三类错误码;将第三类错误码按照平均错误笔数增长率从大到小的顺序进行排序,根据预设的筛选条件取排序前n位的第三类错误码作为根源错误码。
在本发明的实施方式中,分析模块13获取所述故障场景下的全量错误码包括:获取告警信息对应的视图;根据视图的类别获取对应的处理方法;根据处理方法及视图获取全量错误码。
在本发明的实施方式中,视图的类别包括:总览视图、错误码视图和其他视图。
在本发明的实施方式中,分析模块13根据根源错误码和定位方法获取目标交易明细数据包括:根据根源错误码筛选全量交易明细数据,将满足预设条件的交易明细数据作为目标交易明细数据;其中,预设条件为:交易明细数据的错误码属于所述根源错误码,错误类型为系统/业务失败,时间、对象及子系统信息与告警信息匹配。
在本发明的实施方式中,分析模块13根据目标交易明细数据确定直接根源对象包括:统计目标交易明细数据对应的全局跟踪号;获取全局跟踪号在预设的时间段内对应的第一类交易明细数据;将第一类交易明细数据按照全局跟踪号分组;对于每个分组,分别执行以下操作:筛选分组中接收方为空的节点;若所述节点只有一个,则确定该节点对应的组件为直接根源对象;若节点的个数大于一个,则确定节点中交易实际发生时间满足预设条件的节点对应的组件为直接根源对象。
在本发明的实施方式中,若故障场景为所述平均响应/平均处理时间故障场景,则分析模块13用于:根据预设的筛选条件获取根源交易码作为分析码;根据根源交易码和定位方法获取目标交易线集;根据目标交易线集确定直接根源对象。
在本发明的实施方式中,分析模块13根据预设的筛选条件获取根源交易码包括:获取故障场景下的全量交易码;筛选全量交易码中平均交易笔数超过预设交易阈值的交易码作为第一类交易码;筛选第一类交易码中平均响应/平均处理时间增长量超过预设增长量阈值的交易码作为第二类交易码;筛选第二类交易码中平均响应/平均处理时间增长率超过预设增长率阈值的交易码作为第三类交易码;将第三类交易码按照平均响应/平均处理时间增长量从大到小的顺序进行排序,根据预设的筛选条件取排序前n位的第三类交易码作为根源交易码。
在本发明的实施方式中,分析模块13获取所述故障场景下的全量交易码包括:获取告警信息对应的视图;根据视图的类别获取对应的处理方法;根据处理方法及视图获取全量交易码。
在本发明的实施方式中,视图的类别包括:总览视图、交易码视图和其他视图。
在本发明的实施方式中,分析模块13根据根源交易码和定位方法获取目标交易线集包括:根据根源交易码筛选全量交易明细数据获取根源交易明细数据;根据根源交易明细数据对应的全局跟踪号形成目标交易线集;其中,根据根源交易码筛选全量交易明细数据获取根源交易明细数据包括:确定告警信息对应的错误时间段;确定根源交易码对应的交易明细数据作为第一类交易明细数据;筛选第一类交易明细数据中在错误时间段内的响应时间满足预设响应时间的交易明细数据作为根源交易明细数据。
在本发明的实施方式中,分析模块13根据目标交易线集确定直接根源对象包括:筛选目标交易线集中平均响应/平均处理时间增长量大于预设的增长量参数和平均响应/平均处理时间增长率大于预设的增长率参数且处于交易线末端的节点作为直接根源对象。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施方式或者实施方式的某些部分所述的方法。
因此,本发明实施方式还提供了一种计算机存储介质,存储有计算机程序,用于在执行时实现本发明前述实施方式或实现方式提供的故障根源定位方法。例如,所述存储介质可以包括硬盘、软盘、光盘、磁带、磁盘、优盘、闪存等。
本发明实施方式还提供了一种故障根源定位装置,该装置包括存储器,用于存储计算机可读指令;处理器,用于执行该计算机可读指令从而实现本发明前述实施方式或实现方式所提供的故障根源定位方法。可选地,在本发明实施方式的一种实现方式中,所述装置还可以包括用于进行数据通信的输入输出接口。例如,所述装置可以是计算机、智能终端、服务器等。
本文所公开的具体实施方式仅用于举例说明本发明,对于本领域技术人员而言,显然可以根据本文的教导进行各种修改,可以采用各种等同的方式实施本发明,因此,本发明上述公开的特定的实施方式仅仅是示例性的,其保护范围不受在此公开的结构或设计的细节所限,除非在权利要求中另有说明。因此,上述公开的特定的示例性的实施方式可进行各种替换、组合或修改,其所有的变形都落入本文公开的范围内。

Claims (30)

1.一种故障根源定位方法,其特征在于,所述故障根源定位方法包括:
获取告警信息,根据所述告警信息确定故障场景;
根据所述故障场景匹配对应的定位方法;
获取与所述故障场景对应的分析码,根据所述定位方法分析所述分析码获取直接根源对象;
根据所述直接根源对象获取最终根源对象。
2.如权利要求1所述的故障根源定位方法,其特征在于,所述故障场景包括:
系统/业务成功率故障场景和平均响应/平均处理时间故障场景。
3.如权利要求2所述的故障根源定位方法,其特征在于,若所述故障场景为所述系统/业务成功率故障场景,所述获取与所述故障场景对应的分析码,根据所述定位方法分析所述分析码获取直接根源对象包括:
根据预设的筛选条件获取根源错误码作为所述分析码;
根据所述根源错误码和所述定位方法获取目标交易明细数据;
根据所述目标交易明细数据确定所述直接根源对象。
4.如权利要求3所述的故障根源定位方法,其特征在于,所述根据预设的筛选条件获取根源错误码包括:
获取所述故障场景下的全量错误码;
筛选所述全量错误码中类别标识为系统错的错误码为第一类错误码;
筛选所述第一类错误码中平均错误笔数超过预设错误阈值的错误码作为第二类错误码;
筛选所述第二类错误码中平均错误笔数增长率超过预设增长率阈值的错误码作为第三类错误码;
将所述第三类错误码按照平均错误笔数增长率从大到小的顺序进行排序,根据所述预设的筛选条件取排序前n位的所述第三类错误码作为所述根源错误码。
5.如权利要求4所述的故障根源定位方法,其特征在于,所述获取所述故障场景下的全量错误码包括:
获取所述告警信息对应的视图;
根据所述视图的类别获取对应的处理方法;
根据所述处理方法及所述视图获取所述全量错误码。
6.如权利要求5所述的故障根源定位方法,其特征在于,所述视图的类别包括:
总览视图、错误码视图和其他视图。
7.如权利要求3所述的故障根源定位方法,其特征在于,所述根据所述根源错误码和所述定位方法获取目标交易明细数据包括:
根据所述根源错误码筛选全量交易明细数据,将满足预设条件的交易明细数据作为所述目标交易明细数据;
其中,所述预设条件为:所述交易明细数据的错误码属于所述根源错误码,错误类型为系统/业务失败,时间、对象及子系统信息与所述告警信息匹配。
8.如权利要求3所述的故障根源定位方法,其特征在于,所述根据所述目标交易明细数据确定直接根源对象包括:
统计所述目标交易明细数据对应的全局跟踪号;
获取所述全局跟踪号在预设的时间段内对应的第一类交易明细数据;
将所述第一类交易明细数据按照所述全局跟踪号分组;
对于每个所述分组,分别执行以下操作:
筛选所述分组中接收方为空的节点;
若所述节点只有一个,则确定所述节点对应的组件为所述直接根源对象;
若所述节点的个数大于一个,则确定所述节点中交易实际发生时间满足预设条件的节点对应的组件为所述直接根源对象。
9.如权利要求2所述的故障根源定位方法,其特征在于,若所述故障场景为所述平均响应/平均处理时间故障场景,所述获取与所述故障场景对应的分析码,根据所述定位方法分析所述分析码获取直接根源对象包括:
根据预设的筛选条件获取根源交易码作为所述分析码;
根据所述根源交易码和所述定位方法获取目标交易线集;
根据所述目标交易线集确定所述直接根源对象。
10.如权利要求9所述的故障根源定位方法,其特征在于,所述根据预设的筛选条件获取根源交易码包括:
获取所述故障场景下的全量交易码;
筛选所述全量交易码中平均交易笔数超过预设交易阈值的交易码作为第一类交易码;
筛选所述第一类交易码中平均响应/平均处理时间增长量超过预设增长量阈值的交易码作为第二类交易码;
筛选所述第二类交易码中平均响应/平均处理时间增长率超过预设增长率阈值的交易码作为第三类交易码;
将所述第三类交易码按照平均响应/平均处理时间增长量从大到小的顺序进行排序,根据所述预设的筛选条件取排序前n位的所述第三类交易码作为所述根源交易码。
11.如权利要求10所述的故障根源定位方法,其特征在于,所述获取所述故障场景下的全量交易码包括:
获取所述告警信息对应的视图;
根据所述视图的类别获取对应的处理方法;
根据所述处理方法及所述视图获取所述全量交易码。
12.如权利要求11所述的故障根源定位方法,其特征在于,所述视图的类比包括:
总览视图、交易码视图和其他视图。
13.如权利要求9所述的故障根源定位方法,其特征在于,所述根据所述根源交易码和所述定位方法获取目标交易线集包括:
根据所述根源交易码筛选全量交易明细数据获取根源交易明细数据;
根据所述根源交易明细数据对应的全局跟踪号形成所述目标交易线集;
其中,所述根据所述根源交易码筛选全量交易明细数据获取根源交易明细数据包括:
确定所述告警信息对应的错误时间段;
确定所述根源交易码对应的交易明细数据作为第一类交易明细数据;
筛选所述第一类交易明细数据中在所述错误时间段内的响应时间满足预设响应时间的交易明细数据作为所述根源交易明细数据。
14.如权利要求9所述的故障根源定位方法,其特征在于,所述根据所述目标交易线集确定直接根源对象包括:
筛选所述目标交易线集中平均响应/平均处理时间增长量大于预设的增长量参数和平均响应/平均处理时间增长率大于预设的增长率参数且处于交易线末端的节点作为所述直接根源对象。
15.一种故障根源定位系统,其特征在于,所述故障根源定位系统包括:
场景确定模块,用于获取告警信息,根据所述告警信息确定故障场景;
方法匹配模块,用于根据所述故障场景匹配对应的定位方法;
分析模块,用于获取与所述故障场景对应的分析码,根据所述定位方法分析所述分析码获取直接根源对象;
定位模块,用于根据所述直接根源对象获取最终根源对象。
16.如权利要求15所述的故障根源定位系统,其特征在于,所述故障场景包括:
系统/业务成功率故障场景和平均响应/平均处理时间故障场景。
17.如权利要求16所述的故障根源定位系统,其特征在于,若所述故障场景为所述系统/业务成功率故障场景,所述分析模块用于:
根据预设的筛选条件获取根源错误码作为所述分析码;
根据所述根源错误码和所述定位方法获取目标交易明细数据;
根据所述目标交易明细数据确定直接根源对象。
18.如权利要求17所述的故障根源定位系统,其特征在于,所述根据预设的筛选条件获取根源错误码包括:
获取所述故障场景下的全量错误码;
筛选全量错误码中类别标识为系统错的错误码为第一类错误码;
筛选所述第一类错误码中平均错误笔数超过预设错误阈值的错误码作为第二类错误码;
筛选所述第二类错误码中平均错误笔数增长率超过预设增长率阈值的错误码作为第三类错误码;
将所述第三类错误码按照平均错误笔数增长率从大到小的顺序进行排序,根据所述预设的筛选条件取排序前n位的所述第三类错误码作为所述根源错误码。
19.如权利要求18所述的故障根源定位系统,其特征在于,所述获取所述故障场景下的全量错误码包括:
获取所述告警信息对应的视图;
根据所述视图的类别获取对应的处理方法;
根据所述处理方法及所述视图获取所述全量错误码。
20.如权利要求19所述的故障根源定位系统,其特征在于,所述视图的类别包括:
总览视图、错误码视图和其他视图。
21.如权利要求17所述的故障根源定位系统,其特征在于,所述根据所述根源错误码和所述定位方法获取目标交易明细数据包括:
根据所述根源错误码筛选全量交易明细数据,将满足预设条件的交易明细数据作为所述目标交易明细数据;
其中,所述预设条件为:所述交易明细数据的错误码属于所述根源错误码,错误类型为系统/业务失败,时间、对象及子系统信息与所述告警信息匹配。
22.如权利要求17所述的故障根源定位系统,其特征在于,所述根据所述目标交易明细数据确定直接根源对象包括:
统计所述目标交易明细数据对应的全局跟踪号;
获取所述全局跟踪号在预设的时间段内对应的第一类交易明细数据;
将所述第一类交易明细数据按照所述全局跟踪号分组;
对于每个所述分组,分别执行以下操作:
筛选所述分组中接收方为空的节点;
若所述节点只有一个,则确定所述节点对应的组件为所述直接根源对象;
若所述节点的个数大于一个,则确定所述节点中交易实际发生时间满足预设条件的节点对应的组件为所述直接根源对象。
23.如权利要求16所述的故障根源定位系统,其特征在于,若所述故障场景为所述平均响应/平均处理时间故障场景,所述分析模块用于:
根据预设的筛选条件获取根源交易码作为所述分析码;
根据所述根源交易码和所述定位方法获取目标交易线集;
根据所述目标交易线集确定直接根源对象。
24.如权利要求23所述的故障根源定位系统,其特征在于,所述根据预设的筛选条件获取根源交易码包括:
获取所述故障场景下的全量交易码;
筛选全量交易码中平均交易笔数超过预设交易阈值的交易码作为第一类交易码;
筛选所述第一类交易码中平均响应/平均处理时间增长量超过预设增长量阈值的交易码作为第二类交易码;
筛选所述第二类交易码中平均响应/平均处理时间增长率超过预设增长率阈值的交易码作为第三类交易码;
将所述第三类交易码按照平均响应/平均处理时间增长量从大到小的顺序进行排序,根据所述预设的筛选条件取排序前n位的所述第三类交易码作为所述根源交易码。
25.如权利要求24所述的故障根源定位系统,其特征在于,所述获取所述故障场景下的全量交易码包括:
获取所述告警信息对应的视图;
根据所述视图的类别获取对应的处理方法;
根据所述处理方法及所述视图获取所述全量交易码。
26.如权利要求25所述的故障根源定位系统,其特征在于,所述视图的类比包括:
总览视图、交易码视图和其他视图。
27.如权利要求23所述的故障根源定位系统,其特征在于,所述根据所述根源交易码和所述定位方法获取目标交易线集包括:
根据所述根源交易码筛选全量交易明细数据获取根源交易明细数据;
根据所述根源交易明细数据对应的全局跟踪号形成所述目标交易线集;
其中,所述根据所述根源交易码筛选全量交易明细数据获取根源交易明细数据包括:
确定所述告警信息对应的错误时间段;
确定所述根源交易码对应的交易明细数据作为第一类交易明细数据;
筛选所述第一类交易明细数据中在所述错误时间段内的响应时间满足预设响应时间的交易明细数据作为所述根源交易明细数据。
28.如权利要求23所述的故障根源定位系统,其特征在于,所述根据所述目标交易线集确定直接根源对象包括:
筛选所述目标交易线集中平均响应/平均处理时间增长量大于预设的增长量参数和平均响应/平均处理时间增长率大于预设的增长率参数且处于交易线末端的节点作为所述直接根源对象。
29.一种故障根源定位装置,包括存储器和处理器,其特征在于,
所述存储器用于存储计算机可读指令;
所述处理器用于执行所述计算机可读指令以实现如权利要求1-14中任一项所述的方法。
30.一种计算机存储介质,存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-14中任一项所述的方法。
CN202010467262.4A 2020-05-28 2020-05-28 故障根源定位方法、系统、装置及存储介质 Active CN111796955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010467262.4A CN111796955B (zh) 2020-05-28 2020-05-28 故障根源定位方法、系统、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010467262.4A CN111796955B (zh) 2020-05-28 2020-05-28 故障根源定位方法、系统、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111796955A true CN111796955A (zh) 2020-10-20
CN111796955B CN111796955B (zh) 2024-05-14

Family

ID=72806332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010467262.4A Active CN111796955B (zh) 2020-05-28 2020-05-28 故障根源定位方法、系统、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111796955B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308455A (zh) * 2020-11-20 2021-02-02 深圳前海微众银行股份有限公司 根因定位方法、装置、设备及计算机存储介质
CN112433913A (zh) * 2020-11-23 2021-03-02 中国建设银行股份有限公司 交易路径生成方法、系统、计算机设备和存储介质
CN112491608A (zh) * 2020-11-24 2021-03-12 中国建设银行股份有限公司 一种灾备方案的确定方法、装置、设备及存储介质
CN113269648A (zh) * 2021-06-10 2021-08-17 中国建设银行股份有限公司 故障节点定位方法及装置、存储介质及电子设备
CN113282465A (zh) * 2021-06-17 2021-08-20 中国建设银行股份有限公司 一种故障定位方法、装置、电子设备及计算机存储介质
CN113868089A (zh) * 2021-09-30 2021-12-31 中国建设银行股份有限公司 交易数据处理方法及装置
CN117714403A (zh) * 2023-08-14 2024-03-15 荣耀终端有限公司 数据处理方法、电子设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102981943A (zh) * 2012-10-29 2013-03-20 新浪技术(中国)有限公司 监控应用日志的方法及系统
WO2014180400A1 (zh) * 2013-11-25 2014-11-13 中兴通讯股份有限公司 问题定位处理方法及装置
US20170123790A1 (en) * 2015-11-04 2017-05-04 International Business Machines Corporation User profile based code review
CN108022080A (zh) * 2017-11-24 2018-05-11 深圳市买买提乐购金融服务有限公司 一种申诉处理方法及相关设备
CN108710544A (zh) * 2018-03-20 2018-10-26 青岛海信网络科技股份有限公司 一种数据库系统的进程监控方法及轨道交通综合监控系统
US10291493B1 (en) * 2014-12-05 2019-05-14 Quest Software Inc. System and method for determining relevant computer performance events
CN110995468A (zh) * 2019-11-13 2020-04-10 上海钧正网络科技有限公司 待分析系统的系统故障处理方法、装置、设备和存储介质
CN111192130A (zh) * 2019-12-11 2020-05-22 中国建设银行股份有限公司 交易监控中确定故障根源的方法、系统、装置及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102981943A (zh) * 2012-10-29 2013-03-20 新浪技术(中国)有限公司 监控应用日志的方法及系统
WO2014180400A1 (zh) * 2013-11-25 2014-11-13 中兴通讯股份有限公司 问题定位处理方法及装置
US10291493B1 (en) * 2014-12-05 2019-05-14 Quest Software Inc. System and method for determining relevant computer performance events
US20170123790A1 (en) * 2015-11-04 2017-05-04 International Business Machines Corporation User profile based code review
CN108022080A (zh) * 2017-11-24 2018-05-11 深圳市买买提乐购金融服务有限公司 一种申诉处理方法及相关设备
CN108710544A (zh) * 2018-03-20 2018-10-26 青岛海信网络科技股份有限公司 一种数据库系统的进程监控方法及轨道交通综合监控系统
CN110995468A (zh) * 2019-11-13 2020-04-10 上海钧正网络科技有限公司 待分析系统的系统故障处理方法、装置、设备和存储介质
CN111192130A (zh) * 2019-12-11 2020-05-22 中国建设银行股份有限公司 交易监控中确定故障根源的方法、系统、装置及存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308455A (zh) * 2020-11-20 2021-02-02 深圳前海微众银行股份有限公司 根因定位方法、装置、设备及计算机存储介质
CN112308455B (zh) * 2020-11-20 2024-04-09 深圳前海微众银行股份有限公司 根因定位方法、装置、设备及计算机存储介质
CN112433913A (zh) * 2020-11-23 2021-03-02 中国建设银行股份有限公司 交易路径生成方法、系统、计算机设备和存储介质
CN112433913B (zh) * 2020-11-23 2024-04-09 中国建设银行股份有限公司 交易路径生成方法、系统、计算机设备和存储介质
CN112491608A (zh) * 2020-11-24 2021-03-12 中国建设银行股份有限公司 一种灾备方案的确定方法、装置、设备及存储介质
CN113269648A (zh) * 2021-06-10 2021-08-17 中国建设银行股份有限公司 故障节点定位方法及装置、存储介质及电子设备
CN113282465A (zh) * 2021-06-17 2021-08-20 中国建设银行股份有限公司 一种故障定位方法、装置、电子设备及计算机存储介质
CN113868089A (zh) * 2021-09-30 2021-12-31 中国建设银行股份有限公司 交易数据处理方法及装置
CN117714403A (zh) * 2023-08-14 2024-03-15 荣耀终端有限公司 数据处理方法、电子设备和存储介质

Also Published As

Publication number Publication date
CN111796955B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
CN111796955A (zh) 故障根源定位方法、系统、装置及存储介质
CN111192130B (zh) 交易监控中确定故障根源的方法、系统、装置及存储介质
CN105184084B (zh) 一种电力计量自动化终端故障类型预测方法和系统
CN110704231A (zh) 一种故障处理方法及装置
CN112087334B (zh) 告警根因分析方法、电子设备和存储介质
CN110750377A (zh) 一种故障定位方法及装置
CN111722952A (zh) 业务系统的故障分析方法、系统、设备和存储介质
CN111538951A (zh) 一种异常定位方法及装置
CN113676343B (zh) 电力通信网故障源定位方法及装置
CN112468339B (zh) 告警处理方法、系统、装置和存储介质
CN111104242A (zh) 基于深度学习的操作系统的异常日志的处理方法及装置
CN113298638A (zh) 根因定位方法、电子设备及存储介质
CN113704018A (zh) 应用运维数据处理方法、装置、计算机设备及存储介质
CN111913824A (zh) 确定数据链路故障原因的方法及相关设备
CN117251563A (zh) 故障工单的质检方法、设备及存储介质
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN116974805A (zh) 根因确定方法、设备和存储介质
CN113328898B (zh) 一种具有自主学习能力的故障诊断方法和系统
CN113825162B (zh) 电信网络故障原因定位方法及装置
CN113807697A (zh) 基于告警关联的派单方法及装置
CN114745256B (zh) 一种服务器报警溯源方法、装置及存储介质
CN114726593B (zh) 数据分析、异常信息识别方法、设备及存储介质
CN118094531B (zh) 一种安全运维实时预警一体化系统
CN116755910B (zh) 基于冷启动的宿主机高可用预测方法、装置和电子设备
WO2024027127A1 (zh) 故障检测方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant