CN117614806A - 一种业务异常根因分析处理方法及装置 - Google Patents
一种业务异常根因分析处理方法及装置 Download PDFInfo
- Publication number
- CN117614806A CN117614806A CN202311648792.9A CN202311648792A CN117614806A CN 117614806 A CN117614806 A CN 117614806A CN 202311648792 A CN202311648792 A CN 202311648792A CN 117614806 A CN117614806 A CN 117614806A
- Authority
- CN
- China
- Prior art keywords
- node
- matrix
- relation matrix
- target
- root cause
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 86
- 238000003672 processing method Methods 0.000 title claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims abstract description 182
- 238000012544 monitoring process Methods 0.000 claims abstract description 60
- 230000002159 abnormal effect Effects 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000004422 calculation algorithm Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012423 maintenance Methods 0.000 abstract description 6
- 238000005192 partition Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 16
- 230000005856 abnormality Effects 0.000 description 10
- 230000004888 barrier function Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 6
- 230000001364 causal effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- DIOSHTLNZVXJOF-UHFFFAOYSA-N 2,5-bis(3-oxobutanoylamino)benzenesulfonic acid Chemical compound CC(=O)CC(=O)NC1=CC=C(NC(=O)CC(C)=O)C(S(O)(=O)=O)=C1 DIOSHTLNZVXJOF-UHFFFAOYSA-N 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012047 cause and effect analysis Methods 0.000 description 1
- 238000012936 correction and preventive action Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- KDYFGRWQOYBRFD-UHFFFAOYSA-N succinic acid Chemical compound OC(=O)CCC(O)=O KDYFGRWQOYBRFD-UHFFFAOYSA-N 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
- H04L41/0636—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis based on a decision tree analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
- H04L41/065—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Environmental & Geological Engineering (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供一种业务异常根因分析处理方法及装置,涉及运维数据处理技术领域,可用于金融领域或其他技术领域。所述方法包括:获取关系矩阵;根据预先建立的故障树对业务监控指标进行监控,并根据监控结果和所述关系矩阵确定待进行故障树搜索的目标子节点路径;对所述目标子节点路径先后进行汇总和去重处理,并对保留下来的目标子节点路径进行故障树搜索,得到业务异常根因分析结果。所述装置执行上述方法。本发明实施例提供的业务异常根因分析处理方法及装置,能够提高排障树搜索效率,进而提高业务异常根因分析效率。
Description
技术领域
本发明涉及运维数据处理技术领域,具体涉及一种业务异常根因分析处理方法及装置。
背景技术
排障树是一种将运维知识、数据和算法相结合的一种树状结构,其核心目的是以一种故障因果传播的方式解释系统故障。它由三部分构成:树的定义、节点的定义和边的定义。其中,树的定义决定了树的形状,其语义代表了运维人员在发现业务故障后手动排查故障流程;节点的定义代表数据和算法,当运维人员排查到该节点后,应该查询哪些指标数据,应该选择哪种算法分析这些数据;边的定义代表父节点应该如何触发孩子节点。
基于排障树进行故障因果分析时,当父节点异常触发子节点根因分析时,通常子节点是进行全量指标数据分析,这就存在两个问题:(1)未考虑父子节点指标之间的对应关系,父节点某些指标可能与子节点某些指标之间存在对应关系,当父节点这些指标异常时,应只需对子节点与之有对应关系的指标进行分析,而不是全量指标分析,造成资源浪费,影响结果精度;(2)只考虑了单一全量触发规则,在一些复杂场景需求情况下无法满足。
发明内容
针对现有技术中的问题,本发明实施例提供一种业务异常根因分析处理方法及装置,能够至少部分地解决现有技术中存在的问题。
一方面,本发明提出一种业务异常根因分析处理方法,包括:
获取关系矩阵;所述关系矩阵的行表示父节点路径集合,所述关系矩阵的列表示子节点路径集合,所述关系矩阵的矩阵元素表示对应位置的父节点路径与子节点路径之间的触发规则优先级;
根据预先建立的故障树对业务监控指标进行监控,并根据监控结果和所述关系矩阵确定待进行故障树搜索的目标子节点路径;
对所述目标子节点路径先后进行汇总和去重处理,并对保留下来的目标子节点路径进行故障树搜索,得到业务异常根因分析结果。
其中,所述获取关系矩阵,包括:
根据父节点数据聚簇结构、子节点数据聚簇结构和异常传播触发规则,生成所述关系矩阵;
其中,所述异常传播触发规则包括全量匹配、模糊匹配和精准匹配。
其中,所述根据父节点数据聚簇结构、子节点数据聚簇结构和异常传播触发规则,生成所述关系矩阵,包括:
根据所述父节点数据聚簇结构确定初始化关系矩阵的行,以及根据所述子节点数据聚簇结构确定初始化关系矩阵的列;所述初始化关系矩阵的矩阵元素初始值都为零;
根据与所述全量匹配相对应的第一触发规则优先级数值更新各矩阵元素初始值,得到完成全量匹配后的矩阵元素;
根据与所述模糊匹配相对应的第二触发规则优先级数值更新完成全量匹配后的矩阵元素,得到完成模糊匹配后的矩阵元素;
根据与所述精准匹配相对应的第三触发规则优先级数值更新完成精准匹配后的矩阵元素,将完成精准匹配后的矩阵元素作为所述关系矩阵的矩阵元素。
其中,所述模糊匹配为将父节点分析的结果按照层级对应关系一一对应地发送给子节点对应组件,未匹配到的组件不再进行算法分析。
其中,所述精准匹配为将父节点分析的结果按照唯一确定的对应关系发送给子节点唯一对应组件。
其中,所述根据监控结果和所述关系矩阵确定待进行故障树搜索的目标子节点路径,包括:
根据所述监控结果确定出现异常指标的目标父节点,根据所述目标父节点在所述关系矩阵中的目标行和所述关系矩阵的行列对应关系,以及触发规则优先级确定所述目标子节点路径。
其中,所述根据所述目标父节点在所述关系矩阵中的目标行和所述关系矩阵的行列对应关系,以及触发规则优先级确定所述目标子节点路径,包括:
根据所述目标行和所述行列对应关系确定目标列,并比较各目标列中的触发规则优先级数值,将触发规则优先级数值最大的目标列作为所述目标子节点路径。
一方面,本发明提出一种业务异常根因分析处理装置,包括:
获取单元,用于获取关系矩阵;所述关系矩阵的行表示父节点路径集合,所述关系矩阵的列表示子节点路径集合,所述关系矩阵的矩阵元素表示对应位置的父节点路径与子节点路径之间的触发规则优先级;
确定单元,用于根据预先建立的故障树对业务监控指标进行监控,并根据监控结果和所述关系矩阵确定待进行故障树搜索的目标子节点路径;
分析单元,用于对所述目标子节点路径先后进行汇总和去重处理,并对保留下来的目标子节点路径进行故障树搜索,得到业务异常根因分析结果。
再一方面,本发明实施例提供一种电子设备,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:
获取关系矩阵;所述关系矩阵的行表示父节点路径集合,所述关系矩阵的列表示子节点路径集合,所述关系矩阵的矩阵元素表示对应位置的父节点路径与子节点路径之间的触发规则优先级;
根据预先建立的故障树对业务监控指标进行监控,并根据监控结果和所述关系矩阵确定待进行故障树搜索的目标子节点路径;
对所述目标子节点路径先后进行汇总和去重处理,并对保留下来的目标子节点路径进行故障树搜索,得到业务异常根因分析结果。
本发明实施例提供一种非暂态计算机可读存储介质,包括:
所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如下方法:
获取关系矩阵;所述关系矩阵的行表示父节点路径集合,所述关系矩阵的列表示子节点路径集合,所述关系矩阵的矩阵元素表示对应位置的父节点路径与子节点路径之间的触发规则优先级;
根据预先建立的故障树对业务监控指标进行监控,并根据监控结果和所述关系矩阵确定待进行故障树搜索的目标子节点路径;
对所述目标子节点路径先后进行汇总和去重处理,并对保留下来的目标子节点路径进行故障树搜索,得到业务异常根因分析结果。
本发明实施例提供的业务异常根因分析处理方法及装置,获取关系矩阵;所述关系矩阵的行表示父节点路径集合,所述关系矩阵的列表示子节点路径集合,所述关系矩阵的矩阵元素表示对应位置的父节点路径与子节点路径之间的触发规则优先级;根据预先建立的故障树对业务监控指标进行监控,并根据监控结果和所述关系矩阵确定待进行故障树搜索的目标子节点路径;对所述目标子节点路径先后进行汇总和去重处理,并对保留下来的目标子节点路径进行故障树搜索,得到业务异常根因分析结果,能够提高排障树搜索效率,进而提高业务异常根因分析效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明一实施例提供的业务异常根因分析处理方法的流程示意图。
图2是本发明一实施例提供的排障树拓扑结构说明示意图。
图3是本发明一实施例提供的排障树节点组成形式说明示意图。
图4是本发明一实施例提供的全量匹配异常传播说明示意图。
图5是本发明一实施例提供的模糊匹配异常传播说明示意图。
图6是本发明一实施例提供的精准匹配异常传播说明示意图。
图7是本发明一实施例提供的关系矩阵生成说明示意图。
图8是本发明一实施例提供的业务异常根因分析处理装置的结构示意图。
图9为本发明实施例提供的电子设备实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1是本发明一实施例提供的业务异常根因分析处理方法的流程示意图,如图1所示,本发明实施例提供的业务异常根因分析处理方法,包括:
步骤S1:获取关系矩阵;所述关系矩阵的行表示父节点路径集合,所述关系矩阵的列表示子节点路径集合,所述关系矩阵的矩阵元素表示对应位置的父节点路径与子节点路径之间的触发规则优先级。
步骤S2:根据预先建立的故障树对业务监控指标进行监控,并根据监控结果和所述关系矩阵确定待进行故障树搜索的目标子节点路径。
步骤S3:对所述目标子节点路径先后进行汇总和去重处理,并对保留下来的目标子节点路径进行故障树搜索,得到业务异常根因分析结果。
在上述步骤S1中,装置获取关系矩阵;所述关系矩阵的行表示父节点路径集合,所述关系矩阵的列表示子节点路径集合,所述关系矩阵的矩阵元素表示对应位置的父节点路径与子节点路径之间的触发规则优先级。装置可以是执行该方法的计算机设备等,需要说明是,本发明实施例涉及的数据都是经用户授权的。
在上述步骤S2中,装置根据预先建立的故障树对业务监控指标进行监控,并根据监控结果和所述关系矩阵确定待进行故障树搜索的目标子节点路径。
在上述步骤S3中,装置对所述目标子节点路径先后进行汇总和去重处理,并对保留下来的目标子节点路径进行故障树搜索,得到业务异常根因分析结果。
先对故障树进行说明如下:
排障树是一种将运维知识、数据和算法相结合的一种树状结构,其核心目的是以一种故障因果传播的方式解释系统故障。如图2所示为根据微服务应用系统相关监控子系统而设计的一种排障树拓扑结构,它共包括7个节点,每一层次表示同一层次节点,其中汇总业务报文指标分析节点BIZ_MSG-KPI为流式异常检测节点,定时异常检测,其它节点为根因推理节点,依赖父节点触发执行,包括微服务报文指标分析节点MCRSV_MSG-KPI,微服务调用链指标分析节点MCRSV_TRC-MTRCS,微服务外联分区指标分析节点PRTTN_MCN-MTRCS,内存数据库指标分析节点KV_CACHE-MTRCS,关系数据库指标分析节点RDB-MTRCS,K8S容器机器指标分析节点K8S_CTNR-MTRCS。当BIZ_MSG-KPI节点检测出异常,根据箭头表示的触发关系进行根因搜索。业务监控指标可以具体包括报文响应率和报文成功率等。
排障树节点的定义由数据和算法构成,数据的组织性质关系到算法的分析效率。如图3所示为排障树RDB-MTRCS节点内部定义结构,RDB-MTRCS表示节点ID,Algorithm表示算法,Dataset表示数据聚簇结构。其中,数据聚簇结构表示算法所分析的批量数据,该批量数据仅服务于一个小场景,是一个相对合理的状态,聚簇结构的定义中,第一层代表要被算法分析的监控对象,如关系数据库,第二层代表了该监控对象包含的组件,如A、B和C前缀表示不同数据中心,A数据中心多个数据库实例(ADBA、ADBB实例),第三层代表了监控组件(数据库实例)的监控指标(如cpu、memory等指标)。
排障树边的定义,主要包括边ID,父节点ID、子节点ID和触发规则ID,父子节点之间的依赖关系表示父节点检测出异常后应该钻取后续哪些节点。排障树的定义,包括树的唯一ID和组成树的所有边,需要注意的是,列出的边要做形式检查,避免不符合树的要求。
对异常传播触发规则进行说明如下:
它定义的是父子两个节点之间异常传播策略,包括触发规则ID、规则类型和触发规则描述,触发规则描述包括两个字段:From正则表达式和To正则表达式,主要描述父节点哪些数据异常时选择孩子节点哪些数据继续做根因分析。触发规则分为三种:第一种是全量匹配;第二种是模糊匹配;第三种是精准匹配。
对全量匹配进行说明如下:
全量匹配就是无差别地将父节点异常指标和孩子节点所有组件构建对应关系,也就是说只要父节点检查出异常,其子节点全量指标分析。其json定义格式如下,name表示规则名,exact_match表示规则类型,false为模糊匹配(全量匹配本质上也为模糊匹配),true为精准匹配,rules为规则描述正则表达式,From字段的s1表示匹配父节点数据聚簇结构中的第一层,To字段的o1表示匹配子节点数据聚簇结构中的第一层,这种最粗粒度的匹配即为全量匹配。
例如:
如上排障树拓扑结构中,汇总业务报文指标分析节点BIZ_MSG-KPI和微服务报文指标分析节点MCRSV_MSG-KPI之间的语义依赖遵循全量匹配触发规则,两节点的组成形式和全量匹配异常传播如图4所示,父节点BIZ_MSG-KPI所分析的报文指标只要有一个检测异常,则其子节点MCRSV_MSG-KPI需要分析所有分区指标。图4中BIZ_MSG-KPI节点虚线线条和节点边框表示根据算法Algorithm1分析结果为MSG_1报文的业务成功率buz_succ和MSG_N报文的交易笔数transcount异常,按照全量异常传播规则full_match-fuzzy,MCRSV_MSG-KPI节点根据算法Algorithm2对全量业务分区指标进行分析。
对模糊匹配进行说明如下:
模糊匹配就是将父节点分析的结果按照模糊匹配规则一一对应地发送给子节点对应组件,未匹配到的组件不再进行算法分析。其json定义格式如下,在该json中,name表示规则名,exact_match表示规则类型,false为模糊匹配,true为精准匹配,rules为规则描述正则表达式,From字段的s1、s2、s3和s4表示匹配父节点数据聚簇结构中的第一层、第二层、第三层和第四层,To字段的o2和s3表示匹配子节点数据聚簇结构中的第一层和第二层,其中s3包含另外一层含义,即父节点数据聚簇结构的第三层与子节点数据聚簇结构的第二层在语义命名上保持一致。
例如:
如上排障树拓扑结构中,微服务调用链指标分析节点MCRSV_TRC-MTRCS和K8S容器机器指标分析节点K8S_CTNR-MTRCS之间的语义依赖遵循模糊匹配触发规则,两节点的组成形式和模糊匹配异常传播如图5,父节点MCRSV_TRC-MTRCS所分析调用链中container容器指标检测出异常后,则只需分析子节点K8S_CTNR-MTRCS中对应的container容器机器指标,而不是所有的容器。图5中MCRSV_TRC-MTRCS节点虚线线条和节点边框表示根据算法Algorithm1分析结果为容器1、2和5异常,按照模糊匹配异常传播规则s3_to_02-fuzzy,K8S_CTNR-MTRCS节点根据算法Algorithm2对容器1、2和5容器机器指标进行分析,其它容器在本次并不进行分析。
对精准匹配进行说明如下:
精准匹配就是将父节点分析的特定结果按照唯一匹配规则发送给子节点唯一对应组件。排障树拓扑结构中微服务报文指标分析节点MCRSV_MSG-KPI和微服务外联分区指标分析节点PRTTN_MCN-MTRCS之间的精准匹配规则,其json定义格式如下,在该json中,exact_match为true表示精准匹配,rules为规则描述正则表达式,在该规则描述中按分区地理信息对应关系分三组情况:第一组为A数据中心的AP分区对应该数据中心的外联分区,From字段的AAPA和AAPB表示父节点数据聚簇结构中的第二层分区名,To字段的AETPA和AETPB表示子节点数据聚簇结构中的第二层外联分区名;第二组为B数据中心的AP分区对应该数据中心的外联分区,From字段的BAPA和BAPB表示父节点数据聚簇结构中的第二层分区名,To字段的BETPA和BETPB表示子节点数据聚簇结构中的第二层外联分区名;第三组为C数据中心的AP分区对应该数据中心的外联分区,From字段的CAPA和CAPB表示父节点数据聚簇结构中的第二层分区名,To字段的CETPA和CETPB表示子节点数据聚簇结构中的第二层外联分区名。
例如:
微服务报文指标分析节点MCRSV_MSG-KPI和微服务外联分区指标分析节点PRTTN_MCN-MTRCS之间的语义依赖遵循精准匹配触发规则,两节点的组成形式和精准匹配异常传播如图6,父节点MCRSV_MSG-KPI所分析的分区业务指标检测异常后,则只需分析子节点PRTTN_MCN-MTRCS中对应的外联分区机器指标,而不是所有的外联分区。图中MCRSV_MSG-KPI节点红色线条和节点边框表示根据算法Algorithm1分析结果为AAPB分区异常,按照精准匹配异常传播规则MCRSV_to_PRTTN,PRTTN_MCN-MTRCS节点根据算法Algorithm2对A数据中心所有外联分区机器指标进行分析,B和C数据中心的外联分区在本次并不进行分析。
在一些复杂的排障树异常传播场景中,父节点和子节点之间单一的异常传播触发规则无法满足实际的语义依赖要求,此时就需要配置多种触发规则,而如何统一解析单规则和多规则两种情况成为问题。为解决该问题,我们设计了一种带优先级的关系矩阵解析策略,包括关系矩阵结构定义、关系矩阵生成和关系矩阵匹配。
对关系矩阵结构说明如下:
关系矩阵结构如图7所示,包括三部分:一是parent_path_i表示父节点数据聚簇结构中从根到叶子(指标层)的一条路径,如MCRSV_MSG-KPI节点数据聚簇结构路径MCRSV_MSG-KPI/AAPA/buz_succ,路径总条数等于父节点所监控指标数;二是child_path_j表示子节点数据聚簇结构中从根到非叶子(组件层)的一条路径,如PRTTN_MCN-MTRCS节点数据聚簇结构路径PRTTN_MCN-MTRCS/BETPA;三是矩阵取值,值越小对应触发规则优先级越低,1表示全量匹配,2表示模糊匹配,3表示精准匹配。
如图7所示,对关系矩阵生成说明如下:
排障树中父节点和子节点的关系矩阵的生成主要依赖两部分信息:一是数据聚簇结构;二是异常传播触发规则列表,该列表包含在排障树边的定义中,至少指定一个触发规则。当指定了多个触发规则时,采用稳定排序算法对规则列表按优先级从小到大排序,稳定排序算法可以保证多个相同优先级的规则解析顺序与指定顺序一致。初始关系矩阵为全0矩阵,下一个关系矩阵是在上一个关系矩阵的基础上进行更新,如图7所示,解析顺序:初始化→全量匹配→模糊匹配→精准匹配。
关系矩阵匹配指的是基于生成的关系矩阵,当排障树父节点检测出异常指标,每个指标在矩阵中对应父节点数据聚簇结构中的一条路径,筛选出子节点需要分析的部分组件,组件在矩阵中对应子节点数据聚簇结构中的路径集合。设关系矩阵为M,矩阵行索引为indexs={parent_path_1,parent_path_2,…,parent_path_m,},表示父节点数据聚簇结构中指标路径集合,矩阵列索引为cols={child_path_1,child_path_2,…,child_path_n},表示子节点数据聚簇结构中组件路径集合,则根据父节点与子节点的匹配规则,父节点指标路径parent_path_i出现异常时,对应子节点组件路径集合如下:
Sparent_path_i=argmax(Mparent_path_i) (1)
上式中Mparent_path_i表示关系矩阵M中行索引为parent_path_i数据,argmax表示获取该行数据中最大值的列索引集合,其中最大值可能有多个,
因此,当父节点检测出的异常指标路径集合为对所有父节点异常指标路径对应的子节点组件路径集合进行汇总和去重,最终得到子节点需要分析的组件路径集合为:
上式中Sparent_path_i表示父节点指标路径parent_path_i出现异常时对应子节点组件路径集合,∪表示对所有对应子节点组件路径集合进行汇总,distinct表示对集合进行去重。
示例:如图7所示,若父节点检测出的异常指标路径集合为indexsanomaly={parent_path_2,parent_path_3},则子节点需要分析的组件路径集合S计算步骤:
(1)计算parent_path_2对应子节点组件路径集合
a)在M矩阵中提取行索引为parent_path_2的数据Mparent_path_2,如表1所示:
表1
child_path_1 | child_path_2 | child_path_3 | child_path_4 | ... | child_path_n | |
parent_path_2 | 1 | 2 | 1 | 2 | … | 1 |
b)计算Mparent_path_2中最大值的列索引集合,即筛选出的组件路径集合
Sparent_path_2={child_path_2,child_path_4}
(2)计算parent_path_3对应子节点组件路径集合
a)在M矩阵中提取行索引为parent_path_3的数据Mparent_path_3,如表2所示:
表2
child_path_1 | child_path_2 | child_path_3 | child_path_4 | ... | child_path_n | |
parent_path_3 | 1 | 1 | 2 | 3 | … | 1 |
b)计算Mparent_path_3中最大值的列索引集合,即筛选出的组件路径集合
Sparent_path_3={child_path_4}
(3)计算子节点需要分析的组件路径集合
a)对所有对应子节点组件路径集合进行汇总
b)对汇总集合进行去重,child_path_4重复出现
S=distinct(C)
={child_path_2,child_path_4}
对实现上述功能的算法进行描述,如表3所示:
表3
为了能够提高排障树异常传播效率和准确率,本发明的核心思路是:(1)排障树组织形式定义,包括了数据聚簇结构定义、节点定义和边定义;(2)异常传播触发规则定义,设计三种触发规则,包括全量匹配、模糊匹配和精准匹配;(3)单规则和多规则解析,设计不同类型的触发规则具有不同的优先级,根据优先级和规则顺序进行解析。
本发明实施例提供的业务异常根因分析处理方法具有以下优点:
(1)提出一种排障树异常传播多种规则机制,设计了“全量匹配—模糊匹配—精准匹配”三种类型的触发规则,几乎涵盖异常传播所有情况,提高了排障树搜索效率和应用场景;
(2)提出一种带优先级的关系矩阵解析策略,该策略使得多种触发规则排列组合使用成为可能,同时支持对单规则和多规则组合的解析,提高排障树复杂应用场景下的适用性和灵活性。
本发明实施例提供的一种基于优先级多规则的排障树搜索方法,(1)设计了三种触发规则:第一种是全量匹配,也就是只要父节点有指标异常,则子节点全量指标算法分析,该规则适用于父子节点所分析指标不存在无语义依赖;第二种为模糊匹配,将父节点分析结果按照模糊匹配规则一一对应孩子节点指标,子节点只分析匹配的指标,未匹配的不再进行算法分析,该规则适用于父子节点所分析指标存在语义依赖,且指标命名可抽象成模糊匹配规则;第三种为精确匹配,将父节点分析结果按照定义的唯一匹配规则与孩子节点唯一对应,本质上来说,模糊匹配只是利用规则实现了批量的精确匹配。(2)支持配置多种类型规则,每种规则具有不同的优先级(精确匹配>模糊匹配>全量匹配),相同类型的匹配规则,按出现顺序确定优先级,解析时出现冲突时,按照高优先级覆盖低优先级原则。
本发明实施例提供的业务异常根因分析处理方法,获取关系矩阵;所述关系矩阵的行表示父节点路径集合,所述关系矩阵的列表示子节点路径集合,所述关系矩阵的矩阵元素表示对应位置的父节点路径与子节点路径之间的触发规则优先级;根据预先建立的故障树对业务监控指标进行监控,并根据监控结果和所述关系矩阵确定待进行故障树搜索的目标子节点路径;对所述目标子节点路径先后进行汇总和去重处理,并对保留下来的目标子节点路径进行故障树搜索,得到业务异常根因分析结果,能够提高排障树搜索效率,进而提高业务异常根因分析效率。
进一步地,所述获取关系矩阵,包括:
根据父节点数据聚簇结构、子节点数据聚簇结构和异常传播触发规则,生成所述关系矩阵;父节点数据聚簇结构和子节点数据聚簇结构可参照上述图3说明。异常传播触发规则可以参照上述对异常传播触发规则的说明。
其中,所述异常传播触发规则包括全量匹配、模糊匹配和精准匹配。
进一步地,所述根据父节点数据聚簇结构、子节点数据聚簇结构和异常传播触发规则,生成所述关系矩阵,包括:
根据所述父节点数据聚簇结构确定初始化关系矩阵的行,以及根据所述子节点数据聚簇结构确定初始化关系矩阵的列;所述初始化关系矩阵的矩阵元素初始值都为零;
根据与所述全量匹配相对应的第一触发规则优先级数值更新各矩阵元素初始值,得到完成全量匹配后的矩阵元素;
根据与所述模糊匹配相对应的第二触发规则优先级数值更新完成全量匹配后的矩阵元素,得到完成模糊匹配后的矩阵元素;
根据与所述精准匹配相对应的第三触发规则优先级数值更新完成精准匹配后的矩阵元素,将完成精准匹配后的矩阵元素作为所述关系矩阵的矩阵元素。可参照上述图7的说明。
进一步地,所述模糊匹配为将父节点分析的结果按照层级对应关系一一对应地发送给子节点对应组件,未匹配到的组件不再进行算法分析。可参照上述对模糊匹配的说明。
进一步地,所述精准匹配为将父节点分析的结果按照唯一确定的对应关系发送给子节点唯一对应组件。可参照上述对精准匹配的说明。
进一步地,所述根据监控结果和所述关系矩阵确定待进行故障树搜索的目标子节点路径,包括:
根据所述监控结果确定出现异常指标的目标父节点,根据所述目标父节点在所述关系矩阵中的目标行和所述关系矩阵的行列对应关系,以及触发规则优先级确定所述目标子节点路径。
进一步地,所述根据所述目标父节点在所述关系矩阵中的目标行和所述关系矩阵的行列对应关系,以及触发规则优先级确定所述目标子节点路径,包括:
根据所述目标行和所述行列对应关系确定目标列,并比较各目标列中的触发规则优先级数值,将触发规则优先级数值最大的目标列作为所述目标子节点路径。可参照上述图7、式(1)、式(2)和表1-表3的说明。
需要说明的是,本发明实施例提供的业务异常根因分析处理方法可用于金融领域,也可用于除金融领域之外的任意技术领域,本发明实施例对业务异常根因分析处理方法的应用领域不做限定。
图8是本发明一实施例提供的业务异常根因分析处理装置的结构示意图,如图8所示,本发明实施例提供的业务异常根因分析处理装置,包括获取单元801、确定单元802和分析单元803,其中:
获取单元801用于获取关系矩阵;所述关系矩阵的行表示父节点路径集合,所述关系矩阵的列表示子节点路径集合,所述关系矩阵的矩阵元素表示对应位置的父节点路径与子节点路径之间的触发规则优先级;确定单元802用于根据预先建立的故障树对业务监控指标进行监控,并根据监控结果和所述关系矩阵确定待进行故障树搜索的目标子节点路径;分析单元803用于对所述目标子节点路径先后进行汇总和去重处理,并对保留下来的目标子节点路径进行故障树搜索,得到业务异常根因分析结果。
具体的,装置中的获取单元801用于获取关系矩阵;所述关系矩阵的行表示父节点路径集合,所述关系矩阵的列表示子节点路径集合,所述关系矩阵的矩阵元素表示对应位置的父节点路径与子节点路径之间的触发规则优先级;确定单元802用于根据预先建立的故障树对业务监控指标进行监控,并根据监控结果和所述关系矩阵确定待进行故障树搜索的目标子节点路径;分析单元803用于对所述目标子节点路径先后进行汇总和去重处理,并对保留下来的目标子节点路径进行故障树搜索,得到业务异常根因分析结果。
本发明实施例提供的业务异常根因分析处理装置,获取关系矩阵;所述关系矩阵的行表示父节点路径集合,所述关系矩阵的列表示子节点路径集合,所述关系矩阵的矩阵元素表示对应位置的父节点路径与子节点路径之间的触发规则优先级;根据预先建立的故障树对业务监控指标进行监控,并根据监控结果和所述关系矩阵确定待进行故障树搜索的目标子节点路径;对所述目标子节点路径先后进行汇总和去重处理,并对保留下来的目标子节点路径进行故障树搜索,得到业务异常根因分析结果,能够提高排障树搜索效率,进而提高业务异常根因分析效率。
本发明实施例提供业务异常根因分析处理装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
图9为本发明实施例提供的电子设备实体结构示意图,如图9所示,所述电子设备包括:处理器(processor)901、存储器(memory)902和总线903;
其中,所述处理器901、存储器902通过总线903完成相互间的通信;
所述处理器901用于调用所述存储器902中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:
获取关系矩阵;所述关系矩阵的行表示父节点路径集合,所述关系矩阵的列表示子节点路径集合,所述关系矩阵的矩阵元素表示对应位置的父节点路径与子节点路径之间的触发规则优先级;
根据预先建立的故障树对业务监控指标进行监控,并根据监控结果和所述关系矩阵确定待进行故障树搜索的目标子节点路径;
对所述目标子节点路径先后进行汇总和去重处理,并对保留下来的目标子节点路径进行故障树搜索,得到业务异常根因分析结果。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:
获取关系矩阵;所述关系矩阵的行表示父节点路径集合,所述关系矩阵的列表示子节点路径集合,所述关系矩阵的矩阵元素表示对应位置的父节点路径与子节点路径之间的触发规则优先级;
根据预先建立的故障树对业务监控指标进行监控,并根据监控结果和所述关系矩阵确定待进行故障树搜索的目标子节点路径;
对所述目标子节点路径先后进行汇总和去重处理,并对保留下来的目标子节点路径进行故障树搜索,得到业务异常根因分析结果。
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述各方法实施例所提供的方法,例如包括:
获取关系矩阵;所述关系矩阵的行表示父节点路径集合,所述关系矩阵的列表示子节点路径集合,所述关系矩阵的矩阵元素表示对应位置的父节点路径与子节点路径之间的触发规则优先级;
根据预先建立的故障树对业务监控指标进行监控,并根据监控结果和所述关系矩阵确定待进行故障树搜索的目标子节点路径;
对所述目标子节点路径先后进行汇总和去重处理,并对保留下来的目标子节点路径进行故障树搜索,得到业务异常根因分析结果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种业务异常根因分析处理方法,其特征在于,包括:
获取关系矩阵;所述关系矩阵的行表示父节点路径集合,所述关系矩阵的列表示子节点路径集合,所述关系矩阵的矩阵元素表示对应位置的父节点路径与子节点路径之间的触发规则优先级;
根据预先建立的故障树对业务监控指标进行监控,并根据监控结果和所述关系矩阵确定待进行故障树搜索的目标子节点路径;
对所述目标子节点路径先后进行汇总和去重处理,并对保留下来的目标子节点路径进行故障树搜索,得到业务异常根因分析结果。
2.根据权利要求1所述的业务异常根因分析处理方法,其特征在于,所述获取关系矩阵,包括:
根据父节点数据聚簇结构、子节点数据聚簇结构和异常传播触发规则,生成所述关系矩阵;
其中,所述异常传播触发规则包括全量匹配、模糊匹配和精准匹配。
3.根据权利要求2所述的业务异常根因分析处理方法,其特征在于,所述根据父节点数据聚簇结构、子节点数据聚簇结构和异常传播触发规则,生成所述关系矩阵,包括:
根据所述父节点数据聚簇结构确定初始化关系矩阵的行,以及根据所述子节点数据聚簇结构确定初始化关系矩阵的列;所述初始化关系矩阵的矩阵元素初始值都为零;
根据与所述全量匹配相对应的第一触发规则优先级数值更新各矩阵元素初始值,得到完成全量匹配后的矩阵元素;
根据与所述模糊匹配相对应的第二触发规则优先级数值更新完成全量匹配后的矩阵元素,得到完成模糊匹配后的矩阵元素;
根据与所述精准匹配相对应的第三触发规则优先级数值更新完成精准匹配后的矩阵元素,将完成精准匹配后的矩阵元素作为所述关系矩阵的矩阵元素。
4.根据权利要求2所述的业务异常根因分析处理方法,其特征在于,所述模糊匹配为将父节点分析的结果按照层级对应关系一一对应地发送给子节点对应组件,未匹配到的组件不再进行算法分析。
5.根据权利要求2所述的业务异常根因分析处理方法,其特征在于,所述精准匹配为将父节点分析的结果按照唯一确定的对应关系发送给子节点唯一对应组件。
6.根据权利要求1至5任一所述的业务异常根因分析处理方法,其特征在于,所述根据监控结果和所述关系矩阵确定待进行故障树搜索的目标子节点路径,包括:
根据所述监控结果确定出现异常指标的目标父节点,根据所述目标父节点在所述关系矩阵中的目标行和所述关系矩阵的行列对应关系,以及触发规则优先级确定所述目标子节点路径。
7.根据权利要求6所述的业务异常根因分析处理方法,其特征在于,所述根据所述目标父节点在所述关系矩阵中的目标行和所述关系矩阵的行列对应关系,以及触发规则优先级确定所述目标子节点路径,包括:
根据所述目标行和所述行列对应关系确定目标列,并比较各目标列中的触发规则优先级数值,将触发规则优先级数值最大的目标列作为所述目标子节点路径。
8.一种业务异常根因分析处理装置,其特征在于,包括:
获取单元,用于获取关系矩阵;所述关系矩阵的行表示父节点路径集合,所述关系矩阵的列表示子节点路径集合,所述关系矩阵的矩阵元素表示对应位置的父节点路径与子节点路径之间的触发规则优先级;
确定单元,用于根据预先建立的故障树对业务监控指标进行监控,并根据监控结果和所述关系矩阵确定待进行故障树搜索的目标子节点路径;
分析单元,用于对所述目标子节点路径先后进行汇总和去重处理,并对保留下来的目标子节点路径进行故障树搜索,得到业务异常根因分析结果。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311648792.9A CN117614806A (zh) | 2023-12-04 | 2023-12-04 | 一种业务异常根因分析处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311648792.9A CN117614806A (zh) | 2023-12-04 | 2023-12-04 | 一种业务异常根因分析处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117614806A true CN117614806A (zh) | 2024-02-27 |
Family
ID=89956074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311648792.9A Pending CN117614806A (zh) | 2023-12-04 | 2023-12-04 | 一种业务异常根因分析处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117614806A (zh) |
-
2023
- 2023-12-04 CN CN202311648792.9A patent/CN117614806A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10452625B2 (en) | Data lineage analysis | |
CN109522192B (zh) | 一种基于知识图谱和复杂网络组合的预测方法 | |
US8943059B2 (en) | Systems and methods for merging source records in accordance with survivorship rules | |
CN112711591B (zh) | 基于知识图谱的字段级的数据血缘确定方法及装置 | |
US9710751B2 (en) | Parallel tree based prediction | |
CN101606149B (zh) | 用于数据的分类过滤的方法 | |
EP3418910A1 (en) | Big data-based method and device for calculating relationship between development objects | |
US11354567B2 (en) | Systems and methods for classifying data sets using corresponding neural networks | |
US20170364590A1 (en) | Detecting Important Variables and Their Interactions in Big Data | |
CN105550225A (zh) | 索引构建方法、查询方法及装置 | |
CN110019384A (zh) | 一种血缘数据的获取方法、提供血缘数据的方法及装置 | |
CN107832446B (zh) | 一种配置项信息的搜索方法及计算设备 | |
CN109285024B (zh) | 在线特征确定方法、装置、电子设备及存储介质 | |
WO2013187816A1 (en) | Method and a consistency checker for finding data inconsistencies in a data repository | |
US20150317318A1 (en) | Data store query prediction | |
US11797487B2 (en) | Maintaining stable record identifiers in the presence of updated data records | |
US9727666B2 (en) | Data store query | |
CN110765100B (zh) | 标签的生成方法、装置、计算机可读存储介质及服务器 | |
CN117155772A (zh) | 一种告警信息丰富方法、装置、设备及存储介质 | |
US20200364725A1 (en) | Regulatory category assignment via machine learning | |
CN110888888A (zh) | 人员关系分析方法、装置、电子设备及存储介质 | |
CN117614806A (zh) | 一种业务异常根因分析处理方法及装置 | |
CN116955469A (zh) | 一种基于血缘分析的业务告警溯源方法 | |
CN115130043A (zh) | 基于数据库的数据处理方法、装置、设备及存储介质 | |
CN114706893A (zh) | 故障检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |