CN117692300A - 一种故障根因定位方法、装置、电子设备及存储介质 - Google Patents
一种故障根因定位方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117692300A CN117692300A CN202211011790.4A CN202211011790A CN117692300A CN 117692300 A CN117692300 A CN 117692300A CN 202211011790 A CN202211011790 A CN 202211011790A CN 117692300 A CN117692300 A CN 117692300A
- Authority
- CN
- China
- Prior art keywords
- parameter
- node
- fault
- parameter set
- root
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 230000001364 causal effect Effects 0.000 claims abstract description 78
- 238000002347 injection Methods 0.000 claims abstract description 13
- 239000007924 injection Substances 0.000 claims abstract description 13
- 230000007704 transition Effects 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 12
- 230000004807 localization Effects 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 11
- 230000008878 coupling Effects 0.000 description 8
- 238000010168 coupling process Methods 0.000 description 8
- 238000005859 coupling reaction Methods 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 8
- 238000012423 maintenance Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000012512 characterization method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 239000000243 solution Substances 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000011664 signaling Effects 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000275 quality assurance Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Landscapes
- Test And Diagnosis Of Digital Computers (AREA)
Abstract
本申请实施例公开了一种故障根因定位方法、装置、电子设备及存储介质,其中,该方法包括:获取网络故障数据集和基于知识注入的故障知识图谱;根据网络故障数据集,得到故障知识图谱中各个节点的第一状态信息;根据第一状态信息,通过网络故障因果关系确定模型得到故障知识图谱中各个叶子节点的根因概率;基于各个叶子节点的根因概率对故障知识图谱进行路径搜索,得到至少一条根因路径。本申请实施例有利于提升电信网络中故障根因定位的精度。
Description
技术领域
本申请涉及网络安全技术领域,尤其涉及一种故障根因定位方法、装置、电子设备及存储介质。
背景技术
在电信领域,每年会产生大量的问题单,而这其中有相当一部分属于故障类问题,为保证系统网络的正常运行,运维人员需要及时确定出故障的根因,以便于做出针对性处理,基于该业务需求,故障根因定位吸引了越来越多研究者的关注。
目前,故障根因定位的主要工具是故障树,但现阶段故障树的构建相对简单,且根因推理基本是依靠纯数据,导致在某些复杂场景下,比如:多根因场景、复杂逻辑组合判别场景、复杂因果关系表达场景,故障根因定位的精度较低。
发明内容
本申请实施例提供了一种故障根因定位方法、装置、电子设备及存储介质,有利于提升电信网络中故障根因定位的精度。
第一方面,本申请实施例提供一种故障根因定位方法,应用于电子设备,该方法包括:
获取网络故障数据集和基于知识注入的故障知识图谱;
根据网络故障数据集,得到故障知识图谱中各个节点的第一状态信息;
根据第一状态信息,通过网络故障因果关系确定模型得到故障知识图谱中各个叶子节点的根因概率;
基于各个叶子节点的根因概率对故障知识图谱进行路径搜索,得到至少一条根因路径。
本方案中,网络故障数据集是对原始网络故障数据集进行预处理后得到的数据集。第一状态信息是指利用待判断的网络故障数据集中的参数计算得到的故障知识图谱中各个节点的状态信息。故障知识图谱在构建过程中注入了通信协议、产品机理、专家经验等知识,电子设备基于网络故障数据集和故障知识图谱可计算出故障知识图谱中各个节点的第一状态信息,该第一状态信息可表征网络故障数据集中的参数是否命中故障知识图谱中对应节点所描述的故障,这样在故障根因定位中实现了数据与知识的耦合,采用数据与知识进行推理,能够使知识得到充分表达,从而提升故障根因定位的精度。另外,网络故障因果关系确定模型对故障知识图谱中节点之间的因果关系进行了定量描述,这样在计算故障知识图谱中各个叶子节点的根因概率时引入了因果关系,在图推理中有利于提升根因概率的准确度,从而能够提升路径搜索的准确性,进而能够提升故障根因定位的精度。
在一种可能的实现方式中,各个节点存在对应的判断逻辑和待判断的至少一个参数组,判断逻辑用于判断至少一个参数组是否命中各个节点所描述的故障,判断逻辑包括至少一个参数组中每个参数的数据源、参数名称、逻辑关系和至少一个表达式,至少一个表达式与至少一个参数组一一对应;
根据网络故障数据集,得到故障知识图谱中各节点的第一状态信息,包括:
对于至少一个参数组中的每个参数组,根据每个参数组中每个参数的数据源和参数名称,从网络故障数据集中获取每个参数组中每个参数的参数值;
根据至少一个参数组中的每个参数组中每个参数的逻辑关系、参数值和每个参数组对应的表达式,得到至少一个参数组的运算结果;
将至少一个参数组的运算结果,确定为至少一个参数组对应的节点的第一状态信息。
在本实现方式中,各个节点的属性包括节点的判断逻辑,电子设备可从判断逻辑中读取到各个节点对应的至少一个参数组中每个参数的数据源、参数名称、逻辑关系,以及判断逻辑中基于专家经验预设的至少一个表达式。电子设备基于每个参数组中每个参数的数据源、参数名称,从网络故障数据集中获取每个参数组中每个参数的参数值,基于该每个参数的逻辑关系、参数值和每个参数组对应的表达式进行运算,得到每个参数组的运算结果,将每个节点对应的至少一个运算结果作为该节点的第一状态信息,这样利用节点属性中的经验知识和网络故障数据集中的数据计算状态信息,实现了数据与知识的耦合。
在一种可能的实现方式中,判断逻辑还包括至少一个参数组中每个参数的参考值,根据至少一个参数组中的每个参数组中每个参数的逻辑关系、参数值和每个参数组对应的表达式,得到至少一个参数组的运算结果,包括:
基于每个参数组中每个参数的逻辑关系确定出每个参数组中待进行条件判断的第一参数和/或待取值运算的第二参数;
判断第一参数的参数值与参考值之间的关系是否符合第一预设逻辑条件,得到第一参数的条件判断结果;和/或,基于第二参数的参数值和每个参数组对应的表达式,得到第二参数的取值运算结果;
基于条件判断结果和/或取值运算结果,以及每个参数组对应的表达式,得到每个参数组的运算结果。
在本实现方式中,每个参数的逻辑关系用于指示该参数的用法,比如:是对该参数进行条件判断,还是进行取值运算。一个表达式中可以只包括条件判断,也可以只包括取值运算,还可以同时包括条件判断和取值运算。对于第一参数,电子设备判断其参数值与参考值之间的关系是否符合第一预设逻辑条件,比如:数据库中预先存储了“参数1的参数值与参考值之间为包含关系”这一预设逻辑条件,则电子设备需要判断参数1的参数值与参考值之间的关系是否符合该逻辑条件,若符合则条件判断结果为真,否则为假;和/或,对于第二参数,若其所在的参数组对应的表达式中包括“参数1-参数2”这一子表达式,则电子设备采用参数1的参数值和参数2的参数值计算得到对应的取值运算结果。根据每个参数组对应的表达式,电子设备可以基于条件判断结果和/或取值运算结果,得到每个参数组的运算结果,该运算结果可用于表征对应节点的数学状态,同时也能够表征参数组是否命中节点所描述的故障,比如:运算结果为0,表示未命中节点所描述的故障,节点的数学状态可描述为数值0的离散变量。
在一种可能的实现方式中,该方法还包括:
对于故障知识图谱中的每个节点执行如下操作:
基于节点A对应的至少一个参数组的运算结果,得到节点A对应的至少一个参数组中参数组命中节点A所描述的故障的个数和节点A的置信度;
对于节点A对应的至少一个参数组中命中节点A所描述的故障的至少一个目标参数组,基于至少一个目标参数组中的每个目标参数组对应的条件判断结果和/或取值运算结果,确定每个目标参数组中的参数符合的第二预设逻辑条件,并获取每个目标参数组中符合第二预设逻辑条件的参数在日志中的原始数据;
输出节点A对应的至少一个参数组中参数组命中节点A所描述的故障的个数、置信度、第二预设逻辑条件及原始数据。
在本实现方式中,若节点A对应有5个参数组,基于对应的5个运算结果,电子设备可以统计出命中节点A所描述的故障的参数组的个数,比如:3个,同时,电子设备基于命中节点A所描述的故障的参数组的个数计算得到节点A的置信度,比如:置信度=(命中个数/总个数)。另外,若目标参数组中只包括第一参数,则第二预设逻辑条件即为第一预设逻辑条件;若目标参数组中只包括第二参数,则第二预设逻辑条件即为第二参数符合的逻辑条件,比如:数据库中预先存储了“参数1-参数2>0”这一预设逻辑条件,若参数1的参数值减参数2的参数值大于0,则“参数1-参数2>0”即为第二预设逻辑条件;若目标参数组中包括第一参数和第二参数,则第二预设逻辑条件包括第一预设逻辑条件和/或第二参数符合的逻辑条件。对于符合第二预设逻辑条件的参数,电子设备需要确定该参数在数据库中存储的日志中的原始数据,比如:该参数的数据源、参数名称、参数值等原始数据,将节点A的对应的至少一个参数组命中节点A所描述的故障的个数、节点A的置信度、所有第二预设逻辑条件及参数原始数据加入根因定位过程文件,输出该文件有利于运维工程师了解根因定位的推理过程,提升了故障根因定位的可解释性。
在一种可能的实现方式中,该方法还包括:
根据第一状态信息,通过网络故障因果关系确定模型得到故障知识图谱中存在因果关系的父节点与子节点之间的转移概率;
基于各个叶子节点的根因概率对故障知识图谱进行路径搜索,得到至少一条根因路径,包括:
从各个叶子节点中确定出根因概率大于或等于预设阈值的至少一个目标叶子节点;
从故障知识图谱中确定出以至少一个目标叶子节点为根因节点的多条候选根因路径;
基于多条候选根因路径中每条候选根因路径上的转移概率,从多条候选根因路径中确定出至少一条根因路径。
在本实现方式中,电子设备以第一状态信息为输入,通过网络故障因果关系确定模型得到故障知识图谱中存在因果关系的父节点与子节点之间的转移概率,有利于后续进行路径搜索。电子设备从各个叶子节点中确定出根因概率较大的至少一个目标叶子节点,将以该至少一个目标叶子节点为根因节点的多条传播链作为候选根因路径,然后利用每条候选根因路径上的转移概率对多条候选根因路径进行排序,以选取出排序后的前K条候选根因路径,将该K条候选根因路径作为最终确定出的至少一条根因路径,这样结合根因概率和转移概率进行路径搜索,有利于提升故障根因定位的精度。
在一种可能的实现方式中,该方法还包括:
输出至少一条根因路径、至少一条根因路径中每条根因路径的根因节点及每条根因路径的根因节点的根因概率。
在本实现方式中,电子设备可将至少一条根因路径、至少一条根因路径中每条根因路径的根因节点及每条根因路径的根因节点的根因概率加入根因定位结果文件,输出该文件有利于运维工程师了解故障的传播链,提升了故障根因定位的可解释性。
在一种可能的实现方式中,在获取经过预处理的网络故障数据集和预先构建的基于知识注入的故障知识图谱之前,该方法还包括:
获取历史网络故障数据集和故障知识图谱;
根据历史网络故障数据集,得到故障知识图谱中各个节点的第二状态信息;
基于第二状态信息确定故障知识图谱中存在因果关系的父节点与子节点之间的因果关系定量表示,以得到网络故障因果关系确定模型。
在本实现方式中,历史网络故障数据集是对原始历史网络故障数据集进行预处理后得到的数据集。第二状态信息是指利用历史网络故障数据集中的参数计算得到的故障知识图谱中各个节点的状态信息。电子设备基于历史网络故障数据集和故障知识图谱可计算出故障知识图谱中各个节点的第二状态信息,采用第二状态信息计算故障知识图谱中存在因果关系的父节点与子节点之间的转移概率,将故障知识图谱中存在因果关系的父节点与子节点之间的因果关系以表格、数学公式等进行定量描述,从而得到网络故障因果关系确定模型,进而有利于后续通过该网络故障因果关系确定模型进行根因定位和推理。
第二方面,本申请实施例提供了一种故障根因定位装置,应用于电子设备,该装置包括获取单元和处理单元;
获取单元,用于获取网络故障数据集和基于知识注入的故障知识图谱;
处理单元,用于根据网络故障数据集,得到故障知识图谱中各个节点的第一状态信息;根据第一状态信息,通过网络故障因果关系确定模型得到故障知识图谱中各个叶子节点的根因概率;基于各个叶子节点的根因概率对故障知识图谱进行路径搜索,得到至少一条根因路径。
需要说明的是,第二方面是上述第一方面对应的装置,用于实现第一方面提供的各种方法步骤,具体的实现细节以及有益效果请参见上述第一方面。
第三方面,本申请实施例提供了一种电子设备,包括处理器、存储器,以及一个或多个程序,处理器与存储器相连,一个或多个程序被存储在存储器中,并且被配置为由处理器执行时实现上述第一方面中的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有用于设备执行的计算机程序,计算机程序被执行时实现上述第一方面中的方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品被电子设备运行,使得电子设备执行上述第一方面中的方法。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1为一种相关技术提出的故障根因诊断方法的流程示意图;
图2为本申请实施例提供的一种应用环境的架构图;
图3为本申请实施例提供的一种计算服务器的各功能模块的框架图;
图4为本申请实施例提供的一种网络故障因果关系确定模型的示意图;
图5为本申请实施例提供的一种故障根因定位方法的流程示意图;
图6为本申请实施例提供的一种故障知识图谱中节点的判断属性的示意图;
图7为本申请实施例提供的另一种故障根因定位方法的流程示意图;
图8为本申请实施例提供的一种根因定位过程文件的示意图;
图9为本申请实施例提供的一种根因定位结果文件的示意图;
图10为本申请实施例提供的一种故障根因定位装置的结构示意图;
图11为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
在本说明书中使用的术语“部件”、“模块”、“系统”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。例如,部件可以是但不限于,在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或计算机。通过图示,在终端设备上运行的应用和终端设备都可以是部件。一个或多个部件可驻留在进程和/或执行线程中,部件可位于一个计算机上和/或分布在2个或更多个计算机之间。此外,这些部件可从在上面存储有各种数据结构的各种计算机可读介质执行。部件可例如根据具有一个或多个数据分组(例如来自与本地系统、分布式系统和/或网络间的另一部件交互的二个部件的数据,例如通过信号与其它系统交互的互联网)的信号通过本地和/或远程进程来通信。
首先,对本申请中的相关用语进行解释说明,以便于本领域技术人员理解。
(1)根因(Root cause):导致问题或故障的根本原因。
(2)后验概率(Posterior probability):一个随机事件或者一个不确定事件的后验概率是在考虑和给出相关证据或数据后所得到的条件概率。
(3)父节点(Parent node):一棵树中连接两个上下级关系节点的上层节点。
(4)子节点(Children node):一棵树中连接两个上下级关系节点的下层节点。
(5)叶子结点(Leaf node):一棵树中没有子节点的节点。
(6)概率图(Probabilistic graph model):即概率图模型,是用图来表示变量概率依赖关系的理论,结合概率论与图论的知识,利用图来表示与模型有关的变量的联合概率分布。
(7)概率图推理算法(Probability graph model inference algorithm):概率图推理算法是在概率图模型中用于推断的信息传递算法。
为了便于理解本申请实施例,进一步分析并提出本申请所具体要解决的技术问题,下面对本申请的相关技术方案进行简要介绍。
请参见图1,图1为一种相关技术提出的故障根因诊断方法的流程示意图,如图1所示,该方法主要公开了以下步骤:
首先,基于系统正常状态下的历史数据构建故障知识图谱;
其次,计算故障数据集中各变量间的皮尔逊相关系数作为判别系数;
接着,在知识图谱中,通过数据间的相关系数寻找对应的故障症状和故障原因候选集;
然后,在故障原因候选集中,用贝叶斯定理推断故障根因;
最后,输出根因诊断结果。
应理解,在电信领域中,由于用户接入网络业务的不确定性,数据通常缺失值多、随机性强,质量难以保证,相关技术中仅采用历史数据构建故障知识图谱,一定程度上会使得故障知识图谱不够精确和完善,从而导致使用该故障知识图谱进行根因定位的准确率较低。同时,相关技术通过计算皮尔逊相关系数来寻找图谱中对应的故障症状和故障原因候选集,但皮尔逊相关系数仅能描述数据之间的关联性,无法识别数据之间的因果性,因果性指的是某一变量导致另一变量发生,而相关性指的是某一变量变化时,另一变量也随之变化,两者存在本质区别。可见,使用皮尔逊相关系数来诊断根因,使得该技术将数据间的相关性误识别为因果性,同样会导致根因定位的准确率低。另外,电信领域目前虽然积累了众多故障树和故障节点,但是在故障树的构建过程中,基于专家经验、通信协议和产品机理的大量复杂知识被简化,节点判别方式相对简单,根因定位时,大量经验知识没有与数据有效结合,根因推理依靠纯数据或纯知识。数据与知识之间的低耦合性,以及故障之间因果关系缺乏有效衡量,也是导致根因定位准确度低的重要原因。
基于现有技术的缺陷和不足,本申请实施例提出一种故障根因定位方法,该故障根因定位方法可基于图2所示的应用环境实施,如图2所示,该应用环境中主要包括运营支持系统(Operation support system,OSS)、存储服务器、计算服务器和用户。
用户(比如:运维工程师、数据分析师等)可对OSS系统的电信领域数据进行采集并处理成各种类型的日志格式(比如:一键式日志、信令日志等)后上传至存储服务器。应理解,电信领域中网络故障定位时涉及的数据类型繁多,从时间维度来说,包括秒/毫米级采集的数据(比如:信令、通信历史报告(Communication History Report,CHR))、小时级采集的数据(比如:话务统计、关键性能指标(Key Performance Indicator,KPI)等);从空间维度来说,包括设备级数据(比如:设备配置、操作、告警、故障排除日志等)、用户级数据(信令、CHR等)。以上数据包括连续分布(比如:正态分布、伽马分布)、离散分布(比如:二项分布、泊松分布)等多种数据类型,因此,存储服务器中存储的上述数据集为异构数据集。由于该数据集还涉及不同时间维度、空间维度,数据粒度也各有差异,还可称之为多时空维度、多粗细粒度异构数据集。
存储服务器,用于接收用户上传的各种网络数据集,并存储有预先构建的故障知识图谱。故障知识图谱以“节点-边-节点”三元组为基本单位构成,其中,每个节点代表网络中的一个故障,连接两个节点的边表示两个节点对应的故障间的因果关系,示例性的,该故障知识图谱可以以故障树的形式呈现。
计算服务器,用于执行数据分析、模型训练、根因定位等任务,示例性的,如图3所示,计算服务器可包括知识与数据结合的故障图谱概率化框架和基于概率图的可解释根因定位框架。知识与数据结合的故障图谱概率化框架用于将故障知识图谱中的因果关系概率化,以构建网络故障因果关系确定模型,其包括第一预处理模块、第一节点状态表征模块和图模型训练模块。其中,第一预处理模块,用于从存储服务器的数据库中读取原始历史网络故障数据集和故障知识图谱,对原始历史网络故障数据集进行数据清洗等预处理操作,以将原始历史网络故障数据集处理为一定格式的历史网络故障数据集,比如:可处理为与故障知识图谱中每个节点对应的至少一个历史参数组。其中,第一节点状态表征模块,用于根据该历史故障网络数据集,得到故障知识图谱中各个节点的状态信息,该状态信息可用于表征故障知识图谱中每个节点所对应的至少一个历史参数组是否命中该节点所描述的故障。图模型训练模块,用于利用第一节点状态表征模块输出的每个节点的状态信息集,确定故障知识图谱中存在因果关系的父节点与子节点之间的转移概率,将故障知识图谱中存在因果关系的父节点与子节点之间的因果关系以表格、数学公式等进行定量描述,以构建如图4所示的概率图模型,该概率图模型即可作为网络故障因果关系确定模型。示例性的,请参见图4,存在因果关系的节点组1中父节点与子节点之间的因果关系可采用表格表示(表格中X、Y表示状态信息为0或1的离散变量,以X、Y的状态信息为输入,便可通过该表格确定X、Y对应的父节点与子节点之间的转移概率,比如:70%、30%等)、节点组2中父节点与子节点之间的因果关系可采用计算转移概率的公式一表示、节点组3中父节点与子节点之间的因果关系可采用计算转移概率的公式二表示,等等,本申请实施例对计算转移概率的公式不作限定。可选的,网络故障因果关系确定模型可部署于计算服务器中。基于概率图的可解释根因定位框架用于执行故障根因定位任务,其包括第二预处理模块、第二节点状态表征模块、根因定位模块和路径搜索模块。其中,第二预处理模块,用于从存储服务器读取的数据库中读取待进行根因定位的原始网络故障数据集(以日志的格式存储在存储服务器)和故障知识图谱,对原始网络故障数据集进行数据清洗,以将原始网络故障数据集处理为一定格式的网络故障数据集,比如:可处理为与故障知识图谱中每个节点对应的至少一个参数组。其中,第二节点状态表征模块,用于根据网络故障数据集,得到故障知识图谱中各个节点的状态信息,该状态信息可用于表征故障知识图谱中每个节点所对应的至少一个参数组是否命中该节点所描述的故障。其中,根因定位模块,用于以第二节点状态表征模块输出的状态信息为输入,通过网络故障因果关系确定模型进行故障根因定位,计算故障知识图谱中各个叶子节点为根因节点的根因概率。其中,路径搜索模块,用于基于各个叶子节点的根因概率对故障知识图谱进行路径搜索,得到至少一条根因路径。可选的,根因定位模块,还用于以第二节点状态表征模块输出的状态信息为输入,通过网络故障因果关系确定模型进行推理,以确定故障知识图谱中存在因果关系的父节点与子节点之间的转移概率。路径搜索模块,还用于基于各个叶子节点的根因概率和故障知识图谱中各个传播链上的转移概率进行路径搜索,得到至少一条根因路径。可选的,路径搜索模块,还用于输出根因定位过程文件和根因定位结果文件,该根因定位过程文件中包括第二节点状态表征模块的判别过程和命中节点所描述的故障的参数原始数据,该根因定位结果文件中包括路径搜索得到的至少一条根因路径、至少一条根因路径中每条根因路径的根因节点及每条根因路径的根因节点的根因概率等。
以下结合附图对本申请实施例提供的故障根因定位方法、装置、电子设备及存储介质进行详细描述。
请参见图5,图5为本申请实施例提供的一种故障根因定位方法的流程示意图,该方法可应用于图2所示的场景中,具体可由电子设备执行(比如:该电子设备可以是计算服务器),如图5所示,该方法可以包括步骤501-504:
501:获取网络故障数据集和基于知识注入的故障知识图谱。
本申请实施例中,电子设备从存储服务器的数据库中读取日志中的原始网络故障数据集和故障知识图谱,其中,故障知识图谱在构建过程中注入了通信协议、产品机理、专家经验等知识,故障知识图谱中的各个节点的属性包括节点名称、节点类型和节点对应的判断逻辑,节点名称即节点所描述的故障的名称,比如:“上下文建立失败”、“安全模式设置失败”等,节点类型即节点所属的变量类型,比如:离散变量、连续变量等,判断逻辑包括与节点对应的待判断的参数、参数总数量、参数名称、参数的数据源、参数的逻辑关系和至少一个表达式,比如:一个表达式可以是:{{参数1&&参数2}||{参数3}||{参数4}},该表达式用于判断参数1、参数2、参数3、参数4构成的参数组是否命中对应节点所描述的故障。可选的,电子设备基于故障知识图谱中各个节点的判断逻辑中的至少一个表达式,将原始网络故障数据集中的参数处理为与至少一个表达式一一对应的至少一个参数组。比如:表达式1用于判断参数1、参数2、参数3,则其对应的参数组由参数1、参数2、参数3构成;表达式2用于判断参数a、参数b、参数c、参数d,则其对应的参数组由参数a、参数b、参数c、参数d构成。
502:根据网络故障数据集,得到故障知识图谱中各个节点的第一状态信息。
本申请实施例中,第一状态信息是指利用待判断的网络故障数据集中的参数计算得到的故障知识图谱中各个节点的状态信息。第一状态信息可表征网络故障数据集中的参数是否命中故障知识图谱中对应节点所描述的故障。
示例性的,根据网络故障数据集,得到故障知识图谱中各节点的第一状态信息,包括:
对于至少一个参数组中的每个参数组,根据每个参数组中每个参数的数据源和参数名称,从网络故障数据集中获取每个参数组中每个参数的参数值;
根据至少一个参数组中的每个参数组中每个参数的逻辑关系、参数值和每个参数组对应的表达式,得到至少一个参数组的运算结果;
将至少一个参数组的运算结果,确定为至少一个参数组对应的节点的第一状态信息。
具体的,如图6所示,故障知识图谱中节点A的判断逻辑包括的参数总数量为4,即参数1、参数2、参数3、参数4,其中,4个参数的属性如下:
参数1:
数据源:第四代移动通信技术(the 4th generation mobile communicationtechnology,4G)配置;
参数名称:频点配置1;
逻辑关系:不存在(NotExist);
参考值:空(null);
参数2:
数据源:4G配置;
参数名称:频点配置2;
逻辑关系:不存在(NotExist);
参考值:空(null);
参数3:
数据源:4G配置;
参数名称:频点配置3;
逻辑关系:不包括(NotIncludedIn);
参考值:XXX1;
参数4:
数据源:4G配置;
参数名称:频点配置4;
逻辑关系:不包括(NotIncludedIn);
参考值:XXXXX2;
根据图6中的表达式,参数1、参数2、参数3、参数4即为一个参数组,电子设备采用该参数组中每个参数的数据源和参数名称去网络故障数据集中获取到每个参数的参数值,比如:频点设置1为策略和计费频点设置,则电子设备可以从4G配置的数据中获取到对应的参数值。电子设备基于参数1、参数2、参数3、参数4中每个参数的逻辑关系、参数值和表达式执行运算操作,得到对应的运算结果,则该运算结果即为节点A的第一状态信息。应理解,对于多个参数组的节点,其第一状态信息包括多个参数组对应的运算结果。在本实现方式中,电子设备将故障知识图谱中每个节点对应的至少一个运算结果作为该节点的第一状态信息,这样利用节点属性中的经验知识和网络故障数据集中的数据计算状态信息,实现了数据与知识的耦合。
示例性的,根据至少一个参数组中的每个参数组中每个参数的逻辑关系、参数值和每个参数组对应的表达式,得到至少一个参数组的运算结果,包括:
基于每个参数组中每个参数的逻辑关系确定出每个参数组中待进行条件判断的第一参数和/或待取值运算的第二参数;
判断第一参数的参数值与参考值之间的关系是否符合第一预设逻辑条件,得到第一参数的条件判断结果;和/或,基于第二参数的参数值和每个参数组对应的表达式,得到第二参数的取值运算结果;
基于条件判断结果和/或取值运算结果,以及每个参数组对应的表达式,得到每个参数组的运算结果。
具体的,每个参数的逻辑关系用于指示该参数的用法,比如:在表达式中是对该参数进行条件判断,还是进行取值运算。一个表达式中可以只包括条件判断,也可以只包括取值运算,还可以同时包括条件判断和取值运算。则可分为以下三种情况得到每个参数组的运算结果:
(1)表达式中只包括待进行条件判断的第一参数。如图6中的表达式,参数1的逻辑关系为NotExist、参考值为null,电子设备判断参数1的参数值是否为null,数据库中存储了“参数1的参数值不等于null”的第一预设逻辑条件,若参数1的参数值不等于null,则参数1的参数值与参考值之间的关系符合该第一预设逻辑条件,则参数1的条件判断结果为真。同理,参数3的逻辑关系为NotIncludedIn、参考值为XXX1,电子设备判断参数3的参数值与参考值之间的关系是否为不包含关系,若符合预先存储的不包含关系,则参数3的条件判断结果为真。如此,电子设备可得到参数组中每个第一参数的条件判断结果。基于图6中的表达式,若参数1的条件判断结果为真且参数2的条件判断结果为真,或参数3的条件判断结果为真,或参数4的条件判断结果为真,则对应参数组的运算结果即为真,参数1、参数2、参数3、参数4构成的参数组命中节点A所描述的故障。
(2)表达式中只包括待取值运算的第二参数。比如:参数1-参数2,电子设备采用参数1的参数值和参数2的参数值计算得到对应的取值运算结果。示例性的,若数据库中存储了“参数1-参数2>0”这一逻辑条件,参数1-参数2的值为3,则参数1、参数2这一参数组命中了对应节点所描述的故障。示例性的,若数据库中存储了节点所描述的故障的等级为3(节点的数学状态可描述为故障等级为3的连续变量),参数1-参数2的值为3,则也表示参数1、参数2这一参数组命中了对应节点所描述的故障。
(3)表达式中包括第一参数和第二参数,比如:{{参数1-参数2}||{参数3}||{参数4}},若参数1-参数2的取值运算结果符合对应的节点的预设逻辑条件,或参数3的条件判断结果为真,或参数4的条件判断结果为真,则参数1、参数2、参数3、参数4构成的参数组命中对应节点所描述的故障。
在本实现方式中,根据每个参数组对应的表达式,电子设备可以基于条件判断结果和/或取值运算结果,得到每个参数组的运算结果,该运算结果可用于表征对应节点的数学状态,同时也能够表征参数组是否命中节点所描述的故障,比如:运算结果为0,表示未命中节点所描述的故障,节点的数学状态可描述为数值0的离散变量。
503:根据第一状态信息,通过网络故障因果关系确定模型得到故障知识图谱中各个叶子节点的根因概率。
本申请实施例中,网络故障因果关系确定模型可以基于现有图推理算法训练得到,比如:贝叶斯置信传播算法、蒙特卡罗采样算法等,则电子设备将各个节点的第一状态信息输入网络故障因果关系确定模型,以采用这些算法进行推理,以得到故障知识图谱中各个叶子节点的根因概率。示例性的,该根因概率可以是各个叶子节点为根因节点的条件概率或后验概率,此处不做限定。
504:基于各个叶子节点的根因概率对故障知识图谱进行路径搜索,得到至少一条根因路径。
本申请实施例中,基于步骤503中得到的根因概率,电子设备从各个叶子节点中确定出根因概率大于或等于预设阈值的至少一个目标叶子节点,若仅确定出节点A,且节点A仅存在一条传播链,则将该条传播链作为根因定位得到的根因路径。
示例性的,该方法还包括:
根据第一状态信息,通过网络故障因果关系确定模型得到故障知识图谱中存在因果关系的父节点与子节点之间的转移概率。由于故障知识图谱中存在因果关系的父节点与子节点之间的因果关系,在网络故障因果关系确定模型中以表格、数学公式等进行了定量描述,则以存在因果关系的父节点与子节点的第一状态信息为输入,通过网络故障因果关系确定模型中的表格或数学公式等可以确定父节点与子节点之间的转移概率,电子设备即可基于该转移概率进行路径搜索。
示例性的,对于确定出的至少一个目标叶子节点,若以该至少一个目标叶子节点为根因节点的传播链存在多条,则电子设备将该多条传播链确定为多条候选根因路径,基于多条候选根因路径中每条候选根因路径上的转移概率,从多条候选根因路径中确定出至少一条根因路径。比如:对多条候选根因路径上的转移概率进行求和、求平均等,基于计算出的值对多条候选根因路径进行排序,以选取出排序后的前K(其中,K大于或等于1)条候选根因路径,将该K条候选根因路径作为最终确定出的至少一条根因路径,这样结合根因概率和转移概率进行路径搜索,有利于提升故障根因定位的精度。
可以看出,本申请实施例中,电子设备基于网络故障数据集和故障知识图谱可计算出故障知识图谱中各个节点的第一状态信息,该第一状态信息可表征网络故障数据集中的参数是否命中故障知识图谱中对应节点所描述的故障,这样在故障根因定位中实现了数据与知识的耦合,采用数据与知识进行推理,能够使知识得到充分表达,从而提升故障根因定位的精度。另外,网络故障因果关系确定模型对故障知识图谱中节点之间的因果关系进行了定量描述,这样在计算故障知识图谱中各个叶子节点的根因概率时引入了因果关系,在图推理中有利于提升根因概率的准确度,从而能够提升路径搜索的准确性,进而能够提升故障根因定位的精度。
请参见图7,图7为本申请实施例提供的另一种故障根因定位方法的流程示意图,如图7所示,该方法可以包括步骤701-706:
701:获取网络故障数据集和基于知识注入的故障知识图谱;
702:根据网络故障数据集,得到故障知识图谱中各个节点的第一状态信息;
703:根据第一状态信息,通过网络故障因果关系确定模型得到故障知识图谱中各个叶子节点的根因概率及故障知识图谱中存在因果关系的父节点与子节点之间的转移概率;
704:从各个叶子节点中确定出根因概率大于或等于预设阈值的至少一个目标叶子节点;
705:从故障知识图谱中确定出以至少一个目标叶子节点为根因节点的多条候选根因路径;
706:基于多条候选根因路径中每条候选根因路径上的转移概率,从多条候选根因路径中确定出至少一条根因路径。
其中,步骤701-706的具体实现方式在图5所示的实施例中已有相关说明,且能达到相同或相似的有益效果,此处不再赘述。需要说明的是,步骤704中若仅确定出一个目标叶子节点,且该目标叶子节点仅存在一条传播链,则将该条传播链作为根因定位得到的根因路径。
示例性的,该方法还包括:
对于故障知识图谱中的每个节点执行如下操作:
基于节点A对应的至少一个参数组的运算结果,得到节点A对应的至少一个参数组中参数组命中节点A所描述的故障的个数和节点A的置信度;
对于节点A对应的至少一个参数组中命中节点A所描述的故障的至少一个目标参数组,基于至少一个目标参数组中的每个目标参数组对应的条件判断结果和/或取值运算结果,确定每个目标参数组中的参数符合的第二预设逻辑条件,并获取每个目标参数组中符合第二预设逻辑条件的参数在日志中的原始数据;
输出节点A对应的至少一个参数组中参数组命中节点A所描述的故障的个数、置信度、第二预设逻辑条件及原始数据。
具体的,若节点A对应有5个参数组,基于对应的5个运算结果,电子设备可以统计出命中节点A所描述的故障的参数组的个数,比如:3个,同时,电子设备基于命中节点A所描述的故障的参数组的个数计算得到节点A的置信度,比如:置信度=(命中个数/总个数)。如图8中针对网络关键性能指标(Key Performance Indicator,KPI)中服务质量流(Qualityof ServiceFlow,QosFlow)建立失败的场景,可基于节点A和节点B对应的参数组中参数组命中其所描述的故障的个数,计算出节点A的置信度为0.6,节点B的置信度为0.95。另外,若目标参数组中只包括第一参数,则第二预设逻辑条件即为第一预设逻辑条件;若目标参数组中只包括第二参数,则第二预设逻辑条件即为第二参数符合的逻辑条件,比如:数据库中预先存储了“参数1-参数2>0”这一预设逻辑条件,若参数1的参数值减参数2的参数值大于0,则“参数1-参数2>0”即为第二预设逻辑条件;若目标参数组中包括第一参数和第二参数,则第二预设逻辑条件包括第一预设逻辑条件和/或第二参数符合的逻辑条件。对于符合第二预设逻辑条件的参数,电子设备需要确定该参数在数据库中存储的日志中的原始数据,比如:该参数的数据源、参数名称、参数值等原始数据,将节点A的对应的至少一个参数组命中节点A所描述的故障的个数、节点A的置信度、所有第二预设逻辑条件及符合第二预设逻辑条件的参数的原始数据加入根因定位过程文件,请继续参见图8,节点A的根因过程文件中包括节点A的对应的至少一个参数组命中节点A所描述的故障的个数3、节点A的置信度0.6、命中节点A所描述的故障的至少一个目标参数组命中的所有逻辑条件(比如:参数1为真的逻辑条件且参数2为真的逻辑条件,或参数3为真的逻辑条件,或参数4为真的逻辑条件),示例性的,参数的原始数据可以附件的形式插入根因过程文件中,则运维工程师可对该原始数据进行下载,以了解数据详情。在本实现方式中,电子设备输出该文件有利于运维工程师了解根因定位的推理过程,提升了故障根因定位的可解释性。
示例性的,该方法还包括:
输出至少一条根因路径、至少一条根因路径中每条根因路径的根因概率及每条根因路径的根因节点的根因概率。
请参见图9,图9为本申请实施例提供的一种根因定位结果文件的示意图,若图8中的场景是针对A100小区进行的故障根因定位,则图9中可以包括小区名称、分析时间:2022-08-01/15:00:00-17:30:00,具体的,若进行排序选出的前3条根因路径分别为:QosFlow建立失败—XXX—终端对超级上行有兼容性问题、QosFlow建立失败—XXX—上行弱覆盖、QosFlow建立失败—XXX—下行同频干扰,则电子设备需要输出该3条根因路径的根因节点(即分别为:终端对超级上行有兼容性问题、上行弱覆盖、下行同频干扰)和这些根因节点的根因概率(即分别为:63.5%、23.7%、4.7%)。在本实现方式中,电子设备输出该根因定位结果文件有利于运维工程师了解故障的传播链,提升了故障根因定位的可解释性。
示例性的,在获取经过预处理的网络故障数据集和预先构建的基于知识注入的故障知识图谱之前,该方法还包括:
获取历史网络故障数据集和故障知识图谱;
根据历史网络故障数据集,得到故障知识图谱中各个节点的第二状态信息;
基于第二状态信息确定故障知识图谱中存在因果关系的父节点与子节点之间的因果关系定量表示,以得到网络故障因果关系确定模型。
本申请实施例中,历史网络故障数据集是对原始历史网络故障数据集进行预处理后得到的数据集。第二状态信息是指利用历史网络故障数据集中的参数计算得到的故障知识图谱中各个节点的状态信息。电子设备基于历史网络故障数据集和故障知识图谱可计算出故障知识图谱中各个节点的第二状态信息,采用第二状态信息计算故障知识图谱中存在因果关系的父节点与子节点之间的转移概率,将故障知识图谱中存在因果关系的父节点与子节点之间的因果关系以表格、数学公式等进行定量描述,从而得到网络故障因果关系确定模型,进而有利于后续通过该网络故障因果关系确定模型进行根因定位和推理。
以上详细阐述了本申请实施例的方法,下面提供了本申请实施例的装置。
请参见图10,图10为本申请实施例提供的一种故障根因定位装置1000的结构示意图。该装置1000应用于电子设备,具有实现上述图5或图7所示的故障根因定位方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一种可能的实现方式中,该装置1000包括获取单元1001和处理单元1002。其中,获取单元1001,用于获取网络故障数据集和基于知识注入的故障知识图谱;处理单元1002,用于根据网络故障数据集,得到故障知识图谱中各个节点的第一状态信息;根据第一状态信息,通过网络故障因果关系确定模型得到故障知识图谱中各个叶子节点的根因概率;基于各个叶子节点的根因概率对故障知识图谱进行路径搜索,得到至少一条根因路径。
在一种可能的实现方式中,各个节点存在对应的判断逻辑和待判断的至少一个参数组,判断逻辑用于判断至少一个参数组是否命中各个节点所描述的故障,判断逻辑包括至少一个参数组中每个参数的数据源、参数名称、逻辑关系和至少一个表达式,至少一个表达式与至少一个参数组一一对应;在根据网络故障数据集,得到故障知识图谱中各节点的第一状态信息方面,处理单元1002具体用于:
对于至少一个参数组中的每个参数组,根据每个参数组中每个参数的数据源和参数名称,从网络故障数据集中获取每个参数组中每个参数的参数值;
根据至少一个参数组中的每个参数组中每个参数的逻辑关系、参数值和每个参数组对应的表达式,得到至少一个参数组的运算结果;
将至少一个参数组的运算结果,确定为至少一个参数组对应的节点的第一状态信息。
在一种可能的实现方式中,判断逻辑还包括至少一个参数组中每个参数的参考值,在根据至少一个参数组中的每个参数组中每个参数的逻辑关系、参数值和每个参数组对应的表达式,得到至少一个参数组的运算结果方面,处理单元1002具体用于:
基于每个参数组中每个参数的逻辑关系确定出每个参数组中待进行条件判断的第一参数和/或待取值运算的第二参数;
判断第一参数的参数值与参考值之间的关系是否符合第一预设逻辑条件,得到第一参数的条件判断结果;和/或,基于第二参数的参数值和每个参数组对应的表达式,得到第二参数的取值运算结果;
基于条件判断结果和/或取值运算结果,以及每个参数组对应的表达式,得到每个参数组的运算结果。
在一种可能的实现方式中,处理单元1002还用于:
对于故障知识图谱中的每个节点执行如下操作:
基于节点A对应的至少一个参数组的运算结果,得到节点A对应的至少一个参数组中参数组命中节点A所描述的故障的个数和节点A的置信度;
对于节点A对应的至少一个参数组中命中节点A所描述的故障的至少一个目标参数组,基于至少一个目标参数组中的每个目标参数组对应的条件判断结果和/或取值运算结果,确定每个目标参数组中的参数符合的第二预设逻辑条件,并获取每个目标参数组中符合第二预设逻辑条件的参数在日志中的原始数据;
输出节点A对应的至少一个参数组中参数组命中节点A所描述的故障的个数、置信度、第二预设逻辑条件及原始数据。
在一种可能的实现方式中,处理单元1002还用于:
根据第一状态信息,通过网络故障因果关系确定模型得到故障知识图谱中存在因果关系的父节点与子节点之间的转移概率;
在一种可能的实现方式中,在基于各个叶子节点的根因概率对故障知识图谱进行路径搜索,得到至少一条根因路径方面,处理单元1002具体用于:
从各个叶子节点中确定出根因概率大于或等于预设阈值的至少一个目标叶子节点;
从故障知识图谱中确定出以至少一个目标叶子节点为根因节点的多条候选根因路径;
基于多条候选根因路径中每条候选根因路径上的转移概率,从多条候选根因路径中确定出至少一条根因路径。
在一种可能的实现方式中,处理单元1002还用于:
输出至少一条根因路径、至少一条根因路径中每条根因路径的根因节点及每条根因路径的根因节点的根因概率。
在一种可能的实现方式中,在获取经过预处理的网络故障数据集和预先构建的基于知识注入的故障知识图谱之前,处理单元1002还用于:
获取历史网络故障数据集和故障知识图谱;
根据历史网络故障数据集,得到故障知识图谱中各个节点的第二状态信息;
基于第二状态信息确定故障知识图谱中存在因果关系的父节点与子节点之间的因果关系定量表示,以得到网络故障因果关系确定模型。
需要说明的是,图10所描述的故障根因定位装置1000的各个单元的实现还可以对应参照图5至图9所示的实施例的相应描述。并且,图10所描述的故障根因定位装置1000带来的有益效果也可以参照图5至图9所示的实施例的相应描述,此处不再重复描述。
基于上述方法实施例以及装置实施例的描述,本申请实施例还提供一种电子设备。请参见图11,图11为本申请实施例提供的一种电子设备的结构示意图,该电子设备1100至少包括处理器1101、存储器1102、输入设备1103和输出设备1104,以及一个或多个程序,一个或多个程序被存储在存储器1102中,各个部分通过总线1105或其他方式相互连接,其中,输入设备1103和输出设备1104可以为同一设备,输入设备1103可用于接收其他设备的输入,输出设备1104可用于输出电子设备与其他设备的交互信息和电子设备内各个屏幕的显示信息,图10所示的各个单元可以通过上述处理器1101、存储器1102、输入设备1103和输出设备1104实现。
存储器1102包括但不限于是RAM、ROM、可擦除可编程只读存储器(erasableprogrammable read only memory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM),该存储器1102用于存储相关计算机程序及数据。
处理器1101可以是一个或多个CPU,在处理器1101是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。
该电子设备1100中的处理器1101用于读取上述存储器1102中存储的一个或多个程序,执行以下操作:
获取网络故障数据集和基于知识注入的故障知识图谱;
根据网络故障数据集,得到故障知识图谱中各个节点的第一状态信息;
根据第一状态信息,通过网络故障因果关系确定模型得到故障知识图谱中各个叶子节点的根因概率;
基于各个叶子节点的根因概率对故障知识图谱进行路径搜索,得到至少一条根因路径。
需要说明的是,各个操作的实现还可以对应参照图5或图7所示任意一个实施例的方法的相应描述。
应注意,尽管图11所示电子设备1100仅仅示出了处理器1101、存储器1102、输入设备1103、输出设备1104和总线1105,但是在具体实现过程中,本领域的技术人员应当理解,电子设备1100还包括实现正常运行所必须的其他器件。同时,根据具体需要,本领域的技术人员应当理解,电子设备1100还可包括实现其他附加功能的硬件器件。此外,本领域的技术人员应当理解,电子设备1100也可仅仅包括实现本申请实施例所必须的器件,而不必包括图11中所示的全部器件。
本申请实施例还提供一种计算机可读存储介质(Memory),计算机可读存储介质是电子设备1100中的记忆设备,用于存储用于设备执行的计算机程序,当其在电子设备1100上运行时,图5或图7所示的方法流程得以实现。可以理解的是,此处的计算机可读存储介质既可以包括电子设备1100中的内置存储介质,当然也可以包括电子设备1100所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了电子设备1100的操作系统。并且,在该存储空间中还存放了适于被处理器1101加载并执行的一个或多个计算机程序。需要说明的是,此处的计算机可读存储介质可以是高速RAM,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选地,还可以是至少一个位于远离前述处理器1101的计算机可读存储介质。
本申请实施例还提供一种芯片,包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有上述芯片的设备执行如图5或图7所示的任意一个实施例的方法。
本申请实施例还提供一种计算机程序产品,当计算机程序产品被电子设备运行时,图5或图7所示的方法流程得以实现。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
应理解,本申请实施例中提及的处理器可以是CPU,还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
还应理解,本申请实施例中提及的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是ROM、可编程只读存储器(Programmable ROM,PROM)、EPROM、电可擦除可编程只读存储器(ElectricallyEPROM,EEPROM)或闪存。易失性存储器可以是RAM,其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。
需要说明的是,当处理器为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时,存储器(存储模块)集成在处理器中。
应注意,本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示例性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。在本申请的文字描述中,字符“/”,一般表示前后关联对象是一种“或”的关系。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (17)
1.一种故障根因定位方法,其特征在于,所述方法包括:
获取网络故障数据集和基于知识注入的故障知识图谱;
根据所述网络故障数据集,得到所述故障知识图谱中各个节点的第一状态信息;
根据所述第一状态信息,通过网络故障因果关系确定模型得到所述故障知识图谱中各个叶子节点的根因概率;
基于所述各个叶子节点的根因概率对所述故障知识图谱进行路径搜索,得到至少一条根因路径。
2.根据权利要求1所述的方法,其特征在于,所述各个节点存在对应的判断逻辑和待判断的至少一个参数组,所述判断逻辑用于判断所述至少一个参数组是否命中所述各个节点所描述的故障,所述判断逻辑包括所述至少一个参数组中每个参数的数据源、参数名称、逻辑关系和至少一个表达式,所述至少一个表达式与所述至少一个参数组一一对应;
所述根据所述网络故障数据集,得到所述故障知识图谱中各节点的第一状态信息,包括:
对于所述至少一个参数组中的每个参数组,根据所述每个参数组中每个参数的数据源和参数名称,从所述网络故障数据集中获取所述每个参数组中每个参数的参数值;
根据所述至少一个参数组中的每个参数组中每个参数的逻辑关系、参数值和所述每个参数组对应的表达式,得到所述至少一个参数组的运算结果;
将所述至少一个参数组的运算结果,确定为所述至少一个参数组对应的节点的第一状态信息。
3.根据权利要求2所述的方法,其特征在于,所述判断逻辑还包括至少一个参数组中每个参数的参考值,所述根据所述至少一个参数组中的每个参数组中每个参数的逻辑关系、参数值和所述每个参数组对应的表达式,得到所述至少一个参数组的运算结果,包括:
基于所述每个参数组中每个参数的逻辑关系确定出所述每个参数组中待进行条件判断的第一参数和/或待取值运算的第二参数;
判断所述第一参数的参数值与参考值之间的关系是否符合第一预设逻辑条件,得到所述第一参数的条件判断结果;和/或,基于所述第二参数的参数值和所述每个参数组对应的表达式,得到所述第二参数的取值运算结果;
基于所述条件判断结果和/或所述取值运算结果,以及所述每个参数组对应的表达式,得到所述每个参数组的运算结果。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对于所述故障知识图谱中的每个节点执行如下操作:
基于节点A对应的至少一个参数组的运算结果,得到所述节点A对应的至少一个参数组中参数组命中所述节点A所描述的故障的个数和所述节点A的置信度;
对于所述节点A对应的至少一个参数组中命中所述节点A所描述的故障的至少一个目标参数组,基于所述至少一个目标参数组中的每个目标参数组对应的所述条件判断结果和/或所述取值运算结果,确定所述每个目标参数组中的参数符合的第二预设逻辑条件,并获取所述每个目标参数组中符合所述第二预设逻辑条件的参数在日志中的原始数据;
输出所述节点A对应的至少一个参数组中参数组命中所述节点A所描述的故障的个数、所述置信度、所述第二预设逻辑条件及所述原始数据。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
根据所述第一状态信息,通过所述网络故障因果关系确定模型得到所述故障知识图谱中存在因果关系的父节点与子节点之间的转移概率;
所述基于所述各个叶子节点的根因概率对所述故障知识图谱进行路径搜索,得到至少一条根因路径,包括:
从所述各个叶子节点中确定出所述根因概率大于或等于预设阈值的至少一个目标叶子节点;
从所述故障知识图谱中确定出以所述至少一个目标叶子节点为根因节点的多条候选根因路径;
基于所述多条候选根因路径中每条候选根因路径上的所述转移概率,从所述多条候选根因路径中确定出所述至少一条根因路径。
6.根据权利要求1或5所述的方法,其特征在于,所述方法还包括:
输出所述至少一条根因路径、所述至少一条根因路径中每条根因路径的根因节点及所述每条根因路径的根因节点的根因概率。
7.根据权利要求1-6任一项所述的方法,其特征在于,在所述获取经过预处理的网络故障数据集和预先构建的基于知识注入的故障知识图谱之前,所述方法还包括:
获取历史网络故障数据集和所述故障知识图谱;
根据所述历史网络故障数据集,得到所述故障知识图谱中各个节点的第二状态信息;
基于所述第二状态信息确定所述故障知识图谱中存在因果关系的父节点与子节点之间的因果关系定量表示,以得到所述网络故障因果关系确定模型。
8.一种故障根因定位装置,其特征在于,所述装置包括获取单元和处理单元;
所述获取单元,用于获取网络故障数据集和基于知识注入的故障知识图谱;
所述处理单元,用于根据所述网络故障数据集,得到所述故障知识图谱中各个节点的第一状态信息;根据所述第一状态信息,通过网络故障因果关系确定模型得到所述故障知识图谱中各个叶子节点的根因概率;基于所述各个叶子节点的根因概率对所述故障知识图谱进行路径搜索,得到至少一条根因路径。
9.根据权利要求8所述的装置,其特征在于,所述各个节点存在对应的判断逻辑和待判断的至少一个参数组,所述判断逻辑用于判断所述至少一个参数组是否命中所述各个节点所描述的故障,所述判断逻辑包括所述至少一个参数组中每个参数的数据源、参数名称、逻辑关系和至少一个表达式,所述至少一个表达式与所述至少一个参数组一一对应;
在根据所述网络故障数据集,得到所述故障知识图谱中各节点的第一状态信息方面,所述处理单元具体用于:对于所述至少一个参数组中的每个参数组,根据所述每个参数组中每个参数的数据源和参数名称,从所述网络故障数据集中获取所述每个参数组中每个参数的参数值;
根据所述至少一个参数组中的每个参数组中每个参数的逻辑关系、参数值和所述每个参数组对应的表达式,得到所述至少一个参数组的运算结果;
将所述至少一个参数组的运算结果,确定为所述至少一个参数组对应的节点的第一状态信息。
10.根据权利要求9所述的装置,其特征在于,所述判断逻辑还包括至少一个参数组中每个参数的参考值,在根据所述至少一个参数组中的每个参数组中每个参数的逻辑关系、参数值和所述每个参数组对应的表达式,得到所述至少一个参数组的运算结果方面,所述处理单元具体用于:
基于所述每个参数组中每个参数的逻辑关系确定出所述每个参数组中待进行条件判断的第一参数和/或待取值运算的第二参数;
判断所述第一参数的参数值与参考值之间的关系是否符合第一预设逻辑条件,得到所述第一参数的条件判断结果;和/或,基于所述第二参数的参数值和所述每个参数组对应的表达式,得到所述第二参数的取值运算结果;
基于所述条件判断结果和/或所述取值运算结果,以及所述每个参数组对应的表达式,得到所述每个参数组的运算结果。
11.根据权利要求10所述的装置,其特征在于,所述处理单元还用于:
对于所述故障知识图谱中的每个节点执行如下操作:
基于节点A对应的至少一个参数组的运算结果,得到所述节点A对应的至少一个参数组中参数组命中所述节点A所描述的故障的个数和所述节点A的置信度;
对于所述节点A对应的至少一个参数组中命中所述节点A所描述的故障的至少一个目标参数组,基于所述至少一个目标参数组中的每个目标参数组对应的所述条件判断结果和/或所述取值运算结果,确定所述每个目标参数组中的参数符合的第二预设逻辑条件,并获取所述每个目标参数组中符合所述第二预设逻辑条件的参数在日志中的原始数据;
输出所述节点A对应的至少一个参数组中参数组命中所述节点A所描述的故障的个数、所述置信度、所述第二预设逻辑条件及所述原始数据。
12.根据权利要求8-11任一项所述的装置,所述处理单元还用于:
根据所述第一状态信息,通过所述网络故障因果关系确定模型得到所述故障知识图谱中存在因果关系的父节点与子节点之间的转移概率;
在基于所述各个叶子节点的根因概率对所述故障知识图谱进行路径搜索,得到至少一条根因路径方面,所述处理单元具体用于:
从所述各个叶子节点中确定出所述根因概率大于或等于预设阈值的至少一个目标叶子节点;
从所述故障知识图谱中确定出以所述至少一个目标叶子节点为根因节点的多条候选根因路径;
基于所述多条候选根因路径中每条候选根因路径上的所述转移概率,从所述多条候选根因路径中确定出所述至少一条根因路径。
13.根据权利要求8或12所述的装置,其特征在于,所述处理单元还用于:
输出所述至少一条根因路径、所述至少一条根因路径中每条根因路径的根因节点及所述每条根因路径的根因节点的根因概率。
14.根据权利要求8-13所述的装置,其特征在于,所述获取单元还用于:
获取经过预处理的历史网络故障数据集和所述故障知识图谱;
所述处理单元还用于:
根据所述历史网络故障数据集,得到所述故障知识图谱中各个节点的第二状态信息;
基于所述第二状态信息确定所述故障知识图谱中存在因果关系的父节点与子节点之间的因果关系定量表示,以得到所述网络故障因果关系确定模型。
15.一种电子设备,其特征在于,包括处理器、存储器,以及一个或多个程序,所述处理器与所述存储器相连,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述处理器执行时实现如权利要求1-7中任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有用于设备执行的计算机程序,所述计算机程序被执行时实现权利要求1-7中任一项所述的方法。
17.一种计算机程序产品,其特征在于,当所述计算机程序产品被电子设备运行,使得所述电子设备执行如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211011790.4A CN117692300A (zh) | 2022-08-23 | 2022-08-23 | 一种故障根因定位方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211011790.4A CN117692300A (zh) | 2022-08-23 | 2022-08-23 | 一种故障根因定位方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117692300A true CN117692300A (zh) | 2024-03-12 |
Family
ID=90133893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211011790.4A Pending CN117692300A (zh) | 2022-08-23 | 2022-08-23 | 一种故障根因定位方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117692300A (zh) |
-
2022
- 2022-08-23 CN CN202211011790.4A patent/CN117692300A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220036264A1 (en) | Real-time adaptive operations performance management system | |
US8411577B2 (en) | Methods, apparatus and articles of manufacture to perform root cause analysis for network events | |
WO2018103453A1 (zh) | 检测网络的方法和装置 | |
CN111475370A (zh) | 基于数据中心的运维监控方法、装置、设备及存储介质 | |
CN101808351B (zh) | 业务影响分析方法和系统 | |
US10616040B2 (en) | Managing network alarms | |
US11405294B2 (en) | Method and apparatus for determining status of network device | |
US10884805B2 (en) | Dynamically configurable operation information collection | |
CN114528175A (zh) | 一种微服务应用系统根因定位方法、装置、介质及设备 | |
CN115514627A (zh) | 一种故障根因定位方法、装置、电子设备及可读存储介质 | |
CN102932194B (zh) | 基于贝叶斯方法的互联网应用服务监控系统及方法 | |
US11665185B2 (en) | Method and apparatus to detect scripted network traffic | |
CN117692300A (zh) | 一种故障根因定位方法、装置、电子设备及存储介质 | |
US20230306343A1 (en) | Business process management system and method thereof | |
CN114157486B (zh) | 通信流量数据异常检测方法、装置、电子设备及存储介质 | |
EP4117236A1 (en) | Anomaly detection across domains | |
Kavulya et al. | Draco: Top Down Statistical Diagnosis of Large-Scale VoIP Networks | |
CN111641535B (zh) | 网络监控方法、装置、电子设备和介质 | |
Luong Nguyen et al. | Validation, verification and root-cause analysis | |
CN113300914A (zh) | 网络质量监测方法、装置、系统、电子设备和存储介质 | |
Streiffer et al. | Learning to simplify distributed systems management | |
CN114676012A (zh) | 一种服务链路监控方法、装置、电子设备及存储介质 | |
CN112948154A (zh) | 一种系统异常诊断方法、装置及存储介质 | |
CN115883324A (zh) | 一种告警根因定位模型的生成方法和装置 | |
RU2801825C2 (ru) | Способ, комплекс обработки информации об отказах устройств беспроводных сенсорных сетей передачи данных и связанных сетей |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |