CN117201270A - 故障分析方法及故障分析装置 - Google Patents

故障分析方法及故障分析装置 Download PDF

Info

Publication number
CN117201270A
CN117201270A CN202210612110.8A CN202210612110A CN117201270A CN 117201270 A CN117201270 A CN 117201270A CN 202210612110 A CN202210612110 A CN 202210612110A CN 117201270 A CN117201270 A CN 117201270A
Authority
CN
China
Prior art keywords
fault
entities
network element
entity
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210612110.8A
Other languages
English (en)
Inventor
苑宗港
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202210612110.8A priority Critical patent/CN117201270A/zh
Publication of CN117201270A publication Critical patent/CN117201270A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了一种故障分析方法和故障分析装置,用于精确定位故障根因网元以及故障类型。该方法包括:获取网络故障数据;基于预设的实体类型和预设的关系类型从所述网络故障数据中确定多个实体和所述多个实体之间的多个关系,所述多个实体包括至少两个网元实体;根据所述多个实体和所述多个关系确定故障场景,所述故障场景包括目标网元实体对应的故障类型,所述目标网元实体为所述至少两个网元实体中的一个。该故障分析方法可以提高故故障分析准确度和效率。

Description

故障分析方法及故障分析装置
技术领域
本申请涉及通信技术领域,尤其涉及一种故障分析方法及故障分析装置。
背景技术
随着全球移动互联网和数据业务蓬勃发展,网络连接和网络数据的迅猛增长,网络结构日益复杂,随之产生了海量的网络大数据,同时网络中出现的故障也越来越多。
现有的网络运维的场景中,通过故障树进行故障分析,故障树是由专家基于对历史故障案例的事后复盘分析编排得到,具体地,基于历史故障案例发生时可观测的故障现象,分级别、分类型地进行逻辑判断组合。
由于网络数据复杂多变,基于故障树进行的故障分析可能由一个故障现象同时推理出多个故障场景,依赖专家继续对网络设备下发诊断命令、人工多步分析后再判断结果,故障分析效率低下。
发明内容
本申请提供了一种故障分析方法,用于快速实现故障场景定位,可以提高网络故障分析准确度和效率。
本申请的第一方面提供了一种故障分析方法,包括:获取网络故障数据;基于预设的实体类型和预设的关系类型从所述网络故障数据中确定多个实体和所述多个实体之间的多个关系,所述多个实体包括至少两个网元实体;根据所述多个实体和所述多个关系确定故障场景,所述故障场景包括目标网元实体对应的故障类型,所述目标网元实体为所述至少两个网元实体中的一个。
本申请提供的故障分析方法,通过提取网络故障数据中的实体和关系进行故障分析,精确输出定位的故障场景,即发生故障的网元实体的故障类型,无需依赖多次诊断以及人工分析,可以提高网络故障分析准确度和效率。
在第一方面的一种可能的实现方式中所述多个关系包括以下至少一种:兄弟关系,所述兄弟关系用于指示两个同类型的网元实体之间的连接关系;对端关系,所述对端关系用于指示两个不同类型的网元实体之间的连接关系。
本申请提供的故障分析方法,基于网元的类型,将具有连接关系的网元实体之间的关系分为两类,包括兄弟关系和对端关系,其中,兄弟关系用于表示同类型网元实体之间的连接关系,例如主用SMF网元和备用SMF网元,对端关系用于表示不同类型的网元实体之间的连接关系,例如SMF网元和AMF网元。
在第一方面的一种可能的实现方式中,所述多个实体还包括:健康度实体,所述健康度实体包括:健康、突增或突降。
在第一方面的一种可能的实现方式中,所述多个关系还包括测量关系,所述测量关系用于指示网元实体与对应的所述健康度实体之间的关系。
本申请提供的故障分析方法,从所述网络故障数据中获取健康度实体,该健康度实体包括:健康、突增或突降;在一种可能的实现方式中,网络故障数据中包括周期性检测获取的各个网元实体的巡检结果,基于巡检结果获取的健康度实体可以指示对应的网元实体的运行状态,基于网元实体和对应的健康度实体之间的测量关系,可以提高网络故障分析的准确度。
在另一种可能的实现方式中,可以根据网元实体和健康度实体,网元实体之间的兄弟关系和/或对端关系,网元实体和健康度实体之间的测量关系,即可确定故障场景。
在第一方面的一种可能的实现方式中,所述多个实体还包括:事件实体,所述事件实体包括以下一个或多个:告警事件(Alarm)、关键性能指标(key performanceindicator,KPI)、异常日志(log)、人机语言(man-machine language,MML)异常事件、配置异常事件或呼叫历史记录(call history record,CHR)异常事件。
在第一方面的一种可能的实现方式中,所述多个关系还包括触发关系,所述触发关系用于指示网元实体与对应的所述事件实体之间的关系。
本申请提供的故障分析方法,通过网元实体和事件实体之间的触发关系表征故障特征,为故障分析提供丰富的判断信息,可以提高网络故障分析的准确度。
所述根据所述多个实体和所述多个语义关系确定故障场景,包括:将所述多个实体和所述多个语义关系输入预设的网络故障分类模型,输出所述故障场景。
本申请提供的故障分析方法,基于预设的网络故障分类模型,输入实体以及实体之间的关系,可以直接输出故障场景,提升了故障分析效率。
在一种可能的实现方式中,网络故障分类模型包括:RETE算法模型。
本申请的第二方面提供了一种故障分析装置,包括:获取模块,用于获取网络故障数据;确定模块,用于基于预设的实体类型和预设的关系类型从所述网络故障数据中确定多个实体和所述多个实体之间的多个关系,所述多个实体包括至少两个网元实体;处理模块,用于根据所述多个实体和所述多个关系确定故障场景,所述故障场景包括目标网元实体对应的故障类型,所述目标网元实体为所述至少两个网元实体中的一个。
在第二方面的一种可能的实现方式中,所述多个关系包括以下至少一种:兄弟关系,所述兄弟关系用于指示两个同类型的网元实体之间的连接关系;对端关系,所述对端关系用于指示两个不同类型的网元实体之间的连接关系。
在第二方面的一种可能的实现方式中,所述多个实体还包括:健康度实体,所述健康度实体包括:健康、突增或突降。
在第二方面的一种可能的实现方式中,所述多个关系还包括测量关系,所述测量关系用于指示网元实体与对应的所述健康度实体之间的关系。
在第二方面的一种可能的实现方式中,所述多个实体还包括:事件实体,所述事件实体包括以下一个或多个:告警事件、关键性能指标异常事件、异常日志、MML异常事件、配置异常事件或呼叫历史记录异常事件。
在第二方面的一种可能的实现方式中,所述多个关系还包括触发关系,所述触发关系用于指示网元实体与对应的所述事件实体之间的关系。
在第二方面的一种可能的实现方式中,所述处理模块具体用于:将所述多个实体和所述多个语义关系输入预设的网络故障分类模型,输出所述故障场景。
本申请第三方面提供了一种故障分析装置,包括:存储器,所述存储器中存储有计算机可读指令;与所述存储器相连的处理器,所述计算机可读指令被所述处理器执行时,使得所述网络设备实现如上述第一方面以及各种可能的实现方式中任一项所述的方法。
本申请第四方面提供了一种包含指令的计算机程序产品,其特征在于,当其在计算机上运行时,使得所述计算机执行如上述第一方面以及各种可能的实现方式中任一项所述的方法。
本申请第五方面提供了一种计算机可读存储介质,包括指令,其特征在于,当所述指令在计算机上运行时,使得计算机执行如上述第一方面以及各种可能的实现方式中任一项所述的方法。
其中,第二方面、第三方面、第四方面或第五方面以及其中任一种实现方式所带来的技术效果可参见第一方面中相应实现方式所带来的技术效果,此处不再赘述。
本申请提供的故障分析方法,通过提取网络故障数据中的实体和关系进行故障分析,精确输出定位的故障场景,即发生故障的网元实体的故障类型,无需依赖多次诊断以及人工分析,可以提高网络故障分析准确度和效率。
附图说明
图1为本申请实施例中故障分析方法的应用场景架构图;
图2为本申请实施例中管控单元的一个架构示意图;
图3为本申请实施例中故障分析方法的一个实施例示意图;
图4为本申请实施例中实体类型的示意图;
图5为本申请实施例中实体之间的关系的示意图;
图6为本申请实施例中知识图谱的结构示意图;
图7为本申请实施例中规则库中一个知识图谱的示意图;
图8为本申请实施例中利用知识图谱引擎实现网络故障分析的过程示意图;
图9为本申请实施例中VNF实体之间的语义关系示意图;
图10为本申请实施例中EVENT实体的示意图;
图11为本申请实施例中VNF实体、EVENT实体和健康度实体之间的语义关系示意图;
图12为本申请实施例中RETE网络的一个示意图;
图13为本申请实施例中故障分析方法的另一个实施例示意图;
图14为本申请实施例中故障分析装置的一个实施例示意图;
图15为本申请实施例中故障分析装置的另一个实施例示意图。
具体实施方式
本申请提供了一种故障分析方法,用于快速实现故障场景定位,可以提高故网络故障分析准确度和效率。
下面结合附图,对本申请的实施例进行描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。在本申请中出现的对步骤进行的命名或者编号,并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤,已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序,只要能达到相同或者相类似的技术效果即可。
为了便于理解,下面对本申请实施例涉及的部分技术术语进行简要介绍:
1、知识图谱(Knowledge Graph)
本质上是一种语义网络,由节点(node)和边(edge)组成。节点表示现实世界中存在的“实体”,边为实体与实体之间的“关系”,是由实体和关系组成的一种数据结构。通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。在一种可能的实现方式中,本申请实施例的故障分析方法基于知识图谱实现故障分析,其中实体之间的关系,也可以称为语义关系。
2、Rete算法
Rete算法是一种模式匹配算法,过网络筛选的方法找出所有匹配各个模式的对象和规则。
3、虚拟网络功能(virtual network function,VNF)
VNF作为网络功能虚拟化(network functions virtualization,NFV)架构中的虚拟网络功能单元,可以理解为对网络中现有物理网元进行功能虚拟化,以软件模块的形式部署在虚拟资源上,从而实现网络功能的虚拟化。
全球移动互联网和数据业务蓬勃发展,网络结构日益复杂,网络数据的迅猛增长,网络结构日益复杂,随之产生了海量的网络大数据,同时网络中出现的故障也越来越多。传统故障处理模式难以满足日益增长的网络故障。现有的网络运维的场景中,通过故障树进行故障分析,故障树是由专家基于对历史故障案例的事后复盘分析编排得到,具体地,基于历史故障案例发生时可观测的故障现象,分级别、分类型地进行逻辑判断组合。由于网络数据复杂多变,基于故障树进行的故障分析可能由一个故障现象同时推理出多个故障场景,依赖专家继续对网络设备下发诊断命令、人工多步分析后再判断结果,故障分析效率低下。此外,故障树结构难以扩充存在结构冲突的新发故障场景,因此预编排的故障树无法覆盖新的故障场景,难以更新和维护。
有鉴于此,本申请提供了一种故障分析方法,通过故障实体及故障实体之间的语义关系,精确定位故障场景,可以提高网络故障分析准确度和效率。
下面对本申请实施例中故障分析方法的应用场景进行介绍,请参阅图1,为本申请实施例中故障分析方法的应用场景架构图。
该应用场景包括管控单元100和核心网网元200,其中,管控单元100与核心网网元200通过网络连接。从形态上,本申请中的管控单元100可以是物理设备,也可以是部署在物理设备上的虚拟设备。该物理设备可以是物理服务器,工作站,移动台,通用计算机等可以承载管控单元的设备。本申请实施例中的核心网网元200包括5G核心网(5GC)全部网元中的至少两个,本申请图1示出了以下5GC网元:SMF、AMF、PCF、UPF、NRF、UDM、NSSF、NEF、AUSF或AF等,在NFV架构中,这些5GC网元可以统称为VNF。管控单元100作为管理面节点可以对核心网网元进行监控和管理。
请参阅图2,该管控单元100在故障管理中分为四个模块,分别为感知模块、分析模块、决策模块和执行模块。当网元(或称网络设备)发生故障时,由感知模块识别关键业务告警,并采集网络故障数据,发送给分析模块,以启动分析任务,分析模块基于本申请提出的故障分析方法进行故障定界定位,决策模块基于故障决策规则确定故障修复策略,执行模块用于故障修复策略执行。具体地,分析模块包括知识图谱引擎,知识图谱引擎分析网络故障数据,从中识别出各类实体和各类实体之间的语义关系,基于网络故障分类模型计算得到与预设规则库中故障场景之间的相似度,从而确定该网络故障数据发生的具体故障场景,包括具体的网元设备实例信息和故障类型,得到故障的根因,从而实现网络设备故障精准定界。
下面,对本申请实施例提供的故障分析方法进行介绍。参见图3,本申请实施例提出了一种故障分析方法300。该故障分析方法300可以应用于图1所示的场景中,其中,在图1所示的应用场景中,本申请的管控单元相当于图1所示的管控单元100,该方法300包括步骤S301-S303。
S301、获取网络故障数据。
网络发生故障后,管控单元获取网络故障数据。
首先,管控单元感知故障发生,具体实现方式有多种,在一种可能的实现方式中,基于网络监控数据,当发生网络故障时,管控单元可获取故障告警信息或者关键业务指标异常信息;在另一种可能的实现方式中,管控单元获取业务拨测试验的失败信息。对于管控单元感知故障发生的具体方式不做限定。
管控单元感知故障发生后,可获取网络故障数据,具体地,可以获取故障发生时刻前后一段时长内的网络运行数据。可选地,网络故障数据包括以下一个或多个:Alarm、KPI、log、MML、EVENT、CHR,等,此外,需要说明的是,管控单元还可获取网元拓扑数据。对于网络故障数据的具体类型此处不做限定。
S302、基于预设的实体类型和预设的关系类型从网络故障数据中提取多个实体和多个实体之间的多个关系。
示例性的,请参阅图4至图5,图4示出了一种可能的实现方式中,预设的实体类型,包括:事件实体、网元实体(示例性的,网元实体为VNF实体)、故障场景和健康度实体。
其中,事件实体包括管控单元采集的各类网络故障数据类型中的异常事件,例如:Alarm事件、KPI异常事件、异常Log、MML异常事件和CHR异常事件等。
VNF实体包括5GC架构中的各类网元,例如:SMF、AMF、PCF、UPF、NRF、UDM和NSSF等。
故障场景包括:5GC架构中的各类故障场景,例如:单套SMF故障、多套SMF过载、单套AMF故障、多套AMF突增、单套NRF故障、单套UPF故障、主用数据PCF FE故障、主用数据PCFFE故障、主用IWF FE故障、主用IWF FE故障和主用UDM FE故障。
健康度实体包括基于各类VNF巡检结果的评价指标,指示网元的健康度状态,例如:健康度实体包括健康、突增或突降。
图5示出了一种可能的实现方式中,预设的关系的示意图,关系类型包括:对端关系、兄弟关系、测量关系、触发关系和匹配关系,其中:
1)对端关系(Link),用于在故障发生时对网元类型进行划分,表示网元之间存在拓扑连接且网元类型不同。
2)兄弟关系(Partner),用于在故障发生时对网元类型进行划分,表示同类网元的连接关系。
3)测量关系(Measure),用于表示网元的巡检结果
4)触发关系(HappenOn),表示网元的故障特征,例如该网元出现的关键告警、KPI、事件等信息;
5)匹配关系(Match),表示故障网元和故障场景的匹配程度;
需要说明的是,在基于预设的关系类型从网络故障数据中直接提取得到的关系不包括匹配关系。
在一种可能的实现方式中,管控单元基于预训练的第一网络模型从网络故障数据中提取多个实体和多个实体之间的多个关系。第一网络模型的具体类型此处不做限定。
S303、根据所述多个实体和所述多个关系确定故障场景。
管控单元基于所述多个实体和所述多个关系确定故障场景,管控单元可以获取预设的规则库,规则库包括多个故障场景的诊断规则对应的知识图谱,该知识图谱基于已知故障场景的故障特征构建,示例性地,对于已知故障场景的故障特征(包括本网元以及周边网元的健康度,以及本网元以及周边网元相关的异常事件),提取故障特征中的实体和实体之间的关系,构建得到该故障场景对应的知识图谱。
请参阅图6,本申请提供的故障分析方法中知识图谱的结构示意图。结合图4示出的各类实体,以及图5示出的各类实体之间的关系,可以得到本申请故障分析方法中知识图谱的示意图,网元实体之间,包括两个同类型的网元实体之间的兄弟关系,以及两个不同类型的网元实体之间的对端关系,网元实体与健康度实体之间的测量关系,网元实体与事件实体之间的触发关系,以及网元实体与故障场景之间的判断关系。
示例性地,请参阅图7,为故障场景“单套SMF异常”对应的知识图谱的示意图,其构建过程在后续实施例中进行详细介绍。
管控单元基于预设的规则库,将所述多个实体和所述多个关系属于预设的网络故障分类模型进行计算,可以获取与规则库中各类故障场景的语义相似度,基于语义相似度超过预设阈值确定故障场景,或直接匹配得到语义相似度最高的故障场景。需要说明的是,网络故障分类模型可以为知识图谱匹配模型中的任意一种,在一种可能的实现方式中,网络故障分类模型为Rete算法模型。
本申请提供了一种故障分析方法,通过从网络故障数据中获取实体及实体之间的关系,输入预设的网络故障分类模型,可以快速精确定位故障场景,有效提升故故障分析准确度和效率。
下面对管控单元的分析模块,利用知识图谱引擎实现网络故障分析的过程进行介绍。请参阅图8,知识图谱引擎包括数据获取模块、语义识别模块和多元关系匹配模块。该故障分析方法包括:
801.数据获取模块获取网络故障数据。
数据获取模块用于获取待处理的原始故障数据,包括故障VNF实例和告警数据、KPI数据、日志数据等。
802.语义识别模块获取实体和实体之间的语义关系。
语义识别模块用于处理原始故障数据,解析故障数据的上下文信息,确定故障数据中包含的实体和语义关系序列。
803.多元关系匹配模块根据实体、实之间的语义关系,与预设规则库进行匹配,确定故障场景。
多元关系匹配模块根据语义识别的结果,将待处理的语义关系序列和实体,与特定语义关系的规则库进行匹配,推理计算出匹配结果,确定故障数据中是否包含特定语义关系对应的故障场景(即目标网元实体对应的故障类型)。
由此可见,基于上述模块的配合,管控单元的知识图谱引擎可以诊断得到故障场景。
为便于理解,下面结合具体示例对本申请提供的故障分析方法进行介绍。首先,参考图7对预设规则库的构建过程进行介绍。
以单套SMF网元故障为例,详细说明如何通过实体以及实体之间的多元关系来表示故障场景的诊断规则。当SMF网元以及SMF周边的其它5GC网元,同时出现下述故障特征一、二、三时,被判定为“单套SMF网元故障”:
1、故障特征一,目标SMF网元状态:
1)目标SMF实例出现下述告警或异常KPI:
ALM-100050PFCP对端节点不可达(需要判断到所有UPF均出现该告警);
ALM-100056PFCP链路故障(需要判断到所有UPF均出现该告警);
1929457679SMF 5G实时PDU会话数异常,需要说明的是“1929457679”代表异常编号,以下类似表示不再赘述;
1929457392SMF 5G SA会话建立成功率异常;
1929458777N11(SMF)发送PDU Session Establishment Reject消息数异常;
1929458782N11(SMF)发送PDU Session Modification Reject消息数异常;
1929458784N11(SMF)发送PDU Session Release Reject消息数异常;
1929457381N11(SMF)5G PDU会话建立流程平均时长异常。
2)备用SMF未见异常
需要判断SMF资源池中其它所有SMF网元状态未见异常。
2、故障特征二:AMF网元状态:
目标SMF连接的所有AMF网元未见异常;
目标SMF连接的对端AMF网元状态未见异常。
3、故障特征三:UPF网元状态:
与目标SMF连接的所有UPF出现下述告警:ALM-81017PFCP路径断。
上述故障特征中出现的SMF、AMF、UPF等统一表示为VNF实体,告警、KPI统一表示为EVENT实体,网元巡检状态结果表示为健康度实体;VNF实体之间的拓扑信息被划分为Partner关系和Link关系。具体地,当SMF网元发生故障时,通过Partner关系识别出同类SMF网元,并通过Measure关系获取该网元的健康度;再通过Link关系识别出不同类型网元:AMF、UPF,分别通过Measure关系和HappenOn关系分别获取该AMF、UPF实体的故障特征。
图7是单套SMF网元故障分析规则在知识图谱中的表示;其中VNF实体包括:主用SMF、备用SMF、AMF、UPF,EVENT实体包括:ALM-100050、ALM-100056、KPI-1929457679、KPI-1929457392、KPI-1929458777、KPI-1929458782、KPI-1929458784、KPI-1929457381,健康度实体,故障场景实体:单套SMF异常;以及实体间的语义关系:Match关系、HappenOn关系、Link关系、Partner关系。
基于预设规则库,下面结合具体示例对故障分析方法进行介绍,具体请参阅图9至图13。
某运营商核心网新业务开通前在业务拨测过程中,近10次测试失败5次以上,失败原因:“附着时,未接收到鉴权消息”,与此同时核心网管控单元(或称为核心网网管)收到网元上报告警和关键业务指标"SMF 5G SA会话建立成功率"异常,拨测网元信息:SMF001、SMF002、SMF003、UPF002、UPF001、AMF002、AMF001。
步骤1:由于出现网络故障,管控单元数据获取模块采集故障发生时刻的上下文数据:告警数据、KPI数据、日志数据、VNF拓扑数据等,覆盖拨测网元:SMF001、SMF002、SMF003、UPF002、UPF001、AMF002、AMF001,并将采集到的故障数据发送给知识图谱引擎。
步骤2:语义识别模块,根据预置的5GC知识图谱Schema,从故障数据中依次计算得到知识图谱Schema中表示的实体和关系。具体地:
1)请参阅图9,依据预置的Schema,解析出5GC VNF实体AMF、SMF和UPF,例如:SMF001、SMF002、SMF003、AMF001、AMF002、UPF001和UPF002。并从故障数据中识别出VNF实体类型,并获取VNF实体之间的语义关系,VNF实体之间的语义关系包括对端关系和兄弟关系。
对端关系(Link):对网络故障数据中的网元拓扑信息进行处理,按照IP地址、ID信息、Pool资源池信息、Datacenter等位置信息,将存在拓扑链接的、不同类型的VNF实例,建立Link关系。
兄弟关系(Partner):对网络故障数据中的网元拓扑信息进行处理,按照IP地址、ID信息、Pool资源池信息、Datacenter等位置信息,将存在拓扑链接的、同一类型的VNF实例,建立Partner关系。
2)请参阅图10,依据预置的Schema,解析得到EVENT实体(例如告警事件:ALM100050,KPI异常事件:KPI1929457679)。此外还得到健康度实体(图10中未示出)。
3)请参阅图11,计算VNF实体与表征故障特征的EVENT实体和健康度实体之间存在的语义关系:
测量关系(Measure):计算故障数据中的VNF的巡检结果,如果巡检结果正常,则满足Measure关系的语义约束;
触发关系(HappenOn):从故障数据中的KPI、Alarm、Log等异常数据的位置信息、Location信息、附加信息中,计算HappenOn关系的语义约束条件,将满足语义关系约束的KPI、Alarm、Log等EVENT实体与VNF实体之间建立HappenOn关系。
步骤3:多元关系匹配模块,通过网络故障分类模型处理前一步生成的故障实体和语义关系,推理计算出分类结果,确定网络故障数据对应的故障场景。
请参阅图12,在一种可能的实现方式中,网络故障分类模型为一种基于RETE网络的算法,将网元实体、故障实体和语义关系统一编译为RETE网络,通过计算该RETE网络与故障数据的语义距离,实现故障场景关联的计算处理。基于预置的故障分析规则从故障数据中识别出的故障实体、网元实体等各类实体,以及实体之间的多种语义关系进行语义关联计算,同时按照网元实体的Partner关系、Link关系计算出周边网元在该故障场景中的语义相似度,从而确定该网络故障数据发生的具体故障场景,包括具体网元设备实例信息。示例性地,向Rete网络中输入多个实体,以及多个关系(可称为关系序列),输出故障场景,包括VNF实体及该VNF对应的故障类型。
如图13所示,知识图谱引擎推理出分类结果:“单套SMF异常”,故障点发生在SMF003网元实例上,知识图谱引擎输出本次故障数据包的推理结果:(SMF003,单套SMF异常),管控单元MAE-CN获取故障分析结果(或称故障诊断结果)。
上面介绍了本申请提供的故障分析方法,下面对实现该故障分析方法的故障分析装置进行介绍,请参阅图14,为本申请实施例中故障分析装置的一个实施例示意图。
该故障分析装置,包括:
获取模块1401,用于获取网络故障数据;确定模块1402,用于基于预设的实体类型和预设的关系类型从所述网络故障数据中确定多个实体和所述多个实体之间的多个关系,所述多个实体包括至少两个网元实体;处理模块1403,用于根据所述多个实体和所述多个关系确定故障场景,所述故障场景包括目标网元实体对应的故障类型,所述目标网元实体为所述至少两个网元实体中的一个。
一种可能的实现方式中,所述多个关系包括以下至少一种:兄弟关系,所述兄弟关系用于指示两个同类型的网元实体之间的连接关系;对端关系,所述对端关系用于指示两个不同类型的网元实体之间的连接关系。
一种可能的实现方式中,所述多个实体还包括:健康度实体,所述健康度实体包括:健康、突增或突降。
一种可能的实现方式中,所述多个关系还包括测量关系,所述测量关系用于指示网元实体与对应的所述健康度实体之间的关系。
一种可能的实现方式中,所述多个实体还包括:事件实体,所述事件实体包括以下一个或多个:告警事件、关键性能指标异常事件、异常日志、MML异常事件、配置异常事件或呼叫历史记录异常事件。
一种可能的实现方式中,所述多个关系还包括触发关系,所述触发关系用于指示网元实体与对应的所述事件实体之间的关系。
一种可能的实现方式中,所述处理模块1403具体用于:将所述多个实体和所述多个语义关系输入预设的网络故障分类模型,输出所述故障场景。
应理解以上故障分析装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分单元以软件通过处理元件调用的形式实现,部分单元以硬件的形式实现。例如,以上这些单元可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,ASIC),或,一个或多个微处理器(digitalsignal processor,DSP),或,一个或者多个现场可编程门阵列(field programmable gatearray,FPGA)等。再如,当以上某个单元通过处理元件调度程序的形式实现时,该处理元件可以是通用处理器,例如中央处理器(central processing unit,CPU)或其它可以调用程序的处理器。再如,这些单元可以集成在一起,以片上系统(system-on-a-chip,SOC)的形式实现。
请参阅图15,为本申请实施例中故障分析装置的另一个实施例示意图;
本实施例提供的故障分析装置,可以为实体设备或虚拟设备,本申请实施例中对其具体设备形态不做限定。
该故障分析装置1500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器1501和存储器1502,该存储器1502中存储有程序或数据。
其中,存储器1502可以是易失性存储或非易失性存储。可选地,处理器1501是一个或多个中央处理器(central processing unit,CPU),该CPU可以是单核CPU,也可以是多核CPU。处理器1501可以与存储器1502通信,在故障分析装置1500上执行存储器1502中的一系列指令,可以实现本申请提供的故障分析方法。
该故障分析装置1500还包括一个或一个以上有线或无线网络接口1503,可以获取网络故障数据。
可选地,尽管图15中未示出,故障分析装置1500还可以包括一个或一个以上电源;一个或一个以上输入输出接口,输入输出接口可以用于连接显示器、鼠标、键盘、触摸屏设备或传感设备等,输入输出接口为可选部件,可以存在也可以不存在,此处不做限定。
本实施例中故障分析装置1500中的处理器1501所执行的流程可以参考前述方法实施例中描述的方法流程,此处不加赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案和范围。

Claims (12)

1.一种故障分析方法,其特征在于,包括:
获取网络故障数据;
基于预设的实体类型和预设的关系类型从所述网络故障数据中确定多个实体和所述多个实体之间的多个关系,所述多个实体包括至少两个网元实体;
根据所述多个实体和所述多个关系确定故障场景,所述故障场景包括目标网元实体对应的故障类型,所述目标网元实体为所述至少两个网元实体中的一个。
2.根据权利要求1所述的方法,其特征在于,所述多个关系包括以下至少一种:
兄弟关系,所述兄弟关系用于指示两个同类型的网元实体之间的连接关系;
对端关系,所述对端关系用于指示两个不同类型的网元实体之间的连接关系。
3.根据权利要求1或2所述的方法,其特征在于,所述多个实体还包括:健康度实体,所述健康度实体包括:健康、突增或突降。
4.根据权利要求3所述的方法,其特征在于,所述多个关系还包括测量关系,所述测量关系用于指示网元实体与对应的所述健康度实体之间的关系。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述多个实体还包括:事件实体,所述事件实体包括以下一个或多个:
告警事件、关键性能指标异常事件、异常日志、人机语言异常事件、配置异常事件或呼叫历史记录异常事件。
6.根据权利要求5所述的方法,其特征在于,所述多个关系还包括触发关系,所述触发关系用于指示网元实体与对应的所述事件实体之间的关系。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述根据所述多个实体和所述多个语义关系确定故障场景,包括:
将所述多个实体和所述多个语义关系输入预设的网络故障分类模型,输出所述故障场景。
8.一种故障分析装置,其特征在于,包括:
获取模块,用于获取网络故障数据;
确定模块,用于基于预设的实体类型和预设的关系类型从所述网络故障数据中确定多个实体和所述多个实体之间的多个关系,所述多个实体包括至少两个网元实体;
处理模块,用于根据所述多个实体和所述多个关系确定故障场景,所述故障场景包括目标网元实体对应的故障类型,所述目标网元实体为所述至少两个网元实体中的一个。
9.根据权利要求8所述的故障分析装置,其特征在于,所述处理模块具体用于:将所述多个实体和所述多个语义关系输入预设的网络故障分类模型,输出所述故障场景。
10.一种故障分析装置,其特征在于,包括:
存储器,所述存储器中存储有计算机可读指令;
与所述存储器相连的处理器,所述计算机可读指令被所述处理器执行时,使得所述网络设备实现如权利要求1至7中任一项所述的方法。
11.一种计算机程序产品,其特征在于,包括计算机可读指令,当所述计算机可读指令在计算机上运行时,使得所述计算机执行如权利要求1至7中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如权利要求1至7中任一项所述的方法。
CN202210612110.8A 2022-05-31 2022-05-31 故障分析方法及故障分析装置 Pending CN117201270A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210612110.8A CN117201270A (zh) 2022-05-31 2022-05-31 故障分析方法及故障分析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210612110.8A CN117201270A (zh) 2022-05-31 2022-05-31 故障分析方法及故障分析装置

Publications (1)

Publication Number Publication Date
CN117201270A true CN117201270A (zh) 2023-12-08

Family

ID=88989314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210612110.8A Pending CN117201270A (zh) 2022-05-31 2022-05-31 故障分析方法及故障分析装置

Country Status (1)

Country Link
CN (1) CN117201270A (zh)

Similar Documents

Publication Publication Date Title
CN112162878B (zh) 数据库故障发现方法、装置、电子设备及存储介质
CN111756582B (zh) 基于nfv日志告警的业务链监控方法
CN111309565B (zh) 告警处理方法、装置、电子设备以及计算机可读存储介质
CN108964995A (zh) 基于时间轴事件的日志关联分析方法
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
CN107770797A (zh) 一种无线网络告警管理的关联分析方法及系统
CN113542017A (zh) 基于网络拓扑和多指标的一种网络故障定位方法
CN114430365B (zh) 故障根因分析方法、装置、电子设备和存储介质
CN113392893B (zh) 业务故障的定位方法、装置、存储介质及计算机程序产品
CN114579407B (zh) 一种因果关系检验和微服务指标预测报警方法
CN114465874A (zh) 故障预测方法、装置、电子设备与存储介质
CN113590451A (zh) 一种根因定位方法、运维服务器及存储介质
CN113271224A (zh) 节点的定位方法、装置、存储介质及电子装置
CN118214649B (zh) 一种基于网络拓扑结构的运维故障快速定位方法
CN115118621A (zh) 一种基于依赖关系图的微服务性能诊断方法及系统
CN116662058A (zh) 一种故障传播关系的构建方法、装置、设备及存储介质
CN114531338A (zh) 一种基于调用链数据的监控告警和溯源方法及系统
CN113656252A (zh) 故障定位方法、装置、电子设备以及存储介质
CN116662127A (zh) 一种设备告警信息分类并预警的方法、系统、设备和介质
CN117201270A (zh) 故障分析方法及故障分析装置
CN114880153A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN114745743A (zh) 一种基于知识图谱的网络分析方法及装置
CN114881112A (zh) 一种系统异常检测方法、装置、设备及介质
CN107566187B (zh) 一种sla违例监测方法、装置和系统
CN112948154A (zh) 一种系统异常诊断方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication