CN114969366A - 一种网络故障的分析方法、装置及设备 - Google Patents
一种网络故障的分析方法、装置及设备 Download PDFInfo
- Publication number
- CN114969366A CN114969366A CN202210576206.3A CN202210576206A CN114969366A CN 114969366 A CN114969366 A CN 114969366A CN 202210576206 A CN202210576206 A CN 202210576206A CN 114969366 A CN114969366 A CN 114969366A
- Authority
- CN
- China
- Prior art keywords
- knowledge graph
- model
- work order
- fault
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请提供了一种网络故障的分析方法、装置及设备,解决了网络故障定位不准确,网络故障处理效率低的问题。该方法包括:获取第一网络中多个工单的故障处理信息,并根据第一网络中多个工单的故障处理信息,生成第一知识图谱,第一知识图谱包括工单与故障根因的关系;将第一知识图谱输入到预设的第一模型进行预测,得到第二模型;将目标工单输入到第二模型进行推理,得到第二知识图谱,第二知识图谱包括目标工单与第一故障根因的关系;根据第二知识图谱处理目标工单对应的第一故障根因。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种网络故障的分析方法、装置及设备。
背景技术
随着互联网的迅速发展,通信网络承载更多的用户业务,也有更多的物理设备接入其中,通信网络的结构越来越复杂。当通信网络中某个设备发生故障时,可能会造成通信网络中其他的一个或多个设备也无法工作,产生相应的告警,即衍生告警。
目前,针对网络故障的处理,主要依赖于运维人员自身的经验,但当通信网络相对复杂时,运维人员难以迅速定位网络故障。现有技术中,还可以根据告警之间的语义相似度,确定告警间的关联关系,然后根据告警间的关联关系辅助定位网络故障。但是根源告警与衍生告警之间在语义上不一定总是相似的,因此仅依靠语义相似度会导致确定的根源告警不够准确,从而影响网络故障处理效率。
发明内容
本申请提供了一种网络故障的分析方法、装置及设备,可以更准确的定位网络的根源故障,有利于提高网络故障处理效率。
为达到上述目的,本申请采用如下技术方案:
第一方面,本申请提供了一种网络故障的分析方法,包括:获取第一网络中多个工单的故障处理信息;根据第一网络中多个工单的故障处理信息,生成第一知识图谱,第一知识图谱包括工单与故障根因的关系;第一知识图谱还包括工单包含的告警、告警之间的衍生关系、告警发生的设备、告警对应的故障根因、以及故障根因与设备的关系中的一项或多项;将第一知识图谱输入到预设的第一模型进行预测,得到第二模型;将目标工单输入到第二模型进行推理,得到第二知识图谱,第二知识图谱包括目标工单与第一故障根因的关系;第二知识图谱还包括目标工单包含的告警、告警之间的衍生关系、告警发生的设备、告警对应的第一故障根因、以及第一故障根因与设备的关系中的一项或多项;根据第二知识图谱处理目标工单对应的第一故障根因。
结合上述第一方面,在一种可能的实现方式中,第一知识图谱中包含多个三元组,每个三元组用于表征第一知识图谱中节点与节点之间的关系,其中节点为工单、告警、设备、故障根因中的任一种,节点与节点之间的关系包括工单与故障根因之间的关系、工单与告警的包含关系、告警与告警之间的衍生关系、告警与设备的发生关系、告警与故障根因之间的对应关系以及故障根因与设备的关系中的一项或多项。
结合上述第一方面,在一种可能的实现方式中,将第一知识图谱输入到预设的第一模型进行预测,得到第二模型,包括:对第一知识图谱的节点进行编码,确定第一嵌入向量;通过对第一嵌入向量解码,得到第二嵌入向量,第二嵌入向量为第一知识图谱中节点与节点之间关系的嵌入向量;根据第一嵌入向量,第二嵌入向量以及损失函数,得到第二模型。
结合上述第一方面,在一种可能的实现方式中,预设的第一模型包括图神经网络GNN模型和Distmult模型。
结合上述第一方面,在一种可能的实现方式中,将目标工单输入到第二模型进行推理,得到第二知识图谱,包括:根据目标工单以及第一知识图谱,得到候选三元组;根据候选三元组在第二模型中的打分值,得到第二知识图谱。
结合上述第一方面,在一种可能的实现方式中,在将目标工单输入到第二模型进行推理,得到第二知识图谱之后,还包括:将第二知识图谱输入到第二模型中迭代运算,更新第二模型。
第二方面,本申请提供了一种一种网络故障的分析装置,装置包括获取模块和处理模块;获取模块,用于获取第一网络中多个工单的故障处理信息;处理模块,用于根据第一网络中多个工单的故障处理信息,生成第一知识图谱,第一知识图谱包括工单与故障根因的关系;第一知识图谱还包括工单包含的告警、告警之间的衍生关系、告警发生的设备、告警对应的故障根因、以及故障根因与设备的关系中的一项或多项;处理模块,还用于将第一知识图谱输入到预设的第一模型进行预测,得到第二模型;处理模块,还用于将目标工单输入到第二模型进行推理,得到第二知识图谱,第二知识图谱包括目标工单与第一故障根因的关系;第二知识图谱还包括目标工单包含的告警、告警之间的衍生关系、告警发生的设备、告警对应的第一故障根因、以及第一故障根因与设备的关系中的一项或多项;处理模块,还用于根据第二知识图谱处理目标工单对应的第一故障根因。
结合上述第二方面,在一种可能的实现方式中,第一知识图谱中包含多个三元组,每个三元组用于表征第一知识图谱中节点与节点之间的关系,其中节点为工单、告警、设备、故障根因中的任一种,节点与节点之间的关系包括工单与故障根因之间的关系、工单与告警的包含关系、告警与告警之间的衍生关系、告警与设备的发生关系、告警与故障根因之间的对应关系以及故障根因与设备的关系中的一项或多项。
结合上述第二方面,在一种可能的实现方式中,处理模块,还用于将第一知识图谱输入到预设的第一模型进行预测,得到第二模型,包括:对第一知识图谱的节点进行编码,确定第一嵌入向量;通过对第一嵌入向量解码,得到第二嵌入向量,第二嵌入向量为第一知识图谱中节点与节点之间关系的嵌入向量;根据第一嵌入向量,第二嵌入向量以及损失函数,得到第二模型。
结合上述第二方面,在一种可能的实现方式中,预设的第一模型包括图神经网络GNN模型和Distmult模型。
综上可见,在本申请实施例提供的一种网络故障的分析方法,获取第一网络中多个工单的故障处理信息,生成第一知识图谱。将第一知识图谱输入到预设的第一模型进行预测,得到第二模型。将目标工单输入到第二模型进行推理,得到第二知识图谱。根据第二知识图谱处理目标工单对应的第一故障根因。另外,还可以将第二知识图谱输入到第二模型中迭代运算,更新第二模型。如此,可以清晰地表示出工单与故障根因之间的工单根因关系,更准确的定位网络故障,避免了人为推理故障,节约了时间,有利于提高效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种网络故障的分析系统的结构示意图;
图2为本申请实施例提供的一种网络故障的分析方法的流程示意图;
图3为本申请实施例提供的一种知识图谱的框架的示意图;
图4为本申请实施例提供的一种第一知识图谱的示意图;
图5为本申请实施例提供的一种网络故障的分析方法的流程框图;
图6为本申请实施例提供的另一种网络故障的分析方法的流程示意图;
图7为本申请实施例提供的又一种网络故障的分析方法的流程示意图;
图8为本申请实施例提供的一种网络故障分析方法的装置示意图;
图9为本申请实施例提供的一种网络故障分析方法的设备示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在介绍本申请实施例提供的方法之前,对本申请实施例涉及的术语进行简单介绍。
知识图谱:是一种结构化的语义知识库,以符号形式描述客观世界中的实体(或概念)及其相互关系。从图的角度来看,知识图谱在本质上是一种网络,其中的节点表示客观世界的实体,而边则表示实体间的各种关系。
其中,知识图谱中的每个节点对应一个实体。每个实体可以有自己的属性,比如名称、编号、大小等。
关系用于描述实体之间的客观存在的关联。在知识图谱中每条边对应一种关系,每个关系可以有自己的名称和权重信息。示例性的,实体之间的关系可以为包含关系、衍生关系等。例如,在本申请实施例中,工单包含告警,也就是说,工单和告警之间存在包含关系。
知识图谱的框架(schema):是对节点进行建模的规范,是描述客观世界的抽象模型,以形式化方式对节点及其之间的关系给出明确的定义。可以理解的是,schema定义了知识图谱中的数据模型。具体的,schema定义了节点的类型和关系的类型。
图神经网络(Graph Neural Network,GNN):是指使用神经网络来学习图结构数据,提取和发掘图结构数据中的特征和模式,满足聚类、分类、预测、分割、生成等图学习任务需求的算法总称。图神经网络的目标是学习每个节点的向量表示,该向量表示可用于许多任务,例如链接预测。考虑将实际场景中各个实体抽象为不同的节点,实体间的物理连接或软件调用关系抽象为边的连接,从而将问题建模为异构图上的链接预测问题。
嵌入向量(embedding):是指将样本映射到向量空间中的一种表征方式。
Distmult模型:是一个知识图谱表示学习模型,通过双线性函数衡量实体和关系在向量空间的潜在语义成立的可能性。
损失函数(loss function):也可以称为代价函数(cost function),一种比较学习模型对样本的预测输出和样本的真实值区别的度量,即用于衡量学习模型对样本的预测输出和样本的真实值之间的区别。该损失函数通常可以包括误差均方、交叉熵、对数、指数等损失函数。例如,可以使用交叉熵作为损失函数,可以根据实际应用场景选择具体的损失函数。
如图1所示,为本申请实施例提供的一种网络故障的分析系统的结构示意图,该网络故障的分析系统可以包括:第一网络110、第一设备120和第二设备130。
第一网络110包括至少一个设备,这些设备共同执行一个或多个业务。在第一网络110执行任务的过程中,其中的一个或多个设备可能发生故障,从而产生告警。在一些示例中,设备可以软件实现,例如虚拟机、容器、应用、服务、微服务、模块、子模块、类或函数等,设备可以为一个设备中运行的软件,也可以为多个设备中运行的软件的集合。在另一种示例中,设备也可以采用硬件实现,其可以为服务器、基站、交换机、路由器、中继、网桥、防火墙、移动终端、个人电脑、笔记本电脑、磁盘、固态硬盘(Solid State Drives,SSD)、磁盘阵列(Redundant Arrays of Independent Disks,RAID)、存储区域网络(Storage AreaNetwork,SAN)、网络互连协议(Internet Protocol,IP)SAN、光纤通道(Fiber Channel,FC)SAN、网络附属存储(Network Attached Storage,NAS)、负载均衡器、移动性管理实体(mobility management entity,MME)、归属签约用户服务器(home subscriber server,HSS)、服务网关(serving-gateway,SGW)、分组数据网网关(packet data networkgateway,PGW)、策略和计费规则功能(policy and charging rules function,PCRF)网元、光网络终端(Optical network terminal,ONT)、光网络单元(Optical Network Unit,ONU)、分光器、物联网终端、传感器等;设备可以采用一个独立的硬件实现,也可以采用多个通过有线或无线网络连接的硬件实现。本实施例对设备的具体形态不做限定。
第一设备120,可以为第一网络110的维护管理设备,用于收集第一网络110中工单的故障处理信息。其中,工单是指第一网络110运行过程中产生的故障处理任务。在一些示例中,工单可以是第一网络110运行过程中产生故障后,自动生成的故障处理任务。例如,第一设备120可以根据第一网络110中设备告警生成工单。或者,第一网络110的维护人员在接收到用户的投诉后,手动生成的第一网络110的故障处理任务。工单包括工单编号,设备名称,告警名称,发生时间等。工单的故障处理信息还包括故障根因,其中,故障根因是指网络中产生故障的根本原因,即网络中的根源故障。
当第一设备120生成工单后,运维人员可以结合一段时间内同一地点生成的工单,对现场进行排查,确定并修复故障,并将故障根因填入工单中,从而第一设备120可以获取第一网络110中工单的故障处理信息。可以理解的是,根据用户投诉得到的工单的内容不一定是准确的,可以由运维人员修复故障后进行修改。示例性的,第一设备120可以是一台服务器,也可以是有多台服务器组成的服务器集群,或者是一个云计算服务中心。
第二设备130,是具有数据处理能力的电子设备。在一些示例中,第二设备130可以获取第一设备120存储的第一网络110中多个工单的故障处理信息,并生成第一知识图谱。通过第一知识图谱,得到第二模型。将目标工单输入到第二模型中进行推理,得到第二知识图谱,从而根据第二知识图谱处理目标工单对应的故障根因。示例性的,第二设备130可以是一台服务器,也可以是有多台服务器组成的服务器集群,或者是一个云计算服务中心。
需要说明的是,上述网络故障的分析系统包含的设备,以及各个设备的分工(执行的功能)仅为示例。本申请实施例并不限定网络故障的分析系统包含的设备的数量,以及各个设备的具体分工。可以理解的是,在其他一些示例中,第一设备120和第二设备130可以是同一个设备,本申请对此不做具体限定。
下面结合说明书附图,对本申请提供的实施例进行具体介绍。
如图2所示,为本申请实施例提供的一种网络故障的分析方法的流程示意图,该方法可应用于图1所述的网络故障的分析系统中的第二设备130,该流程包括:
S201、获取第一网络中多个工单的故障处理信息。
其中,工单是指第一网络运行过程中产生的故障处理任务。在一些示例中,工单可以是第一网络运行过程中产生故障后,自动生成的故障处理任务,或者,工单可以是第一网络的维护人员在接收到用户的投诉后,手动生成的第一网络的故障处理任务。工单可以包括工单编号,设备名称,告警名称,发生时间等。
在一些实施例中,当第一网络中发生故障时(如光缆坏,市政断电),第一网络中的设备会上报告警。其中,告警包括根源告警和衍生告警。根源告警是指发生故障的设备直接产生的告警,或由于网络中的故障(如光缆坏)导致设备产生告警。衍生告警是由根源告警衍生出的一些告警。可以理解的是,当第一网络中某一处发生故障时,可以产生多个根源告警。例如,设备A与设备B可以通过光缆C进行通信,若光缆C发生损坏,则设备A和设备B产生的告警即为根源告警。而包含设备A和设备B的业务路径上其他设备均会上报相关告警,即衍生告警,从而会导致大量告警产生。根据第一网络中设备上报的告警,产生相应的工单,其中,一个工单中包括至少一个告警,也可以包括多个告警。可以理解的是,一个工单中包含多个告警,此时,该多个告警是由同一设备上报的。
在另一些实施例中,根据用户投诉生成相应的工单。其中,投诉的内容应与工单所需的内容相对应,投诉内容包括时间(即对应工单中的发生时间)、地点、异常设备(即地点和异常设备对应工单中的设备名称)、异常情况(即对应工单中的告警名称)。例如,某用户投诉下午4点在家里使用手机通信时,存在信号弱的问题。
如上文所述,在获取第一网络中多个工单后,运维人员可以结合一段时间内同一地点生成的工单,对现场进行排查,确定并修复故障,并将故障根因填入工单中,从而获取第一网络中工单的故障处理信息。可以理解的是,根据用户投诉得到的工单的内容(如告警名称)不一定是准确的,可以由运维人员修复故障后进行修改。
如表1所示,为本申请提供的一种工单的故障处理信息的示例。工单的故障信息包括工单编号,设备名称,告警名称,发生时间,以及故障根因,其中,故障根因是指网络中产生故障的根本原因,即网络中的根源故障。
表1
S202、根据第一网络中多个工单的故障处理信息,生成第一知识图谱。
在一些实施例中,根据第一网络中多个工单的故障处理信息,形成一种知识图谱的框架,如图3所示,为本申请实施例提供的一种知识图谱的框架示意图。该知识图谱的框架中的节点可以包括工单、告警、设备、故障根因。该知识图谱的框架中节点与节点之间的关系(也称为边)可以包括工单与故障根因之间的关系(简称为工单根因关系),还可以包括工单与告警的包含关系、告警与告警之间的衍生关系、告警与设备的发生关系、告警与故障根因之间的对应关系以及故障根因与设备的关系(如关联关系)中的一项或多项。
在一些实施例中,可以基于知识图谱的框架对第一网络中多个工单的故障处理信息进行处理,得到第一知识图谱。其中,第一知识图谱包括每个工单包含的实体,即工单编号、告警名称、设备名称以及故障根因,工单与故障根因的工单根因关系,还包括工单包含的告警、告警之间的衍生关系、告警发生的设备、告警对应的故障根因、以及故障根因与设备的关联关系中一项或多项。具体的,在提取工单中的故障处理信息时,根据知识图谱的框架中节点获取故障处理信息中的实体,根据知识图谱的框架中节点与节点的关系获取故障处理信息中实体与实体之间的关系。例如,第一知识图谱框架中工单对应着工单中的工单编号(如10号),第一知识图谱框架中告警对应着工单中的告警名称(如小区不可用告警_线路),第一知识图谱框架中设备对应着工单中的设备名称(如XX省XX市XX区XX小区X号楼基站机房),第一知识图谱框架中故障根因对应着工单中的故障根因(如光缆坏)。根据每个工单的故障处理信息,得到每种边类型包括的多组节点。其中,边类型用于表示节点之间的关联关系的类型,一组节点包含两个节点,以及两个节点之间的关系。
如图4所示,为本申请实施例提供的一种第一知识图谱的示意图。需要说明的是,第一知识图谱中一组节点包含的两个节点可以是同一种类型的节点,如图4中的一组节点包含节点D和节点E,节点D和节点E都属于告警,节点D和节点E之间具有衍生关系。第一知识图谱中多组节点可以包含同一节点,也就是说,第一网络多个工单的故障处理信息中名称相同的实体,对应着第一知识图谱中的同一节点,例如,图4中的一组节点包含节点F和节点G,节点F是工单,节点G是故障根因(如光缆坏),节点F和节点G之间具有工单根因关系。另一组节点包含节点H和节点G,节点H是工单,节点G是故障根因(如光缆坏),节点H和节点G之间具有工单根因关系。也就是说,两组节点故障根因的名称相同。
在一些实施例中,可以将第一知识图谱采用三元组的形式进行表示,其中,三元组是一种通用的表示形式,三元组的基本形式包括(节点1-关系-节点2)。例如,在本申请实施例中,工单-包含-告警是一个(节点1-关系-节点2)的三元组示例,其中,工单是节点1,告警是节点2,包含就是工单和告警的关系。即将第一知识图谱中每种边类型包含的多组节点采用(h,r,t)的形式进行表示,其中,h表示节点1,r表示关系,t表示节点2。具体的,第一知识图谱中的节点对应着三元组中的节点1或节点2,第一知识图谱中的边对应着三元组中的关系。例如,第一知识图谱中工单根因关系中包含的一组节点为“5号”和“市政停电”,则可以将该组节点表示为(5,工单根因,市政停电)。
S203、将第一知识图谱输入到预设的第一模型进行预测,得到第二模型。
其中,预设的第一模型包括GNN模型和Distmult模型,还可以包括损失函数。
示例性的,参见图5,步骤S203可以包括下述步骤S2031-步骤S2033。
S2031、对第一知识图谱的节点进行编码,确定第一嵌入向量。
其中,节点包括节点1和节点2,第一嵌入向量包括节点1的嵌入向量和节点2的嵌入向量。
在一些实施例中,采用GNN模型对第一知识图谱中的节点进行编码(encoder),得到第一嵌入向量。其中,第一嵌入向量的维度n是预先设定的,例如,n取[50,200]中任意一个整数。需要理解的是,维度对应着样本映射到向量空间的粒度,维度越高,粒度越小,表示的样本语义越准确,同时计算量也越大;维度越低,粒度越大,表示的样本语义越模糊,同时计算量也越小。具体的,将第一知识图谱中的节点初始化为嵌入向量,即为GNN模型提取到的节点特征。例如,取n为50,将第一知识图谱中工单“10号”初始化为嵌入向量,则初始化的嵌入向量可以表示为[a1,a2,…,a50]的向量矩阵,其中a1=1,其余项都为0。在将第一知识图谱中的节点初始化为嵌入向量后,采用公式1对初始化的嵌入向量进行更新:
其中,l表示节点i在预设的第一模型中更新的次数,l∈[0,M],l为正整数,M∈[2,4],ei (l+1)表示节点i第(l+1)次更新的嵌入向量,i∈Y,Y为第一知识图谱中的节点的数量;σ表示非线性函数,R表示边类型的集合,r表示边类型中任一种边类型,表示与节点i具有边类型r的邻居节点的数量,j表示与节点i具有边类型r的邻居节点中任一邻居节点;ci,r表示归一化常数,表示边类型r第l次对应的权重矩阵,表示节点j第l次更新的嵌入向量,表示节点i第l次进行自循环对应的权重矩阵,表示节点i第l次更新的嵌入向量。
可以理解的是,每一次嵌入向量的更新都是由上一次的嵌入向量和关系得到的,每个嵌入向量的更新都是由邻居节点的嵌入向量和自身的嵌入向量进行加权得到的。
S2032、通过对第一嵌入向量解码,得到第二嵌入向量。
其中,第二嵌入向量为第一知识图谱中节点与节点之间关系的嵌入向量。
在一些实施例中,将成立三元组中的节点1、关系和节点2映射到向量空间中,得到节点1的嵌入向量、关系的嵌入向量和节点2的嵌入向量。其中,节点1的嵌入向量加上关系的嵌入向量与节点2的嵌入向量非常相近,即h+r≈t,其中,h为节点1的嵌入向量,r为关系的嵌入向量,t为节点2的嵌入向量。则可以采用Distmult模型对第一嵌入向量进行解码,得到第二嵌入向量。其中,Distmult模型可以采用公式2进行表示:
S2033、根据第一嵌入向量,第二嵌入向量以及损失函数,得到第二模型。
在一些实施例中,将第一嵌入向量和第二嵌入向量代入损失函数中,通过调整损失函数(如交叉熵损失函数)使得正样本的三元组(即第一知识图谱的三元组)得分高于负样本三元组的得分,得到优化后的第一嵌入向量以及优化后的第二嵌入向量,并将优化后的第一嵌入向量以及优化后的第二嵌入向量代入到公式2中,得到第二模型。具体的,构造负样本三元组,例如,对于三元组(h,r,t)而言,替换节点h为其他节点h’,或者,替换节点t为其他节点t’。此时,可以得到如下三种三元组:(h’,r,t’)、(h,r,t)、(h’,r,t’)。若上述三元组在该用户所对应的知识图谱中不存在,则得到了正样本三元组(h,r,t)的负样本三元组。将正样本三元组合负样本三元组代入到损失函数中,损失函数可以采用公式3进行表示:
其中,T表示正样本三元组和负样本三元组的集合;(h,r,t,y)表示正样本的三元组或负样本的三元组,当取正样本时,y=1,当取负样本时,y=0;f(h,r,t)表示Distmult模型;l表示S型生长曲线函数,也可以称为Sigmoid函数,或Logistic函数。
利用随机梯度下降法,来迭代更新节点1的嵌入向量、节点2的嵌入向量、关系的嵌入向量,通过调整损失函数,如求解损失函数的最小值,进而确定优化后的节点1的嵌入向量、优化后的节点2的嵌入向量、优化后的关系的嵌入向量,即优化后的第一嵌入向量以及优化后的第二嵌入向量。
需要说明的是,梯度下降算法可参考现有技术,本申请实施例对此不予赘述。
S204、将目标工单输入到第二模型进行推理,得到第二知识图谱。
其中,目标工单至少包括一个工单,目标工单为待处理的工单,也就是说,目标工单的故障根因是未知的。
在一些实施例中,基于上述知识图谱的框架提取目标工单中的信息,得到第三知识图谱。其中,第三知识图谱中包括每个目标工单中包含的实体,即工单编号、告警名称和设备名称,还可以包括目标工单包含的告警、告警发生的设备中一项或多项。另外,还可以包括部分目标工单中的告警之间的衍生关系。可以理解的是,第三知识图谱中缺少目标工单的第一故障根因,以及目标工单与第一故障根因的工单根因关系,还可以缺少目标工单包含的告警、告警之间的衍生关系、告警发生的设备、告警对应的第一故障根因、以及第一故障根因与设备的关联关系中一项或多项。其中,第一故障根因为目标工单对应的故障根因。
具体的,在提取目标工单中的信息时,根据知识图谱的框架中节点获取信息中的实体,根据知识图谱的框架中节点与节点的关系获取信息中实体与实体之间的关系。具体过程可以参考步骤S202,在此不再赘述。
下面对第三知识图谱进行推理的过程进行说明,即步骤S204可以具体包括下述步骤S2041-步骤S2043。
S2041、根据第三知识图谱,以及第一知识图谱,得到候选三元组。
在一些实施例中,将第三知识图谱中的工单作为节点1,工单根因关系作为关系,第一知识图谱中的故障根因作为节点2,构成候选三元组。具体的,若第三知识图谱中包含I个工单节点,第一知识图谱中包含J个故障根因节点,则将第三知识图谱中每一个工单节点与第一知识图谱中每一个故障根因节点组成候选三元组,即构建(I×J)个候选三元组。
在另一些实施例中,将第三知识图谱中的告警作为节点1,衍生关系作为关系,第三知识图谱中的告警作为节点2,构成候选三元组。具体的,若第三知识图谱中包含K个告警节点,则将第三知识图谱中的每一个告警节点与第三知识图谱中除本身以外的每一个告警节点组成候选三元组,即构建[K×(K-1)]个候选三元组。
S2042、将候选三元组中的节点转化为优化后的第一嵌入向量,将候选三元组中的关系转化为优化后的第二嵌入向量。
在一些实施例中,根据第一网络中多个工单的故障处理信息,得到了优化后的第一嵌入向量和优化后的第二嵌入向量。此时,第一知识图谱中的节点与优化后的第一嵌入向量之间存在一一对应的关系,类似的,第一知识图谱中的边与优化后的第二嵌入向量之间存在一一对应的关系。则根据第一知识图谱中的节点与优化后的第一嵌入向量之间存在一一对应的关系,将候选三元组中的节点转化为优化后的第一嵌入向量,类似的,根据第一知识图谱中的边与优化后的第二嵌入向量之间存在一一对应的关系,将候选三元组中的关系转化为优化后的第二嵌入向量。
S2043、根据候选三元组在第二模型中的打分值,得到第二知识图谱。
其中,第二知识图谱中包括每个目标工单中包含的实体,即工单编号、告警名称、设备名称以及第一故障根因,目标工单与第一故障根因的工单根因关系,还可以包括目标工单包含的告警、告警之间的衍生关系、告警发生的设备、告警对应的第一故障根因、以及第一故障根因与设备的关联关系中一项或多项。
在一些实施例中,将边类型为工单根因关系的候选三元组输入到第二模型中,即Distmult模型(公式2),进行打分。将每一个工单对应的候选三元组中打分值最高的候选三元组作为推理结果,并将推理结果补入第三知识图谱中,得到第二知识图谱。例如,继续以边类型为工单根因关系的候选三元组有(I×J)个为例,其中,第三知识图谱中具有I个工单节点,每个工单节点具有J个候选三元组,取每个工单节点的J个候选三元组中打分值最高的候选三元组作为推理结果,进而得到I个三元组作为推理结果,并补入到第三知识图谱中。可选的,可以根据每一个工单对应的候选三元组中的打分值,设定第一阈值,将打分值超过第一阈值的候选三元组作为推理结果。
在另一些实施例中,将边类型为衍生关系的候选三元组输入到第二模型中,即Distmult模型(公式2),进行打分。将候选三元组中打分值最高的候选三元组作为推理结果,并将推理结果补入第三知识图谱中,得到第二知识图谱。例如,继续以边类型为衍生关系的候选三元组有[K×(K-1)]个为例,取候选三元组中打分值最高的候选三元组作为推理结果,并补入到第三知识图谱中。可选的,可以根据边类型为衍生关系的候选三元组的打分值,设定第二阈值,将打分值超过第二阈值的候选三元组作为推理结果。
S205、根据第二知识图谱处理目标工单对应的第一故障根因。
在一些实施例中,第二知识图谱表征了目标工单中第一工单与第一故障根因之间的工单根因关系。运维人员可以根据第二知识图谱中目标工单对应的第一故障根因,以及目标工单中设备名称,对故障进行修复。
可选的,若第二知识图谱中目标工单对应的第一故障根因存在错误,运维人员还可以根据实际情况进行修正。
可以理解的是,当第二知识图谱中一个工单节点对应着多个第一故障根因时,运维人员可以根据多个第一故障根因进行现场排查,并在修复故障后确定第一故障根因。
在另一种可能的设计中,参见图6所示,在步骤S205之后,所述方法还包括:
S301、将第二知识图谱输入到第二模型中迭代运算,更新第二模型。
在一些实施例中,将目标工单输入得到第二模型中进行推理后,可以得到节点与节点之间新的连接关系,例如,在第一知识图谱中,告警1和告警2之间不存在衍生关系,在将目标工单输入得到第二模型中进行推理后,得到告警1与告警2之间具有衍生关系。将第二知识图谱输入到第二模型中,公式1中边类型的权重矩阵将发生变化,进一步的,优化后的第一嵌入向量和优化后的第二嵌入向量将会发生改变,从而更新第二模型。
综上可知,如图7所示,获取第一网络中多个工单的故障处理信息,生成第一知识图谱。将第一知识图谱输入到预设的第一模型进行预测,得到第二模型。其中,预设的第一模型包括建立模型和训练模型两部分,建立模型包括利用GNN模型对第一知识图谱中的节点进行编码,得到第一嵌入向量,之后利用如Distmult模型对第一嵌入向量进行解码,得到第二嵌入向量。通过最小化损失函数(如交叉熵损失函数),对模型进行训练,最后得到第二模型。将目标工单输入到第二模型进行推理,得到第二知识图谱。根据第二知识图谱处理目标工单对应的第一故障根因。另外,还可以将第二知识图谱输入到第二模型中迭代运算,更新第二模型。
如此,通过本申请实施例提供的方法生成第二知识图谱,可以清晰地表示出工单与故障根因之间的工单根因关系,与其他方法相比,考虑了节点与节点之间的关系对补全知识图谱的影响,可以更准确的定位网络故障,避免了人为推理故障,节约了时间,有利于提高效率。另外,本申请除了预测了目标工单中目标工单与第一故障根因之间的工单根因关系,还预测了目标工单中告警与告警之间的衍生关系,可以作为一种经验积累,输入到第二模型,更新第二模型,使得更新后的第二模型更加准确。
上述主要从方法的角度对本申请实施例提供的方案进行了介绍。可以理解的是,为了实现上述功能,本申请实施例提供的装置包含了执行各个功能相应的硬件结构和/或软件网元。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
如图8所示,为本申请实施例提供的一种装置400的结构示意图。装置400包括获取模块401和处理模块402。获取模块401,用于获取第一网络中多个工单的故障处理信息;处理模块402,用于根据第一网络中多个工单的故障处理信息,生成第一知识图谱,第一知识图谱包括工单与故障根因的关系;第一知识图谱还包括工单包含的告警、告警之间的衍生关系、告警发生的设备、告警对应的故障根因、以及故障根因与设备的关系中的一项或多项;处理模块402,还用于将第一知识图谱输入到预设的第一模型进行预测,得到第二模型;处理模块402,还用于将目标工单输入到第二模型进行推理,得到第二知识图谱,第二知识图谱包括目标工单与第一故障根因的关系;第二知识图谱还包括目标工单包含的告警、告警之间的衍生关系、告警发生的设备、告警对应的第一故障根因、以及第一故障根因与设备的关系中的一项或多项;处理模块402,还用于根据第二知识图谱处理目标工单对应的第一故障根因。
可选的,第一知识图谱中包含多个三元组,每个三元组用于表征第一知识图谱中节点与节点之间的关系,其中节点为工单、告警、设备、故障根因中的任一种,节点与节点之间的关系包括工单与故障根因之间的关系、工单与告警的包含关系、告警与告警之间的衍生关系、告警与设备的发生关系、告警与故障根因之间的对应关系以及故障根因与设备的关系中的一项或多项。
可选的,处理模块402,还用于将第一知识图谱输入到预设的第一模型进行预测,得到第二模型,包括:对第一知识图谱的节点进行编码,确定第一嵌入向量;通过对第一嵌入向量解码,得到第二嵌入向量,第二嵌入向量为第一知识图谱中节点与节点之间关系的嵌入向量;根据第一嵌入向量,第二嵌入向量以及损失函数,得到第二模型。
可选的,预设的第一模型包括图神经网络GNN模型和Distmult模型。
可选的,该装置400还可以包括存储单元。
由于本实施例提供的装置400可执行上述网络故障的分析方法,因此其所能获得的技术效果可参考上述方法实施例,在此不再赘述。
上述装置400的结构还可以为如图9所示的服务器500。如图9所示,服务器500包括一个或多个处理器501、一个或多个存储器502、以及一个或多个通信接口503。
处理器501、存储器502和通信接口503通过总线相连接。处理器501可以包括通用中央处理器(Central Processing Unit,CPU)(例如CPU0和CPU1)、微处理器、特定应用集成电路(Application-Specific Integrated Circuit,ASIC),图形处理器(graphicsprocessing unit,GPU)、神经网络处理器(neural-network processing unit,NPU),或者用于控制本申请方案程序执行的集成电路等。
存储器502,可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。存储器502可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统以及应用程序代码等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flashstorage,UFS)等。处理器501通过运行存储在存储器502的指令,执行服务器500的各种功能应用以及数据处理。在一个示例中,处理器501也可以包括多个CPU,并且处理器501可以是一个单核(single-CPU)处理器或多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路或用于处理数据(例如计算机程序指令)的处理核。
通信接口503,可用于与其他设备或通信网络通信,如以太网,无线局域网(wireless local area networks,WLAN)等。
本申请另一实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,当计算机指令在服务器500上运行时,使得服务器500执行上述方法实施例所示的方法流程中的各个步骤。
本申请另一个实施例中还提供了提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述方法实施例所示的方法流程中的各个步骤。
本申请另一实施例还提供一种芯片系统,该芯片系统应用于服务器500。所述芯片系统包括一个或多个接口电路,以及一个或多个处理器。接口电路和处理器通过线路互联。接口电路用于从服务器500的存储器接收信号,并向处理器发送所述信号,所述信号包括所述存储器中存储的计算机指令。当处理器执行计算机指令时,服务器500执行上述方法实施例所示的方法流程中的各个步骤。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种网络故障的分析方法,其特征在于,所述方法包括:
获取第一网络中多个工单的故障处理信息;
根据所述第一网络中多个工单的故障处理信息,生成第一知识图谱,所述第一知识图谱包括工单与故障根因的关系;所述第一知识图谱还包括工单包含的告警、告警之间的衍生关系、告警发生的设备、告警对应的故障根因、以及故障根因与设备的关系中的一项或多项;
将所述第一知识图谱输入到预设的第一模型进行预测,得到第二模型;
将目标工单输入到所述第二模型进行推理,得到第二知识图谱,所述第二知识图谱包括所述目标工单与第一故障根因的关系;所述第二知识图谱还包括所述目标工单包含的告警、告警之间的衍生关系、告警发生的设备、告警对应的第一故障根因、以及所述第一故障根因与设备的关系中的一项或多项;
根据所述第二知识图谱处理所述目标工单对应的第一故障根因。
2.根据权利要求1所述的方法,其特征在于,所述第一知识图谱中包含多个三元组,每个三元组用于表征所述第一知识图谱中节点与节点之间的关系,其中所述节点为工单、告警、设备、故障根因中的任一种,所述节点与节点之间的关系包括工单与故障根因之间的关系、工单与告警的包含关系、告警与告警之间的衍生关系、告警与设备的发生关系、告警与故障根因之间的对应关系以及故障根因与设备的关系中的一项或多项。
3.根据权利要求2所述的方法,其特征在于,所述将所述第一知识图谱输入到预设的第一模型进行预测,得到第二模型,包括:
对所述第一知识图谱的节点进行编码,确定第一嵌入向量;
通过对所述第一嵌入向量解码,得到第二嵌入向量,所述第二嵌入向量为所述第一知识图谱中节点与节点之间关系的嵌入向量;
根据所述第一嵌入向量,所述第二嵌入向量以及损失函数,得到所述第二模型。
4.根据权利要求3所述的方法,其特征在于,所述预设的第一模型包括图神经网络GNN模型和Distmult模型。
5.根据权利要求4所述的方法,其特征在于,所述将目标工单输入到所述第二模型进行推理,得到第二知识图谱,包括:
根据所述目标工单以及所述第一知识图谱,得到候选三元组;
根据所述候选三元组在所述第二模型中的打分值,得到所述第二知识图谱。
6.根据权利要求1所述的方法,其特征在于,在所述将目标工单输入到所述第二模型进行推理,得到第二知识图谱之后,所述方法还包括:
将所述第二知识图谱输入到所述第二模型中迭代运算,更新所述第二模型。
7.一种网络故障的分析装置,其特征在于,所述装置包括获取模块和处理模块;
所述获取模块,用于获取第一网络中多个工单的故障处理信息;
所述处理模块,用于根据所述第一网络中多个工单的故障处理信息,生成第一知识图谱,所述第一知识图谱包括工单与故障根因的关系;所述第一知识图谱还包括工单包含的告警、告警之间的衍生关系、告警发生的设备、告警对应的故障根因、以及故障根因与设备的关系中的一项或多项;
所述处理模块,还用于将所述第一知识图谱输入到预设的第一模型进行预测,得到第二模型;
所述处理模块,还用于将目标工单输入到所述第二模型进行推理,得到第二知识图谱,所述第二知识图谱包括所述目标工单与第一故障根因的关系;所述第二知识图谱还包括所述目标工单包含的告警、告警之间的衍生关系、告警发生的设备、告警对应的第一故障根因、以及所述第一故障根因与设备的关系中的一项或多项;
所述处理模块,还用于根据所述第二知识图谱处理所述目标工单对应的第一故障根因。
8.根据权利要求7所述的装置,其特征在于,所述第一知识图谱中包含多个三元组,每个三元组用于表征所述第一知识图谱中节点与节点之间的关系,其中所述节点为工单、告警、设备、故障根因中的任一种,所述节点与节点之间的关系包括工单与故障根因之间的关系、工单与告警的包含关系、告警与告警之间的衍生关系、告警与设备的发生关系、告警与故障根因之间的对应关系以及故障根因与设备的关系中的一项或多项。
9.根据权利要求8所述的装置,其特征在于,所述处理模块,还用于将所述第一知识图谱输入到预设的第一模型进行预测,得到第二模型,包括:
对所述第一知识图谱的节点进行编码,确定第一嵌入向量;
通过对所述第一嵌入向量解码,得到第二嵌入向量,所述第二嵌入向量为所述第一知识图谱中节点与节点之间关系的嵌入向量;
根据所述第一嵌入向量,所述第二嵌入向量以及损失函数,得到所述第二模型。
10.根据权利要求9所述的装置,其特征在于,所述预设的第一模型包括图神经网络GNN模型和Distmult模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210576206.3A CN114969366A (zh) | 2022-05-24 | 2022-05-24 | 一种网络故障的分析方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210576206.3A CN114969366A (zh) | 2022-05-24 | 2022-05-24 | 一种网络故障的分析方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114969366A true CN114969366A (zh) | 2022-08-30 |
Family
ID=82954861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210576206.3A Pending CN114969366A (zh) | 2022-05-24 | 2022-05-24 | 一种网络故障的分析方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114969366A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115766404A (zh) * | 2022-10-24 | 2023-03-07 | 浪潮通信信息系统有限公司 | 一种基于智能分析的通信运营商网络故障管理方法及系统 |
CN116880438A (zh) * | 2023-04-03 | 2023-10-13 | 材谷金带(佛山)金属复合材料有限公司 | 退火设备控制系统的故障检测方法及系统 |
-
2022
- 2022-05-24 CN CN202210576206.3A patent/CN114969366A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115766404A (zh) * | 2022-10-24 | 2023-03-07 | 浪潮通信信息系统有限公司 | 一种基于智能分析的通信运营商网络故障管理方法及系统 |
CN116880438A (zh) * | 2023-04-03 | 2023-10-13 | 材谷金带(佛山)金属复合材料有限公司 | 退火设备控制系统的故障检测方法及系统 |
CN116880438B (zh) * | 2023-04-03 | 2024-04-26 | 材谷金带(佛山)金属复合材料有限公司 | 退火设备控制系统的故障检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113094200B (zh) | 一种应用程序的故障预测方法和装置 | |
US20220255817A1 (en) | Machine learning-based vnf anomaly detection system and method for virtual network management | |
CN114969366A (zh) | 一种网络故障的分析方法、装置及设备 | |
CN106992994A (zh) | 一种云服务的自动化监控方法和系统 | |
US20160212023A1 (en) | Apparatus and method for processing data streams in a communication network | |
CN114328198A (zh) | 一种系统故障检测方法、装置、设备及介质 | |
CN112087334B (zh) | 告警根因分析方法、电子设备和存储介质 | |
US20210117779A1 (en) | Method, device, and computer program product for error evaluation | |
CN112379325A (zh) | 一种用于智能电表的故障诊断方法及系统 | |
CN113656252B (zh) | 故障定位方法、装置、电子设备以及存储介质 | |
CN111769987A (zh) | 基于大数据管理模型的网络信息安全测试系统及方法 | |
CN114297453B (zh) | 告警预测方法、装置、电子设备及存储介质 | |
Hou et al. | A Federated Learning‐Based Fault Detection Algorithm for Power Terminals | |
CN113572639B (zh) | 一种载波网络故障的诊断方法、系统、设备和介质 | |
CN115767601A (zh) | 一种基于多维数据的5gc网元自动化纳管方法及装置 | |
CN113821418B (zh) | 故障根因分析方法及装置、存储介质和电子设备 | |
CN114385398A (zh) | 一种请求响应状态确定方法、装置、设备和存储介质 | |
Zhang et al. | Root cause analysis of concurrent alarms based on random walk over anomaly propagation graph | |
CN111935279B (zh) | 基于区块链和大数据的物联网络维护方法及计算节点 | |
KR20080087571A (ko) | 상황 예측 시스템 및 그 방법 | |
Wang et al. | LSTM-based alarm prediction in the mobile communication network | |
CN113064812A (zh) | 一种项目开发过程质量缺陷预测方法、装置及介质 | |
CN112733450A (zh) | 一种电力网络中节点故障的分析方法及装置 | |
CN117254980B (zh) | 一种基于注意力机制的工业网络安全风险评估方法及系统 | |
CN116708135B (zh) | 网络业务故障监测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |