CN114026828B

CN114026828B - 用于监控通信网络的设备和方法

Info

Publication number: CN114026828B
Application number: CN202080005752.0A
Authority: CN
Inventors: 亚历山大·阿加皮托; 陈龙飞; 亚历山大·米勒诺维奇
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2023-03-28
Anticipated expiration: 2040-04-07
Also published as: WO2021204365A1; EP3918755A1; US20220078071A1; CN114026828A

Abstract

本公开涉及一种用于监控通信网络的设备。该设备从通信网络中的多个数据源获得数据集。所获得的数据集包括多个实体，以及存在于所述多个实体中的一些或全部实体之间的关系。进一步地，该设备获得训练模型。训练模型包括有关所述多个实体和关系的信息。此外，该设备基于训练模型对数据集进行变换，并获得变换数据集。变换数据集包括所述多个实体中每个实体的向量空间表示。在变换数据集中，相关实体的向量空间表示比非相关实体的向量空间表示在向量空间中更加接近彼此。

Description

用于监控通信网络的设备和方法

技术领域

本公开一般地涉及通信网络，尤其涉及监控通信网络。为此，公开了一种用于监控通信网络的设备和方法。例如，所公开的设备和方法可以支持执行根本原因分析(RootCause Analysis，RCA)、和/或识别问题的根本原因、和/或识别补救措施以修复网络问题。

背景技术

通常，通信网络(例如，电信网络)包括在复杂环境中运行的许多组件。此外，通信网络易受例如由于硬件或软件配置或通信网络的变化等而可能发生的问题(例如故障和/或事故)的影响。

用于执行RCA的传统设备和方法基于将某些网络故障状态映射到问题根本原因的规则。例如，这样的规则可以由领域专家(例如，通过人工监督)提供，或者可以使用规则挖掘算法从数据中提取，等等。

例如，一些传统设备可以基于通信网络的网络元件来构建拓扑图，并且可以进一步产生故障传播模型，例如，它可以基于覆盖在构建的拓扑图之上的故障(警报)传播模型。故障(警报)传播模型可以以规则的形式构建，这些规则指定一条链：针对给定的故障，警报从一个网络元件传播到下一个网络元件。此外，对于已经在通信网络的节点中发生的警报，故障传播模型用于遍历网络拓扑，直到到达生成根源警报的节点。

但是，这种传统设备存在一些问题。例如，构建和维护故障(警报)传播图可能具有挑战性，因为网络拓扑可能会随着时间的推移而演变。此外，某些警报可能取决于两个或更多个警报(例如，在警报和警报传播路径之间可能存在一对多关系)，这可能导致例如在同时发生网络故障的情况下遍历拓扑图的问题。此类问题可能会进一步阻碍对问题的根本原因的识别。

此外，一些传统设备基于监督学习，该监督学习可以使用历史训练信息来训练将警报分类为根源警报或派生警报的模型。例如，人类专家可以提供一组标记的示例。此外，可以训练能够实时识别根源警报的分类器(例如，其可以将每个警报分类为根源警报或派生警报)。但是，这种传统设备在识别问题的根本原因方面存在问题。例如，可能难以实现组合概括，例如，设备可能是在给定情况下被训练的，在训练数据中未包含的类似情况下预测根本原因可能有问题。

发明内容

鉴于上述问题和缺点，本公开的实施例旨在改进用于监控通信网络的传统设备和方法。目标之一是提供一种设备和方法，其可以支持执行RCA和/或识别问题(故障或事故)的根本原因和/或建议故障纠正措施。该设备和方法应该获得信息或数据集，该信息或数据集可用于识别通信网络中问题的根本原因。该装置和方法应该能够提供作为输出的关于问题的RCA或纠正措施的建议。

通过所附独立权利要求中描述的本公开的实施例来实现上述目的。在从属权利要求中进一步定义了本公开的实施例的有利实现方式。

本公开的第一方面提供了一种用于监控通信网络的设备，该设备被配置为从通信网络中的多个数据源获得数据集，其中数据集包括多个实体，其中在所述多个实体中的一些或全部实体之间存在一个或更多个关系；获得训练模型，其中训练模型包括有关所述多个实体和一个或更多个关系的信息；以及基于训练模型对数据集进行变换，以获得变换数据集，其中变换数据集包括所述多个实体中每个实体的向量空间表示，其中所述多个实体中相关实体的向量空间表示比所述多个实体中非相关实体的向量空间表示在所述向量空间中更接近彼此。

该设备可以是或可以合并到电子设备中，例如，计算机、个人计算机(personalcomputer，PC)、平板电脑、膝上型计算机、网络实体、服务器计算机、客户端设备等。

该设备可以用于监控通信网络。监控可以包括执行RCA、识别问题的根本原因等。特别地，通过提供变换数据集，可以识别相关实体，并且可以更容易地识别问题和问题的根本原因。

在下文中，术语“事故”和“故障”和“问题”可互换使用，而不将本公开限制于特定的术语或定义。

该设备可以获得可以包括多个实体的数据集(例如，它可以是大数据)。进一步地，多个实体可以是例如警报、关键性能指标(key performance indicator，KPI)值、配置管理参数和日志信息。

此外，该设备可以获得训练模型。训练模型可以是任何模型，例如，它可以基于机器学习模型、深度学习模型等。此外，该设备可以基于数据集和训练模型获得变换数据集。变换数据集可以包括多个实体的向量空间表示。向量空间表示可以是例如三维向量空间(在下文中也称为潜在空间)中的实值向量。

此外，在向量空间中，相关实体的向量空间表示(例如，潜在空间中的点、空间中的坐标)彼此更接近。相关实体可以是，例如，它们之间具有直接关系的实体。此外，实体之间可以存在三种类型的关系，即关联、相关和因果关系，而不将本公开限制于特定的关系。

根据一些实施例，该设备可以通过知识图(Knowledge Graph，KG)执行知识管理。例如，该设备可以获得数据集，其中该数据集基于图结构数据。例如，数据集可以包括具有多个实体的知识图。此外，规则和分类可以基于实体之间的关系来表示，这可以允许语义匹配(基于距离的根本原因事故分类)和推断任务(例如，该设备可以使用KG中存在的其他类型的关系来确定(预测)不同实体之间的缺失关系)。

根据一些实施例，该设备可以执行自动RCA和修正措施的建议来解决事故。例如，该设备可以考虑网络状态的整体视图(例如，KPI、警报、配置参数)，并且可以在不同的运营商网络之间进行概括。

根据一些实施例，该设备可能能够对电信网络中的事故(故障)执行RCA(完全)自动化。

在第一方面的实施方式中，数据集中彼此具有关系的实体被变换为使得它们在向量空间中的向量空间表示彼此之间具有更小的距离，和/或数据集中彼此没有关系的实体被变换为使得它们在向量空间中的向量空间表示彼此之间具有更大的距离。

在第一方面的进一步实施方式中，该设备还被配置为使变换数据集的向量空间中的每个实体的向量空间表示相关到组中；并基于训练分类器从组中识别一个或更多个事故。

根据一些实施例，该相关可以基于多源相关规则。特别地，该设备可以基于频繁模式挖掘算法，如FP-增长算法、逻辑回归算法等，来学习多源相关规则。例如，该设备可以使用多源相关规则，并且可以进一步将异构实体(即，警报、KPI、配置管理参数、操作日志)分组到事故候选项中(例如，每个组可以是事故候选项)。

在第一方面的进一步实施方式中，该设备还被配置为基于多源相关规则和/或启发式信息使每个实体的向量空间表示相关到组中。

根据一些实施例，潜在变量(例如，KPI值、配置参数等)以KG中实体的形式被捕获，这些变量相互关联，并且可用于对事故进行分类。该设备可以使用多源相关规则将异构对象(即，警报、KPI异常、操作事件、配置参数)分组到事故候选项中。这可以允许该设备(例如，设备中的决策算法)利用比仅查看警报时提供的信息更丰富的信息。

在第一方面的进一步实施方式中，该设备还被配置为针对所识别的一个或更多个事故中的每一个，识别事故类型、该事故的根本原因以及纠正该事故的措施中的一个或更多个。

在第一方面的进一步实施方式中，从组中识别一个或更多个事故还基于有关通信网络中的数据源的拓扑信息。

例如，该设备可以获得(例如，从通信网络接收)拓扑信息，该拓扑信息可以是网络实体的基于图的拓扑表示。

在第一方面的进一步实施方式中，训练模型还包括多个信息三元组，每个信息三元组包括第一实体、第二实体以及第一实体和第二实体之间的关系。

例如，三元组可以包括第一实体(诸如事故类型的实体类型)、第二实体(诸如警报类型的实体类型)以及事故和警报之间的关系。该关系可以是例如“与...关联”、“具有”、“需要”等。

在第一方面的进一步实施方式中，针对多个实体中的每个实体，训练模型还包括有关实体类型、与该实体类型相关联的事故、解决该事故的措施以及该事故的根本原因中至少一个的信息。

在第一方面的进一步实施方式中，训练模型还包括图结构数据。

例如，训练模型可以包括信息，该信息可以是围绕事故类型的实体(例如，事故类型、警报类型、KPI异常类型、事故中涉及的网络实体的物理或逻辑连接模式、配置管理参数、操作事件、根本原因、补救措施等)之间的关系的形式。

该设备可以在图结构数据中(例如，节点代表实体，而边代表关系)以三元组(具有第一实体、第二实体和关系)的形式获得(存储)这样的信息。此外，该设备可以通过KG嵌入(embedding)算法来处理图结构数据，以便提取实体类型(例如，警报类型)的特征，并且可以进一步将这些特征用于分类(例如，根本原因分类、补救措施分类)。

在第一方面的进一步实施方式中，所述多个实体中的每个实体是警报、关键性能指标值、配置管理参数和日志信息中的一个。

在第一方面的进一步实施方式中，该设备还被配置为通过使用深度图自动编码器基于训练模型来对数据集进行变换。

在第一方面的进一步实施方式中，训练分类器基于软最近邻分类器。

例如，设该备可以通过与事故候选项有关的实体的平均向量(即，事故质心)来表示每个事故候选项。此外，软最近邻分类器可以基于异构数据到最近事故质心的概率分配，将异构数据分类(分组、聚合)为事故候选项。

根据一些实施例，可以减轻警报和事故类型之间的一对多关系的影响，以及分支因子大于一个的警报因果图的影响。例如，该设备可以使用图神经网络分类器，该分类器可以获得通过嵌入KG提取的特征作为输入。图神经网络可以实现组合概括。训练分类模型将与构成事故候选项的实体相对应的特征作为输入，并对例如事故的根本原因、补救措施等进行概率映射。

本公开的第二方面提供了一种用于监控通信网络的方法，该方法包括从通信网络中的多个数据源获得数据集，其中数据集包括多个实体，其中在所述多个实体的一些或全部实体之间存在一个或更多个关系；获得训练模型，其中训练模型包括有关所述多个实体和一个或更多个关系的信息；以及基于训练模型对数据集进行变换，以获得变换数据集，其中变换数据集包括所述多个实体中每个实体的向量空间表示，其中所述多个实体中相关实体的向量空间表示比所述多个实体中非相关实体的向量空间表示在向量空间中更接近彼此。

在第二方面的实施方式中，数据集中彼此具有关系的实体被变换为使得它们在向量空间中的向量空间表示彼此之间具有更小的距离，和/或数据集中彼此没有关系的实体被变换为使得它们在向量空间中的向量空间表示彼此之间具有更大的距离。

在第二方面的进一步实施方式中，该方法还包括使变换数据集的向量空间中每个实体的向量空间表示相关到组中；并基于训练分类器从组中识别一个或更多个事故。

在第二方面的进一步实施方式中，该方法还包括基于多源相关规则和/或启发式信息使每个实体的向量空间表示相关到组中。

在第二方面的进一步实施方式中，该方法还包括针对所识别的一个或更多个事故中的每一个，识别事故类型、该事故的根本原因以及解决该事故的措施中的一个或更多个。

在第二方面的进一步实施方式中，从组中识别一个或更多个事故还基于有关通信网络中的数据源的拓扑信息。

在第二方面的进一步实施方式中，训练模型还包括多个信息三元组，每个信息三元组包括第一实体、第二实体以及第一实体和第二实体之间的关系。

在第二方面的进一步实施方式中，针对所述多个实体中的每个实体，训练模型还包括有关该实体的类型、与该实体的类型相关联的事故、解决该事故的措施以及该事故的根本原因中的至少一个的信息。

在第二方面的进一步实施方式中，训练模型还包括图结构数据。

在第二方面的进一步实施方式中，所述多个实体中的每个实体是警报、关键性能指标值、配置管理参数和日志信息中的一个。

在第二第一方面的进一步实施方式中，该方法还包括通过使用深度图自动编码器基于训练模型来对数据集进行变换。

在第二方面的进一步实施方式中，训练分类器基于软最近邻分类器。

本公开的第三方面提供一种计算机程序，该计算机程序包括用于执行根据第二方面或其任何实施方式的方法的程序代码。

本公开的第四方面提供了一种存储可执行程序代码的非暂时性存储介质，当该可执行程序代码被处理器执行时，使得根据第二方面或其任何实施方式的方法被执行。

必须注意的是，本申请中描述的所有设备、元件、单元和手段可以在软件或硬件元件或其任何种类的组合中实现。由本申请中描述的各个实体执行的所有步骤以及被描述为由各个实体执行的功能旨在表示相应的实体适于或被配置为执行相应的步骤和功能。即使在以下特定实施例的描述中，由外部实体执行的特定功能或步骤未反映在执行该特定步骤或功能的实体中的详细描述的特定元件的描述中，对于技术人员来说，应该清楚的是，这些方法和功能可以在相应的软件或硬件元件或其任何种类的组合中实现。

附图说明

上述方面和实施方式将在以下具体实施例的描述中结合附图进行解释，其中

图1示出了根据本公开实施例的用于监控通信网络的设备的示意图；

图2示出了识别通信网络的事故候选项的设备的示意图；

图3示出了用于在推断阶段期间执行RCA的设备的示意图，其中RCA包括识别事故并建议解决该事故的措施；

图4示出了在训练阶段期间获得训练模型和训练分类器的设备的示意图；

图5示出了基于训练模型(为KG嵌入模型)和训练分类器(为深度图卷积网络)来识别事故候选项的设备的示意图；

图6示出了包括多个信息三元组的知识图的示意图；

图7示出了基于训练模型获得变换数据集的示意图；

图8示出了生成多个事故质心的示意图；

图9示出了基于多源相关规则生成事故候选项的示意图；

图10示出了用于识别事故候选项的过程的示意图；

图11A-11B示出了训练设备时的资源占用图；和

图12示出了根据本公开实施例的用于监控通信网络的方法的流程图的示意图。

具体实施方式

图1示出了根据本公开实施例的用于监控通信网络1的设备100的示意图。

设备100可以是或可以合并到电子设备中，例如，计算机、膝上型计算机、网络实体等。

设备100被配置为从通信网络1中的多个数据源获得数据集110。数据集110包括多个实体111、112、113、114，其中多个实体111、112、113、114中的一些或全部实体之间存在一个或更多个关系。

设备100还被配置为获得训练模型120。训练模型120包括有关多个实体111、112、113、114以及一个或更多个关系的信息。

设备100还被配置为基于训练模型120对数据集110进行变换，以获得变换数据集130。进一步地，变换数据集130包括多个实体111、112、113、114中每个实体的向量空间表示131、132、133、134。

例如，变换数据集130包括实体111的向量空间表示131。此外，变换数据集130包括实体112的向量空间表示132、实体113的向量空间表示133和实体114的向量空间表示134。

此外，多个实体111、112、113、114中相关实体111、112向量空间表示131、132比多个实体111、112、113、114中非相关实体113、114的向量空间表示133、134在向量空间中更接近彼此。

设备100可以包括被配置为执行、引导或启动本文描述的设备100的各种操作的处理电路(图1中未示出)。处理电路可以包括硬件和软件。硬件可以包括模拟电路或数字电路，或模拟和数字电路。该数字电路可以包括诸如专用集成电路(application-specificintegrated circuit，ASIC)、现场可编程阵列(field-programmable array，FPGA)、数字信号处理器(digital signal processor，DSP)或多功能处理器的组件。在一个实施例中，处理电路包括一个或更多个处理器以及连接到一个或更多个处理器的非暂时性存储器。该非暂时性存储器可以携带可执行程序代码，当该可执行程序代码由一个或更多个处理器执行时，使得设备100执行、引导或启动本文所述的操作或方法。

图2示出了识别通信网络1的事故候选项260的设备100的示意图。

例如，设备100被配置为获得数据集110和训练模型120。训练模型120包括有关多个实体111、112、113、114以及一个或更多个关系的信息。此外，设备100被配置为基于训练模型120对数据集110进行变换，以获得变换数据集130。

此外，数据集110中彼此具有关系的实体111、112被变换为使得它们在向量空间中的向量空间表示131、132彼此之间具有更小的距离，数据集110中彼此没有关系的实体113、114被变换为使得它们在向量空间表示133、134彼此之间具有更大的距离。

多个实体111、112、113、114可以是例如警报、警报事件流、KPI时间序列、事件日志、配置参数(configuration parameter，CP)规范。

接着，设备100可以使变换数据集130的向量空间中每个实体的向量空间表示131、132、133、134相关到组240中。组240可以包括一个或更多个组。

此外，设备100可以获得训练分类器220。此外，设备100可以包括决策单元250，其可以基于训练分类器220从组240中识别一个事故260。此外，设备100可以提供所识别的事故260。

例如，设备100可以基于多源关规则将每个实体的向量空间表示131、132、133、134相关到组240中。

例如，多源相关规则可以被应用于使用遥测和由通信网络生成的其他数据(即，警报序列、KPI序列、操作日志、配置参数日志)来发现实体之间的关系。而且，多源相关规则(例如，训练模型)可以自动提取实体变量之间的统计关系，并填充知识图。

从组240中识别事故260还可以基于获得有关通信网络1中的数据源的拓扑信息215。例如，设备100可以获得拓扑信息215。此外，决策单元250可以基于训练分类器220和获得的拓扑信息215从组240中识别事故260。

现在参考图3，其示出了在推断阶段期间执行RCA的设备100的示意图，其中RCA包括识别事故并建议解决该事故的措施。

设备100被配置为从通信网络1中的多个数据源获得数据集110。数据集120可以在在线阶段期间获得(是实时数据)。

例如，设备100可以为多个实体收集多源实时流数据，包括配置管理参数值和变化111、警报时间序列112、操作日志113和KPI时间序列114。

设备100可以进一步获得基于(例如，包括)知识图嵌入模型的训练模型120。

设备100可以进一步基于知识图嵌入模型(训练模型120)对数据集110(包括配置管理参数值和变化111、警报时间序列112、操作日志113和KPI时间序列114)进行变换，以获得变换数据集130。例如，对数据集进行变换以获得变换数据集130可以包括基于数据集110的特征提取(通过使用原始多源数据)和调用知识图嵌入模型120。设备100最初可以基于领域知识来调用多源相关规则或分组启发规则。

此外，设备100可以将多源数据分组为事故候选项。例如，设备100可以通过知识图嵌入来执行存储在知识图中的实体或关系的特征提取。设备100还可以通过深度学习技术来自动提取特征，以表示存储在知识图中的实体和关系等。

例如，设备100可以基于多源相关规则使变换数据集130中提取的特征相关到组240中(即，多源相关到事故候选项组中)。例如，设备100可以使用事故候选者的实体作为输入，并且调用KG嵌入模型来创建组成事故候选项的实体(即，警报、KPI值、操作日志、配置管理(Configuration Management,CM)参数值)的向量表示。

设备100还可以获得通信网络1的拓扑信息215和训练分类器220。训练分类器220基于事故类型分类器模型或根本原因分类器模型。

决策单元250可基于训练分类器220和组240，从组240中识别事故260，例如，通过使变换的多源数据(警报、KPI值、配置管理参数)相关到代表事故候选项的组中。例如，该设备可以将具有事故候选拓扑的事故候选嵌入聚合到传递给事故类型或根本原因分类器的输入向量中。

此外，设备100可以提供(输出)所识别的事故260、RCA的结果、建议解决所识别的事故的措施等。

图4示出了在设备100的训练阶段期间获得训练模型120和训练分类器220的设备100的示意图。

在训练阶段期间，可以有(设备100可以包括)三个训练模块，包括训练模块401、训练模块402和训练模块403。

训练模块401可以基于多源相关规则挖掘过程来执行训练过程。

例如，设备100(训练模块401)可以将关联规则挖掘算法应用于(自动)发现数据集110中异构实体的历史序列(包括诸如CM参数111、警报时间序列112、操作事件序列113和KPI时间序列114的实体)之间的关联关系(以规则的形式)。

例如，设备100可以通过从历史数据中提取知识来获得知识，该知识将被存储在KG410中。KG 410因此可以包括关于这个问题领域的知识，并且可以进一步用作标记训练示例的来源，提供关系数据等。

训练模块401的输入可以是例如配置管理参数111、警报时间序列112、操作事件序列113和KPI时间序列114、故障排除手册411、故障排除票证412、专家领域知识文档413。

训练模块401的输出可以是例如可以关联实体的规则或模型。规则可以存储在多源相关规则存储库和知识图410中。然后，这些规则可以在推断阶段期间被调用，以将异构实体分组到代表事故候选项的组240中。

训练模块402可以基于知识图嵌入。训练模块402可以训练模型，这些模型提取KG410中存储的知识的有用表示，并且当这些实体在下游分类任务中使用时，将其用作KG实体的特征。

训练模块402的输入可以是例如KG 410的邻接矩阵表示，其中节点表示实体，并且边表示实体之间的关系。在KG方案中进一步定义了实体和关系类型。

训练模块402的输出可以是例如将KG实体(图中的节点)变换成低维实值向量的模型(训练模型120，例如KG嵌入模型)。该模型可以存储在知识图嵌入模型存储库中。

训练模块403可以基于分类器，例如，分类器可以基于事故类型、根本原因、补救措施进行分类。

在一些实施例中，在不限制本公开的情况下，设备100可以例如通过人工监督来接收训练模块403。

训练模块403可以为事故类型分类、根本原因分类、补救措施分类等任务训练分类器。可以从KG中(自动)提取经标记的示例。

训练模块403的输入可以是例如将多源数据(即，警报112、KPI值114、CM参数值111等)分组为事故候选项。可以使用多源相关规则、启发法和其他领域知识来执行分组。然后，可以使用KG嵌入模型存储库将事故候选实体替换为它们各自的嵌入(低维向量)。

此外，训练模块403的输入还可以是事故候选项的拓扑信息215(即，生成警报、KPI值的网络元素215的拓扑)、根据任一事故分类标签的事故候选项415的标签、与事故候选项相关的根本原因标签、补救措施标签。

训练模块403的输出可以是例如一个或更多个模型(训练分类器220)，其根据事故类型、事故的根本原因、缓解问题所需的补救措施等对事故候选项进行分类。一个或更多个模型(即，训练分类器220)可以存储在事故类型分类器或根本原因分类器存储库中。

图5示出了基于训练模型来识别事故候选项260的设备100的示意图，其中训练模型包括KG模型，以及训练分类器，其为深度图卷积网络。

设备100获得数据集110，并且可以获得KG 410形式的训练模型120。KG 410可以基于例如通信网络1中的故障事故管理和根本原因分析的领域，其可以描述围绕网络故障概念的实体，以及以图数据结构组织的相互关系。实体类型(例如，警报)和关系类型在KG 410的方案中定义。

关系类型的示例可以是“关联”(即，事故类型与警报关联)、“触发异常”(即，事故在特定的KPI中触发异常)、以及“是根本原因”(即，电源故障是事故X的根本原因)。此外，然后可以将事实组成形式为(实体_类型、关系_类型、实体_类型)的三元组，并存储在KG 410中。KG 410形式的这种知识表示可以使关系机器学习方法能够应用于关系数据的统计分析。

然后，设备100可以基于包括KG 410的训练模型120将数据集110变换为变换数据集130。该变换可以由深度图自动编码器510执行。

KG 410存储有关实体(警报)及其关系的信息。实体是事故候选项的组成部分，因此实体的组或集群可以作为分类和多源相关模型的输入。在事故管理领域，大多数实体可以定义为分类或离散变量。训练模型120(例如，知识图嵌入)可以获得特征表示。这些特征由训练模型120(例如，知识图嵌入或机器学习模型)学习，该模型在变换数据集130的新变换的向量空间中将语义相似的实体彼此映射得更近。

深度图自动编码器510可以从KG 410提取特征。例如，设备100可以使用在图结构数据上训练的关系机器学习(存储在KG 410中)来学习，以基于与通信网络故障事故相关联的信息对象之间的关系和相互依赖性来提取特征。

此外，设备100包括训练分类器220，其可以基于事故类型分类器或根本原因分类器，其可以获得作为输入的事故候选实体(警报类型)和拓扑信息215，并且可以提供(输出)事故类型类别标签。

训练分类器220包括输入聚合器520和深度图卷积网络530。输入聚合器520从深度图自动编码器510获得拓扑信息215和事故候选项的嵌入。此外，深度图卷积网络530生成事故候选项并识别事故260。

图6示出了包括多个信息三元组的知识图410的示意图。

例如，设备100的训练模型120可以获得图6所示的KG 410。KG 410包括多个信息三元组620。

每个信息三元组620包括第一实体621、第二实体622、624、626、以及第一实体621与第二实体622、624、626之间的关系623、625、627。

实体(第一实体621或第二实体622、624、626)可以是例如信息对象、故障事故类型、警报类型、KPI异常类型、事故中涉及的网络元件的物理或逻辑连接模式、配置管理参数、操作事件、根本原因、补救措施。关系623、625、627可以是诸如“具有”、“需要”、“与……相关联”等关系类型。

图7示出了基于训练模型120获得变换数据集130的示意图。

例如，设备100可以获得变换数据集130。设备100的训练模型120可以包括KG 410，并且深度图自动编码器510可以用于基于KG 410将数据集110变换为变换数据集130，深度图自动编码器510可以包括深度神经网络710(deep neural network，deep NN)。特别的，深度图自动编码器510可以基于KG 410和deep NN 710执行特征提取。

深度图自动编码器510可以具体地基于KG 410将数据集110的警报(实体111、112)变换(映射)为变换数据集130中的实值特征向量。变换数据集130显示在d维向量空间(潜在空间)中。此外，语义相似的警报10(实体112)和警报26(实体111)被映射使得它们的向量空间表示131、132在变换数据集130中彼此更接近。

图8示出了生成多个事故质心800的示意图。

设备100可以生成多个事故质心800。设备100根据警报关联来定义事故类型。对与事故有关的警报的向量空间表示进行平均，并生成事故质心800。例如，可以基于第一实体111(警报26238)的向量空间表示131、第二实体112(警报26322)的向量空间表示132和实体113(警报26324)的向量空间表示133来生成事故质心801(I1)。事故质心801是警报26238、26322和26324的向量空间表示的平均值。此外，该设备使用有关事故类型和关联的警报810的知识(例如，可以从KG 410和/或数据集110获得有关事故类型和关联的警报810的知识)并获得多个事故质心800。

图9示出了基于多源相关规则生成事故候选项260的示意图。

设备100可以生成事故候选项260。例如，当处理表征事故的异构实体时，多源相关可以包括以事故候选项的形式对这种实体的实例进行分组或聚合的过程。该分组可以依赖于基于训练模型执行的特征提取(例如，可以是或可以包括知识图嵌入)。

在一些实施例中，多源相关可以基于软最近邻分类。例如，设备100可以针对时间窗口中的每个警报调用深度图自动编码器510，以获得变换数据集130(包括警报的向量空间表示)。进一步地，在存储在知识图中的某些事故类型下，设备100可以获得所有相应的实体(即，在某网络故障下出现的警报类型)并对它们的向量空间表示求平均值，以获得“事故质心”，即事故代表向量。

此外，在实时期间，设备100可以使用遥测数据和其他网络数据存储，并且可以基于固定的时间窗口对实体(即，警报、KPI值、CM参数)进行分组。设备100还可以使用图自动编码器将时间窗口中的每个实体变换为向量空间表示。下一步，设备100可以计算每个实体到每个事故质心的距离，并且可以进一步归一化距离并将它们变换为概率。

设备100可以借助软最近邻分类器来执行实体到事故候选项的概率分配，并生成作为结果的事故候选项260。

在图9中，一组警报(包括警报26232、26234、26235、26324、26506、29240)的向量空间表示900用实心圆圈(参考标记900)指示。此外，空心圆圈表指示非相关事故。用参考标记260指示的圆圈是已识别的事故候选项。

现在参照图10，图10是用于识别事故候选项的过程1000的示意图。

设备100可以执行过程1000。

在S1001，设备100可以基于频繁模式(frequent-pattern，FP)增长算法来学习多源相关规则。

例如，设备100可以从数据集110获得警报时间序列历史数据。此外，设备100还可以使用故障排除文档支持、包含领域专家知识的文档并应用自然语言处理(以非结构化方式)来从非结构化文本生成知识图三元组。

在KG 410中，以知识图的形式表示知识。该知识可以是有关问题领域的信息，可以用作标记训练示例的来源(其可用于相关性和分类)，以及提供可用于下游机器学习任务中所需的特征提取的关系数据，即多源相关或聚合或分类。

在S1002，设备100可以获得训练模型120。该训练模型可以是KG嵌入模型，并且可以基于执行结构化深度网络嵌入过程来获得。

例如，设备100应用数据驱动的相关规则挖掘算法以自动发现警报之间的关系。

在S1003，设备100可以基于软最近邻分类、(训练模型120的)KG嵌入模型以及包括警报时间序列的所获得的数据集110，使警报与事故候选项相关。

例如，设备100可以通过知识图嵌入来提取存储在KG 410中的实体或关系的特征。这里，深度学习可用于提取特征，以表示存储在知识图中的实体和关系。

在S1004，设备100可以使用图卷积网络，并且可以生成事故候选项260。

例如，该设备可以获得拓扑信息215，并且可以使用图卷积网络来生成事故候选项260。

在一些实施例中，设备100还可以接收标签L-1，并且可以基于接收到的标签L-1来生成事故候选项260。

可进一步识别事故候选项，以确定事故的根本原因、建议解决事故的补救措施等。

可以基于事故的根本原因、将减轻问题的补救措施来对事故候选项进行分类。可以基于从拓扑215接收的信息(即，生成某些警报的网络元件的物理或逻辑连接模式)、其组成实体的特征等来确定事故候选项的最终表示。

在图11A和图11B中进一步讨论了设备100的性能，其基于来自分组传输网络(Packet Transport Network)领域的用例，而不将本公开限制于特定的用例。

使用拓扑信息和分组传输网络的示例性数据集来分析设备100的性能。为了简单起见，这里未提供对所使用的数据集(例如，数据源、警报等)以及分组传输网络的拓扑信息的详细描述。

设备100可以将警报分组为事故候选项，并且随后根据事故类型对每个事故候选项进行分类。数据集中有31种可能的事故类型，它们在训练集中的分布非常不平衡。

设备100获得包括警报列表的数据集110，该警报列表将被组织成事故候选项，这些事故候选项随后被分类并且由4,535个警报组成。设备100还获得用作警报源的网络元件的拓扑信息215。设备100使用10折分层交叉验证来评估分类性能，并提供平均准确度、平均预测值和平均召回率(以10折以上计算得出的平均值)。

设备100使用基于图6中提供的方案的KG 410方案，该方案规定：

-实体类型：事故类型、根本原因、警报类型补救-措施

-关系类型：“具有”、“需要”、“与……相关联”。

设备100还根据KG 410方案生成用于分组传输网络的知识图。

设备100还基于以下机器学习算法获得训练模型：

·使用FP增长算法的警报相关规则挖掘

·多源相关，用于使用知识图410驱动的特征基于软最近邻分类器进行事故候选项生成

·知识图嵌入，用于使用结构化深度网络嵌入算法进行特征提取

·使用图卷积网络的事故类型分类。

基于在图10的过程1000下讨论的训练阶段来执行设备的训练过程。

设备100还使用在30秒的时间窗口生成的事务和物理拓扑信息215，将FP增长的关联规则挖掘算法应用于警报序列。规则由领域专家验证，并与事故类型、根本原因和补救措施一起存储在知识图中。训练结构化深层网络嵌入以从知识图中学习警报特征，并训练图卷积网络以根据事故候选项的类型对事故候选项进行分类。

关于图5讨论了这两种类型的神经网络的组合方案以及它们的输入/输出的详细描述。

每次的训练数据都基于9/10折。为了测试目的(评估训练模型的概括程度)，该设备100使用留一折法(leave-one-fold-out)重复训练过程10次。

设备100还使用30秒的时间窗口和拓扑信息215将警报分组，以生成事故候选项260。基于警报的单热编码、事故中每个警报的比例、警报源、警报严重性、警报发生的顺序，从每个事故候选项中提取特征。然后由人类专家将这些特征映射到事故候选项的事故类型，并将映射以训练示例的形式存储在训练集中。

设备100进一步基于10折分层交叉验证获得88.9％的平均准确度、70.5％的平均预测值和71.7％的平均召回率。

还使用传统的多层感知器(multilayer perceptron，MLP)方法对分组传输网络的数据集进行分类。MLP对技术人员来说是公知的，并且仅用作示例以比较设备100的性能结果。

基于10折分层交叉验证，传统的MLP方法的平均准确度为86.9％、平均预测值为66.3％和平均召回率为66.7％。

根据所获得的结果可以得出，预测值和召回率平均提高了约5％，正如通常可以由技术人员得出的那样。此外，可以得出设备100在所有三个分类指标上产生了改进。

在查看平均准确度时，可能需要考虑高度不平衡的类别分布。仅通过提高召回率和预测值就可以证明设备100的性能优势。

此外，在图11A和图11B中示出了训练设备100时的资源占用。

图11A和图11B所示为训练设备100时的资源占用图。特别地，示出了所需的训练时间(图11A)和训练过程所需的内存(图11B)，并对其中使用批次(batch)或时期(epoch)训练设备100的情况进行了比较。

图11A中的图1100A描绘了第一线形图1101，其表示当使用批次(即，来自数据集的数据集合)进行训练时，绘制在左侧Y轴上的训练时间相对于绘制在X轴上的批次大小的线形图。

例如，当基于批次训练设备100时，对于批次大小为1，每批次需要0.055秒的训练时间。进一步地，对于批次大小为128，每批次需要0.288秒的训练时间。

图11A中的图1100A进一步描绘了第二线形图1102，其表示当基于时期(即，整个数据集)进行训练时，绘制在右侧Y轴上的训练时间相对于绘制在X轴上的批次大小的线形图。

例如，当使用时期(整个数据集)训练设备100时，对于批次大小为1，每个时期需要28.482秒的训练时间。进一步地，对于批次大小为128，每个时期需要3.309秒的训练时间。

图11B中的图1100B示出了线形图1103，其表示在Y轴上绘制的使用内存(用于训练)相对于在X轴上绘制的批次大小的线形图。从图1100B可以得出，批次大小为1的设备100的训练需要2.966千兆字节(Gigabytes，GB)的内存。进一步地，批次大小为128的设备100的训练需要2.975GB的内存。

此外，当使用传统的MLP方法时，需要相似级别的计算和存储资源(为简单起见，图11A和11B中未示出与MLP方法相关的图表)。

但是，当使用传统MLP方法时获得的数据显示，对于批次大小为1，当基于批次进行训练时，每批次需要0.036秒的训练时间。类似地，对于批次大小为128，每批次需要0.310秒的训练时间。

此外，对于批次大小为1和批次大小为128，当训练是基于时期时，每个时期分别需要23.116秒的训练时间和3.175秒的训练时间。

此外，在传统MLP方法的情况下，批次大小为1和批次大小为128的训练分别需要2.966GB和2.975GB的内存。

而且，可以得出结论，当使用设备100和传统MLP方法时，训练需要相似级别的计算和存储资源。

此外，通过使用设备100，对于基于拓扑的故障传播RCA，可以获得更好的性能。此外，可能不需要增加计算资源来提高事故类型分类的性能。

图12示出了根据本公开实施例的用于监控通信网络的方法1200。如上所述，方法1200可以由设备100执行。

方法1200包括从通信网络1中的多个数据源获得数据集110的步骤S1201。

数据集110包括多个实体111、112、113、114，其中在多个实体111、112、113、114的一些或全部实体之间存在一个或更多个关系。

方法1200还包括获得训练模型120的步骤S1202。

训练模型120包括有关多个实体111、112、113、114以及一个或更多个关系的信息。

方法1200进一步包括基于训练模型120对数据集110进行变换以获得变换数据集130的步骤S1203。

变换数据集包括多个实体111、112、113、114中每个实体的向量空间表示131、132、133、134。此外，多个实体111、112、113、114中相关实体的向量空间表示比多个实体111、112、113、114中非相关实体的向量空间表示在向量空间中更接近彼此。

已经结合各种实施例作为示例以及实施方式描述了本发明。然而，根据对附图、本公开和独立权利要求的研究，实践要求保护的发明的本领域技术人员可以理解和实现其它变化。在权利要求书以及说明书中，词语“包括”不排除其他元件或步骤，并且不定冠词“一”或“一个”不排除多个。单个元件或其他单元可以实现权利要求中叙述的几个实体或项目的功能。在互不相同的从属权利要求中叙述某些措施的事实并不表示这些措施的组合不能用于有利的实现。

Claims

1.一种用于监控通信网络(1)的设备(100)，所述设备(100)被配置为：

从所述通信网络(1)中的多个数据源获得数据集(110)，其中所述数据集(110)包括多个实体(111、112、113、114)，其中在所述多个实体(111、112、113、114)中的一些或全部实体之间存在一个或更多个关系；

获得训练模型(120)，其中所述训练模型(120)包括有关所述多个实体(111、112、113、114)和所述一个或更多个关系的信息；

基于所述训练模型(120)对所述数据集(110)进行变换，以获得变换数据集(130)，其中所述变换数据集包括所述多个实体(111、112、113、114)中每个实体的向量空间表示(131、132、133、134)；

基于多源相关规则使所述变换数据集(130)的所述向量空间中的每个实体(131、132、133、134)的所述向量空间表示相关到组(240)中；以及

基于训练分类器(220)从所述组(240)中识别一个或更多个事故(260)，

其中所述多个实体(111、112、113、114)中相关实体(111、112)的向量空间表示(131、132)比所述多个实体(111、112、113、114)中非相关实体(113、114)的向量空间表示(133、134)在向量空间中更加接近彼此。

2.根据权利要求1所述的设备(100)，其中：

所述数据集(110)中彼此具有关系的实体(111、112)被变换为使得所述实体在所述向量空间中的向量空间表示(131、132)彼此之间的距离更小，和/或

所述数据集(110)中彼此没有关系的实体(113、114)被变换为使得所述实体在所述向量空间中的向量空间表示(133、134)彼此之间的距离更大。

3.根据权利要求1所述的设备(100)，还被配置为针对所识别的所述一个或更多个事故(260)中的每一个，识别事故类型、所述事故的根本原因以及解决所述事故的措施中的一个或更多个。

4.根据权利要求1至3中任一项所述的设备(100)，其中所述从所述组(240)中识别所述一个或更多个事故(260)还基于有关所述通信网络(1)中的所述数据源的拓扑信息(215)。

5.根据权利要求1至3中任一项所述的设备(100)，其中所述训练模型(120)还包括多个信息三元组(620)，每个信息三元组(620)包括第一实体(621)、第二实体(622、624、626)、以及所述第一实体(621)和所述第二实体(622、624、626)之间的关系(623、625、627)。

6.根据权利要求1至3中任一项所述的设备(100)，其中针对所述多个实体(111、112、113、114)中的每个实体，所述训练模型(120)还包括有关所述实体的类型、与所述实体的所述类型相关联的事故、解决所述事故的措施以及所述事故的根本原因中至少一个的信息。

7.根据权利要求1至3中任一项所述的设备(100)，其中所述训练模型(120)还包括图结构数据(410)。

8.根据权利要求1至3中任一项所述的设备(100)，其中所述多个实体(111、112、113、114)中的每个实体是警报、关键性能指标、配置管理参数和日志信息中的一个。

9.根据权利要求1至3中任一项所述的设备(100)，还被配置为使用深度图自动编码器基于所述训练模型(120)来对所述数据集(110)进行变换。

10.根据权利要求1至3中任一项所述的设备(100)，其中所述训练分类器(220)基于软最近邻分类器。

11.一种用于监控通信网络的方法(1200)，所述方法(1200)包括：

从所述通信网络(1)中的多个数据源获得(S1201)数据集(110)，其中所述数据集(110)包括多个实体(111、112、113、114)，其中在所述多个实体(111、112、113、114)中的一些或全部实体之间存在一个或更多个关系；

获得(S1202)训练模型(120)，其中所述训练模型(120)包括有关所述多个实体(111、112、113、114)和所述一个或更多个关系的信息；

基于所述训练模型(120)对所述数据集(110)进行变换(S1203)，以获得变换数据集(130)，其中所述变换数据集包括所述多个实体(111，112，113，114)中每个实体的向量空间表示(131，132，133，134)；

其中所述多个实体(111、112、113、114)中相关实体的向量空间表示比所述多个实体(111、112、113、114)中非相关实体的向量空间表示在向量空间中更加接近彼此。

12.根据权利要求11所述的方法(1200)，其中：

所述数据集(110)中彼此没有关系的实体(113、114)被变换为使得所述实体在所述向量空间中的向量空间表示(331、334)彼此之间的距离更大。