CN113923099A

CN113923099A - 一种通信网络故障的根因定位方法及相关设备

Info

Publication number: CN113923099A
Application number: CN202111032075.4A
Authority: CN
Inventors: 朱胜宇; 张可力; 陈志堂
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2022-01-11
Anticipated expiration: 2041-09-03
Also published as: CN113923099B

Abstract

本申请实施例公开了一种通信网络故障的根因定位方法及相关设备，本申请应用于人工智能领域中的网络运维技术领域。本申请实施例方法包括：获取通信网络的历史数据，历史数据包括多个KPIs在多个历史时刻的观测数据，多个KPIs用于描述通信网络的网元的运行状态；根据多个KPIs中每个KPI对应的观测数据得到每个KPI对应的向量，并将该向量作为因变量；从历史数据中选择目标观测数据作为果变量，确定了因变量和果变量后，根据因变量与果变量确定因果图，根据因果图确定引起通信网络故障的根因，从而使得网络运维工程师能够快速排出故障，降低网络运维的时间成本和人力成本。

Description

一种通信网络故障的根因定位方法及相关设备

技术领域

本申请涉及人工智能技术领域，尤其涉及通信网络故障的根因定位方法及相关设备。

背景技术

通信网络的关键表现指标(key performance indicator，KPI)可以用来衡量通信网络中网元的运行状态。通常情况下，异常检测设备会采集每个KPI在不同时刻的观测数据，若KPI的观测数据发生了异常，则表明通信网络中的网元的运行状态发生异常。网络运维工程师需要根据发生异常的KPI查找原因，从而排除故障。

当前方法中，网络运维工程师可以基于人为经验知识来确定某些异常KPI之间的因果关系，如第一KPI发生异常的根本原因是由于第二KPI发生异常而引起的，从而网络运维工程师可以根据第二KPI确定故障的网元，以排除故障。当发生异常的关键表现指标数量较多时，多个关键表现指标(key performance indicators，KPIs)之间的因果关系错综复杂，网络运维的时间成本和人力成本都急剧上升。

发明内容

本申请实施例提供了一种通信网络故障的根因定位方法，该方法涉及人工智能领域中的网络运维技术领域。本申请中，通过机器学习的方法，学习多个KPIs中每个KPI对应的时序数据(多个历史时刻的观测数据)，得到用于描述多个KPIs之间因果关系的因果图，然后通过因果图来确定“根因KPI”，根因KPI可以用于指示故障的网元，从而使得网络运维工程师能够快速排出故障，降低网络运维的时间成本和人力成本。

第一方面，本申请实施例提供了一种通信网络故障的根因定位方法，该方法应用于故障定位设备，该方法可以包括如下步骤：首先，故障定位设备获取通信网络的历史数据，历史数据包括多个KPIs在多个历史时刻的观测数据，多个KPIs中的每个KPI用于描述通信网络的网元的运行状态；然后，故障定位设备根据多个KPIs中每个KPI对应的观测数据得到每个KPI对应的向量，并将该向量作为因变量，向量包括多个元素，每个元素指示对应KPI在多个历史时刻中的某个历史时刻的观测数据；再后，故障定位设备可以从历史数据中选择目标观测数据作为果变量，每个KPI对应一个果变量，即多个KPIs对应多个果变量，故障定位设备根据上述因变量与果变量确定因果图，因果图用于描述多个KPIs之间的因果关系，因果图包括第一节点和第二节点，以及第一节点指向第二节点的有向边，第一节点和第二节点是因果图中任意两个节点，第一节点对应多个KPIs中的第一KPI，第二节点对应多个KPIs中的第二KPI，有向边指示第一KPI与第二KPI之间有因果关系；最后，故障定位设备根据因果图确定引起通信网络故障的根因。

本实施例中，故障定位设备根据KPI的时序数据确定因变量和果变量，学习因变量和果变量的因果关系，因变量是每个KPI对应的向量，也就是说，在学习过程中，故障定位设备直接学习的是KPI层面的数据，而不是观测数据层面的数据，使得故障定位设备能够直接学习得到描述多个KPIs之间因果关系的综合因果图(简称“因果图”)，然后通过多个KPIs之间的因果关系来确定“根因KPI”，根因KPI可以用于指示故障的网元，从而使得网络运维工程师能够快速排查出故障，降低网络运维的时间成本和人力成本。

在一种可选的实现方式中，所述根据因变量与果变量确定因果图可以具体包括：故障定位设备确定与因变量与果变量之间的因果关系匹配的拓扑结构，例如，该拓扑结构可以是图结构，或者也可以是矩阵结构，拓扑结构用于指示第一节点指向第二节点的有向边的权值，该有向边的权值可以指示第一节点与第二节点是否有因果关系，如第一节点指向第二节点的有向边的权值为“1”，则表明第一节点和第二节点有因果关，且第一节点对第二节点有因果影响；再如，第一节点指向第二节点的有向边的权值为“0”，则表明第一节点对第二节点没有因果影响，当第一节点指向第二节点的有向边的权值为“0”时也可以认为第一节点与第二节点之间没有连接，即第一节点不存在指向第二节点的有向边。进一步的，故障定位设备根据拓扑结构确定因果图。本实施例中，故障定位设备首先确定与因果关系最匹配的拓扑结构，拓扑结构指示的节点间的有向边的权值可以指示节点间的因果关系，进一步可以根据拓扑结构确定因果图。

在一种可选的实现方式中，上述确定与因变量与果变量之间的因果关系匹配的拓扑结构可以包括：首先，故障定位设备初始化拓扑结构；然后，计算拓扑结构中第一节点指向第二节点的有向边的权值；最后，基于打分函数调整拓扑结构，打分函数用于衡量拓扑结构与因果关系的匹配程度。本实施例中，故障定位设备计算拓扑结构中第一节点指向第二节点的有向边的权值，然后将有向边的权值代入到打分函数，基于打分函数不断的调整拓扑结构，直到找到目标分值对应的拓扑结构，从而可以根据该拓扑结构确定因果图。

在一种可选的实现方式中，所述计算拓扑结构中第一节点指向第二节点的有向边的权值可以具体包括：故障定位设备采用数值连续优化方法计算第一节点指向第二节点的有向边的第一权值，第一权值为大于或者等于0，且小于或者等于1的数值，例如，第一权值为0.1，0.9等近似“0”或近似“1”的数值，故障定位设备再将第一权值与阈值进行比较，得到有向边的二值化权值，二值化权值为1或者0。本实施例中，因变量的数量较多时，当前方法中只能采用一些近似搜索的方法(如贪婪搜索)求得拓扑结构中第一节点指向第二节点的有向边的二值化权值，但实际中应用中效果不佳。本实施例中，并不是直接确定拓扑结构中有向边的权值，而是采用数值连续优化方法得到近似二值化权值，通过近似二值化权值间接得到二值化权值，即使因变量的数量较多，也能确定拓扑结构中有向边的权值。

在一种可选的实现方式中，所述方法还可以包括：故障定位设备获取用于限制因果图结构的限制条件，例如，限制条件为有向无环图；上述采用数值连续优化方法计算第一节点指向第二节点的有向边的第一权值可以包括：故障定位设备基于数值连续优化方法和限制条件构建增广拉格朗日函数；根据增广拉格朗日函数计算第一节点指向第二节点的有向边的第一权值。本实施例中，采用增广拉格朗日法，将约束条件作为惩罚项，从而将带限制条件的优化问题转换成无限制的优化问题，通过一些限制条件来限制因果图结构，从而提高因果图的准确率。

在一种可选的实现方式中，拓扑结构包括第三节点和第四节点，第三节点对应多个KPIs中的第三KPI，第四节点对应多个KPIs中的第四KPI，所述方法还包括：故障定位设备获取先验知识，先验知识用于指示第三KPI与第四KPI之间的因果关系；根据先验知识确定第三节点指向第四节点的有向边的权值。本实施例中，若已经预先根据经验能够确定第三KPI对第四KPI一定有(或无)因果关系，就可以根据先验知识确定拓扑结构中节点间的有向边的权值(0或1)，从而使得拓扑结构更接近真实图，提升因果图的准确率。

在一种可选的实现方式中，若KPI对应的多个历史时刻的观测数据呈现周期性，则所述方法还包括：故障定位设备获取代理变量，将代理变量作为因变量，代理变量用于指示多个KPIs对应的向量中多个元素对应的时间信息。本实施例中，故障定位设备学习每个KPI对应的向量的时间信息，从而降低观测数据周期性对因果学习的影响，提高因果图的准确性。

在一种可选的实现方式中，多个历史时刻包括第一时刻和第二时刻，上述从历史数据中选择目标观测数据作为果变量可以包括：故障定位设备选择第一KPI对应的第一时刻的观测数据作为果变量，目标观测数据为第一时刻的观测数据；其中，第一时刻的观测数据为第一KPI对应的向量中最后一个元素的观测数据；本实施例中，第一时刻的观测数据是第一KPI对应的向量中最后一个元素的观测数据，也是向量中包括的最后一次观测数据。“原因”都发生在较早时间点，随着时间的积累，向量中的最后一次观测数据可能是积累了之前时刻的影响的数据，由此，选择向量中的最后一次观测数据作为果变量较为准确。或者，若基于先验知识确定第一KPI和第二KPI在第一时刻不具有瞬时的因果关系，则选择第一KPI对应的时序数据序列中第二时刻的观测数据作为果变量，目标观测数据为第二时刻的观测数据；其中，第二时刻是第一时刻的下一个时刻。本实施例中，如果第一时刻的观测数据之间没有瞬时的因果影响，则选择第一时刻的下一个时刻的观测数据作为果变量，选择的果变量更符合实际，从而提高学习因果关系的准确性。

在一种可选的实现方式中，因果图包括第五节点，第五节点对应多个KPIs中的第五KPI，所述根据因果图确定引起通信网络故障的根因可以包括：根据所述因果图确定第五节点的根节点；确定所述根节点对应的KPI(例如第六KPI)为所述第五KPI的根因KPI，即根据因果图确定引起第五KPI出现异常的根因是第六KPI出现异常。或者，当第五节点有多个根节点时，例如，第五节点有两个根节点，因果图包括第六节点和第七节点，第六节点和第七节点均是第五节点的根节点，选择子节点数量较多的根节点对应的KPI为根因KPI，例如，第六节点的后代子节点的数量为2个，第七节点的后代子节点为1个，也即第六节点的后代子节点的数量大于第七节点的子节点的数量，则将第六节点作为第五节点的根节点，故障定位设备由此确定引起第五KPI发生异常的根本原因是由于第六节点对应的KPI发生异常。本实施例中，根据因果图的指示，将根节点对应KPI作为根因KPI。

第二方面，本申请实施例提供了一种通信网络故障的根因定位装置，包括获取模块和处理模块：其中，获取模块，用于获取通信网络的历史数据，历史数据包括多个关键性能指标KPIs在多个历史时刻的观测数据，多个KPIs用于描述通信网络的网元的运行状态；处理模块，用于根据多个KPIs中每个KPI对应的观测数据得到每个KPI对应的因变量，因变量为包括多个元素的向量，每个元素指示对应KPI的一次观测数据；处理模块，还用于从历史数据中选择目标观测数据作为果变量；处理模块，还用于根据因变量与果变量确定因果图，因果图用于描述多个KPIs之间的因果关系，因果图包括第一节点和第二节点，以及第一节点指向第二节点的有向边，第一节点对应多个KPIs中的第一KPI，第二节点对应多个KPIs中的第二KPI，有向边指示第一KPI与第二KPI之间有因果关系；处理模块，还用于根据因果图，确定引起通信网络故障的根因。

在一种可选的实现方式中，处理模块还具体用于：确定与因变量与果变量之间的因果关系匹配的拓扑结构，拓扑结构用于指示第一节点指向第二节点的有向边的权值；根据拓扑结构确定因果图。

在一种可选的实现方式中，处理模块还具体用于：初始化拓扑结构；计算拓扑结构中第一节点指向第二节点的有向边的权值；基于打分函数调整拓扑结构，打分函数用于衡量拓扑结构与因果关系的匹配程度，因果关系是因变量与果变量之间的因果关系。

在一种可选的实现方式中，处理模块还具体用于：采用数值连续优化方法计算第一节点指向第二节点的有向边的第一权值，第一权值为大于或者等于0，且小于或者等于1的数值；将第一权值与阈值进行比较，得到有向边的二值化权值，二值化权值为1或者0。

在一种可选的实现方式中，

获取模块，还用于获取用于限制因果图结构的限制条件；

处理模块，还用于基于数值连续优化方法和限制条件构建增广拉格朗日函数；根据增广拉格朗日函数计算第一节点指向第二节点的有向边的第一权值。

在一种可选的实现方式中，拓扑结构包括第三节点和第四节点，第三节点对应多个KPIs中的第三KPI，第四节点对应多个KPIs中的第四KPI；获取模块，还用于获取先验知识，先验知识用于指示第三KPI与第四KPI之间的因果关系；处理模块，还用于根据先验知识确定第三节点指向第四节点的有向边的权值。

在一种可选的实现方式中，KPI的多个历史时刻的观测数据呈现周期性；获取模块，还用于获取代理变量，代理变量为用于指示时间的多维向量，将时间的多维向量作为因变量，时间的多维向量用于指示KPI对应的向量中多个元素对应的时间信息。

在一种可选的实现方式中，多个历史时刻包括第一时刻和第二时刻，处理模块还具体用于：选择第一KPI对应的第一时刻的观测数据作为果变量，目标观测数据为第一时刻的观测数据；其中，第一时刻的观测数据为第一KPI对应的向量中最后一个元素的观测数据；或者，若基于先验知识确定第一KPI和第二KPI在第一时刻不具有瞬时的因果关系，则选择第一KPI对应的时序数据序列中第二时刻的观测数据作为果变量，目标观测数据为第二时刻的观测数据；其中，第二时刻是第一时刻的下一个时刻。

在一种可选的实现方式中，因果图包括第五节点，第五节点对应多个KPIs中的第五KPI，处理模块还具体用于：根据所述因果图确定第五节点的根节点；确定所述根节点对应的KPI(例如第六KPI)为所述第五KPI的根因KPI，即根据因果图确定引起第五KPI出现异常的根因是第六KPI出现异常。

第三方面，本申请实施例提供了一种故障定位设备，包括：包括处理器，处理器与至少一个存储器耦合，处理器用于读取至少一个存储器所存储的计算机程序，使得故障定位设备执行如上述第一方面中任一项所述的方法。

第四方面，本申请实施例提供了一种计算机程序产品，计算机程序产品中包括计算机程序代码，当计算机程序代码被计算机执行时，使得计算机实现上述如上述第一方面中任一项所述的方法。

第五方面，本申请实施例提供了一种计算机可读存储介质，用于储存计算机程序或指令，计算机程序或指令被执行时使得计算机执行如上述第一方面中任一项所述的方法。

第六方面，本申请实施例提供了一种电路系统，电路系统包括处理电路，处理电路配置为执行上述第一方面中任一项所述的方法。

附图说明

图1为一种人工智能主体框架示意图；

图2a为时序数据因果图的示意图；

图2b为单位因果图的示意图；

图2c为综合因果图的示意图；

图3a和图3b为本申请实施例中一种故障定位系统的场景示意图；

图4为本申请实施例中一种通信网络故障的根因定位方法的流程示意图；

图5为本申请实施例中邻接矩阵转换为因果图的示意图；

图6a和图6b为本申请实施例中两个示例的因果图的示意图；

图7为本申请实施例中通信网络故障的根因定位装置的结构示意图；

图8为本申请实施例中故障定位设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

首先对人工智能系统总体工作流程进行示例性说明，请参阅图1所示，图1示出一种人工智能主体框架示意图。下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主体框架进行阐述。“智能信息链”反映从数据的获取到处理的一列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据—信息—知识—智慧”的凝练过程。“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施：

基础设施为人工智能系统提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。通过传感器与外部沟通；计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供；基础平台包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。举例来说，传感器和外部沟通获取数据，这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。

(2)数据

基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本，还涉及到传统设备的物联网数据，还涉及到已有系统的业务数据，以及力、位移、液位、温度、湿度等感知数据。

(3)数据处理

数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

(4)通用能力

对数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用系统，例如，翻译，文本的分析，计算机视觉的处理，语音识别，图像的识别，因果关系发现等等。

(5)智能产品及行业应用

智能产品及行业应用指人工智能系统在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能交通、智能家居、智能医疗、智能安防、自动驾驶，平安城市，大数据分析，网络运维等等。

本申请实施例可以应用于人工智能领域的网络运维技术领域中，为了解决当前通信网络(长期演进语音承载(voice over long-term evolution，VoLTE)通信网络)中依靠人工分析故障而导致耗时耗力的问题，本申请实施例中基础设施获取的数据是通信网络KPI的时序数据，通过机器学习的方法，学习用于描述多个KPIs之间因果关系的因果图，然后通过因果图来确定“根因KPI”，根因KPI可以用于指示通信网络中故障的网元，从而使得网络运维工程师能够快速排出故障，降低网络运维的时间成本和人力成本。

为了更好的理解本申请，首先对本申请中涉及的词语进行示例性说明。

通信网络的KPI，用于描述通信网络中网元的运行状态。例如，不同的KPI反映不同网元的运行状态。例如，用于反映基站的运行状态的KPI包括但不限于“掉话率”和“语音接通成功率”，用于反映网关通用无线分组业务支持节点(gateway general packet radioservice support node,GGSN)的运行状态的KPI包括“会话激活成功率”等。

时序数据，依赖于时间而发生变化，包括多个时刻的观测数据。例如，3个变量(KPI)分别记为“x¹”，“x²”和“x³”。其中，变量x¹在t-2时刻、t-1时刻和t时刻的观测数据分别为

和

变量x²在t-2时刻、t-1时刻和t时刻的观测数据分别为

和

变量x³在t-2时刻、t-1时刻和t时刻的观测数据分别为

和

异常KPI，是指在某个时刻(或某几个时刻)的观测数据劣于预设值的KPI。例如，在某个时刻的观测数据高于(或低于)第一预设值的KPI；再如，在某几个时刻的观测数据的平均值高于(或低于)第二预设值的KPI。

根因KPI，是指在多个异常KPIs中，引起其他KPI发生异常的KPI。例如，第一KPI发生异常的根本原因是由于第二KPI发生异常而引起的，第二KPI就是第一KPI的“根因KPI”。

时序数据因果图，请参阅图2a所示，表示不同时刻的观测数据之间的因果关系。时序数据因果图包括多个节点，每个节点表示一个时刻的观测数据。节点之间的有向边表示两个观测数据之间的因果关系。例如，

对

有因果影响；

对

有因果影响；

对

有因果影响等。图2a中的时序数据因果图也可以通过图2b中的形式来表示。

单位因果图，如图2b所示，只表示其他时刻(第t个时刻之前的时刻)的观测数据和第t个时刻的观测数据之间的因果关系。例如，

对

具有因果影响；

对

具有因果影响等。

综合因果图，请参阅图2c所示，用于反映多个KPIs之间的因果关系，综合因果图包括多个节点，每个节点表示一个KPI。例如，x¹对x²有影响；x²对x³有影响等。本申请实施例中，综合因果图简称“因果图”。

上述综合因果图与单位因果图(或时序数据因果图)描述因果关系的主要区别在于：描述因果关系的层面不同，综合因果图在KPI层面上表达因果关系，而单位因果图(或时序数据因果图)在不同的时刻的观测数据层面上表达因果关系。当前方法(如条件独立性方法)中对时序数据的学习，机器学习的目标只能是单位因果图(或时序数据因果图)，如果需要得到综合因果图，还需要再对单位因果图在时间维度上进行压缩，从而间接得到综合因果图。若变量的个数为q个，时滞为τ(例如，附图2b中τ＝2)，则当前方法需要学习q×(τ+1)个观测数据之间的因果关系，学习的规模较大。

由此，本申请实施例中提供了一种通信网络故障的根因定位方法，该方法涉及人工智能领域中的网络运维技术领域。该方法中，学习多个KPIs对应的多个时刻的观测数据，机器学习的目标是综合因果图，从而能够直接得到多个KPIs之间的因果关系，根据综合因果图确定通信系统的故障根因。示例性的，该方法应用于一种故障定位系统，请参阅图3a和图3b所示，图3a和图3b为故障定位系统的两个场景示意图。在第一个应用场景中，故障定位系统包括故障定位设备201、数据存储设备202、异常检测设备203和多个网元204。其中，多个网元组成通信网络。示例性的，多个网元包括移动管理节点功能实体(mobilitymanagement entity function，MME)、服务网关(serving gateway，SGW)、PDN网关(PDNgateway，PGW)、路由器和基站等，应理解，上述网元仅是举例，并非对网元的限定，根据实际应用场景，网元还可以包括其他的网络设备，且多个网元之间的连接关系并不限定。数据存储设备202和异常检测设备203均与故障定位设备201通信连接，同时数据存储设备202和异常检测设备203均与多个网元204通信连接。数据存储设备202用于从多个网元204接收KPI对应的多个时刻的观测数据并存储；异常检测设备203用于从多个网元接收KPI的观测数据，并对该观测数据进行异常检测，当异常检测设备203确定有异常KPI时，异常检测设备203向故障定位设备201发送异常KPI集合，该异常KPI集合中包括多个异常KPIs。故障定位设备201用于根据异常KPI集合从数据存储设备202获取每个异常KPI对应的历史数据(包括多个历史时刻的观测数据)，故障定位设备201学习多个历史时刻的观测数据，直接得到综合因果图，根据所述因果图，确定引起所述通信网络故障的根因。在第二个应用场景中，故障定位设备、数据存储设备和异常检测设备可以集成设置，电子设备205用于执行上述故障定位设备、数据存储设备和异常检测设备的功能，故障定位设备、数据存储设备和异常检测设备为电子设备中用于执行相关功能的功能模块。

请参阅图4所示，下面对本申请提供的一种通信网络故障的根因定位方法进行示例性说明。示例性的，该方法应用于上述故障定位设备，或者，该方法应用于电子设备，具体的并不限定。本实施例中，该方法的执行主体以上述故障定位设备为例进行说明。

步骤401、故障定位设备获取通信网络的历史数据，历史数据包括多个KPIs在多个历史时刻的观测数据，多个KPIs用于描述通信网络的网元的运行状态。

数据存储设备存储了通信网络的历史数据对应的数据集C。示例性的，数据集C中包括M个KPI在多个历史时刻的观测数据。该M个KPI可以理解为用于描述通信网络的网元的运行状态的全部KPI。例如，M个KPI在多个历史时刻的观测数据如下表1所示。

表1

如上表1所示，数据集C中包括M个KPI，该M个KPI可以包括x¹、x²、x³和x⁴等，其中，上表1中的x¹、x²、x³和x⁴分别表示为物理含义不同的KPI。例如，在VoLTE通信网络中，x¹为“注册成功率”，x¹为“语音接通成功率”、x³为“掉话率”、x⁴为“平均通话时长”等。t0、t1、t2、t3和t4分别表示不同的历史时刻。例如，t0为2020年6月2日0:10；t1为2020年6月2日0:20；t2为2020年6月2日0:30等等。

表示x¹在t0时刻的观测数据；

表示x¹在t1时刻的观测数据等等，上表1中的所示出的数据不一一赘述举例说明。其中，M为大于或者等于2的整数。

示例性的，当异常检测设备检测到有异常KPI时，故障定位设备从异常检测设备接收异常KPI的集合，该异常KPI的集合中包括多个异常KPIs，例如，多个异常KPIs为x¹、x²和x³。故障定位设备根据该多个异常KPIs从数据集C中获取该异常KPI对应的多个历史时刻的观测数据，得到数据集B。例如数据集B如下表2所示。

表2

数据集B中包括K个KPI，其中，K为小于或者等于M的整数。数据集B是数据集C的子集，或者，数据集B等于数据集C。

示例性的，若故障定位设备在目标时刻获取异常KPI的集合，则历史时刻为不晚于目标时刻的时刻，历史数据为包括多个历史时刻对应的观测数据的数据集，例如，上述表1和表2中示出的多个时刻为历史时刻。

步骤402、故障定位设备根据多个KPIs中每个KPI对应的观测数据得到每个KPI对应的因变量，因变量为包括多个元素的向量，每个元素指示对应KPI的一次观测数据。

该“多个KPIs”可以指上述数据集B中的K个KPI。

首先，针对每个KPI，故障定位设备从数据集B中选择一个时间段内的观测数据。该时间段可以至少用以下两种实现方式实现。

方式A、故障定位设备确定一个最大时滞(用“τ”来表示)和结束时刻。例如，结束时刻为t3，τ＝2，则t3-2对应t1时刻，t3-1对应t2时刻，该时间段为t1至t3之间的时间段。

方式B、故障定位设备确定起始时刻和结束时刻，如起始时刻为t1，结束时刻为t3，时间段为t1至t3之间的时间段。

然后，以上述方式A为例，故障定位设备针对每个KPI，对该时间段内的观测数据进行拼接，得到包括τ+1个元素的向量，并将每个KPI对应的向量作为因变量。每个KPI对应的向量如下式(1)所示。

其中，

表示第i个KPI对应的向量(即因变量)，xⁱ用于表示第i个KPI，

表示第i个KPI在第t个时刻的观测数据，

表示第i个KPI在第t-τ+1个时刻的观测数据，

表示第i个KPI在第t-τ个时刻的观测数据。若KPI的数量为d个，则i从1开始取值，取遍从1至d中的每个整数。第t个时刻用于表示向量中最后一个元素的观测数据所对应的时刻。例如，在应用场景中，第t个时刻可以对应上表1中的t3时刻。

步骤403、故障定位设备从历史数据中每个KPI对应多个历史时刻的观测数据选择目标观测数据作为果变量。

故障定位设备从数据集B(如上表2所示)中选择一个观测数据作为果变量。

在第一种实现方式中，故障定位设备选择第一KPI对应的第一时刻的观测数据作为果变量，目标观测数据为第一时刻的观测数据。其中，第一时刻的观测数据是第一KPI对应的向量中最后一个元素的观测数据。第一KPI为多个KPIs中的任意一个KPI，即针对每个KPI，故障定位设备选择第t个时刻的观测数据作为果变量。果变量如下式(2)所示。

其中，

表示第j个KPI对应的果向量，

表示第j个KPI在第t个时刻的观测数据。若KPI的数量为d个，j从1开始取值，取遍1至d中的每个正整数。

在该种实现方式中，第一时刻的观测数据是第一KPI对应的向量中最后一个元素的观测数据，也是向量中包括的最后一次观测数据。由于“原因”都发生在较早时间点，随着时间的积累，向量中的最后一次观测数据是积累了之前时刻影响的数据，由此，选择向量中的最后一次观测数据作为果向量较为准确。

在第二种实现方式中，故障定位设备根据两个KPIs是否有瞬时的因果关系，确定果变量。其中，瞬时的因果关系是指：两个KPIs对应的观测数据在同一个时刻具有因果关系。该两个KPIs为第一KPI和第二KPI，第一KPI和第二KPI为多个KPIs中的任意两个KPIs。请参阅图2a进行理解瞬时的因果关系，在图2a中，在第t个时刻，

和

之间具有因果关系(

对

有因果影响)，则KPIx³和KPIx¹具有瞬时的因果关系。

在第二种实现方式中，包括以下两种情况：

情况1，若基于先验知识确定第一KPI和第二KPI在第一时刻具有瞬时的因果关系，故障定位设备选择第一KPI对应的时序数据序列中第一时刻的观测数据(目标观测数据)作为果变量，并选择第二KPI对应的时序数据序列中第一时刻的观测数据作为果变量。即果变量如上述式(2)所示。例如，第一KPI为x¹，第二KPI为x³。请参阅上表2所示，针对x¹，故障定位设备选择

(如

)作为果变量。针对x³，故障定位设备选择

(如

)作为果变量。

情况2，若基于先验知识确定第一KPI和第二KPI在第一时刻不具有瞬时的因果关系，则故障定位设备选择第一KPI对应的时序数据序列中第二时刻的观测数据作为果变量，目标观测数据为第二时刻的观测数据；其中，第二时刻是第一时刻的下一个时刻。即果变量如下式(3)所示。

其中，

表示第j个KPI对应的果向量，

表示第j个KPI在第t+1个时刻的观测数据。例如，请参阅上述表2所示，第t个时刻对应t3时刻，第t+1个时刻对应t4时刻。针对x¹，故障定位设备选择

(如

)作为果变量。针对x³，故障定位设备选择

(如

)作为果变量。

在该第二种实现方式中，故障定位设备能够根据第一KPI和第二KPI在第一时刻的观测数据之间是否有瞬时的因果影响来选择果变量。在情况1中，如果第一时刻的观测数据之间有瞬时的因果影响，说明第一KPI和第二KPI具有因果关系，则直接选择第一时刻的观测数据作为果变量。在情况2中，如果第一时刻的观测数据之间没有瞬时的因果影响，则选择第一时刻的下一个时刻的观测数据作为果变量，选择的果变量更符合实际，从而提高学习因果关系的准确性。

步骤404、故障定位设备根据因变量与果变量确定因果图，因果图用于描述多个KPIs之间的因果关系，因果图包括第一节点和第二节点，以及第一节点指向第二节点的有向边，第一节点对应多个KPIs中的第一KPI，第二节点对应多个KPIs中的第二KPI，有向边指示第一KPI与第二KPI之间有因果关系。

首先，故障定位设备确定与因变量与果变量之间的因果关系匹配的拓扑结构，拓扑结构用于指示第一节点指向第二节点的有向边的权值。拓扑结构可以用图结构来表示，或者拓扑结构也可以用矩阵结构来表示，拓扑结构的具体表现形式并不限定。本实施例中，拓扑结构以邻接矩阵(如记为“A”)为例进行示例性说明。

示例性的，S10、故障定位设备确定打分函数，打分函数用于衡量拓扑结构与因果关系的匹配程度。例如，打分函数可以是贝叶斯信息标准(bayesian informationcriterion，BIC)函数均方误差等，具体的并不限定。打分函数记为下式(4)所示。

其中，S用于表示打分函数；A用于表示邻接矩阵；

表示因变量的集合，d表示因变量的数量；

表示第i个KPI；i从1开始取值，取遍1至d中的每个正整数；

表示果变量的集合，

表示第j个KPI，j从1开始取值，取遍1至d中的每个正整数。

示例性的，本申请实施例中，打分函数以BIC打分函数为例进行示例性说明。BIC打分函数定义为负对数似然项加上惩罚项。BIC打分函数的目标是找到目标分值(如最低分值)对应的邻接矩阵A。例如，BIC打分函数如下(5)所示。

其中，A表示二值的邻接矩阵，当A_ij＝1时，表示存在第i个节点指向第j个节点的有向边，即第i个KPI和第j个KPI之间具有因果关系，具体的，第j个KPI会受到第i个KPI的影响。当A_ij＝0时，表示不存在第i个节点指向第j个节点的有向边，即j个KPI不会受到第i个KPI的影响。

表示给定因变量

结果变量

的发生概率。例如，当A_ij＝0时，A_ijXⁱ _t对应数值为0的向量，因此结果变量

不会受到

的影响。本实施例中，计算概率p的方法并不限定，例如，可以选择多项式、或神经网络等函数来拟合因变量和果变量之间的因果关系，从而计算相应的概率p。可选地，||A||₁可以为l₁范数，目的是使得邻接矩阵保持一定的稀疏性，即保证邻接矩阵中保证有一定数量的“0”值，以降低节点间因果关系的复杂性。

S12、故障定位设备计算邻接矩阵中A_ij项的权值。

首先，初始化邻接矩阵，例如，A_1j＝1，A_2j＝0，…，A_dj＝0。

然后，计算邻接矩阵中第一节点(第i个节点)指向第二节点(第j个节点)的有向边的权值。示例性的，上述打分函数的分值是基于二值邻接矩阵得到的分值，常规方法中，当变量的数量d较小时(如d＜7)，可以采用遍历的方法求得邻接矩阵中元素的二值化数值。但是当d较大时，可能的解的数量会超指数增加，只能使用一些近似搜索的方法(如贪婪搜索)求得二值邻接矩阵，但实际中通常效果不佳。本实施例中，采用数值连续优化方法计算第一节点指向第二节点的有向边的第一权值，第一权值为一个近似二值化的数值，即第一权值为大于或者等于0，且小于或者等于1的数值。例如，第一权值为0.1，0.9等近似“0”或近似“1”的数值。故障定位设备再将第一权值与阈值(如0.5)进行比较，得到有向边的二值化权值(0或1)，例如，当第一权值大于阈值时，二值化权值为1。

示例性的，本实施例中，数值连续优化方法可以采用Gumbel-Softmax技术得到近似二值化权值(即第一权值)。近似二值的邻接矩阵记为“A′”，对于A′中的第i个节点指向第j个节点的有向边的权值如下式(6)所示。

其中，

用于计算近似二值化权值，U为用于计算近似二值邻接矩阵的参数，U_ij为用于计算邻接矩阵A′中的第A_ij′项权值的实变量。σ(·)表示logistic sigmoid函数，取值范围是(0,1)。g是一个服从Gumbel(0,1)分布的随机变量，T为一个正实数，当T趋近于0时，

的值靠近“0”或者“1”。

S13、故障定位设备基于打分函数优化邻接矩阵。

故障定位设备将计算得到的A_ij项的权值代入到上述式(5)中，基于上述打分函数不断的优化邻接矩阵，直到故障定位设备确定分数最低的打分函数对应的邻接矩阵。

故障定位设备得到二值的邻接矩阵A的过程可以如下述的示例性说明。初始化过程：首先确定上述式(5)中的打分函数，初始化式(6)中的U_ij，即初始化邻接矩阵A。中间过程：确定U_ij的梯度，通过上述式(6)计算得到近似二值的邻接矩阵A′中各元素的第一权值，将A′中A_ij′项的第一权值代入到上述打分函数，得到第一分值。若第一分值不满足要求，则根据U_ij的梯度及上述式(6)重新计算邻接矩阵A′中各元素的第二权值，将A′中A_ij′项的第二权值代入到上述打分函数，得到第二分值，若第二分值为最低分值(此处可以为经过多轮优化后，得到最低分值，为了方便说明，不一一赘述优化过程)，则将第二权值与阈值进行比较，得到二值化权值，从而得到邻接矩阵A。可选地，在中间过程中，也可以将A′中A_ij′项的第一权值与阈值进行比较，得到二值化权值，将二值化权值代入到上述打分函数，得到第一分值。若第一分值不满足要求，则根据U_ij的梯度及上述式(6)重新计算邻接矩阵A′中各元素的第二权值，将A′中A_ij′项的第二权值与阈值进行比较，得到二值化权值，将新得到的二值化权值代入到上述打分函数，得到第二分值，经过多轮优化，直到打分函数的分值最低，故障定位设备确定分数最低的打分函数对应的邻接矩阵A，分数最低的打分函数对应的邻接矩阵为：与“因变量和果变量之间的因果关系”匹配程度最高的邻接矩阵。

可选地，为了使得邻接矩阵更接近真实图，提升综合因果图的准确率。故障定位设备还可以获取先验知识，先验知识用于指示第三KPI与第四KPI之间的因果关系。第三KPI与第四KPI为多个KPIs中的任意两个KPI。邻接矩阵中的第三节点对应第三KPI，第四节点对应第四KPI。故障定位设备根据先验知识确定第三节点(第三KPI)指向第四节点(第四KPI)的有向边的权值，即A_ij＝1(或者A_ij＝0)。例如，先验知识指示第三KPI(如第2个KPI)对第四KPI(如第3个KPI)一定有因果影响，则故障定位设备可以将第三节点指向第四节点的有向边设置为“1”。例如，A₂₃＝1。

然后，故障定位设备根据邻接矩阵确定因果图。

示例性的，请参阅图5所示，图5为邻接矩阵转化为因果图的示意图。邻接矩阵包括多个节点和矩阵元素，每个矩阵元素用于指示有向边的权值。示例性的，多个节点包括v1、v2和v3。其中，v1对应KPIx¹，v2对应KPIx²，v3对应KPIx³。故障定位设备根据邻接矩阵得到因果图(简称“因果图”)。例如，v2指向v1有“有向边”，则x²对x¹有影响，v2指向v3有“有向边”，x²对x³有影响，v3指向v1有“有向边”，x³对x¹有影响等。

可选地，为了避免邻接矩阵指示虚假有向边，提升因果图的准确率。故障定位设备对邻接矩阵进行剪枝处理，得到综合因果图。例如，通过假设检验方法判断学习的有向边是否真正存在。例如，若故障定位设备通过假设检验方法确定v2指向v1存在“有向边”，则保留v2指向v1的有向边；若确定v2指向v1不存在“有向边”，则删除v2指向v1的有向边，从而得到减枝处理后的综合因果图。

步骤405、故障定位设备根据因果图确定引起通信网络故障的根因。

故障定位设备根据因果图中根节点确定引起通信网络故障的根因KPI，进而能够根据根因KPI定位到故障网元。例如，因果图包括第五节点、第六节点和第七节点，第五节点对应多个KPIs中的第五KPI，第六节点对应多个KPIs中的第六KPI。其中，第五节点、第六节点和第七节点是因果图中任意三个节点，第五KPI和第六KPI是多个KPIs中的任意两个KPIs。

情况a，第五节点只有一个根节点的情况。故障定位设备根据所述因果图确定第五节点的根节点，例如，第五节点的根节点是第六节点。故障定位设备确定根节点对应的KPI(例如第六KPI)为所述第五KPI的根因KPI，即根据因果图确定引起第五KPI出现异常的根因是第六KPI出现异常。

示例性的，请参阅图6a所示，当第五节点是v1时，v1的根节点是v2(第六节点)，v2对应KPIx²，v1对应KPIx¹。也就是说，引起KPIx¹发生异常的根本原因是由于KPIx²发生了异常。同理，v3的根节点是v2，v3对应KPIx³，v2对应KPIx²，也就是说，引起KPIx³发生异常的根本原因也是由于KPIx²发生异常。在图6a所示的例子中，引起通信网络故障的根本原因是由于KPIx²发生了异常。

情况b，第五节点有多个根节点的情况。故障定位设备确定多个根节点中每个根节点的后代子节点的数量，按照后代子节点的数量对多个根节点进行排序(如从大到小的顺序)，如多个根节点的排序如根节点1，根节点2，根节点3。故障定位设备输出根节点的序列，且确定根节点1对应的KPI为第五KPI的“根因KPI”。在实际操作中，网络运维工程师可以将根节点1对应的KPI作为“根因KPI”进行排除故障处理，若没有完全排除故障，则网络运维工程师可以按照多个根节点的序列将根节点2作为“根因KPI”进行排除故障处理。若多个根节点后代子节点的数量相同，则故障定位设备输出该多个根节点的序列，该序列标注有标识，该标识用于指示多个根节点后代子节点的数量相同，表明多个根节点对应的多个KPIs均有可能是“根因KPI”。

示例性的，请参阅图6b所示，为了方便说明，以第五节点有两个根节点的情况进行示例性说明。第六节点(v1)和第七节点(v3)均是第五节点(v2)的根节点，其中，v1的后代子节点包括v2和v4，v3的后代子节点为v2，也即v1的后代子节点的数量大于v3的子节点的数量，故障定位设备可以确定引起KPIx²发生异常的根本原因是由于KPIx¹发生异常，根据KPIx¹确定发生故障的网元，从而确定引起通信网络故障的根因。

本申请实施例中，故障定位设备获取通信网络的历史数据，历史数据包括多个KPIs在多个历史时刻的观测数据，故障定位设备根据多个KPIs中每个KPI对应的观测数据得到每个KPI对应的向量，并将每个KPI对应的向量作为因变量，然后，进一步从历史数据中选择目标观测数据作为果变量，故障定位设备确定了因变量和果变量，学习因变量和果变量的因果关系。因变量是每个KPI对应的向量，也就是说，在学习过程中，直接学习的是KPI层面的数据，而不是观测数据层面的数据，从而故障定位设备直接学习得到综合因果图；因果图用于描述多个KPIs之间的因果关系，故障定位设备根据因果图确定引起通信网络故障的根因，从而节省网络运维的时间成本和人工成本。

可选地，为了提高确定根因KPI的准确率，可以通过一些限制条件来限制因果图结构。示例性的，本实施例中采用增广拉格朗日法，将约束条件作为惩罚项，从而将带限制条件的优化问题转换成无限制的优化问题，最后通过迭代逐渐提高惩罚项的权重使得最终的结果满足限制条件。

示例性的，将“有向无环图”作为因果图的限制条件，也就是说，综合因果图为有向无环图(directed acyclic graph，DAG)。在上述步骤404中，还可以包括如下步骤：

S20，电子获取用于限制综合因果图结构的限制条件。限制条件通过下式(7)表示。

h(U)＝trace(e^A′)-d，式(7)。

其中，A′用于表示近似二值化邻接矩阵，如上述式(6)，

e为常数，d为因变量的个数。

S21，故障定位设备基于述数值连续优化方法和所述限制条件构建增广拉格朗日函数。

上述式(4)中的打分函数变形为如下式(8)所示。

其中，U为用于得到近似二值邻接矩阵的参数；φ用来表示拟合因果关系的函数的参数；

表示因变量的集合，d表示因变量的数量，

表示第i个KPI对应的向量，i从1开始取值，取遍1至d中的每个正整数；

表示果变量的集合，

表示第j个KPI，j从1开始取值，取遍1至d中的每个正整数。

增广拉格朗日函数如下式(9)所示。

其中，ρ为惩罚系数，且ρ大于0；α为拉格乘子。

S22，故障定位设备根据增广拉格朗日函数计算所述第一节点指向所述第二节点的有向边的第一权值。

增广拉格朗日函数可以使用如下策略进行迭代，如下式(10)所示：

U^k+1,φ^k+1＝argmin_{U,φ}L_ρ(U,φ,α^k)，

α^k+1＝α^k+ρ^kh(U^k+1)，

若h(U^k+1)＞γh(U^k)，则ρ^k+1＝βρ^k；若h(U^k+1)≤γh(U^k)，则ρ^k+1＝ρ^k。式(10)。

其中，k表示迭代次数；β和γ为可调超参数，且β＞1，0＜γ＜1。

第一步中可以采用基于梯度的方法求解得到U^k+1,φ^k+1。随着迭代次数的增加，惩罚系数ρ^k增大，h(U^k)将会越来越小。实际应用中，通常可以选取一个很小的门限值，例如门限值为10^-8，当h(U^k)小于门限值时，迭代停止，返回U^k作为求解的结果。U^k(U^k为一个矩阵，U_ij是U中的元素，)即为增加了限制条件后的求解结果，根据U^k可以得到的近似二值邻接矩阵A′，根据A′进而得到二值邻接矩阵A。

可选地，若两个KPIs的多个历史时刻对应的观测数据如果呈现周期性，则会造成该两个KPIs之间具有伪相关的因果关系，邻接矩阵指示出虚假边。

观测数据呈现周期性可能是混淆变量引起的。混淆变量一般是指观测不到的，但是会造成两个变量之间存在虚假的因果关系的变量。例如，“语音接通成功率”和“平均通话时长”(用户保持通话状态时间的平均值)这两个KPIs呈现周期性，而这两个KPIs呈现周期性可能是由于用户数量和用户使用频次的周期性引起的，用户数量和用户使用频次即为混淆变量。由于用户数量即影响了“语音接通成功率”，也影响了“平均长保时间”，那么这两个KPIs的观测数据可能会产生伪相关性，也就可能导致因果图出现虚假边。然而，用户数量和用户使用频次的数据又无法观测到，本实施例中，引入时间作为代理变量，代理变量用于衡量KPI的观测数据的周期性，从而去掉潜在混淆变量对因果图准确性的影响。

本实施例中，对于上述步骤402之后，步骤404之前，该方法还包括如下步骤：

S30，故障定位设备获取代理变量，代理变量用于指示时间(简称“时间向量”)，将代理变量(时间向量)作为因变量，代理变量用于指示KPI对应的向量中多个元素对应的时间信息。

示例性的，时间向量的维度为8维，其中，第一个维度的元素用于表示一天中的时刻，例如，0:10，0:20，0:30，…，23:59。第二个维度至第八个维度用于表示星期。例如，第二个维度表示星期一，第三个维度表示星期二等等，以此类推，第八个维度表示星期日。对于时间向量中元素的编码方式并不限定，例如，第一个维度的元素用于表示一天中的时刻，可以采用将一维数值扩展为二维的数值(普通的数值转弧度制)来编码，将小时和分钟采用正弦值和余弦值的组合方式来唯一指示一天中的小时和分钟。例如，第二个维度至第八个维度表示的星期几可以用独热编码(one-hot encoding)来表示。

时间的多维向量用于指示KPI对应的向量

中每个元素的时间信息。例如，

对应的时间信息是星期一0:10，

对应的时间信息是星期一0:20,

对应的时间信息是星期二0:10等等。

由于时间向量作为因变量，根据先验知识，任何一个KPI不会对时间有影响，也就是说，时间向量并不作为果变量，由此，果变量的数量比因变量的数量少一个。本实施例中，上述式(4)中的打分函数更新如下述式(11)所示。

其中，式(11)与上述式(4)的区别在于，上述式(4)中，因变量和果变量的数量相同，而式(11)中，果变量的数量比因变量的数量少一个，j从1开始取值，取遍1至(d-1)中的每个正整数，例如，d＝4，i取1、2、3、4；j取1、2，3。

同理，上述式(8)中的打分函数更新如下述式(12)所示。

同理，j从1开始取值，取遍1至(d-1)中的每个正整数。

本实施例中，在因变量中增加了时间维度，故障定位设备学习每个KPI对应向量的时间信息，从而降低观测数据周期性对因果学习的影响，提高因果图的准确性。

请参阅图7所示，本申请实施例提供了一种通信网络故障的根因定位装置700，该装置包括获取模块701和处理模块702，该装置用于执行上述方法实施例中故障定位设备所执行的方法。

获取模块701，用于获取通信网络的历史数据，历史数据包括多个关键性能指标KPIs在多个历史时刻的观测数据，多个KPIs用于描述通信网络的网元的运行状态；

处理模块702，用于根据多个KPIs中每个KPI对应的观测数据得到每个KPI对应的因变量，因变量为包括多个元素的向量，每个元素指示对应KPI的一次观测数据；

处理模块702，还用于从历史数据中每个KPI对应多个历史时刻的观测数据选择目标观测数据作为果变量；

处理模块702，还用于根据因变量与果变量确定因果图，因果图用于描述多个KPIs之间的因果关系，因果图包括第一节点和第二节点，以及第一节点指向第二节点的有向边，第一节点对应多个KPIs中的第一KPI，第二节点对应多个KPIs中的第二KPI，有向边指示第一KPI与第二KPI之间有因果关系；

处理模块702，还用于根据因果图，确定引起通信网络故障的根因。

可选地，获取模块701的功能可以由收发器来执行。其中，收发器具有发送和/或接收的功能。可选地，收发器由接收器和/或发射器代替。

可选地，获取模块701为网络接口。可选地，网络接口是输入输出接口或者收发电路。

可选地，获取模块701的功能也可以由处理器来执行。

可选地，处理模块702为处理器，处理器是通用处理器或者专用处理器等。可选地，处理器包括用于实现接收和发送功能的收发单元。例如该收发单元是收发电路，或者是接口，或者是接口电路。用于实现接收和发送功能的收发电路、接口或接口电路是分开的部署的，可选地，是集成在一起部署的。上述收发电路、接口或接口电路用于代码或数据的读写，或者，上述收发电路、接口或接口电路用于信号的传输或传递。

进一步的，获取模块701用于执行上述方法实施例中的步骤401、步骤S30。处理模块702用于执行上述方法实施例中的步骤402、步骤403、步骤404、步骤405。

在一种实现方式中，处理模块702可以是一个处理装置，处理装置的功能可以部分或全部通过软件实现。

可选地，处理装置的功能可以部分或全部通过软件实现。此时，处理装置可以包括存储器和处理器，其中，存储器用于存储计算机程序，处理器读取并执行存储器中存储的计算机程序，以执行任意一个方法实施例中的相应处理和/或步骤。

可选地，处理装置可以仅包括处理器。用于存储计算机程序的存储器位于处理装置之外，处理器通过电路/电线与存储器连接，以读取并执行存储器中存储的计算机程序。

可选地，所述处理装置可以是一个或多个芯片，或一个或多个集成电路。

可选地，处理模块702还具体用于：确定与因变量与果变量之间的因果关系匹配的拓扑结构，拓扑结构用于指示第一节点指向第二节点的有向边的权值；根据拓扑结构确定因果图。

可选地，处理模块702还具体用于：初始化拓扑结构；计算拓扑结构中第一节点指向第二节点的有向边的权值；基于打分函数调整拓扑结构，打分函数用于衡量拓扑结构与所述因变量与所述果变量之间的因果关系的匹配程度。

可选地，处理模块702还具体用于：采用数值连续优化方法计算第一节点指向第二节点的有向边的第一权值，第一权值为大于或者等于0，且小于或者等于1的数值；将第一权值与阈值进行比较，得到有向边的二值化权值，二值化权值为1或者0。

可选地，获取模块701，还用于获取用于限制因果图结构的限制条件；处理模块702，还用于基于数值连续优化方法和限制条件构建增广拉格朗日函数；根据增广拉格朗日函数计算第一节点指向第二节点的有向边的第一权值。

可选地，拓扑结构包括第三节点和第四节点，第三节点对应多个KPIs中的第三KPI，第四节点对应多个KPIs中的第四KPI；

获取模块701，还用于获取先验知识，先验知识用于指示第三KPI与第四KPI之间的因果关系；处理模块702，还用于根据先验知识确定第三节点指向第四节点的有向边的权值。

可选地，多个历史时刻的观测数据呈现周期性；获取模块701，还用于获取代理变量，将代理变量作为因变量，代理变量用于指示多个KPIs对应的向量中多个元素对应的时间信息。

可选地，多个历史时刻包括第一时刻和第二时刻，处理模块702还具体用于：选择第一KPI对应的第一时刻的观测数据作为果变量，目标观测数据为第一时刻的观测数据；其中，第一时刻的观测数据为第一KPI对应的向量中最后一个元素表示的观测数据；或者，若基于先验知识确定第一KPI和第二KPI在第一时刻不具有瞬时的因果关系，则选择第一KPI对应的时序数据序列中第二时刻的观测数据作为果变量，目标观测数据为第二时刻的观测数据；其中，第二时刻是第一时刻的下一个时刻。

可选地，因果图包括第五节点，第五节点对应多个KPIs中的第五KPI，处理模块702还具体用于：根据所述因果图确定第五节点的根节点；确定所述根节点对应的KPI为所述第五KPI的根因KPI。

请参阅图8所示，本申请实施例还提供了一种故障定位设备800，故障定位设备用于执行上述方法实施例中故障定位设备所执行的方法。如该故障定位设备可以为服务器。

请参阅图8所示，图8是本申请实施例提供的一种故障定位设备的结构示意图，该故障定位设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器822和存储器832，一个或一个以上存储应用程序842或数据844的可读存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和可读存储介质830可以是短暂存储或持久存储。存储在可读存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对故障定位设备中的一系列指令操作。更进一步地，处理器822可以设置为与可读存储介质830通信，在故障定位设备800上执行可读存储介质830中的一系列指令操作。

故障定位设备800还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，和/或，一个或一个以上操作系统841。

本申请实施例中，所述处理器用于读取所述至少一个存储器所存储的计算机程序，使得所述故障定位设备执行上述方法实施例中故障定位设备所执行的方法步骤，具体请参阅方法实施例中的描述，此处不赘述。

可以理解，本申请实施例中的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(digitalsignal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有程序，当其在计算机上运行时，使得计算机执行上述方法实施例中故障定位设备所执行的方法。

本申请实施例中还提供一种包括计算机程序产品，当其在计算机上执行时，使得计算机执行上述方法实施例中故障定位设备所执行的方法。

本申请实施例中还提供一种电路系统，所述电路系统包括处理电路，所述处理电路配置为执行如上述方法实施例中故障定位设备所执行的方法。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种通信网络故障的根因定位方法，其特征在于，包括：

获取所述通信网络的历史数据，所述历史数据包括多个关键性能指标KPIs在多个历史时刻的观测数据，所述多个KPIs用于描述所述通信网络的网元的运行状态；

根据所述多个KPIs中每个KPI对应的观测数据得到每个KPI对应的因变量，所述因变量为包括多个元素的向量，每个元素指示对应KPI的一次观测数据；

从所述历史数据中每个KPI对应多个历史时刻的观测数据选择目标观测数据作为果变量；

根据所述因变量与所述果变量确定因果图，所述因果图用于描述所述多个KPIs之间的因果关系，所述因果图包括第一节点和第二节点，以及所述第一节点指向所述第二节点的有向边，所述第一节点对应所述多个KPIs中的第一KPI，所述第二节点对应所述多个KPIs中的第二KPI，所述有向边指示所述第一KPI与所述第二KPI之间有因果关系；

根据所述因果图，确定引起所述通信网络故障的根因。

2.根据权利要求1所述的方法，其特征在于，所述根据所述因变量与所述果变量确定因果图，包括：

确定与所述因变量与所述果变量之间的因果关系匹配的拓扑结构，所述拓扑结构用于指示所述第一节点指向所述第二节点的有向边的权值；

根据所述拓扑结构确定所述因果图。

3.根据权利要求2所述的方法，其特征在于，所述确定与所述因变量与所述果变量之间的因果关系匹配的拓扑结构，包括：

初始化所述拓扑结构；

计算所述拓扑结构中所述第一节点指向所述第二节点的有向边的权值；

基于打分函数调整所述拓扑结构，所述打分函数用于衡量所述拓扑结构与所述因变量与所述果变量之间的因果关系的匹配程度。

4.根据权利要求3所述的方法，其特征在于，所述计算所述拓扑结构中所述第一节点指向所述第二节点的有向边的权值，包括：

采用数值连续优化方法计算所述第一节点指向所述第二节点的有向边的第一权值，所述第一权值为大于或者等于0，且小于或者等于1的数值；

将所述第一权值与阈值进行比较，得到所述有向边的二值化权值，所述二值化权值为1或者0。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

获取用于限制因果图结构的限制条件；

所述采用数值连续优化方法计算第一节点指向第二节点的有向边的第一权值，包括：

基于所述数值连续优化方法和所述限制条件构建增广拉格朗日函数；

根据所述增广拉格朗日函数计算所述第一节点指向所述第二节点的有向边的第一权值。

6.根据权利要求2-5中任一项所述的方法，其特征在于，所述拓扑结构包括第三节点和第四节点，所述第三节点对应多个KPIs中的第三KPI，所述第四节点对应所述多个KPIs中的第四KPI，所述方法还包括：

获取先验知识，所述先验知识用于指示所述第三KPI与所述第四KPI之间的因果关系；

根据所述先验知识确定所述第三节点指向所述第四节点的有向边的权值。

7.根据权利要求1-6中任一项所述的方法，其特征在于，若所述多个历史时刻的观测数据呈现周期性，则所述方法还包括：

获取代理变量，将所述代理变量作为因变量，所述代理变量用于指示所述多个KPIs对应的向量中所述多个元素对应的时间信息。

8.根据权利要求1-7中任一项所述的方法，其特征在于，所述多个历史时刻包括第一时刻和第二时刻，所述从所述历史数据中选择目标观测数据作为果变量，包括：

选择所述第一KPI对应的第一时刻的观测数据作为果变量，所述目标观测数据为所述第一时刻的观测数据；其中，所述第一时刻的观测数据为所述第一KPI对应的向量中最后一个元素。

9.根据权利要求1-8中任一项所述的方法，其特征在于，所述因果图包括第五节点，所述第五节点对应所述多个KPIs中的第五KPI，所述根据所述因果图确定引起所述通信网络故障的根因，包括：

根据所述因果图确定第五节点的根节点；

确定所述根节点对应的KPI为所述第五KPI的根因KPI。

10.一种通信网络故障的根因定位装置，其特征在于，包括：

获取模块，用于获取所述通信网络的历史数据，所述历史数据包括多个关键性能指标KPIs在多个历史时刻的观测数据，所述多个KPIs用于描述所述通信网络的网元的运行状态；

处理模块，用于根据所述多个KPIs中每个KPI对应的观测数据得到每个KPI对应的因变量，所述因变量为包括多个元素的向量，每个元素指示对应KPI的一次观测数据；

所述处理模块，还用于从所述历史数据中每个KPI对应多个历史时刻的观测数据选择目标观测数据作为果变量；

所述处理模块，还用于根据所述因变量与所述果变量确定因果图，所述因果图用于描述所述多个KPIs之间的因果关系，所述因果图包括第一节点和第二节点，以及所述第一节点指向所述第二节点的有向边，所述第一节点对应所述多个KPIs中的第一KPI，所述第二节点对应所述多个KPIs中的第二KPI，所述有向边指示所述第一KPI与所述第二KPI之间有因果关系；

所述处理模块，还用于根据所述因果图，确定引起所述通信网络故障的根因。

11.根据权利要求10所述的装置，其特征在于，所述处理模块还具体用于：

根据所述拓扑结构确定所述因果图。

12.根据权利要求11所述的装置，其特征在于，所述处理模块还具体用于：

初始化所述拓扑结构；

基于打分函数调整所述拓扑结构，所述打分函数用于衡量所述拓扑结构与所述因变量与所述果变量之间的匹配程度。

13.根据权利要求12所述的装置，其特征在于，所述处理模块还具体用于：

14.根据权利要求13所述的装置，其特征在于，

所述获取模块，还用于获取用于限制因果图结构的限制条件；

所述处理模块，还用于基于所述数值连续优化方法和所述限制条件构建增广拉格朗日函数；根据所述增广拉格朗日函数计算所述第一节点指向所述第二节点的有向边的第一权值。

15.根据权利要求11-14中任一项所述的装置，其特征在于，所述拓扑结构包括第三节点和第四节点，所述第三节点对应多个KPIs中的第三KPI，所述第四节点对应所述多个KPIs中的第四KPI；

所述获取模块，还用于获取先验知识，所述先验知识用于指示所述第三KPI与所述第四KPI之间的因果关系；

所述处理模块，还用于根据所述先验知识确定所述第三节点指向所述第四节点的有向边的权值。

16.根据权利要求10-15中任一项所述的装置，其特征在于，所述多个历史时刻的观测数据呈现周期性；

所述获取模块，还用于获取代理变量，所述代理变量为用于指示时间的多维向量，将所述时间的多维向量作为因变量，所述时间的多维向量用于指示所述KPI对应的向量中所述多个元素对应的时间信息。

17.根据权利要求10-16中任一项所述的装置，其特征在于，所述多个历史时刻包括第一时刻和第二时刻，所述处理模块还具体用于：

选择所述第一KPI对应的第一时刻的观测数据作为果变量，所述目标观测数据为所述第一时刻的观测数据；其中，所述第一时刻的观测数据为所述第一KPI对应的向量中最后一个元素的观测数据。

18.根据权利要求10-17中任一项所述的装置，其特征在于，所述因果图包括第五节点，所述第五节点对应所述多个KPIs中的第五KPI，所述处理模块还具体用于：

根据所述因果图确定第五节点的根节点；

确定所述根节点对应的KPI为所述第五KPI的根因KPI。

19.一种故障定位设备，其特征在于，包括处理器，所述处理器与至少一个存储器耦合，所述处理器用于读取所述至少一个存储器所存储的计算机程序，使得所述故障定位设备执行如权利要求1至9中任一项所述的方法。

20.一种计算机可读存储介质，其特征在于，用于储存计算机程序或指令，所述计算机程序或指令被执行时使得计算机执行如权利要求1至9中任一项所述的方法。

21.一种包括指令的计算机程序产品，其特征在于，当其被计算机执行时，使得计算机实现上述如权利要求1至9中任一项所述的方法。

22.一种电路系统，其特征在于，所述电路系统包括处理电路，所述处理电路配置为执行如权利要求1至9中任一项所述的方法。