CN115174355B

CN115174355B - 故障根因定位模型的生成方法，故障根因定位方法和装置

Info

Publication number: CN115174355B
Application number: CN202210886931.0A
Authority: CN
Inventors: 章小雨; 黄淙; 钟雪君
Original assignee: Hangzhou Eastcom Software Technology Co ltd
Current assignee: Hangzhou Eastcom Software Technology Co ltd
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2024-01-19
Anticipated expiration: 2042-07-26
Also published as: CN115174355A

Abstract

本申请提供了一种故障根因定位模型的生成方法，故障根因定位方法和装置，包括：获取目标区域的多个告警对象的历史告警信息，历史告警信息包括告警对象的身份标识和告警事件标识；告警对象为目标区域内网络设备中的部件；根据多个告警对象的身份标识、告警事件标识和预设的分组规则，训练目标区域的关联分析模型；根据关联分析模型，确定多个告警对象之间的拓扑关系信息；根据多个告警对象之间的拓扑关系信息和预设阈值，训练目标区域的故障根因定位模型。通过本申请实施例，能够自动生成当前多个告警对象之间的拓扑关系，从而确定告警对象的故障根因定位结果，提高了故障根因定位的准确度。

Description

故障根因定位模型的生成方法，故障根因定位方法和装置

技术领域

本申请涉及信号处理技术领域，尤其涉及一种故障根因定位模型的生成方法，故障根因定位方法和装置。

背景技术

随着互联网互联网业务的增加，网络用户流量使用也大规模增加，进而导致移动运营商的网元设备压力日益加重，网络设备告警数量快速增长，增加了运维工作人员的工作压力。由于移动运营商网络是拓扑网络，即网元设备之间具有直接或间接的连接关系，因此，大量告警数据之间存在一定的关联关系。因此引起多个网元设备告警的根本原因的定位能够大量减少运维工作人员的工作压力。

目前，相关技术中对网元设备告警的根本原因的定位主要依赖网络的拓扑关系，但是目前仅有少部分地区具有完整的网络拓扑关系数据，因此，相关技术中对网元设备中部件告警的根本原因的定位的精度较低。

发明内容

本申请实施例提供了一种故障根因定位模型的生成方法，故障根因定位方法和装置，能够提高对网元设备中部件告警的根因定位的精准度。

第一方面，本申请实施例提供了一种故障根因定位模型的生成方法，包括：

获取目标区域的多个告警对象的历史告警信息，历史告警信息包括告警对象的身份标识和告警事件标识；告警对象为目标区域内网络设备中的部件，告警事件标识用于表示告警对象发生的故障对应的标识；

根据多个告警对象的身份标识、告警事件标识和预设的分组规则，训练目标区域的关联分析模型，以使关联分析模型学习目标区域中告警对象进行故障告警之间的时序关联关系；

根据关联分析模型，确定多个告警对象之间的拓扑关系信息，拓扑关系信息用于指示多个告警对象中一个告警对象进行故障告警与多个告警对象中其他告警对象进行故障告警之间的关联关系；

根据多个告警对象之间的拓扑关系信息和预设阈值，训练目标区域的故障根因定位模型，以使故障根因定位模型学习多个告警对象中每个告警对象发生故障的故障根因。

在一种可能的实现方式中，历史告警信息还包括告警对象所在的网络设备所在区域的区域标识，方法还包括：

根据区域标识，从数据库中匹配与区域标识对应的网络拓扑信息，网络拓扑信息表示区域标识对应的区域内多个告警对象所在的网络设备之间的连接关系；

根据多个告警对象的身份标识、多个告警对象的告警事件标识和预设的分组规则，训练目标区域的关联分析模型，包括：

根据多个告警对象的身份标识、多个告警对象的告警事件标识、分组规则和网络拓扑信息，训练关联分析模型。

在一种可能的实现方式中，根据多个告警对象的身份标识、告警事件标识和预设的分组规则，训练目标区域的关联分析模型，包括：

根据多个告警对象的身份标识和预设的分组规则，对多个告警对象的告警事件标识进行分组；

根据分组后的告警事件标识训练目标区域的关联分析模型；

其中，预设的分组规则包括以下各项中的至少一项：等长时间窗口分组规则，滑动时间窗口分组规则和起止时间窗口分组规则。

在一种可能的实现方式中，历史告警信息还包括告警开始时间和告警清除时间，根据关联分析模型，确定多个告警对象之间的拓扑关系信息，包括：

根据第一告警对象的告警开始时间和告警清除时间，确定与第一告警对象关联的至少一个第二告警对象的身份标识和告警事件标识；第一告警对象为多个告警对象中的任意一个告警对象，第二告警对象为多个告警对象中不同于第一告警对象的告警对象；

根据关联分析模型，计算第一告警对象和至少一个第二告警对象中每个第二告警对象之间条件概率，条件概率用于表示第二告警对象进行故障告警导致第一告警对象进行故障告警的概率，并确定第一告警对象到达第二告警对象的最短路径；

根据多个告警对象中的每个第一告警对象和每个第二告警对象之间的条件概率、第一告警对象到达第二告警对象的最短路径和预设阈值，确定多个告警对象之间的拓扑关系信息。

在一种可能的实现方式中，方法还包括：

根据预先存储的告警验证集对关联分析模型进行验证，得到验证结果值；

在验证结果值小于预设结果值的情况下，重新训练关联分析模型；

其中，告警验证集包括多个告警对象的历史告警信息和多个告警对象之间的时序关联关系。

第二方面，本申请实施例提供了一种故障根因定位方法，包括：

获取目标区域的告警信息；告警信息包括多个告警对象的身份标识、告警事件标识、告警开始时间、告警结束时间和告警信息入库时间；

根据告警信息入库时间、多个告警对象的告警开始时间和多个告警对象的告警结束时间，整合告警信息；

根据整合后的告警信息、如第一方面中任一项的关联分析模型和故障根因定位模型，确定多个告警对象各自的根因故障定位结果。

第三方面，本申请实施例提供了一种故障根因定位模型的生成装置，其特征在于，包括：

获取模块，用于获取目标区域的多个告警对象的历史告警信息，历史告警信息包括告警对象的身份标识和告警事件标识；告警对象为目标区域内网络设备中的部件，告警事件标识用于表示告警对象发生的故障对应的标识；

第一训练模块，用于根据多个告警对象的身份标识、告警事件标识和预设的分组规则，训练目标区域的关联分析模型，以使关联分析模型学习目标区域中告警对象进行故障告警之间的时序关联关系；

确定模块，用于根据关联分析模型，确定多个告警对象之间的拓扑关系信息，拓扑关系信息用于指示多个告警对象中一个告警对象进行故障告警与多个告警对象中其他告警对象进行故障告警之间的关联关系；

第二训练模块，用于根据多个告警对象之间的拓扑关系信息和预设阈值，训练目标区域的故障根因定位模型，以使故障根因定位模型学习多个告警对象中每个告警对象发生故障的故障根因。

在一种可能的实现方式中，历史告警信息还包括告警对象所在的网络设备所在区域的区域标识，装置还包括：

匹配模块，用于根据区域标识，从数据库中匹配与区域标识对应的网络拓扑信息，网络拓扑信息表示区域标识对应的区域内多个告警对象所在的网络设备之间的连接关系；

第一训练模块，用于根据多个告警对象的身份标识、多个告警对象的告警事件标识、分组规则和网络拓扑信息，训练关联分析模型。

在一种可能的实现方式中，第一训练模块，用于根据多个告警对象的身份标识和预设的分组规则，对多个告警对象的告警事件标识进行分组；根据分组后的告警事件标识训练目标区域的关联分析模型；其中，预设的分组规则包括以下各项中的至少一项：等长时间窗口分组规则，滑动时间窗口分组规则和起止时间窗口分组规则。

在一种可能的实现方式中，确定模块，用于根据第一告警对象的告警开始时间和告警清除时间，确定与第一告警对象关联的至少一个第二告警对象的身份标识和告警事件标识；第一告警对象为多个告警对象中的任意一个告警对象，第二告警对象为多个告警对象中不同于第一告警对象的告警对象；

在一种可能的实现方式中，装置还包括：

验证模块，用于根据预先存储的告警验证集对关联分析模型进行验证，得到验证结果值；

第一训练模块还用于在验证结果值小于预设结果值的情况下，重新训练关联分析模型；

第四方面，本申请实施例提供了一种故障根因定位装置，包括：

获取模块，用于获取目标区域的告警信息；告警信息包括多个告警对象的身份标识、告警事件标识、告警开始时间、告警结束时间和告警信息入库时间；

整合模块，用于根据告警信息入库时间、多个告警对象的告警开始时间和多个告警对象的告警结束时间，整合告警信息；

确定模块，用于根据整合后的告警信息、如第一方面中的关联分析模型和故障根因定位模型，确定多个告警对象各自的根因故障定位结果。

第五方面，本申请实施例提供了一种计算设备，包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，计算机程序被处理器执行时实现如上述第一方面或第一方面中任一种可能的实现方式中所提供的方法，或实现如上述第二方面或第二方面中任一种可能的实现方式中所提供的方法。

第六方面，本申请实施例提供了一种计算机存储介质，计算机存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行上述第一方面或第一方面中任一种可能的实现方式中所提供的方法，或实现如上述第二方面或第二方面中任一种可能的实现方式中所提供的方法。

本申请实施例提供的故障根因定位模型的生成方法，故障根因定位方法和装置，通过根据多个告警对象的身份标识、告警事件标识和预设的分组规则，训练目标区域的关联分析模型，以使关联分析模型学习目标区域中多个告警对象进行故障告警之间的时序关联关系；根据关联分析模型，确定多个告警对象之间的拓扑关系信息，拓扑关系信息用于指示多个告警对象中一个告警对象进行故障告警与多个告警对象中其他告警对象进行故障告警之间的关联关系；根据多个告警对象之间的拓扑关系信息和预设阈值，训练目标区域的故障根因定位模型，以使故障根因定位模型学习多个告警对象中每个告警对象发生故障的故障根因。如此，无需预先存储网络中各个网络设备拓扑关系，就能够自动生成当前多个告警对象之间的拓扑关系，从而确定告警对象的故障根因定位结果，提高了故障根因定位的准确度。

附图说明

图1示出了本申请实施例提供的一种故障根因定位系统的架构示意图；

图2示出了本申请实施例提供的一种故障根因定位模型的生成方法的流程示意图；

图3示出了本申请实施例提供的一种告警对象之间的拓扑关系信息的示意图；

图4示出了本申请实施例提供的一种故障根因定位方法的流程示意图；

图5示出了本申请实施例提供的一种故障根因定位模型的生成装置的结构示意图；

图6示出了本申请实施例提供的故障根因定位装置的结构示意图；

图7示出了本申请实施例提供的一种计算设备的结构示意图。

具体实施方式

为了使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本申请实施例中的技术方案进行描述。

在本申请实施例的描述中，“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B这三种情况。另外，除非另有说明，术语“多个”的含义是指两个或两个以上。例如，多个系统是指两个或两个以上的系统，多个屏幕终端是指两个或两个以上的屏幕终端。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

图1是本申请实施例提供的一种故障根因定位系统的架构图。如图1所示，本申请实施例提供的一种故障根因定位系统可以包括名字节点101和数据节点102。其中，名字节点101和数据节点102共同构建了Hadoop环境和hdfs环境，从而实现持久性获取告警数据，会将从kafka获取到的数据写入至hdfs分布式存储中。数据节点能够存储海量数据，名字节点能够基于数据节点存储的数据进行数据处理工作。

在一些实施例中，名字节点和数据节点均可以是服务器。

示例性地，故障根因定位系统可以包括服务器0-服务器8，其中，服务器0和服务器1为名字节点，服务器2-服务器8为数据节点。服务器2-服务器7组成redis集群，用于当故障根因定位的在线推理时对待处理的队列的存储，实现多故障根因定位实例的高可用。服务器9单独安装oracle进行在线数据存储。服务器2-服务器4将从kafka接收到的数据向大数据平台持久化写入以及向oracle持久化写入。服务器5-服务器8用于在线实时推理，如故障根因定位。服务器0-服务器1用于对数据进行预处理。

通过部署大数据平台与微服务架构的故障根因定位系统，对整套体系形成了完整的闭环。从告警数据的获取，存储，到模型进行关联分析并将结果规则保存，中间通过多个可配置接口对关联分析结果进行校验及扩展。随后通过关联分析的规则结果集进行根因定位(对关联分析结果集采用拓扑发现算法，动态权重算法，环检测算法)的训练。到最终关联分析及根因定位规则集合入库后，在线多实例部署模块从redis中读取公共缓存项，实时监测并推理分析，将结果写回Kafka后可进行人工标注，标注结果回填到oracle服务器，用作于下一次模型迭代的训练数据。

图2是本申请实施例提供的一种故障根因定位模型的生成方法的流程示意图。如图2所示，本申请实施例提供的一种故障根因定位模块的生成方法可以包括：

S201：获取目标区域的多个告警对象的历史告警信息，历史告警信息包括告警对象的身份标识和告警事件标识；告警对象为目标区域内网络设备中的部件，告警事件标识用于表示告警对象发生的故障对应的标识。

目标区域可以是的地市，还可以是一个地市内的区域等，可以根据需求划分区域。在此不作限定。

在一种可能的实现方式中，根据地市粒度进行数据分区，从而得到目标区域的多个告警对象的历史告警信息。

告警对象至网络设备中的不同的部件，如处理器，存储器，接口等。历史告警信息是指告警对象在历史时间段内发生告警的信息，如告警对象的身份标识、告警事件标识，告警时间和告警清除时间等。需要说明的是，告警对象的告警信息可以包括大量字段信息，数量级较大，告警信息还可以包括start_time(告警开始时间)，clear_time(告警清除时间)，severity(告警严重性)，record_id(告警流水号：具备唯一性，每条告警信息有一个独立的流水号)，object_id(告警对象id)，event_id(告警事件id)，source_id(源id)，object_name(告警对象名称)，object_type(告警对象类型)，device_city(设备所在地市)，device_id(设备id)，device_name(设备名称)，device_type(设备类型)，clear_tag(告警清除标记)。这里仅作为举例说明，对比不做任何限制，可以根据不同的需求提取不同字段的信息。

获取到告警对象的历史告警信息，可以对历史告警信息进行解析，从而得到告警对象的身份标识，以及该告警对象发生的告警事件的标识。

S202：根据多个告警对象的身份标识、告警事件标识和预设的分组规则，训练目标区域的关联分析模型，以使关联分析模型学习目标区域中告警对象进行故障告警之间的时序关联关系。

网络设备中的部件的运行过程存在时序关联关系，因此，当网络设备中的部件进行告警时，各个告警部件(即告警对象)之间存在时序关联关系。由此，可以配置分组规则。具体地，运维工作人员可以根据自身经验配置分组规则，在此不作具体限定。

根据告警对象的身份标识和告警事件标识能够确定唯一的告警对象。根据分组规则，生成并训练目标区域的关联分析模型，从而使得关联分析模型学习到目标区域中多个告警对象之间进行故障告警的时序关联关系。

具体地，分组规则包括等长时间窗口分组规则，滑动时间窗口分组规则和起止时间窗口分组规则中的至少一个规则。根据多个告警对象的身份标识和预设的分组规则，对多个告警对象的告警事件标识进行分组。根据分组后的告警事件标识训练目标区域的关联分析模型。

示例性地，对多个告警对象的告警事件进行等长时间窗口分组、滑动时间窗口分组和起止时间窗口分组。将每组的告警事件对应的数据采用机器学习中的FP-Growth算法进行训练，得到多个告警对象之间的关联关系规则。将每组对应的关联关系规则取交集，得到关联分析模型。

在这里，关联分析模型可以看作是多个告警对象之间的关联关系规则，其中，关联关系规则可以包括多个。

在一种可能的实现方式中，目标区域的网络设备之间存在拓扑关系。历史告警信息还包括告警对象所在的网络设备所在区域的区域标识，根据区域标识，从数据库中匹配与区域标识对应的网络拓扑信息，网络拓扑信息表示区域标识对应的区域内多个告警对象所在的网络设备之间的连接关系。根据多个告警对象的身份标识、多个告警对象的告警事件标识、分组规则和网络拓扑信息，训练关联分析模型。

S203：根据关联分析模型，确定多个告警对象之间的拓扑关系信息，拓扑关系信息用于指示多个告警对象中一个告警对象进行故障告警与多个告警对象中其他告警对象进行故障告警之间的关联关系。

根据多个对象的关联分析模型，进行拓扑发现，从而得到多个告警对象之间的拓扑关系信息。

具体地，根据第一告警对象的告警开始时间和告警清除时间，确定与第一告警对象关联的至少一个第二告警对象的身份标识和告警事件标识；第一告警对象为多个告警对象中的任意一个告警对象，第二告警对象为多个告警对象中不同于第一告警对象的告警对象；根据关联分析模型，计算第一告警对象和至少一个第二告警对象中每个第二告警对象之间条件概率，条件概率用于表示第二告警对象进行故障告警导致第一告警对象进行故障告警的概率，并确定第一告警对象到达第二告警对象的最短路径；根据多个告警对象中的每个第一告警对象和每个第二告警对象之间的条件概率、第一告警对象到达第二告警对象的最短路径和预设阈值，确定多个告警对象之间的拓扑关系信息。

示例性地，将每个告警对象存活时间内发生的其他告警对象的告警作为与该告警实例的关联告警。因此，每个告警对象对应一个由其他告警对象所组成的关联告警事务集。根据这些关联告警事务集，可以计算出与告警对象A相关联的任意告警对象B发生告警的条件概率，即P(B|A)。

计算告警对象A到达告警对象B的最短路径，并根据告警对象B告警导致告警对象A告警的条件概率，告警对象A到达告警对象B的最短路径，确定告警对象A和告警对象B之间的路径关系，如此，得到多个告警对象之间的路径关系，从而得到多个告警对象之间的拓扑关系信息。

在一种可能的实现方式中，历史告警信息中包含告警对象告警的开始时间和清除时间，根据告警对象告警的开始时间和清除时间能够计算告警对象告警的次数和告警时长，从而确定告警对象告警的频率。为了减小高频干扰，可以通过告警过滤算法对高频告警的告警对象进行过滤。将高频告警的告警对象过滤后，生成剩余的告警对象之间的拓扑关系信息。

在一种可能的实现方式中，还可以通过环检测算法检测多个告警对象之间网络拓扑中的环路，并将网络拓扑中的环路消除。

S204：根据多个告警对象之间的拓扑关系信息和预设阈值，训练目标区域的故障根因定位模型，以使故障根因定位模型学习多个告警对象中每个告警对象发生故障的故障根因。

拓扑关系信息中包括第二告警对象告警导致第一告警对象告警的条件概率、第一告警对象到达第二告警对象的最短路径。根据第二告警对象告警导致第一告警对象告警的条件概率、第一告警对象到达第二告警对象的最短路径，能够计算得到第一告警对象到达第二告警对象的最短路径长度。例如，告警对象B导致告警对象A告警的条件概率是0.7，且告警对象A能够直接达到告警对象B，则第一告警对象到达第二告警对象的最短路径长度为0.7。

第一告警对象到达第二告警对象的最短路径长度大于或等于预设阈值，则保留第一告警对象和第二告警对象之间的路径关系。第一告警对象到达第二告警对象的最短路径长度小于预设阈值，则删除第一告警对象和第二告警对象之间的路径关系。

示例性地，多个告警对象之间的拓扑关系信息可以采用矩阵的形式表示。例如，告警对象A至告警对象F之间的初始拓扑关系矩阵G_6×6如下：

预设阈值为0.7，遍历初始拓扑关系矩阵G_6×6并更新初始拓扑关系矩阵G_6×6，若两个告警对象之间的最短路径长度大于或等于0.7，则将两个告警对象之间条件概率更新为1，否则更新为0。更新后的拓扑关系矩阵M_6×6如下：

由更新后的拓扑关系矩阵M_6×6可得到告警对象A至告警对象F之间的最终的拓扑关系信息。其中，最终的拓扑关系信息如图3所示。

根据多个告警对象之间最终的拓扑关系信息训练故障根因定位模型，以使故障根因定位模型学习多个告警对象中每个告警对象发生故障的故障根因。

在本实施例中，采用网络拓扑发现算法结合环检测算法及最短路径算法进行告警根因定位：通过对告警数据进行网络拓扑发现后，形成的拓扑结构数据。因其具有方向性，对其采用图算法领域中的环检测算法，对其进行环数据的发现与提取。将原始拓扑数据中的环数据进行剔除，剩下的数据如存在非单点(两个或两个以上节点)有向性(具有方向性)，则进行最短路径的识别。寻得其最短路径线路则为其根因定位流向。

在一些实施例中，本申请实施例提供的方法还包括验证环节。具体地，根据预先存储的告警验证集对关联分析模型进行验证，得到验证结果值；在验证结果值小于预设结果值的情况下，重新训练关联分析模型；其中，告警验证集包括多个告警对象的历史告警信息和多个告警对象之间的时序关联关系。

基于图2中的故障根因定位模型的生成方法，本申请实施例还提供了一种故障根因定位方法。

图4是本申请实施例提供的一种故障根因定位方法的流程示意图。如图2所示，本申请实施例提供的故障根因定位方法包括S401-S403。

S401：获取目标区域的告警信息；告警信息包括多个告警对象的身份标识、告警事件标识、告警开始时间、告警结束时间和告警信息入库时间。

可以获取数据集，数据集包括多个区域的中的告警信息。示例性地，由在线存储检测程序实时从kafka中接收告警数据，写入数据库中，并定期清除数据库中的历史告警信息，维持数据库中告警量平稳。在将告警信息写入数据库之前，会对告警信息进行解析，提取告警事件标识，多实例部署的各个程序从redis读取缓存，对无需关注的告警事件标识(业务经验或黑名单等多方面累积)进行过滤，对需要触发模型的告警事件标识进行监测，一旦发现该告警事件标识，生成一条待处理工单，写入redis中。

S402：根据告警信息入库时间、多个告警对象的告警开始时间和多个告警对象的告警结束时间，整合告警信息。

实时监控redis，获取工单(包含告警事件标识，告警对象的身份标识，告警信息入库时间，告警开始时间，告警清除时间等)，根据告警信息入库时间，提取前后5分钟时间内的数据进行数据整合。具体地，可以采用分组规则进行数据整合。

示例性地，分别采用等时长分段(固定时间分段，比如每10分钟一段，则将00：00-00：10、00：10-00：20的数据汇成一组)、滑动窗口分段(分为窗口时长、滑动时长，比如窗口时长10分钟，滑动时长1分钟的滑动窗口，则00：00-00：10一段、00：01-00：11一段、00：02-00：12一段，以此类推)、起止时间分段(遍历每一条告警信息，如告警信息A的告警开始时间为09：15，告警清除时间为09：50，则取9：15-9：50内发生的全部告警为一组)，三种模型对数据进行分段整合，汇总为一条条数据。

在这里，整合后的告警信息包括多个告警对象的告警信息。

S403：根据整合后的告警信息、故障根因定位模型和关联分析模型，确定多个告警对象各自的根因故障定位结果。

根据整合后的告警信息和关联分析模型，确定多个告警对象之间的拓扑关系。根据多个告警对象之间的拓扑关系和故障根因定位模型确定多个告警对象各自的故障根因定位结果。

在一种可能的实现方式中，将多个告警对象之间的拓扑关系和故障根因定位结果进行人工打标审核，并发送至数据库中保存，从而作为训练关联分析模型的样本。

本申请实施例提供的故障根因定位方法，通过根据多个告警对象的身份标识、告警事件标识和预设的分组规则，训练目标区域的关联分析模型，以使关联分析模型学习目标区域中多个告警对象进行故障告警之间的时序关联关系；根据关联分析模型，确定多个告警对象之间的拓扑关系信息，拓扑关系信息用于指示多个告警对象中一个告警对象进行故障告警与多个告警对象中其他告警对象进行故障告警之间的关联关系；根据多个告警对象之间的拓扑关系信息和预设阈值，训练目标区域的故障根因定位模型，以使故障根因定位模型学习多个告警对象中每个告警对象发生故障的故障根因。如此，无需预先存储网络中各个网络设备拓扑关系，就能够自动生成当前多个告警对象之间的拓扑关系，从而确定告警对象的故障根因定位结果，提高了故障根因定位的准确度。

基于上述实施例中的故障根因定位模型的生成方法，本申请实施例还提供了一种故障根因定位模型的生成装置。图5是本申请实施例提供的一种故障根因定位模型的生成装置500的结构示意图。如图5所示，本申请实施例提供的故障根因定位模型的生成装置500包括获取模块501，第一训练模块502，确定模块503，第二训练模块504。

获取模块501，用于获取目标区域的多个告警对象的历史告警信息，历史告警信息包括告警对象的身份标识和告警事件标识；告警对象为目标区域内网络设备中的部件，告警事件标识用于表示告警对象发生的故障对应的标识；

第一训练模块502，用于根据多个告警对象的身份标识、告警事件标识和预设的分组规则，训练目标区域的关联分析模型，以使关联分析模型学习目标区域中告警对象进行故障告警之间的时序关联关系；

确定模块503，用于根据关联分析模型，确定多个告警对象之间的拓扑关系信息，拓扑关系信息用于指示多个告警对象中一个告警对象进行故障告警与多个告警对象中其他告警对象进行故障告警之间的关联关系；

第二训练模块504，用于根据多个告警对象之间的拓扑关系信息和预设阈值，训练目标区域的故障根因定位模型，以使故障根因定位模型学习多个告警对象中每个告警对象发生故障的故障根因。

在一种可能的实现方式中，装置还包括：

本申请实施例提供的故障根因定位模型生成装置，通过根据多个告警对象的身份标识、告警事件标识和预设的分组规则，训练目标区域的关联分析模型，以使关联分析模型学习目标区域中多个告警对象进行故障告警之间的时序关联关系；根据关联分析模型，确定多个告警对象之间的拓扑关系信息，拓扑关系信息用于指示多个告警对象中一个告警对象进行故障告警与多个告警对象中其他告警对象进行故障告警之间的关联关系；根据多个告警对象之间的拓扑关系信息和预设阈值，训练目标区域的故障根因定位模型，以使故障根因定位模型学习多个告警对象中每个告警对象发生故障的故障根因。如此，无需预先存储网络中各个网络设备拓扑关系，就能够自动生成当前多个告警对象之间的拓扑关系，从而确定告警对象的故障根因定位结果，提高了故障根因定位的准确度。

本申请实施例提供的故障根因定位模型生成装置能够执行图2对应的实施例中的方法的步骤，并能够达到相同的技术效果，为避免重复，在此不再详细说明。

基于上述实施例中的故障根因定位方法，本申请实施例还提供了一种故障根因定位装置。图6是本申请实施例提供的一种故障根因定位装置600的结构示意图。如图6所示，本申请实施例提供的故障根因定位装置600可以包括获取模块601，整合模块602和确定模块603。

获取模块601，用于获取目标区域的告警信息；告警信息包括多个告警对象的身份标识、告警事件标识、告警开始时间、告警结束时间和告警信息入库时间；

整合模块602，用于根据告警信息入库时间、多个告警对象的告警开始时间和多个告警对象的告警结束时间，整合告警信息；

确定模块603，用于根据整合后的告警信息、如第一方面中的关联分析模型和故障根因定位模型，确定多个告警对象各自的根因故障定位结果。

本申请实施例提供的语音分类装置能够执行图4对应的实施例中的方法的步骤，并能够达到相同的技术效果，为避免重复，在此不再详细说明。

下面介绍本申请实施例提供的一种计算设备。

图7是本申请实施例提供的一种计算设备的结构示意图。如图7所示，多个计算设备组成的集群可用于实现上述方法实施例中描述的故障根因定位模型的生成方法和故障根因定位方法。

计算设备可以包括处理器701以及存储有计算机程序指令的存储器702。

具体地，上述处理器701可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器702可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器702可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器702可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器702可在综合网关容灾设备的内部或外部。在特定实施例中，存储器702是非易失性固态存储器。

存储器可包括只读存储器(ROM)，随机存取存储器(RAM)，磁盘存储介质设备，光存储介质设备，闪存设备，电气、光学或其他物理/有形的存储器存储设备。因此，通常，存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如，存储器设备)，并且当该软件被执行(例如，由一个或多个处理器)时，其可操作来执行参考根据本申请中的方法所描述的操作。

处理器701通过读取并执行存储器702中存储的计算机程序指令，以实现上述实施例中的任意一种语音分类模型的训练方法或语音分类方法。

在一个示例中，电子设备还可包括通信接口707和总线710。其中，如图7所示，处理器701、存储器702、通信接口707通过总线710连接并完成相互间的通信。

通信接口707，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线710包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线710可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例，本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种语音分类模型的训练方法或语音分类方法。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

上面参考根据本申请的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种故障根因定位模型的生成方法，其特征在于，包括：

获取目标区域的多个告警对象的历史告警信息，所述历史告警信息包括告警对象的身份标识和告警事件标识；所述告警对象为所述目标区域内网络设备中的部件，所述告警事件标识用于表示所述告警对象发生的故障对应的标识；

根据所述多个告警对象的身份标识、告警事件标识和预设的分组规则，训练所述目标区域的关联分析模型，以使所述关联分析模型学习所述目标区域中告警对象进行故障告警之间的时序关联关系；

根据所述关联分析模型，确定多个告警对象之间的拓扑关系信息，所述拓扑关系信息用于指示所述多个告警对象中一个告警对象进行故障告警与所述多个告警对象中其他告警对象进行故障告警之间的关联关系；

根据多个告警对象之间的拓扑关系信息和预设阈值，训练所述目标区域的故障根因定位模型，以使所述故障根因定位模型学习所述多个告警对象中每个告警对象发生故障的故障根因；

所述根据所述多个告警对象的身份标识、告警事件标识和预设的分组规则，训练所述目标区域的关联分析模型，包括：

根据所述多个告警对象的身份标识和预设的分组规则，对所述多个告警对象的告警事件标识进行分组；

根据分组后的告警事件标识训练所述目标区域的关联分析模型；

其中，所述预设的分组规则包括以下各项中的至少一项：等长时间窗口分组规则，滑动时间窗口分组规则和起止时间窗口分组规则；

所述历史告警信息还包括告警对象所在的网络设备所在区域的区域标识，所述方法还包括：

根据所述区域标识，从数据库中匹配与所述区域标识对应的网络拓扑信息，所述网络拓扑信息表示所述区域标识对应的区域内多个告警对象所在的网络设备之间的连接关系；

所述根据所述多个告警对象的身份标识、所述多个告警对象的告警事件标识和预设的分组规则，训练所述目标区域的关联分析模型，包括：

根据所述多个告警对象的身份标识、所述多个告警对象的告警事件标识、所述分组规则和所述网络拓扑信息，训练所述关联分析模型。

2.根据权利要求1所述的方法，其特征在于，所述历史告警信息还包括告警开始时间和告警清除时间，所述根据所述关联分析模型，确定多个告警对象之间的拓扑关系信息，包括：

根据第一告警对象的告警开始时间和告警清除时间，确定与所述第一告警对象关联的至少一个第二告警对象的身份标识和告警事件标识；所述第一告警对象为所述多个告警对象中的任意一个告警对象，所述第二告警对象为所述多个告警对象中不同于所述第一告警对象的告警对象；

根据所述关联分析模型，计算所述第一告警对象和所述至少一个第二告警对象中每个第二告警对象之间条件概率，所述条件概率用于表示第二告警对象进行故障告警导致所述第一告警对象进行故障告警的概率，并确定所述第一告警对象到达第二告警对象的最短路径；

根据所述多个告警对象中的每个第一告警对象和所述每个第二告警对象之间的条件概率、所述第一告警对象到达第二告警对象的最短路径和预设阈值，确定多个告警对象之间的拓扑关系信息。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据预先存储的告警验证集对所述关联分析模型进行验证，得到验证结果值；

在所述验证结果值小于预设结果值的情况下，重新训练所述关联分析模型；

其中，所述告警验证集包括多个告警对象的历史告警信息和多个告警对象之间的时序关联关系。

4.一种故障根因定位方法，其特征在于，包括：

获取目标区域的告警信息；所述告警信息包括多个告警对象的身份标识、告警事件标识、告警开始时间、告警结束时间和告警信息入库时间；

根据所述告警信息入库时间、所述多个告警对象的告警开始时间和所述多个告警对象的告警结束时间，整合所述告警信息；

根据整合后的告警信息、如权利要求1-3中任一项所述的关联分析模型和故障根因定位模型，确定所述多个告警对象各自的根因故障定位结果。

5.一种故障根因定位模型的生成装置，其特征在于，包括：

获取模块，用于获取目标区域的多个告警对象的历史告警信息，所述历史告警信息包括告警对象的身份标识和告警事件标识；所述告警对象为所述目标区域内网络设备中的部件，所述告警事件标识用于表示所述告警对象发生的故障对应的标识；

第一训练模块，用于根据所述多个告警对象的身份标识、告警事件标识和预设的分组规则，训练所述目标区域的关联分析模型，以使所述关联分析模型学习所述目标区域中告警对象进行故障告警之间的时序关联关系；

确定模块，用于根据所述关联分析模型，确定多个告警对象之间的拓扑关系信息，所述拓扑关系信息用于指示所述多个告警对象中一个告警对象进行故障告警与所述多个告警对象中其他告警对象进行故障告警之间的关联关系；

第二训练模块，用于根据多个告警对象之间的拓扑关系信息和预设阈值，训练所述目标区域的故障根因定位模型，以使所述故障根因定位模型学习所述多个告警对象中每个告警对象发生故障的故障根因；

所述第一训练模块用于：

历史告警信息还包括告警对象所在的网络设备所在区域的区域标识，所述装置还包括：

匹配模块，用于根据所述区域标识，从数据库中匹配与所述区域标识对应的网络拓扑信息，所述网络拓扑信息表示所述区域标识对应的区域内多个告警对象所在的网络设备之间的连接关系；

第一训练模块，用于根据所述多个告警对象的身份标识、所述多个告警对象的告警事件标识、所述分组规则和所述网络拓扑信息，训练所述关联分析模型。

6.一种故障根因定位装置，其特征在于，包括：

获取模块，用于获取目标区域的告警信息；所述告警信息包括多个告警对象的身份标识、告警事件标识、告警开始时间、告警结束时间和告警信息入库时间；

整合模块，用于根据所述告警信息入库时间、所述多个告警对象的告警开始时间和所述多个告警对象的告警结束时间，整合所述告警信息；

确定模块，用于根据整合后的告警信息、如权利要求1-3中任一项所述的关联分析模型和故障根因定位模型，确定所述多个告警对象各自的根因故障定位结果。

7.一种计算设备，其特征在于，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行如权利要求1-3任一所述的方法，或执行如权利要求4所述的方法。

8.一种计算机存储介质，所述计算机存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1-3任一所述的方法，或执行如权利要求4所述的方法。