CN115345324A

CN115345324A - 故障定位方法、装置、设备、存储介质及产品

Info

Publication number: CN115345324A
Application number: CN202110514456.XA
Authority: CN
Inventors: 陆绍雯; 任志强; 李大伟; 涂泾伦
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2022-11-15

Abstract

本发明公开了一种故障定位方法，包括以下步骤：基于根因预判规则库对待处理告警数据进行根因预判处理，以获得目标告警数据；将目标告警数据输入预训练的告警关联模型进行模型训练，以基于训练结果获取多个关联告警对；确定各个关联告警对对应的告警权重；将各个告警权重中的最大权重对应的目标关联告警对作为根因告警，并将所述目标关联告警对对应的告警网元作为根因网元。本发明还公开了一种故障定位装置、设备、存储介质及产品。本发明通过对告警数据进行根因预判，减少目标告警数据的数据量，通过模型对目标告警数据进行聚类，并根据告警权重在聚类的关联告警对进行二次定位得到根因告警，提升故障定位的准确率以及效率。

Description

故障定位方法、装置、设备、存储介质及产品

技术领域

本发明涉及数据处理技术领域，尤其涉及一种故障定位方法、装置、设备、存储介质及产品。

背景技术

目前，各类通信网络规模庞大，结构复杂，设备多种多样，各种硬件设备和软件每天产生海量的告警信息。这些告警信息覆盖话务网络、数据网络、传输网络、信令网、智能网、业务网等等。当电信网络出现故障告警时，要求运维人员必须在最短的时间内，实时地、正确地判断出网络故障所在的位置、类型和引起故障的原因，然后及时地采取相应的解决措施。然而，在实际的网络运行中，一个故障的产生往往会引发多个告警事件与故障点相关的设备、相关的业务过程都会发出相关的告警序列，同时多个故障引发的众多告警序列会错综叠加，从而将真正的告警淹没在里面，导致故障识别异常困难。并且随着网络的规模和复杂性的不断提高，以及网络设备、网络业务、网络结构的不断变化，告警的种类和数量越来越多，包括轻微告警、一般告警、严重告警、重大告警、紧急告警、漏告警、虚告警、重复告警、同因异象告警、同象多因告警等等，从而使得海量的告警信息中含有大量噪声告警或者信息不完整，这些因素进一步增加了告警关联分析和故障定位的难度。

目前，通信网络告警关联分析主要依赖于专家梳理的告警关联规则。但是，随着网络的快速建设，通信网络的规模越来越庞大、结构越来越复杂，多项新技术、多种网络类型设备同时应用于通信网络，专家梳理的告警关联规则的积累速度落后于网络技术变化的速度，导致实际告警故障定位的准确度较低。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种故障定位方法、装置、设备、存储介质及产品，旨在解决现有告警故障定位的准确度低的技术问题。

为实现上述目的，本发明提供一种故障定位方法，所述故障定位方法包括以下步骤：

获取待处理告警数据，并基于根因预判规则库对所述待处理告警数据进行根因预判处理，以获得目标告警数据；

将所述目标告警数据输入预训练的告警关联模型进行模型训练，以基于训练结果获取多个关联告警对；

基于各个关联告警对对应的多个关联特征，确定各个关联告警对对应的告警权重；

将各个告警权重中的最大权重对应的目标关联告警对作为根因告警，并将所述目标关联告警对对应的告警网元作为根因网元。

进一步地，所述基于各个关联告警对对应的多个关联特征，确定各个关联告警对对应的告警权重的步骤包括：

基于各个所述关联特征，确定各个关联告警对对应的关联特征权重；

基于各个关联特征权重，确定各个关联告警对对应的告警权重。

进一步地，所述关联特征包括告警发生时间/告警清除时间、告警频次、告警级别、告警网元层级以及告警网元间距，所述基于各个所述关联特征，确定各个关联告警对对应的关联特征权重的步骤包括：

若各个关联告警对中存在告警发生时间与告警清除时间均在其他关联告警对之前的第一关联告警对，则将第一关联告警对的关联特征权重增大第一预设权重；

获取关联告警对中告警频次最大的告警对应的第二关联告警对，将第二关联告警对的关联特征权重增大第二预设权重；

获取关联告警对中告警级别最大的告警对应的第三关联告警对，将第三关联告警对的关联特征权重增大第三预设权重；

获取关联告警对中告警网元层级最大的告警对应的第四关联告警对，将第四关联告警对的关联特征权重增大第四预设权重；

获取关联告警对中各个告警的告警网元与其他告警网元之间的网元距离之和，获取关联告警对中网元距离之和最小的告警对应的第五关联告警对，将第五关联告警对的关联特征权重增大第五预设权重。

进一步地，所述将各个告警权重中的最大权重对应的关联告警对作为根因告警的步骤包括：

若所述目标关联告警对包括多个，则获取所述目标关联告警对应的关联特征权重的优先级；

基于优先级最大的关联特征权重对应的关联告警对确定所述根因告警。

进一步地，所述将所述目标告警数据输入预训练的告警关联模型进行模型训练，以基于训练结果获取多个关联告警对的步骤包括：

将所述目标告警数据输入预训练的告警关联模型进行模型训练，以获得训练结果，其中，所述训练结果包括目标告警数据对应的告警对之间的第一关联度；

将所述目标告警数据对应的告警对中第一关联度大于预设阈值的目标告警对作为所述关联告警对。

进一步地，所述获取待处理告警数据的步骤包括：

获取未关联告警数据中各个未关联告警的第一告警网元、第一告警网元的省份信息以及第一告警网元的传输电路信息；

基于所述第一告警网元、第一告警网元的省份信息以及第一告警网元的传输电路信息，对所述未关联告警数据进行数据处理，以获得未关联告警信息，并将所述未关联告警信息确定所述待处理告警数据。

进一步地，所述基于所述第一告警网元、第一告警网元的省份信息以及第一告警网元的传输电路信息，对所述未关联告警数据进行数据处理，以获得未关联告警信息的步骤包括：

基于维特比算法在标准网元字段对应的隐马尔可夫模型中，确定所述第一告警网元对应的第一目标网元名称；

基于所述第一告警网元所属的机房信息，对所述第一告警网元的省份信息进行错误省份纠正，以获得所述第一告警网元的第一省份信息；

基于维特比算法在标准传输电路信息对应的隐马尔可夫模型中，确定所述第一告警网元的传输电路信息对应第一传输电路代码；

基于所述第一目标网元名称、所述第一省份信息、所述第一传输电路代码，确定所述未关联告警信息。

进一步地，所述将所述未关联告警信息确定所述待处理告警数据的步骤包括：

基于所述未关联告警信息中各个第一告警网元之间的拓扑关系，生成第一网络拓扑图；

基于所述第一网络拓扑图以及各个第一告警网元的特征信息，获取各个第一告警网元对应的特征向量，并将所述特征向量作为所述待处理告警数据，其中，所述特征信息包括告警时间、省份信息、厂家信息、网元名称、专业以及设备类型。

进一步地，所述获取待处理告警数据，并基于根因预判规则库对所述待处理告警数据进行根因预判处理，以获得目标告警数据的步骤之前，所述故障定位方法还包括：

获取历史告警数据中各个历史告警对应的历史特征向量，基于所述历史特征向量确定历史告警对；

将所述历史告警对输入初始告警关联模型进行模型训练，以获得训练后的告警关联模型以及各个历史告警对对应的第二关联度；

基于所述第二关联度、各个历史告警对对应的真实关联度以及训练后的告警关联模型，确定预训练的告警关联模型。

进一步地，所述基于所述第二关联度、各个历史告警对对应的真实关联度以及训练后的告警关联模型，确定预训练的告警关联模型的步骤包括：

基于所述第二关联度以及各个历史告警对对应的真实关联度，确定模型训练准确率；

基于所述模型训练准确率以及训练后的告警关联模型，确定预训练的告警关联模型。

进一步地，所述基于所述模型训练准确率以及训练后的告警关联模型，确定预训练的告警关联模型的步骤包括：

若所述模型训练准确率大于或等于预设准确率，则将训练后的告警关联模型作为预训练的告警关联模型；

若所述模型训练准确率小于预设准确率，则将训练后的告警关联模型作为所述初始告警关联模型，并返回执行将所述历史告警对输入初始告警关联模型进行模型训练的步骤。

进一步地，所述获取历史告警数据中各个历史告警对应的历史特征向量的步骤包括：

获取历史告警数据中各个历史告警的第二告警网元、第二告警网元的省份信息以及第二告警网元的传输电路信息；

基于所述第二告警网元、第二告警网元的省份信息以及第二告警网元的传输电路信息，对所述历史告警数据进行数据处理，以获得处理后的历史告警数据；

基于处理后的历史告警数据确定所述历史特征向量。

进一步地，所述基于所述第二告警网元、第二告警网元的省份信息以及第二告警网元的传输电路信息，对所述历史告警数据进行数据处理，以获得处理后的历史告警数据的步骤包括：

基于维特比算法在标准网元字段对应的隐马尔可夫模型中，确定所述第二告警网元对应的第二目标网元名称；

基于所述第二告警网元所属的机房信息，对所述第二告警网元的省份信息进行错误省份纠正，以获得所述第二告警网元的第二省份信息；

基于维特比算法在标准传输电路信息对应的隐马尔可夫模型中，确定所述第二告警网元的传输电路信息对应第二传输电路代码；

基于所述第二目标网元名称、所述第二省份信息、所述第二传输电路代码，确定处理后的历史告警数据。

进一步地，所述基于处理后的历史告警数据确定所述历史特征向量的步骤包括：

基于处理后的历史告警数据中各个第二告警网元之间的拓扑关系，生成第二网络拓扑图；

基于所述第二网络拓扑图以及各个第二告警网元的特征信息，获取所述历史特征向量。

此外，为实现上述目的，本发明还提供一种故障定位装置，所述故障定位装置包括：

获取模块，用于获取待处理告警数据，并基于根因预判规则库对所述待处理告警数据进行根因预判处理，以获得目标告警数据；

训练模块，用于将所述目标告警数据输入预训练的告警关联模型进行模型训练，以基于训练结果获取多个关联告警对；

确定模块，用于基于各个关联告警对对应的多个关联特征，确定各个关联告警对对应的告警权重；

定位模块，用于将各个告警权重中的最大权重对应的目标关联告警对作为根因告警，并将所述目标关联告警对对应的告警网元作为根因网元。

此外，为实现上述目的，本发明还提供一种故障定位设备，所述故障定位设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的故障定位程序，所述故障定位程序被所述处理器执行时实现前述的故障定位方法的步骤。

此外，为实现上述目的，本发明还提供一种存储介质，所述存储介质上存储有故障定位程序，所述故障定位程序被处理器执行时实现前述的故障定位方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现前述的故障定位方法的步骤。

本发明通过获取待处理告警数据，并基于根因预判规则库对所述待处理告警数据进行根因预判处理，以获得目标告警数据，接着将所述目标告警数据输入预训练的告警关联模型进行模型训练，以基于训练结果获取多个关联告警对，而后基于各个关联告警对对应的多个关联特征，确定各个关联告警对对应的告警权重，然后将各个告警权重中的最大权重对应的目标关联告警对作为根因告警，并将所述目标关联告警对对应的告警网元作为根因网元，通过对告警数据进行根因预判，减少目标告警数据的数据量，通过模型对目标告警数据进行聚类，并根据告警权重在聚类的关联告警对进行二次定位得到根因告警，提升故障定位的准确率以及效率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境中故障定位设备的结构示意图；

图2为本发明故障定位方法第一实施例的流程示意图；

图3为本发明故障定位装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境中故障定位设备的结构示意图。

本发明实施例故障定位设备可以是PC，也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、便携计算机等具有显示功能的可移动式终端设备。

如图1所示，该故障定位设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，故障定位设备还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。当然，故障定位设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对故障定位设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及故障定位程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的故障定位程序。

在本实施例中，故障定位设备包括：存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的故障定位程序，其中，处理器1001调用存储器1005中存储的故障定位程序时，并执行以下各个实施例中故障定位方法的步骤。

本发明还提供一种故障定位方法，参照图2，图2为本发明故障定位方法第一实施例的流程示意图。

本实施例中，该故障定位方法包括以下步骤：

步骤S101，获取待处理告警数据，并基于根因预判规则库对所述待处理告警数据进行根因预判处理，以获得目标告警数据；

在本实施例中，在到接收到网络异常时，先将各种网络异常进行标准化，生成实时告警流即待处理告警数据，网络异常包括设备软硬件异常、设备信令异常、设备性能指标异常、投诉量波动异常等。并且，基于一线专家运维经验，围绕典型故障场景建立根因预判规则库，以根据当前发生过或者可能发生的故障的根因告警对应的信息得到根因预判规则库。

具体地，本实施例中，通过根因预判规则库对所述待处理告警数据进行根因预判处理，以删除/剔除待处理告警数据中的部分次要告警(非根因告警)，以获得目标告警数据，进而减少目标告警数据的数据量，提升故障定位的效率。

步骤S102，将所述目标告警数据输入预训练的告警关联模型进行模型训练，并基于训练结果获取多个关联告警对；

本实施例中，在得到目标告警数据之后，获取入预训练的告警关联模型，将目标告警数据输入预训练的告警关联模型进行模型训练，以获得训练结果即预训练的告警关联模型的输出数据，而后基于训练结果获取多个关联告警对，具体地，该训练结果包括目标告警数据中各个告警对以及各个告警对对应的第一关联度，而后根据第一关联度确定各个告警对中的关联告警对，进而实现目标告警数据的聚类。

步骤S103，基于各个关联告警对对应的多个关联特征，确定各个关联告警对对应的告警权重；

本实施例中，在得到关联告警对之后，获取各个各个关联告警对对应的多个关联特征，即每一个关联告警对中的两个告警的特征，并获取各个关联告警对对应的告警权重，具体地，按照预设规则确定各个关联告警对对应的告警权重，例如，确定关联告警对的每一个关联特征对应的权重，将各个关联特征对应的权重之和作为对应关联告警对的告警权重。

步骤S104，将各个告警权重中的最大权重对应的目标关联告警对作为根因告警，并将所述目标关联告警对对应的告警网元作为根因网元。

本实施例中，获取到各个关联告警对对应的告警权重之后，确定告警权重中的最大权重，在各个告警权重中获取该最大权重对应的关联告警对，以得到目标关联告警对，该目标关联告警对即为根因告警，该目标关联告警对对应的告警网元为根因网元，其中，由于该目标关联告警的两个告警网元为关联告警网元，因此，可以将该目标关联告警的任意一个告警网元作为根因网元，进而能够根据关联告警对的告警权重准确定位根因网元，以实现故障的准确快速定位。

本实施例提出的故障定位方法，通过获取待处理告警数据，并基于根因预判规则库对所述待处理告警数据进行根因预判处理，以获得目标告警数据，接着将所述目标告警数据输入预训练的告警关联模型进行模型训练，以基于训练结果获取多个关联告警对，而后基于各个关联告警对对应的多个关联特征，确定各个关联告警对对应的告警权重，然后将各个告警权重中的最大权重对应的目标关联告警对作为根因告警，并将所述目标关联告警对对应的告警网元作为根因网元，通过对告警数据进行根因预判，减少目标告警数据的数据量，通过模型对目标告警数据进行聚类，并根据告警权重在聚类的关联告警对进行二次定位得到根因告警，提升故障定位的准确率以及效率。同时，通过预训练的告警关联模型对故障进行定位，无需依赖专家规则，进而提高了故障定位的准确率，

基于第一实施例，提出本发明故障定位方法的第二实施例，在本实施例中，步骤S103包括：

步骤S201，基于各个所述关联特征，确定各个关联告警对对应的关联特征权重；

步骤S202，基于各个关联特征权重，确定各个关联告警对对应的告警权重。

本实施例中，基于各个关联特征，确定各个关联告警对对应的关联特征权重，以得到每一个关联告警对的关联特征的关联特征权重，具体地，按照预设规则对确定关联特征的关联特征权重，而后将各个关联特征对应的关联特征权重之和作为对应关联告警对的告警权重。

具体地，一实施例中，所述关联特征包括告警发生时间/告警清除时间、告警频次、告警级别、告警网元层级以及告警网元间距，步骤S201包括：

步骤a1，若各个关联告警对中存在告警发生时间与告警清除时间均在其他关联告警对之前的第一关联告警对，则将第一关联告警对的关联特征权重增大第一预设权重；

步骤a2，获取关联告警对中告警频次最大的告警对应的第二关联告警对，将第二关联告警对的关联特征权重增大第二预设权重；

步骤a3，获取关联告警对中告警级别最大的告警对应的第三关联告警对，将第三关联告警对的关联特征权重增大第三预设权重；

步骤a4，获取关联告警对中告警网元层级最大的告警对应的第四关联告警对，将第四关联告警对的关联特征权重增大第四预设权重；

步骤a5，获取关联告警对中各个告警的告警网元与其他告警网元之间的网元距离之和，获取关联告警对中网元距离之和最小的告警对应的第五关联告警对，将第五关联告警对的关联特征权重增大第五预设权重。

具体地，先获取各个关联告警对中两个告警的告警发生时间与告警清除时间，在所有的告警中确定告警发生时间最早的告警，再次确定该告警发生时间最早的告警的告警清除时间是否早于其他告警的告警清除时间，若是，则该发生时间最早的告警所对应的关联告警对即为第一关联告警对，并将第一关联告警对的关联特征权重增大第一预设权重，若否，则各个关联告警对的关联特征权重均不增加，即关联特征权重仍为初始权重。

获取关联告警对中各个告警的告警频次，该告警频次为告警在关联告警对中所出现的次数，即同一告警存在于多个关联告警对中，该包括该告警的关联告警对的数量即为告警频次，而后确定各个告警中的告警频次最大的告警，并获取该告警频次最大的告警所对应的第二关联告警对，将第二关联告警对的关联特征权重增大第二预设权重。容易理解，该告警频次最大的告警存在于多个关联告警对，因此，可以将包括该告警频次最大的告警的所有关联告警对作为第二关联告警对，或者，再次获取包括该告警频次最大的告警的所有关联告警对中另一告警的告警频次，将其中另一告警的告警频次最大的关联告警对作为该第二关联告警对。

获取关联告警对中两个告警的告警级别，并确定告警级别最大的告警，将该告警级别最大的告警对应的关联告警对作为第三关联告警对，并将第三关联告警对的关联特征权重增大第三预设权重。需要说明的是，若告警级别最大的告警对应的关联告警对包括多个，则可将告警级别最大的告警对应的所有的关联告警对作为第三关联告警对，或者，将告警级别最大的告警对应的多个关联告警对中告警发生时间最早的告警所属的关联告警对作为第三关联告警对，若告警级别最大的告警对应的多个关联告警对中告警发生时间最早的告警属于多个待确定关联告警对，则将待确定关联告警对的另一告警中告警发生时间最早的告警所属的关联告警对作为第三关联告警；又或者，将告警级别最大的告警对应的多个关联告警对中告警频次最大的告警所属的关联告警对作为第三关联告警对，若告警级别最大的告警对应的多个关联告警对中告警频次最大的告警属于多个待确定关联告警对，则将待确定关联告警对的另一告警中告警频次最大的告警所属的关联告警对作为第三关联告警。

获取关联告警对中两个告警的告警网元层级，并确定告警网元层级最大的告警，并将该告警网元层级最大的告警对应的关联告警对作为第四关联告警对，并将第四关联告警对的关联特征权重增大第四预设权重。需要说明的是，若告警网元层级最大的告警对应的关联告警对包括多个，则可将告警网元层级最大的告警对应的所有的关联告警对作为第四关联告警对，或者，将告警网元层级最大的告警对应的多个关联告警对中告警发生时间最早的告警所属的关联告警对作为第三关联告警对，若告警网元层级最大的告警对应的多个关联告警对中告警发生时间最早的告警属于多个待确定关联告警对，则将待确定关联告警对的另一告警中告警发生时间最早的告警所属的关联告警对作为第三关联告警；又或者，将告警网元层级最大的告警对应的多个关联告警对中告警频次最大的告警所属的关联告警对作为第三关联告警对，若告警网元层级最大的告警对应的多个关联告警对中告警频次最大的告警属于多个待确定关联告警对，则将待确定关联告警对的另一告警中告警频次最大的告警所属的关联告警对作为第三关联告警。

进一步地，一实施例中，步骤S202包括：

步骤b1，若所述目标关联告警对包括多个，则获取所述目标关联告警对应的关联特征权重的优先级；

步骤b2，基于优先级最大的关联特征权重对应的关联告警对确定所述根因告警。

本实施例中，若所述目标关联告警对包括多个，即多个关联告警对的告警权重均为最大权重，则获取所述目标关联告警对应的关联特征权重的优先级，其中，关联特征包括告警发生时间/告警清除时间、告警频次、告警级别、告警网元层级以及告警网元间距，预先设置关联特征的优先级，例如，各个关联特征的优先级按照告警发生时间/告警清除时间、告警频次、告警级别、告警网元层级以及告警网元间距的顺序依次降低，关联特征权重的优先级与其对应的关联特征的优先级相同。

基于优先级最大的关联特征权重对应的关联告警对确定所述根因告警，例如，关联告警对A以及B均为目标关联告警对，则获取关联告警对A以及B的关联特征权重的优先级，例如，A的关联特征权重包括告警发生时间/告警清除时间权重、告警级别权重、告警网元层级权重，B的关联特征权重包括告警频次权重、告警级别权重、告警网元层级权重以及告警网元间距权重，则优先级最大的关联特征权重为告警发生时间/告警清除时间权重，进而将A作为所述根因告警；若A的关联特征权重包括告警发生时间/告警清除时间权重以及告警频次权重，B的关联特征权重包括告警发生时间/告警清除时间权重、告警级别权重、告警网元层级权重以及告警网元间距权重，则优先级最大的关联特征权重为告警发生时间/告警清除时间权重，但该权重均存在与A和B中，则判断优先级第二大的权重，优先级第二大的权重为告警频次权重，进而将A作为所述根因告警。

本实施例提出的故障定位方法，通过基于各个所述关联特征，确定各个关联告警对对应的关联特征权重；接着基于各个关联特征权重，确定各个关联告警对对应的告警权重，能够根据关联特征权重准确得到关联告警对对应的告警权重，进一步提升根因网元定位的准确性。

基于第一实施例，提出本发明故障定位方法的第三实施例，在本实施例中，步骤S102包括：

步骤S301，将所述目标告警数据输入预训练的告警关联模型进行模型训练，以获得训练结果，其中，所述训练结果包括目标告警数据对应的告警对之间的第一关联度；

步骤S302，将所述目标告警数据对应的告警对中第一关联度大于预设阈值的目标告警对作为所述关联告警对。

本实施例中，将目标告警数据输入预训练的告警关联模型进行模型训练，以得到训练结果，其中，即将预训练的告警关联模型的输出作为该训练结果，训练结果包括目标告警数据对应的告警对之间的第一关联度，该目标告警数据对应的告警对是指目标告警数据中的各个告警两两之间形成的告警对；

而后，目标告警数据对应的告警对的第一关联度与预设阈值进行对比，以确定第一关联度大于预设阈值的目标告警对作，并将该目标告警对作为所述关联告警对，以准确得到该关联告警对。

需要说明的是，该预设阈值可进行合理设置，例如预设阈值为0.5、0.55、0.6、0.7等。

本实施例提出的故障定位方法，通过将所述目标告警数据输入预训练的告警关联模型进行模型训练，以获得训练结果，其中，所述训练结果包括目标告警数据对应的告警对之间的第一关联度；接着将所述目标告警数据对应的告警对中第一关联度大于预设阈值的目标告警对作为所述关联告警对，能够根据模型训练得到的第一关联度准确的在目标告警数据对应的告警对中确定关联告警对，实现通过模型训练对目标告警数据进行聚类，进一步提高故障定位的准确率以及效率。

基于第一实施例，提出本发明故障定位方法的第四实施例，在本实施例中，步骤S101包括：

步骤S401，获取未关联告警数据中各个未关联告警的第一告警网元、第一告警网元的省份信息以及第一告警网元的传输电路信息；

步骤S402，基于所述第一告警网元、第一告警网元的省份信息以及第一告警网元的传输电路信息，对所述未关联告警数据进行数据处理，以获得未关联告警信息，并将所述未关联告警信息确定所述待处理告警数据。

本实施例中，在进行告警接入时，接收到网络异常对应的异常数据(未关联告警数据)，将各种异常数据进行标准化，生成实时告警流即待处理告警数据，具体地，获取未关联告警数据中各个未关联告警的第一告警网元、第一告警网元的省份信息以及第一告警网元的传输电路信息，即获取未关联告警数据中各个告警的第一告警网元、第一告警网元的省份信息以及传输电路信息，然后根据第一告警网元、第一告警网元的省份信息以及第一告警网元的传输电路信息，对所述未关联告警数据进行数据处理，以实现未关联告警数据的标准化，将未关联告警数据进行规范、一致性以及准确性处理，得到的未关联告警信息确定所述待处理告警数据。

具体地，一实施例中，步骤S402包括：

步骤c1，基于维特比算法在标准网元字段对应的隐马尔可夫模型中，确定所述第一告警网元对应的第一目标网元名称；

步骤c2，基于所述第一告警网元所属的机房信息，对所述第一告警网元的省份信息进行错误省份纠正，以获得所述第一告警网元的第一省份信息；

步骤c3，基于维特比算法在标准传输电路信息对应的隐马尔可夫模型中，确定所述第一告警网元的传输电路信息对应第一传输电路代码；

步骤c4，基于所述第一目标网元名称、所述第一省份信息、所述第一传输电路代码，确定所述未关联告警信息。

本实施例中，由于未关联告警数据中的网元名称与标准网元字段存在不一致的问题，因此，预先基于标准网元字段建立隐马尔可夫模型，获取到未关联告警数据之后，基于维特比算法在标准网元字段对应的隐马尔可夫模型中，确定所述第一告警网元对应的第一目标网元名称，即得到未关联告警数据中各个告警的网元名称对应的标准网元名称。例如，未关联告警数据中告警的网元名称为宜宾(成都6期)，其所对应的标准网元名称为宜宾(成都方向6期)，未关联告警数据中告警的网元名称为呼和浩特AR04，其所对应的标准网元名称为呼和浩特AR4。

同时，基于所述第一告警网元所属的机房信息，对所述第一告警网元的省份信息进行错误省份纠正，以获得所述第一告警网元的第一省份信息，具体地，通过数字地图获取第一告警网元所属的机房信息对应的机房省份信息，将该机房省份信息作为第一告警网元的第一省份信息。

并且，预先基于标准传输电路信息建立隐马尔可夫模型，获取到未关联告警数据之后，基于维特比算法在标准传输电路信息对应的隐马尔可夫模型中，确定所述第一告警网元的传输电路信息对应第一传输电路代码。

最后，基于所述第一目标网元名称、所述第一省份信息、所述第一传输电路代码，确定所述未关联告警信息，具体地，将未关联告警数据中第一告警网元的网元名称替换为对应的第一目标网元名称、第一告警网元的省份信息替换为对应的第一省份信息、第一告警网元的传输电路信息替换为对应的第一传输电路代码，得到未关联告警信息。

又一实施例中，步骤S402包括：

步骤d1，基于所述未关联告警信息中各个第一告警网元之间的拓扑关系，生成第一网络拓扑图；

步骤d2，基于所述第一网络拓扑图以及各个第一告警网元的特征信息，获取各个第一告警网元对应的特征向量，并将所述特征向量作为所述待处理告警数据，其中，所述特征信息包括告警时间、省份信息、厂家信息、网元名称、专业以及设备类型。

本实施例中，在获得未关联告警信息，获取未关联告警信息中各个第一告警网元之间的拓扑关系，根据该拓扑关系生成第一网络拓扑图，例如第一网络拓扑图G＝(V,E)，V＝{v1,v2,…vn}是第一告警网元集合，第一告警网元包含核心网、承载、CMNET、传输、NFV等各个专业的全量网元集合，E＝{eij}是边集合，eij代表第vi个网元到第vj个网元间有一条权重为wij的有向边，这里的边包含物理连接，比如vi到vj间的光缆直连，也包含逻辑连接，比如两个网元同属一个POOL，再比如CMNET网元与传输网元间通过传输电路代号相关联，甚至还包含弱连接，比如两个网元同属一个机房/地市/省份，范围越大，wij越低，权重wij代表两个网元间连接关系的可信度，这里的wij物理连接>逻辑连接>弱连接。

而后，基于第一网络拓扑图以及各个第一告警网元的特征信息，获取各个第一告警网元对应的特征向量，并将所述特征向量作为所述待处理告警数据，其中，该特征信息至少包括告警时间、省份信息、厂家信息、网元名称、专业以及设备类型。通过根据网络拓扑图，完成了各个专业的第一告警网元向量表示，实现了告警网元的跨专业关联。

对于复杂的跨专业故障场景而言，通过网络拓扑图实现跨专业关联之后，能够准确定位跨专业故障，进而大大减少派单的工单数量，提高了故障核查的效率以及及时性，进而提升网络维护效率。

本实施例提出的故障定位方法，通过获取未关联告警数据中各个未关联告警的第一告警网元、第一告警网元的省份信息以及第一告警网元的传输电路信息；接着基于所述第一告警网元、第一告警网元的省份信息以及第一告警网元的传输电路信息，对所述未关联告警数据进行数据处理，以获得未关联告警信息，并将所述未关联告警信息确定所述待处理告警数据，通过对未关联告警数据进行处理得到待处理告警数据，以使待处理告警数据满足模型训练的格式需求，进一步提升了故障定位的效率。

基于上述各个实施例，提出本发明故障定位方法的第五实施例，在本实施例中，步骤S101之前，该故障定位方法还包括：

步骤S501，获取历史告警数据中各个历史告警对应的历史特征向量，基于所述历史特征向量确定历史告警对；

步骤S502，将所述历史告警对输入初始告警关联模型进行模型训练，以获得训练后的告警关联模型以及各个历史告警对对应的第二关联度；

步骤S503，基于所述第二关联度、各个历史告警对对应的真实关联度以及训练后的告警关联模型，确定预训练的告警关联模型。

本实施例中，需要预先对告警关联模型进行训练，具体地，先获取历史告警数据对应的历史告警对应的历史特征向量，并根据该历史特征向量确定历史告警对，即将历史特征向量仅仅两两结合得到各个历史告警对的历史特征向量。

而后，将历史告警对输入初始告警关联模型进行模型训练，以获得训练后的告警关联模型，并将模型输出作为各个历史告警对对应的第二关联度。

然后，基于所述第二关联度、各个历史告警对对应的真实关联度以及训练后的告警关联模型，确定预训练的告警关联模型，具体地，基于第二关联度、各个历史告警对对应的真实关联度确定模型训练的准确率，根据该准确率以及训练后的告警关联模型，确定预训练的告警关联模型。

本实施例提出的故障定位方法，通过获取历史告警数据中各个历史告警对应的历史特征向量，基于所述历史特征向量确定历史告警对；接着将所述历史告警对输入初始告警关联模型进行模型训练，以获得训练后的告警关联模型以及各个历史告警对对应的第二关联度；而后基于所述第二关联度、各个历史告警对对应的真实关联度以及训练后的告警关联模型，确定预训练的告警关联模型，实现了根据历史告警数据训练初始告警关联模型，提高了预训练的告警关联模型的准确性，进而提高了故障定位的准确性。

基于第五实施例，提出本发明故障定位方法的第六实施例，在本实施例中，步骤S503包括：

步骤S601，基于所述第二关联度以及各个历史告警对对应的真实关联度，确定模型训练准确率；

步骤S602，基于所述模型训练准确率以及训练后的告警关联模型，确定预训练的告警关联模型。

本实施例中，先根据第二关联度以及各个历史告警对对应的真实关联度，计算模型训练准确率，再根据该模型训练准确率确定预训练的告警关联模型。具体地，步骤S602包括：

步骤e1，若所述模型训练准确率大于或等于预设准确率，则将训练后的告警关联模型作为预训练的告警关联模型；

步骤e2，若所述模型训练准确率小于预设准确率，则将训练后的告警关联模型作为所述初始告警关联模型，并返回执行将所述历史告警对输入初始告警关联模型进行模型训练的步骤。

本实施例中，在得到模型训练准确率之后，判断该模型训练准确率是否大于或等于预设准确率，若是，则直接将将训练后的告警关联模型作为预训练的告警关联模型，否则，将训练后的告警关联模型作为所述初始告警关联模型，并返回执行将所述历史告警对输入初始告警关联模型进行模型训练的步骤，以对初始告警关联模型进行迭代优化，直至模型训练准确率大于或等于预设准确率。

需要说明的是，该预设准确率可进行合理设置，例如该预设准确率为80％、90％、95％等。

本实施例提出的故障定位方法，通过基于所述第二关联度以及各个历史告警对对应的真实关联度，确定模型训练准确率，接着基于所述模型训练准确率以及训练后的告警关联模型，确定预训练的告警关联模型，通过模型训练准确率准确确定预训练的告警关联模型，提高预训练的告警关联模型的准确性，进一步提升故障定位的准确性。

基于第五实施例，提出本发明故障定位方法的第七实施例，在本实施例中，步骤S501包括：

步骤S701，获取历史告警数据中各个历史告警的第二告警网元、第二告警网元的省份信息以及第二告警网元的传输电路信息；

步骤S702，基于所述第二告警网元、第二告警网元的省份信息以及第二告警网元的传输电路信息，对所述历史告警数据进行数据处理，以获得处理后的历史告警数据；

步骤S703，基于处理后的历史告警数据确定所述历史特征向量。

本实施例中，在获取到历史告警数据之后，获取历史告警数据中各个历史告警的第二告警网元、第二告警网元的省份信息以及第二告警网元的传输电路信息，即获取历史告警数据中各个历史告警的第二告警网元、第二告警网元的省份信息以及传输电路信息，然后根据第二告警网元、第二告警网元的省份信息以及第二告警网元的传输电路信息，对历史告警数据进行数据处理，以实现历史告警数据的标准化，将历史告警数据进行规范、一致性以及准确性处理，得到处理后的历史告警数据，并根据处理后的历史告警数据确定所述历史特征向量。

具体地，一实施例中，步骤S702包括：

步骤f1，基于维特比算法在标准网元字段对应的隐马尔可夫模型中，确定所述第二告警网元对应的第二目标网元名称；

步骤f2，基于所述第二告警网元所属的机房信息，对所述第二告警网元的省份信息进行错误省份纠正，以获得所述第二告警网元的第二省份信息；

步骤f3，基于维特比算法在标准传输电路信息对应的隐马尔可夫模型中，确定所述第二告警网元的传输电路信息对应第二传输电路代码；

步骤f4，基于所述第二告警网元对应的网元名称、所述第二省份信息、所述第二传输电路代码，确定处理后的历史告警数据。

本实施例中，获取到历史告警数据之后，基于维特比算法在标准网元字段对应的隐马尔可夫模型中，确定所述第二告警网元对应的第二目标网元名称，即得到历史告警数据中各个历史告警的网元名称对应的标准网元名称。

同时，基于所述第二告警网元所属的机房信息，对所述第二告警网元的省份信息进行错误省份纠正，以获得所述第二告警网元的第二省份信息，具体地，通过数字地图获取第二告警网元所属的机房信息对应的机房省份信息，将该机房省份信息作为第二告警网元的第二省份信息。

并且，基于维特比算法在标准传输电路信息对应的隐马尔可夫模型中，确定所述第二告警网元的传输电路信息对应第二传输电路代码。

最后，基于第二目标网元名称、所述第二省份信息、所述第二传输电路代码，确定处理后的历史告警数据，具体地，将历史告警数据中第二告警网元的网元名称替换为对应的第二目标网元名称、第二告警网元的省份信息替换为对应的第二省份信息、第二告警网元的传输电路信息替换为对应的第二传输电路代码，得到处理后的历史告警数据。

又一实施例中，步骤S703包括：

步骤g1，基于处理后的历史告警数据中各个第二告警网元之间的拓扑关系，生成第二网络拓扑图；

步骤g2，基于所述第二网络拓扑图以及各个第二告警网元的特征信息，获取所述历史特征向量。

本实施例中，在获得处理后的历史告警数据，获取处理后的历史告警数据中各个第二告警网元之间的拓扑关系，根据该拓扑关系生成第二网络拓扑图。而后，基于第二网络拓扑图以及各个第二告警网元的特征信息，获取各个第二告警网元对应的历史特征向量，其中，该特征信息至少包括告警时间、省份信息、厂家信息、网元名称、专业以及设备类型。通过根据网络拓扑图，完成了各个专业的第二告警网元向量表示，实现了告警网元的跨专业关联。

本实施例提出的故障定位方法，通过获取历史告警数据中各个历史告警的第二告警网元、第二告警网元的省份信息以及第二告警网元的传输电路信息；接着基于所述第二告警网元、第二告警网元的省份信息以及第二告警网元的传输电路信息，对所述历史告警数据进行数据处理，以获得处理后的历史告警数据；而后基于处理后的历史告警数据确定所述历史特征向量，通过对历史告警数据进行标准化处理，根据标准化处理后的数据得到历史特征向量，以使标准化处理后的数据满足模型训练的格式需求，提高了模型训练的效率，进一步提升了故障定位的效率。

本发明还提供一种故障定位装置，参照图3，所述故障定位装置包括：

获取模块10，用于获取待处理告警数据，并基于根因预判规则库对所述待处理告警数据进行根因预判处理，以获得目标告警数据；

训练模块20，用于将所述目标告警数据输入预训练的告警关联模型进行模型训练，以基于训练结果获取多个关联告警对；

确定模块30，用于基于各个关联告警对对应的多个关联特征，确定各个关联告警对对应的告警权重；

定位模块40，用于将各个告警权重中的最大权重对应的目标关联告警对作为根因告警，并将所述目标关联告警对对应的告警网元作为根因网元。

上述各程序单元所执行的方法可参照本发明故障定位方法各个实施例，此处不再赘述。

本发明还提供一种存储介质，即计算机可读存储介质。本发明存储介质上存储有故障定位程序，所述故障定位程序被处理器执行时实现如上所述的故障定位方法的步骤。

其中，在所述处理器上运行的故障定位程序被执行时所实现的方法可参照本发明故障定位方法各个实施例，此处不再赘述。

此外，本发明实施例还提出一种计算机程序产品，该计算机程序产品上包括故障定位程序，所述故障定位程序被处理器执行时实现如上所述的故障定位方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种故障定位方法，其特征在于，所述故障定位方法包括以下步骤：

2.如权利要求1所述的故障定位方法，其特征在于，所述基于各个关联告警对对应的多个关联特征，确定各个关联告警对对应的告警权重的步骤包括：

3.如权利要求2所述的故障定位方法，其特征在于，所述关联特征包括告警发生时间/告警清除时间、告警频次、告警级别、告警网元层级以及告警网元间距，所述基于各个所述关联特征，确定各个关联告警对对应的关联特征权重的步骤包括：

4.如权利要求2所述的故障定位方法，其特征在于，所述将各个告警权重中的最大权重对应的关联告警对作为根因告警的步骤包括：

5.如权利要求1所述的故障定位方法，其特征在于，所述将所述目标告警数据输入预训练的告警关联模型进行模型训练，以基于训练结果获取多个关联告警对的步骤包括：

6.如权利要求1所述的故障定位方法，其特征在于，所述获取待处理告警数据的步骤包括：

7.如权利要求6所述的故障定位方法，其特征在于，所述基于所述第一告警网元、第一告警网元的省份信息以及第一告警网元的传输电路信息，对所述未关联告警数据进行数据处理，以获得未关联告警信息的步骤包括：

8.如权利要求6所述的故障定位方法，其特征在于，所述将所述未关联告警信息确定所述待处理告警数据的步骤包括：

9.如权利要求1至8任一项所述的故障定位方法，其特征在于，所述获取待处理告警数据，并基于根因预判规则库对所述待处理告警数据进行根因预判处理，以获得目标告警数据的步骤之前，所述故障定位方法还包括：

10.如权利要求9所述的故障定位方法，其特征在于，所述基于所述第二关联度、各个历史告警对对应的真实关联度以及训练后的告警关联模型，确定预训练的告警关联模型的步骤包括：

11.如权利要求10所述的故障定位方法，其特征在于，所述基于所述模型训练准确率以及训练后的告警关联模型，确定预训练的告警关联模型的步骤包括：

12.如权利要求9所述的故障定位方法，其特征在于，所述获取历史告警数据中各个历史告警对应的历史特征向量的步骤包括：

基于处理后的历史告警数据确定所述历史特征向量。

13.如权利要求12所述的故障定位方法，其特征在于，所述基于所述第二告警网元、第二告警网元的省份信息以及第二告警网元的传输电路信息，对所述历史告警数据进行数据处理，以获得处理后的历史告警数据的步骤包括：

14.如权利要求12所述的故障定位方法，其特征在于，所述基于处理后的历史告警数据确定所述历史特征向量的步骤包括：

15.一种故障定位装置，其特征在于，所述故障定位装置包括：

16.一种故障定位设备，其特征在于，所述故障定位设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的故障定位程序，所述故障定位程序被所述处理器执行时实现如权利要求1至14中任一项所述的故障定位方法的步骤。

17.一种存储介质，其特征在于，所述存储介质上存储有故障定位程序，所述故障定位程序被处理器执行时实现如权利要求1至14中任一项所述的故障定位方法的步骤。

18.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至14中任一项所述的故障定位方法的步骤。