CN113986673A - 一种故障关联方法、装置及计算机可读存储介质 - Google Patents

一种故障关联方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN113986673A
CN113986673A CN202111277169.8A CN202111277169A CN113986673A CN 113986673 A CN113986673 A CN 113986673A CN 202111277169 A CN202111277169 A CN 202111277169A CN 113986673 A CN113986673 A CN 113986673A
Authority
CN
China
Prior art keywords
fault
alarm
log
classification
alarm log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111277169.8A
Other languages
English (en)
Inventor
吴浩然
廖军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202111277169.8A priority Critical patent/CN113986673A/zh
Publication of CN113986673A publication Critical patent/CN113986673A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供一种故障关联方法、装置及计算机可读存储介质,所述方法包括:获取一个或多个设备的告警日志,并对所述告警日志进行词向量编码;将编码后的告警日志输入预训练的深度神经网络模型,得到所述编码后的告警日志所关联的第一故障分类;根据所述第一故障分类以及预设的工单模板生成故障单,并确定所述故障单对应的设备维修人员;接收所述设备维修人员基于所述故障单发送的反馈工单,并根据所述反馈工单中的第二故障分类以及对应的所述编码后的告警日志对所述预训练的深度神经网络模型进行再训练。该方法、装置及计算机可读存储介质能够解决现有的基于规则库的网络故障方法鲁棒性差,且未将告警与故障相关联的问题。

Description

一种故障关联方法、装置及计算机可读存储介质
技术领域
本发明涉及网络安全技术领域,尤其涉及一种故障关联方法、装置及计算机可读存储介质。
背景技术
网络的稳定和安全关系到人民日常工作生活的方方面面,这一问题也是电信运营商关注的焦点问题。如何在故障出现前利用设备告警进行故障预测,是当前运营商的研究重点。现有方法多为基于规则的方法,通过算法挖掘告警之间的关联规则或加入专家经验形成规则库,再依赖规则库进行告警压缩溯源;使用规则库的方法,如果遇到新的不在规则库的告警则需要更新规则库,
鲁棒性较差,此外,现有方法通常在挖掘到根源告警后结束,并未将告警与故障相关联。
发明内容
本发明所要解决的技术问题是针对现有技术的上述不足,提供一种故障关联方法、装置及计算机可读存储介质,用以解决现有的基于规则库的网络故障方法鲁棒性差,且未将告警与故障相关联的问题。
第一方面,本发明提供一种故障关联方法,包括:
获取一个或多个设备的告警日志,并对所述告警日志进行词向量编码;
将编码后的告警日志输入预训练的深度神经网络模型,得到所述编码后的告警日志所关联的第一故障分类;
根据所述第一故障分类以及预设的工单模板生成故障单,并确定所述故障单对应的设备维修人员;
接收所述设备维修人员基于所述故障单发送的反馈工单,并根据所述反馈工单中的第二故障分类以及对应的所述编码后的告警日志对所述预训练的深度神经网络模型进行再训练。
优选地,所述获取一个或多个设备的告警日志,具体包括:
根据预先存储的目标网络的拓扑信息以及预设的广搜轮次获取所述一个或多个设备的告警日志。
优选地,所述根据预先存储的目标网络的拓扑信息以及预设的广搜轮次获取所述一个或多个设备的告警日志,具体包括:
获取所述广搜轮次,并判断所述广搜轮次是否为0;
若所述广搜轮次为0,则获取待分析设备的告警日志;
若所述广搜轮次不为0,则获取所述待分析设备以及根据所述拓扑信息和所述广搜轮次得到的所述待分析设备的一个或多个相邻设备的告警日志。
优选地,每个设备的所述告警日志均包括一条或多条告警信息,每条告警信息均包括告警时间、告警位置和告警内容,所述对所述告警日志进行词向量编码,具体包括:
针对每一个设备的告警日志,对所述告警日志中的每条告警信息的告警时间、告警位置和告警内容分别进行编码,形成一个长度为m*n大小的特征矩阵,其中,m为编码后的告警时间、告警位置和告警内容的位数之和,n为告警信息的条数;
根据预设的统一尺寸对所有设备的特征矩阵进行组合,形成M*N*k的3阶张量,其中,M*N为预设的统一尺寸,k为所有特征矩阵的个数。
优选地,所述将编码后的告警日志输入预训练的深度神经网络模型,得到所述编码后的告警日志所关联的第一故障分类之前,所述方法还包括:
获取一个或多个设备的历史告警日志,并对所述历史告警日志进行词向量编码;
将编码后的历史告警日志以及所关联的故障分类标签作为训练数据对所述深度神经网络模型进行预训练,得到所述预训练的深度神经网络模型。
优选地,所述深度神经网络模型为修改后的视觉几何组VGG16模型,所述将编码后的历史告警日志以及所关联的故障分类标签作为训练数据对所述深度神经网络模型进行预训练之前,所述方法还包括:
将所述VGG16模型中的所有最大池化层替换为平均池化层,去掉所述VGG16模型中的最后一个全连接层,得到修改后的VGG16模型。
优选地,所述第一故障分类为无故障或预设的多个故障分类中的一种,所述根据所述第一故障分类以及预设的工单模板生成故障单,具体包括:
若所述第一故障分类不为无故障,则根据所述第一故障分类以及预设的工单模板生成所述故障单,其中,所述故障单用于指示所述一个或多个设备中的其中一个设备出现了所述第一故障分类对应的故障。
优选地,若所述广搜轮次不为0且所述第一故障分类不为无故障,所述根据所述第一故障分类以及预设的工单模板生成故障单之前,所述方法还包括:
从包含所述待分析设备和所述相邻设备的多个设备中获取其中一部分设备的告警日志作为第一告警日志,并对所述第一告警日志进行词向量编码;
将编码后的第一告警日志输入预训练的深度神经网络模型,得到所述编码后的第一告警日志所关联的第三故障分类;
根据所述第一故障分类和所述第三故障分类缩小存在所述第一故障分类对应故障的定位范围。
第二方面,本发明提供一种故障关联装置,包括:
日志编码模块,用于获取一个或多个设备的告警日志,并对所述告警日志进行词向量编码;
故障关联模块,与所述日志编码模块连接,用于将编码后的告警日志输入预训练的深度神经网络模型,得到所述编码后的告警日志所关联的第一故障分类;
工单生成模块,与所述故障关联模块连接,用于根据所述第一故障分类以及预设的工单模板生成故障单,并确定所述故障单对应的设备维修人员;
模型再训练模块,与所述工单生成模块连接,用于接收所述设备维修人员基于所述故障单发送的反馈工单,并根据所述反馈工单中的第二故障分类以及对应的所述编码后的告警日志对所述预训练的深度神经网络模型进行再训练。
第三方面,本发明提供一种故障关联装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以实现上述第一方面所述的故障关联方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的故障关联方法。
本发明提供的故障关联方法、装置及计算机可读存储介质,通过获取一个或多个设备的告警日志,并对所述告警日志进行词向量编码,以及将编码后的告警日志输入预训练的深度神经网络模型,能够得到所述编码后的告警日志所关联的第一故障分类,由于使用预训练的深度神经网络模型进行故障关联,无需加入专家经验,也无需提取规则,即使在新的告警出现时,依然可以提取告警特征,鲁棒性更强。同时,在确定第一故障分类后,根据所述第一故障分类以及预设的工单模板生成故障单,并确定所述故障单对应的设备维修人员,从而能够实现自动派单维护。此外,通过接收所述设备维修人员基于所述故障单发送的反馈工单,并根据所述反馈工单中的第二故障分类以及对应的所述编码后的告警日志对所述预训练的深度神经网络模型进行再训练,能够进一步提高深度神经网络模型预测的准确率,使得模型的预测效果更好,解决了现有的基于规则库的网络故障方法鲁棒性差,且未将告警与故障相关联的问题。
附图说明
图1:为本发明实施例1的一种故障关联方法的流程图;
图2:为本发明实施例的目标网络的拓扑信息示意图;
图3:为本发明实施例的告警日志示意图;
图4:为本发明实施例2的一种故障关联装置的结构示意图;
图5:为本发明实施例3的一种故障关联装置的结构示意图。
具体实施方式
为使本领域技术人员更好地理解本发明的技术方案,下面将结合附图对本发明实施方式作进一步地详细描述。
可以理解的是,此处描述的具体实施例和附图仅仅用于解释本发明,而非对本发明的限定。
可以理解的是,在不冲突的情况下,本发明中的各实施例及实施例中的各特征可相互组合。
可以理解的是,为便于描述,本发明的附图中仅示出了与本发明相关的部分,而与本发明无关的部分未在附图中示出。
可以理解的是,本发明的实施例中所涉及的每个单元、模块可仅对应一个实体结构,也可由多个实体结构组成,或者,多个单元、模块也可集成为一个实体结构。
可以理解的是,在不冲突的情况下,本发明的流程图和框图中所标注的功能、步骤可按照不同于附图中所标注的顺序发生。
可以理解的是,本发明的流程图和框图中,示出了按照本发明各实施例的系统、装置、设备、方法的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可代表一个单元、模块、程序段、代码,其包含用于实现规定的功能的可执行指令。而且,框图和流程图中的每个方框或方框的组合,可用实现规定的功能的基于硬件的系统实现,也可用硬件与计算机指令的组合来实现。
可以理解的是,本发明实施例中所涉及的单元、模块可通过软件的方式实现,也可通过硬件的方式来实现,例如单元、模块可位于处理器中。
实施例1:
本实施例提供一种故障关联方法,如图1所示,该方法包括:
步骤S102:获取一个或多个设备的告警日志,并对告警日志进行词向量编码。
具体地,可以根据预先存储的目标网络的拓扑信息以及预设的广搜轮次获取一个或多个设备的告警日志。
在本实施例中,为了获取告警日志,可以先获取广搜轮次,并判断广搜轮次是否为0,若广搜轮次为0,则获取待分析设备的告警日志,若广搜轮次不为0,则获取待分析设备以及根据拓扑信息和广搜轮次得到的待分析设备的一个或多个相邻设备的告警日志。假设目标网络的拓扑信息如图2所示,若广搜轮次为0,则仅获取待分析设备的告警日志,若广搜轮次为1,则获取待分析设备以及设备A、设备B、设备C共4个设备的告警日志,若广搜轮次为2,则获取待分析设备以及设备A、设备B、设备C、设备A1、设备A2、设备B1、设备B2、设备C1、设备C2共10个设备的告警日志,实际场景中的广搜轮次值可以视实际拓扑而定。
可选地,每个设备的告警日志均包括一条或多条告警信息,每条告警信息均包括告警时间、告警位置和告警内容,对告警日志进行词向量编码,具体包括:
针对每一个设备的告警日志,对告警日志中的每条告警信息的告警时间、告警位置和告警内容分别进行编码,形成一个长度为m*n大小的特征矩阵,其中,m为编码后的告警时间、告警位置和告警内容的位数之和,n为告警信息的条数;
根据预设的统一尺寸对所有设备的特征矩阵进行组合,形成M*N*k的3阶张量,其中,M*N为预设的统一尺寸,k为所有特征矩阵的个数。
在本实施例中,告警日志随时间和事件生成,每个设备可以包含一篇或多篇告警日志,每篇告警日志均包含一条或多条告警信息,如图3所示,每条告警信息均包括告警时间、告警位置和告警内容三类信息,其中,告警时间可以精确到毫秒,告警位置可以精确到cpu级别的子设备,告警内容为原文中的一句话。对于每一个设备的告警日志,编码以每条告警信息为单位,对告警日志中每条告警信息的告警时间、告警位置和告警内容进行编码,在一个具体的实施例中,如图3所示,告警时间可以采用17位特征向量表达,告警位置可以使用10位特征向量表达,告警内容可以采用197位特征向量表达,编码后形成一条长度为m=224的特征向量。为了归纳统一样本的统计分布性,可以进一步对特征向量中所有编码做归一化处理,使所有特征值分布在(0,1]的区间,每个设备的告警日志编码后,分别形成m*n大小的特征矩阵,n为告警信息的条数。假设共有k个设备,将每个设备上的告警日志形成m*n(其中不同设备的n可以不同)大小的特征矩阵后,将k个特征矩阵统一尺寸,统一后尺寸为M*N(此处M=224,N=224),所有特征矩阵组合即为一个M*N*k的3阶张量。
步骤S104:将编码后的告警日志输入预训练的深度神经网络模型,得到编码后的告警日志所关联的第一故障分类。
在本实施例中,将3阶张量输入预训练的深度神经网络模型,即可得到编码后的告警日志所关联的第一故障分类。
可选地,将编码后的告警日志输入预训练的深度神经网络模型,得到编码后的告警日志所关联的第一故障分类之前,方法还可以包括:
获取一个或多个设备的历史告警日志,并对历史告警日志进行词向量编码;
将编码后的历史告警日志以及所关联的故障分类标签作为训练数据对深度神经网络模型进行预训练,得到预训练的深度神经网络模型。
在本实施例中,预训练的深度神经网络模型是通过编码后的历史告警日志以及所关联的故障分类标签训练得到的。
在本实施例中,深度神经网络模型可以为修改后的视觉几何组VGG16(VisualGeometry Group 16)模型,即将VGG16模型中的所有最大池化层替换为平均池化层,去掉VGG16模型中的最后一个全连接层,得到修改后的VGG16模型。原VGG16模型共有13个卷积层、3个全连接层、5个最大层化层和1个soft-max层,修改后的VGG16模型共有13个卷积层、2个全连接层、5个平均池化层和1个soft-max层,在进行平均池化的过程中,将为0的特征值舍去,不进行平均值计算。修改后的VGG16模型主要用于特征提取和分类判别,除soft-max层之外的部分用于特征提取,可以称为特征提取网络,由于去掉了该模型中的最后一个全连接层,特征提取网络最终输出一个1*1*4096维的特征向量。soft-max层作为判别器用于分类判别。当M*N*k的3阶张量输入修改后的VGG16模型后,特征提取网络对3阶张量特征进行特征提取,输出一个4096维的特征向量,4096维的特征向量输入判别器后,判别器判断该特征属于各故障类别的概率,其中概率最高者认为是本次输入的告警日志所关联的第一故障分类,当所有类别的概率均低于一定阈值时(本装置中设定为50%,其他场景可根据实际情况设定),则认为该故障属于无故障或存在未知故障,可能需要人工排查。
需要说明的是,判别器使用softmax,如有i种故障则进行i+1类的多分类判别,此处将无故障也视为一类。即故障分类分为无故障或预设的多个故障分类中的一种。特征提取网络用于提取特征,需要softmax监督特征提取网络提取的特征是否合适,训练的过程就是通过softmax监督特征提取网络不断修改自身参数以提升特征提取效果的过程。分类效果评价具体是根据深度神经网络模型的损失函数计算的loss值进行评价,同时也根据训练数据(已标注数据)的分类准确率进行评价,只有当loss值低于一定阈值,且准确率高于一定阈值时,才认为整体达到一定阈值,输出训练好的特征提取网络(即VGG16除去softmax层之外的部分)。同时,若整体未达到一定阈值,则使用反向传播算法对特征提取网络各层权重进行调整,调整方法采用随机梯度下降法,直到达到一定阈值。
步骤S106:根据第一故障分类以及预设的工单模板生成故障单,并确定故障单对应的设备维修人员。
具体地,若第一故障分类不为无故障,则根据第一故障分类以及预设的工单模板生成故障单,其中,故障单用于指示一个或多个设备中的其中一个设备出现了第一故障分类对应的故障。
在本实施例中,故障分类比如可以包括:无故障、业务未知中断故障、内存不足故障、物理掉线故障、服务离线故障等等。假设当前广搜轮次为0,得到的第一故障分类为业务未知中断故障,则根据工单模板生成故障单,输入到工单系统,故障单用于指示待分析设备存在业务未知中断故障。假设当前广搜轮次为1,得到的第一故障分类为内存不足故障,则根据工单模板生成故障单,输入到工单系统,故障单用于指示待分析设备以及设备A、设备B、设备C中的其中或至少一个设备出现了内存不足故障,并将生成的故障单派发给设备维修人员,以实现自动派单维护。
可选地,若广搜轮次不为0且第一故障分类不为无故障,根据第一故障分类以及预设的工单模板生成故障单之前,方法还可以包括:
从包含待分析设备和相邻设备的多个设备中获取其中一部分设备的告警日志作为第一告警日志,并对第一告警日志进行词向量编码;
将编码后的第一告警日志输入预训练的深度神经网络模型,得到编码后的第一告警日志所关联的第三故障分类;
根据第一故障分类和第三故障分类缩小存在第一故障分类对应故障的定位范围。
在本实施例中,为了进一步缩小故障的定位范围或者准确定位故障,可以缩小输入模型的设备告警日志的范围,即将多个设备中其中一部分设备的编码后的告警日志继续输入预训练的深度神经网络模型,得到对应的故障分类结果(即第三故障分类),再根据得到的故障分类结果进一步缩小故障的定位范围或者准确定位故障。如图2所示,假设广搜轮次为1且第一故障分类为物理掉线故障,此时,可以减少一次广搜轮次,即只将待分析设备的告警日志入预训练的深度神经网络模型,若得到的第三故障分类为物理掉线故障,则证明是待分析设备出现了物理掉线故障,若第三故障分类为无故障,则证明是设备A、设备B、设备C中的其中或至少一个设备出现了物理掉线故障,此时,可以分别将设备A、设备B、设备C的告警日志进行词向量编码,并将编码后的告警日志输入预训练的深度神经网络模型,得到对应的故障分类结果,从而准确定位故障。需要说明的是,除了减少广搜轮次还可以使用比如随机选取的方式来获取其中一部分设备的告警日志,比如当广搜轮次为2时,则证明待分析设备以及设备A、设备B、设备C、设备A1、设备A2、设备B1、设备B2、设备C1、设备C2共10个设备中的其中或至少一个设备出现了物理掉线故障,此时,可以将设备A、设备A1、设备A2编码后的告警日志输入预训练的深度神经网络模型,得到对应的故障分类结果,若故障分类结果刚好为物理掉线故障,则可以确定设备A、设备A1、设备A2中的其中或至少一个设备出现了物理掉线故障,此时,即可以生成故障单,也可以进一步重复上述的步骤,直到定位到具体的设备,再生成相应的故障单。
步骤S108:接收设备维修人员基于故障单发送的反馈工单,并根据反馈工单中的第二故障分类以及对应的编码后的告警日志对预训练的深度神经网络模型进行再训练。
在本实施例中,设备维修人员处理完故障后,填写反馈工单,在接收到设备维修人员基于故障单发送的反馈工单时,先提取反馈工单中的故障分类,即第二故障分类,并将提取到的第二故障分类作为标签,与之相关联的编码后的告警日志作为训练数据,反馈给预训练的深度神经网络模型进行再训练。需要说明的是,如果维修人员到场后发现是一种新型故障,则会将此故障加入到标签项,对算法进行优化迭代,即此时训练好的深度神经网络模型能够识别i+2类故障,因此,能进一步提高深度神经网络模型预测的准确率,使得模型的预测效果更好。
本发明实施例提供的故障关联方法,通过获取一个或多个设备的告警日志,并对所述告警日志进行词向量编码,以及将编码后的告警日志输入预训练的深度神经网络模型,能够得到所述编码后的告警日志所关联的第一故障分类,由于使用预训练的深度神经网络模型进行故障关联,无需加入专家经验,也无需提取规则,即使在新的告警出现时,依然可以提取告警特征,鲁棒性更强。同时,在确定第一故障分类后,根据所述第一故障分类以及预设的工单模板生成故障单,并确定所述故障单对应的设备维修人员,从而能够实现自动派单维护。此外,通过接收所述设备维修人员基于所述故障单发送的反馈工单,并根据所述反馈工单中的第二故障分类以及对应的所述编码后的告警日志对所述预训练的深度神经网络模型进行再训练,能够进一步提高深度神经网络模型预测的准确率,使得模型的预测效果更好,解决了现有的基于规则库的网络故障方法鲁棒性差,且未将告警与故障相关联的问题。
实施例2:
如图4所示,本实施例提供一种故障关联装置,包括:
日志编码模块12,用于获取一个或多个设备的告警日志,并对告警日志进行词向量编码;
故障关联模块14,与日志编码模块12连接,用于将编码后的告警日志输入预训练的深度神经网络模型,得到编码后的告警日志所关联的第一故障分类;
工单生成模块16,与故障关联模块14连接,用于根据第一故障分类以及预设的工单模板生成故障单,并确定故障单对应的设备维修人员;
模型再训练模块18,与工单生成模块16连接,用于接收设备维修人员基于故障单发送的反馈工单,并根据反馈工单中的第二故障分类以及对应的编码后的告警日志对预训练的深度神经网络模型进行再训练。
可选地,日志编码模块12具体包括:
日志获取单元,用于根据预先存储的目标网络的拓扑信息以及预设的广搜轮次获取一个或多个设备的告警日志;
日志编码单元,用于对告警日志进行词向量编码。
可选地,日志获取单元具体包括:
广搜轮次判断单元,用于获取广搜轮次,并判断广搜轮次是否为0;
第一获取单元,用于若广搜轮次为0,则获取待分析设备的告警日志;
第二获取单元,用于若广搜轮次不为0,则获取待分析设备以及根据拓扑信息和广搜轮次得到的待分析设备的一个或多个相邻设备的告警日志。
可选地,每个设备的告警日志均包括一条或多条告警信息,每条告警信息均包括告警时间、告警位置和告警内容,日志编码单元具体包括:
特征矩阵单元,用于针对每一个设备的告警日志,对告警日志中的每条告警信息的告警时间、告警位置和告警内容分别进行编码,形成一个长度为m*n大小的特征矩阵,其中,m为编码后的告警时间、告警位置和告警内容的位数之和,n为告警信息的条数;
张量形成单元,用于根据预设的统一尺寸对所有设备的特征矩阵进行组合,形成M*N*k的3阶张量,其中,M*N为预设的统一尺寸,k为所有特征矩阵的个数。
可选地,还可以包括:
历史告警日志获取模块,用于获取一个或多个设备的历史告警日志,并对历史告警日志进行词向量编码;
预训练模块,用于将编码后的历史告警日志以及所关联的故障分类标签作为训练数据对深度神经网络模型进行预训练,得到预训练的深度神经网络模型。
可选地,深度神经网络模型为修改后的视觉几何组VGG16模型,装置还可以包括:
模型修改模块,用于将VGG16模型中的所有最大池化层替换为平均池化层,去掉VGG16模型中的最后一个全连接层,得到修改后的VGG16模型。
可选地,第一故障分类为无故障或预设的多个故障分类中的一种,工单生成模块16具体用于若第一故障分类不为无故障,则根据第一故障分类以及预设的工单模板生成故障单,并确定故障单对应的设备维修人员,其中,故障单用于指示一个或多个设备中的其中一个设备出现了第一故障分类对应的故障。
可选地,若广搜轮次不为0且第一故障分类不为无故障,装置还可以包括:
再编码模块,用于从包含待分析设备和相邻设备的多个设备中获取其中一部分设备的告警日志作为第一告警日志,并对第一告警日志进行词向量编码;
再预测模块,用于将编码后的第一告警日志输入预训练的深度神经网络模型,得到编码后的第一告警日志所关联的第三故障分类;
故障定位模块,用于根据第一故障分类和第三故障分类缩小存在第一故障分类对应故障的定位范围。
实施例3:
参考图5,本实施例提供一种故障关联装置,包括存储器22和处理器24,存储器22中存储有计算机程序,处理器24被设置为运行所述计算机程序以执行实施例1中的故障关联方法。
其中,存储器22与处理器24连接,存储器22可采用闪存或只读存储器或其他存储器,处理器24可采用中央处理器或单片机。
实施例4:
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例1中的故障关联方法。
该计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。计算机可读存储介质包括但不限于RAM(Random Access Memory,随机存取存储器),ROM(Read-Only Memory,只读存储器),EEPROM(Electrically ErasableProgrammable read only memory,带电可擦可编程只读存储器)、闪存或其他存储器技术、CD-ROM(Compact Disc Read-Only Memory,光盘只读存储器),数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。
实施例2至实施例4提供的故障关联装置及计算机可读存储介质,通过获取一个或多个设备的告警日志,并对所述告警日志进行词向量编码,以及将编码后的告警日志输入预训练的深度神经网络模型,能够得到所述编码后的告警日志所关联的第一故障分类,由于使用预训练的深度神经网络模型进行故障关联,无需加入专家经验,也无需提取规则,即使在新的告警出现时,依然可以提取告警特征,鲁棒性更强。同时,在确定第一故障分类后,根据所述第一故障分类以及预设的工单模板生成故障单,并确定所述故障单对应的设备维修人员,从而能够实现自动派单维护。此外,通过接收所述设备维修人员基于所述故障单发送的反馈工单,并根据所述反馈工单中的第二故障分类以及对应的所述编码后的告警日志对所述预训练的深度神经网络模型进行再训练,能够进一步提高深度神经网络模型预测的准确率,使得模型的预测效果更好,解决了现有的基于规则库的网络故障方法鲁棒性差,且未将告警与故障相关联的问题。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (11)

1.一种故障关联方法,其特征在于,包括:
获取一个或多个设备的告警日志,并对所述告警日志进行词向量编码;
将编码后的告警日志输入预训练的深度神经网络模型,得到所述编码后的告警日志所关联的第一故障分类;
根据所述第一故障分类以及预设的工单模板生成故障单,并确定所述故障单对应的设备维修人员;
接收所述设备维修人员基于所述故障单发送的反馈工单,并根据所述反馈工单中的第二故障分类以及对应的所述编码后的告警日志对所述预训练的深度神经网络模型进行再训练。
2.根据权利要求1所述的故障关联方法,其特征在于,所述获取一个或多个设备的告警日志,具体包括:
根据预先存储的目标网络的拓扑信息以及预设的广搜轮次获取所述一个或多个设备的告警日志。
3.根据权利要求2所述的故障关联方法,其特征在于,所述根据预先存储的目标网络的拓扑信息以及预设的广搜轮次获取所述一个或多个设备的告警日志,具体包括:
获取所述广搜轮次,并判断所述广搜轮次是否为0;
若所述广搜轮次为0,则获取待分析设备的告警日志;
若所述广搜轮次不为0,则获取所述待分析设备以及根据所述拓扑信息和所述广搜轮次得到的所述待分析设备的一个或多个相邻设备的告警日志。
4.根据权利要求1所述的故障关联方法,其特征在于,每个设备的所述告警日志均包括一条或多条告警信息,每条告警信息均包括告警时间、告警位置和告警内容,所述对所述告警日志进行词向量编码,具体包括:
针对每一个设备的告警日志,对所述告警日志中的每条告警信息的告警时间、告警位置和告警内容分别进行编码,形成一个长度为m*n大小的特征矩阵,其中,m为编码后的告警时间、告警位置和告警内容的位数之和,n为告警信息的条数;
根据预设的统一尺寸对所有设备的特征矩阵进行组合,形成M*N*k的3阶张量,其中,M*N为预设的统一尺寸,k为所有特征矩阵的个数。
5.根据权利要求1所述的故障关联方法,其特征在于,所述将编码后的告警日志输入预训练的深度神经网络模型,得到所述编码后的告警日志所关联的第一故障分类之前,所述方法还包括:
获取一个或多个设备的历史告警日志,并对所述历史告警日志进行词向量编码;
将编码后的历史告警日志以及所关联的故障分类标签作为训练数据对所述深度神经网络模型进行预训练,得到所述预训练的深度神经网络模型。
6.根据权利要求5所述的故障关联方法,其特征在于,所述深度神经网络模型为修改后的视觉几何组VGG16模型,所述将编码后的历史告警日志以及所关联的故障分类标签作为训练数据对所述深度神经网络模型进行预训练之前,所述方法还包括:
将所述VGG16模型中的所有最大池化层替换为平均池化层,去掉所述VGG16模型中的最后一个全连接层,得到修改后的VGG16模型。
7.根据权利要求2所述的故障关联方法,其特征在于,所述第一故障分类为无故障或预设的多个故障分类中的一种,所述根据所述第一故障分类以及预设的工单模板生成故障单,具体包括:
若所述第一故障分类不为无故障,则根据所述第一故障分类以及预设的工单模板生成所述故障单,其中,所述故障单用于指示所述一个或多个设备中的其中一个设备出现了所述第一故障分类对应的故障。
8.根据权利要求7所述的故障关联方法,其特征在于,若所述广搜轮次不为0且所述第一故障分类不为无故障,所述根据所述第一故障分类以及预设的工单模板生成故障单之前,所述方法还包括:
从包含所述待分析设备和所述相邻设备的多个设备中获取其中一部分设备的告警日志作为第一告警日志,并对所述第一告警日志进行词向量编码;
将编码后的第一告警日志输入预训练的深度神经网络模型,得到所述编码后的第一告警日志所关联的第三故障分类;
根据所述第一故障分类和所述第三故障分类缩小存在所述第一故障分类对应故障的定位范围。
9.一种故障关联装置,其特征在于,包括:
日志编码模块,用于获取一个或多个设备的告警日志,并对所述告警日志进行词向量编码;
故障关联模块,与所述日志编码模块连接,用于将编码后的告警日志输入预训练的深度神经网络模型,得到所述编码后的告警日志所关联的第一故障分类;
工单生成模块,与所述故障关联模块连接,用于根据所述第一故障分类以及预设的工单模板生成故障单,并确定所述故障单对应的设备维修人员;
模型再训练模块,与所述工单生成模块连接,用于接收所述设备维修人员基于所述故障单发送的反馈工单,并根据所述反馈工单中的第二故障分类以及对应的所述编码后的告警日志对所述预训练的深度神经网络模型进行再训练。
10.一种故障关联装置,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以实现如权利要求1-8中任一项所述的故障关联方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的故障关联方法。
CN202111277169.8A 2021-10-29 2021-10-29 一种故障关联方法、装置及计算机可读存储介质 Pending CN113986673A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111277169.8A CN113986673A (zh) 2021-10-29 2021-10-29 一种故障关联方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111277169.8A CN113986673A (zh) 2021-10-29 2021-10-29 一种故障关联方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113986673A true CN113986673A (zh) 2022-01-28

Family

ID=79744899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111277169.8A Pending CN113986673A (zh) 2021-10-29 2021-10-29 一种故障关联方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113986673A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089231A (zh) * 2023-02-13 2023-05-09 北京优特捷信息技术有限公司 一种故障告警方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089231A (zh) * 2023-02-13 2023-05-09 北京优特捷信息技术有限公司 一种故障告警方法、装置、电子设备及存储介质
CN116089231B (zh) * 2023-02-13 2023-09-15 北京优特捷信息技术有限公司 一种故障告警方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110609759B (zh) 一种故障根因分析的方法及装置
CN108737406B (zh) 一种异常流量数据的检测方法及系统
CN111914873A (zh) 一种两阶段云服务器无监督异常预测方法
CN111708343B (zh) 一种面向制造业行业现场工艺行为异常行为检测方法
CN110460605B (zh) 一种基于自动编码的异常网络流量检测方法
CN113556258B (zh) 一种异常检测方法及装置
CN113378990B (zh) 基于深度学习的流量数据异常检测方法
CN111176953B (zh) 一种异常检测及其模型训练方法、计算机设备和存储介质
CN111930592A (zh) 一种实时检测日志序列异常的方法和系统
CN116737510B (zh) 一种基于数据分析的键盘智能监测方法及系统
CN112199670B (zh) 一种基于深度学习改进iforest对行为异常检测的日志监控方法
CN105376193A (zh) 安全事件的智能关联分析方法与装置
CN106953766A (zh) 一种报警方法及装置
CN111641608A (zh) 异常用户识别方法、装置、电子设备及存储介质
CN112132321A (zh) 一种基于机器学习对森林火灾预测分析的方法
CN115758255B (zh) 一种融合模型下的用电异常行为分析方法和装置
CN115758908A (zh) 一种基于深度学习的报警泛滥情况下的报警在线预测方法
CN110766100B (zh) 轴承故障诊断模型构建方法、诊断方法及电子设备
CN114842371B (zh) 一种无监督视频异常检测方法
CN113986673A (zh) 一种故障关联方法、装置及计算机可读存储介质
CN115858794A (zh) 用于网络运行安全监测的异常日志数据识别方法
CN113676343B (zh) 电力通信网故障源定位方法及装置
CN111275136B (zh) 基于小样本下的故障预测系统及其预警方法
CN117557415A (zh) 一种基于智慧物业的社区资源管理方法及系统
CN117216713A (zh) 故障定界方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination