CN113825162A - 电信网络故障原因定位方法及装置 - Google Patents
电信网络故障原因定位方法及装置 Download PDFInfo
- Publication number
- CN113825162A CN113825162A CN202010568169.2A CN202010568169A CN113825162A CN 113825162 A CN113825162 A CN 113825162A CN 202010568169 A CN202010568169 A CN 202010568169A CN 113825162 A CN113825162 A CN 113825162A
- Authority
- CN
- China
- Prior art keywords
- alarm
- attention
- telecommunication network
- network equipment
- statistical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000003062 neural network model Methods 0.000 claims abstract description 64
- 230000007246 mechanism Effects 0.000 claims abstract description 45
- 239000013598 vector Substances 0.000 claims description 81
- 238000012549 training Methods 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 10
- 230000000306 recurrent effect Effects 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012423 maintenance Methods 0.000 abstract description 15
- 238000012545 processing Methods 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/04—Arrangements for maintaining operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
Abstract
本发明实施例提供一种电信网络故障原因方法及装置,方法包括:获取目标电信网络设备在历史时间段发出的告警消息,对所有所述告警消息进行统计,获取所述告警消息的统计特征;将所有所述告警消息按照发出的时间先后顺序进行拼接,生成所述告警消息的时间序列;将所述告警消息的统计特征和时间序列输入基于注意力机制的神经网络模型中,输出所述目标电信网络设备属于每种预设故障原因的概率,将最大概率对应的所述预设故障原因作为所述目标电信网络设备的故障原因。本发明实施例可以快速准确定位目标电信网络设备的故障原因,提升运维效率,缩短故障处理时长。
Description
技术领域
本发明属于网络运维技术领域,尤其涉及一种电信网络故障原因定位方法及装置。
背景技术
网络故障原因定位是电信运营商日常网络运维的主要工作内容,其中最核心的工作就是运维工程师通过查询各类故障告警消息,判断故障发生的主要原因,例如硬件原因、软件原因、市电原因和传输原因等,并进行相应的故障处理。
传统的故障原因定位方法主要为被动应对,依靠运维人员的人工经验,通过对伴随告警类型、板件设备状态、历史告警信息、动力环境数据、性能统计数据等信息的检查,并查询设备操作手册,从而定位告警原因,效率较低,且原因定位准确率不高。然后,一线运维人员基于告警原因进行初步分析,根据设备维护手册以及过往处理经验,制定运维方案。远端通过设备重启和参数重配置,现场通过设备更换和电池更换,最终实现故障排除,恢复服务。
当前,有些方案提出了采用告警时间关联、资源位置关联,或关联规则挖掘的方式进行故障原因定位。这些方案在一定程度上实现了自动化故障原因分析,部分解决了传统依据人工经验方式进行故障分析的弊端。
随着4G/5G网络建设规模越来越大,设备数量激增,网络结构也越来越复杂。每天面对海量的告警数据,传统的依靠运维工程师个人经验进行故障原因分析,已经不能满足复杂网络精准运维的需求。经常导致运维效率低下、客户感知较差、故障长时间无法恢复等问题。
虽然采用告警时间关联、资源位置关联,或关联规则挖掘的方式进行故障原因定位,这在一定程度上实现了自动化的故障原因预判。但这些方案不能从根本上分析海量原始告警特征和真实故障原因之间的因果关系。仅通过简单的关联规则进行故障原因推断,仍然存在着关联规则数量过大,规则不准确等问题,还需要设备专家对规则进行逐一确认和有效性分析。
发明内容
为克服上述现有的故障原因定位方法定位效率低,定位不准确,需要设备专家的专业知识的问题或者至少部分地解决上述问题,本发明实施例提供一种电信网络故障原因定位方法及装置。
根据本发明实施例的第一方面,提供一种电信网络故障原因定位方法,包括:
获取目标电信网络设备在历史时间段发出的告警消息,对所有所述告警消息进行统计,获取所述告警消息的统计特征;
将所有所述告警消息按照发出的时间先后顺序进行拼接,生成所述告警消息的时间序列;
将所述告警消息的统计特征和时间序列输入基于注意力机制的神经网络模型中,输出所述目标电信网络设备属于每种预设故障原因的概率,将最大概率对应的所述预设故障原因作为所述目标电信网络设备的故障原因;
其中,所述基于注意力机制的神经网络模型根据电信网络设备样本发出的告警消息和所述电信网络设备样本的实际故障原因进行训练获取。
具体地,将所述告警消息的统计特征和时间序列输入基于注意力机制的神经网络模型中,输出所述目标电信网络设备属于每种预设故障原因的概率的步骤之前还包括:
获取所述电信网络设备样本发出的告警信息和所述电信网络设备样本的故障工单;
将所述故障工单中电信网络设备样本的实际故障原因和告警信息进行关联;
将关联的电信网络设备样本的实际故障原因和告警信息作为一个样本对,对所述基于注意力机制的神经网络模型进行训练。
具体地,将所述故障工单中电信网络设备样本的实际故障原因和告警信息进行关联的步骤包括:
对于所述故障工单中的任一条记录,筛选出与该条记录具有相同电信网络设备样本的编号且发出时间与该条记录中的工单派发时间之间的间隔在预设范围内的告警信息;
将该条记录中电信网络设备样本的实际故障原因和筛选出的告警信息进行关联。
具体地,对所有所述告警消息进行统计,获取所述告警消息的统计特征的步骤包括:
根据所述告警消息的告警标题,统计每种所述告警标题对应的告警消息的条数;
根据所述告警消息发出的时间,确定所述目标电信网络设备发生故障的季度、月份、周、日、星期和是否节假日中的一项或多项时间特征;
将所述目标电信网络设备的编号、每种所述告警标题对应的告警消息的条数和所述时间特征作为所述告警信息的统计特征。
具体地,将所述告警消息的统计特征和时间序列输入基于注意力机制的神经网络模型中,输出所述目标电信网络设备属于每种预设故障原因的概率的步骤包括:
将所述告警消息的统计特征输入所述基于注意力机制的神经网络模型中的第一分支,获取所述统计特征的注意力向量;
将所述告警消息的时间序列输入所述基于注意力机制的神经网络模型中的第二分支,获取所述时间序列的注意力向量;
使用所述基于注意力机制的神经网络模型中的融合层对所述统计特征的注意力向量和所述时间序列的注意力向量进行融合;
将融合结果输入所述基于注意力机制的神经网络模型中的第一全连接层后,经过所述基于注意力机制的神经网络模型中的激活层,获取所述目标电信网络设备属于每种预设故障原因的概率。
具体地,将所述告警消息的统计特征输入所述基于注意力机制的神经网络模型中的第一分支,获取所述统计特征的注意力向量的步骤包括:
基于所述第一分支中的标准化层对所述统计特征进行标准化;
基于所述第一分支中的第二全连接层对标准化后的所述统计特征进行特征提取和变换;
基于所述第一分支中的注意力层对所述第二全连接层的输出进行权重分配,获取所述统计特征的注意力向量。
具体地,将所述告警消息的时间序列输入所述基于注意力机制的神经网络模型中的第二分支,获取所述时间序列的注意力向量的步骤包括:
基于所述第二分支中的词向量层将所述告警消息的时间序列转换为词向量;
基于所述第二分支中的循环神经网络层对所述词向量进行特征提取和变换;
基于所述第二分支中的注意力层对所述循环神经网络层的输出进行权重分配,获取所述时间序列的注意力向量。
具体地,基于所述第一分支中的注意力层对所述第二全连接层的输出进行权重分配,获取所述统计特征的注意力向量的步骤包括:
根据所述全连接层输出的统计特征和所述注意力层中的查询向量,计算所述统计特征的注意力分布;
将所述统计特征的注意力分布和所述第二全连接层输出的统计特征和进行相乘,获取所述统计特征的注意力向量。
根据本发明实施例第二方面提供一种电信网络故障原因定位装置,包括:
统计模块,用于获取目标电信网络设备在历史时间段发出的告警消息,对所有所述告警消息进行统计,获取所述告警消息的统计特征;
生成模块,用于将所有所述告警消息按照发出的时间先后顺序进行拼接,生成所述告警消息的时间序列;
定位模块,用于将所述告警消息的统计特征和时间序列输入基于注意力机制的神经网络模型中,输出所述目标电信网络设备属于每种预设故障原因的概率,将最大概率对应的所述预设故障原因作为所述目标电信网络设备的故障原因;
其中,所述基于注意力机制的神经网络模型根据电信网络设备样本发出的告警消息和所述电信网络设备样本的实际故障原因进行训练获取。
根据本发明实施例的第三个方面,还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器调用所述程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的电信网络故障原因定位方法。
本发明实施例提供一种电信网络故障原因定位方法及装置,该方法通过采集某一时刻或某一历史时间段目标电信网络设备发出的告警信息,对告警信息进行预处理,获取告警信息的统计特征和时间序列,将告警信息的统计特征和时间序列作为基于注意力机制的神经网络模型的输入,即可自动判断出目标电信网络设备所属各种预设故障原因的概率,从而快速准确定位目标电信网络设备的故障原因,提升运维效率,缩短故障处理时长。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的电信网络故障原因定位方法整体流程示意图;
图2为本发明实施例提供的电信网络故障原因定位方法中基于注意力机制的神经网络模型的结构示意图;
图3为本发明实施例提供的电信网络故障原因定位方法中基于注意力机制的神经网络模型的注意力层结构示意图;
图4为本发明实施例提供的电信网络故障原因定位装置整体结构示意图;
图5为本发明实施例提供的电子设备整体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的一个实施例中提供一种电信网络故障原因定位方法,图1为本发明实施例提供的电信网络故障原因定位方法整体流程示意图,该方法包括:S101,获取目标电信网络设备在历史时间段发出的告警消息,对所有所述告警消息进行统计,获取所述告警消息的统计特征;
其中,目标电信网络设备为需要进行故障原因定位的设备。告警信息为目标电信网络设备故障时在某一时刻或某一历史时间段发出的用于告警的信息。历史时间段的选择为告警消息发出频率较高的某一时间段。告警包括故障告警、动环告警和性能告警。告警消息的统计特征是指对告警信息的某种或某些特征进行统计而获取的统计结果,如每种告警信息的数量等。
S102,将所有所述告警消息按照发出的时间先后顺序进行拼接,生成所述告警消息的时间序列;
例如,目标电信网络设备在历史时间段发出的告警消息为Alarm-1、Alarm-2和Alarm-3,拼接后形成的告警消息的时间序列可能为[Alarm-1,Alarm-2,Alarm-3]。考虑此类时间序列为非固定长度序列,初始构造之后还需要进行数据填充和对齐,具体可依据所有电信网络设备样本的告警消息的序列中的最大长度,或指定最大长度进行填充,填充字符为NULL。当指定最大长度MaxLen=6时,填充后的固定长度序列为[Alarm-1,Alarm-2,Alarm-3,NULL,NULL,NULL]。
S103,将所述告警消息的统计特征和时间序列输入基于注意力机制的神经网络模型中,输出所述目标电信网络设备属于每种预设故障原因的概率,将最大概率对应的所述预设故障原因作为所述目标电信网络设备的故障原因;其中,所述基于注意力机制的神经网络模型根据电信网络设备样本发出的告警消息和所述电信网络设备样本的实际故障原因进行训练获取。
基于注意力机制的神经网络模型为在神经网络模型中引入注意力机制的模型,通过构建有监督的基于注意力机制的神经网络模型来训练海量告警消息的特征向量与实际故障原因之间的相关性权重分配,从而实现对故障原因的准确定位。
本实施例中在模型训练完毕后,通过采集某一时刻或某一历史时间段目标电信网络设备发出的告警信息,对告警信息进行预处理,获取告警信息的统计特征和时间序列,将告警信息的统计特征和时间序列作为基于注意力机制的神经网络模型的输入,即可自动判断出目标电信网络设备所属各种预设故障原因的概率,从而快速准确定位目标电信网络设备的故障原因,提升运维效率,缩短故障处理时长。
在上述实施例的基础上,本实施例中将所述告警消息的统计特征和时间序列输入基于注意力机制的神经网络模型中,输出所述目标电信网络设备属于每种预设故障原因的概率的步骤之前还包括:获取所述电信网络设备样本发出的告警信息和所述电信网络设备样本的故障工单;
其中,告警信息的数据格式如表1所示,故障工单的数据格式如表2所示。故障工单的每条记录中记载有运维工程师回填的实际故障原因,可以将其作为基于注意力机制的神经网络模型的训练目标值。
表1告警信息的数据格式
设备编号 | 告警标题 | 告警时间 |
ID-1 | Alarm-1 | 2017-11-1 23:27:13 |
ID-1 | Alarm-2 | 2017-11-1 23:29:00 |
ID-1 | Alarm-3 | 2017-11-1 23:30:11 |
... | ... | ... |
表2故障工单的数据格式
设备编号 | 工单标题 | 工单派发时间 | 故障原因 |
ID-1 | Order-1 | 2017-11-1 23:35:13 | Cause-1 |
... | ... | ... |
将所述故障工单中电信网络设备样本的实际故障原因和告警信息进行关联;
通过设备编号和工单派发时间关联查找故障原因对应的告警消息,从而得到相关联的故障原因和若干告警消息。
将关联的电信网络设备样本的实际故障原因和告警信息作为一个样本对,对所述基于注意力机制的神经网络模型进行训练。
设在一个工单派单时间窗口内,即[工单派单时间-T1,工单派单时间+T2],对应的告警信息的个数为N,则对N个告警信息进行统计,获取N个告警信息的统计特征,将N个告警信息的时间序列和统计特征作为输入对模型进行训练。
在上述实施例的基础上,本实施例中将所述故障工单中电信网络设备样本的实际故障原因和告警信息进行关联的步骤包括:对于所述故障工单中的任一条记录,筛选出与该条记录具有相同电信网络设备样本的编号且发出时间与该条记录中的工单派发时间之间的间隔在预设范围内的告警信息;将该条记录中电信网络设备样本的实际故障原因和筛选出的告警信息进行关联。
具体地,遍历选取故障工单中的任意一条记录,根据设备编号和工单派发时间,从告警消息表中查找具有相同设备编号,且告警时间发生在距离该条记录的工单派发时间较近的所有告警消息。例如,工单派发时间之前24小时到工单派发时间后3小时期间的所有告警消息。将该条记录与查找出的告警消息进行管理。以此类推,直至故障工单中的所有记录全部处理完毕。
在上述实施例的基础上,本实施例中对所有所述告警消息进行统计,获取所述告警消息的统计特征的步骤包括:根据所述告警消息的告警标题,统计每种所述告警标题对应的告警消息的条数;根据所述告警消息发出的时间,确定所述目标电信网络设备发生故障的季度、月份、周、日、星期和是否节假日中的一项或多项时间特征;将所述目标电信网络设备的编号、每种所述告警标题对应的告警消息的条数和所述时间特征作为所述告警信息的统计特征。
具体地,根据不同的告警标题,统计不同告警标题出现的频次。同时,根据告警消息发出的时间,可以标记出目标电信网络设备故障发生于本年第几季度、第几月、第几周、本月第几天、本周第几天和是否节假日等时间特征。统计特征构造后的特征向量为[ID-1,N1,N2,N3,...Nm,x1,x2,x3,x4,x5,x6],其中,ID-1为设备编号,N1、N2、N3和Nm分别表示第一种、第二种、第三种和第m种告警标题的发生次数,x1表示第几季度,x2表示第几月,x3表示第几周,x4表示本月第几天,x5表示本周第几天,x6表示是否节假日。
其中,电信网络设备样本的告警信息的统计特征中的时间特征可以通过故障工单中的工单派单时间进行确定。
在上述实施例的基础上,本实施例中将所述告警消息的统计特征和时间序列输入基于注意力机制的神经网络模型中,输出所述目标电信网络设备属于每种预设故障原因的概率的步骤包括:将所述告警消息的统计特征输入所述基于注意力机制的神经网络模型中的第一分支,获取所述统计特征的注意力向量;
由于告警消息的统计特征是非时序的输入向量,因此设计了模型的第一分支,用于处理输入的统计特征。
将所述告警消息的时间序列输入所述基于注意力机制的神经网络模型中的第二分支,获取所述时间序列的注意力向量;
由于告警消息的时间序列为时序的输入向量,因此设计了模型的第二分支,用于处理输入的原始告警消息的时间序列。其中,时间序列经过最大长度填充后获取。
使用所述基于注意力机制的神经网络模型中的融合层对所述统计特征的注意力向量和所述时间序列的注意力向量进行融合;
将第一分支输出的统计特征的注意力向量output_1和第二分支输出的时间序列的注意力向量output_2经过融合层进行融合,融合时可以使用拼接的方式进行融合。
将融合结果输入所述基于注意力机制的神经网络模型中的第一全连接层后,经过所述基于注意力机制的神经网络模型中的激活层,获取所述目标电信网络设备属于每种预设故障原因的概率。
融合后的相邻再经过1至N层的全连接层,最终经过激活层softmax,得到目标电信网络设备属于每种预设故障原因的概率Y。
在上述实施例的基础上,本实施例中将所述告警消息的统计特征输入所述基于注意力机制的神经网络模型中的第一分支,获取所述统计特征的注意力向量的步骤包括:基于所述第一分支中的标准化层对所述统计特征进行标准化;
具体地,在第一分支中,首先将原始统计特征经过标准化层,进行标准化处理,以消除不同数据量纲对模型训练结果的影响。标准化的公式如下:
其中,μ为所有统计特征的均值,σ为所有统计特征的标准差,x为任一统计特征,x′为经过标准化后的任一统计特征。经过标准化处理后的统计特征符合标准正态分布,即均值为0,标准差为1。
基于所述第一分支中的第二全连接层对标准化后的所述统计特征进行特征提取和变换;
在经过标准化层处理后,再经过1至N层的全连接层以实现特征提取和变换。
基于所述第一分支中的注意力层对所述第二全连接层的输出进行权重分配,最后第一分支输出所述统计特征的注意力向量output_1。
在上述实施例的基础上,本实施例中将所述告警消息的时间序列输入所述基于注意力机制的神经网络模型中的第二分支,获取所述时间序列的注意力向量的步骤包括:基于所述第二分支中的词向量层将所述告警消息的时间序列转换为词向量;
具体地,在第二分支中,首先将告警消息的时间序列输入词向量层进行训练,词向量层处理后输出的是词向量的时间序列。本实施例通过利用Word2Vec方法将告警消息的时间序列转换为词向量。假设Word2Vec方法指定词向量输出维度为D,则词向量层的输出维度为MaxLen*D。
基于所述第二分支中的循环神经网络层对所述词向量进行特征提取和变换;
随后,词向量进入1至N层的循环神经网络(Recurrent Neural Network,RNN)层对词向量进行高级特征提取和变换。循环神经网络层可采用堆叠的LSTM(Long Short-TermMemory,长短时记忆)或GRU(Gated Recurrent Unit)单元实现。
基于所述第二分支中的注意力层对所述循环神经网络层的输出进行权重分配,最后第二分支输出所述时间序列的注意力向量output_2。本实施例中基于注意力机制的神经网络模型的结构示意图如图2所示。
在上述实施例的基础上,本实施例中基于所述第一分支中的注意力层对所述第二全连接层的输出进行权重分配,获取所述统计特征的注意力向量的步骤包括:根据所述全连接层输出的统计特征和所述注意力层中的查询向量,计算所述统计特征的注意力分布;
具体地,本实施例中的第一分支和第二分支中都包含了注意力层。注意力层的注意力机制主要用于计算告警消息的统计特征或词向量与某个输出目标值,即某个预设故障原因之间的相关性权重。因此引入一个和训练任务相关的参数,称为查询向量q。通过打分函数来计算每个告警消息的统计特征或词向量与查询向量之间的相关性。注意力机制的计算分为两步,一是在告警消息的所有统计特征或词向量上计算注意力分布,二是根据注意力分布计算统计特征或词向量的加权平均。注意力层的结构示意图如图3所示。
用X=[x1,x2,......,xN]表示输入注意力层的特征向量,并给定一个和训练任务相关的查询向量q,q为可训练的参数。用注意力变量z来表示选择输入向量信息的索引位置,z=n表示选择输入特征向量中的第n个特征。首先计算在给定X和q的情况下,选择输入特征向量中第n个特征的概率p(n):
p(n)=p(z=n|X,q)=softmax(s(x,q));
其中,p(n)即为注意力分布,s(x,q)为注意力打分函数,最后经过softmax函数处理,s(x,q)的计算公式如下:
s(x,q)=xT q;
将所述统计特征的注意力分布和所述第二全连接层输出的统计特征和进行相乘,获取所述统计特征的注意力向量。
在计算完成p(n)后,最后一步是将p(n)与输入向量X相乘,得到注意力层的输出向量Attention_output:
其中,注意力层的输出向量Attention_output即为第一分支中的注意力层输出的output_1和第二分支中的注意力层输出的output_2。
在本发明的另一个实施例中提供一种电信网络故障原因定位装置,该装置用于实现前述各实施例中的方法。因此,在前述电信网络故障原因定位方法的各实施例中的描述和定义,可以用于本发明实施例中各个执行模块的理解。图4为本发明实施例提供的电信网络故障原因定位装置整体结构示意图,该装置包括统计模块401、生成模块402和定位模块403;其中:
统计模块401用于获取目标电信网络设备在历史时间段发出的告警消息,对所有所述告警消息进行统计,获取所述告警消息的统计特征;
其中,目标电信网络设备为需要进行故障原因定位的设备。告警信息为目标电信网络设备故障时在某一时刻或某一历史时间段发出的用于告警的信息。历史时间段的选择为告警消息发出频率较高的某一时间段。告警包括故障告警、动环告警和性能告警。告警消息的统计特征是指对告警信息的某种或某些特征进行统计而获取的统计结果,如每种告警信息的数量等。
生成模块402用于将所有所述告警消息按照发出的时间先后顺序进行拼接,生成所述告警消息的时间序列;
定位模块403用于将所述告警消息的统计特征和时间序列输入基于注意力机制的神经网络模型中,输出所述目标电信网络设备属于每种预设故障原因的概率,将最大概率对应的所述预设故障原因作为所述目标电信网络设备的故障原因;其中,所述基于注意力机制的神经网络模型根据电信网络设备样本发出的告警消息和所述电信网络设备样本的实际故障原因进行训练获取。
基于注意力机制的神经网络模型为在神经网络模型中引入注意力机制的模型,通过构建有监督的基于注意力机制的神经网络模型来训练海量告警消息的特征向量与实际故障原因之间的相关性权重分配,从而实现对故障原因的准确定位。
本实施例通过采集某一时刻或某一历史时间段目标电信网络设备发出的告警信息,对告警信息进行预处理,获取告警信息的统计特征和时间序列,将告警信息的统计特征和时间序列作为基于注意力机制的神经网络模型的输入,即可自动判断出目标电信网络设备所属各种预设故障原因的概率,从而快速准确定位目标电信网络设备的故障原因,提升运维效率,缩短故障处理时长。
在上述实施例的基础上,本实施例中还包括训练模块,用于获取所述电信网络设备样本发出的告警信息和所述电信网络设备样本的故障工单;将所述故障工单中电信网络设备样本的实际故障原因和告警信息进行关联;将关联的电信网络设备样本的实际故障原因和告警信息作为一个样本对,对所述基于注意力机制的神经网络模型进行训练。
在上述实施例的基础上,本实施例中训练模块具体用于:对于所述故障工单中的任一条记录,筛选出与该条记录具有相同电信网络设备样本的编号且发出时间与该条记录中的工单派发时间之间的间隔在预设范围内的告警信息;将该条记录中电信网络设备样本的实际故障原因和筛选出的告警信息进行关联。
在上述实施例的基础上,本实施例中统计模块具体用于:根据所述告警消息的告警标题,统计每种所述告警标题对应的告警消息的条数;根据所述告警消息发出的时间,确定所述目标电信网络设备发生故障的季度、月份、周、日、星期和是否节假日中的一项或多项时间特征;将所述目标电信网络设备的编号、每种所述告警标题对应的告警消息的条数和所述时间特征作为所述告警信息的统计特征。
在上述实施例的基础上,本实施例中定位模块具体用于:将所述告警消息的统计特征输入所述基于注意力机制的神经网络模型中的第一分支,获取所述统计特征的注意力向量;将所述告警消息的时间序列输入所述基于注意力机制的神经网络模型中的第二分支,获取所述时间序列的注意力向量;使用所述基于注意力机制的神经网络模型中的融合层对所述统计特征的注意力向量和所述时间序列的注意力向量进行融合;将融合结果输入所述基于注意力机制的神经网络模型中的第一全连接层后,经过所述基于注意力机制的神经网络模型中的激活层,获取所述目标电信网络设备属于每种预设故障原因的概率。
在上述实施例的基础上,本实施例中定位模块具体用于:基于所述第一分支中的标准化层对所述统计特征进行标准化;基于所述第一分支中的第二全连接层对标准化后的所述统计特征进行特征提取和变换;基于所述第一分支中的注意力层对所述第二全连接层的输出进行权重分配,获取所述统计特征的注意力向量。
在上述实施例的基础上,本实施例中定位模块具体用于:基于所述第二分支中的词向量层将所述告警消息的时间序列转换为词向量;基于所述第二分支中的循环神经网络层对所述词向量进行特征提取和变换;基于所述第二分支中的注意力层对所述循环神经网络层的输出进行权重分配,获取所述时间序列的注意力向量。
在上述实施例的基础上,本实施例中定位模块具体用于:根据所述全连接层输出的统计特征和所述注意力层中的查询向量,计算所述统计特征的注意力分布;将所述统计特征的注意力分布和所述第二全连接层输出的统计特征和进行相乘,获取所述统计特征的注意力向量。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令,以执行如下方法:获取目标电信网络设备在历史时间段发出的告警消息,对所有所述告警消息进行统计,获取所述告警消息的统计特征;将所有所述告警消息按照发出的时间先后顺序进行拼接,生成所述告警消息的时间序列;将所述告警消息的统计特征和时间序列输入基于注意力机制的神经网络模型中,输出所述目标电信网络设备属于每种预设故障原因的概率,将最大概率对应的所述预设故障原因作为所述目标电信网络设备的故障原因。
此外,上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例提供一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行上述各方法实施例所提供的方法,例如包括:获取目标电信网络设备在历史时间段发出的告警消息,对所有所述告警消息进行统计,获取所述告警消息的统计特征;将所有所述告警消息按照发出的时间先后顺序进行拼接,生成所述告警消息的时间序列;将所述告警消息的统计特征和时间序列输入基于注意力机制的神经网络模型中,输出所述目标电信网络设备属于每种预设故障原因的概率,将最大概率对应的所述预设故障原因作为所述目标电信网络设备的故障原因。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种电信网络故障原因定位方法,其特征在于,包括:
获取目标电信网络设备在历史时间段发出的告警消息,对所有所述告警消息进行统计,获取所述告警消息的统计特征;
将所有所述告警消息按照发出的时间先后顺序进行拼接,生成所述告警消息的时间序列;
将所述告警消息的统计特征和时间序列输入基于注意力机制的神经网络模型中,输出所述目标电信网络设备属于每种预设故障原因的概率,将最大概率对应的所述预设故障原因作为所述目标电信网络设备的故障原因;
其中,所述基于注意力机制的神经网络模型根据电信网络设备样本发出的告警消息和所述电信网络设备样本的实际故障原因进行训练获取。
2.根据权利要求1所述的电信网络故障原因定位方法,其特征在于,将所述告警消息的统计特征和时间序列输入基于注意力机制的神经网络模型中,输出所述目标电信网络设备属于每种预设故障原因的概率的步骤之前还包括:
获取所述电信网络设备样本发出的告警信息和所述电信网络设备样本的故障工单;
将所述故障工单中电信网络设备样本的实际故障原因和告警信息进行关联;
将关联的电信网络设备样本的实际故障原因和告警信息作为一个样本对,对所述基于注意力机制的神经网络模型进行训练。
3.根据权利要求2所述的电信网络故障原因定位方法,其特征在于,将所述故障工单中电信网络设备样本的实际故障原因和告警信息进行关联的步骤包括:
对于所述故障工单中的任一条记录,筛选出与该条记录具有相同电信网络设备样本的编号且发出时间与该条记录中的工单派发时间之间的间隔在预设范围内的告警信息;
将该条记录中电信网络设备样本的实际故障原因和筛选出的告警信息进行关联。
4.根据权利要求1所述的电信网络故障原因定位方法,其特征在于,对所有所述告警消息进行统计,获取所述告警消息的统计特征的步骤包括:
根据所述告警消息的告警标题,统计每种所述告警标题对应的告警消息的条数;
根据所述告警消息发出的时间,确定所述目标电信网络设备发生故障的季度、月份、周、日、星期和是否节假日中的一项或多项时间特征;
将所述目标电信网络设备的编号、每种所述告警标题对应的告警消息的条数和所述时间特征作为所述告警信息的统计特征。
5.根据权利要求1所述的电信网络故障原因定位方法,其特征在于,将所述告警消息的统计特征和时间序列输入基于注意力机制的神经网络模型中,输出所述目标电信网络设备属于每种预设故障原因的概率的步骤包括:
将所述告警消息的统计特征输入所述基于注意力机制的神经网络模型中的第一分支,获取所述统计特征的注意力向量;
将所述告警消息的时间序列输入所述基于注意力机制的神经网络模型中的第二分支,获取所述时间序列的注意力向量;
使用所述基于注意力机制的神经网络模型中的融合层对所述统计特征的注意力向量和所述时间序列的注意力向量进行融合;
将融合结果输入所述基于注意力机制的神经网络模型中的第一全连接层后,经过所述基于注意力机制的神经网络模型中的激活层,获取所述目标电信网络设备属于每种预设故障原因的概率。
6.根据权利要求5所述的电信网络故障原因定位方法,其特征在于,将所述告警消息的统计特征输入所述基于注意力机制的神经网络模型中的第一分支,获取所述统计特征的注意力向量的步骤包括:
基于所述第一分支中的标准化层对所述统计特征进行标准化;
基于所述第一分支中的第二全连接层对标准化后的所述统计特征进行特征提取和变换;
基于所述第一分支中的注意力层对所述第二全连接层的输出进行权重分配,获取所述统计特征的注意力向量。
7.根据权利要求5所述的电信网络故障原因定位方法,其特征在于,将所述告警消息的时间序列输入所述基于注意力机制的神经网络模型中的第二分支,获取所述时间序列的注意力向量的步骤包括:
基于所述第二分支中的词向量层将所述告警消息的时间序列转换为词向量;
基于所述第二分支中的循环神经网络层对所述词向量进行特征提取和变换;
基于所述第二分支中的注意力层对所述循环神经网络层的输出进行权重分配,获取所述时间序列的注意力向量。
8.根据权利要求6所述的电信网络故障原因定位方法,其特征在于,基于所述第一分支中的注意力层对所述第二全连接层的输出进行权重分配,获取所述统计特征的注意力向量的步骤包括:
根据所述全连接层输出的统计特征和所述注意力层中的查询向量,计算所述统计特征的注意力分布;
将所述统计特征的注意力分布和所述第二全连接层输出的统计特征和进行相乘,获取所述统计特征的注意力向量。
9.一种电信网络故障原因定位装置,其特征在于,包括:
统计模块,用于获取目标电信网络设备在历史时间段发出的告警消息,对所有所述告警消息进行统计,获取所述告警消息的统计特征;
生成模块,用于将所有所述告警消息按照发出的时间先后顺序进行拼接,生成所述告警消息的时间序列;
定位模块,用于将所述告警消息的统计特征和时间序列输入基于注意力机制的神经网络模型中,输出所述目标电信网络设备属于每种预设故障原因的概率,将最大概率对应的所述预设故障原因作为所述目标电信网络设备的故障原因;
其中,所述基于注意力机制的神经网络模型根据电信网络设备样本发出的告警消息和所述电信网络设备样本的实际故障原因进行训练获取。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述电信网络故障原因定位方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010568169.2A CN113825162A (zh) | 2020-06-19 | 2020-06-19 | 电信网络故障原因定位方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010568169.2A CN113825162A (zh) | 2020-06-19 | 2020-06-19 | 电信网络故障原因定位方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113825162A true CN113825162A (zh) | 2021-12-21 |
Family
ID=78912135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010568169.2A Pending CN113825162A (zh) | 2020-06-19 | 2020-06-19 | 电信网络故障原因定位方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113825162A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114697203A (zh) * | 2022-03-31 | 2022-07-01 | 浙江省通信产业服务有限公司 | 一种网络故障的预判方法、装置、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104518905A (zh) * | 2013-10-08 | 2015-04-15 | 华为技术有限公司 | 一种故障定位方法及装置 |
CN104794136A (zh) * | 2014-01-22 | 2015-07-22 | 华为技术有限公司 | 故障分析方法和装置 |
US20160219067A1 (en) * | 2015-01-28 | 2016-07-28 | Korea Internet & Security Agency | Method of detecting anomalies suspected of attack, based on time series statistics |
US20180115455A1 (en) * | 2015-04-24 | 2018-04-26 | Telefonaktiebolaget Lm Ericsson (Publ) | Fault Diagnosis in Networks |
WO2018076571A1 (zh) * | 2016-10-28 | 2018-05-03 | 南京华苏科技有限公司 | Lte网络中的异常值检测方法及系统 |
CN108664374A (zh) * | 2018-05-17 | 2018-10-16 | 腾讯科技(深圳)有限公司 | 故障告警模型创建方法、装置、故障告警方法及装置 |
CN109117941A (zh) * | 2018-07-16 | 2019-01-01 | 北京思特奇信息技术股份有限公司 | 告警预测方法、系统、存储介质及计算机设备 |
CN110493806A (zh) * | 2018-05-15 | 2019-11-22 | 中国移动通信集团浙江有限公司 | 移动网络投诉溯源方法及装置 |
CN110503247A (zh) * | 2019-08-01 | 2019-11-26 | 中国科学院深圳先进技术研究院 | 电信网络告警预测方法及系统 |
CN110572286A (zh) * | 2019-09-04 | 2019-12-13 | 深圳职业技术学院 | 一种网络设备预警原型系统 |
-
2020
- 2020-06-19 CN CN202010568169.2A patent/CN113825162A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104518905A (zh) * | 2013-10-08 | 2015-04-15 | 华为技术有限公司 | 一种故障定位方法及装置 |
CN104794136A (zh) * | 2014-01-22 | 2015-07-22 | 华为技术有限公司 | 故障分析方法和装置 |
US20160219067A1 (en) * | 2015-01-28 | 2016-07-28 | Korea Internet & Security Agency | Method of detecting anomalies suspected of attack, based on time series statistics |
US20180115455A1 (en) * | 2015-04-24 | 2018-04-26 | Telefonaktiebolaget Lm Ericsson (Publ) | Fault Diagnosis in Networks |
WO2018076571A1 (zh) * | 2016-10-28 | 2018-05-03 | 南京华苏科技有限公司 | Lte网络中的异常值检测方法及系统 |
US20190261204A1 (en) * | 2016-10-28 | 2019-08-22 | Nanjing Howso Technology Co., Ltd | Method and system for abnormal value detection in lte network |
CN110493806A (zh) * | 2018-05-15 | 2019-11-22 | 中国移动通信集团浙江有限公司 | 移动网络投诉溯源方法及装置 |
CN108664374A (zh) * | 2018-05-17 | 2018-10-16 | 腾讯科技(深圳)有限公司 | 故障告警模型创建方法、装置、故障告警方法及装置 |
CN109117941A (zh) * | 2018-07-16 | 2019-01-01 | 北京思特奇信息技术股份有限公司 | 告警预测方法、系统、存储介质及计算机设备 |
CN110503247A (zh) * | 2019-08-01 | 2019-11-26 | 中国科学院深圳先进技术研究院 | 电信网络告警预测方法及系统 |
CN110572286A (zh) * | 2019-09-04 | 2019-12-13 | 深圳职业技术学院 | 一种网络设备预警原型系统 |
Non-Patent Citations (2)
Title |
---|
刘洪波;陈刚;宫钦;: "基于神经网络的通信网络告警关联分析及应用", 电信技术, no. 05, 25 May 2018 (2018-05-25) * |
单文波;陈博伶;钟秋浩;王建新;: "基于终端数据的电信承载网异常节点定位方法", 计算机工程与应用, no. 11, 1 November 2018 (2018-11-01) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114697203A (zh) * | 2022-03-31 | 2022-07-01 | 浙江省通信产业服务有限公司 | 一种网络故障的预判方法、装置、电子设备及存储介质 |
CN114697203B (zh) * | 2022-03-31 | 2023-07-25 | 浙江省通信产业服务有限公司 | 一种网络故障的预判方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112162878B (zh) | 数据库故障发现方法、装置、电子设备及存储介质 | |
CN108470022B (zh) | 一种基于运维管理的智能工单质检方法 | |
CN113497726B (zh) | 告警监控方法、系统、计算机可读存储介质及电子设备 | |
CN113542039A (zh) | 一种通过ai算法定位5g网络虚拟化跨层问题的方法 | |
CN111352759A (zh) | 一种告警根因的判定方法及装置 | |
CN105471647A (zh) | 一种电力通信网故障定位方法 | |
CN112379325A (zh) | 一种用于智能电表的故障诊断方法及系统 | |
CN113676343B (zh) | 电力通信网故障源定位方法及装置 | |
CN114553671A (zh) | 一种电力通信网故障告警的诊断方法 | |
CN109446327B (zh) | 一种移动通信客户投诉的诊断方法及系统 | |
CN113497725A (zh) | 告警监控方法、系统、计算机可读存储介质及电子设备 | |
CN113825162A (zh) | 电信网络故障原因定位方法及装置 | |
CN110582091B (zh) | 定位无线质量问题的方法和装置 | |
CN116562852A (zh) | 基于知识图谱的配网停电信息管理系统 | |
CN114519437B (zh) | 一种基于云的故障诊断分析及报修的微服务方法及系统 | |
CN115438637A (zh) | 一种数据核验方法、装置、电子设备及存储介质 | |
CN116522213A (zh) | 业务状态级别分类及分类模型训练方法、电子设备 | |
Wang et al. | LSTM-based alarm prediction in the mobile communication network | |
CN113807462A (zh) | 一种基于ai的网络设备故障原因定位方法及其系统 | |
CN112416904A (zh) | 电力数据规范化处理方法及装置 | |
CN113537519A (zh) | 一种识别异常设备的方法和装置 | |
CN111709623A (zh) | 高性能计算环境评价方法、装置、电子设备及存储介质 | |
CN116755910B (zh) | 基于冷启动的宿主机高可用预测方法、装置和电子设备 | |
CN116484230B (zh) | 识别异常业务数据的方法及ai数字人的训练方法 | |
CN114492877B (zh) | 一种业务系统的运维分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |