CN112087334B - 告警根因分析方法、电子设备和存储介质 - Google Patents

告警根因分析方法、电子设备和存储介质 Download PDF

Info

Publication number
CN112087334B
CN112087334B CN202010939969.0A CN202010939969A CN112087334B CN 112087334 B CN112087334 B CN 112087334B CN 202010939969 A CN202010939969 A CN 202010939969A CN 112087334 B CN112087334 B CN 112087334B
Authority
CN
China
Prior art keywords
alarm
alarm information
information set
key field
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010939969.0A
Other languages
English (en)
Other versions
CN112087334A (zh
Inventor
邓鑫杰
张�杰
王云川
孔晓晨
姜磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202010939969.0A priority Critical patent/CN112087334B/zh
Publication of CN112087334A publication Critical patent/CN112087334A/zh
Application granted granted Critical
Publication of CN112087334B publication Critical patent/CN112087334B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例涉及运维应用技术领域,公开了一种告警根因分析方法、电子设备和存储介质。上述告警根因分析方法包括:获取网络的告警信息集;其中,所述告警信息集中包括多条告警信息;提取所述多条告警信息中的关键字段,得到所述告警信息集中的各关键字段;确定所述各关键字段的权重系数;根据所述各关键字段,确定所述多条告警信息分别对应的各告警根因;根据所述权重系数和所述各告警根因,确定所述告警信息集对应的最终告警根因。本发明实施例提供的告警根因分析方法,可以考虑不同关键字段对告警根因分析的权重差异,提高告警根因分析的合理性、准确性,减少运维工程师的工作负担。

Description

告警根因分析方法、电子设备和存储介质
技术领域
本发明实施例涉及运维应用技术领域,特别涉及一种告警根因分析方法、电子设备和存储介质。
背景技术
随着计算机技术的高速发展,越来越多的行业向数字化转型,比如通信网络、金融网络和物联网等。网络为了实现这些功能,必然会使网络结构越来越复杂、网络的规模越来越庞大,网元数量也呈指数型增长。告警信息指的是被管理的网元在检测到异常事件时向系统发出的通知,因此网络在运行时每日都会产生拍字节(Petabyte,简称:PB)级的告警信息,运维人员需要对这些告警信息进行根因分析,来解决网络中的故障,维持网络的正常运转。
发明人发现现有技术中至少存在如下问题:现有技术对告警信息进行根因分析时,仅仅简单地对告警信息集中的各告警信息进行关键字段的提取,然后简单地根据这些关键字段,和预先确定好的告警根因类别进行匹配,确定告警根因。事实上,仅仅简单地考虑关键字段会导致告警根因分析结果的合理性、可靠性降低,给运维工程师带来了额外的工作负担。
发明内容
本发明实施方式的目的在于提供一种告警根因分析方法、电子设备和存储介质,可以考虑不同关键字段对告警根因分析的权重差异,提高告警根因分析的合理性、准确性,减少运维工程师的工作负担。
为解决上述技术问题,本发明的实施方式提供了一种告警根因分析方法,包括以下步骤:获取网络的告警信息集;其中,所述告警信息集中包括多条告警信息;提取所述多条告警信息中的关键字段,得到所述告警信息集中的各关键字段;确定所述各关键字段的权重系数;根据所述各关键字段,确定所述多条告警信息分别对应的各告警根因;根据所述权重系数和所述各告警根因,确定所述告警信息集对应的最终告警根因。
本发明的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述告警根因分析方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述告警根因分析方法。
本发明的实施方式相对于现有技术而言,获取网络的告警信息集;其中,所述告警信息集中包括多条告警信息;提取所述多条告警信息中的关键字段,得到所述告警信息集中的各关键字段,对告警信息集中的全部告警信息进行关键字段提取,可以保证告警信息集的完整性,防止遗漏告警信息集中的有效信息。确定所述各关键字段的权重系数;根据所述各关键字段,确定所述多条告警信息分别对应的各告警根因;根据所述权重系数和所述各告警根因,确定所述告警信息集对应的最终告警根因。考虑到现有技术仅仅简单地对告警信息集中的各告警信息进行关键字段的提取,并将这些关键字段视为同等重要考虑,事实上,各关键字段所代表的含义不同,对告警根因分析的重要性也不同,将各关键字段视为同等重要进行分析,会造成告警根因分析结果的合理性、准确性降低。而本发明的实施方式考虑了不同关键字段对告警根因分析的重要性差异,为各关键字段赋予相应的权重系数,结合权重系数进行告警信息集的最终告警根因分析,可以提高告警根因分析结果的合理性、准确性,减少运维工程师的工作负担。
另外,确定所述各关键字段的权重系数,包括:确定所述各关键字段在所述告警信息集中的频数。事实上,网络出现全面故障的可能性不大,基本上是网络中的某一部分出现故障,此部分的网元向系统发出告警信息,反映在本方法中就是某些关键字段在告警信息集中出现的频率较高,确定各关键字段在告警信息集中的频数可以很好地考虑当前网络的实际情况。确定所述各关键字段的基础权重系数;根据所述频数和所述基础权重系数,确定所述各关键字段的权重系数,可以进一步提高告警根因分析的合理性、准确性。
另外,确定所述各关键字段在所述告警信息集中的频数,包括:若所述关键字段在所述告警信息集中的频数小于预设的频数下限值,将所述关键字段对应的告警信息移出所述告警信息集,设置频数下限值,可以排除掉偶然发生的误报、错报等情况,防止告警根因分析出现偏差。
另外,确定所述各关键字段在所述告警信息集中的频数,包括:若所述关键字段在所述告警信息集中的频数大于预设的频数上限值,将所述频数上限值作为所述关键字段在所述告警信息集中的频数。当频数达上限值时,关键字段的权重系数分配已经足够,设置频数上限值,可以防止因某关键字段出现次数过高而造成权重系数分配过大,从而进一步提高告警根因分析的合理性。
另外,根据所述权重系数和所述各告警根因,确定所述告警信息集对应的最终告警根因,包括:根据所述权重系数和所述各告警根因,获得所述告警信息集的特征矩阵,可以将各数字特征组合成特征矩阵,使用矩阵这个工具,可以有效提高数据处理的效率,使告警信息集的特征更加直观。根据用于预估不同告警根因的概率的根因分析模型和所述特征矩阵,预估所述告警信息集分属不同告警根因的概率;根据所述告警信息集分属不同告警根因的概率,确定所述告警信息集对应的最终告警根因,使用机器学习模型进行告警根因分析可以提高告警根因分析的普遍适用性。
另外,根据所述权重系数和所述各告警根因,获得所述告警信息集的特征矩阵,包括:确定所述各告警根因的基础分值;根据所述权重系数和所述基础分值,确定所述各告警根因的权重得分;根据所述权重得分,获得所述告警信息集的特征矩阵。在权重系数的基础上,根据网络的实际应用情况给各告警根因配置基础分值,进一步考虑各告警根因的重要性,使得告警根因分析的结果更加合理、准确。
另外,获取网络的告警信息集,包括:若所述网络在预设时间内产生超过预设数量阈值的告警信息,获取所述预设时间内产生的全部告警信息;根据所述预设时间内产生的全部告警信息,组成所述告警信息集。考虑到实际情况,网络可能出现告警信息误报的情况,或者某些告警信息实际对网络的运行没有影响的情况,获取预设时间内产生的超过预设数量阈值的告警信息,可以使告警根因分析更有价值,解决网络实时发生的故障,快速判断最终告警根因,提高运维人员的工作效率。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定。
图1是根据本发明第一实施方式的告警根因分析方法的流程图;
图2是根据本发明第二实施方式的告警根因分析方法的流程图;
图3是根据本发明第二实施方式中,根据各关键字段在告警信息集中的频数和基础权重系数,确定各关键字段的权重系数的子步骤的流程图;
图4是根据本发明第三实施方式的告警根因分析方法的流程图;
图5是根据本发明第三实施方式中,根据权重系数和各告警根因,获得告警信息集的特征矩阵的子步骤的流程图;
图6是根据本发明第四实施方式的获取网络的告警信息集的流程图;
图7是根据本发明第五实施方式的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
本发明的第一实施方式涉及一种告警根因分析方法,应用于电子设备;其中,电子设备可以为终端或服务器,本实施方式以及以下个各个实施方式中电子设备以服务器为例进行说明。下面对本实施方式的告警根因分析方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。
本发明的实施方式需要进行告警根因分析的网络可以为:用于金融交易、市场监管等领域的金融网络、用于将各个孤立的设备连接起来进行信息交换的通信网路、用于将各种信息传感设备与互联网结合起来的物联网(The Internet of Things,简称IOT)等。发出告警信息的网络中的网元可以是虚拟机、应用、服务、模块、子模块、函数等软件,也可以是基站、终端、中继、交换机、磁盘、硬盘、接口、传感器等硬件,本实施例对网元的形态和功能不做具体限定。
本实施方式的告警根因分析方法的具体流程可以如图1所示,包括:
步骤101,获取网络的告警信息集;
具体而言,在进行告警根因分析时,服务器获取需要进行告警分析的网络的告警信息集,其中,告警信息集中包括多条告警信息。
在具体实现中,服务器可以从系统日志中获取告警信息集。当网元检测到异常情况发生时,向系统发出告警信息,发出告警信息的网元即告警源,告警信息可以被记录在系统日志中,其记录内容可以包括但不限于:用于定位发出告警的告警源的标识、告警信息的内容描述、告警的发生时间等。服务器找到系统日志中记录告警信息的内容,根据时间跨度获取一定数量的告警信息,作为待进行告警根因分析的告警信息集。
在一个例子中,需要进行告警分析的网络为通信网络,通信网络的某一部分在8点15分至8点25分发生大面积异常情况,该部分的部分网元向系统发出告警信息,这些告警信息记录在该通信网络的系统日志中,服务器找到系统日志中记录这些告警信息的内容,根据8点15分至8点25分内发生的告警信息,组成待进行告警根因分析的告警信息集。
步骤102,提取多条告警信息中的关键字段,得到告警信息集中的各关键字段;
具体而言,服务器在获取待进行告警根因分析的告警信息集后,可以基于正则表达式,使用自然语言处理工具包(Natural Language Toolkit,简称NTLK)、jieba库等自然语言处理(natural language processing,简称:NLP)算法,从告警信息集中的每一条告警信息中提取关键字段,得到告警信息集中的各关键字段,使用自然语言处理算法从告警信息中提取关键字段,可以节约人工资源的投入,提高提取效率。
在一个例子中,需要进行告警分析的网络为金融网络,基于正则表达式,使用NTLK技术,从告警信息集中的每一条告警信息中提取关键字段。比如:某一条告警信息为“用户登录接口不可用”,提取出的关键字段为“接口.*不可用”。
在另一个例子中,需要进行告警分析的网络为通信网络,基于正则表达式,在jieba库中寻找与各告警信息匹配的各关键字段,即从告警信息集中的每一条告警信息中提取关键字段。比如:某一条告警信息为“交换机地址Ping失败”,确定的关键字段为“交换机.*Ping”。
步骤103,确定各关键字段的权重系数;
具体而言,服务器在得到告警信息集中的各关键字段之后,会考虑各关键字段对告警根因分析重要性的影响,确定各关键字段的权重系数。
在具体实现中,服务器可以根据预存的关键字段与权重系数之间的对应关系,确定各关键字段的权重系数。其中,预存的关键字段与权重系数之间的对应关系,可以由运维工作人员基于历史告警信息和丰富的告警处理经验,并结合当前网络进行设定。另外,这些对应关系预存在服务器中,在确定权重系数时服务器调用这些对应关系,这些对应关系可以以“特征表”、“配置库”等形式预存,本发明的实施方式对此不做具体限定。由于这些对应关系来自于经验丰富的运维工作人员,符合告警根因分析的规则,具有很高的可靠性。
在一个例子中,关键字段与权重系数之间的对应关系以“特征表”的形式预存在服务器中,“特征表”的内容包括但不限于:关键字段的全称、权重系数。比如:交换机.*Ping,权重系数0.05;接口.*不可用,权重系数0.08等。
步骤104,根据各关键字段,确定多条告警信息分别对应的各告警根因;
具体而言,服务器可以根据各关键字段,确定各关键字段对应的告警根因,也就是确定告警信息集中每一条告警信息对应的告警根因。
在具体实现中,服务器可以根据预存的关键字段与告警根因之间的对应关系,确定各关键字段的告警根因,即多条告警信息分别对应的告警根因,其中,确定的多条告警信息对应的各告警根因,可以用基于独热编码的真值向量来表示,向量的维度即告警根因的个数。本发明的实施方法可以将难以进行处理的文字特征转换成容易进行处理的数字特征,可以提高了告警信息的处理效率,从而提高运维人员的工作效率。
在一个例子中,需要进行告警分析的网络为金融网络,造成金融网络发生故障的原因,即告警根因有5个:网络故障、业务故障、数据库故障、服务器故障和线路故障。这些告警根因与关键字段的对应关系以“特征表”的形式预存在服务器中,“特征表”的内容包括但不限于关键字段的全称、权重系数和告警根因,用基于独热编码的真值向量表示,即[1,0,0,0,0]表示网络故障,[0,1,0,0,0]表示业务故障,[0,0,1,0,0]表示数据库故障,[0,0,0,1,0]表示服务器故障,[0,0,0,0,1]表示线路故障。比如:交换机.*Ping,权重系数0.05,[1,0,0,0,0];接口.*不可用,权重系数0.08,[0,1,0,0,0]。
需要说明的是,步骤103和步骤104没有先后顺序之分,本实施例只是以先执行步骤103后执行步骤104为例,在具体实现中,步骤103和步骤104的执行顺序并不以此为限。
步骤105,根据权重系数和各告警根因,确定告警信息集对应的最终告警根因。
具体而言,服务器根据各关键字段对应的权重系数和告警信息集中的各告警根因,确定整个告警信息集对应的最终告警根因。
在一个例子中,服务器以表的形式输出告警信息集的各关键字段对应的权重系数、多条告警信息对应的告警根因给运维工作人员,运维人员根据表中的权重系数考虑各关键字段的的重要程度,也就是考虑各告警根因的重要程度,使用逻辑推理等技术确定告警信息集对应的最终告警根因,比如将权重系数最大的关键字段对应的告警根因作为最终告警根因。
本发明的第一实施方式相对于现有技术而言,获取网络的告警信息集;其中,所述告警信息集中包括多条告警信息;提取所述多条告警信息中的关键字段,得到所述告警信息集中的各关键字段,对告警信息集中的全部告警信息进行关键字段提取,可以保证告警信息集的完整性,防止遗漏告警信息集中的有效信息。确定所述各关键字段的权重系数;根据所述各关键字段,确定所述多条告警信息分别对应的各告警根因;根据所述权重系数和所述各告警根因,确定所述告警信息集对应的最终告警根因。考虑到现有技术仅仅简单地对告警信息集中的各告警信息进行关键字段的提取,并将这些关键字段视为同等重要考虑,事实上,各关键字段所代表的含义不同,对告警根因分析的重要性也不同,将各关键字段视为同等重要进行分析,会造成告警根因分析结果的合理性、准确性降低。而本发明的实施方式考虑了不同关键字段对告警根因分析的重要性差异,为各关键字段赋予相应的权重系数,结合权重系数进行告警信息集的最终告警根因分析,可以提高告警根因分析结果的合理性、准确性,减少运维工程师的工作负担。
本发明的第二实施方式涉及一种告警根因分析方法,下面对本实施方式的告警根因分析方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须,图2是第二实施方式所述的告警根因分析方法的示意图,包括:
步骤201,获取网络的告警信息集;
步骤202,提取告警信息集中多条告警信息中的关键字段;
其中,步骤201至步骤202在第一实施方式中已有说明,此处不再赘述。
步骤203,确定各关键字段在告警信息集中的频数;
具体而言,服务器提取出告警信息集中多条告警信息的关键字段后,可以确定各关键字段在告警信息集中的频数,事实上,网络出现全面故障的可能性不大,基本上是网络中的某一部分出现故障,此部分的网元向系统发出告警信息,反映在本方法中就是某些关键字段在告警信息集中的频率较高,确定各关键字段在告警信息集中的频数可以很好地考虑当前网络的实际情况。
在一个例子中,需要进行告警分析的网络为金融网络,服务器获取该金融网络的告警信息集,该告警信息集中包括50条告警信息,在告警信息集中共提取出18种关键字段,其中,“接口.*不可用”在告警信息集中出现8次,服务器记录“接口.*不可用”的频数为8。
步骤204,确定各关键字段的基础权重系数;
具体而言,服务器在得到告警信息集中的各关键字段之后,会考虑各关键字段对告警根因分析重要性的影响,确定各关键字段的基础权重系数。
在具体实现中,服务器可以根据预存的关键字段与基础权重系数之间的对应关系,确定各关键字段的基础权重系数。其中,预存的关键字段与基础权重系数之间的对应关系,可以由运维工作人员基于历史告警信息和丰富的告警处理经验,并结合当前网络进行设定。
在一个例子中,关键字段与基础权重系数之间的对应关系以“特征表”的形式预存在服务器中,“特征表”的内容包括但不限于:关键字段的全称、基础权重系数。比如:交换机.*Ping,基础权重系数0.01;接口.*不可用,基础权重系数0.02等。
需要说明的是,步骤203和步骤204没有先后顺序之分,本实施例只是以先执行步骤203后步骤204为例,在具体实现中,步骤203和步骤204的执行顺序并不以此为限。
步骤205,根据各关键字段在告警信息集中的频数和基础权重系数,确定各关键字段的权重系数;
具体而言,服务器根据各关键字段在告警信息集中的频数和确定的基础权重系数,计算各关键字段的权重系数。
在一个例子中,需要进行告警分析的网络为金融网络,服务器记录关键字段“接口.*不可用”在告警信息集中的频数为11,“接口.*不可用”的基础权重系数为0.02,服务器计算“接口.*不可用”的权重系数为:11×0.02=0.22。
在另一个例子中,根据各关键字段在告警信息集中的频数和基础权重系数,确定各关键字段的权重系数可以由如图3所示的各子步骤实现:
子步骤2051,判断关键字段在告警信息集中的频数是否小于预设的频数下限值;如果是,则执行步骤2052,否则执行步骤2053;
其中,预设的频数下限值可以由本领域的运维工作人员根据实际需要进行设置,本实施方式对此不做具体限定。比如,以金融网络为例:“接口.*不可用”对于金融网络的根因分析比较重要,可设置3次为频数下限值;“存活进程数”对于金融网络的根因分析重要较低,可设置6次为频数下限值。
子步骤2052,将该关键字段对应的告警信息移出告警信息集;
具体而言,服务器判断某关键字段在告警信息集中的频数小于预设的频数下限值,可以将与该关键字段对应的告警信息移出告警信息集。设置频数下限值,可以排除掉偶然发生的误报、错报等情况,防止告警根因分析出现偏差。
在一个例子中,需要进行告警分析的网络为金融网络,某条告警信息为“数据库进程数量不等于2”,提取该条告警信息的关键字段为:“数据库.*进程”。“数据库.*进程”对应的频数下限值为6,服务器确定“数据库.*进程”在告警信息集中的频数为1,小于预设的频数下限值。服务器判断“数据库.*进程”对应的告警信息“数据库进程数量不等于2”不需考虑,将该条告警信息移出告警信息集。
子步骤2053,判断关键字段在告警信息集中的频数频数是否大于预设的频数频数上限值;如果是,则执行步骤2054,否则直接执行步骤2055;
其中,预设的频数上限值可以由本领域的运维工作人员根据实际需要进行设置,本实施方式对此不做具体限定。比如,以金融网络为例:“接口.*不可用”对于金融网络的根因分析比较重要,可设置10次为频数上限值;“存活进程数”对于金融网络的根因分析重要较低,可设置6次为频数上限值。
子步骤2054,将频数上限值作为该关键字段在告警信息集中的频数;
具体而言,服务器判断某关键字段在告警信息集中的频数大于预设的频数上限值,可以将该频数上限值作为该关键字段在告警信息集中的频数。设置频数上限值可以防止因某关键字段出现次数过高而造成权重系数分配过大而不利于告警根因分析。
在一个例子中,需要进行告警分析的网络为金融网络,“接口.*不可用”对应的频数上限值为10次,服务器确定“接口.*不可用”在告警信息集中的频数为11次,大于预设的频数上限值,服务器将10次作为“接口.*不可用”在告警信息集中的频数。
子步骤2055,根据各关键字段在告警信息集中的频数和基础权重系数,确定各关键字段的权重系数;
具体而言,服务器根据各关键字段在告警信息集中的频数和确定的基础权重系数,计算各关键字段的权重系数。
在一个例子中,需要进行告警分析的网络为金融网络,服务器确定关键字段“接口.*不可用”在告警信息集中的频数为10,“接口.*不可用”的基础权重系数为0.02,服务器计算“接口.*不可用”的权重系数为:10×0.02=0.2。
步骤206,根据各关键字段,确定多条告警信息分别对应的各告警根因;
步骤207,根据权重系数和各告警根因,确定告警信息集对应的最终告警根因。
其中,步骤206至步骤207在第一实施方式中已有说明,此处不再赘述。
本发明的第二实施方式相对于现有技术而言,确定所述各关键字段的权重系数,包括:确定所述各关键字段在所述告警信息集中的频数。事实上,网络出现全面故障的可能性不大,基本上是网络中的某一部分出现故障,此部分的网元向系统发出告警信息,反映在本方法中就是某些关键字段在告警信息及中的频率较高,确定各关键字段在告警信息集中的频数可以很好地考虑当前网络的实际情况。确定所述各关键字段在所述告警信息集中的频数,包括:若所述关键字段在所述告警信息集中的频数小于预设的频数下限值,将所述关键字段对应的告警信息移出所述告警信息集,设置频数下限值,可以排除掉偶然发生的误报、错报等情况,防止告警根因分析出现偏差。若所述关键字段在所述告警信息集中的频数大于预设的频数上限值,将所述频数上限值作为所述关键字段在所述告警信息集中的频数。当频数达上限值时,关键字段的权重系数分配已经足够,设置频数上限值可以防止因某关键字段出现次数过高而造成权重系数分配过大,从而提高告警根因分析的合理性。确定所述各关键字段的基础权重系数;根据所述频数和所述基础权重系数,确定所述各关键字段的权重系数,可以进一步提高告警根因分析的合理性、准确性。
本发明的第三实施方式涉及一种告警根因分析方法,下面对本实施方式的告警根因分析方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须,图4是第三实施方式所述的告警根因分析方法的示意图,包括:
步骤301,获取网络的告警信息集;
步骤302,提取告警信息集中多条告警信息中的关键字段;
步骤303,确定各关键字段的权重系数;
步骤304,根据各关键字段,确定多条告警信息分别对应的各告警根因;
其中,步骤301至步骤304在第一实施方式中已有说明,此处不再赘述。
步骤305,根据权重系数和各告警根因,获得告警信息集的特征矩阵;
具体而言,服务器确定多条告警信息分别对应的各告警根因的过程,就是将文字特征转化成数字特征的过程,而综合考虑权重系数和各告警根因的过程,就是将各数字特征组合成特征矩阵的过程。使用矩阵这个工具,可以有效提高数据处理的效率,使告警信息集的特征更加直观。
在一个例子中,服务器用[1,0,0,0,0]表示网络故障,权重系数为0.1;用[0,1,0,0,0]表示业务故障,权重系数为0.5;用[0,0,1,0,0]表示数据库故障,权重系数为0;用[0,0,0,1,0]表示服务器故障,权重系数为0.05;用[0,0,0,0,1]表示线路故障,权重系数为0,则服务器获得特征矩阵为:
Figure BDA0002673293510000101
在另一个例子中,根据权重系数和各告警根因,获得告警信息集的特征矩阵可以由如图5所示的各子步骤实现:
子步骤3051,确定各告警根因的基础分值;
在具体实现中,服务器可以确定各告警根因的基础分值。其中,基础分值可以由本领域的运维工作人员根据应用网络和各告警根因对本网络影响的重要性,预先进行设置,并随各告警根因保存在预设的对应关系中。
在一个例子中,服务器设置网络故障的基础分值为90分,业务故障的基础分值为100分,数据库故障的基础分值为70分,服务器故障的基础分值为80分,线路故障的基础分值为60分。
子步骤3052,根据权重系数和基础分值,确定各告警根因的权重得分;
具体而言,服务器确定各关键字段对应的权重系数和多条告警信息对应的各告警根因后,结合各告警根因的基础分值,计算出个告警根因的权重得分。
在一个例子中,服务器设置网络故障的基础分值为90分,确定权重系数为0.1,计算出权重得分为9分;业务故障的基础分值为100分,确定权重系数为0.5,计算出权重得分为50分;数据库故障的基础分值为70分,确定权重系数为0,计算出权重得分为0分;服务器故障的基础分值为80分,确定权重系数为0.05,计算出权重得分为4分;线路故障的基础分值为60分,确定权重系数为0,计算出权重得分为0分。
子步骤3053,根据权重得分,获得告警信息集的特征矩阵;
具体而言,服务器根据权重得分,获得告警信息集的特征矩阵也就是将各数字特征组合成特征矩阵。
在一个例子中,服务器计算出网络故障[1,0,0,0,0]的权重得分为9分,业务故障[0,1,0,0,0]的权重得分为50分,数据库故障[0,0,1,0,0]的权重得分为0分,服务器故障[0,0,0,1,0]的权重得分为4分,线路故障[0,0,0,0,1]的权重得分为0分,则服务器获得特征矩阵为:
Figure BDA0002673293510000111
步骤306,根据用于预估不同告警根因的概率的根因分析模型和特征矩阵,预估告警信息集分属不同告警根因的概率;
其中,根因分析模型用于预估告警信息集分属不同告警根因的概率,根因分析模型可以预先根据若干标注有不同告警根因的告警信息集训练得到。该模型可以是用于做多分类预测的广义线性模型,比如逻辑回归模型、线性支持向量分类器(linear SupportVector Classifier,简称:linearSVC)、轻型梯度助推器(light Gradient BoostingMachine,简称:lightGBM)等。
在一个例子中,服务器使用逻辑回归模型对告警信息集进行预测,具体构建公式如下:
Figure BDA0002673293510000112
x=(α1x1,α2x2,...,αnxn)——(2)
k=1,2,...,N-1——(3)
其中,公式(1)表示当预测结果属于k类别告警根因时的概率,θ表示模型参数,y表示预测输出的类别标签,即最终告警根因,x表示输入的特征矩阵,αi表示权重系数,i=1,2,…,n表示第i维特征,N表示告警根因的类别总数。
步骤307,根据告警信息集分属不同告警根因的概率,确定告警信息集对应的最终告警根因。
具体而言,服务器获得告警信息集分属不同告警根因的概率后,将概率大于预设的概率阈值的保留并输出,运维工作人员将概率最大的告警根因作为告警信息集对应的最终告警根因。预设的概率阈值可由本领域的运维工作人员进行设定,事实上网络中的故障由小于预设的概率阈值的告警根因导致的可能性很小,几乎不可能,设置预设的概率阈值可以提升告警根因分析的合理性。
在一个例子中,服务器确定预设的概率阈值为3%,根因分析模型的输出为,数据库故障概率83%,业务故障概率15%,线路故障概率2%,则服务器只输出数据库故障概率83%,业务故障概率15%,运维工作人员判断该告警信息集的最终告警根因为数据库故障。
在具体实现中,服务器还可以将告警信息集中的所有告警信息作为新的训练样本,加入到根因分析模型的训练集中,对根因分析模型进行迭代训练,得到更新的根因分析模型。
本发明的第三实施方式相对于现有技术而言,根据所述权重系数和所述各告警根因,确定所述告警信息集对应的最终告警根因,包括:根据所述权重系数和所述各告警根因,获得所述告警信息集的特征矩阵,可以将各数字特征组合成特征矩阵,使用矩阵这个工具,可以有效提高数据处理的效率,使告警信息集的特征更加直观。根据所述权重系数和所述各告警根因,获得所述告警信息集的特征矩阵,包括:确定所述各告警根因的基础分值;根据所述权重系数和所述基础分值,确定所述各告警根因的权重得分;根据所述权重得分,获得所述告警信息集的特征矩阵。在权重系数的基础上,根据网络的实际应用情况给各告警根因配置基础分值,进一步考虑各告警根因的重要性,使得告警根因分析的结果更加合理、准确。根据用于预估不同告警根因的概率的根因分析模型和所述特征矩阵,预估所述告警信息集分属不同告警根因的概率;根据所述告警信息集分属不同告警根因的概率,确定所述告警信息集对应的最终告警根因,使用机器学习模型进行告警根因分析可以提高告警根因分析的普遍适用性。
本发明的第四实施方式涉及一种告警根因分析方法,下面对本实施方式的告警根因分析方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须,图6是第四实施方式所述的获取网络的告警信息集的示意图,包括:
步骤401,判断网络在预设时间内是否产生超过预设数量阈值的告警信息;如果是,则执行步骤402,否则返回步骤401继续等待;
其中,预设时间和预设数量阈值可以由本领域的运维工作人员根据实际需要进行设置,本实施方式对此不做具体限定。比如:网络在最近5分钟产生超过15条告警信息、网络在最近10分钟产生超过25条告警信息等。
步骤402,获取该预设时间内产生的全部告警信息;
具体而言,服务器检测到网络在预设时间内产生超过预设数量阈值的告警信息,可以获取该预设时间内产生的全部告警信息,与传统的在系统日志中获取告警信息相比,可实时获取告警信息,提升运维的效率。
在一个例子中,服务器检测到网络在最近5分钟产生了“数据库进程数量不等于2”、“数据库端口down”、“数据库延时时间无法获取”、“用户登录接口不可用”、“业务响应时间大于800毫秒”等27条告警信息,超过预设数量阈值即15条告警信息,服务器截获这27条告警信息并做后续处理。
在另一个例子中,服务器可以从告警管理平台中获取告警信息,告警管理平台是集中管理各告警信息的平台。当网络中的网元发出告警信息时,告警管理平台可以监听并截获这些告警信息,并进行统一储存管理。告警管理平台在最近5分钟获取了23条告警信息,超过预设数量阈值即18条告警信息,向服务器输送这23条告警信息并做后续处理。
步骤403,根据预设时间内产生的全部告警信息,组成告警信息集。
在一个例子中,服务器可以将预设时间内产生的全部告警信息,组成告警信息集。
在另一个例子中,服务器可以获取预设时间内产生的全部告警信息,对每一条告警信息与预设的黑名单进行比对,舍弃符合黑名单内容的告警信息,根据保留的告警信息组成该网络该预设时间内的告警信息集。其中,预设的黑名单可由本领域的运维工作人员根据实际情况进行设定。
需要说明的是,本实施例也可以是在第二实施例、第三实施例基础上的改进。
本发明的第四实施方式相对于现有技术而言,获取网络的告警信息集,包括:若所述网络在预设时间内产生超过预设数量阈值的告警信息,获取所述预设时间内产生的全部告警信息;根据所述预设时间内产生的全部告警信息,组成所述告警信息集。可以实时获取告警信息,实时对告警信息集做出判断,快速判断最终告警根因,提高运维人员的工作效率。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第五实施方式涉及一种电子设备,如图7所示,包括:至少一个处理器501;以及,与所述至少一个处理器501通信连接的存储器502;其中,所述存储器502存储有可被所述至少一个处理器501执行的指令,所述指令被所述至少一个处理器501执行,以使所述至少一个处理器501能够执行上述各实施方式中的告警根因分析方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本发明第六实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (8)

1.一种告警根因分析方法,其特征在于,包括:
获取网络的告警信息集;其中,所述告警信息集中包括多条告警信息;
提取所述多条告警信息中的关键字段,得到所述告警信息集中的各关键字段;
确定所述各关键字段的权重系数;
根据所述各关键字段,确定所述多条告警信息分别对应的各告警根因;
根据所述权重系数和所述各告警根因,确定所述告警信息集对应的最终告警根因;
所述确定所述各关键字段的权重系数,包括:
根据预存的关键字段与权重系数之间的对应关系,确定所述各关键字段的权重系数,所述预存的关键字段与权重系数之间的对应关系基于历史告警信息、预设的告警处理经验和所述网络得到;
所述根据所述权重系数和所述各告警根因,确定所述告警信息集对应的最终告警根因,包括:
确定所述各告警根因的基础分值,所述基础分值基于所述网络得到;
根据所述权重系数和所述基础分值,确定所述各告警根因的权重得分;
根据所述权重得分,获得所述告警信息集的特征矩阵;
根据用于预估不同告警根因的概率的根因分析模型和所述特征矩阵,预估所述告警信息集分属不同告警根因的概率;
将概率大于预设概率阈值的告警根因输出,并将概率最大的告警根因作为所述告警信息集对应的最终告警根因。
2.根据权利要求1所述的告警根因分析方法,其特征在于,所述确定所述各关键字段的权重系数,包括:
确定所述各关键字段在所述告警信息集中的频数;
确定所述各关键字段的基础权重系数;
根据所述频数和所述基础权重系数,确定所述各关键字段的权重系数。
3.根据权利要求1所述的告警根因分析方法,其特征在于,所述获取网络的告警信息集,包括:
若所述网络在预设时间内产生超过预设数量阈值的告警信息,获取所述预设时间内产生的全部告警信息;
根据所述预设时间内产生的全部告警信息,组成所述告警信息集。
4.根据权利要求2所述的告警根因分析方法,其特征在于,所述确定所述各关键字段在所述告警信息集中的频数,包括:
若所述关键字段在所述告警信息集中的频数大于预设的频数上限值,将所述频数上限值作为所述关键字段在所述告警信息集中的频数。
5.根据权利要求2所述的告警根因分析方法,其特征在于,所述确定所述各关键字段在所述告警信息集中的频数,包括:
若所述关键字段在所述告警信息集中的频数小于预设的频数下限值,将所述关键字段对应的告警信息移出所述告警信息集。
6.根据权利要求2所述的告警根因分析方法,其特征在于,确定所述各关键字段的基础权重系数,包括:
根据预存的关键字段与基础权重系数之间的对应关系,确定所述各关键字段的基础权重系数。
7.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一所述的告警根因分析方法。
8.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的告警根因分析方法。
CN202010939969.0A 2020-09-09 2020-09-09 告警根因分析方法、电子设备和存储介质 Active CN112087334B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010939969.0A CN112087334B (zh) 2020-09-09 2020-09-09 告警根因分析方法、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010939969.0A CN112087334B (zh) 2020-09-09 2020-09-09 告警根因分析方法、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN112087334A CN112087334A (zh) 2020-12-15
CN112087334B true CN112087334B (zh) 2022-10-18

Family

ID=73731669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010939969.0A Active CN112087334B (zh) 2020-09-09 2020-09-09 告警根因分析方法、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112087334B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112770197A (zh) * 2020-12-31 2021-05-07 深圳前海微众银行股份有限公司 确定otn设备故障原因的方法、装置、设备、存储介质
CN113204672B (zh) * 2021-04-28 2024-03-19 北京达佳互联信息技术有限公司 资源展示方法、装置、计算机设备及介质
CN113298638B (zh) * 2021-05-12 2023-07-14 深圳前海微众银行股份有限公司 根因定位方法、电子设备及存储介质
CN113326161B (zh) * 2021-06-01 2024-02-06 深圳前海微众银行股份有限公司 根因分析方法
CN113542037B (zh) * 2021-09-14 2022-01-28 杭州海康威视数字技术股份有限公司 物联网环境下基于根因分析的告警多维关联方法及装置
CN113780597B (zh) * 2021-09-16 2023-04-07 睿云奇智(重庆)科技有限公司 影响传播关系模型构建和告警影响评估方法、计算机设备、存储介质
CN116627695B (zh) * 2023-05-24 2024-05-14 北京优特捷信息技术有限公司 一种告警事件根因推荐方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108271176A (zh) * 2016-12-30 2018-07-10 中国移动通信集团福建有限公司 确定基站小区质差根因的方法和系统
CN109617745A (zh) * 2019-01-11 2019-04-12 云智慧(北京)科技有限公司 告警预测方法、装置、系统及存储介质
CN109840157A (zh) * 2017-11-28 2019-06-04 中国移动通信集团浙江有限公司 故障诊断的方法、装置、电子设备和存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7092707B2 (en) * 2004-02-13 2006-08-15 Telcordia Technologies, Inc. Service impact analysis and alert handling in telecommunications systems
CN111106944B (zh) * 2018-10-26 2023-01-03 中国移动通信有限公司研究院 一种故障告警信息处理方法及设备
CN109634819B (zh) * 2018-10-26 2022-02-01 创新先进技术有限公司 告警根因定位方法和装置、电子设备
CN110309009B (zh) * 2019-05-21 2022-05-13 北京云集智造科技有限公司 基于情境的运维故障根因定位方法、装置、设备及介质
CN110351118B (zh) * 2019-05-28 2020-12-01 华为技术有限公司 根因告警决策网络构建方法、装置和存储介质
CN110635952B (zh) * 2019-10-14 2021-03-16 中兴通讯股份有限公司 通信系统的故障根因分析方法、系统和计算机存储介质
CN111563022B (zh) * 2020-05-12 2023-09-05 中国民航信息网络股份有限公司 一种集中式存储器监控方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108271176A (zh) * 2016-12-30 2018-07-10 中国移动通信集团福建有限公司 确定基站小区质差根因的方法和系统
CN109840157A (zh) * 2017-11-28 2019-06-04 中国移动通信集团浙江有限公司 故障诊断的方法、装置、电子设备和存储介质
CN109617745A (zh) * 2019-01-11 2019-04-12 云智慧(北京)科技有限公司 告警预测方法、装置、系统及存储介质

Also Published As

Publication number Publication date
CN112087334A (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN112087334B (zh) 告警根因分析方法、电子设备和存储介质
EP3796176B1 (en) Fault root cause analysis method and apparatus
US11586981B2 (en) Failure analysis device, failure analysis method, and failure analysis program
CN111866016A (zh) 日志的分析方法及系统
CN113590370A (zh) 一种故障处理方法、装置、设备及存储介质
CN113298638A (zh) 根因定位方法、电子设备及存储介质
CN113656252B (zh) 故障定位方法、装置、电子设备以及存储介质
CN111147306B (zh) 一种物联网设备的故障分析方法、装置以及物联网平台
CN116418653A (zh) 基于多指标根因定位算法的故障定位方法及装置
CN113282920B (zh) 日志异常检测方法、装置、计算机设备和存储介质
CN116074183B (zh) 一种基于规则引擎的c3超时分析方法、装置及设备
CN110781232A (zh) 数据处理方法、装置、计算机设备和存储介质
WO2023103344A1 (zh) 一种数据处理方法、装置、设备及存储介质
CN110838940A (zh) 地下电缆巡检任务配置方法和装置
CN110582091B (zh) 定位无线质量问题的方法和装置
CN114385398A (zh) 一种请求响应状态确定方法、装置、设备和存储介质
CN112307271A (zh) 一种配电自动化系统遥控业务的安全监测方法及装置
WO2024027127A1 (zh) 故障检测方法、装置、电子设备及可读存储介质
CN112560992B (zh) 优化图片分类模型的方法、装置、电子设备及存储介质
CN116112203B (zh) 基于风险模型的网络通信风险预测方法及装置
WO2024125173A1 (zh) 一种网元故障处理方法、装置、存储介质及电子装置
JP7302668B2 (ja) レベル推定装置、レベル推定方法、および、レベル推定プログラム
WO2024139937A1 (zh) 一种基于边缘计算的直播拉流监测方法及装置
CN115879166A (zh) 数据识别方法、装置、电子设备以及存储介质
CN118094531A (zh) 一种安全运维实时预警一体化系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant