CN105812177B - 一种网络故障处理方法和处理设备 - Google Patents

一种网络故障处理方法和处理设备 Download PDF

Info

Publication number
CN105812177B
CN105812177B CN201610130621.0A CN201610130621A CN105812177B CN 105812177 B CN105812177 B CN 105812177B CN 201610130621 A CN201610130621 A CN 201610130621A CN 105812177 B CN105812177 B CN 105812177B
Authority
CN
China
Prior art keywords
log
information
fault
log information
network equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610130621.0A
Other languages
English (en)
Other versions
CN105812177A (zh
Inventor
宋跃忠
谭屯子
林程勇
高随祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201610130621.0A priority Critical patent/CN105812177B/zh
Publication of CN105812177A publication Critical patent/CN105812177A/zh
Application granted granted Critical
Publication of CN105812177B publication Critical patent/CN105812177B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种网络故障处理方法和处理设备,涉及数据挖掘和网络管理领域,解决了现有网络故障处理过程中网络故障处理效率较低,不能快速及时的排除网络故障的问题。包括:处理设备确定第一网络设备的第一故障模式集合,将第一故障模式集合与故障根因信息库中的故障模式集合进行匹配;若故障根因信息库中存在与第一故障模式集合相匹配的第二故障模式集合,则采用与第二故障模式集合相对应的故障处理信息对第一网络设备发生的故障进行处理;否则,将第一故障模式集合反馈给工程技术人员,由工程技术人员根据第一故障模式集合确定故障处理措施,并将故障处理后的故障处理信息、以及第一故障模式集合对应记录在故障根因信息库中。

Description

一种网络故障处理方法和处理设备
技术领域
本发明涉及数据挖掘和网络管理领域,尤其涉及一种网络故障处理方法和处理设备。
背景技术
随着网络技术的发展,宽带路由器在网络中的应用变得越来越广泛,且在网络中占据重要地位。然后,宽带路由器在运行过程中难免会出现故障,当宽带路由器出现故障时,若不及时确定故障发生原因,排除故障,则会导致网络出现暂时性的中断,给企业带来诸多不便及损失,因此,及时确定网络故障发生原因并排除宽带路由器的故障是很有必要的。
由于,宽带路由器产生的日志中包含了大部分和宽带路由器运行相关的信息,因此,现有技术人员可以通过分析日志来处理宽带路由器故障发生的原因,根据故障发生原因排除宽带路由器的故障。但是,在实现本发明的过程中,技术人员发现:当前网络故障处理多采用人工分析日志的方式,在处理过程中人为参与的部分较多,需要投入大量的人力和专家知识积累,网络故障处理效率较低,不能快速及时的排除网络故障。
发明内容
为解决上述问题,本发明实施例提供一种网络故障处理方法和处理设备,以解决现有网络故障处理过程中,需要投入大量的人力和专家知识积累,导致网络故障处理效率较低,不能快速及时的排除网络故障的问题。
为达到上述目可选的,本发明的实施例采用如下技术方案:
第一方面,本发明实施例提供一种网络故障处理方法,所述方法可以包括:
处理设备确定第一网络设备的第一故障模式集合;
将所述第一故障模式集合与故障根因信息库中的故障模式集合进行匹配;所述故障根因信息库包含:至少一个故障处理信息、以及与所述至少一个故障处理信息一一对应的故障模式集合;
若所述故障根因信息库中存在第二故障模式集合,所述第二故障模式集合与所述第一故障模式集合相匹配,则所述处理设备采用与所述第二故障模式集合相对应的故障处理信息对所述第一网络设备发生的故障进行处理。
如此,当对网络设备进行故障处理时,可以根据网络设备发生故障时的故障模式,直接从故障根因信息库中,选出与该故障模式相对应的处理信息,采用该处理信息对网络故障进行处理,不需要通过工程师对故障模式的分析来确定故障原因和处理措施,大大提升了网络故障处理效率,缩短网络故障恢复时间,避免了现有网络故障处理过程中,需要投入大量的人力和专家知识积累,导致网络故障处理效率较低,不能快速及时的排除网络故障的问题。
在第一方面的一种可实现方式中,可以将第一故障模式集分别与故障根因信息库中的每个故障模式集合进行差异度计算,将差异度最大的故障模式集确定为与第一故障模式集相匹配的故障模式集,具体实现如下:
对于所述第二故障模式集合,将所述第一故障模式集合与所述第二故障模式集合进行匹配可以包括:
获取所述第一故障模式集合和所述第二故障模式集合包含的相同故障模式的个数M;
以及,所述第一故障模式集合和所述第二故障模式集合包含的故障模式的总个数N;
若所述大于或等于第一预设阈值,则确定所述第二故障模式集合与所述第一故障模式集合相匹配;
若所述小于第一预设阈值,则确定所述第二故障模式集合与所述第一故障模式集合不匹配。
在第一方面的第二种可实现方式中,所述确定第一网络设备的第一故障模式集合可以包括:
获取所述第一网络设备在第一时间段内产生的第一日志信息集;所述第一日志信息集包含:至少一条日志信息;每条日志信息包含:日志发生时间以及日志内容;
查询日志类别库,确定所述第一日志信息集中每条日志信息的类别标识;所述日志类别库包含:至少一个类别标识,以及与所述至少一个类别标识一一对应的类文件,所述类文件包含:至少一条日志内容;
用日志信息的类别标识代替日志信息,形成一个由类别标识组成的时间序列;
根据预设分析策略对所述时间序列进行故障根因分析,获取Q个根因日志组合,每个根因日志组合包含R类根因日志,其中,Q为大于或等于1的整数,R为大于或等于1的整数,所述预设分析策略为:预先确定的网络设备发生故障时日志发生的规律;
将所述Q个根因日志组合的集合确定为所述第一网络设备的第一故障模式集合。
其中,所述日志类别库主要用于对复杂的网络日志信息中的同类日志进行统一编号保存,以便后续分析处理;所述日志类别库可以由处理设备根据离线日志信息预先建立,也可以由其他设备预先建立并存储在公共服务器上供所述处理设备共享,本发明实施例对此不进行限定,本发明仅以日志类别库由处理设备根据离线日志信息预先建立为例进行说明。具体的,处理器可以采用下述方法建立日志类别库:
收集第二日志信息集;所述第二日志信息集为:至少一个第二网络设备中在第二时间段内产生的日志信息的集合,所述第二日志信息集包含:至少一条日志信息,每条日志信息包含:日志发生时间以及日志内容;
对所述第二日志信息中的每条日志信息的日志内容进行规范化处理;
通过层次聚类法对规范化处理后的日志信息进行归类,获取每个日志信息的类别标识;
遍历每个日志信息的类别标识,将属于同一类别标识的日志信息中的日志内容存放在一个类文件中;
将类文件、以及类文件对应的类别标识对应记录起来,形成所述日志类别库。
在第一方面的又一种可实现方式中,对于第一日志信息集中的第一日志信息,所述查询日志类别库,确定所述第一日志信息的类别标识可以包括:
计算所述第一日志信息的日志内容与所述日志类别库中的每个日志内容间的差异度;
获取计算出的差异度中的最小差异度;所述最小差异度为:所述第一日志信息的日志内容与所述日志类别库中的第一日志内容间的差异度;
若最小差异度小于或等于第二预设阈值,则将所述第一日志内容对应的类别标识确定为所述第一日志信息的类别标识,并将所述第一日志信息的日志内容添加到所述第一日志内容所在的类文件中。
此外,在第一方面的又一种可实现方式中,由于网络设备产生的日志信息的种类不断增长,旧的日志类别库可能不完全包含待处理日志信息中所包含的日志类型,因此,为了保证日志类别库中包含的日志种类为最新的,需要不断的动态扩展日志类别库,具体实现如下:
若所述最小差异度大于所述第二预设阈值,则用第一类别标识作为所述第一日志信息的类别标识,所述第一类别标识为:除所述日志类别库中至少一个类别标识之外的类别标识;
并将所述第一类别标识、以及所述第一日志信息的日志内容对应记录到所述日志类别库中。
此外,由于网络设备产生的故障日志信息的种类不断增长,旧的故障根因信息库可能不完全包含待处理故障日志所包含的故障类型,因此,在第一方面的再一种可实现方式中,为了保证故障根因信息库中包含的故障种类为最新的,需要不断的动态扩展故障根因信息库,具体实现如下:
若所述故障根因信息库中不存在与所述第一故障模式集合相匹配的故障模式集合,则将所述第一故障模式集合反馈给工程技术人员,由工程技术人员根据所述第一故障模式集合确定故障处理措施,对所述第一网络设备进行故障处理;
并将故障处理后的故障处理信息、以及所述第一故障模式集合对应记录在所述故障根因信息库中。
如此,可以实现动态更新故障根因信息库。
第二方面,本发明实施例还提供一种处理设备,所述处理器可以包括:
确定单元,用于确定第一网络设备的第一故障模式集合;每个故障模式集合包含:至少一个故障模式,每个故障模式包含:至少一类根因日志;所述根因日志为:所述第一网络设备发生故障时产生的日志信息;
匹配单元,用于将所述确定单元确定的第一故障模式集合与故障根因信息库中的故障模式集合进行匹配;所述故障根因信息库包含:至少一个故障处理信息、以及与所述至少一个故障处理信息一一对应的故障模式集合;
故障处理单元,用于若所述故障根因信息库中存在第二故障模式集合,所述第二故障模式集合与所述第一故障模式集合相匹配,则采用与所述第二故障模式集合相对应的故障处理信息对所述第一网络设备发生的故障进行处理。
如此,当对网络设备进行故障处理时,可以根据网络设备发生故障时的故障模式,直接从故障根因信息库中,选出与该故障模式相对应的处理信息,采用该处理信息对网络故障进行处理,不需要通过工程师对故障模式的分析来确定故障原因和处理措施,大大提升了网络故障处理效率,缩短网络故障恢复时间,避免了现有网络故障处理过程中,需要投入大量的人力和专家知识积累,导致网络故障处理效率较低,不能快速及时的排除网络故障的问题。
在第二方面的一种可实现方式中,可以将第一故障模式集合分别与故障根因信息库中的每个故障模式集合进行差异度计算,将差异度最大的故障模式集合确定为与第一故障模式集合相匹配的故障模式集合,具体的,对于所述第二故障模式集合,所述匹配单元用于:
获取所述第一故障模式集合和所述第二故障模式集合包含的相同故障模式的个数M;
以及,所述第一故障模式集合和所述第二故障模式集合包含的故障模式的总个数N;
若所述大于或等于第一预设阈值,则确定所述第二故障模式集合与所述第一故障模式集合相匹配;
若所述小于第一预设阈值,则确定所述第二故障模式集合与所述第一故障模式集合不匹配。
在第二方面的第二种可实现方式中,所述确定单元用于:
获取所述第一网络设备在第一时间段内产生的第一日志信息集;所述第一日志信息集包含:至少一条日志信息;每条日志信息包含:日志发生时间以及日志内容;
查询日志类别库,确定所述第一日志信息集中每条日志信息的类别标识;所述日志类别库包含:至少一个类别标识,以及与所述至少一个类别标识一一对应的类文件,所述类文件包含:至少一条日志内容;
用日志信息的类别标识代替日志信息,形成一个由类别标识组成的时间序列;
根据预设分析策略对所述时间序列进行故障根因分析,获取Q个根因日志组合,每个根因日志组合包含R类根因日志,其中,Q为大于或等于1的整数,R为大于或等于1的整数,所述预设分析策略为:预先确定的网络设备发生故障时日志发生的规律;
将所述Q个根因日志组合的集合确定为所述第一网络设备的第一故障模式集合。
其中,所述日志类别库主要用于对复杂的网络日志信息中的同类日志进行统一编号保存,以便后续分析处理;所述日志类别库可以由处理设备根据离线日志信息预先建立,也可以由其他设备预先建立并存储在公共服务器上供所述处理设备共享,本发明实施例对此不进行限定,本发明仅以日志类别库由处理设备根据离线日志信息预先建立为例进行说明。具体的,所述处理设备还包括:
第一建立单元,用于在所述确定单元查询日志类别库之前,收集第二日志信息集;所述第二日志信息集为:至少一个第二网络设备中在第二时间段内产生的日志信息的集合,所述第二日志信息集包含:至少一条日志信息,每条日志信息包含:日志发生时间以及日志内容;
对所述第二日志信息中的每条日志信息的日志内容进行规范化处理;
通过层次聚类法对规范化处理后的日志信息进行归类,获取每个日志信息的类别标识;
遍历每个日志信息的类别标识,将属于同一类别标识的日志信息中的日志内容存放在一个类文件中;
将类文件、以及类文件对应的类别标识对应记录起来,形成所述日志类别库。
在第二方面的又一种可实现方式中,对于第一日志信息集中的第一日志信息,所述确定单元用于:
计算所述第一日志信息的日志内容与所述日志类别库中的每个日志内容间的差异度;
获取计算出的差异度中的最小差异度;所述最小差异度为:所述第一日志信息的日志内容与所述日志类别库中的第一日志内容间的差异度;
若最小差异度小于或等于第二预设阈值,则将所述第一日志内容对应的类别标识确定为所述第一日志信息的类别标识,并将所述第一日志信息的日志内容添加到所述第一日志内容所在的类文件中。
此外,在第二方面的又一种可实现方式中,由于网络设备产生的日志信息的种类不断增长,旧的日志类别库可能不完全包含待处理日志信息中所包含的日志类型,因此,为了保证日志类别库中包含的日志种类为最新的,需要不断的动态扩展日志类别库,具体的,所述确定单元还用于:
若所述最小差异度大于所述第二预设阈值,则用第一类别标识作为所述第一日志信息的类别标识,所述第一类别标识为:除所述日志类别库中至少一个类别标识之外的类别标识;
并将所述第一类别标识、以及所述第一日志信息的日志内容对应记录到所述日志类别库中。
此外,由于网络设备产生的故障日志信息的种类不断增长,旧的故障根因信息库可能不完全包含待处理故障日志所包含的故障类型,因此,在第二方面的再一种可实现方式中,为了保证故障根因信息库中包含的故障种类为最新的,需要不断的动态扩展故障根因信息库,具体的,所述故障处理单元还用于:
若所述故障根因信息库中不存在与所述第一故障模式集合相匹配的故障模式集合,则将所述第一故障模式集合反馈给工程技术人员,由工程技术人员根据所述第一故障模式集合确定故障处理措施,对所述第一网络设备进行故障处理;
并将故障处理后的故障处理信息、以及所述第一故障模式集合对应记录在所述故障根因信息库中。
如此,可以实现自适应的完善故障根因信息库。
需要说明的是,第二方面中的确定单元、匹配单元、故障处理单元、第一建立单元、第二建立单元可以为单独设立的处理器,也可以集成在处理设备的某一个处理器中实现,此外,也可以以程序代码的形式存储于处理设备的存储器中,由处理设备的某一个处理器调用并执行以上确定单元、确定单元、匹配单元、故障处理单元、第一建立单元、第二建立单元的功能。这里所述的处理器可以是一个中央处理器(Central Processing Unit,CPU),或者是特定集成电路(Application Specific Integrated Circuit,ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
由上可知,本发明实施例提供一种网络故障处理方法和处理设备,处理设备确定第一网络设备的第一故障模式集合,将所述第一故障模式集合与故障根因信息库中的故障模式集合进行匹配,若所述故障根因信息库中存在第二故障模式集合,所述第二故障模式集合与所述第一故障模式集合相匹配,则所述处理设备采用与所述第二故障模式集合相对应的故障处理信息对所述第一网络设备发生的故障进行处理。如此,可以将处理过的故障模式及其对应的处理信息存储在故障根因信息库中,当对网络设备进行故障处理时,可以根据网络设备发生故障时的故障模式,直接从故障根因信息库中,选出与该故障模式相对应的处理信息,采用该处理信息对网络故障进行处理,不需要通过工程师对故障模式的分析来确定故障原因和处理措施,大大提升了网络故障处理效率,缩短网络故障恢复时间,避免了现有网络故障处理过程中,需要投入大量的人力和专家知识积累,导致网络故障处理效率较低,不能快速及时的排除网络故障的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的网络故障处理的原理框图;
图2为本发明实施例提供的处理设备20的结构图;
图3为本发明实施例提供的网络故障处理方法的流程图;
图4为本发明实施例提供的处理设备30的结构图。
具体实施方式
本发明的基本原理是:根据历史存储的网络故障下产生的故障模式及其故障分析结果,建立完善的故障模式与故障处理信息信息库,对于网络设备当前故障下产生的日志信息,确定其故障模式,将确定出的故障模式与信息库中的故障模式比对,找到故障库中与之最相似的故障模式(相似程度高于一定阈值),采用此模式对应的故障处理信息对网络设备当前产生的故障进行处理。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的网络故障处理的原理框图,如图1所示,获取多个网络设备产生的离线日志,将这些离线日志合并在一起进行规范化处理,将规范化处理后的日志进行聚类,建立日志类别库,然后,根据日志类别库确定每个网络设备产生的日志信息所属类别,根据日志类别进行故障时间定位和故障模式提取,并将故障模式和故障处理信息对应记录在故障根因信息库中,当对网络设备的在线日志进行分析时,可以根据日志类别库先对网络设备产生的日志进行归类,并对归类后的日志信息进行分析处理,获取该网络设备的故障模式,将获取到的故障模式与故障根因信息库中的故障模式比对,找到与之最相似的故障模式,采用此模式对应的故障处理信息对该网络设备当前产生的故障进行处理。
其中,本发明提供的网络故障处理方法可由图2所示的处理设备20执行,用于对至少一个网络设备10进行故障分析和处理。所述处理设备20可以为:交换机、路由器、网管设备、Web(网页)服务器、软件定义网络(Software Defined Network,SDN)控制器等设备中的任一种设备。
可选的,如图2所示,所述处理设备20可以包括:处理器2011、存储器2012、接收器2013、发送器2014以及至少一个通信总线2015,用于实现这些装置之间的连接和相互通信;
接收器2013可用于与外部网元之间进行数据交互,如:收集网络设备10产生的日志信息。
存储器2012,可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);或者非易失性存储器(non-volatile memory),例如只读存储器(read-only memory,ROM),快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者上述种类的存储器的组合。
处理器2011可能是一个中央处理器(central processing unit,简称为CPU),也可以是特定集成电路(Application Specific Integrated Circuit,ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路,例如:一个或多个微处理器(digitalsingnal processor,DSP),或,一个或者多个现场可编程门阵列(Field ProgrammableGate Array,FPGA)。
发送器2014可用于与外部网元之间进行数据交互,如:可以为一人机交互界面,用于将处理器2011处理后的结果反馈给检测人员。
通信总线2015可以分为地址总线、数据总线、控制总线等,可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。为便于表示,图2中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
具体的,处理器2011可以确定网络设备10发生故障时的第一故障模式集合,将所述第一故障模式集合与故障根因信息库中的故障模式集合进行匹配,若所述故障根因信息库中存在与所述第一故障模式集合相匹配的第二故障模式集合,则处理器2011采用与所述第二故障模式集合相对应的故障处理信息对所述第一网络设备发生的故障进行处理;否则,则将第一故障模式集合反馈给工程师,由工程师根据第一故障模式集合对网络故障进行分析处理。
其中,故障模式集合可以包含至少一个故障模式,故障模式可以包含至少一类根因日志,根因日志为网络设备10发生故障时产生的日志信息;所述故障根因信息库可以预先建立,包含预先处理过的一些故障模式集合、以及与故障模式集合相对应的故障处理信息;所述故障处理信息可以为:工程师根据故障模式集合对网络故障进行分析处理后的信息集合,如:故障问题、故障处理方式等信息。
如此,可以将处理过的故障模式及其对应的处理信息存储在故障根因信息库中,当对网络设备进行故障处理时,可以根据网络设备发生故障时的故障模式,直接从故障根因信息库中,选出与该故障模式相对应的处理信息,采用该处理信息对网络故障进行处理,不需要通过工程师对故障模式的分析来确定故障原因和处理措施,大大提升了网络故障处理效率,缩短网络故障恢复时间,避免了现有网络故障处理过程中,需要投入大量的人力和专家知识积累,导致网络故障处理效率较低,不能快速及时的排除网络故障的问题。
为了便于描述,以下实施例一以步骤的形式示出并详细描述了本发明中处理设备20执行的网络故障处理方法,其中,示出的步骤也可以在除处理设备20之外的诸如一组可执行指令的计算机系统中执行,如:本发明所述的方法还可以由网络设备10执行,即图2所示的处理设备20中包含的执行本发明提供的方法的单元也可以包含在网络设备10中,由网络设备10执行本发明提供的网络故障处理方法。此外,虽然在图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
图3为本发明实施例提供的网络故障处理方法的流程图,由图2所示的处理设备20执行,用于对图2中的网络设备10进行网络故障处理,如图3所示,所述方法可以包括:
S101:确定第一网络设备的第一故障模式集合;每个故障模式集合包含:至少一个故障模式,每个故障模式包含:至少一类根因日志;所述根因日志为:所述第一网络设备发生故障时产生的日志信息。
其中,日志信息可以为第一网络设备在一时间段内的活动行为的记录信息,每条日志信息描述了第一网络设备一次单独的活动行为,每条日志信息可以包含:网络设备执行事件的时间戳、主机或模块名、事件级别、信息简介、事件消息等信息。可选的,处理设备可以通过现有日志扫描抓取技术获取第一网络设备产生的日志信息,如:可以通过网络爬虫技术获取网络设备的日志信息,在此不再详细赘述。
可选的,所述确定第一网络设备的第一故障模式集合可以包括:
获取所述第一网络设备在第一时间段内产生的第一日志信息集;所述第一日志信息集包含:至少一条日志信息;每条日志信息包含:日志发生时间以及日志内容;
查询日志类别库,确定所述第一日志信息集中每条日志信息的类别标识;所述日志类别库包含:至少一个类别标识,以及与所述至少一个类别标识一一对应的类文件,所述类文件包含:至少一条日志内容;
用日志信息的类别标识代替日志信息,形成一个由类别标识组成的时间序列;
根据预设分析策略对所述时间序列进行故障根因分析,获取Q个根因日志组合,每个根因日志组合包含R类根因日志,其中,Q为大于或等于1的整数,R为大于或等于1的整数,所述预设分析策略为:预先确定的网络设备发生故障时日志发生的规律;
将所述Q个根因日志组合的集合确定为所述第一网络设备的第一故障模式集合。
其中,所述第一时间段可以为:从所述第一网络设备的故障时间点之前的第一时刻到所述故障时间点之后的第二时刻之间的时间段,所述从所述故障时间点到第一时刻的时长、以及从所述故障时间点到第二时刻的时长可以根据需要进行设置,本发明实施例对此不进行限定,本发明仅以获取故障时间点附近的日志信息为原则,来确定第一时刻和第二时刻。例如:可以获取故障时间点之前20分钟的日志信息、以及故障时间点之后40分钟的日志信息,将获取到的日志信息作为第一时间段内的第一日志信息集;还可以仅获取故障时间点之后一时间段内(如60分钟内)的日志信息,将获取到的日志信息作为第一日志信息集。
所述故障时间点可以为第一网络设备发生故障的时间点,由于在一时间段内,网络设备可能会发生多次故障,因此,该故障时间点可以指第一网络设备任意一次发生故障的时间点。可选的,可以采用现有方法确定第一网络设备的故障时间点;也可以采用下述方法确定第一网络设备的故障时间点:对第一网络设备在第一时间段内产生的至少一条日志信息进行处理,得到包含X个日志行为向量的第一日志行为矩阵,对X个日志行为向量进行分析,将日志频率和日志种类发生突变的日志行为向量对应的时间间隔确定为所述第一网络设备的故障时间点,或者,将日志行为模式发生变化的日志行为向量对应的时间间隔确定为所述第一网络设备的故障时间点;其中,每个日志行为向量占用一个时间间隔,每个日志行为向量包含Y个元素;所述Y为日志类型的个数,所述日志行为向量中的第y个元素表示:在所述日志行为向量的时间间隔内且属于第y类的日志信息的个数;所述预设模型用于:筛选出符合网络设备发生故障时的行为特征的日志行为向量。
所述日志类别库主要用于对复杂的网络日志信息中的同类日志进行统一编号保存,以便后续分析处理;所述日志类别库可以由处理设备根据离线日志信息预先建立,也可以由其他设备预先建立并存储在公共服务器上供所述处理设备共享,本发明实施例对此不进行限定,本发明仅以日志类别库由处理设备根据离线日志信息预先建立为例进行说明。具体的,处理器可以采用下述方法建立日志类别库:
收集第二日志信息集;所述第二日志信息集为:至少一个第二网络设备中在第二时间段内产生的日志信息的集合,所述第二日志信息集包含:至少一条日志信息,每条日志信息包含:日志发生时间以及日志内容;
对所述第二日志信息中的每条日志信息的日志内容进行规范化处理;
通过层次聚类法对规范化处理后的日志信息进行归类,获取每个日志信息的类别标识;
遍历每个日志信息的类别标识,将属于同一类别标识的日志信息中的日志内容存放在一个类文件中;
将类文件、以及类文件对应的类别标识对应记录起来,形成所述日志类别库。
其中,至少一个第二网络设备可以包含第一网络设备,也可以不包括第一网络设备。所述对所述第二日志信息中的每条日志信息的日志内容进行规范化处理可以包括:提取日志内容,去掉日志内容中网络协议(Internet Protocol,IP)地址、用户名等用于表征日志信息所属的网络设备的特征信息,以便将不同网络设备产生的日志信息混在一起进行分析。
所述层次聚类为人工智能中的经典算法,采用q-gram算法的聚类分析工具来衡量字符串相似程度,将q-gram距离作为不同日志间的差异度量值,可以采用层次聚类的方法对规范化处理后的每条日志信息进行归类,其中,对规范化处理后的每条日志信息进行聚类,通过调整聚类参数q,得到最优的日志类型数;其中,q值的不同会导致相似结果的差异,从大量的实验上看,在本发明中q优选取3,此值对日志聚类结果的影响不大,具体实现不再赘述。
例如,若通过层次聚类后生成200类日志信息,则可以将200类日志信息的日志内容分别对应存到类文件1.txt、2.txt……200.txt中,其中在1.txt存储日志内容可以包括:“The status of the PWE VC turned UP”、“The status of the PWE VC turned DOWN”等不同的但属于此类别的日志内容。
可选的,所述查询日志类别库,确定所述第一日志信息集中每条日志信息的类别标识可以包括:
计算所述第一日志信息的日志内容与所述日志类别库中的每个日志内容间的差异度;
获取计算出的差异度中的最小差异度;所述最小差异度为:所述第一日志信息的日志内容与所述日志类别库中的第一日志内容间的差异度;
若最小差异度小于或等于第二预设阈值,则将所述第一日志内容对应的类别标识确定为所述第一日志信息的类别标识,并将所述第一日志信息的日志内容添加到所述第一日志内容所在的类文件中。
需要说明的是,当最小差异度为0时,则表示第一日志信息的日志内容与第一日志内容完全相同,不用将所述第一日志信息的日志内容添加到所述第一日志内容所在的类文件中。
此外,由于网络设备产生的日志信息的种类不断增长,旧的日志类别库可能不完全包含待处理日志信息中所包含的日志类型,因此,为了保证日志类别库中包含的日志种类为最新的,需要不断的动态扩展日志类别库,具体实现如下:
若所述最小差异度大于所述第二预设阈值,则用第一类别标识作为所述第一日志信息的类别标识,所述第一类别标识为:除所述日志类别库中至少一个类别标识之外的类别标识;
并将所述第一类别标识、以及所述第一日志信息的日志内容对应记录到所述日志类别库中,以便动态更新日志类别库。
其中,所述第二预设阈值可以需要进行设置,本发明实施例对此不进行限定。若最小差异度小于或等于第二预设阈值,则表示第一日志内容与第一日志信息的日志内容比较相似,若最小差异度大于第二预设阈值,则表示第一日志内容与第一日志信息的日志内容不相似,且日志类别库中没有与第一日志信息的日志内容相似的日志内容。所述差异度可以用日志内容与日志内容间的q-gram距离值来表示,最小差异度则为计算出的众多q-gram距离值中的最小q-gram距离值。
例如,若最小q-gram距离值为0,则用最小q-gram距离值对应的日志内容所在的类别标识作为第一日志信息的类别标识;若其值大于0但小于或等于第二预设阈值,则用该值对应的日志内容所在的类别标识作为第一日志信息的类别标识,并将第一日志信息的日志内容添加到类别库的该类中;若其值大于第二预设阈值,则在日志类别库中创建一个新类(类别标识可以为当前日志类别库中的类别标识编号加1),将第一日志信息的日志内容添加到新建的类别中去,如:若当前日志类别库中包含200类,则新建的类别可以为201类。
由于,网络设备在故障发生时可能会产生至少一类日志信息(即根因日志),且这些类日志信息在故障时间点附近的出现呈现比较明显的特征规律,如:故障发生时产生的至少一类日志信息通常会组合在一起在故障点附近重复且不间断的出现;或者,故障发生时产生的一类日志信息通常在比较长的一时间段内频繁出现,且在故障时间点处呈突然增多的趋势,所以,在本发明实施例中,所述根据预设分析策略对所述时间序列进行故障根因分析,获取Q个根因日志组合,每个根因日志组合包含R类根因日志可以包括:
将所述时间序列分为i个不同的日志组合;每个日志组合包含至少一个类别标识,且所述每个日志组合包含的类别标识各不相同,所述i为大于或等于1的整数;
遍历所述i个日志组合,确定所述i个日志组合中在所述第一时间段内频繁且持续出现的至少一个根因日志组合;对所述至少一个日志组合进行处理,获取Q个根因日志组合。
或者,确定所述时间序列中每个类别标识对应的日志信息的异常值;所述异常值用于表示:日志信息在第三时间段内发生的频繁程度和突变程度,所述第三时间段包含所述第一时间段;
从得到的多个异常值中获取前Q个最大异常值,将Q个最大异常值对应的Q类日志信息确定为Q个根因日志组合;需要说明的是,此方式中R为1。
S102:将所述第一故障模式集合与故障根因信息库中的故障模式集合进行匹配;所述故障根因信息库包含:至少一个故障处理信息、以及与所述至少一个故障处理信息一一对应的故障模式集合。
可选的,对于故障根因信息库中第二故障模式集合,所述第二故障模式集合为故障根因信息库中的任一故障模式集合,所述将所述第一故障模式集合与第二故障模式集合进行匹配可以包括:
获取所述第一故障模式集合和所述第二故障模式集合包含的相同故障模式的个数M;
以及,所述第一故障模式集合和所述第二故障模式集合包含的故障模式的总个数N;
若所述大于或等于第一预设阈值,则确定所述第二故障模式集合与所述第一故障模式集合相匹配;
若所述小于第一预设阈值,则确定所述第二故障模式集合与所述第一故障模式集合不匹配。
其中,第一预设阈值可以根据进行设置,本发明实施例对此不进行限定,表示第一故障模式集合和第二故障模式集合之间的相似度,大于或等于第一预设阈值可以表示第一故障模式集合和第二故障模式集合比较相似,小于第一预设阈值可以表示第一故障模式集合和第二故障模式集合不相似。需要说明的是,所述第一故障模式集合和所述第二故障模式集合包含的故障模式的总个数N是指:所述第一故障模式集合和所述第二故障模式集合包含的不重复的故障模式的总个数。
所述故障根因信息库主要用于对网络设备发生故障时的同类故障根因日志及其处理信息进行统一保存,以便后续在线指导故障的解决方法;所述故障根因信息库可以由处理设备根据离线故障日志信息预先建立,也可以由其他设备预先建立并存储在公共服务器上供所述处理设备共享,本发明实施例对此不进行限定,本发明仅以故障根因信息库由处理设备根据离线故障日志信息预先建立为例进行说明。具体的,处理器可以采用下述方法建立故障根因信息库:
收集至少一个第三网络设备中每个第三网络设备在故障时间点段内产生的日志信息集、及其故障处理信息,所述日志信息集包含:至少一条日志信息,每条日志信息包含:日志发生时间以及日志内容;
对于每个第三网络设备,查询所述日志类别库,确定所述第三网络设备产生的日志信息集中每条日志信息的类别标识,并用日志信息的类别标识代替日志信息,形成一个由类别标识组成的时间序列,根据预设分析策略对所述时间序列进行故障根因分析,确定所述第三网络设备的故障模式集合;
将每个第三网络设备的故障模式集合、及其故障处理信息对应记录起来,形成所述故障根因信息库。
其中,第三网络设备可以包含第一网络设备,也可以不包含第一网络设备。
需要说明的是,上述“查询所述日志类别库,确定所述第三网络设备产生的日志信息集中每条日志信息的类别标识,并用日志信息的类别标识代替日志信息,形成一个由类别标识组成的时间序列,根据预设分析策略对所述时间序列进行故障根因分析,确定所述第三网络设备的故障模式集合”的详细过程与S101中确定第一网络设备的第一故障模式集合的具体方式相同,在此不再一一赘述。
此外,为了提高建立故障根因信息库的效率,可以直接查看日志类别库,从日志类别库中获取各个第二网络设备在故障时间段内产生的日志信息的类别标识,对于任一第二网络设备,将获取到在故障时间段内的类别标识组成时间序列,根据预设分析策略对该时间序列进行故障根因分析,确定第二网络设备的故障模式集合,最后,将获取到的至少一个第二网络设备的故障模式集合及其故障处理信息对应记录起来,形成故障根因信息库。
例如:假设故障根因信息库如下表1所示,第一预设阈值为1/2,第一网络设备的第一故障模式集合为:(1,100,500,2000)、(1,2)、(22,100),将第一故障模式集合与LogFile1对应的故障模式集合(1,2)、(22,100)、(1,100,500)进行比较,二者包含4个不重样的故障模式(1,100,500)、(1,2)、(22,100)、(1,100,500,2000),且具有2个相同的故障模式(1,2)、(22,100),则二者的相似度为:2/4;同理,得到第一故障模式集合与LogFile2~LogFile5对应的故障模式集合间的相似度分别为:1/5、0、0、0,在5个相似度2/4、1/5、0、0、0中,仅有第一故障模式集合与LogFile1对应的故障模式集合间的相似度2/4等于第一预设阈值1/2,则确定第一故障模式集合与LogFile1对应的故障模式集合相匹配,用LogFile1对应的故障处理信息“故障1,采用方式1进行处理”对第一网络设备产生的故障进行处理。
表1
可理解的是,为了确保故障处理的准确性,当第一网络设备的第一故障模式集合与故障根因信息库中的至少一个故障模式集合间的相似度均大于或等于第一预设阈值时,可以选取故障根因信息库中与相似度最大的故障模式集合对应的故障处理信息对第一网络设备进行故障处理。
S103:若所述故障根因信息库中存在第二故障模式集合,所述第二故障模式集合与所述第一故障模式集合相匹配,则所述处理设备采用与所述第二故障模式集合相对应的故障处理信息对所述第一网络设备发生的故障进行处理。
此外,由于网络设备产生的故障日志信息的种类不断增长,旧的故障根因信息库可能不完全包含待处理故障日志所包含的故障类型,因此,为了保证故障根因信息库中包含的故障种类为最新的,需要不断的动态扩展故障根因信息库,具体实现如下:
若所述故障根因信息库中不存在与所述第一故障模式集合相匹配的故障模式集合,则将所述第一故障模式集合反馈给工程技术人员,由工程技术人员根据所述第一故障模式集合确定故障处理措施,对所述第一网络设备进行故障处理;
并将故障处理后的故障处理信息、以及所述第一故障模式集合对应记录在所述故障根因信息库中。
由上可知,本发明实施例提供一种网络故障处理方法,处理设备确定第一网络设备的第一故障模式集合,将所述第一故障模式集合与故障根因信息库中的故障模式集合进行匹配,若所述故障根因信息库中存在第二故障模式集合,所述第二故障模式集合与所述第一故障模式集合相匹配,则所述处理设备采用与所述第二故障模式集合相对应的故障处理信息对所述第一网络设备发生的故障进行处理。如此,可以将处理过的故障模式及其对应的处理信息存储在故障根因信息库中,当对网络设备进行故障处理时,可以根据网络设备发生故障时的故障模式,直接从故障根因信息库中,选出与该故障模式相对应的处理信息,采用该处理信息对网络故障进行处理,不需要通过工程师对故障模式的分析来确定故障原因和处理措施,大大提升了网络故障处理效率,缩短网络故障恢复时间,避免了现有网络故障处理过程中,需要投入大量的人力和专家知识积累,导致网络故障处理效率较低,不能快速及时的排除网络故障的问题。
根据本发明实施例,本发明下述实施例还提供了一种处理设备30,优选地用于实现上述方法实施例中的方法。
实施例二
图4为本发明实施例提供的一种处理设备30的结构图,所述处理设备30可以为:交换机、路由器、网管设备、Web(网页)服务器、软件定义网络(Software Defined Network,SDN)控制器等设备中的任一种设备,用于执行实施例一所述的方法,如图4所示,所述处理设备30可以包括:
确定单元301,用于确定第一网络设备的第一故障模式集合;每个故障模式集合包含:至少一个故障模式,每个故障模式包含:至少一类根因日志;所述根因日志为:所述第一网络设备发生故障时产生的日志信息。
其中,日志信息可以为第一网络设备在一时间段内的活动行为的记录信息,每条日志信息描述了第一网络设备一次单独的活动行为,每条日志信息可以包含:网络设备执行事件的时间戳、主机或模块名、事件级别、信息简介、事件消息等信息。可选的,处理设备可以通过现有日志扫描抓取技术获取第一网络设备产生的日志信息,如:可以通过网络爬虫技术获取网络设备的日志信息,在此不再详细赘述。
匹配单元302,用于将所述确定单元301确定的第一故障模式集合与故障根因信息库中的故障模式集合进行匹配;所述故障根因信息库包含:至少一个故障处理信息、以及与所述至少一个故障处理信息一一对应的故障模式集合。
故障处理单元303,用于若所述故障根因信息库中存在第二故障模式集合,所述第二故障模式集合与所述第一故障模式集合相匹配,则采用与所述第二故障模式集合相对应的故障处理信息对所述第一网络设备发生的故障进行处理。
进一步的,所述确定单元301具体用于:
获取所述第一网络设备在第一时间段内产生的第一日志信息集;所述第一日志信息集包含:至少一条日志信息;每条日志信息包含:日志发生时间以及日志内容;
查询日志类别库,确定所述第一日志信息集中每条日志信息的类别标识;所述日志类别库包含:至少一个类别标识,以及与所述至少一个类别标识一一对应的类文件,所述类文件包含:至少一条日志内容;
用日志信息的类别标识代替日志信息,形成一个由类别标识组成的时间序列;
根据预设分析策略对所述时间序列进行故障根因分析,获取Q个根因日志组合,每个根因日志组合包含R类根因日志,其中,Q为大于或等于1的整数,R为大于或等于1的整数,所述预设分析策略为:预先确定的网络设备发生故障时日志发生的规律;
将所述Q个根因日志组合的集合确定为所述第一网络设备的第一故障模式集合。
其中,所述第一时间段可以为:从所述第一网络设备的故障时间点之前的第一时刻到所述故障时间点之后的第二时刻之间的时间段,所述从所述故障时间点到第一时刻的时长、以及从所述故障时间点到第二时刻的时长可以根据需要进行设置,本发明实施例对此不进行限定,本发明仅以获取故障时间点附近的日志信息为原则,来确定第一时刻和第二时刻。例如:可以获取故障时间点之前20分钟的日志信息、以及故障时间点之后40分钟的日志信息,将获取到的日志信息作为第一时间段内的第一日志信息集;还可以仅获取故障时间点之后一时间段内(如60分钟内)的日志信息,将获取到的日志信息作为第一日志信息集。
所述故障时间点可以为第一网络设备发生故障的时间点,由于在一时间段内,网络设备可能会发生多次故障,因此,该故障时间点可以指第一网络设备任意一次发生故障的时间点。可选的,可以采用现有方法确定第一网络设备的故障时间点;也可以采用下述方法确定第一网络设备的故障时间点:对第一网络设备在第一时间段内产生的至少一条日志信息进行处理,得到包含X个日志行为向量的第一日志行为矩阵,对X个日志行为向量进行分析,将日志频率和日志种类发生突变的日志行为向量对应的时间间隔确定为所述第一网络设备的故障时间点,或者,将日志行为模式发生变化的日志行为向量对应的时间间隔确定为所述第一网络设备的故障时间点;其中,每个日志行为向量占用一个时间间隔,每个日志行为向量包含Y个元素;所述Y为日志类型的个数,所述日志行为向量中的第y个元素表示:在所述日志行为向量的时间间隔内且属于第y类的日志信息的个数;所述预设模型用于:筛选出符合网络设备发生故障时的行为特征的日志行为向量。
所述日志类别库主要用于对复杂的网络日志信息中的同类日志进行统一编号保存,以便后续分析处理;所述日志类别库可以由处理设备根据离线日志信息预先建立,也可以由其他设备预先建立并存储在公共服务器上供所述处理设备共享,本发明实施例对此不进行限定,本发明仅以日志类别库由处理设备根据离线日志信息预先建立为例进行说明。具体的,如图4所示,所述处理器还可以包括:第一建立单元304,所述第一建立单元304用于:
用于在所述确定单元301查询日志类别库之前,收集第二日志信息集;所述第二日志信息集为:至少一个第二网络设备中在第二时间段内产生的日志信息的集合,所述第二日志信息集包含:至少一条日志信息,每条日志信息包含:日志发生时间以及日志内容;
对所述第二日志信息中的每条日志信息的日志内容进行规范化处理;
通过层次聚类法对规范化处理后的日志信息进行归类,获取每个日志信息的类别标识;
遍历每个日志信息的类别标识,将属于同一类别标识的日志信息中的日志内容存放在一个类文件中;
将类文件、以及类文件对应的类别标识对应记录起来,形成所述日志类别库。
其中,至少一个第二网络设备可以包含第一网络设备,也可以不包括第一网络设备。所述对所述第二日志信息中的每条日志信息的日志内容进行规范化处理可以包括:提取日志内容,去掉日志内容中网络协议(Internet Protocol,IP)地址、用户名等用于表征日志信息所属的网络设备的特征信息,以便将不同网络设备产生的日志信息混在一起进行分析。
所述层次聚类为人工智能中的经典算法,采用q-gram算法的聚类分析工具来衡量字符串相似程度,将q-gram距离作为不同日志间的差异度量值,可以采用层次聚类的方法对规范化处理后的每条日志信息进行归类,其中,对规范化处理后的每条日志信息进行聚类,通过调整聚类参数q,得到最优的日志类型数;其中,q值的不同会导致相似结果的差异,从大量的实验上看,在本发明中q优选取3,此值对日志聚类结果的影响不大,具体实现不再赘述。
可选的,所述确定单元301具体用于:
计算所述第一日志信息的日志内容与所述日志类别库中的每个日志内容间的差异度;
获取计算出的差异度中的最小差异度;所述最小差异度为:所述第一日志信息的日志内容与所述日志类别库中的第一日志内容间的差异度;
若最小差异度小于或等于第二预设阈值,则将所述第一日志内容对应的类别标识确定为所述第一日志信息的类别标识,并将所述第一日志信息的日志内容添加到所述第一日志内容所在的类文件中。
需要说明的是,当最小差异度为0时,则表示第一日志信息的日志内容与第一日志内容完全相同,则不用将所述第一日志信息的日志内容添加到所述第一日志内容所在的类文件中。
此外,由于网络设备产生的日志信息的种类不断增长,旧的日志类别库可能不完全包含待处理日志信息中所包含的日志类型,因此,为了保证日志类别库中包含的日志种类为最新的,需要不断的动态扩展日志类别库,具体实现如下:
若所述最小差异度大于所述第二预设阈值,则用第一类别标识作为所述第一日志信息的类别标识,所述第一类别标识为:除所述日志类别库中至少一个类别标识之外的类别标识;
并将所述第一类别标识、以及所述第一日志信息的日志内容对应记录到所述日志类别库中,以便动态更新日志类别库。
其中,所述第二预设阈值可以需要进行设置,本发明实施例对此不进行限定。所述差异度可以用日志内容与日志内容间的q-gram距离值来表示,最小差异度则为计算出的众多q-gram距离值中的最小q-gram距离值。
由于,网络设备在故障发生时可能会产生至少一类日志信息(即根因日志),且这些类日志信息在故障时间点附近的出现呈现比较明显的特征规律,如:故障发生时产生的至少一类日志信息通常会组合在一起在故障点附近重复且不间断的出现;或者,故障发生时产生的一类日志信息通常在比较长的一时间段内频繁出现,且在故障时间点处呈突然增多的趋势,所以,在本发明实施例中,所述确定单元301具体用于:
将所述时间序列分为i个不同的日志组合;每个日志组合包含至少一个类别标识,且所述每个日志组合包含的类别标识各不相同,所述i为大于或等于1的整数;
遍历所述i个日志组合,确定所述i个日志组合中在所述第一时间段内频繁且持续出现的至少一个根因日志组合;对所述至少一个日志组合进行处理,获取Q个根因日志组合。
或者,确定所述时间序列中每个类别标识对应的日志信息的异常值;所述异常值用于表示:日志信息在第三时间段内发生的频繁程度和突变程度,所述第三时间段包含所述第一时间段;
从得到的多个异常值中获取前Q个最大异常值,将Q个最大异常值对应的Q类日志信息确定为Q个根因日志组合;需要说明的是,此方式中R为1。
进一步的,对于所述第二故障模式集合,所述匹配单元302用于:
获取所述第一故障模式集合和所述第二故障模式集合包含的相同故障模式的个数M;
以及,所述第一故障模式集合和所述第二故障模式集合包含的故障模式的总个数N;
若所述大于或等于第一预设阈值,则确定所述第二故障模式集合与所述第一故障模式集合相匹配;
若所述小于第一预设阈值,则确定所述第二故障模式集合与所述第一故障模式集合不匹配。
其中,第一预设阈值可以根据进行设置,本发明实施例对此不进行限定,表示第一故障模式集合和第二故障模式集合之间的相似度,大于或等于第一预设阈值可以表示第一故障模式集合和第二故障模式集合比较相似,小于第一预设阈值可以表示第一故障模式集合和第二故障模式集合不相似。需要说明的是,所述第一故障模式集合和所述第二故障模式集合包含的故障模式的总个数N是指:所述第一故障模式集合和所述第二故障模式集合包含的不重复的故障模式的总个数。
所述故障根因信息库主要用于对网络设备发生故障时的同类故障根因日志及其处理信息进行统一保存,以便后续在线指导故障的解决方法;所述故障根因信息库可以由处理设备根据离线故障日志信息预先建立,也可以由其他设备预先建立并存储在公共服务器上供所述处理设备共享,本发明实施例对此不进行限定,本发明仅以故障根因信息库由处理设备根据离线故障日志信息预先建立为例进行说明。具体的,所述处理设备还包括:第二建立单元305,所述第二建立单元305用于:
在所述匹配单元302将所述第一故障模式集合与故障根因信息库中的故障模式集合进行匹配之前,收集至少一个第三网络设备中每个第三网络设备在故障时间点段内产生的日志信息集、及其故障处理信息,所述日志信息集包含:至少一条日志信息,每条日志信息包含:日志发生时间以及日志内容;
对于每个第三网络设备,查询所述日志类别库,确定所述第三网络设备产生的日志信息集中每条日志信息的类别标识,并用日志信息的类别标识代替日志信息,形成一个由类别标识组成的时间序列,根据预设分析策略对所述时间序列进行故障根因分析,确定所述第三网络设备的故障模式集合;
将每个第三网络设备的故障模式集合、及其故障处理信息对应记录起来,形成所述故障根因信息库。
其中,第三网络设备可以包含第一网络设备,也可以不包含第一网络设备。
需要说明的是,上述“查询所述日志类别库,确定所述第三网络设备产生的日志信息集中每条日志信息的类别标识,并用日志信息的类别标识代替日志信息,形成一个由类别标识组成的时间序列,根据预设分析策略对所述时间序列进行故障根因分析,确定所述第三网络设备的故障模式集合”的详细过程与确定第一网络设备的第一故障模式集合的具体方式相同,在此不再一一赘述。
此外,为了提高建立故障根因信息库的效率,可以直接查看日志类别库,从日志类别库中获取各个第二网络设备在故障时间段内产生的日志信息的类别标识,对于任一第二网络设备,将获取到在故障时间段内的类别标识组成时间序列,根据预设分析策略对该时间序列进行故障根因分析,确定第二网络设备的故障模式集合,最后,将获取到的至少一个第二网络设备的故障模式集合及其故障处理信息对应记录起来,形成故障根因信息库。
此外,由于网络设备产生的故障日志信息的种类不断增长,旧的故障根因信息库可能不完全包含待处理故障日志所包含的故障类型,因此,为了保证故障根因信息库中包含的故障种类为最新的,需要不断的动态扩展故障根因信息库。具体的,所述故障处理单元303还用于:
若所述故障根因信息库中不存在与所述第一故障模式集合相匹配的故障模式集合,则将所述第一故障模式集合反馈给工程技术人员,由工程技术人员根据所述第一故障模式集合确定故障处理措施,对所述第一网络设备进行故障处理;
并将故障处理后的故障处理信息、以及所述第一故障模式集合对应记录在所述故障根因信息库中。
需要说明的是,图4中的确定单元301、匹配单元302、故障处理单元303、第一建立单元304、第二建立单元305可以为单独设立的处理器,也可以集成在处理设备的某一个处理器中实现,此外,也可以以程序代码的形式存储于处理设备的存储器中,由处理设备的某一个处理器调用并执行以上确定单元301、匹配单元302、故障处理单元303、第一建立单元304、第二建立单元305的功能。这里所述的处理器可以是一个中央处理器(CentralProcessing Unit,CPU),或者是特定集成电路(Application Specific IntegratedCircuit,ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
由上可知,本发明实施例提供一种处理设备,确定第一网络设备的第一故障模式集合,将所述第一故障模式集合与故障根因信息库中的故障模式集合进行匹配,若所述故障根因信息库中存在第二故障模式集合,所述第二故障模式集合与所述第一故障模式集合相匹配,则所述处理设备采用与所述第二故障模式集合相对应的故障处理信息对所述第一网络设备发生的故障进行处理。如此,可以将处理过的故障模式及其对应的处理信息存储在故障根因信息库中,当对网络设备进行故障处理时,可以根据网络设备发生故障时的故障模式,直接从故障根因信息库中,选出与该故障模式相对应的处理信息,采用该处理信息对网络故障进行处理,不需要通过工程师对故障模式的分析来确定故障原因和处理措施,大大提升了网络故障处理效率,缩短网络故障恢复时间,避免了现有网络故障处理过程中,需要投入大量的人力和专家知识积累,导致网络故障处理效率较低,不能快速及时的排除网络故障的问题。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的单元和系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件(例如处理器)来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘或光盘等。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (16)

1.一种网络故障处理方法,其特征在于,包括:
处理设备确定第一网络设备的第一故障模式集合;每个故障模式集合包含:至少一个故障模式,每个故障模式包含:至少一类根因日志;所述根因日志为:所述第一网络设备发生故障时产生的日志信息;
所述处理设备将所述第一故障模式集合与故障根因信息库中的故障模式集合进行匹配;所述故障根因信息库包含:至少一个故障处理信息、以及与所述至少一个故障处理信息一一对应的故障模式集合;
若所述故障根因信息库中存在第二故障模式集合,所述第二故障模式集合与所述第一故障模式集合相匹配,则所述处理设备采用与所述第二故障模式集合相对应的故障处理信息对所述第一网络设备发生的故障进行处理。
2.根据权利要求1所述的方法,其特征在于,对于所述第二故障模式集合,将所述第一故障模式集合与所述第二故障模式集合进行匹配,包括:
获取所述第一故障模式集合和所述第二故障模式集合包含的相同故障模式的个数M;
以及,所述第一故障模式集合和所述第二故障模式集合包含的故障模式的总个数N;
大于或等于第一预设阈值,则确定所述第二故障模式集合与所述第一故障模式集合相匹配;
若所述小于第一预设阈值,则确定所述第二故障模式集合与所述第一故障模式集合不匹配。
3.根据权利要求1或2所述的方法,其特征在于,所述确定第一网络设备的第一故障模式集合,包括:
获取所述第一网络设备在第一时间段内产生的第一日志信息集;所述第一日志信息集包含:至少一条日志信息;每条日志信息包含:日志发生时间以及日志内容;
查询日志类别库,确定所述第一日志信息集中每条日志信息的类别标识;所述日志类别库包含:至少一个类别标识,以及与所述至少一个类别标识一一对应的类文件,所述类文件包含:至少一条日志内容;
用日志信息的类别标识代替日志信息,形成一个由类别标识组成的时间序列;
根据预设分析策略对所述时间序列进行故障根因分析,获取Q个根因日志组合,每个根因日志组合包含R类根因日志,其中,Q为大于或等于1的整数,R为大于或等于1的整数,所述预设分析策略为:预先确定的网络设备发生故障时日志发生的规律;
将所述Q个根因日志组合的集合确定为所述第一网络设备的第一故障模式集合。
4.根据权利要求3所述的方法,其特征在于,对于第一日志信息集中的第一日志信息,所述查询日志类别库,确定所述第一日志信息的类别标识包括:
计算所述第一日志信息的日志内容与所述日志类别库中的每个日志内容间的差异度;
获取计算出的差异度中的最小差异度;所述最小差异度为:所述第一日志信息的日志内容与所述日志类别库中的第一日志内容间的差异度;
若最小差异度小于或等于第二预设阈值,则将所述第一日志内容对应的类别标识确定为所述第一日志信息的类别标识,并将所述第一日志信息的日志内容添加到所述第一日志内容所在的类文件中。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
若所述最小差异度大于所述第二预设阈值,则用第一类别标识作为所述第一日志信息的类别标识,所述第一类别标识为:除所述日志类别库中至少一个类别标识之外的类别标识;
并将所述第一类别标识、以及所述第一日志信息的日志内容对应记录到所述日志类别库中。
6.根据权利要求4或5所述的方法,其特征在于,在查询日志类别库之前,所述方法还包括:
收集第二日志信息集;所述第二日志信息集为:至少一个第二网络设备中在第二时间段内产生的日志信息的集合,所述第二日志信息集包含:至少一条日志信息,每条日志信息包含:日志发生时间以及日志内容;
对所述第二日志信息集中的每条日志信息的日志内容进行规范化处理;
通过层次聚类法对规范化处理后的日志信息进行归类,获取每个日志信息的类别标识;
遍历每个日志信息的类别标识,将属于同一类别标识的日志信息中的日志内容存放在一个类文件中;
将类文件、以及类文件对应的类别标识对应记录起来,形成所述日志类别库。
7.根据权利要求6所述的方法,其特征在于,在所述处理设备将所述第一故障模式集合与故障根因信息库中的故障模式集合进行匹配之前,所述方法还包括:
收集至少一个第三网络设备中每个第三网络设备在故障时间段内产生的日志信息集、及其故障处理信息,所述日志信息集包含:至少一条日志信息,每条日志信息包含:日志发生时间以及日志内容;
对于每个第三网络设备,查询所述日志类别库,确定所述第三网络设备产生的日志信息集中每条日志信息的类别标识,并用日志信息的类别标识代替日志信息,形成一个由类别标识组成的时间序列,根据预设分析策略对所述时间序列进行故障根因分析,确定所述第三网络设备的故障模式集合;
将每个第三网络设备的故障模式集合、及其故障处理信息对应记录起来,形成所述故障根因信息库。
8.根据权利要求1-2、4-5、7任一项所述的方法,其特征在于,所述方法还包括:
若所述故障根因信息库中不存在与所述第一故障模式集合相匹配的故障模式集合,则根据所述第一故障模式集合对所述第一网络设备进行故障处理;
并将故障处理信息、以及所述第一故障模式集合对应记录在所述故障根因信息库中。
9.一种处理设备,其特征在于,包括:
确定单元,用于确定第一网络设备的第一故障模式集合;每个故障模式集合包含:至少一个故障模式,每个故障模式包含:至少一类根因日志;所述根因日志为:所述第一网络设备发生故障时产生的日志信息;
匹配单元,用于将所述确定单元确定的第一故障模式集合与故障根因信息库中的故障模式集合进行匹配;所述故障根因信息库包含:至少一个故障处理信息、以及与所述至少一个故障处理信息一一对应的故障模式集合;
故障处理单元,用于若所述故障根因信息库中存在第二故障模式集合,所述第二故障模式集合与所述第一故障模式集合相匹配,则采用与所述第二故障模式集合相对应的故障处理信息对所述第一网络设备发生的故障进行处理。
10.根据权利要求9所述的处理设备,其特征在于,对于所述第二故障模式集合,所述匹配单元用于:
获取所述第一故障模式集合和所述第二故障模式集合包含的相同故障模式的个数M;
以及,所述第一故障模式集合和所述第二故障模式集合包含的故障模式的总个数N;
大于或等于第一预设阈值,则确定所述第二故障模式集合与所述第一故障模式集合相匹配;
若所述小于第一预设阈值,则确定所述第二故障模式集合与所述第一故障模式集合不匹配。
11.根据权利要求9或10所述的处理设备,其特征在于,所述确定单元用于:
获取所述第一网络设备在第一时间段内产生的第一日志信息集;所述第一日志信息集包含:至少一条日志信息;每条日志信息包含:日志发生时间以及日志内容;
查询日志类别库,确定所述第一日志信息集中每条日志信息的类别标识;所述日志类别库包含:至少一个类别标识,以及与所述至少一个类别标识一一对应的类文件,所述类文件包含:至少一条日志内容;
用日志信息的类别标识代替日志信息,形成一个由类别标识组成的时间序列;
根据预设分析策略对所述时间序列进行故障根因分析,获取Q个根因日志组合,每个根因日志组合包含R类根因日志,其中,Q为大于或等于1的整数,R为大于或等于1的整数,所述预设分析策略为:预先确定的网络设备发生故障时日志发生的规律;
将所述Q个根因日志组合的集合确定为所述第一网络设备的第一故障模式集合。
12.根据权利要求11所述的处理设备,其特征在于,对于第一日志信息集中的第一日志信息,所述确定单元用于:
计算所述第一日志信息的日志内容与所述日志类别库中的每个日志内容间的差异度;
获取计算出的差异度中的最小差异度;所述最小差异度为:所述第一日志信息的日志内容与所述日志类别库中的第一日志内容间的差异度;
若最小差异度小于或等于第二预设阈值,则将所述第一日志内容对应的类别标识确定为所述第一日志信息的类别标识,并将所述第一日志信息的日志内容添加到所述第一日志内容所在的类文件中。
13.根据权利要求12所述的处理设备,其特征在于,所述确定单元还用于:
若所述最小差异度大于所述第二预设阈值,则用第一类别标识作为所述第一日志信息的类别标识,所述第一类别标识为:除所述日志类别库中至少一个类别标识之外的类别标识;
并将所述第一类别标识、以及所述第一日志信息的日志内容对应记录到所述日志类别库中。
14.根据权利要求12或13所述的处理设备,其特征在于,所述处理设备还包括:
第一建立单元,用于在所述确定单元查询日志类别库之前,收集第二日志信息集;所述第二日志信息集为:至少一个第二网络设备在第二时间段内产生的日志信息的集合,所述第二日志信息集包含:至少一条日志信息,每条日志信息包含:日志发生时间以及日志内容;
对所述第二日志信息集中的每条日志信息的日志内容进行规范化处理;
通过层次聚类法对规范化处理后的日志信息进行归类,获取每个日志信息的类别标识;
遍历每个日志信息的类别标识,将属于同一类别标识的日志信息中的日志内容存放在一个类文件中;
将类文件、以及类文件对应的类别标识对应记录起来,形成所述日志类别库。
15.根据权利要求14所述的处理设备,其特征在于,所述处理设备还包括:
第二建立单元,在所述匹配单元将所述第一故障模式集合与故障根因信息库中的故障模式集合进行匹配之前,收集至少一个第三网络设备中每个第三网络设备在故障时间段内产生的日志信息集、及其故障处理信息,所述日志信息集包含:至少一条日志信息,每条日志信息包含:日志发生时间以及日志内容;
对于每个第三网络设备,查询所述日志类别库,确定所述第三网络设备产生的日志信息集中每条日志信息的类别标识,并用日志信息的类别标识代替日志信息,形成一个由类别标识组成的时间序列,根据预设分析策略对所述时间序列进行故障根因分析,确定所述第三网络设备的故障模式集合;
将每个第三网络设备的故障模式集合、及其故障处理信息对应记录起来,形成所述故障根因信息库。
16.根据权利要求9-10、12-13、15任一项所述的处理设备,其特征在于,所述故障处理单元还用于:
若所述故障根因信息库中不存在与所述第一故障模式集合相匹配的故障模式集合,则根据所述第一故障模式集合对所述第一网络设备进行故障处理;
并将故障处理信息、以及所述第一故障模式集合对应记录在所述故障根因信息库中。
CN201610130621.0A 2016-03-08 2016-03-08 一种网络故障处理方法和处理设备 Active CN105812177B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610130621.0A CN105812177B (zh) 2016-03-08 2016-03-08 一种网络故障处理方法和处理设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610130621.0A CN105812177B (zh) 2016-03-08 2016-03-08 一种网络故障处理方法和处理设备

Publications (2)

Publication Number Publication Date
CN105812177A CN105812177A (zh) 2016-07-27
CN105812177B true CN105812177B (zh) 2019-10-18

Family

ID=56466970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610130621.0A Active CN105812177B (zh) 2016-03-08 2016-03-08 一种网络故障处理方法和处理设备

Country Status (1)

Country Link
CN (1) CN105812177B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109309576B (zh) * 2017-07-26 2020-05-08 华为技术有限公司 一种故障社群检测方法及管理节点
CN107332722A (zh) * 2017-08-31 2017-11-07 郑州云海信息技术有限公司 一种故障信息的排除方法及系统
CN107564584A (zh) * 2017-09-20 2018-01-09 上海联影医疗科技有限公司 一种日志分析方法及系统
CN110545195A (zh) * 2018-05-29 2019-12-06 华为技术有限公司 网络故障分析方法及装置
CN109034415A (zh) * 2018-07-20 2018-12-18 郑州云海信息技术有限公司 一种自学习的故障处理方法、装置及系统
CN111049664A (zh) * 2018-10-11 2020-04-21 中兴通讯股份有限公司 一种网络告警处理方法、装置及存储介质
CN109522327A (zh) * 2018-11-16 2019-03-26 北京京东金融科技控股有限公司 信息生成方法、装置和系统
CN109858637A (zh) * 2019-01-10 2019-06-07 深圳市万华汽车服务投资控股有限公司 一种无人值守的洗车故障处理方法、装置以及系统
CN110337118B (zh) * 2019-04-24 2022-08-26 中国联合网络通信集团有限公司 用户投诉快速处理方法及装置
CN113127528A (zh) * 2019-12-30 2021-07-16 中移信息技术有限公司 系统根因定位方法、装置、设备及计算机存储介质
CN111352763B (zh) * 2020-03-11 2023-10-31 Oppo(重庆)智能科技有限公司 信息处理方法及相关产品
CN112102891B (zh) * 2020-08-04 2022-06-14 广东工业大学 基于根因分析层次聚类的马蹄焰玻璃熔窑能耗异常定位方法
CN114285730A (zh) * 2020-09-18 2022-04-05 华为技术有限公司 确定故障根因的方法,装置以及相关设备
CN112052151B (zh) * 2020-10-09 2022-02-18 腾讯科技(深圳)有限公司 故障根因分析方法、装置、设备及存储介质
CN113254255B (zh) * 2021-07-15 2021-10-29 苏州浪潮智能科技有限公司 一种云平台日志的分析方法、系统、设备及介质
CN114553673A (zh) * 2022-01-18 2022-05-27 浙江大华技术股份有限公司 网络故障处理方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101945009A (zh) * 2010-09-14 2011-01-12 国网电力科学研究院 基于案例和模式匹配的电力通信网故障定位方法及装置
CN102006198A (zh) * 2010-12-16 2011-04-06 中国电子科技集团公司第三十研究所 一种网络故障关联规则获取方法及装置
CN104794136A (zh) * 2014-01-22 2015-07-22 华为技术有限公司 故障分析方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140324227A1 (en) * 2013-04-30 2014-10-30 Honeywell International Inc. Hvac controller having a fixed segment display with an interactive message center

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101945009A (zh) * 2010-09-14 2011-01-12 国网电力科学研究院 基于案例和模式匹配的电力通信网故障定位方法及装置
CN102006198A (zh) * 2010-12-16 2011-04-06 中国电子科技集团公司第三十研究所 一种网络故障关联规则获取方法及装置
CN104794136A (zh) * 2014-01-22 2015-07-22 华为技术有限公司 故障分析方法和装置

Also Published As

Publication number Publication date
CN105812177A (zh) 2016-07-27

Similar Documents

Publication Publication Date Title
CN105812177B (zh) 一种网络故障处理方法和处理设备
CN105471659B (zh) 一种故障根因分析方法和分析设备
CN107508722B (zh) 一种业务监控方法和装置
CN106254153A (zh) 一种网络异常监控方法和装置
CN108964960A (zh) 一种告警事件的处理方法及装置
WO2005038598B1 (en) Policy-based network security management
US11606265B2 (en) Network control in artificial intelligence-defined networking
CN106897196B (zh) 网站页面间访问路径的确定方法及装置
US20220245462A1 (en) Training a digital twin in artificial intelligence-defined networking
WO2020168756A1 (zh) 集群日志特征提取方法、装置、设备及存储介质
US20220245441A1 (en) Reinforcement-learning modeling interfaces
CN102611713A (zh) 基于熵运算的网络入侵检测方法和装置
CN109034580B (zh) 一种基于大数据分析的信息系统整体健康度评估方法
Clayman et al. Monitoring, aggregation and filtering for efficient management of virtual networks
CN109446816A (zh) 一种基于大数据平台审计日志的用户行为分析方法
CN109218080A (zh) 一种自动绘制网络拓扑架构的方法、监控系统及终端设备
CN113486584B (zh) 设备故障的预测方法、装置、计算机设备及计算机可读存储介质
Elmokashfi et al. Revisiting BGP churn growth
CN114422325A (zh) 内容分发网络异常定位方法、装置、设备及存储介质
CN111651170B (zh) 一种实例动态调整方法、装置及相关设备
CN108199901A (zh) 硬件报修方法、系统、设备、硬件管理服务器与存储介质
CN109800052B (zh) 应用于分布式容器云平台的异常检测与定位方法及装置
EP4285280A1 (en) Systems and methods for artificial intelligence-defined networking
US8838774B2 (en) Method, system, and computer program product for identifying common factors associated with network activity with reduced resource utilization
CN117336228A (zh) 一种基于机器学习的igp仿真推荐方法、装置及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant