CN103138960B - 网络故障处理方法及装置 - Google Patents

网络故障处理方法及装置 Download PDF

Info

Publication number
CN103138960B
CN103138960B CN201110379243.7A CN201110379243A CN103138960B CN 103138960 B CN103138960 B CN 103138960B CN 201110379243 A CN201110379243 A CN 201110379243A CN 103138960 B CN103138960 B CN 103138960B
Authority
CN
China
Prior art keywords
fault
faulty equipment
network
equipment
running state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110379243.7A
Other languages
English (en)
Other versions
CN103138960A (zh
Inventor
彭炼钢
熊亚军
翦浩
梁振方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110379243.7A priority Critical patent/CN103138960B/zh
Publication of CN103138960A publication Critical patent/CN103138960A/zh
Application granted granted Critical
Publication of CN103138960B publication Critical patent/CN103138960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提出一种网络故障处理方法及装置。其中,所述方法包括以下步骤:接收网络的告警信息以确定故障设备;获得故障设备的运行状态信息;根据故障设备的运行状态信息在故障知识库中确定故障设备对应的已知故障,并将已知故障作为基准故障;根据故障设备的运行状态信息对基准故障进行修改以形成新的已知故障,并将新的已知故障加入到故障知识库中;以及根据新的已知故障对故障设备进行故障处理。根据本发明实施例的方法,克服了人工处理网络故障时容易出错的缺陷,同时具有通用性,提高了处理效率,减少了网络故障带来的损失,并且在故障知识库中不断地增加新的故障知识,实现自学习。

Description

网络故障处理方法及装置
技术领域
本发明涉及网络通信技术领域,尤其涉及一种网络故障处理方法及装置。
背景技术
针对大型网络中的网络故障,如何实现自动及快速的定位和处理一直是网络管理过程中的大难题。如果能够实现网络故障的自动及快速的定位和处理,可以最大程度地缩短网络故障的持续时间,减少网络故障所带来的损失,特别是在超大规模的网络环境中有着非常重要的意义。
现有技术的网络故障的定位与处理大多数依靠网络故障处理人员的经验知识,网络故障处理人员根据网络故障的现象分析网络故障的原因,再对网络故障进行处理,这种处理方式存在的问题是,一方面网络故障的处理过程中因人而异,具有不可控性,并且出错的概率也较高,另一方面网络故障的处理过程中耗时较长,不能最大程度地减少网络故障带来的损失。
针对人工处理网络故障存在的缺陷,现有技术还针对某些具体的网络应用场景,提出了一种半自动化的网络故障处理方案。例如,中国专利“网络故障处理方法、设备及系统”(专利号200810006616)中,针对传输设备WDM(Wave Division Multiplex,波分复用)中,针对出现的网络故障,使用波长转化器板卡将自动发出控制信令,将网络故障设备隔离,从而实现快速的网络故障切换。但是,现有技术存在的问题是,只能针对具体或特殊的网络应用场景实施,不能提供一种通用的网络故障处理方案。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的一个目的在于提出一种网络故障处理方法。
本发明的另一目的在于提出一种可以自动对网络故障的故障进行分析及处理的通用的网络故障处理装置。
为了实现上述目的,根据本发明第一方面的实施例的网络故障处理方法,包括下述步骤:接收网络的告警信息以确定故障设备;获得所述故障设备的运行状态信息;根据所述故障设备的运行状态信息在故障知识库中确定所述故障设备对应的已知故障,并将所述已知故障作为基准故障;根据所述故障设备的运行状态信息对所述基准故障进行修改以形成新的已知故障,并将所述新的已知故障加入到所述故障知识库中;以及根据所述新的已知故障对所述故障设备进行故障处理。
根据本发明实施例的网络故障处理方法,当设备发生故障时,通过获取故障设备的运行状态信息,对设备故障的故障原因进行分析处理,一方面克服依靠网络故障处理人员的经验处理设备故障时容易出错的缺陷,另一方面该方法具有通用性,从而提高了处理网络故障的效率,减少了网络发生故障时带来的损失,同时故障知识库可以不断地增加新的故障知识,实现自学习的功能。
为了实现上述目的,根据本发明第二方面的实施例的网络故障处理装置包括:信息收集模块,用于接收网络的告警信息以确定故障设备,并获得所述故障设备的运行状态信息;故障知识库模块,用于保存已知故障;故障分析模块,用于根据所述故障设备的运行状态信息在故障知识库中确定所述故障设备对应的已知故障,并将所述已知故障作为基准故障,以及根据所述故障设备的运行状态信息对所述基准故障进行修改以形成新的已知故障,并将所述新的已知故障加入到所述故障知识库模块中;以及故障处理模块,用于根据所述新的已知故障对所述故障设备进行故障处理。
根据本发明实施例的网络故障处理装置,当设备发生故障时,通过获取故障设备的运行状态信息,对设备故障的故障原因进行分析处理,一方面克服依靠网络故障处理人员的经验处理设备故障时容易出错的缺陷,另一方面该装置具有通用性,从而提高了处理网络故障的效率,减少了网络发生故障时带来的损失,同时故障知识库可以不断地增加新的故障知识,实现自学习的功能。该装置可以极大程度的实现网络故障处理的自动化。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,
图1是根据本发明一个实施例的网络故障处理方法的流程图;
图2是根据本发明一个实施例的网络故障处理方法的流程图;
图3是根据本发明一个实施例的网络故障处理方法的流程图;
图4是根据本发明一个实施例的网络故障处理装置的结构框图;
图5是根据本发明一个实施例的网络故障处理装置的结构框图;以及
图6是根据本发明一个实施例的网络故障处理装置的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
下面参考说明书附图描述根据本发明实施例的网络故障处理方法。
一种网络故障处理方法,包括以下步骤:接收网络的告警信息以确定故障设备;获得故障设备的运行状态信息;根据故障设备的运行状态信息在故障知识库中确定故障设备对应的已知故障,并将已知故障作为基准故障;根据故障设备的运行状态信息对基准故障进行修改以形成新的已知故障,并将新的已知故障加入到故障知识库中;以及根据新的已知故障对故障设备进行故障处理。
图1为本发明一个实施例的网络故障处理方法的流程图。
如图1所示,根据本发明实施例的网络故障处理方法包括下述步骤。
步骤S101,接收网络的告警信息以确定故障设备。
具体地,告警信息包括m维度的子信息,例如,告警产生的时间、告警类型、告警所在设备区域、告警所在设备的类型、告警所在设备的角色、告警持续的时间等。告警信息反映网络故障设备的状态,根据m维度的告警信息确定发生网络故障的设备,例如,通过告警信息的告警所在设备的类型及告警所在设备的角色子信息可以确定发生故障的设备。
步骤S102,获得故障设备的运行状态信息。
具体地,获取故障设备的运行状态信息包括设备的日志信息、性能信息和操作日志信息等。
步骤S103,根据故障设备的运行状态信息在故障知识库中确定故障设备对应的已知故障,并将已知故障作为基准故障。
具体地,首先将上述步骤S102所获得的故障设备的运行状态信息进行分析,获得与故障知识库中的已知故障相对应的信息表达方式,例如,将一个链路阻塞的故障设备的运行状态信息按照下述方式描述:a.网络转发延时很高,b.ICMP(Internet Control Message Protocol,Internet控制报文协议)监控有丢包,c.链路两端的端口包的错误计数增长较快。然后将新描述的故障设备的运行状态信息在故障知识库中进行匹配查询,确定故障设备对应的已知故障,并将已知故障作为基准故障。
步骤S104,根据故障设备的运行状态信息对基准故障进行修改以形成新的已知故障,并将新的已知故障加入到故障知识库中。
具体地,根据故障设备的运行状态信息在故障知识库中进行匹配时,获得的基准故障并不能完全跟故障设备的运行状态相同,则需要根据故障设备的运行状态信息对基准故障进行修改,将修改后的故障设备的运行状态信息作为新的已知故障加入到故障知识库中,实现对故障知识库的更新。
步骤S105,根据新的已知故障对故障设备进行故障处理。
在本发明的一个实施例中,已知故障包括故障现象和故障处理方案。
具体地,故障现象包括故障发生时n个维度的子故障现象的集合,例如,当网络中某条传输链路发生拥塞时,此时出现多种子故障现象,包括:数据转发延时高、ICMP监控有丢包、针对此链路的流量监控产生报警、链路两端设备端口的包的错误计数增长较快、链路两端设备的CPU利用率比较高等,除此之外,故障所在的设备,也作为故障现象的一部分,例如故障发生设备的设备角色、设备厂商、设备型号等。这些现象构成一个故障现象。
故障处理方案包括针对该故障可采取的k个处理方法的集合,例如,对上述例子的故障,可以采取以下的措施:a.在链路两端设备加QoS(Quality of Service,服务质量,网络中的一种安全机制),保障重点流量传输,b.邮件通知此链路的使用用户。这些处理方法构成一个故障处理方案。
在本发明的一个实施例中,根据故障设备的运行状态信息对基准故障中的故障处理方案进行修改。通过修改故障处理方案可得到新的故障处理方案。
在本发明的一个实施例中,根据故障设备的运行状态信息在故障知识库中进行匹配时,匹配方式包括最大似然匹配或特征匹配。
具体的,最大似然匹配为,首先设置一个阈值p,然后在故障知识库中计算所有的已知故障与该故障的相同的故障现象的数目,并找出具有与该故障的相同的故障现象的最大数目的已知故障,如果该最大数据大于或者等于阈值p,则该已知故障与该故障匹配成功,该已知故障作为该故障的基准故障,如果该最大数据小于阈值p,则该已知故障与该故障未匹配成功。
特征匹配是指在故障知识库中找到一个已知故障具有与该故障的故障现象相同的特征,则匹配成功,该已知故障作为该故障的基准故障,或者找到一个已知故障符合该故障的故障现象的几个特征的逻辑组合,例如,数据转发延时高且ICMP监控有丢包等,则匹配成功,该已知故障作为该故障的基准故障。
在本发明的一个实施例中,如果故障设备的运行状态信息在故障知识库中进行匹配时,没有匹配成功,则通知网络故障处理人员进行处理。并将该故障的故障现象和故障处理方案存储到故障知识库中。
根据本发明实施例的网络故障处理方法,当设备发生故障时,通过获取故障设备的运行状态信息,对设备故障的故障原因进行分析处理,一方面克服依靠网络故障处理人员的经验处理设备故障时容易出错的缺陷,另一方面该方法具有通用性,从而提高了处理网络故障的效率,减少了网络发生故障时带来的损失,同时故障知识库可以不断地增加新的故障知识,实现自学习的功能。
图2为本发明一个实施例的网络故障处理方法的流程图。
如图2所示,根据本发明实施例的网络故障处理方法包括下述步骤。
步骤S201,接收网络的告警信息以确定故障设备。
具体地,告警信息包括m维度的子信息,例如,告警产生的时间、告警类型、告警所在设备区域、告警所在设备的类型、告警所在设备的角色、告警持续的时间等。告警信息反映网络故障设备的状态,根据m维度的告警信息确定发生网络故障的设备,例如,通过告警信息的告警所在设备的类型及告警所在设备的角色子信息可以确定发生故障的设备。
步骤S202,获得故障设备的运行状态信息。
具体地,获取故障设备的运行状态信息包括设备的日志信息、性能信息和操作日志信息等。
步骤S203,从故障知识库中获得每个已知故障对应的故障信息。
步骤S204,将故障设备的运行状态信息与每个已知故障对应的故障信息进行匹配以确定故障设备对应的已知故障,并将已知故障作为基准故障。
具体地,首先将获得的故障设备的运行状态信息进行分析,获得与故障知识库中的已知故障相对应的信息表达方式,例如,将一个链路阻塞的故障设备的运行状态信息按照下述方式描述:a.网络转发延时很高,b.ICMP(Internet Control Message Protocol,Internet控制报文协议)监控有丢包,c.链路两端的端口包的错误计数增长较快。然后将新描述的故障设备的运行状态信息与每个已知故障对应的故障信息进行匹配,确定故障设备对应的已知故障,并将已知故障作为基准故障。
步骤S205,根据故障设备的运行状态信息对基准故障进行修改以形成新的已知故障,并将新的已知故障加入到故障知识库中。
具体地,根据故障设备的运行状态信息在故障知识库中进行匹配时,获得的基准故障并不能完全跟故障设备的运行状态相同,则需要根据故障设备的运行状态信息对基准故障进行修改,将修改后的故障设备的运行状态信息作为新的已知故障加入到故障知识库中,实现对故障知识库的更新。
步骤S206,根据新的已知故障对故障设备进行故障处理。
在本发明的一个实施例中,步骤S203和步骤S204是可选的,可用步骤S103替换。
在本发明的一个实施例中,已知故障包括故障现象和故障处理方案。
具体地,故障现象包括故障发生时n个维度的子故障现象的集合,例如,当网络中某条传输链路发生拥塞时,此时出现多种子故障现象,包括:数据转发延时高、ICMP监控有丢包、针对此链路的流量监控产生报警、链路两端设备端口的包的错误计数增长较快、链路两端设备的CPU利用率比较高等,除此之外,故障所在的设备,也作为故障现象的一部分,例如故障发生设备的设备角色、设备厂商、设备型号等。这些现象构成一个故障现象。
故障处理方案包括针对该故障可采取的k个处理方法的集合,例如,对上述例子的故障,可以采取以下的措施:a.在链路两端设备加QoS(Quality of Service,服务质量,网络中的一种安全机制),保障重点流量传输,b.邮件通知此链路的使用用户。这些处理方法构成一个故障处理方案。
在本发明的一个实施例中,根据故障设备的运行状态信息对基准故障中的故障处理方案进行修改。通过修改故障处理方案可得到新的故障处理方案。
在本发明的一个实施例中,根据故障设备的运行状态信息在故障知识库中进行匹配时,匹配方式包括最大似然匹配或特征匹配。
具体的,最大似然匹配为,首先设置一个阈值p,然后在故障知识库中计算所有的已知故障与该故障的相同的故障现象的数目,并找出具有与该故障的相同的故障现象的最大数目的已知故障,如果该最大数据大于或者等于阈值p,则该已知故障与该故障匹配成功,该已知故障作为该故障的基准故障,如果该最大数据小于阈值p,则该已知故障与该故障未匹配成功。
特征匹配是指在故障知识库中找到一个已知故障具有与该故障的故障现象相同的特征,则匹配成功,该已知故障作为该故障的基准故障,或者找到一个已知故障符合该故障的故障现象的几个特征的逻辑组合,例如,数据转发延时高且ICMP监控有丢包等,则匹配成功,该已知故障作为该故障的基准故障。
在本发明的一个实施例中,如果故障设备的运行状态信息在故障知识库中进行匹配时,没有匹配成功,则通知网络故障处理人员进行处理。并将该故障的故障现象和故障处理方案存储到故障知识库中。
根据本发明实施例的网络故障处理方法,遍历故障数据库中的每个已知故障,从而提高了使用本方法进行网络故障处理时的精确度。
图3为本发明一个实施例的网络故障处理方法的流程图。
如图3所示,根据本发明实施例的网络故障处理方法包括下述步骤。
步骤S301,接收网络的告警信息。
具体地,告警信息包括m维度的子信息,例如,告警产生的时间、告警类型、告警所在设备区域、告警所在设备的类型、告警所在设备的角色、告警持续的时间等。告警信息反映网络故障设备的状态。
步骤S302,将告警信息与预设的故障规则进行匹配以确定告警信息对应的网络设备是否出现故障。
故障规则为告警信息的m个维度值特性的逻辑组合,其中,值特性的判定包括大于、等于、小于、属于等,逻辑组合包括与、或、非等。
步骤S303,如果判断网络设备出现故障,则将网络设备作为故障设备。
步骤S304,获得故障设备的运行状态信息。
具体地,获取故障设备的运行状态信息包括设备的日志信息、性能信息和操作日志信息等。
步骤S305,从故障知识库中获得每个已知故障对应的故障信息。
步骤S306,将故障设备的运行状态信息与每个已知故障对应的故障信息进行匹配以确定故障设备对应的已知故障,并将已知故障作为基准故障。
具体地,首先将获得的故障设备的运行状态信息进行分析,获得与故障知识库中的已知故障相对应的信息表达方式,例如,将一个链路阻塞的故障设备的运行状态信息按照下述方式描述:a.网络转发延时很高,b.ICMP(Internet Control Message Protocol,Internet控制报文协议)监控有丢包,c.链路两端的端口包的错误计数增长较快。然后将新描述的故障设备的运行状态信息与每个已知故障对应的故障信息进行匹配,确定故障设备对应的已知故障,并将已知故障作为基准故障。
步骤S307,根据故障设备的运行状态信息对基准故障进行修改以形成新的已知故障,并将新的已知故障加入到故障知识库中。
具体地,根据故障设备的运行状态信息在故障知识库中进行匹配时,获得的基准故障并不能完全跟故障设备的运行状态相同,则需要根据故障设备的运行状态信息对基准故障进行修改,将修改后的故障设备的运行状态信息作为新的已知故障加入到故障知识库中,实现对故障知识库的更新。
步骤S308,根据新的已知故障对故障设备进行故障处理。
在本发明的一个实施例中,步骤S301、步骤S302和步骤S303是可选的,可用步骤S101或者步骤S201替换。
在本发明的一个实施例中,已知故障包括故障现象和故障处理方案。
具体地,故障现象包括故障发生时n个维度的子故障现象的集合,例如,当网络中某条传输链路发生拥塞时,此时出现多种子故障现象,包括:数据转发延时高、ICMP监控有丢包、针对此链路的流量监控产生报警、链路两端设备端口的包的错误计数增长较快、链路两端设备的CPU利用率比较高等,除此之外,故障所在的设备,也作为故障现象的一部分,例如故障发生设备的设备角色、设备厂商、设备型号等。这些现象构成一个故障现象。
故障处理方案包括针对该故障可采取的k个处理方法的集合,例如,对上述例子的故障,可以采取以下的措施:a.在链路两端设备加QoS(Quality of Service,服务质量,网络中的一种安全机制),保障重点流量传输,b.邮件通知此链路的使用用户。这些处理方法构成一个故障处理方案。
在本发明的一个实施例中,根据故障设备的运行状态信息对基准故障中的故障处理方案进行修改。通过修改故障处理方案可得到新的故障处理方案。
在本发明的一个实施例中,根据故障设备的运行状态信息在故障知识库中进行匹配时,匹配方式包括最大似然匹配或特征匹配。
具体的,最大似然匹配为,首先设置一个阈值p,然后在故障知识库中计算所有的已知故障与该故障的相同的故障现象的数目,并找出具有与该故障的相同的故障现象的最大数目的已知故障,如果该最大数据大于或者等于阈值p,则该已知故障与该故障匹配成功,该已知故障作为该故障的基准故障,如果该最大数据小于阈值p,则该已知故障与该故障未匹配成功。
特征匹配是指在故障知识库中找到一个已知故障具有与该故障的故障现象相同的特征,则匹配成功,该已知故障作为该故障的基准故障,或者找到一个已知故障符合该故障的故障现象的几个特征的逻辑组合,例如,数据转发延时高且ICMP监控有丢包等,则匹配成功,该已知故障作为该故障的基准故障。
在本发明的一个实施例中,如果故障设备的运行状态信息在故障知识库中进行匹配时,没有匹配成功,则通知网络故障处理人员进行处理。并将该故障的故障现象和故障处理方案存储到故障知识库模块200的故障知识库中。
根据本发明实施例的网络故障处理方法,根据告警信息与预设的故障规则进行匹配以定位网络故障的设备,从而更加快速及准确地实现网络故障的定位。
下面结合具体的示例说明本发明实施例的网络故障处理方法,通过具体示例的描述,本发明的方面和优点将变得更加明显。应理解的是,以下所描述的示例仅作理解本发明实施例的网络故障处理方法,不能作为本发明保护范围的限制。
在故障知识库中存储了2个已知故障Case1和Case2,已知故障Case1和Case2具体描述如下:
已知故障Case1:
故障现象:a.网络转发延时很高;b.ICMP监控有丢包;c.链路两端端口的包错误计数增长较快;d.设备角色为边缘设备;e.设备厂商为H3C;f.设备型号为S12500。
故障处理方案:a.在链路两端设备加QoS,保障重点流量传输;b.邮件通知此链路的使用用户。
已知故障Case2:
故障现象:a.ICMP监控有丢包;b.针对此链路的流量监控产生报警;c.链路两端端口的包错误计数增长较快;d.设备角色为核心设备;e.设备厂商为CISCO;f.设备型号为C6904。
故障处理方案:a.在链路两端设备加ACL,禁止某些流量传输;b.邮件通知此链路的使用用户;c.调整此链路在整个网络中的权值,让部分流量走其它链路通过。
现有一个新故障CaseNew产生,其中:
故障现象:a.网络转发延时很高;b.ICMP监控有丢包;c.针对此链路的流量监控产生报警,并且发生故障所在设备的;d.设备角色为核心设备;e.设备厂商为CISCO;f.设备型号为C6900。
将新故障CaseNew与已知故障知识库的已知故障Case1和Case2进行比较。当与已知故障Case1进行比较,有2个条件相互匹配;与已知故障Case2进行比较,有4个条件相互匹配。根据最大似然匹配的原则,则新故障CaseNew与已知故障Case2最大似然相似,可能是类似的故障,将已知故障Case2作为基准故障,并将已知故障Case2的故障处理方案作为CaseNew的基准故障处理方案。
在对基准故障处理方案进行修改以获得新故障CaseNew的最终故障处理方案,具体地修改方法可以根据新故障CaseNew的故障现象,进行以下两种情况的修改:
a.将基准故障处理方案中,某些故障处理方法移除,即出现某些故障现象时不适合采用该故障处理方法,例如,当设备的角色为边缘设备时,无需采用调整此链路在整个网络中的权值的处理方法。
b.将某些故障处理方法,添加到基准故障处理方案中,即出现某些故障现象时必须采用该故障处理方法,例如,当设备的厂商为H3C时,必须通知到H3C设备的负责人的处理方法。
经过两种方式的修改后的故障处理方案为新故障CaseNew的故障处理方案,并根据故障处理方案进行相应的故障处理。故障处理完毕后,将新故障CaseNew加入到故障知识库中,其中新故障CaseNew包括自己的故障现象和故障处理方案。
下面参考说明书附图描述根据本发明实施例的网络故障处理装置。
一种网络故障处理装置,包括:信息收集模块,用于接收网络的告警信息以确定故障设备,并获得故障设备的运行状态信息;故障知识库模块,用于保存已知故障;故障分析模块,用于根据故障设备的运行状态信息在故障知识库中确定故障设备对应的已知故障,并将已知故障作为基准故障,以及根据故障设备的运行状态信息对基准故障进行修改以形成新的已知故障,并将新的已知故障加入到故障知识库模块中;故障处理模块,用于根据新的已知故障对故障设备进行故障处理。
图4为本发明一个实施例的网络故障处理装置的结构框图。
如图4所示,根据本发明实施例的网络故障处理装置包括信息收集模块100、故障知识库模块200、故障分析模块300和故障处理模块400。
其中,信息收集模块100用于接收网络的告警信息以确定故障设备,并获得故障设备的运行状态信息。故障知识库模块200用于保存已知故障。故障分析模块300用于根据故障设备的运行状态信息在故障知识库中确定故障设备对应的已知故障,并将已知故障作为基准故障,以及根据故障设备的运行状态信息对基准故障进行修改以形成新的已知故障,并将新的已知故障加入到故障知识库模块中。故障处理模块400用于根据新的已知故障对故障设备进行故障处理。
具体地,信息收集模块100被动的接收网络发出的告警信息,其中,告警信息包括m维度的子信息,例如,告警产生的时间、告警类型、告警所在设备区域、告警所在设备的类型、告警所在设备的角色、告警持续的时间等。告警信息反映网络故障设备的状态,根据m维度的告警信息确定发生网络故障的设备,例如,通过告警信息的告警所在设备的类型及告警所在设备的角色子信息可以确定发生故障的设备。同时,信息收集模块100主动的获得故障设备的运行状态信息,其中,获取故障设备的运行状态信息包括设备的日志信息、性能信息和操作日志信息等。
故障分析模块300首先根据信息收集模块100所获得的故障设备的运行状态信息进行分析,获得与故障知识库中的已知故障相对应的信息表达方式,例如,将一个链路阻塞的故障设备的运行状态信息按照下述方式描述:a.网络转发延时很高,b.ICMP(Internet Control Message Protocol,Internet控制报文协议)监控有丢包,c.链路两端的端口包的错误计数增长较快。然后将新描述的故障设备的运行状态信息在故障知识库模块200的故障知识库中进行匹配查询,确定故障设备对应的已知故障,并将已知故障作为基准故障。最后,根据故障设备的运行状态信息对基准故障进行修改,这是因为根据故障设备的运行状态信息在故障知识库中进行匹配时,获得的基准故障并不能完全跟故障设备的运行状态相同,并将修改后的故障设备的运行状态信息作为新的已知故障加入到故障知识库中,实现对故障知识库的更新。
在本发明的一个实施例中,已知故障包括故障现象和故障处理方案。
具体地,故障现象包括故障发生时n个维度的子故障现象的集合,例如,当网络中某条传输链路发生拥塞时,此时出现多种子故障现象,包括:数据转发延时高、ICMP监控有丢包、针对此链路的流量监控产生报警、链路两端设备端口的包的错误计数增长较快、链路两端设备的CPU利用率比较高等,除此之外,故障所在的设备,也作为故障现象的一部分,例如故障发生设备的设备角色、设备厂商、设备型号等。这些现象构成一个故障现象。
故障处理方案包括针对该故障可采取的k个处理方法的集合,例如,对上述例子的故障,可以采取以下的措施:a.在链路两端设备加QoS(Quality of Service,服务质量,网络中的一种安全机制),保障重点流量传输,b.邮件通知此链路的使用用户。这些处理方法构成一个故障处理方案。
在本发明的一个实施例中,根据故障设备的运行状态信息对基准故障中的故障处理方案进行修改。通过修改故障处理方案可得到新的故障处理方案。
在本发明的一个实施例中,根据故障设备的运行状态信息在故障知识库中进行匹配时,匹配方式包括最大似然匹配或特征匹配。
具体的,最大似然匹配为,首先设置一个阈值p,然后在故障知识库中计算所有的已知故障与该故障的相同的故障现象的数目,并找出具有与该故障的相同的故障现象的最大数目的已知故障,如果该最大数据大于或者等于阈值p,则该已知故障与该故障匹配成功,该已知故障作为该故障的基准故障,如果该最大数据小于阈值p,则该已知故障与该故障未匹配成功。
特征匹配是指在故障知识库中找到一个已知故障具有与该故障的故障现象相同的特征,则匹配成功,该已知故障作为该故障的基准故障,或者找到一个已知故障符合该故障的故障现象的几个特征的逻辑组合,例如,数据转发延时高且ICMP监控有丢包等,则匹配成功,该已知故障作为该故障的基准故障。
在本发明的一个实施例中,如果故障设备的运行状态信息在故障知识库中进行匹配时,没有匹配成功,则通知网络故障处理人员进行处理。并将该故障的故障现象和故障处理方案存储到故障知识库模块200的故障知识库中。
根据本发明实施例的网络故障处理装置,当设备发生故障时,通过获取故障设备的运行状态信息,对设备故障的故障原因进行分析处理,一方面克服依靠网络故障处理人员的经验处理设备故障时容易出错的缺陷,另一方面该装置具有通用性,从而提高了处理网络故障的效率,减少了网络发生故障时带来的损失,同时故障知识库可以不断地增加新的故障知识,实现自学习的功能。该装置可以极大程度的实现网络故障处理的自动化。
图5为本发明一个实施例的网络故障处理装置的结构框图。
如图5所示,根据本发明实施例的网络故障处理装置包括信息收集模块100、故障知识库模块200、确定子模块310、修改子模块320、添加子模块330和故障处理模块400。
具体地,信息收集模块100用于接收网络的告警信息以确定故障设备,并获得故障设备的运行状态信息。故障知识库模块200用于保存已知故障。确定子模块310用于根据故障设备的运行状态信息在故障知识库中确定故障设备对应的已知故障,并将已知故障作为基准故障。修改子模块320用于根据故障设备的运行状态信息对基准故障中的故障处理方案进行修改以形成新的已知故障。添加子模块330用于将新的已知故障加入到故障知识库模块200中。故障处理模块400用于根据新的已知故障对故障设备进行故障处理。
具体地,确定子模块310根据信息收集模块100所获得的故障设备的运行状态信息进行分析,获得与故障知识库中的已知故障相对应的信息表达方式,例如,将一个链路阻塞的故障设备的运行状态信息按照下述方式描述:a.网络转发延时很高,b.ICMP(Internet Control Message Protocol,Internet控制报文协议)监控有丢包,c.链路两端的端口包的错误计数增长较快,并将新描述的故障设备的运行状态信息在故障知识库模块200的故障知识库中进行匹配查询,确定故障设备对应的已知故障,并将已知故障作为基准故障。
修改子模块320根据故障设备的运行状态信息对基准故障进行修改,这是因为根据故障设备的运行状态信息在故障知识库中进行匹配时,获得的基准故障并不能完全跟故障设备的运行状态相同。
添加子模块330将修改后的故障设备的运行状态信息作为新的已知故障加入到故障知识库中,实现对故障知识库的更新。
在本发明的一个实施例中,确定子模块310从故障知识库中获得每个已知故障对应的故障信息,并将故障设备的运行状态信息与每个已知故障对应的故障信息进行匹配以确定所述故障设备对应的已知故障。
在本发明的一个实施例中,故障分析模块300包括确定子模块310、修改子模块320和添加子模块330,确定子模块310、修改子模块320和添加子模块330为可选的,可用故障分析模块300代替。
在本发明的一个实施例中,已知故障包括故障现象和故障处理方案。
具体地,故障现象包括故障发生时n个维度的子故障现象的集合,例如,当网络中某条传输链路发生拥塞时,此时出现多种子故障现象,包括:数据转发延时高、ICMP监控有丢包、针对此链路的流量监控产生报警、链路两端设备端口的包的错误计数增长较快、链路两端设备的CPU利用率比较高等,除此之外,故障所在的设备,也作为故障现象的一部分,例如故障发生设备的设备角色、设备厂商、设备型号等。这些现象构成一个故障现象。
故障处理方案包括针对该故障可采取的k个处理方法的集合,例如,对上述例子的故障,可以采取以下的措施:a.在链路两端设备加QoS(Quality of Service,服务质量,网络中的一种安全机制),保障重点流量传输,b.邮件通知此链路的使用用户。这些处理方法构成一个故障处理方案。
在本发明的一个实施例中,根据故障设备的运行状态信息对基准故障中的故障处理方案进行修改。通过修改故障处理方案可得到新的故障处理方案。
在本发明的一个实施例中,根据故障设备的运行状态信息在故障知识库中进行匹配时,匹配方式包括最大似然匹配或特征匹配。
具体的,最大似然匹配为,首先设置一个阈值p,然后在故障知识库中计算所有的已知故障与该故障的相同的故障现象的数目,并找出具有与该故障的相同的故障现象的最大数目的已知故障,如果该最大数据大于或者等于阈值p,则该已知故障与该故障匹配成功,该已知故障作为该故障的基准故障,如果该最大数据小于阈值p,则该已知故障与该故障未匹配成功。
特征匹配是指在故障知识库中找到一个已知故障具有与该故障的故障现象相同的特征,则匹配成功,该已知故障作为该故障的基准故障,或者找到一个已知故障符合该故障的故障现象的几个特征的逻辑组合,例如,数据转发延时高且ICMP监控有丢包等,则匹配成功,该已知故障作为该故障的基准故障。
在本发明的一个实施例中,如果故障设备的运行状态信息在故障知识库中进行匹配时,没有匹配成功,则通知网络故障处理人员进行处理。并将该故障的故障现象和故障处理方案存储到故障知识库模块200的故障知识库中。
根据本发明实施例的网络故障处理装置,遍历故障数据库模块中的每个已知故障,从而提高了网络故障处理装置进行网络故障处理时的精确度。
图6为本发明一个实施例的网络故障处理装置的结构框图。
如图6所示,根据本发明实施例的网络故障处理装置包括接收子模块110、匹配子模块120、获取子模块130、故障知识库模块200、确定子模块310、修改子模块320、添加子模块330和故障处理模块400。
其中,接收子模块110用于接收网络的告警信息。匹配子模块120用于将告警信息与预设的故障规则进行匹配以确定告警信息对应的网络设备是否出现,并将网络设备作为故障设备。获取子模块130用于获取故障设备的运行状态信息。故障分析模块300用于根据故障设备的运行状态信息在故障知识库中确定故障设备对应的已知故障,并将已知故障作为基准故障,以及根据故障设备的运行状态信息对基准故障进行修改以形成新的已知故障,并将新的已知故障加入到故障知识库模块中。故障处理模块400用于根据新的已知故障对故障设备进行故障处理。
具体地,接收子模块110用于被动的接收网络发出的告警信息,其中,告警信息包括m维度的子信息,例如,告警产生的时间、告警类型、告警所在设备区域、告警所在设备的类型、告警所在设备的角色、告警持续的时间等。告警信息反映网络故障设备的状态。
匹配子模块120依据的故障规则为告警信息的m个维度值特性的逻辑组合,其中,值特性的判定包括大于、等于、小于、属于等,逻辑组合包括与、或、非等。
获取子模块130获取的故障设备的运行状态信息包括设备的日志信息、性能信息和操作日志信息等。
在本发明的一个实施例中,信息收集模块100包括接收子模块110、匹配子模块120和获取子模块130,接收子模块110、匹配子模块120和获取子模块130为可选的,可用信息收集模块100代替。
在本发明的一个实施例中,已知故障包括故障现象和故障处理方案。
具体地,故障现象包括故障发生时n个维度的子故障现象的集合,例如,当网络中某条传输链路发生拥塞时,此时出现多种子故障现象,包括:数据转发延时高、ICMP监控有丢包、针对此链路的流量监控产生报警、链路两端设备端口的包的错误计数增长较快、链路两端设备的CPU利用率比较高等,除此之外,故障所在的设备,也作为故障现象的一部分,例如故障发生设备的设备角色、设备厂商、设备型号等。这些现象构成一个故障现象。
故障处理方案包括针对该故障可采取的k个处理方法的集合,例如,对上述例子的故障,可以采取以下的措施:a.在链路两端设备加QoS(Quality of Service,服务质量,网络中的一种安全机制),保障重点流量传输,b.邮件通知此链路的使用用户。这些处理方法构成一个故障处理方案。
在本发明的一个实施例中,根据故障设备的运行状态信息对基准故障中的故障处理方案进行修改。通过修改故障处理方案可得到新的故障处理方案。
在本发明的一个实施例中,根据故障设备的运行状态信息在故障知识库中进行匹配时,匹配方式包括最大似然匹配或特征匹配。
具体的,最大似然匹配为,首先设置一个阈值p,然后在故障知识库中计算所有的已知故障与该故障的相同的故障现象的数目,并找出具有与该故障的相同的故障现象的最大数目的已知故障,如果该最大数据大于或者等于阈值p,则该已知故障与该故障匹配成功,该已知故障作为该故障的基准故障,如果该最大数据小于阈值p,则该已知故障与该故障未匹配成功。
特征匹配是指在故障知识库中找到一个已知故障具有与该故障的故障现象相同的特征,则匹配成功,该已知故障作为该故障的基准故障,或者找到一个已知故障符合该故障的故障现象的几个特征的逻辑组合,例如,数据转发延时高且ICMP监控有丢包等,则匹配成功,该已知故障作为该故障的基准故障。
在本发明的一个实施例中,如果故障设备的运行状态信息在故障知识库中进行匹配时,没有匹配成功,则通知网络故障处理人员进行处理。并将该故障的故障现象和故障处理方案存储到故障知识库模块200的故障知识库中。
根据本发明实施例的网络故障处理装置,根据告警信息与预设的故障规则进行匹配以定位网络故障的设备,从而网络故障处理装置可更加快速及准确地对网络故障进行定位。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同限定。

Claims (11)

1.一种网络故障处理方法,其特征在于,包括以下步骤:
接收网络的告警信息以确定故障设备;
获得所述故障设备的运行状态信息;
根据所述故障设备的运行状态信息采用匹配方式,在故障知识库中确定所述故障设备对应的已知故障,并将所述已知故障作为基准故障;
自动根据所述故障设备的运行状态信息对所述基准故障中的基准故障处理方案进行修改以形成新的已知故障,并将所述新的已知故障加入到所述故障知识库中;以及
自动根据所述新的已知故障对所述故障设备进行故障处理。
2.如权利要求1所述的网络故障处理方法,其特征在于,其中,所述已知故障包括故障现象和故障处理方案。
3.如权利要求1-2任一项所述的网络故障处理方法,其特征在于,所述根据故障设备的运行状态信息采用匹配方式,在故障知识库中确定所述故障设备对应的已知故障进一步包括:
从所述故障知识库中获得每个已知故障对应的故障信息;以及
将所述故障设备的运行状态信息与所述每个已知故障对应的故障信息进行匹配以确定所述故障设备对应的已知故障。
4.如权利要求3所述的网络故障处理方法,其特征在于,所述匹配包括最大似然匹配或特征匹配。
5.如权利要求1-2任一项所述的网络故障处理方法,其特征在于,所述接收网络的告警信息以确定故障设备进一步包括:
接收网络的告警信息;
将所述告警信息与预设的故障规则进行匹配以确定所述告警信息对应的网络设备是否出现故障;
如果判断所述网络设备出现故障,则将所述网络设备作为故障设备。
6.一种网络故障处理装置,其特征在于,包括:
信息收集模块,用于接收网络的告警信息以确定故障设备,并获得所述故障设备的运行状态信息;
故障知识库模块,用于保存已知故障;
故障分析模块,用于自动根据所述故障设备的运行状态信息采用匹配方式,在故障知识库中确定所述故障设备对应的已知故障,并将所述已知故障作为基准故障,以及根据所述故障设备的运行状态信息对所述基准故障中的基准故障处理方案进行修改以形成新的已知故障,并将所述新的已知故障加入到所述故障知识库模块中;以及
故障处理模块,用于自动根据所述新的已知故障对所述故障设备进行故障处理。
7.如权利要求6所述的网络故障处理装置,其特征在于,其中,所述已知故障包括故障现象和故障处理方案。
8.如权利要求7所述的网络故障处理装置,其特征在于,所述故障分析模块进一步包括:
确定子模块,用于根据所述故障设备的运行状态信息采用匹配方式,在故障知识库中确定所述故障设备对应的已知故障,并将所述已知故障作为基准故障;
修改子模块,用于根据所述故障设备的运行状态信息对所述基准故障中的故障处理方案进行修改以形成新的已知故障;以及
添加子模块,用于将所述新的已知故障加入到所述故障知识库模块中。
9.如权利要求8所述的网络故障处理装置,其特征在于,所述确定子模块从所述故障知识库中获得每个已知故障对应的故障信息,并将所述故障设备的运行状态信息与所述每个已知故障对应的故障信息进行匹配以确定所述故障设备对应的已知故障。
10.如权利要求9所述的网络故障处理装置,其特征在于,所述匹配包括最大似然匹配或特征匹配。
11.如权利要求6所述的网络故障处理装置,其特征在于,所述信息收集模块进一步包括:
接收子模块,用于接收网络的告警信息;
匹配子模块,用于将所述告警信息与预设的故障规则进行匹配以确定所述告警信息对应的网络设备是否出现,并将所述网络设备作为故障设备;以及
获取子模块,用于获取所述故障设备的运行状态信息。
CN201110379243.7A 2011-11-24 网络故障处理方法及装置 Active CN103138960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110379243.7A CN103138960B (zh) 2011-11-24 网络故障处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110379243.7A CN103138960B (zh) 2011-11-24 网络故障处理方法及装置

Publications (2)

Publication Number Publication Date
CN103138960A CN103138960A (zh) 2013-06-05
CN103138960B true CN103138960B (zh) 2016-12-14

Family

ID=

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000209202A (ja) * 1999-01-14 2000-07-28 Nec Corp ネットワ―ク障害管理方式
CN101582811A (zh) * 2008-05-13 2009-11-18 新奥特(北京)视频技术有限公司 一种建立网络监控和运维管理一体化的方法
CN101833497A (zh) * 2010-03-30 2010-09-15 山东高效能服务器和存储研究院 一种基于专家系统方法的计算机故障管理系统
CN102130783A (zh) * 2011-01-24 2011-07-20 浪潮通信信息系统有限公司 神经网络的智能化告警监控方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000209202A (ja) * 1999-01-14 2000-07-28 Nec Corp ネットワ―ク障害管理方式
CN101582811A (zh) * 2008-05-13 2009-11-18 新奥特(北京)视频技术有限公司 一种建立网络监控和运维管理一体化的方法
CN101833497A (zh) * 2010-03-30 2010-09-15 山东高效能服务器和存储研究院 一种基于专家系统方法的计算机故障管理系统
CN102130783A (zh) * 2011-01-24 2011-07-20 浪潮通信信息系统有限公司 神经网络的智能化告警监控方法

Similar Documents

Publication Publication Date Title
US11171853B2 (en) Constraint-based event-driven telemetry
CN103544093B (zh) 监控报警控制方法及其系统
CN103067192B (zh) 一种网络流量的分析系统及方法
US11080619B2 (en) Predicting wireless access point radio failures using machine learning
US7760859B2 (en) Intelligent communications network tap port aggregator
CN103220173B (zh) 一种报警监控方法及监控系统
CN104486153B (zh) 一种基于fpga的智能变电站过程层网络传输性能监测方法
US20120263072A1 (en) Ethernet traffic statistics and analysis method and system
CN103957538B (zh) 一种网络质量探测方法和设备
CN107547228B (zh) 一种基于大数据的安全运维管理平台的实现架构
KR20180120558A (ko) 딥러닝 기반 통신망 장비의 장애 예측 시스템 및 방법
WO2012041555A1 (en) Method for determining a severity of a network incident
CN103139246B (zh) 负载均衡设备和负载均衡及防御方法
CN111147286B (zh) Ipran网络环路监控方法及装置
US8826296B2 (en) Method of supervising a plurality of units in a communications network
CN105141469A (zh) 多站点环境中的性能监测
CN109302323B (zh) 一种交换机动态监测系统
CN109309577A (zh) 用于sdn网络的告警处理方法、装置及系统
WO2015180265A1 (zh) 多链路保护倒换的方法及装置
CN103138960B (zh) 网络故障处理方法及装置
US9641247B2 (en) System and method for monitoring unknown resources
CN110896544B (zh) 故障定界方法及装置
CN107465527A (zh) 一种网元、保护倒换方法及其系统
CN105530132A (zh) Cdocsis平台下catv光收模块的管理系统及方法
CN101431435A (zh) 一种基于面向连接的业务配置与管理方法

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant