CN114389940A - 故障恢复预案确定方法、装置及系统、计算机存储介质 - Google Patents
故障恢复预案确定方法、装置及系统、计算机存储介质 Download PDFInfo
- Publication number
- CN114389940A CN114389940A CN202011622270.8A CN202011622270A CN114389940A CN 114389940 A CN114389940 A CN 114389940A CN 202011622270 A CN202011622270 A CN 202011622270A CN 114389940 A CN114389940 A CN 114389940A
- Authority
- CN
- China
- Prior art keywords
- fault
- target
- root cause
- faults
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011084 recovery Methods 0.000 title claims abstract description 427
- 238000000034 method Methods 0.000 title claims abstract description 114
- 238000012549 training Methods 0.000 claims description 115
- 238000004458 analytical method Methods 0.000 claims description 103
- 230000002159 abnormal effect Effects 0.000 claims description 50
- 238000004590 computer program Methods 0.000 claims description 25
- 230000010355 oscillation Effects 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 8
- 230000006855 networking Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 21
- 238000002955 isolation Methods 0.000 description 15
- 238000012423 maintenance Methods 0.000 description 11
- 230000009471 action Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 101100352432 Caenorhabditis elegans acl-6 gene Proteins 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 208000018910 keratinopathic ichthyosis Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0604—Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
- H04L41/0627—Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time by acting on the notification or alarm source
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请公开了一种故障恢复预案确定方法、装置及系统、计算机存储介质,属于网络技术领域。首先控制设备获取多个已知故障中,故障根因与网络中的目标故障的故障根因满足相似度条件的相似已知故障。然后控制设备获取该相似已知故障对应的故障恢复预案。控制设备基于该相似已知故障对应的故障恢复预案,确定目标故障对应的故障恢复预案。本申请中,无论目标故障是否是已知故障,只要能够在已知故障中找到故障根因与该目标故障的故障根因满足相似度条件的相似已知故障,就能确定该目标故障对应的故障恢复预案,扩大了能够处理的故障范围。
Description
本申请要求于2020年10月20日提交的申请号为202011123661.5、发明名称为“实现故障恢复预案推荐的方法、装置和系统”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及网络技术领域,特别涉及一种故障恢复预案确定方法、装置及系统、计算机存储介质。
背景技术
网络故障是指由于硬件问题、软件问题或网络攻击等原因导致网络无法提供正常服务或服务质量较差。发生网络故障后,采用传统运维方式进行故障恢复的过程中,需要依靠人工判断后根据经验给出故障恢复预案,自动化程度低且效率低。
目前,通常依赖于专家经验以及现网的故障案例制定一系列专家规则,专家规则包括故障以及该故障对应的故障恢复预案。当发生网络故障时,管理设备基于制定的专家规则确定该故障对应的故障恢复预案,然后实施该故障恢复预案以对网络进行故障修复,缩短了网络设备由故障状态转为工作状态所耗费的时间。其中,网络设备由故障状态转为工作状态所耗费的时间也可称为平均恢复时间(mean time to recovery,MTTR)。
但是,由于目前专家规则通常采用硬编码的方式指定故障对应的故障恢复预案,因此只能处理专家规则中包含的故障,能够处理的故障范围有限。
发明内容
本申请提供了一种故障恢复预案确定方法、装置及系统、计算机存储介质,可以解决目前基于专家规则能够处理的故障范围有限的问题。
第一方面,提供了一种故障恢复预案确定方法。该方法包括:控制设备获取多个已知故障中,故障根因与网络中的目标故障的故障根因满足相似度条件的相似已知故障。控制设备获取相似已知故障对应的故障恢复预案。控制设备基于相似已知故障对应的故障恢复预案,确定目标故障对应的故障恢复预案。
本申请中,控制设备能够基于网络中的目标故障的相似已知故障对应的故障恢复预案确定该目标故障对应的故障恢复预案,也即是,无论目标故障是否是已知故障,只要能够在已知故障中找到故障根因与该目标故障的故障根因满足相似度条件的相似已知故障,就能确定该目标故障对应的故障恢复预案,扩大了能够处理的故障范围。另外,由于网络中的一个故障可能会引发多个连锁故障,而故障根因能够反映故障的根本所在,因此基于故障根因来查找网络中的故障的相似已知故障,找到的相似已知故障与该故障的匹配度较高,该相似已知故障对应的故障恢复预案适用于该故障的可能性也较高,进而使得确定的故障恢复预案的可靠性较高。
可选地,故障根因采用故障根因特征表示,故障根因特征包括故障根因对象和故障根因事件,其中,故障根因事件为导致故障的异常事件,故障根因对象用于指示故障根因网络实体的类型,故障根因网络实体为故障根因事件所属的网络实体。故障根因对象可以理解为故障根因网络实体的本体,故障根因网络实体可以理解为故障根因对象的实例化。故障根因对象的类型包括设备、接口、协议或业务。
可选地,故障根因网络实体为物理接口,故障根因特征还包括故障根因网络实体的接口闪断指示、故障根因网络实体的接口假死指示、故障根因网络实体的收发报文状态、故障根因网络实体的接口协议状态或故障根因网络实体所在设备的物理接口状态中的一个或多个。或者,故障根因网络实体为BGP对等体,故障根因特征还包括故障根因网络实体的BGP路由震荡指示和/或故障根因网络实体所在设备的物理接口状态。又或者,不限于故障根因网络实体的类型,故障根因特征还包括故障根因网络实体所在设备的物理接口状态。
第一种情况,控制设备获取多个已知故障中,故障根因与网络中的目标故障的故障根因满足相似度条件的相似已知故障的实现过程,包括:控制设备获取多个已知故障的故障根因特征。对于多个已知故障中的每个已知故障,控制设备根据目标故障的故障根因特征以及已知故障的故障根因特征,计算目标故障的故障根因与已知故障的故障根因之间的相似度。控制设备根据目标故障的故障根因与多个已知故障的故障根因之间的相似度,确定多个已知故障中故障根因与目标故障的故障根因满足相似度条件的相似已知故障。
在一种可能实现方式中,控制设备根据目标故障的故障根因与多个已知故障的故障根因之间的相似度,确定多个已知故障中故障根因与目标故障的故障根因满足相似度条件的相似已知故障的实现过程,包括:控制设备将多个已知故障中,故障根因与目标故障的故障根因之间的相似度高于相似度阈值的已知故障确定为相似已知故障。
该实现方式中,基于相似度阈值在已知故障中查找目标故障的相似故障,确定的相似故障的准确度较高,进而可以使得确定的目标故障对应的故障恢复预案的可靠性较高。
在另一种可能实现方式中,控制设备对目标故障的故障根因与多个已知故障的故障根因之间的相似度进行排序,并将故障根因与目标故障的故障根因之间相似度最高的n个已知故障作为目标故障的相似已知故障,n为正整数。
该实现方式中,总能在已知故障中找到目标故障的相似已知故障,进而总能确定目标故障对应的故障恢复预案,能够处理的故障范围较大。
在又一种可能实现方式中,管理设备将多个已知故障中满足故障根因与目标故障的故障根因之间的相似度高于相似度阈值,且按照故障根因与目标故障的故障根因之间的相似度由高至低的排序方式属于前m个的已知故障作为目标故障的相似已知故障,m为正整数。
该实现方式中,能够对故障根因与目标故障的故障根因之间的相似度高于相似度阈值的已知故障进行筛选,既能保证确定的相似故障的准确度,又能限制确定的相似故障的数量,减小后续计算量。
可选地,控制设备根据目标故障的故障根因特征以及已知故障的故障根因特征,计算目标故障的故障根因与已知故障的故障根因之间的相似度的实现过程,包括:控制设备向相似度模型输入目标故障的故障根因特征以及已知故障的故障根因特征,以获取相似度模型输出的目标故障的故障根因与已知故障的故障根因之间的相似度,相似度模型基于多个样本故障的故障根因特征训练得到,样本故障标注有类别标签,其中,标注有相同类别标签的样本故障对应的故障恢复预案相同。
可选地,控制设备采用多个样本故障的故障根因特征,训练得到相似度模型。
可选地,控制设备还可以向相似度模型分次输入多个样本故障对的故障根因特征,以获取相似度模型输出的每个样本故障对的故障根因之间的相似度,多个样本故障对包括第一类样本故障对和第二类样本故障对,第一类样本故障对包括两个标注有相同类别标签的样本故障,第二类样本故障对包括两个标注有不同类别标签的样本故障。控制设备根据多个样本故障对的故障根因之间的相似度,确定相似度阈值。
或者,控制设备接收来自训练设备的相似度模型和/或相似度阈值。该训练设备为控制设备的上层设备。
本申请中,由训练设备统一训练相似度模型和/或确定相似度阈值,可以使该训练设备所管理的所有控制设备共享相似度模型和/或相似度阈值,减小了控制设备的计算量。
可选地,控制设备还可以接收来自训练设备的故障根因特征集合,该故障根因特征集合包括多个已知故障与故障根因特征之间的对应关系。则控制设备获取多个已知故障的故障根因特征的实现过程,包括:控制设备基于故障根因特征集合,获取多个已知故障的故障根因特征。
可选地,控制设备还可以向训练设备发送目标故障的标识以及目标故障的故障根因特征,以供训练设备在故障根因特征集合中添加目标故障与该目标故障的故障根因特征之间的对应关系,得到更新后的故障根因特征集合。
本申请中,控制设备可以向训练设备实时上报现网故障的故障根因特征,实现了训练设备对故障根因特征集合的自动更新,从而可以扩大能够处理的故障范围。
可选地,当网络发生故障时,控制设备获取网络中产生的异常事件。控制设备基于网络中产生的异常事件,确定故障的故障根因特征。目标故障可以是网络中的任一故障。
第二种情况,控制设备获取多个已知故障中,故障根因与网络中的目标故障的故障根因满足相似度条件的相似已知故障的实现过程,包括:控制设备接收来自分析设备的目标故障对应的相似故障信息,相似故障信息包括目标故障的标识和相似故障列表,相似故障列表包括目标故障的一个或多个相似已知故障。
可选地,相似故障信息还包括目标故障的故障根因特征。
在第二种情况中,由分析设备在多个已知故障中确定目标故障的相似已知故障,再将该相似已知故障的信息发送给控制设备。分析设备确定目标故障的相似已知故障的方式可参考上述第一种情况中控制设备确定目标故障的相似已知故障的方式,本申请在此不再赘述。
可选地,控制设备基于相似已知故障对应的故障恢复预案,确定目标故障对应的故障恢复预案的实现过程,包括:控制设备基于网络的网络配置,评估相似已知故障对应的故障恢复预案的可行性,网络配置包括组网拓扑和/或设备数据,设备数据包括管理面数据、数据面数据或控制面数据中的一种或多种。控制设备将可行的故障恢复预案中的一个或多个故障恢复预案确定为目标故障对应的故障恢复预案。
可选地,控制设备将可行的故障恢复预案中的一个或多个故障恢复预案确定为目标故障对应的故障恢复预案的实现过程,包括:响应于多个故障恢复预案可行,控制设备基于网络的网络配置,分别评估多个故障恢复预案对网络所运行业务的影响程度。控制设备将多个故障恢复预案中,对网络所运行业务的影响程度最小的故障恢复预案确定为目标故障对应的故障恢复预案。
本申请中,控制设备将目标故障的相似已知故障对应的故障恢复预案中,对网络所运行业务的影响程度最小的故障恢复预案确定为目标故障对应的故障恢复预案,既可以解决目标故障,又可以尽可能地降低对网络所运行业务的影响,提高网络运行的可靠性和稳定性。
可选地,控制设备还可以基于目标故障以及目标故障对应的故障恢复预案,确定网络中待执行预案的目标网络设备。控制设备向目标网络设备发送预案执行指令,预案执行指令用于指示目标网络设备执行目标故障对应的故障恢复预案,该预案执行指令包括目标故障对应的故障恢复预案。
本申请中,控制设备在确定目标故障对应的故障恢复预案之后,还可以向网络中需要执行该故障恢复预案的相关网络设备分发该故障恢复预案,以实现端到端地故障恢复。
可选地,控制设备还可以向目标网络设备发送预案执行回退指令,该预案执行回退指令用于指示目标网络设备恢复至执行目标故障对应的故障恢复预案之前的状态。
可选地,响应于接收到回退触发指令,控制设备向目标网络设备发送预案执行回退指令。
本申请中,控制设备在向目标网络设备发送预案执行指令之后,还可以向目标网络设备发送预案执行回退指令,以指示目标网络设备恢复至执行故障恢复预案之前的状态,实现了网络设备的状态回滚功能。在网络设备执行了不合理的故障恢复预案的场景下,该功能可以快速使网络设备恢复至原始状态,提高网络运行可靠性。
可选地,控制设备接收来自训练设备的故障恢复预案集合,该故障恢复预案集合包括多个已知故障与故障恢复预案之间的对应关系。则控制设备获取相似已知故障对应的故障恢复预案的实现过程,包括:控制设备基于故障恢复预案集合,获取相似已知故障对应的故障恢复预案。
可选地,控制设备向训练设备发送目标故障的标识以及目标故障对应的故障恢复预案,以供训练设备在故障恢复预案集合中添加目标故障与目标故障对应的故障恢复预案之间的对应关系,得到更新后的故障恢复预案集合。
本申请中,控制设备可以向训练设备实时上报现网故障对应的故障恢复预案,实现了训练设备对故障恢复预案集合的自动更新,从而扩大能够处理的故障范围,另外无需人工方式总结故障对应的故障恢复预案并采用硬编码方式,提高了故障恢复预案的扩展灵活性,降低了维护难度。
第二方面,提供了一种故障恢复预案确定方法。该方法包括:分析设备获取多个已知故障中,故障根因与网络中的目标故障的故障根因满足相似度条件的相似已知故障。分析设备向控制设备发送目标故障对应的相似故障信息,相似故障信息包括目标故障的标识和相似故障列表,相似故障列表包括目标故障的一个或多个相似已知故障,相似故障信息用于控制设备确定目标故障对应的故障恢复预案。
可选地,相似故障信息还包括目标故障的故障根因特征。
可选地,分析设备获取多个已知故障中,故障根因与网络中的目标故障的故障根因满足相似度条件的相似已知故障的实现过程,包括:分析设备获取多个已知故障的故障根因特征。对于多个已知故障中的每个已知故障,分析设备根据目标故障的故障根因特征以及该已知故障的故障根因特征,计算目标故障的故障根因与该已知故障的故障根因之间的相似度。分析设备根据目标故障的故障根因与多个已知故障的故障根因之间的相似度,确定多个已知故障中故障根因与目标故障的故障根因满足相似度条件的相似已知故障。
可选地,分析设备根据目标故障的故障根因与多个已知故障的故障根因之间的相似度,确定多个已知故障中故障根因与目标故障的故障根因满足相似度条件的相似已知故障的实现过程,包括:分析设备将多个已知故障中,故障根因与目标故障的故障根因之间的相似度高于相似度阈值的已知故障确定为相似已知故障。
可选地,分析设备根据目标故障的故障根因特征以及已知故障的故障根因特征,计算目标故障的故障根因与已知故障的故障根因之间的相似度的实现过程,包括:分析设备向相似度模型输入目标故障的故障根因特征以及已知故障的故障根因特征,以获取相似度模型输出的目标故障的故障根因与已知故障的故障根因之间的相似度,相似度模型基于标注有类别标签的多个样本故障的故障根因特征训练得到,其中,标注有相同类别标签的样本故障对应的故障恢复预案相同。
第三方面,提供了一种故障恢复预案确定方法。该方法包括:训练设备获取相似度模型,相似度模型基于多个样本故障的故障根因特征训练得到,样本故障标注有类别标签,其中,标注有相同类别标签的样本故障对应的故障恢复预案相同。训练设备向分析设备发送相似度模型,供分析设备确定网络中发生的目标故障的相似已知故障,相似已知故障用于确定目标故障对应的故障恢复预案。
可选地,训练设备获取相似度模型的实现过程,包括:训练设备采用多个样本故障的故障根因特征,训练得到相似度模型。
可选地,训练设备还可以向相似度模型分次输入多个样本故障对的故障根因特征,以获取相似度模型输出的每个样本故障对的故障根因之间的相似度,多个样本故障对包括第一类样本故障对和第二类样本故障对,第一类样本故障对包括两个标注有相同类别标签的样本故障,第二类样本故障对包括两个标注有不同类别标签的样本故障。训练设备根据多个样本故障对的故障根因之间的相似度,确定相似度阈值。训练设备向分析设备发送相似度阈值。
可选地,训练设备还可以向分析设备发送故障根因特征集合,故障根因特征集合包括多个已知故障与故障根因特征之间的对应关系。训练设备还可以向控制设备发送故障恢复预案集合,故障恢复预案集合包括多个已知故障与故障恢复预案之间的对应关系。
可选地,训练设备还可以接收来自控制设备的目标故障的标识、目标故障的故障根因特征以及目标故障对应的故障恢复预案。训练设备在故障根因特征集合中添加目标故障与目标故障的故障根因特征之间的对应关系,得到更新后的故障根因特征集合,并在故障恢复预案集合中添加目标故障与目标故障对应的故障恢复预案之间的对应关系,得到更新后的故障恢复预案集合。
第四方面,提供了一种控制设备。所述控制设备包括多个功能模块,所述多个功能模块相互作用,实现上述第一方面及其各实施方式中的方法。所述多个功能模块可以基于软件、硬件或软件和硬件的结合实现,且所述多个功能模块可以基于具体实现进行任意组合或分割。
第五方面,提供了一种分析设备。所述分析设备包括多个功能模块,所述多个功能模块相互作用,实现上述第二方面及其各实施方式中的方法。所述多个功能模块可以基于软件、硬件或软件和硬件的结合实现,且所述多个功能模块可以基于具体实现进行任意组合或分割。
第六方面,提供了一种训练设备。所述训练设备包括多个功能模块,所述多个功能模块相互作用,实现上述第三方面及其各实施方式中的方法。所述多个功能模块可以基于软件、硬件或软件和硬件的结合实现,且所述多个功能模块可以基于具体实现进行任意组合或分割。
第七方面,提供了一种故障恢复预案确定系统。包括:控制设备和分析设备。
所述分析设备用于获取多个已知故障中,故障根因与网络中的目标故障的故障根因满足相似度条件的相似已知故障,并向所述控制设备发送所述目标故障对应的相似故障信息,所述相似故障信息包括所述目标故障的标识和相似故障列表,所述相似故障列表包括所述目标故障的一个或多个相似已知故障。所述控制设备用于获取所述相似已知故障对应的故障恢复预案,并基于所述相似已知故障对应的故障恢复预案,确定所述目标故障对应的故障恢复预案。
可选地,所述系统还包括:训练设备。
所述训练设备用于采用多个样本故障的故障根因特征,训练得到相似度模型,并向所述分析设备发送所述相似度模型,所述样本故障标注有类别标签,其中,标注有相同类别标签的样本故障对应的故障恢复预案相同。所述分析设备用于对于所述多个已知故障中的每个已知故障,向所述相似度模型输入所述目标故障的故障根因特征以及所述已知故障的故障根因特征,以获取所述相似度模型输出的所述目标故障的故障根因与所述已知故障的故障根因之间的相似度,并根据所述目标故障的故障根因与所述多个已知故障的故障根因之间的相似度,确定所述多个已知故障中故障根因与所述目标故障的故障根因满足所述相似度条件的相似已知故障。
可选地,所述训练设备还用于向所述控制设备发送故障恢复预案集合,所述故障恢复预案集合包括所述多个已知故障与故障恢复预案之间的对应关系。所述控制设备用于基于所述故障恢复预案集合,获取所述相似已知故障对应的故障恢复预案。
可选地,所述控制设备还用于向所述训练设备发送所述目标故障的标识以及所述目标故障对应的故障恢复预案。所述训练设备还用于在所述故障恢复预案集合中添加所述目标故障与所述目标故障对应的故障恢复预案之间的对应关系,得到更新后的故障恢复预案集合。
可选地,所述训练设备还用于向所述分析设备发送故障根因特征集合,所述故障根因特征集合包括所述多个已知故障与故障根因特征之间的对应关系。所述分析设备用于基于所述故障根因特征集合,获取所述多个已知故障的故障根因特征。
可选地,所述相似故障信息还包括所述目标故障的故障根因特征。所述控制设备还用于向所述训练设备发送所述目标故障的标识以及所述目标故障的故障根因特征。所述训练设备还用于在所述故障根因特征集合中添加所述目标故障与所述目标故障的故障根因特征之间的对应关系,得到更新后的故障根因特征集合。
第八方面,还提供了一种控制设备,包括:处理器和存储器;
所述存储器,用于存储计算机程序,所述计算机程序包括程序指令;
所述处理器,用于调用所述计算机程序,实现上述第一方面及其各实施方式中的方法。
第九方面,还提供了一种分析设备,包括:处理器和存储器;
所述存储器,用于存储计算机程序,所述计算机程序包括程序指令;
所述处理器,用于调用所述计算机程序,实现上述第二方面及其各实施方式中的方法。
第十方面,还提供了一种训练设备,包括:处理器和存储器;
所述存储器,用于存储计算机程序,所述计算机程序包括程序指令;
所述处理器,用于调用所述计算机程序,实现上述第三方面及其各实施方式中的方法。
第十一方面,提供了一种计算机存储介质,所述计算机存储介质上存储有指令,当所述指令被计算机设备的处理器执行时,实现上述第一方面及其各实施方式中的方法,或者,实现上述第二方面及其各实施方式中的方法,又或者,实现上述第三方面及其各实施方式中的方法。
第十二方面,提供了一种芯片,芯片包括可编程逻辑电路和/或程序指令,当芯片运行时,实现上述第一方面及其各实施方式中的方法,或者,实现上述第二方面及其各实施方式中的方法,又或者,实现上述第三方面及其各实施方式中的方法。
本申请提供的技术方案带来的有益效果至少包括:
控制设备基于目标故障的相似已知故障对应的故障恢复预案确定该目标故障对应的故障恢复预案,也即是,无论目标故障是否是已知故障,只要能够在已知故障中找到该目标故障的相似已知故障,就能确定该目标故障对应的故障恢复预案,因此扩大了能够处理的故障范围。另外,由于网络中的一个故障可能会引发多个连锁故障,而故障根因能够反映故障的根本所在,因此基于故障根因来查找网络中的故障的相似已知故障,找到的相似已知故障与该故障的匹配度较高,该相似已知故障对应的故障恢复预案适用于该故障的可能性也较高,进而使得确定的故障恢复预案的可靠性较高。进一步地,控制设备还可以向云端设备实时上报现网故障的故障根因特征及其对应的故障恢复预案,实现了云端设备对故障恢复预案集合和故障根因特征集合的自动更新,从而扩大能够处理的故障范围,另外无需人工方式总结故障对应的故障恢复预案并采用硬编码方式,提高了故障恢复预案的扩展灵活性,降低了维护难度。
附图说明
图1是本申请实施例提供的一种故障恢复预案确定系统的结构示意图;
图2是本申请实施例提供的一种故障恢复预案确定方法的流程示意图;
图3是本申请实施例提供的故障恢复预案确定方法的实现过程示意图;
图4是本申请实施例提供的一种故障恢复预案确定系统的功能示意图;
图5是本申请实施例提供的一种控制设备的结构示意图;
图6是本申请实施例提供的另一种控制设备的结构示意图;
图7是本申请实施例提供的又一种控制设备的结构示意图;
图8是本申请实施例提供的再一种控制设备的结构示意图;
图9是本申请实施例提供的还一种控制设备的结构示意图;
图10是本申请另一实施例提供的一种控制设备的结构示意图;
图11是本申请实施例提供的一种分析设备的结构示意图;
图12是本申请实施例提供的一种云端设备的结构示意图;
图13是本申请实施例提供的另一种云端设备的结构示意图;
图14是本申请实施例提供的又一种云端设备的结构示意图;
图15是本申请实施例提供的一种故障恢复预案确定装置的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例提供了一种故障恢复预案确定方法。首先,控制设备获取多个已知故障中,故障根因与网络中的目标故障的故障根因满足相似度条件的相似已知故障。其次,控制设备获取该相似已知故障对应的故障恢复预案。然后,控制设备基于该相似已知故障对应的故障恢复预案,确定目标故障对应的故障恢复预案。一个已知故障可以对应一个或多个故障恢复预案,一个故障恢复预案也可以对应一个或多个已知故障。网络中的目标故障可以是网络中的任一故障。
由于本申请实施例中,控制设备能够基于网络中的目标故障的相似已知故障对应的故障恢复预案确定该目标故障对应的故障恢复预案,也即是,无论目标故障是否是已知故障,只要能够在已知故障中找到故障根因与该目标故障的故障根因满足相似度条件的相似已知故障,就能确定该目标故障对应的故障恢复预案,扩大了能够处理的故障范围。另外,由于网络中的一个故障可能会引发多个连锁故障,而故障根因能够反映故障的根本所在,因此基于故障根因来查找网络中的故障的相似已知故障,找到的相似已知故障与该故障的匹配度较高,该相似已知故障对应的故障恢复预案适用于该故障的可能性也较高,进而使得确定的故障恢复预案的可靠性较高。
可选地,故障根因采用故障根因特征表示。故障根因特征包括故障根因对象和故障根因事件。其中,故障根因事件为导致故障的异常事件,例如,“物理接口中断”可以是一个故障根因事件,表示导致当前故障的原因是物理接口中断了。故障根因对象用于指示故障根因网络实体的类型,故障根因网络实体用于指示故障发生的具体位置,故障根因网络实体为故障根因事件所属的网络实体。故障根因对象可以理解为故障根因网络实体的本体,故障根因网络实体可以理解为故障根因对象的实例化。故障根因对象的类型包括设备、接口、协议或业务。设备类具体包括单板或子卡等。接口类包括物理接口、环回口和虚拟局域网(virtual local area network,VLAN)接口等。协议类具体包括开放式最短路径优先(open shortest path first,OSPF)或边界网关协议(Border Gateway Protocol,BGP)等。业务类具体包括虚拟专用网络(virtual private network,VPN)业务或动态主机配置协议(dynamic host configuration protocol,DHCP)业务等。例如,故障根因网络实体为设备A上的物理接口A,则该次故障的故障根因对象为物理接口。又例如,故障根因网络实体为OSPF网段(OSPF network),表示为:OSPF network-112.172.7.0-0.0.0.3,则该次故障的故障根因对象为OSPF network。又例如,故障根因网络实体为虚拟扩展局域网(virtualextensible local area network,VXLAN)隧道端点(VXLAN tunnel end point,VTEP),表示为:VXLAN tunnel-1.1.1.1-2.2.2.2,其中,1.1.1.1为源VTEP地址,2.2.2.2为目的VTEP地址,则该次故障的故障根因对象为VXLAN隧道。
可选地,当故障根因网络实体为物理接口时,故障根因特征还可以包括故障根因网络实体的接口闪断指示(即物理接口的接口闪断指示)、故障根因网络实体的接口假死指示(即物理接口的接口假死指示)、故障根因网络实体的收发报文状态(即物理接口的收发报文状态)、故障根因网络实体的接口协议状态(即物理接口的接口协议状态)或故障根因网络实体所在设备的物理接口状态中的一个或多个。或者,当故障根因网络实体为BGP对等体(BGP peer)时,故障根因特征还可以包括故障根因网络实体的BGP路由震荡指示和/或所述故障根因网络实体所在设备的物理接口状态。又或者,不限于故障根因网络实体的类型,故障根因特征还可以包括故障根因网络实体所在设备的物理接口状态。其中,接口闪断指示用于指示对应的物理接口是否在短时间内发生多次中断,例如,物理接口在短时间内发生多次中断,则该物理接口的接口闪断指示置为1,否则置为0。接口假死指示用于指示对应的物理接口在正常状态下,接收报文数或发送报文数是否为0,例如,物理接口在正常状态下,接收报文数或发送报文数均为0,则该物理接口的接口假死指示置为1,否则置为0。BGP路由震荡指示用于指示对应的BGP对等体是否发生BGP路由震荡,例如,BGP对等体发生BGP路由震荡,则该BGP对等体的BGP路由震荡指示置为1,否则置为0。故障根因网络实体所在设备的物理接口状态用于反映该设备的物理接口的状态是正常(up)还是中断(down),例如,设备的全部物理接口down,则该设备的物理接口状态置为1,否则置为0。
本申请实施例中,故障恢复预案是根据专家经验结合现网的故障案例,针对网络中可能发生的故障制定的应急处置方案。示例地,故障恢复预案主要包括以下几种:
(1)隔离设备。例如,网络中的故障为:网络设备反复重启或者心跳异常导致交换机跨设备链路聚合组(multichassis link aggregation Group,MLAG)呈双主状态,针对该故障可以制定隔离设备的恢复预案。
(2)隔离单板。例如,网络中的故障为:主控板异常,主控板反复异常,交换网板异常,或者交换网板反复异常等,针对这类故障可以制定隔离单板的恢复预案。
(3)隔离接口。例如,网络中的故障为:接口假死,接口协议状态down,接口闪断,接口链路单通故障,循环冗余校验(cyclic redundancy check,CRC)错误增多,传输控制协议(transmission control protocol,TCP)同步(synchronization,SYN)洪水(flood)攻击,或者地址解析协议(address resolution protocol,ARP)攻击等,针对这类故障可以制定隔离接口的恢复预案。
(4)采用三层访问控制列表(access control list,ACL)隔离虚拟机(virtualmachine,VM)。例如,网络中的故障为:TCP SYN flood攻击,针对该故障可以制定采用三层ACL隔离VM的恢复预案。该恢复预案通过在相关设备中配置基于接口或子接口的ACL规则来解决TCP SYN flood攻击。该ACL规则中的源互联网协议(internet protocol,IP)地址为攻击者的IP地址,目的IP地址为全局IP地址,配置流策略应用到入接口方向。
(5)采用ARP ACL隔离VM。例如,网络中的故障为:ARP攻击,针对该故障可以制定采用ARP ACL隔离VM的恢复预案。该恢复预案通过在相关设备中配置ARP报文的ACL规则来解决ARP攻击。
(6)采用高级ACL6隔离VM。例如,网络中的故障为:邻居发现协议(neighbordiscovery,ND)攻击,针对该故障可以制定采用高级ACL6隔离VM的恢复预案。该恢复预案通过根据接口和VLAN判断发送攻击ND报文所属的虚拟路由转发(virtual routingforwarding)表,并在相关设备中配置高级ACL6规则来解决ND攻击。
(7)重启设备。例如,网络中的故障为:设备芯片软失效、ARP硬表表项丢失、路由表硬表表项丢失、设备表项疑似跳变等,针对这类故障可以制定重启设备的恢复预案。其中,硬表用于存储芯片的运行数据,硬表区别于软表的定义,软表用于存储配置数据。
(8)重启单板。例如,网络中的故障为:主控板异常,主控板反复异常,交换网板异常,以及交换网板反复异常等,针对这类故障可以制定重启单板的恢复预案。
(9)重刷软硬表路由。例如,网络中的故障为:软表和硬表不一致导致业务中断,针对该故障可以制定重刷软硬表路由的恢复预案。
(10)重设OSPF接口的IP地址。
(11)路由平滑对账。该恢复预案通过调用设备的应用程序接口(applicationprogram interface,API),对异常的转发表(forwarding info base,FIB)表项进行平滑恢复。
图1是本申请实施例提供的一种故障恢复预案确定系统的结构示意图。如图1所示,该系统包括:管理设备101以及网络中的网络设备102a-102c(统称为网络设备102)。图1中网络设备的数量仅用作示意,不作为对本申请实施例提供的故障恢复预案确定系统的限制。本申请实施例涉及的网络可以是数据中心网络(data center network,DCN)、无线接入网(radio access network,RAN)、分组传送网(packet transport network,PTN)、城域网络、广域网络、园区网络、VLAN或VXLAN等,本申请实施例对网络的类型不做限定。
管理设备101可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。可选地,管理设备101包括采集设备、分析设备和控制设备。其中,采集设备、分析设备和控制设备可以是物理服务器,或者也可以是虚拟服务器。采集设备、分析设备和控制设备是单独的服务器;或者,采集设备和分析设备集成在一台服务器中;又或者,分析设备和控制设备集成在一台服务器中;又或者,采集设备、分析设备和控制设备集成在一台服务器中。也即是,管理设备101可用作采集设备、分析设备和/或控制设备。管理设备101用于管理和控制网络中的网络设备102,该网络可以是局点网络。不同局点网络可以是按照相应维度划分的不同网络,如,可以是不同地域的网络、不同运营商的网络、不同业务网络、不同网络域等。管理设备101可以是一个或多个设备。网络设备102可以是路由器或交换机等。管理设备101与网络设备102之间通过有线网络或无线网络连接。
可选地,管理设备101中的采集设备用于采集网络中的网络设备102的设备数据,并将采集到的数据存储至数据库供分析设备使用。管理设备101中的分析设备用于基于网络设备102的设备数据对网络进行异常检测,然后根据异常检测过程中产生的多个异常事件对网络进行故障定位,并在已知故障中确定所定位到的故障的相似已知故障。管理设备101中的控制设备用于基于分析设备所定位到的故障的相似已知故障确定该故障对应的故障恢复预案,并向网络中的相关网络设备发送预案执行指令。管理设备101中还可以存储有网络的组网拓扑。
网络中常见的故障类型包括:配置类、表项类、硬件类、拥塞类、攻击类、状态类、资源类和非网络侧故障等,根据以上分析设备故障定位时所需的信息,采集设备获取的设备数据可以包括管理面数据、数据面数据或控制面数据中的至少一种。其中,管理面数据包括配置数据和告警数据等,例如,配置数据包括安全控制策略。数据面数据包括ARP表、媒体访问控制(Media Access Control,MAC)表、路由表、隧道状态表(VXLAN网络)和接口状态等。控制面数据包括中央处理器(central processing unit,CPU)数据、内存数据、链路层发现协议(link layer discovery protocol,LLDP)状态、BGP状态和OSPF状态等,BGP和OSPF均为路由协议。
可选地,采集设备周期性地采集网络设备102的设备数据。例如采集设备采用简单网络管理协议(simple network management protocol,SNMP)或网络遥测(networktelemetry)技术采集网络设备的设备数据。或者,当网络设备102的设备数据发生变更时,网络设备102主动向采集设备上报变更后的设备数据。
可选地,请继续参见图1,该系统还包括训练设备103。训练设备103可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。该训练设备103为管理设备101的上级设备,能够管理一个或多个管理设备101。训练设备103可以训练用于处理数据的模型(例如相似度模型),并为管理设备101提供处理数据的集合(例如故障根因特征集合、故障恢复预案集合)和/或用于处理数据的模型等。当训练设备103用于管理多个管理设备101时,该多个管理设备101可以共享训练设备103提供的处理数据的集合和/或用于处理数据的模型。训练设备103与管理设备101可以是单独的设备,或者也可以集成在一台设备中,本申请实施例对此不做限定。训练设备103也可称为云端设备。
图2是本申请实施例提供的一种故障恢复预案确定方法的流程示意图。该方法可以应用于如图1所示的故障恢复预案系统中。如图2所示,该方法包括:
步骤201、云端设备向管理设备发送故障根因特征集合和故障恢复预案集合。
故障根因特征集合包括多个已知故障与故障根因特征之间的对应关系。故障根因特征集合中的故障根因特征是以组的形式存储的,每组故障根因特征属于一个已知故障。本申请实施例中,一个已知故障的故障根因特征至少包括故障根因对象和故障根因事件。
可选地,故障根因特征集合包括已知故障的故障标识与故障根因特征的对应关系。故障标识包括故障ID和/或故障名称。例如,故障根因特征集合可以如表1所示。
表1
参见表1,故障根因特征的类型包括故障根因对象、故障根因事件和接口闪断指示。
故障恢复预案集合包括多个已知故障与故障恢复预案之间的对应关系。其中,一个已知故障可以对应一个或多个故障恢复预案,一个故障恢复预案也可以对应一个或多个已知故障。
可选地,故障恢复预案集合包括已知故障的故障标识与故障恢复预案的对应关系。例如,故障恢复预案集合可以如表2所示。
表2
故障ID | 故障名称 | 故障恢复预案 |
10000001 | 接口闪断 | 隔离接口 |
10000002 | 主控板异常 | 1、隔离单板;2、重启单板 |
… | … | … |
云端设备中存储有故障根因特征集合以及故障恢复预案集合。云端设备可以通过收集网络中大量的故障案例,并根据设定的故障根因特征的类型,提取每个故障的故障根因特征,以生成初始故障根因特征集合。初始故障恢复预案集合中的故障恢复预案可以基于专家经验制定得到。
步骤202、当网络发生故障时,管理设备获取网络中产生的异常事件。
可选地,管理设备在获取网络中的网络设备的设备数据后,对各个网络设备的设备数据进行异常检测,以获取网络中产生的异常事件。
可选地,管理设备对网络设备的设备数据进行异常检测的实现过程包括:管理设备对告警数据进行告警分析与聚合,以减少告警数据量,再从聚合后的告警数据中提取异常事件。和/或,管理设备对海量的日志进行日志异常检测,例如采用日志模板挖掘和/或日志罕见度分析的方式进行日志异常检测,以得到异常事件。和/或,管理设备对上报的关键绩效指标(key performance indicator,KPI)进行异常检测,例如将发生突变的KPI作为异常KPI。
可选地,异常事件包括告警日志、状态变化日志或异常KPI中的一个或多个。告警日志中包括异常网络实体的标识以及告警类型。状态变化日志中包括配置文件变化信息和/或路由表项变化信息等,例如状态变化日志中可以包括“接入子接口删除”以及“目的IP主机路由删除”等信息。异常KPI用于描述某个网络实体的某种指标出现异常。
为了便于说明,本申请以下实施例中将网络中发生的该次故障称为目标故障。
步骤203、管理设备基于网络中产生的异常事件,确定目标故障的故障根因特征。
可选地,管理设备对网络中产生的异常事件进行基于专家规则的故障定位或者基于网络知识图谱的溯源推理,以在网络中定位目标故障的故障根因对象和故障根因事件。
可选地,管理设备对网络中产生的异常事件进行基于网络知识图谱的溯源推理的实现过程,包括:首先,管理设备生成该管理设备所管理的网络的知识图谱;管理设备在获取由于网络发生故障而产生的异常事件之后,确定出该网络中产生异常事件的异常网络实体,例如可以在知识图谱上标识出该网络中产生异常事件的异常网络实体;然后管理设备基于网络实体间的故障传播关系,在所有异常网络实体中确定一个或多个故障根因网络实体。知识图谱上的网络实体的类型为设备、接口、协议或业务。管理设备根据故障根因网络实体确定该次故障的故障根因对象,例如,故障根因网络实体为设备A上的物理接口A,则该次故障的故障根因对象为物理接口。管理设备将故障根因网络实体所关联的异常事件(即导致该次故障的异常事件)确定为该次故障的故障根因事件。
可选地,管理设备获取故障传播关系的过程包括:管理设备获取多个知识图谱样本,每个知识图谱样本上分别标识有该知识图谱样本所属的网络发生一次故障时,该知识图谱样本所属的网络中产生异常事件的所有异常网络实体以及故障根因网络实体。管理设备基于该多个知识图谱样本,确定故障传播关系。其中,每个知识图谱样本为一个故障案例,知识图谱样本中的异常网络实体以及故障根因网络实体可以是人工确定的。可选地,管理设备可以采用图嵌入算法等学习该多个知识图谱样本中的故障传播关系。或者,当同一知识图谱三元组中的两个网络实体同时发生异常的概率大于某个阈值时,管理设备可以确定该两个网络实体之间会进行故障传播。
示例地,当网络设备的接口发生故障时,会导致该接口无法正常通信,进而会导致该接口采用的路由IP不通。因此管理设备可以得到一组故障传播关系:接口故障会导致该接口采用的路由IP不通。当管理设备获取到用于指示接口故障的第一异常事件以及用于指示该接口采用的路由IP不通的第二异常事件时,管理设备确定第一异常事件为故障根因事件,并确定该接口为故障根因对象。
本申请实施例中,管理设备可以采用多个知识图谱样本学习网络实体间的故障传播关系,并基于该故障传播关系,确定目标网络的知识图谱上的异常网络实体中的故障根因网络实体,进而确定故障根因特征,实现了网络故障根因的自动推理和定位。
可选地,网络实体间的故障传播关系也可以由其它设备确定后发送至管理设备,其它设备确定网络实体间的故障传播关系的方式可参考上述管理设备确定网络实体间的故障传播关系的方式,本申请实施例在此不做赘述。当然,故障传播关系也可以基于专家规则制定得到。
步骤204、对于多个已知故障中的每个已知故障,管理设备根据目标故障的故障根因特征以及该已知故障的故障根因特征,计算目标故障与该已知故障之间的相似度。
可选地,目标故障与已知故障之间的相似度等于目标故障的各个故障根因特征与已知故障的各个故障根因特征之间的相似度的加权平均值。例如,故障根因特征的类型包括故障根因对象、故障根因事件和接口闪断指示。目标故障的故障根因对象与已知故障的故障根因对象之间的相似度为第一相似度,目标故障的故障根因事件与已知故障的故障根因事件之间的相似度为第二相似度,目标故障的接口闪断指示与已知故障的接口闪断指示之间的相似度为第三相似度,则目标故障与已知故障之间的相似度等于第一相似度、第二相似度与第三相似度的加权平均值。
可选地,步骤204的实现过程包括:管理设备向相似度模型输入目标故障的故障根因特征以及已知故障的故障根因特征,以获取该相似度模型输出的目标故障的故障根因与该已知故障的故障根因之间的相似度。相似度模型基于多个样本故障的故障根因特征训练得到。样本故障标注有类别标签。其中,标注有相同类别标签的样本故障对应的故障恢复预案相同。标注有不同类别标签的样本故障对应的故障恢复预案可能相同,也可能不同。该相似度模型为采用有监督学习方式训练得到的机器学习模型。
在一种实现方式中,管理设备在获取多个样本故障后,采用多个样本故障的故障根因特征,训练得到相似度模型。
可选地,每个故障具有d个故障根因特征,则相似度模型表示如下:
对于离散型故障根因特征,其相似度满足:
对于连续型故障根因特征,其相似度满足:
其中,ak和bk的取值范围相同,max表示ak或bk的取值范围中的最大值,min表示ak或bk的取值范围中的最小值。
本申请实施例中,管理设备训练得到上述相似度模型,也即是确定k个故障根因特征的权重,使得标注有相同类别标签的样本故障之间的相似度大于标注有不同类别标签的样本故障之间的相似度。
可选地,管理设备在训练得到相似度模型后,还可以采用多个样本故障的故障根因特征,调用该相似度模型确定相似度阈值,具体包括:管理设备向相似度模型分次输入多个样本故障对的故障根因特征,以获取该相似度模型输出的每个样本故障对的故障根因之间的相似度。然后管理设备根据多个样本故障对的故障根因之间的相似度,确定相似度阈值。其中,每个样本故障对包括两个样本故障,一个样本故障对的故障根因之间的相似度即该样本故障对中的两个样本故障的故障根因之间的相似度。该多个样本故障对包括第一类样本故障对和第二类样本故障对,第一类样本故障对包括两个标注有相同类别标签的样本故障,第二类样本故障对包括两个标注有不同类别标签的样本故障。
相似度阈值可以是标注有相同类别标签的样本故障的故障根因之间的相似度与标注有不同类别标签的样本故障的故障根因之间的相似度的分界值。例如,向训练好的相似度模型分次输入多个样本故障对的故障根因特征,针对第一类样本故障对,该相似度模型输出的相似度绝大多数大于目标阈值,针对第二类样本故障对,该相似度模型输出的相似度绝大多数小于目标阈值,则可以将该目标阈值确定为相似度阈值。例如该相似度阈值可以取值为0.9。
本申请实施例中,用来训练相似度模型的多个样本故障和用来确定相似度模型的多个样本故障可以相同,也可以不同,前者用来调整相似度模型的参数,后者用来统计相同类别的样本故障的故障根因之间的相似度以及不同类别的样本故障的故障根因之间的相似度,进而找到合适的相似度阈值。
在另一种实现方式中,管理设备接收来自云端设备的相似度模型和/或相似度阈值。也即是,云端设备在获取多个样本故障后,采用多个样本故障的故障根因特征训练得到相似度模型。云端设备在训练得到相似度模型后,还可以采用多个样本故障的故障根因特征,调用该相似度模型确定相似度阈值。云端设备训练相似度模型和确定相似度阈值的实现过程可参考上述管理设备训练相似度模型和确定相似度阈值的过程,本申请实施例在此不再赘述。
步骤205、管理设备根据目标故障的故障根因与多个已知故障的故障根因之间的相似度,确定该多个已知故障中故障根因与目标故障的故障根因满足相似度条件的相似已知故障。
在一种可能实现方式中,管理设备将多个已知故障中,故障根因与目标故障的故障根因之间的相似度高于相似度阈值的已知故障确定为目标故障的相似已知故障。
可选地,管理设备将多个已知故障中故障根因与目标故障的故障根因之间的相似度高于相似度阈值的所有已知故障均确定为目标故障的相似已知故障,也即是,目标故障可以具有一个或多个相似已知故障。当然,采用该方式管理设备也可能在已知故障中找不到目标故障的相似已知故障。
该实现方式中,基于相似度阈值在已知故障中查找目标故障的相似故障,确定的相似故障的准确度较高,进而可以使得确定的目标故障对应的故障恢复预案的可靠性较高。
在另一种可能实现方式中,管理设备对目标故障的故障根因与多个已知故障的故障根因之间的相似度进行排序,并将故障根因与目标故障的故障根因之间相似度最高的n个已知故障作为目标故障的相似已知故障,n为正整数。
例如,管理设备将故障根因与目标故障的故障根因之间相似度最高的3个已知故障作为目标故障的相似已知故障。
该实现方式中,总能在已知故障中找到目标故障的相似已知故障,进而总能确定目标故障对应的故障恢复预案,能够处理的故障范围较大。
在又一种可能实现方式中,管理设备将多个已知故障中满足故障根因与目标故障的故障根因之间的相似度高于相似度阈值,且按照故障根因与目标故障的故障根因之间的相似度由高至低的排序方式属于前m个的已知故障作为目标故障的相似已知故障,m为正整数。
该实现方式中,能够对故障根因与目标故障的故障根因之间的相似度高于相似度阈值的已知故障进行筛选,既能保证确定的相似故障的准确度,又能限制确定的相似故障的数量,减小后续计算量。
步骤206、管理设备基于目标故障的相似已知故障对应的故障恢复预案,确定目标故障对应的故障恢复预案。
可选地,步骤206的实现过程包括:管理设备基于网络的网络配置,评估目标故障的相似已知故障对应的故障恢复预案的可行性。管理设备将可行的故障恢复预案中的一个或多个故障恢复预案确定为目标故障对应的故障恢复预案。网络配置包括组网拓扑和/或设备数据。
例如,若一个设备所在链路具有冗余链路(备份链路),则针对该设备“隔离设备”这个故障恢复预案可行;若一个设备所在链路不具有冗余链路,则针对该设备“隔离设备”这个故障恢复预案不可行。
可选地,响应于目标故障的相似已知故障对应的多个故障恢复预案可行,首先管理设备基于该网络的网络配置,分别评估多个故障恢复预案对网络所运行业务的影响程度。然后管理设备将多个故障恢复预案中,对网络所运行业务的影响程度最小的故障恢复预案确定为目标故障对应的故障恢复预案。
示例地,目标故障的相似已知故障为ARP攻击故障,ARP攻击故障对应有2个故障恢复预案,分别为隔离VM和隔离接口。管理设备在确定隔离VM和隔离接口这2个故障恢复预案均可行后,评估隔离VM和隔离接口对网络所运行业务的影响程度。其中,隔离VM需要对针对ARP攻击源的每个MAC地址进行ACL阻断,即所需的ACL资源等于ARP攻击源的数量,在网络中ACL资源充足的条件下,隔离VM这个故障恢复预案可行。对于隔离VM这个故障恢复预案,仅影响被隔离的攻击源VM,对网络所运行业务的影响程度较小;对于隔离接口这个故障恢复预案,影响被隔离接口下挂载的所有VM(包括攻击源VM和正常VM),对网络所运行业务的影响程度较大。由于隔离VM对网络所运行业务的影响程度小于隔离接口对网络所运行业务的影响程度,因此管理设备会将隔离VM作为目标故障对应的故障恢复预案。若网络中ACL资源不足导致隔离VM不可行,管理设备可以将隔离接口作为目标故障对应的故障恢复预案。
或者,管理设备在获取目标故障的相似已知故障对应的故障恢复预案之后,也可以输出该相似已知故障对应的所有故障恢复预案,并将选择指令所指定的故障恢复预案作为目标故障对应的故障恢复预案,该选择指令可以由运维人员触发。例如管理设备可以将目标故障的相似已知故障对应的所有故障恢复预案发送给运维支撑系统(operationssupport system,OSS)或其它与管理设备连接的终端设备,供OSS或终端设备显示。当然,若管理设备自身具有显示功能,则管理设备也可以在自身的显示界面上显示目标故障的相似已知故障对应的所有故障恢复预案。管理设备在输出目标故障的相似已知故障对应的故障恢复预案后,可以由运维人员指定其中的一个故障恢复预案作为目标故障对应的故障恢复预案,或者也可以由运维人员输入其它故障恢复预案作为目标故障对应的故障恢复预案,本申请实施例对此不做限定。
可选地,响应于多个已知故障中不存在故障根因与目标故障的故障根因满足相似度条件的相似已知故障,管理设备输出该目标故障的故障标识以及故障根因特征,以便由运维人员确定该目标故障对应的故障恢复预案。例如管理设备将目标故障的故障标识以及故障根因特征发送给OSS或其它与管理设备连接的终端设备,供OSS或终端设备显示。当然,若管理设备自身具有显示功能,则管理设备也可以在自身的显示界面上显示目标故障的故障标识以及故障根因特征。
本申请实施例中,管理设备能够基于目标故障的相似已知故障对应的故障恢复预案确定该目标故障对应的故障恢复预案,也即是,无论目标故障是否是已知故障,只要能够在已知故障中找到该目标故障的相似已知故障,就能确定该目标故障对应的故障恢复预案,因此扩大了能够处理的故障范围。另外,由于网络中的一个故障可能会引发多个连锁故障,而故障根因能够反映故障的根本所在,因此基于故障根因来查找网络中的故障的相似已知故障,找到的相似已知故障与该故障的匹配度较高,该相似已知故障对应的故障恢复预案适用于该故障的可能性也较高,进而使得确定的故障恢复预案的可靠性较高。
可选地,管理设备在确定目标故障对应的故障恢复预案之后,还可以向网络中需要执行该故障恢复预案的相关网络设备分发该故障恢复预案,以实现端到端地故障恢复,该过程参见以下步骤207至步骤208。
步骤207、管理设备基于目标故障以及目标故障对应的故障恢复预案,确定网络中待执行预案的目标网络设备。
可选地,网络中待执行预案的目标网络设备包括目标故障的故障根因网络实体所在设备和/或网络中的接入设备等。例如,当目标故障的故障根因对象为设备或接口时,网络中待执行预案的目标网络设备通常为该故障根因网络实体所在设备。又例如,当目标故障的故障根因事件为OSPF路由ID冲突导致DHCP业务超时,网络中待执行预案的目标网络设备通常为网络中发生OSPF路由ID冲突的网络设备。又例如,当目标故障为ARP攻击故障,网络中待执行预案的目标网络设备为挂载攻击源VM的边缘设备(即接入设备)。
步骤208、管理设备向目标网络设备发送预案执行指令。
该预案执行指令用于指示目标网络设备执行目标故障对应的故障恢复预案。该预案执行指令包括目标故障对应的故障恢复预案。
可选地,预案执行指令中包括的目标故障对应的故障恢复预案可以是该故障恢复预案的执行脚本。例如,“隔离设备”这个故障恢复预案的执行脚本内容包括:
a)判断设备角色,例如判断当前设备为spine(脊)设备还是leaf(叶)设备。
b)如果当前设备为leaf设备或非spine的leaf合设备,记录当前设备的spine侧接口的cost(代价)值,然后将该cost值调整至最大值;遍历当前设备的接入侧接口,记录接入侧接口当前状态,然后对除带内管理的管理口以外的非down状态的接入侧接口执行shutdown。
c)如果当前设备为spine设备,若该spine设备是独立设备组或设备组成员已经被隔离,则当前设备不能执行隔离操作;否则记录当前设备连spine接口的cost值,然后将该cost值调整至最大值;遍历接leaf连spine的接口,记录接口当前状态,然后将非down状态的接口执行shutdown。
步骤209、管理设备向目标网络设备发送预案执行回退指令。
该预案执行回退指令用于指示目标网络设备恢复至执行目标故障对应的故障恢复预案之前的状态。可选地,响应于接收到回退触发指令,管理设备向目标网络设备发送预案执行回退指令。该回退触发指令可以是由运维人员在管理设备上执行指定操作触发,例如,当管理设备检测到对某个按键的按压操作,则确定接收到回退触发指令。或者,该回退触发指令也可以来自其它设备,也即是,管理设备可以在其它设备的控制指令(回退触发指令)下向目标网络设备发送预案执行回退指令。
本申请实施例中,管理设备在向目标网络设备发送预案执行指令之后,还可以向目标网络设备发送预案执行回退指令,以指示目标网络设备恢复至执行故障恢复预案之前的状态,实现了网络设备的状态回滚功能。在网络设备执行了不合理的故障恢复预案的场景下,该功能可以快速使网络设备恢复至原始状态,提高网络运行可靠性。
可选地,管理设备在确定目标故障对应的故障恢复预案之后,还可以向云端设备发送该目标故障对应的故障恢复预案和/或目标故障的故障根因特征,以供云端设备更新故障恢复预案集合和/或故障根因特征集合,该实现过程参见以下步骤210至步骤213。
步骤210、管理设备向云端设备发送目标故障的标识以及目标故障对应的故障恢复预案。
该目标故障的标识以及目标故障对应的故障恢复预案用于供云端设备在故障恢复预案集合中添加目标故障与该目标故障对应的故障恢复预案之间的对应关系,得到更新后的故障恢复预案集合。
步骤211、云端设备在故障恢复预案集合中添加目标故障与该目标故障对应的故障恢复预案之间的对应关系,得到更新后的故障恢复预案集合。
可选地,云端设备每更新故障恢复预案集合,可以将更新后的故障恢复预案集合发送给管理设备,或者,云端设备周期性地向管理设备发送最新的故障恢复预案集合。
步骤212、管理设备向云端设备发送目标故障的标识以及目标故障的故障根因特征。
该目标故障的标识以及目标故障的故障根因特征用于供云端设备在故障根因特征集合中添加目标故障与该目标故障的故障根因特征之间的对应关系,得到更新后的故障根因特征集合。
可选地,步骤210与步骤212可以同时执行,即管理设备向云端设备同步发送目标故障对应的故障恢复预案以及目标故障的故障根因特征。例如,目标故障为接口闪断故障,管理设备向云端设备发送的内容可以如表3所示。
表3
步骤213、云端设备在故障根因特征集合中添加目标故障与该目标故障的故障根因特征之间的对应关系,得到更新后的故障根因特征集合。
可选地,云端设备每更新故障根因特征集合后,可以将更新后的故障根因特征集合发送给管理设备,或者,云端设备周期性地向管理设备发送最新的故障根因特征集合。
可选地,当相似度模型由云端设备训练得到,云端设备在接收到管理设备上报的现网故障的故障根因特征及其对应的故障恢复预案后,可以持续训练和更新相似度模型,以提高模型的准确性和可靠性。
本申请实施例中,管理设备可以向云端设备实时上报现网故障的故障根因特征及其对应的故障恢复预案,实现了云端设备对故障恢复预案集合和故障根因特征集合的自动更新,从而扩大能够处理的故障范围,另外无需人工方式总结故障对应的故障恢复预案并采用硬编码方式,提高了故障恢复预案的扩展灵活性,降低了维护难度。
可选地,上述管理设备可以是一个设备(控制设备),或者,上述管理设备可以包括多个设备(采集设备、分析设备和/或控制设备)。本申请实施例以管理设备包括分析设备和控制设备,分析设备集成有采集设备的功能为例,则上述步骤201的实现过程可以包括:云端设备向分析设备发送故障根因特征集合,并向控制设备发送故障恢复预案集合。上述步骤202至步骤205由分析设备执行。上述步骤206至步骤210以及步骤212由控制设备执行。
示例地,图3是本申请实施例提供的故障恢复预案确定方法的实现过程示意图。如图3所示,该实现过程包括:
步骤301、云端设备向分析设备发送故障根因特征集合。
故障根因特征集合包括多个已知故障与故障根因特征之间的对应关系。此步骤的解释可参考上述步骤201和步骤204中的相关内容,本申请实施例在此不再赘述。
步骤302、云端设备向控制设备发送故障恢复预案集合。
故障恢复预案集合包括多个已知故障与故障恢复预案之间的对应关系。此步骤的解释可参考上述步骤201中的相关内容,本申请实施例在此不再赘述。
步骤303、当网络发生故障时,分析设备获取网络中产生的异常事件。
此步骤的解释可参考上述步骤202中的相关内容,本申请实施例在此不再赘述。
步骤304、分析设备基于网络中产生的异常事件,确定目标故障的故障根因特征。
此步骤的解释可参考上述步骤203中的相关内容,本申请实施例在此不再赘述。
步骤305、对于多个已知故障中的每个已知故障,分析设备根据目标故障的故障根因特征以及该已知故障的故障根因特征,计算目标故障与该已知故障之间的相似度。
可选地,云端设备还可以向分析设备发送相似度模型和相似度阈值。或者,分析设备可以自行训练相似度模型并确定相似度阈值。则分析设备可以向相似度模型输入目标故障的故障根因特征以及已知故障的故障根因特征,以获取该相似度模型输出的目标故障的故障根因与该已知故障的故障根因之间的相似度。
此步骤的解释可参考上述步骤204中的相关内容,本申请实施例在此不再赘述。
步骤306、分析设备根据目标故障的故障根因与多个已知故障的故障根因之间的相似度,确定多个已知故障中故障根因与目标故障的故障根因满足相似度条件的相似已知故障。
可选地,分析设备将多个已知故障中,故障根因与目标故障的故障根因之间的相似度高于相似度阈值的已知故障确定为目标故障的相似已知故障。
此步骤的解释可参考上述步骤205中的相关内容,本申请实施例在此不再赘述。
步骤307、分析设备向控制设备发送目标故障对应的相似故障信息。
该相似故障信息包括目标故障的标识和相似故障列表。该相似故障列表包括目标故障的一个或多个相似已知故障。该相似故障信息用于控制设备确定目标故障对应的故障恢复预案。
可选地,该相似故障信息还包括目标故障的故障根因特征。例如,该相似故障信息可以如表4所示。
表4
可选地,相似故障信息还可以包括目标故障的发生时间戳等。
步骤308、控制设备基于目标故障的相似已知故障对应的故障恢复预案,确定目标故障对应的故障恢复预案。
此步骤的解释可参考上述步骤206中的相关内容,本申请实施例在此不再赘述。
步骤309、控制设备基于目标故障以及目标故障对应的故障恢复预案,确定网络中待执行预案的目标网络设备。
此步骤的解释可参考上述步骤207中的相关内容,本申请实施例在此不再赘述。
步骤310、控制设备向目标网络设备发送预案执行指令。
该预案执行指令用于指示目标网络设备执行目标故障对应的故障恢复预案。该预案执行指令包括目标故障对应的故障恢复预案。此步骤的解释可参考上述步骤208中的相关内容,本申请实施例在此不再赘述。
步骤311、控制设备向目标网络设备发送预案执行回退指令。
该预案执行回退指令用于指示目标网络设备恢复至执行目标故障对应的故障恢复预案之前的状态。可选地,响应于接收到回退触发指令,控制设备向目标网络设备发送预案执行回退指令。此步骤的解释可参考上述步骤209中的相关内容,本申请实施例在此不再赘述。
步骤312、控制设备向云端设备发送目标故障对应的故障恢复预案以及目标故障的故障根因特征。
此步骤的解释可参考上述步骤210和步骤212中的相关内容,本申请实施例在此不再赘述。
步骤313、云端设备在故障恢复预案集合中添加目标故障与该目标故障对应的故障恢复预案之间的对应关系,得到更新后的故障恢复预案集合,并在故障根因特征集合中添加目标故障与该目标故障的故障根因特征之间的对应关系,得到更新后的故障根因特征集合。
此步骤的解释可参考上述步骤211和步骤213中的相关内容,本申请实施例在此不再赘述。
可选地,当相似度模型和相似度阈值由云端设备训练得到,云端设备在接收到管理设备上报的现网故障的故障根因特征及其对应的故障恢复预案后,可以持续训练和更新相似度模型,以提高模型的准确性和可靠性,云端设备还可以更新相似度阈值,以提高对故障相似度的判断准确性。
示例地,图4是本申请实施例提供的用于实现如图3所示的方法的故障恢复预案系统的功能示意图。如图4所示,该故障恢复预案系统包括云端设备、分析设备和控制设备。云端设备包括模型训练模块和故障知识库。模型训练模块用于训练相似度模型和确定相似度阈值。故障知识库包括故障特征库和故障恢复预案库,故障特征库用于存储故障根因特征集合,故障恢复预案库用于存储故障恢复预案集合。云端设备用于向分析设备发送故障根因特征集合、相似度模型和相似度阈值,并向控制设备发送故障恢复预案集合。分析设备包括故障定位模块、相似故障确定模块和故障特征库。故障定位模块用于定位网络中发生的故障(简称:现网故障)并提取故障根因特征。相似故障确定模块用于调用相似度模型,在故障特征库的已知故障中确定现网故障的相似已知故障。分析设备用于向控制设备发送现网故障对应的相似故障信息。控制设备包括预案评估模块、预案管理模块和故障恢复预案库。预案评估模块用于从故障恢复预案中获取并评估现网故障的相似已知故障对应的故障恢复预案的可行性。预案管理模块用于确定现网故障对应的故障恢复预案以及需要执行预案的网络设备。控制设备用于向云端设备发送现网故障的故障根因特征以及对应的故障恢复预案。
本申请实施例提供的故障恢复预案确定方法的步骤先后顺序可以进行适当调整,步骤也可以根据情况进行相应增减。任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本申请的保护范围之内,因此不再赘述。
综上所述,本申请实施例提供的故障恢复预案确定方法,管理设备基于目标故障的相似已知故障对应的故障恢复预案确定该目标故障对应的故障恢复预案,也即是,无论目标故障是否是已知故障,只要能够在已知故障中找到该目标故障的相似已知故障,就能确定该目标故障对应的故障恢复预案,因此扩大了能够处理的故障范围。另外,由于网络中的一个故障可能会引发多个连锁故障,而故障根因能够反映故障的根本所在,因此基于故障根因来查找网络中的故障的相似已知故障,找到的相似已知故障与该故障的匹配度较高,该相似已知故障对应的故障恢复预案适用于该故障的可能性也较高,进而使得确定的故障恢复预案的可靠性较高。进一步地,管理设备还可以向云端设备实时上报现网故障的故障根因特征及其对应的故障恢复预案,实现了云端设备对故障恢复预案集合和故障根因特征集合的自动更新,从而扩大能够处理的故障范围,另外无需人工方式总结故障对应的故障恢复预案并采用硬编码方式,提高了故障恢复预案的扩展灵活性,降低了维护难度。
图5是本申请实施例提供的一种控制设备的结构示意图。如图5所示,控制设备50包括:
第一获取模块501,用于获取多个已知故障中,故障根因与网络中的目标故障的故障根因满足相似度条件的相似已知故障。
第一确定模块502,用于获取相似已知故障对应的故障恢复预案,并基于相似已知故障对应的故障恢复预案,确定目标故障对应的故障恢复预案。
可选地,故障根因采用故障根因特征表示,故障根因特征包括故障根因对象和故障根因事件,其中,故障根因事件为导致故障的异常事件,故障根因对象用于指示故障根因网络实体的类型,故障根因网络实体为故障根因事件所属的网络实体。
可选地,故障根因网络实体为物理接口,故障根因特征还包括故障根因网络实体的接口闪断指示、故障根因网络实体的接口假死指示、故障根因网络实体的收发报文状态、故障根因网络实体的接口协议状态或故障根因网络实体所在设备的物理接口状态中的一个或多个。或者,故障根因网络实体为BGP对等体,故障根因特征还包括故障根因网络实体的BGP路由震荡指示和/或故障根因网络实体所在设备的物理接口状态。又或者,不限于故障根因网络实体的类型,故障根因特征还包括故障根因网络实体所在设备的物理接口状态。
可选地,第一获取模块501,用于:获取多个已知故障的故障根因特征;对于多个已知故障中的每个已知故障,根据目标故障的故障根因特征以及已知故障的故障根因特征,计算目标故障的故障根因与已知故障的故障根因之间的相似度;根据目标故障的故障根因与多个已知故障的故障根因之间的相似度,确定多个已知故障中故障根因与目标故障的故障根因满足相似度条件的相似已知故障。
可选地,第一获取模块501,用于:将多个已知故障中,故障根因与目标故障的故障根因之间的相似度高于相似度阈值的已知故障确定为相似已知故障。
可选地,第一获取模块501,用于:向相似度模型输入目标故障的故障根因特征以及已知故障的故障根因特征,以获取相似度模型输出的目标故障的故障根因与已知故障的故障根因之间的相似度,相似度模型基于多个样本故障的故障根因特征训练得到,样本故障标注有类别标签,其中,标注有相同类别标签的样本故障对应的故障恢复预案相同。
可选地,如图6所示,控制设备50还包括:训练模块503,用于采用多个样本故障的故障根因特征,训练得到相似度模型。
可选地,请继续参见图6,控制设备50还包括:第二获取模块504,用于向相似度模型分次输入多个样本故障对的故障根因特征,以获取相似度模型输出的每个样本故障对的故障根因之间的相似度,多个样本故障对包括第一类样本故障对和第二类样本故障对,第一类样本故障对包括两个标注有相同类别标签的样本故障,第二类样本故障对包括两个标注有不同类别标签的样本故障。第二确定模块505,用于根据多个样本故障对的故障根因之间的相似度,确定相似度阈值。
可选地,如图7所示,控制设备50还包括:接收模块506。
该接收模块506,用于接收来自训练设备的相似度模型和/或相似度阈值。和/或,该接收模块506,用于接收来自训练设备的故障根因特征集合,故障根因特征集合包括多个已知故障与故障根因特征之间的对应关系。相应地,第一获取模块501,用于基于故障根因特征集合,获取多个已知故障的故障根因特征。
可选地,如图8所示,控制设备50还包括:第一发送模块507。
该第一发送模块507,用于向训练设备发送目标故障的标识以及目标故障的故障根因特征,以供训练设备在故障根因特征集合中添加目标故障与目标故障的故障根因特征之间的对应关系,得到更新后的故障根因特征集合。
可选地,如图9所示,控制设备50还包括:第三获取模块508,用于当网络发生故障时,获取网络中产生的异常事件。第三确定模块509,用于基于网络中产生的异常事件,确定故障的故障根因特征。
可选地,第一获取模块501,用于:接收来自分析设备的目标故障对应的相似故障信息,相似故障信息包括目标故障的标识和相似故障列表,相似故障列表包括目标故障的一个或多个相似已知故障。
可选地,相似故障信息还包括目标故障的故障根因特征。
可选地,第一确定模块502,用于:基于网络的网络配置,评估相似已知故障对应的故障恢复预案的可行性,网络配置包括组网拓扑和/或设备数据,设备数据包括管理面数据、数据面数据或控制面数据中的一种或多种;将可行的故障恢复预案中的一个或多个故障恢复预案确定为目标故障对应的故障恢复预案。
可选地,第一确定模块502,用于:响应于多个故障恢复预案可行,基于网络的网络配置,分别评估多个故障恢复预案对网络所运行业务的影响程度;将多个故障恢复预案中,对网络所运行业务的影响程度最小的故障恢复预案确定为目标故障对应的故障恢复预案。
可选地,如图10所示,控制设备50还包括:第四确定模块510,用于基于目标故障以及目标故障对应的故障恢复预案,确定网络中待执行预案的目标网络设备。第二发送模块511,用于向目标网络设备发送预案执行指令,预案执行指令用于指示目标网络设备执行目标故障对应的故障恢复预案,预案执行指令包括目标故障对应的故障恢复预案。
可选地,第二发送模块511,还用于向目标网络设备发送预案执行回退指令,预案执行回退指令用于指示目标网络设备恢复至执行目标故障对应的故障恢复预案之前的状态。
可选地,接收模块506,还用于接收来自训练设备的故障恢复预案集合,故障恢复预案集合包括多个已知故障与故障恢复预案之间的对应关系。相应地,第一确定模块502,用于基于故障恢复预案集合,获取相似已知故障对应的故障恢复预案。
可选地,第一发送模块507,还用于向训练设备发送目标故障的标识以及目标故障对应的故障恢复预案,以供训练设备在故障恢复预案集合中添加目标故障与目标故障对应的故障恢复预案之间的对应关系,得到更新后的故障恢复预案集合。
综上所述,本申请实施例提供的控制设备,能够通过第一确定模块基于目标故障的相似已知故障对应的故障恢复预案确定该目标故障对应的故障恢复预案,也即是,无论目标故障是否是已知故障,只要能够在已知故障中找到该目标故障的相似已知故障,就能确定该目标故障对应的故障恢复预案,因此扩大了能够处理的故障范围。另外,由于网络中的一个故障可能会引发多个连锁故障,而故障根因能够反映故障的根本所在,因此基于故障根因来查找网络中的故障的相似已知故障,找到的相似已知故障与该故障的匹配度较高,该相似已知故障对应的故障恢复预案适用于该故障的可能性也较高,进而使得确定的故障恢复预案的可靠性较高。
图11是本申请实施例提供的一种分析设备的结构示意图。如图11所示,分析设备110包括:
获取模块1101,用于获取多个已知故障中,故障根因与网络中的目标故障的故障根因满足相似度条件的相似已知故障。
发送模块1102,用于向控制设备发送目标故障对应的相似故障信息,相似故障信息包括目标故障的标识和相似故障列表,相似故障列表包括目标故障的一个或多个相似已知故障,相似故障信息用于控制设备确定目标故障对应的故障恢复预案。
可选地,相似故障信息还包括目标故障的故障根因特征。
可选地,获取模块1101,用于:获取多个已知故障的故障根因特征。对于多个已知故障中的每个已知故障,根据目标故障的故障根因特征以及该已知故障的故障根因特征,计算目标故障的故障根因与该已知故障的故障根因之间的相似度。根据目标故障的故障根因与多个已知故障的故障根因之间的相似度,确定多个已知故障中故障根因与目标故障的故障根因满足相似度条件的相似已知故障。
可选地,获取模块1101,用于:将多个已知故障中,故障根因与目标故障的故障根因之间的相似度高于相似度阈值的已知故障确定为相似已知故障。
可选地,获取模块1101,用于:向相似度模型输入目标故障的故障根因特征以及已知故障的故障根因特征,以获取相似度模型输出的目标故障的故障根因与已知故障的故障根因之间的相似度,相似度模型基于多个样本故障的故障根因特征训练得到,样本故障标注有类别标签,其中,标注有相同类别标签的样本故障对应的故障恢复预案相同。
综上所述,本申请实施例提供的分析设备,通过确定模块确定目标故障的相似已知故障,并通过发送模块向控制设备发送目标故障对应的相似故障信息,使得控制设备能够基于目标故障的相似已知故障对应的故障恢复预案确定该目标故障对应的故障恢复预案,也即是,无论目标故障是否是已知故障,只要能够在已知故障中找到该目标故障的相似已知故障,就能确定该目标故障对应的故障恢复预案,因此扩大了能够处理的故障范围。另外,由于网络中的一个故障可能会引发多个连锁故障,而故障根因能够反映故障的根本所在,因此基于故障根因来查找网络中的故障的相似已知故障,找到的相似已知故障与该故障的匹配度较高,该相似已知故障对应的故障恢复预案适用于该故障的可能性也较高,进而使得确定的故障恢复预案的可靠性较高。
图12是本申请实施例提供的一种云端设备的结构示意图。该云端设备即上述实施例中的训练设备。如图12所示,云端设备120包括:
第一获取模块1201,用于获取相似度模型,相似度模型基于多个样本故障的故障根因特征训练得到,样本故障标注有类别标签,其中,标注有相同类别标签的样本故障对应的故障恢复预案相同。
第一发送模块1202,用于向分析设备发送相似度模型,供分析设备确定网络中发生的目标故障的相似已知故障,相似已知故障用于确定目标故障对应的故障恢复预案。
可选地,第一获取模块1201,用于采用多个样本故障的故障根因特征,训练得到相似度模型。
可选地,如图13所示,云端设备102还包括:第二获取模块1203,用于向相似度模型分次输入多个样本故障对的故障根因特征,以获取相似度模型输出的每个样本故障对的故障根因之间的相似度,多个样本故障对包括第一类样本故障对和第二类样本故障对,第一类样本故障对包括两个标注有相同类别标签的样本故障,第二类样本故障对包括两个标注有不同类别标签的样本故障。确定模块1204,用于根据多个样本故障对的故障根因之间的相似度,确定相似度阈值。第一发送模块1202,还用于向分析设备发送相似度阈值。
可选地,如图14所示,云端设备120还包括第二发送模块1205。第一发送模块1202,用于向分析设备发送故障根因特征集合,故障根因特征集合包括多个已知故障对应的多个故障根因特征子集,每个故障根因特征子集包括一个已知故障的故障根因特征。第二发送模块1205,用于向控制设备发送故障恢复预案集合,故障恢复预案集合包括多个已知故障与故障恢复预案之间的对应关系。
可选地,请继续参见图14,云端设备120还包括:接收模块1206,用于接收来自控制设备的目标故障的标识、目标故障的故障根因特征以及目标故障对应的故障恢复预案。更新模块1207,用于在故障根因特征集合中添加目标故障与目标故障的故障根因特征之间的对应关系,得到更新后的故障根因特征集合,并在故障恢复预案集合中添加目标故障与目标故障对应的故障恢复预案之间的对应关系,得到更新后的故障恢复预案集合。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请实施例还提供了一种控制设备,包括:处理器和存储器;
所述存储器,用于存储计算机程序,所述计算机程序包括程序指令;
所述处理器,用于调用所述计算机程序,实现图2对应的方法实施例中管理设备执行的动作,或者实现图3对应的方法实施例中控制设备执行的动作。
本申请实施例还提供了一种分析设备,包括:处理器和存储器;
所述存储器,用于存储计算机程序,所述计算机程序包括程序指令;
所述处理器,用于调用所述计算机程序,实现图3对应的方法实施例中分析设备执行的动作。
本申请实施例还提供了一种云端设备,包括:处理器和存储器;
所述存储器,用于存储计算机程序,所述计算机程序包括程序指令;
所述处理器,用于调用所述计算机程序,实现图3对应的方法实施例中云端设备执行的动作。
示例地,图15是本申请实施例提供的一种故障恢复预案确定装置的框图。该装置可以是控制设备、分析设备或云端设备。如图15所示,装置150包括:处理器1501和存储器1502。
存储器1502,用于存储计算机程序,所述计算机程序包括程序指令;
处理器1501,用于调用所述计算机程序,当该装置150为控制设备时,实现图2对应的方法实施例中管理设备执行的动作,或者实现图3对应的方法实施例中控制设备执行的动作;当该装置150为分析设备时,实现图3对应的方法实施例中分析设备执行的动作;当该装置150为云端设备时,实现图3对应的方法实施例中云端设备执行的动作。
可选地,该装置150还包括通信总线1503和通信接口1504。
其中,处理器1501包括一个或者一个以上处理核心,处理器1501通过运行计算机程序,执行各种功能应用以及数据处理。
存储器1502可用于存储计算机程序。可选地,存储器可存储操作系统和至少一个功能所需的应用程序单元。操作系统可以是实时操作系统(Real Time eXecutive,RTX)、LINUX、UNIX、WINDOWS或OS X之类的操作系统。
通信接口1504可以为多个,通信接口1504用于与其它设备进行通信。
存储器1502与通信接口1504分别通过通信总线1503与处理器1501连接。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质上存储有指令,当所述指令被处理器执行时,实现上述方法实施例中管理设备、控制设备、分析设备或云端设备执行的动作。
本申请实施例还提供了一种故障恢复预案确定系统,包括:控制设备和分析设备。
分析设备用于获取多个已知故障中,故障根因与网络中的目标故障的故障根因满足相似度条件的相似已知故障,并向控制设备发送目标故障对应的相似故障信息,相似故障信息包括目标故障的标识和相似故障列表,相似故障列表包括目标故障的一个或多个相似已知故障。控制设备用于获取相似已知故障对应的故障恢复预案,并基于相似已知故障对应的故障恢复预案,确定目标故障对应的故障恢复预案。
可选地,该系统还包括:云端设备(即训练设备)。
云端设备用于采用多个样本故障的故障根因特征,训练得到相似度模型,并向分析设备发送相似度模型,样本故障标注有类别标签,其中,标注有相同类别标签的样本故障对应的故障恢复预案相同。分析设备用于对于多个已知故障中的每个已知故障,向相似度模型输入目标故障的故障根因特征以及已知故障的故障根因特征,以获取相似度模型输出的目标故障的故障根因与已知故障的故障根因之间的相似度,并根据目标故障的故障根因与多个已知故障的故障根因之间的相似度,确定多个已知故障中故障根因与目标故障的故障根因满足相似度条件的相似已知故障。
可选地,云端设备还用于向控制设备发送故障恢复预案集合,故障恢复预案集合包括多个已知故障与故障恢复预案之间的对应关系。控制设备用于基于故障恢复预案集合,获取相似已知故障对应的故障恢复预案。
可选地,控制设备还用于向云端设备发送目标故障的标识以及目标故障对应的故障恢复预案。云端设备还用于在故障恢复预案集合中添加目标故障与目标故障对应的故障恢复预案之间的对应关系,得到更新后的故障恢复预案集合。
可选地,云端设备还用于向分析设备发送故障根因特征集合,故障根因特征集合包括多个已知故障与故障根因特征之间的对应关系。分析设备用于基于故障根因特征集合,获取多个已知故障的故障根因特征。
可选地,相似故障信息还包括目标故障的故障根因特征。控制设备还用于向云端设备发送目标故障的标识以及目标故障的故障根因特征。云端设备还用于在故障根因特征集合中添加目标故障与目标故障的故障根因特征之间的对应关系,得到更新后的故障根因特征集合。
本申请实施例还提供了另一种故障恢复预案确定系统,包括:控制设备和云端设备。
云端设备用于向控制设备发送故障恢复预案集合,该故障恢复预案集合包括多个已知故障与故障恢复预案之间的对应关系。控制设备用于基于故障恢复预案集合,获取多个已知故障中,故障根因与网络中的目标故障的故障根因满足相似度条件的相似已知故障对应的故障恢复预案,并基于相似已知故障对应的故障恢复预案,确定目标故障对应的故障恢复预案。
可选地,控制设备还用于向云端设备发送目标故障的标识以及目标故障对应的故障恢复预案。云端设备还用于在故障恢复预案集合中添加目标故障与目标故障对应的故障恢复预案之间的对应关系,得到更新后的故障恢复预案集合。
可选地,该系统还包括:分析设备。
分析设备用于获取多个已知故障中,故障根因与网络中的目标故障的故障根因满足相似度条件的相似已知故障,并向控制设备发送目标故障对应的相似故障信息,相似故障信息包括目标故障的标识和相似故障列表,相似故障列表包括目标故障的一个或多个相似已知故障。
可选地,云端设备用于采用多个样本故障的故障根因特征,训练得到相似度模型,并向分析设备发送相似度模型,样本故障标注有类别标签,其中,标注有相同类别标签的样本故障对应的故障恢复预案相同。分析设备用于对于多个已知故障中的每个已知故障,向相似度模型输入目标故障的故障根因特征以及已知故障的故障根因特征,以获取相似度模型输出的目标故障的故障根因与已知故障的故障根因之间的相似度,并根据目标故障的故障根因与多个已知故障的故障根因之间的相似度,确定多个已知故障中故障根因与目标故障的故障根因满足相似度条件的相似已知故障。
可选地,云端设备还用于向分析设备发送故障根因特征集合,故障根因特征集合包括多个已知故障与故障根因特征之间的对应关系。分析设备用于基于故障根因特征集合,获取多个已知故障的故障根因特征。
可选地,相似故障信息还包括目标故障的故障根因特征。控制设备还用于向云端设备发送目标故障的标识以及目标故障的故障根因特征。云端设备还用于在故障根因特征集合中添加目标故障与目标故障的故障根因特征之间的对应关系,得到更新后的故障根因特征集合。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本申请实施例中,术语“第一”、“第二”和“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的构思和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (50)
1.一种故障恢复预案确定方法,其特征在于,所述方法包括:
控制设备获取多个已知故障中,故障根因与网络中的目标故障的故障根因满足相似度条件的相似已知故障;
所述控制设备获取所述相似已知故障对应的故障恢复预案;
所述控制设备基于所述相似已知故障对应的故障恢复预案,确定所述目标故障对应的故障恢复预案。
2.根据权利要求1所述的方法,其特征在于,所述故障根因采用故障根因特征表示,所述故障根因特征包括故障根因对象和故障根因事件,其中,所述故障根因事件为导致故障的异常事件,所述故障根因对象用于指示故障根因网络实体的类型,所述故障根因网络实体为所述故障根因事件所属的网络实体。
3.根据权利要求2所述的方法,其特征在于,
所述故障根因网络实体为物理接口,所述故障根因特征还包括所述故障根因网络实体的接口闪断指示、所述故障根因网络实体的接口假死指示、所述故障根因网络实体的收发报文状态、所述故障根因网络实体的接口协议状态或所述故障根因网络实体所在设备的物理接口状态中的一个或多个;
或者,所述故障根因网络实体为边界网关协议BGP对等体,所述故障根因特征还包括所述故障根因网络实体的BGP路由震荡指示和/或所述故障根因网络实体所在设备的物理接口状态;
又或者,所述故障根因特征还包括所述故障根因网络实体所在设备的物理接口状态。
4.根据权利要求1至3任一所述的方法,其特征在于,所述控制设备获取多个已知故障中,故障根因与网络中的目标故障的故障根因满足相似度条件的相似已知故障,包括:
所述控制设备获取所述多个已知故障的故障根因特征;
对于所述多个已知故障中的每个已知故障,所述控制设备根据所述目标故障的故障根因特征以及所述已知故障的故障根因特征,计算所述目标故障的故障根因与所述已知故障的故障根因之间的相似度;
所述控制设备根据所述目标故障的故障根因与所述多个已知故障的故障根因之间的相似度,确定所述多个已知故障中故障根因与所述目标故障的故障根因满足所述相似度条件的相似已知故障。
5.根据权利要求4所述的方法,其特征在于,所述控制设备根据所述目标故障的故障根因与所述多个已知故障的故障根因之间的相似度,确定所述多个已知故障中故障根因与所述目标故障的故障根因满足所述相似度条件的相似已知故障,包括:
所述控制设备将所述多个已知故障中,故障根因与所述目标故障的故障根因之间的相似度高于相似度阈值的已知故障确定为所述相似已知故障。
6.根据权利要求4或5所述的方法,其特征在于,所述控制设备根据所述目标故障的故障根因特征以及所述已知故障的故障根因特征,计算所述目标故障的故障根因与所述已知故障的故障根因之间的相似度,包括:
所述控制设备向相似度模型输入所述目标故障的故障根因特征以及所述已知故障的故障根因特征,以获取所述相似度模型输出的所述目标故障的故障根因与所述已知故障的故障根因之间的相似度,所述相似度模型基于多个样本故障的故障根因特征训练得到,所述样本故障标注有类别标签,其中,标注有相同类别标签的样本故障对应的故障恢复预案相同。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
所述控制设备采用多个所述样本故障的故障根因特征,训练得到所述相似度模型。
8.根据权利要求6或7所述的方法,其特征在于,所述方法还包括:
所述控制设备向所述相似度模型分次输入多个样本故障对的故障根因特征,以获取所述相似度模型输出的每个所述样本故障对的故障根因之间的相似度,所述多个样本故障对包括第一类样本故障对和第二类样本故障对,所述第一类样本故障对包括两个标注有相同类别标签的样本故障,所述第二类样本故障对包括两个标注有不同类别标签的样本故障;
所述控制设备根据所述多个样本故障对的故障根因之间的相似度,确定相似度阈值。
9.根据权利要求6所述的方法,其特征在于,所述方法还包括:
所述控制设备接收来自训练设备的所述相似度模型和/或相似度阈值。
10.根据权利要求4至9任一所述的方法,其特征在于,所述方法还包括:
所述控制设备接收来自训练设备的故障根因特征集合,所述故障根因特征集合包括所述多个已知故障与故障根因特征之间的对应关系;
所述控制设备获取所述多个已知故障的故障根因特征,包括:
所述控制设备基于所述故障根因特征集合,获取所述多个已知故障的故障根因特征。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
所述控制设备向所述训练设备发送所述目标故障的标识以及所述目标故障的故障根因特征,以供所述训练设备在所述故障根因特征集合中添加所述目标故障与所述目标故障的故障根因特征之间的对应关系,得到更新后的故障根因特征集合。
12.根据权利要求4至11任一所述的方法,其特征在于,所述方法还包括:
当所述网络发生故障时,所述控制设备获取所述网络中产生的异常事件;
所述控制设备基于所述网络中产生的异常事件,确定所述故障的故障根因特征。
13.根据权利要求1至3任一所述的方法,其特征在于,所述控制设备获取多个已知故障中,故障根因与网络中的目标故障的故障根因满足相似度条件的相似已知故障,包括:
所述控制设备接收来自分析设备的所述目标故障对应的相似故障信息,所述相似故障信息包括所述目标故障的标识和相似故障列表,所述相似故障列表包括所述目标故障的一个或多个相似已知故障。
14.根据权利要求13所述的方法,其特征在于,所述相似故障信息还包括所述目标故障的故障根因特征。
15.根据权利要求1至14任一所述的方法,其特征在于,所述控制设备基于所述相似已知故障对应的故障恢复预案,确定所述目标故障对应的故障恢复预案,包括:
所述控制设备基于所述网络的网络配置,评估所述相似已知故障对应的故障恢复预案的可行性,所述网络配置包括组网拓扑和/或设备数据,所述设备数据包括管理面数据、数据面数据或控制面数据中的一种或多种;
所述控制设备将可行的故障恢复预案中的一个或多个故障恢复预案确定为所述目标故障对应的故障恢复预案。
16.根据权利要求15所述的方法,其特征在于,所述控制设备将可行的故障恢复预案中的一个或多个故障恢复预案确定为所述目标故障对应的故障恢复预案,包括:
响应于多个故障恢复预案可行,所述控制设备基于所述网络的网络配置,分别评估所述多个故障恢复预案对所述网络所运行业务的影响程度;
所述控制设备将所述多个故障恢复预案中,对所述网络所运行业务的影响程度最小的故障恢复预案确定为所述目标故障对应的故障恢复预案。
17.根据权利要求1至16任一所述的方法,其特征在于,所述方法还包括:
所述控制设备基于所述目标故障以及所述目标故障对应的故障恢复预案,确定所述网络中待执行预案的目标网络设备;
所述控制设备向所述目标网络设备发送预案执行指令,所述预案执行指令用于指示所述目标网络设备执行所述目标故障对应的故障恢复预案,所述预案执行指令包括所述目标故障对应的故障恢复预案。
18.根据权利要求17所述的方法,其特征在于,所述方法还包括:
所述控制设备向所述目标网络设备发送预案执行回退指令,所述预案执行回退指令用于指示所述目标网络设备恢复至执行所述目标故障对应的故障恢复预案之前的状态。
19.根据权利要求1至18任一所述的方法,其特征在于,所述方法还包括:
所述控制设备接收来自训练设备的故障恢复预案集合,所述故障恢复预案集合包括所述多个已知故障与故障恢复预案之间的对应关系;
所述控制设备获取所述相似已知故障对应的故障恢复预案,包括:
所述控制设备基于所述故障恢复预案集合,获取所述相似已知故障对应的故障恢复预案。
20.根据权利要求19所述的方法,其特征在于,所述方法还包括:
所述控制设备向所述训练设备发送所述目标故障的标识以及所述目标故障对应的故障恢复预案,以供所述训练设备在所述故障恢复预案集合中添加所述目标故障与所述目标故障对应的故障恢复预案之间的对应关系,得到更新后的故障恢复预案集合。
21.一种故障恢复预案确定方法,其特征在于,所述方法包括:
分析设备获取多个已知故障中,故障根因与网络中的目标故障的故障根因满足相似度条件的相似已知故障;
所述分析设备向控制设备发送所述目标故障对应的相似故障信息,所述相似故障信息包括所述目标故障的标识和相似故障列表,所述相似故障列表包括所述目标故障的一个或多个相似已知故障,所述相似故障信息用于所述控制设备确定所述目标故障对应的故障恢复预案。
22.根据权利要求21所述的方法,其特征在于,所述分析设备获取多个已知故障中,故障根因与网络中的目标故障的故障根因满足相似度条件的相似已知故障,包括:
所述分析设备获取所述多个已知故障的故障根因特征;
对于所述多个已知故障中的每个已知故障,所述分析设备根据所述目标故障的故障根因特征以及所述已知故障的故障根因特征,计算所述目标故障的故障根因与所述已知故障的故障根因之间的相似度;
所述分析设备根据所述目标故障的故障根因与所述多个已知故障的故障根因之间的相似度,确定所述多个已知故障中故障根因与所述目标故障的故障根因满足所述相似度条件的相似已知故障。
23.一种故障恢复预案确定方法,其特征在于,所述方法包括:
训练设备获取相似度模型,所述相似度模型基于多个样本故障的故障根因特征训练得到,所述样本故障标注有类别标签,其中,标注有相同类别标签的样本故障对应的故障恢复预案相同;
所述训练设备向分析设备发送所述相似度模型,供所述分析设备确定网络中发生的目标故障的相似已知故障,所述相似已知故障用于确定所述目标故障对应的故障恢复预案。
24.根据权利要求23所述的方法,其特征在于,所述训练设备获取相似度模型,包括:
所述训练设备采用多个所述样本故障的故障根因特征,训练得到所述相似度模型。
25.根据权利要求23或24所述的方法,其特征在于,所述方法还包括:
所述训练设备向所述相似度模型分次输入多个样本故障对的故障根因特征,以获取所述相似度模型输出的每个所述样本故障对的故障根因之间的相似度,所述多个样本故障对包括第一类样本故障对和第二类样本故障对,所述第一类样本故障对包括两个标注有相同类别标签的样本故障,所述第二类样本故障对包括两个标注有不同类别标签的样本故障;
所述训练设备根据所述多个样本故障对的故障根因之间的相似度,确定相似度阈值;
所述训练设备向所述分析设备发送所述相似度阈值。
26.根据权利要求23至25任一所述的方法,其特征在于,所述方法还包括:
所述训练设备向所述分析设备发送故障根因特征集合,所述故障根因特征集合包括所述多个已知故障与故障根因特征之间的对应关系;
所述训练设备向控制设备发送故障恢复预案集合,所述故障恢复预案集合包括所述多个已知故障与故障恢复预案之间的对应关系。
27.根据权利要求26所述的方法,其特征在于,所述方法还包括:
所述训练设备接收来自所述控制设备的所述目标故障的标识、所述目标故障的故障根因特征以及所述目标故障对应的故障恢复预案;
所述训练设备在所述故障根因特征集合中添加所述目标故障与所述目标故障的故障根因特征之间的对应关系,得到更新后的故障根因特征集合,并在所述故障恢复预案集合中添加所述目标故障与所述目标故障对应的故障恢复预案之间的对应关系,得到更新后的故障恢复预案集合。
28.一种控制设备,其特征在于,包括:
第一获取模块,用于获取多个已知故障中,故障根因与网络中的目标故障的故障根因满足相似度条件的相似已知故障;
第一确定模块,用于获取所述相似已知故障对应的故障恢复预案,并基于所述相似已知故障对应的故障恢复预案,确定所述目标故障对应的故障恢复预案。
29.根据权利要求28所述的控制设备,其特征在于,所述第一获取模块,用于:
获取所述多个已知故障的故障根因特征;
对于所述多个已知故障中的每个已知故障,根据所述目标故障的故障根因特征以及所述已知故障的故障根因特征,计算所述目标故障的故障根因与所述已知故障的故障根因之间的相似度;
根据所述目标故障的故障根因与所述多个已知故障的故障根因之间的相似度,确定所述多个已知故障中故障根因与所述目标故障的故障根因满足所述相似度条件的相似已知故障。
30.根据权利要求29所述的控制设备,其特征在于,所述第一获取模块,用于:
向相似度模型输入所述目标故障的故障根因特征以及所述已知故障的故障根因特征,以获取所述相似度模型输出的所述目标故障的故障根因与所述已知故障的故障根因之间的相似度,所述相似度模型基于多个样本故障的故障根因特征训练得到,所述样本故障标注有类别标签,其中,标注有相同类别标签的样本故障对应的故障恢复预案相同。
31.根据权利要求30所述的控制设备,其特征在于,所述控制设备还包括:
训练模块,用于采用多个所述样本故障的故障根因特征,训练得到所述相似度模型。
32.根据权利要求30或31所述的控制设备,其特征在于,所述控制设备还包括:
第二获取模块,用于向所述相似度模型分次输入多个样本故障对的故障根因特征,以获取所述相似度模型输出的每个所述样本故障对的故障根因之间的相似度,所述多个样本故障对包括第一类样本故障对和第二类样本故障对,所述第一类样本故障对包括两个标注有相同类别标签的样本故障,所述第二类样本故障对包括两个标注有不同类别标签的样本故障;
第二确定模块,用于根据所述多个样本故障对的故障根因之间的相似度,确定相似度阈值。
33.根据权利要求30所述的控制设备,其特征在于,所述控制设备还包括:
接收模块,用于接收来自训练设备的所述相似度模型和/或相似度阈值。
34.根据权利要求28至33任一所述的控制设备,其特征在于,所述控制设备还包括:
接收模块,用于接收来自训练设备的故障根因特征集合,所述故障根因特征集合包括所述多个已知故障与故障根因特征之间的对应关系;
所述第一获取模块,用于基于所述故障根因特征集合,获取所述多个已知故障的故障根因特征。
35.根据权利要求34所述的控制设备,其特征在于,所述控制设备还包括:
第一发送模块,用于向所述训练设备发送所述目标故障的标识以及所述目标故障的故障根因特征,以供所述训练设备在所述故障根因特征集合中添加所述目标故障与所述目标故障的故障根因特征之间的对应关系,得到更新后的故障根因特征集合。
36.根据权利要求29至35任一所述的控制设备,其特征在于,所述控制设备还包括:
第三获取模块,用于当所述网络发生故障时,获取所述网络中产生的异常事件;
第三确定模块,用于基于所述网络中产生的异常事件,确定所述故障的故障根因特征。
37.根据权利要求28至36任一所述的控制设备,其特征在于,所述控制设备还包括:
第四确定模块,用于基于所述目标故障以及所述目标故障对应的故障恢复预案,确定所述网络中待执行预案的目标网络设备;
第二发送模块,用于向所述目标网络设备发送预案执行指令,所述预案执行指令用于指示所述目标网络设备执行所述目标故障对应的故障恢复预案,所述预案执行指令包括所述目标故障对应的故障恢复预案。
38.根据权利要求37所述的控制设备,其特征在于,
所述第二发送模块,还用于向所述目标网络设备发送预案执行回退指令,所述预案执行回退指令用于指示所述目标网络设备恢复至执行所述目标故障对应的故障恢复预案之前的状态。
39.根据权利要求28至38任一所述的控制设备,其特征在于,所述控制设备还包括:
接收模块,用于接收来自训练设备的故障恢复预案集合,所述故障恢复预案集合包括所述多个已知故障与故障恢复预案之间的对应关系;
所述第一确定模块,用于基于所述故障恢复预案集合,获取所述相似已知故障对应的故障恢复预案。
40.根据权利要求39所述的控制设备,其特征在于,所述控制设备还包括:
第一发送模块,用于向所述训练设备发送所述目标故障的标识以及所述目标故障对应的故障恢复预案,以供所述训练设备在所述故障恢复预案集合中添加所述目标故障与所述目标故障对应的故障恢复预案之间的对应关系,得到更新后的故障恢复预案集合。
41.一种分析设备,其特征在于,包括:
获取模块,用于获取多个已知故障中,故障根因与网络中的目标故障的故障根因满足相似度条件的相似已知故障;
发送模块,用于向控制设备发送所述目标故障对应的相似故障信息,所述相似故障信息包括所述目标故障的标识和相似故障列表,所述相似故障列表包括所述目标故障的一个或多个相似已知故障,所述相似故障信息用于所述控制设备确定所述目标故障对应的故障恢复预案。
42.一种训练设备,其特征在于,包括:
第一获取模块,用于获取相似度模型,所述相似度模型基于多个样本故障的故障根因特征训练得到,所述样本故障标注有类别标签,其中,标注有相同类别标签的样本故障对应的故障恢复预案相同;
第一发送模块,用于向分析设备发送所述相似度模型,供所述分析设备确定网络中发生的目标故障的相似已知故障,所述相似已知故障用于确定所述目标故障对应的故障恢复预案。
43.根据权利要求42所述的训练设备,其特征在于,所述第一获取模块,用于:
采用多个所述样本故障的故障根因特征,训练得到所述相似度模型。
44.根据权利要求42或43所述的训练设备,其特征在于,所述设备还包括:
第二获取模块,用于向所述相似度模型分次输入多个样本故障对的故障根因特征,以获取所述相似度模型输出的每个所述样本故障对的故障根因之间的相似度,所述多个样本故障对包括第一类样本故障对和第二类样本故障对,所述第一类样本故障对包括两个标注有相同类别标签的样本故障,所述第二类样本故障对包括两个标注有不同类别标签的样本故障;
确定模块,用于根据所述多个样本故障对的故障根因之间的相似度,确定相似度阈值;
所述第一发送模块,还用于向所述分析设备发送所述相似度阈值。
45.根据权利要求42至44任一所述的训练设备,其特征在于,
所述第一发送模块,还用于向所述分析设备发送故障根因特征集合,所述故障根因特征集合包括所述多个已知故障与故障根因特征之间的对应关系;
所述设备还包括第二发送模块,用于向控制设备发送故障恢复预案集合,所述故障恢复预案集合包括所述多个已知故障与故障恢复预案之间的对应关系。
46.根据权利要求45所述的训练设备,其特征在于,所述训练设备还包括:
接收模块,用于接收来自所述控制设备的所述目标故障的标识、所述目标故障的故障根因特征以及所述目标故障对应的故障恢复预案;
更新模块,用于在所述故障根因特征集合中添加所述目标故障与所述目标故障的故障根因特征之间的对应关系,得到更新后的故障根因特征集合,并在所述故障恢复预案集合中添加所述目标故障与所述目标故障对应的故障恢复预案之间的对应关系,得到更新后的故障恢复预案集合。
47.一种故障恢复预案确定系统,其特征在于,包括:控制设备和分析设备;
所述分析设备用于获取多个已知故障中,故障根因与网络中的目标故障的故障根因满足相似度条件的相似已知故障,并向所述控制设备发送所述目标故障对应的相似故障信息,所述相似故障信息包括所述目标故障的标识和相似故障列表,所述相似故障列表包括所述目标故障的一个或多个相似已知故障;
所述控制设备用于获取所述相似已知故障对应的故障恢复预案,并基于所述相似已知故障对应的故障恢复预案,确定所述目标故障对应的故障恢复预案。
48.根据权利要求47所述的系统,其特征在于,所述系统还包括:训练设备;
所述训练设备用于采用多个样本故障的故障根因特征,训练得到相似度模型,并向所述分析设备发送所述相似度模型,所述样本故障标注有类别标签,其中,标注有相同类别标签的样本故障对应的故障恢复预案相同,
所述分析设备用于对于所述多个已知故障中的每个已知故障,向所述相似度模型输入所述目标故障的故障根因特征以及所述已知故障的故障根因特征,以获取所述相似度模型输出的所述目标故障的故障根因与所述已知故障的故障根因之间的相似度,并根据所述目标故障的故障根因与所述多个已知故障的故障根因之间的相似度,确定所述多个已知故障中故障根因与所述目标故障的故障根因满足所述相似度条件的相似已知故障;
和/或,
所述训练设备用于向所述控制设备发送故障恢复预案集合,所述故障恢复预案集合包括所述多个已知故障与故障恢复预案之间的对应关系,
所述控制设备用于基于所述故障恢复预案集合,获取所述相似已知故障对应的故障恢复预案;
和/或,
所述训练设备用于向所述分析设备发送故障根因特征集合,所述故障根因特征集合包括所述多个已知故障与故障根因特征之间的对应关系,
所述分析设备用于基于所述故障根因特征集合,获取所述多个已知故障的故障根因特征。
49.一种设备,其特征在于,包括:处理器和存储器;
所述存储器,用于存储计算机程序,所述计算机程序包括程序指令;
所述处理器,用于调用所述计算机程序,实现如权利要求1至27任一所述的故障恢复预案确定方法。
50.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有指令,当所述指令被计算机设备的处理器执行时,实现如权利要求1至27任一所述的故障恢复预案确定方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP21881956.3A EP4221004A4 (en) | 2020-10-20 | 2021-10-18 | METHOD, APPARATUS AND SYSTEM FOR DETERMINING A FAULT RECOVERY PLAN AND COMPUTER STORAGE MEDIUM |
PCT/CN2021/124377 WO2022083540A1 (zh) | 2020-10-20 | 2021-10-18 | 故障恢复预案确定方法、装置及系统、计算机存储介质 |
US18/302,629 US20230318906A1 (en) | 2020-10-20 | 2023-04-18 | Fault recovery plan determining method, apparatus, and system, and computer storage medium |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011123661 | 2020-10-20 | ||
CN2020111236615 | 2020-10-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114389940A true CN114389940A (zh) | 2022-04-22 |
Family
ID=81194671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011622270.8A Pending CN114389940A (zh) | 2020-10-20 | 2020-12-31 | 故障恢复预案确定方法、装置及系统、计算机存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230318906A1 (zh) |
EP (1) | EP4221004A4 (zh) |
CN (1) | CN114389940A (zh) |
WO (1) | WO2022083540A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115001946A (zh) * | 2022-06-01 | 2022-09-02 | 中国建设银行股份有限公司 | 一种错包闪断故障处理方法和系统、电子设备、存储介质 |
CN115048533A (zh) * | 2022-06-21 | 2022-09-13 | 四维创智(北京)科技发展有限公司 | 知识图谱构建的方法、装置、电子设备及可读存储介质 |
CN115102844A (zh) * | 2022-06-09 | 2022-09-23 | 摩拜(北京)信息技术有限公司 | 一种故障监控与处理方法、装置和电子设备 |
CN115766404A (zh) * | 2022-10-24 | 2023-03-07 | 浪潮通信信息系统有限公司 | 一种基于智能分析的通信运营商网络故障管理方法及系统 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115174312B (zh) * | 2022-07-06 | 2023-04-18 | 中国联合网络通信集团有限公司 | 广播信息发送方法、隧道端点设备、电子设备及介质 |
CN115225460B (zh) * | 2022-07-15 | 2023-11-28 | 北京天融信网络安全技术有限公司 | 故障判定方法、电子设备和存储介质 |
CN115333923B (zh) * | 2022-10-14 | 2023-03-14 | 成都飞机工业(集团)有限责任公司 | 一种故障点溯源分析方法、装置、设备及介质 |
CN115619383B (zh) * | 2022-12-19 | 2023-07-18 | 中国空气动力研究与发展中心超高速空气动力研究所 | 一种基于知识图谱的故障诊断方法、装置及计算设备 |
US11943131B1 (en) * | 2023-07-26 | 2024-03-26 | Cisco Technology, Inc. | Confidence reinforcement of automated remediation decisions through service health measurements |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008310582A (ja) * | 2007-06-14 | 2008-12-25 | Hitachi Ltd | 保守作業支援装置とシステム並びに保守作業支援方法 |
KR101926257B1 (ko) * | 2017-05-15 | 2018-12-06 | 두산중공업 주식회사 | 이상 신호 복원 시스템 및 방법 |
CN108289034B (zh) * | 2017-06-21 | 2019-04-09 | 新华三大数据技术有限公司 | 一种故障发现方法和装置 |
CN107612756A (zh) * | 2017-10-31 | 2018-01-19 | 广西宜州市联森网络科技有限公司 | 一种具有智能故障分析处理功能的运维管理系统 |
CN111224805A (zh) * | 2018-11-26 | 2020-06-02 | 中兴通讯股份有限公司 | 一种网络故障根因检测方法、系统及存储介质 |
CN111082401B (zh) * | 2019-11-15 | 2022-07-08 | 国网河南省电力公司郑州供电公司 | 基于自学习机制的配电网故障恢复方法 |
-
2020
- 2020-12-31 CN CN202011622270.8A patent/CN114389940A/zh active Pending
-
2021
- 2021-10-18 EP EP21881956.3A patent/EP4221004A4/en active Pending
- 2021-10-18 WO PCT/CN2021/124377 patent/WO2022083540A1/zh unknown
-
2023
- 2023-04-18 US US18/302,629 patent/US20230318906A1/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115001946A (zh) * | 2022-06-01 | 2022-09-02 | 中国建设银行股份有限公司 | 一种错包闪断故障处理方法和系统、电子设备、存储介质 |
CN115102844A (zh) * | 2022-06-09 | 2022-09-23 | 摩拜(北京)信息技术有限公司 | 一种故障监控与处理方法、装置和电子设备 |
CN115048533A (zh) * | 2022-06-21 | 2022-09-13 | 四维创智(北京)科技发展有限公司 | 知识图谱构建的方法、装置、电子设备及可读存储介质 |
CN115048533B (zh) * | 2022-06-21 | 2023-06-27 | 四维创智(北京)科技发展有限公司 | 知识图谱构建的方法、装置、电子设备及可读存储介质 |
CN115766404A (zh) * | 2022-10-24 | 2023-03-07 | 浪潮通信信息系统有限公司 | 一种基于智能分析的通信运营商网络故障管理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
EP4221004A1 (en) | 2023-08-02 |
US20230318906A1 (en) | 2023-10-05 |
EP4221004A4 (en) | 2024-02-21 |
WO2022083540A1 (zh) | 2022-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022083540A1 (zh) | 故障恢复预案确定方法、装置及系统、计算机存储介质 | |
CN112887119B (zh) | 故障根因确定方法及装置、计算机存储介质 | |
CN112787841B (zh) | 故障根因定位方法及装置、计算机存储介质 | |
EP3304822B1 (en) | Method and apparatus for grouping features into classes with selected class boundaries for use in anomaly detection | |
CN107683597B (zh) | 用于异常检测的网络行为数据收集和分析 | |
CN107667505B (zh) | 用于监控和管理数据中心的系统及方法 | |
EP2672668B1 (en) | Facilitating the operation of a virtual network by predicting a failure | |
US8583779B2 (en) | Root cause analysis approach with candidate elimination using network virtualization | |
US20220200844A1 (en) | Data processing method and apparatus, and computer storage medium | |
CN110011869B (zh) | 控制器装置、方法及计算机可读存储介质 | |
CN105051696A (zh) | 用于处理网络元数据的改进的流式处理方法及系统 | |
CN113852476A (zh) | 确定异常事件关联对象的方法、装置及系统 | |
CN116668381A (zh) | 一种虚拟分布式网络接口控制器 | |
CN113868367A (zh) | 构建知识图谱的方法、装置及系统、计算机存储介质 | |
CN113190368A (zh) | 实现表项检查的方法、装置及系统、计算机存储介质 | |
KR20190049322A (ko) | 소프트웨어 정의 네트워크에 수행된 공격의 원인을 파악하는 포렌식 서버 및 그 방법 | |
EP3474489B1 (en) | A method and a system to enable a (re-)configuration of a telecommunications network | |
CN114519095A (zh) | 数据处理方法、装置及系统、计算机存储介质 | |
Pan et al. | Fault Management Platform based on Knowledge Graph in Network Slicing Environment | |
CN116684262A (zh) | 获取故障传播关系的方法及装置 | |
WO2023094867A1 (en) | Method and system for learning and inferencing faults |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |