CN112860496A - 故障修复操作推荐方法、装置及存储介质 - Google Patents

故障修复操作推荐方法、装置及存储介质 Download PDF

Info

Publication number
CN112860496A
CN112860496A CN201911180239.0A CN201911180239A CN112860496A CN 112860496 A CN112860496 A CN 112860496A CN 201911180239 A CN201911180239 A CN 201911180239A CN 112860496 A CN112860496 A CN 112860496A
Authority
CN
China
Prior art keywords
fault
candidate
node
configuration
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911180239.0A
Other languages
English (en)
Inventor
廖文奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201911180239.0A priority Critical patent/CN112860496A/zh
Priority to PCT/CN2020/118233 priority patent/WO2021103800A1/zh
Priority to EP20892606.3A priority patent/EP4047481A4/en
Publication of CN112860496A publication Critical patent/CN112860496A/zh
Priority to US17/825,246 priority patent/US11743113B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2252Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using fault dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/04Arrangements for maintaining operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/40Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using virtualisation of network functions or resources, e.g. SDN or NFV entities

Abstract

本申请公开了一种故障修复操作推荐方法、装置及存储介质,属于通信技术领域。在本申请实施例中,在获取到故障信息之后,可以从预案库中查找故障信息对应的修复预案,当在预案库中无法查找到与故障信息对应的修复预案时,可以通过推荐模型来对故障信息进行处理,得到推荐预案,进而从推荐预案包括的一种或多种候选操作中选择一个操作作为故障修复操作,解决了在该预案库中不存在该故障信息对应的修复预案,无法为故障节点提供修复操作的问题。

Description

故障修复操作推荐方法、装置及存储介质
技术领域
本申请涉及通信技术领域,特别涉及一种故障修复操作推荐方法、装置及存储介质。
背景技术
在软件定义网络(software defined network,SDN)架构中,SDN控制器可以对多个节点进行集中控制。其中,当多个节点中的任一节点发生故障时,SDN控制器可以为该节点推荐用于修复故障的修复操作。
相关技术中,可以根据人工经验在SDN控制器中配置预案库,该预案库中存储有故障信息与修复预案的映射关系。当SDN控制器接收到来自故障节点的故障信息之后,可以根据该故障信息从预案库中查找与该故障信息对应的修复预案,如果查找到与该故障信息对应的修复预案,SDN控制器可以将查找到的修复预案中包括的修复操作进行显示,由人工选择一种修复操作作为故障修复操作下发至故障节点,以便故障节点根据该故障修复操作来进行故障修复。然而,如果该预案库中不存在该故障信息对应的修复预案,则SDN控制器将无法为故障节点提供修复操作,从而导致无法修复该故障。
发明内容
本申请提供了一种故障修复操作推荐方法、装置及存储介质,可以用于解决相关技术中通过预案库中不存在该故障信息对应的修复预案时,无法为故障节点提供修复操作的问题。
所述技术方案如下:
第一方面,提供了一种故障修复操作推荐方法,所述方法包括:获取故障节点的故障信息;如果预案库中不存在所述故障信息对应的修复预案,则根据所述故障信息,通过推荐模型确定推荐预案,所述推荐预案包括一个或多个候选操作;从所述推荐预案包括的一个或多个候选操作中确定故障修复操作,向所述故障节点推荐所述故障修复操作,以便所述故障节点根据所述故障修复操作进行故障修复。
在本申请实施例中,当在预案库中无法查找到与故障信息对应的修复预案时,可以通过推荐模型来对故障信息进行处理,得到推荐预案,进而从推荐预案包括的一种或多种候选操作中选择一个操作作为故障修复操作,解决了在该预案库中不存在该故障信息对应的修复预案,无法为故障节点提供修复操作的问题。
可选地,所述故障信息包括多个故障参数,所述推荐模型的参数包括多个故障特征因子,所述多个故障特征因子中的每个故障特征因子对应所述多个故障参数中的一个故障参数。在此基础上,根据所述故障信息,通过推荐模型确定推荐预案的实现过程可以为:将所述多个故障参数作为所述推荐模型的输入,按照所述多个故障特征因子,通过所述推荐模型确定所述推荐预案。
可选地,所述推荐模型的参数还包括配置影响因子,所述配置影响因子包括所述故障节点的原始配置信息和所述故障节点所在网络的物理拓扑信息。在此基础上,从所述推荐预案包括的一个或多个候选操作中确定故障修复操作的实现过程可以为:将第一候选操作作为所述推荐模型的输入,按照所述配置影响因子,通过所述推荐模型确定所述第一候选操作对应的配置影响程度,所述配置影响程度是所述第一候选操作对所述故障节点的配置和所在网络的物理拓扑的预测影响程度,所述第一候选操作为所述一个或多个候选操作中的任一候选操作;将所述一个或多个候选操作中对应的配置影响程度最小的候选操作作为所述故障修复操作。
也即,本申请实施例可以确定候选操作的配置影响程度,并根据配置影响度来推荐故障修复操作,以使得推荐的故障修复操作对故障节点的配置和所在网络的物理拓扑的影响最小。
可选地,所述向所述故障节点发送所述故障修复操作之后,还包括:接收所述故障节点根据所述故障修复操作进行故障修复后反馈的修复结果,所述修复结果包括所述故障节点进行故障修复后的路由信息和所在网络的物理拓扑信息;将故障修复后的所述路由信息和所述物理拓扑信息作为数据面验证(data plane verification,DPV)模型的输入,通过所述DPV模型确定所述故障修复操作对应的数据面影响程度,所述数据面影响程度是所述故障修复操作对所述故障节点的配置和所在网络的物理拓扑造成的真实影响程度;根据所述故障修复操作对应的数据面影响程度、所述故障修复操作和所述故障信息,生成故障样本;根据所述故障样本对所述推荐模型的参数进行调整。
在推荐故障修复操作之后,还可以通过DPV模型来验证该故障修复操作对数据面的影响程度,进而根据该数据面影响程度、故障修复操作和故障信息生成故障样本,以对推荐模型的参数进行进一步地调整,提高了推荐模型推荐预案的准确性。
第二方面,提供了一种故障修复操作推荐方法,所述方法还包括:获取故障节点的故障信息,如果预案库中存在所述故障信息对应的修复预案,则将所述故障信息对应的修复预案作为推荐预案,所述推荐预案包括一个或多个候选操作;预测所述一个或多个候选操作中每个候选操作的综合影响程度,所述综合影响程度用于指示相应候选操作对所述故障节点所在网络的综合影响的大小;将所述一个或多个候选操作中对应的综合影响程度最小的候选操作确定为故障修复操作,向所述故障节点推荐所述故障修复操作,以便所述故障节点根据所述故障修复操作进行故障修复。
如果预案库中存在故障信息对应的修复预案,则可以确定该修复预案中包括的各个候选操作的综合影响程度的大小,进而根据综合影响程度的大小来确定故障修复操作,以使得故障修复操作对故障节点所在网络的综合影响达到最小。
可选地,所述预测所述推荐预案包括的一个或多个候选操作中每个候选操作的综合影响程度,包括:预估所述一个或多个候选操作中的每个候选操作对所述故障节点所在的网络内的业务的业务影响程度;预估所述一个或多个候选操作中的每个候选操作对所述故障节点所在网络的配置影响程度;根据每个候选操作对应的业务影响程度和配置影响程度,确定每个候选操作对应的综合影响程度。
可选地,所述预估所述一个或多个候选操作中的每个候选操作对所述故障节点所在网络的配置影响程度的实现过程可以为:获取所述故障节点的原始配置信息和所述故障节点所在网络的物理拓扑信息;根据第一候选操作和所述故障节点的原始配置信息,生成所述第一候选操作对应的预测配置信息,所述第一候选操作为所述一个或多个候选操作中的任一候选操作;将所述第一候选操作对应的预测配置信息、所述故障节点的原始配置信息和所述物理拓扑信息作为配置面验证(configuration plane verification,CPV)模型的输入,通过所述CPV模型确定所述第一候选操作对应的配置影响程度。
可选地,所述根据每个候选操作对应的业务影响程度和配置影响程度,确定每个候选操作对应的综合影响程度的实现过程可以为:获取业务影响权重和配置影响权重;根据第一候选操作对应的业务影响程度、所述业务影响权重、所述第一候选操作对应的配置影响程度和所述配置影响权重,确定所述第一候选操作对应的综合影响程度。
第三方面,提供了一种故障修复操作推荐装置,所述故障修复操作推荐装置具有实现上述第一方面或第二方面中故障修复操作推荐方法行为的功能。所述故障修复操作推荐装置包括至少一个模块,该至少一个模块用于实现上述第一方面所提供的故障修复操作推荐方法。
第四方面,提供了一种故障修复操作推荐装置,所述故障修复操作推荐装置的结构中包括处理器和存储器,所述存储器用于存储支持故障修复操作推荐装置执行上述第一方面或第二方面所提供的故障修复操作推荐方法的程序,以及存储用于实现上述第一方面或第二方面所提供的故障修复操作推荐方法所涉及的数据。所述处理器被配置为用于执行所述存储器中存储的程序。所述存储设备的操作装置还可以包括通信总线,该通信总线用于该处理器与存储器之间建立连接。
第五方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第二方面所述的故障修复操作推荐方法。
第六方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面或第二方面所述的故障修复操作推荐方法。
上述第三方面、第四方面、第五方面和第六方面所获得的技术效果与第一方面和第二方面中对应的技术手段获得的技术效果近似,在这里不再赘述。
本申请提供的技术方案带来的有益效果至少包括:
在本申请实施例中,当在预案库中无法查找到与故障信息对应的修复预案时,可以通过推荐模型来对故障信息进行处理,得到推荐预案,进而从推荐预案包括的一种或多种候选操作中选择一个操作作为故障修复操作,解决了在该预案库中不存在该故障信息对应的修复预案,无法为故障节点提供修复操作的问题。
附图说明
图1是本申请实施例提供的故障修复操作推荐方法所涉及的系统架构图;
图2是本申请实施例提供的一种网络设备的结构示意图;
图3是本申请实施例提供的一种故障修复操作推荐方法流程图;
图4是本申请实施例提供的另一种故障修复操作推荐方法流程图;
图5是本申请实施例提供的一种故障修复操作推荐装置的结构示意图;
图6是本申请实施例提供的另一种故障修复操作推荐装置的结构示意图;
图7是本申请实施例提供的又一种故障修复操作推荐装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在对本申请实施例进行详细的解释说明之前,先对本申请实施例涉及的系统架构进行介绍。
图1是本申请实施例提供的故障修复操作推荐方法所涉及的系统架构图。如图1中所示,该系统中包括控制器101、分析器102和多个物理节点103。其中,控制器101可以分别与分析器102以及多个物理节点103进行通信,另外,分析器102也可以与多个物理节点103通信。
需要说明的是,控制器101用于集中控制网络资源的分配。示例性地,控制器101可以控制多个物理节点103上的数据转发。除此之外,在本申请实施例中,控制器101还可以接收分析器102上报的故障信息,并采用本申请实施例提供的推荐故障修复操作的方法向多个物理节点103中的故障设备推荐故障修复操作。
分析器102用于实时监测多个物理节点103中的每个物理节点103是否发生故障,并在监测到某个物理节点103发生故障之后,收集该故障节点的故障信息,将该故障信息上报至控制器101,以便控制器101根据本申请实施例提供的方法来向该故障节点推荐修复操作。
多个物理节点103可以为物理网络中的多个设备。该多个物理节点103用于接收和/或发送业务数据。
需要说明的是,控制器101和分析器102可以分布在两个不同的独立的设备中。或者,控制器101和分析器102可以集成于一台设备中,本申请实施例对此不做限定。再或者,控制器101可以具有分析器102的功能,在这种情况下,上述系统中可以不包括分析器102。另外,该多个物理节点103可以为交换机、路由器等网络设备,本申请实施例对此不做限定。
图2是本申请实施例提供的一种网络设备的结构示意图。图1中的控制器101可以通过图2所示的网络设备来实现。参见图2,该网络设备包括至少一个处理器201,通信总线202,存储器203以及至少一个通信接口204。
处理器201可以是一个通用中央处理器(Central Processing Unit,CPU),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本申请方案程序执行的集成电路。
通信总线202可包括一通路,在上述组件之间传送信息。
存储器203可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其它类型的静态存储设备,随机存取存储器(random access memory,RAM))或者可存储信息和指令的其它类型的动态存储设备,也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质,但不限于此。存储器203可以是独立存在,通过通信总线202与处理器201相连接。存储器203也可以和处理器201集成在一起。
通信接口204,使用任何收发器一类的装置,用于与其它设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(Wireless Local Area Networks,WLAN)等。
在具体实现中,作为一种实施例,处理器201可以包括一个或多个CPU,例如图2中所示的CPU0和CPU1。
在具体实现中,作为一种实施例,计算机设备可以包括多个处理器,例如图2中所示的处理器201和处理器205。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
在具体实现中,作为一种实施例,计算机设备还可以包括输出设备206和输入设备207。输出设备206和处理器201通信,可以以多种方式来显示信息。例如,输出设备206可以是液晶显示器(liquid crystal display,LCD),发光二级管(light emitting diode,LED)显示设备,阴极射线管(cathode ray tube,CRT)显示设备,或投影仪(projector)等。输入设备207和处理器201通信,可以以多种方式接收用户的输入。例如,输入设备207可以是鼠标、键盘、触摸屏设备或传感设备等。
其中,存储器203用于存储执行本申请方案的程序代码,并由处理器201来控制执行。处理器201用于执行存储器203中存储的程序代码208。程序代码208中可以包括一个或多个软件模块。图1中所示的控制器可以通过处理器201以及存储器203中的程序代码208中的一个或多个软件模块,来为故障设备推荐故障修复操作。
图2中的处理器读取存储器中的代码,可以使如图2所示的网络设备执行本申请中各实施例中的控制器所执行的部分或全部操作。
接下来对本申请实施例提供的故障修复操作推荐方法进行详细的解释说明。
图3是本申请实施例提供的一种故障修复操作推荐方法的流程图。该故障修复操作推荐方法可以应用于图1所示的控制器101,参见图3,该方法包括:
步骤301:获取故障节点的故障信息。
在本申请实施例中,控制器可以接收分析器上报的故障节点的故障信息。在这种情况中,分析器可以实时监测多个物理节点。当监测到某个物理节点发生故障时,可以收集该物理节点发生的故障的相关信息,并将这些信息作为故障信息上报至控制器。
可选地,在不存在分析器的情况下,也可以由控制器来监测多个物理节点,进而在监测到某个物理节点发生故障时,收集该物理节点发生的故障的相关信息,将收集到的信息作为故障信息。其中,发生故障的物理节点即为故障节点,该故障节点发生的故障可以称为第一故障。
另外,故障信息可以包括多个故障参数。该多个故障参数可以为故障标识、故障位置、故障发生时间、故障日志、故障类型等信息中的两种或两种以上。示例性地,故障信息包括的故障标识为地址解析协议(address resolution protocol,ARP)攻击,用于指示发生的故障为ARP攻击。故障位置为节点1端口2,用于指示故障节点为节点1,且故障发生在节点1的端口2处。故障发生时间为2019-07-14-08:30,故障类型为01。需要说明的是,不同的故障标识可能对应相同的故障类型,也可能对应不同的故障类型。也即,某些名称不同的故障可能是同一种类型的故障。
可选地,在有些场景下,当物理节点发生故障之后,物理节点可能会持续向控制器上报故障信息,这样,在一定时长内,控制器接收到的故障信息中可能存在某些故障节点重复发送的多个相同的故障信息。或者,多个物理节点可能会在相同的时间段内发生相同的故障,在这种情况下,控制器将会在该时间段内接收到多个相似的故障信息。基于此,在本申请实施例中,控制器还可以按照预设时间间隔来进行修复操作的推荐。在这种情况下,每当控制器进行修复操作的推荐时,该控制器可以获取距离当前时刻最近的一个预设时间间隔内收到的多个故障信息,并对这多个故障信息进行聚类分析,从而将该多个故障信息分为多个类。之后,控制器可以通过下述介绍的方法来针对每一类推荐修复操作。
步骤302:从预案库中查找是否存在与该故障信息对应的修复预案。
在获取到故障信息之后,控制器可以根据故障信息生成第一故障事件,该第一故障事件包含有事件标识、事件特征以及事件状态。其中,事件标识用于唯一标识该第一故障事件,事件特征包含有故障信息中的多个故障参数,事件状态则是指该第一故障事件当前的状态,随着后续对该故障事件的处理进度,该事件状态将会进行实时的更新。例如,当通过后续步骤303得到推荐预案时,第一故障事件的事件状态即可以进行更新,以指示已经得到第一故障事件对应的推荐预案。
在生成第一故障事件之后,控制器可以根据该第一故障事件包含的事件特征,从预案库中查找是否存在与该第一故障事件相似的第二故障事件,并将查找到的第二故障事件对应的修复预案作为故障信息对应的修复预案。
其中,预案库中可以存储有多种故障事件以及每种故障事件对应的修复预案。并且,每种故障事件对应的修复预案可以为一个,也可以为多个。每个修复预案中可以包括一个或多个修复操作,该修复操作包含有用于指示故障节点进行故障修复的指令。
在本申请实施例中,事件特征包含有多个故障参数。基于此,控制器可以根据第一故障事件的事件特征中包含的多个故障参数,以及预案库中每种故障事件的事件特征包括的故障参数,来计算第一故障事件与预案库中的各种故障事件的相似度。
示例性地,控制器可以通过下述算法(1)来确定第一故障事件与预案库中任一种故障事件之间的相似度。
Figure BDA0002291049000000061
其中,Q用于表示第一故障事件,C用于表示预案库中某种故障事件,F用于表示第一故障事件的事件特征,f用于表示第一故障事件的事件特征中的某个故障参数的标识,wf用于表示某个故障参数对应的权重,qf为第一故障事件中某个故障参数,cf为预案库中的某种故障事件中与qf同类型的故障参数,σf()为相似度计算函数。
通过上述方法,控制器可以计算得到第一故障事件与预案库中的每种故障事件之间的相似度。之后,控制器可以从多个相似度中查找是否存在大于第一阈值的相似度。如果计算得到的多个相似度中不存在大于第一阈值的相似度,则控制器可以确定该预案库中不存在与故障信息对应的修复预案,接下来,控制器可以执行步骤303和304。
需要说明的是,故障事件的主要目的在于对接收到的故障信息进行管理,在本申请实施例中,根据故障信息生成故障事件的步骤为可选步骤。在这种情况下,预案库中可以存储不同故障参数集合与修复预案的映射关系,控制器可以直接通过上述算法(1),根据故障信息内包含的各个故障参数与预案库中存储的不同故障参数集合中的故障参数进行匹配,从而得到该故障信息与每个故障参数集合之间的相似度。
步骤303:如果预案库中不存在故障信息对应的修复预案,则根据故障信息,通过推荐模型确定推荐预案。
由前述介绍可知,如果通过计算相似度发现预案库中不存在与第一故障事件的相似度大于第一阈值的故障事件,则说明目前预案库中不存在与第一故障事件相似的第二故障事件。控制器也就无法从预案库中获取到故障信息对应的修复预案。在这种情况下,控制器可以根据故障信息,通过推荐模型确定推荐预案。
其中,推荐模型的参数可以包括多个故障特征因子,且每个故障特征因子可以与故障信息包括的多个故障参数中的一个故障参数对应。例如,多个故障参数包括故障位置、故障发生时间和故障来源,则多个故障特征因子可以包括与故障位置对应的拓扑特征因子,与故障发生时间对应的时间特征因子以及与故障来源对应的来源特征因子。
其中,拓扑特征因子可以为一个组网关联矩阵,该组网关联矩阵中的每个元素用于代表当前物理网络中的一个节点,根据每个节点与故障节点之间的距离来确定每个节点对应的元素的取值。其中,一个节点与故障节点相隔的跳数越多,则与故障节点的距离越远,相应地,该节点对应的元素的取值就越小。
时间特征因子的取值由故障发生时间来确定。由于同一故障,基本在同一时间内发生,因此,可以根据故障发生时间来确定推荐模型在处理故障信息时的时间特征因子。
来源特征因子的取值可以根据故障来源确定。其中,故障来源是指故障的来源地址。例如,当故障节点发生的第一故障为ARP攻击时,故障来源即可以为ARP攻击的攻击源IP地址。
除此之外,该推荐模型的参数还可以包括文本关联特征因子、关联应用特征因子等。其中,文本关联特征因子的取值可以根据故障类型、故障位置等来确定,关联应用特征因子的取值可以根据故障位置所关联到的应用来确定。
在本步骤中,控制器可以将多个故障参数作为推荐模型的输入,按照多个故障特征银子,通过推荐模型确定推荐预案,其中,推荐模型包括的每个特征因子可以作为对应的故障参数的权重。其中,该推荐预案中可以包括一个或多个候选操作。
步骤304:从推荐预案包括的一个或多个候选操作中确定故障修复操作,向故障节点发送故障修复操作。
推荐模型在对故障信息进行处理得到推荐预案之后,可以进一步的对推荐预案包括的一个或多个候选操作中的每个候选操作进行配置影响分析,进而从一个或多个候选操作中得出故障修复操作。
其中,推荐模型的参数中还可以包括配置影响因子,该配置影响因子包括故障节点的原始配置信息和故障节点所在网络的物理拓扑信息。该故障节点的原始配置信息可以为故障节点的原始配置基线。该故障节点所在网络的物理拓扑信息可以用于指示该物理网络中的各个节点的拓扑关系。
在此基础上,推荐模型可以对每个候选操作和配置影响因子进行处理,得到相应候选操作对应的配置影响程度,进而将一个或多个候选操作中对应的配置影响程度最小的候选操作作为故障修复操作。以一个或多个候选操作中的任一候选操作为例,称其为第一候选操作,可以将第一候选操作作为推荐模型的输入,按照配置影响因子,通过推荐模型确定第一候选操作对应的配置影响程度,对于其他每个候选操作,均可以参照对第一候选操作的处理,来得到相应候选操作对应的配置影响程度,之后,推荐模型可以将对应的配置影响程度最小的候选操作作为故障修复操作输出。其中,该配置影响程度是第一候选操作对故障节点的配置和所在网络的物理拓扑的预测影响程度。并且,该配置影响程度可以表征在采用相应候选操作对故障节点上发生的第一故障进行修复之后,该故障节点与物理网络中的其他节点之间的连通程度。
可选地,在一些可能的实现方式中,推荐模型还可以对每个候选操作进行业务影响分析,得到每个候选操作对应的业务影响程度。之后,推荐模型可以根据每个候选操作对应的配置影响程度和业务影响程度来确定每个候选操作的综合影响程度,进而将综合影响程度最小的候选操作作为故障修复操作。
可选地,在一些可能的实现方式中,在得到每个候选操作对应的配置影响程度之后,推荐模型也可以将所有的候选操作和对应的配置影响程度输出。在这种情况下,控制器可以从中查找对应的配置影响程度小于第二阈值的候选操作,如果查找到,则将查找到的候选操作中的一个候选操作作为故障修复操作。例如,将查找到的候选操作中对应的配置影响程度最小的候选操作作为故障修复操作。如果未查到,则控制器可以通过推荐模型重新对故障信息进行处理,在再次处理的过程中,可以调整推荐模型的参数。
可选地,在一些可能的实现方式中,如果推荐预案中仅包括一个候选操作,推荐模型也可以不进行配置影响分析,而是直接将该候选操作作为故障修复操作进行输出。
在得到故障修复操作之后,控制器可以向故障节点发送该故障修复操作,以便故障节点根据该故障修复操作进行故障修复。
可选地,在故障节点根据该故障修复操作对故障进行修复之后,该故障节点还可以向控制器反馈修复结果。该修复结果包括该故障节点修复后的路由信息以及当前网络的物理拓扑信息。其中,该故障节点修复后的路由信息可以包括该故障节点修复后的转发表或路由表。
控制器在接收到故障节点反馈的修复结果之后,可以将该修复结果内包括的故障修复后的路由信息和所在网络的物理拓扑信息作为DPV模型的输入,通过该DPV模型确定故障修复操作对故障节点的配置和所在网络的物理拓扑造成的真实影响程度。之后,控制器可以根据该数据面影响程度、该故障修复操作和故障信息,生成故障样本,进而根据该故障样本对推荐模型的参数进行调整。也即,该故障样本可以作为样本数据来训练推荐模型。
由此可见,通过DPV模型可以得到故障修复操作对该故障节点所在网络产生的实际影响,而通过CPV模型得到的则是候选操作对故障节点所在网络的预测影响程度。这样,根据该DPV模型确定的数据面影响程度对推荐模型进行进一步地调整,可以提高推荐模型的推荐准确度。
可选地,在一些可能的情况中,控制器不仅可以根据修复结果确定数据面影响程度,还可以根据该故障节点所在网络中的实时业务流来分析该故障修复操作对该物理网络中的业务流量的影响程度,之后,控制器可以根据业务流量影响程度和数据面影响程度,确定修复后的综合影响程度,进而根据该修复后的综合影响程度生成故障样本来对推荐模型的参数进行调整。
在本申请实施例中,当在预案库中无法查找到与故障信息对应的修复预案时,可以通过推荐模型来对故障信息进行处理,得到推荐预案,进而从推荐预案包括的一种或多种候选操作中选择一个操作作为故障修复操作,解决了在该预案库中不存在该故障信息对应的修复预案,无法为故障节点提供修复操作的问题。
另外,在本申请实施例中,在得到推荐预案之后,可以提前预估推荐预案包括的每种候选操作的配置影响程度,之后再将配置影响程度最小的候选操作作为故障修复操作。这样,可以使得故障节点通过该故障修复操作进行故障修复时对网络中的各个节点的影响达到最小。
上述实施例主要介绍了在预案库中不存在故障信息对应的修复预案的情况下,如何根据故障节点的故障信息向该故障节点推荐故障修复操作的实现过程。接下来将结合图4介绍在预案库中存在故障信息的情况下,控制器根据故障信息向故障节点推荐故障修复操作的实现过程。
步骤401:获取故障节点的故障信息。
本步骤的实现方式可以参考前述实施例中的步骤301,本申请实施例在此不再赘述。
步骤402:从预案库中查找是否存在与该故障信息对应的修复预案。
在本步骤中,控制器可以参考前述实施例中步骤302介绍的方式来确定第一故障事件与预案库中各个故障事件之间的相似度,得到多个相似度。如果该多个相似度中存在大于第一阈值的相似度,则可以确定该预案库中存在故障信息对应的修复预案,接下来,控制器可以执行步骤403-405。
步骤403:如果预案库中存在故障信息对应的修复预案,则将故障信息对应的修复预案作为推荐预案。
由步骤402中的介绍可知,如果通过计算相似度发现预案库中存在与第一故障事件的相似度大于第一阈值的故障事件,则说明目前预案库中存在与第一故障事件相似的故障事件。在这种情况下,控制器可以从大于第一阈值的相似度中获取第一相似度,将与第一故障事件的相似度为第一相似度的故障事件作为第二故障事件。之后,控制器可以获取第二故障事件对应的修复预案,并将该修复预案作为推荐预案。其中,第一相似度可以为大于第一阈值的相似度中的最大相似度。
可选地,在另一种可能的实现方式中,控制器可以将与第一故障事件的相似度大于第一阈值的故障事件均作为第二故障事件。也即,第二故障事件可以为多个。在这种情况下,控制器可以根据第二故障事件从预案库中获取到多个推荐预案。
步骤404:预测推荐预案包括的一个或多个候选操作中每个候选操作的综合影响程度。
在获取到推荐预案之后,对于推荐预案包括的一个或多个候选操作,控制器可以预估每个候选操作对故障节点所在的网络内的综合影响程度。
示例性地,控制器可以预估推荐预案包括的一个或多个候选操作中的每个候选操作对故障节点所在的网络内的业务影响程度。预估一个或多个候选操作中的每个候选操作对故障节点所在网络的配置影响程度;根据每个候选操作对应的业务影响程度和配置影响程度,确定每个候选操作对应的综合影响程度。
以一个或多个候选操作中的任一候选操作为例,将其称为第一候选操作。控制器可以预估采用第一候选操作对故障节点上发生的故障进行修复之后,对故障节点当前承载的业务的影响,影响越小,业务影响程度越小。例如,假设第一候选操作为隔离故障节点上的某个端口,则控制器可以预估隔离该端口之后是否影响已有的虚拟机业务。如果影响,则可以确定业务影响程度为第一数值,否则,确定业务影响程度为第二数值。
对于一个或多个候选操作中的每个候选操作,控制器均可以采用上述方法来预估每个候选操作对应的业务影响程度。
在本申请实施例中,控制器还可以预估每个候选操作对故障节点所在网络的配置影响程度。该配置影响程度可以表征在采用相应候选操作对故障节点上发生的第一故障进行修复之后,该故障节点与物理网络中的其他节点之间的连通程度。仍以一个或多个候选操作中的任一候选操作为例,为了方便描述,将其称为第一候选操作。
示例性地,控制器可以获取故障节点的原始配置信息和故障节点所在网络的物理拓扑信息;根据第一候选操作和故障节点的原始配置信息,生成第一候选操作对应的预测配置信息,第一候选操作为一个或多个候选操作中的任一候选操作;将第一候选操作对应的预测配置信息、故障节点的原始配置信息和物理拓扑信息作为配置面验证CPV模型的输入,通过CPV模型确定第一候选操作对应的配置影响程度。其中,该配置影响程度可以为第三数值或第四数值,当配置影响程度为第三数值时,用于指示第一候选操作对故障节点的配置无影响,也即,第一候选操作对故障节点与其他节点的连通无影响。当配置影响程度为第四数值时,用于指示第一候选操作对故障节点的配置有影响,也即,第一候选操作对故障节点与其他节点的连通有影响。
其中,控制器中可以存储有整个物理网络的物理拓扑信息以及该物理网络中各个物理节点的配置基线,控制器可以获取物理拓扑信息,并获取故障节点的配置基线,将该配置基线作为故障节点的原始配置信息。
在获取到该故障节点的原始配置信息之后,控制器可以根据第一候选操作和原始配置信息,生成第一候选操作对应的预测配置信息。由前述介绍可知,第一候选操作可以包括用于指示修复故障的指令,基于此,可以在原始配置信息的基础上添加第一候选操作包括的指令,从而得到预测配置信息,或者,可以根据第一候选操作包括的指令,对原始配置信息中包括的指令进行修改,从而得到预测配置信息。
在得到该故障节点的原始配置信息、物理拓扑信息和第一候选操作对应的预测配置信息之后,控制器可以通过CPV模型来对上述进行处理,从而得到第一候选操作对应的配置影响程度。
对于一个或多个候选操作中的每个候选操作,控制器均可以采用上述方法来预估每个候选操作对应的配置影响程度。
在确定每个候选操作对应的业务影响程度和配置影响程度之后,控制器可以获取业务影响权重和配置影响权重。之后,根据第一候选操作对应的业务影响程度、业务影响权重、第一候选操作对应的配置影响程度和配置影响权重,确定第一候选操作对应的综合影响程度。
其中,业务影响权重和配置影响权重可以是预先配置的。基于此,控制器可以确定业务影响权重与第一候选操作的业务影响程度的乘积,确定配置影响权重和第一候选操作对应的配置影响程度的乘积,将两个乘积的和作为第一候选操作对应的综合影响程度。
对于每个候选操作,控制器均可以参照上述方法确定得到相应候选操作对应的综合影响程度。
需要说明的是,在一种可能的情况中,控制器可以不进行业务影响分析,也即,可以不预估业务影响程度,在这种情况下,可以直接将确定的配置影响程度作为综合影响程度。
步骤405:将一个或多个候选操作中对应的综合影响程度最小的候选操作确定为故障修复操作,向故障节点发送故障修复操作,以便故障节点根据故障修复操作进行故障修复。
在得到每个候选操作对应的综合影响程度之后,控制器可以将对应的综合影响程度最小的候选操作确定为故障修复操作,并向故障节点下发该故障修复操作,以便故障节点可以根据该故障修复操作对发生的第一故障进行修复。
在本申请实施例中,当在预案库中查找到与故障信息对应的修复预案时,可以将故障信息对应的修复预案作为推荐预案。在得到推荐预案之后,可以提前预估推荐预案包括的每种候选操作的综合影响程度。其中,综合影响程度可以由预估的业务影响程度和配置影响程度综合计算得到,将综合影响程度最小的候选操作作为故障修复操作,这样,可以使得故障节点通过该故障修复操作进行故障修复时对该故障节点承载的业务和连通的节点的影响达到最小。
参见图5,本申请实施例提供了一种故障修复操作推荐装置500,该装置500包括:
获取模块501,用于执行前述实施例中的步骤301;
第一确定模块502,用于执行前述实施例中的步骤303;
推荐模块503,用于执行前述实施例中的步骤304。
可选地,故障信息包括多个故障参数,推荐模型的参数包括多个故障特征因子,多个故障特征因子中的每个故障特征因子对应多个故障参数中的一个故障参数;
第一确定模块502具体用于:
将多个故障参数作为推荐模型的输入,按照多个故障特征因子,通过推荐模型确定推荐预案。
可选地,推荐模型的参数还包括配置影响因子,配置影响因子包括故障节点的原始配置信息和故障节点所在网络的物理拓扑信息;
推荐模块503具体用于:
将第一候选操作作为推荐模型的输入,按照配置影响因子,通过推荐模型确定第一候选操作对应的配置影响程度,配置影响程度是第一候选操作对故障节点的配置和所在网络的物理拓扑的预测影响程度,第一候选操作为一个或多个候选操作中的任一候选操作;
将一个或多个候选操作中对应的配置影响程度最小的候选操作作为故障修复操作。
可选地,参见图6,该装置500还包括:
接收模块504,用于接收故障节点根据故障修复操作进行故障修复后反馈的修复结果,修复结果包括故障节点进行故障修复后的路由信息和所在网络的物理拓扑信息;
第二确定模块505,用于将故障修复后的路由信息和物理拓扑信息作为数据面验证DPV模型的输入,通过DPV模型确定故障修复操作对应的数据面影响程度,数据面影响程度是故障修复操作对故障节点的配置和所在网络的物理拓扑造成的真实影响程度;
生成模块506,用于根据故障修复操作对应的数据面影响程度、故障修复操作和故障信息,生成故障样本;
调整模块507,用于根据故障样本对推荐模型的参数进行调整。
综上所述,在本申请实施例中,当在预案库中无法查找到与故障信息对应的修复预案时,可以通过推荐模型来对故障信息进行处理,得到推荐预案,进而从推荐预案包括的一种或多种候选操作中选择一个操作作为故障修复操作,解决了在该预案库中不存在该故障信息对应的修复预案,无法为故障节点提供修复操作的问题。
参见图7,本申请实施例提供了一种故障修复操作推荐装置700,该装置700包括:
获取模块701,用于执行前述实施例中的步骤401;
确定模块702,用于执行前述实施例中的步骤403;
预测模块703,用于执行前述实施例中的步骤404;
推荐模块704,用于执行前述实施例中的步骤405。
可选地,预测模块703具体用于:
预估一个或多个候选操作中的每个候选操作对故障节点所在的网络内的业务的业务影响程度;
预估一个或多个候选操作中的每个候选操作对故障节点所在网络的配置影响程度;
根据每个候选操作对应的业务影响程度和配置影响程度,确定每个候选操作对应的综合影响程度。
可选地,预测模块703具体用于:
获取故障节点的原始配置信息和故障节点所在网络的物理拓扑信息;
根据第一候选操作和故障节点的原始配置信息,生成第一候选操作对应的预测配置信息,第一候选操作为一个或多个候选操作中的任一候选操作;
将第一候选操作对应的预测配置信息、故障节点的原始配置信息和物理拓扑信息作为配置面验证CPV模型的输入,通过CPV模型确定第一候选操作对应的配置影响程度。
可选地,推荐模块704具体用于:
获取业务影响权重和配置影响权重;
根据第一候选操作对应的业务影响程度、业务影响权重、第一候选操作对应的配置影响程度和配置影响权重,确定第一候选操作对应的综合影响程度。
综上所述,在本申请实施例中,当在预案库中查找到与故障信息对应的修复预案时,可以将故障信息对应的修复预案作为推荐预案。在得到推荐预案之后,可以提前预估推荐预案包括的每种候选操作的综合影响程度。其中,综合影响程度可以由预估的业务影响程度和配置影响程度综合计算得到,将综合影响程度最小的候选操作作为故障修复操作,这样,可以使得故障节点通过该故障修复操作进行故障修复时对该故障节点承载的业务和连通的节点的影响达到最小。
需要说明的是:上述实施例提供的故障修复操作推荐装置在推荐故障修复操作时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的故障修复操作推荐装置与故障修复操作推荐方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如:同轴电缆、光纤、数据用户线(Digital Subscriber Line,DSL))或无线(例如:红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如:软盘、硬盘、磁带)、光介质(例如:数字通用光盘(Digital Versatile Disc,DVD))、或者半导体介质(例如:固态硬盘(Solid State Disk,SSD))等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述为本申请提供的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (17)

1.一种故障修复操作推荐方法,其特征在于,所述方法包括:
获取故障节点的故障信息;
如果预案库中不存在所述故障信息对应的修复预案,则根据所述故障信息,通过推荐模型确定推荐预案,所述推荐预案包括一个或多个候选操作;
从所述推荐预案包括的一个或多个候选操作中确定故障修复操作,向所述故障节点推荐所述故障修复操作,以便所述故障节点根据所述故障修复操作进行故障修复。
2.根据权利要求1所述的方法,其特征在于,所述故障信息包括多个故障参数,所述推荐模型的参数包括多个故障特征因子,所述多个故障特征因子中的每个故障特征因子对应所述多个故障参数中的一个故障参数;
所述根据所述故障信息,通过推荐模型确定推荐预案,包括:
将所述多个故障参数作为所述推荐模型的输入,按照所述多个故障特征因子,通过所述推荐模型确定所述推荐预案。
3.根据权利要求2所述的方法,其特征在于,所述推荐模型的参数还包括配置影响因子,所述配置影响因子包括所述故障节点的原始配置信息和所述故障节点所在网络的物理拓扑信息;
所述从所述推荐预案包括的一个或多个候选操作中确定故障修复操作,包括:
将第一候选操作作为所述推荐模型的输入,按照所述配置影响因子,通过所述推荐模型确定所述第一候选操作对应的配置影响程度,所述配置影响程度是所述第一候选操作对所述故障节点的配置和所在网络的物理拓扑的预测影响程度,所述第一候选操作为所述一个或多个候选操作中的任一候选操作;
将所述一个或多个候选操作中对应的配置影响程度最小的候选操作作为所述故障修复操作。
4.根据权利要求1-3任一所述的方法,其特征在于,所述向所述故障节点发送所述故障修复操作之后,还包括:
接收所述故障节点根据所述故障修复操作进行故障修复后反馈的修复结果,所述修复结果包括所述故障节点进行故障修复后的路由信息和所在网络的物理拓扑信息;
将故障修复后的所述路由信息和所述物理拓扑信息作为数据面验证DPV模型的输入,通过所述DPV模型确定所述故障修复操作对应的数据面影响程度,所述数据面影响程度是所述故障修复操作对所述故障节点的配置和所在网络的物理拓扑造成的真实影响程度;
根据所述故障修复操作对应的数据面影响程度、所述故障修复操作和所述故障信息,生成故障样本;
根据所述故障样本对所述推荐模型的参数进行调整。
5.一种故障修复操作推荐方法,其特征在于,所述方法包括:
获取故障节点的故障信息;
如果预案库中存在所述故障信息对应的修复预案,则将所述故障信息对应的修复预案作为推荐预案,所述推荐预案包括一个或多个候选操作;
预测所述一个或多个候选操作中每个候选操作的综合影响程度,所述综合影响程度用于指示相应候选操作对所述故障节点所在网络的综合影响的大小;
将所述一个或多个候选操作中对应的综合影响程度最小的候选操作确定为故障修复操作,向所述故障节点推荐所述故障修复操作,以便所述故障节点根据所述故障修复操作进行故障修复。
6.根据权利要求5所述的方法,其特征在于,所述预测所述推荐预案包括的一个或多个候选操作中每个候选操作的综合影响程度,包括:
预估所述一个或多个候选操作中的每个候选操作对所述故障节点所在的网络内的业务的业务影响程度;
预估所述一个或多个候选操作中的每个候选操作对所述故障节点所在网络的配置影响程度;
根据每个候选操作对应的业务影响程度和配置影响程度,确定每个候选操作对应的综合影响程度。
7.根据权利要求6所述的方法,其特征在于,所述预估所述一个或多个候选操作中的每个候选操作对所述故障节点所在网络的配置影响程度,包括:
获取所述故障节点的原始配置信息和所述故障节点所在网络的物理拓扑信息;
根据第一候选操作和所述故障节点的原始配置信息,生成所述第一候选操作对应的预测配置信息,所述第一候选操作为所述一个或多个候选操作中的任一候选操作;
将所述第一候选操作对应的预测配置信息、所述故障节点的原始配置信息和所述物理拓扑信息作为配置面验证CPV模型的输入,通过所述CPV模型确定所述第一候选操作对应的配置影响程度。
8.根据权利要求6或7所述的方法,其特征在于,所述根据每个候选操作对应的业务影响程度和配置影响程度,确定每个候选操作对应的综合影响程度,包括:
获取业务影响权重和配置影响权重;
根据第一候选操作对应的业务影响程度、所述业务影响权重、所述第一候选操作对应的配置影响程度和所述配置影响权重,确定所述第一候选操作对应的综合影响程度。
9.一种故障修复操作推荐装置,其特征在于,所述装置包括:
获取模块,用于获取故障节点的故障信息;
第一确定模块,用于如果预案库中不存在所述故障信息对应的修复预案,则根据所述故障信息,通过推荐模型确定推荐预案,所述推荐预案包括一个或多个候选操作;
推荐模块,用于从所述推荐预案包括的一个或多个候选操作中确定故障修复操作,向所述故障节点推荐所述故障修复操作,以便所述故障节点根据所述故障修复操作进行故障修复。
10.根据权利要求9所述的装置,其特征在于,所述故障信息包括多个故障参数,所述推荐模型的参数包括多个故障特征因子,所述多个故障特征因子中的每个故障特征因子对应所述多个故障参数中的一个故障参数;
所述第一确定模块具体用于:
将所述多个故障参数作为所述推荐模型的输入,按照所述多个故障特征因子,通过所述推荐模型确定所述推荐预案。
11.根据权利要求10所述的装置,其特征在于,所述推荐模型的参数还包括配置影响因子,所述配置影响因子包括所述故障节点的原始配置信息和所述故障节点所在网络的物理拓扑信息;
所述推荐模块具体用于:
将第一候选操作作为所述推荐模型的输入,按照所述配置影响因子,通过所述推荐模型确定所述第一候选操作对应的配置影响程度,所述配置影响程度是所述第一候选操作对所述故障节点的配置和所在网络的物理拓扑的预测影响程度,所述第一候选操作为所述一个或多个候选操作中的任一候选操作;
将所述一个或多个候选操作中对应的配置影响程度最小的候选操作作为所述故障修复操作。
12.根据权利要求9-11任一所述的装置,其特征在于,所述装置还包括:
接收模块,用于接收所述故障节点根据所述故障修复操作进行故障修复后反馈的修复结果,所述修复结果包括所述故障节点进行故障修复后的路由信息和所在网络的物理拓扑信息;
第二确定模块,用于将故障修复后的所述路由信息和所述物理拓扑信息作为数据面验证DPV模型的输入,通过所述DPV模型确定所述故障修复操作对应的数据面影响程度,所述数据面影响程度是所述故障修复操作对所述故障节点的配置和所在网络的物理拓扑造成的真实影响程度;
生成模块,用于根据所述故障修复操作对应的数据面影响程度、所述故障修复操作和所述故障信息,生成故障样本;
调整模块,用于根据所述故障样本对所述推荐模型的参数进行调整。
13.一种故障修复操作推荐装置,其特征在于,所述装置包括:
获取模块,用于获取故障节点的故障信息;
确定模块,用于如果预案库中存在所述故障信息对应的修复预案,则将所述故障信息对应的修复预案作为推荐预案,所述推荐预案包括一个或多个候选操作;
预测模块,用于预测所述一个或多个候选操作中每个候选操作的综合影响程度,所述综合影响程度用于指示相应候选操作对所述故障节点所在网络的综合影响的大小;
推荐模块,用于将所述一个或多个候选操作中对应的综合影响程度最小的候选操作确定为故障修复操作,向所述故障节点推荐所述故障修复操作,以便所述故障节点根据所述故障修复操作进行故障修复。
14.根据权利要求13所述的装置,其特征在于,所述预测模块具体用于:
预估所述一个或多个候选操作中的每个候选操作对所述故障节点所在的网络内的业务的业务影响程度;
预估所述一个或多个候选操作中的每个候选操作对所述故障节点所在网络的配置影响程度;
根据每个候选操作对应的业务影响程度和配置影响程度,确定每个候选操作对应的综合影响程度。
15.根据权利要求14所述的装置,其特征在于,所述预测模块具体用于:
获取所述故障节点的原始配置信息和所述故障节点所在网络的物理拓扑信息;
根据第一候选操作和所述故障节点的原始配置信息,生成所述第一候选操作对应的预测配置信息,所述第一候选操作为所述一个或多个候选操作中的任一候选操作;
将所述第一候选操作对应的预测配置信息、所述故障节点的原始配置信息和所述物理拓扑信息作为配置面验证CPV模型的输入,通过所述CPV模型确定所述第一候选操作对应的配置影响程度。
16.根据权利要求14或15所述的装置,其特征在于,所述推荐模块具体用于:
获取业务影响权重和配置影响权重;
根据第一候选操作对应的业务影响程度、所述业务影响权重、所述第一候选操作对应的配置影响程度和所述配置影响权重,确定所述第一候选操作对应的综合影响程度。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行上述权利要求1-8任一项所述的故障修复操作推荐方法。
CN201911180239.0A 2019-11-27 2019-11-27 故障修复操作推荐方法、装置及存储介质 Pending CN112860496A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201911180239.0A CN112860496A (zh) 2019-11-27 2019-11-27 故障修复操作推荐方法、装置及存储介质
PCT/CN2020/118233 WO2021103800A1 (zh) 2019-11-27 2020-09-28 故障修复操作推荐方法、装置及存储介质
EP20892606.3A EP4047481A4 (en) 2019-11-27 2020-09-28 METHOD AND DEVICE FOR RECOMMENDED TROUBLESHOOTING ACTIONS AND STORAGE MEDIA
US17/825,246 US11743113B2 (en) 2019-11-27 2022-05-26 Fault rectification operation recommendation method and apparatus, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911180239.0A CN112860496A (zh) 2019-11-27 2019-11-27 故障修复操作推荐方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN112860496A true CN112860496A (zh) 2021-05-28

Family

ID=75985400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911180239.0A Pending CN112860496A (zh) 2019-11-27 2019-11-27 故障修复操作推荐方法、装置及存储介质

Country Status (4)

Country Link
US (1) US11743113B2 (zh)
EP (1) EP4047481A4 (zh)
CN (1) CN112860496A (zh)
WO (1) WO2021103800A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113259171A (zh) * 2021-06-02 2021-08-13 新华三技术有限公司 一种业务部署方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11561880B2 (en) * 2020-02-28 2023-01-24 Dell Products L.P. Method to analyze impact of a configuration change to one device on other connected devices in a data center

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104486411A (zh) * 2014-12-15 2015-04-01 四川长虹电器股份有限公司 一种推荐方法及云端服务器
CN106941421A (zh) * 2017-03-31 2017-07-11 北京奇艺世纪科技有限公司 一种链路故障修复方法及装置
US20190163619A1 (en) * 2017-11-24 2019-05-30 Fujitsu Limited Automated software program repair candidate selection

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7162427B1 (en) * 1999-08-20 2007-01-09 Electronic Data Systems Corporation Structure and method of modeling integrated business and information technology frameworks and architecture in support of a business
US7552208B2 (en) * 2005-01-18 2009-06-23 Microsoft Corporation Methods for managing capacity
US8005706B1 (en) * 2007-08-03 2011-08-23 Sprint Communications Company L.P. Method for identifying risks for dependent projects based on an enhanced telecom operations map
US8527327B1 (en) * 2010-03-21 2013-09-03 Mark Lawrence Method and apparatus to manage project control
US9483344B2 (en) * 2012-04-05 2016-11-01 Assurant, Inc. System, method, apparatus, and computer program product for providing mobile device support services
US9002997B2 (en) * 2013-01-22 2015-04-07 Amazon Technologies, Inc. Instance host configuration
CN108418711B (zh) * 2013-09-30 2021-05-18 华为技术有限公司 故障管理的存储介质
CN103746841A (zh) * 2013-12-30 2014-04-23 华为技术有限公司 故障恢复的方法及控制器
US9079505B1 (en) * 2014-02-25 2015-07-14 Elwah LLC System and method for management of a fleet of vehicles having an energy storage system
US10157100B2 (en) * 2014-04-30 2018-12-18 Hewlett Packard Enterprise Development Lp Support action based self learning and analytics for datacenter device hardware/firmare fault management
US9407359B2 (en) * 2014-07-30 2016-08-02 Ciena Corporation Localized network repair systems and methods
CN105827419B (zh) * 2015-01-05 2020-03-10 华为技术有限公司 一种转发设备故障处理的方法、设备和控制器
US20160364666A1 (en) * 2015-06-12 2016-12-15 General Electric Company Dynamically controlling industrial system outage assignments to achieve dose states
US10025583B2 (en) * 2016-02-17 2018-07-17 International Business Machines Corporation Managing firmware upgrade failures
CN108632063B (zh) * 2017-03-20 2021-01-05 华为技术有限公司 管理网络切片实例的方法、装置和系统
CN109257195B (zh) * 2017-07-12 2021-01-15 华为技术有限公司 集群中节点的故障处理方法及设备
CN109840157A (zh) * 2017-11-28 2019-06-04 中国移动通信集团浙江有限公司 故障诊断的方法、装置、电子设备和存储介质
US11361234B2 (en) * 2018-08-30 2022-06-14 International Business Machines Corporation Real-world execution of contingent plans

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104486411A (zh) * 2014-12-15 2015-04-01 四川长虹电器股份有限公司 一种推荐方法及云端服务器
CN106941421A (zh) * 2017-03-31 2017-07-11 北京奇艺世纪科技有限公司 一种链路故障修复方法及装置
US20190163619A1 (en) * 2017-11-24 2019-05-30 Fujitsu Limited Automated software program repair candidate selection

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113259171A (zh) * 2021-06-02 2021-08-13 新华三技术有限公司 一种业务部署方法及装置

Also Published As

Publication number Publication date
WO2021103800A1 (zh) 2021-06-03
US11743113B2 (en) 2023-08-29
EP4047481A4 (en) 2023-01-04
EP4047481A1 (en) 2022-08-24
US20220286351A1 (en) 2022-09-08

Similar Documents

Publication Publication Date Title
JP6959736B2 (ja) ネットワーク障害のトラブルシューティング・オプションの識別
US10284444B2 (en) Visual representation of end user response time in a multi-tiered network application
US9411673B2 (en) Management server, management system, and management method
WO2013186870A1 (ja) サービス監視システム、及び、サービス監視方法
CN109150572B (zh) 实现告警关联的方法、装置以及计算机可读存储介质
US9246777B2 (en) Computer program and monitoring apparatus
CN113328872B (zh) 故障修复方法、装置和存储介质
CN110178121B (zh) 一种数据库的检测方法及其终端
JP5245711B2 (ja) 分散データ処理システム、分散データ処理方法および分散データ処理用プログラム
US11743113B2 (en) Fault rectification operation recommendation method and apparatus, and storage medium
US9280409B2 (en) Method and system for single point of failure analysis and remediation
CN112532408B (zh) 提取故障传播条件的方法、装置及存储介质
KR102200275B1 (ko) 네트워크 장애경보 관리장치 및 방법
US8903871B2 (en) Dynamic management of log persistence
US10659289B2 (en) System and method for event processing order guarantee
JP2016224856A (ja) データベース装置、検索装置、部分グラフ構築方法、検索方法
US20160004584A1 (en) Method and computer system to allocate actual memory area from storage pool to virtual volume
US20150142960A1 (en) Information processing apparatus, information processing method and information processing system
CN112685486A (zh) 数据库集群的数据管理方法、装置、电子设备及存储介质
US9634884B2 (en) Monitoring apparatus, monitoring method and monitoring program
WO2022057428A1 (zh) 确定故障根因的方法,装置以及相关设备
CN110928679B (zh) 一种资源分配方法及装置
JP2019066927A (ja) 障害対策システムおよび障害対策方法
WO2013103008A1 (ja) 事象の原因を特定する情報システム、コンピュータ及び方法
JP2016195321A (ja) ネットワーク監視装置、ネットワーク監視方法およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination