CN110447206A - 自动故障恢复系统、控制设备、程序创建设备及计算机可读存储介质 - Google Patents

自动故障恢复系统、控制设备、程序创建设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110447206A
CN110447206A CN201880019081.6A CN201880019081A CN110447206A CN 110447206 A CN110447206 A CN 110447206A CN 201880019081 A CN201880019081 A CN 201880019081A CN 110447206 A CN110447206 A CN 110447206A
Authority
CN
China
Prior art keywords
program
network
network failure
execution
recovery system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880019081.6A
Other languages
English (en)
Inventor
黑木圭介
林通秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communications Technology Co Ltd
Original Assignee
Communications Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communications Technology Co Ltd filed Critical Communications Technology Co Ltd
Priority to CN202410446358.0A priority Critical patent/CN118449838A/zh
Publication of CN110447206A publication Critical patent/CN110447206A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/40Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/46Interconnection of networks
    • H04L12/4641Virtual LANs, VLANs, e.g. virtual private networks [VPN]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)
  • Debugging And Monitoring (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)

Abstract

一种自动故障恢复系统使用机器学习创建用于从网络故障中恢复的操作程序或者校正所创建的操作程序。所述自动故障恢复系统包括:恢复执行装置,其具有用于从所述网络故障中恢复的多个恢复任务;参数创建装置,其用于输出指示在发生所述网络故障时获取的故障信息和网络配置信息的故障数据;学习装置,其用于基于所述故障数据和预先获取的恢复模型选择所述恢复任务的执行程序;程序执行装置,其用于在发生所述网络故障时执行所选择的执行程序;成功确定装置,其用于确定是否通过所述执行程序实现了从所述网络故障中恢复;以及程序校正装置,其用于根据所述确定的结果和所述网络故障的恢复程度通知所述学习装置所述程序要被校正。

Description

自动故障恢复系统、控制设备、程序创建设备及计算机可读存 储介质
技术领域
本发明涉及一种使用机器学习创建用于从网络故障中恢复的操作程序或用于校正所创建的操作程序的技术。
背景技术
通常已经进行了许多与软件定义网络(SDN)和网络功能虚拟化(NFV)相关的研究和技术开发。例如,专利文献1公开了一种用于处理在自动操作程序的操作期间发生的异常的技术。根据专利文献1,在自动操作程序中执行给定的操作控制以自动执行多个计算机的操作控制的情况下,如果在多个计算机中的给定计算机中检测到异常,则从包括多个计算机的系统的配置和多个计算机中的每个计算机的角色中,读取检测到异常的计算机的角色和计算机所属的系统的配置。
进一步地,读取包括操作控制的内容、异常的内容、发生异常的计算机的角色、计算机所属的系统的配置以及响应方法的案例数据。在这种情况下,读出包括与至少具有给定操作控制的内容、给定异常的内容、给定计算机的角色以及给定计算机所属的系统的配置的条件相匹配或类似的条件的案例数据。
引用列表
专利文献
专利文献1:日本专利公开号2014-127036
发明内容
技术问题
通常,已经期望在使用SDN和NFV构建的虚拟网络中使用自动操作来实现高效操作。然而,如果在未来虚拟网络的类型多样化,则虚拟网络的异常恢复模式也将变得多样化,并且难以创建和管理用于自动恢复的操作流程(程序)。
即使使用专利文献1中公开的技术,如果任务在执行之后不成功,则自动校正(更新)操作流程中的任务所使用的参数值,而不支持流程的校正。因此,不能处理需要校正流程本身的情况。
鉴于这种情况而设计了本发明,并且本发明的目的在于提供一种自动故障恢复系统、控制设备、程序创建设备以及计算机可读存储介质,其通过使用机器学习并使机器学习执行操作流程的创建和校正以省略操作流程的人工创建和校正,可以减少所涉及的工作。
问题的解决方案
根据本发明的一个方面,使用机器学习创建用于从网络故障中恢复的操作程序或者校正所创建的操作程序的自动故障恢复系统包括:恢复执行装置,其具有用于从网络故障中恢复的多个恢复任务;参数创建装置,其用于输出指示网络配置信息和在发生所述网络故障时获取的故障信息的故障数据;学习装置,其用于根据故障数据和预先获取的恢复模型选择恢复任务的执行程序;程序执行装置,其用于在发生网络故障时执行所选择的执行程序;成功确定装置,其用于确定执行程序是否实现了从网络故障中恢复;以及程序校正装置,其用于根据确定结果和网络故障的恢复程度通知学习装置所述程序待校正。
本发明的有益效果
根据本发明,可以创建或校正用于从网络故障中自动恢复的操作程序。因此,可以减少从故障中恢复以及创建和校正与从故障中恢复相关的恢复程序所涉及的工作,并且实现迅速恢复并维持用于处理故障的恢复程序。
从以下结合附图的描述,本发明的其他特征和优点将变得显而易见。注意,在整个附图中,相同的附图标记表示相同或相似的部件。
附图说明
附图包括在说明书中并构成说明书的一部分,并且附图示出了本发明的实施例,并且与其说明一起用于解释本发明的原理。
图1是示出关于本实施例的自动故障恢复系统的示意性构造的图。
图2是示出配置信息存储单元3中存储的信息的一个示例的图。
图3是示出存储在程序信息存储单元28中的信息的一个示例的图。
图4A是示出了关于本实施例的自动故障恢复系统的操作的流程图。
图4B是示出了关于本实施例的自动故障恢复系统的操作的流程图。
图5是示出本实施例的变形例的图。
具体实施方式
本发明的发明人关注的事实是,虽然期望在使用SDN和NFV构建的虚拟网络中使用自动操作来实现高效操作,但是如果在未来虚拟网络的类型多样化,则虚拟网络的异常恢复模式也将多样化,并且很难创建和管理自动恢复的操作流程(程序)。本发明的发明人发现,通过使用并使机器学习执行操作流程的创建和校正以省略操作流程的人工创建和校正,可以减少所涉及的工作,从而实现了本发明。
图1是示出关于本实施例的自动故障恢复系统的示意性构造的图。该自动故障恢复系统包括控制系统1和程序(procedure)创建系统20。控制系统1包括配置信息存储单元3、用户接口单元5、参数创建单元7、恢复执行单元9以及成功确定单元11,恢复执行单元9是恢复单元且具有“任务-1,任务-2,...,任务-n”。程序创建系统20包括学习单元22,学习单元22包括输入22a、模型22b以及输出22c。此外,程序创建系统20包括程序执行单元24、程序校正单元26以及程序信息存储单元28。控制系统1执行控制设备组13或网络15的恢复,并且程序创建系统20创建恢复程序。
图2是示出配置信息存储单元3中存储的信息的一个示例的图。配置信息存储单元3存储网络配置信息,并且用于基于故障信息(警报等)确定哪个网络中已经发生故障,并创建待输出到学习单元22的参数。在图2中,例如,存储网络名称、防火墙和路由器等组成功能、主机名、IP地址、ToS值、容纳人数、链路数、使用的站数、最大允许断开时间等等。
图3是示出存储在程序信息存储单元28中的信息的一个示例的图。对于每种类型的网络警报,程序信息存储单元28按概率的顺序存储任务的组合(即,程序)。任务的组合(程序)由学习单元22的模型22b导出。在发生故障时,程序信息存储单元28用于联系程序执行单元24,并且还在程序校正单元26要执行下一个最可能的程序的情况下使用程序信息存储单元28。
图4A和图4B是示出关于本实施例的自动故障恢复系统的操作的流程图。在图4A和图4B中,分别示出了控制系统的操作和程序创建系统的操作。首先,执行预备学习(步骤S1)。如图1所示,作为前提,控制系统1具有多个恢复任务。例如,由控制系统1等进行的“API调用”对应于恢复任务。在步骤S1中,用户经由用户接口单元5将所创建的网络配置信息、关于先前在网络中发生的故障的信息以及与其对应的任务的组合(程序、流程)通过参数创建单元7输入到学习单元22。学习单元22基于输入22a创建模型22b。然而,网络配置信息和故障信息以及与其对应的任务的组合等可以是随机数据,因为这里的目的是在学习单元22中创建模型22b。即,模型22b不必完美。
例如,在这种情况下,学习单元22使用诸如深度学习的机器学习。作为学习输入22a(网络配置信息和故障信息)和输出22c(任务组合)的结果,可以自动创建从输入到输出的模型22b。参数创建单元7具有两个主要功能。也就是说,参数创建单元7具有将用户提供的网络配置信息存储到配置信息存储单元3的功能,以及对网络配置信息、故障信息等执行数值转换和标准化并将这些信息输入到学习单元22的功能。
接下来,确定是否检测到故障(步骤S2)。如果没有检测到故障则重复该确定,并且如果检测到故障,则处理转到步骤S3并确认相关网络。然后,确定这是否是第一次发生当前故障(步骤S4)。如果这是第一次发生当前故障,则将网络配置信息和故障信息发送到程序创建系统20(步骤S6)。也就是说,故障信息从网络发送到控制系统1的参数创建单元7。在这种情况下的故障信息例如是当发生故障时由网络设备发出的警报等。参数创建单元7参考配置信息存储单元3中的信息,并基于警报信息导出哪个网络中发生了故障。随后,将从配置信息存储单元3导出的警报信息和网络配置信息转换成数值并标准化,并作为输入22a输入到程序创建系统的学习单元22。
基于输入22a,学习单元22使用在步骤S1中建立的模型22b来导出对应于相关网络的警报的任务的组合(流程),并且将任务的组合(流程)存储在程序信息存储单元28中(步骤S7)。注意,除了网络名称和故障警报之外,所导出的任务组合的概率顺序被存储在程序信息存储单元28中。程序信息存储单元28在存储信息之后指示程序执行单元24执行相关任务。程序执行单元24指示控制系统1的恢复执行单元9执行任务(步骤S8),并且恢复执行单元9以所请求的顺序执行指示的任务。在这种情况下,恢复的执行可以直接在网络设备等上执行,或者可以通过经由API等向不同的控制设备组提供指令来执行。
成功确定单元11确定是否利用如上所述地执行的任务的组合来实现了从故障中恢复以及是否满足了为网络定义的最大允许断开时间(步骤S10)。传统技术可以应用于该检查过程。例如,可以应用这样的方法,其中预先为每个网络准备虚拟业务生成器,始终执行分组的通信,并且通过向流量发生器进行查询来检查断开时间、是否可以进行通信等。
接下来,确定是否可以作为成功确定单元11的确定的结果执行通信(步骤S11)。如果不能执行通信,则由程序信息存储单元28执行相对于最近执行的程序的下一个最可能的程序的校正(步骤S12),并且执行校正过程(步骤S8)。另一方面,如果在步骤S11中可以执行通信,则确定是否满足最大允许断开时间(步骤S13)。如果不满足最大允许断开时间,则更正信息,以便在下次发生故障时执行相对于最近执行的程序的下一个最可能的程序,并且将校正的程序存储在程序信息存储单元28中,然后终止处理(步骤S14)。另一方面,如果在步骤S13中满足最大允许断开时间,则程序信息存储单元28在没有校正程序的情况下向程序校正单元26通知该程序(步骤S15),并且程序校正单元26使得经由学习单元22重新学习要执行的成功程序并且终止处理(步骤S16)。
另一方面,如果参数创建单元7在步骤S4中确定这不是第一次发生当前故障,则处理转到步骤S5并且涉及程序信息存储单元28并执行相关程序,然后处理转到步骤S11。
如上所述,如果在步骤S11中不能执行通信,则处理转到步骤S12、步骤S8、步骤S9以及步骤S10,并且重复这些步骤直到可以执行通信。此外,如果在步骤S11中可以执行通信但是不能满足最大允许断开时间的条件,则改变接下来要执行的程序并因此存储该程序。因此,最近执行的并且不能满足最大允许断开时间的程序在下一次发生故障时将不会被执行。
变形例
图5是示出本实施例的变形例的图。根据本实施例的自动故障恢复系统包括:分类器50,其使用无监督学习基于网络配置信息对网络进行分类;以及机器学习单元52,其执行算法或机器学习,并且分类结果和相应的程序被登记在表54中。注意,机器学习单元52与图1中所示的学习单元22基本相同。
分类器50基于网络配置执行网络聚类,并将网络分类为网络类型。在图5中,示出了示例,在该示例中,NW-A和NW-B被分类为网络类型1,并且NW-C和NW-D被分类为网络类型2。如果警报类型为“下行”,则首先登记以任务1、2和3的顺序执行任务的程序,并且接着登记以任务1、3和2的顺序执行任务的程序,作为网络类型1的程序。
利用这样的配置,如果在给定网络中发生故障,则可以为相同网络类型的网络选择相同的执行程序,并且因此,可以抑制执行数据的随机化并且可以实现快速恢复。
注意,由关于本实施例的程序创建系统20或控制系统1执行的过程中的至少一个可以由执行程序的处理器等实现。此外,这样的程序可以存储在诸如硬盘或硅驱动器的存储介质中。
如上所述,根据本实施例,当网络中发生故障时,可以自动创建故障恢复程序。此外,可以自动执行故障恢复程序的校正。此外,通过利用人工智能的机器学习,可以立即处理第二次发生的故障等。因此,不需要手动实现网络的恢复程序指南的创建和管理,这有助于减少所涉及的工作。此外,可以通过与执行恢复的控制系统协作来执行自动恢复。
(1)进一步地,根据本实施例,自动故障恢复系统是一种自动故障恢复系统,其使用机器学习,创建用于从网络故障中恢复的操作程序或校正所创建的操作程序,如上所述,该自动故障恢复系统的特征在于包括:恢复执行单元,具有用于从网络故障中恢复的多个恢复任务;参数创建单元,输出指示在发生网络故障时获取的故障信息和网络配置信息的故障数据;学习单元,基于故障数据和预先获取的恢复模型,选择恢复任务的执行程序;程序执行单元,当网络故障发生时执行所选择的执行程序;成功确定单元,用于确定执行程序是否实现了从网络故障中恢复;程序校正单元,根据确定结果和网络故障的恢复程度,通知学习单元该程序要被校正。
以这种方式,可以创建或校正用于实现网络故障的自动恢复的操作程序,因为:存在用于从网络故障中恢复的多个恢复任务,输出指示在发生网络故障时获取的故障信息和网络配置信息的故障数据,基于故障数据和预先获取的恢复模型来选择恢复任务的执行程序,当发生网络故障时执行所选择的执行程序,确定是否通过执行程序实现了从网络故障的恢复,以及根据确定结果和网络故障的恢复程度,学习单元被通知该过程要被校正。因此,可以减少从故障中恢复和创建以及校正与故障恢复相关的恢复程序所涉及的工作,并且实现迅速恢复并维持用于处理故障的恢复程序。
此外,如上所述,根据本实施例,自动故障恢复系统的特征在于,如果网络能够通信并且满足最大允许断开时间,则成功确定单元通过程序校正单元向学习单元通知执行程序作为成功的程序,并使学习单元学习执行程序。
以这种方式,如果网络能够通信并且满足最大允许断开时间,则成功确定单元向学习单元通知执行程序作为成功的程序,并使学习单元学习执行程序。因此,即使再次发生类似的网络故障,也可以迅速从故障中恢复。
(3)此外,如上所述,根据本实施例,自动故障恢复系统的特征在于,如果网络能够通信但是不满足最大允许断开时间,则成功确定单元通知程序校正单元在下次发生网络故障时要执行相对于执行程序的下一个最可能的执行程序,程序校正单元选择相对于执行程序的下一个最可能的执行程序,并且程序执行单元在下次发生网络故障时执行由程序校正单元选择的执行程序。
以这种方式,如果网络能够通信但是不满足最大允许断开时间,则成功确定单元通知程序校正单元在下次发生网络故障时要执行相对于执行程序的下一个最可能的执行程序,程序校正单元选择相对于执行程序的下一个最可能的执行程序,并且程序执行单元在下次发生网络故障时执行由程序校正单元选择的执行程序。因此,即使再次发生类似的网络故障,也可以增加从故障中迅速恢复的可能性。
(4)此外,如上所述,根据本实施例,自动故障恢复系统的特征在于,如果网络不能通信,则成功确定单元通知程序校正单元要执行相对于执行程序的下一个最可能的执行程序,程序校正单元选择相对于执行程序的下一个最可能的执行程序,并且程序执行单元执行由程序校正单元选择的执行程序。
以这种方式,如果网络不能通信,则成功确定单元通知程序校正单元要执行相对于执行程序的下一个最可能的执行程序,程序校正单元选择相对于执行程序的下一个最可能的执行程序,并且程序执行单元执行由程序校正单元选择的执行程序。因此,执行使用恢复任务的执行程序,直到网络能够通信。因此,可以实现从网络故障中迅速恢复。
(5)此外,如上所述,根据本实施例,自动故障恢复系统的特征在于,参数创建单元通过对故障信息和网络配置信息执行数值转换和标准化来创建故障数据,并且学习单元使用故障数据作为输入并创建恢复模型。
以这种方式,参数创建单元通过对故障信息和网络配置信息执行数值转换和标准化来创建故障数据,并且学习单元使用故障数据作为输入并创建恢复模型。因此,可以使用具有人工智能的机器学习来实现从网络故障的迅速恢复。
(6)此外,如上所述,根据本实施例,自动故障恢复系统的特征在于还包括分类器,该分类器基于网络配置信息将网络分类成组,并且为每个组提供指示网络类型的信息,并且特征在于该学习单元对于相同网络类型的网络,发生故障时选择相同的执行程序。
以这种方式,网络基于网络配置信息被分类成组,并且为每个组提供具有指示网络类型的信息,并且对于相同网络类型的网络,当发生故障时选择相同的执行程序。因此,可以实现迅速恢复。也就是说,对于包括在相同网络类型中的网络,发生故障的趋势是类似的,因此,通过执行已经选择的执行程序来促进恢复。
(7)此外,如上所述,根据本实施例,控制设备是应用于自动故障恢复系统的控制设备,该自动故障恢复系统使用机器学习创建用于从网络故障中恢复的操作程序或者校正所创建的操作程序,该控制设备的特征在于包括:恢复执行单元,具有用于从网络故障中恢复的多个恢复任务;参数创建单元,输出指示在发生网络故障时获取的故障信息和网络配置信息的故障数据;以及成功确定单元,在执行已基于故障数据和预先获取的恢复模型选择的恢复任务的执行程序之后,确定是否通过执行程序实现了从网络故障的恢复。
利用这种配置,可以构建用于创建或校正用于从网络故障中自动恢复的操作程序的系统。因此,可以减少从故障中恢复所涉及的工作并且可以实现迅速的恢复。
(8)此外,如上所述,根据本实施例,程序创建设备是应用于自动故障恢复系统的程序创建设备,该自动故障恢复系统使用机器学习创建用于从网络故障中恢复的操作程序或者校正所创建的操作程序,该程序创建设备的特征在于包括:学习单元,其基于预先获取的恢复模型和指示在发生网络故障时获取的故障信息和网络配置信息的故障数据选择用于从网络故障中恢复的多个恢复任务的执行程序;程序执行单元,其在发生网络故障时执行所选择的执行程序;以及程序校正单元,其根据网络故障的恢复程度以及确定是否通过执行程序实现了网络故障恢复的结果,通知学习单元该程序要被校正。
利用这种配置,可以构建用于创建或校正用于从网络故障中自动恢复的操作程序的系统。因此,可以减少从故障中恢复所以及创建和校正与故障恢复相关的恢复程序所涉及的工作,并且可以实现迅速恢复并维持用于处理故障的恢复程序。
(9)此外,如上所述,与本实施例有关的程序是用于应用于自动故障恢复系统的控制装置的程序,该自动故障恢复系统使用机器学习创建用于从网络故障中恢复的操作程序或者校正所创建的操作程序,所述程序的特征在于,所述程序使计算机执行一系列处理,包括:输出指示在发生网络故障时获取的故障信息和网络配置信息的故障数据的处理,该处理由参数创建单元执行;以及在执行用于从网络故障中恢复的多个恢复任务的执行程序之后确定执行程序是否实现了从网络故障中恢复的处理,其中基于故障数据和预先获取的恢复模型选择执行程序,该处理由成功确定单元执行。
利用这种配置,可以构建用于创建或校正用于从网络故障中自动恢复的操作程序的系统。因此,可以减少从故障中恢复以及创建和纠正与故障恢复相关的恢复程序所涉及的工作,并且可以实现迅速恢复并维持用于处理故障的恢复程序。
(10)此外,如上所述,与本实施例有关的程序是用于应用于自动故障恢复系统的程序创建设备的程序,该自动故障恢复系统使用机器学习创建用于从网络故障中恢复的操作程序或校正所创建的程序,所述程序的特征在于,所述程序使计算机执行一系列处理,包括:用于根据预先获取的恢复模型和指示在发生网络故障时获取的故障信息和网络配置信息的故障数据选择用于从网络故障中恢复的多个恢复任务的执行程序的处理,该处理由学习单元执行;当网络故障发生时执行所选执行程序的处理,该处理由程序执行单元执行;以及根据网络故障的恢复程度以及关于是否通过执行程序实现了从网络故障中恢复的确定的结果,向学习单元提供该程序要被校正的通知的处理,该处理由程序校正单元执行。
利用这种配置,可以构建用于创建或校正用于从网络故障中自动恢复的操作程序的系统。因此,可以减少从故障中恢复以及创建和校正与故障恢复相关的恢复程序所涉及的工作,并且可以实现迅速恢复并维持用于处理故障的恢复程序。
本发明不限于上述实施例,并且可以在本发明的精神和范围内进行各种改变和变形。因此,为了向公众告知本发明的范围,提出权利要求。
本申请要求2017年3月29日提交的日本专利申请号2017-066059的优先权,其通过引用并入本文。

Claims (10)

1.一种自动故障恢复系统,其使用机器学习创建用于从网络故障中恢复的操作程序或者校正所创建的操作程序,所述自动故障恢复系统包括:
恢复执行装置,其具有用于从所述网络故障中恢复的多个恢复任务;
参数创建装置,其用于输出指示在发生所述网络故障时获取的故障信息和网络配置信息的故障数据;
学习装置,其用于基于所述故障数据和预先获取的恢复模型选择所述恢复任务的执行程序;
程序执行装置,其用于在发生所述网络故障时执行所选择的执行程序;
成功确定装置,其用于确定是否通过所述执行程序实现了从所述网络故障中恢复;以及
程序校正装置,其用于根据所述确定的结果和所述网络故障的恢复程度通知所述学习装置所述程序要被校正。
2.如权利要求1所述的自动故障恢复系统,
其中,如果所述网络能够通信并且满足最大允许断开时间,则所述成功确定装置通过所述程序校正装置向所述学习装置作通知所述执行程序作为成功程序。
3.如权利要求1所述的自动故障恢复系统,
其中,如果所述网络能够通信但不满足最大允许断开时间,则所述成功确定装置通知所述程序校正装置在下次发生所述网络故障时执行相对于所述执行程序的下一个最可能的执行程序,
所述程序校正装置选择相对于所述执行程序的下一个最可能的执行程序,并通知所述学习装置所选择的执行程序,并且
所述程序执行装置在下次发生所述网络故障时执行由所述程序校正装置选择的执行程序。
4.如权利要求1所述的自动故障恢复系统,
其中,如果所述网络不能通信,则所述成功确定装置通知所述程序校正装置执行相对于所述执行程序的下一个最可能的执行程序,
所述程序校正装置选择相对于所述执行程序的下一个最可能的执行程序,并且
所述程序执行装置执行由所述程序校正装置选择的执行程序。
5.如权利要求1所述的自动故障恢复系统,
其中,所述参数创建装置通过对所述故障信息和所述网络配置信息执行数值转换和标准化来创建所述故障数据,并且
所述学习装置使用所述故障数据作为输入并创建所述恢复模型。
6.如权利要求1至5中任一项所述的自动故障恢复系统,还包括:
分类装置,其根据网络配置信息将网络分组,并为所述组中的每一个提供指示网络类型的信息,
其中,对于相同网络类型的网络,所述学习装置在发生故障时选择相同的执行程序。
7.一种应用于自动故障恢复系统的控制设备,所述自动故障恢复系统使用机器学习创建用于从网络故障中恢复的操作程序或者校正所创建的操作程序,所述控制设备包括:
恢复执行装置,其具有用于从所述网络故障中恢复的多个恢复任务;
参数创建装置,其用于输出指示在发生所述网络故障时获取的故障信息和网络配置信息的故障数据;以及
成功确定装置,其用于在已基于所述故障数据和预先获取的恢复模型选择的所述恢复任务的执行程序被执行之后,确定是否通过所述执行程序实现了从所述网络故障中恢复。
8.一种应用于自动故障恢复系统的程序创建设备,所述自动故障恢复系统使用机器学习创建用于从网络故障中恢复的操作程序或者校正所创建的操作程序,所述程序创建设备的特征在于包括:
学习装置,其用于基于预先获取的恢复模型和指示在发生所述网络故障时获取的故障信息和网络配置信息的故障数据选择用于从所述网络故障中恢复的多个恢复任务的执行程序;
程序执行装置,其用于在发生所述网络故障时执行所选择的执行程序;以及
程序创建装置,其用于根据所述网络故障的恢复程度以及关于是否通过所述执行程序实现了从所述网络故障中恢复的确定的结果,通知所述学习单元所述程序要被校正。
9.一种计算机可读存储介质,存储有由应用于自动故障恢复系统的控制设备的一个或多个处理器执行的程序,所述自动故障恢复系统使用机器学习创建用于从网络故障中恢复的操作程序或者校正所创建的操作程序,
其中,当所述程序由所述一个或多个执行时,所述程序使得所述控制设备执行:
用于输出指示在发生所述网络故障时获取的故障信息和网络配置信息的故障数据的处理;以及
用于在执行用于从所述网络故障中恢复的多个恢复任务的执行程序之后,确定是否通过所述执行程序实现了从所述网络故障中恢复的处理,其中基于所述故障数据和预先获取的恢复模型选择所述执行程序。
10.一种计算机可读存储介质,存储由由应用于自动故障恢复系统的程序创建设备的一个或多个处理器执行的程序,所述自动故障恢复系统使用机器学习创建用于从网络故障中恢复的操作程序或者校正所创建的操作程序,
其中,当所述程序由所述一个或多个处理器执行时,所述程序使得所述程序创建设备执行:
用于基于预先获取的恢复模型和指示在发生所述网络故障时获取的故障信息和网络配置信息的故障数据选择用于从所述网络故障中恢复的多个恢复任务的执行程序的处理;
用于在发生所述网络故障时执行所选择的执行程序的处理;以及
用于根据所述网络故障的恢复程度以及关于是否通过所述执行程序实现了从所述网络故障中恢复的确定的结果,提供所述程序要被校正的通知的处理。
CN201880019081.6A 2017-03-29 2018-03-09 自动故障恢复系统、控制设备、程序创建设备及计算机可读存储介质 Pending CN110447206A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410446358.0A CN118449838A (zh) 2017-03-29 2018-03-09 自动故障恢复系统、控制设备、程序创建设备及计算机可读存储介质

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017066059A JP2018170618A (ja) 2017-03-29 2017-03-29 障害自動復旧システム、制御装置、手順作成装置およびプログラム
JP2017-066059 2017-03-29
PCT/JP2018/009183 WO2018180364A1 (ja) 2017-03-29 2018-03-09 障害自動復旧システム、制御装置、手順作成装置およびコンピュータ可読記憶媒体

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202410446358.0A Division CN118449838A (zh) 2017-03-29 2018-03-09 自动故障恢复系统、控制设备、程序创建设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110447206A true CN110447206A (zh) 2019-11-12

Family

ID=63675664

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202410446358.0A Pending CN118449838A (zh) 2017-03-29 2018-03-09 自动故障恢复系统、控制设备、程序创建设备及计算机可读存储介质
CN201880019081.6A Pending CN110447206A (zh) 2017-03-29 2018-03-09 自动故障恢复系统、控制设备、程序创建设备及计算机可读存储介质

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202410446358.0A Pending CN118449838A (zh) 2017-03-29 2018-03-09 自动故障恢复系统、控制设备、程序创建设备及计算机可读存储介质

Country Status (5)

Country Link
US (1) US11080128B2 (zh)
EP (1) EP3605953B1 (zh)
JP (1) JP2018170618A (zh)
CN (2) CN118449838A (zh)
WO (1) WO2018180364A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018170618A (ja) 2017-03-29 2018-11-01 Kddi株式会社 障害自動復旧システム、制御装置、手順作成装置およびプログラム
US20200067851A1 (en) * 2018-08-21 2020-02-27 Argela Yazilim ve Bilisim Teknolojileri San. ve Tic. A.S. Smart software-defined network (sdn) switch
JP7147495B2 (ja) 2018-11-14 2022-10-05 日本電信電話株式会社 復旧支援装置、復旧支援方法及びプログラム
US20210133594A1 (en) * 2019-10-30 2021-05-06 Dell Products L.P. Augmenting End-to-End Transaction Visibility Using Artificial Intelligence
JP7234173B2 (ja) * 2020-03-06 2023-03-07 Kddi株式会社 モデル学習装置、モデル学習方法及びコンピュータプログラム
US12026055B2 (en) 2020-07-13 2024-07-02 Samsung Electronics Co., Ltd. Storage device with fault resilient read-only mode
KR102432284B1 (ko) * 2021-07-28 2022-08-12 인프라닉스 아메리카 코퍼레이션 It관리대상의 이벤트 알람이나 장애 문제를 실시간 자동으로 조치하는 시스템 및 그 운용방법
CN113777914B (zh) * 2021-09-10 2024-08-16 北京理工大学 具有智能故障检测和修正功能的控制分配方法
US20230104775A1 (en) * 2021-10-04 2023-04-06 Hitachi, Ltd. Human robot collaboration for flexible and adaptive robot learning

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1859162A (zh) * 2005-06-15 2006-11-08 华为技术有限公司 自动恢复设备故障的实现方法及系统
CN101027872A (zh) * 2004-07-30 2007-08-29 阿尔卡特朗讯公司 用于自动故障修复的通信网络管理系统
CN101446913A (zh) * 2009-01-13 2009-06-03 杭州华三通信技术有限公司 设备故障的检测方法和装置
CN102684909A (zh) * 2011-03-04 2012-09-19 日本电气株式会社 服务器、方法、系统及其程序
CN104301160A (zh) * 2014-11-18 2015-01-21 成都远为天胜科技有限公司 一种网络故障自动恢复的方法
AU2017100148A4 (en) * 2017-02-08 2017-03-09 Macau University Of Science And Technology A system, method, computer program and data signal for fault detection and recovery of a network

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4900878B2 (ja) * 2005-03-31 2012-03-21 日本電気株式会社 リングネットワークシステム、障害回復方法、障害検出方法、ノード、およびノード用プログラム
JP4701148B2 (ja) * 2006-03-02 2011-06-15 アラクサラネットワークス株式会社 障害回復システム及びサーバ
US7739207B2 (en) * 2006-07-11 2010-06-15 International Business Machines Corporation Network autonomous learning system that allows computers to share learned knowledge such that errors and potential problems are identified and resolved
US8024611B1 (en) * 2010-02-26 2011-09-20 Microsoft Corporation Automated learning of failure recovery policies
JP6024448B2 (ja) * 2012-12-26 2016-11-16 富士通株式会社 情報処理プログラム、情報処理方法及び装置
US9071535B2 (en) * 2013-01-03 2015-06-30 Microsoft Technology Licensing, Llc Comparing node states to detect anomalies
WO2014171047A1 (ja) * 2013-04-17 2014-10-23 日本電気株式会社 障害復旧手順生成装置、障害復旧手順生成方法および障害復旧手順生成プログラム
JP2015118440A (ja) * 2013-12-17 2015-06-25 株式会社日立製作所 監視装置及び障害復旧手順更新方法
CN105095001B (zh) * 2014-05-08 2018-01-30 中国银联股份有限公司 分布式环境下虚拟机异常恢复方法
JP6661319B2 (ja) 2015-09-28 2020-03-11 小林製薬株式会社 リポソーム
US11082439B2 (en) * 2016-08-04 2021-08-03 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
JP2018170618A (ja) 2017-03-29 2018-11-01 Kddi株式会社 障害自動復旧システム、制御装置、手順作成装置およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101027872A (zh) * 2004-07-30 2007-08-29 阿尔卡特朗讯公司 用于自动故障修复的通信网络管理系统
CN1859162A (zh) * 2005-06-15 2006-11-08 华为技术有限公司 自动恢复设备故障的实现方法及系统
CN101446913A (zh) * 2009-01-13 2009-06-03 杭州华三通信技术有限公司 设备故障的检测方法和装置
CN102684909A (zh) * 2011-03-04 2012-09-19 日本电气株式会社 服务器、方法、系统及其程序
CN104301160A (zh) * 2014-11-18 2015-01-21 成都远为天胜科技有限公司 一种网络故障自动恢复的方法
AU2017100148A4 (en) * 2017-02-08 2017-03-09 Macau University Of Science And Technology A system, method, computer program and data signal for fault detection and recovery of a network

Also Published As

Publication number Publication date
JP2018170618A (ja) 2018-11-01
EP3605953A1 (en) 2020-02-05
US20190384670A1 (en) 2019-12-19
WO2018180364A1 (ja) 2018-10-04
EP3605953A4 (en) 2020-02-26
US11080128B2 (en) 2021-08-03
EP3605953B1 (en) 2021-06-23
CN118449838A (zh) 2024-08-06

Similar Documents

Publication Publication Date Title
CN110447206A (zh) 自动故障恢复系统、控制设备、程序创建设备及计算机可读存储介质
CN107153573A (zh) 分布式任务处理方法和装置
CN109743286A (zh) 一种基于图卷积神经网络的ip类型标记方法及设备
CN108664794A (zh) 一种Linux服务器自动化安全加固方法
CN106685894B (zh) 一种风险识别方法、装置及系统
CN110991871A (zh) 风险监测方法、装置、设备与计算机可读存储介质
EP3786800B1 (en) Method and system for generating model driven applications using artificial intelligence
CN108711074B (zh) 业务分类方法、装置、服务器及可读存储介质
CN106681760A (zh) 基于客户工程项目管理系统的事务处理方法和装置
CN102131002B (zh) 一种手机数据处理方法和装置
CN105897498A (zh) 一种监控业务的方法及设备
CA3165779A1 (en) Recovery maturity index (rmi) - based control of disaster recovery
CN110232013B (zh) 测试方法、装置以及控制器和介质
CN112506802A (zh) 测试数据的管理方法及系统
CN107800640A (zh) 一种流规则的检测和处理的方法
CN110262950A (zh) 基于多项指标的异动检测方法和装置
CN115484143B (zh) 告警处理方法、装置、电子设备及存储介质
CN107528724A (zh) 一种节点集群的优化处理方法及装置
CN112463344B (zh) 一种数据分析方法及装置
US11424994B2 (en) Traffic-controlled processing of application requests
CN109995556A (zh) 一种报文格式更正方法及装置
CN112732818B (zh) 一种基于c/s系统的对接方法、装置、介质及设备
CN107562544A (zh) 一种信号处理的方法及装置
CN110874258B (zh) 物理机变更方法、装置
CN106484866A (zh) 一种批量数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191112