CN108846484A - 故障自愈系统、方法、计算机设备及存储介质 - Google Patents

故障自愈系统、方法、计算机设备及存储介质 Download PDF

Info

Publication number
CN108846484A
CN108846484A CN201810321202.4A CN201810321202A CN108846484A CN 108846484 A CN108846484 A CN 108846484A CN 201810321202 A CN201810321202 A CN 201810321202A CN 108846484 A CN108846484 A CN 108846484A
Authority
CN
China
Prior art keywords
event
decision
perception
data
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810321202.4A
Other languages
English (en)
Inventor
韩凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810321202.4A priority Critical patent/CN108846484A/zh
Publication of CN108846484A publication Critical patent/CN108846484A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了故障自愈系统、方法、计算机设备及存储介质,其中方法包括:针对任一处理对象,当获取到异常事件数据时,根据异常事件数据生成感知事件;根据感知事件进行决策,生成包含故障解决方案的待执行事件;执行待执行事件。应用本发明所述方案,可实现服务的故障自愈,无需人工操作,从而避免了因此所带来的一系列问题等。

Description

故障自愈系统、方法、计算机设备及存储介质
【技术领域】
本发明涉及计算机应用技术,特别涉及故障自愈系统、方法、计算机设备及存储介质。
【背景技术】
故障处理是基础运维工作的重要组成部分,快速准确地完成故障发现、分析和处理是保障服务可用性的重要基础能力。
目前的运维模式主要存在以下问题:以脚本或手工操作的方式进行故障处理,人工操作耗时过大,且容易因为操作失误导致二次故障;复杂的故障场景往往依赖人的决策经验,经验很难复用等。
【发明内容】
有鉴于此,本发明提供了故障自愈系统、方法、计算机设备及存储介质。
具体技术方案如下:
一种故障自愈系统,包括:故障自愈子系统;所述故障自愈子系统中进一步包括:感知模块、决策模块以及执行模块;
所述感知模块,用于针对任一处理对象,当获取到异常事件数据时,根据所述异常事件数据生成感知事件;
所述决策模块,用于根据所述感知事件进行决策,生成包含故障解决方案的待执行事件;
所述执行模块,用于执行所述待执行事件。
根据本发明一优选实施例,所述感知模块以处理对象作为订阅条件,订阅消息通道中所述处理对象的异常事件数据;
所述消息通道中保存有监控系统实时推入的监控到的异常事件数据。
根据本发明一优选实施例,所述感知模块进一步用于,
在获取到所述异常事件数据后,执行以下操作之一或全部:确定所述处理对象是否确实发生异常、确定所述异常事件数据对应的异常类型是否为需要处理的异常类型,若是,则生成所述感知事件。
根据本发明一优选实施例,所述决策模块利用通过机器学习方法训练得到的决策模型,确定出所述感知事件对应的故障解决方案。
根据本发明一优选实施例,所述执行模块利用状态机模型,执行所述待执行事件。
根据本发明一优选实施例,
所述感知模块进一步用于,将所述感知事件存入事件泵;
所述决策模块进一步用于,将所述待执行事件存入所述事件泵;
所述决策模块根据从所述事件泵获取的所述感知事件进行决策;
所述执行模块执行从所述事件泵获取的所述待执行事件。
根据本发明一优选实施例,所述系统中进一步包括:状态存储模块;
所述状态存储模块,用于同步备份所述事件泵中的数据。
根据本发明一优选实施例,所述系统中进一步包括:操作模块;
所述操作模块,用于将异常事件完整处理数据保存到数据库中。
根据本发明一优选实施例,所述故障自愈子系统的个数至少为两个,其中一个为主用子系统,其余的为备用子系统;
当所述主用子系统发生故障时,基于所述状态存储模块中的数据,由备用子系统接替所述主用子系统继续工作。
一种故障自愈方法,包括:
针对任一处理对象,当获取到异常事件数据时,根据所述异常事件数据生成感知事件;
根据所述感知事件进行决策,生成包含故障解决方案的待执行事件;
执行所述待执行事件。
根据本发明一优选实施例,获取所述异常事件数据包括:
以处理对象作为订阅条件,订阅消息通道中所述处理对象的异常事件数据;
所述消息通道中保存有监控系统实时推入的监控到的异常事件数据。
根据本发明一优选实施例,该方法进一步包括:
在获取到所述异常事件数据后,执行以下操作之一或全部:确定所述处理对象是否确实发生异常、确定所述异常事件数据对应的异常类型是否为需要处理的异常类型,若是,则生成所述感知事件。
根据本发明一优选实施例,所述根据所述感知事件进行决策包括:
利用通过机器学习方法训练得到的决策模型,确定出所述感知事件对应的故障解决方案。
根据本发明一优选实施例,所述执行所述待执行事件包括:
利用状态机模型,执行所述待执行事件。
根据本发明一优选实施例,该方法进一步包括:分别将生成的所述感知事件以及所述待执行事件存入事件泵;
所述根据所述感知事件进行决策包括:根据从所述事件泵获取的所述感知事件进行决策;
所述执行所述待执行事件包括:执行从所述事件泵获取的所述待执行事件。
根据本发明一优选实施例,该方法进一步包括:对所述事件泵中的数据进行同步备份。
根据本发明一优选实施例,该方法进一步包括:将异常事件完整处理数据保存到数据库中。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,针对任一处理对象,当获取到异常事件数据时,可根据异常事件数据生成感知事件,并可根据感知事件进行决策,生成包含故障解决方案的待执行事件,进而执行待执行事件,相比于现有技术,本发明所述方案可实现故障的自愈,无需人工操作,从而避免了因此所带来的一系列问题等。
【附图说明】
图1为本发明所述故障自愈系统实施例的组成结构示意图。
图2为本发明所述故障自愈方法实施例的流程图。
图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
【具体实施方式】
为了提升故障处理效率,将故障分析处理过程固化为自动化处理程序,替代人工,从而让系统具备“自愈”能力,是重要的发展趋势。基于此,本发明中提出了一种基于事件驱动的面向感知、决策、执行的开发框架,用户可在此框架基础上,开发满足自身需求的故障自愈系统等。
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案进行进一步说明。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明所述故障自愈系统实施例的组成结构示意图。如图1所示,其中包括故障自愈子系统101,故障自愈子系统101中又可进一步包括:感知模块1011、决策模块1012以及执行模块1013。
感知模块1011,用于针对任一处理对象,当获取到异常事件数据时,根据异常事件数据生成感知事件。
决策模块1012,用于根据感知事件进行决策,生成包含故障解决方案的待执行事件。
执行模块1013,用于执行待执行事件。
在实际应用中,监控系统可将监控到的异常事件数据实时推入消息通道中,感知模块1011可以处理对象作为订阅条件,订阅消息通道中的处理对象的异常事件数据。
处理对象可以是指机器、实例、服务等。监控系统如何对各处理对象进行监控为现有技术。一旦监控到异常事件,则可将异常事件数据推入到消息通道中。异常事件数据可包括对应的处理对象、故障发生的时间、具体的故障参数/指标、一些相关联的数据等。
感知模块1011订阅到某一处理对象的异常事件数据后,较佳地,可进一步执行以下操作之一或全部:确定处理对象是否确实发生异常、确定异常事件数据对应的异常类型是否为需要处理的异常类型,若是,则可根据异常事件数据生成感知事件。
感知模块1011获取到异常事件数据后,可不立刻针对异常事件数据进行后续处理,而是可先确认对应的处理对象是否确实发生异常,比如,可计算处理对象状态的当前值与设定值的差值,若差值大于阈值,则可判定处理对象确实发生异常,进而可根据异常事件数据生成感知事件。或者,确定异常事件数据对应的异常类型是否为需要处理的异常类型,这是因为异常可能包括多种类型,根据实际需求,有的异常类型需要处理,而有的则可能不需要处理,对于需要处理的异常类型,可根据异常事件数据生成感知事件。或者,也可以进行以上两种判断,只有当处理对象确实发生异常而且异常类型为需要处理的异常类型时,才根据异常事件数据生成感知事件。
根据异常事件数据生成感知事件,可以包括对异常事件数据进行一些预处理等,如调整为适合决策模块处理的数据形式等。
感知事件可存入事件泵中,之后,决策模块1012可根据从事件泵获取的感知事件进行决策,生成包含故障解决方案的待执行事件。
具体地,决策模块1012可利用通过机器学习方法训练得到的决策模型,确定出感知事件对应的故障解决方案,进而生成待执行事件。
决策模型具体为何种模型不作限制,比如,可为决策树模型等。可通过构建足够数量的训练样本,通过机器学习方法训练得到决策模型。如监控系统可对外提供实时、历史数据的查询应用程序接口(API,Application Programming Interface),以便基于查询到的数据进行训练样本的构建等。
决策模块1012在生成待执行事件之前,也可先根据可感知的处理对象状态,确定处理对象是否异常等,如果非异常,说明故障可能已经修复,则无需进行后续处理。
待执行事件中可包括对应的处理对象、故障解决方案即需要执行什么操作以修复故障等信息。
待执行事件可存入事件泵中,之后,执行模块1013可执行从事件泵获取的待执行事件。具体地,执行模块1013可利用状态机模型,执行待执行事件。
通过状态机模型中不同中间状态流转,一方面可以表述并驱动复杂的长流程的运行,另一方面可以使运维操作尽可能的面向状态,便于异常场景下对运维流程的迁移和重入。用户可在此模型基础上,定义离散可枚举的一组状态并实现各种状态下对应的检查和处理动作,从而实现面向状态的运维操作。
为提升系统的容灾能力等,可采用主备机制,即至少设置两个故障自愈子系统101(为简化附图,图1中只表示出了一个),其中一个为主用子系统,其余的为备用子系统。
如图1所示,所示系统中可进一步包括状态存储模块102,用于同步备份事件泵中的数据。这样,当主用子系统发生故障时,可基于状态存储模块102中的数据,由备用子系统接替主用子系统继续工作,也就是说,备用子系统可基于状态存储模块102中的数据获知事件的处理进度及上下文信息等,从而接着主用子系统之前的工作继续进行处理。
另外,为了保证异常事件可查询,执行过程可追溯等,可对异常事件完整处理数据进行存储,以提高系统的易用性等。为此,图1所示系统中可进一步包括操作模块103,用于将异常事件完整处理数据保存到数据库中,监控系统也可将自身数据保存到数据库中。
异常事件完整处理数据可包括故障自愈子系统101针对一个异常事件的完整处理流程,如包括异常事件何时被感知到、何时决策、执行的故障处理操作以及操作结果等。
总之,采用上述系统实施例所述方案,将人工智能、机器学习成果与故障自愈相结合,提供了集智能感知、决策、执行模型于一体的智能运维工程化解决方案,通过在机器基础环境和服务单机房故障等场景下的故障自愈实践,已经证实,上述系统实施例所述方案不仅可以有效感知异常事件并进行智能决策执行,而且能够在故障自愈服务自身故障时对操作进行无缝迁移,有助于降低故障自愈服务开发难度和成本,提升故障处理效率等。
以上是关于系统实施例的介绍,以下通过方法实施例,对本发明所述方案进行进一步说明。
图2为本发明所述故障自愈方法实施例的流程图。如图2所示,包括以下具体实现方式。
在201中,针对任一处理对象,当获取到异常事件数据时,根据异常事件数据生成感知事件。
在202中,根据感知事件进行决策,生成包含故障解决方案的待执行事件。
在203中,执行待执行事件。
在实际应用中,监控系统可将监控到的异常事件数据实时推入消息通道中,相应地,可以处理对象作为订阅条件,订阅消息通道中的处理对象的异常事件数据。
当订阅到某一处理对象的异常事件数据后,较佳地,可进一步执行以下操作之一或全部:确定处理对象是否确实发生异常、确定异常事件数据对应的异常类型是否为需要处理的异常类型,若是,则可根据异常事件数据生成感知事件。
感知事件可存入事件泵中,之后,可根据从事件泵获取的感知事件进行决策,生成包含故障解决方案的待执行事件。
具体地,可利用通过机器学习方法训练得到的决策模型,确定出感知事件对应的故障解决方案,进而生成待执行事件。
决策模型具体为何种模型不作限制,比如,可为决策树模型等。可通过构建足够数量的训练样本,通过机器学习方法训练得到决策模型。
待执行事件中可包括对应的处理对象、故障解决方案即需要执行什么操作以修复故障等信息。
待执行事件可存入事件泵中,之后,可执行从事件泵获取的待执行事件。具体地,可利用状态机模型,执行待执行事件。
通过状态机模型中不同中间状态流转,一方面可以表述并驱动复杂的长流程的运行,另一方面可以使运维操作尽可能的面向状态,便于异常场景下对运维流程的迁移和重入。用户可在此模型基础上,定义离散可枚举的一组状态并实现各种状态下对应的检查和处理动作,从而实现面向状态的运维操作。
为提升系统的容灾能力等,可采用主备机制,如图1所示实施例中至少设置两个故障自愈子系统,其中一个为主用子系统,其余的为备用子系统。
为此,可对事件泵中的数据进行同步备份。这样,当主用子系统发生故障时,可基于备份的数据,由备用子系统接替主用子系统继续工作。
另外,为了保证异常事件可查询,执行过程可追溯等,还可对异常事件完整处理数据进行存储,以提高系统的易用性等。如将异常事件完整处理数据保存到数据库中。
总之,采用上述方法实施例所述方案,将人工智能、机器学习成果与故障自愈相结合,提供了集智能感知、决策、执行模型于一体的智能运维工程化解决方案,通过在机器基础环境和服务单机房故障等场景下的故障自愈实践,已经证实,上述方法实施例所述方案不仅可以有效感知异常事件并进行智能决策执行,而且能够在故障自愈服务自身故障时对操作进行无缝迁移,有助于降低故障自愈服务开发难度和成本,提升故障处理效率等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图3显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器(处理模块)16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图3所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理模块、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图2所示实施例中的方法。
本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图2所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (19)

1.一种故障自愈系统,其特征在于,包括:故障自愈子系统;所述故障自愈子系统中进一步包括:感知模块、决策模块以及执行模块;
所述感知模块,用于针对任一处理对象,当获取到异常事件数据时,根据所述异常事件数据生成感知事件;
所述决策模块,用于根据所述感知事件进行决策,生成包含故障解决方案的待执行事件;
所述执行模块,用于执行所述待执行事件。
2.根据权利要求1所述的系统,其特征在于,
所述感知模块以处理对象作为订阅条件,订阅消息通道中所述处理对象的异常事件数据;
所述消息通道中保存有监控系统实时推入的监控到的异常事件数据。
3.根据权利要求1所述的系统,其特征在于,
所述感知模块进一步用于,
在获取到所述异常事件数据后,执行以下操作之一或全部:确定所述处理对象是否确实发生异常、确定所述异常事件数据对应的异常类型是否为需要处理的异常类型,若是,则生成所述感知事件。
4.根据权利要求1所述的系统,其特征在于,
所述决策模块利用通过机器学习方法训练得到的决策模型,确定出所述感知事件对应的故障解决方案。
5.根据权利要求1所述的系统,其特征在于,
所述执行模块利用状态机模型,执行所述待执行事件。
6.根据权利要求1所述的系统,其特征在于,
所述感知模块进一步用于,将所述感知事件存入事件泵;
所述决策模块进一步用于,将所述待执行事件存入所述事件泵;
所述决策模块根据从所述事件泵获取的所述感知事件进行决策;
所述执行模块执行从所述事件泵获取的所述待执行事件。
7.根据权利要求6所述的系统,其特征在于,
所述系统中进一步包括:状态存储模块;
所述状态存储模块,用于同步备份所述事件泵中的数据。
8.根据权利要求1所述的系统,其特征在于,
所述系统中进一步包括:操作模块;
所述操作模块,用于将异常事件完整处理数据保存到数据库中。
9.根据权利要求7所述的系统,其特征在于,
所述故障自愈子系统的个数至少为两个,其中一个为主用子系统,其余的为备用子系统;
当所述主用子系统发生故障时,基于所述状态存储模块中的数据,由备用子系统接替所述主用子系统继续工作。
10.一种故障自愈方法,其特征在于,包括:
针对任一处理对象,当获取到异常事件数据时,根据所述异常事件数据生成感知事件;
根据所述感知事件进行决策,生成包含故障解决方案的待执行事件;
执行所述待执行事件。
11.根据权利要求10所述的方法,其特征在于,
获取所述异常事件数据包括:
以处理对象作为订阅条件,订阅消息通道中所述处理对象的异常事件数据;
所述消息通道中保存有监控系统实时推入的监控到的异常事件数据。
12.根据权利要求10所述的方法,其特征在于,
该方法进一步包括:
在获取到所述异常事件数据后,执行以下操作之一或全部:确定所述处理对象是否确实发生异常、确定所述异常事件数据对应的异常类型是否为需要处理的异常类型,若是,则生成所述感知事件。
13.根据权利要求10所述的方法,其特征在于,
所述根据所述感知事件进行决策包括:
利用通过机器学习方法训练得到的决策模型,确定出所述感知事件对应的故障解决方案。
14.根据权利要求10所述的方法,其特征在于,
所述执行所述待执行事件包括:
利用状态机模型,执行所述待执行事件。
15.根据权利要求10所述的方法,其特征在于,
该方法进一步包括:分别将生成的所述感知事件以及所述待执行事件存入事件泵;
所述根据所述感知事件进行决策包括:根据从所述事件泵获取的所述感知事件进行决策;
所述执行所述待执行事件包括:执行从所述事件泵获取的所述待执行事件。
16.根据权利要求15所述的方法,其特征在于,
该方法进一步包括:对所述事件泵中的数据进行同步备份。
17.根据权利要求10所述的方法,其特征在于,
该方法进一步包括:将异常事件完整处理数据保存到数据库中。
18.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求10~17中任一项所述的方法。
19.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求10~17中任一项所述的方法。
CN201810321202.4A 2018-04-11 2018-04-11 故障自愈系统、方法、计算机设备及存储介质 Pending CN108846484A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810321202.4A CN108846484A (zh) 2018-04-11 2018-04-11 故障自愈系统、方法、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810321202.4A CN108846484A (zh) 2018-04-11 2018-04-11 故障自愈系统、方法、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN108846484A true CN108846484A (zh) 2018-11-20

Family

ID=64212048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810321202.4A Pending CN108846484A (zh) 2018-04-11 2018-04-11 故障自愈系统、方法、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN108846484A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109656751A (zh) * 2018-11-29 2019-04-19 河南职业技术学院 计算机故障管控方法及计算机故障管控装置
CN112712443A (zh) * 2021-01-08 2021-04-27 中国南方电网有限责任公司超高压输电公司昆明局 换流站的事件分析方法及分析装置
CN112825437A (zh) * 2019-11-21 2021-05-21 中国移动通信集团甘肃有限公司 一种针对一体化机柜的供电控制方法和系统
CN113392862A (zh) * 2020-03-12 2021-09-14 中国移动通信集团山东有限公司 感知数据的自愈管控方法、装置、计算机设备和存储介质
CN113590370A (zh) * 2021-08-06 2021-11-02 北京百度网讯科技有限公司 一种故障处理方法、装置、设备及存储介质
CN116260963A (zh) * 2023-03-17 2023-06-13 北京拙河科技有限公司 一种用于相机故障的应急处置方法及装置
US11888682B2 (en) 2019-06-13 2024-01-30 Samsung Electronics Co., Ltd. Automated system for healing faulty node in a network and method thereof

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246735A (zh) * 2013-05-13 2013-08-14 中国工商银行股份有限公司 一种异常数据处理方法及系统
CN105187482A (zh) * 2015-07-20 2015-12-23 深圳供电局有限公司 一种PaaS平台故障自愈实现的方法及消息服务器
CN107832200A (zh) * 2017-10-24 2018-03-23 平安科技(深圳)有限公司 告警处理方法、装置、计算机设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246735A (zh) * 2013-05-13 2013-08-14 中国工商银行股份有限公司 一种异常数据处理方法及系统
CN105187482A (zh) * 2015-07-20 2015-12-23 深圳供电局有限公司 一种PaaS平台故障自愈实现的方法及消息服务器
CN107832200A (zh) * 2017-10-24 2018-03-23 平安科技(深圳)有限公司 告警处理方法、装置、计算机设备及存储介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109656751A (zh) * 2018-11-29 2019-04-19 河南职业技术学院 计算机故障管控方法及计算机故障管控装置
US11888682B2 (en) 2019-06-13 2024-01-30 Samsung Electronics Co., Ltd. Automated system for healing faulty node in a network and method thereof
CN112825437A (zh) * 2019-11-21 2021-05-21 中国移动通信集团甘肃有限公司 一种针对一体化机柜的供电控制方法和系统
CN113392862A (zh) * 2020-03-12 2021-09-14 中国移动通信集团山东有限公司 感知数据的自愈管控方法、装置、计算机设备和存储介质
CN113392862B (zh) * 2020-03-12 2022-12-09 中国移动通信集团山东有限公司 感知数据的自愈管控方法、装置、计算机设备和存储介质
CN112712443A (zh) * 2021-01-08 2021-04-27 中国南方电网有限责任公司超高压输电公司昆明局 换流站的事件分析方法及分析装置
CN112712443B (zh) * 2021-01-08 2022-06-10 中国南方电网有限责任公司超高压输电公司昆明局 换流站的事件分析方法及分析装置
CN113590370A (zh) * 2021-08-06 2021-11-02 北京百度网讯科技有限公司 一种故障处理方法、装置、设备及存储介质
CN113590370B (zh) * 2021-08-06 2022-06-21 北京百度网讯科技有限公司 一种故障处理方法、装置、设备及存储介质
WO2023011160A1 (zh) * 2021-08-06 2023-02-09 北京百度网讯科技有限公司 一种故障处理方法、装置、设备及存储介质
CN116260963A (zh) * 2023-03-17 2023-06-13 北京拙河科技有限公司 一种用于相机故障的应急处置方法及装置
CN116260963B (zh) * 2023-03-17 2023-11-07 北京拙河科技有限公司 一种用于相机故障的应急处置方法及装置

Similar Documents

Publication Publication Date Title
CN108846484A (zh) 故障自愈系统、方法、计算机设备及存储介质
CN110839084B (zh) 会话管理方法、装置、设备和介质
CN107040777A (zh) 一种远程调试方法、机顶盒和服务器
CN110688286B (zh) 应用程序运行信息传送方法及装置、存储介质、电子设备
CN111324441A (zh) 运行环境的切换方法、装置、计算机设备和存储介质
CN115373861B (zh) Gpu资源调度方法、装置、电子设备及存储介质
CN113112536A (zh) 图像处理模型训练方法、图像处理方法及装置
WO2021112765A1 (en) Method and apparatus for controlling edge computing devices, and storage medium
CN112820408A (zh) 手术操作风险确定方法、相关装置及计算机程序产品
CN113365146A (zh) 用于处理视频的方法、装置、设备、介质和产品
CN112364008A (zh) 一种面向电力物联网智能终端的设备画像构建方法
CN113012695B (zh) 智能控制方法、装置、电子设备及计算机可读存储介质
CN103338258B (zh) 一种基于云技术的会议音频设备管理控制方法
CN115906177A (zh) 集合安全求交方法、装置、电子设备及存储介质
CN113223121B (zh) 视频生成方法、装置、电子设备及存储介质
CN115934179A (zh) 业务功能控制方法及设备
CN114650211A (zh) 故障修复方法、装置、电子设备和计算机可读存储介质
CN114091909A (zh) 一种协同开发的方法、系统、装置及电子设备
CN114461507A (zh) 报警事件的响应方法、装置、设备、介质和程序产品
CN110175769B (zh) 一种基于微服务架构的资产价值评价方法、装置及系统
US11681920B2 (en) Method and apparatus for compressing deep learning model
CN113961962A (zh) 一种基于隐私保护的模型训练方法、系统及计算机设备
CN114745426A (zh) 终端的异常监控方法、装置、设备、可读存储介质及系统
CN112105045A (zh) 一种通讯设备故障诊断方法和平台
CN112611563B (zh) 一种目标故障信息的确定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181120