CN111865682B - 用于处理故障的方法和装置 - Google Patents

用于处理故障的方法和装置 Download PDF

Info

Publication number
CN111865682B
CN111865682B CN202010686836.7A CN202010686836A CN111865682B CN 111865682 B CN111865682 B CN 111865682B CN 202010686836 A CN202010686836 A CN 202010686836A CN 111865682 B CN111865682 B CN 111865682B
Authority
CN
China
Prior art keywords
service
preset
unit
determining
service unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010686836.7A
Other languages
English (en)
Other versions
CN111865682A (zh
Inventor
冷冰炘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010686836.7A priority Critical patent/CN111865682B/zh
Publication of CN111865682A publication Critical patent/CN111865682A/zh
Application granted granted Critical
Publication of CN111865682B publication Critical patent/CN111865682B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

本申请公开了用于处理故障的方法和装置,涉及云计算、故障处理技术领域。具体实施方式包括:获取云服务的参数,其中,该参数包括服务状态信息和流量;响应于确定该参数不在预设参数范围内,确定该云服务的发生故障的目标服务单元和该故障的故障类型;基于该目标服务单元和该故障类型,确定该故障对应的预设止损方案;执行该预设止损方案,以将提供该云服务的服务单元,从该目标服务单元切换至其它服务单元。本申请可以通过监控流量和服务状态,自动定位故障的位置以及故障类型,并得到止损方案,有效提高了云端故障的处理效率,同时提高了处理的即时性。

Description

用于处理故障的方法和装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及云计算、故障处理技术领域,尤其涉及用于处理故障的方法和装置。
背景技术
基于云平台的各项云服务的系统庞大复杂,一旦发生故障,需要服务运维人员先判断故障点,并进行相应决策,进行一系列的操作,以确保服务的功能恢复正常,让服务尽可能少的受到故障的影响。如果故障恢复时间长,止损操作不准确,则容易发生次生故障,产生很大的影响。
相关技术中,往往需要依靠人员来进行操作,导致故障处理的耗时较长。并且人对故障的判断结果不能够总实现快速和精准,从而容易造成业务受损严重,产生较大的影响。
发明内容
提供了一种用于处理故障的方法、装置、电子设备以及存储介质。
根据第一方面,提供了一种用于处理故障的方法,包括:获取云服务的参数,其中,参数包括服务状态信息和流量;响应于确定参数不在预设参数范围内,确定云服务的发生故障的目标服务单元和故障的故障类型;基于目标服务单元和故障类型,确定故障对应的预设止损方案;执行预设止损方案,以将提供云服务的服务单元,从目标服务单元切换至其它服务单元。
根据第二方面,提供了一种用于处理故障的装置,包括:获取单元,被配置成获取云服务的参数,其中,参数包括服务状态信息和流量;故障确定单元,被配置成响应于确定参数不在预设参数范围内,确定云服务的发生故障的目标服务单元和故障的故障类型;预案确定单元,被配置成基于目标服务单元和故障类型,确定故障对应的预设止损方案;止损单元,被配置成执行预设止损方案,以将提供云服务的服务单元,从目标服务单元切换至其它服务单元。
根据第三方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如用于处理故障的方法中任一实施例的方法。
根据第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如用于处理故障的方法中任一实施例的方法。
根据本申请的方案,可以通过监控流量和服务状态,自动定位故障的位置以及故障类型,并得到止损方案,有效提高了云端故障的处理效率,同时提高了处理的即时性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请一些实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的用于处理故障的方法的一个实施例的流程图;
图3是根据本申请的用于处理故障的方法的一个应用场景的示意图;
图4是根据本申请的用于处理故障的方法的又一个实施例的流程图;
图5是根据本申请的用于处理故障的装置的一个实施例的结构示意图;
图6是用来实现本申请实施例的用于处理故障的方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于处理故障的方法或用于处理故障的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101,网络102和服务器103、104、105。网络102用以在终端设备101和服务器103、104、105之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101通过网络102与服务器103、104、105交互,以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用,例如视频类应用、直播应用、即时通信工具、邮箱客户端、社交平台软件等。
这里的终端设备101可以是硬件,也可以是软件。当终端设备101为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器103、104、105可以是提供各种服务的服务器,例如对终端设备101提供支持的后台服务器。后台服务器可以对接收到的服务的参数等数据进行分析等处理,并将处理结果(例如预设止损方案)反馈给终端设备。在实践中,服务器103、104、105可以是一个服务器集群,比如一个可用区内的服务器集群。
需要说明的是,本申请实施例所提供的用于处理故障的方法可以由服务器103、104、105执行,相应地,用于处理故障的装置可以设置于服务器103、104、105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的用于处理故障的方法的一个实施例的流程200。该用于处理故障的方法,可以包括以下步骤:
步骤201,获取云服务的参数,其中,参数包括服务状态信息和流量。
在本实施例中,用于处理故障的方法运行于其上的执行主体(例如图1所示的服务器)可以获取云服务的参数。具体地,该参数为与云服务的故障关联的参数,也即是可以用于确定云服务发生的故障的参数。这里的云服务为一个或多个服务器所提供的云服务。
具体地,该参数可以是各种各样的参数,比如该参数可以包括服务状态信息和流量。这里的服务状态信息用于指示云服务的状态,比如可以指示云服务的提供是否正常,或者云服务的提供是否异常等等。流量指在提供上述云服务时所产生的数据流量。具体地,可以包括服务器与终端之间的流量,此外,也可以包括服务单元之间的流量,比如服务器之间的流量。
步骤202,响应于确定参数不在预设参数范围内,确定云服务的发生故障的目标服务单元和故障的故障类型。
在本实施例中,上述执行主体在确定参数不在预设参数范围内的情况下,则可以确定上述云服务发生了故障,并确定发生故障的服务单元和该故障的故障类型。该发生故障的服务单元可以作为目标服务单元,是上述云服务的服务单元。服务单元可以指能够给终端提供云服务的硬件,比如服务器集群或者服务器。此外,服务单元也可以是被服务器用于给终端提供云服务的软件,比如实例。在实践中,包括所述目标服务单元的多个服务单元可以共同为终端提供上述云服务。
故障类型指故障所属于的类型,比如可以包括网络终端、设备宕机等等。
步骤203,基于目标服务单元和故障类型,确定故障对应的预设止损方案。
在本实施例中,上述执行主体可以基于所确定的目标服务单元和故障类型,确定该故障对应的预设止损方案。在实践中,上述执行主体可以采用各种方式,基于目标服务单元和故障类型,确定故障对应的预设止损方案。比如,上述执行主体可以基于预设的对应关系表,确定该目标服务单元、故障类型所对应的预设止损方案。此外,上述执行主体可以将目标服务单元、故障类型输入预设模型,以得到该预设模型输出的预设止损方案。该对应关系表和该预设模型均可以用于表征目标服务单元、故障类型,与预设止损方案之间的对应关系。
在实践中,预设止损预案可以分为多种类型,比如多种类型可以包括域名解析更新、IP关联的服务器更新、内网服务器集群更新和流量控制。其中,域名解析更新指用于解析域名的服务器从上述服务器获取多个域名,也即解析这些域名得到域名对应的服务单元的IP,并选取无故障的服务单元对应的域名解析出的新IP,反馈给终端,实现终端从该新IP对应的服务单元获取数据。IP关联的服务器更新指更新IP所关联的至少部分服务器(realserver,RS)的名单,从而将名单中故障的服务器的标识,切换为无故障的服务器的标识。服务器集群更新也即,指通过更新IP,实现更新对终端提供云服务的服务器集群。流量控制也即BFE(Base Filtering Engine)内网流量更新,指通过集群流量控制器,调节对终端提供云服务的不同集群的流量比例关系,从而可以仅让非故障的服务单元所在的服务集群对终端提供服务。
步骤204,执行预设止损方案,以将提供云服务的服务单元,从目标服务单元切换至其它服务单元。
在本实施例中,上述执行主体可以执行所确定的预设止损方案。以将提供上述云服务的服务单元中的至少一个服务单元,从发生故障的目标服务单元,切换至其它服务单元。具体地,该其它服务单元可以是与目标服务单元在同一服务集群或者不同服务集群的服务单元。该其它服务单元可以是预设的服务单元,比如预设止损方案中所预设的服务单元,或者上述服务器中的预存信息指示的、与目标服务单元的功能一致的备份服务单元。
本申请的上述实施例提供的方法可以通过监控流量和服务状态,自动定位故障的位置以及故障类型,并得到止损方案,有效提高了云端故障的处理效率,同时提高了处理的即时性。
继续参见图3,图3是根据本实施例的用于处理故障的方法的应用场景的一个示意图。在图3的应用场景中,执行主体301获取云服务的参数302,其中,参数302包括服务状态信息和流量。执行主体301响应于确定参数302不在预设参数范围内,确定云服务的发生故障的目标服务单元303,和故障的故障类型304。执行主体301基于目标服务单元303和故障类型304,确定故障对应的预设止损方案305。执行主体301执行预设止损方案305,以将提供云服务的服务单元,从目标服务单元切换至其它服务单元。
在本申请的任一实施例的一些可选的实现方式中,上述方法还可以包括:确定目标服务单元所在的故障区域,隔离故障区域。
在这些可选的实现方式中,上述执行主体可以确定目标服务提高单元所在的故障区域,并将该故障区域与其它故障区域隔离开。也即,停止该故障区域与其它服务单元之间有关服务任务的通信,停止该故障区域执行提供上述云服务的任务。故障区域可以指可用区、服务器集群或者IP对应的服务器组等。
这些实现方式通过隔离故障区域可以及时避免故障影响范围的扩大,进而避免诱发次生故障。
在本申请的任一实施例的一些可选的实现方式中,服务单元为服务器集群、服务器子集群或实例,服务器子集群包括至少一个服务器;服务状态信息包括实例状态信息。
在这些可选的实现方式中,服务单元可以指用于提供云服务的服务器集群或者服务器子集群,也可以指被服务器用于提供云服务的实例。服务器子集群指至少一个服务器组成的模块,比如,模块可以包括以下至少一者:入口模块、自身模块、依赖模块。比如,入口模块可以指提供与域名相关的云服务的模块,自身模块可以指不被其它模块中的服务器所依赖的模块。依赖模块可以指被其它模块所依赖的模块,比如数据库所在的服务器所属的模块。
实例状态信息可以指实例异常率或者实例正常率等。若实例为在整个服务器集群运行的实例,则实例异常率为该服务器集群中运行异常的服务器(也即运行存在故障的服务器)在该服务器集群中所占的比例。若实例为在单一服务器运行的实例,该实例异常率则为异常进程(也即指定进程,是运行存在故障的进程)占该服务器中的进程的比例。
这些实现方式可以让故障的定位大至服务器集群,小到实例,从而能够从各个层次进行故障处理。并且,通过实例状态信息可以准确地确定出实例的运行是否存在故障,从而实现准确定位。
在本申请的任一实施例的一些可选的实现方式中,上述方法还可以包括:响应于确定云服务的服务单元变更,更新预设止损方案所关联的服务单元;响应于确定云服务的服务单元之间的关系变更,更新预设止损方案所关联的服务单元的止损操作,其中,服务单元之间的关系变更包括依赖关系变更。
在这些可选的实现方式中,如果上述云服务的服务单元变更了,上述执行主体可以更新预设止损方案所关联的服务单元。如果云服务的服务单元之间的关系变更了,上述执行主体可以更新预设止损方案所关联的至少部分服务单元的止损操作。
这里的预设止损方案所关联的服务单元指执行预设止损方案时,需要参与到执行过程中的服务单元,也即执行预设止损方案所涉及的、需要执行止损操作的服务单元。比如,预设止损方案指示了针对服务单元A的宕机故障,可以启动服务单元B或者服务单元C提供云服务,这里的服务单元A、服务单元B、服务单元C则可以称为该预设止损方案所关联的服务单元。在关系变更之后,对预设止损方案所关联的、关系发生变化的服务单元所执行的止损操作则需要相应变化,才能实现原有的止损效果。相应地,上述执行主体也可以对在执行预设止损方案时与这些服务单元进行通信连接的服务单元的止损操作进行适应性更新。
在实践中,服务单元也可以包括机房(可用区),相应地,服务单元变更比如可以包括对服务部署的机房的变更。服务单元之间的关系的变更可以包括比如部署结构涉及的关系变更、依赖关系变更。
在实践中,服务单元变更与服务单元之间的关系变更均可以包含于部署结构的变更和依赖关系变更。具体地,部署结构的变更可以包括上述服务单元变更。部署结构中涉及的关系变更可以包括服务器集群之间的关系变更、上下游服务之间的逻辑关系变更等等。依赖关系指一个服务单元需要依赖另一个服务单元才能够执行任务。比如,一个服务器需要依赖另一个服务器上的数据库来提供服务,则这两个服务器之间存在依赖关系。
这些实现方式可以在服务单元存在不同变更的情况下,执行不同的更新步骤,从而让预设止损方案更加准确。
在本申请的任一实施例的一些可选的实现方式中,上述执行预设止损方案,可以包括:响应于云服务的服务单元以及该服务单元之间的关系符合预设配置信息,执行预设止损方案;上述方法还可以包括:响应于确定服务发生了服务单元变更和/或服务单元之间的关系变更,更新预设配置信息,其中,服务单元之间的关系变更包括依赖关系变更。
在这些可选的实现方式中,上述执行主体可以预先设定好预设配置信息,该预设配置信息用于指示服务单元以及服务单元之间的关系。在当前的服务单元以及服务单元之间的关系符合该预设配置信息的情况下,上述执行主体才会执行上述预设止损方案。如果当前设定的提供云服务的服务单元和服务单元之间的关系发生了变化,上述执行主体可以直接将当前的服务单元和服务单元之间的关系,作为预设配置信息。
这些实现方式可以定义执行预设止损方案的触发条件,避免预设止损方案在不匹配的故障场景下执行,同时可以在服务单元或服务单元之间的关系变更的情况下,更新配置信息,以确保在云服务发生故障时,能够顺利执行预设止损方案。
进一步参考图4,其示出了用于处理故障的方法的又一个实施例的流程400。该流程400,包括以下步骤:
步骤401,获取云服务的参数,其中,参数包括服务状态信息和流量。
在本实施例中,用于处理故障的方法运行于其上的执行主体(例如图1所示的服务器)可以获取服务器所提供的云服务的参数。具体地,该参数为可以用于确定云服务发生的故障的参数,可以为各种各样的参数,比如该参数可以包括服务状态信息和流量。这里的服务状态信息用于指示服务器所提供的云服务的状态。
步骤402,响应于确定参数不在预设参数范围内,确定云服务的发生故障的目标服务单元和故障的故障类型。
在本实施例中,上述执行主体在确定参数不在预设参数范围内的情况下,则可以确定云服务发生了故障,并确定发生故障的服务单元和该故障的故障类型。该发生故障的服务单元可以作为目标服务单元,是上述云服务的服务单元。
步骤403,基于目标服务单元和故障类型,确定故障对应的候选预设止损方案,向终端输出候选预设止损方案的标识,以使终端显示候选预设止损方案的标识。
在本实施例中,上述执行主体可以基于目标服务单元和故障类型,确定故障对应的至少一个预设止损方案作为候选预设止损方案,并将这些候选预设止损方案的标识发送给终端,以使终端显示出来。这里的标识可以是候选预设止损方案的名称、简述和/或代号等等。
步骤404,响应于候选预设止损方案的数量为至少两个,且接收到终端响应于检测到对于其中一个候选预设止损方案的标识的操作所反馈的信息,将其中一个候选预设止损方案确定为故障对应的预设止损方案。
在本实施例中,若上述候选预设止损方案的数量为至少两个,并且上述终端检测到用户对上述候选预设止损方案的标识的其中一个候选预设止损方案的标识的操作,上述执行主体可以将该其中一个候选预设止损方案确定为上述故障对应的预设止损方案。
步骤405,执行预设止损方案,以将提供云服务的服务单元,从目标服务单元切换至其它服务单元。
在本实施例中,上述执行主体可以执行所确定的预设止损方案。以将提供上述云服务的服务单元,从发生故障的目标服务单元,切换至其它服务单元。具体地,该其它服务单元可以是与目标服务单元在同一服务器集群或者不同服务器集群的服务单元。
这些实现方式可以让用户参与到预设止损方案的选择过程中。电子设备对于一些故障类型的判断可能存在准确性问题,比如当故障类型是网络时断时续时,电子设备往往很难准确判断该故障类型,这些实现方式可以推送多个候选的止损方案让用户进行最终选择,从而提高了所执行的止损方案的准确度。
在本申请的任一实施例的一些可选的实现方式中,上述确定云服务的发生故障的目标服务单元和故障的故障类型,可以包括:若检测到云服务的至少一个服务单元的可用性数据不在预设可用性范围内,则将至少一个服务单元确定为发生故障的目标服务单元,并确定故障的故障类型;以及在执行预设止损方案之后,方法还包括:响应于检测到目标服务单元的可用性数据在预设可用性范围内,执行回滚操作,以将提供云服务的服务单元,从其它服务单元切换至目标服务单元。
在这些可选的实现方式中,上述执行主体可以在确定上述云服务存在服务单元的可用性数据不在预设可用性范围内的情况下,确定上述云服务存在故障,从而确定存在故障的目标服务单元和故障类型。在止损操作之后,上述执行主体若检测到该服务单元的可用性数据在上述预设可用性范围内也即可用性恢复,则可以确定服务单元的可用性恢复,从而执行回滚操作,也即将提供云服务的至少一个服务单元,再切换回到目标服务单元。
上述执行主体可以针对单个服务单元或者针对多个服务单元进行检测,以得到可用性数据。相应地,如果上述执行主体针对上述云服务的一个服务单元,确定了该服务单元的可用性数据不在预设可用性范围内,则可以将该服务单元作为目标服务单元。可用性数据可以是利用各种参数确定的具体数值。此外,可用性数据也可以是一个定性数据,也即指示云服务(也即云服务的服务单元)是否可用的数据,比如“0”、“1”。
这些实现方式可以在提供云服务的服务单元的可用性较差的情况下,对该服务单元进行切换,确保被切换的服务单元有切换的必要性。并且,在可用性恢复的情况下,继续利用该服务单元提供云服务。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种用于处理故障的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,除下面所记载的特征外,该装置实施例还可以包括与图2所示的方法实施例相同或相应的特征或效果。该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于处理故障的装置500包括:获取单元501、故障确定单元502、预案确定单元503和止损单元504。其中,获取单元501,被配置成获取云服务的参数,其中,参数包括服务状态信息和流量;故障确定单元502,被配置成响应于确定参数不在预设参数范围内,确定云服务的发生故障的目标服务单元和故障的故障类型;预案确定单元503,被配置成基于目标服务单元和故障类型,确定故障对应的预设止损方案;止损单元504,被配置成执行预设止损方案,以将提供云服务的服务单元,从目标服务单元切换至其它服务单元。
在本实施例中,用于处理故障的装置500的获取单元501、故障确定单元502、预案确定单元503和止损单元504的具体处理及其所带来的技术效果可分别参考图2对应实施例中步骤201、步骤202、步骤203和步骤204的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,装置还包括:隔离单元,被配置成确定目标服务单元所在的故障区域,隔离故障区域。
在本实施例的一些可选的实现方式中,服务单元为服务器集群、服务器子集群或实例,服务器子集群包括至少一个服务器;服务状态信息包括实例状态信息。
在本实施例的一些可选的实现方式中,装置还包括:第一更新单元,被配置成响应于确定云服务的服务单元变更,更新预设止损方案所关联的服务单元;第二更新单元,被配置成响应于确定云服务的服务单元之间的关系变更,更新预设止损方案所关联的服务单元的止损操作,其中,服务单元之间的关系变更包括依赖关系变更。
在本实施例的一些可选的实现方式中,止损单元,进一步被配置成按照如下方式执行预设止损方案:响应于云服务的服务单元以及该服务单元之间的关系符合预设配置信息,执行预设止损方案;以及装置还包括:第三更新单元,被配置成响应于确定云服务发生了服务单元变更和/或服务单元之间的关系变更,更新预设配置信息,其中,服务单元之间的关系变更包括依赖关系变更。
在本实施例的一些可选的实现方式中,方案确定单元,进一步被配置成按照如下方式执行基于目标服务单元和故障类型,确定故障对应的预设止损方案:基于目标服务单元和故障类型,确定故障对应的候选预设止损方案,向终端输出候选预设止损方案的标识,以使终端显示候选预设止损方案的标识;响应于候选预设止损方案的数量为至少两个,且接收到终端响应于检测到对于其中一个候选预设止损方案的标识的操作所反馈的信息,将其中一个候选预设止损方案确定为故障对应的预设止损方案。
在本实施例的一些可选的实现方式中,故障确定单元,进一步被配置成按照如下方式执行确定云服务的发生故障的目标服务单元和故障的故障类型:若检测到云服务的至少一个服务单元的可用性数据不在预设可用性范围内,则将至少一个服务单元确定为发生故障的目标服务单元,并确定故障的故障类型;以及装置还包括:回滚单元,被配置成在执行预设止损方案之后,响应于检测到目标服务单元的可用性数据在预设可用性范围内,执行回滚操作,以将提供云服务的服务单元,从其它服务单元切换至目标服务单元。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例的用于处理故障的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的用于处理故障的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的用于处理故障的方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的用于处理故障的方法对应的程序指令/模块(例如,附图5所示的获取单元501、故障确定单元502、预案确定单元503和止损单元504)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的用于处理故障的方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据用于处理故障的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至用于处理故障的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
用于处理故障的方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与用于处理故障的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、故障确定单元、预案确定单元和止损单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取云服务的参数的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取云服务的参数,其中,参数包括服务状态信息和流量;响应于确定参数不在预设参数范围内,确定云服务的发生故障的目标服务单元和故障的故障类型;基于目标服务单元和故障类型,确定故障对应的预设止损方案;执行预设止损方案,以将提供云服务的服务单元,从目标服务单元切换至其它服务单元。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (16)

1.一种用于处理故障的方法,所述方法包括:
获取云服务的参数,其中,所述参数为与云服务的故障关联的参数,用于确定云服务发生的故障,所述云服务对应一个或多个服务器,所述参数包括服务状态信息和流量,流量指在提供所述云服务时所产生的数据流量,流量包括以下至少一项:服务器与终端之间的流量,服务单元之间的流量;
响应于确定所述参数不在预设参数范围内,确定所述云服务的发生故障的目标服务单元和所述故障的故障类型;
基于所述目标服务单元和所述故障类型,确定所述故障对应的预设止损方案;
执行所述预设止损方案,以将提供所述云服务的服务单元,从所述目标服务单元切换至其它服务单元。
2.根据权利要求1所述的方法,其中,所述方法还包括:
确定所述目标服务单元所在的故障区域,隔离所述故障区域。
3.根据权利要求1所述的方法,其中,服务单元为服务器集群、服务器子集群或实例,所述服务器子集群包括至少一个服务器;所述服务状态信息包括实例状态信息。
4.根据权利要求1所述的方法,其中,所述方法还包括:
响应于确定所述云服务的服务单元变更,更新所述预设止损方案所关联的服务单元;
响应于确定所述云服务的服务单元之间的关系变更,更新所述预设止损方案所关联的服务单元的止损操作,其中,所述服务单元之间的关系变更包括依赖关系变更。
5.根据权利要求1所述的方法,其中,所述执行所述预设止损方案,包括:
响应于所述云服务的服务单元以及该服务单元之间的关系符合预设配置信息,执行所述预设止损方案;以及
所述方法还包括:
响应于确定所述云服务发生了服务单元变更和/或服务单元之间的关系变更,更新所述预设配置信息,其中,所述服务单元之间的关系变更包括依赖关系变更。
6.根据权利要求1所述的方法,其中,所述基于所述目标服务单元和所述故障类型,确定所述故障对应的预设止损方案,包括:
基于所述目标服务单元和所述故障类型,确定所述故障对应的候选预设止损方案,向终端输出所述候选预设止损方案的标识,以使所述终端显示所述候选预设止损方案的标识;
响应于所述候选预设止损方案的数量为至少两个,且接收到所述终端响应于检测到对于其中一个候选预设止损方案的标识的操作所反馈的信息,将所述其中一个候选预设止损方案确定为所述故障对应的预设止损方案。
7.根据权利要求1-6之一所述的方法,其中,所述确定所述云服务的发生故障的目标服务单元和所述故障的故障类型,包括:
若检测到所述云服务的至少一个服务单元的可用性数据不在预设可用性范围内,则将所述至少一个服务单元确定为发生故障的目标服务单元,并确定所述故障的故障类型,其中,所述可用性数据是利用参数确定的具体数值,或者可用性数据是定性数据,指示云服务是否可用;以及
在所述执行所述预设止损方案之后,所述方法还包括:
响应于检测到所述目标服务单元的可用性数据在所述预设可用性范围内,执行回滚操作,以将提供所述云服务的服务单元,从所述其它服务单元切换至所述目标服务单元。
8.一种用于处理故障的装置,所述装置包括:
获取单元,被配置成获取云服务的参数,其中,所述参数为与云服务的故障关联的参数,用于确定云服务发生的故障,所述云服务对应一个或多个服务器,所述参数包括服务状态信息和流量,流量指在提供所述云服务时所产生的数据流量,流量包括以下至少一项:服务器与终端之间的流量,服务单元之间的流量;
故障确定单元,被配置成响应于确定所述参数不在预设参数范围内,确定所述云服务的发生故障的目标服务单元和所述故障的故障类型;
预案确定单元,被配置成基于所述目标服务单元和所述故障类型,确定所述故障对应的预设止损方案;
止损单元,被配置成执行所述预设止损方案,以将提供所述云服务的服务单元,从所述目标服务单元切换至其它服务单元。
9.根据权利要求8所述的装置,其中,所述装置还包括:
隔离单元,被配置成确定所述目标服务单元所在的故障区域,隔离所述故障区域。
10.根据权利要求8所述的装置,其中,服务单元为服务器集群、服务器子集群或实例,所述服务器子集群包括至少一个服务器;所述服务状态信息包括实例状态信息。
11.根据权利要求8所述的装置,其中,所述装置还包括:
第一更新单元,被配置成响应于确定所述云服务的服务单元变更,更新所述预设止损方案所关联的服务单元;
第二更新单元,被配置成响应于确定所述云服务的服务单元之间的关系变更,更新所述预设止损方案所关联的服务单元的止损操作,其中,所述服务单元之间的关系变更包括依赖关系变更。
12.根据权利要求8所述的装置,其中,所述止损单元,进一步被配置成按照如下方式执行所述预设止损方案:
响应于所述云服务的服务单元以及该服务单元之间的关系符合预设配置信息,执行所述预设止损方案;以及
所述装置还包括:
第三更新单元,被配置成响应于确定所述云服务发生了服务单元变更和/或服务单元之间的关系变更,更新所述预设配置信息,其中,所述服务单元之间的关系变更包括依赖关系变更。
13.根据权利要求8所述的装置,其中,所述预案确定单元,进一步被配置成按照如下方式执行所述基于所述目标服务单元和所述故障类型,确定所述故障对应的预设止损方案:
基于所述目标服务单元和所述故障类型,确定所述故障对应的候选预设止损方案,向终端输出所述候选预设止损方案的标识,以使所述终端显示所述候选预设止损方案的标识;
响应于所述候选预设止损方案的数量为至少两个,且接收到所述终端响应于检测到对于其中一个候选预设止损方案的标识的操作所反馈的信息,将所述其中一个候选预设止损方案确定为所述故障对应的预设止损方案。
14.根据权利要求8-13之一所述的装置,其中,所述故障确定单元,进一步被配置成按照如下方式执行所述确定所述云服务的发生故障的目标服务单元和所述故障的故障类型:
若检测到所述云服务的至少一个服务单元的可用性数据不在预设可用性范围内,则将所述至少一个服务单元确定为发生故障的目标服务单元,并确定所述故障的故障类型,其中,所述可用性数据是利用参数确定的具体数值,或者可用性数据是定性数据,指示云服务是否可用;以及
所述装置还包括:
回滚单元,被配置成在所述执行所述预设止损方案之后,响应于检测到所述目标服务单元的可用性数据在所述预设可用性范围内,执行回滚操作,以将提供所述云服务的服务单元,从所述其它服务单元切换至所述目标服务单元。
15.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202010686836.7A 2020-07-16 2020-07-16 用于处理故障的方法和装置 Active CN111865682B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010686836.7A CN111865682B (zh) 2020-07-16 2020-07-16 用于处理故障的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010686836.7A CN111865682B (zh) 2020-07-16 2020-07-16 用于处理故障的方法和装置

Publications (2)

Publication Number Publication Date
CN111865682A CN111865682A (zh) 2020-10-30
CN111865682B true CN111865682B (zh) 2023-08-08

Family

ID=72983676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010686836.7A Active CN111865682B (zh) 2020-07-16 2020-07-16 用于处理故障的方法和装置

Country Status (1)

Country Link
CN (1) CN111865682B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256498A (zh) * 2020-11-17 2021-01-22 珠海大横琴科技发展有限公司 一种故障处理的方法和装置
CN112446511A (zh) * 2020-11-20 2021-03-05 中国建设银行股份有限公司 一种故障处置方法、装置、介质及设备
CN112671665B (zh) * 2020-12-16 2023-05-30 北京百度网讯科技有限公司 智能流量调度方法、装置、设备以及存储介质
CN113032189A (zh) * 2021-03-22 2021-06-25 中国工商银行股份有限公司 一种故障域切换方法、装置和设备
CN116382967B (zh) * 2023-06-02 2023-09-12 北京国电通网络技术有限公司 用于服务器设备固件故障的自动处理方法、电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105515812A (zh) * 2014-10-15 2016-04-20 中兴通讯股份有限公司 资源的故障处理方法及装置
CN110046064A (zh) * 2018-01-15 2019-07-23 厦门靠谱云股份有限公司 一种基于故障漂移的云服务器容灾实现方法
CN111290873A (zh) * 2020-02-18 2020-06-16 北京百度网讯科技有限公司 故障处理方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105515812A (zh) * 2014-10-15 2016-04-20 中兴通讯股份有限公司 资源的故障处理方法及装置
WO2016058307A1 (zh) * 2014-10-15 2016-04-21 中兴通讯股份有限公司 资源的故障处理方法及装置
CN110046064A (zh) * 2018-01-15 2019-07-23 厦门靠谱云股份有限公司 一种基于故障漂移的云服务器容灾实现方法
CN111290873A (zh) * 2020-02-18 2020-06-16 北京百度网讯科技有限公司 故障处理方法和装置

Also Published As

Publication number Publication date
CN111865682A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN111865682B (zh) 用于处理故障的方法和装置
JP2021121956A (ja) 故障予測方法、装置、電子設備、記憶媒体、及びプログラム
CN111831512A (zh) 用于排查运维异常的方法、装置、电子设备及存储介质
GB2440069A (en) Monitoring simulating device, method, and program
CN111026572A (zh) 分布式系统的故障处理方法、装置及电子设备
JP2022033685A (ja) 堅牢性を確定するための方法、装置、電子機器、コンピュータ可読記憶媒体、及びコンピュータプログラム
CN111666217A (zh) 用于测试代码的方法和装置
US9405657B2 (en) Application architecture assessment system
CN112202613B (zh) 光缆故障处理方法、装置、设备及计算机可读存储介质
CN112491858B (zh) 检测异常信息的方法、装置、设备以及存储介质
CN110659184B (zh) 健康状态检查方法、装置及系统
CN114978923B (zh) 故障演练方法、装置和系统
CN114647531B (zh) 故障解决方法、故障解决系统、电子设备及存储介质
CN115102838B (zh) 服务器宕机风险的应急处理方法和装置、电子设备
CN113821232B (zh) 模型更新方法和装置
CN114116288A (zh) 故障处理方法、装置及计算机程序产品
CN112817686B (zh) 检测虚拟机异常的方法、装置、设备和计算机存储介质
CN111599174B (zh) 一种交通指标的异常检测方法和电子设备
JP2013164703A (ja) 電力センサ自動診断システム
JP2021093115A (ja) 局所的ホットスポットを処理する方法、装置、電子デバイス及び記憶媒体
JP2009059204A (ja) コンピュータリモート制御システム
US11362885B2 (en) Method, apparatus, device and readable medium for disaster recovery processing for infrastructure areas
CN113391962B (zh) 离线数据测试方法、离线数据测试装置和电子设备
CN110519393B (zh) 自助设备的监管方法、装置、设备、服务器和介质
CN115480953A (zh) 服务部署方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant