CN118132313A - 微服务应用的故障处理方法、装置、电子设备及存储介质 - Google Patents
微服务应用的故障处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN118132313A CN118132313A CN202410317242.7A CN202410317242A CN118132313A CN 118132313 A CN118132313 A CN 118132313A CN 202410317242 A CN202410317242 A CN 202410317242A CN 118132313 A CN118132313 A CN 118132313A
- Authority
- CN
- China
- Prior art keywords
- micro
- service application
- fault
- emergency plan
- alarm event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 238000000034 method Methods 0.000 claims abstract description 56
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 abstract description 10
- 238000011084 recovery Methods 0.000 abstract description 7
- 238000007726 management method Methods 0.000 description 62
- 238000012423 maintenance Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 13
- 238000013475 authorization Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000002071 nanotube Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/51—Discovery or management thereof, e.g. service location protocol [SLP] or web services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Debugging And Monitoring (AREA)
Abstract
本公开提供一种微服务应用的故障处理方法、装置、电子设备及存储介质,涉及自动化监控恢复技术领域,首先按照微服务应用的故障级别,生成报警事件;进而确定与报警事件相匹配的应急预案实例;进一步执行应急预案实例。本公开可以通过报警事件触发应用预案实例执行,以此实现微服务应用的自动化应急和自我恢复,解决现有情况下人工无法对已知场景故障进行及时应急恢复的问题。
Description
技术领域
本公开涉及自动化监控恢复技术领域,更具体地说,涉及一种微服务应用的故障处理方法、装置、电子设备及存储介质。
背景技术
随着互联网的发展已经很难满足市场对技术的需求,从单独架构发展到分布式架构,又从分布式架构发展到SOA(Service Oriented Architecture,面向服务的架构),服务不断的被拆分和分解,粒度也越来越小,直到微服务的诞生。微服务是真正的分布式的、去中心化的。
面对众多的微服务应用,持续集成与持续部署在云平台上统一管理,服务监控则由监控报警系统负责。这些平台、系统对微服务应用的日常的操作有了很好的支持,但对于某些场景的,例如微服务应用的应急处理和自我修复则支持的不是很好。
因此,如何对微服务应用的自动化应急和自我修复,成为现阶段亟需解决的问题。
发明内容
有鉴于此,为解决上述问题,本公开提供一种微服务应用的故障处理方法、装置、电子设备及存储介质,技术方案如下:
一种微服务应用的故障处理方法,所述微服务应用的故障处理方法包括:
按照微服务应用的故障级别,生成报警事件;
确定与所述报警事件相匹配的应急预案实例;
执行所述应急预案实例。
优选的,所述按照微服务应用的故障级别,生成报警事件,包括:
通过扫描错误日志确定所述微服务应用的故障类型;
确定所述故障类型对应的故障级别,并在所述故障级别满足对应的高级别条件的情况下,从所述错误日志中提取故障信息;
根据所述故障信息生成报警事件。
优选的,所述确定与所述报警事件相匹配的应急预案实例,包括:
调取知识库,所述知识库中包含所述微服务应用的所有的应急预案实例;
提取所述报警事件的故障关键字;
根据所述故障关键字从所述知识库中检索相匹配的应急预案实例。
优选的,所述微服务应用的故障处理方法还包括:
对所述知识库中所述微服务应用的目标应急预案实例进行管理操作。
优选的,所述对所述知识库中所述微服务应用的目标应急预案实例进行管理操作,包括:
接收管理者对所述微服务应用的第一管理请求,从所述第一管理请求中解析获得第一认证令牌;
调取所述微服务应用预先部署时的第二认证令牌,对比所述第一认证令牌和第二认证令牌;
如果所述第一认证令牌与所述第二认证令牌不同,则返回拒绝响应所述第一管理请求的提示信息;
如果所述第一认证令牌与所述第二认证令牌相同,则响应所述第一管理请求,获取所述管理者的角色信息,并返回所述微服务应用下各应急预案实例的与所述角色信息相匹配的配置项;
响应所述管理者对所述目标应急预案实例的配置项的第二管理请求。
优选的,所述应急预案实例包括接口参数和业务参数;
调用与所述接口参数相对应的业务接口,并通过所述业务接口对所述微服务应用配置所述业务参数。
一种微服务应用的故障处理装置,所述微服务应用的故障处理装置包括:
事件生成模块,用于按照微服务应用的故障级别,生成报警事件;
事件管理模块,用于确定与所述报警事件相匹配的应急预案实例;
应急执行模块,用于执行所述应急预案实例。
优选的,所述事件生成模块,具体用于:
通过扫描错误日志确定所述微服务应用的故障类型;确定所述故障类型对应的故障级别,并在所述故障级别满足对应的高级别条件的情况下,从所述错误日志中提取故障信息;根据所述故障信息生成报警事件。
一种电子设备,所述电子设备包括:至少一个存储器和至少一个处理器;所述存储器存储有应用程序,所述处理器调用所述存储器存储的应用程序,所述应用程序用于实现所述的微服务应用的故障处理方法。
一种存储介质,所述存储介质存储有计算机程序代码,所述计算机程序代码执行时实现所述的微服务应用的故障处理方法。
相较于现有技术,本公开实现的有益效果为:
本公开提供一种微服务应用的故障处理方法、装置、电子设备及存储介质,首先按照微服务应用的故障级别,生成报警事件;进而确定与报警事件相匹配的应急预案实例;进一步执行应急预案实例。本公开可以通过报警事件触发应用预案实例执行,以此实现微服务应用的自动化应急和自我恢复,解决现有情况下人工无法对已知场景故障进行及时应急恢复的问题。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1为本公开实施例提供的微服务应用的故障处理方法的方法流程图;
图2为本公开实施例提供的微服务应用的故障处理方法的部分方法流程图;
图3为本公开实施例提供的微服务应用的故障处理方法的另一部分方法流程图;
图4为本公开实施例提供的微服务应用的故障处理装置的结构示意图;
图5为本公开实施例提供的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
为方便理解本公开,以下首先对本公开涉及的相关概念进行说明:
云平台:云平台是一种基于云计算技术构建的软件和服务平台,它提供了一种可靠、灵活、可扩展的方式来构建、部署和管理应用程序和服务。通常包括计算、存储、网络、数据库、安全、分析和其他相关服务,这些服务可通过互联网进行访问和管理,用户可以根据自己的需要来选择和配置。是以容器为资源调度和隔离的单位,用于构建、发布和运行分布式容器化应用的分布式平台。
监控报警系统:用于监控系统状态,发送通知信息的系统。
应用运维系统:进行系统巡检、容量分析和日志数据查询等运维服务的系统;提供任务调度、配置管理、自动化部署和节点管控等运维管理功能;提供运维工具的集中管理,为维护人员提供统一的操作台。
云平台配置中心:配置中心是将配置从应用中抽取出来,进行统一管理的云平台基础服务组件。它解决了配置的动态变更、权限管理、持久化、运维成本等问题,配置与应用程序隔离开来,单独进行管理。在系统架构中,配置中心是整个微服务基础架构体系中的一个组件,它的功能虽然看似并不起眼,但却不可或缺。
交付平台:交付平台用于管理和监督产品或服务的交付过程。它是一个云服务平台(PaaS)、一个基础设施即服务(IaaS)环境。交付平台的主要目的是为了使开发人员能够更快、更高效地交付成果,并使项目能够在整个生命周期中进行更好的管理。
参见图1,图1为本公开实施例提供的微服务应用的故障处理方法的方法流程图,该微服务应用的故障处理方法可以应用于应用运维系统,如图1所示,该微服务应用的故障处理方法包括如下步骤:
S10,按照微服务应用的故障级别,生成报警事件。
具体的,本公开实施例中,可以通过监控报警系统对微服务应用的故障进行监控报警,具体的,按照可以将报警信息按照故障级别进行划分,对高级别报警进行诸如邮件和短信通知,并且,高级别报警可以触发事件管理组件生成报警事件,
具体的,微服务应用可以根据自身情况设置不同故障级别的报警规则,普通报警为低级别、需要操作排查处理的报警为高级别,比如下游应用异常不可用,将此报警信息设置为最高故障级别,当触发该报警规则时,发送邮件电话通知,同时给事件管理组件推送一条事件信息。
具体实现过程中,步骤S10“按照微服务应用的故障级别,生成报警事件”可以采用如下步骤,方法流程图如图2所示:
S101,通过扫描错误日志确定微服务应用的故障类型。
本公开实施例中,可以对微服务应用的错误日志进行监管,梳理其各类错误关键字,设置告警规则表达式,该告警规则表达式用于记录触发不同级别报警的监控规则。通过告警规则表达式可以对微服务应用的错误日志进行监控,以识别其故障类型,进而触发相应级别的报警。举例来说,微服务应用A的CPU(Central Processing Unit,中央处理器)使用率达到50%时触发低级别的报警(比如邮件、短信等),达到60%触发高级别报警(比如电话等)。
S102,确定故障类型对应的故障级别,并在故障级别满足对应的高级别条件的情况下,从错误日志中提取故障信息。
本公开实施例中,在故障级别属于高级别的报警时,可以从错误日志中提取该故障类型对应的故障信息,比如报警发生的具体时间、错误日志详情(即错误日志中关键字段的信息)、关联的任务编号等。
S103,根据故障信息生成报警事件。
本公开实施例中,在获得故障信息之后,可以基于故障信息生成报警事件。
S20,确定与报警事件相匹配的应急预案实例。
本公开实施例中,事件管理组件在获得报警事件之后,可以根据其中的故障信息关联微服务应用的关键字,通过关键字查找已录入的应急预案实例,并触发应急执行。其中,应急预案实例中记录有不同应急场景下的应急预案(包括操作步骤和处置操作方法)、可关联处理对于场景的运维工具,相应的,在执行应急预案实例时,可以根据其中记录的应急预案调用对于的运维工具完成自动应急操作,这就保证了设置的灵活性。
实际应用中,可以通过部署一个知识库的检索引擎来检索与报警事件相匹配的应急预案实例。具体实现过程中,步骤S20“确定与报警事件相匹配的应急预案实例”可以采用如下步骤,方法流程图如图3所示:
S201,调取知识库,知识库中包含微服务应用的所有的应急预案实例。
S202,提取报警事件的故障关键字。
S203,根据故障关键字从知识库中检索相匹配的应急预案实例。
具体的,本公开实施例中,知识库中记录有所有纳管的微服务应用已知的故障关键字,以及对应的应急预案、可关联处理对于场景的运维工具。
报警事件中可以包含报警发生的具体时间、错误日志详情(即错误日志中关键字段的信息)、关联的任务编号以及知识编号等。对此,在从报警事件的错误日志详情中提取到关键字段(即故障关键字)后,可以基于该故障关键字从知识库中检索相匹配的应急预案实例,以其中记录的应急预案调用对于的运维工具完成自动应急操作。
需要说明的是,在知识库中部署不同报警事件的应急预案实例时,不同报警事件可以关联同一个应急预案实例、而同一个报警事件也可以关联多个应急预案实例,本公开实施例对此不做限定。
此外,本公开实施例还支持对知识库中的应急预案实例进行诸如查询、配置、修改、删除等管理操作。对此,本公开实施例还包括如下步骤:
对知识库中微服务应用的目标应急预案实例进行管理操作。
具体的,本公开实施例中,目标应急预案实例为知识库中待执行管理操作的应急预案实例。在应用软件层面,本公开实施例做了云平台配置中心与软件的权限校验,对微服务应用的业务参数或者动态参数可定制化配置。而在修改工具组件层面,还细分了用户授权,比如谁可见、谁可改、哪些权限组可见和可改,不同环境的管理进行细化的设置,定位到具体的每一条参数的授权管理。
具体的,本公开实施例中,步骤“对知识库中微服务应用的目标应急预案实例进行管理操作”可以采用如下步骤:
接收管理者对微服务应用的第一管理请求,从第一管理请求中解析获得第一认证令牌;调取微服务应用预先部署时的第二认证令牌,对比第一认证令牌和第二认证令牌;如果第一认证令牌与第二认证令牌不同,则返回拒绝响应第一管理请求的提示信息;如果第一认证令牌与第二认证令牌相同,则响应第一管理请求,获取管理者的角色信息,并返回微服务应用下各应急预案实例的与角色信息相匹配的配置项;响应管理者对目标应急预案实例的配置项的第二管理请求。
本公开实施例中,云平台配置中心可以提供两个接口,包括查询接口和配置更新接口,通过这些接口可以用于查询和更新目标应急预案实例的配置项。具体的,微服务应用开发需要开发运维服务,以供管理者对目标应急预案实例的配置项进行应急变更。
在应急变更过程中,通常需要进行配置项查询和变更,而在进行这些操作时,需要调用云平台配置中心的接口,并传入与微服务应用在部署时相同的token(即认证令牌)。对此,接收到管理者的第一管理请求时,可以从中解析获得微服务应用的认证令牌,即第一认证令牌,并调取微服务应用在部署时所设置的认证令牌,即第二认证令牌,并进一步对比第一认证令牌和第二认证令牌。
如果第一认证令牌与第二认证令牌不同,则云平台配置中心将认定管理者无权查询或更新配置项,此时,可以返回提示信息,以提示管理者拒绝响应该第一管理请求。这就实现了权限校验。
如果第一认证令牌与第二认证令牌相同,则响应第一管理请求,获取管理者的角色信息,并返回微服务应用下各应急预案实例的与该角色信息相匹配的配置项,并响应管理者对目标应急预案实例的配置项的第二管理请求,实现配置项的动态参数的查询或修改等管理操作。
在交付平台进行动态参数配置时,可以通过“应用管理-自己的应用名”对管理者进行配置项应急修改的授权或者取消权限操作,授权操作会弹窗提示是否授权成功,取消权限操作则不会进行弹窗操作。而管理者在通过运维服务调用查询接口时,可以查询微服务应用所有允许应急修改的配置项。
具体的,为了实现动态参数管理功能,可以设置用户授权管理、动态参数配置和动态参数管理,这三个功能。其中,用户授权管理的实现方式包括配置授权类型和向用户授予权限;
动态参数配置的实现方式包括针对不同环境设置单独存储环境、选择环境并查询加载该环境的相关配置、配置运维服务接口(即查询接口和配置更新接口)、首次载入环境时将所有配置项标记为“新增”状态,后续通过配置实现不同环境不同角色的访问控制、将环境系统、参数名称、参数类型和授权类型保存到应用运维系统数据库中,并在后续再次载入时比对应用运维系统数据库中的数据和运维服务接口查询的参数信息,对参数信息进行修正。
动态参数管理的实现方式包括选择环境并查询加载该环境在动态参数配置中保存的相关数据、结合应用运维系统中保存的参数信息和运维接口返回完整数据(主要是数据信息),并根据动态参数配置中设置的用户授权信息过滤页面上显示的参数项目。修改某条动态参数的数据,调用动态参数配置中的运维服务,实现对配置中心该配置项的修改。
对应急场景配置时,可以在应用运维系统的应急预案管理中编排完整的应急预案实例,在应急预案中配置出现某种应急场景时调用前面提到的动态参数管理来设置某个动态参数的配置项。当监控报警系统触发报警事件时,自动触发该应急场景的应急预案实例执行。另外,本公开实施例还提供通过某种应急配置的动态参数修改实现关闭关联系统调用的功能。
实际应用中,微服务云化应用的开发者为应用的一些故障场景设置了动态参数开关,修改后在不重启应用的情况下立即生效,以此来满足一些对处理时间要求较高的场景。本公开实施例可以能够实现不登录应用部署管理平台的前提下对指定的动态参数进行修改,完成应急操作,也能在应用新能不足时,自动扩充pod容器数量。
S30,执行应急预案实例。
本公开实施例中,应急预案实例的动态参数包括接口参数和业务参数,对此,在执行应急预案实例时,可以调用接口参数相对应的业务接口,比如API接口(ApplicationProgramming Interface,应用程序编程接口),并通过业务接口对微服务应用配置业务参数,比如pod容器扩容、重启等k8s的操作。以此实现中断业务服务或者降级服务或者某些定制需求场景的处理。
为方便理解,本公开实施例以pod容器扩容为例进行说明。在云平台上,实例指的是运行中的虚拟资源。为了获取实例数量的信息,常见的查询方式是通过云平台的控制台界面进行查询。云平台提供了直观的控制台界面,使用户能够方便地查看和管理各种资源实例。在控制台界面上,可以查询到不同资源类型的实例数量。此外,云平台还提供了API接口,使用户能够通过编程方式查询实例数量。当云平台的实例数无法满足用户需求时,就需要进行pod容器扩容以增加更多的实例,从而提高云平台的性能和容量。通过API接口的编程方式,可以加入自动判断节点扩容数量的参数,实现高效的节点扩容。
经由以上描述,本公开实施例提供的微服务应用的故障处理方法,可以将监控报警、事件管理、应急预案管理各环节关联起来实现微服务应用自动化应急和自我修复,通过云平台接口封装和运维平台的流程管理,可以兼容不同应用的多样性,完成多种类型应用的自动化应急恢复工作。接口采用插件的形式由应用集成部署,可针对各应用自身应急操作的需求进行定制。本公开中使用动态参数自定义选择功能,通过封装的接口获取,根据应急预案实例的操作编排,由报警事件触发,调用应急预案实例执行参数修改,从而实现应用的自动化应急恢复,解决了现有情况下人工无法对已知场景故障进行及时应急恢复的问题。
本公开可以兼容云平台应用的多样性,可以完成多种类型应用的报警故障自愈操作。本发明拥有以下优点:一、可兼容多类型应用,解决了一些对处理时间要求较高的场景应急操作。本发明中对多种运维手段进行了整合,通过对这些整合化的组件进行关联配置,即可实现应用的自动化应急恢复。二、可灵活配置,组件采用平台集成的形式,可针对不同的应用应急场景进行定制,随时增加新场景或修改操作方法。
需要说明的是,附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
基于上述实施例提供的微服务应用的故障处理方法,本公开实施例则对应提供执行上述微服务应用的故障处理方法的装置,该装置的结构示意图如图4所示,包括:
事件生成模块10,用于按照微服务应用的故障级别,生成报警事件;
事件管理模块20,用于确定与报警事件相匹配的应急预案实例;
应急执行模块30,用于执行应急预案实例。
可选的,事件生成模块10,具体用于:
通过扫描错误日志确定微服务应用的故障类型;确定故障类型对应的故障级别,并在故障级别满足对应的高级别条件的情况下,从错误日志中提取故障信息;根据故障信息生成报警事件。
可选的,事件管理模块20,具体用于:
调取知识库,知识库中包含微服务应用的所有的应急预案实例;提取报警事件的故障关键字;根据故障关键字从知识库中检索相匹配的应急预案实例。
可选的,事件管理模块20,还用于:
对知识库中微服务应用的目标应急预案实例进行管理操作。
可选的,用于对知识库中微服务应用的目标应急预案实例进行管理操作的事件管理模块20,具体用于:
接收管理者对微服务应用的第一管理请求,从第一管理请求中解析获得第一认证令牌;调取微服务应用预先部署时的第二认证令牌,对比第一认证令牌和第二认证令牌;如果第一认证令牌与第二认证令牌不同,则返回拒绝响应第一管理请求的提示信息;如果第一认证令牌与第二认证令牌相同,则响应第一管理请求,获取管理者的角色信息,并返回微服务应用下各应急预案实例的与角色信息相匹配的配置项;响应管理者对目标应急预案实例的配置项的第二管理请求。
可选的,应急预案实例包括接口参数和业务参数;应急执行模块30,具体用于:
调用与接口参数相对应的业务接口,并通过业务接口对微服务应用配置业务参数。
需要说明的是,本公开实施例中事件生成模块10、事件管理模块20、应急执行模块30的细化功能可以参见上述微服务应用的故障处理方法实施例对应公开部分,在此不再赘述。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
基于上述实施例提供的微服务应用的故障处理方法,本公开实施例还提供一种电子设备,电子设备包括:至少一个存储器和至少一个处理器;存储器存储有应用程序,处理器调用存储器存储的应用程序,应用程序用于实现微服务应用的故障处理方法。
下面参考图5,其示出了适于用来实现本公开实施例的电子设备500的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置509加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
通常,以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507;包括例如磁带、硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
基于上述实施例提供的微服务应用的故障处理方法,本公开实施例还提供一种存储介质,存储介质存储有计算机程序代码,计算机程序代码执行时实现微服务应用的故障处理方法。
在本公开的上下文中,存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。存储介质可以是机器可读信号介质或机器可读储存介质。存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
需要说明的是,本公开上述的存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何存储介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述存储介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
根据本公开的一个或多个实施例,提供了一种微服务应用的故障处理方法,微服务应用的故障处理方法包括:
按照微服务应用的故障级别,生成报警事件;
确定与报警事件相匹配的应急预案实例;
执行应急预案实例。
根据本公开的一个或多个实施例,提供了一种微服务应用的故障处理方法,按照微服务应用的故障级别,生成报警事件,包括:
通过扫描错误日志确定微服务应用的故障类型;
确定故障类型对应的故障级别,并在故障级别满足对应的高级别条件的情况下,从错误日志中提取故障信息;
根据故障信息生成报警事件。
根据本公开的一个或多个实施例,提供了一种微服务应用的故障处理方法,确定与报警事件相匹配的应急预案实例,包括:
调取知识库,知识库中包含微服务应用的所有的应急预案实例;
提取报警事件的故障关键字;
根据故障关键字从知识库中检索相匹配的应急预案实例。
根据本公开的一个或多个实施例,提供了一种微服务应用的故障处理方法,微服务应用的故障处理方法还包括:
对知识库中微服务应用的目标应急预案实例进行管理操作。
根据本公开的一个或多个实施例,提供了一种微服务应用的故障处理方法,对知识库中微服务应用的目标应急预案实例进行管理操作,包括:
接收管理者对微服务应用的第一管理请求,从第一管理请求中解析获得第一认证令牌;
调取微服务应用预先部署时的第二认证令牌,对比第一认证令牌和第二认证令牌;
如果第一认证令牌与第二认证令牌不同,则返回拒绝响应第一管理请求的提示信息;
如果第一认证令牌与第二认证令牌相同,则响应第一管理请求,获取管理者的角色信息,并返回微服务应用下各应急预案实例的与角色信息相匹配的配置项;
响应管理者对目标应急预案实例的配置项的第二管理请求。
根据本公开的一个或多个实施例,提供了一种微服务应用的故障处理方法,应急预案实例包括接口参数和业务参数;
调用与接口参数相对应的业务接口,并通过业务接口对微服务应用配置业务参数。
根据本公开的一个或多个实施例,提供了一种微服务应用的故障处理装置,微服务应用的故障处理装置包括:
事件生成模块,用于按照微服务应用的故障级别,生成报警事件;
事件管理模块,用于确定与报警事件相匹配的应急预案实例;
应急执行模块,用于执行应急预案实例。
根据本公开的一个或多个实施例,提供了一种微服务应用的故障处理装置,事件生成模块,具体用于:
通过扫描错误日志确定微服务应用的故障类型;确定故障类型对应的故障级别,并在故障级别满足对应的高级别条件的情况下,从错误日志中提取故障信息;根据故障信息生成报警事件。
根据本公开的一个或多个实施例,提供了一种电子设备,电子设备包括:至少一个存储器和至少一个处理器;存储器存储有应用程序,处理器调用存储器存储的应用程序,应用程序用于实现微服务应用的故障处理方法。
根据本公开的一个或多个实施例,提供了一种存储介质,所述存储介质存储有计算机程序代码,所述计算机程序代码执行时实现微服务应用的故障处理方法。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种微服务应用的故障处理方法,其特征在于,所述微服务应用的故障处理方法包括:
按照微服务应用的故障级别,生成报警事件;
确定与所述报警事件相匹配的应急预案实例;
执行所述应急预案实例。
2.根据权利要求1所述的微服务应用的故障处理方法,其特征在于,所述按照微服务应用的故障级别,生成报警事件,包括:
通过扫描错误日志确定所述微服务应用的故障类型;
确定所述故障类型对应的故障级别,并在所述故障级别满足对应的高级别条件的情况下,从所述错误日志中提取故障信息;
根据所述故障信息生成报警事件。
3.根据权利要求1所述的微服务应用的故障处理方法,其特征在于,所述确定与所述报警事件相匹配的应急预案实例,包括:
调取知识库,所述知识库中包含所述微服务应用的所有的应急预案实例;
提取所述报警事件的故障关键字;
根据所述故障关键字从所述知识库中检索相匹配的应急预案实例。
4.根据权利要求3所述的微服务应用的故障处理方法,其特征在于,所述微服务应用的故障处理方法还包括:
对所述知识库中所述微服务应用的目标应急预案实例进行管理操作。
5.根据权利要求4所述的微服务应用的故障处理方法,其特征在于,所述对所述知识库中所述微服务应用的目标应急预案实例进行管理操作,包括:
接收管理者对所述微服务应用的第一管理请求,从所述第一管理请求中解析获得第一认证令牌;
调取所述微服务应用预先部署时的第二认证令牌,对比所述第一认证令牌和第二认证令牌;
如果所述第一认证令牌与所述第二认证令牌不同,则返回拒绝响应所述第一管理请求的提示信息;
如果所述第一认证令牌与所述第二认证令牌相同,则响应所述第一管理请求,获取所述管理者的角色信息,并返回所述微服务应用下各应急预案实例的与所述角色信息相匹配的配置项;
响应所述管理者对所述目标应急预案实例的配置项的第二管理请求。
6.根据权利要求1所述的微服务应用的故障处理方法,其特征在于,所述应急预案实例包括接口参数和业务参数;
调用与所述接口参数相对应的业务接口,并通过所述业务接口对所述微服务应用配置所述业务参数。
7.一种微服务应用的故障处理装置,其特征在于,所述微服务应用的故障处理装置包括:
事件生成模块,用于按照微服务应用的故障级别,生成报警事件;
事件管理模块,用于确定与所述报警事件相匹配的应急预案实例;
应急执行模块,用于执行所述应急预案实例。
8.根据权利要求7所述的微服务应用的故障处理装置,其特征在于,所述事件生成模块,具体用于:
通过扫描错误日志确定所述微服务应用的故障类型;确定所述故障类型对应的故障级别,并在所述故障级别满足对应的高级别条件的情况下,从所述错误日志中提取故障信息;根据所述故障信息生成报警事件。
9.一种电子设备,其特征在于,所述电子设备包括:至少一个存储器和至少一个处理器;所述存储器存储有应用程序,所述处理器调用所述存储器存储的应用程序,所述应用程序用于实现权利要求1-6任意一项所述的微服务应用的故障处理方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序代码,所述计算机程序代码执行时实现权利要求1-6任意一项所述的微服务应用的故障处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410317242.7A CN118132313A (zh) | 2024-03-19 | 2024-03-19 | 微服务应用的故障处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410317242.7A CN118132313A (zh) | 2024-03-19 | 2024-03-19 | 微服务应用的故障处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118132313A true CN118132313A (zh) | 2024-06-04 |
Family
ID=91246177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410317242.7A Pending CN118132313A (zh) | 2024-03-19 | 2024-03-19 | 微服务应用的故障处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118132313A (zh) |
-
2024
- 2024-03-19 CN CN202410317242.7A patent/CN118132313A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111488285B (zh) | 接口测试方法、装置、电子设备及计算机可读存储介质 | |
CN108351772A (zh) | 跨应用实例的标识符 | |
CN112416616B (zh) | 一种微服务调用方法、装置、电子设备及存储介质 | |
CN111274503B (zh) | 数据处理的方法、装置、电子设备及计算机可读介质 | |
GB2513528A (en) | Method and system for backup management of software environments in a distributed network environment | |
CN111949831A (zh) | 一种图形数据库建立方法和装置、可读存储介质 | |
CN113553178A (zh) | 任务处理方法、装置和电子设备 | |
CN110795331A (zh) | 软件测试的方法和装置 | |
CN113377626A (zh) | 基于服务树的可视化统一报警方法、装置、设备和介质 | |
CN111240998A (zh) | 测试用例处理方法和装置 | |
CN118132313A (zh) | 微服务应用的故障处理方法、装置、电子设备及存储介质 | |
US20240086045A1 (en) | Information processing method and apparatus, terminal, and storage medium | |
CN112448909A (zh) | 电子锁管理方法、装置、系统及存储介质 | |
CN111538717B (zh) | 数据处理的方法、装置、电子设备及计算机可读介质 | |
CN111324386B (zh) | 分身应用程序的启动方法、装置、电子设备及存储介质 | |
CN114064983A (zh) | 数据的存储结构、使用方法、存储方法及相关设备 | |
CN112182080A (zh) | 数据集成系统和基于数据集成系统的数据处理方法 | |
CN117785977B (zh) | 元数据的采集方法、装置及设备 | |
CN115878586B (zh) | Ipfs存储封装方法、装置、电子设备及可读存储介质 | |
CN112615918B (zh) | 网络管理系统及其信息同步方法 | |
CN114900531B (zh) | 数据同步方法、装置和系统 | |
CN114936046A (zh) | Web服务公共组件的拓展方法、装置、电子设备及存储介质 | |
CN112084003B (zh) | 一种隔离数据的方法、装置、介质和电子设备 | |
CN110262756B (zh) | 用于缓存数据的方法和装置 | |
US11882124B1 (en) | Account integration with an event-driven application programing interface call manager |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |