CN116467113A - 异常处理方法、装置、电子设备及计算机可读存储介质 - Google Patents

异常处理方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN116467113A
CN116467113A CN202310733912.9A CN202310733912A CN116467113A CN 116467113 A CN116467113 A CN 116467113A CN 202310733912 A CN202310733912 A CN 202310733912A CN 116467113 A CN116467113 A CN 116467113A
Authority
CN
China
Prior art keywords
application
public
component
exception handling
exception
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310733912.9A
Other languages
English (en)
Other versions
CN116467113B (zh
Inventor
张良
毛艳清
段小勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Fulian Hangzhou Data Technology Co ltd
Shenzhen Fulian Fugui Precision Industry Co Ltd
Original Assignee
Industrial Fulian Hangzhou Data Technology Co ltd
Shenzhen Fulian Fugui Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial Fulian Hangzhou Data Technology Co ltd, Shenzhen Fulian Fugui Precision Industry Co Ltd filed Critical Industrial Fulian Hangzhou Data Technology Co ltd
Priority to CN202310733912.9A priority Critical patent/CN116467113B/zh
Publication of CN116467113A publication Critical patent/CN116467113A/zh
Application granted granted Critical
Publication of CN116467113B publication Critical patent/CN116467113B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

一种异常处理方法、装置、电子设备及计算机可读存储介质,该异常处理方法包括:对公共组件的预设关键指标进行监控,确定所述公共组件是否发生异常;所述公共组件运行于节点服务器,所述节点服务器与应用服务器通信连接,所述公共组件用于为所述应用服务器中部署的应用提供服务;若监控到所述公共组件发生异常,获取所述公共组件的异常类型;确定与所述异常类型匹配的异常处理策略;基于所述异常处理策略处理所述公共组件发生的异常。本申请能够自动对异常进行预处理,提高异常处理的及时性,从而提高公共组件的可用性以及应用系统的业务稳定性。

Description

异常处理方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及计算机技术领域,具体涉及一种异常处理方法、装置、电子设备及计算机可读存储介质。
背景技术
公共组件是介于应用系统和系统软件之间的一类软件。系统公共组件所提供的基础服务(功能)能够衔接应用系统的各个部分或不同的应用,以实现资源共享、功能共享的目的,从而减少系统软件的资源使用量。
当公共组件出现问题,会导致所有使用该公共组件的应用系统的业务都会受到影响,在该情况下,需要通知对应的人员处理公共组件出现的问题,以使得业务能够恢复使用。
然而,上述方法费时费力,可能会导致公共组件的可用性较低,进而导致应用系统的业务稳定性较低。
发明内容
鉴于上述,本申请提供一种异常处理方法、装置、电子设备及计算机可读存储介质,能够提高公共组件的可用性以及应用系统的业务稳定性。
本申请一实施方式提供一种异常处理方法,包括:对公共组件的预设关键指标进行监控,确定所述公共组件是否发生异常;所述公共组件运行于节点服务器,所述节点服务器与应用服务器通信连接,所述公共组件用于为所述应用服务器中部署的应用提供服务;若监控到所述公共组件发生异常,获取所述公共组件的异常类型;确定与所述异常类型匹配的异常处理策略;基于所述异常处理策略处理所述公共组件发生的异常。
采用该技术方案,对公共组件进行监控,可以及时发现公共组件的异常,并确定与异常匹配的异常处理策略,以尽可能基于异常处理策略及时解决公共组件所发生的异常,从而提升公共组件的可用性,提高应用系统的业务稳定性。
在一些实施例中,基于所述异常处理策略处理所述公共组件发生的异常,包括:在所述异常类型为公共组件资源不足的情况下,获取使用所述公共组件的各应用;获取所述各应用当前对组件资源的资源需求等级;基于所述各应用的资源需求等级和所述各应用占用的组件资源,确定待释放的目标组件资源;释放所述目标组件资源。
采用该技术方案,基于资源需求等级释放组件资源,可以使得资源需求等级高的应用能够优先占用组件资源,进一步满足应用的业务需求。
在一些实施例中,基于所述各应用的资源需求等级和所述各应用占用的组件资源,确定待释放的目标组件资源,包括:若存在新接入的应用,在最低资源需求等级对应的应用所占用的组件资源中,确定所述目标组件资源;若存在相同资源需求等级的应用抢占资源,将相同资源需求等级的应用中所占组件资源最多的应用作为目标应用;在目标应用所占的组件资源中确定所述目标组件资源。
采用该技术方案,可以缓解组件资源抢占的情况,能够在释放组件资源的情况下,尽量使得公共组件能够为应用提供更稳定的服务。
在一些实施例中,在所述在最低资源需求等级对应的应用所占用的组件资源中,确定所述目标组件资源之前,还包括:将所述新接入的应用的资源需求等级设置为最低优先级。
采用该技术方案,可以减少因新接入应用导致历史接入的应用不能使用组件资源的情况,进而提高应用使用公共组件的稳定性。
在一些实施例中,节点服务器用于为所述公共组件提供节点服务,所述基于所述异常处理策略处理所述公共组件发生的异常,包括:在异常类型为节点服务进程异常的情况下,控制所述节点服务器进行限流处理,及控制所述节点服务器重启所述节点服务进程;在异常类型为节点心跳链路状态异常的情况下,若节点服务正常,重新监测所述节点服务器的心跳链路状态。
在一些实施例中,异常处理策略包括异常的告警级别,所述基于所述异常处理策略处理所述公共组件发生的异常,包括:基于异常处理策略确定异常的告警级别,所述告警级别表征异常的严重程度;基于所述告警级别进行告警提示。
采用该技术方案,进行不同级别的告警提示,便于用户基于异常严重程度进行异常处理。
在一些实施例中,若监控到所述公共组件未发生异常,获取接入所述公共组件的应用的服务质量等级;基于所述应用的服务质量等级和应用的资源需求,确定所述应用的最小分配资源量和所述应用的最大分配资源量;基于所述最小分配资源量和所述最大分配资源量为所述应用分配组件资源。
采用该技术方案,满足应用的服务质量需求,进一步提高应用业务的可用性。
本申请一实施方式提供一种异常处理装置,包括:监控模块,用于对公共组件的预设关键指标进行监控,确定所述公共组件是否发生异常;所述公共组件运行于节点服务器,所述节点服务器与应用服务器通信连接,所述公共组件用于为所述应用服务器中部署的应用提供服务;获取模块,用于若监控到所述公共组件发生异常,获取所述公共组件的异常类型;处理模块,用于确定与所述异常类型匹配的异常处理策略,以及基于所述异常处理策略处理所述公共组件发生的异常。
本申请一实施方式提供一种电子设备,所述电子设备包括处理器及存储器,所述存储器用于存储指令,所述处理器用于调用所述存储器中的指令,使得所述电子设备执行上述的异常处理方法。
本申请一实施方式提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行上述的异常处理方法。
附图说明
图1是本申请一实施例提供的异常处理系统的场景示意图;
图2是本申请一实施例提供的异常处理方法的步骤流程图;
图3是本申请一实施例提供的步骤204的子步骤流程图;
图4是本申请一实施例提供的异常处理装置的结构示意图;
图5是本申请电子设备一实施例的结构示意图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施方式及实施方式中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,所描述的实施方式仅是本申请一部分实施方式,而不是全部的实施方式。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本申请。
进一步需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
本申请中“至少一个”是指一个或者多个,“多个”是指两个或多于两个。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不是用于描述特定的顺序或先后次序。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
本申请实施例提供一种异常处理方法、装置、电子设备及计算机可读存储介质,以下分别进行详细说明。
请参阅图1所示,图1为本申请实施例所提供的异常处理系统的场景示意图,该异常处理系统可以包括集成有异常处理装置101的电子设备。
在一些实施例中,异常处理装置可以为公共组件101中的功能模块,异常处理装置101集成于公共组件集群102中的电子设备,在该情况下,该电子设备可为公共组件集群102中的节点服务器。公共组件集群102中的节点服务器与各应用服务器通信连接。
在另一些实施例中,异常处理装置101也可以集成在公共组件集群102以外的其他电子设备,该电子设备可与公共组件集群102的节点服务器通信连接。
该电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于处理器、微程序控制器(Microprogrammed ControlUnit,MCU)、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital SignalProcessor,DSP)、嵌入式设备等。所述电子设备可以是便携式电子设备、个人电脑、服务器等。
图2是本申请异常处理方法一实施例的步骤流程图。根据不同的需求,所述流程图中步骤的顺序可以改变,某些步骤可以省略。
参阅图2所示,该异常处理方法可以包括以下步骤。
步骤201,对公共组件的预设关键指标进行监控,确定公共组件是否发生异常。
公共组件运行于节点服务器,节点服务器与应用服务器通信连接,公共组件用于为应用服务器中部署的应用提供服务。
公共组件是介于应用系统和系统软件之间的一类软件。系统公共组件所提供的基础服务(功能)能够衔接应用系统的各个部分或不同的应用,以实现资源共享、功能共享的目的,从而减少系统软件的资源使用。
例如,一个大型的系统包括多个子应用系统,或者多个功能模块,多个子应用系统或者多个功能模块会共用某些中间件,这些中间件可作为公共组件,公共组件与应用系统的关系可为一对多,多对多。
公共组件可以为MySQL、RabbitMQ、MongoDB、PostgreSQ、Redis、Kafka、ElasticSearch、MQ、MongoDB等数据库或中间件,但不限于此。
例如,各应用系统共用MySQL集群、RabbitMQ集群、MongoDB集群、PostgreSQL等数据库或中间件等组件;又例如,云平台底座的功能模块较多,各功能模块可以复用底座公共资源,如MySQL集群、Redis集群、Kafka集群、ElasticSearch集群等数据库或中间件等组件;又比如云平台的中间件产品和数据库产品,对外提供消息中间件如MQ集群、Kafka集群等,以及提供MySQL集群、Redis集群、MongoDB集群等。
预设关键指标可根据需求设置。例如,预设关键指标可以包括运行公共组件的节点服务器的健康状态、节点服务器的心跳链路状态、接入公共组件的应用所占用的资源、公共组件的空闲资源剩余量等,但不限于此。
相较于既采集关键指标,又采集非关键指标,导致监控存储以及分析的资源过度使用,本申请实施例仅对预设关键指标进行监控采集、存储、展示等,节省监控资源,提高处理效率。
公共组件发生的异常可包括公共组件的代码运行异常以及公共组件所在节点服务器产生的影响公共组件运行的异常等。公共组件发生的异常可能会导致公共组件与外部应用的连接产生故障(公共组件外部连接异常),以及公共组件内部运行异常(公共组件内在异常)。
公共组件外部连接异常一般属于代码问题,需要通知研发人员处理;公共组件内部异常,需要通知运维人员手动处理,该种方法费时费力,可能导致应用系统长时间处于不可用状态,无法满足应用系统的业务需求。
因此,本实施例的异常处理方法,可在监控到异常后,预解决潜在的问题,即若监控到公共组件发生异常,执行步骤202至步骤204。
步骤202,获取公共组件的异常类型。
异常类型可以包括资源不足异常等公共组件外部连接异常,以及运行公共组件的节点服务器健康异常、节点服务器所提供的节点服务异常、节点心跳链路状态异常、组件服务异常等公共组件内在异常,但不限于此。
其中,资源不足异常包括:计算资源异常、存储资源异常、连接资源异常,但不限于此。存储资源的使用量在公共组件正常的情况下一般为单向增长,计算资源可能有波峰波谷动态变化。
每个应用占用的资源可设置限制值,各应用占用的资源之间可以互相隔离。例如,通过Linux Namespace技术和Linux Cgroups技术等物理方式实现应用的资源限制和资源隔离;又例如,通过监控资源使用情况做资源虚拟映射、超额限流实现等虚拟方式实现应用的资源限制和资源隔离;又例如,通过组件自提供的资源限制配置方式实现应用的资源限制和资源隔离,但不限于此。
步骤203,确定与异常类型匹配的异常处理策略。
电子设备中存储有各异常类型匹配的异常处理策略。
例如,电子设备可基于异常类型确定异常类型对应的处理分支,每个处理分支为异常处理的代码段,代码段的执行逻辑即为异常处理策略。
步骤204,基于异常处理策略处理公共组件发生的异常。
在一些实施例中,异常处理策略可包括公共组件产生的异常的告警级别和/或异常的自动处理方案。
在异常处理策略包括异常的告警级别的情况下,步骤204可以包括:基于异常处理策略确定异常的告警级别,告警级别表征异常的严重程度;基于告警级别进行告警提示。告警级别可根据需求设置,例如告警级别包括高优先级告警、中优先级告警以及低优先级告警。高优先级告警表征的异常严重程度最高。
以下以资源不足异常、运行公共组件的节点服务器健康异常、节点服务器所提供的节点服务异常、节点心跳链路状态异常、组件服务异常等为例,说明异常类型匹配的异常处理策略。
1.在异常类型为公共组件资源不足的情况下,参考图3所示,步骤204可以包括:
步骤2041,在异常类型为公共组件资源不足的情况下,获取使用公共组件的各应用。
公共组件资源不足可以包括公共组件的计算资源不足,公共组件的存储资源不足和公共组件的连接资源不足等情形。公共组件的连接资源包括网络资源、连接数等。
步骤2042,获取各应用当前对组件资源的资源需求等级。
资源需求等级表征公用组件为组件分配资源的优先级。
资源需求等级可根据应用的服务质量(Quality of Service,QoS)等级确定。通过应用的服务等级协议(service level agreement,SLA)可获得应用的QoS等级。
示例性的,可将QoS等级定位以下三个等级:
1.高优先级。优先保证为该应用分配的资源量。公共组件为应用分配的资源量可以为具体的资源值,也可以为资源总量的百分比。
2.中优先级。适度保证为该应用分配的资源量。
3.低优先级。不保证为该应用分配的资源量。
可将应用资源需求等级分为如下三个等级:
1.等级一。为该应用自动配置最小分配资源量和最大分配资源量,最小分配资源量与最大分配资源量相同。若应用的QoS等级为高优先级,应用的资源需求等级可设置为等级一。
2.等级二。为该应用自动配置最小分配资源量和最大分配资源量,最小分配资源量小于最大分配资源量相同。若应用的QoS等级为中优先级,应用的资源需求等级可设置为等级二。
3.等级三。为该应用自动配置最大分配资源量,最小分配资源量可设置为0。若应用的QoS等级为低优先级,应用的资源需求等级可设置为等级三。
在电子设备控制公共组件为应用分配组件资源时,可尽量依据上述资源需求等级分配,以使得应用占用的实际资源介于[最小分配资源量,最大分配资源量之间]这一区间。
应用的资源需求等级在应用成功接入公共组件后,可随着应用的接入状态和运行情况以及QoS等级动态设置。例如,在异常类型为公共组件资源不足的情况下,电子设备监控到存在新接入公共组件的应用,可将该新接入的应用的资源需求等级设置为最低资源需求等级,如等级三。在监控到公共组件资源充足的情况下,根据该应用的QoS等级设置服务质量等级。
示例性的,应用app1的QoS等级为高优先级,app1在公共组件资源不足的情况下接入公共组件,可将app1的资源需求等级设置为等级三,在监控到公共组件资源充足的情况下,将app1的资源需求等级设置为等级一。
步骤2043,基于各应用的资源需求等级和各应用占用的组件资源,确定待释放的目标组件资源,并释放目标组件资源。
在一些实施例中,步骤2043可以包括:若存在新接入的应用,在最低资源需求等级对应的应用所占用的组件资源中,确定所述目标组件资源。
例如,若存在多个最低资源需求等级的应用,可在多个最低资源需求等级的应用中随机选取一个或部分应用,将选取的应用占用的组件资源作为目标组件资源,对选取的应用进行自动熔断,以释放目标组件资源。
又例如,若存在多个最低资源需求等级的应用,可确定多个最低资源需求等级的应用中所占组件资源最多的应用,将该应用占用的组件资源作为目标组件资源,对该应用进行自动熔断。
在另一些实施例中,若存在相同资源需求等级的应用抢占资源,将相同资源需求等级的应用中所占组件资源最多的应用作为目标应用;在目标应用所占的组件资源中确定所述目标组件资源。例如,可以将目标应用做收敛处理,即减少目标应用占用的组件资源,减少的组件资源即为目标组件资源。
在公共组件资源不足的情况下,还可发出告警,以提示相关人员及时处理异常,例如,公共组件资源不足具体为计算资源不足,发出告警提示,可以便于运维人员及时评估是否需要进行扩容处理。
在一些实施例中,若公共组件中被占用的组件资源量超过第一预设阈值,表征公共组件资源不足,发出告警提示。
预设阈值可根据需求设置,例如,第一预设阈值设置为公共组件总资源的80%。
发出的告警提示可以具有告警级别属性,告警级别可根据需求设置,如,基于公共组件中被占用的组件资源量确定当前告警级别。例如,公共组件中被占用的组件资源量超过公共组件总资源的80%发出低优先级的告警提示;公共组件中被占用的组件资源量超过公共组件总资源的90%发出中优先级的告警提示。
在一些实施例中,若某个应用占用的组件资源量超过第二预设阈值,发出告警提示。第二预设阈值可以根据需求设置,例如,第二预设阈值可以为资源需求等级中的最大资源分配量。
上述为在公共组件资源不足的情况下的异常处理策略,以下阐述公共组件内在异常的情况下的异常处理策略。
公共组件集群可以采用高可用部署架构,如一主多备架构或多活架构,并可以采用HAProxy加Keepalived双前端技术架构,避免公共组件前端单一故障点隐患。
电子设备可以监控公共组件的节点服务进程状态、节点心跳链路状态、节点服务器健康状态、组件服务监控等。
2.在异常类型为节点服务进程异常的情况下,控制所述节点服务器进行限流处理,及控制所述节点服务器重启所述节点服务进程,还可以发出告警提示,告警提示的优先级可以为中优先级,以便于运维人员及时处理。
3.在异常类型为节点心跳链路状态异常的情况下,若节点服务正常,可以处理心跳链路问题,例如重新监测所述节点服务器的心跳链路状态,还可以发出告警提示,告警级别可以为低优先级;若节点服务异常,及时发出告警提示,告警级别可以为高优先级。节点服务包括节点服务器为公共组件运行提供的服务,例如容器环境等公共组件的运行环境。
4.在异常类型为节点服务器健康异常,若节点服务异常,发出告警提示,告警级别为高优先级;若节点服务正常,此时不影响节点服务器的整体服务,可发出告警提示,告警级别为中优先级。
5.在异常类型为组件服务异常的情况下,发出告警,告警级别为高优先级,以利于运维人员处理。
若因为组件内部异常导致资源受限、甚至影响业务时,可以依照QoS等级,对部分低优先级应用配置自动熔断,以保证高优先级的应用资源;当同等QoS等级的应用在抢占资源时,对使用率大的应用分配资源做收敛处理;并及时发出告警,以利运维人员及时处理。
在一些实施例中,若监控到公共组件未发生异常,可以为接入到公共组件的应用分配组件资源,执行步骤205至步骤207。
步骤205,获取接入公共组件的应用的服务质量等级。
步骤206,基于应用的服务质量等级和应用的资源需求,确定应用的最小分配资源量和应用的最大分配资源量。
在一些实施例中,获取与服务质量等级对应的资源需求等级,例如,应用的QoS等级为高优先级,应用的资源需求等级可设置为等级一,然后,基于应用的资源需求配置应用的最小分配资源量和最大分配资源量。
步骤207,基于最小分配资源量和最大分配资源量为应用分配组件资源。
即使得为应用分配的组件资源不小于最小分配资源量,不大于最大分配资源量。
在另一些实施例中,若监控到组件资源恢复正常,基于应用的QoS等级和资源需求量确定该应用的最小分配资源量和最大分配资源量;基于最小分配资源量和最大分配资源量为应用分配组件资源。
例如,若计算资源恢复正常,即计算资源充足,为应用分配计算资源;若存储资源恢复正常,为应用分配存储资源;若连接资源正常,为应用分配存储资源。
本申请实施例对公共组件进行监控,可以及时发现公共组件的异常,并确定与异常匹配的异常处理策略,以尽可能基于异常处理策略及时解决公共组件所发生的异常,从而提升公共组件的可用性,提高应用系统的业务稳定性。
基于与上述实施例中的异常处理方法相同的思想,本申请还提供异常处理装置,该装置可用于执行上述异常处理方法。为了便于说明,异常处理装置实施例的结构示意图中,仅仅示出了与本申请实施例相关的部分,本邻域技术人员可以理解,图示结构并不构成对该装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图4所示,异常处理装置包括监控模块401、获取模块402以及监控模块403。在一些实施例中,上述模块可以为存储于存储器中且可被处理器调用执行的可程序化软件指令。可以理解的是,在其他实施方式中,上述模块也可为固化于处理器中的程序指令或固件(firmware)。
监控模块401,用于对公共组件的预设关键指标进行监控,确定所述公共组件是否发生异常;所述公共组件运行于节点服务器,所述节点服务器与应用服务器通信连接,所述公共组件用于为所述应用服务器中部署的应用提供服务;
获取模块402,用于若监控到所述公共组件发生异常,获取所述公共组件的异常类型;
处理模块403,用于确定与所述异常类型匹配的异常处理策略,以及基于所述异常处理策略处理所述公共组件发生的异常。
图5为本申请电子设备一实施例的示意图。
电子设备100包括存储器20、处理器30以及存储在存储器20中并可在处理器30上运行的计算机程序40。处理器30执行计算机程序40时实现上述异常处理方法实施例中的步骤,例如图2所示的步骤201~步骤204。
示例性的,计算机程序40同样可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在存储器20中,并由处理器30执行。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,所述指令段用于描述计算机程序40在电子设备100中的执行过程。例如,可以分割成图4所示的监控模块401、获取模块402以及监控模块403。
本领域技术人员可以理解,所述示意图仅仅是电子设备100的示例,并不构成对电子设备100的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如电子设备100还可以包括输入输出设备、网络接入设备、总线等。
处理器30可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器、单片机或者处理器30也可以是任何常规的处理器等。
存储器20可用于存储计算机程序40和/或模块/单元,处理器30通过运行或执行存储在存储器20内的计算机程序和/或模块/单元,以及调用存储在存储器20内的数据,实现电子设备100的各种功能。存储器20可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备100的使用所创建的数据(比如音频数据)等。此外,存储器20可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
电子设备100集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,所述计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
在本申请所提供的几个实施例中,应该理解到,所揭露的电子设备和方法,可以通过其它的方式实现。例如,以上所描述的电子设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在本申请各个实施例中的各功能单元可以集成在相同处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。电子设备权利要求中陈述的多个单元或电子设备也可以由同一个单元或电子设备通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照上述实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。

Claims (10)

1.一种异常处理方法,其特征在于,包括:
对公共组件的预设关键指标进行监控,确定所述公共组件是否发生异常;
所述公共组件运行于节点服务器,所述节点服务器与应用服务器通信连接,所述公共组件用于为所述应用服务器中部署的应用提供服务;
若监控到所述公共组件发生异常,获取所述公共组件的异常类型;
确定与所述异常类型匹配的异常处理策略;
基于所述异常处理策略处理所述公共组件发生的异常。
2.如权利要求1所述的异常处理方法,其特征在于,所述基于所述异常处理策略处理所述公共组件发生的异常,包括:
在所述异常类型为公共组件资源不足的情况下,获取使用所述公共组件的各应用;
获取所述各应用当前对组件资源的资源需求等级;
基于所述各应用的资源需求等级和所述各应用占用的组件资源,确定待释放的目标组件资源;
释放所述目标组件资源。
3.如权利要求2所述的异常处理方法,其特征在于,所述基于所述各应用的资源需求等级和所述各应用占用的组件资源,确定待释放的目标组件资源,包括:
若存在新接入的应用,在最低资源需求等级对应的应用所占用的组件资源中,确定所述目标组件资源;
若存在相同资源需求等级的应用抢占资源,将相同资源需求等级的应用中所占组件资源最多的应用作为目标应用;
在目标应用所占的组件资源中确定所述目标组件资源。
4.如权利要求3所述的异常处理方法,其特征在于,在所述在最低资源需求等级对应的应用所占用的组件资源中,确定所述目标组件资源之前,还包括:
将所述新接入的应用的资源需求等级设置为最低优先级。
5.如权利要求1所述的异常处理方法,其特征在于,所述节点服务器用于为所述公共组件提供节点服务,所述基于所述异常处理策略处理所述公共组件发生的异常,包括:
在所述异常类型为节点服务进程异常的情况下,控制所述节点服务器进行限流处理,及控制所述节点服务器重启所述节点服务进程;
在所述异常类型为节点心跳链路状态异常的情况下,若节点服务正常,重新监测所述节点服务器的心跳链路状态。
6.如权利要求1所述的异常处理方法,其特征在于,所述异常处理策略包括异常的告警级别,所述基于所述异常处理策略处理所述公共组件发生的异常,包括:
基于所述异常处理策略确定所述异常的告警级别,所述告警级别表征异常的严重程度;
基于所述告警级别进行告警提示。
7.如权利要求1至6中任一项所述的异常处理方法,其特征在于,所述方法还包括:
若监控到所述公共组件未发生异常,获取接入所述公共组件的应用的服务质量等级;
基于所述应用的服务质量等级和应用的资源需求,确定所述应用的最小分配资源量和所述应用的最大分配资源量;
基于所述最小分配资源量和所述最大分配资源量为所述应用分配组件资源。
8.一种异常处理装置,其特征在于,包括:
监控模块,用于对公共组件的预设关键指标进行监控,确定所述公共组件是否发生异常;所述公共组件运行于节点服务器,所述节点服务器与应用服务器通信连接,所述公共组件用于为所述应用服务器中部署的应用提供服务;
获取模块,用于若监控到所述公共组件发生异常,获取所述公共组件的异常类型;
处理模块,用于确定与所述异常类型匹配的异常处理策略,以及基于所述异常处理策略处理所述公共组件发生的异常。
9.一种电子设备,所述电子设备包括处理器及存储器,其特征在于,所述存储器用于存储指令,所述处理器用于调用所述存储器中的指令,使得所述电子设备执行如权利要求1至权利要求7中任一项所述的异常处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1至权利要求7中任一项所述的异常处理方法。
CN202310733912.9A 2023-06-20 2023-06-20 异常处理方法、装置、电子设备及计算机可读存储介质 Active CN116467113B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310733912.9A CN116467113B (zh) 2023-06-20 2023-06-20 异常处理方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310733912.9A CN116467113B (zh) 2023-06-20 2023-06-20 异常处理方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN116467113A true CN116467113A (zh) 2023-07-21
CN116467113B CN116467113B (zh) 2023-12-05

Family

ID=87181113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310733912.9A Active CN116467113B (zh) 2023-06-20 2023-06-20 异常处理方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN116467113B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030093527A1 (en) * 2001-11-13 2003-05-15 Jerome Rolia Method and system for exploiting service level objectives to enable resource sharing in a communication network having a plurality of application environments
CN110134542A (zh) * 2015-05-28 2019-08-16 甲骨文国际公司 自动异常检测和解决系统
CN110198231A (zh) * 2018-05-08 2019-09-03 腾讯科技(深圳)有限公司 用于多租户的容器网络管理方法和系统以及中间件
CN113656239A (zh) * 2021-06-02 2021-11-16 北京百度网讯科技有限公司 针对中间件的监控方法、装置及计算机程序产品
CN113839975A (zh) * 2020-06-24 2021-12-24 中兴通讯股份有限公司 PaaS的中间件容灾方法、容灾装置、容灾设备及存储介质
CN113986537A (zh) * 2021-10-22 2022-01-28 中国工商银行股份有限公司 中间件管理方法及装置
CN114253628A (zh) * 2021-12-22 2022-03-29 金蝶软件(中国)有限公司 一种中间件的自动部署装置及自动部署方法
CN115878171A (zh) * 2022-12-06 2023-03-31 中移动信息技术有限公司 中间件配置的优化方法、装置、设备及计算机存储介质
CN116225703A (zh) * 2023-02-16 2023-06-06 中移动信息技术有限公司 集群处理方法、装置、设备及计算机可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030093527A1 (en) * 2001-11-13 2003-05-15 Jerome Rolia Method and system for exploiting service level objectives to enable resource sharing in a communication network having a plurality of application environments
CN110134542A (zh) * 2015-05-28 2019-08-16 甲骨文国际公司 自动异常检测和解决系统
CN110198231A (zh) * 2018-05-08 2019-09-03 腾讯科技(深圳)有限公司 用于多租户的容器网络管理方法和系统以及中间件
CN113839975A (zh) * 2020-06-24 2021-12-24 中兴通讯股份有限公司 PaaS的中间件容灾方法、容灾装置、容灾设备及存储介质
CN113656239A (zh) * 2021-06-02 2021-11-16 北京百度网讯科技有限公司 针对中间件的监控方法、装置及计算机程序产品
CN113986537A (zh) * 2021-10-22 2022-01-28 中国工商银行股份有限公司 中间件管理方法及装置
CN114253628A (zh) * 2021-12-22 2022-03-29 金蝶软件(中国)有限公司 一种中间件的自动部署装置及自动部署方法
CN115878171A (zh) * 2022-12-06 2023-03-31 中移动信息技术有限公司 中间件配置的优化方法、装置、设备及计算机存储介质
CN116225703A (zh) * 2023-02-16 2023-06-06 中移动信息技术有限公司 集群处理方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN116467113B (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
CN108370341B (zh) 资源配置方法、虚拟网络功能管理器和网元管理系统
US10481935B2 (en) Management system, overall management node, and management method for managing virtualization resources in a mobile communication network
CN108683720B (zh) 一种容器集群服务配置方法及装置
US20160321112A1 (en) Management system, virtual communication-function management node, and management method
CN111209110B (zh) 一种实现负载均衡的任务调度管理方法、系统和存储介质
CN107205030B (zh) 服务器资源调度方法及系统
CN113886089B (zh) 一种任务处理方法、装置、系统、设备及介质
CN107395458B (zh) 系统监控方法及装置
JPWO2007072544A1 (ja) 情報処理装置、計算機、リソース割り当て方法及びリソース割り当てプログラム
CN112579304A (zh) 基于分布式平台的资源调度方法、装置、设备及介质
CN111258851A (zh) 一种集群的告警方法、装置、设置及存储介质
CN110764963A (zh) 一种服务异常处理方法、装置及设备
CN112698952A (zh) 计算资源统一管理方法、装置、计算机设备及存储介质
CN111831232A (zh) 数据的存储方法及装置、存储介质和电子装置
CN111638953B (zh) 一种实现gpu虚拟化的方法、装置和存储介质
CN110795202B (zh) 一种虚拟化集群资源管理系统的资源分配方法以及装置
CN112860387A (zh) 分布式任务调度方法、装置、计算机设备及存储介质
EP4006725A1 (en) Virtual machine migration processing and strategy generation method, apparatus and device, and storage medium
CN116467113B (zh) 异常处理方法、装置、电子设备及计算机可读存储介质
CN109510730A (zh) 分布式系统及其监控方法、装置、电子设备及存储介质
CN112631680A (zh) 微服务容器调度系统、方法、装置和计算机设备
CN108737144B (zh) 资源管理的方法和设备
CN104657240B (zh) 多内核操作系统的失效控制方法及装置
CN115469966A (zh) 容器云服务的弹性伸缩方法及装置
CN113127191B (zh) 一种资源更新方法、存储介质及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant