CN113194029B - 自动识别和隔离服务网格边车故障的方法、系统、介质和设备 - Google Patents
自动识别和隔离服务网格边车故障的方法、系统、介质和设备 Download PDFInfo
- Publication number
- CN113194029B CN113194029B CN202110501320.5A CN202110501320A CN113194029B CN 113194029 B CN113194029 B CN 113194029B CN 202110501320 A CN202110501320 A CN 202110501320A CN 113194029 B CN113194029 B CN 113194029B
- Authority
- CN
- China
- Prior art keywords
- sidecar
- container
- fault
- sidecar container
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/22—Alternate routing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3024—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/28—Routing or path finding of packets in data switching networks using route fault recovery
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请提供了一种自动识别和隔离服务网格边车故障的方法、系统、计算机可读介质和电子设备。该方法包括:对获取的边车容器的运行状态指标进行聚合运算,得到所述边车容器的指标监控数据;响应于所述指标监控数据与预设故障识别规则不一致,触发预设隔离机制对所述边车容器进行隔离。籍此,对发生故障的边车容器自动采取隔离,使其在故障状况下不影响正常的业务运行,使业务容器的业务快速恢复正常,对外提供服务,有效的降低对业务的影响。
Description
技术领域
本申请涉及云原生技术领域,特别涉及一种自动识别和隔离服务网格边车故障的方法、系统、计算机可读介质和电子设备。
背景技术
在云原生领领域中,服务网格是一类新兴技术,是一种受到广泛关注的云原生技术。在软件架构中,边车应用是连接到父应用并且为其扩展或增强功能;在服务网格场景下,边车通常表现为一个单独的容器提供服务,成为边车容器。边车容器和业务容器隔离开,且共同存在于一个容器组中,由边车容器接管业务容器的网络I/O(接口),通过这种方式实现业务容器无感知的情况下增加边车的网格管理能力,并最终一起对外提供业务服务。
在服务网格的技术架构中,为了让每个应用的流量可以被控制,服务网格会将业务流量转发到边车容器中,通过边车控制流量,在对业务无影响的前提下实现诸如服务发现、熔断、限流、可观测性等特性。因为有边车容器的存在,所有流量都会经过边车容器,如果边车容器出现故障导致无法处理流量,会严重影响系统对外提供服务。
目前,在出现故障后,通过重启容器组等操作,重置容器组状态尝试恢复系统,或者,停止使用服务网格,将服务容器从服务网格中移除(即容器组中不再有边车容器),等待修复完成后重新其中。无论是哪种解决方案,均需要人为介入操作,操作效率低且容器出错,从出现故障、识别故障到最终恢复故障的周期比较长,对业务的连续性影响较大。
因此,需要提供一种针对上述现有技术不足的改进技术方案。
发明内容
本申请的目的在于提供一种自动识别和隔离服务网格边车故障的方法、系统、计算机可读介质和电子设备,以解决或缓解上述现有技术中存在的问题。
为了实现上述目的,本申请提供如下技术方案:
本申请提供了一种自动识别和隔离服务网格边车故障的方法,包括:对获取的边车容器的运行状态指标进行聚合运算,得到所述边车容器的指标监控数据;响应于所述指标监控数据与预设故障识别规则不一致,触发预设隔离机制对所述边车容器进行隔离。
在本申请的任一可选实施例中,所述对获取的边车容器的运行状态指标进行聚合运算,得到所述边车容器的指标监控数据,具体为:基于云原生监控系统的协议,对所述边车容器的运行状态按照预设监测周期进行监控,获取所述边车容器的运行状态指标,并对获取的所述运行状态指标进行聚合运算,得到所述边车容器的指标监控数据。
在本申请的任一可选实施例中,所述响应于所述指标监控数据与预设故障识别规则不一致,触发预设隔离机制对所述边车容器进行隔离,具体为:响应于在多个所述预设监测周期内得到的所述指标监控数据的平均数大于预设阈值,触发预设隔离机制对所述边车容器进行隔离。
在本申请的任一可选实施例中,所述响应于所述指标监控数据与预设故障识别规则不一致,触发预设隔离机制对所述边车容器进行隔离,具体为:响应于所述指标监控数据与所述预设故障识别规则不一致,对流量转发策略进行修改,以对所述边车容器进行隔离。
在本申请的任一可选实施例中,所述响应于所述指标监控数据与所述预设故障识别规则不一致,对流量转发策略进行修改,以对所述边车容器进行隔离,包括:响应于所述指标监控数据与所述预设故障识别规则不一致,切断新请求进入所述边车容器的转发路径,以使新进入的入口流量不经过所述边车容器直接进入业务容器;等待所述边车容器中的现有请求处理完毕,或者,等待时间超过预设时间,切断对全部出口流量的拦截,以对所述边车容器进行完全隔离,其中,所述等待时间为等待所述边车容器中的现有请求的处理时间。
在本申请的任一可选实施例中,在响应于所述指标监控数据与预设故障识别规则不一致,触发预设隔离机制对所述边车容器进行隔离之后,还包括:根据所述指标监控数据与预设故障识别规则生成告警信息,并基于序列化技术将所述告警信息发送至目标用户,其中,所述告警信息至少包括与所述预设故障识别规则不一致的所述边车容器的故障名称、故障实际值、故障时间。
在本申请的任一可选实施例中,所述边车容器的运行状态指标包括:所述边车容器的CPU使用率、所述边车容器内存使用率、所述边车容器的功能状态、所述边车容器与所述边车容器的控制器的连接状态中的至少其一。
本申请实施例还提供一种自动识别和隔离服务网格边车故障的系统,包括:监控模块,配置为对获取的边车容器的运行状态指标进行聚合运算,得到所述边车容器的指标监控数据;检测隔离模块,配置为响应于所述指标监控数据与预设故障识别规则不一致,触发预设隔离机制对所述边车容器进行隔离。
本申请实施例还提供一种计算机可读介质,其上存储有计算机程序,所述程序为上述任一所述的自动识别和隔离服务网格边车故障的方法。
本申请实施例还提供一种电子设备,包括:存储器、处理器、以及存在所述存储器中并可在所述处理器上运行的程序,所述处理器执行所述程序时实现如上述任一所述的自动识别和隔离服务网格边车故障的方法。
有益效果:
本申请实施例提供的技术方案中,通过对边车容器的运行状态进行监控,对获取的边车容器的运行状态指标进行聚合运算,得到所述边车容器的指标监控数据,当识别到边车容器的指标监控数据与预设故障识别规则不一致,即边车容器的运行状态异常或故障时,能够自动切换流量转发路径,让流量不经过边车容器,对发生故障的边车容器自动采取隔离,使其在故障状况下不影响正常的业务运行,使业务容器的业务快速恢复正常,对外提供服务,有效的降低对业务的影响。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。其中:
图1为根据本申请的一些实施例提供的自动识别和隔离服务网格边车故障的方法的流程示意图;
图2为根据本申请的一些实施例提供的自动识别和隔离服务网格边车故障的方法中流量转发策略修改的流程示意图;
图3为根据本申请的一些实施例提供的自动识别和隔离服务网格边车故障的系统的结构示意图;
图4为根据本申请的一些实施例提供的电子设备的结构示意图;
图5为根据本申请的一些实施例提供的电子设备的硬件结构。
具体实施方式
下面将参考附图并结合实施例来详细说明本申请。各个示例通过本申请的解释的方式提供而非限制本申请。实际上,本领域的技术人员将清楚,在不脱离本申请的范围或精神的情况下,可在本申请中进行修改和变型。例如,示为或描述为一个实施例的一部分的特征可用于另一个实施例,以产生又一个实施例。因此,所期望的是,本申请包含归入所附权利要求及其等同物的范围内的此类修改和变型。
在本申请的描述中,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请而不是要求本申请必须以特定的方位构造和操作,因此不能理解为对本申请的限制。本申请中使用的术语“相连”、“连接”、“设置”应做广义理解,可以是有线电连接、无线电连接,也可以是无线通信信号连接,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
示例性方法
图1为根据本申请的一些实施例提供的自动识别和隔离服务网格边车故障的方法的流程示意图;如图1所示,该自动识别和隔离服务网格边车故障的方法包括:
步骤S101、对获取的边车容器的运行状态指标进行聚合运算,得到所述边车容器的指标监控数据;
在本申请实施例中,基于服务网格对边车容器的运行状态进行检测,比如,采用一个基于服务网格的故障检测模块检测边车容器的运行状态,获取边车容器的运行状态指标。具体的,边车容器的运行状态指标至少包括一下其一:边车容器的CPU使用率、边车容器的内存使用率、边车容器的功能状态、边车容器与边车容器的控制器的连接状态。其中,边车容器的功能状态表征边车容器的功能是否正常,是否能够完成对应的功能;边车容器与边车容器的控制器的连接状态表征边车容器与边车容器的控制器之间进行连接的状态(正常连接或非正常连接等)。
在本申请实施例中,针对不同的边车容器的运行状态指标采用不同的聚合运算方式。比如,对于边车容器的CPU使用率,在云原生系统中,按照实际总耗时进行聚合运算,如果需要计算边车容器在某个时间点的CPU使用率,那么就取最近两个时间点,比如现在和30s前的值进行相减,然后再除以时间差,即可以得到边车容器在某个时间点的CPU使用率;对应边车容器的内存使用率,需要从监控系统中获取的内存使用量除以内存总量即可。
在一些可选实施例中,基于云原生监控系统的协议,对边车容器的运行状态按照预设监测周期进行监控,获取边车过期的运行状态指标,并对获取的运行状态指标进行聚合运算,得到边车容器的指标监控数据。
在本申请实施例中,云原生监控系统是指云原生社区开源的监控系统,使用开放指标协议,可以使用开放指标查询语句对指标进行查询和计算存储的指标数据。
在本申请实施例中,获取边车容器的运行状态指标时,可以由故障检测模块与边车容器相配合,每隔一定时间,通过接口查询边车容器的CPU使用率、边车容器的内存使用率、边车容器的健康状态、边车容器连接边车容器的控制器的健康状态等与故障相关的运行状态指标,并对运行状态指标进行聚合运算,形成边车容器的指标监控数据。
步骤S102、响应于所述指标监控数据与预设故障识别规则不一致,触发预设估计机制对所述边车容器进行隔离。
在本申请实施例中,预设故障识别规则由用户根据特定协议进行故障标准的定义,输入触发阈值范围进行绑定,响应于指标监控数据与预设故障识别规则不一致,触发预设隔离机制对边车容器进行隔离。
在本申请实施例中,根据得到的指标监控数据与预设阈值进行比较,如果指标监控数据超过设定的预设阈值,触发预设隔离机制对边车容器进行隔离。具体的,响应于在多个预设监测周期内得到的所述指标监控数据的平均数大于预设阈值,触发预设隔离机制对边车容器进行隔离。
在本申请实施例中,用户对边车容器的预设监测周期(T)、循环检测次数(S)、以及预设阈值(U)进行配置,则指标监控数据(V)与预设阈值之间的关系如公式(1)所示。公式(1)如下:
在本申请实施例中,根据多次取到的指标监控数据的平均数与预设阈值进行判断,有效避免数据抖动改造成误判而导致边车容器被误隔离。
在一些可选实施例中,在响应于指标监控数据与预设故障识别规则不一致,触发预设隔离机制对边车容器进行隔离时,响应于指标监控数据与预设故障识别规则不一致,对流量转发策略进行修改,以对边车容器进行隔离。
在本申请实施例中,在收到隔离请求后,对流量转发策略进行修改,使其不经过边车容器直接进入业务容器。籍此,使流量不再经过边车容器,实现边车容器的故障隔离,使边车容器的故障或异常不会影响到实际业务的运行。
图2为根据本申请的一些实施例提供的自动识别和隔离服务网格边车故障的方法中流量转发策略修改的流程示意图;如图2所示,响应于指标监控数据与预设故障识别规则不一致,对流量转发测量进行修改,以对边车容器进行隔离,包括:
步骤S201、响应于指标监控数据与预设故障识别规则不一致,切断新请求进入边车容器的转发路径,以使新进入的入口流量不经过边车容器直接进入业务容器;
在本申请实施例中,通过对入口流量进行重新倒流,使新进入的入口流量绕开边车容器直接进入业务容器。比如,在Istio服务网格中,可以采用以下命令对新的入口流量进行导流,关闭代理的入口请求,新的请求将会直接发送到实际的业务容器,不再经过边车容器,实现入口方向的流量隔离。其中,对新的入口流量进行导流命令如下:
iptables-save>/tmp/iptables-rules
iptables-t nat-F PREROUTING
iptables-t nat-X ISTIO_INBOUND
iptables-t nat-X ISTIO_IN_REDIRECT
步骤S202、等待所述边车容器中的现有请求处理完毕,或者,等待时间超过预设时间,切断对全部出口流量的拦截,以对边车容器进行完全隔离,其中,等待时间为等待边车容器中的现有请求的处理时间。
在本申请实施例中,边车容器中剩余在处理请求(即现有请求)通过条用边车容器接口获取,如果剩余在处理请求(即现有请求)获取失败则等待指定时间(预设时间)后,切断对全部出口流量的拦截,使之对业务出口流量完全不产生影响,实现完全隔离。
在本申请实施例中,通过指标观测边车容器中剩余在处理请求(即现有请求),等待现有请求的请求书降为0,或者,等待时间超过预设时间,对出口流量测量进行修改,使其不再经过边车容器。比如,在Istio服务网格中,对出口流量进行修改的命令如下:
iptables-t nat-F OUTPUT
iptables-t nat-X ISTIO_OUTPUT
iptables-t nat-X ISTIO_REDIRECT
此后,所有的入口流量、出口流量将不再进入边车容器,边车容器的异常不会影响到实际业务的运行,至此故障隔离完成。
在一些可选实施例中,在响应于指标监控数据与预设故障识别规则不一致,触发预设隔离机制对边车容器进行隔离之后,还包括:根据指标监控数据与预设故障识别规则生产告警信息,并基于序列化技术将告警信息发送至目标用户,其中,告警信息至少包括与预设故障识别规则不一致的边车容器的故障名称、故障实际值。
在本申请实施例中,隔离边车提供了一个应急解决方法,旨在缓解边车容器故障的情况下保证业务系统正常功能可用,为了后续服务治理策略可正常使用,需要告知目标用户目标边车容器已经被隔离,并通过告警信息通知用户边车被隔离的原因和时间,使目标用户能够根据实际情况进行恢复操作。
在本申请实施例中,边车容器的故障名称、故障实际值、故障时间为边车容器的与预设故障识别规则不一致的运行状态指标的名称、实际值和时间。除此之外,告警信息还可以包括边车容器的故障服务和故障实例。其中,边车容器的故障服务表征了提供该服务的边车容器处于故障状态,不能对外提供完成的本应该对外提供的服务能力,在故障服务中包含多个故障实例,通过故障服务可以快速定位到具体出错的服务,然后再跟进具体的故障实例进行详细排查,确定边车容器的具体故障内容。
在本申请实施例中,如果目标用户确定边车容器是被错误隔离,或者边车容器的故障已经进行修复,则可以通过故障恢复再次启动边车容器的相应功能,恢复服务网格中之前清空的规则信息,在执行完成后,出口流量、入口流量会重新经过边车容器,服务网格中的策略直接生效。
在本申请实施例中,通过边车运行状态相关的指标,在指标出现异常的时候,通过调整流量转发规则,将故障边车容器进行隔离,由应用自身直接接管流量,达到服务可用目的,保证业务的连续运行,极大的提高应用在服务网格下运行的稳定性和可靠性。
示例性系统
图3为根据本申请的一些实施例提供的自动识别和隔离服务网格边车故障的系统的结构示意图;如图3所示,该自动识别和隔离服务网格边车故障的系统包括:监控模块301,配置为对获取的边车容器的运行状态指标进行聚合运算,得到边车容器的指标监控数据;检测隔离模块,配置为响应于指标监控数据与预设故障识别规则不一致,触发预设隔离机制对边车容器进行隔离。
在本申请实施例中,监控模块301通过云原生监控系统的协议,对边车容器的运行状态进行监控,并对运行状态指标进行聚合运算,得到指标监控数据并存储,以供检测隔离模块使用。
在本申请实施例中,检测隔离模块包括:故障检测模块302和故障隔离模块303,其中,故障检测模块302通过对指标监控数据进行分析,与系统初始设置的故障识别规则进行比对,一旦识别出指标监控数据与预设故障识别规则不一致,则确定边车容器故障,触发故障隔离模块303,由故障隔离模块303对故障的边车容器进行隔离。
在本申请实施例中,故障隔离模块303在受到故障检测模块的触发后,首先切断新进入边车容器的流量请求的转发路径,改为直接请求应用,使新进入的流量请求直接转向业务容;然后,等待所有现有请求处理完毕(现有请求的处理状态通过条用边车容器接口获取)或者等待指定时间(如果获取失败,则等待指定时间)后,切断所有对出口流量的拦截,使之对业务出口流量完全不产生影响,实现故障边车容器的完全隔离。
在本申请实施例中,为了后续服务治理策略正常使用,需要告知用户边车容器已被隔离,并通过告警模块304通知用户边车隔离的原因和事件。在此,根据边车容器发生故障时的运行状态指标和隔离触发条件(请求处理完毕或者等待指定时间)生成告警信息,由自动识别和隔离服务网格边车故障的系统中的告警模块304将告警信息发送至目标用户。
在本申请实施例中,为了避免切换会原来的边车模式,该自动识别和隔离服务网格边车故障的系统还包括一个故障恢复模块305,通过该故障恢复模块305,可以将被隔离的边车重新提供服务。具体的,如果用户确保边车容器是被错误隔离,或者故障边车容器已经修复,需要再次启动边车容器的相应功能,则由目标用户手动处理,恢复正常功能。
本申请实施例提供的自动识别和隔离服务网格边车故障的系统能够实现前述自动识别和隔离服务网格边车故障的方法实施例中的各个过程,并达到相同的功能和效果,在此不再重复。
示例性介质
本申请实施例还提供一种计算机可读介质,用于存储计算机程序,该计算机可读介质可以为可读存储介质,比如U盘、光盘、硬盘等;也可以为可读信号介质,比如光、电、磁、电磁等器件。该计算机可读介质存储的计算机程序在被处理器执行时,可以实现以下流程:对获取的边车容器的运行状态指标进行聚合运算,得到所述边车容器的指标监控数据;响应于所述指标监控数据与预设故障识别规则不一致,触发预设隔离机制对所述边车容器进行隔离。
本申请实施例提供的计算机可读介质能够实现前述自动识别和隔离服务网格边车故障的方法实施例中的各个过程,并达到相同的功能和效果,在此不再重复。
示例性设备
图4为根据本申请的一些实施例提供的电子设备的结构示意图;如图4所示,该电子设备包括:
一个或多个处理器401;
计算机可读介质402,可以配置为存储一个或多个程序,
所述一个或多个处理器401执行一个或多个程序时,实现如下步骤:对获取的边车容器的运行状态指标进行聚合运算,得到所述边车容器的指标监控数据;响应于所述指标监控数据与预设故障识别规则不一致,触发预设隔离机制对所述边车容器进行隔离。
本申请实施例提供的电子设备能够实现前述自动识别和隔离服务网格边车故障的方法实施例中的各个过程,并达到相同的功能和效果,在此不再重复。
图5为根据本申请的一些实施例提供的电子设备的硬件结构;如图5所示,该电子设备的硬件结构可以包括:处理器501、通信接口502、计算机可读介质503和通信总线504;
其中,处理器501、通信接口502、计算机可读介质503通过通信总线504完成相互间的通信;
可选地,通信接口502可以为通信模块的接口,如GSM模块的接口;
其中,处理器501具体可以配置为:对获取的边车容器的运行状态指标进行聚合运算,得到所述边车容器的指标监控数据;响应于所述指标监控数据与预设故障识别规则不一致,触发预设隔离机制对所述边车容器进行隔离。
处理器501可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
需要指出,根据实施的需要,可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本申请实施例的目的。
上述根据本申请实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器存储介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的自动识别和隔离服务网格边车故障的方法。此外,当通用计算机访问用于实现在此示出的方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元提示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (9)
1.一种自动识别和隔离服务网格边车故障的方法,其特征在于,包括:
对获取的边车容器的运行状态指标进行聚合运算,得到所述边车容器的指标监控数据;
响应于所述指标监控数据与预设故障识别规则不一致,切断新请求进入所述边车容器的转发路径,使新进入的入口流量不经过所述边车容器直接进入业务容器,以对所述边车容器进行隔离。
2.根据权利要求1所述的自动识别和隔离服务网格边车故障的方法,其特征在于,所述对获取的边车容器的运行状态指标进行聚合运算,得到所述边车容器的指标监控数据,具体为:
基于云原生监控系统的协议,对所述边车容器的运行状态按照预设监测周期进行监控,获取所述边车容器的运行状态指标,并对获取的所述运行状态指标进行聚合运算,得到所述边车容器的指标监控数据。
3.根据权利要求2所述的自动识别和隔离服务网格边车故障的方法,其特征在于,所述响应于所述指标监控数据与预设故障识别规则不一致,触发预设隔离机制对所述边车容器进行隔离,具体为:响应于在多个所述预设监测周期内得到的所述指标监控数据的平均数大于预设阈值,触发预设隔离机制对所述边车容器进行隔离。
4.根据权利要求1所述的自动识别和隔离服务网格边车故障的方法,其特征在于,所述响应于所述指标监控数据与所述预设故障识别规则不一致,切断新请求进入所述边车容器的转发路径,使新进入的入口流量不经过所述边车容器直接进入业务容器,以对所述边车容器进行隔离,包括:
响应于所述指标监控数据与所述预设故障识别规则不一致,切断新请求进入所述边车容器的转发路径,使新进入的入口流量不经过所述边车容器直接进入业务容器,等待所述边车容器中的现有请求处理完毕,或者,等待时间超过预设时间,切断对全部出口流量的拦截,以对所述边车容器进行完全隔离,其中,所述等待时间为等待所述边车容器中的现有请求的处理时间。
5.根据权利要求1所述的自动识别和隔离服务网格边车故障的方法,其特征在于,在响应于所述指标监控数据与预设故障识别规则不一致,触发预设隔离机制对所述边车容器进行隔离之后,还包括:
根据所述指标监控数据与预设故障识别规则生成告警信息,并基于序列化技术将所述告警信息发送至目标用户,其中,所述告警信息至少包括与所述预设故障识别规则不一致的所述边车容器的故障名称、故障实际值、故障时间。
6.根据权利要求1-5任一所述的自动识别和隔离服务网格边车故障的方法,其特征在于,所述边车容器的运行状态指标包括:所述边车容器的CPU使用率、所述边车容器内存使用率、所述边车容器的功能状态、所述边车容器与所述边车容器的控制器的连接状态中的至少其一。
7.一种自动识别和隔离服务网格边车故障的系统,其特征在于,包括:
监控模块,配置为对获取的边车容器的运行状态指标进行聚合运算,得到所述边车容器的指标监控数据;
检测隔离模块,配置为响应于所述指标监控数据与预设故障识别规则不一致,切断新请求进入所述边车容器的转发路径,使新进入的入口流量不经过所述边车容器直接进入业务容器,以对所述边车容器进行隔离。
8.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序为如权利要求1-6任一所述的自动识别和隔离服务网格边车故障的方法。
9.一种电子设备,其特征在于,包括:存储器、处理器、以及存在所述存储器中并可在所述处理器上运行的程序,所述处理器执行所述程序时实现如权利要求1-6任一所述的自动识别和隔离服务网格边车故障的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110501320.5A CN113194029B (zh) | 2021-05-08 | 2021-05-08 | 自动识别和隔离服务网格边车故障的方法、系统、介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110501320.5A CN113194029B (zh) | 2021-05-08 | 2021-05-08 | 自动识别和隔离服务网格边车故障的方法、系统、介质和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113194029A CN113194029A (zh) | 2021-07-30 |
CN113194029B true CN113194029B (zh) | 2022-04-19 |
Family
ID=76984470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110501320.5A Active CN113194029B (zh) | 2021-05-08 | 2021-05-08 | 自动识别和隔离服务网格边车故障的方法、系统、介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113194029B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114024826B (zh) * | 2022-01-05 | 2022-04-12 | 江苏博云科技股份有限公司 | 基于服务网格技术实现分布式esb场景下的应用多活系统 |
CN114553898A (zh) * | 2022-01-28 | 2022-05-27 | 上海钧正网络科技有限公司 | 基于边车模式的分布式缓存方法、系统、装置、终端及介质 |
CN114710445A (zh) * | 2022-05-24 | 2022-07-05 | 阿里巴巴(中国)有限公司 | 语音软交换服务方法、装置、系统、电子设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111552496A (zh) * | 2020-05-07 | 2020-08-18 | 上海道客网络科技有限公司 | 一种基于添加临时容器实现无缝升级边车的系统与方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11249856B2 (en) * | 2018-10-25 | 2022-02-15 | EMC IP Holding Company LLC | Application consistent snapshots as a sidecar of a containerized application |
CN111983960A (zh) * | 2020-07-03 | 2020-11-24 | 上海趣蕴网络科技有限公司 | 一种监控系统及方法 |
CN112199150A (zh) * | 2020-08-13 | 2021-01-08 | 北京航空航天大学 | 一种基于微服务调用依赖感知的在线应用动态扩缩容方法 |
CN112130996A (zh) * | 2020-09-22 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 数据监控控制系统、方法、装置、电子设备和存储介质 |
CN112153049B (zh) * | 2020-09-24 | 2023-01-17 | 绿盟科技集团股份有限公司 | 入侵检测方法、装置,电子设备和计算机可读介质 |
-
2021
- 2021-05-08 CN CN202110501320.5A patent/CN113194029B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111552496A (zh) * | 2020-05-07 | 2020-08-18 | 上海道客网络科技有限公司 | 一种基于添加临时容器实现无缝升级边车的系统与方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113194029A (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113194029B (zh) | 自动识别和隔离服务网格边车故障的方法、系统、介质和设备 | |
CN108712309B (zh) | 一种微服务架构下的微服务节点防护方法和系统 | |
CN108880917B (zh) | 控制面设备的切换方法、装置及转控分离系统 | |
CN108737574B (zh) | 一种节点离线判断方法、装置、设备及可读存储介质 | |
CN102932466A (zh) | 基于内容分发网络的分布式源监控方法和系统 | |
CN107294767B (zh) | 一种直播网络传输故障监测方法及系统 | |
CN111782462A (zh) | 告警方法、装置和电子设备 | |
CN111402106A (zh) | 设备管理方法、装置、系统以及存储介质 | |
US20220301367A1 (en) | Hot standby fault processing system, method for vehicle and vehicle for adopting same | |
US20230367664A1 (en) | Method for managing ecu on vehicle, and ecu and readable storage medium | |
CN111130821A (zh) | 一种掉电告警的方法、处理方法及装置 | |
CN104104542A (zh) | 一种基于rs485的实时智能排障方法 | |
US20110276825A1 (en) | Device and method for coordinating automatic protection switching operation and recovery operation | |
CN103763143A (zh) | 基于存储服务器的设备异常报警的方法及系统 | |
CN103995759B (zh) | 基于核内外协同的高可用计算机系统故障处理方法及装置 | |
CN116483649A (zh) | 代客泊车系统的进程监控方法、装置、车辆及存储介质 | |
CN103036778B (zh) | 一种家庭网关设备中防止设备僵死的装置和方法 | |
CN105955864A (zh) | 电源故障处理方法、电源模块、监控管理模块及服务器 | |
CN111625363B (zh) | 用于资源推荐操作的执行方法、装置、设备及存储介质 | |
CN114189654A (zh) | 一种视频监控系统视频智能补录方法及装置 | |
CN110321261B (zh) | 一种监控系统及监控方法 | |
US11050648B2 (en) | Communication system | |
WO2014040470A1 (zh) | 告警消息的处理方法及装置 | |
CN113342574A (zh) | 数据处理方法、装置和电子设备 | |
CN110716471A (zh) | 制动机制动控制单元双cpu热备冗余控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder | ||
CP02 | Change in the address of a patent holder |
Address after: 200438 Floor 7, Building 6, No. 99, Jiangwancheng Road, Yangpu District, Shanghai Patentee after: Shanghai Daoke Network Technology Co.,Ltd. Address before: Room 1305-12, No.6 Weide Road, Yangpu District, Shanghai 200433 Patentee before: Shanghai Daoke Network Technology Co.,Ltd. |