CN118018388A

CN118018388A - 一种确定并处理弹性计算中异常实例的方法及装置

Info

Publication number: CN118018388A
Application number: CN202410171414.4A
Authority: CN
Inventors: 叶静涛
Original assignee: Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Current assignee: Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Priority date: 2024-02-06
Filing date: 2024-02-06
Publication date: 2024-05-10

Abstract

本发明提供了一种确定并处理弹性计算中异常实例的方法及装置，该方法为：采集弹性伸缩组中每个实例对应的多个运行指标；计算实例对应的每一个运行指标的指标偏差值；基于实例对应的每一个运行指标的指标偏差值，计算实例对应的总体偏差值；若实例对应的总体偏差值大于偏差阈值，确定实例为异常实例；停止向异常实例分发流量。本方案中，通过实例的运行指标计算实例对应的总体偏差值，当实例对应的总体偏差值大于偏差阈值，则确定实例为异常实例，停止向异常实例分发流量。通过运行指标来提前发现异常实例，并停止向所发现的异常实例分发流量，确保流入各实例的流量都能够正常提供服务，提高服务可用性。

Description

一种确定并处理弹性计算中异常实例的方法及装置

技术领域

本发明涉及云平台弹性计算技术领域，具体涉及一种确定并处理弹性计算中异常实例的方法及装置。

背景技术

弹性计算通过弹性伸缩组做算力的横向扩容，并通过负载均衡将流量转发到弹性伸缩组下的每台实例。

目前通常是通过健康检查机制按照一定时间间隔(如间隔5秒)来探测每台实例的可用性，如果某一实例连续探测失败多次则可确定该实例为异常实例，停止向异常实例转发流量。

但是，由于判定异常实例的条件是连续探测失败多次，相邻两次探测之间有一定时间间隔，某一实例连续探测失败多次需要耗费一段时间，这一时间段内流入到异常实例的流量都不能正常提供服务，服务可用性较差。

发明内容

有鉴于此，本发明实施例提供一种确定并处理弹性计算中异常实例的方法及装置，以解决通过健康检查机制发现异常实例这一方式所存在的服务可用性较差等问题。

为实现上述目的，本发明实施例提供如下技术方案：

本发明实施例第一方面公开一种确定并处理弹性计算中异常实例的方法，所述方法包括：

采集弹性伸缩组中每个实例对应的多个运行指标；

计算所述实例对应的每一个运行指标的指标偏差值；

基于所述实例对应的每一个运行指标的指标偏差值，计算所述实例对应的总体偏差值；

若所述实例对应的总体偏差值大于偏差阈值，确定所述实例为异常实例；

停止向所述异常实例分发流量。

优选的，计算所述实例对应的每一个运行指标的指标偏差值，包括：

利用各个所述实例对应的多个运行指标，分别计算各运行指标对应的平均值；

基于各运行指标对应的平均值、所述实例对应的每一个运行指标，分别计算所述实例对应的每一个运行指标的指标偏差值。

优选的，基于所述实例对应的每一个运行指标的指标偏差值，计算所述实例对应的总体偏差值，包括：

计算所述实例对应的每一个运行指标的指标偏差值之间的平均值，以得到所述实例对应的总体偏差值。

优选的，停止向所述异常实例分发流量，包括：

利用负载均衡将所述异常实例的权重调整为0，以停止向所述异常实例分发流量。

优选的，确定所述实例为异常实例之后，还包括：

输出至少包含所述异常实例的详情信息的告警信息。

本发明实施例第二方面公开一种确定并处理弹性计算中异常实例的装置，所述装置包括：

采集单元，用于采集弹性伸缩组中每个实例对应的多个运行指标；

第一计算单元，用于计算所述实例对应的每一个运行指标的指标偏差值；

第二计算单元，用于基于所述实例对应的每一个运行指标的指标偏差值，计算所述实例对应的总体偏差值；

确定单元，用于若所述实例对应的总体偏差值大于偏差阈值，确定所述实例为异常实例；

停止单元，用于停止向所述异常实例分发流量。

优选的，所述第一计算单元具体用于：利用各个所述实例对应的多个运行指标，分别计算各运行指标对应的平均值；基于各运行指标对应的平均值、所述实例对应的每一个运行指标，分别计算所述实例对应的每一个运行指标的指标偏差值。

优选的，所述第二计算单元具体用于：计算所述实例对应的每一个运行指标的指标偏差值之间的平均值，以得到所述实例对应的总体偏差值。

优选的，所述停止单元具体用于：利用负载均衡将所述异常实例的权重调整为0，以停止向所述异常实例分发流量。

优选的，所述装置还包括：

告警单元，用于输出至少包含所述异常实例的详情信息的告警信息。

基于上述本发明实施例提供的一种确定并处理弹性计算中异常实例的方法及装置，该方法为：采集弹性伸缩组中每个实例对应的多个运行指标；计算实例对应的每一个运行指标的指标偏差值；基于实例对应的每一个运行指标的指标偏差值，计算实例对应的总体偏差值；若实例对应的总体偏差值大于偏差阈值，确定实例为异常实例；停止向异常实例分发流量。本方案中，通过实例的运行指标计算实例对应的总体偏差值，当实例对应的总体偏差值大于偏差阈值，则确定实例为异常实例，停止向异常实例分发流量。通过运行指标来提前发现异常实例，并停止向所发现的异常实例分发流量，确保流入各实例的流量都能够正常提供服务，提高服务可用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的现有的健康检查机制的原理示意图；

图2为本发明实施例提供的CPU指标一致性示例图；

图3为本发明实施例提供的内存指标一致性示例图；

图4为本发明实施例提供的垃圾回收效率指标一致性示例图；

图5为本发明实施例提供的一种确定并处理弹性计算中异常实例的方法的流程图；

图6为本发明实施例提供的确定并处理弹性计算中异常实例的方法的原理示意图；

图7为本发明实施例提供的一种确定并处理弹性计算中异常实例的装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

弹性计算通过弹性伸缩组做算力的横向扩容，并通过负载均衡将流量转发到弹性伸缩组下的每台实例(云实例)。弹性计算部分是云计算的重中之重，由于物理资源异常、虚拟化异常、运行时异常、程序BUG等各种原因，可能会造成弹性计算的某个或部分节点异常。

其中，弹性伸缩组具体是指：具有相同配置和规格的一套计算节点。

目前是通过健康检查机制不停地探测每台实例中服务的可用性，当发现服务异常时负载均衡会主动停止向坏点实例转发流量。健康检查机制的原理是：预先配置探测的请求地址url、探测期望返回http状态码、探测失败的一些阈值设置。前述健康检查机制的滞后性决定了对生产流量已经造成部分服务不可用。

如图1示出的现有的健康检查机制的原理示意图可见，健康检查机制每间隔5秒(探测周期为5秒)就探测一次实例的可用性，如果某一实例连续探测失败3次则可确定该实例为异常实例，停止向异常实例转发流量(相当于切断异常实例的流量)；但是在发现异常实例的前15秒内(3*5秒)，流入该异常实例的流量都不能正常提供服务，服务可用性较差，现有的健康检查机制是一种有损的补救措施。

为实现在弹性计算中如何提前发现异常实例并自我修复，达到弹性伸缩组中所承载的业务在服务异常时“零受损”的效果，本方案提出一种确定并处理弹性计算中异常实例的方法及装置，通过运行指标来提前发现异常实例，并停止向所发现的异常实例分发流量，确保流入各实例的流量都能够正常提供服务，提高服务可用性。

发明人经研究发现，弹性计算具有“均衡性”这一特征，用户在使用弹性伸缩组时常用的场景如下：

(1)、弹性伸缩组内的算力来自同一种规格的云实例，这就决定了其CPU、内存、磁盘、网络等基础资源的配置和性能是一致的。

(2)、弹性伸缩组的流量由负载均衡做控制，而生产环境中负载均衡的流量策略是轮询的；也就是说，弹性伸缩组如果有N台实例，那么每台实例承担的流量都是1/N。

(3)、弹性伸缩组内的实例都来源于同一个镜像，也就是弹性伸缩组内的实例都承载着相同的业务程序。其中，镜像是指操作系统+应用+环境变量组成的一个虚拟资源。

综上(1)-(3)所示的场景内容可以发现，用同样配置的机器(也就是云实例)运行同样的程序并承载着同样比例的流量，就决定了这批实例正常运行时的运行指标一定是趋于一致的，假如某台实例的运行指标出现了明显偏差，就有理由怀疑该实例因某种原因引发了异常，这样就可以在异常转变为故障之前发现异常实例并提前做出处理。

为验证前述“这批实例正常运行时的运行指标一定是趋于一致的”这一特征，发明人利用了真实的实例的运行指标进行了大量验证；例如图2提供的CPU指标一致性示例图可见，多台实例正常运行时的“CPU使用率”这一运行指标是趋于一致的；又例如图3提供的内存指标一致性示例图可见，多台实例正常运行时的“内存使用率”这一运行指标是趋于一致的；又例如图4提供的垃圾回收效率指标一致性示例图可见，多台实例正常运行时的“垃圾回收效率”这一运行指标是趋于一致的。

在上述发明人研究发现的内容的基础上，本方案利用“同一弹性伸缩组内不同实例各个维度的运行指标应该具备强相似度”这一特性，通过采集并比对这些运行指标，可以发现出现明显偏差的实例以提前发现异常实例(也可称为坏点实例)，提前截断负载均衡到异常实例的流量(相当于剔除异常实例)，避免异常转换为故障，进而避免造成线上服务不可用的情况。

以下通过各个实施例对本方案进行详细说明。

参见图5，示出了本发明实施例提供的一种确定并处理弹性计算中异常实例的方法的流程图，该方法包括：

步骤S501：采集弹性伸缩组中每个实例对应的多个运行指标。

需要说明的是，弹性伸缩组中包含了多个实例(云实例)。

在具体实现步骤S501的过程中，针对弹性伸缩组中的每个实例，采集该实例对应的多个运行指标；即每一个实例都采集多个运行指标。

可以理解的是，某些指标会因为某些因素带来的异常而发生波动，就需要监测这些因异常而波动的指标，所监测的指标就是上述采集的“多个运行指标”。从层级上来看，前述采集的“多个运行指标”分为资源层的运行指标和系统层的运行指标，以下分别解释资源层的运行指标和系统层的运行指标。

关于“资源层的运行指标”的解释：云计算中的实例是在物理资源基础上进行过一次虚拟化后按规格分配到该实例中的，所以当物理资源有问题(如磁盘坏道、内存条损坏等)和虚拟化有问题(如调度算法BUG、虚拟网络配置错误等)时，都会影响到CPU利用率、内存利用率、磁盘IO、网络吞吐等运行指标。

需要说明的是，“虚拟化”指的是将物理资源拆成云资源的技术。

关于“系统层的运行指标”的解释：程序运行时触发BUG(如内存溢出、队列阻塞、连接池非释放等)会影响到垃圾回收效率、并发线程数、qps(每秒查询率)、错误日志行数、Http返回状态码等运行指标。

基于上述关于“资源层的运行指标”和“系统层的运行指标”的内容可见，所采集的实例对应的多个运行指标包括但不仅限于：CPU利用率、内存利用率、磁盘IO、网络吞吐、垃圾回收效率、并发线程数、qps、错误日志行数、Http返回状态码等。

也就是说，弹性伸缩组中的每个实例都需要采集CPU利用率、内存利用率、磁盘IO、网络吞吐、垃圾回收效率、并发线程数、qps、错误日志行数、Http返回状态码等运行指标。

具体可以通过Zabbix、Prometheus等采集工具各个实例的运行指标。

步骤S502：计算实例对应的每一个运行指标的指标偏差值。

在具体实现步骤S502的过程中，利用各个实例对应的多个运行指标，分别计算各运行指标对应的平均值。具体来说，利用各个实例在某一时刻的多个运行指标，分别计算该时刻各运行指标对应的平均值；即每一运行指标都计算得到相应的平均值。

例如：利用各个实例的CPU利用率，计算CPU利用率对应的平均值；利用各个实例的垃圾回收效率，计算垃圾回收效率对应的平均值。

在实际应用中，可以通过公式(1)计算单个运行指标对应的平均值。

AvgM＝(M1+M2+……+Mn)/n(1)

在公式(1)中，M表示运行指标，n为弹性伸缩组中的实例的总数量，AvgM表示运行指标M对应的平均值，M1为第1个实例对应的运行指标M，Mn为第n个实例对应的运行指标M。

计算得到各运行指标对应的平均值之后，基于各运行指标对应的平均值、实例对应的每一个运行指标，分别计算实例对应的每一个运行指标的指标偏差值。

具体来说，针对弹性伸缩组中的每一个实例，基于各运行指标对应的平均值、该实例对应的每一个运行指标，分别计算该实例对应的每一个运行指标的指标偏差值，指标偏差值为运行指标与相应的平均值之间的偏差。

例如：对于实例A，基于CPU利用率对应的平均值、实例A的CPU利用率，计算实例A的CPU利用率的指标偏差值；基于内存利用率对应的平均值、实例A的内存利用率，计算实例A的内存利用率的指标偏差值。

即每个实例的每个运行指标都需要计算得到相应的指标偏差值。

在实际应用中，可以通过公式(2)计算某一实例对应的单个运行指标的指标偏差值。

在公式(2)中，M为运行指标，AvgM为运行指标M对应的平均值，S为某一实例对应的运行指标M的指标偏差值。

步骤S503：基于实例对应的每一个运行指标的指标偏差值，计算实例对应的总体偏差值。

在具体实现步骤S503的过程中，针对弹性伸缩组中的每一个实例，计算该实例对应的每一个运行指标的指标偏差值之间的平均值，以得到该实例对应的总体偏差值。

具体来说，可以通过公式(3)计算某一实例对应的总体偏差值。

总体偏差值＝(S1+S2+S3+……+Sx)/x(3)

在公式(3)中，x为某一实例对应的运行指标的个数(相当于总共采集该实例对应的x个运行指标)，S1为该实例对应的第1个运行指标的指标偏差值，Sx为该实例对应的第x个运行指标的指标偏差值。

通过上述公式(3)即可计算得到每一个实例对应的总体偏差值。

步骤S504：若实例对应的总体偏差值大于偏差阈值，确定实例为异常实例。

需要说明的是，如果某一实例对应的总体偏差值较大，则有理由怀疑该实例存在问题。

在具体实现步骤S504的过程中，对于弹性伸缩组中的每一个实例，若该实例对应的总体偏差值大于偏差阈值，则确定实例为异常实例。

需要说明的是，不同业务场景的业务保障等级有所不同，不同业务保障等级所能够接受的运行指标波动幅度也有所不同；业务保障等级高(意味着业务很重要)的就可以将偏差阈值设置得小一些，相反，业务保障等级低的就可以将偏差阈值设置得大一些。

因此偏差阈值需要由用户根据业务场景来进行配置，具体来说，可以根据业务场景在负载均衡和/或弹性伸缩组中配置偏差阈值；偏差阈值的其中一个优选取值可以是5％，从实际应用来看，偏差阈值可以设置为小于5％。

步骤S505：停止向异常实例分发流量。

需要说明的是，负载均衡可以控制分发到每一实例中流量的权重(这是公有云标准能力)。

在具体实现步骤S505的过程中，确定出异常实例后，利用负载均衡将异常实例的权重调整为0，以停止向异常实例分发流量；即利用负载均衡把流向异常实例的权重改为0，这样就能够停止向异常实例分发流量。

例如：假设弹性伸缩组包含5个实例，将这5个实例的权重都设置成100，这样每个实例都承载20％的流量；当发现某个实例为异常实例时，将异常实例的权重设置为0，其它实例的权重还是100，这样剩下的4个实例中每个实例都会承载25％的流量，而异常实例承载0％的流量。

一些实施例中，确定出异常实例后，输出至少包含异常实例的详情信息的告警信息；异常实例的详情信息至少包含实例名称、总体偏差值等。

例如：将包含异常实例的详情信息的告警信息发送给指定用户。

在本发明实施例中，通过实例的运行指标计算实例对应的总体偏差值，当实例对应的总体偏差值大于偏差阈值，则确定实例为异常实例，停止向异常实例分发流量。通过运行指标来提前发现异常实例，并停止向所发现的异常实例分发流量，确保流入各实例的流量都能够正常提供服务，提高服务可用性。

为更好解释说明本方案是如何识别异常实例的，通过图6示出的确定并处理弹性计算中异常实例的方法的原理示意图进行举例说明。

如图6所示，弹性伸缩组中包含5个实例，通过负载均衡将流量均匀分配给各个实例；采集各个实例对应的CPU利用率、内存利用率、网络qps、磁盘IO、http状态码、jvm等运行指标；并比对这些运行指标，当发现某一实例的运行指标出现较大波动时可确定该实例为异常实例，此时提前截断分配给该异常实例的流量。

本方案能够提前发现弹性伸缩组中的异常实例并实现自愈(截断分配给异常实例的流量)，远远优于公有云中滞后的止损策略。

与上述本发明实施例提供的一种确定并处理弹性计算中异常实例的方法相对应，参见图7，本发明实施例还提供了一种确定并处理弹性计算中异常实例的装置的结构框图，该装置包括：采集单元701、第一计算单元702、第二计算单元703、确定单元704、停止单元705；

采集单元701，用于采集弹性伸缩组中每个实例对应的多个运行指标。

第一计算单元702，用于计算实例对应的每一个运行指标的指标偏差值。

在具体实现中，第一计算单元702具体用于：利用各个实例对应的多个运行指标，分别计算各运行指标对应的平均值；基于各运行指标对应的平均值、实例对应的每一个运行指标，分别计算实例对应的每一个运行指标的指标偏差值。

第二计算单元703，用于基于实例对应的每一个运行指标的指标偏差值，计算实例对应的总体偏差值。

在具体实现中，第二计算单元703具体用于：计算实例对应的每一个运行指标的指标偏差值之间的平均值，以得到实例对应的总体偏差值。

确定单元704，用于若实例对应的总体偏差值大于偏差阈值，确定实例为异常实例。

停止单元705，用于停止向异常实例分发流量。

在具体实现中，停止单元705具体用于：利用负载均衡将异常实例的权重调整为0，以停止向异常实例分发流量。

优选的，结合图7示出的内容，该装置还包括：

告警单元，用于输出至少包含异常实例的详情信息的告警信息。

综上所述，本发明实施例提供一种确定并处理弹性计算中异常实例的方法及装置，通过实例的运行指标计算实例对应的总体偏差值，当实例对应的总体偏差值大于偏差阈值，则确定实例为异常实例，停止向异常实例分发流量。通过运行指标来提前发现异常实例，并停止向所发现的异常实例分发流量，确保流入各实例的流量都能够正常提供服务，提高服务可用性。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种确定并处理弹性计算中异常实例的方法，其特征在于，所述方法包括：

采集弹性伸缩组中每个实例对应的多个运行指标；

计算所述实例对应的每一个运行指标的指标偏差值；

停止向所述异常实例分发流量。

2.根据权利要求1所述的方法，其特征在于，计算所述实例对应的每一个运行指标的指标偏差值，包括：

3.根据权利要求1所述的方法，其特征在于，基于所述实例对应的每一个运行指标的指标偏差值，计算所述实例对应的总体偏差值，包括：

4.根据权利要求1所述的方法，其特征在于，停止向所述异常实例分发流量，包括：

5.根据权利要求1-4中任一所述的方法，其特征在于，确定所述实例为异常实例之后，还包括：

输出至少包含所述异常实例的详情信息的告警信息。

6.一种确定并处理弹性计算中异常实例的装置，其特征在于，所述装置包括：

停止单元，用于停止向所述异常实例分发流量。

7.根据权利要求6所述的装置，其特征在于，所述第一计算单元具体用于：利用各个所述实例对应的多个运行指标，分别计算各运行指标对应的平均值；基于各运行指标对应的平均值、所述实例对应的每一个运行指标，分别计算所述实例对应的每一个运行指标的指标偏差值。

8.根据权利要求6所述的装置，其特征在于，所述第二计算单元具体用于：计算所述实例对应的每一个运行指标的指标偏差值之间的平均值，以得到所述实例对应的总体偏差值。

9.根据权利要求6所述的装置，其特征在于，所述停止单元具体用于：利用负载均衡将所述异常实例的权重调整为0，以停止向所述异常实例分发流量。

10.根据权利要求6-9中任一所述的装置，其特征在于，所述装置还包括：