CN108234658A

CN108234658A - 一种感知服务器集群健康状况的方法、装置和服务器

Info

Publication number: CN108234658A
Application number: CN201810012351.2A
Authority: CN
Inventors: 陆瀛海
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-01-05
Filing date: 2018-01-05
Publication date: 2018-06-29
Anticipated expiration: 2038-01-05
Also published as: CN108234658B

Abstract

本发明实施例提供了一种感知服务器集群健康状况的方法、装置和服务器，其中，该方法包括：获取当前时间前的预设时间内接收到的调用请求的第一总数量；从所述预设时间内接收到的调用请求中，获取重试调用请求的第二总数量；判断第二总数量与第一总数量比值是否超过第一预设比例阈值；如果第二总数量与第一总数量比值超过第一预设比例阈值，则确定所述被调用者集群不健康，从而得知被调用者集群的健康状况。由于应用于调用者集群内部的服务器，不依赖于安装在集群外的服务器，减少了所需要调用的数据和时间，提高效率和准确度。

Description

一种感知服务器集群健康状况的方法、装置和服务器

技术领域

本发明涉及网络技术领域，特别是涉及一种感知服务器集群健康状况的方法、装置和服务器。

背景技术

微服务架构中包含多个调用者和被调用者集群，集群中包含多个服务器。调用者集群通过调用被调用者集群执行来不同的任务，在被调用者集群中出现负载过高或者部分服务器故障的时候，现有技术的方法是借助安装在集群外的服务器上的监控软件感知集群负载过高或者部分服务器故障。

然而，安装在集群外的服务器监控集群健康状况，需要发送多条命令给调用者集群中的服务器，调用者集群中的服务器再去获取一定时间内被调用者集群未应答的调用请求的数量占调用请求总数的情况是否超过一定值，从而获知被调用者集群的健康状况。这种监控感知被调用者集群健康状况的方法，获取信息的过程比较复杂，所以效率不高；而且由于调用者集群执行的命令过多，反馈给调用者集群的信息往往已经过时，因此，计算得出的被调用者集群的健康状况准确度不高。

发明内容

本发明实施例的目的在于提供一种感知服务器集群健康状况的方法、装置和服务器，以提高监控感知服务器集群健康的效率和准确度，具体技术方案如下：

第一方面，本发明实施例提供了一种感知服务器集群健康状况的方法，应用于被调用者集群中的服务器，包括：

获取当前时间前的预设时间内接收到的调用请求的第一总数量；

从所述预设时间内接收到的调用请求中，获取重试调用请求的第二总数量；

判断第二总数量与第一总数量比值是否超过第一预设比例阈值；

如果第二总数量与第一总数量比值超过第一预设比例阈值，则确定所述被调用者集群不健康。

可选的，所述感知服务器集群健康状况的方法还包括：

所述服务器每次接收到一个调用请求时，将当前时间确定为该调用请求的接收时间并记录；

从所述当前接收到的调用请求中，获取该调用请求的开始时间；

判断当前接收到的调用请求接收时间与开始时间的第一时间差值是否大于预设的延迟时间阈值；

若当前接收到的调用请求的接收时间与开始时间的第一时间差值大于预设的延迟时间阈值，则将该调用请求记录为重试调用请求；

所述从所述预设时间内接收到的调用请求中，获取重试调用请求的第二总数量的步骤，包括：

统计预设时间内接收到的调用请求中，被记录为重试调用请求的总数量，作为重试调用请求的第二总数量。

可选的，所述感知服务器集群健康状况的方法还包括：

从所述预设时间内接收到的调用请求中，获取重试调用请求的第二总数量的步骤，包括：

从所述当前时间前的预设时间内接收到的调用请求中，获取各个调用请求的开始时间；

计算每个调用请求的接收时间与开始时间的第一时间差值；

判断各个调用请求接收时间与开始时间的第一时间差值是否大于预设的延迟时间阈值；

将第一时间差值大于预设的延迟时间阈值的调用请求确定为重试调用请求；

统计预设时间内接收到的调用请求中，被确定为重试调用请求的总数量，作为重试调用请求的第二总数量。

可选的，所述从所述当前时间前的预设时间内接收到的调用请求中，获取各个调用请求的开始时间的步骤，包括：

从所述当前时间前的预设时间内收到的调用请求中，获取各个调用请求中的时间戳作为各个调用请求的开始时间。

可选的，所述预设的延迟时间阈值是预先设定的固定的延迟时间值。

可选的，在判断各个调用请求接收时间与开始时间的第一时间差值是否大于预设的延迟时间阈值的步骤之前，还包括：

计算各个调用请求的接收时间和开始时间的第一时间差值；

根据所述在预设时间内接收到的调用请求的第一总数量，计算第一时间差值的平均值；

将所述第一时间差值的平均值作为预设的延迟时间阈值。

可选的，在获取当前时间前的预设时间内接收到的调用请求的第一总数量的步骤之前，还包括：在接收到的当前调用请求时，判断当前调用请求是否为重试调用请求；

当所述当前调用请求为重试调用请求时，执行所述获取当前时间前的预设时间内接收到的调用请求的第一总数量的步骤。

可选的，在确定所述被调用者集群不健康的步骤之后，所述方法还包括：

生成携带所述被调用者集群不健康标识的信息；

保存并输出所述被调用者集群不健康标识的信息。

可选的，在确定所述被调用者集群不健康的步骤之后，所述方法还包括：做降级处理。

可选的，本发明实施例提供另一种感知服务器集群健康状况的方法，应用于被调用者集群中的服务器，包括：

获取当前时间前的预设时间内接收到的调用请求；

判断在当前时间前的预设时间内接收到的调用请求中，是否存在重试调用请求；

如果存在重试调用请求，则确定重试调用请求的重试次数；

判断是否存在一个重试调用请求的重试次数与第一总数量的比值超过第二预设比例阈值；

如果存在一个重试调用请求的重试次数与第一总数量的比值超过第二预设比例阈值，则确定所述被调用者集群不健康。

可选的，所述感知服务器集群健康状况的方法还包括：

所述判断在当前时间前的预设时间内接收到的调用请求中，是否存在重试调用请求的步骤，包括：

从所述当前时间前的预设时间内的调用请求中，获取各个调用请求的开始时间；

若一个调用请求的接收时间与开始时间的第一时间差值大于预设的延迟时间阈值，则将所述调用请求记录为重试调用请求；

所述确定重试调用请求的重试次数的步骤，包括：

将所述重试调用请求的第一时间差值与预设的延迟时间阈值比值的整数倍数作为所述重试调用请求的重试调用次数。

可选的，所述从所述当前时间前的预设时间内的调用请求中，获取各个调用请求的开始时间的步骤，包括：

从所述预设时间内的调用请求中，获取各个调用请求中的时间戳作为各个调用请求的开始时间。

可选的，所述预设的延迟时间阈值是预先设定的固定时间值。

可选的，在所述判断所述第一时间差值是否大于预设的延迟时间阈值的步骤之前，还包括：

针对当前时间前的预设时间内接收到的每个调用请求，获取各个调用请求的接收时间；

计算所述各个调用请求的接收时间和开始时间的第一时间差值；

根据所述当前时间前的预设时间内接收到的调用请求的第一总数量，计算第一时间差值的平均值；

将所述第一时间差值的平均值作为预设的延迟时间阈值。

生成携带所述被调用者集群不健康标识的信息；

保存并输出所述被调用者集群不健康标识的信息。

第二方面，本发明实施例提供了一种感知服务器集群健康状况的装置，应用于被调用者集群中的服务器，所述装置包括：

第一数量获取模块，用于获取当前时间前的预设时间内接收到的调用请求的第一总数量；

第二数量获取模块，用于从所述预设时间内接收到的调用请求中，获取重试调用请求的第二总数量；

数量比值判断模块，用于判断第二总数量与第一总数量比值是否超过第一预设比例阈值；

集群健康确定模块，用于如果第二总数量与第一总数量比值超过第一预设比例阈值，则确定所述被调用者集群不健康。

可选的，所述感知服务器集群健康状况的装置还包括：重试调用请求记录模块；

所述重试调用请求记录模块，包括:

时间记录子模块，具体用于：所述服务器每次接收到一个调用请求时，将当前时间确定为该调用请求的接收时间并记录；

开始时间获取子模块，具体用于：从所述当前接收到的调用请求中，获取该调用请求的开始时间；

时间差值判断子模块，具体用于：判断当前接收到的调用请求接收时间与开始时间的第一时间差值是否大于预设的延迟时间阈值；

重试调用请求记录子模块，具体用于：若当前接收到的调用请求的接收时间与开始时间的第一时间差值大于预设的延迟时间阈值，则将该调用请求记录为重试调用请求；

所述第二数量获取模块，具体用于：统计预设时间内接收到的调用请求中，被记录为重试调用请求的总数量，作为重试调用请求的第二总数量。

可选的，所述感知服务器集群健康状况的装置还包括：

时间记录模块，用于所述服务器每次接收到一个调用请求时，将当前时间确定为该调用请求的接收时间并记录；

所述第二数量获取模块，包括：

开始时间获取子模块，具体用于：从所述当前时间前的预设时间内接收到的调用请求中，获取各个调用请求的开始时间；

时间差值计算子模块，具体用于：计算每个调用请求的接收时间与开始时间的第一时间差值；

时间差值判断子模块，具体用于：判断各个调用请求接收时间与开始时间的第一时间差值是否大于预设的延迟时间阈值；

重试调用请求确定子模块，具体用于：将第一时间差值大于预设的延迟时间阈值的调用请求确定为重试调用请求；

第二数量确定子模块，具体用于：统计预设时间内接收到的调用请求中，被确定为重试调用请求的总数量，作为重试调用请求的第二总数量。

可选的，所述开始时间获取子模块，具体用于：

从所述当前时间前的预设时间内接收到的调用请求中，获取各个调用请求中的时间戳作为各个调用请求的开始时间。

可选的，所述第二数量获取模块还包括：

延迟时间阈值确定子模块，具体用于：

在所述时间差值判断子模块判断所述第一时间差值是否大于预设的延迟时间阈值之前，计算各个调用请求的接收时间和开始时间的第一时间差值；

将所述第一时间差值的平均值作为预设的延迟时间阈值。

可选的，所述第一数量获取模块，具体用于：

在接收到的当前调用请求时，判断当前调用请求是否为重试调用请求；

可选的，所述集群健康确定模块，还用于：

在确定所述被调用者集群不健康之后，生成携带所述被调用者集群不健康标识的信息；

保存并输出所述被调用者集群不健康标识的信息。

可选的，所述集群健康确定模块还用于：在确定所述被调用者集群不健康之后，做降级处理。

可选的，本发明实施例提供了另一种感知服务器集群健康状况的装置，应用于被调用者集群中的服务器，包括：

调用请求获得模块，获取当前时间前的预设时间内接收到的调用请求；

重试调用请求判断模块，用于判断在当前时间前的预设时间内接收到的调用请求中，是否存在调用请求是重试调用请求；

重试次数确定模块，用于如果存在调用请求是重试调用请求，则确定重试调用请求的重试次数；

次数判断模块，用于判断是否存在一个重试调用请求的重试次数与第一总数量的比值超过第二预设比例阈值；

集群健康确定模块，用于如果存在一个重试调用请求的重试次数与第一总数量的比值超过第二预设比例阈值，则确定所述被调用者集群不健康。

可选的，所述感知服务器集群健康状况的装置还包括：

时间记录模块，具体用于：所述服务器每次接收到一个调用请求时，将当前时间确定为该调用请求的接收时间并记录；

所述重试调用请求判断模块，包括：

重试调用请求记录子模块，具体用于：若一个调用请求的接收时间与开始时间的第一时间差值大于预设的延迟时间阈值，则将该调用请求记录为重试调用请求；

所述重试次数确定模块，具体用于：将所述第一时间差值与预设的延迟时间阈值比值的整数倍数作为所述当前调用请求的重试次数。

可选的，所述开始时间获取子模块，具体用于：

可选的，所述第二数量获取模块还包括：

延迟时间阈值确定子模块，具体用于：

在所述时间差值判断子模块判断所述第一时间差值是否大于预设的延迟时间阈值之前，针对当前时间前的预设时间内接收到的每个调用请求，获取各个调用请求的接收时间；

将所述第一时间差值的平均值作为预设的延迟时间阈值。

可选的，所述集群健康确定模块还用于：

保存并输出所述被调用者集群不健康标识的信息。

第三方面，本发明实施例还提供了一种服务器，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-16任一所述的方法步骤。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的一种感知服务器集群健康状况的方法。

在本发明实施的又一方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的一种感知服务器集群健康状况的方法。

本发明实施例提供的一种感知服务器集群健康状况的方法、装置和服务器，被调用者集群的服务器利用当前时间前的预设时间内接收到的重试调用请求的第二总数量和调用请求的第一总数量的比值是否超过第一预设比例阈值；或者，当前时间前的预设时间内接收到的重试调用请求的重试次数和调用请求的第一总数量的比值是否超过第二预设比例阈值，得知被调用者集群的健康状况。也就是被调用者集群中的服务器自身就能够感知集群的健康状况，不依赖于安装在集群外的服务器，不需要集群外的服务器与集群中服务器之间进行数据传输，因此节省了时间，提高了效率和准确度。

当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种感知服务器集群健康状况的方法的流程图；

图2为本发明实施例中一种确定重试调用请求的方法的流程图；

图3为本发明实施例中一种统计预定时间内重试调用请求的第二总数量的方法的流程图；

图4为本发明实施例提供的另一种感知服务器集群健康状况的方法的流程图；

图5为本发明实施例提供的一种感知服务器集群健康状况的装置的结构图；

图6为本发明实施例提供的另一种感知服务器集群健康状况的装置的结构图；

图7为本发明实施例提供的一种服务器的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明实施例为了解决现有技术由集群外的服务器感知集群的健康状况而导致的效率和准确性不高的问题，将感知集群健康状况的功能转移到被调用者集群中的服务器，由被调用者集群中的服务器根据自身接收的调用请求来感知集群的健康状况。

可以理解的是，如果被调用者集群中的一个服务器出现故障或者负载比较高，则发送给该服务器的调用请求就很可能无法处理。当调用者集群中的服务器确定有调用请求未被调用者集群中的服务器处理后，就会重新向被调用者集群发送这些未被处理的调用请求，也就是发送重试调用请求。因此，本发明实施例中，被调用者集群中的各个服务器可以通过接收到重试调用请求的情况，来感知集群的健康状况。

如图1所示，本发明实施例所提供的一种感知服务器集群健康状况的方法，应用于被调用者集群中的服务器，包括如下步骤：

S101，获取当前时间前的预设时间内接收到的调用请求的第一总数量；

其中，当前时间是被调用者集群服务器的系统时间，预设时间可以是任意设定的时间段。例如：1分钟、2分钟、5分钟等等。

可以理解的是，当前时间前的预设时间内接收到的调用请求的第一总数量，例如，调用者集群服务器的系统时间是10点21分35秒，假设预设时间是1分钟，则获取10点21分35秒至10点22分35秒服务器收到的调用请求的第一总数量。

实际应用中，为了进一步保证被调用者集群中的服务器能够比较及时地感知集群的健康状况，可以定时来执行图1所示的流程。其中，定时时间可以与上述的预设时长相同，也可以不相同。

S102，从所述预设时间内接收到的调用请求中，获取重试调用请求的第二总数量；

S103，判断第二总数量与第一总数量比值是否超过第一预设比例阈值；

S104，如果第二总数量与第一总数量比值超过第一预设比例阈值，则确定所述被调用者集群不健康。

如果第二总数量与第一总数量比值未超过第一预设比例阈值，则说明所述被调用者集群比较健康。

举例来说，假设预设时间内接收到的调用请求的总数量也就是第一总数量是与重试调用请求的总数量的比值是35％，假设预设的第一比例阈值是30％，则此时服务器确定被调用者集群不健康。

这里所述的第一预设比例阈值，是由集群管理人员根据经验预先设置的，通常是30％至50％。

可以理解的是，集群管理人员根据经验预先设定第一比例阈值，可以节省时间，提高感知集群健康状况的效率。

可选的，如图2所示，为了获得重试调用请求的第二总数量，可以在每次接收到调用请求时，就判断该调用请求是否为重试调用请求。具体的，可以通过如下步骤实现：

S201，所述服务器每次接收到一个调用请求时，将当前时间确定为该调用请求的接收时间并记录；

S202，从所述当前接收到的调用请求中，获取该调用请求的开始时间；

具体的，可以直接从当前接收的调用请求中，获取该调用请求中的时间戳作为该调用请求的开始时间。

其中，调用请求中的时间戳是调用者集群第一次发送调用请求时加入调用请求中的，以后重复发送过程中会一直携带该时间戳。也就是说该时间戳在重试调用请求中不会改变。每个调用请求中的时间戳可以是调用者集群发送各个调用请求时，调用者服务器的系统时间。

S203，判断当前接收到的调用请求接收时间与开始时间的第一时间差值是否大于预设的延迟时间阈值；

S204，若当前接收到的调用请求的接收时间与开始时间的第一时间差值大于预设的延迟时间阈值，则将该调用请求记录为重试调用请求。

例如：被调用者集群的服务器接收调用请求A的接收时间是11点17分30秒150毫秒；根据调用请求A中的时间戳可知，调用请求A的开始时间是11点17分30秒100毫秒；计算出调用请求A开始时间与接收时间的第一时间差值是50毫秒，假设预设的延迟时间阈值是40毫秒，则调用请求A开始时间与接收时间的第一时间差值大于预设的延迟时间阈值，将调用请求A记录为重试调用请求。

这样，图1中的步骤S102从所述预设时间内接收到的调用请求中，获取重试调用请求的第二总数量，就可以是：统计预设时间内接收到的调用请求中，被记录为重试调用请求的总数量，作为重试调用请求的第二总数量。

可以理解的是，被调用者集群每接收到一个调用请求，就判断该调用请求是否是重试调用请求，然后记录下来，再统计被记录为重试调用请求的总数量，通过这种方式只需在统计预设时间内接收到的调用请求中，查找记录的重试调用请求的数量即可，节省了获取第二总数量的时间。

本实施例中，所述预设的延迟时间阈值是预先设定的固定的延迟时间值。

这里所述的延迟时间阈值是由集群管理人员根据经验预先设置的，通常是20ms至100ms，例如本实施例中可以设定为50ms。

另外，延迟时间阈值还可以是实时计算的。具体的，延迟时间阈值可以在每次判断当前接收到的调用请求接收时间与开始时间的第一时间差值是否大于预设的延迟时间阈值之前，通过以下步骤获得：

步骤一，计算各个调用请求的接收时间和开始时间的第一时间差值；

步骤二，根据所述在预设时间内接收到的调用请求的第一总数量，计算第一时间差值的平均值；

步骤三，将所述第一时间差值的平均值作为预设的延迟时间阈值。

例如，预设时间1分钟内接收到的调用请求的第一总数量有4个，分别是调用请求A、B、C及D，调用请求A、B、C及D的第一时间差值分别是10毫秒，5毫秒、40毫秒、120毫秒，第一时间差值的平均值是43.75毫秒，可以将43.75毫秒作为预设的延迟阈值。

针对服务器在不同预设时间段内接收的调用请求不同，延迟时间也会有变化的情况，本实施例中采用实时计算延迟时间阈值，可以进一步提高确定重试调用请求的准确率。

可选的，在本发明实施例感知服务器集群健康状况的方法的一种实施例中，为了获得重试调用请求的第二总数量，还可以在每次服务器接收到调用请求时，将当前时间确定为该调用请求的接收时间并记录下来，然后在获取预定时间内重试调用请求的第二总数量过程中，先确定哪些调用请求是重试调用请求，进而统计预定时间内重试调用请求的第二总数量。

具体的，如图3所示，本实施例中一种统计预定时间内重试调用请求的第二总数量的步骤，包括：

S301，从所述当前时间前的预设时间内接收到的调用请求中，获取各个调用请求的开始时间；

具体的，可以直接从当前时间前的所述预设时间内收到的调用请求中，获取各个调用请求中的时间戳作为各个调用请求的开始时间。

S302，计算每个调用请求的接收时间与开始时间的第一时间差值；

S303，判断各个调用请求接收时间与开始时间的第一时间差值是否大于预设的延迟时间阈值；

S304，将第一时间差值大于预设的延迟时间阈值的调用请求确定为重试调用请求；

S305，统计预设时间内接收到的调用请求中，被确定为重试调用请求的总数量，作为重试调用请求的第二总数量。

本实施例中，被调用者集群中的服务器每接收到一个调用请求，不去判断该调用请求是否是重试调用请求而是先将该调用请求的接收时间并记录下来。在获取重试调用请求的第二总数量时，先获取各个调用请求的开始时间；然后再计算各个调用的接收时间与开始时间的第一时间差值；根据各个调用请求的第一时间差值是否大于预设的延迟时间阈值，确定重试调用请求；再统计重试调用请求的第二总数量。这种方式在可以保证对调用请求的处理速度，减轻服务器的计算负担。

可选的，在获取当前时间前的预设时间内接收到的调用请求的第一总数量的步骤之前，还可以包括：

这种方式，简单的说就是每收到一个重试调用请求就进行一次健康状况感知，虽然时效性非常好，但是对服务器增加的负担也比较多，系统维护人员可以根据是否要求很高的时效性来确定是否采用此种方式。

另外，可选的，在确定所述被调用者集群不健康的步骤之后，感知服务器集群健康状况的方法，还可以包括：

生成携带所述被调用者集群不健康标识的信息；

保存并输出所述被调用者集群不健康标识的信息。

通过本实施例可以将被调用者集群的健康状况输出保存，为开发人员提供参考。

可以理解的是，在确定被调用者集群不健康后，被调用者集群服务器可以生成被调用者集群不健康标识的信息。将所述被调用者集群不健康标识的信息保存至服务器的数据库；还可以输出给集群的管理平台，或者可以发送邮件至集群的维护人员的邮箱。这样，集群的维护人员就能够获知集群的健康状况了。

可选的，在确定所述被调用者集群不健康的步骤之后，感知服务器集群健康状况的方法还包括：做降级处理。

现有技术中，当感知到集群不健康后，为了减轻被调用者集群者服务器的压力会对被调用者集群者的服务器进行降级处理，本发明实施例中也可以采用与现有技术相同的方式来进行降级处理。例如：可以由维护人员进行人工降级处理，也可以按预设的方式进行自动降级处理。

本实施例通过服务器输出并保存服务器集群不健康的信息，维护人员对服务器降级处理。降级处理可以降低服务器的服务等级，减轻服务器的压力。

本发明实施例还提供了另一种感知服务器集群健康状况的方法，被调用者集群中的各个服务器同样是通过接收到重试调用请求的重试情况，来感知集群的健康状况。

可选的，如图4所示，本发明实施例另一种感知服务器集群健康状况的方法，应用于被调用者集群中的服务器，可以包括如下步骤：

S401，获取当前时间前的预设时间内接收到的调用请求；

S402，判断在当前时间前的预设时间内接收到的调用请求中，是否存在重试调用请求；

S403，如果存在重试调用请求，则确定重试调用请求的重试次数；

S404，获取当前时间前的预设时间内接收到的调用请求的第一总数量；

S405，判断是否存在一个重试调用请求的重试次数与第一总数量的比值超过第二预设比例阈值；

S406，如果存在一个重试调用请求的重试次数与第一总数量的比值超过第二预设比例阈值，则确定所述被调用者集群不健康。

本步骤中，可以先找出重试次数最多的重试调用请求，计算出该重试调用请求的次数与第一总数量的比值，再用该比值与第二预设比例阈值进行比较，如果超过第二预设比例阈值，则确定所述被调用者集群不健康。

当然，也可以先分别计算每个重试调用请求的次数与第一总数量的比值，从计算出的各个比值中，找出最大的比值与第二预设比例阈值进行比较，如果超过第二预设比例阈值，则确定所述被调用者集群不健康。

如果各个重试调用请求的重试次数与第一总数量比值未超过第二预设比例阈值，则说明所述被调用者集群比较健康。

举例来说，假设预设时间内接收到的调用请求的总数量也就是第一总数量是100，其中，重试调用请求的数量是4，重试次数分别是6、1、1、1。重试次数最多的是6，该重试调用请求的次数与第一总数量的比值为6％。

假设预设的第二比例阈值是3％，则此时服务器确定被调用者集群不健康。

这里所述的第二预设比例阈值，是由集群管理人员根据经验预先设置的，通常是3％到5％。

本实施例采用判断在当前时间前的预设时间内接收到的调用请求中，是否存在重试调用请求。然后去获取重试调用请求的重试次数，统计接收到重试调用请求次数与第一总数量的比值，来感知被调用者集群的健康状况。通过本实施例感知被调用者集群的健康状况的同时，减少服务器计算的负担。

可选的，本发明实施例感知服务器集群健康状况的方法，还可以根据如下步骤处理：

步骤一：在接收到的当前调用请求时，判断所述当前调用请求是否为重试调用请求；

步骤二：如果当前调用请求是重试调用请求，则确定当前调用请求的重试次数；

步骤三：获取当前调用请求前预设时间内接收到的调用请求的第一总数量；

步骤四：计算当前调用请求的重试次数与第一总数量的比值；

步骤五：判断当前重试调用请求的重试次数与第一总数量的比值是否超过第二预设比例阈值；

步骤六：如果是，则确定所述被调用者集群不健康。

如果当前重试调用请求的重试次数与第一总数量比值未超过第二预设比例阈值，则说明所述被调用者集群比较健康。

举例来说，假设被调用者集群服务器接收到的调用请求A，就判断出调用请求A是重试调用请求。预设时间是1分钟，预设时间内的第一总数量是100，重试调用请求的次数是4。假设预设的第二比例阈值是3％，则此时服务器确定集群不健康。

本实施例被调用者集群服务器接收到调用请求时，就判断该调用请求是否是重试调用请求。若该调用请求是重试调用请求，通过获取重试调用请求次数，统计接收到重试调用请求次数与总数量的比值是否超过第二预设比例阈值，本实施例感知被调用者集群的健康状况的时效性较强。本实施例感知集群健康状况的这种方式，简单的说就是每收到一个重试调用请求就进行一次集群健康状况感知，虽然时效性非常好，但是对服务器增加的负担也比较多，系统维护人员可以根据是否需要很高的时效性来确定是否采用此种方式。

可选的，本实施例中可以先在每次接收到一个调用请求时，将当前时间确定为该调用请求的接收时间并记录下来，这样判断在当前时间前的预设时间内接收到的调用请求中，是否存在重试调用请求可以通过以下方式获得：

本实施中的开始时间，与S202步骤中的开始时间的获取方式相同，因此在此处不再详述。

若一个调用请求的接收时间与开始时间的第一时间差值大于预设的延迟时间阈值，则将所述调用请求记录为重试调用请求。

这样，所述步骤S403确定重试调用请求的重试次数的步骤，就可以包括：

例如，调用请求A是重试调用请求，被调用者集群接收调用请求A的接收时间是11点17分27秒175毫秒，调用请求A的开始时间是11点17分27秒70毫秒，假设，预设的延迟时间阈值是50毫秒，调用请求A接收时间与开始时间的第一时间差值的是105毫秒，调用请求A的第一时间差值与预设的延迟时间阈值的比值是2.2，将2.2的整数部分2作为调用请求A的重试次数。

具体的，所述预设的延迟时间阈值是预先设定的固定的延迟时间值。

这里所述的延迟时间阈值是50ms，是由集群管理人员根据经验预先设置的，通常是20ms至100ms。

步骤一，针对当前时间前的预设时间内接收到的每个调用请求，获取各个调用请求的接收时间；

步骤二，计算所述各个调用请求的接收时间和开始时间的第一时间差值；

步骤三，所述当前时间前的预设时间内接收到的调用请求的第一总数量，计算第一时间差值的平均值；

步骤四，将所述第一时间差值的平均值作为预设的延迟时间阈值。

可选的，在确定所述被调用者集群不健康的步骤之后，感知服务器集群健康状况的方法还包括：

生成携带所述被调用者集群不健康标识的信息；

保存并输出所述被调用者集群不健康标识的信息。

相应于上述方法实施例，本发明实施例提供了一种感知服务器集群健康状况的装置，应用于被调用者集群中的服务器，如图5所示，包括：

第一数量获取模块501，用于获取当前时间前的预设时间内接收到的调用请求的第一总数量；

第二数量获取模块502，用于从所述预设时间内接收到的调用请求中，获取重试调用请求的第二总数量；

数量比值判断模块503，用于判断第二总数量与第一总数量比值是否超过第一预设比例阈值；

集群健康确定模块504，用于如果第二总数量与第一总数量比值超过第一预设比例阈值，则确定所述被调用者集群不健康。

所述重试调用请求记录模块，包括:

开始时间获取子模块，具体用于：从所述当前接收到的调用请求中，获取各个调用请求的开始时间；

可选的，所述感知服务器集群健康状况的装置还包括：

所述第二数量获取模块，包括：

可选的，开始时间获取子模块，具体用于：

所述预设的延迟时间阈值是预先设定的固定的延迟时间值。

可选的，第二数量获取模块还包括：

延迟时间阈值确定子模块，具体用于：

将所述第一时间差值的平均值作为预设的延迟时间阈值。

可选的，所述第一数量获取模块，具体用于：

可选的，所述集群健康确定模块还用于：

保存并输出所述被调用者集群不健康标识的信息。

可选的，所述集群健康确定模块还用于：

在确定所述被调用者集群不健康之后，做降级处理。

本发明实施例提供了另一种感知服务器集群健康状况的装置，应用于被调用者集群中的服务器，如图6所示，包括：

调用请求获得模块601，获取当前时间前的预设时间内接收到的调用请求；

重试调用请求判断模块602，用于判断在当前时间前的预设时间内接收到的调用请求中，是否存在调用请求是重试调用请求；

重试次数确定模块603，用于如果存在调用请求是重试调用请求，则确定重试调用请求的重试次数；

第一数量获取模块604，用于获取当前时间前的预设时间内接收到的调用请求的第一总数量；

次数判断模块605，用于判断是否存在一个重试调用请求的重试次数与第一总数量的比值超过第二预设比例阈值；

集群健康确定模块606，用于如果存在一个重试调用请求的重试次数与第一总数量的比值超过第二预设比例阈值，则确定所述被调用者集群不健康。

可选的，所述感知服务器集群健康状况的装置还包括：

所述重试调用请求判断模块，包括：

可选的，开始时间获取子模块，具体用于：

从所述预设时间内的调用的请求中，获取各个调用请求中的时间戳作为各个调用请求的开始时间。

所述预设的延迟时间阈值是预先设定的固定时间值。

可选的，所述第二数量获取模块还包括：

延迟时间阈值确定子模块，具体用于：

将所述第一时间差值的平均值作为预设的延迟时间阈值。

可选的，集群健康确定模块还用于：

保存并输出所述被调用者集群不健康标识的信息。

可选的，集群健康确定模块还用于：

在确定所述被调用者集群不健康之后服务器做降级处理。

本发明实施例还提供了一种服务器，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信，

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，实现如下步骤：

或者，实现如下步骤：

获取当前时间前的预设时间内接收到的调用请求；

如果存在重试调用请求，则确定重试调用请求的重试次数；

上述服务器提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述服务器与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的一种感知服务器集群健康状况的方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的一种感知服务器集群健康状况的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种感知服务器集群健康状况的方法，其特征在于，应用于被调用者集群中的服务器，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

计算每个调用请求的接收时间与开始时间的第一时间差值；

4.根据权利要求3所述的方法，其特征在于，所述从所述当前时间前的预设时间内接收到的调用请求中，获取各个调用请求的开始时间的步骤，包括：

5.根据权利要求3所述的方法，其特征在于，

所述预设的延迟时间阈值是预先设定的固定的延迟时间值。

6.根据权利要求3所述的方法，其特征在于，在判断各个调用请求接收时间与开始时间的第一时间差值是否大于预设的延迟时间阈值的步骤之前，还包括：

计算各个调用请求的接收时间和开始时间的第一时间差值；

将所述第一时间差值的平均值作为预设的延迟时间阈值。

7.根据权利要求1所述的方法，其特征在于，

在获取当前时间前的预设时间内接收到的调用请求的第一总数量的步骤之前，还包括：在接收到的当前调用请求时，判断当前调用请求是否为重试调用请求；

8.根据权利要求1所述的方法，其特征在于，在确定所述被调用者集群不健康的步骤之后，所述方法还包括：

生成携带所述被调用者集群不健康标识的信息；

保存并输出所述被调用者集群不健康标识的信息。

9.根据权利要求1所述的方法，其特征在于，在确定所述被调用者集群不健康的步骤之后，所述方法还包括：做降级处理。

10.一种感知服务器集群健康状况的方法，其特征在于，应用于被调用者集群中的服务器，包括：

获取当前时间前的预设时间内接收到的调用请求；

如果存在重试调用请求，则确定重试调用请求的重试次数；

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

所述确定重试调用请求的重试次数的步骤，包括：

12.根据权利要求11所述的方法，其特征在于，所述从所述当前时间前的预设时间内的调用请求中，获取各个调用请求的开始时间的步骤，包括：

13.根据权利要求11所述的方法，其特征在于，

所述预设的延迟时间阈值是预先设定的固定时间值。

14.根据权利要求11所述的方法，其特征在于，

在所述判断所述第一时间差值是否大于预设的延迟时间阈值的步骤之前，还包括：

将所述第一时间差值的平均值作为预设的延迟时间阈值。

15.根据权利要求10所述的方法，其特征在于，在确定所述被调用者集群不健康的步骤之后，所述方法还包括：

生成携带所述被调用者集群不健康标识的信息；

保存并输出所述被调用者集群不健康标识的信息。

16.根据权利要求10所述的方法，其特征在于，在确定所述被调用者集群不健康的步骤之后，所述方法还包括：做降级处理。

17.一种感知服务器集群健康状况的装置，其特征在于，应用于被调用者集群中的服务器，所述装置包括：

18.根据权利要求17所述的装置，其特征在于，所述装置还包括：重试调用请求记录模块；

所述重试调用请求记录模块，包括：

19.根据权利要求17所述的装置，其特征在于，所述装置还包括：

所述第二数量获取模块，包括：

20.根据权利要求19所述的装置，其特征在于，所述开始时间获取子模块，具体用于：

21.根据权利要求19所述的装置，其特征在于，

所述预设的延迟时间阈值是预先设定的固定的延迟时间值。

22.根据权利要求19所述的装置，其特征在于，所述第二数量获取模块还包括：

延迟时间阈值确定子模块，具体用于：

将所述第一时间差值的平均值作为预设的延迟时间阈值。

23.根据权利要求17所述的装置，其特征在于，所述第一数量获取模块，具体用于：

24.根据权利要求17所述的装置，其特征在于，所述集群健康确定模块，还用于：

保存并输出所述被调用者集群不健康标识的信息。

25.根据权利要求17所述的装置，其特征在于，所述集群健康确定模块还用于：在确定所述被调用者集群不健康之后，做降级处理。

26.一种感知服务器集群健康状况的装置，其特征在于，应用于被调用者集群中的服务器，包括：

27.根据权利要求26所述的装置，其特征在于，所述装置还包括：

所述重试调用请求判断模块，包括：

28.根据权利要求27所述的装置，其特征在于，所述开始时间获取子模块，具体用于：

29.根据权利要求27所述的装置，其特征在于，

所述预设的延迟时间阈值是预先设定的固定时间值。

30.根据权利要求27所述的装置，其特征在于，所述第二数量获取模块还包括：

延迟时间阈值确定子模块，具体用于：

将所述第一时间差值的平均值作为预设的延迟时间阈值。

31.根据权利要求26所述的装置，其特征在于，所述集群健康确定模块还用于：

保存并输出所述被调用者集群不健康标识的信息。

32.根据权利要求26所述的装置，其特征在于，所述集群健康确定模块还用于：在确定所述被调用者集群不健康之后，做降级处理。

33.一种服务器，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；