CN106603299B

CN106603299B - 一种服务健康指数的生成方法及装置

Info

Publication number: CN106603299B
Application number: CN201611237032.9A
Authority: CN
Inventors: 陈赜
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2016-12-28
Filing date: 2016-12-28
Publication date: 2020-05-01
Anticipated expiration: 2036-12-28
Also published as: CN106603299A

Abstract

本发明实施例提供了一种网络服务健康指数的生成方法及装置，其中方法包括：获取运行网络服务的每个机器的多个监控指标；根据多个监控指标，生成每个监控指标对应的健康指数；根据每个机器的多个监控指标对应的健康指数，生成每个机器的健康指数；根据多个机器的健康指数，生成集群的健康指数；根据多个集群的健康指数，生成网络服务的健康指数，网络服务由多个集群进行处理。本发明实施例能直观地反应当前网络服务的健康状态，避免遗漏关键报警信息；通过将监控指标分为关键指标和一般指标，当关键指标报警发生时，能立刻反映到相应的指标中；通过将网络服务按层级结构划分，能够快速追溯和定位报警事件的来源，提高报警事件的处理速度。

Description

一种服务健康指数的生成方法及装置

技术领域

本发明涉及运维监控技术领域，特别是涉及一种网络服务健康指数的生成方法及装置。

背景技术

目前，网站运维人员一般通过运维监控体系对整个网站的多个服务进行实时监控，以保证网站的正常运转。随着运维监控体系的不断完善，各种日常报警信息变得越来越庞杂。这些报警信息中，有的是一般报警信息，例如CPU使用率、内存占用率报警信息，有的是关键报警信息，例如节点Failover(失效转移)报警信息，不同重要性的报警信息对服务的影响程度差别很大。

然而，由于现有运维监控体系难以让运维人员直观地分辨哪些是一般报警信息的报警信息越来越庞杂，哪些是关键报警信息，往往造成运维人员往往被海量的报警信息淹没，容易遗漏很多关健报警信息。

发明内容

本发明实施例的目的在于提供一种网络服务健康指数的生成方法及装置，能够使运维人员避免遗漏关健报警信息。具体技术方案如下：

本发明实施例提供了一种网络服务健康指数的生成方法，包括：

获取运行所述网络服务的每个机器的多个监控指标；

根据所述多个监控指标，生成每个监控指标对应的健康指数；

根据所述每个机器的多个监控指标对应的健康指数，生成所述每个机器的健康指数；

根据多个所述机器的健康指数，生成集群的健康指数，所述集群由多个所述机器组成；

根据多个所述集群的健康指数，生成所述网络服务的健康指数，所述网络服务由多个所述集群进行处理。

优选地，所述监控指标包括关键指标和一般指标；

所述关键指标为决定所述机器是否能够正常运转的指标，当所述关键指标正常时，所述机器的健康指数随所述关键指标的升高而升高；当所述关键指标异常时，所述机器的健康指数最低；

所述一般指标为除所述关键指标外的监控指标，当所述一般指标正常时，所述机器的健康指数随所述一般指标的升高而升高；当所述一般指标异常时，所述机器的健康指数随所述一般指标的降低而降低。

优选地，所述根据所述每个机器的多个监控指标对应的健康指数，生成所述每个机器的健康指数，包括：

将所述每个监控指标的健康指数与所述监控指标对应的预设权重相乘，得到加权后的监控指标分值；

将每个机器中的各监控指标分值相加，生成所述机器的健康指数。

优选地，所述根据多个所述机器的健康指数，生成集群的健康指数，包括：

将所述机器的健康指数与所述机器对应的预设权重相乘，得到加权后的机器分值；

将每个集群中的各机器分值相加，生成集群的健康指数。

优选地，所述根据多个所述集群的健康指数，生成所述网络服务的健康指数，包括：

将所述集群的健康指数与所述集群对应的预设权重相乘，得到加权后的集群分值；

将所述网络服务中的各集群分值相加，生成所述网络服务的健康指数。

优选地，所述生成所述网络服务的健康指数之后，所述方法还包括：将所述服务的健康指数归一化为显示分数，并显示所述显示分数。

优选地，所述生成所述网络服务的健康指数之后，所述方法还包括：

存储生成的所述网络服务的健康指数，并与所述网络服务的健康指数的历史数据共同生成分数图表，以确定所述网络服务的健康指数变化趋势。

本发明实施例还公开了一种网络服务健康指数的生成装置，包括：

获取模块，用于获取运行所述网络服务的每个机器的多个监控指标；

第一生成模块，用于根据所述多个监控指标，生成每个监控指标对应的健康指数；

第二生成模块，用于根据所述每个机器的多个监控指标对应的健康指数，生成所述每个机器的健康指数；

第三生成模块，用于根据多个所述机器的健康指数，生成集群的健康指数，所述集群由多个所述机器组成；

第四生成模块，用于根据多个所述集群的健康指数，生成所述网络服务的健康指数，所述网络服务由多个所述集群进行处理。

优选地，所述监控指标包括关键指标和一般指标；

优选地，所述第二生成模块，进一步用于：

优选地，所述第三生成模块，进一步用于：

将每个集群中的各机器分值相加，生成集群的健康指数。

优选地，所述第四生成模块，进一步用于：

优选地，所述装置进一步包括：

显示模块，用于将所述服务的健康指数归一化为显示分数，并显示所述显示分数；

分数图表模块，用于存储生成的所述网络服务的健康指数，并与所述网络服务的健康指数的历史数据共同生成分数图表，以确定所述网络服务的健康指数变化趋势。

本发明实施例提供的一种网络服务健康指数的生成方法及装置，通过将网络服务按层级结构划分并生成每一层级对应的健康指数，每一层级对应的健康指数经聚合及加权计算，生成整个网络服务的健康指数，从而能直观地反应当前网络服务的健康状态，避免遗漏关键报警信息；通过将监控指标分为对网络服务的健康指数具有不同影响度的关键指标和一般指标，当关键指标报警发生时，能立刻反映到相应的指标中；通过将网络服务按层级结构划分，能够快速追溯和定位报警事件的来源，提高报警事件的处理速度。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例网络服务健康指数的生成方法的系统架构示意图；

图2为本发明实施例网络服务健康指数的生成方法的流程图；

图3为本发明实施例网络服务健康指数的生成方法的显示界面示意图；

图4为本发明实施例网络服务健康指数的生成装置的一种结构示意图；

图5为本发明实施例网络服务健康指数的生成装置的另一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参考图1，图1为本发明实施例网络服务健康指数的生成方法的系统架构示意图，其中包括由服务级、集群级、机器级和监控级组成的树形系统架构。一般地，网络服务指数据库服务、多媒体服务等，一个网络服务由多个集群进行处理，每个集群处理服务中不同的计算任务。每一个集群又包含多个机器，即服务器，这些机器能够处理相同的任务类型。并且，同一台机器也能分属于不同的集群，设计人员可以根据实际情况灵活部署。每一台机器对应多个监控指标，这些监控指标时刻监视着机器的运作情况。

本发明实施例提供了一种网络服务健康指数的生成方法，参考图2，图2为本发明实施例网络服务健康指数的生成方法的流程图，包括：

S101、获取运行网络服务的每个机器的多个监控指标。

不同的监控指标对机器的影响程度不同，因而对网络服务的影响程度也不同。这些监控指标包括每台机器的CPU使用率、内存占用率等指标，获取这些监控指标，就能够得知每台机器的运作情况。

S102、根据多个监控指标，生成每个监控指标对应的健康指数。

监控指标对应的健康指数用于量化该指标的运行状况。根据监控指标的当前状态，例如当前是正常还是异常，从而生成一个分数，即该监控指标的健康指数。该分数可以用该监控指标的得分(正值)表示，也可以用该监控指标的扣分(负值)表示，无论是得分(正值)还是扣分(负值)，它们都与监控指标相对应，并不会对最终服务的健康指数的实质产生影响，因此运维人员可以根据实际情况灵活设置。

表1示出了本发明实施例中各级健康指数的其中一种赋值计算过程。

表1各级健康指数的赋值计算过程表

表1通过对监控指标扣分来表示监控指标的健康指数，以表1为例，首先，预设每个监控指标的扣分上限，例如，监控指标1的预设扣分上限为999999，监控指标2的预设扣分上限为100，当监控指标1异常时，其扣分为-999999，当监控指标2正常时，其不扣分，监控指标扣分为0。此时监控指标1对应的健康指数即为-999999，监控指标2对应的健康指数为0。

S103、根据每个机器的多个监控指标对应的健康指数，生成每个机器的健康指数。

不同的监控指标对机器的影响程度不同，因此，监控指标根据对机器的影响程度，可以分为关键指标和一般指标。其中，关键指标决定机器是否能够正常运转，例如节点Failover(失效转移)指标，该指标正常时，机器的健康指数随该指标的升高而升高，一旦该指标异常，机器的健康指数达到最低；而一般指标对机器不会产生决定性影响，例如CPU使用率，该指标正常时，机器的健康指数随该指标升高而升高，该指标异常时，机器的健康指数随该指标的降低而降低。

其中，根据机器的多个监控指标对应的健康指数，生成机器的健康指数的过程为：

S1031、将每个监控指标的健康指数与监控指标对应的预设权重相乘，得到加权后的监控指标分值。

以表1为例说明，机器1对应3个监控指标，其中，监控指标1的预设权重为1％，扣分上限为999999；监控指标2的预设权重为50％，扣分上限为100；监控指标3的预设权重为50％，扣分上限为100。

由表1易知，作为关键指标的监控指标1，其扣分上限远远超出其它监控指标，但是其权重相比于其它监控指标又很小，这是因为，关键指标只要一出故障，必定影响全局，因此关键指标是依靠极大的扣分来影响全局得分，相对权重对于该指标对应的节点来说是没有作用的。但是对于其它一般指标而言，主要依靠权重来影响上级节点的得分。关键指标对于上级指标的影响，则取决于自身极高的监控项得分，而一般指标对上层指标的影响，局限于100分内自身所占用的权重。因此，通过加权缩小关键指标的分值，能够不占用普通指标的权重，从而提高机器健康指数的准确性。当然，每个监控指标的权重和扣分上限不限于表1示例的数值，均可以由运维人员根据监控指标的重要性设置，并且在后续使用中随时调整。

S1032、将每个机器中的各监控指标分值相加，生成机器的健康指数。

机器的健康指数由该机器的各个监控指标的分值相加得来。

继续以表1进行说明，监控指标1的健康指数为-999999，监控指标2的健康指数为0，监控指标3的健康指数为0，与对应的权重相乘，加权后的监控指标1的分值为-9999.99，加权后的监控指标2的分值为0，加权后的监控指标3的分值为0，三者的分值相加之和为-9999.99，即为机器1的健康指数。

S104、根据多个机器的健康指数，生成集群的健康指数，集群由多个机器组成。

集群的健康指数的生成规则，与机器的健康指数的生成规则相同，同样是对集群中的每个机器，根据重要程度预设不同的权重，将机器的健康指数与机器对应的预设权重相乘，得到加权后的机器分值；再将每个集群中的各机器分值相加，生成集群的健康指数。

继续以表1为例说明，集群1中包括机器1和机器2，其中，机器1的健康指数为-9999.99，机器2的健康指数为0，两台机器的预设权重均为50％，将机器的健康指数与对应权重相乘，加权后的机器1的分值为-5000(计算结果为-4999.995，四舍五入取-5000)，加权后的机器2的分值为0，二者分值相加之和为-5000，即为集群1的健康指数。

S105、根据多个集群的健康指数，生成网络服务的健康指数，网络服务由多个集群进行处理。

同样，网络服务的健康指数的生成规则，与机器和集群的健康指数的生成规则相同，同样是对网路服务中的每个集群，根据重要程度预设不同的权重，将网络服务的健康指数与集群对应的预设权重相乘，得到加权后的集群分值；再将网络服务中的各集群分值相加，生成网络服务的健康指数。

继续以表1为例说明，Couchbase网络服务中包括集群1和集群2，其中，集群1的健康指数为-5000，集群2的健康指数为-50，两台机器的预设权重均为50％，将集群的健康指数与对应权重相乘，加权后的集群1的分值为-2500，加权后的集群2的分值为-25，二者分值相加之和为-2525，即为Couchbase网络服务的健康指数。

本发明的上述实施例，通过将网络服务按层级结构划分并生成每一层级对应的健康指数，每一层级对应的健康指数经聚合及加权计算，生成整个网络服务的健康指数，从而直观地反应当前网络服务的健康状态，避免遗漏关键报警信息；通过将监控指标分为对网络服务的健康指数具有不同影响度的关键指标和一般指标，当关键指标报警发生时，能立刻反映到相应的指标中；通过将网络服务按层级结构划分，能够快速追溯和定位报警事件的来源，提高报警事件的处理速度。

本发明还公开了一种网络服务健康指数的生成方法的第二种实施例，优选地，在本发明第一种实施例的基础上，包括：

将服务的健康指数归一化为显示分数，并显示显示分数。

通常，网络服务的健康指数虽然已经能够反映其健康状态，但是对于运维人员来说，其读数变化范围往往很大，因此，通过将健康指数归一化为百分制能够更加快速方便地从显示器中识读。

具体归一化过程以表1为例说明：

第一种情况，当网络服务中至少有一个关键指标异常时(如表1中机器1对应的指标1)，对应的网络服务Couchbase的显示得分即为0分。

另一种情况，当网络服务中的关键指标都正常，那么显示分数根据以下方法归一化：

以表1中的集群2进行说明：集群2的下一级包括机器3和机器4，其中机器3包括1个关键指标(指标1)和2个一般指标(指标2和3)共3个监控指标。可以预设机器3显示分数满分为100分，那么，每个指标平均分配33.33分，因此，只要监控指标异常，就扣除分配的相应分数，为方便显示，一般对扣除的分数进行四舍五入。例如表1中，机器3的指标2异常，故扣除33分，对应的机器3的显示分数为67分；同理，机器4的指标2和3异常，故扣除67分，对应的机器4的显示分数为33分。机器3和机器4的显示分数分别与对应的权重相乘后，将加权后的分数再相加，即为集群2的显示分数，集群2的显示分数为67*50％+33*50％＝50分。与集群对应的网络服务的显示分数，其实现原理相同，不再赘述。

再例如，网络服务Couchbase的归一化过程还可以为：假设某个监控指标的扣分上限为s，当对监控指标扣分时，如果100-s>0，则显示得分为100-s；如果100-s<0，则显示得分为0，然后再根据得到的显示分数得出对应的机器的分数。

本发明实施例的显示界面示意图如图3所示，图3中显示了Couchbase服务的显示分数，Couchbase服务下包括集群1、集群2等多个集群，每个集群都有对应的显示分数，其中，将集群3展开后，又包括机器1、机器2等多个机器，每个机器都有对应的显示分数，同理每个机器展开后又包括对应的监控指标的显示分数。这样，每个级的显示分数的扣分原因都会关联到相应的报警事件，能够很容易地追溯到报警事件的来源，保证不会遗漏掉报警信息。

本发明网络服务健康指数的生成方法的第二种实施例，通过将健康指数归一化为百分制的显示分数，能够使运维人员更加直观地看到当前网络服务的健康状态。

本发明还公开了一种网络服务健康指数的生成方法的第三种种实施例，优选地，在本发明第一种实施例的基础上，包括：

存储生成的网络服务的健康指数，并与网络服务的健康指数的历史数据共同生成分数图表，以确定网络服务的健康指数变化趋势。

通过结合Metrics(一种给JAVA服务的各项指标提供度量工具的包)来自定义监控，将网络服务的健康指数存储于本地，并与网络服务的健康指数的历史数据共同生成分数图表，这样运维人员就可以知道健康指数的连续变化过程，同时可以结合具体的报警事件，观察健康指数升高或者降低的时候发生事件，做到更精细化的运维报警追溯。

并且，还可以结合报警报表，生成报警日报，对系统中各网络服务的健康指数得分进行分档，根据指标自动分析系统的健康度，并生成图表报告，为运维人员快速了解当前系统情况提供参考。

本发明实施例还公开了一种网络服务健康指数的生成装置，与图2所示的流程图相对应，参考4，图4为本发明实施例网络服务健康指数的生成装置的一种结构示意图，包括：

获取模块201，用于获取运行网络服务的每个机器的多个监控指标。

第一生成模块202，用于根据多个监控指标，生成每个监控指标对应的健康指数。

第二生成模块203，用于根据每个机器的多个监控指标对应的健康指数，生成每个机器的健康指数。

第三生成模块204，用于根据多个机器的健康指数，生成集群的健康指数，集群由多个机器组成。

第四生成模块205，用于根据多个集群的健康指数，生成网络服务的健康指数，网络服务由多个集群进行处理。

其中，监控指标包括关键指标和一般指标；

关键指标为决定机器是否能够正常运转的指标，当关键指标正常时，机器的健康指数随关键指标的升高而升高；当关键指标异常时，机器的健康指数最低；

一般指标为除关键指标外的监控指标，当一般指标正常时，机器的健康指数随一般指标的升高而升高；当一般指标异常时，机器的健康指数随一般指标的降低而降低。

其中，第二生成模块203，进一步用于：

将每个监控指标的健康指数与监控指标对应的预设权重相乘，得到加权后的监控指标分值；

将每个机器中的各监控指标分值相加，生成机器的健康指数。

其中，第三生成模块，进一步用于：

将机器的健康指数与机器对应的预设权重相乘，得到加权后的机器分值；

将每个集群中的各机器分值相加，生成集群的健康指数。

其中，第四生成模块，进一步用于：

将集群的健康指数与集群对应的预设权重相乘，得到加权后的集群分值；

将网络服务中的各集群分值相加，生成网络服务的健康指数。

本发明实施例的生成装置，能直观地反应当前网络服务的健康状态，避免遗漏关键报警信息，能够快速追溯和定位报警事件的来源，提高报警事件的处理速度。

本发明实施例还公开了一种网络服务健康指数的生成装置，参考图5，图5为本发明实施例网络服务健康指数的生成装置的另一种结构示意图，在图4所示装置结构的基础上进一步包括：

显示模块206，用于将服务的健康指数归一化为显示分数，并显示显示分数。

分数图表模块207，用于存储生成的网络服务的健康指数，并与网络服务的健康指数的历史数据共同生成分数图表，以确定网络服务的健康指数变化趋势。

本发明上述实施例的生成装置，通过将健康指数归一化为百分制的显示分数，能够使运维人员更加直观地看到当前网络服务的健康状态；通过将网络服务的健康指数存储于本地，并与网络服务的健康指数的历史数据共同生成分数图表，能够更精细化的运维报警追溯。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种网络服务健康指数的生成方法，其特征在于，所述方法包括：

获取运行所述网络服务的每个机器的多个监控指标；

根据所述每个机器的多个监控指标对应的健康指数，生成所述每个机器的健康指数，其中，通过将所述每个监控指标的健康指数与所述监控指标对应的预设权重相乘，得到加权后的监控指标分值；并将每个机器中的各监控指标分值相加，生成所述机器的健康指数；

根据多个所述机器的健康指数，生成集群的健康指数，所述集群由多个所述机器组成，其中，通过将机器的健康指数与机器对应的预设权重相乘，得到加权后的机器分值；并将每个集群中的各机器分值相加，生成集群的健康指数；

根据多个所述集群的健康指数，生成所述网络服务的健康指数，所述网络服务由多个所述集群进行处理，其中，通过将网络服务的健康指数与集群对应的预设权重相乘，得到加权后的集群分值；并将网络服务中的各集群分值相加，生成网络服务的健康指数；

显示每个机器的监控指标对应的健康指数，每个机器的健康指数，每个集群的健康指数以及所述网络服务的健康指数。

2.根据权利要求1所述的网络服务健康指数的生成方法，其特征在于，所述监控指标包括关键指标和一般指标；

3.根据权利要求1或2所述的网络服务健康指数的生成方法，其特征在于，所述生成所述网络服务的健康指数之后，所述方法还包括：将所述服务的健康指数归一化为显示分数，并显示所述显示分数。

4.根据权利要求1或2所述的网络服务健康指数的生成方法，其特征在于，所述生成所述网络服务的健康指数之后，所述方法还包括：

5.一种网络服务健康指数的生成装置，其特征在于，所述装置包括：

第二生成模块，用于根据所述每个机器的多个监控指标对应的健康指数，生成所述每个机器的健康指数，其中，通过将所述每个监控指标的健康指数与所述监控指标对应的预设权重相乘，得到加权后的监控指标分值；并将每个机器中的各监控指标分值相加，生成所述机器的健康指数；

第三生成模块，用于根据多个所述机器的健康指数，生成集群的健康指数，所述集群由多个所述机器组成，其中，通过将机器的健康指数与机器对应的预设权重相乘，得到加权后的机器分值；并将每个集群中的各机器分值相加，生成集群的健康指数；

第四生成模块，用于根据多个所述集群的健康指数，生成所述网络服务的健康指数，所述网络服务由多个所述集群进行处理，其中，通过将网络服务的健康指数与集群对应的预设权重相乘，得到加权后的集群分值；并将网络服务中的各集群分值相加，生成网络服务的健康指数；

显示模块，用于显示每个机器的监控指标对应的健康指数，每个机器的健康指数，每个集群的健康指数以及所述网络服务的健康指数。

6.根据权利要求5所述的网络服务健康指数的生成装置，其特征在于，所述监控指标包括关键指标和一般指标；

7.根据权利要求5或6所述的网络服务健康指数的生成装置，其特征在于，所述装置进一步包括：