CN117194201A - 一种业务系统的健康度评估及观测方法、装置 - Google Patents
一种业务系统的健康度评估及观测方法、装置 Download PDFInfo
- Publication number
- CN117194201A CN117194201A CN202311465377.XA CN202311465377A CN117194201A CN 117194201 A CN117194201 A CN 117194201A CN 202311465377 A CN202311465377 A CN 202311465377A CN 117194201 A CN117194201 A CN 117194201A
- Authority
- CN
- China
- Prior art keywords
- health
- evaluation
- data
- health degree
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000036541 health Effects 0.000 title claims abstract description 338
- 238000011156 evaluation Methods 0.000 title claims abstract description 252
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000012544 monitoring process Methods 0.000 claims abstract description 21
- 238000013145 classification model Methods 0.000 claims description 31
- 230000015654 memory Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 14
- 239000003795 chemical substances by application Substances 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 8
- 230000003068 static effect Effects 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 230000005856 abnormality Effects 0.000 abstract description 2
- 230000002159 abnormal effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 208000018910 keratinopathic ichthyosis Diseases 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种业务系统的健康度评估及观测方法、装置,其中,该方法包括:部署采集代理;获取业务系统的包括基础监控指标、应用性能指标、用户体验数据、业务指标、云环境数据、链路数据、日志数据的健康度评估数据;将健康度评估数据输入健康度模型中,获取健康度评估数据的严重级别和健康分数;根据与评估对象关联的健康度评估数据的严重级别、健康分数以及预设权重,确定评估对象的健康度;根据评估对象的健康度以及评估对象之间的位置关系,生成业务全景图,并在评估对象的健康度符合告警要求时进行告警。本申请通过分析业务数据、日志数据、链路数据,确定业务系统中各评估对象的健康度,分析更全面且能够快速定位系统异常原因。
Description
技术领域
本申请涉及自动化运维技术领域,尤其是涉及一种业务系统的健康度评估及观测方法、装置。
背景技术
在云原生环境或混合云环境下,为了适应逐渐增多的业务量,通常将业务组件部署在不同容器和环境下,这将导致业务规模、业务架构越来越复杂,为了能够衡量并保障业务健康平稳运行,并且在业务健康出现问题时定位并解决问题,需要在业务系统运行时对业务健康进行评估和观测。
现阶段的健康评估和观测方法一般使用基础监控工具获取资源层次的基础监控数据和性能数据,如网络、主机、数据库、中间件等数据,并根据异常基础监控数据或异常性能数据对系统正常运行的影响程度确定系统健康情况。
但是,现有的健康评估和观测方法仅是从基础监控层面、应用性能层面对系统指标进行收集和分析,分析数据和分析结果较为片面,并且在确定系统故障后,无法快速定位故障原因。
发明内容
有鉴于此,本申请实施例的目的在于提供一种业务系统的健康度评估及观测方法、装置,能够通过对业务数据、日志数据、链路数据的分析,确定业务系统中各评估对象的健康度,分析数据更全面,并且在业务系统运行异常时快速定位异常原因。
第一方面,本申请实施例提供了一种业务系统的健康度评估及观测方法,所述业务系统部署在云原生环境和混合云环境下,所述方法包括:
在所述业务系统中部署采集代理;
获取所述业务系统的健康度评估数据;其中,所述健康度评估数据包括基础监控指标、应用性能指标、用户体验数据、业务指标、云环境数据、链路数据、日志数据;
将所述健康度评估数据输入健康度模型中,获取所述健康度模型输出的所述健康度评估数据的严重级别和健康分数;
根据与评估对象关联的健康度评估数据的严重级别、健康分数以及预设权重,确定所述评估对象的健康度;
根据所述评估对象的健康度,以及所述评估对象之间的位置关系,生成所述业务系统的业务全景图,并在所述评估对象的健康度符合告警要求时进行告警。
在一种可能的实施方式中,所述方法还包括:
根据所述链路数据包含的链路节点以及所述链路节点之间的调用关系,确定所述评估对象以及所述评估对象之间的位置关系。
在一种可能的实施方式中,所述健康度模型中设置有阈值范围、严重级别、健康分数的关联关系,所述健康度评估数据与所述关联关系一一对应;所述将所述健康度评估数据输入健康度模型中,获取所述健康度模型输出的所述健康度评估数据的严重级别和健康分数,包括:
根据所述健康度评估数据所处的阈值范围,确定所述健康度评估数据的严重级别和健康分数。
在一种可能的实施方式中,所述阈值范围包括静态阈值范围和动态阈值范围,通过如下方式确定所述动态阈值范围:
采集产生于预设时间范围内的历史健康度评估数据;其中,所述历史健康度评估数据标记有真实严重级别;
基于所述历史健康度评估数据对分类模型进行训练;其中,所述分类模型中设置有待训练的阈值范围;
若所述分类模型输出的预测严重级别与输入的所述历史健康度评估数据的真实严重级别相一致的数量满足训练要求,则将所述分类模型中当前的阈值范围确定为所述动态阈值范围。
在一种可能的实施方式中,所述方法还包括:
采用与所述评估对象的严重级别相匹配的颜色,对所述评估对象进行标识。
在一种可能的实施方式中,所述获取所述业务系统的健康度评估数据,包括:
采集所述业务系统的用于评估健康度的实时数据;
将所述实时数据在用户侧缓冲区进行聚合和过滤;
采用与实时数据相匹配的处理规则,对聚合和过滤后的实时数据进行处理,得到所述健康度评估数据。
在一种可能的实施方式中,所述方法还包括:
根据所述评估对象在多个评估时刻确定的健康度,生成所述评估对象的健康度曲线;
响应针对所述健康度曲线上任一位置的选择指令,显示选择位置对应的评估时刻以及所述评估时刻的健康度。
第二方面,本申请实施例提供了一种业务系统的健康度评估及观测装置,所述业务系统部署在云原生环境和混合云环境下,所述装置包括:
代理部署模块,用于在所述业务系统中部署采集代理;
评估数据获取模块,用于获取所述业务系统的健康度评估数据;其中,所述健康度评估数据包括基础监控指标、应用性能指标、用户体验数据、业务指标、云环境数据、链路数据、日志数据;
严重级别健康分数获取模块,用于将所述健康度评估数据输入健康度模型中,获取所述健康度模型输出的所述健康度评估数据的严重级别和健康分数;
健康度确定模块,用于根据与评估对象关联的健康度评估数据的严重级别、健康分数以及预设权重,确定所述评估对象的健康度;
业务全景图生成模块,用于根据所述评估对象的健康度,以及所述评估对象之间的位置关系,生成所述业务系统的业务全景图;
健康度告警模块,用于在所述评估对象的健康度符合告警要求时进行告警。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行第一方面任一项所述的业务系统的健康度评估及观测方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面任一项所述的业务系统的健康度评估及观测方法的步骤。
本申请实施例提供的一种业务系统的健康度评估及观测方法、装置,采用基础监控指标、应用性能指标、用户体验数据、业务指标、云环境数据、链路数据、日志数据等数据对业务系统的健康度进行评估,评估得到的健康度能够更加全面地反映业务系统的运行情况。此外,分别对链路数据中的评估对象进行健康度评估,不仅能够对业务系统的整体运行情况进行评估,还能够对业务系统的业务情况、服务组件、云环境分别评估,当业务系统出现故障时,能够根据多个评估对象的健康度,快速定位故障原因。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种业务系统的健康度评估及观测方法的流程图;
图2示出了本申请实施例提供的一种表示业务系统健康度的业务全景示意图;
图3示出了本申请实施例提供的一种业务系统的健康度评估及观测装置的结构示意图;
图4示出了本申请实施例提供的一种电子设备的示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在云原生环境或混合云环境下,为了适应逐渐增多的业务量,通常将业务组件部署在不同容器和环境下,这将导致业务规模、业务架构越来越复杂,为了能够衡量并保障业务健康平稳运行,并且在业务健康出现问题时定位并解决问题,需要在业务系统运行时对业务健康进行评估和观测。
现阶段的健康评估和观测方法一般使用基础监控工具获取资源层次的基础监控数据和性能数据,如网络、主机、数据库、中间件等数据,并根据异常基础监控数据或异常性能数据对系统正常运行的影响程度确定系统健康情况。
但是,现有的健康评估和观测方法仅是从基础监控层面、应用性能层面对系统指标进行收集和分析,分析数据和分析结果较为片面,并且在确定系统故障后,无法快速定位故障原因。
基于上述问题,本申请实施例提供了一种业务系统的健康度评估及观测方法、装置,采用基础监控指标、应用性能指标、用户体验数据、业务指标、云环境数据、链路数据、日志数据等数据对业务系统的健康度进行评估,评估得到的健康度能够更加全面地反映业务系统的运行情况。此外,分别对链路数据中的评估对象进行健康度评估,不仅能够对业务系统的整体运行情况进行评估,还能够对业务系统的业务情况、服务组件、云环境分别评估,当业务系统出现故障时,能够根据多个评估对象的健康度,快速定位故障原因。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申请针对上述问题所提出的解决方案,都应该是发明人在本申请过程中对本申请做出的贡献。
下面将结合本申请中附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种业务系统的健康度评估及观测方法进行详细介绍。
参见图1所示,图1为本申请实施例提供的一种业务系统的健康度评估及观测方法的流程图,所述业务系统部署在云原生环境和混合云环境下,该方法包括以下步骤:
S101、在所述业务系统中部署采集代理。
本申请实施例中,通过部署的采集代理对业务系统中的实时数据进行采集,采集代理的部署方式包括:安装程序、无侵入方式(使用syslog、snmp等通用协议)。对采集的实时数据进行预处理,得到业务系统的健康度评估数据。
S102、获取所述业务系统的健康度评估数据;其中,所述健康度评估数据包括基础监控指标、应用性能指标、用户体验数据、业务指标、云环境数据、链路数据、日志数据。
本申请实施例中,业务系统部署在云原生环境和混合云环境下。使用健康度评估数据对业务系统的健康度进行计算,健康度评估数据的数值大小关系到业务系统的运行情况,为了对业务系统的运行情况进行全面观测,健康度评估数据既包括现阶段经常使用的基础监控指标、应用性能指标,还包括能反映业务健康程度、云基础设施健康程度以及服务依赖关系的用户体验数据、业务指标、云环境数据、链路数据、日志数据。
其中,基础监控指标是指CPU、内存、连接数、网络延迟等常见的系统数据;应用性能指标是指反映主机、数据库、中间件等应用当前性能的数据;用户体验数据是指访问量、访问页面、打开速度、卡顿、出错、崩溃等能够反映用户使用业务系统的体验情况的数据;业务指标是与业务相关的指标数据;云环境数据是反映云原生环境和混合云环境运行情况的数据。
S103、将所述健康度评估数据输入健康度模型中,获取所述健康度模型输出的所述健康度评估数据的严重级别和健康分数。
本申请实施例中,采用健康度模型分析业务系统的健康情况,健康度模型的输入数据是健康度评估数据,输出数据是健康度评估数据的严重级别和健康分数。其中,可以根据实际需要设置多个严重级别,比如,严重和正常,并为每个严重级别设置相匹配的健康分数,健康分数与严重级别负相关,严重级别越低,健康分数越大。
S104、根据与评估对象关联的健康度评估数据的严重级别、健康分数以及预设权重,确定所述评估对象的健康度。
本申请实施例中,在对业务系统的健康度进行评估和观测时,不仅仅要对业务系统的整体健康情况进行评估,还要对业务系统中服务组件、所在云环境布置的容器及管理软件、业务情况等方面的健康情况分别进行评估。可选的,根据业务系统的链路数据确定业务系统的评估对象以及评估对象之间的位置关系;或者,人工预设业务全景图中的评估对象以及评估对象之间的位置关系。
参见图2所示,图2为本申请实施例提供的一种表示业务系统健康度的业务全景示意图,在图2中,业务系统的评估对象包括XX系统、XX系统业务、XX系统软件、云基础设施、数据库、中间件、容器、k8s(Kubernetes)。评估对象之间的调用关系即为业务全景图中评估对象之间的位置关系。
在确定评估对象的健康度时,不仅要使用该评估对象产生的健康度评估数据,还要使用被该评估对象调用的其他评估对象产生的健康度评估数据。比如,在图2中,使用XX系统业务、数据库、中间件共同产生的健康度评估数据,对XX系统业务的健康度进行评估。因此,在获取健康度评估数据后,通过数据管道将数据发送至后台服务,后台服务将数据自动归类到每个评估对象的数据分组中,得到每个评估对象关联的多个健康度评估数据。
假设评估对象对应有N个健康度评估数据,且用KPI表示健康度评估数据,采用公式(1)计算评估对象的健康度service health score:
(1)
其中,x表示第x个KPI,G表示KPI的预设权重,K表示KPI的严重级别对应的健康分数。
比如,评估对象关联有健康度评估数据A、B、C,A、B、C的预设权重分别为10、7、5,A、B、C的严重级别对应的健康分数分别为100、70、30。
评估对象的健康度=(100×10/22)+(70×7/22)+(30×5/22)=74.53。
S105、根据所述评估对象的健康度,以及所述评估对象之间的位置关系,生成所述业务系统的业务全景图,并在所述评估对象的健康度符合告警要求时进行告警。
本申请实施例中,根据评估对象之间的位置关系,确定评估对象在业务全景图中的具体位置,并在业务全景图中显示每个评估对象的健康度,还可以显示每个评估对象的严重级别。
图2即为业务全景图,在图2中,XX系统健康度为76、XX系统业务健康度为75、XX系统软件健康度为68、云基础设施健康度为83、数据库健康度为59、中间件健康度为74、容器健康度为73、k8s健康度为95。
当业务系统的任一评估对象出现故障时,可及时对故障进行告警。具体的,如果评估对象的健康度符合告警要求,比如,健康度大于告警阈值,则进行告警。其中,告警阈值可以根据实际情况进行设置。此外,为了能够对评估对象的故障级别进行精准告警,不同故障级别的健康度采用不同的告警方式,预设有不同区间健康度与不同告警方式的匹配关系,当健康度符合告警要求时,采用与健康度所处区间的故障级别相匹配的告警方式进行告警。
本申请实施例提供的业务系统的健康度评估及观测方法,采用基础监控指标、应用性能指标、用户体验数据、业务指标、云环境数据、链路数据、日志数据等数据对业务系统的健康度进行评估,评估得到的健康度能够更加全面地反映业务系统的运行情况。此外,分别对链路数据中的评估对象进行健康度评估,不仅能够对业务系统的整体运行情况进行评估,还能够对业务系统的业务情况、服务组件、云环境分别评估,当业务系统出现故障时,能够根据多个评估对象的健康度,快速定位故障原因。
进一步的,本申请实施例提供的业务系统的健康度评估及观测方法中,所述方法还包括:
根据所述链路数据包含的链路节点以及所述链路节点之间的调用关系,确定所述评估对象以及所述评估对象之间的位置关系。
本申请实施例中,将链路节点确定为评估对象,将链路节点之间的调用关系确定为估对象之间的位置关系。
进一步的,本申请实施例提供的业务系统的健康度评估及观测方法中,所述健康度模型中设置有阈值范围、严重级别、健康分数的关联关系,所述健康度评估数据与所述关联关系一一对应;所述将所述健康度评估数据输入健康度模型中,获取所述健康度模型输出的所述健康度评估数据的严重级别和健康分数,包括:
根据所述健康度评估数据所处的阈值范围,确定所述健康度评估数据的严重级别和健康分数。
本申请实施例中,预设有阈值范围、严重级别、健康分数的关联关系,比如,对于每秒事务处理错误率,预设的关联关系为错误率处于0-10%阈值范围内,严重级别为正常,健康分数为80分;错误率处于10%-100%阈值范围内,严重级别为警告,健康分数为20分。并且,对于不同的健康度评估数据,其关联关系不同。
将健康度评估数据输入健康度模型,健康度模型根据与输入的健康度评估数据相匹配的阈值范围、严重级别、健康分数的关联关系,判断输入的健康度评估数据的严重级别和健康分数。具体的,健康度模型根据输入的健康度评估数据所处的阈值范围,确定与所处的阈值范围相关联的严重级别、健康分数,并将确定的严重级别、健康分数输出。
进一步的,本申请实施例提供的业务系统的健康度评估及观测方法中,健康度评估数据的阈值范围包括静态阈值范围和动态阈值范围,每个阈值范围对应有表示该阈值范围下限的第一阈值,以及表示该阈值范围上限的第二阈值。阈值范围包括静态和动态两种类型,静态阈值范围的第一阈值和第二阈值在设置完成后是固定不变的,动态阈值范围的第一阈值和第二阈值在设置完成后随时间发生改变,比如,同一健康度评估数据的阈值范围在5月18日和5月19日其第一阈值和/或第二阈值并不一致。动态阈值范围是根据历史数据进行更新的,随着时间的增长,历史数据逐渐变多,动态阈值范围随之改变,具体的,通过如下方式确定所述动态阈值范围:
步骤1.1:采集产生于预设时间范围内的历史健康度评估数据;其中,所述历史健康度评估数据标记有真实严重级别;
预设时间范围为采集的历史健康度评估数据发生的时间,可以根据用户的实际情况对所需的时间范围进行设置,比如,在每天00:00,系统依据前3个月的健康度评估数据,计算并更新动态阈值范围。
步骤1.2:基于所述历史健康度评估数据对分类模型进行训练;其中,所述分类模型中设置有待训练的阈值范围;
本申请实施例中,采用机器学习分类算法,产生一个目标函数f,目标函数f将输入数据集的属性集x映射到已经定义的类标签y上,目标函数f也被称为分类模型或分类器。
分类模型的输入数据为历史健康度评估数据,分类模型的输出类标签为历史健康度评估数据的预测严重程度。分类模型的目标函数中设置有阈值范围(第一阈值、第二阈值),对分类模型进行训练,实际上是对第一阈值和第二阈值进行训练。
步骤1.3:若所述分类模型输出的预测严重级别与输入的所述历史健康度评估数据的真实严重级别相一致的数量满足训练要求,则将所述分类模型中当前的阈值范围确定为所述动态阈值范围。
如果分类模型输出的历史健康度评估数据的预测严重程度与该历史健康度评估数据的真实严重程度相一致,说明分类模型分类正确,否则分类模型分类错误。如果分类模型输出的预测严重程度与真实严重程度相一致的数量满足训练要求,说明当前分类模型(当前第一阈值和当前第二阈值)已符合要求,可以将当前分类模型对应的阈值范围(第一阈值和第二阈值)作为动态阈值范围。
作为一种可选的实施方式,基于准确率判断分类模型是否训练完成,如果分类模型的准确率大于预设的准确率阈值,则确定当前的分类模型训练完成,当前的阈值范围可以作为新的动态阈值范围。其中,准确率=预测严重程度与真实严重程度相一致的历史健康度评估数据的数量/参与训练的历史健康度评估数据的总数。其中,预设的准确率阈值可以根据实际情况进行设置。
需要说明的是,本申请实施例采用低代码架构。分类模型的配置和调整通过界面化配置实现,无需二次开发或写脚本,降低了使用成本。
进一步的,本申请实施例提供的业务系统的健康度评估及观测方法中,所述方法还包括:
采用与所述评估对象的严重级别相匹配的颜色,对所述评估对象进行标识。
本申请实施例中,使用不同的颜色对健康度进行标识,能够更加直观地区分不同的评估对象的健康程度的差别,可选的,对发生故障的评估对象的健康度和严重级别统一用红色标识,以对正常评估对象和异常评估对象进行区分。
进一步的,本申请实施例提供的业务系统的健康度评估及观测方法中,所述获取所述业务系统的健康度评估数据,包括:
步骤2.1:采集所述业务系统的用于评估健康度的实时数据;
本申请实施例中,在确定健康度时以及对动态阈值范围进行训练时,使用的健康度评估数据(历史健康度评估数据)是经过预处理后的实时数据。通过采集代理采集实时数据,实时数据是采集代理实时采集的未经处理的业务系统的各项数据。
步骤2.2:将所述实时数据在用户侧缓冲区进行聚合和过滤;
用户侧缓冲区即为数据生成端,比如,容器产生的实时数据,在容器侧对采集的实时数据进行聚合和过滤。
数据聚合:基于维度对指标值求聚合值。将各个时间序列按 step 划成若干时间段,对时间段内的数据采样,得到采样后的各个时间序列,然后对该指标下的各个时间序列在相同的时间点上的样本值求聚合值。即合并多个序列变成一个序列(无 group by 的情况)或多个序列(按 group by 分组后可能存在多个)。
举例说明:有如下两个时序数据(间隔为秒):
request_count{a=1} 1,1,1,1,1
request_count{a=2} 1,1,1,1,1
执行 sum(request_count) 返回如下的时序:
{} 2,2,2,2,2
数据过滤:通过 Key 和 Value 进行过滤。在执行过滤器操作时,将其作为过滤条件增加到查询和分析语句前,使用AND或NOT连接。
步骤2.3:采用与实时数据相匹配的处理规则,对聚合和过滤后的实时数据进行处理,得到所述健康度评估数据。
健康度评估数据是用来反映业务系统运行情况的数据,有些在业务系统中采集的实时数据,在经过聚合和过滤后仍然不能用来反映业务系统的运行情况,因此,需要对聚合和过滤后的实时数据再进行处理,经过与实时数据相匹配的处理规则处理后,得到的健康度评估数据能够对业务系统的运行情况进行评估。
这里,以访问量(PV)为例对处理过程进行说明,与PV相匹配的处理规则为:
TPS平均值 = [(PV×80%)/(24×60×60×20%)]/服务器数量
采用以上处理规则,得到每秒事务处理量(TPS),将实时数据(PV)转换为能够反映业务系统运行情况的健康度评估数据(TPS)。
进一步的,本申请实施例提供的业务系统的健康度评估及观测方法中,所述方法还包括:
根据所述评估对象在多个评估时刻确定的健康度,生成所述评估对象的健康度曲线;响应针对所述健康度曲线上任一位置的选择指令,显示选择位置对应的评估时刻以及所述评估时刻的健康度。
本申请实施例中,还可以对业务系统的连续时间段内的健康度进行展示,采用曲线图(即健康度曲线)表示评估对象在连续时间段内的健康度变化情况,鼠标点击曲线图的任意一点,展示点击时间点的健康度,比如,图2中,在2023年4月19日,XX系统业务健康度(健康分数)为70,严重级别(严重程度)为正常。
基于同一发明构思,本申请实施例中还提供了与业务系统的健康度评估及观测方法对应的业务系统的健康度评估及观测装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述业务系统的健康度评估及观测方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参见图3所示,图3为本申请实施例提供的一种业务系统的健康度评估及观测装置的结构示意图,所述业务系统部署在云原生环境和混合云环境下,该装置包括:
代理部署模块301,用于在所述业务系统中部署采集代理;
评估数据获取模块302,用于获取所述业务系统的健康度评估数据;其中,所述健康度评估数据包括基础监控指标、应用性能指标、用户体验数据、业务指标、云环境数据、链路数据、日志数据;
严重级别健康分数获取模块303,用于将所述健康度评估数据输入健康度模型中,获取所述健康度模型输出的所述健康度评估数据的严重级别和健康分数;
健康度确定模块304,用于根据与评估对象关联的健康度评估数据的严重级别、健康分数以及预设权重,确定所述评估对象的健康度;
业务全景图生成模块305,用于根据所述评估对象的健康度,以及所述评估对象之间的位置关系,生成所述业务系统的业务全景图;
健康度告警模块306,用于在所述评估对象的健康度符合告警要求时进行告警。
在一种可能的实施方式中,所述装置还包括:
评估对象确定模块,用于根据所述链路数据包含的链路节点以及所述链路节点之间的调用关系,确定所述评估对象以及所述评估对象之间的位置关系。
在一种可能的实施方式中,所述健康度模型中设置有阈值范围、严重级别、健康分数的关联关系,所述健康度评估数据与所述关联关系一一对应;所述严重级别健康分数获取模块303,在将所述健康度评估数据输入健康度模型中,获取所述健康度模型输出的所述健康度评估数据的严重级别和健康分数时,包括:
根据所述健康度评估数据所处的阈值范围,确定所述健康度评估数据的严重级别和健康分数。
在一种可能的实施方式中,所述阈值范围包括静态阈值范围和动态阈值范围,所述装置还包括动态阈值范围确定模块,用于:
采集产生于预设时间范围内的历史健康度评估数据;其中,所述历史健康度评估数据标记有真实严重级别;
基于所述历史健康度评估数据对分类模型进行训练;其中,所述分类模型中设置有待训练的阈值范围;
若所述分类模型输出的预测严重级别与输入的所述历史健康度评估数据的真实严重级别相一致的数量满足训练要求,则将所述分类模型中当前的阈值范围确定为所述动态阈值范围。
在一种可能的实施方式中,所述装置还包括:
评估对象标识模块,用于采用与所述评估对象的严重级别相匹配的颜色,对所述评估对象进行标识。
在一种可能的实施方式中,所述评估数据获取模块302,在获取所述业务系统的健康度评估数据时,包括:
采集所述业务系统的用于评估健康度的实时数据;
将所述实时数据在用户侧缓冲区进行聚合和过滤;
采用与实时数据相匹配的处理规则,对聚合和过滤后的实时数据进行处理,得到所述健康度评估数据。
在一种可能的实施方式中,所述装置还包括:
健康度曲线生成模块,用于根据所述评估对象在多个评估时刻确定的健康度,生成所述评估对象的健康度曲线;
健康度显示模块,用于响应针对所述健康度曲线上任一位置的选择指令,显示选择位置对应的评估时刻以及所述评估时刻的健康度。
本申请实施例提供的业务系统的健康度评估及观测装置,采用基础监控指标、应用性能指标、用户体验数据、业务指标、云环境数据、链路数据、日志数据等数据对业务系统的健康度进行评估,评估得到的健康度能够更加全面地反映业务系统的运行情况。此外,分别对链路数据中的评估对象进行健康度评估,不仅能够对业务系统的整体运行情况进行评估,还能够对业务系统的业务情况、服务组件、云环境分别评估,当业务系统出现故障时,能够根据多个评估对象的健康度,快速定位故障原因。
参见图4所示,图4为本申请实施例提供的一种电子设备的示意图,该电子设备400包括:处理器401、存储器402和总线403,所述存储器402存储有所述处理器401可执行的机器可读指令,当电子设备运行时,所述处理器401与所述存储器402之间通过总线403通信,所述处理器401执行所述机器可读指令,以执行如上述业务系统的健康度评估及观测方法的步骤。
具体地,上述存储器402和处理器401能够为通用的存储器和处理器,这里不做具体限定,当处理器401运行存储器402存储的计算机程序时,能够执行上述业务系统的健康度评估及观测方法。
对应于上述业务系统的健康度评估及观测方法,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述业务系统的健康度评估及观测方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种业务系统的健康度评估及观测方法,所述业务系统部署在云原生环境和混合云环境下,其特征在于,所述方法包括:
在所述业务系统中部署采集代理;
获取所述业务系统的健康度评估数据;其中,所述健康度评估数据包括基础监控指标、应用性能指标、用户体验数据、业务指标、云环境数据、链路数据、日志数据;
将所述健康度评估数据输入健康度模型中,获取所述健康度模型输出的所述健康度评估数据的严重级别和健康分数;
根据与评估对象关联的健康度评估数据的严重级别、健康分数以及预设权重,确定所述评估对象的健康度;
根据所述评估对象的健康度,以及所述评估对象之间的位置关系,生成所述业务系统的业务全景图,并在所述评估对象的健康度符合告警要求时进行告警。
2.根据权利要求1所述的业务系统的健康度评估及观测方法,其特征在于,所述方法还包括:
根据所述链路数据包含的链路节点以及所述链路节点之间的调用关系,确定所述评估对象以及所述评估对象之间的位置关系。
3.根据权利要求1所述的业务系统的健康度评估及观测方法,其特征在于,所述健康度模型中设置有阈值范围、严重级别、健康分数的关联关系,所述健康度评估数据与所述关联关系一一对应;所述将所述健康度评估数据输入健康度模型中,获取所述健康度模型输出的所述健康度评估数据的严重级别和健康分数,包括:
根据所述健康度评估数据所处的阈值范围,确定所述健康度评估数据的严重级别和健康分数。
4.根据权利要求3所述的业务系统的健康度评估及观测方法,其特征在于,所述阈值范围包括静态阈值范围和动态阈值范围,通过如下方式确定所述动态阈值范围:
采集产生于预设时间范围内的历史健康度评估数据;其中,所述历史健康度评估数据标记有真实严重级别;
基于所述历史健康度评估数据对分类模型进行训练;其中,所述分类模型中设置有待训练的阈值范围;
若所述分类模型输出的预测严重级别与输入的所述历史健康度评估数据的真实严重级别相一致的数量满足训练要求,则将所述分类模型中当前的阈值范围确定为所述动态阈值范围。
5.根据权利要求1所述的业务系统的健康度评估及观测方法,其特征在于,所述方法还包括:
采用与所述评估对象的严重级别相匹配的颜色,对所述评估对象进行标识。
6.根据权利要求1所述的业务系统的健康度评估及观测方法,其特征在于,所述获取所述业务系统的健康度评估数据,包括:
采集所述业务系统的用于评估健康度的实时数据;
将所述实时数据在用户侧缓冲区进行聚合和过滤;
采用与实时数据相匹配的处理规则,对聚合和过滤后的实时数据进行处理,得到所述健康度评估数据。
7.根据权利要求1所述的业务系统的健康度评估及观测方法,其特征在于,所述方法还包括:
根据所述评估对象在多个评估时刻确定的健康度,生成所述评估对象的健康度曲线;
响应针对所述健康度曲线上任一位置的选择指令,显示选择位置对应的评估时刻以及所述评估时刻的健康度。
8.一种业务系统的健康度评估及观测装置,其特征在于,所述业务系统部署在云原生环境和混合云环境下,所述装置包括:
代理部署模块,用于在所述业务系统中部署采集代理;
评估数据获取模块,用于获取所述业务系统的健康度评估数据;其中,所述健康度评估数据包括基础监控指标、应用性能指标、用户体验数据、业务指标、云环境数据、链路数据、日志数据;
严重级别健康分数获取模块,用于将所述健康度评估数据输入健康度模型中,获取所述健康度模型输出的所述健康度评估数据的严重级别和健康分数;
健康度确定模块,用于根据与评估对象关联的健康度评估数据的严重级别、健康分数以及预设权重,确定所述评估对象的健康度;
业务全景图生成模块,用于根据所述评估对象的健康度,以及所述评估对象之间的位置关系,生成所述业务系统的业务全景图;
健康度告警模块,用于在所述评估对象的健康度符合告警要求时进行告警。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至7任一项所述的业务系统的健康度评估及观测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一项所述的业务系统的健康度评估及观测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311465377.XA CN117194201A (zh) | 2023-11-07 | 2023-11-07 | 一种业务系统的健康度评估及观测方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311465377.XA CN117194201A (zh) | 2023-11-07 | 2023-11-07 | 一种业务系统的健康度评估及观测方法、装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117194201A true CN117194201A (zh) | 2023-12-08 |
Family
ID=88989082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311465377.XA Pending CN117194201A (zh) | 2023-11-07 | 2023-11-07 | 一种业务系统的健康度评估及观测方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117194201A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102123149A (zh) * | 2011-03-04 | 2011-07-13 | 哈尔滨工程大学 | 面向服务的大规模网络安全态势评估装置及方法 |
WO2020001642A1 (zh) * | 2018-06-28 | 2020-01-02 | 中兴通讯股份有限公司 | 一种运维系统及方法 |
CN114138625A (zh) * | 2021-12-08 | 2022-03-04 | 中国工商银行股份有限公司 | 服务器健康状态的评估方法、系统、电子设备和存储介质 |
-
2023
- 2023-11-07 CN CN202311465377.XA patent/CN117194201A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102123149A (zh) * | 2011-03-04 | 2011-07-13 | 哈尔滨工程大学 | 面向服务的大规模网络安全态势评估装置及方法 |
WO2020001642A1 (zh) * | 2018-06-28 | 2020-01-02 | 中兴通讯股份有限公司 | 一种运维系统及方法 |
CN114138625A (zh) * | 2021-12-08 | 2022-03-04 | 中国工商银行股份有限公司 | 服务器健康状态的评估方法、系统、电子设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
李佳华;: "企业级业务系统健康度实战解析", 电脑知识与技术, no. 29 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7693982B2 (en) | Automated diagnosis and forecasting of service level objective states | |
EP2924579B1 (en) | Event correlation | |
US9672085B2 (en) | Adaptive fault diagnosis | |
US10346744B2 (en) | System and method for visualisation of behaviour within computer infrastructure | |
US6973415B1 (en) | System and method for monitoring and modeling system performance | |
EP3105644B1 (en) | Method of identifying anomalies | |
US7082381B1 (en) | Method for performance monitoring and modeling | |
US20110276836A1 (en) | Performance analysis of applications | |
Nair et al. | Learning a hierarchical monitoring system for detecting and diagnosing service issues | |
CN111309565B (zh) | 告警处理方法、装置、电子设备以及计算机可读存储介质 | |
AU2019275633B2 (en) | System and method of automated fault correction in a network environment | |
US7197428B1 (en) | Method for performance monitoring and modeling | |
CN115118581B (zh) | 一种基于5g的物联网数据全链路监控和智能保障系统 | |
EP1958034B1 (en) | Use of sequential clustering for instance selection in machine condition monitoring | |
CN116450399B (zh) | 微服务系统故障诊断及根因定位方法 | |
US7369967B1 (en) | System and method for monitoring and modeling system performance | |
CN111984442A (zh) | 计算机集群系统的异常检测方法及装置、存储介质 | |
CN105677572A (zh) | 基于自组织映射模型云软件性能异常错误诊断方法与系统 | |
JP2018148350A (ja) | 閾値決定装置、閾値決定方法及びプログラム | |
CN112379325A (zh) | 一种用于智能电表的故障诊断方法及系统 | |
KR20140051678A (ko) | 스마트 기기 결함 관리 장치 및 방법 | |
US9397921B2 (en) | Method and system for signal categorization for monitoring and detecting health changes in a database system | |
CN115114124A (zh) | 主机风险的评估方法及评估装置 | |
CN113296992A (zh) | 异常原因确定方法、装置、设备和存储介质 | |
Jang et al. | A proactive alarm reduction method and its human factors validation test for a main control room for SMART |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |