CN115801545B - 一种混合云管的异常实时上报方法、系统、设备和介质 - Google Patents

一种混合云管的异常实时上报方法、系统、设备和介质 Download PDF

Info

Publication number
CN115801545B
CN115801545B CN202310068437.8A CN202310068437A CN115801545B CN 115801545 B CN115801545 B CN 115801545B CN 202310068437 A CN202310068437 A CN 202310068437A CN 115801545 B CN115801545 B CN 115801545B
Authority
CN
China
Prior art keywords
data
reporting
alarm
service
hybrid cloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310068437.8A
Other languages
English (en)
Other versions
CN115801545A (zh
Inventor
李德栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Cloud Technology Co Ltd
Original Assignee
Tianyi Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi Cloud Technology Co Ltd filed Critical Tianyi Cloud Technology Co Ltd
Priority to CN202310068437.8A priority Critical patent/CN115801545B/zh
Publication of CN115801545A publication Critical patent/CN115801545A/zh
Application granted granted Critical
Publication of CN115801545B publication Critical patent/CN115801545B/zh
Priority to PCT/CN2023/140377 priority patent/WO2024164730A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)
  • Alarm Systems (AREA)

Abstract

本发明实施例中提供了一种混合云管的异常实时上报方法、系统、设备和介质,所述方法包括:利用集成prometheus服务获取混合云管系统的原始metrics数据;对所述原始metrics数据进行聚类,得到metrics数据;按照逻辑组合对所述metrics数据进行处理,得到场景数据;在所述场景数据和/或所述metrics数据触发报警条件的情况下,上报异常信息。在本发明实施例中,将以往被动发现问题转变为主动发现问题,进而有效的提高混合云管系统各类功能操作失败情况的发现、定位效率,提升系统异常捕获覆盖度,为混合云管系统提供了实时、准确的持续优化能力,从而有效提升用户满意度。

Description

一种混合云管的异常实时上报方法、系统、设备和介质
技术领域
本发明涉及云计算中的逻辑可用性监测领域,特别涉及一种混合云管的异常实时上报方法、系统、设备和介质。
背景技术
在国家云的大背景下,很多政企单位业务遍布全国,且对云计算的需求越来越多样化,由此,私有云+公有云的混合云形态逐渐成为政企云业务的发展趋势,然而伴随混合云多样化能力而来的是更复杂的部署架构和使用场景,所以发现系统中问题与异常的难度也呈指数级增长,尤其是系统交付后的生产环境问题。
目前,大部分云厂商对云管业务异常处理的主要方案是通过记录运行日志,或在用户使用出现异常时联系运维人员,运维人员介入处理,或先提交缺陷,待开发人员定期排查解决。这类上报方法更关注当前使用的业务功能,对关联功能和非关注功能关注度低,进而覆盖度低;由于人工介入过多,导致实时性差,且成本极高。
发明内容
鉴于上述问题,本发明实施例提供了一种混合云管的异常实时上报方法、系统、设备和介质,以便克服上述问题或者至少部分地解决上述问题。
本发明实施例的第一方面,公开了一种混合云管的异常实时上报方法,应用于集成prometheus服务,所述方法包括:
利用集成prometheus服务获取混合云管系统的原始metrics数据;
对所述原始metrics数据进行聚类,得到metrics数据;
按照逻辑组合对所述metrics数据进行处理,得到场景数据;
在所述场景数据和/或所述metrics数据触发报警条件的情况下,上报异常信息。
可选地,所述利用集成prometheus服务获取混合云管系统的原始metrics数据,包括:
利用所述集成prometheus服务,按照预设时间间隔定时向所述混合云管系统发送原始metrics数据获取请求;
接收所述混合云管系统返回的原始metrics数据;
对所述原始metrics数据进行聚类,得到metrics数据,包括:
按照云系统、资源池、主功能、子功能对所述原始metrics数据进行聚类,得到metrics数据。
可选地,按照逻辑组合对所述metrics数据进行处理,得到场景数据,包括:
按照云系统、资源池、主功能、子功能分类,分别对各类别在预设时间内的metrics数据进行处理,得到各类别在预设时间内的场景数据。
可选地,所述在所述场景数据和/或所述metrics数据触发报警条件的情况下,上报异常信息,包括:
基于grafana可视化平台制定报警规则,在所述场景数据和/或所述metrics数据满足报警条件的情况下,上报所述场景数据和/或所述metrics数据对应的异常信息。
可选地,在同时上报多个异常信息的情况下,所述方法还包括:
利用alertmanager模块判断同时上报的多个异常信息是否相同;
在所述多个异常信息相同的情况下,对所述多个异常信息进行一次处理;
在所述多个异常信息不相同的情况下,分别对每个异常信息进行处理。
可选地,在所述场景数据和/或所述metrics数据触发报警条件的情况下,上报异常信息,包括:
所述场景数据和/或所述metrics数据触发报警条件的情况下,基于webhook模块进行自定义梯度报警:
通过对报警消息做webhook,利用自定义服务统计报警持续时长;
根据所述报警持续时长,按照自定义的梯度报警规则,将所述异常信息上报至相应的业务处理终端进行处理。
可选地,所述根据所述报警持续时长,按照自定义的梯度报警规则,将所述异常信息上报至相应的业务处理终端进行处理,包括:
当所述报警持续时长未超过第一预设时长时,不通知相应的业务处理终端处理异常信息;
当所述报警持续时长超过所述第一预设时长后还在继续报警时,利用第一上报方式,通知相应的业务处理终端处理异常信息;
当所述报警持续时长超过第二预设时长还在继续报警时,利用第二上报方式,通知相应的业务处理终端处理异常信息;
当所述报警持续时长超过第三预设时长还在继续报警时,利用第三上报方式,通知相应的业务处理终端处理异常信息;
其中,所述第一预设时长小于所述第二预设时长,所述第二预设时长小于所述第三预设时长。
本发明实施例的第二方面,公开了一种混合云管的异常实时上报方法,应用于混合云管系统,所述方法包括:
根据基础数据生成原始metrics数据;
接收集成prometheus服务发送原始metrics数据获取请求,向所述集成prometheus服务返回原始metrics数据,以供所述集成prometheus服务对所述原始metrics数据进行聚类,得到metrics数据,并按照逻辑组合对所述metrics数据进行处理,得到场景数据,在所述场景数据和/或所述metrics数据触发报警条件的情况下,上报异常信息。
可选地,所述根据基础数据生成原始metrics数据,包括:
在代码框架中设计metrics代码包,定义统一的错误类型;
基于各业务功能进行正、异常逻辑埋点,以实时记录所述各业务功能的基础数据;
基于所述基础数据和所述统一的错误类型,生成原始metrics数据。
可选地,所述基于所述基础数据和所述统一的错误类型,生成原始metrics数据,包括:
对所述基础数据聚类、所述基础数据的场景化数据聚类、基于所述基础数据的场景化数据进行时间维度的异常检测,按照所述统一的错误类型,生成原始metrics数据,所述原始metrics数据包括:正常业务的原始metrics数据和异常业务的原始metrics数据。
本发明实施例的第三方面,公开了一种混合云管的异常实时上报系统,用于执行权利要求本发明实施例第一方面和第二方面所述的混合云管的异常实时上报方法,所述系统包括:
混合云管系统,所述混合云管系统用于生成原始metrics数据,并向集成prometheus服务返回原始metrics数据;
集成prometheus服务,所述集成prometheus服务包括:获取聚类模块和异常上报模块;
所述获取聚类模块用于获取原始metrics数据,对所述原始metrics数据进行聚类,得到metrics数据;按照逻辑组合对所述metrics数据进行处理,得到场景数据;
所述异常上报模块,用于在所述场景数据和/或所述metrics数据触发报警条件的情况下,上报异常信息。
可选地,所述混合云管系统,包括:
数据生成模块,所述数据生成模块用于根据基础数据和统一的错误类型,生成原始metrics数据;
数据反馈模块,所述数据反馈模块用于接收集成prometheus服务发送原始metrics数据获取请求,向所述集成prometheus服务返回原始metrics数据。
可选地,所述异常上报模块,包括:
grafana可视化平台,通过所述grafana可视化平台制定报警规则,并在满足报警条件的情况下上报异常信息;
alertmanager模块,利用所述alertmanager模块同时上报的多个异常信息是否相同,在所述多个异常信息相同的情况下,对所述多个异常信息进行一次处理,在所述多个异常信息不相同的情况下,分别对每个异常信息进行处理;
webhook模块,通过所述webhook模块对报警消息做webhook,利用自定义服务统计报警持续时长,结合梯度报警规则和所述报警持续时长,将异常信息上报至相应的业务处理终端进行处理。
本发明实施例的第四方面,公开了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如本发明实施例第一方面所述的混合云管的异常实时上报方法或本发明实施例第二方面所述的混合云管的异常实时上报方法。
本发明实施例的第五方面,公开了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现如本发明实施例第一方面所述的混合云管的异常实时上报方法或本发明实施例第二方面所述的混合云管的异常实时上报方法
本发明实施例包括以下优点:
在本发明实施例中,利用集成prometheus服务获取混合云管系统的原始metrics数据,并对原始metrics数据进行聚类,得到metrics数据,再按照逻辑组合对metrics数据进行处理,得到场景数据,在场景数据或metrics数据触发报警条件的情况下,上报异常信息。因此,在本发明实施例提供的混合云管的异常实时上报方法,将以往被动发现问题转变为主动发现问题,进而有效的提高混合云管系统各类功能操作失败情况的发现、定位效率,提升系统异常捕获覆盖度,为混合云管系统提供了实时、准确的持续优化能力,从而有效提升用户满意度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种应用于集成prometheus服务的混合云管的异常实时上报方法的步骤流程图;
图2是本发明实施例提供的一种应用于混合云管系统的混合云管的异常实时上报方法的步骤流程图;
图3是本发明实施例提供的一种混合云管的异常实时上报系统的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1所示,图1示出了本发明实施例提供的一种应用于集成prometheus服务的混合云管的异常实时上报方法的步骤流程图。如图1所示,本发明实施例提供的一种应用于集成prometheus服务的混合云管的异常实时上报方法具体步骤可以包括步骤S101至步骤S104:
步骤S101:利用集成prometheus服务获取混合云管系统的原始metrics数据。
在本实施例中,集成prometheus服务是一个监控和报警系统,能够实现监控metrics数据的采集、存储、查询以及监控报警等功能。集成prometheus服务采集的数据类型为metrics(指标)格式,metrics数据为时间序列数据,是以时间维度来存储连续数据的集合,并且metrics数据是以键值对(key/value)格式进行存储和展示。metrics数据主要包括:Gauge(可增可减的单变量,仪表盘),Counter(只增不减的单变量,计数器),Histogram(只增不减的单变量,直方图)、Summary(聚合统计的多变量,直方图)四种类型。
在本实施例中,原始metrics数据是混合云管系统根据自身业务功能相关的基础数据生成的。具体地,基础数据包括:正常业务功能处理次数、失败的业务功能处理次数、正常业务功能处理时长、正常业务功能处理时长分布等数据。混合云管系统根据基础数据生成集成prometheus服务要求的metrics格式,即原始metrics数据,以便于集成prometheus服务获取到相应的监控数据。
在一种可能的实施例中,所述利用集成prometheus服务获取混合云管系统的原始metrics数据,包括:
利用所述集成prometheus服务,按照预设时间间隔定时向所述混合云管系统发送原始metrics数据获取请求;接收所述混合云管系统返回的原始metrics数据。
在本实施例中,集成prometheus服务通过定时push的方式向混合云管系统发送获取原始metrics数据请求,混合云管系统在接收到请求后,将原始metrics数据推送到集成prometheus服务。由于混合云管系统输出的数据格式与集成prometheus服务所需的数据格式一致,因此,无需中间数据转换,集成prometheus服务能够快速获取到相应的监控数据(即原始metrics数据)。
步骤S102:对所述原始metrics数据进行聚类,得到metrics数据。
在本实施例中,集成prometheus服务获取的原始metrics数据中混合云管系统各资源池、业务功能相关的各种原始metrics数据是混合在一起,不利于后续对异常情况进行分析和定位。因此,在步骤S102中将获取的原始metrics数据进行聚类,在本步骤中所说的聚类是指对原始metrics数据进行分类,进而最终得到metrics数据是按照类别分类后的数据。
在一种可能的实施例中,对所述原始metrics数据进行聚类,得到metrics数据,包括:按照云系统、资源池、主功能、子功能对所述原始metrics数据进行聚类,得到metrics数据。
经过本实施例聚类方式得到的metrics数据是按照云系统、资源池、主功能、子功能这四个类别进行分类的数据。进而在后续步骤,可根据metrics数据分别对云系统、资源池、主功能、子功能的异常进行分析。
在本实施例中,通过对原始metrics数据进行聚类,更便于各类业务功能操作失败(即异常情况)的发现,以及提高异常情况定位效率。
步骤S103:按照逻辑组合对所述metrics数据进行处理,得到场景数据。
在本实施例中,场景数据是由metrics数据按照逻辑组合得到的更高级的数据,场景数据能够更具体的反映异常情况。例如,将“正常业务功能逻辑处理时长”和“正常业务功能处理次数”这两个metrics数据按照逻辑组合可以得到“业务功能逻辑平均处理时长”这个场景数据,即业务功能逻辑平均处理时长=正常业务功能逻辑处理时长/正常业务功能处理次数;将“失败的业务功能处理次数”、“正常业务功能处理次数”、“失败的业务功能处理次数”这三个metrics数据按照逻辑组合可以得到“单位时间内异常业务功能执行百分比”这个场景处理,即单位时间内异常业务功能执行百分比=失败的业务功能处理次数/(正常业务功能处理次数+失败的业务功能处理次数)。
在一种可能的实施例中,按照逻辑组合对所述metrics数据进行处理,得到场景数据,包括:按照云系统、资源池、主功能、子功能分类,分别对各类别在预设时间内的metrics数据进行处理,得到各类别在预设时间内的场景数据。
例如,针对创建云主机这个业务功能,根据1小时内“云主机创建成功的次数”和“云主机总创建次数”这两个metrics数据,按照逻辑组合可以得到一小时内“云主机的创建成功率”。
在本实施例中,预设时间是异常情况分析时间尺度,预设时间的大小可根据业务功能出异常情况的容易程度来设计,例如,容易出现异常的业务功能,其预设时间设计的更小(如1小时),不容易出现异常的业务功能,其预设时间设计的更大(如1天)。预设时间的大小还可根据业务功能重要程度来设计,例如,重要程度越大的业务功能,其预设时间设计的更小(如1小时),重要程度越小的业务功能,其预设时间设计的更大(如1天)。
进而,针对同样的业务功能,对不同预设时间内metrics数据进行处理,得到不同预设时间内的场景数据,即得到了更多样性的场景数据,实现对混合云管系统异常情况更全面的分析,提升后续步骤中异常情况上报准确率。
步骤S104:在所述场景数据和/或所述metrics数据触发报警条件的情况下,上报异常信息。
在本实施例中,可以利用metrics数据和场景数据这两种数据进行异常情况上报,例如,可以根据metrics数据“业务功能的失败次数”来进行异常信息上报,也可以根据场景数据“业务功能的失败率”。
具体地,分别根据metrics数据和场景数据来定义报警规则,即基于metrics数据定义一个报警阈值,基于场景数据定义一个报警阈值。当预设时间内的metrics数据超过报警阈值(即触发报警条件),则将该metrics数据对应的异常信息进行上报,当预设时间的场景超过报警阈值(即触发报警条件),则将该场景数据对应的异常信息进行上报。其中,进行报警对象为相应业务功能的负责人。例如,对于云主机的异常情况,则将异常信息上报给云主机相关负责人,对于资源池反馈数据异常情况,则将异常信息上班该资源池相关负责人。进而通过细化功能负责人对应关系,实现精准报警。
例如,对于创建云主机这个业务功能,若报警规则为“当1天内创建云主机失败次数超过20次,则进行异常信息上报”,或“当1天内创建云主机失败率超过50%,则进行异常信息上报”。因此,当1天内实际统计到创建云主机失败次数大于20次时,上报异常信息;当1天内实际统计到创建云主机失败率大于50%,上报异常信息。其中,异常信息可以为“创建云主机功能异常”。
需要说明的是,本实施例中的异常情况上报不仅针对各种不合理数据(即各类业务功能操作失败的相关数据)进行分析上报,还针对各种合理数据(各类业务功能操作成功的相关数据)进行分析上报。例如,当30分钟内创建云主机成功次数大于50次时,进行异常上报,因为短时间创建云主机成功次数太多时,导致底层资源处理压力过大,也可能发生异常,即合理数据异常突增也表示发生异常。
在本实施例中,由于metrics数据和场景数据基本覆盖了混合云管系统业务功能的所有异常场景,进而基于metrics数据和场景数据进行异常信息上报,提升系统异常捕获覆盖度。此外,通过对错误率、周同比、日同比等metrics数据场景化计算,可持续提升报警准确率。相较于现有技术,本实施例的混合云管的异常实时上报方法,将以往被动发现问题转变为主动发现问题,进而有效的提高混合云管系统各类业务功能操作失败情况的发现、定位效率,提升系统异常捕获覆盖度,为混合云管系统提供了实时、准确的持续优化能力,从而有效提升用户满意度。
在一种可能的实施例中,所述在所述场景数据和/或所述metrics数据触发报警条件的情况下,上报异常信息,包括:
基于grafana可视化平台制定报警规则,在所述场景数据和/或所述metrics数据满足报警条件的情况下,上报所述场景数据和/或所述metrics数据对应的异常信息。
在本实施例中,grafana可视化平台为集成在集成prometheus服务中的可视化平台,通过grafana可视化平台能够将metrics数据和场景数据进行可视化、图形化、图表化的展示。例如,在grafana可视化平台中可通过仪表盘来展示业务功能的失败次数,或者通过直方图来展示业务功能的处理时长分布等。通过grafana可视化平台写入相应的报警规则,例如,当创建云主机功能的失败率大于30%,且持续5分钟是进行异常上报。
通过利用grafana可视化平台进行异常问题上报,可以直观观察到数据的异常变化,可优先于用户发现潜在问题,用户无需上报即可通过相关人员进行处理。
在一种可能的实施例中,在进行异常上报时,可能存在重复上报的情况,为了避免对异常信息进行重复的处理,在同时上报多个异常信息的情况下,所述方法还包括:
利用alertmanager模块判断同时上报的多个异常信息是否相同;
在所述多个异常信息相同的情况下,对所述多个异常信息进行一次处理;
在所述多个异常信息不相同的情况下,分别对每个异常信息进行处理。
在本实施例中,alertmanager模块是集成prometheus服务中判断重复报警的模块,当alertmanager模块同接收到上报的多个异常信息时,对该多个异常信息做进一步的判断,将相同的异常信息进行合并,以消除重复相同的异常信息,进而通知相应的业务处理终端(业务处理人、开发人员等)只需要对相同的异常信息进行一次处理。因此,通过alertmanager模块对异常信息做进一步的处理,实现对异常信息收敛,避免对异常信息进行重复的处理。
在一种可能的实施例中,在所述场景数据和/或所述metrics数据触发报警条件的情况下,上报异常信息,包括:
所述场景数据和/或所述metrics数据触发报警条件的情况下,基于webhook模块进行自定义梯度报警:
通过对报警消息做webhook,利用自定义服务统计报警持续时长;
根据所述报警持续时长,按照自定义的梯度报警规则,将所述异常信息上报至相应的业务处理终端进行处理。
在本实施例中,为了避免错误报警,利用梯度报警进一步过滤误报并通知相应的业务处理终端(业务、场景对应的负责人)。而webhook模块是集成在集成prometheus服务对异常信息实现梯度报警的模块。
具体地,所述根据所述报警持续时长,按照自定义的梯度报警规则,将所述异常信息上报至相应的业务处理终端进行处理,包括:
当所述报警持续时长未超过第一预设时长时,不通知相应的业务处理终端处理异常信息;
当所述报警持续时长超过所述第一预设时长后还在继续报警时,利用第一上报方式,通知相应的业务处理终端处理异常信息;
当所述报警持续时长超过第二预设时长还在继续报警时,利用第二上报方式,通知相应的业务处理终端处理异常信息;
当所述报警持续时长超过第三预设时长还在继续报警时,利用第三上报方式,通知相应的业务处理终端处理异常信息;
其中,所述第一预设时长小于所述第二预设时长,所述第二预设时长小于所述第三预设时长。
在本实施例中,业务处理终端是指相关业务的负责人,例如,业务处理人、开发人员等。第一上报方式的通知效果小于第二上报方式,第二上报方式的通知效果小于第三上报方式,例如,第一上报方式、第二上报方式和第三上报方式可以分别是邮件、短信和打电话等方式。并且第一预设时长、第二预设时长、第三预设时长可以根据异常情况的不同而设计不同的时间,例如,对于重要程度高的异常信息的第一预设时长、第二预设时长、第三预设时长设计的更短,对于重要程度低的异常信息的第一预设时长、第二预设时长、第三预设时长设计的更长。
例如,当webhook模块接到报警后,并不立即通知相应的业务处理终端处理异常信息,当5分钟(即第一预设时长)过报警还在继续,说明这个报警可能不是误报,通过第一上报方式(如邮件)通知相应的业务处理终端处理该异常信息;当10分钟后(即第二预设时长),报警还在继续,则说明该异常问题还没有解决,可能相应的业务处理终端并没有看到通知,或者异常问题没有处理完,进而利用第二上报方式(如短信)再次通知相应的业务处理终端处理该异常信息;当15分钟后(即第三预设时长),报警还在继续,则通过第三上报方式(如打电话)再次通知相应的业务处理终端处理该异常信息。
在本实施例中,将以往被动发现问题转变为主动发现问题,进而有效的提高混合云管系统各类功能操作失败情况的发现、定位效率,提升系统异常捕获覆盖度,为混合云管系统提供了实时、准确的持续优化能力,从而有效提升用户满意度。并且通过利用grafana可视化平台进行异常问题上报,可以直观观察到数据的异常变化,可优先于用户发现潜在问题,用户无需上报即可通过相关人员进行处理;通过alertmanager模块对异常信息做进一步的处理,实现对异常信息收敛,避免对异常信息进行重复的处理;通过webhook模块进行梯度报警进一步过滤误报,保证报警的准确性。
参照图2所示,图2示出了本发明实施例提供的一种应用于混合云管系统的混合云管的异常实时上报方法的步骤流程图。如图2所示,本发明实施例提供的一种应用于混合云管系统的混合云管的异常实时上报方法具体步骤可以包括步骤S201和步骤S202:
步骤S201:根据基础数据生成原始metrics数据。
在本实施例中,基础数据时按照业务功能逻辑划分的数据,包括:正常业务功能处理次数、失败的业务功能处理次数、正常业务功能处理时长、正常业务功能处理时长分布等数据。混合云管系统根据基础数据生成集成prometheus服务采集所需要的数据格式,即原始metrics数据。
在一种可能的实施例中,所述根据基础数据生成原始metrics数据,包括步骤A1至步骤A3:
步骤A1:在代码框架中设计metrics代码包,定义统一的错误类型。
在本实施例中,定义统一的错误类型是指给每个基础数据定义统一的标签,并对这个标签对应的业务功能进行描述,以便于后续步骤中基于该错误类型生成相应的原始metrics数据。
步骤A2:基于各业务功能进行正、异常逻辑埋点,以实时记录所述各业务功能的基础数据。
在本实施例中,根据埋点来记录各业务功能的基础数据。例如,针对创建云主机业务,当创建失败时,记录失败的次数;当按照正常逻辑完成创建时,记录成功的次数,记录业务处理总时长,记录单条功能处理时长等数据。此外,针对失败的业务功能,增加埋点数量,以便于更好的记录各业务功能的基础数据。
步骤A3:基于所述基础数据和所述统一的错误类型,生成原始metrics数据。
具体地,对所述基础数据聚类、所述基础数据的场景化数据聚类、基于所述基础数据的场景化数据进行时间维度的异常检测,按照所述统一的错误类型,生成原始metrics数据,所述原始metrics数据包括:正常业务的原始metrics数据和异常业务的原始metrics数据。
在本实施例中,基础数据的场景化数据是指针对复杂的场景,直接利用代码的方式来实现,得到该复杂场景对应的场景数据,将这类场景数据也称为基础数据。
步骤S202:接收集成prometheus服务发送原始metrics数据获取请求,向所述集成prometheus服务返回原始metrics数据,以供所述集成prometheus服务对所述原始metrics数据进行聚类,得到metrics数据,并按照逻辑组合对所述metrics数据进行处理,得到场景数据,在所述场景数据和/或所述metrics数据触发报警条件的情况下,上报异常信息。
在本实施例中,混合云管系统直接生成满足集成prometheus服务采集所需要的数据格式,当接收到集成prometheus服务的数据获取请求时,直接将原始metrics数据推送至集成prometheus服务,不需要中间数据的转换,保证了集成prometheus服务获取数据的时效性,进而保证了异常上报的时效性。
在本实施例中,混合云管系统中定义的代码框架支持异常量扩展,集成prometheus服务同时支持增量查询扩展,进而异常检测覆盖度可持续提升。由于是一次性框架设计、业务异常梳理、埋点开发,进而后期维护成本低,最终可实现异常要上报过程脱离人群。
参照图3所示,示出了本发明实施例的一种混合云管的异常实时上报系统的结构框图,该混合云管的异常实时上报系统用户执行上述实施例所述的混合云管的异常实时上报方法,如图3所示,所述系统具体可以包括:混合云管系统和集成prometheus服务,具体地:
(1)混合云管系统,所述混合云管系统用于生成原始metrics数据,并向集成prometheus服务返回原始metrics数据。
具体地,所述混合云管系统,包括:
数据生成模块,所述数据生成模块用于根据基础数据和统一的错误类型,生成原始metrics数据;
数据反馈模块,所述数据反馈模块用于接收集成prometheus服务发送原始metrics数据获取请求,向所述集成prometheus服务返回原始metrics数据。
混合云管系统实际上是一个管理云计算底层资源的管理系统,混合云管系统知道云计算各业务功能的实际处理情况,例如,知道业务功能是否创建成功、每个业务功能的处理时长等各种数据。混合云管系统根据其内部与业务功能相关的基础信息,生成原始metrics数据,以将该原始metrics数据反馈给集成prometheus服务,以使集成prometheus服务进行异常上报。
(2)集成prometheus服务,所述集成prometheus服务包括:获取聚类模块和异常上报模块。
所述获取聚类模块用于获取原始metrics数据,对所述原始metrics数据进行聚类,得到metrics数据;按照逻辑组合对所述metrics数据进行处理,得到场景数据;
所述异常上报模块,用于在所述场景数据和/或所述metrics数据触发报警条件的情况下,上报异常信息。
具体地,所述异常上报模块,包括:
grafana可视化平台,通过所述grafana可视化平台制定报警规则,并在满足报警条件的情况下上报异常信息;
alertmanager模块,利用所述alertmanager模块判断同时上报的多个异常信息是相同,在所述多个异常信息相同的情况下,对所述多个异常信息进行一次处理,在所述多个异常信息不相同的情况下,分别对每个异常信息进行处理;
webhook模块,通过所述webhook模块对报警消息做webhook,利用自定义服务统计报警持续时长,结合梯度报警规则和所述报警持续时长,将异常信息上报至相应的业务处理终端进行处理。
基于本实施例中的混合云管的异常实时上报系统,最快可实现秒级上报,同时通过错误率、周同比、日同比等metrics数据场景化计算,可持续提升报警准确率。混合云管系统中定义的代码框架支持异常量扩展,集成prometheus服务同时支持增量查询扩展,进而异常检测覆盖度可持续提升。由于是一次性框架设计、业务异常梳理、埋点开发,进而后期维护成本低,最终可实现异常要上包过程脱离人群。此外,通过grafana可视化平台可以直观观察到数据的异常变化,可优先于用户发现潜在问题,用户无需上报即可通过相关人员进行处理。
本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行实现本发明实施例所述的混合云管的异常实时上报方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现本发明实施例所述的混合云管的异常实时上报方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明实施例是参照根据本发明实施例的方法、系统、设备和介质的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理器或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种混合云管的异常实时上报方法、系统、设备和介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (14)

1.一种混合云管的异常实时上报方法,其特征在于,应用于集成prometheus服务,所述方法包括:
利用集成prometheus服务获取混合云管系统的原始metrics数据;
对所述原始metrics数据进行聚类,得到metrics数据,所述metrics数据是按照云系统、资源池、主功能、子功能这四个类别进行分类的数据;
按照逻辑组合对所述metrics数据进行处理,得到场景数据,包括:按照云系统、资源池、主功能、子功能分类,分别对各类别在预设时间内的metrics数据进行处理,得到各类别在预设时间内的场景数据,对不同预设时间内metrics数据进行处理,得到不同预设时间内的场景数据;
在所述场景数据触发报警条件的情况下,上报异常信息。
2.根据权利要求1所述的方法,其特征在于,所述利用集成prometheus服务获取混合云管系统的原始metrics数据,包括:
利用所述集成prometheus服务,按照预设时间间隔定时向所述混合云管系统发送原始metrics数据获取请求;
接收所述混合云管系统返回的原始metrics数据;
对所述原始metrics数据进行聚类,得到metrics数据,包括:
按照云系统、资源池、主功能、子功能对所述原始metrics数据进行聚类,得到metrics数据。
3.根据权利要求1所述的方法,其特征在于,所述在所述场景数据触发报警条件的情况下,上报异常信息,包括:
基于grafana可视化平台制定报警规则,在所述场景数据满足报警条件的情况下,上报所述场景数据对应的异常信息。
4.根据权利要求3所述的方法,其特征在于,在同时上报多个异常信息的情况下,所述方法还包括:
利用alertmanager模块判断同时上报的多个异常信息是否相同;
在所述多个异常信息相同的情况下,对所述多个异常信息进行一次处理;
在所述多个异常信息不相同的情况下,分别对每个异常信息进行处理。
5.根据权利要求1所述的方法,其特征在于,所述在所述场景数据触发报警条件的情况下,上报异常信息,包括:
所述场景数据触发报警条件的情况下,基于webhook模块进行自定义梯度报警:
通过对报警消息做webhook,利用自定义服务统计报警持续时长;
根据所述报警持续时长,按照自定义的梯度报警规则,将所述异常信息上报至相应的业务处理终端进行处理。
6.根据权利要求5所述的方法,其特征在于,所述根据所述报警持续时长,按照自定义的梯度报警规则,将所述异常信息上报至相应的业务处理终端进行处理,包括:
当所述报警持续时长未超过第一预设时长时,不通知相应的业务处理终端处理异常信息;
当所述报警持续时长超过所述第一预设时长后还在继续报警时,利用第一上报方式,通知相应的业务处理终端处理异常信息;
当所述报警持续时长超过第二预设时长还在继续报警时,利用第二上报方式,通知相应的业务处理终端处理异常信息;
当所述报警持续时长超过第三预设时长还在继续报警时,利用第三上报方式,通知相应的业务处理终端处理异常信息;
其中,所述第一预设时长小于所述第二预设时长,所述第二预设时长小于所述第三预设时长。
7.一种混合云管的异常实时上报方法,其特征在于,应用于混合云管系统,所述方法包括:
根据基础数据生成原始metrics数据;
接收集成prometheus服务发送原始metrics数据获取请求,向所述集成prometheus服务返回原始metrics数据,以供所述集成prometheus服务对所述原始metrics数据进行聚类,得到metrics数据,所述metrics数据是按照云系统、资源池、主功能、子功能这四个类别进行分类的数据,并按照逻辑组合对所述metrics数据进行处理,得到场景数据,包括:按照云系统、资源池、主功能、子功能分类,分别对各类别在预设时间内的metrics数据进行处理,得到各类别在预设时间内的场景数据,对不同预设时间内metrics数据进行处理,得到不同预设时间内的场景数据,在所述场景数据触发报警条件的情况下,上报异常信息。
8.根据权利要求7所述的方法,其特征在于,所述根据基础数据生成原始metrics数据,包括:
在代码框架中设计metrics代码包,定义统一的错误类型;
基于各业务功能进行正、异常逻辑埋点,以实时记录所述各业务功能的基础数据;
基于所述基础数据和所述统一的错误类型,生成原始metrics数据。
9.根据权利要求8所述的方法,其特征在于,所述基于所述基础数据和所述统一的错误类型,生成原始metrics数据,包括:
对所述基础数据聚类、所述基础数据的场景化数据聚类、基于所述基础数据的场景化数据进行时间维度的异常检测,按照所述统一的错误类型,生成原始metrics数据,所述原始metrics数据包括:正常业务的原始metrics数据和异常业务的原始metrics数据。
10.一种混合云管的异常实时上报系统,其特征在于,用于执行权利要求1-9任一所述的混合云管的异常实时上报方法,所述系统包括:
混合云管系统,所述混合云管系统用于生成原始metrics数据,并向集成prometheus服务返回原始metrics数据;
集成prometheus服务,所述集成prometheus服务包括:获取聚类模块和异常上报模块;
所述获取聚类模块用于获取原始metrics数据,对所述原始metrics数据进行聚类,得到metrics数据,所述metrics数据是按照云系统、资源池、主功能、子功能这四个类别进行分类的数据;按照逻辑组合对所述metrics数据进行处理,得到场景数据,包括:按照云系统、资源池、主功能、子功能分类,分别对各类别在预设时间内的metrics数据进行处理,得到各类别在预设时间内的场景数据,对不同预设时间内metrics数据进行处理,得到不同预设时间内的场景数据;
所述异常上报模块,用于在所述场景数据触发报警条件的情况下,上报异常信息。
11.根据权利要求10所述的系统,其特征在于,所述混合云管系统,包括:
数据生成模块,所述数据生成模块用于根据基础数据和统一的错误类型,生成原始metrics数据;
数据反馈模块,所述数据反馈模块用于接收集成prometheus服务发送原始metrics数据获取请求,向所述集成prometheus服务返回原始metrics数据。
12.根据权利要求10所述的系统,其特征在于,所述异常上报模块,包括:
grafana可视化平台,通过所述grafana可视化平台制定报警规则,并在满足报警条件的情况下上报异常信息;
alertmanager模块,利用所述alertmanager模块判断同时上报的多个异常信息是否相同,在所述多个异常信息相同的情况下,对所述多个异常信息进行一次处理,在所述多个异常信息不相同的情况下,分别对每个异常信息进行处理;
webhook模块,通过所述webhook模块对报警消息做webhook,利用自定义服务统计报警持续时长,结合梯度报警规则和所述报警持续时长,将异常信息上报至相应的业务处理终端进行处理。
13.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如权利要求1-6任一项所述的混合云管的异常实时上报方法或权利要求7-9任一项所述的混合云管的异常实时上报方法。
14.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现如权利要求1-6任一项所述的混合云管的异常实时上报方法或权利要求7-9任一项所述的混合云管的异常实时上报方法。
CN202310068437.8A 2023-02-06 2023-02-06 一种混合云管的异常实时上报方法、系统、设备和介质 Active CN115801545B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202310068437.8A CN115801545B (zh) 2023-02-06 2023-02-06 一种混合云管的异常实时上报方法、系统、设备和介质
PCT/CN2023/140377 WO2024164730A1 (zh) 2023-02-06 2023-12-20 一种混合云管的异常实时上报方法、系统、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310068437.8A CN115801545B (zh) 2023-02-06 2023-02-06 一种混合云管的异常实时上报方法、系统、设备和介质

Publications (2)

Publication Number Publication Date
CN115801545A CN115801545A (zh) 2023-03-14
CN115801545B true CN115801545B (zh) 2023-06-23

Family

ID=85430002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310068437.8A Active CN115801545B (zh) 2023-02-06 2023-02-06 一种混合云管的异常实时上报方法、系统、设备和介质

Country Status (2)

Country Link
CN (1) CN115801545B (zh)
WO (1) WO2024164730A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115801545B (zh) * 2023-02-06 2023-06-23 天翼云科技有限公司 一种混合云管的异常实时上报方法、系统、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114048090A (zh) * 2021-10-21 2022-02-15 中国电子科技网络信息安全有限公司 基于k8s的容器云平台监控的方法、设备及存储介质
CN114996085A (zh) * 2022-05-26 2022-09-02 中电云数智科技有限公司 一种基于Prometheus的实时业务监控方法和系统
CN115442212A (zh) * 2022-08-24 2022-12-06 浪潮云信息技术股份公司 一种基于云计算的智能监控分析方法及系统
CN115629933A (zh) * 2022-09-16 2023-01-20 深圳赛盒科技有限公司 业务系统监控方法、装置、设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101790181B (zh) * 2009-11-27 2011-05-11 北京邮电大学 一种管理家庭基站的方法和装置
US10133614B2 (en) * 2015-03-24 2018-11-20 Ca, Inc. Anomaly classification, analytics and resolution based on annotated event logs
KR102375133B1 (ko) * 2016-12-22 2022-03-15 삼성에스디에스 주식회사 다변량 시계열 모니터링 시스템에서의 알람정보 분석 시스템 및 방법
CN112953737B (zh) * 2019-11-26 2023-07-28 中兴通讯股份有限公司 配置异常检测方法、服务器以及存储介质
CN113037549A (zh) * 2021-03-04 2021-06-25 浪潮云信息技术股份公司 一种运维环境告警方法
CN113778001A (zh) * 2021-09-28 2021-12-10 上海市大数据股份有限公司 一种适用于应用系统的实时数据监控系统
CN114398222A (zh) * 2021-12-16 2022-04-26 江苏电力信息技术有限公司 一种声明式可视化配置Prometheus监控告警的方法
CN115801545B (zh) * 2023-02-06 2023-06-23 天翼云科技有限公司 一种混合云管的异常实时上报方法、系统、设备和介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114048090A (zh) * 2021-10-21 2022-02-15 中国电子科技网络信息安全有限公司 基于k8s的容器云平台监控的方法、设备及存储介质
CN114996085A (zh) * 2022-05-26 2022-09-02 中电云数智科技有限公司 一种基于Prometheus的实时业务监控方法和系统
CN115442212A (zh) * 2022-08-24 2022-12-06 浪潮云信息技术股份公司 一种基于云计算的智能监控分析方法及系统
CN115629933A (zh) * 2022-09-16 2023-01-20 深圳赛盒科技有限公司 业务系统监控方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN115801545A (zh) 2023-03-14
WO2024164730A1 (zh) 2024-08-15

Similar Documents

Publication Publication Date Title
US10666525B2 (en) Distributed multi-data source performance management
CN108365985A (zh) 一种集群管理方法、装置、终端设备及存储介质
CN111339175B (zh) 数据处理方法、装置、电子设备及可读存储介质
CN111176879A (zh) 设备的故障修复方法及装置
CN112311617A (zh) 一种配置化数据监控告警方法及系统
CN115809183A (zh) 基于知识图谱的信创终端故障发现及处置的方法
CN106940677A (zh) 一种应用日志数据告警方法及装置
CN115034638A (zh) 数字孪生处理方法及数字孪生系统
CN115801545B (zh) 一种混合云管的异常实时上报方法、系统、设备和介质
CN110784352B (zh) 一种基于Oracle Goldengate的数据同步监控告警方法及装置
CN113377626B (zh) 基于服务树的可视化统一报警方法、装置、设备和介质
CN110677271B (zh) 基于elk的大数据告警方法、装置、设备及存储介质
CN113595776B (zh) 监控数据处理方法与系统
CN114531338A (zh) 一种基于调用链数据的监控告警和溯源方法及系统
CN116701525A (zh) 一种基于实时数据分析的预警方法、系统和电子设备
CN116932148B (zh) 一种基于ai的问题诊断系统及方法
CN112149975A (zh) 一种基于人工智能的apm监控系统及监控方法
CN110633165B (zh) 故障处理方法、装置、系统服务器及计算机可读存储介质
CN110633191A (zh) 实时监控软件系统业务健康度的方法和系统
CN116795631A (zh) 业务系统监控告警方法、装置、设备和介质
CN115174350B (zh) 一种运维告警方法、装置、设备及介质
CN110601885A (zh) 一种人工智能公有云异常指示报警系统
CN115514618A (zh) 告警事件的处理方法、装置、电子设备和介质
CN111737092B (zh) 一种基于无状态计算的服务器自动化运维系统及方法
CN109120439B (zh) 分布式集群告警输出方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 100007 room 205-32, floor 2, building 2, No. 1 and No. 3, qinglonghutong a, Dongcheng District, Beijing

Patentee after: Tianyiyun Technology Co.,Ltd.

Address before: 100093 Floor 4, Block E, Xishan Yingfu Business Center, Haidian District, Beijing

Patentee before: Tianyiyun Technology Co.,Ltd.