CN114443435B - 一种面向容器微服务的性能监控告警方法及告警系统 - Google Patents

一种面向容器微服务的性能监控告警方法及告警系统 Download PDF

Info

Publication number
CN114443435B
CN114443435B CN202210101661.8A CN202210101661A CN114443435B CN 114443435 B CN114443435 B CN 114443435B CN 202210101661 A CN202210101661 A CN 202210101661A CN 114443435 B CN114443435 B CN 114443435B
Authority
CN
China
Prior art keywords
monitoring
container
cloud
service
performance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210101661.8A
Other languages
English (en)
Other versions
CN114443435A (zh
Inventor
王骏翔
吴中岱
郭磊
胡蓉
韩冰
韩德志
刘晋
杨珉
徐一言
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Shanghai Maritime University
Cosco Shipping Technology Co Ltd
Shanghai Ship and Shipping Research Institute Co Ltd
Original Assignee
Fudan University
Shanghai Maritime University
Cosco Shipping Technology Co Ltd
Shanghai Ship and Shipping Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University, Shanghai Maritime University, Cosco Shipping Technology Co Ltd, Shanghai Ship and Shipping Research Institute Co Ltd filed Critical Fudan University
Priority to CN202210101661.8A priority Critical patent/CN114443435B/zh
Priority to PCT/CN2022/075042 priority patent/WO2023142054A1/zh
Publication of CN114443435A publication Critical patent/CN114443435A/zh
Application granted granted Critical
Publication of CN114443435B publication Critical patent/CN114443435B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Hardware Design (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种面向容器微服务的性能监控告警方法。包括:部署监控采集器:在云计算平台中部署监控采集器对容器微服务中的性能指标进行监控;确定监控的策略及阈值:通过确定微服务的性能监控指标和键值确定监控侧策略及阈值;采集性能数据:通过监控采集器监控对应的组件;分析采集的性能数据:通过多维度建模以及云计算平台下的分权管控和联动进行数据分析;展示数据:针对不同云资源提供对应的不同的监控数据、分析结果的展示;推送告警:通过采用底层性能采集服务的群集,统一性能监控数据的告警。还提供了相应的告警系统,有效的实现了多种云资源在性能监控数据采集、数据汇总清洗、分析展示和异常告警方面的灵活性和可扩展性。

Description

一种面向容器微服务的性能监控告警方法及告警系统
技术领域
本发明涉及云计算领域,涉及微服务和容器,具体涉及一种面向容器微服务的性能监控告警方法及告警系统。
背景技术
微服务(或微服务架构)是一种云原生架构方法,其中单个应用程序由许多松散耦合且可独立部署的较小组件或服务组成。微服务的最重要的单一特征可能是,由于服务较小且可独立部署,因此不再需要繁琐的行动才能更改应用程序中的一行文字。这些服务通常有自己的堆栈,包括数据库和数据模型。尽管有关微服务的许多讨论都围绕体系结构定义和特征展开,但它们的价值可以通过相当简单的业务和组织收益更普遍地理解:可以更轻松地更新代码;团队可以为不同的组件使用不同的堆栈;组件可以彼此独立地进行缩放,因为单个功能可能面临过多的负载,从而减少了因必须缩放整个应用程序而产生的浪费和成本。
容器技术:有效的将单个操作系统的资源划分到孤立的组中,以便更好的在孤立的组之间平衡有冲突的资源使用需求,这种技术就是容器技术。容器技术已经引起了业内的广泛关注,有充分的证据表明,容器技术能够大大提升工作效率。为了扩展适用范围,容器技术仍然需要在安全方面不断改进,再加上更加轻松和快捷的部署方式,容器技术将会在不久的将来占据虚拟化市场。
微服务容器化:微服务区别于单体架构的地方就在于“分而治之”,即通过切分服务以明确模块或者功能边界。为开发者以及运营维护团队提供了低成本高效率的工作方式。
随着云计算技术的不断发展,微服务和容器技术已逐渐成为企业熟悉和广泛应用的新型云技术,常常因为服务的部署和服务运维的复杂性,我们通过容器可以为各种各样不同的产品和服务,做统一化的部署流程。虽然容器的使用带来了一定的运维上的便利性,但也使得很多过去我们在虚拟机上的经验变得不太适用,比较典型的就是服务的监控和告警,比如我们要监控一个容器运行,可能就与监控虚拟机的运行方式不太一样,又比如搜集容器服务日志的方式与搜集虚拟机里面的也不太一样。因此,如果有了监控系统,可以实现:预防故障,当达到一个阀值的时候,发出告警,然后进行处理。还可以预测变化趋势,当故障发生的时候,能提供基本信息给与排查的思路。监控系统关键指标,响应速度,来判断是否中间件有问题,是否数据库有问题,还是网络有问题以及活跃的用户数。因此,对容器云资源的稳定和性能监控的需求也变得日趋迫切和重要。
相较于传统云主机而言,容器环境是运算资源随机池化的,存在着在一个节点上运行着随机调配的多个容器的情况,较难通过传统监控手段区分每个容器的资源实际的占用和负载情况。除了需要对容器的性能指标(内存、CPU、I/O、网络等)进行实时监控,还需要对整个容器群集系统的各组件和运算节点的各项性能、流量、用户行为模式和应用程序性能指标等传统因素进行监控,保证容器基础设施的稳定、高效和正常的运行。
目前,传统的监控技术,仅限于物理主机和云主机层面的性能采集和分析,对于微服务容器环境系的性能监控和监管缺乏;而且随着企业级大型数据中心多群集、多版本环境下,传统监控分析相对固定、单一的样式,针对微服务容器环境的,难以提供灵活、可配置和适配多种环境的分析手段;而现有的监控告警手段仅以传统的邮件、短信为准,未能与企业自身的企业为所对接,企业级容器云环境的性能监控需要更为及时的告警机制,和灵活告警策略配置。尤其是,在对多版本容器云环境下的场景,无法实现一套独立的监控告警体系。
发明内容
在对多版本容器云环境下的场景,为了解决微服务容器环境系的性能监控和监管缺乏能够实现一套独立的、灵活的、及时的监控告警体系,本发明提供了一种面向容器微服务的性能监控告警方法及告警系统。
本发明请求保护以下技术方案,
本发明提供了一种面向容器微服务的性能监控告警方法,其特征在于,包括以下步骤:
S1部署监控采集器:在云计算平台中部署监控采集器,并通过容器群集的相应基础平台参数配置所述监控采集器;所述监控采集器对容器微服务中的性能指标进行监控;所述容器微服务包含多种,主要包括涉及应用服务和中间件服务等;所述监控是对所述容器微服务中对应的组件的监控,所述组件包括:针对各基础环境的组件、针对上层应用服务的组件以及数据库服务的组件等;
S2确定监控的策略及阈值:通过查询所述容器微服务提供的性能监控指标和接收云租户自定义配置的键值来确定所述监控的策略及阈值;所述监控指标根据监控的所述容器微服务而定;所述键值是云租户自设定值;
S3采集性能数据:根据所述确定监控的策略及阈值,通过HTTP协议,周期性地抓取被监控所述组件的状态,通过多组所述监控采集器将采集的监控数据集成至监控采集服务联邦群集;所述监控采集服务联邦群集可以通过对应的HTTP接口与所述被监控的组件进行对接;
S4分析采集的性能数据:对不同的所述容器微服务,通过时序列数据库对所述容器微服务的监控指标通过多维度建模对采集的性能数据进行细颗粒度的分析;所述多维度建模,是针和键值进行的不同类型的监控项和监控维度的建模,可实现包括从容器云基础资源、微服务资源、POD资源等细颗粒度的性能数据进行监控分析;
分析采集的性能数据的过程还包括由云租户通过所述云计算平台下的分权管控和联动来实现;所述分权管控和联动是指包括云计算平台自配置给予的不同云租户的职责角色的权限的分配和管控,云租户通过自身的角色获得权限后,通过所述云计算平台联动获得相应的容器服务的监控采集的性能数据;
S5展示数据:将监控数据、分析结果等通过云计算平台的展示界面进行展示,针对不同云资源提供对应的不同的展示结果;
S6推送告警:通过采用异构平台和联邦群集构建的底层性能采集服务的群集,来支持异构群集的统一接入,并通过联邦群集统一收集异构群集的指标数据,并结合云计算平台的告警规则统一完成推送告警;所述异构群集包括现有已知媒介,利用现有已知媒介灵活实现实时告警的推送机制。
进一步的,在S1步骤中,对所述容器微服务的监控还包括:涉及基础架构层容器平台的底层容器微服务性能监控;
进一步的,在S2步骤中,所述监控指标根据监控的所述容器微服务而定,包括CPU、内存、网络、存储、负载等;所述键值是云租户自设定值,根据云租户的实际不同场景的不同,可以进行配置。
进一步的,在S1步骤中,所述监控采集器监控采集器采用的是Prometheus;在S3步骤中,所述对接方式是由Prometheus采集器提供的原生的接口方式。
进一步的,在S1步骤中,所述对应的组件还包括自定义监控插件,用以支持自定义的业务能力。
进一步的,在S4步骤中,所述分权管控还包括将权限分配给云资源管理者、组织管理者以及普通不同的云租户进行管控,具体的将采集的部分信息,提供云资源管理员进行分析,或/和提供不同的普通云租户进行分析,或/和提供组织管理者进行分析。
进一步的,所述分权管控还包括:对所述监控对象、监控对象性能指标和阀值的设置的权限进行管控。
进一步的,所述是序列数据库是TSDB时序列数据库;在所述TSDB时序列数据库中,通过基于HTTP的Pull方式采集时序数据,通过服务发现或者静态配置来发现目标服务对象;所述多维度数据模型是指采用TSDB时序列数据库的多维度数据模型。
进一步的,所述多维度的建模还包括:云租户可以根据需求进行自配置,定制出对应的监控模型;所述自配置包括在云平台通过监控指标项进行自定义组合。
本发明还提供一种面向容器微服务的性能监控告警系统,其特征在于,包括:
部署监控采集器模块,用于在云计算平台中部署监控采集器,并通过容器群集的相应基础平台参数配置所述监控采集器;所述监控采集器对容器微服务中的性能指标进行监控;所述容器微服务包含多种,主要包括涉及应用服务和中间件服务等;所述监控是对所述容器微服务中对应的组件的监控,所述组件包括:针对各基础环境的组件、针对上层应用服务的组件以及数据库服务的组件等;
确定监控的策略及阈值模块,用于通过查询所述容器微服务提供的性能监控指标和接收云租户自定义配置的键值来确定所述监控的策略及阈值;所述监控指标根据监控的所述容器微服务而定;所述键值是云租户自设定值;
采集性能数据模块,用于根据所述确定监控的策略及阈值,通过HTTP协议,周期性地抓取被监控所述组件的状态,通过多组所述监控采集器将采集的监控数据集成至监控采集服务联邦群集;所述监控采集服务联邦群集可以通过对应的HTTP接口与所述被监控的组件进行对接;
分析采集的性能数据模块,用于对不同的所述容器微服务,通过时序列数据库对所述容器微服务的监控指标通过多维度建模对采集的性能数据进行细颗粒度的分析;所述多维度建模,是针和键值进行的不同类型的监控项和监控维度的建模,可实现包括从容器云基础资源、微服务资源、POD资源等细颗粒度的性能数据进行监控分析;
展示数据模块,用于将监控数据、分析结果等通过云计算平台的展示界面进行展示,针对不同云资源提供对应的不同的展示结果;
推送告警模块,用于通过采用异构平台和联邦群集构建的底层性能采集服务的群集,来支持异构群集的统一接入,并通过联邦群集统一收集异构群集的指标数据,并结合云计算平台的告警规则统一完成推送告警;所述异构群集包括现有已知媒介,利用现有已知媒介灵活实现实时告警的推送机制。
进一步的,所述分析采集的性能数据模块还用于根据云计算平台自配置给予的不同云租户的职责角色的权限的分配和管控,获取云租户对应的权限,并通过所述云计算平台联动获得相应的容器服务的监控采集的性能数据。
进一步的,所述推送告警模块还包括告警规则子模块,所述告警规则子模块,用于根据云租户需求自定义配置所述云计算平台的告警规则,并相应的自定义配置推送告警渠道,来完成推送告警。
与现有技术相比,本发明的优点在于:
数据采集方式采用TSDB时序列数据库的多维度数据模型,不依赖分布式存储,单个服务器节点是自主的。通过基于HTTP的Pull方式采集时序数据,通过服务发现或者静态配置来发现目标服务对象。整体架构采用开源技术落地,通过组件适配和二次开发,完成从性能数据采集、分析展示和告警推送等多种能力,同时,通过云计算平台的分权管控和联动,提供云租户针对不同项目下的容器资源监控和分析能力,提供云租户对于监控项自定义分析的能力。
附图说明
图1.本发明提供的一种面向容器微服务的性能监控告警的方法步骤图。
图2.本发明提供的一种面向容器微服务的性能监控告警系统的配置程序模块图。
图3.本发明提供的一种面向容器微服务的性能监控告警系统的确认监控策略及阈值模块的子程序模块图。
图4.本发明提供的一种面向容器微服务的性能监控告警系统的推送告警模块的子程序模块图。
图5.本发明提供的一种面向容器微服务的性能监控告警系统应用的具体流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆益不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统,产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
微服务即针对传统应用服务的一种细分形式,是一种技术架构。例如某一个单独业务,拆分成不同功能的服务,我们称为微服务。其特点在于每个服务各自承担自己的功能、业务和服务作用,微服务间各自不冲突,但可能存在互相调用的可能。
容器的基础资源和微服务的特点是生命周期短,根据业务的需求不同会有随时生成和灭亡的特性,轻量级。多组微服务pod组成了上层的微服务,支撑各不同的业务服务能力。
时间序列数据库主要用于指处理带时间标签(按照时间的顺序变化,即时间序列化)的数据,带时间标签的数据也称为时间序列数据。对于时序大数据的存储和处理往往采用关系型数据库的方式进行处理,但由于关系型数据库天生的劣势导致其无法进行高效的存储和数据的查询。时序大数据解决方案通过使用特殊的存储方式,使得时序大数据可以高效存储和快速处理海量时序大数据,是解决海量数据处理的一项重要技术。该技术采用特殊数据存储方式,极大提高了时间相关数据的处理能力,相对于关系型数据库它的存储空间减半,查询速度极大的提高。时间序列函数优越的查询性能远超过关系型数据库。在关系型数据库中,以时间为主键做一列进行排序也可以达到时间序列数据查询的要求,但效率远远不如时间序列数据库。
本发明采用以下技术方案:
本技术方案的设计中,侧重关注企业级大型数据中心多群集、多版本环境下容器云资源的性能监控场景,主要为了解决多种云资源在性能监控数据采购、数据汇总清洗、分析展示和异常告警方面的灵活性和可扩展性。
通过时序列数据库对监控指标和键值进行多维度数据模型的建立,通过HTTP协议,周期性地抓取被监控组件的状态,受监控的组件根据其组件类型,提供对应的HTTP接口即可进行对接。
对于异种版本的多容器云场景,采用异构平台对接和联邦群集方式进行构建,实现核心数据的跨平台采集分析和实时告警推送机制。
整体架构采用开源技术落地,通过组件适配和二次开发,完成从性能数据采集、分析展示和告警推送等多种能力,同时,通过云计算平台的分权管控和联动,提供云租户针对不同项目下的容器资源监控和分析能力。
为使本发明技术方案的优点更加清楚,下面结合附图和实施例对本发明做详细说明。
图1是本发明提供的一种面向容器微服务的性能监控告警的方法步骤示图。
如图1所示,本发明可以通过以下的步骤实现面向容器微服务的性能监控和告警:
步骤S1是部署监控采集器:在云计算平台中部署监控采集器,并通过容器群集的相应基础平台参数配置所述监控采集器,这里所述的容器群集指的以Kubernetes为容器运行环境的高可用群集;所述监控采集器对容器微服务中的性能指标进行监控;所述容器微服务包含多种,主要包括涉及应用服务和中间件服务等;所述监控是对所述容器微服务中对应的组件的监控,所述组件包括:针对各基础环境的组件、针对上层应用服务的组件以及数据库服务的组件等。
在本实施例中,所述监控采集器监控采集器采用的是Prometheus。这种监控采集器的特点是属于业界开源产品,且较为轻量级,兼容各种受控对象的采集方式。这里需要注意的是,本发明的要求保护的技术方案中的逻辑架构,从技术实现上需要使用这种开源方式的采集,但亦可采用其他专用的采集器来实现。
步骤S2是为了确定监控的策略及阈值:通过查询所述容器微服务提供的性能监控指标和接收云租户自定义配置的键值来确定所述监控的策略及阈值;所述监控指标根据监控的所述容器微服务而定;所述键值是云租户自设定值。这里所述的监控指标根据监控的所述容器微服务而定,包括CPU、内存、网络、存储、负载等,作为微服务的运行基础环境,包括CPU、内存、网络、存储、负载等指标是较为基础和关键的,可以反映容器及微服务的性能及稳定性,因此,这里选择这些指标进行监控,当然实际应用中,作为微服务的运行基础环境或其他指标也都可以在本方案中实现采集和监控。所述键值是云租户自设定值,根据云租户的实际不同场景的不同,可以进行配置。在实际应用中,用户配置的键值,例如用户可以根据自行构建的微服务,定义自己所关心的性能或业务方面的监控指标,云平台通过开放式的方式完成容器微服务上层的各项监控能力。
步骤S3是采集性能数据:根据所述确定监控的策略及阈值,通过HTTP协议,周期性地抓取被监控所述组件的状态,通过多组所述监控采集器将采集的监控数据集成至监控采集服务联邦群集;所述监控采集服务联邦群集可以通过对应的HTTP接口与所述被监控的组件进行对接;在本实施例中,这里所述的对接方式是由Prometheus采集器提供的原生的接口方式。
步骤S4是分析采集的性能数据,对不同的所述容器微服务,通过时序列数据库对所述容器微服务的监控指标通过多维度建模对采集的性能数据进行细颗粒度的分析;所述多维度建模,是针和键值进行的不同类型的监控项和监控维度的建模,可实现包括从容器云基础资源、微服务资源、POD资源等细颗粒度的性能数据进行监控分析。
这里所述的时序列数据库是TSDB时序列数据库;在所述TSDB时序列数据库中,通过基于HTTP的Pull方式采集时序数据,通过服务发现或者静态配置来发现目标服务对象;所述多维度数据模型是指采用TSDB时序列数据库的多维度数据模型。所述的多维度的建模还包括:云租户可以根据需求进行自配置,定制出对应的监控模型;所述自配置包括在云平台通过监控指标项进行自定义组合。
进一步的,其中,分析采集的性能数据的过程还包括由云租户通过所述云计算平台下的分权管控和联动来实现;所述分权管控和联动是指包括云计算平台自配置给予的不同云租户的职责角色的权限的分配和管控,云租户通过自身的角色获得权限后,通过所述云计算平台联动获得相应的容器服务的监控采集的性能数据。
在实际应用中,所述分权管控还包括将权限分配给云资源管理者、组织管理者以及普通不同的云租户进行管控,具体的将采集的部分信息,提供云资源管理员进行分析,或/和提供不同的普通云租户进行分析,或/和提供组织管理者进行分析。
进一步的,所述分权管控还包括:对所述监控对象、监控对象性能指标和阀值的设置的权限进行管控。
步骤S5是展示数据:将监控数据、分析结果等通过云计算平台的展示界面进行展示,针对不同云资源提供对应的不同的展示结果。这里所述的云资源是指容器群集各基础资源、微服务资源、POD等资源等。云平台具有自定义监控展示的面板,结合相关的各项监控指标项,可以进行灵活的配置,从而云租户可以对其所关心的业务指标项进行监控展示。
步骤S6是推送告警:通过采用异构平台和联邦群集构建的底层性能采集服务的群集,来支持异构群集的统一接入,并通过联邦群集统一收集异构群集的指标数据,并结合云计算平台的告警规则统一完成推送告警;所述异构群集包括现有已知媒介,利用现有已知媒介灵活实现实时告警的推送机制,所述媒介,包括邮件、企业微信等。
在本实施例中,S1步骤中,对所述容器微服务的监控还包括:涉及基础架构层容器平台的底层容器微服务性能监控。优选的,所述对应的组件还包括自定义监控插件,用以支持自定义的业务能力。
图2是本发明提供的一种面向容器微服务的性能监控告警系统的配置程序模块图。
如图2所示,一种面向容器微服务的性能监控告警的系统,包括部署监控采集器模块101、确定监控的策略及阈值模块102、采集性能数据模块103、分析采集的性能数据模块104、展示数据模块105、推送告警模块106。
其中:部署监控采集器模块101,用于在云计算平台中部署监控采集器,并通过容器群集(这里容器群集指的以Kubernetes为容器运行环境的高可用群集)的相应基础平台参数配置所述监控采集器;所述监控采集器对容器微服务中的性能指标进行监控;所述容器微服务包含多种,主要包括涉及应用服务和中间件服务等;所述监控是对所述容器微服务中对应的组件的监控,所述组件包括:针对各基础环境的组件、针对上层应用服务的组件以及数据库服务的组件等。
确定监控的策略及阈值模块102,用于通过查询所述容器微服务提供的性能监控指标和接收云租户自定义配置的键值来确定所述监控的策略及阈值;所述监控指标根据监控的所述容器微服务而定;所述键值是云租户自设定值。如图3所示,所述确定监控的策略及阈值模块102包括查询子模块1021和接收子模块1022,用于通过查询子模块1021来查询所述容器微服务提供的性能监控指标和接收子模块1022来接收云租户自定义配置的键值来确定所述监控的策略及阈值。
采集性能数据模块103,用于根据所述确定监控的策略及阈值,通过HTTP协议,周期性地抓取被监控所述组件的状态,通过多组所述监控采集器将采集的监控数据集成至监控采集服务联邦群集;所述监控采集服务联邦群集可以通过对应的HTTP接口与所述被监控的组件进行对接。
分析采集的性能数据模块104,用于通过多维度建模对采集的性能数据进行细颗粒度的分析;其中,所述多维度建模,是针对不同的所述容器微服务,通过时序列数据库对所述容器微服务的监控指标和键值进行的不同类型的监控项和监控维度的建模,可实现包括从容器云基础资源、微服务资源、POD资源等细颗粒度的性能数据进行监控分析。
在本实施例中,所述分析采集的性能数据模块104,还用于根据云计算平台自配置给予的不同云租户的职责角色的权限的分配和管控,获取云租户对应的权限,并通过所述云计算平台联动获得相应的容器服务的监控采集的性能数据。
展示数据模块105,用于将监控数据、分析结果等通过云计算平台的展示界面进行展示,针对不同云资源提供对应的不同的展示结果(所述云资源是指容器群集各基础资源、微服务资源、POD等资源等。云平台具有自定义监控展示的面板,结合相关的各项监控指标项,可以进行灵活的配置,从而云租户可以对其所关心的业务指标项进行监控展示)。
在本实施例中,所述展示数据模块还用于数据检索与展示,云租户通过展示界面的检索入口直接调用数据库中的数据资源,并返回检索值到展示界面,将性能数据的分析和报告进行展示,以供用户进行监控数据的检索查询,用户可以根据性能的指标,修改监控告警的策略。
推送告警模块106,用于通过采用异构平台和联邦群集构建的底层性能采集服务的群集,来支持异构群集的统一接入,并通过联邦群集统一收集异构群集的指标数据,并结合云计算平台的告警规则统一完成推送告警;所述异构群集包括现有已知媒介,利用现有已知媒介灵活实现实时告警的推送机制。其中,所述媒介,包括邮件、企业微信等。
在本实施例中,所述推送告警模块106,还包括告警规则子模1061,如图4所示,所述告警规则子模块1061,用于根据云租户需求自定义配置所述云计算平台的告警规则,并相应的自定义配置推送告警渠道,来完成推送告警。
图5是本发明提供的一种面向容器微服务的性能监控告警系统应用的具体流程图。
如图5所示,云租户登录进入容器微服务性能监控告警系统,所述告警系统中已部署部署Prometheus监控采集器;通过分权管控确定监控的策略和阈值,包括确定自定义配置监控项和告警阈值以及被监控的容器微服务提供的性能数据后,所述监控策略以及阈值会提交至云计算平台;通过云计算平台下发监控策略以及阈值,同时下发监控执行命令到监控采集服务联邦群集、监控告警;多个Prometheus监控采集器,根据所述确定监控的策略及阈值,通过HTTP协议,周期性地抓取被监控所述组件的状态,通过多组所述监控采集器将采集的监控数据集成至监控采集服务联邦群集;系统会对不同的所述容器微服务,通过利用TSDB时序列数据库对所述容器微服务的监控指标通过多维度建模(所述的多维度的建模还包括:云租户可以根据需求进行自配置,定制出对应的监控模型;所述自配置包括在云平台通过监控指标项进行自定义组合),对采集的性能数据进行细颗粒度的分析;进一步的,系统通过采用异构平台和联邦群集构建的底层性能采集服务的群集,来支持异构群集的统一接入,并通过联邦群集统一收集异构群集的指标数据,并结合云计算平台的告警规则统一完成推送告警;告警数据和分析结果由监控告警通过多媒介发送服务把推送消息推送至用户(云租户),此时,系统也会将监控数据、分析结果等通过云计算平台的展示界面进行展示,针对不同云资源(容器云基础资源、微服务资源、POD资源等细颗粒度的性能数据)提供对应的不同的展示结果。
进一步的,监控采集服务联邦群集会自动化的集成多组所述监控采集器采集的监控数据,并自动根据监控策略(策略已在云平台中统一配置)调用推送告警模块进行告警,将采集数据下发至监控告警中,进而通过多媒介发送服务把推送消息推送至用户。
在本实施例中还包括一种电子装置,该装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行本实施例提供的一种面向容器微服务的性能监控告警的装置的配置程序,所述配置程序被所述处理器执行时可以实现本实施例提供的一种面向容器微服务的性能监控告警方法。
在本实施例中还包括一种计算机可读存储介质,所述计算机可读的存储介质上存储有一种面向容器微服务的性能监控告警装置的配置程序,所述配置程序可以被一个或多个处理器执行,以实现如本实施例所提供的一种面向容器微服务的性能监控告警方法。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种面向容器微服务的性能监控告警方法,其特征在于,包括以下步骤:
S1 部署监控采集器:在云计算平台中部署监控采集器,并通过容器群集的相应基础平台参数配置所述监控采集器;所述监控采集器对容器微服务中的性能指标进行监控;所述容器微服务包含多种,主要包括涉及应用服务和中间件服务;所述监控是对所述容器微服务中对应的组件、涉及基础架构层容器平台的底层容器微服务性能的监控,所述组件包括:针对各基础环境的组件、针对上层应用服务的组件、数据库服务的组件以及用以支持自定义的业务能力的自定义监控插件;所述监控采集器监控采集器采用的是Prometheus;
S2确定监控的策略及阈值:通过查询所述容器微服务提供的性能监控指标和接收云租户自定义配置的键值来确定所述监控的策略及阈值;所述监控指标根据监控的所述容器微服务而定,包括CPU、内存、网络、存储、负载;所述键值是云租户自设定值,根据云租户的实际不同场景的不同,进行配置;
S3采集性能数据:根据所述确定监控的策略及阈值,通过HTTP协议,周期性地抓取被监控所述组件的状态,通过多组所述监控采集器将采集的监控数据集成至监控采集服务联邦群集;所述监控采集服务联邦群集通过对应的HTTP接口与所述被监控的组件进行对接;对接方式是由Prometheus采集器提供的原生的接口方式;
S4分析采集的性能数据:对不同的所述容器微服务,通过时序列数据库对所述容器微服务的监控指标通过多维度建模对采集的性能数据进行细颗粒度的分析;所述多维度建模,是针对键值进行的不同类型的监控项和监控维度的建模,可实现针对包括从容器云基础资源、微服务资源、POD资源细颗粒度的性能数据进行监控分析;
分析采集的性能数据的过程还包括由云租户通过所述云计算平台下的分权管控和联动来实现;所述分权管控和联动是指包括云计算平台自配置给予的不同云租户的职责角色的权限的分配和管控,云租户通过自身的角色获得权限后,通过所述云计算平台联动获得相应的容器服务的监控采集的性能数据;
S5展示数据:将监控数据、分析结果通过云计算平台的展示界面进行展示,针对不同云资源提供对应的不同的展示结果;
S6推送告警:通过采用异构平台和联邦群集构建的底层性能采集服务的群集,来支持异构群集的统一接入,并通过联邦群集统一收集异构群集的指标数据,并结合云计算平台的告警规则统一完成推送告警;所述异构群集包括现有已知媒介,利用现有已知媒介灵活实现实时告警的推送机制。
2.根据权利要求1所述的监控告警方法,其特征还在于,在S4步骤中,所述分权管控还包括将权限分配给云资源管理者、组织管理者以及普通不同的云租户进行管控,具体的将采集的部分信息,提供云资源管理员进行分析,或/和提供不同的普通云租户进行分析,或/和提供组织管理者进行分析。
3.根据权利要求2所述的监控告警方法,其特征还在于,所述分权管控还包括:对所述监控对象、监控对象性能指标和阈值的设置的权限进行管控。
4.根据权利要求1或2所述的监控告警方法,其特征还在于,所述时序列数据库是TSDB时序列数据库;在所述TSDB时序列数据库中,通过基于HTTP的Pull方式采集时序数据,通过服务发现或者静态配置来发现目标服务对象。
5.根据权利要求4所述的监控告警方法,其特征还在于,所述多维度建模还包括:云租户根据需求进行自配置,定制出对应的监控模型;所述自配置包括在云平台通过监控指标项进行自定义组合。
6.一种面向容器微服务的性能监控告警系统,其特征在于,包括:
部署监控采集器模块,用于在云计算平台中部署监控采集器,并通过容器群集的相应基础平台参数配置所述监控采集器;所述监控采集器对容器微服务中的性能指标进行监控;所述容器微服务包含多种,主要包括涉及应用服务和中间件服务;所述监控是对所述容器微服务中对应的组件的监控,所述组件包括:针对各基础环境的组件、针对上层应用服务的组件以及数据库服务的组件;
确定监控的策略及阈值模块,用于通过查询所述容器微服务提供的性能监控指标和接收云租户自定义配置的键值来确定所述监控的策略及阈值;所述监控指标根据监控的所述容器微服务而定;所述键值是云租户自设定值;
采集性能数据模块,用于根据所述确定监控的策略及阈值,通过HTTP协议,周期性地抓取被监控所述组件的状态,通过多组所述监控采集器将采集的监控数据集成至监控采集服务联邦群集;所述监控采集服务联邦群集通过对应的HTTP接口与所述被监控的组件进行对接;
分析采集的性能数据模块,用于对不同的所述容器微服务,通过时序列数据库对所述容器微服务的监控指标通过多维度建模对采集的性能数据进行细颗粒度的分析;所述多维度建模,是针对键值进行的不同类型的监控项和监控维度的建模,可实现针对包括从容器云基础资源、微服务资源、POD资源细颗粒度的性能数据进行监控分析;还用于根据云计算平台自配置给予的不同云租户的职责角色的权限的分配和管控,获取云租户对应的权限,并通过所述云计算平台联动获得相应的容器服务的监控采集的性能数据;
展示数据模块,用于将监控数据、分析结果通过云计算平台的展示界面进行展示,针对不同云资源提供对应的不同的展示结果;
推送告警模块,用于通过采用异构平台和联邦群集构建的底层性能采集服务的群集,来支持异构群集的统一接入,并通过联邦群集统一收集异构群集的指标数据,并结合云计算平台的告警规则统一完成推送告警;所述异构群集包括现有已知媒介,利用现有已知媒介灵活实现实时告警的推送机制。
7.根据权利要求6所述的一种面向容器微服务的性能监控告警系统,其特征在于,所述推送告警模块还包括告警规则子模块,所述告警规则子模块,用于根据云租户需求自定义配置所述云计算平台的告警规则,并相应的自定义配置推送告警渠道,来完成推送告警。
CN202210101661.8A 2022-01-27 2022-01-27 一种面向容器微服务的性能监控告警方法及告警系统 Active CN114443435B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210101661.8A CN114443435B (zh) 2022-01-27 2022-01-27 一种面向容器微服务的性能监控告警方法及告警系统
PCT/CN2022/075042 WO2023142054A1 (zh) 2022-01-27 2022-01-29 一种面向容器微服务的性能监控告警方法及告警系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210101661.8A CN114443435B (zh) 2022-01-27 2022-01-27 一种面向容器微服务的性能监控告警方法及告警系统

Publications (2)

Publication Number Publication Date
CN114443435A CN114443435A (zh) 2022-05-06
CN114443435B true CN114443435B (zh) 2023-09-08

Family

ID=81369853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210101661.8A Active CN114443435B (zh) 2022-01-27 2022-01-27 一种面向容器微服务的性能监控告警方法及告警系统

Country Status (2)

Country Link
CN (1) CN114443435B (zh)
WO (1) WO2023142054A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115022196A (zh) * 2022-06-14 2022-09-06 启明信息技术股份有限公司 一种预测软件运行问题并告警的方法和系统
WO2024002327A1 (zh) * 2022-06-30 2024-01-04 华为云计算技术有限公司 一种云监控和分析方法、系统
CN116719664B (zh) * 2023-08-09 2023-12-05 国网江苏省电力有限公司信息通信分公司 基于微服务部署的应用和云平台跨层故障分析方法及系统
CN116781757B (zh) * 2023-08-22 2023-11-07 北京城建智控科技股份有限公司 数据监控方法、装置、平台、电子设备和存储介质
CN117251337B (zh) * 2023-09-07 2024-05-28 广州宇中网络科技有限公司 微服务健康拨测方法、装置、设备及存储介质
CN117170985B (zh) * 2023-11-02 2024-01-12 武汉大学 面向开放式地理信息网络服务的分布式监测方法及系统
CN117527523A (zh) * 2023-11-23 2024-02-06 广东堡塔安全技术有限公司 一种基于云计算的服务器安全监控系统
CN117707883B (zh) * 2023-11-28 2024-07-09 中国科学院空间应用工程与技术中心 一种用于云平台与云上业务运行监控可视化的方法及系统
CN117395132B (zh) * 2023-12-13 2024-02-20 江西云眼视界科技股份有限公司 一种分布式告警监控方法、系统、存储介质及电子设备
CN117453493B (zh) * 2023-12-22 2024-05-31 山东爱特云翔信息技术有限公司 大规模多数据中心的gpu算力集群监控方法及系统
CN118012719B (zh) * 2024-04-08 2024-07-05 广东琴智科技研究院有限公司 容器运行状态监测方法、智能计算云操作系统及计算平台

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104506393A (zh) * 2015-01-06 2015-04-08 北京海量数据技术股份有限公司 一种基于云平台的系统监控方法
WO2016188153A1 (zh) * 2015-05-22 2016-12-01 中兴通讯股份有限公司 访问角色获取方法、装置及系统
CN109714358A (zh) * 2019-01-15 2019-05-03 广东工业大学 一种微服务化的注塑mes云平台
CN109714192A (zh) * 2018-11-29 2019-05-03 深圳供电局有限公司 一种监控云平台的监控方法及系统
CN111367187A (zh) * 2015-08-27 2020-07-03 雾角系统公司 用于改进对分布式网络中的传感器流数据的处理的方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101826498B1 (ko) * 2017-05-02 2018-02-07 나무기술 주식회사 클라우드 플랫폼 시스템
CN111355622A (zh) * 2018-12-21 2020-06-30 中兴通讯股份有限公司 容器的业务监控方法、系统和计算机可读存储介质
US11102328B2 (en) * 2019-05-09 2021-08-24 Sap Se Provisioning multi-tenant, microservice architecture-based integration service in a cloud computing environment
CN111459750A (zh) * 2020-03-18 2020-07-28 平安科技(深圳)有限公司 基于非扁平网络的私有云监控方法、装置、计算机设备及存储介质
CN111901573A (zh) * 2020-08-17 2020-11-06 泽达易盛(天津)科技股份有限公司 一种基于边缘计算的细颗粒度实时监管系统
CN112291112B (zh) * 2020-10-27 2022-11-15 中国光大银行股份有限公司 一种云计算服务监控系统和方法
CN113946497A (zh) * 2021-09-03 2022-01-18 李济伟 一种适用于多云平台资源统一智能监控告警的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104506393A (zh) * 2015-01-06 2015-04-08 北京海量数据技术股份有限公司 一种基于云平台的系统监控方法
WO2016188153A1 (zh) * 2015-05-22 2016-12-01 中兴通讯股份有限公司 访问角色获取方法、装置及系统
CN111367187A (zh) * 2015-08-27 2020-07-03 雾角系统公司 用于改进对分布式网络中的传感器流数据的处理的方法
CN109714192A (zh) * 2018-11-29 2019-05-03 深圳供电局有限公司 一种监控云平台的监控方法及系统
CN109714358A (zh) * 2019-01-15 2019-05-03 广东工业大学 一种微服务化的注塑mes云平台

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵昱.基于容器技术的管控融合一体化系统.《中国优秀硕士学位论文全文数据库》.2020,正文第3节以及附图3-4. *

Also Published As

Publication number Publication date
CN114443435A (zh) 2022-05-06
WO2023142054A1 (zh) 2023-08-03

Similar Documents

Publication Publication Date Title
CN114443435B (zh) 一种面向容器微服务的性能监控告警方法及告警系统
CN113176875B (zh) 一种基于微服务的资源共享服务平台架构
CN111459763B (zh) 跨kubernetes集群监控系统及方法
CN110737643B (zh) 一种基于餐饮信息管理系统的大数据分析处理管理中台
Fu et al. Real-time data infrastructure at uber
Kamburugamuve et al. Survey of distributed stream processing for large stream sources
CN105653691B (zh) 信息资源管理方法及管理装置
CN107733986A (zh) 支持一体化部署及监控的保护运行大数据支撑平台
CN106548288B (zh) 电力多场景多态实例管理系统及方法
US9992269B1 (en) Distributed complex event processing
CN107682209A (zh) 一种sdp大数据自动化部署监控平台
CN111124806A (zh) 一种基于分布式调度任务的设备状态实时监测方法及系统
CN115114359B (zh) 用户数据处理方法及装置
CN112579288A (zh) 一种基于云计算智能安全用数据管理系统
CN113722187B (zh) 一种面向微服务架构的服务监控系统
CN101196901B (zh) 用于数据库查询的计算机系统和方法
CN111082521A (zh) 一种电网调控系统的运维数据监视方法及运维系统
CN108009004B (zh) 基于Docker的业务应用可用度测量监控的实现方法
Bautista et al. Shasta log aggregation, monitoring and alerting in HPC environments with Grafana Loki and ServiceNow
CN113127526A (zh) 一种基于Kubernetes的分布式数据存储和检索系统
CN114567633A (zh) 一种支撑多栈数据库全生命周期的云平台系统及管理方法
CN114020893A (zh) 一种基于分布式存储的日志检索方法、装置及存储介质
CN103226501A (zh) 一种数据库的逻辑备份方法以及逻辑备份系统
CN109032809A (zh) 基于遥感影像存储位置的异构并行调度系统
CN101515864A (zh) 告警信息配制系统及其配制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant