CN111752805A - 一种云服务器资源监控及告警系统 - Google Patents

一种云服务器资源监控及告警系统 Download PDF

Info

Publication number
CN111752805A
CN111752805A CN202010616156.8A CN202010616156A CN111752805A CN 111752805 A CN111752805 A CN 111752805A CN 202010616156 A CN202010616156 A CN 202010616156A CN 111752805 A CN111752805 A CN 111752805A
Authority
CN
China
Prior art keywords
monitoring
cloud server
granularity
module
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010616156.8A
Other languages
English (en)
Inventor
王新雨
高传集
于昊
张晓玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202010616156.8A priority Critical patent/CN111752805A/zh
Publication of CN111752805A publication Critical patent/CN111752805A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Alarm Systems (AREA)

Abstract

本发明提供一种云服务器资源监控及告警系统,属于云计算技术领域。本发明要解决的技术问题是如何根据用户的监控粒度需求来对云服务器进行监控和告警,以满足用户对于不同数据粒度的需求。本发明具体的技术方案是:该系统包括QGA模块、Exporter模块、Prometheus服务模块以及监控告警管理模块。QGA模块用于监控数据的采集;Exporter模块用于获取云服务器相应的信息以及拉取QGA模块获取的监控数据。Prometheus服务模块用于定时从Exporter模块拉取并处理数据,存储数据以及提供监控告警管理模块所需的监控数据。监控告警管理模块用于配置监控和告警规则以及数据展示。

Description

一种云服务器资源监控及告警系统
技术领域
本发明属于云计算技术领域,涉及一种云服务器资源监控和告警系统装置。
背景技术
云服务器是云计算服务的重要组成部分,是面向各类互联网用户提供综合业务能力的服务平台。云服务器是一种简单高效、安全可靠、处理能力可弹性伸缩的计算服务。其管理方式比物理服务器更简单高效。用户可以在云服务器上快速搭建和运行自己的应用,降低开发和运维难度。因此,云服务器的稳定运行对用户使用来说至关重要,云服务器的日常维护和监控工作就显得更为关键。
专利号为CN 104657250 A的专利文献公开了一种对云主机进行性能监控的监控系统及监控方法,该监控方法通过云主机Agent模块、计算节点Agent模块以及站点监控模块采集云主机的虚拟资源利用状态进行监控以获得监控数据。该技术方案能够实现对云主机指标收集和告警,实现对云主机的虚拟资源利用状态的全面了解。但是不能根据用户需求对云服务器监控资源进行多粒度的监控和告警,满足用户对数据粒度的需求。
发明内容
本发明的技术任务是解决现有技术的不足,提供一种云服务器资源监控及告警系统。该系统可以根据用户的自定义需求,对云服务器监控资源的不同粒度进行监控和预警。
本发明解决其技术问题所采用的技术方案是:
一种云服务器资源监控和告警系统,包括QGA模块、Exporter模块、Prometheus服务模块以及监控告警管理模块。
QGA模块安装于云服务器中,用于监控数据的采集。
Exporter模块用于获取云服务器相应的信息以及拉取QGA模块获取的监控数据。
Prometheus服务模块用于定时从Exporter模块拉取并处理数据,存储数据以及提供监控告警管理模块所需的监控数据。
监控告警管理模块用于配置监控和告警规则以及数据展示,可配置的监控规则有监控指标,监控粒度,监控周期,聚合函数。可配置的告警规则包括监控指标,告警数据粒度,阈值,告警通知方式。
进一步地,监控粒度可配置为无agent粒度(云服务器内不安装agent而是使用Libvirt采集部分指标)、监控对象粒度(监控对象指本身粒度,如CPU,磁盘分区,网卡等),云服务器粒度(云服务器下所有监控对象的聚合)以及云服务器组粒度(云服务器组内所有云服务器监控数据聚合)。
进一步地,粒度大小:无agent粒度<监控对象粒度<云服务器粒度<云服务器组粒度。无agent粒度的监控指标比其他三种要少。监控周期最小为20秒。监控聚合函数包括最大,最小,平均以及加和。
进一步地,告警粒度本身可选不小于监控粒度。告警通知方式可以选择页面显示、短信通知以及邮件通知中的一种或多种。告警聚合函数包括监控聚合函数包括最大,最小和平均。
进一步地,Prometheus服务模块周期性的从Exporter模块拉取监控数据。
进一步地,Exporter模块通过Libvirt API获取当前正在运行的云服务器列表。并进一步获取云服务器ID,用户名。
进一步地,QGA模块采集的监控指标包括CPU、内存、GPU、磁盘、网络相关指标。这些指标也都可以作为用户监控告警的可选监控指标。监控指标将按照用户配置的监控粒度进行收集。
进一步地,监控数据的获取包括以下步骤:
(1)用户根据自身需求,设置监控粒度。
(2)Prometheus服务模块周期性的从各个Exporter模块拉取数据。
(3)Exporter模块收到Prometheus服务模块的请求,使用Libvirt API获取当前云服务器列表,并依此获取各云服务器的ID、名称和用户信息作为监控数据的维度信息。
(4)读取用户为该云服务器配置的监控粒度。如果监控粒度为无agent粒度,则调用Libvirt API采集相关监控数据。否则,借助virsh调用监控相关的QGA命令获取QGA模块返回对应粒度的监控数据。
(5)QGA模块接收命令,收集当前时刻监控数据。并通过虚拟串口将获得的监控数据返回给Exporter模块。
进一步地,用户查看监控指标包括以下几个步骤:
(1)用户在监控告警管理模块添加新的监控项,依次选择目标云服务器、监控指标、监控粒度、监控周期、监控粒度以及时间范围。
(2)Prometheus服务模块查询符合以上要求的监控数据,并返回给监控告警管理模块。
(3)监控告警管理模块图表显示并更新对应监控数据。
进一步地,用户添加告警规则包含以下几个步骤:
(1)用户在监控告警管理模块配置告警指标、目标云服务器、告警数据粒度,阈值以及告警通知方式。
(2)配置成功生效后,验证采集的数据是否符合用户告警项要求。
(3)如果符合告警项,通过用户配置的告警方式告警。
本发明的一种云服务器资源监控及告警系统与现有技术相比所产生的有益效果是:
1、本发明根据用户配置的监控粒度来收集监控数据,用户可以自己把控监控数据的上报粒度,满足用户监控粒度的需求。以及无agent粒度满足用户隐私需求。
2、本发明收集云服务器的各类资源使用数据,便于用户查看云服务器的使用情况,判断自身应用的运行情况,并有利于自身云服务器扩容及变更规格等需求的判断。
3、本发明为用户提供了自定义的监控功能,用户可以查看监控数据所关心的监控指标在具体时间具体云服务器上的情况,方便用户查看和判断云服务器使用和运行情况。
4、本发明为用户提供了自定义的告警功能,用户可以自定义告警规则,及时地知晓云服务器使用中超出自身预期的预警信息。
附图说明
为了更清楚地描述本发明一种云服务器资源监控及告警系统的工作原理,下面将附上简图作进一步说明。
附图1是本发明云服务器资源监控和告警系统的结构框图。
附图2是本发明云服务器资源监控和告警系统监控数据的获取流程图。
附图3是本发明云服务器资源监控和告警系统用户查看监控项流程图。
附图4是本发明云服务器资源监控和告警系统用户添加告警规则流程图。
具体实施方式
下面将结合本发明实施例中的附图1、2,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如附图1所示,本发明的一种云服务器资源监控和告警系统,包括QGA模块、Exporter模块、Prometheus服务模块以及监控告警管理模块。
QGA模块安装于云服务器中,用于监控数据的采集。
Exporter模块用于获取云服务器相应的信息以及拉取QGA模块获取的监控数据。
Prometheus服务模块用于定时从Exporter模块拉取并处理数据,存储数据以及提供监控告警管理模块所需的监控数据。
监控告警管理模块用于配置监控和告警规则以及数据展示,可配置的监控规则有监控指标,监控粒度,监控周期,聚合函数。可配置的告警规则包括监控指标,告警数据粒度,阈值,告警通知方式。
进一步地,监控粒度可配置为无agent粒度(云服务器内不安装agent而是使用Libvirt采集部分指标)、监控对象粒度(监控对象指本身粒度,如CPU,磁盘分区,网卡等),云服务器粒度(云服务器下所有监控对象的聚合)以及云服务器组粒度(云服务器组内所有云服务器监控数据聚合)。
进一步地,粒度大小:无agent粒度<监控对象粒度<云服务器粒度<云服务器组粒度。无agent粒度的监控指标比其他三种要少。监控周期最小为20秒。监控聚合函数包括最大,最小,平均以及加和。
进一步地,告警粒度本身可选不小于监控粒度。告警通知方式可以选择页面显示、短信通知以及邮件通知中的一种或多种。告警聚合函数包括监控聚合函数包括最大,最小和平均。
进一步地,Prometheus服务模块周期性的从Exporter模块拉取监控数据。
进一步地,Exporter模块通过Libvirt API获取当前正在运行的云服务器列表。并进一步获取云服务器ID,用户名。
进一步地,QGA模块采集的监控指标包括CPU、内存、GPU、磁盘、网络相关指标。这些指标也都可以作为用户监控告警的可选监控指标。监控指标将按照用户配置的监控粒度进行收集。
进一步地,监控数据的获取包括以下步骤:
(1)用户根据自身需求,设置监控粒度。
(2)Prometheus服务模块周期性的从各个Exporter模块拉取数据。
(3)Exporter模块收到Prometheus服务模块的请求,使用Libvirt API获取当前云服务器列表,并依此获取各云服务器的ID、名称和用户信息作为监控数据的维度信息。
(4)读取用户为该云服务器配置的监控粒度。如果监控粒度为无agent粒度,则调用Libvirt API采集相关监控数据。否则,借助virsh调用监控相关的QGA命令获取QGA模块返回对应粒度的监控数据。
(5)QGA模块接收命令,收集当前时刻监控数据。并通过虚拟串口将获得的监控数据返回给Exporter模块。
进一步地,用户查看监控指标包括以下几个步骤:
(1)用户在监控告警管理模块添加新的监控项,依次选择目标云服务器、监控指标、监控粒度、监控周期、监控粒度以及时间范围。
(2)Prometheus服务模块查询符合以上要求的监控数据,并返回给监控告警管理模块。
(3)监控告警管理模块图表显示并更新对应监控数据。
进一步地,用户添加告警规则包含以下几个步骤:
(1)用户在监控告警管理模块配置告警指标、目标云服务器、告警数据粒度,阈值以及告警通知方式。
(2)配置成功生效后,验证采集的数据是否符合用户告警项要求。
(3)如果符合告警项,通过用户配置的告警方式告警。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种云服务器资源监控和告警系统,其特征在于,包括QGA模块、Exporter模块、Prometheus服务模块以及监控告警管理模块;
QGA模块安装于云服务器中,用于监控数据的采集;
Exporter模块用于获取云服务器相应的信息以及拉取QGA模块获取的监控数据;
Prometheus服务模块用于定时从Exporter模块拉取并处理数据,存储数据以及提供监控告警管理模块所需的监控数据;
监控告警管理模块用于配置监控和告警规则,可配置的监控规则有监控指标,监控粒度,监控周期,聚合函数,可配置的告警规则包括监控指标,告警数据粒度,阈值,告警通知方式。
2.根据权利要求1所述的一种云服务器资源监控及告警系统,其特征在于,监控粒度可配置为无agent粒度(云服务器内不安装agent而是使用Libvirt采集部分指标)、监控对象粒度(监控对象指本身粒度,如CPU,磁盘分区,网卡),云服务器粒度(云服务器下所有监控对象的聚合)以及云服务器组粒度(云服务器组内所有云服务器监控数据聚合)。
3.根据权利要求1所述的一种云服务器资源监控及告警系统,其特征在于,粒度大小:无agent粒度<监控对象粒度<云服务器粒度<云服务器组粒度;无agent粒度的监控指标比其他三种要少;监控周期最小为20秒;监控聚合函数包括最大,最小,平均以及加和。
4.根据权利要求1所述的一种云服务器资源监控及告警系统,其特征在于,告警粒度本身可选不小于监控粒度;告警通知方式可以选择页面显示、短信通知以及邮件通知中的一种或多种;告警聚合函数包括监控聚合函数包括最大,最小和平均。
5.根据权利要求1所述的云服务器资源监控和告警系统,其特征在于,Prometheus服务模块周期性的从Exporter模块拉取监控数据;Exporter模块通过Libvirt API获取当前正在运行的云服务器列表,并进一步获取云服务器ID,用户;QGA模块采集的监控指标包括CPU、内存、GPU、磁盘、网络相关指标;这些指标也都可以作为用户监控告警的可选监控指标;监控指标将按照用户配置的监控粒度进行收集。
6.根据权利要求1所述的云服务器资源监控和告警系统,其特征在于,监控数据的获取包括以下步骤:
(1)用户根据自身需求,设置监控粒度;
(2)Prometheus服务模块周期性的从各个Exporter模块拉取数据;
(3)Exporter模块收到Prometheus服务模块的请求,使用Libvirt API获取当前云服务器列表,并依此获取各云服务器的ID、名称和用户信息作为监控数据的维度信息;
(4)读取用户为该云服务器配置的监控粒度;如果监控粒度为无agent粒度,则调用Libvirt API采集相关监控数据;否则,借助virsh调用监控相关的QGA命令获取QGA模块返回对应粒度的监控数据;
(5)QGA模块接收命令,收集当前时刻监控数据,并通过虚拟串口将获得的监控数据返回给Exporter模块。
7.根据权利要求1所述的云服务器资源监控和告警系统,其特征在于,用户查看监控指标包括以下几个步骤:
(1)用户添加新的监控项,依次选择目标云服务器、监控指标、监控粒度、监控周期以及时间范围;
(2)Prometheus服务模块查询符合以上要求的监控数据,并返回给监控告警管理模块;
(3)监控告警管理模块图表显示并更新对应监控数据。
8.根据权利要求1所述的云服务器资源监控和告警系统,用户添加告警规则包含以下几个步骤:
(1)用户在添加告警项页面配置监控指标、目标云服务器、告警数据粒度,阈值以及告警通知方式;
(2)配置成功生效后,验证采集的数据是否符合用户告警项要求;
(3)如果符合告警项,通过用户配置的告警方式告警。
CN202010616156.8A 2020-07-01 2020-07-01 一种云服务器资源监控及告警系统 Pending CN111752805A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010616156.8A CN111752805A (zh) 2020-07-01 2020-07-01 一种云服务器资源监控及告警系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010616156.8A CN111752805A (zh) 2020-07-01 2020-07-01 一种云服务器资源监控及告警系统

Publications (1)

Publication Number Publication Date
CN111752805A true CN111752805A (zh) 2020-10-09

Family

ID=72676819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010616156.8A Pending CN111752805A (zh) 2020-07-01 2020-07-01 一种云服务器资源监控及告警系统

Country Status (1)

Country Link
CN (1) CN111752805A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112965874A (zh) * 2021-03-04 2021-06-15 浪潮云信息技术股份公司 一种可配置的监控告警方法及系统
CN113037549A (zh) * 2021-03-04 2021-06-25 浪潮云信息技术股份公司 一种运维环境告警方法
CN113037547A (zh) * 2021-03-03 2021-06-25 浪潮云信息技术股份公司 一种资源性能采集监控与告警系统
CN113867197A (zh) * 2021-09-16 2021-12-31 浪潮云信息技术股份公司 一种基于Prometheus的云数据中心实例监控方法
CN114168431A (zh) * 2022-02-10 2022-03-11 北京金堤科技有限公司 自动监控服务的方法和装置、以及电子设备和存储介质
CN115827393A (zh) * 2023-02-21 2023-03-21 德特赛维技术有限公司 一种服务器集群监控及告警系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113037547A (zh) * 2021-03-03 2021-06-25 浪潮云信息技术股份公司 一种资源性能采集监控与告警系统
CN112965874A (zh) * 2021-03-04 2021-06-15 浪潮云信息技术股份公司 一种可配置的监控告警方法及系统
CN113037549A (zh) * 2021-03-04 2021-06-25 浪潮云信息技术股份公司 一种运维环境告警方法
CN112965874B (zh) * 2021-03-04 2023-02-28 浪潮云信息技术股份公司 一种可配置的监控告警方法及系统
CN113867197A (zh) * 2021-09-16 2021-12-31 浪潮云信息技术股份公司 一种基于Prometheus的云数据中心实例监控方法
CN114168431A (zh) * 2022-02-10 2022-03-11 北京金堤科技有限公司 自动监控服务的方法和装置、以及电子设备和存储介质
CN114168431B (zh) * 2022-02-10 2022-04-15 北京金堤科技有限公司 自动监控服务的方法和装置、以及电子设备和存储介质
CN115827393A (zh) * 2023-02-21 2023-03-21 德特赛维技术有限公司 一种服务器集群监控及告警系统
CN115827393B (zh) * 2023-02-21 2023-10-20 德特赛维技术有限公司 一种服务器集群监控及告警系统

Similar Documents

Publication Publication Date Title
CN111752805A (zh) 一种云服务器资源监控及告警系统
CN108874640B (zh) 一种集群性能的评估方法和装置
CN103580934B (zh) 一种云业务监测方法和装置
CN109660380A (zh) 服务器运行状态的监控方法、平台、系统及可读存储介质
CN105718351A (zh) 一种面向Hadoop集群的分布式监控管理系统
CN106487574A (zh) 自动化运行维护监测系统
CN112311617A (zh) 一种配置化数据监控告警方法及系统
CN112965874B (zh) 一种可配置的监控告警方法及系统
CN111339175B (zh) 数据处理方法、装置、电子设备及可读存储介质
CN104881352A (zh) 基于移动端的系统资源监控装置
CN109947616A (zh) 一种基于OpenStack技术的云操作系统的自动化监控运维系统
CN114443429B (zh) 一种告警事件的处理方法、装置及计算机可读存储介质
CN108733531A (zh) 基于云计算的gpu性能监控系统
CN112699007A (zh) 监控机器性能的方法、系统、网络设备及存储介质
CN114513400B (zh) 一种日志聚合系统及一种提高日志聚合系统可用性的方法
CN114356499A (zh) Kubernetes集群告警根因分析方法及装置
CN105471938B (zh) 服务器负载管理方法及装置
CN108280007B (zh) 一种用于评估设备资源利用率的方法和装置
CN113595776B (zh) 监控数据处理方法与系统
CN111782488B (zh) 消息队列监控方法、装置、电子设备和介质
CN110677271B (zh) 基于elk的大数据告警方法、装置、设备及存储介质
CN108509314A (zh) 一种主机运行指标监控告警方法及系统装置
CN111258870A (zh) 分布式存储系统的性能分析方法、装置、设备及存储介质
CN115981950A (zh) 监控告警方法、装置、设备及计算机可读存储介质
CN109120439B (zh) 分布式集群告警输出方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination