CN115499431A - 一种公有云多资源池运维监控系统 - Google Patents
一种公有云多资源池运维监控系统 Download PDFInfo
- Publication number
- CN115499431A CN115499431A CN202210904986.XA CN202210904986A CN115499431A CN 115499431 A CN115499431 A CN 115499431A CN 202210904986 A CN202210904986 A CN 202210904986A CN 115499431 A CN115499431 A CN 115499431A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- acquisition
- prometheus
- alarm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 48
- 238000012423 maintenance Methods 0.000 title claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 78
- 238000013500 data storage Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims description 19
- 230000005540 biological transmission Effects 0.000 claims description 11
- 238000013144 data compression Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims 1
- 238000011161 development Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 241000412611 Consul Species 0.000 description 5
- 238000013480 data collection Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 3
- 238000007906 compression Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q9/00—Arrangements in telecontrol or telemetry systems for selectively calling a substation from a main station, in which substation desired apparatus is selected for applying a control signal thereto or for obtaining measured values therefrom
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Selective Calling Equipment (AREA)
Abstract
本申请是关于公有云多资源池运维监控系统,具体涉及运维监控技术领域。该系统包括数据采集装置、数据处理装置以及数据存储装置数据采集装置包含数据采集工具;数据采集工具包括push模型以及pull模式;数据采集工具用于通过pull模式向被监控组件请求数据;数据采集工具还用于通过push接收监控组件推送的数据;数据处理装置中包括prometheus模块以及thanos数据处理模块;prometheus模块用于接收数据采集装置采集到的数据,并通过thanos数据处理模块传输至数据存储装置。通过上述方案用户(运维人员)可以按需将数据push到数据存储端,极大的减少了服务维护方的开发量,提高了监控数据采集的灵活性。
Description
技术领域
本发明涉及运维监控技术领域,具体涉及一种公有云多资源池运维监控系统。
背景技术
云计算发展至今,公有云服务在中小型企业中扮演着举足轻重的角色。对于一个互联网项目,拥有几台、几十台、甚至几百台服务器都是很正常的需求,大多数中小型企业、个人,都选择采用云计算服务商提供的云主机、云服务器等。
保证这些云主机、云服务器的稳定、正常运行,对服务商来说就尤为重要。开源的prometheus软件是当前监控领域的标杆,开源界绝大部分监控产品都是以prometheus为基础组件或数据协议。常见的多资源池分布式监控多以prometheus、prometheus联邦集群、thanos集群或全链路自研如open-falcon等方案落地。
而在上述方案中,通过现有的prometheus软件实现多资源池的运维监控,数据采集的灵活性较差。
发明内容
本申请提供了一种公有云多资源池运维监控系统,提高了数据采集的灵活性,该技术方案如下。
本申请提供的一种公有云多资源池运维监控系统包括数据采集装置、数据处理装置以及数据存储装置;
所述数据采集装置包含数据采集工具;所述数据采集工具包括push模型以及pull模式;所述数据采集工具用于通过pull模式向被监控组件请求数据;所述数据采集工具还用于通过push接收所述监控组件推送的数据;
所述数据处理装置中包括prometheus模块以及thanos数据处理模块;所述prometheus模块用于接收所述数据采集装置采集到的数据,并通过thanos数据处理模块传输至数据存储装置。
在一种可能的实现方式中,所述数据采集工具安装在待检测设备上,所述数据采集工具包括插件池单元、采集处理单元以及采集发送单元;
所述插件池单元包括各个采集插件,以对待检测设备的各个数据情况进行数据采集;
所述采集处理单元中包括采集处理插件;所述采集处理单元用于对所述插件池单元采集到的数据进行采集处理,并发送至采集发送单元;
所述采集发送单元中包括第一http接口以及第二http接口;所述第一http接口用于支撑prometheus pull模式拉取数据;所述第二http接口用于通过push模式将少量数据直接发送到prometheus模块。
在一种可能的实现方式中,所述采集处理插件包括多个数据处理插件,以按需对采集插件的数据进行处理;所述多个数据处理插件至少包括数据精度处理插件和数据粒度处理插件。
在一种可能的实现方式中,所述prometheus模块获取目标资源位置,并按照指定周期通过pull模式拉取数据;
所述prometheus模块还可以接收到所述待检测设备上的数据采集工具通过push模式推送的数据。
在一种可能的实现方式中,所述prometheus模块还用于存储在指定时长区间内接收到的数据;所述thanos数据处理模块用于按照指定时间区间对应的时间间隔,将所述prometheus模块存储的数据发送至数据存储装置。
在一种可能的实现方式中,所述数据存储装置中包含数据接收模块、分布式的文件存储模块和数据查询模块;
所述数据接收模块用于接收thanos数据处理模块发送的数据,并压缩为数据块存储至分布式的文件存储模块中;
所述数据查询模块用于根据接收到的用户查询请求,在所述分布式文件存储模块中查询对应的数据。
在一种可能的实现方式中,所述数据存储装置中还包括数据压缩模块;
所述数据压缩模块将各个数据包按照prometheus数据规则进行合并。
在一种可能的实现方式中,所述系统还包括告警装置;
所述告警装置中包括规则引擎模块以及通知模块;
所述规则引擎模块用于周期性地调用数据查询接口,以持续对数据存储装置进行告警检测;
所述通知模块用于接收所述规则引擎模块生成的告警信息,并将所述告警信息发送对应的终端设备。
在一种可能的实现方式中,所述规则引擎模块用于从web页面或api接口获取报警配置,并将所述报警配置写入数据库,以使所述规则引擎模块周期性读取数据库配置数据,并周期性调用数据查询接口,以持续对数据存储装置进行告警检测。
在一种可能的实现方式中,所述规则引擎模块还用于当生成各个告警数据时,根据各个告警数据的标签值,将所述各个告警数据进行聚合,以使所述通知模块将聚合后的告警数据发送给对应的终端设备。
本申请提供的技术方案可以包括以下有益效果:
为了实现对公有云多资源池进行运维监控,可以在云服务器中设置公有云多资源池运维监控系统,且该系统包括数据采集装置、数据处理装置以及数据存储装置;其中数据采集装置包括数据采集工具,该数据采集工具及可以通过pull模式向被监控组件请求数据,也可以接收通过push模式推送的数据,而数据处理装置则可以获取通过prometheus模块接收数据采集装置采集到的数据,并传输至数据存储装置。通过上述方案,prometheus作为中间数据传输组件,同时具备数据推、拉模式,用户(运维人员)可以按需将数据push到数据存储端,极大的减少了服务维护方的开发量,提高了监控数据采集的灵活性。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种云计算系统的结构示意图。
图2是根据一示例性实施例示出的一种公有云多资源池运维监控系统的结构示意图。
图3示出了本申请实施例涉及的一种数据采集装置的结构示意图。
图4示出了本申请实施例涉及的一种数据存储装置的结构示意图。
图5示出了本申请实施例涉及的一种告警装置示意图。
图6示出了本申请实施例涉及的一种自底向上的系统整体架构图。
图7是根据本申请一示例性实施例提供的一种计算机设备示意图。
具体实施方式
下面将结合附图对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应理解,在本申请的实施例中提到的“指示”可以是直接指示,也可以是间接指示,还可以是表示具有关联关系。举例说明,A指示B,可以表示A直接指示B,例如B可以通过A获取;也可以表示A间接指示B,例如A指示C,B可以通过C获取;还可以表示A和B之间具有关联关系。
在本申请实施例的描述中,术语“对应”可表示两者之间具有直接对应或间接对应的关系,也可以表示两者之间具有关联关系,也可以是指示与被指示、配置与被配置等关系。
本申请实施例中,“预定义”可以通过在设备(例如,包括终端设备和网络设备)中预先保存相应的代码、表格或其他可用于指示相关信息的方式来实现,本申请对于其具体的实现方式不做限定。
在对本申请所示的各个实施例进行说明之前,首先对本申请涉及到的几个概念进行介绍。
1)云技术
云技术(Cloud technology)是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
2)云计算
云计算(cloud computing)是分布式计算的一种,指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序,然后,通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。云计算早期,简单地说,就是简单的分布式计算,解决任务分发,并进行计算结果的合并。因而,云计算又称为网格计算。通过这项技术,可以在很短的时间内(几秒钟)完成对数以万计的数据的处理,从而达到强大的网络服务。
图1是根据一示例性实施例示出的一种云计算系统的结构示意图。该系统包括终端120以及云服务器110。
可选的,该终端120可以通过API(Application Programming Interface,应用程序接口)向该云服务器110调用应用实例,以实现应用实例对应的数据处理功能。
可选的,该第一应用实例可以是容器化的实例。
可选的,该云服务器110可以根据终端120发送的,与应用实例对应的API调用请求,对终端120发送的数据进行处理,并将结果返回至终端120中。
可选的,该云服务器110中加载有公有云资源池运维监控系统,该系统用于对该云服务器中的各个机器进行运维监控操作,以避免该云服务器中的机器出现问题导致云计算系统的错误或崩溃。
可选的,在本申请中,该公有云资源池运维监控系统可以是基于Prometheus软件构建的。
可选的,该终端可以是具有数据处理功能以及数据存储功能的终端设备,该终端可以包括一个终端,也可以包括多个终端,本申请实施例对该终端的数量不设限制。该终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等具有数据处理器以及数据存储组件的终端设备,但不局限于此。
可选的,该云服务器可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础运计算服务的云服务器。
可选的,该云服务器110与该终端120之间可以通过通信网络相连。可选的,该通信网络可以是有线网络或无线网络。
可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网,但也可以是其他任何网络,包括但不限于局域网、城域网、广域网、移动、有限或无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中,使用包括超文本标记语言、可扩展标记语言等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层、传输层安全、虚拟专用网络、网际协议安全等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
图2是根据一示例性实施例示出的一种公有云多资源池运维监控系统的结构示意图。该公有云多资源池运维监控系统可以安装在云服务器中该云服务器可以是如图1中所示的云计算系统中的云服务器110。如图2所示,该公有云多资源池运维监控系统可以包括数据采集装置、数据处理装置以及数据存储装置;
所述数据采集装置包含数据采集工具;所述数据采集工具包括push模型以及pull模式;所述数据采集工具用于通过pull模式向被监控组件请求数据;所述数据采集工具还用于通过push接收所述监控组件推送的数据;
所述数据处理装置中包括prometheus模块以及thanos数据处理模块;所述prometheus模块用于接收所述数据采集装置采集到的数据,并通过thanos数据处理模块传输至数据存储装置。
可选的,在本申请实施例中,该数据采集装置可以是安装在云服务器中的目标设备上,该云服务器中的各个机器(也就是目标设备)上安装有监控组件(即数据采集装置中的数据采集工具),该监控组件用于对自身所在的机器进行数据采集,例如监控该机器的运行状态、该机器所接收到的数据信息等。
当监控组件对机器进行数据采集,得到监控数据后,在一种可能的实现方式中,监控组件可以通过pull模式将采集到的监控数据传输至数据采集装置中的数据采集工具。即数据采集工具先确定需要监控的机器,并向其发送数据拉取请求,从而实现数据采集工具主动向各个机器通过pull模式拉取数据。
在另一种可能的实现方式中,监控组件还可以通过push模式主动将采集到的监控数据推送至数据采集装置。
当数据采集装置采集到数据(也就是监控数据)后,则可以发送至数据处理装置中的prometheus模块,并暂时保存在prometheus模块中,而后数据处理装置中的thanos数据处理模块每隔一段时间将暂存在prometheus模块中的监控数据发送至数据存储装置中。
在一种可能的实现方式中,所述数据采集工具安装在待检测设备上,所述数据采集工具包括插件池单元、采集处理单元以及采集发送单元;
所述插件池单元包括各个采集插件,以对待检测设备的各个数据情况进行数据采集;
所述采集处理单元中包括采集处理插件;所述采集处理单元用于对所述插件池单元采集到的数据进行采集处理,并发送至采集发送单元;
所述采集发送单元中包括第一http接口以及第二http接口;所述第一http接口用于支撑prometheus pull模式拉取数据;所述第二http接口用于通过push模式将少量数据直接发送到prometheus模块。
请参考图3,其示出了本申请实施例涉及的一种数据采集装置的结构示意图,如图3所示,数据采集装置包含一个支持prometheus数据结构的基于push/pull模式的监控agent。Agent是个golang语言实现的插件agent,分为采集-处理-传输三个部分。前面的数据采集并行插件(也就是插件池单元)是并行的goroutine实现的插件池,每个routine管理一个采集插件,采集到的数据都会通过go channel发送到数据处理部分;即在一种可能的实现方式中,如图3所示,所述采集插件包括基础监控数据采集插件、进程数据采集插件、业务服务状态采集插件中的至少一者。
中间的数据并行pipeline插件群(也就是采集处理单元),是串行的数据处理逻辑,我们会实现一些如数据精度处理、数据按分钟聚合的数据粒度处理等处理操作,然后将处理完的数据通过channel发送到数据发送部分。即在一种可能的实现方式中,所述采集插件包括基础监控数据采集插件、进程数据采集插件、业务服务状态采集插件中的至少一者。
最后的数据处理部分(也就是采集发送单元)跟数据采集部分类似也是并行处理,首先他会暴露一个http接口,供prometheus pull模式拉取数据,其次我们也实现了prometheus http client接口,可以将少量数据直接发送到目标prometheus,另外我们也根据prometheus pushgateway实现了pushgateway的数据发送方式。在一种可能的实现方式中,该采集发送单元,包括如图3所示的数据发送并行插件(sender),该数据发送并行插件包括kafka发送插件以及prometheusremotewrite发送插件中的至少一者。
在一种可能的实现方式中,在数据处理装置中所述prometheus模块获取目标资源位置,并按照指定周期通过pull模式拉取数据;
所述prometheus模块还可以接收到所述待检测设备上的数据采集工具通过push模式推送的数据。
在一种可能的实现方式中,所述prometheus模块还用于存储在指定时长区间内接收到的数据;所述thanos数据处理模块用于按照指定时间区间对应的时间间隔,将所述prometheus模块存储的数据发送至数据存储装置。
即资源池内数据处理装置包括了开源的Prometheus和thanos数据处理模块。传统prometheus需要一个consul/etcd等服务发现组件为prometheus生成采集目标的配置,prometheus通过consul等中间件获得target位置,并周期性pull数据。而本装置agent在此基础上,还部分支持push模式,将数据直接送往Prometheus http接口。prometheus存储数据,并每两小时由thanos数据处理模块将prometheus暂存的两小时数据发往中央存储装置。
在一种可能的实现方式中,所述数据存储装置中包含数据接收模块、分布式的文件存储模块和数据查询模块;
所述数据接收模块用于接收thanos数据处理模块发送的数据,并压缩为数据块存储至分布式的文件存储模块中;
所述数据查询模块用于根据接收到的用户查询请求,在所述分布式文件存储模块中查询对应的数据。
在一种可能的实现方式中,所述数据存储装置中还包括数据压缩模块;
所述数据压缩模块将各个数据包按照prometheus数据规则进行合并。
请参考图4,其示出了本申请实施例涉及的一种数据存储装置的结构示意图。如图4所示,数据存储装置以开源的thanos软件为基础架构,包括数据接收模块、分布式的文件存储模块、数据压缩与降采样模块和数据查询模块。
a)数据接收模块是一个无状态的服务集群(包括多个网关gateway),会将资源池内thanos数据处理服务发送过来的Prometheus数据以块为单位处理并存储到数据存储模块中。
b)数据存储模块采用了thanos官方推荐的minio存储集群,他可以任意的横纵向扩容,并直接使用机械硬盘,无需高额存储成本。
c)数据存储模块搭配了一套数据压缩和降采样模块。
中央数据存储装置会存储所有资源池上传上来的以两小时为传输频率的数据包,数据包是prometheus数据存储的原始格式,每个数据包都会存储为一个小文件。很明显,两个小时存储一个文件,在长时间存储时,会让存储服务器产生大量的小文件,可能造成inode耗尽的风险。此外,一次跨越多个小时时间范围的查询,也需要读取多个文件再进行合并,这降低了数据读取的性能。
数据压缩模块会定时的(比如每天),将小文件按prometheus数据规则合并为大文件,以提高存储服务性能。
另外,用户在查询长时间跨度监控数据的时候,可能需要更粗的数据粒度以查看数据趋势,比如查询1周的30分钟监控粒度的数据来查看磁盘使用量变化快慢。原始数据多以一分钟粒度为主,查询方需要读取出所有一分钟粒度数据然后再聚合成五分钟粒度,这样需要消耗大量的算力和时间。本模块在进行数据压缩的时候,可以根据配置同时进行数据降采样:在进行数据块压缩的同时,对大周期数据进行采样,比如每30分钟的数据只挑选第一个点存储,1分钟粒度数据存储为30分钟粒度数据,确保粗粒度数据能存储更长时间。
d)查询模块是一套无状态的数据查询集群。从上文得知,资源池内数据会每两小时将数据推送到中心存储,而未到两小时的数据将会存储在资源池内部。查询组件query会将用户的查询请求分别发送到资源池内核中央存储装置,再将两者查询到的结果进行汇聚,确保拿出完整的数据。
在一种可能的实现方式中,所述系统还包括告警装置;
所述告警装置中包括规则引擎模块以及通知模块;
所述规则引擎模块用于周期性地调用数据查询接口,以持续对数据存储装置进行告警检测;
所述通知模块用于接收所述规则引擎模块生成的告警信息,并将所述告警信息发送对应的终端设备。
在一种可能的实现方式中,所述规则引擎模块用于从web页面或api接口获取报警配置,并将所述报警配置写入数据库,以使所述规则引擎模块周期性读取数据库配置数据,并周期性调用数据查询接口,以持续对数据存储装置进行告警检测。
在一种可能的实现方式中,所述规则引擎模块还用于当生成各个告警数据时,根据各个告警数据的标签值,将所述各个告警数据进行聚合,以使所述通知模块将聚合后的告警数据发送给对应的终端设备。
请参考图5,其示出了本申请实施例涉及的一种告警装置示意图。如图5所示,规则引擎模块有别于市面上的prometheus和其分支的yaml文件管理配置的模式,传统的prometheus.rules、thanos.rules等报警匹配功能,需要通过用户手动将报警配置编写成yaml、或者是将配置发送到consul然后使用consul_template等开源组件将consul数据生成rules的配置文件,这样的流程繁琐、易出错、且不灵活。
而本模块可以直接接收从web页面或者api接口传入的报警配置,并将配置直接写入数据库。规则引擎则周期性的读去数据库配置数据,并模拟prometheus.rules运行模式,周期性调用数据查询接口,持续产生报警信息。
更重要的是,本模块可以按照用户配置,将报警按lable分组,包含同一个label值(如project=monitor)的不同报警对象(比如多个IP),都会被收敛到同一条报警中来,这样就避免了相同类型报警多次发送的问题。其次,同一个分组下的报警只会有限次发送。如:第一个IP产生报警的时候发送报警,此后每分钟会更新当前报警状态,但不会发送报警,10分钟之后又来了一个IP产生同样报警,这时候会发送一条新增报警,之后每分钟继续更新报警状态。如此即可达到自动报警抑制的效果,降低产生告警风暴的风险。
另外,长时间未更新的报警,也会以prometheus同等的效果做报警恢复。
通知模块独立于规则引擎,他接收规则引擎产生的报警数据,将数据通知到任意配置的包括用户、用户组的短信、电话、微信等通讯工具。
请参考图6,其示出了本申请实施例涉及的一种自底向上的系统整体架构图。如图6所示,本申请实施例涉及的一种自底向上的系统架构,是以服务器端操作系统,也就是windows系统或linux系统为底层架构。在该服务器端操作系统上,构建有服务器数据采集装置,用于对服务器内的各个机器进行数据采集。
如图6所示的系统中还包括有资源池内数据处理组件,以对服务器数据采集装置采集到的数据进行处理。
如图6所示的系统中还包括数据中间件,该数据中间件设置在底层数据库和用户应用系统之间,主要用于屏蔽异构数据库的底层细节的中间件,是客户端与后台的数据库之间进行通信的桥梁。
如图6所示的系统中数据存储装置,该数据存储装置可以用于存储数据或查询数据。
在如图6所示的系统中,还可以集成有报警装置(规则引擎模块和通知模块)。
在如图6所示的系统中,还可以集成有其他关联组件,包括cmdb(配置管理数据库,Configuration Management Database)、权限系统、配置服务、流程引擎等。
在如图6所示的系统中,还可以集成有应用服务,例如可以包括数据建模、业务集成、数据开发、辅助决策以及故障恢复等应用服务,以便用户调用上述应用服务以实现对应的功能。
综上所述,为了实现对公有云多资源池进行运维监控,可以在云服务器中设置公有云多资源池运维监控系统,且该系统包括数据采集装置、数据处理装置以及数据存储装置;其中数据采集装置包括数据采集工具,该数据采集工具及可以通过pull模式向被监控组件请求数据,也可以接收通过push模式推送的数据,而数据处理装置则可以获取通过prometheus模块接收数据采集装置采集到的数据,并传输至数据存储装置。通过上述方案,prometheus作为中间数据传输组件,同时具备数据推、拉模式,用户(运维人员)可以按需将数据push到数据存储端,极大的减少了服务维护方的开发量,提高了监控数据采集的灵活性。
并且上述方案中,设置了成套的中央存储装置,实现了数据存储、压缩、查询等tsdb所需的方方面面,并且逻辑清晰,架构简单,成本低廉。
告警配置无需yaml文件存储或下发到prometheus去执行,中央告警装置能简单、高效、高度自定义的实现告警功能。
请参阅图7,其是根据本申请一示例性实施例提供的一种计算机设备示意图,所述计算机设备包括存储器和处理器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时,以实现上述实施例中各个装置所涉及的功能。
其中,处理器可以为中央处理器(Central Processing Unit,CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施方式中的方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施方式中的方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
在一示例性实施例中,还提供了一种计算机可读存储介质,用于存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现上述方法中的全部或部分步骤。例如,该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在一示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备实现如图1对应的实施例所示出的公有云多资源池运维监控系统的部分或全部功能。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种公有云多资源池运维监控系统,其特征在于,所述系统包括数据采集装置、数据处理装置以及数据存储装置;
所述数据采集装置包含数据采集工具;所述数据采集工具包括push模型以及pull模式;所述数据采集工具用于通过pull模式向被监控组件请求数据;所述数据采集工具还用于通过push接收所述监控组件推送的数据;
所述数据处理装置中包括prometheus模块以及thanos数据处理模块;所述prometheus模块用于接收所述数据采集装置采集到的数据,并通过thanos数据处理模块传输至数据存储装置。
2.根据权利要求1所述的系统,其特征在于,所述数据采集工具安装在待检测设备上,所述数据采集工具包括插件池单元、采集处理单元以及采集发送单元;
所述插件池单元包括各个采集插件,以对待检测设备的各个数据情况进行数据采集;
所述采集处理单元中包括采集处理插件;所述采集处理单元用于对所述插件池单元采集到的数据进行采集处理,并发送至采集发送单元;
所述采集发送单元中包括第一http接口以及第二http接口;所述第一http接口用于支撑prometheus pull模式拉取数据;所述第二http接口用于通过push模式将少量数据直接发送到prometheus模块。
3.根据权利要求2所述的系统,其特征在于,所述采集处理插件包括多个数据处理插件,以按需对采集插件的数据进行处理;所述多个数据处理插件至少包括数据精度处理插件和数据粒度处理插件。
4.根据权利要求1至3任一所述的系统,其特征在于,所述prometheus模块获取目标资源位置,并按照指定周期通过pull模式拉取数据;
所述prometheus模块还可以接收到所述待检测设备上的数据采集工具通过push模式推送的数据。
5.根据权利要求4所述的系统,其特征在于,所述prometheus模块还用于存储在指定时长区间内接收到的数据;所述thanos数据处理模块用于按照指定时间区间对应的时间间隔,将所述prometheus模块存储的数据发送至数据存储装置。
6.根据权利要求1至3任一所述的系统,其特征在于,所述数据存储装置中包含数据接收模块、分布式的文件存储模块和数据查询模块;
所述数据接收模块用于接收thanos数据处理模块发送的数据,并压缩为数据块存储至分布式的文件存储模块中;
所述数据查询模块用于根据接收到的用户查询请求,在所述分布式文件存储模块中查询对应的数据。
7.根据权利要求6所述的系统,其特征在于,所述数据存储装置中还包括数据压缩模块;
所述数据压缩模块将各个数据包按照prometheus数据规则进行合并。
8.根据权利要求1至3任一所述的系统,其特征在于,所述系统还包括告警装置;
所述告警装置中包括规则引擎模块以及通知模块;
所述规则引擎模块用于周期性地调用数据查询接口,以持续对数据存储装置进行告警检测;
所述通知模块用于接收所述规则引擎模块生成的告警信息,并将所述告警信息发送对应的终端设备。
9.根据权利要求8任一所述的系统,其特征在于,所述规则引擎模块用于从web页面或api接口获取报警配置,并将所述报警配置写入数据库,以使所述规则引擎模块周期性读取数据库配置数据,并周期性调用数据查询接口,以持续对数据存储装置进行告警检测。
10.根据权利要求9所述的系统,其特征在于,所述规则引擎模块还用于当生成各个告警数据时,根据各个告警数据的标签值,将所述各个告警数据进行聚合,以使所述通知模块将聚合后的告警数据发送给对应的终端设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210904986.XA CN115499431A (zh) | 2022-07-29 | 2022-07-29 | 一种公有云多资源池运维监控系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210904986.XA CN115499431A (zh) | 2022-07-29 | 2022-07-29 | 一种公有云多资源池运维监控系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115499431A true CN115499431A (zh) | 2022-12-20 |
Family
ID=84465719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210904986.XA Pending CN115499431A (zh) | 2022-07-29 | 2022-07-29 | 一种公有云多资源池运维监控系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115499431A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844402A (zh) * | 2017-11-17 | 2018-03-27 | 北京联想超融合科技有限公司 | 一种基于超融合存储系统的资源监控方法、装置及终端 |
CN111045901A (zh) * | 2019-12-11 | 2020-04-21 | 东软集团股份有限公司 | 容器的监控方法、装置、存储介质和电子设备 |
CN112015753A (zh) * | 2020-08-31 | 2020-12-01 | 南京易捷思达软件科技有限公司 | 适于容器化部署开源云平台的监控系统和方法 |
CN112084098A (zh) * | 2020-10-21 | 2020-12-15 | 中国银行股份有限公司 | 资源监控系统及工作方法 |
CN112131073A (zh) * | 2020-08-25 | 2020-12-25 | 新浪网技术(中国)有限公司 | 服务器的监控方法和系统 |
CN113779339A (zh) * | 2021-08-24 | 2021-12-10 | 行云智网络科技(北京)有限公司 | 一种自动化监控和告警方法及系统 |
CN113986649A (zh) * | 2021-09-27 | 2022-01-28 | 湖南麒麟信安科技股份有限公司 | 一种基于prometheus服务的系统监控装置及方法 |
-
2022
- 2022-07-29 CN CN202210904986.XA patent/CN115499431A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844402A (zh) * | 2017-11-17 | 2018-03-27 | 北京联想超融合科技有限公司 | 一种基于超融合存储系统的资源监控方法、装置及终端 |
CN111045901A (zh) * | 2019-12-11 | 2020-04-21 | 东软集团股份有限公司 | 容器的监控方法、装置、存储介质和电子设备 |
CN112131073A (zh) * | 2020-08-25 | 2020-12-25 | 新浪网技术(中国)有限公司 | 服务器的监控方法和系统 |
CN112015753A (zh) * | 2020-08-31 | 2020-12-01 | 南京易捷思达软件科技有限公司 | 适于容器化部署开源云平台的监控系统和方法 |
CN112084098A (zh) * | 2020-10-21 | 2020-12-15 | 中国银行股份有限公司 | 资源监控系统及工作方法 |
CN113779339A (zh) * | 2021-08-24 | 2021-12-10 | 行云智网络科技(北京)有限公司 | 一种自动化监控和告警方法及系统 |
CN113986649A (zh) * | 2021-09-27 | 2022-01-28 | 湖南麒麟信安科技股份有限公司 | 一种基于prometheus服务的系统监控装置及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019223155A1 (zh) | Sql性能监控方法、装置、计算机设备及存储介质 | |
CN111309550A (zh) | 应用程序的数据采集方法、系统、设备和存储介质 | |
CN110928934A (zh) | 一种用于业务分析的数据处理方法和装置 | |
CN109039817B (zh) | 一种用于流量监控的信息处理方法、装置、设备及介质 | |
CN111030888B (zh) | 域名系统dns容量测量方法、装置、设备及介质 | |
CN103546343A (zh) | 网络流量分析系统的网络流量展示方法和系统 | |
CN112671697B (zh) | 综合监控系统的数据处理方法、装置和系统 | |
CN113225339B (zh) | 网络安全监测方法、装置、计算机设备及存储介质 | |
CN112765103B (zh) | 一种文件解析方法、系统、装置及设备 | |
CN110858192A (zh) | 一种日志查询方法和系统、日志排查系统和查询终端 | |
CN114201540A (zh) | 工业多源数据采集及存储系统 | |
CN113486095A (zh) | 一种民航空管跨网安全数据交换管理平台 | |
US10812346B1 (en) | Application discovery and dependency mapping | |
CN111258971A (zh) | 一种基于访问日志的应用状态监控报警系统及方法 | |
CN112671922B (zh) | 工业互联网数据处理系统及方法 | |
CN110245120B (zh) | 流式计算系统及流式计算系统的日志数据处理方法 | |
CN115499431A (zh) | 一种公有云多资源池运维监控系统 | |
US20170223136A1 (en) | Any Web Page Reporting and Capture | |
CN113778709B (zh) | 接口调用方法、装置、服务器及存储介质 | |
CN110633191A (zh) | 实时监控软件系统业务健康度的方法和系统 | |
CN115473858A (zh) | 数据传输方法和流式数据传输系统 | |
CN111294231B (zh) | 资源管理方法及系统 | |
CN113079055A (zh) | 一种agv运行数据的动态采集方法和装置 | |
CN113779374B (zh) | 一种页面查询管理方法和装置 | |
da Silva Rocha et al. | Aggregating data center measurements for availability analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |