CN109586999B - 一种容器云平台状态监控预警系统、方法及电子设备 - Google Patents
一种容器云平台状态监控预警系统、方法及电子设备 Download PDFInfo
- Publication number
- CN109586999B CN109586999B CN201811337014.7A CN201811337014A CN109586999B CN 109586999 B CN109586999 B CN 109586999B CN 201811337014 A CN201811337014 A CN 201811337014A CN 109586999 B CN109586999 B CN 109586999B
- Authority
- CN
- China
- Prior art keywords
- monitoring
- container
- data
- module
- performance monitoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 320
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000000007 visual effect Effects 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims description 31
- 230000015654 memory Effects 0.000 claims description 25
- 238000001514 detection method Methods 0.000 claims description 23
- 230000002159 abnormal effect Effects 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000012800 visualization Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 14
- 230000036541 health Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 4
- 239000003795 chemical substances by application Substances 0.000 description 27
- 230000006870 function Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000013079 data visualisation Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
- H04L43/045—Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/02—Standardisation; Integration
- H04L41/0246—Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0823—Errors, e.g. transmission errors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
- H04L67/025—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP] for remote control or remote monitoring of applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/104—Peer-to-peer [P2P] networks
- H04L67/1044—Group management mechanisms
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Environmental & Geological Engineering (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请涉及一种容器云平台状态监控预警系统、方法及电子设备。所述方法包括:步骤a:通过部署在容器云平台中的监控代理模块收集容器集群中各个容器的性能监控数据,并将所述性能监控数据传输至监控服务器;步骤b:通过所述监控服务器对性能监控数据进行解析及格式化处理,并将所述解析及格式化处理后的性能监控数据传输至客户端;步骤c:所述客户端根据性能监控数据绘制可视化图表,并显示所述可视化图表。本申请提供的监控不仅仅限于单个主机上的监控,而是针对分布式集群环境下容器的监控,能提供一套跨层跨域的完整监控方案。
Description
技术领域
本申请属于云计算技术领域,特别涉及一种容器云平台状态监控预警系统、方法及电子设备。
背景技术
Docker是当前最流行的容器技术,在云计算领域里面掀起一股浪潮。Docker容器技术打破了传统的以虚拟机为基础的云计算形式,成为构建和部署应用程序的新兴平台。围绕Docker的生态系统自下而上分别覆盖IaaS层和PaaS层包括资源调度,编排部署,应用开发部署平台和大数据等云计算相关服务。Docker能支持持续部署和测试,消除线上线下的环境差异保证了应用生命周期的标准化,并且支持跨云平台,让多平台混合部署成为可能。Docker容器没有管理的额外开销能让应用实例共享操作系统,能充分利用系统资源保持了高资源利用率和隔离性。Docker容器有一整套标准化的配置方法,能把应用依赖的运行环境打包为镜像,大大提高了便携性和易用性,并且有镜像仓库搭配成千上万的镜像为用户提供服务大大提供了便利。
由于灵活性和超低成本的原因,越来越多的应用程序开始使用容器作为底层资源抽象平台。为了保证分布式环境下系统的稳定性并且检测各种可疑的异常事件或者操作,需要为容器云平台提供纵向(跨软硬件层次)和横向(跨多个节点)的全面监控和报警的功能机制。
cAdvisor是Google公司开发的用来分析运行中的容器的资源占用和性能指标的监控开源工具。cAdvisor提供了一个Docker镜像,用户可以在Docker环境下通过部署镜像实现对资源指标的监控。在启动cAdvisor会在后台运行,并且提供了一套良好交互的UI界面提供给用户格式化的数据展示,用户可以在浏览器Web页面通过8080端口来进行查看。
Prometheus是一个开源服务监控系统,它可以从监控对象按照指定的时间间隔来收集信息指标。使用高纬度的数据模型进行可视化的展示和高效的数据存储并且提供警报功能。Prometheus的优势在于支持灵活的查询语言可以对手机的多维度数据进行处理,绘制图标和设置警报。
Datagog能帮助开发和运维团队监控其应用在云端工作时候的各项数据指标,并且提供功能丰富的监控平台,支持多种主流云服务并且实现一站化管理。Datadog使用Docker所用的内核结构获取Docker的性能指标,包括CPU、内存、网络和IO数据。此外还支持警报功能可以在发生异常时第一时间向用户发送提醒。
现有的监控工具虽然对Docker容器的性能指标监控工具种类繁多,功能各种各样,但是均存在一定的不足,不能提供一个覆盖纵横两维的完整监控解决方案。例如Prometheus和Datadog等部署比较复杂,每个主机15美元进行部署的高成本也导致了其复用性比较差。监控范围仅仅在容器层面上,并且监控的粒度对集群化的使用不友好。监控工具的警报功能只是简单的从设定单个监控指标阈值去判定是否集群环境发生了异常,没有根据综合指标分析和确定出异常事件的类型。而且没有完整的日志备份功能,不能解决收集数据的存储问题以便进行异常事件的溯源追踪。
发明内容
本申请提供了一种容器云平台状态监控预警系统、方法及电子设备,旨在至少在一定程度上解决现有技术中的上述技术问题之一。
为了解决上述问题,本申请提供了如下技术方案:
一种容器云平台状态监控预警系统,包括监控代理模块、监控服务器和客户端;所述监控代理模块部署在容器云平台中,用于收集容器集群中各个容器的性能监控数据,并将所述性能监控数据传输至监控服务器;所述监控服务器用于对监控代理模块传输的性能监控数据进行解析及格式化处理,并将所述解析及格式化处理后的性能监控数据传输至客户端;所述客户端用于根据监控服务器传输的性能监控数据绘制可视化图表,并显示所述可视化图表。
本申请实施例采取的技术方案还包括:所述监控服务器包括:
数据处理模块:用于接收所述监控代理模块传输的性能监控数据,对所述性能监控数据进行解析及格式化处理,并将格式化处理后的性能监控数据传输至拓扑生成模块;
拓扑生成模块:用于根据所述格式化处理后的性能监控数据生成集群环境下的拓扑结构关系图。
本申请实施例采取的技术方案还包括:所述监控服务器还包括异常检测模块,所述异常检测模块内置有异常模型检测算法,用于根据所述格式化处理后的性能监控数据进行异常事件的分析,对容器集群下的健康状态进行检测,当检测到异常事件时,对用户进行异常事件预警。
本申请实施例采取的技术方案还包括:所述客户端包括:
实时监控模块:通过HTTP协议与所述监控服务器建立连接,用于接收所述监控服务器传输的性能监控数据,并将所述性能监控数据传输至可视化模块;
可视化模块:用于接收所述实时监控模块传输的性能监控数据,通过图表形式对所述性能监控数据进行可视化分析及图表绘制,并通过所述实时监控模块显示可视化图表。
本申请实施例采取的技术方案还包括:所述客户端还包括日志存储模块,所述日志存储模块基于Etcd目录,目录下面以事件IP地址为格式进行命名,所述实时监控模块不断对日志存储模块进行数据库式的存储操作进行事件日志的记录。
本申请实施例采取的另一技术方案为:一种容器云平台状态监控预警方法,包括以下步骤:
步骤a:通过部署在容器云平台中的监控代理模块收集容器集群中各个容器的性能监控数据,并将所述性能监控数据传输至监控服务器;
步骤b:通过所述监控服务器对性能监控数据进行解析及格式化处理,并将所述解析及格式化处理后的性能监控数据传输至客户端;
步骤c:所述客户端根据性能监控数据绘制可视化图表,并显示所述可视化图表。
本申请实施例采取的技术方案还包括:在所述步骤b中,所述通过监控服务器对性能监控数据进行解析及格式化处理具体包括:
步骤b1:接收所述监控代理模块传输的性能监控数据,对所述性能监控数据进行解析及格式化处理;
步骤b2:根据所述格式化处理后的性能监控数据生成集群环境下的拓扑结构关系图。
本申请实施例采取的技术方案还包括:所述步骤b还包括:根据所述格式化处理后的性能监控数据进行异常事件的分析,对容器集群下的健康状态进行检测,当检测到异常事件时,对用户进行异常事件预警。
本申请实施例采取的技术方案还包括:在所述步骤c中,所述客户端根据性能监控数据绘制可视化图表,并显示所述可视化图表具体包括:
步骤c1:通过HTTP协议与所述监控服务器建立连接,并接收所述监控服务器传输的性能监控数据;
步骤c2:通过图表形式对所述性能监控数据进行可视化分析及图表绘制,并显示可视化图表。
本申请实施例采取的技术方案还包括:所述步骤c还包括:所述客户端以数据库式的存储操作将事件日志记录在日志存储模块中;其中,所述日志存储模块基于Etcd目录,目录下面以事件IP地址为格式进行命名。
本申请实施例采取的又一技术方案为:一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的容器云平台状态监控预警方法的以下操作:
步骤a:通过部署在容器云平台中的监控代理模块收集容器集群中各个容器的性能监控数据,并将所述性能监控数据传输至监控服务器;
步骤b:通过所述监控服务器对性能监控数据进行解析及格式化处理,并将所述解析及格式化处理后的性能监控数据传输至客户端;
步骤c:所述客户端根据性能监控数据绘制可视化图表,并显示所述可视化图表。
相对于现有技术,本申请实施例产生的有益效果在于:本申请实施例的容器云平台状态监控预警系统、方法及电子设备通过监控代理模块、监控服务器和客户端对Docker容器云平台进行全方位的监控,相对于现有技术,本申请存在以下优点:
1、本申请提供的监控不仅仅限于单个主机上的监控,而是针对分布式集群环境下容器的监控,能提供一套跨层跨域的完整监控方案;
2、本申请提供的异常检测模块能结合相对应的异常检测算法,综合异常事件下的CPU、内存、网络IO和硬盘的信息综合进行异常检测,大大提高了异常诊断的灵活性和灵敏度,能更好地对云平台进行全方位地监控管理;
3、本申请提供日志存储模块解决了传统监控工具不能进行操作运行的事件记录的缺陷,让系统变得更健壮,以应对各种错误并且方便用户管理员从错误中较快恢复。
附图说明
图1是本申请实施例的容器云平台状态监控预警系统的结构示意图;
图2是本申请实施例的容器云平台状态监控预警方法的流程图;
图3是本申请实施例提供的容器云平台状态监控预警方法的硬件设备结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
为了解决现有技术的不足,本申请实施例的容器云平台状态监控预警系统是面向容器云架构特点设计了一个跨层跨域的监控预警系统,能实现对Docker云平台下各种软硬件指标CPU、内存、网络IO和硬盘使用情况,提供丰富的web的UI图表控件,实现绘制出云平台下的容器连接的拓扑图关系,以及各种监控性能指标的图表绘制及数据可视化的处理,便于用户和管理人员对Docker云平台下容器集群下的性能指标监控管理。
具体地,请参阅图1,是本申请实施例的容器云平台状态监控预警系统的结构示意图。本申请实施例的容器云平台状态监控预警系统包括监控代理模块(数据采集层)、监控服务器(数据处理层)和客户端(数据显示层)。其中,监控代理模块用于定期收集容器集群中各个容器的性能监控数据,并将性能监控数据传输至监控服务器;监控服务器用于定期向监控代理模块发送监控请求,接收监控代理模块传输的性能监控数据,并对性能监控数据进行集中的解析及格式化处理后,将性能监控数据传输至客户端;客户端包含各种服务接口,用于接收监控服务器传输的性能监控数据,并以不同的表格或/和图形形式显示给用户。
具体地,监控代理模块部署在容器云平台中,在分布式集群中包含又多个节点,每个节点都有相对于的物理主机,同时物理主机上运行着多个Docker容器。监控代理模块主要负责监控容器集群中各个节点以及节点上的全部容器,采集各类性能监控数据,例如CPU、内存、磁盘和网络IO数据等,并且响应监控服务器的监控请求,按设定的数据传输机制向监控服务器发送性能监控数据。本申请实施例中,监控代理模块使用了Docker提供的RemoteApi进行容器底层数据的挖掘,并且最后得到的是特定的JSON数据格式。基于上述,本申请提供的监控不仅仅限于单个主机上的监控,而是针对分布式集群环境下容器的监控,能提供一套跨层跨域的完整监控方案。
监控服务器包括数据处理模块、拓扑生成模块和异常检测模块;
数据处理模块用于接收监控代理模块传输的性能监控数据,对性能监控数据进行格式上的解析并且进行格式化处理(包括分类和聚合数据),并将处理后的性能监控数据分别传输至拓扑生成模块和异常检测模块;后续由于集群节点数量的增加使得传输的性能监控数据比较大,对此可以进行并发处理并为后续的数据格式化处理做好准备。
拓扑生成模块用于根据格式化处理后的性能监控数据生成集群环境下的拓扑结构关系图,拓扑信息对于下一步分析有实际性意义;数据处理模块传输给拓扑生成模块的性能监控数据包含大量的网络流量IO数据,通过分析可以得出每个Docker容器的源IP和目的IP,对此可以通过http请求为客户端进行图表的绘制,实现Docker容器级别的拓扑结构关系图的绘制。本申请能根据容器之间的网络IP通信生成相应的拓扑图,实现对容器云平台的全局监控管理。
异常检测模块用于对数据处理模块传输的性能监控数据进行异常事件的分析,从而对容器集群下的健康状态进行检测,当检测到异常事件时,通过发送邮件、短信等形式对用户进行异常事件预警。其中,异常检测模块内置了异常模型检测算法(如朴素贝叶斯、支持向量机等),异常模型检测算法是通过训练集训练出来的结果,不仅仅只从简单的监控阈值去判定是否存在异常,而是综合考虑了CPU、内存和网络IO开销等多种监控指标结合机器学习算法得到异常事件检测结果,达到更有针对性和高准确性的异常判别,大大提高了异常检测的灵活性和灵敏度,能更好地对云平台进行全方位地监控管理。
客户端包括实时监控模块、可视化模块和日志存储模块;
实时监控模块通过HTTP协议与监控服务器建立连接,用于接收监控服务器传输的性能监控数据,将性能监控数据分别传输至可视化模块和日志存储模块,并实时显示可视化模块的绘制的可视化图表;
可视化模块用于接收实时监控模块传输的性能监控数据,通过线状图和饼状图等图表形式对性能监控数据进行可视化的分析及图表的绘制,并通过实时监控模块进行实时显示;其中,可视化模块对JSON数据进行异步请求分析,采用echarts图表控件进行绘制。本申请能提供一个友好的交互式数据可视化页面,根据用户定制各式各样的可视化图表,简单清晰的显示出Docker云平台下各类容器的CPU、内存、硬盘和网络IO数据的使用情况。
日志存储模块用于进行操作运行的事件记录;日志存储模块是基于Etcd目录,目录下面以事件IP地址为格式进行命名;实时监控模块不断对日志存储模块进行数据库式的存储操作进行事件日志的记录,旨在对事件日志能进行存储便于以后管理员进行云平台的维护和异常溯源,让系统变得更健壮,以应对各种错误并且方便用户管理员从错误中较快恢复。
请参阅图2,是本申请实施例的容器云平台状态监控预警方法的流程图。本申请实施例的容器云平台状态监控预警方法包括以下步骤:
步骤100:通过监控代理模块定期收集容器集群中各个容器的性能监控数据,并将性能监控数据传输至监控服务器;
步骤100中,监控代理模块部署在容器云平台中,在分布式集群中包含又多个节点,每个节点都有相对于的物理主机,同时物理主机上运行着多个Docker容器。监控代理模块主要负责监控容器集群中各个节点以及节点上的全部容器,采集各类性能监控数据,例如CPU、内存、磁盘和网络IO数据等,并且响应监控服务器的监控请求,按设定的数据传输机制向监控服务器发送性能监控数据。本申请实施例中,监控代理模块使用了Docker提供的RemoteApi进行容器底层数据的挖掘,并且最后得到的是特定的JSON数据格式。基于上述,本申请提供的监控不仅仅限于单个主机上的监控,而是针对分布式集群环境下容器的监控,能提供一套跨层跨域的完整监控方案。
步骤200:通过监控服务器定期向监控代理模块发送监控请求,接收监控代理模块传输的性能监控数据,并对性能监控数据进行集中的解析及格式化处理后,将性能监控数据传输至客户端;
步骤200中,监控服务器对性能监控数据的处理具体包括以下步骤:
步骤201:接收监控代理模块传输的性能监控数据,并对性能监控数据进行格式上的解析并且进行格式化处理(包括分类和聚合数据);
步骤202:根据格式化处理后的性能监控数据生成集群环境下的拓扑结构关系图;
步骤202中,性能监控数据包含大量的网络流量IO数据,通过分析可以得出每个Docker容器的源IP和目的IP,对此可以通过http请求为客户端进行图表的绘制,实现Docker容器级别的拓扑结构关系图的绘制。本申请能根据容器之间的网络IP通信生成相应的拓扑图,实现对容器云平台的全局监控管理。
步骤203:根据格式化处理后的性能监控数据进行异常事件的分析,对容器集群下的健康状态进行检测,当检测到异常事件时,通过发送邮件、短信等形式对用户进行异常事件预警;
步骤203中,通过内置异常模型检测算法(如朴素贝叶斯、支持向量机等),异常模型检测算法是通过训练集训练出来的结果,不仅仅只从简单的监控阈值去判定是否存在异常,而是综合考虑了CPU、内存和网络IO开销等多种监控指标结合机器学习算法得到异常事件检测结果,达到更有针对性和高准确性的异常判别,大大提高了异常检测的灵活性和灵敏度,能更好地对云平台进行全方位地监控管理。
步骤300:通过客户端接收监控服务器传输的性能监控数据,并以不同的表格或/和图形形式显示给用户;
步骤300中,客户端包含各种服务接口,其对性能监控数据的处理具体包括以下步骤:
步骤301:通过实时监控模块以HTTP协议与监控服务器建立连接,并接收监控服务器传输的性能监控数据;
步骤302:通过可视化模块以线状图和饼状图等图表形式对性能监控数据进行可视化的分析及图表的绘制,并实时显示图表绘制结果;
步骤302中,本申请能提供一个友好的交互式数据可视化页面,根据用户定制各式各样的可视化图表,简单清晰的显示出Docker云平台下各类容器的CPU、内存、硬盘和网络IO数据的使用情况。
步骤303:通过日志存储模块进行操作运行的事件记录;
步骤303中,日志存储模块是基于Etcd目录,目录下面以事件IP地址为格式进行命名;实时监控模块不断对日志存储模块进行数据库式的存储操作进行事件日志的记录,旨在对事件日志能进行存储便于以后管理员进行云平台的维护和异常溯源,让系统变得更健壮,以应对各种错误并且方便用户管理员从错误中较快恢复。
图3是本申请实施例提供的容器云平台状态监控预警方法的硬件设备结构示意图。如图3所示,该设备包括一个或多个处理器以及存储器。以一个处理器为例,该设备还可以包括:输入系统和输出系统。
处理器、存储器、输入系统和输出系统可以通过总线或者其他方式连接,图3中以通过总线连接为例。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例的处理方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入系统可接收输入的数字或字符信息,以及产生信号输入。输出系统可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器中,当被所述一个或者多个处理器执行时,执行上述任一方法实施例的以下操作:
步骤a:通过部署在容器云平台中的监控代理模块收集容器集群中各个容器的性能监控数据,并将所述性能监控数据传输至监控服务器;
步骤b:通过所述监控服务器对性能监控数据进行解析及格式化处理,并将所述解析及格式化处理后的性能监控数据传输至客户端;
步骤c:所述客户端根据性能监控数据绘制可视化图表,并显示所述可视化图表。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例提供的方法。
本申请实施例提供了一种非暂态(非易失性)计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行以下操作:
步骤a:通过部署在容器云平台中的监控代理模块收集容器集群中各个容器的性能监控数据,并将所述性能监控数据传输至监控服务器;
步骤b:通过所述监控服务器对性能监控数据进行解析及格式化处理,并将所述解析及格式化处理后的性能监控数据传输至客户端;
步骤c:所述客户端根据性能监控数据绘制可视化图表,并显示所述可视化图表。
本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行以下操作:
步骤a:通过部署在容器云平台中的监控代理模块收集容器集群中各个容器的性能监控数据,并将所述性能监控数据传输至监控服务器;
步骤b:通过所述监控服务器对性能监控数据进行解析及格式化处理,并将所述解析及格式化处理后的性能监控数据传输至客户端;
步骤c:所述客户端根据性能监控数据绘制可视化图表,并显示所述可视化图表。
本申请实施例的容器云平台状态监控预警系统、方法及电子设备通过监控代理模块、监控服务器和客户端对Docker容器云平台进行全方位的监控,相对于现有技术,本申请存在以下优点:
1、本申请提供的监控不仅仅限于单个主机上的监控,而是针对分布式集群环境下容器的监控,能提供一套跨层跨域的完整监控方案;
2、本申请提供的异常检测模块能结合相对应的异常检测算法,综合异常事件下的CPU、内存、网络IO和硬盘的信息综合进行异常检测,大大提高了异常诊断的灵活性和灵敏度,能更好地对云平台进行全方位地监控管理;
3、本申请提供日志存储模块解决了传统监控工具不能进行操作运行的事件记录的缺陷,让系统变得更健壮,以应对各种错误并且方便用户管理员从错误中较快恢复。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本申请中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本申请所示的这些实施例,而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.一种容器云平台状态监控预警系统,其特征在于,包括监控代理模块、监控服务器和客户端;所述监控代理模块部署在容器云平台中,用于收集容器集群中各个容器的性能监控数据,并将所述性能监控数据传输至监控服务器;所述监控服务器用于对监控代理模块传输的性能监控数据进行解析及格式化处理,并将所述解析及格式化处理后的性能监控数据传输至客户端;所述客户端用于根据监控服务器传输的性能监控数据绘制可视化图表,并显示所述可视化图表;
所述监控服务器包括:
拓扑生成模块和数据处理模块,
所述拓扑生成模块用于根据格式化处理后的性能监控数据生成集群环境下的拓扑结构关系图,所述数据处理模块传输给所述拓扑生成模块的性能监控数据包含大量的网络流量IO数据,通过分析得出每个Docker容器的源IP和目的IP,通过http请求为客户端进行图表的绘制,实现Docker容器级别的拓扑结构关系图的绘制,根据容器之间的网络IP通信生成相应的拓扑图,实现对容器云平台的全局监控管理;
所述监控代理模块部署在容器云平台中,在分布式集群中包含多个节点,每个节点都有相对应的物理主机,同时物理主机上运行多个Docker容器,所述监控代理模块负责监控容器集群中各个节点以及节点上的全部容器,采集各类性能监控数据,并响应监控服务器的监控请求,按设定的数据传输机制向监控服务器发送性能监控数据,所述监控代理模块使用Docker提供的RemoteApi进行容器底层数据的挖掘,得到JSON数据格式;
所述监控服务器还包括异常检测模块,所述异常检测模块内置有异常模型检测算法,用于根据所述格式化处理后的性能监控数据进行异常事件的分析,对容器集群下的健康状态进行检测,当检测到异常事件时,对用户进行异常事件预警。
2.根据权利要求1所述的容器云平台状态监控预警系统,其特征在于,所述客户端包括:
实时监控模块:通过HTTP协议与所述监控服务器建立连接,用于接收所述监控服务器传输的性能监控数据,并将所述性能监控数据传输至可视化模块;
可视化模块:用于接收所述实时监控模块传输的性能监控数据,通过图表形式对所述性能监控数据进行可视化分析及图表绘制,并通过所述实时监控模块显示可视化图表。
3.根据权利要求2所述的容器云平台状态监控预警系统,其特征在于,所述客户端还包括日志存储模块,所述日志存储模块基于Etcd目录,目录下面以事件IP地址为格式进行命名,所述实时监控模块不断对日志存储模块进行数据库式的存储操作进行事件日志的记录。
4.一种容器云平台状态监控预警方法,其特征在于,包括以下步骤:
步骤a:通过部署在容器云平台中的监控代理模块收集容器集群中各个容器的性能监控数据,并将所述性能监控数据传输至监控服务器;
步骤b:通过所述监控服务器对性能监控数据进行解析及格式化处理,并将所述解析及格式化处理后的性能监控数据传输至客户端;
步骤c:所述客户端根据性能监控数据绘制可视化图表,并显示所述可视化图表;
在所述步骤b中,所述通过监控服务器对性能监控数据进行解析及格式化处理具体包括:
步骤b1:接收所述监控代理模块传输的性能监控数据,对所述性能监控数据进行解析及格式化处理;
步骤b2:根据所述格式化处理后的性能监控数据生成集群环境下的拓扑结构关系图,数据处理模块传输给拓扑生成模块的性能监控数据包含大量的网络流量IO数据,通过分析得出每个Docker容器的源IP和目的IP,通过http请求为客户端进行图表的绘制,实现Docker容器级别的拓扑结构关系图的绘制,根据容器之间的网络IP通信生成相应的拓扑图,实现对容器云平台的全局监控管理;
所述监控代理模块部署在容器云平台中,在分布式集群中包含多个节点,每个节点都有相对应的物理主机,同时物理主机上运行多个Docker容器,所述监控代理模块负责监控容器集群中各个节点以及节点上的全部容器,采集各类性能监控数据,并响应监控服务器的监控请求,按设定的数据传输机制向监控服务器发送性能监控数据,所述监控代理模块使用Docker提供的RemoteApi进行容器底层数据的挖掘,得到JSON数据格式;
所述步骤b还包括:根据所述格式化处理后的性能监控数据进行异常事件的分析,对容器集群下的健康状态进行检测,当检测到异常事件时,对用户进行异常事件预警。
5.根据权利要求4所述的容器云平台状态监控预警方法,其特征在于,在所述步骤c中,所述客户端根据性能监控数据绘制可视化图表,并显示所述可视化图表具体包括:
步骤c1:通过HTTP协议与所述监控服务器建立连接,并接收所述监控服务器传输的性能监控数据;
步骤c2:通过图表形式对所述性能监控数据进行可视化分析及图表绘制,并显示可视化图表。
6.根据权利要求5所述的容器云平台状态监控预警方法,其特征在于,所述步骤c还包括:所述客户端以数据库式的存储操作将事件日志记录在日志存储模块中;其中,所述日志存储模块基于Etcd目录,目录下面以事件IP地址为格式进行命名。
7.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述4至6任一项所述的容器云平台状态监控预警方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811337014.7A CN109586999B (zh) | 2018-11-12 | 2018-11-12 | 一种容器云平台状态监控预警系统、方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811337014.7A CN109586999B (zh) | 2018-11-12 | 2018-11-12 | 一种容器云平台状态监控预警系统、方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109586999A CN109586999A (zh) | 2019-04-05 |
CN109586999B true CN109586999B (zh) | 2021-03-23 |
Family
ID=65922034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811337014.7A Active CN109586999B (zh) | 2018-11-12 | 2018-11-12 | 一种容器云平台状态监控预警系统、方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109586999B (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110096336B (zh) * | 2019-04-29 | 2022-09-06 | 江苏满运软件科技有限公司 | 数据监控方法、装置、设备和介质 |
CN110289981A (zh) * | 2019-05-14 | 2019-09-27 | 中山大学 | 一种高性能计算互联网网络监控方法及系统 |
CN110311831B (zh) * | 2019-06-14 | 2022-03-25 | 平安科技(深圳)有限公司 | 基于容器云的系统资源监控方法及相关设备 |
CN110266603B (zh) * | 2019-06-27 | 2022-12-20 | 公安部第一研究所 | 基于http协议的身份认证业务网络流量分析系统及方法 |
CN112199247B (zh) * | 2019-07-08 | 2022-07-01 | 中国移动通信集团浙江有限公司 | 一种无业务状态下Docker容器进程活性的检查方法及装置 |
CN110851241A (zh) * | 2019-11-20 | 2020-02-28 | 杭州安恒信息技术股份有限公司 | Docker容器环境的安全防护方法、装置及系统 |
CN110992627A (zh) * | 2019-11-26 | 2020-04-10 | 合肥中科奔巴科技有限公司 | 基于视觉终端-平台近视分析预警系统及方法 |
CN111061586B (zh) * | 2019-12-05 | 2023-09-19 | 深圳先进技术研究院 | 一种容器云平台异常检测方法、系统及电子设备 |
CN111145515A (zh) * | 2019-12-16 | 2020-05-12 | 宁波奥克斯电气股份有限公司 | 一种空调集控预警方法和预警系统 |
CN113032135A (zh) * | 2019-12-24 | 2021-06-25 | 北京初速度科技有限公司 | 一种地图生产系统及其方法 |
CN111064736A (zh) * | 2019-12-25 | 2020-04-24 | 中国联合网络通信集团有限公司 | 数据传输方法及设备 |
CN111193643A (zh) * | 2019-12-31 | 2020-05-22 | 苏州浪潮智能科技有限公司 | 一种云服务器状态监控系统及方法 |
CN111459749B (zh) * | 2020-03-18 | 2024-08-16 | 平安科技(深圳)有限公司 | 基于Prometheus的私有云监控方法、装置、计算机设备及存储介质 |
CN111611129B (zh) * | 2020-05-12 | 2024-02-02 | 中国工商银行股份有限公司 | PaaS云平台的性能监控方法及装置 |
CN111625398B (zh) * | 2020-05-15 | 2023-05-12 | 苏州浪潮智能科技有限公司 | 一种异常分析方法、装置、设备以及计算机可读存储介质 |
CN112130869B (zh) * | 2020-09-11 | 2022-11-29 | 苏州浪潮智能科技有限公司 | 一种ai平台镜像处理的方法和装置 |
CN112286762A (zh) * | 2020-10-30 | 2021-01-29 | 深圳壹账通智能科技有限公司 | 基于云环境的系统信息分析方法、装置、电子设备及介质 |
CN112564967B (zh) * | 2020-12-02 | 2022-11-08 | 杭州谐云科技有限公司 | 基于eBPF的云服务拓扑自发现方法及系统、电子设备、存储介质 |
CN112799910A (zh) * | 2021-01-26 | 2021-05-14 | 中国工商银行股份有限公司 | 层次化监控方法及装置 |
CN115114139A (zh) * | 2021-03-17 | 2022-09-27 | 华为技术有限公司 | 异常检测方法及装置 |
CN113656241B (zh) * | 2021-07-20 | 2023-10-31 | 国网天津市电力公司 | 一种容器终端全生命周期管控系统及方法 |
CN113722051B (zh) * | 2021-11-03 | 2022-04-15 | 阿里巴巴(中国)有限公司 | 硬件性能获取方法、设备、系统及存储介质 |
CN114448831B (zh) * | 2022-03-18 | 2023-09-01 | 以萨技术股份有限公司 | 一种集群所属服务器状态监控方法及系统 |
CN114598548A (zh) * | 2022-03-26 | 2022-06-07 | 浪潮云信息技术股份公司 | 一种基于Agent的容器运行时异常检测方法及系统 |
CN114629812A (zh) * | 2022-03-28 | 2022-06-14 | 中国电子科技集团公司第三十八研究所 | 一种基于自主可控平台的集群可视化系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105119952A (zh) * | 2015-07-07 | 2015-12-02 | 北京京东尚科信息技术有限公司 | 云平台下自动弹性地分配资源的方法和系统 |
CN105357296A (zh) * | 2015-10-30 | 2016-02-24 | 河海大学 | 一种Docker云平台下弹性缓存系统 |
CN107491375A (zh) * | 2017-08-18 | 2017-12-19 | 国网山东省电力公司信息通信公司 | 一种云计算环境下的设备检测及故障预警系统及方法 |
CN107689953A (zh) * | 2017-08-18 | 2018-02-13 | 中国科学院信息工程研究所 | 一种面向多租户云计算的容器安全监控方法及系统 |
CN108156225A (zh) * | 2017-12-15 | 2018-06-12 | 南瑞集团有限公司 | 基于容器云平台的微应用监控系统和方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9450838B2 (en) * | 2011-06-27 | 2016-09-20 | Microsoft Technology Licensing, Llc | Resource management for cloud computing platforms |
CN104104718B (zh) * | 2014-07-02 | 2017-05-17 | 北京邮电大学 | 一种基于软件定义网络的用户自主路由定制系统和方法 |
-
2018
- 2018-11-12 CN CN201811337014.7A patent/CN109586999B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105119952A (zh) * | 2015-07-07 | 2015-12-02 | 北京京东尚科信息技术有限公司 | 云平台下自动弹性地分配资源的方法和系统 |
CN105357296A (zh) * | 2015-10-30 | 2016-02-24 | 河海大学 | 一种Docker云平台下弹性缓存系统 |
CN107491375A (zh) * | 2017-08-18 | 2017-12-19 | 国网山东省电力公司信息通信公司 | 一种云计算环境下的设备检测及故障预警系统及方法 |
CN107689953A (zh) * | 2017-08-18 | 2018-02-13 | 中国科学院信息工程研究所 | 一种面向多租户云计算的容器安全监控方法及系统 |
CN108156225A (zh) * | 2017-12-15 | 2018-06-12 | 南瑞集团有限公司 | 基于容器云平台的微应用监控系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109586999A (zh) | 2019-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109586999B (zh) | 一种容器云平台状态监控预警系统、方法及电子设备 | |
US10459780B2 (en) | Automatic application repair by network device agent | |
US20240104147A1 (en) | Real-time monitoring and reporting systems and methods for information access platform | |
US10756959B1 (en) | Integration of application performance monitoring with logs and infrastructure | |
US10862780B2 (en) | Automatic web page load detection | |
US20180123922A1 (en) | Correlating performance outliers and network performance impacting event metric | |
US8788958B2 (en) | Modeling, monitoring, and analysis of computer services | |
EP3316139A1 (en) | Unified monitoring flow map | |
US10419553B2 (en) | Dynamic docker pool recycling | |
CN110704277A (zh) | 一种监测应用性能的方法、相关设备及存储介质 | |
US10536505B2 (en) | Intelligent data transmission by network device agent | |
US20170004066A1 (en) | Debugging through causality and temporal pattering in a event processing system | |
CN111309567A (zh) | 数据处理方法、装置、数据库系统、电子设备及存储介质 | |
US20180032387A1 (en) | Predictive Analytics on Database Wait Events | |
CN111163150A (zh) | 一种分布式调用追踪系统 | |
CN113760641A (zh) | 业务监控方法、装置、计算机系统和计算机可读存储介质 | |
WO2020106501A1 (en) | Veto-based model for measuring product health | |
Agrawal et al. | Log-based cloud monitoring system for OpenStack | |
EP3471356B1 (fr) | Dispositif et procede d'acquisition de valeurs de compteurs associes a une tache de calcul | |
US20190197432A9 (en) | Automated meta parameter search for invariant based anomaly detectors in log analytics | |
US20210227351A1 (en) | Out of box user performance journey monitoring | |
CN104036622A (zh) | 一种基于互联网的报警服务信息发布系统 | |
CN113032237B (zh) | 数据处理方法及装置、电子设备和计算机可读存储介质 | |
CN114143169A (zh) | 一种微服务应用可观测性系统 | |
US10644971B2 (en) | Graph search in structured query language style query |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |