CN110912773B - 面向多公有云计算平台的集群监控系统及其监控方法 - Google Patents

面向多公有云计算平台的集群监控系统及其监控方法 Download PDF

Info

Publication number
CN110912773B
CN110912773B CN201911164907.0A CN201911164907A CN110912773B CN 110912773 B CN110912773 B CN 110912773B CN 201911164907 A CN201911164907 A CN 201911164907A CN 110912773 B CN110912773 B CN 110912773B
Authority
CN
China
Prior art keywords
data
cluster
information
monitoring
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911164907.0A
Other languages
English (en)
Other versions
CN110912773A (zh
Inventor
朱和胜
林帅康
刘阳
马健
温书豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Jingtai Technology Co Ltd
Original Assignee
Shenzhen Jingtai Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Jingtai Technology Co Ltd filed Critical Shenzhen Jingtai Technology Co Ltd
Priority to CN201911164907.0A priority Critical patent/CN110912773B/zh
Publication of CN110912773A publication Critical patent/CN110912773A/zh
Application granted granted Critical
Publication of CN110912773B publication Critical patent/CN110912773B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/22Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks comprising specially adapted graphical user interfaces [GUI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • H04L43/045Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Environmental & Geological Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种向多云计算平台的集群监控系统,包括数据采集子系统,负责根据既定指标采集各个云上计算平台的基础资源数据、任务运行状态和消耗、整体资源使用状态监控数据,并且提供接口供调度系统调用获取实时监控数据指导调度;数据处理子系统,负责各个数据子系统通过RPC请求上传的集群监控数据,进行一系列的处理转储到后端进行存储,并且提供接口供数据展示、账单系统;告警子系统负责根据告警策略处理分析监控数据,确认告警级别并且发送告警信息。本发明能更好的观察整体的任务运行情况,提高资源使用率,计算资源持久化便于账单审计和对账,可以自动化的解决一部分的异常问题,减少人工参与。

Description

面向多公有云计算平台的集群监控系统及其监控方法
技术领域
本发明属于跨多公有云计算调度技术领域,具体涉及一种面向多公有云计算平台的集群监控系统及其监控方法,可以使用在多云计算平台集群之中,作为多计算集群资源状态,计算任务状态监控告警系统和其他相关系统的数据支撑系统。
背景技术
云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。
随着互联网和云计算等技术的发展,越来越多的共有云计算资源可供选择,基于计算成本和区域化的考虑,跨多公有云的计算任务调度已经成为一种趋势。与此同时,云计算本身的复杂度也在加剧,鉴于成本和复杂度的考虑,公有云提供商无法提供完备的对各个计算资源的监控指标和监控数据,所以用户只能基于有限的监控数据做出决策。
每个云计算提供商会提供可视化的资源监控,供用户对一定时期的资源使用情况有一个大致的掌握以及提供根据资源数据设定阈值进而进行告警动作。有效的监控系统可以敏捷的对云计算平台进行管理,进而在云平台和用户计算平台不断迭代的情况下保证整个调度计算流程的可用性和安全性。
目前的公有云监控系统存在的问题主要在以下几个方面:
1,云计算提供商上只提供计算资源的基本监控指标及其监控数据。计算平台是以大规模的计算密集型的任务为主,会大量的使用CPU资源进行计算,云提供商仅仅提供计算节点的CPU,内存,网络等基础的资源监控,但是这些基础监控数据还不足以满足计算平台的需求。目前市面上的计算平台都是以kubernetes或mesos为基础的,需要监控平台上每一个计算任务的实时运行状态以及任务的资源请求量和实际使用量等监控指标。目前云提供商都无法完成对这些监控指标的支持。
2,基于成本的考虑,云提供商无法自定义监控指标采集且无法对监控数据进行更详细的分析,进而无法反馈调度系统实时进行调整策略。在1中说明了云提供商无法提供一些云计算平台需要的监控指标而且云提供商也无法让用户通过一定的方式采集这些指标并进行展示。对于已有的监控数据存储在云端之上且没有提供方式获取一定时期的历史数据进行更详细的分析,进而无法核对资源使用情况造成无法对资源使用账单进行核对。若无法获取调度系统进行策略调整所依赖的数据,实时的调度策略也就无从谈起,单一的调度策略可能会造成资源不必要的浪费。
3,自带的资源监控视图分散,无法提供用户可自定义的统一视图,而且各个云提供商的监控方式互不相同,很难有统一的方式去处理各个云的资源监控数据。与传统的运维监控系统不同,计算平台更关心某个集群整体的运行状态而不是某台机器的基础资源状态,比如集群整体的资源分配率,资源请求率以及计算任务的消耗速度等等。云提供不但无法提供某些指标的采集而且连基础资源的整合都很难做到,这也就无法提供出一个直观的资源状态视图。
4,告警系统只能针对某一个或某一类资源单独设置且无法对告警进行分级。云提供商可以提供基础资源的阈值告警,但是无法对这些告警进行分级,在告警信息过多的时候很容易造成关键告警信息被忽略无法及时处理。而且现有的告警策略完全不能满足云计算平台的告警需求,从而无法完全掌握计算平台的运行时状态。
发明内容
针对上述技术问题,本发明提供一种面向多公有云计算平台的集群监控系统及其监控方法,实现对多公有云上计算集群的监控数据的获取,支持计算平台依赖的监控指标的收集以及监控数据的分析,转储和对调度系统和对账系统的反馈;支持自定义的警告分级以及不同的告警方式;支持各云监控数据汇聚的资源监控视图。
具体技术方案如下:
向多云计算平台的集群监控系统,包括三个子系统:
数据采集子系统,负责根据既定指标采集各个云上计算平台的基础资源数据、任务运行状态和消耗、整体资源使用状态等监控数据,并且提供接口供调度系统调用获取实时监控数据指导调度;
数据处理子系统,负责各个数据子系统通过RPC请求上传的集群监控数据,进行一系列的处理转储到后端进行存储,并且提供接口供数据展示、账单系统等其他功能使用;
告警子系统,负责根据告警策略处理分析监控数据,确认告警级别并且发送告警信息,对于以下低级别的告警,子系统可以根据预置的方式自行处理和恢复;
所述的数据处理子系统,包括三个模块,分别是:
监控信息汇聚模块,负责处理数据采集子系统上传的监控数据,把各个云上的集群信息,任务运行信息进行一系列的处理分析,以及做不同程度的汇聚然后转储,供做展示和审计使用;
账单信息处理模块,根据账单方面的要求,处理成账单分析所需要的数据并每分钟存储到时序数据库;
任务转移模块,负责根据各个集群的监控信息以及调度系统的任务信息自动化的转移任务到负荷小的集群;
所述数据处理子系统接收各个集群上传的监控数据,等每个集群都上传了一次数据或者在一定的时间内,所述数据处理子系统会对数据进行一次预处理,判断数据是否有效是否过期,若数据有效便复制一份发送给告警子系统;所述监控信息汇聚模块和账单信息处理模块便同时开始对监控数据进行处理,所述监控信息汇聚模块根据不同的维度将监控信息进行处理,包括云提供商、计算引擎类型、任务类型维度,处理后入库并同时展示在前端视图;所述账单信息处理模块根据账单系统要求筛选计算资源信息,包括CPU总数、请求数、节点数信息,并按照云提供商的维度处理,然后存入时序数据库供账单系统调用;然后任务转移模块从调度系统拉取计算任务信息并结合汇聚的监控数据按照最大程度节省任务排队时间以及最大资源利用率的原则对任务进行迁移数据计算,包括把在一批集群长时间等待的任务转移到其他资源相对空闲的集群上,然后调用调度系统的迁移接口完成迁移动作。
数据采集子系统可以根据待采集数据的类型分为三个模块,分别是:
集群节点信息采集模块,由于调度系统分发计算任务的随机性,需要配合任务数量的多少监控是否有足够的机器满足任务调度,实时的观测每个集群的节点数目就十分有必要。此系统负责采集各个云计算提供商上的计算集群节点的实际节点数目,计划节点数目以及最大支持节点数目。在这个模块上实现了统一的应用接口层,用来对接各个云提供商的基础监控接口;
集群计算资源信息采集模块,集群所运行的都是计算密集型的任务,提高CPU使用率可以极大的节约计算成本,此模块负责采集各个计算集群的CPU信息,包括总共CPU数量,任务请求使用的CPU数量,任务实际使用的CPU数量。在这个模块上通过在集群中部署第三方插件(Heapster,Metrics-Server, Prometheus),针对这些插件实现了统一的资源接口封装,可以实时获取任务请求使用的CPU数量,任务实际使用的CPU数量。对于总共CPU数量,我们根据各个云的情况分别实现了获取接口;
计算任务状态采集模块,此模块实时采集集群中的所有任务信息,通过一个分类子模块对任务进行分类(比如Running,Pending,Evicted,ImagePull,PodInitializing等等),这些数据将为告警系统提供强大的数据支持。
另外,数据采集子系统会提供一个集群状态定义功能,我们分析整个集群计算过程中会出现的各种状态(比如扩容状态、缩容状态、稳定状态、满负荷状态等等),这些状态能够更直观的反映出集群目前所处的运行时情况,而且会根据调度系统的需求形成一份指导调度的监控信息。
数据处理子系统可以根据功能不同分为三个模块,分别是:
监控信息汇聚模块,负责处理数据采集子系统上传的监控数据,把各个云上的集群信息,任务运行信息进行一系列的处理分析,以及做不同程度的汇聚然后转储,供做展示和审计使用;
账单信息处理模块,根据账单方面的要求,处理成账单分析所需要的数据并每分钟存储到时序数据库;
任务转移模块,负责根据各个集群的监控信息以及调度系统的任务信息自动化的转移任务到负荷小的集群,从而缩短任务排队等待的时间和提高计算资源利用率。
告警子系统可以根据告警类型不同分为三个模块,分别是:
告警策略处理模块,负责实现告警策略的数据处理逻辑,不同的告警策略会有不同的处理逻辑;
集群资源使用率告警模块,负责执行集群信息相关的告警策略逻辑,对策略处理结果进行分类,然后根据告警严重程度选择不用的渠道发送告警信息;
计算任务运行状态告警模块,负责执行计算任务相关的告警策略,由于任务状态的多样性,此模块会对各种状态检测的优先级进行定义并且根据优先级进行顺序检测,并对异常状态的任务进行发送告警信息处理。与此同时,此模块对于一些低级别的异常定义了相对的解决方案,会在发送告警信息的同时执行解决方案。
该面向多公有云计算平台的集群监控系统的监控方法,具体的,是由三个子系统协调工作的,下面针对每个子系统的步骤予以说明:
数据采集子系统是分布式的运行在云提供商的计算集群之上,具体步骤如下:
(1)通过统一的接口层函数,对集群节点信息,集群资源信息,计算任务状态信息的采集是同步进行的,下面分别进行说明:
(1.1)集群节点信息采集模块,首先本模块统一接口层完成对云提供商的接入,再使用统一接口层获取到集群节点信息,即实际节点数目,计划节点数目以及最大支持节点数目;最后入内存临时保存。
(1.2)集群计算资源信息采集模块,首先同样本模块统一接口层完成了对集群资源收集插件的封装,支持Heapster、Metrics-Server、 Prometheus等各种插件;其次确认集群支持的插件(不同云提供商支持的插件不同);最后通过统一接口层获取总共CPU数量,任务请求使用的CPU数量,任务实际使用的CPU数量。最后入内存临时保存。
(1.3)计算任务状态信息采集模块,首先通过集群计算引擎的原生接口层获取当前集群所有的任务信息;其次使用一个状态分类器把所有的状态分类并提取关键信息;最后入内存临时保存。
(2)上述步骤(1.1)、步骤(1.2)、步骤(1.3)完成一轮采集的时候,集群状态定义功能会加载内存中监控数据分析确定当前集群所处的状态。
(3)提取最新的监控数据,通过RPC请求上传到数据处理子系统。
(4)根据调度系统的要求精简和处理监控数据,预存最新的结果供调度系统调用。
数据处理子系统接收监控数据信息并做相应的处理,具体步骤如下:
(1)接收各个集群推送的监控数据,数据处理子系统预处理各个集群上传的监控数据,确认有效性,若数据有效便复制一份发送给告警子系统;
(2)根据不同的维度分析监控信息,比如根据云提供商维度汇聚计算节点信息,CPU使用信息等,把处理后的数据持久化到数据库;
(3)根据账单系统的要求,处理账单系统可识别的方式并存入到指定时序数据库之中;
(4)拉取调度系统的实时任务数据,根据各个集群监控数据信息统一分析,筛选可转移的任务及相应的数目进行任务转移。
告警子系统根据告警策略逻辑对监控数据信息并做相应的处理,具体步骤如下:
(1)根据监控数据信息执行集群信息相关的告警策略逻辑,区分异常等级执行告警动作。
(2)根据监控数据信息执行计算任务相关的告警策略,区分异常等级执行告警动作。对于低级别且预置了解决方案的异常,执行异常对应的解决方案。
本发明提供的面向多公有云计算平台的集群监控系统及其监控方法,具有以下技术效果:
(1) 通过集成各大云提供商的计算平台接口,通过进一步的处理消除各个云之前的差异,提供标准格式的监控资源数据,加速新集群的部署工作;完成对集群各种资源收集的插件的支持接口,在保证集群插件多样性的基础上可以保证监控数据的格式统一;监控分类功能可以把当前集群任务运行时按照运行进度展示在前台,使使用人员更好的观察整体的任务运行情况。
(2)通过一系列的监控数据分析模块,可以对集群监控数据进行分析和处理,进而反馈调度系统调整调度策略,提高资源使用率。并且分析学习调度数据和监控数据,调整任务分发,估算批任务完成时间,自动转移任务,缩短任务等待时间。
(3) 集中化的集群监控视图,可以看到各个集群的运行时状态包括(节点信息,CPU信息,任务信息等等);汇聚的资源视图,可以看到以云提供商为级别的整体资源信息;计算资源持久化便于账单审计和对账。
(4) 动态监控各个集群资源使用率,任务状态等等,根据异常的严重程度使用不同渠道发送格式化的告警信息;并且一些预置的解决方案可以自动化的解决一部分的异常问题,减少人工参与。
附图说明
图1是本发明监控系统整体架构图;
图2是本发明数据采集子系统的系统结构图;
图3是本发明数据处理子系统的系统结构图;
图4是本发明告警子系统的系统结构图;
图5是本发明整个系统的实施流程图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
图1是系统的整体架构,用来说明各个子系统之间的关系以及数据流转流程:
集群采集子系统运行在各个云的集群集群之上,把收集的监控数据上传的远端的数据处理系统上,数据经过一系列的分析之后被转储和发送的告警子系统,告警子系统根据告警策略处理监控数据进而进行告警动作。
图2是数据采集子系统的架构图,结合本图来说明此系统是如何工作的。
首先完成对云提供商计算集群,资源插件以及调度引擎APi的支持;其次根据模块的不同调用模块的统一接口层函数,完成对基础监控数据的采集,特别的针对任务信息,需要任务分类器对任务信息进行细分;然后汇聚此次监控数据,进行标准化的处理,并额外处理调度相关数据,等待S12(调度系统)调用并指导调度策略;最后上传此次的监控数据到数据处理子系统S11。
图3是数据处理子系统的架构图,结合本图来说明此系统是如何工作的。
首先子系统接收各个集群上传的监控数据,等每个集群都上传了一次数据或者在一定的时间内,子系统会对数据进行一次预处理,判断数据是否有效是否过期等等,若数据有效便复制一份发送给告警子系统(S21);其次汇聚模块和账单信息处理模块便同时开始对监控数据进行处理,汇聚模块根据不同的维度将监控信息进行处理(如云提供商,计算引擎类型,任务类型等等),处理后入库并同时展示在前端视图。账单信息处理模块根据账单系统要求筛选计算资源信息(CPU总数,请求数,节点数等)并按照云提供商的维度处理,然后存入时序数据库供账单系统(S23)调用。然后任务转移模块从调度系统拉取计算任务信息并结合汇聚的监控数据按照最大程度节省任务排队时间以及最大资源利用率的原则对任务进行迁移数据计算,比如把在一批集群长时间等待的任务转移到其他资源相对空闲的集群上,然后调用调度系统的迁移接口(S22)完成迁移动作。
图4是告警子系统的架构图,结合本图来说明此系统是如何工作的。
首先从数据采集子系统获取一次集群整体的监控数据,告警策略处理模块根据子系统的策略逻辑进行数据处理;然后根据不同的告警类型发送到各自的告警模块,集群资源使用率告警模块接收到告警数据后,区分告警异常的等级发送监控数据;计算任务运行状态告警模块接收到告警数据后,发送告警数据并且根据告警查找是否有预置的解决方案,若有便执行此解决方案并通知相关人员。
图5是整个系统的实施示意图,具体运行过程如下:
步骤一,,新集群接入集群,确认是否已经支持此云提供商,若不支持,需要完成对云提供商支持;
步骤二,确认集群资源插件和是否已经支持此插件,若支持,直接部署收集子系统即可,若不支持,需要完成对此插件的支持,然后再部署;
步骤三,采集集群监控数据。三种数据是并行采集,并在采集任务信息之后对其使用分类器分类;
步骤四,对监控数据进行标准化,目的是方便存储和分析;
步骤五,对调度系统要求的数据进行分析并缓存,供调度系统调用;
步骤六,上传监控数据到数据处理子系统,数据采集子系统流程结束;
步骤七,数据处理系统预处理各个集群上传的监控数据,确认有效性;
步骤八,按照账单系统要求处理账单相关数据并存入时序数据库供账单系统使用;
步骤九,根据不同维度汇聚账单信息并入库存储;
步骤十,拉取任务信息结合监控数据完成任务分析和转移;
步骤十一,前端实时更新展示,数据处理子系统流程结束;
步骤十二,告警处理模块接收监控数据并开始按照告警策略处理,此步骤在步骤七之后即开始执行;
步骤十三,集群资源使用率告警模块区分告警等级发送告警信息;
步骤十四,计算任务运行状态告警模区分告警等级发送告警信息;
步骤十五,查找时候有任务状态告警预置的解决方案,若有则执行解决方案并通知相关人员;
步骤十六,整个流程结束。

Claims (6)

1.面向多公有云计算平台的集群监控系统,其特征在于,包括三个子系统:
数据采集子系统,负责根据既定指标采集各个云上计算平台的基础资源数据、任务运行状态和消耗、整体资源使用状态监控数据,并且提供接口供调度系统调用获取实时监控数据;
数据处理子系统,负责各个数据子系统通过RPC请求上传的集群监控数据,进行一系列的处理转储到后端进行存储,并且提供接口供数据展示、账单系统功能使用;
告警子系统,负责根据告警策略处理分析监控数据,确认告警级别并且发送告警信息,对于低级别的告警,告警子系统根据预置的方式自行处理和恢复;
所述的数据处理子系统,包括三个模块,分别是:
监控信息汇聚模块,负责处理数据采集子系统上传的监控数据,把各个云上的集群信息、任务运行信息进行一系列的处理分析,以及做不同程度的汇聚然后转储,供做展示和审计使用;
账单信息处理模块,根据账单方面的要求,处理成账单分析所需要的数据并每分钟存储到时序数据库;
任务转移模块,负责根据各个集群的监控信息以及调度系统的任务信息自动化的转移任务到负荷小的集群;
所述数据处理子系统接收各个集群上传的监控数据,等每个集群都上传了一次数据或者在一定的时间内,所述数据处理子系统会对数据进行一次预处理,判断数据是否有效或是否过期,若数据有效便复制一份发送给告警子系统;所述监控信息汇聚模块和账单信息处理模块便同时开始对监控数据进行处理,所述监控信息汇聚模块根据不同的维度将监控信息进行处理,包括云提供商、计算引擎类型、任务类型维度,处理后入库并同时展示在前端视图;所述账单信息处理模块根据账单系统要求筛选计算资源信息,包括CPU总数、请求数、节点数信息,并按照云提供商的维度处理,然后存入时序数据库供账单系统调用;然后任务转移模块从调度系统拉取计算任务信息并结合汇聚的监控数据按照最大程度节省任务排队时间以及最大资源利用率的原则对任务进行迁移数据计算,包括把集群中一批长时间等待的任务转移到其他资源相对空闲的集群上,然后调用调度系统的迁移接口完成迁移动作。
2.根据权利要求1所述的面向多公有云计算平台的集群监控系统,其特征在于,所述的数据采集子系统,包括三个模块,分别是:
集群节点信息采集模块,负责采集各个云计算提供商上的计算集群节点的实际节点数目、计划节点数目以及最大支持节点数目;集群节点信息采集模块实现了统一的应用接口层,用来对接各个云提供商的基础监控接口;
集群计算资源信息采集模块,负责采集各个计算集群的CPU信息,包括总共CPU数量、任务请求使用的CPU数量、任务实际使用的CPU数量;集群计算资源信息采集模块在集群中部署第三方插件,针对这些插件实现了统一的资源接口封装,实时获取任务请求使用的CPU数量、任务实际使用的CPU数量;对于总共CPU数量,根据各个云的情况分别实现接口的获取;
计算任务状态采集模块,实时采集集群中的所有任务信息,通过一个分类子模块对任务进行分类,任务信息为告警系统提供数据支持。
3.根据权利要求2所述的面向多公有云计算平台的集群监控系统,其特征在于,所述的数据采集子系统,还包括集群状态定义功能,集群计算过程中会出现的各种状态直观的反映出集群目前所处的运行时情况,根据调度系统的需求形成一份指导调度的监控信息。
4.根据权利要求1至3任意一项所述的面向多公有云计算平台的集群监控系统,其特征在于,所述的告警子系统包括三个模块,分别是:
告警策略处理模块,负责实现告警策略的数据处理逻辑,不同的告警策略有不同的处理逻辑;
集群资源使用率告警模块,负责执行集群信息相关的告警策略逻辑,对策略处理结果进行分类,然后根据告警严重程度选择不用的渠道发送告警信息;
计算任务运行状态告警模块,负责执行计算任务相关的告警策略,对各种状态检测的优先级进行定义并且根据优先级进行顺序检测,并对异常状态的任务进行发送告警信息处理;与此同时,对于一些低级别的异常定义了相对的解决方案,会在发送告警信息的同时执行解决方案。
5.根据权利要求1到4任一项所述的面向多公有云计算平台的集群监控系统的监控方法,其特征在于,包括以下步骤:
数据采集子系统是分布式的运行在云提供商的计算集群之上,具体步骤包括:
(1)通过统一的接口层函数,对集群节点信息,集群资源信息,计算任务状态信息的采集是同步进行的;
(2)上述步骤(1)完成一轮采集的时候,集群状态定义功能会加载内存中监控数据分析确定当前集群所处的状态;
(3)提取最新的监控数据,通过RPC请求上传到数据处理子系统;
(4)根据调度系统的要求精简和处理监控数据,预存最新的结果供调度系统调用;
数据处理子系统接收监控数据信息并做相应的处理,具体步骤如下:
(1)接收各个集群推送的监控数据,数据处理子系统预处理各个集群上传的监控数据,确认有效性,若数据有效便复制一份发送给告警子系统;
(2)根据不同的维度分析监控信息,把处理后的数据持久化到数据库;
(3)根据账单系统的要求,采用可识别的方式处理账单系统并将处理数据存入到指定时序数据库之中;
(4)拉取调度系统的实时任务数据,根据各个集群监控数据信息统一分析,筛选可转移的任务及相应的数目进行任务转移;
告警子系统根据告警策略逻辑对监控数据信息做相应的处理,具体步骤如下:
(1)根据监控数据信息执行集群信息相关的告警策略逻辑,区分异常等级执行告警动作;
(2)根据监控数据信息执行计算任务相关的告警策略,区分异常等级执行告警动作;对于低级别且预置了解决方案的异常,执行异常对应的解决方案。
6.根据权利要求5所述的面向多公有云计算平台的集群监控系统的监控方法,其特征在于所述的数据采集子系统的步骤(1)具体包括以下步骤:
(1.1)集群节点信息采集模块,首先本模块统一接口层完成对云提供商的接入,再使用统一接口层获取到集群节点信息,即实际节点数目、计划节点数目以及最大支持节点数目;最后入内存临时保存;
(1.2)集群计算资源信息采集模块,首先同样本模块统一接口层完成了对集群资源收集插件的封装;其次确认集群支持的插件;最后通过统一接口层获取总共CPU数量、任务请求使用的CPU数量、任务实际使用的CPU数量;最后入内存临时保存;
(1.3)计算任务状态信息采集模块,首先通过集群计算引擎的原生接口层获取当前集群所有的任务信息;其次使用一个状态分类器把所有的状态分类并提取关键信息;最后入内存临时保存。
CN201911164907.0A 2019-11-25 2019-11-25 面向多公有云计算平台的集群监控系统及其监控方法 Active CN110912773B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911164907.0A CN110912773B (zh) 2019-11-25 2019-11-25 面向多公有云计算平台的集群监控系统及其监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911164907.0A CN110912773B (zh) 2019-11-25 2019-11-25 面向多公有云计算平台的集群监控系统及其监控方法

Publications (2)

Publication Number Publication Date
CN110912773A CN110912773A (zh) 2020-03-24
CN110912773B true CN110912773B (zh) 2021-07-20

Family

ID=69819083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911164907.0A Active CN110912773B (zh) 2019-11-25 2019-11-25 面向多公有云计算平台的集群监控系统及其监控方法

Country Status (1)

Country Link
CN (1) CN110912773B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111796984A (zh) * 2020-06-29 2020-10-20 平安国际智慧城市科技股份有限公司 数据监控方法、装置、计算机设备及存储介质
CN112035316B (zh) * 2020-08-28 2024-08-13 浪潮云信息技术股份公司 一种云监控系统监控分析数据的方法
CN112187807B (zh) * 2020-09-30 2022-05-24 新华三大数据技术有限公司 一种分支网络网关监控方法、装置及存储介质
CN112291112B (zh) * 2020-10-27 2022-11-15 中国光大银行股份有限公司 一种云计算服务监控系统和方法
CN112769622A (zh) * 2021-01-18 2021-05-07 孙冬英 一种基于rpc服务监控的集群服务故障预警系统
CN112988505A (zh) * 2021-02-08 2021-06-18 深圳阿帕云计算有限公司 一种基于云计算大数据通用型实时监控预警系统
CN113067850B (zh) * 2021-02-20 2023-04-07 麒麟软件有限公司 一种多云场景下的集群编排系统
CN113037856B (zh) * 2021-03-23 2022-07-08 苏州云霄电子科技有限公司 基于公有云的计算系统、方法、计算机设备以及存储介质
CN113419925A (zh) * 2021-08-25 2021-09-21 天津南大通用数据技术股份有限公司 一种对多个分布式mpp集群进行监控报警的监控方法及系统
US12008402B2 (en) 2021-08-27 2024-06-11 Red Hat, Inc. Determining computer resource usage at multiple levels of a container orchestration system hierarchy
CN113641503B (zh) * 2021-09-01 2024-05-14 上海联蔚盘云科技有限公司 多云多集群的Kubernetes管理系统及方法与设备
CN113867197A (zh) * 2021-09-16 2021-12-31 浪潮云信息技术股份公司 一种基于Prometheus的云数据中心实例监控方法
CN115129541B (zh) * 2022-06-20 2024-03-26 北京计算机技术及应用研究所 一种基于飞腾平台的高性能计算资源监控实现方法
CN115237608A (zh) * 2022-09-21 2022-10-25 之江实验室 一种基于多集群统一算力的多模式调度系统和方法
CN117453493B (zh) * 2023-12-22 2024-05-31 山东爱特云翔信息技术有限公司 大规模多数据中心的gpu算力集群监控方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1505327A (zh) * 2002-12-04 2004-06-16 华为技术有限公司 随路信令监视装置及方法
CN101360129A (zh) * 2008-09-25 2009-02-04 北京中星微电子有限公司 网络视频监控系统手机短信发送方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337765B (zh) * 2015-10-10 2018-10-12 上海新炬网络信息技术股份有限公司 一种分布式hadoop集群故障自动诊断修复系统
CN107302469B (zh) * 2016-04-14 2020-03-31 北京京东尚科信息技术有限公司 分布式服务集群系统数据更新的监控装置及方法
CN112214382B (zh) * 2016-12-16 2024-06-28 华为云计算技术有限公司 告警方法及装置
CN106878064B (zh) * 2017-01-16 2021-08-13 腾讯科技(深圳)有限公司 数据监控方法和装置
CN107689953B (zh) * 2017-08-18 2020-10-27 中国科学院信息工程研究所 一种面向多租户云计算的容器安全监控方法及系统
CN108418868A (zh) * 2018-02-08 2018-08-17 佛山市三盟新能源有限公司 一种教育资源数据采集方法
CN109766175A (zh) * 2018-12-28 2019-05-17 深圳晶泰科技有限公司 面向高性能计算在云上的资源弹性伸缩系统及其调度方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1505327A (zh) * 2002-12-04 2004-06-16 华为技术有限公司 随路信令监视装置及方法
CN101360129A (zh) * 2008-09-25 2009-02-04 北京中星微电子有限公司 网络视频监控系统手机短信发送方法

Also Published As

Publication number Publication date
CN110912773A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN110912773B (zh) 面向多公有云计算平台的集群监控系统及其监控方法
CN105049268B (zh) 分布式计算资源分配系统和任务处理方法
CN105631026A (zh) 一种安全数据分析系统
CN107689953A (zh) 一种面向多租户云计算的容器安全监控方法及系统
CN107733986A (zh) 支持一体化部署及监控的保护运行大数据支撑平台
CN104468282B (zh) 集群监控处理系统及方法
CN110581773A (zh) 一种自动化服务监控与报警管理系统
CN108039959A (zh) 一种数据的态势感知方法、系统及相关装置
CN105046327A (zh) 一种基于机器学习技术的智能电网信息系统及方法
CN110334157B (zh) 一种云计算管理系统
CN112099844B (zh) 一种用于国网业务系统的多内核兼容的智能浏览系统
CN116668380B (zh) 汇聚分流器设备的报文处理方法及装置
CN111858251B (zh) 一种基于大数据计算技术的数据安全审计方法及系统
CN106506266A (zh) 基于GPU、Hadoop/Spark混合计算框架的网络流量分析方法
CN113762906B (zh) 任务周期延迟的告警方法、装置、设备及存储介质
CN111427678A (zh) 汽车诊断云平台中的虚拟化资源调度系统、方法
CN113505048A (zh) 基于应用系统画像的统一监控平台及实现方法
CN117422434A (zh) 一种智慧运维调度平台
KR102028342B1 (ko) 데이터 처리 솔루션을 활용한 실시간 금융 비즈니스 제공 및 의사결정 지원 시스템 및 방법
CN116708219A (zh) 一种基于dpi平台的数据获取方法及装置
CN114090382B (zh) 超融合集群健康巡检方法和装置
CN109033196A (zh) 一种分布式数据调度系统及方法
WO2021102617A1 (zh) 面向多公有云计算平台的集群监控系统及其监控方法
CN102567024A (zh) 脚本执行系统和脚本执行方法
CN113282396A (zh) 图像处理方法、系统、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 3 / F, Shunfeng industrial building, No.2 Hongliu Road, Fubao community, Fubao street, Futian District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen Jingtai Technology Co.,Ltd.

Address before: 518000 4th floor, No.9 Hualian Industrial Zone, Xinshi community, Dalang street, Longhua District, Shenzhen City, Guangdong Province

Applicant before: Shenzhen Jingtai Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant