CN114297034A - 云平台监控方法及云平台 - Google Patents

云平台监控方法及云平台 Download PDF

Info

Publication number
CN114297034A
CN114297034A CN202111664790.XA CN202111664790A CN114297034A CN 114297034 A CN114297034 A CN 114297034A CN 202111664790 A CN202111664790 A CN 202111664790A CN 114297034 A CN114297034 A CN 114297034A
Authority
CN
China
Prior art keywords
monitoring
data
cloud platform
historical
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111664790.XA
Other languages
English (en)
Inventor
陆明
张心怡
聂志远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN202111664790.XA priority Critical patent/CN114297034A/zh
Publication of CN114297034A publication Critical patent/CN114297034A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本申请公开了一种云平台监控方法及云平台,该方法包括:获取云平台的历史监控项目,以及与所述历史监控项目相对应的历史监控数据;基于所述第一监控数据和所述第二监控数据,确定各所述历史监控项目与维护操作的相关数据;在所述相关数据符合非相关性阈值的情况下,将相应的所述历史监控项目确定为目标监控项目;在所述云平台的维护窗口期,对所述目标监控项目进行监控,以确定所述云平台的运行状态是否出现异常。该方法既能够避免因维护操作所导致的云平台的运行状态异常而触发报警或应急响应措施,还能够在云平台出现并非由维护操作导致的运行状态异常时,及时触发报警或触发应急响应,以确保云平台稳定运行。

Description

云平台监控方法及云平台
技术领域
本申请涉及云平台监控技术领域,特别涉及一种云平台监控方法及云平台。
背景技术
为保障云平台的稳定运行,在云平台运行过程中需要对云平台的运行状态进行持续监控,例如对云平台的各节点的负载、处理器使用率及通信带宽等监控项目进行监控,如果发现异常,需要即时报警。
云平台运行过程中还需要定期进行维护,例如,进行系统升级、设备检修、故障排查等操作。维护过程中很可能会造成云平台的运行状态发生波动,所以对云平台执行维护操作时,通常情况下会抑制对云平台的监控操作,避免因维护操作导致云平台的运行状态发生波动而触发误报警。
实际上,在对云平台执行维护操作的期间,也会出现并非由维护操作而导致的运行异常状况。由于监控操作被抑制,导致无法及时发现这些并非由维护操作而导致的运行异常状况,自然也无法对这类运行异常状况及时作出响应,给云平台的稳定运行带来了风险。
发明内容
本申请提供了一种云平台监控方法及云平台,本申请实施例采用的技术方案如下:
本申请一方面提供了一种云平台监控方法,包括:
获取云平台的历史监控项目,以及与所述历史监控项目相对应的历史监控数据;其中,所述历史监控数据包括位于维护窗口期的第一监控数据和位于非维护窗口期的第二监控数据;
基于所述第一监控数据和所述第二监控数据,确定各所述历史监控项目与维护操作的相关数据;其中,所述相关数据用于表征所述历史监控项目和所述维护操作的相关程度;
在所述相关数据符合非相关性阈值的情况下,将相应的所述历史监控项目确定为目标监控项目;其中,所述非相关性阈值用于表征所述历史监控项目和所述维护操作不具有相关性;
在所述云平台的维护窗口期,对所述目标监控项目进行监控,以确定所述云平台的运行状态是否出现异常。
在一些实施例中,所述基于所述第一监控数据和所述第二监控数据,确定各所述历史监控项目与维护操作的相关数据,包括:
对所述第一监控数据和所述第二监控数据进行特征分析,以获取所述第一监控数据的第一特征数据和所述第二监控数据的第二特征数据;
确定各所述历史监控项目相对应的第一特征数据和第二特征数据之间的第一差异;
相应的,所述在所述相关数据符合非相关性阈值的情况下,将相应的所述历史监控项目确定为目标监控项目,包括:
在所述第一差异小于第一阈值的情况下,将该历史监控项目确定为目标监控项目。
在一些实施例中,所述基于所述第一监控数据和所述第二监控数据,确定各所述历史监控项目与维护操作的相关数据,包括:
基于所述第二监控数据,推测第三监控数据;其中,所述第三监控数据能够表征在不对所述云平台执行维护操作的情况下所述云平台在所述维护窗口期的运行状态;
确定各所述历史监控项目相对应的所述第一监控数据和所述第三监控数据之间的第二差异;
相应的,所述在所述相关数据符合非相关性阈值的情况下,将相应的所述历史监控项目确定为目标监控项目,包括:
在所述第二差异小于第二阈值的情况下,将该历史监控项目确定为目标监控项目。
在一些实施例中,所述确定各所述历史监控项目相对应的所述第一监控数据和所述第三监控数据之间的第二差异,包括:
确定各所述历史监控项目相对应的所述第一监控数据和所述第三监控数据之间的残差;
在所述残差大于残差阈值的情况下,将该残差对应的采样点标记为离群点;
相应的,所述在所述第二差异小于第二阈值的情况下,将该历史监控项目确定为目标监控项目,包括:
在所述维护窗口期内离群点的数量小于离群点数量阈值和/或连续的离群点的持续时间小于持续时间阈值的情况下,将该历史监控项目确定为目标监控项目。
在一些实施例中,所述基于所述第一监控数据和所述第二监控数据,确定各所述历史监控项目与维护操作的相关数据,包括:
对所述第一监控数据和所述第二监控数据进行特征分析,以获取所述第一监控数据的第一特征数据和所述第二监控数据的第二特征数据;
确定各所述历史监控项目相对应的第一特征数据和第二特征数据之间的第一差异;
基于所述第二监控数据,推测第三监控数据;其中,所述第三监控数据能够表征在不对所述云平台执行维护操作的情况下所述云平台在所述维护窗口期的运行状态;
确定各所述历史监控项目相对应的所述第一监控数据和所述第三监控数据之间的第二差异;
相应的,所述在所述相关数据符合非相关性阈值的情况下,将相应的所述历史监控项目确定为目标监控项目,包括:
在所述第一差异小于第一阈值且所述第二差异小于第二阈值的情况下,将相应的所述历史监控项目确定为目标监控项目。
在一些实施例中,所述在所述云平台的维护窗口期,对所述目标监控项目进行监控,以确定所述云平台的运行状态是否出现异常,包括:
获取所述云平台在当前时刻之前的第一期间的第四监控数据;其中,所述第四监控数据用于表征所述云平台在所述第一期间的运行状态;
基于所述第四监控数据预测第五监控数据;其中,所述第五监控数据能够表征所述云平台在当前时刻之后的第二期间的运行状态,所述第二期间位于所述维护窗口期内;
将所述第五监控数据与相应的所述目标监控项目进行比较,以确定所述云平台在所述第二期间的运行状态是否出现异常。
在一些实施例中,所述方法还包括:
根据确定的所述目标监控项目,生成记载有所述目标监控项目的监控清单。
在一些实施例中,所述根据确定的所述目标监控项目,生成记载有所述目标监控项目的监控清单,包括:
分别获取与所述云平台中多个节点相对应的子监控清单;所述子监控清单记载有一个或多个目标监控项目;
在多个子监控清单中的目标监控项目的相似度大于相似度阈值的情况下,基于多个子监控清单生成所述监控清单,并获取节点信息集合;其中,所述节点信息集合包含多个节点标识,多个节点标识分别用于标识各个所述节点。
在一些实施例中,所述在所述云平台的维护窗口期,对所述目标监控项目进行监控,以确定所述云平台的运行状态是否出现异常,包括:
在所述节点信息集合中所述节点标识所标识的所述节点的维护窗口期,对所述监控清单中所记载的所述目标监控项目进行监控,以确定所述节点的运行状态是否出现异常。
本申请另一方面提供了一种云平台,至少包括存储器和处理器,所述存储器上存储有程序,所述处理器在执行所述存储器上的程序时实现如上所述的方法。
本申请实施例的云平台监控方法,基于云平台的历史监控数据,获取能够表征历史监控项目和维护操作的相关程度的相关数据,通过判断相关数据是否符合非相关性阈值,确定历史监控项目中与维护操作不具有相关性的目标监控项目,目标监控项目不容易受到维护操作的影响,在云平台的维护窗口期,保持对目标监控项目的监控操作,能够确定云平台是否出现并非由于维护操作所导致的运行状态异常现象,一旦出现并非由于维护操作所导致的运行状态异常现象,能够及时处理,保障云平台的稳定运行。
附图说明
图1为本申请实施例的云平台监控方法的流程图;
图2为本申请实施例的云平台监控方法的步骤S120和S130的第一种实施例的流程图;
图3为本申请实施例的云平台监控方法的步骤S120和S130的第二种实施例的流程图;
图4为本申请实施例的云平台监控方法的步骤S120和S130的第三种实施例的流程图;
图5为本申请实施例的云平台监控方法的步骤S140的流程图;
图6为本申请实施例的云平台监控方法的步骤S130″和S140的流程图;
图7为本申请实施例的云平台的结构框图。
具体实施方式
此处参考附图描述本申请的各种方案以及特征。
应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本申请的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本申请进行了描述,但本领域技术人员能够确定地实现本申请的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本申请的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本申请的具体实施例;然而,应当理解,所申请的实施例仅仅是本申请的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此,本文所申请的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本申请的相同或不同实施例中的一个或多个。
本申请实施例提供了一种云平台监控方法,包括:
获取云平台的历史监控项目,以及与所述历史监控项目相对应的历史监控数据;其中,所述历史监控数据包括位于维护窗口期的第一监控数据和位于非维护窗口期的第二监控数据;
基于所述第一监控数据和所述第二监控数据,确定各所述历史监控项目与维护操作的相关数据;其中,所述相关数据用于表征所述历史监控项目和所述维护操作的相关程度;
在所述相关数据符合非相关性阈值的情况下,将相应的所述历史监控项目确定为目标监控项目;其中,所述非相关性阈值用于表征所述历史监控项目和所述维护操作不具有相关性;
在所述云平台的维护窗口期,对所述目标监控项目进行监控,以确定所述云平台的运行状态是否出现异常。
本申请实施例的云平台监控方法,基于云平台的历史监控数据,获取能够表征历史监控项目和维护操作的相关程度的相关数据,通过判断相关数据是否符合非相关性阈值,确定历史监控项目中与维护操作不具有相关性的目标监控项目,目标监控项目不容易受到维护操作的影响,在云平台的维护窗口期,保持对目标监控项目的监控操作,能够确定云平台是否出现并非由于维护操作所导致的运行状态异常现象,一旦出现并非由于维护操作所导致的运行状态异常现象,能够及时处理,保障云平台的稳定运行。
以下结合附图和具体实施例对本申请实施例的云平台监控方法的步骤和原理进行详细说明。
图1为本申请实施例的云平台监控方法的流程图,参见图1所示,本申请实施例的云平台监控方法具体可包括如下步骤。
S110,获取云平台的历史监控项目,以及与所述历史监控项目相对应的历史监控数据。其中,所述历史监控数据包括位于维护窗口期的第一监控数据和位于非维护窗口期的第二监控数据。
云平台也称云计算平台,是指基于硬件资源和软件资源的服务,提供计算、网络和存储服务。在云平台运行过程中,需要设置监控项目,并获取与监控项目相对应且能够表征云平台的运行状态的监控数据,通过将监控数据和监控项目进行比较,以确定云平台的运行状态是否出现异常。如果确定云平台的运行状态出现异常,会发出报警,也可触发应急响应机制。例如,在确定云平台的一个节点的温度高于温度限值,可发出报警,而且可以采取例如降低该节点的工作频率,将该节点的处理任务调配到其他节点进行处理,提高该节点的散热装置的散热功耗等应急响应措施。
云平台运行过程中需要定期维护,例如,更新云平台上的软件版本、对硬件设备进行检修等。维护窗口期即为对云平台执行维护操作的期间,该维护窗口期可以是针对整个云平台执行维护操作,也可以是针对云平台中一个或多个节点执行维护操作。非维护窗口期即为未对云平台执行维护操作的期间。第一监控数据即为云平台在维护窗口期的监控数据,第二监控数据即为云平台在非维护窗口期的监控数据,二者能够分别表征云平台在维护窗口期和非维护窗口期的运行状态。
可选的,历史监控项目可包括但不限于云平台的云主机状态、系统状态、CPU状态、内存状态、磁盘状态及网络状态等。历史监控数据可包括能够表征云主机的运行状态的状态信息,能够表征系统状态的系统信息,能够表征CPU状态的CPU信息,如CPU使用率、进程数等,能够表征内存状态的内存信息,如内存的使用率等等。
可选的,历史监控项目和历史监控数据可作为历史数据保存在数据库中。在需要时,可从数据库中调取历史监控项目和特定时间范围的历史监控数据。
S120,基于所述第一监控数据和所述第二监控数据,确定各所述历史监控项目与维护操作的相关数据。其中,所述相关数据用于表征所述历史监控项目和所述维护操作的相关程度。
第一监控数据为针对云平台执行维护操作的维护窗口期的监控数据,第二监控数据为云平台未执行维护操作的非维护窗口期的监控数据,所以,第一监控数据受维护操作影响,第二监控数据不受维护操作影响。
在此基础上,可基于第一监控数据和第二监控数据,对历史监控项目和维护操作进行相关性分析,以获取能够表征历史监控项目和维护操作的相关程度的相关数据。
在具体实施时,可采用多种方法对历史监控项目和维护操作进行相关性分析。例如,可基于机器学习模型对历史监控项目和维护操作的相关性进行评分,将该评分作为相关数据。或者,也可采用其他相关性分析方法,来确定历史监控项目和维护操作的相关性程度。
S130,在所述相关数据符合非相关性阈值的情况下,将相应的所述历史监控项目确定为目标监控项目。
其中,所述非相关性阈值用于表征所述历史监控项目和所述维护操作不具有相关性。可以理解的是,此处所述的不具有相关性,应理解为历史监控项目和维护操作不具有明显的相关性。在对云平台执行维护操作和不对云平台执行维护操作时,该历史监控项目所对应的监控数据的表现一致或基本一致。但不应理解为该历史监控项目与维护操作绝对不具有相关性。
如果一历史监控项目与维护操作的相关数据符合非相关性阈值,则表明该历史监控项目相对应的监控数据不容易受到维护操作影响,也即,不容易因维护操作导致监控数据出现异常波动,而触发异常报警或触发应急响应措施。
如果一历史监控项目与维护操作的相关数据不符合非相关性阈值,则表明该历史监控项目相对应的监控数据容易受到维护操作的影响,在对云平台执行维护操作时,该监控数据容易出现异常波动。在对云平台执行维护操作时,如果不抑制该历史监控项目,则容易触发异常报警或触发应急响应措施。
S140,在所述云平台的维护窗口期,对所述目标监控项目进行监控,以确定所述云平台的运行状态是否出现异常。
在确定了目标监控项目的基础上,后续在云平台的维护窗口期,可保持目标监控项目的监控操作,抑制非目标监控项目的监控操作。例如,在确定CPU状态容易与维护操作具有较高的相关性,而磁盘状态与维护操作之间不具有明显的相关性的情况下,在云平台的维护窗口期,可抑制CPU状态的监控操作,保持磁盘状态的监控操作。
如此,既能够避免因维护操作所导致的云平台的运行状态异常而触发报警或应急响应措施,还能够在云平台出现并非由维护操作导致的运行状态异常时,及时触发报警或触发应急响应,以确保云平台稳定运行。
以下结合几个具体实施例对历史监控项目和维护操作的相关性分析方法进行示例性说明,但不应理解为仅限于采用如下几个具体实施例中的相关性分析方法对历史监控项目和维护操作的相关性进行分析。
配合图2所示,在第一种可选的实施例中,步骤S120,所述基于所述第一监控数据和所述第二监控数据,确定各所述历史监控项目与维护操作的相关数据,可包括;
S1211,对所述第一监控数据和所述第二监控数据进行特征分析,以获取所述第一监控数据的第一特征数据和所述第二监控数据的第二特征数据;
S1212,确定各所述历史监控项目相对应的第一特征数据和第二特征数据之间的第一差异。
相应的,步骤S130,所述在所述相关数据符合非相关性阈值的情况下,将相应的所述历史监控项目确定为目标监控项目,可包括:
S1311,在所述第一差异小于第一阈值的情况下,将该历史监控项目确定为目标监控项目。
通过直接比较维护窗口期和非维护窗口期的监控数据,能够简单易行的确定历史监控项目和维护操作的相关性,操作简单,数据处理量较小,易于实现,适于实时在线确定目标监控项目。
可选的,在获取到第一监控数据和第二监控数据的情况下,可计算第一监控数据的标准差、方差和/或其他参数,以获取第一监控数据的额第一特征数据,计算第二监控数据的标准差、方差和/或其他参数,以获取第二监控数据的第二特征数据。将第一特征数据和第二特征数据之间的第一差异作为历史监控项目和维护操作的相关数据。
可选的,在将第一特征数据和第二特征数据之间第一差异作为相关数据的情况下,非相关性阈值可配置为第一阈值,在第一差异小于第一阈值的情况下,可确定相关数据符合非相关性阈值。也即,在第一差异小于第一阈值的情况下,可确定该历史监控项目与维护操作不具有明显的相关性,将该历史监控项目确定为目标监控项目。
可选的,该第一差异可以表现为单一差值、差值集合、差值矩阵或其他数据形式。相应的,第一阈值也可表现为单一阈值、阈值集合或阈值矩阵。
以CPU使用率为例,在获取到维护窗口期和非维护窗口期的CPU使用率的监控数据,可计算维护窗口期的CPU使用率的标准差,以及非维护窗口期的CPU使用率的标准差,继而,计算这两个标准差之间的差值,如果该差值小于第一阈值,则表明维护窗口期和非维护窗口期的CPU使用率差异不明显,维护操作对CPU使用率的影响较小,二者不具有明显的相关性。后续,在云平台的维护窗口期,可保持对CPU使用率的监控操作。
配合图3所示,在第二种可选的实施例中,步骤S120,所述基于所述第一监控数据和所述第二监控数据,确定各所述历史监控项目与维护操作的相关数据,包括:
S1221,基于所述第二监控数据,推测第三监控数据;其中,所述第三监控数据能够表征在不对所述云平台执行维护操作的情况下所述云平台在所述维护窗口期的运行状态;
S1222,确定各所述历史监控项目相对应的所述第一监控数据和所述第三监控数据之间的第二差异。
相应的,步骤S130,所述在所述相关数据符合非相关性阈值的情况下,将相应的所述历史监控项目确定为目标监控项目,包括:
S1331,在所述第二差异小于第二阈值的情况下,将该历史监控项目确定为目标监控项目。
第一监控数据和第三监控数据分别表征同一时期,对云平台执行维护操作和不对云平台执行维护操作这两种情况下云平台的运行状态,具有较好的可比性。因此,第一监控数据和第三监控数据之间的第二差异能够更好的体现维护操作对云平台的监控项目的影响,可以更加准确的确定云平台和历史监控项目的相关性。
可选的,可通过机器学习模型来基于第二监控数据推测第三监控数据。也即,将第二监控数据作为机器学习模型的输入数据,获取机器学习模型输出的第三监控数据。该机器学习模型可基于历史监控数据训练而成。例如,可获取非维护窗口期的历史监控数据构建输入数据集,获取维护窗口期的数据构建输出数据集,基于该输入数据集和输出数据集对机器学习模型训练。训练完成的机器学习模型即可基于第二监控数据推测第三监控数据。
可选的,在获取到第三监控数据的情况下,也可分别对第一监控数据和第三监控数据进行特征分析,以分别获取第一特征数据和第三特征数据,继而,确定第一特征数据和第二特征数据之间的第二差异。类似的,第二差异可以表现为单一差值、差值集合、差值矩阵或其他数据形式,相应的,第一阈值也可表现为单一阈值、阈值集合或阈值矩阵。
可选的,步骤1222,所述确定各所述历史监控项目相对应的所述第一监控数据和所述第三监控数据之间的第二差异,可包括:
确定各所述历史监控项目相对应的所述第一监控数据和所述第三监控数据之间的残差;
在所述残差大于残差阈值的情况下,将该残差对应的采样点标记为离群点。
相应的,步骤S1321,所述在所述第二差异小于第二阈值的情况下,将该历史监控项目确定为目标监控项目,可包括:
在所述维护窗口期内离群点的数量小于离群点数量阈值和/或连续的离群点的持续时间小于持续时间阈值的情况下,将该历史监控项目确定为目标监控项目。
通过维护窗口期内离群点的数量是否小于离群点数量阈值,和/或判断连续的离群点的持续时间是否小于持续时间阈值,能够比较第一监控数据和第三监控数据的整体表现,避免偶发因素影响判断结果,能够进一步提高相关性分析的准确性。
可选的,以第一监控数据包含N个采样点为例,相对应的,第三监控数据也可获取到N个样本数据,计算第一监控数据和第三监控数据中各对相对应的样本数据之间的残差,将残差大于残差阈值的采样点标记为离群点。维护窗口期内离群点的数量可记作K1,离群点数量阈值可记作K2,统计连续的离群点的持续时间记作T1,持续时间阈值可记作T2。如此,在K1<K2,和/或T1<T2的情况下,确定第一监控数据和第三监控数据的整体表现基本一致,表明相应的历史监控项目受维护操作的影响较小,该历史监控项目与维护操作不具有明显的相关性,可将该历史监控项目确定为目标监控项目。
配合图4所示,在第三种可选的实施例中,步骤S120,所述基于所述第一监控数据和所述第二监控数据,确定各所述历史监控项目与维护操作的相关数据,可包括:
S1231,对所述第一监控数据和所述第二监控数据进行特征分析,以获取所述第一监控数据的第一特征数据和所述第二监控数据的第二特征数据;
S1232,确定各所述历史监控项目相对应的第一特征数据和第二特征数据之间的第一差异;
S1233,基于所述第二监控数据,推测第三监控数据;其中,所述第三监控数据能够表征在不对所述云平台执行维护操作的情况下所述云平台在所述维护窗口期的运行状态;
S1234,确定各所述历史监控项目相对应的所述第一监控数据和所述第三监控数据之间的第二差异。
相应的,步骤S130,所述在所述相关数据符合非相关性阈值的情况下,将相应的所述历史监控项目确定为目标监控项目,包括:
S1331,在所述第一差异小于第一阈值且所述第二差异小于第二阈值的情况下,将相应的所述历史监控项目确定为目标监控项目。
实际上,该第三种可选的实施例将第一种可选的实施例和第二种可选的实施例结合在一起,获取第一种可选的实施例和第二种可选的实施例所确定的目标监控项目的交集。如此,能够准确的确定出与维护操作明显不具有相关性的历史监控项目,也即,能够准确确定出明显不受维护操作影响的历史监控项目,避免维护操作触发异常报警或触发应急响应措施。
配合图5所示,在一些实施例中,步骤S140,所述在所述云平台的维护窗口期,对所述目标监控项目进行监控,以确定所述云平台的运行状态是否出现异常,包括:
S141,获取所述云平台在当前时刻之前的第一期间的第四监控数据;其中,所述第四监控数据用于表征所述云平台在所述第一期间的运行状态;
S142,基于所述第四监控数据预测第五监控数据;其中,所述第五监控数据能够表征所述云平台在当前时刻之后的第二期间的运行状态,所述第二期间位于所述维护窗口期内;
S143,将所述第五监控数据与相应的所述目标监控项目进行比较,以确定所述云平台在所述第二期间的运行状态是否出现异常。
也即,在对云平台执行维护操作时,并不是或并不仅仅是将获取到的第四监控数据直接与目标监控项目进行比较。而是基于该第四监控数据,预测能够表征云平台在未来一段时间的运行状态的第五监控数据,将该第五监控数据与目标监控项目进行比较,对云平台的运行状态在未来一段时间内是否可能出现异常进行预测。如此,可以预先采取应急响应措施,避免云平台的运行状态确实出现异常,能够显著提高云平台的稳定性。
例如,在预测出某一节点的CPU使用率在未来一段时间内可能会超出CPU使用率的上限值,则可原本由该节点执行的任务调配到其他节点,以避免该节点的CPU使用率触发上限值,进而避免该节点出现崩溃现象。
可选的,在获取到第四监控数据的情况下,可将该第四监控数据作为输入数据,通过机器学习模型预设第五监控数据。可选的,可基于目标监控项目确定该机器学习模型的输出数据类型。可选的,该机器学习模型可基于历史监控数据训练而成。例如可获取前一时期的历史监控数据构建输入数据集,获取与该前一时期相邻的后一时期的历史监控数据构建输出数据集,基于该输入数据集和输出数据集对机器学习模型训练。训练完成的机器学习模型即可基于第四监控数据预测第五监控数据。
在一些实施例中,所述方法还包括:
S130″,根据确定的所述目标监控项目,生成记载有所述目标监控项目的监控清单。
相对应,步骤S140,在所述云平台的维护窗口期,对所述目标监控项目进行监控,以确定所述云平台的运行状态是否出现异常,可包括:
在所述云平台的维护窗口期,对所述监控清单所列的目标监控项目进行监控,以确定所述云平台的运行状态是否出现异常。
在具体实施时,云平台的监控项目众多,确定各个目标监控项目的情况下,将全部目标监控项目汇总到监控清单中。例如,在确定目标监控项目包括CPU使用率、CPU进程数、CPU温度和磁盘使用率,可将这些指标汇总到监控清单中。继而,基于监控清单对云平台在维护窗口期间的运行状态进行监控,易于实现。
配合图6所示,在一些实施例中,S130″,所述根据确定的所述目标监控项目,生成记载有所述目标监控项目的监控清单,可包括:
S131″,分别获取与所述云平台中多个节点相对应的子监控清单;所述子监控清单记载有一个或多个目标监控项目;
S132″,在多个子监控清单中的目标监控项目的相似度大于相似度阈值的情况下,基于多个子监控清单生成所述监控清单,并获取节点信息集合;其中,所述节点信息集合包含多个节点标识,多个节点标识分别用于标识各个所述节点。
相应的,步骤S140,所述在所述云平台的维护窗口期,对所述目标监控项目进行监控,以确定所述云平台的运行状态是否出现异常,可包括:
在所述节点信息集合中所述节点标识所标识的所述节点的维护窗口期,对所述监控清单中所记载的所述目标监控项目进行监控,以确定所述节点的运行状态是否出现异常。
云平台可能包含多个节点,不同节点的配置、所支持的应用程序或者所执行的操作可能比较相似,这时,不同节点之间的历史监控项目,以及历史监控项目和与维护操作的相关性也可能比较相似。基于多个子监控清单生成监控清单,并将子监控清单相同或基本相同的节点的节点标识进行汇总,形成节点信息集合。继而,基于该节点信息集合和监控清单对这些相似的节点执行监控操作,有益于简化监控逻辑,提高监控效率。
可选的,在不同的节点的配置、所支持的应用程序或者所执行的操作比较相似的情况下,这些节点受维护操作的影响情况也可能比较相似。因此,在确定其中一个节点的监控清单的情况下,可基于节点的配置信息和/或任务信息,确定配置相似和/或所执行的任务相似的节点,并将这些节点的节点标识汇总形成节点信息集合。在云平台的维护窗口期,基于节点信息集合和监控清单,对这些节点执行监控操作。
可选的,在确定了监控清单和/或节点信息集合的情况下,还可通过人工对监控清单和/或节点信息集合进行校正。例如,可通过人工删除监控清单中的目标监控项目或向监控清单中补入目标监控项目。还例如,可通过人工删除节点信息集合中的节点标识或向节点信息集合补入节点标识。
参见图7所示,本申请实施例还提供了一种云平台,至少包括存储器201和处理器202,所述存储器201上存储有程序,所述处理器202在执行所述存储器201上的程序时实现如上任一实施例所述的方法。
由于该云平台应用了上述云平台监控方法,所以,该云平台在其自身的维护窗口期能够基于目标监控项目对自身的运行状态进行监控,能够确定云平台自身是否出现并非由于维护操作所导致的运行状态异常现象,一旦出现并非由于维护操作所导致的运行状态异常现象,能够及时提醒运维人员进行处理,保障云平台的稳定运行。
可选的,基于上述云平台监控方法对云平台自身的监控操作,可以是通过云平台中一个或多个节点监控其他一个或多个节点,也可以是通过各个节点监控自身的运行状态,只要能够实现上述云平台监控方法即可。
本领域技术人员应明白,本申请的实施例可提供为方法、电子设备、计算机可读存储介质或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。当通过软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
上述处理器可以是通用处理器、数字信号处理器、专用集成电路(application-specific integrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logicdevice,CPLD),现场可编程逻辑门阵列(field-programmable gate array,FPGA),通用阵列逻辑(generic array logic,简称GAL)或其任意组合。通用处理器可以是微处理器或者任何常规的处理器等。
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
上述可读存储介质可为磁碟、光盘、DVD、USB、只读存储记忆体(ROM)或随机存储记忆体(RAM)等,本申请对具体的存储介质形式不作限定。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。

Claims (10)

1.一种云平台监控方法,包括:
获取云平台的历史监控项目,以及与所述历史监控项目相对应的历史监控数据;其中,所述历史监控数据包括位于维护窗口期的第一监控数据和位于非维护窗口期的第二监控数据;
基于所述第一监控数据和所述第二监控数据,确定各所述历史监控项目与维护操作的相关数据;其中,所述相关数据用于表征所述历史监控项目和所述维护操作的相关程度;
在所述相关数据符合非相关性阈值的情况下,将相应的所述历史监控项目确定为目标监控项目;其中,所述非相关性阈值用于表征所述历史监控项目和所述维护操作不具有相关性;
在所述云平台的维护窗口期,对所述目标监控项目进行监控,以确定所述云平台的运行状态是否出现异常。
2.根据权利要求1所述的方法,其中,所述基于所述第一监控数据和所述第二监控数据,确定各所述历史监控项目与维护操作的相关数据,包括:
对所述第一监控数据和所述第二监控数据进行特征分析,以获取所述第一监控数据的第一特征数据和所述第二监控数据的第二特征数据;
确定各所述历史监控项目相对应的第一特征数据和第二特征数据之间的第一差异;
相应的,所述在所述相关数据符合非相关性阈值的情况下,将相应的所述历史监控项目确定为目标监控项目,包括:
在所述第一差异小于第一阈值的情况下,将该历史监控项目确定为目标监控项目。
3.根据权利要求1所述的方法,其中,所述基于所述第一监控数据和所述第二监控数据,确定各所述历史监控项目与维护操作的相关数据,包括:
基于所述第二监控数据,推测第三监控数据;其中,所述第三监控数据能够表征在不对所述云平台执行维护操作的情况下所述云平台在所述维护窗口期的运行状态;
确定各所述历史监控项目相对应的所述第一监控数据和所述第三监控数据之间的第二差异;
相应的,所述在所述相关数据符合非相关性阈值的情况下,将相应的所述历史监控项目确定为目标监控项目,包括:
在所述第二差异小于第二阈值的情况下,将该历史监控项目确定为目标监控项目。
4.根据权利要求3所述的方法,其中,所述确定各所述历史监控项目相对应的所述第一监控数据和所述第三监控数据之间的第二差异,包括:
确定各所述历史监控项目相对应的所述第一监控数据和所述第三监控数据之间的残差;
在所述残差大于残差阈值的情况下,将该残差对应的采样点标记为离群点;
相应的,所述在所述第二差异小于第二阈值的情况下,将该历史监控项目确定为目标监控项目,包括:
在所述维护窗口期内离群点的数量小于离群点数量阈值和/或连续的离群点的持续时间小于持续时间阈值的情况下,将该历史监控项目确定为目标监控项目。
5.根据权利要求1所述的方法,其中,所述基于所述第一监控数据和所述第二监控数据,确定各所述历史监控项目与维护操作的相关数据,包括:
对所述第一监控数据和所述第二监控数据进行特征分析,以获取所述第一监控数据的第一特征数据和所述第二监控数据的第二特征数据;
确定各所述历史监控项目相对应的第一特征数据和第二特征数据之间的第一差异;
基于所述第二监控数据,推测第三监控数据;其中,所述第三监控数据能够表征在不对所述云平台执行维护操作的情况下所述云平台在所述维护窗口期的运行状态;
确定各所述历史监控项目相对应的所述第一监控数据和所述第三监控数据之间的第二差异;
相应的,所述在所述相关数据符合非相关性阈值的情况下,将相应的所述历史监控项目确定为目标监控项目,包括:
在所述第一差异小于第一阈值且所述第二差异小于第二阈值的情况下,将相应的所述历史监控项目确定为目标监控项目。
6.根据权利要求1所述的方法,其中,所述在所述云平台的维护窗口期,对所述目标监控项目进行监控,以确定所述云平台的运行状态是否出现异常,包括:
获取所述云平台在当前时刻之前的第一期间的第四监控数据;其中,所述第四监控数据用于表征所述云平台在所述第一期间的运行状态;
基于所述第四监控数据预测第五监控数据;其中,所述第五监控数据能够表征所述云平台在当前时刻之后的第二期间的运行状态,所述第二期间位于所述维护窗口期内;
将所述第五监控数据与相应的所述目标监控项目进行比较,以确定所述云平台在所述第二期间的运行状态是否出现异常。
7.根据权利要求1所述的方法,其中,所述方法还包括:
根据确定的所述目标监控项目,生成记载有所述目标监控项目的监控清单。
8.根据权利要求7所述的方法,其中,所述根据确定的所述目标监控项目,生成记载有所述目标监控项目的监控清单,包括:
分别获取与所述云平台中多个节点相对应的子监控清单;所述子监控清单记载有一个或多个目标监控项目;
在多个子监控清单中的目标监控项目的相似度大于相似度阈值的情况下,基于多个子监控清单生成所述监控清单,并获取节点信息集合;其中,所述节点信息集合包含多个节点标识,多个节点标识分别用于标识各个所述节点。
9.根据权利要求8所述的方法,其中,所述在所述云平台的维护窗口期,对所述目标监控项目进行监控,以确定所述云平台的运行状态是否出现异常,包括:
在所述节点信息集合中所述节点标识所标识的所述节点的维护窗口期,对所述监控清单中所记载的所述目标监控项目进行监控,以确定所述节点的运行状态是否出现异常。
10.一种云平台,至少包括存储器和处理器,所述存储器上存储有程序,所述处理器在执行所述存储器上的程序时实现权利要求1-9中任一项所述的方法。
CN202111664790.XA 2021-12-31 2021-12-31 云平台监控方法及云平台 Pending CN114297034A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111664790.XA CN114297034A (zh) 2021-12-31 2021-12-31 云平台监控方法及云平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111664790.XA CN114297034A (zh) 2021-12-31 2021-12-31 云平台监控方法及云平台

Publications (1)

Publication Number Publication Date
CN114297034A true CN114297034A (zh) 2022-04-08

Family

ID=80973980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111664790.XA Pending CN114297034A (zh) 2021-12-31 2021-12-31 云平台监控方法及云平台

Country Status (1)

Country Link
CN (1) CN114297034A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115460055A (zh) * 2022-08-19 2022-12-09 深圳微米云服信息科技有限公司 一种云平台监控方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115460055A (zh) * 2022-08-19 2022-12-09 深圳微米云服信息科技有限公司 一种云平台监控方法

Similar Documents

Publication Publication Date Title
US11151014B2 (en) System operational analytics using additional features for health score computation
US9672085B2 (en) Adaptive fault diagnosis
US8140454B2 (en) Systems and/or methods for prediction and/or root cause analysis of events based on business activity monitoring related data
US7693982B2 (en) Automated diagnosis and forecasting of service level objective states
US9658916B2 (en) System analysis device, system analysis method and system analysis program
US20170046215A1 (en) Operation management device, operation management method
US20160217378A1 (en) Identifying anomalous behavior of a monitored entity
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
JP6689995B2 (ja) コンピュータシステムの監視装置および方法
US9524223B2 (en) Performance metrics of a computer system
US20100306597A1 (en) Automated identification of performance crisis
JP7040851B2 (ja) 異常検知装置、異常検知方法及び異常検知プログラム
JP5277667B2 (ja) 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム
TWI663510B (zh) 設備保養預測系統及其操作方法
US20140068356A1 (en) Apparatus for determining message
EP2963552B1 (en) System analysis device and system analysis method
JP2015028700A (ja) 障害検知装置、障害検知方法、障害検知プログラム及び記録媒体
US20190265088A1 (en) System analysis method, system analysis apparatus, and program
JP2012186667A (ja) ネットワーク障害検出装置、ネットワーク障害検出装置のネットワーク障害検出方法およびネットワーク障害検出プログラム
CN114297034A (zh) 云平台监控方法及云平台
CN107451029A (zh) 一种信息处理方法及装置、设备
CN110995506B (zh) 告警量异常的定位方法、装置、存储介质和计算机设备
JP6512646B1 (ja) 保守管理装置、システム及びプログラム
JP6226463B2 (ja) ネットワーク管理システム、ネットワーク装置および制御装置
JP5623950B2 (ja) It障害予兆検知装置及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination