CN108880881A - 一种云环境下资源监控的方法和装置 - Google Patents

一种云环境下资源监控的方法和装置 Download PDF

Info

Publication number
CN108880881A
CN108880881A CN201810614557.2A CN201810614557A CN108880881A CN 108880881 A CN108880881 A CN 108880881A CN 201810614557 A CN201810614557 A CN 201810614557A CN 108880881 A CN108880881 A CN 108880881A
Authority
CN
China
Prior art keywords
resource status
module
failure
clustering algorithm
current resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810614557.2A
Other languages
English (en)
Inventor
胡汉顶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810614557.2A priority Critical patent/CN108880881A/zh
Publication of CN108880881A publication Critical patent/CN108880881A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Environmental & Geological Engineering (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明公开了一种云环境下资源监控的方法和装置,其中,所述方法包括:对当前的资源状态进行分析;确定所述资源状态为故障时,进行告警;确定所述资源状态为异常时,对异常信息进行趋势分析,若预测将要发生故障,则进行预警。本发明实施例能够对已产生的故障进行告警外,还能够对通过对异常信息进行趋势分析,预测出将要产生的故障并发出预警信息,提醒运维人员及时排除,能有效提供云平台的稳定性及安全性,减少因故障带来的损失,降低运维成本。

Description

一种云环境下资源监控的方法和装置
技术领域
本发明涉及监控领域,尤指一种云环境下资源监控的方法和装置。
背景技术
随着云计算技术的快速发展,云平台的安全性和稳定性愈加受到重视,这就需要对云平台中的资源做到有效的监控。
目前的监控手段大都是在故障发生后才会进行报告,然后通知运维管理人员进行维护,有一定的延时。
发明内容
为了解决上述技术问题,本发明提供了一种云环境下资源监控的方法、装置及设备,以实现对云环境下资源的异常监控。
为了达到本发明目的,本发明实施例提供了一种云环境下资源监控的方法,包括:
对当前的资源状态进行分析;
确定所述资源状态为故障时,进行告警;
确定所述资源状态为异常时,对异常信息进行趋势分析,若预测将要发生故障,则进行预警。
可选地,所述对当前的资源状态进行分析之前,所述方法还包括:使用训练采样数据对聚类算法进行建模;
所述对当前的资源状态进行分析包括:基于所述建模的聚类算法,对当前的资源状态进行分析。
可选地,所述聚类算法为K均值的聚类算法。
可选地,所述对当前的资源状态进行分析,包括:
将资源状态分为正常、异常和故障三种类型,通过采集资源状态的检测数据判断当前的资源状态。
可选地,所述对异常信息进行趋势分析,包括:
通过非参数累积和算法对所述异常信息进行分析。
本发明实施例还提供一种云环境下资源监控的装置,包括:
状态分类模块,用于对当前的资源状态进行分析,确定所述资源状态为故障时,指示告警模块进行告警;确定所述资源状态为异常时,将异常信息发送至异常分析模块;
异常分析模块,用于对异常信息进行趋势分析,若预测将要发生故障,则指示告警模块进行预警;
告警模块,用于根据状态分类模块或异常分析模块的指示进行告警或预警。
可选地,所述装置还包括:
构建模块,用于使用训练采样数据对聚类算法进行建模,构建所述状态分类模块;
所述状态分类模块,用于基于所述建模的聚类算法,对当前的资源状态进行分析。
可选地,所述聚类算法为K均值的聚类算法。
可选地,所述状态分类模块,用于将资源状态分为正常、异常和故障三种类型,通过采集资源状态的检测数据判断当前的资源状态。
可选地,所述异常分析模块,用于通过非参数累积和算法对所述异常信息进行分析。
本发明实施例的云环境下资源监控的方法,包括:对当前的资源状态进行分析;确定所述资源状态为故障时,进行告警;确定所述资源状态为异常时,对异常信息进行趋势分析,若预测将要发生故障,则进行预警。本发明实施例能够对已产生的故障进行告警外,还能够对通过对异常信息进行趋势分析,预测出将要产生的故障并发出预警信息,提醒运维人员及时排除,能有效提供云平台的稳定性及安全性,减少因故障带来的损失,降低运维成本。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例的云环境下资源监控的方法的流程图;
图2为本发明实施例的云环境下资源监控的装置的示意图;
图3为本发明应用实例的云环境下资源监控的实现示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明实施例主要应用于云环境下的资源监控,通过本发明实施例可以实现对云环境下资源的异常监控,可以对已经发生的故障做出告警,同时可以对可能发生异常的数据进行分析,预测出将要发生的故障并做出预警。
如图1所示,本发明实施例的云环境下资源监控的方法包括:
步骤101,对当前的资源状态进行分析。
其中,步骤101中,将资源状态分为正常、异常和故障三种类型,通过采集资源状态的检测数据判断当前的资源状态。
在一实施例中,在步骤101之前,所述方法还包括:使用训练采样数据对聚类算法进行建模;
所述对当前的资源状态进行分析包括:基于所述建模的聚类算法,对当前的资源状态进行分析。
其中,所述训练采样数据是指已知的用于建模训练的数据。
所述聚类算法可以是K-means(K均值)的聚类算法。
步骤102,确定所述资源状态为故障时,进行告警。
其中,所述告警可以是声音或灯光告警,也可以是监控设备在显示屏中显示告警提示框,也可以是上述几种方式的结合。
另外,如果确定资源状态为正常,则不做处理。
步骤103,确定所述资源状态为异常时,对异常信息进行趋势分析,若预测将要发生故障,则进行预警。
其中,在一实施例中,通过非参数CUSUM(累积和)算法对所述异常信息进行分析。
其中,所述预警可以是声音或灯光预警,也可以是监控设备在显示屏中显示预警提示框,也可以是上述几种方式的结合。
本发明实施例中,通过采集相关资源的信息,采用基于聚类的方法检测系统异常,如果是故障则立即发出告警,如果是异常则进一步通过非参数CUSUM算法对可能发生的异常进行分析,对即将发生的故障做出预测并发出预警,提示运维人员查证检修避免故障发生。本实施例能够在故障还未出现的时候提取检测出来,做出预警,避免出现故障,能够有效减少运维成本和提高云平台的稳定性和安全性。
本发明实施例的云环境下资源监控的装置包括状态分类模块、异常分析模块、告警模块。首先,使用训练采样数据采用K-means的聚类算法进行建模,构建状态分类模块;然后,采集资源状态的检测数据,利用状态分类模型对资源状态进行分析判断。若正常则不做处理。若是故障则立即通知告警模块发出告警。若是异常,则进一步利用非参数CUSUM算法构建的异常分析模块对异常信息进行分析,预测将要发生的故障,若无则继续监测,若有通过告警模块发出故障预警。
如图2所示,本发明实施例的云环境下资源监控的装置,包括:
状态分类模块21,用于对当前的资源状态进行分析,确定所述资源状态为故障时,指示告警模块进行告警;确定所述资源状态为异常时,将异常信息发送至异常分析模块;
异常分析模块22,用于对异常信息进行趋势分析,若预测将要发生故障,则指示告警模块进行预警;
告警模块23,用于根据状态分类模块或异常分析模块的指示进行告警或预警。
其中,所述告警可以是声音或灯光告警,也可以是监控设备在显示屏中显示告警提示框,也可以是上述几种方式的结合。所述预警可以是声音或灯光预警,也可以是监控设备在显示屏中显示预警提示框,也可以是上述几种方式的结合。
在一实施例中,所述装置还包括:
构建模块,用于使用训练采样数据对聚类算法进行建模,构建所述状态分类模块;
所述状态分类模块21,用于基于所述建模的聚类算法,对当前的资源状态进行分析。
其中,所述训练采样数据是指已知的用于建模训练的数据。
在一实施例中,所述聚类算法为K均值的聚类算法。
在一实施例中,所述状态分类模块21,用于将资源状态分为正常、异常和故障三种类型,通过采集资源状态的检测数据判断当前的资源状态。
在一实施例中,所述异常分析模块23,用于通过非参数累积和算法对所述异常信息进行分析。
另外,在一实施例中,所述状态分类模块21,用于确定资源状态为正常,则不做处理。
本发明实施例能够对已产生的故障进行告警外,还能够对通过特定算法对异常数据进行趋势分析,预测出将要产生的故障并发出预警信息,提醒运维人员及时排除,能有效提供云平台的稳定性及安全性,减少因故障带来的损失,降低运维成本。
下面结合实际应用说明上述方法的具体实施过程。
参照图3,本发明实施例利用状态分类模块对当前资源状态做出分析,若有故障则立即发出告警,若异常则进一步利用异常分析模块对异常数据进行趋势分析,对即将发生的故障做出预测并发出预警信息。
其中,利用状态分类模块、异常分析模块及告警模块实现对资源状态的监控,主要包括如下几个步骤:
(1)使用训练采样数据采用K-means的聚类算法进行建模,构建状态分类模块
(2)将资源状态分为正常、异常、故障三种,采集资源状态的检测数据通过状态分类模块对当前资源所处状态进行分析判断;
(3)若状态为正常则不做处理,若故障则立即告警,若异常则进一步分析;
(4)若资源状态为异常则进一步的采用非参数CUSUM算法构建的异常分析模块对异常信息进行趋势分析,对将要发生的故障进行预测,若有则通过告警模块发出预警,若无则不做处理。
本发明实施例还提出一种云环境下资源监控的设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述云环境下资源监控的方法。
本发明实施例还提出一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现上述云环境下资源监控的方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (10)

1.一种云环境下资源监控的方法,包括:
对当前的资源状态进行分析;
确定所述资源状态为故障时,进行告警;
确定所述资源状态为异常时,对异常信息进行趋势分析,若预测将要发生故障,则进行预警。
2.根据权利要求1所述的方法,其特征在于,
所述对当前的资源状态进行分析之前,所述方法还包括:使用训练采样数据对聚类算法进行建模;
所述对当前的资源状态进行分析包括:基于所述建模的聚类算法,对当前的资源状态进行分析。
3.根据权利要求2所述的方法,其特征在于,
所述聚类算法为K均值的聚类算法。
4.根据权利要求1所述的方法,其特征在于,所述对当前的资源状态进行分析,包括:
将资源状态分为正常、异常和故障三种类型,通过采集资源状态的检测数据判断当前的资源状态。
5.根据权利要求1~4中任意一项所述的方法,其特征在于,所述对异常信息进行趋势分析,包括:
通过非参数累积和算法对所述异常信息进行分析。
6.一种云环境下资源监控的装置,其特征在于,包括:
状态分类模块,用于对当前的资源状态进行分析,确定所述资源状态为故障时,指示告警模块进行告警;确定所述资源状态为异常时,将异常信息发送至异常分析模块;
异常分析模块,用于对异常信息进行趋势分析,若预测将要发生故障,则指示告警模块进行预警;
告警模块,用于根据状态分类模块或异常分析模块的指示进行告警或预警。
7.根据权利要求6所述的装置,其特征在于,还包括:
构建模块,用于使用训练采样数据对聚类算法进行建模,构建所述状态分类模块;
所述状态分类模块,用于基于所述建模的聚类算法,对当前的资源状态进行分析。
8.根据权利要求7所述的装置,其特征在于,
所述聚类算法为K均值的聚类算法。
9.根据权利要求6所述的装置,其特征在于,
所述状态分类模块,用于将资源状态分为正常、异常和故障三种类型,通过采集资源状态的检测数据判断当前的资源状态。
10.根据权利要求6~9中任意一项所述的装置,其特征在于,
所述异常分析模块,用于通过非参数累积和算法对所述异常信息进行分析。
CN201810614557.2A 2018-06-14 2018-06-14 一种云环境下资源监控的方法和装置 Pending CN108880881A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810614557.2A CN108880881A (zh) 2018-06-14 2018-06-14 一种云环境下资源监控的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810614557.2A CN108880881A (zh) 2018-06-14 2018-06-14 一种云环境下资源监控的方法和装置

Publications (1)

Publication Number Publication Date
CN108880881A true CN108880881A (zh) 2018-11-23

Family

ID=64338977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810614557.2A Pending CN108880881A (zh) 2018-06-14 2018-06-14 一种云环境下资源监控的方法和装置

Country Status (1)

Country Link
CN (1) CN108880881A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457194A (zh) * 2019-08-02 2019-11-15 广东小天才科技有限公司 电子设备稳定性预警方法、系统、装置、设备和存储介质
CN112769605A (zh) * 2020-12-30 2021-05-07 杭州东方通信软件技术有限公司 一种异构多云的运维管理方法及混合云平台

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104378262A (zh) * 2013-12-13 2015-02-25 国家计算机网络与信息安全管理中心 一种云计算下智能监控分析方法及系统
CN108075906A (zh) * 2016-11-08 2018-05-25 上海有云信息技术有限公司 一种用于云计算数据中心的管理方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104378262A (zh) * 2013-12-13 2015-02-25 国家计算机网络与信息安全管理中心 一种云计算下智能监控分析方法及系统
CN108075906A (zh) * 2016-11-08 2018-05-25 上海有云信息技术有限公司 一种用于云计算数据中心的管理方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457194A (zh) * 2019-08-02 2019-11-15 广东小天才科技有限公司 电子设备稳定性预警方法、系统、装置、设备和存储介质
CN112769605A (zh) * 2020-12-30 2021-05-07 杭州东方通信软件技术有限公司 一种异构多云的运维管理方法及混合云平台
CN112769605B (zh) * 2020-12-30 2022-08-09 杭州东方通信软件技术有限公司 一种异构多云的运维管理方法及混合云平台

Similar Documents

Publication Publication Date Title
EP3671466B1 (en) Unsupervised anomaly detection for arbitrary time series
US11294754B2 (en) System and method for contextual event sequence analysis
CN105474577B (zh) 用于监测系统性能和可用性的系统和方法
CN109362235B (zh) 对网络可访问存储装置处的事务进行分类的方法
US20150178634A1 (en) Method and apparatus for handling bugs
CN109164780A (zh) 一种基于边缘计算的工业现场设备控制方法、装置及系统
JP2018045403A (ja) 異常検知システム及び異常検知方法
CN111459692B (zh) 用于预测驱动器故障的方法、设备和计算机程序产品
CN113687969A (zh) 告警信息生成方法、装置、电子设备及可读存储介质
JP2009217382A (ja) 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム
CN111723646A (zh) 一种远程辅助维护设备的方法和装置
CN108880881A (zh) 一种云环境下资源监控的方法和装置
CN111045889A (zh) 封闭网络设备状态监测系统、方法、装置及可读存储介质
US20170257304A1 (en) Systems and methods for monitoring system performance and availability
CN112671767A (zh) 一种基于告警数据分析的安全事件预警方法及装置
CN113778776A (zh) 对任务异常进行预警的方法和装置以及存储介质
CN111400114A (zh) 基于深度递归网络大数据计算机系统故障检测方法及系统
CN117149569A (zh) 一种板卡运行状态预警方法、装置及电子设备
CN115766401B (zh) 工业告警信息解析方法、装置、电子设备与计算机介质
KR101969936B1 (ko) 가스센서 집중관리 시스템 및 이의 동작방법
CN107727420B (zh) 设备检测方法及相关产品
CN104980318A (zh) Idc的网络和服务器的健康度可视化监控方法及装置
CN114218295A (zh) 一种交通设备数据异常监测预警方法及系统
CN114756455A (zh) 一种业务异常定位方法、装置、电子设备及存储介质
JP2011039676A (ja) 監視装置及び警報通知方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181123