CN112486767A - 云资源的智能监控方法、系统、服务器以及存储介质 - Google Patents

云资源的智能监控方法、系统、服务器以及存储介质 Download PDF

Info

Publication number
CN112486767A
CN112486767A CN202011339845.5A CN202011339845A CN112486767A CN 112486767 A CN112486767 A CN 112486767A CN 202011339845 A CN202011339845 A CN 202011339845A CN 112486767 A CN112486767 A CN 112486767A
Authority
CN
China
Prior art keywords
model
performance index
training
classifier
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011339845.5A
Other languages
English (en)
Other versions
CN112486767B (zh
Inventor
位明扬
张�杰
姜磊
李磊
余佳杏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202011339845.5A priority Critical patent/CN112486767B/zh
Publication of CN112486767A publication Critical patent/CN112486767A/zh
Application granted granted Critical
Publication of CN112486767B publication Critical patent/CN112486767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例涉及云计算领域,公开了一种云资源的智能监控方法、系统、服务器、以及存储介质。所述方法包括:检测云资源的至少一项性能指标;对所述性能指标进行量化处理;根据量化处理后的所述性能指标,以及所述性能指标的加权值,计算云资源的当前健康度值;将量化处理后的所述性能指标,输入预先训练好的分类器模型,以获取当前业务对所述云资源敏感度的类别;将所述当前健康度值和所述当前业务类别输入预先训练好的打分器模型,以判断所述当前健康度值是否大于所述当前业务类别所对应的报警阈值;如果大于,则产生报警信息,并上报。本发明中,可以有效的提高监控数据的自动化程度。

Description

云资源的智能监控方法、系统、服务器以及存储介质
技术领域
本发明实施例涉及云计算领域,特别涉及云资源的智能监控方法、系统、服务器、以及存储介质。
背景技术
随着信息技术的发展,云计算逐渐成为业界的发展热点,国内外各大厂商的云计算服务平台也纷纷投入到电子商务、教育、科学、物联网等多个领域进行使用。然而,由于云计算缺乏统一的设计标准,不同厂家开发的虚拟化产品大相径庭,很难统一管理、监控起来。在云服务平台中,高效的资源监控不仅是必须的,而且还会对企业的整个经营活动产生巨大影响。云资源监控是提高云资源利用率的基石,对于容量和资源管理、性能管理等也具有重要的意义。目前,对云资源进行监控的方式包括:对云主机、云硬盘、云存储等云资源进行监控、另一种是对云业务进行监控。
发明人发现,相关技术中至少存在如下问题:
监控策略比较传统、简单,仅仅实现采集的数据与设置的告警阈值进行比较,这样非常简单的方式实现监控,很难达到智能的监控目的。
发明内容
本发明实施方式的目的在于提供一种云资源的智能监控方法、系统、服务器、以及存储介质,可以有效的提高监控数据的智能化程度。
为解决上述技术问题,本发明的实施方式提供了一种云资源的智能监控方法,包括:
检测云资源的至少一项性能指标;
对所述性能指标进行量化处理;根据量化处理后的所述性能指标,以及所述性能指标的加权值,计算云资源的当前健康度值;
将量化处理后的所述性能指标,输入预先训练好的分类器模型,以获取当前业务对所述云资源敏感度的类别;将所述当前健康度值和所述当前业务类别输入预先训练好的打分器模型,以判断所述当前健康度值是否大于所述当前业务类别所对应的报警阈值;
如果大于,则产生报警信息,并上报。
另外,本发明还提供一种云资源的智能监控系统,包括:
云资源检测模块,用于检测云资源的至少一项性能指标;
健康度管理模块,用于对所述性能指标进行量化处理;根据量化处理后的所述性能指标,以及所述性能指标的加权值,计算云资源的当前健康度值;
智能监控模块,用于将量化处理后的所述性能指标,输入预先训练好的分类器模型,以获取当前业务对所述云资源敏感度的类别;将所述当前健康度值和所述当前业务类别输入预先训练好的打分器模型,以判断所述当前健康度值是否大于所述当前业务类别所对应的报警阈值;
告警上报中心,用于如果所述当前健康度值大于所述当前业务类别所对应的报警阈值时,则产生报警,并上报。
另外,本发明还提供一种服务器,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的方法。
另外,本发明还提供一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现所述的方法。
上述方案中,检测云资源的至少一项性能指标;对所述性能指标进行量化处理;根据量化处理后的所述性能指标,以及所述性能指标的加权值,计算云资源的当前健康度值;将量化处理后的所述性能指标,输入预先训练好的分类器模型,以获取当前业务对所述云资源敏感度的类别;将所述当前健康度值和所述当前业务类别输入预先训练好的打分器模型,以判断所述当前健康度值是否大于所述当前业务类别所对应的报警阈值;如果大于,则产生报警信息,并上报。考虑了整个云计算环境下各项资源的健康度,并对使用云资源的业务运行状态进行动态评估、预测,及时上报告警信息,从而可以提高可以有效的提高监控数据的智能化程度。
所述打分器模型根据以下方式进行训练:将制作的分类器数据集和打分器数据集分别分为训练集和验证集;并使用分类器训练集对分类器模型进行训练;
使用分类器验证集对训练后的分类器模型进行验证;如果分类器模型的预选结果正确率大于设置的训练阈值,则分类器模型训练完成,否则继续训练;最终得到训练完成的分类器模型。上述方案中,基于深度学习算法的智能云资源告警策略,提高了智能监控的准确性。
所述对所述性能指标进行量化处理;根据量化处理后的所述性能指标,以及所述性能指标的加权值,计算云资源的当前健康度值的步骤具体为:
Figure BDA0002798299420000031
其中,Ucpu表示CPU利用率;Umem表示内存利用率;Udisk表示磁盘I/O利用率;α表示CPU利用率的重要程度,β表示内存利用率的重要程度,λ表示磁盘I/O利用率的重要程度;R表示当前健康度值。上述方案中,根据对业务的影响程度,将云资源各项指标进行加权,构建云资源健康度模型,可以基于业务需求灵活配置监控策略。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1为本发明实施例所述的云资源的智能监控方法的流程示意图;
图2为本发明实施例所述的云资源的智能监控系统的结构示意图;
图3本发明应用场景所述的云资源智能监控的整体结构示意图。
图4为本发明应用场景所述的云资源的智能监控方法的流程示意图;
图5为本发明所述的服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
如图1所示,为本发明实施例所述的一种云资源的智能监控方法,包括:
步骤11,检测云资源的至少一项性能指标;
步骤12,对所述性能指标进行量化处理;根据量化处理后的所述性能指标,以及所述性能指标的加权值,计算云资源的当前健康度值;
步骤13,将量化处理后的所述性能指标,输入预先训练好的分类器模型,以获取当前业务对所述云资源敏感度的类别;将所述当前健康度值和所述当前业务类别输入预先训练好的打分器模型,以判断所述当前健康度值是否大于所述当前业务类别所对应的报警阈值;
步骤14,如果大于,则产生报警信息,并上报。如果小于,则不进行报警处理。
上述方案中,考虑了整个云计算环境下各项资源的健康度,并对使用云资源的业务运行状态进行动态评估、预测,及时上报告警信息,从而可以提高可以有效的提高监控数据的智能化程度。另外,本发明能够自动预警,并将对应的告警信息发送给相应的运维人员,可以提高运维人员的工作效率,降低业务出问题的频率。
期中,所述对所述性能指标进行量化处理;根据量化处理后的所述性能指标,以及所述性能指标的加权值,计算云资源的当前健康度值的步骤具体为:
Figure BDA0002798299420000051
其中,Ucpu表示CPU利用率;Umem表示内存利用率;Udisk表示磁盘I/O利用率;α表示CPU利用率的重要程度,β表示内存利用率的重要程度,λ表示磁盘I/O利用率的重要程度;R表示当前健康度值。上述方案中,根据对业务的影响程度,将云资源各项指标进行加权,构建云资源健康度模型,可以基于业务需求灵活配置监控策略。
另外,所述的云资源的智能监控方法,还包括:
步骤15,记录产生报警信息时的至少一项性能指标,以作为所述分类器模型和所述分类器模型的数据集,供其进行训练学习。该步骤中,基于深度学习进行云资源智能监控,通过学习以往的监控数据集,可以有效的提高监控数据的准确性。
所述打分器模型根据以下方式进行训练:
将制作的分类器数据集和打分器数据集分别分为训练集和验证集;并使用分类器训练集对分类器模型进行训练;
使用分类器验证集对训练后的分类器模型进行验证;
如果分类器模型的预选结果正确率大于设置的训练阈值,则分类器模型训练完成,否则继续训练;
最终得到训练完成的分类器模型。
所述打分器模型训练的具体方式为:
以朴素贝叶斯模型作为分类器模型进行描述,分类模型样本是:
Figure BDA0002798299420000061
即有m个样本,每个样本有n个特征,特征输出有k个类别标签,定义为C1,C2,...,CK
朴素贝叶斯的先验分布P(Y=Ck)(k=1,2,...,K),条件概率分布P(X1=x1,X2=x2,...,Xn=xn|Y=Ck),用贝叶斯公式得到P(X,Y):P(X,Y=Ck)=P(Y=Ck)P(X1=x1,X2=x2,...Xn=xn)
Figure BDA0002798299420000062
即标签Ck在训练集中出现的频数;P(X1=x1,X2=x2,...,Xn=xn|Y=Ck)=P(X1=x1|Y=Ck)P(X2=x2|Y=Ck)...P(Xn=xn|Y=Ck);
给定测试集一个新样本特征
Figure BDA0002798299420000063
贝叶斯模型的目标是后验概率最大化来判断分类;计算出所有的K个条件概率P(Y=Ck|X=X(test));然后找出最大的条件概率对应的类别;预测的类别Cresult是使;P(Y=Ck|X=X(test))最大的类别:
Cresult=argmaxP(Y=Ck|X=X(test))
........=argmaxP(X=X(test)|Y=Ck)P(Y=Ck)/P(X=X(test))
朴素贝叶斯推断公式为:
Figure BDA0002798299420000064
其中,云主机CPU利用率、内存利用率、磁盘利用率为该模型中的特征x,CK表示预测的输出类别标签。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
另外,如图2所述,本发明还提供一种云资源的智能监控系统,包括:
云资源检测模块,用于检测云资源的至少一项性能指标;
健康度管理模块,用于对所述性能指标进行量化处理;根据量化处理后的所述性能指标,以及所述性能指标的加权值,计算云资源的当前健康度值;
智能监控模块,用于将量化处理后的所述性能指标,输入预先训练好的分类器模型,以获取当前业务对所述云资源敏感度的类别;将所述当前健康度值和所述当前业务类别输入预先训练好的打分器模型,以判断所述当前健康度值是否大于所述当前业务类别所对应的报警阈值;
告警上报中心,用于如果所述当前健康度值大于所述当前业务类别所对应的报警阈值时,则产生报警,并上报。
可选的所述的系统,还包括:
告警存储模块,记录产生报警信息时的至少一项性能指标,以作为所述分类器模型和所述分类器模型的数据集,供其进行训练学习。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
以下描述本发明的应用场景。
图3显示了云资源智能监控的整体结构,主要包括:数据采集模块、数据清洗模块、智能监控模块、健康度管理模块、告警存储模块、告警上报中心模块,图中各功能模块具体说明如下:
数据采集模块:负责采样云资源利用率信息和历史告警信息,云资源利用率信息包括:CPU利用率、内存利用率和磁盘I/O利用率;历史告警信息为触发告警的云资源健康度信息;
数据清洗模块:负责对采样数据进行清洗并规范化处理。
其中,云资源监测模块包括了上述的数据采集模块和数据清洗模块。
健康度管理模块:对云资源的CPU利用率、内存利用率和磁盘I/O利用率等各项性能指标建模进行量化处理,并结合预先设置的各项指标对不同业务的重要程度进行加权处理,最终计算出各项指标的综合健康度值。
该云资源健康度模型计算云资源综合健康度(R)的数学表达式如下:
Figure BDA0002798299420000081
其中,Ucpu表示CPU利用率、Umem表示内存利用率、Udisk表示磁盘I/O利用率;α表示CPU利用率的重要程度,β表示内存利用率的重要程度,λ表示磁盘I/O利用率的重要程度。
智能监控模块:由基于神经网络模型构建的分类器模型和打分器模型组成;将制作的分类器数据集和打分器数据集分别分为训练集和验证集,并使用分类器训练集对分类器模型进行训练;然后,使用分类器验证集对训练后的分类器模型进行验证;如果分类器模型的预选结果正确率大于设置的阈值,则分类器模型训练完成,否则继续训练;打分器模型也使用打分器训练集和验证集执行相同的训练方法,最终得到训练完成的分类器模型和打分器模型;
本发明以朴素贝叶斯模型作为分类器模型进行描述,分类模型样本是:
Figure BDA0002798299420000082
即有m个样本,每个样本有n个特征,特征输出有k个类别标签,定义为C1,C2,...,CK。从样本可以学习得到朴素贝叶斯的先验分布P(Y=Ck)(k=1,2,...,K),条件概率分布P(X1=x1,X2=x2,...,Xn=xn|Y=Ck),然后我们就可以用贝叶斯公式得到P(X,Y):P(X,Y=Ck)=P(Y=Ck)P(X1=x1,X2=x2,...Xn=xn)
分析上面的式子,
Figure BDA0002798299420000091
即标签Ck在训练集中出现的频数。但是P(X1=x1,X2=x2,...,Xn=xn|Y=Ck)是一个复杂的n个维度的条件分布,很难计算。所以为了简化计算,朴素贝叶斯模型中假设n个特征之间相互独立,于是有:P(X1=x1,X2=x2,...,Xn=xn|Y=Ck)=P(X1=x1|Y=Ck)P(X2=x2|Y=Ck)...P(Xn=xn|Y=Ck);最后回到要解决的问题,的问题是给定测试集一个新样本特征
Figure BDA0002798299420000092
贝叶斯模型的目标是后验概率最大化来判断分类。只要计算出所有的K个条件概率P(Y=Ck|X=X(test)),然后找出最大的条件概率对应的类别。预测的类别Cresult是使P(Y=Ck|X=X(test))最大的类别:
Figure BDA0002798299420000094
分析上述公式可知分母P(X=X(test))是固定值,因此预测公式可以简化为:
Cresult=argmaxP(X=X(test)|Y=Ck)P(Y=Ck)
接着利用朴素贝叶斯的独立性假设,就可以得到通常意义上的朴素贝叶斯推断公式:
Figure BDA0002798299420000093
其中,可以将云主机CPU利用率、内存利用率、磁盘利用率等维度作为该模型中的特征x,CK表示预测的输出类别标签(这里可以看作对云资源划分的类别);
将经过朴素贝叶斯分类后的云资源监测数据,输入云资源综合健康度模型计算出对应的健康度R,然后将该数据集输入到训练完成的打分器模型,预选出云资源综合健康度低于预先设置的告警阈值的监测数据,存储到告警存储模块中,并上报到告警上报中心;
告警存储模块:负责记录产生的历史告警信息,并作为智能监控模块的数据集,供其进行训练学习,提高模型精确性和预警能力;
告警上报中心模块:将产生的告警信息报送给管理员或者运维人员,这样能够及时发现、处理告警信息,减少对业务造成的影响。
本发明所述的云资源智能监控流程如图4所示,下面将进行详细说明:
首先,云资源检测模块检测云资源的CPU利用率、内存利用率和磁盘I/O利用率等各项性能指标,并传送给云资源的健康度管理模块;云资源检测模块可以包括:数据采集模块和数据清洗模块。
然后,健康度管理模块根据预先设置的各项指标的重要程度进行加权构建的健康度模型,计算出云资源当前的综合健康度值,并传给智能监控模块;
然后,智能监控模块对接收到的当前云资源健康度值进行评估,如果低于预先设置的告警阈值,则将告警信息存储到告警记录中,并上报到告警上报中心;否则,将之前的告警信息移至历史告警记录中;
然后,告警存储模块记录产生的历史告警信息,并作为智能告警模块的数据集,供其进行训练学习,提高模型精确性和预警能力;
然后,告警上报中心将产生的告警信息报送给管理员或者运维人员,这样能够及时处理告警信息。
本发明具有以下有益效果:
1)本发明基于云资源重要程度设计健康度模型,将云资源CPU利用率、内存利用率和磁盘I/O利用率等各项性能指标与用户关注度或影响业务正常运行的重要程度进行加权,而设计了云资源健康度模型,解决了传统监控指标单一、各项云资源性能指标间关联性差的问题,
2)本发明基于深度学习算法的智能云资源告警策略,解决了传统云资源监控准确度、灵活性差、维护成本高的问题,能够预测云资源健康状态并快速及时的上报给运维和管理人员,使得运维人员可以快速的通过相关告警通知实现告警处理。
3)本发明根据对业务的影响程度,将云资源各项指标进行加权,构建云资源健康度模型,可以基于业务需求灵活配置监控策略。
4)本发明结合深度学习这种新型算法,能够充分考虑整个云计算环境下各项资源的健康度,并对使用云资源的业务运行状态进行动态评估、预测,及时上报告警信息,同时也为云资源优化、调度提供一种有效的策略。可以减少维护成本,大大提高了开发运维人员的工作效率。
另外,如图5所示,本发明实施例还提供一种服务器,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本发明还涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (10)

1.一种云资源的智能监控方法,其特征在于,包括:
检测云资源的至少一项性能指标;
对所述性能指标进行量化处理;根据量化处理后的所述性能指标,以及所述性能指标的加权值,计算云资源的当前健康度值;
将量化处理后的所述性能指标,输入预先训练好的分类器模型,以获取当前业务对所述云资源敏感度的类别;将所述当前健康度值和所述当前业务类别输入预先训练好的打分器模型,以判断所述当前健康度值是否大于所述当前业务类别所对应的报警阈值;
如果大于,则产生报警信息,并上报。
2.根据权利要求1所述的方法,其特征在于,还包括:
记录产生报警信息时的至少一项性能指标,以作为所述分类器模型和所述分类器模型的数据集,供其进行训练学习。
3.根据权利要求1所述的方法,其特征在于,所述对所述性能指标进行量化处理;根据量化处理后的所述性能指标,以及所述性能指标的加权值,计算云资源的当前健康度值的步骤具体为:
Figure FDA0002798299410000011
其中,Ucpu表示CPU利用率;Umem表示内存利用率;Udisk表示磁盘I/O利用率;α表示CPU利用率的重要程度,β表示内存利用率的重要程度,λ表示磁盘I/O利用率的重要程度;R表示当前健康度值。
4.根据权利要求1所述的方法,其特征在于,所述打分器模型根据以下方式进行训练:
将制作的分类器数据集和打分器数据集分别分为训练集和验证集;并使用分类器训练集对分类器模型进行训练;
使用分类器验证集对训练后的分类器模型进行验证;
如果分类器模型的预选结果正确率大于设置的训练阈值,则分类器模型训练完成,否则继续训练;
最终得到训练完成的分类器模型。
5.根据权利要求4所述的方法,其特征在于,所述打分器模型训练的具体方式为:
以朴素贝叶斯模型作为分类器模型进行描述,分类模型样本是:
Figure FDA0002798299410000021
即有m个样本,每个样本有n个特征,特征输出有k个类别标签,定义为C1,C2,...,CK
朴素贝叶斯的先验分布P(Y=Ck)(k=1,2,...,K),条件概率分布P(X1=x1,X2=x2,...,Xn=xn|Y=Ck),用贝叶斯公式得到P(X,Y):P(X,Y=Ck)=P(Y=Ck)P(X1=x1,X2=x2,...Xn=xn)
Figure FDA0002798299410000022
即标签Ck在训练集中出现的频数;P(X1=x1,X2=x2,...,Xn=xn|Y=Ck)=P(X1=x1|Y=Ck)P(X2=x2|Y=Ck)...P(Xn=xn|Y=Ck);
给定测试集一个新样本特征
Figure FDA0002798299410000023
贝叶斯模型的目标是后验概率最大化来判断分类;计算出所有的K个条件概率P(Y=Ck|X=X(test));然后找出最大的条件概率对应的类别;预测的类别Cresult是使;P(Y=Ck|X=X(test))最大的类别:Cresult=argmaxP(Y=Ck|X=X(test))........=argmaxP(X=X(test)|Y=Ck)P(Y=Ck)/P(X=X(test))
朴素贝叶斯推断公式为:
Figure FDA0002798299410000024
其中,云主机CPU利用率、内存利用率、磁盘利用率为该模型中的特征x,CK表示预测的输出类别标签。
6.一种云资源的智能监控系统,其特征在于,包括:
云资源检测模块,用于检测云资源的至少一项性能指标;
健康度管理模块,用于对所述性能指标进行量化处理;根据量化处理后的所述性能指标,以及所述性能指标的加权值,计算云资源的当前健康度值;
智能监控模块,用于将量化处理后的所述性能指标,输入预先训练好的分类器模型,以获取当前业务对所述云资源敏感度的类别;将所述当前健康度值和所述当前业务类别输入预先训练好的打分器模型,以判断所述当前健康度值是否大于所述当前业务类别所对应的报警阈值;
告警上报中心,用于如果所述当前健康度值大于所述当前业务类别所对应的报警阈值时,则产生报警,并上报。
7.根据权利要求6所述的系统,其特征在于,所述打分器模型根据以下方式进行训练:
将制作的分类器数据集和打分器数据集分别分为训练集和验证集;并使用分类器训练集对分类器模型进行训练;
使用分类器验证集对训练后的分类器模型进行验证;
如果分类器模型的预选结果正确率大于设置的训练阈值,则分类器模型训练完成,否则继续训练;
最终得到训练完成的分类器模型。
8.根据权利要求7所述的系统,其特征在于,所述打分器模型训练具体为:
以朴素贝叶斯模型作为分类器模型进行描述,分类模型样本是:
Figure FDA0002798299410000031
即有m个样本,每个样本有n个特征,特征输出有k个类别标签,定义为C1,C2,...,CK
朴素贝叶斯的先验分布P(Y=Ck)(k=1,2,...,K),条件概率分布P(X1=x1,X2=x2,...,Xn=xn|Y=Ck),用贝叶斯公式得到P(X,Y):P(X,Y=Ck)=P(Y=Ck)P(X1=x1,X2=x2,...Xn=xn)
Figure FDA0002798299410000032
即标签Ck在训练集中出现的频数;P(X1=x1,X2=x2,...,Xn=xn|Y=Ck)=P(X1=x1|Y=Ck)P(X2=x2|Y=Ck)...P(Xn=xn|Y=Ck);
给定测试集一个新样本特征
Figure FDA0002798299410000041
贝叶斯模型的目标是后验概率最大化来判断分类;计算出所有的K个条件概率P(Y=Ck|X=X(test));然后找出最大的条件概率对应的类别;预测的类别Cresult是使;P(Y=Ck|X=X(test))最大的类别:Cresult=argmaxP(Y=Ck|X=X(test))........=argmaxP(X=X(test)|Y=Ck)P(Y=Ck)/P(X=X(test))
朴素贝叶斯推断公式为:
Figure FDA0002798299410000042
其中,云主机CPU利用率、内存利用率、磁盘利用率为该模型中的特征x,CK表示预测的输出类别标签。
9.一种服务器,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至4中任一所述的方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法。
CN202011339845.5A 2020-11-25 2020-11-25 云资源的智能监控方法、系统、服务器以及存储介质 Active CN112486767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011339845.5A CN112486767B (zh) 2020-11-25 2020-11-25 云资源的智能监控方法、系统、服务器以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011339845.5A CN112486767B (zh) 2020-11-25 2020-11-25 云资源的智能监控方法、系统、服务器以及存储介质

Publications (2)

Publication Number Publication Date
CN112486767A true CN112486767A (zh) 2021-03-12
CN112486767B CN112486767B (zh) 2022-10-18

Family

ID=74934294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011339845.5A Active CN112486767B (zh) 2020-11-25 2020-11-25 云资源的智能监控方法、系统、服务器以及存储介质

Country Status (1)

Country Link
CN (1) CN112486767B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435130A (zh) * 2021-08-27 2021-09-24 中兴通讯股份有限公司 一种设备控制方法及装置、电子设备及存储介质
WO2023138013A1 (zh) * 2022-01-19 2023-07-27 浪潮通信信息系统有限公司 一种多云场景算力网格化方法及系统
CN117724928A (zh) * 2023-12-15 2024-03-19 谷技数据(武汉)股份公司 一种基于大数据的智能运维可视化监控方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011131019A1 (zh) * 2010-04-23 2011-10-27 Pan Yanhui 一种基于云计算的操作记录追踪系统和方法
CN103164279A (zh) * 2011-12-13 2013-06-19 中国电信股份有限公司 云计算资源分配方法和系统
CN103279392A (zh) * 2013-06-14 2013-09-04 浙江大学 一种云计算环境下虚拟机上运行的负载分类方法
US20130268984A1 (en) * 2012-04-10 2013-10-10 Comcast Cable Communications, Llc Data network traffic management
CN103428282A (zh) * 2013-08-06 2013-12-04 浪潮(北京)电子信息产业有限公司 一种云计算数据中心的在线节能控制方法及装置
CN104102875A (zh) * 2014-07-22 2014-10-15 河海大学 基于加权朴素贝叶斯分类器的软件服务质量监控方法及系统
CN105204971A (zh) * 2015-08-28 2015-12-30 浙江大学 一种基于朴素贝叶斯分类技术的动态监控间隔调整方法
US20160011926A1 (en) * 2014-07-08 2016-01-14 International Business Machines Corporation Method for processing data quality exceptions in a data processing system
CN106992904A (zh) * 2017-05-19 2017-07-28 湖南省起航嘉泰网络科技有限公司 基于动态综合权重的网络设备健康度评估方法
CN108075906A (zh) * 2016-11-08 2018-05-25 上海有云信息技术有限公司 一种用于云计算数据中心的管理方法及系统
CN110275814A (zh) * 2019-06-28 2019-09-24 深圳前海微众银行股份有限公司 一种业务系统的监控方法及装置
AU2019280105B1 (en) * 2018-09-21 2020-01-30 Citrix Systems, Inc. Systems and methods for intercepting and enhancing SaaS application calls via embedded browser

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011131019A1 (zh) * 2010-04-23 2011-10-27 Pan Yanhui 一种基于云计算的操作记录追踪系统和方法
CN103164279A (zh) * 2011-12-13 2013-06-19 中国电信股份有限公司 云计算资源分配方法和系统
US20130268984A1 (en) * 2012-04-10 2013-10-10 Comcast Cable Communications, Llc Data network traffic management
CN103279392A (zh) * 2013-06-14 2013-09-04 浙江大学 一种云计算环境下虚拟机上运行的负载分类方法
CN103428282A (zh) * 2013-08-06 2013-12-04 浪潮(北京)电子信息产业有限公司 一种云计算数据中心的在线节能控制方法及装置
US20160011926A1 (en) * 2014-07-08 2016-01-14 International Business Machines Corporation Method for processing data quality exceptions in a data processing system
CN104102875A (zh) * 2014-07-22 2014-10-15 河海大学 基于加权朴素贝叶斯分类器的软件服务质量监控方法及系统
CN105204971A (zh) * 2015-08-28 2015-12-30 浙江大学 一种基于朴素贝叶斯分类技术的动态监控间隔调整方法
CN108075906A (zh) * 2016-11-08 2018-05-25 上海有云信息技术有限公司 一种用于云计算数据中心的管理方法及系统
CN106992904A (zh) * 2017-05-19 2017-07-28 湖南省起航嘉泰网络科技有限公司 基于动态综合权重的网络设备健康度评估方法
AU2019280105B1 (en) * 2018-09-21 2020-01-30 Citrix Systems, Inc. Systems and methods for intercepting and enhancing SaaS application calls via embedded browser
CN110275814A (zh) * 2019-06-28 2019-09-24 深圳前海微众银行股份有限公司 一种业务系统的监控方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435130A (zh) * 2021-08-27 2021-09-24 中兴通讯股份有限公司 一种设备控制方法及装置、电子设备及存储介质
CN113435130B (zh) * 2021-08-27 2021-11-19 中兴通讯股份有限公司 一种设备控制方法及装置、电子设备及存储介质
WO2023138013A1 (zh) * 2022-01-19 2023-07-27 浪潮通信信息系统有限公司 一种多云场景算力网格化方法及系统
CN117724928A (zh) * 2023-12-15 2024-03-19 谷技数据(武汉)股份公司 一种基于大数据的智能运维可视化监控方法及系统

Also Published As

Publication number Publication date
CN112486767B (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN112486767B (zh) 云资源的智能监控方法、系统、服务器以及存储介质
CN108052528B (zh) 一种存储设备时序分类预警方法
Lin et al. Probabilistic linguistic distance measures and their applications in multi-criteria group decision making
KR102522005B1 (ko) 가상 네트워크 관리를 위한 머신 러닝 기반 vnf 이상 탐지 시스템 및 방법
CN110389820B (zh) 一种基于v-TGRU模型进行资源预测的私有云任务调度方法
WO2021068513A1 (zh) 异常对象识别方法、装置、介质及电子设备
CN109788489A (zh) 一种基站规划方法及装置
CN116244159B (zh) 一种训练时长预测方法、装置、多元异构计算设备及介质
WO2021103823A1 (zh) 模型更新系统、模型更新方法及相关设备
CN112052145A (zh) 性能告警阈值的确定方法、装置、电子设备和介质
CN112363896A (zh) 日志异常检测系统
CN113537337A (zh) 训练方法、异常检测方法、装置、设备和存储介质
CN114327964A (zh) 业务系统的故障原因处理方法、装置、设备及存储介质
US20240193035A1 (en) Point Anomaly Detection
CN114138977A (zh) 日志处理方法、装置、计算机设备和存储介质
CN111984514A (zh) 基于Prophet-bLSTM-DTW的日志异常检测方法
CN116108276A (zh) 基于人工智能的信息推荐方法、装置及相关设备
CN115730152A (zh) 基于用户画像分析的大数据处理方法及大数据处理系统
CN108241533A (zh) 一种基于预测和分层抽样的资源池未来负载生成方法
Chefira et al. Accuracy assessment of applied supervised machine learning models on usual data probability distributions
CN116450485B (zh) 一种应用性能干扰的检测方法和系统
CN113139381B (zh) 不均衡样本分类方法、装置、电子设备及存储介质
CN114792568B (zh) 住院风险预测方法及装置、存储介质及电子设备
Hairuman et al. Evaluation of machine learning techniques for anomaly detection on hourly basis kpi
US20240121017A1 (en) Method and network device for determining causes of network slice performance degradation in an open radio access network, o-ran

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant