CN105677538A - 一种基于故障预测的云计算系统自适应监测方法 - Google Patents

一种基于故障预测的云计算系统自适应监测方法 Download PDF

Info

Publication number
CN105677538A
CN105677538A CN201610015230.4A CN201610015230A CN105677538A CN 105677538 A CN105677538 A CN 105677538A CN 201610015230 A CN201610015230 A CN 201610015230A CN 105677538 A CN105677538 A CN 105677538A
Authority
CN
China
Prior art keywords
monitoring
monitoring data
anomaly
data
intensity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610015230.4A
Other languages
English (en)
Other versions
CN105677538B (zh
Inventor
王焘
张文博
魏峻
钟华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN201610015230.4A priority Critical patent/CN105677538B/zh
Publication of CN105677538A publication Critical patent/CN105677538A/zh
Application granted granted Critical
Publication of CN105677538B publication Critical patent/CN105677538B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems

Abstract

发明涉及一种基于故障预测的云计算系统自适应监测方法。采用主成分分析技术计算监测数据的特征向量以刻画系统运行状态,通过计算当前与历史监测数据的特征向量的偏差来评估系统异常程度。当被监测系统异常程度较高时,缩短监测周期以密切跟踪被监测系统运行状态,从而提高错误预测与检测的准确性和及时性。反之,当被监测系统异常程度较低时,延长监测周期,从而降低监测开销。

Description

一种基于故障预测的云计算系统自适应监测方法
技术领域
本发明涉及云计算系统的监测方法,尤其涉及一种基于云计算系统异常程度评估的监测周期动态调整方法,属于软件技术领域。
背景技术
云计算系统规模巨大、结构复杂,监测系统需要从众多节点上收集多个层次(如,网络层、硬件层、虚拟机层、操作系统层、中间件层、应用软件层)各种资源的监测数据,以持续跟踪云计算系统的运行状态。然而,收集与处理大量监测数据将会带来巨大资源开销,从而影响系统性能。因此,商业监测系统只支持固定的监测周期(如,每分钟进行一次数据收集),例如亚马逊的CloudWatch(https://aws.amazon.com/cloudwatch/)、IBM的Tivoli、开源监测系统Zabbix(http://www.zabbix.com/)、Ganglia(http://ganglia.sourceforge.net/)。另外,从用户角度考虑,云监测服务的用户需要支付的费用与监测的频率成正比,而监测花费占到了总运行成本的18%。这样就造成了,一方面,管理员和用户希望降低监测频率(即,单位时间内的监测次数)以减少开销和降低成本。另一方面,错误可能在连续监测的时间间隔内发生,低监测频率减少了定位问题的可用监测数据量,从而降低了检出问题的可能性和及时性。
云计算系统故障预测方法通常可以分为基于规则和异常检测等两类。基于规则的方法根据历史错误所表现的现象来定义错误出现时可辨别的特征,而后将观察到的现象与已定义的错误特征进行匹配。当匹配成功则检测为错误,发出警报;否则认为系统运行正常(ChenH,JiangG,YoshihiraK,SaxenaA.Invariantsbasedfailurediagnosisindistributedcomputingsystems//Proceedingsofthe29thIEEESymposiumonReliableDistributedSystems.India,2010:160-166)。基于规则的方法由于事先已知错误及其表现,具有较高的准确性和及时性。然而,当错误此前未曾出现,或者错误表现难以刻画为规则,基于规则的方法就不能够识别,因此该方法虽然查准率高,但查全率却较低。同时云环境下应用类型多样、系统层次众多,大量度量需要监测分析,系统管理员难以根据经验人工制定规则。
另一方面,基于异常检测的方法为目标系统建立模型作为基准,将系统行为与基准进行对比。根据对系统内部结构的了解程度,以及监测分析对象的不同,基于异常检测的方法可以分为度量、行为、日志分析等方法。
基于度量分析的方法,不需要了解系统内部结构,通过调用操作系统提供的接口收集监测数据,适用范围广(WangT,ZhangW,Wei.J,ZhongH.Workload-awareonlineanomalydetectioninenterpriseapplicationswithlocaloutlierfactor//ProceedingsoftheIEEE36thAnnualComputerSoftwareandApplicationsConference.Izmir,Turkey,2012:25-34.)。其优势在于,无需事先知道错误类型并描述其特征。然而由于网络环境的动态性与复杂性,建立具有鲁棒性和普适性的基准相当困难,基于异常检测的方法通常具有较高的误报率。同时难以在代码层细粒度检测问题。基于行为分析的方法,通过代码注入等方式收集各组件行为,能够将错误定位到组件或代码片段(SambasivanR,ZhengAX,RosaMD,KrevatE,WhitmanS,StrouckenM.Diagnosingperformancechangesbycomparingrequestflows//Proceedingsofthe8thUSENIXconferenceonNetworkedsystemsdesignandimplementation.Boston,MA,2011:4-17.)。但需要了解应用的内部结构,且细粒度监测开销较高。同时由于不同的应用的处理逻辑不同,需要注入不同的监测点,适应性较差。基于日志分析的方法,通过分析日志信息可以了解一部分系统执行路径(FuQ,LouJG,WangY,LiJ.Executionanomalydetectionindistributedsystemsthroughunstructuredloganalysis//Proceedingsofthe9thIEEEInternationalConferenceonDataMining.Miami,FL,2009:149-158.)。错误预测与检测的准确性取决于日志记录的数量和位置。同时由于需要收集大量的日志文件,从中抽取固定的模式,难以满足在线错误检测的需求。
发明内容
本发明的目的是在保障错误检测及时性和准确性的前提下,如何通过动态调整监测周期以降低系统的监测开销。监测周期是影响系统监测开销与检测准确性的关键,因此本发明根据系统出现错误的可能性适应性动态调整监测周期。
本发明技术解决方案:一种基于故障预测的云计算系统自适应监测方法,其特点在于实现步骤如下:
第一步,监测数据收集;建立滑动窗口的长度为n,收集多度量监测数据为X=(x1,x2,…,xm),其中,每次收集的监测数据包括m个度量(运维人员可以根据需要设定m值,m为正整数),xi为第i个度量的值,将监测数据按时间先后顺序存入滑动窗口,将滑动窗口中的监测数据组成n行m列矩阵Anm
第二步,异常程度评估,具体包括以下步骤:
(1)将Anm的每一列的数值进行标准化处理,使第j列的数值的集合的均值μj=0,方差σj=1,第i行第j列的数据标准化为zij=(xijj)/σj。求出协方差矩阵:其中, σ i j 2 = Σ k = 1 n z k i z k j / n ; 计算协方差矩阵∑A的特征向量u;
(2)新的监测数据xt到来时,为了放大离群点对主方向改变的影响,将样本复制nr次,其中r∈[0,1]是当前样本的复制次数与当前样本大小的比例,得到更新矩阵: A ~ = A ∪ { x t , x t , ... , x t } ; 更新矩阵均值和协方差矩阵: μ ~ = μ + rx t 1 + r , Σ A ~ = Q 1 + r + r 1 + r x t x t T - μ ~ μ ~ T , 计算当前监测数据的特征向量:
(3)使用余弦相似度来计算由步骤(2)得到的原特征向量与由步骤(3)得到的当前特征向量的偏差,以描述当前收集到的监测数据的异常程度:
第三步,监测周期调整。根据由第二步得到的异常程度,调整监测周期为: T = T β , 0 ≤ s t ≤ β T α + 1 n ( 1 - s t ) / λ , β ≤ s t ≤ α T α , α ≤ s t ≤ 1 , 其中,Tα、Tβ为运维人员根据经验设定的被监测系统的最大、最小监测周期,α、β为运维人员根据经验设定的被监测系统的最小、最大错误概率,λ为运维人员根据经验设定的被监测系统的出现故障的频率。
本发明的原理:采用主成分分析技术计算监测数据的特征向量以刻画系统运行状态,通过计算当前与历史监测数据的特征向量的偏差来评估系统异常程度。当被监测系统异常程度较高时,缩短监测周期以密切跟踪被监测系统运行状态,从而提高错误预测与检测的准确性和及时性。反之,当被监测系统异常程度较低时,延长监测周期,从而降低监测开销。由于在整个系统运行过程中,错误出现的概率相对较少,动态调整监测周期可以减少大量监测开销。
(1)基于PCA的异常评估
主成分分析(PrincipalComponentAnalysis,PCA),是将m个相关变量通过线性变换形成一组较少个数k(k<m)的无关成分的多元统计分析方法,这k个成分能够表达m个变量所要表达的信息,因而常用来进行高维数据降维。利用PCA可以将多个监测度量抽象为少数几个主成分形成特征向量,将其作为数据分布的方向。如果新监测数据为异常点,则加入该点后特征向量会变化,数据分布方向也会发生偏离,可以根据数据分布方向的偏离程度来衡量当前监测数据的异常程度。
所提出方法的具体步骤:
建立滑动窗口其长度为n,收集到多度量监测数据X=(x1,x2,…,xm),其中,xi为第i个度量,度量数量为m。将监测数据按时间先后顺序存入滑动窗口,将滑动窗口中的监测数据组成n行m列矩阵Anm
1)将Anm的每一列的监测度量值进行标准化处理,使其均值为0,方差为1,zi=(xii)/σi,其中,μi为第i列数据集合的均值,σi为第i列数据集合的标准差。
2)求出协方差矩阵其中,xi和xj的协方差表现两个变量的相关性。
3)计算∑A的特征向量,作为数据分布的主方向u。
4)新的监测数据xt到来时,为了放大离群点对主方向改变的影响,将样本复制nr次,其中r∈[0,1]是当前样本的复制次数与当前样本大小的比例,得到更新矩阵: A ~ = A &cup; { x t , x t , ... , x t } .
5)更新矩阵平均值和协方差矩阵: &mu; ~ = &mu; + rx t 1 + r , &Sigma; A ~ = Q 1 + r + r 1 + r x t x t T - &mu; ~ &mu; ~ T , Q = AA T n . 更新特征向量主方向:只需要记录上一次的平均值,时间和空间复杂度都变成了O(p),其中p是样本的维数。
6)使用余弦相似度来度量主方向的改变,以描述新收集监测数据的异常程度: s t = 1 - | < u t , u > | | u t | | | | u | | | .
(2)基于异常程度的监测周期动态调整
系统运行环境处于不断变化过程中,错误代码触发,或者多线程竞争资源等原因,会导致系统出现随机错误,此类错误只与运行环境相关而与运行时间没有关系,那么系统出现这类错误符合泊松(Poisson)过程。因此,采用指数分布来建模预测出现错误的时间点。
随机变量N为在x秒内出现错误的数量,如果系统出现错误的频率为每秒λ次,N符合均值为λx的泊松分布:P(X>x)=P(N=0)=e-λx,x≥0。
X的累积分布函数为:F(x)=P(X≤x)=1-e-λx,x≥0。X是以λ为参数的指数随机变量,表示Poisson过程中的连续出现错误的时间间隔,λ为Poisson过程中单位时间内平均出现错误的次数。由于在泊松过程中,一定时间间隔内出现一定数量错误的概率只与间隔时间长短有关,X的开始时间点的选取与预测错误发生的时间点无关。
设系统出现错误的概率为F(t)=w,那么可以由此计算出下一次出现错误的时间间隔:t=-ln(1-w)/λ,x≥0。当前系统的异常程度即为错误概率wA,由模型可以得到对应需要经历的时间为tA。设定最小的监测周期Tβ,此时系统错误概率为β;最大的监测周期Tα,此时系统错误概率为α。当前错误概率为wA对应需要经历的时间为tA,那么由当前状态到达错误概率为α所需要的时间间隔为(Tα-tA),因此将当前的监测周期调整为:
T = T &beta; , 0 &le; w A &le; &beta; T &alpha; + l n ( 1 - w A ) / &lambda; , &beta; < w A < &alpha; T &alpha; , &alpha; &le; w A &le; 1 ,
对函数进行分析可以得到,监测周期在设定的最大监测周期和最小监测周期之间,随着系统异常程度增加而缩短,并且随着异常程度的加剧监测周期缩短的幅度增加,即异常越严重监测周期缩短的越快,这是期望得到的结果。
下边对于相关参数的设定进行讨论:
1)模型参数λ,为指数分布的数学期望:根据系统出现错误频率的历史数据进行估计。
2)最小监测周期Tβ,需要考虑系统允许的监测所带来的最大开销,同时可以基于经验值或由系统当前负载所决定,例如,负载为50个请求每分钟,那么如果监测周期设定为1秒,则不能够得到所期望的监测值。
3)最大监测周期Tα,需要考虑系统检测错误的及时性,例如,若设定α为60%,就意味着在两次监测之间有60%的概率系统已经出现了错误。
本发明与现有技术相比具有如下优点:
(1)能够表现监测度量间的相互关联。采用PCA来计算滑动窗口中数据集特征向量,由于PCA能够反映多个度量相互间存在的关联性,因此可以通过多个度量共同刻画系统的运行状态。
(2)具有较低的计算开销。采用PCA技术计算当前与历史监测数据的特征向量,通过计算特征向量的偏差来评估系统异常程度。每次利用PCA计算特征向量,只需利用上次计算得到的均值与当前监测数据进行增量式计算,因此这种技术具有较低的计算开销,时间复杂度为O(p),其中,每次收集的监测数据包括多个度量,因此与其他方法相比(如,kNN、LOF)具有更低的时间复杂度,适合在线分析的应用场景。
(3)异常程度量化表示。步骤二使用余弦值来计算原有与当前特征向量的偏差,以描述当前收集到的监测数据的异常程度,而余弦值界于0到1之间。因此方法能够将系统的异常程度量化到[0,1]区间内为基于异常程度进行监测周期的动态调整提供依据。
(4)降低系统监测开销。根据系统的异常程度动态调整监测周期,从而能够以较低的监测开销检测系统存在的问题。
附图说明
图1为本发明方法的实现流程图;
图2为本发明实施例方法的使用环境。
具体实施方式
以下结合具体实施例和附图对本发明进行详细说明。
本发明提出的基于故障预测的云计算系统自适应监测方法,如图1所示包括以下步骤,(1)监测Agent部署在各主机/虚拟机上,以收集主机、虚拟机、容器、中间件以及应用等相关监测数据;(2)从各主机/虚拟机实时收集并存储监测数据;(3)异常程度评估器根据收集到的监测数据计算系统异常程度,(4)根据评估得到的系统运行状态的异常程度调整监测周期。
作为本发明实施例方法的使用环境,如图2所示,物理主机上部署六台Xen虚拟机,其中一台虚拟机部署负载均衡器Nginx,一台虚拟机部署数据库MySQL,三台虚拟机部署Web应用服务器Tomcat,Tomcat上部署Web应用,一台虚拟机部署监测管理服务器。Nginx接收用户的请求,并将其转发到Tomcat以处理用户请求,部署在Tomcat上的Web应用通过MySQL进行数据操作。每台虚拟机上部署一个开源监控软件Zabbix的Agent用以收集监测数据,监测管理服务器从各Agent收集监测数据,在线评估系统异常程度,进而调整各Agent的监测参数(包括,监测对象、监测周期)。本发明所提出的方法在监测管理服务器实现。
本发明实施例方法流程:
(1)将Zabbix的监测Agent部署在虚拟机上,收集CPU利用率、内存占用率、每秒接收网络字节数、磁盘每次传输时间等4个监测度量;
(2)监测周期初始值设定为30秒,滑动窗口大小设定为20,Agent以30秒为周期将收集到的监测数据发送给监测管理服务器,直到滑动窗口满;
(3)当滑动窗口满时,形成20行4列矩阵,计算第j个度量的均值方差 &sigma; j j = 1 20 &lsqb; ( x 1 j - &mu; j ) 2 + ( x 2 j - &mu; j ) 2 + ... + ( x 20 j - &mu; j ) 2 &rsqb; , 那么,zij=(xijj)/σjj
(4)求得协方差矩阵其中,xi和xj的协方差表现两个变量的相关性;
(5)求得矩阵的特征向量,作为数据数据分布的主方向u;
(6)新的监测数据xt到来时,为了放大离群点对主方向改变的影响,其中n=20为滑动窗口大小,r=0.4为当前样本的复制次数与当前样本大小的比例,本发明将样本复制nr=8次,得到更新矩阵: A ~ = A &cup; { x t , x t , ... , x t } ;
(7)更新矩阵平均值和协方差矩阵: &mu; ~ = &mu; + rx t 1 + r , &Sigma; A ~ = Q 1 + r + r 1 + r x t x t T - &mu; ~ &mu; ~ T , Q = AA T n . 更新特征向量主方向:
(8)使用余弦相似度来度量主方向的改变,以描述新收集监测数据的异常程度: s t = 1 - | < u t , u > | | u t | | | | u | | | ;
(9)根据经验设定,系统出现错误的频率设为每2分钟1次,每秒钟λ=1/1200次,最小监测周期Tβ=10秒,最大监测周期Tα=120秒,可以计算得到:
&beta; = 1 - e - 10 120 = 0.08 &alpha; = 1 - e - 120 120 = 0.63 ;
(10)系统监测周期调整为:
T t = { 10 , 0 &le; s t &le; 0.08 120 + l n ( 1 - s t ) &times; 1200 , 0.08 < s t < 0.63 120 , 0.63 &le; s t &le; 1 .
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。

Claims (1)

1.一种基于故障预测的云计算系统自适应监测方法,其特征在于实现步骤如下:
第一步,监测数据收集;建立滑动窗口的长度为n,收集多度量监测数据为X=(x1,x2,…,xm),其中,每次收集的监测数据包括m个度量,xi为第i个度量的值,将监测数据按时间先后顺序存入滑动窗口,将滑动窗口中的监测数据组成n行m列矩阵Anm
第二步,异常程度评估,具体包括以下步骤:
(1)将Anm的每一列的数值进行标准化处理,使第j列的数值的集合的均值μj=0,方差σj=1,第i行第j列的数据标准化为zij=(xijj)/σj。求出协方差矩阵:其中, &sigma; i j 2 = &Sigma; k = 1 n z k i z k j / n ; 计算协方差矩阵∑A的特征向量u;
(2)新的监测数据xt到来时,为了放大离群点对主方向改变的影响,将样本复制nr次,其中r∈[0,1]是当前样本的复制次数与当前样本大小的比例,得到更新矩阵: A ~ = A &cup; { x t , x t , ... , x t } ; 更新矩阵均值和协方差矩阵: &mu; ~ = &mu; + rx t 1 + r , &Sigma; A ~ = Q 1 + r + r 1 + r x t x t T - &mu; ~ &mu; ~ T , 计算当前监测数据的特征向量:
(3)使用余弦相似度来计算由步骤(2)得到的原特征向量与由步骤(3)得到的当前特征向量的偏差,以描述当前收集到的监测数据的异常程度:
第三步,监测周期调整。根据由第二步得到的异常程度,调整监测周期为: T = T &beta; , 0 &le; s t &le; &beta; T &alpha; + l n ( 1 - s t ) / &lambda; , &beta; < s t < &alpha; T &alpha; , &alpha; &le; s t &le; 1 , 其中,Tα、Tβ为运维人员根据经验设定的被监测系统的最大、最小监测周期,α、β为运维人员根据经验设定的被监测系统的最小、最大错误概率,λ为运维人员根据经验设定的被监测系统的出现故障的频率。
CN201610015230.4A 2016-01-11 2016-01-11 一种基于故障预测的云计算系统自适应监测方法 Active CN105677538B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610015230.4A CN105677538B (zh) 2016-01-11 2016-01-11 一种基于故障预测的云计算系统自适应监测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610015230.4A CN105677538B (zh) 2016-01-11 2016-01-11 一种基于故障预测的云计算系统自适应监测方法

Publications (2)

Publication Number Publication Date
CN105677538A true CN105677538A (zh) 2016-06-15
CN105677538B CN105677538B (zh) 2018-01-26

Family

ID=56299832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610015230.4A Active CN105677538B (zh) 2016-01-11 2016-01-11 一种基于故障预测的云计算系统自适应监测方法

Country Status (1)

Country Link
CN (1) CN105677538B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980874A (zh) * 2017-03-13 2017-07-25 南京邮电大学 一种面向配网大数据的多时态维度数据融合方法
CN107656156A (zh) * 2017-09-22 2018-02-02 安徽科技学院 一种基于云平台的设备故障诊断及运行状态评估方法与系统
CN107707431A (zh) * 2017-10-31 2018-02-16 河南科技大学 一种面向云平台的数据安全监测方法及系统
CN108307293A (zh) * 2016-09-19 2018-07-20 霍尼韦尔国际公司 使用空中通信和地面数据服务的动态飞行跟踪系统
CN108319425A (zh) * 2018-02-10 2018-07-24 杭州后博科技有限公司 一种铁塔数据采样时间间隔动态调整方法及系统
CN108663995A (zh) * 2017-03-30 2018-10-16 郑州大学 一种工业过程变量趋势异常检测方法及装置
CN109254865A (zh) * 2018-09-25 2019-01-22 江苏润和软件股份有限公司 一种基于统计分析的云数据中心服务异常根因定位方法
CN109327343A (zh) * 2018-11-27 2019-02-12 武汉烽火信息集成技术有限公司 用于openstack云环境的自动化巡检方法及系统
CN109446020A (zh) * 2018-09-21 2019-03-08 曙光云计算集团有限公司 云存储系统的动态评估方法以及装置
CN109711480A (zh) * 2018-12-30 2019-05-03 佳讯飞鸿(北京)智能科技研究院有限公司 一种道岔缺口监测设备异常数据检出方法、装置及系统
CN109960598A (zh) * 2019-03-18 2019-07-02 华中科技大学 一种磁盘扇区故障检测方法、装置及设备
CN109976974A (zh) * 2019-03-08 2019-07-05 昆明理工大学 一种针对运行状态判断的云计算环境下系统监测方法
CN109992436A (zh) * 2017-12-29 2019-07-09 华为技术有限公司 线程阻塞检测方法及设备
CN110187990A (zh) * 2019-05-31 2019-08-30 东北大学 一种基于模式转移的虚拟机混合备用动态可靠性评估方法
CN110716818A (zh) * 2019-09-30 2020-01-21 腾讯科技(深圳)有限公司 一种异常处理方法、装置、硬件保护设备及存储介质
CN110865924A (zh) * 2019-11-29 2020-03-06 国网四川省电力公司信息通信公司 电力信息系统内部服务器健康度诊断方法与健康诊断框架
CN111338908A (zh) * 2020-03-10 2020-06-26 山东超越数控电子股份有限公司 一种基于bmc自动调整部件监控周期的方法
CN112461543A (zh) * 2020-10-28 2021-03-09 山东科技大学 一种基于多分类支持向量数据描述的旋转机械故障诊断方法
CN112783682A (zh) * 2021-02-01 2021-05-11 福建多多云科技有限公司 一种基于云手机服务的异常自动修复方法
US11012327B2 (en) 2017-06-19 2021-05-18 Keysight Technologies Singapore (Sales) Pte. Ltd. Drop detection and protection for network packet monitoring in virtual processing environments
CN113191432A (zh) * 2021-05-06 2021-07-30 中国联合网络通信集团有限公司 基于离群因子的虚拟机集群的异常检测方法、设备及介质
CN113238535A (zh) * 2021-06-03 2021-08-10 中国核动力研究设计院 一种核安全级dcs模拟量输入模块故障诊断方法及系统
CN113850297A (zh) * 2021-08-31 2021-12-28 北京百度网讯科技有限公司 道路数据的监测方法、装置、电子设备及存储介质
CN113940034A (zh) * 2019-04-18 2022-01-14 甲骨文国际公司 检测云用户的行为异常
CN117132112A (zh) * 2023-09-11 2023-11-28 河北洁源安评环保咨询有限公司 化工企业安全风险隐患排查评估方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103716182A (zh) * 2013-12-12 2014-04-09 中国科学院信息工程研究所 一种面向实时云平台的故障检测与容错方法及系统
US20140223240A1 (en) * 2013-02-01 2014-08-07 International Business Machines Corporation Selective monitoring of archive and backup storage
CN103986625A (zh) * 2014-05-29 2014-08-13 中国科学院软件研究所 一种基于统计监测的云应用故障诊断系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140223240A1 (en) * 2013-02-01 2014-08-07 International Business Machines Corporation Selective monitoring of archive and backup storage
CN103716182A (zh) * 2013-12-12 2014-04-09 中国科学院信息工程研究所 一种面向实时云平台的故障检测与容错方法及系统
CN103986625A (zh) * 2014-05-29 2014-08-13 中国科学院软件研究所 一种基于统计监测的云应用故障诊断系统

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108307293A (zh) * 2016-09-19 2018-07-20 霍尼韦尔国际公司 使用空中通信和地面数据服务的动态飞行跟踪系统
CN106980874A (zh) * 2017-03-13 2017-07-25 南京邮电大学 一种面向配网大数据的多时态维度数据融合方法
CN106980874B (zh) * 2017-03-13 2019-09-10 南京邮电大学 一种面向配网大数据的多时态维度数据融合方法
CN108663995A (zh) * 2017-03-30 2018-10-16 郑州大学 一种工业过程变量趋势异常检测方法及装置
CN108663995B (zh) * 2017-03-30 2020-11-06 郑州大学 一种工业过程变量趋势异常检测方法及装置
US11012327B2 (en) 2017-06-19 2021-05-18 Keysight Technologies Singapore (Sales) Pte. Ltd. Drop detection and protection for network packet monitoring in virtual processing environments
CN107656156A (zh) * 2017-09-22 2018-02-02 安徽科技学院 一种基于云平台的设备故障诊断及运行状态评估方法与系统
CN107707431A (zh) * 2017-10-31 2018-02-16 河南科技大学 一种面向云平台的数据安全监测方法及系统
CN109992436A (zh) * 2017-12-29 2019-07-09 华为技术有限公司 线程阻塞检测方法及设备
CN108319425A (zh) * 2018-02-10 2018-07-24 杭州后博科技有限公司 一种铁塔数据采样时间间隔动态调整方法及系统
CN109446020A (zh) * 2018-09-21 2019-03-08 曙光云计算集团有限公司 云存储系统的动态评估方法以及装置
CN109254865A (zh) * 2018-09-25 2019-01-22 江苏润和软件股份有限公司 一种基于统计分析的云数据中心服务异常根因定位方法
CN109327343A (zh) * 2018-11-27 2019-02-12 武汉烽火信息集成技术有限公司 用于openstack云环境的自动化巡检方法及系统
CN109327343B (zh) * 2018-11-27 2022-03-18 武汉烽火信息集成技术有限公司 用于openstack云环境的自动化巡检方法及系统
CN109711480A (zh) * 2018-12-30 2019-05-03 佳讯飞鸿(北京)智能科技研究院有限公司 一种道岔缺口监测设备异常数据检出方法、装置及系统
CN109976974A (zh) * 2019-03-08 2019-07-05 昆明理工大学 一种针对运行状态判断的云计算环境下系统监测方法
CN109976974B (zh) * 2019-03-08 2021-08-10 昆明理工大学 一种针对运行状态判断的云计算环境下系统监测方法
CN109960598A (zh) * 2019-03-18 2019-07-02 华中科技大学 一种磁盘扇区故障检测方法、装置及设备
US11930024B2 (en) 2019-04-18 2024-03-12 Oracle International Corporation Detecting behavior anomalies of cloud users
CN113940034A (zh) * 2019-04-18 2022-01-14 甲骨文国际公司 检测云用户的行为异常
WO2020237729A1 (zh) * 2019-05-31 2020-12-03 东北大学 一种基于模式转移的虚拟机混合备用动态可靠性评估方法
CN110187990A (zh) * 2019-05-31 2019-08-30 东北大学 一种基于模式转移的虚拟机混合备用动态可靠性评估方法
CN110187990B (zh) * 2019-05-31 2021-11-16 东北大学 一种基于模式转移的虚拟机混合备用动态可靠性评估方法
CN110716818B (zh) * 2019-09-30 2022-02-11 腾讯科技(深圳)有限公司 一种异常处理方法、装置、硬件保护设备及存储介质
CN110716818A (zh) * 2019-09-30 2020-01-21 腾讯科技(深圳)有限公司 一种异常处理方法、装置、硬件保护设备及存储介质
CN110865924B (zh) * 2019-11-29 2023-05-16 国网四川省电力公司信息通信公司 电力信息系统内部服务器健康度诊断方法与健康诊断框架
CN110865924A (zh) * 2019-11-29 2020-03-06 国网四川省电力公司信息通信公司 电力信息系统内部服务器健康度诊断方法与健康诊断框架
CN111338908A (zh) * 2020-03-10 2020-06-26 山东超越数控电子股份有限公司 一种基于bmc自动调整部件监控周期的方法
CN112461543A (zh) * 2020-10-28 2021-03-09 山东科技大学 一种基于多分类支持向量数据描述的旋转机械故障诊断方法
CN112783682B (zh) * 2021-02-01 2022-02-22 福建多多云科技有限公司 一种基于云手机服务的异常自动修复方法
CN112783682A (zh) * 2021-02-01 2021-05-11 福建多多云科技有限公司 一种基于云手机服务的异常自动修复方法
CN113191432A (zh) * 2021-05-06 2021-07-30 中国联合网络通信集团有限公司 基于离群因子的虚拟机集群的异常检测方法、设备及介质
CN113191432B (zh) * 2021-05-06 2023-07-07 中国联合网络通信集团有限公司 基于离群因子的虚拟机集群的异常检测方法、设备及介质
CN113238535A (zh) * 2021-06-03 2021-08-10 中国核动力研究设计院 一种核安全级dcs模拟量输入模块故障诊断方法及系统
CN113850297A (zh) * 2021-08-31 2021-12-28 北京百度网讯科技有限公司 道路数据的监测方法、装置、电子设备及存储介质
CN117132112A (zh) * 2023-09-11 2023-11-28 河北洁源安评环保咨询有限公司 化工企业安全风险隐患排查评估方法及系统

Also Published As

Publication number Publication date
CN105677538B (zh) 2018-01-26

Similar Documents

Publication Publication Date Title
CN105677538A (zh) 一种基于故障预测的云计算系统自适应监测方法
US11119878B2 (en) System to manage economics and operational dynamics of IT systems and infrastructure in a multi-vendor service environment
US10503408B2 (en) Deployment of an upgrade to a storage system based on correlation analysis of measurements of the storage system
US8234229B2 (en) Method and apparatus for prediction of computer system performance based on types and numbers of active devices
US10558545B2 (en) Multiple modeling paradigm for predictive analytics
Brevik et al. Automatic methods for predicting machine availability in desktop grid and peer-to-peer systems
US8260603B2 (en) Scaling a prediction model of resource usage of an application in a virtual environment
US20170060769A1 (en) Systems, devices and methods for generating locality-indicative data representations of data streams, and compressions thereof
US11153176B2 (en) Exponential moving maximum (EMM) filter for predictive analytics in network reporting
CA3090095C (en) Methods and systems to determine and optimize reservoir simulator performance in a cloud computing environment
US20140359624A1 (en) Determining a completion time of a job in a distributed network environment
US8903757B2 (en) Proactive information technology infrastructure management
CN107992410B (zh) 软件质量监测方法、装置、计算机设备和存储介质
EP2742662A2 (en) Application performance analysis that is adaptive to business activity patterns
US20210064432A1 (en) Resource needs prediction in virtualized systems: generic proactive and self-adaptive solution
US9244711B1 (en) Virtual machine capacity planning
CN110633194B (zh) 一种硬件资源在特定环境下的性能评估方法
Samir et al. Anomaly detection and analysis for clustered cloud computing reliability
JP6777142B2 (ja) システム分析装置、システム分析方法、及び、プログラム
CN106776288A (zh) 一种基于Hadoop的分布式系统的健康度量方法
Cremonesi et al. Indirect estimation of service demands in the presence of structural changes
CN115269108A (zh) 一种数据处理方法、装置及设备
CN110083518B (zh) 一种基于AdaBoost-Elman的虚拟机软件老化预测方法
Xue et al. Fill-in the gaps: Spatial-temporal models for missing data
US20220050761A1 (en) Low overhead performance data collection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant