CN105843733A - 一种大数据平台的性能检测方法及装置 - Google Patents

一种大数据平台的性能检测方法及装置 Download PDF

Info

Publication number
CN105843733A
CN105843733A CN201610154556.5A CN201610154556A CN105843733A CN 105843733 A CN105843733 A CN 105843733A CN 201610154556 A CN201610154556 A CN 201610154556A CN 105843733 A CN105843733 A CN 105843733A
Authority
CN
China
Prior art keywords
performance indications
value
sequence
big data
data platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610154556.5A
Other languages
English (en)
Other versions
CN105843733B (zh
Inventor
王颖
邱雪松
李佳聪
郭少勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201610154556.5A priority Critical patent/CN105843733B/zh
Publication of CN105843733A publication Critical patent/CN105843733A/zh
Application granted granted Critical
Publication of CN105843733B publication Critical patent/CN105843733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Abstract

本发明实施例公开了一种大数据平台的性能检测方法及装置,涉及网络技术领域,包括步骤:采集所述大数据平台当前运行状态下的第一类性能指标数据,获得第一类性能指标数据序列O;根据所述第一类性能指标数据序列O和隐式马尔科夫模型的最优值λ1,计算P(O|λ1);判断所述P(O|λ1)是否小于预设阈值;若为是,确定所述大数据平台处于异常状态;若为否,确定所述大数据平台处于正常状态。应用本发明实施例,利用隐式马尔科夫模型对大数据平台进行性能检测,提高了检测准确率。

Description

一种大数据平台的性能检测方法及装置
技术领域
本发明涉及网络技术领域,特别涉及一种大数据平台的性能检测方法及装置。
背景技术
近半个世纪以来,“大数据”这个概念已经应用到各领域中,成为一种可以改变世界的新的动力。为了更有效的利用数据,研究者们开发了大数据平台,用来计算社会所产生的越来越多的数据信息。但是在大数据平台运行中,很多性能问题,如CPU(Central Processing Unit,中央处理器)异常、内存异常等,会影响我们得到精准的数据。
为了解决大数据平台运行中存在的性能问题,建立了大数据平台性能检测方法。大数据平台性能检测方法的基本流程如下:
通过导入的性能指标数据,如CPU利用率、内存利用率、磁盘读写率以及网络带宽等,建立正常状态下的性能模型;
采集大数据平台当前运行状态下的性能指标数据;
根据已建立好的性能模型和采集到的性能指标数据,判断是否存在异常,如果采集到的性能指标数据符合性能模型,则说明无异常;如果采集到的性能指标数据不符合性能模型,则说明存在异常;
如果存在异常,则根据采集到的性能指标数据,计算每两个性能指标的第一MIC(Maximal Information Coefficient,最大信息系数)值;
根据第一MIC值、第二MIC值和预先设定的MIC阈值,得到第一特征值;其中,第二MIC值为大数据平台在正常运行状态下的每两个性能指标的MIC值;第一特征值由二进制数组构成;
根据第一特征值和特征库中存储的第二特征值,在特征库中查找异常原因;其中,特征库由异常原因和第二特征值组成;第二特征值由二进制数组构成,第二特征值是根据第二MIC值、第三MIC值和预先设定的MIC阈值得到的;第三MIC值为大数据平台在给定的异常运行状态下的每两个性能指标的MIC值;
如果特征库中没有与第一特征值匹配的第二特征值,则通过人工判断异常原因,并将该第一特征值和对应的异常原因添加到特征库中。
下面针对两个性能指标X和Y,简单介绍一下MIC值的计算步骤:
步骤一:网格划分
将X的所有数据排成序列X’,将Y的所有数据排成序列Y’,X’和Y’组成集合D,集合D是一个有序对的有限集合,给定一个格子G,根据D中的序列对划分G的单元格,允许出现空格子,划分后格子G在x方向总共有n列,在y方向总共有m行。其中,集合D的样本容量为b,n<b0.6且m<b0.6
步骤二:计算互信息
根据如下公式计算X和Y的互信息:
I ( X ; Y ) = &Sigma; h = 1 n &Sigma; k = 1 m p ( x h , y k ) log 2 p ( x h , y k ) p ( x h ) p ( y k )
其中,1≤h≤n,1≤k≤m,p(xh)表示落在第h列的序列对的个数占所有序列对个数的比例,p(yk)表示落在第k行的序列对的个数占所有序列对个数的比例,p(xh,yk)表示落在第h列第k行的序列对的个数占所有序列对个数的比例。
步骤三:获得最大互信息
因为单元格的列宽、行距都不是固定的,所以当n、m固定时,格子G仍有很多种不同的划分方法。不同的划分方法会导致计算所得的I(X;Y)不同。对于一组n、m来说,所有I(X;Y)中的最大值称为最大互信息,记为max{I(X;Y)}。
步骤四:计算特征矩阵
根据如下公式计算特征矩阵M(D)n,m
M ( D ) n , m = m a x { I ( X ; Y ) } l o g m i n { n , m }
步骤五:获得MIC值
由于n和m在取值范围内可以有多个取值,所以不同的n、m会导致计算得到的特征矩阵M(D)n,m不同,所有的特征矩阵M(D)n,m中的最大值即为MIC值,计算公式如下:
MIC(D)=max{M(D)n,m}
以上是MIC值的计算过程。
在现有的大数据平台性能检测方法中,建立正常情况下的性能模型所利用的是ARIMA(Autoregressive Integrated Moving Average Model,自回归积分滑动平均模型),因为ARIMA模型是一种时间序列预测模型,时间序列预测模型是根据时间序列的过去值及现在值来预测未来值,所以当性能指标为线性关系时,利用ARIMA模型建立的大数据平台性能检测方法的检测准确率较高;但是当性能指标为非线性关系时,利用ARIMA模型建立的大数据平台性能检测方法的检测准确率较低。
发明内容
本发明实施例公开了一种大数据平台的性能检测方法及装置,用于提高检测准确率。技术方案如下:
本发明实施例公开了一种大数据平台的性能检测方法,所述方法包括步骤:
采集所述大数据平台当前运行状态下的第一类性能指标数据,获得第一类性能指标数据序列O;所述第一类性能指标数据序列O是所述第一类性能指标数据按照时间顺序排列而成的序列;
根据所述第一类性能指标数据序列O和隐式马尔科夫模型的最优值λ1,计算P(O|λ1);其中,P(O|λ1)为基于所述最优值λ1得到所述第一类性能指标数据序列O的概率,所述最优值λ1是由隐式马尔科夫模型的初始值λ2训练得到的,所述初始值λ2是利用隐式马尔科夫模型根据第二类性能指标数据序列O’得到的;所述第二类性能指标数据序列O’是采集的所述大数据平台正常状态下的第二类性能指标数据按照时间顺序排列而成的序列;
判断所述P(O|λ1)是否小于预设阈值;若为是,确定所述大数据平台处于异常状态;若为否,确定所述大数据平台处于正常状态;其中,所述预设阈值为P(O’|λ1)和P(O’|λ2)的差值,P(O’|λ1)为基于所述最优值λ1得到所述第二类性能指标数据序列O’的概率,P(O’|λ2)为基于所述初始值λ2得到所述第二类性能指标数据序列O’的概率。
优选的,所述计算P(O|λ1)所利用的公式为:
P ( O | &lambda; 1 ) = &Sigma; i = 1 N &alpha; T ( i )
其中,1≤i≤N,N表示所述大数据平台的运行状态个数;T表示采集所述第一类性能指标数据的时间段;αT(i)表示在隐式马尔科夫模型为最优值λ1时,T时刻满足状态i,且T时刻及T时刻之前满足所述第一类性能指标数据序列O的概率。
优选的,计算所述P(O’|λ1)和所述P(O’|λ2)所利用的公式为:
P ( O &prime; | &lambda; ) = &Sigma; i = 1 N &alpha; t ( i ) &beta; t ( i )
其中,计算所述P(O’|λ1)时,上式中的λ=λ1;计算所述P(O’|λ2)时,上式中的λ=λ2;
1≤i≤N,N表示所述大数据平台的运行状态个数;1≤t≤T’,T’表示采集所述第二类性能指标数据的时间段;O’=(O’1O’2…O’T’);
αt(i)表示在隐式马尔科夫模型为λ时,t时刻满足状态i,且t时刻及t时刻之前满足第一观察值序列(O’1O’2…O’t)的概率;βt(i)表示在隐式马尔科夫模型为λ时,t时刻满足状态i,且t时刻以后满足第二观察值序列(O’t+1O’t+2…O’T’)的概率。
优选的,所述最优值λ1为:基于前向后向算法,由隐式马尔科夫模型的初始值λ2训练得到的。
优选的,所述初始值λ2为:基于Baum-Welch算法,利用隐式马尔科夫模型根据所述第二类性能指标数据序列O’得到的。
优选的,所述方法还包括:
在确定所述大数据平台处于异常状态之后,根据所述第一类性能指标数据序列O计算性能指标数据所对应性能指标中每两个性能指标的第一最大信息系数MIC值;
根据所述第一MIC值、第二MIC值和预先设定的MIC阈值,得到第一特征值;所述第二MIC值是根据所述第二类性能指标数据序列O’得到的性能指标数据所对应性能指标中每两个性能指标的MIC值;
根据所述第一特征值和第二特征值,判断异常原因;所述第二特征值是根据所述第二MIC值、第三MIC值和所述预先设定的MIC阈值得到的,所述第三MIC值是根据第三类性能指标数据序列得到的性能指标数据所对应性能指标中每两个性能指标的MIC值;所述第三类性能指标数据序列是采集的所述大数据平台在预先设定的异常运行状态下的第三类性能指标数据按照时间顺序排列而成的序列。
优选的,所述大数据平台为Hadoop集群。
本发明实施例还公开了一种大数据平台的性能检测装置,所述装置包括:
采集模块,用于采集所述大数据平台当前运行状态下的第一类性能指标数据,获得第一类性能指标数据序列O;所述第一类性能指标数据序列O是所述第一类性能指标数据按照时间顺序排列而成的序列;
第一计算模块,用于根据所述第一类性能指标数据序列O和隐式马尔科夫模型的最优值λ1,计算P(O|λ1);其中,P(O|λ1)为基于所述最优值λ1得到所述第一类性能指标数据序列O的概率,所述最优值λ1是由隐式马尔科夫模型的初始值λ2训练得到的,所述初始值λ2是利用隐式马尔科夫模型根据第二类性能指标数据序列O’得到的;所述第二类性能指标数据序列O’是采集的所述大数据平台正常状态下的第二类性能指标数据按照时间顺序排列而成的序列;
第一判断模块,用于判断所述P(O|λ1)是否小于预设阈值;其中,所述预设阈值为P(O’|λ1)和P(O’|λ2)的差值,P(O’|λ1)为基于所述最优值λ1得到所述第二类性能指标数据序列O’的概率,P(O’|λ2)为基于所述初始值λ2得到所述第二类性能指标数据序列O’的概率;
确定模块,用于在所述第一判断模块判断为是的情况下,确定所述大数据平台处于异常状态;在所述第一判断模块判断为否的情况下,确定所述大数据平台处于正常状态。
由上述的技术方案可见,本发明实施例提供一种大数据平台的性能检测方法及装置,采集所述大数据平台当前运行状态下的第一类性能指标数据,获得第一类性能指标数据序列O;根据所述第一类性能指标数据序列O和隐式马尔科夫模型的最优值λ1,计算P(O|λ1);判断所述P(O|λ1)是否小于预设阈值;若为是,确定所述大数据平台处于异常状态;若为否,确定所述大数据平台处于正常状态。
可见,本发明实施例中,利用隐式马尔科夫模型对大数据平台进行性能检测。隐式马尔科夫模型是一个统计模型,是基于概率分布的模型,相对于ARIMA时间序列预测模型来说,准确率较高。因此,应用本发明实施例,提高了大数据平台性能检测的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种大数据平台的性能检测方法的流程示意图;
图2为本发明实施例提供的另一种大数据平台的性能检测方法的流程示意图;
图3为本发明实施例提供的一种大数据平台的性能检测装置的结构示意图;
图4为本发明实施例提供的另一种大数据平台的性能检测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了提高检测准确率,本发明实施例提供了一种大数据平台的性能检测方法及装置。
下面首先对本发明实施例所提供的一种大数据平台的性能检测方法进行介绍。
需要说明的是,本发明实施例所提供的一种大数据平台的性能检测方法的执行主体可以为一种大数据平台的性能检测装置。
图1为本发明实施例提供的一种大数据平台的性能检测方法的流程示意图,该方法可以包括如下步骤:
S101:采集所述大数据平台当前运行状态下的第一类性能指标数据,获得第一类性能指标数据序列O;
其中,所述第一类性能指标数据序列O是所述第一类性能指标数据按照时间顺序排列而成的序列。
本领域技术人员可以理解的是,性能指标数据是指CPU利用率、内存利用率、磁盘读写率以及网络带宽等可以表示大数据平台性能状态的数据。在所述大数据平台当前运行状态下,在不同时刻采集所述大数据平台的性能指标数据,将这些数据按照时间顺序排列,即可获得第一类性能指标数据序列O。其中,该第一类性能指标数据序列O所针对的性能指标数据可以根据实际情况设定。
在本发明的一个较佳实施例中,所述大数据平台为Hadoop集群。Hadoop集群是一个开发和运行处理大规模数据的软件平台,是目前使用较广的一种大数据平台。
S102:根据所述第一类性能指标数据序列O和隐式马尔科夫模型的最优值λ1,计算P(O|λ1);
其中,P(O|λ1)为基于所述最优值λ1得到所述第一类性能指标数据序列O的概率,所述最优值λ1是由隐式马尔科夫模型的初始值λ2训练得到的,所述初始值λ2是利用隐式马尔科夫模型根据第二类性能指标数据序列O’得到的;所述第二类性能指标数据序列O’是采集的所述大数据平台正常状态下的第二类性能指标数据按照时间顺序排列而成的序列。
隐式马尔科夫模型是一个统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。马尔可夫模型是马尔可夫过程的模型化,它把一个总随机过程看成一系列状态的不断转移。马尔可夫模型的特性主要用“转移概率”来表示,后一状态出现的概率决定于其前出现过的状态次序。隐式马尔可夫模型就是将上述的马尔可夫模型的概念扩展到一个双重随机过程,即一个随机过程包含一个不可见从属随机过程,它只能通过另一套可以产生观察序列的随机过程才能观察到。
在所述大数据平台正常状态下,在不同时刻采集所述大数据平台的性能指标数据,将这些数据按照时间顺序排列,即可获得第二类性能指标数据序列O’。利用隐式马尔科夫模型根据第二类性能指标数据序列O’可以得到隐式马尔科夫模型的初始值λ2。
在本发明的一个具体实施例中,所述初始值λ2可以为:基于Baum-Welch算法,利用隐式马尔科夫模型根据所述第二类性能指标数据序列O’得到的。其中,Baum-Welch算法目前已多有报道,本领域技术人员可以根据已有的报道知晓Baum-Welch算法的具体内容,该算法对于本领域技术人员来说是公知的,本发明在此不进行赘述。
当获得了初始值λ2后,即可根据隐式马尔科夫模型训练得到最优值λ1。
在本发明的一个具体实现方式中,所述最优值λ1可以为:基于前向后向算法,由隐式马尔科夫模型的初始值λ2训练得到的。所述前向后向算法是一种已知模型和序列求概率的算法。具体的训练过程如下所示:
设αt(i)为向前变量,它表示t时刻满足状态i,且t时刻及t时刻之前满足第一观察值序列(O’1O’2…O’t)的概率,初始值为πibi(O'1),然后通过归纳法计算αt+1(j),计算公式如下所示:
&alpha; t + 1 ( j ) = &lsqb; &Sigma; i = 1 N &alpha; t ( i ) a i j &rsqb; b j ( O &prime; t + 1 )
其中,πi表示状态i下取所有观察值的概率分布,bi(O'1)表示状态i下出现O'1的概率,aij表示从状态i转移到状态j的概率。bj(O't+1)表示观察值O't+1在状态j中出现的概率,N表示所述大数据平台的运行状态个数。
设βt(i)为向后变量,它表示t时刻满足状态i,且t时刻以后满足第二观察值序列(O’t+1O’t+2…O’T’)的概率,初始值βT'(i)为1,然后通过归纳法计算βt(i),计算公式如下所示:
&beta; t ( i ) = &Sigma; j = 1 N a i j b j ( O &prime; t + 1 ) &beta; t + 1 ( j )
其中,T’表示采集所述第二类性能指标数据的时间段。
定义变量εt(i,j)为t时刻处于状态i,t+1时刻处于状态j的概率,使用向前变量和向后变量表示该变量如下:
&epsiv; t ( i , j ) = &alpha; t ( i ) a i j b j ( O &prime; t + 1 ) &beta; t + 1 ( j ) &Sigma; i = 1 N &Sigma; j = 1 N &alpha; t ( i ) a i j b j ( O &prime; t + 1 ) &beta; t + 1 ( j )
定义变量γt(i)表示t时刻呈现状态i的概率,使用向前变量和向后变量表示该变量如下:
&gamma; t ( i ) = &alpha; t ( i ) &beta; t ( i ) &Sigma; i = 1 N &alpha; t ( i ) &beta; t ( i )
通过上述变量,可以得到从其他所有状态转移到状态i的次数的期望值:从状态i转移出去的次数的期望值:以及从状态i转移到状态j的次数的期望值:然后利用上述变量,通过下列公式,进行迭代:
&pi; &OverBar; = &gamma; 1 ( i ) , 1 &le; i &le; N
a i j &OverBar; = &Sigma; t = 1 T &prime; - 1 &epsiv; t ( i , j ) &Sigma; t = 1 T &prime; - 1 &gamma; t ( i ) , 1 &le; i &le; N , 1 &le; j &le; N
b &OverBar; j ( k &prime; ) = &Sigma; t = 1 , O &prime; t = k &prime; T &prime; &gamma; t ( j ) &Sigma; t = 1 T &prime; &gamma; t ( j ) , 1 &le; j &le; N , 1 &le; k &prime; &le; M
其中,M表示每个状态的观察事件数,k’表示当前时刻的观察结果。
通过不断迭代计算上式,直到两次计算得到的参数差值小于10-5,则停止迭代,说明训练完成,最后一次计算得到的以及即组成了隐式马尔科夫模型的最优值λ1。
根据S101获得的所述第一类性能指标数据序列O和训练得到的隐式马尔科夫模型的最优值λ1,计算P(O|λ1)。
具体的,所述计算P(O|λ1)所利用的公式可以为:
P ( O | &lambda; 1 ) = &Sigma; i = 1 N &alpha; T ( i )
其中,1≤i≤N,N表示所述大数据平台的运行状态个数;T表示采集所述第一类性能指标数据的时间段;αT(i)表示在隐式马尔科夫模型为最优值λ1时,T时刻满足状态i,且T时刻及T时刻之前满足所述第一类性能指标数据序列O的概率。
S103:判断所述P(O|λ1)是否小于预设阈值,如果是,触发S104,否则,触发S105;
其中,所述预设阈值为P(O’|λ1)和P(O’|λ2)的差值,P(O’|λ1)为基于所述最优值λ1得到所述第二类性能指标数据序列O’的概率,P(O’|λ2)为基于所述初始值λ2得到所述第二类性能指标数据序列O’的概率。
具体的,计算所述P(O’|λ1)和所述P(O’|λ2)所利用的公式可以为:
P ( O &prime; | &lambda; ) = &Sigma; i = 1 N &alpha; t ( i ) &beta; t ( i )
其中,计算所述P(O’|λ1)时,上式中的λ=λ1;计算所述P(O’|λ2)时,上式中的λ=λ2;
1≤i≤N,N表示所述大数据平台的运行状态个数;1≤t≤T’,T’表示采集所述第二类性能指标数据的时间段;O’=(O’1O’2…O’T’);
αt(i)表示在隐式马尔科夫模型为λ时,t时刻满足状态i,且t时刻及t时刻之前满足第一观察值序列(O’1O’2…O’t)的概率;βt(i)表示在隐式马尔科夫模型为λ时,t时刻满足状态i,且t时刻以后满足第二观察值序列(O’t+1O’t+2…O’T’)的概率。
S104:确定所述大数据平台处于异常状态;
S105:确定所述大数据平台处于正常状态。
由以上可见,本发明实施例中,利用隐式马尔科夫模型对大数据平台进行性能检测。隐式马尔科夫模型是一个统计模型,是基于概率分布的模型,相对于ARIMA时间序列预测模型来说,准确率较高。因此,应用本发明图1所示实施例,提高了大数据平台性能检测的准确率。
图2为本发明实施例提供的另一种大数据平台的性能检测方法的流程示意图,与前述实施例相比,本实施例中,在确定所述大数据平台处于异常状态之后,还包括:
S106:根据所述第一类性能指标数据序列O计算性能指标数据所对应性能指标中每两个性能指标的第一最大信息系数MIC值;
例如,大数据平台有三个性能指标:CPU利用率、内存利用率和IO(Input/Output,输入输出)读写率。根据所述第一类性能指标数据序列O分别计算CPU利用率与内存利用率的MIC值、内存利用率和IO读写率的MIC值,以及CPU利用率和IO读写率的MIC值。
MIC值的计算方法对于本领域技术人员来说是公知的,本发明在此不进行赘述。
S107:根据所述第一MIC值、第二MIC值和预先设定的MIC阈值,得到第一特征值;
其中,所述第二MIC值是根据所述第二类性能指标数据序列O’得到的性能指标数据所对应性能指标中每两个性能指标的MIC值。
在实际应用中,所述第一特征值可以由二进制数组构成,具体的,可以通过如下方式获得:
针对每两个性能指标,获得所述第一MIC值和所述第二MIC值的差值;
当上述差值大于预先设定的MIC阈值时,标记值为1;反之,标记值为0;
将所有的标记值按照预定顺序组成一个二进制数组,该数组即为第一特征值。
例如,大数据平台有三个性能指标:CPU利用率,内存利用率和IO读写率,设正常状态下的第二MIC值如下:CPU利用率与内存利用率的第二MIC值为0.821,CPU利用率和IO读写率的第二MIC值为0.834,内存利用率和IO读写率的第二MIC值为0.745;当前状态下的第一MIC值如下:CPU利用率与内存利用率的第一MIC值为0.521,CPU利用率和IO读写率的第一MIC值为0.655,内存利用率和IO读写率的第一MIC值为0.733,预先设定的MIC阈值为0.15,则第一特征值为(1,1,0)。
S108:根据所述第一特征值和第二特征值,判断异常原因;
其中,所述第二特征值是根据所述第二MIC值、第三MIC值和所述预先设定的MIC阈值得到的,所述第三MIC值是根据第三类性能指标数据序列得到的性能指标数据所对应性能指标中每两个性能指标的MIC值;所述第三类性能指标数据序列是采集的所述大数据平台在预先设定的异常运行状态下的第三类性能指标数据按照时间顺序排列而成的序列。
在实际应用中,与所述第一特征值相对应,所述第二特征值也可以由二进制数组构成,具体的,可以通过如下方式获得:
针对每两个性能指标,获得所述第二MIC值和所述第三MIC值的差值;
当上述差值大于预先设定的MIC阈值时,标记值为1;反之,标记值为0;
将所有的标记值按照预定顺序组成一个二进制数组,该数组即为第二特征值。
例如,大数据平台有三个性能指标:CPU利用率,内存利用率和IO读写率,设正常状态下的第二MIC值如下:CPU利用率与内存利用率的第二MIC值为0.821,CPU利用率和IO读写率的第二MIC值为0.834,内存利用率和IO读写率的第二MIC值为0.745;在预先设定的CPU异常状态下,采集第三类性能指标数据,按照时间顺序排列而成,得到第三类性能指标数据序列,然后计算得到第三MIC值如下:CPU利用率与内存利用率的第三MIC值为0.515,CPU利用率和IO读写率的第三MIC值为0.623,内存利用率和IO读写率的第三MIC值为0.721,预先设定的MIC阈值为0.15,则第二特征值为(1,1,0),对应的异常原因为CPU异常。
本领域技术人员可以理解的是,在预先设定不同的异常运行状态下,可以得到不同的第二特征值,每个第二特征值对应一个异常原因。
根据S106获得的第一特征值,在所有的第二特征值中进行查找,查找到与第一特征值匹配的第二特征值后,该第二特征值对应的异常原因即为所述大数据平台的异常原因。
例如,上述S106获得的第一特征值为(1,1,0),第二特征值(1,1,0)对应的异常原因是CPU异常,那么由此可以判断大数据平台的异常原因是CPU异常。
由以上可见,应用图2所示实施例,不仅提高了大数据平台的性能检测准确率,而且在确定所述大数据平台处于异常状态之后,还可以判断出具体的异常原因,以便解决大数据平台的性能问题。
相应于上述方法实施例,本发明实施例还提供了一种大数据平台的性能检测装置。图3为本发明实施例提供的一种大数据平台的性能检测装置的结构示意图,与图1所示的流程相对应,包括采集模块301、第一计算模块302、第一判断模块303、确定模块304;
其中,所述采集模块301,用于采集所述大数据平台当前运行状态下的第一类性能指标数据,获得第一类性能指标数据序列O;所述第一类性能指标数据序列O是所述第一类性能指标数据按照时间顺序排列而成的序列;
所述第一计算模块302,用于根据所述第一类性能指标数据序列O和隐式马尔科夫模型的最优值λ1,计算P(O|λ1);其中,P(O|λ1)为基于所述最优值λ1得到所述第一类性能指标数据序列O的概率,所述最优值λ1是由隐式马尔科夫模型的初始值λ2训练得到的,所述初始值λ2是利用隐式马尔科夫模型根据第二类性能指标数据序列O’得到的;所述第二类性能指标数据序列O’是采集的所述大数据平台正常状态下的第二类性能指标数据按照时间顺序排列而成的序列;
所述第一判断模块303,用于判断所述P(O|λ1)是否小于预设阈值;其中,所述预设阈值为P(O’|λ1)和P(O’|λ2)的差值,P(O’|λ1)为基于所述最优值λ1得到所述第二类性能指标数据序列O’的概率,P(O’|λ2)为基于所述初始值λ2得到所述第二类性能指标数据序列O’的概率;
所述确定模块304,用于在所述第一判断模块303判断为是的情况下,确定所述大数据平台处于异常状态;在所述第一判断模块303判断为否的情况下,确定所述大数据平台处于正常状态。
由以上可见,本发明实施例中,利用隐式马尔科夫模型对大数据平台进行性能检测。隐式马尔科夫模型是一个统计模型,是基于概率分布的模型,相对于ARIMA时间序列预测模型来说,准确率较高。因此,应用本发明图3所示实施例,提高了大数据平台性能检测的准确率。
具体的,所述第一计算模块302计算P(O|λ1)所利用的公式为:
P ( O | &lambda; 1 ) = &Sigma; i = 1 N &alpha; T ( i )
其中,1≤i≤N,N表示所述大数据平台的运行状态个数;T表示采集所述第一类性能指标数据的时间段;αT(i)表示在隐式马尔科夫模型为最优值λ1时,T时刻满足状态i,且T时刻及T时刻之前满足所述第一类性能指标数据序列O的概率。
具体的,计算所述P(O’|λ1)和所述P(O’|λ2)所利用的公式为:
P ( O &prime; | &lambda; ) = &Sigma; i = 1 N &alpha; t ( i ) &beta; t ( i )
其中,计算所述P(O’|λ1)时,上式中的λ=λ1;计算所述P(O’|λ2)时,上式中的λ=λ2;
1≤i≤N,N表示所述大数据平台的运行状态个数;1≤t≤T’,T’表示采集所述第二类性能指标数据的时间段;O’=(O’1O’2…O’T’);
αt(i)表示在隐式马尔科夫模型为λ时,t时刻满足状态i,且t时刻及t时刻之前满足第一观察值序列(O’1O’2…O’t)的概率;βt(i)表示在隐式马尔科夫模型为λ时,t时刻满足状态i,且t时刻以后满足第二观察值序列(O’t+1O’t+2…O’T’)的概率。
具体的,所述最优值λ1为:基于前向后向算法,由隐式马尔科夫模型的初始值λ2训练得到的。
具体的,所述初始值λ2为:基于Baum-Welch算法,利用隐式马尔科夫模型根据所述第二类性能指标数据序列O’得到的。
更进一步的,基于图3所述的装置实施例,如图4所示,本发明实施例所提供的一种大数据平台的性能检测装置,还可以包括:第二计算模块305、获得模块306、第二判断模块307;
其中,所述第二计算模块305,用于在确定模块304确定所述大数据平台处于异常状态之后,根据所述第一类性能指标数据序列O计算性能指标数据所对应性能指标中每两个性能指标的第一最大信息系数MIC值;
所述获得模块306,用于根据所述第一MIC值、第二MIC值和预先设定的MIC阈值,得到第一特征值;所述第二MIC值是根据所述第二类性能指标数据序列O’得到的性能指标数据所对应性能指标中每两个性能指标的MIC值;
所述第二判断模块307,用于根据所述第一特征值和第二特征值,判断异常原因;所述第二特征值是根据所述第二MIC值、第三MIC值和所述预先设定的MIC阈值得到的,所述第三MIC值是根据第三类性能指标数据序列得到的性能指标数据所对应性能指标中每两个性能指标的MIC值;所述第三类性能指标数据序列是采集的所述大数据平台在预先设定的异常运行状态下的第三类性能指标数据按照时间顺序排列而成的序列。
具体的,在实际应用中,所述大数据平台可以为Hadoop集群。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (8)

1.一种大数据平台的性能检测方法,其特征在于,所述方法包括步骤:
采集所述大数据平台当前运行状态下的第一类性能指标数据,获得第一类性能指标数据序列O;所述第一类性能指标数据序列O是所述第一类性能指标数据按照时间顺序排列而成的序列;
根据所述第一类性能指标数据序列O和隐式马尔科夫模型的最优值λ1,计算P(O|λ1);其中,P(O|λ1)为基于所述最优值λ1得到所述第一类性能指标数据序列O的概率,所述最优值λ1是由隐式马尔科夫模型的初始值λ2训练得到的,所述初始值λ2是利用隐式马尔科夫模型根据第二类性能指标数据序列O’得到的;所述第二类性能指标数据序列O’是采集的所述大数据平台正常状态下的第二类性能指标数据按照时间顺序排列而成的序列;
判断所述P(O|λ1)是否小于预设阈值;若为是,确定所述大数据平台处于异常状态;若为否,确定所述大数据平台处于正常状态;其中,所述预设阈值为P(O’|λ1)和P(O’|λ2)的差值,P(O’|λ1)为基于所述最优值λ1得到所述第二类性能指标数据序列O’的概率,P(O’|λ2)为基于所述初始值λ2得到所述第二类性能指标数据序列O’的概率。
2.根据权利要求1所述的方法,其特征在于,所述计算P(O|λ1)所利用的公式为:
P ( O | &lambda; 1 ) = &Sigma; i = 1 N &alpha; T ( i )
其中,1≤i≤N,N表示所述大数据平台的运行状态个数;T表示采集所述第一类性能指标数据的时间段;αT(i)表示在隐式马尔科夫模型为最优值λ1时,T时刻满足状态i,且T时刻及T时刻之前满足所述第一类性能指标数据序列O的概率。
3.根据权利要求1所述的方法,其特征在于,计算所述P(O’|λ1)和所述P(O’|λ2)所利用的公式为:
P ( O &prime; | &lambda; ) = &Sigma; i = 1 N &alpha; t ( i ) &beta; t ( i )
其中,计算所述P(O’|λ1)时,上式中的λ=λ1;计算所述P(O’|λ2)时,上式中的λ=λ2;
1≤i≤N,N表示所述大数据平台的运行状态个数;1≤t≤T’,T’表示采集所述第二类性能指标数据的时间段;O’=(O’1O’2…O’T’);
αt(i)表示在隐式马尔科夫模型为λ时,t时刻满足状态i,且t时刻及t时刻之前满足第一观察值序列(O’1O’2…O’t)的概率;βt(i)表示在隐式马尔科夫模型为λ时,t时刻满足状态i,且t时刻以后满足第二观察值序列(O’t+1O’t+2…O’T’)的概率。
4.根据权利要求1所述的方法,其特征在于,所述最优值λ1为:基于前向后向算法,由隐式马尔科夫模型的初始值λ2训练得到的。
5.根据权利要求1所述的方法,其特征在于,所述初始值λ2为:基于Baum-Welch算法,利用隐式马尔科夫模型根据所述第二类性能指标数据序列O’得到的。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在确定所述大数据平台处于异常状态之后,根据所述第一类性能指标数据序列O计算性能指标数据所对应性能指标中每两个性能指标的第一最大信息系数MIC值;
根据所述第一MIC值、第二MIC值和预先设定的MIC阈值,得到第一特征值;所述第二MIC值是根据所述第二类性能指标数据序列O’得到的性能指标数据所对应性能指标中每两个性能指标的MIC值;
根据所述第一特征值和第二特征值,判断异常原因;所述第二特征值是根据所述第二MIC值、第三MIC值和所述预先设定的MIC阈值得到的,所述第三MIC值是根据第三类性能指标数据序列得到的性能指标数据所对应性能指标中每两个性能指标的MIC值;所述第三类性能指标数据序列是采集的所述大数据平台在预先设定的异常运行状态下的第三类性能指标数据按照时间顺序排列而成的序列。
7.根据权利要求1所述的方法,其特征在于,所述大数据平台为Hadoop集群。
8.一种大数据平台的性能检测装置,其特征在于,所述装置包括:
采集模块,用于采集所述大数据平台当前运行状态下的第一类性能指标数据,获得第一类性能指标数据序列O;所述第一类性能指标数据序列O是所述第一类性能指标数据按照时间顺序排列而成的序列;
第一计算模块,用于根据所述第一类性能指标数据序列O和隐式马尔科夫模型的最优值λ1,计算P(O|λ1);其中,P(O|λ1)为基于所述最优值λ1得到所述第一类性能指标数据序列O的概率,所述最优值λ1是由隐式马尔科夫模型的初始值λ2训练得到的,所述初始值λ2是利用隐式马尔科夫模型根据第二类性能指标数据序列O’得到的;所述第二类性能指标数据序列O’是采集的所述大数据平台正常状态下的第二类性能指标数据按照时间顺序排列而成的序列;
第一判断模块,用于判断所述P(O|λ1)是否小于预设阈值;其中,所述预设阈值为P(O’|λ1)和P(O’|λ2)的差值,P(O’|λ1)为基于所述最优值λ1得到所述第二类性能指标数据序列O’的概率,P(O’|λ2)为基于所述初始值λ2得到所述第二类性能指标数据序列O’的概率;
确定模块,用于在所述第一判断模块判断为是的情况下,确定所述大数据平台处于异常状态;在所述第一判断模块判断为否的情况下,确定所述大数据平台处于正常状态。
CN201610154556.5A 2016-03-17 2016-03-17 一种大数据平台的性能检测方法及装置 Active CN105843733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610154556.5A CN105843733B (zh) 2016-03-17 2016-03-17 一种大数据平台的性能检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610154556.5A CN105843733B (zh) 2016-03-17 2016-03-17 一种大数据平台的性能检测方法及装置

Publications (2)

Publication Number Publication Date
CN105843733A true CN105843733A (zh) 2016-08-10
CN105843733B CN105843733B (zh) 2018-07-13

Family

ID=56587276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610154556.5A Active CN105843733B (zh) 2016-03-17 2016-03-17 一种大数据平台的性能检测方法及装置

Country Status (1)

Country Link
CN (1) CN105843733B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106293976A (zh) * 2016-08-15 2017-01-04 东软集团股份有限公司 应用性能风险预测方法、装置和系统
CN107493277A (zh) * 2017-08-10 2017-12-19 福建师范大学 基于最大信息系数的大数据平台在线异常检测方法
CN107844406A (zh) * 2017-10-25 2018-03-27 千寻位置网络有限公司 分布式系统的异常检测方法及系统、服务终端、存储器
CN109002015A (zh) * 2018-06-15 2018-12-14 河南中烟工业有限责任公司 一种自动化生产线设备故障停机率计算方法
WO2021051945A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 服务器性能监控方法、装置、计算机设备及存储介质
CN112988527A (zh) * 2019-12-13 2021-06-18 中国电信股份有限公司 Gpu管理平台异常检测方法、装置以及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130305092A1 (en) * 2012-05-14 2013-11-14 International Business Machines Corporation Problem Determination and Diagnosis in Shared Dynamic Clouds

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130305092A1 (en) * 2012-05-14 2013-11-14 International Business Machines Corporation Problem Determination and Diagnosis in Shared Dynamic Clouds
CN103428026A (zh) * 2012-05-14 2013-12-04 国际商业机器公司 用于共享动态云中的问题确定和诊断的方法和系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
FEI WANG 等: ""A HMM-based method for anomaly detection"", 《2011 4TH IEEE INTERNATIONAL CONFERENCE ON BROADBAND NETWORK AND MULTIMEDIA TECHNOLOGY》 *
PENGFEI CHEN 等: ""An ensemble MIC-based approach for performance diagnosis in big data platform"", 《2013 IEEE INTERNATIONAL CONFERENCE ON BIG DATA》 *
Y QIAO 等: ""Anomaly intrusion detection method based on HMM"", 《ELECTRONICS LETTERS》 *
刘鑫 等: ""基于时延相关解调_隐马尔科夫模型的故障诊断与模式识别研究"", 《机械传动》 *
吴军 等: ""基于性能劣化的可靠性预测与系统开发"", 《计算机集成制造系统》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106293976A (zh) * 2016-08-15 2017-01-04 东软集团股份有限公司 应用性能风险预测方法、装置和系统
CN107493277A (zh) * 2017-08-10 2017-12-19 福建师范大学 基于最大信息系数的大数据平台在线异常检测方法
CN107493277B (zh) * 2017-08-10 2020-06-16 福建师范大学 基于最大信息系数的大数据平台在线异常检测方法
CN107844406A (zh) * 2017-10-25 2018-03-27 千寻位置网络有限公司 分布式系统的异常检测方法及系统、服务终端、存储器
CN109002015A (zh) * 2018-06-15 2018-12-14 河南中烟工业有限责任公司 一种自动化生产线设备故障停机率计算方法
CN109002015B (zh) * 2018-06-15 2020-11-17 河南中烟工业有限责任公司 一种自动化生产线设备故障停机率计算方法
WO2021051945A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 服务器性能监控方法、装置、计算机设备及存储介质
CN112988527A (zh) * 2019-12-13 2021-06-18 中国电信股份有限公司 Gpu管理平台异常检测方法、装置以及存储介质

Also Published As

Publication number Publication date
CN105843733B (zh) 2018-07-13

Similar Documents

Publication Publication Date Title
CN105843733A (zh) 一种大数据平台的性能检测方法及装置
CN107169628B (zh) 一种基于大数据互信息属性约简的配电网可靠性评估方法
CN104766175A (zh) 一种基于时间序列分析的电力系统异常数据辨识与修正方法
CN107292023A (zh) 一种基于损伤指标体系窄域特性的桥梁结构状态诊断方法
CN101178703B (zh) 基于网络分割的故障诊断谱聚类方法
CN101232180A (zh) 一种配电系统负荷模糊建模装置及方法
CN103268279B (zh) 基于复合泊松过程的软件可靠性预测方法
CN104376231A (zh) 基于改进近似贝叶斯计算的损伤识别方法
CN111414703B (zh) 一种滚动轴承剩余寿命预测方法及装置
CN109726749A (zh) 一种基于多属性决策的最优聚类算法选择方法和装置
CN103020166A (zh) 一种电力实时数据异常检测方法
CN105956336A (zh) 一种面向静动态混合不确定性的拟建结构非概率可靠性优化设计方法
CN110162895A (zh) 一种两阶段的高能效船型优化设计方法
CN107632590A (zh) 一种基于优先级的底事件排序方法
CN106067034A (zh) 一种基于高维矩阵特征根的配电网负荷曲线聚类方法
CN108090677A (zh) 一种关键基础设施可靠性测评方法
CN112365361A (zh) 一种基于规则库的电力计量数据质量体检方法
CN105203327B (zh) 一种应用于发动机气路分析的气路测量参数选择方法
CN111126499A (zh) 一种基于二次聚类的用电行为模式分类方法
CN106056305A (zh) 一种基于状态聚类的发电系统可靠性快速评估方法
CN107276093B (zh) 基于场景削减的电力系统概率潮流计算方法
CN103400213A (zh) 一种基于lda与pca的骨干网架生存性评估方法
CN108183499B (zh) 一种基于拉丁超立方抽样概率潮流的静态安全分析方法
CN109101778B (zh) 基于性能退化数据和寿命数据融合的Wiener过程参数估计方法
CN102902875A (zh) 一种基于网络的失效相关系统可靠度评估方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Wang Ying

Inventor after: Qiu Xuesong

Inventor after: Li Jiacong

Inventor after: Guo Shaoyong

Inventor after: Huang Zhe

Inventor before: Wang Ying

Inventor before: Qiu Xuesong

Inventor before: Li Jiacong

Inventor before: Guo Shaoyong

CB03 Change of inventor or designer information