CN112988527A - Gpu管理平台异常检测方法、装置以及存储介质 - Google Patents

Gpu管理平台异常检测方法、装置以及存储介质 Download PDF

Info

Publication number
CN112988527A
CN112988527A CN201911278594.1A CN201911278594A CN112988527A CN 112988527 A CN112988527 A CN 112988527A CN 201911278594 A CN201911278594 A CN 201911278594A CN 112988527 A CN112988527 A CN 112988527A
Authority
CN
China
Prior art keywords
hidden markov
performance data
markov model
detected
performance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911278594.1A
Other languages
English (en)
Inventor
李佳聪
赵继壮
王峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201911278594.1A priority Critical patent/CN112988527A/zh
Publication of CN112988527A publication Critical patent/CN112988527A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]

Abstract

本公开提供了一种GPU管理平台异常检测方法、装置以及存储介质,其中的方法包括:采集GPU管理平台在正常状态下的性能指标数据,基于性能指标数据获得性能数据序列;构建与性能数据序列相对应的隐式马尔可夫模型,对隐式马尔可夫模型进行训练;获取GPU管理平台的待检测的性能数据,利用训练好的隐式马尔可夫模型对待检测的性能数据进行检测,判断待检测的性能数据是否异常。本公开的方法、装置、设备以及存储介质,利用基于隐式马尔可夫模型建立的GPU管理平台异常检测机制,可以检测多种性能数据的异常,具有更高的准确性,可靠性好。

Description

GPU管理平台异常检测方法、装置以及存储介质
技术领域
本发明涉及通信技术领域,尤其涉及一种GPU管理平台异常检测方法、装置以及存储介质。
背景技术
目前,随着人工智能技术的兴起,越来越多的研发人员加入到AI算法研究的行列中。在AI算法的研究过程中,需要使用GPU(GraphicsProcessing Unit,图形处理器)训练各类AI模型,为了更有效的利用GPU,开发了GPU管理平台,即用来给AI算法、应用开发人员提供GPU算力的平台。然而,在GPU管理平台运行中,有很多性能问题会影响GPU的利用率,因此尽可能解决所有的性能问题很有必要。GPU在人工智能领域中扮演非常重要的角色,因此,必须保证GPU平台的稳定性。但是,在目前现有技术中,没有对GPU平台性能异常进行检测方法。
发明内容
有鉴于此,本发明要解决的一个技术问题是提供一种GPU管理平台异常检测方法、装置以及存储介质。
根据本公开的一个方面,提供一种GPU管理平台异常检测方法,包括:采集GPU管理平台在正常状态下的性能指标数据,基于所述性能指标数据获得性能数据序列;构建与所述性能数据序列相对应的隐式马尔可夫模型,对所述隐式马尔可夫模型进行训练;获取所述GPU管理平台的待检测的性能数据,利用训练好的所述隐式马尔可夫模型对所述待检测的性能数据进行检测,判断所述待检测的性能数据是否异常。
可选地,所述构建与所述性能数据序列相对应的隐式马尔可夫模型,对所述隐式马尔可夫模型进行训练包括:构建与所述性能数据序列相对应的隐藏状态集;根据所述性能数据序列和所述隐藏状态构建并训练所述隐式马尔可夫模型。
可选地,使用Baum-Welch算法训练所述隐式马尔可夫模型,得到训练好的所述隐式马尔可夫模型。
可选地,所述利用训练好的所述隐式马尔可夫模型对所述待检测的性能数据进行检测,判断所述待检测的性能数据是否异常包括:获得训练好的所述隐式马尔可夫模型对于所述性能指标数据在正常状态下的概率阈值;使用所述概率阈值判断所述待检测的性能数据是否异常。
可选地,所述使用所述概率阈值判断所述待检测的性能数据是否异常包括:根据前向和后向算法,并利用训练好的所述隐式马尔可夫模型计算所述待检测的性能数据的概率P(0|λ);其中,λ为所述隐式马尔可夫模型的模型参数;基于所述P(0|λ)与概率阈值的比对结果,确定所述待检测的性能数据是否异常。
可选地,所述性能指标包括:CPU利用率、内存利用率、网络带宽以及IO读写速率;所述方法还包括:分别为各个性能指标构建对应的所述隐式马尔可夫模型并进行训练,获得各个训练好的所述隐式马尔可夫模型以及所述概率阈值。
根据本公开的另一方面,提供一种GPU管理平台异常检测装置,包括:数据采集模块,用于采集GPU管理平台在正常状态下的性能指标数据,基于所述性能指标数据获得性能数据序列;模型建立模块,用于构建与所述性能数据序列相对应的隐式马尔可夫模型,对所述隐式马尔可夫模型进行训练;异常确定模块,用于获取所述GPU管理平台的待检测的性能数据,利用训练好的所述隐式马尔可夫模型对所述待检测的性能数据进行检测,判断所述待检测的性能数据是否异常。
可选地,所述模型建立模块,用于构建与所述性能数据序列相对应的隐藏状态集;根据所述性能数据序列和所述隐藏状态构建并训练所述隐式马尔可夫模型。
可选地,所述模型建立模块,用于使用Baum-Welch算法训练所述隐式马尔可夫模型,得到训练好的所述隐式马尔可夫模型。
可选地,所述模型建立模块,用于获得训练好的所述隐式马尔可夫模型对于所述性能指标数据在正常状态下的概率阈值;所述异常确定模块,用于使用所述概率阈值判断所述待检测的性能数据是否异常。
可选地,所述异常确定模块,用于根据前向和后向算法,并利用训练好的所述隐式马尔可夫模型计算所述待检测的性能数据的概率P(0|λ);其中,λ为所述隐式马尔可夫模型的模型参数;基于所述P(0|λ)与概率阈值的比对结果,确定所述待检测的性能数据是否异常。
可选地,所述性能指标包括:CPU利用率、内存利用率、网络带宽以及IO读写速率;所述模型建立模块,用于分别为各个性能指标构建对应的所述隐式马尔可夫模型并进行训练,获得各个训练好的所述隐式马尔可夫模型以及所述概率阈值根据本公开的又一方面,提供一种GPU管理平台异常检测装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如上所述的方法。
根据本公开的又一方面,提供一种GPU管理平台异常检测装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如上所述的方法。
根据本公开的再一方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行如上所述的方法。
本公开的GPU管理平台异常检测方法、装置以及存储介质,利用基于隐式马尔可夫模型建立的GPU管理平台异常检测机制,可以检测多种性能数据的异常,具有更高的准确性,可靠性好。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为根据本公开的GPU管理平台异常检测方法的一个实施例的流程示意图;
图2为隐式马尔可夫模型的原理示意图;
图3为隐式马尔可夫模型的组成示意图;
图4为HMM模型与ARIMA模型的异常检测准确率对比示意图;
图5为根据本公开的GPU管理平台异常检测装置的一个实施例的模块示意图;
图6为根据本公开的GPU管理平台异常检测装置的另一个实施例的模块示意图。
具体实施方式
下面参照附图对本公开进行更全面的描述,其中说明本公开的示例性实施例。下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
图1为根据本公开的GPU管理平台异常检测方法的一个实施例的流程示意图,如图1所示:
步骤101,采集GPU管理平台在正常状态下的性能指标数据,基于性能指标数据获得性能数据序列。
步骤102,构建与性能数据序列相对应的隐式马尔可夫模型,对隐式马尔可夫模型进行训练。
步骤103,获取GPU管理平台的待检测的性能数据,利用训练好的隐式马尔可夫模型对待检测的性能数据进行检测,判断待检测的性能数据是否异常。
隐马尔可夫模型(Hidden Markov Model,HMM)是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。
HMM是一个统计模型,基于概率分析,从可观察的参数中确定该过程的隐含参数。因为基于概率分析,相对ARIMA时间序列预测模型的预测方法就会准确一些,以此提高GPU管理平台异常检测的准确性。
HMM是将马尔可夫模型的概念扩展到一个双重随机过程,即一个随机过程包含一个不可见从属随机过程,它只能通过另一套可以产生观察序列的随机过程才能观察到。
如图2所示,一个隐式马尔可夫模型(HMM)是一个五元组:(N,M,A,B,π),其中N={ql,…,qN},表示状态的总数;M={vl,…,vM),表示每个状态对应的观测事件数;A={aij},表示状态转移矩阵;B={bj(k)},表示每个状态下取所有观察事件的概率分布;π=πi,表示初始状态分布。
HMM的状态是不确定或不可见的,只有通过观察序列的随机过程才能表现出来,观察到的事件与状态并不是一一对应,而是通过一组概率分布想联系。HMM是一个双重随机过程,如图3所示,它由两部分组成:1.马尔可夫链:描述状态的转移,用转移概率描述;2.一般随机过程:描述状态与观察序列间的关系,用观察值概率描述。
在正常的马尔可夫模型中,状态对于观察者来说是直接可见的,这样状态变迁概率便是全部的参数。而在隐马尔可夫模型中,状态并不是直接可见的,但是受到状态影响的某些变量则是可见的。每一个状态在可能输出的符号上都有一个概率分布,因此输出符号的序列能够透露出状态序列的一些信息。
本公开的GPU管理平台异常检测方法,首先采集正常状态下GPU管理平台的性能指标,如CPU利用率、内存利用率等,建立正常状态下的性能模型,然后实时采集性能指标,基于HMM模型进行分析预测,如果发生资源异常,则发出警告,请管理员处理排查。
在一个实施例中,构建与性能数据序列相对应的隐藏状态集,根据性能数据序列和隐藏状态构建并训练隐式马尔可夫模型。构建性能数据序列以及隐藏状态集可以采用现有的多种方法,构建并训练隐式马尔可夫模型可以使用现有的多种方法。
例如,使用Baum-Welch算法训练隐式马尔可夫模型,得到训练好的隐式马尔可夫模型,获得训练好的隐式马尔可夫模型对于性能指标数据在正常状态下的概率阈值。可以使用现有的Baum-Welch算法训练隐式马尔可夫模型。
对于正常状态下的HMM训练,通过导入的GPU平台性能信息,如CPU利用率、内存利用率、网络带宽以及IO读写速率等,训练CPU正常状态下的参考模型,运用到Baum-Welch算法确定λ=(N,M,A,B,π)与正常状态的阈值。
在更新HMM参数方法中涉及到的一些变量:
向前变量:
设αt(i)为向前变量,它表示t时刻满足状态Si,且t时刻之前(包括t时刻)满足给定的观测序列的概率(O1O2…Ot)。即αt(i)=P(O1O2…Ot,xt=Si。初始值为πibi(O1),然后通过归纳法计算αt+1(j),计算公式如下所示:
Figure BDA0002316024190000061
其中,aij表示矩阵A中的元素,即从状态Si转移到状态Sj的概率。bj(Ot+1)表示观察值Ot+1在状态j中出现的概率。
向后变量:
设βt(i)为向后变量,它表示t时刻满足状态Si,且t时刻以后满足给定的观测序列的概率(Ot+1Ot+2…OT)。即βt(i)=P(Ot+1Ot+2…OT|qt=Si;λ)。初始值βT(i)为1,然后通过归纳法计算βt(i),计算公式如下所示:
Figure BDA0002316024190000062
其中,aij表示矩阵A中的元素,即从状态Si转移到状态Sj的概率。bj(Ot+1)表示观察值Ot+1在状态Sj中出现的概率。
中间变量:
定义变量εt(i,j)为t时刻处于状态Si,t+1时刻处于状态Sj的概率。即εt(i,j)=P(qt=Si,qt+1=Sj|O;λ)。使用向前变量和向后变量表示该变量如下:
Figure BDA0002316024190000071
定义变量γt(i)表示t时刻呈现状态Si的概率。即γt(i)=P(qt=Si|O;λ)。使用向前变量和向后变量表示该变量如下:
Figure BDA0002316024190000072
通过上述变量,可以得到从其他所有状态转移到状态Si的次数的期望值:
Figure BDA0002316024190000073
从状态Si转移出去的次数的期望值:
Figure BDA0002316024190000074
以及从状态Si转移到状态Sj的次数的期望值:
Figure BDA0002316024190000075
然后利用上述变量,通过下列公式,计算新的
Figure BDA0002316024190000076
Figure BDA0002316024190000077
Figure BDA0002316024190000078
Figure BDA0002316024190000079
通过不断迭代计算上式,直到两次计算得到的参数相差很小,例如设差值小于10-5,则停止迭代,说明
Figure BDA00023160241900000710
建模完成,初始值的P(O|λ)和最终得到的
Figure BDA00023160241900000711
的差值就是正常范围的阈值。计算P(O|λ)和
Figure BDA00023160241900000712
的公式如下:
Figure BDA00023160241900000713
在一个实施例中,使用概率阈值判断待检测的性能数据是否异常。根据前向和后向算法,并利用训练好的隐式马尔可夫模型计算待检测的性能数据的概率P(0|λ);其中,λ为隐式马尔可夫模型的模型参数;基于P(0|λ)与概率阈值的比对结果,确定待检测的性能数据是否异常。
异常检测方法为使用向前、后向算法计算P(O|λ),计算公式如下:
Figure BDA00023160241900000714
根据采集到的观察值序列O,基于上述建立的模型
Figure BDA00023160241900000715
通过上面的公式计算P(O|λ),如果得出的概率值大于阈值,说明在性能正常,否则说明异常发生。
向训练好的隐式马尔可夫模型导入检测的性能数据,利用前向算法计算P(O|λ)值,即基于模型λ得到观察值序列O的概率。概率越小,说明异常的机率越高,经过上一步的模型训练,确定阈值,当概率P(O|λ)小于该阈值时,说明异常发生,否则说明没有异常发生。
性能指标包括:CPU利用率、内存利用率、网络带宽以及IO读写速率等,可以分别为各个性能指标构建对应的隐式马尔可夫模型并进行训练,获得各个训练好的隐式马尔可夫模型以及概率阈值。
在一个实施例中,以CPU利用率为例,首先根据已经采集到的数据,建立λ=(A,B,π),A作为状态转移矩阵,为状态Q“低负荷”、“中度负荷”和“高度负荷”三种状态之间转移概率的集合;B作为观察值概率矩阵,是在状态Q的前提下出现特定观察值O的概率集合,设初始状态为低负荷,因此π=(1,0,0)。根据采集的数据,构建λ=(A,B,π),即为模型的初始值。通过Baum-Welch算法粗略估计HMM参数,即上述的初始值,由于初始值可能不太准确,则根据给出的数据不断更新HMM参数,最终得到最优HMM模型λ。
在一个实施例中,在服务器上安装GPU管理平台,然后进行仿真实验,将HMM模型和ARIMA模型进行比较。下面详细介绍HMM模型的建立过程。根据已采集的正常情况下的性能指标信息,构建A和B矩阵,以CPU利用率性能指标为例为例,A和B矩阵如下:
Figure BDA0002316024190000081
Figure BDA0002316024190000082
利用发明方案中的公式,计算出新的HMM参数
Figure BDA0002316024190000083
如下所示:
Figure BDA0002316024190000091
Figure BDA0002316024190000092
同时得到正常范围的阈值为:0.6758。注入CPU异常后,计算
Figure BDA0002316024190000093
为0.0005724096203,说明发生异常。HMM模型与ARIMA模型的异常检测准确率对比如图6所示。
在一个实施例中,如图5所示,本公开提供一种GPU管理平台异常检测装置50,包括:数据采集模块51、模型建立模块52和异常确定模块53。数据采集模块51采集GPU管理平台在正常状态下的性能指标数据,基于性能指标数据获得性能数据序列。模型建立模块52构建与性能数据序列相对应的隐式马尔可夫模型,对隐式马尔可夫模型进行训练。异常确定模块53获取GPU管理平台的待检测的性能数据,利用训练好的隐式马尔可夫模型对待检测的性能数据进行检测,判断待检测的性能数据是否异常。
模型建立模块52构建与性能数据序列相对应的隐藏状态集;根据性能数据序列和隐藏状态构建并训练隐式马尔可夫模型。模型建立模块52使用Baum-Welch算法训练隐式马尔可夫模型,得到训练好的隐式马尔可夫模型。
模型建立模块53获得训练好的隐式马尔可夫模型对于性能指标数据在正常状态下的概率阈值。异常确定模块53使用概率阈值判断待检测的性能数据是否异常。
性能指标包括:CPU利用率、内存利用率、网络带宽以及IO读写速率等。模型建立模块52分别为各个性能指标构建对应的隐式马尔可夫模型并进行训练,获得各个训练好的隐式马尔可夫模型以及概率阈值。
在一个实施例中,异常确定模块53根据前向和后向算法,并利用训练好的隐式马尔可夫模型计算待检测的性能数据的概率P(0|λ);其中,λ为隐式马尔可夫模型的模型参数。异常确定模块53基于P(0|λ)与概率阈值的比对结果,确定待检测的性能数据是否异常。
图6为根据本公开的GPU管理平台异常检测系统的另一个实施例的模块示意图。如图6所示,该装置可包括存储器61、处理器62、通信接口63以及总线64。存储器61用于存储指令,处理器62耦合到存储器61,处理器62被配置为基于存储器61存储的指令执行实现上述的GPU管理平台异常检测方法。
存储器61可以为高速RAM存储器、非易失性存储器(non-volatilememory)等,存储器61也可以是存储器阵列。存储器61还可能被分块,并且块可按一定的规则组合成虚拟卷。处理器62可以为中央处理器CPU,或专用集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本公开的GPU管理平台异常检测方法的一个或多个集成电路。
在一个实施例中,本公开提供一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,指令被处理器执行如上任一实施例中的GPU管理平台异常检测方法。
上述实施例中提供的GPU管理平台异常检测方法、装置以及存储介质,首次提出关于GPU管理平台异常检测的技术方案;利用基于隐式马尔可夫模型建立的GPU管理平台异常检测机制,可以检测多种性能数据的异常;隐式马尔可夫模型是基于数据统计然后训练出的概率模型,相比自回归积分滑动平均模型ARIMA检测方法,具有更高的准确性,可靠性好。
可能以许多方式来实现本公开的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
本公开的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用,并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims (14)

1.一种GPU管理平台异常检测方法,包括:
采集GPU管理平台在正常状态下的性能指标数据,基于所述性能指标数据获得性能数据序列;
构建与所述性能数据序列相对应的隐式马尔可夫模型,对所述隐式马尔可夫模型进行训练;
获取所述GPU管理平台的待检测的性能数据,利用训练好的所述隐式马尔可夫模型对所述待检测的性能数据进行检测,判断所述待检测的性能数据是否异常。
2.如权利要求1所述的方法,所述构建与所述性能数据序列相对应的隐式马尔可夫模型,对所述隐式马尔可夫模型进行训练包括:
构建与所述性能数据序列相对应的隐藏状态集;
根据所述性能数据序列和所述隐藏状态构建并训练所述隐式马尔可夫模型。
3.如权利要求2所述的方法,还包括:
使用Baum-Welch算法训练所述隐式马尔可夫模型,得到训练好的所述隐式马尔可夫模型。
4.如权利要求3所述的方法,所述利用训练好的所述隐式马尔可夫模型对所述待检测的性能数据进行检测,判断所述待检测的性能数据是否异常包括:
获得训练好的所述隐式马尔可夫模型对于所述性能指标数据在正常状态下的概率阈值;
使用所述概率阈值判断所述待检测的性能数据是否异常。
5.如权利要求4所述的方法,所述使用所述概率阈值判断所述待检测的性能数据是否异常包括:
根据前向和后向算法,并利用训练好的所述隐式马尔可夫模型计算所述待检测的性能数据的概率P(0|λ);其中,λ为所述隐式马尔可夫模型的模型参数;
基于所述P(0|λ)与概率阈值的比对结果,确定所述待检测的性能数据是否异常。
6.如权利要求5所述的方法,其中,所述性能指标包括:CPU利用率、内存利用率、网络带宽以及IO读写速率;所述方法还包括:
分别为各个性能指标构建对应的所述隐式马尔可夫模型并进行训练,获得各个训练好的所述隐式马尔可夫模型以及所述概率阈值。
7.一种GPU管理平台异常检测装置,包括:
数据采集模块,用于采集GPU管理平台在正常状态下的性能指标数据,基于所述性能指标数据获得性能数据序列;
模型建立模块,用于构建与所述性能数据序列相对应的隐式马尔可夫模型,对所述隐式马尔可夫模型进行训练;
异常确定模块,用于获取所述GPU管理平台的待检测的性能数据,利用训练好的所述隐式马尔可夫模型对所述待检测的性能数据进行检测,判断所述待检测的性能数据是否异常。
8.如权利要求7所述的装置,其中,
所述模型建立模块,用于构建与所述性能数据序列相对应的隐藏状态集;根据所述性能数据序列和所述隐藏状态构建并训练所述隐式马尔可夫模型。
9.如权利要求8所述的装置,其中,
所述模型建立模块,用于使用Baum-Welch算法训练所述隐式马尔可夫模型,得到训练好的所述隐式马尔可夫模型。
10.如权利要求9所述的装置,其中,
所述模型建立模块,用于获得训练好的所述隐式马尔可夫模型对于所述性能指标数据在正常状态下的概率阈值;
所述异常确定模块,用于使用所述概率阈值判断所述待检测的性能数据是否异常。
11.如权利要求10所述的装置,其中,
所述异常确定模块,用于根据前向和后向算法,并利用训练好的所述隐式马尔可夫模型计算所述待检测的性能数据的概率P(0|λ);其中,λ为所述隐式马尔可夫模型的模型参数;基于所述P(0|λ)与概率阈值的比对结果,确定所述待检测的性能数据是否异常。
12.如权利要求11所述的装置,其中,所述性能指标包括:CPU利用率、内存利用率、网络带宽以及IO读写速率;
所述模型建立模块,用于分别为各个性能指标构建对应的所述隐式马尔可夫模型并进行训练,获得各个训练好的所述隐式马尔可夫模型以及所述概率阈值。
13.一种GPU管理平台异常检测装置,包括:
存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1至6中任一项所述的方法。
14.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行如权利要求1至6中任一项所述的方法。
CN201911278594.1A 2019-12-13 2019-12-13 Gpu管理平台异常检测方法、装置以及存储介质 Pending CN112988527A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911278594.1A CN112988527A (zh) 2019-12-13 2019-12-13 Gpu管理平台异常检测方法、装置以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911278594.1A CN112988527A (zh) 2019-12-13 2019-12-13 Gpu管理平台异常检测方法、装置以及存储介质

Publications (1)

Publication Number Publication Date
CN112988527A true CN112988527A (zh) 2021-06-18

Family

ID=76332337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911278594.1A Pending CN112988527A (zh) 2019-12-13 2019-12-13 Gpu管理平台异常检测方法、装置以及存储介质

Country Status (1)

Country Link
CN (1) CN112988527A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420654A (zh) * 2021-06-22 2021-09-21 国网北京市电力公司 变电站状态的处理方法、装置以及计算机可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778737A (zh) * 2015-03-23 2015-07-15 浙江大学 基于gpu的大规模落叶实时渲染方法
CN105511944A (zh) * 2016-01-07 2016-04-20 上海海事大学 一种云系统内部虚拟机的异常检测方法
US20160132753A1 (en) * 2014-11-06 2016-05-12 Qualcomm Incorporated Nonparametric model for detection of spatially diverse temporal patterns
CN105843733A (zh) * 2016-03-17 2016-08-10 北京邮电大学 一种大数据平台的性能检测方法及装置
CN108693975A (zh) * 2018-07-27 2018-10-23 广州大学 一种低功耗的手势识别装置及识别控制方法
CN108734286A (zh) * 2017-04-24 2018-11-02 英特尔公司 在推断期间中对图形处理器的协调和增加利用
CN110032449A (zh) * 2019-04-16 2019-07-19 苏州浪潮智能科技有限公司 一种优化gpu服务器的性能的方法及装置
CN110334741A (zh) * 2019-06-06 2019-10-15 西安电子科技大学 基于循环神经网络的雷达一维距离像识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160132753A1 (en) * 2014-11-06 2016-05-12 Qualcomm Incorporated Nonparametric model for detection of spatially diverse temporal patterns
CN104778737A (zh) * 2015-03-23 2015-07-15 浙江大学 基于gpu的大规模落叶实时渲染方法
CN105511944A (zh) * 2016-01-07 2016-04-20 上海海事大学 一种云系统内部虚拟机的异常检测方法
CN105843733A (zh) * 2016-03-17 2016-08-10 北京邮电大学 一种大数据平台的性能检测方法及装置
CN108734286A (zh) * 2017-04-24 2018-11-02 英特尔公司 在推断期间中对图形处理器的协调和增加利用
CN108693975A (zh) * 2018-07-27 2018-10-23 广州大学 一种低功耗的手势识别装置及识别控制方法
CN110032449A (zh) * 2019-04-16 2019-07-19 苏州浪潮智能科技有限公司 一种优化gpu服务器的性能的方法及装置
CN110334741A (zh) * 2019-06-06 2019-10-15 西安电子科技大学 基于循环神经网络的雷达一维距离像识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王海波;耿相铭;: "高性能显卡设计中的峰值电流控制技术", 电子世界, no. 18, pages 65 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420654A (zh) * 2021-06-22 2021-09-21 国网北京市电力公司 变电站状态的处理方法、装置以及计算机可读存储介质

Similar Documents

Publication Publication Date Title
Li et al. A hybrid machine learning framework for joint SOC and SOH estimation of lithium-ion batteries assisted with fiber sensor measurements
US20070260563A1 (en) Method to continuously diagnose and model changes of real-valued streaming variables
US20230102815A1 (en) Turbulence field update method and apparatus, and related device thereof
CN103389472B (zh) 一种基于nd-ar模型的锂离子电池循环寿命的预测方法
CN103399281B (zh) 基于循环寿命退化阶段参数的nd-ar模型和ekf方法的锂离子电池循环寿命预测方法
Wang et al. A transferable lithium-ion battery remaining useful life prediction method from cycle-consistency of degradation trend
CN114297036A (zh) 数据处理方法、装置、电子设备及可读存储介质
CN110794308B (zh) 列车电池容量预测方法及装置
CN116021981A (zh) 配电网线路覆冰故障预测方法、装置、设备及存储介质
CN115221017A (zh) 服务器温度传感器自检的方法、系统、设备及存储介质
CN115979310A (zh) 一种惯导系统性能退化评估方法、系统、电子设备及介质
CN112988527A (zh) Gpu管理平台异常检测方法、装置以及存储介质
CN116565861B (zh) 一种配电网可靠性评估方法、系统、设备和介质
CN108228959A (zh) 利用删失数据估计系统实际状态的方法及应用其的滤波器
CN112396535A (zh) 智能电网的管理方法、装置、设备及存储介质
CN111898746A (zh) 一种中断航迹接续关联深度学习方法
CN115587673B (zh) 一种电压互感器误差状态预测方法及系统
CN115952916A (zh) 基于人工智能的风电功率预测误差修正方法、装置及设备
CN112346995B (zh) 一种基于银行业的测试风险预估模型的构建方法及装置
CN114157486B (zh) 通信流量数据异常检测方法、装置、电子设备及存储介质
CN113408676A (zh) 一种结合云端与边端的窃电用户识别方法及装置
CN114139601A (zh) 一种对电力巡检场景人工智能算法模型的评估方法及系统
CN113313261A (zh) 函数处理方法、装置及电子设备
CN114884694B (zh) 一种基于分层建模的工控网络安全风险评估方法
CN117216454B (zh) 基于模糊非概率的可靠性评估方法、装置、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination