CN111565118A - 基于多观测维度hmm的虚拟化网元故障分析方法及系统 - Google Patents
基于多观测维度hmm的虚拟化网元故障分析方法及系统 Download PDFInfo
- Publication number
- CN111565118A CN111565118A CN202010305456.4A CN202010305456A CN111565118A CN 111565118 A CN111565118 A CN 111565118A CN 202010305456 A CN202010305456 A CN 202010305456A CN 111565118 A CN111565118 A CN 111565118A
- Authority
- CN
- China
- Prior art keywords
- data
- probability
- observation
- time
- hidden state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明公开了一种基于多观测维度HMM的虚拟化网元故障分析方法及系统,涉及信息处理技术领域,本发明基于多观测维度HMM模型建模,在采用历史观测数据计算故障状态概率时还考虑到了故障状态间的转移,并且综合多个监控项观测数据计算联合概率,进一步提高了分析结果的准确性。本发明实现了对故障告警的自动化处理,降低了云化网络平台的运维成本,提升了云化网络平台的稳定性和故障响应处理的时效性。
Description
技术领域
本发明涉及信息处理技术领域,具体涉及一种基于多观测维度HMM(HiddenMarkov Model,隐马尔可夫模型)的虚拟化网元故障分析方法及系统。
背景技术
参见图1所示,网络功能虚拟化(NFV,Network Functions Virtualization)提供了一种设计、部署和管理网络服务的全新方式,NFV将网络功能如网络地址转换(NAT,Network Address Translation)、防火墙、入侵检测、域名服务和缓存等功能从专有硬件中分离出来,并通过软件加以实现。每个VNF(Virtualized Network Function,虚拟化网络功能)包括多个VNFC(Virtualized Network Function Componet,虚拟化网络功能组件),每个VNFC映射为一个VM(Virtual Machine,虚拟机)。由于NFV需要大量的虚拟化资源,因此需要高度的软件管理,业界称之为编排。业务流程编排、连接、监控和管理NFV服务平台所需的资源,参见图2所示,NFV MANO(Management and Orchestration,管理和编排)是用于管理和协调虚拟化网络功能(VNF)和其他软件组件的架构框架。虚拟化网络的自动化弹性、自动化治愈是MANO解决方案致力实现的目标。就目前为止各厂家的自动化弹性、自动化治愈是通过策略配置简单的监控项阈值与对应处理规则来实现。然而MANO编排下的虚拟化网络功能的实现是由众多的微服务构成,故障的定位和分析极其复杂,绝非通过人工配置的简单规则就能正确处理,错误的处理规则甚至会引入误操作的风险,这将造成不可挽回的损失。例如虚拟化网元在负荷较重或者出现故障时监控项的数值的可能较高,按人工定义的处理规则就是在阈值超限时做出一个提前规定的处理动作,规则定义在超出阈值时进行自动扩容或自愈显然都不合适。因此在人为制定自动化弹性、自动化治愈规则时,规则的正确性和有效性都得不到保证。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种基于多观测维度HMM的虚拟化网元故障分析方法及系统,实现了对故障告警的自动化处理,降低了云化网络平台的运维成本。
为达到以上目的,本发明采取的技术方案是:一种基于多观测维度HMM的虚拟化网元故障分析方法,包括以下步骤:
构建HMM模型,HMM模型参数包括A,B,π,A为隐藏状态转移的概率矩阵,B为虚拟化网元处于各个隐藏状态下观察到各种监控项所处状态的概率,简称观测矩阵,π为初始隐藏状态的分布概率;
根据历史观测数据确定HMM模型参数,将构建的HMM模型和确定的模型参数应用于虚拟化网元故障分析;
收集触发虚拟化网元告警的之前的观测数据和之后一段时间内的观测数据;
采用模型参数和观测数据,计算触发虚拟化网元告警之后一段时间内某时刻的各种故障类型的出现频率,选择出现频率最高的故障类型作为结果。
在上述技术方案的基础上,根据历史观测数据确定HMM模型参数,将构建的HMM模型和确定的模型参数应用于虚拟化网元故障分析,具体包括以下步骤:
对部分数据进行预处理,随机取出一半的预处理数据进行有监督学习,获得模型参数的初始值;
采用模型参数的初始值和另一半预处理数据进行无监督学习,获得模型参数的预测值;
采用剩下的未预处理的数据,对获得模型参数的预测值进行测试,测试通过才将模型参数的预测值作为模型参数的最终值;
将构建的HMM模型和该模型参数的最终值应用于虚拟化网元故障分析。
在上述技术方案的基础上,对部分数据进行预处理,随机取出一半的预处理数据进行有监督学习,获得模型参数的初始值,具体包括以下步骤:
对部分数据进行预处理,随机取出一半的预处理数据进行有监督学习,处理后的数据表示为{{I1,O1},{I2,O2},……{In,On}},其中Ij表示第j组数据的隐藏状态序列,Oj表示第j组监控项的观测数据序列;
统计在任意时刻t隐藏状态为i,而在t+1时刻隐藏状态转移为j的频数Count(Traij),则隐藏状态转移的概率矩阵A的第i行第j列的元素aij为:
i=1,2……N;j=1,2……N;
统计在隐藏状态i下观测状态oj出现的频率Oij,则观测矩阵B的第i行第j列的元素为:
i=1,2……N;j=1,2……M;M代表M种观察状态;
A为N*N矩阵,B为N*M矩阵;
对于初始状态概率分布π,设n组观测数据中初始隐藏状态为i的数据有Si组,则πi为:
πi=Si/n。
在上述技术方案的基础上,采用模型参数的初始值和另一半预处理数据进行无监督学习,获得模型参数的预测值,具体包括以下步骤:
将时刻t处于qi状态且在t+1时刻处于qj状态的概率记为:
εt(i,j)=P(it=qi,it+1=qj,O|λ)
根据前向后向概率的定义:
其中,αt(i)表示在时刻t系统处于隐藏状态i且t时刻之前到时刻t观测序列所观测到数据的概率;
aij表示下一时刻转换到状态j;
bj(ot+1)表示t+1时刻,隐藏状态为j,出现观测状态o(t+1)的概率;
βt+1(j)表示在时刻t+1系统处于隐藏状态j,且t+1时刻之后不包括时刻t+1的观测序列所观测到数据的概率;
εt(i,j)表示根据观测数据对时刻t为状态i,t+1时刻为状态j的估计;
根据baum-welch算法,进行无监督学习的实施步骤包括:
按照下式对n进行递推计算,n为从1开始的自然数;
采用另一半预处理数据O={o1,o2……oT}和λ(n)=(A(n),B(n),Π(n))进行计算,得到模型参数最终值λ(n+1)=(A(n+1),B(n+1),Π(n+1))。
在上述技术方案的基础上,采用模型参数和观测数据,计算触发虚拟化网元告警之后一段时间内某时刻的各种故障类型的出现频率,选择出现频率最高的故障类型作为结果,具体包括以下步骤:
根据HMM模型的前向概率定义、计算出的模型参数的最终值λ、时刻t的观测数据序列为o1,o2……ot,计算隐藏状态为qi的前向概率:
αt(i)=P(O={o1,o2……ot},it=qi|λ)①
根据HMM模型的后向概率定义、计算出的模型参数的最终值λ、时刻t的隐藏状态qi,以及从t+1到T的观测数据序列ot+1,……oT,计算隐藏状态为qi的后向概率:
βt(i)=P(O={ot+1,ot+2……oT},it=qi|λ)②
根据观测结果计算t时刻隐藏状态为qi的概率:
其中,P(it=qi,O|λ)=αt(i)*βt(i)④
设有N个隐藏状态,M个监控项,则M个监控项观测数据计算出的概率结果为M*N的矩阵:
其中元素γij为在t时刻,根据监控项i计算出隐藏状态为qj的概率;
计算出不同监控项的观测数据的隐藏状态为qj的联合概率:
计算出在时刻t处于各个隐藏状态的概率,选择出现频率最高的故障类型作为时刻t的隐藏状态的估计结果。
本发明还提供一种基于多观测维度HMM的虚拟化网元故障分析系统,包括:
模型构建模块,其用于:构建HMM模型,HMM模型参数包括A,B,π,A为隐藏状态转移的概率矩阵,B为虚拟化网元处于各个隐藏状态下观察到各种监控项的概率,简称观测矩阵,π为初始隐藏状态的分布概率;
模型训练模块,其用于:根据历史观测数据确定HMM模型参数,将构建的HMM模型和确定的模型参数应用于虚拟化网元故障分析;
数据采集模块,其用于:收集触发虚拟化网元告警的之前的观测数据和之后一段时间内的观测数据;
故障分析模块,其用于:采用模型参数和观测数据,计算触发虚拟化网元告警之后一段时间内某时刻的各种故障类型的出现频率,选择出现频率最高的故障类型作为结果。
在上述技术方案的基础上,所述模型训练模块具体用于:
对部分数据进行预处理,随机取出一半的预处理数据进行有监督学习,获得模型参数的初始值;
采用模型参数的初始值和另一半预处理数据进行无监督学习,获得模型参数的预测值;
采用剩下的未预处理的数据,对获得模型参数的预测值进行测试,测试通过才将模型参数的预测值作为模型参数的最终值;
将构建的HMM模型和该模型参数的最终值应用于虚拟化网元故障分析。
在上述技术方案的基础上,所述模型训练模块对部分数据进行预处理,随机取出一半的预处理数据进行有监督学习,获得模型参数的初始值,具体包括以下步骤:
对部分数据进行预处理,随机取出一半的预处理数据进行有监督学习,处理后的数据表示为{{I1,O1},{I2,O2},……{In,On}},其中Ij表示第j组数据的隐藏状态序列,Oj表示第j组监控项的观测数据序列;
统计在任意时刻t隐藏状态为i,而在t+1时刻隐藏状态转移为j的频数Count(Traij),则隐藏状态转移的概率矩阵A的第i行第j列的元素aij为:
i=1,2……N;j=1,2……N;
统计在隐藏状态i下观测状态oj出现的频率Oij,则观测矩阵B的第i行第j列的元素为:
i=1,2……N;j=1,2……M;M代表M种观察状态;
A为N*N矩阵,B为N*M矩阵;
对于初始状态概率分布π,设n组观测数据中初始隐藏状态为i的数据有Si组,则πi为:
πi=Si/n。
在上述技术方案的基础上,所述模型训练模块采用模型参数的初始值和另一半预处理数据进行无监督学习,获得模型参数的预测值,具体包括以下步骤:
将时刻t处于qi状态且在t+1时刻处于qj状态的概率记为:
εt(i,j)=P(it=qi,it+1=qj,O|λ)
根据前向后向概率的定义:
其中,αt(i)表示在时刻t系统处于隐藏状态i且t时刻之前到时刻t观测序列所观测到数据的概率;
aij表示下一时刻转换到状态j;
bj(ot+1)表示t+1时刻,隐藏状态为j,出现观测状态o(t+1)的概率;
βt+1(j)表示在时刻t+1系统处于隐藏状态j,且t+1时刻之后不包括时刻t+1的观测序列所观测到数据的概率;
εt(i,j)表示根据观测数据对时刻t为状态i,t+1时刻为状态j的估计;
根据baum-welch算法,进行无监督学习的实施步骤包括:
按照下式对n进行递推计算,n为从1开始的自然数;
采用另一半预处理数据O={o1,o2……oT}和λ(n)=(A(n),B(n),Π(n))进行计算,得到模型参数最终值λ(n+1)=(A(n+1),B(n+1),Π(n+1))。
在上述技术方案的基础上,所述故障分析模块采用确定的模型参数和观测数据,计算触发虚拟化网元告警之后一段时间内某时刻的各种故障类型的出现频率,选择出现频率最高的故障类型作为结果,具体包括以下步骤:
根据HMM模型的前向概率定义、计算出的模型参数的最终值λ、时刻t的观测数据序列为o1,o2……ot,计算隐藏状态为qi的前向概率:
αt(i)=P(O={o1,o2……ot},it=qi|λ)①
根据HMM模型的后向概率定义、计算出的模型参数的最终值λ、时刻t的隐藏状态qi,以及从t+1到T的观测数据序列ot+1,……oT,计算隐藏状态为qi的后向概率:
βt(i)=P(O={ot+1,ot+2……oT},it=qi|λ)②
根据观测结果计算t时刻隐藏状态为qi的概率:
其中,P(it=qi,O|λ)=αt(i)*βt(i)④
设有N个隐藏状态,M个监控项,则M个监控项观测数据计算出的概率结果为M*N的矩阵:
其中元素γij为在t时刻,根据监控项i计算出隐藏状态为qj的概率;
计算出不同监控项估计隐藏状态为qj的联合概率:
计算出在时刻t处于各个隐藏状态的概率,选择联合概率最高的故障类型作为时刻t的隐藏状态的估计结果。
与现有技术相比,本发明的优点在于:
本发明基于多观测维度HMM模型建模,在采用历史观测数据计算故障状态概率时还考虑到了故障状态间的转移,并且综合多个监控项观测数据计算联合概率,进一步提高了分析结果的准确性。本发明实现了对故障告警的自动化处理,降低了云化网络平台的运维成本,提升了云化网络平台的稳定性和故障响应处理的时效性。
附图说明
图1为背景技术的VNF内部组成;
图2为背景技术的MANO闭环控制示意图;
图3为本发明实施例的基于多观测维度HMM的虚拟化网元故障分析方法的流程示意图;
图4为本发明实施例的基于多观测维度HMM的虚拟化网元故障分析方法的HMM模型示意图;
图5为本发明实施例的基于多观测维度HMM的虚拟化网元故障分析方法的根据历史观测数据确定HMM模型参数的流程示意图;
图6为本发明实施例的基于多观测维度HMM的虚拟化网元故障分析方法的根据观测数据预测故障类型的流程示意图。
具体实施方式
以下结合附图对本发明的实施例作进一步详细说明。
参见图3所示,本发明实施例提供一种基于多观测维度HMM的虚拟化网元故障分析方法,包括以下步骤:
S1、构建HMM模型,HMM模型参数包括,A为隐藏状态转移的概率矩阵,B为虚拟化网元处于各个隐藏状态下观察到各种监控项的概率,简称观测矩阵,π为初始隐藏状态的分布概率;
S2、根据历史观测数据确定HMM模型参数,将构建的HMM模型和确定的模型参数应用于虚拟化网元故障分析;
S3、收集触发虚拟化网元告警的之前的观测数据和之后一段时间内的观测数据;
S4、采用模型参数和观测数据,计算触发虚拟化网元告警之后一段时间内某时刻的各种故障类型的出现频率,选择出现频率最高的故障类型作为结果。
以下对本发明的实施例的各个步骤作进一步详细说明。
1、HMM模型参数的初步确定
一个HMM模型可以表示成:
λ=(A,B,π)
其中A是一个N*N矩阵,它表示隐藏状态转移的概率矩阵,这里的隐藏状态就对应虚拟化网元的故障状态,其中正常状态也可以看作一种隐藏状态。在业务运行的过程中虚拟化网元可能从一种隐藏状态转移到另一种隐藏状态,这一过程可以看作一个随机过程,矩阵A的元素aij是描述在任意时刻隐藏状态i转移至隐藏状态j的概率。假设根据以往经验,知道虚拟化网元的故障状态有5种,那么再加上一种正常状态,矩阵A的维度就是6*6。参见图4所示,I表示不可直接观测的隐藏状态,O表示可以观测到的观测状态。
B是一个N*M矩阵,它表示虚拟化网元处于各个隐藏状态下观察到各种状态的概率。例如虚拟化网元的cpu占用率就是一项观测项,cpu占用率的取值范围在0-100之间,为了便于处理可以将0-100等分成10个区间,将10个区间用0-9的整数编码,那么在各个隐藏状态下cpu占用率可能的观测状态就有10个。用Bcpu表示cpu占用率在各个隐藏状态下的观测概率,根据已知的隐藏状态数为6种,那么Bcpu就是一个6*10的矩阵,在它第i行第j列的元素就表示在隐藏状态i下观测到cpu占用率落在区间j的概率。实际上监控项远不止cpu占用率一种,不同监控项可以看作来自不同维度的观测序列。因此在虚拟化网元故障推断模型中会有多个观测状态矩阵。
π是一个一维向量N*1,它表示初始隐藏状态的概率分布,第i个元素就表示初始隐藏状态是状态i的概率。
2、HMM模型参数的确定
为了能够使用模型进行计算首先需要确定模型的3个参数A,B,π,基于虚拟化网元的历史性能观测数据可以确定这些参数。根据实际情况可以选择有监督学习或无监督学习方式:
(1)有监督学习方式
有监督学习的观测数据需要先进行预处理,能够收集到的历史数据只有观测状态的信息,经过处理后要能够知道各个时刻的观测状态对应的隐藏状态。处理后的组数据可以表示为{{I1,O1},{I2,02},……{In,On}},其中Ij表示第j组数据的隐藏状态序列,Oj表示第j组数据的观测状态序列。通过这样的观测数据可以统计出在任意时刻t隐藏状态为i,而在t+1时刻隐藏状态转移为j的频数Count(Traij),那么状态转移矩阵A第i行第j列的元素aij就可以按照下式确定:
i=1,2……N;j=1,2……N;
对矩阵B可以统计在隐藏状态i下观测状态oj出现的频率Oij,则观测矩阵B的第i行第j列的元素为:
i=1,2……N;j=1,2……M;M代表M种观察状态;
A为N*N矩阵,B为N*M矩阵;
对于初始状态概率分布π,设n组观测数据中初始隐藏状态为i的数据有Si组,那么πi可以按照下式确定:
πi=Si/n
(2)无监督学习方式
当观测数据量较大时对所有数据进行预处理工作量较大,更多时候获取到的观测数据是{O1,O2……On}的形式。基于baum-welch算法可以实现给定初始参数值λ0=(A0,B0,π0)后迭代计算模型参数,计算过程中λk+1的取值仅取决于λk以及Ok,通过这种迭代计算的方式可以省去预处理观测数据的工作,但是模型收敛速度较慢,需要的数据量也远大于有监督学习。
综上可以看出有监督学习收敛速度较快,但是需要较大的工作量预处理观测数据,无监督学习不需要预处理观测数据,但是收敛速度慢。
作为优选的实施方式,先用比较少量经过预处理的观测数据计算模型参数,将得到的结果作为无监督学习的模型参数初始值,这样既不需要预处理大量的观测数据,又能够加速无监督学习的收敛速度。不同监控项对应的参数B需要用各自的观测数据独立计算,但是各个监控项的观测数据都可以用于A和π的计算。在模型参数最终值确定后使用未被使用的预处理数据对得到的HMM模型参数的预测值进行测试,测试通过才将模型参数的预测值作为模型参数的最终值。具体过程如下:
参见图5所示,在这一阶段为了提升确定模型参数的效率,需要先对一部分数据进行预处理,并随机取出一半的预处理数据进行有监督学习获取一个模型参数初始值,再用这个模型参数初始值去启动无监督学习。用剩下的未预处理的数据进行无监督学习,为了防止无监督学习收敛在局部最优处,这里会将有监督学习结果叠加一个随机噪声信号作为初始值开始无监督学习。
将时刻t处于qi状态且在t+1时刻处于qj状态的概率记为:
εt(i,j)=P(it=qi,it+1=qj,O|λ)
根据前向后向概率的定义:
其中,αt(i)表示在时刻t系统处于隐藏状态i且t时刻之前到时刻t观测序列所观测到数据的概率;
aij表示下一时刻转换到状态j;
bj(ot+1)表示t+1时刻,隐藏状态为j,出现观测状态o(t+1)的概率;
βt+1(j)表示在时刻t+1系统处于隐藏状态j,且t+1时刻之后不包括时刻t+1的观测序列所观测到数据的概率;
εt(i,j)表示根据观测数据对时刻t为状态i,t+1时刻为状态j的估计;
分子部分表示:假设时刻t为状态i,那么起始时刻到时刻t的概率为αt(i),然后乘上aij表示下一时刻转换到状态j,由于t+1时观测数据为ot+1,因此再乘上bi(ot+1),最后乘上后面的观测数据为观测到数据的概率βt+1(j)。这样就表示出在当前观测数据时刻t从状态i转移到j的情况,而分母就把j所有可能的组合进行求和,最后这个式子就表示出了已知观测数据从时刻t从状态i转移到状态j的概率。
根据baum-welch算法,无监督学习的实施步骤如下:
然后按照下式对n=1,2……,进行递推计算
上式右侧按照观测状态序列O={o1,o2……oT}和λ(n)=(A(n),B(n),Π(n))进行计算,最终就能得到λ(n+1)=(A(n+1),B(n+1),Π(n+1))。由于观测状态序列包含多个监控的数据,从上式也可以看出用不同的监控数据对参数A和参数Π的计算并没有影响可以直接迭代。而不同监控项的观测概率分布矩阵B需要用各自的观测数据独立计算,不能混用。
进行无监督学习时会把观测数据切分成多组等长度的观测序列,每次迭代使用一组数据。以n次和第n+1次迭代计算出的模型参数的二范数变化率作为判断计算是否终止的指标,当二范数变化率小于预先给定的阈值时就认为模型参数已经收敛并终止计算。实际的处理过程如图4所示。
在模型参数最终值确定后使用未被使用的预处理数据对得到的HMM模型进行测试,如果测试通过,模型参数会被投入MANO系统中进行使用。如果测试未通过说明无监督学习收敛在了局部最优解处,需要重新确定模型参数。
3、故障概率的计算
根据HMM模型的前向概率定义,给定模型参数λ,到时刻t的观测序列为o1,o2……ot,且此刻隐藏状态为qi的概率为前向概率,记作:
αt(i)=P(O={o1,o2……ot},it=qi|λ) ①
根据HMM模型的后向概率定义,给定模型参数λ,在时刻t的隐藏状态为qi,从t+1到T的部分观测序列为ot+1,ot+2……oT的概率为后向概率,记作:
βt(i)=P(O={ot+1,ot+2……oT},it=qi|λ) ②
在模型参数λ和观测序列模型参数O给定,t时刻隐藏状态为qi的概率记作:
根据前向后向概率的定义:
P(it=qi,O|λ)=αt(i)*βt(i) ④
那么:
上式中分母表示对已知观测序列对t时刻隐藏状态所有可能的情况求和,上式中分子表示已知观测序列,t时刻为隐藏状态i的情况。最后就得到t时刻为隐藏状态i的估计。
在模型参数和观测序列给定的情况下,通⑤式就可以计算出t时刻处于各种隐藏状态的概率。
4、故障类型推断
参见图6所示,因为虚拟化网元的监控项有多个,根据每一个监控项的观测数据都能算出t时刻处于各种隐藏状态概率分布的一个结果。现在假设有N个隐藏状态,M个监控项,那么这M个监控项观测数据计算出来的概率结果可以写成M*N的矩阵形式,记作:
其中元素γij就是在t时刻,根据监控项i计算出隐藏状态为qj的概率。
每一个监控项关于每一个隐藏状态都能计算出一个故障概率,这个矩阵的第j列结果全部乘起来就是基于M个监控项数据故障状态为qj的联合概率。
不同监控项获取的观测数据可以看作相互独立,它们的联合概率就可以表示为:
根据式⑦可以计算出在时刻t处于各个隐藏状态的概率,概率最大的隐藏状态就作为时刻t的隐藏状态估计。按照上述方法对可能出现故障的一段时间序列做故障状态预测计算,选择这一段时间序列上出现频率最高的故障状态作为预测结果。
本发明实施例还提供一种基于多观测维度HMM的虚拟化网元故障分析系统,包括:
模型构建模块,其用于:构建HMM模型,HMM模型参数包括A,B,π,A为隐藏状态转移的概率矩阵,B为虚拟化网元处于各个隐藏状态下观察到各种监控项的概率,π为初始隐藏状态的分布概率;
模型训练模块,其用于:根据历史观测数据确定HMM模型参数,将构建的HMM模型和确定的模型参数应用于虚拟化网元故障分析;
数据采集模块,其用于:收集触发虚拟化网元告警的之前的观测数据和之后一段时间内的观测数据;
故障分析模块,其用于:采用模型参数和观测数据,计算触发虚拟化网元告警之后一段时间内某时刻的各种故障类型的出现频率,选择出现频率最高的故障类型作为结果。
作为优选的实施方式,所述模型训练模块具体用于:
对部分数据进行预处理,随机取出一半的预处理数据进行有监督学习,获得模型参数的初始值;
采用模型参数的初始值和另一半预处理数据进行无监督学习,获得模型参数的预测值;
采用剩下的未预处理的数据,对获得模型参数的预测值进行测试,测试通过才将模型参数的预测值作为模型参数的最终值;
将构建的HMM模型和该模型参数的最终值应用于虚拟化网元故障分析。
作为优选的实施方式,所述模型训练模块对部分数据进行预处理,随机取出一半的预处理数据进行有监督学习,获得模型参数的初始值,具体包括以下步骤:
对部分数据进行预处理,随机取出一半的预处理数据进行有监督学习,处理后的数据表示为{{I1,O1},{I2,O2},……{In,On}},其中Ij表示第j组数据的隐藏状态序列,Oj表示第j组监控项的观测数据序列;
统计在任意时刻t隐藏状态为i,而在t+1时刻隐藏状态转移为j的频数Count(Traij),则隐藏状态转移的概率矩阵A的第i行第j列的元素aij为:
i=1,2……N;j=1,2……N;
统计在隐藏状态i下观测状态oj出现的频率Oij,则观测矩阵B的第i行第j列的元素为:
i=1,2……N;j=1,2……M;M代表M种观察状态;
A为N*N矩阵,B为N*M矩阵;
对于初始状态概率分布π,设n组观测数据中初始隐藏状态为i的数据有Si组,则πi为:
πi=Si/n。
作为优选的实施方式,所述模型训练模块采用模型参数的初始值和另一半预处理数据进行无监督学习,获得模型参数的预测值,具体包括以下步骤:
将时刻t处于qi状态且在t+1时刻处于qj状态的概率记为:
εt(i,j)=P(it=qi,it+1=qj,O|λ)
根据前向后向概率的定义:
其中,αt(i)表示在时刻t系统处于隐藏状态i且t时刻之前到时刻t观测序列所观测到数据的概率;
aij表示下一时刻转换到状态j;
bj(ot+1)表示t+1时刻,隐藏状态为j,出现观测状态o(t+1)的概率;
βt+1(j)表示在时刻t+1系统处于隐藏状态j,且t+1时刻之后不包括时刻t+1的观测序列所观测到数据的概率;
εt(i,j)表示根据观测数据对时刻t为状态i,t+1时刻为状态j的估计;
根据baum-welch算法,进行无监督学习的实施步骤包括:
按照下式对n=1,2……,进行递推计算
采用另一半预处理数据O={o1,o2……oT}和λ(n)=(A(n),B(n),Π(n))进行计算,得到模型参数最终值λ(n+1)=(A(n+1),B(n+1),Π(n+1))。
作为优选的实施方式,所述故障分析模块采用确定的模型参数和观测数据,计算触发虚拟化网元告警之后一段时间内某时刻的各种故障类型的出现频率,选择出现频率最高的故障类型作为结果,具体包括以下步骤:
根据HMM模型的前向概率定义、计算出的模型参数的最终值λ、时刻t的观测数据序列为o1,o2……ot,计算隐藏状态为qi的前向概率:
αt(i)=P(O={o1,o2……ot},it=qi|λ)①
根据HMM模型的后向概率定义、计算出的模型参数的最终值λ、时刻t的隐藏状态qi,以及从t+1到T的观测数据序列ot+1,……oT,计算隐藏状态为qi的后向概率:
βt(i)=P(O={ot+1,ot+2……oT},it=qi|λ)②
根据观测结果计算t时刻隐藏状态为qi的概率:
其中,P(it=qi,O|λ)=αt(i)*βt(i)④
设有N个隐藏状态,M个监控项,则M个监控项观测数据计算出的概率结果为M*N的矩阵:
其中元素γij为在t时刻,根据监控项i计算出隐藏状态为qj的概率;
计算出不同监控项的观测数据的隐藏状态为qj的联合概率:
在计算出在时刻t处于各个隐藏状态的联合概率后,选择联合概率最大的故障类型作为时刻t的隐藏状态的估计结果。按照上述方法对可能出现故障的一段时间序列做故障状态预测计算,选择这一段时间序列上出现频率最高的故障状态作为预测结果。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于多观测维度HMM的虚拟化网元故障分析方法,其特征在于,包括以下步骤:
构建HMM模型,HMM模型参数包括A,B,π,A为隐藏状态转移的概率矩阵,B为虚拟化网元处于各个隐藏状态下观察到各种监控项所处状态的概率,简称观测矩阵,π为初始隐藏状态的分布概率;
根据历史观测数据确定HMM模型参数,将构建的HMM模型和确定的模型参数应用于虚拟化网元故障分析;
收集触发虚拟化网元告警的之前的观测数据和之后一段时间内的观测数据;
采用模型参数和观测数据,计算触发虚拟化网元告警之后一段时间内某时刻的各种故障类型的出现频率,选择出现频率最高的故障类型作为结果。
2.如权利要求1所述的方法,其特征在于,根据历史观测数据确定HMM模型参数,将构建的HMM模型和确定的模型参数应用于虚拟化网元故障分析,具体包括以下步骤:
对部分数据进行预处理,随机取出一半的预处理数据进行有监督学习,获得模型参数的初始值;
采用模型参数的初始值和另一半预处理数据进行无监督学习,获得模型参数的预测值;
采用剩下的未预处理的数据,对获得模型参数的预测值进行测试,测试通过才将模型参数的预测值作为模型参数的最终值;
将构建的HMM模型和该模型参数的最终值应用于虚拟化网元故障分析。
3.如权利要求2所述的方法,其特征在于,对部分数据进行预处理,随机取出一半的预处理数据进行有监督学习,获得模型参数的初始值,具体包括以下步骤:
对部分数据进行预处理,随机取出一半的预处理数据进行有监督学习,处理后的数据表示为{{I1,O1},{I2,O2},……{In,On}},其中Ij表示第j组数据的隐藏状态序列,Oj表示第j组监控项的观测数据序列;
统计在任意时刻t隐藏状态为i,而在t+1时刻隐藏状态转移为j的频数Count(Traij),则隐藏状态转移的概率矩阵A的第i行第j列的元素aij为:
统计在隐藏状态i下观测状态oj出现的频率Oij,则观测矩阵B的第i行第j列的元素为:
A为N*N矩阵,B为N*M矩阵;
对于初始状态概率分布π,设n组观测数据中初始隐藏状态为i的数据有Si组,则πi为:
πi=Si/n。
4.如权利要求2所述的方法,其特征在于,采用模型参数的初始值和另一半预处理数据进行无监督学习,获得模型参数的预测值,具体包括以下步骤:
将时刻t处于qi状态且在t+1时刻处于qj状态的概率记为:
εt(i,j)=P(i=qi,it+1=qj,O|λ)
根据前向后向概率的定义:
其中,αt(i)表示在时刻t系统处于隐藏状态i且t时刻之前到时刻t观测序列所观测到数据的概率;
aij表示下一时刻转换到状态j;
bj(ot+1)表示t+1时刻,隐藏状态为j,出现观测状态o(t+1)的概率;
βt+1(j)表示在时刻t+1系统处于隐藏状态j,且t+1时刻之后不包括时刻t+1的观测序列所观测到数据的概率;
εt(i,j)表示根据观测数据对时刻t为状态i,t+1时刻为状态j的估计;
根据baum-welch算法,进行无监督学习的实施步骤包括:
按照下式对n进行递推计算,n为从1开始的自然数;
采用另一半预处理数据O={o1,o2……oT}和λ(n)=(A(n),B(n),п(n))进行计算,得到模型参数最终值λ(n+1)=(A(n+1),B(n+1),п(n+1))。
5.如权利要求2所述的方法,其特征在于,采用模型参数和观测数据,计算触发虚拟化网元告警之后一段时间内某时刻的各种故障类型的出现频率,选择出现频率最高的故障类型作为结果,具体包括以下步骤:
根据HMM模型的前向概率定义、计算出的模型参数的最终值λ、时刻t的观测数据序列为o1,o2……ot,计算隐藏状态为qi的前向概率:
αt(i)=P(O={o1,o2……ot},it=qi|λ) ①
根据HMM模型的后向概率定义、计算出的模型参数的最终值λ、时刻t的隐藏状态qi,以及从t+1到T的观测数据序列ot+1,……oT,计算隐藏状态为qi的后向概率:
βt(i)=P(O={ot+1,ot+2……oT},it=qi|λ) ②
根据观测结果计算t时刻隐藏状态为qi的概率:
其中,P(it=qi,O|λ)=αt(i)*βt(i) ④
设有N个隐藏状态,M个监控项,则M个监控项观测数据计算出的概率结果为M*N的矩阵:
其中元素γij为在t时刻,根据监控项i计算出隐藏状态为qj的概率;
计算出不同监控项的观测数据的隐藏状态为qj的联合概率:
计算出在时刻t处于各个隐藏状态的概率,选择出现频率最高的故障类型作为时刻t的隐藏状态的估计结果。
6.一种基于多观测维度HMM的虚拟化网元故障分析系统,其特征在于,包括:
模型构建模块,其用于:构建HMM模型,HMM模型参数包括A,B,π,A为隐藏状态转移的概率矩阵,B为虚拟化网元处于各个隐藏状态下观察到各种监控项的概率,简称观测矩阵,π为初始隐藏状态的分布概率;
模型训练模块,其用于:根据历史观测数据确定HMM模型参数,将构建的HMM模型和确定的模型参数应用于虚拟化网元故障分析;
数据采集模块,其用于:收集触发虚拟化网元告警的之前的观测数据和之后一段时间内的观测数据;
故障分析模块,其用于:采用模型参数和观测数据,计算触发虚拟化网元告警之后一段时间内某时刻的各种故障类型的出现频率,选择出现频率最高的故障类型作为结果。
7.如权利要求6所述的系统,其特征在于,所述模型训练模块具体用于:
对部分数据进行预处理,随机取出一半的预处理数据进行有监督学习,获得模型参数的初始值;
采用模型参数的初始值和另一半预处理数据进行无监督学习,获得模型参数的预测值;
采用剩下的未预处理的数据,对获得模型参数的预测值进行测试,测试通过才将模型参数的预测值作为模型参数的最终值;
将构建的HMM模型和该模型参数的最终值应用于虚拟化网元故障分析。
8.如权利要求7所述的系统,其特征在于,所述模型训练模块对部分数据进行预处理,随机取出一半的预处理数据进行有监督学习,获得模型参数的初始值,具体包括以下步骤:
对部分数据进行预处理,随机取出一半的预处理数据进行有监督学习,处理后的数据表示为{{I1,O1},{I2,O2},……{In,On}},其中Ij表示第j组数据的隐藏状态序列,Oj表示第j组监控项的观测数据序列;
统计在任意时刻t隐藏状态为i,而在t+1时刻隐藏状态转移为j的频数Count(Traij),则隐藏状态转移的概率矩阵A的第i行第j列的元素aij为:
统计在隐藏状态i下观测状态oj出现的频率Oij,则观测矩阵B的第i行第j列的元素为:
A为N*N矩阵,B为N*M矩阵;
对于初始状态概率分布π,设n组观测数据中初始隐藏状态为i的数据有Si组,则πi为:
πi=Si/n。
9.如权利要求7所述的系统,其特征在于,所述模型训练模块采用模型参数的初始值和另一半预处理数据进行无监督学习,获得模型参数的预测值,具体包括以下步骤:
将时刻t处于qi状态且在t+1时刻处于qj状态的概率记为:
εt(i,j)=P(it=qi,it+1=qj,O|λ)
根据前向后向概率的定义:
其中,αt(i)表示在时刻t系统处于隐藏状态i且t时刻之前到时刻t观测序列所观测到数据的概率;
aij表示下一时刻转换到状态j;
bj(ot+1)表示t+1时刻,隐藏状态为j,出现观测状态o(t+1)的概率;
βt+1(j)表示在时刻t+1系统处于隐藏状态j,且t+1时刻之后不包括时刻t+1的观测序列所观测到数据的概率;
εt(i,j)表示根据观测数据对时刻t为状态i,t+1时刻为状态j的估计;
根据baum-welch算法,进行无监督学习的实施步骤包括:
按照下式对n进行递推计算,n为从1开始的自然数;
采用另一半预处理数据O={o1,o2……oT}和λ(n)=(A(n),B(n),п(n))进行计算,得到模型参数最终值λ(n+1)=(A(n+1),B(n+1),п(n+1))。
10.如权利要求6所述的系统,其特征在于,所述故障分析模块采用确定的模型参数和观测数据,计算触发虚拟化网元告警之后一段时间内某时刻的各种故障类型的出现频率,选择出现频率最高的故障类型作为结果,具体包括以下步骤:
根据HMM模型的前向概率定义、计算出的模型参数的最终值λ、时刻t的观测数据序列为o1,o2……ot,计算隐藏状态为qi的前向概率:
αt(i)=P(O={o1,o2……ot},it=qi|λ) ①
根据HMM模型的后向概率定义、计算出的模型参数的最终值λ、时刻t的隐藏状态qi,以及从t+1到T的观测数据序列ot+1,……oT,计算隐藏状态为qi的后向概率:
βt(i)=P(O={ot+1,ot+2……oT},it=qi|λ) ②
根据观测结果计算t时刻隐藏状态为qi的概率:
其中,P(it=qi,O|λ)=αt(i)*βt(i) ④
设有N个隐藏状态,M个监控项,则M个监控项观测数据计算出的概率结果为M*N的矩阵:
其中元素γij为在t时刻,根据监控项i计算出隐藏状态为qj的概率;
计算出不同监控项估计隐藏状态为qj的联合概率:
计算出在时刻t处于各个隐藏状态的概率,选择联合概率最高的故障类型作为时刻t的隐藏状态的估计结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010305456.4A CN111565118B (zh) | 2020-04-17 | 2020-04-17 | 基于多观测维度hmm的虚拟化网元故障分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010305456.4A CN111565118B (zh) | 2020-04-17 | 2020-04-17 | 基于多观测维度hmm的虚拟化网元故障分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111565118A true CN111565118A (zh) | 2020-08-21 |
CN111565118B CN111565118B (zh) | 2022-08-05 |
Family
ID=72074416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010305456.4A Active CN111565118B (zh) | 2020-04-17 | 2020-04-17 | 基于多观测维度hmm的虚拟化网元故障分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111565118B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112532455A (zh) * | 2020-12-01 | 2021-03-19 | 新华三人工智能科技有限公司 | 一种异常根因定位方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040176879A1 (en) * | 2003-03-07 | 2004-09-09 | Menon Sunil K. | Transient fault detection system and method using Hidden Markov Models |
CN106226097A (zh) * | 2016-09-14 | 2016-12-14 | 西安理工大学 | 基于隐马尔可夫模型的高速列车风管安全状态诊断方法 |
CN106483405A (zh) * | 2016-09-30 | 2017-03-08 | 江苏大学 | 基于隐马尔可夫模型的npc光伏逆变器的故障诊断方法 |
CN110288046A (zh) * | 2019-07-02 | 2019-09-27 | 南京恩瑞特实业有限公司 | 一种基于小波神经网络与隐马尔科夫模型的故障预测方法 |
-
2020
- 2020-04-17 CN CN202010305456.4A patent/CN111565118B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040176879A1 (en) * | 2003-03-07 | 2004-09-09 | Menon Sunil K. | Transient fault detection system and method using Hidden Markov Models |
CN106226097A (zh) * | 2016-09-14 | 2016-12-14 | 西安理工大学 | 基于隐马尔可夫模型的高速列车风管安全状态诊断方法 |
CN106483405A (zh) * | 2016-09-30 | 2017-03-08 | 江苏大学 | 基于隐马尔可夫模型的npc光伏逆变器的故障诊断方法 |
CN110288046A (zh) * | 2019-07-02 | 2019-09-27 | 南京恩瑞特实业有限公司 | 一种基于小波神经网络与隐马尔科夫模型的故障预测方法 |
Non-Patent Citations (1)
Title |
---|
郭迟等: "位置服务中的社会感知计算方法研究", 《计算机研究与发展》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112532455A (zh) * | 2020-12-01 | 2021-03-19 | 新华三人工智能科技有限公司 | 一种异常根因定位方法及装置 |
CN112532455B (zh) * | 2020-12-01 | 2022-07-29 | 新华三人工智能科技有限公司 | 一种异常根因定位方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111565118B (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111124840B (zh) | 业务运维中告警的预测方法、装置与电子设备 | |
CN111539515A (zh) | 一种基于故障预测的复杂装备维修决策方法 | |
CN111913803A (zh) | 一种基于akx混合模型的服务负载细粒度预测方法 | |
CN112418277A (zh) | 旋转机械零部件剩余寿命预测方法、系统、介质、设备 | |
CN112615888B (zh) | 一种网络攻击行为的威胁评估方法及装置 | |
CN111638958A (zh) | 云主机负载处理方法、装置、控制设备及存储介质 | |
CN113031983B (zh) | 一种基于深度强化学习的软件智能升级方法及装置 | |
CN114048857A (zh) | 算力分配方法、装置及算力服务器 | |
CN110929835B (zh) | 一种新型碳化硅基航空功率变换器故障诊断方法及系统 | |
CN111565118B (zh) | 基于多观测维度hmm的虚拟化网元故障分析方法及系统 | |
CN110300008A (zh) | 一种确定网络设备的状态的方法及装置 | |
CN111340287A (zh) | 配电柜运行状态预测方法及装置 | |
CN117170980B (zh) | 一种服务器硬件异常预警方法、装置、设备及存储介质 | |
CN113537614A (zh) | 电网工程造价预测模型的构建方法、系统、设备及介质 | |
Poghosyan et al. | Managing cloud infrastructures by a multi-layer data analytics | |
CN108429771B (zh) | 基于突变理论的软件定义网络安全状态评估方法及装置 | |
CN116225752A (zh) | 基于故障模式库的微服务系统故障根因分析方法及系统 | |
CN113835973B (zh) | 一种模型训练方法及相关装置 | |
CN112732519A (zh) | 一种事件监控方法及装置 | |
CN112070283A (zh) | 一种基于机器学习的服务器运行健康度预测方法及系统 | |
CN112423031A (zh) | 基于iptv的kpi监测方法、装置及其系统 | |
CN109474445B (zh) | 一种分布式系统根源故障定位方法及装置 | |
KR20210059289A (ko) | 군장비 수리부속 품목 수요예측의 고도화를 위한 강화학습 적용 | |
CN116204379B (zh) | 一种服务端软件健康检测方法及装置 | |
CN110323743B (zh) | 一种暂态功角稳定评估历史数据的聚类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |