CN110635952B - 通信系统的故障根因分析方法、系统和计算机存储介质 - Google Patents
通信系统的故障根因分析方法、系统和计算机存储介质 Download PDFInfo
- Publication number
- CN110635952B CN110635952B CN201910975121.0A CN201910975121A CN110635952B CN 110635952 B CN110635952 B CN 110635952B CN 201910975121 A CN201910975121 A CN 201910975121A CN 110635952 B CN110635952 B CN 110635952B
- Authority
- CN
- China
- Prior art keywords
- variable
- variables
- communication system
- real
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004891 communication Methods 0.000 title claims abstract description 127
- 238000004458 analytical method Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 12
- 230000001419 dependent effect Effects 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000006866 deterioration Effects 0.000 claims abstract description 14
- 238000012544 monitoring process Methods 0.000 claims description 17
- 230000015556 catabolic process Effects 0.000 claims description 15
- 238000006731 degradation reaction Methods 0.000 claims description 15
- 238000010219 correlation analysis Methods 0.000 claims description 10
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 description 11
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012806 monitoring device Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 208000018910 keratinopathic ichthyosis Diseases 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
- H04L41/064—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/50—Network service management, e.g. ensuring proper service fulfilment according to agreements
- H04L41/5003—Managing SLA; Interaction between SLA and QoS
- H04L41/5009—Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
- H04L43/045—Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/091—Measuring contribution of individual network components to actual service level
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Debugging And Monitoring (AREA)
- Telephonic Communication Services (AREA)
Abstract
本公开提供一种通信系统的故障根因分析方法,包括:获取所述通信系统的目标KPI变量的实时值以及所述通信系统的多个观测变量的实时值;将所述多个观测变量的实时值输入预测模型中,以获得目标KPI变量的预测值,其中,所述预测模型由预定算法对所述通信系统的历史数据进行训练所获得;将获得的所述目标KPI变量的预测值与所述目标KPI变量的实时值进行对比;当所述通信系统的性能变差时,计算各个观测变量对所述系统性能变差这一现象的贡献度;将贡献度按照大小排在前K位的观测变量作为所述通信系统的性能变差的备选根因变量,其中,K为正整数。本公开还提供一种系统和一种计算机可读存储介质。通过所述方法可以高效地确定故障根因。
Description
技术领域
本公开涉及通信领域,具体地,涉及一种通信系统的故障根因分析方法、一种执行该故障根因分析方法的系统、一种计算机可读存储介质。
背景技术
在通信网络的运行维护过程中,不可避免地会出现通信系统的变更。通信系统变更后可能会出现关键性能指标(KPI,Key Performance Indicator)恶化的问题,技术人员需要在大量观测变量中寻找导致通信系统性能下降的原因,效率较低。
因此,如何高效率地寻找通信系统性能下降的原因成为本领域亟待解决的技术问题。
发明内容
本公开的目的在于提供一种通信系统的故障根因分析方法、一种执行该故障根因分析方法的系统、一种计算机可读存储介质。利用所述故障根因分析方法可高效率地找到通信系统性能下降的原因。
作为本公开的第一个方面,提供一种通信系统的故障根因分析方法,包括:
获取所述通信系统的目标KPI变量的实时值以及所述通信系统的多个观测变量的实时值;
将所述多个观测变量的实时值输入预测模型中,以获得目标KPI变量的预测值,其中,所述预测模型由预定算法对所述通信系统的历史数据进行训练所获得;
将获得的所述目标KPI变量的预测值与所述目标KPI变量的实时值进行对比;
当所述通信系统的性能变差时,计算各个观测变量对所述系统性能变差这一现象的贡献度,其中,所述通信系统的性能变差至少满足以下预定条件:所述目标KPI变量的预测值与所述目标KPI变量的实时值相差超过预定值;
将贡献度按照大小排在前K位的观测变量作为所述通信系统的性能变差的备选根因变量,其中,K为正整数。
可选地,获取所述通信系统的目标KPI变量的实时值以及所述通信系统的多个观测变量的实时值具体包括:
构造统计量,在线监测所述通信系统运行的状态,以获得所述通信系统的目标KPI变量的实时值以及所述通信系统的多个观测变量,其中,所述通信系统的性能变差还包括所述通信系统的统计量偏离所述通信系统的统计量阈值。
可选地,将获得的所述目标KPI变量的预测值与所述目标KPI变量的实时值进行对比,包括:
生成所述目标KPI变量的预测值随观测时间变化的第一曲线,以及生成所述目标KPI变量的实时值随观测时间变化的第二曲线;
利用所述第一曲线和所述第二曲线进行对比,以判断所述目标KPI变量的预测值与所述目标KPI变量的实时值在各个时间点的关系。
可选地,所述故障根因分析方法还包括将贡献度按照大小排在前K位的观测变量作为所述通信系统的性能变差的备选根因变量的步骤之前进行的:
计算预定时间段内各观测变量在各个观测时刻的瞬时贡献度;
计算各个观测变量在预定时间段内的累积贡献度;
统计各个观测变量在所述预定时间段内的瞬时贡献度超过第一预定贡献度的次数;
确定所述预定时间段内的累积贡献度超过第二预定贡献度的观测变量;
将瞬时贡献度超过第一预定贡献度的次数大于预定次数、且累计贡献度超过所述第二预定贡献度的观测变量进行排序。
可选地,所述预定算法为最小二乘算法。
可选地,所述预测模型通过以下步骤构建:
对所述通信系统的历史数据中,所述通信体统的目标KPI变量的历史值与多个观测变量的历史值进行互相关分析,以获得与目标KPI变量的历史值的相关度超过第一预定百分比的观测变量的历史值作为输入变量;
将所述输入变量作为输入数据,将所述目标KPI变量的历史值作为预测数据,利用所述预定算法进行模型训练,以获得所述预测模型。
可选地,所述通信系统为超过第二预定百分比的观测变量存在线性相关特性的线性系统,所述第一预定百分比不超过所述第二预定百分比。
可选地,构建所述预测模型还包括在将所述输入变量作为输入数据,将所述目标KPI变量作为预测数据,利用预定算法进行模型训练,以获得所述预测模型的步骤之前进行的以下步骤:
根据所述目标KPI变量的历史值与多个观测变量的历史值之间的互相关分析,确定各个观测变量与所述目标KPI变量之间的相关系数;
通过显著性检验计算得到相关系数阈值;
判断与所述目标KPI变量的相关系数超过所述相关系数阈值的观测变量在所有观测变量中的比例是否超过所述第二预定百分比;
当判断结果为是时,则执行所述将所述输入变量作为输入数据,将所述目标KPI变量作为预测数据,利用偏最小二乘算法进行模型训练,以获得预测模型的步骤。
可选地,所述故障根因分析方法还包括在将贡献度按照大小排在前K位的观测变量作为所述通信系统的性能变差的备选根因变量的步骤之后进行的:
监控各个观测变量的实时值是否超过预定的控制限;
当K个备选根因变量的实时值超出相应的控制限的频率大于预定频率和/或K个备选根因变量的实时值超出相应的控制限的时机早于其他观测变量时,将K个备选根因变量确定为最终根因变量。
作为本公开的第二个方面,提供一种用于对通信系统进行故障根因分析的系统,包括:
离线装置,所述离线装置中存储有利用预定算法对通信系统的历史数据进行训练获得的用于预测KPI变量的预测模型;
在线装置,所述在线装置用于:
实时监控通信系统的KPI变量,以获得实时KPI变量;
将所述预测模型输出的预测KPI变量与所述实时KPI变量进行对比;
当所述通信系统的性能变差时,计算各个观测变量对所述实时KPI变量变差这一现象的贡献度,其中,所述通信系统的性能变差至少满足以下预定条件:所述预测KPI变量与所述实时KPI变量相差超过预定值;
将贡献度按照大小排在前K位的观测变量作为所述实时KPI变量变差的备选根因变量,其中,K为正整数。
可选地,所述预定算法为偏最小二乘算法。
作为本公开的第三个方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有可执行程序,所述可执行程序用于执行上述故障根因分析方法。
作为本公开的第四个方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有本公开所提供的上述用于对通信系统进行故障根因分析的系统。
在本公开所提供的故障根因分析方法中,通过构建预测模型,可以得到目标KPI的预测值。通过对比目标KPI变量的预测值和目标KPI变量的实时值,可以快速地判断通信系统是否发生故障。然后,通过计算各个观测变量对目标KPI变量变差的贡献度可以快速地确定使得通信系统性能变差的故障根因,无需人工排查,提高了故障根因分析的效率。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是本公开所提供的通信系统的故障根因分析方法的流程图;
图2是步骤S130的一种实施方式的示意图;
图3是构建预测模型的流程图;
图4是本公开所提供的对通信系统进行故障根音分析的系统的模块图;
图5是通信系统更新前和通信系统更新后,目标KPI的预测值以及实时值的对比图;
图6是T2统计量实时监控示意图;
图7是各观测变量的累积贡献度示意图;
图8是各观测变量贡献度告警序列。
附图标记说明
110:离线装置 120:在线装置
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
作为本发明的第一个方面,提供一种通信系统的故障根因分析方法,如图1所示,该故障根因分析方法包括:
在步骤S110中,获取所述通信系统的目标KPI变量的实时值和所述通信系统的多个观测变量的实时值;
在步骤S120中,将所述多个观测变量的实时值输入预测模型中,以获得所述目标KPI变量的预测值,其中,所述预测模型由预定算法对所述通信系统的历史数据进行训练所获得;
在步骤S130中,将获得的所述目标KPI变量的预测值与所述目标KPI变量的实时值进行对比;
在步骤S140中,当所述通信系统的性能变差时,计算各个观测变量对所述系统性能变差这一现象的贡献度,其中,所述通信系统的性能变差至少满足以下预定条件:所述目标KPI变量的预测值与所述目标KPI变量的实时值相差超过预定值;
在步骤S150中,将贡献度按照大小排在前K位的观测变量作为所述通信系统的性能变差的备选根因变量,其中,K为正整数。
在本公开中,对如何获取通信系统的目标KPI变量的实时值和所述通信系统的多个观测变量的实时值不做特殊的限定。例如,可以通过对通信系统进行实时监控的方式获得所述目标KPI变量的实时值和所述多个观测变量的实时值。再例如,可以利用监控装置对所述通信系统进行实时监控,然后通过监控装置与执行所述故障根因分析方法的装置之间进行通信获得所述目标KPI变量的实时值和所述多个观测变量的实时值。作为一种可选实施方式,通过构造霍特林统计量,在线监测所述通信系统运行的状态,以获得所述目标KPI变量的实时值和多个观测变量的实时值。
在本公开中,对采集目标KPI变量的实时值和采集各个观测变量的实时值的周期也不做特殊限定。例如,每隔时间T采集一次目标KPI变量和观测变量。时间间隔T越小、则故障根因分析方法的分析结果越准确。为了在运算量和精确度之间获得平衡,作为一种可选实施方式,所述时间T可以为15min。
此处,所述通信系统的历史数据,是指通信系统更新前获得的数据,包括通信系统更新前的目标KPI变量的历史值、以及通信系统更新前的观测变量的历史值等。并且,需要确定通信系统在更新前是正常运行的。
通过对比目标KPI变量的预测值和目标KPI变量的实时值,可以快速地判断通信系统是否发生故障。然后,通过计算各个观测变量对目标KPI变量变差的贡献度可以快速地确定使得通信系统性能变差的故障根因,无需人工排查,提高了故障根因分析的效率。
需要指出的是,通常可以认为贡献度最大的观测变量为故障根因变量,但是通过本公开所提供的故障根因分析方法所获得的备选根因变量也仅供技术人员进行分析。技术人员可以根据各个观测变量的贡献度,确定真正的故障根因变量。
在本公开中,对所述预定算法的具体类型不做特殊的限定,可选地,所述预定算法包括偏最小二乘(PLS,Partial least squares regression)算法。对于通信系统而言,相关的观测变量较多,因此通信系统中涉及的数据量也非常庞大,并且,大采样时间的通信系统满足PLS算法的静态特性,在本申请中,使用PLS算法对通信系统的历史数据进行训练获得的模型可以更加精确地预测目标KPI变量。
为了更加精确地确定故障根因,可选地,所述故障根因分析方法还可包括在步骤S150之后进行的:
在步骤S160中,监控各个观测变量的实时值是否超过预定的控制限;
在步骤S170中,当K个备选根因变量的实时值超出相应的控制限的频率大于预定频率和/或K个备选根因变量的实时值超出相应的控制限的时机早于其他观测变量时,将K个备选根因变量确定为最终根因变量。
在本公开中,对各个观测变量的控制限不做特殊的限定,技术人员可以根据经验来设定所述控制限。当然,所述的最终根因变量,也是供技术人员进行参考的。
在本公开中,对K的具体数值不做特殊的限定,技术人员可以根据自己的需求来确定K的数值。
为了使得预测根因分析结果更加准确,可选地,所述故障根因分析方法还包括:
构造统计量,在线监测所述通信系统运行的状态,其中,所述通信系统的性能变差还包括所述通信系统的统计量(记作T2)偏离所述通信系统的统计量阈值(记作T2 limit)。
为了让维护人员快速、直观地获得目标KPI变量的预测值和目标KPI变量的实时值之间的对比结果,可选地,如图2所示,步骤S130可以包括:
在步骤S131中,生成所述目标KPI的预测值随观测时间变化的第一曲线,以及生成所述目标KPI变量的实时值随观测时间变化的第二曲线;
在步骤S132中,利用所述第一曲线和所述第二曲线进行对比,以判断所述目标KPI变量的预测值与所述目标KPI变量的实时值在各个时间点的关系。
在本公开中,对如何按照贡献度对各观测变量进行排序不做特殊的规定,可以按照以下方法按照贡献度对各观测变量进行排序:
计算预定时间段内各观测变量在各个观测时刻的瞬时贡献度;
计算各个观测变量在预定时间段内的累积贡献度;
统计各个观测变量在所述预定时间段内的瞬时贡献度超过第一预定贡献度的次数;
确定所述预定时间段内的累积贡献度超过第二预定贡献度的观测变量;
将瞬时贡献度超过第一预定贡献度的次数大于预定次数、且累计贡献度超过所述第二预定贡献度的观测变量进行排序。
在本公开实施例所提供的具体步骤中,既考虑到了观测变量的瞬时贡献度,又考虑到了观测变量的总贡献度,从而可以更加客观公正地对各观测变量的贡献度进行排序。
换言之,在本公开所提供的故障根因分析方法中,一旦发现目标KPI变差(即,通信系统发生异常),即分析在此之前一段时间内的观测变量对KPI变差的贡献度,筛选出贡献度较大的一部分变量,并将其视为造成故障的根因,以供技术人员分析。
如上文中所述,通过PLS算法构建所述预测模型。为了节约计算量,首先要对历史数据进行预处理,将与所述目标KIP变量相关性较小的观测变量排除。具体地,如图3所示,构建所述预测模型的步骤包括:
在步骤S210中,对所述通信系统的历史数据中,所述通信体统的目标KPI变量的历史值与多个观测变量的历史值进行互相关分析,以获得与目标KPI变量的历史值的相关度超过第一预定百分比(记作E%)的观测变量的历史值作为输入变量;
在步骤S230中,将所述输入变量作为输入数据,将所述目标KPI变量的历史值作为预测数据,利用所述预定算法进行模型训练,以获得所述预测模型。
通过步骤S210,可以在大量观测变量中,自动选出与目标KPI变量最相关的测变量,作为PLS算法的输入数据,从而降低了构建预测模型时的运算量。
经本申请的发明人研究发现,所述通信系统的有效观测变量(即,与目标KPI变量最相关的观测变量)中,大部分观测变量存在明显的线性相关特性,也就是说,所述通信系统为超过第二预定百分比(记作D%)的有效变量存在线性相关特性的线性系统。
可选地,所述第一预定百分比不超过所述第二预定百分比(即,E≤D)。作为一种可选实施方式,第一预定百分比E%选取50%至70%,而第二预定百分比D%则选取70%至90%。
PLS算法尤其适用于对线性系统进行预测。因此,作为提升预测结果的准确性,可选地,在构建预测模型时,可以首先对通信系统是否为线性系统进行分析。只有确认了通信系统为线性系统,方执行步骤S230。具体地,构建预测模型的步骤还包括在步骤S230之前进行的如下步骤:
在步骤S221中,根据所述目标KPI变量的历史值与多个观测变量的历史值之间的互相关分析,确定各个观测变量与所述目标KPI变量之间的相关系数;
在步骤S222中,通过显著性检验计算得到相关系数阈值;
在步骤S223中,判断与所述目标KPI变量的相关系数超过所述相关系数阈值的观测变量在所有观测变量中的比例是否超过所述第二预定百分比;
当判断结果为是时,表明通信系统为线性系统,则执行步骤S230。
当步骤S223中的判断结果为否时,表明通信系统为非线性系统,此时可以考虑利用其它算法构建预测模型。
在本公开中,对如何执行步骤S221没有特殊的限定。
在本发明中,对如何计算各个观测变量与所述目标KPI变量之间的相关系数不做特殊的限定。具体地,计算各个观测变量与所述目标KPI变量之间的相关系数的步骤包括:
通过互相关分析方法计算KPI变量与其他观测变量的相关系数矩阵P和延时矩阵L。即对两个统计序列xi和xj,引入时延l(l∈Z),且|l|≤lmax,利用公式(3)计算一系列相关系数ρxixj(l):
其中,k为两个统计序列的长度;
Sxi为xi的标准差;
Sxj为xj的标准差;
m为样本序号。
对于公式(1)获得的一系列相关系数ρxixj(l)取最大值,记做ρij,对应的时延为lij。
通过显著性检验计算相关系数的阈值,检验的方式是通过构造一个T统计量,以得到相关系数的阈值ρ0;
如果超过D%的有效变量存在明显线性相关特性,则认为所述通信系统的线性特性明显,满足PLS模型的线性特性。一般情况下,D可以取70%-90%。
从大量观测变量在那个选择相关系数前E%的变量作为PLS模型的输入,其中,E≤D。记正常运行的观测变量个数为M,观测变量的样本个数为N,并对数据进行标准化,得到输入矩阵X=[x1,x2,…,xM]∈RN×M,输出向量为Y=[y1,y2,…,yN]T∈R1×N。一般情况下,E取50%至70%。
使用PLS算法建立输出变量为目标KPI变量、输入变量为所述观测变量的模型,具体地:
PLS算法将数据矩阵[X,Y]投影到较少潜变量[t1,t2,…,tA]所张成的低维空间中:
式中,T=[t1,t2,…,xA]∈RN×A为得分矩阵;
P=[p1,p2,…,pA]∈RM×A为X的载荷矩阵;
Q=[q1,q2,…,qA]∈RM×A为Y的载荷矩阵;
E为X的残差矩阵;
F为Y的残差矩阵。
下面介绍如何利用所述预测模型来进行故障根因分析:
如上文中所述,构造T2统计量在线监测通信系统的运行状态;
将观测变量的实时值输入上述预测模型中,获得目标KPI的预测变量;
如果目标KPI的实时值显著偏离目标KPI的预测变量,且T2统计量显著偏离T2 limit阈值,则认为通信系统的性能下降。其中,利用公式(2)计算T2统计量,利用公式(3)计算T2统计量阈值。
T2=xTRΔ-1RTx (2)
T为建模得分的样本协方差;
α为置信水平;
N为利用PLS算法训练预测模型时用到的样本个数;
n为利用PLS算法训练预测模型时用到的样本个数样本个数;
A为PLS算法选取的成分个数;
R为权重矩阵。
一旦监测到通信系统的性能下降,则计算一定时间内各个观测变量对目标KPI变量变差的贡献度。采用重构贡献图方法(RBC),观测变量xi对T2监测指标的贡献程度。具体地,可以通过公式(4)确定贡献度RBC:
作为本公开的第二个方面,提供一种用于对通信系统进行故障根因分析的系统,如图4所示,该系统包括离线装置110和在线装置120。
其中,离线装置110中存储有利用预定算法对通信系统的历史数据进行训练获得的用于预测KPI变量的预测模型。
在线装置120用于执行以下步骤:
实时监控通信系统的KPI变量,以获得实时KPI变量;
将所述预测模型输出的预测KPI变量与所述实时KPI变量进行对比;
当所述通信系统的性能变差时,计算各个观测变量对所述实时KPI变量变差这一现象的贡献度,其中,所述通信系统的性能变差至少满足以下预定条件:所述预测KPI变量与所述实时KPI变量相差超过预定值;
将贡献度按照大小排在前K位的观测变量作为所述实时KPI变量变差的备选根因变量,其中,K为正整数。
可选地,离线装置110能够按照以下步骤构建所述预测模型:
对所述通信系统的历史数据中,所述通信体统的目标KPI变量的历史值与多个观测变量的历史值进行互相关分析,以获得与目标KPI变量的历史值的相关度超过第一预定百分比的观测变量的历史值作为输入变量;
将所述输入变量作为输入数据,将所述目标KPI变量的历史值作为预测数据,利用偏最小二乘算法进行模型训练,以获得所述预测模型。
可选地,所述预定算法为PLS算法。
作为本公开的第三个方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有可执行程序,所述可执行程序用于执行本公开所提供的上述故障根因分析方法。
作为本公开的第四个方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有本公开所提供的上述用于对通信系统进行故障根因分析的系统。
其中,计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机可读存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储介质、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。
下面以某小区的基站数据作为分析案例,详细描述本公开所提供的故障根因分析方法的工作原理。以下说明仅为示例性解释本公开所提供的故障根因分析方法是如何工作的,并非真实案例。
某小区共201个待观测变量,评价系统性能的有1个目标KPI变量,观测数据采样间隔为15min,正常运行状态下共采样10天数据。去除空白数据序列以及常值数据序列,共得到92个观测变量序列和1个KPI变量序列;
利用互相关分析法进行分析,T统计量得到的相关性阈值为0.24,其中,89/92的变量超过了相关性阈值,可以认为系统满足线性特性要求;
选取相关系数前65%的变量作为PLS算法的输入,得到60个输入变量;
使用PLS算法为目标KPI建立预测模型;
构造T2监测指标对系统进行实时监控;
升级前10天正常10天正常数据和升级后7天待分析数据的实时监控结果图5所示,其中,图5的横坐标表示的是时间信息,其中,500表示按照时间顺序采集到的第500个数据点,1000表示按照时间顺序采集到的第1000个数据点,1500则表示按照时间顺序采集到的第1500个数据点,纵坐标为目标KPI的值,其中,指示线1为预测线,指示线2为实际线:注意到升级后(960个采样点)系统性能发生了下降,体现在预测性能下降,如图6所示,T2监测指标(即,T2统计量)超过控制限(在图6中,横坐标表示样本序列,500表示按照时间顺序采集到的第500个数据点,1000表示按照时间顺序采集到的第1000个数据点,1500则表示按照时间顺序采集到的第1500个数据点,纵坐标表示的是T2统计值,图表区域内的水平横线为T2统计量的控制限,曲线为T2监测指标的值),因而需要分析各变量对统计指标的贡献程度。
取分析长度为1天,即96个采样点。如图7所示,所述故障根因分析系统给出的累计贡献率最高的前五个观测变量(即,K为5)分别为:18→27→19→42→79,通过图7可以看出18号变量累计贡献最高,因而认为18号变量是故障根因。另一方面,对每个变量单独进行贡献度分析,超过控制限的发出报警,如图8所示,18号变量同样可以看出其报警次数最多,且最先发出告警,因而可以认为18号变量引起了故障的传播。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (11)
1.一种通信系统的故障根因分析方法,包括:
获取所述通信系统的目标KPI变量的实时值以及所述通信系统的多个观测变量的实时值;
将所述多个观测变量的实时值输入预测模型中,以获得目标KPI变量的预测值,其中,所述预测模型由预定算法对所述通信系统的历史数据进行训练所获得;
将获得的所述目标KPI变量的预测值与所述目标KPI变量的实时值进行对比;
当所述通信系统的性能变差时,计算各个观测变量对所述系统性能变差这一现象的贡献度,其中,所述通信系统的性能变差至少满足以下预定条件:所述目标KPI变量的预测值与所述目标KPI变量的实时值相差超过预定值;
将贡献度按照大小排在前K位的观测变量作为所述通信系统的性能变差的备选根因变量,其中,K为正整数;
其中,所述预测模型通过以下步骤构建:
对所述通信系统的历史数据中,所述通信系统的目标KPI变量的历史值与多个观测变量的历史值进行引入时延的互相关分析,以获得与目标KPI变量的历史值的相关度超过第一预定百分比的观测变量的历史值作为输入变量;
将所述输入变量作为输入数据,将所述目标KPI变量的历史值作为预测数据,利用所述预定算法进行模型训练,以获得所述预测模型。
2.根据权利要求1所述的故障根因分析方法,其中,获取所述通信系统的目标KPI变量的实时值以及所述通信系统的多个观测变量的实时值具体包括:
构造统计量,在线监测所述通信系统运行的状态,以获得所述通信系统的目标KPI变量的实时值以及所述通信系统的多个观测变量,其中,所述通信系统的性能变差还包括所述通信系统的统计量偏离所述通信系统的统计量阈值。
3.根据权利要求1所述的故障根因分析方法,其中,将获得的所述目标KPI变量的预测值与所述目标KPI变量的实时值进行对比,包括:
生成所述目标KPI变量的预测值随观测时间变化的第一曲线,以及生成所述目标KPI变量的实时值随观测时间变化的第二曲线;
利用所述第一曲线和所述第二曲线进行对比,以判断所述目标KPI变量的预测值与所述目标KPI变量的实时值在各个时间点的关系。
4.根据权利要求1至3中任意一项所述的故障根因分析方法,其中,所述故障根因分析方法还包括将贡献度按照大小排在前K位的观测变量作为所述通信系统的性能变差的备选根因变量的步骤之前进行的:
计算预定时间段内各观测变量在各个观测时刻的瞬时贡献度;
计算各个观测变量在预定时间段内的累积贡献度;
统计各个观测变量在所述预定时间段内的瞬时贡献度超过第一预定贡献度的次数;
确定所述预定时间段内的累积贡献度超过第二预定贡献度的观测变量;
将瞬时贡献度超过第一预定贡献度的次数大于预定次数、且累计贡献度超过所述第二预定贡献度的观测变量进行排序。
5.根据权利要求4所述的故障根因分析方法,其中,所述预定算法为偏最小二乘算法。
6.根据权利要求1所述的故障根因分析方法,其中,所述通信系统为超过第二预定百分比的观测变量存在线性相关特性的线性系统,所述第一预定百分比不超过所述第二预定百分比。
7.根据权利要求6所述的故障根因分析方法,其中,构建所述预测模型还包括在将所述输入变量作为输入数据,将所述目标KPI变量作为预测数据,利用预定算法进行模型训练,以获得所述预测模型的步骤之前进行的以下步骤:
根据所述目标KPI变量的历史值与多个观测变量的历史值之间的互相关分析,确定各个观测变量与所述目标KPI变量之间的相关系数;
通过显著性检验计算得到相关系数阈值;
判断与所述目标KPI变量的相关系数超过所述相关系数阈值的观测变量在所有观测变量中的比例是否超过所述第二预定百分比;
当判断结果为是时,则执行所述将所述输入变量作为输入数据,将所述目标KPI变量作为预测数据,利用偏最小二乘算法进行模型训练,以获得预测模型的步骤。
8.根据权利要求1至3中任意一项所述的故障根因分析方法,其中,所述故障根因分析方法还包括在将贡献度按照大小排在前K位的观测变量作为所述通信系统的性能变差的备选根因变量的步骤之后进行的:
监控各个观测变量的实时值是否超过预定的控制限;
当K个备选根因变量的实时值超出相应的控制限的频率大于预定频率和/或K个备选根因变量的实时值超出相应的控制限的时机早于其他观测变量时,将K个备选根因变量确定为最终根因变量。
9.一种用于对通信系统进行故障根因分析的系统,包括:
离线装置,所述离线装置中存储有利用预定算法对通信系统的历史数据进行训练获得的用于预测KPI变量的预测模型;其中,所述预测模型通过以下步骤构建:
对所述通信系统的历史数据中,所述通信系统的目标KPI变量的历史值与多个观测变量的历史值进行引入时延的互相关分析,以获得与目标KPI变量的历史值的相关度超过第一预定百分比的观测变量的历史值作为输入变量;
将所述输入变量作为输入数据,将所述目标KPI变量的历史值作为预测数据,利用所述预定算法进行模型训练,以获得所述预测模型;
在线装置,所述在线装置用于:
实时监控通信系统的KPI变量,以获得实时KPI变量;
将所述预测模型输出的预测KPI变量与所述实时KPI变量进行对比;
当所述通信系统的性能变差时,计算各个观测变量对所述实时KPI变量变差这一现象的贡献度,其中,所述通信系统的性能变差至少满足以下预定条件:所述预测KPI变量与所述实时KPI变量相差超过预定值;
将贡献度按照大小排在前K位的观测变量作为所述实时KPI变量变差的备选根因变量,其中,K为正整数。
10.根据权利要求9所述的系统,其中,所述预定算法为偏最小二乘算法。
11.一种计算机可读存储介质,所述计算机可读存储介质存储有可执行程序,所述可执行程序用于在被处理器执行时实现如权利要求1至8中任意一项所述的故障根因分析方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910975121.0A CN110635952B (zh) | 2019-10-14 | 2019-10-14 | 通信系统的故障根因分析方法、系统和计算机存储介质 |
EP20877967.8A EP4033700A4 (en) | 2019-10-14 | 2020-09-16 | METHOD AND DEVICE FOR ANALYZING THE TRUE CAUSE OF FAILURE OF A COMMUNICATION SYSTEM, SYSTEM AND COMPUTER STORAGE MEDIUM |
PCT/CN2020/115602 WO2021073343A1 (zh) | 2019-10-14 | 2020-09-16 | 通信系统的故障根因分析方法、装置、系统和计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910975121.0A CN110635952B (zh) | 2019-10-14 | 2019-10-14 | 通信系统的故障根因分析方法、系统和计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110635952A CN110635952A (zh) | 2019-12-31 |
CN110635952B true CN110635952B (zh) | 2021-03-16 |
Family
ID=68974878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910975121.0A Active CN110635952B (zh) | 2019-10-14 | 2019-10-14 | 通信系统的故障根因分析方法、系统和计算机存储介质 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP4033700A4 (zh) |
CN (1) | CN110635952B (zh) |
WO (1) | WO2021073343A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110635952B (zh) * | 2019-10-14 | 2021-03-16 | 中兴通讯股份有限公司 | 通信系统的故障根因分析方法、系统和计算机存储介质 |
CN110888755B (zh) * | 2019-11-15 | 2023-04-11 | 亚信科技(中国)有限公司 | 一种微服务系统异常根因节点的查找方法及装置 |
CN111338921A (zh) * | 2020-02-21 | 2020-06-26 | 深圳壹账通智能科技有限公司 | 一种系统性能预测方法、装置、计算机设备和存储介质 |
CN113422690A (zh) * | 2020-03-02 | 2021-09-21 | 烽火通信科技股份有限公司 | 一种业务质量劣化预测方法及系统 |
CN113518373A (zh) * | 2020-04-10 | 2021-10-19 | 中兴通讯股份有限公司 | 识别问题小区的方法、电子设备、计算机可读介质 |
CN113556258B (zh) * | 2020-04-24 | 2022-12-27 | 西安华为技术有限公司 | 一种异常检测方法及装置 |
CN111865407B (zh) * | 2020-06-11 | 2021-11-30 | 烽火通信科技股份有限公司 | 光通道性能劣化智能预警方法、装置、设备及存储介质 |
CN112087334B (zh) * | 2020-09-09 | 2022-10-18 | 中移(杭州)信息技术有限公司 | 告警根因分析方法、电子设备和存储介质 |
CN112929363B (zh) * | 2021-02-04 | 2022-05-17 | 北京字跳网络技术有限公司 | 视频领域性能参数异常的根因分析方法及设备 |
CN113282884B (zh) * | 2021-04-28 | 2023-09-26 | 沈阳航空航天大学 | 通用根因分析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130318011A1 (en) * | 2012-05-24 | 2013-11-28 | Michael Jeffrey Jones | Method for Detecting Anomalies in Multivariate Time Series Data |
CN109063886A (zh) * | 2018-06-12 | 2018-12-21 | 阿里巴巴集团控股有限公司 | 一种异常检测方法、装置以及设备 |
CN109710983A (zh) * | 2018-12-04 | 2019-05-03 | 北京大学 | 一种基于关键性能指标的柴油机气缸分层故障诊断方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9401851B2 (en) * | 2014-03-28 | 2016-07-26 | Verizon Patent And Licensing Inc. | Network management system |
CN104537260B (zh) * | 2015-01-14 | 2018-02-09 | 清华大学 | 基于缓慢特征回归的动态软测量方法和系统 |
US10031510B2 (en) * | 2015-05-01 | 2018-07-24 | Aspen Technology, Inc. | Computer system and method for causality analysis using hybrid first-principles and inferential model |
US20170364819A1 (en) * | 2016-06-17 | 2017-12-21 | Futurewei Technologies, Inc. | Root cause analysis in a communication network via probabilistic network structure |
EP3590228A1 (en) * | 2017-03-01 | 2020-01-08 | Telefonaktiebolaget LM Ericsson (Publ) | A method and apparatus for key performance indicator forecasting using artificial life |
CN109884892B (zh) * | 2019-02-28 | 2022-08-02 | 杭州电子科技大学 | 基于交叉相关时滞灰色关联分析的流程工业系统预测模型 |
CN110635952B (zh) * | 2019-10-14 | 2021-03-16 | 中兴通讯股份有限公司 | 通信系统的故障根因分析方法、系统和计算机存储介质 |
-
2019
- 2019-10-14 CN CN201910975121.0A patent/CN110635952B/zh active Active
-
2020
- 2020-09-16 EP EP20877967.8A patent/EP4033700A4/en active Pending
- 2020-09-16 WO PCT/CN2020/115602 patent/WO2021073343A1/zh unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130318011A1 (en) * | 2012-05-24 | 2013-11-28 | Michael Jeffrey Jones | Method for Detecting Anomalies in Multivariate Time Series Data |
CN109063886A (zh) * | 2018-06-12 | 2018-12-21 | 阿里巴巴集团控股有限公司 | 一种异常检测方法、装置以及设备 |
CN109710983A (zh) * | 2018-12-04 | 2019-05-03 | 北京大学 | 一种基于关键性能指标的柴油机气缸分层故障诊断方法 |
Non-Patent Citations (2)
Title |
---|
Distributed predictive modeling framework for prediction and diagnosis of key performance index in plant-wide processes;Zhiqiang Ge;《Journal of Process Control》;20180531;正文第1-3章 * |
Hierarchical Monitoring and Root-Cause Diagnosis Framework for Key Performance Indicator-Related Multiple Faults in Process Industries;Liang Ma;《 IEEE Transactions on Industrial Informatics》;20190430;全文 * |
Also Published As
Publication number | Publication date |
---|---|
EP4033700A1 (en) | 2022-07-27 |
WO2021073343A1 (zh) | 2021-04-22 |
EP4033700A4 (en) | 2022-11-30 |
CN110635952A (zh) | 2019-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110635952B (zh) | 通信系统的故障根因分析方法、系统和计算机存储介质 | |
US10521490B2 (en) | Equipment maintenance management system and equipment maintenance management method | |
CN104966141B (zh) | 更新用于生成工业资产健康状况简档的模型的方法和系统 | |
US8676727B2 (en) | Abnormality diagnosis filter generator | |
US20030033263A1 (en) | Automated learning system | |
CN112418921A (zh) | 用电需量预测方法、装置、系统与计算机存储介质 | |
CN111625516A (zh) | 检测数据状态的方法、装置、计算机设备和存储介质 | |
US20240185115A1 (en) | Method and apparatus for early warning of dry pump shutdown, electronic device, storage medium and program | |
CN104408525B (zh) | 作业车间调度风险的量化评估与控制方法 | |
CN114611372A (zh) | 一种基于物联网边缘计算的工业设备健康预测方法 | |
Siliverstovs et al. | Forecasting industrial production with linear, nonlinear, and structural change models | |
CN114564487A (zh) | 预报预测相结合的气象栅格数据更新方法 | |
CN117592609B (zh) | 渠系水利用系数的在线监测方法、监测终端及存储介质 | |
Moat et al. | Survival analysis and predictive maintenance models for non-sensored assets in facilities management | |
CN117272118A (zh) | 一种t/r组件健康状态预测方法、系统、设备和介质 | |
KR20220039323A (ko) | 배전 자산의 건전도 평가 장치 및 방법 | |
CN116957534A (zh) | 一种预测智能电表更换数量的方法 | |
EP4339851A1 (en) | Failure predicting device, failure predicting method, and program | |
KR101884907B1 (ko) | 빅데이터 분석 기반 신뢰도 예측 방법 | |
CN115544886A (zh) | 高速电梯的失效时间节点预测方法、系统、设备和介质 | |
Li et al. | A similarity-based and model-based fusion prognostics framework for remaining useful life prediction | |
US20230069342A1 (en) | Computer system and method of determining model switch timing | |
CN117273467B (zh) | 一种基于多因素耦合的工业安全风险管控方法及系统 | |
CN115190038B (zh) | 一种状态确定方法以及装置 | |
JP7466788B2 (ja) | 機器保守支援装置及びその動作方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |