CN115865625A - 一种通信设备故障根因的分析方法和装置 - Google Patents
一种通信设备故障根因的分析方法和装置 Download PDFInfo
- Publication number
- CN115865625A CN115865625A CN202211500847.7A CN202211500847A CN115865625A CN 115865625 A CN115865625 A CN 115865625A CN 202211500847 A CN202211500847 A CN 202211500847A CN 115865625 A CN115865625 A CN 115865625A
- Authority
- CN
- China
- Prior art keywords
- fault
- root
- tree structure
- node
- failure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004891 communication Methods 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 65
- 238000004458 analytical method Methods 0.000 claims description 45
- 230000015654 memory Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000003287 optical effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000013480 data collection Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011144 upstream manufacturing Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及通信领域,特别是涉及一种通信设备故障根因的分析方法和装置。包括:将通信网络的树形结构以主控节点为基准拆分为单链;基于识别模型对每个单链的故障原因类型的发生概率进行独立分析,以故障节点的ID和对应的故障原因类型作为本单链的故障根因;对所有单链的故障根因进行汇总作为本次故障的故障根因的概率结论;将本次故障中所有与故障根因关联的单链对应的特征数据以及本次故障的故障根因合并作为一条故障训练数据,将所有无故障单链对应的特征数据合并作为一条无故障训练数据,对识别模型进行迭代训练。本发明可以对树结构通信网络中的设备故障进行分析,实现故障点子设备的定位和故障原因类型的鉴别。
Description
技术领域
本发明涉及通信领域,特别是涉及一种通信设备故障根因的分析方法和装置。
背景技术
目前,贝叶斯网络被比较广泛的用于工业领域的具有机器学习能力的故障分析系统建模,比如供电网络中的变压器故障分析等。贝叶斯网络作为一种分类器模型,主要用于对单点设备的故障分析,即在已知故障点位置的前提下,对设备故障的原因类型进行鉴别。
但是,通讯设备及网络并不是一个单点结构,在非单点结构的网络范围内发生故障时,运维工程师通常不能确定故障出在哪个层级哪个节点,因此故障特征数据采集会有一个子设备范围,故障分析系统需要解决以下问题:1.故障根因的分析模型需要区分出故障节点和正常节点,即实现故障点子设备的定位。2.机器学习的训练模型需要将无故障子设备与故障子设备的故障特征数据进行区分处理。
鉴于此,如何克服现有技术所存在的缺陷,解决多层网络结构中故障根因分析困难的现象,是本技术领域待解决的问题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明解决了树形网络结构中故障根因分析困难的问题。
本发明实施例采用如下技术方案:
第一方面,本发明提供了一种通信设备故障根因的分析方法,具体为:将通信网络的树形结构以主控节点为基准拆分为单链,单链的每个节点对应通信网络的一层;基于识别模型对每个单链故障原因类型的发生概率进行独立分析,以故障节点的ID和对应的故障原因类型作为本单链的故障根因;对所有单链的故障根因进行汇总计算,以汇总结果作为本次故障的故障根因的概率结论;将本次故障中所有与故障根因关联的单链对应的特征数据以及本次故障的故障根因合并作为一条故障训练数据,将所有无故障单链对应的特征数据合并作为一条无故障训练数据,加入识别模型的训练数据集,以对识别模型进行迭代训练。
优选的,将通信网络的树形结构以主控节点为基准拆分为单链,具体包括:将通信网络的树形结构以树结构表示,主控节点作为树结构的根节点,树结构的每一层对应通信网络的树形结构中的一层;由主控节点开始,对树结构中的每一个分支进行遍历,直至到达叶节点,由根节点到一个叶节点的一条遍历路径上的所有节点作为一个单链。
优选的,当主控节点上存在两个方向的网络连接时,所述将通信网络的树形结构以主控节点为基准拆分为单链,还包括:将主控节点的上联树结构和下联树结构分别拆分为部分单链;将拆分后的部分单链以主控节点为连接点,一对一排列组合为完整的单链,并将上层节点的数据复制至每个单链的数据中。
优选的,将通信网络的树形结构以主控节点为基准拆分为单链之前,还包括:获取故障告警信息覆盖的树形结构范围,将树形结构范围内的网络节点拆分为单链。
优选的,对每个单链中每个节点对应的故障原因类型的发生概率进行独立分析,具体包括:根据各子设备的网络业务特性,确定每种故障原因类型对应的节点级别;基于贝叶斯网络分类器对每条单链的故障特征数据进行分析,输出每条单链中每个节点发生每种故障原因类型的相对概率。
优选的,对所有单链的故障根因进行汇总计算,具体包括:获取每条单链中存在的故障根因的发生概率值,将各故障根因按发生概率值进行排序,以排序结果作为故障根因的汇总计算结果。
优选的,获取每条单链中存在的故障根因的发生概率值,还包括:当多条单链中存在同一故障根因时,取各单链中该故障根因概率值的均值作为该故障根因的发生概率值。
优选的,将一次故障中所有与故障根因关联的单链对应的特征数据以及本次故障的故障根因合并作为一条故障训练数据,具体包括:将故障发生的概率值和故障原因类型相结合,作为影响该故障原因类型的先验概率;将无故障情况视为一种故障原因类型,将其它所有故障原因类型先验概率的平均值作为无故障类型的先验概率,或以故障原因类型数量的倒数作为无故障类型的先验概率。
优选的,将一次故障中所有单链对应的特征数据以及该次故障的故障根因作为训练数据,还包括:当故障根因关联了多条单链时,将被关联的多条单链的每一项故障特征值按照求众数的方式合并为识别模型的1条训练数据。
另一方面,本发明提供了一种通信设备故障根因的分析装置,具体为:包括至少一个处理器和存储器,至少一个处理器和存储器之间通过数据总线连接,存储器存储能被至少一个处理器执行的指令,指令在被处理器执行后,用于完成第一方面中的通信设备故障根因的分析方法。
与现有技术相比,本发明实施例的有益效果在于:将通信网络拆分为单链结构,对每个单链进行独立的分析,并将分析结果进行汇总,以获得故障根因的分析结论和进行故障分析的训练数据。该方法能够对树结构通信网络中的设备故障进行分析,实现故障点子设备的定位和故障原因类型的鉴别,并对机器学习的训练模型进行相应处理,并提出了相配套的机器学习方法,解决了贝叶斯网络单点分析方法解决不了的树结构网络故障根因分析问题,具有显著的实用价值。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种通信设备故障根因的分析方法流程图;
图2为本发明实施例提供的另一种通信设备故障根因的分析方法流程图;
图3为本发明实施例某个场景中网络结构示意图;
图4为本发明实施例提供的另一种通信设备故障根因的分析方法流程图;
图5为本发明实施例某个场景中网络结构示意图;
图6为本发明实施例某个场景中故障原因节点级别;
图7为本发明实施例某个场景中多个独立单链故障特征数据;
图8为本发明实施例某个场景中多个独立单链故障特征数据;
图9为本发明实施例某个场景中每条单链的ID及其故障根因分析结论;
图10为本发明实施例某个场景中每条单链中存在的故障根因的发生概率值;
图11为本发明实施例某个场景中不同单链的故障概率汇总排序后的结果;
图12为本发明实施例某个场景中使用的训练数据的数据结构示意图;
图13为本发明实施例某个场景中故障特征数据后分解成单链并加上故障原因编码的训练数据;
图14为本发明实施例提供的一种通信设备故障根因的分析装置结构示意图;
其中,附图标记如下:
11:处理器;12:存储器。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明是一种特定功能系统的体系结构,因此在具体实施例中主要说明各结构模组的功能逻辑关系,并不对具体软件和硬件实施方式做限定。
此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。下面就参考附图和实施例结合来详细说明本发明。
实施例1:
现有的网络设备故障根因分析以贝叶斯网络作为分类器模型,但该模型仅能适用于单点分析。本实施例提供的方法在该模型的基础上,对内部拓扑为非单点结构尤其是为树结构的故障设备进行故障根因定位,包括故障点所在的子设备定位及对应的每个故障类型发生分析。
如图1所示,本发明实施例提供的通信设备故障根因的分析方法具体步骤如下:
步骤101:将通信网络的树形结构以主控节点为基准拆分为单链,单链的每个节点对应通信网络的一层。
目前的网络系统的某些实际场景中,网络设备按照业务层级逐层连接,并最终接入本区域的唯一主控设备。因此,通信网络的拓扑结构可以视为以主控节点作为根节点的树结构,树结构的根节点为主控节点,树结构的每一层对应网络结构的一个层级。以接入网局端光线路终端(Optical Line Terminal,简写为OLT)设备为例,其内部可以被理解是以主控盘为根节点的2个方向的树结构:下联方向的树结构和上联方向的树结构,其中,下联方向的树结构为主控-线卡-无源光纤网络(Passive Optical Network,简写为PON)口-光网络单元(Optical Network Unit,简写为ONU)这4个层级,上联方向的树结构为主控-上联盘-上联口这3个层级,每个层级中都包含多个子设备。相应的,其下联方向可以视为包含了OLT主控、线卡、PON口、ONU这4个层级的树结构,其上联方向可以视为包含了主控、上联盘、上联口这3个层级的树结构,每一个子设备视为其连接的上层设备的子节点。
对于内部是树结构的通信设备来说,采集到的故障特征数据也是树形结构,故障数据节点与网络设备节点一一对应。为了利用贝叶斯网络模型作为故障的识别模型对不同层级子设备的故障进行分析,需要先将树结构以主控节点为根拆分成多个独立的单链,再对每条单链分别进行故障根因分析,包括识别其是否是无故障单链,具体的拆分方法见后文所述。
步骤102:基于识别模型对每个单链的故障原因类型的发生概率进行独立分析,以故障节点的ID和对应的故障原因类型作为本单链的故障根因。
在网络设备运行过程中,同一个子设备会存在多个可能的故障原因,例如PON口可能存在光模块损坏和光模块不匹配等故障,不同故障出现的概率不同。将树结构拆分为单链后,即可利用贝叶斯网络分类器模型,对每条单链的故障特征数据进行整体分析,算出每条单链中各个故障原因类型的相对概率。在本实施例提供的方法中,为了便于对数据进行统一分析,“无故障”也被看作是一种故障原因类型。
相反的,每个故障原因类型都仅会发生在一种子设备上,故障原因类型与故障所在的子设备树节点层级具有多对一的对应关系。因此,可以根据故障原因类型唯一确定发生故障的网络层级。进一步的,步骤101中将树结构拆分为单链后,单链上每层节点只对应有一个子设备,因此,确定故障原因类型也就定位了单链故障的子设备所在的网络层级。
为了便于进行表达和计算,本实施例中,任何一个子设备节点都可以用层级ID进行唯一标识,例如OLT的下联方向子设备,可以使用Root-槽位(Slot)-PON口(Port)-设备号(Onu)形式的ID表达。每种故障原因类型都对应一个子设备节点级别,子设备节点ID与故障原因类型形成对应关系。因此,如果能分析出故障点所在的单链及故障原因类别,也就确定了故障点所在的子设备节点ID。
通过故障节点的ID和实际发的故障原因类型,即可唯一确定本次故障发生的子设备和故障原因类型,唯一确定造成本次故障的故障根因。本实施例中,子设备节点和故障类型都相同时才会被视为同一故障根因,子设备节点不同或故障原因类型不同都不视为同一故障根因。
步骤103:对所有单链的故障根因进行汇总计算,以汇总结果作为本次故障的故障根因的概率结论。
由于网络系统中不同设备之间的故障可能会互相影响,因此,在步骤102对每个单链进行分析后,还需要对所有单链的故障根因进行综合分析,以实现对多个单链中的同一故障根因的故障概率进行综合计算,最终输出各故障根因的概率综合结论。
步骤104:将本次故障中所有与故障根因关联的单链对应的特征数据以及本次故障的故障根因合并作为一条故障训练数据,将所有无故障单链对应的特征数据合并作为一条无故障训练数据,加入识别模型的训练数据集,以对识别模型进行迭代训练。
为了便于进行后续的故障分析和预测,还可以将已汇总分析出的故障数据作为训练数据对贝叶斯网络模型进行训练。一次故障中,所有节点的故障数据与网络结构对应为树结构,相对应的,需要使用的训练数据也是树结构。因此,也需要将树结构的训练数据先分解成多条单链训练数据,再通过算法重新整合成一条故障训练数据或无故障训练数据,并加入分析模型,以达成分析模型的机器学习能力。
进一步的,对训练模型来说,发生故障和未发生故障为不同的场景,因此需要将无故障单链的训练数据与有故障单链的训练数据区分开。前者用于训练识别无故障的单链,后者用于训练识别故障原因类型。因此,训练模型中需要使用两类训练数据:1、将本次故障中故障根因关联(经过故障节点)的所有单链对应的特征数据汇总,结合本次故障的故障根因作为一条故障训练数据;2、将本次故障中无故障的所有单链对应的特征数据汇总,作为一条无故障训练数据。获取两种训练数据后,将两种训练数据分别加入识别模型的训练数据集,以对识别模型进行迭代训练。
经过本实施例中提供的步骤101-步骤104后,即可使用贝叶斯网络模型对非单点结构的网络进行分析,得出故障根因分析结果,并使用分析结果作为训练数据对识别模型进行进一步的训练。
本实施例提供的方法中,需要将网络的树结构拆分为单链。如图2所示,可以通过以下步骤完成单链的拆分。
步骤201:将通信网络的树形结构以树结构表示,主控节点作为树结构的根节点,树结构的每一层对应通信网络的树形结构中的一层。
本实施例中,每个故障原因类型都对应相应的层级,因此,首先需要根据通信网络的树形结构将网络中的节点以树结构表示。在每个树形结构的网络区域中,都包含一个主控节点,在拆分单链时,也将主控节点作为树结构的根节点。同时,网络中的子设备也需要根据实际所在的网络层级与树结构的层级相对应。
步骤202:由主控节点开始,对树结构进行遍历,直至到达叶节点,由根节点到一个叶节点的一条遍历路径上的所有节点作为一个单链,并将上层节点的数据复制至每个单链的数据中。
进行拆分时,由主控节点到每个叶节点进行遍历,遍历路径作为一个单链。该遍历路径中任一个节点出现故障即会导致整个单链的通信异常,也对应了故障数据的采集路径。
进行拆分后,还需要将上层节点的数据复制至每个单链的数据中。本实施例中,不管上联设备还是下联设备,上层节点都表示相对于本节点更接近根节点的一层,而并非表示上联方向的更上一层。
通过步骤201-步骤202,完成了对树结构的拆分,获取到了用于分析的每个单链。
以OLT设备为例,如图3所示,其内部下联方向是主控-线卡-PON口-ONU等4个层级的树结构,其中每个设备节点的ID对应表达为:Root-Slot-Port-Onu,其中,Root代表根节点(主控),为描述方便,后文简写为R,Slot代表槽位号,Port代表PON口号,Onu代表ONU的设备号。例如,R-11表示第11槽位(slot11)的线卡,R-11-3-5表示第11槽位(slot11)线卡下第3个PON口(port3)下第5个ONU。图中的树结构根据步骤201-步骤202的方法进行拆分后,获得的单链为:R-线卡11-PON口1-ONU1(R-11-1-1)、R-线卡11-PON口1-ONU2(R-11-1-2)、R-线卡11-PON口1-ONU3(R-11-1-3)、R-线卡11-PON口2(R-11-2)、R-线卡12(R-12)。
由上述实例可知,经过拆分后,实际网络中树结构被拆分为单链结构。
在另一些实际场景中,主控设备可能不仅存在一个方向的网络连接,此时,要将多个方向的网络连接分别拆分,并组合为单链。如图4所示,可以通过以下步骤完成多方向树结构的拆分。
步骤301:将主控节点的上联树结构和下联树结构分别按照步骤201-步骤202提供的方法拆分为部分单链。
对于主控节点上的每一个树结构,其拆分方法与上文相同,不再重述。
步骤302:将拆分后的部分单链以主控节点为连接点,一对一排列组合为完整的单链。
在实际网络结构中,上联树结构和下联树结构通过主控节点进行连接,不管何种方向的树结构都是以主控节点作为根节点。将每一个树结构进行拆分后,也需要通过主控节点将不同的单链进行连接,形成由最上层至最下层的完整单链。由于每个上联单链的信息经过主控节点后都会与所有下联单链交互,并且每个下联单链的信息经过主控节点后都会与所有上联单链交互,因此需要将所有的上联单链和下联单链进行一对一排列组合,以找到所有组合后的单链。
经过步骤301-步骤303,可以将多方向的树结构网络拆分为单链。
仍以OLT设备为例,如图5所示,除了下联方向的主控-线卡-PON口-ONU等4个层级的树结构,网络层级为:R-1层-2层-3层。在主控的上联方向还有另一个树结构:上联口-上联盘-主控,网络层级为:(-2层)-(-1层)-R,其中,负号表示上联方向。
首先,根据步骤301,将上联树结构和下联树结构各自分解成多个上联单链和多个下联单链。在图5中,上联树结构可以拆分为单链:上联口1-上联盘1-R(1-1-R)、上联口1-上联盘2-R(1-2-R)。下联树结构可以拆分为单链:R-线卡11-PON口1-ONU1(R-1-1-1),R-线卡11-PON口1-ONU2(R-1-1-2)。
然后,根据步骤302进行排列组合,形成全部单链。排列组合形成4条单链:上联口1-上联盘1-R-线卡11-PON口1-ONU1(1-1-R-1-1-1)、上联口1-上联盘2-R-线卡11-PON口1-ONU1(1-2-R-1-1-1)、上联口1-上联盘1-R-线卡11-PON口1-ONU2(1-1-R-1-1-2)、上联口1-上联盘2-R-线卡11-PON口1-ONU2(1-2-R-1-1-2)。
由上述实例可见,经过拆分后,双向树结构网络中的网络节点也可以被拆分为单链结构。
故障数据采集时,通常不确定故障点的子设备定位,因此会选择一个树结构范围,或者根据网管系统的告警信息覆盖范围确定一个树结构范围,一次故障中,如果选择了一个树结构的子设备范围,则此树型结构的数据被分解转化成多个独立的单链数据进行处理。获取故障告警信息覆盖的树形结构范围,将树形结构范围内的网络节点拆分为单链,并采集到该树结构中每个节点对应的故障数据。
如图3所示的树结构网络中,对应图6所示的在故障原因节点级别,某次故障的故障数据分解转化后能够形成如图7所示的多个独立单链故障特征数据,图中每一行都是一条单链的ID及其各项故障特征值。前3行单链数据是3个不同的ONU(ONU1至ONU3),它们共用同1个PON口1(port1)及其上层的线卡11(port11)及主控(R)的数据,PON口1的ID表示为:R-11-1。第4-10行单链是图3中未画出的另外7个不同的PON口(R-11-2至R-11-8)的单链数据,这7个PON口与前3行单链共用同1个线卡11(port11)及主控(R)的数据,线卡11的ID表示为:R-11。以上所有的单链都共用主控级数据,即根节点R上的数据。进一步的,如图8所示,为了区分上联方向与下联方向,若存在上联节点的故障原因节点级别,可以将上联方向的节点级别表示为负值。
将故障数据进行拆分后,即可基于贝叶斯网络分类器,对每条单链的故障特征数据进行分析,输出每条单链的各故障原因类型(包括无故障)的相对概率。先根据各子设备的网络业务特性,获取每种故障原因类型对应的节点级别。基于贝叶斯网络分类器对每条单链的故障特征数据进行分析,输出每条单链中每个节点发生每种故障原因类型的相对概率。分析结果如图9所示,图中每一行都是一条单链的ID及其故障根因分析结论:各种故障原因类型(包括无故障)的相对概率。本实施例中,每个网络层级都仅有一个子设备,每个层级的故障原因类型与子设备节点级别相对应,因此单链的ID与故障原因类型对应的节点级别可以提共同决定故障子设备ID,从而唯一确定故障根因。如图9所示,为每个单链数据故障原因分析结果的汇总。
获取每个单链的故障分析数据后,还需要综合输出总的故障根因排查的优先级。获取如图10所示的每条单链中存在的故障根因的发生概率值,将各故障根因按发生概率值进行排序,并以排序结果作为故障根因的汇总计算结果。如图11所示,即为某个实际场景中不同单链的故障概率汇总排序后的结果。进一步的,当多条单链中存在同一故障根因时,取各单链中该故障根因概率值的均值作为该故障根因的发生概率值。如图11中,设备节点ID和故障根因类型都相同的项目中,概率最高的三项为:设备节点ID为1-11的PON口光模块故障,设备节点ID为1-11-1-2的ONU故障和设备节点ID为1-11-1-3的ONU故障。其中,设备节点ID为1-11的PON口光模块故障包含在3条单链中,因此将对应的3项数据取均值作为最终数值;另两项仅包含在一条单链中,因此直接使用对应项数值。图11汇总后可见,1-11-1-2和1-11-1-2都对应1-11的1-11-1这一PON口,因此可以进一步将1-11的PON口光模块故障定位至1-11-1。
为了提高贝叶斯网络模型进行故障分析和预测的准确度,还需要将故障发生的概率值和真实故障原因类型相结合,作为故障场景的训练数据,对模型进行进一步训练。一次故障所获得的故障特征数据,及其实际的故障根因(故障点子设备定位+故障原因类型),共同组成了一条如图12所示的训练数据。与分析模型类似,将一次故障所获得的故障特征数据提取后,分解为单链,给每一条单链添加一个故障原因类型。如图13所示,为提取故障特征数据后分解成单链并加上故障原因编码的训练数据,最后1列error是故障原因类型编码,其中0代表无故障。为了确保训练数据的有效性,此处的故障原因类型需要使用实际存在的真实故障原因类型,或已验证正确的故障原因类型。
在故障数据采集时,以下原因可能造成数据采集的子设备范围(树结构)被选择的很宽泛或者很精确:1)由其他系统的告警信息驱动故障分析系统时,故障场景不同(故障原因类型不同)导致告警信息指向的子设备ID覆盖的树结构范围不同。2)运维人员的个人经验、能力或习惯不同。由此大概率会汇总产生1条无故障训练数据,导致贝叶斯网络模型中无故障类型的先验概率偏高。因此,在本实施例中,将无故障情况视为一种故障原因类型,与其他故障原因类型一起被识别。但是在分析模型中,其先验概率的计算需要进行特殊处理。
无故障类型的先验概率计算与其他故障原因类型的计算不同,不是基于数量统计,而是需要基于其概率特性进行计算。具体的,可以使用以下方法进行计算。(1)将故障发生的概率值和故障原因类型相结合,作为影响该故障原因类型的先验概率。(2)将无故障情况视为一种故障原因类型,将其它所有故障原因类型先验概率的平均值作为无故障类型的先验概率,或以故障原因类型数量的倒数作为无故障类型的先验概率,计算为:无故障类型的先验概率=1/故障原因类型数量,其结果是一个恒定值。由此,在计算各种故障类型的后验概率时,无故障类型与其他所有故障类型在先验概率上总是被平等对待。
在实际使用中,无故障训练数据的获取也可以独立于有故障的场景。即可以在运行正常的子设备上随机采集任意数量的单链数据,作为无故障训练数据导入分析模型,而其先验概率不变。
进一步的,在实际场景中一个故障根因可能关联了多条单链,为了防止每次故障的数据采集形成的单链数量不同影响到贝叶斯网络模型中各项故障原因类型的先验概率的计算,还需要将被关联的多条单链的每一项故障特征值按照求众数的方式合并为识别模型的1条训练数据。例如:1次主控故障形成了N条单链训练数据,由于是根节点故障,所以这N条训练数据全都是故障训练数据,但故障原因类型全都是同一种主控故障。在本实施例的方法中,此次故障不应被统计成N次主控故障,而应当被统计为1次主控故障,将相关的故障数据合并为一条训练数据进行使用。
进一步的,还可以按照求和的方式对不同单链中的故障特征值进行合并。例如:假设1次根节点故障有N条单链训练数据,某故障特征项有0和1两种值,该故障特征项在a条单链中值为0,在b条单链中值为1。则汇总时该故障特征项的先验概率按0:a/(a+b),1:b/(a+b)计算(其中a+b=<N)。
本实施例提供的通信设备故障根因的分析方法,将树结构的故障特征数据拆解成为多条单链数据,各自独立进行分析后再进行汇总计算,最终定位故障点所在的子设备及其故障类型。主要解决了将多条单链分析结论进行汇总输出结论,以及将多条单链训练数据合并还原为1条故障训练数据等问题,并解决了无故障类型的训练数据的特殊处理问题。本方法主要是突破了直接用贝叶斯网络分类器模型对故障根因只能进行单点分析的局限,解决了内部为树结构的通信设备故障根因分析模型、训练模型的问题。
实施例2:
在上述实施例1提供的通信设备故障根因的分析方法的基础上,本发明还提供了一种可用于实现上述方法的通信设备故障根因的分析装置,如图14所示,是本发明实施例的装置架构示意图。本实施例的通信设备故障根因的分析装置包括一个或多个处理器11以及存储器12。其中,图14中以一个处理器11为例。
处理器11和存储器12可以通过总线或者其他方式连接,图14中以通过总线连接为例。
存储器12作为一种通信设备故障根因分析方法非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如实施例1中的通信设备故障根因分析方法。处理器11通过运行存储在存储器12中的非易失性软件程序、指令以及模块,从而执行通信设备故障根因的分析装置的各种功能应用以及数据处理,即实现实施例1的通信设备故障根因的分析方法。
存储器12可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器12可选包括相对于处理器11远程设置的存储器,这些远程存储器可以通过网络连接至处理器11。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
程序指令/模块存储在存储器12中,当被一个或者多个处理器11执行时,执行上述实施例1中的通信设备故障根因的分析方法,例如,执行以上描述的图1、图2和图4所示的各个步骤。
本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(Read Only Memory,简写为:ROM)、随机存取存储器(Random AccessMemory,简写为:RAM)、磁盘或光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种通信设备故障根因的分析方法,其特征在于,具体包括:
将通信网络的树形结构以主控节点为基准拆分为单链,单链的每个节点对应通信网络的一层;
基于识别模型对每个单链的故障原因类型的发生概率进行独立分析,以故障节点的ID和对应的故障原因类型作为本单链的故障根因;
对所有单链的故障根因进行汇总计算,以汇总结果作为本次故障的故障根因的概率结论;
将本次故障中所有与故障根因关联的单链对应的特征数据以及本次故障的故障根因合并作为一条故障训练数据,将所有无故障单链对应的特征数据合并作为一条无故障训练数据,加入识别模型的训练数据集,以对识别模型进行迭代训练。
2.根据权利要求1所述的通信设备故障根因的分析方法,其特征在于,所述将通信网络的树形结构以主控节点为基准拆分为单链,具体包括:
将通信网络的树形结构以树结构表示,主控节点作为树结构的根节点,树结构的每一层对应通信网络的树形结构中的一层;
由主控节点开始,对树结构中的每一个分支进行遍历,直至到达叶节点,由根节点到一个叶节点的一条遍历路径上的所有节点作为一个单链,并将上层节点的数据复制至每个单链的数据中。
3.根据权利要求2所述的通信设备故障根因的分析方法,其特征在于,当主控节点上存在两个方向的网络连接时,所述将通信网络的树形结构以主控节点为基准拆分为单链,还包括:
将主控节点的上联树结构和下联树结构分别拆分为部分单链;
将拆分后的部分单链以主控节点为连接点,一对一排列组合为完整的单链。
4.根据权利要求1所述的通信设备故障根因的分析方法,其特征在于,所述将通信网络的树形结构以主控节点为基准拆分为单链之前,还包括:
获取故障告警信息覆盖的树形结构范围,将树形结构范围内的网络节点拆分为单链,并将上层节点的数据复制至每个单链的数据中。
5.根据权利要求1所述的通信设备故障根因的分析方法,其特征在于,所述对每个单链中每个节点对应的故障原因类型的发生概率进行独立分析,具体包括:
根据各子设备的网络业务特性,确定每种故障原因类型对应的节点级别;
基于贝叶斯网络分类器对每条单链的故障特征数据进行分析,输出每条单链中每个节点发生每种故障原因类型的相对概率。
6.根据权利要求1所述的通信设备故障根因的分析方法,其特征在于,所述对所有单链的故障根因进行汇总计算,具体包括:
获取每条单链中存在的故障根因的发生概率值,将各故障根因按发生概率值进行排序,以排序结果作为故障根因的汇总计算结果。
7.根据权利要求6所述的通信设备故障根因的分析方法,其特征在于,所述获取每条单链中存在的故障根因的发生概率值,还包括:
当多条单链中存在同一故障根因时,取各单链中该故障根因概率值的均值作为该故障根因的发生概率值。
8.根据权利要求1所述的通信设备故障根因的分析方法,其特征在于,所述将本次故障中所有与故障根因关联的单链对应的特征数据以及本次故障的故障根因合并作为一条故障训练数据,将所有无故障单链对应的特征数据合并作为一条无故障训练数据,具体包括:
将故障发生的概率值和真实故障原因类型相结合,作为影响该故障原因类型的先验概率;
将无故障情况视为一种故障原因类型,将其它所有故障原因类型先验概率的平均值作为无故障类型的先验概率,或以故障原因类型数量的倒数作为无故障类型的先验概率。
9.根据权利要求1所述的通信设备故障根因的分析方法,其特征在于,所述将本次故障中所有与故障根因关联的单链对应的特征数据以及本次故障的故障根因合并作为一条故障训练数据,将所有无故障单链对应的特征数据合并作为一条无故障训练数据,还包括:
当故障根因关联了多条单链时,将被关联的多条单链的每一项故障特征值按照求众数的方式合并为识别模型的1条训练数据。
10.一种通信设备故障根因的分析装置,其特征在于:
包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储能被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成权利要求1-9中任一项所述的通信设备故障根因的分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211500847.7A CN115865625A (zh) | 2022-11-28 | 2022-11-28 | 一种通信设备故障根因的分析方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211500847.7A CN115865625A (zh) | 2022-11-28 | 2022-11-28 | 一种通信设备故障根因的分析方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115865625A true CN115865625A (zh) | 2023-03-28 |
Family
ID=85667172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211500847.7A Pending CN115865625A (zh) | 2022-11-28 | 2022-11-28 | 一种通信设备故障根因的分析方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115865625A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117596126A (zh) * | 2024-01-19 | 2024-02-23 | 合肥先进计算中心运营管理有限公司 | 一种针对高性能集群中高速网络异常的监控方法 |
CN117650971A (zh) * | 2023-12-04 | 2024-03-05 | 武汉烽火技术服务有限公司 | 一种通信系统设备故障预防的方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104518905A (zh) * | 2013-10-08 | 2015-04-15 | 华为技术有限公司 | 一种故障定位方法及装置 |
CN111897673A (zh) * | 2020-07-31 | 2020-11-06 | 平安科技(深圳)有限公司 | 运维故障根因识别方法、装置、计算机设备和存储介质 |
CN112039695A (zh) * | 2020-08-19 | 2020-12-04 | 朔黄铁路发展有限责任公司肃宁分公司 | 基于贝叶斯推理的传输网络故障定位方法及装置 |
US20210019653A1 (en) * | 2017-12-11 | 2021-01-21 | Nec Corporation | Failure analysis device, failure analysis method, and failure analysis program |
CN114385403A (zh) * | 2022-01-13 | 2022-04-22 | 北京交通大学 | 基于双层知识图谱架构的分布式协同故障诊断方法 |
-
2022
- 2022-11-28 CN CN202211500847.7A patent/CN115865625A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104518905A (zh) * | 2013-10-08 | 2015-04-15 | 华为技术有限公司 | 一种故障定位方法及装置 |
US20210019653A1 (en) * | 2017-12-11 | 2021-01-21 | Nec Corporation | Failure analysis device, failure analysis method, and failure analysis program |
CN111897673A (zh) * | 2020-07-31 | 2020-11-06 | 平安科技(深圳)有限公司 | 运维故障根因识别方法、装置、计算机设备和存储介质 |
CN112039695A (zh) * | 2020-08-19 | 2020-12-04 | 朔黄铁路发展有限责任公司肃宁分公司 | 基于贝叶斯推理的传输网络故障定位方法及装置 |
CN114385403A (zh) * | 2022-01-13 | 2022-04-22 | 北京交通大学 | 基于双层知识图谱架构的分布式协同故障诊断方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117650971A (zh) * | 2023-12-04 | 2024-03-05 | 武汉烽火技术服务有限公司 | 一种通信系统设备故障预防的方法和装置 |
CN117596126A (zh) * | 2024-01-19 | 2024-02-23 | 合肥先进计算中心运营管理有限公司 | 一种针对高性能集群中高速网络异常的监控方法 |
CN117596126B (zh) * | 2024-01-19 | 2024-03-26 | 合肥先进计算中心运营管理有限公司 | 一种针对高性能集群中高速网络异常的监控方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115865625A (zh) | 一种通信设备故障根因的分析方法和装置 | |
CN111342997B (zh) | 一种深度神经网络模型的构建方法、故障诊断方法及系统 | |
CN106168799B (zh) | 一种基于大数据机器学习进行电动汽车电池预测性维护的方法 | |
CN110740054B (zh) | 一种基于强化学习的数据中心虚拟化网络故障诊断方法 | |
CN106802862A (zh) | 列车运行控制系统安全关键软件自动测试平台 | |
US20180375373A1 (en) | Impact increments-based state enumeration reliability assessment approach and device thereof | |
CN107272646A (zh) | 基于专家系统的压力机故障诊断系统 | |
DE102012102770A1 (de) | System und Verfahren zur Fehleranalyse und Fehlereingrenzung basierend auf Netzmodellierung | |
CN113189451A (zh) | 配电网故障定位研判方法、系统、计算机设备和存储介质 | |
CN101170447A (zh) | 基于主动探针的服务故障诊断系统及其方法 | |
CN105678337B (zh) | 一种智能变电站故障诊断中的信息融合方法 | |
CN109697563B (zh) | 一种考虑隐性故障的电力信息物理系统风险保障预警方法 | |
US20200241986A1 (en) | Method for detecting repair-necessary motherboards and device using the method | |
CN105187255A (zh) | 故障分析方法、故障分析装置和服务器 | |
CN116610104A (zh) | 基于砷烷合成控制系统的故障分析方法及系统 | |
CN105681070A (zh) | 一种自动收集计算机集群节点信息并分析的方法及系统 | |
CN102281103A (zh) | 基于模糊集合解算的光网络多故障恢复方法 | |
CN110213087A (zh) | 一种基于动态多层耦合网络的复杂系统故障定位方法 | |
CN110389892A (zh) | 一种基于云平台历史故障数据的故障注入方法 | |
CN109784629B (zh) | 一种基于神经网络的变电站工控网络故障定位方法 | |
CN109889258B (zh) | 一种光网络故障校验方法和设备 | |
CN109858822B (zh) | 一种基于流关联分析的信息电力融合系统可靠性评估方法 | |
CN103646095B (zh) | 一种基于数据驱动的共因失效的可靠性判断系统及方法 | |
CN109547248A (zh) | 基于人工智能的在轨飞行器自组网故障诊断方法及装置 | |
CN112684300B (zh) | 一种利用双向监测信息的主动配电网故障诊断方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |