CN113746663B - 机理数据双驱动结合的性能劣化故障根因定位方法 - Google Patents

机理数据双驱动结合的性能劣化故障根因定位方法 Download PDF

Info

Publication number
CN113746663B
CN113746663B CN202110632420.1A CN202110632420A CN113746663B CN 113746663 B CN113746663 B CN 113746663B CN 202110632420 A CN202110632420 A CN 202110632420A CN 113746663 B CN113746663 B CN 113746663B
Authority
CN
China
Prior art keywords
variable
root cause
causal
variables
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110632420.1A
Other languages
English (en)
Other versions
CN113746663A (zh
Inventor
杨树森
杨煜乾
高炅
徐宗本
薛江
孙建永
王楠斌
缪丹丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Xian Jiaotong University
Original Assignee
Huawei Technologies Co Ltd
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd, Xian Jiaotong University filed Critical Huawei Technologies Co Ltd
Priority to CN202110632420.1A priority Critical patent/CN113746663B/zh
Publication of CN113746663A publication Critical patent/CN113746663A/zh
Application granted granted Critical
Publication of CN113746663B publication Critical patent/CN113746663B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Supply And Distribution Of Alternating Current (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种机理数据双驱动结合的性能劣化定位方法,解决了不同场景下通信路测性能劣化的根因定位问题。该方法包含两个模块,因果关系学习模块设计了因果关系学习模型,考虑结点关系的异构性,明确了因果关系图中结点关系的方程表示;因果推理模块基于介入指标和分布指标进行因果推断,综合介入偏差以及分布异常情况进行最终故障根本原因的推理。本发明采用具有可解释性的高效算法,在现网测试环境数据集测试下大幅提高了传统方法的根因定位准确率,同时具备高召回率,并且具备可推广性。此外,本发明有利于企业维护工程师的实际应用,方案分析与结论可下放至运维基层,提升运维效率,降低运维成本。

Description

机理数据双驱动结合的性能劣化故障根因定位方法
技术领域
本发明属于智能运维(AIOPS)领域,具体涉及一种机理数据双驱动结合的性能劣化故障根因定位方法。
背景技术
随着通信相关技术的不断发展和应用领域的不断扩展,越来越多种类和数量的移动设备接入移动网络,移动网络在生产生活中的角色越来越重要。与此同时,随着移动网络在生产生活中的应用,网络故障影响用户的使用体验,甚至造成巨大损失并且威胁社会的稳定安全,因此,移动网络运维具有重要的现实意义。
网络性能劣化的根因定位作为网络运维的重要部分,通过识别网络组件的指标异常来识别故障根因,并向管理人员提供故障根因列表及预测概率,帮助管理人员准确快速地定位故障根因,针对性进行核心问题解决修复,提升故障响应速度和用户体验。
当前,复杂的网络故障问题定位仍然依赖于专家经验,缺乏自动化的手段。并且专家经验方法存在经验方法模糊难以继承、灵活性较低、缺乏联合思考等问题。在实际需求和数据情况方面,首先,电信网络的故障定位方法需要满足可解释性,以辅助工程师进行根因定位;其次,因果关系图中结点之间存在异构的图关系,而学术界现有的因果关系学习方法默认结点间关系同构;此外,数据存在严重的属性缺失情况、缺乏标签数据等具体问题。
发明内容
针对上述问题,本发明提供了一种机理数据双驱动结合的性能劣化故障根因定位方法,该方法可以学习告警之间的因果关系,构建因果关系表示,从而降低对业务专家的依赖,并且提升根因定位准确性和故障处理的效率。
为达到上述目的,本发明采用如下技术方案来实现的:
机理数据双驱动结合的性能劣化故障根因定位方法,该方法从可解释性需求、标签数据有限的情况出发,将性能劣化故障根因定位方法分解为两个步骤:
基于图神经网络的因果关系学习模块,考虑变量的物理性质和变量之间的理论物理关系,从异构角度建立因果关系学习模型,学习变量之间的影响关系,即因果关系;
基于介入指标和分布指标的因果推理模块,研究操纵特定变量值对其他特定变量的影响,从而推断不同样例中变量值对性能下降现象的影响程度,进而推断故障的根因集合及对应概率。
本发明进一步的改进在于,已知因果关系图,考虑变量之间的理论物理关系,设计基于泛化图神经网络的因果关系学习模型,构建变量之间因果关系的表示,具体包括以下步骤:
1)因果关系图解耦:
结合变量的物理性质、变量之间的理论物理关系以及数据严重缺失情况,将因果关系图分层进行解耦训练;
2)各分层关系学习模型解耦设计和训练:
结合专家知识和理论物理关系,将神经网络模块特点与关系特点进行对应选取,使用LSTM、全连接层等基础神经网络单元以及残差连接、Attention机制神经网络模块进行基础关系的搭建,并对实际情况中可能出现的偏差情况进行相应改进。
本发明进一步的改进在于,变量之间因果关系存在阈值判定类分段非线性关系时,采用全连接层和ReLU激活函数进行模型搭建,具体数学表示如下:
x′=max(0,xW2 T+b2)。
本发明进一步的改进在于,变量之间因果关系需要考虑空间结构并且存在相互影响关系时,采用Transformer模型中的Attention模块加权更新统一表示,公式表示如下:
y=Attention(x0,x1,…,xn)。
本发明进一步的改进在于,变量之间因果关系为反馈关系时,设计全连接层将输出作为反馈变量,对受反馈的变量进行拼接和变量表示学习处理,即当变量x和变量y之间存在反馈关系,变量y由变量x生成,那么变量y的反馈变量yup表示为:
yup=fup(y)
x′=fb([x;yup])
其中,fup为线性模型,并且不同变量的反馈计算模型参数共享;fb为常见的全连接层叠加激活函数层的形式。
本发明进一步的改进在于,在变量之间的因果关系模糊时,采用集成学习方法,引入通用的神经网络模型,包括LSTM、Transformer和MLP,学习因果关系在理论之外的偏差部分,提升关系学习的准确率。
本发明进一步的改进在于,因果推理模块将因果关系学习模块的训练模型作为因素间因果关系表示的先验知识指导,计算指标介入后期望样本的偏差情况作为介入指标,再统计满足期望性能的历史样本的因素分布,计算性能劣化样本的分布异常情况作为分布指标,综合介入指标以及分布指标进行最终故障根本原因的推理。
本发明进一步的改进在于,介入指标,是联合考虑因果关系以及因果效应的干预的指标,由以下步骤构造得到:
1)观测结果估计:
通过对满足期望性能的历史数据进行统计,由各个因素历史均值组成的单个数据点作为因果推断的研究单元,估计不进行治疗的观测结果YF
2)独立处理效应计算:
对性能不符合期望值的异常样本的每一个变量进行因果推断,研究改变原始样本的某个变量值会在多大程度上影响一个可能的结果,计算独立处理效应值:
ITEi,k=Y(Wi,k=1)-Y(Wi,k=0)=Y(do(xi,k=a))-YF
其中,ITEi,k表示使用第i个异常样本的第k个变量值对研究单元进行干扰的独立处理效应值,do(·)为干扰操作算子;
3)介入指标计算:
由于干扰因子的潜在结果对应分层的结果,不同结果的度量不同,因此最后针对结果进行归一化处理,得到最终的介入指标:
Figure BDA0003104172410000041
其中,αi,k表示使用第i个异常样本的第k个变量值对研究单元进行干扰的介入指标,ITEi,k为介入的ITE值,YF为当前模型层的观测结果,
Figure BDA0003104172410000042
为观测结果的最小可能取值。
本发明进一步的改进在于,设计分布指标衡量历史数据扰动情况对变量异常判断的影响,使用密度估计的非监督学习方法,假设变量服从正态分布,在已知均值和标准差的情况下,计算异常样本对应的因素服从期望因素分布的概率:
Figure BDA0003104172410000043
从异常的角度分析,服从正常分布的概率越小,异常程度更显著,因此第i个异常样本的第k个变量值的分布指标计算公式为:
βi,k=1-P(xi,k;μkk 2)
其中,μk、δk分别表示第k个变量值历史数据的正常指标的均值和标准差,xi,k为第i个异常样本的第k个变量值。
本发明进一步的改进在于,将上述两个异常指标整合作为变量的联合指标,进行分类处理,从而定位性能劣化故障的根本原因。
本发明至少具有如下有益的技术效果:
本发明提供的机理数据双驱动结合的性能劣化故障根因定位方法,该方法学习了指标变量之间因果关系的异构表示,并建立异常检测模块,将介入指标和分布指标作为检测指标进行故障定位,该方法在5G速率性能劣化场景中进行了验证,大大提升了传统方法根因定位的准确率。此外,算法具有可解释性利于维护工程师的实际应用,不同局点的数据实验表明模型有较好的通用性,方案具备可推广性。方案分析与结论可下放至运维基层,提升运维效率,降低运维成本。
附图说明
图1为机理数据双驱动结合的性能劣化故障根因定位方法的整体框架;
图2为机理数据双驱动结合的性能劣化故障根因定位方法的因果关系图示意图;
图3为机理数据双驱动结合的性能劣化故障根因定位方法的因果关系图解耦结构示意图;
图4为机理数据双驱动结合的性能劣化故障根因定位方法的因果关系模块第一层解耦模型设计示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细描述。
实际场景中,移动网络具有复杂的无线通信环境以及网络部署结构,不同场景下性能劣化现象会有一定差异,但是网络影响因素的因果关系框架无差异。在少量数据和场景差异的前提下,如何设计方法学习具有推广意义的因素间网络因果关系并进行根因定位、推断当前现象的根本原因存在巨大挑战。对于故障定位和根因分析问题,学术界在通信网络运维领域没有成熟的解决方案;工业界的主要技术为专家系统,严重依赖专家经验总结的自动化故障树通常采用独立判断的原则,缺乏联合思考,维护和更新耗费大量人力物力。
综合上述情况,参考图1,本发明提出一种机理数据双驱动结合的性能劣化故障根因定位方法,针对实际性能掉坑场景中所有的标签都需要人工进行标注,标注的数据较少且不全面的情况,本发明将故障根因定位问题分解为两个子问题:第一,如何在已知性能劣化影响因素的因果关系图及时段变量值的前提下,结合变量之间的理论物理关系,设计具有可解释性的根因关系学习算法,学习实际场景中变量之间的因果关系结构方程;第二,如何在已知复杂因果关系以及时段变量值的前提下,结合历史数据统计信息,定位不符合预期性能劣化(如速率、掉话率劣化等)情况数据的故障的根本原因。对应上述问题拆分,本发明将故障根因定位方法分为了因果关系学习模块和因果推理模块。
参考图1,因果关系学习模块无需根因标签,目前学术界因果关系学习领域算法将因果关系视为同构关系,但本发明将专家知识提供的因果关联图和变量的理论物理关系作为先验知识,设计具有可解释性的异构因果关系学习算法,学习变量之间的因果关系学习模型。考虑到根因定位算法用于解决性能劣化场景的根因定位问题,根本原因对应了顶层父结点集合的参数表现,因此因果推理模块考虑选取与故障、根因表现相对应的指标进行分类学习,从而确定性能劣化的根因。
下面将进行各个模块的具体描述:
模块一——因果关系学习模块
在图神经网络算法的具体设计方面,传统的图神经网络通常将图中结点关系信息表示为邻接矩阵,并采用黑盒模型实现相关任务训练。但本技术中采用的图神经网络方法考虑因果关系图中结点的理论物理关系,在网络设计上耦合了图的邻域信息,使用充分考虑理论物理关系类型的异构邻接关系构建方法,为模型和结果计算提供可解释理论。
结合变量的物理性质、变量之间的理论物理关系、数据严重缺失情况,将因果关系图进行解耦训练,划分为三大层,参考图2和图3。
此外,本模块沿用有向无环图关系表示的假设,在因果关系学习模型的指导下,变量可以使用父结点表示:
xj=fj(Paj(xj),uj(xj))
其中,Paj(xj)为变量xj的父结点集合。
以因果关系图为先验知识,目前父结点的选取严格按照图2中关系所示。因果关系学习模型在各分层内建立子模型,进行子结点的预测训练,使用各层模型的父结点集合数据作为模型输入,验证各层模型输出变量的预测准确性,以验证模型因果关系学习的效果。
下面将简要介绍各层模型设计中的重要步骤。
1)Layer1关系模型设计
参照通信原理和专家经验,设计部分的模型搭建严格按照遵守有向无环图中的假设,变量生成使用父结点表示。如TS38.306中基于香农定理的速率表达式,即为典型的通信原理,
Figure BDA0003104172410000071
其中,J为聚合载波数,
Figure BDA0003104172410000072
为支持的最大层数,
Figure BDA0003104172410000073
为调制顺序的最大支持调制阶数,f(j)为比例因子,Rmax=948/1024,
Figure BDA0003104172410000074
为分配的最大PRB数,μ为子载波间隔,
Figure BDA0003104172410000075
为子帧中的平均OFDM符号持续时间,OHj为开销。
参考图4,为本发明因果关系学习Layer1模块的设计。其中,变量之间因果关系存在大量的阈值判定类分段非线性关系,因此大多数关系的模型搭建均采用全连接层和ReLU激活函数,例如:
x″B5=max(0,x′B5W2 T+b2)
其中,x′B5为伸缩处理后的图2中B5变量的值。
参考图2,由于在Layer1因果关系图中,B5处理后结点指向B4与B6两个生成结点,因此两个结点均由自身和B5值计算。
2)Layer2关系模型设计
Layer2层除基础的非线性关系外,根据业务知识,D4结点各个变量之间要考虑空间结构,并且变量之间会产生相互影响。因此采用Transformer模型中的Attention模块加权更新统一表示,模型设计为:
y=Attention(x0,x1,…,xn)
其中,xi表示伸缩处理后的C4结点第i个属性值,y表示C4经过算法处理后的变量表示。
参考图3和专家经验,B4结点的调整流程存在反馈情况,模型中假设真实情况存在反馈关系,再结合B3及B4在因果关系图中的因果关系连接,假设由B3的反馈效应主导,即B3的反馈函数会影响到B4计算的C1、C2、C3值以及自身的选择,B3变量xB3对C2变量xC2的反馈计算公式:
xup_b3=fup(xB3)
xC2′=fb([xc2;xup_b3])
其中,fup为线性模型,并且不同变量的反馈计算模型参数共享;fb为常见的全连接层叠加激活函数层的形式。
此外,由于第二层部分因素之间的因果关系模糊,运用集成学习思想,在第二层考虑加入传统的序列学习模型LSTM进行偏差部分的协同学习:
xf,B2=αxt,B2+(1-α)xn,B2
其中,xt,B2表示反馈模型后的B2的理论表示,xn,B2表示LSTM学习的B2的偏差表示,xf,B2表示Layer2算法计算后B2的最终表示。
3)Layer3关系模型设计
参考图3和专家经验,由于Layer3-1层模型之间的关系表示明确,仅使用Layer1提到的非线性模型即可完成模型的建立。
Layer3-2层的变量存在拓扑结构,D3变量值表示多个个体的矩阵坐标,并且在根因描述中提出个体之间的距离较近会导致根因类型“Root4”;此外,变量D4表示不同个体的强度分布,并且在根因描述中提出个体强度差异会导致根因类型“Root6”,因此构建D3之间的距离度量,同时考虑D4之间的差异,使用加权Attention机制来进行差距的表示。
使用2-范数的平方表示两个D3变量值之间的距离,距离公式如下:
Figure BDA0003104172410000091
关于D4强度之间的差距角度,使用已有的Attention机制来进行差距的表示,并融合D3空间距离部分。
首先进行初始特征结点嵌入:
qD4,i=x′D4,iWT+b
其次,Attention机制的函数表示为:
AD4=Attention(QD4,KD4,VD4)=(D·softmax(QD4KD4 T))VD4
其中,D为空间距离矩阵,QD4=(qi)为各个个体的加权D4矩阵,KD4、VD4均为各个个体的D4矩阵。
最终,D4的Attention输出XD4再通过聚合、全连接层和激活层获取,表示为:
XD4=Tanh([AD4;QD4]WT+b)
其中,AD4为Attention机制输出,QD4为各个个体的加权D4矩阵,[;]为concatenate操作。
4)目标函数
由于因果关系学习任务中没有对因果关系(边)的先验信息,因此因果关系学习问题转换为了独立层的子结点预测的回归问题。因果关系的预测越准确,在已知父结点值预测子结点值时越能准确地预测实值输出标记。因此选用回归问题中常用的均方误差(MSE)函数作为模型训练的损失函数。
使用MSE函数检测模型的预测值和真实值之间的偏差,损失计算公式如下所示:
Figure BDA0003104172410000092
模块二——因果推理模块
本发明用于解决性能劣化场景的根因定位问题,根本原因对应了顶层父结点集合的参数表现,因此考虑选取与故障、根因表现相对应的指标进行分类学习,从而确定性能劣化的根因。
参考图1,因果推理学习模块将因果关系学习模块的训练模型作为因素间因果关系表示的先验知识指导,计算变量值介入后期望样本的偏差情况作为介入指标,再统计满足期望性能的历史样本的因素分布,计算性能劣化样本的分布异常情况作为分布指标,综合介入指标以及分布指标进行最终故障根本原因的推理。
介入指标,是联合考虑因果关系以及因果效应的干预的指标,具体的计算过程如下:
1)观测结果估计:
通过对满足期望性能的历史数据进行统计,由各个因素历史均值组成的单个数据点作为因果推断的研究单元,确定不进行治疗,即W=0时,观测结果YF为:
Figure BDA0003104172410000101
其中,
Figure BDA0003104172410000102
表示历史期望数据的性能均值。
2)独立处理效应计算:
对性能不符合期望值的异常样本的每一个变量进行因果推断,研究改变原始样本的某个变量值会在多大程度上影响一个可能的结果。如对某个异常样本的第k个变量值xi,k=a进行因果推断,计算独立处理效应值:
ITEi,k=Y(Wi,k=1)-Y(Wi,k=0)=Y(do(xi,k=a))-YF
其中,ITEi,k表示使用第i个异常样本的第k个变量值对研究单元进行干扰的独立处理效应值,do(·)为干扰操作算子。对于干扰的潜在结果计算问题,使用表示因果关系的因果关系学习模型计算分层的输出结果。
3)介入指标计算:
由于干扰因子的潜在结果对应分层的结果,不同结果的度量不同,因此最后针对结果进行归一化处理,得到最终的介入指标:
Figure BDA0003104172410000111
其中,αi,k表示使用第i个异常样本的第k个变量值对研究单元进行干扰的介入指标,ITEi,k为介入的ITE值,YF为当前模型层的观测结果,
Figure BDA0003104172410000112
为观测结果的最小可能取值。
介入指标只考虑了历史数据的均值情况,而忽略了历史数据扰动情况对变量异常判断的影响。因此,考虑分布指标作为衡量当前数据异常水平进行根因推断的第二个指标。
分布指标的计算方法为异常检测的常见方法,即密度估计的非监督学习方法,结合期望样本的所有变量的历史分布的均值和标准差两个因素,假设变量服从正态分布,即在已知均值和标准差的情况下,计算异常样本对应的因素服从期望因素分布的概率:
Figure BDA0003104172410000113
上述公式表示异常样本的某指标服从正常指标高斯分布的概率,从异常的角度分析,服从正常分布的概率越小,异常程度更显著。因此第i个异常样本的第k个变量值的分布指标βi,k计算公式为:
βi,k=1-P(xi,k;μkk 2)
其中,μk、δk分别表示第k个变量值历史数据的正常指标的均值和标准差,xi,k为第i个异常样本的第k个变量值。
在获得上述两个指标之后,首先将上述两个异常指标整合作为变量的联合指标。由于根本原因对应具体因素的特定异常表现,因此可以在联合异常指标的基础上进行分类处理,从而定位性能劣化的根本原因。本模块中采用的分类器为神经网络模型。
神经网络模型首先将两个异常指标进行加权处理,选取可学习权重,公式表示如下:
pi,j=k·αi,j+(1-k)·(βi,j)
其中,αi,j、βi,j、pi,j分别为第i个异常样本的第j个变量值对应的介入指标、分布指标和联合指标,k∈[0,1]为可学习权重。
将联合指标作为输入进行分类计算,分类模型如下:
Figure BDA0003104172410000121
Figure BDA0003104172410000122
其中,Pi={pi,k}k∈K为第i个异常样本所有因素的联合异常指标集合,pi,k表示第i个异常样本第k个因素的联合异常指标;
Figure BDA0003104172410000123
为最终的分类模型输出,表示第i个样本划分为第j个类别的概率。
本发明在现网测试环境数据集测试下大幅提高了传统方法的根因定位准确率,同时具备高召回率。不同局点的数据实验表明模型有较好的通用性,方案具备可推广性。此外,本发明采用具有可解释性的高效算法,有利于维护工程师的实际应用,方案分析与结论可下放至运维基层,提升运维效率,降低运维成本。

Claims (9)

1.机理数据双驱动结合的性能劣化故障根因定位方法,其特征在于,该方法从可解释性需求、标签数据有限的情况出发,将性能劣化故障根因定位方法分解为两个步骤:
基于图神经网络的因果关系学习模块,考虑变量的物理性质和变量之间的理论物理关系,从异构角度建立因果关系学习模型,学习变量之间的影响关系,即因果关系;
基于介入指标和分布指标的因果推理模块,研究操纵特定变量值对其他特定变量的影响,从而推断不同样例中变量值对性能下降现象的影响程度,进而推断故障的根因集合及对应概率;
因果推理模块将因果关系学习模块的训练模型作为因素间因果关系表示的先验知识指导,计算指标介入后期望样本的偏差情况作为介入指标,再统计满足期望性能的历史样本的因素分布,计算性能劣化样本的分布异常情况作为分布指标,综合介入指标以及分布指标进行最终故障根本原因的推理。
2.根据权利要求1所述的机理数据双驱动结合的性能劣化故障根因定位方法,其特征在于,已知因果关系图,考虑变量之间的理论物理关系,设计基于泛化图神经网络的因果关系学习模型,构建变量之间因果关系的表示,具体包括以下步骤:
1)因果关系图解耦:
结合变量的物理性质、变量之间的理论物理关系以及数据严重缺失情况,将因果关系图分层进行解耦训练;
2)各分层关系学习模型解耦设计和训练:
结合专家知识和理论物理关系,将神经网络模块特点与关系特点进行对应选取,使用LSTM和全连接层基础神经网络单元以及残差连接、Attention机制神经网络模块进行基础关系的搭建,并对实际情况中可能出现的偏差情况进行相应改进。
3.根据权利要求2所述的机理数据双驱动结合的性能劣化故障根因定位方法,其特征在于,变量之间因果关系存在阈值判定类分段非线性关系时,采用全连接层和ReLU激活函数进行模型搭建,具体数学表示如下:
x′=max(0,xW2 T+b2)。
4.根据权利要求2所述的机理数据双驱动结合的性能劣化故障根因定位方法,其特征在于,变量之间因果关系需要考虑空间结构并且存在相互影响关系时,采用Transformer模型中的Attention模块加权更新统一表示,公式表示如下:
y=Attention(x0,x1,…,xn)。
5.根据权利要求2所述的机理数据双驱动结合的性能劣化故障根因定位方法,其特征在于,变量之间因果关系为反馈关系时,设计全连接层将输出作为反馈变量,对受反馈的变量进行拼接和变量表示学习处理,即当变量x和变量y之间存在反馈关系,变量y由变量x生成,那么变量y的反馈变量yup表示为:
yup=fup(y)
x′=fb([x;yup])
其中,fup为线性模型,并且不同变量的反馈计算模型参数共享;fb为常见的全连接层叠加激活函数层的形式。
6.根据权利要求2所述的机理数据双驱动结合的性能劣化故障根因定位方法,其特征在于,在变量之间的因果关系模糊时,采用集成学习方法,引入通用的神经网络模型,包括LSTM、Transformer和MLP,学习因果关系在理论之外的偏差部分,提升关系学习的准确率。
7.根据权利要求1所述的机理数据双驱动结合的性能劣化故障根因定位方法,其特征在于,介入指标,是联合考虑因果关系以及因果效应的干预的指标,由以下步骤构造得到:
1)观测结果估计:
通过对满足期望性能的历史数据进行统计,由各个因素历史均值组成的单个数据点作为因果推断的研究单元,估计不进行治疗的观测结果YF
2)独立处理效应计算:
对性能不符合期望值的异常样本的每一个变量进行因果推断,研究改变原始样本的某个变量值会在多大程度上影响一个可能的结果,计算独立处理效应值:
ITEi,k=Y(Wi,k=1)-Y(Wi,k=0)=Y(do(xi,k=a))-YF
其中,ITEi,k表示使用第i个异常样本的第k个变量值对研究单元进行干扰的独立处理效应值,do(·)为干扰操作算子;
3)介入指标计算:
由于干扰因子的潜在结果对应分层的结果,不同结果的度量不同,因此最后针对结果进行归一化处理,得到最终的介入指标:
Figure FDA0003636306480000031
其中,αi,k表示使用第i个异常样本的第k个变量值对研究单元进行干扰的介入指标,ITEi,k为介入的ITE值,YF为当前模型层的观测结果,
Figure FDA0003636306480000032
为观测结果的最小可能取值。
8.根据权利要求1所述的机理数据双驱动结合的性能劣化故障根因定位方法,其特征在于,设计分布指标衡量历史数据扰动情况对变量异常判断的影响,使用密度估计的非监督学习方法,假设变量服从正态分布,在已知均值和标准差的情况下,计算异常样本对应的因素服从期望因素分布的概率:
Figure FDA0003636306480000033
从异常的角度分析,服从正常分布的概率越小,异常程度更显著,因此第i个异常样本的第k个变量值的分布指标计算公式为:
βi,k=1-P(xi,k;μk,δk 2)
其中,μk、δk分别表示第k个变量值历史数据的正常指标的均值和标准差,xi,k为第i个异常样本的第k个变量值。
9.根据权利要求1所述的机理数据双驱动结合的性能劣化故障根因定位方法,其特征在于,将上述两个异常指标整合作为变量的联合指标,进行分类处理,从而定位性能劣化故障的根本原因。
CN202110632420.1A 2021-06-07 2021-06-07 机理数据双驱动结合的性能劣化故障根因定位方法 Active CN113746663B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110632420.1A CN113746663B (zh) 2021-06-07 2021-06-07 机理数据双驱动结合的性能劣化故障根因定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110632420.1A CN113746663B (zh) 2021-06-07 2021-06-07 机理数据双驱动结合的性能劣化故障根因定位方法

Publications (2)

Publication Number Publication Date
CN113746663A CN113746663A (zh) 2021-12-03
CN113746663B true CN113746663B (zh) 2022-08-16

Family

ID=78728435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110632420.1A Active CN113746663B (zh) 2021-06-07 2021-06-07 机理数据双驱动结合的性能劣化故障根因定位方法

Country Status (1)

Country Link
CN (1) CN113746663B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114818483B (zh) * 2022-04-14 2023-04-07 东南大学溧阳研究院 一种基于图神经网络的机电扰动定位及传播预测方法
CN115514627A (zh) * 2022-09-21 2022-12-23 深信服科技股份有限公司 一种故障根因定位方法、装置、电子设备及可读存储介质
CN116360388B (zh) * 2023-01-18 2023-09-08 北京控制工程研究所 基于图神经网络的性能-故障关系图谱的推理方法和装置
CN116150635B (zh) * 2023-04-18 2023-07-25 中国海洋大学 基于跨域关联性表示的滚动轴承未知故障检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108510060A (zh) * 2018-03-12 2018-09-07 华南理工大学 一种基于模糊神经网络的区间二型模糊认知图模型
EP3435233A1 (en) * 2017-07-27 2019-01-30 Nokia Solutions and Networks Oy A method for identifying causality objects
CN111258798A (zh) * 2020-01-14 2020-06-09 平安壹钱包电子商务有限公司 监控数据的故障定位方法、装置、计算机设备及存储介质
CN111522705A (zh) * 2020-03-23 2020-08-11 广东工业大学 一种工业大数据智能运维解决方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109814523B (zh) * 2018-12-04 2020-08-28 合肥工业大学 基于cnn-lstm深度学习方法及多属性时序数据的故障诊断方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3435233A1 (en) * 2017-07-27 2019-01-30 Nokia Solutions and Networks Oy A method for identifying causality objects
CN108510060A (zh) * 2018-03-12 2018-09-07 华南理工大学 一种基于模糊神经网络的区间二型模糊认知图模型
CN111258798A (zh) * 2020-01-14 2020-06-09 平安壹钱包电子商务有限公司 监控数据的故障定位方法、装置、计算机设备及存储介质
CN111522705A (zh) * 2020-03-23 2020-08-11 广东工业大学 一种工业大数据智能运维解决方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Self-diagnosis technique for virtual private networks combining Bayesian networks and case-based reasoning;Bennacer L等;《IEEE Transactions on AutomationScience and Engineering》;20150131;354-366 *

Also Published As

Publication number Publication date
CN113746663A (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
CN113746663B (zh) 机理数据双驱动结合的性能劣化故障根因定位方法
Liu et al. Application of neural network in fault location of optical transport network
Zhang et al. A short-term traffic forecasting model based on echo state network optimized by improved fruit fly optimization algorithm
CN109039739A (zh) 一种改进模糊Petri的电力通信现场故障诊断方法
CN111880044A (zh) 一种含分布式电源配电网在线故障定位方法
CN116245033B (zh) 人工智能驱动的电力系统分析方法及智能软件平台
Kleyko et al. Fault detection in the hyperspace: Towards intelligent automation systems
CN116205265A (zh) 一种基于深层神经网络的电网故障诊断方法及装置
Zhou A fuzzy petri-net approach for fault analysis considering factor influences
CN113676371A (zh) 一种基于深度q学习的网络故障检测与诊断方法
CN112836436A (zh) 一种基于概率图模型的配电网线路风险量化预测方法
Friesen et al. Machine learning for zero-touch management in heterogeneous industrial networks-a review
CN113740666B (zh) 一种数据中心电力系统告警风暴根源故障的定位方法
CN114385403A (zh) 基于双层知识图谱架构的分布式协同故障诊断方法
CN107818523B (zh) 基于非稳定频率分布与频率因子学习的电力通信系统数据真值判别与推断方法
CN113484693A (zh) 基于图神经网络的变电站二次回路故障定位方法及系统
Chen et al. Research on network management technology of power line carrier communication in low-voltage distribution network based on digital twin
CN112801815B (zh) 一种基于联邦学习的电力通信网络故障预警方法
Zhang et al. Fault diagnosis of energy networks: A graph embedding learning approach
CN115589613A (zh) 异常网络指标预警方法和装置、通信网络和存储介质
CN107016410A (zh) 用电信息采集系统故障诊断方法及故障诊断装置
Shan et al. Design and implementation of fault diagnosis system for power communication network based on CNN
Li et al. Distributed computing framework of intelligent sensor network for electric power internet of things
CN117688504B (zh) 基于图结构学习的物联网异常检测方法及装置
WO2023179073A1 (zh) 基于纵向联邦学习的otn数字孪生网络生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant