CN111049683A - 一种基于注意力机制的大规模网络群实时故障预测方法 - Google Patents

一种基于注意力机制的大规模网络群实时故障预测方法 Download PDF

Info

Publication number
CN111049683A
CN111049683A CN201911264827.2A CN201911264827A CN111049683A CN 111049683 A CN111049683 A CN 111049683A CN 201911264827 A CN201911264827 A CN 201911264827A CN 111049683 A CN111049683 A CN 111049683A
Authority
CN
China
Prior art keywords
fault
attention mechanism
time
faults
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911264827.2A
Other languages
English (en)
Inventor
林彦颖
叶可江
须成忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201911264827.2A priority Critical patent/CN111049683A/zh
Publication of CN111049683A publication Critical patent/CN111049683A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明属于计算机网络领域,涉及一种基于注意力机制的大规模网络群实时故障预测方法。本发明提出一种基于注意力机制的大规模网络群实时故障预测方法,该方法从拓扑和时空角度出发,不会丢失远期的权重信息,不会丢失低频故障设备的权重信息,并且可以批量预测一个有序的序列,这就是故障会发生的顺序。

Description

一种基于注意力机制的大规模网络群实时故障预测方法
技术领域
本发明属于计算机网络领域,涉及一种基于注意力机制的大规模网络群实时故障预测方法。
背景技术
大规模网络群的鲁棒性和容错性是评估网络系统性能时的重要指标,在电信网络中,可以利用故障预测来动态规划网络路由,甚至可以在策略和灵活性之间取得平衡,从而有效地调度网络流量。而且,如果可以准确地预测网络系统的故障,则网络系统可以显着提高网络效率和性能,显着减少资源消耗。
在故障预测当中最核心的问题就是通过故障之间的权重关系在大量的告警当中找到设备在发生故障时的传播过程的规律,特别是指通过物理上的拓扑结构也就是网络拓扑传播过程规律,或者在时间维度上的传播过程的规律。目前的技术基本上的都是只能通过时间上的关系去找到设备故障之间的关系,不够准确和高效。
网络故障定义:在拥有大量设备或者服务模块的网络中(例如中国电信),可能由于多种多样的原因产生大量设备上的故障,包括设备硬件故障以及软件程序上的故障。网络上的设备一旦产生故障,不单单会影响设备本身,而且会随着影响与之有直接连接或者业务交互的设备传播到整个网络当中。其中,越是处在网络中心的设备(网络中通过它的数据流量越多,链接的设备越多)所产生的故障的影响也越大越远,影响时间也越持久。
传统解决方案是制定一定的修复和路由转移规划规则,从先验拓扑结构(也就是已经知道的画出来的网络拓扑图)找到这个设备相邻的设备,将其链接到与故障设备有相同功能的备用设备上。
现在研究比较多的是基于数据挖掘的方案:使用基于遗传的数据挖掘算法,旨在识别网络警报数据中的预测顺序和时间模式,从而可以搜索故障空间。或者使用机器学习的方法,基于统计学的理论,找到发生概率较高的故障传播链。例如在故障中频繁出现A->B->C的过程,就会认为A->B->C之间是一定的规律。
现有技术的缺点如下:
a)无法预测远期故障。从规则挖掘的角度来看,该算法仅关注时间维度上故障之间的隐藏关系,尤其是使用时间窗口将故障划分为不同的簇,远期故障几乎无法被包含在正确的组中。
b)低频故障。网络中的某些设备提供简单的服务,中间产生的流量总量相对较小。看起来设备的性能非常好,因此这是一种在网络系统故障警报中几乎不可见的设备。但该设备提供的服务是网络的重要组成部分。一旦此类服务出现问题,就很可能导致大规模设备故障。在这种情况下,严重依赖时间规则挖掘的算法很难很好地执行。
c)性能瓶颈。在实际使用中,在预测的任务中提供更多的设备故障预测意味着管理者或后续的计划算法可以做出更好的安排,例如动态调整路线或预先减少流量,在大规模故障的情况下,使用规则挖掘方法时,必须使用非常高频率的调用规则来预测故障,这在实现过程会占用大量的CPU和内存。
发明内容
为解决上述背景技术中存在的问题,本发明提出一种基于注意力机制的大规模网络群实时故障预测方法,该方法从拓扑和时空角度出发,不会丢失远期的权重信息。
本发明解决上述问题的技术方案是:一种基于注意力机制的大规模网络群实时故障预测方法,其特殊之处在于,包括以下步骤:
1)首先按照时间将故障排序,去除无效故障以及重复故障;
2)将故障按固定长度切分为组,例如每32个故障为一组,并给每一组编号, s1,s2,s3.....;
3)使用Sequence-Embedding的方式,将每一组故障序列投射到高维空间中;
4)使用一个基于注意力机制设计的深度神经网络可以找到整个故障网络当中所有故障单元的相互表示的权重。例如故障设备(广州-马场-c1,广州-黄埔 -c2,深圳-西丽-c3)然后可以找到c1/c2=0.87,c2/c3=0.65,c1/c3=0.61。数值越小说明在拓扑结构和故障发生时间关系上越不相关;
5)最后将拓扑上和时间上最近的设备预测出来。
本发明的优点:
1)对于预测率和准确率。本发明的预测率与准确率分别从91%提升到98%, 83%提升到96%;
2)对于对低频故障的预测率。现有方法无法预测和建模,本发明从拓扑和时空角度出发,不会丢失低频故障设备的权重信息;
3)对于远期的预测。现有方法会丢失远期的故障特征或者错误建模,本发明从拓扑和时空角度出发,不会丢失远期的权重信息。
4)对于批量的预测。基于规则的现有方法智能进行1:1的预测,本发明可以批量预测一个有序的序列,这就是故障会发生的顺序。
附图说明
图1是本发明一种基于注意力机制的大规模网络群实时故障预测方法的框架图;
图2是本发明一种基于注意力机制的大规模网络群实时故障预测方法的流程图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。
参见图1和图2,一种基于注意力机制的大规模网络群实时故障预测方法,包括以下步骤:
1)首先按照时间将故障排序,去除无效故障以及重复故障;
2)将故障按固定长度切分为组,例如每32个故障为一组,并给每一组编号, s1,s2,s3.....;
3)使用Sequence-Embedding的方式,将每一组故障序列投射到高维空间中;
4)使用一个基于注意力机制设计的深度神经网络可以找到整个故障网络当中所有故障单元的相互表示的权重。例如故障设备(广州-马场-c1,广州-黄埔 -c2,深圳-西丽-c3)然后可以找到c1/c2=0.87,c2/c3=0.65,c1/c3=0.61。数值越小说明在拓扑结构和故障发生时间关系上越不相关;
5)最后将拓扑上和时间上最近的设备预测出来。
本发明在高维空间寻找设备权重,将故障告警使用时间分组,将设备故障投射到高维的空间中寻找故障之间的权重;本发明基于注意力机制的深度神经网络,使用基于注意力机制的深度神经网络来获取设备之间的拓扑关系和时间关系;本发明使用序列预测的方式,也就是预测出来的故障不止是一个,而是一串,比方说32个故障单元,也就是可以进行远期的预测和批量的预测。
所述注意力机制的核心思想是:从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上,忽略大多不重要的信息。聚焦的过程体现在权重系数的计算上,权重越大越聚焦于其对应的Value值上,即权重代表了信息的重要性,而Value是其对应的信息。
在进行了充分的实验后,本发明的效果明显好于机器学习方案,预测准确率稳定在96%以上,达到了目前业界最优水平。AT&T方案准确率大概在89%左右。
以上所述仅为本发明的实施例,并非以此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的系统领域,均同理包括在本发明的保护范围内。

Claims (1)

1.一种基于注意力机制的大规模网络群实时故障预测方法,其特征在于,包括以下步骤:
1)首先按照时间将故障排序,去除无效故障以及重复故障;
2)将故障按固定长度切分为组,并给每一组编号;
3)使用Sequence-Embedding的方式,将每一组故障序列投射到高维空间中;
4)使用一个基于注意力机制设计的深度神经网络可以找到整个故障网络当中所有故障单元的相互表示的权重;
5)最后将拓扑上和时间上最近的设备预测出来。
CN201911264827.2A 2019-12-11 2019-12-11 一种基于注意力机制的大规模网络群实时故障预测方法 Pending CN111049683A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911264827.2A CN111049683A (zh) 2019-12-11 2019-12-11 一种基于注意力机制的大规模网络群实时故障预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911264827.2A CN111049683A (zh) 2019-12-11 2019-12-11 一种基于注意力机制的大规模网络群实时故障预测方法

Publications (1)

Publication Number Publication Date
CN111049683A true CN111049683A (zh) 2020-04-21

Family

ID=70235749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911264827.2A Pending CN111049683A (zh) 2019-12-11 2019-12-11 一种基于注意力机制的大规模网络群实时故障预测方法

Country Status (1)

Country Link
CN (1) CN111049683A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240098A (zh) * 2021-06-16 2021-08-10 湖北工业大学 基于混合门控神经网络的故障预测方法、装置和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109084980A (zh) * 2018-10-10 2018-12-25 北京交通大学 基于均等分割的轴承故障预测方法及装置
CN110138595A (zh) * 2019-04-12 2019-08-16 中国科学院深圳先进技术研究院 动态加权网络的时间链路预测方法、装置、设备及介质
CN110263280A (zh) * 2019-06-11 2019-09-20 浙江工业大学 一种基于多视图的动态链路预测深度模型及应用
CN110516040A (zh) * 2019-08-14 2019-11-29 出门问问(武汉)信息科技有限公司 文本间的语义相似性比较方法、设备及计算机存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109084980A (zh) * 2018-10-10 2018-12-25 北京交通大学 基于均等分割的轴承故障预测方法及装置
CN110138595A (zh) * 2019-04-12 2019-08-16 中国科学院深圳先进技术研究院 动态加权网络的时间链路预测方法、装置、设备及介质
CN110263280A (zh) * 2019-06-11 2019-09-20 浙江工业大学 一种基于多视图的动态链路预测深度模型及应用
CN110516040A (zh) * 2019-08-14 2019-11-29 出门问问(武汉)信息科技有限公司 文本间的语义相似性比较方法、设备及计算机存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240098A (zh) * 2021-06-16 2021-08-10 湖北工业大学 基于混合门控神经网络的故障预测方法、装置和存储介质

Similar Documents

Publication Publication Date Title
Lanus et al. Hierarchical composition and aggregation of state-based availability and performability models
Sun et al. Mobile data traffic prediction by exploiting time-evolving user mobility patterns
CN108259194A (zh) 网络故障预警方法及装置
CN110380903B (zh) 一种电力通信网故障探测方法、装置及设备
CN111049683A (zh) 一种基于注意力机制的大规模网络群实时故障预测方法
CN113630268B (zh) 时变网络中定长随机中断场景最大错误分离路径获取方法
Liang et al. Event‐triggered Kalman consensus filter for sensor networks with intermittent observations
CN111160661A (zh) 一种电力通信网可靠性优化方法、系统以及设备
Yu et al. Digital twin driven service self-healing with graph neural networks in 6g edge networks
Islam et al. Software-defined network-based proactive routing strategy in smart power grids using graph neural network and reinforcement learning
Wang et al. Hopfield neural network-based fault location in wireless and optical networks for smart city IoT
CN106406082B (zh) 一种系统控制方法、装置,控制器及控制系统
Zhang et al. A novel virtual network fault diagnosis method based on long short-term memory neural networks
CN114205214A (zh) 一种电力通信网络故障识别方法、装置、设备及存储介质
CN115115131A (zh) 基于迁移学习的多中心电力系统故障预测方法及系统
Ibraheem et al. Internal network monitoring with dnn and network tomography for in-vehicle networks
Akinola et al. Link state prediction in mobile ad hoc network using Markov renewal process
Mitropoulou et al. Identifying Network Congestion Using Knowledge Graphs and Link Prediction
Reichelt et al. Reliable communication network design with evolutionary algorithms
Mukhamejanova et al. Traffic simulation in the LoRaWAN network
CN116566841B (zh) 一种基于网络流量查询的流量趋势预测方法
Liu et al. [Retracted] Fault‐Tolerant Secure Routing Based on Trust Evaluation Model in Data Center Networks
CN115150255B (zh) 一种自适应的基于知识图谱的应用故障自动根因定位方法
Zenghua et al. Controller Deployment in SDN-Enabled Redundant Structure with Considering Network Reliability
Hong et al. Spatial-Temporal Feature Fusion Network for Network Traffic Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200421

RJ01 Rejection of invention patent application after publication