CN114244687B - 基于AIOps网络故障自愈可操作性判断方法 - Google Patents

基于AIOps网络故障自愈可操作性判断方法 Download PDF

Info

Publication number
CN114244687B
CN114244687B CN202111564438.9A CN202111564438A CN114244687B CN 114244687 B CN114244687 B CN 114244687B CN 202111564438 A CN202111564438 A CN 202111564438A CN 114244687 B CN114244687 B CN 114244687B
Authority
CN
China
Prior art keywords
healing
self
fault
probability
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111564438.9A
Other languages
English (en)
Other versions
CN114244687A (zh
Inventor
朱文进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Digital Intelligence Technology Co Ltd
Original Assignee
China Telecom Digital Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Digital Intelligence Technology Co Ltd filed Critical China Telecom Digital Intelligence Technology Co Ltd
Priority to CN202111564438.9A priority Critical patent/CN114244687B/zh
Publication of CN114244687A publication Critical patent/CN114244687A/zh
Application granted granted Critical
Publication of CN114244687B publication Critical patent/CN114244687B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • H04L41/0661Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities by reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0876Aspects of the degree of configuration automation
    • H04L41/0886Fully automatic configuration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0889Techniques to speed-up the configuration process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • H04L43/0829Packet loss
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0894Packet rate
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于AIOps网络故障自愈可操作性判断方法,包括:步骤一、采集网络设备端口的设备性能指标并存入实时监测数据库,将故障参数数据移入历史故障数据库,存储故障类型以及对应的修复程序,计算故障类型对应的自愈权重指标;步骤二、构建贝叶斯故障自愈模型,计算故障类型对应的可自愈概率;步骤三、结合自愈权重指标与可自愈概率计算该故障类型的自愈可操作指标,当大于阈值时,读取该故障类型对应的修复程序自动运行。本发明引入人工智能故障自愈取代人工进行告警发现,从而实现了网络故障的快速、自动处理,保证了业务的连续性,也提高了网络运维监控的准确性,减少了网络告警的误报和漏报。

Description

基于AIOps网络故障自愈可操作性判断方法
技术领域
本发明涉及网络安全技术领域。更具体地说,本发明涉及一种基于AIOps网络故障自愈可操作性判断方法。
背景技术
网络安全是国家安全体系的重要一环,网络社会发展程度的不断提高,网络应用的日益普及,网络给人们带来便利的同时,人们对网络品质的需求也急速上升,因此给网络运维提出了更高的要求。随着人工智能技术的大规模应用,靠人工经验、自动化运维去排查问题很难达到时效性要求,在故障发生的情况下,迅速进行故障定位、故障隔离和故障自愈已经成为网络运维面临的一项艰巨的挑战。所以引入了人工智能故障自愈取代人工来进行告警发现及预处理,从而实现了网络故障的快速、自动处理,保证了业务的连续性。也提高了网络运维监控的准确性,减少了网络告警的误报和漏报。贝叶斯定理在人工智能领域体现大致可分为五类:自然语言处理、语音识别、计算机视觉、专家系统和智能机器人。随着大量数据输入模型的迭代,和大数据技术的发现,贝叶斯定理的威力日益凸显,它的实用价值也越发显现。
发明内容
本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
本发明还有一个目的是提供一种基于AIOps网络故障自愈可操作性判断方法,其引入人工智能故障自愈取代人工进行告警发现,从而实现了网络故障的快速、自动处理,保证了业务的连续性,也提高了网络运维监控的准确性,减少了网络告警的误报和漏报。
为了实现根据本发明的这些目的和其它优点,提供了一种基于AIOps网络故障自愈可操作性判断方法,包括:
步骤一、采集网络设备端口的设备性能指标并存入实时监测数据库,将实时监测数据库发生故障并解决的数据整理为故障参数数据,将故障参数数据移入历史故障数据库,存储故障类型以及对应的修复程序,计算故障类型对应的自愈权重指标;
步骤二、构建贝叶斯故障自愈模型,先验概率根据设备性能指标计算得到,条件概率、调整因子以及后验概率根据故障参数数据计算得到,计算故障类型对应的可自愈概率;
步骤三、结合自愈权重指标与可自愈概率计算该故障类型的自愈可操作指标,当大于阈值时,读取该故障类型对应的修复程序自动运行。
优选的是,所述设备性能指标包括实时网络丢包、网络延迟、CPU占用率、内存占用率、磁盘占用率、网卡状态、流量、网络速率。
优选的是,所述故障参数数据包括故障内容描述、故障等级、故障发生时间、故障持续时间。
优选的是,自愈权重指标的计算方法为:
故障内容描述按照关键字数量分为多级,故障等级按照紧急程度分为多级,故障发生时间按照所在的故障发生时间段分为多级,故障持续时间按照持续时长分为多级,根据各个故障参数数据的级数加和计算自愈权重指标。
优选的是,贝叶斯故障自愈模型公式为:
ZY(D|+)=ZY(+|D)ZY(D)/(ZY(+|D)ZY(D)+ZY(+|N)ZY(N))
其中,ZY(D|+)表示该故障类型的可自愈概率,ZY(+|D)表示该故障类型的先验概率,ZY(D)表示该故障类型的故障发生率,ZY(+|N)表示误监控成该故障类型的故障的概率,ZY(N)表示该故障类型的不发生故障概率。
优选的是,采用马尔可夫转移矩阵法模型对先验概率进行数据优化计算。
优选的是,
当自愈权重指标>设定值时,自愈可操作指标=自愈权重指标+自愈权重指标×可自愈概率×10+概率波动值;
当自愈权重指标<设定值时,自愈可操作指标=自愈权重指标+自愈权重指标×可自愈概率×10-概率波动值;
当自愈权重指标=设定值时,自愈可操作指标=自愈权重指标+自愈权重指标×可自愈概率×10;
其中,概率波动值为设定。
基于AIOps网络故障自愈可操作性判断装置,包括:
数据处理单元,其采集网络设备端口的设备性能指标并存入实时监测数据库,将实时监测数据库发生故障并解决的数据整理为故障参数数据,将故障参数数据移入历史故障数据库,存储故障类型以及对应的修复程序,根据故障参数数据计算故障类型对应的自愈权重指标;
贝叶斯故障自愈模型构建单元,其构建贝叶斯故障自愈模型,先验概率根据设备性能指标计算得到,条件概率、调整因子以及后验概率根据故障参数数据计算得到,采用马尔可夫转移矩阵法模型对先验概率进行数据优化计算,调整因子以及后验概率根据故障参数数据计算得到,计算故障类型对应的可自愈概率;
故障自愈处理单元,其结合故障自愈权重指标与故障可自愈概率计算该故障类型的预设故障自愈可操作指标,当自愈权重指标>设定值时,自愈可操作指标=自愈权重指标+自愈权重指标×可自愈概率×10+概率波动值,当自愈权重指标<设定值时,自愈可操作指标=自愈权重指标+自愈权重指标×可自愈概率×10-概率波动值,当自愈权重指标=设定值时,自愈可操作指标=自愈权重指标+自愈权重指标×可自愈概率×10,概率波动值为设定,当自愈可操作指标大于阈值时,读取该故障类型对应的修复程序自动运行修复。
电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行所述的方法。
存储介质,其上存储有计算机程序,该程序被处理器执行时,实现所述的方法。
本发明至少包括以下有益效果:
第一、本发明通过程序自动执行采集网络设备端口的设备性能指标并存入实时监测数据库,当实时监测数据库发生故障并解决后,会向历史故障数据库插入该故障解决数据,并从实时监测数据库进行删除操作,形成待分析数据并提供贝叶斯故障自愈模型先验概率和条件概率分析数据;
第二、一个故障类型至少对应一个故障自愈流程,包含一个贝叶斯故障自愈模型步骤、一个故障自愈处理步骤,在满足预设条件时,对网络设备执行预设修复操作,突出了人工智能在故障自愈的地位,加速了自动化运维向智能运维的过渡、自愈过程可控、自愈结果确定的优点;
第三、本发明突出了人工智能再故障自愈领域的地位,通过贝叶斯定理对故障数据的分析及处理获得故障可自愈概率,概率越大自愈可能性越高。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
具体实施方式
下面结合实例对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。
需要说明的是,下述实施方案中所述实验方法,如无特殊说明,均为常规方法。
本发明提供一种基于AIOps网络故障自愈可操作性判断方法,包括:
步骤一、采集网络设备端口的设备性能指标并存入实时监测数据库,所述设备性能指标包括实时网络丢包、网络延迟、CPU占用率、内存占用率、磁盘占用率、网卡状态、流量、网络速率,当实时监测数据库发生故障并解决后,将实时监测数据库发生故障并解决的数据整理为故障参数数据,所述故障参数数据包括故障内容描述、故障等级、故障发生时间、故障持续时间,将故障参数数据从实时监测数据库进行删除操作,移入历史故障数据库,形成待分析数据并提供贝叶斯故障自愈模型先验概率和条件概率分析数据,存储故障类型以及对应的修复程序,计算故障类型对应的自愈权重指标;
故障内容描述按照关键字数量分为多级,故障等级按照紧急程度分为多级,故障发生时间按照所在的故障发生时间段分为多级,故障持续时间按照持续时长分为多级,根据各个故障参数数据的级数加和计算故障自愈权重指标。
故障内容描述:根据故障内容为查询条件访问关键字数据库获取符合关键字的记录数,记录数作为级数,例如:出现一个关键字指标+1,N个则加N,取值上限3;
故障等级:分为灾难、紧急、重要、次要、一般五个等级,对应级数-3、-2、-1、1、2。即鼓励对非重要故障进行自愈处理来减小运维工作量,提高运维工作效率。取值区间,-3到+2;
故障发生时间:该类型告警以24小时为维度,本次故障所发生所在小时总故障数,即是否为故障高发时间段。进行总故障数倒序排列,如果所在小时总故障数排在24小时内1-3名,则级数-4、每3名级数-1,4-6名级数-3,以此类推。取值区间,-4到+4;
故障持续时间:持续时间越长真实告警概率越高,反之越低,故障持续超过5分钟级数-1,反正+1。取值区间,-1或+1;
故障自愈权重指标:数值越大进行自愈处理的概率越大。根据以上四个指标维度计算得出故障自愈权重指标最大概率满分10、最小概率为-10。取值区间,-10到+10。
步骤二、一个故障类型至少对应一个故障自愈流程,故障自愈流程中包含一个贝叶斯故障自愈模型步骤、一个故障自愈处理步骤,为每个故障类型构建贝叶斯故障自愈模型,先验概率根据设备性能指标计算得到,条件概率、调整因子以及后验概率根据故障参数数据计算得到,计算故障类型对应的可自愈概率;
先验概率:从实时监测数据库获取故障网络丢包、网络延迟、cpu占用率、内存占用率、磁盘占用率、网卡状态、流量、网络速率等信息数据,分析得到贝叶斯故障自愈模型的先验概率,数值等于步骤一计算的故障自愈权重指标;
条件概率:同时访问历史故障数据库按故障类型、获取故障对应的故障描述、故障等级、故障持续时间等信息,分析得到贝叶斯故障自愈模型的条件概率,数值等于已发生该故障类型的真实故障率,在计算中,可以等于该故障类型故障持续时间大于5分钟总数/该故障类型历史故障总数;
调整因子:访问历史故障数据库获取该故障类型故障误报次数/历史故障数据库该故障类型故障总条数;
后验概率=先验概率×调整因子;
贝叶斯故障自愈模型公式为:
ZY(D|+)=ZY(+|D)ZY(D)/(ZY(+|D)ZY(D)+ZY(+|N)ZY(N))
其中,ZY(D|+)表示该故障类型的可自愈概率,
ZY(+|D)表示该故障类型的先验概率,数值=1-监测的网络设备数据误报率,网络设备数据误报率=实时监测数据库的误报次数/实时监测数据库监测总数,例如:按故障类型分类监测的网络设备数据误报率百分之一,则ZY(+|D)1-0.01=0.99,
ZY(D)表示该故障类型的故障发生率,数值等于历史故障数据库该故障类型故障总条数/历史故障数据库该故障类型故障总条数;
ZY(+|N)表示误监控成该故障类型的故障的概率,数值等于同一小时内误报次数/同一小时内该故障类型监控总条数;
ZY(N)表示该故障类型的不发生故障概率,也就是1-ZY(D);
(D)表示历史故障发生概率,(ZY)表示故障可自愈的概率;
步骤三、结合自愈权重指标与可自愈概率计算该故障类型的自愈可操作指标,当大于阈值时,读取该故障类型对应的修复程序自动运行。
自愈权重指标由步骤一计算得到,数值越高可操作自愈概率越大,上限正10、下限负10;可自愈概率由步骤二计算得到,通过监测实时数据库和历史故障数据库数据信息放入贝叶斯故障自愈模型分析获得。
采用马尔可夫转移矩阵法模型对先验概率进行数据优化:
贝叶斯先验概率:从实时监测数据库获取故障网络丢包、网络延迟、cpu占用率、内存占用率、磁盘占用率、网卡状态、流量、网络速率等信息数据,分析得到贝叶斯故障自愈模型的先验概率,数值等于步骤一计算的故障自愈权重指标;
S1、对网络流量监测指标的先验概率99%,我们将先验概率的分析数据在99%基础上进行二次计算。
S2、获取马尔可夫转移矩阵法模型需要的三组数据并放入模型进行训练。
马尔可夫转移矩阵法模型公式:
X(k+1)=X(k)×P
公式中:X(k)表示趋势分析与预测对象在t=k时刻的状态向量,P表示一步转移概率矩阵,X(k+1)表示趋势分析与预测对象在t=k+1时刻的状态向量。
采用二步转移矩阵生成数据集
1、历史网络流量初始概率:假设故障占比30%,正常70%【0.3 0.7】
历史故障数据库网络流量故障总数/实时监测数据库网络流量采集总条数
2、历史网络流量移动概率:假设历史故障占全部故障40%,其他故障60%【0.40.6】
实时监测数据库未恢复故障网络流量总数/实时监测数据库网络流量采集总数
3、实时网络流量移动概率:假设实时未恢复网络故障占比30%,正常70%【0.30.7】
实时监测数据库未恢复故障网络流量总数/实时监测数据库网络流量采集总数
历史网络流量初始概率【0.3 0.7】
历史网络流量移动概率【0.4 0.6】
实时网络流量移动概率【0.3 0.7】
根据公式模型计算:X(k+1)=X(k)×P
本次网络流量故障发生占比=0.3x0.6+0.3x0.7=0.39
本次网络流量正常发生占比=0.3x0.4+0.7x0.7=0.61
重复上一步获得每个故障监测指标(故障网络丢包、网络延迟、cpu占用率、内存占用率、磁盘占用率、网卡状态、流量、网络速率等)的数据占比,最后加权平均后获得贝叶斯模型的优化后先验概率。
在一个实例中,
当自愈权重指标>0时,自愈可操作指标=自愈权重指标+自愈权重指标×可自愈概率×10+概率波动值;
当自愈权重指标<0时,自愈可操作指标=自愈权重指标+自愈权重指标×可自愈概率×10-概率波动值;
当自愈权重指标=0时,自愈可操作指标=自愈权重指标+自愈权重指标×可自愈概率×10;
其中,概率波动值为设定,考虑到概率预测的波动及误报可能,自愈权重指标大于0,则自愈可操作指标+预设故障自愈可操作指标/10,自愈权重指标小于0,则自愈可操作指标/10,自愈权重指标等于0,则忽略,概率波动值=概率预设条件/10
举例:
自愈权重指标=1、概率预设条件=55%
自愈权重指标=0、概率预设条件=50%
故障自愈权重指标=-1、概率预设条件=45%
规则描述:
自愈权重指标=0则概率预设条件=50%,自愈权重指标每+1则概率预设条件+5%,自愈权重指标每-1则概率预设条件-5%。自愈权重指标取值区间-10到+10。
按指标权重执行故障自愈操作,自愈可操作指标>80,则通过预设的该类型故障对应的程序指令对网络设备自动执行修复操作。60<自愈可操作指标<80,则发邮件给故障处理员审批通过后通过预设的程序指令对该类型故障的网络设备自动修复操作,自愈可操作指标<60则人工处理故障。
在上述技术方案中,通过程序自动执行采集网络设备端口的设备性能指标并存入实时监测数据库,当实时监测数据库发生故障并解决后,会向历史故障数据库插入该故障解决数据,并从实时监测数据库进行删除操作,形成待分析数据并提供贝叶斯故障自愈模型先验概率和条件概率分析数据。
一个故障类型至少对应一个故障自愈流程,包含一个贝叶斯故障自愈模型步骤、一个故障自愈处理步骤,在满足预设条件时,对网络设备执行预设修复操作,突出了人工智能在故障自愈的地位,加速了自动化运维向智能运维的过渡、自愈过程可控、自愈结果确定的优点。
基于AIOps网络故障自愈可操作性判断装置,包括:
数据处理单元,其采集网络设备端口的设备性能指标并存入实时监测数据库,将实时监测数据库发生故障并解决的数据整理为故障参数数据,将故障参数数据移入历史故障数据库,存储故障类型以及对应的修复程序,根据故障参数数据计算故障类型对应的自愈权重指标;
贝叶斯故障自愈模型构建单元,其构建贝叶斯故障自愈模型,先验概率根据设备性能指标计算得到,条件概率、调整因子以及后验概率根据故障参数数据计算得到,采用马尔可夫转移矩阵法模型对先验概率进行数据优化计算,调整因子以及后验概率根据故障参数数据计算得到,计算故障类型对应的可自愈概率;
故障自愈处理单元,其结合故障自愈权重指标与故障可自愈概率计算该故障类型的预设故障自愈可操作指标,当自愈权重指标>设定值时,自愈可操作指标=自愈权重指标+自愈权重指标×可自愈概率×10+概率波动值,当自愈权重指标<设定值时,自愈可操作指标=自愈权重指标+自愈权重指标×可自愈概率×10-概率波动值,当自愈权重指标=设定值时,自愈可操作指标=自愈权重指标+自愈权重指标×可自愈概率×10,概率波动值为设定,当自愈可操作指标大于阈值时,读取该故障类型对应的修复程序自动运行修复。
在上述技术方案中,针对靠人工经验、自动化运维去排查网络故障问题很难达到时效性及准确性的要求,在故障发生的情况下,迅速进行故障定位、故障隔离和故障自愈已经成为网络运维面临的一项艰巨的挑战,本装置引入人工智能故障自愈取代人工来进行告警发现,从而实现了网络故障的快速、自动处理,保证了业务的连续性。也提高了网络运维监控的准确性,减少了网络告警的误报和漏报。
电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行所述的方法。
存储介质,其上存储有计算机程序,该程序被处理器执行时,实现所述的方法。
这里说明的设备数量和处理规模是用来简化本发明的说明的。对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的实例。

Claims (8)

1.基于AIOps网络故障自愈可操作性判断方法,其特征在于,包括:
步骤一、采集网络设备端口的设备性能指标并存入实时监测数据库,将实时监测数据库发生故障并解决的数据整理为故障参数数据,将故障参数数据移入历史故障数据库,存储故障类型以及对应的修复程序,计算故障类型对应的自愈权重指标,自愈权重指标的计算方法为:故障内容描述按照关键字数量分为多级,故障等级按照紧急程度分为多级,故障发生时间按照所在的故障发生时间段分为多级,故障持续时间按照持续时长分为多级,根据各个故障参数数据的级数加和计算自愈权重指标;
步骤二、构建贝叶斯故障自愈模型,先验概率根据设备性能指标计算得到,条件概率、调整因子以及后验概率根据故障参数数据计算得到,计算故障类型对应的可自愈概率;
步骤三、结合自愈权重指标与可自愈概率计算该故障类型的自愈可操作指标,当自愈权重指标>设定值时,自愈可操作指标=自愈权重指标+自愈权重指标×可自愈概率×10+概率波动值;当自愈权重指标<设定值时,自愈可操作指标=自愈权重指标+自愈权重指标×可自愈概率×10-概率波动值;当自愈权重指标=设定值时,自愈可操作指标=自愈权重指标+自愈权重指标×可自愈概率×10,概率波动值为设定,当自愈可操作指标大于阈值时,读取该故障类型对应的修复程序自动运行。
2.如权利要求1所述的基于AIOps网络故障自愈可操作性判断方法,其特征在于,所述设备性能指标包括实时网络丢包、网络延迟、CPU占用率、内存占用率、磁盘占用率、网卡状态、流量、网络速率。
3.如权利要求1所述的基于AIOps网络故障自愈可操作性判断方法,其特征在于,所述故障参数数据包括故障内容描述、故障等级、故障发生时间、故障持续时间。
4.如权利要求1所述的基于AIOps网络故障自愈可操作性判断方法,其特征在于,贝叶斯故障自愈模型公式为:
ZY(D|+) = ZY(+|D)ZY(D)/(ZY(+|D)ZY(D)+ZY(+|N)ZY(N))
其中,ZY(D|+)表示该故障类型的可自愈概率,ZY(+|D)表示该故障类型的先验概率,ZY(D)表示该故障类型的故障发生率,ZY(+|N)表示误监控成该故障类型的故障的概率,ZY(N)表示该故障类型的不发生故障概率。
5.如权利要求4所述的基于AIOps网络故障自愈可操作性判断方法,其特征在于,采用马尔可夫转移矩阵法模型对先验概率进行数据优化计算。
6.基于AIOps网络故障自愈可操作性判断装置,其特征在于,包括:
数据处理单元,其采集网络设备端口的设备性能指标并存入实时监测数据库,将实时监测数据库发生故障并解决的数据整理为故障参数数据,将故障参数数据移入历史故障数据库,存储故障类型以及对应的修复程序,根据故障参数数据计算故障类型对应的自愈权重指标,自愈权重指标的计算方法为:故障内容描述按照关键字数量分为多级,故障等级按照紧急程度分为多级,故障发生时间按照所在的故障发生时间段分为多级,故障持续时间按照持续时长分为多级,根据各个故障参数数据的级数加和计算自愈权重指标;
贝叶斯故障自愈模型构建单元,其构建贝叶斯故障自愈模型,先验概率根据设备性能指标计算得到,条件概率、调整因子以及后验概率根据故障参数数据计算得到,采用马尔可夫转移矩阵法模型对先验概率进行数据优化计算,调整因子以及后验概率根据故障参数数据计算得到,计算故障类型对应的可自愈概率;
故障自愈处理单元,其结合故障自愈权重指标与故障可自愈概率计算该故障类型的预设故障自愈可操作指标,当自愈权重指标>设定值时,自愈可操作指标=自愈权重指标+自愈权重指标×可自愈概率×10+概率波动值,当自愈权重指标<设定值时,自愈可操作指标=自愈权重指标+自愈权重指标×可自愈概率×10-概率波动值,当自愈权重指标=设定值时,自愈可操作指标=自愈权重指标+自愈权重指标×可自愈概率×10,概率波动值为设定,当自愈可操作指标大于阈值时,读取该故障类型对应的修复程序自动运行修复。
7.电子设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1~5中任一项所述的方法。
8.存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现权利要求1~5中任一项所述的方法。
CN202111564438.9A 2021-12-20 2021-12-20 基于AIOps网络故障自愈可操作性判断方法 Active CN114244687B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111564438.9A CN114244687B (zh) 2021-12-20 2021-12-20 基于AIOps网络故障自愈可操作性判断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111564438.9A CN114244687B (zh) 2021-12-20 2021-12-20 基于AIOps网络故障自愈可操作性判断方法

Publications (2)

Publication Number Publication Date
CN114244687A CN114244687A (zh) 2022-03-25
CN114244687B true CN114244687B (zh) 2023-08-08

Family

ID=80759425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111564438.9A Active CN114244687B (zh) 2021-12-20 2021-12-20 基于AIOps网络故障自愈可操作性判断方法

Country Status (1)

Country Link
CN (1) CN114244687B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115051930B (zh) * 2022-05-23 2023-05-12 中电信数智科技有限公司 基于AISecOps结合中台算法的弊端优化方法
CN114900440A (zh) * 2022-05-25 2022-08-12 中电信数智科技有限公司 一种马尔科夫链结合贝叶斯网络预警方法和系统
CN114978930A (zh) * 2022-05-31 2022-08-30 中电信数智科技有限公司 一种基于SRv6的智能网络及设备故障预测方法及系统
CN115296846B (zh) * 2022-07-06 2024-04-16 中电信数智科技有限公司 一种基于马尔可夫链的异常网络流量回溯方法
CN115209432B (zh) * 2022-07-06 2024-01-19 中电信数智科技有限公司 一种小区基站信号接入故障定位及自愈的方法
CN115396291B (zh) * 2022-08-23 2024-06-18 度小满科技(北京)有限公司 一种基于kubernetes托管的redis集群故障自愈方法
CN117234806B (zh) * 2023-09-22 2024-04-30 深圳市联瑞电子有限公司 一种网卡自动重启方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7536595B1 (en) * 2005-10-19 2009-05-19 At&T Intellectual Property, Ii, L.P. Systems, devices, and methods for initiating recovery
CN111368888A (zh) * 2020-02-25 2020-07-03 重庆邮电大学 基于深度动态贝叶斯网络的服务功能链故障诊断方法
CN111865665A (zh) * 2020-06-23 2020-10-30 广州衡昊数据科技有限公司 一种网络设备故障自愈方法和装置
CN113234874A (zh) * 2021-05-14 2021-08-10 浙江大学 一种基于动态贝叶斯网络的高炉故障监测与自愈控制系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10673684B2 (en) * 2018-05-03 2020-06-02 Nautilus Data Technologies, Inc. System and method for autonomus data center operation and healing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7536595B1 (en) * 2005-10-19 2009-05-19 At&T Intellectual Property, Ii, L.P. Systems, devices, and methods for initiating recovery
CN111368888A (zh) * 2020-02-25 2020-07-03 重庆邮电大学 基于深度动态贝叶斯网络的服务功能链故障诊断方法
CN111865665A (zh) * 2020-06-23 2020-10-30 广州衡昊数据科技有限公司 一种网络设备故障自愈方法和装置
CN113234874A (zh) * 2021-05-14 2021-08-10 浙江大学 一种基于动态贝叶斯网络的高炉故障监测与自愈控制系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于贝叶斯网络的资源池故障诊断方法;耿贞伟;陈学勤;王馨云;;云南电力技术(第03期);全文 *

Also Published As

Publication number Publication date
CN114244687A (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN114244687B (zh) 基于AIOps网络故障自愈可操作性判断方法
CN109492193B (zh) 基于深度机器学习模型的异常网络数据生成与预测方法
CN113900844B (zh) 一种基于服务码级别的故障根因定位方法、系统及存储介质
CN112087334A (zh) 告警根因分析方法、电子设备和存储介质
CN116205265A (zh) 一种基于深层神经网络的电网故障诊断方法及装置
CN112415331A (zh) 基于多源故障信息的电网二次系统故障诊断方法
CN115791174B (zh) 一种滚动轴承异常诊断方法、系统、电子设备及存储介质
CN111666978B (zh) 一种it系统运维大数据的智能故障预警系统
CN117687884A (zh) 一种电网调度自动化主站运维操作票智能优化方法及系统
CN114647558A (zh) 一种日志异常检测的方法和装置
CN118094531A (zh) 一种安全运维实时预警一体化系统
CN116882756B (zh) 基于区块链的电力安全管控方法
CN114168375A (zh) 一种数据库系统异常快速定位与消除的方法
CN113899987A (zh) 基于深度金字塔卷积神经网络的电网故障诊断方法
CN112769619B (zh) 一种基于决策树的多分类网络故障预测方法
CN111934903A (zh) 一种基于时序演化基因的Docker容器故障智能预测方法
CN107682173B (zh) 基于交易模型的自动故障定位方法和系统
CN113076217B (zh) 基于国产平台的磁盘故障预测方法
CN113296994B (zh) 一种基于国产计算平台的故障诊断系统及方法
CN112711508A (zh) 面向大规模客户端系统的智能运维服务系统
CN111861191B (zh) 一种馈线自动化现场测试技术的评价系统及方法
CN118470649B (zh) 一种基于双层感知的配网电缆环境感知方法及系统
WO2024027127A1 (zh) 故障检测方法、装置、电子设备及可读存储介质
CN116107859B (zh) 容器故障预测方法、装置、电子设备及存储介质
Zheng et al. Research on text classification method of distribution network terminal debugging job based on hierarchical comprehensive context

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 1308, 13th floor, East Tower, 33 Fuxing Road, Haidian District, Beijing 100036

Applicant after: China Telecom Digital Intelligence Technology Co.,Ltd.

Address before: Room 1308, 13th floor, East Tower, 33 Fuxing Road, Haidian District, Beijing 100036

Applicant before: CHINA TELECOM GROUP SYSTEM INTEGRATION Co.,Ltd.

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant