CN115442222B - 一种基于机器学习的网络故障定位方法 - Google Patents

一种基于机器学习的网络故障定位方法 Download PDF

Info

Publication number
CN115442222B
CN115442222B CN202210907395.8A CN202210907395A CN115442222B CN 115442222 B CN115442222 B CN 115442222B CN 202210907395 A CN202210907395 A CN 202210907395A CN 115442222 B CN115442222 B CN 115442222B
Authority
CN
China
Prior art keywords
node
model
data
nodes
alarm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210907395.8A
Other languages
English (en)
Other versions
CN115442222A (zh
Inventor
岳勇
施德群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunhu Intelligence Beijing Technology Co ltd
Original Assignee
Beijing Yunhu Information Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunhu Information Co ltd filed Critical Beijing Yunhu Information Co ltd
Priority to CN202210907395.8A priority Critical patent/CN115442222B/zh
Publication of CN115442222A publication Critical patent/CN115442222A/zh
Application granted granted Critical
Publication of CN115442222B publication Critical patent/CN115442222B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
    • Y04S10/52Outage or fault management, e.g. fault detection or location

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出了一种基于机器学习的网络故障定位方法,包括:输入各个节点告警数据;进行异常告警判断;输入历史告警数据;利用历史告警数据进行AI模型训练,生产AI模型;其中,设一个网络共有多个节点,利用所有节点构成一张表,然后每隔时间T读取这一段时间内所有节点产生的告警;当在时间段T内,两个节点同时产生告警,在两个节点之间建立一条连线,表明这两个节点之间存在关联关系,如果这个关系多次出现,就在连线上标明出现的次数和比例作为关系的权重;经过多个时间段的数据训练,获得一个告警关系的树状图,该树状图即为AI模型,由该AI模型取代人工查找数据之间关联关系的过程;利用AI模型对故障根因进行推理;得到故障根因。

Description

一种基于机器学习的网络故障定位方法
技术领域
本发明涉及网络故障监测技术领域,特别涉及一种基于机器学习的网络故障定位方法。
背景技术
目前网络运维工程师对故障的判断,主要是通过采集各个网络上各个节点的监控数据,然后逐段分析和排查故障点的方式进行。这种方式存在如下缺点:
1、由于某个节点的故障经常会引发全系统的多种告警,运维工程师将面临数据风暴的冲击,很难准确的判断哪个节点的数据是最重要的。因此分析过程需要不断试错,这是导致故障定位缓慢的主要原因。
2、故障的定位依赖于工程师对各个节点监控数据的关联推导。这种推导能力是基于工程师个人经验,因此严重依赖工程师个人能力。
3、运维工程师不得不在多个监控数据中进行反复切换和比对,导致分析效率很低。
综上,当前的网络故障定位方法,是基于运维工程师个人经验的手工分析过程。存在效率低,依赖个人经验,容易出错的问题。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的目的在于提出一种基于机器学习的网络故障定位方法,以解决背景技术中所提到的问题,克服现有技术中存在的不足。
为了实现上述目的,本发明的实施例提供一种基于机器学习的网络故障定位方法,包括如下步骤:
步骤S1,输入各个节点告警数据;
步骤S2,对输入的各个节点告警数据进行异常告警判断,得到异常节点数据;
步骤S3,输入历史告警数据;
步骤S4,利用所述历史告警数据进行AI模型训练,生产AI模型;其中,设一个网络共有多个节点,利用所有节点构成一张表,然后每隔时间T读取这一段时间内所有节点产生的告警;当在时间段T内,两个节点同时产生告警,在两个节点之间建立一条连线,表明这两个节点之间存在关联关系,如果这个关系多次出现,就在连线上标明出现的次数和比例作为关系的权重;经过多个时间段的数据训练,获得一个告警关系的树状图,该树状图即为AI模型,由该AI模型取代人工查找数据之间关联关系的过程;
步骤S5,利用所述AI模型对所述异常节点数据的故障根因进行推理;
步骤S6,根据推理结果得到故障根因。
由上述任一方案优选的是,将各个节点告警数据输入,判断是否存在异常告警;如果存在,将异常节点数据输入AI模型中;基于AI模型进行故障根因推理,从而产生故障根因分析;这些异常告警进一步的用于持续训练AI模型。
由上述任一方案优选的是,AI模型训练过程,是将原有通过人工分析的过程转换成算法模型的过程,在网络故障分析中,人工分析的目标是判断节点A的告警事件是否由节点B引起,如此类推查找到引发多个节点告警数据的根本原因,利用历史告警数据训练AI模型,自动产生节点之间的相关关系,替代原有的人工分析方法。
由上述任一方案优选的是,在所述步骤S5中,产生AI模型以后,当网络各个节点中有新的数据产生,且数据异常,即通过这个模型进行自动的根因推理,推理过程如下:
(1)首先执行广度搜索,在选定时间段内,如果某个树下所有子节点都产生告警,则父节点被判断为问题节点;
(2)如果某个树下所有子节点满足如下公式:
∑节点告警树*权重w>门限值;则父节点被判断为问题节点;
(3)然后执行深度搜索,向上进行搜索,一直到这个问题节点的父节点不是问题节点为止;
(4)此节点为根因节点。
由上述任一方案优选的是,基于树状关系AI模型,首先进行水平搜索,然后进行垂直搜索,最终定位出故障根因。
本发明是通过机器学习的方法替代人工对监控数据进行多维度检索和分析,从而能够实现故障的自动定位。通过机器学习的方法将运维工程师的经验转换成故障定位推理逻辑,从而实现故障定位的自动化。
本发明采用AI模型训练替代传统的人工分析故障数据之间关联性方法。通过历史数据训练出AI模型,可以体现手工分析故障的学习过程,从而消除了对工程师熟练程度的要求。
本发明可以实现网络故障定位的自动化。AI模型训练模型完成后,只需要通过算法输入数据,就可以自动定位出故障点,从而实现故障定位自动化。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的基于机器学习的网络故障定位方法的流程图;
图2为根据本发明实施例的基于机器学习的网络故障定位方法的示意图;
图3为根据本发明实施例的AI模型的训练过程的示意图;
图4a和图4b为根据本发明实施例的基于AI模型进行故障根因推理过程的示意图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本发明提供一种基于机器学习的网络故障定位方法,通过历史已有的各个节点告警数据对AI模型进行训练,建立数据之间的关联性和推理关系,从而取代原有人工查找关联性的过程。训练出的模型用于新的告警数据的分析,自动输出故障根因判断。这个过程分成两步:AI模型训练和故障根因推理(RCA)。
第一步:使用已有的历史数据训练AI模型。这个模型将自动产生各个节点的相关性,从而替代原有的人工查找关联性。
第二步:将训练出的AI模型用于根因推理流程。将各个节点告警数据输入,判断是否存在异常告警。如果存在,就将异常节点数据输入AI模型中。基于AI模型进行故障根因推理,从而产生故障根因分析。这些异常告警可以进一步的用于持续训练AI模型。
如图1和图2所示,本发明实施例的基于机器学习的网络故障定位方法,包括如下步骤:
步骤S1,输入各个节点告警数据。
步骤S2,对输入的各个节点告警数据进行异常告警判断,得到异常节点数据。
步骤S3,输入历史告警数据。
步骤S4,利用历史告警数据进行AI模型训练,生产AI模型。
其中,设一个网络共有多个节点,利用所有节点构成一张表,然后每隔时间T读取这一段时间内所有节点产生的告警;当在时间段T内,两个节点同时产生告警,在两个节点之间建立一条连线,表明这两个节点之间存在关联关系,如果这个关系多次出现,就在连线上标明出现的次数和比例作为关系的权重;经过多个时间段的数据训练,获得一个告警关系的树状图,该树状图即为AI模型,由该AI模型取代人工查找数据之间关联关系的过程。
AI模型训练过程就是将原有需要通过人工分析的过程转换成算法模型的过程。在网络故障分析中,人工分析的目标是判断节点A的告警事件是否是由节点B引起的,如此类推找到引发多个节点告警数据的根本原因。因此需要利用历史告警数据来训练一个模型,自动产生节点之间的相关关系,即可替代原有的人工分析方法。AI模型的训练过程如图3所示。
假设一个网络共有A~E这样5个节点,用所有节点构成一张表。然后每隔时间T读取这一段时间内所有节点产生的告警。当在时间段T内,两个节点同时产生告警,就在两个节点之间建立一条连线,表明这两个节点之间可能存在关联关系。如果这个关系多次出现,就在连线上标明出现的次数和比例作为关系的权重(W)。例如,在本模型中使用了3个时间段的训练数据,则A-E之间关系出现了2次,权重为2/3;而其他的关联关系都只出现了一次,权重为1/3。
这样,经过多个时间段的数据训练,获得一个告警关系的树状图,这就是要获得的AI模型。它取代了过去靠人工查找数据之间关联关系的过程。
步骤S5,利用AI模型对所述异常节点数据的故障根因进行推理。
具体的,参考图4a和图4b,产生AI模型以后,当网络各个节点中有新的数据产生,且数据异常,即通过这个模型进行自动的根因推理,推理过程如下:
(1)首先执行广度搜索,在选定时间段内,如果某个树下所有子节点都产生告警,则父节点被判断为问题节点;
(2)如果某个树下所有子节点满足如下公式:
∑节点告警树*权重w>门限值;则父节点被判断为问题节点;
(3)然后执行深度搜索,向上进行搜索,一直到这个问题节点的父节点不是问题节点为止;
(4)此节点为根因节点。
步骤S6,根据推理结果得到故障根因。
本发明提供的基于机器学习的网络故障定位方法,基于历史网络告警数据产生AI模型的方法。这种模型是基于历史告警数据同时在网络各个节点出现的规律,产生的一种树状关系模型;基于这种树状关系模型,首先进行水平搜索,然后进行垂直搜索,最终定位出故障根因的方法;用于网络故障定位的模型训练和故障根因推理的流程和方法。
本发明是通过机器学习的方法替代人工对监控数据进行多维度检索和分析,从而能够实现故障的自动定位。通过机器学习的方法将运维工程师的经验转换成故障定位推理逻辑,从而实现故障定位的自动化。
本发明采用AI模型训练替代传统的人工分析故障数据之间关联性方法。通过历史数据训练出AI模型,可以体现手工分析故障的学习过程,从而消除了对工程师熟练程度的要求。
本发明可以实现网络故障定位的自动化。AI模型训练模型完成后,只需要通过算法输入数据,就可以自动定位出故障点,从而实现故障定位自动化。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
本领域技术人员不难理解,本发明包括上述说明书的发明内容和具体实施方式部分以及附图所示出的各部分的任意组合,限于篇幅并为使说明书简明而没有将这些组合构成的各方案一一描述。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims (4)

1.一种基于机器学习的网络故障定位方法,其特征在于,包括如下步骤:
步骤S1,输入各个节点告警数据;
步骤S2,对输入的各个节点告警数据进行异常告警判断,得到异常节点数据;
步骤S3,输入历史告警数据;
步骤S4,利用所述历史告警数据进行AI模型训练,生成AI模型;其中,设一个网络共有多个节点,利用所有节点构成一张表,然后每隔时间T读取这一段时间内所有节点产生的告警;当在时间段T内,两个节点同时产生告警,在两个节点之间建立一条连线,表明这两个节点之间存在关联关系,如果这个关系多次出现,就在连线上标明出现的次数和比例作为关系的权重;经过多个时间段的数据训练,获得一个告警关系的树状图,该树状图即为AI模型,由该AI模型取代人工查找数据之间关联关系的过程;
步骤S5,利用所述AI模型对所述异常节点数据的故障根因进行推理;
在所述步骤S5中,产生AI模型以后,当网络各个节点中有新的数据产生,且数据异常,即通过这个模型进行自动的根因推理,推理过程如下:
(1)首先执行广度搜索,在选定时间段内,如果某个树下所有子节点都产生告警,则父节点被判断为问题节点;
(2)如果某个树下所有子节点满足如下公式:
∑节点告警树*权重w>门限值;则父节点被判断为问题节点
(3)然后执行深度搜索,向上进行搜索,一直到这个问题节点的父节点不是问题节点为止;
(4)此节点为根因节点;
步骤S6,根据推理结果得到故障根因。
2.如权利要求1所述的基于机器学习的网络故障定位方法,其特征在于,将各个节点告警数据输入,判断是否存在异常告警;如果存在,将异常节点数据输入AI模型中;基于AI模型进行故障根因推理,从而产生故障根因分析;上述异常告警进一步的用于持续训练AI模型。
3.如权利要求1所述的基于机器学习的网络故障定位方法,其特征在于,AI模型训练过程,是将原有通过人工分析的过程转换成算法模型的过程,在网络故障分析中,人工分析的目标是判断节点A的告警事件是否由节点B引起,如此类推查找到引发多个节点告警数据的根本原因,利用历史告警数据训练AI模型,自动产生节点之间的相关关系,替代原有的人工分析方法。
4.如权利要求1所述的基于机器学习的网络故障定位方法,其特征在于,基于树状关系AI模型,首先进行水平搜索,然后进行垂直搜索,最终定位出故障根因。
CN202210907395.8A 2022-07-29 2022-07-29 一种基于机器学习的网络故障定位方法 Active CN115442222B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210907395.8A CN115442222B (zh) 2022-07-29 2022-07-29 一种基于机器学习的网络故障定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210907395.8A CN115442222B (zh) 2022-07-29 2022-07-29 一种基于机器学习的网络故障定位方法

Publications (2)

Publication Number Publication Date
CN115442222A CN115442222A (zh) 2022-12-06
CN115442222B true CN115442222B (zh) 2024-05-28

Family

ID=84241830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210907395.8A Active CN115442222B (zh) 2022-07-29 2022-07-29 一种基于机器学习的网络故障定位方法

Country Status (1)

Country Link
CN (1) CN115442222B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677759A (zh) * 2015-12-30 2016-06-15 国家电网公司 一种信息通信网络中的告警关联性分析方法
CN108520370A (zh) * 2018-08-06 2018-09-11 中国能源建设集团湖南省电力设计院有限公司 基于主配电网一体化的告警归并及溯源方法
CN111398741A (zh) * 2020-06-03 2020-07-10 广东电网有限责任公司 一种配电网在线故障定位系统及方法
CN112580678A (zh) * 2019-09-29 2021-03-30 中兴通讯股份有限公司 一种构造云化网络告警根因关系树模型方法和装置
CN113098723A (zh) * 2021-06-07 2021-07-09 新华三人工智能科技有限公司 一种故障根因定位方法、装置、存储介质及设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10389600B2 (en) * 2015-03-23 2019-08-20 Utopus Insights, Inc. Network management based on modeling of cascading effect of failure
EP3926891B1 (en) * 2020-06-19 2024-05-08 Accenture Global Solutions Limited Intelligent network operation platform for network fault mitigation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677759A (zh) * 2015-12-30 2016-06-15 国家电网公司 一种信息通信网络中的告警关联性分析方法
CN108520370A (zh) * 2018-08-06 2018-09-11 中国能源建设集团湖南省电力设计院有限公司 基于主配电网一体化的告警归并及溯源方法
CN112580678A (zh) * 2019-09-29 2021-03-30 中兴通讯股份有限公司 一种构造云化网络告警根因关系树模型方法和装置
CN111398741A (zh) * 2020-06-03 2020-07-10 广东电网有限责任公司 一种配电网在线故障定位系统及方法
CN113098723A (zh) * 2021-06-07 2021-07-09 新华三人工智能科技有限公司 一种故障根因定位方法、装置、存储介质及设备

Also Published As

Publication number Publication date
CN115442222A (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
WO2020001642A1 (zh) 一种运维系统及方法
CN109787817B (zh) 网络故障诊断方法、装置和计算机可读存储介质
CN109501834B (zh) 一种道岔转辙机故障预测方法及装置
CN109343395B (zh) 一种核电厂dcs操作日志的异常检测系统和方法
CN110569867A (zh) 基于决策树算法的输电线路故障原因判别方法、介质及设备
CN107561997B (zh) 一种基于大数据决策树的电力设备状态监测方法
CN105740140A (zh) 软件系统故障诊断方法、服务器及系统
CN101833324B (zh) 胎面挤出过程智能故障诊断系统及其诊断方法
CN111380686A (zh) 一种基于XGBoost算法模型的风机主轴承故障监测与诊断方法
CN117689214B (zh) 一种柔性直流牵引供电系统能量路由器动态安全评估方法
CN114138982B (zh) 一种用于干式变压器故障诊断的知识图谱的构建方法
CN111898776A (zh) 一种变电站设备异常及事故处理方法
CN116304928A (zh) 供电设备故障预测方法、装置、设备及存储介质
CN115603459A (zh) 一种基于数字孪生技术的配电网关键厂站监测方法与系统
CN116684253A (zh) 基于智能运维的网络异常管控方法
CN112182233B (zh) 用于存储设备故障记录的知识库、及利用其辅助定位设备故障的方法及系统
CN115442222B (zh) 一种基于机器学习的网络故障定位方法
CN114167217A (zh) 一种铁路配电网的多重故障诊断方法
CN113740666B (zh) 一种数据中心电力系统告警风暴根源故障的定位方法
CN117560300B (zh) 一种智能物联网流量预测与优化系统
CN108521346B (zh) 一种基于终端数据的电信承载网异常节点定位方法
CN113484693B (zh) 基于图神经网络的变电站二次回路故障定位方法及系统
CN113869645A (zh) 一种电力通信系统隐患风险评估方法及系统
CN116664098A (zh) 一种光伏电站的异常检测方法及系统
JP7329017B2 (ja) 診断装置、診断方法、プログラム及び診断システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 503, 5th Floor, Building 2, No.1 Shangdi 7th Street, Haidian District, Beijing, 100085

Patentee after: Yunhu Intelligence (Beijing) Technology Co.,Ltd.

Country or region after: China

Address before: Room 410, Floor 4, Building 2, No. 9, Shangdi Fifth Street, Haidian District, Beijing 100085

Patentee before: Beijing Yunhu Information Co.,Ltd.

Country or region before: China