CN117424794A - 根因定位方法、通信设备及计算机可读存储介质 - Google Patents

根因定位方法、通信设备及计算机可读存储介质 Download PDF

Info

Publication number
CN117424794A
CN117424794A CN202210808769.0A CN202210808769A CN117424794A CN 117424794 A CN117424794 A CN 117424794A CN 202210808769 A CN202210808769 A CN 202210808769A CN 117424794 A CN117424794 A CN 117424794A
Authority
CN
China
Prior art keywords
log
network element
fault
alarm
alarm log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210808769.0A
Other languages
English (en)
Inventor
杨镕旭
郝年朋
李学领
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN202210808769.0A priority Critical patent/CN117424794A/zh
Priority to PCT/CN2023/102434 priority patent/WO2024012186A1/zh
Publication of CN117424794A publication Critical patent/CN117424794A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了一种根因定位方法、通信设备及计算机可读存储介质,应用于网管,网管与多个互通网元连接;根因定位方法包括:获取来自于多个互通网元的告警日志,告警日志包括第一告警日志和第二告警日志,第一告警日志为与对端网元断联的互通网元的告警日志,第一告警日志包括与互通网元断联的对端网元的故障信息,第二告警日志为与对端网元连接正常的互通网元的告警日志;根据第一告警日志和第二告警日志构建故障预测样本;利用预设的故障定位模型对故障预测样本进行预测,得到故障定位预测结果。

Description

根因定位方法、通信设备及计算机可读存储介质
技术领域
本申请涉及但不限于通信技术领域,尤其涉及一种根因定位方法、通信设备及计算机可读存储介质。
背景技术
目前,在复杂的网络系统中,通常存在成千上万个模块节点,系统运行过程中各个模块节点通常会产生大量的日志。当系统发生某个故障,该故障会沿着网络系统进行传播,形成系统告警风暴而产生大量的告警日志信息,但真正的根因信息被淹没在海量的告警信息中,尤其是当根因节点发生断联,无法获取根因节点的告警日志,从而无法通过根因告警日志识别根因节点,难以准确排查出故障问题,使得运维人员进行故障排查所耗费的时间大幅提升导致网络系统服务中断后无法快速恢复,影响用户使用。
发明内容
本申请实施例提供了一种根因定位方法、通信设备及计算机可读存储介质,在根因节点发生断联的情况下,能够快速定位根因节点,提高故障排查效率。
第一方面,本申请实施例提供了一种根因定位方法,应用于网管,所述网管与多个互通网元连接;
所述根因定位方法包括:
获取来自于多个所述互通网元的告警日志,所述告警日志包括第一告警日志和第二告警日志,所述第一告警日志为与对端网元断联的所述互通网元的告警日志,所述第一告警日志包括与所述互通网元断联的对端网元的故障信息,所述第二告警日志为与对端网元连接正常的所述互通网元的告警日志;
根据所述第一告警日志和所述第二告警日志构建故障预测样本;
利用预设的故障定位模型对所述故障预测样本进行预测,得到故障定位预测结果。
第二方面,本申请实施例提供了一种根因定位方法,应用于互通网元,所述互通网元与网管连接,所述根因方法包括:
当所述互通网元与对端网元发生断联故障,所述互通网元根据预设交互协议生成故障信息;
根据所述故障信息生成第一告警日志;
将所述第一告警日志上报至所述网管,以使所述网管根据所述第一告警日志和第二告警日志构建故障预测样本,并利用预设的故障定位模型对所述故障预测样本进行预测,得到故障定位预测结果,其中,所述第二告警日志由与对端网元连接正常的所述互通网元生成。
第三方面,本申请实施例提供了一种通信设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面上述的根因定位方法或如第二方面上述的根因定位方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如第一方面上述的根因定位方法或如第二方面上述的根因定位方法。
本申请实施例包括:获取来自于多个互通网元的告警日志,告警日志包括第一告警日志和第二告警日志,第一告警日志为与对端网元断联的互通网元的告警日志,第一告警日志包括与互通网元断联的对端网元的故障信息,第二告警日志为与对端网元连接正常的互通网元的告警日志;根据第一告警日志和第二告警日志构建故障预测样本;利用预设的故障定位模型对故障预测样本进行预测,得到故障定位预测结果。
根据本申请实施例提供的方案,由于断网网元因故障无法将自身的告警日志上传至网管,因此,与对端网元断联的互通网元将携带有对端网元故障信息的第一告警日志上传至网管,而与对端网元连接正常的互通网元则将自身生成的第二告警日志上传至网管。网管接收到各个互通网元的告警日志,并且能够从断网网元的关联网元所上传的告警日志中得到断网网元的故障信息。网管利用第一告警日志和第二告警日志构建出故障预测样本,通过预设的故障定位模型对所有网元的故障预测样本进行预测,相比于断网网元无法上传自身的告警日志而仅利用互通网元上传自身的告警日志进行根因预测的方案,通过与断网网元关联的互通网元将携带有断网网元故障信息的告警日志上传至网管,增加了利用断网网元的故障信息构建预测样本,提高了样本数量,综合所有互通网元和断网网元的预测样本,提高了根因预测的准确性,提高故障排查的效率。
附图说明
图1是本申请一个实施例提供的应用于网管的根因定位方法的步骤流程图;
图2是本申请另一个实施例提供的故障定位模型的生成过程的步骤流程图;
图3是本申请另一个实施例提供的故障预测样本构建的步骤流程图;
图4是本申请另一个实施例提供的对告警日志进行过滤处理的步骤流程图;
图5是本申请另一个实施例提供的利用待分析日志构建故障预测样本的步骤流程图;
图6是本申请另一个实施例提供的日志数据归属分配的步骤流程图;
图7是本申请另一个实施例提供的日志数据转移的流程示意图;
图8是本申请另一个实施例提供的日志数据预处理的步骤流程图;
图9是本申请另一个实施例提供的应用于互通网元的根因定位方法的步骤流程图;
图10是本申请另一个实施例提供的通信设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
可以理解的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请提供了一种根因定位方法、通信设备及计算机可读存储介质,通过与断网网元关联的互通网元将携带有断网网元的故障信息的第一告警日志上报至网管,而与对端网元连接正常的互通网元仅将自身的第二告警日志上报至网管,从而网管能够通过第一告警日志和第二告警日志生成故障预测样本,增加利用断网网元的故障信息构建故障预测样本,避免由于断网网元因故障而无法将自身告警日志上传从而无法通过断网网元相关的告警日志进行预测,综合了各个互通网元和断网网元的信息进行预测,提高了根因预测的准确性,提高了故障排查的效率。
下面结合附图,对本申请实施例作进一步阐述。
如图1所示,图1是本申请一个实施例提供的一种根因定位方法,该根因定位方法可以应用于网管,网管与多个互通网元连接。该根因定位方法包括但不限于有以下步骤:
步骤S100,获取来自于多个互通网元的告警日志,告警日志包括第一告警日志和第二告警日志,第一告警日志为与对端网元断联的互通网元的告警日志,第一告警日志包括与互通网元断联的对端网元的故障信息,第二告警日志为与对端网元连接正常的互通网元的告警日志;
步骤S200,根据第一告警日志和第二告警日志构建故障预测样本;
步骤S300,利用预设的故障定位模型对故障预测样本进行预测,得到故障定位预测结果。
在复杂的网络系统中,存在成千上万个节点网元,各个节点网元之间数据流互通,当网络系统发生故障,该故障会沿着网络系统进行传播,各个节点网元生成大量的告警日志并上报至网管。当部分节点发生断网,即失去与网管的连接,无法将自身的告警日志上报至网管,缺失部分告警日志,根因预测的样本数量减少,预测的准确性下降。因此,当与网管连接的互通网元无法与对端网元连接,该互通网元将携带有该断联的对端网元的故障信息的第一告警日志进行上报。而与对端网元连接正常的互通网元则仅将自身的第二告警日志进行上报。第一告警日志中的故障信息可以通过互通网元在与断联的对端网元进行交互过程中的故障码和对端网元的地址得到。因此,网管接收到第一告警日志和第二告警日志,并且利用第一告警日志和第二告警日志构建出故障预测样本。其中,由于第一告警日志中携带有断网网元相关的故障信息,因此可以利用第一告警日志中的故障信息构建出与断网网元相关的故障预测样本。将生成的故障预测样本导入至预设的故障定位模型进行预测,得到故障定位预测结果,而故障定位模型是基于预设的网络拓扑关系构建的图卷积神经网络模型。因此,相对于在网元断网无法上报日志的情况下仅利用互通网元的告警日志进行预测的方案,利用与断网网元关联的告警日志携带故障信息进行上报,并且综合断网网元的故障信息、互通网元的告警日志进行预测,增加了预测样本数量,提高了预测的准确性。
需要说明的是,生成的故障定位预测结果中可以仅包括一个根因网元,也可以对各个故障预测样本的预测影响力进行排序,输出影响力较大的多个根因网元。另外,生成的故障定位预测结果中包含有各个根因网元对应的故障类型,以及相应的解决方案,故障类型可以根据预先设置的交互协议,以及根因网元所对应的告警日志或者故障信息得到。网管中还可以预先设置有多个解决方案,各个解决方案与各个故障类型一一对应,因此,根据故障类型从预设的多个解决方案中查找匹配出与故障类型对应的方案。当故障定位预测出根因网元,同时确定出与根因网元对应的故障类型,以及与故障类型匹配的解决方案。因此,本申请通过根因定位预测结果的信息详细化,运维人员能够通过生成的故障定位预测结果快速确定出根因网元及其故障类型,并且利用预测结果中的解决方案快速恢复网络系统的运行,提高了系统故障排查效率,缩短了系统故障恢复周期,提升了用户体验。
需要说明的是,各个互通网元可以将自身产生的告警日志通过日志上报接口上传至资源记录数据库中,网管可以通过安全文件传送协议从资源记录数据库中获取原始的告警日志,并对告警日志进行根因分析与问题定位。
需要说明的是,由于故障预测样本采用文本形式的告警日志和故障信息,并非为特定的指标参数例如业务量、成功率、延迟和系统吞吐量,因此,故障预测样本的获取方式简单,针对告警日志,可根据配置设置数据清洗规则、文本相似度词库以及数据分拣规则,从而能够得到所需的数据格式,进行故障预测样本的构建,因此,相对于仅采用特定指标参数构建预测样本进行根因定位预测的方案,本申请通过异常场景的上报数据改造,更能提高预测结果的准确性,具有更高的普适性和应用性。
另外,参照图2,在一实施例中,图2示出的故障定位模型的生成过程还包括但不限于有以下步骤:
步骤S400,获取预设的预测模型;
步骤S500,基于预设的网络拓扑关系构建拓扑数据和标签文件;
步骤S600,根据标签文件生成故障训练样本;
步骤S700,利用拓扑数据、标签文件和故障训练样本对预测模型进行训练,得到故障定位模型。
各个网络系统中具有相应的网络拓扑关系,网络拓扑关系中包括有各个网元的基本信息,例如主机名字、设备名字、网元编码、网管地址,以及各个网元之间的关系,因此利用预先设置好的网络拓扑关系构建各个网元的拓扑数据,拓扑数据用于与其他网元之间的,包括有项目名字、网元名字、网元服务器地址、与其他网元之间的从属关系和数据流向。
利用预先设置好的网络拓扑关系可以确定出一个故障场景,并生成相应的标签文件,标签文件包括有预设的故障根因节点和故障类型,例如,利用网络拓扑关系可以得知故障场景:在2002年1月1日17时29分,编号为127的故障根因网元发生了消息处理网元的虚机网络延迟故障,因此,可以将该故障场景作为标签文件,标签文件作为故障训练样本的标签,标签文件中设置有各个网元相应的样本目录。通过自动化框架(Robot Framework,RF)模拟生成该故障场景,由网络系统中各个网元产生相应的告警日志。各个网元产生的告警日志中包括有相应的网元识别标签,因此,可以根据网元识别标签将各个告警日志归类至各个网元的样本目录,即相同故障场景生成的各个告警日志作为一组故障训练样本。因此,通过预先设置好的网络拓扑关系确定出相应的标签文件,再通过RF模拟生成各个标签文件相应的故障场景,由各个网元产生相应的告警日志,从而得到多组故障训练样本。
通过对拓扑数据、标签文件和故障训练样本提取出网元特征值,可以得到特征矩阵,并根据各个网元之间的关系构建得出邻接矩阵。将特征矩阵和邻接矩阵输入至预先设置好的图卷积神经网络进行训练,从而得到故障定位模型。因此,可以将第一告警日志和第二告警日志导入至故障定位模型,进行超图二分类,预测得故障定位预测结果。
另外,参照图3,在一实施例中,图1所示实施例中的步骤200还包括但不限于有以下步骤:
步骤S210,对第一告警日志进行过滤处理得到第一待分析日志,并对第二告警日志进行过滤处理得到第二待分析日志;
步骤S220,根据第一待分析日志和第二待分析日志生成故障预测样本。
由于网元上传的告警日志中存在重复杂乱的数据,利用由重复杂乱的数据生成的故障预测样本进行预测会影响根因定位预测结果的准确性,因此,需要对第一告警日志和第二告警日志进行过滤处理,滤除重复杂乱的日志数据,得到第一待分析日志和第二待分析日志,提高模型输入数据的准确性,其中,第一告警日志在进行过滤处理的过程中,可以滤除无关的故障信息,也可以保留故障信息。因此,利用第一待分析日志和第二待分析日志构建故障预测样本能够减少重复杂乱数据的干扰,提高根因定位预测的准确性。
另外,参照图4,在一实施例中,图3所示实施例中的步骤210还包括但不限于有以下步骤:
步骤S211,根据预设的场景词库,对第一告警日志和第二告警日志进行相似度匹配处理,得到近似关键词;
步骤S212,根据近似关键词对第一告警日志进行筛选处理得到第一待分析日志,并根据近似关键词对第二告警日志进行筛选处理得到第二待分析日志。
由于网络系统中的网元数量庞大,将所生成的大量告警日志难以全部导入根因定位模型中进行预测,而海量的告警日志中存在部分与根因故障无关的日志,若对所有告警日志进行预测需要耗费大量时间,且利用与根因故障无关的日志进行预测难以得到准确的根因网元。因此,为了快速定位出与根因故障相关的告警日志,对第一告警日志和第二告警日志进行文本相似度匹配处理。根据预设的交互协议确定出各种故障类型,利用各个故障类型所产生的故障关键词构建出相应的场景词库。当告警日志中不存在预设场景词库中的关键词,可以认为通过该告警日志难以排查出根因故障网元,因此可以将该告警日志剔除。采用词向量模型对第一告警日志和第二告警日志进行词向量提取处理,提取出与预设词库对应的词向量集合。根据词向量集合中各个词向量之间的余弦距离,确定出中心关键词,通过中心关键词可以确定出本次的故障场景。根据中心关键词与各个词向量之间的余弦距离的数值,从大到小进行排序,可以选取排序前5个词向量以及中心关键词作为近似关键词。在第一告警日志和第二告警日志中查找匹配是否含有近似关键词,若告警日志中含有近似关键词,可以确定出该告警日志的内容与本次故障的根因网元的关联性较大,采用该告警日志生成故障预测样本,并进行根因定位预测能够提高根因定位的准确性。若告警日志中不含有近似关键词,可以认为该告警日志的内容与本次故障的根因网元关联性较小。为了减少低关联性的预测样本降低根因定位的准确性,仅保留含有近似关键词的告警日志,而滤除其余告警日志,因此,根据近似关键词分别对第一告警日志和第二告警日志进行筛选得到与根因故障关联性较高的第一待分析日志和第二待分析日志,其中,第一待分析日志保留有断联的对端网元的故障信息。
另外,参照图5,在一实施例中,图3所示实施例中的步骤220还包括但不限于有以下步骤:
步骤S221,根据网元识别标签将第一待分析日志和第二待分析日志分配至相应互通网元所对应的网元目录,并根据故障识别标签将故障信息分配至相应断联网元所对应的网元目录,其中,断联网元为与互通网元断联的对端网元;
步骤S222,根据各个网元目录中的日志数据构建故障预测样本。
第一待分析日志和第二待分析日志中均包括有网元识别标签,而第一待分析日志中的故障信息包括有故障识别标签。通过对第一待分析日志和第二待分析日志进行逐行读取,可以得到网元识别标签和故障识别标签,从而根据网元识别标签和故障识别标签可以确定出各个日志和故障信息的归属网元。对第一待分析日志和第二待分析日志根据预设的样本内容格式进行统一的内容规整,便于导入根因定位模型进行预测。将规整后的第一待分析日志和第二待分析日志按照相应的网元识别标签分配至对应网元的网元目录中。其中,用于存放故障预测样本的网元目录结构与用于存放故障训练样本的网元目录结构相同。
一般情况下,互通网元在与对端网元交互过程中发生故障,如对端网元发生断网的情况下,互通网元可以根据交互协议和交互反馈的错误码,确定出对端网元的故障信息,从而可以将故障信息以特殊字段附加至自身的告警日志中。各个告警日志在上报后进行混合处理,为了提取出第一告警日志即第一待分析日志中的故障信息进行样本构建,可以在内容规整的过程中,利用预先设定好的字段对各个日志进行查询并提取,从而可以在对告警日志进行内容规整的同时进行故障信息的提取,提高效率。而故障信息中还包括有对端网元的地址,即断网网元的故障识别标签。将故障信息从第一告警日志中提取出来,作为一个独立的网元日志,并按照故障识别标签分配至相应网元的网元目录中。其中,在第一待分析日志中提取出故障信息后,第一待分析日志可以删除自身附加的故障信息并分配至相应的网元目录中。因此,可以利用各个网元所对应的网元目录中的日志数据进行故障预测样本的构建,其中,不仅利用互通网元的告警日志进行样本构建,也利用断网网元的故障信息进行样本构建,相对于在网元断网无法上传自身日志的情况下仅采用互通网元上传自身的告警日志进行根因定位预测的方案,增加了断网网元的故障预测样本,综合多个网元的故障预测样本进行根因定位预测,提高根因定位预测的准确性。
需要说明的是,可以通过预设的地址字段从故障信息中提取出故障识别标签,当无法从预设的地址字段确定出故障信息的故障识别标签,可以根据网元服务名称字段,从服务编排文件中确定出故障识别标签。
另外,参照图6,在一实施例中,图5所示实施例中的步骤221还包括但不限于有以下步骤:
步骤S223,根据网元识别标签将第一待分析日志和第二待分析日志分配至相应互通网元所对应的缓冲区,并根据故障识别标签将故障信息分配至相应断联网元所对应的缓冲区;
步骤S224,当缓冲区的容量不足,或者第一待分析日志、第二待分析日志和故障信息全部被分配至对应的缓冲区,将各个缓冲区的日志数据转移至与各个缓冲区对应的网元目录。
结合图7,图7示出了日志数据转移的流程示意图,在第一待分析日志、第二待分析日志和故障信息分配至网元目录的过程中,为了提高数据转移的效率,避免各个日志数据逐个写入网元目录而增大网管的处理压力,各个网元设置有相应的缓冲区。在对第一待分析日志和第二待分析日志进行内容规整以及提取出故障信息后,按照网元识别标签将第一待分析日志和第二待分析日志缓存至相应网元的缓冲区,同时按照故障识别标签将故障信息缓存至相应网元的缓冲区。当缓冲区的容量不足,将该缓冲区内的日志数据写入临时文件,并对临时文件附加上临时网元标签。另外,当第一待分析日志、第二待分析日志和故障信息即所有的日志数据完成缓存后,将各个缓冲区的日志数据分别写入临时文件,并根据相应的归属网元为各个临时文件附加上临时网元标签。当所有缓冲区的日志数据均写入临时文件后,按照临时网元标签将各个临时文件转移至对应网元的网元目录中。因此,利用各个网元对应的缓冲区对日志数据按照归属网元进行预分类,并将同一网元对应的缓冲区中的日志数据同时移入网元目录,提高数据读写效率。
另外,参照图8,在一实施例中,图3所示实施例中的步骤210之前还包括但不限于有以下步骤:
步骤S213,对第一告警日志和第二告警日志进行数据清洗,以使对数据清洗后的第一告警日志进行过滤处理得到第一待分析日志,并对数据清洗后的第二告警日志进行过滤处理得到第二待分析日志。
第一告警日志和第二告警日志中包括有大量的杂乱数据,例如,错误的日志级别、重复上传的告警日志、内容为空的日志或者错误的文件格式。告警日志中错误杂乱的数据会影响数据的准确性,导致所构建的故障预测样本准确性下降,干扰根因定位模型的输出结果。因此,需要对第一告警日志和第二告警日志进行数据清洗,提高根因定位模型输入数据的准确性。另外,对第一告警日志和第二告警日志进行数据清洗后,有助于进行后续的过滤处理,减少错误的杂乱数据的干扰。
如图9所示,图9是本申请一个实施例提供的一种根因定位方法,该根因定位方法可以应用于互通网元,互通网元与网管连接。该根因定位方法包括但不限于有以下步骤:
步骤S800,当互通网元与对端网元发生断联故障,互通网元根据预设交互协议生成故障信息;
步骤S900,根据故障信息生成第一告警日志;
步骤S1000,将第一告警日志上报至网管,以使网管根据第一告警日志和第二告警日志构建故障预测样本,并利用预设的故障定位模型对故障预测样本进行预测,得到故障定位预测结果,其中,第二告警日志由与对端网元连接正常的互通网元生成。
在网络系统运行的过程中,各个网元会与对端网元进行交互。当与网管保持连接的互通网元与对端网元在交互过程中发生断联故障,例如,对端网元出现断网的情况,断网的对端网元无法将自身的告警日志上报,该互通网元可以根据预先设定的交互协议以及交互错误产生的故障码确定出对端网元的故障信息。其中,该互通网元还可以根据预先设定的网络拓扑关系确定出对端网元的地址信息,即故障识别标签,并将故障识别标签添加至故障信息中。互通网元在生成故障信息之后,将故障信息构造在自身的告警信息的附加信息中,从而生成第一告警日志,即第一告警日志携带有与该网元断联的对端网元的故障信息。互通网元通过日志上报接口将第一告警日志上报至网管,从而网管可以通过互通网元上报的第一告警日志中获取得到断网网元的故障信息。另外,在网络系统发生故障的情况下,与对端网元连接正常的互通网元则会将自身生成的告警日志,即第二告警日志上报至网管。因而网管可以在接收到第二告警日志以及携带有断网网元的故障信息的第一告警日志之后,利用第一告警日志和第二告警日志进行故障预测样本的构建,从而故障预测样本包括有各个互通网元相关的预测样本,以及各个断网网元的预测样本。将生成的故障预测样本导入至预设的根因定位模型得到故障定位预测结果。通过与对端网元发生断联故障的互通网元将断网网元的故障信息构造在自身的告警日志并进行上传,相对于在断网网元无法上报自身日志而仅采用互通网元所上报的告警日志进行预测的方案,增加了利用断网网元的故障信息进行预测,综合了网络系统中各个网元的日志数据进行根因定位预测,提高了根因定位的准确性。
另外,参照图10,图10示出了本申请实施例提供的一种1000,图10示出了本申请实施例提供的通信设备1000的结构示意图。该通信设备1000包括:存储器1010、处理器1020及存储在存储器1010上并可在处理器1020上运行的计算机程序。
处理器1020和存储器1010可以通过总线或者其他方式连接。
实现上述实施例的软件升级方法所需的非暂态软件程序以及指令存储在存储器1010中,当被处理器1020执行时,执行上述实施例中的根因定位方法,例如,执行以上描述的图1中的方法步骤S100至方法步骤S300、图2中的方法步骤S400至方法步骤S700、图3中的方法步骤S210至方法步骤S220、图4中的方法步骤S211至方法步骤S212、图5中的方法步骤S221至方法步骤S222、图6中的方法步骤S223至方法步骤S224、图7中的方法步骤S213的根因定位方法或者如图8中的方法步骤S800至方法步骤S1000的根因定位方法。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
此外,本申请的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器或控制器执行,例如,被上述实施例中的一个处理器执行,可使得上述处理器执行上述实施例中的应用于根因定位方法,例如,执行以上描述的图1中的方法步骤S100至方法步骤S300、图2中的方法步骤S400至方法步骤S700、图3中的方法步骤S210至方法步骤S220、图4中的方法步骤S211至方法步骤S212、图5中的方法步骤S221至方法步骤S222、图6中的方法步骤S223至方法步骤S224、图8中的方法步骤S213的根因定位方法或者如图9中的方法步骤S800至方法步骤S1000的根因定位方法。本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (10)

1.一种根因定位方法,应用于网管,所述网管与多个互通网元连接;
所述根因定位方法包括:
获取来自于多个所述互通网元的告警日志,所述告警日志包括第一告警日志和第二告警日志,所述第一告警日志为与对端网元断联的所述互通网元的告警日志,所述第一告警日志包括与所述互通网元断联的对端网元的故障信息,所述第二告警日志为与对端网元连接正常的所述互通网元的告警日志;
根据所述第一告警日志和所述第二告警日志构建故障预测样本;
利用预设的故障定位模型对所述故障预测样本进行预测,得到故障定位预测结果。
2.根据权利要求1所述的根因定位方法,其特征在于,所述故障定位模型由以下步骤生成:
获取预设的预测模型;
基于预设的网络拓扑关系构建拓扑数据和标签文件;
根据所述标签文件生成故障训练样本;
利用所述拓扑数据、所述标签文件和所述故障训练样本对所述预测模型进行训练,得到故障定位模型。
3.根据权利要求1所述的根因定位方法,其特征在于,所述根据所述第一告警日志和所述第二告警日志构建故障预测样本,包括:
对所述第一告警日志进行过滤处理得到第一待分析日志,并对所述第二告警日志进行过滤处理得到第二待分析日志;
根据所述第一待分析日志和所述第二待分析日志生成故障预测样本。
4.根据权利要求3所述的根因定位方法,其特征在于,所述对所述第一告警日志进行过滤处理得到第一待分析日志,并对所述第二告警日志进行过滤处理得到第二待分析日志,包括:
根据预设的场景词库,对所述第一告警日志和所述第二告警日志进行相似度匹配处理,得到近似关键词;
根据所述近似关键词对所述第一告警日志进行筛选处理得到第一待分析日志,并根据所述近似关键词对所述第二告警日志进行筛选处理得到第二待分析日志。
5.根据权利要求3所述的根因定位方法,其特征在于,所述第一告警日志和所述第二告警日志均包括网元识别标签,所述故障信息包括故障识别标签;
所述根据所述第一待分析日志和所述第二待分析日志生成故障预测样本,包括:
根据所述网元识别标签将所述第一待分析日志和所述第二待分析日志分配至相应所述互通网元所对应的网元目录,并根据所述故障识别标签将所述故障信息分配至相应断联网元所对应的网元目录,其中,所述断联网元为与所述互通网元断联的对端网元;
根据各个所述网元目录中的日志数据构建故障预测样本。
6.根据权利要求5所述的根因定位方法,其特征在于,所述根据所述网元识别标签将所述第一待分析日志和所述第二待分析日志分配至相应所述互通网元所对应的网元目录,并根据所述故障识别标签将所述故障信息分配至相应断联网元所对应的网元目录,包括:
根据网元识别标签将所述第一待分析日志和所述第二待分析日志分配至相应所述互通网元所对应的缓冲区,并根据故障识别标签将所述故障信息分配至相应断联网元所对应的缓冲区;
当所述缓冲区的容量不足,或者所述第一待分析日志、所述第二待分析日志和所述故障信息全部被分配至对应的所述缓冲区,将各个所述缓冲区的日志数据转移至与各个所述缓冲区对应的网元目录。
7.根据权利要求3所述的根因定位方法,其特征在于,所述对所述第一告警日志进行过滤处理得到第一待分析日志,并对所述第二告警日志进行过滤处理得到第二待分析日志之前,包括:
对所述第一告警日志和所述第二告警日志进行数据清洗,以使对数据清洗后的第一告警日志进行过滤处理得到第一待分析日志,并对数据清洗后的第二告警日志进行过滤处理得到第二待分析日志。
8.一种根因定位方法,应用于互通网元,所述互通网元与网管连接,所述根因定位方法包括:
当所述互通网元与对端网元发生断联故障,所述互通网元根据预设交互协议生成故障信息;
根据所述故障信息生成第一告警日志;
将所述第一告警日志上报至所述网管,以使所述网管根据所述第一告警日志和第二告警日志构建故障预测样本,并利用预设的故障定位模型对所述故障预测样本进行预测,得到故障定位预测结果,其中,所述第二告警日志由与对端网元连接正常的所述互通网元生成。
9.一种通信设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的根因定位方法或如权利要求8所述的根因定位方法。
10.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如权利要求1至7中任意一项所述的根因定位方法或如权利要求8所述的根因定位方法。
CN202210808769.0A 2022-07-11 2022-07-11 根因定位方法、通信设备及计算机可读存储介质 Pending CN117424794A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210808769.0A CN117424794A (zh) 2022-07-11 2022-07-11 根因定位方法、通信设备及计算机可读存储介质
PCT/CN2023/102434 WO2024012186A1 (zh) 2022-07-11 2023-06-26 根因定位方法、通信设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210808769.0A CN117424794A (zh) 2022-07-11 2022-07-11 根因定位方法、通信设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN117424794A true CN117424794A (zh) 2024-01-19

Family

ID=89527118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210808769.0A Pending CN117424794A (zh) 2022-07-11 2022-07-11 根因定位方法、通信设备及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN117424794A (zh)
WO (1) WO2024012186A1 (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103986604A (zh) * 2014-05-23 2014-08-13 华为技术有限公司 网络故障定位方法和装置
CN106936616B (zh) * 2015-12-31 2020-01-03 伊姆西公司 备份通信方法和装置
CN108683552A (zh) * 2018-08-14 2018-10-19 迈普通信技术股份有限公司 网络管理方法、装置、网络控制器及网络系统
CN110971428B (zh) * 2018-09-28 2021-08-13 上海华为技术有限公司 网络设备脱管上报方法、设备和系统
CN111786806B (zh) * 2019-04-04 2022-03-01 大唐移动通信设备有限公司 一种网元异常处理方法及网管系统
CN114363144B (zh) * 2020-09-28 2023-06-27 华为技术有限公司 一种面向分布式系统的故障信息关联上报方法及相关设备
CN113285840B (zh) * 2021-06-11 2021-09-17 云宏信息科技股份有限公司 存储网络故障根因分析方法及计算机可读存储介质

Also Published As

Publication number Publication date
WO2024012186A1 (zh) 2024-01-18

Similar Documents

Publication Publication Date Title
CN113254254B (zh) 系统故障的根因定位方法、装置、存储介质及电子装置
CN103513983B (zh) 用于预测性警报阈值确定工具的方法和系统
CN110659173A (zh) 一种运维系统及方法
CN111339175B (zh) 数据处理方法、装置、电子设备及可读存储介质
CN102597966B (zh) 运行管理装置以及运行管理方法
CN112559475B (zh) 数据实时捕获和传输方法及系统
JP2008090762A (ja) 分散した部品木から故障部品の組み合わせを求める方法、システム
CN110471945B (zh) 活跃数据的处理方法、系统、计算机设备和存储介质
KR101965277B1 (ko) 하이퍼그래프 데이터 분석 시스템 및 방법과, 이를 위한 컴퓨터 프로그램
CN105512283A (zh) 数据质量管理控制方法及装置
CN116415206B (zh) 运营商多数据融合方法、系统、电子设备及计算机存储介质
CN112181931A (zh) 一种大数据系统链路追踪方法及电子设备
CN112769605A (zh) 一种异构多云的运维管理方法及混合云平台
CN111078513A (zh) 日志处理方法、装置、设备、存储介质及日志告警系统
US11822578B2 (en) Matching machine generated data entries to pattern clusters
CN110704699A (zh) 数据画像的构建方法、装置、计算机设备及存储介质
CN114780335A (zh) 监测数据的关联方法、装置、计算机设备和存储介质
CN112800090A (zh) 结合边缘计算和路径分析的数据处理方法及大数据云平台
CN117194668A (zh) 知识图谱构建方法、装置、设备及存储介质
US20220303188A1 (en) Managing telecommunication network event data
CN112579552A (zh) 日志存储及调用方法、装置及系统
CN113138906A (zh) 一种调用链数据采集方法、装置、设备及存储介质
CN117424794A (zh) 根因定位方法、通信设备及计算机可读存储介质
CN115114264A (zh) 基于运维流程平台的应用系统数据库性能管控方法和系统
CN112582080A (zh) 一种物联网设备状态监测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication