CN114490303A - 故障根因确定方法、装置和云设备 - Google Patents

故障根因确定方法、装置和云设备 Download PDF

Info

Publication number
CN114490303A
CN114490303A CN202210357852.0A CN202210357852A CN114490303A CN 114490303 A CN114490303 A CN 114490303A CN 202210357852 A CN202210357852 A CN 202210357852A CN 114490303 A CN114490303 A CN 114490303A
Authority
CN
China
Prior art keywords
root cause
fault
information
fault root
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210357852.0A
Other languages
English (en)
Other versions
CN114490303B (zh
Inventor
张超利
周志强
张颖莹
杨林晓
何凯
文青松
孙亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Damo Institute Hangzhou Technology Co Ltd
Original Assignee
Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Damo Institute Hangzhou Technology Co Ltd filed Critical Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority to CN202210357852.0A priority Critical patent/CN114490303B/zh
Publication of CN114490303A publication Critical patent/CN114490303A/zh
Application granted granted Critical
Publication of CN114490303B publication Critical patent/CN114490303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/321Display for diagnostics, e.g. diagnostic result display, self-test user interface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供一种故障根因确定方法、装置和云设备,该故障根因确定方法包括:获取拓扑网络发生故障期间的多个日志信息,其中,每个日志信息具有时间戳,日志信息包括:拓扑网络中的各个网络节点在对应时间戳的运行信息和特征属性信息;对运行信息和特征属性信息进行扩展,得到扩展特征信息,扩展特征信息是表达发生故障的本质的特征信息;将扩展特征信息输入故障根因定位模型中进行故障根因分析处理,得到发生故障的目标故障根因。本申请通过对日志信息进行扩展,确定表达发生故障的本质的特征信息,然后输入故障根因定位模型,能够实现故障根因的准确定位。

Description

故障根因确定方法、装置和云设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种故障根因确定方法、装置和云设备。
背景技术
在拓扑网络中,由于网络结构的复杂,在网络发生故障时,发生故障的原因也比较复杂,导致确定网络故障的根因也较困难。
目前,通过对网络运行过程中的日志信息的简单分类,来确定导致网络故障的根因,存在准确性低的问题。
发明内容
本申请的多个方面提供一种故障根因确定方法、装置和云设备,以提高故障根因确定的准确率。
本申请实施例第一方面提供一种故障根因确定方法,应用于服务器,故障根因确定方法包括:获取拓扑网络发生故障期间的多个日志信息,其中,每个日志信息具有时间戳,日志信息包括:拓扑网络中的各个网络节点在对应时间戳的运行信息和特征属性信息;对运行信息和特征属性信息进行扩展,得到扩展特征信息,扩展特征信息是表达发生故障的本质的特征信息;将扩展特征信息输入故障根因定位模型中进行故障根因分析处理,得到发生故障的目标故障根因;向终端设备发送目标故障根因,以使终端设备向运维人员显示目标故障根因。
本申请实施例第二方面提供一种故障根因确定装置,包括:
获取模块,用于获取拓扑网络发生故障期间的多个日志信息,其中,每个日志信息具有时间戳,日志信息包括:拓扑网络中的各个网络节点在对应时间戳的运行信息和特征属性信息;
扩展模块,用于对运行信息和特征属性信息进行扩展,得到扩展特征信息,扩展特征信息是表达发生故障的本质的特征信息;
输入模块,用于将扩展特征信息输入故障根因定位模型中进行故障根因分析处理,得到发生故障的目标故障根因;
发送模块,用于向终端设备发送目标故障根因,以使终端设备向运维人员显示目标故障根因。
本申请实施例第三方面提供一种云设备,包括:处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现第一方面的故障根因确定方法。
本申请实施例应用于拓扑网络中网络发生故障的场景中,提供的故障根因确定方法应用于服务器,包括:获取拓扑网络发生故障期间的多个日志信息,其中,每个日志信息具有时间戳,日志信息包括:拓扑网络中的各个网络节点在对应时间戳的运行信息和特征属性信息;对运行信息和特征属性信息进行扩展,得到扩展特征信息,扩展特征信息是表达发生故障的本质的特征信息;将扩展特征信息输入故障根因定位模型中进行故障根因分析处理,得到发生故障的目标故障根因;向终端设备发送目标故障根因,以使终端设备向运维人员显示目标故障根因。本申请实施例通过对日志信息进行扩展,得到表达发生故障的本质的扩展特征信息,作为故障根因定位模型的输入,能够准确的确定发生故障的目标故障根因,以使运维人员及时获得目标故障根因。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请示例性实施例提供的一种应用场景的示意图;
图2为本申请示例性实施例提供的一种故障根因确定方法的步骤流程图;
图3为本申请示例性实施例提供的另一种故障根因确定方法的步骤流程图;
图4为本申请示例性实施例提供的一种故障因果图的示意图;
图5为本申请示例性实施例提供的一种基站和终端的天线朝向和位置信息的示意图;
图6为本申请示例性实施例提供的一种故障根因定位模型的示意图;
图7为本申请示例性实施例提供的一种训练故障根因定位模型方法的步骤流程图;
图8为本申请示例性实施例提供的一种故障根因确定装置的结构框图;
图9为本申请示例性实施例提供的一种云设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
针对现有拓扑网络中网络发生故障的场景中,存在只对日志信息进行简单的分类,来确定发生网络故障的根因,存在准确率低的问题,本申请实施例提供的故障根因确定方法包括:获取拓扑网络发生故障期间的多个日志信息,其中,每个日志信息具有时间戳,日志信息包括:拓扑网络中的各个网络节点在对应时间戳的运行信息和特征属性信息;对运行信息和特征属性信息进行扩展,得到扩展特征信息,扩展特征信息是表达发生故障的本质的特征信息;将扩展特征信息输入故障根因定位模型中进行故障根因分析处理,得到发生故障的目标故障根因;向终端设备发送目标故障根因,以使终端设备向运维人员显示目标故障根因。本申请实施例通过对日志信息进行扩展,得到表达发生故障的本质的扩展特征信息,作为故障根因定位模型的输入,能够准确的确定发生故障的目标故障根因。
在本实施例中,故障根因确定方法可以是借助云计算系统实现整体的故障根因确定方法。此外,执行故障根因确定方法的服务器可以为云服务器,以便借助于云上资源的优势运行各种神经网络模型;相对于云端,故障根因确定方法也可以应用于常规服务器或服务器阵列等服务端设备,在此不加以限定。
此外,本申请实施例提供的故障根因确定方法应用于拓扑网络中网络发生故障的场景中,其中,对于第一种方式,是通过对故障发生时刻的单一指标的异常进行检测,然后将该指标与多个异常值关联确定网络故障的根因,无法确定网络发生故障的准确的根因,而本申请实施例通过故障期间的多个日志信息,扩展出扩展特征信息进行故障根因的确定,能够提高确定故障根因的准确率。对于第二种方式,是通过收集实施的网络流量等数据,检测网络传输耗时最多的环节,判断网络发生故障的瓶颈处。这种方式没有考虑网络节点之间存在相互影响,也没有考虑到故障根因到最后发生网络故障时的传播发散,而本申请实施例通过对不同时间戳的运行信息和特征属性信息进行扩展,能够得到发生故障的本质的特征信息,考虑到网络节点之间的相互影响和故障根因的传播发散能够更准确的确定故障根因。综上,本申请实施例能够综合考虑不同时间戳的日志信息之间的相互依赖和相互影响,不会丢失日志信息之间的交叉特征,此外,还考虑到故障根因的传播,因此不会出现根因的漏判和误判,进而能够实现准确的确定故障根因。
示例性地,参照图1,示出本申请实施例故障根因确定方法的应用场景,其中,图1包括拓扑网络10,该拓扑网络包括多个网络节点,分别是服务器11、基站12、路由器13和终端14。其中,服务器11、基站12、路由器13和终端14均可以是多个。在服务器11和终端14之间进行数据传输时,需要通过基站或者基站和路由器。其中,会存在的网络故障包括:无法传输数据、网络迟缓。出现的网络故障的故障根因包括:服务器11、基站12、路由器13和终端14中的一个或多个网络节点中的某个硬件发生故障,和/或网络节点之间的干扰,和/或大量流量造成的资源堵塞,服务器11的资源不足等。在本申请实施例中,发生网络故障的故障根因可能是多种,还可以包括其他情况。其中,在拓扑网络10出现故障时,服务器15会获取到拓扑网络10的各个网络节点的日志信息,然后确定目标故障根因,将目标故障根因发送给终端设备16显示给运维人员。
进一步地,本申请实施例通过对日志信息进行扩展,得到表达发生故障的本质的扩展特征信息,作为故障根因定位模型的输入,能够准确的确定发生故障的目标故障根因。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图2为本申请示例性实施例提供的一种故障根因确定方法的步骤流程图。如图2所示该故障根因确定方法,应用于服务器,具体包括以下步骤:
S201,获取拓扑网络发生故障期间的多个日志信息。
具体地,由于故障发生时之前,会有些隐形的异常问题无法显示。例如,在无法传输数据发生之前,服务器内存已经趋近于存满。因此故障期间是指故障发生时间前后的时间段。故障期间可以是预设的时段。例如,若故障发生在当日15时,则可以确定故障期间为当日14时40分至15时40分,也可以是当日14时至16时。具体的故障期间的确定可以根据需要确定。
进一步地,多个日志信息可以是选取故障期间每隔预设时间的日志信息,例如在14时40分至15时40分每隔1分获取一个日志信息,则故障期间可以获取到60个日志信息。其中,每个日志信息具有时间戳。例如,第一个日志信息的时间戳为14时41分,第二个日志信息的时间戳为14时42分,以此直到第六十个日志信息的时间戳为15时40分。
在本申请实施例中,日志信息包括:拓扑网络中的各个网络节点在对应时间戳的运行信息和特征属性信息。进一步地,网络节点的运行信息可以是网络节点中的每个硬件的运行信息。例如,服务器11、基站12、路由器13和终端14分别在14时40分至15时40分的运行信息。其中,服务器11的运行信息可以包括:服务器11中每个硬件,如处理器、内存、硬盘等的运行信息。处理器的运行信息包括:信息处理速度、延迟率等指标。其中,每个网络节点的硬件在运行过程中都会产生各自对应的运行信息。此外,特征属性信息包括:网络节点的天线方向、位置信息和/或故障类型等。其中,故障类型包括:无法传输数据或者网络延迟等。
在本申请实施例中,各个网络节点中设置有监听模块,监听模块可以对各个网络节点的运行信息以及特征属性信息进行监听。
在本申请实施例中,运行信息和特征属性信息还可以是其他可监听到的信息,在此不加以限定。
S202,对运行信息和特征属性信息进行扩展,得到扩展特征信息。
其中,扩展特征信息是表达发生故障的本质的特征信息。具体地,在本申请实施例中,对运行信息和特征属性信息进行扩展是对运行信息和特征属性信息分别进行转化,转化得到的扩展特征信息能够更好的表达故障的本质,为较重要的特征,将这些扩展特征信息输入到故障根因定位模型,能够提高故障根因的确定的准确度。
在本申请实施例中,扩展特征信息包括:对不同时间戳的运行信息进行统计后得到的统计特征、以及根据特征属性信息得到的一些隐性特征。
S203,将扩展特征信息输入故障根因定位模型中进行故障根因分析处理,得到发生故障的目标故障根因。
其中,故障根因定位模型是预先训练得到的,能够基于输入的扩展特征信息准确的预测出目标故障根因。
在本申请实施例中,故障根因定位模型可以结合多个子模型,每个子模型采用对应的算法模型,进而通过结合多个子模型能够实现目标故障根因的准确预测。其中,故障根因定位模型可以采用XGBOOST(一种机器学习模型)、Skoperules(一种逻辑规则学习模型)、夏普利算法以及PageRank算法(一种算法)等。这些算法模型可以预先训练分别进行目标故障根因的预测,也可以集成后进行目标故障根因的预测。
此外,目标故障根因是指导致对应故障的条件或者因果链的起始原因,具体为根本、潜在、最深或者初始的原因。
S204,向终端设备发送目标故障根因,以使终端设备向运维人员显示目标故障根因。
在本申请实施例中,将目标故障根因发送给终端设备,可以使运维人员及时获得目标故障根因,进而对拓扑网络的故障进行检修。
本申请实施例应用于拓扑网络中网络发生故障的场景中,提供的故障根因确定方法包括:获取拓扑网络发生故障期间的多个日志信息,其中,每个日志信息具有时间戳,日志信息包括:拓扑网络中的各个网络节点在对应时间戳的运行信息和特征属性信息;对运行信息和特征属性信息进行扩展,得到扩展特征信息,扩展特征信息是表达发生故障的本质的特征信息;将扩展特征信息输入故障根因定位模型中进行故障根因分析处理,得到发生故障的目标故障根因。本申请实施例通过对日志信息进行扩展,得到表达发生故障的本质的扩展特征信息,作为故障根因定位模型的输入,能够准确的确定发生故障的目标故障根因。
在本申请实施例中,提供了另一种故障根因确定方法,如图3所示,该故障根因确定方法具体包括以下步骤:
S301,获取拓扑网络发生故障期间的多个日志信息。
S302,确定不同时间戳的运行信息的统计特征。
其中,特征属性信息包括:故障对应的目标故障类型,扩展特征信息包括:统计特征和中间特征,统计特征包括:多个运行信息的中值、均值、倾斜度和峰值中的至少一项。
具体地,由于每个日志信息的时间戳不同,对应的不同日志信息对应的不同运行信息的时间戳不同,若直接使用所有日志信息会导致确定的目标故障根因不是很准确。在本申请实施例中对不同时间戳的运行信息进行统计,得到不同时间戳的运行信息的统计特征。例如,若运行信息为网络延迟时间,在当日14时41分至14时50分的网络延迟是0秒,在14时51分至14时55分的网络延迟是0.1秒,在14时56的网络延迟是0.7秒,在14时57分的网络延迟是0.5秒,在14时57分的网络延迟是0.8秒,在14时59分的网络延迟是0.4秒,在14时59分的网络延迟是0.4秒,在15时的网络延迟是1秒,在15时01分至15时40分的网络延迟均是1秒。则可以基于这60个数据计算网络延迟的中值、均值、倾斜度和峰值,将网络延迟的中值、均值、倾斜度和峰值作为统计特征。此外,运行信息还可以包括其他指标,则针对每个指标确定故障期间对应的中值、均值、倾斜度和峰值。此外,统计特征还可以包括最小值、偏度等统计数据。
其中,可以采用tsfresh(一种特征提取方法)确定运行信息峰值和均值等统计特征。本申请实施例的统计特征更能够准确的表达出现网络故障时对应的实质性运行数据。
S303,对特征属性信息进行转化,得到转化特征。
其中,转化特征用于表达发生故障的隐性特征。扩展特征信息包括:统计特征和转化特征。
一种可选实施例中,对特征属性信息进行转化,得到转化特征包括:根据预设的故障因果图,确定目标故障类型对应中间特征。
其中,故障因果图包括多个故障类型和每个故障类型对应的多个因素,以及每个因素造成对应故障类型的权重,中间特征包括目标故障类型对应的目标因素和目标因素对应的权重。
在本申请实施例中故障类型是浅显的故障因素特征,可以通过日志信息获得,如上述的无法传输数据和网络延迟。参照图4,为预设的故障因果图的示意图,其中,若故障类型为网络延迟,则导致发生网络延迟的因素包括:因素1至因素4,以及每个因素对应的权重,如因素1的权重为0.1,因素2的权重为0.5,因素3的权重为0.3,因素4的权重为0.1,因素2对应有因素5和因素6,其中因素5对应的权重为0.3,因素6对应的权重为0.2。因此3对应有因素7和因素8,因素7的权重为0.2,因素8的权重为0.1。因素5对应有因素9、因素10和因素11,各自权重均为0.1。在本申请实施例中因素1至因素11均为导致网络故障的因素,因素1至因素11以及各自对应的权重为目标故障类型对应中间特征。
例如,若故障类型是网络延迟,则因素1例如是病毒感染,因素2例如是内存问题,因素3例如是软件问题,因素4例如是配置问题。由于因素2的权重较大,因此因素2的出现会导致网络延迟问题更严重。其中,因素2对应的因素6可能是内存不足,因素5可能是内存故障,因素5对应的因素9可能是内存耐热性差、因素10为内存兼容性差、因素11为内存识别性能差。
图4只是对其中一个故障类型对应的故障因果图进行示意性说明,其中,故障因果图是结合专业知识预先形成的知识图,包括多个故障类型,以及导致该故障类型对应的故障的多个因素以及每个因素的权重。此外,故障因果图包括多层因素,与故障类型之间连接的为第一层因素,远离故障类型的层级越高。其中,层级越低,对应的因素属于浅显因素,一般可以通过日志信息确定或者通过其他方式确定,层级越高,对应的因素属于深层因素,难以之间通过日志信息或者其他方式确定。
在本申请实施例中,中间特征是根据特征属性信息扩展得到的,更能够表达出现对应故障的特征因素。
进一步地,引起网络故障的因素包括:逻辑问题、配置问题、物理问题、协议问题、病毒感染问题、网络管理员差错问题、存储问题或者软件问题等因素,导致每个出现对应因素还可以是各种因素,如导致逻辑问题的因素可以是重要进程或者端口关闭,导致系统负载和路由负载过高。导致配置问题会导致终端或者服务器不能接入网络,在此不再一一列举。
一种可选实施例中,对特征属性信息进行转化,得到转化特征包括:根据朝向信息和位置信息,确定各个天线之间的方向信息;和/或根据位置信息,确定各个天线之间的距离信息。
其中,特征属性信息还包括:拓扑网络中各个网络节点的天线的朝向信息和位置信息,转化特征包括:方向信息和/或距离信息。
在5G网络中,是采用多天线形成波束的方式来提高网络性能,天线的朝向信息是指拓扑网络中网络节点的天线的朝向信息,如终端中天线的朝向信息和基站天线的朝向信息。其中,位置信息可以是各个网络节点的经纬度信息。
示例性的,参照图5,其中51和52分别表示基站,53表示终端。基站51的天线U的朝向信息为225°(从北向顺时针旋转的角度),基站52的天线V的朝向信息为300°,终端53的天线W的朝向信息为0°。因此,可以根据位置信息和朝向信息,确定任意两个天线之间的方向信息,其中方向信息为天线朝向之间的夹角,如天线U和天线V的方向信息为α1, 如天线U和天线W的方向信息为α2,如天线W和天线V的方向信息为α3。可见,当夹角越大时,对应终端的网络质量更好。
在本申请实施例中,一个网络节点也可以包括多个天线,方向信息还包括:同一网络节点中的天线之间的方向信息。
进一步地,天线之间的距离信息可以根据对应网络节点的位置信息确定。此外,距离信息可以采用欧几里得距离、曼哈顿距离、杰卡德距离等计算方式确定。
在本申请实施例中,天线之间的方向信息和网络节点之间的距离信息对网络性能的影响非常大,因此通过扩展出方向信息和距离信息能够更准确的确定发生故障的目标故障根因。
一种可选实施例中,根据不同时间戳对应的日志信息的依赖关系,确定交叉特征。
其中,转化特征还包括:交叉特征。在本申请实施例中,在网络发生故障时,日志信息在故障期间是发生变化的,有些交叉特征在日志信息中并不会出现。因此,需要根据日志信息的变化规律以及日志信息依赖关系确定交叉特征。例如,对于不同的网络延迟时长,可以确定网络延迟时长的变化规律为交叉特征。此外,还可以根据终端的移动变化情况,将终端的天线与基站天线之间的方向信息以及距离信息的变化规律,作为交叉特征。
在本申请实施例中,交叉特征是表征不同时间戳对应的日志信息的相互依赖和相互影响,因此能够依据不同时间戳对应的日志信息扩展出交叉特征作为故障根因定位模型的输入,以提高目标故障根因预测的准确性。
S304,将扩展特征信息输入故障根因定位模型的分类子模型中,对扩展特征信息对应的故障根因类别进行分析处理,得到第一故障根因。
其中,参照图6,故障根因定位模型可以是一个集成模型,集成一个或多个子模型。其中,分类子模型将确定第一故障根因视为一个分类问题。分类子模型采用XGBOOST算法,采用XGBOOST算法的分类子模型作为故障根因定位模型的基础,具有很好的性能。
此外,分类子模型是预先训练好的,可以对扩展特征信息进行分析处理,得到第一故障根因,其中,可以将第一故障根因作为目标故障根因。在本申请实施例中,第一故障根因可以是多个,如内存资源不足以及终端处于基站覆盖的边缘区域导致网络故障。
S305,将扩展特征信息输入故障根因定位模型的规则子模型中,对扩展特征信息之间的依赖性进行分析处理,得到第二故障根因。
其中,规则子模型可以采用决策树模型,如采用Skoperules算法,其中,Skoperules算法具有较好的解释性,能够发现扩展特征信息之间的一些非线性依赖,进而能够预测得到第二故障根因。在本申请实施例中,可以将第二故障根因作为目标故障根因。
S306,将扩展特征信息输入故障根因定位模型的归因子模型中,对扩展特征信息的重要性进行分析处理,得到第三故障根因。
在本申请实施例中,归因子模型结合了预设的故障因果图,采用夏普利算法能够得到第三故障根因。其中,在故障因果图中,各个因素之间的依赖关系比较清晰,不同因素的重要性(权重)也是比较清楚的,有助于准确分析不同因素对故障的影响,进而提高故障根因预测的准确度。此外,采用夏普利算法能够提高确定故障根因的效率。在本申请实施例中,可以将第三故障根因作为目标故障根因。其中,第三故障根因是故障因果图中的其中一个或多个因素。
S307,将扩展特征信息输入故障根因定位模型的图算法子模型中,对扩展特征信息的传递性进行分析处理,得到第四故障根因。
在本申请实施例中,图算法子模型采用PageRank算法利用预设的故障因果图,通过对扩展特征信息的传递性以及故障因果图的不同因素的重要性进行分析,进而得到第四故障根因。在本申请实施例中,可以将第四故障根因作为目标故障根因。其中,第四故障根因是故障因果图中的其中一个或多个因素。
S308,将第一故障根因、第二故障根因、第三故障根因和第四故障根因中至少两个输入故障根因定位模型的确定层中进行分析处理,得到目标故障根因。
其中,参照图6,确定层根据第一故障根因、第二故障根因、第三故障根因和第四故障根因各自预先设定的权重,确定目标故障根因。
其中,通过上述四种子模型采用四种方式,确定第一故障根因、第二故障根因、第三故障根因和第四故障根因。采用确定层确定最终的目标故障根因。在本申请实施例中确定层对应的预先设定的权重可以预先训练得到。
一种可选实施例中,还可以直接向终端设备发送第一故障根因、第二故障根因、第三故障根因和第四故障根因,终端设备用于显示第一故障根因、第二故障根因、第三故障根因和第四故障根因;接收终端设备发送的运维定位故障根因,运维定位故障根因是运维人员根据第一故障根因、第二故障根因、第三故障根因和第四故障根因确定的;根据运维定位故障根因、第一故障根因、第二故障根因、第三故障根因和第四故障根因确定目标故障根因。
其中,运维人员在根据显示的第一故障根因、第二故障根因、第三故障根因和第四故障根因,可以根据经验确定故障还可能存在的潜在原因(运维定位故障根因),运维人员将该运维定位故障根因输入终端设备,由终端设备发送给服务器,服务器可以根据运维定位故障根因、第一故障根因、第二故障根因、第三故障根因和第四故障根因确定最终的目标故障根因,进而提高了目标故障根因的准确度。
S309,向终端设备发送目标故障根因,以使终端设备向运维人员显示目标故障根因。
在本申请实施例中,故障根因定位模型集成分类子模型、规则子模型、归因子模型和图算法子模型,并且充分利用了故障因果图。此外,成分类子模型和规则子模型充分利用的扩展特征性信息之间的相互依赖和相互影响。各个子模型互相补充,最终得到准确的目标故障根因。
在本申请实施例中,参照图7,采用图7的步骤进行故障根因定位模型的训练,具体包括以下步骤:
S701,获取多个第一训练样本。
其中,每个第一训练样本包括多个第一样本日志信息,其中,每个第一样本日志信息具有时间戳,第一样本日志信息包括:拓扑网络中的各个网络节点在对应时间戳的第一样本运行信息和第一样本特征属性信息。
其中,第一训练样本是拓扑网络历史运行生成的日志信息。
S702,针对每个第一训练样本,对第一样本运行信息和第一样本特征属性信息进行扩展,得到第一样本扩展特征信息。
具体的扩展方法参照上述,在此不再赘述。
S703,获取第一训练样本对应的第一标签数据。
其中,第一标签数据表示对应第一训练样本的实际故障根因。
在本申请实施例中,第一标签数据是对第一训练样本的标注标签。例如,有三个第一训练样本,分别为第一训练样本A、第一训练样本B和第一训练样本C,其中,第一训练样本A对应的第一标签数据为内存资源不足,第一训练样本B对应的第一标签数据为边缘地区微弱信号,第一训练样本C对应的第一标签数据为网络节点之间的信号强干扰。
S704,根据第一样本扩展特征信息和第一标签数据,训练故障根因定位模型。
在本申请实施例中,将第一样本扩展特征信息输入故障根因定位模型,输出预测故障根因,然后采用预设损失函数计算预测故障根因和第一标签数据之间的损失值,根据损失值调整故障根因定位模型的模型参数。
一种可选实施例中,还包括:获取多个第二训练样本,每个第二训练样本包括多个第二样本日志信息,其中,每个第二样本日志信息具有时间戳,第二样本日志信息包括:拓扑网络中的各个网络节点在对应时间戳的第二样本运行信息和第二样本特征属性信息;针对每个第二训练样本,对第二样本运行信息和第二样本特征属性信息进行扩展,得到第二样本扩展特征信息;确定第二训练样本和第一训练样本的相似度;若相似度大于相似度阈值,则确定第二训练样本的第二标签数据与第一训练样本对应的第一标签数据相同;采用第二样本扩展特征信息和第二标签数据,训练故障根因定位模型。
在本申请实施例中,第二训练样本是没有进行打标的训练样本,则采用ExtendedFrobenius Norm(扩展的矩阵范数)方式确定第二训练样本与第一训练样本的相似度。例如,若第二训练样本与第一训练样本A的相似度大于相似度阈值,则确定第二训练样本的第二标签数据为内存资源不足。在本申请实施例中,采用该种方式能够扩充训练故障根因定位模型的训练样本,降低人工打标的数据量。
另一种可选实施例中,还包括:确定任意两个第一训练样本对应的时间戳是否相同;若相同,对任意两个第一训练样本对应的第一样本运行信息和第一样本特征属性信息进行扩展,得到第三样本扩展特征信息;组合任意两个第一训练样本对应的第一标签数据为第三标签数据;采用第三样本扩展特征信息和第三标签数据,训练故障根因定位模型。
在本申请实施例中,例如,若第一训练样本A和第二训练样本B的时间戳相同,或者差值小于时长阈值,例如相差3秒。则可以确定第一训练样本A和第一训练样本B属于同时发生的故障,则可以将第一训练样本A和第一训练样本B组合,组合具体为确定第一训练样本A和第一训练样本B的并集为第三训练样本。则将对应的两个第一标签数据为内存资源不足和边缘地区微弱信号作为该第三训练样本的标签数据。进而能够实现训练样本的扩充,以及防止标签数据的遗漏。
在本申请实施例中,第一训练样本和第二训练样本可以是针对同一拓扑网络在历史运行过程中的日志信息。其中,也可以对比对第一训练样本和第二训练样本对应的时间戳进行训练样本的扩充,也可以比对不同第二训练样本的时间戳进行训练样本的扩充。
此外,本申请实施例训练得到的故障根因定位模型还可以应用在云计算智能场景以及新能源设备故障确定的场景中。
在本申请实施例中,通过对训练样本的扩充以及数据的扩展,能够提高故障根因定位模型的鲁棒性,进而能够采用训练得到故障根因定位模型准确的确定网络发生故障的故障根因,进而保证网络质量。
在本申请实施例中,参照图8,除了提供故障根因确定方法之外,还提供一种故障根因确定装置80,该故障根因确定装置80包括:
获取模块81,用于获取拓扑网络发生故障期间的多个日志信息,其中,每个日志信息具有时间戳,日志信息包括:拓扑网络中的各个网络节点在对应时间戳的运行信息和特征属性信息;
扩展模块82,用于对运行信息和特征属性信息进行扩展,得到扩展特征信息,扩展特征信息是表达发生故障的本质的特征信息;
输入模块83,用于将扩展特征信息输入故障根因定位模型中进行故障根因分析处理,得到发生故障的目标故障根因;
发送模块84,用于向终端设备发送目标故障根因,以使终端设备向运维人员显示目标故障根因。
在一可选实施例中,特征属性信息包括:故障对应的目标故障类型,扩展特征信息包括:统计特征和转化特征,扩展模块82具体用于,确定不同时间戳的运行信息的统计特征,统计特征包括:多个运行信息的中值、均值、倾斜度和峰值中的至少一项;对特征属性信息进行转化,得到转化特征,转化特征用于表达发生故障的隐性特征。
在一可选实施例中,特征属性信息包括:故障对应的目标故障类型,转化特征包括:中间特征,扩展模块82在对特征属性信息进行转化,得到转化特征,具体用于:根据预设的故障因果图,确定目标故障类型对应中间特征,故障因果图包括多个故障类型和每个故障类型对应的多个因素,以及每个因素造成对应故障类型的权重,中间特征包括目标故障类型对应的目标因素和目标因素对应的权重。
在一可选实施例中,特征属性信息还包括:拓扑网络中各个网络节点的天线的朝向信息和位置信息,转化特征还包括:方向信息和/或距离信息,扩展模块82在对特征属性信息进行转化,得到转化特征时,具体用于:根据朝向信息和位置信息,确定各个天线之间的方向信息;和/或根据位置信息,确定各个天线之间的距离信息。
在一可选实施例中,转化特征还包括:交叉特征,扩展模块82在对特征属性信息进行转化,得到转化特征时,具体用于:根据不同时间戳对应的日志信息的依赖关系,确定交叉特征。
在一可选实施例中,故障根因定位模型为一个子模型或者多个子模型的集成模型,输入模块83具体用于:将扩展特征信息输入故障根因定位模型的分类子模型中,对扩展特征信息对应的故障根因类别进行分析处理,得到第一故障根因为目标故障根因。
在一可选实施例中,输入模块83还用于:将扩展特征信息输入故障根因定位模型的规则子模型中,对扩展特征信息之间的依赖性进行分析处理,得到第二故障根因为目标故障根因。
在一可选实施例中,输入模块83还用于:将扩展特征信息输入故障根因定位模型的归因子模型中,对扩展特征信息的重要性进行分析处理,得到第三故障根因为目标故障根因。
在一可选实施例中,输入模块83还用于:将扩展特征信息输入故障根因定位模型的图算法子模型中,对扩展特征信息的传递性进行分析处理,得到第四故障根因为目标故障根因。
在一可选实施例中,输入模块83还用于:将第一故障根因、第二故障根因、第三故障根因和第四故障根因中至少两个输入故障根因定位模型的确定层中进行分析处理,得到目标故障根因,其中,确定层根据第一故障根因、第二故障根因、第三故障根因和第四故障根因各自预先设定的权重,确定目标故障根因。
在一可选实施例中,输入模块83还用于:向终端设备发送第一故障根因、第二故障根因、第三故障根因和第四故障根因,终端设备用于显示第一故障根因、第二故障根因、第三故障根因和第四故障根因;接收终端设备发送的运维定位故障根因,运维定位故障根因是运维人员根据第一故障根因、第二故障根因、第三故障根因和第四故障根因确定的;根据运维定位故障根因、第一故障根因、第二故障根因、第三故障根因和第四故障根因确定目标故障根因。
在一可选实施例中,该故障根因确定装置80还包括:训练模块(未示出),该训练模块用于获取多个第一训练样本,每个第一训练样本包括多个第一样本日志信息,其中,每个第一样本日志信息具有时间戳,第一样本日志信息包括:拓扑网络中的各个网络节点在对应时间戳的第一样本运行信息和第一样本特征属性信息;针对每个第一训练样本,对第一样本运行信息和第一样本特征属性信息进行扩展,得到第一样本扩展特征信息;获取第一训练样本对应的第一标签数据,第一标签数据表示对应第一训练样本的实际故障根因;根据第一样本扩展特征信息和第一标签数据,训练故障根因定位模型。
本申请实施例提供的故障根因确定装置,通过对日志信息进行扩展,得到表达发生故障的本质的扩展特征信息,作为故障根因定位模型的输入,能够准确的确定发生故障的目标故障根因。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
图9为本申请示例性实施例提供的一种云设备的结构示意图。该云设备用于运行上述故障根因确定方法。如图9所示,该云设备包括:存储器94和处理器95。
存储器94,用于存储计算机程序,并可被配置为存储其它各种信息以支持在云设备上的操作。该存储器94可以是对象存储(Object Storage Service,OSS)。
存储器94可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器95,与存储器94耦合,用于执行存储器94中的计算机程序,以用于:获取拓扑网络发生故障期间的多个日志信息,其中,每个日志信息具有时间戳,日志信息包括:拓扑网络中的各个网络节点在对应时间戳的运行信息和特征属性信息;对运行信息和特征属性信息进行扩展,得到扩展特征信息,扩展特征信息是表达发生故障的本质的特征信息;将扩展特征信息输入故障根因定位模型中进行故障根因分析处理,得到发生故障的目标故障根因;向终端设备发送目标故障根因,以使终端设备向运维人员显示目标故障根因。
进一步可选地,处理器95在对运行信息和特征属性信息进行扩展,得到扩展特征信息时,具体用于:确定不同时间戳的运行信息的统计特征,统计特征包括:多个运行信息的中值、均值、倾斜度和峰值中的至少一项;对特征属性信息进行转化,得到转化特征,转化特征用于表达发生故障的隐性特征。
进一步可选地,处理器95在对特征属性信息进行转化,得到转化特征时,具体用于:根据预设的故障因果图,确定目标故障类型对应中间特征,故障因果图包括多个故障类型和每个故障类型对应的多个因素,以及每个因素造成对应故障类型的权重,中间特征包括目标故障类型对应的目标因素和目标因素对应的权重。
进一步可选地,处理器95在对特征属性信息进行转化,得到转化特征时,具体用于:根据朝向信息和位置信息,确定各个天线之间的方向信息;和/或根据位置信息,确定各个天线之间的距离信息。
进一步可选地,处理器95处理器95对运行信息和特征属性信息进行扩展,得到扩展特征信息时,具体用于:根据不同时间戳对应的日志信息的依赖关系,确定交叉特征。
在一可选实施例中,处理器95将扩展特征信息输入故障根因定位模型中进行故障根因分析处理,得到发生故障的目标故障根因时,具体用于:将扩展特征信息输入故障根因定位模型的分类子模型中,对扩展特征信息对应的故障根因类别进行分析处理,得到第一故障根因为目标故障根因。
在一可选实施例中,处理器95将扩展特征信息输入故障根因定位模型中进行故障根因分析处理,得到发生故障的目标故障根因时,具体用于:将扩展特征信息输入故障根因定位模型的规则子模型中,对扩展特征信息之间的依赖性进行分析处理,得到第二故障根因为目标故障根因。
在一可选实施例中,处理器95将扩展特征信息输入故障根因定位模型中进行故障根因分析处理,得到发生故障的目标故障根因时,具体用于:将扩展特征信息输入故障根因定位模型的归因子模型中,对扩展特征信息的重要性进行分析处理,得到第三故障根因为目标故障根因。
在一可选实施例中,处理器95将扩展特征信息输入故障根因定位模型中进行故障根因分析处理,得到发生故障的目标故障根因时,具体用于:将扩展特征信息输入故障根因定位模型的图算法子模型中,对扩展特征信息的传递性进行分析处理,得到第四故障根因为目标故障根因。
在一可选实施例中,处理器95将扩展特征信息输入故障根因定位模型中进行故障根因分析处理,得到发生故障的目标故障根因时,具体用于:将第一故障根因、第二故障根因、第三故障根因和第四故障根因中至少两个输入故障根因定位模型的确定层中进行分析处理,得到目标故障根因,其中,确定层根据第一故障根因、第二故障根因、第三故障根因和第四故障根因各自预先设定的权重,确定目标故障根因。
在一可选实施例中,处理器95将扩展特征信息输入故障根因定位模型中进行故障根因分析处理,得到发生故障的目标故障根因时,还用于向终端设备发送第一故障根因、第二故障根因、第三故障根因和第四故障根因,终端设备用于显示第一故障根因、第二故障根因、第三故障根因和第四故障根因;接收终端设备发送的运维定位故障根因,运维定位故障根因是运维人员根据第一故障根因、第二故障根因、第三故障根因和第四故障根因确定的;根据运维定位故障根因、第一故障根因、第二故障根因、第三故障根因和第四故障根因确定目标故障根因。
在一可选实施例中,处理器95还用于:获取多个第一训练样本,每个第一训练样本包括多个第一样本日志信息,其中,每个第一样本日志信息具有时间戳,第一样本日志信息包括:拓扑网络中的各个网络节点在对应时间戳的第一样本运行信息和第一样本特征属性信息;针对每个第一训练样本,对第一样本运行信息和第一样本特征属性信息进行扩展,得到第一样本扩展特征信息;获取第一训练样本对应的第一标签数据,第一标签数据表示对应第一训练样本的实际故障根因;根据第一样本扩展特征信息和第一标签数据,训练故障根因定位模型。
进一步地,如图9,该云设备还包括:防火墙91、负载均衡器92、通信组件96、电源组件98等其它组件。图9中仅示意性给出部分组件,并不意味着云设备只包括图9所示组件。
本申请实施例提供的云设备,通过对日志信息进行扩展,得到表达发生故障的本质的扩展特征信息,作为故障根因定位模型的输入,能够准确的确定发生故障的目标故障根因。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,当计算机程序/指令被处理器执行时,致使处理器实现图2、图3或图7所示方法中的步骤。
相应地,本申请实施例还提供一种计算机程序产品,包括计算机程序/指令,当计算机程序/指令被处理器执行时,致使处理器实现图2、图3或图7所示方法中的步骤。
上述图9的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G、3G、4G/LTE、5G等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关文本。在一个示例性实施例中,通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外信息协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
上述图9的电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程信息处理设备的处理器以产生一个机器,使得通过计算机或其他可编程信息处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程信息处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程信息处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现文本存储。文本可以是计算机可读指令、信息结构、程序的模块或其他信息。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的文本。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的信息信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (14)

1.一种故障根因确定方法,其特征在于,应用于服务器,所述故障根因确定方法包括:
获取拓扑网络发生故障期间的多个日志信息,其中,每个所述日志信息具有时间戳,所述日志信息包括:所述拓扑网络中的各个网络节点在对应时间戳的运行信息和特征属性信息;
对所述运行信息和特征属性信息进行扩展,得到扩展特征信息,所述扩展特征信息是表达发生所述故障的本质的特征信息;
将所述扩展特征信息输入故障根因定位模型中进行故障根因分析处理,得到发生所述故障的目标故障根因;
向终端设备发送所述目标故障根因,以使所述终端设备向运维人员显示所述目标故障根因。
2.根据权利要求1所述的故障根因确定方法,其特征在于,所述扩展特征信息包括:统计特征和转化特征,所述对所述运行信息和特征属性信息进行扩展,得到扩展特征信息,包括:
确定不同时间戳的所述运行信息的统计特征,统计特征包括:多个所述运行信息的中值、均值、倾斜度和峰值中的至少一项;
对所述特征属性信息进行转化,得到所述转化特征,所述转化特征用于表达发生所述故障的隐性特征。
3.根据权利要求2所述的故障根因确定方法,其特征在于,所述特征属性信息包括:所述故障对应的目标故障类型,所述转化特征包括:中间特征,所述对所述特征属性信息进行转化,得到所述转化特征,包括:
根据预设的故障因果图,确定所述目标故障类型对应中间特征,所述故障因果图包括多个故障类型和每个故障类型对应的多个因素,以及每个所述因素造成对应故障类型的权重,所述中间特征包括所述目标故障类型对应的目标因素和所述目标因素对应的权重。
4.根据权利要求3所述的故障根因确定方法,其特征在于,所述特征属性信息还包括:所述拓扑网络中各个网络节点的天线的朝向信息和位置信息,所述转化特征还包括:方向信息和/或距离信息,所述对所述特征属性信息进行转化,得到所述转化特征,还包括:
根据所述朝向信息和所述位置信息,确定各个天线之间的方向信息;
和/或根据所述位置信息,确定各个天线之间的距离信息。
5.根据权利要求4所述的故障根因确定方法,其特征在于,所述转化特征还包括:交叉特征,所述对所述特征属性信息进行转化,得到所述转化特征,还包括:
根据不同时间戳对应的所述日志信息的依赖关系,确定所述交叉特征。
6.根据权利要求1至5任一项所述的故障根因确定方法,其特征在于,所述故障根因定位模型为一个子模型或者多个子模型的集成模型,所述将所述扩展特征信息输入故障根因定位模型中进行故障根因分析处理,得到发生所述故障的目标故障根因,包括:
将所述扩展特征信息输入所述故障根因定位模型的分类子模型中,对所述扩展特征信息对应的故障根因类别进行分析处理,得到第一故障根因为所述目标故障根因。
7.根据权利要求6所述的故障根因确定方法,其特征在于,所述将所述扩展特征信息输入故障根因定位模型中进行故障根因分析处理,得到发生所述故障的目标故障根因,包括:
将所述扩展特征信息输入所述故障根因定位模型的规则子模型中,对所述扩展特征信息之间的依赖性进行分析处理,得到第二故障根因为所述目标故障根因。
8.根据权利要求7所述的故障根因确定方法,其特征在于,所述将所述扩展特征信息输入故障根因定位模型中进行故障根因分析处理,得到发生所述故障的目标故障根因,包括:
将所述扩展特征信息输入所述故障根因定位模型的归因子模型中,对所述扩展特征信息的重要性进行分析处理,得到第三故障根因为所述目标故障根因。
9.根据权利要求8所述的故障根因确定方法,其特征在于,所述将所述扩展特征信息输入故障根因定位模型中进行故障根因分析处理,得到发生所述故障的目标故障根因,包括:
将所述扩展特征信息输入所述故障根因定位模型的图算法子模型中,对所述扩展特征信息的传递性进行分析处理,得到第四故障根因为所述目标故障根因。
10.根据权利要求9所述的故障根因确定方法,其特征在于,所述将所述扩展特征信息输入故障根因定位模型中进行故障根因分析处理,得到发生所述故障的目标故障根因,还包括:
将所述第一故障根因、所述第二故障根因、所述第三故障根因和所述第四故障根因中至少两个输入所述故障根因定位模型的确定层中进行分析处理,得到所述目标故障根因,其中,所述确定层根据所述第一故障根因、所述第二故障根因、所述第三故障根因和所述第四故障根因各自预先设定的权重,确定所述目标故障根因。
11.根据权利要求9所述的故障根因确定方法,其特征在于,所述将所述扩展特征信息输入故障根因定位模型中进行故障根因分析处理,得到发生所述故障的目标故障根因,还包括:
向所述终端设备发送所述第一故障根因、所述第二故障根因、所述第三故障根因和所述第四故障根因,所述终端设备用于显示所述第一故障根因、所述第二故障根因、所述第三故障根因和所述第四故障根因;
接收终端设备发送的运维定位故障根因,所述运维定位故障根因是所述运维人员根据所述第一故障根因、所述第二故障根因、所述第三故障根因和所述第四故障根因确定的;
根据所述运维定位故障根因、所述第一故障根因、所述第二故障根因、所述第三故障根因和所述第四故障根因确定所述目标故障根因。
12.根据权利要求1至5任一项所述的故障根因确定方法,其特征在于,所述故障根因定位模型通过以下方式训练得到:
获取多个第一训练样本,每个所述第一训练样本包括多个第一样本日志信息,其中,每个所述第一样本日志信息具有时间戳,所述第一样本日志信息包括:拓扑网络中的各个网络节点在对应时间戳的第一样本运行信息和第一样本特征属性信息;
针对每个所述第一训练样本,对所述第一样本运行信息和所述第一样本特征属性信息进行扩展,得到第一样本扩展特征信息;
获取所述第一训练样本对应的第一标签数据,所述第一标签数据表示对应第一训练样本的实际故障根因;
根据所述第一样本扩展特征信息和所述第一标签数据,训练所述故障根因定位模型。
13.一种故障根因确定装置,其特征在于,应用于服务器,所述故障根因确定装置包括:
获取模块,用于获取拓扑网络发生故障期间的多个日志信息,其中,每个所述日志信息具有时间戳,所述日志信息包括:所述拓扑网络中的各个网络节点在对应时间戳的运行信息和特征属性信息;
扩展模块,用于对所述运行信息和特征属性信息进行扩展,得到扩展特征信息,所述扩展特征信息是表达发生所述故障的本质的特征信息;
输入模块,用于将所述扩展特征信息输入故障根因定位模型中进行故障根因分析处理,得到发生所述故障的目标故障根因;
发送模块,用于向终端设备发送所述目标故障根因,以使所述终端设备向运维人员显示所述目标故障根因。
14.一种云设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至12中任一项所述的故障根因确定方法。
CN202210357852.0A 2022-04-07 2022-04-07 故障根因确定方法、装置和云设备 Active CN114490303B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210357852.0A CN114490303B (zh) 2022-04-07 2022-04-07 故障根因确定方法、装置和云设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210357852.0A CN114490303B (zh) 2022-04-07 2022-04-07 故障根因确定方法、装置和云设备

Publications (2)

Publication Number Publication Date
CN114490303A true CN114490303A (zh) 2022-05-13
CN114490303B CN114490303B (zh) 2022-07-12

Family

ID=81489086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210357852.0A Active CN114490303B (zh) 2022-04-07 2022-04-07 故障根因确定方法、装置和云设备

Country Status (1)

Country Link
CN (1) CN114490303B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024055281A1 (zh) * 2022-09-16 2024-03-21 京东方科技集团股份有限公司 异常根因分析方法及装置

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109617715A (zh) * 2018-11-27 2019-04-12 中盈优创资讯科技有限公司 网络故障诊断方法、系统
US20190165988A1 (en) * 2017-11-27 2019-05-30 Google Llc Real-time probabilistic root cause correlation of network failures
CN110855502A (zh) * 2019-11-22 2020-02-28 叶晓斌 一种基于时空分析日志的故障定因方法和系统
CN111490897A (zh) * 2020-02-27 2020-08-04 华中科技大学 一种针对复杂网络的网络故障分析方法和系统
CN111930547A (zh) * 2020-07-31 2020-11-13 中国工商银行股份有限公司 一种故障定位方法、装置及存储介质
US20200371858A1 (en) * 2018-01-19 2020-11-26 Hitachi, Ltd. Fault Predicting System and Fault Prediction Method
CN112019932A (zh) * 2020-08-27 2020-12-01 广州华多网络科技有限公司 网络故障根因定位方法、装置、计算机设备及存储介质
CN112052151A (zh) * 2020-10-09 2020-12-08 腾讯科技(深圳)有限公司 故障根因分析方法、装置、设备及存储介质
US20210019653A1 (en) * 2017-12-11 2021-01-21 Nec Corporation Failure analysis device, failure analysis method, and failure analysis program
CN112463422A (zh) * 2020-11-04 2021-03-09 鸬鹚科技(苏州)有限公司 物联网故障运维方法、装置、计算机设备及存储介质
CN112733692A (zh) * 2021-01-04 2021-04-30 润联智慧科技(西安)有限公司 基于集成混合模型的故障预测方法、装置及相关设备
CN113094198A (zh) * 2021-04-13 2021-07-09 中国工商银行股份有限公司 一种基于机器学习和文本分类的服务故障定位方法及装置
CN113098723A (zh) * 2021-06-07 2021-07-09 新华三人工智能科技有限公司 一种故障根因定位方法、装置、存储介质及设备
CN113254254A (zh) * 2021-07-14 2021-08-13 南京中兴新软件有限责任公司 系统故障的根因定位方法、装置、存储介质及电子装置
CN113328872A (zh) * 2020-02-29 2021-08-31 华为技术有限公司 故障修复方法、装置和存储介质
CN113821418A (zh) * 2021-06-24 2021-12-21 腾讯科技(深圳)有限公司 故障跟因分析方法及装置、存储介质和电子设备
US20220035694A1 (en) * 2020-08-03 2022-02-03 Palo Alto Research Center Incorporated System and method for constructing fault-augmented system model for root cause analysis of faults in manufacturing systems

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190165988A1 (en) * 2017-11-27 2019-05-30 Google Llc Real-time probabilistic root cause correlation of network failures
US20210019653A1 (en) * 2017-12-11 2021-01-21 Nec Corporation Failure analysis device, failure analysis method, and failure analysis program
US20200371858A1 (en) * 2018-01-19 2020-11-26 Hitachi, Ltd. Fault Predicting System and Fault Prediction Method
CN109617715A (zh) * 2018-11-27 2019-04-12 中盈优创资讯科技有限公司 网络故障诊断方法、系统
CN110855502A (zh) * 2019-11-22 2020-02-28 叶晓斌 一种基于时空分析日志的故障定因方法和系统
CN111490897A (zh) * 2020-02-27 2020-08-04 华中科技大学 一种针对复杂网络的网络故障分析方法和系统
EP3873033A1 (en) * 2020-02-29 2021-09-01 Huawei Technologies Co., Ltd. Fault recovery method and apparatus, and storage medium
CN113328872A (zh) * 2020-02-29 2021-08-31 华为技术有限公司 故障修复方法、装置和存储介质
CN111930547A (zh) * 2020-07-31 2020-11-13 中国工商银行股份有限公司 一种故障定位方法、装置及存储介质
US20220035694A1 (en) * 2020-08-03 2022-02-03 Palo Alto Research Center Incorporated System and method for constructing fault-augmented system model for root cause analysis of faults in manufacturing systems
CN112019932A (zh) * 2020-08-27 2020-12-01 广州华多网络科技有限公司 网络故障根因定位方法、装置、计算机设备及存储介质
CN112052151A (zh) * 2020-10-09 2020-12-08 腾讯科技(深圳)有限公司 故障根因分析方法、装置、设备及存储介质
CN112463422A (zh) * 2020-11-04 2021-03-09 鸬鹚科技(苏州)有限公司 物联网故障运维方法、装置、计算机设备及存储介质
CN112733692A (zh) * 2021-01-04 2021-04-30 润联智慧科技(西安)有限公司 基于集成混合模型的故障预测方法、装置及相关设备
CN113094198A (zh) * 2021-04-13 2021-07-09 中国工商银行股份有限公司 一种基于机器学习和文本分类的服务故障定位方法及装置
CN113098723A (zh) * 2021-06-07 2021-07-09 新华三人工智能科技有限公司 一种故障根因定位方法、装置、存储介质及设备
CN113821418A (zh) * 2021-06-24 2021-12-21 腾讯科技(深圳)有限公司 故障跟因分析方法及装置、存储介质和电子设备
CN113254254A (zh) * 2021-07-14 2021-08-13 南京中兴新软件有限责任公司 系统故障的根因定位方法、装置、存储介质及电子装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KEN BRUTON等: "Comparative analysis of the AHU InFO fault detection and diagnostic expert tool for AHUs with APAR", 《ENERGY EFFICIENCY》 *
RICHARD JARRY: "A Quantitative Causal Analysis for Network Log Data", 《2021 IEEE 45TH ANNUAL COMPUTERS, SOFTWARE, AND APPLICATIONS CONFERENCE (COMPSAC)》 *
贾统等: "基于日志数据的分布式软件系统故障诊断综述", 《软件学报》 *
闫?颖等: "基于CMDB的信息系统故障根因定位技术的研究", 《通信电源技术》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024055281A1 (zh) * 2022-09-16 2024-03-21 京东方科技集团股份有限公司 异常根因分析方法及装置

Also Published As

Publication number Publication date
CN114490303B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
KR102483025B1 (ko) 운영 유지 시스템 및 방법
US20220255817A1 (en) Machine learning-based vnf anomaly detection system and method for virtual network management
US12096232B2 (en) System, method, and apparatus for providing dynamic, prioritized spectrum management and utilization
CN109787846A (zh) 一种5g网络服务质量异常监测和预测方法及系统
Zyrianoff et al. Scalability of real-time iot-based applications for smart cities
CN116761194B (zh) 一种无线通信网络中警务协同通信优化系统及方法
CN114465874B (zh) 故障预测方法、装置、电子设备与存储介质
US11475328B2 (en) Decomposed machine learning model evaluation system
CN114358106A (zh) 系统异常检测方法、装置、计算机程序产品及电子设备
WO2023207689A1 (zh) 一种变更风险评估方法、设备及存储介质
CN115996249B (zh) 一种基于分级的数据传输方法及装置
EP3843338B1 (en) Monitoring and analyzing communications across multiple control layers of an operational technology environment
CN114490303B (zh) 故障根因确定方法、装置和云设备
CN112925964A (zh) 基于云计算服务的大数据采集方法及大数据采集服务系统
CN117792864A (zh) 一种告警处理方法、装置、存储介质及电子装置
Ryabko et al. Graph model of Fog Computing system.
CN113660687B (zh) 网络差小区处理方法、装置、设备及存储介质
US20210243069A1 (en) Alert correlating using sequence model with topology reinforcement systems and methods
CN116643937A (zh) 数据日志的图像分析
CN115037625B (zh) 网络切片处理方法、装置、电子设备及可读存储介质
CN118057327A (zh) 基于知识图谱的it系统告警数据处理方法及装置
CN116522213A (zh) 业务状态级别分类及分类模型训练方法、电子设备
Wrench et al. A rule induction approach to forecasting critical alarms in a telecommunication network
WO2022223094A1 (en) Method and network device for determining causes of network slice performance degradation in an open radio access network, o-ran
Costa et al. A three level sensor ranking method based on active perception

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant