CN111858123A - 基于有向图网络的故障根因分析方法和装置 - Google Patents

基于有向图网络的故障根因分析方法和装置 Download PDF

Info

Publication number
CN111858123A
CN111858123A CN202010747581.0A CN202010747581A CN111858123A CN 111858123 A CN111858123 A CN 111858123A CN 202010747581 A CN202010747581 A CN 202010747581A CN 111858123 A CN111858123 A CN 111858123A
Authority
CN
China
Prior art keywords
node
fault
neural network
graph
root cause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010747581.0A
Other languages
English (en)
Other versions
CN111858123B (zh
Inventor
秦浩军
郭晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202010747581.0A priority Critical patent/CN111858123B/zh
Publication of CN111858123A publication Critical patent/CN111858123A/zh
Application granted granted Critical
Publication of CN111858123B publication Critical patent/CN111858123B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Abstract

本公开提供了一种基于有向图网络的故障根因分析方法,该方法包括:根据故障事件产生的告警信息,定位所述告警信息所属的功能调用链;对告警信息所属的功能调用链进行剪枝,形成核心功能调用有向图;通过核心功能调用有向图,结合图神经网络,得到故障事件的根因节点推荐。本公开的基于有向图网络的故障根因分析方法可用于人工智能领域。本公开还提供了一种装置、一种电子设备以及一种计算机可读存储介质。

Description

基于有向图网络的故障根因分析方法和装置
技术领域
本公开涉及人工智能技术领域,特别是涉及一种基于有向图网络的故障根因分析方法和装置。
背景技术
随着信息化进程的推进,越来越多的企业建立了数据中心,以实现信息系统的集中管理。数据中心对故障告警的定义是,业务办理受到影响或生产系统正常有效运行出现异常的监控告警,一般分为一至五级生产故障事件。由于数据中心应用类别多,告警量大,业务或功能调用关系复杂,故障分析常花费大量的时间和精力。根据告警收集分析故障事件的传统方法,在筛选告警过程中,掺杂了人工提取的干扰因素,圈定了故障影响时间范围,提取出来的离散型的告警和日志信息,既不利于故障根因的快速定位,也为机器学习的效果带来了不利影响。
发明内容
本公开的一个方面提供了一种基于有向图网络的故障根因分析方法,包括:根据故障事件产生的告警信息,定位上述告警信息所属的功能调用链;对上述告警信息所属的功能调用链进行剪枝,形成核心功能调用有向图;通过上述核心功能调用有向图,结合图神经网络,得到上述故障事件的根因节点推荐。
根据本公开的实施例,上述通过上述核心功能调用有向图,结合图神经网络,得到上述故障事件的根因节点推荐包括:调取上述核心功能调用有向图的各节点的原始特征信息;将上述原始特征信息传入图神经网络,获取每个节点导致上述告警的概率值;根据上述概率值,得到故障事件的根因节点推荐。
根据本公开的实施例,上述将上述原始特征信息传入图神经网络,获取每个节点导致上述告警的概率值包括:将上述原始特征信息输入共享参数图神经网络,得到提取后的特征信息;将上述提取后的上述特征信息输入全连接神经网络进行特征分析,求出每个节点导致上述告警的概率值。
根据本公开的实施例,上述将上述原始特征信息输入共享参数图神经网络,得到提取后的特征信息包括:从共享参数图神经网络的第0层开始,计算节点在下一层的特征信息,直至得到上述节点在第n层的特征信息,作为提取后的特征信息,其中,n为共享参数图神经网络的层数。
根据本公开的实施例,计算节点在下一层的特征信息包括:将核心功能调用有向图的节点的所有邻近节点在第m层的特征信息及邻近节点对应的权重参数相乘进行加权计算,得到邻近节点的加权计算结果,其中,0≤m<n,上述权重参数通过神经网络训练得到;采用激活函数对上述加权计算结果进行特征激活,得到节点在第m+1层的特征信息。
根据本公开的实施例,上述将上述提取后的上述特征信息输入全连接神经网络进行特征分析,求出每个节点导致上述告警的概率值包括:将全部节点的提取后的特征信息后带入全连接神经网络;通过全连接神经网络将上述节点的提取后的特征信息对应到不同的故障分类,并得到上述节点对应的概率值。
根据本公开的实施例,上述根据上述概率值,得到故障事件的根因节点推荐包括:将上述概率值与预定的阈值进行比较,若上述概率值大于上述阈值,则推荐上述节点作为上述故障事件的根因节点。
根据本公开的实施例,上述根据故障事件产生的告警信息,定位该告警信息所属的功能调用链包括:确定故障时间窗口内产生告警信息的节点,通过告警信息发起故障根因分析请求,并划定故障时间窗口;在故障时间窗口内,通过产生告警信息的节点结合发生故障事件的应用功能,确定从应用功能请求源头流向请求装置的链路,作为故障所在的功能调用链。
根据本公开的实施例,上述对故障发生所在功能调用链进行剪枝包括:对功能调用链中的环路进行去除,形成有向无环图,其中上述环路为应用功能的请求源头流向请求装置的过程中至少两次经过同一节点的循环链路。
根据本公开的实施例,上述对故障发生所在功能调用链进行剪枝的方法包括:采用图的深度优先搜索算法、标签传播算法或利用知识图谱实现功能调用链的剪枝。
本公开的另一个方面提供了一种基于有向图网络的故障根因分析装置,包括:功能调用链定位模块,用于根据故障事件产生的告警信息,定位上述告警信息所属的功能调用链;核心功能调用有向图生成模块,用于对告警信息所属的功能调用链进行剪枝,形成核心功能调用有向图;图神经网络模块,用于通过上述核心功能调用有向图,结合图神经网络,得到上述故障事件的根因节点推荐。
根据本公开的实施例,上述图神经网络模块包括:特征信息调取子模块,用于调取上述核心功能调用有向图的各节点的原始特征信息;概率值求取子模块,用于将上述原始特征信息传入图神经网络,获取每个节点导致上述告警的概率值;根因节点推荐子模块,用于根据上述概率值,得到故障事件的根因节点推荐。
根据本公开的实施例,上述概率值求取子模块包括:共享图神经网络模块,用于将上述原始特征信息输入共享参数图神经网络,得到提取后的特征信息;全连接神经网络模块,用于将上述提取后的上述特征信息输入全连接神经网络进行特征分析,求出每个节点导致上述告警的概率值。
根据本公开的实施例,上述共享图神经网络模块用于从共享参数图神经网络的第0层开始,计算节点在下一层的特征信息,直至得到上述节点在第n层的特征信息,作为提取后的特征信息,其中,n为共享参数图神经网络的层数。
根据本公开的实施例,共享图神经网络模块计算节点在下一层的特征信息包括:将核心功能调用有向图的节点的所有邻近节点在第m层的特征信息及邻近节点对应的权重参数相乘进行加权计算,得到邻近节点的加权计算结果,其中,0≤m<n,上述权重参数通过神经网络训练得到;采用激活函数对上述加权计算结果进行特征激活,得到节点在第m+1层的特征信息。
根据本公开的实施例,上述全连接神经网络用于将全部节点的提取后的特征信息后带入全连接神经网络;通过全连接神经网络将上述节点的提取后的特征信息对应到不同的故障分类,并得到上述节点对应的概率值。
根据本公开的实施例,上述根因节点推荐子模块用于将上述概率值与预定的阈值进行比较,若上述概率值大于上述阈值,则推荐上述节点作为上述故障事件的根因节点。
根据本公开的实施例,上述功能调用链定位模块用于确定故障时间窗口内产生告警信息的节点,通过告警信息发起故障根因分析请求,并划定故障时间窗口;在故障时间窗口内,通过产生告警信息的节点结合发生故障事件的应用功能,确定从应用功能请求源头流向请求装置的链路,作为故障所在的功能调用链。
根据本公开的实施例,上述核心功能调用有向图生成模块用于对功能调用链中的环路进行去除,形成有向无环图,其中上述环路为应用功能的请求源头流向请求装置的过程中至少两次经过同一节点的循环链路。
根据本公开的实施例,上述核心功能调用有向图生成模块采用图的深度优先搜索算法、标签传播算法或利用知识图谱实现功能调用链的剪枝。
本公开的另一方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现本公开实施例的方法。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,上述指令在被执行时用于实现本公开实施例的方法。
本公开的另一方面提供了一种计算机程序,上述计算机程序包括计算机可执行指令,上述指令在被执行时用于实现本公开实施例的方法。
根据本公开的实施例,通过以数据中心应用功能调用链为配置基础的图数据分析,使有向图网络得到快速的收敛,从而更高效的完成故障分类和根因定位,提高运维团队的应急处置和故障排查能力。
附图说明
为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:
图1示意性示出了基于有向图网络的故障根因分析方法的、装置、设备和介质的应用场景;
图2示意性示出了根据本公开实施例的基于有向图网络的故障根因分析方法的流程图;
图3a示意性示出了根据本公开实施例图神经网络根因分析处理方法的流程图;
图3b示意性示出了根据本公开实施例图神经网络求取概率值的流程图;
图4示意性示出了根据本公开实施例的网银功能调用链的结构示意图;
图5a示意性示出了根据本公开实施例的基于有向图网络的故障根因分析装置的框图;
图5b示意性示出了根据本公开实施例的概率求取子模块的框图;
图6示意性示出了根据本公开实施例的电子设备的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。
本公开的实施例提供了一种基于有向图网络的故障根因分析方法以及能够应用该方法的装置。该方法基于应用架构抽象成功能调用链,在故障发生时,对故障发生所在功能调用链进行剪枝,形成核心功能调用有向生图,进而通过图神经网络算法智能定位故障根因。
图1示意性示出了基于有向图网络的故障根因分析方法的、装置、设备和介质的应用场景。需要注意的是,图1所示仅为可以应用本公开实施例的应用场景的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,该实施例的应用场景100例如可以包括终端设备101、102、103,网络104和Web服务器105。其中,网络104用以在终端设备101、102、103和Web服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路等等。
根据该实施例的应用场景100可以包括终端设备101、102、103,网络104和服务器105。网络104可以包括多个网关、路由器、集线器、网线等,用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与其他终端设备和服务器105进行交互,以接收或发送信息等,如发送服务请求和接收处理结果等。终端设备101、102、103可以安装有各种通讯客户端应用,例如银行类应用、政务类应用、监控类应用、网页浏览器应用、搜索类应用、办公类应用、即时通信工具、邮箱客户端、社交平台软件等应用(仅为示例)。
终端设备101、102、103包括但不限于智能手机、虚拟现实设备、增强现实设备、远程摄像头、平板电脑、膝上型便携计算机等等。
服务器105可以接收请求,并对请求进行处理。例如,服务器105可以为后台管理服务器、服务器集群等。后台管理服务器可以对接收到的服务请求、信息请求、模型管理等进行分析处理,并将处理结果(如请求的信息、处理的结果等)反馈给终端设备。
在应用场景100中,调用链是指网络通信中的终端设备101、102、103和服务器105两端的服务可以通过traceid(调用链跟踪号)、id(本节点id)、parentid(父节点id)三个信息项串联的服务调用关系,节点对应配置关联系统的应用节点。
调用链以应用场景首环节为出发点,呈现系统或服务的关联关系。采用监控告警、应用节点系统特征等非结构性数据作为节点描述,应用节点功能调用关系作为边,即节点间连接作为边。由节点和边形成的应用功能调用链形成一张图,作为算法输入,收敛节点间连接权重,从而实现根因节点推荐的任务。
需要说明的是,本公开实施例所提供的故障根因分析方法一般可以由服务器105或终端设备101、102、103执行。相应地,本公开实施例所提供的故障根因分析装置一般可以设置于服务器105或终端设备101、102、103中。本公开实施例所提供的故障根因分析方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。
应该理解,终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例基于有向图网络的故障根因分析方法的流程图。
如图2所示,该方法包括操作S210~S230。
在操作S210,根据故障事件产生的告警信息,定位所述告警信息所属的功能调用链。
其中,功能调用链是记录了网络应用服务中消息处理过程的路径、时间等信息的重要数据,一条调用链包含了从源头请求(比如前端网页请求、无线客户端请求等)到最后底层装置(比如数据库、分布式缓存等)的所有中间环节。在故障发生时,根据故障事件产生的告警信息,定位该告警内容所属的功能调用链,能够快速定位故障问题或者优化消息请求与响应间时间差等。
在本公开实施例中,根据应用逻辑(数据流、请求)架构调用关系拓扑图,包含由数据源及各中间功能层级,请求端到服务端各层节点。根据数据流和服务请求的方向性,形成应用架构有向图。数据流或请求从源头流向请求装置的链路,形成一条功能调用链。
在故障事件发生时,可能会产生单节点故障告警信息或多节点故障告警。其中,故障告警信息用于发起故障根因分析请求,并划定故障时间窗口。例如,在数据库发生异常时,数据库节点发生告警,同时向数据库发生请求的节点也会受到影响触发告警,通过多节点故障告警信息发起故障根因分析请求和指导划定故障时间窗口,进而定位发生故障的数据库所在的功能调用链。
根据本公开实施例,在故障发生时,通过具体应用功能确定数据流或请求从源头流向请求装置的链路,可以确定唯一的功能调用链。通过生成故障时间或工单触发发起故障根因分析请求,在故障时间窗口内,通过产生告警信息的节点结合发生故障事件的应用功能,确定从应用功能请求源头流向请求装置的链路,作为故障所在的功能调用链,进行故障链路提取。
在操作S220,对故障发生所在功能调用链进行剪枝,形成核心功能调用有向图。
本公开实施例中,按功能调用方向,获取功能调用链上所有节点特征信息,对功能调用链中的环路进行去除,形成有向无环图。其中所述环路为应用功能的请求源头流向请求装置的过程中至少两次经过同一节点的循环链路。调用链的剪枝操作可以采用图的深度优先搜索(Depth First Search,DFS)算法、标签传播算法或利用知识图谱实现。
示例性地,深度优先搜索的方法包括:
(1)访问节点v;
(2)依次从v的未被访问的邻接点出发,对图进行深度优先搜索;直至图中和v有路径相通的节点都被访问;
(3)若此时图中尚有节点未被访问,则从一个未被访问的节点出发,重新进行深度优先搜索,直到图中所有节点均被访问过为止。
本实施例中,对故障发生所在功能调用链进行深度优先搜索,在每一个没有被访问过的节点做深度优先搜索的过程中,如果再次访问到了之前访问的节点,则存在环,如果检测存在环,可以剪掉功能层级较少的边以达到去环的目的。当整个深度优先搜索的过程完成之后,图中的环即不存在了。在实际应用架构调用中,数据流环较多,但功能层级调用的环路并不常见,利用上述深度优先搜索算法进行剪枝,能够保证功能调用节点之间的马尔可夫性,同时不丢失功能调用层级,使网络快速收敛。
在操作S230,通过所述核心功能调用有向图,结合图神经网络,得到所述故障事件的根因节点推荐。
图3a示意性示出了根据本公开实施例图神经网络根因分析处理方法的流程图。如图3a所示,所述操作S230包括操作S231~操作S233。
在操作S231,调取所述核心功能调用有向图的各节点的原始特征信息。
本公开实施例中,各节点的原始特征信息包括其关键配置状态和性能指标。在服务器或设备运行过程中,某类配置状态的异常或性能指标临界点,都可能够导致自身或相关节点、链路的异常或服务不可用,即发生故障。通过节点的特征信息能够体现当前节点状态,将该些特征信息作为原始特征信息,用于提供图神经网络的输入。
在操作S232,将所述原始特征信息传入图神经网络,获取每个节点导致所述告警的概率值。
图3b示意性示出了根据本公开实施例图神经网络求取概率值的流程图。图神经网络包括串联的共享参数图神经网络和全连接神经网络,将核心功能调用有向图上所有节点原始特征信息输入共享参数图神经网络,进行特征信息提取;将提取后的特征信息输入全连接神经网络进行特征分析,得到故障事件根因节点推荐。其中,图神经网络求取概率值过程包括操作S2321~操作S2322。
在操作S2321,将所述原始特征信息输入共享参数图神经网络,进行特征信息提取,得到提取后的特征信息;
具体地,特征信息提取过程包括:从共享参数图神经网络的第0层开始,计算节点在下一层的特征信息,直至得到所述节点在第n层的特征信息,作为提取后的特征信息,其中,n为共享参数图神经网络的层数。其中,提取后的特征信息包括各节点的原始特征信息及节点之间的边的特征信息。
根据本公开的实施例,计算节点在下一层的特征信息的过程包括:将核心功能调用有向图的节点的所有邻近节点在第m层的特征信息及邻近节点对应的权重参数相乘进行加权计算,得到邻近节点的加权计算结果,其中,0≤m<n,所述权重参数通过神经网络训练得到;采用激活函数对所述加权计算结果进行特征激活,得到节点在第m+1层的特征信息。
示例性的,单一节点的1次特征提取表达式如下。
Figure BDA0002607359060000111
hi l+1是节点i在第1层的特征表达,
Figure BDA0002607359060000112
是相邻节点j在第0层的特征表达,cij是归一化因子,如取节点度的倒数,Ni是节点i的邻节点,包含自身,Ri是节点i的类型,
Figure BDA0002607359060000113
表示Rj类型节点的权重参数,σ表示激活函数。
共享参数图神经网络实际上是一个n层加权激活网络,共享参数是指由于调用链节点间调用关系保持恒定,所有在特征提取的过程中,相同节点间权值可进行共享,进而有效减少神经网络参数量。其中,n相当于网络中的隐层层数,其是一个超参,n的取值即网络隐层层数是根据实践中优化获得的。
在操作S2322,将所述提取后的所述特征信息输入全连接神经网络进行特征分析,求出每个节点导致所述告警的概率值。
具体地,特征分析即通过全连接神经网络对前序的共享参数图神经网络的输出进行判断,共享参数图神经网络使得节点特征和边的权重得到收敛。共享参数图神经网络输出的提取后的特征信息,将全部节点的提取后的特征信息后带入全连接神经网络,通过全连接神经网络降维映射到匹配故障分类的特征空间,将所述节点的提取后的特征信息对应到不同的故障分类,并得到所述节点对应的概率值。其中,故障分类为多种预定的故障情况,通过全连接网络可以将共享参数神经网络的输出结果对应到不同的故障情况。
为了得到节点对应的相对概率值,可以采用Softmax层作为图神经网络的输出层,从而获取多种根因节点的故障分类及取到该根因节点的概率。Softmax层将图神经网络的输出映射到0-1之间的实数,并且进行归一化,使得多根因节点的概率值之和为1,即通过Softmax函数将图神经网络的输出转化为相对概率值。
图神经网络包括共享神经网络和全连接神经网络两部分,需要通过训练进行优化。在图神经网络的执行过程中,可以利用现有的节点特征信息数据对图神经网络进行训练,在图神经网络中收敛边所在权重,获取每个根因节点导致所述告警的概率值,进而实现有效的根因定位。
在对图神经网络进行训练时,由于大量数据无法进行有效的人为标记,因此,在一实施例中,采用有效的无监督学习方式进行图神经网络的训练。具体地,将训练数据输入上述图神经网络,输出结果为shap类型的相同的m阶张量(tensor),该m阶张量是根据网络隐层数量以及结构生成的一个张量。将输出结果传入有效的聚类网络,进而实现数据分类。利用以上分类的最终结果,可为原始训练数据提供有效的分类标签,进而实现有监督训练。最终,整个图神经网络可以形成一种端到端的无监督学习方式的基于调用链的故障根因分析图神经网络。
在操作S233,根据所述概率值,得到故障事件的根因节点推荐。
根据操作S232获取的概率值,得到故障事件根因节点推荐。具体地,将所述概率值与预定的阈值进行比较,若根因节点导致所述告警的概率值大于预定的阈值,则推荐该根因节点作为所述故障事件的根因节点。示例性地,所述预定的阈值为0.25,当根因节点的概率值高于0.25时,对该根因节点进行推荐。
在一实施例中,用户在网银使用场景下,触发告警事件。此时可以根据故障事件产生的告警信息,定位该告警内容所属的网银功能调用链。图4示意性示出了根据本公开实施例的网银功能调用链的结构示意图。如图4所示,该网银功能调用链包括前端网页请求401、Web服务器402、403、应用层请求404、405、公共平台线程406、数据库407。例如,当Web服务器402发生故障影响所在WEB端的用户访问网银发生问题时,可以定位到网银功能调用链,通过采用图的深度优先搜索算法对网银功能调用链进行剪枝,其中,剪枝时环路得以去除,而平行链路可以选择保留。在上述情况下,得到核心功能调用有向图为前端网页请求401、Web服务器402、应用层404、405、公共平台线程406、数据库407。
又例如,当应用层404有连接数告警,得到核心功能调用有向图为前端网页请求401、Web服务器402、403、应用层404、公共平台线程406、数据库407。
在其他示例中,发生前端网页请求401告警,或数据库407故障的情况,核心功能调用有向图提取的结果为该网银功能调用链包括前端网页请求401、Web服务器402、403、应用层请求404、405、公共平台线程406、数据库407。
节点故障告警信息或用于发起故障根因分析请求和指导划定故障时间窗口,以便定位故障链路。示例性地,单节点告警信息向量化表示为[基础设施服务状态,操作系统状态,中间件类状态,应用类状态]。单节点的特征信息包括其关键配置状态和性能指标,具体地,单节点特征信息向量化包括服务或组件状态。示例性地,本实施例中对特征信息进行调取后,关键配置状态和性能指标百分比信息共135项,特征信息为如下向量:
{″_id″:ObjectId(″******″),″ip″:[*,*,*,*],″mw″:[1,8,0,0,0,0,0,0,0,0,0,0,0],″orac1e″:[1,0,244,2,1,7,4,0,18,43,2,2,-2],″os″:[1,950.97,27.2,0,1.2,5.4,58.7,26,59,68,0,0,0,0,1,0,0,0,0,1,7,2,0.29,0,0,0],″time″:″2020/04/1015∶05:42″,″index″:[125.98,85.74,0.0,0.0,40.24],″sto″:[0,10.66,0,18.666,0,229.33,1.91,0.01,0.08,0.08,0.08,0.08,0.07]}
通过以上单节点告警向量与特征向量的组合可以作为描述故障时刻单节点的画像。利用典型故障场景形成的多维组合特征向量,映射至故障节点,在图神经网络中收敛边所在权重,生成用于数据中心故障事件根因节点推荐的图神经网络。
图5a示意性示出了根据本公开实施例的基于有向图网络的故障根因分析装置的框图。
如图5a所示,应用于数据备份的处理装置500包括功能调用链定位模块510、核心功能调用有向图生成模块520、图神经网络模块530。该处理装置可以执行上面参考方法实施例部分描述的方法,在此不再赘述。
具体地,功能调用链定位模块510用于在故障发生时,根据故障事件产生的告警信息,定位该告警内容所属的功能调用链;核心功能调用有向图生成模块520用于对故障发生所在功能调用链进行剪枝,形成核心功能调用有向图;图神经网络模块530用于通过所述核心功能调用有向图,结合图神经网络,得到所述故障事件的根因节点推荐。
在本公开实施例中,功能调用链定位模块510根据应用逻辑(数据流、请求)架构调用关系拓扑图,包含由数据源及各中间功能层级,请求端到服务端各层节点。根据数据流和服务请求的方向性,形成应用架构有向图。数据流或请求从源头流向请求装置的链路,形成一条功能调用链。
具体的,功能调用链定位模块510通过节点故障告警信息,发起故障根因分析请求和指导划定故障时间窗口,生成故障时间以告警或工单触发,借助故障时间窗口内产生告警信息的节点,进行故障链路提取。
核心功能调用有向图生成模块520对故障发生所在功能调用链进行剪枝,形成核心功能调用有向图。本公开实施例中,核心功能调用有向图生成模块520按功能调用方向,获取功能调用链上所有节点特征信息,利用剪枝手段提取核心功能调用的有向无环图。
请再参见图5a,图神经网络模块530包括以下子模块:
特征信息调取子模块531,用于调取所述核心功能调用有向图的各节点的原始特征信息。
概率值求取子模块532,用于将所述原始特征信息传入图神经网络,获取每个节点导致所述告警的概率值。
根因节点推荐子模块533,用于根据所述概率值,得到故障事件的根因节点推荐。
本公开实施例中,各节点的特征信息包括其关键配置状态和性能指标。图神经网络模块530用于通过所述核心功能调用有向图,结合图神经网络,得到所述故障事件的根因节点推荐。
图5b示意性示出了根据本公开实施例的概率值求取子模块的框图。
如图5b所示,概率值求取子模块532包括共享参数神经网络子模块5321与全连接神经网络子模块5322。其中,共享参数图神经网络模块5321的输出连接至全连接神经网络模块5322的输入。
共享参数图神经网络模块5321将核心功能调用有向图上所有节点原始特征信息输入共享参数图神经网络,进行特征信息提取。具体地,共享参数图神经网络模块5321进行特征提取过程包括:从共享参数图神经网络的第0层开始,计算节点在下一层的特征信息,直至得到所述节点在第n层的特征信息,作为提取后的特征信息,其中,n为共享参数图神经网络的层数。
具体地,计算节点在下一层的特征信息过程包括:将核心功能调用有向图的节点的所有邻近节点在第m层的特征信息及邻近节点对应的权重参数相乘进行加权计算,得到邻近节点的加权计算结果,其中,0≤m<n,所述权重参数通过神经网络训练得到;采用激活函数对所述加权计算结果进行特征激活,得到节点在第m+1层的特征信息。
全连接神经网络模块5322将提取后的特征信息输入全连接神经网络进行特征分析,求出每个根因节点导致所述告警的概率值。
全部节点特征提取后表示为H′,将H′带入全连接神经网络模块,利用现有特征提取后的数据对图神经网络进行训练,在图神经网络中收敛边所在权重,进而实现有效的根因定位。
概率值求取模块532通过图神经网络获取每个根因节点导致所述告警的概率值后,根因节点推荐子模块533根据所述概率值,得到故障事件根因节点推荐。具体地,根因节点推荐子模块533将所述概率值与预定的阈值进行比较,若根因节点导致所述告警的概率值大于预定的阈值,则推荐该根因节点作为所述故障事件的根因节点。
本公开的实施例采用以数据中心应用调用链为配置基础的图数据分析,使网络得到快速的收敛,从而更高效的完成故障分析和根因定位,提高运维团队的应急处置和故障排查能力。
需要说明的是,装置部分的实施例方式与方法部分的实施例方式对应类似,并且所达到的技术效果也对应类似,在此不再赘述。
根据本公开的实施例的模块、单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,功能调用链定位模块510、核心功能调用有向图生成模块520、图神经网络模块530中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,功能调用链定位模块510、核心功能调用有向图生成模块520、图神经网络模块530中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,功能调用链定位模块510、核心功能调用有向图生成模块520、图神经网络模块530中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图6示意性示出了根据本公开实施例的电子设备的框图。图6示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600包括处理器610、计算机可读存储介质620。该电子设备600可以执行根据本公开实施例的方法。
具体地,处理器610例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器610还可以包括用于缓存用途的板载存储器。处理器610可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
计算机可读存储介质620,例如可以是非易失性的计算机可读存储介质,具体示例包括但不限于:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;等等。
计算机可读存储介质620可以包括计算机程序621,该计算机程序621可以包括代码/计算机可执行指令,其在由处理器610执行时使得处理器610执行根据本公开实施例的方法或其任何变形。
计算机程序621可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序621中的代码可以包括一个或多个程序模块,例如包括621A、模块621B、……。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器610执行时,使得处理器610可以执行根据本公开实施例的方法或其任何变形。
根据本公开的实施例,功能调用链定位模块510、核心功能调用有向图生成模块520、图神经网络模块530中的至少一个可以实现为参考图6描述的计算机程序模块,其在被处理器610执行时,可以实现上面描述的相应操作。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。电要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
需要说明的是,本公开基于有向图网络的故障根因分析方法和装置可用于人工智能领域,也可用于除人工智能领域之外的任意领域,本公开有向图网络的故障根因分析方法和装置的应用领域不做限定。
本领域技术人员可以理解,尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。

Claims (13)

1.一种基于有向图网络的故障根因分析方法,包括:
根据故障事件产生的告警信息,定位所述告警信息所属的功能调用链;
对所述告警信息所属的功能调用链进行剪枝,形成核心功能调用有向图;
通过所述核心功能调用有向图,结合图神经网络,得到所述故障事件的根因节点推荐。
2.根据权利要求1所述的故障根因分析方法,其中,所述通过所述核心功能调用有向图,结合图神经网络,得到所述故障事件的根因节点推荐包括:
调取所述核心功能调用有向图的各节点的原始特征信息;
将所述原始特征信息传入图神经网络,获取每个节点导致所述告警的概率值;
根据所述概率值,得到故障事件的根因节点推荐。
3.根据权利要求2所述的故障根因分析方法,其中,所述将所述原始特征信息传入图神经网络,获取每个节点导致所述告警的概率值包括:
将所述原始特征信息输入共享参数图神经网络,得到提取后的特征信息;
将所述提取后的所述特征信息输入全连接神经网络进行特征分析,求出每个节点导致所述告警的概率值。
4.根据权利要求3所述的故障根因分析方法,其中,所述将所述原始特征信息输入共享参数图神经网络,得到提取后的特征信息包括:
从共享参数图神经网络的第0层开始,计算节点在下一层的特征信息,直至得到所述节点在第n层的特征信息,作为提取后的特征信息,其中,n为共享参数图神经网络的层数。
5.根据权利要求4所述的故障根因分析方法,其中,计算节点在下一层的特征信息包括:
将核心功能调用有向图的节点的所有邻近节点在第m层的特征信息及邻近节点对应的权重参数相乘进行加权计算,得到邻近节点的加权计算结果,其中,0≤m<n,所述权重参数通过神经网络训练得到;
采用激活函数对所述加权计算结果进行特征激活,得到节点在第m+1层的特征信息。
6.根据权利要求3所述的故障根因分析方法,其中,所述将所述提取后的所述特征信息输入全连接神经网络进行特征分析,求出每个节点导致所述告警的概率值包括:
将全部节点的提取后的特征信息后带入全连接神经网络;
通过全连接神经网络将所述节点的提取后的特征信息对应到不同的故障分类,并得到所述节点对应的概率值。
7.根据权利要求2所述的故障根因分析方法,其中,所述根据所述概率值,得到故障事件的根因节点推荐包括:
将所述概率值与预定的阈值进行比较,若所述概率值大于所述阈值,则推荐所述节点作为所述故障事件的根因节点。
8.根据权利要求1所述的故障根因分析方法,其中,所述根据故障事件产生的告警信息,定位该告警信息所属的功能调用链包括:
确定故障时间窗口内产生告警信息的节点,通过告警信息发起故障根因分析请求,并划定故障时间窗口,
在故障时间窗口内,通过产生告警信息的节点结合发生故障事件的应用功能,确定从应用功能请求源头流向请求装置的链路,作为故障所在的功能调用链。
9.根据权利要求1所述的故障根因分析方法,其中,所述对故障发生所在功能调用链进行剪枝包括:对功能调用链中的环路进行去除,形成有向无环图,其中所述环路为应用功能的请求源头流向请求装置的过程中至少两次经过同一节点的循环链路。
10.根据权利要求1所述的故障根因分析方法,其中,所述对故障发生所在功能调用链进行剪枝的方法包括:采用图的深度优先搜索算法、标签传播算法或利用知识图谱实现功能调用链的剪枝。
11.一种基于有向图网络的故障根因分析装置,包括:
功能调用链定位模块,用于根据故障事件产生的告警信息,定位所述告警信息所属的功能调用链;
核心功能调用有向图生成模块,用于对告警信息所属的功能调用链进行剪枝,形成核心功能调用有向图;
图神经网络模块,用于通过所述核心功能调用有向图,结合图神经网络,得到所述故障事件的根因节点推荐。
12.一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至10中任一项所述的方法。
13.一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现权利要求1至10中任一项所述的方法。
CN202010747581.0A 2020-07-29 2020-07-29 基于有向图网络的故障根因分析方法和装置 Active CN111858123B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010747581.0A CN111858123B (zh) 2020-07-29 2020-07-29 基于有向图网络的故障根因分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010747581.0A CN111858123B (zh) 2020-07-29 2020-07-29 基于有向图网络的故障根因分析方法和装置

Publications (2)

Publication Number Publication Date
CN111858123A true CN111858123A (zh) 2020-10-30
CN111858123B CN111858123B (zh) 2023-09-26

Family

ID=72945590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010747581.0A Active CN111858123B (zh) 2020-07-29 2020-07-29 基于有向图网络的故障根因分析方法和装置

Country Status (1)

Country Link
CN (1) CN111858123B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446341A (zh) * 2020-12-07 2021-03-05 北京明略软件系统有限公司 告警事件识别方法、系统、电子设备及存储介质
CN113032238A (zh) * 2021-05-25 2021-06-25 南昌惠联网络技术有限公司 基于应用知识图谱的实时根因分析方法
CN113220946A (zh) * 2021-05-25 2021-08-06 平安付科技服务有限公司 基于强化学习的故障链路搜索方法、装置、设备及介质
CN113360722A (zh) * 2021-06-25 2021-09-07 杭州优云软件有限公司 一种基于多维数据图谱的故障根因定位方法及系统
CN113656658A (zh) * 2021-08-13 2021-11-16 上海飞机制造有限公司 一种故障原因确定方法、装置、设备及存储介质
CN113793128A (zh) * 2021-09-18 2021-12-14 北京京东振世信息技术有限公司 业务故障原因信息生成方法、装置、设备和计算机可读介质
CN113821413A (zh) * 2021-09-27 2021-12-21 中国建设银行股份有限公司 告警分析方法及装置
CN114462600A (zh) * 2022-04-11 2022-05-10 支付宝(杭州)信息技术有限公司 一种有向图对应的图神经网络的训练方法及装置
CN114721860A (zh) * 2022-05-23 2022-07-08 北京航空航天大学 一种基于图神经网络的微服务系统故障定位方法
CN114785674A (zh) * 2022-04-27 2022-07-22 中国电信股份有限公司 故障定位方法及装置、计算机可存储介质
CN115022153A (zh) * 2022-06-07 2022-09-06 中国工商银行股份有限公司 故障根因分析方法、装置、设备和存储介质
CN115794122A (zh) * 2023-02-13 2023-03-14 深圳开源互联网安全技术有限公司 函数调用链递归解除方法、装置、系统与可读存储介质
CN116661426A (zh) * 2023-07-14 2023-08-29 创域智能(常熟)网联科技有限公司 传感器运行控制系统的异常ai诊断方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110460460A (zh) * 2019-07-08 2019-11-15 阿里巴巴集团控股有限公司 业务链路故障定位方法、装置及设备
CN110493042A (zh) * 2019-08-16 2019-11-22 中国联合网络通信集团有限公司 故障诊断方法、装置及服务器
CN110493025A (zh) * 2018-05-15 2019-11-22 中国移动通信集团浙江有限公司 一种基于多层有向图的故障根因诊断的方法及装置
CN110609759A (zh) * 2018-06-15 2019-12-24 华为技术有限公司 一种故障根因分析的方法及装置
CN110825549A (zh) * 2019-11-06 2020-02-21 国家电网有限公司信息通信分公司 一种信息系统故障根因的确定方法、装置、设备及存储介质
CN110855503A (zh) * 2019-11-22 2020-02-28 叶晓斌 一种基于网络协议层级依赖关系的故障定因方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110493025A (zh) * 2018-05-15 2019-11-22 中国移动通信集团浙江有限公司 一种基于多层有向图的故障根因诊断的方法及装置
CN110609759A (zh) * 2018-06-15 2019-12-24 华为技术有限公司 一种故障根因分析的方法及装置
CN110460460A (zh) * 2019-07-08 2019-11-15 阿里巴巴集团控股有限公司 业务链路故障定位方法、装置及设备
CN110493042A (zh) * 2019-08-16 2019-11-22 中国联合网络通信集团有限公司 故障诊断方法、装置及服务器
CN110825549A (zh) * 2019-11-06 2020-02-21 国家电网有限公司信息通信分公司 一种信息系统故障根因的确定方法、装置、设备及存储介质
CN110855503A (zh) * 2019-11-22 2020-02-28 叶晓斌 一种基于网络协议层级依赖关系的故障定因方法和系统

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446341A (zh) * 2020-12-07 2021-03-05 北京明略软件系统有限公司 告警事件识别方法、系统、电子设备及存储介质
CN113032238A (zh) * 2021-05-25 2021-06-25 南昌惠联网络技术有限公司 基于应用知识图谱的实时根因分析方法
CN113220946A (zh) * 2021-05-25 2021-08-06 平安付科技服务有限公司 基于强化学习的故障链路搜索方法、装置、设备及介质
CN113220946B (zh) * 2021-05-25 2023-02-14 平安付科技服务有限公司 基于强化学习的故障链路搜索方法、装置、设备及介质
CN113360722B (zh) * 2021-06-25 2022-08-09 杭州优云软件有限公司 一种基于多维数据图谱的故障根因定位方法及系统
CN113360722A (zh) * 2021-06-25 2021-09-07 杭州优云软件有限公司 一种基于多维数据图谱的故障根因定位方法及系统
CN113656658A (zh) * 2021-08-13 2021-11-16 上海飞机制造有限公司 一种故障原因确定方法、装置、设备及存储介质
CN113656658B (zh) * 2021-08-13 2023-07-21 上海飞机制造有限公司 一种故障原因确定方法、装置、设备及存储介质
CN113793128A (zh) * 2021-09-18 2021-12-14 北京京东振世信息技术有限公司 业务故障原因信息生成方法、装置、设备和计算机可读介质
CN113821413A (zh) * 2021-09-27 2021-12-21 中国建设银行股份有限公司 告警分析方法及装置
CN114462600B (zh) * 2022-04-11 2022-07-05 支付宝(杭州)信息技术有限公司 一种有向图对应的图神经网络的训练方法及装置
CN114462600A (zh) * 2022-04-11 2022-05-10 支付宝(杭州)信息技术有限公司 一种有向图对应的图神经网络的训练方法及装置
CN114785674A (zh) * 2022-04-27 2022-07-22 中国电信股份有限公司 故障定位方法及装置、计算机可存储介质
CN114721860A (zh) * 2022-05-23 2022-07-08 北京航空航天大学 一种基于图神经网络的微服务系统故障定位方法
CN115022153A (zh) * 2022-06-07 2022-09-06 中国工商银行股份有限公司 故障根因分析方法、装置、设备和存储介质
CN115022153B (zh) * 2022-06-07 2024-04-23 中国工商银行股份有限公司 故障根因分析方法、装置、设备和存储介质
CN115794122A (zh) * 2023-02-13 2023-03-14 深圳开源互联网安全技术有限公司 函数调用链递归解除方法、装置、系统与可读存储介质
CN116661426A (zh) * 2023-07-14 2023-08-29 创域智能(常熟)网联科技有限公司 传感器运行控制系统的异常ai诊断方法及系统
CN116661426B (zh) * 2023-07-14 2023-09-22 创域智能(常熟)网联科技有限公司 传感器运行控制系统的异常ai诊断方法及系统

Also Published As

Publication number Publication date
CN111858123B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN111858123B (zh) 基于有向图网络的故障根因分析方法和装置
US20210019674A1 (en) Risk profiling and rating of extended relationships using ontological databases
EP3471007B1 (en) Methods and apparatus for analyzing sequences of application programming interface traffic to identify potential malicious actions
US20210374499A1 (en) Iterative deep graph learning for graph neural networks
US20210256355A1 (en) Evolving graph convolutional networks for dynamic graphs
Al-Masri et al. Discovering the best web service: A neural network-based solution
US9053436B2 (en) Methods and system for providing simultaneous multi-task ensemble learning
US9317829B2 (en) Diagnosing incidents for information technology service management
US20220078188A1 (en) Change Monitoring and Detection for a Cloud Computing Environment
US20220255817A1 (en) Machine learning-based vnf anomaly detection system and method for virtual network management
US9886247B2 (en) Using an application programming interface (API) data structure in recommending an API composite
US11947439B2 (en) Learning from distributed traces for anomaly detection and root cause analysis
US11379296B2 (en) Intelligent responding to error screen associated errors
US11810000B2 (en) Systems and methods for expanding data classification using synthetic data generation in machine learning models
JP2023551029A (ja) プロアクティブ異常検出
Dou et al. Pc 2 a: predicting collective contextual anomalies via lstm with deep generative model
Guo et al. An adaptive deep transfer learning model for rumor detection without sufficient identified rumors
CN115185736B (zh) 基于图卷积神经网络的微服务调用链异常检测方法及装置
CN112817785A (zh) 一种微服务系统的异常检测方法及装置
US20220215248A1 (en) Method and system for machine learning using a derived machine learning blueprint
WO2022018626A1 (en) Cross-environment event correlation using domain-space exploration and machine learning techniques
Wang et al. Concept drift-based runtime reliability anomaly detection for edge services adaptation
US20210012225A1 (en) Machine learning based ranking of private distributed data, models and compute resources
Mehetrey et al. Collaborative ensemble-learning based intrusion detection systems for clouds
Song et al. Hierarchical online problem classification for IT support services

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant