CN111897673A - 运维故障根因识别方法、装置、计算机设备和存储介质 - Google Patents

运维故障根因识别方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111897673A
CN111897673A CN202010762957.5A CN202010762957A CN111897673A CN 111897673 A CN111897673 A CN 111897673A CN 202010762957 A CN202010762957 A CN 202010762957A CN 111897673 A CN111897673 A CN 111897673A
Authority
CN
China
Prior art keywords
alarm
root cause
cause identification
node
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010762957.5A
Other languages
English (en)
Other versions
CN111897673B (zh
Inventor
陈桢博
郑立颖
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010762957.5A priority Critical patent/CN111897673B/zh
Priority to PCT/CN2020/118527 priority patent/WO2021139252A1/zh
Publication of CN111897673A publication Critical patent/CN111897673A/zh
Application granted granted Critical
Publication of CN111897673B publication Critical patent/CN111897673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请涉及运维技术领域,提供了一种运维故障根因识别方法、装置、计算机设备和存储介质,所述方法包括:获取多个告警对象;利用预设的聚类算法对多个告警对象进行聚类计算,将多个告警对象聚类为若干个告警簇;通过预设的根因识别模型对若干个告警簇进行根因分析,得到各个告警簇中各个告警对象为根因的概率值;其中,根因识别模型基于深度神经网络模型训练而成;选择每个告警簇中最大概率值对应的告警对象作为该告警簇的根因。本申请提供的运维故障根因识别方法可运用在区块链领域中,将训练好的根因识别模型存储在区块链网络中,通过本申请提供的运维故障根因识别方法、装置、计算机设备和存储介质,能够准确的对运维故障做根因分析。

Description

运维故障根因识别方法、装置、计算机设备和存储介质
技术领域
本申请涉及运维技术领域,特别涉及一种运维故障根因识别方法、装置、计算机设备和存储介质。
背景技术
运维系统中,某告警对象所产生的故障可能引发多个对象的告警,而每一时刻可能存在多个对象故障所引发的大量关联告警。对于运维工作人员而言,告警是故障的表现,而具体故障则需要通过告警进行分析判断。由于告警的频发性与关联性,工作人员需要时刻关注运维系统,对某时刻的告警对象进行切分以归纳为不同的问题,并对于每一个问题进行根因分析以判定故障对象。
目前大多采用两种方法进行根因分析,一种方法是通过规则实现,另一种方法是通过监督学习方法实现。第一种方法基于对象调用链路与规则以将多个告警对象归纳为不同的簇,并对每个簇按照规则进行根因概率排序(排序步骤也可通过监督学习方法实现)。第二种方法通过根因标注,可通过GCN图卷积神经网络等图算法直接标注根因。第一种方法通过规则聚类,不仅缺少灵活性而且常常需要运维专家根据实际情况进行更改,影响了后续根因的判断。第二种方法通过GCN直接进行根因识别效率较高,但是由于将告警聚类与根因识别整合为一个步骤,存在部分错误预测。
发明内容
本申请的主要目的为提供一种运维故障根因识别方法、装置、计算机设备和存储介质,解决根因识别不准确的问题。
为实现上述目的,本申请提供了一种运维故障根因识别方法,包括以下步骤:
获取多个告警对象;
利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇;
通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值;其中,所述根因识别模型基于深度神经网络模型训练而成;
选择每个所述告警簇中最大概率值对应的所述告警对象作为该告警簇的根因。
进一步地,所述利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇的步骤,包括:
获取多个所述告警对象之间的相互调用链图谱;
提取所述相互调用链图谱中不存在调用关联的节点,保留所述相互调用链图谱中的剩余关联节点;
采用图算法Node2Vec对所述剩余关联节点进行节点编码;
根据所述节点编码进行聚类,得到若干个所述告警簇。
进一步地,所述根据所述节点编码进行聚类,得到若干个所述告警簇的步骤,包括:
获取所述剩余关联节点中任一节点的直接和/或间接关联的节点集合;
计算所述节点集合中各个所述节点之间的相似度;
根据所述相似度进行分类。
进一步地,所述通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值的步骤,包括:
获取各个所述告警簇中所述告警对象的自有特征和节点编码特征的向量;
将所述自有特征和节点编码特征的向量进行拼接得到目标向量;
将所述目标向量输入至所述根因识别模型进行计算,得到所述目标向量所对应的告警对象为根因的概率。
进一步地,所述将所述目标向量输入至所述根因识别模型进行计算,得到所述目标向量所对应的告警对象为根因的概率的步骤,包括:
根据所述目标向量创建第一矩阵;
将所述第一矩阵输入至Transformer层进行迭代计算,输出第二矩阵;
将所述第二矩阵降维到预设维度,通过softmax计算所述目标向量所对应的告警对象为根因的概率并输出。
进一步地,所述Transformer层包括3个全连接层,分别为第一全连接层、第二全连接层和第三全连接层;
所述将所述第一矩阵输入至Transformer层进行迭代计算,输出第二矩阵的步骤中其中一次迭代的步骤,包括:
将前一次迭代计算的输出分别输入到所述第一全连接层、第二全连接层和第三全连接层;
将所述第一全连接层的输出与所述第二全连接层的输出相乘,得到第一目标输出;
将所述第一目标输出与所述第三全连接层的输出相乘,得到第二目标输出,将所述第二目标输出作为下一次迭代计算的输入。
进一步地,所述采用图算法Node2Vec对所述剩余关联节点进行节点编码的步骤,包括:
调用所述图算法Node2Vec的目标函数,所述图算法Node2Vec的目标函数为:
Figure BDA0002613585540000031
Figure BDA0002613585540000032
其中,所述V为节点集合,N为邻接节点;
通过所述目标函数对所述剩余关联节点进行编码。
本申请还提供一种运维故障根因识别装置,包括:
获取单元,用于获取多个告警对象;
聚类单元,用于利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇;
分析单元,用于通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值;其中,所述根因识别模型基于深度神经网络模型训练而成;
选择单元,用于选择每个所述告警簇中最大概率值对应的所述告警对象作为该告警簇的根因。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的运维故障根因识别方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的运维故障根因识别方法的步骤。
本申请提供的运维故障根因识别、装置、计算机设备和存储介质,通过将多个告警对象分为不同的告警簇,再通过根因识别模型分析每个告警簇的根因,根因识别模型通过深度神经网络模型训练而成,通过机器学习的方法使得根因分析具有更高的灵活性与准确性。对于运维系统,本申请提供的方案能够将每个告警簇中的根因快速找出并展示出来,使得运维人员根据展示出来的根因进行快速分析与排查,从而能够在故障发生后快速确定问题根源并进行修复,保证了相关服务的稳定性。
附图说明
图1是本申请一实施例中运维故障根因识别方法的步骤示意图;
图2是本申请一实施例中运维故障根因识别装置的结构框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请提供一种运维故障根因识别方法,包括:
步骤S1,获取多个告警对象;
步骤S2,利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇;
步骤S3,通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值;其中,所述根因识别模型基于深度神经网络模型训练而成;
步骤S4,选择每个告警簇中最大概率值对应的所述告警对象作为该告警簇的根因,能够较为准确的识别出每个告警簇的根因。
本实施例中,获取多个告警对象,所述告警对象可为发出告警信息的设备,设备之间相互关联,一个设备发生故障产生的告警可能会引发其他对象的告警。将多个告警对象通过预设聚类算法进行聚类,每个告警簇中各自的告警对象之间相似度较高。根因识别模型由深度神经网络模型训练而成,训练好的根因识别模型可存储在区块链网络中,通过根因识别模型对每个告警簇中的告警对象计算其为根因的概率,当一个告警簇中所有告警对象为根因的概率计算完毕,选择概率值最高的那个告警对象作为该告警簇的根因。
本实施例将多个告警对象分为不同的告警簇,再分析每个告警簇的根因,同时通过机器学习的方法使得根因分析具有更高的灵活性与准确性。对于运维系统,本实施例提供的方案能够将每个告警簇中的根因快速找出并展示出来,使得运维人员根据展示出来的根因进行快速分析与排查,从而能够在故障发生后快速确定问题根源并进行修复,保证了相关服务的稳定性。
在一实施例中,所述利用预设的聚类算法对多个所述告警信息进行聚类计算,将多个所述告警对象聚类为若干个告警簇的步骤S2,包括:
步骤S21,获取多个所述告警对象之间的相互调用链图谱;
步骤S22,提取所述相互调用链图谱中不存在调用关联的节点,保留所述相互调用链图谱中的剩余关联节点;
步骤S23,采用图算法Node2Vec对所述剩余关联节点进行节点编码;
步骤S24,根据所述节点编码进行聚类,得到若干个所述告警簇。
本实施例中,如上述步骤S21所述,有些告警对象之间是独立运作的,有些告警对象之间存在调用关联,所有告警对象可以形成一个相互调用链图谱,将每个告警对象作为一个节点,将存在调用关联的告警对象之间通过线段连接起来,形成相互调用链图谱,独立运作的告警对象可作为独立的孤点存在。
如上述步骤S22所述,将相互调用链图谱中的独立运作的告警对象提取出来,保留存在调用关联的告警对象,在相互调用链图谱中作为剩余关联节点。当告警对象是独立运作时,其因故障产生的告警不会影响到其他对象,因此可自己作为自己的根因。
如上述步骤S23所述,采用图算法Node2Vec对所有剩余关联节点进行节点编码,编码成一个n维的向量。图算法Node2Vec能够生成随机游走,对随机游走采样得到节点和上下文的组合,然后用处理词向量的方法对这样的组合建模得到剩余关联节点的表示。
如上述步骤S24所述,根据各个关联节点的节点编码进行聚类,将多个告警对象聚类为若干个告警簇,本申请采用图算法Node2Vec对剩余关联节点进行节点编码,能够更加准确的对各个关联节点进行向量表示,更有利于后续的聚类和根因分析。
在一实施例中,所述根据所述节点编码进行聚类,得到若干个所述告警簇的步骤S24,包括:
步骤S241,获取所述剩余关联节点中任一节点的直接和/或间接关联的节点集合;
步骤S242,计算所述节点集合中各个所述节点之间的相似度;
步骤S243,根据所述相似度进行分类。
本实施例中,剩余关联节点中各个节点存在与其直接和/或间接关联的节点,将该节点直接和/或间接关联的节点提取出来组成节点集合,计算该节点集合中两两节点之间的相似度,将相似度大于预设相似度阀值的作为一个告警簇。
在另一实施例中,可选用其他聚类算法进行聚类,具体的,可采用K-means、K-中心点等聚类算法进行聚类,下面以K-means算法为例,首先可采用手肘法确定最佳聚类数K,从多个节点编码中任意选择K个节点编码作为初始聚类中心;而对于剩下其它节点编码,则根据节点编码与这些初始聚类中心的距离,分别将它们分配给与其最相似的聚类,即每个聚类中心所代表的组;不断重复这一过程直到标准测度函数(一般可采用均方差作为标准测度函数)开始收敛为止,得到若干个告警簇。
在一实施例中,所述通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值的步骤S3,包括:
步骤S31,获取各个所述告警簇中所述告警对象的自有特征和节点编码特征的向量;
步骤S32,将所述自有特征和节点编码特征的向量进行拼接得到目标向量;
步骤S33,将所述目标向量输入至所述根因识别模型进行计算,得到所述目标向量所对应的告警对象为根因的概率。
本实施例中,如上述步骤S31所述,所述告警对象的自有特征包括节点的告警频次、节点的调用链路层级等。
如上述步骤S32-S33所述,将节点的自有特征和节点编码特征的向量进行拼接,例如自有特征的向量为一个10维的向量,节点编码特征的向量为一个10维的向量,将两个向量拼接得到一个20维的向量,即目标向量,将目标向量输入到根因识别模型中进行计算,得到目标向量所对应的告警对象为根因的概率,根因识别模型根据深度神经网络训练而成,具体的,对深度神经网络进行监督学习训练,损失函数为交叉熵,交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度,在机器学习中就表示为真实概率分布与预测概率分布之间的差异。交叉熵的值越小,模型预测效果就越好。本实施例通过监督学习,利用一组已知告警对象为根因的概率的样本调整根因识别模型的参数,使其达到能准确计算出告警对象为根因的概率,本实施例提供的根因识别模型能够更加准确的对每个告警簇的根因进行识别。
在一实施例中,所述将所述目标向量输入至所述根因识别模型进行计算,得到所述目标向量所对应的告警对象为根因的概率的步骤S33,包括:
步骤S331,根据所述目标向量创建第一矩阵;
步骤S332,将所述第一矩阵输入至Transformer层进行迭代计算,输出第二矩阵;
步骤S333,将所述第二矩阵降维到预设维度,通过softmax计算所述目标向量所对应的告警对象为根因的概率并输出。
本实施例中,如上述步骤S331所述,每个告警簇存在若干个告警对象,每个告警簇中的告警对象数量不固定,设定上限数量为n;每个告警对象可以获得节点自有特征与节点编码特征的向量,拼接得到一个e维向量,建立一个e*n的第一矩阵X,如果告警簇对象数量不足n,则将告警对象补充至n,并将补充的告警对象的特征置0,并记录mask向量(1表示真实告警对象,0表示补充告警对象);
如上述步骤S332所述,将第一矩阵输入至Transformer层进行迭代计算,得到一个d*n的矩阵,其中,d可由用户自行设置。
如上述步骤S333所述,通过叠加全连接层输出层,将d*n的矩阵降维到1*n,并通过softmax计算,由softmax计算所得的概率值,便是每一个告警对象作为根因的预测概率值。需要注意的是,现实中根因识别样本较少,因此不能训练得到鲁棒性较高的深度学习模型,因此本方案将同一个告警簇,通过随机删除其中少量对象的形式构造多个样本代入至模型训练,从而提升模型的鲁棒性。
在一实施例中,所述Transformer层包括3个全连接层,分别为第一全连接层、第二全连接层和第三全连接层;
所述将所述第一矩阵输入至Transformer层进行迭代计算,输出第二矩阵的步骤S332中其中一次迭代的步骤,包括:
步骤S3321,将前一次迭代计算的输出分别输入到所述第一全连接层、第二全连接层和第三全连接层;
步骤S3322,将所述第一全连接层的输出与所述第二全连接层的输出相乘,得到第一目标输出;
步骤S3323,将所述第一目标输出与所述第三全连接层的输出相乘,得到第二目标输出,将所述第二目标输出作为下一次迭代计算的输入。
本实施例中,Transformer层包括3个全连接层,当告警簇对象不足时,会进行补充,存在mask向量,将第一全连接层的输出和第二全连接层的输出相乘得到第一目标输出,再通过softmax计算第一目标输出与第二全连接层的输出相乘,mask的应用方式是将0对应的元素设置负无穷,这样不会对真实对象的节点编码形成影响,由此可准确的计算出告警对象为根因的概率。当第一次进行迭代计算时,将第一矩阵分别输入到三个全连接层中进行计算。
在一实施例中,所述采用图算法Node2Vec对所述剩余关联节点进行节点编码的步骤S23,包括:
步骤S231,调用所述图算法Node2Vec的目标函数,所述图算法Node2Vec的目标函数为:
Figure BDA0002613585540000091
Figure BDA0002613585540000092
其中,所述V为节点集合,N为邻接节点;
步骤S232,通过所述目标函数对所述剩余关联节点进行编码。
本实施例中,V为节点集合,即所有剩余关联节点的集合。编码过程中,图算法Node2Vec通过最大化给定f(u)条件下的邻近节点概率,对整个剩余关联节点的调用链图谱进行编码,即将每个节点编码为一个n维向量。需要注意的是,由于拓扑图是动态的,因此系统上线后需要实时更新这一编码矩阵。
本申请提供的运维故障根因识别方法可运用在区块链领域中,将训练好的根因识别模型存储在区块链网络中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
参见图2,本申请还提供一种运维故障根因识别装置,包括:
获取单元10,用于获取多个告警对象;
聚类单元20,用于利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇;
分析单元30,用于通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值;其中,所述根因识别模型基于深度神经网络模型训练而成;
选择单元40,用于选择每个所述告警簇中最大概率值对应的所述告警对象作为该告警簇的根因。
在一实施例中,所述聚类单元20,包括:
第一获取子单元,用于获取多个所述告警对象之间的相互调用链图谱;
提取子单元,用于提取所述相互调用链图谱中不存在调用关联的节点,保留所述相互调用链图谱中的剩余关联节点;
编码子单元,用于采用图算法Node2Vec对所述剩余关联节点进行节点编码;
聚类子单元,用于根据所述节点编码进行聚类,得到若干个所述告警簇。
在一实施例中,所述聚类子单元,包括:
获取模块,用于获取所述剩余关联节点中任一节点的直接和/或间接关联的节点集合;
第一计算模块,用于计算所述节点集合中各个所述节点之间的相似度;
分类模块,用于根据所述相似度进行分类。
在一实施例中,所述分析单元30,包括:
第二获取子单元,用于获取各个所述告警簇中所述告警对象的自有特征和节点编码特征的向量;
拼接子单元,用于将所述自有特征和节点编码特征的向量进行拼接得到目标向量;
计算子单元,用于将所述目标向量输入至所述根因识别模型进行计算,得到所述目标向量所对应的告警对象为根因的概率。
在一实施例中,所述计算子单元,包括:
创建模块,用于根据所述目标向量创建第一矩阵;
迭代计算模块,用于将所述第一矩阵输入至Transformer层进行迭代计算,输出第二矩阵;
第二计算模块,用于将所述第二矩阵降维到预设维度,通过softmax计算所述目标向量所对应的告警对象为根因的概率并输出。
在一实施例中,所迭代计算模块,包括:
输入子模块,用于将前一次迭代计算的输出分别输入到所述第一全连接层、第二全连接层和第三全连接层;其中,所述Transformer层包括3个全连接层,分别为第一全连接层、第二全连接层和第三全连接层;
第一目标输出子模块,用于将所述第一全连接层的输出与所述第二全连接层的输出相乘,得到第一目标输出;
第二目标输出子模块,用于将所述第一目标输出与所述第三全连接层的输出相乘,得到第二目标输出,将所述第二目标输出作为下一次迭代计算的输入。
在一实施例中,所述编码子单元,包括:
调用模块,用于调用所述图算法Node2Vec的目标函数,所述图算法Node2Vec的目标函数为:
Figure BDA0002613585540000111
Figure BDA0002613585540000112
其中,所述V为节点集合,N为邻接节点;
编码模块,用于通过所述目标函数对所述剩余关联节点进行编码。
在本实施例中,上述各个单元、子单元、模块的具体实现请参照上述方法实施例中所述,在此不再进行赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储告警对象数据、根因识别模型数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种运维故障根因识别方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种运维故障根因识别方法。
综上所述,为本申请实施例中提供的运维故障根因识别、装置、计算机设备和存储介质,获取多个告警对象;利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇;通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值;其中,所述根因识别模型基于深度神经网络模型训练而成;选择每个所述告警簇中最大概率值对应的所述告警对象作为该告警簇的根因。本申请通过将多个告警对象分为不同的告警簇,再分析每个告警簇的根因,同时通过机器学习的方法使得根因分析具有更高的灵活性与准确性。对于运维系统,本申请提供的方案能够将每个告警簇中的根因快速找出并展示出来,使得运维人员根据展示出来的根因进行快速分析与排查,从而能够在故障发生后快速确定问题根源并进行修复,保证了相关服务的稳定性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种运维故障根因识别方法,其特征在于,包括以下步骤:
获取多个告警对象;
利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇;
通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值;其中,所述根因识别模型基于深度神经网络模型训练而成;
选择每个所述告警簇中最大概率值对应的所述告警对象作为该告警簇的根因。
2.根据权利要求1所述的运维故障根因识别方法,其特征在于,所述利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇的步骤,包括:
获取多个所述告警对象之间的相互调用链图谱;
提取所述相互调用链图谱中不存在调用关联的节点,保留所述相互调用链图谱中的剩余关联节点;
采用图算法Node2Vec对所述剩余关联节点进行节点编码;
根据所述节点编码进行聚类,得到若干个所述告警簇。
3.根据权利要求2所述的运维故障根因识别方法,其特征在于,所述根据所述节点编码进行聚类,得到若干个所述告警簇的步骤,包括:
获取所述剩余关联节点中任一节点的直接和/或间接关联的节点集合;
计算所述节点集合中各个所述节点之间的相似度;
根据所述相似度进行分类。
4.根据权利要求2所述的运维故障根因识别方法,其特征在于,所述通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值的步骤,包括:
获取各个所述告警簇中所述告警对象的自有特征和节点编码特征的向量;
将所述自有特征和节点编码特征的向量进行拼接得到目标向量;
将所述目标向量输入至所述根因识别模型进行计算,得到所述目标向量所对应的告警对象为根因的概率。
5.根据权利要求4所述的运维故障根因识别方法,其特征在于,所述将所述目标向量输入至所述根因识别模型进行计算,得到所述目标向量所对应的告警对象为根因的概率的步骤,包括:
根据所述目标向量创建第一矩阵;
将所述第一矩阵输入至Transformer层进行迭代计算,输出第二矩阵;
将所述第二矩阵降维到预设维度,通过softmax计算所述目标向量所对应的告警对象为根因的概率并输出。
6.根据权利要求5所述的运维故障根因识别方法,其特征在于,所述Transformer层包括3个全连接层,分别为第一全连接层、第二全连接层和第三全连接层;
所述将所述第一矩阵输入至Transformer层进行迭代计算,输出第二矩阵的步骤中其中一次迭代的步骤,包括:
将前一次迭代计算的输出分别输入到所述第一全连接层、第二全连接层和第三全连接层;
将所述第一全连接层的输出与所述第二全连接层的输出相乘,得到第一目标输出;
将所述第一目标输出与所述第三全连接层的输出相乘,得到第二目标输出,将所述第二目标输出作为下一次迭代计算的输入。
7.根据权利要求2所述的运维故障根因识别方法,其特征在于,所述采用图算法Node2Vec对所述剩余关联节点进行节点编码的步骤,包括:
调用所述图算法Node2Vec的目标函数,所述图算法Node2Vec的目标函数为:
Figure FDA0002613585530000031
Figure FDA0002613585530000032
其中,所述V为节点集合,N为邻接节点;
通过所述目标函数对所述剩余关联节点进行编码。
8.一种运维故障根因识别装置,其特征在于,包括:
获取单元,用于获取多个告警对象;
聚类单元,用于利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇;
分析单元,用于通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值;其中,所述根因识别模型基于深度神经网络模型训练而成;
选择单元,用于选择每个所述告警簇中最大概率值对应的所述告警对象作为该告警簇的根因。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的运维故障根因识别方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的运维故障根因识别方法的步骤。
CN202010762957.5A 2020-07-31 2020-07-31 运维故障根因识别方法、装置、计算机设备和存储介质 Active CN111897673B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010762957.5A CN111897673B (zh) 2020-07-31 2020-07-31 运维故障根因识别方法、装置、计算机设备和存储介质
PCT/CN2020/118527 WO2021139252A1 (zh) 2020-07-31 2020-09-28 运维故障根因识别方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010762957.5A CN111897673B (zh) 2020-07-31 2020-07-31 运维故障根因识别方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN111897673A true CN111897673A (zh) 2020-11-06
CN111897673B CN111897673B (zh) 2022-10-21

Family

ID=73183084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010762957.5A Active CN111897673B (zh) 2020-07-31 2020-07-31 运维故障根因识别方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN111897673B (zh)
WO (1) WO2021139252A1 (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507720A (zh) * 2020-11-12 2021-03-16 西安交通大学 基于因果语义关系传递的图卷积网络根因识别方法
CN112612685A (zh) * 2020-12-24 2021-04-06 威创集团股份有限公司 一种处理器告警消息处理方法、装置、终端及存储介质
CN113254254A (zh) * 2021-07-14 2021-08-13 南京中兴新软件有限责任公司 系统故障的根因定位方法、装置、存储介质及电子装置
CN113268370A (zh) * 2021-05-11 2021-08-17 西安交通大学 一种根因告警分析方法、系统、设备及存储介质
CN113434542A (zh) * 2021-06-24 2021-09-24 平安国际智慧城市科技股份有限公司 数据关系识别方法、装置、电子设备及存储介质
CN113590451A (zh) * 2021-09-29 2021-11-02 阿里云计算有限公司 一种根因定位方法、运维服务器及存储介质
CN113657022A (zh) * 2021-07-15 2021-11-16 华为技术有限公司 一种芯片故障识别方法及相关设备
CN113780597A (zh) * 2021-09-16 2021-12-10 睿云奇智(重庆)科技有限公司 影响传播关系模型构建和告警影响评估方法、计算机设备、存储介质
CN114237962A (zh) * 2021-12-21 2022-03-25 中国电信股份有限公司 告警根因判断方法、模型训练方法、装置、设备和介质
CN115001941A (zh) * 2022-04-20 2022-09-02 广东省电信规划设计院有限公司 一种通信网管故障的确定方法及装置
CN115174355A (zh) * 2022-07-26 2022-10-11 杭州东方通信软件技术有限公司 故障根因定位模型的生成方法,故障根因定位方法和装置
WO2022257423A1 (zh) * 2021-06-08 2022-12-15 天翼云科技有限公司 告警信息关联方法、装置、电子设备和可读存储介质
WO2023155468A1 (zh) * 2022-02-18 2023-08-24 华为技术有限公司 一种确定根因故障的方法及装置
WO2023179073A1 (zh) * 2022-03-23 2023-09-28 中兴通讯股份有限公司 基于纵向联邦学习的otn数字孪生网络生成方法及系统
WO2024001080A1 (zh) * 2022-06-29 2024-01-04 北京柏睿数据技术股份有限公司 基于人工智能运维的数据库贯穿基础设施的故障定位方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113821413A (zh) * 2021-09-27 2021-12-21 中国建设银行股份有限公司 告警分析方法及装置
CN113886120B (zh) * 2021-09-28 2024-02-27 济南浪潮数据技术有限公司 一种服务器故障诊断方法、装置、设备及可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0421284D0 (en) * 2004-09-24 2004-10-27 Advanced Forensic Solutions Lt Information analysis arrangement
US20160092340A1 (en) * 2014-09-29 2016-03-31 Tata Consultancy Services Limited Method and system for reviewing of clustered-code analysis warnings
US20180314953A1 (en) * 2017-04-27 2018-11-01 Entit Software Llc Cluster model to predict build failure
CN109684181A (zh) * 2018-11-20 2019-04-26 华为技术有限公司 告警根因分析方法、装置、设备及存储介质
CN110891283A (zh) * 2019-11-22 2020-03-17 超讯通信股份有限公司 一种基于边缘计算模型的小基站监控装置及方法
CN111125268A (zh) * 2019-12-27 2020-05-08 南京亚信软件有限公司 网络告警分析模型创建方法、告警分析方法及装置
CN111342997A (zh) * 2020-02-06 2020-06-26 烽火通信科技股份有限公司 一种深度神经网络模型的构建方法、故障诊断方法及系统
CN111444247A (zh) * 2020-06-17 2020-07-24 北京必示科技有限公司 一种基于kpi指标的根因定位方法、装置及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10686648B2 (en) * 2015-01-27 2020-06-16 Moogsoft Inc. System for decomposing clustering events from managed infrastructures
CN111339211B (zh) * 2018-12-19 2023-09-19 中国移动通信集团重庆有限公司 网络问题分析的方法、装置、设备及介质
CN109993363A (zh) * 2019-04-01 2019-07-09 山东浪潮云信息技术有限公司 一种基于人工智能的自动化告警预测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0421284D0 (en) * 2004-09-24 2004-10-27 Advanced Forensic Solutions Lt Information analysis arrangement
US20160092340A1 (en) * 2014-09-29 2016-03-31 Tata Consultancy Services Limited Method and system for reviewing of clustered-code analysis warnings
US20180314953A1 (en) * 2017-04-27 2018-11-01 Entit Software Llc Cluster model to predict build failure
CN109684181A (zh) * 2018-11-20 2019-04-26 华为技术有限公司 告警根因分析方法、装置、设备及存储介质
CN110891283A (zh) * 2019-11-22 2020-03-17 超讯通信股份有限公司 一种基于边缘计算模型的小基站监控装置及方法
CN111125268A (zh) * 2019-12-27 2020-05-08 南京亚信软件有限公司 网络告警分析模型创建方法、告警分析方法及装置
CN111342997A (zh) * 2020-02-06 2020-06-26 烽火通信科技股份有限公司 一种深度神经网络模型的构建方法、故障诊断方法及系统
CN111444247A (zh) * 2020-06-17 2020-07-24 北京必示科技有限公司 一种基于kpi指标的根因定位方法、装置及存储介质

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507720A (zh) * 2020-11-12 2021-03-16 西安交通大学 基于因果语义关系传递的图卷积网络根因识别方法
CN112612685A (zh) * 2020-12-24 2021-04-06 威创集团股份有限公司 一种处理器告警消息处理方法、装置、终端及存储介质
CN113268370A (zh) * 2021-05-11 2021-08-17 西安交通大学 一种根因告警分析方法、系统、设备及存储介质
WO2022257423A1 (zh) * 2021-06-08 2022-12-15 天翼云科技有限公司 告警信息关联方法、装置、电子设备和可读存储介质
CN113434542A (zh) * 2021-06-24 2021-09-24 平安国际智慧城市科技股份有限公司 数据关系识别方法、装置、电子设备及存储介质
CN113434542B (zh) * 2021-06-24 2023-12-05 平安国际智慧城市科技股份有限公司 数据关系识别方法、装置、电子设备及存储介质
CN113254254A (zh) * 2021-07-14 2021-08-13 南京中兴新软件有限责任公司 系统故障的根因定位方法、装置、存储介质及电子装置
CN113657022A (zh) * 2021-07-15 2021-11-16 华为技术有限公司 一种芯片故障识别方法及相关设备
CN113657022B (zh) * 2021-07-15 2024-05-14 华为技术有限公司 一种芯片故障识别方法及相关设备
CN113780597A (zh) * 2021-09-16 2021-12-10 睿云奇智(重庆)科技有限公司 影响传播关系模型构建和告警影响评估方法、计算机设备、存储介质
CN113590451A (zh) * 2021-09-29 2021-11-02 阿里云计算有限公司 一种根因定位方法、运维服务器及存储介质
CN114237962B (zh) * 2021-12-21 2024-05-14 中国电信股份有限公司 告警根因判断方法、模型训练方法、装置、设备和介质
CN114237962A (zh) * 2021-12-21 2022-03-25 中国电信股份有限公司 告警根因判断方法、模型训练方法、装置、设备和介质
WO2023155468A1 (zh) * 2022-02-18 2023-08-24 华为技术有限公司 一种确定根因故障的方法及装置
WO2023179073A1 (zh) * 2022-03-23 2023-09-28 中兴通讯股份有限公司 基于纵向联邦学习的otn数字孪生网络生成方法及系统
CN115001941B (zh) * 2022-04-20 2023-10-13 广东省电信规划设计院有限公司 一种通信网管故障的确定方法及装置
CN115001941A (zh) * 2022-04-20 2022-09-02 广东省电信规划设计院有限公司 一种通信网管故障的确定方法及装置
WO2024001080A1 (zh) * 2022-06-29 2024-01-04 北京柏睿数据技术股份有限公司 基于人工智能运维的数据库贯穿基础设施的故障定位方法
CN115174355A (zh) * 2022-07-26 2022-10-11 杭州东方通信软件技术有限公司 故障根因定位模型的生成方法,故障根因定位方法和装置
CN115174355B (zh) * 2022-07-26 2024-01-19 杭州东方通信软件技术有限公司 故障根因定位模型的生成方法,故障根因定位方法和装置

Also Published As

Publication number Publication date
CN111897673B (zh) 2022-10-21
WO2021139252A1 (zh) 2021-07-15

Similar Documents

Publication Publication Date Title
CN111897673B (zh) 运维故障根因识别方法、装置、计算机设备和存储介质
US11481622B2 (en) Continuous learning neural network system using rolling window
CN111176990A (zh) 基于数据决策的测试数据生成方法、装置、计算机设备
CN111338836A (zh) 处理故障数据的方法、装置、计算机设备和存储介质
CN111506710B (zh) 基于谣言预测模型的信息发送方法、装置和计算机设备
CN115174231B (zh) 一种基于AI Knowledge Base的网络欺诈分析方法及服务器
CN112288101A (zh) 基于联邦学习的gbdt与lr融合方法、装置、设备和存储介质
CN112329865A (zh) 基于自编码器的数据异常识别方法、装置和计算机设备
CN111950889A (zh) 一种客户风险评估方法、装置、可读存储介质及终端设备
CN112131888A (zh) 分析语义情感的方法、装置、设备及存储介质
CN113011895A (zh) 关联账户样本筛选方法、装置和设备及计算机存储介质
CN113889262A (zh) 基于模型的数据预测方法、装置、计算机设备和存储介质
CN112036497A (zh) 欺诈案件识别模型的训练方法、装置和计算机设备
CN113920372A (zh) 数据分类方法、装置、设备及存储介质
CN111679953A (zh) 基于人工智能的故障节点识别方法、装置、设备和介质
CN112328285A (zh) 系统新功能生产更新方法、装置、设备及介质
CN113064997B (zh) 基于bert模型的意图分析方法、装置、设备及介质
CN112037005A (zh) 一种评分卡的融合方法、装置、计算机设备及存储介质
Ashtaiwi Artificial intelligence is transforming the world development indicators
CN113643067A (zh) 基于人工智能的客户筛选方法、装置、设备及存储介质
CN113312481A (zh) 基于区块链的文本分类方法、装置、设备以及存储介质
CN114692785A (zh) 行为分类方法、装置、设备及存储介质
CN113435517A (zh) 异常数据点输出方法、装置、计算机设备和存储介质
CN114021664A (zh) 一种基于区块链的意图识别方法、装置及电子设备
Parri et al. A hybrid GAN based autoencoder approach with attention mechanism for wind speed prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant