CN114510364A - 文本聚类结合链路调用的异常数据根因分析方法及装置 - Google Patents

文本聚类结合链路调用的异常数据根因分析方法及装置 Download PDF

Info

Publication number
CN114510364A
CN114510364A CN202210128929.7A CN202210128929A CN114510364A CN 114510364 A CN114510364 A CN 114510364A CN 202210128929 A CN202210128929 A CN 202210128929A CN 114510364 A CN114510364 A CN 114510364A
Authority
CN
China
Prior art keywords
abnormal
data
clustering
text
consumption data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210128929.7A
Other languages
English (en)
Inventor
刘桂海
黄伟
魏亮
周国庆
李洪宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Telai Big Data Co ltd
Qingdao Teld New Energy Technology Co Ltd
Original Assignee
Qingdao Telai Big Data Co ltd
Qingdao Teld New Energy Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Telai Big Data Co ltd, Qingdao Teld New Energy Technology Co Ltd filed Critical Qingdao Telai Big Data Co ltd
Priority to CN202210128929.7A priority Critical patent/CN114510364A/zh
Publication of CN114510364A publication Critical patent/CN114510364A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本聚类结合链路调用的异常数据根因分析方法及装置,所述方法用于上述的装置,包括:采集程序封装的底层的异常信息数据,并将异常信息数据上报至消息系统中进行消费处理,得到异常消费数据;判断是否对异常消费数据进行链路分析,若是,则通过链路分析过滤异常消费数据中的无效异常节点,然后通过聚类算法对过滤后的异常消费数据进行聚合分类,得到异常聚类数据;若否,则通过聚类算法对异常消费数据进行聚合分类,得到异常聚类数据;将得到的异常聚类数据与已设定的故障特征对象进行匹配,得到异常聚类数据的类别。本申请基于底层异常出发将文本聚类与链路调用结合,有助于运维人员及时做出维护决策,避免系统故障造成损失。

Description

文本聚类结合链路调用的异常数据根因分析方法及装置
技术领域
本发明涉及智能运维分析领域,具体来说涉及一种文本聚类结合链路调用的异常数据根因分析方法及装置。
背景技术
异常日志是记录应用程序运行状态的一种工具。通常情况下,异常日志记录了系统运行出错时的现场信息及关键执行点的上下文信息等。当业务流量小、逻辑架构复杂度低时,出现故障的异常日志较少,运维人员可以根据错误日志快速定位到故障点找到异常问题。
但是,随着业务逻辑复杂度的提升及依赖服务的增多,错误日志的量级急剧增加,服务调用的链路也愈加庞杂。在一些应用中,业务的异常日志每天可达到几百万条,甚至在一些极端情况下,触发的疯狂报错现象量级会更高。异常日志以及系统告警快速更迭、互相影响,导致运维人员很难快速理清链路找到问题的根源,以至于错过恢复系统的最佳时机。
因此,基于现有异常数据根因分析中遇到的问题,需要提供一种快速帮助运维人员定位故障根因的方法。
发明内容
本发明的目的在于提供一种文本聚类结合链路调用的异常数据根因分析方法及装置,解决现有异常数据分析中因数据量大而无法快速定位故障根因的问题。
为实现上述目的,本发明公开了如下技术方案:
本发明一方面提供了一种文本聚类结合链路调用的异常数据根因分析方法,所述方法包括以下步骤:
采集程序封装的底层的异常信息数据,并将所述异常信息数据上报至消息系统中进行消费处理,得到异常消费数据;
判断是否对所述异常消费数据进行链路分析,
若是,则首先通过链路分析过滤所述异常消费数据中的无效异常节点,然后通过聚类算法对过滤后的异常消费数据进行聚合分类,得到异常聚类数据;
若否,则通过聚类算法对所述异常消费数据进行聚合分类,得到异常聚类数据;
将得到的所述异常聚类数据与已设定的故障特征对象进行匹配,得到所述异常聚类数据的类别,并根据所述异常聚类数据的类别确定所述异常信息数据的根因。
上述的异常数据根因分析方法,还包括设立故障特征库的步骤,用于存储已设定的所述故障特征对象。
上述的异常数据根因分析方法,所述通过聚类算法对异常消费数据进行聚合分类的步骤,进一步包括:
将所述异常消费数据解析为异常信息文本;
对所述异常信息文本进行预处理,删除异常信息文本中的无效信息,得到预处理文本;
对所述预处理文本进行分词,并提取分词后的特征词生成词向量;
通过聚类算法对所述词向量进行聚合分类,得到异常聚类数据。
进一步的,所述异常信息文本中的无效信息,包括特殊符号和/或脏数据。
上述的异常数据根因分析方法,所述通过链路分析过滤所述异常消费数据中的无效异常节点的步骤,进一步包括:
对所述异常消费数据进行数据处理,得到异常消费数据中所有的异常节点;
采用Nebula图空间查询每个所述异常节点的服务链路信息,通过链路分析过滤所述异常消费数据中的无效异常节点,得到问题异常节点。
进一步的,所述故障特征对象是基于所述异常信息数据中的关键词以及系统报出的异常信息关键词而生成。
上述的异常数据根因分析方法,在将异常聚类数据与已设定的故障特征对象进行匹配之前,还包括下述步骤:
设置自定义词库,并添加自定义关键词到所述自定义词库中;
从所述故障特征库中获取故障特征对象,并基于所述自定义关键词给所述故障特征对象赋值。
上述的异常数据根因分析方法,所述将异常聚类数据与已设定的故障特征对象进行匹配,得到所述异常聚类数据的类别的步骤,进一步包括:
获取本地模型文件,创建分类模型;
将所述异常聚类数据与赋值后的故障特征对象进行匹配,并利用所述分类模型为匹配相似度评分,根据评分高的一组匹配确定异常聚类数据的类别。
本发明另一方面提供了一种文本聚类结合链路调用的异常数据根因分析装置,所述装置包括:
采集模块,用于采集程序封装的底层的异常信息数据,并将所述异常信息数据上报至消息系统中进行消费处理,得到异常消费数据;
判断模块,用于判断是否对所述异常消费数据进行链路分析;
分析聚类模块,用于当判断要对所述异常消费数据进行链路分析时,首先通过链路分析过滤所述异常消费数据中的无效异常节点,然后通过聚类算法对过滤后的异常消费数据进行聚合分类,得到异常聚类数据;
聚类模块,用于当判断不对所述异常消费数据进行链路分析时,通过聚类算法对所述异常消费数据进行聚合分类,得到异常聚类数据;
匹配模块,用于将得到的所述异常聚类数据与已设定的故障特征对象进行匹配,得到所述异常聚类数据的类别,并进行异常信息数据的根因分析。
上述的异常数据根因分析装置,所述装置还包括:
特征库模块,用于设立故障特征库以存储设定的所述故障特征对象。
上述的异常数据根因分析装置,所述分析聚类模块或所述聚类模块通过聚类算法对异常消费数据进行聚合分类,包括:
将所述异常消费数据解析为异常信息文本;
对所述异常信息文本进行预处理,删除异常信息文本中的无效信息,得到预处理文本;
对所述预处理文本进行分词,并提取分词后的特征词生成词向量;
通过聚类算法对所述词向量进行聚合分类,得到异常聚类数据。
上述的异常数据根因分析装置,所述分析聚类模块通过链路分析过滤所述异常消费数据中的无效异常节点,包括:
对所述异常消费数据进行数据处理,得到异常消费数据中所有的异常节点;
采用Nebula图空间查询每个所述异常节点的服务链路信息,通过链路分析过滤所述异常消费数据中的无效异常节点,得到问题异常节点。
上述的异常数据根因分析装置,所述匹配模块还用于从故障特征库中获取故障特征对象,包括:
设置自定义词库,并添加自定义关键词到所述自定义词库中;
从所述故障特征库中获取故障特征对象,并基于所述自定义关键词给所述故障特征对象赋值。
上述的异常数据根因分析装置,所述匹配模块将异常聚类数据与已设定的故障特征对象进行匹配,得到所述异常聚类数据的类别,包括:
获取本地模型文件,创建分类模型;
将所述异常聚类数据与赋值后的故障特征对象进行匹配,并利用所述分类模型为匹配相似度评分,根据评分高的一组匹配确定异常聚类数据的类别。
本发明再一方面提供了一种用于网络智能运维分析的系统,所述系统包括如上所述的文本聚类结合链路调用的异常数据根因分析装置。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的文本聚类结合链路调用的异常数据根因分析方法。
此外,本发明还提供了一种电子设备,所述电子设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的文本聚类结合链路调用的异常数据根因分析方法。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
在本申请实施例中,通过采集程序封装的底层的异常信息数据,并将文本聚类与链路调用相结合,当判断需要进行链路分析时,首先通过链路分析过滤异常消费数据中的无效异常节点,然后通过聚类算法对过滤后的异常消费数据进行聚合分类,当判断不需要进行链路分析时,则直接通过聚类算法对异常消费数据进行聚合分类,实现基于底层异常出发并从全局层面对系统发生的问题做出快速的分析。将聚合分类得到异常聚类数据与已设定的故障特征对象进行匹配,可以快速判断系统的故障根因,有助于运维人员及时做出维护决策,避免系统故障造成损失。
附图说明
此处的附图被并入说明书中并构成说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请一实施例提供的文本聚类结合链路调用的异常数据根因分析方法流程示意图;
图2为本申请另一实施例提供的文本聚类结合链路调用的异常数据根因分析方法流程示意图;
图3为图2中步骤S270的具体实现示意图;
图4为本申请一实施例提供的文本聚类结合链路调用的异常数据根因分析装置结构原理示意图;
图5为本申请一实施例提供的用于网络智能运维分析的系统结构原理示意图;
图6为本申请一实施例提供的电子设备结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的,本说明书中针对“一个实施例”、“实施例”、“示例实施例”等的引用,指的是描述的该实施例可包括特定的特征、结构或特性,但是不是每个实施例必须包含这些特定特征、结构或特性。此外,这样的表述并非指的是同一个实施例。进一步,在结合实施例描述特定的特征、结构或特性时,不管有没有明确的描述,已经表明将这样的特征、结构或特性结合到其它实施例中是在本领域技术人员的知识范围内的。
此外,在说明书及后续的权利要求当中使用了某些词汇来指称特定组件或部件,所属领域中具有通常知识者应可理解,制造商可以用不同的名词或术语来称呼同一个组件或部件。本说明书及后续的权利要求并不以名称的差异来作为区分组件或部件的方式,而是以组件或部件在功能上的差异来作为区分的准则。在通篇说明书及后续的权利要求书中所提及的“包括”和“包含”为一开放式的用语,故应解释成“包含但不限定于”。另外,“连接”一词在此系包含任何直接及间接的电性连接手段。间接的电性连接手段包括通过其它装置进行连接。
参考图1,图1示出了本申请一实施例提供的文本聚类结合链路调用的异常数据根因分析方法流程示意图,所述方法包括以下步骤:
S110、采集程序封装的底层的异常信息数据,并将所述异常信息数据上报至消息系统中进行消费处理,得到异常消费数据;
S120、判断是否对所述异常消费数据进行链路分析;
S130、若是,则首先通过链路分析过滤所述异常消费数据中的无效异常节点,然后通过聚类算法对过滤后的异常消费数据进行聚合分类,得到异常聚类数据;
S140、若否,则通过聚类算法对所述异常消费数据进行聚合分类,得到异常聚类数据;
S150、将得到的所述异常聚类数据与已设定的故障特征对象进行匹配,得到所述异常聚类数据的类别,并根据所述异常聚类数据的类别确定所述异常信息数据的根因。
如前所述,基于现有业务逻辑复杂度的提升,服务调用链路庞杂,错误日志数量急剧增加,运维人员很难快速找到故障的根源。在本实施例中,基于底层异常出发将文本聚类与链路调用结合,通过聚类算法对异常消费数据聚合分类,并将异常聚类数据与设定的故障特征对象进行匹配得到异常聚类数据的类别,运维人员根据异常聚类数据的类别可以全面快速确定系统的故障根因,从而帮助运维人员及时做出维护决策,减少系统故障损失。
参考图2,图2示出了本申请另一实施例提供的文本聚类结合链路调用的异常数据根因分析方法流程示意图,所述方法包括以下步骤:
S210、采集程序封装的底层的异常信息数据,并将所述异常信息数据上报至消息系统中进行消费处理,得到异常消费数据;
在具体实现中,所述消息系统可以为Kafka分布式发布订阅消息系统,通过监控引擎程序,将异常信息数据上报至Kafka的Topic中。
S220、判断是否对所述异常消费数据进行链路分析;
S230、若是,则首先通过链路分析过滤所述异常消费数据中的无效异常节点,然后通过聚类算法对过滤后的异常消费数据进行聚合分类,得到异常聚类数据;
在实际操作中,异常信息数据中的很多错误都涉及到服务链路调用之间的异常。通常在事故时,大量的服务产生故障预警消息,运维人员很难从中找出根因,因此需要根据服务链路调用关系,对预警的维度进行全链路分析,找到源头的故障服务。在具体实现中,可以利用Flink的实时性及Nebula图数据库来实现服务链路的构建。在一些实施方式中,通过链路分析过滤所述异常消费数据中的无效异常节点,可具体包括:
对所述异常消费数据进行数据处理,得到异常消费数据中所有的异常节点;
采用Nebula图空间查询每个所述异常节点的服务链路信息,通过链路分析过滤所述异常消费数据中的无效异常节点,得到问题异常节点。
经过链路分析后,过滤掉异常消费数据中的无效异常节点,找出问题异常节点,然后根据问题异常节点重新聚类出异常数据。经过链路分析可大量减少无效的异常信息,帮助运维人员快速定位到问题节点并及时解决异常。
S240、若否,则通过聚类算法对所述异常消费数据进行聚合分类,得到异常聚类数据;
异常消费数据中通常包含有异常文本、源服务信息、集群信息等。一般情况下需要通读所有的数据后来获取有价值的信息,这些具有价值的信息往往是一些关键词。本操作步骤的核心是将异常文本进行分词,然后通过聚类操作把关键词聚合分类。
在一些实施方式中,步骤S230及步骤S240中通过聚类算法对异常消费数据进行聚合分类,可具体包括:
将所述异常消费数据解析为异常信息文本;
对所述异常信息文本进行预处理,删除异常信息文本中的无效信息,包括特殊符号、脏数据等,得到预处理文本;
对所述预处理文本进行分词,并提取分词后的特征词生成词向量;
通过聚类算法对所述词向量进行聚合分类,得到异常聚类数据。
S250、设立故障特征库,用于存储已设定的所述故障特征对象;
在具体实现中,故障特征对象是基于异常信息数据中的关键词以及系统报出的异常信息关键词而生成。
S260、从故障特征库中获取故障特征对象,将得到的异常聚类数据与故障特征对象进行匹配,得到所述异常聚类数据的类别,并根据所述异常聚类数据的类别确定所述异常信息数据的根因,生成聚合数据;
在一些实施方式中,从故障特征库中获取故障特征对象,可具体包括:
设置自定义词库,并添加自定义关键词到所述自定义词库中;
从所述故障特征库中获取故障特征对象,并基于所述自定义关键词给所述故障特征对象赋值。
在具体实现中,将异常聚类数据与故障特征对象进行匹配,得到所述异常聚类数据的类别,可具体包括:
获取本地模型文件,创建分类模型;
将所述异常聚类数据与赋值后的故障特征对象进行匹配,并利用所述分类模型为匹配相似度评分,根据评分高的一组匹配确定异常聚类数据的类别;
S270、将聚合数据通过界面进行展示;
图3为图2中步骤S270的具体实现示意图,如图3所示,在一些实施方式中,步骤S270中将聚合数据通过界面进行展示,可具体包括:
S310、数据缓存:将聚合数据通过Kafka生产者写入Kafka中;
S320、数据存储:利用Flume程序消费Kafka中的历史数据及关系数据,写入ES,通过详情界面展示异常情况;
S330、数据展示:将聚类数据写入到InfluxDB中,利用Grafana对存储到InfluxDB中的数据进行展示,观察聚类数据的趋势变化,且可以通过Grafana中的Panel links钻取到详情界面中联查历史相关数据。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
参考图4,图4示出了本申请一实施例提供的文本聚类结合链路调用的异常数据根因分析装置结构原理示意图,利用该装置可以实现异常数据的根因分析,下文描述的该装置可以与上文描述的方法相互对应参照。所述装置400包括:
采集模块410,用于采集程序封装的底层的异常信息数据,并将所述异常信息数据上报至消息系统中进行消费处理,得到异常消费数据;
判断模块420,用于判断是否对所述异常消费数据进行链路分析;
分析聚类模块430,用于当判断要对所述异常消费数据进行链路分析时,首先通过链路分析过滤所述异常消费数据中的无效异常节点,然后通过聚类算法对过滤后的异常消费数据进行聚合分类,得到异常聚类数据;
聚类模块440,用于当判断不对所述异常消费数据进行链路分析时,通过聚类算法对所述异常消费数据进行聚合分类,得到异常聚类数据;
匹配模块450,用于将得到的所述异常聚类数据与已设定的故障特征对象进行匹配,得到所述异常聚类数据的类别,并进行异常信息数据的根因分析。
在一些实施方式中,所述装置还可包括:
特征库模块,用于设立故障特征库以存储设定的所述故障特征对象,所述故障特征对象是基于异常信息数据中的关键词以及系统报出的异常信息关键词而生成。
在一些实施方式中,所述分析聚类模块430或所述聚类模块440通过聚类算法对异常消费数据进行聚合分类,可具体包括:
将所述异常消费数据解析为异常信息文本;
对所述异常信息文本进行预处理,删除异常信息文本中的无效信息,包括特殊符号、脏数据等,得到预处理文本;
对所述预处理文本进行分词,并提取分词后的特征词生成词向量;
通过聚类算法对所述词向量进行聚合分类,得到异常聚类数据。
在一些实施方式中,所述分析聚类模块430通过链路分析过滤所述异常消费数据中的无效异常节点,可具体包括:
对所述异常消费数据进行数据处理,得到异常消费数据中所有的异常节点;
采用Nebula图空间查询每个所述异常节点的服务链路信息,通过链路分析过滤所述异常消费数据中的无效异常节点,得到问题异常节点。
在具体实现中,所述匹配模块450还用于从故障特征库中获取故障特征对象,包括:
设置自定义词库,并添加自定义关键词到所述自定义词库中;
从所述故障特征库中获取故障特征对象,并基于所述自定义关键词给所述故障特征对象赋值。
在一些实施方式中,所述匹配模块450将异常聚类数据与已设定的故障特征对象进行匹配,得到所述异常聚类数据的类别,可具体包括:
获取本地模型文件,创建分类模型;
将所述异常聚类数据与赋值后的故障特征对象进行匹配,并利用所述分类模型为匹配相似度评分,根据评分高的一组匹配确定异常聚类数据的类别。
基于上述实施例中的文本聚类结合链路调用的异常数据根因分析装置,本申请还提供一种用于网络智能运维分析的系统。在一些实施方式中,如图5所示,图5为本申请一实施例提供的用于网络智能运维分析的系统结构原理示意图,网络智能运维分析的系统500包括客户端510和服务端520,客户端510可以是智能手机或电脑等用户终端,用于展示异常数据的根因分析情况及变化趋势。客户端510通过网络与服务端520连接通信,上述实施例中的异常数据根因分析装置400设置在所述服务端510中。
本申请还提供一种计算机可读存储介质,用于存储执行如图1至图3所述任意一种文本聚类结合链路调用的异常数据根因分析方法的计算机程序。例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的存储介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输和/或被存储在根据程序指令运行的存储介质中。
此外,本申请还提供一个电子设备,在一些实施方式中,如图6所示,图6为本申请一实施例提供的电子设备600结构示意图,电子设备600可包括输入单元610、存储器620、处理器630及输出单元640。存储器620存储有可在处理器630上运行的程序指令,处理器630调用程序指令能够执行基于前述多个实施例中的方法和/或技术方案。该电子设备600可以为手机、电脑等移动终端设备。
综上所述,本申请提供的文本聚类结合链路调用的异常数据根因分析方法、系统、存储介质及电子设备,每个客户端机器的运行框架捕获异常后,会递归获得底层异常,从而在客户端就能直接获得接近根因的异常,为寻找异常根因打下快速分析的基础,然后将这些底层异常上报到服务端进行分析处理。在服务端进行分析处理时,结合服务链路调用关系,进一步过滤掉服务调用链路上的源端调用者,然后对剩下的异常信息进行处理,经过聚类后得到真正的异常根因,实现从全局层面对系统发生的问题做出快速的分析。在进行快速异常根因分析时,通过与故障特征库中的故障特征对象进行匹配,可以快速判断系统的故障根因,有助于运维人员及时做出维护决策,及时止损。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
虽然,上文中已经用一般性说明及具体实施例对本申请作了详尽的描述,但在本申请基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本申请精神的基础上所做的这些修改或改进,均属于本申请要求保护的范围。
本申请公开A1、一种文本聚类结合链路调用的异常数据根因分析方法,包括如下步骤:
采集程序封装的底层的异常信息数据,并将所述异常信息数据上报至消息系统中进行消费处理,得到异常消费数据;
判断是否对所述异常消费数据进行链路分析,
若是,则首先通过链路分析过滤所述异常消费数据中的无效异常节点,然后通过聚类算法对过滤后的异常消费数据进行聚合分类,得到异常聚类数据;
若否,则通过聚类算法对所述异常消费数据进行聚合分类,得到异常聚类数据;
将得到的所述异常聚类数据与已设定的故障特征对象进行匹配,得到所述异常聚类数据的类别,并根据所述异常聚类数据的类别确定所述异常信息数据的根因。
A2、根据A1所述的方法,还包括设立故障特征库的步骤,用于存储已设定的所述故障特征对象。
A3、根据A1所述的方法,所述通过聚类算法对异常消费数据进行聚合分类的步骤,进一步包括:
将所述异常消费数据解析为异常信息文本;
对所述异常信息文本进行预处理,删除异常信息文本中的无效信息,得到预处理文本;
对所述预处理文本进行分词,并提取分词后的特征词生成词向量;
通过聚类算法对所述词向量进行聚合分类,得到异常聚类数据。
A4、根据A3所述的方法,所述异常信息文本中的无效信息,包括特殊符号和/或脏数据。
A5、根据A1所述的方法,所述通过链路分析过滤所述异常消费数据中的无效异常节点的步骤,进一步包括:
对所述异常消费数据进行数据处理,得到异常消费数据中所有的异常节点;
采用Nebula图空间查询每个所述异常节点的服务链路信息,通过链路分析过滤所述异常消费数据中的无效异常节点,得到问题异常节点。
A6、根据A1所述的方法,所述故障特征对象是基于所述异常信息数据中的关键词以及系统报出的异常信息关键词而生成。
A7、根据A2所述的方法,在将异常聚类数据与已设定的故障特征对象进行匹配之前,还包括下述步骤:
设置自定义词库,并添加自定义关键词到所述自定义词库中;
从所述故障特征库中获取故障特征对象,并基于所述自定义关键词给所述故障特征对象赋值。
A8、根据A7所述的方法,所述将异常聚类数据与已设定的故障特征对象进行匹配,得到所述异常聚类数据的类别的步骤,进一步包括:
获取本地模型文件,创建分类模型;
将所述异常聚类数据与赋值后的故障特征对象进行匹配,并利用所述分类模型为匹配相似度评分,根据评分高的一组匹配确定异常聚类数据的类别。
本申请还公开B9、一种文本聚类结合链路调用的异常数据根因分析装置,所述装置包括:
采集模块,用于采集程序封装的底层的异常信息数据,并将所述异常信息数据上报至消息系统中进行消费处理,得到异常消费数据;
判断模块,用于判断是否对所述异常消费数据进行链路分析;
分析聚类模块,用于当判断要对所述异常消费数据进行链路分析时,首先通过链路分析过滤所述异常消费数据中的无效异常节点,然后通过聚类算法对过滤后的异常消费数据进行聚合分类,得到异常聚类数据;
聚类模块,用于当判断不对所述异常消费数据进行链路分析时,通过聚类算法对所述异常消费数据进行聚合分类,得到异常聚类数据;
匹配模块,用于将得到的所述异常聚类数据与已设定的故障特征对象进行匹配,得到所述异常聚类数据的类别,并根据所述异常聚类数据的类别确定所述异常信息数据的根因。
B10、根据B9所述的装置,所述装置还包括:
特征库模块,用于设立故障特征库以存储设定的所述故障特征对象。
B11、根据B9所述的装置,所述分析聚类模块或所述聚类模块通过聚类算法对异常消费数据进行聚合分类,包括:
将所述异常消费数据解析为异常信息文本;
对所述异常信息文本进行预处理,删除异常信息文本中的无效信息,得到预处理文本;
对所述预处理文本进行分词,并提取分词后的特征词生成词向量;
通过聚类算法对所述词向量进行聚合分类,得到异常聚类数据。
B12、根据B9所述的装置,所述分析聚类模块通过链路分析过滤所述异常消费数据中的无效异常节点,包括:
对所述异常消费数据进行数据处理,得到异常消费数据中所有的异常节点;
采用Nebula图空间查询每个所述异常节点的服务链路信息,通过链路分析过滤所述异常消费数据中的无效异常节点,得到问题异常节点。
B13、根据B10所述的装置,所述匹配模块还用于从所述故障特征库中获取故障特征对象,包括:
设置自定义词库,并添加自定义关键词到所述自定义词库中;
从所述故障特征库中获取故障特征对象,并基于所述自定义关键词给所述故障特征对象赋值。
B14、根据B13所述的装置,所述匹配模块将异常聚类数据与已设定的故障特征对象进行匹配,得到所述异常聚类数据的类别,包括:
获取本地模型文件,创建分类模型;
将所述异常聚类数据与赋值后的故障特征对象进行匹配,并利用所述分类模型为匹配相似度评分,根据评分高的一组匹配确定异常聚类数据的类别。
本申请还公开C15、一种用于网络智能运维分析的系统,所述系统包括B9至B14中任一项所述的文本聚类结合链路调用的异常数据根因分析装置。
本申请还公开D16、一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现A1至A8中任一项所述的文本聚类结合链路调用的异常数据根因分析方法。
本申请还公开E17、一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现A1至A8中任一项所述的文本聚类结合链路调用的异常数据根因分析方法。

Claims (10)

1.一种文本聚类结合链路调用的异常数据根因分析方法,其特征在于,包括以下步骤:
采集程序封装的底层的异常信息数据,并将所述异常信息数据上报至消息系统中进行消费处理,得到异常消费数据;
判断是否对所述异常消费数据进行链路分析,
若是,则首先通过链路分析过滤所述异常消费数据中的无效异常节点,然后通过聚类算法对过滤后的异常消费数据进行聚合分类,得到异常聚类数据;
若否,则通过聚类算法对所述异常消费数据进行聚合分类,得到异常聚类数据;
将得到的所述异常聚类数据与已设定的故障特征对象进行匹配,得到所述异常聚类数据的类别,并根据所述异常聚类数据的类别确定所述异常信息数据的根因。
2.根据权利要求1所述的文本聚类结合链路调用的异常数据根因分析方法,其特征在于,还包括:
设立故障特征库的步骤,用于存储已设定的所述故障特征对象。
3.根据权利要求1所述的文本聚类结合链路调用的异常数据根因分析方法,其特征在于,所述通过聚类算法对异常消费数据进行聚合分类的步骤,进一步包括:
将所述异常消费数据解析为异常信息文本;
对所述异常信息文本进行预处理,删除异常信息文本中的无效信息,得到预处理文本;
对所述预处理文本进行分词,并提取分词后的特征词生成词向量;
通过聚类算法对所述词向量进行聚合分类,得到异常聚类数据。
4.根据权利要求1所述的文本聚类结合链路调用的异常数据根因分析方法,其特征在于,所述通过链路分析过滤所述异常消费数据中的无效异常节点的步骤,进一步包括:
对所述异常消费数据进行数据处理,得到异常消费数据中所有的异常节点;
采用Nebula图空间查询每个所述异常节点的服务链路信息,通过链路分析过滤所述异常消费数据中的无效异常节点,得到问题异常节点。
5.根据权利要求2所述的文本聚类结合链路调用的异常数据根因分析方法,其特征在于,所述将异常聚类数据与已设定的故障特征对象进行匹配,得到所述异常聚类数据的类别的步骤,进一步包括:
获取本地模型文件,创建分类模型;
将所述异常聚类数据与赋值后的故障特征对象进行匹配,并利用所述分类模型为匹配相似度评分,根据评分高的一组匹配确定异常聚类数据的类别。
6.根据权利要求2所述的文本聚类结合链路调用的异常数据根因分析方法,其特征在于,在将异常聚类数据与已设定的故障特征对象进行匹配之前,还包括下述步骤:
设置自定义词库,并添加自定义关键词到所述自定义词库中;
从所述故障特征库中获取故障特征对象,并基于所述自定义关键词给所述故障特征对象赋值。
7.一种文本聚类结合链路调用的异常数据根因分析装置,其特征在于,所述装置包括:
采集模块,用于采集程序封装的底层的异常信息数据,并将所述异常信息数据上报至消息系统中进行消费处理,得到异常消费数据;
判断模块,用于判断是否对所述异常消费数据进行链路分析;
分析聚类模块,用于当判断要对所述异常消费数据进行链路分析时,首先通过链路分析过滤所述异常消费数据中的无效异常节点,然后通过聚类算法对过滤后的异常消费数据进行聚合分类,得到异常聚类数据;
聚类模块,用于当判断不对所述异常消费数据进行链路分析时,通过聚类算法对所述异常消费数据进行聚合分类,得到异常聚类数据;
匹配模块,用于将得到的所述异常聚类数据与已设定的故障特征对象进行匹配,得到所述异常聚类数据的类别,并根据所述异常聚类数据的类别确定所述异常信息数据的根因;和/或,
特征库模块,用于设立故障特征库以存储设定的所述故障特征对象。
8.根据权利要求7所述的文本聚类结合链路调用的异常数据根因分析装置,其特征在于,所述分析聚类模块或所述聚类模块通过聚类算法对异常消费数据进行聚合分类,包括:
将所述异常消费数据解析为异常信息文本;
对所述异常信息文本进行预处理,删除异常信息文本中的无效信息,得到预处理文本;
对所述预处理文本进行分词,并提取分词后的特征词生成词向量;
通过聚类算法对所述词向量进行聚合分类,得到异常聚类数据;或者,
所述分析聚类模块通过链路分析过滤所述异常消费数据中的无效异常节点,包括:
对所述异常消费数据进行数据处理,得到异常消费数据中所有的异常节点;
采用Nebula图空间查询每个所述异常节点的服务链路信息,通过链路分析过滤所述异常消费数据中的无效异常节点,得到问题异常节点;或者,
所述匹配模块还用于从所述故障特征库中获取故障特征对象,包括:
设置自定义词库,并添加自定义关键词到所述自定义词库中;
从所述故障特征库中获取故障特征对象,并基于所述自定义关键词给所述故障特征对象赋值;或者,
所述匹配模块将异常聚类数据与已设定的故障特征对象进行匹配,得到所述异常聚类数据的类别,包括:
获取本地模型文件,创建分类模型;
将所述异常聚类数据与赋值后的故障特征对象进行匹配,并利用所述分类模型为匹配相似度评分,根据评分高的一组匹配确定异常聚类数据的类别。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的文本聚类结合链路调用的异常数据根因分析方法。
10.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的文本聚类结合链路调用的异常数据根因分析方法。
CN202210128929.7A 2022-02-11 2022-02-11 文本聚类结合链路调用的异常数据根因分析方法及装置 Pending CN114510364A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210128929.7A CN114510364A (zh) 2022-02-11 2022-02-11 文本聚类结合链路调用的异常数据根因分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210128929.7A CN114510364A (zh) 2022-02-11 2022-02-11 文本聚类结合链路调用的异常数据根因分析方法及装置

Publications (1)

Publication Number Publication Date
CN114510364A true CN114510364A (zh) 2022-05-17

Family

ID=81552618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210128929.7A Pending CN114510364A (zh) 2022-02-11 2022-02-11 文本聚类结合链路调用的异常数据根因分析方法及装置

Country Status (1)

Country Link
CN (1) CN114510364A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023241484A1 (zh) * 2022-06-16 2023-12-21 中兴通讯股份有限公司 异常事件处理方法、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023241484A1 (zh) * 2022-06-16 2023-12-21 中兴通讯股份有限公司 异常事件处理方法、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110708204B (zh) 一种基于运维知识库的异常处理方法、系统、终端及介质
CN110928718B (zh) 一种基于关联分析的异常处理方法、系统、终端及介质
CN111240876B (zh) 微服务的故障定位方法、装置、存储介质及终端
US11153144B2 (en) System and method of automated fault correction in a network environment
CN111782477B (zh) 异常日志监控方法、装置、计算机设备及存储介质
CN112306820B (zh) 一种日志运维根因分析方法、装置、电子设备及存储介质
CN109325010A (zh) 日志查看方法、装置、计算机设备和存储介质
CN117194142A (zh) 一种基于链路追踪的集成应用性能诊断系统及方法
CN111753070A (zh) 一种服务器监控日志处理的系统和方法
CN111177193A (zh) 一种基于Flink的日志流式处理方法及系统
CN115145751A (zh) 微服务系统故障根因定位方法、装置、设备及存储介质
CN115514619A (zh) 告警收敛方法及系统
CN114510364A (zh) 文本聚类结合链路调用的异常数据根因分析方法及装置
CN113472582B (zh) 用于信息技术监控中的警报关联和警报聚合的系统和方法
US20090006903A1 (en) Network Alarm Management
CN112612679A (zh) 系统运行状态监控方法、装置、计算机设备和存储介质
CN112363893B (zh) 时序指标异常检测方法、设备及装置
CN114547406A (zh) 数据监控方法、系统、存储介质及电子装置
CN113572628B (zh) 数据关联方法、装置、计算设备及计算机存储介质
CN112001507A (zh) 提供船舶发动机系统检修策略的方法、设备及存储介质
CN114584453B (zh) 一种应用系统的故障分析方法及装置
CN113037550B (zh) 一种服务故障监控方法、系统及计算机可读存储介质
US20240119385A1 (en) Methods and systems for discovery and monitoring of business flows
US8352959B2 (en) Apparatus, system, and method for non-intrusive monitoring of business events
CN117707820A (zh) 故障追溯方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination