CN118133962A - 故障事件的关联性分析方法、装置、系统以及存储介质 - Google Patents

故障事件的关联性分析方法、装置、系统以及存储介质 Download PDF

Info

Publication number
CN118133962A
CN118133962A CN202410328875.8A CN202410328875A CN118133962A CN 118133962 A CN118133962 A CN 118133962A CN 202410328875 A CN202410328875 A CN 202410328875A CN 118133962 A CN118133962 A CN 118133962A
Authority
CN
China
Prior art keywords
fault
data
relevance
event
fault event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410328875.8A
Other languages
English (en)
Inventor
劳晓智
张志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Merchants Bank Co Ltd
Original Assignee
China Merchants Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Merchants Bank Co Ltd filed Critical China Merchants Bank Co Ltd
Priority to CN202410328875.8A priority Critical patent/CN118133962A/zh
Publication of CN118133962A publication Critical patent/CN118133962A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/26Discovering frequent patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种故障事件的关联性分析方法、装置、系统以及存储介质,具体通过采集和预处理软硬件数据,并基于软硬件数据构建软硬知识图谱;基于告警数据和/或历史故障事件数据进行关联性处理,得到故障事件之间的潜在关联性;根据故障事件之间的潜在关联性,构建故障事件关联性知识图谱;当新的告警事件产生时,通过软硬知识图谱和故障事件关联性知识图谱对新的告警事件进行关联性分析。该方案通过机器学习方法和数据挖掘技术,实现快速、准确的故障事件关联性分析,有效提高故障管理的效率和效果,帮助快速解决故障事件,提升系统的可靠性和稳定性。

Description

故障事件的关联性分析方法、装置、系统以及存储介质
技术领域
本发明涉及机器学习和数据分析领域,尤其涉及故障事件的关联性分析方法、装置、系统以及存储介质。
背景技术
随着企业规模的扩大和信息系统的复杂性增加,故障事件的发生频率也在不断增加。故障事件的发生可能会对企业的运营和服务产生严重影响,导致系统停机、数据丢失、用户投诉等问题。为了及时发现和解决故障事件,提高系统的可靠性和稳定性,进行故障事件的关联性分析变得越来越重要。
目前,故障事件关联性分析主要依赖于工程师的经验和技能,需要手动分析故障事件之间的关系,以及分析相关的数据和日志来确定故障事件之间的关联性。
传统的故障事件关联性分析方法由于依赖于有限的人工经验,对于复杂和多样化的故障事件场景,工程师可能面临困惑和错误的关联性分析;其次,手动分析需要大量时间和精力投入,效率较低,无法满足快速故障恢复的需求;另外,对于大规模数据的处理能力有限,无法处理复杂的系统环境中产生的大量事件数据。
发明内容
本发明的主要目的在于提供一种涉及故障事件的关联性分析方法、装置、系统以及存储介质,旨在解决需要手动分析故障事件之间的关联性的技术问题。
为实现上述目的,本发明提供一种故障事件的关联性分析方法,所述故障事件的关联性分析方法包括:
采集和预处理软硬件数据,并基于所述软硬件数据构建软硬知识图谱;
基于告警数据和/或历史故障事件数据进行关联性处理,得到故障事件之间的潜在关联性;
根据所述故障事件之间的潜在关联性,构建故障事件关联性知识图谱;
当新的告警事件产生时,通过所述软硬知识图谱和所述故障事件关联性知识图谱对所述新的告警事件进行关联性分析。
可选地,所述采集和预处理软硬件信息,并基于所述软硬件信息构建软硬知识图谱的步骤包括:
从硬件设备、软件应用、服务、用户、日志报告和安全模块收集软硬件数据;
通过数据处理和分析算法平台对所述软硬件数据进行清洗和处理;
对清洗后的软硬件数据进行标准格式转化操作;
将标准化后的软硬件数据导入图库;
通过所述图库基于所述标准化后的软硬件数据构建软硬知识图谱。
可选地,所述基于告警数据和/或历史故障事件数据进行关联性处理,得到故障事件之间的潜在关联性的步骤包括:
通过预先训练好的大语言模型对告警数据进行关联性分析,得到故障事件之间的潜在关联性;和/或
通过机器学习算法对历史故障事件数据进行关联性挖掘,得到故障事件之间的潜在关联性。
可选地,所述通过预先训练好的大语言模型对告警数据进行关联性挖掘,得到故障事件之间的潜在关联性的步骤包括:
通过监控工具生成告警数据,并将所述告警数据存储于配置文件中;
解析所述配置文件,提取出告警数据中的关键信息,并对所述关键信息进行清洗;
对清洗后的关键信息进行遍历,选择相应的告警规则进行匹配,得到告警触发条件;
结合所述软硬知识图谱,确定监控对象的依赖关系;
根据所述依赖关系和所述告警触发条件,构建用于查询大预言模型的提示语句;
通过预先训练好的大语言模型基于所述提示语句分析并预测故障事件之间的潜在关联性。
可选地,所述通过机器学习算法对历史故障事件数据进行关联性分析,得到故障事件之间的潜在关联性的步骤包括:
从维护系统、日志记录以及故障报告获取历史故障事件数据;
对所述历史故障事件数据进行数据清洗;
根据所述软硬知识图谱,确定监控对象的逻辑关系;
根据所述逻辑关系,对每个清洗后的历史故障事件数据定义唯一标识符,并将所述清洗后的历史故障事件数据按照时间条件分组到数组中;
通过时间窗口滑动技术,获取一系列时间相关的故障事件数组;
基于所述一系列时间相关的故障事件数组,构建标准化数据集;
通过机器学习算法对所述标准化数据集进行频繁式挖掘,得到常见的故障事件组合和序列;
基于所述常见的故障事件组合和序列,挖掘故障事件之间的关系;
通过所述唯一标识符,将故障事件之间的关系的挖掘结果映射到实际的故障事件类型上;
基于映射结果,得到故障事件之间的潜在关联性。
可选地,所述根据所述故障事件之间的潜在关联性,构建关联性知识图谱的步骤包括:
将通过预先训练好的大语言模型对警告数据进行分析得到的故障事件之间的潜在关联性整合成结构化的知识;
基于所述结构化的知识和基于通过机器学习算法对标准化数据集进行频繁式挖掘得到的故障事件之间的潜在关联性,构建故障事件关联性知识图谱。
可选地,所述构建故障事件关联性知识图谱之后,还包括:
基于新产生的告警事件数据,对故障事件关联性知识图谱进行定期更新。
可选地,所述当新的告警事件产生时,通过所述软硬知识图谱和所述故障事件关联性知识图谱对所述新的告警事件进行关联性分析的步骤包括:
当新的告警事件产生时,根据软硬知识图谱和故障事件关联性知识图谱分析所述新的告警事件的故障可能原因,并基于所述新的告警事件的故障可能原因生成相应的解决建议。
本申请实施例还提出一种故障事件的关联性分析装置,所述故障事件的关联性分析装置包括:
软硬知识图谱构建模块,用于采集和预处理软硬件数据,并基于所述软硬件数据构建软硬知识图谱;
故障事件关联性处理模块,用于基于告警数据和/或历史故障事件数据进行关联性处理,得到故障事件之间的潜在关联性;
故障事件管理模块,用于当新的告警事件产生时,通过所述软硬知识图谱和所述故障事件关联性知识图谱对所述新的告警事件进行关联性分析。
本申请实施例还提出一种故障事件的关联性分析系统,所述故障事件的关联性分析系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的故障事件的关联性分析方法程序,所述故障事件的关联性分析方法程序配置为实现如上所述的故障事件的关联性分析方法的步骤。
本申请实施例还提出一种存储介质,所述存储介质上存储有故障事件的关联性分析方法程序,所述故障事件的关联性分析方法程序被处理器执行时实现如上所述的故障事件的关联性分析方法的步骤。
本申请实施例通过上述方法,具体通过采集和预处理软硬件数据,并基于软硬件数据构建软硬知识图谱;基于告警数据和/或历史故障事件数据进行关联性处理,得到故障事件之间的潜在关联性;根据故障事件之间的潜在关联性,构建故障事件关联性知识图谱;当新的告警事件产生时,通过软硬知识图谱和故障事件关联性知识图谱对新的告警事件进行关联性分析。该方案通过机器学习方法和数据挖掘技术,实现快速、准确的故障事件关联性分析,有效提高故障管理的效率和效果,帮助快速解决故障事件,提升系统的可靠性和稳定性。
附图说明
图1是本申请故障事件的关联性分析装置所属系统的功能模块示意图;
图2为本申请故障事件的关联性分析方法第一示例性实施例的流程示意图;
图3为本申请故障事件的关联性分析方法第一示例性实施例中涉及的软硬知识图谱的构建流程示意图;
图4为本申请故障事件的关联性分析方法第一示例性实施例中涉及的基于大语言模型的故障事件关联性分析方案流程示意图;
图5为本申请故障事件的关联性分析方法第一示例性实施例中涉及的基于机器学习算法的故障事件关联性分析方案流程示意图;
图6为本申请故障事件的关联性分析方法第二示例性实施例的流程示意图;
图7为本申请故障事件的关联性分析方法第三示例性实施例的流程示意图;
图8为本申请故障事件的关联性分析方法的具体场景举例中涉及的对物理机故障导致虚拟机和节点批量出现的故障事件进行关联性分析的流程说明图;
图9为本申请故障事件的关联性分析方法的具体场景举例中涉及的物理机故障导致虚拟机和节点批量出现故障的分析效果图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例的主要解决方案是:采集和预处理软硬件数据,并基于软硬件数据构建软硬知识图谱;基于告警数据和/或历史故障事件数据进行关联性处理,得到故障事件之间的潜在关联性;根据故障事件之间的潜在关联性,构建故障事件关联性知识图谱;当新的告警事件产生时,通过软硬知识图谱和故障事件关联性知识图谱对新的告警事件进行关联性分析。该方案利用机器学习和数据挖掘技术的强大表征学习能力以及深度学习算法,结合系统产生的日志、监控数据和代码等信息,实现快速、准确的故障事件关联性分析。
专业技术术语:
软硬知识图谱:一种用于描述系统中各种元素之间关系的知识表示方式。它可以帮助运维人员更好地理解和管理复杂的平台系统。软硬知识图谱通常包括两个方面:软知识图谱和硬知识图谱。软知识图谱是指对系统中各种元素的语义描述,包括它们的属性、类别、关系等。硬知识图谱则是指对系统中各种元素的物理表示,包括它们的位置、连接方式、配置等。
故障事件关联性知识图谱:一种基于图形结构的知识表示方法,旨在揭示不同故障事件之间的关联性和相互影响。这个知识图谱可以帮助运维人员更好地理解系统中各种故障事件之间的复杂关系,从而更有效地进行故障诊断和处理。
本申请实施例考虑到,目前故障事件关联性分析方案依赖于工程师的经验和技能,需要手动分析故障事件之间的关系,以及分析相关的数据和日志来确定故障事件之间的关联性。其方案的分析效率极低,并且容易出现遗漏或错误的情况。
基于此,本申请提出一种实施例方法,能够准确地分析和识别故障事件之间的关联性,不受工程师经验水平的限制,从而提高了关联性分析的准确性和可靠性。
具体地,参照图1,图1为本申请故障事件的关联性分析装置所属系统的功能模块示意图。该系统可以为监控系统、数据分析系统、故障管理系统等。本实施例以故障管理系统进行举例说明。
在本实施例中,该故障事件的关联性分析装置所属系统至少包括数据采集模块110、处理器120、存储器130以及关联性分析模块140。
存储器130存储有操作系统以及故障事件的关联性分析程序,故障事件的关联性分析装置可以将采集到的软硬件数据,生成的告警数据和历史故障事件数据存储于存储器130中;数据采集模块110负责从各个系统和设备中收集软硬件数据、故障事件数据和日志;关联性分析模块140可以识别故障事件之间的关联性。
其中,存储器130中的故障事件关联性的分析程序被处理器120执行时实现以下步骤:
采集和预处理软硬件数据,并基于所述软硬件数据构建软硬知识图谱;
基于告警数据和/或历史故障事件数据进行关联性处理,得到故障事件之间的潜在关联性;
根据所述故障事件之间的潜在关联性,构建故障事件关联性知识图谱;
当新的告警事件产生时,通过所述软硬知识图谱和所述故障事件关联性知识图谱对所述新的告警事件进行关联性分析。
进一步地,存储器130中的故障事件关联性的分析程序被处理器120执行时还实现以下步骤:
从硬件设备、软件应用、服务、用户、日志报告和安全模块收集软硬件数据;
通过数据处理和分析算法平台对所述软硬件数据进行清洗和处理;
对清洗后的软硬件数据进行标准格式转化操作;
将标准化后的软硬件数据导入图库;
通过所述图库基于所述标准化后的软硬件数据构建软硬知识图谱。
进一步地,存储器130中的故障事件关联性的分析程序被处理器120执行时还实现以下步骤:
通过预先训练好的大语言模型对告警数据进行关联性分析,得到故障事件之间的潜在关联性;和/或
通过机器学习算法对历史故障事件数据进行关联性挖掘,得到故障事件之间的潜在关联性。
进一步地,存储器130中的故障事件关联性的分析程序被处理器120执行时还实现以下步骤:
通过监控工具生成告警数据,并将所述告警数据存储于配置文件中;
解析所述配置文件,提取出告警数据中的关键信息,并对所述关键信息进行清洗;
对清洗后的关键信息进行遍历,选择相应的告警规则进行匹配,得到告警触发条件;
根据所述依赖关系和所述告警触发条件,构建用于查询大预言模型的
结合所述软硬知识图谱,确定监控对象的依赖关系;提示语句;
通过预先训练好的大语言模型基于所述提示语句分析并预测故障事件之间的潜在关联性。
进一步地,存储器130中的故障事件关联性的分析程序被处理器120执行时还实现以下步骤:
从维护系统、日志记录以及故障报告获取历史故障事件数据;
对所述历史故障事件数据进行数据清洗;
根据所述软硬知识图谱,确定监控对象的逻辑关系;
根据所述逻辑关系,对每个清洗后的历史故障事件数据定义唯一标识符,并将所述清洗后的历史故障事件数据按照时间条件分组到数组中;
通过时间窗口滑动技术,获取一系列时间相关的故障事件数组;
基于所述一系列时间相关的故障事件数组,构建标准化数据集;
通过机器学习算法对所述标准化数据集进行频繁式挖掘,得到常见的故障事件组合和序列;
基于所述常见的故障事件组合和序列,挖掘故障事件之间的关系;
通过所述唯一标识符,将故障事件之间的关系的挖掘结果映射到实际的故障事件类型上;
基于映射结果,得到故障事件之间的潜在关联性。
进一步地,存储器130中的故障事件关联性的分析程序被处理器120执行时还实现以下步骤:
将通过预先训练好的大语言模型对警告数据进行分析得到的故障事件之间的潜在关联性整合成结构化的知识;
基于所述结构化的知识和基于通过机器学习算法对标准化数据集进行频繁式挖掘得到的故障事件之间的潜在关联性,构建故障事件关联性知识图谱。
进一步地,存储器130中的故障事件关联性的分析程序被处理器120执行时还实现以下步骤:
基于新产生的告警事件数据,对故障事件关联性知识图谱进行定期更新。
进一步地,存储器130中的故障事件关联性的分析程序被处理器120执行时还实现以下步骤:
当新的告警事件产生时,根据软硬知识图谱和故障事件关联性知识图谱分析所述新的告警事件的故障可能原因,并基于所述新的告警事件的故障可能原因生成相应的解决建议。
本实施例通过上述方案,具体通过采集和预处理软硬件数据,并基于软硬件数据构建软硬知识图谱;基于告警数据和/或历史故障事件数据进行关联性处理,得到故障事件之间的潜在关联性;根据故障事件之间的潜在关联性,构建故障事件关联性知识图谱;当新的告警事件产生时,通过软硬知识图谱和故障事件关联性知识图谱对新的告警事件进行关联性分析。该方案通过机器学习方法和数据挖掘技术,实现快速、准确的故障事件关联性分析,有效提高故障管理的效率和效果,帮助快速解决故障事件,提升系统的可靠性和稳定性。
基于上述系统架构但不限于上述架构,提出本申请方法实施例。
参照图2,图2为本申请故障事件的关联性分析方法第一示例性实施例的流程示意图。所述故障事件的关联性分析方法包括:
步骤S10,采集和预处理软硬件数据,并基于所述软硬件数据构建软硬知识图谱。
由于目前故障时间关联性分析操作依赖于工程师的经验和技能,需要手动分析故障事件之间的关系,以及分析相关的数据和日志来确定故障事件之间的关联性,对于复杂和多样化的故障事件场景,工程师可能面临困惑和错误的关联性分析;手动分析需要大量时间和精力投入,效率较低,无法满足快速故障恢复的需求;对于大规模数据的处理能力有限,无法处理复杂的系统环境中产生的大量事件数据。
因此,本申请实施例提出一种解决方案,利用机器学习和数据挖掘技术,自动分析和识别故障事件之间的关联性,从而解决了传统方法中依赖人工经验和手动调试的局限性。
在本实施例中,首先需要采集和预处理软硬件数据,并基于所述软硬件数据构建软硬知识图谱。
在本实施例中,软硬知识图谱主要基于六个方面的数据构建:
1)硬件设备数据:这部分数据包括服务器、存储设备、网络设备等的规格、型号、数量、使用情况等信息。通过硬知识图谱,可以清晰地了解到这些设备的布局、连接关系以及它们在系统中的角色;
2)软件应用数据:这部分数据包括操作系统、中间件、数据库、应用程序等的版本、配置、使用情况等信息。在软件知识图谱中,可以看到这些软件的层次结构、调用关系以及它们在系统中的功能;
3)服务数据:这部分数据包括服务的类型、级别、可用性、性能等信息。通过将服务与硬件和软件元素关联起来,可以更好地理解服务在系统中的作用和影响。
4)用户数据:这部分数据包括用户的身份、权限、使用情况等信息。用户数据与其他元素的关联可以帮助运维人员了解用户对系统的影响和需求。
5)日志数据:这部分数据包括系统、应用、服务等的日志信息,用于监控和故障排查。通过将日志数据与其他元素关联起来,可以更好地理解故障发生的原因和影响范围。
6)安全数据:这部分数据包括安全策略、访问控制、加密等信息,用于保障系统的安全性。安全数据与其他元素的关联可以帮助运维人员识别潜在的安全风险和漏洞。
基于上述数据,具体的软硬知识图谱的构建过程,如图3所示,图3为软硬知识图谱的构建流程示意图。
具体地,首先,从硬件设备、软件应用、服务、用户、日志和安全等方面收集软硬件数据,其中,这些软硬件数据包括设备规格、软件版本、服务级别、用户权限等信息。
然后,通过数据处理和分析算法平台,如Pyflink算法平台,对收集到的软硬件数据进行清洗和处理,去除无效或冗余的信息,确保软硬件数据的质量和准确性。并将清洗后的软硬件数据转化为标准格式,便于后续的处理和分析。
最后,将标准化后的软硬件数据导入图库,构建软硬知识图谱。其中,在软硬知识图谱中,各种软硬件元素被表示为节点,它们之间的关联和交互则通过边来描述。例如,硬件设备和软件应用可能会形成调用或依赖关系,服务和用户可能会存在授权或访问关系,这些关系都可以在图谱中清晰可见。
通过上述步骤,构建软硬知识图谱可以帮助用户更好地理解和管理复杂的平台系统,还可以帮助用户更好地理解和分析系统和设备之间的关联关系,发现潜在的问题和机会。
步骤S20,基于告警数据和/或历史故障事件数据进行关联性处理,得到故障事件之间的潜在关联性。
在本实施例中,需要收集系统中新产生的告警事件数据,并对这些告警事件数据进行分析,提取其中的关联性信息。
最后,根据关联性分析的结果,构建故障事件之间的关联性知识图谱。
进一步地,在本实施例中,是通过预先训练好的大语言模型和机器学习算法对告警事件数据和/或历史故障事件数据进行关联性处理。具体步骤包括:
步骤S21,通过预先训练好的大语言模型对告警数据进行关联性分析,得到故障事件之间的潜在关联性。
其中,大语言模型是一种基于深度学习的自然语言处理模型,它能够对文本数据进行建模和生成。
在本实施例中,可以将告警事件输入到预先训练好的大语言模型中,并通过预先训练好的大语言模型分析告警事件间的潜在关联性。如图4所示,图4为基于大语言模型的故障事件关联性分析方案流程示意图。
具体地,首先,从监控系统(如Prometheus,开源的监控和警报工具)中导出已经配置好的告警数据,并将这些告警数据存储在YAML格式的配置文件中。
接着,解析该YAML文件,提取出故障事件类型、监控对象、告警触发条件等关键信息,并对这些关键信息进行清洗,去除不必要的数据或格式化数据,以便于进一步处理。
然后,对提取出的关键信息进行遍历,选择相关的告警规则进行匹配,并结合通过上述步骤S10构建好的软硬知识图谱,确定监控对象的依赖关系,例如,上下游服务、组件间的连接等。
进一步地,根据监控对象的依赖关系和告警触发条件,构建用于查询大语言模型的提示语句,即,对大语言模型进行模型训练,以便于大语言模型能够理解和分析故障事件的关联性。
在使用预先训练好的大语言模型除了构建好的提示语句时,预先训练好的大语言模型会根据提示语句分析并预测故障时间之间潜在关联性。
步骤S22,通过机器学习算法对历史故障事件数据进行关联性挖掘,得到故障事件之间的潜在关联性。
其中,机器学习算法是指通过从数据中学习模式和规律来进行预测、分类、聚类等任务的算法。
在本实施例中,利用机器学习算法和历史故障事件数据来揭示故障之间潜在关系。如图5所示,图5为基于机器学习算法的故障事件关联性分析方案流程示意图。
具体地,首先,需要从维护系统、日志记录、故障报告等获取历史故障事件数据,确保历史故障事件数据覆盖足够的时间范围和故障类型,以便构建全面的知识图谱。
然后,对这些历史故障事件数据进行清洗,识别并移除无法解读的历史故障事件数据和明显的错误记录,并从清洗后的历史故障事件数据中提取关键信息,如故障事件类型、故障对象和故障发生时间,对于非标准化历史故障进行格式转换和内容标准化处理。
接着,根据上述步骤S10构建的软硬知识图谱确定监控对象的逻辑关系,如依赖关系、兼容性和上下游关系。
为每个故障时间定义一个唯一标识符,并将这些定义了标识符的故障事件按时间分组到数组中。
随后,使用时间窗口滑动技术,连续获取一系列时间相关的故障事件数组,构建标准化数据集。
进一步地,通过机器学习算法对标准化数据集进行频繁模式挖掘,得到常见的故障组合和序列,并分析这些常见故障组合之间的关系,如频繁一起发生的故障,以及故障事件之间的置信度。
最后,解析标识符,将挖掘出的关系映射回实际的故障事件类型上,得到故障事件之间的潜在关联性。
例如,假设有一个系统中的故障事件被标识为不同的KEY,如“KEY1”、“KEY2”、“KEY3”等。通过挖掘这些故障事件的数据,可以发现它们之间存在某种关系或模式,比如它们可能都与网络连接问题相关。通过将这些KEY映射回实际的故障事件类型,可以更好地理解和处理这些故障事件,采取相应的措施进行修复或预防。
综上所述,通过利用预先训练好的大语言模型进行关联性分析,可以帮助发现故障事件之间的潜在关联性,从而更好地理解系统的运行状况和故障原因,提高故障诊断和预测的准确性和效率,为构建故障事件关联性知识图谱提供了依据;通过机器学习算法对历史故障事件数据进行关联性挖掘,可以帮助我们发现隐藏的关联关系,辅助故障诊断和排查,提高故障预测和预防能力,也为后续的构建故障事件关联性知识图谱提供了依据。
步骤S30,根据所述故障事件之间的潜在关联性,构建故障事件关联性知识图谱。
其中,故障事件关联性知识图谱主要包括以下几个方面的内容:
1)告警事件类型之间的关联性:这涉及识别和分析不同类型的告警事件之间的相关性。例如,某个硬件设备的故障可能会导致多个软件应用程序的错误报告。
2)关联性类型:关联性可以是因果关联,也可以是互相关联。因果关联意味着一个事件直接导致了另一个事件,而互相关联则意味着两个或多个事件之间存在双向依赖关系。例如,如果服务器硬盘的故障导致了数据库连接丢失,那么这就是一个因果关联;但如果服务器负载过高既影响了数据库响应时间,又影响了Web服务的可用性,那么这就是一个互相关联。
3)关联性强度:评估关联性的强弱程度对于确定优先级和解决策略至关重要。可以使用概率分析、机器学习算法等方法来计算关联性的强度。例如,如果发现当CPU使用率超过80%时,Web服务的响应时间会明显变慢,那么我们就可以得出结论:CPU使用率和Web服务响应时间之间存在较强的关联。
4)关联性准确性:通过实际数据验证关联性的正确性和可靠性,以确保知识图谱的有效性和实用性。
这些信息被组织成一个图形结构,其中每个节点代表一个告警事件类型,边则表示他们之间的关联性。
基于上述信息,根据所述故障事件之间的潜在关联性,构建故障事件关联性知识图谱的过程,具体为,将上述步骤S20得到的预先训练好的大语言模型提供的故障事件之间的潜在关联性整理成结构化的知识。
基于结构化的知识和上述步骤S30中通过机器学习算法对标准化数据集进行频繁式挖掘得到的故障事件之间的潜在关联性,构建一个故障事件关联性知识图谱。
其中,该故障事件关联性知识图谱可以展示不同故障事件之间的关系,包括直接的因果关系和间接的相关性。并且使用节点来表示故障事件,使用边来表示故障时间之间的关联性。
综上所述,故障事件关联性知识图谱提供了一个全局视图,使得运维人员能够更好地理解系统中各种故障事件之间的复杂关系,从而更快地识别和解决问题。
步骤S40,当新的告警事件产生时,通过所述软硬知识图谱和所述故障事件关联性知识图谱对所述新的告警事件进行关联性分析。
具体地,当新的告警事件产生时,会将其输入到软硬知识图谱和故障事件关联性知识图谱中进行关联性分析。
此外,还可以基于历史故障事件数据、软硬知识图谱和所述故障事件关联性知识图谱,使用机器学习算法进行故障预测,帮助用户在故障发生之前采取预防措施。
通过上述步骤,通过软硬知识图谱和故障事件关联性知识图谱对新的告警事件进行关联性分析,可以快速定位问题、提供上下文信息、改进故障预测和预防能力,指导决策和优化运维策略,从而提高系统的可靠性和稳定性。
进一步地,参照图6,图6为本申请故障事件的关联性分析方法第二示例性实施例的流程示意图。在本实施例中,基于上述步骤S40,所述根据所述故障事件之间的潜在关联性,构建关联性知识图谱的步骤之后,还包括:
步骤S41,基于新产生的告警事件数据,对故障事件关联性知识图谱进行定期更新。
相比于上述实施例,本实施例还包括定期更新故障事件关联性知识图谱的方法。
在本实施例中,当新的告警事件产生时,收集新产生的告警事件数据,并对收集到的新的告警事件数据进行分析,可以通过机器学习算法、数据挖掘技术等方法,对告警事件数据进行处理和分析,提取其中的关联性信息。
然后,根据分析得到的关联性信息,对故障事件关联性知识图谱进行更新。其中,更新操作可以包括添加新的关联关系、更新已有的关联关系、删除不再有效的关联关系等操作。更新后的故障事件关联性知识图谱将包含最新的关联性信息,反映系统中故障事件之间的关系。
此外,在本实施例中更新故障事件关联性知识图谱是一个定期的过程,因此,可以通过设置更新频率作为更新故障事件关联性知识图谱的更新触发条件,例如,可以是每天、每周或每月进行一次更新。定期更新可以保证故障事件关联性知识图谱的准确性和实时性,使其能够反映系统中最新的关联性信息。
通过上述实施例,确保了故障事件关联性知识图谱能够及时适应系统环境的变化和不断演进的故障场景,为故障事件的关联性分析提供准确、高效和靠谱的解决方案。
进一步地,参照图7,图7为本申请故障事件的关联性分析方法第三示例性实施例的流程示意图。在本实施例中,基于上述步骤S50,所述当新的告警事件产生时,通过所述软硬知识图谱和所述故障事件关联性知识图谱对所述新的告警事件进行关联性分析的步骤之后,还包括:
步骤S51,当新的告警事件产生时,根据软硬知识图谱和故障事件关联性知识图谱分析所述新的告警事件的故障可能原因,并基于所述新的告警事件的故障可能原因生成相应的解决建议。
相比于上述实施例,本实施例还包括了在新的告警事件产生时,生成对应的解决建议的方法。
具体地,当新的告警事件产生时,收集新的告警事件数据,并将这些新的告警事件数据与故障事件关联性知识图谱进行关联性分析。故障事件关联性知识图谱包含了历史故障事件之间的关联关系。通过将告警事件与这些知识图谱进行关联性分析,可以确定与新的告警事件相关的历史故障事件,从而推断可能的故障原因。
基于分析得到的故障可能原因,生成相应的解决建议。解决建议可以包括故障排查的步骤、修复的方法、建议的操作等。解决建议应根据具体的故障原因和系统的特点进行定制,以提供针对性的解决方案。
通过上述实施例,不论有无经验的用户都可以根据相应的解决建议采取相应的措施进行故障排查和修复,以恢复系统的正常运行。
以下结合具体场合对本申请实施例方法进行详细阐述。
比如,以一个物理机故障导致虚拟机和节点批量出现故障作为举例。
参照图8,图8为对物理机故障导致虚拟机和节点批量出现的故障事件进行关联性分析的流程说明图。
具体地,首先,需要采集和预处理与软硬件相关的数据,包括物理机的硬件信息、虚拟机的配置信息、节点的状态信息等。并将这些数据进行清洗和转化标准化操作。根据这些清洗后的数据构建软硬知识图谱,将不同故障元素之间的关系和属性进行建模。
然后,将历史的告警数据输入到预先训练好的大语言模型中,通过预先训练好的大语言模型的语义理解和关联性分析能力,可以分析出物理机故障与虚拟机和节点故障之间的潜在关联性。
接着,使用机器学习算法对历史故障时间数据进行关联性挖掘,得到故障事件之间的潜在关联性。机器学习算法可以分析历史数据中的模式和规律,发现物理机故障与虚拟机和节点故障之间的关联性。
之后,根据所得到的故障事件之间的潜在关联性,构建故障事件关联性知识图谱。其中,可以将物理机故障、虚拟机故障和节点故障作为节点,将它们之间的关联性作为边进行建模。
当新的告警事件产生时,将新的告警事件与软硬知识图谱和故障事件关联性知识图谱进行关联性分析。其中,如图9所示,图9为物理机故障导致虚拟机和节点批量出现故障的分析效果图。
通过分析新的告警事件与已有的知识图谱中的节点和边的关系,可以判断该事件与物理机故障的关联性,并进一步推断出可能导致虚拟机和节点批量出现故障的原因。
通过上述实施例,可以利用软硬知识图谱和故障事件关联性知识图谱对新的告警事件进行关联性分析,帮助快速定位物理机故障导致虚拟机和节点批量出现的故障原因,并提供相应的解决建议。
通过上述实施例方法,具体通过采集和预处理软硬件数据,并基于软硬件数据构建软硬知识图谱;基于告警数据和/或历史故障事件数据进行关联性处理,得到故障事件之间的潜在关联性;根据故障事件之间的潜在关联性,构建故障事件关联性知识图谱;当新的告警事件产生时,通过软硬知识图谱和故障事件关联性知识图谱对新的告警事件进行关联性分析。该方案首先,它能够准确地分析和识别故障事件之间的关联性,不受工程师经验水平的限制,从而提高了关联性分析的准确性和可靠性。其次,本方案具备处理大规模数据的能力,可以高效地处理系统产生的海量事件数据,加快了关联性分析的速度和效率。此外,本方案还具有高度的自动化程度,能够自动识别和分析故障事件之间的关联性,减少了手动调试和排查的工作量,提升了关联性分析的效率和响应速度。另外,本方案中提供的知识图谱的快速更新迭代也确保了它能够及时适应系统环境的变化和不断演进的故障场景。综上所述,本申请的故障事件关联性分析方法通过自动化、高效性和开源免费等特点,解决了传统手动分析方法中依赖人工经验和手动调试的局限性,为故障事件的关联性分析提供了准确、高效和可靠的解决方案。
此外,本实施例还提出一种故障事件的关联性分析装置,所述故障事件的关联性分析装置包括:
软硬知识图谱构建模块,用于采集和预处理软硬件数据,并基于所述软硬件数据构建软硬知识图谱;
故障事件关联性处理模块,用于基于告警数据和/或历史故障事件数据进行关联性处理,得到故障事件之间的潜在关联性;
故障管理模型,用于当新的告警事件产生时,通过所述软硬知识图谱和所述故障事件关联性知识图谱对所述新的告警事件进行关联性分析。
本实施例实现故障事件的关联性分析的原理及实施过程,请参照上述各实施例,在此不再赘述。
此外,本申请实施例还提出一种故障事件的关联性分析系统,所述故障事件的关联性分析系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的故障事件的关联性分析程序,所述故障事件的关联性分析程序配置为实现如上所述的故障事件的关联性分析方法的步骤。
由于故障事件的关联性分析程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
此外,本申请实施例还提出一种存储介质,所述存储介质上存储有故障事件的关联性分析程序,所述故障事件的关联性分析程序被处理器执行时实现如上所述的故障事件的关联性分析方法的步骤。
由于故障事件的关联性分析程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还 包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、 方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光 盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (11)

1.一种故障事件的关联性分析方法,其特征在于,所述故障事件的关联性分析方法包括以下步骤:
采集和预处理软硬件数据,并基于所述软硬件数据构建软硬知识图谱;
基于告警数据和/或历史故障事件数据进行关联性处理,得到故障事件之间的潜在关联性;
根据所述故障事件之间的潜在关联性,构建故障事件关联性知识图谱;
当新的告警事件产生时,通过所述软硬知识图谱和所述故障事件关联性知识图谱对所述新的告警事件进行关联性分析。
2.如权利要求1所述的故障事件的关联性分析方法,其特征在于,所述采集和预处理软硬件数据,并基于所述软硬件数据构建软硬知识图谱的步骤包括:
从硬件设备、软件应用、服务、用户、日志报告和安全模块收集软硬件数据;
通过数据处理和分析算法平台对所述软硬件数据进行清洗和处理;
对清洗后的软硬件数据进行标准格式转化操作;
将标准化后的软硬件数据导入图库;
通过所述图库基于所述标准化后的软硬件数据构建软硬知识图谱。
3.如权利要求1所述的故障事件的关联性分析方法,其特征在于,所述基于告警数据和/或历史故障事件数据进行关联性处理,得到故障事件之间的潜在关联性的步骤包括:
通过预先训练好的大语言模型对告警数据进行关联性分析,得到故障事件之间的潜在关联性;和/或
通过机器学习算法对历史故障事件数据进行关联性挖掘,得到故障事件之间的潜在关联性。
4.如权利要求3所述的故障事件的关联性分析方法,其特征在于,所述通过预先训练好的大语言模型对告警数据进行关联性挖掘,得到故障事件之间的潜在关联性的步骤包括:
通过监控工具生成告警数据,并将所述告警数据存储于配置文件中;
解析所述配置文件,提取出告警数据中的关键信息,并对所述关键信息进行清洗;
对清洗后的关键信息进行遍历,选择相应的告警规则进行匹配,得到告警触发条件;
结合所述软硬知识图谱,确定监控对象的依赖关系;
根据所述依赖关系和所述告警触发条件,构建用于查询大预言模型的提示语句;
通过预先训练好的大语言模型基于所述提示语句分析并预测故障事件之间的潜在关联性。
5.如权利要求3所述的故障事件的关联性分析方法,其特征在于,所述通过机器学习算法对历史故障事件数据进行关联性分析,得到故障事件之间的潜在关联性的步骤包括:
从维护系统、日志记录以及故障报告获取历史故障事件数据;
对所述历史故障事件数据进行数据清洗;
根据所述软硬知识图谱,确定监控对象的逻辑关系;
根据所述逻辑关系,对每个清洗后的历史故障事件数据定义唯一标识符,并将所述清洗后的历史故障事件数据按照时间条件分组到数组中;
通过时间窗口滑动技术,获取一系列时间相关的故障事件数组;
基于所述一系列时间相关的故障事件数组,构建标准化数据集;
通过机器学习算法对所述标准化数据集进行频繁式挖掘,得到常见的故障事件组合和序列;
基于所述常见的故障事件组合和序列,挖掘故障事件之间的关系;
通过所述唯一标识符,将故障事件之间的关系的挖掘结果映射到实际的故障事件类型上;
基于映射结果,得到故障事件之间的潜在关联性。
6.如权利要求1所述的故障事件的关联性分析方法,其特征在于,所述根据所述故障事件之间的潜在关联性,构建关联性知识图谱的步骤包括:
将通过预先训练好的大语言模型对警告数据进行分析得到的故障事件之间的潜在关联性整合成结构化的知识;
基于所述结构化的知识和基于通过机器学习算法对标准化数据集进行频繁式挖掘得到的故障事件之间的潜在关联性,构建故障事件关联性知识图谱。
7.如权利要求1所述的故障事件的关联性分析方法,其特征在于,所述根据所述故障事件之间的潜在关联性,构建关联性知识图谱的步骤之后,还包括:
基于新产生的告警事件数据,对故障事件关联性知识图谱进行定期更新。
8.如权利要求1所述的故障事件的关联性分析方法,其特征在于,所述当新的告警事件产生时,通过所述软硬知识图谱和所述故障事件关联性知识图谱对所述新的告警事件进行关联性分析的步骤之后,还包括:
当新的告警事件产生时,根据软硬知识图谱和故障事件关联性知识图谱分析所述新的告警事件的故障可能原因,并基于所述新的告警事件的故障可能原因生成相应的解决建议。
9.一种故障事件的关联性分析装置,其特征在于,所述故障事件的关联性分析装置包括:
软硬知识图谱构建模块,用于采集和预处理软硬件数据,并基于所述软硬件数据构建软硬知识图谱;
故障事件关联性处理模块,用于基于告警数据和/或历史故障事件数据进行关联性处理,得到故障事件之间的潜在关联性;
故障事件关联性知识图谱构建模块,用于根据所述故障事件之间的潜在关联性,构建故障事件关联性知识图谱;
故障事件管理模块,用于当新的告警事件产生时,通过所述软硬知识图谱和所述故障事件关联性知识图谱对所述新的告警事件进行关联性分析。
10.一种故障事件的关联性分析系统,其特征在于,所述故障事件的关联性分析系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的故障事件的关联性分析方法程序,所述故障事件的关联性分析方法程序配置为实现如权利要求1至8中任一项所述的故障事件的关联性分析方法的步骤。
11.一种存储介质,其特征在于,所述存储介质上存储有故障事件的关联性分析方法程序,所述故障事件的关联性分析方法程序被处理器执行时实现如权利要求1至8中任一项所述的故障事件的关联性分析方法的步骤。
CN202410328875.8A 2024-03-21 2024-03-21 故障事件的关联性分析方法、装置、系统以及存储介质 Pending CN118133962A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410328875.8A CN118133962A (zh) 2024-03-21 2024-03-21 故障事件的关联性分析方法、装置、系统以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410328875.8A CN118133962A (zh) 2024-03-21 2024-03-21 故障事件的关联性分析方法、装置、系统以及存储介质

Publications (1)

Publication Number Publication Date
CN118133962A true CN118133962A (zh) 2024-06-04

Family

ID=91230010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410328875.8A Pending CN118133962A (zh) 2024-03-21 2024-03-21 故障事件的关联性分析方法、装置、系统以及存储介质

Country Status (1)

Country Link
CN (1) CN118133962A (zh)

Similar Documents

Publication Publication Date Title
CN111209131B (zh) 一种基于机器学习确定异构系统的故障的方法和系统
US11429614B2 (en) Systems and methods for data quality monitoring
Debnath et al. LogLens: A real-time log analysis system
Zhao et al. Identifying bad software changes via multimodal anomaly detection for online service systems
Yuan et al. An approach to cloud execution failure diagnosis based on exception logs in openstack
CN113326244B (zh) 一种基于日志事件图和关联关系挖掘的异常检测方法
WO2019051042A1 (en) APPARATUS AND METHOD FOR REAL-TIME ANALYSIS, PREDICTION AND ABORIGINAL DATA BASE TRANSACTION LOG ACTIVITY REPORT
US9489379B1 (en) Predicting data unavailability and data loss events in large database systems
Lou et al. Experience report on applying software analytics in incident management of online service
CN114968727B (zh) 基于人工智能运维的数据库贯穿基础设施的故障定位方法
US7398511B2 (en) System and method for providing a health model for software
Cai et al. A real-time trace-level root-cause diagnosis system in alibaba datacenters
Lin et al. FacGraph: Frequent anomaly correlation graph mining for root cause diagnose in micro-service architecture
CN115114064A (zh) 一种微服务故障分析方法、系统、设备及存储介质
Yuan et al. Learning-based anomaly cause tracing with synthetic analysis of logs from multiple cloud service components
Hwang et al. Fixme: Enhance software reliability with hybrid approaches in cloud
Platini et al. LogFlow: simplified log analysis for large scale systems
CN117291575A (zh) 设备检修方法、装置、计算机设备和存储介质
Kuang et al. Knowledge-aware Alert Aggregation in Large-scale Cloud Systems: a Hybrid Approach
Soualhia et al. Automated traces-based anomaly detection and root cause analysis in cloud platforms
CN118133962A (zh) 故障事件的关联性分析方法、装置、系统以及存储介质
Zheng et al. LEMMA-RCA: A Large Multi-modal Multi-domain Dataset for Root Cause Analysis
CN111352818B (zh) 应用程序性能分析方法、装置、存储介质及电子设备
Tadano et al. Automatic synthesis of SRN models from system operation templates for availability analysis
Chen et al. Proverr: System level statistical fault diagnosis using dependency model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination