CN113407373B - 告警处理方法、装置、计算机可读存储介质及处理器 - Google Patents

告警处理方法、装置、计算机可读存储介质及处理器 Download PDF

Info

Publication number
CN113407373B
CN113407373B CN202110673714.9A CN202110673714A CN113407373B CN 113407373 B CN113407373 B CN 113407373B CN 202110673714 A CN202110673714 A CN 202110673714A CN 113407373 B CN113407373 B CN 113407373B
Authority
CN
China
Prior art keywords
data
alarm
root cause
sample
alarm data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110673714.9A
Other languages
English (en)
Other versions
CN113407373A (zh
Inventor
李松
郭家杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shenyan Intelligent Technology Co ltd
Original Assignee
Beijing Shenyan Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shenyan Intelligent Technology Co ltd filed Critical Beijing Shenyan Intelligent Technology Co ltd
Priority to CN202110673714.9A priority Critical patent/CN113407373B/zh
Publication of CN113407373A publication Critical patent/CN113407373A/zh
Application granted granted Critical
Publication of CN113407373B publication Critical patent/CN113407373B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种告警处理方法、装置、计算机可读存储介质及处理器。其中,该方法包括:获取数据系统的告警数据,其中,数据系统包括至少一个功能层;基于告警数据,确定告警数据中来自至少一个功能层中各个功能层的数据比例;基于告警数据、数据比例和预先训练的根因分析模型,确定数据系统的告警根本原因,其中,根因分析模型基于数据系统的多组样本告警数据进行机器学习得到。本发明解决了对数据系统告警根本原因的判断依赖人工经验的技术问题。

Description

告警处理方法、装置、计算机可读存储介质及处理器
技术领域
本发明涉及运行维护领域,具体而言,涉及一种告警处理方法、装置、计算机可读存储介质及处理器。
背景技术
在智能运维领域,对数据系统的根因分析仅有一些理论处理方案,而没有成型的工程化方案。在实际的使用过程中,现有的技术在工程化方面很难落地,直接通过使用现成的主流算法来做根因分析,很难达到实际效果,初期甚至是完全不可用的。
现有的处理数据系统的报警方法中,没有统一的报警设计,另外,在大量的多端报警数据中,有很多相互依赖导致的报警,发给各个人员后,需要相关人员按照实际经验来自己去做测试和推断,进行人工根因定位,导致问题处理不够迅捷,也会有人为因素带来的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种告警处理方法、装置、计算机可读存储介质及处理器,以至少解决对数据系统告警根本原因的判断依赖人工经验的技术问题。
根据本发明实施例的一个方面,提供了一种告警处理方法,包括:获取数据系统的告警数据,其中,所述数据系统包括至少一个功能层;基于所述告警数据,确定所述告警数据中来自所述至少一个功能层中各个功能层的数据比例;基于所述告警数据、所述数据比例和预先训练的根因分析模型,确定所述数据系统的告警根本原因,其中,所述根因分析模型基于所述数据系统的多组样本告警数据进行机器学习得到。
可选地,基于所述告警数据、所述数据比例和预先训练的根因分析模型,确定所述数据系统的告警根本原因,包括:将所述数据比例输入所述根因分析模型的故障功能层识别模块,输出所述数据系统中发生故障的功能层;将来自所述发生故障的功能层的告警数据输入所述根因分析模型的根因确定模块,输出所述数据系统的告警根本原因。
可选地,基于所述告警数据,确定所述告警数据中来自所述至少一个功能层中各个功能层的数据比例,包括:获取所述告警数据中的数据标签,其中,所述数据标签用于标识告警数据与功能层的对应关系;基于所述数据标签,确定所述告警数据中来自所述至少一个功能层中各个功能层的数据比例。
可选地,基于所述告警数据,确定所述告警数据中来自所述至少一个功能层中各个功能层的数据比例之前,还包括:根据所述告警数据和根因判断逻辑树,确定所述数据系统的根因判断结果;根据所述根因判断结果确定所述数据系统的告警根本原因。
可选地,基于所述数据系统的多组样本告警数据进行机器学习得到所述根因分析模型,包括:基于根因判断逻辑树,为至少一组第一样本告警数据标注告警根本原因,得到标注后的第一样本告警数据,其中,所述第一样本告警数据为所述多组样本告警数据之一;基于预先确定的标注结果,为至少一组第二样本告警数据标注告警根本原因,得到标注后的第二样本告警数据,其中,所述第二样本告警数据为所述多组样本告警数据之一,且所述第二样本告警数据无法通过根因判断逻辑树确定告警根本原因;使用所述标注后的第一样本告警数据和所述标注后的第二样本告警数据训练机器学习模型,得到所述根因分析模型。
可选地,所述机器学习模型包括:多元逻辑回归模型。
可选地,在所述告警数据包括第一告警数据和第二告警数据的情况下,获取数据系统的告警数据,包括:从所述数据系统的告警日志中获取所述第一告警数据;通过所述数据系统的监控插件,获取所述第二告警数据。
根据本发明实施例的另一方面,还提供了一种告警处理装置,包括:获取模块,用于获取数据系统的告警数据,其中,所述数据系统包括至少一个功能层;第一确定模块,用于基于所述告警数据,确定所述告警数据中来自所述至少一个功能层中各个功能层的数据比例;第二确定模块,用于基于所述告警数据、所述数据比例和预先训练的根因分析模型,确定所述数据系统的告警根本原因,其中,所述根因分析模型基于所述数据系统的多组样本告警数据进行机器学习得到。
根据本发明实施例的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述告警处理方法。
根据本发明实施例的再一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述告警处理方法。
在本发明实施例中,采用获取数据系统的告警数据的方式,通过基于告警数据,确定告警数据中来自至少一个功能层中各个功能层的数据比例,基于告警数据、数据比例和预先训练的根因分析模型,确定数据系统的告警根本原因,达到了分析数据系统的告警数据进而确定告警的根本原因的目的,从而实现了智能判断数据系统告警的根本原因的技术效果,进而解决了对数据系统告警根本原因的判断依赖人工经验技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例提供的告警处理方法的流程示意图;
图2是根据本发明可选实施方式提供的CDP系统根因判断逻辑树的示意图;
图3是根据本发明实施例提供的告警处理装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种告警处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例提供的告警处理方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤S102,获取数据系统的告警数据,其中,数据系统包括至少一个功能层。可选地,数据系统可以为综合性地处理数据的系统,包括数据的收集、处理、储存、分发等功能,数据系统的功能越多,处理的数据越庞杂,对其告警的原因的分析越困难,当数据系统的某一个具体的服务出现问题时,可能会引发数据系统中的多处报警,对告警的根因分析造成困难。功能层可以是数据系统中的一个功能模块,也可以是数据系统中多个功能模块的统称,根据数据系统的具体架构而定。
步骤S104,基于告警数据,确定告警数据中来自至少一个功能层中各个功能层的数据比例。告警数据来源于数据系统,因此,通过对告警数据的分析判断,可以确定告警数据来自于数据系统的哪一个功能层。进一步地,通过对告警数据的来源进行统计汇总,可以确定一批次的告警数据中,分别来自各个功能层的告警数据占该批次全部告警数据的比例,作为后续进行根因分析的依据之一。
可选地,确定告警数据中来自至少一个功能层中各个功能层的数据比例前,可以选用确定的时间窗口内的告警数据作为分析基础。例如,在某一个时长两分钟的时间段内,数据系统的告警数量突然大幅增加且超过预定阈值,则可以认为此时数据系统出现了故障,此时可以获取该两分钟的预定时间窗口内的告警数据,作为进行后续根因分析的基础数据。
步骤S106,基于告警数据、数据比例和预先训练的根因分析模型,确定数据系统的告警根本原因,其中,根因分析模型基于数据系统的多组样本告警数据进行机器学习得到。上述根因分析模型为机器学习模型,该模型可以预先训练得到,例如,可以在平时将数据系统的样本告警数据上传到大数据平台中,在大数据平台中完成根因分析模型的训练,并将该模型存储在平台内,后续进行根因分析时直接去调用已经训练好的模型即可。可选地,每次使用模型进行根因分析后得到的结果也可以上传到大数据平台,用于对根因分析模型的进一步迭代优化。
本步骤中,用于训练根因分析模型的每一组样本告警数据均可以包括数据系统的一批次的告警数据、该批次告警数据分别来自于该数据系统的各个功能层的数据比例以及引起本批次告警数据的数据系统的根本原因。由于对上述样本告警数据进行了更加细化的预处理,因此使用上述样本告警数据训练得到的根因分析模型具有更加准确的分析能力和更加快速的分析速度。
通过上述步骤,采用获取数据系统的告警数据的方式,通过基于告警数据,确定告警数据中来自至少一个功能层中各个功能层的数据比例,基于告警数据、数据比例和预先训练的根因分析模型,确定数据系统的告警根本原因,达到了分析数据系统的告警数据进而确定告警的根本原因的目的,从而实现了智能判断数据系统告警的根本原因的技术效果,进而解决了对数据系统告警根本原因的判断依赖人工经验技术问题。
作为一种可选的实施方式,本实施例中所述的数据系统可以为客户数据平台(Customer Data Platform,下文中简称为CDP系统)。CDP系统是一种从业务出发的数据综合管理平台,可以汇集所有客户数据并将数据存储在统一的、可多部门访问的数据平台中,让企业的各个部门都可以轻松使用。同时,CDP系统是为业务人员驱动建立的,而不是IT人员,业务团队可以直接在CDP系统上进行操作,而不用依赖于IT人员。
由上述介绍可知,CDP平台可以用于处理从收集到输出应用的数据全流程,且可以让非IT专业的人员直接操作,因此涉及的模块繁多,体系庞大,维护起来比较吃力,当发生故障时,告警信息的处理非常吃力,例如,每种告警插件仅可以汇总发送该插件配置的部分相关的内容,导致信息传输的混乱且容易出现发错的情况,而且无法全面分析CDP系统的故障根本原因。
本可选的实施方式中,可以获取包括至少一个功能层的CDP系统的告警数据。例如,CDP系统的功能层可以包括应用层、数据接入层、数据处理层、平台依赖层、硬件层等多个功能层,每层之后还可以以类别作为主要依据进行细分。根据分层方式的不同,可以确定来自CDP系统的各个功能层的告警数据的比例,便于之后确定CDP系统发生故障的具体位置。
此外,还可以预先针对该CDP系统和与该CDP系统对应的功能层分层方式,训练适用于该CDP系统的根因分析模型,然后基于上述告警数据和数据比例,使用根因分析模型确定导致CDP系统产生告警数据的告警根本原因。
作为一种可选的实施例,在告警数据包括第一告警数据和第二告警数据的情况下,可以从数据系统的告警日志中获取第一告警数据;通过数据系统的监控插件,获取第二告警数据。
例如,当数据系统为CDP系统时,可以通过如下多种方式来获取CDP系统的告警数据:其一,可以直接读取CDP系统的告警日志,并将告警日志记录汇总;其二,可以调用CDP系统的多种告警插件的接口,从告警插件处获取告警数据,告警插件可以采用Alertmanager、Grafana或者Zabbix等;其三,还可以直接对接CDP系统的告警监控功能模块,获取告警数据。针对上述多种告警数据来源,可以编写统一接口,通过统一接口汇总多种告警数据发送端的数据,便于后续进行告警根因分析。
作为一种可选的实施例,可以获取告警数据中的数据标签,其中,数据标签用于标识告警数据与功能层的对应关系;基于数据标签,确定告警数据中来自至少一个功能层中各个功能层的数据比例。为了便于确定数据系统的各个功能层分别产生的告警数据的比例,可以在收集告警数据时,为告警数据进行标注,注明其来源于数据系统的哪一功能层,否则当告警数据全部汇总收集完毕之后,难以再区分告警数据的来源。
作为一种可选的实施例,根因分析模型可以通过如下方式训练得到:首先,基于根因判断逻辑树,为至少一组第一样本告警数据标注告警根本原因,得到标注后的第一样本告警数据,其中,第一样本告警数据为多组样本告警数据之一;然后基于预先确定的标注结果,为至少一组第二样本告警数据标注告警根本原因,得到标注后的第二样本告警数据,其中,第二样本告警数据为多组样本告警数据之一,且第二样本告警数据无法通过根因判断逻辑树确定告警根本原因;最后,使用标注后的第一样本告警数据和标注后的第二样本告警数据训练机器学习模型,得到根因分析模型。
本可选实施例中,根因判断逻辑树可以为通过对同一数据系统的多年维护工作的实际经验以及该系统与其他系统的上下游关系编写的处理逻辑。例如,通过不断的完善和调优,根据CDP系统的根因判断逻辑树可以判断出CDP系统的大部分报警根本原因。
图2是根据本发明可选实施方式提供的CDP系统根因判断逻辑树的示意图,如图2所示,根据CDP系统根因判断逻辑树处理CDP系统的告警数据,可以进行多步判断,并最终判断出CDP系统的告警的根本原因。例如,当CDP系统出现告警数据后,首先根据告警数据判断时CDP系统的前端服务和CDP系统的后端服务是否出现了异常。以CDP系统后端服务为例,当发现CDP系统后端服务正常时,进一步判断CDP系统后端服务依赖的ETL数据流是否正常;当发现CDP系统后端服务异常时,进一步判断时服务器发生了异常还是软件发生了异常,并将具体的异常相关的报警信息或者报警日志打包发送给后面的处理单元。
通过上述CDP系统根因判断逻辑树,可以确定样本告警数据的告警根本原因,并标注在该样本告警数据中,用于后续的模型训练。
作为一种可选的实施例,机器学习模型可以包括多元逻辑回归模型。逻辑回归一般用于分类问题,逻辑回归不要求因变量和自变量之间是线性关系,可以处理多类型关系。通过实际验证可知,对于数据系统的根因分析问题,多元逻辑回归模型非常适用,能够产生最优的告警根因分析的处理结果。
作为一种可选的实施例,基于告警数据,确定告警数据中来自至少一个功能层中各个功能层的数据比例之前,还可以首先根据告警数据和根因判断逻辑树,确定数据系统的根因判断结果,然后根据根因判断结果确定数据系统的告警根本原因。
例如,对于CDP系统而言,由于CDP系统根因判断逻辑树本身可以对CDP系统的告警根本原因进行一定的分析判断,因此,在将CDP系统的告警数据输入根因分析模型之前,可以首先使用根因判断逻辑树对CDP系统的告警数据进行分析判断,得到判断结果。当判断结果为根据根因判断逻辑树可以确定CDP系统的告警根本原因时,可以直接输出系统的告警根本原因,或者结合之后的根因分析模型的结果进行综合考虑;当判断结果为无法确定CDP系统的告警根本原因时,则必须依赖根因分析模型才能判断出CDP系统的告警根本原因。
作为一种可选的实施例,基于告警数据、数据比例和预先训练的根因分析模型,确定数据系统的告警根本原因,可以采用如下方式:将数据比例输入根因分析模型的故障功能层识别模块,输出数据系统中发生故障的功能层;将来自发生故障的功能层的告警数据输入根因分析模型的根因确定模块,输出数据系统的告警根本原因。
本可选实施例中,根因分析模型的故障功能层识别模块可以直接识别出数据系统中出现故障的功能层具体为哪一层,即告警的根本原因应当从哪一功能层中去确定。例如,通常来说,当数据系统特定功能层内的服务出现问题时,整个数据系统发出的告警数据中来自该特定功能层的告警数据的比例应当最高,因此可以判断告警数据比例最高的功能层为发生故障的功能层。又例如,当数据系统的特定功能层内的服务出现问题时,可能会导致整个数据系统的告警数据中来自各个功能层的告警数据的分布出现特定的规律,据此可以判断发生故障的是哪一个功能层。本可选实施例中,上述对发生故障功能层的判断由根因分析模型的故障功能层是被模块进行判定,可以增加对告警根本原因识别的准确性。
此外,基于判断得到的发生故障的功能层,本可选的实施例可以只将源自该功能层的告警数据输入根因分析模型。上述方式可以屏蔽其他功能层的告警数据的干扰,还可以降低根因分析模型的运算量,节省根因分析数据处理的运算量消耗,加快整个根因分析过程的数据处理速度,尽快输出数据系统的告警根本原因,有利于运维人员快速响应,维护和调整整个系统中发生故障的服务。
实施例2
根据本发明实施例,还提供了一种用于实施上述告警处理方法的告警处理装置,图3是根据本发明实施例提供的告警处理装置的结构框图,如图3所示,该告警处理装置包括:获取模块32,第一确定模块34和第二确定模块36,下面对该告警处理装置进行说明。
获取模块32,用于获取数据系统的告警数据,其中,数据系统包括至少一个功能层;
第一确定模块34,连接于上述获取模块32,用于基于告警数据,确定告警数据中来自至少一个功能层中各个功能层的数据比例;
第二确定模块36,连接于上述第一确定模块34,用于基于告警数据、数据比例和预先训练的根因分析模型,确定数据系统的告警根本原因,其中,根因分析模型基于数据系统的多组样本告警数据进行机器学习得到。
此处需要说明的是,上述获取模块32,第一确定模块34和第二确定模块36对应于实施例1中的步骤S102至步骤S106,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。
实施例3
本发明的实施例可以提供一种计算机设备,可选地,在本实施例中,上述计算机设备可以位于计算机网络的多个网络设备中的至少一个网络设备。该计算机设备包括存储器和处理器。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的告警处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的告警处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取数据系统的告警数据,其中,数据系统包括至少一个功能层;基于告警数据,确定告警数据中来自至少一个功能层中各个功能层的数据比例;基于告警数据、数据比例和预先训练的根因分析模型,确定数据系统的告警根本原因,其中,根因分析模型基于数据系统的多组样本告警数据进行机器学习得到。
可选的,上述处理器还可以执行如下步骤的程序代码:基于告警数据、数据比例和预先训练的根因分析模型,确定数据系统的告警根本原因,包括:将数据比例输入根因分析模型的故障功能层识别模块,输出数据系统中发生故障的功能层;将来自发生故障的功能层的告警数据输入根因分析模型的根因确定模块,输出数据系统的告警根本原因。
可选的,上述处理器还可以执行如下步骤的程序代码:基于告警数据,确定告警数据中来自至少一个功能层中各个功能层的数据比例,包括:获取告警数据中的数据标签,其中,数据标签用于标识告警数据与功能层的对应关系;基于数据标签,确定告警数据中来自至少一个功能层中各个功能层的数据比例。
可选的,上述处理器还可以执行如下步骤的程序代码:基于告警数据,确定告警数据中来自至少一个功能层中各个功能层的数据比例之前,还包括:根据告警数据和根因判断逻辑树,确定数据系统的根因判断结果;根据根因判断结果确定数据系统的告警根本原因。
可选的,上述处理器还可以执行如下步骤的程序代码:基于数据系统的多组样本告警数据进行机器学习得到根因分析模型,包括:基于根因判断逻辑树,为至少一组第一样本告警数据标注告警根本原因,得到标注后的第一样本告警数据,其中,第一样本告警数据为多组样本告警数据之一;基于预先确定的标注结果,为至少一组第二样本告警数据标注告警根本原因,得到标注后的第二样本告警数据,其中,第二样本告警数据为多组样本告警数据之一,且第二样本告警数据无法通过根因判断逻辑树确定告警根本原因;使用标注后的第一样本告警数据和标注后的第二样本告警数据训练机器学习模型,得到根因分析模型。
可选的,上述处理器还可以执行如下步骤的程序代码:机器学习模型包括:多元逻辑回归模型。
可选的,上述处理器还可以执行如下步骤的程序代码:在告警数据包括第一告警数据和第二告警数据的情况下,获取数据系统的告警数据,包括:从数据系统的告警日志中获取第一告警数据;通过数据系统的监控插件,获取第二告警数据。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例4
本发明的实施例还提供了一种计算机可读存储介质。可选地,在本实施例中,上述计算机可读存储介质可以用于保存上述实施例1所提供的告警处理方法所执行的程序代码。
可选地,在本实施例中,上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:获取数据系统的告警数据,其中,数据系统包括至少一个功能层;基于告警数据,确定告警数据中来自至少一个功能层中各个功能层的数据比例;基于告警数据、数据比例和预先训练的根因分析模型,确定数据系统的告警根本原因,其中,根因分析模型基于数据系统的多组样本告警数据进行机器学习得到。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:基于告警数据、数据比例和预先训练的根因分析模型,确定数据系统的告警根本原因,包括:将数据比例输入根因分析模型的故障功能层识别模块,输出数据系统中发生故障的功能层;将来自发生故障的功能层的告警数据输入根因分析模型的根因确定模块,输出数据系统的告警根本原因。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:基于告警数据,确定告警数据中来自至少一个功能层中各个功能层的数据比例,包括:获取告警数据中的数据标签,其中,数据标签用于标识告警数据与功能层的对应关系;基于数据标签,确定告警数据中来自至少一个功能层中各个功能层的数据比例。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:基于告警数据,确定告警数据中来自至少一个功能层中各个功能层的数据比例之前,还包括:根据告警数据和根因判断逻辑树,确定数据系统的根因判断结果;根据根因判断结果确定数据系统的告警根本原因。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:基于数据系统的多组样本告警数据进行机器学习得到根因分析模型,包括:基于根因判断逻辑树,为至少一组第一样本告警数据标注告警根本原因,得到标注后的第一样本告警数据,其中,第一样本告警数据为多组样本告警数据之一;基于预先确定的标注结果,为至少一组第二样本告警数据标注告警根本原因,得到标注后的第二样本告警数据,其中,第二样本告警数据为多组样本告警数据之一,且第二样本告警数据无法通过根因判断逻辑树确定告警根本原因;使用标注后的第一样本告警数据和标注后的第二样本告警数据训练机器学习模型,得到根因分析模型。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:机器学习模型包括:多元逻辑回归模型。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:在告警数据包括第一告警数据和第二告警数据的情况下,获取数据系统的告警数据,包括:从数据系统的告警日志中获取第一告警数据;通过数据系统的监控插件,获取第二告警数据。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种告警处理方法,其特征在于,包括:
获取数据系统的告警数据,其中,所述数据系统包括至少一个功能层;
基于所述告警数据,确定所述告警数据中来自所述至少一个功能层中各个功能层的数据比例;
基于所述告警数据、所述数据比例和预先训练的根因分析模型,确定所述数据系统的告警根本原因,其中,所述根因分析模型基于所述数据系统的多组样本告警数据进行机器学习得到;
基于所述数据系统的多组样本告警数据进行机器学习得到所述根因分析模型,包括:基于根因判断逻辑树,为至少一组第一样本告警数据标注告警根本原因,得到标注后的第一样本告警数据,其中,所述第一样本告警数据为所述多组样本告警数据之一;基于预先确定的标注结果,为至少一组第二样本告警数据标注告警根本原因,得到标注后的第二样本告警数据,其中,所述第二样本告警数据为所述多组样本告警数据之一,且所述第二样本告警数据无法通过根因判断逻辑树确定告警根本原因;使用所述标注后的第一样本告警数据和所述标注后的第二样本告警数据训练机器学习模型,得到所述根因分析模型。
2.根据权利要求1所述的方法,其特征在于,基于所述告警数据、所述数据比例和预先训练的根因分析模型,确定所述数据系统的告警根本原因,包括:
将所述数据比例输入所述根因分析模型的故障功能层识别模块,输出所述数据系统中发生故障的功能层;
将来自所述发生故障的功能层的告警数据输入所述根因分析模型的根因确定模块,输出所述数据系统的告警根本原因。
3.根据权利要求1所述的方法,其特征在于,基于所述告警数据,确定所述告警数据中来自所述至少一个功能层中各个功能层的数据比例,包括:
获取所述告警数据中的数据标签,其中,所述数据标签用于标识告警数据与功能层的对应关系;
基于所述数据标签,确定所述告警数据中来自所述至少一个功能层中各个功能层的数据比例。
4.根据权利要求1所述的方法,其特征在于,基于所述告警数据,确定所述告警数据中来自所述至少一个功能层中各个功能层的数据比例之前,还包括:
根据所述告警数据和根因判断逻辑树,确定所述数据系统的根因判断结果;
根据所述根因判断结果确定所述数据系统的告警根本原因。
5.根据权利要求1所述的方法,其特征在于,所述机器学习模型包括:多元逻辑回归模型。
6.根据权利要求1所述的方法,其特征在于,在所述告警数据包括第一告警数据和第二告警数据的情况下,获取数据系统的告警数据,包括:
从所述数据系统的告警日志中获取所述第一告警数据;
通过所述数据系统的监控插件,获取所述第二告警数据。
7.一种告警处理装置,其特征在于,包括:
获取模块,用于获取数据系统的告警数据,其中,所述数据系统包括至少一个功能层;
第一确定模块,用于基于所述告警数据,确定所述告警数据中来自所述至少一个功能层中各个功能层的数据比例;
第二确定模块,用于基于所述告警数据、所述数据比例和预先训练的根因分析模型,确定所述数据系统的告警根本原因,其中,所述根因分析模型基于所述数据系统的多组样本告警数据进行机器学习得到;
其中,所述第二确定模块,还用于:基于根因判断逻辑树,为至少一组第一样本告警数据标注告警根本原因,得到标注后的第一样本告警数据,其中,所述第一样本告警数据为所述多组样本告警数据之一;基于预先确定的标注结果,为至少一组第二样本告警数据标注告警根本原因,得到标注后的第二样本告警数据,其中,所述第二样本告警数据为所述多组样本告警数据之一,且所述第二样本告警数据无法通过根因判断逻辑树确定告警根本原因;使用所述标注后的第一样本告警数据和所述标注后的第二样本告警数据训练机器学习模型,得到所述根因分析模型。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至5中任意一项所述告警处理方法。
9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任意一项所述告警处理方法。
CN202110673714.9A 2021-06-17 2021-06-17 告警处理方法、装置、计算机可读存储介质及处理器 Active CN113407373B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110673714.9A CN113407373B (zh) 2021-06-17 2021-06-17 告警处理方法、装置、计算机可读存储介质及处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110673714.9A CN113407373B (zh) 2021-06-17 2021-06-17 告警处理方法、装置、计算机可读存储介质及处理器

Publications (2)

Publication Number Publication Date
CN113407373A CN113407373A (zh) 2021-09-17
CN113407373B true CN113407373B (zh) 2024-07-05

Family

ID=77684872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110673714.9A Active CN113407373B (zh) 2021-06-17 2021-06-17 告警处理方法、装置、计算机可读存储介质及处理器

Country Status (1)

Country Link
CN (1) CN113407373B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111726248A (zh) * 2020-05-29 2020-09-29 北京宝兰德软件股份有限公司 一种告警根因定位方法及装置
CN112636967A (zh) * 2020-12-18 2021-04-09 北京浪潮数据技术有限公司 一种根因分析方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015028844A1 (en) * 2013-08-29 2015-03-05 Arria Data2Text Limited Text generation from correlated alerts
US12039415B2 (en) * 2019-09-30 2024-07-16 Amazon Technologies, Inc. Debugging and profiling of machine learning model training

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111726248A (zh) * 2020-05-29 2020-09-29 北京宝兰德软件股份有限公司 一种告警根因定位方法及装置
CN112636967A (zh) * 2020-12-18 2021-04-09 北京浪潮数据技术有限公司 一种根因分析方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113407373A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
EP3798846B1 (en) Operation and maintenance system and method
US20190228296A1 (en) Significant events identifier for outlier root cause investigation
CN107888397B (zh) 确定故障类型的方法和装置
US11294754B2 (en) System and method for contextual event sequence analysis
CN106656536A (zh) 一种用于处理服务调用信息的方法与设备
US20170109668A1 (en) Model for Linking Between Nonconsecutively Performed Steps in a Business Process
US20170109667A1 (en) Automaton-Based Identification of Executions of a Business Process
CN105721187A (zh) 一种业务故障诊断方法及装置
US20170109636A1 (en) Crowd-Based Model for Identifying Executions of a Business Process
CN109447485B (zh) 一种基于规则的实时决策系统及方法
CN106293891B (zh) 多维投资指标监督方法
CN114430365B (zh) 故障根因分析方法、装置、电子设备和存储介质
CN109582504A (zh) 一种用于苹果设备的数据恢复方法和装置
CN114647558A (zh) 一种日志异常检测的方法和装置
CN111865673A (zh) 一种自动化故障管理方法、装置及系统
CN110968479A (zh) 一种针对应用程序的业务级全链路监控方法及服务器
CN112087320B (zh) 一种异常定位方法、装置、电子设备和可读存储介质
CN113407373B (zh) 告警处理方法、装置、计算机可读存储介质及处理器
CN116991675A (zh) 一种异常访问监控方法、装置、计算机设备及存储介质
US20170109637A1 (en) Crowd-Based Model for Identifying Nonconsecutive Executions of a Business Process
CN108023740A (zh) 监控中异常信息的风险提示方法和装置
CN115801306B (zh) 应用于人工智能的数据处理方法及服务器
CN113285977B (zh) 基于区块链和大数据的网络维护方法及系统
CN112232960B (zh) 交易应用系统监控方法及装置
CN114584453A (zh) 一种应用系统的故障分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant