CN111352759B - 一种告警根因的判定方法及装置 - Google Patents

一种告警根因的判定方法及装置 Download PDF

Info

Publication number
CN111352759B
CN111352759B CN201911418554.2A CN201911418554A CN111352759B CN 111352759 B CN111352759 B CN 111352759B CN 201911418554 A CN201911418554 A CN 201911418554A CN 111352759 B CN111352759 B CN 111352759B
Authority
CN
China
Prior art keywords
alarm
root cause
information
rule set
alarm information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911418554.2A
Other languages
English (en)
Other versions
CN111352759A (zh
Inventor
张彤
徐海浜
江大喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yaxin Software Co ltd
Original Assignee
Hangzhou Yaxin Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yaxin Software Co ltd filed Critical Hangzhou Yaxin Software Co ltd
Priority to CN201911418554.2A priority Critical patent/CN111352759B/zh
Publication of CN111352759A publication Critical patent/CN111352759A/zh
Application granted granted Critical
Publication of CN111352759B publication Critical patent/CN111352759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Alarm Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了一种告警根因的判定方法与装置,方法包括:对历史告警数据进行分析处理,得到告警根因规则集;将告警根因规则集和告警相关数据同步至图数据库;在接收到告警信息后,基于图数据库匹配告警信息和告警根因规则集;依据告警根因规则集中与告警信息匹配的告警根因规则确定告警信息的主告警。所述告警根因的判定方法与装置,能够基于历史告警数据分析出告警根因规则集并存入图数据库,后续接收到告警信息后,基于图数据库将告警信息与告警根因规则集匹配,进而确定出告警信息的主告警;由于基于图数据库进行的查询、匹配的过程不受数据量影响,因此具有较高的查询性能,能够有效提升告警根因的判定效率。

Description

一种告警根因的判定方法及装置
技术领域
本发明涉及数据处理技术,更具体的说,是涉及一种告警根因的判定方法与装置。
背景技术
随着业务的不断发展,主机、网络、中间件、应用、集群各层级运维对象的数量飞速增长,告警的数量和种类日益增多。尤其是系统故障期间运维人员收到数量庞大、类型复杂的告警,这些告警不是孤立的,某些告警类型之间存在因果关联(比如主机宕机告警,导致了数据库不可用告警,进一步衍生出业务告警)。
告警根因的判定即将告警之间的因果关联提炼出来,形成告警根因规则;当告警生成时,通过告警根因规则建立告警之间的因果关联关系,快速定位到故障的根本原因,即根源告警,也可以叫做主告警。
一般的告警根因判定是基于关系型数据库来实现的,然而,面对资源对象之间复杂的关联关系、告警与资源之间复杂的关联关系、告警与告警之间复杂的关联关系,用关系型数据库存储的效果并不好,其查询过程复杂且响应缓慢。
发明内容
有鉴于此,本发明提供如下技术方案:
一种告警根因的判定方法,包括:
对历史告警数据进行分析处理,得到告警根因规则集,所述告警根因规则集中包含多个告警根因规则,所述告警根因规则用于表征不同告警之间的关联关系;
将所述告警根因规则集和告警相关数据同步至所述图数据库;
在接收到告警信息后,基于所述图数据库匹配所述告警信息和所述告警根因规则集,所述告警信息包括至少一个告警信息;
依据所述告警根因规则集中与所述告警信息匹配的告警根因规则确定所述告警信息的主告警。
可选的,所述对所述历史告警数据进行分析处理,得到告警根因规则集,包括:
采用图的社区检测算法对所述历史告警数据进行聚类分析,得到告警聚类结果;
对所述告警聚类结果进行训练,挖掘出告警关联关系;
从所述告警关联关系中确定出符合实际情况的告警关联关系作为告警根因规则,形成告警根因规则集。
可选的,所述将所述告警根因规则集和告警相关数据同步至所述图数据库,包括:
将所述告警根因规则集发送至所述图数据库,使其以图结构保存所述告警根因规则集。
可选的,所述告警信息中包括告警代码,则所述基于所述图数据库匹配所述告警信息和所述告警根因规则集,包括:
从图数据库保存的所述告警根因规则集中检索是否存在与所述告警代码匹配的告警根因规则。
可选的,所述告警相关数据包括资源对象信息、资源关联关系和活动告警数据,则所述将所述告警根因规则集和告警相关数据同步至所述图数据库,包括:
将所述告警根因规则集、资源对象信息、资源关联关系和活动告警数据从关系型数据库同步至所述图数据库。
可选的,在所述依据所述告警根因规则集中与所述告警信息匹配的告警根因规则确定所述告警信息的主告警后,还包括:
基于所述图数据库,根据所述资源关联关系和所述告警信息的告警时间确定是否存在与所述告警信息满足预设时间窗口的主告警或从告警;
若存在,确定所述告警信息与所述主告警或从告警的关联关系,并将该关联关系更新到所述图数据库中。
可选的,还包括:
采用图数据库的遍历算法对告警信息进行收敛。
可选的,所述采用图数据库的遍历算法对告警信息进行收敛,包括:
在告警信息需要发送短信的情况下,若其发送策略中包含延时发送,则在所述告警信息的待发送短信发送之前的预设时间内,确定延时发送短信队列中是否存在所述告警信息的关联告警信息的待发送短信;
若存在,则所述告警信息和与其关联的告警信息的待发送短信合并为一个短信发出。
可选的,所述采用图数据库的遍历算法对告警信息进行收敛,包括:
对于需要展示的具有关联关系的多个告警信息,仅展示所述多个告警信息中的主告警;
对于需要转派工单的具有关联关系的多个告警信息,仅展示所述多个告警信息中的主告警。
一种告警根因的判定装置,包括:
规则确定模块,用于对历史告警数据进行分析处理,得到告警根因规则集,所述告警根因规则集中包含多个告警根因规则,所述告警根因规则用于表征不同告警之间的关联关系;
数据同步模块,用于将所述告警根因规则集和告警相关数据同步至所述图数据库;
规则匹配模块,用于在接收到告警信息后,基于所述图数据库匹配所述告警信息和所述告警根因规则集,所述告警信息包括至少一个告警信息;
根因确定模块,用于依据所述告警根因规则集中与所述告警信息匹配的告警根因规则确定所述告警信息的主告警。
经由上述的技术方案可知,与现有技术相比,本发明实施例公开了一种告警根因的判定方法与装置,方法包括:对历史告警数据进行分析处理,得到告警根因规则集,所述告警根因规则集中包含多个告警根因规则,所述告警根因规则用于表征不同告警之间的关联关系;将所述告警根因规则集和告警相关数据同步至所述图数据库;在接收到告警信息后,基于所述图数据库匹配所述告警信息和所述告警根因规则集;依据所述告警根因规则集中与所述告警信息匹配的告警根因规则确定所述告警信息的主告警。所述告警根因的判定方法与装置,能够基于历史告警数据分析出告警根因规则集并存入图数据库,后续接收到告警信息后,基于图数据库将告警信息与告警根因规则集匹配,进而确定出告警信息的主告警;由于基于图数据库进行的查询、匹配的过程不受数据量影响,因此具有较高的查询性能,能够有效提升告警根因的判定效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种告警根因的判定方法流程图;
图2为本发明实施例公开的得到告警根因规则集的流程图;
图3为本发明实施例公开的一个图结构的告警根因规则示例图;
图4为本发明实施例公开的另一种告警根因的判定方法流程图;
图5为本发明实施例公开的又一种告警根因的判定方法流程图;
图6为本发明实施例公开的一个不同告警的因果关联示例图;
图7为本发明实施例公开的一种告警根因的判定装置的结构示意图。
具体实施方式
为了引用和清楚起见,下文中使用的技术名词的说明、简写或缩写总结如下:
资源对象:被监控的设备、业务、或应用等,如某台主机、某个交换机、某个redis实例等。每条告警都会属于一个资源对象。
资源模型:资源按类型进行分类,每类资源对象对应一个资源模型。常用的资源模型如:主机、数据库、中间件、网络设备、业务、应用等。
告警代码:相同类型的告警用同一个告警代码标识,每个告警代码属于一个资源模型。如主机宕机告警代码,属于主机资源模型;网络设备CPU使用率告警代码属于网络设备资源模型。支持按告警代码设置告警短信允许的最大延迟时长,用于告警短信收敛。每条告警都包含告警代码字段。
告警根因规则:表示两个告警代码之间的因果关联。如主机宕机告警会导致数据库不可用告警,可以创建一条对应的告警根因规则:主告警-主机宕机告警,从告警-数据库不可用告警。告警根因规则的信息项还包含规则来源(如人工创建、数据挖掘)、关联告警时间窗口、置信度、备注等。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例公开的一种告警根因的判定方法流程图,参见图1所示,告警根因的判定方法可以包括:
步骤101:对历史告警数据进行分析处理,得到告警根因规则集,所述告警根因规则集中包含多个告警根因规则,所述告警根因规则用于表征不同告警之间的关联关系。
具体的,可以通过聚类算法对历史告警数据进行聚类分析,将分析出的聚类告警数据输出给大数据分析平台,大数据分析平台通过对象聚类、先验概率、后验概率等分析手段输出不同告警之间的关联关系。
其中,告警根因规则表示告警类型之间的因果关联,如:主机文件系统使用率告警->kafka实例不可用告警。主机文件系统使用率告警为主告警(根源告警),kafka实例不可用告警为从告警(影响告警)。
步骤102:将所述告警根因规则集和告警相关数据同步至所述图数据库。
由于后续需要在图数据库中检索查询告警根因规则,因此,在分析得到告警根因规则集,需要将其存储到图数据库中,便于后续应用。
其中,所述告警相关数据可以但不限制为包括:资源对象、活动告警数数据、资源之间的关联关系、告警与资源之间的关联关系和告警与告警之间的关联关系。其中,所述活动告警数据中包括当前存在的告警数据,可以将其理解为一个告警数据池,当有新的告警信息时,将其相关数据存入告警数据池,当告警信息解决掉后,将告警数据池中对应的告警数据删除。
步骤103:在接收到告警信息后,基于所述图数据库匹配所述告警信息和所述告警根因规则集,所述告警信息包括至少一个告警信息。
当有新的告警出现时,可以通过告警根因规则建立不同告警之间的因果关联关系,即将告警信息和告警根因规则集匹配的过程。若匹配陈宫,则能够依据与告警信息匹配的告警根因规则集快速定位到故障的根本原因,即主告警。
步骤104:依据所述告警根因规则集中与所述告警信息匹配的告警根因规则确定所述告警信息的主告警。
通过图数据库分析告警信息与根因规则的匹配关系,通过根因判定,可以从大量存在关联关系的告警数据中快速定位出根源告警,即主告警。
本实施例所述告警根因的判定方法,能够基于历史告警数据分析出告警根因规则集并存入图数据库;当有新的告警产生时,通过图数据库快速分析告警之间的关联关系,帮助系统维护人员快速定位故障根本原因,降低维护人员之间的沟通成本、提高告警处理效率。
图2为本发明实施例公开的得到告警根因规则集的流程图,参见图2所示,在一个实现中,得到告警根因规则集可以包括:
步骤201:采用图的社区检测算法对所述历史告警数据进行聚类分析,得到告警聚类结果。
其中,所述社区检测算法可以为图聚类算法。
系统中可能会产生数量庞大、类型复杂的告警,其中有些告警是没有关联关系的,比如不同系统(如BOSS系统和CRM系统)之间的告警一般是没有关联的。通过图聚类算法,可以对要分析的告警进行预分组,同组告警之间才进行关联分析,提高大数据平台的分析精度。
步骤202:对所述告警聚类结果进行训练,挖掘出告警关联关系。
其中,对告警聚类结果进行训练,可以采用对象聚类、先验概率、后验概率等分析算法实现。挖掘出告警关联关系,具体可以是训练得到不同告警之间的依赖关系图谱。
步骤203:从所述告警关联关系中确定出符合实际情况的告警关联关系作为告警根因规则,形成告警根因规则集。
前述告警依赖关系图谱(即告警因果关联)是告警根因规则的一个重要来源。告警依赖关系图谱是概率事件,存在一定不确定性,因此实际应用中,可以请经验丰富的运维工程师审核告警依赖关系图谱,审核通过后会确定为正式的告警根因规则。如果不审核,可能会导致不可靠的告警根源定位。
上述实施例中,所述将所述告警根因规则集和告警相关数据同步至所述图数据库,可以包括:将所述告警根因规则集发送至所述图数据库,使其以图结构保存所述告警根因规则集。图3为本发明实施例公开的一个图结构的告警根因规则示例图,可结合图3理解图数据库中告警根因规则的存储形式。
上述实施例中,所述告警信息中包括告警代码,则所述基于所述图数据库匹配所述告警信息和所述告警根因规则集,具体可以包括:从图数据库保存的所述告警根因规则集中检索是否存在与所述告警代码匹配的告警根因规则。由于代码具有简单和唯一标识的特点,因此在本实施例中用代码表示告警信息,有利于告警根因的判定方法的快速、准确的实施。
上述实施例中,所述告警相关数据包括资源对象信息、资源关联关系和活动告警数据,则所述将所述告警根因规则集和告警相关数据同步至所述图数据库,可以包括:将所述告警根因规则集、资源对象信息、资源关联关系和活动告警数据从关系型数据库同步至所述图数据库。
关系型数据库中原本就存储有资源对象信息、资源关联关系和活动告警数据,可以直接将其同步至图数据库。而告警根因规则集在确定后,需要首先将其存储在关系型数据库,然后再同步至图数据库。
具体实现中,图数据库中会保存热点数据和实时数据,提高告警根因判定的效率。关系型数据库的数据,用于持久化及一般查询。对于告警根因规则,图数据库中可以仅保存告警根因规则中定义的告警类型的关联关系,规则的完整信息保存在关系型数据库中,完整信息中还可以包括如规则创建人、创建时间、置信度、审核人、审核时间、关联告警时间窗口等。
图4为本发明实施例公开的另一种告警根因的判定方法流程图,如图4所示,告警根因的判定方法可以包括:
步骤401:对历史告警数据进行分析处理,得到告警根因规则集,所述告警根因规则集中包含多个告警根因规则。
其中,所述告警根因规则用于表征不同告警之间的关联关系。
步骤402:将所述告警根因规则集和告警相关数据同步至所述图数据库。
步骤403:在接收到告警信息后,基于所述图数据库匹配所述告警信息和所述告警根因规则集,所述告警信息包括至少一个告警信息。
步骤404:依据所述告警根因规则集中与所述告警信息匹配的告警根因规则确定所述告警信息的主告警。
步骤405:基于所述图数据库,根据所述资源关联关系和所述告警信息的告警时间确定是否存在与所述告警信息满足预设时间窗口的主告警或从告警,若存在,进入步骤406。
步骤405是步骤404实现的一个校验环节,即关联的告警需要满足时间窗口条件。
步骤406:确定所述告警信息与所述主告警或从告警的关联关系,并将该关联关系更新到所述图数据库中。
本实现中,根据实际场景中的告警情况,能够挖掘确定告警信息与其他告警的关联关系,并将最新挖掘确定的关联关系更新到图数据库中中,以方便前台快速展现告警的根源和影响范围。
图5为本发明实施例公开的又一种告警根因的判定方法流程图,如图5所示,可以包括:
步骤501:对历史告警数据进行分析处理,得到告警根因规则集,所述告警根因规则集中包含多个告警根因规则。
其中,所述告警根因规则用于表征不同告警之间的关联关系。
步骤502:将所述告警根因规则集和告警相关数据同步至所述图数据库。
步骤503:在接收到告警信息后,基于所述图数据库匹配所述告警信息和所述告警根因规则集,所述告警信息包括至少一个告警信息。
步骤504:依据所述告警根因规则集中与所述告警信息匹配的告警根因规则确定所述告警信息的主告警。
步骤505:采用图数据库的遍历算法对告警信息进行收敛。
故障发生期间,多层次不同纬度的运维对象容易产生告警风暴,重要的告警信息淹没在海量冗余告警中,运维人员需要花费大量精力查看冗余告警。
告警收敛是指将告警中大量相似、重复事件的冗余告警进行收敛,防止重要核心的告警淹没在大量冗余告警中,避免运维人员忽视重要核心告警。
根据告警根因进行收敛是告警收敛的一种方式。收敛后,运维人员收到的告警信息是主告警信息及影响范围,实现中如果需要,可以通过系统查询详细的从告警信息。
根据根因判定结果进行告警收敛,是对告警根因判定结果的一种使用场景。
本实施例中,可以通过图数据库的遍历算法对告警信息进行收敛,然后再将收敛后的告警信息呈现给用户。具体的,在确定了告警因果关联关系后,在告警前台展现、短信发送、工单派单等环节进行收敛,减少用户收到的告警信息,以避免用户被大量具有关联关系的告警信息轰炸。
上述实施例中,所述采用图数据库的遍历算法对告警信息进行收敛,可以包括:在告警信息需要发送短信的情况下,若其发送策略中包含延时发送,则在所述告警信息的待发送短信发送之前的预设时间内,确定延时发送短信队列中是否存在所述告警信息的关联告警信息的待发送短信;若存在,则所述告警信息和与其关联的告警信息的待发送短信收敛为一个短信发出。
另一个实现中,所述采用图数据库的遍历算法对告警信息进行收敛,可以包括:对于需要展示的具有关联关系的多个告警信息,仅展示所述多个告警信息中的主告警;对于需要转派工单的具有关联关系的多个告警信息,仅展示所述多个告警信息中的主告警。
在一个具体实现中,告警根因的判定方法可以包括如下内容:
1、初始化图数据库
资源模型关联关系、资源对象信息、资源对象关联关系初始化导入图数据库。资源模型关联关系、资源对象信息、资源对象关联关系发生变更时,同步更新到图数据库。告警新增、更新或清除时,也同步更新到图数据库。
2、告警分组
将历史告警导入图数据库,根据告警信息项、资源关联关系、资源对象信息等,通过社区检测算法进行聚类分析,将告警分为若干组。
3、告警关联分析
大数据平台对上一步得出的每组告警分别进行离线训练,挖掘出每组告警内部可能的告警代码因果关联,即告警依赖图谱。
4、告警根因规则
大数据平台输出的告警依赖图谱,经过人工审核(管理员或运维工程师)确认后,转为正式的告警根因规则,保存至关系型数据库,同时同步到图数据库中。
5、实时告警关联定位
当系统有新告警生成,会发布告警事件,告警关联模块监听到告警事件后,根据告警代码从图数据库检索是否有匹配的告警根因规则。如果匹配到规则,且为主(或从)告警,再从图数据库中根据资源对象关联关系、告警发生时间等条件查询是否存在满足时间窗口的从(或主)告警;如果存在,两条告警之间建立因果关联,关联关系保存到图数据库中。图6为本发明实施例公开的一个不同告警的因果关联示例图,可结合图6理解上述内容。
6、告警收敛
告警收敛主要可以从告警订阅、告警展现、告警派单三个方面进行收敛:告警生成后匹配到告警订阅策略需要发送短信时,如果对应告警代码设置的短信允许延迟时长大于零,待发送短信(及关联的告警信息)会加入延迟发送队列。当队列的待发送短信达到延迟时长时,从队列中取出,查询图数据库是否有和短信关联告警有关的主(或从)告警,如果存在,检查这些主(或从)告警在延迟队列中是否包含,如果包含且短信接收人是同一个人,则将这些短信收敛为一条短信发送。
前台页面展现告警时,支持按告警关联类型(主告警、从告警、独立告警)过滤,默认只展现主告警。
告警转派工单时,支持选择是否只有主告警才能派单,从告警自动关联工单。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
上述本发明公开的实施例中详细描述了方法,对于本发明的方法可采用多种形式的装置实现,因此本发明还公开了一种装置,下面给出具体的实施例进行详细说明。
图7为本发明实施例公开的一种告警根因的判定装置的结构示意图,参见图7所示,告警根因的判定装置70可以包括:
规则确定模块701,用于对历史告警数据进行分析处理,得到告警根因规则集,所述告警根因规则集中包含多个告警根因规则,所述告警根因规则用于表征不同告警之间的关联关系。
数据同步模块702,用于将所述告警根因规则集和告警相关数据同步至所述图数据库。
规则匹配模块703,用于在接收到告警信息后,基于所述图数据库匹配所述告警信息和所述告警根因规则集,所述告警信息包括至少一个告警信息。
根因确定模块704,用于依据所述告警根因规则集中与所述告警信息匹配的告警根因规则确定所述告警信息的主告警。
本实施例所述告警根因的判定装置,能够基于历史告警数据分析出告警根因规则集并存入图数据库;当有新的告警产生时,通过图数据库快速分析告警之间的关联关系,帮助系统维护人员快速定位故障根本原因,降低维护人员之间的沟通成本、提高告警处理效率。
告警根因的判定装置的具体实现,可以参照方法实施例中相关部分的内容介绍,在此不再重复赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种告警根因的判定方法,其特征在于,包括:
对历史告警数据进行分析处理,得到告警根因规则集,所述告警根因规则集中包含多个告警根因规则,所述告警根因规则用于表征不同告警之间的关联关系;
将所述告警根因规则集和告警相关数据同步至图数据库,使所述图数据库以图结构保存所述告警根因规则集;其中,针对告警根因规则,图数据库中仅保存告警根因规则中定义的告警类型的关联关系,规则的完整信息保存在关系型数据库中;
在接收到告警信息后,从所述图数据库保存的所述告警根因规则集中检索是否存在与所述告警信息中包括的告警代码匹配的告警根因规则,所述告警信息包括至少一个告警信息;
依据所述告警根因规则集中与所述告警信息匹配的告警根因规则确定所述告警信息的主告警;
所述对所述历史告警数据进行分析处理,得到告警根因规则集,包括:
采用图的社区检测算法对所述历史告警数据进行聚类分析,得到告警聚类结果;
对所述告警聚类结果进行训练,挖掘出告警关联关系;
从所述告警关联关系中确定出符合实际情况的告警关联关系作为告警根因规则,形成告警根因规则集;
还包括:
采用图数据库的遍历算法对告警信息进行收敛,包括:
在告警信息需要发送短信的情况下,若其发送策略中包含延时发送,则在所述告警信息的待发送短信发送之前的预设时间内,确定延时发送短信队列中是否存在所述告警信息的关联告警信息的待发送短信;
若存在,则所述告警信息和与其关联的告警信息的待发送短信合并为一个短信发出。
2.根据权利要求1所述的告警根因的判定方法,其特征在于,所述将所述告警根因规则集和告警相关数据同步至所述图数据库,包括:
将所述告警根因规则集发送至所述图数据库,使其以图结构保存所述告警根因规则集。
3.根据权利要求1所述的告警根因的判定方法,其特征在于,所述告警相关数据包括资源对象信息、资源关联关系和活动告警数据,则所述将所述告警根因规则集和告警相关数据同步至所述图数据库,包括:
将所述告警根因规则集、资源对象信息、资源关联关系和活动告警数据从关系型数据库同步至所述图数据库。
4.根据权利要求3所述的告警根因的判定方法,其特征在于,在所述依据所述告警根因规则集中与所述告警信息匹配的告警根因规则确定所述告警信息的主告警后,还包括:
基于所述图数据库,根据所述资源关联关系和所述告警信息的告警时间确定是否存在与所述告警信息满足预设时间窗口的主告警或从告警;
若存在,确定所述告警信息与所述主告警或从告警的关联关系,并将该关联关系更新到所述图数据库中。
5.根据权利要求1所述的告警根因的判定方法,其特征在于,所述采用图数据库的遍历算法对告警信息进行收敛,包括:
对于需要展示的具有关联关系的多个告警信息,仅展示所述多个告警信息中的主告警;
对于需要转派工单的具有关联关系的多个告警信息,仅展示所述多个告警信息中的主告警。
6.一种告警根因的判定装置,其特征在于,包括:
规则确定模块,用于对历史告警数据进行分析处理,得到告警根因规则集,所述告警根因规则集中包含多个告警根因规则,所述告警根因规则用于表征不同告警之间的关联关系;
数据同步模块,用于将所述告警根因规则集和告警相关数据同步至图数据库,使所述图数据库以图结构保存所述告警根因规则集;其中,针对告警根因规则,图数据库中仅保存告警根因规则中定义的告警类型的关联关系,规则的完整信息保存在关系型数据库中;
规则匹配模块,用于在接收到告警信息后,从所述图数据库保存的所述告警根因规则集中检索是否存在与所述告警信息中包括的告警代码匹配的告警根因规则,所述告警信息包括至少一个告警信息;
根因确定模块,用于依据所述告警根因规则集中与所述告警信息匹配的告警根因规则确定所述告警信息的主告警;
收敛模块,用于采用图数据库的遍历算法对告警信息进行收敛,包括:
在告警信息需要发送短信的情况下,若其发送策略中包含延时发送,则在所述告警信息的待发送短信发送之前的预设时间内,确定延时发送短信队列中是否存在所述告警信息的关联告警信息的待发送短信,若存在,则所述告警信息和与其关联的告警信息的待发送短信合并为一个短信发出。
CN201911418554.2A 2019-12-31 2019-12-31 一种告警根因的判定方法及装置 Active CN111352759B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911418554.2A CN111352759B (zh) 2019-12-31 2019-12-31 一种告警根因的判定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911418554.2A CN111352759B (zh) 2019-12-31 2019-12-31 一种告警根因的判定方法及装置

Publications (2)

Publication Number Publication Date
CN111352759A CN111352759A (zh) 2020-06-30
CN111352759B true CN111352759B (zh) 2024-04-02

Family

ID=71192229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911418554.2A Active CN111352759B (zh) 2019-12-31 2019-12-31 一种告警根因的判定方法及装置

Country Status (1)

Country Link
CN (1) CN111352759B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112147974B (zh) * 2020-07-22 2022-07-12 中国石油大学(华东) 基于化工过程知识自动化的报警根原因诊断方法
CN112148772A (zh) * 2020-09-24 2020-12-29 创新奇智(成都)科技有限公司 告警根因识别方法、装置、设备和存储介质
CN113285840B (zh) * 2021-06-11 2021-09-17 云宏信息科技股份有限公司 存储网络故障根因分析方法及计算机可读存储介质
CN113886182A (zh) * 2021-09-29 2022-01-04 深圳市金蝶天燕云计算股份有限公司 一种告警收敛方法、装置及电子设备和存储介质
CN113946464B (zh) * 2021-10-19 2022-08-12 腾云悦智科技(深圳)有限责任公司 一种结合模型及经验的预训练和并行推演的告警降噪方法
CN114430562B (zh) * 2022-02-10 2023-08-08 中盈优创资讯科技有限公司 一种5g告警实时清除与延时清除方法及装置
CN114661515B (zh) * 2022-05-23 2022-09-20 武汉四通信息服务有限公司 告警信息收敛方法、装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003288692A (ja) * 2002-03-28 2003-10-10 Clarion Co Ltd Gpsを利用した衝突警告装置、および地図データベース
JP2008263237A (ja) * 2008-07-23 2008-10-30 Nissin Ion Equipment Co Ltd アラーム管理方法およびその装置
WO2017221444A1 (ja) * 2016-06-21 2017-12-28 国立研究開発法人物質・材料研究機構 探索システム、探索方法および物性データベース管理装置
CN108737164A (zh) * 2018-04-25 2018-11-02 北京思特奇信息技术股份有限公司 一种电信网络实时告警过滤方法及装置
CN109684181A (zh) * 2018-11-20 2019-04-26 华为技术有限公司 告警根因分析方法、装置、设备及存储介质
CN109933633A (zh) * 2019-04-02 2019-06-25 北京睿至大数据有限公司 一种基于时间和场景维度的运维知识图谱构建方法
CN110351150A (zh) * 2019-07-26 2019-10-18 中国工商银行股份有限公司 故障根源确定方法及装置、电子设备和可读存储介质
CN110399347A (zh) * 2018-04-23 2019-11-01 华为技术有限公司 告警日志压缩方法、装置及系统、存储介质
CN110413483A (zh) * 2019-07-30 2019-11-05 中国工商银行股份有限公司 批量作业数据的监控方法、装置、电子设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7043661B2 (en) * 2000-10-19 2006-05-09 Tti-Team Telecom International Ltd. Topology-based reasoning apparatus for root-cause analysis of network faults
US7057532B2 (en) * 2003-10-15 2006-06-06 Yossef Shiri Road safety warning system and method
US9043073B2 (en) * 2011-11-16 2015-05-26 Flextronics Ap, Llc On board vehicle diagnostic module
US20150281011A1 (en) * 2014-04-01 2015-10-01 Ca, Inc. Graph database with links to underlying data
US10205735B2 (en) * 2017-01-30 2019-02-12 Splunk Inc. Graph-based network security threat detection across time and entities
KR101965839B1 (ko) * 2017-08-18 2019-04-05 주식회사 티맥스 소프트 구성정보 관리 데이터베이스 기반의 it 시스템 장애 분석 기법

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003288692A (ja) * 2002-03-28 2003-10-10 Clarion Co Ltd Gpsを利用した衝突警告装置、および地図データベース
JP2008263237A (ja) * 2008-07-23 2008-10-30 Nissin Ion Equipment Co Ltd アラーム管理方法およびその装置
WO2017221444A1 (ja) * 2016-06-21 2017-12-28 国立研究開発法人物質・材料研究機構 探索システム、探索方法および物性データベース管理装置
CN110399347A (zh) * 2018-04-23 2019-11-01 华为技术有限公司 告警日志压缩方法、装置及系统、存储介质
CN108737164A (zh) * 2018-04-25 2018-11-02 北京思特奇信息技术股份有限公司 一种电信网络实时告警过滤方法及装置
CN109684181A (zh) * 2018-11-20 2019-04-26 华为技术有限公司 告警根因分析方法、装置、设备及存储介质
CN109933633A (zh) * 2019-04-02 2019-06-25 北京睿至大数据有限公司 一种基于时间和场景维度的运维知识图谱构建方法
CN110351150A (zh) * 2019-07-26 2019-10-18 中国工商银行股份有限公司 故障根源确定方法及装置、电子设备和可读存储介质
CN110413483A (zh) * 2019-07-30 2019-11-05 中国工商银行股份有限公司 批量作业数据的监控方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吴义忠 ; 王运峰 ; 刘宇 ; .基于Drools的告警根因系统的研究.科学技术与工程.(第10期),全文. *
国悦婷 ; 刘磊 ; 张星 ; .基于Apriori算法的时序关联关系数据挖掘装置的实现.计算机与数字工程.(第02期),d 260-263页. *
李金凤 ; 王怀彬.基于关联规则的网络故障告警相关性分析.计算机工程.第38卷(第5期),全文. *

Also Published As

Publication number Publication date
CN111352759A (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN111352759B (zh) 一种告警根因的判定方法及装置
CN111177222B (zh) 模型测试方法、装置及计算设备、存储介质
CN109150619B (zh) 一种基于网络流量数据的故障诊断方法及系统
JP2019512764A (ja) ユーザ地理的ロケーションのタイプを識別するための方法および装置
JP2017016625A (ja) 新しい興味のある地点の位置を決定する方法及び装置
CN114465874B (zh) 故障预测方法、装置、电子设备与存储介质
CN111858608A (zh) 一种数据管理方法、装置、服务器和存储介质
CN111581056B (zh) 基于人工智能的软件工程数据库维护与预警系统
CN112182025A (zh) 日志分析方法、装置、设备与计算机可读存储介质
CN108243046B (zh) 一种基于数据稽核的业务质量评估方法及装置
KR20180073299A (ko) 통계를 이용한 비정상 이벤트 탐지 장치 및 그 방법
CN109087107B (zh) 基于分布式内存数据库的实时监控方法、系统及电子设备
CN111090401B (zh) 存储设备性能预测方法及装置
CN112711710A (zh) 多号码终端的追踪方法、系统、服务器和存储介质
CN107203545B (zh) 一种数据处理方法及装置
CN113064966B (zh) 用于故障定位的方法、系统及装置
CN109389271B (zh) 应用性能管理方法及系统
CN115529219A (zh) 告警分析方法、装置、计算机可读存储介质及电子设备
CN115767601A (zh) 一种基于多维数据的5gc网元自动化纳管方法及装置
CN115174350A (zh) 一种运维告警方法、装置、设备及介质
CN114579665A (zh) 多云多活数据同步方法以及相关设备
CN110489568B (zh) 生成事件图的方法、装置、存储介质和电子设备
CN113360628A (zh) 一种基于问题知识库的网络报修事件分层维修方法及系统
CN112925831A (zh) 基于云计算服务的大数据挖掘方法及大数据挖掘服务系统
CN106777010B (zh) 日志的提供方法、装置以及日志的获取方法、装置和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant