CN115495587A

CN115495587A - 一种基于知识图谱的告警分析方法及装置

Info

Publication number: CN115495587A
Application number: CN202211149194.2A
Authority: CN
Inventors: 何柯君; 施跃跃; 马耿; 曹东晨
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2022-12-20

Abstract

一种基于知识图谱的告警分析方法及装置，用以快速准确地对大量告警事件进行分析，该方法包括：获取目标告警事件对应的目标告警信息；基于特征词库，提取所述目标告警信息中的特征词；将所述目标告警信息中的特征词与告警知识图谱中每个告警模板的标签词的相似性进行匹配；若匹配成功，则获取与所述告警信息匹配的告警模板的编号；将从所述目标告警信息中提取的告警对象、告警发生时间及所述匹配的告警模板的编号，作为所述目标告警事件的分析结果；返回所述目标告警事件的分析结果。

Description

一种基于知识图谱的告警分析方法及装置

技术领域

本申请涉及运维技术领域，尤其涉及一种基于知识图谱的告警分析方法及装置。

背景技术

运维中心对企业的硬件设备及业务系统进行管理和维护，核心目标是保证IT服务安全稳定且高效地运行。随着市场竞争激烈，外部客户以及业务部门对于运维中心提供的IT服务可用性要求不断提升，使得运维中心的监控对象迅速增加，并且监控更加细致和敏感，进而导致运维故障告警数量迅速增长。

传统的运维管理机制、运行架构和工具平台不能较好地适应规模化运维场景，大量告警事件的出现不仅带来人力处理成本较高、运维效率较低等问题，而且要求对于大量告警中隐藏的运维故障要做到及时发现和快速处理，运维人员处理告警的压力较大。

因此，目前亟需一种方案，用以快速准确地对大量告警事件进行分析。

发明内容

本申请提供一种基于知识图谱的告警分析方法及装置，用以快速准确地对大量告警事件进行分析。

第一方面，本申请提供一种基于知识图谱的告警分析方法，该方法包括：获取目标告警事件对应的目标告警信息；基于特征词库，提取所述目标告警信息中的特征词；将所述目标告警信息中的特征词与告警知识图谱中每个告警模板的标签词的相似性进行匹配；若匹配成功，则获取与所述告警信息匹配的告警模板的编号；将从所述目标告警信息中提取的告警对象、告警发生时间及所述匹配的告警模板的编号，作为所述目标告警事件的分析结果；返回所述目标告警事件的分析结果。

上述技术方案中，基于告警知识图谱对目标告警事件对应的告警信息进行分析，并将分析结果返回给运维人员，以便运维人员可以根据目标告警事件的分析结果及时准确地对告警事件进行处理，提高告警事件的处理质量和效率。

在一种可能的设计中，所述匹配成功之后，还包括：在所述告警知识图谱中，添加所述目标告警信息与所述匹配的告警模板之间的第一关联关系，并建立所述目标告警信息的告警对象与所述告警知识图谱中对应的监控对象之间的第二关联关系。

上述技术方案中，将目标告警信息与匹配的告警模板关联，将告警对象与监控对象关联，也就是将目标告警信息拆分为告警模板和监控对象这一对组合在特定时间产生的实例，可以基于告警模板和监控对象的组合开展重复告警事件的分析及优化。

在一种可能的设计中，所述方法还包括：若所述告警知识图谱中不存在与所述目标告警信息匹配的告警模板，则在所述告警知识图谱中创建新的告警模板，并建立所述目标告警信息的告警对象与所述告警知识图谱中对应的监控对象之间的第三关联关系；所述新的告警模板中的标签词为所述目标告警信息中的特征词。

上述技术方案中，对于未匹配到告警模板的目标告警信息，根据目标告警信息中的特征词创建新的告警模板，将新的告警模板补充到告警知识图谱中，可以丰富告警知识图谱的信息储备。

在一种可能的设计中，通过如下方法创建特征词库：按照设定的分词粒度，对各历史告警信息进行分词；从每一分词粒度下的各分词中选取满足扩充方式的分词，添加至所述特征词库；所述选取满足扩充方式的分词，包括：针对所述分词粒度下的任一分词，从同义词库中确定所述分词的同义词；在所述分词的词频和所述同义词的词频满足扩充要求时，将所述分词添加至所述特征词库。

上述技术方案中，不断丰富特征词库和同义词库，可以使目标告警信息中的特征词提取的更准确，进而可以使目标告警信息更准确地匹配到对应的告警模板。

在一种可能的设计中，每个告警模板还关联对应的优先等级，每个监控对象还关联对应的重要等级；所述方法还包括:根据与所述目标告警信息匹配的告警模板的优先等级，以及所述目标告警事件的发生对象对应的监控对象的重要等级，确定所述目标告警事件的风险等级。

上述技术方案中，可以使运维人员优先关注风险等级高的目标告警事件，也可以使运维人员优先关注监控对象重要等级高或者告警模板优先等级高的目标告警事件。

在一种可能的设计中，所述告警模板的标签包括一级标签和二级标签；所述基于特征词库，提取所述目标告警信息中的特征词，包括：将所述目标告警信息中属于特征词库的词作为一级特征词、将不属于特征词库且有效的词作为二级特征词；将所述目标告警信息中的特征词与所述告警知识图谱中每个告警模板的标签词进行匹配，包括：对于每个告警模板，将所述目标告警信息中的一级特征词与所述告警模板的一级标签词进行匹配，将所述目标告警信息中的二级特征词与所述告警模板的二级标签词进行匹配。

上述技术方案中，将目标告警信息中属于特征词库的词作为一级特征词，将不属于特征词库且被确定为有效词的词作为二级特征词，可以充分挖掘目标告警信息的文本信息含义，使目标告警信息更准确地匹配到对应的告警模板。

在一种可能的设计中，所述方法还包括：基于所述告警知识图谱，确定与告警相关的统计数据；所述统计数据包括同一个监控对象在设定时间段的告警情况、同一个告警模板在设定时间段的告警情况、同一个告警对象和告警模板的组合在设定时间段的告警情况、同一个业务领域在设定时间段的告警情况。

上述技术方案中，基于告警知识图谱得到的告警相关的统计数据，可以为运维人员对告警的重复性分析、运维故障原因分析、生产运行质量回顾等提供数据支撑。

第二方面，本申请实施例提供一种基于知识图谱的告警分析装置，包括：

获取模块，用于获取目标告警事件对应的目标告警信息；

提取模块，用于基于特征词库，提取所述目标告警信息中的特征词；

匹配模块，用于将所述目标告警信息中的特征词与告警知识图谱中每个告警模板的标签词的相似性进行匹配；若匹配成功，则获取与所述告警信息匹配的告警模板的编号；

处理模块，用于将从所述目标告警信息中提取的告警对象、告警发生时间及所述匹配的告警模板的编号，作为所述目标告警事件的分析结果；

输出模块，用于返回所述目标告警事件的分析结果。

在一种可能的设计中，所述处理模块，还用于在所述告警知识图谱中，添加所述目标告警信息与所述匹配的告警模板之间的第一关联关系，并建立所述目标告警信息的告警对象与所述告警知识图谱中对应的监控对象之间的第二关联关系。

在一种可能的设计中，所述处理模块，还用于若所述告警知识图谱中不存在与所述目标告警信息匹配的告警模板，则在所述告警知识图谱中创建新的告警模板，并建立所述目标告警信息的告警对象与所述告警知识图谱中对应的监控对象之间的第三关联关系；所述新的告警模板中的标签词为所述目标告警信息中的特征词。

在一种可能的设计中，所述处理模块，还用于通过如下方法创建特征词库：按照设定的分词粒度，对各历史告警信息进行分词；从每一分词粒度下的各分词中选取满足扩充方式的分词，添加至所述特征词库；所述选取满足扩充方式的分词，包括：针对所述分词粒度下的任一分词，从同义词库中确定所述分词的同义词；在所述分词的词频和所述同义词的词频满足扩充要求时，将所述分词添加至所述特征词库。

在一种可能的设计中，每个告警模板还关联对应的优先等级，每个监控对象还关联对应的重要等级；所述处理模块，还用于根据与所述目标告警信息匹配的告警模板的优先等级，以及所述目标告警事件的发生对象对应的监控对象的重要等级，确定所述目标告警事件的风险等级。

在一种可能的设计中，所述告警模板的标签包括一级标签和二级标签；

所述提取模块，还用于将所述目标告警信息中属于特征词库的词作为一级特征词、将不属于特征词库且有效的词作为二级特征词；

所述匹配模块，还用于对于每个告警模板，将所述目标告警信息中的一级特征词与所述告警模板的一级标签词进行匹配，将所述目标告警信息中的二级特征词与所述告警模板的二级标签词进行匹配。

在一种可能的设计中，所述处理模块，还用于基于所述告警知识图谱，确定与告警相关的统计数据；所述统计数据包括同一个监控对象在设定时间段的告警情况、同一个告警模板在设定时间段的告警情况、同一个告警对象和告警模板的组合在设定时间段的告警情况、同一个业务领域在设定时间段的告警情况。

第三方面，本申请实施例还提供一种计算设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行如第一方面的任一种可能的设计中所述的方法。

第四方面，本申请实施例还提供一种计算机可读存储介质，其中存储有计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得上述第一方面的任一种可能的设计中所述的方法实现。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例适用的一种系统架构的示意图；

图2为本申请实施例提供的一种基于知识图谱的告警分析方法的流程示意图；

图3为本申请实施例提供的一种告警知识图谱的示意图；

图4为本申请实施例提供的另一种告警知识图谱的示意图；

图5为本申请实施例提供的一种具体的告警知识图谱的示意图；

图6为本申请实施例提供的一种基于知识图谱的告警分析装置的结构示意图；

图7为本申请实施例提供的一种计算设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请的实施例中，多个是指两个或两个以上。“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。

目前大部分运维中心通过信息技术基础库(information technologyinfrastructure library，ITIL)、信息及相关技术的控制目标(control objectives forinformation and related technology，COBIT)等运维管理体系构建了运维监控、异常告警、告警处理的处理流程，其中告警处理具体分为触发、开单、处理、解决四个环节，所有与运维关联的事件均按照这四个环节进行处理，并采用“逐单处理”处理的模式。对于需要人工介入的告警，开单后需要人工接单，接单后人工参与排查分析和故障恢复，最后检查确认异常现象恢复后关闭对应的告警事件。

上述流程可以最大程度的确保可监测的告警得到处理不遗漏，但存在以下几方面的问题：

1、随着运维告警数量的快速增长，需要投入的人工成本越来越大。

2、随着外部对可用性故障的容忍度下降，对于故障的处理时效要求不断提升，运维人员在大量告警中及时发现处置故障存在困难。

3、运维人员的工作精力投入到处理相似、重复的告警中，整体的运维质量提升困难，运维人员的价值较难体现。

目前运维中心的运维告警存在以下基本特点：

1、运维中心有各类监控工具形成完整的监控体系，对于同一个运维异常可通过不同的监控工具基于不同维度的规则进行告警。

2、绝大部分告警都由监控工具自动报出，目前有超过99.9％的告警是由监控工具自动告警产生。

3、运维中心每天需处理运维告警数量成千上万，但对于同一类故障关联告警描述较为相似，可围绕告警进行归并处理。

4、告警中大部分由于监控规则、运行波动、外部异常等原因产生，中心本身原因导致的服务故障仅占极少数。

基于运维告警的上述特点，本申请实施例提供了一种基于知识图谱的告警分析方法，用以快速准确地对大量告警事件进行分析。

图1为本申请实施例适用的一种系统架构图，如图1所示，该系统架构至少包括业务服务系统101、告警分析系统102和终端设备103。业务服务系统101与告警分析系统102之间、告警分析系统102与终端设备103之间可以通过有线或无线通信的方式进行直接或间接地连接，本申请在此不做具体限定。

业务服务系统101的数量可以是一个或多个，业务服务系统101用于为用户端提供公司或企业的相关业务服务，并将产生的告警事件对应的告警信息发送至告警分析系统102。业务服务系统101中可以包括独立的物理服务器，也可以包括多个物理服务器构成的服务器集群或者分布式系统，还可以包括提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

告警分析系统102的数量可以是一个或多个，告警分析系统102接收业务服务系统101产生的告警事件对应的告警信息，并基于告警知识图谱对告警信息进行分析，然后将告警事件的分析结果发送至终端设备103。告警分析系统102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

终端设备103的数量可以是一个或多个，终端设备103中预先安装与运维相关的运维应用，其中，运维应用是客户端应用、网页版应用、小程序应用等。终端设备103可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能家电、智能语音交互设备、智能车载设备等。运维人员通过终端设备103中的运维应用获知告警事件的分析结果，以便运维人员及时准确地对告警事件进行处理，提高告警事件的处理质量和效率。

需要说明的是，上述图1所示的系统架构仅是一种示例，本申请实施例对此不做具体限定。

图2示例性地示出了本申请实施例提供的一种基于知识图谱的告警分析方法的流程示意图，该方法的流程由计算机设备执行，该计算机设备可以是图1所示的告警分析系统102，如图2所示，该方法包括以下步骤：

步骤201、获取目标告警事件对应的目标告警信息。

本申请实施例中，运维中心针对每个目标告警事件生成对应的目标告警信息。其中，目标告警信息可以以一条告警单的形式呈现，告警单中包括告警对象、告警发生时间、报错码、异常信息等内容。

步骤202、基于特征词库，提取目标告警信息中的特征词。

本申请实施例中，特征词库为根据历史告警信息、处理日志等历史信息生成的特征词库，一个特征词或多个特征词的组合可以代表一条告警信息的主要内容。

在提取目标告警信息中的特征词前，需要对告警信息进行清洗，去除噪音信息以及无用词，例如，重复的时间信息、服务器信息、无特殊含义的词。然后将告警信息中存在同义词的词替换成统一的主词，例如，将高于阈值、高于严重阈值、大于等于阈值、等于严重阈值统一替换为“超出阈值”。

步骤203、将目标告警信息中的特征词与告警知识图谱中每个告警模板的标签词进相似性匹配。若匹配成功，则获取与告警信息匹配的告警模板的编号。

本申请实施例中，告警知识图谱中每个告警模板对应一个或多个标签词，一个或多个标签词组合代表该类型的告警模板的主要内容。将步骤202中提取到的目标告警信息中的一个或多个特征词组合与每个告警模板对应一个或多个标签词的组合进行相似性匹配，若目标告警信息中的特征词与某个告警模板的标签词的匹配数量占该告警模板的标签词组合的比例大于预设比例，则认为目标告警信息与该告警模板匹配成功。需要说明的是，为了保证分析的准确性，通常设置较高的预设比例。例如设置预设比例为80％，如果告警模板1的标签词有5个，那么目标告警信息A中与告警模板1的标签词匹配的特征词在4个以上的情况下，认为目标告警信息A与告警模板1匹配成功。

若一个告警信息与多个告警模板的标签词的匹配数量均大于预设比例，则将匹配比例最高的告警模板确定为与该目标告警信息匹配的告警模板。或者将该条告警信息返回给运维人员，由运维人员对该条告警信息进行分析。

步骤204、将从目标告警信息中提取的告警对象、告警发生时间及匹配的告警模板的编号，作为目标告警事件的分析结果。

步骤205、返回目标告警事件的分析结果。

将目标告警事件的告警分析结果返回给运维人员，以便运维人员可以根据目标告警事件的分析结果及时准确地对告警事件进行处理，提高告警事件的处理质量和效率。

步骤203中，若匹配成功，即告警知识图谱中存在与目标告警信息匹配的告警模板，则在告警知识图谱中，添加目标告警信息与匹配的告警模板之间的第一关联关系，并建立目标告警信息的告警对象与告警知识图谱中对应的监控对象之间的第二关联关系。

若告警知识图谱中不存在与目标告警信息匹配的告警模板，则在告警知识图谱中创建新的告警模板，并建立目标告警信息的告警对象与告警知识图谱中对应的监控对象之间的第三关联关系。新的告警模板中的标签词为目标告警信息中的特征词。

知识图谱(Knowledge Graph)是用来描述真实世界中存在的各种实体以及实体之间的关系的关系网络。知识图谱的基本组成单位是“实体—关系—实体”三元组，以及实体及其相关属性值对，实体间通过关系相互联结，构成网状的知识结构。

对于告警知识图谱，如图3所示，每个告警模板是一个实体，每个告警模板的每个特征词作为一个实体与告警模板关联。每条告警信息(此处以事件单的报错码代表一条告警信息)作为一个实例与所属的告警模板关联，告警信息中的告警对象和发生时间分别作为一个实体与告警信息关联。每个监控对象也是一个实体，将每条告警信息中的告警对象与对应的监控对象关联。

可以理解的是，在开始构建告警知识图谱时，告警知识图谱中还不存在告警模板，因此，对于第一条告警信息A，将提取到的告警信息A中的特征词作为告警模板的标签词，创建告警知识图谱中的第一个告警模板(编号001)，并建立目标告警信息A的告警对象与告警知识图谱中对应的监控对象之间的关联关系。对于第二条告警信息B，将提取到的告警信息B中的特征词与告警知识图谱中已有的告警模板001进行匹配，若匹配成功，则在告警知识图谱中，添加目标告警信息B与匹配的告警模板001之间的关联关系，并建立目标告警信息B的告警对象与告警知识图谱中对应的监控对象之间的关联关系。若告警知识图谱中不存在与目标告警信息B匹配的告警模板，则在告警知识图谱中创建第二个告警模板(编号002)，将提取到的告警信息B中的特征词作为告警模板002的标签词，并建立目标告警信息B的告警对象与告警知识图谱中对应的监控对象之间的关联关系。对于第m条告警信息M，将提取到的告警信息M中的特征词与告警知识图谱中已有的n个告警模板进行匹配，若匹配成功，则在告警知识图谱中，添加目标告警信息M与匹配的告警模板之间的关联关系，并建立目标告警信息M的告警对象与告警知识图谱中对应的监控对象之间的关联关系。若告警知识图谱中不存在与目标告警信息M匹配的告警模板，则在告警知识图谱中创建第n+1个告警模板(编号00n+1)，将提取到的告警信息M中的特征词作为告警模板00n+1的标签词，并建立目标告警信息M的告警对象与告警知识图谱中对应的监控对象之间的关联关系。

进一步地，可以根据告警事件发生的场景将告警模板进行划分，示例性地，如图4所示，可以将告警模板划分为应用领域告警模板、业务领域告警模板、硬件领域告警模板、环境领域告警模板等。其中应用领域告警模板表示告警事件发生在应用系统中；业务领域告警模板表示告警事件发生在业务场景下，例如某种交易异常；硬件领域告警模板表示告警事件发生在服务器、交换器、加密机等硬件中；环境领域告警模板表示告警事件为环境发生异常，例如机房温度过高。又进一步地，可以根据由监控规则引起的异常还是由配置项引起的异常将监控对象进一步划分。

需要说明的是，本申请对告警模板的划分方式和监控对象的划分方式不做具体限定。

在一种可能的实施方式中，可以通过如下方法创建步骤202中的特征词库：

在特征词库创建时，可以导入运维中心常用的业务名词和专有名词进入特征词库。然后对于训练数据中的每条历史告警信息，按照设定的分词粒度，对各历史告警信息进行分词，从每一分词粒度下的各分词中选取满足扩充方式的分词，添加至特征词库。

具体地，选取满足扩充方式的分词包括：针对分词粒度下的任一分词，从同义词库中确定分词的同义词，在分词的词频和同义词的词频满足扩充要求时，将分词添加至特征词库。

举例说明，通过大量历史告警信息对特征词库进行训练，其中一条告警信息为“09-06 10:00服务器XX-01发生内存冲高，最高值100％，最低值60％，持续冲高20秒，请关注。”

第一轮训练中，将告警信息进行清洗，并将告警信息中的同义词替换为相同的主词后，对告警信息进行分词处理，然后对单一词的词频进行统计，对于上述告警信息，得到分词的词频大于设定阈值的词有：内存、冲高，那么将“内存”和“冲高”作为特征词加入到特征词库中。

第二轮训练中，将告警信息中的同义词替换为相同的主词后，对告警信息进行分词处理，然后将两个相邻的词组合成一个词去分算互信息和共现词频，对于上述告警信息，得到“内存冲高”的词频大于设定阈值，分析结果表明“内存冲高”也是一个有效的词，且它的特征意义比单独的“内存”和“冲高”这两个词的意义更高。那么将“内存冲高”也作为一个特征词加入到特征词库中。

需要说明的是，本申请不限定丰富特征词库的训练次数，可以根据实际情况做适应性调整。例如，除了上述两个词的简单组合，还有更加复杂多个词的组合，例如：主机跳转登录异常、文件大小检查异常、自动化作业执行异常等。这些复杂的词组需要经过三轮甚至四轮的迭代训练获得。

在一种可能的实施方式中，每个告警模板还关联对应的优先等级，每个监控对象还关联对应的重要等级。可以根据与目标告警信息匹配的告警模板的优先等级，以及目标告警事件的发生对象对应的监控对象的重要等级，确定目标告警事件的风险等级。告警分析系统将告警模板的优先等级、监控对象的重要等级以及目标告警事件的风险等级返回给运维人员。

其中，告警模板的优先级可以根据历史告警信息确定，或者可以基于专家经验进行优先级分级。监控对象的重要等级可以基于配置管理数据库(configurationmanagement database，CMDB)的应用系统档位等重要信息进行分级。然后基于历史发生的重要告警事件为输入数据，设计风险评级模型，对告警模板和监控对象的组合进行风险等级评定。

在一种可能的实施方式中，告警模板的标签包括一级标签和二级标签。其中，一级标签词为特征词库中存在的词；二级标签词为不在特征词库中，但是分词后被判定为有效的词。

在基于特征词库，提取目标告警信息中的特征词时，将目标告警信息中属于特征词库的词作为一级特征词，并对除一级特征词外剩余的词区分有效词和无效词，其中，无效词可以根据词性以及词的特征进行黑名单管理，例如将专有名词、数字、语气词、标点、代词等判定为无效词。去除这部分无效词后，再剩余的词可以判定为有效词，将目标告警信息中的有效词作为二级特征词。在将目标告警信息中的特征词与告警知识图谱中每个告警模板的标签词进行匹配时，对于每个告警模板，将目标告警信息中的一级特征词与告警模板的一级标签词进行匹配，将目标告警信息中的二级特征词与告警模板的二级标签词进行匹配。若目标告警信息中的一级特征词与某个告警模板的一级标签词的匹配数量占该告警模板的一级标签词的比例大于第一预设比例，且目标告警信息中的二级特征词与某个告警模板的二级标签词的匹配数量占该告警模板的二级标签词的比例大于第二预设比例，则认为目标告警信息与该告警模板匹配成功。其中，第一预设比例可以与第二预设比例相等，也可以不相等，本申请对此不作具体限定。

举例说明，一条目标告警信息的内容为：“09-06 10:00服务器XX-01发生内存冲高，最高值100％，最低值60％，持续冲高20秒，请关注。”

特征词库包括：服务器、内存、内存冲高、持续冲高。

在对上述告警信息进行切词后得到的结果如下：

一级特征词(在特征词库中存在的词)：服务器、内存冲高、持续冲高。

二级特征词(不在特征词库但切词后判定为非无效词)：发生、最高值、最低值。

无效词：09-06 10:00(时间信息)、XX-01(服务器信息)、100％/60％/20秒(告警数字)、请关注(无特殊含义词)。

将目标告警信息中属于特征词库的词作为一级特征词，将不属于特征词库且被确定为有效词的词作为二级特征词，可以充分挖掘目标告警信息的文本信息含义，使目标告警信息更准确地匹配到对应的告警模板。

在一种可能的实施方式中，可以基于告警知识图谱，确定与告警相关的统计数据。其中，统计数据可以包括同一个监控对象在设定时间段的告警情况、同一个告警模板在设定时间段的告警情况、同一个告警对象和告警模板的组合在设定时间段的告警情况、同一个业务领域在设定时间段的告警情况。

基于告警知识图谱得到的告警相关的统计数据，可以为运维人员对告警的重复性分析、运维故障原因分析、生产运行质量回顾等提供数据支撑。

图5示例性地示出了本申请实施例提供的一种具体的告警知识图谱的示意图，该告警知识图谱是根据如下4条事件单生成的。需要说明的是，图5仅展示了与如下4条事件单相关的部分，告警知识图谱中的其他部分省略。

可以看出，上述4条告警信息的内容相似，因此在基于知识图谱对其进行分析后，将上述4条告警信息与同一个告警模板关联，达到了对相似告警事件进行归并的效果。

本申请实施例提供一种基于知识图谱的告警分析方法，针对数据中心运维工作面临的大量复杂的运维告警，基于告警知识图谱将告警信息拆分成告警模板和监控对象，这个拆分的思路对于各领域的告警都有很好的兼容性，不增加人工额外配置和维护的成本，并且可以使运维人员根据分析结果优先关注重要程度高的监控对象和优先级高的告警模板关联的告警事件。

基于相同的技术构思，图6示例性地示出了本申请实施例提供的一种基于知识图谱的告警分析装置。如图6所示，该设备600包括：

获取模块601，用于获取目标告警事件对应的目标告警信息；

提取模块602，用于基于特征词库，提取所述目标告警信息中的特征词；

匹配模块603，用于将所述目标告警信息中的特征词与告警知识图谱中每个告警模板的标签词的相似性进行匹配；若匹配成功，则获取与所述告警信息匹配的告警模板的编号；

处理模块604，用于将从所述目标告警信息中提取的告警对象、告警发生时间及所述匹配的告警模板的编号，作为所述目标告警事件的分析结果；

输出模块605，用于返回所述目标告警事件的分析结果。

在一种可能的设计中，所述处理模块604，还用于在所述告警知识图谱中，添加所述目标告警信息与所述匹配的告警模板之间的第一关联关系，并建立所述目标告警信息的告警对象与所述告警知识图谱中对应的监控对象之间的第二关联关系。

在一种可能的设计中，所述处理模块604，还用于若所述告警知识图谱中不存在与所述目标告警信息匹配的告警模板，则在所述告警知识图谱中创建新的告警模板，并建立所述目标告警信息的告警对象与所述告警知识图谱中对应的监控对象之间的第三关联关系；所述新的告警模板中的标签词为所述目标告警信息中的特征词。

在一种可能的设计中，所述处理模块604，还用于通过如下方法创建特征词库：按照设定的分词粒度，对各历史告警信息进行分词；从每一分词粒度下的各分词中选取满足扩充方式的分词，添加至所述特征词库；所述选取满足扩充方式的分词，包括：针对所述分词粒度下的任一分词，从同义词库中确定所述分词的同义词；在所述分词的词频和所述同义词的词频满足扩充要求时，将所述分词添加至所述特征词库。

在一种可能的设计中，每个告警模板还关联对应的优先等级，每个监控对象还关联对应的重要等级；所述处理模块604，还用于根据与所述目标告警信息匹配的告警模板的优先等级，以及所述目标告警事件的发生对象对应的监控对象的重要等级，确定所述目标告警事件的风险等级。

所述提取模块602，还用于将所述目标告警信息中属于特征词库的词作为一级特征词、将不属于特征词库且有效的词作为二级特征词；

所述匹配模块603，还用于对于每个告警模板，将所述目标告警信息中的一级特征词与所述告警模板的一级标签词进行匹配，将所述目标告警信息中的二级特征词与所述告警模板的二级标签词进行匹配。

在一种可能的设计中，所述处理模块604，还用于基于所述告警知识图谱，确定与告警相关的统计数据；所述统计数据包括同一个监控对象在设定时间段的告警情况、同一个告警模板在设定时间段的告警情况、同一个告警对象和告警模板的组合在设定时间段的告警情况、同一个业务领域在设定时间段的告警情况。

基于相同的技术构思，本申请实施例提供了一种计算设备，如图7所示，包括至少一个处理器701，以及与至少一个处理器连接的存储器702，本申请实施例中不限定处理器701与存储器702之间的具体连接介质，图7中处理器701和存储器702之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中，存储器702存储有可被至少一个处理器701执行的指令，至少一个处理器701通过执行存储器702存储的指令，可以执行上述基于知识图谱中的告警分析方法。

其中，处理器701是计算设备的控制中心，可以利用各种接口和线路连接计算机设备的各个部分，通过运行或执行存储在存储器702内的指令以及调用存储在存储器702内的数据，从而进行资源设置。

可选地，处理器701可包括一个或多个处理单元，处理器701可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器701中。在一些实施例中，处理器701和存储器702可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器701可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器702作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器702可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器702是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器702还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于相同的技术构思，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行程序，计算机可执行程序用于使计算机执行上述任一方式所列的基于知识图谱中的告警分析。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于知识图谱的告警分析方法，其特征在于，所述方法包括：

获取目标告警事件对应的目标告警信息；

基于特征词库，提取所述目标告警信息中的特征词；

将所述目标告警信息中的特征词与告警知识图谱中每个告警模板的标签词的相似性进行匹配；若匹配成功，则获取与所述告警信息匹配的告警模板的编号；

将从所述目标告警信息中提取的告警对象、告警发生时间及所述匹配的告警模板的编号，作为所述目标告警事件的分析结果；

返回所述目标告警事件的分析结果。

2.根据权利要求1所述的方法，其特征在于，所述匹配成功之后，还包括：

在所述告警知识图谱中，添加所述目标告警信息与所述匹配的告警模板之间的第一关联关系，并建立所述目标告警信息的告警对象与所述告警知识图谱中对应的监控对象之间的第二关联关系。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若所述告警知识图谱中不存在与所述目标告警信息匹配的告警模板，则在所述告警知识图谱中创建新的告警模板，并建立所述目标告警信息的告警对象与所述告警知识图谱中对应的监控对象之间的第三关联关系；所述新的告警模板中的标签词为所述目标告警信息中的特征词。

4.根据权利要求1所述的方法，其特征在于，通过如下方法创建特征词库：

按照设定的分词粒度，对各历史告警信息进行分词；

从每一分词粒度下的各分词中选取满足扩充方式的分词，添加至所述特征词库；

所述选取满足扩充方式的分词，包括：

针对所述分词粒度下的任一分词，从同义词库中确定所述分词的同义词；在所述分词的词频和所述同义词的词频满足扩充要求时，将所述分词添加至所述特征词库。

5.根据权利要求1所述的方法，其特征在于，每个告警模板还关联对应的优先等级，每个监控对象还关联对应的重要等级；

所述方法还包括:

根据与所述目标告警信息匹配的告警模板的优先等级，以及所述目标告警事件的发生对象对应的监控对象的重要等级，确定所述目标告警事件的风险等级。

6.根据权利要求2所述的方法，其特征在于，所述告警模板的标签包括一级标签和二级标签；

所述基于特征词库，提取所述目标告警信息中的特征词，包括：

将所述目标告警信息中属于特征词库的词作为一级特征词、将不属于特征词库且有效的词作为二级特征词；

将所述目标告警信息中的特征词与所述告警知识图谱中每个告警模板的标签词进行匹配，包括：

对于每个告警模板，将所述目标告警信息中的一级特征词与所述告警模板的一级标签词进行匹配，将所述目标告警信息中的二级特征词与所述告警模板的二级标签词进行匹配。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述告警知识图谱，确定与告警相关的统计数据；

所述统计数据包括同一个监控对象在设定时间段的告警情况、同一个告警模板在设定时间段的告警情况、同一个告警对象和告警模板的组合在设定时间段的告警情况、同一个业务领域在设定时间段的告警情况。

8.一种基于知识图谱的告警分析装置，其特征在于，包括：

获取模块，用于获取目标告警事件对应的目标告警信息；

输出模块，用于返回所述目标告警事件的分析结果。

9.一种计算设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，包括计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得如权利要求1至7中任一项所述的方法实现。