CN114417828A

CN114417828A - 一种服务器告警日志描述文本的实体关系抽取方法及系统

Info

Publication number: CN114417828A
Application number: CN202210149183.8A
Authority: CN
Inventors: 赵子岩; 高德荃; 来风刚; 张冰; 娄超; 吴超; 罗旺; 席丁鼎; 俞弦; 韩圣亚; 马超
Original assignee: State Grid Information and Telecommunication Co Ltd; Nari Information and Communication Technology Co; State Grid Electric Power Research Institute; Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd; Nari Information and Communication Technology Co; State Grid Electric Power Research Institute; Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Priority date: 2022-02-18
Filing date: 2022-02-18
Publication date: 2022-04-29

Abstract

本发明公开了一种服务器告警日志描述文本的实体关系抽取方法及系统，包括：获取待抽取的服务器告警日志描述文本数据，进行依存句法分析得到每个句子的句式，判断每个句式是否符合预先确定的领域频繁核心表达式种子模板中的某个核心表达式，若是，则根据对应的核心表达式输出该句子的实体关系至第一实体关系集；若否，则利用包括领域频繁核心表达式种子模板的统计学算法进行实体关系抽取，输出到第二实体关系集；将第一实体关系集和第二实体关系集合并后得到最终的服务器告警日志描述文本数据的实体关系组。优点：充分利用服务器告警领域频繁核心表达式和统计学算法进行实体关系抽取，提高实体关系抽取的准确性，为后续构建知识图谱提供可靠来源。

Description

一种服务器告警日志描述文本的实体关系抽取方法及系统

技术领域

本发明涉及一种服务器告警日志描述文本的实体关系抽取方法及系统，属于服务器集群故障溯源技术领域。

背景技术

云数据中心运维层次复杂，包含主机设备层、信息平台层、服务调用层，运维场景与业务强相关；云数据中心网络关系复杂，应用调用关系多，当某次业务出现故障报警时，会由于业务关联，造成大量相关的报警信息同时并发。因此，需要以当前发出的报警信息为证据，构建报警传播的知识图谱，为后续推理最可能的根部报警信息提供决策依据。

现有方法存在的缺陷：在现有的云数据中心服务器运维策略中，随着主机设备层、信息平台层、服务调用层中各自报警保护机制中设置的报警逻辑，出现大量的报警信息冗余、报警阈值设置不合理、大量关联报警信息无法分析根源的报警泛滥问题。在以往的运维中，当出现大量的关联报警信息时，则需要专业的服务器运维工程师从服务器底层逐一排查故障原因，缺乏智能的报警信息传播关系分析技术，造成大量的人力物力浪费。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种服务器告警日志描述文本的实体关系抽取方法及系统。

为解决上述技术问题，本发明提供一种服务器告警日志描述文本的实体关系抽取方法，包括：

获取待抽取的服务器告警日志描述文本数据；

对服务器告警日志描述文本数据中的句子进行依存句法分析，得到每个句子的句式，判断每个句式是否符合预先确定的领域频繁核心表达式种子模板中的某个核心表达式，若是，则根据对应的核心表达式输出该句子的实体关系至第一实体关系集；若否，则利用包括所述领域频繁核心表达式种子模板的统计学算法进行实体关系抽取，输出到第二实体关系集；

将第一实体关系集和第二实体关系集合并后得到最终的服务器告警日志描述文本数据的实体关系组。

进一步的，还包括：对待抽取的服务器告警日志描述文本数据进行复杂句子分句和去除无用词处理，得到预处理后的文本数据，利用预处理后的文本数据代替服务器告警日志描述文本数据进行依存句法分析。

进一步的，所述领域频繁核心表达式种子模板的确定过程，包括：

获取服务器告警日志历史描述文本；

对待抽取的服务器告警日志历史描述文本数据进行复杂句子分句和去除无用词处理，得到预处理后的历史文本数据；

基于依存句法分析得到的最短依存树抽取预处理后的文本数据的核心表达式，依据核心表达式中谓语动词出现的频率进行排序，选取出现频率高于设定阈值的谓语动词，得到领域频繁核心表达式集合；

从领域频繁核心表达式集合中抽取一部分作为领域频繁核心表达式种子模板。

进一步的，所述利用包括所述领域频繁核心表达式种子模板的统计学算法进行实体关系抽取，输出到第二实体关系集，包括：

将所述领域频繁核心表达式种子模板作为Bootstrapping算法的种子集；

将不符合的领域频繁核心表达式种子模板的句子放入到待处理集合中；

分别利用依存句法分析方法和词法分析方法提取所述种子集和待处理集合中句子的词法特征和句法特征，计算种子集和待处理集合中词法特征和句法特征的相似度，取与种子集中句子相似度分数大于预设值的待处理集合中的句子加入到候选集中，该待处理集合中的句子的实体关系为与其对应的种子集中句子的实体关系；

下一次迭代中将候选集新增的句子加入到上一次迭代的种子集中得到新种子集，将加入到候选集中的句子从待处理集合中剔除得到新待处理集合；

再对新种子集和新待处理集合中句子的词法特征和句法特征进行相似度计算，取相似度分数大于预设值的新待处理集合中的句子加入到候选集中；

不断重复迭代过程扩展候选集中的句子，直到没有新的句子产生为止，得到候选集的句子集合，通过候选集的句子集合确定第二实体关系集。

一种服务器告警日志描述文本的实体关系抽取系统，包括：

获取模块，用于获取待抽取的服务器告警日志描述文本数据；

预处理模块，用于对待抽取的服务器告警日志描述文本数据进行复杂句子分句和去除无用词处理，得到预处理后的文本数据；

抽取模块，用于对预处理后的文本数据中的句子进行依存句法分析，得到每个句子的句式，判断每个句式是否符合预先确定的领域频繁核心表达式种子模板中的某个核心表达式，若是，则根据对应的核心表达式输出该句子的实体关系至第一实体关系集；若否，则利用包括所述领域频繁核心表达式种子模板的统计学算法进行实体关系抽取，输出到第二实体关系集；将第一实体关系集和第二实体关系集合并后得到最终的服务器告警日志描述文本数据的实体关系组。

进一步的，还包括：

预处理模块，用于对待抽取的服务器告警日志描述文本数据进行复杂句子分句和去除无用词处理，得到预处理后的文本数据，利用预处理后的文本数据代替服务器告警日志描述文本数据进行依存句法分析。

进一步的，所述抽取模块包括：种子模板确定单元，

用于获取服务器告警日志历史描述文本；对待抽取的服务器告警日志历史描述文本数据进行复杂句子分句和去除无用词处理，得到预处理后的历史文本数据；基于依存句法分析得到的最短依存树抽取预处理后的文本数据的核心表达式，依据核心表达式中谓语动词出现的频率进行排序，选取出现频率高于设定阈值的谓语动词，得到领域频繁核心表达式集合；从领域频繁核心表达式集合中抽取一部分作为领域频繁核心表达式种子模板。

进一步的，所述抽取模块包括：算法处理单元，

用于将所述领域频繁核心表达式种子模板作为Bootstrapping算法的种子集；将不符合的领域频繁核心表达式种子模板的句子放入到待处理集合中；分别利用依存句法分析方法和词法分析方法提取所述种子集和待处理集合中句子的词法特征和句法特征，计算种子集和待处理集合中词法特征和句法特征的相似度，取与种子集中句子相似度分数大于预设值的待处理集合中的句子加入到候选集中，该待处理集合中的句子的实体关系为与其对应的种子集中句子的实体关系；

一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述的方法中的任一方法。

一种计算设备，包括，

一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。

本发明所达到的有益效果：

服务器告警领域中主要的研究对象大多为一些故障描述文本，这些文本研读后通过人工的处理方式很难将庞大数量的故障模式与原因进行关联，所以构建成知识图谱可视化展示故障关联能很大提升故障处理效率。但是服务器告警领域的处理数据相对于其他领域，表达更加规范，有较为特定的一些表达方式，可以充分利用服务器告警领域频繁核心表达式和统计学算法进行实体关系抽取，提高实体关系抽取的准确性，为后续构建知识图谱提供可靠来源。

附图说明

图1是本发明的流程示意图；

图2是本发明利用包括所述领域频繁核心表达式种子模板的统计学算法进行实体关系抽取的过程；

图3是领域频繁核心表达式集合的确定过程。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，一种服务器告警日志描述文本的实体关系抽取方法，包括：

获取待抽取的服务器告警日志描述文本数据；

对服务器告警日志描述文本数据中的句子使用LTP 句法分析工具进行依存句法分析，得到每个句子的句式，判断每个句式是否符合预先确定的领域频繁核心表达式种子模板中的某个核心表达式，若是，则根据对应的核心表达式输出该句子的实体关系至第一实体关系集；若否，则利用包括所述领域频繁核心表达式种子模板的统计学算法进行实体关系抽取，输出到第二实体关系集；

还包括：对待抽取的服务器告警日志描述文本数据进行复杂句子分句和去除无用词处理，得到预处理后的文本数据，利用预处理后的文本数据代替服务器告警日志描述文本数据进行依存句法分析。其中复杂句子分句是指对包含连词或者并列结构的复杂句子进行分句，拆分成简单句子，而去除无用词则为停词、标点符号和语气词等，这些避免了无用词可能导致的知识偏移。

如图2和3所示，所述领域频繁核心表达式种子模板的确定过程，包括：

获取服务器告警日志历史描述文本；

基于依存句法分析得到的最短依存树抽取预处理后的文本数据的核心表达式，依据核心表达式中谓语动词出现的频率进行排序，选取出现频率高于0.7（比如对于动词，其计算方法是每个动词出现次数除以所有动词个数）的谓语动词，得到领域频繁核心表达式集合；

从领域频繁核心表达式集合中抽取50%作为领域频繁核心表达式种子模板，抽取的针对领域的关系实体三元组为后面算法的种子集，避免人工抽取的低效性。

如图2所示，利用包括所述领域频繁核心表达式种子模板的统计学算法进行实体关系抽取，输出到第二实体关系集，包括：

在判断某个句子的句式不符合领域频繁核心表达式种子模板中的核心表达式时，则将其加入到待处理集合中，使用BootStrapping算法进行实体关系抽取，在该算法中使用词法特征和句法依存特征来进行相似度比较，从而得到三元组候选集元素，最终得到日志描述文本对应的实体关系三元组集合。详细的说，词法特征是在对预处理后的文本进行分词处理，得到词性和词类，确定句子中每个词对应的词法特征。而句法依存的处理方式较为复杂，在对文本处理冗余数据后，对句子进行依存分析，找到句子的核心部分，也就是谓语动词，然后从核心词向前或向后找到与核心词构成主谓关系（SBV）或者动宾关系（VOB）的词语共同形成一个三元组。Bootstrapping算法是一种统计学算法，当样本总量很大时，从样本中随机抽取若干次，可以认为抽取出的子样本服从与总体样本同样的分布。

在本专利提出的改进算法中，首先选取20%已确定领域实体关系的领域频繁核心表达式集合作为种子集；

将不符合的领域频繁核心表达式种子模板的句子放入到待处理集合中；分别利用依存句法分析方法和词法分析方法提取所述种子集和待处理集合中句子的词法特征和句法特征，计算种子集和待处理集合中词法特征和句法特征的相似度，取与种子集中句子相似度分数大于预设值0.8的待处理集合中的句子加入到候选集中，该待处理集合中的句子的实体关系为与其对应的种子集中句子的实体关系；

知识图谱大多应用在某个垂直领域，但现有方法只关注抽取算法，忽略了领域特殊表达会能更加快速的提取句子对应的实体关系，而半监督学习方法只需要少量标注语料即可完成较准确的抽取结果。本方法提出的使用领域频繁核心表达特征和BootStrapping算法融合的改进方法，通过从日志描述文本集中抽取出该领域内对应的特殊简单句式，并且根据句法分析可得出其对应的实体关系结构，若是测试数据集中某句子句式符合抽取出的领域句式结构，则使用提取出的句式来抽取实体关系，若不符合则将其处理后加入到待处理集合中，实体关系抽取方法使用的是BootStrapping算法。本发明的方法能够提高实体关系抽取的准确性，从而使得利用抽取的实体关系构建的知识图谱更可靠。

相应的本发明还提供一种服务器告警日志描述文本的实体关系抽取系统，包括：

进一步的，还包括：

进一步的，所述抽取模块包括：种子模板确定单元，

进一步的，所述抽取模块包括：算法处理单元，

用于将所述领域频繁核心表达式种子模板作为Bootstrapping算法的种子集；将不符合的领域频繁核心表达式种子模板的句子放入到待处理集合中；分别利用依存句法分析方法和词法分析方法提取所述种子集和待处理集合中句子的词法特征和句法特征，计算种子集和待处理集合中词法特征和句法特征的相似度，取与种子集中句子相似度分数大于预设值0.8的待处理集合中的句子加入到候选集中，该待处理集合中的句子的实体关系为与其对应的种子集中句子的实体关系；

一种计算设备，包括，

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种服务器告警日志描述文本的实体关系抽取方法，其特征在于，包括：

获取待抽取的服务器告警日志描述文本数据；

2.根据权利要求1所述的服务器告警日志描述文本的实体关系抽取方法，其特征在于，还包括：对待抽取的服务器告警日志描述文本数据进行复杂句子分句和去除无用词处理，得到预处理后的文本数据，利用预处理后的文本数据代替服务器告警日志描述文本数据进行依存句法分析。

3.根据权利要求1所述的服务器告警日志描述文本的实体关系抽取方法，其特征在于，所述领域频繁核心表达式种子模板的确定过程，包括：

获取服务器告警日志历史描述文本；

4.根据权利要求1所述的服务器告警日志描述文本的实体关系抽取方法，其特征在于，所述利用包括所述领域频繁核心表达式种子模板的统计学算法进行实体关系抽取，输出到第二实体关系集，包括：

5.一种服务器告警日志描述文本的实体关系抽取系统，其特征在于，包括：

6.根据权利要求5所述的服务器告警日志描述文本的实体关系抽取方法，其特征在于，还包括：

7.根据权利要求5所述的服务器告警日志描述文本的实体关系抽取系统，其特征在于，所述抽取模块包括：种子模板确定单元，

8.根据权利要求5所述的服务器告警日志描述文本的实体关系抽取系统，其特征在于，所述抽取模块包括：算法处理单元，

9.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1至4所述的方法中的任一方法。

10.一种计算设备，其特征在于，包括，

一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1至4所述的方法中的任一方法的指令。