CN116069947A

CN116069947A - 一种日志数据事件图谱构建方法、装置、设备及存储介质

Info

Publication number: CN116069947A
Application number: CN202310074036.3A
Authority: CN
Inventors: 施淼元; 缪庆亮; 俞凯
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2023-01-30
Filing date: 2023-01-30
Publication date: 2023-05-05

Abstract

本发明提供一种日志数据事件图谱构建方法、装置、设备及存储介质，该方法包括：抽取接收到的日志数据中每一个日志事件对应的时间信息；根据日志数据中每一个日志事件对应的日志语句，抽取每一个日志事件对应的触发词；根据各个日志事件对应的触发词，对日志数据中的日志事件进行分类，将包含相同触发词的日志事件划分为一个日志事件集合，并抽取各个日志事件对应的论元；根据日志数据中各个日志事件对应的时间信息，构建日志数据各个日志事件的日志事件链；根据日志事件链、以及每一个日志事件对应的时间信息、触发词、论元，构建日志数据的事件图谱。本发明创建的日志事件图谱表征了日志事件的关联关系，提升了数据查询的准确性和效率。

Description

一种日志数据事件图谱构建方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种日志数据事件图谱构建方法、装置、设备及存储介质。

背景技术

随着计算机和互联网技术飞速发展，数据量的飞速增长使得信息越来越多，人们对信息查询的质量和精准度要求越来越高。日志系统对运维工作而言是一个非常重要的组成部分，它记录系统与操作者产生的所有行为，并且同时按照开发人员的某一种规范对其操作进行记录。

一般的对于日志数据的查询都只能通过简单的人工查看，这种方式耗费时间，并且查询的准确性不能得到保证。还有些只通过简单的日志知识图谱进行数据查询，知识图谱知识孤立的知识点，无法表征日志数据中包含的较为复杂的逻辑，因此，这种方式也难以保证数据查询的准确性。

发明内容

鉴于此，本发明实施例提供了一种日志数据事件图谱构建方法、装置、设备及存储介质，以消除或改善现有技术中存在的一个或更多个缺陷。

本发明的一个方面提供了一种日志数据事件图谱构建方法，该方法包括以下步骤：

将接收到的日志数据中符合时间格式的文档开头行作为一个日志事件，并抽取每一个日志事件对应的时间信息；

根据所述日志数据中每一个日志事件对应的日志语句，抽取每一个日志事件对应的触发词；

根据各个日志事件对应的触发词，对所述日志数据中的日志事件进行分类，将包含相同触发词的日志事件划分为一个日志事件集合，并基于各个日志事件集合抽取各个日志事件对应的论元；

根据所述日志数据中各个日志事件对应的时间信息，构建所述日志数据各个日志事件的日志事件链；

根据所述日志事件链、以及每一个日志事件对应的时间信息、触发词、论元，构建所述日志数据的事件图谱。

在本发明的一些实施例中，所述抽取每一个日志事件对应的触发词包括：

对所述日志数据中每一个日志事件的日志语句进行分词，获得每一个日志事件对应的分词集合；

统计每一个日志事件的分词集合中的各个词语在所述日志数据中的词频逆向文件频率；

根据所述词频逆向文件频率对每一个日志事件的分词集合中的各个词语进行排序，对排序后的每一个日志事件的分词集合进行聚类，获得每个日志事件对应的触发词表；

基于所述触发词表对所述日志数据进行关键词标注，并利用标注后的日志数据训练触发词预测模型，利用所述触发词预测模型预测出所述日志数据中每一个日志事件的触发词。

在本发明的一些实施例中，在对所述日志数据中每一个日志事件的日志语句进行分词之前，所述方法还包括：

基于指定字符对每一个日志事件进行句子切分，并将切分后的每一个句子中不具有语义含义的字符删除，获得每一个日志事件对应的筛选日志语句；

对每一个日志事件对应的筛选日志语句进行分词。

在本发明的一些实施例中，所述利用所述触发词预测模型预测出所述日志数据中每一个日志事件的触发词，包括：

利用所述触发词预测模型预测出所述日志数据中每一个日志事件的候选触发词以及候选触发词对应的分值，将分值最高的候选触发词作为对应的日志事件的触发词；

若所述触发词预测模型预测出的日志事件的候选触发词的分值均小于预设分值，则统计所述日志事件的候选触发词在所述日志数据中的词频逆向文件频率，并基于所述词频逆向文件频率对所述候选触发词进行排序聚类，获得各个日志事件的新的触发词表，基于所述新的触发词表和所述触发词预测模型重新预测各个日志事件的触发词，直至各个日志事件的触发词的分值大于或等于所述预设分值。

在本发明的一些实施例中，所述抽取各个日志事件对应的论元，包括：

分别将各个日志事件集合中的日志事件的日志语句输入到聚类模型中，对各个日志事件集合中的日志事件进行语义聚类，将每一个聚类中心簇的语义向量作为对应日志事件集合中各个日志事件对应的论元。

在本发明的一些实施例中，所述根据所述日志数据中各个日志事件对应的时间信息，构建所述日志数据各个日志事件的日志事件链，包括：

根据所述日志数据中每一个日志事件对应的时间信息，对所述日志数据中的日志事件进行排序，获得日志事件集合；

采用不同切分粒度对所述日志事件集合中的日志事件进行切分，获得不同切分粒度对应的初选日志事件链集合；

统计不同切分粒度对应的初选日志事件链集合中每一个初选日志事件链在所述日志数据中的词频逆向文件频；

根据每一个初选日志事件链的词频逆向文件频率分别对不同切分粒度对应的初选日志事件链集合的初选日志事件链进行排序；

对不同切分粒度对应的排序后的初选日志事件链集合中的初选日志事件链进行匹配剪枝，去除重复的初选日志事件链，获得所述日志数据对应的日志事件链。

在本发明的一些实施例中，所述对不同切分粒度对应的排序后的初选日志事件链集合中的初选日志事件链进行匹配剪枝，包括：

将不同切分粒度对应的初选日志事件链集合中排序在指定名次后的初选日志事件链删除，获得不同切分粒度对应的筛选日志事件链集合；

从最大切分粒度开始，依次将各个切分粒度对应的筛选日志事件链集合作为目标日志事件链集合，将低切分粒度的筛选日志事件链集合中的筛选日志事件链与所述目标日志事件链集合中的筛选日志事件链进行匹配，将与所述目标日志事件链集合中的筛选日志事件链重复的筛选日志事件链从所述低切分粒度的筛选日志事件链集合中删除，直至最低切分粒度对应的筛选日志事件链集合匹配完成，获得所述日志数据对应的日志事件链。

本发明的另一方面提供了一种日志数据事件图谱构建装置，该装置包括：

时间抽取模块，用于将接收到的日志数据中符合时间格式的文档开头行作为一个日志事件，并抽取每一个日志事件对应的时间信息；

触发词抽取模块，用于根据所述日志数据中每一个日志事件对应的日志语句，抽取每一个日志事件对应的触发词；

论元抽取模块，用于根据各个日志事件对应的触发词，对所述日志数据中的日志事件进行分类，将包含相同触发词的日志事件划分为一个日志事件集合，并基于各个日志事件集合抽取各个日志事件对应的论元；

事件链构建模块，用于根据所述日志数据中各个日志事件对应的时间信息，构建所述日志数据各个日志事件的日志事件链；

图谱创建模块，用于根据所述日志事件链、以及每一个日志事件对应的时间信息、触发词、论元，构建所述日志数据的事件图谱。

本发明的另一方面提供了一种日志数据事件图谱构建设备，包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该设备实现上述日志数据事件图谱构建方法。

本发明的又一方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述日志数据事件图谱构建方法。

本发明的提供的一种日志数据事件图谱构建方法、装置、设备及存储介质，基于日志事件的时间特征，对日志数据进行解析，抽取日志事件的时间信息、触发词以及论元，并基于日志事件的时间特征，构建出日志事件链，基于日志事件链、日志事件的时间信息、触发词以及论元，创建出日志数据的事件图谱，该图谱可以表征日志事件的逻辑关系，方便查询使用，提升了数据查询的效率和准确性，同时，图谱的创建过程不需要人工标注，提升了日志数据的处理效率。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。附图中的部件不是成比例绘制的，而只是为了示出本发明的原理。为了便于示出和描述本发明的一些部分，附图中对应部分可能被放大，即，相对于依据本发明实际制造的示例性装置中的其它部件可能变得更大。在附图中：

图1是本说明书一个实施例中提供的日志数据事件图谱构建方法流程示意图；

图2是本说明书一个实施例中日志事件图谱构建的流程示意图；

图3是本说明书提供的日志数据事件图谱构建装置一个实施例的模块结构示意图；

图4是本说明书一个实施例中日志数据事件图谱构建服务器的硬件结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在此，还需要说明的是，如果没有特殊说明，术语“连接”在本文不仅可以指直接连接，也可以表示存在中间物的间接连接。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

随着科技的进步，日志系统的数据量都在激增，在需要对日志数据进行查询时，如何能够准确快速的查询到想要的信息，以提升系统的维护效率，进而提升系统性能是目前需要面对的问题。

本说明书实施例中提供一种日志数据事件图谱构建方法，通过抽取日志数据中各个日志事件的时间信息、触发词、论元，并基于各个日志事件的时间信息，构建日志数据中各个日志事件的日志事件链，基于日志数据中各个日志事件的时间信息、触发词、论元以及日志事件链创建出日志事件图谱，日志事件图谱能够清晰的表征日志数据中各个日志事件的关键信息如：时间、触发词、论元，同时还能够表征各个日志事件之间的逻辑关系，从而方便数据的查询，提升了日志数据查询的效率和准确性。

图1是本说明书一个实施例中提供的日志数据事件图谱构建方法流程示意图，如图1所示，本说明书提供的日志数据事件图谱构建方法的一个实施例中，所述方法可以应用在计算机、平板电脑、服务器、智能手机、智能穿戴设备等终端设备中，所述方法可以包括如下步骤：

步骤102、将接收到的日志数据中符合时间格式的文档开头行作为一个日志事件，并抽取每一个日志事件对应的时间信息。

在具体的实施过程中，一般的，一个日志数据中会包含大量的数据，其中可以包括多个日志事件，本说明书实施例可以基于时间特征对接收到的日志数据进行解析，抽取每一个日志事件对应的时间信息。一般标准日志的打印，都是从时间或者时间戳开始的，但有些日志数据很长，也很可能有换行符等符号在内，所以不能将文档的每一行当成一次的日志打印即作为一个日志事件。本说明书实施例中，根据时间特征将符合时间格式的文档开头行当做一次的日志打印，作为一个日志事件，通过这种文档解析方式，将接受到的日志数据，还原为每一次的日志打印状态，最终将解析到的时间信息作为每一个日志事件的发生时间。

步骤104、根据所述日志数据中每一个日志事件对应的日志语句，抽取每一个日志事件对应的触发词。

在具体的实施过程中，日志事件的触发词可以表示日志事件的类别属性，使用标准日志组件时，每行的日志即表示一个日志事件，每行的日志一般由其系统所定义的某个类所触发，如有个类名是“web.controller”，日志中的事件触发词就是该类，本说明书实施例抽取一行日志中的事件触发词。大部分的程序语言如python，c++，c#，java等在打印日志输出时都会使用常用的如log，log4j，logback等日志组件打印日志，这些组件打印出的日志一般是符合标准日志规范的，日志内容包括log-time，log-info，log-deug，log-warn，log-erro，log-trace等内容。表1是本说明书一个实施例中给出的日志数据的样例，如表1所示，样例3中的RequestID，样例4中的spring-cloud-monito，样例5的className即可以表示对应样例中的触发词。

表1

本说明书实施例中，可以采用智能学习模型学习来识别日志事件中的触发词，例如：将上述实施例中解析获得的日志数据中的时间数据去除，一行日志设为d，d中必定包含有一个触发词和事件的描述。同一个日志系统，因为使用的日志组件是相同且该系统内格式预先定义完成，所以认为当前系统的日志格式是固定的，事件触发词在该格式中也是相对固定的。可以采用机器学习方法和神经网络去无监督的学习该系统的日志格式，进而可以利用训练好的智能学习模型来预测出日志事件中的触发词。

本说明书一些实施例中，所述抽取每一个日志事件对应的触发词包括：

在具体的实施过程中，在抽取日志事件中的触发词时，可以先对日志数据中每一个日志事件的日志语句进行分词处理，获得每一个日志事件对应的分词集合。

在本说明书一些实施例中，在对日志数据中每一个日志事件的日志语句进行分词之前，所述方法还包括：

对每一个日志事件对应的筛选日志语句进行分词。

在具体的实施过程中，由于日志中带有各种各样的符号，先使用符号(\n，\t，@，...)等分隔符对句子进行切分。由于日志中带有中英文数据，和数字等，本说明书实施例可以先按照英文词表，将不属于英文单词表中的英文字符如：“bxcdadd”等字符串标识为一个整体，同样的方法将英文数字混杂，或纯数字的字符串标识出来作为一个整体：如“4499335552312”或“5g3jwe8y81ssd”，将这些不含语义信息的字符串去除。其中，不具有语义含义可以理解为不属于英文单词的英文字符，以及英文数字的组合或纯数字，这样的字符一般没有具体的语义含义，不会处于日志事件的触发词，将这些不具有语义含义的字符删除后，将剩下的字符串用英文词表和中文分词工具进行分词，获得每个日志事件对应的分词集合。如：得到的分词结果样例：[“className”，“This”，“is”，“debug”，“message”，接受，成功”]。通过将日志语句进行句子的切分后，将不具有语义含义的字符删除，剔除了不属于触发词的字符，为后续触发词的提取减少了工作量，提升了数据处理速度。

在获得每个日志事件对应的分词集合后，可以采用统计方法抽取日志事件可能的触发词。每行日志即为一个日志事件，其中必定含有其事件触发词，那么该词就是本说明书实施例要抽取的关键词，且这些关键词在整个日志文档中多次出现。本说明书实施例可以使用TF-IDF和text-rank方法生成对于整个日志文档D的关键词的权重排序结果：W＝{w1，w2，w3，w4....wm}，如：其中w1＝spring：0.05，w2＝boot：0.049。其中，TF-IDF(termfrequency-inverse document frequency，词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TextRank算法是一种基于图的用于关键词抽取和文档摘要的排序算法。

采用TF-IDF和text-rank方法可以统计出各个日志事件对应的分词集合中的各个词语在日志数据中的词频逆向文件频率即权重，基于各个词语对应的权重，可以对各个日志事件的分词集合中的各个词语进行排序，再用混合高斯模型(Gaussian Mixed Model)等聚类方法排序后的分词集合进行聚类，假设聚类的类别为k类，保留簇中心值最高的那一类簇数据，得到每个日志事件对应的触发词表W＝{w1，w2，w3，w4....wk}。

再利用远程监督的方法和触发词表W，对每行日志数据d进行标注，标注d中的关键词，进行模型训练，学习日志句子d中的触发词分布。模型可以选择之前预训练的语言模型，使用Bert For Token Classification(标记分类法)+CRF(conditional random fieldalgorithm，条件随机场算法)方法对输入的日志句子进行预测，预测出每个日志事件对应的触发词。其中，由于日志的数据特征和通用的语言模型有很大的差别，本说明书实施例可以在抽取日志事件的触发词、论元之前获取了大量的不同设备不同开发环境的标准日志去训练日志系统的语言模型，用预训练语言模型学习大量日志的数据分布，再使用训练获得的语言模型在接下来的任务如：触发词、论元的抽取中取得更好的表现。

使用关键词抽取+远程监督模型去抽取事件触发词，不需要任何人工模板、规则或标注数据，提升了日志数据处理的速度。当然，在进行日志事件的关键词的标注时，也可以使用人工对一部分事件触发词进行标注以提高触发词抽取精度。

本说明书一些实施例中，所述利用所述触发词预测模型预测出所述日志数据中每一个日志事件的触发词，包括：

在具体的实施过程中，可以利用触发词预测模型预测出输入的日志数据中每一个日志事件的候选触发词及其对应的分值，将输出每一个句子分数最高的预测候选触发词作为改句子对应的日志事件的触发词。如果日志数据较差，预测出的候选触发词的分值均小于预设分值，则可以将预测出的候选触发词作为日志事件的分词集合，重复迭代上述实施例的步骤。如：在采用触发词预测模型预测日志数据中各个日志事件的触发词时，模型输出的各个日志事件的候选触发词的分值均小于预设分值，则将输出的候选触发词作为日志事件新的分词集合，采用TF-IDF和text-rank方法统计该候选触发词在日志数据中的词频逆向文件频率即权重，并基于统计结果对各个候选触发词进行排序聚类，获得日志事件新的触发词表。采用日志事件的新的触发词表对日志事件的日志语句进行标注，并采用标注后的日志语句对触发词预测模型进行训练，采用训练后的触发词预测模型对日志事件进行触发词预测，直到每行日志d抽取出其事件触发词wd。最终可以获得D＝{d1，d2....dn}，d1有事件触发词w1，则我们将该行日志描述为一个事件(Event)E1＝(d1，w1)。

在预测结果不佳时，采用预测结果进行迭代重新预测日志事件的触发词，提升了触发词抽取的准确性，为后续日志事件图谱的创建奠定了准确的数据基础。

步骤106、根据各个日志事件对应的触发词，对所述日志数据中的日志事件进行分类，将包含相同触发词的日志事件划分为一个日志事件集合，并基于各个日志事件集合抽取各个日志事件对应的论元。

在具体的实施过程中，论元可以理解为带有论元角色的体词性成分，论元角色是由谓词根据其与相关的名词短语之间语义关系而指派给这些名词短语的语义角色，即与动词连用的论元在与动词所表示的动作或状态里扮演的语义角色。例如：一个健康检查事件，有触发词“HealthCheck”，可能有论元“Success”，“Error”，“TimeOut”等。本说明书实施例可以先基于各个日志事件对应的触发词，对日志事件进行分类，基于分类结果来抽取各个日志事件的论元。设有某类事件Ex，将有相同的事件触发词的日志句子抽取出来，视为同一类事件，获得多个日志事件集合，则我们可以得到Ex＝({dx1，dx2，dx3...dxn}，wx)。一个日志事件集合中事件的触发词相同，可以说明该日志事件集合中的日志事件的类别相同，可以通过对每一个日志事件集合中的日志事件的语句进行学习，进而抽取其中的论元。

本说明书一些实施例中，所述抽取各个日志事件对应的论元，包括：

在具体的实施过程中，将一个日志事件集合如：{dx1，dx2，dx3...dxn}输入聚类模型进行语义聚类，得到的分类数据量就是该日志事件集合中的日志事件的论元个数，每个中心簇的语义向量，记做该类别的日志事件的论元，则对于事件Ex得到论元集合(Argument)Ax＝{Ax1，Ax2，Ax3...Axj}。聚类模型可以选择无监督模型SCCL(SupportingClustering with Contrastive Learning，支持对比学习聚类)，该方法使用数据扩增和对比学习的方法，对句子进行无监督的聚类，对于一类事件Ex，可以得到：Ex＝({dx1，dx2，dx3...dxn}，wx，{Ax1，Ax2，Ax3...Axj})，对于一个日志句子dx1有dx1＝(Ex，wx，Ax1)。

本说明书实施例使用基于sccl聚类的方法对事件论元进行聚类，聚类的精度更高，而且是无监督的，不需要进行人工的标注或者规则的定义，提升了日志数据的处理速度，降低了日志数据处理成本。当然，根据需要也可以人工对一部分论元进行标注以提高聚类精度。

当然，根据需要还可以预先获取日志的打印结构，根据日志的结构去抽取触发词和论元。

步骤108、根据所述日志数据中各个日志事件对应的时间信息，构建所述日志数据各个日志事件的日志事件链。

在具体的实施过程中，日志事件对应的时间信息即可以理解为日志事件的发生时间，日志信息带有强时序性特征，日志数据一般按照事件的发生先后关系一行行打出来的，时间信息就表示了一个个事件发生的顺序关系，本说明书实施例可以根据日志事件的时间特征自动的去抽取事件的顺序关系，构建出日志数据中各个日志事件的日志事件链。

本说明书一些实施例中，所述根据所述日志数据中各个日志事件对应的时间信息，构建所述日志数据各个日志事件的日志事件链，包括：

在具体的实施过程中，对于一个日志文档D＝{d1，d2，d3...dn}，可以表示为E＝{e1，e2，e3....em}，每个事件e都有在第一步解析出的事件发生时间，记为T，则有(e1，t1)。假设在文档中存在事件链Chain＝(ec1，ec2，ec3，...，eck)。如一个数据库操作事件E＝“Database”，有论元“Accept DATA”，”Write DATA”，”Return Success”，则这3个事件的论元依次发生构成了一个接受数据并添加到数据库中，返回成功的事件链，本说明书实施例的目的就是抽取这些带有顺序逻辑关系的事件链。对于日志文档E＝{e1，e2，e3....en}可以按照不同的切分粒度即n-gram的方式将这些事件切成不同粒度的块，如：对于一个2-gram切分方法有事件块C2＝[C2-1，C2-2...，C2-n]，其中C2-1＝[e1，e2]，对于一个5-gram的事件块有C5＝[C5-1，C5-2...，C5-n]，其中C5-1＝[e1，e2，e3，e4，e5]。本说明书一个实施例中可以采用从2-gram到8-gram的切分粒度，设gram数量为m，则将每个切分的事件链Cm-x＝[ex，ex+1，...，ex+m]都当成是一个句子，对日志文档D按照天数进行切分，得到i个文档D＝{D1，D2，D3，...，Di}，文档Di＝{ei-1，ei-2，ei-3....ei-n}。统计Cm-x在{D1，D2，D3，...，Di}的TF和IDF，记做该链的统计得分并排序，再去掉排序中的长尾数据即得分最低的数据，得到每个gram下的事件链的排序Cm-1，Cm-2，Cm-3...Cm-k。最后按照最长匹配原则，从8-gram到2-gram逐层对每个Cm-x进行剪枝，得到不重复的最长事件链：C1，C2，C3...Ck。

例如：将日志数据中的各个事件按照时间排序后有日志事件集合{ABCDEFG}，采用不同的切分粒度对日志事件集合进行切分，如：2-gram就是两两切分，获得2-gram切分粒度对应的初选日志事件链集合{AB，BC，CD，DE，EF，FG}，其他切分粒度以此类推，一直切分到最高切分粒度，切分粒度的选择可以根据实际需要而定，本说明书实施例不做具体限定。然后初选日志事件链集合中的每一个初选日志事件链去整个文档查找，统计出不同切分粒度中各个初选日志事件链对应的词频逆向文件频，基于统计结果，对各个初选日志事件链集合中的初选日志事件链进行排序。再对排序后的各个初选日志事件链集合中的初选日志事件链进行匹配剪枝，去除重复的初选日志事件链，比如：ABC包含了AB，把AB去掉，以此类推，获得日志数据对应的日志事件链。

本说明书一些实施例中，所述对不同切分粒度对应的排序后的初选日志事件链集合中的初选日志事件链进行匹配剪枝，包括：

在具体的实施过程中，在对各个切分粒度的初选日志事件链集合中的初选日志事件链进行统计排序时，可以基于各个初选日志事件链的得分，将得分低，排序靠后的初选日志事件链删除，获得各个切分粒度的筛选日志事件链集合。再从最大切分粒度开始，依次将各个切分粒度对应的筛选日志事件链集合作为目标日志事件链集合。如：若一个实施例中，切分粒度为2-6，可以先将6-gram的筛选日志事件链集合作为目标日志事件链集合，将2-5切分粒度的筛选日志事件链与6-gram的筛选日志事件链集合中的筛选日志事件链进行匹配，若存在于6-gram的筛选日志事件链重复的，则将其删除，如：ABCDEF包含了ABCD，则将ABCD删除。以此类推，直至2-gram的筛选日志事件链集合作为目标日志事件链集合为止，获得日志数据的日志事件链。由上述实施例可以看出，一个日志数据中的日志事件链可以不止一个，具体依情况而定，本说明书实施例不做具体限定。

本说明书实施例通过对日志的时序信息进行抽取和排序，可以得到日志事件发生的顺承关系，建模日志事件链，不需要人工标注和先验数据，可以获得日志数据中日志事件的逻辑关系，进而提升了日志数据事件图谱构建的准确性，提升了日志事件图谱的是基于日志事件链创建的，图谱可以更加清晰的表达日志数据的内部逻辑，方便查询使用。

步骤110、根据所述日志事件链、以及每一个日志事件对应的时间信息、触发词、论元，构建所述日志数据的事件图谱。

在具体的实施过程中，获得日志数据中的日志事件链后，可以基于日志事件链以及每一个日志事件对应的时间信息、触发词、论元，构建日志数据的事件图谱。其中，时间，关键词，论元是属于每一个事件的内部元素，事件链描述事件之间的关联。日志数据的事件图谱中，可以包括多个节点，每一个节点可以是一个事件，每个节点的属性值可以包括事件的时间、触发词以及论元，基于事件链建立各个节点的关联关系，进而构建出日志数据的事件图谱。

本说明书实施例提供的日志数据事件图谱构建方法，基于日志事件的时间特征，对日志数据进行解析，抽取日志事件的时间信息、触发词以及论元，并基于日志事件的时间特征，构建出日志事件链，基于日志事件链、日志事件的时间信息、触发词以及论元，创建出日志数据的事件图谱，该图谱可以表征日志事件的逻辑关系，方便查询使用，提升了数据查询的效率和准确性，同时，图谱的创建过程不需要人工标注，提升了日志数据的处理效率。

图2是本说明书一个实施例中日志事件图谱构建的流程示意图，如图2所示，整个过程可以概括为：接收标准日志输出的文档；根据时间特征对接收到的文档进行解析；采集日志数据预训练语言模型；抽取事件触发词；抽取事件论元；抽取事件链；自动构建日志事件图谱。其中，图2中每一个步骤的具体过程参见上述实施例的记载，此处不再赘述。

本说明书实施例主要关注日志的事件信息，抽取日志中的事件触发词、时间序列信息、事件的论元，计算事件间的顺序关系并构建事件链。过往的任务将日志数据当成一个个知识实体进行建模，本说明书实施例将日志当成一个个事件进行建模，不仅建模单一的事件，还建模事件链，对事件之间的关系与链接进行建模，进而建立的事件图谱能够表征事件之间的关联关系，方便后续数据查询。并且，本说明书实施例使用无监督的方式自动的去抽取其中的信息，而不需要进行人工的标注或者规则的定义，提升了数据处理的效率和准确性。标准的日志输出格式中的时间就是事件发生的时间，日志输出的日志类对象类型或接口类型就是事件的关键词或触发词。本说明书实施例面向未知的设备和系统，接受标准的日志输出格式，采用无监督的方式进行抽取，不需要进行人工标注或者定义模板规则。

本说明书中上述方法的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参考即可，每个实施例重点说明的都是与其他实施例的不同之处。相关之处参考方法实施例的部分说明即可。

基于上述所述的日志数据事件图谱构建方法，本说明书一个或多个实施例还提供一种日志数据事件图谱构建的装置。所述装置可以包括使用了本说明书实施例所述方法的装置(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思，本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似，因此本说明书实施例具体的装置的实施可以参考前述方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

具体地，图3是本说明书提供的日志数据事件图谱构建装置一个实施例的模块结构示意图，如图3所示，本说明书中提供的装置可以包括：

时间抽取模块31，用于将接收到的日志数据中符合时间格式的文档开头行作为一个日志事件，并抽取每一个日志事件对应的时间信息；

触发词抽取模块32，用于根据所述日志数据中每一个日志事件对应的日志语句，抽取每一个日志事件对应的触发词；

论元抽取模块33，用于根据各个日志事件对应的触发词，对所述日志数据中的日志事件进行分类，将包含相同触发词的日志事件划分为一个日志事件集合，并基于各个日志事件集合抽取各个日志事件对应的论元；

事件链构建模块34，用于根据所述日志数据中各个日志事件对应的时间信息，构建所述日志数据各个日志事件的日志事件链；

图谱创建模块35，用于根据所述日志事件链、以及每一个日志事件对应的时间信息、触发词、论元，构建所述日志数据的事件图谱。

本说明书一些实施例中，还提供了一种日志数据事件图谱构建设备，包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该设备实现上述实施例中记载的日志数据事件图谱构建方法，如：

需要说明的，上述所述的装置、设备根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本说明书实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图4是本说明书一个实施例中日志数据事件图谱构建服务器的硬件结构框图，该计算机终端可以是上述实施例中的日志数据事件图谱构建服务器或日志数据事件图谱构建装置。如图4所示服务器10可以包括一个或多个(图中仅示出一个)处理器100(处理器100可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的非易失性存储器200、以及用于通信功能的传输模块300。本领域普通技术人员可以理解，图4所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器10还可包括比图4中所示更多或者更少的组件，例如还可以包括其他的处理硬件，如数据库或多级缓存、GPU，或者具有与图4所示不同的配置。

非易失性存储器200可用于存储应用软件的软件程序以及模块，如本说明书实施例中的日志数据事件图谱构建方法对应的程序指令/模块，处理器100通过运行存储在非易失性存储器200内的软件程序以及模块，从而执行各种功能应用以及资源数据更新。非易失性存储器200可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，非易失性存储器200可进一步包括相对于处理器100远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输模块300用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中，传输模块300包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块300可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

与上述方法相应地，本发明还提供了一种装置，该装置包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述边缘计算服务器部署方法的步骤。该计算机可读存储介质可以是有形存储介质，诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种日志数据事件图谱构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述抽取每一个日志事件对应的触发词包括：

3.根据权利要求2所述的方法，其特征在于，在对所述日志数据中每一个日志事件的日志语句进行分词之前，所述方法还包括：

对每一个日志事件对应的筛选日志语句进行分词。

4.根据权利要求2所述的方法，其特征在于，所述利用所述触发词预测模型预测出所述日志数据中每一个日志事件的触发词，包括：

5.根据权利要求1所述的方法，其特征在于，所述抽取各个日志事件对应的论元，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述日志数据中各个日志事件对应的时间信息，构建所述日志数据各个日志事件的日志事件链，包括：

7.根据权利要求6所述的方法，其特征在于，所述对不同切分粒度对应的排序后的初选日志事件链集合中的初选日志事件链进行匹配剪枝，包括：

8.一种日志数据事件图谱构建装置，其特征在于，所述装置包括：

9.一种日志数据事件图谱构建设备，包括处理器和存储器，其特征在于，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该设备实现如权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。