CN117494697A - 日志解析处理方法及装置 - Google Patents

日志解析处理方法及装置 Download PDF

Info

Publication number
CN117494697A
CN117494697A CN202311428275.0A CN202311428275A CN117494697A CN 117494697 A CN117494697 A CN 117494697A CN 202311428275 A CN202311428275 A CN 202311428275A CN 117494697 A CN117494697 A CN 117494697A
Authority
CN
China
Prior art keywords
log
word
data
keywords
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311428275.0A
Other languages
English (en)
Inventor
吴一凡
柴炳旭
蒋炜
李建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202311428275.0A priority Critical patent/CN117494697A/zh
Publication of CN117494697A publication Critical patent/CN117494697A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本说明书实施例提供了日志解析处理方法及装置,其中,一种日志解析处理方法包括:在对日志数据进行解析处理过程中,对日志数据进行分词处理获得日志关键词,针对日志关键词和数据标签生成各自的词向量,并将生成的词向量输入编码器进行词关联计算获得词关联序列,然后将词关联序列输入解码器的指针生成网络进行注意力计算,最后基于注意力计算获得的注意力权重序列生成关联概率分布,并根据关联概率分布确定日志数据的解析结果。

Description

日志解析处理方法及装置
技术领域
本文件涉及数据处理技术领域,尤其涉及一种日志解析处理方法及装置。
背景技术
日志作为记录系统运行过程中的事件和问题的载体,在排除系统故障时发挥着重要作用,通过检查日志可以发现异常、定位错误或者排除系统问题,然而随着日志数据的快速增长,从海量的日志数据中识别有价值的信息也变得越来越具有挑战性,自动化日志分析工具应运而生,但在使用日志分析工具进行日志解析的过程中需要人工进行规则配置,这大大制约了日志分析工具的广泛应用。
发明内容
本说明书一个或多个实施例提供了一种日志解析处理方法,包括:对日志数据进行分词处理获得日志关键词,并生成所述日志关键词和数据标签各自的词向量。将所述词向量输入编码器进行所述日志关键词和所述数据标签的词关联计算,获得词关联序列。将所述词关联序列输入解码器的指针生成网络进行注意力计算,获得注意力权重序列。基于所述注意力权重序列生成关联概率分布,并根据所述关联概率分布确定所述日志数据的解析结果。
本说明书一个或多个实施例提供了一种日志解析处理装置,包括:词向量生成模块,被配置为对日志数据进行分词处理获得日志关键词,并生成所述日志关键词和数据标签各自的词向量。词关联计算模块,被配置为将所述词向量输入编码器进行所述日志关键词和所述数据标签的词关联计算,获得词关联序列。注意力计算模块,被配置为将所述词关联序列输入解码器的指针生成网络进行注意力计算,获得注意力权重序列。概率分布生成模块,被配置为基于所述注意力权重序列生成关联概率分布,并根据所述关联概率分布确定所述日志数据的解析结果。
本说明书一个或多个实施例提供了一种日志解析处理设备,包括:处理器;以及,被配置为存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器:对日志数据进行分词处理获得日志关键词,并生成所述日志关键词和数据标签各自的词向量。将所述词向量输入编码器进行所述日志关键词和所述数据标签的词关联计算,获得词关联序列。将所述词关联序列输入解码器的指针生成网络进行注意力计算,获得注意力权重序列。基于所述注意力权重序列生成关联概率分布,并根据所述关联概率分布确定所述日志数据的解析结果。
本说明书一个或多个实施例提供了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现以下流程:对日志数据进行分词处理获得日志关键词,并生成所述日志关键词和数据标签各自的词向量。将所述词向量输入编码器进行所述日志关键词和所述数据标签的词关联计算,获得词关联序列。将所述词关联序列输入解码器的指针生成网络进行注意力计算,获得注意力权重序列。基于所述注意力权重序列生成关联概率分布,并根据所述关联概率分布确定所述日志数据的解析结果。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图;
图1为本说明书一个或多个实施例提供的一种日志解析处理方法实施环境的示意图;
图2为本说明书一个或多个实施例提供的一种日志解析处理方法处理流程图;
图3为本说明书一个或多个实施例提供的一种日志解析模型的结构框架的示意图;
图4为本说明书一个或多个实施例提供的一种应用于日志文件解析场景的日志解析处理方法流程图;
图5为本说明书一个或多个实施例提供的一种日志解析处理装置实施例的示意图;
图6为本说明书一个或多个实施例提供的一种日志解析处理设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
本说明书一个或多个实施例提供的日志解析处理方法,可适用于日志解析系统这一实施环境,参照图1,该实施环境至少包括:
进行日志解析处理的日志解析模型101,进行日志字段正则化提取的日志提取模块102,组合模块103;组合模块103用于将日志解析模型101的处理结果与日志数据进行比对来确定变量关键词,并将比对结果与日志解析模型101、日志提取模块102的处理结果进行组合获得日志文件整体的解析结果;
该实施环境中,可通过日志提取模块102对待解析的日志文件进行正则化提取获得日志数据和日志字段的字段信息,并将提取获得的日志数据输入日志解析模型101进行日志解析处理,具体日志解析处理过程中,首先生成日志数据包含的日志关键词和数据标签的词向量,通过将词向量输入日志解析模型101的编码器101-1进行日志关键词的词关联计算获得词关联序列,并将词关联序列输入日志解析模型101的解码器101-2的指针生成网络进行注意力计算获得注意力权重序列,然后基于注意力权重序列生成的概率分布确定日志数据的解析关键词;
在确定日志数据的解析关键词之后,还可通过组合模块103对解析关键词进行提取并与日志关键词进行比对确定日志数据的变量关键词,还可进一步基于组合模块103,对变量关键词、日志提取模块102获得的日志字段的字段信息、日志解析模型101获得的日志数据的解析关键词进行组合获得的日志文件整体的文件解析结果。
本说明书提供的一种日志解析处理方法的一个或者多个实施例如下:
参照图2,本实施例提供的日志解析处理方法,具体包括步骤S202至步骤S208。
步骤S202,对日志数据进行分词处理获得日志关键词,并生成所述日志关键词和数据标签各自的词向量。
本实施例所述日志数据,是指包含待解析的日志文件中的静态部分数据(常量数据)和动态部分数据(变量数据)的日志相关数据,其中,静态部分数据可以是与静态的常量相关的日志数据,动态部分数据可以是与动态的变量相关的日志数据。
比如,日志文件1记录的数据信息为:“01/01/2020 15:00:00ERROR BlockManagerFailed to report rdd_5_1to master;giving up”,在该日志文件1中,静态部分数据为“Failed to report,to master,giving up”这部分数据,动态部分数据为“rdd_5_1”这部分数据,则日志数据包括“Failed to report,to master,giving up,rdd_5_1”;
再比如,日志文件2记录的数据信息为:“01/01/2020 16:00:00DEBUGBlockManager Putting block rdd_0_1with replication took 0”,在该日志文件2中,静态部分数据为“Putting block,with replication took”这部分数据,动态部分数据为“rdd_0_1,0”这部分数据,则日志数据包括“Putting block,with replication took,rdd_0_1,0”。
除此之外,还可根据实际日志解析场景的需求,将日志文件中其他数据配置为日志数据,或者将日志文件中其他数据与静态部分数据和变量部分数据共同配置为日志数据;或者,还可将日志文件中的其他数据与静态的常量相关的日志数据共同配置为静态部分数据,本实施例对此不做限定。比如,可将日志文件1中的“BlockManager”这部分数据与“Failed to report,giving up,rdd_5_1”共同作为日志文件1的日志数据;或者,可将日志文件中的其他数据与动态的变量相关的日志数据共同配置为动态部分数据,比如,将日志文件2中的“01/01/2020 16:00:00”这部分数据与“Putting block,with replicationtook,rdd_0_1,0”共同作为日志文件2的日志数据。
本实施例提供的日志解析处理方法,可应用于日志解析模型,在对日志数据进行分词处理获得日志关键词,并生成日志关键词和数据标签各自的词向量的过程中,可通过日志解析模型配置的嵌入层对日志数据进行分词处理,并对数据标签和分词处理获得的日志关键词进行词向量转换。
具体的,本实施例提供的一种可选实施方式中,对日志数据进行分词处理获得日志关键词,并生成所述日志关键词和数据标签各自的词向量处理过程,通过编码器的嵌入层执行;
通过所述嵌入层提取所述日志数据中包含的日志关键词,并通过所述嵌入层将所述日志关键词转换为词向量,以及,通过所述嵌入层将数据标签转换为词向量。
其中,数据标签,可以是用于表征变量的变量标签,表征变量类型的变量类型标签,或者,表征日志数据结束的结束标签,此外,数据标签还还可包括变量标签和结束标签,或者包括变量类型标签和结束标签。
例如,图3所示的日志解析模型中,在将日志文件1的日志数据“BlockManager,Failed to report,giving up,rdd_5_1”和变量标签“VAR”和结束标签“END”输入嵌入层之后,首先对日志数据“Failed to report,to master,giving up,rdd_5_1”分词之后获得日志关键词“Failed to report”、“to master”、“giving up”、“rdd_5_1”,然后对这4个日志关键词、输入的变量标签“VAR”以及结束标签“END”进行词向量转换,获得4个日志关键词、变量标签“VAR”以及结束标签“END”各自的词向量。
需要指出的是,为了提升日志解析模型内编码器的嵌入层的处理效率,提升日志解析响应,还可预先生成并存储数据标签的词向量,上述对日志数据进行分词处理获得日志关键词,并生成日志关键词和数据标签各自的词向量的过程中,还可被替换为对日志数据进行分词处理,并生成分词处理获得的日志关键词各自的词向量;相应的,下述将词向量输入编码器进行日志关键词的词关联计算获得词关联序列的处理过程,可相应被替换为将日志关键词各自的词向量和预先生成的数据标签的词向量输入编码器进行日志关键词的词关联计算获得词关联序列。
实际日志解析场景中,存在对日志文件的多样化解析需求,其中可能存在对日志文件进行整体的全面解析的日志解析需求,针对于此,在对日志文件的日志数据进行解析之前,可预先对日志文件进行初步解析获得日志数据,有日志解析模型对日志数据进行精细化的解析处理,同时在日志文件的初步解析过程中,还可从日志文件中解析出数据规则较为固定的日志信息,比如日志文件中记录的时间信息等。
具体在对日志文件进行初步解析过程中,可通过正则化提取的方式从日志文件提取出相应的日志信息,本实施例提供的一种可选实施方式中,在对日志数据进行分词处理之前,采用如下方式对日志文件进行信息提取:
按照日志字段的正则表达式对日志文件进行正则化提取,获得所述日志数据和所述日志文件在所述日志字段的字段信息。
其中,所述日志文件由日志数据和字段信息组成;所述日志字段包括时间字段、日志级别字段和/或处理组件字段,相应的,在对时间字段、日志级别字段和/或处理组件字段进行正则化提取的过程中,需通过时间字段对应的正则表达式、日志级别字段对应的正则表达式和/或处理组件字段对应的正则表达式进行相应日志字段信息的提取。
比如通过时间字段对应的正则表达式对日志文件1中的时间信息进行正则化提取获得时间字段信息“01/01/2020 15:00:00”,
通过日志级别字段对应的正则表达式对日志文件1中的日志级别信息进行正则化提取获得日志级别字段信息“ERROR”,
通过处理组件字段对应的正则表达式对日志文件1中的处理组件信息进行正则化提取获得处理组件字段信息“BlockManager”。
步骤S204,将所述词向量输入编码器进行所述日志关键词和所述数据标签的词关联计算,获得词关联序列。
具体实施时,在生成日志关键词和数据标签各自的词向量的基础上,通过将日志关键词各自的词向量以及数据标签各自的词向量输入日志解析模型的编码器进行日志关键词的词关联计算,以此通过词关联计算来确定各个词向量之间的关联关系以及各个词向量与各个数据标签之间的关联关系,从而获得能够表征各个日志关键词之间的关联关系以及各个日志关键词与各个数据标签之间关联关系的词关联序列。
其中,在进行日志关键词和数据标签的词关联计算的过程中,可在日志关键词和数据标签的顺序依赖层面,计算日志关键词和数据标签的顺序依赖层面的关联性,或者,在日志关键词和数据标签的语义关联层面,计算日志关键词和数据标签在语义关联层面的关联性,还可同时在顺序依赖层面和语义关联层面计算日志关键词和数据标签的关联性,除此之外,还可在日志关键词和数据标签的其他关联层面进行词关联计算,本实施例对此不做限定。
为了更加准确的解析日志关键词和数据标签的词关联关系,可通过双向时间循环网络对日志关键词和数据标签相互之间前向和后向的词关联关系进行计算,本实施例提供的一种可选实施方式中,将所述词向量输入编码器进行所述日志关键词和所述数据标签的词关联计算,获得词关联序列,包括:
将所述词向量分别输入所述编码器的双向时间循环网络进行词关联计算,将所述双向时间循环网络输出的词关联向量组成的向量序列作为所述词关联序列。
示例的,双向时间循环网络可采用双向长短期记忆神经网络(BidirectionalLong Short-Term Memory,BiLSTM)。
具体的,将日志关键词各自的词向量以及数据标签各自的词向量输入双向时间循环网络进行词关联计算的过程中,可采用如下可选实施方式进行词关联计算:
将所述词向量分别输入所述双向时间循环网络的前向时间循环网络和后向时间循环网络进行关联词计算,输出前向隐藏状态向量和后向隐藏状态向量;
对所述前向隐藏状态向量和所述后向隐藏状态向量进行拼接获得所述词关联向量。
例如,图3所示的日志解析网络中,编码器的嵌入层将输出的4个日志关键词“Failed to report”、“to master”、“giving up”、“rdd_5_1”各自的词向量、变量标签“VAR”的词向量以及结束标签“END”的词向量输入BiLSTM进行词关联计算,BiLSTM在进行词关联计算过程中,分别将每个时间步的前向隐藏状态向量和后向隐藏状态向量进行拼接获得每个时间步的隐藏状态向量(词关联向量),将隐藏状态向量表示为ei,此处共有6个时间步,则隐藏状态向量ei中的i的取值为1至6,获得的6个时间步的隐藏状态向量组成一个序列,并将组成的序列输出至解码器。
步骤S206,将所述词关联序列输入解码器的指针生成网络进行注意力计算,获得注意力权重序列。
上述通过编码器对日志关键词和所述数据标签进行词关联计算,获得表征各个日志关键词之间的关联关系以及各个日志关键词与各个数据标签之间关联关系的词关联序列,在此基础上,通过引入注意力机制,将词关联序列输入解码器的指针生成网络进行注意力计算,以此实现对各个日志关键词之间的关联关系以及各个日志关键词与各个数据标签之间关联关系的感知,从能够在感知各个日志关键词之间的关联关系以及各个日志关键词与各个数据标签之间关联关系的基础上实现对日志数据更加有效和准确的解析处理。
具体实施时,在将此关联序列输入指针生成网络进行注意力计算的过程中,每个时间步在进行注意力计算后获得一个注意力权重序列,该注意力序列由多个关联注意力权重组成,每个关联注意力权重表示当前时间步的输入与词关联序列中每个词关联向量的注意力权重,也即是当前时间步的输入与词关联序列中每个词关联向量的关联程度。
下述以指针生成网络进行注意力计算过程中任意一个时间步的注意力计算过程为例,对将词关联序列输入指针生成网络进行注意力计算获得注意力权重序列的过程进行说明;指针生成网络进行注意力计算过程中各个时间步的计算过程类似,参照下述提供的指针生成网络进行注意力计算过程中任意一个时间步的注意力计算过程即可,在此不再一一赘述。
本实施例提供一种可选实施方式中,将所述词关联序列输入解码器的指针生成网络进行注意力计算,获得注意力权重序列,包括:
在所述指针生成网络的任一时间步,基于所述任一时间步的上一时间步输出的隐藏状态向量和所述词关联序列,对所述上一时间步的解析关键词与所述日志关键词和所述数据标签进行关联注意力计算,获得所述上一时间步的解析关键词与所述日志关键词和所述数据标签的关联注意力权重组成的注意力权重序列。
其中,在将词关联序列输入指针生成网络进行注意力计算的过程中,除第一个时间步之外的每个时间步的输入包括上一时间步进行注意力计算后输出的隐藏状态向量以及根据前一时间步输出的注意力权重序列确定的目标关键词,输出包括当前任一时间步的隐藏状态向量和当前时间步的注意力权重序列;特别的,第一个时间步的输入为起始标签,输出为第一时间步的隐藏状态向量和第一时间步的注意力权重序列。
沿用上例,图3所示的日志解析网络中,编码器中的BiLSTM输出的6个时间步的隐藏状态向量组成的序列(词关联序列)被输出至解码器,该6个时间步的隐藏状态向量组成的序列被输入至解码器的指针生成网络(Pointer-Generator-Network);
指针生成网络在进行第1时间步的注意力计算过程中,输入为起始符“START”,进行该起始符“START”与4个日志关键词、变量标签“VAR”以及结束标签“END”进行关联注意力计算,得到起始符“START”与4个日志关键词、变量标签“VAR”以及结束标签“END”的关联注意力权重组成的注意力权重序列,并输出第1时间步的隐藏状态向量dt(t=1),根据第1时间步输出的注意力权重序列确定与起始符“START”关联概率最大的是日志关键词“Failedto report”;
进一步,在进行第2时间步的注意力计算过程中,输入为日志关键词“Failed toreport”和第1时间步的隐藏状态向量dt(t=1),进行该日志关键词“Failed to report”与4个日志关键词、变量标签“VAR”以及结束标签“END”进行关联注意力计算得到注意力权重序列,第2时间步输出隐藏状态向量dt(t=2),根据第2时间步输出的注意力权重序列确定与日志关键词“Failed to report”关联概率最大的是变量标签“VAR”;
这其中,关联注意力权重可表示为:
其中,vT、W1、W2为日志解析模型的预训练参数;
以此类推,第3时间步输出隐藏状态向量dt(t=3),根据第3时间步输出的注意力权重序列确定与变量标签“VAR”关联概率最大的是日志关键词“to master”;
第4时间步输出隐藏状态向量dt(t=4),根据第3时间步输出的注意力权重序列确定日志关键词“to master”关联概率最大的是日志关键词“giving up”;
第5时间步输出隐藏状态向量dt(t=5),根据第3时间步输出的注意力权重序列确定日志关键词“giving up”关联概率最大的是结束标签“END”。
步骤S208,基于所述注意力权重序列生成关联概率分布,并根据所述关联概率分布确定所述日志数据的解析结果。
本实施例提供的一种可选实施方式中,基于所述注意力权重序列生成关联概率分布,并根据所述关联概率分布确定所述日志数据的解析结果,包括:
对所述注意力权重序列进行线性计算,并通过归一化指数函数对线性计算结果进行转化获得所述关联概率分布;
对所述关联概率分布中的关联注意力权重进行排序,基于排序结果选择目标关联注意力权重对应的日志关键词或者数据标签作为所述任一时间步的解析结果。
其中,所述关联概率分布,是指根据关联注意力计算获得的注意力权重序列经线性计算和归一化获得的多个概率数值的组合。日志数据的解析结果,包括日志数据中包括的日志关键词和输入的数据标签。
仍以上述日志文件1为例,指针生成网络在每一时间步的注意力计算过程中,输出注意力权重序列,通过对每一时间步输出的注意力权重序列进行线性计算并通过softmax()函数线性计算结果进行转化获得关联概率分布,选择关联概率分布中关联概率数值最大的一者对应的日志关键词、变量标签或者结束标签作为指针生成网络的输出,也即是日志解析模型的输出,参见图3,日志解析模型输出的解析结果为“‘Failed to report’,‘VAR’,‘to master’,‘giving up’,‘END’”。
实际应用中,在对日志解析模型根据关联概率分布确定日志数据的解析结果的基础上,为增强对日志数据中变量的感知,还可在日志解析模型解析出变量标签或者变量类型标签的基础上,通过将日志数据的解析结果与日志数据进行比对来确定并输出日志数据中包含的变量关键词,具体的,本实施例提供的一种可选实施方式中,采用如下方式确定日志数据中的变量关键词:
删除所述解析结果中包含的数据标签,获得常量关键词;
将所述常量关键词与所述日志关键词进行比对,基于比对结果确定所述日志数据的变量关键词。
上述通过正则化提取的方式从日志文件提取出相应日志字段的字段信息的基础上,以及上述确定日志数据中的变量关键词的基础上,还可将日志字段的字段信息与变量关键词和解析结果中的常量关键词进行组合,实现对日志文件在变量、常量和日志字段三个维度的解析,本实施例提供的一种可选实施方式中,对所述常量关键词、所述日志字段的字段信息、所述变量关键词进行组合,获得所述日志文件的文件解析结果。
综上所述,本实施例提供的一种或者多种日志解析处理方法,在对日志数据进行解析过程中,对日志数据进行分词处理获得日志关键词,并生成日志关键词和数据标签各自的词向量,通过将生成的词向量输入编码器进行日志关键词和数据标签的词关联计算获得词关联序列,并通过将词关联序列输入解码器的指针生成网络进行注意力计算获得注意力权重序列,基于获得的注意力权重序列生成关联概率分布,最后根据关联概率分布确定日志数据的解析结果,以此在对日志数据解析处理过程中关注日志关键词之间的词关联关系,并借助输入的数据标签实现日志数据的个性化解析,同时还具备更强的日志数据解析的鲁棒性。
下述以本实施例提供的一种日志解析处理方法在日志文件解析场景的应用为例,结合图4,对本实施例提供的日志解析处理方法进行进一步说明,参见图4,应用于日志文件解析场景的日志解析处理方法,具体包括下述步骤。
步骤S402,按照日志字段的正则表达式对日志文件进行正则化提取,获得日志数据和日志文件在日志字段的字段信息。
步骤S404,通过日志解析模型中编码器的嵌入层提取日志数据中包含的日志关键词,并通过嵌入层将日志关键词和变量类型标签转换为词向量。
步骤S406,将生成的词向量输入编码器的双向时间循环网络进行日志关键词和变量类型标签的词关联计算,获得词关联序列。
步骤S408,将词关联序列输入解码器的指针生成网络进行注意力计算,获得注意力权重序列。
步骤S410,基于注意力权重序列生成关联概率分布,并根据关联概率分布确定日志数据的解析结果。
步骤S412,删除解析结果中包含的变量类型标签,获得常量关键词。
步骤S414,将常量关键词与日志关键词进行比对,基于比对结果确定日志数据的变量关键词。
步骤S416,对常量关键词、日志字段的字段信息、变量关键词进行组合,获得日志文件的文件解析结果。
本说明书提供的一种日志解析处理装置实施例如下:
在上述的实施例中,提供了一种日志解析处理方法,与之相对应的,还提供了一种日志解析处理装置,下面结合附图进行说明。
参照图5,其示出了本实施例提供的一种日志解析处理装置实施例的示意图。
由于装置实施例对应于方法实施例,所以描述得比较简单,相关的部分请参见上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。
本实施例提供一种日志解析处理装置,所述装置包括:
词向量生成模块502,被配置为对日志数据进行分词处理获得日志关键词,并生成所述日志关键词和数据标签各自的词向量;
词关联计算模块504,被配置为将所述词向量输入编码器进行所述日志关键词和所述数据标签的词关联计算,获得词关联序列;
注意力计算模块506,被配置为将所述词关联序列输入解码器的指针生成网络进行注意力计算,获得注意力权重序列;
概率分布生成模块508,被配置为基于所述注意力权重序列生成关联概率分布,并根据所述关联概率分布确定所述日志数据的解析结果。
本说明书提供的一种日志解析处理设备实施例如下:
对应上述描述的一种日志解析处理方法,基于相同的技术构思,本说明书一个或多个实施例还提供一种日志解析处理设备,该日志解析处理设备用于执行上述提供的一种日志解析处理方法,图6为本说明书一个或多个实施例提供的一种日志解析处理设备的结构示意图。
本实施例提供的一种日志解析处理设备,包括:
如图6所示,日志解析处理设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器601和存储器602,存储器602中可以存储有一个或一个以上存储应用程序或数据。其中,存储器602可以是短暂存储或持久存储。存储在存储器602的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括日志解析处理设备中的一系列计算机可执行指令。更进一步地,处理器601可以设置为与存储器602通信,在日志解析处理设备上执行存储器602中的一系列计算机可执行指令。日志解析处理设备还可以包括一个或一个以上电源603,一个或一个以上有线或无线网络接口604,一个或一个以上输入/输出接口605,一个或一个以上键盘606等。
在一个具体的实施例中,日志解析处理设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对日志解析处理设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
对日志数据进行分词处理获得日志关键词,并生成所述日志关键词和数据标签各自的词向量;
将所述词向量输入编码器进行所述日志关键词和所述数据标签的词关联计算,获得词关联序列;
将所述词关联序列输入解码器的指针生成网络进行注意力计算,获得注意力权重序列;
基于所述注意力权重序列生成关联概率分布,并根据所述关联概率分布确定所述日志数据的解析结果。
本说明书提供的一种存储介质实施例如下:
对应上述描述的一种日志解析处理方法,基于相同的技术构思,本说明书一个或多个实施例还提供一种存储介质。
本实施例提供的存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现以下流程:
对日志数据进行分词处理获得日志关键词,并生成所述日志关键词和数据标签各自的词向量;
将所述词向量输入编码器进行所述日志关键词和所述数据标签的词关联计算,获得词关联序列;
将所述词关联序列输入解码器的指针生成网络进行注意力计算,获得注意力权重序列;
基于所述注意力权重序列生成关联概率分布,并根据所述关联概率分布确定所述日志数据的解析结果。
需要说明的是,本说明书中关于一种存储介质的实施例与本说明书中一种日志解析处理方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应方法的实施,重复之处不再赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或者相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处,比如装置实施例、设备实施例和存储介质实施例,三者均相似于方法实施例,所以描述地比较简单,阅读装置实施例、设备实施例和存储介质实施例中的相关内容请参照方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪30年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括至少一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书的一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅为本文件的实施例而已,并不用于限制本文件。对于本领域技术人员来说,本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本文件的权利要求范围之内。

Claims (12)

1.一种日志解析处理方法,包括:
对日志数据进行分词处理获得日志关键词,并生成所述日志关键词和数据标签各自的词向量;
将所述词向量输入编码器进行所述日志关键词和所述数据标签的词关联计算,获得词关联序列;
将所述词关联序列输入解码器的指针生成网络进行注意力计算,获得注意力权重序列;
基于所述注意力权重序列生成关联概率分布,并根据所述关联概率分布确定所述日志数据的解析结果。
2.根据权利要求1所述的日志解析处理方法,所述将所述词关联序列输入解码器的指针生成网络进行注意力计算,获得注意力权重序列,包括:
在所述指针生成网络的任一时间步,基于所述任一时间步的上一时间步输出的隐藏状态向量和所述词关联序列,对所述上一时间步的解析关键词与所述日志关键词和所述数据标签进行关联注意力计算,获得所述上一时间步的解析关键词与所述日志关键词和所述数据标签的关联注意力权重组成的注意力权重序列。
3.根据权利要求2所述的日志解析处理方法,所述基于所述注意力权重序列生成关联概率分布,并根据所述关联概率分布确定所述日志数据的解析结果,包括:
对所述注意力权重序列进行线性计算,并通过归一化指数函数对线性计算结果进行转化获得所述关联概率分布;
对所述关联概率分布中的关联注意力权重进行排序,基于排序结果选择目标关联注意力权重对应的日志关键词或者数据标签作为所述任一时间步的解析结果。
4.根据权利要求1所述的日志解析处理方法,所述对日志数据进行分词处理获得日志关键词,并生成所述日志关键词和数据标签各自的词向量步骤,通过所述编码器的嵌入层执行;
通过所述嵌入层提取所述日志数据中包含的日志关键词,并通过所述嵌入层将所述日志关键词转换为词向量,以及,通过所述嵌入层将所述数据标签转换为词向量。
5.根据权利要求1所述的日志解析处理方法,所述将所述词向量输入编码器进行所述日志关键词和所述数据标签的词关联计算,获得词关联序列,包括:
将所述词向量分别输入所述编码器的双向时间循环网络进行词关联计算,将所述双向时间循环网络输出的词关联向量组成的向量序列作为所述词关联序列。
6.根据权利要求5所述的日志解析处理方法,所述将所述词向量分别输入所述编码器的双向时间循环网络进行词关联计算,包括:
将所述词向量分别输入所述双向时间循环网络的前向时间循环网络和后向时间循环网络进行关联词计算,输出前向隐藏状态向量和后向隐藏状态向量;
对所述前向隐藏状态向量和所述后向隐藏状态向量进行拼接获得所述词关联向量。
7.根据权利要求1所述的日志解析处理方法,所述基于所述注意力权重序列生成关联概率分布,并根据所述关联概率分布确定所述日志数据的解析结果步骤执行之后,还包括:
删除所述解析结果中包含的数据标签,获得常量关键词;
将所述常量关键词与所述日志关键词进行比对,基于比对结果确定所述日志数据的变量关键词。
8.根据权利要求7所述的日志解析处理方法,所述对日志数据进行分词处理获得日志关键词,并生成所述日志关键词和数据标签各自的词向量步骤执行之前,还包括:
按照日志字段的正则表达式对日志文件进行正则化提取,获得所述日志数据和所述日志文件在所述日志字段的字段信息。
9.根据权利要求8所述的日志解析处理方法,所述将所述常量关键词与所述日志关键词进行比对,基于比对结果确定所述日志数据的变量关键词步骤执行之后,还包括:
对所述常量关键词、所述日志字段的字段信息、所述变量关键词进行组合,获得所述日志文件的文件解析结果。
10.一种日志解析处理装置,包括:
词向量生成模块,被配置为对日志数据进行分词处理获得日志关键词,并生成所述日志关键词和数据标签各自的词向量;
词关联计算模块,被配置为将所述词向量输入编码器进行所述日志关键词和所述数据标签的词关联计算,获得词关联序列;
注意力计算模块,被配置为将所述词关联序列输入解码器的指针生成网络进行注意力计算,获得注意力权重序列;
概率分布生成模块,被配置为基于所述注意力权重序列生成关联概率分布,并根据所述关联概率分布确定所述日志数据的解析结果。
11.一种日志解析处理设备,包括:
处理器;以及,被配置为存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器:
对日志数据进行分词处理获得日志关键词,并生成所述日志关键词和数据标签各自的词向量;
将所述词向量输入编码器进行所述日志关键词和所述数据标签的词关联计算,获得词关联序列;
将所述词关联序列输入解码器的指针生成网络进行注意力计算,获得注意力权重序列;
基于所述注意力权重序列生成关联概率分布,并根据所述关联概率分布确定所述日志数据的解析结果。
12.一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现以下流程:
对日志数据进行分词处理获得日志关键词,并生成所述日志关键词和数据标签各自的词向量;
将所述词向量输入编码器进行所述日志关键词和所述数据标签的词关联计算,获得词关联序列;
将所述词关联序列输入解码器的指针生成网络进行注意力计算,获得注意力权重序列;
基于所述注意力权重序列生成关联概率分布,并根据所述关联概率分布确定所述日志数据的解析结果。
CN202311428275.0A 2023-10-31 2023-10-31 日志解析处理方法及装置 Pending CN117494697A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311428275.0A CN117494697A (zh) 2023-10-31 2023-10-31 日志解析处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311428275.0A CN117494697A (zh) 2023-10-31 2023-10-31 日志解析处理方法及装置

Publications (1)

Publication Number Publication Date
CN117494697A true CN117494697A (zh) 2024-02-02

Family

ID=89671829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311428275.0A Pending CN117494697A (zh) 2023-10-31 2023-10-31 日志解析处理方法及装置

Country Status (1)

Country Link
CN (1) CN117494697A (zh)

Similar Documents

Publication Publication Date Title
CN110309283B (zh) 一种智能问答的答案确定方法及装置
CN109034183B (zh) 一种目标检测方法、装置及设备
CN112417093B (zh) 一种模型训练的方法及装置
CN111401062B (zh) 文本的风险识别方法、装置及设备
CN116630480B (zh) 一种交互式文本驱动图像编辑的方法、装置和电子设备
CN114358243A (zh) 通用特征提取网络训练方法、装置及通用特征提取网络
CN111507726B (zh) 一种报文生成方法、装置及设备
CN117421639A (zh) 多模态数据分类方法、终端设备及存储介质
CN117113174A (zh) 一种模型训练的方法、装置、存储介质及电子设备
CN117494697A (zh) 日志解析处理方法及装置
CN111539520A (zh) 增强深度学习模型鲁棒性的方法及装置
CN111598092A (zh) 图像中目标区域的确定方法、目标识别方法及装置
CN114817469B (zh) 文本增强方法、文本增强模型的训练方法及装置
CN117456026A (zh) 图像处理方法及装置
CN115859975B (zh) 数据处理方法、装置及设备
CN117456028A (zh) 基于文本进行图像生成的方法及装置
CN115953559B (zh) 虚拟对象处理方法及装置
CN114065768B (zh) 特征融合模型的训练、文本处理方法及装置
CN117910542A (zh) 用户转化预测模型训练方法及装置
CN117743381A (zh) 分布式数据库的数据查询方法及装置
CN117494663A (zh) 文本处理方法及装置
CN116543759A (zh) 语音识别处理方法及装置
CN116824580A (zh) 图像处理方法、装置、设备及存储介质
CN117743824A (zh) 一种模型训练、业务执行方法、装置、存储介质及设备
CN117827173A (zh) 标题生成模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination