CN117170922A

CN117170922A - 日志数据分析方法、装置、终端设备以及存储介质

Info

Publication number: CN117170922A
Application number: CN202311133245.7A
Authority: CN
Inventors: 劳晓智; 林力
Original assignee: China Merchants Bank Co Ltd
Current assignee: China Merchants Bank Co Ltd
Priority date: 2023-08-31
Filing date: 2023-08-31
Publication date: 2023-12-05

Abstract

本发明公开了一种日志数据分析方法、装置、终端设备以及存储介质，属于计算机技术领域。本发明通过获取初始日志数据；基于日志聚类分析算法，对所述初始日志数据进行处理，获取待过滤日志数据；基于词频权重算法，对所述待过滤日志数据进行过滤，获取权重日志数据；基于预设的大语言模型，对所述权重日志数据进行分析，获取分析结果。本发明针对日志数据，基于日志聚类分析算法、词频权重算法以及大语言模型，实现异常事件的提取，从而实现故障事件根因分析，适用于大规模数据处理的复杂场景，确保了分析结果可靠性的同时提高了故障事件根因分析的准确度和效率。

Description

日志数据分析方法、装置、终端设备以及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种日志数据分析方法、装置、终端设备以及存储介质。

背景技术

随着业务量的不断扩增，业务平台的数据吞吐量的规模相应增加，业务平台出现的故障也随之多样化、复杂化。其中，基于大语言模型的平台故障事件根因分析能够高效地处理平台产生的海量日志和监控数据，自动识别和分析故障事件，从而提高根因分析的准确性，加快了根因分析的效率。

但是，目前的平台故障事件根因分析方案依赖于人工对平台故障进行调试和排查，无法有效处理复杂的平台环境产生的大量数据，故障根因排查效率和准确度低，影响业务的进行。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本申请的主要目的在于提供一种日志数据分析方法、装置、终端设备以及存储介质，旨在大规模数据处理的复杂场景中分析故障事件根因，提高故障事件根因分析的准确度和效率。

为实现上述目的，本申请提供一种日志数据分析方法，所述日志数据分析方法包括：

获取初始日志数据；

基于日志聚类分析算法，对所述初始日志数据进行处理，获取待过滤日志数据；

基于词频权重算法，对所述待过滤日志数据进行过滤，获取权重日志数据；

基于预设的大语言模型，对所述权重日志数据进行故障分析，获取故障分析结果。

可选地，所述基于预设的大语言模型，对所述权重日志数据进行故障分析，获取故障分析结果的步骤包括：

根据所述权重日志数据，生成决策指令；

基于所述大语言模型，根据所述决策指令，对所述权重日志进行文本解析，获取解析结果；

根据所述解析结果，生成分析指令；

根据所述分析指令和所述解析结果，获取故障分析结果。

可选地，所述基于所述大语言模型，根据所述决策指令，对所述权重日志进行文本解析，获取解析结果的步骤包括：

基于所述大语言模型的自然语言处理和文本分析能力，根据所述决策指令，对所述权重日志进行日志分析、关联分析和异常解析，获取解析结果。

可选地，所述基于日志聚类分析算法，对所述初始日志数据进行处理，获取待过滤日志数据的步骤包括：

对所述初始日志数据进行数据预处理，获取待序列化日志数据；

对所述待序列化数据进行序列化处理，获取待结构化日志数据；

基于所述日志聚类分析算法，对所述待结构化数据进行结构化处理，获取待过滤日志数据。

可选地，所述基于所述日志聚类分析算法，对所述待结构化数据进行结构化处理，获取待过滤日志数据的步骤包括：

基于所述日志聚类分析算法，对所述待结构化日志数据进行聚类处理，获取聚类日志模板；

将所述结构化日志数据与所述聚类日志模板进行匹配，获取匹配模板；

根据所述匹配模板，获取关键参数；

根据所述聚类日志模板和所述关键参数，对所述待结构化日志数据进行清洗转换，获取待过滤日志数据。

可选地，所述基于词频权重算法，对所述待过滤日志数据进行过滤，获取权重日志数据的步骤包括：

对所述待过滤日志数据进行文本预处理，构建日志文档集；

对所述日志文档集的词项进行统计，获取词项频率和逆文档频率；

基于词频权重算法，根据所述词项频率和所述逆文档频率，获取词项权重；

根据预设的权重阈值和所述词项权重，对所述日志文档集的词项进行清洗转换，获取权重日志数据。

可选地，所述根据预设的权重阈值和所述词项权重，对所述日志文档集的词项进行清洗转换，获取权重日志数据的步骤包括：

根据所述权重阈值和所述词项权重，获取对应的关键词项；

根据所述关键词项，对所述日志文档集的词项进行清洗转换，获取权重日志数据。

本申请实施例还提出一种日志数据分析装置，所述日志数据分析装置包括：

数据获取模块，用于获取初始日志数据；

数据聚类处理模块：基于日志聚类分析算法，对所述初始日志数据进行处理，获取待过滤日志数据；

数据过滤模块：基于词频权重算法，对所述待过滤日志数据进行过滤，获取权重日志数据；

日志分析模块，用于基于预设的大语言模型，对所述权重日志数据进行分析，获取分析结果。

本申请实施例还提出一种终端设备，所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的日志数据分析程序，所述日志数据分析程序被所述处理器执行时实现如上所述的日志数据分析方法的步骤。

本申请实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有日志数据分析程序，所述日志数据分析程序被处理器执行时实现如上所述的日志数据分析方法的步骤。

本申请实施例提出的日志数据分析方法、装置、终端设备以及存储介质，获取初始日志数据；基于日志聚类分析算法，对所述初始日志数据进行处理，获取待过滤日志数据；基于词频权重算法，对所述待过滤日志数据进行过滤，获取权重日志数据；基于预设的大语言模型，对所述权重日志数据进行分析，获取分析结果。本发明针对日志数据，基于日志聚类分析算法、词频权重算法以及大语言模型，实现异常事件的提取，从而实现故障事件根因分析，适用于大规模数据处理的复杂场景，确保了分析结果可靠性的同时提高了故障事件根因分析的准确度和效率。

附图说明

图1是本申请日志数据分析装置所属终端设备的功能模块示意图；

图2为本申请日志数据分析方法第一示例性实施例的流程示意图；

图3为本申请日志数据分析方法第二示例性实施例的流程示意图；

图4为本申请日志数据分析方法LLM模型日志故障事件分析的流程示意图；

图5为本申请日志数据分析方法组件根因分析的效果示意图；

图6为本申请日志数据分析方法第三示例性实施例的流程示意图；

图7为本申请日志数据分析方法日志数据进行Drain+算法应用的流程示意图；

图8为本申请日志数据分析方法第四示例性实施例的流程示意图；

图9为本申请日志数据分析方法日志数据TF-IDF算法权重计算的流程示意图；

图10为本申请日志数据分析方法另一示例性实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请实施例的主要解决方案是：获取初始日志数据；基于日志聚类分析算法，对所述初始日志数据进行处理，获取待过滤日志数据；基于词频权重算法，对所述待过滤日志数据进行过滤，获取权重日志数据；基于预设的大语言模型，对所述权重日志数据进行分析，获取分析结果。本发明针对日志数据，基于日志聚类分析算法、词频权重算法以及大语言模型，有效解决现有故障事件根因分析方案故障根因采用人工进行排查，效率和准确度低的问题，实现异常事件的提取，从而实现故障事件根因分析，适用于大规模数据处理的复杂场景，提高了故障事件根因分析的准确度和效率。

本申请涉及的技术术语：

大型语言模型：即大语言模型，LLM(Large Language Model)，是指具有庞大参数量和强大生成能力的自然语言处理模型，通过在大规模文本数据上进行预训练，并学习到丰富的语言知识和语境信息，可以生成高质量的文本、回答问题、完成任务等。

日志聚类分析算法：Drain+(Log-Based Anomaly Detection and Root CauseAnalysis)算法，是一种用于日志数据处理和分析的算法，用于日志数据清洗、日志模板提取和日志参数提取等任务。

词频权重算法：TF-IDF(Term Frequency-Inverse Document Frequency)算法，用于文本数据的清洗和特征提取。可以应用于文本处理领域的多个任务，如关键词提取、文本分类、信息检索等，通过计算词的重要性，可以快速识别出文本中的关键信息，从而提高各种文本分析任务的效果。

日志采集工具：Filebeat是一个轻量级的开源日志数据收集器，用于收集、解析和发送各种类型的日志文件，以便进行实时分析、搜索和可视化。

本申请实施例考虑到，相关技术方案依赖于人工对平台故障进行调试和排查，无法有效处理复杂的平台环境产生的大量数据，故障根因排查效率和准确度低。

基于此，本申请实施例提出一种解决方案，能够高效地处理平台产生的海量数据，自动识别和分析故障事件，从而提高了根因分析的准确性，加快了根因分析的效率。

具体地，参照图1，图1为本申请日志数据分析装置所属终端设备的功能模块示意图。该日志数据分析装置可以为独立于终端设备的、能够进行日志数据分析的装置，其可以通过硬件或者软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等具有日志数据分析功能的智能移动设备，还可以为具有日志数据分析功能的固定终端设备或服务器等。

在本实施例中，该日志数据分析装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。

存储器130中存储有操作系统以及日志数据分析程序，日志数据分析装置可以将接收到的和处理的数据信息存储于该存储器130中；输出模块110可为显示屏、扬声器等。通信模块140可以包括WIFI模块、移动通信模块以及蓝牙模块等，通过通信模块140与外部设备或服务器进行通信。

其中，存储器130中的日志数据分析程序被处理器执行时实现以下步骤：

获取初始日志数据；

进一步地，存储器130中的日志数据分析程序被处理器执行时还实现以下步骤：

根据所述权重日志数据，生成决策指令；

根据所述解析结果，生成分析指令；

根据所述分析指令和所述解析结果，获取故障分析结果。

根据所述匹配模板，获取关键参数；

对所述待过滤日志数据进行文本预处理，构建日志文档集；

根据所述权重阈值和所述词项权重，获取对应的关键词项；

本实施例通过上述方案，具体通过获取初始日志数据；基于日志聚类分析算法，对所述初始日志数据进行处理，获取待过滤日志数据；基于词频权重算法，对所述待过滤日志数据进行过滤，获取权重日志数据；基于预设的大语言模型，对所述权重日志数据进行分析，获取分析结果。本发明针对日志数据，基于日志聚类分析算法、词频权重算法以及大语言模型，实现异常事件的提取，从而实现故障事件根因分析，适用于大规模数据处理的复杂场景，确保了分析结果可靠性的同时提高了故障事件根因分析的准确度和效率。

基于上述终端设备架构但不限于上述架构，提出本申请方法实施例。

参照图2，图2为本申请日志数据分析方法第一示例性实施例的流程示意图。所述日志数据分析方法包括：

步骤S10：获取初始日志数据；

本实施例方法的执行主体可以是一种日志数据分析装置，也可以是一种日志数据分析终端设备或服务器，本实施例以日志数据分析装置进行举例，该日志数据分析装置可以集成在具有数据处理功能终端设备上。

本实施例方案主要对日志数据进行处理实现故障事件根因分析，能够在大规模数据处理的复杂场景下进行日志数据分析。

其中，可以通过一定的途径获取日志数据，日志数据可以来自多个来源，如应用程序日志、系统日志、网络设备日志等。

步骤S20：基于日志聚类分析算法，对所述初始日志数据进行处理，获取待过滤日志数据；

基于日志聚类分析算法，对所述初始日志数据进行处理，获取待过滤日志数据，其中，使用聚类分析算法对初始日志数据进行处理，以找到具有相似模式和特征的日志群组，能够将大量的日志数据聚合成更少的聚类，以便后续处理，可以通过各种聚类分析算法实现，例如Drain+算法、K-means聚类算法、层次聚类算法等。

步骤S30：基于词频权重技术，对所述待过滤日志数据进行过滤，获取权重日志数据。

最后，基于词频权重技术，对所述待过滤日志数据进行过滤，获取权重日志数据，其中，词频权重技术可以帮助确定哪些日志包含更重要的信息，可以通过计算日志数据中词项的频率来确定其权重，高频率出现的词汇通常与重要的事件或问题相关联，可以过滤掉那些低权重的日志数据，保留高权重的日志，能够进一步确定异常事件。

步骤S40：基于预设的大语言模型，对所述权重日志数据进行故障分析，获取故障分析结果。

通过预设的大型语言模型，对权重日志数据进行故障分析，得到故障分析结果。

其中，基于大语言模型LLM(Large Language Model)的分析方案在故障事件的日志分析中具备强大的语言理解能力、自动学习能力、智能化的异常检测能力以及可扩展性和适应性，可以提高故障事件分析的准确性、效率和自动化程度。

进一步地，大语言模型LLM的分析方案利用先进的语言模型技术，能够更智能、准确地理解和分析日志数据，具备以下优势：

首先，大语言模型LLM的分析方案具有强大的语言理解能力。通过训练大规模的语言模型，LLM可以自动学习和理解日志数据中的语义、上下文和关联关系。它能够识别关键信息、异常情况以及日志事件之间的关联，从而帮助分析人员更好地理解故障事件的根本原因。

其次，大语言模型LLM的分析方案能够自动学习日志数据的模式和规律。相比传统分析方案需要手动编写和调整规则，LLM可以通过训练数据自主学习日志数据的特征和模式，无需人工干预。这种自动学习的能力使得LLM更加适应不同类型和格式的日志数据，并提高了分析的准确性和效率。

另外，大语言模型LLM的分析方案具备智能化的异常检测能力，可以识别与正常行为不符的异常日志事件，并标识出潜在的故障问题，能够自动发现异常模式，快速捕捉潜在的故障信号，帮助分析人员更加迅速地定位和解决问题。

最后，大语言模型LLM的分析方案具备可扩展性和适应性。随着不断增加的日志数据和复杂的系统环境，LLM可以进行模型的持续训练和更新，以适应新的日志特征和场景。这种可扩展性保证了LLM在面对不断变化的故障事件和日志数据时的有效性和准确性。

参照图3，图3为本发明日志数据分析方法第二示例性实施例的流程示意图。

基于第一实施例，提出本申请第二实施例，本申请第二实施例与第一实施例的区别在于：

在本实施例中，所述基于预设的大语言模型，对所述权重日志数据进行故障分析，获取故障分析结果的步骤包括：

步骤S401：根据所述权重日志数据，生成决策指令；

步骤S402：基于所述大语言模型，根据所述决策指令，对所述权重日志进行文本解析，获取解析结果；

步骤S403：根据所述解析结果，生成分析指令；

步骤S404：根据所述分析指令和所述解析结果，获取故障分析结果。

具体地，为了获得更准确和可靠的故障分析结果，首先，根据权重的日志数据，生成决策指令，其中，这些权重日志条目通常包含关键信息、异常情况或重要的系统操作记录，通过选取权重日志，可以减少分析的工作量，集中关注于具有重要信息的日志，提高分析效率。另外，可以使用规则、机器学习模型或其他方法来生成决策指令，决策指令可以是一系列问题或操作步骤，帮助分析人员理解问题的关键点和执行相应的分析任务。决策指令提供了对分析工作的指导和方向，帮助分析人员快速了解问题，并提供解决问题的思路和方法。

然后，基于大语言模型，根据生成的决策指令对权重日志进行文本解析，分析日志文本并生成解析结果。

然后，根据解析结果，进一步生成分析指令，其中，分析指令可以包括针对异常情况的深入分析、特定模式的识别、关联日志的发现等，进一步指导分析工作。通过生成更具体的分析指令，进一步细化和指导分析任务，提高分析的深度和准确性。

最后，根据生成的分析指令和解析结果，进行相应的处理和分析，得到故障分析结果，其中，最终的故障分析结果可以是关键信息的汇总、异常情况的识别、关联日志的发现等，帮助理解故障事件的根因。提供了对故障事件的全面分析结果，帮助理解根因和采取相应的解决措施。

进一步地，作为一种实施方式，所述基于所述大语言模型，根据所述决策指令，对所述权重日志进行文本解析，获取解析结果的步骤包括：

步骤S4021：基于所述大语言模型的自然语言处理和文本分析能力，根据所述决策指令，对所述权重日志进行日志分析、关联分析和异常检测，获取解析结果。

其中，大语言模型具有强大的自然语言处理和文本分析能力，能够帮助分析人员深入理解日志数据，发现隐藏的规律和异常情况。

具体地，如图4所示，图4是基于大语言模型的分析方案(LLM)分析日志数据的具体流程图，其步骤如下：

(1)高权重日志选取：在平台的日志数据中，通过一定的算法或规则选择具有高权重的日志条目；

(2)决策指令生成：基于选取的高权重日志，生成决策指令，指导后续的分析工作；

(3)大语言模型(LLM)模型应用：将选取的高权重日志和决策指令输入大语言模型(LLM)，利用模型的语言理解和推理能力进行日志分析、关联分析、异常检测等操作；

(4)分析指令生成：基于LLM模型的输出和分析结果，生成进一步的分析指令；

(5)分析结果输出：根据分析指令和LLM模型的输出，得出最终的分析结果，并进行输出和展示。

进一步地，选取高权重日志是因为异常日志权重高，但是高权重日志也可能包含状态更新日志等出现概率较小的正常状态日志。另外，决策指令会限制模型输出返回，通常二分类任务，可以让模型返回一个词，把模型消耗降到最低。

更具体地，如图5所示，图5是一个日志采集工具(Filebeat)故障事件分析效果：

根据异常日志信息，利用模型的语言理解和推理能力对Filebeat组件的故障事件进行异常日志分析，模型输出得到故障事件根因分析结果并返回到页面中，最后依据根因分析结果发出故障告警信息。

进一步地，故障事件分析过程中，Filebeat通常是作为数据源之一被重点关注的组件。在这种情况下，需要对Filebeat进行详细地分析，以确定其是否出现了任何异常或错误。通常来说，Filebeat的故障可能会导致日志数据缺失、错误或丢失。这会影响到整个系统的运行情况，特别是在进行实时监控和数据分析的时候。

本实施例通过上述方案，具体通过根据所述权重日志数据，生成决策指令；基于所述大语言模型，根据所述决策指令，对所述权重日志进行文本解析，获取解析结果；根据所述解析结果，生成分析指令；根据所述分析指令和所述解析结果，获取故障分析结果。基于大语言模型提供的文本理解和生成能力，帮助分析权重日志数据并生成相应的指令和分析结果，确保了故障分析结果的准确性和可靠性。

参照图6，图6为本发明日志数据分析方法第三示例性实施例的流程示意图。

基于第一实施例，提出本申请第三实施例，本申请第三实施例与第一实施例的区别在于：

在本实施例中，所述基于日志聚类分析算法，对所述初始日志数据进行处理，获取待过滤日志数据的步骤包括：

步骤S201：对所述初始日志数据进行数据预处理，获取待序列化日志数据；

步骤S202：对所述待序列化数据进行序列化处理，获取待结构化日志数据；

步骤S203：基于所述日志聚类分析算法，对所述待结构化数据进行结构化处理，获取待过滤日志数据。

具体地，首先，对初始日志数据进行预处理，得到待序列化的日志数据。预处理的目的是去除噪声、清洗数据以及统一数据格式，使得数据更加适合后续处理。例如，可能需要去除不必要的空格、标点符号、特殊字符等。

然后，对待序列化的日志数据进行序列化处理，即将数据转换为适合进行结构化处理的序列化格式，其中，序列化处理可以是按照某属性进行顺序排列的过程，可以包括将数据转换为特定的数据结构(如JSON、XML等)或者将数据转换为特定的数据表示(如向量表示)。

最后，基于日志聚类分析算法对待结构化的日志数据进行聚类分析，获取待过滤的日志数据，其中，聚类算法将相似的日志事件归为同一簇，通过计算数据之间的相似性来确定簇的划分，聚类分析的结果将会是一组日志数据簇，每个簇代表特定类型或相关联的日志事件。

进一步地，作为一种实施方式，所述基于所述日志聚类分析算法，对所述待结构化数据进行结构化处理，获取待过滤日志数据的步骤包括：

步骤S2031：基于所述日志聚类分析算法，对所述待结构化日志数据进行聚类处理，获取聚类日志模板；

步骤S2032：将所述结构化日志数据与所述聚类日志模板进行匹配，获取匹配模板；

步骤S2033：根据所述匹配模板，获取关键参数；

步骤S2034：根据所述聚类日志模板和所述关键参数，对所述待结构化日志数据进行清洗转换，获取待过滤日志数据。

具体地，首先，使用日志聚类分析算法对待结构化的日志数据进行聚类处理，得到一组聚类日志模板，其中，聚类算法可以将相似的日志事件归为同一簇，从而找到数据中的模式和规律，每个模板代表一个簇或者一类相关的日志事件。

然后，将待结构化的日志数据与聚类日志模板进行匹配，得到匹配模板，其中，通过匹配，可以确定与待结构化日志数据匹配的最佳聚类日志模板，匹配过程可以基于各种匹配算法，例如字符串匹配、相似性比较等，匹配模板是一个或多个聚类日志模板。

然后，根据匹配模板，提取出关键参数，其中，关键参数是具有特定意义和重要性的日志数据字段或特征。通过提取关键参数，可以更加精确地描述和表示待过滤日志数据，提取关键参数的方法可以是基于模板的规则、正则表达式、自然语言处理等技术。

最后，根据聚类日志模板和关键参数对待结构化的日志数据进行清洗和转换，以获取待过滤日志数据，其中，清洗转换包括去除不必要的字段、标准化日期和时间格式、转换数据类型等操作，从而使得待过滤日志数据更加规范和易于处理。

更具体地，算法Drain+是一种常用的日志数据清洗方法，它结合了日志序列聚类和模式提取的技术。使用Drain+清洗日志数据的优势在于其自动化的特性和较好的适应性。Drain+算法能够自动学习日志数据的模式和规律，无需手动编写和调整清洗规则。同时，它能够适应不同格式和结构的日志数据，具备较高的灵活性和扩展性。通过Drain+清洗日志数据，可以有效提高清洗的准确性和效率，减少人工干预和错误，为故障事件分析提供可靠的数据基础。

使用Drain+算法清洗日志数据的步骤：

步骤1：数据预处理：首先对原始日志数据进行预处理，包括去除不必要的字段或特殊字符，以及进行日期格式的统一化等操作。

步骤2：日志序列化：将预处理后的日志数据转换成序列化的形式，即将每条日志按时间顺序排列，并添加一个唯一的序列号标识。

步骤3：Drain+算法应用：将序列化的日志数据输入Drain+算法进行处理。Drain+算法主要包括以下几个步骤：

a.日志模板提取：Drain+算法通过基于日志消息的聚类技术，将相似的日志消息聚类在一起，并提取出每个聚类簇的日志模板。

b.日志模板匹配：将每条日志与已提取的日志模板进行匹配，找到与之匹配的最佳模板。

c.日志参数提取：从匹配的日志模板中提取出关键参数，并对参数进行归一化处理。

步骤4：清洗和转换：根据提取的日志模板和参数，对日志数据进行清洗和转换。清洗过程可以包括去除冗余信息、修复错误格式、填充缺失字段等操作，以确保日志数据的准确性和一致性。

步骤5.输出清洗后的数据：将清洗后的日志数据输出，供后续的故障事件分析和根因定位使用。

如图7所示，图7是Drain+算法数据清洗的具体过程：

首先，获取到的初始日志数据为：

wal:ignored file 0000000000011c7a-00000000253cdd4f.wal.broken in wal

然后，Drain+算法进行数据处理，并在Drain算法基础上增加动态分隔符和相似度计算提高准确率，得到：wal:ignored file<*>in wal。

另外，将序列化日志数据[etcd-<pod>,“etcdserver:open wal error:wal:filenot found",...]输入Drain+算法进行处理，能够得到相应新增的模板[etcd,template,template id]，能够提取出关键参数如“etcd-<pod>”、“template id”等，日志模板可以存储到日志模板库中以便后续取用。然后，通过Kafka集群对日志数据进行模板匹配，获取最佳的匹配模板，以便后续进一步数据清理操作。

本实施例通过上述方案，具体通过对所述初始日志数据进行数据预处理，获取待序列化日志数据；对所述待序列化数据进行序列化处理，获取待结构化日志数据；基于所述日志聚类分析算法，对所述待结构化数据进行结构化处理，获取待过滤日志数据。实现了大规模的数据处理，能够将重要日志事件聚类起来，提高了日志故障事件分析的准确性。

参照图8，图8为本发明日志数据分析方法第四示例性实施例的流程示意图。

基于第一实施例，提出本申请第四实施例，本申请第四实施例与第一实施例的区别在于：

在本实施例中，所述基于词频权重技术，对所述待过滤日志数据进行过滤，获取权重日志数据的步骤包括：

步骤S301：对所述待过滤日志数据进行文本预处理，构建日志文档集；

步骤S302：对所述日志文档集的词项进行统计，获取词项频率和逆文档频率；

步骤S303：将所述词项频率和所述逆文档频率相乘，获取词项权重；

步骤S304：根据预设的权重阈值和所述词项权重，对所述日志文档集的词项进行清洗转换，获取权重日志数据。

具体地，首先，对待过滤的日志数据进行文本预处理，将待过滤的日志数据转化为一个日志文档集，其中，预处理包括但不限于以下文本分词、去除停用词、大小写转换和去除特殊字符等操作，日志文档集中每个文档表示一条日志记录。

然后，对日志文档集的词项进行统计计算，获取词项频率和逆文档频率。其中，词项频率指的是某个词项在一个文档中出现的频率，逆文档频率则指的是某个词项在整个文档集中出现的频率。通过统计计算，可以获取每个词项的词项频率和逆文档频率，用于后续步骤中的词项权重计算。

然后，将词项频率和逆文档频率相乘，获取词项权重，其中，词项权重反映了一个词项在文档集中的重要程度，通常可以使用词项频率乘以逆文档频率来计算。词项权重的计算可以采用不同的算法，如TF-IDF(Term Frequency-Inverse Document Frequency)等。

最后，根据预设的权重阈值和词项权重，对日志文档集的词项进行清洗转换，获取权重日志数据，其中，可以按照预设的权重阈值，筛选出词项权重大于该阈值的词项，并将它们作为高权重的关键词或特征词。然后，可以基于这些高权重的关键词或特征词，从日志文档集中提取相应的日志记录。

进一步地，作为一种实施方式，所述根据预设的权重阈值和所述词项权重，对所述日志文档集的词项进行清洗转换，获取权重日志数据的步骤包括：

步骤S3041：根据所述权重阈值和所述词项权重，获取对应的关键词项；

步骤S3042：根据所述关键词项，对所述日志文档集的词项进行清洗转换，获取权重日志数据。

具体地，首先，根据预设的阈值，对每个词项的权重进行比较，将权重高于阈值的词项标记为关键词项。

最后，根据确定的关键词项，对日志文档集中的词项进行清洗和转换，其中，清洗操作可以包括去除无关词项、停用词等，确保只保留与关键词项相关的词项，转换则是用关键词项替换低于权重阈值的词项的过程。

更具体地，算法TF-IDF权重技术在日志数据清洗中的优势在于其能够根据词项的重要性和普遍性，自动提取关键词项并过滤噪声数据。通过设置适当的阈值，可以进一步提高清洗的准确性和精度，减少无关信息的干扰。TF-IDF权重技术适用于各种类型的日志数据，为故障事件分析提供了可靠的数据基础，并提高了分析的准确性和效率。

下面是使用TF-IDF清洗日志数据的步骤：

步骤1文本预处理：对日志数据进行预处理，包括去除停用词(如常见的无意义词语、标点符号等)、词干化(将单词还原为其原始词根形式)和标准化等操作。

步骤2构建文档集：将预处理后的日志数据组成一个文档集，其中每个文档对应一条日志。

步骤3计算词项频率(TF)：针对每个文档，计算每个词项在文档中的出现频率，即词项在文档中出现的次数除以文档的总词数。

步骤4计算逆文档频率(IDF)：对于每个词项，计算它在整个文档集中的逆文档频率。逆文档频率可以通过计算文档集中包含该词项的文档数目的倒数，并取对数得到。

步骤5计算TF-IDF权重：将词项的词频(TF)与逆文档频率(IDF)相乘，得到词项的TF-IDF权重。TF-IDF权重反映了词项在当前文档中的重要性，并考虑了它在整个文档集中的普遍性。

步骤6设置阈值：根据需求，可以设置一个TF-IDF权重的阈值，将低权重的词项过滤掉，只保留具有较高权重的关键词项。

步骤7清洗和转换：根据选定的关键词项，对日志数据进行清洗和转换。可以根据关键词项的出现情况，过滤掉无关的日志消息或提取特定的关键字段。

步骤8输出清洗后的数据：将清洗后的日志数据输出，供后续的故障事件分析和根因定位使用。

如图9所示，图9是TF-IDF权重计算算法应用的过程。

首先，统计词项在其单个日志中的数量，其中，若单个应用日志检测困难，一般需要进行人工聚类或者深度学习模型分类。

然后，统计词项在整个文档集中的数量，其中，平行应用中异常日志模板可以通过权重计算得到高权重特征。

最后，计算词项的词频和逆文档词频，根据得到的高权重特征词项，修改TF项，使算法更适配日志场景，利用权重计算公式计算得出日志的权重值，权重计算公式为:

其中，n为模板数，i为第i个模板，k为模板总数，|D|为日志文档总数。|{j:ti∈d_j}|为包含模板的文档数。

本实施例通过上述方案，具体通过对所述待过滤日志数据进行文本预处理，构建日志文档集；对所述日志文档集的词项进行统计，获取词项频率和逆文档频率；基于词频权重算法，根据所述词项频率和所述逆文档频率，获取词项权重；根据预设的权重阈值和所述词项权重，对所述日志文档集的词项进行清洗转换，获取权重日志数据。帮助优化日志数据的处理过程，提取出具有重要性、关键性或特征性的日志信息，从而实现对日志数据的分析。

作为另一种示例性实施例，本实施例基于大语言模型的平台故障事件根因分析的整体流程如图10所示：

故障事件根因分析主要包括各功能组件、分布式计算平台、数据块(包括日志模板库)和大语言模型等，分布式计算平台内置了Drai n+算法和TF-IDF算法。

首先，获取各组件的日志数据，将日志数据输入到分布式计算平台中。

然后，将日志数据输入Drai n+算法进行结构化处理，得到对应的日志模板。

然后，利用模板数据对日志数据进行无监督异常检测，使用TF-IDF算法清洗日志数据，得到高权重日志。

然后，将高权重日志输入到大语言模型中进行自然语言处理，以进一步进行故障事件根因分析，其中，大语言模型能够根据领域知识进行训练优化，在高权重日志中出现异常事件时进行故障事件根因分析，忽略正常事件。

最后，根据异常事件分析结果，进一步对异常事件进行异常说明，并向关联的平台发出异常日志告警。

进一步地，本方案能够实现自动化处理，自动化日志数据清洗方案利用先进的技术和算法，能够自动识别和处理不同格式的日志数据，无需手动编写和调整清洗规则，可以智能地学习日志数据的模式和规律，从而提高清洗的准确性和效率。

进一步地，本方案具备强大的适应性，自动化日志数据清洗方案具有良好的适应性和扩展性，能够处理各种复杂的日志格式和结构。无论日志数据是文本、JSON、XML还是其他格式，自动化方案都能够提取关键字段，减少人工干预和错误。

此外，本申请实施例还提出一种日志数据分析装置，所述日志数据分析装置包括：

数据获取模块，用于获取初始日志数据；

本实施例实现日志数据分析的原理及实施过程，请参照上述各实施例，在此不再赘述。

此外，本申请实施例还提出一种终端设备，所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的日志数据分析程序，所述日志数据分析程序被所述处理器执行时实现如上所述的日志数据分析方法的步骤。

由于本日志数据分析程序被处理器执行时，采用了前述所有实施例的全部技术方案，因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果，在此不再一一赘述。

此外，本申请实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有日志数据分析程序，所述日志数据分析程序被处理器执行时实现如上所述的日志数据分析方法的步骤。

相比现有技术，本申请实施例提出的日志数据分析方法、装置、终端设备以及存储介质，通过获取初始日志数据；基于日志聚类分析算法，对所述初始日志数据进行处理，获取待过滤日志数据；基于词频权重算法，对所述待过滤日志数据进行过滤，获取权重日志数据；基于预设的大语言模型，对所述权重日志数据进行分析，获取分析结果。本发明针对日志数据，基于日志聚类分析算法、词频权重算法以及大语言模型，有效解决现有故障事件根因分析方案故障根因采用人工进行排查，效率和准确度低的问题，实现异常事件的提取，从而实现故障事件根因分析，适用于大规模数据处理的复杂场景，提高了故障事件根因分析的准确度和效率。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种日志数据分析方法，其特征在于，所述日志数据分析方法包括以下步骤：

获取初始日志数据；

2.如权利要求1所述的日志数据分析方法，其特征在于，所述基于预设的大语言模型，对所述权重日志数据进行故障分析，获取故障分析结果的步骤包括：

根据所述权重日志数据，生成决策指令；

根据所述解析结果，生成分析指令；

根据所述分析指令和所述解析结果，获取故障分析结果。

3.如权利要求2所述的日志数据分析方法，其特征在于，所述基于所述大语言模型，根据所述决策指令，对所述权重日志进行文本解析，获取解析结果的步骤包括：

4.如权利要求1所述的日志数据分析方法，其特征在于，所述基于日志聚类分析算法，对所述初始日志数据进行处理，获取待过滤日志数据的步骤包括：

5.如权利要求4所述的日志数据分析方法，其特征在于，所述基于所述日志聚类分析算法，对所述待结构化数据进行结构化处理，获取待过滤日志数据的步骤包括：

根据所述匹配模板，获取关键参数；

6.如权利要求1所述的日志数据分析方法，其特征在于，所述基于词频权重算法，对所述待过滤日志数据进行过滤，获取权重日志数据的步骤包括：

对所述待过滤日志数据进行文本预处理，构建日志文档集；

7.如权利要求6所述的日志数据分析方法，其特征在于，所述根据预设的权重阈值和所述词项权重，对所述日志文档集的词项进行清洗转换，获取权重日志数据的步骤包括：

根据所述权重阈值和所述词项权重，获取对应的关键词项；

8.一种日志数据分析装置，其特征在于，所述装置包括：

数据获取模块，用于获取初始日志数据；

9.一种终端设备，其特征在于，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的日志数据分析程序，所述日志数据分析程序配置为实现如权利要求1至7中任一项所述的日志数据分析方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有日志数据分析程序，所述日志数据分析程序被处理器执行时实现如权利要求1至7任一项所述的日志数据分析方法的步骤。