CN116244146A

CN116244146A - 日志异常检测方法、日志异常检测模型的训练方法及装置

Info

Publication number: CN116244146A
Application number: CN202310199293.XA
Authority: CN
Inventors: 张静; 张宪波
Original assignee: Jingdong Technology Information Technology Co Ltd
Current assignee: Jingdong Technology Information Technology Co Ltd
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-06-09

Abstract

本公开提供了一种日志异常检测方法、日志异常检测模型的训练方法及装置，可以应用于计算机技术领域。该日志异常检测方法包括：响应于接收到日志异常检测指令，对日志异常检测指令指示的原始日志序列进行处理，得到词性向量序列，其中，词性向量序列包括与至少一条原始日志各自对应的至少一条词性向量；对词性向量序列进行处理，得到词性权重向量序列，其中，词性权重向量序列包括与至少一条原始日志各自对应的词性权重向量；根据词性向量序列和词性权重向量序列，确定加权向量序列，其中，加权向量序列包括与至少一条原始日志各自对应的加权向量；将加权向量序列输入日志异常检测模型，得到与至少一条原始日志各自对应的日志异常检测结果。

Description

日志异常检测方法、日志异常检测模型的训练方法及装置

技术领域

本公开涉及计算机技术领域，更具体地，涉及一种日志异常检测方法、日志异常检测模型的训练方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

随着计算机技术的发展，为了保障系统的安全运行，可以通过对日志进行分析和异常检测，以便及时发现应用系统中存在的异常以及异常产生的原因。

日志可以记录系统中硬件、软件和系统问题的相关信息，还可以监控系统中发生的事件。日志可以包括系统日志、应用程序日志和安全日志。

在实现本公开构思的过程中，发明人发现相关技术中至少存在如下问题：无法保障日志异常检测的效率和准确性。

发明内容

有鉴于此，本公开提供了一种日志异常检测方法、日志异常检测模型的训练方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的一个方面，提供了一种日志异常检测方法，包括：

响应于接收到日志异常检测指令，对上述日志异常检测指令指示的原始日志序列进行处理，得到词性向量序列，其中，上述原始日志序列包括至少一条原始日志，上述词性向量序列包括与上述至少一条原始日志各自对应的至少一条词性向量；

对上述词性向量序列进行处理，得到词性权重向量序列，其中，上述词性权重向量序列包括与上述至少一条原始日志各自对应的词性权重向量；

根据上述词性向量序列和上述词性权重向量序列，确定加权向量序列，其中，上述加权向量序列包括与上述至少一条原始日志各自对应的加权向量；以及

将上述加权向量序列输入日志异常检测模型，得到与上述至少一条原始日志各自对应的日志异常检测结果。

根据本公开的实施例，上述对上述词性向量序列进行处理，得到词性权重向量序列包括：

对上述词性向量序列进行处理，得到第一中间向量序列，其中，上述第一中间向量序列包括与上述至少一条原始日志各自对应的第一中间向量；

对上述第一中间向量序列进行处理，得到第二中间向量序列，其中，上述第二中问向量序列包括与上述至少一条原始日志各自对应的第二中间向量；以及

根据上述第二中间向量序列，确定上述词性权重向量序列。

根据本公开的实施例，上述对上述词性向量序列进行处理，得到第一中间向量序列包括：

调用M个第一搜索线程中的N个第一搜索线程，对上述词性向量序列进行并行处理，得到与上述N个第一搜索线程各自对应的候选第一中间向量序列，其中，M为大于或等于2的整数，N为正整数，且N小于或等于M；以及

根据与上述N个第一搜索线程各自对应的候选第一中间向量序列，确定上述第一中间向量序列。

根据本公开的实施例，上述调用上述M个第一搜索线程中的N个第一搜索线程，对上述词性向量序列进行并行处理，得到与上述N个第一搜索线程各自对应的候选第一中间向量序列包括：

确定上述N个第一搜索线程各自的搜索范围参数和搜索步长参数；以及

调用上述N个第一搜索线程，根据上述N个第一搜索线程各自的上述搜索范围参数和上述搜索步长参数，对上述词性向量序列进行并行处理，得到与上述N个第一搜索线程各自对应的候选第一中间向量序列。

根据本公开的实施例，上述候选第一中间向量序列包括与上述至少一条原始日志各自对应的候选第一中间向量。

根据本公开的实施例，上述根据与上述N个第一搜索线程各自对应的候选第一中间向量序列，确定上述第一中间向量序列包括：

针对上述至少一条原始日志中的每条原始日志，

根据与上述N个第一搜索线程各自对应的候选第一中间向量序列，确定与上述原始日志对应的N个候选第一中间向量；以及

根据与上述原始日志对应的N个候选第一中间向量，确定与上述原始日志对应的L个第一中间向量，其中，L为正整数，且L小于或等于N。

根据本公开的实施例，上述对上述第一中间向量序列进行处理，得到第二中间向量序列包括：

调用Y个第二搜索线程中的Z个第二搜索线程，对与上述至少一条原始日志各自对应的第一中间向量进行并行处理，得到与上述Z个第二搜索线程各自对应的候选第二中间向量，其中，Y为大于或等于2的整数，Z为正整数，且Z小于或等于Y；以及

根据与上述Z个第二搜索线程各自对应的候选第二中间向量，确定上述第二中间向量序列。

根据本公开的实施例，上述调用上述Y个第二搜索线程中的Z个第二搜索线程，对与上述至少一条原始日志各自对应的第一中间向量进行并行处理，得到与上述Z个第二搜索线程各自对应的候选第二中间向量包括：

从与上述至少一条原始日志各自对应的第一中间向量中确定目标第一中间向量；

从上述Z个第二搜索线程中确定目标第二搜索线程；以及

调用上述目标第二搜索线程，对上述目标第一中间向量进行处理，得到与上述目标第二搜索线程对应的上述候选第二中间向量。

根据本公开的实施例，上述根据与上述Z个第二搜索线程各自对应的候选第二中间向量，确定上述第二中间向量序列包括：

在上述候选第二中间向量和与上述候选第二中间向量对应的第一中间向量满足预设条件的情况下，将上述第一中间向量序列中的上述第一中间向量替换为上述候选第二中间向量；以及

在上述候选第二中间向量和与上述候选第二中间向量对应的第一中间向量未满足预设条件的情况下，删除上述第一中间向量序列中的上述第一中间向量。

根据本公开的实施例，上述根据上述第二中间向量序列，确定上述词性权重向量序列包括：

针对上述至少一条原始日志中的每条原始日志，

根据与上述原始日志对应的第二中问向量，确定目标第二中间向量；以及

将上述目标第二中间向量确定为与上述原始日志对应的词性权重向量。

根据本公开的实施例，上述响应于接收到日志异常检测指令，对上述日志异常检测指令指示的原始日志序列进行处理，得到词性向量序列包括：

对上述至少一条原始日志中的每条原始日志分别进行日志模板提取处理，得到与上述至少一条原始日志各自对应的日志模板向量；以及

对与上述至少一条原始日志各自对应的日志模板向量分别进行词性分析处理，得到与上述至少一条原始日志各自对应的词性向量。

根据本公开的实施例，上述根据上述词性向量序列和上述词性权重向量序列，确定加权向量序列包括：

针对上述至少一条原始日志中的每条原始日志，

确定与上述原始日志对应的词性向量和与上述原始日志对应的词性权重向量；以及

将与上述原始日志对应的词性向量和与上述原始日志对应的词性权重向量进行加权处理，得到与上述原始日志对应的加权向量。

根据本公开的一个方面，提供了一种日志异常检测模型的训练方法，包括：

获取样本原始日志序列，其中，上述样本原始日志序列包括至少一条样本原始日志，上述至少一条样本原始日志各自具有标签信息；

对上述样本原始日志序列进行处理，得到样本词性向量序列，其中，上述样本词性向量序列包括与上述至少一条样本原始日志各自对应的样本词性向量；

对上述样本词性向量序列进行处理，得到样本词性权重向量序列，其中，上述样本词性权重向量序列包括与上述至少一条样本原始日志各自对应的样本词性权重向量；

根据上述样本词性向量序列和上述样本词性权重向量序列，确定样本加权向量序列，其中，上述样本加权向量序列包括与上述至少一条样本原始日志各自对应的样本加权向量；以及

利用上述样本加权向量序列和上述标签信息，训练深度学习模型，得到日志异常检测模型。

根据本公开的实施例，上述至少一条样本原始日志包括至少一条异常样本原始日志和至少一条正常样本原始日志，上述标签信息包括类别标签。

根据本公开的实施例，上述利用上述样本加权向量序列和上述标签信息，训练深度学习模型，得到日志异常检测模型包括：

将上述至少一条异常样本原始日志和上述至少一条正常样本原始日志各自的样本加权向量输入上述深度学习模型，得到上述至少一条异常样本原始日志和上述至少一条正常样本原始日志各自的预测类别信息；

根据上述至少一条异常样本原始日志和上述至少一条正常样本原始日志各自的预测类别信息、上述至少一条异常样本原始日志和上述至少一条正常样本原始日志各自的类别标签，得到第一损失函数值；以及

根据上述第一损失函数值调整上述深度学习模型的模型参数，直至满足预定结束条件，得到上述日志异常检测模型。

根据本公开的实施例，上述至少一条样本原始日志包括至少一条异常样本原始日志，上述标签信息包括异常类型标签。

将上述至少一条异常样本原始日志各自的样本加权向量输入上述深度学习模型，得到上述至少一条异常样本原始日志各自的预测异常类型信息；

根据上述至少一条异常样本原始日志各自的异常类型标签、上述至少一条异常样本原始日志各自的预测异常类型信息，得到第二损失函数值；以及

根据上述第二损失函数值调整上述深度学习模型的模型参数，直至满足预定结束条件，得到上述日志异常检测模型。

根据本公开的实施例，上述日志异常检测模型的训练方法还包括重复执行以下操作，直至上述日志异常检测模型的性能测试结果满足预定性能条件：

利用验证加权向量序列对上述日志异常检测模型的模型性能进行测试，得到上述性能测试结果，其中，上述验证加权向量序列包括与上述至少一条样本原始日志各自对应的验证样本加权向量，上述至少一条验证样本加权向量各自具有上述标签信息；

在确定上述性能测试结果不满足上述预定性能条件的情况下，对与上述日志异常检测模型对应的模型超参数进行调整；以及

基于调整后的模型超参数，利用上述样本加权向量序列和上述标签信息重新训练上述深度学习模型，得到新的日志异常检测模型。

根据本公开的另一个方面，提供了一种日志异常检测装置，包括：

第一处理模块，用于响应于接收到日志异常检测指令，对上述日志异常检测指令指示的原始日志序列进行处理，得到词性向量序列，其中，上述原始日志序列包括至少一条原始日志，上述词性向量序列包括与上述至少一条原始日志各自对应的至少一条词性向量；

第二处理模块，用于对上述词性向量序列进行处理，得到词性权重向量序列，其中，上述词性权重向量序列包括与上述至少一条原始日志各自对应的词性权重向量；

第一确定模块，用于根据上述词性向量序列和上述词性权重向量序列，确定加权向量序列，其中，上述加权向量序列包括与上述至少一条原始日志各自对应的加权向量；以及

输入模块，用于将上述加权向量序列输入日志异常检测模型，得到与上述至少一条原始日志各自对应的日志异常检测结果。

根据本公开的另一个方面，提供了一种日志异常检测模型的训练装置，包括：

获取模块，用于获取样本原始日志序列，其中，上述样本原始日志序列包括至少一条样本原始日志，上述至少一条样本原始日志各自具有标签信息；

第三处理模块，用于对上述样本原始日志序列进行处理，得到样本词性向量序列，其中，上述样本词性向量序列包括与上述至少一条样本原始日志各自对应的样本词性向量；

第四处理模块，用于对上述样本词性向量序列进行处理，得到样本词性权重向量序列，其中，上述样本词性权重向量序列包括与上述至少一条样本原始日志各自对应的样本词性权重向量；

第二确定模块，用于根据上述样本词性向量序列和上述样本词性权重向量序列，确定样本加权向量序列，其中，上述样本加权向量序列包括与上述至少一条样本原始日志各自对应的样本加权向量；以及

第一训练模块，用于利用上述样本加权向量序列和上述标签信息，训练深度学习模型，得到日志异常检测模型。

根据本公开的另一个方面，提供了一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个指令，

其中，当上述一个或多个指令被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如本公开所述的方法。

根据本公开的另一个方面，提供了一种计算机可读存储介质，其上存储有可执行指令，上述可执行指令被处理器执行时使处理器实现如本公开所述的方法。

根据本公开的另一个方面，提供了一种计算机程序产品，上述计算机程序产品包括计算机可执行指令，上述计算机可执行指令在被执行时用于实现如本公开所述的方法。

根据本公开的实施例，由于词性向量序列是通过对原始日志序列进行处理得到的，因而词性向量可以用于表征原始日志所包括的至少一个单词词类。此外，由于词性权重向量序列是通过对词性向量序列进行处理得到的，因而词性权重向量可以用于表征原始日志所包括的至少一个单词词类各自的权重。在此基础上，通过根据词性向量序列和词性权重向量序列，确定加权向量序列，将加权向量序列输入日志异常检测模型，得到与至少一条原始日志各自对应的日志异常检测结果，因而至少部分地克服了相关技术中无法保障日志异常检测的效率和准确性的技术问题，能够自动实现对原始日志序列的异常检测，由此提高了日志异常检测的效率。另外，由于原始日志序列中的至少一条原始日志具有时序关系，因而通过利用基于原始日志序列的日志异常检测方法，提高了日志异常检测的准确性。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的可以应用日志异常检测方法、日志异常检测模型的训练方法的系统架构；

图2示意性示出了根据本公开实施例的日志异常检测方法的流程图；

图3示意性示出了根据本公开实施例的对词性向量序列进行处理，得到词性权重向量序列方法的流程图；

图4A示意性示出了根据本公开实施例的对词性向量序列进行处理，得到第一中间向量序列过程的示例示意图；

图4B示意性示出了根据本公开实施例的对第一中间向量序列进行处理，得到第二中间向量序列过程的示例示意图；

图4C示意性示出了根据本公开实施例的对词性向量序列进行处理，得到词性权重向量序列过程的示例示意图；

图5示意性示出了根据本公开实施例的日志异常检测过程的示例示意图；

图6示意性示出了根据本公开实施例的日志异常检测模型的训练方法的流程图；

图7A示意性示出了根据本公开实施例的日志异常检测模型的训练过程的示例示意图；

图7B示意性示出了根据本公开实施例的日志异常检测模型的训练过程的示例示意图；

图8示意性示出了根据本公开的实施例的日志异常检测装置的框图；

图9示意性示出了根据本公开的实施例的日志异常检测模型的训练装置的框图；以及

图10示意性示出了根据本公开实施例的适于实现日志异常检测方法、日志异常检测模型的训练方法的电子设备的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的采集、收集、更新、分析、处理、使用、传输、存储等方面，均符合相关法律法规的规定，被用于合法的用途，且不违背公序良俗。对用户个人信息采取必要措施，防止对用户个人信息数据的非法访问，维护用户个人信息安全、网络安全和国家安全。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

日志异常检测是检测系统故障、调试机器性能以及维护系统安全等必不可少的重要任务。随着系统运行中遇到的漏洞以及非法入侵等恶意行为的多样化，产生的日志数据的种类也越来越多，导致日志异常检测面临着越来越多的挑战。

在相关技术中，针对日志进行异常检测的方法包括：基于统计(Statistical-based)的异常检测、基于传统机器学习(Non-Deep Learning-based)的异常检测和基于深度学习(Deep Learning-based)的异常检测。但是，上述各种异常检测方法，通常是针对单条日志，而忽略了日志之间的时序关系，导致日志异常检测的误报率较高。

此外，在相关技术中，针对日志中每一个词的权重设置方法包括：等权重设置、关注词权重设置和在穷举集合中搜索最优的词性权重分配集合。但是，上述各种词的权重设置方法，忽略了每一个词各自的权重不同，导致异常检测的计算耗时较高，迁移能力较差。

另外，在相关技术中，搜索参数方法包括：手动调参、网格搜索、随机搜索、贝叶斯搜索。但是，上述各种搜索参数方法，通常需要进行遍历，在并行执行的情况下，无法利用各自的信息，导致并行效率较低。

为了至少部分地解决相关技术中存在的技术问题，本公开提供了一种日志异常检测方法、日志异常检测模型的训练方法及装置，可以应用于计算机技术领域。该日志异常检测方法包括：响应于接收到日志异常检测指令，对日志异常检测指令指示的原始日志序列进行处理，得到词性向量序列，其中，词性向量序列包括与至少一条原始日志各自对应的至少一条词性向量；对词性向量序列进行处理，得到词性权重向量序列，其中，词性权重向量序列包括与至少一条原始日志各自对应的词性权重向量；根据词性向量序列和词性权重向量序列，确定加权向量序列，其中，加权向量序列包括与至少一条原始日志各自对应的加权向量；将加权向量序列输入日志异常检测模型，得到与至少一条原始日志各自对应的日志异常检测结果。

需要说明的是，本公开实施例提供的日志异常检测方法、日志异常检测模型的训练方法和装置可用于计算机技术领域，例如应用于计算机系统的日志异常检测。本公开实施例提供的日志异常检测方法、日志异常检测模型的训练方法和装置也可用于除计算机技术领域之外的任意领域，例如应用于网络技术领域。本公开实施例提供的日志异常检测方法、日志异常检测模型的训练方法和装置的应用领域不做限定。

图1示意性示出了根据本公开实施例的可以应用日志异常检测方法、日志异常检测模型的训练方法的系统架构。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的日志异常检测方法、日志异常检测模型的训练方法一般可以由服务器105执行。相应地，本公开实施例所提供的日志异常检测装置、日志异常检测模型的训练装置一般可以设置于服务器105中。本公开实施例所提供的日志异常检测方法、日志异常检测模型的训练方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的日志异常检测装置、日志异常检测模型的训练装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

备选地，本公开实施例所提供的日志异常检测方法、日志异常检测模型的训练方法也可以由终端设备101、102、或103执行，或者也可以由不同于终端设备101、102、或103的其他终端设备执行。相应地，本公开实施例所提供的日志异常检测装置、日志异常检测模型的训练装置也可以设置于终端设备101、102、或103中，或设置于不同于终端设备101、102、或103的其他终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

应注意，以下方法中各个操作的序号仅作为该操作的表示以便描述，而不应被看作表示该各个操作的执行顺序。除非明确指出，否则该方法不需要完全按照所示顺序来执行。

图2示意性示出了根据本公开实施例的日志异常检测方法的流程图。

如图2所示，该日志异常检测方法200包括操作S210～S240。

在操作S2 1 0，响应于接收到日志异常检测指令，对日志异常检测指令指示的原始日志序列进行处理，得到词性向量序列，其中，原始日志序列包括至少一条原始日志，词性向量序列包括与至少一条原始日志各自对应的至少一条词性向量。

在操作S220，对词性向量序列进行处理，得到词性权重向量序列，其中，词性权重向量序列包括与至少一条原始日志各自对应的词性权重向量。

在操作S230，根据词性向量序列和词性权重向量序列，确定加权向量序列，其中，加权向量序列包括与至少一条原始日志各自对应的加权向量。

在操作S240，将加权向量序列输入日志异常检测模型，得到与至少一条原始日志各自对应的日志异常检测结果。

根据本公开的实施例，响应于接收到日志异常检测指令，可以根据日志异常检测指令，从数据源中获取原始日志序列。数据源可以包括以下至少之一：本地数据库、云数据库和网络资源。例如，可以调用数据接口。利用数据接口从数据源中获取原始日志序列。原始日志序列可以包括至少一条原始日志。至少一条原始日志彼此之间可以具有时序关系。每条原始日志均可以包括至少一个单词。至少一个单词可以包括实词和虚词。

根据本公开的实施例，在获得原始日志序列之后，可以对原始日志序列进行处理，得到词性向量序列。例如，可以对原始日志序列中的至少一条原始日志分别进行处理，得到与至少一条原始日志各自对应的词性向量。根据与至少一条原始日志各自对应的词性向量，确定词性向量序列。与至少一条原始日志各自对应的词性向量彼此之间可以具有时序关系。词性向量可以用于表征该条原始日志所包括的至少一个单词的词类。例如，实词的词性可以包括以下至少之一：名词(即n)、代词(即pron)、动词(即verb)、形容词(即adj)、数词(即num)和量词(即quan)。虚词的词性可以包括以下至少之一：副词(即adv)、介词(即prep)、连词(即conj)、冠词(即art)、助词(即助词)和叹词(即int)。

根据本公开的实施例，在获得词性向量序列之后，可以对词性向量序列进行处理，得到词性权重向量序列。例如，可以对词性向量中的至少一条词性向量分别进行处理，得到与至少一条原始日志各自对应的词性权重向量。根据与至少一条原始日志各自对应的词性权重向量，确定词性权重向量序列。词性权重向量可以用于表征该条原始日志所包括的至少一个词类各自的权重。至少一个词类各自的权重可以是指该此类对该条原始日志异常检测的影响程度。

根据本公开的实施例，在获得词性权重向量序列之后，可以根据词性向量序列和词性权重向量序列，确定加权向量序列。例如，可以重复执行以下操作：确定至少一条原始日志中的目标原始日志。根据词性向量序列，确定与目标原始日志对应的目标词性向量。根据词性权重向量序列，确定与目标原始日志对应的目标词性权重向量。对目标词性向量和目标词性权重向量进行加权处理，得到与目标原始日志对应的加权向量。加权向量可以用于表征目标词性向量中的至少一个词类和与至少一个词类各自对应的权重的加权结果。

根据本公开的实施例，在获得加权向量序列之后，可以将加权向量序列输入日志异常检测模型，得到与至少一条原始日志各自对应的日志异常检测结果。日志异常检测结果可以包括以下至少之一：类别信息和异常类型信息。在日志异常检测结果包括类别信息的情况下，日志异常检测结果可以用于表征原始日志是否存在异常。在日志异常检测结果包括异常类型信息的情况下，日志异常检测结果可以用于表征存在异常的原始日志所具有的异常类型。

根据本公开的实施例，可以利用样本加权向量序列、类别标签和异常类型标签训练第一深度学习模型，得到日志异常检测模型。第一深度学习模型可以包括支持向量机模型(Support Vector Machine，SVM)、决策树模型(DecisionTree，DT)、随机森林(RandomForests，RF)模型、梯度提升模型(Gradient Boosting，GB)和Text CNN-LSTM模型。

下面参考图3、图4A、图4B、图4C和图5，对根据本发明实施例的日志异常检测方法200做进一步说明。

图3示意性示出了根据本公开实施例的对词性向量序列进行处理，得到词性权重向量序列方法的流程图。

如图3所示，操作S220可以包括操作S321～S323。

在操作S321，对词性向量序列进行处理，得到第一中间向量序列，其中，第一中间向量序列包括与至少一条原始日志各自对应的第一中间向量。

在操作S322，对第一中间向量序列进行处理，得到第二中间向量序列，其中，第二中间向量序列包括与至少一条原始日志各自对应的第二中间向量。

在操作S323，根据第二中间向量序列，确定词性权重向量序列。

根据本公开的实施例，在获得词性向量序列之后，可以对词性向量序列进行处理，得到第一中间向量序列。例如，可以基于并行网格搜索算法(即Parallel Grid Search)对词性向量序列中的至少一个词性向量分别进行处理，得到与至少一个词性向量各自对应的第一中间向量。根据与至少一个词性向量各自对应的第一中间向量，确定第一中间向量序列。第一中间向量序列可以包括与至少一条原始日志各自对应的第一中间向量。第一中间向量可以由于表征对词性向量进行处理后得到的向量。

根据本公开的实施例，在获得第一中间向量序列之后，可以对第一中间向量序列进行处理，得到第二中间向量序列。例如，可以基于并行随机搜索算法(即Parallel RandomSearch)对第一中间向量序列中的至少一个第一中间向量分别进行处理，得到与至少一个第一中间向量各自对应的第二中间向量。根据与至少一个第一中间向量各自对应的第二中间向量，确定第二中间向量序列。第二中间向量序列可以包括与至少一条原始日志各自对应的第二中间向量。第二中间向量可以由于表征对第一中间向量进行处理后得到的向量。

根据本公开的实施例，在获得第二中间向量序列之后，可以对第二中间向量序列中的至少一个第二中间向量分别进行处理，得到与至少一个第二中间向量各自对应的词性权重向量。根据与至少一个第二中间向量各自对应的词性权重向量，确定词性权重向量序列。通过维护共享内存的最优top-k队列，能够实现并行优化和序列优化的结合。

根据本公开的实施例，由于第一中间向量序列是通过对词性向量序列进行处理得到的，第二中间向量序列是通过对第一中间向量序列进行处理得到的，在此基础上，通过根据第二中间向量序列确定词性权重向量序列，实现了并行优化和序列优化的结合，提高了词性权重向量的准确性。

根据本公开的实施例，操作S321可以包括如下操作。

调用M个第一搜索线程中的N个第一搜索线程，对词性向量序列进行并行处理，得到与N个第一搜索线程各自对应的候选第一中间向量序列，其中，M为大于或等于2的整数，N为正整数，且N小于或等于M。根据与N个第一搜索线程各自对应的候选第一中间向量序列，确定第一中间向量序列。

根据本公开的实施例，可以基于并行网格搜索算法对词性向量序列中的至少一个词性向量分别进行处理，得到与至少一个词性向量各自对应的第一中间向量。在获得第一中间向量序列之后，可以将第一中间向量序列存储至预定队列中。

根据本公开的实施例，第一搜索线程可以是指操作系统能够进行运算调度的最小单位。M个第一搜索线程可以部署于同一进程中。备选地，M个第一搜索线程也可以部署于不同进程中。

根据本公开的实施例，可以调用M个第一搜索线程中的N个第一搜索线程，对至少一个词性向量组分别进行并行处理，得到与N个第一搜索线程各自对应的候选第一中间向量序列。候选第一中间向量序列可以包括至少一个候选第一中间向量。可以根据与N个第一搜索线程各自对应的候选第一中间向量序列，确定第一中间向量序列。

根据本公开的实施例，由于候选第一中间向量序列是通过调用M个第一搜索线程中的N个第一搜索线程，对词性向量序列进行并行处理得到的，由此提高了针对词性向量序列的搜索效率。此外，通过根据与N个第一搜索线程各自对应的候选第一中间向量序列，确定第一中间向量序列，由此提高了第一中间向量序列的准确性，进一步提高了第二中间向量序列和词性权重向量序列的准确性，进而提高了日志异常检测的准确性。

根据本公开的实施例，调用M个第一搜索线程中的N个第一搜索线程，对词性向量序列进行并行处理，得到与N个第一搜索线程各自对应的候选第一中间向量序列可以包括如下操作。

确定N个第一搜索线程各自的搜索范围参数和搜索步长参数。调用N个第一搜索线程，根据N个第一搜索线程各自的搜索范围参数和搜索步长参数，对词性向量序列进行并行处理，得到与N个第一搜索线程各自对应的候选第一中间向量序列。

根据本公开的实施例，在获得词性向量序列之后，可以对词性向量序列中的至少一个词性向量进行分组处理，得到至少一个词性向量组。根据至少一个词性向量组的数量，确定需要调用的N个第一搜索线程。在确定需要调用的N个第一搜索线程之后，针对N个第一搜索线程中的每个第一搜索线程，可以确定搜索范围参数和搜索步长参数。

根据本公开的实施例，在确定搜索范围参数和搜索步长参数之后，可以调用N个第一搜索线程，根据N个第一搜索线程各自的搜索范围参数和搜索步长参数，基于并行网格搜索算法对词性向量序列中的至少一个词性向量进行并行处理，即多核多节点的并行大范围网格搜索，得到与至少一个词性向量各自对应的第一中间向量。根据与至少一个词性向量各自对应的第一中间向量，确定第一中间向量序列。在获得第一中间向量序列之后，可以将第一中间向量序列存储至预定队列中。

根据本公开的实施例，在基于并行网格搜索算法对词性向量序列中的至少一个词性向量进行并行处理的过程中，可以加入随机扰动，以减少人为设定的参数，提高寻找最优点的概率。

根据本公开的实施例，根据与N个第一搜索线程各自对应的候选第一中间向量序列，确定第一中间向量序列可以包括如下操作。

针对至少一条原始日志中的每条原始日志，根据与N个第一搜索线程各自对应的候选第一中间向量序列，确定与原始日志对应的N个候选第一中间向量。根据与原始日志对应的N个候选第一中间向量，确定与原始日志对应的L个第一中间向量，其中，L为正整数，且L小于或等于N。

根据本公开的实施例，候选第一中间向量序列包括与至少一条原始日志各自对应的候选第一中间向量。

根据本公开的实施例，在获得与N个第一搜索线程各自对应的候选第一中间向量序列之后，针对至少一条原始日志中的每条原始日志，预定队列可以对与N个第一搜索线程各自对应的候选第一中间向量序列进行合并处理，得到与原始日志对应的N个候选第一中间向量。

根据本公开的实施例，在获得与原始日志对应的N个候选第一中间向量之后，预定队列可以对与原始日志对应的N个候选第一中间向量进行排序处理，得到排序结果。可以根据排序结果确定与原始日志对应的L个第一中间向量。例如，可以将排序结果前三位的候选第一中问向量确定为与原始日志对应的第一中间向量。在确定与原始日志对应的第一中间向量之后，可以将第一中间向量和对应的原始日志关联存储至预定队列。

根据本公开的实施例，由于候选第一中间向量序列是通过调用N个第一搜索线程，根据N个第一搜索线程各自的搜索范围参数和搜索步长参数，对词性向量序列进行并行处理得到的，因而至少部分地克服了相关技术中的搜索参数方法通常需要进行遍历，在并行执行的情况下，无法利用各自的信息，导致并行效率较低的技术问题，进而提高了搜索参数方法的通用性。此外，由于第一中间向量是根据与原始日志对应的N个候选第一中间向量确定的，因而提高了第一中间向量所表征的词性权重的准确度，进而提高了日志异常检测的准确性。

图4A示意性示出了根据本公开实施例的对词性向量序列进行处理，得到第一中间向量序列过程的示例示意图。

如图4A所示，在400A中，可以确定M个第一搜索线程401中的N个第一搜索线程。N个第一搜索线程可以包括第一搜索线程401_1、第一搜索线程401_2、……、第一搜索线程401_n、...、第一搜索线程401_N。N可以是大于或等于1的整数，n∈{1，2，…，(N-1)，N}。

调用N个第一搜索线程，对词性向量序列403进行并行处理，得到与N个第一搜索线程各自对应的候选第一中间向量序列，可以包括：调用第一搜索线程401_1对词性向量403_1进行处理，得到候选第一中间向量序列404_1。调用第一搜索线程401_2对词性向量403_2进行处理，得到候选第一中间向量序列404_2。以此类推，调用第一搜索线程401_n对词性向量403_n进行处理，得到候选第一中间向量序列404_n。以此类推，调用第一搜索线程401_N对词性向量403_N进行处理，得到候选第一中间向量序列404_N。

根据与N个第一搜索线程各自对应的候选第一中间向量序列，确定第一中间向量序列405，可以包括：根据候选第一中间向量序列404_1，确定第一中间向量405_1。根据候选第一中间向量序列404_2，确定第一中间向量405_2。以此类推，根据候选第一中间向量序列404_n，确定第一中间向量405_n。以此类推，根据候选第一中间向量序列404_N，确定第一中间向量405_N。

根据本公开的实施例，操作S322可以包括如下操作。

调用Y个第二搜索线程中的Z个第二搜索线程，对与至少一条原始日志各自对应的第一中间向量进行并行处理，得到与Z个第二搜索线程各自对应的候选第二中间向量，其中，Y为大于或等于2的整数，Z为正整数，且Z小于或等于Y。根据与Z个第二搜索线程各自对应的候选第二中间向量，确定第二中间向量序列。

根据本公开的实施例，可以从预定队列中获取第一中间向量序列。基于并行随机搜索算法对第一中间向量序列中的至少一个第一中间向量分别进行处理，得到与至少一个第一中间向量各自对应的第二中间向量。在获得第二中间向量序列之后，可以将第二中间向量序列存储至预定队列中。

根据本公开的实施例，第二搜索线程可以是指操作系统能够进行运算调度的最小单位。Y个第二搜索线程可以部署于同一进程中。备选地，Y个第二搜索线程也可以部署于不同进程中。

根据本公开的实施例，可以调用Y个第二搜索线程中的Z个第二搜索线程，对至少一个第一中间向量组进行并行处理，得到与Z个第二搜索线程各自对应的候选第二中间向量。可以根据与Z个第二搜索线程各自对应的候选第二中间向量，确定第二中间向量序列。

根据本公开的实施例，由于候选第二中间向量是通过调用Y个第二搜索线程中的Z个第二搜索线程，对第一中间向量序列进行并行处理得到的，由此提高了针对第一中间向量序列的搜索效率。此外，通过根据与Z个第二搜索线程各自对应的候选第二中间向量，确定第二中间向量序列，由此提高了第二中间向量序列的准确性，进一步提高了词性权重向量序列的准确性，进而提高了日志异常检测的准确性。

根据本公开的实施例，调用Y个第二搜索线程中的Z个第二搜索线程，对与至少一条原始日志各自对应的第一中间向量进行并行处理，得到与Z个第二搜索线程各自对应的候选第二中问向量可以包括如下操作。

从与至少一条原始日志各自对应的第一中间向量中确定目标第一中间向量。从Z个第二搜索线程中确定目标第二搜索线程。调用目标第二搜索线程，对目标第一中间向量进行处理，得到与目标第二搜索线程对应的候选第二中间向量。

根据本公开的实施例，在获得第一中间向量序列之后，可以对第一中间向量序列中的至少一个第一中间向量进行分组处理，得到至少一个第一中间向量组。根据至少一个第一中间向量组的数量，确定需要调用的Z个第二搜索线程。在确定需要调用的Z个第二搜索线程之后，针对至少一条原始日志中的每条原始日志，可以根据与该条原始日志对应的第一中间向量确定目标第一中间向量。目标第一中间向量可以用于表征预定队列中与该条原始日志对应的第一中间向量中的最优向量。根据Z个第二搜索线程，确定目标第二搜索线程。

根据本公开的实施例，在确定目标第一中间向量和目标第二搜索线程之后，可以调用目标第二搜索线程，基于并行随机搜索算法对目标第一中间向量进行处理，即多核多节点的并行小范围随机搜索，得到与目标第二搜索线程对应的候选第二中间向量。

根据本公开的实施例，根据与Z个第二搜索线程各自对应的候选第二中间向量，确定第二中间向量序列可以包括如下操作。

在候选第二中间向量和与候选第二中间向量对应的第一中间向量满足预设条件的情况下，将第一中间向量序列中的第一中间向量替换为候选第二中间向量。在候选第二中间向量和与候选第二中间向量对应的第一中间向量未满足预设条件的情况下，删除第一中间向量序列中的第一中间向量。

根据本公开的实施例，在获得与Z个第二搜索线程各自对应的候选第二中间向量之后，可以确定候选第二中间向量和与候选第二中间向量对应的第一中间向量之间的关系。

根据本公开的实施例，在候选第二中间向量和与候选第二中间向量对应的第一中间向量满足预设条件的情况下，即候选第二中间向量所表征的词性权重优于与候选第二中间向量对应的第一中间向量所表征的词性权重的情况下，可以将预定队列中的第一中间向量替换为候选第二中间向量。

根据本公开的实施例，在候选第二中间向量和与候选第二中间向量对应的第一中间向量未满足预设条件的情况下，即与候选第二中间向量对应的第一中间向量所表征的词性权重优于候选第二中间向量所表征的词性权重情况下，可以删除预定队列中的第一中间向量。

根据本公开的实施例，由于候选第二中间向量是通过调用目标第二搜索线程，对目标第一中间向量进行处理得到的，因而提高了并行效率。此外，通过判别候选第二中间向量和与候选第二中间向量对应的第一中间向量是否满足预设条件，提高了第一中间向量所表征的词性权重的准确度，进而提高了日志异常检测的准确性。

图4B示意性示出了根据本公开实施例的对第一中间向量序列进行处理，得到第二中间向量序列过程的示例示意图。

如图4B所示，在400B中，可以从Z个第二搜索线程406中确定目标第二搜索线程407_1、目标第二搜索线程407_2、......、目标第二搜索线程407_z、......、目标第二搜索线程407_Z。Z可以是大于或等于1的整数，z∈{1，2，…，(Z-1)，Z}。

可以从与至少一条原始日志各自对应的第一中间向量中确定目标第一中间向量408。调用目标第二搜索线程，对目标第一中间向量进行处理，得到与目标第二搜索线程对应的候选第二中间向量，可以包括：调用目标第二搜索线程407_1对目标第一中间向量408_1进行处理，得到与目标第二搜索线程407_1对应的候选第二中间向量409_1。调用目标第二搜索线程407_2对目标第一中间向量408_2进行处理，得到与目标第二搜索线程407_2对应的候选第二中间向量409_2。以此类推，调用目标第二搜索线程407_z对目标第一中间向量408_z进行处理，得到与目标第二搜索线程407_z对应的候选第二中间向量409_z。以此类推，调用目标第二搜索线程407_Z对目标第一中间向量408_Z进行处理，得到与目标第二搜索线程407_Z对应的候选第二中间向量409_Z。

可以根据与Z个第二搜索线程各自对应的候选第二中间向量，确定第二中间向量序列410。

根据本公开的实施例，操作S323可以包括如下操作。

针对至少一条原始日志中的每条原始日志，根据与原始日志对应的第二中间向量，确定目标第二中间向量。将目标第二中间向量确定为与原始日志对应的词性权重向量。

根据本公开的实施例，第二中间向量序列可以存储在预定队列中。可以基于并行随机搜索算法对与原始日志对应的第二中间向量进行处理，直至满足第一预定条件。将在满足第一预定条件的情况下得到的向量，确定为目标第二中间向量。第一预定条件可以包括满足预定评估标准和处理轮次达到最大处理轮次中的至少一项。在确定目标第二中间向量之后，可以将目标第二中间向量确定为与原始日志对应的词性权重向量。

根据本公开的实施例，由于与原始日志对应的词性权重向量是根据目标第二中间向量确定的，而目标第二中间向量是根据第二中间向量确定的，因而提高了词性权重向量序列的准确性，进一步提高了加权向量序列的准确性，进而提高了日志异常检测的准确性。

图4C示意性示出了根据本公开实施例的对词性向量序列进行处理，得到词性权重向量序列过程的示例示意图。

如图4C所示，在400C中，词性向量序列411可以包括词性向量411_1、词性向量411_2、……、词性向量411_p、……、词性向量411_P。P可以是大于或等于1的整数，p∈{1，2，…，(P-1)，P}。

可以对词性向量序列411进行并行处理，得到候选第一中间向量序列。例如，可以对词性向量411_1进行处理，得到候选第一中间向量序列412_1。对词性向量411_2进行处理，得到候选第一中间向量序列412_2。以此类推，对词性向量411_p进行处理，得到候选第一中间向量序列412_p。以此类推，对词性向量411_P进行处理，得到候选第一中间向量序列412_P。

可以根据候选第一中间向量序列，确定第一中间向量序列413。例如，可以根据候选第一中间向量序列412_1，确定第一中间向量413_1。根据候选第一中间向量序列412_2，确定第一中间向量413_2。以此类推，根据候选第一中间向量序列412_p，确定第一中间向量413_p。以此类推，根据候选第一中间向量序列412_P，确定第一中间向量413_P。

可以对第一中间向量进行并行处理，得到候选第二中间向量。例如，可以对第一中间向量413_1进行处理得到候选第二中间向量414_1。对第一中间向量413_2进行处理得到候选第二中间向量414_2。以此类推，对第一中间向量413_p进行处理得到候选第二中间向量414_p。以此类推，对第一中间向量413_P进行处理得到候选第二中间向量414_P。

可以根据候选第二中间向量414_1、候选第二中间向量414_2、候选第二中间向量414_p、……、候选第二中间向量414_P，确定第二中间向量序列415。

根据本公开的实施例，操作S210可以包括如下操作。

对至少一条原始日志中的每条原始日志分别进行日志模板提取处理，得到与至少一条原始日志各自对应的日志模板向量。对与至少一条原始日志各自对应的日志模板向量分别进行词性分析处理，得到与至少一条原始日志各自对应的词性向量。

根据本公开的实施例，可以利用日志模板提取模型对至少一条原始日志中的每条原始日志分别进行日志模板提取处理，得到与至少一条原始日志各自对应的日志模板向量。日志模板提取模型可以包括以下至少之一：FT-Tree模型、SOW词集模型、BOW词袋模型、nBOW标准化的词袋模型、TF-IDF词频-逆文档频率模型、N-Gram多元语言模型、LSI/LDA模型、Word2vec模型、GloVe模型和Doc2vec模型。

例如，可以利用FT-Tree模型对至少一条原始日志中的每条原始日志分别进行日志模板提取处理，以将至少一条原始日志中的变量部分剔除，保留常量部分，得到与至少一条原始日志各自对应的日志模板向量。

根据本公开的实施例，可以利用词性分析模型对与至少一条原始日志各自对应的日志模板向量分别进行词性分析处理，得到与至少一条原始日志各自对应的词性向量。词性分析模型可以包括以下至少之一：级联的编码器、双向长短期记忆网络(Bi-LSTM，Bi-Long Short-Term Memory)、条件随机场(CRF，Conditional Random Fields)和StanfordCore NLP模型，但是并不局限于此，词性分析模型还可以包括级联的编码器、长短期记忆网络和条件随机场，或者词性分析模型也可以仅包括编码器以及条件随机场。

根据本公开的实施例，编码器的类型不做限定，例如，可以是BERT(BidirectionalEncoder Representation from Transformers)编码器、ERNIE(Enhanced LanguageRepresentation with Informative Entities)编码器或者Log2vec编码器等，只要能够将关键词编码为特征向量的网络即可。

例如，可以利用Stanford Core NLP模型对与至少一条原始日志各自对应的日志模板向量分别进行词性分析处理，以将非自然英文单词或者一些特殊名称、缩写等若干字母组成的单词归属为特定单词属性，得到与至少一条原始日志各自对应的词性向量。

根据本公开的实施例，由于与至少一条原始日志各自对应的日志模板向量是通过对每条原始日志分别进行日志模板提取处理得到的，因而日志模板向量能够保留原始日志中的常量部分。此外，由于与至少一条原始日志各自对应的词性向量是通过对日志模板向量分别进行词性分析处理得到的，因而减少了在日志异常检测过程中人为规则的参与，由此提高了后续日志异常检测的准确性。

根据本公开的实施例，操作S230可以包括如下操作。

针对至少一条原始日志中的每条原始日志，确定与原始日志对应的词性向量和与原始日志对应的词性权重向量。将与原始日志对应的词性向量和与原始日志对应的词性权重向量进行加权处理，得到与原始日志对应的加权向量。

根据本公开的实施例，可以在预定队列中确定与原始日志对应的词性向量和与原始日志对应的词性权重向量。在确定与原始日志对应的词性权重向量之后，可以将与原始日志对应的词性向量和与原始日志对应的词性权重向量进行加权处理得到与原始日志对应的加权向量。例如，与原始日志1对应的词性向量为[词性1，词性2，词性3，词性4]，与原始日志1对应的词性权重向量为[词性权重1，词性权重2，词性权重3，词性权重4]，在此情况下，可以确定与原始日志1对应的加权向量为[词性1*词性权重1，词性2*词性权重2，词性3*词性权重3，词性4*词性权重4]。

根据本公开的实施例，由于与原始日志对应的加权向量是通过将与原始日志对应的词性向量和与原始日志对应的词性权重向量进行加权处理得到的，提高了后续利用加权向量进行日志异常检测的准确性。

图5示意性示出了根据本公开实施例的日志异常检测过程的示例示意图。

如图5所示，在500中，响应于接收到日志异常检测指令，可以获取原始日志序列。原始日志序列可以包括包括至少一条原始日志。针对包括至少一条原始日志中的每条原始日志501，可以对原始日志501进行日志模板提取处理，得到日志模板向量502。对日志模板向量502进行词性分析处理，得到词性向量503。

在获得词性向量503之后，可以对词性向量503进行处理，得到第一中间向量504。对第一中间向量504进行处理，得到第二中间向量505。根据第二中间向量505，确定词性权重向量506。

在获得词性权重向量506之后，可以对词性向量503和词性权重向量506进行加权处理，得到加权向量507。

在获得加权向量507之后，可以将加权向量507输入日志异常检测模型508，得到与原始日志501对应的日志异常检测结果509。

以上仅是示例性实施例，但不限于此，还可以包括本领域已知的其他日志异常检测方法，只要能够提高日志异常检测的效率和准确性即可。

图6示意性示出了根据本公开实施例的日志异常检测模型的训练方法的流程图。

如图6所示，该日志异常检测模型的训练方法600包括操作S610～S650。

在操作S610，获取样本原始日志序列，其中，样本原始日志序列包括至少一条样本原始日志，至少一条样本原始日志各自具有标签信息。

在操作S620，对样本原始日志序列进行处理，得到样本词性向量序列，其中，样本词性向量序列包括与至少一条样本原始日志各自对应的样本词性向量。

在操作S630，对样本词性向量序列进行处理，得到样本词性权重向量序列，其中，样本词性权重向量序列包括与至少一条样本原始日志各自对应的样本词性权重向量。

在操作S640，根据样本词性向量序列和样本词性权重向量序列，确定样本加权向量序列，其中，样本加权向量序列包括与至少一条样本原始日志各自对应的样本加权向量。

在操作S650，利用样本加权向量序列和标签信息，训练深度学习模型，得到日志异常检测模型。

根据本公开的实施例，样本原始日志序列可以包括至少一条样本原始日志。例如，样本原始日志序列可以表征为L：[l₁，l₂，l₃，...，l_n]。在获得获取样本原始日志序列之后，可以对样本原始日志序列进行日志模板提取处理处理，得到日志模板向量序列。日志模板向量序列可以包括与至少一条原始日志各自对应的日志模板向量。例如，日志模板向量序列可以表征为T：[t₁，t₂，t₃，…，t_n]。在获得日志模板向量序列之后，可以对日志模板向量序列进行词性分析处理，得到样本词性向量序列。样本词性向量序列可以包括与至少一条样本原始日志各自对应的样本词性向量。例如，与样本原始日志1对应的样本词性向量可以表征为(pos vector)：[NNP，VB，NN，IN，NN，NNP]。

根据本公开的实施例，在获得样本词性向量序列之后，可以基于并行网格搜索算法和并行随机搜索算法对样本词性向量序列进行处理，得到样本词性权重向量序列。样本词性权重向量序列可以包括与至少一条样本原始日志各自对应的样本词性权重向量。例如，与样本原始日志1对应的样本词性权重向量可以表征为w_i：[0.05，0.1，0.025，0.1，0.025，1.0]。

根据本公开的实施例，在获得样本词性权重向量序列之后，可以对与至少一条样本原始日志各自对应的样本词性向量和样本词性权重向量进行加权处理，得到样本加权向量序列。样本加权向量序列可以包括与至少一条样本原始日志各自对应的样本加权向量。例如，与样本原始日志1对应的样本加权向量可以表征为q_i：[NNP*0.05，VB*0.1，NN*0.025，IN*0.1，NN*0.025，NNP*1.0]。

根据本公开的实施例，在获得样本加权向量序列之后，可以将样本加权向量序列输入深度学习模型，输出预测结果序列。预测结果序列可以包括至少一条样本原始日志各自对应的预测结果。

根据本公开的实施例，通过对样本原始日志序列进行处理得到的本加权向量序列训练深度学习模型，使得得到的日志异常检测模型，能够自动实现对日志序列的异常检测，由此提高了日志异常检测的效率和准确性。

下面参考图7A和图7B，对根据本发明实施例的日志异常检测模型的训练方法600做进一步说明。

根据本公开的实施例，操作S650可以包括如下操作。

将至少一条异常样本原始日志和至少一条正常样本原始日志各自的样本加权向量输入深度学习模型，得到至少一条异常样本原始日志和至少一条正常样本原始日志各自的预测类别信息。根据至少一条异常样本原始日志和至少一条正常样本原始日志各自的预测类别信息、至少一条异常样本原始日志和至少一条正常样本原始日志各自的类别标签，得到第一损失函数值。根据第一损失函数值调整深度学习模型的模型参数，直至满足预定结束条件，得到日志异常检测模型。

根据本公开的实施例，至少一条样本原始日志包括至少一条异常样本原始日志和至少一条正常样本原始日志，标签信息包括类别标签。

根据本公开的实施例，可以将至少一条异常样本原始日志各自的样本加权向量输入第一深度学习模型，得到至少一条异常样本原始日志各自的预测类别信息。基于第一损失函数，利用至少一条异常样本原始日志各自的预测类别信息和至少一条异常样本原始日志各自的类别标签，得到第一损失函数值。可以根据第一损失函数值调整第一深度学习模型的模型参数，直至满足预定条件。

根据本公开的实施例，日志异常检测模型可以是利用至少一条异常样本原始日志和所述至少一条正常样本原始日志各自的样本加权向量训练第一深度学习模型得到的。例如，可以将至少一条正常样本原始日志各自的样本加权向量输入第一深度学习模型，得到至少一条正常样本原始日志各自的预测类别信息。基于第一损失函数，利用至少一条正常样本原始日志各自的预测类别信息和至少一条正常样本原始日志各自的类别标签，得到第一损失函数值。可以根据第一损失函数值调整第一深度学习模型的模型参数，直至满足预定条件。第一深度学习模型可以根据实际业务需求进行配置，能够实现针对样本原始日志的异常与否的二分类功能即可，在此不作限定。

例如，可以根据反向传播算法或随机梯度下降算法，调整第一深度学习模型的模型参数，直至满足预定条件。将在满足预定条件的情况下得到的第一深度学习模型确定为日志异常检测模型。预定条件可以包括损失函数值收敛和训练轮次达到最大训练轮次中的至少一项。

根据本公开的实施例，通过利用至少一条异常样本原始日志和至少一条正常样本原始日志各自的样本加权向量，以及至少一条异常样本原始日志和至少一条正常样本原始日志各自的类别标签，来训练第一深度学习模型，得到日志异常检测模型，能够利用模型来识别异常样本原始日志和正常样本原始日志，实现了针对样本原始日志异常与否的二分类，由此提高了日志异常检测的效率。

根据本公开的实施例，操作S650可以包括如下操作。

将至少一条异常样本原始日志各自的样本加权向量输入深度学习模型，得到至少一条异常样本原始日志各自的预测异常类型信息。根据至少一条异常样本原始日志各自的异常类型标签、至少一条异常样本原始日志各自的预测异常类型信息，得到第二损失函数值。根据第二损失函数值调整深度学习模型的模型参数，直至满足预定结束条件，得到日志异常检测模型。

根据本公开的实施例，至少一条样本原始日志包括至少一条异常样本原始日志，标签信息包括异常类型标签。

根据本公开的实施例，日志异常检测模型可以是利用至少一条异常样本原始日志各自的样本加权向量训练第二深度学习模型得到的。例如，可以将至少一条异常样本原始日志各自的样本加权向量输入第二深度学习模型，得到至少一条异常样本原始日志各自的预测异常类型信息。基于第二损失函数，利用至少一条异常样本原始日志各自的预测异常类型信息和至少一条异常样本原始日志各自的异常类型标签，得到第二损失函数值。可以根据第二损失函数值调整第二深度学习模型的模型参数，直至满足预定条件。第二损失函数可以包括以下至少之一：交叉熵损失函数(Cross Entropy Loss)、铰链损失函数(HingeLoss)或指数损失函数(Exponential Loss)等。第二深度学习模型可以根据实际业务需求进行配置，能够实现针对异常样本原始日志的异常类型的多分类功能即可，在此不作限定。

例如，第二深度学习模型可以包括至少一个模型结构。模型结构可以包括至少一个模型子结构和各个模型子结构彼此之间的连接关系。模型结构可以是基于模型子结构之间的连接关系，将至少一个模型子结构进行连接得到的结构。模型结构包括的至少一个模型子结构可以是来自至少一个操作层的结构。例如，模型结构可以是基于模型子结构之间的连接关系，将来自至少一个操作层的至少一个模型子结构进行连接得到的结构。例如，至少一个操作层可以包括以下至少之一：输入层、卷积层、隐藏层、转录层、池化层、反池化层、反卷积层、前馈神经网络层、注意力层、残差层、全连接层、批量归一化层、线性嵌入(即Linear Embedding)层和非线性层等。

例如，可以根据反向传播算法或随机梯度下降算法，调整第一深度学习模型的模型参数，直至满足预定条件。将在满足预定条件的情况下得到的第二深度学习模型确定为日志异常检测模型。预定条件可以包括损失函数值收敛和训练轮次达到最大训练轮次中的至少一项。

根据本公开的实施例，可以利用样本加权向量序列和标签信息，训练第三深度学习模型，得到日志异常检测模型。在此情况下，样本加权向量序列可以包括至少一条异常样本原始日志和至少一条正常样本原始日志各自的样本加权向量，标签信息可以包括类别标签和异常类型标签。第三深度学习模型可以根据实际业务需求进行配置，能够实现针对样本原始日志的异常与否的二分类功能以及针对异常样本原始日志的异常类型的多分类功能即可，在此不作限定。

根据本公开的实施例，通过利用样本加权向量序列和标签信息训练第三深度学习模型，得到日志异常检测模型，实现了利用单一模型来识别样本原始日志的异常与否和异常类型由此，降低了模型部署成本，节省了计算资源。

根据本公开的实施例，通过利用至少一条异常样本原始日志各自的样本加权向量，以及至少一条异常样本原始日志各自的异常类型标签，来训练第二深度学习模型，得到日志异常检测模型，能够利用模型来识别异常样本原始日志的异常类型，实现了针对异常样本原始日志异常类型的多分类，由此提高了日志异常类型检测的效率。

图7A示意性示出了根据本公开实施例的日志异常检测模型的训练过程的示例示意图。

如图7A所示，在700A中，至少一条样本原始日志可以包括至少一条异常样本原始日志和至少一条正常样本原始日志，至少一条异常样本原始日志各自具有类别标签，至少一条正常样本原始日志各自具有类别标签。

可以将异常样本原始日志的样本加权向量701输入深度学习模型705，输出异常样本原始日志的预测类别信息706。基于第一损失函数708，根据异常样本原始日志的类别标签703和异常样本原始日志的预测类别信息706，得到与异常样本原始日志对应的第一损失函数值709。

可以将正常样本原始日志的样本加权向量702输入深度学习模型705，输出正常样本原始日志的预测类别信息707。基于第一损失函数708，根据正常样本原始日志的类别标签704和正常样本原始日志的预测类别信息707，得到与正常样本原始日志对应的第一损失函数值710。

在获得第一损失函数值709和第一损失函数值710之后，可以根据第一损失函数值709和第一损失函数值710调整深度学习模型705的模型参数，直至满足预定结束条件，得到日志异常检测模型。

根据本公开的实施例，日志异常检测模型的训练方法600还可以包括重复执行以下操作，直至日志异常检测模型的性能测试结果满足预定性能条件。

利用验证加权向量序列对日志异常检测模型的模型性能进行测试，得到性能测试结果，其中，验证加权向量序列包括与至少一条样本原始日志各自对应的验证样本加权向量，至少一条验证样本加权向量各自具有标签信息。在确定性能测试结果不满足预定性能条件的情况下，对与日志异常检测模型对应的模型超参数进行调整。基于调整后的模型超参数，利用样本加权向量序列和标签信息重新训练深度学习模型，得到新的日志异常检测模型。

根据本公开的实施例，模型性能可以用模型性能评估值来表征。性能测试结果可以包括模型性能评估值。模型性能评估值可以包括以下至少之一：精准率、召回率、准确率、错误率和F函数值。预定性能条件可以指模型性能评估值大于或等于预定模型性能评估阈值。预定模型性能评估阈值可以根据实际业务需求进行配置，在此不作限定。模型超参数可以包括以下至少之一：学习率和深度学习模型的层数等。

根据本公开的实施例，第二样本加权向量序列可以包括与至少一条第二样本原始日志各自对应的第二样本加权向量。可以基于搜索策略，从与至少一条第二样本原始日志各自对应的第二样本加权向量中确定至少一条第二样本加权向量。根据至少一条第二样本加权向量，确定验证样本加权向量序列。搜索策略可以包括以下之一：完全搜索策略、启发式搜索策略和递归特征消除策略。

根据本公开的实施例，可以利用验证样本加权向量序列对日志异常检测模型的模型性能进行测试，得到性能测试结果。例如，可以利用日志异常检测模型处理日志异常检测模型，得到预测结果。根据预测结果，确定性能测试结果。确定性能测试结果是否满足预定性能条件。在确定性能测试结果满足预定性能条件的情况下，结束针对验证样本加权向量序列的优化操作。在确定性能测试结果不满足预定性能条件的情况下，可以基于搜索策略，从从与至少一条第二样本原始日志各自对应的第二样本加权向量中确定至少一条第二样本加权向量。根据至少一条第二样本加权向量，确定新的验证样本加权向量序列。利用新的验证样本加权向量序列对日志异常检测模型的模型性能进行测试，得到性能测试结果。重复执行上述操作，直至性能测试结果满足预定性能条件。

根据本公开的实施例，通过重复执行利用验证样本加权向量序列对日志异常检测模型的模型性能进行测试，得到性能测试结果。在确定性能测试结果不满足预定性能条件的情况下，对与日志异常检测模型对应的模型超参数进行调整，直至日志异常检测模型的性能测试结果满足预定性能条件，由此提高了日志异常检测模型的日志异常检测结果的准确性。

图7B示意性示出了根据本公开实施例的日志异常检测模型的训练过程的示例示意图。

如图7B所示，在700B中，至少一条样本原始日志包括至少一条异常样本原始日志，至少一条异常样本原始日志各自具有异常类型标签。

可以将异常样本原始日志的样本加权向量711输入深度学习模型713，输出异常样本原始日志的预测异常类型信息714。基于第二损失函数715，根据异常样本原始日志的异常类型标签712和异常样本原始日志的预测异常类型信息714，得到与异常样本原始日志对应的第二损失函数值715。

在获得第二损失函数值715之后，可以根据第二损失函数值715调整深度学习模型713的模型参数，直至满足预定结束条件，得到日志异常检测模型。

以上仅是示例性实施例，但不限于此，还可以包括本领域已知的其他日志异常检测模型的训练方法，只要能够提高日志异常检测模型的日志异常检测结果的准确性即可。

图8示意性示出了根据本公开的实施例的日志异常检测装置的框图。

如图8所示，日志异常检测装置800可以包括第一处理模块810、第二处理模块820、第一确定模块830和输入模块840。

第一处理模块810，用于响应于接收到日志异常检测指令，对日志异常检测指令指示的原始日志序列进行处理，得到词性向量序列，其中，原始日志序列包括至少一条原始日志，词性向量序列包括与至少一条原始日志各自对应的至少一条词性向量。

第二处理模块820，用于对词性向量序列进行处理，得到词性权重向量序列，其中，词性权重向量序列包括与至少一条原始日志各自对应的词性权重向量。

第一确定模块830，用于根据词性向量序列和词性权重向量序列，确定加权向量序列，其中，加权向量序列包括与至少一条原始日志各自对应的加权向量。

输入模块840，用于将加权向量序列输入日志异常检测模型，得到与至少一条原始日志各自对应的日志异常检测结果。

根据本公开的实施例，第二处理模块820可以包括第一处理子模块、第二处理子模块和第一确定子模块。

第一处理子模块，用于对词性向量序列进行处理，得到第一中间向量序列，其中，第一中间向量序列包括与至少一条原始日志各自对应的第一中间向量。

第二处理子模块，用于对第一中间向量序列进行处理，得到第二中间向量序列，其中，第二中间向量序列包括与至少一条原始日志各自对应的第二中间向量。

第一确定子模块，用于根据第二中间向量序列，确定词性权重向量序列。

根据本公开的实施例，第一处理子模块可以包括第一处理单元和第一确定单元。

第一处理单元，用于调用M个第一搜索线程中的N个第一搜索线程，对词性向量序列进行并行处理，得到与N个第一搜索线程各自对应的候选第一中间向量序列，其中，M为大于或等于2的整数，N为正整数，且N小于或等于M。

第一确定单元，用于根据与N个第一搜索线程各自对应的候选第一中间向量序列，确定第一中间向量序列。

根据本公开的实施例，第一处理单元可以包括第一确定子单元和第一处理子单元。

第一确定子单元，用于确定N个第一搜索线程各自的搜索范围参数和搜索步长参数。

第一处理子单元，用于调用N个第一搜索线程，根据N个第一搜索线程各自的搜索范围参数和搜索步长参数，对词性向量序列进行并行处理，得到与N个第一搜索线程各自对应的候选第一中间向量序列。

根据本公开的实施例，第一确定单元可以包括第二确定子单元和第三确定子单元。

针对至少一条原始日志中的每条原始日志，

第二确定子单元，用于根据与N个第一搜索线程各自对应的候选第一中间向量序列，确定与原始日志对应的N个候选第一中间向量。

第三确定子单元，用于根据与原始日志对应的N个候选第一中间向量，确定与原始日志对应的L个第一中间向量，其中，L为正整数，且L小于或等于N。

根据本公开的实施例，第二处理子模块可以包括第二处理单元和第二确定单元。

第二处理单元，用于调用Y个第二搜索线程中的Z个第二搜索线程，对与至少一条原始日志各自对应的第一中间向量进行并行处理，得到与Z个第二搜索线程各自对应的候选第二中间向量，其中，Y为大于或等于2的整数，Z为正整数，且Z小于或等于Y。

第二确定单元，用于根据与Z个第二搜索线程各自对应的候选第二中间向量，确定第二中间向量序列。

根据本公开的实施例，第二处理单元可以包括第四确定子单元、第五确定子单元和第二处理子单元。

第四确定子单元，用于从与至少一条原始日志各自对应的第一中间向量中确定目标第一中间向量。

第五确定子单元，用于从Z个第二搜索线程中确定目标第二搜索线程。

第二处理子单元，用于调用目标第二搜索线程，对目标第一中间向量进行处理，得到与目标第二搜索线程对应的候选第二中间向量。

根据本公开的实施例，第二确定单元可以包括替换子单元和删除子单元。

替换子单元，用于在候选第二中间向量和与候选第二中间向量对应的第一中间向量满足预设条件的情况下，将第一中间向量序列中的第一中间向量替换为候选第二中间向量。

删除子单元，用于在候选第二中间向量和与候选第二中间向量对应的第一中间向量未满足预设条件的情况下，删除第一中间向量序列中的第一中间向量。

根据本公开的实施例，第一确定子模块可以包括第三确定单元和第四确定单元。

针对至少一条原始日志中的每条原始日志，

第三确定单元，用于根据与原始日志对应的第二中间向量，确定目标第二中间向量。

第四确定单元，用于将目标第二中间向量确定为与原始日志对应的词性权重向量。

根据本公开的实施例，第一处理模块810可以包括第三处理子模块和第四处理子模块。

第三处理子模块，用于对至少一条原始日志中的每条原始日志分别进行日志模板提取处理，得到与至少一条原始日志各自对应的日志模板向量。

第四处理子模块，用于对与至少一条原始日志各自对应的日志模板向量分别进行词性分析处理，得到与至少一条原始日志各自对应的词性向量。

根据本公开的实施例，第一确定模块830可以包括第二确定子模块和第五处理子模块。

针对至少一条原始日志中的每条原始日志，

第二确定子模块，用于确定与原始日志对应的词性向量和与原始日志对应的词性权重向量。

第五处理子模块，用于将与原始日志对应的词性向量和与原始日志对应的词性权重向量进行加权处理，得到与原始日志对应的加权向量。

图9示意性示出了根据本公开的实施例的日志异常检测模型的训练装置的框图。

如图9所示，日志异常检测模型的训练装置900可以包括获取模块910、第三处理模块920、第四处理模块930、第二确定模块940和第一训练模块950。

获取模块910，用于获取样本原始日志序列，其中，样本原始日志序列包括至少一条样本原始日志，至少一条样本原始日志各自具有标签信息。

第三处理模块920，用于对样本原始日志序列进行处理，得到样本词性向量序列，其中，样本词性向量序列包括与至少一条样本原始日志各自对应的样本词性向量。

第四处理模块930，用于对样本词性向量序列进行处理，得到样本词性权重向量序列，其中，样本词性权重向量序列包括与至少一条样本原始日志各自对应的样本词性权重向量。

第二确定模块940，用于根据样本词性向量序列和样本词性权重向量序列，确定样本加权向量序列，其中，样本加权向量序列包括与至少一条样本原始日志各自对应的样本加权向量。

第一训练模块950，用于利用样本加权向量序列和标签信息，训练深度学习模型，得到日志异常检测模型。

根据本公开的实施例，第一训练模块950可以包括第一获得子模块、第二获得子模块和第一调整子模块。

第一获得子模块，用于将至少一条异常样本原始日志和至少一条正常样本原始日志各自的样本加权向量输入深度学习模型，得到至少一条异常样本原始日志和至少一条正常样本原始日志各自的预测类别信息；

第二获得子模块，用于根据至少一条异常样本原始日志和至少一条正常样本原始日志各自的预测类别信息、至少一条异常样本原始日志和至少一条正常样本原始日志各自的类别标签，得到第一损失函数值；以及

第一调整子模块，用于根据第一损失函数值调整深度学习模型的模型参数，直至满足预定结束条件，得到日志异常检测模型。

根据本公开的实施例，第一训练模块950可以包括第三获得子模块、第四获得子模块和第二调整子模块。

第三获得子模块，用于将至少一条异常样本原始日志各自的样本加权向量输入深度学习模型，得到至少一条异常样本原始日志各自的预测异常类型信息。

第四获得子模块，用于根据至少一条异常样本原始日志各自的异常类型标签、至少一条异常样本原始日志各自的预测异常类型信息，得到第二损失函数值。

第二调整子模块，用于根据第二损失函数值调整深度学习模型的模型参数，直至满足预定结束条件，得到日志异常检测模型。

根据本公开的实施例，日志异常检测模型的训练装置900还可以包括测试模块、调整模块和第二训练模块。

测试模块，用于利用验证加权向量序列对日志异常检测模型的模型性能进行测试，得到性能测试结果，其中，验证加权向量序列包括与至少一条样本原始日志各自对应的验证样本加权向量，至少一条验证样本加权向量各自具有标签信息。

调整模块，用于在确定性能测试结果不满足预定性能条件的情况下，对与日志异常检测模型对应的模型超参数进行调整。

第二训练模块，用于基于调整后的模型超参数，利用样本加权向量序列和标签信息重新训练深度学习模型，得到新的日志异常检测模型。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，第一处理模块810、第二处理模块820、第一确定模块830、输入模块840中的任意多个可以合并在一个模块/单元/子单元中实现，或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者，这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合，并在一个模块/单元/子单元中实现。根据本公开的实施例，第一处理模块810、第二处理模块820、第一确定模块830、输入模块840中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，第一处理模块810、第二处理模块820、第一确定模块830、输入模块840中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

需要说明的是，本公开的实施例中日志异常检测装置部分与本公开的实施例中日志异常检测方法部分是相对应的，日志异常检测装置部分的描述具体参考日志异常检测方法部分，在此不再赘述。

例如，获取模块910、第三处理模块920、第四处理模块930、第二确定模块940和第一训练模块950中的任意多个可以合并在一个模块/单元/子单元中实现，或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者，这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合，并在一个模块/单元/子单元中实现。根据本公开的实施例，获取模块910、第三处理模块920、第四处理模块930、第二确定模块940和第一训练模块950中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，获取模块910、第三处理模块920、第四处理模块930、第二确定模块940和第一训练模块950中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

需要说明的是，本公开的实施例中日志异常检测模型的训练装置部分与本公开的实施例中日志异常检测模型的训练方法部分是相对应的，日志异常检测模型的训练装置部分的描述具体参考日志异常检测模型的训练方法部分，在此不再赘述。

图10示意性示出了根据本公开实施例的适于实现日志异常检测方法、日志异常检测模型的训练方法的电子设备的框图。图10示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，根据本公开实施例的计算机电子设备1000包括处理器1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1009加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。处理器1001例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器1001还可以包括用于缓存用途的板载存储器。处理器1001可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1003中，存储有电子设备1000操作所需的各种程序和数据。处理器1001、ROM 1002以及RAM 1003通过总线1004彼此相连。处理器1001通过执行ROM 1002和/或RAM1003中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 1002和RAM 1003以外的一个或多个存储器中。处理器1001也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备1000还可以包括输入/输出(I/O)接口1005，输入/输出(I/O)接口1005也连接至总线1004。电子设备1000还可以包括连接至I/O接口1005的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分10010经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被处理器1001执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 1002和/或RAM 1003和/或ROM 1002和RAM 1003以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行本公开实施例所提供的方法的程序代码，当计算机程序产品在电子设备上运行时，该程序代码用于使电子设备实现本公开实施例所提供的日志异常检测方法、日志异常检测模型的训练方法。

在该计算机程序被处理器1001执行时，执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分1009被下载和安装，和/或从可拆卸介质1011被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种日志异常检测方法，包括：

响应于接收到日志异常检测指令，对所述日志异常检测指令指示的原始日志序列进行处理，得到词性向量序列，其中，所述原始日志序列包括至少一条原始日志，所述词性向量序列包括与所述至少一条原始日志各自对应的词性向量；

对所述词性向量序列进行处理，得到词性权重向量序列，其中，所述词性权重向量序列包括与所述至少一条原始日志各自对应的词性权重向量；

根据所述词性向量序列和所述词性权重向量序列，确定加权向量序列，其中，所述加权向量序列包括与所述至少一条原始日志各自对应的加权向量；以及

将所述加权向量序列输入日志异常检测模型，得到与所述至少一条原始日志各自对应的日志异常检测结果。

2.根据权利要求1所述的方法，其中，所述对所述词性向量序列进行处理，得到词性权重向量序列包括：

对所述词性向量序列进行处理，得到第一中间向量序列，其中，所述第一中间向量序列包括与所述至少一条原始日志各自对应的第一中间向量；

对所述第一中间向量序列进行处理，得到第二中间向量序列，其中，所述第二中间向量序列包括与所述至少一条原始日志各自对应的第二中间向量；以及

根据所述第二中间向量序列，确定所述词性权重向量序列。

3.根据权利要求2所述的方法，其中，所述对所述词性向量序列进行处理，得到第一中间向量序列包括：

调用M个第一搜索线程中的N个第一搜索线程，对所述词性向量序列进行并行处理，得到与所述N个第一搜索线程各自对应的候选第一中间向量序列，其中，M为大于或等于2的整数，N为正整数，且N小于或等于M；以及

根据与所述N个第一搜索线程各自对应的候选第一中间向量序列，确定所述第一中间向量序列。

4.根据权利要求3所述的方法，其中，所述调用所述M个第一搜索线程中的N个第一搜索线程，对所述词性向量序列进行并行处理，得到与所述N个第一搜索线程各自对应的候选第一中间向量序列包括：

确定所述N个第一搜索线程各自的搜索范围参数和搜索步长参数；以及

调用所述N个第一搜索线程，根据所述N个第一搜索线程各自的所述搜索范围参数和所述搜索步长参数，对所述词性向量序列进行并行处理，得到与所述N个第一搜索线程各自对应的候选第一中间向量序列。

5.根据权利要求3或4所述的方法，其中，所述候选第一中间向量序列包括与所述至少一条原始日志各自对应的候选第一中间向量；

其中，所述根据与所述N个第一搜索线程各自对应的候选第一中间向量序列，确定所述第一中间向量序列包括：

针对所述至少一条原始日志中的每条原始日志，

根据与所述N个第一搜索线程各自对应的候选第一中间向量序列，确定与所述原始日志对应的N个候选第一中间向量；以及

根据与所述原始日志对应的N个候选第一中间向量，确定与所述原始日志对应的L个第一中间向量，其中，L为正整数，且L小于或等于N。

6.根据权利要求2所述的方法，其中，所述对所述第一中间向量序列进行处理，得到第二中间向量序列包括：

调用Y个第二搜索线程中的Z个第二搜索线程，对与所述至少一条原始日志各自对应的第一中间向量进行并行处理，得到与所述Z个第二搜索线程各自对应的候选第二中间向量，其中，Y为大于或等于2的整数，Z为正整数，且Z小于或等于Y；以及

根据与所述Z个第二搜索线程各自对应的候选第二中间向量，确定所述第二中间向量序列。

7.根据权利要求6所述的方法，其中，所述调用所述Y个第二搜索线程中的Z个第二搜索线程，对与所述至少一条原始日志各自对应的第一中间向量进行并行处理，得到与所述Z个第二搜索线程各自对应的候选第二中间向量包括：

从与所述至少一条原始日志各自对应的第一中间向量中确定目标第一中间向量；

从所述Z个第二搜索线程中确定目标第二搜索线程；以及

调用所述目标第二搜索线程，对所述目标第一中间向量进行处理，得到与所述目标第二搜索线程对应的所述候选第二中间向量。

8.根据权利要求6或7所述的方法，其中，所述根据与所述Z个第二搜索线程各自对应的候选第二中间向量，确定所述第二中间向量序列包括：

在所述候选第二中间向量和与所述候选第二中间向量对应的第一中间向量满足预设条件的情况下，将所述第一中间向量序列中的所述第一中间向量替换为所述候选第二中间向量；以及

在所述候选第二中间向量和与所述候选第二中间向量对应的第一中间向量未满足预设条件的情况下，删除所述第一中间向量序列中的所述第一中间向量。

9.根据权利要求2所述的方法，其中，所述根据所述第二中间向量序列，确定所述词性权重向量序列包括：

针对所述至少一条原始日志中的每条原始日志，

根据与所述原始日志对应的第二中间向量，确定目标第二中间向量；以及

将所述目标第二中间向量确定为与所述原始日志对应的词性权重向量。

10.根据权利要求1所述的方法，其中，所述响应于接收到日志异常检测指令，对所述日志异常检测指令指示的原始日志序列进行处理，得到词性向量序列包括：

对所述至少一条原始日志中的每条原始日志分别进行日志模板提取处理，得到与所述至少一条原始日志各自对应的日志模板向量；以及

对与所述至少一条原始日志各自对应的日志模板向量分别进行词性分析处理，得到与所述至少一条原始日志各自对应的词性向量。

11.根据权利要求1所述的方法，其中，所述根据所述词性向量序列和所述词性权重向量序列，确定加权向量序列包括：

针对所述至少一条原始日志中的每条原始日志，

确定与所述原始日志对应的词性向量和与所述原始日志对应的词性权重向量；以及

将与所述原始日志对应的词性向量和与所述原始日志对应的词性权重向量进行加权处理，得到与所述原始日志对应的加权向量。

12.一种日志异常检测模型的训练方法，包括：

获取样本原始日志序列，其中，所述样本原始日志序列包括至少一条样本原始日志，所述至少一条样本原始日志各自具有标签信息；

对所述样本原始日志序列进行处理，得到样本词性向量序列，其中，所述样本词性向量序列包括与所述至少一条样本原始日志各自对应的样本词性向量；

对所述样本词性向量序列进行处理，得到样本词性权重向量序列，其中，所述样本词性权重向量序列包括与所述至少一条样本原始日志各自对应的样本词性权重向量；

根据所述样本词性向量序列和所述样本词性权重向量序列，确定样本加权向量序列，其中，所述样本加权向量序列包括与所述至少一条样本原始日志各自对应的样本加权向量；以及

利用所述样本加权向量序列和所述标签信息，训练深度学习模型，得到日志异常检测模型。

13.根据权利要求12所述的方法，其中，所述至少一条样本原始日志包括至少一条异常样本原始日志和至少一条正常样本原始日志，所述标签信息包括类别标签；

其中，所述利用所述样本加权向量序列和所述标签信息，训练深度学习模型，得到日志异常检测模型包括：

将所述至少一条异常样本原始日志和所述至少一条正常样本原始日志各自的样本加权向量输入所述深度学习模型，得到所述至少一条异常样本原始日志和所述至少一条正常样本原始日志各自的预测类别信息；

根据所述至少一条异常样本原始日志和所述至少一条正常样本原始日志各自的预测类别信息、所述至少一条异常样本原始日志和所述至少一条正常样本原始日志各自的类别标签，得到第一损失函数值；以及

根据所述第一损失函数值调整所述深度学习模型的模型参数，直至满足预定结束条件，得到所述日志异常检测模型。

14.根据权利要求12所述的方法，其中，所述至少一条样本原始日志包括至少一条异常样本原始日志，所述标签信息包括异常类型标签；

将所述至少一条异常样本原始日志各自的样本加权向量输入所述深度学习模型，得到所述至少一条异常样本原始日志各自的预测异常类型信息；

根据所述至少一条异常样本原始日志各自的异常类型标签、所述至少一条异常样本原始日志各自的预测异常类型信息，得到第二损失函数值；以及

根据所述第二损失函数值调整所述深度学习模型的模型参数，直至满足预定结束条件，得到所述日志异常检测模型。

15.根据权利要求12至14中任一项所述的方法，还包括重复执行以下操作，直至所述日志异常检测模型的性能测试结果满足预定性能条件：

利用验证加权向量序列对所述日志异常检测模型的模型性能进行测试，得到所述性能测试结果，其中，所述验证加权向量序列包括与所述至少一条样本原始日志各自对应的验证样本加权向量，所述至少一条验证样本加权向量各自具有所述标签信息；

在确定所述性能测试结果不满足所述预定性能条件的情况下，对与所述日志异常检测模型对应的模型超参数进行调整；以及

基于调整后的模型超参数，利用所述样本加权向量序列和所述标签信息重新训练所述深度学习模型，得到新的日志异常检测模型。

16.一种日志异常检测装置，包括：

第一处理模块，用于响应于接收到日志异常检测指令，对所述日志异常检测指令指示的原始日志序列进行处理，得到词性向量序列，其中，所述原始日志序列包括至少一条原始日志，所述词性向量序列包括与所述至少一条原始日志各自对应的至少一条词性向量；

第二处理模块，用于对所述词性向量序列进行处理，得到词性权重向量序列，其中，所述词性权重向量序列包括与所述至少一条原始日志各自对应的词性权重向量；

第一确定模块，用于根据所述词性向量序列和所述词性权重向量序列，确定加权向量序列，其中，所述加权向量序列包括与所述至少一条原始日志各自对应的加权向量；以及

输入模块，用于将所述加权向量序列输入日志异常检测模型，得到与所述至少一条原始日志各自对应的日志异常检测结果。

17.一种日志异常检测模型的训练装置，包括：

获取模块，用于获取样本原始日志序列，其中，所述样本原始日志序列包括至少一条样本原始日志，所述至少一条样本原始日志各自具有标签信息；

第三处理模块，用于对所述样本原始日志序列进行处理，得到样本词性向量序列，其中，所述样本词性向量序列包括与所述至少一条样本原始日志各自对应的样本词性向量；

第四处理模块，用于对所述样本词性向量序列进行处理，得到样本词性权重向量序列，其中，所述样本词性权重向量序列包括与所述至少一条样本原始日志各自对应的样本词性权重向量；

第二确定模块，用于根据所述样本词性向量序列和所述样本词性权重向量序列，确定样本加权向量序列，其中，所述样本加权向量序列包括与所述至少一条样本原始日志各自对应的样本加权向量；以及

第一训练模块，用于利用所述样本加权向量序列和所述标签信息，训练深度学习模型，得到日志异常检测模型。

18.一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个指令，

其中，当所述一个或多个指令被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至11或权利要求12至15中任一项所述的方法。

19.一种计算机可读存储介质，其上存储有可执行指令，所述可执行指令被处理器执行时使处理器实现权利要求1至11或权利要求12至15中任一项所述的方法。

20.一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，所述计算机可执行指令在被执行时用于实现权利要求1至11或权利要求12至15中任一项所述的方法。