CN114328106A - 日志数据处理方法、装置、设备及存储介质 - Google Patents

日志数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114328106A
CN114328106A CN202111622151.7A CN202111622151A CN114328106A CN 114328106 A CN114328106 A CN 114328106A CN 202111622151 A CN202111622151 A CN 202111622151A CN 114328106 A CN114328106 A CN 114328106A
Authority
CN
China
Prior art keywords
log
category
log data
sequence
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111622151.7A
Other languages
English (en)
Inventor
薛强
陈孝委
吴学含
李贵斌
李家伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Cloud Technology Co Ltd
Original Assignee
Tianyi Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi Cloud Technology Co Ltd filed Critical Tianyi Cloud Technology Co Ltd
Priority to CN202111622151.7A priority Critical patent/CN114328106A/zh
Publication of CN114328106A publication Critical patent/CN114328106A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本公开提供一种日志数据处理方法、装置、电子设备及存储介质,涉及运维技术领域。该方法包括:获取通过对第一日志数据按照目标频率词进行聚类处理获得的日志键及其对应的类别标识;根据日志键及其对应的类别标识获得包括第一日志类别标识和第二日志类别标识的待处理日志数据的日志类别序列,在待处理日志数据的日志类别序列中第一日志类别标识排在第二日志类别标识之前;通过目标深度学习模型对待处理日志数据的日志类别序列进行处理,获得第一日志类别标识的预测后序日志类别标识;将第二日志类别标识与预测后序日志类别标识进行比较,以检测第二日志类别标识对应的日志数据是否异常。该方法实现了高效检测日志数据的异常。

Description

日志数据处理方法、装置、设备及存储介质
技术领域
本公开涉及运维技术领域,具体而言,涉及一种日志数据处理方法、装置、电子设备及可读存储介质。
背景技术
运维工作是对网络、服务器和软件的运营与维护,能够降低故障发生率,提升设备工作效率。传统的运维工作大部分是由运维人员手工完成的。随着互联网业务地快速扩张和人力成本地不断增加,这种手工运维的生产方式难以跟上时代的脚步。
存储系统是云计算产品的基础,需要具备海量文件存取及大规模并发访问的能力,同时兼顾稳定性、可靠性、硬件容错等要求。运维是保证稳定性最直接有效的方法,但是由于存储系统拥有动辄几百台主机,上千台物理存储节点,一个中型的存储系统就拥有海量的日志、指标数据,单靠运维人员手动对存储系统进行维护会耗费大量的人力资源。
系统日志记录着系统的状态和各种重要的事件,能够帮助运维人员进行性能的调试和故障的定位,并进行根因分析。合理地利用系统日志,能够对系统进行有效的在线监视和异常检测。
如上所述,如何对日志数据进行处理以对系统进行异常检测成为亟待解决的问题。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种日志数据处理方法、装置、电子设备及可读存储介质,以对系统进行异常检测。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一方面,提供一种日志数据处理方法,包括:获取日志键及其对应的类别标识,所述日志键通过对第一日志数据按照目标频率词进行聚类处理获得;根据所述日志键及其对应的类别标识获得待处理日志数据的日志类别序列,所述待处理日志数据的日志类别序列包括第一日志类别标识和第二日志类别标识,在所述待处理日志数据的日志类别序列中所述第一日志类别标识排在所述第二日志类别标识之前;通过目标深度学习模型对所述待处理日志数据的日志类别序列进行处理,获得所述第一日志类别标识的预测后序日志类别标识;将所述第二日志类别标识与所述预测后序日志类别标识进行比较,以检测所述第二日志类别标识对应的日志数据是否异常。
根据本公开的一实施例,所述日志键通过对第一日志数据按照目标频率词进行聚类处理获得,包括:将所述第一日志数据划分为多条日志数据,所述第一日志数据包括所述待处理日志数据;将所述第一日志数据的多条日志数据中包括相同的目标频率词的单条日志数据聚为同一类,获得各类日志数据中相同的目标频率词为所述日志键;对所述各类日志数据的日志类别进行编号,获得所述日志键对应的类别标识。
根据本公开的一实施例,所述方法还包括:统计所述第一日志数据中多个词各自出现的频率;获取多个从小到大依次排列的第二预设频率阈值;从多个所述第二预设频率阈值中确定所述第一预设频率阈值,以使若将所述第一日志数据中出现的频率高于第一预设频率阈值的词作为所述目标频率词,则将所述第一日志数据的多条日志数据按照所述目标频率词进行聚类获得的日志类别的数量在预设范围内。
根据本公开的一实施例,根据所述日志键及其对应的类别标识获得待处理日志数据的日志类别序列,包括:将所述待处理日志数据按照线程标识划分为多条日志数据;将所述待处理日志数据的各条日志数据与所述日志键进行匹配,获得所述待处理日志数据的各条日志数据对应的类别标识;根据所述线程标识将所述各条日志数据对应的类别标识按照时间先后顺序进行排序,获得所述待处理日志数据的日志类别序列;通过目标深度学习模型对所述待处理日志数据的日志类别序列进行处理,包括:利用随机数生成方法获得目标序列长度;按照所述目标序列长度将所述待处理日志数据的日志类别序列划分为多个待处理日志会话,所述待处理日志会话包括所述第一日志类别标识和所述第二日志类别标识,所述第一日志类别标识为包括多个日志类别标识的第一日志类别标识序列;将所述第一日志类别标识序列输入所述目标深度学习模型,通过所述目标深度学习模型对所述第一日志类别标识序列的后序日志类别标识进行预测。
根据本公开的一实施例,所述目标深度学习模型包括目标变换器网络和目标全连接层,所述目标变换器网络包括词嵌入层、编码器和解码器;
将所述第一日志类别标识序列输入所述目标深度学习模型,通过所述目标深度学习模型对所述第一日志类别标识序列的后序日志类别标识进行预测,包括:将所述第一日志类别标识序列输入所述目标变换器网络,通过所述词嵌入层获得所述第一日志类别标识序列的词向量;对第一日志类别标识序列的词向量进行位置编码,获得编码器输入向量;将所述编码器输入向量依次通过所述编码器和所述解码器进行编码和解码处理,获得解码器输出向量;将所述解码器输出向量通过所述目标全连接层后进行归一化,获得后序日志类别标识的预测权重向量。
根据本公开的一实施例,所述第一日志数据包括非异常日志数据;所述方法还包括:利用所述非异常日志数据对初始深度学习模型进行预训练,获得预训练后的深度学习模型;利用所述非异常日志数据对所述预训练后的深度学习模型进行微调,获得所述目标深度学习模型。
根据本公开的一实施例,所述初始深度学习模型包括初始变换器网络和初始全连接层;所述预训练后的深度学习模型包括预训练后的变换器网络和所述初始全连接层;利用所述非异常日志数据对初始深度学习模型进行预训练,包括:基于所述非异常日志数据通过所述初始变换器网络进行掩码预测和相邻关系预测,并根据掩码预测结果和相邻关系预测结果更新所述初始变换器网络,获得所述预训练后的变换器网络;利用所述非异常日志数据对所述预训练后的深度学习模型进行微调,获得所述目标深度学习模型,包括:根据所述日志键及其对应的类别标识获得所述非异常日志数据的日志类别序列;从所述非异常日志数据的日志类别序列中获得训练日志会话,所述训练日志会话包括第一日志类别标识和第二日志类别标识;将所述训练日志会话的第一日志类别标识序列输入所述预训练后的深度学习模型,通过所述预训练后的深度学习模型对所述训练日志会话的第一日志类别标识序列的后序日志类别标识进行预测,获得所述训练日志会话的预测后序日志类别标识;将所述训练日志会话的第二日志类别标识作为标签,基于所述训练日志会话的预测后序日志类别标识根据归一化的交叉熵损失函数更新所述预训练后的深度学习模型,获得所述目标深度学习模型。
根据本公开的再一方面,提供一种日志数据处理装置,包括:获取模块,用于获取日志键及其对应的类别标识,所述日志键通过对第一日志数据按照目标频率词进行聚类处理获得;获得模块,用于根据所述日志键及其对应的类别标识获得待处理日志数据的日志类别序列,所述待处理日志数据的日志类别序列包括第一日志类别标识和第二日志类别标识,在所述待处理日志数据的日志类别序列中所述第一日志类别标识排在所述第二日志类别标识之前;处理模块,用于通过目标深度学习模型对所述待处理日志数据的日志类别序列进行处理,获得所述第一日志类别标识的预测后序日志类别标识;检测模块,用于将所述第二日志类别标识与所述预测后序日志类别标识进行比较,以检测所述第二日志类别标识对应的日志数据是否异常。
根据本公开的一实施例,所述获得模块,还用于:将所述第一日志数据划分为多条日志数据,所述第一日志数据包括所述待处理日志数据;将所述第一日志数据的多条日志数据中包括相同的目标频率词的单条日志数据聚为同一类,获得各类日志数据中相同的目标频率词为所述日志键;对所述各类日志数据的日志类别进行编号,获得所述日志键对应的类别标识。
根据本公开的一实施例,所述获得模块,还用于:统计所述第一日志数据中多个词各自出现的频率;获取多个从小到大依次排列的第二预设频率阈值;从多个所述第二预设频率阈值中确定所述第一预设频率阈值,以使若将所述第一日志数据中出现的频率高于第一预设频率阈值的词作为所述目标频率词,则将所述第一日志数据的多条日志数据按照所述目标频率词进行聚类获得的日志类别的数量在预设范围内。
根据本公开的一实施例,所述获得模块,还用于:将所述待处理日志数据按照线程标识划分为多条日志数据;将所述待处理日志数据的各条日志数据与所述日志键进行匹配,获得所述待处理日志数据的各条日志数据对应的类别标识;根据所述线程标识将所述各条日志数据对应的类别标识按照时间先后顺序进行排序,获得所述待处理日志数据的日志类别序列;所述处理模块,还用于:利用随机数生成方法获得目标序列长度;按照所述目标序列长度将所述待处理日志数据的日志类别序列划分为多个待处理日志会话,所述待处理日志会话包括所述第一日志类别标识和所述第二日志类别标识,所述第一日志类别标识为包括多个日志类别标识的第一日志类别标识序列;将所述第一日志类别标识序列输入所述目标深度学习模型,通过所述目标深度学习模型对所述第一日志类别标识序列的后序日志类别标识进行预测。
根据本公开的一实施例,所述目标深度学习模型包括目标变换器网络和目标全连接层,所述目标变换器网络包括词嵌入层、编码器和解码器;所述处理模块,还用于:将所述第一日志类别标识序列输入所述目标变换器网络,通过所述词嵌入层获得所述第一日志类别标识序列的词向量;对第一日志类别标识序列的词向量进行位置编码,获得编码器输入向量;将所述编码器输入向量依次通过所述编码器和所述解码器进行编码和解码处理,获得解码器输出向量;将所述解码器输出向量通过所述目标全连接层后进行归一化,获得后序日志类别标识的预测权重向量。
根据本公开的一实施例,所述第一日志数据包括非异常日志数据;所述装置还包括:训练模块,用于利用所述非异常日志数据对初始深度学习模型进行预训练,获得预训练后的深度学习模型;利用所述非异常日志数据对所述预训练后的深度学习模型进行微调,获得所述目标深度学习模型。
根据本公开的一实施例,所述初始深度学习模型包括初始变换器网络和初始全连接层;所述预训练后的深度学习模型包括预训练后的变换器网络和所述初始全连接层;所述训练模块,还用于:基于所述非异常日志数据通过所述初始变换器网络进行掩码预测和相邻关系预测,并根据掩码预测结果和相邻关系预测结果更新所述初始变换器网络,获得所述预训练后的变换器网络;根据所述日志键及其对应的类别标识获得所述非异常日志数据的日志类别序列;从所述非异常日志数据的日志类别序列中获得训练日志会话,所述训练日志会话包括第一日志类别标识和第二日志类别标识;将所述训练日志会话的第一日志类别标识序列输入所述预训练后的深度学习模型,通过所述预训练后的深度学习模型对所述训练日志会话的第一日志类别标识序列的后序日志类别标识进行预测,获得所述训练日志会话的预测后序日志类别标识;将所述训练日志会话的第二日志类别标识作为标签,基于所述训练日志会话的预测后序日志类别标识根据归一化的交叉熵损失函数更新所述预训练后的深度学习模型,获得所述目标深度学习模型。
根据本公开的再一方面,提供一种电子设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,所述处理器执行所述可执行指令时实现如上述任一种方法。
根据本公开的再一方面,提供一种计算机可读存储介质,其上存储有计算机可执行指令,所述可执行指令被处理器执行时实现如上述任一种方法。
本公开的实施例提供的日志数据处理方法,通过对第一日志数据按照目标频率词进行聚类处理获得日志键,然后根据日志键及其对应的类别标识获得包括依次排列的第一日志类别标识和第二日志类别标识待处理日志数据的日志类别序列,通过目标深度学习模型对待处理日志数据的日志类别序列进行处理,获得第一日志类别标识的预测后序日志类别标识,再将第二日志类别标识与预测后序日志类别标识进行比较,以检测第二日志类别标识对应的日志数据是否异常,从而可实现高效检测日志数据的异常,进而对系统进行有效的在线监视和异常检测。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。
图1示出本公开实施例中一种系统结构的示意图。
图2示出本公开实施例中一种日志数据处理方法的流程图。
图3示出了图2中所示的步骤S202在一实施例中的处理过程示意图。
图4根据图2示出了在一实施例中目标频率词的获得方法的流程示意图。
图5示出了图2中所示的步骤S204和步骤S206在一实施例中的处理过程示意图。
图6示出了图5中所示的步骤S512在一实施例中的处理过程示意图。
图7是根据图2和图6示出的一种变换器网络结构示意图。
图8是根据图2和图6示出的一种通过深度学习模型进行日志异常检测的实现示意图。
图9根据图6至图8示出了在一实施例中深度学习模型的获得训练的流程示意图。
图10示出本公开实施例中一种日志数据处理装置的框图。
图11示出本公开实施例中另一种日志数据处理装置的框图。
图12示出本公开实施例中一种电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施例使得本公开将更加全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。符号“/”一般表示前后关联对象是一种“或”的关系。
在本公开中,除非另有明确的规定和限定,“连接”等术语应做广义理解,例如,可以是电连接或可以互相通讯;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开中的具体含义。
一些相关技术中采用主成分分析(Principle Component Analysis,PCA)方法对日志进行一定程度的异常检测。PCA在做特征值分解之后得到的特征向量反应了原始数据方差变化程度的不同方向,特征值为数据在对应方向上的方差大小,根据方差的大小可以判断样本是否是异常点。利用PCA分析系统日志前,首先按会话对日志键进行分组,然后计算每个会话中出现的每个日志键值的数量。会话向量的大小为n,对应于该会话中每种日志键出现的次数。这样就形成了一个矩阵,其中每列是一个日志键,每一行是一个会话向量。PCA通过特征值分解之后得到的特征向量来进行异常检测。
另一些相关技术中采用N元模型(N-gram)算法对日志进行一定程度的异常检测。N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照大小为N的滑动窗口选取,形成了长度是N的字节片段序列(gram)。对所有gram的出现频度进行统计,再根据统计信息判断文本内容出现的概率。首先按会话对日志键进行分组,每一个会话是一个日志键的序列,利用N-gram模型统计日志键之间的相关性,条件概率见下式(1)。
Figure BDA0003438447710000081
再根据统计的概率得到会话中日志序列出现的概率,若概率低于一定的阈值,认为此会话存在异常。
目前对于日志数据的处理大多数都使用PCA、N-gram等算法,随着数据量的提升,这些算法将面临三个严重的短板:
1.人为调控参数,聚类结果依靠人为经验;
2.只能进行简单的聚类,无法进行更为精细的操作;
3.计算结果数量多,并不能有效地降低运维人员的工作量。
近些年,随着人工智能技术的快速发展,人们开始尝试将人工智能应用于运维领域,自此AIOps(Artificial Intelligence for IT Operations)应运而生。基于已有的运维数据(例如日志、监控信息、应用信息等),可通过机器学习的方式来解决传统运维没办法解决的问题。人工智能算法通过训练过程能够从海量数据中学习到复杂的规律,能够帮助运维人员排查故障,并快速定位存储系统的异常。
因此,本公开提供了一种日志数据处理方法,通过对第一日志数据按照目标频率词进行聚类处理获得日志键,然后根据日志键及其对应的类别标识获得包括依次排列的第一日志类别标识和第二日志类别标识待处理日志数据的日志类别序列,通过目标深度学习模型对待处理日志数据的日志类别序列进行处理,获得第一日志类别标识的预测后序日志类别标识,再将第二日志类别标识与预测后序日志类别标识进行比较,以检测第二日志类别标识对应的日志数据是否异常,从而可实现高效检测日志数据的异常,进而对系统进行有效的在线监视和异常检测。
图1示出了可以应用本公开的日志数据处理方法或日志数据处理装置的示例性系统架构10。
如图1所示,系统架构10可以包括终端设备102、网络104和服务器106。终端设备102可以是具有显示屏并且支持输入、输出的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、虚拟现实设备、智能家居等等。网络104用以在终端设备102和服务器106之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。服务器106可以是提供各种服务的服务器或服务器集群等,例如可以是后台处理服务器、数据库服务器等等。
终端设备102可以通过网络104与服务器106交互,以接收或发送数据等。例如终端设备102可以通过网络104从服务器106获取日志键及其对应的类别标识。再例如终端设备102可以根据获取的日志键及其对应的类别标识获得待处理日志数据的日志类别序列,然后将待处理日志数据的日志类别序列通过网络104上传到服务器106。又例如服务器106可以通过目标深度学习模型对待处理日志数据的日志类别序列进行处理,获得第一日志类别标识的预测后序日志类别标识,并将第一日志类别标识的预测后序日志类别标识通过网络104传输到终端设备102。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2是根据一示例性实施例示出的一种日志数据处理方法的流程图。如图2所示的方法例如可以应用于上述系统的服务器端,也可以应用于上述系统的终端设备。
参考图2,本公开实施例提供的方法20可以包括以下步骤。
在步骤S202中,获取日志键及其对应的类别标识,日志键通过对第一日志数据按照目标频率词进行聚类处理获得。
在一些实施例中,第一日志数据可以包括待处理日志数据。用于聚类获得日志键的第一日志数据可以为全量日志数据,即可以包括非异常日志数据,也可以包括可能包括异常数据的待处理日志数据。
在一些实施例中,可以认为日志数据中高频词(key)(即目标频率词)能够反映日志数据的分类结构,适合作为日志的骨架结构,可以将具有相同骨架(可以包括一个或多个key)的日志聚为一类,并称这些不同类别的骨架为日志键,每种日志键对应一个日志类别标识。对第一日志数据按照目标频率词进行聚类处理获得日志键的实施方式可以参照图3和图4。
在步骤S204中,根据日志键及其对应的类别标识获得待处理日志数据的日志类别序列,待处理日志数据的日志类别序列包括第一日志类别标识和第二日志类别标识,在待处理日志数据的日志类别序列中第一日志类别标识排在第二日志类别标识之前。
在一些实施例中,可以给每一个日志键对应一个日志类别标识(例如可以为编号),并根据每条日志出现的顺序使对应的日志键类别标识形成待处理日志数据的日志类别序列。具体实施方式可参照图5。
在步骤S206中,通过目标深度学习模型对待处理日志数据的日志类别序列进行处理,获得第一日志类别标识的预测后序日志类别标识。
在一些实施例中,例如,目标深度学习模型可以包括目标变换器网络和目标全连接层,目标变换器网络包括词嵌入层、编码器和解码器,网络结构可参照图7和图8,通过目标深度学习模型对待处理日志数据的日志类别序列进行预测的具体实施方式可参照图6和图7。
在步骤S208中,将第二日志类别标识与预测后序日志类别标识进行比较,以检测第二日志类别标识对应的日志数据是否异常。
在一些实施例中,可以将预测的结果与真实的结果比较,若不同则认为第二日志类别标识对应的日志数据出现异常,若相同则认为该条日志是正常的。
根据本公开实施例提供的日志数据处理方法,通过对第一日志数据按照目标频率词进行聚类处理获得日志键,然后根据日志键及其对应的类别标识获得包括依次排列的第一日志类别标识和第二日志类别标识待处理日志数据的日志类别序列,通过目标深度学习模型对待处理日志数据的日志类别序列进行处理,获得第一日志类别标识的预测后序日志类别标识,再将第二日志类别标识与预测后序日志类别标识进行比较,以检测第二日志类别标识对应的日志数据是否异常,从而可实现高效检测日志数据的异常,进而对系统进行有效的在线监视和异常检测。
图3示出了图2中所示的步骤S202在一实施例中的处理过程示意图。如图3所示,本公开实施例中,在上述步骤S202之前,本公开实施例提供的方法可以进一步包括以下步骤。
步骤S302,将第一日志数据划分为多条日志数据。
在一些实施例中,可以将日志数据按照线程标识(identification,id)进行分离,将每一个线程的日志作为一条原始的日志数据。
步骤S304,将第一日志数据的多条日志数据中包括相同的目标频率词的单条日志数据聚为同一类,获得各类日志数据中相同的目标频率词为日志键。
在一些实施例中,可以根据实际情况,来确定是否需要给每条日志数据进行分词。选取日志数据时要选择正常工作状态的存储系统日志,有的日志在书写时经常将几个词连接在一起,那么就应该对日志中的英文单词进行分词,并根据日志的具体含义考虑是否需要以某些标点符号作为分词的标志。如可以在日志数据为连续的字符串时,将每条日志以单个实体分词,例如,“objectsmisplaced”可以分为“objects”和“misplaced”,“HEALTH_WARN”可以分为“HEALTH”和“WARN”。
在一些实施例中,可以对非结构化的文本数据形式的系统日志进行聚类以提取日志键,可从每条日志中提取目标频率词,将包括内容、顺序都相同的目标频率词的单条日志数据聚为同一类,并获得每类日志数据中的目标频率词序列作为日志键。目标频率词的获取方法可参照图4。
步骤S306,对各类日志数据的日志类别进行编号,获得日志键对应的类别标识。
在一些实施例中,例如,可用1、2、3……对各类日志数据的日志类别进行编号,获得日志键对应的类别标识为001、002……100……。
图4根据图2示出了在一实施例中目标频率词的获得方法的流程示意图。如图4所示,本公开实施例中,在上述步骤S202之前,本公开实施例提供的方法可以进一步包括以下步骤。
步骤S402,统计第一日志数据中多个词各自出现的频率。
步骤S404,获取多个从小到大依次排列的第二预设频率阈值。
步骤S406,从多个第二预设频率阈值中确定第一预设频率阈值,以使若将第一日志数据中出现的频率高于第一预设频率阈值的词作为目标频率词,则将第一日志数据的多条日志数据按照目标频率词进行聚类获得的日志类别的数量在预设范围内。
在一些实施例中,可以根据日志中每一个词的词频,人为设置p(p为正整数)个阈值,将日志中的词分为p+1个级别的词,选择其中的[1,q]级别为低频(q为正整数),[q,p+1]级别为高频词,这些高频词即为目标频率词。可以根据所聚类别的多少,智能地选择q的值,将日志键对应的日志类别控制到一定的预设范围。例如,对于以下日志数据:
login.py[line:30]-INFO:Aclient are logining
login.py[line:37]-ERROR:The user:cinder driver is illegal
login.py[line:30]-INFO:A client are logining
login.py[line:37]-ERROR:The user:xueqiang isillegal
其中,“:”前的内容都可认为是高频词,为构成日志键的目标频率词;“cinderdriver”、“xueqiang”都是低频词,表示日志的具体值;其余为中频词,当以上述高频词对日志进行聚类得到的类别数量较少时,可将这些中频词化为高频词,以增加日志类别数量。
在一些实施例中,可以日志总条数的20%为阈值,即日志总条数的20%为聚类获得的日志类别数量。也可根据实际情况进行修改,例如还把集合当作主干对日志进行聚类,这样可以得到更多的类的种类。
日志数据受程序人员的影响较大,书写较为随意,难以以一套固定的结构进行描述,而同一种日志数据中的日志结构的重复性较大。根据本公开实施例提供的方法,针对非结构化的、不同于自然语言文本数据的日志数据,采用统计的方法进行分析,基于词频从日志数据中提取标识日志类别的日志键,可以更准确地标识日志数据以进行深度学习模型的预测。
图5示出了图2中所示的步骤S204和步骤S206在一实施例中的处理过程示意图。如图5所示,本公开实施例中,上述步骤S204和步骤S206可以进一步包括以下步骤。
步骤S502,将待处理日志数据按照线程标识划分为多条日志数据。
步骤S504,将待处理日志数据的各条日志数据与日志键进行匹配,获得待处理日志数据的各条日志数据对应的类别标识。
步骤S506,根据线程标识将各条日志数据对应的类别标识按照时间先后顺序进行排序,获得待处理日志数据的日志类别序列。
步骤S508,利用随机数生成方法获得目标序列长度。
步骤S510,按照目标序列长度将待处理日志数据的日志类别序列划分为多个待处理日志会话,待处理日志会话包括第一日志类别标识和第二日志类别标识,第一日志类别标识为包括多个日志类别标识的第一日志类别标识序列。
在一些实施例中,可以不同的长度去截断日志序列,使会话的长度在[16,31]之间随机分布。
步骤S512,将第一日志类别标识序列输入目标深度学习模型,通过目标深度学习模型对第一日志类别标识序列的后序日志类别标识进行预测。
图6示出了图5中所示的步骤S512在一实施例中的处理过程示意图。如图6所示,本公开实施例中,上述步骤S512可以进一步包括以下步骤。
步骤S602,将第一日志类别标识序列输入目标变换器网络,通过词嵌入层获得第一日志类别标识序列的词向量。
步骤S604,对第一日志类别标识序列的词向量进行位置编码,获得编码器输入向量。
步骤S606,将编码器输入向量依次通过编码器和解码器进行编码和解码处理,获得解码器输出向量。
步骤S608,将解码器输出向量通过目标全连接层后进行归一化,获得后序日志类别标识的预测权重向量。
在一些实施例中,参照图7,图7是根据图2和图6示出的一种变换器网络结构示意图。如图7所示,在变换器(Transformer)网络中,输入702首先经过词嵌入(S7002)获得词向量,词向量维度例如可以为256;然后经过位置编码(S7004),由于日志序列只有相对距离,所以可以采取正弦和余弦作为位置信息进行位置编码;然后依次通过编码器和解码器后获得输出704。编码器和解码器可以包括一层或多层Nx,编码器和解码器的Nx的数量相同,例如可以各为2层,共4层。经过每个Nx时,依次通过多头注意力网络(S7006)、加和和归一化(S7008)、通过前馈网络(S7010)、以及再次加和和归一化(S7012)。
在一些实施例中,图8是根据图2和图6示出的一种通过深度学习模型进行日志异常检测的实现示意图。如图8所示,例如,在预测阶段,可以在输入层802输入待检测会话的前n-1条日志序列Log1、Log2……Logn-1,经过多个Trm(Transformer)(8042,8044)神经元后,将第一条输出(TCLS)进入全连接层806,再通过Softmax归一化,在输出层808输出为预测结果
Figure BDA0003438447710000141
与待检测会话的实际第n条日志编号进行异或运算(S8002),运算结果为1为异常,为0为正常。在进行异常定位时,可将不同机器上的日志按照序号批量输入模型,根据检测出异常的序号来定位出故障的位置。
图9根据图6至图8示出了在一实施例中深度学习模型的获得训练的流程示意图。如图9所示,本公开实施例中,在上述步骤S206之前,本公开实施例提供的方法可以进一步包括以下步骤。
步骤S902,利用非异常日志数据对初始深度学习模型进行预训练,获得预训练后的深度学习模型。
在一些实施例中,参照图8,初始深度学习模型可以包括初始变换器网络和初始全连接层;预训练后的深度学习模型可以包括预训练后的变换器网络和初始全连接层。
步骤S9022,基于非异常日志数据通过初始变换器网络进行掩码预测和相邻关系预测,并根据掩码预测结果和相邻关系预测结果更新初始变换器网络,获得预训练后的变换器网络。
在一些实施例中,可以先用非异常日志数据对应的日志键编号序列(即日志类别序列)对初始变换器网络进行预训练,主要训练词向量。该预训练可以分为两个过程:掩码语言模型(masked language model)和临近句子预测(next sentence prediction),即在一个(由)会话中掩盖住几个日志键编号,然后对这些掩盖住的单词做预测,以及判断一条序列中的各词向量是否为相邻关系。输入序列的开头可以加入[CLS]标记。
步骤S904,利用非异常日志数据对预训练后的深度学习模型进行微调,获得目标深度学习模型。
步骤S9042,根据日志键及其对应的类别标识获得非异常日志数据的日志类别序列。
步骤S9044,从非异常日志数据的日志类别序列中获得训练日志会话,训练日志会话包括第一日志类别标识和第二日志类别标识。
步骤S9046,将训练日志会话的第一日志类别标识序列输入预训练后的深度学习模型,通过预训练后的深度学习模型对训练日志会话的第一日志类别标识序列的后序日志类别标识进行预测,获得训练日志会话的预测后序日志类别标识。
步骤S9048,将训练日志会话的第二日志类别标识作为标签,基于训练日志会话的预测后序日志类别标识根据归一化的交叉熵损失函数更新预训练后的深度学习模型,获得目标深度学习模型。
在一些实施例中,可以在预训练的基础上对模型进行微调,训练分类模型,参照图8,在输入层802输入训练日志会话的前n-1(n为正整数)条日志序列Log1、Log2……Logn-1,以最后一条日志Logn作为标签训练模型,我们取该模型的第一条输出(TCLS)进入全连接层806,再通过Softmax归一化,损失函数(Loss,L)可以使用归一化的交叉熵:
Figure BDA0003438447710000161
其中,N表示输入的批(batch)数,例如输入为20个序列;M表示日志键对应的类别标识的种类,例如100种日志键;i、j均为正整数;
Figure BDA0003438447710000162
是预测第n个的日志键为序号1-M中的各种日志键的对应概率,y是实际日志键对应的类别标识;count(yj==1)表示实际有几个对应序号j的日志键,含义是每种日志键预测了几次,将其对应的预测概率进行平均处理。
根据本公开实施例提供的方法,通过研究存储产品的日志,针对日志具有重复性大、行文规则较为固定、时序性强、具有拓扑关联性等特点。提出了日志键的概念,并设计了一种基于词频的日志键提取算法;为了使模型更适用于我们的数据,将改进了的Transformer模型用于日志预测,使得数据相对时序更强,训练速度更快,交叉熵更加准确;设计了一套具有人工智能的自动异常检测系统,可以根据分布式存储的特点,在多节点维护的存储系统,并能够进行根因定位。
图10是根据一示例性实施例示出的一种日志数据处理装置的框图。如图10所示的装置例如可以应用于上述系统的服务器端,也可以应用于上述系统的终端设备。
参考图10,本公开实施例提供的装置100可以包括获取模块1002、获得模块1004、处理模块1006和检测模块1008。
获取模块1002可用于获取日志键及其对应的类别标识,日志键通过对第一日志数据按照目标频率词进行聚类处理获得。
获得模块1004可用于根据日志键及其对应的类别标识获得待处理日志数据的日志类别序列,待处理日志数据的日志类别序列包括第一日志类别标识和第二日志类别标识,在待处理日志数据的日志类别序列中第一日志类别标识排在第二日志类别标识之前。
处理模块1006可用于通过目标深度学习模型对待处理日志数据的日志类别序列进行处理,获得第一日志类别标识的预测后序日志类别标识。
检测模块1008可用于用于将第二日志类别标识与预测后序日志类别标识进行比较,以检测第二日志类别标识对应的日志数据是否异常。
图11是根据一示例性实施例示出的另一种日志数据处理装置的框图。如图11所示的装置例如可以应用于上述系统的服务器端,也可以应用于上述系统的终端设备。
参考图11,本公开实施例提供的装置110可以包括获取模块1102、获得模块1104、训练模块1106、处理模块1108和检测模块1110。
获取模块1102可用于获取日志键及其对应的类别标识,日志键通过对第一日志数据按照目标频率词进行聚类处理获得。
获得模块1104可用于根据日志键及其对应的类别标识获得待处理日志数据的日志类别序列,待处理日志数据的日志类别序列包括第一日志类别标识和第二日志类别标识,在待处理日志数据的日志类别序列中第一日志类别标识排在第二日志类别标识之前。
获得模块1104还可用于:将第一日志数据划分为多条日志数据,第一日志数据包括待处理日志数据;将第一日志数据的多条日志数据中包括相同的目标频率词的单条日志数据聚为同一类,获得各类日志数据中相同的目标频率词为日志键;对各类日志数据的日志类别进行编号,获得日志键对应的类别标识。
获得模块1104还可用于:统计第一日志数据中多个词各自出现的频率;获取多个从小到大依次排列的第二预设频率阈值;从多个第二预设频率阈值中确定第一预设频率阈值,以使若将第一日志数据中出现的频率高于第一预设频率阈值的词作为目标频率词,则将第一日志数据的多条日志数据按照目标频率词进行聚类获得的日志类别的数量在预设范围内。
获得模块1104还可用于:将待处理日志数据按照线程标识划分为多条日志数据;将待处理日志数据的各条日志数据与日志键进行匹配,获得待处理日志数据的各条日志数据对应的类别标识;根据线程标识将各条日志数据对应的类别标识按照时间先后顺序进行排序,获得待处理日志数据的日志类别序列。
第一日志数据可以包括非异常日志数据。
训练模块1106可用于利用非异常日志数据对初始深度学习模型进行预训练,获得预训练后的深度学习模型;利用非异常日志数据对预训练后的深度学习模型进行微调,获得目标深度学习模型。
预训练后的深度学习模型可以包括预训练后的变换器网络和初始全连接层。
训练模块1106还可用于:基于非异常日志数据通过初始变换器网络进行掩码预测和相邻关系预测,并根据掩码预测结果和相邻关系预测结果更新初始变换器网络,获得预训练后的变换器网络;根据日志键及其对应的类别标识获得非异常日志数据的日志类别序列;从非异常日志数据的日志类别序列中获得训练日志会话,训练日志会话包括第一日志类别标识和第二日志类别标识;将训练日志会话的第一日志类别标识序列输入预训练后的深度学习模型,通过预训练后的深度学习模型对训练日志会话的第一日志类别标识序列的后序日志类别标识进行预测,获得训练日志会话的预测后序日志类别标识;将训练日志会话的第二日志类别标识作为标签,基于训练日志会话的预测后序日志类别标识根据归一化的交叉熵损失函数更新预训练后的深度学习模型,获得目标深度学习模型。
初始深度学习模型可以包括初始变换器网络和初始全连接层。
处理模块1108可用于通过目标深度学习模型对待处理日志数据的日志类别序列进行处理,获得第一日志类别标识的预测后序日志类别标识。
目标深度学习模型可以包括目标变换器网络和目标全连接层,目标变换器网络包括词嵌入层、编码器和解码器。
处理模块1108还可用于:利用随机数生成方法获得目标序列长度;按照目标序列长度将待处理日志数据的日志类别序列划分为多个待处理日志会话,待处理日志会话包括第一日志类别标识和第二日志类别标识,第一日志类别标识为包括多个日志类别标识的第一日志类别标识序列;将第一日志类别标识序列输入目标深度学习模型,通过目标深度学习模型对第一日志类别标识序列的后序日志类别标识进行预测。
处理模块1108还可用于:将第一日志类别标识序列输入目标变换器网络,通过词嵌入层获得第一日志类别标识序列的词向量;对第一日志类别标识序列的词向量进行位置编码,获得编码器输入向量;将编码器输入向量依次通过编码器和解码器进行编码和解码处理,获得解码器输出向量;将解码器输出向量通过目标全连接层后进行归一化,获得后序日志类别标识的预测权重向量。
检测模块1110可用于用于将第二日志类别标识与预测后序日志类别标识进行比较,以检测第二日志类别标识对应的日志数据是否异常。
本公开实施例提供的装置中的各个模块的具体实现可以参照上述方法中的内容,此处不再赘述。
图12示出本公开实施例中一种电子设备的结构示意图。需要说明的是,图12示出的设备仅以计算机系统为示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图12所示,设备1200包括中央处理单元(CPU)1201,其可以根据存储在只读存储器(ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(RAM)1203中的程序而执行各种适当的动作和处理。在RAM 1203中,还存储有设备1200操作所需的各种程序和数据。CPU1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。
以下部件连接至I/O接口1205:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1212,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1212被安装。在该计算机程序被中央处理单元(CPU)1201执行时,执行本公开的系统中限定的上述功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、获得模块、处理模块和检测模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,数据获取模块还可以被描述为“向所连接的服务器端获取相关数据的模块”。
作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
获取日志键及其对应的类别标识,日志键通过对第一日志数据按照目标频率词进行聚类处理获得;根据日志键及其对应的类别标识获得待处理日志数据的日志类别序列,待处理日志数据的日志类别序列包括第一日志类别标识和第二日志类别标识,在待处理日志数据的日志类别序列中第一日志类别标识排在第二日志类别标识之前;通过目标深度学习模型对待处理日志数据的日志类别序列进行处理,获得第一日志类别标识的预测后序日志类别标识;将第二日志类别标识与预测后序日志类别标识进行比较,以检测第二日志类别标识对应的日志数据是否异常。
以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims (10)

1.一种日志数据处理方法,其特征在于,包括:
获取日志键及其对应的类别标识,所述日志键通过对第一日志数据按照目标频率词进行聚类处理获得;
根据所述日志键及其对应的类别标识获得待处理日志数据的日志类别序列,所述待处理日志数据的日志类别序列包括第一日志类别标识和第二日志类别标识,在所述待处理日志数据的日志类别序列中所述第一日志类别标识排在所述第二日志类别标识之前;
通过目标深度学习模型对所述待处理日志数据的日志类别序列进行处理,获得所述第一日志类别标识的预测后序日志类别标识;
将所述第二日志类别标识与所述预测后序日志类别标识进行比较,以检测所述第二日志类别标识对应的日志数据是否异常。
2.根据权利要求1所述的方法,其特征在于,所述日志键通过对第一日志数据按照目标频率词进行聚类处理获得,包括:
将所述第一日志数据划分为多条日志数据,所述第一日志数据包括所述待处理日志数据;
将所述第一日志数据的多条日志数据中包括相同的目标频率词的单条日志数据聚为同一类,获得各类日志数据中相同的目标频率词为所述日志键;
对所述各类日志数据的日志类别进行编号,获得所述日志键对应的类别标识。
3.根据权利要求2所述的方法,其特征在于,还包括:
统计所述第一日志数据中多个词各自出现的频率;
获取多个从小到大依次排列的第二预设频率阈值;
从多个所述第二预设频率阈值中确定所述第一预设频率阈值,以使若将所述第一日志数据中出现的频率高于第一预设频率阈值的词作为所述目标频率词,则将所述第一日志数据的多条日志数据按照所述目标频率词进行聚类获得的日志类别的数量在预设范围内。
4.根据权利要求1所述的方法,其特征在于,根据所述日志键及其对应的类别标识获得待处理日志数据的日志类别序列,包括:
将所述待处理日志数据按照线程标识划分为多条日志数据;
将所述待处理日志数据的各条日志数据与所述日志键进行匹配,获得所述待处理日志数据的各条日志数据对应的类别标识;
根据所述线程标识将所述各条日志数据对应的类别标识按照时间先后顺序进行排序,获得所述待处理日志数据的日志类别序列;
通过目标深度学习模型对所述待处理日志数据的日志类别序列进行处理,包括:
利用随机数生成方法获得目标序列长度;
按照所述目标序列长度将所述待处理日志数据的日志类别序列划分为多个待处理日志会话,所述待处理日志会话包括所述第一日志类别标识和所述第二日志类别标识,所述第一日志类别标识为包括多个日志类别标识的第一日志类别标识序列;
将所述第一日志类别标识序列输入所述目标深度学习模型,通过所述目标深度学习模型对所述第一日志类别标识序列的后序日志类别标识进行预测。
5.根据权利要求4所述的方法,其特征在于,所述目标深度学习模型包括目标变换器网络和目标全连接层,所述目标变换器网络包括词嵌入层、编码器和解码器;
将所述第一日志类别标识序列输入所述目标深度学习模型,通过所述目标深度学习模型对所述第一日志类别标识序列的后序日志类别标识进行预测,包括:
将所述第一日志类别标识序列输入所述目标变换器网络,通过所述词嵌入层获得所述第一日志类别标识序列的词向量;
对第一日志类别标识序列的词向量进行位置编码,获得编码器输入向量;
将所述编码器输入向量依次通过所述编码器和所述解码器进行编码和解码处理,获得解码器输出向量;
将所述解码器输出向量通过所述目标全连接层后进行归一化,获得后序日志类别标识的预测权重向量。
6.根据权利要求5所述的方法,其特征在于,所述第一日志数据包括非异常日志数据;
所述方法还包括:
利用所述非异常日志数据对初始深度学习模型进行预训练,获得预训练后的深度学习模型;
利用所述非异常日志数据对所述预训练后的深度学习模型进行微调,获得所述目标深度学习模型。
7.根据权利要求6所述的方法,其特征在于,所述初始深度学习模型包括初始变换器网络和初始全连接层;
所述预训练后的深度学习模型包括预训练后的变换器网络和所述初始全连接层;
利用所述非异常日志数据对初始深度学习模型进行预训练,包括:
基于所述非异常日志数据通过所述初始变换器网络进行掩码预测和相邻关系预测,并根据掩码预测结果和相邻关系预测结果更新所述初始变换器网络,获得所述预训练后的变换器网络;
利用所述非异常日志数据对所述预训练后的深度学习模型进行微调,获得所述目标深度学习模型,包括:
根据所述日志键及其对应的类别标识获得所述非异常日志数据的日志类别序列;
从所述非异常日志数据的日志类别序列中获得训练日志会话,所述训练日志会话包括第一日志类别标识和第二日志类别标识;
将所述训练日志会话的第一日志类别标识序列输入所述预训练后的深度学习模型,通过所述预训练后的深度学习模型对所述训练日志会话的第一日志类别标识序列的后序日志类别标识进行预测,获得所述训练日志会话的预测后序日志类别标识;
将所述训练日志会话的第二日志类别标识作为标签,基于所述训练日志会话的预测后序日志类别标识根据归一化的交叉熵损失函数更新所述预训练后的深度学习模型,获得所述目标深度学习模型。
8.一种日志数据处理装置,其特征在于,包括:
获取模块,用于获取日志键及其对应的类别标识,所述日志键通过对第一日志数据按照目标频率词进行聚类处理获得;
获得模块,用于根据所述日志键及其对应的类别标识获得待处理日志数据的日志类别序列,所述待处理日志数据的日志类别序列包括第一日志类别标识和第二日志类别标识,在所述待处理日志数据的日志类别序列中所述第一日志类别标识排在所述第二日志类别标识之前;
处理模块,用于通过目标深度学习模型对所述待处理日志数据的日志类别序列进行处理,获得所述第一日志类别标识的预测后序日志类别标识;
检测模块,用于将所述第二日志类别标识与所述预测后序日志类别标识进行比较,以检测所述第二日志类别标识对应的日志数据是否异常。
9.一种电子设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,其特征在于,所述处理器执行所述可执行指令时实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,所述可执行指令被处理器执行时实现如权利要求1-7任一项所述的方法。
CN202111622151.7A 2021-12-28 2021-12-28 日志数据处理方法、装置、设备及存储介质 Pending CN114328106A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111622151.7A CN114328106A (zh) 2021-12-28 2021-12-28 日志数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111622151.7A CN114328106A (zh) 2021-12-28 2021-12-28 日志数据处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114328106A true CN114328106A (zh) 2022-04-12

Family

ID=81014245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111622151.7A Pending CN114328106A (zh) 2021-12-28 2021-12-28 日志数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114328106A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115225470A (zh) * 2022-07-28 2022-10-21 天翼云科技有限公司 一种业务异常监测方法、装置、电子设备及存储介质
CN115858794A (zh) * 2023-02-20 2023-03-28 北京特立信电子技术股份有限公司 用于网络运行安全监测的异常日志数据识别方法
CN115913769A (zh) * 2022-12-20 2023-04-04 石家庄曲竹闻网络科技有限公司 基于人工智能的数据安全存储方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115225470A (zh) * 2022-07-28 2022-10-21 天翼云科技有限公司 一种业务异常监测方法、装置、电子设备及存储介质
CN115225470B (zh) * 2022-07-28 2023-10-13 天翼云科技有限公司 一种业务异常监测方法、装置、电子设备及存储介质
CN115913769A (zh) * 2022-12-20 2023-04-04 石家庄曲竹闻网络科技有限公司 基于人工智能的数据安全存储方法及系统
CN115913769B (zh) * 2022-12-20 2023-09-08 海口盛通达投资控股有限责任公司 基于人工智能的数据安全存储方法及系统
CN115858794A (zh) * 2023-02-20 2023-03-28 北京特立信电子技术股份有限公司 用于网络运行安全监测的异常日志数据识别方法

Similar Documents

Publication Publication Date Title
CN111914873B (zh) 一种两阶段云服务器无监督异常预测方法
CN114328106A (zh) 日志数据处理方法、装置、设备及存储介质
CN112910859B (zh) 基于c5.0决策树和时序分析的物联网设备监测预警方法
WO2021174812A1 (zh) 用于画像的数据的清洗方法、装置、介质及电子设备
CN111177367B (zh) 案件分类方法、分类模型训练方法及相关产品
CN113778894B (zh) 测试用例的构建方法、装置、设备及存储介质
CN109871749A (zh) 一种基于深度哈希的行人重识别方法和装置、计算机系统
CN117041017A (zh) 数据中心的智能运维管理方法及系统
CN114218998A (zh) 一种基于隐马尔可夫模型的电力系统异常行为分析方法
CN115344414A (zh) 基于LSTM-Transformer的日志异常检测方法及系统
CN115759748A (zh) 风险检测模型生成方法和装置、风险个体识别方法和装置
CN116164822A (zh) 基于知识图谱的流量计故障诊断方法、装置、介质
CN113282433B (zh) 集群异常检测方法、装置和相关设备
CN114020715A (zh) 一种日志数据的处理方法、装置、介质及设备
CN112052453A (zh) 基于Relief算法的webshell检测方法及装置
CN115328753A (zh) 一种故障预测方法及装置、电子设备、存储介质
CN115329082A (zh) 基于深度混合神经网络的日志序列异常检测方法
CN114548307A (zh) 分类模型训练方法和装置、分类方法和装置
CN113159107A (zh) 一种异常处理的方法及装置
US20240203095A1 (en) Method, device, and computer program product for verifying classification result
CN116708313B (zh) 流量检测方法、流量检测装置、存储介质和电子设备
Nandakumar et al. A Novel Approach to User Agent String Parsing for Vulnerability Analysis Using Multi-Headed Attention
CN117834286B (zh) 一种基于互信息法特征选择的sql注入攻击检测方法、系统、设备及可读存储介质
CN115238805B (zh) 异常数据识别模型的训练方法及相关设备
CN111402012B (zh) 一种基于迁移学习的电商缺陷产品识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination