CN114969336A - 异常日志检测方法、装置、电子设备及可读存储介质 - Google Patents

异常日志检测方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN114969336A
CN114969336A CN202210554257.6A CN202210554257A CN114969336A CN 114969336 A CN114969336 A CN 114969336A CN 202210554257 A CN202210554257 A CN 202210554257A CN 114969336 A CN114969336 A CN 114969336A
Authority
CN
China
Prior art keywords
log
logs
emotion
information
log file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210554257.6A
Other languages
English (en)
Inventor
吕博晨
刘兆涵
杨健
方磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zetyun Tech Co ltd
Original Assignee
Beijing Zetyun Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zetyun Tech Co ltd filed Critical Beijing Zetyun Tech Co ltd
Priority to CN202210554257.6A priority Critical patent/CN114969336A/zh
Publication of CN114969336A publication Critical patent/CN114969336A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种异常日志检测方法、装置、电子设备及可读存储介质,属于人工智能技术领域,该异常日志检测方法包括:获取待检测的日志文件,所述日志文件中包括多行日志;对所述日志文件进行情感分析,得到所述日志文件中的每一行日志的情感信息;根据所述情感信息,确定所述日志文件中的每一行日志是否为异常日志。本发明可以准确地检测并定位异常日志。

Description

异常日志检测方法、装置、电子设备及可读存储介质
技术领域
本发明属于人工智能技术领域,具体涉及一种异常日志检测方法、装置、电子设备及可读存储介质。
背景技术
日志一般指的是计算机系统、设备、软件等在某种情况下记录的信息,而从运维人员所维护对象的所有信息来看,日志则是一个非常重要的组成部分。它可以记录下系统产生的所有行为,并依照某种范式表达出来。运维人员可以使用日志所记录的信息为系统进行排错,实时洞察系统的变化,或者根据这些信息调整系统的行为等。
但是随着软件系统的发展,面对繁多,复杂,非结构化的日志,如何从大量的日志中准确检测并定位出异常日志,是亟待解决的问题。
发明内容
本发明实施例的目的是提供一种异常日志检测方法、装置、电子设备及可读存储介质,能够解决目前异常日志难以快速检测并定位的问题。
第一方面,本发明实施例提供了一种异常日志检测方法,包括:
获取待检测的日志文件,所述日志文件中包括多行日志;
对所述日志文件进行情感分析,得到所述日志文件中的每一行日志的情感信息;
根据所述情感信息,确定所述日志文件中的每一行日志是否为异常日志。
可选的,所述对所述日志文件进行情感分析,得到所述日志文件中的每一行日志的情感信息包括:
基于情感词典的方法对所述日志文件进行情感分析,得到所述日志文件中的每一行日志的情感信息;
或者
基于情感分析模型对所述日志文件进行情感分析,得到所述日志文件中的每一行日志的情感信息。
可选的,所述对所述日志文件进行情感分析,得到所述日志文件中的每一行日志的情感信息包括:
对所述日志文件中的每一行日志进行情感分析,得到所述日志文件中的每一行日志的情感信息;
或者,
对所述日志文件中的日志进行聚类分析,得到多个日志组;
对属于同一日志组的日志提取出一个日志模板;
对每个所述日志模板进行情感分析,得到每个所述日志模板的情感信息,其中,所述日志模板的情感信息为所述日志模板对应的日志组内的日志的情感信息。
可选的,所述对所述日志文件中的日志进行聚类分析,得到多个日志组还包括:
通过正则表达式对所述日志文件进行处理,得到结构化的日志;
获取长度相同的所述结构化的日志;
从长度相同的所述结构化的日志中,获取令牌类型相同的日志,并划分到同一个日志组中。
可选的,所述对每个所述日志模板进行情感分析,得到每个所述日志模板的情感信息包括:
将所述日志模板输入到情感分析模型中,得到所述情感分析模型输出的所述日志模板的情感信息,其中,所述情感分析模型采用自注意力机制对所述日志模板中的每一个词语进行处理,得到所述日志模板中的每个词语的特征,并分析所述日志模板中的词语之间的上下文交互信息,得到每个词语的特征权重,根据所述日志模板的每个词语的特征和所述每个词语的特征权重,得到所述日志模板的情感信息并输出。
可选的,所述情感分析模型采用如下方式训练得到:
获取日志训练集,所述日志训练集包括多行训练日志;
将所述训练日志输入到待训练的情感分析模型中,得到所述待训练的情感分析模型输出的所述训练日志的预测情感信息,其中,所述待训练的情感分析模型采用自注意力机制对所述训练日志中的每一个词语进行处理,得到所述训练日志中的每个词语的特征,并分析所述训练日志中的词语之间的上下文交互信息,得到每个词语的特征权重,根据所述训练日志的每个词语的特征和所述每个词语的特征权重,得到所述训练日志的预测情感信息并输出;
根据所述训练日志的预测情感信息、所述训练日志的真实情感信息以及预设的目标函数,判断所述目标函数是否满足收敛条件,若所述目标函数不满足收敛条件,对待训练的情感分析模型的参数进行调整,直至所述目标函数满足所述收敛条件,得到训练后的所述情感分析模型。
可选的,所述根据所述情感信息,确定所述日志文件中的每一行日志是否为异常日志包括:
根据所述情感信息的得分或类型,确定所述日志文件中的每一行日志是否为异常日志。
可选的,所述根据所述情感信息的得分或类型,确定所述日志文件中的每一行日志是否为异常日志,包括:
将所述情感信息的得分为负数的日志标记为异常日志;
或者
将所述情感信息的类型为消极类型的日志标记为异常日志。
可选的,所述对所述日志文件进行情感分析,得到情感信息之前还包括:
对所述日志文件进行预处理,所述预处理包括以下至少一项:非法符号去除、大小写转化和无效例删除。
第二方面,本发明实施例提供了一种异常日志检测装置,包括:
第一获取模块,用于获取待检测的日志文件,所述日志文件中包括多行日志;
情感分析模块,用于对所述日志文件进行情感分析,得到所述日志文件中的每一行日志的情感信息;
确定模块,用于根据所述情感信息,确定所述日志文件中的每一行日志是否为异常日志。
可选的,所述情感分析模块,用于基于情感词典的方法对所述日志文件进行情感分析,得到所述日志文件中的每一行日志的情感信息;或者,基于情感分析模型对所述日志文件进行情感分析,得到所述日志文件中的每一行日志的情感信息。
可选的,所述情感分析模块,用于对所述日志文件中的每一行日志进行情感分析,得到所述日志文件中的每一行日志的情感信息;
或者,
所述情感分析模块,用于对所述日志文件中的日志进行聚类分析,得到多个日志组;
对属于同一日志组的日志提取出一个日志模板;
对每个所述日志模板进行情感分析,得到每个所述日志模板的情感信息,其中,所述日志模板的情感信息为所述日志模板对应的日志组内的日志的情感信息。
可选的,所述情感分析模块,用于通过正则表达式对所述日志文件进行处理,得到结构化的日志;获取长度相同的所述结构化的日志;从长度相同的所述结构化的日志中,获取令牌类型相同的日志,并划分到同一个日志组中。
可选的,所述情感分析模块,用于将所述日志模板输入到情感分析模型中,得到所述情感分析模型输出的所述日志模板的情感信息,其中,所述情感分析模型采用自注意力机制对所述日志模板中的每一个词语进行处理,得到所述日志模板中的每个词语的特征,并分析所述日志模板中的词语之间的上下文交互信息,得到每个词语的特征权重,根据所述日志模板的每个词语的特征和所述每个词语的特征权重,得到所述日志模板的情感信息并输出。
可选的,所述异常日志检测装置还包括:
第二获取模块,用于获取日志训练集,所述日志训练集包括多行训练日志;
第一训练模块,用于将所述训练日志输入到待训练的情感分析模型中,得到所述待训练的情感分析模型输出的所述训练日志的预测情感信息,其中,所述待训练的情感分析模型采用自注意力机制对所述训练日志中的每一个词语进行处理,得到所述训练日志中的每个词语的特征,并分析所述训练日志中的词语之间的上下文交互信息,得到每个词语的特征权重,根据所述训练日志的每个词语的特征和所述每个词语的特征权重,得到所述训练日志的预测情感信息并输出;
第二训练模块,用于根据所述训练日志的预测情感信息、所述训练日志的真实情感信息以及预设的目标函数,判断所述目标函数是否满足收敛条件,若所述目标函数不满足收敛条件,对待训练的情感分析模型的参数进行调整,直至所述目标函数满足所述收敛条件,得到训练后的所述情感分析模型。
可选的,所述情感分析模块,用于根据所述情感信息的得分或类型,确定所述日志文件中的每一行日志是否为异常日志。
可选的,所述情感分析模块,用于将所述情感信息的得分为负数的日志标记为异常日志;
或者
所述情感分析模块,用于将所述情感信息的类型为消极类型的日志标记为异常日志。
可选的,所述异常日志检测装置还包括:
预处理模块,用于对所述日志文件进行预处理,所述预处理包括以下至少一项:非法符号去除、大小写转化和无效例删除。
第三方面,本发明实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本发明实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
第六方面,本发明实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
在本发明实施例中,采用情感分析方法对日志进行情感分析,获取日志中的情感信息,根据日志的情感信息确定日志是否为异常日志,可以准确地检测出异常日志。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例的异常日志的检测方法的流程示意图之一;
图2为本发明实施例的异常日志的检测方法的流程示意图之二;
图3为本发明实施例的异常日志的检测装置的结构示意图;
图4为本发明实施例的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本发明实施例提供的异常日志检测方法、装置、电子设备及可读存储介质进行详细地说明。
请参考图1,本发明实施例提供一种异常日志检测方法,包括:
步骤11:获取待检测的日志文件,所述日志文件中包括多行日志;
本发明实施例中的日志文件,可以是多种类型的日志文件,例如计算机系统、设备或软件的日志文件,所述设备可以是网络云化设备等多种类型的设备,本发明并不对日志文件的类型进行限定。
本发明实施例中,可选的,所述日志文件中每一行日志为一条完整的日志,当然,在本发明的其他一些实施例中,也不限于此,一条完整的日志也可以位于相邻的不同行,或者,同一行包括多条日志。
步骤12:对所述日志文件进行情感分析,得到所述日志文件中的每一行日志的情感信息;
所谓情感分析,是利用算法来分析挖掘日志文件对应的情感倾向。例如分析一行日志表达的好、中、坏等判断。情感分析的方法主要分为两大类:基于情感词典的方法和基于情感分析模型的方法。
本发明实施例可选的是,基于情感词典的方法中,情感词典是进行情感倾向分析的基础,具体的,对每一行日志进行分词处理,利用日志情感词典对分词处理得到的日志词语进行分析,得到各个日志词语对应的情感分值,然后对各个日志词语对应的情感分值进行统筹分析,得到每一行日志的情感倾向。例如,首先,对日志文件进行分句、分词;然后,将分词好的日志词语与日志情感词典进行逐个匹配,得到对应的情感词分值;最后,统计计算每行日志对应的分值总和,如果分值大于0,表示该行日志情感倾向为积极的;如果小于0,则表示该行日志情感倾向为消极的。
本发明实施例可选的是,基于情感分析模型的方法中,也可以称为基于算法模型的方法,该方法需要先将日志文件进行特征处理,然后采用得到的特征对情感分析模型进行训练,训练好的情感分析模型用于预测新的文本信息的情感,其中,上述情感分析模型可以是机器学习模型,也可以是深度学习模型。
即,本发明实施例中,可选的,基于情感词典的方法对所述日志文件进行情感分析,得到所述日志文件中的每一行日志的情感信息;或者,基于情感分析模型对所述日志文件进行情感分析,得到所述日志文件中的每一行日志的情感信息。本发明实施例中,可以采用上述任一情感分析方法,并不进行限定。
步骤13:根据所述情感信息,确定所述日志文件中的每一行日志是否为异常日志。
本发明实施例中,可选的,所述情感信息包括情感得分或情感类型,根据所述情感信息的得分或类型,确定所述日志文件中的每一行日志是否为异常日志。举例来说,采用日志情感词典匹配出日志中包含消极类型的关键词,则确定日志的情感信息为消极类型,从而确定日志为异常日志,若匹配出日志中包含积极类型的关键词,则确定日志的情感信息为积极类型,从而确定日志为正常日志。或者,根据情感分析模型分析出日志的情感得分是负分,确定日志为异常日志,根据情感分析模型分析出日志的情感得分是正分,确定日志为正常日志。
在本发明实施例中,采用情感分析方法对日志进行情感分析,获取日志中的情感信息,根据日志的情感信息确定日志是否为异常日志,可以准确地检测出异常日志。
本发明实施例中,本发明实施例中,可选的,所述获取待检测的日志文件包括:对所述日志文件进行预处理,所述预处理包括以下至少一项:非法符号去除、大小写转化和无效例删除,从而剔除无效的日志。
本发明的一些实施中,可以直接对所述日志文件中的每一行日志进行情感分析,得到所述日志文件中的每一行日志的情感信息,或者,其他一些实施例中,也可以对日志文件进行其他处理,再进行情感分析。
在本发明的一些实施例中,可选的,所述对所述日志文件进行情感分析,得到所述日志文件中的每一行日志的情感信息包括:
对所述日志文件中的日志进行聚类分析,得到多个日志组;
对属于同一日志组的日志提取出一个日志模板;
对每个所述日志模板进行情感分析,得到每个所述日志模板的情感信息,其中,所述日志模板的情感信息为所述日志模板对应的日志组内的日志的情感信息。
下面举例进行说明。
请参考图2,本发明实施例提供一种异常日志检测方法,包括:
步骤21:获取待检测的日志文件,所述日志文件中包括多行日志;
步骤22:对所述日志文件中的日志进行聚类分析,得到多个日志组;
举例来说,比如,日志1为“检测与设备(192.168.10.250)连接失败”,日志2为“检测与设备(192.168.1.22)连接失败”,则可以认为日志1和日志2属于同一类型的日志,可以位于一个日志组。再比如,日志3为“检测到设备(192.168.10.250)存在安全漏洞”,日志4为“检测到设备(192.168.1.22)存在安全漏洞”,则可以认为日志3和日志4属于同一类型的日志,可以位于一个日志组。再比如,日志为5为“检测到用户1登录成功”,日志6为“检测到用户2登录成功”,则可以认为日志5和日志6属于同一类型的日志,可以位于一个日志组。
步骤23:对属于同一日志组的日志提取出一个日志模板,可选的,所述日志模板包括所述同一日志组中的日志共有的常量信息;
举例来说,比如,日志1为“检测与设备A连接失败”,日志2为“检测与设备B连接失败”,则可以提取出日志1和日志2所属的日志组对应的日志模板,该日志模板可以是“检测与设备X连接失败”,“检测与设备X连接失败”是日志1和日志2共有的常量信息。再比如,日志3为“检测到设备(192.168.10.250)存在安全漏洞”,日志4为“检测到设备(192.168.1.22)存在安全漏洞”,则可以提取出日志3和日志4所属的日志组对应的日志模板,该日志模板可以是“检测到设备X存在安全漏洞”,“检测到设备X存在安全漏洞”是日志3和日志4共有的常量信息。再比如,日志为5为“检测到用户1登录成功”,日志6为“检测到用户2登录成功”,则可以提取出日志5和日志6所属的日志组对应的日志模板,该日志模板可以是“检测到用户X登录成功”,“检测到用户X登录成功”是日志5和日志6共有的常量信息。
步骤24:对每个所述日志模板进行情感分析,得到每个所述日志模板的情感信息;
步骤25:根据所述情感信息,确定所述日志模板对应的日志是否为异常日志。其中,所述日志模板的情感信息为所述日志模板对应的日志组内的日志的情感信息。
在本发明实施例中,采用情感分析方法对日志进行情感分析,获取日志中的情感信息,根据日志的情感信息确定日志是否为异常日志,可以准确地检测出异常日志。此外,对大量的日志进行了分类,得到少量的日志模板,对少量的日志模板进行情感分析,可以极大的减少运算量,提高了异常日志检测的速度。再者,根据日志模板的情感信息,可以判断该日志模板对应的日志是否为异常日志,可以精确定位到每一行日志,定位准确。
本发明实施例中,可选的,所述对所述日志文件中的日志进行聚类分析,得到多个日志组还包括:
通过正则表达式对所述日志文件进行处理,得到结构化的日志;
获取长度相同的所述结构化的日志;
从长度相同的所述结构化的日志中,获取令牌类型相同的日志,并划分到同一个日志组中。
本发明实施例中,可选的,可以采用Drain算法对所述日志文件中的日志进行聚类分析。
Drain算法是一种基于固定深度树的在线日志解析方法,日志解析的目标是将原始日志信息转换为结构化的日志消息。当原始日志消息到达时,Drain算法将根据领域知识通过正则表达式对其进行预处理。然后,按照树内部节点中编码的设计规则搜索日志组(即树的叶子节点)。如果找到合适的日志组,则日志消息将与存储在该日志组中的日志事件相匹配。否则,将根据日志信息创建新的日志组。Drain就是将不同类型的日志区分开来,进行一个聚类。Drain算法具有较好的准确性、运行速度和鲁棒性。
当然,本发明的其他一些实施例中,也不排除采用其他算法对日志进行聚类分析。
本发明实施例中,可选的,所述对每个所述日志模板进行情感分析,得到每个所述日志模板的情感信息包括:
将所述日志模板输入到情感分析模型中,得到所述情感分析模型输出的所述日志模板的情感信息,其中,所述情感分析模型采用自注意力机制对所述日志模板中的每一个词语进行处理,得到所述日志模板中的每个词语的特征,并分析所述日志模板中的词语之间的上下文交互信息,得到每个词语的特征权重,根据所述日志模板的每个词语的特征和所述每个词语的特征权重,得到所述日志模板的情感信息并输出。
采用情感分析模型对日志进行情感分析,分析结果准确,从而有利于异常日志的准确定位。
本发明实施例中,可选的,所述情感分析模型采用如下方式训练得到:
获取日志训练集,所述日志训练集包括多行训练日志;
将所述训练日志输入到待训练的情感分析模型中,得到所述待训练的情感分析模型输出的所述训练日志的预测情感信息,其中,所述待训练的情感分析模型采用自注意力机制对所述训练日志中的每一个词语进行处理,得到所述训练日志中的每个词语的特征,并分析所述训练日志中的词语之间的上下文交互信息,得到每个词语的特征权重,根据所述训练日志的每个词语的特征和所述每个词语的特征权重,得到所述训练日志的预测情感信息并输出;
根据所述训练日志的预测情感信息、所述训练日志的真实情感信息以及预设的目标函数,判断所述目标函数是否满足收敛条件,若所述目标函数不满足收敛条件,对待训练的情感分析模型的参数进行调整,直至所述目标函数满足所述收敛条件,得到训练后的所述情感分析模型。
由于情感分析模型采用多行日志训练得到,从而准确性较佳。
本发明实施例中,可选的,所述情感分析模型可以是基于BERT(BidirectionalEncoder Representation from Transformers,基于转换器的双向编码表征)算法模型。
BERT算法模型可以理解为一个通用的自然语言理解(Natural LanguageUnderstanding,NLU)模型,它可以灵活应用于各种不同的自然语言处理任务中。BERT算法模型的双向Transformers特性使得输入序列中的每一个单词经过自注意力机制处理后,能够得到输入序列中所有单词表征的特征,并且还能够学习到包含更多上下文交互信息的表征。因此,在这种基于双向Transformers构建的BERT算法模型上进行迁移学习,能够学习到高质量的包含情感信息的嵌入表达。
上述实施例中,可选的,所述根据所述情感信息,确定所述日志文件中的每一行日志是否为异常日志包括:
根据所述情感信息的得分或类型,确定所述日志文件中的每一行日志是否为异常日志。
进一步的,所述根据所述情感信息的得分或类型,确定所述日志文件中的每一行日志是否为异常日志,包括:
将所述情感信息的得分为负数的日志标记为异常日志;
或者
将所述情感信息的类型为消极类型的日志标记为异常日志。
以情感信息的类型或分数判断异常日志,实现简单。
本发明实施例提供的异常日志检测方法,执行主体可以为异常日志检测装置。本发明实施例中以异常日志检测装置执行异常日志检测方法为例,说明本发明实施例提供的异常日志检测装置。
请参考图3,本发明还提供一种异常日志检测装置30,包括:
第一获取模块31,用于获取待检测的日志文件,所述日志文件中包括多行日志;
情感分析模块32,用于对所述日志文件进行情感分析,得到所述日志文件中的每一行日志的情感信息;
确定模块33,用于根据所述情感信息,确定所述日志文件中的每一行日志是否为异常日志。
在本发明实施例中,采用情感分析方法对日志进行情感分析,获取日志中的情感信息,根据日志的情感信息确定日志是否为异常日志,可以准确地检测出异常日志。
可选的,情感分析模块32,用于基于情感词典的方法对所述日志文件进行情感分析,得到所述日志文件中的每一行日志的情感信息;或者,基于情感分析模型对所述日志文件进行情感分析,得到所述日志文件中的每一行日志的情感信息。
可选的,情感分析模块32,用于对所述日志文件中的每一行日志进行情感分析,得到所述日志文件中的每一行日志的情感信息;
或者,
情感分析模块32,用于对所述日志文件中的日志进行聚类分析,得到多个日志组;
对属于同一日志组的日志提取出一个日志模板;
对每个所述日志模板进行情感分析,得到每个所述日志模板的情感信息,其中,所述日志模板的情感信息为所述日志模板对应的日志组内的日志的情感信息。
可选的,情感分析模块32,用于通过正则表达式对所述日志文件进行处理,得到结构化的日志;获取长度相同的所述结构化的日志;从长度相同的所述结构化的日志中,获取令牌类型相同的日志,并划分到同一个日志组中。
可选的,情感分析模块32,用于将所述日志模板输入到情感分析模型中,得到所述情感分析模型输出的所述日志模板的情感信息,其中,所述情感分析模型采用自注意力机制对所述日志模板中的每一个词语进行处理,得到所述日志模板中的每个词语的特征,并分析所述日志模板中的词语之间的上下文交互信息,得到每个词语的特征权重,根据所述日志模板的每个词语的特征和所述每个词语的特征权重,得到所述日志模板的情感信息并输出。
可选的,所述异常日志检测装置30,还包括:
第二获取模块,用于获取日志训练集,所述日志训练集包括多行训练日志;
第一训练模块,用于将所述训练日志输入到待训练的情感分析模型中,得到所述待训练的情感分析模型输出的所述训练日志的预测情感信息,其中,所述待训练的情感分析模型采用自注意力机制对所述训练日志中的每一个词语进行处理,得到所述训练日志中的每个词语的特征,并分析所述训练日志中的词语之间的上下文交互信息,得到每个词语的特征权重,根据所述训练日志的每个词语的特征和所述每个词语的特征权重,得到所述训练日志的预测情感信息并输出;
第二训练模块,用于根据所述训练日志的预测情感信息、所述训练日志的真实情感信息以及预设的目标函数,判断所述目标函数是否满足收敛条件,若所述目标函数不满足收敛条件,对待训练的情感分析模型的参数进行调整,直至所述目标函数满足所述收敛条件,得到训练后的所述情感分析模型。
可选的,情感分析模块32,用于根据所述情感信息的得分或类型,确定所述日志文件中的每一行日志是否为异常日志。
可选的,情感分析模块32,用于将所述情感信息的得分为负数的日志标记为异常日志;
或者
情感分析模块32,用于将所述情感信息的类型为消极类型的日志标记为异常日志。
可选的,所述异常日志检测装置30,还包括:
预处理模块,用于对所述日志文件进行预处理,所述预处理包括以下至少一项:非法符号去除、大小写转化和无效例删除。
本发明实施例中的异常日志检测装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device,MID)、超级移动个人计算机(ultra-mobile personalcomputer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,还可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personalcomputer,PC)等,本发明实施例不作具体限定。
本发明实施例提供的异常日志检测装置能够实现图1和图2的方法实施例实现的各个过程,为避免重复,这里不再赘述。
如图4所示,本发明实施例还提供一种电子设备40,包括处理器41和存储器42,存储器42上存储有可在所述处理器41上运行的程序或指令,该程序或指令被处理器41执行时实现上述异常日志检测方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本发明实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
本发明实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述异常日志检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
本发明实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述异常日志检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本发明实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
本发明实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述异常日志检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本发明实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (10)

1.一种异常日志检测方法,其特征在于,包括:
获取待检测的日志文件,所述日志文件中包括多行日志;
对所述日志文件进行情感分析,得到所述日志文件中的每一行日志的情感信息;
根据所述情感信息,确定所述日志文件中的每一行日志是否为异常日志。
2.根据权利要求1所述的方法,其特征在于,所述对所述日志文件进行情感分析,得到所述日志文件中的每一行日志的情感信息包括:
基于情感词典的方法对所述日志文件进行情感分析,得到所述日志文件中的每一行日志的情感信息;
或者
基于情感分析模型对所述日志文件进行情感分析,得到所述日志文件中的每一行日志的情感信息。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述日志文件进行情感分析,得到所述日志文件中的每一行日志的情感信息包括:
对所述日志文件中的每一行日志进行情感分析,得到所述日志文件中的每一行日志的情感信息;
或者,
对所述日志文件中的日志进行聚类分析,得到多个日志组;
对属于同一日志组的日志提取出一个日志模板;
对每个所述日志模板进行情感分析,得到每个所述日志模板的情感信息,其中,所述日志模板的情感信息为所述日志模板对应的日志组内的日志的情感信息。
4.根据权利要求3所述的方法,其特征在于,所述对所述日志文件中的日志进行聚类分析,得到多个日志组还包括:
通过正则表达式对所述日志文件进行处理,得到结构化的日志;
获取长度相同的所述结构化的日志;
从长度相同的所述结构化的日志中,获取令牌类型相同的日志,并划分到同一个日志组中。
5.根据权利要求3所述的方法,其特征在于,所述对每个所述日志模板进行情感分析,得到每个所述日志模板的情感信息包括:
将所述日志模板输入到情感分析模型中,得到所述情感分析模型输出的所述日志模板的情感信息,其中,所述情感分析模型采用自注意力机制对所述日志模板中的每一个词语进行处理,得到所述日志模板中的每个词语的特征,并分析所述日志模板中的词语之间的上下文交互信息,得到每个词语的特征权重,根据所述日志模板的每个词语的特征和所述每个词语的特征权重,得到所述日志模板的情感信息并输出。
6.根据权利要求1所述的方法,其特征在于,所述根据所述情感信息,确定所述日志文件中的每一行日志是否为异常日志包括:
根据所述情感信息的得分或类型,确定所述日志文件中的每一行日志是否为异常日志。
7.根据权利要求6所述的方法,其特征在于,所述根据所述情感信息的得分或类型,确定所述日志文件中的每一行日志是否为异常日志,包括:
将所述情感信息的得分为负数的日志标记为异常日志;
或者
将所述情感信息的类型为消极类型的日志标记为异常日志。
8.一种异常日志检测装置,其特征在于,包括:
第一获取模块,用于获取待检测的日志文件,所述日志文件中包括多行日志;
情感分析模块,用于对所述日志文件进行情感分析,得到所述日志文件中的每一行日志的情感信息;
确定模块,用于根据所述情感信息,确定所述日志文件中的每一行日志是否为异常日志。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-7任一项所述的异常日志检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-7任一项所述的异常日志检测方法的步骤。
CN202210554257.6A 2022-05-20 2022-05-20 异常日志检测方法、装置、电子设备及可读存储介质 Pending CN114969336A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210554257.6A CN114969336A (zh) 2022-05-20 2022-05-20 异常日志检测方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210554257.6A CN114969336A (zh) 2022-05-20 2022-05-20 异常日志检测方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN114969336A true CN114969336A (zh) 2022-08-30

Family

ID=82985605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210554257.6A Pending CN114969336A (zh) 2022-05-20 2022-05-20 异常日志检测方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114969336A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140123088A1 (en) * 2012-10-26 2014-05-01 Fujitsu Limited Design support program, design support method, and design support apparatus
CN110347547A (zh) * 2019-05-27 2019-10-18 中国平安人寿保险股份有限公司 基于深度学习的日志异常检测方法、装置、终端及介质
CN113111908A (zh) * 2021-03-03 2021-07-13 长沙理工大学 一种基于模板序列或词序列的bert异常检测方法及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140123088A1 (en) * 2012-10-26 2014-05-01 Fujitsu Limited Design support program, design support method, and design support apparatus
CN110347547A (zh) * 2019-05-27 2019-10-18 中国平安人寿保险股份有限公司 基于深度学习的日志异常检测方法、装置、终端及介质
CN113111908A (zh) * 2021-03-03 2021-07-13 长沙理工大学 一种基于模板序列或词序列的bert异常检测方法及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄天元: "《文本数据挖掘 基于R语言》", 30 April 2021, 机械工业出版社 *

Similar Documents

Publication Publication Date Title
CN114610515B (zh) 基于日志全语义的多特征日志异常检测方法及系统
CN110516067B (zh) 基于话题检测的舆情监控方法、系统及存储介质
CN113434357B (zh) 基于序列预测的日志异常检测方法及装置
CN109582833B (zh) 异常文本检测方法及装置
LeCompte et al. Sentiment analysis of tweets including emoji data
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN110674304A (zh) 实体消歧方法、装置、可读存储介质及电子设备
CN113032226A (zh) 异常日志的检测方法、装置、电子设备及存储介质
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN114785606B (zh) 一种基于预训练LogXLNet模型的日志异常检测方法、电子设备及存储介质
JP7155625B2 (ja) 検査装置、検査方法、プログラム及び学習装置
Samonte Polarity analysis of editorial articles towards fake news detection
CN114969334B (zh) 异常日志检测方法、装置、电子设备及可读存储介质
Tiwari et al. Comparative Analysis of Different Machine Learning Methods for Hate Speech Recognition in Twitter Text Data
CN111382366A (zh) 基于语言和非语言特征的社交网络用户识别方法及装置
Kavitha et al. A review on machine learning techniques for text classification
CN115757062A (zh) 一种基于句嵌入以及Transformer-XL的日志异常检测方法
CN114969336A (zh) 异常日志检测方法、装置、电子设备及可读存储介质
Zhu et al. Attention based BiLSTM-MCNN for sentiment analysis
Mathew et al. Paraphrase identification of Malayalam sentences-an experience
CN113420127A (zh) 威胁情报处理方法、装置、计算设备及存储介质
Khan et al. Sentiment Analysis using Support Vector Machine and Random Forest
Vaddadi et al. Exploration of COVID 19 Tweets Data for the Prediction of Negative Ontologies through Deep Learning Techniques
Pokharel Information Extraction Using Named Entity Recognition from Log Messages

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination