CN112199344B - 一种日志分类的方法和装置 - Google Patents

一种日志分类的方法和装置 Download PDF

Info

Publication number
CN112199344B
CN112199344B CN202011095293.8A CN202011095293A CN112199344B CN 112199344 B CN112199344 B CN 112199344B CN 202011095293 A CN202011095293 A CN 202011095293A CN 112199344 B CN112199344 B CN 112199344B
Authority
CN
China
Prior art keywords
log
frequent item
preprocessing
high confidence
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011095293.8A
Other languages
English (en)
Other versions
CN112199344A (zh
Inventor
尹威
范渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DBAPPSecurity Co Ltd
Original Assignee
DBAPPSecurity Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DBAPPSecurity Co Ltd filed Critical DBAPPSecurity Co Ltd
Priority to CN202011095293.8A priority Critical patent/CN112199344B/zh
Publication of CN112199344A publication Critical patent/CN112199344A/zh
Application granted granted Critical
Publication of CN112199344B publication Critical patent/CN112199344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请涉及一种日志分类的方法、装置、计算机设备和计算机可读存储介质,其中,所述方法通过利用关联规则在预处理日志中获得高置信度的频繁项集,该高置信度的频繁项集中所包含的信息就是分类所需的关键信息,即分类依据,替代了相关技术中采用人工提取关键信息的方式,此外,通过有对预处理日志和高置信度的频繁项集进行有效编码,生成日志向量和高置信度的频繁项集向量,将该高置信度的频繁项集向量作为聚类分析的初始聚类中心,能够极大限度地提升聚类效果,减少迭代次数,能够明显提高日志分类的效率及准确性,解决了相关技术中人工提取关键词造成日志分类效率低的问题和随机选取聚类中心造成分类结果可用性低的问题。

Description

一种日志分类的方法和装置
技术领域
本申请涉及计算机领域,特别是涉及一种日志分类的方法和装置。
背景技术
如今网络安全问题受到的关注日益增多,为避免网络安全问题的发生,人们会在网络中添加入侵检测系统或入侵防御系统等安全设备,这些系统及系统中的程序在运作时都会产生记录事件的日志,每一条日志都记载着日期、时间、运行事件、事件发起方等相关信息的描述。此外,无论多么复杂的病毒,在入侵电脑或者系统的时候总归会在日志中留下蛛丝马迹,因此,如何对日志分类,才能在快速在日志中识别出有限信息,显得尤为重要。
在相关技术中,通常采用聚类分析中的k-means算法对日志进行分类,在对日志进行聚类分析之前,需要人工提取关键词,当数据量大时,人工提取关键词容易出错且效率低,同时使用k-means算法进行日志分类,k-means算法在处理中是随机选取初始聚类中心的,若随机选取的聚类中心不适合,则得到好的分类效果。因此,相关技术中存在人工提取关键词造成日志分类效率低的问题和随机选取聚类中心造成分类结果可用性低的问题。
目前针对相关技术中人工提取关键词造成日志分类效率低的问题和随机选取聚类中心造成分类结果可用性低的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种日志分类的方法、装置、计算机设备和计算机可读存储介质,以至少解决相关技术中聚类分析前需人工提取关键词和初始聚类中心随机选取造成的日志分类效率低且分类结果可用性低的问题和日志分类过于细化,造成的日志分类效率低的问题。
第一方面,本申请实施例提供了一种日志分类的方法,所述方法包括:
获取待分类的原始日志;
利用正则表达式对所述原始日志中的常规信息进行归一化处理,得到被分割成若干个词的预处理日志,所述常规信息包括时间信息、地址信息、以及URL信息;
利用关联规则算法,从所述预处理日志中获得高置信度的频繁项集;
对所述预处理日志中的词进行去重,得到无重复的词集;
根据所述词集,对所述预处理日志和所述高置信度的频繁项集进行有效编码,获得日志向量和高置信度的频繁项集向量;
以所述高置信度的频繁项集向量为初始聚类中心,对所述日志向量和所述高置信度的频繁项集进行聚类分析,获得日志分类结果。
在其中一些实施例中,利用正则表达式对所述原始日志中的常规信息进行归一化处理,得到被分割成若干个词的预处理日志,包括:
将所述原始日志中的常规信息进行归一化处理,获得第一日志;
将所述第一日志中除所述常规信息中包含的数字外,将其他数字替换为预设数字,获得第二日志;
将所述第二日志中除所述常规信息中包含的连接线和下划线外的符号替换为空格,获得所述预处理日志。
在其中一些实施例中,所述将所述原始日志中的常规信息进行归一化处理,获得第一日志,包括:
将所述常规信息中的所述时间信息统一为第一预设格式,
将所述常规信息中的所述地址信息统一为第二预设格式,
将所述常规信息中的所述URL信息统一为第三预设格式,得到所述第一日志。
在其中一些实施例中,所述利用关联规则算法,从所述预处理日志中获得高置信度的频繁项集,包括:
根据预设支持度对所述预处理日志进行迭代,提取出多个频繁项集;
计算所述多个频繁项集的置信度;
根据预设置信度从所述多个频繁项集中选取所述高置信度的频繁项集。
在其中一些实施例中,所述对所述预处理日志中的词进行去重,得到无重复的词集,包括:
提取所述预处理日志中的所有词,获得初步词集;
删除所述初步词集中的重复词,得到所述词集。
在其中一些实施例中,所述根据所述词集,对所述预处理日志和所述高置信度的频繁项集进行有效编码,获得日志向量和高置信度的频繁项集向量,包括:
根据所述词集,确定所述词集中的词的数量;
根据所述词的数量,对所述预处理日志和所述高置信度的频繁项集进行有效编码,获得所述日志向量和所述高置信度的频繁项集向量。
第二方面,本申请实施例提供了一种日志分类的装置,所述装置包括第一获取模块、归一化模块、第二获取模块、词集模块、有效编码模块和聚类分析模块;
所述第一获取模块,用于获取待分类的原始日志;
所述归一化模块,利用正则表达式对所述原始日志中的常规信息进行归一化处理,得到被分割成若干个词的预处理日志;所述常规信息包括时间信息、地址信息、以及URL信息;
所述第二获取模块,用于利用关联规则算法,从所述预处理日志中获得高置信度的频繁项集;
所述词集模块,用于对所述预处理日志中的词进行去重,得到无重复的词集;
所述有效编码模块,用于根据所述词集,对所述预处理日志和所述高置信度的频繁项集进行有效编码,获得日志向量和高置信度的频繁项集向量;
所述聚类分析模块,用于以所述高置信度的频繁项集向量为初始聚类中心,对所述日志向量和所述高置信度的频繁项集进行聚类分析,获得日志分类结果。
在其中一些实施例中,所述归一化模块包括归一化单元、第一替换单元、以及第二替换单元;
所述归一化单元,用于将所述原始日志中的常规信息进行归一化处理,获得第一日志;
所述第一替换单元,用于将所述第一日志中除所述常规信息中包含的数字外,将其他数字替换为预设数字,获得第二日志;
所述第二替换单元,用于将所述第二日志中除所述常规信息中包含的连接线和下划线外的符号替换为空格,获得所述预处理日志。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第以方面所述的日志分类的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的日志分类的方法。
相比于相关技术,本申请实施例提供的一种日志分类的方法、装置、计算机设备和计算机可存储介质,通过利用关联规则在预处理日志中获得高置信度的频繁项集,该高置信度的频繁项集中所包含的信息就是分类所需的关键信息,即分类依据,替代了相关技术中采用人工提取关键信息的方式,此外,通过有对预处理日志和高置信度的频繁项集进行有效编码,生成日志向量和高置信度的频繁项集向量,将该高置信度的频繁项集向量作为聚类分析的初始聚类中心,能够极大限度地提升聚类效果,减少迭代次数,能够明显提高日志分类的效率及准确性,解决了相关技术中人工提取关键词造成日志分类效率低的问题和随机选取聚类中心造成分类结果可用性低的问题。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种日志分类的方法的流程图;
图2是根据本申请实施例的一种日志分类的装置的结构图;
图3是根据本发明实施例中一种日志分类的方法的计算机设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本发明可用于任何基于日志的异常分析或用户行为追踪预测的系统。
目前日志分类的方法,需要人工比对原始日志中的差异部分,找到分类关键词,即分类依据,所以分类依据时常会找错。而且每分出一类日志就要重新确定关键词,重新执行代码,直到最后输出文件为空,才算分类完毕,整个过程十分耗时。且过于细化的分类反而会降低日志解析的效率。此外,运用聚类的方法对日志进行分类,在聚类分析之前同样先进行人工提取关键词或需要人工标注日志中各字段序列,耗费大量精力。若运用K-means聚类的方法,初始的集群数量和聚类中心是随机选择的,聚类效果的好坏很大程度上取决于初始聚类中心的选择。
基于以上问题,本发明中利用关联规则算法替代人工寻找各个类别日志中的关键词的方法,来确定初始的分类依据,节约了人工选择的时间,避免了人工提取分类依据的遗漏,缺失现象。另外本发明还提供了一种将关联规则挖掘出的频繁项集作为K-means聚类初始聚类中心的方法,使得聚类中心的选择有理可依,比起随机选择聚类中心的方法,该方法能够有效提升聚类效果,减少迭代次数,加快聚类效率,从而可以在不耗费人力的前提下,短时间内对大量日志进行分类处理,得到方便解析和后续的日志分析的分类结果。
本实施例提供了一种日志分类的方法,可用于日志分类,图1是根据本申请实施例的一种日志分类的方法的流程图,如图1所示,该方法包括:
步骤S101,获取待分类的原始日志。
步骤S102,利用正则表达式对所述原始日志中的常规信息进行归一化处理,得到被分割成若干个词的预处理日志,所述常规信息包括时间信息、地址信息、以及URL信息。
上述常规信息在日志中出现频繁且常规,在本方法中并不会作为分类依据的信息,将该常规信息归一化处理是为了统一格式,方便后续处理。上述地址信息包含源地址信息与目的地址信息。
步骤S103,利用关联规则算法,从所述预处理日志中获得高置信度的频繁项集。该关联规则算法采用的是Apriori算法。
该高置信度的频繁项集中包含的信息是后续日志分类中重要的分类依据。
步骤S104,对所述预处理日志中的词进行去重,得到无重复的词集。
去重是为了节约资源,提高后续日志分类的效率。
步骤S105,根据所述词集,对所述预处理日志和所述高置信度的频繁项集进行有效编码,获得日志向量和高置信度的频繁项集向量。
该有效编码,也称one-hot编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都有独立的寄存器位,并且在任意时候只有一位有效。
步骤S106,以所述高置信度的频繁项集向量为初始聚类中心,对所述日志向量和所述高置信度的频繁项集进行聚类分析,获得日志分类结果。
此处采用的聚类分析是k-means算法,与普通k-means算法随机选取初始聚类中心不同的是,此步骤中已指定所述高置信度的频繁项集向量为初始聚类中心。
通过上述步骤S101至步骤S106,通过利用关联规则在预处理日志中获得高置信度的频繁项集,该高置信度的频繁项集中所包含的信息就是分类所需的关键信息,即分类依据,替代了相关技术中采用人工提取关键信息的方式,此外,通过有对预处理日志和高置信度的频繁项集进行有效编码,生成日志向量和高置信度的频繁项集向量,将该高置信度的频繁项集向量作为聚类分析的初始聚类中心,能够极大限度地提升聚类效果,减少迭代次数,能够明显提高日志分类的效率及准确性,解决了相关技术中人工提取关键词造成日志分类效率低的问题和随机选取聚类中心造成分类结果可用性低的问题。
在其中一些可选实施例中,上述步骤S102,利用关联规则算法,从所述预处理日志中获得高置信度的频繁项集,可以通过以下步骤实现:
步骤S1021,将所述原始日志中的常规信息进行归一化处理,获得第一日志。将该常规信息归一化处理是为了统一格式,方便后续利用关联规则算法抽取频繁项集。
步骤S1022,将所述第一日志中除所述常规信息中包含的数字外,将其他数字替换为预设数字,获得第二日志。该预设数字可以是0至9之间任一自然数。
步骤S1023,将所述第二日志中除所述常规信息中包含的连接线和下划线外的符号替换为空格,获得所述预处理日志。
其中连接符“-”和下划线“_”不能被替换的原因是这两个符号通常被用于连接多个单词形成具有新的含义的合成词,因此需要保留日志中的连接符“-”和下划线“_”,以免破坏原有日志中某些字段的含义。例如日志中有个字段名为“destination-port”,改字段含义为目的地端口,如果直接将连接符“-”替换成空格,则改字段就会变成两个字段,含义分别为“目的地”和“端口”。因此连接符“-”和下划线“_”需要被保留。
在其中一些可选实施例中,上述步骤S1021,将所述原始日志中的常规信息进行归一化处理,获得第一日志,可以通过以下步骤实现:
步骤S10211,将所述常规信息中的所述时间信息统一为第一预设格式。该第一预设格式可以根据具体需求去改变,例如yyyy-MM-dd HH:mm:ss。
步骤S1022,将所述常规信息中的所述地址信息统一为第二预设格式。可以将所述第二预设格式设为xx.xx.xx.xx,也可以根据具体需求改变该第二预设格式,该地址信息为日志中的源IP地址与目的IP地址。
步骤S10223,将所述常规信息中的所述URL信息统一为第三预设格式。该第三预设格式可以为xxx.xxx.xxx,也可以根据具体需求去改变。
在其中一些可选实施例中,上述步骤S103,利用关联规则算法,从所述预处理日志中获得高置信度的频繁项集,可以通过以下步骤实现:
步骤S1031,根据预设支持度对所述预处理日志进行迭代,提取出多个频繁项集。扫描预处理日志的数据库,找到候选1项集及计算各个1项集所对应的支持度,将低于设定的最小支持度minSup的1项集进行减枝,就得到了频繁1项集,对频繁1项集进行相互连接,产生了候选2项集,筛选去掉低于支持度的候选2项集,得到了频繁2项集,以此类推,迭代下去,直至候选m项集为空集或无法找到频繁k+1项集为止,对应的频繁k项集的集合即为算法的输出结果,该输出结果即为上述步骤中的多个频繁项集。
步骤S1032,计算所述多个频繁项集的置信度。计算频繁项集的置信度是为了选取关联规则。
步骤S1033,根据预设置信度从所述多个频繁项集中选取所述高置信度的频繁项集。选取置信度高于最小置信度的频繁项集作为强关联规则。至此,就能发现满足条件的强关联规则,也就是置信度较高的频繁项集,就是我们所说的日志分类依据。
在其中一些可选实施例中,步骤S104,对所述预处理日志中的词进行去重,得到无重复的词集。去重是为了节约资源,提高后续日志分类的效率,还能通过以下步骤实现:
步骤S1041,提取所述预处理日志中的所有词,获得初步词集。预处理日志中本就村北被空格分割的多个词,将这些词提取出来,就组成了初步词集。
步骤S1042,删除所述初步词集中的重复词,得到所述词集。为了提高效率,在初步词集中去重。
在其中一些可选实施例中,步骤S105,根据所述词集,对所述预处理日志和所述高置信度的频繁项集进行有效编码,获得日志向量和高置信度的频繁项集向量,可以通过以下步骤实现:
步骤S1051,根据所述词集,确定所述词集中的词的数量。确定所述词集词的数量用于后续有效编码。若所述词集为“please Protocol DstIP fix EvtCount Multi-activeyyyy-MM-dd HH:mm:ss devices it Content”,词的数量为10。
步骤S1052,根据所述词的数量,对所述预处理日志和所述高置信度的频繁项集进行有效编码,获得所述日志向量和所述高置信度的频繁项集向量。词集中词的数量决定了所述频繁集向量和所述日志向量的维度。例如,对上述“please Protocol DstIP fixEvtCount Multi-active yyyy-MM-dd HH:mm:ss devices it Content”进行有效编码,获得向量(1 0 0 1 0 1 0 1 1 0)。基于同一发明构思,本申请还提供了一种日志分类的装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供了一种日志分类的装置,可用于日志分类,图2是根据本申请实施例的一种日志分类的装置的结构图,如图2所示,所述装置包括第一获取模块21、归一化模块22、第二获取模块23、词集模块24、有效编码模块25和聚类分析模块26。
所述第一获取模块21,用于获取待分类的原始日志。
所述归一化模块22,利用正则表达式对所述原始日志中的常规信息进行归一化处理,得到被分割成若干个词的预处理日志。所述常规信息包括时间信息、地址信息、以及URL信息。
所述第二获取模块23,用于利用关联规则算法,从所述预处理日志中获得高置信度的频繁项集。
所述词集模块24,用于对所述预处理日志中的词进行去重,得到无重复的词集。
所述有效编码模块25,用于根据所述词集,对所述预处理日志和所述高置信度的频繁项集进行有效编码,获得日志向量和高置信度的频繁项集向量。
所述聚类分析模块26,用于以所述高置信度的频繁项集向量为初始聚类中心,对所述日志向量和所述高置信度的频繁项集进行聚类分析,获得日志分类结果。
在其中一些可选实施例中,上述归一化模块22包括归一化单元、第一替换单元、以及第二替换单元;
所述归一化单元,用于将所述原始日志中的常规信息进行归一化处理,获得第一日志;
所述第一替换单元,用于将所述第一日志中除所述常规信息中包含的数字外,将其他数字替换为预设数字,获得第二日志;
所述第二替换单元,用于将所述第二日志中除所述常规信息中包含的连接线和下划线外的符号替换为空格,获得所述预处理日志。
在一个实施例中,提供了一种计算机设备,图3是根据本发明实施例中一种日志分类的方法的计算机设备的结构示意图,该计算机设备可以是服务器,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储日志信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。所述处理器执行所述计算机程序时实现一种日志分类的方法,包括以下步骤:
S1,获取待分类的原始日志。
S2,利用正则表达式对所述原始日志中的常规信息进行归一化处理,得到被分割成若干个词的预处理日志,所述常规信息包括时间信息、地址信息、以及URL信息。
S3,利用关联规则算法,从所述预处理日志中获得高置信度的频繁项集。
S4,对所述预处理日志中的词进行去重,得到无重复的词集。
S5,根据所述词集,对所述预处理日志和所述高置信度的频繁项集进行有效编码,获得日志向量和高置信度的频繁项集向量。
S6,以所述高置信度的频繁项集向量为初始聚类中心,对所述日志向量和所述高置信度的频繁项集进行聚类分析,获得日志分类结果。
作为一种可实施方式,上述步骤S2可以通过以下步骤实现:
S21,将所述原始日志中的常规信息进行归一化处理,获得第一日志。
S22,将所述第一日志中除所述常规信息中包含的数字外,将其他数字替换为预设数字,获得第二日志。
S23,将所述第二日志中除所述常规信息中包含的连接线和下划线外的符号替换为空格,获得所述预处理日志。
作为一种可实施方式,上述步骤S21可以通过以下步骤实现:
S211,将所述常规信息中的所述时间信息统一为第一预设格式。
S212,将所述常规信息中的所述地址信息统一为第二预设格式。
S213,将所述常规信息中的所述URL信息统一为第三预设格式。
作为一种可实施方式,上述步骤S3可以通过以下步骤实现:
S31,根据预设支持度对所述预处理日志进行迭代,提取出多个频繁项集。
S32,计算所述多个频繁项集的置信度。
S33,根据预设置信度从所述多个频繁项集中选取所述高置信度的频繁项集。
作为一种可实施方式,上述步骤S4可以通过以下步骤实现:
S41,提取所述预处理日志中的所有词,获得初步词集。
S42,删除所述初步词集中的重复词,得到所述词集。
作为一种可实施方式,上述步骤S5可以通过以下步骤实现:
S51,根据所述词集,确定所述词集中的词的数量。
S52,根据所述词的数量,对所述预处理日志和所述高置信度的频繁项集进行有效编码,获得所述日志向量和所述高置信度的频繁项集向量。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种日志分类的方法,包括以下步骤:
S1,获取待分类的原始日志。
S2,利用正则表达式对所述原始日志中的常规信息进行归一化处理,得到被分割成若干个词的预处理日志,所述常规信息包括时间信息、地址信息、以及URL信息。
S3,利用关联规则算法,从所述预处理日志中获得高置信度的频繁项集。
S4,对所述预处理日志中的词进行去重,得到无重复的词集。
S5,根据所述词集,对所述预处理日志和所述高置信度的频繁项集进行有效编码,获得日志向量和高置信度的频繁项集向量。
S6,以所述高置信度的频繁项集向量为初始聚类中心,对所述日志向量和所述高置信度的频繁项集进行聚类分析,获得日志分类结果。
作为一种可实施方式,上述步骤S2可以通过以下步骤实现:
S21,将所述原始日志中的常规信息进行归一化处理,获得第一日志。
S22,将所述第一日志中除所述常规信息中包含的数字外,将其他数字替换为预设数字,获得第二日志。
S23,将所述第二日志中除所述常规信息中包含的连接线和下划线外的符号替换为空格,获得所述预处理日志。
作为一种可实施方式,上述步骤S21可以通过以下步骤实现:
S211,将所述常规信息中的所述时间信息统一为第一预设格式。
S212,将所述常规信息中的所述地址信息统一为第二预设格式。
S213,将所述常规信息中的所述URL信息统一为第三预设格式。
作为一种可实施方式,上述步骤S3可以通过以下步骤实现:
S31,根据预设支持度对所述预处理日志进行迭代,提取出多个频繁项集。
S32,计算所述多个频繁项集的置信度。
S33,根据预设置信度从所述多个频繁项集中选取所述高置信度的频繁项集。
作为一种可实施方式,上述步骤S4可以通过以下步骤实现:
S41,提取所述预处理日志中的所有词,获得初步词集。
S42,删除所述初步词集中的重复词,得到所述词集。
作为一种可实施方式,上述步骤S5可以通过以下步骤实现:
S51,根据所述词集,确定所述词集中的词的数量。
S52,根据所述词的数量,对所述预处理日志和所述高置信度的频繁项集进行有效编码,获得所述日志向量和所述高置信度的频繁项集向量。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种日志分类的方法,其特征在于,包括:
获取待分类的原始日志;
利用正则表达式对所述原始日志中的常规信息进行归一化处理,得到被分割成若干个词的预处理日志,所述常规信息包括时间信息、地址信息、以及URL信息;
利用关联规则算法,从所述预处理日志中获得高置信度的频繁项集;所述利用关联规则算法,从所述预处理日志中获得高置信度的频繁项集,包括:根据预设支持度对所述预处理日志进行迭代,提取出多个频繁项集;计算所述多个频繁项集的置信度;根据预设置信度从所述多个频繁项集中选取所述高置信度的频繁项集;
对所述预处理日志中的词进行去重,得到无重复的词集;
根据所述词集,确定所述词集中的词的数量;根据所述词的数量,对所述预处理日志和所述高置信度的频繁项集进行有效编码,获得日志向量和高置信度的频繁项集向量;
以所述高置信度的频繁项集向量为初始聚类中心,对所述日志向量和所述高置信度的频繁项集进行聚类分析,获得日志分类结果。
2.根据权利要求1所述的方法,其特征在于,利用正则表达式对所述原始日志中的常规信息进行归一化处理,得到被分割成若干个词的预处理日志,包括:
将所述原始日志中的常规信息进行归一化处理,获得第一日志;
将所述第一日志中除所述常规信息中包含的数字外,将其他数字替换为预设数字,获得第二日志;
将所述第二日志中除所述常规信息中包含的连接线和下划线外的符号替换为空格,获得所述预处理日志。
3.根据权利要求2所述的方法,其特征在于,所述将所述原始日志中的常规信息进行归一化处理,获得第一日志,包括:
将所述常规信息中的所述时间信息统一为第一预设格式,将所述常规信息中的所述地址信息统一为第二预设格式,将所述常规信息中的所述URL信息统一为第三预设格式,得到所述第一日志。
4.根据权利要求1所述的方法,其特征在于,所述对所述预处理日志中的词进行去重,得到无重复的词集,包括:
提取所述预处理日志中的所有词,获得初步词集;
删除所述初步词集中的重复词,得到所述词集。
5.一种日志分类的装置,其特征在于,所述装置包括第一获取模块、归一化模块、第二获取模块、词集模块、有效编码模块和聚类分析模块;
所述第一获取模块,用于获取待分类的原始日志;
所述归一化模块,利用正则表达式对所述原始日志中的常规信息进行归一化处理,得到被分割成若干个词的预处理日志;所述常规信息包括时间信息、地址信息、以及URL信息;
所述第二获取模块,用于利用关联规则算法,从所述预处理日志中获得高置信度的频繁项集;所述利用关联规则算法,从所述预处理日志中获得高置信度的频繁项集,包括:根据预设支持度对所述预处理日志进行迭代,提取出多个频繁项集;计算所述多个频繁项集的置信度;根据预设置信度从所述多个频繁项集中选取所述高置信度的频繁项集;
所述词集模块,用于对所述预处理日志中的词进行去重,得到无重复的词集;
所述有效编码模块,用于根据所述词集,确定所述词集中的词的数量;根据所述词的数量,对所述预处理日志和所述高置信度的频繁项集进行有效编码,获得日志向量和高置信度的频繁项集向量;
所述聚类分析模块,用于以所述高置信度的频繁项集向量为初始聚类中心,对所述日志向量和所述高置信度的频繁项集进行聚类分析,获得日志分类结果。
6.根据权利要求5所述的装置,其特征在于,所述归一化模块包括归一化单元、第一替换单元、以及第二替换单元;
所述归一化单元,用于将所述原始日志中的常规信息进行归一化处理,获得第一日志;
所述第一替换单元,用于将所述第一日志中除所述常规信息中包含的数字外,将其他数字替换为预设数字,获得第二日志;
所述第二替换单元,用于将所述第二日志中除所述常规信息中包含的连接线和下划线外的符号替换为空格,获得所述预处理日志。
7.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的日志分类的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一项所述的日志分类的方法。
CN202011095293.8A 2020-10-14 2020-10-14 一种日志分类的方法和装置 Active CN112199344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011095293.8A CN112199344B (zh) 2020-10-14 2020-10-14 一种日志分类的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011095293.8A CN112199344B (zh) 2020-10-14 2020-10-14 一种日志分类的方法和装置

Publications (2)

Publication Number Publication Date
CN112199344A CN112199344A (zh) 2021-01-08
CN112199344B true CN112199344B (zh) 2024-03-19

Family

ID=74010464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011095293.8A Active CN112199344B (zh) 2020-10-14 2020-10-14 一种日志分类的方法和装置

Country Status (1)

Country Link
CN (1) CN112199344B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113886199B (zh) * 2021-08-31 2024-04-19 联想(北京)有限公司 一种数据处理方法及装置
CN114860673B (zh) * 2022-07-06 2022-09-30 南京聚铭网络科技有限公司 基于动静结合的日志特征识别方法及装置
CN117033464B (zh) * 2023-08-11 2024-04-02 上海鼎茂信息技术有限公司 一种基于聚类的日志并行解析算法及应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868328A (zh) * 2016-03-28 2016-08-17 中国银联股份有限公司 用于日志关联分析的方法和装置
CN109446816A (zh) * 2018-10-18 2019-03-08 中电科大数据研究院有限公司 一种基于大数据平台审计日志的用户行为分析方法
CN111159127A (zh) * 2018-11-07 2020-05-15 中移(苏州)软件技术有限公司 一种基于Apriori算法的日志分析的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868328A (zh) * 2016-03-28 2016-08-17 中国银联股份有限公司 用于日志关联分析的方法和装置
CN109446816A (zh) * 2018-10-18 2019-03-08 中电科大数据研究院有限公司 一种基于大数据平台审计日志的用户行为分析方法
CN111159127A (zh) * 2018-11-07 2020-05-15 中移(苏州)软件技术有限公司 一种基于Apriori算法的日志分析的方法及装置

Also Published As

Publication number Publication date
CN112199344A (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
CN112199344B (zh) 一种日志分类的方法和装置
US8898120B1 (en) Systems and methods for distributed data deduplication
US11163734B2 (en) Data processing method and system and client
US11734364B2 (en) Method and system for document similarity analysis
CN106844576B (zh) 一种异常检测方法、装置和监控设备
WO2021258848A1 (zh) 数据字典生成方法、数据查询方法、装置、设备及介质
US9355250B2 (en) Method and system for rapidly scanning files
US20130179413A1 (en) Compressed Distributed Storage Systems And Methods For Providing Same
CN112099725A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN112445912B (zh) 一种故障日志分类方法、系统、设备以及介质
US9298757B1 (en) Determining similarity of linguistic objects
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN113268453A (zh) 日志信息压缩存储方法及装置
CN115934926A (zh) 信息提取方法、装置、计算机设备、存储介质
CN117216239A (zh) 文本去重方法、装置、计算机设备及存储介质
CN110532449B (zh) 一种业务文档的处理方法、装置、设备和存储介质
US9390073B2 (en) Electronic file comparator
WO2016093839A1 (en) Structuring of semi-structured log messages
CN113836157A (zh) 获取数据库增量数据的方法和装置
US9507814B2 (en) Bit level comparator systems and methods
CN110096478B (zh) 文档索引生成方法及设备
CN113992625B (zh) 域名源站探测方法、系统、计算机及可读存储介质
CN112784596A (zh) 一种识别敏感词的方法和装置
CN116737495A (zh) 运行状态确定方法、装置、计算机设备和存储介质
US20180276290A1 (en) Relevance optimized representative content associated with a data storage system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant