CN116893943A - 一种日志范化策略匹配方法、装置及电子设备 - Google Patents
一种日志范化策略匹配方法、装置及电子设备 Download PDFInfo
- Publication number
- CN116893943A CN116893943A CN202310832011.5A CN202310832011A CN116893943A CN 116893943 A CN116893943 A CN 116893943A CN 202310832011 A CN202310832011 A CN 202310832011A CN 116893943 A CN116893943 A CN 116893943A
- Authority
- CN
- China
- Prior art keywords
- log
- phrase
- original
- sample
- original log
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010606 normalization Methods 0.000 title claims abstract description 212
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000012216 screening Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012550 audit Methods 0.000 description 35
- 238000004458 analytical method Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000001914 filtration Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
- G06F11/3068—Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data format conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请提供了一种日志范化策略匹配方法、装置及电子设备,涉及网络安全技术领域。在本申请中获取第一样本属性标签对应的第一原始日志集合;从第一原始日志集合中,选取出包含相同词组类型的各个待选原始日志,得到第二原始日志集合;在第二原始日志集合中选择任意一个待选原始日志作为目标日志,并确定目标日志所包含的第一词组,将第一词组与各个样本日志词组进行匹配;若匹配结果不为空,则获取与第一词组对应的第一范化策略集合,在确定第一范化策略集合中仅包含一条待选范化策略时,将待选范化策略作为目标日志的目标范化策略;若匹配结果为空,则为目标日志新建范化策略,采用上述方式,能够提高日志范化策略的匹配效率。
Description
技术领域
本申请涉及网络安全技术领域,尤其涉及一种日志范化策略匹配方法、装置及电子设备。
背景技术
日志是网络设备、系统、服务程序等,在运行时产生的事件记录,记录着日期、时间、使用者及动作等相关操作的描述。
一类网络设备在运行时,会按照设定的日志格式生成特定的日志记录,由于不同网络设备所设定的日志格式不同,因而会产生不同类型的各类日志记录。在对生成的各类日志进行分析之前,通常需要利用日志解析技术对各类日志进行解析,获取日志中所蕴含的有价值的信息。
目前,对日志进行解析和范化仍需依靠人工处理,在当前的日志审计系统中,日志审计系统接入有大量的,并且由不同网络设备按照各自的日志书写格式书写、记录的各类日志。通常情况下,一种书写格式的日志对应于一种特定的范化策略,范化策略指对日志进行解析的解析规则,而实际对于各类日志进行解析所制作的范化策略总数是有限的。
在现有技术中,为了对不同书写格式的日志匹配较为适宜的范化策略,利用范化策略对日志进行解析。日志审计系统会按照预设的范化策略优先级,从其所提供的范化策略集合中选取出优先级较高的范化策略与日志轮询匹配。例如,日志审计系统中存在范化策略1、范化策略2,且范化策略1的优先级大于范化策略2的优先级;选取出范化策略1,并将范化策略1与日志进行比对,判断日志是否满足范化策略1所设定的日志解析规则使用条件,若是,则将范化策略1作为日志的目标范化策略;若否,将范化策略2与日志进行比对。
然而,若在日志的数据量较大时,仍采用上述轮询的方式为不同书写格式的日志匹配范化策略,会存在日志范化策略匹配效率低的问题,降低了日志分析、处理的效率。
发明内容
本发明申请提供了一种日志范化策略匹配方法、装置、电子设备及存储介质,用以提高日志范化策略的匹配效率。具体技术方案如下:
第一方面,本申请提供了一种日志范化策略匹配方法,包括:
获取第一样本属性标签对应的第一原始日志集合,其中,所述第一样本属性标签表征一类范化策略集合对应的标识;
从所述第一原始日志集合中,选取出包含相同词组类型的各个待选原始日志,得到第二原始日志集合;
在所述第二原始日志集合中选择任意一个待选原始日志作为目标日志,并确定所述目标日志所包含的第一词组,将所述第一词组与设定的样本日志词组集合中的各个样本日志词组进行匹配,其中,所述样本日志词组集合中的一个样本日志词组对应一个范化策略;
若所述样本日志词组集合中存在与所述第一词组相匹配的样本日志词组,则获取与所述第一词组对应的第一范化策略集合,在确定所述第一范化策略集合中仅包含一条待选范化策略时,将所述待选范化策略作为所述目标日志的目标范化策略;
若所述样本日志词组集合中不存在与所述第一词组相匹配的样本日志词组,则为所述目标日志新建范化策略。
基于上述的方法,将包含相同词组类型的日志归类到同一簇,能够实现对日志的批量化匹配范化策略;选取同一簇中的任意一个待选原始日志作为目标日志,基于目标日志所包含的词组,与设定的样本日志词组集合中的各个样本日志词组进行词组匹配,能够准确的为同一簇中的各个待选原始日志分别匹配各自相适宜的范化策略,提升了日志与范化策略之间匹配的准确度,并且提高了日志范化策略的匹配效率。
在一种可能的实现中,所述获取第一样本属性标签对应的第一原始日志集合之前,还包括:
获取原始日志对应的属性标签和设定的样本属性标签集合;
从所述样本属性标签集合中选取出一个待选样本属性标签作为第一样本属性标签;
提取所述第一样本属性标签中的第一优先级值和第一键值对数;
判断所述原始日志中的原始优先级值和原始键值对数是否与所述第一优先级值和第一键值对数相匹配;
若是,则将所述原始日志添加到所述第一样本属性标签对应的第一原始日志集合中,轮询下一条原始日志;
若否,则将所述原始日志添加到所述样本属性标签集合中剩余样本属性标签对应的剩余原始日志集合中。
基于上述的方式,能够初步的选取出满足各个待选样本属性标签各自对应的优先级值和键值对数条件的原始日志,并且对于一些绑定有相应范化策略信息的原始日志,可以直接从范化策略集合中选取出与该类日志对应的范化策略,能够减少后续对各类原始日志做准确匹配的数量,降低了系统的资源开销。
在一种可能的实现中,所述从所述第一原始日志集合中,选取出包含相同词组类型的各个待选原始日志,得到第二原始日志集合,包括:
确定所述第一原始日志集合中的各个第一原始日志各自对应的词组类型;
对所述第一原始日志集合中的各个第一原始日志按照词组类型进行聚类;
得到包含第一词组类型的第一待选原始日志集合和包含第二词组类型的第二待选原始日志集合;
在所述第一待选原始日志集合和所述第二待选原始日志集合中,选取出满足设定词组出现频次条件的目标日志集合,并将所述目标日志集合作为第二原始日志集合。
基于上述的方法,能够将包含相同词组类型的各个原始日志归类到同一簇,实现对日志的批量化匹配范化策略。
在一种可能的实现中,所述确定所述第一原始日志集合中的各个第一原始日志各自对应的词组类型,包括:
选择所述第一原始日志集合中的任意一个第一原始日志;
将所述第一原始日志中的文本内容按照设定的词组长度M进行划分,划分为多个词组,其中,所述多个词组中的任意一个待选词组与所述待选词组的前一个待选词组相关联,M为大于等于2的正整数;
统计所述多个词组各自在设定的词组集合中出现的次数,确定所述多个词组中出现次数最多的高频词组,其中,所述词组集合包括从各类原始日志的文本中提取的标定词组;
将所述高频词组的词组类型作为所述第一原始日志的词组类型。
基于上述的方法,能够确定第一原始日志集合中各个第一原始日志各自的词组类型,将第一原始日志中的文本内容按照设定的词组长度M进行划分,且M可设置为2、3、4,首先M取值为2,然后基于实际的匹配结果,确定是否递增M,重复精准匹配的步骤继续为各个第一原始日志匹配最优的目标范化策略,这种方式可以尽可能的聚类相同类型的原始日志,为聚类后的各类原始日志匹配各自相适宜的范化策略,提高了日志范化策略的匹配效率。
第二方面,本申请提供了一种范化策略匹配装置,包括:
数据获取模块,用于获取第一样本属性标签对应的第一原始日志集合,其中,所述第一样本属性标签表征一类范化策略集合对应的标识;
数据筛选模块,用于从所述第一原始日志集合中,选取出包含相同词组类型的各个待选原始日志,得到第二原始日志集合;
范化策略匹配模块,用于在所述第二原始日志集合中选择任意一个待选原始日志作为目标日志,并确定所述目标日志所包含的第一词组,将所述第一词组与设定的样本日志词组集合中的各个样本日志词组进行匹配,其中,所述样本日志词组集合中的一个样本日志词组对应一个范化策略;
若所述样本日志词组集合中存在与所述第一词组相匹配的样本日志词组,则获取与所述第一词组对应的第一范化策略集合,在确定所述第一范化策略集合中仅包含一条待选范化策略时,将所述待选范化策略作为所述目标日志的目标范化策略;
若所述样本日志词组集合中不存在与所述第一词组相匹配的样本日志词组,则为所述目标日志新建范化策略。
在一种可能的实现中,所述数据获取模块,还用于:
获取原始日志对应的属性标签和设定的样本属性标签集合;
从所述样本属性标签集合中选取出一个待选样本属性标签作为第一样本属性标签;
提取所述第一样本属性标签中的第一优先级值和第一键值对数;
判断所述原始日志中的原始优先级值和原始键值对数是否与所述第一优先级值和第一键值对数相匹配;
若是,则将所述原始日志添加到所述第一样本属性标签对应的第一原始日志集合中,轮询下一条原始日志;
若否,则将所述原始日志添加到所述样本属性标签集合中剩余样本属性标签对应的剩余原始日志集合中。
在一种可能的实现中,所述数据筛选模块,具体用于:
确定所述第一原始日志集合中的各个第一原始日志各自对应的词组类型;
对所述第一原始日志集合中的各个第一原始日志按照词组类型进行聚类;
得到包含第一词组类型的第一待选原始日志集合和包含第二词组类型的第二待选原始日志集合;
在所述第一待选原始日志集合和所述第二待选原始日志集合中,选取出满足设定词组出现频次条件的目标日志集合,并将所述目标日志集合作为第二原始日志集合。
在一种可能的实现中,所述数据筛选模块,具体用于:
选择所述第一原始日志集合中的任意一个第一原始日志;
将所述第一原始日志中的文本内容按照设定的词组长度M进行划分,划分为多个词组,其中,所述多个词组中的任意一个待选词组与所述待选词组的前一个待选词组相关联,M为大于等于2的正整数;
统计所述多个词组各自在设定的词组集合中出现的次数,确定所述多个词组中出现次数最多的高频词组,其中,所述词组集合包括从各类原始日志的文本中提取的标定词组;
将所述高频词组的词组类型作为所述第一原始日志的词组类型。
第三方面,本申请提供了一种电子设备,包括:
存储器,用于存放计算机程序;
处理器,用于执行所述存储器上所存放的计算机程序时,实现上述的日志范化策略匹配方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述的日志范化策略匹配方法的步骤。
上述第二方面至第四方面中的各个方面以及各个方面可能达到的技术效果请参照上述针对第一方面或第一方面中的各种可能方案可以达到的技术效果说明,这里不再重复赘述。
附图说明
图1为本申请提供的一种日志范化策略匹配方法的流程图;
图2为本申请提供的日志范化策略匹配系统架构示意图;
图3为本申请提供的标签匹配和精准匹配的流程图;
图4为本申请提供的一种日志范化策略匹配装置结构示意图;
图5为本申请提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述。方法实施例中的具体操作方法也可以应用于装置实施例或系统实施例中。需要说明的是,在本申请的描述中“多个”理解为“至少两个”。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。A与B连接,可以表示:A与B直接连接和A与B通过C连接这两种情况。另外,在本申请的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
下面结合附图,对本申请实施例进行详细描述。
日志是网络设备、系统、服务程序等,在运行时产生的事件记录,记录着日期、时间、使用者及动作等相关操作的描述。
一类网络设备在运行时,会按照设定的日志格式生成特定的日志记录,由于不同网络设备所设定的日志格式不同,因而会产生不同类型的各类日志记录。在对生成的各类日志进行分析之前,通常需要利用日志解析技术对各类日志进行解析,获取日志中所蕴含的有价值的信息。
目前,对日志进行解析和范化仍需依靠人工处理,在当前的日志审计系统中,日志审计系统接入有大量的,并且由不同网络设备按照各自的日志书写格式书写、记录的各类日志。通常情况下,一种书写格式的日志对应于一种特定的范化策略,范化策略指对日志进行解析的解析规则,而实际对于各类日志进行解析所制作的范化策略总数是有限的。
在现有技术中,为了对不同书写格式的日志匹配较为适宜的范化策略,利用范化策略对日志进行解析。日志审计系统会按照预设的范化策略优先级,从其所提供的范化策略集合中选取出优先级较高的范化策略与日志轮询匹配。例如,日志审计系统中存在范化策略1、范化策略2,且范化策略1的优先级大于范化策略2的优先级;选取出范化策略1,并将范化策略1与日志进行比对,判断日志是否满足范化策略1所设定的日志解析规则使用条件,若是,则将范化策略1作为日志的目标范化策略;若否,将范化策略2与日志进行比对。
然而,若在日志的数据量较大时,仍采用上述轮询的方式为不同书写格式的日志匹配范化策略,会存在日志范化策略匹配效率低的问题,降低了日志分析、处理的效率。
鉴于此,为了在日志的种类较多和数据量较大时,能够快速的为不同格式的日志匹配较为适宜的范化策略,提高日志与范化策略的匹配效率,本申请提供了一种日志范化策略匹配方法,具体包括:首先获取第一样本属性标签对应的第一原始日志集合;然后从第一原始日志集合中,选取出包含相同词组类型的各个待选原始日志,得到第二原始日志集合;最后在第二原始日志集合中选择任意一个待选原始日志作为目标日志,并确定目标日志所包含的第一词组,将第一词组与设定的样本日志词组集合中的各个样本日志词组进行匹配;若样本日志词组集合中存在与第一词组相匹配的样本日志词组,则获取与第一词组对应的第一范化策略集合,在确定第一范化策略集合中仅包含一条待选范化策略时,将待选范化策略作为目标日志的目标范化策略;若样本日志词组集合中不存在与第一词组相匹配的样本日志词组,则为目标日志新建范化策略。
通过本申请所提供的方法,日志审计系统将第一原始日志集合中,包含相同词组类型的各个待选原始日志聚类为同一簇,并优先匹配聚类后的各簇原始日志集合中满足设定词组出现频次条件的一簇原始日志集合,能够保证在海量日志(日志种类多、数据量大)的情况下,优先为包含高频词组的日志匹配范化策略;然后从包含高频词组的一簇待选原始日志中选择任意一个待选原始日志作为目标日志,根据目标日志包含的第一词组,将第一词组与设定的样本日志词组集合中的各个样本日志词组进行匹配,得到目标日志所对应的范化策略,能够实现该簇待选原始日志中任意一个待选原始日志范化策略的精准匹配,避免了将原始日志集合中的每一条待选原始日志与范化策略集合中的各个样本日志进行轮询比对,提高了日志范化策略的匹配效率和日志处理的性能。
参照图1所示,其为本申请实施例提供的一种日志范化策略匹配方法的流程图,该方法包括:
S1,获取第一样本属性标签对应的第一原始日志集合。
首先来讲,本申请所提供的方法可以应用于图2所示的系统构架中,在该系统构架中包括:日志生成设备、日志审计系统,本申请所提供的方法可以在日志审计系统中运行。
日志生成设备可以是企业IT系统中的安全设备、网络设备、服务器、数据库、应用系统、主机等设备,本申请对上述日志生成设备的设备类型以及设备的数量不做具体限制;上述设备可以按照各自设定的日志格式生成特定的日志记录,日志包括设备的运行、告警、操作、消息、状态等信息,这里不再赘述。
日志审计系统用于接收上述设备产生的各类型日志,并对各类型日志按照其特定的日志解析规则(范化策略)进行解析,在对各类日志解析后,再进行审计分析,获取日志中具有价值的信息,需要指出的是,日志的解析规则可以存放在日志审计系统的存储器中,并且可以根据实际的范化策略使用需求在存储器中新增某一类型日志对应的范化策略。
在本申请实施例中,为降低日志范化策略的精准匹配数据量,日志审计系统在获取第一样本属性标签对应的第一原始日志集合之前,需要对原始日志进行初步的筛选,即原始日志与样本日志之间的标签匹配。
日志审计系统首先获取原始日志对应的属性标签和设定的样本属性标签集合,原始日志对应的属性标签可以是记录日志的重要性、日志的存放位置、日志的类型或者记录日志的其他任意属性的一类标签。
设定的样本属性标签集合指将范化策略集合中的各个范化策略按照同一属性划分后,得到的各类范化策略子集合,由各类范化策略子集合各自对应的属性标识组成的集合。示例性的,可以将包含相同优先级值和/或键值对数的各个范化策略划分为一类范化策略子集合,并为该类范化策略子集合添加相应的样本属性标签;并且在每一类范化策略子集合中的任意一个范化策略均设置有满足当前范化策略规则而标定的样本日志,样本日志同样可以设置与上述原始日志的属性标签相类似的属性标签,用于记录与样本日志相关的信息,这里不在赘述。
然后从样本属性标签集合中选取出一个待选样本属性标签作为第一样本属性标签,例如,选取待选样本属性标签1、待选样本属性标签2中的待选样本属性标签1作为第一样本属性标签,需要指出的是,从样本属性标签集合中选取出一个待选样本属性标签时,同样能获得该待选样本属性标签对应的一类范化策略子集合,本申请对每一类范化策略子集合中范化策略的数量不做具体限制。
日志审计系统在获取到第一样本属性标签后,可以直接提取或者按照设定的提取规则提取第一样本属性标签中的第一优先级值和第一键值对数。第一优先级值记录了样本日志的优先级,在一些实施例中,第一优先级值Priority(PRI)可以包含Facility和Level两部分信息,其中,Facility用于判断设备中的哪一个程序产生了日志信息;Level用于判断事件的严重等级,PRI的计算方法可以参照以下公式:
PRI=Facility*8+Level
第一键值对数记录了样本日志的字段信息,可以包括键(key)和值(value)两部分,其中,键表示日志字段的名称,值表示存储的日志字段的数据。
这里,需在指出的是,每一个样本日志或者原始日志都具有特定的优先级值和键值对数,在此不再赘述。
日志审计系统根据原始日志中原始优先级值、原始键值对数和第一样本属性标签(范化策略子集合中,任意一个第一样本日志的标签)中的第一优先级值和第一键值对数,可以确定原始日志中的原始优先级值和原始键值对数是否与第一样本日志中的第一优先级值和第一键值对数相匹配,若是,则将原始日志添加到第一样本属性标签对应的第一原始日志集合中,轮询下一条原始日志;若否,则将原始日志添加到样本属性标签集合中剩余样本属性标签对应的剩余原始日志集合中。
这里,需要指出的是,判断原始日志中的原始优先级值和原始键值对数是否与第一优先级值和第一键值对数相匹配的条件,该条件是指原始优先级值与第一优先级值相同和/或原始键值对数与第一键值对数相同。
下面以一条原始日志为例,对上述原始日志与目标日志之间标签匹配的过程进行详述:
假设一条原始日志中的原始优先级值(PRI)为15、原始键值对数为100;样本属性标签集合中待选样本属性标签的数量为N,且样本属性标签集合中存在与原始日志对应的属性标签相匹配的待选样本属性标签,其中,N为大于等于1的正整数。
若N=2,在样本属性标签集合中,第一样本属性标签中的第一优先级值(PRI)为15、第一键值对数为100;第二样本属性标签中的第二优先级值(PRI)为10、第二键值对数为50;日志审计系统可以判断出原始优先级值和原始键值对数与第一优先级值和第一键值对数相匹配,则将该条原始日志添加到第一初筛日志集合中,轮询下一条原始日志,直到将满足原始优先级值和原始键值对数与第一优先级值和第一键值对数相匹配的所有原始日志添加到第一初筛日志集合中后,将第一初筛日志集合作为第一样本属性标签对应的第一原始日志集合。
若第一优先级值(PRI)为10、第一键值对数为50;第二样本属性标签中的第二优先级值(PRI)为15、第二键值对数为100,日志审计系统可以判断出原始优先级值和原始键值对数与第一优先级值和第一键值对数匹配失败,则将该条原始日志添加到第二初筛日志集合中,轮询下一条原始日志,直到将不满足原始优先级值和原始键值对数与第一优先级值和第一键值对数相匹配的所有原始日志添加到第二初筛日志集合中后,将第二初筛日志集合作为第二样本属性标签(剩余样本属性标签)对应的剩余原始日志集合。
在一种可能的实施例中,若N=2,且样本属性标签集合中不存在与原始日志对应的属性标签相匹配的待选样本属性标签,例如,样本属性标签集合中,第一样本属性标签中的第一优先级值(PRI)为16、第一键值对数为80;第二样本属性标签中的第二优先级值(PRI)为10、第二键值对数为50;日志审计系统可以判断出原始优先级值和原始键值对数与第一优先级值和第一键值对数匹配失败,在将原始日志添加到第二初筛日志集合中之前,还可以判断原始优先级值和原始键值对数是否与第二样本属性标签对应的第二优先级值和第二键值对数相匹配,在确定原始优先级值和原始键值对数与第二优先级值和第二键值对数匹配失败时,跳过当前的原始日志,选择下一条原始日志,并按照上述过程重复进行标签匹配,直到在第一初筛日志集合和第二初筛日志集合中添加相应的原始日志,得到第一样本属性标签对应的第一原始日志集合和第二样本属性标签(剩余样本属性标签)对应的剩余原始日志集合。
得到的各个待选样本属性标签各自对应的原始日志集合可以如下表1所示:
表1
这里,需要指出的是,样本属性标签集合中待选样本属性标签的数量可以根据日志审计系统的业务需求适应性的添加,本申请对待选样本属性标签的数量不作具体的限制,在此不再赘述。
通过上述方式,能够从大量的原始日志中初步的选取出满足各个待选样本属性标签各自对应的优先级值和键值对数条件的原始日志,减少后续对各类原始日志做精准匹配的数量,提升为各类原始日志匹配范化策略的速率,降低系统资源的开销。
S2,从第一原始日志集合中,选取出包含相同词组类型的各个待选原始日志,得到第二原始日志集合。
在本申请实施例中,日志审计系统在获取各个待选样本属性标签各自对应的原始日志集合后,可以根据待选样本属性标签对应的优先级值,对各个待选样本属性标签对应的原始日志集合进行后续的精准匹配。示例性的,可以选择第一样本属性标签对应的第一原始日志集合优先处理。
对第一原始日志集合中的各个第一原始日志进行精准匹配的过程如下:
日志审计系统首先确定第一原始日志集合中的各个第一原始日志各自对应的词组类型,具体确定各个第一原始日志各自对应的词组类型的方式如下:
日志审计系统选择第一原始日志集合中的任意一个第一原始日志,将第一原始日志中的文本内容按照设定的词组长度M进行划分,划分为多个词组,其中,M为大于等于2的正整数。例如,原始日志中的文本内容包含Hostname Version app-name,选择M=2,则词组1:Hostname->Version;词组2:Version->app-name;词组3:app-name->Hostname,这里,需要指出的是,多个词组中的任意一个待选词组与待选词组的前一个待选词组相关联。
日志审计系统可以采用N-Gram字典来对日志中的词组进行统计,统计多个词组各自在设定的词组集合中出现的次数,并确定多个词组中出现次数最多的高频词组。设定的词组集合包括从各类原始日志的文本中提取的标定词组,上述设定的词组集合与N-Gram字典中的语料库相类似,这里不再赘述。
日志审计系统在确定多个词组中出现次数最多的高频词组后,可以将高频词组的词组类型作为第一原始日志的词组类型。
在确定第一原始日志集合中的一个第一原始日志的词组类型后,日志审计系统可以选取第一原始日志集合中的下一个第一原始日志,循环执行上述步骤,直到确定第一原始日志集合中的各个第一原始日志各自对应的词组类型。
在本申请实施例中,日志审计系统在确定各个第一原始日志各自对应的词组类型后,还可以按照第一原始日志集合中的各个第一原始日志的词组类型进行聚类,得到包含第一词组类型的第一待选原始日志集合和包含第二词组类型的第二待选原始日志集合;
得到的第一待选原始日志集合和第二待选原始日志集合可以如表2所示:
表2
由表2可知,通过对第一原始日志集合中的各个第一原始日志进行聚类,能够将包含相同词组类型的待选原始日志归类到同一簇,实现对日志的批量化匹配范化策略,需要指出的是,本申请对各个第一原始日志进行聚类后得到的同一簇的数量不做具体限制,仅以第一、第二待选原始日志集合为例对本申请的发明内容进行解释。
日志审计系统在对第一原始日志集合中的各个第一原始日志聚类之后,可以从第一待选原始日志集合和第二待选原始日志集合中,选取出满足设定的词组出现频次条件的目标日志集合,并将目标日志集合作为第二原始日志集合。例如,第一词组类型(hostname和version)出现的频次为100次;第二词组类型(app-name和msgid)出现的频次为50次,则可以选取满足设定的词组出现频次条件(词组出现的频次大于50次)的第一待选原始日志集合作为目标日志集合,并对目标日志集合优先进行精准匹配。
通过选取满足设定词组出现频次条件的目标日志集合,即该目标日志集合在样本日志集合中较为常见,对该目标日志集合优先进行精准匹配,能够在设定的范化策略集合中,快速的选取出与该词组相对应的范化策略,提升了日志的范化策略匹配速率。
S3,在第二原始日志集合中选择任意一个待选原始日志作为目标日志,并确定目标日志所包含的第一词组,将第一词组与设定的样本日志词组集合中的各个样本日志词组进行匹配;
在本申请实施例中,日志审计系统在确定将包含第一词组类型对应的第一待选原始日志集合作为第二原始日志集合后,可以从第二原始日志集合中选择任意一个待选原始日志作为目标日志,并确定目标日志所包含的第一词组。例如,目标日志的第一词组为hostname和version,然后将第一词组与设定的样本日志词组集合中的各个样本日志词组进行匹配。
设定的样本日志词组集合中可以包含有由优先级值(Priority)、版本(version)、时间戳(timestamp)、主机名(hostname)、APP名(app-name)、微处理机标识符(procid)、消息标识(msgid)、数据结构(structured-data)中的任意N个词组成的词组,即各个样本日志词组,并且任意一个样本日志词组对应一个特定的范化策略,N为大于等于2的正整数。
若样本日志词组集合中存在与第一词组相匹配的样本日志词组,则执行步骤S4;若样本日志词组集合中不存在与第一词组相匹配的样本日志词组,则执行步骤S5。
S4,获取与第一词组对应的第一范化策略集合,在确定第一范化策略集合中仅包含一条待选范化策略时,将待选范化策略作为目标日志的目标范化策略。
在本申请实施例中,若样本日志词组集合中包含样本日志词组1:hostname和version;样本日志词组2:version和priority;样本日志词组3:hostname和priority。
在确定目标日志的第一词组为hostname和version时,即样本日志集合中存在与第一词组hostname和version相匹配的样本日志词组hostname和version;根据样本日志词组和对应样本日志词组设置的范化策略之间的映射关系,可以获取第一词组对应的范化策略集合。样本日志词组和对应样本日志词组设置的范化策略之间的映射关系可以如下表3所示:
样本日志词组 | 与样本日志词组对应的范化策略 |
hostname和version | 范化策略1 |
version和priority | 范化策略2 |
hostname和priority | 范化策略3 |
… | … |
表3
由表3可知,与第一词组对应的第一范化策略集合中包含范化策略1,并且可以确定第一范化策略集合中仅包含一条待选范化策略,日志审计系统则将范化策略1作为目标日志的目标范化策略。
S5,为目标日志新建范化策略。
在本申请实施例中,若样本日志词组集合中包含样本日志词组1:hostname和app-name;样本日志词组2:version和priority;样本日志词组3:hostname和priority。
样本日志词组和对应样本日志词组设置的范化策略之间的映射关系如下
表4所示:
表4
由表4可知,样本日志词组集合中不存在与目标日志的第一词组hostname和version相匹配的样本日志词组,则日志审计系统为包含该第一词组类型的目标日志新建范化策略。
在一种可能的实施方式中,日志审计系统在确定样本日志词组集合中存在与第一词组相匹配的样本日志词组,并获取与第一词组对应的第一范化策略集合后,若第一范化策略集合中的待选范化策略数量大于1,即目标日志的第一词组为hostname和version;样本日志词组集合中包含样本日志词组1:hostna me和version;样本日志词组2:hostname、version和priority;样本日志词组3:hostname、version和procid的情况。则将该类型目标日志中的文本内容按照设定的词组长度M+1进行划分,并重复上述对第一原始日志进行精准匹配的步骤,为该类型目标日志匹配范化策略,具体方式如下:
选择目标日志集合中的任意一个第一目标日志,将第一目标日志中的文本内容按照设定的词组长度M+1进行划分,划分为多个词组,其中,多个词组中的任意一个待选词组与待选词组的前一个待选词组相关联;统计多个词组各自在设定的词组集合中出现的次数,确定多个词组中出现次数最多的高频词组,将高频词组的词组类型作为第一目标日志的词组类型。
紧接着,确定第一目标日志集合中的各个第一目标日志各自对应的词组类型,对第一目标日志集合中的各个第一目标日志按照词组类型进行聚类,得到包含第三词组类型的第三待选原始日志集合和包含第四词组类型的第四待选原始日志集合;在第三待选原始日志集合和第四待选原始日志集合中,选取出满足设定词组出现频次条件的目标日志集合,并将目标日志集合作为第二原始日志集合。
最后,在第二原始日志集合中选择任意一个待选原始日志作为目标日志,并确定目标日志所包含的第三词组,将第三词组与设定的样本日志词组集合中的各个样本日志词组进行匹配;若样本日志词组集合中存在与第三词组相匹配的样本日志词组,则获取与第三词组对应的第一范化策略集合,在确定第一范化策略集合中仅包含一条待选范化策略时,将待选范化策略作为目标日志的目标范化策略;若样本日志词组集合中不存在与第三词组相匹配的样本日志词组,则为目标日志新建范化策略。
通过增加对目标日志中文本内容进行划分的词组的长度,能够在样本日志词组集合中存在与目标日志的词组相匹配的多个样本日志词组时,进一步的筛选出与目标日志的词组相匹配的最优的一个样本日志词组,精准的为各个目标日志匹配相应的范化策略。
需要指出的是,若增加一次对目标日志中文本内容进行划分的词组长度,且轮询上述对第一原始日志精准匹配的步骤后,样本日志词组集合中仍存在与目标日志的词组相匹配的多个样本日志词组时,则将该类型目标日志中的文本内容按照设定的词组长度M+2进行划分,再次轮询上述对第一原始日志精准匹配的步骤,直到在确定目标日志对应的范化策略集合中仅包含一条待选范化策略时,将待选范化策略作为目标日志的目标范化策略。
下面以附图3为例,对本发明的方法进行详细说明:
(1)标签匹配:获取原始日志(大量),根据原始日志的优先级值(PRI)、键值对数(key-value)对原始日志进行初筛,得到各个待选样本属性标签各自对应的原始日志集合和各个待选样本属性标签各自对应的一类范化策略子集合。这里,需要指出的是,在标签匹配时,一些原始日志中可能会绑定与原始日志相对应的范化策略的信息,可以直接从范化策略集合中选取出与各个绑定的原始日志各自对应的范化策略。
(2)精准匹配:从各个待选样本属性标签各自对应的原始日志集合中,选取优先级值较大的第一样本属性标签对应的第一原始日志集合(并确定第一样本属性标签对应的一类范化策略子集合,从该类范化策略子集合中选取范化策略与第一原始日志集合中的第一原始日志进行精准匹配),对第一原始日志集合优先匹配;确定第一原始日志集合中的各个第一原始日志的词组类型(对第一原始日志集合中的任意一个第一原始日志,将第一原始日志中的文本内容按照设定的词组长度M进行划分,划分为多个词组,确定多个词组中出现次数最多的高频词组,将高频词组的词组类型作为第一原始日志的词组类型);提取第一原始日志集合中的各个第一原始日志各自的高频词组。
按照第一原始日志集合中的各个第一原始日志的词组类型进行聚类,得到包含相同词组类型的各个待选原始日志集合,即包含第一词组类型的第一待选原始日志集合和包含第二词组类型的第二待选原始日志集合。
从各个待选原始日志集合中,选取出满足设定的词组出现频次条件的目标日志集合,并将目标日志集合作为第二原始日志集合;在第二原始日志集合中选择任意一个待选原始日志作为目标日志,并确定目标日志所包含的第一词组,将第一词组与设定的样本日志词组集合中的各个样本日志词组进行匹配。
若样本日志词组集合中存在与第一词组相匹配的样本日志词组,则获取与第一词组对应的第一范化策略集合,在确定第一范化策略集合中仅包含一条待选范化策略时,将待选范化策略作为目标日志的目标范化策略;在确定第一范化策略集合中的待选范化策略数量大于1时,则将该类型目标日志中的文本内容按照设定的词组长度M+1进行划分,并重复上述对第一原始日志进行精准匹配的步骤,为该类型目标日志匹配范化策略,本申请对目标日志中的文本内容按照设定的词组长度进行划分的次数不做具体限制,且可按照词组长度依次递增的方式为目标日志匹配范化策略。
若样本日志词组集合中不存在与第一词组相匹配的样本日志词组,则为目标日志新建范化策略。
综上所述,本申请所提供的日志范化策略匹配方法,首先对大量的原始日志进行标签匹配,能够初步的选取出满足各个待选样本属性标签各自对应的优先级值和键值对数条件的原始日志,并且对于一些绑定有相应范化策略信息的原始日志,可以直接从范化策略集合中选取出与该类日志对应的范化策略,能够减少后续对各类原始日志做准确匹配的数量,降低了系统的资源开销。
在精准匹配时,首先按照词组长度为M,这里,M取值为2,对第一原始日志中文本的内容进行划分,并确定各个第一原始日志各自的高频词组,然后将包含相同词组类型的各个第一原始日志归类到同一簇,能够实现对日志的批量化匹配范化策略;最后选取同一簇(第二原始日志集合)中的任意一个待选原始日志作为目标日志,基于目标日志所包含的词组,与设定的样本日志词组集合中的各个样本日志词组进行词组匹配,能够准确的为同一簇中的各个待选原始日志分别匹配到各自相适宜的范化策略,并且对包含词组类型相似度较高的各个目标日志匹配范化策略时,可以通过依次递增词组长度M,并重复上述精准匹配的步骤,为各个目标日志分别匹配最优的范化策略,提升了日志与范化策略之间匹配的准确度,并且提高了日志范化策略的匹配效率。
基于上述的实施例中所提供的方法,本申请实施例还提供了一种日志范化策略匹配装置,如图4所示为本申请实施例中一种日志范化策略匹配装置的结构示意图,该装置包括:
数据获取模块401,用于获取第一样本属性标签对应的第一原始日志集合,其中,所述第一样本属性标签表征一类范化策略集合对应的标识;
数据筛选模块402,用于从所述第一原始日志集合中,选取出包含相同词组类型的各个待选原始日志,得到第二原始日志集合;
范化策略匹配模块403,用于在所述第二原始日志集合中选择任意一个待选原始日志作为目标日志,并确定所述目标日志所包含的第一词组,将所述第一词组与设定的样本日志词组集合中的各个样本日志词组进行匹配,其中,所述样本日志词组集合中的一个样本日志词组对应一个范化策略;
若所述样本日志词组集合中存在与所述第一词组相匹配的样本日志词组,则获取与所述第一词组对应的第一范化策略集合,在确定所述第一范化策略集合中仅包含一条待选范化策略时,将所述待选范化策略作为所述目标日志的目标范化策略;
若所述样本日志词组集合中不存在与所述第一词组相匹配的样本日志词组,则为所述目标日志新建范化策略。
在一种可能的实现中,所述数据获取模块401,还用于:
获取原始日志对应的属性标签和设定的样本属性标签集合;
从所述样本属性标签集合中选取出一个待选样本属性标签作为第一样本属性标签;
提取所述第一样本属性标签中的第一优先级值和第一键值对数;
判断所述原始日志中的原始优先级值和原始键值对数是否与所述第一优先级值和第一键值对数相匹配;
若是,则将所述原始日志添加到所述第一样本属性标签对应的第一原始日志集合中,轮询下一条原始日志;
若否,则将所述原始日志添加到所述样本属性标签集合中剩余样本属性标签对应的剩余原始日志集合中。
在一种可能的实现中,所述数据筛选模块402,具体用于:
确定所述第一原始日志集合中的各个第一原始日志各自对应的词组类型;
对所述第一原始日志集合中的各个第一原始日志按照词组类型进行聚类;
得到包含第一词组类型的第一待选原始日志集合和包含第二词组类型的第二待选原始日志集合;
在所述第一待选原始日志集合和所述第二待选原始日志集合中,选取出满足设定词组出现频次条件的目标日志集合,并将所述目标日志集合作为第二原始日志集合。
在一种可能的实现中,所述数据筛选模块402,具体用于:
选择所述第一原始日志集合中的任意一个第一原始日志;
将所述第一原始日志中的文本内容按照设定的词组长度M进行划分,划分为多个词组,其中,所述多个词组中的任意一个待选词组与所述待选词组的前一个待选词组相关联,M为大于等于2的正整数;
统计所述多个词组各自在设定的词组集合中出现的次数,确定所述多个词组中出现次数最多的高频词组,其中,所述词组集合包括从各类原始日志的文本中提取的标定词组;
将所述高频词组的词组类型作为所述第一原始日志的词组类型。
基于同一发明构思,本申请实施例中还提供了一种电子设备,所述电子设备可以实现前述一种日志范化策略匹配装置的功能,参考图5,所述电子设备包括:
至少一个处理器501,以及与至少一个处理器501连接的存储器502,本申请实施例中不限定处理器501与存储器502之间的具体连接介质,图5中是以处理器501和存储器502之间通过总线500连接为例。总线500在图5中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线500可以分为地址总线、数据总线、控制总线等,为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。或者,处理器501也可以称为控制器,对于名称不做限制。
在本申请实施例中,存储器502存储有可被至少一个处理器501执行的指令,至少一个处理器501通过执行存储器502存储的指令,可以执行前文论述的日志范化策略匹配方法。处理器501可以实现图4所示的装置中各个模块的功能。
其中,处理器501是该装置的控制中心,可以利用各种接口和线路连接整个该控制设备的各个部分,通过运行或执行存储在存储器502内的指令以及调用存储在存储器502内的数据,该装置的各种功能和处理数据,从而对该装置进行整体监控。
在一种可能的设计中,处理器501可包括一个或多个处理单元,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。在一些实施例中,处理器501和存储器502可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器501可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的日志范化策略匹配方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器502作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器502可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器502是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器502还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
通过对处理器501进行设计编程,可以将前述实施例中介绍的日志范化策略匹配方法所对应的代码固化到芯片内,从而使芯片在运行时能够执行图1所示的实施例的日志范化策略匹配方法的步骤。如何对处理器501进行设计编程为本领域技术人员所公知的技术,这里不再赘述。
基于同一发明构思,本申请实施例还提供一种存储介质,该存储介质存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行前文论述的日志范化策略匹配方法。
在一些可能的实施方式中,本申请提供的日志范化策略匹配方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在装置上运行时,程序代码用于使该控制设备执行本说明书上述描述的根据本申请各种示例性实施方式的日志范化策略匹配方法中的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种日志范化策略匹配方法,其特征在于,所述方法包括:
获取第一样本属性标签对应的第一原始日志集合,其中,所述第一样本属性标签表征一类范化策略集合对应的标识;
从所述第一原始日志集合中,选取出包含相同词组类型的各个待选原始日志,得到第二原始日志集合;
在所述第二原始日志集合中选择任意一个待选原始日志作为目标日志,并确定所述目标日志所包含的第一词组,将所述第一词组与设定的样本日志词组集合中的各个样本日志词组进行匹配,其中,所述样本日志词组集合中的一个样本日志词组对应一个范化策略;
若所述样本日志词组集合中存在与所述第一词组相匹配的样本日志词组,则获取与所述第一词组对应的第一范化策略集合,在确定所述第一范化策略集合中仅包含一条待选范化策略时,将所述待选范化策略作为所述目标日志的目标范化策略;
若所述样本日志词组集合中不存在与所述第一词组相匹配的样本日志词组,则为所述目标日志新建范化策略。
2.如权利要求1所述的方法,其特征在于,所述获取第一样本属性标签对应的第一原始日志集合之前,还包括:
获取原始日志对应的属性标签和设定的样本属性标签集合;
从所述样本属性标签集合中选取出一个待选样本属性标签作为第一样本属性标签;
提取所述第一样本属性标签中的第一优先级值和第一键值对数;
判断所述原始日志中的原始优先级值和原始键值对数是否与所述第一优先级值和第一键值对数相匹配;
若是,则将所述原始日志添加到所述第一样本属性标签对应的第一原始日志集合中,轮询下一条原始日志;
若否,则将所述原始日志添加到所述样本属性标签集合中剩余样本属性标签对应的剩余原始日志集合中。
3.如权利要求1所述的方法,其特征在于,所述从所述第一原始日志集合中,选取出包含相同词组类型的各个待选原始日志,得到第二原始日志集合,包括:
确定所述第一原始日志集合中的各个第一原始日志各自对应的词组类型;
对所述第一原始日志集合中的各个第一原始日志按照词组类型进行聚类;
得到包含第一词组类型的第一待选原始日志集合和包含第二词组类型的第二待选原始日志集合;
在所述第一待选原始日志集合和所述第二待选原始日志集合中,选取出满足设定词组出现频次条件的目标日志集合,并将所述目标日志集合作为第二原始日志集合。
4.如权利要求3所述的方法,其特征在于,所述确定所述第一原始日志集合中的各个第一原始日志各自对应的词组类型,包括:
选择所述第一原始日志集合中的任意一个第一原始日志;
将所述第一原始日志中的文本内容按照设定的词组长度M进行划分,划分为多个词组,其中,所述多个词组中的任意一个待选词组与所述待选词组的前一个待选词组相关联,M为大于等于2的正整数;
统计所述多个词组各自在设定的词组集合中出现的次数,确定所述多个词组中出现次数最多的高频词组,其中,所述词组集合包括从各类原始日志的文本中提取的标定词组;
将所述高频词组的词组类型作为所述第一原始日志的词组类型。
5.一种日志范化策略匹配装置,其特征在于,所述装置包括:
数据获取模块,用于获取第一样本属性标签对应的第一原始日志集合,其中,所述第一样本属性标签表征一类范化策略集合对应的标识;
数据筛选模块,用于从所述第一原始日志集合中,选取出包含相同词组类型的各个待选原始日志,得到第二原始日志集合;
范化策略匹配模块,用于在所述第二原始日志集合中选择任意一个待选原始日志作为目标日志,并确定所述目标日志所包含的第一词组,将所述第一词组与设定的样本日志词组集合中的各个样本日志词组进行匹配,其中,所述样本日志词组集合中的一个样本日志词组对应一个范化策略;
若所述样本日志词组集合中存在与所述第一词组相匹配的样本日志词组,则获取与所述第一词组对应的第一范化策略集合,在确定所述第一范化策略集合中仅包含一条待选范化策略时,将所述待选范化策略作为所述目标日志的目标范化策略;
若所述样本日志词组集合中不存在与所述第一词组相匹配的样本日志词组,则为所述目标日志新建范化策略。
6.如权利要求5所述的装置,其特征在于,所述数据获取模块,还用于:
获取原始日志对应的属性标签和设定的样本属性标签集合;
从所述样本属性标签集合中选取出一个待选样本属性标签作为第一样本属性标签;
提取所述第一样本属性标签中的第一优先级值和第一键值对数;
判断所述原始日志中的原始优先级值和原始键值对数是否与所述第一优先级值和第一键值对数相匹配;
若是,则将所述原始日志添加到所述第一样本属性标签对应的第一原始日志集合中,轮询下一条原始日志;
若否,则将所述原始日志添加到所述样本属性标签集合中剩余样本属性标签对应的剩余原始日志集合中。
7.如权利要求5所述的装置,其特征在于,所述数据筛选模块,具体用于:
确定所述第一原始日志集合中的各个第一原始日志各自对应的词组类型;
对所述第一原始日志集合中的各个第一原始日志按照词组类型进行聚类;
得到包含第一词组类型的第一待选原始日志集合和包含第二词组类型的第二待选原始日志集合;
在所述第一待选原始日志集合和所述第二待选原始日志集合中,选取出满足设定词组出现频次条件的目标日志集合,并将所述目标日志集合作为第二原始日志集合。
8.如权利要求5所述的装置,其特征在于,所述数据筛选模块,具体用于:
选择所述第一原始日志集合中的任意一个第一原始日志;
将所述第一原始日志中的文本内容按照设定的词组长度M进行划分,划分为多个词组,其中,所述多个词组中的任意一个待选词组与所述待选词组的前一个待选词组相关联,M为大于等于2的正整数;
统计所述多个词组各自在设定的词组集合中出现的次数,确定所述多个词组中出现次数最多的高频词组,其中,所述词组集合包括从各类原始日志的文本中提取的标定词组;
将所述高频词组的词组类型作为所述第一原始日志的词组类型。
9.一种电子设备,其特征在于,包括:
存储器,用于存放计算机程序;
处理器,用于执行所述存储器上所存放的计算机程序时,实现权利要求1-4中任一项所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310832011.5A CN116893943A (zh) | 2023-07-07 | 2023-07-07 | 一种日志范化策略匹配方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310832011.5A CN116893943A (zh) | 2023-07-07 | 2023-07-07 | 一种日志范化策略匹配方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116893943A true CN116893943A (zh) | 2023-10-17 |
Family
ID=88313011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310832011.5A Pending CN116893943A (zh) | 2023-07-07 | 2023-07-07 | 一种日志范化策略匹配方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116893943A (zh) |
-
2023
- 2023-07-07 CN CN202310832011.5A patent/CN116893943A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10878335B1 (en) | Scalable text analysis using probabilistic data structures | |
US10452627B2 (en) | Column weight calculation for data deduplication | |
CN112364014B (zh) | 数据查询方法、装置、服务器及存储介质 | |
US20230205755A1 (en) | Methods and systems for improved search for data loss prevention | |
CN110377576B (zh) | 创建日志模板的方法和装置、日志分析方法 | |
US11347619B2 (en) | Log record analysis based on log record templates | |
CN115827895A (zh) | 一种漏洞知识图谱处理方法、装置、设备及介质 | |
CN109933502B (zh) | 电子装置、用户操作记录的处理方法和存储介质 | |
US10782942B1 (en) | Rapid onboarding of data from diverse data sources into standardized objects with parser and unit test generation | |
CN112101024B (zh) | 基于app信息的目标对象识别系统 | |
CN111460268B (zh) | 数据库查询请求的确定方法、装置和计算机设备 | |
CN111767213B (zh) | 数据库检查点的测试方法、装置、电子设备及存储介质 | |
CN110928941B (zh) | 一种数据分片抽取方法及装置 | |
CN117609181A (zh) | 一种用于TChouse数据库迁移方法和系统 | |
CN117171030A (zh) | 软件运行环境检测方法、装置、设备及存储介质 | |
CN109947933B (zh) | 用于对日志进行分类的方法及装置 | |
CN116893943A (zh) | 一种日志范化策略匹配方法、装置及电子设备 | |
CN115470034A (zh) | 一种日志分析方法、设备及存储介质 | |
CN110851437A (zh) | 一种存储方法、装置及设备 | |
CN115422180A (zh) | 数据校验方法及系统 | |
CN110909112B (zh) | 数据提取方法、装置、终端设备及介质 | |
CN113986932A (zh) | 数据处理方法、装置、计算机设备及可读存储介质 | |
CN113626387A (zh) | 一种任务数据的导出方法、装置、电子设备及存储介质 | |
CN115203057B (zh) | 低代码测试自动化方法、装置、设备及存储介质 | |
US20180246956A1 (en) | Systematic iterative analysis of unstructured data files |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |