CN114860673B

CN114860673B - 基于动静结合的日志特征识别方法及装置

Info

Publication number: CN114860673B
Application number: CN202210785895.9A
Authority: CN
Inventors: 不公告发明人
Original assignee: Nanjing Juming Network Technology Co ltd
Current assignee: Nanjing Juming Network Technology Co ltd
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2022-09-30
Anticipated expiration: 2042-07-06
Also published as: CN114860673A

Abstract

本发明实施例公开了一种基于动静结合的日志特征识别方法及装置，通过获取日志数据，根据设定的学习条数对日志数据IP进行分组识别，其中日志数据包括固定文本片段和/或非固定文本片段；将分组识别结果根据文本片段的起始位置进行排列，得到特征序列；对特征序列中的静态特征和动态特征进行重新编码得到动静态混合序列。本发明能够明确标识日志中的文本语义片段，可以同时兼容含有部分固定文本和完全无固定文本的日志，最大限度地对日志进行分类，有很好的适应性。

Description

基于动静结合的日志特征识别方法及装置

技术领域

本申请涉及信息安全技术领域，具体而言，涉及一种基于动静结合的日志特征识别方法、装置、计算机设备和存储介质。

背景技术

在信息安全领域中，对于各种数据的收集和分析始终是最为重要也是最初的步骤；由于各类安全数据的来源和组织形式不尽相同，这对于后续的安全分析提出了挑战，这是因为安全分析是基于对这些数据（一般在安全领域中被称作日志）的结构化处理之上的，另外需要补充一些其它信息，比如对于日志中出现的公网IP地址需要补充其国家、城市等内容，达到完善其信息的目的，为今后如威胁情报检索碰撞、安全关联分析提供基础。

传统上，对于这类日志信息的结构化处理一般是基于事先编写好的规则之上的，这些规则包含了各种针对不同系统、应用或设备的正则化片段，常见的如Logstash也使用了类似的方法，但这种处理日志的手段只能利用人工方式进行，进而有些厂商提出了使用自动学习的方法来应对不同内容的日志（某些论文或专利中有提出根据日志不变量或不变文本部分，进行多次聚类而获得一定的自动化）的结构化，但这些方法的假设前提均是日志中包含了固定文本片段或固定的格式，但在实际应用中这不是全部，或者说在某些行业中特别是某些用户自己开发的应用中，基本上不存在固定的文本片段，所以这种自动化的手段完全无效，从而无法应对这种场景。综上所述，目前使用的自动化日志特征识别方法具有较大局限性，无论在识别的广度上还是性能上均存在问题，如使用多次聚类算法或者在聚类中使用KMeans算法（K值一般需要指定，非常麻烦），需要提供其它更为可靠的手段来应对。

针对相关技术中由于自动化日志特征识别方法存在较大局限性，导致不能明确标识日志中的文本语义片段的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供一种基于动静结合的日志特征识别方法、装置、计算机设备和存储介质，用以解决相关技术中由于自动化日志特征识别方法存在较大局限性，导致不能明确标识日志中的文本语义片段的问题。

为了实现上述目的，本发明实施例的第一方面，提供一种基于动静结合的日志特征识别方法，包括：

获取日志数据，根据设定的学习条数对日志数据IP进行分组识别，其中日志数据包括固定文本片段和/或非固定文本片段；

将分组识别结果根据文本片段的起始位置进行排列，得到特征序列；

对特征序列中的静态特征和动态特征进行重新编码得到动静态混合序列。

可选地，在第一方面的一种可能实现方式中，所述根据预设学习条数对日志数据IP进行分组识别，包括：

对静态特征进行正则匹配，从所述日志数据中匹配出与静态特征相关的所有模式，其中静态特征是使用正则表达式编写的特征，形式化定义为：

S_f= {<r, v, f>}

其中，r为特定正则表达式；v为特定正则表达式之间的相关系数向量；f为日志数据语义识别函数向量；

对动态特征进行文本抽取，如果文本为首次出现则动态生成ID值；如果文本不是首次出现则对其ID值进行累加计数，其中动态特征为日志数据中可能存在的文本不变量，形式化定义为：

D_f= {<id,c>}

其中id是文本的动态全局编号，c是该文本在学习过程中出现的次数。

可选地，在第一方面的一种可能实现方式中，在得到特征序列之后，还包括：

利用静态特征中的相关系数，对静态特征中存在语义模糊的数据进行标识；

利用静态特征中的语义识别函数对标识后的数据进行语义检查，以明确数据的结果属性，其中不同函数的返回编码不同。

可选地，在第一方面的一种可能实现方式中，所述对特征序列中每个静态特征和动态特征进行重新编码，包括：

将特征序列中的每个静态特征重新编码为8字节整型，其中前两个字节为0，第三和第四个字节为固定编码，第五和第六个字节为与当前表达式最相关的其它正则表达式的编号，第七和第八个字节为函数返回编码；

根据预设阈值筛选掉动态特征中的罕见动态文本，重新生成特征序列，并将特征序列中每个动态特征重新编码为8字节整型。

可选地，在第一方面的一种可能实现方式中，所述方法，还包括：

如果两个动静态混合序列均存在相同静态特征且仅函数返回编码不同，则根据命中日志计数选择其中最高的一个动静态混合序列予以保留；

将保留下来的动静态混合序列中的相应字节置零，在该动静态混合序列所对应的原始值中继续保留，从而判断出文本片段的类型。

本发明实施例的第二方面，提供一种基于动静结合的日志特征识别装置，包括：

分组识别模块，用于获取日志数据，根据设定的学习条数对日志数据IP进行分组识别，其中日志数据包括固定文本片段和/或非固定文本片段；

特征序列生成模块，用于将分组识别结果根据文本片段的起始位置进行排列，得到特征序列；

动静态混合序列生成模块，用于对特征序列中的静态特征和动态特征进行重新编码得到动静态混合序列。

可选地，在第二方面的一种可能实现方式中，所述分组识别模块，包括：

静态特征识别单元，用于对静态特征进行正则匹配，从所述日志数据中匹配出与静态特征相关的所有模式，其中静态特征是使用正则表达式编写的特征，形式化定义为：

S_f= {<r, v, f>}

动态特征识别单元，用于对动态特征进行文本抽取，如果文本为首次出现则动态生成ID值；如果文本不是首次出现则对其ID值进行累加计数，其中动态特征为日志数据中可能存在的文本不变量，形式化定义为：

D_f= {<id,c>}

可选地，在第二方面的一种可能实现方式中，所述装置还包括：

语义标识模块，用于利用静态特征中的相关系数，对静态特征中存在语义模糊的数据进行标识；

语义检查模块，用于利用静态特征中的语义识别函数对标识后的数据进行语义检查，以明确数据的结果属性，其中不同函数的返回编码不同。

本发明实施例的第三方面，提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。

本发明实施例的第四方面，提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能设计的所述方法的步骤。

本发明提供的基于动静结合的日志特征识别方法、装置、计算机设备和存储介质，通过获取日志数据，根据设定的学习条数对日志数据IP进行分组识别，其中日志数据包括固定文本片段和/或非固定文本片段；将分组识别结果根据文本片段的起始位置进行排列，得到特征序列；对特征序列中的静态特征和动态特征进行重新编码得到动静态混合序列。本发明能够明确标识日志中的文本语义片段，可以同时兼容含有部分固定文本和完全无固定文本的日志，最大限度地对日志进行分类，有很好的适应性。

附图说明

图1为本发明实施例提供的基于动静结合的日志特征识别方法的流程图；

图2为固定文本片段的示意图；

图3为非固定文本片段的示意图；

图4为本发明实施例提供的基于动静结合的日志特征识别装置的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应当理解，在本发明的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

应当理解，在本发明中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本发明中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解，在本发明中，“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。A与B的匹配，是A与B的相似度大于或等于预设的阈值。

取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

本发明提供一种基于动静结合的日志特征识别方法，如图1所示其流程图，包括：

步骤S110、获取日志数据，根据设定的学习条数对日志数据IP进行分组识别。

在本步骤中，在线输入的日志数据包括固定文本片段（不变文本，如图2所示）和/或非固定文本片段（几乎无不变文本，字段数量也不固定，如图3所示）；预先设定的学习条数可以理解为针对某个固定设备（可以根据IP地址进行分组）而设定的日志学习上限数量，并且该学习条数也是指针对某个输入源IP的而并非全局条数；

具体地，在对日志数据IP进行分组的过程中主要分为如下两方面：

1、对静态特征的正则匹配，从获取的日志数据中匹配出与静态特征相关的所有模式。因此，在使用正则相关API时，需要在发现匹配后再对日志的剩余内容进行，直至结束为止；将所有匹配后的静态特征标识进行暂存，记录其起始位置及长度。

其中，静态特征S_f一般是使用正则表达式编写已经具备一定意义的、公知的特征，包括如IP、IPv6、MAC、端口、身份证、银行卡号、金额、数字流水等，其为一个三元组，形式化的定义如下：

S_f= {<r, v, f>}

其含义为r为特定正则表达式；v为正则表达式之间的相关系数向量，其意义为不同表达式之间的相关系数，取值为0到255之间的整数；f为日志数据语义识别函数向量，包含多个语义识别函数，其目的是识别模式在一定数据集上的语义，如无法区分某数值识别模式是流水号抑或是端口号等，函数向量的每个维度上的函数分量可以做某种运算，如对数据的单调性进行检查等。

2、对动态特征进行文本抽取，如果文本为首次出现则动态生成ID值（该ID是6字节编码）；如果文本不是首次出现则对其ID值进行累加计数，并记录起始位置和长度。

其中，动态特征D_f即指日志数据中可能存在的文本不变量，此处不对分隔符进行判断（即不单独使用分词界符，如空格、逗号、分号等，也不指定停止词），指定英文、中文（UTF-8编码）、数字和下划线的组合为应识别文本，而且以英文和中文作为起始，其主要目的是为了避免对文本进行多趟扫描，从而可以提升速度，形式化的定义为：

D_f= {<id,c>}

步骤S120、将分组识别结果根据文本片段的起始位置进行排列，得到特征序列。

在步骤S120中，得到的特征序列包括静态特征和动态特征，具体如下列方式所示：

s₁s₂d₁d₂…s_id_j

其中si和dj分别属于集合S_f和D_f，即它们分别来自于静态特征和动态特征集合。

步骤S130、对特征序列中的静态特征和动态特征进行重新编码得到动静态混合序列。

在步骤S130中，在得到特征序列后，需要对特征序列中的静态特征和动态特征进行重新编码得到动静态混合序列，具体编码包括如下两方面：

1、将特征序列中的每个静态特征重新编码为8字节整型，其中前两个字节为0，第三和第四个字节为固定编码，第五和第六个字节为与当前表达式最相关的其它正则表达式的编号，第七和第八个字节为函数返回编码。

2、根据预设阈值筛选掉动态特征中的罕见动态文本，重新生成特征序列，并将特征序列中每个动态特征重新编码为8字节整型。其中预设阈值一般设定为相对比例，即全部解析的动态文本和某特定文本的比值。最后将特征序列中每个动态特征重新编码为8字节整型，其目的是保持和静态特征长度对齐，而且其前2个字节被设定为0xFFFF，为了与静态特征进行区分。

更具体地，在本申请中由于使用了动态和静态混合编码方式对日志的特征进行处理，故不需要进行额外的聚类运算，其最终的序列码即为某类日志的特征，即此序列值作为唯一的键值。

在一个实施例中，在得到特征序列之后，还包括：

在该实施例中，为针对静态特征中可能存在语义上的模糊，本申请将静态特征中的相关系数进行标识（此被称为横向关联系数），具体来说，就是按相关系数的强弱（数值大小）进行排序，获取最高一个。另外，将使用静态特征中的函数对识别后的数据进行语义检查，以明确其结果属性；注意每种不同函数的返回值存在不同，以区分不同性质的特征（但识别正则表达式相同），其返回值为0到65535的整数值（可以定义65536种不同的函数识别返回码）。

在一个实施例中，所述方法，还包括：

在该实施例中，在停止学习后还需要考虑到性能问题，对于两种序列存在静态特征仅函数返回存在不同的情况，则根据统计特征（命中的日志计数）只选取其中最高的一个予以保留，这样做的目的是为了加速整体处理速度，并将键值中的相应字节置零，但在键值对照的原始值中仍进行保留，以便于用户在界面可以明确地知道某个文本片段大概率是否属于哪种类型。

在一个实施例中，所述方法还包括：

在学习的过程中，记录与相关模式对应的原始日志，不过此时可能是未进行最终处理的模式序列，软件会对此情况进行一定更新，即修改学习过程中的日志和最终模式序列的对照。

针对每个IP地址，当学习条数到达阈值条数后，即对后续日志进行处理，其处理过程仍然依据步骤S110-S120中的方式进行处理，但不会做纵向分析（考虑到性能问题），生成后的序列将与之前得到的结果进行比对，如存在则认为识别成功，否则将进入学习。

本发明提供的基于动静结合的日志特征识别方法，通过获取日志数据，根据设定的学习条数对日志数据IP进行分组识别，其中日志数据包括固定文本片段和/或非固定文本片段；将分组识别结果根据文本片段的起始位置进行排列，得到特征序列；对特征序列中的静态特征和动态特征进行重新编码得到动静态混合序列。本发明能够明确标识日志中的文本语义片段，可以同时兼容含有部分固定文本和完全无固定文本的日志，最大限度地对日志进行分类，有很好的适应性。

技术效果：

（1）本申请综合使用静态和动态特征模式，可以应对现实安全分析中对于日志类型的识别需求，同时兼容含有部分固定文本和完全无固定文本的日志。

（2）本申请对语义模糊的文本片段，提出了利用横向关联系数和纵向识别函数方法，以应对含义不明的文本，具有较好的识别效果，最大限度地可以对日志进行分类。

（3）本申请采用静态和动态模式序列混合编码，对待识别日志内容进行快速聚类，不依赖于常见的聚类算法，特别是如传统的KMeans、DBScan等方法，基本无需反复迭代，对计算机系统的资源消耗小，故具有良好的处理性能，有更好和更广的适应性。

（4）本申请不使用线下学习（有监督）方法，可以完全应用线上无监督方法进行，对新的类型日志格式的识别、分类有着良好的灵活性和可扩展性，对于发掘新的日志模式有着关键作用。

（5）本申请生成的日志模式序列能够向用户提供明确的日志分类指导和关键信息提取标识（混合标准相关特征）。

鉴于上述理由，本发明在日志分析中也具备更好的性能。

本发明的实施例还提供一种基于动静结合的日志特征识别装置，如图4所示，包括：

在一个实施例中，所述分组识别模块，包括：

S_f= {<r, v, f>}

D_f= {<id,c>}

在一个实施例中，所述装置还包括：

其中，可读存储介质可以是计算机存储介质，也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如，可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)中。另外，该ASIC可以位于用户设备中。当然，处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器（ROM）、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。

在上述终端或者服务器的实施例中，应理解，处理器可以是中央处理单元（英文：Central Processing Unit，CPU），还可以是其他通用处理器、数字信号处理器（英文：Digital Signal Processor，DSP）等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于动静结合的日志特征识别方法，其特征在于，包括：

对特征序列中的静态特征和动态特征进行重新编码得到动静态混合序列；

所述根据预设学习条数对日志数据IP进行分组识别，包括：

S_f = {<r, v, f>}

对动态特征进行文本抽取，如果文本为首次出现则动态生成ID值；如果文本不是首次出现则对其ID值进行累加计数，其中动态特征形式化定义为：

D_f = {<id,c>}

其中id是文本的动态全局编号，c是该文本在学习过程中出现的次数；

所述对特征序列中每个静态特征和动态特征进行重新编码，包括：

2.根据权利要求1所述的基于动静结合的日志特征识别方法，其特征在于，在得到特征序列之后，还包括：

3.根据权利要求1所述的基于动静结合的日志特征识别方法，其特征在于，所述方法，还包括：

4.一种基于动静结合的日志特征识别装置，其特征在于，包括：

动静态混合序列生成模块，用于对特征序列中的静态特征和动态特征进行重新编码得到动静态混合序列；

所述分组识别模块，包括：

S_f = {<r, v, f>}

动态特征识别单元，用于对动态特征进行文本抽取，如果文本为首次出现则动态生成ID值；如果文本不是首次出现则对其ID值进行累加计数，其中动态特征形式化定义为：

D_f = {<id,c>}

5.根据权利要求4所述的基于动静结合的日志特征识别装置，其特征在于，所述装置还包括：

6.一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3任意一项所述的方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至3任意一项所述的方法的步骤。