CN114296785A

CN114296785A - 一种日志数据建模方法及系统

Info

Publication number: CN114296785A
Application number: CN202111651339.4A
Authority: CN
Inventors: 王森
Original assignee: Wuhan Sipuling Technology Co Ltd
Current assignee: Wuhan Sipuling Technology Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-08

Abstract

本申请公开一种日志数据建模方法及系统，其中所述系统包括客户端以及日志泛化单元，所述客户端与所述日志泛化单元通信连接；所述日志泛化单元被设置用于获取所述客户端上传的日志以及对所述客户端上传的日志进行内部处理。本申请提供的方法及系统，通过对日志泛化对大量日志数据建模处理，便于后期对数据检索以及分析。同时日志泛化流程只依赖策略配置，由于策略配置可在界面管理，故而可以方便的支持对各种类型的日志泛化流程进行个性化定制。日志泛化过程中支持对泛化结果进行二次加工，也能满足需要对原始日志内容进行二次加工的场景。本申请采用大数据架构部署，保证高性能、高吞吐，满足实际应用场景中数据量庞大且对性能有较高要求的场景。

Description

一种日志数据建模方法及系统

技术领域

本申请实施例涉及数据分析技术领域，特别涉及一种日志数据建模方法及系统。

背景技术

随着互联网技术发展，企业的软件架构呈现出规模逐步扩大、体系渐趋复杂的特征，通常软件应用以记录日志的方式来为后期维护提供便捷，如此在一个企业软件架构体系中就产生了源源不断的日志数据，这些数据中往往包含应用处理关键数据、系统状态、系统配置等信息。为理解用户的访问特点以及用户的需求，就需要进行日志分析，发现用户的访问行为与规律，并以此来优化业务结构，从而给用户带来更好的体验。同时，随着日志数据分析处理技术的发展，人们可以从数据中发现知识，找出规律，从而产生价值，因此研究日志数据泛化分析处理具有重要的意义。

现有技术中，通常由管理员定期对各个服务器下的日志数据进行查看分析或多是基于单机串行处理及存储。但是随着服务器节点规模呈几何指数增加，逐一对散落在各个服务器下的大量日志数据进行人工分析将耗费大量人力且效率极低，存储数据及处理效率也会非常低下，难以及时准确发现日志数据异常。

发明内容

本申请提供了一种日志数据建模方法及系统，以解决现有技术中对日志数据管理缺乏一种建模管理手段，致使管理人员在管理数据时，需要查找关键数据等信息费时费力的问题。

一方面，本申请提供了一种日志数据建模方法，所述建模方法包括：

获取客户端上传的日志；

对所述客户端上传的日志进行内部处理，得到日志泛化结果；

对所述日志泛化结果进行日志解析，得到日志解析结果；

对所述日志解析结果进行储存，得到日志建模结果；

其中，所述对所述客户端上传的日志进行内部处理，得到日志泛化结果的过程包括：

程序启动时加载xml配置信息至内存；

获取客户端上传的日志；

将所述客户端上传的日志与所述xml配置信息逐一配对；

若所述客户端上传的日志与所述xml配置信息间不存在正则配置，则日志泛化输出无结果；

若所述客户端上传的日志与所述xml配置信息间存在正则配置，则根据根据xml配置中的字段映射，从正则配置结果中解析出日志泛化对象；

对所述日志泛化对象增强，得到增强后的日志泛化对象；

对所述增强后的日志泛化对象附加系统标识，并输出，得到日志泛化结果。

进一步地，所述对所述日志解析结果进行储存包括：

对所述日志解析结果进行Kafka储存以及本地文件储存中的至少一种。

进一步地，所述xml配置信息包括：配置字典表信息，配置静态映射信息，配置策略信息，配置策略组信息。

进一步地，所述将所述客户端上传的日志与所述xml配置信息逐一配对包括：

将所述客户端上传的日志与所述策略信息逐一配对。

进一步地，所述对所述日志泛化对象增强包括：

对所述日志泛化对象字段静态增强以及对所述日志泛化对象字段动态增强。

进一步地，所述对所述增强后的日志泛化对象附加系统标识包括：

对所述增强后的日志泛化对象附加日志源系统标识以及对所述增强后的日志泛化对象附加采集系统标识。

另一方面，本申请还提供了一种日志数据建模系统，所述系统包括：客户端以及日志泛化单元，所述客户端与所述日志泛化单元通信连接；其中，所述日志泛化单元被设置用于获取所述客户端上传的日志以及对所述客户端上传的日志进行内部处理。

进一步地，所述日志泛化单元包括策略匹配模块；其中，所述策略匹配模块被设置用于对所述客户端上传的日志与xml配置信息逐一配对，并判断所述客户端上传的日志与所述xml配置信息间是否存在正则配置。

本申请提供的一种日志数据建模方法及系统，通过对日志泛化将非结构化数据通过正则配置解析，转化为结构化数据，对大量日志数据建模处理，便于后期对数据检索以及分析。同时日志泛化流程只依赖策略配置，由于策略配置是可以在界面管理的，故而可以方便的支持对各种类型的日志泛化流程进行个性化定制。日志泛化过程中支持对泛化结果进行二次加工，加工类型有二次正则提取、动态映射、静态映射，也能满足需要对原始日志内容进行二次加工的场景。本申请采用大数据架构部署，保证高性能、高吞吐，满足实际应用场景中数据量庞大且对性能有较高要求的场景，如数据库日志、操作系统日志、网页服务日志等。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一种日志数据建模方法流程图；

图2为本申请一种日志数据建模系统连接示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

策略：包含策略分组、正则、日志样例、字段列表、字段映射(静态、动态)等信息。

策略分组：为具有相同分类的日志配置公共正则以达到提高解析速度的目的。

静态映射：通过前期预先配置实现，对日志的的特殊字段值进行映射转换，将各类日志中对同一字段的不同表达方式统一为下游系统方便处理的模式。比如为某防火墙日志中的logLevel配置静态映射，根据预先了解的规范，设置为1＝低，2＝中，3＝高，这样在一条日志中如果logLevel解析出来的值是1时，程序将根据静态映射将其转化为字符串‘低’作为最终输出结果。

动态映射：通过后端编程实现，对日志中的特殊字段进行自定义逻辑处理，输出处理后的值。比如为某防火墙日志中的srcIp配置动态映射，需要对srcIp进行NAT转换，则会在代码中定义一套NAT转换逻辑，并为其生成一个UUID，当界面上创建策略时，可以对需要转换的字段进行编辑，与这个UUID绑定，这样这个字段在通过正则解析出来之后，就会再做NAT转换的逻辑，输出转换的结果作为最终解析结果。

附加日志源系统标识：日志通过日志源系统发送数据包至采集节点，采集节点收到数据包的同时可以收集到日志源系统自身属性，例如系统IP、日志类型。收集这些信息后可以附加到日志解析结果上，以丰富解析结果。

附加采集系统标识：采集节点在对收到的日志进行解析后，会将自身的属性附加到解析结果上，例如系统IP、采集时间、日志原始内容，以丰富解析结果。

采集系PCAP抓包：采集节点持续获取日志源系统发送过来的数据包，并从中解析出原始日志、日志源系统IP等信息。

正则表达式，又称规则表达式，计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。可以通过定义解析模板将字符串分割出不同的字段。

参见图1，为本申请一种日志数据建模方法流程图。一方面，本申请提供了一种日志数据建模方法，所述建模方法包括：

获取客户端上传的日志；

对所述日志泛化结果进行日志解析，得到日志解析结果；

对所述日志解析结果进行储存，得到日志建模结果；

程序启动时加载xml配置信息至内存；

获取客户端上传的日志；通常获取客户端上传的日志的方法包括：循环进行Pcap抓包获取；

将所述客户端上传的日志与所述xml配置信息逐一配对；

对所述日志泛化对象增强，得到增强后的日志泛化对象；

进一步地，所述对所述日志解析结果进行储存包括：

对所述日志解析结果进行Kafka储存以及本地文件储存中的至少一种，进行日志数据持久化。

在一种实施例中，日志数据泛化，具体地，采用SPARK流式批处理，将消息中间件缓存的日志按时间切片封装成弹性分布式数据集，形成源源不断的实时弹性分布式数据集数据流；通过转换算子操作对实时弹性分布式数据集数据流进行预处理；根据与终端设备IP匹配的解析模板对经过预处理的实时弹性分布式数据集数据进行层级解析和泛化，没有匹配上模板的数据将通过模型识别进行数据分类而实现数据泛化。其中，模型识别采用GMM模型识别。

GMM模型算法主要应用于对日志类型进行软聚合进行分类。每个GMM由K个高斯分布组成，每个高斯分布称为一个组件，这些组件线性加成在一起就组成了GMM的概率密度函数，GMM的K个组件实际上就对应了K个聚类。

主要实现如下：

其中N(x|μ_k，∑_k)是以μ_k为均值向量,Σ_k为协方差矩阵多元高斯分布的概率密度函数。在系统实现中，GMM的每一个混合成分都使用一个多元高斯类来存储，我们使用该类的重要成员获取到各个混合成分的权重，使用高斯成员来获取到各个混合成分的参数(均值向量和协方差矩阵)，从而得出样本点属于每个簇的概率点。

一般来说，日志包括但不限于以下至少一项内容：时间戳、用户访问地址、客户端类型，用户标识、请求路径、业务状态信息、访问状态信息等等。对于不同的内容，可以采用不同的方式进行泛化。实践中，根据需要，可以将一项内容泛化一个特征，也可以泛化为两个及以上特征，还可以将多项内容泛化为一个或多个特征。可以理解，对于包括访问日志中包括多项内容的情况，当前泛化特征和历史泛化特征也可以包括相应的多个特征。

举例来说，对于用户访问地址可以直接确定为一个特征。对于客户端类型可以泛化为两个特征，分别为：类型是否为空和是否为常规类型。再例如，对于时间戳可以通过提取其中的时分的方式进行泛化，得到泛化特征。

将所述客户端上传的日志与所述策略信息逐一配对。

进一步地，所述对所述日志泛化对象增强包括：

如图2所示，图2为本申请一种日志数据建模系统连接示意图。另一方面，本申请还提供了一种日志数据建模系统，所述系统包括：客户端以及日志泛化单元，所述客户端与所述日志泛化单元通信连接；其中，所述日志泛化单元被设置用于获取所述客户端上传的日志以及对所述客户端上传的日志进行内部处理。

特别地，根据本公开的一些实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的一些实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中，该计算机程序可以通过通信装置从网络上被下载和安装，或者从存储装置被安装，或者从ROM被安装。在该计算机程序被处理装置执行时，执行本公开的一些实施例的方法中限定的上述功能。

需要说明的是，本公开的一些实施例中记载的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：响应于接收到目标用户通过终端发送的用户请求，获取目标用户对应的当前访问日志和历史访问日志；对访问日志进行泛化，得到泛化特征；根据泛化特征，确定目标用户对应的请求数据、当前行为数据、验证行为数据和历史行为数据并进行组合，得到目标用户对应的指标数据；将指标数据输入预先训练的非法用户识别模型，得到识别结果信息；根据识别结果信息，向终端发送对应的请求结果。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开的一些实施例中的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、特征泛化单元、第一确定单元、第二确定单元、组合单元和识别单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取目标用户对应的当前访问日志和历史访问日志的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

在以上的描述中阐述了很多具体细节以便于充分理解本发明。但是以上描述仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制。本发明能够以很多不同于在此描述的其它方式来实施，因此本发明不受上面公开的具体实施的限制。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种日志数据建模方法，其特征在于，所述建模方法包括：

获取客户端上传的日志；

对所述日志泛化结果进行日志解析，得到日志解析结果；

对所述日志解析结果进行储存，得到日志建模结果；

程序启动时加载xml配置信息至内存；

获取客户端上传的日志；

将所述客户端上传的日志与所述xml配置信息逐一配对；

对所述日志泛化对象增强，得到增强后的日志泛化对象；

2.根据权利要求1所述的一种日志数据建模方法，其特征在于，所述对所述日志解析结果进行储存包括：

3.根据权利要求1所述的一种日志数据建模方法，其特征在于，所述xml配置信息包括：配置字典表信息，配置静态映射信息，配置策略信息，配置策略组信息。

4.根据权利要求1所述的一种日志数据建模方法，其特征在于，所述将所述客户端上传的日志与所述xml配置信息逐一配对包括：

将所述客户端上传的日志与所述策略信息逐一配对。

5.根据权利要求1所述的一种日志数据建模方法，其特征在于，所述对所述日志泛化对象增强包括：

6.根据权利要求1所述的一种日志数据建模方法，其特征在于，所述对所述增强后的日志泛化对象附加系统标识包括：

7.一种应用于所述权利1-6任意一项所述日志数据建模方法的日志数据建模系统，其特征在于，所述系统包括：客户端以及日志泛化单元，所述客户端与所述日志泛化单元通信连接；其中，所述日志泛化单元被设置用于获取所述客户端上传的日志以及对所述客户端上传的日志进行内部处理。

8.根据权利要求7所述的一种日志数据建模系统，其特征在于，所述日志泛化单元包括策略匹配模块；其中，所述策略匹配模块被设置用于对所述客户端上传的日志与xml配置信息逐一配对，并判断所述客户端上传的日志与所述xml配置信息间是否存在正则配置。