CN115543950B

CN115543950B - 一种日志范化的数据处理系统

Info

Publication number: CN115543950B
Application number: CN202211197956.6A
Authority: CN
Inventors: 迟鹏飞; 彭义; 武方; 苗维杰
Original assignee: Hangzhou Zhongdian Anke Modern Technology Co ltd
Current assignee: Hangzhou Zhongdian Anke Modern Technology Co ltd
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2023-06-16
Anticipated expiration: 2042-09-29
Also published as: CN115543950A

Abstract

本发明提供了一种日志范化的数据处理系统，包括：数据库、处理器和存储有计算机程序的存储器，所述数据库中存储有第一数据列表，以及第二数据列表，获取目标设备对应的目标日志和目标日志对应的目标设备ID，基于第一数据列表和第二数据列表，获取第一解析数据列表，基于第一解析数据列表，获取最终键值对列表。本发明减少了匹配时间，提高整体效率。

Description

一种日志范化的数据处理系统

技术领域

本发明涉及数据处理领域，特别是涉及一种日志范化的数据处理系统。

背景技术

目前，随着大数据的兴起，使用的软件越来越多、越来越复杂，通常软件以记录日志的方式留下操作流程，如此就产生了大量的日志，对设备的日志的范化要求越来越高，所述范化是指将日志字段提取出来，并将日志字段规则化、通用化、标准化。采用人工的方式进行查看，则需要耗费大量时间且效率极低，难以发现异常情况，对日志进行范化需要提取日志内容、修改日志内容并将日志内容以一个固定格式展现出来，因此很多服务器在加上范化功能后，会对服务器的性能造成直线下降，消耗服务器大量的资源，同时范化的规则越复杂，性能越受影响。

发明内容

针对上述技术问题，本发明采用的技术方案为：

一种日志范化的数据处理系统，所述系统包括如下数据库、处理器和存储有计算机程序的存储器，所述数据库中存储有第一数据列表A＝{A₁，A₂，…，A_i，…，A_m}，A_i＝(DM_i，RE_i，KV_i)，KV_i＝{KV_i1，…，KV_ij，…，KV_in}，以及第二数据列表B＝{B₁，B₂，…，B_i，…，B_m}，B_i＝(H_i，DM_i)，其中，DM_i是指第i个第一设备标识，RE_i是指DM_i对应的中间数据提取文本列表，K_ij是指DM_i对应的第j个目标数据键值对，H_i为DM_i对应的初始设备ID列表，i的取值范围是1到m，m是指第一设备标识数量，j的取值范围是1到n，n是指A_i对应的目标数据键值对数量，当处理器执行一段计算机程序，执行如下步骤：

S1，获取目标设备对应的目标日志和目标日志对应的目标设备ID，其中，目标日志β＝(β₁，β₂，…，β_γ，…，β_γ′)，β_γ是指目标日志对应的第γ个字符，γ的取值范围是1到γ，γ′是目标日志对应的字符数量；

S2，基于第二数据列表，获取目标设备ID对应的DM_i；

S3，基于第一数据列表，获取DM_i对应的中间数据提取文本RE_i＝{RE_i1，…，RE_ij，…，RE_in}和目标数据键值对列表KV_i＝{KV_i1，…，KV_ij，…，KV_in}；

S4，基于RE_i对目标日志进行解析，获取第一解析数据列表V′_i＝{V′_i1，…，V′_ij，…，V′_in}，V′_ij是指目标日志中RE对应的数据；

S5，基于V′_i对KV_i进行匹配，获取最终键值对列表KV′_i＝{KV′_i1，…，KV′_ij，…，KV′_in}。

本发明至少具有以下有益效果：

基于S1-S5，通过目标日志获取目标日志中的目标设备ID，在获取目标设备ID时，基于第二数据列表，获取目标ID对应的第一设备标识，通过第一数据列表，获取对应的中间数据提取文本和目标数据键值对列表，通过中间数据提取文本对目标日志进行解析，获取第一解析数据列表，基于目标键值对列表对第一解析数据列表进行匹配，获取最终键值对列表，从而获取目标日志对应的键值对，使用数据库中第一数据列表和第二数据列表对目标日志进行匹配，获取目标日志中的键值对，不用采取人工方式进行识别，更加智能化、简洁化，减少了匹配时间，提高效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的一种日志范化的数据处理系统执行程序的流程图。

图2为本发明实施例2提供的一种获取目标数据提取文本列表的方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明实施例1提供了一种日志范化的数据处理系统，所述系统包括如下数据库、处理器和存储有计算机程序的存储器，所述数据库中存储有第一数据列表A＝{A₁，A₂，…，A_i，…，A_m}，A_i＝(DM_i，RE_i，KV_i)，KV_i＝{KV_i1，…，KV_ij，…，KV_in}，以及第二数据列表B＝{B₁，B₂，…，B_i，…，B_m}，B_i＝(H_i，DM_i)，其中，DM_i是指第i个第一设备标识，RE_i是指DM_i对应的中间数据提取文本列表，K_ij是指DM_i对应的第j个目标数据键值对，H_i为DM_i对应的初始设备ID列表，i的取值范围是1到m，m是指第一设备标识数量，j的取值范围是1到n，n是指A_i对应的目标数据键值对数量，当处理器执行一段计算机程序，执行如下步骤，如图1所示：

S1，获取目标设备对应的目标日志和目标日志对应的目标设备ID，其中，目标日志β＝(β₁，β₂，…，β_γ，…，β_γ’)，β_γ是指目标日志对应的第γ个字符，γ的取值范围是1到γ，γ′是目标日志对应的字符数量；

具体地，在S1步骤中通过如下步骤获取目标设备ID：

S101，当H_i1为数字时，基于H_i1对β依次进行遍历，其中，H_i＝(H_i1，H_i2，…，H_iα，…，H_iα′)，H_iα是指H_i对应的第α个字符，α的取值范围是1到α′，α′是指H_i对应的字符数量。

S102，当β_γ为数字时，判断H_i1是否等于β_γ。

S103，当存在H_i1＝β_γ且H_iα＝β_γ+α-1时，将H_i作为目标ID。

S104，当H_i1不是数字且H_iα′是数字时，基于H_iα′对β依次进行遍历。

S105，当β_γ为数字时，执行S106。

S106，当存在H_i1＝β_γ时，当H_iα＝β_γ-α+1时，将H_i作为目标ID。

S107，当H_i1不是数字且H_iα′不是数字时，基于H_i1对β依次进行遍历，获取目标ID。

基于S101-S107，判断H_i1是否为数字，当H_i1为数字时，使用H_i1对目标日志进行遍历，当β_γ为数字时，且H_i1＝β_γ时，判断H_i后α′-1位字符是否和β_γ后α′-1位字符对应相等，当对应相等时，将H_i作为目标ID；当H_i第一个字符不是数字且H_i最后一个字符为数字时，通过H_i最后一个字符进行遍历，当H_i最后一个字符匹配成功时，判断β_γ前α-1是否对应相等，当对应相等时，将H_i作为目标ID，使用了数字先进行匹配的方法，使用数字进行匹配，排除了和目标日志中的字母进行匹配，减少了匹配时间，更加快速地获取目标ID。

在本发明一个优选的实施例中，当H_i1不是数字且H_iα′不是数字时，执行如下步骤：

S1071，获取固定分隔符列表C＝{C₁，C₂，…，C_g，…，C_z}，C_g是指第g个固定分隔符，g的取值范围是1到z，z是指固定分隔符的数量。

具体地，本领域技术人员知晓，固定分隔符可根据实际情况确定。

可选的，z<20；优选地，z＝4。

进一步地，当z＝4时，固定分隔符列表包括“空格”或“，”或“。”或“下斜线”。

S1072，将目标日志按照固定分隔符列表C进行分割，获取目标分割区域列表D＝{D₁，D₂，…，D_x，…，D_q}，D_x是指目标日志按照C进行分割后的第x个目标分割区域，x的取值范围是1到q，q是指目标分割区域的数量。

具体地，本领域技术人员知晓，目标日志包括固定分隔符的一种或多种，将目标日志按照固定分隔符的位置进行分割，获取目标分割区域，从而构成目标分割区域列表。

S1073，获取目标分割区域字符串数量列表Q＝{Q₁，Q₂，…，Q_x，…，Q_q}，Q_x是指D_x对应的目标分割区域的字符串数量。

S1074，获取指定分割区域列表D′＝{D′₁，D′₂，…，D′_y，…，D′_p}和指定分割区域字符串数量列表Q′＝{Q′₁，Q′₂，…，Q′_y，…，Q′_p}，其中，Q′_y≥Q(H_r)，D′_y是指第y个指定分割区域，Q′_y是指D′_y对应的字符串数量，y的取值范围是1到p，p为指定分割区域的数量。

具体地，将目标分割区域中字符串数量不小于Hr的字符串数量的目标分割区域标记为指定分割区域，并且获取指定分割区域列表，目标分割区域中字符串数量小于Hr的字符串的数量不可能为目标ID，因此进行了排除之后再进行匹配，减少花费的时间，提高效率。

S1075，获取第二匹配次数Sum₂＝∑^p _y＝1[Q′_y-Q(Hr)+1]。

S1076，获取目标日志的字符数量Q且获取第一匹配次数Sum₁＝Q-Q(H_r)，其中，第一匹配次数是指基于S107进行遍历的次数。

S1077，当Sum₂<Sum₁时，基于H_r遍历D′_y，获取目标ID。

根据S1071-S1077，基于固定分隔符对目标日志进行分割，获取目标分割区域，通过判断目标分割区域的字符串的数量和Hr的字符串的数量，获取指定分割区域列表，判断指定分割区域的遍历次数和直接进行遍历的次数，当使用指定分割区域的遍历次数小于直接进行遍历的次数时，在每一指定分割区域进行遍历匹配，获取目标ID，从而进行遍历的次数更少，减少时间消耗。

S2，基于第二数据列表，获取目标设备ID对应的DM_i。

具体地，设备ID型号对应列表中存储有设备ID和DM的对应的关系，通过两者的对应关系找到目标ID对应的目标DM。

其中，在本发明一个实施例中，目标DM经过MD5化加密处理，将目标设备型号及对应的厂商进行MD5化生成一个固定长度的字符串，在本发明一实施例中，固定长度为128位。

具体地，MD5化是对一段信息产生信息摘要，即通过不可逆的字符串变换算法产生唯一的MD5摘要，MD5摘要即一个固定长度的字符串，对一段信息产生信息摘要，以防止被篡改，同时MD5摘要可能会发生碰撞，但概率很小，因此可以对设备型号及设备型号对应的厂商进行保护，同时更易于传输。

S3，基于第一数据列表，获取DM_i对应的中间数据提取文本RE_i＝{RE_i1，…，RE_ij，…，RE_in}和目标数据键值对列表KV_i＝{KV_i1，…，KV_ij，…，KV_in}。

具体地，基于目标DM，可以获取目标设备对应的中间数据提取文本RE_i和目标键值对列表KV_i。

S4，基于RE_i对目标日志进行解析，获取第一解析数据列表V′_i＝{V′_i1，…，V′_ij，…，V′_in}，V′_ij是指目标日志中RE对应的数据。

具体地，中间数据提取文本RE_i＝{RE_i1，…，RE_ij，…，RE_in}，使用中间数据提取文本进行匹配，获取中间数据提取文本对应的解析数据。

具体地，本领域技术人员知晓使用中间数据提取文本对目标日志进行匹配的方法，此处不再赘述。

具体地，可以理解为中间数据提取文本RE_i和目标键值对列表KV_i中RE_ij和KV_ij为对应关系，将第一解析数据列表中V′_ij进行匹配，获取最终键值对KV′_ij，并基于最终键值对KV′_ij获取最终键值对列表KV′_i。

基于S1-S5，通过目标日志获取目标日志中的目标设备ID，在获取目标设备ID时，基于第二数据列表，获取目标ID对应的第一设备标识，通过第一数据列表，获取对应的中间数据提取文本和目标数据键值对列表，通过中间数据提取文本对目标日志进行解析，获取第一解析数据列表，基于目标键值对列表对第一解析数据列表进行匹配，获取最终键值对列表，从而获取目标日志对应的键值对，使用数据库中第一数据列表和第二数据列表对目标日志进行匹配，获取目标日志中的键值对，不用采取人工方式进行识别，更加智能化、简洁化。

实施例2

在实施例1的基础上，本发明还提供一种获取目标指定文本列表的方法，如图2所示，所述方法包括如下步骤：

S10，获取第二目标日志和第二目标日志对应的第二目标DM。

具体地，通过S101-S107获取第二目标日志对应的第二目标ID。

进一步地，基于第二目标ID，获取第二目标ID对应的第二目标DM。

S20，当DM_i满足预设处理条件，执行S30，否则执行S50。

S30，当DM_i不满足预设处理条件时，否则执行S60。

具体地，所述DM_i满足预设处理条件为DM_i未经过M5D化。进一步地，本领域技术人员知晓，现有技术中任何判断第一设备表示是否经过MD5化的方法均属于本发明保护范围，此处不再赘述。

S40，当存在DM_i等于第二目标DM时，获取DM_i对应的RE_i作为第二目标RE列表；

具体地，可以通过第一数据列表获取DMi对应的REi。

S50，当任意DM_i不等于第二目标DM，执行S60；

S60，基于第一数据列表，获取中间数据提取文本列表RE＝{RE₁，RE₂，…，RE_i，…，RE_m}，RE_i＝{RE_i1，RE_i2，…，RE_it，…，RE_ik}，RE_it是指第i个RE列表中第t个中间数据提取文本，t的取值范围是1到k，k是指RE_i中指定文本的数量。

S70，基于RE_i对第二目标日志进行解析，获取目标解析数据列表D_i＝{D_i1，D_i2，…，D_it，…，D_ik}，D_it是指RE_it对应的目标解析数据。

S80，获取空集数量列表E＝{E₁，E₂，…，E_i，…，E_m}，E_i是指遍历D_i，D_it＝null的数量。

具体地，本领域技术人员知晓，现有技术中任何一种判断解析数据是否为空集的方法均属于本发明保护范围，此处不再赘述。

S90，获取最小空集数量E′，E′＝min(E₁，E₂，…，E_i，…，E_m)。

可以理解为，使用中间数据提取文本列表对第二目标日志进行解析，获取使用每一中间数据提取文本列表的第二解析数据列表，并根据第二解析数据列表获取第二解析数据列表中空集的数量，获取空集数量最少的第二解析数据。

S91，获取E′对应的RE′且将RE′作为第二目标数据提取文本列表。

具体地，E′<E₀，E₀为预设空集数量阈值，E₀可根据实际需求确定。可以理解为，当最小空集数量仍然过大时，说明第二目标日志与第二目标数据提取文本列表的匹配度并不高，大部分中间数据并不能匹配成功，因此第二解析数据并不具有可信性，所以对最小空集数量设置预设空集数量阈值，保证获取的第二目标指定文本列表的可信性。

可选的，E₀<0.2*k；优选地，E₀<0.1*k。

基于S10到S90，获取第二目标日志且基于第二目标日志获取第二目标DM，当第一数据列表中DM未经过MD5化时，获取中间数据提取文本列表DM进行遍历，获取第二目标指定文本列表，当没有DMi与第二目标DM相等时或者设备信息列表中DM经过MD5化时，获取中间数据提取文本列表RE，使用中间数据提取文本列表RE对第二目标日志进行解析，获取第二解析数据和第二解析数据对应空集数量列表，将空集数量最少的中间数据提取文本列表作为第二目标数据提取文本列表，采用进行判断是否进行MD5化的方式，而非现有技术中通过指令告知是否MD5化的方式，更具有灵活性，减少了数据进行交互的过程，使得程序更加节约。

基于此，本发明获取目标日志及目标日志中的目标设备ID，通过判断初始设备ID列表中的首个字符和末尾字符是否未数字的方法确定目标ID，减少了依次进行遍历时消耗的时间，基于第一数据列表和第二数据列表，获取目标设备ID对应的中间数据提取文本列表和目标数据键值对列表，从而获取最终键值对列表，实现了匹配过程，实施例2通过判断第一设备标识是否经过MD5化，未经过MD5化时，直接进行匹配，经过MD5化时，获取中间数据提取文本列表中空集数量较少作为第二目标数据提取文本列表。从而本发明更加节约时间，提高了效率，且使得程序更加节约。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种日志范化的数据处理系统，其特征在于，所述系统包括数据库、处理器和存储有计算机程序的存储器，所述数据库中存储有第一数据列表A＝{A₁，A₂，…，A_i，…，A_m}，A_i＝(DM_i，RE_i，KV_i)，KV_i＝{KV_i1，…，KV_ij，…，KV_in}，以及第二数据列表B＝{B₁，B₂，…，B_i，…，B_m}，B_i＝(H_i，DM_i)，其中，DM_i是指第i个第一设备标识，RE_i是指DM_i对应的中间数据提取文本列表，KV_ij是指DM_i对应的第j个目标数据键值对，H_i为DM_i对应的初始设备ID列表，i的取值范围是1到m，m是指第一设备标识数量，j的取值范围是1到n，n是指A_i对应的目标数据键值对数量，当处理器执行一段计算机程序，执行如下步骤：

S1，获取目标设备对应的目标日志和目标日志对应的目标设备ID，其中，目标日志β＝(β₁，β₂，…，β_γ，…，β_γ′)，β_γ是指目标日志对应的第γ个字符，γ的取值范围是1到γ′，γ′是目标日志对应的字符数量；

S2，基于第二数据列表，获取目标设备ID对应的DM_i；

S5，基于V′_i对KV_i进行匹配，获取最终键值对列表KV′_i＝{KV′_i1，…，KV′_ij，…，KV′_in}；

其中，在S1中通过如下步骤获取目标设备ID：

S101，当H_i1为数字时，基于H_i1对β依次进行遍历，其中，H_i＝(H_i1，H_i2，…，H_iα，…，H_iα′)，H_iα是指H_i对应的第α个字符，α的取值范围是1到α′，α′是指H_i对应的字符数量；

S102，当β_γ为数字时，判断H_i1是否等于β_γ；

S103，当存在H_i1＝β_γ且H_iα＝β_γ+α-1时，将H_i作为目标设备ID；

S104，当H_i1不是数字且H_iα′是数字时，基于H_iα′对β依次进行遍历；

S105，当β_γ为数字时，执行S106；

S106，当存在H_i1＝β_γ时，当H_iα＝β_γ-α+1时，将H_i作为目标设备ID；

S107，当H_i1不是数字且H_iα′不是数字时，基于H_i1对β依次进行遍历，获取目标设备ID；

具体的，当H_i1不是数字且H_iα′不是数字时，执行如下步骤：

S1071，获取固定分隔符列表C＝{C₁，C₂，…，C_g，…，C_z}，C_g是指第g个固定分隔符，g的取值范围是1到z，z是指固定分隔符的数量；

S1072，将目标日志按照固定分隔符列表C进行分割，获取目标分割区域列表D＝{D₁，D₂，…，D_x，…，D_q}，D_x是指目标日志按照C进行分割后的第x个目标分割区域，x的取值范围是1到q，q是指目标分割区域的数量；

S1073，获取目标分割区域字符串数量列表Q＝{Q₁，Q₂，…，Q_x，…，Q_q}，Q_x是指D_x对应的目标分割区域的字符串数量；

S1074，获取指定分割区域列表D′＝{D′₁，D′₂，…，D′_y，…，D′_p}和指定分割区域字符串数量列表Q′＝{Q′₁，Q′₂，…，Q′_y，…，Q′_p}，其中，Q′_y≥Q(H_i)，D′_y是指第y个指定分割区域，Q′_y是指D′_y对应的字符串数量，y的取值范围是1到p，p为指定分割区域的数量，Q(H_i)是H_i的字符串数量；

S1075，获取第二匹配次数Sum₂＝∑^p _y＝1[Q′_y-Q(H_i)+1]；

S1076，获取目标日志的字符数量Q且获取第一匹配次数Sum₁＝Q-Q(H_i)，其中，第一匹配次数是指基于S107进行遍历的次数；

S1077，当Sum₂<Sum₁时，基于H_i遍历D′_y，获取目标设备ID。

2.根据权利要求1所述的系统，其特征在于，z<20。

3.根据权利要求2所述的系统，其特征在于，z＝4。

4.根据权利要求1所述的系统，其特征在于，目标设备ID是目标设备的唯一标识。

5.根据权利要求1所述的系统，其特征在于，所述系统包括如下步骤：

S10，获取第二目标日志和第二目标日志对应的第二目标DM；

S20，当DM_i满足预设处理条件时，执行S40；

S30，当DM_i不满足预设处理条件时，执行S60；

S50，当任意DM_i不等于第二目标DM，执行S60；

S60，基于第一数据列表，获取中间数据提取文本列表RE＝{RE₁，RE₂，…，RE_i，…，RE_m}，RE_i＝{RE_i1，RE_i2，…，RE_it，…，RE_ik}，RE_it是指第i个RE列表中第t个中间数据提取文本，t的取值范围是1到k，k是指RE_i中指定文本的数量；

S70，基于RE_i对第二目标日志进行解析，获取目标解析数据列表D_i＝{D_i1，D_i2，…，D_it，…，D_ik}，D_it是指RE_it对应的目标解析数据；

S80，获取空集数量列表E＝{E₁，E₂，…，E_i，…，E_m}，E_i是指遍历D_i，D_it＝null的数量；

S90，获取最小空集数量E′，E′＝min(E₁，E₂，…，E_i，…，E_m)，其中，E′<E₀，E₀为预设空集数量阈值；

6.根据权利要求5所述的系统，其特征在于，E₀<0.2*k。

7.根据权利要求6所述的系统，其特征在于，E₀<0.1*k。

8.根据权利要求5所述的系统，其特征在于，所述DM_i满足预设处理条件是指DM_i经过MD5化处理。