CN115858208B

CN115858208B - 一种获取目标数据提取文本列表的方法

Info

Publication number: CN115858208B
Application number: CN202211198035.1A
Authority: CN
Inventors: 迟鹏飞; 彭义; 武方; 苗维杰
Original assignee: Hangzhou Zhongdian Anke Modern Technology Co ltd
Current assignee: Hangzhou Zhongdian Anke Modern Technology Co ltd
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2024-05-14
Anticipated expiration: 2042-09-29
Also published as: CN115858208A

Abstract

本发明提供了一种获取目标数据提取文本列表的方法，包括包括如下步骤：获取第二目标日志和第二目标日志对应的第二目标DM，当DM_i满足预设处理条件时，当存在DM_i等于第二目标DM时，获取DM_i对应的RE_i作为第二目标RE列表，当DM_i不满足预设处理条件时，基于第一数据列表，获取中间数据提取文本列表，基于RE_i对第二目标日志进行解析，获取目标解析数据列表，获取空集数量列表，将最小空集数量对应的作为第二目标数据提取文本列表，减少了数据进行交互的过程，使得程序更加节约。

Description

一种获取目标数据提取文本列表的方法

技术领域

本发明涉及计算机领域，特别是涉及一种获取目标数据提取文本列表的方法。

背景技术

目前，随着计算机信息广泛应用，需要计算机进行支持的行业越来越多，对于软件日志的范化也要求越来越高，但日志数据往往数据量较大，占据较大的空间，结构复杂，没有统一的日志模板，且各个设备的数据源众多，产生的日志的顺序并不相同，因此对日志获取动态的模板非常重要，使用人工进行匹配，划分到不同的类型下，需要耗费大量的人力且并不灵活。

发明内容

针对上述技术问题，本发明采用的技术方案为：

一种获取目标数据提取文本列表的方法，所述方法包括如下步骤：

S10，获取第二目标日志和第二目标日志对应的第二目标DM；

S20，当DM_i满足预设处理条件时，执行S40；

S30，当DM_i不满足预设处理条件时，否则执行S60；

S40，当存在DM_i等于第二目标DM时，获取DM_i对应的RE_i作为第二目标RE列表；

S50，当任意DM_i不等于第二目标DM，执行S60；

S60，基于第一数据列表，获取中间数据提取文本列表RE＝{RE₁，RE₂，…，RE_i，…，RE_m}，RE_i＝{RE_i1，RE_i2，…，RE_it，…，RE_ik}，RE_it是指第i个RE列表中第t个中间数据提取文本，t的取值范围是1到k，k是指RE_i中指定文本的数量；

S70，基于RE_i对第二目标日志进行解析，获取目标解析数据列表D_i＝{D_i1，D_i2，…，D_it，…，D_ik}，D_it是指RE_it对应的目标解析数据；

S80，获取空集数量列表E＝{E₁，E₂，…，E_i，…，E_m}，E_i是指遍历D_i，D_it＝null的数量；

S90，获取最小空集数量E′，E′＝min(E₁，E₂，…，E_i，…，E_m)；

S91，获取E′对应的RE′且将RE′作为第二目标数据提取文本列表。

本发明至少具有以下有益效果：

基于S10到S91，获取第二目标日志且基于第二目标日志获取第二目标DM，当第一数据列表中DM未经过MD5化时，获取中间数据提取文本列表DM进行遍历，获取第二目标指定文本列表，当没有DMi与第二目标DM相等时或者设备信息列表中DM经过MD5化时，获取中间数据提取文本列表RE，使用中间数据提取文本列表RE对第二目标日志进行解析，获取第二解析数据和第二解析数据对应空集数量列表，将空集数量最少的中间数据提取文本列表作为第二目标数据提取文本列表，采用进行判断是否进行MD5化的方式，而非现有技术中通过指令告知是否MD5化的方式，更具有灵活性，减少了数据进行交互的过程，使得程序更加节约。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的一种日志范化的数据处理系统的流程图。

图2为本发明实施例2提供的一种获取目标数据提取文本列表的方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明实施例1提供了一种日志范化的数据处理系统，所述系统包括如下数据库、处理器和存储有计算机程序的存储器，所述数据库中存储有第一数据列表A＝{A₁，A₂，…，A_i，…，A_m}，A_i＝(DM_i，RE_i，KV_i)，KV_i＝{KV_i1，…，KV_ij，…，KV_in}，以及第二数据列表B＝{B₁，B₂，…，B_i，…，B_m}，B_i＝(H_i，DM_i)，其中，DM_i是指第i个第一设备标识，RE_i是指DM_i对应的中间数据提取文本列表，K_ij是指DM_i对应的第j个目标数据键值对，H_i为DM_i对应的初始设备ID列表，i的取值范围是1到m，m是指第一设备标识数量，j的取值范围是1到n，n是指A_i对应的目标数据键值对数量，当处理器执行一段计算机程序，执行如下步骤，如图1所示：

S1，获取目标设备对应的目标日志和目标日志对应的目标设备ID，其中，目标日志β＝(β₁，β₂，…，β_γ，…，β_γ′)，β_γ是指目标日志对应的第γ个字符，γ的取值范围是1到γ，γ′是目标日志对应的字符数量；

具体地，在S1步骤中通过如下步骤获取目标设备ID：

S101，当H_i1为数字时，基于H_i1对β依次进行遍历，其中，H_i＝(H_i1，H_i2，…，H_iα，…，H_iα′)，H_iα是指H_i对应的第α个字符，α的取值范围是1到α′，α′是指H_i对应的字符数量。

S102，当β_γ为数字时，判断H_i1是否等于β_γ。

S103，当存在H_i1＝β_γ且H_iα＝β_γ+α-1时，将H_i作为目标ID。

S104，当H_i1不是数字且H_iα′是数字时，基于H_iα′对β依次进行遍历。

S105，当β_γ为数字时，执行S106。

S106，当存在H_i1＝β_γ时，当H_iα＝β_γ-α+1时，将H_i作为目标ID。

S107，当H_i1不是数字且H_iα′不是数字时，基于H_i1对β依次进行遍历，获取目标ID。

基于S101-S107，判断H_i1是否为数字，当H_i1为数字时，使用H_i1对目标日志进行遍历，当β_γ为数字时，且H_i1＝β_γ时，判断H_i后α′-1位字符是否和β_γ后α′-1位字符对应相等，当对应相等时，将H_i作为目标ID；当H_i第一个字符不是数字且H_i最后一个字符为数字时，通过H_i最后一个字符进行遍历，当H_i最后一个字符匹配成功时，判断β_γ前α-1是否对应相等，当对应相等时，将H_i作为目标ID，使用了数字先进行匹配的方法，使用数字进行匹配，排除了和目标日志中的字母进行匹配，减少了匹配时间，更加快速地获取目标ID。

在本发明一个优选的实施例中，当H_i1不是数字且H_iα′不是数字时，执行如下步骤：

S1071，获取固定分隔符列表C＝{C₁，C₂，…，C_g，…，C_z}，C_g是指第g个固定分隔符，g的取值范围是1到z，z是指固定分隔符的数量。

具体地，本领域技术人员知晓，固定分隔符可根据实际情况确定。

可选的，z<20；优选地，z＝4。

进一步地，当z＝4时，固定分隔符列表包括“空格”或“，”或“。”或“下斜线”。

S1072，将目标日志按照固定分隔符列表C进行分割，获取目标分割区域列表D＝{D₁，D₂，…，D_x，…，D_q}，D_x是指目标日志按照C进行分割后的第x个目标分割区域，x的取值范围是1到q，q是指目标分割区域的数量。

具体地，本领域技术人员知晓，目标日志包括固定分隔符的一种或多种，将目标日志按照固定分隔符的位置进行分割，获取目标分割区域，从而构成目标分割区域列表。

S1073，获取目标分割区域字符串数量列表Q＝{Q₁，Q₂，…，Q_x，…，Q_q}，Q_x是指D_x对应的目标分割区域的字符串数量。

S1074，获取指定分割区域列表D′＝{D′₁，D′₂，…，D′_y，…，D′_p}和指定分割区域字符串数量列表Q′＝{Q′₁，Q′₂，…，Q′_y，…，Q′_p}，其中，Q′_y≥Q(H_r)，D′_y是指第y个指定分割区域，Q′_y是指D′_y对应的字符串数量，y的取值范围是1到p，p为指定分割区域的数量。

具体地，将目标分割区域中字符串数量不小于Hr的字符串数量的目标分割区域标记为指定分割区域，并且获取指定分割区域列表，目标分割区域中字符串数量小于Hr的字符串的数量不可能为目标ID，因此进行了排除之后再进行匹配，减少花费的时间，提高效率。

S1075，获取第二匹配次数Sum₂＝∑^p _y＝1[Q′_y-Q(Hr)+1]。

S1076，获取目标日志的字符数量Q且获取第一匹配次数Sum₁＝Q-Q(H_r)，其中，第一匹配次数是指基于S107进行遍历的次数。

S1077，当Sum₂<Sum₁时，基于H_r遍历D′_y，获取目标ID。

根据S1071-S1077，基于固定分隔符对目标日志进行分割，获取目标分割区域，通过判断目标分割区域的字符串的数量和Hr的字符串的数量，获取指定分割区域列表，判断指定分割区域的遍历次数和直接进行遍历的次数，当使用指定分割区域的遍历次数小于直接进行遍历的次数时，在每一指定分割区域进行遍历匹配，获取目标ID，从而进行遍历的次数更少，减少时间消耗。

S2，基于第二数据列表，获取目标设备ID对应的DM_i。

具体地，设备ID型号对应列表中存储有设备ID和DM的对应的关系，通过两者的对应关系找到目标ID对应的目标DM。

其中，在本发明一个实施例中，目标DM经过MD5化加密处理，将目标设备型号及对应的厂商进行MD5化生成一个固定长度的字符串，在本发明一实施例中，固定长度为128位。

具体地，MD5化是对一段信息产生信息摘要，即通过不可逆的字符串变换算法产生唯一的MD5摘要，MD5摘要即一个固定长度的字符串，对一段信息产生信息摘要，以防止被篡改，同时MD5摘要可能会发生碰撞，但概率很小，因此可以对设备型号及设备型号对应的厂商进行保护，同时更易于传输。

S3，基于第一数据列表，获取DM_i对应的中间数据提取文本RE_i＝{RE_i1，…，RE_ij，…，RE_in}和目标数据键值对列表KV_i＝{KV_i1，…，KV_ij，…，KV_in}。

具体地，基于目标DM，可以获取目标设备对应的中间数据提取文本RE_i和目标键值对列表KV_i。

S4，基于RE_i对目标日志进行解析，获取第一解析数据列表V′_i＝{V′_i1，…，V′_ij，…，V′_in}，V′_ij是指目标日志中RE对应的数据。

具体地，中间数据提取文本RE_i＝{RE_i1，…，RE_ij，…，RE_in}，使用中间数据提取文本进行匹配，获取中间数据提取文本对应的解析数据。

具体地，本领域技术人员知晓使用中间数据提取文本对目标日志进行匹配的方法，此处不再赘述。

S5，基于V′_i对KV_i进行匹配，获取最终键值对列表KV′_i＝{KV′_i1，…，KV′_ij，…，KV′_in}。

具体地，可以理解为中间数据提取文本RE_i和目标键值对列表KV_i中RE_ij和KV_ij为对应关系，将第一解析数据列表中V′_ij进行匹配，获取最终键值对KV′_ij，并基于最终键值对KV′_ij获取最终键值对列表KV′_i。

基于S1-S5，通过目标日志获取目标日志中的目标设备ID，在获取目标设备ID时，基于第二数据列表，获取目标ID对应的第一设备标识，通过第一数据列表，获取对应的中间数据提取文本和目标数据键值对列表，通过中间数据提取文本对目标日志进行解析，获取第一解析数据列表，基于目标键值对列表对第一解析数据列表进行匹配，获取最终键值对列表，从而获取目标日志对应的键值对，使用数据库中第一数据列表和第二数据列表对目标日志进行匹配，获取目标日志中的键值对，不用采取人工方式进行识别，更加智能化、简洁化。

实施例2

在实施例1的基础上，本发明还提供一种获取目标指定文本列表的方法，如图2所示，所述方法包括如下步骤：

S10，获取第二目标日志和第二目标日志对应的第二目标DM。

具体地，通过S101-S107获取第二目标日志对应的第二目标ID。

进一步地，基于第二目标ID，获取第二目标ID对应的第二目标DM。

S20，当DM_i满足预设处理条件，执行S30，否则执行S50。

S30，当DM_i不满足预设处理条件时，否则执行S60。

具体地，所述DM_i满足预设处理条件为DM_i未经过M5D化。进一步地，本领域技术人员知晓，现有技术中任何判断第一设备表示是否经过MD5化的方法均属于本发明保护范围，此处不再赘述。

具体地，可以通过第一数据列表获取DMi对应的REi。

S50，当任意DM_i不等于第二目标DM，执行S60；

S60，基于第一数据列表，获取中间数据提取文本列表RE＝{RE₁，RE₂，…，RE_i，…，RE_m}，RE_i＝{RE_i1，RE_i2，…，RE_it，…，RE_ik}，RE_it是指第i个RE列表中第t个中间数据提取文本，t的取值范围是1到k，k是指RE_i中指定文本的数量。

S70，基于RE_i对第二目标日志进行解析，获取目标解析数据列表D_i＝{D_i1，D_i2，…，D_it，…，D_ik}，D_it是指RE_it对应的目标解析数据。

S80，获取空集数量列表E＝{E₁，E₂，…，E_i，…，E_m}，E_i是指遍历D_i，D_it＝null的数量。

具体地，本领域技术人员知晓，现有技术中任何一种判断解析数据是否为空集的方法均属于本发明保护范围，此处不再赘述。

S90，获取最小空集数量E′，E′＝min(E₁，E₂，…，E_i，…，E_m)。

可以理解为，使用中间数据提取文本列表对第二目标日志进行解析，获取使用每一中间数据提取文本列表的第二解析数据列表，并根据第二解析数据列表获取第二解析数据列表中空集的数量，获取空集数量最少的第二解析数据。

具体地，E′<E₀，E₀为预设空集数量阈值，E₀可根据实际需求确定。可以理解为，当最小空集数量仍然过大时，说明第二目标日志与第二目标数据提取文本列表的匹配度并不高，大部分中间数据并不能匹配成功，因此第二解析数据并不具有可信性，所以对最小空集数量设置预设空集数量阈值，保证获取的第二目标指定文本列表的可信性。

可选的，E₀<0.2*k；优选地，E₀<0.1*k。

基于此，本发明获取目标日志及目标日志中的目标设备ID，通过判断初始设备ID列表中的首个字符和末尾字符是否未数字的方法确定目标ID，减少了依次进行遍历时消耗的时间，基于第一数据列表和第二数据列表，获取目标设备ID对应的中间数据提取文本列表和目标数据键值对列表，从而获取最终键值对列表，实现了匹配过程，实施例2通过判断第一设备标识是否经过MD5化，未经过MD5化时，直接进行匹配，经过MD5化时，获取中间数据提取文本列表中空集数量较少作为第二目标数据提取文本列表。从而本发明更加节约时间，提高了效率，且使得程序更加节约。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种获取目标数据提取文本列表的方法，其特征在于，所述方法包括如下步骤：

S10，获取第二目标日志和第二目标日志对应的第二目标DM；

S20，当DM_i满足预设处理条件时，执行S40；

S30，当DM_i不满足预设处理条件时，否则执行S60，其中，所述DM_i满足预设处理条件为DM_i未经过M5D化；

S50，当任意DM_i不等于第二目标DM，执行S60；

S91，获取E′对应的RE′且将RE′作为第二目标数据提取文本列表；

其中，S10还包括如下步骤：

S1，获取目标设备对应的目标日志和目标日志对应的目标设备ID，其中，目标日志β＝(β₁，β₂，…，β_γ，…，β_γ′)，β_γ是指目标日志对应的第γ个字符，γ的取值范围是1到γ′，γ′是目标日志对应的字符数量；

S2，基于第二数据列表，获取目标设备ID对应的DM_i，其中，第二数据列表B＝{B₁，B₂，…，B_i，…，B_m}，B_i＝(H_i，DM_i)，DM_i是指第i个第一设备标识，H_i为DM_i对应的初始设备ID列表；

具体地，在S1步骤中通过如下步骤获取目标设备ID：

S101，当H_i1为数字时，基于H_i1对β依次进行遍历，其中，H_i＝(H_i1，H_i2，…，H_iα，…，H_iα′)，H_iα是指H_i对应的第α个字符，α的取值范围是1到α′，α′是指H_i对应的字符数量；

S102，当β_γ为数字时，判断H_i1是否等于β_γ；

S103，当存在H_i1＝β_γ且H_iα＝β_γ+α-1时，将H_i作为目标ID；

S104，当H_i1不是数字且H_iα′是数字时，基于H_iα′对β依次进行遍历；

S105，当β_γ为数字时，执行S106；

S106，当存在H_i1＝β_γ时，当H_iα＝β_γ-α+1时，将H_i作为目标ID；

S107，当H_i1不是数字且H_iα′不是数字时，基于H_i1对β依次进行遍历，获取目标ID；

其中，S10具体包括：获取第二目标日志对应的第二目标ID；基于第二目标ID，获取第二目标日志对应的第二目标DM。

2.根据权利要求1所述的方法，其特征在于，在S370中，E′<预设空集数量阈值E₀。

3.根据权利要求2所述的方法，其特征在于，E₀<0.2*k。

4.根据权利要求3所述的方法，其特征在于，E₀<0.1*k。

5.根据权利要求1所述的方法，其特征在于，还包括以下步骤：

S3，基于第一数据列表，获取DM_i对应的中间数据提取文本RE_i＝{RE_i1，…，RE_ij，…，RE_in}和目标数据键值对列表KV_i＝{KV_i1，…，KV_ij，…，KV_in}；

S4，基于RE_i对目标日志进行解析，获取第一解析数据列表V′_i＝{V′_i1，…，V′_ij，…，V′_in}，V′_ij是指目标日志中RE对应的数据；

6.根据权利要求1所述的方法，其特征在于，当H_i1不是数字且H_iα′不是数字时，执行如下步骤：

S1071，获取固定分隔符列表C＝{C₁，C₂，…，C_g，…，C_z}，C_g是指第g个固定分隔符，g的取值范围是1到z，z是指固定分隔符的数量；

S1072，将目标日志按照固定分隔符列表C进行分割，获取目标分割区域列表D＝{D₁，D₂，…，D_x，…，D_q}，D_x是指目标日志按照C进行分割后的第x个目标分割区域，x的取值范围是1到q，q是指目标分割区域的数量；

S1073，获取目标分割区域字符串数量列表Q＝{Q₁，Q₂，…，Q_x，…，Q_q}，Q_x是指D_x对应的目标分割区域的字符串数量；

S1074，获取指定分割区域列表D′＝{D′₁，D′₂，…，D′_y，…，D′_p}和指定分割区域字符串数量列表Q′＝{Q′₁，Q′₂，…，Q′_y，…，Q′_p}，其中，Q′_y≥Q(H_r)，D′_y是指第y个指定分割区域，Q′_y是指D′_y对应的字符串数量，y的取值范围是1到p，p为指定分割区域的数量；

S1075，获取第二匹配次数Sum₂＝∑^p _y＝1[Q′_y-Q(H_r)+1]；

S1076，获取目标日志的字符数量Q且获取第一匹配次数Sum₁＝Q-Q(H_r)，其中，第一匹配次数是指基于S107进行遍历的次数；

S1077，当Sum₂<Sum₁时，基于H_r遍历D′_y，获取目标ID。

7.根据权利要求6所述的方法，其特征在于，z<20。

8.一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1～7中任意一项的所述方法。

9.一种电子设备，其特征在于，包括处理器和权利要求8中所述的非瞬时性计算机可读存储介质。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行实现如权利要求1～7中任意一项所述的方法。