CN115543950B - 一种日志范化的数据处理系统 - Google Patents

一种日志范化的数据处理系统 Download PDF

Info

Publication number
CN115543950B
CN115543950B CN202211197956.6A CN202211197956A CN115543950B CN 115543950 B CN115543950 B CN 115543950B CN 202211197956 A CN202211197956 A CN 202211197956A CN 115543950 B CN115543950 B CN 115543950B
Authority
CN
China
Prior art keywords
target
list
refers
log
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211197956.6A
Other languages
English (en)
Other versions
CN115543950A (zh
Inventor
迟鹏飞
彭义
武方
苗维杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Zhongdian Anke Modern Technology Co ltd
Original Assignee
Hangzhou Zhongdian Anke Modern Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Zhongdian Anke Modern Technology Co ltd filed Critical Hangzhou Zhongdian Anke Modern Technology Co ltd
Priority to CN202211197956.6A priority Critical patent/CN115543950B/zh
Publication of CN115543950A publication Critical patent/CN115543950A/zh
Application granted granted Critical
Publication of CN115543950B publication Critical patent/CN115543950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种日志范化的数据处理系统,包括:数据库、处理器和存储有计算机程序的存储器,所述数据库中存储有第一数据列表,以及第二数据列表,获取目标设备对应的目标日志和目标日志对应的目标设备ID,基于第一数据列表和第二数据列表,获取第一解析数据列表,基于第一解析数据列表,获取最终键值对列表。本发明减少了匹配时间,提高整体效率。

Description

一种日志范化的数据处理系统
技术领域
本发明涉及数据处理领域,特别是涉及一种日志范化的数据处理系统。
背景技术
目前,随着大数据的兴起,使用的软件越来越多、越来越复杂,通常软件以记录日志的方式留下操作流程,如此就产生了大量的日志,对设备的日志的范化要求越来越高,所述范化是指将日志字段提取出来,并将日志字段规则化、通用化、标准化。采用人工的方式进行查看,则需要耗费大量时间且效率极低,难以发现异常情况,对日志进行范化需要提取日志内容、修改日志内容并将日志内容以一个固定格式展现出来,因此很多服务器在加上范化功能后,会对服务器的性能造成直线下降,消耗服务器大量的资源,同时范化的规则越复杂,性能越受影响。
发明内容
针对上述技术问题,本发明采用的技术方案为:
一种日志范化的数据处理系统,所述系统包括如下数据库、处理器和存储有计算机程序的存储器,所述数据库中存储有第一数据列表A={A1,A2,…,Ai,…,Am},Ai=(DMi,REi,KVi),KVi={KVi1,…,KVij,…,KVin},以及第二数据列表B={B1,B2,…,Bi,…,Bm},Bi=(Hi,DMi),其中,DMi是指第i个第一设备标识,REi是指DMi对应的中间数据提取文本列表,Kij是指DMi对应的第j个目标数据键值对,Hi为DMi对应的初始设备ID列表,i的取值范围是1到m,m是指第一设备标识数量,j的取值范围是1到n,n是指Ai对应的目标数据键值对数量,当处理器执行一段计算机程序,执行如下步骤:
S1,获取目标设备对应的目标日志和目标日志对应的目标设备ID,其中,目标日志β=(β1,β2,…,βγ,…,βγ′),βγ是指目标日志对应的第γ个字符,γ的取值范围是1到γ,γ′是目标日志对应的字符数量;
S2,基于第二数据列表,获取目标设备ID对应的DMi
S3,基于第一数据列表,获取DMi对应的中间数据提取文本REi={REi1,…,REij,…,REin}和目标数据键值对列表KVi={KVi1,…,KVij,…,KVin};
S4,基于REi对目标日志进行解析,获取第一解析数据列表V′i={V′i1,…,V′ij,…,V′in},V′ij是指目标日志中RE对应的数据;
S5,基于V′i对KVi进行匹配,获取最终键值对列表KV′i={KV′i1,…,KV′ij,…,KV′in}。
本发明至少具有以下有益效果:
基于S1-S5,通过目标日志获取目标日志中的目标设备ID,在获取目标设备ID时,基于第二数据列表,获取目标ID对应的第一设备标识,通过第一数据列表,获取对应的中间数据提取文本和目标数据键值对列表,通过中间数据提取文本对目标日志进行解析,获取第一解析数据列表,基于目标键值对列表对第一解析数据列表进行匹配,获取最终键值对列表,从而获取目标日志对应的键值对,使用数据库中第一数据列表和第二数据列表对目标日志进行匹配,获取目标日志中的键值对,不用采取人工方式进行识别,更加智能化、简洁化,减少了匹配时间,提高效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的一种日志范化的数据处理系统执行程序的流程图。
图2为本发明实施例2提供的一种获取目标数据提取文本列表的方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明实施例1提供了一种日志范化的数据处理系统,所述系统包括如下数据库、处理器和存储有计算机程序的存储器,所述数据库中存储有第一数据列表A={A1,A2,…,Ai,…,Am},Ai=(DMi,REi,KVi),KVi={KVi1,…,KVij,…,KVin},以及第二数据列表B={B1,B2,…,Bi,…,Bm},Bi=(Hi,DMi),其中,DMi是指第i个第一设备标识,REi是指DMi对应的中间数据提取文本列表,Kij是指DMi对应的第j个目标数据键值对,Hi为DMi对应的初始设备ID列表,i的取值范围是1到m,m是指第一设备标识数量,j的取值范围是1到n,n是指Ai对应的目标数据键值对数量,当处理器执行一段计算机程序,执行如下步骤,如图1所示:
S1,获取目标设备对应的目标日志和目标日志对应的目标设备ID,其中,目标日志β=(β1,β2,…,βγ,…,βγ’),βγ是指目标日志对应的第γ个字符,γ的取值范围是1到γ,γ′是目标日志对应的字符数量;
具体地,在S1步骤中通过如下步骤获取目标设备ID:
S101,当Hi1为数字时,基于Hi1对β依次进行遍历,其中,Hi=(Hi1,Hi2,…,H,…,Hiα′),H是指Hi对应的第α个字符,α的取值范围是1到α′,α′是指Hi对应的字符数量。
S102,当βγ为数字时,判断Hi1是否等于βγ
S103,当存在Hi1=βγ且H=βγ+α-1时,将Hi作为目标ID。
S104,当Hi1不是数字且Hiα′是数字时,基于Hiα′对β依次进行遍历。
S105,当βγ为数字时,执行S106。
S106,当存在Hi1=βγ时,当H=βγ-α+1时,将Hi作为目标ID。
S107,当Hi1不是数字且Hiα′不是数字时,基于Hi1对β依次进行遍历,获取目标ID。
基于S101-S107,判断Hi1是否为数字,当Hi1为数字时,使用Hi1对目标日志进行遍历,当βγ为数字时,且Hi1=βγ时,判断Hi后α′-1位字符是否和βγ后α′-1位字符对应相等,当对应相等时,将Hi作为目标ID;当Hi第一个字符不是数字且Hi最后一个字符为数字时,通过Hi最后一个字符进行遍历,当Hi最后一个字符匹配成功时,判断βγ前α-1是否对应相等,当对应相等时,将Hi作为目标ID,使用了数字先进行匹配的方法,使用数字进行匹配,排除了和目标日志中的字母进行匹配,减少了匹配时间,更加快速地获取目标ID。
在本发明一个优选的实施例中,当Hi1不是数字且Hiα′不是数字时,执行如下步骤:
S1071,获取固定分隔符列表C={C1,C2,…,Cg,…,Cz},Cg是指第g个固定分隔符,g的取值范围是1到z,z是指固定分隔符的数量。
具体地,本领域技术人员知晓,固定分隔符可根据实际情况确定。
可选的,z<20;优选地,z=4。
进一步地,当z=4时,固定分隔符列表包括“空格”或“,”或“。”或“下斜线”。
S1072,将目标日志按照固定分隔符列表C进行分割,获取目标分割区域列表D={D1,D2,…,Dx,…,Dq},Dx是指目标日志按照C进行分割后的第x个目标分割区域,x的取值范围是1到q,q是指目标分割区域的数量。
具体地,本领域技术人员知晓,目标日志包括固定分隔符的一种或多种,将目标日志按照固定分隔符的位置进行分割,获取目标分割区域,从而构成目标分割区域列表。
S1073,获取目标分割区域字符串数量列表Q={Q1,Q2,…,Qx,…,Qq},Qx是指Dx对应的目标分割区域的字符串数量。
S1074,获取指定分割区域列表D′={D′1,D′2,…,D′y,…,D′p}和指定分割区域字符串数量列表Q′={Q′1,Q′2,…,Q′y,…,Q′p},其中,Q′y≥Q(Hr),D′y是指第y个指定分割区域,Q′y是指D′y对应的字符串数量,y的取值范围是1到p,p为指定分割区域的数量。
具体地,将目标分割区域中字符串数量不小于Hr的字符串数量的目标分割区域标记为指定分割区域,并且获取指定分割区域列表,目标分割区域中字符串数量小于Hr的字符串的数量不可能为目标ID,因此进行了排除之后再进行匹配,减少花费的时间,提高效率。
S1075,获取第二匹配次数Sum2=∑p y=1[Q′y-Q(Hr)+1]。
S1076,获取目标日志的字符数量Q且获取第一匹配次数Sum1=Q-Q(Hr),其中,第一匹配次数是指基于S107进行遍历的次数。
S1077,当Sum2<Sum1时,基于Hr遍历D′y,获取目标ID。
根据S1071-S1077,基于固定分隔符对目标日志进行分割,获取目标分割区域,通过判断目标分割区域的字符串的数量和Hr的字符串的数量,获取指定分割区域列表,判断指定分割区域的遍历次数和直接进行遍历的次数,当使用指定分割区域的遍历次数小于直接进行遍历的次数时,在每一指定分割区域进行遍历匹配,获取目标ID,从而进行遍历的次数更少,减少时间消耗。
S2,基于第二数据列表,获取目标设备ID对应的DMi
具体地,设备ID型号对应列表中存储有设备ID和DM的对应的关系,通过两者的对应关系找到目标ID对应的目标DM。
其中,在本发明一个实施例中,目标DM经过MD5化加密处理,将目标设备型号及对应的厂商进行MD5化生成一个固定长度的字符串,在本发明一实施例中,固定长度为128位。
具体地,MD5化是对一段信息产生信息摘要,即通过不可逆的字符串变换算法产生唯一的MD5摘要,MD5摘要即一个固定长度的字符串,对一段信息产生信息摘要,以防止被篡改,同时MD5摘要可能会发生碰撞,但概率很小,因此可以对设备型号及设备型号对应的厂商进行保护,同时更易于传输。
S3,基于第一数据列表,获取DMi对应的中间数据提取文本REi={REi1,…,REij,…,REin}和目标数据键值对列表KVi={KVi1,…,KVij,…,KVin}。
具体地,基于目标DM,可以获取目标设备对应的中间数据提取文本REi和目标键值对列表KVi
S4,基于REi对目标日志进行解析,获取第一解析数据列表V′i={V′i1,…,V′ij,…,V′in},V′ij是指目标日志中RE对应的数据。
具体地,中间数据提取文本REi={REi1,…,REij,…,REin},使用中间数据提取文本进行匹配,获取中间数据提取文本对应的解析数据。
具体地,本领域技术人员知晓使用中间数据提取文本对目标日志进行匹配的方法,此处不再赘述。
S5,基于V′i对KVi进行匹配,获取最终键值对列表KV′i={KV′i1,…,KV′ij,…,KV′in}。
具体地,可以理解为中间数据提取文本REi和目标键值对列表KVi中REij和KVij为对应关系,将第一解析数据列表中V′ij进行匹配,获取最终键值对KV′ij,并基于最终键值对KV′ij获取最终键值对列表KV′i
基于S1-S5,通过目标日志获取目标日志中的目标设备ID,在获取目标设备ID时,基于第二数据列表,获取目标ID对应的第一设备标识,通过第一数据列表,获取对应的中间数据提取文本和目标数据键值对列表,通过中间数据提取文本对目标日志进行解析,获取第一解析数据列表,基于目标键值对列表对第一解析数据列表进行匹配,获取最终键值对列表,从而获取目标日志对应的键值对,使用数据库中第一数据列表和第二数据列表对目标日志进行匹配,获取目标日志中的键值对,不用采取人工方式进行识别,更加智能化、简洁化。
实施例2
在实施例1的基础上,本发明还提供一种获取目标指定文本列表的方法,如图2所示,所述方法包括如下步骤:
S10,获取第二目标日志和第二目标日志对应的第二目标DM。
具体地,通过S101-S107获取第二目标日志对应的第二目标ID。
进一步地,基于第二目标ID,获取第二目标ID对应的第二目标DM。
S20,当DMi满足预设处理条件,执行S30,否则执行S50。
S30,当DMi不满足预设处理条件时,否则执行S60。
具体地,所述DMi满足预设处理条件为DMi未经过M5D化。进一步地,本领域技术人员知晓,现有技术中任何判断第一设备表示是否经过MD5化的方法均属于本发明保护范围,此处不再赘述。
S40,当存在DMi等于第二目标DM时,获取DMi对应的REi作为第二目标RE列表;
具体地,可以通过第一数据列表获取DMi对应的REi。
S50,当任意DMi不等于第二目标DM,执行S60;
S60,基于第一数据列表,获取中间数据提取文本列表RE={RE1,RE2,…,REi,…,REm},REi={REi1,REi2,…,REit,…,REik},REit是指第i个RE列表中第t个中间数据提取文本,t的取值范围是1到k,k是指REi中指定文本的数量。
S70,基于REi对第二目标日志进行解析,获取目标解析数据列表Di={Di1,Di2,…,Dit,…,Dik},Dit是指REit对应的目标解析数据。
S80,获取空集数量列表E={E1,E2,…,Ei,…,Em},Ei是指遍历Di,Dit=null的数量。
具体地,本领域技术人员知晓,现有技术中任何一种判断解析数据是否为空集的方法均属于本发明保护范围,此处不再赘述。
S90,获取最小空集数量E′,E′=min(E1,E2,…,Ei,…,Em)。
可以理解为,使用中间数据提取文本列表对第二目标日志进行解析,获取使用每一中间数据提取文本列表的第二解析数据列表,并根据第二解析数据列表获取第二解析数据列表中空集的数量,获取空集数量最少的第二解析数据。
S91,获取E′对应的RE′且将RE′作为第二目标数据提取文本列表。
具体地,E′<E0,E0为预设空集数量阈值,E0可根据实际需求确定。可以理解为,当最小空集数量仍然过大时,说明第二目标日志与第二目标数据提取文本列表的匹配度并不高,大部分中间数据并不能匹配成功,因此第二解析数据并不具有可信性,所以对最小空集数量设置预设空集数量阈值,保证获取的第二目标指定文本列表的可信性。
可选的,E0<0.2*k;优选地,E0<0.1*k。
基于S10到S90,获取第二目标日志且基于第二目标日志获取第二目标DM,当第一数据列表中DM未经过MD5化时,获取中间数据提取文本列表DM进行遍历,获取第二目标指定文本列表,当没有DMi与第二目标DM相等时或者设备信息列表中DM经过MD5化时,获取中间数据提取文本列表RE,使用中间数据提取文本列表RE对第二目标日志进行解析,获取第二解析数据和第二解析数据对应空集数量列表,将空集数量最少的中间数据提取文本列表作为第二目标数据提取文本列表,采用进行判断是否进行MD5化的方式,而非现有技术中通过指令告知是否MD5化的方式,更具有灵活性,减少了数据进行交互的过程,使得程序更加节约。
基于此,本发明获取目标日志及目标日志中的目标设备ID,通过判断初始设备ID列表中的首个字符和末尾字符是否未数字的方法确定目标ID,减少了依次进行遍历时消耗的时间,基于第一数据列表和第二数据列表,获取目标设备ID对应的中间数据提取文本列表和目标数据键值对列表,从而获取最终键值对列表,实现了匹配过程,实施例2通过判断第一设备标识是否经过MD5化,未经过MD5化时,直接进行匹配,经过MD5化时,获取中间数据提取文本列表中空集数量较少作为第二目标数据提取文本列表。从而本发明更加节约时间,提高了效率,且使得程序更加节约。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims (8)

1.一种日志范化的数据处理系统,其特征在于,所述系统包括数据库、处理器和存储有计算机程序的存储器,所述数据库中存储有第一数据列表A={A1,A2,…,Ai,…,Am},Ai=(DMi,REi,KVi),KVi={KVi1,…,KVij,…,KVin},以及第二数据列表B={B1,B2,…,Bi,…,Bm},Bi=(Hi,DMi),其中,DMi是指第i个第一设备标识,REi是指DMi对应的中间数据提取文本列表,KVij是指DMi对应的第j个目标数据键值对,Hi为DMi对应的初始设备ID列表,i的取值范围是1到m,m是指第一设备标识数量,j的取值范围是1到n,n是指Ai对应的目标数据键值对数量,当处理器执行一段计算机程序,执行如下步骤:
S1,获取目标设备对应的目标日志和目标日志对应的目标设备ID,其中,目标日志β=(β1,β2,…,βγ,…,βγ′),βγ是指目标日志对应的第γ个字符,γ的取值范围是1到γ′,γ′是目标日志对应的字符数量;
S2,基于第二数据列表,获取目标设备ID对应的DMi
S3,基于第一数据列表,获取DMi对应的中间数据提取文本REi={REi1,…,REij,…,REin}和目标数据键值对列表KVi={KVi1,…,KVij,…,KVin};
S4,基于REi对目标日志进行解析,获取第一解析数据列表V′i={V′i1,…,V′ij,…,V′in},V′ij是指目标日志中RE对应的数据;
S5,基于V′i对KVi进行匹配,获取最终键值对列表KV′i={KV′i1,…,KV′ij,…,KV′in};
其中,在S1中通过如下步骤获取目标设备ID:
S101,当Hi1为数字时,基于Hi1对β依次进行遍历,其中,Hi=(Hi1,Hi2,…,H,…,Hiα′),H是指Hi对应的第α个字符,α的取值范围是1到α′,α′是指Hi对应的字符数量;
S102,当βγ为数字时,判断Hi1是否等于βγ
S103,当存在Hi1=βγ且H=βγ+α-1时,将Hi作为目标设备ID;
S104,当Hi1不是数字且Hiα′是数字时,基于Hiα′对β依次进行遍历;
S105,当βγ为数字时,执行S106;
S106,当存在Hi1=βγ时,当H=βγ-α+1时,将Hi作为目标设备ID;
S107,当Hi1不是数字且Hiα′不是数字时,基于Hi1对β依次进行遍历,获取目标设备ID;
具体的,当Hi1不是数字且Hiα′不是数字时,执行如下步骤:
S1071,获取固定分隔符列表C={C1,C2,…,Cg,…,Cz},Cg是指第g个固定分隔符,g的取值范围是1到z,z是指固定分隔符的数量;
S1072,将目标日志按照固定分隔符列表C进行分割,获取目标分割区域列表D={D1,D2,…,Dx,…,Dq},Dx是指目标日志按照C进行分割后的第x个目标分割区域,x的取值范围是1到q,q是指目标分割区域的数量;
S1073,获取目标分割区域字符串数量列表Q={Q1,Q2,…,Qx,…,Qq},Qx是指Dx对应的目标分割区域的字符串数量;
S1074,获取指定分割区域列表D′={D′1,D′2,…,D′y,…,D′p}和指定分割区域字符串数量列表Q′={Q′1,Q′2,…,Q′y,…,Q′p},其中,Q′y≥Q(Hi),D′y是指第y个指定分割区域,Q′y是指D′y对应的字符串数量,y的取值范围是1到p,p为指定分割区域的数量,Q(Hi)是Hi的字符串数量;
S1075,获取第二匹配次数Sum2=∑p y=1[Q′y-Q(Hi)+1];
S1076,获取目标日志的字符数量Q且获取第一匹配次数Sum1=Q-Q(Hi),其中,第一匹配次数是指基于S107进行遍历的次数;
S1077,当Sum2<Sum1时,基于Hi遍历D′y,获取目标设备ID。
2.根据权利要求1所述的系统,其特征在于,z<20。
3.根据权利要求2所述的系统,其特征在于,z=4。
4.根据权利要求1所述的系统,其特征在于,目标设备ID是目标设备的唯一标识。
5.根据权利要求1所述的系统,其特征在于,所述系统包括如下步骤:
S10,获取第二目标日志和第二目标日志对应的第二目标DM;
S20,当DMi满足预设处理条件时,执行S40;
S30,当DMi不满足预设处理条件时,执行S60;
S40,当存在DMi等于第二目标DM时,获取DMi对应的REi作为第二目标RE列表;
S50,当任意DMi不等于第二目标DM,执行S60;
S60,基于第一数据列表,获取中间数据提取文本列表RE={RE1,RE2,…,REi,…,REm},REi={REi1,REi2,…,REit,…,REik},REit是指第i个RE列表中第t个中间数据提取文本,t的取值范围是1到k,k是指REi中指定文本的数量;
S70,基于REi对第二目标日志进行解析,获取目标解析数据列表Di={Di1,Di2,…,Dit,…,Dik},Dit是指REit对应的目标解析数据;
S80,获取空集数量列表E={E1,E2,…,Ei,…,Em},Ei是指遍历Di,Dit=null的数量;
S90,获取最小空集数量E′,E′=min(E1,E2,…,Ei,…,Em),其中,E′<E0,E0为预设空集数量阈值;
S91,获取E′对应的RE′且将RE′作为第二目标数据提取文本列表。
6.根据权利要求5所述的系统,其特征在于,E0<0.2*k。
7.根据权利要求6所述的系统,其特征在于,E0<0.1*k。
8.根据权利要求5所述的系统,其特征在于,所述DMi满足预设处理条件是指DMi经过MD5化处理。
CN202211197956.6A 2022-09-29 2022-09-29 一种日志范化的数据处理系统 Active CN115543950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211197956.6A CN115543950B (zh) 2022-09-29 2022-09-29 一种日志范化的数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211197956.6A CN115543950B (zh) 2022-09-29 2022-09-29 一种日志范化的数据处理系统

Publications (2)

Publication Number Publication Date
CN115543950A CN115543950A (zh) 2022-12-30
CN115543950B true CN115543950B (zh) 2023-06-16

Family

ID=84732059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211197956.6A Active CN115543950B (zh) 2022-09-29 2022-09-29 一种日志范化的数据处理系统

Country Status (1)

Country Link
CN (1) CN115543950B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321371B (zh) * 2019-07-01 2024-04-26 腾讯科技(深圳)有限公司 日志数据异常检测方法、装置、终端及介质
CN110888849B (zh) * 2019-11-06 2022-07-22 国网上海市电力公司 一种在线日志解析方法、系统及其电子终端设备
CN110990350B (zh) * 2019-11-28 2023-06-16 泰康保险集团股份有限公司 日志的解析方法及装置
CN111708860A (zh) * 2020-06-15 2020-09-25 北京优特捷信息技术有限公司 信息提取方法、装置、设备及存储介质
CN114584619B (zh) * 2022-03-07 2024-02-23 北京北信源软件股份有限公司 设备数据解析方法、装置、电子设备及存储介质
CN115102848B (zh) * 2022-07-13 2024-05-28 中广核数字科技有限公司 日志数据的提取方法、系统、设备及介质

Also Published As

Publication number Publication date
CN115543950A (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
CN111782472B (zh) 系统异常检测方法、装置、设备及存储介质
US20080256139A1 (en) Methods and systems for data recovery
Kobayashi et al. Towards an NLP-based log template generation algorithm for system log analysis
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN112632960A (zh) 基于动态字段模板的日志解析方法及系统
CN112434003B (zh) 一种sql优化方法、装置、计算机设备及存储介质
CN112116436A (zh) 一种智能推荐方法、装置、计算机设备及可读存储介质
CN114818643A (zh) 一种保留特定业务信息的日志模板提取方法
US20110238633A1 (en) Electronic file comparator
CN115543950B (zh) 一种日志范化的数据处理系统
CN113723555A (zh) 异常数据的检测方法及装置、存储介质、终端
CN115858208B (zh) 一种获取目标数据提取文本列表的方法
CN110795308A (zh) 一种服务器检验方法、装置、设备及存储介质
CN114266046A (zh) 网络病毒的识别方法、装置、计算机设备及存储介质
CN111460268B (zh) 数据库查询请求的确定方法、装置和计算机设备
CN113342518A (zh) 任务处理方法和装置
CN112686029A (zh) 用于数据库审计系统的sql新语句识别方法及装置
CN113064597B (zh) 一种冗余代码的识别方法、装置和设备
CN113296831B (zh) 应用标识的提取方法、装置、计算机设备及存储介质
CN115481142A (zh) 慢查询语句处理方法、装置、电子设备及存储介质
CN117473200B (zh) 一种用于网站信息数据的综合采集分析方法
CN115695054A (zh) 基于机器学习的waf拦截页面识别的方法、装置及相关组件
CN117240518A (zh) 一种网络日志的解析方法、装置、设备及存储介质
CN114239537A (zh) 服务器物料清单快速比对方法、系统、终端及存储介质
CN115470394A (zh) 基于列表方式的网页数据采集方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant