CN114595136B - 一种日志解析方法、装置及设备 - Google Patents
一种日志解析方法、装置及设备 Download PDFInfo
- Publication number
- CN114595136B CN114595136B CN202210496308.4A CN202210496308A CN114595136B CN 114595136 B CN114595136 B CN 114595136B CN 202210496308 A CN202210496308 A CN 202210496308A CN 114595136 B CN114595136 B CN 114595136B
- Authority
- CN
- China
- Prior art keywords
- gram
- log
- frequency
- sequence
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种日志解析方法、装置及设备,方法包括:获取待解析日志数据;将所述待解析日志数据进行分词处理,得到日志序列;确定所述日志序列的子序列n‑gram,所述n‑gram是按照长度n切分所述日志序列,得到的长度为n的子序列,n为正整数;获取所述n‑gram在n‑gram频率字典中的频率,所述n‑gram频率字典包括多个n‑gram以及每个n‑gram对应的频率,所述频率是n‑gram在历史日志序列中,该n‑gram出现的次数,所述历史日志序列是形成所述n‑gram频率字典所用到的日志序列;根据所述频率确定自动阈值,根据所述自动阈值对所述日志序列进行解析,获得解析结果。本发明的方案可以实现海量日志数据的高效解析。
Description
技术领域
本发明涉及信息处理技术领域,特别是指一种日志解析方法、装置及设备。
背景技术
日志是一种半结构化数据,记录着系统的行为及故障等信息,自动化日志分析可以帮助运维人员监控系统状态,检测系统异常。一般的,日志解析是自动化日志分析中的第一步,解析的结果可以用于异常检测、故障诊断等下游任务中。
现有的一些日志解析算法,已经能取得非常高的解析精度。而随着信息化发展,日志数量增长迅速,在不损失解析精度的前提下,提高解析算法的效率及并行能力将是解析算法中一个非常重要的方向。
发明内容
本发明要解决的技术问题是如何提供一种日志解析方法、装置及设备,以实现海量日志的高效解析,有效提高运维系统的异常检测、故障诊断等下游任务的准确率。
为解决上述技术问题,本发明的技术方案如下:
一种日志解析方法,包括:
获取待解析日志数据;
将所述待解析日志数据进行分词处理,得到日志序列;
确定所述日志序列的子序列n-gram,所述n-gram是按照长度n切分所述日志序列,得到的长度为n的子序列,n为正整数;
获取所述n-gram在n-gram频率字典中的频率,所述n-gram频率字典包括多个n-gram以及每个n-gram对应的频率,所述频率是n-gram在历史日志序列中,该n-gram出现的次数,所述历史日志序列是形成所述n-gram频率字典所用到的日志序列;
根据所述频率,确定自动阈值;
根据所述自动阈值对所述日志序列进行解析,获得解析结果,所述解析结果包括:所述待解析日志数据的日志模式;所述日志模式包括:所述日志序列中最终留下的静态文本和预设字符所表示的动态变量。
可选的,n大于或者等于2时,确定所述日志序列的子序列n-gram,包括:
将所述日志序列按照长度2切分,得到序列的2-gram;
将所述日志序列按照每次切分长度加1的方式,对所述日志序列进行切分,直到切分长度达到长度k,所述k为大于或者等于2的正整数。
可选的,根据所述频率,确定自动阈值,包括:
获取每一个n-gram在所述n-gram频率字典中出现的次数的众数和中位数;
将所述众数和中位数中的较大者,作为所述自动阈值。
可选的,n大于或者等于2时,根据所述自动阈值对所述日志序列进行解析,获得解析结果,包括:
对每一个所述n-gram,按照所述n的值从大到小的顺序,根据所述自动阈值,确定n为k时的n-gram中的静态文本和动态变量;
将所述静态文本从所述日志序列滤除,得到剩余的部分为n=k时的动态变量候补;
根据n为k-1时的n-gram和所述n=k时的动态变量候补,得到第n=k-1时的动态变量候补,直到得到n=2时的动态变量候补;
根据所述n=2时的动态变量候补中的元素,得到所述解析结果。
可选的,根据所述n=2时的动态变量候补中的元素,得到所述解析结果,包括:
将日志序列中,所述n=2时的动态变量候补中的元素替换为预设字符;
将所述静态文本和所述预设字符形成的日志模式作为所述解析结果输出。
可选的,日志解析方法,还包括:
所述静态文本和所述预设字符形成的日志模式中,若有相邻的预设字符,则将相邻的预设字符合并后,再输出所述日志模式。
可选的,日志解析方法,还包括:
根据所述解析结果,对日志数据进行分类。
本发明的实施例还提供一种日志解析装置,包括:
获取模块,用于获取待解析日志数据;
处理模块,用于将所述待解析日志数据进行分词处理,得到日志序列;
确定所述日志序列的子序列n-gram,所述n-gram是按照长度n切分所述日志序列,得到的长度为n的子序列,n为正整数;获取所述n-gram在n-gram频率字典中的频率,所述n-gram频率字典包括多个n-gram以及每个n-gram对应的频率,所述频率是n-gram历史日志序列中,该n-gram出现的次数,所述历史日志序列是形成所述n-gram频率字典所用到的日志序列;根据所述频率,确定自动阈值;根据所述自动阈值对所述日志序列进行解析,获得解析结果,所述解析结果包括:所述待解析日志数据的日志模式;所述日志模式包括:所述日志序列中最终留下的静态文本和预设字符所表示的动态变量。
本发明还提供一种计算设备,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行所述的方法。
本发明还提供一种计算机可读存储介质,其存储指令,当所述指令在计算机上运行时,使得计算机执行所述的方法。
本发明的上述方案至少包括以下有益效果:
本发明的上述方案,通过获取待解析日志数据;
将所述待解析日志数据进行分词处理,得到日志序列;
确定所述日志序列的子序列n-gram,所述n-gram是按照长度n切分所述日志序列,得到的长度为n的子序列,n为正整数;获取所述n-gram在n-gram频率字典中的频率,所述n-gram频率字典包括多个n-gram以及每个n-gram对应的频率,所述频率是n-gram在历史日志序列中,该n-gram出现的次数,所述历史日志序列是形成所述n-gram频率字典所用到的日志序列;根据所述频率,确定自动阈值;根据所述自动阈值对所述日志序列进行解析,获得解析结果,所述解析结果包括:所述待解析日志数据的日志模式;所述日志模式包括:所述日志序列中最终留下的静态文本和预设字符所表示的动态变量;可以区分出日志中的动态变量和静态文本,将日志模式化、结构化,适用于海量日志的高效解析,通过解析出的日志模式,对日志进行精确分类,其作为自动化日志分析中的步骤,有效提高运维系统的异常检测、故障诊断等下游任务的准确率。
附图说明
图1为本发明实施例提供的日志解析方法流程图;
图2为本发明实施例提供的日志解析方法的具体流程图;
图3为本发明实施例提供的日志解析方法的步骤4的具体流程图;
图4为本发明实施例提供的日志解析方法解析1001条日志数据的具体流程图;
图5为本发明实施例提供的日志解析装置的模块示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
首先对本发明的下述实施例中用到的名词进行解释:
日志模式:由静态文本组成的日志模板,其中,动态变量由<*>表示,如日志数据Inputsplit:hdfs://hostname/2kSOSP.log:21876+7292的日志模式为:Inputsplit:<*>。
日志数据的token:代表日志的词或者符号,如日志Inputsplit:hdfs://hostname/2kSOSP.log:21876+7292的token有3个:Input,split:,hdfs://hostname/2kSOSP.log:21876+7292。
日志序列(token序列):被排成一排的token,序列中token之间的顺序不可替换。日志经过分词之后,可以转化为一个token序列,如日志Inputsplit:hdfs://hostname/2kSOSP.log:21876+7292,可转化为token序列[Input,split:,hdfs://hostname/2kSOSP.log:21876+7292]。
在日志序列中,出现越频繁的n-gram,越可能是静态文本,出现越不频繁的n-gram,越可能是动态变量。
如图1所示,本发明的实施例提供一种日志解析方法,包括:
步骤11、获取待解析日志数据;
步骤12、将所述待解析日志数据进行分词处理,得到日志序列;
步骤13、确定所述日志序列的子序列n-gram,所述n-gram是按照长度n切分所述日志序列,得到的长度为n的子序列,n为正整数;
步骤14、获取所述n-gram在n-gram频率字典中的频率,所述n-gram频率字典包括多个n-gram以及每个n-gram对应的频率,所述频率是n-gram在历史日志序列中,该n-gram出现的次数,所述历史日志序列是形成所述n-gram频率字典所用到的日志序列;
步骤15、根据所述频率,确定自动阈值;
步骤16、根据所述自动阈值对所述日志序列进行解析,获得解析结果,所述解析结果包括:所述待解析日志数据的日志模式;所述日志模式包括:所述日志序列中最终留下的静态文本和预设字符所表示的动态变量。
本实施例的方案,可以区分出日志中的动态变量和静态文本,将日志模式化、结构化,适用于海量日志的高效解析,通过解析出的日志模式,对日志进行精确分类,其作为自动化日志分析中的步骤,有效提高运维系统的异常检测、故障诊断等下游任务的准确率。
作为本实施例优选的实现方式,步骤13中,n大于或者等于2时,确定所述日志序列的子序列n-gram,包括:
步骤131、将所述日志序列按照长度2切分,得到序列的2-gram;
步骤132、将所述日志序列按照每次切分长度加1的方式,对所述日志序列进行切分,直到切分长度达到长度k,所述k为大于或者等于2的正整数;
这里的n-gram是按照长度n切分原日志序列,得到的所有长度为n的子序列,如序列[Receive,message,from]的2-gram有2个:Receive->message,message->from;3-gram有1个:Receive->message->from。
本发明的一可选的实施例中,为提供n-gram频率字典更新方式,所述的日志解析方法,还可以包括:
对所述n-gram频率字典更新的步骤:在线对n-gram频率字典进行更新,即每出现一条待解析日志数据,对其进行分词处理,得到日志序列,并确定所述日志序列的n-gram后,将所述日志序列的n-gram更新到所述n-gram频率字典中,再对该日志序列进行解析。
上述实施例中,待解析日志数据可以是一条日志数据,对于海量的日志数据以及日志的实时更新的特性,作为本实施例的优选实现方式,可以进行,批量更新n-ram频率字典并对日志进行解析,例如,以1000为一个批次,每次取1000条日志数据的n-gram更新n-gram频率字典,再依次解析每条日志数据,解析完毕后,再取下一批次的日志数据,更新n-gram频率字典及解析日志数据;
因此,本发明的一可选的实施例中,上述日志解析方法还可以包括:
初始化一待解析队列;
将每一条待解析日志数据的日志序列,存入该待解析队列,该待解析队列设置为先进先出的队列,该待解析队列的预定长度可以与上述预设数量的值相同,如待解析队列的长度可以是1000;
对于每进入待解析队列中一条待解析日志数据的日志序列,判断该待解析队列的长度是否达到该预定长度,若未达到,则可以继续进行下一条待解析日志数据的分词处理,并用得到的日志序列的n-gram更新n-gram频率字典。若达到该预定长度,则弹出待解析队列的第一个元素(即第一个进入该待解析队列的日志序列),对该第一个元素进行解析。
具体而言,如图2所示,上述流程的具体实现步骤包括:
步骤101、初始化n-gram,其中,n=2,3……k;k为正整数;初始化待解析队列S;
步骤102、获取待解析日志数据,例如,原始日志数据流式输入;
步骤103、将所述待解析日志数据进行分词处理,得到日志序列,即token序列L=[w1,w2,……,wt],t为日志序列的长度,t的值为正整数,k小于t;
步骤104、确定所述日志序列的n-gram,并更新n-gram频率字典;
步骤105、将所述日志序列存入待解析队列,即将token序列L存入待解析队列S中;
步骤106、判断待解析队列是否达到预定长度,以预定长度为1000条为例,若所述待解析队列未达到1000条,则重复步骤102、103、104、105,直到所述待解析队列达到预定长度。若所述待解析队列达到1000条,则开始进行解析:弹出待解析队列的第一个元素x,并解析第一个元素x,再重复步骤102、103、104、105。
采用这样的设计方式,是为了防止新模式产生时,由于日志数据的n-gram中,没有存储该日志模式的历史n-gram的信息,导致新日志模式中的n-gram的频率为0,进而将新日志模式的所有token都认为是动态变量。而本实施例中,待解析队列的设计,可以在解析日志前,提前统计该日志未来1000条日志的n-gram的信息之后,再解析该日志。这样一来,即便有新日志模式产生,在该日志模式之后的1000条日志中,频率字典也很有可能统计到了该日志模式下的其他日志的n-gram的信息,从而可以用于正确判断该新日志序列的动态变量。
本发明的一可选的实施例中,上述步骤14具体可以包括:
从n-gram频率字典中根据n-gram查找n-gram对应的频率,所述频率是n-gram在n-gram频率字典中出现的次数;例如,从n-gram频率字典中查找2-gram对应的频率或者3-gram对应的频率。
本发明的一可选的实施例中,上述步骤15中,根据所述频率,确定自动阈值可以包括:
步骤151,获取每一个n-gram在所述n-gram频率字典中出现的次数的众数和中位数;
步骤152,将所述众数和中位数中的较大者,作为所述自动阈值。
这里,统计待解析日志数据的日志序列所有n-gram的频率(n=2,3……k):F(n)=[fre(g(n)) for g(n) in Gs(n)];
其中,Gs(n)为L的所有n-gram,即[w1w2……wn,w2w3……wn+1,……,wt-n+1wt-n+2……wt];
g(n)为n-gram中的子序列,F(n)为n-gram在n-gram频率字典中的频率,即n-gram在n-gram频率字典中出现的次数,fre(g(n))为n-gramg(n)的频率;
根据n-gram频率的众数和中位数,自动求阈值,具体可以是:
通过s(n)=max(median(F(n)),mode(F(n))),得到自动阈值;
其中,median()函数为求中位数,mode()函数为求众数。即取频率的众数及中位数的最大值作为自动阈值。
假设在日志模式中,常量(静态文本)的个数会比变量(动态变量)的个数更多,而同一日志模式中的常量,因为在该模式中都出现,所以大部分常量的出现频率应该相等,都等于该模式出现的次数,所以常量(即静态文本)的出现频率理论应该为所有频率的众数。
当然,某些常量可能在多个模式中均有出现,导致频率不一定为众数,此时,可以用频率中位数进行托底,因为认为变量的频率是小于常量频率的,而变量的个数由更少,将频率从小到大排列,变量的频率肯定比中位数小。所以本发明将n-gram频率的众数及中位数的最大值作为阈值,能够保证结果的准确性。
基于单条日志的n-gram的频率众数、中位数自动确定阈值,可以帮助程序自动、高效、准确判断动态变量及静态文本。
本发明的一可选的实施例中,上述步骤16中,根据所述自动阈值对所述日志序列进行解析,获得解析结果,包括:
步骤161、对每一个日志序列的所述n-gram,按照n的值从大到小的顺序,根据所述自动阈值,确定n为k时的n-gram中的静态文本和动态变量;
步骤162、将所述静态文本从所述日志序列滤除,得到剩余的部分为n=k时的动态变量候补;
步骤163、根据n为k-1时的n-gram和所述n=k时的动态变量候补,得到第n=k-1时的动态变量候补,直到得到n=2时的动态变量候补;
步骤164、根据所述n=2时的动态变量候补中的元素,得到所述解析结果。
该步骤164具体可以包括:
步骤1641、将所述第一个动态变量候补序列中的动态变量替换为预设字符;
步骤1642、将所述静态文本和所述预设字符形成的日志模式作为所述解析结果输出。
作为本实施例的优选实现方式,本发明的日志解析方法还可以包括:
在所述静态文本和所述预设字符形成的日志模式中,若有相邻的预设字符,则将相邻的预设字符合并后,再输出所述日志模式,利于改善日志按照模式进行分类的效果。
作为本实施例的优选实现方式,如图3所示,上述方法中,步骤16中,根据所述自动阈值,对所述日志序列进行解析,获得解析结果的具体过程包括:
步骤1601、从n=k开始,根据所述自动阈值,确定n为k时的n-gram中的静态文本和动态变量,即根据日志序列L的n-gram的频率和自动阈值,确定静态文本的n-gram的集合,其中,k=k:
C(k)={g(k)|g(k)∈G(k),fre(g(k))>=s(k)}
其中,G(k)表示token序列L的所有k-gram的集合,即{w1 w2……wk, w2 w3……wk+1,……, wt-k+1 wt-k+2……wt};
t代表日志序列L中字符的数量;
fre(g(k))为k-gram的g(k)的频率,其可通过在更新后的n-gram频率字典中查找k-gram的g(k)出现的次数得到;
s(k)为自动阈值;g(k)为静态文本。
步骤1602、将所述静态文本从所述日志序列中滤除,得到剩余的部分为n=k时的动态变量候补;
具体的,将日志序列L放入列表L0中,用C(k)分割L0,得到L的子序列列表,所述子序列列表为包含了所有的动态变量候补的序列:
L(k)=separate(L0,C(k))
其中,separate函数为以C(k)作为分隔的函数,C(k)为步骤1601中得到的静态文本的n-gram的集合;将序列L分隔成子序列列表。例如:若输入列表L0为[[Received,a,message,from,block,0001;]],以n=3为例,输入C(k)为{message->from->block},则输出为:[[Received,a],[0001]],其中的message、from、block作为静态文本被滤除,得到剩余的动态变量[[Received,a],[0001]]作为n=k时的动态变量候补L(k)。
步骤1603、根据n为k-1时的n-gram(k-1-gram)和所述n=k时的动态变量候补L(k),得到n=k-1时的动态变量候补,直到得到n=2时的动态变量候补:
具体的,n=k-1时的动态变量候补如下:
L(k-1)=separate(L(k),C(k-1))
其中:C(k-1)为通过k-1-gram确定的不包含动态变量的静态文本n-gram集合;C(k-1)通过如下方式获得:
C(k-1)={g(k-1)|g(k-1)∈G(k-1,L(k)),fre(g(k))>=s(k)}
其中,G(k-1, L(k))为n=k时的动态变量候补序列L(k)元素的所有k-1-gram的集合,例如,以k=3为例,L(2)为[[Received, a],[0001]],则G(2, L(2))为{Received->a},分隔后输出为[[0001]],其中的Received、a作为静态文本被滤除,得到剩余的动态变量0001;
最后,直到得到n=2时的动态变量候补L(2),则动态变量为L(2)中包含的所有token。
步骤1604、根据所述n=2时的动态变量候补L(2)中的元素,得到所述解析结果,其包括:
步骤16041、将日志序列中,所述n=2时的动态变量候补L(2)中的元素替换为预设字符:
将动态变量转为<*>,获得日志模式。例如,若日志序列为[Receive, message,from, block, 0001],0001为动态变量,则将0001转为<*>;
步骤16042、将所述静态文本和所述预设字符形成的日志模式作为所述解析结果输出;
在所述静态文本和所述预设字符形成的日志模式中,若有相邻的预设字符,则将相邻的预设字符合并后,再输出所述日志模式:
合并日志模式中相邻的<*>,例如:若有日志模式Receive message from block<*><*>,则该模式合并后变为Receive message from block<*>,将其作为所述解析结果输出。
作为本实施例的优选实现方式,所述的日志解析方法,还可以包括:
步骤17、根据所述解析结果,对日志数据进行分类。
为便于理解,本实施例使用1001条日志数据进行说明,并仅解析前两条日志数据。假设含有日志数据:
设置k=3,先更新n-gram频率字典,直到填满待解析队列,所述待解析队列的固定数量设置为1000条,填满后的待解析队列:
所述n-gram频率字典的日志数据的预设数量为1000条,所述n-gram频率字典如下:
所述待解析队列填满后,弹出所述待解析队列的第一个元素,并对其进行解析:
如图4所示,弹出的元素为token序列L:[Receive,message,from,block,0001]。
首先,获得该日志序列的3-gram及2-gram对应频率,并根据频率众数及中位数确定其3-gram及2-gram的自动阈值均为1000。
3-gram中,高于阈值的3-gram有Receive->message->from、message->from->block,所以,判断静态文本n-gram;C(3)为{Receive->message->from、message->from->bloc},用C(3)分割L,得到潜在动态变量L(3):[[0001]]。
然后,获得包含潜在动态变量的2-gram频率,因为L(3)中最长的序列为1,所以2-gram为空,所以C(2)={},用C(2)分割L(3),得到潜在动态变量L(2):[[0001]],所以0001为动态变量。
最后,将0001变为<*>获得日志模式为Receive message from block<*>,该模式无连续动态变量,所以动态变量合并后,日志模式仍为Receive message from block<*>。
将第1条数据解析完毕后,解析第2条数据前,要先将第1001条数据用于更新n-gram频率字典,并存入待解析队列中,此时,所述待解析队列如下:
此时,所述n-gram频率字典如下:
重复解析的步骤,对待解析队列第一个元素[Receive, message,from,block,0002]进行解析,得到解析结果为Receive message from block<*>。依次类推,直至没有新的日志数据流入,将所述待解析队列中的剩余日志数据弹出并解析,即可完成全部解析工作。
本实施例所述的日志解析方法,基于n-gram的自动阈值判断动态变量,由此进行高效日志解析,获得日志模式。这样的方式,第一,解析的准确率以及效率大大提高,采用待解析队列的方法改善算法冷启动问题;第二,所述自动阈值是基于单条日志自动设置阈值,通过单条日志n-gram频率的众数及中位数设置自动阈值;根据自动阈值特性,还进一步基于分割序列的方式寻找潜在的动态变量,即使日志模式所含日志数量不对称也能有很好的解析效果;第三,在判断完动态变量后采用日志模式的合并步骤,可以避免因为预处理不当等原因生成模式过多,影响日志后续处理。
如图5所示,本实施例还提供一种日志解析装置50,包括:
获取模块51,用于获取待解析日志数据;
处理模块52,用于将所述待解析日志数据进行分词处理,得到日志序列;确定所述日志序列的子序列n-gram,所述n-gram是按照长度n切分所述日志序列,得到的长度为n的子序列,n为正整数;获取所述n-gram在n-gram频率字典中的频率,所述n-gram频率字典包括多个n-gram以及每个n-gram对应的频率,所述频率是n-gram在历史日志序列中,该n-gram出现的次数,所述历史日志序列是形成所述n-gram频率字典所用到的日志序列;根据所述频率,确定自动阈值;根据所述自动阈值对所述日志序列进行解析,获得解析结果,所述解析结果包括:所述待解析日志数据的日志模式;所述日志模式包括:所述日志序列中最终留下的静态文本和预设字符所表示的动态变量。
可选的,n大于或者等于2时,确定所述日志序列的子序列n-gram,包括:
将所述日志序列按照长度2切分,得到序列的2-gram;
将所述日志序列按照每次切分长度加1的方式,对所述日志序列进行切分,直到切分长度达到长度k,所述k为大于或者等于2的正整数。
可选的,根据所述频率,确定自动阈值,包括:
获取每一个n-gram在所述n-gram频率字典中出现的次数的众数和中位数;
将所述众数和中位数中的较大者,作为所述自动阈值。
可选的,n大于或者等于2时,根据所述自动阈值对所述日志序列进行解析,获得解析结果,包括:
对每一个所述n-gram,按照所述n的值从大到小的顺序,根据所述自动阈值,确定n为k时的n-gram中的静态文本和动态变量;
将所述静态文本从所述日志序列滤除,得到剩余的部分为n=k时的动态变量候补;
根据n为k-1时的n-gram和所述n=k时的动态变量候补,得到第n=k-1时的动态变量候补,直到得到n=2时的动态变量候补;
根据所述n=2时的动态变量候补中的元素,得到所述解析结果。
可选的,根据所述n=2时的动态变量候补中的元素,得到所述解析结果,包括:
将日志序列中,所述n=2时的动态变量候补中的元素替换为预设字符;
将所述静态文本和所述预设字符形成的日志模式作为所述解析结果输出。
可选的,所述处理模块52还用于:所述静态文本和所述预设字符形成的日志模式中,若有相邻的预设字符,则将相邻的预设字符合并后,再输出所述日志模式。
可选的,所述处理模块52还用于:根据所述解析结果,对日志数据进行分类。
需要说明的是,该实施例是与上述方法实施例对应的装置实施例,上述方法实施例中的所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
本实施例还提供一种计算设备,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行所述的方法。
本实施例还提供一种计算机可读存储介质,其存储指令,当所述指令在计算机上运行时,使得计算机执行所述的方法。
该计算设备可以包括:处理器(processor)、通信接口(CommunicationsInterface)、存储器(memory)、以及通信总线。
其中:处理器、通信接口、以及存储器通过通信总线完成相互间的通信。通信接口,用于与其它设备比如客户端或其它服务器等的网元通信。处理器,用于执行程序,具体可以执行上述实施例中的相关步骤。
具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。
处理器可能是中央处理器CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器,用于存放程序。存储器可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序具体可以用于使得处理器执行上述任意方法实施例中的方法。程序中各步骤的具体实现可以参见上述实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明实施例的内容,并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明实施例并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干系统的单元权利要求中,这些系统中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
Claims (7)
1.一种日志解析方法,其特征在于,包括:
获取待解析日志数据;
将所述待解析日志数据进行分词处理,得到日志序列;
确定所述日志序列的子序列n-gram,所述n-gram是按照长度n切分所述日志序列,得到的长度为n的子序列,n为正整数;
获取所述n-gram在n-gram频率字典中的频率,所述n-gram频率字典包括多个n-gram以及每个n-gram对应的频率,所述频率是n-gram在历史日志序列中,该n-gram出现的次数,所述历史日志序列是形成所述n-gram频率字典所用到的日志序列;
根据所述频率,确定自动阈值;
根据所述自动阈值对所述日志序列进行解析,获得解析结果,所述解析结果包括:所述待解析日志数据的日志模式;所述日志模式包括:所述日志序列中最终留下的静态文本和预设字符所表示的动态变量;
其中,根据所述频率,确定自动阈值包括:
获取每一个n-gram在所述n-gram频率字典中出现的次数的众数和中位数;
将所述众数和中位数中的较大者,作为所述自动阈值;
其中,统计待解析日志数据的日志序列所有n-gram的频率,n=2,3……k:F(n)=[fre(g(n)) for g(n) in Gs(n)];
其中,Gs(n)为L的所有n-gram,即[w1w2……wn,w2w3……wn+1,……,wt-n+1wt-n+2……wt];
g(n)为n-gram中的子序列,F(n)为n-gram在n-gram频率字典中的频率,即n-gram在n-gram频率字典中出现的次数,fre(g(n))为n-gramg(n)的频率;
根据n-gram频率的众数和中位数,自动求阈值,具体是:
通过s(n)=max(median(F(n)),mode(F(n))),得到自动阈值;
其中,median()函数为求中位数,mode()函数为求众数,即取频率的众数及中位数的最大值作为自动阈值;
其中,根据所述自动阈值对所述日志序列进行解析,获得解析结果,包括:
对每一个日志序列的所述n-gram,按照n的值从大到小的顺序,根据所述自动阈值,确定n为k时的n-gram中的静态文本和动态变量;
将所述静态文本从所述日志序列滤除,得到剩余的部分为n=k时的动态变量候补;
根据n为k-1时的n-gram和所述n=k时的动态变量候补,得到第n=k-1时的动态变量候补,直到得到n=2时的动态变量候补;
根据所述n=2时的动态变量候补中的元素,得到所述解析结果;
其中,根据所述n=2时的动态变量候补中的元素,得到所述解析结果,具体包括:
将所述第一个动态变量候补序列中的动态变量替换为预设字符;
将所述静态文本和所述预设字符形成的日志模式作为所述解析结果输出。
2.根据权利要求1所述的日志解析方法,其特征在于,n大于或者等于2时,确定所述日志序列的子序列n-gram,包括:
将所述日志序列按照长度2切分,得到序列的2-gram;
将所述日志序列按照每次切分长度加1的方式,对所述日志序列进行切分,直到切分长度达到长度k,所述k为大于或者等于2的正整数。
3.根据权利要求1所述的日志解析方法,其特征在于,还包括:
在所述静态文本和所述预设字符形成的日志模式中,若有相邻的预设字符,则将相邻的预设字符合并后,再输出所述日志模式。
4.根据权利要求1至3任一项所述的日志解析方法,其特征在于,还包括:
根据所述解析结果,对日志数据进行分类。
5.一种日志解析装置,其特征在于,包括:
获取模块,用于获取待解析日志数据;
处理模块,用于将所述待解析日志数据进行分词处理,得到日志序列;
确定所述日志序列的子序列n-gram,所述n-gram是按照长度n切分所述日志序列,得到的长度为n的子序列,n为正整数;获取所述n-gram在n-gram频率字典中的频率,所述n-gram频率字典包括多个n-gram以及每个n-gram对应的频率,所述频率是n-gram在历史日志序列中,该n-gram出现的次数,所述历史日志序列是形成所述n-gram频率字典所用到的日志序列;根据所述频率,确定自动阈值;根据所述自动阈值对所述日志序列进行解析,获得解析结果,所述解析结果包括:所述待解析日志数据的日志模式;所述日志模式包括:所述日志序列中最终留下的静态文本和预设字符所表示的动态变量;
其中,根据所述频率,确定自动阈值包括:
获取每一个n-gram在所述n-gram频率字典中出现的次数的众数和中位数;
将所述众数和中位数中的较大者,作为所述自动阈值;
其中,统计待解析日志数据的日志序列所有n-gram的频率,n=2,3……k:F(n)=[fre(g(n)) for g(n) in Gs(n)];
其中,Gs(n)为L的所有n-gram,即[w1w2……wn,w2w3……wn+1,……,wt-n+1wt-n+2……wt];
g(n)为n-gram中的子序列,F(n)为n-gram在n-gram频率字典中的频率,即n-gram在n-gram频率字典中出现的次数,fre(g(n))为n-gramg(n)的频率;
根据n-gram频率的众数和中位数,自动求阈值,具体是:
通过s(n)=max(median(F(n)),mode(F(n))),得到自动阈值;
其中,median()函数为求中位数,mode()函数为求众数,即取频率的众数及中位数的最大值作为自动阈值;
其中,根据所述自动阈值对所述日志序列进行解析,获得解析结果,包括:
对每一个日志序列的所述n-gram,按照n的值从大到小的顺序,根据所述自动阈值,确定n为k时的n-gram中的静态文本和动态变量;
将所述静态文本从所述日志序列滤除,得到剩余的部分为n=k时的动态变量候补;
根据n为k-1时的n-gram和所述n=k时的动态变量候补,得到第n=k-1时的动态变量候补,直到得到n=2时的动态变量候补;
根据所述n=2时的动态变量候补中的元素,得到所述解析结果;
其中,根据所述n=2时的动态变量候补中的元素,得到所述解析结果,具体包括:
将所述第一个动态变量候补序列中的动态变量替换为预设字符;
将所述静态文本和所述预设字符形成的日志模式作为所述解析结果输出。
6.一种计算设备,其特征在于,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如权利要求1至4任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,存储指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210496308.4A CN114595136B (zh) | 2022-05-09 | 2022-05-09 | 一种日志解析方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210496308.4A CN114595136B (zh) | 2022-05-09 | 2022-05-09 | 一种日志解析方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114595136A CN114595136A (zh) | 2022-06-07 |
CN114595136B true CN114595136B (zh) | 2022-07-29 |
Family
ID=81811554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210496308.4A Active CN114595136B (zh) | 2022-05-09 | 2022-05-09 | 一种日志解析方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114595136B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115185920B (zh) * | 2022-09-13 | 2023-04-18 | 云智慧(北京)科技有限公司 | 一种日志类型的检测方法、装置及设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10423624B2 (en) * | 2014-09-23 | 2019-09-24 | Entit Software Llc | Event log analysis |
CN111581057B (zh) * | 2020-05-08 | 2022-06-14 | 厦门服云信息科技有限公司 | 一种通用日志解析方法、终端设备及存储介质 |
CN111950263B (zh) * | 2020-08-10 | 2022-02-08 | 中山大学 | 一种日志解析方法、系统及电子设备 |
CN112882997B (zh) * | 2021-02-19 | 2022-06-07 | 武汉大学 | 一种基于N-gram与频繁模式挖掘的系统日志解析方法 |
-
2022
- 2022-05-09 CN CN202210496308.4A patent/CN114595136B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114595136A (zh) | 2022-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162750A (zh) | 文本相似度检测方法、电子设备及计算机可读存储介质 | |
CN108536868B (zh) | 社交网络上短文本数据的数据处理方法及装置 | |
CN111160021A (zh) | 日志模板提取方法及装置 | |
CN113656254A (zh) | 基于日志信息的异常检测方法、系统和计算机设备 | |
CN111859093A (zh) | 敏感词处理方法、装置及可读存储介质 | |
CN114595136B (zh) | 一种日志解析方法、装置及设备 | |
CN113254255A (zh) | 一种云平台日志的分析方法、系统、设备及介质 | |
US11501058B2 (en) | Event detection based on text streams | |
CN113723555A (zh) | 异常数据的检测方法及装置、存储介质、终端 | |
CN116664335B (zh) | 基于智能监控的半导体生产系统运行分析方法及系统 | |
CN107391627B (zh) | 数据的内存占用分析方法、装置及服务器 | |
CN112579781A (zh) | 文本归类方法、装置、电子设备及介质 | |
CN112148841A (zh) | 一种对象分类以及分类模型构建方法和装置 | |
CN115186738B (zh) | 模型训练方法、装置和存储介质 | |
CN113688240B (zh) | 威胁要素提取方法、装置、设备及存储介质 | |
CN113535458B (zh) | 异常误报的处理方法及装置、存储介质、终端 | |
CN115455416A (zh) | 一种恶意代码检测方法、装置、电子设备及存储介质 | |
CN116827411B (zh) | 一种载荷数据解析方法、装置、电子设备和存储介质 | |
EP3961374A1 (en) | Method and system for automated classification of variables using unsupervised distribution agnostic clustering | |
CN110309127B (zh) | 一种数据处理方法、装置及电子设备 | |
CN115391159A (zh) | 互联网产品的测评方法、装置、电子设备及存储介质 | |
CN117150123A (zh) | 一种基于云计算的资源分配方法及系统 | |
CN118152519A (zh) | 一种样本的清洗方法、装置、电子设备及存储介质 | |
CN116455999A (zh) | 一种应用状态管理方法、装置、电子设备及存储介质 | |
CN114169326A (zh) | 基于分词的文本处理方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |