CN112882997A

CN112882997A - 一种基于N-gram与频繁模式挖掘的系统日志解析方法

Info

Publication number: CN112882997A
Application number: CN202110195563.0A
Authority: CN
Inventors: 应时; 胡胜康; 王冰明
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-02-19
Filing date: 2021-02-19
Publication date: 2021-06-01
Anticipated expiration: 2041-02-19
Also published as: CN112882997B

Abstract

本发明提出了一种基于N‑gram与频繁模式挖掘的系统日志解析方法。本发明将多行日志消息依次根据空格分解为单个的单词；计算任意两行日志消息之间的N‑gram距离；本发明通过算出N分别取值1,2,3时，任意两行日志消息之间的1‑gram距离、2‑gram距离和3‑gram距离，计算任意两行日志消息的相似匹配值，当匹配值高于设定阈值的日志消息归为一类；设置频繁模式挖掘算法的频繁单词项集的长度以及频繁模式挖掘算法的频繁单词项集的支持度；对每一类别中的所有日志消息使用频繁模式挖掘算法，挖掘出每一类中符合参数设定的候选频繁单词项集，并生成该类的日志模板。本发明在保证分类准确性的前提下，减少计算机处理的时间，节约了计算资源，提高了分类效率。

Description

一种基于N-gram与频繁模式挖掘的系统日志解析方法

技术领域

本发明属于系统日志解析领域，尤其涉及一种基于N-gram与频繁模式挖掘的系统日志解析方法。

背景技术

现代计算机系统随着需求的日益增加而变得复杂。这种复杂性成为了部署和管理计算机系统的重要限制因素。能够及时发出警报并缓解问题带来的影响已成为许多系统的基本要求。目前在线自动检测系统异常是异常检测领域中研究的热门话题。这些研究往往以大数据为基础分析，理解软件系统的运行行为和逻辑。而系统日志通常是记录软件系统状态的唯一数据来源。它包含了系统运行状态、用户模式、软件执行路径等重要的信息。通过分析，理解日志消息可以帮助运维人员更好的维护计算机系统的稳定性，安全性和可持续性。

当前系统日志可用于检测程序执行异常，监视网络故障，发现程序漏洞等异常检测应用中。有些研究也将系统日志应用于发现和诊断性能问题。这些应用和研究需要依赖海量的、具有规则化的系统日志数据。但是系统日志本身是由固定部分与参数部分组成，属于非结构化数据。所以如何将原始的系统日志解析成结构化的日志数据是日志分析研究与应用中首要，也是最重要的一步。

由于当前计算机行业的飞速发展，每天都有海量的系统日志产生，依靠人工将系统日志有非结构化形式转变为结构化形式是一项不可能完成的任务，所以能高效解析日志的自动日志解析器成为了日志分析中不可或缺的一项工具。现有的自动日志解析方法包括使用正则表达式，查询源代码获得日志表述，利用数据挖掘方法单纯使用日志的字符信息进行解析，例如使用聚类或迭代分割等数据挖掘方法。使用正则表达式进日志解析需要专业的领域知识，而不同的计算机系统日志格式，表述方式等内容各不相同，所以使用正则表达式方法来解析系统日志不能推广为一种通用的解析方法。许多计算机软件的源代码并没有开源，所以查询源代码获得日志表述的方法也不太现实。

发明内容

针对上述研究背景和问题，本发明的技术方案为一种基于N-gram与频繁模式挖掘的系统日志解析方法，包括以下步骤：

步骤1：将多行日志消息依次根据空格分解为单个的单词。

步骤2：计算任意两行日志消息之间的N-gram距离；

步骤3：通过步骤2算出N分别取值1，2，3时，任意两行日志消息之间的1-gram距离、2-gram距离和3-gram距离，任意两行日志消息的相似匹配值，当匹配值高于设定阈值的日志消息归为一类；

步骤4：设置频繁模式挖掘算法的频繁单词项集的长度即m、频繁模式挖掘算法的频繁单词项集的支持度即α。

步骤5：对每一类别C_k+n中的所有日志消息使用频繁模式挖掘算法，挖掘出每一类C_k+n中符合参数设定的候选频繁单词项集；

作为优选，步骤1所述日志消息为：

message_i，i∈[1，M]

其中，message_i为序号为i日志消息，M为日志消息的数量；

步骤1所述单词序列为：

message_i＝{token_i，1，token_i，2，...，token_i，Li}

其中，token_i，j序号为i日志消息的单词序列中第j个单词，L_i为序号为i的日志消息的单词序列中单词的数量；

作为优选，步骤2所述计算任意两行日志消息之间的N-gram距离为：

N-Gram(message_i,message_j)＝|G_N(smessagei)|+|G_N(tmessage_j)|-2×G_N(message_i)∩G_N(message_j)

其中，1≤i≤j≤M，M为日志消息的数量。N为人为设定的数值，设定的数值分别为1，2，3。i，j为日志消息序号，N-Gram(message_i,message_j)表示序号为i的日志消息与序号为j日志消息之间的N-gram特征距离，message_i表示序号为i的日志消息，message_j表示序号为j日志消息；G_N(message_i)表示序号为i的日志消息提取的N-gram特征集。|G_N(message_i)|表示G_N(message_i)特征集中特征的数量；G_N(message_j)表示序号为i的日志消息提取的N-gram特征集，|G_N(message_j)|表示G_N(message_j)特征集中特征的数量；|G_N(message_i)∩G_N(message_j)|表示序号为i的日志消息与序号为j的N-gram特征集特征相同的数量；

所述N-gram特征集为：

N为人为设定的数值，设定的数值分别为1，2，3。N-gram特征表示日志消息的单词从第一个单词开始，连续N个单词组成一个特征。直到特征中包含最后一个单词为止。N-gram特征集表示由日志消息特征组成的集合。

所述G_N(message_i)为：

message_i＝{token_i，1，token_i，2，...，token_i，Li}

当N设置为1时，1-gram特征集为：

{{‘token_i，1’}，{‘token_i，2’}，{‘token_i，3’}，…，{‘token_i，Li’}}

1-gram特征集中特征的数量为L_i，即|G₁(message_i)|＝L_i。

当N设置为2时，2-gram特征集为：

{{‘token_i，1’，‘token_i，2’}，{‘token_i，2’，‘token_i，3’}，…，{‘token_i，Li-1’，‘token_i，Li’}}。

2-gram特征集中特征的数量为L_i-1，即|G₂(message_i)|＝L_i-1。

当n设置为3时，3-gram特征集为：

{{‘token_i，1’，‘token_i，2’，‘token_i，3’}，{‘token_i，2’，‘token_i，3’，‘token_i，4’}，···，{‘token_i，Li-2’‘token_i，Li-1’，‘token_i，Li’}}。

3-gram特征集中特征数量为L_i-2，即|G₃(message_i)|＝L_i-2。

所述序号为i的日志消息与序号为j的N-gram特征集特征相同的数量为：

message_i＝{token_i，1，token_i，2，...，token_i，Li}

message_j＝{token_j，1，token_j，2，...，token_j，Li}

当N＝1时，message_i的1-gram特征集为：

message_j的1-gram特征集为

{{‘token_j，1’}，{‘token_j，2’}，{‘token_j，3’}，…，{‘token_j，Li’}}

比较两个1-gram特征集中的特征。记录相同特征的个数，记为|G₁(message_i)∩G₁(message_j)|。

当N＝2时，message_i的2-gram特征集为：

{{‘token_i，1’，‘token_i，2’}，{‘token_i，2’，‘token_i，3’}，…，{‘token_i，Li-1’，‘token_i，Li’}}

message_j的2-gram特征集为

{{‘token_j，1’，‘token_j，2’}，{‘token_j，2’，‘token_j，3’}，…，{‘token_j，Li-i’，‘token_j，Li’}}。比较两个2-gram特征集中的特征。记录相同特征的个数，记为|G₂(message_i)∩G₂(message_j)|。

当N＝3时，message_i的3-gram特征集为：

{{‘token_i，1’，‘token_i，2’，‘token_i，3’}，{‘token_i，2’，‘token_i，3’，‘token_i，4’}，···，{‘token_i，Li-2’‘token_i，Li-1’，‘token_i，Li’}}

message_j的3-gram特征集为

{‘token_j，1’，‘token_j，2’，‘token_j，3’}，{‘token_j，2’，‘token_j，3’，‘token_j，4’}，···，{‘token_j，Li-2’‘token_j，Li-1’，‘token_j，Li’}。

比较两个3-gram特征集中的特征。记录相同特征的个数，记为|G₃(message_i)∩G₃(message_j)|。

所述序号为i的日志消息与序号为j日志消息之间的N-gram特征距离为：

当N＝1时，

1-Gram(message_i，message_j)

＝|G₁(smessage_i)|+|G₁(tmessage_j)|-2×G₁(message_i)

∩G₁(message_j)

当N＝2时，

2-Gram(message_i,message_j)

＝|G₂(smessage_i)|+|G₂(tmessage_j)|-2×G₂(message_i)

∩G₂(message_j)

当N＝3时，

3-Gram(message_i,message_j)

＝|G₃(smessage_i)|+|G₃(tmessage_j)|-2×G₃(message_i)

∩G₃(message_j)

作为优选，步骤3所述计算message_i，message_j相似匹配值为：

1-Gram(message_i,message_j)是序号为i的日志消息与序号为j的日志消息1-gram距离。2-Gram(message_i,message_j)则是序号为i的日志消息与序号为j的日志消息2-gram距离。3-Gram(message_i,message_j)是序号为i的日志消息与序号为j的日志消息3-gram距离。max(len(message_i),len(message_j))是序号为i的日志消息与序号为j的日志消息长度较长的长度值。

当matchS(message_i,message_j)≥0.5时，若message_i已有归属类别C_k，则message_j被分类到类别C_k中；若message_i和message_j未被分类，则新增一个类别C_k+n，将message_i与message_j归类到新增类别C_k+n中。

当matchS(message_i,message_j)＜0.5时，message_i，message_j属于不同类别。若message_i已有归属类别C_k，message_j未被分类，则新增一个类别C_k+n，将message_j归类到新增类别C_k+n中。

步骤3将一直进行下去，直到每一条日志消息都有其归属类别C_k+n。

所述类别C_k和C_k+n为：

C_k表示分类过程中分出的第一个类别；C_k+n表示分类过程中分出的第n个类别。其中，1≤n≤L，其中L为所有日志消息分类的类别数量。

作为优选，步骤5所述候选频繁项集为

其中，m为步骤1中设定的频繁单词项集长度阈值，1≤d≤m；

是类别C_k+n中的单词，并且在频繁模式挖掘算法中支持度大于等于设定阈值α；

将

按挖掘顺序进行排列组成候选频繁单词项集；

每一个类别C_k+n通过频繁模式挖掘算法选取的候选频繁单词项集

即为类别C_k+n的日志消息模板。

本发明优点在于，利用步骤1的N-gram距离特征与步骤3的相似度匹配公式可以对日志消息进行粗粒度的分类。由于无需对日志消息进行迭代处理，所以该分类过程可以在保证分类准确性的前提下，减少计算机处理的时间，节约了计算资源，提高了分类效率；利用步骤4设置的2个参数阈值和步骤5中使用的频繁模式挖掘算法，在粗分类的日志消息中可以更快更准确的提取出每一类中的日志消息模板。

附图说明

图1：是本发明方法流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

为实现本发明所述目的采用的技术方案是一种基于N-gram与频繁模式挖掘的系统日志解析方法，包括以下步骤：

步骤1：将多行日志消息依次根据空格分解为单个的单词。

步骤1所述日志消息为：

message_i，i∈[1,M]

其中，message_i为序号为i日志消息，M为日志消息的数量；

步骤1所述单词序列为：

message_i＝{token_i,1,token_i,2,...,token_i,Li}

其中，token_i,j序号为i日志消息的单词序列中第j个单词，L_i为序号为i的日志消息的单词序列中单词的数量；具体实施例如下：

原始日志消息：

1Input split:hdfs://hostname/2kSOSP.log:21876+7292

2Input split:hdfs://hostname/2kSOSP.log:14584+7292

3Input split:hdfs://hostname/2kSOSP.log:0+7292

4Input split：hdfs：//hostname/2kSOSP.log：7292+7292

5Input split：hdfs：//hostname/2kSOSP.log：29168+7292

6Input split：hdfs：//hostname/2kSOSP.log：14584+7292

7Input split：hdfs：//hostname/2kSOSP.log：0+7292

8Found block rdd_42_20locally

9Found block rdd_42_22locally

10Found block rdd_42_23locally

11Found block rdd_42_24locally

经过步骤1处理后的日志消息：

1{‘Input’，‘split：’，‘hdfs：//hostname/2kSOSP.log：21876+7292’}

2{‘Input’，‘split：’，‘hdfs：//hostname/2kSOSP.log：14584+7292’}

3{‘Input’，‘split：’，‘hdfs：//hostname/2kSOSP.log：0+7292’}

4{‘Input’，‘split：’，‘hdfs：//hostname/2kSOSP.log：7292+7292’}

5{‘Input’，‘split：’，‘hdfs：//hostname/2kSOSP.log：29168+7292’}

6{‘Found’，‘block’，‘rdd_4220’，‘locally’}

7{‘Found’，‘block’，‘rdd_4222’，‘locally’}

8{‘Found’，‘block’，‘rdd_4223’，‘locally’}

9{‘Found’，‘block’，‘rdd_4224’，‘locally’}

步骤2：计算任意两行日志消息之间的N-gram距离；

步骤2所述计算任意两行日志消息之间的N-gram距离为：

N-Gram(message_i,message_j)＝|G_N(smessage_i)|+|G_N(tmessage_j)|-2×G_N(message_i)∩G_N(message_j)

所述N-gram特征集为：

所述G_N(message_i)为：

message_i＝{token_i，1，token_i，2，...，token_i，Li}

当N设置为1时，1-gram特征集为：

1-gram特征集中特征的数量为L_i，即|G₁(message_i)|＝L_i。

当N设置为2时，2-gram特征集为：

2-gram特征集中特征的数量为L_i-1，即|G₂(message_i)|＝L_i-1。

当n设置为3时，3-gram特征集为：

3-gram特征集中特征数量为L_i-2，即|G₃(message_i)|＝L_i-2。

message_i＝{token_i，1，token_i，2，...，token_i，Li}

message_j＝{token_j，1，token_j，2，...，token_j，Li}

当N＝1时，message_i的1-gram特征集为：

message_j的1-gram特征集为

当N＝2时，message_i的2-gram特征集为：

message_j的2-gram特征集为

{{‘token_j，1’，‘token_j，2’}，{‘token_j，2’，‘token_j，3’}，…，{‘token_j，Li-1’，‘token_j，Li’}}。比较两个2-gram特征集中的特征。记录相同特征的个数，记为|G₂(message_i)∩G₂(message_j)|。

当N＝3时，message_i的3-gram特征集为：

{{‘token_i，1’，‘token_i，2’，‘token_i，3’}，{‘token_i，2’，‘token_i，3’，‘token_i，4’}，…，{‘token_i，Li-2’‘token_i，Li-1’，‘token_i，Li’}}

message_j的3-gram特征集为

{‘token_j，1’，‘token_j，2’，‘token_j，3’}，{‘token_j，2’，‘token_j，3’，‘token_j，4’}，…，{‘token_j，Li-2’‘token_j，Li-1’，‘token_j，Li’}。

当N＝1时，

1-Gram(message_i,message_j)

＝|G₁(smessage_i)|+|G₁(tmessage_j)|-2×G₁(message_i)

∩G₁(message_j)

当N＝2时，

2-Gram(message_i,message_j)

＝|G₂(smessage_i)|+|G₂(tmessage_j)|-2×G₂(message_i)

∩G₂(message_j)

当N＝3时，

3-Gram(message_i,message_j)

＝|G₃(smessage_i)|+|G₃(tmessage_j)|-2×G₃(message_i)

∩G₃(message_j)

具体实施例如下：

待比较的日志消息：

6{‘Found’，‘block’，‘rdd_42_20’，‘locally’}

序号为1的日志消息中N-gram特征：

1-gram＝{‘Input’}，{‘split：’}，{‘hdfs：//hostname/2kSOSP.log：21876+7292’}

2-gram＝{‘Input’，‘split：’}，{‘split：’，‘hdfs：//hostname/2kSOSP.log：21876+7292’}

3-gram＝{‘Input’，‘split：’，‘hdfs：//hostname/2kSOSP.log：21876+7292’}

序号为2的日志消息中N-gram特征：

1-gram＝{‘Input’}，{‘split：’}，{‘hdfs：//hostname/2kSOSP.log：14584+7292’}

2-gram＝{‘Input’，‘split：’}，{‘split：’，‘hdfs：//hostname/2kSOSP.log：14584+7292’}

3-gram＝{‘Input’，‘split：’，‘hdfs：//hostname/2kSOSP.log：14584+7292’}

序号为6的日志消息中N-gram特征：

1-gram＝{‘Found’}，{‘block’}，{‘rdd_42_20’}，{‘locally’}

2-gram＝{‘Found’，‘block’}，{‘block’，‘rdd_42_20’}，{‘rdd_42_20’，‘locally’}

3-gram＝{‘Found’，‘block’，‘rdd_42_20’}，{‘block’，‘rdd_42_20’，‘locally’}

应用步骤2中提出的N-gram距离公式可知：

1-Gram(1，2)＝2；2-Gram(1，2)＝2；3-Gram(1，2)＝2

1-Gram(1，6)＝7；2-Gram(1，6)＝5；3-Gram(1，6)＝3

1-Gram(2，6)＝7；2-Gram(2，6)＝5；3-Gram(2，6)＝3

步骤3：通过步骤2算出的N-Gram(message_i,message_j)，N分别取值1，2，3，计算message_i，message_j相似匹配值，当匹配值高于设定阈值0.5的日志消息归为一类；

步骤3所述计算message_i，message_j相似匹配值为：

2-Gram(message_i,message_j)是序号为i的日志消息与序号为j的日志消息1-gram距离。2-Gram(message_i,message_j)则是序号为i的日志消息与序号为j的日志消息2-gram距离。3-Gram(message_i,message_j)是序号为i的日志消息与序号为j的日志消息3-gram距离。max(len(message_i)，len(message_j))是序号为i的日志消息与序号为j的日志消息长度较长的长度值。

所述类别C_k和C_k+n为：

具体实施例如下：

由步骤2中的实施例计算出来的N-Gram(1，2)，N-Gram(1，6)以及N-Gram(2，6)，

通过相似匹配公式可知：

matchS(1，2)＝3/6＝0.5；matchS(1，6)＝4/15＝0.27；matchS(2，6)＝0.27

匹配阈值设置为0.5，那么序号为1的日志消息与序号为2的日志消息被匹配到一类中，记作类别1。序号为6的日志消息单独划分为一类，记作类别2

步骤4：设置频繁模式挖掘算法的频繁单词项集的长度即m，m取值为4、频繁模式挖掘算法的频繁单词项集的支持度即α，α取值为3。

所述候选频繁项集为

其中，m为步骤1中设定的频繁单词项集长度阈值，1≤d≤m；

将

按挖掘顺序进行排列组成候选频繁单词项集；

即为类别C_k+n的日志消息模板。

具体实施例如下：

类别1：

3{‘Input’，‘split：’，‘hdfs：//hostname/2kSOSP.log：0+7292’}

6{‘Input’，‘split：’，‘hdfs：//hostname/2kSOSP.log：14584+7292’}

7{‘Input’，‘split：’，‘hdfs：//hostname/2kSOSP.log：0+7292’}

类别2：

8{‘Found’，‘block’，‘rdd_42_20’，‘locally’}

9{‘Found’，‘block’，‘rdd_42_22’，‘locally’}

10{‘Found’，‘block’，‘rdd_42_23’，‘locally’}

11{‘Found’，‘block’，‘rdd_42_24’，‘locally’}

对类别1使用频繁模式挖掘算法：

表1.日志消息ID序列

表2.使用基于1-gram频繁模式挖掘算法后结果

单词项集	支持度
		‘Input’	7
‘split:’	7
		‘hdfs://hostname/2kSOSP.log:21876+7292’	1
‘hdfs://hostname/2kSOSP.log:14584+7292’	2
		‘hdfs://hostname/2kSOSP.log:0+7292’	2
‘hdfs://hostname/2kSOSP.log:7292+7292’	1
		‘hdfs://hostname/2kSOSP.log:29168+7292’	1

表3.根据阈值进行过滤后结果

单词项	支持度
		‘Input’	7
‘split:’	7
		‘hdfs://hostname/2kSOSP.log:0+7292’	2
‘hdfs://hostname/2kSOSP.log:14584+7292’	2

表4.使用基于2-gram频繁模式挖掘算法后结果

表5.根据阈值过滤后结果

单词项集	支持度
		‘Input’，‘split:’	7

生成该日志模板消息：

对类别2使用频繁模式挖掘算法：

表6.日志消息ID序列

表7.使用基于1-gram频繁模式挖掘算法后结果

单词项集	支持度
		‘Found’	4
‘block’	4
		‘rdd_42_20’	1
‘rdd_42_22’	1
		‘rdd_42_23’	1
‘rdd_42_24’	1
		‘locally’	4

表8.根据阈值进行过滤后结果

单词项	支持度
		‘Found’	4
‘block’	4
		‘locally’	4

表9.使用基于2-gram频繁模式挖掘算法后结果

单词项集	支持度
		‘Found’，‘block’	4
‘block’，‘locally’	4
		‘Found’，‘locally’	4

表10.根据阈值过滤后结果

表11.使用基于3-gram频繁模式挖掘算法后结果

单词项集	支持度
		‘Found’，‘block’，‘locally’	4

生成该日志模板消息：“Foundblock*locally”。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于N-gram与频繁模式挖掘的系统日志解析方法，其特征在于，包括以下步骤：

步骤1：将多行日志消息依次根据空格分解为单个的单词；

步骤2：计算任意两行日志消息之间的N-gram距离；

步骤4：设置频繁模式挖掘算法的频繁单词项集的长度即m、频繁模式挖掘算法的频繁单词项集的支持度即d；

步骤5：对每一类别C_k+n中的所有日志消息使用频繁模式挖掘算法，挖掘出每一类C_k+n中符合参数设定的候选频繁单词项集。

2.根据权利要求1所述的基于N-gram与频繁模式挖掘的系统日志解析方法，其特征在于，

步骤1所述日志消息为：

message_i，i∈[1，M]

其中，message_i为序号为i日志消息，M为日志消息的数量；

步骤1所述单词序列为：

message_i＝{token_i，1，token_i，2，...，token_i，Li}

其中，token_i，j序号为i日志消息的单词序列中第j个单词，L_i为序号为i的日志消息的单词序列中单词的数量。

3.根据权利要求1所述的基于N-gram与频繁模式挖掘的系统日志解析方法，其特征在于，

步骤2所述计算任意两行日志消息之间的N-gram距离为：

N-Gram(message_i，message_j)＝|G_N(smessage_i)|+|G_N(tmessage_j)|-2×G_N(message_i)∩G_N(message_j)

其中，1≤i≤j≤M，M为日志消息的数量；N为人为设定的数值，设定的数值分别为1，2，3；i，j为日志消息序号，N-Gram(message_i，message_j)表示序号为i的日志消息与序号为j日志消息之间的N-gram特征距离，message_i表示序号为i的日志消息，message_j表示序号为j日志消息；G_N(message_i)表示序号为i的日志消息提取的N-gram特征集；|G_N(message_i)|表示G_N(message_i)特征集中特征的数量；G_N(message_j)表示序号为i的日志消息提取的N-gram特征集，|G_N(message_j)|表示G_N(message_j)特征集中特征的数量；|G_N(message_i)∩G_N(ressage_j)|表示序号为i的日志消息与序号为j的N-gram特征集特征相同的数量；

所述N-gram特征集为：

N为人为设定的数值，设定的数值分别为1，2，3；N-gram特征表示日志消息的单词从第一个单词开始，连续N个单词组成一个特征；直到特征中包含最后一个单词为止；N-gram特征集表示由日志消息特征组成的集合；

所述G_N(message_i)为：

message_i＝{token_i，1，token_i，2，...，token_i，Li}

当N设置为1时，1-gram特征集为：

1-gram特征集中特征的数量为L_i，即|G₁(message_i)|＝L_i；

当N设置为2时，2-gram特征集为：

{{‘token_i，1’，‘token_i，2’}，{‘token_i，2’，‘token_i，3’}，…，{‘token_i，Li-1’，‘token_i，Li’}}；

2-gram特征集中特征的数量为L_i-1，即|G₂(message_i)|＝L_i-1；

当n设置为3时，3-gram特征集为：

{{‘token_i，1’，‘token_i，2’，‘token_i，3’}，{‘token_i，2’，‘token_i，3’，‘token_i，4’}，···，{‘token_i，Li-2’‘token_i，Li-1’，‘token_i，Li’}}；

3-gram特征集中特征数量为L_i-2，即|G₃(message_i)|＝L_i-2；

message_i＝{token_i，1，token_i，2，...，token_i，Li}

message_j＝{token_j，1，token_j，2，...，token_j，Li}

当N＝1时，message_i的1-gram特征集为：

message_j的1-gram特征集为

比较两个1-gram特征集中的特征；记录相同特征的个数，记为|G₁(message_i)∩G₁(message_j)|；

当N＝2时，message_i的2-gram特征集为：

message_j的2-gram特征集为

{{‘token_j，1’，‘token_j，2’}，{‘token_j，2’，‘token_j，3’}，…，{‘token_j，Li-1’，‘token_j，Li’}}；比较两个2-gram特征集中的特征；记录相同特征的个数，记为|G₂(message_i)∩G₂(message_j)|；

当N＝3时，message_i的3-gram特征集为：

message_j的3-gram特征集为

{‘token_j，1’，‘token_j，2’，‘token_j，3’}，{‘token_j，2’，‘token_j，3’，‘token_j，4’}，···，{‘token_j，Li-2’‘token_j，Li-1’，‘token_j，Li’}；

比较两个3-gram特征集中的特征；记录相同特征的个数，记为|G₃(message_i)∩G₃(message_j)|；

当N＝1时，

1-Gram(message_i，message_j)＝|G₁(smessage_i)|+|G₁(tmessage_j)|-2×G₁(message_i)∩G₁(message_j)

当N＝2时，

2-Gram(message_i，message_j)＝|G₂(smessage_i)|+|G₂(tmessage_j)|-2×G₂(message_i)∩G₂(message_j)

当N＝3时，

3-Gram(message_i，message_j)＝|G₃(smessage_i)|+|G₃(tmessage_j)|-2×G₃(message_i)∩G₃(message_j)。

4.根据权利要求1所述的基于N-gram与频繁模式挖掘的系统日志解析方法，其特征在于，

步骤3所述计算message_i，message_j相似匹配值为：

1-Gram(message_i，message_j)是序号为i的日志消息与序号为j的日志消息1-gram距离；2-Gram(message_i，message_j)则是序号为i的日志消息与序号为j的日志消息2-gram距离；3-Gram(message_i，message_j)是序号为i的日志消息与序号为j的日志消息3-gram距离；max(len(message_i)，len(message_j))是序号为i的日志消息与序号为j的日志消息长度较长的长度值；

当matchS(message_i，message_j)≥0.5时，若message_i已有归属类别C_k，则message_j被分类到类别C_k中；若message_i和message_j未被分类，则新增一个类别C_k+n，将message_i与message_j归类到新增类别C_k+n中；

当matchS(message_i，message_j)＜0.5时，message_i，message_j属于不同类别；若message_i已有归属类别C_k，message_j未被分类，则新增一个类别C_k+n，将message_j归类到新增类别C_k+n中；

步骤3将一直进行下去，直到每一条日志消息都有其归属类别C_k+n；

所述类别C_k和C_k+n为：

C_k表示分类过程中分出的第一个类别；C_k+n表示分类过程中分出的第n个类别；其中，1≤n≤L，其中L为所有日志消息分类的类别数量。

5.根据权利要求1所述的基于N-gram与频繁模式挖掘的系统日志解析方法，其特征在于，

步骤5所述候选频繁项集为

其中，m为步骤1中设定的频繁单词项集长度阈值，1≤d≤m；

是类别C_k+n中的单词，并且在频繁模式挖掘算法中支持度大于等于设定阈值d；

将

安挖掘顺序进行排列组成候选频繁单词项集；

即为类别C_k+n的日志消息模板。