CN111143303A

CN111143303A - 一种基于信息增益和改进knn算法的日志分类方法

Info

Publication number: CN111143303A
Application number: CN201911420744.8A
Authority: CN
Inventors: 陈孝文
Original assignee: Information Communication Branch of Hainan Power Grid Co Ltd
Current assignee: Information Communication Branch of Hainan Power Grid Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-12
Anticipated expiration: 2039-12-31
Also published as: CN111143303B

Abstract

本发明公开了一种基于信息增益和改进KNN算法的日志分类方法，用于对日志进行自动分类，包括以下步骤：获取系统的日志数据；在日志中选择部分日志作为第一训练样本；对日志数据进行预处理；根据信息增益提取日志数据中的特征向量；结合日志数据中的特征向量和改进KNN算法对日志进行分类。本发明通过信息增益算法提取特征，可以有效降低特征的维度，减少了计算量；通过对日志进行自动分析和归类，改变了传统的人工分类的做法，大大提高了工作效率。

Description

一种基于信息增益和改进KNN算法的日志分类方法

技术领域

本发明涉及数据分析领域，更具体地，涉及一种基于信息增益和改进KNN算法的日志分类方法。

背景技术

随着信息技术的发展，出现了越来越多的信息化系统，为了实现各信息系统之间的业务融合，相应开发了大量集成数据接口，通过信息集成平台、数据资源管理平台，实现服务的共享、调用。在实际过程中，会产生的日志数据。由于涉及多个不同的信息系统，日志数据的格式不一，无法直接进行识别，需要人工在后台进行处理。其中，错误日志数据的问题尤为突出，通过人工分类后再寻找对应的厂商解决问题，严重拖慢了问题的解决速度。

发明内容

本发明克服了上述现有的技术不足，提供一种基于信息增益和改进KNN算法的日志分类方法。本发明能够对日志进行自动分析和归类，改变了传统的人工分类的做法，大大提高了工作效率。

为解决上述技术问题，本发明的技术方案如下：

一种基于信息增益和改进KNN算法的日志分类方法，用于对日志进行自动分类，包括以下步骤：

获取系统的日志数据；

在日志中选择部分日志作为第一训练样本；

对日志数据进行预处理；

根据信息增益提取日志数据中的特征向量；

结合日志数据中的特征向量和改进KNN算法对日志进行分类。

在一种优选的方案中，所述的“对日志数据进行预处理”包括以下子步骤：

对日志数据中的文本信息进行分词处理；

对日志数据中的停用词进行去除。

在一种优选的方案中，所述的“根据信息增益提取日志数据中的文本向量”包括以下子步骤：

计算第一训练样本的信息熵；

计算每个词语的条件熵；

根据第一训练样本的信息熵和词语的条件熵，得到每个词语的信息增益；

根据每个词语的信息增益，选取k个词语定义为文本特征；

根据每篇日志中包含k个文本特征的词频，组成一个k维特征向量。

在一种优选的方案中，所述的“计算第一训练样本的信息熵”包括以下内容：

对第一训练样本进行分类，定义为C₁,C₂,...,C_n，每一个类别出现的概率定义为P(C₁),P(C₂),...,P(C_n)；其中，所述的n表示分类的类别总数；

第一训练样本的信息熵H(C)通过下式进行表达：

在一种优选的方案中，所述的词语的条件熵H(C|t)通过下式进行表达：

其中，所述的t表示词语，所述的P(C_i|t)表示包含词语t的C_i类中的日志数量占整体包含词语t的日志数量的比重；所述的

表示不包含词语t的C_i类中的日志数量占整体不包含词语t的日志数量的比重。

在一种优选的方案中，所述的词语的信息增益IG(t)通过下式进行表达：

IG(t)＝H(C)-H(C|t)。

在一种优选的方案中，所述的“根据每个词语的信息增益，选取k个词语定义为文本特征”包括以下内容：

根据每个词语的信息增益值从大到小排序，选取前k个词语定义为文本特征；

或者

根据每个词语的信息增益值从小到大排序，选取后k个词语定义为文本特征。

在一种优选的方案中，所述的“结合日志数据中的特征向量和改进KNN算法对日志进行分类”包括以下子步骤：

对第一训练样本的各类分别通过k-means算法进行聚类，并提取出聚类结果；

为第一训练样本的每个类随机选择测试样本，计算其与聚类结果中的各个簇的簇中心向量的相似度；

根据相似度的值，筛选出若干数量簇，组成第二训练样本；

计算非第一训练样本的日志数据与第二训练样本的日志数据的欧氏距离；

根据欧氏距离选取与非第一训练样本的日志数据的欧式距离最近的第二训练样本的k个数据；

计算第二训练样本中各类的权重w_i；

计算与非第一训练样本的日志数据的欧式距离最近的第二训练样本的k个数据的各类数据的频率与其对应的权重的乘积，最大值对应的类定义为非第一训练样本的日志数据的类。

本优选方案中，由于训练样本可能存在不均衡的情况，因此每个类赋予权重，使得在训练样本不均衡的情况下，提升分类的准确率。

在一种优选的方案中，所述的欧氏距离通过下式进行表达：

其中，所述的x_im为日志数据i的第m维特征，所述的x_jm为日志数据j的第m维特征。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过信息增益算法提取特征，可以有效降低特征的维度，减少了计算量；通过对日志进行自动分析和归类，改变了传统的人工分类的做法，大大提高了工作效率。

附图说明

图1为实施例的流程图。

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例

如图1所示，一种基于信息增益和改进KNN算法的日志分类方法，用于对日志进行自动分类，包括以下步骤：

获取系统的日志数据；

在日志中选择部分日志作为第一训练样本；

对日志数据进行预处理；

根据信息增益提取日志数据中的特征向量；

结合日志数据中的特征向量和改进KNN算法对日志进行分类。

在实施例中，还可以进行以下扩展：“对日志数据进行预处理”包括以下子步骤：

对日志数据中的文本信息进行分词处理；

对日志数据中的停用词进行去除。

在实施例及上述改进实施例中，还可以进行以下扩展：“根据信息增益提取日志数据中的文本特征”包括以下子步骤：

计算第一训练样本的信息熵；

计算每个词语的条件熵；

根据每个词语的信息增益，选取k个词语定义为文本特征；

在实施例及上述改进实施例中，还可以进行以下扩展：“计算第一训练样本的信息熵”包括以下内容：

对第一训练样本进行分类，定义为C₁,C₂,...,C_n，每一个类别出现的概率定义为P(C₁),P(C₂),...,P(C_n)；其中，n表示分类的类别总数；

第一训练样本的信息熵H(C)通过下式进行表达：

在实施例及上述改进实施例中，还可以进行以下扩展：词语的条件熵H(C|t)通过下式进行表达：

其中，t表示词语，P(C_i|t)表示包含词语t的C_i类中的日志数量占整体包含词语t的日志数量的比重；

在实施例及上述改进实施例中，还可以进行以下扩展：词语的信息增益IG(t)通过下式进行表达：

IG(t)＝H(C)-H(C|t)。

在实施例及上述改进实施例中，还可以进行以下扩展：“根据每个词语的信息增益，选取k个词语定义为文本特征”包括以下内容：

或者

在实施例及上述改进实施例中，还可以进行以下扩展：“结合日志数据中的特征向量和改进KNN算法对日志进行分类”包括以下子步骤：

根据相似度的值，筛选出若干数量簇，组成第二训练样本；

计算第二训练样本中各类的权重w_i；

本改进方案中，由于训练样本可能存在不均衡的情况，因此每个类赋予权重，使得在训练样本不均衡的情况下，提升分类的准确率。

在实施例及上述改进实施例中，还可以进行以下扩展：欧氏距离通过下式进行表达：

其中，x_im为日志数据i的第m维特征，x_jm为日志数据j的第m维特征。

测试环境：

南方电网公司某一体化信息系统，包括了财务、资产、人资、营销平台等覆盖公司大部分业务的信息系统及数据处理平台，同时为了实现各信息系统之间的业务融合，相应开发了大量集成数据接口。在接口实用化的过程中前端业务系统数据传递至其他相关协同系统受多方因素影响出现异常情况，由于不能直观的看到系统接口异常信息，需要依靠厂商在后台进行监控，发现问题后由厂商组织分析后才能进行问题解决，现有模式效率低下。

一种基于信息增益和改进KNN算法的日志分类方法，包括以下步骤：

S1：获取系统的日志数据。

S2：在日志中选择部分日志作为第一训练样本；

S3：对日志数据中的文本信息进行分词处理；

对日志数据中的停用词进行去除。

对日志数据进行预处理；

S4：根据信息增益提取日志数据中的特征向量；

对第一训练样本进行分类，定义为C₁,C₂,...,C_n，每一个类别出现的概率定义为P(C₁),P(C₂),...,P(C_n)；

计算第一训练样本的信息熵；H(C)通过下式进行表达：

计算每个词语的条件熵H(C|t)通过下式进行表达：

表示不包含词语t的C_i类中的日志数量占整体不包含词语t的日志数量的比重；

根据第一训练样本的信息熵和词语的条件熵，得到每个词语的信息增益；词语的信息增益IG(t)通过下式进行表达：

IG(t)＝H(C)-H(C|t)。

根据每篇日志中包含k个文本特征的词频，组成一个k维特征向量；

S5：结合日志数据中的特征向量和改进KNN算法对日志进行分类；

根据相似度的值，筛选出若干数量簇，组成第二训练样本；

计算非第一训练样本的日志数据与第二训练样本的日志数据的欧氏距离，欧氏距离通过下式进行表达：

其中，x_im为日志数据i的第m维特征，x_jm为日志数据j的第m维特征；

计算第二训练样本中各类的权重w_i；

计算与非第一训练样本的日志数据的欧式距离最近的第二训练样本的k个数据的各类数据的频率与其对应的权重的乘积，最大值对应的类定义为非第一训练样本的日志数据的类；

S6：系统根据自动分类的错误日志，直接联系厂家/搜索对应的解决方案。

本测试例采用数据挖掘技术思路，通过获取后台的错误日志信息，对错误日志信息进行分类，针对不同的错误类型，提供相应的解决方案；改变了传统的被动式场景应用错误问题为主动式问题管控模式，并在业务出现问题后可以及时快速的定位问题及处理问题。由此实现了全方位监控、分析，进一步提升了监控平台的实用性、易用性、可靠性和智能化，促进业务水平和企业精益化管理水平提升。

在上述具体实施方式的具体内容中，各技术特征可以进行任意不矛盾的组合，为使描述简洁，未对上述各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；例如实施例中水流量传感器的计算公式并不仅限于实施例中举例的公式，不同的种类的水流量传感器的计算公式各不相同。上述的是实施例的限定并不能理解为对本专利的限制。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于信息增益和改进KNN算法的日志分类方法，用于对日志进行自动分类，其特征在于，包括以下步骤：

获取系统的日志数据；

在日志中选择部分日志作为第一训练样本；

对日志数据进行预处理；

根据信息增益提取日志数据中的特征向量；

结合日志数据中的特征向量和改进KNN算法对日志进行分类。

2.根据权利要求1所述的日志分类方法，其特征在于，所述的“对日志数据进行预处理”包括以下子步骤：

对日志数据中的文本信息进行分词处理；

对日志数据中的停用词进行去除。

3.根据权利要求1或2所述的日志分类方法，其特征在于，所述的“根据信息增益提取日志数据中的文本向量”包括以下子步骤：

计算第一训练样本的信息熵；

计算每个词语的条件熵；

根据每个词语的信息增益，选取k个词语定义为文本特征；

4.根据权利要求3所述的日志分类方法，其特征在于，所述的“计算第一训练样本的信息熵”包括以下内容：

第一训练样本的信息熵H(C)通过下式进行表达：

5.根据权利要求4所述的日志分类方法，其特征在于，所述的词语的条件熵H(C|t)通过下式进行表达：

6.根据权利要求5所述的日志分类方法，其特征在于，所述的词语的信息增益IG(t)通过下式进行表达：

IG(t)＝H(C)-H(C|t)。

7.根据权利要求3所述的日志分类方法，其特征在于，所述的“根据每个词语的信息增益，选取k个词语定义为文本特征”包括以下内容：

根据每个词语的信息增益值从大到小排序，选取前k个词语定义为文本特征；或者

8.根据权利要求1、2、4、5、6或7所述的日志分类方法，其特征在于，所述的“结合日志数据中的特征向量和改进KNN算法对日志进行分类”包括以下子步骤：

根据相似度的值，筛选出若干数量簇，组成第二训练样本；

计算第二训练样本中各类的权重w_i；

9.根据权利要求8所述的日志分类方法，其特征在于，所述的欧氏距离通过下式进行表达：