CN112100149B

CN112100149B - 日志自动化分析系统

Info

Publication number: CN112100149B
Application number: CN202010891081.4A
Authority: CN
Inventors: 顾鹏程; 李明兵; 张力川; 高翔
Original assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Current assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date: 2020-08-30
Filing date: 2020-08-30
Publication date: 2023-02-24
Anticipated expiration: 2040-08-30
Also published as: CN112100149A

Abstract

本发明公开的一种日志自动化分析系统，旨在提供一种快速、便捷、日志分析自动化系统。本发明通过下述技术方案实现：日志预处理模块将清洗后的工作日志文件送入文本分析切片模块进行语义分析，计算得到日志相邻文本Simhash指纹，并进行相似度计算、判决形成最小不重复文本块；参数名及数值提取模块根据文本最小不重复文本块，或根据预先编写的日志模板，构建正则表达式匹配模式，选取读入日志进行参数名及数值提取处理；数据IO模块将提取出的文本关键性信息、参数名及数值保存到硬盘，供后续读写使用；统计绘图及报告生成模块将从硬盘中提取出的数值，按类进行数据统计，根据数据统计值绘制可视化图形，生成分析报告。

Description

日志自动化分析系统

技术领域

本发明属于计算机技术领域，具体涉及一种针对特定领域以及跨领域文本的日志自动化分析系统。

背景技术

文本是信息表达的主要方式之一，在互联网上，我们工作和生活中都存在着大量的文本数据，日常数据处理中离不开对文本的处理。互联网的飞速发展，带来了日益增多的互联网用户。互联网服务提供商为了提高企业的服务质量，需要记录用户的访问信息、网络的运行状况等。而庞大的用户量，使得记录信息的过程会产生海量的日志。针对海量网络日志的分析系统为互联网企业提供了有效的日志收集方式和日志处理分析的能力。日志是一个成熟的系统里不可或缺的一部分，是脚本在运行过程中记录下来的信息。对于虚拟主机提供商(Host Service Provider，HSP)来说，每天都需要分析服务器上的日志来了解用户的流量与使用上的问题。但对于一台安装有上千个虚拟主机的服务器，做这项工作需要大量的时间，管理人员劳累不堪，同时，管理人员也无法完整了解究竟是那一个虚拟主机流量过大影响了服务器的速度，也很难了解那一个虚拟主机的程序有问题导致服务器不稳定。自动日志分析系统致力于解决以上的问题，它可以自动分析IIS的设置，自动查找日志文件，定时生成高效的报告，自动日志分析系统的数据库加强版可以直接将报告自动输入数据库中，可以和相关的用户管理面板结合，让管理员可以统管全局，让虚拟主机用户可以了解自己的网站的访问细节。日志收集与分析系统基于大数据技术，作为统一日志监控与审计平台能够对采集到的不同类型的信息进行标准化处理和实时关联分析，协助管理人员从海量日志中迅速准确地识别安全事故，大幅降低日志分析和管理工作强度，提高工作效率。目前国际上在运用具有自动学习能力的数据挖掘技术进行日志分析方面的研究比较活跃，在这方面进行深入研究的主要有哥伦比亚大学的WenkeLee研究组、密西西比州大学的SusanM研究组和新墨西哥州大学的StephanieForrest组研究组。此外，还有Webalizer、AccessWatch等诸多国外日志分析统计软件在国内，北京清华得实科技股份有限公司开发了NetSC日志审计系统。很多高校也在从事日志方面的研究，如上海交通大学开发的一个基于防火墙的日志的网络安全审计系统。北京工业大学做了基于移动代理的日志分析系统的研究。国内的日志分析软件相对国外较少，有网站哨兵、Web-IAM等，然而这些软件大多都是商业性软件，并且价格十分昂贵，同时对日志文件的格式也有特殊的要求。

日志分析系统通过集中采集各类系统中的安全事件(如网络攻击、防病毒等)、用户访问记录、系统运行日志、系统运行状态、网络存取日志等各类信息，经过标准化、过滤、归并和告警分析等处理后，以统一格式的日志形式进行集中存储和管理。数据收集是日志分析系统中最重要的部分。没有这一功能，就无法用日志分析系统实现目标。日志文件轮转是另一个需要定义的策略。随着所监控的日志文件的增加，本地系统上的磁盘会被堆满。磁盘满时，应用程序可能就无法正常运行。轮转的日志需要保留足够长的时间以确保其实用性，同时又不能影响整个系统。

近几年，随着移动互联网的快速发展，海量日志数据的产生变得越来越容易。同时支撑互联网公司的分布式系统复杂性越来越高，各种服务通常都是部署在大规模分布式的集群上。而这些应用服务都是一个个独立的软件模块，这些软件模块可能是由多个不同的团队开发的，使用的编程语言都是不尽相同的，部署分布在几百甚至是几千台服务器，横跨多个数据中心机房。一旦其中一个或多个服务出现问题，在运行环境中进行问题追踪的困难程度可想而知，需要跨部门沟通与协调，甚至还要在多个软件模块服务的各个环节去排查问题。

当前日志分析主要对象集中在网络安全、运维等技术领域，而针对软件开发中存在的日志则缺乏通用的自动化分析方法。日志由于本身存在高度重复、文本模式固定等特点，故可通过正则化表达式等途径进行快速信息提取。传统的hash算法只将原始内容均匀随机地映射为一个签名值，原理上相当于伪随机数产生算法。产生的两个签名，如果相等，说明原始内容在一定概率下是相等的；如果不相等，除了说明原始内容不相等外，不再提供任何信息，因为即使原始内容只相差一个字节，所产生的签名也很可能差别极大。从这个意义上来说，要设计一个hash算法，对相似的内容产生的签名也相近，是更为艰难的任务，因为它的签名值除了提供原始内容是否相等的信息外，还能额外提供不相等的原始内容的差异程度的信息。

文本数据信息蕴含在自由文本中、没有结构化字段可供查询以及无法直接进行统计分析。为了满足从海量信息中获取与自身需要和兴趣吻合度高的内容，现有技术出现了多种技术，如：搜索引擎、推荐系统、问答系统、文档分类与聚类、文献查重等，而这些应用场景的关键技术之一就是文本相似度计算技术。文本相似度计算方法使用的本体不是严格的本体概念，而指广泛的词典、叙词表、词汇表以及狭义的本体。由于本体能够准确地表示概念含义并能反映出概念之间的关系，所以本体成为文本相似度的研究基础。如果是文本分析，它首先就要用到分词技术，然后去掉不必要的词(语气词，连接词)。然后对词给一个抽象的量表示权重，最后在用一些方法去统计出整体的相似度。对于文本相似度计算，由于应用场景不同，其内涵有所差异，故没有统一、公认的定义。通常文本相似度计算是指利用计算机自动计算文本间的相似度，文本相似度是表示两个或多个文本之间匹配程度的一个度量参数，相似度与文本之间的共性和差异有关，共性越大、差异越小、则相似度越高；共性越小、差异越大、则相似度越低。相似度最大的情况是文本完全相同。相似度大，说明文件相似程度高，反之文件相似程度就低。相关度与相似度是容易混淆的概念，相关度体现在文本共现或者以任何形式相互关联(包括上下位关系、同义关系、反义关系、部件-整体关系、值-属性关系等)反映出文本的组合特点。而相似度是相关度的一种特殊情况，包括上下位关系和同义关系。由此得出，文本的相似度越高，则相关度越大，但是相关度越大并不能说明相似度高。文本相似度计算中还有一个重要的概念是文本表示，代表对文本的基本处理，目的是将半结构化或非结构化的文本转化为计算机可读形式。文本相似度计算方法的不同本质是文本表示方法不同。基于网络知识的文本相似度计算方法大多利用页面链接或层次结构，能较好的反映出词条的语义关系。但其不足在于：词条与词条的信息完备程度差异较大，不能保证计算准确度，网络知识的生产方式是大众参与，导致文本缺少一定的专业性。目前，国内外很多学者在研究文本相似度计算问题，并提出了一些解决方案，如Gerard Salton和McGill于1969年提出的向量空间模型VSM(Vector Space Model)，该方法将要比较相似度的文本根据文本中的词语将文本映射为n维空间向量，然后通过比较向量间的关系来确定文本间的相似度，其中最为常用的方法是计算向量间的余弦系数，但传统向量空间模型缺点是模型中各词语间相互独立，无语义上的关系。此外还有霍华、冯博琴提出的基于压缩稀疏矩阵矢量相乘的文本相似度计算方法，能够减少计算和存储空间的开销。该方法仅对非零元素存储和表示，然后用压缩稀疏矩阵矢量相乘的方法计算文本和查询的相似度，可通过给定相似度阈值来判定一个文本是否和查询相似。各种文本相似度计算方法均在特定领域取得了良好的效果，但该算法复杂度比较高，可移植性差，但还都存在着开发难度大、运行耗时、难以在多平台进行移植维护等缺点与不足，尚需进一步加以改进。一是该方法基于文本中的特征项进行相似度计算，当特征项较多时，产生的高维稀疏矩阵导致计算效率不高；二是向量空间模型算法的假设是文本中抽取的特征项没有关联，不符合文本语义表达。

随着服务器中系统的日志数量日益增加，自动化日志分析工具需要使用非常高效的方案来处理海量的日志数据。并且由于开发人员普遍使用自定义的文本信息作为日志，自动化日志分析工具还需要能够有效地处理自然语言。日志数据的飞速增长，会出现存储及获取低效的难题，大规模日志数据无法集中检索分析，难以从中获取到有价值的信息，在系统运行中出现问题需要在短时间内定位问题，。随着互联网的迅猛发展，公司业务不断拓展，相应业务数据、日志数据也随之飞速增长。业务数据量的不断增长，传统数据库对于大体量数据的多维度实时查询及统计显得越来越力不从心。如何从大量的数据里统计和查询出有效直观的数据，这便成了日志统计中的关键问题。

发明内容

基于背景技术存在的问题，本发明提供一种计算结构更加准确，快速、便捷、计算效率高的日志自动化分析系统。

本发明的上述目的可以通过以下措施来达到，一种日志自动化分析系统，包括：串行连接的日志预处理模块、文本分析切片模块、参数名及数值提取模块、数据IO模块和统计绘图及报告生成模块，其特征在于：日志预处理模块对输入日志进行预处理，对原始调试日志文件进行去除文本空白行、分词、停用词过滤的日志清洗工作，将清洗后的工作日志文件送入文本分析切片模块进行语义分析，利用Simhash算法产生文本对应的指纹，自行设置特殊词性的权重和停用词/停用词性，对于给定的一段语句，进行分词，得到有效的特征向量。计算得到日志相邻文本Simhash指纹，并进行相似度计算、判决分割出最小不重复文本块；参数名及数值提取模块根据文本最小不重复文本块，或根据预先编写的日志模板，构建正则表达式匹配模式，选取读入日志进行参数名及数值提取处理文本关键性信息工作；数据IO模块将提取出的文本关键性信息、参数名及数值保存到硬盘，供后续读写使用；统计绘图及报告生成模块将从硬盘中提取出的数值，按类进行数据统计，分析得到的数据统计值，绘制可视化图形，并依据统计数据以及可视化图形生成分析报告。

本发明相比于现有技术具有如下有益效果：

计算结构更加准确。本发明采用日志预处理模块对输入日志进行预处理，对原始调试日志文件进行去除文本空白行、分词、停用词过滤的日志清洗工作，去除了原始向量空间的某些“噪声”与“干扰”，将清洗后的工作日志文件送入文本分析切片模块进行语义分析，降低了多义词，同义词的影响，保证了文本的语义性。避免了多义词，同义词的影响，使得计算结构更加准确。

计算快速、便捷。本发明通过文本相似性判决算法提取最小不重复文本块；参数名及数值提取模块根据文本最小不重复文本块，或根据预先编写的日志模板，构建正则表达式匹配模式，选取读入日志进行参数名及数值提取处理文本关键性信息；这种表达方式符合文本语义表达，快速、便捷，使得类似的文本在距离上更为接近，同时较好的解决了词袋模型由于词语独立带来的维数灾难和语义不足问题。

计算效率高。本发明计算得到日志相邻文本的Simhash指纹，并对Simhash指纹进行相似度计算，形成最小不重复文本块，或读取外部配置的日志模板，依据最小不重复文本块或读取的日志模板，进行正则表达式匹配模式构建，从而实现信息快速提取以及报告生成，简化了数据分析人员工作量。根据相似性对文本进行切分，并对关键信息进行提取、数据分析以及可视化图形绘制，分析并形成分析报告，提高了工作效率。

本发明将高维的特征向量映射成一个低维的特征向量，通过两个向量的汉明距离来确定文章是否重复或者高度近似。不仅能对散乱在日志中的信息进行梳理，汇总与存储，还能对其进行可视化展示，为相关人员进行分析提供依据。本发明处理能力强，能满足大规模日志分析的需要，结构轻量，可快速部署，既可内嵌到信息处理等系统，亦可独立运行。

附图说明

图1为本发明的一种日志自动化分析系统的结构示意图；

图2为图1所示系统的工作流程图。

具体实施方式

参照图1、图2。在以下描述是优选实施例中，一种日志自动化分析系统，包括：串行连接的日志预处理模块、文本分析切片模块、参数名及数值提取模块、数据IO模块和统计绘图及报告生成模块。日志预处理模块对输入日志进行预处理，对原始调试日志文件进行去除文本空白行、分词、停用词过滤的日志清洗工作，将清洗后的工作日志文件送入文本分析切片模块进行语义分析，利用Simhash算法产生文本对应的指纹，自行设置特殊词性的权重和停用词/停用词性，对于给定的一段语句，进行分词，得到有效的特征向量。计算得到日志相邻文本Simhash指纹，并进行相似度计算、判决分割出最小不重复文本块；参数名及数值提取模块根据文本最小不重复文本块，或根据预先编写的日志模板，构建正则表达式匹配模式，选取读入日志进行参数名及数值提取，处理文本关键性信息工作；数据IO模块将提取出的文本关键性信息、参数名及数值保存到硬盘，供后续读写使用；统计绘图及报告生成模块将从硬盘中提取出的数值，按类进行数据统计，分析得到的数据统计值，绘制可视化图形，并依据统计数据以及可视化图形生成分析报告。

文本分析切片模块初始化最小不重复文本块为空，将输入文档特征集合日志中每行的文本进行分词，过滤筛除停顿词及无效的标点符号和干扰符号后，将每行文本映射为f维空间的一个向量进行数据转换，转换为一组向量特征，附有权值的特征码的集合构成一个高维向量，将这个高维向量转化为f位的指纹，从文档中提取带有权值的特征码集合生成f位指纹，并基于向量特征，采用文本相似度判决算法初始化一个f维的Simhash签名S与向量V，并将二者初始化为0，输出一个f位的签名值。

在进行相似度计算中，文本分析切片模块首先生成一个每一维都初始化为0的f维向量V，然后将每个特征码哈希为f位的哈希值，这些f位的哈希值将V的f个元素增加或减少它所对应的权值大小的值，如果哈希值的第i位对应的值是1，就将V的第i个元素增加它所对应的权值大小的值；如果哈希值的第i位为0，就将V的第i个元素减去它对应的权值大小的值，然后采用相同的哈希函数/散列函数，计算出每行文本特征值的哈希值f位的签名a，观察签名a的每一位：在介于1到f的i位之间，将一个文档中所包含的各个特征对应的向量加权求和，得到表征文档的和向量，对于文档一个n维向量V，如果a的第i位为1，则本文本的向量V的第i位加上该特征的权重，否则减去权重。

在进行语义分析中，文本分析切片模块遍历向量V，为每一个特征向量设置一个权值，同时进行切片计算和指向分析，若V中i位元素大于0，则将Simhash签名S的第i位设为1，否则为0，将得到的f个0或1组合起来成为一个f维的签名，用两个向量的签名的不同的对应位的数量，即汉明距离来衡量这两个向量的差异程度，最后输出Simhash签名S。

文本分析切片模块对每一个特征向量计算hash值，所有特征向量进行加权(1则为正，0则为负)，然后累加，对于n-bit签名的累加结果，如果>0置1，否则置0；根据相邻文本的两个指纹S₁和S₂，计算两者的汉明距离，依据门限值判定二者是否相似，得到语句的Simhash值，根据不同语句Simhash的汉明距离就来判断相似程度。本实施例通过文本分析切片模块文本分析切片模块分析确定变量的指向集，将程序切片这类计算抽象成独立于具体语言的切片单子转换器.并将切片单子转换器模块化地加载到语义模块描述中，直接在抽象语法项上计算切片。

参数名及数值提取模块所构建的正则表达式匹配模式，可通过选择读取硬盘中存储的用户事先编写的日志关键文本模板，或文本分析切片模块得到的最小不重复文本块进行配置，使用正则表达式进行数字匹配与定位，将其替换为对应的正则表达式模式，形成关键文本正则表达式模式。

数据IO模块中存储方式包括但不限于CSV/TXT等格式的数据文件，或MySQL等数据库。统计绘图及报告生成模块对存储在硬盘中的数据进行查询，计算其数据均值、方差等数学特征值，绘制并保存直方图、箱型图数学图像，并根据计算得到的数学特征值以及数学图像，自动化生成分析报告。以供相关人员参考。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种日志自动化分析系统，包括：串行连接的日志预处理模块、文本分析切片模块、参数名及数值提取模块、数据IO模块和统计绘图及报告生成模块，其特征在于：日志预处理模块对输入日志进行预处理，对原始调试日志文件进行去除文本空白行、分词、停用词过滤的日志清洗工作，将清洗后的工作日志文件送入文本分析切片模块进行语义分析，自行设置特殊词性的权重和停用词/停用词性，对于给定的文本进行分词，得到有效的特征向量，利用Simhash算法产生文本对应的指纹，计算得到日志相邻文本Simhash指纹，并进行相似度计算、判决分割出最小不重复文本块；参数名及数值提取模块根据文本最小不重复文本块，或根据预先编写的日志模板，构建正则表达式匹配模式，选取读入日志进行参数名及数值提取处理文本关键性信息工作；数据IO模块将提取出的文本关键性信息、参数名及数值保存到硬盘，供后续读写使用；统计绘图及报告生成模块将从硬盘中提取出的数值，按类进行数据统计，分析得到的数据统计值，绘制可视化图形，并依据统计数据以及可视化图形生成分析报告。

2.如权利要求1所述的日志自动化分析系统，其特征在于：文本分析切片模块初始化最小不重复文本块为空，将输入文档特征集合日志中每行的文本进行分词，过滤筛除停顿词及无效的标点符号和干扰符号后，将每行文本映射为f维空间的一个向量进行数据转换，转换为一组向量特征，附有权值的特征码的集合构成一个高维向量，通过Simhash将这个高维向量转化为f位的指纹，从文档中提取带有权值的特征码集合生成f位指纹，并基于向量特征，采用文本相似度判决算法初始化一个f维的Simhash签名S与向量V，并将二者初始化为0，输出一个f位的签名值。

3.如权利要求1所述的日志自动化分析系统，其特征在于：在进行相似度计算中，文本分析切片模块首先生成一个每一维都初始化为0的f维的向量V，然后将每个特征码哈希为f位的哈希值，这些f位的哈希值将V的f个元素增加或减少它所对应的权值大小的值，如果哈希值的第i位对应的值是1，就将V的第i个元素增加它所对应的权值大小的值；如果哈希值的第i位为0，就将V的第i个元素减去它对应的权值大小的值，然后采用相同的哈希函数，计算出每行文本特征值的哈希值f位的签名a。

4.如权利要求1所述的日志自动化分析系统，其特征在于：文本分析切片模块观察签名a的每一位，在介于1到f的i位之间，将一个文档中所包含的各个特征对应的向量加权求和，得到表征文档的和向量，对于文档中的一个n维向量V，如果a的第i位为1，则本文本的向量V的第i位加上该特征的权重，否则减去权重。

5.如权利要求1所述的日志自动化分析系统，其特征在于：在语义分析中，文本分析切片模块遍历向量V，为每一个特征向量设置一个权值，若V中i位元素大于0，则将Simhash签名S的第i位设为1，否则为0，将得到的f个0或1组合起来成为一个f维的签名，用两个向量的签名不同对应位的数量，即汉明距离来衡量这两个向量的差异程度，最后输出Simhash签名S。

6.如权利要求1所述的日志自动化分析系统，其特征在于：文本分析切片模块同时进行切片计算和指向分析，对每一个特征向量计算hash值，并对所有特征向量进行加权，1则为正，0则为负，然后累加。

7.如权利要求1所述的日志自动化分析系统，其特征在于：本分析切片模块根据相邻文本的两个指纹S₁和S₂，计算两者的汉明距离，依据门限值判定二者是否相似，得到语句的Simhash值，根据不同语句Simhash的汉明距离来判断相似程度。

8.如权利要求1所述的日志自动化分析系统，其特征在于：参数名及数值提取模块所构建的正则表达式匹配模式，通过选择读取硬盘中存储的用户事先编写的日志关键文本模板，或文本分析切片模块得到的最小不重复文本块进行配置，使用正则表达式进行数字匹配与定位，将其匹配与定位的数字替换为对应的正则表达式模式，形成关键文本正则表达式模式。

9.如权利要求1所述的日志自动化分析系统，其特征在于：数据IO模块将参数名及数值提取模块中所提取的信息保存在硬盘中，供后续步骤进行读写，保存形式不限于数据文件和数据库。

10.如权利要求1所述的日志自动化分析系统，其特征在于：统计绘图及报告生成模块对存储在硬盘中的数据进行查询，计算其数据均值、方差的数学特征值，绘制并保存直方图、箱型图数学图像，并根据计算得到的数学特征值以及数学图像，自动化生成分析报告。