CN106227790A

CN106227790A - 一种使用Apache Spark分类与解析海量日志的方法

Info

Publication number: CN106227790A
Application number: CN201610573035.3A
Authority: CN
Inventors: 方银春; 刁志刚; 耿星星
Original assignee: Beijing VRV Software Corp Ltd
Current assignee: Beijing VRV Software Corp Ltd
Priority date: 2016-07-19
Filing date: 2016-07-19
Publication date: 2016-12-14

Abstract

本发明公开了一种使用Apache Spark分类与解析海量日志的方法。方法包括利用日志数据接口，选取日志文件并将日志文件导入Apache Spark环境中；对日志文件的文件名和说明字段进行词条解析，并读取关键字段；根据决策树分类器，对关键字段进行分类，并形成日志文件的分类信息；根据Hive表结构，基于Scala从日志文件中匹配所需信息形成数据条并将数据条导入Hive表中；从Hive表中读取数据并统计状态信息；分析状态发生的频率、幅度，并形成最终数据状态报告。本发明具有实施简单、更快的解析速度、以及更高的解析准确性等优点。

Description

一种使用Apache Spark分类与解析海量日志的方法

技术领域

本发明涉及信息技术领域，并且更具体地涉及一种使用Apache Spark分类与解析海量日志的方法。

背景技术

随着信息技术的飞速发展，为了记录应用和系统的工作情况，就必须生成大量的工作日志。这些日志数据中不仅包含了应用和系统的状态还包含了错误信息。通过采集和分析日志数据，将有用的状态和错误信息挖掘出来，就能让系统管理人员及时准确的获知应用和系统的运行情况。

应用和系统频繁地生成日志文件，因此这些日志文件的数量相当庞大。目前，对日志文件的常见解析方法是用MR分析日志文件数据，但是MR有很多缺陷：抽象层次低，需要手工编写代码来完成，使用上难以上手；只提供两个操作，Map和Reduce，表达力欠缺；处理逻辑隐藏在代码细节中，没有整体逻辑；中间结果也放在HDFS文件系统中；ReduceTask需要等待所有MapTask都完成后才可以开始；时延高，只适用Batch数据处理，对于交互式数据处理，实时数据处理的支持不够；对于迭代式数据处理性能比较差；不适合描述复杂的数据处理过程。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于提供一种使用Apache Spark分类与解析海量日志的方法。其以Apache Spark计算框架为基础，利用Scala特有的模式匹配对海量日志文件进行分类，然后利用关键字段解析并提取日志文件中出现的有用信息。

为了实现上述目的，本发明采用的技术方案如下：

一种使用Apache Spark分类与解析海量日志的方法，其包括以下步骤：

步骤1：利用日志数据接口，选取一段分析时间内的日志文件并将日志文件导入Apache Spark环境中；

步骤2：基于Scala的模式匹配命令对日志文件的文件名和日志文件的说明字段进行词条解析，并读取关键字段；

步骤3：根据决策树分类器，对关键字段进行分类，并形成日志文件的分类信息；

步骤4：根据Hive表结构，基于Scala从日志文件中匹配所需信息形成数据条并将数据条导入Hive表中；

步骤5：从Hive表中读取数据并统计状态信息；

步骤6：分析状态发生的频率、幅度，并形成最终数据状态报告。

进一步地，上述关键字段包括主机名、路径、日志类型。

进一步地，上述日志文件的类型包括Warning日志、Error日志、Critical日志。

进一步地，上述数据条包括日志类型、应用类型、日志级别关键字、日志级别、日志内容。

进一步地，上述状态包括异常状态、错误状态。

进一步地，上述数据状态报告包括异常次数、异常频率、异常种类和相互关系、错误次数、错误频率。

与传统的单机日志解析或者Hadoop框架下的MR日志解析相比，本发明的实施简单、易行，解析日志文件流程可分布式计算，大大地提高了集群使用效率和日志解析速度。同时，本发明引入日志分类器(即决策树分类器)，实现了先分类后入库的稳定、准确的解析方案，有效地提高了最终的解析准确性。进一步地，本发明表述了不同场景下不同分类的发生比率、幅度等信息，能够更好地指导后续的工作。

附图说明

图1为本发明的一种使用Apache Spark分类与解析海量日志的方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

图1示出了本发明的一种使用Apache Spark分类与解析海量日志的方法的流程图。首先，获取重要的运行参数，包括运行时间、运行分布式节点数目、日志运行总量等参数，其中，所述分布式节点数目(用sumcount表示)需要经过一段时间的学习确认，以达到最优值。其次，将日志文件导入Spark环境，选取节点数文件，将其中一个日志文件读入决策树分类器，并基于Scala的模式匹配命令对日志文件的文件名和日志文件的说明字段进行词条解析，读取其中的关键字段，包括主机名、路径、以及日志类型。再次，根据已有的词库和预构建的决策树分类器，将读取的关键字段与上述词库进行对照分类，形成上述日志文件的类型信息，包括Warning日志、Error日志、以及Critical日志。接着，成功获取日志文件的类型信息后，根据每个类型的Hive表结构，基于Scala从日志文件内容中匹配需要的信息，形成数据条(包括日志类型、应用类型、日志级别关键字、日志级别、日志内容等)并将数据条导入每个类型的日志文件的Hive表中。接着，当提交一个节点数据后，判断当前的集群节点(用numcount表示)是否被用尽，如果没有则读入新的日志文件到决策树分类器，并提交未使用节点计算对应的入库词条；如果集群节点被用尽则等待节点计算完毕并释放存储空间后，判断所有的日志文件是否分类解析完成，如果所有的日志文件已完成分类解析，则退出分类解析循环，如果所有的日志文件未全部完成分类解析，则读取下一个日志文件至决策树分类器，直到所有的日志文件完成分类解析。最后，对于不同类型的日志文件，从各自的Hive表中读取数据，统计包括异常状态、错误状态等状态信息，分析上述状态发生的频率、幅度。

其中，各种状态发生的频率通过下式各状态的乘积系数来表示：

上式中，L_ij表示第i种分类类型的系数X_i与第j种分类类型的系统Y_j的相交系数，∝值通过事先设置阈值或者学习得到。

其中，各种状态发生的幅度通过下式各状态的综合系数来表示：

上式中，conf_i表示第i种分类类型在其他分类条件下发生幅度的累计和。

最后，根据上述计算结果形成数据状态的报告，该数据状态报告主要提供的基本信息包括异常次数、异常频率、异常种类和相互关系、错误次数、错误频率等。

根据本发明实施例的一方面，决策树分类器是根据具体的需求和前一段时间已经获得的日志文件预先构建的，且不做线上的动态调整。当需求发生变化或者分类准确程度降至某一标准线以下时，将通过人工离线学习来对决策树分类器进行离线调整。

根据本发明实施例的另一方面，上述数据状态报告需要根据上述状态发生的频率和幅度来得到。举例来说，在计算异常状态的自身或相互相关程度系数时，异常发生的频率和幅度通过计算公式(1)和(2)获得，(异常，异常)的自相关程度系数具体计算流程如下：

异常具体可包括系统异常、读异常、写异常等。其中(X_i，Y_j)组合表示异常i到异常j发生的幅度和频率，由于存在前后关系，所以X_i存在正负性，Y_j必定大于等于0。

L_ij表示(X_i，Y_j)组合的系数，通过式(1)可知，当X_i或Y_j任意为0时，L_ij＝∝；当X_i*Y_j＞0时，L_ij＝1；当X_i*Y_j<0时，L_ij＝-1。因此保证了L_ij*X_i*Y_j＞＝0,当且仅当X和Y完全无关时，L_ij*X_i*Y_j＝0。

通过式(2)，可以计算得到异常自身的关系程度系统conf。类似地，可以计算得到(异常，错误)、(错误，错误)等之间的相关程度系数。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种使用Apache Spark分类与解析海量日志的方法，其特征在于，所述方法包括以下步骤：

步骤1：利用日志数据接口，选取一段分析时间内的日志文件并将所述日志文件导入Apache Spark环境中；

步骤2：基于Scala的模式匹配命令对所述日志文件的文件名和所述日志文件的说明字段进行词条解析，并读取关键字段；

步骤3：根据决策树分类器，对所述关键字段进行分类，并形成所述日志文件的分类信息；

步骤4：根据Hive表结构，基于Scala从所述日志文件中匹配所需信息形成数据条并将所述数据条导入所述Hive表中；

步骤5：从所述Hive表中读取数据并统计状态信息；

步骤6：分析所述状态发生的频率、幅度，并形成最终数据状态报告。

2.根据权利要求1所述的方法，其特征在于，所述关键字段包括主机名、路径、日志类型。

3.根据权利要求1所述的方法，其特征在于，所述日志文件的类型包括warning日志、error日志、critical日志。

4.根据权利要求1所述的方法，其特征在于，所述数据条包括日志类型、应用类型、日志级别关键字、日志级别、日志内容。

5.根据权利要求1所述的方法，其特征在于，所述状态包括异常状态、错误状态。

6.根据权利要求1所述的方法，其特征在于，所述数据状态报告包括异常次数、异常频率、异常种类和相互关系、错误次数、错误频率。