CN108052679A

CN108052679A - 一种基于hadoop的日志分析系统

Info

Publication number: CN108052679A
Application number: CN201810006826.7A
Authority: CN
Inventors: 陈成; 陈静
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2018-01-04
Filing date: 2018-01-04
Publication date: 2018-05-18

Abstract

一种基于HADOOP的日志分析系统，通过HDFS实现分布式存储的底层支持，在通过MapReduce实现分布式并行处理任务的程序支持；HDFS采用了Master/Slave结构模型，HDFS集群是由一个NameNode节点和若干个DataNode节点组成；其中NameNode节点为主服务器，管理HDFS的命名空间以及客户端对文件的访问操作；集群中，DataNode节点负责管理数据；HDFS系统是以文件的形式来存储数据；NameNode节点执行文件系统中的命名空间的一系列操作，负责数据块到具体DataNode节点的统一调度下进行数据块的创建、删除和复制工作。

Description

一种基于HADOOP的日志分析系统

技术领域

本发明涉及网站分析领域，针对网站日志调查系统故障，监控系统运行状况，分析用户的访问情况。具体而言，涉及一种基于Hadoop分布式计算框架的网络日志分析方法。

背景技术

随着信息化时代的不断发展，全球的数据呈指数式增长。尤其是对于互联网等公司，积累了海量的数据，如用户的访问数据、消费购买情况、网页搜索等，通过对这些数据的整理、提取和分析，可将其蕴含的有价值的信息呈现给管理者，为决策过程提供支持。日志作为硬件设备、系统和用户行为的记录工具，在监控网络运行情况、调查设备故障、保护系统安全等方面都有着至关重要的作用。因此，挖掘网络日志中蕴藏的信息，对于管理者来说是个非常重要的过程。但是由于日志文件数据量大，不易读懂，传统的技术是无法存储和计算的，这就引入了Hadoop分布式计算框架。

Hadoop是由Apache基金会所开发的开源的分布式系统基础架构，其主要包含可以为海量数据提供存储系统(HDFS)和计算系统(MapReduce)，用户可以在不了解分布式底层细节的情况下，可以开发分布式程序，充分利用集群的威力进行高速运算和存储。Hadoop架构不仅对硬件要求不是很高，节省硬件的成本，而且对Web访问、服务器日志以及其他各类数据流产生的海量数据进行筛选，在分布式环境下具有提供海量数据的处理能力。目前，Hadoop已经被很多大型公司广泛应用到网页搜索、日志分析、广告计算和科学实验中。

CN106227877基于hadoop的分布式日志采集系统，包括：本地服务器localserver，其配置来接收本地应用程序发来的日志，并将其分别转发给central server和archiver，如果central server发生故障，local server将接收的日志缓存到本地，central server恢复后，local server将缓存的日志重新加载并发送给central server；中心服务器central server，其配置来接收来自local server的日志，并将日志转发给producer；档案库存储器archiver，其配置来接收各个local server的日志并备份到本地；发布者producer，其配置为kafka的producer接口服务，接收到日志之后推送到kafka队列，同时将日志落地到本地；Kafka服务器kafka servers：其配置为kafka服务集群；订阅者consumer，其配置为kafka的consumer接口服务，从kafka队列读取到日志后写入hdfs；hadoop分布式文件系统hdfs，其配置来存储海量日志，每种日志文件每小时产生一个。

CN107180063A给出一种hadoop实现的itemCF推荐方法，包括Hadoop集群平台、用户对商品的评分日志、项目平均评分向量、同现矩阵、平均差评分向量、推荐因子向量，其特征在于：所述的项目平均评分向量由商品的评分日志获得，通过将所有用户对某个商品的评分取得评分平均值，然后扫描用户的评分日志，将用户的评分和项目的平均评分做减法构成用户平均差评分向量，将新生成的用户平均差评分向量与同现矩阵做乘法构成推荐因子向量，将推荐因子向量与平均评分向量相加成为最终推荐值推荐给用户。

但是由于网络日志数据量大，不易读懂，传统的技术方法已经不适于用户从海量的日志文件中得到有价值的信息。而hadoop分布式系统基础框架，正好可以处理这个难点。本发明将研究如何利用Hadoop分布式系统基础架构实现网络日志分析系统。

HADOOP的日志分析系统中，Hadoop是主要是通过HDFS(Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统)实现分布式存储的底层支持，尤其在通过MapReduce实现分布式并行处理任务的程序支持。

发明内容

发明目的：提出一种基于HADOOP的日志分析系统，分析网络日志是调查页面访问、系统故障、监控系统运行状况的重要手段。本发明阐述了Hadoop分布式计算框架的主要内容，提出一种基于Hadoop的网络日志分析系统，并提出了此方法的优势和实用性。

本发明技术方案是，一种基于HADOOP的日志分析系统，其特征是通过HDFS实现分布式存储的底层支持，在通过MapReduce实现分布式并行处理任务的程序支持；

HDFS采用了Master/Slave结构模型，一个HDFS集群是由一个NameNode节点和若干个DataNode节点组成；其中NameNode节点为主服务器，管理HDFS的命名空间以及客户端对文件的访问操作；集群中，DataNode节点负责管理数据；HDFS系统是以文件的形式来存储数据；从其内部来看，存储的文件被分成了若干个数据块，并且这若干个数据块存储在一组DataNode节点上；NameNode节点执行文件系统中的命名空间的一系列操作，包括打开文件、关闭文件、重命名文件或目录等，它同时也负责数据块到具体DataNode节点的统一调度下进行数据块的创建、删除和复制工作；

NameNode节点和DataNode节点都能够在普通的计算机上运行：运行Java的计算机就能运行HDFS，用来部署NameNode节点和DataNode节点；

Hadoop还能利用集群的威力进行高速运算，这个就靠Map Reduce来实现，MapReduce是一种并行计算的编程模型，用于作业调度；它将一个大作业拆分为多个小作业的框架，用户需要做的就是决定拆成多少份，以及定义作业本身；map函数和reduce函数是交给用户实现的，这两个函数定义了任务本身；

使用Map Reduce编程框架对日志进行了处理：

Map函数：接受一个键值对(key-value pair)，产生一组中间键值对。MapReduce框架会将map函数产生的中间键值对里键相同的值传递给一个reduce函数；

Reduce函数：接受一个键，以及相关的一组值，将这组值进行合并产生一组规模更小的值(通常只有一个或零个值)。

一个经典的运行HDFS实例是集群中的一台计算机作为一个NameNode，其他计算机分别用来运行一个DataNode；当然这里并不排除一台计算机上运行多个DataNode的情况；NameNode负责管理所有HDFS中存储的元数据，用户需要存储的数据不需要通过NameNode，而且是直接存储在DataNode节点上。

在使用Map Reduce编程框架对日志进行处理：通过HDFS将日志文件进行分块，并将分块后的数据按照系统计算任务分配存储到系统中的每个DataNode，文件系统启动每个DataNode的必须进程，调用InputFormat方法将日志文件中的所有日志独立开来形成一个键值对<序列号，IP>进行Map处理，这些键值对将放入内存中等待Combiner()处理，它能将相同的键值对进行合并；NameNode指派系统中的DataNode分别对数据进行Reduce处理；对所有DataNode上的数据进行汇总得到最终结果并写入输出目录的文件中。

用户首先需要从大量的日志中筛选出目标日志，然后从目标日志中截取对应的字段值，根据用户的需求，直观展示出每天什么时刻哪个站点哪个库的访问量和访问流量，提供决策支持和流量监测。

有益效果：由于HDFS会不断地分割日志流，形成大量的小文件，所以Hadoop对于数据量偏少的任务操作速度慢，流程复杂，效果不那么明显。但是对于海量数据而言，Hadoop集群相对单机能更加有效地管理和存储海量数据，具有良好的扩张性，MapReduce计算速度快，Hadoop可节省大量的操作时间。因此可以看出Hadoop在处理海量数据时相对于单机有巨大的优势。

附图说明

图1：HDFS的Master/Slave结构模型；

图2：Map Reduce编程框架对日志处理的流程图；

图3：部分日志；

图4：Map主要代码；

图5：Reduce函数主要代码。

具体实施方式

图1：HDFS的Master/Slave结构模型，图1中，Master/Slave结构模型，一个HDFS集群是由一个NameNode节点和若干个DataNode节点组成；

使用Map Reduce编程框架对日志进行了处理：

NameNode节点和DataNode节点都可以在普通的计算机上运行。这些计算机的操作系统通常是GNU/Linux。HDFS是用Java语言开发的，所以只要是可以运行Java的计算机就可以运行HDFS，用来部署NameNode节点和DataNode节点。一个经典的运行HDFS实例是集群中的一台计算机作为一个NameNode，其他计算机分别用来运行一个DataNode。当然，这里并不排除一台计算机上运行多个DataNode的情况。NameNode负责管理所有HDFS中存储的元数据，用户需要存储的数据不需要通过NameNode，而且是直接存储在DataNode节点上。

Hadoop还可以利用集群的威力进行高速运算，这个就靠MapReduce来实现。MapReduce是一种并行计算的编程模型，用于作业调度。它将一个大作业拆分为多个小作业的框架(大作业和小作业应该本质是一样的，只是规模不同)，用户需要做的就是决定拆成多少份，以及定义作业本身。map函数和reduce函数是交给用户实现的，这两个函数定义了任务本身。

图2：Map Reduce编程框架对日志处理的流程图中，Map函数：接受一个键值对(key-value pair)，产生一组中间键值对。MapReduce框架会将map函数产生的中间键值对里键相同的值传递给一个reduce函数。

如下图3所得到的日志，这是某架构部的存储日志，一天约700万条，数据量较大，规则复杂。用户首先需要从大量的日志中筛选出目标日志，然后从目标日志中截取对应的字段值，根据用户的需求，直观展示出每天什么时刻哪个站点哪个库的访问量和访问流量，提供决策支持和流量监测。

网络日志是由日志分析系统将不同格式的日志进行解析生成统一格式的日志文件，然后将采集到的日志文件提交到Hadoop集群中的Master，Master把文件切割成Block，然后把这些Block分散地存储于不同的Slave上，每个Block还可以复制数份存储于不同的Slave上，达到容错目的。

在使用MapReduce编程框架对日志进行了处理。如上述日志为例，用户需要筛选出含有“INFO-end proxy mutate record value for”和“INFO-end read value:”的日志，并从每条的日志中截取相应的时间、时刻、站点、库字段值，来分析每天每个站点的库的访问量和访问流量。Map和Reduce主要代码如下图4所示。Map主要代码。

图5：Reduce主要代码，程序过程：通过HDFS将日志文件进行分块，并将分块后的数据按照系统计算任务分配存储到系统中的每个DataNode，文件系统启动每个DataNode的必须进程，调用InputFormat方法将日志文件中的所有日志独立开来形成一个键值对<序列号，IP>进行Map处理，这些键值对将放入内存中等待Combiner()处理，它能将相同的键值对进行合并；NameNode指派系统中的DataNode分别对数据进行Reduce处理；对所有DataNode上的数据进行汇总得到最终结果并写入输出目录的文件中。

运行所截取的字段值如下：

得出的结果：

最后两列是由reduce通过合并所得到一组值(在该实例中一组值指的就是用户所要字段值)，产生一组规模更小的值(通常只有一个或零个值)。该实例中倒数第二列是日志条数，也称访问量，倒数第一列是由每条日志中的size相加获得的访问流量值。

由于HDFS会不断地分割日志流，形成大量的小文件，所以Hadoop对于数据量偏少的任务操作速度慢，流程复杂，效果不那么明显。但是对于海量数据而言，Hadoop集群相对单机能更加有效地管理和存储海量数据，具有良好的扩张性，MapReduce计算速度快，Hadoop可节省大量的操作时间。因此可以看出Hadoop在处理海量数据时相对于单机有巨大的优势。

本发明并不限于上述实施方式，采用与本发明上述实施实例相同或近似的结构，而得到的其它结构设计，均在本发明的保护范围之内。

Claims

1.一种基于HADOOP的日志分析系统，其特征是通过HDFS实现分布式存储的底层支持，在通过MapReduce实现分布式并行处理任务的程序支持；

Hadoop能利用集群进行高速运算，依靠Map Reduce来实现，Map Reduce是一种并行计算的编程模型，用于作业调度；它将一个大作业拆分为多个小作业的框架，用户需要做的就是决定拆成多少份，以及定义作业本身；map函数和reduce函数是交给用户实现的，这两个函数定义了任务本身；

使用Map Reduce编程框架对日志进行了处理：

Reduce函数：接受一个键，以及相关的一组值，将这组值进行合并产生一组规模更小的值、通常只有一个或零个值。

2.根据权利要求1所述的日志分析系统，其特征是HDFS集群中的一台计算机作为一个NameNode，其他计算机分别用来运行一个DataNode；NameNode负责管理所有HDFS中存储的元数据，用户需要存储的数据不需要通过NameNode，而且是直接存储在DataNode节点上。

3.根据权利要求1所述的日志分析系统，其特征是在使用Map Reduce编程框架对日志进行处理：通过HDFS将日志文件进行分块，并将分块后的数据按照系统计算任务分配存储到系统中的每个DataNode，文件系统启动每个DataNode的必须进程，调用InputFormat方法将日志文件中的所有日志独立开来形成一个键值对<序列号，IP>进行Map处理，这些键值对将放入内存中等待Combiner()处理，它能将相同的键值对进行合并；NameNode指派系统中的DataNode分别对数据进行Reduce处理；对所有DataNode上的数据进行汇总得到最终结果并写入输出目录的文件中。

4.根据权利要求1所述的日志分析系统，其特征是用户首先需要从大量的日志中筛选出目标日志，然后从目标日志中截取对应的字段值，根据用户的需求，直观展示出每天什么时刻哪个站点哪个库的访问量和访问流量，提供决策支持和流量监测。

5.根据权利要求1所述的日志分析系统，其特征是网络日志是由日志分析系统将不同格式的日志进行解析生成统一格式的日志文件，然后将采集到的日志文件提交到Hadoop集群中的Master，Master把文件切割成Block，然后把这些Block分散地存储于不同的Slave上，每个Block还可复制数份存储于不同的Slave上，达到容错目的。