CN104714946A

CN104714946A - 一种基于NoSQL的大规模Web日志分析系统

Info

Publication number: CN104714946A
Application number: CN201310673602.9A
Authority: CN
Inventors: 田鹏; 谢蓉; 田骊; 马静; 毛瑞雪; 潘孝楠; 孙宇; 田凤祥; 应奕彬; 陈灿华; 丁素芬; 周子豪; 陈志强; 钟霖甘; 晏丹; 谢嘉宾; 瞿庆海; 徐璡晶; 赵依然; 陈波
Original assignee: Individual
Current assignee: Individual
Priority date: 2013-12-11
Filing date: 2013-12-11
Publication date: 2015-06-17

Abstract

本发明提出一种基于NoSQL的大规模Web日志分析系统，该系统包括有三部分：分布式存储单元、分布式计算单元、用户界面客户端；分布式存储单元包含有日志收集模块、日志存储模块，日志存储模块中的数据库采用NoSQL数据库MongoDB；分布式计算单元包含有日志处理模块、日志分析模块，日志分析模块采用Hadoop分布式计算架构；用户界面客户端内部包含有可以对Web日志进行操作的日志查找单元、索引管理单元、用户管理单元、系统状态单元；基于NoSQL的大规模Web日志分析系统具有非常好的可扩展性以及通用性。通过Hadoop的MapReduce编程模式，证明本系统的高效性和可用性。

Description

一种基于NoSQL的大规模Web日志分析系统

技术领域

本发明涉及一种非关系型的数据库，尤其涉及一种基于NoSQL的大规模Web日志分析系统。

背景技术

目前，由于互联网的高速发展，越来越多的Web应用被用户所使用，使得Web日志的数量也快速增长。随着Web应用访问量的增大，传统的数据存储方式已不能满足当前的需求，因而促使了大规模Web日志分析的产生，但是，大多的Web日志分析系统不能够方便进行存储、调取，而且加大了开发人员的工作效率。

综上所述，针对现有技术存在的缺陷，本发明提出一种基于NoSQL的大规模Web日志分析系统，以解决现有技术的不足。

发明内容

本发明的目的是提供基于NoSQL的大规模Web日志分析系统，可以高效的对各种格式的日志进行处理，不仅减少了开发人员的工作量同时提高使用人员的工作效率。

本发明为解决其技术问题所采用的技术方案是，

一种基于NoSQL的大规模Web日志分析系统，该系统包括有三部分：分布式存储单元、分布式计算单元、用户界面客户端；

分布式存储单元包含有日志收集模块、日志存储模块，日志存储模块中的数据库采用NoSQL数据库MongoDB；

分布式计算单元包含有日志处理模块、日志分析模块，日志分析模块采用Hadoop分布式计算架构；

用户界面客户端内部包含有可以对Web日志进行操作的日志查找单元、索引管理单元、用户管理单元、系统状态单元；

所述的日志收集模块为日志分析模块的基础，系统启动时的第一个任务就是要从Web应用站点获取日志信息，日志收集模块负责从Web应用站点接受agent发送的日志文件，并且重新定向为本地存储的文件，将文件存储在日志存储模块中；

所述的日志处理模块对经过日志收集模块后的日志数据进行分析，由于其格式各不相同，并且可能包含一些无效的数据，需要对数据进行统一的清洗，日志收集模块包含有三个步骤数据清洗，用户识别，会话识别；

所述的日志存储模块以单文档为单位存储的，可以任意给一个或一批文档新增或删除字段，而不会对其它文档造成影响；

所述的日志分析模块包括四分步骤：数据准备、Map函数、Reduce函数、日志分析。

进一步，所述的日志收集模块是收集日志信息的过程，日志文件本身是一个非结构化的文本文件，但是里面又包含了可以结构化出来的信息，因此对于日志文件是最适合采用MongoDB数据库进行存储，首先是对日志文件进行实施的解析和入库，对于任何的日志文件，基本都可以收集日志发生的时间，日志类型(info,error)，日志等级，关键异常，异常详细说明等相关信息，这些信息在结构化出来后需要持久化的存储起来，采用MongoDB数据库可以实现本身在数据存储层的灵活水平扩展，为了对日志进行收集，需要安装下面一些组件：Fluentd with MongoDB Plugin、MongoDB、Apache with theCombined Log Format，通过使用命令gem install fluent-plugin-mongo来进行安装。

进一步，日志收集模块中数据清洗时首先结合网站的拓扑结构，通过检查URL的后缀名，删除认为不相关的文件，通过分析页面HTML的源文件中的window.open来寻找对应的弹出页面的URL，从而删除该页面，当服务器对用户发出的请求相应失败时，Web日志同样会记录这种情况，但这对Web日志挖掘没有意义，所以在进行数据清理的时候，通过日志中的状态码删除服务器对请求响应失败的的记录；

用户识别是用来关联用户请求和服务器响应的过程，当用户访问某个Web页面时，需要对其产生一个标识符，当下次该用户来访问时，可以对其进行识别，通常用户标识符采用用户的访问IP；

会话识别是指一个客户端浏览器与WEB服务器之间连续发生的一系列请求和相应过程，WEB服务器能够把属于同一个会话中的一系列的请求和响应过程关联起来；

日志收集模块主要对日志收集模块的数据进行数据清理，数据集成，数据变换，数据归约。

进一步，所述的日志存储模块包含有storage view：Share view、privateview、journal view日志；

Share view:位于内存上，会存储已经改变的要刷新到磁盘上的数据（脏数据），Share view是唯一一个直接连映射到数据库文件上的view，当启用MongoDB的日志功能时，MongoDB会请求操作系统把磁盘上的数据文件指向share view内存视图上，操作系统不会数据文件加载到share view中，MongoDB在需要时自己把数据文件加载到share view上；

Private view:位于内存上，存储用于读请求的数据，更改请求最先在这执行，MongDB把Private view指向share view；

Journal view：存储已经在private cache上发生更改的数据，但是会在更改数据刷新到share view(cache)之前存储，Journal view确保了数据的持久化，如果更改的数据没有刷新到磁盘上的数据文件里，当MongoDB起来以后，MongoDB会把journallog中没应用到数据文件中的数据回放到share view(cache)中，最终会应用到数据文件中。

进一步，所述的日志分析模块运行的步骤为：

1、数据准备

从MongoDB数据库中导入原始数据到日志分析模块中；

2、Map函数

写一个map函数，保存在文件mapper.rb中；

3、Reduce函数

然后是reduce函数，保存在文件reducer.rb中；

4、日志分析

利用MapReduce方法处理第一步中获取的数据。

本发明的优点在于，该系统基于NoSQL的大规模Web日志分析系统具有非常好的可扩展性以及通用性。使用该系统可以高效的进行Web日志的处理和分析，通过Hadoop的MapReduce编程模式，对日志进行处理，同时进行本系统与单机处理系统的对比，证明本系统的高效性和可用性，设计新颖，是一项很好的设计方案，很有市场推广前景。

附图说明

下面结合附图和具体实施方式来详细说明本发明：

图1是本发明的系统模块图；

图2是本发明的架构示意图；

图3是本发明系统用例图；

图4是本发明日志收集模块示意图；

图5是本发明日志处理模块示意图；

图6是本发明日志存储模块示意图；

图7是本发明MongoDB存储视图；

图8是本发明系统网络拓扑图；

图9是本发明Web请求数来源分析图；

图10是本发明Web请求类型统计图；

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合图示与具体实施例，进一步阐述本发明。

如图1、图2、图3所示，本发明提出的一种基于NoSQL的大规模Web日志分析系统，该系统包括有三部分：分布式存储单元、分布式计算单元、用户界面客户端；

所述的日志处理模块对经过日志收集模块后的日志数据进行分析，由于其格式各不相同，并且可能包含一些无效的数据，需要对数据进行统一的清洗，日志收集模块包含有三个步骤数据清洗，用户识别，会话识别；这些日志数据处理技术在日志进行存储和分析之前使用，可以大大提高了日志分析的质量，降低实际分析所需要的时间。

日志的规模日益庞大，处理数据后还得解决日志的集中存储问题，本系统的方案是应用分布但日志集中式的远程存储。MongoDB采用面向文档的数据存储模型，使得数据可以在多个节点之间进行分割。MongoDB数据库还可以对集群中的数据的负载进行均衡，自动排序文档时间。MongoDB采用分片的技术进行数据的扩展，分片技术可以通过增加节点的数量来应对不断膨胀的数据的负载和规模，同时不会对应用造成影响。

Web日志分析是本系统的核心，采用了Hadoop这一流行的开源框架来完成我们系统的日志分析模块的功能。Hadoop通过将本文存储的Web日志数据任务分布到多个节点上，从而并行的对日志进行处理。Web日志分析任务可以扩展到数十、上百甚至上千个节点上，从而提高效率。Hadoop对Web日志数据进行分析，可以适用于不同的场景，通过对配置文件进行修改过，提供多种日志分析选择。分析Web日志数据时，当有2个节点时，其中的一个节点作为NameNode/TaskTracker使用，另一个节点作为又作为DataNode/TaskTracker来使用。当有更多的节点时，可以将NameNode和DataNode的数量比较进行调整。

参见图4，日志收集模块是收集日志信息的过程，日志文件本身是一个非结构化的文本文件，但是里面又包含了可以结构化出来的信息，因此对于日志文件是最适合采用MongoDB数据库进行存储，首先是对日志文件进行实施的解析和入库，对于任何的日志文件，基本都可以收集日志发生的时间，日志类型(info,error)，日志等级，关键异常，异常详细说明等相关信息，这些信息在结构化出来后需要持久化的存储起来，采用MongoDB数据库可以实现本身在数据存储层的灵活水平扩展，为了对日志进行收集，需要安装下面一些组件：Fluentd with MongoDB Plugin、MongoDB、Apache with theCombined Log Format，通过使用命令gem install fluent-plugin-mongo来进行安装。

参见图5，日志收集模块中数据清洗时首先结合网站的拓扑结构，通过检查URL的后缀名，删除认为不相关的文件，通过分析页面HTML的源文件中的window.open来寻找对应的弹出页面的URL，从而删除该页面，当服务器对用户发出的请求相应失败时，Web日志同样会记录这种情况，但这对Web日志挖掘没有意义，所以在进行数据清理的时候，通过日志中的状态码删除服务器对请求响应失败的的记录；

本系统通过Hadoop分布式架构的MapReduce编程模式对收集的原始日志数据进行处理，主要步骤：

1、读取收集的日志数据；

2、清除无用的数据；

3、检查数据的完整性和正确性；

4、将数据存储在MongoDB中。

用户定义的Map和Reduce函数都有相关联的类型。

参见图6，在日志存储模块包含有storage view：Share view、privateview、journal view日志；

参见图7，当一个写请求发生，首先会更改private view(cache)中的数据，然后默认每100毫秒刷新到journal log。journal log有一个记录当前日志点的pointer。然后应用journal log中的写操作到share view,这时share view就和数据文件不一致。然后默认每隔60秒，mongodb会请求操作系统刷新sharedview中更改的数据到数据文件。然后mongdb会把journal log中记录更改数据日志点的pointer，以前的数据删除掉。为了数据的一致性，MongoDB通常会请求操作系统重新把share view指向private view。

另外，日志分析模块运行的步骤为：

1、数据准备

从MongoDB数据库中导入原始数据到日志分析模块中；

2、Map函数

写一个map函数，保存在文件mapper.rb中；

3、Reduce函数

然后是reduce函数，保存在文件reducer.rb中；

4、日志分析

利用MapReduce方法处理第一步中获取的数据。

在本发明的一个实施例中：

参见图8，系统本次测试使用的Hadoop服务器集群一共有13台物理服务器，每台内存2G，空间160G。其中一台主节点使用的操作系统为Ubuntu，通过在上面实现MapReduce编程模块，其他的几台服务器使用的是WindowsXP系统，部署Hadoop的其他模块。本文选择jdk-l.6.0.14作为Java的运行版本，安装完成后对相应的环境变量。

13台机器的IP配置如下：

JobTracker节点：172.17.10.1

PC1：172.17.10.101

PC2：172.17.10.102

PC3：172.17.10.103

PC4：172.17.10.104

PC5：172.17.10.105

PC6：172.17.10.106

PC7：172.17.10.107

PC8：172.17.10.108

PC9：172.17.10.109

PC10：172.17.10.110

PC11：172.17.10.111

PC12：172.17.10.112

各个节点之间的服务器名以及IP地址需要相互解析。

在这13台PC中，使用独立的一台服务器作为NameNode和Jobtracker．PC1-PC12作为DataNode和Tasktracker。整个平台的搭建配置步骤简述如下：

1．每一台服务器上安装Linux操作系统，同时将命名好的服务器连接到交换机节点上，配置每台服务器相应的/etc/hosts目录，使得各个节点之间可以相互通信。

2．为每台服务器生成一个PCI的密钥对，将公钥放在/home/ssh目录下，使得个台服务器可以通过ssh进行远程登录，这样方便系统的使用和管理。

3．安装相应的jdk文件。

4．配置好Hadoop相应的配置文件。修改Master节点以及Slaves节点。

通过Web日志分析系统，能够将分散在各处的Web日志通过集中化的方式进行收集，存储在Web日志分析系统的后端MongoDB数据库中，并能够以实时的方式进行动态展示。用户可以通过输入检索条件来实时检索符合相关条件的Web日志，并通过图形化的界面展示出来，效果较为直观，能够一览相应Web访问的趋势变化。

通过输入需要查询的目标域名，以及相关源地址、目的地址、请求的URL或访问时间段，用户可以看到Web访问的详细信息。系统提供了复杂的筛选条件供用户进行选择，用户只需要点击所要查询的相关条件，就可以完成日志的精确检索。

如图9和图10所示，Web日志分析系统可以对每天的Web请求数来源、Web请求类型进行统计分析，从中可以迅速定位可疑IP地址，并通过Web日志分析系统的检索功能查找该IP相关的请求内容，进一步确认该IP是否存在恶意访问行为。其次，分析和统计不同域名的请求次数和频率，可以了解各系统的访问状态，以及来自互联网上哪些区域的访问较为频繁，有助于管理员判断热点区域，以增加CDN节点或优化Web访问质量。

点击选择“索引管理”中的“创建单天索引”，可以手动创建当日Web访问日志的索引，提高检索和统计分析的效率。

点击选择“系统状态”中的“日志检查”，可以检查系统中所有日志的状态信息。日志下载，可以选择某个具体时间段，点击“点击下载”下载其中的log文件。

基于上述，本发明的优点为：系统基于NoSQL的大规模Web日志分析系统具有非常好的可扩展性以及通用性。使用该系统可以高效的进行Web日志的处理和分析，通过Hadoop的MapReduce编程模式，对日志进行处理，同时进行本系统与单机处理系统的对比，证明本系统的高效性和可用性，设计新颖，是一项很好的设计方案，很有市场推广前景。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种基于NoSQL的大规模Web日志分析系统，其特征在于，该系统包括有三部分：分布式存储单元、分布式计算单元、用户界面客户端；

2.根据权利要求1所述的一种基于NoSQL的大规模Web日志分析系统，其特征在于，所述的日志收集模块是收集日志信息的过程，日志文件本身是一个非结构化的文本文件，但是里面又包含了可以结构化出来的信息，因此对于日志文件是最适合采用MongoDB数据库进行存储，首先是对日志文件进行实施的解析和入库，对于任何的日志文件，基本都可以收集日志发生的时间，日志类型(info,error)，日志等级，关键异常，异常详细说明等相关信息，这些信息在结构化出来后需要持久化的存储起来，采用MongoDB数据库可以实现本身在数据存储层的灵活水平扩展，为了对日志进行收集，需要安装下面一些组件：Fluentd with MongoDB Plugin、MongoDB、Apache with theCombined Log Format，通过使用命令gem install fluent-plugin-mongo来进行安装。

3.根据权利要求1所述的一种基于NoSQL的大规模Web日志分析系统，其特征在于，日志收集模块中数据清洗时首先结合网站的拓扑结构，通过检查URL的后缀名，删除认为不相关的文件，通过分析页面HTML的源文件中的window.open来寻找对应的弹出页面的URL，从而删除该页面，当服务器对用户发出的请求相应失败时，Web日志同样会记录这种情况，但这对Web日志挖掘没有意义，所以在进行数据清理的时候，通过日志中的状态码删除服务器对请求响应失败的的记录；

4.根据权利要求1所述的一种基于NoSQL的大规模Web日志分析系统，其特征在于，所述的日志存储模块包含有storage view：Share view、privateview、journal view日志；

5.根据权利要求1所述的一种基于NoSQL的大规模Web日志分析系统，其特征在于，所述的日志分析模块运行的步骤为：

1、数据准备

从MongoDB数据库中导入原始数据到日志分析模块中；

2、Map函数

写一个map函数，保存在文件mapper.rb中；

3、Reduce函数

然后是reduce函数，保存在文件reducer.rb中；

4、日志分析

利用MapReduce方法处理第一步中获取的数据。