CN113434376B

CN113434376B - 一种基于NoSQL的Web日志分析方法、装置

Info

Publication number: CN113434376B
Application number: CN202110704654.2A
Authority: CN
Inventors: 戴鸿君
Original assignee: Shandong Inspur Scientific Research Institute Co Ltd
Current assignee: Shandong Inspur Scientific Research Institute Co Ltd
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2023-04-11
Anticipated expiration: 2041-06-24
Also published as: CN113434376A

Abstract

本申请公开了一种基于NoSQL的Web日志分析方法、装置，该方法包括：采集原始日志，监测所述原始日志中的实时性信息；根据所述实时性信息确定采用分布式计算框架Hadoop对所述原始日志进行预处理后存储到分布式数据库MongoDB中，或者采用远程字典服务Redis数据库对所述原始日志进行预分析存储；采用MapReduce模型对所述MongoDB和/或所述Redis数据库中存储的日志进行分析；对经过所述MapReduce模型分析后的日志进行整理统计后发送至客户端。

Description

一种基于NoSQL的Web日志分析方法、装置

技术领域

本申请涉及数据分析领域，尤其涉及一种基于NoSQL的Web日志分析方法、装置。

背景技术

在网上产生的大量的Web日志数据都自动保存在网站的服务器上。通过对这些庞大的日志信息进行数据分析可以帮助研究者获得价值。

随着日志数量的不断增加，以及对从日志中分析出数据的价值要求越来越高，这也导致数据分析复杂度的不断升高，离线分析模式完全不能满足现在日志分析的需求。

显然大规模的数据计算处理平台更加适合对日志进行分析，如何处理更大规模的日志信息和如何对日志信息更好的做数据分析，便成为当前需要解决的最大问题。

发明内容

本申请提供了一种基于NoSQL的Web日志分析方法、装置，解决了如何针对不同类型的日志进行高效分析的问题。

一种基于NoSQL的Web日志分析方法，包括：

采集原始日志，监测所述原始日志中的实时性信息；

根据所述实时性信息确定采用分布式计算框架Hadoop对所述原始日志进行预处理后存储到分布式数据库MongoDB中，或者采用远程字典服务Redis数据库对所述原始日志进行预分析存储；

采用MapReduce模型对所述MongoDB和/或所述Redis数据库中存储的日志进行分析；

对经过所述MapReduce模型分析后的日志进行整理统计后发送至客户端。

在本申请的一种实施例中，采集原始日志，监测所述原始日志中的实时性信息，具体包括：采集服务器中产生的原始日志；对所述原始日志中包含的时间信息进行检测，验证所述时间信息是否与预设的时间阈值相匹配；根据匹配结果判断所述原始日志是否满足实时性要求，生成实时性信息。

在本申请的一种实施例中，根据所述实时性信息确定采用分布式计算框架Hadoop对所述原始日志进行预处理后存储到分布式数据库MongoDB中，或者采用远程字典服务Redis数据库对所述原始日志进行预分析存储，具体包括：若所述时间信息超过所述时间阈值，则采用Redis对所述原始日志进行分析；若所述时间信息未超过所述时间阈值，则采用Hadoop对所述原始日志进行预处理。

在本申请的一种实施例中，使用分布式计算框架Hadoop对所述原始日志进行预处理，具体包括：读取原始日志的记录到Hadoop的HDFS文件系统中；清除冗余的原始日志记录；检查原始日志记录是否完整、正确；通过HDFS中的名称节点和数据节点对所述原始日志进行分块操作。

在本申请的一种实施例中，使用Redis数据库对所述原始日志进行分析存储，具体包括：读取并分析Web服务器中的原始日志，将所述原始日志写入Redis数据库的内存中；将Redis内存中的原始日志数据写入磁盘。

在本申请的一种实施例中，使用MapReduce对MongoDB中存储的日志进行分析统计，具体包括：在MapReduce的Map阶段，对所述原始日志中的信息进行筛选，并转化为键值对形式；在MapReduce的Reduce阶段，对所述键值对形式的信息进行处理，识别得到用户的访问路径；根据所述访问路径进行路径识别。

在本申请的一种实施例中，使用MapReduce对Redis中的日志进行分析统计，具体包括：创建Redisson配置；定义Mapper对象和Reducer对象；对Redis中的日志进行分析统计。

在本申请的一种实施例中，根据所述实时性信息确定采用分布式计算框架Hadoop对所述原始日志进行预处理后存储到分布式数据库MongoDB中，具体包括：从原始日志集合中选择一个键，根据该键的值作数据拆分；通过MongoDB对所述进行自动分片。

在本申请的一种实施例中，所述方法还包括：根据MongoDB中的一个键或多个键的组合进行日志的统计分析。

一种基于NoSQL的Web日志分析装置，包括：

采集监测模块，用于采集原始日志，监测所述原始日志中的实时性信息；

分类模块，用于根据所述实时性信息确定使用分布式计算框架Hadoop对所述原始日志进行预处理或是使用Redis数据库对所述原始日志进行分析存储；

存储模块，用于将使用Hadoop预处理后的日志存储到MongoDB中；

分析模块，用于使用MapReduce对MongoDB和Redis中的日志进行分析统计，并将分析完成的结果传送到客户端。

本申请提供了一种基于NoSQL的Web日志分析方法、装置，至少包括以下有益效果：通过对日志实时性的判断，自动选择更高效地日志分析方式，当采集的日志实时性高时，通过Redis对日志进行保存后分析，当采集的日志实时性低时，通过Hadoop对日志进行预处理后分析，对不同类型日志进行分类处理分析，保证了日志分析的高效的处理性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种基于NoSQL的Web日志分析方法的步骤示意图；

图2为本申请实施例提供的客户端将数据写入HDFS中的流程示意图；

图3为本申请实施例提供的一种基于NoSQL的Web日志分析装置结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例对本申请进行清楚、完整的描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在现有技术中，网上的各种操作产生的大量的Web日志数据都自动保存在网站的服务器上。庞大的日志信息是一笔非常珍贵的财富，如何处理这些数据并从中获取价值是研究者最关心的方面。通过对用户访问模式进行分析，可以优化网站的结构设计，进而为用户提供针对性更强的服务。在互联网或者大型的应用系统中，Web日志的产生和记录都很重要。

日志分析就是对日志信息进行挖掘从而推进下一步决策的基础。例如，在一些购物类的网站，根据用户浏览网页的信息，可以分析出用户的兴趣特征，然后进行相应物品的推荐；又例如，在应用系统中，通过挖掘用户对系统部件的使用情况，可以发现在该系统中哪些是热点部件，从而采取一定的措施来调整经营策略；再例如，在一个医疗卫生系统记录中，根据医生对不同病情所开出的处方，可以挖掘出相应病情和某种药品的关系，从而创建一个专家医师根据病情的推荐系统等。由于互联网行业的发展和应用系统规模的扩增，存储相关信息的日志数量级也在快速增长。一直使用的单机离线版分析模式完全不能满足现在日志分析的需求，因此，大规模的数据计算处理平台就成了日志分析更加合适的地方。而MapReduce编程模型因为方便易用、专门用来处理大规模的数据，便成为日志分析的一个很好的工具。

本申请的方案利用NoSQL数据库和MapReduce分析模型对Web日志进行高效分析，下面进行具体说明。

图1为本申请实施例提供的一种基于NoSQL的Web日志分析方法的步骤示意图，可以包括以下步骤：

S101：采集原始日志，监测原始日志中的实时性信息。

对于实时性要求较高的日志操作，例如监控日志中需要立刻进行排错的提示信息，或者实时对比文件修改的结果并从中提取数据使用的日志。这些类别的日志，数据访问频率较高且对访问速度也有较高要求，如果存在磁盘上会限制整体的读写速度。因而采用Redis内存数据库，将数据放在内存中，最大限度地满足实时性所带来的访问速度要求。本申请中通过监控并采集客户端的Web日志数据，分析日志数据的实时性，若日志数据的实时性较强则写入Redis数据库中，若实时性数据较弱则写入HDFS中。

在本申请的一种实施例中，采集原始日志，监测原始日志中的实时性信息，具体包括：采集服务器中产生的原始日志；对原始日志中包含的时间信息进行检测，验证时间信息是否与预设的时间阈值相匹配；根据匹配结果判断原始日志是否满足实时性要求，生成实时性信息。

从客户端的网页采集Web原始日志数据信息，原始日志中包含时间戳等时间信息，通过软件对原始日志的时间信息进行监测，验证该时间信息是否超出预设的时间阈值。例如监测系统中的时间阈值设置为5分钟，当监测原始日志中等待时间低于5分钟时，判断为实时性高的数据。当存在支付异常的日志数据时，需要尽快对该数据进行处理使之恢复，例如该条日志中包含的时间信息显示等待时间不超过1分钟，这时支付异常产生的原始日志的实时性就比较高，需要将日志信息存放在内存数据库中，以满足访问速度的要求。

S102：根据实时性信息确定采用分布式计算框架Hadoop对原始日志进行预处理后存储到分布式数据库MongoDB中，或者采用远程字典服务Redis数据库对原始日志进行预分析存储。

在本申请的一种实施例中，根据实时性信息确定采用分布式计算框架Hadoop对原始日志进行预处理后存储到分布式数据库MongoDB中，或者采用远程字典服务Redis数据库对原始日志进行预分析存储，具体包括：若时间信息超过时间阈值，比如原始日志中包含的等待时间1分钟低于设定的时间阈值5分钟，那么说明原始日志的实时性要求高，则采用Redis对原始日志进行分析；若时间信息未超过时间阈值，比如原始日志中包含的等待时间20分钟低于设定的时间阈值5分钟或没有等待时间，那么说明原始日志的实时性要求低，则采用Hadoop对原始日志进行预处理。

在本申请的一种实施例中，使用分布式计算框架Hadoop对原始日志进行预处理，具体包括：读取原始日志的记录到Hadoop的HDFS文件系统中；清除冗余的原始日志记录，比如文件名后缀为*.swf的文件；检查原始日志记录是否完整、正确，例如检查日志中的IP地址、时间戳等重要信息是否丢失、信息是否正确；通过HDFS中的名称节点和数据节点对原始日志进行分块操作，将原始日志信息存储到名称节点中。

如图2所示，客户端发起原始日志的数据写入请求，对名称节点进行元数据操作，名称节点中的数据成为元数据；在名称节点中首先检查该文件是否在HDFS中存在，如果存在则报错，如果不存在，则回复客户端允许将原始日志的数据分成块写入到数据节点中，通过名称节点下发指令对数据节点进行块操作，并在数据节点之间建立数据传输连接，建立成功后，客户端开始向HDFS中上传数据，建立连接的数据节点之间可以进行数据备份。

在本申请的一种实施例中，使用Redis数据库对原始日志进行分析存储，具体包括：读取并分析Web服务器中的原始日志，将原始日志写入Redis数据库的内存中；将Redis内存中的原始日志数据写入磁盘。在选择时，Redis数据全部存在内存，定期写入磁盘，当内存不够时，可以选择指定的最近最少使用(Least Recently Used，LRU)算法删除部分数据。

和MongoDB相比，Redis具有复杂类型的数据结构，比如有序集合(zset)用于排序、目录(list)用于队列，另外全内存访问能够保证高速的访问。即使访问cache命中率很低，带来的性能差异也会比较大，redis的延迟要低很多，且MongoDB不支持事务而Redis支持弱事务，能保证事务中的每个操作连续执行。而MongoDB的所有数据实际上是存放在硬盘的，所有要操作的数据通过内存映射文件(mmap)的方式映射到内存某个区域内。所以对于实时性的日志数据来说，选择存储在Redis数据库比存储在MongoDB中的访问处理速度要快。

S103：采用MapReduce模型对MongoDB和/或Redis数据库中存储的日志进行分析。

在本申请的一种实施例中，使用MapReduce对MongoDB中存储的日志进行分析统计，具体包括：在MapReduce的Map阶段，对原始日志中的信息进行筛选，并转化为键值对形式；在MapReduce的Reduce阶段，对键值对形式的信息进行处理，识别得到用户的访问路径；根据访问路径进行路径识别。

MapReduce计算框架能够简单方便地对日志信息进行处理。在MapReduce的Map阶段对日志记录的所有行分别进行处理，把需要的信息筛选出来。将原始日志的一行信息转化成<key，value>键值对形式。

Reduce阶段：工作跟踪者JobTracker将用户ID(userid)对应的访问的网址和时间集合进行整理后，传递给Reduce进行处理。这样根据访问的网址和时间就可以得到一个用户的访问路径列表，就可以进行路径识别。

在本申请的一种实施例中，根据实时性信息确定采用分布式计算框架Hadoop对原始日志进行预处理后存储到分布式数据库MongoDB中，具体包括：从原始日志集合中选择一个键，根据该键的值作数据拆分；通过MongoDB对进行自动分片。

为了防止出现本地磁盘不足等情况，MongoDB支持自动分片，可以摆脱手动分片的管理困扰。通过集群自动切分数据，做负载均衡。

在本申请的一种实施例中，根据MongoDB中的一个键或多个键的组合进行日志的统计分析。设置分片时，运行系统主要从日志集合里选择一个或多个在MapReduce阶段产生的键，用该键的值作为数据拆分的依据。

在本申请的一种实施例中，使用MapReduce对Redis中的日志进行分析统计，具体包括：创建Redisson配置，从各个配置中心读取配置；创建一个Redisson实例；定义Mapper对象用于每个Map条目；定义Reducer对象合并数据；最后执行实例，对Redis中的日志进行分析统计。

S104：对经过MapReduce模型分析后的日志进行整理统计后发送至客户端。

存储在MongoDB中的每一个文档都会有一个或者多个键(key)，日志相关的统计结果会根据其中的一个或多个键的组合来进行统计分析，根据统计分析的结果使数据可视化，并将可视化的数据发送至客户端。

以上提供的一种基于NoSQL的Web日志分析方法，至少包括以下有益效果：通过对日志实时性的判断，自动选择更高效地日志分析方式，当采集的日志实时性高时，通过Redis对日志进行保存后分析，当采集的日志实时性低时，通过Hadoop对日志进行预处理后分析，对不同类型日志进行分类处理分析，保证了日志分析的高效的处理性。

以上为本申请实施例提供的一种基于NoSQL的Web日志分析方法，基于同样的发明思路，本申请实施例还提供了相应的一种基于NoSQL的Web日志分析装置，如图3所示。

采集监测模块201，用于采集原始日志，监测原始日志中的实时性信息；

分类模块202，用于根据实时性信息确定使用分布式计算框架Hadoop对原始日志进行预处理或是使用Redis数据库对原始日志进行分析存储；

存储模块203，用于将使用Hadoop预处理后的日志存储到MongoDB中；

分析模块204，用于使用MapReduce对MongoDB和Redis中的日志进行分析统计，并将分析完成的结果传送到客户端。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于NoSQL的Web日志分析方法，其特征在于，包括：

采集原始日志，监测所述原始日志中的实时性信息；

对经过所述MapReduce模型分析后的日志进行整理统计后发送至客户端；

采集原始日志，监测所述原始日志中的实时性信息，具体包括：

采集服务器中产生的原始日志；

对所述原始日志中包含的时间信息进行检测，验证所述时间信息是否与预设的时间阈值相匹配；

根据匹配结果判断所述原始日志是否满足实时性要求，生成实时性信息；

根据所述实时性信息确定采用分布式计算框架Hadoop对所述原始日志进行预处理后存储到分布式数据库MongoDB中，或者采用远程字典服务Redis数据库对所述原始日志进行预分析存储，具体包括：

若所述时间信息超过所述时间阈值，则采用Redis对所述原始日志进行分析；

若所述时间信息未超过所述时间阈值，则采用Hadoop对所述原始日志进行预处理；

使用MapReduce对MongoDB中存储的日志进行分析统计，具体包括：

在MapReduce的Map阶段，对所述原始日志中的信息进行筛选，并转化为键值对形式；

在MapReduce的Reduce阶段，对所述键值对形式的信息进行处理，识别得到用户的访问路径；

根据所述访问路径进行路径识别；

根据所述实时性信息确定采用分布式计算框架Hadoop对所述原始日志进行预处理后存储到分布式数据库MongoDB中，具体包括：

从原始日志集合中选择一个键，根据该键的值作数据拆分；

通过MongoDB对所述原始日志进行自动分片；

根据MongoDB中的一个键或多个键的组合进行日志的统计分析。

2.根据权利要求1所述的方法，其特征在于，使用分布式计算框架Hadoop对所述原始日志进行预处理，具体包括：

读取原始日志的记录到Hadoop的HDFS文件系统中；

清除冗余的原始日志记录；

检查原始日志记录是否完整、正确；

通过HDFS中的名称节点和数据节点对所述原始日志进行分块操作。

3.根据权利要求1所述的方法，其特征在于，使用Redis数据库对所述原始日志进行分析存储，具体包括：

读取并分析Web服务器中的原始日志，将所述原始日志写入Redis数据库的内存中；

将Redis内存中的原始日志数据写入磁盘。

4.根据权利要求1所述的方法，其特征在于，使用MapReduce对Redis中的日志进行分析统计，具体包括：

创建Redisson配置；

定义Mapper对象和Reducer对象；

对Redis中的日志进行分析统计。

5.一种基于NoSQL的Web日志分析装置，其特征在于，包括：

采集监测模块，用于采集原始日志，监测所述原始日志中的实时性信息；采集服务器中产生的原始日志；对所述原始日志中包含的时间信息进行检测，验证所述时间信息是否与预设的时间阈值相匹配；根据匹配结果判断所述原始日志是否满足实时性要求，生成实时性信息；

分类模块，用于根据所述实时性信息确定使用分布式计算框架Hadoop对所述原始日志进行预处理或是使用Redis数据库对所述原始日志进行分析存储；若所述时间信息超过所述时间阈值，则采用Redis对所述原始日志进行分析；若所述时间信息未超过所述时间阈值，则采用Hadoop对所述原始日志进行预处理；

存储模块，用于将使用Hadoop预处理后的日志存储到MongoDB中；通过MongoDB对所述原始日志进行自动分片；根据MongoDB中的一个键或多个键的组合进行日志的统计分析；

分析模块，用于使用MapReduce对MongoDB和Redis中的日志进行分析统计，并将分析完成的结果传送到客户端；在MapReduce的Map阶段，对所述原始日志中的信息进行筛选，并转化为键值对形式；在MapReduce的Reduce阶段，对所述键值对形式的信息进行处理，识别得到用户的访问路径；根据所述访问路径进行路径识别。