CN104714946A - 一种基于NoSQL的大规模Web日志分析系统 - Google Patents

一种基于NoSQL的大规模Web日志分析系统 Download PDF

Info

Publication number
CN104714946A
CN104714946A CN201310673602.9A CN201310673602A CN104714946A CN 104714946 A CN104714946 A CN 104714946A CN 201310673602 A CN201310673602 A CN 201310673602A CN 104714946 A CN104714946 A CN 104714946A
Authority
CN
China
Prior art keywords
data
log
file
web
daily record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310673602.9A
Other languages
English (en)
Inventor
田鹏
谢蓉
田骊
马静
毛瑞雪
潘孝楠
孙宇
田凤祥
应奕彬
陈灿华
丁素芬
周子豪
陈志强
钟霖甘
晏丹
谢嘉宾
瞿庆海
徐璡晶
赵依然
陈波
王冰洁
张天骏
袁元
赵敏
金霁阳
喻亚慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201310673602.9A priority Critical patent/CN104714946A/zh
Publication of CN104714946A publication Critical patent/CN104714946A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于NoSQL的大规模Web日志分析系统,该系统包括有三部分:分布式存储单元、分布式计算单元、用户界面客户端;分布式存储单元包含有日志收集模块、日志存储模块,日志存储模块中的数据库采用NoSQL数据库MongoDB;分布式计算单元包含有日志处理模块、日志分析模块,日志分析模块采用Hadoop分布式计算架构;用户界面客户端内部包含有可以对Web日志进行操作的日志查找单元、索引管理单元、用户管理单元、系统状态单元;基于NoSQL的大规模Web日志分析系统具有非常好的可扩展性以及通用性。通过Hadoop的MapReduce编程模式,证明本系统的高效性和可用性。

Description

一种基于NoSQL的大规模Web日志分析系统
技术领域
本发明涉及一种非关系型的数据库,尤其涉及一种基于NoSQL的大规模Web日志分析系统。
背景技术
目前,由于互联网的高速发展,越来越多的Web应用被用户所使用,使得Web日志的数量也快速增长。随着Web应用访问量的增大,传统的数据存储方式已不能满足当前的需求,因而促使了大规模Web日志分析的产生,但是,大多的Web日志分析系统不能够方便进行存储、调取,而且加大了开发人员的工作效率。
综上所述,针对现有技术存在的缺陷,本发明提出一种基于NoSQL的大规模Web日志分析系统,以解决现有技术的不足。
发明内容
本发明的目的是提供基于NoSQL的大规模Web日志分析系统,可以高效的对各种格式的日志进行处理,不仅减少了开发人员的工作量同时提高使用人员的工作效率。
本发明为解决其技术问题所采用的技术方案是,
一种基于NoSQL的大规模Web日志分析系统,该系统包括有三部分:分布式存储单元、分布式计算单元、用户界面客户端;
分布式存储单元包含有日志收集模块、日志存储模块,日志存储模块中的数据库采用NoSQL数据库MongoDB;
分布式计算单元包含有日志处理模块、日志分析模块,日志分析模块采用Hadoop分布式计算架构;
用户界面客户端内部包含有可以对Web日志进行操作的日志查找单元、索引管理单元、用户管理单元、系统状态单元;
所述的日志收集模块为日志分析模块的基础,系统启动时的第一个任务就是要从Web应用站点获取日志信息,日志收集模块负责从Web应用站点接受agent发送的日志文件,并且重新定向为本地存储的文件,将文件存储在日志存储模块中;
所述的日志处理模块对经过日志收集模块后的日志数据进行分析,由于其格式各不相同,并且可能包含一些无效的数据,需要对数据进行统一的清洗,日志收集模块包含有三个步骤数据清洗,用户识别,会话识别;
所述的日志存储模块以单文档为单位存储的,可以任意给一个或一批文档新增或删除字段,而不会对其它文档造成影响;
所述的日志分析模块包括四分步骤:数据准备、Map函数、Reduce函数、日志分析。
进一步,所述的日志收集模块是收集日志信息的过程,日志文件本身是一个非结构化的文本文件,但是里面又包含了可以结构化出来的信息,因此对于日志文件是最适合采用MongoDB数据库进行存储,首先是对日志文件进行实施的解析和入库,对于任何的日志文件,基本都可以收集日志发生的时间,日志类型(info,error),日志等级,关键异常,异常详细说明等相关信息,这些信息在结构化出来后需要持久化的存储起来,采用MongoDB数据库可以实现本身在数据存储层的灵活水平扩展,为了对日志进行收集,需要安装下面一些组件:Fluentd with MongoDB Plugin、MongoDB、Apache with theCombined Log Format,通过使用命令gem install fluent-plugin-mongo来进行安装。
进一步,日志收集模块中数据清洗时首先结合网站的拓扑结构,通过检查URL的后缀名,删除认为不相关的文件,通过分析页面HTML的源文件中的window.open来寻找对应的弹出页面的URL,从而删除该页面,当服务器对用户发出的请求相应失败时,Web日志同样会记录这种情况,但这对Web日志挖掘没有意义,所以在进行数据清理的时候,通过日志中的状态码删除服务器对请求响应失败的的记录;
用户识别是用来关联用户请求和服务器响应的过程,当用户访问某个Web页面时,需要对其产生一个标识符,当下次该用户来访问时,可以对其进行识别,通常用户标识符采用用户的访问IP;
会话识别是指一个客户端浏览器与WEB服务器之间连续发生的一系列请求和相应过程,WEB服务器能够把属于同一个会话中的一系列的请求和响应过程关联起来;
日志收集模块主要对日志收集模块的数据进行数据清理,数据集成,数据变换,数据归约。
进一步,所述的日志存储模块包含有storage view:Share view、privateview、journal view日志;
Share view:位于内存上,会存储已经改变的要刷新到磁盘上的数据(脏数据),Share view是唯一一个直接连映射到数据库文件上的view,当启用MongoDB的日志功能时,MongoDB会请求操作系统把磁盘上的数据文件指向share view内存视图上,操作系统不会数据文件加载到share view中,MongoDB在需要时自己把数据文件加载到share view上;
Private view:位于内存上,存储用于读请求的数据,更改请求最先在这执行,MongDB把Private view指向share view;
Journal view:存储已经在private cache上发生更改的数据,但是会在更改数据刷新到share view(cache)之前存储,Journal view确保了数据的持久化,如果更改的数据没有刷新到磁盘上的数据文件里,当MongoDB起来以后,MongoDB会把journallog中没应用到数据文件中的数据回放到share view(cache)中,最终会应用到数据文件中。
进一步,所述的日志分析模块运行的步骤为:
1、数据准备
从MongoDB数据库中导入原始数据到日志分析模块中;
2、Map函数
写一个map函数,保存在文件mapper.rb中;
3、Reduce函数
然后是reduce函数,保存在文件reducer.rb中;
4、日志分析
利用MapReduce方法处理第一步中获取的数据。
本发明的优点在于,该系统基于NoSQL的大规模Web日志分析系统具有非常好的可扩展性以及通用性。使用该系统可以高效的进行Web日志的处理和分析,通过Hadoop的MapReduce编程模式,对日志进行处理,同时进行本系统与单机处理系统的对比,证明本系统的高效性和可用性,设计新颖,是一项很好的设计方案,很有市场推广前景。
附图说明
下面结合附图和具体实施方式来详细说明本发明:
图1是本发明的系统模块图;
图2是本发明的架构示意图;
图3是本发明系统用例图;
图4是本发明日志收集模块示意图;
图5是本发明日志处理模块示意图;
图6是本发明日志存储模块示意图;
图7是本发明MongoDB存储视图;
图8是本发明系统网络拓扑图;
图9是本发明Web请求数来源分析图;
图10是本发明Web请求类型统计图;
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合图示与具体实施例,进一步阐述本发明。
如图1、图2、图3所示,本发明提出的一种基于NoSQL的大规模Web日志分析系统,该系统包括有三部分:分布式存储单元、分布式计算单元、用户界面客户端;
分布式存储单元包含有日志收集模块、日志存储模块,日志存储模块中的数据库采用NoSQL数据库MongoDB;
分布式计算单元包含有日志处理模块、日志分析模块,日志分析模块采用Hadoop分布式计算架构;
用户界面客户端内部包含有可以对Web日志进行操作的日志查找单元、索引管理单元、用户管理单元、系统状态单元;
所述的日志收集模块为日志分析模块的基础,系统启动时的第一个任务就是要从Web应用站点获取日志信息,日志收集模块负责从Web应用站点接受agent发送的日志文件,并且重新定向为本地存储的文件,将文件存储在日志存储模块中;
所述的日志处理模块对经过日志收集模块后的日志数据进行分析,由于其格式各不相同,并且可能包含一些无效的数据,需要对数据进行统一的清洗,日志收集模块包含有三个步骤数据清洗,用户识别,会话识别;这些日志数据处理技术在日志进行存储和分析之前使用,可以大大提高了日志分析的质量,降低实际分析所需要的时间。
所述的日志存储模块以单文档为单位存储的,可以任意给一个或一批文档新增或删除字段,而不会对其它文档造成影响;
所述的日志分析模块包括四分步骤:数据准备、Map函数、Reduce函数、日志分析。
日志的规模日益庞大,处理数据后还得解决日志的集中存储问题,本系统的方案是应用分布但日志集中式的远程存储。MongoDB采用面向文档的数据存储模型,使得数据可以在多个节点之间进行分割。MongoDB数据库还可以对集群中的数据的负载进行均衡,自动排序文档时间。MongoDB采用分片的技术进行数据的扩展,分片技术可以通过增加节点的数量来应对不断膨胀的数据的负载和规模,同时不会对应用造成影响。
Web日志分析是本系统的核心,采用了Hadoop这一流行的开源框架来完成我们系统的日志分析模块的功能。Hadoop通过将本文存储的Web日志数据任务分布到多个节点上,从而并行的对日志进行处理。Web日志分析任务可以扩展到数十、上百甚至上千个节点上,从而提高效率。Hadoop对Web日志数据进行分析,可以适用于不同的场景,通过对配置文件进行修改过,提供多种日志分析选择。分析Web日志数据时,当有2个节点时,其中的一个节点作为NameNode/TaskTracker使用,另一个节点作为又作为DataNode/TaskTracker来使用。当有更多的节点时,可以将NameNode和DataNode的数量比较进行调整。
参见图4,日志收集模块是收集日志信息的过程,日志文件本身是一个非结构化的文本文件,但是里面又包含了可以结构化出来的信息,因此对于日志文件是最适合采用MongoDB数据库进行存储,首先是对日志文件进行实施的解析和入库,对于任何的日志文件,基本都可以收集日志发生的时间,日志类型(info,error),日志等级,关键异常,异常详细说明等相关信息,这些信息在结构化出来后需要持久化的存储起来,采用MongoDB数据库可以实现本身在数据存储层的灵活水平扩展,为了对日志进行收集,需要安装下面一些组件:Fluentd with MongoDB Plugin、MongoDB、Apache with theCombined Log Format,通过使用命令gem install fluent-plugin-mongo来进行安装。
参见图5,日志收集模块中数据清洗时首先结合网站的拓扑结构,通过检查URL的后缀名,删除认为不相关的文件,通过分析页面HTML的源文件中的window.open来寻找对应的弹出页面的URL,从而删除该页面,当服务器对用户发出的请求相应失败时,Web日志同样会记录这种情况,但这对Web日志挖掘没有意义,所以在进行数据清理的时候,通过日志中的状态码删除服务器对请求响应失败的的记录;
用户识别是用来关联用户请求和服务器响应的过程,当用户访问某个Web页面时,需要对其产生一个标识符,当下次该用户来访问时,可以对其进行识别,通常用户标识符采用用户的访问IP;
会话识别是指一个客户端浏览器与WEB服务器之间连续发生的一系列请求和相应过程,WEB服务器能够把属于同一个会话中的一系列的请求和响应过程关联起来;
日志收集模块主要对日志收集模块的数据进行数据清理,数据集成,数据变换,数据归约。
本系统通过Hadoop分布式架构的MapReduce编程模式对收集的原始日志数据进行处理,主要步骤:
1、读取收集的日志数据;
2、清除无用的数据;
3、检查数据的完整性和正确性;
4、将数据存储在MongoDB中。
用户定义的Map和Reduce函数都有相关联的类型。
参见图6,在日志存储模块包含有storage view:Share view、privateview、journal view日志;
Share view:位于内存上,会存储已经改变的要刷新到磁盘上的数据(脏数据),Share view是唯一一个直接连映射到数据库文件上的view,当启用MongoDB的日志功能时,MongoDB会请求操作系统把磁盘上的数据文件指向share view内存视图上,操作系统不会数据文件加载到share view中,MongoDB在需要时自己把数据文件加载到share view上;
Private view:位于内存上,存储用于读请求的数据,更改请求最先在这执行,MongDB把Private view指向share view;
Journal view:存储已经在private cache上发生更改的数据,但是会在更改数据刷新到share view(cache)之前存储,Journal view确保了数据的持久化,如果更改的数据没有刷新到磁盘上的数据文件里,当MongoDB起来以后,MongoDB会把journallog中没应用到数据文件中的数据回放到share view(cache)中,最终会应用到数据文件中。
参见图7,当一个写请求发生,首先会更改private view(cache)中的数据,然后默认每100毫秒刷新到journal log。journal log有一个记录当前日志点的pointer。然后应用journal log中的写操作到share view,这时share view就和数据文件不一致。然后默认每隔60秒,mongodb会请求操作系统刷新sharedview中更改的数据到数据文件。然后mongdb会把journal log中记录更改数据日志点的pointer,以前的数据删除掉。为了数据的一致性,MongoDB通常会请求操作系统重新把share view指向private view。
另外,日志分析模块运行的步骤为:
1、数据准备
从MongoDB数据库中导入原始数据到日志分析模块中;
2、Map函数
写一个map函数,保存在文件mapper.rb中;
3、Reduce函数
然后是reduce函数,保存在文件reducer.rb中;
4、日志分析
利用MapReduce方法处理第一步中获取的数据。
在本发明的一个实施例中:
参见图8,系统本次测试使用的Hadoop服务器集群一共有13台物理服务器,每台内存2G,空间160G。其中一台主节点使用的操作系统为Ubuntu,通过在上面实现MapReduce编程模块,其他的几台服务器使用的是WindowsXP系统,部署Hadoop的其他模块。本文选择jdk-l.6.0.14作为Java的运行版本,安装完成后对相应的环境变量。
13台机器的IP配置如下:
JobTracker节点:172.17.10.1
PC1:172.17.10.101
PC2:172.17.10.102
PC3:172.17.10.103
PC4:172.17.10.104
PC5:172.17.10.105
PC6:172.17.10.106
PC7:172.17.10.107
PC8:172.17.10.108
PC9:172.17.10.109
PC10:172.17.10.110
PC11:172.17.10.111
PC12:172.17.10.112
各个节点之间的服务器名以及IP地址需要相互解析。
在这13台PC中,使用独立的一台服务器作为NameNode和Jobtracker.PC1-PC12作为DataNode和Tasktracker。整个平台的搭建配置步骤简述如下:
1.每一台服务器上安装Linux操作系统,同时将命名好的服务器连接到交换机节点上,配置每台服务器相应的/etc/hosts目录,使得各个节点之间可以相互通信。
2.为每台服务器生成一个PCI的密钥对,将公钥放在/home/ssh目录下,使得个台服务器可以通过ssh进行远程登录,这样方便系统的使用和管理。
3.安装相应的jdk文件。
4.配置好Hadoop相应的配置文件。修改Master节点以及Slaves节点。
通过Web日志分析系统,能够将分散在各处的Web日志通过集中化的方式进行收集,存储在Web日志分析系统的后端MongoDB数据库中,并能够以实时的方式进行动态展示。用户可以通过输入检索条件来实时检索符合相关条件的Web日志,并通过图形化的界面展示出来,效果较为直观,能够一览相应Web访问的趋势变化。
通过输入需要查询的目标域名,以及相关源地址、目的地址、请求的URL或访问时间段,用户可以看到Web访问的详细信息。系统提供了复杂的筛选条件供用户进行选择,用户只需要点击所要查询的相关条件,就可以完成日志的精确检索。
如图9和图10所示,Web日志分析系统可以对每天的Web请求数来源、Web请求类型进行统计分析,从中可以迅速定位可疑IP地址,并通过Web日志分析系统的检索功能查找该IP相关的请求内容,进一步确认该IP是否存在恶意访问行为。其次,分析和统计不同域名的请求次数和频率,可以了解各系统的访问状态,以及来自互联网上哪些区域的访问较为频繁,有助于管理员判断热点区域,以增加CDN节点或优化Web访问质量。
点击选择“索引管理”中的“创建单天索引”,可以手动创建当日Web访问日志的索引,提高检索和统计分析的效率。
点击选择“系统状态”中的“日志检查”,可以检查系统中所有日志的状态信息。日志下载,可以选择某个具体时间段,点击“点击下载”下载其中的log文件。
基于上述,本发明的优点为:系统基于NoSQL的大规模Web日志分析系统具有非常好的可扩展性以及通用性。使用该系统可以高效的进行Web日志的处理和分析,通过Hadoop的MapReduce编程模式,对日志进行处理,同时进行本系统与单机处理系统的对比,证明本系统的高效性和可用性,设计新颖,是一项很好的设计方案,很有市场推广前景。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

Claims (5)

1.一种基于NoSQL的大规模Web日志分析系统,其特征在于,该系统包括有三部分:分布式存储单元、分布式计算单元、用户界面客户端;
分布式存储单元包含有日志收集模块、日志存储模块,日志存储模块中的数据库采用NoSQL数据库MongoDB;
分布式计算单元包含有日志处理模块、日志分析模块,日志分析模块采用Hadoop分布式计算架构;
用户界面客户端内部包含有可以对Web日志进行操作的日志查找单元、索引管理单元、用户管理单元、系统状态单元;
所述的日志收集模块为日志分析模块的基础,系统启动时的第一个任务就是要从Web应用站点获取日志信息,日志收集模块负责从Web应用站点接受agent发送的日志文件,并且重新定向为本地存储的文件,将文件存储在日志存储模块中;
所述的日志处理模块对经过日志收集模块后的日志数据进行分析,由于其格式各不相同,并且可能包含一些无效的数据,需要对数据进行统一的清洗,日志收集模块包含有三个步骤数据清洗,用户识别,会话识别;
所述的日志存储模块以单文档为单位存储的,可以任意给一个或一批文档新增或删除字段,而不会对其它文档造成影响;
所述的日志分析模块包括四分步骤:数据准备、Map函数、Reduce函数、日志分析。
2.根据权利要求1所述的一种基于NoSQL的大规模Web日志分析系统,其特征在于,所述的日志收集模块是收集日志信息的过程,日志文件本身是一个非结构化的文本文件,但是里面又包含了可以结构化出来的信息,因此对于日志文件是最适合采用MongoDB数据库进行存储,首先是对日志文件进行实施的解析和入库,对于任何的日志文件,基本都可以收集日志发生的时间,日志类型(info,error),日志等级,关键异常,异常详细说明等相关信息,这些信息在结构化出来后需要持久化的存储起来,采用MongoDB数据库可以实现本身在数据存储层的灵活水平扩展,为了对日志进行收集,需要安装下面一些组件:Fluentd with MongoDB Plugin、MongoDB、Apache with theCombined Log Format,通过使用命令gem install fluent-plugin-mongo来进行安装。
3.根据权利要求1所述的一种基于NoSQL的大规模Web日志分析系统,其特征在于,日志收集模块中数据清洗时首先结合网站的拓扑结构,通过检查URL的后缀名,删除认为不相关的文件,通过分析页面HTML的源文件中的window.open来寻找对应的弹出页面的URL,从而删除该页面,当服务器对用户发出的请求相应失败时,Web日志同样会记录这种情况,但这对Web日志挖掘没有意义,所以在进行数据清理的时候,通过日志中的状态码删除服务器对请求响应失败的的记录;
用户识别是用来关联用户请求和服务器响应的过程,当用户访问某个Web页面时,需要对其产生一个标识符,当下次该用户来访问时,可以对其进行识别,通常用户标识符采用用户的访问IP;
会话识别是指一个客户端浏览器与WEB服务器之间连续发生的一系列请求和相应过程,WEB服务器能够把属于同一个会话中的一系列的请求和响应过程关联起来;
日志收集模块主要对日志收集模块的数据进行数据清理,数据集成,数据变换,数据归约。
4.根据权利要求1所述的一种基于NoSQL的大规模Web日志分析系统,其特征在于,所述的日志存储模块包含有storage view:Share view、privateview、journal view日志;
Share view:位于内存上,会存储已经改变的要刷新到磁盘上的数据(脏数据),Share view是唯一一个直接连映射到数据库文件上的view,当启用MongoDB的日志功能时,MongoDB会请求操作系统把磁盘上的数据文件指向share view内存视图上,操作系统不会数据文件加载到share view中,MongoDB在需要时自己把数据文件加载到share view上;
Private view:位于内存上,存储用于读请求的数据,更改请求最先在这执行,MongDB把Private view指向share view;
Journal view:存储已经在private cache上发生更改的数据,但是会在更改数据刷新到share view(cache)之前存储,Journal view确保了数据的持久化,如果更改的数据没有刷新到磁盘上的数据文件里,当MongoDB起来以后,MongoDB会把journallog中没应用到数据文件中的数据回放到share view(cache)中,最终会应用到数据文件中。
5.根据权利要求1所述的一种基于NoSQL的大规模Web日志分析系统,其特征在于,所述的日志分析模块运行的步骤为:
1、数据准备
从MongoDB数据库中导入原始数据到日志分析模块中;
2、Map函数
写一个map函数,保存在文件mapper.rb中;
3、Reduce函数
然后是reduce函数,保存在文件reducer.rb中;
4、日志分析
利用MapReduce方法处理第一步中获取的数据。
CN201310673602.9A 2013-12-11 2013-12-11 一种基于NoSQL的大规模Web日志分析系统 Pending CN104714946A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310673602.9A CN104714946A (zh) 2013-12-11 2013-12-11 一种基于NoSQL的大规模Web日志分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310673602.9A CN104714946A (zh) 2013-12-11 2013-12-11 一种基于NoSQL的大规模Web日志分析系统

Publications (1)

Publication Number Publication Date
CN104714946A true CN104714946A (zh) 2015-06-17

Family

ID=53414290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310673602.9A Pending CN104714946A (zh) 2013-12-11 2013-12-11 一种基于NoSQL的大规模Web日志分析系统

Country Status (1)

Country Link
CN (1) CN104714946A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138615A (zh) * 2015-08-10 2015-12-09 北京思特奇信息技术股份有限公司 一种构建大数据分布式日志的方法和系统
CN105160011A (zh) * 2015-09-22 2015-12-16 浪潮(北京)电子信息产业有限公司 一种日志管理系统及方法
CN105260452A (zh) * 2015-10-12 2016-01-20 成都视达科信息技术有限公司 离线日志收集查询和分析系统及方法
CN105468737A (zh) * 2015-11-24 2016-04-06 湖北大学 一种网络服务大数据分析方法、云计算平台及挖掘系统
CN105677842A (zh) * 2016-01-05 2016-06-15 北京汇商融通信息技术有限公司 基于Hadoop大数据处理技术的日志分析系统
CN105701237A (zh) * 2016-02-23 2016-06-22 无锡中科富农物联科技有限公司 Web访问日志处理方法
CN105740397A (zh) * 2016-01-28 2016-07-06 广州市讯飞樽鸿信息技术有限公司 一种基于大数据并行运算的语音信箱业务数据分析方法
CN106126692A (zh) * 2016-06-29 2016-11-16 北京奇虎科技有限公司 一种样本数据的搜索方法和装置
CN106599253A (zh) * 2016-12-21 2017-04-26 济南浪潮高新科技投资发展有限公司 一种采用NoSQL数据库实现分布式计算的方法
CN106777046A (zh) * 2016-12-09 2017-05-31 武汉卓尔云市集团有限公司 一种基于nginx日志的数据分析方法
CN107016106A (zh) * 2017-04-12 2017-08-04 深圳市茁壮网络股份有限公司 一种信息采集系统及Web应用
CN107220304A (zh) * 2017-05-10 2017-09-29 杭州铭师堂教育科技发展有限公司 基于salt的海量mongodb慢日志管理系统
CN107343021A (zh) * 2017-05-22 2017-11-10 国网安徽省电力公司信息通信分公司 国网云中应用的一种基于大数据的日志管理系统
CN107622317A (zh) * 2017-08-10 2018-01-23 清远网软网络科技有限公司 一种旅游电子商务系统
CN107733863A (zh) * 2017-09-07 2018-02-23 济南双瑞软件有限公司 一种分布式hadoop环境下的日志调试方法和装置
CN107958022A (zh) * 2017-11-06 2018-04-24 余帝乾 一种万维网日志挖掘的方法
CN109739826A (zh) * 2019-01-14 2019-05-10 珍岛信息技术(上海)股份有限公司 一种日志文件处理方法及系统
CN110278219A (zh) * 2018-03-14 2019-09-24 吉旗(成都)科技有限公司 过程性的物联网设备模拟工具和模拟方法
CN110727641A (zh) * 2019-10-21 2020-01-24 中国民航信息网络股份有限公司 一种日志的查找方法及装置
CN111479140A (zh) * 2020-03-27 2020-07-31 深圳市酷开网络科技有限公司 数据采集方法、设备、计算机设备和存储介质
CN113434376A (zh) * 2021-06-24 2021-09-24 山东浪潮科学研究院有限公司 一种基于NoSQL的Web日志分析方法、装置

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138615A (zh) * 2015-08-10 2015-12-09 北京思特奇信息技术股份有限公司 一种构建大数据分布式日志的方法和系统
CN105138615B (zh) * 2015-08-10 2019-02-26 北京思特奇信息技术股份有限公司 一种构建大数据分布式日志的方法和系统
CN105160011A (zh) * 2015-09-22 2015-12-16 浪潮(北京)电子信息产业有限公司 一种日志管理系统及方法
CN105260452A (zh) * 2015-10-12 2016-01-20 成都视达科信息技术有限公司 离线日志收集查询和分析系统及方法
CN105468737A (zh) * 2015-11-24 2016-04-06 湖北大学 一种网络服务大数据分析方法、云计算平台及挖掘系统
CN105677842A (zh) * 2016-01-05 2016-06-15 北京汇商融通信息技术有限公司 基于Hadoop大数据处理技术的日志分析系统
CN105740397A (zh) * 2016-01-28 2016-07-06 广州市讯飞樽鸿信息技术有限公司 一种基于大数据并行运算的语音信箱业务数据分析方法
CN105701237A (zh) * 2016-02-23 2016-06-22 无锡中科富农物联科技有限公司 Web访问日志处理方法
CN106126692A (zh) * 2016-06-29 2016-11-16 北京奇虎科技有限公司 一种样本数据的搜索方法和装置
CN106777046A (zh) * 2016-12-09 2017-05-31 武汉卓尔云市集团有限公司 一种基于nginx日志的数据分析方法
CN106599253A (zh) * 2016-12-21 2017-04-26 济南浪潮高新科技投资发展有限公司 一种采用NoSQL数据库实现分布式计算的方法
CN107016106A (zh) * 2017-04-12 2017-08-04 深圳市茁壮网络股份有限公司 一种信息采集系统及Web应用
CN107220304A (zh) * 2017-05-10 2017-09-29 杭州铭师堂教育科技发展有限公司 基于salt的海量mongodb慢日志管理系统
CN107220304B (zh) * 2017-05-10 2018-05-01 杭州铭师堂教育科技发展有限公司 基于salt的海量mongodb慢日志管理系统
CN107343021A (zh) * 2017-05-22 2017-11-10 国网安徽省电力公司信息通信分公司 国网云中应用的一种基于大数据的日志管理系统
CN107622317A (zh) * 2017-08-10 2018-01-23 清远网软网络科技有限公司 一种旅游电子商务系统
CN107733863A (zh) * 2017-09-07 2018-02-23 济南双瑞软件有限公司 一种分布式hadoop环境下的日志调试方法和装置
CN107958022A (zh) * 2017-11-06 2018-04-24 余帝乾 一种万维网日志挖掘的方法
CN110278219A (zh) * 2018-03-14 2019-09-24 吉旗(成都)科技有限公司 过程性的物联网设备模拟工具和模拟方法
CN109739826A (zh) * 2019-01-14 2019-05-10 珍岛信息技术(上海)股份有限公司 一种日志文件处理方法及系统
CN110727641A (zh) * 2019-10-21 2020-01-24 中国民航信息网络股份有限公司 一种日志的查找方法及装置
CN110727641B (zh) * 2019-10-21 2023-10-27 中国民航信息网络股份有限公司 一种日志的查找方法及装置
CN111479140A (zh) * 2020-03-27 2020-07-31 深圳市酷开网络科技有限公司 数据采集方法、设备、计算机设备和存储介质
CN113434376A (zh) * 2021-06-24 2021-09-24 山东浪潮科学研究院有限公司 一种基于NoSQL的Web日志分析方法、装置
CN113434376B (zh) * 2021-06-24 2023-04-11 山东浪潮科学研究院有限公司 一种基于NoSQL的Web日志分析方法、装置

Similar Documents

Publication Publication Date Title
CN104714946A (zh) 一种基于NoSQL的大规模Web日志分析系统
CN108197200B (zh) 日志追踪方法、装置、计算机设备和存储介质
US8140578B2 (en) Multilevel hierarchical associations between entities in a knowledge system
WO2017025056A1 (zh) 通过软件开发工具包实现数据跟踪的方法及系统
CA2954294A1 (en) Website access method, apparatus, and website system
CN111212111B (zh) 对象存储服务管理方法及电子设备
CN103701909B (zh) 视频应用的快速生成方法及系统
CA3059738A1 (en) Behaviour data processing method, device, electronic device and computer readable medium
CN111814024B (zh) 分布式数据采集方法、系统及存储介质
CN102761628B (zh) 泛域名识别、处理装置及方法
US10657099B1 (en) Systems and methods for transformation and analysis of logfile data
CN113037891B (zh) 边缘计算系统中有状态应用的访问方法、装置及电子设备
CN103631820A (zh) 分布式文件系统的元数据管理方法及设备
US11544229B1 (en) Enhanced tracking of data flows
CN104993957A (zh) 一种为使用Log4j的分布式应用提供云端日志服务的方法
WO2019033852A1 (zh) 用于生成热力图的方法、装置以及系统
JP2013235584A (ja) 制御システムの資産管理方法
US10127617B2 (en) System for analyzing social media data and method of analyzing social media data using the same
Chen et al. Optimization research and application of enterprise website based on web service
CN107894942B (zh) 数据表访问量的监控方法和装置
CN110674426A (zh) 网页行为上报方法和装置
Yao et al. Design and implementation of log data analysis management system based on hadoop
CN111061627B (zh) 网页埋点方法、装置、电子设备及存储介质
CN104519137B (zh) Host文件的管理方法、装置和系统
KR20150089693A (ko) 빅 데이터 플랫폼 기반 데이터 저장 시스템 확장 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150617