CN108052679A - 一种基于hadoop的日志分析系统 - Google Patents

一种基于hadoop的日志分析系统 Download PDF

Info

Publication number
CN108052679A
CN108052679A CN201810006826.7A CN201810006826A CN108052679A CN 108052679 A CN108052679 A CN 108052679A CN 201810006826 A CN201810006826 A CN 201810006826A CN 108052679 A CN108052679 A CN 108052679A
Authority
CN
China
Prior art keywords
hdfs
datanode
file
nodes
namenode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810006826.7A
Other languages
English (en)
Inventor
陈成
陈静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Focus Technology Co Ltd
Original Assignee
Focus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Focus Technology Co Ltd filed Critical Focus Technology Co Ltd
Priority to CN201810006826.7A priority Critical patent/CN108052679A/zh
Publication of CN108052679A publication Critical patent/CN108052679A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种基于HADOOP的日志分析系统,通过HDFS实现分布式存储的底层支持,在通过MapReduce实现分布式并行处理任务的程序支持;HDFS采用了Master/Slave结构模型,HDFS集群是由一个NameNode节点和若干个DataNode节点组成;其中NameNode节点为主服务器,管理HDFS的命名空间以及客户端对文件的访问操作;集群中,DataNode节点负责管理数据;HDFS系统是以文件的形式来存储数据;NameNode节点执行文件系统中的命名空间的一系列操作,负责数据块到具体DataNode节点的统一调度下进行数据块的创建、删除和复制工作。

Description

一种基于HADOOP的日志分析系统
技术领域
本发明涉及网站分析领域,针对网站日志调查系统故障,监控系统运行状况,分析用户的访问情况。具体而言,涉及一种基于Hadoop分布式计算框架的网络日志分析方法。
背景技术
随着信息化时代的不断发展,全球的数据呈指数式增长。尤其是对于互联网等公司,积累了海量的数据,如用户的访问数据、消费购买情况、网页搜索等,通过对这些数据的整理、提取和分析,可将其蕴含的有价值的信息呈现给管理者,为决策过程提供支持。日志作为硬件设备、系统和用户行为的记录工具,在监控网络运行情况、调查设备故障、保护系统安全等方面都有着至关重要的作用。因此,挖掘网络日志中蕴藏的信息,对于管理者来说是个非常重要的过程。但是由于日志文件数据量大,不易读懂,传统的技术是无法存储和计算的,这就引入了Hadoop分布式计算框架。
Hadoop是由Apache基金会所开发的开源的分布式系统基础架构,其主要包含可以为海量数据提供存储系统(HDFS)和计算系统(MapReduce),用户可以在不了解分布式底层细节的情况下,可以开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop架构不仅对硬件要求不是很高,节省硬件的成本,而且对Web访问、服务器日志以及其他各类数据流产生的海量数据进行筛选,在分布式环境下具有提供海量数据的处理能力。目前,Hadoop已经被很多大型公司广泛应用到网页搜索、日志分析、广告计算和科学实验中。
CN106227877基于hadoop的分布式日志采集系统,包括:本地服务器localserver,其配置来接收本地应用程序发来的日志,并将其分别转发给central server和archiver,如果central server发生故障,local server将接收的日志缓存到本地,central server恢复后,local server将缓存的日志重新加载并发送给central server;中心服务器central server,其配置来接收来自local server的日志,并将日志转发给producer;档案库存储器archiver,其配置来接收各个local server的日志并备份到本地;发布者producer,其配置为kafka的producer接口服务,接收到日志之后推送到kafka队列,同时将日志落地到本地;Kafka服务器kafka servers:其配置为kafka服务集群;订阅者consumer,其配置为kafka的consumer接口服务,从kafka队列读取到日志后写入hdfs;hadoop分布式文件系统hdfs,其配置来存储海量日志,每种日志文件每小时产生一个。
CN107180063A给出一种hadoop实现的itemCF推荐方法,包括Hadoop集群平台、用户对商品的评分日志、项目平均评分向量、同现矩阵、平均差评分向量、推荐因子向量,其特征在于:所述的项目平均评分向量由商品的评分日志获得,通过将所有用户对某个商品的评分取得评分平均值,然后扫描用户的评分日志,将用户的评分和项目的平均评分做减法构成用户平均差评分向量,将新生成的用户平均差评分向量与同现矩阵做乘法构成推荐因子向量,将推荐因子向量与平均评分向量相加成为最终推荐值推荐给用户。
但是由于网络日志数据量大,不易读懂,传统的技术方法已经不适于用户从海量的日志文件中得到有价值的信息。而hadoop分布式系统基础框架,正好可以处理这个难点。本发明将研究如何利用Hadoop分布式系统基础架构实现网络日志分析系统。
HADOOP的日志分析系统中,Hadoop是主要是通过HDFS(Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统)实现分布式存储的底层支持,尤其在通过MapReduce实现分布式并行处理任务的程序支持。
发明内容
发明目的:提出一种基于HADOOP的日志分析系统,分析网络日志是调查页面访问、系统故障、监控系统运行状况的重要手段。本发明阐述了Hadoop分布式计算框架的主要内容,提出一种基于Hadoop的网络日志分析系统,并提出了此方法的优势和实用性。
本发明技术方案是,一种基于HADOOP的日志分析系统,其特征是通过HDFS实现分布式存储的底层支持,在通过MapReduce实现分布式并行处理任务的程序支持;
HDFS采用了Master/Slave结构模型,一个HDFS集群是由一个NameNode节点和若干个DataNode节点组成;其中NameNode节点为主服务器,管理HDFS的命名空间以及客户端对文件的访问操作;集群中,DataNode节点负责管理数据;HDFS系统是以文件的形式来存储数据;从其内部来看,存储的文件被分成了若干个数据块,并且这若干个数据块存储在一组DataNode节点上;NameNode节点执行文件系统中的命名空间的一系列操作,包括打开文件、关闭文件、重命名文件或目录等,它同时也负责数据块到具体DataNode节点的统一调度下进行数据块的创建、删除和复制工作;
NameNode节点和DataNode节点都能够在普通的计算机上运行:运行Java的计算机就能运行HDFS,用来部署NameNode节点和DataNode节点;
Hadoop还能利用集群的威力进行高速运算,这个就靠Map Reduce来实现,MapReduce是一种并行计算的编程模型,用于作业调度;它将一个大作业拆分为多个小作业的框架,用户需要做的就是决定拆成多少份,以及定义作业本身;map函数和reduce函数是交给用户实现的,这两个函数定义了任务本身;
使用Map Reduce编程框架对日志进行了处理:
Map函数:接受一个键值对(key-value pair),产生一组中间键值对。MapReduce框架会将map函数产生的中间键值对里键相同的值传递给一个reduce函数;
Reduce函数:接受一个键,以及相关的一组值,将这组值进行合并产生一组规模更小的值(通常只有一个或零个值)。
一个经典的运行HDFS实例是集群中的一台计算机作为一个NameNode,其他计算机分别用来运行一个DataNode;当然这里并不排除一台计算机上运行多个DataNode的情况;NameNode负责管理所有HDFS中存储的元数据,用户需要存储的数据不需要通过NameNode,而且是直接存储在DataNode节点上。
在使用Map Reduce编程框架对日志进行处理:通过HDFS将日志文件进行分块,并将分块后的数据按照系统计算任务分配存储到系统中的每个DataNode,文件系统启动每个DataNode的必须进程,调用InputFormat方法将日志文件中的所有日志独立开来形成一个键值对<序列号,IP>进行Map处理,这些键值对将放入内存中等待Combiner()处理,它能将相同的键值对进行合并;NameNode指派系统中的DataNode分别对数据进行Reduce处理;对所有DataNode上的数据进行汇总得到最终结果并写入输出目录的文件中。
用户首先需要从大量的日志中筛选出目标日志,然后从目标日志中截取对应的字段值,根据用户的需求,直观展示出每天什么时刻哪个站点哪个库的访问量和访问流量,提供决策支持和流量监测。
有益效果:由于HDFS会不断地分割日志流,形成大量的小文件,所以Hadoop对于数据量偏少的任务操作速度慢,流程复杂,效果不那么明显。但是对于海量数据而言,Hadoop集群相对单机能更加有效地管理和存储海量数据,具有良好的扩张性,MapReduce计算速度快,Hadoop可节省大量的操作时间。因此可以看出Hadoop在处理海量数据时相对于单机有巨大的优势。
附图说明
图1:HDFS的Master/Slave结构模型;
图2:Map Reduce编程框架对日志处理的流程图;
图3:部分日志;
图4:Map主要代码;
图5:Reduce函数主要代码。
具体实施方式
图1:HDFS的Master/Slave结构模型,图1中,Master/Slave结构模型,一个HDFS集群是由一个NameNode节点和若干个DataNode节点组成;
NameNode节点和DataNode节点都能够在普通的计算机上运行:运行Java的计算机就能运行HDFS,用来部署NameNode节点和DataNode节点;
Hadoop还能利用集群的威力进行高速运算,这个就靠Map Reduce来实现,MapReduce是一种并行计算的编程模型,用于作业调度;它将一个大作业拆分为多个小作业的框架,用户需要做的就是决定拆成多少份,以及定义作业本身;map函数和reduce函数是交给用户实现的,这两个函数定义了任务本身;
使用Map Reduce编程框架对日志进行了处理:
NameNode节点和DataNode节点都可以在普通的计算机上运行。这些计算机的操作系统通常是GNU/Linux。HDFS是用Java语言开发的,所以只要是可以运行Java的计算机就可以运行HDFS,用来部署NameNode节点和DataNode节点。一个经典的运行HDFS实例是集群中的一台计算机作为一个NameNode,其他计算机分别用来运行一个DataNode。当然,这里并不排除一台计算机上运行多个DataNode的情况。NameNode负责管理所有HDFS中存储的元数据,用户需要存储的数据不需要通过NameNode,而且是直接存储在DataNode节点上。
Hadoop还可以利用集群的威力进行高速运算,这个就靠MapReduce来实现。MapReduce是一种并行计算的编程模型,用于作业调度。它将一个大作业拆分为多个小作业的框架(大作业和小作业应该本质是一样的,只是规模不同),用户需要做的就是决定拆成多少份,以及定义作业本身。map函数和reduce函数是交给用户实现的,这两个函数定义了任务本身。
图2:Map Reduce编程框架对日志处理的流程图中,Map函数:接受一个键值对(key-value pair),产生一组中间键值对。MapReduce框架会将map函数产生的中间键值对里键相同的值传递给一个reduce函数。
Reduce函数:接受一个键,以及相关的一组值,将这组值进行合并产生一组规模更小的值(通常只有一个或零个值)。
如下图3所得到的日志,这是某架构部的存储日志,一天约700万条,数据量较大,规则复杂。用户首先需要从大量的日志中筛选出目标日志,然后从目标日志中截取对应的字段值,根据用户的需求,直观展示出每天什么时刻哪个站点哪个库的访问量和访问流量,提供决策支持和流量监测。
网络日志是由日志分析系统将不同格式的日志进行解析生成统一格式的日志文件,然后将采集到的日志文件提交到Hadoop集群中的Master,Master把文件切割成Block,然后把这些Block分散地存储于不同的Slave上,每个Block还可以复制数份存储于不同的Slave上,达到容错目的。
在使用MapReduce编程框架对日志进行了处理。如上述日志为例,用户需要筛选出含有“INFO-end proxy mutate record value for”和“INFO-end read value:”的日志,并从每条的日志中截取相应的时间、时刻、站点、库字段值,来分析每天每个站点的库的访问量和访问流量。Map和Reduce主要代码如下图4所示。Map主要代码。
图5:Reduce主要代码,程序过程:通过HDFS将日志文件进行分块,并将分块后的数据按照系统计算任务分配存储到系统中的每个DataNode,文件系统启动每个DataNode的必须进程,调用InputFormat方法将日志文件中的所有日志独立开来形成一个键值对<序列号,IP>进行Map处理,这些键值对将放入内存中等待Combiner()处理,它能将相同的键值对进行合并;NameNode指派系统中的DataNode分别对数据进行Reduce处理;对所有DataNode上的数据进行汇总得到最终结果并写入输出目录的文件中。
运行所截取的字段值如下:
得出的结果:
最后两列是由reduce通过合并所得到一组值(在该实例中一组值指的就是用户所要字段值),产生一组规模更小的值(通常只有一个或零个值)。该实例中倒数第二列是日志条数,也称访问量,倒数第一列是由每条日志中的size相加获得的访问流量值。
由于HDFS会不断地分割日志流,形成大量的小文件,所以Hadoop对于数据量偏少的任务操作速度慢,流程复杂,效果不那么明显。但是对于海量数据而言,Hadoop集群相对单机能更加有效地管理和存储海量数据,具有良好的扩张性,MapReduce计算速度快,Hadoop可节省大量的操作时间。因此可以看出Hadoop在处理海量数据时相对于单机有巨大的优势。
本发明并不限于上述实施方式,采用与本发明上述实施实例相同或近似的结构,而得到的其它结构设计,均在本发明的保护范围之内。

Claims (5)

1.一种基于HADOOP的日志分析系统,其特征是通过HDFS实现分布式存储的底层支持,在通过MapReduce实现分布式并行处理任务的程序支持;
HDFS采用了Master/Slave结构模型,一个HDFS集群是由一个NameNode节点和若干个DataNode节点组成;其中NameNode节点为主服务器,管理HDFS的命名空间以及客户端对文件的访问操作;集群中,DataNode节点负责管理数据;HDFS系统是以文件的形式来存储数据;从其内部来看,存储的文件被分成了若干个数据块,并且这若干个数据块存储在一组DataNode节点上;NameNode节点执行文件系统中的命名空间的一系列操作,包括打开文件、关闭文件、重命名文件或目录等,它同时也负责数据块到具体DataNode节点的统一调度下进行数据块的创建、删除和复制工作;
NameNode节点和DataNode节点都能够在普通的计算机上运行:运行Java的计算机就能运行HDFS,用来部署NameNode节点和DataNode节点;
Hadoop能利用集群进行高速运算,依靠Map Reduce来实现,Map Reduce是一种并行计算的编程模型,用于作业调度;它将一个大作业拆分为多个小作业的框架,用户需要做的就是决定拆成多少份,以及定义作业本身;map函数和reduce函数是交给用户实现的,这两个函数定义了任务本身;
使用Map Reduce编程框架对日志进行了处理:
Map函数:接受一个键值对(key-value pair),产生一组中间键值对。MapReduce框架会将map函数产生的中间键值对里键相同的值传递给一个reduce函数;
Reduce函数:接受一个键,以及相关的一组值,将这组值进行合并产生一组规模更小的值、通常只有一个或零个值。
2.根据权利要求1所述的日志分析系统,其特征是HDFS集群中的一台计算机作为一个NameNode,其他计算机分别用来运行一个DataNode;NameNode负责管理所有HDFS中存储的元数据,用户需要存储的数据不需要通过NameNode,而且是直接存储在DataNode节点上。
3.根据权利要求1所述的日志分析系统,其特征是在使用Map Reduce编程框架对日志进行处理:通过HDFS将日志文件进行分块,并将分块后的数据按照系统计算任务分配存储到系统中的每个DataNode,文件系统启动每个DataNode的必须进程,调用InputFormat方法将日志文件中的所有日志独立开来形成一个键值对<序列号,IP>进行Map处理,这些键值对将放入内存中等待Combiner()处理,它能将相同的键值对进行合并;NameNode指派系统中的DataNode分别对数据进行Reduce处理;对所有DataNode上的数据进行汇总得到最终结果并写入输出目录的文件中。
4.根据权利要求1所述的日志分析系统,其特征是用户首先需要从大量的日志中筛选出目标日志,然后从目标日志中截取对应的字段值,根据用户的需求,直观展示出每天什么时刻哪个站点哪个库的访问量和访问流量,提供决策支持和流量监测。
5.根据权利要求1所述的日志分析系统,其特征是网络日志是由日志分析系统将不同格式的日志进行解析生成统一格式的日志文件,然后将采集到的日志文件提交到Hadoop集群中的Master,Master把文件切割成Block,然后把这些Block分散地存储于不同的Slave上,每个Block还可复制数份存储于不同的Slave上,达到容错目的。
CN201810006826.7A 2018-01-04 2018-01-04 一种基于hadoop的日志分析系统 Pending CN108052679A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810006826.7A CN108052679A (zh) 2018-01-04 2018-01-04 一种基于hadoop的日志分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810006826.7A CN108052679A (zh) 2018-01-04 2018-01-04 一种基于hadoop的日志分析系统

Publications (1)

Publication Number Publication Date
CN108052679A true CN108052679A (zh) 2018-05-18

Family

ID=62126310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810006826.7A Pending CN108052679A (zh) 2018-01-04 2018-01-04 一种基于hadoop的日志分析系统

Country Status (1)

Country Link
CN (1) CN108052679A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984686A (zh) * 2018-07-02 2018-12-11 中国电子科技集团公司第五十二研究所 一种基于日志合并的分布式文件系统索引方法和装置
CN110309110A (zh) * 2019-05-24 2019-10-08 深圳壹账通智能科技有限公司 一种大数据日志监控方法及装置、存储介质和计算机设备
CN111045843A (zh) * 2019-11-01 2020-04-21 河海大学 具有容错能力的分布式数据处理方法
CN111176901A (zh) * 2019-12-31 2020-05-19 厦门市美亚柏科信息股份有限公司 一种hdfs删除文件恢复方法、终端设备及存储介质
CN111913927A (zh) * 2020-07-16 2020-11-10 珠海大横琴科技发展有限公司 一种数据写入方法、装置及计算机设备
CN112148698A (zh) * 2020-09-10 2020-12-29 深圳供电局有限公司 一种大数据平台的日志审计方法及系统
CN112486646A (zh) * 2020-11-27 2021-03-12 北京明朝万达科技股份有限公司 计算系统的作业任务处理方法、装置、存储介质和处理器
CN113377733A (zh) * 2021-06-09 2021-09-10 西安理工大学 一种针对Hadoop分布式文件系统的存储优化方法
CN113434376A (zh) * 2021-06-24 2021-09-24 山东浪潮科学研究院有限公司 一种基于NoSQL的Web日志分析方法、装置
CN116361261A (zh) * 2023-06-01 2023-06-30 天翼云科技有限公司 一种分布式日志采集处理方法、系统
CN117519608A (zh) * 2023-12-27 2024-02-06 泰安北航科技园信息科技有限公司 一种以Hadoop为核心的大数据服务器

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103166785A (zh) * 2011-12-15 2013-06-19 同程网络科技股份有限公司 基于Hadoop的分布式日志分析系统
US20130275363A1 (en) * 2012-04-17 2013-10-17 Mingxi Wu Meta-data driven data ingestion using mapreduce framework
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
CN104363222A (zh) * 2014-11-11 2015-02-18 浪潮电子信息产业股份有限公司 一种基于Hadoop的网络安全事件分析方法
CN104394211A (zh) * 2014-11-21 2015-03-04 浪潮电子信息产业股份有限公司 一种基于Hadoop用户行为分析系统设计与实现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103166785A (zh) * 2011-12-15 2013-06-19 同程网络科技股份有限公司 基于Hadoop的分布式日志分析系统
US20130275363A1 (en) * 2012-04-17 2013-10-17 Mingxi Wu Meta-data driven data ingestion using mapreduce framework
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
CN104363222A (zh) * 2014-11-11 2015-02-18 浪潮电子信息产业股份有限公司 一种基于Hadoop的网络安全事件分析方法
CN104394211A (zh) * 2014-11-21 2015-03-04 浪潮电子信息产业股份有限公司 一种基于Hadoop用户行为分析系统设计与实现方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984686B (zh) * 2018-07-02 2021-03-30 中国电子科技集团公司第五十二研究所 一种基于日志合并的分布式文件系统索引方法和装置
CN108984686A (zh) * 2018-07-02 2018-12-11 中国电子科技集团公司第五十二研究所 一种基于日志合并的分布式文件系统索引方法和装置
CN110309110A (zh) * 2019-05-24 2019-10-08 深圳壹账通智能科技有限公司 一种大数据日志监控方法及装置、存储介质和计算机设备
CN111045843B (zh) * 2019-11-01 2021-09-28 河海大学 具有容错能力的分布式数据处理方法
CN111045843A (zh) * 2019-11-01 2020-04-21 河海大学 具有容错能力的分布式数据处理方法
CN111176901A (zh) * 2019-12-31 2020-05-19 厦门市美亚柏科信息股份有限公司 一种hdfs删除文件恢复方法、终端设备及存储介质
CN111913927A (zh) * 2020-07-16 2020-11-10 珠海大横琴科技发展有限公司 一种数据写入方法、装置及计算机设备
CN112148698A (zh) * 2020-09-10 2020-12-29 深圳供电局有限公司 一种大数据平台的日志审计方法及系统
CN112486646A (zh) * 2020-11-27 2021-03-12 北京明朝万达科技股份有限公司 计算系统的作业任务处理方法、装置、存储介质和处理器
CN113377733A (zh) * 2021-06-09 2021-09-10 西安理工大学 一种针对Hadoop分布式文件系统的存储优化方法
CN113434376A (zh) * 2021-06-24 2021-09-24 山东浪潮科学研究院有限公司 一种基于NoSQL的Web日志分析方法、装置
CN113434376B (zh) * 2021-06-24 2023-04-11 山东浪潮科学研究院有限公司 一种基于NoSQL的Web日志分析方法、装置
CN116361261A (zh) * 2023-06-01 2023-06-30 天翼云科技有限公司 一种分布式日志采集处理方法、系统
CN116361261B (zh) * 2023-06-01 2023-10-13 天翼云科技有限公司 一种分布式日志采集处理方法、系统
CN117519608A (zh) * 2023-12-27 2024-02-06 泰安北航科技园信息科技有限公司 一种以Hadoop为核心的大数据服务器
CN117519608B (zh) * 2023-12-27 2024-03-22 泰安北航科技园信息科技有限公司 一种以Hadoop为核心的大数据服务器

Similar Documents

Publication Publication Date Title
CN108052679A (zh) 一种基于hadoop的日志分析系统
Muniswamaiah et al. Big data in cloud computing review and opportunities
Kune et al. The anatomy of big data computing
Das et al. Big data analytics: A framework for unstructured data analysis
Katal et al. Big data: issues, challenges, tools and good practices
Hannan An overview on big data and hadoop
Mătăcuţă et al. Big Data Analytics: Analysis of Features and Performance of Big Data Ingestion Tools.
Al-Hajjar et al. Framework for social media big data quality analysis
CN112148578A (zh) 基于机器学习的it故障缺陷预测方法
CN113609374A (zh) 基于内容推送的数据处理方法、装置、设备及存储介质
Farhan et al. A study and performance comparison of mapreduce and apache spark on Twitter data on hadoop cluster
CN115640300A (zh) 一种大数据管理方法、系统、电子设备和存储介质
Nagdive et al. Web server log analysis for unstructured data using apache flume and pig
Ikhlaq et al. Computation of Big Data in Hadoop and Cloud Environment
Tomar et al. Integration of cloud computing and big data technology for smart generation
Mishra et al. Challenges in big data application: a review
CN107729206A (zh) 告警日志的实时分析方法、系统和计算机处理设备
Sruthika et al. A study on evolution of data analytics to big data analytics and its research scope
Zhou et al. A distributed text mining system for online web textual data analysis
Martínez-Castaño et al. Polypus: a big data self-deployable architecture for microblogging text extraction and real-time sentiment analysis
CN114357280A (zh) 一种信息推送方法、装置、电子设备及计算机可读介质
Manu et al. A current trends in big data landscape
Taori et al. Big Data Management
Rao et al. An extensive study on leading research paths on big data techniques & technologies
Singh NoSQL: A new horizon in big data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180518