CN102929667A - 一种hadoop集群性能的优化方法 - Google Patents

一种hadoop集群性能的优化方法 Download PDF

Info

Publication number
CN102929667A
CN102929667A CN2012104103027A CN201210410302A CN102929667A CN 102929667 A CN102929667 A CN 102929667A CN 2012104103027 A CN2012104103027 A CN 2012104103027A CN 201210410302 A CN201210410302 A CN 201210410302A CN 102929667 A CN102929667 A CN 102929667A
Authority
CN
China
Prior art keywords
performance
nmon
hadoop
hadoop cluster
optimization method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012104103027A
Other languages
English (en)
Inventor
马庆怀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Beijing Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN2012104103027A priority Critical patent/CN102929667A/zh
Publication of CN102929667A publication Critical patent/CN102929667A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种hadoop集群性能的优化方法,该方法采用监视工具nmon监视hadoop集群系统的性能指标;所述方法包括下述步骤:A、安装监视工具nmon;B、运行hadoop集群系统;C、根据运行过程中nmon工具的性能反馈,对hadoop集群参数进行调整。该方法能够监测CPU的使用率,内存使用情,内核统计信息和运行队列信,磁盘I/O速度、传输和读/写比,文件系统中的可用空,磁盘适配,网络I/O速度、传输和读/写比率,页面空间和页面速度,CPU和AIX规范,消耗资源最多的进程,计算机详细信息和资源,网络文件系统等。实时准确的定位系统性能瓶颈,能够快速实现对系统整体的性能优化。该方法能够使工程师的工作更有针对性,极大的减少了盲目的试探。

Description

一种hadoop集群性能的优化方法
技术领域
本发明涉及高性能集群领域,具体涉及一种hadoop集群性能的优化方法。
背景技术
hadoop技术已经在互联网领域得到广泛的应用,同时也得到了学术界的普遍关注。针对hadoop集群优化对于提高系统性能和执行效率具有重大的意义。以往的hadoop集群优化均为设置一个参数后,对系统进行性能测试,得出结果后根据经验判断参数设置的效果如何。这样将会造成太多时间的浪费。如何能快速定位系统性能瓶颈,并根据性能瓶颈进行性能优化是本发明要解决的问题。目前在hadoop集群优化中有大约几十个参数可以设置,给hadoop集群系统的性能优化带来了很大的麻烦。
发明内容
针对现有技术的不足,本发明提供一种hadoop集群性能的优化方法,该方法解决了如何能快速定位系统性能瓶颈,并根据性能瓶颈进行性能优化的问题,采用nmon工具来实时监控系统的各项性能指标,性能指标包括磁盘,CPU,内存网络等,在hadoop文件系统运行过程中及时发现性能瓶颈,及时发现hadoop集群系统设置参数的影响,从而更快更直接的进行hadoop集群系统的性能优化,节省大量的时间。
本发明的目的是采用下述技术方案实现的:
一种hadoop集群性能的优化方法,其改进之处在于,所述方法采用监视工具nmon监视hadoop集群系统的性能指标;所述方法包括下述步骤:
A、安装监视工具nmon;
B、运行hadoop集群系统。
C、根据运行过程中nmon工具的性能反馈,对hadoop集群参数进行调整,实现优化。
其中,所述安装监视工具nmon包括下述步骤:
a、从网页界面下载nmon二进制包;
b、将所述nmon二进制包复制到Hadoop集群的所有节点;
c、使用$NMON_HOME目录代表放置nmon二进制代码的位置;
d、选择作业管理节点jobtracker作为中心节点收集nmon数据;
e、登录jobtracker中心节点;
f、在所述jobtracker中心节点上创建目录并通过网络文件系统服务实现共享;
g、创建脚本在Hadoop集群的所有节点上启动nmon。
其中,所述步骤b中,所述Hadoop集群的所有节点包括:目录管理节点Namenode、任务计算节点Datanode、作业管理节点Jobtracker和辅助目录管理节点SecondNamenode。
其中,所述步骤f包括以下步骤:
(1)在所述jobtracker中心节点上创建目录;
(2)修改/etc/exports文件;
(3)重新启动网络文件系统服务;
(4)在目录管理节点Namenode、任务计算节点Datanode和辅助目录管理节点SecondNamenode上创建该目录并将其挂装到jobtracker中心节点上的perf_share目录中。
其中,所述步骤g中,所述脚本包括:-f表示希望把数据保存到文件中,并不在屏幕上显示;-m表示保存数据的位置;-s 30表示希望每30秒捕捉一次数据;-c 360表示需要360个数据点(即快照),总数据收集时间为30x360秒,即3小时。
其中,所述步骤B中,通过所述监视工具nmon返回hadoop集群系统性能数据确定性能瓶颈,进行hadoop系统配置参数调整。
其中,所述hadoop集群系统的性能指标包括磁盘、CPU和内存网络。
其中,所述nmon为系统管理、调优和基准测试工具,用于监视hadoop集群系统的性能指标。
其中,所述hadoop系统配置参数调整是一个反复循环的过程。
其中,所述步骤C中,根据运行过程中监视工具nmon的性能反馈,对hadoop集群参数进行调整,包括:
I、统计系统各项数据,包括CPU的使用率,内存使用情,内核统计信息和运行队列信,磁盘I/O速度、传输和读/写比,文件系统中的可用空,磁盘适配,网络I/O速度、传输和读/写比率,页面空间和页面速度,CPU和AIX规范,消耗资源最多的进程,计算机详细信息和资源,网络文件系统;
II、寻找调优的点,如果不能再优化,则维持现状;否则进行优化,继续进行步骤III;
III、进行hadoop集群系统优化,之后再进行统计测试。
与现有技术比,本发明达到的有益效果是:
本发明提供的hadoop集群性能的优化方法,在hadoop集群运行过程中使用一种系统整体性能监控工具,实时准确的定位系统性能瓶颈,从而能够快速实现对系统整体的性能优化,节省大量的时间。该优化方法能够监测CPU的使用率,内存使用情,内核统计信息和运行队列信,磁盘I/O速度、传输和读/写比,文件系统中的可用空,磁盘适配,网络I/O速度、传输和读/写比率,页面空间和页面速度,CPU和AIX规范,消耗资源最多的进程,计算机详细信息和资源,网络文件系统等等。实时准确的定位系统性能瓶颈,能够快速实现对系统整体的性能优化,如在某集群系统环境下,nmon的监测显示带宽的占有率达到了最大限度,这时,工程师就可以根据当下环境适当增大带宽。该方法能够使工程师的工作更有针对性,极大的减少了盲目的试探。
附图说明
图1是本发明提供的hadoop集群性能的优化方法的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
本发明提供的hadoop集群性能的优化方法的流程如图1所示,包括下述内容:
A、nmon的安装:
nmon是一个系统管理、调优和基准测试工具,可以简便地监视大量重要的性能信息。可以在整个性能调优过程中使用nmon作为监视工具。按以下步骤安装并配置nmon,建立自己的性能监视系统:
从nmon for Linux站点下载nmon二进制包。找到适合的版本,把它复制到Hadoop集群的所有节点。下面使用$NMON_HOME代表放置nmon二进制代码的位置。
因为已经让namenode、jobtracker和secondnamenode能够通过ssh无需密码地访问所有其他节点,而且将在jobtracker上提交所有map/reduce作业,所以选择jobtracker作为中心节点收集所有nmon数据。登录jobtracker节点,然后执行以下步骤。
使用以下命令在jobtracker上创建一个目录(例如/home/hadoop/perf_share)并通过NFS共享它:
(1)创建目录:$mkdir/home/hadoop/perf_share;
(2)修改/etc/exports文件,在其中包含以下行:/home/hadoop/perf_share*(rw,sync);
(3)重新启动NFS服务:$/etc/rc.d/init.d/nfs restart;
(4)在所有其他节点上创建这个目录并把它们挂装到jobtracker上的perf_share目录;
创建以下脚本以便在所有节点上启动nmon:
在最后的nmon命令中,-f表示希望把数据保存到文件中,并不在屏幕上显示;-m表示保存数据的位置;-s 30表示希望每30秒捕捉一次数据;-c 360表示需要360个数据点(即快照),总数据收集时间为30x360秒,即3小时。
从nmonanalyser wiki下载nmonanalyser(这个Excel电子表格接受nmon的输出文件,生成一些漂亮的图表以帮助分析),用它分析收集到的监视数据。
B、运行hadoop集群,通过nmon监视工具返回的系统性能数据确定相应性能瓶颈,进行相应的参数调整,以期得到最高性能的集群。
C、根据运行过程中nmon工具的性能反馈,对hadoop集群参数进行调整,实现优化,包括:
I、统计系统各项数据,包括CPU的使用率,内存使用情,内核统计信息和运行队列信,磁盘I/O速度、传输和读/写比,文件系统中的可用空,磁盘适配,网络I/O速度、传输和读/写比率,页面空间和页面速度,CPU和AIX规范,消耗资源最多的进程,计算机详细信息和资源,网络文件系统;
II、寻找调优的点,如果不能再优化,则维持现状;否则进行优化,继续进行步骤III;
III、进行hadoop集群系统优化,之后再进行统计测试。
本发明提供的hadoop集群性能的优化方法中采用nmon工具来实时监控系统的各项性能指标包括磁盘,CPU,内存网络等,在hadoop文件系统运行过程中及时发现性能瓶颈,及时发现系统设置参数的影响,从而更快更直接的进行hadoop集群系统的性能优化。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种hadoop集群性能的优化方法,其特征在于,所述方法采用监视工具nmon监视hadoop集群系统的性能指标;所述方法包括下述步骤:
A、安装监视工具nmon;
B、运行hadoop集群系统。
C、根据运行过程中nmon工具的性能反馈,对hadoop集群参数进行调整,实现优化。
2.如权利要求1所述的hadoop集群性能的优化方法,其特征在于,所述安装监视工具nmon包括下述步骤:
a、从网页界面下载nmon二进制包;
b、将所述nmon二进制包复制到Hadoop集群的所有节点;
c、使用$NMON_HOME目录代表放置nmon二进制代码的位置;
d、选择作业管理节点jobtracker作为中心节点收集nmon数据;
e、登录jobtracker中心节点;
f、在所述jobtracker中心节点上创建目录并通过网络文件系统服务实现共享;
g、创建脚本在Hadoop集群的所有节点上启动nmon。
3.如权利要求2所述的hadoop集群性能的优化方法,其特征在于,所述步骤b中,所述Hadoop集群的所有节点包括:目录管理节点Namenode、任务计算节点Datanode、作业管理节点Jobtracker和辅助目录管理节点SecondNamenode。
4.如权利要求2所述的hadoop集群性能的优化方法,其特征在于,所述步骤f包括以下步骤:
(1)在所述jobtracker中心节点上创建目录;
(2)修改/etc/exports文件;
(3)重新启动网络文件系统服务;
(4)在目录管理节点Namenode、任务计算节点Datanode和辅助目录管理节点SecondNamenode上创建该目录并将其挂装到jobtracker中心节点上的perf_share目录中。
5.如权利要求2所述的hadoop集群性能的优化方法,其特征在于,所述步骤g中,所述脚本包括:-f表示希望把数据保存到文件中,并不在屏幕上显示;-m表示保存数据的位置;-s 30表示希望每30秒捕捉一次数据;-c 360表示需要360个数据点(即快照),总数据收集时间为30x360秒,即3小时。
6.如权利要求1所述的hadoop集群性能的优化方法,其特征在于,所述步骤B中,通过所述监视工具nmon返回hadoop集群系统性能数据确定性能瓶颈,进行hadoop系统配置参数调整。
7.如权利要求1所述的hadoop集群性能的优化方法,其特征在于,所述hadoop集群系统的性能指标包括磁盘、CPU和内存网络。
8.如权利要求1所述的hadoop集群性能的优化方法,其特征在于,所述nmon为系统管理、调优和基准测试工具,用于监视hadoop集群系统的性能指标。
9.如权利要求1所述的hadoop集群性能的优化方法,其特征在于,所述hadoop系统配置参数调整是一个反复循环的过程。
10.如权利要求1所述的hadoop集群性能的优化方法,其特征在于,所述步骤C中,根据运行过程中监视工具nmon的性能反馈,对hadoop集群参数进行调整,包括:
I、统计系统各项数据,包括CPU的使用率,内存使用情,内核统计信息和运行队列信,磁盘I/O速度、传输和读/写比,文件系统中的可用空,磁盘适配,网络I/O速度、传输和读/写比率,页面空间和页面速度,CPU和AIX规范,消耗资源最多的进程,计算机详细信息和资源,网络文件系统;
II、寻找调优的点,如果不能再优化,则维持现状;否则进行优化,继续进行步骤III;
III、进行hadoop集群系统优化,之后再进行统计测试。
CN2012104103027A 2012-10-24 2012-10-24 一种hadoop集群性能的优化方法 Pending CN102929667A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012104103027A CN102929667A (zh) 2012-10-24 2012-10-24 一种hadoop集群性能的优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012104103027A CN102929667A (zh) 2012-10-24 2012-10-24 一种hadoop集群性能的优化方法

Publications (1)

Publication Number Publication Date
CN102929667A true CN102929667A (zh) 2013-02-13

Family

ID=47644477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012104103027A Pending CN102929667A (zh) 2012-10-24 2012-10-24 一种hadoop集群性能的优化方法

Country Status (1)

Country Link
CN (1) CN102929667A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103268204A (zh) * 2013-06-08 2013-08-28 北京百度网讯科技有限公司 固态硬盘的调优方法及装置
CN103618644A (zh) * 2013-11-26 2014-03-05 曙光信息产业股份有限公司 一种基于hadoop集群的分布式监控系统及其方法
CN103713935A (zh) * 2013-12-04 2014-04-09 中国科学院深圳先进技术研究院 一种在线管理Hadoop集群资源的方法和装置
CN104346255A (zh) * 2014-10-21 2015-02-11 浪潮集团有限公司 一种云计算中自动监测进程内存使用情况的方法
CN104468379A (zh) * 2013-09-16 2015-03-25 浙江大学 基于最短逻辑距离的虚拟Hadoop集群节点选择方法及装置
CN104503909A (zh) * 2014-12-18 2015-04-08 浪潮(北京)电子信息产业有限公司 一种磁盘io性能的测试方法和装置
CN104615526A (zh) * 2014-12-05 2015-05-13 北京航空航天大学 一种大数据平台的监控系统
CN104750780A (zh) * 2015-03-04 2015-07-01 北京航空航天大学 一种基于统计分析的Hadoop配置参数优化方法
CN105490871A (zh) * 2015-11-19 2016-04-13 浪潮(北京)电子信息产业有限公司 一种测试Hadoop集群稳定性的方法及系统
CN105760467A (zh) * 2016-02-05 2016-07-13 浪潮(北京)电子信息产业有限公司 一种数据实时读写方法、装置、系统及nfs服务器
CN105897503A (zh) * 2016-03-30 2016-08-24 广东工业大学 基于资源信息增益的Hadoop集群瓶颈检测算法
CN106095646A (zh) * 2016-06-27 2016-11-09 江苏迪纳数字科技股份有限公司 基于多元线性回归模型的Hadoop集群节点性能计算方法
CN106126407A (zh) * 2016-06-22 2016-11-16 西安交通大学 一种针对分布式存储系统的性能监控调优系统及方法
CN106202431A (zh) * 2016-07-13 2016-12-07 华中科技大学 一种基于机器学习的Hadoop参数自动调优方法及系统
CN106557353A (zh) * 2016-11-04 2017-04-05 天津轻工职业技术学院 一种容器承载业务应用的服务器性能指标评价方法
CN103823881B (zh) * 2014-03-04 2017-07-28 北京京东尚科信息技术有限公司 分布式数据库的性能优化的方法及装置
CN108108289A (zh) * 2018-01-11 2018-06-01 郑州云海信息技术有限公司 一种集群资源统计方法、系统、装置及可读存储系统
US10102098B2 (en) 2015-12-24 2018-10-16 Industrial Technology Research Institute Method and system for recommending application parameter setting and system specification setting in distributed computation
CN109062692A (zh) * 2018-07-24 2018-12-21 郑州云海信息技术有限公司 一种人脸识别深度学习训练平台的优化方法及系统
CN109298945A (zh) * 2018-10-17 2019-02-01 北京京航计算通讯研究所 面向大数据平台的Ceph分布式存储监控与调优管理方法
CN109889561A (zh) * 2017-12-25 2019-06-14 新华三大数据技术有限公司 一种数据处理方法及装置
CN113495840A (zh) * 2021-06-22 2021-10-12 北京交通大学 基于瓶颈资源定位及参数调优的大数据平台测试方法
CN115277466A (zh) * 2022-07-04 2022-11-01 上海轩田工业设备有限公司 一种性能测试数据收集方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7703079B1 (en) * 2005-05-03 2010-04-20 Oracle America, Inc. System performance prediction
CN101778139A (zh) * 2010-02-05 2010-07-14 彭土有 一种基于HTTP协议的Linux集群监测系统及实现方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7703079B1 (en) * 2005-05-03 2010-04-20 Oracle America, Inc. System performance prediction
CN101778139A (zh) * 2010-02-05 2010-07-14 彭土有 一种基于HTTP协议的Linux集群监测系统及实现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AZHAO_DN: "分析和优化云集群性能", 《HTTP://BLOG.CSDN.NET/AZHAO_DN/ARTICLE/DETAILS/7091603》 *
YU LI: "分析和优化云集群性能", 《HTTP://WWW.IBM.COM/DEVELOPERWORKS/CN/CLOUD/LIBRARY/CL-CLOUDCLUSTERPERFORMANCE/》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103268204B (zh) * 2013-06-08 2016-12-28 北京百度网讯科技有限公司 固态硬盘的调优方法及装置
CN103268204A (zh) * 2013-06-08 2013-08-28 北京百度网讯科技有限公司 固态硬盘的调优方法及装置
CN104468379B (zh) * 2013-09-16 2017-09-26 浙江大学 基于最短逻辑距离的虚拟Hadoop集群节点选择方法及装置
CN104468379A (zh) * 2013-09-16 2015-03-25 浙江大学 基于最短逻辑距离的虚拟Hadoop集群节点选择方法及装置
CN103618644A (zh) * 2013-11-26 2014-03-05 曙光信息产业股份有限公司 一种基于hadoop集群的分布式监控系统及其方法
CN103713935A (zh) * 2013-12-04 2014-04-09 中国科学院深圳先进技术研究院 一种在线管理Hadoop集群资源的方法和装置
CN103713935B (zh) * 2013-12-04 2017-05-03 中国科学院深圳先进技术研究院 一种在线管理Hadoop集群资源的方法和装置
CN103823881B (zh) * 2014-03-04 2017-07-28 北京京东尚科信息技术有限公司 分布式数据库的性能优化的方法及装置
CN104346255A (zh) * 2014-10-21 2015-02-11 浪潮集团有限公司 一种云计算中自动监测进程内存使用情况的方法
CN104615526A (zh) * 2014-12-05 2015-05-13 北京航空航天大学 一种大数据平台的监控系统
CN104503909A (zh) * 2014-12-18 2015-04-08 浪潮(北京)电子信息产业有限公司 一种磁盘io性能的测试方法和装置
CN104750780B (zh) * 2015-03-04 2017-10-13 北京航空航天大学 一种基于统计分析的Hadoop配置参数优化方法
CN104750780A (zh) * 2015-03-04 2015-07-01 北京航空航天大学 一种基于统计分析的Hadoop配置参数优化方法
CN105490871A (zh) * 2015-11-19 2016-04-13 浪潮(北京)电子信息产业有限公司 一种测试Hadoop集群稳定性的方法及系统
CN105490871B (zh) * 2015-11-19 2019-03-15 浪潮(北京)电子信息产业有限公司 一种测试Hadoop集群稳定性的方法及系统
US10102098B2 (en) 2015-12-24 2018-10-16 Industrial Technology Research Institute Method and system for recommending application parameter setting and system specification setting in distributed computation
CN105760467A (zh) * 2016-02-05 2016-07-13 浪潮(北京)电子信息产业有限公司 一种数据实时读写方法、装置、系统及nfs服务器
CN105897503B (zh) * 2016-03-30 2019-02-19 广东工业大学 基于资源信息增益的Hadoop集群瓶颈检测方法
CN105897503A (zh) * 2016-03-30 2016-08-24 广东工业大学 基于资源信息增益的Hadoop集群瓶颈检测算法
CN106126407A (zh) * 2016-06-22 2016-11-16 西安交通大学 一种针对分布式存储系统的性能监控调优系统及方法
CN106126407B (zh) * 2016-06-22 2018-07-17 西安交通大学 一种针对分布式存储系统的性能监控调优系统及方法
CN106095646A (zh) * 2016-06-27 2016-11-09 江苏迪纳数字科技股份有限公司 基于多元线性回归模型的Hadoop集群节点性能计算方法
CN106202431B (zh) * 2016-07-13 2019-06-28 华中科技大学 一种基于机器学习的Hadoop参数自动调优方法及系统
CN106202431A (zh) * 2016-07-13 2016-12-07 华中科技大学 一种基于机器学习的Hadoop参数自动调优方法及系统
CN106557353A (zh) * 2016-11-04 2017-04-05 天津轻工职业技术学院 一种容器承载业务应用的服务器性能指标评价方法
CN109889561A (zh) * 2017-12-25 2019-06-14 新华三大数据技术有限公司 一种数据处理方法及装置
CN108108289A (zh) * 2018-01-11 2018-06-01 郑州云海信息技术有限公司 一种集群资源统计方法、系统、装置及可读存储系统
CN109062692A (zh) * 2018-07-24 2018-12-21 郑州云海信息技术有限公司 一种人脸识别深度学习训练平台的优化方法及系统
CN109298945A (zh) * 2018-10-17 2019-02-01 北京京航计算通讯研究所 面向大数据平台的Ceph分布式存储监控与调优管理方法
CN113495840A (zh) * 2021-06-22 2021-10-12 北京交通大学 基于瓶颈资源定位及参数调优的大数据平台测试方法
CN115277466A (zh) * 2022-07-04 2022-11-01 上海轩田工业设备有限公司 一种性能测试数据收集方法及系统
CN115277466B (zh) * 2022-07-04 2024-06-14 上海轩田智能科技股份有限公司 一种性能测试数据收集方法及系统

Similar Documents

Publication Publication Date Title
CN102929667A (zh) 一种hadoop集群性能的优化方法
CN103209087B (zh) 分布式日志统计处理方法和系统
US20130104135A1 (en) Data center operation
Lai et al. Towards a framework for large-scale multimedia data storage and processing on Hadoop platform
WO2015058578A1 (zh) 一种分布式计算框架参数优化方法、装置及系统
CN102200979A (zh) 一种分布式并行信息检索系统及其方法
Dagade et al. Big data weather analytics using hadoop
CN104750780A (zh) 一种基于统计分析的Hadoop配置参数优化方法
Wu et al. Modeling of distributed file systems for practical performance analysis
CN115335821A (zh) 卸载统计收集
Tariq et al. Modelling and prediction of resource utilization of hadoop clusters: A machine learning approach
CN106897313B (zh) 一种海量用户业务偏好评估方法和装置
CN112597369A (zh) 基于改良云平台的网页蜘蛛主题式搜索系统
Jin Research on data retrieval and analysis system based on Baidu reptile technology in big data era
CN103226572A (zh) 一种基于数据压缩的可扩展的监控方法及系统
He et al. A simulation cloud monitoring framework and its evaluation model
CN108134842A (zh) 一种云主机根据负载策略进行迁移的系统、方法
Lin et al. Design and implementation of vertical search engine based on hadoop
CN104182522A (zh) 一种基于循环位图模型的辅助索引方法及装置
Kakanakov Big data analytics in electricity distribution systems
Satsyk et al. Increasing the Speed and Performance of the Drupal CMS Server for Industrial IoT Technologies
Duellmann et al. Hadoop and friends-first experience at CERN with a new platform for high throughput analysis steps
Kumar et al. Raw Cardinality Information Discovery for Big Datasets
Zhang et al. Design and implementation of real-time log analysis system of map world platform
Zhang et al. Design and implementation of UGC-oriented news gathering system server-side for emergencies

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130213