CN111125005B - 一种hdfs分布式文件系统io性能调优方法、系统及设备 - Google Patents

一种hdfs分布式文件系统io性能调优方法、系统及设备 Download PDF

Info

Publication number
CN111125005B
CN111125005B CN201911223200.2A CN201911223200A CN111125005B CN 111125005 B CN111125005 B CN 111125005B CN 201911223200 A CN201911223200 A CN 201911223200A CN 111125005 B CN111125005 B CN 111125005B
Authority
CN
China
Prior art keywords
test
hdfs
distributed file
optimal
file system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911223200.2A
Other languages
English (en)
Other versions
CN111125005A (zh
Inventor
申晓青
贾晓露
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201911223200.2A priority Critical patent/CN111125005B/zh
Publication of CN111125005A publication Critical patent/CN111125005A/zh
Application granted granted Critical
Publication of CN111125005B publication Critical patent/CN111125005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提出的一种HDFS分布式文件系统IO性能调优方法、系统及设备,适用于特定场景评估HDFS最优I/O性能。它可以根据用户对精确度、性能测试时间等要求来分等级评估HDFS最优的I/O性能和配置。使用该调优装置,可避免认为因素的影响,导致多次测试的差异性。

Description

一种HDFS分布式文件系统IO性能调优方法、系统及设备
技术领域
本发明涉及文件系统技术领域,更具体的说是涉及一种HDFS分布式文件系统IO性能调优方法、系统及设备。
背景技术
Hadoop Distributed File System(HDFS)—Apache Hadoop项目的子项目,是一个高度容错的分布式文件系统,设计用于在低成本硬件上运行。HDFS提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。
HDFS是大数据平台存储基础,评估一个大数据平台的能力,首当其冲是判断该平台HDFS I/O性能。目前市场主流的测试场景有两种,一种是基于固定集群配置挖掘HDFS极限I/O性能,一种是基于特定场景评估HDFS最优I/O性能。不同测试场景采用的思路大相径庭。本发明仅针对基于特定场景评估HDFS最优I/O性能调优。
传统的测试采用手动调优的方式实现。这种方式存在一些问题,首先测试人员的高要求,手动调参人员需具备一定的操作系统底层、Yarn、MapReduce、资源监控分析等技能和分析能力;其次,调参趋向性亦受人为因素的影响,这就导致HDFS系统I/O性能调优存在一定的失真风险。
发明内容
针对以上问题,本发明的目的在于提供一种HDFS分布式文件系统IO性能调优方法、系统及设备。
本发明为实现上述目的,通过以下技术方案实现:一种HDFS分布式文件系统IO性能调优方法,包括如下步骤:
S1:确定HDFS测试场景和集群可用资源区间;
S2:形成数据训练库;
S3:创建数据模型并形成预测矩阵,输出最优值及最优配置。
进一步,所述步骤S1包括:
S11:确定HDFS分布式文件系统I/O性能测试采用TestDFSIO测试工具;
S12:明确集群的Yarn资源、MapRduce资源区间和集群硬件总资源。
进一步,所述步骤S12具体为:
通过Ambari监控UI明确Yarn资源和MapRduce资源区间;
通过linux指令lscpu或cat/proc/meminfo明确集群硬件总资源。
进一步,所述步骤S2包括:
S21:在默认推荐配置下执行TestDFSIO测试工具的测试语句,将结果以矩阵的形式存放;
S22:在获取集群可用资源区间内抽样分配更新参数,并将测试结果以矩阵的形式输出。
进一步,所述步骤S3包括:
S31:根据数据训练库、随机森林和贝叶斯算法,生成预测矩阵;
S32:根据预测矩阵中的参数使用预设脚本进行测试。
进一步,所述步骤S32之后还包括:
S33:将测试结果添加至数据训练库;
S34:进行数据模型创建,预测矩阵形成、自动化测试操作,直至多次连续循环测试结果均达到最优,则输出最优值及最优配置。
相应的,本发明还公开了一种HDFS分布式文件系统IO性能调优系统,包括:确定单元,用于确定HDFS测试场景和集群可用资源区间;
形成单元,用于形成数据训练库;
输出单元,用于创建数据模型并形成预测矩阵,输出最优值及最优配置。
相应的,本发明还公开了一种HDFS分布式文件系统IO性能调优设备,包括:存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上文任一项所述HDFS分布式文件系统IO性能调优方法步骤。
对比现有技术,本发明有益效果在于:本发明提供了一种HDFS分布式文件系统IO性能调优方法、系统及设备,适用于特定场景评估HDFS最优I/O性能。它可以根据用户对精确度、性能测试时间等要求来分等级评估HDFS最优的I/O性能和配置。使用该调优装置,可避免认为因素的影响,导致多次测试的差异性。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
附图1是本发明实施例一的方法流程图。
附图2是本发明实施例二的流程框图。
附图3是本发明的系统结构图。
具体实施方式
下面结合附图对本发明的具体实施方式做出说明。
实施例一:
如图1所示的一种HDFS分布式文件系统IO性能调优方法,包括如下步骤:
步骤1:确定HDFS分布式文件系统I/O性能测试采用TestDFSIO测试工具。
步骤2:明确集群的Yarn资源、MapRduce资源区间和集群硬件总资源。
步骤3:在默认推荐配置下执行TestDFSIO测试工具的测试语句,将结果以矩阵的形式存放。
步骤4:在获取集群可用资源区间内抽样分配更新参数,并将测试结果以矩阵的形式输出。
步骤5:根据数据训练库、随机森林和贝叶斯算法,生成预测矩阵;
步骤6:根据预测矩阵中的参数使用预设脚本进行测试。
步骤7:将测试结果添加至数据训练库;
步骤8:进行数据模型创建,预测矩阵形成、自动化测试操作,直至多次连续循环测试结果均达到最优,则输出最优值及最优配置。
实施例二:
如图2所示的一种HDFS分布式文件系统IO性能调优方法,包括:
1确定HDFS测试场景、集群可用资源区间:
1.1HDFS分布式文件系统I/O性能测试采用TestDFSIO测试工具。使用该工具的首先要确定并发量及文件大小。如测试场景并发量为2万,文件大小为100M;则可使用如下指令测试:
su-hdfs-c"hadoop jar hadoop-mapreduce-client-jobclient.jar
TestDFSIO-write-nrFiles 20000-fileSize 100-resFile/tmp/
result.log"
说明:
(1)hadoop-mapreduce-client-jobclient.jar为大数据平台自带测试jar包;
(2)TestDFSIO为所用的测试工具;-nrFiles为文件并发量;-fileSize为每个文件大小;
(3)该指令可放在shell脚本中自动执行。
1.2明确集群可用资源区间,如
明确Yarn资源和MapRduce资源区间:可通过Ambari监控UI观测。
明确集群硬件总资源,可通过linux指令如lscpu、cat/proc/meminfo等。
2形成数据训练库:
数据模型通过对样本数据的输入和输出关联性学习产生的预测模型。因此首先要形成数据训练库,以备后续数据模型的创建。
由于HDFS分布式文件系统I/O性能调参主要有3类,一类是不可动态更改参数(大数据参数);一类为可传参更新参数(大数据参数);另一类为操作系统底层配置参数。因此形成数据训练库时,也从这三方面进行样本数据的生成。
2.1在默认推荐配置下执行1.1中的语句,将结果以矩阵的形式存放,如:
Figure BDA0002301430670000051
默认推荐配置测试结果可以作为参考值。
2.2后续更新参数可在对应1.2获取集群可用资源区间内抽样分配,测试结果同2.1形式输出。
说明,为了保证后续数据模型的精确度,建议在可用资源区间尽可能多的抽样,进行参数组合测试,形成数据训练库。
另外,对于可传参更新参数可使用–D参数名=值的方式结合shell脚本自动执行,如设置map-vcore为2,reduce-vcore为4,则可执行:
su-hdfs-c"hadoop jar
/usr/hdp/2.6.2.14-5/hadoop-mapreduce/hadoop-mapreduce-client-jobclient.jar TestDFSIO-Dmapreduce.map.cpu.vcores=2
-Dmapreduce.reduce.cpu.vcores=4-write-nrFiles 20000-fileSize 100-resFile/result1016-1.log"
对于操作系统底层配置参数,可使用shell脚本中for语句对所有节点更新,如更新节点的CPU线程数。
for i in{1..5};do ssh 172.155.2.$i ppc64_cpu--smt=2;done
对于不可动态更改参数可使用REST API或者手动方式更新测试(不可更改参数目前评估主要有2个)。
3创建数据模型并形成预测矩阵,输出最优值及最优配置:
根据上面形成的数据训练库,根据现有的随机森林和贝叶斯算法,生成预测矩阵,然后根据预测矩阵中的参数使用自动化脚本测试。将测试结果添加至第2节中的数据训练库,进一步进行数据模型创建,预测矩阵形成、自动化测试操作。直至多次连续循环测试结果均达到最优(允许有一定误差),则输出最优值及最优配置。
说明:误差用户可以根据对精确度、测试时间的要求自定义。
相应的,如图3所示,本发明还公开了一种HDFS分布式文件系统IO性能调优系统,包括:
确定单元,用于确定HDFS测试场景和集群可用资源区间;
形成单元,用于形成数据训练库;
输出单元,用于创建数据模型并形成预测矩阵,输出最优值及最优配置。
相应的,本发明还公开了一种HDFS分布式文件系统IO性能调优设备,包括:存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上文任一项所述HDFS分布式文件系统IO性能调优方法步骤。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,包括若干指令用以使得一台计算机终端(可以是个人计算机,服务器,或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于终端实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。
同理,在本发明各个实施例中的各处理单元可以集成在一个功能模块中,也可以是各个处理单元物理存在,也可以两个或两个以上处理单元集成在一个功能模块中。
结合附图和具体实施例,对本发明作进一步说明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所限定的范围。

Claims (5)

1.一种HDFS分布式文件系统IO性能调优方法,其特征在于,包括如下步骤:
S1:确定HDFS测试场景和集群可用资源区间;
S2:形成数据训练库;
S3:创建数据模型并形成预测矩阵,输出最优值及最优配置;
所述步骤S2包括:
S21:在默认推荐配置下执行TestDFSIO测试工具的测试语句,将结果以矩阵的形式存放;
S22:在获取集群可用资源区间内抽样分配更新参数,并将测试结果以矩阵的形式输出;
所述步骤S3包括:
S31:根据数据训练库、随机森林和贝叶斯算法,生成预测矩阵;
S32:根据预测矩阵中的参数使用预设脚本进行测试;
S33:将测试结果添加至数据训练库;
S34:进行数据模型创建,预测矩阵形成、自动化测试操作,直至多次连续循环测试结果均达到最优,则输出最优值及最优配置。
2.根据权利要求1所述的HDFS分布式文件系统IO性能调优方法,其特征在于,所述步骤S1包括:
S11:确定HDFS分布式文件系统I/O性能测试采用TestDFSIO测试工具;
S12:明确集群的Yarn资源、MapRduce资源区间和集群硬件总资源。
3.根据权利要求2所述的HDFS分布式文件系统IO性能调优方法,其特征在于,所述步骤S12具体为:
通过Ambari监控UI明确Yarn资源和MapRduce资源区间;
通过linux指令lscpu或cat/proc/meminfo明确集群硬件总资源。
4.一种HDFS分布式文件系统IO性能调优系统,其特征在于,包括:
确定单元,用于确定HDFS测试场景和集群可用资源区间;
形成单元,用于形成数据训练库;
输出单元,用于创建数据模型并形成预测矩阵,输出最优值及最优配置;
所述形成单元具体用于:
在默认推荐配置下执行TestDFSIO测试工具的测试语句,将结果以矩阵的形式存放;
在获取集群可用资源区间内抽样分配更新参数,并将测试结果以矩阵的形式输出;
所述输出单元具体用于:
根据数据训练库、随机森林和贝叶斯算法,生成预测矩阵;
根据预测矩阵中的参数使用预设脚本进行测试;
将测试结果添加至数据训练库;
进行数据模型创建,预测矩阵形成、自动化测试操作,直至多次连续循环测试结果均达到最优,则输出最优值及最优配置。
5.一种HDFS分布式文件系统IO性能调优设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至3任一项所述HDFS分布式文件系统IO性能调优方法步骤。
CN201911223200.2A 2019-12-03 2019-12-03 一种hdfs分布式文件系统io性能调优方法、系统及设备 Active CN111125005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911223200.2A CN111125005B (zh) 2019-12-03 2019-12-03 一种hdfs分布式文件系统io性能调优方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911223200.2A CN111125005B (zh) 2019-12-03 2019-12-03 一种hdfs分布式文件系统io性能调优方法、系统及设备

Publications (2)

Publication Number Publication Date
CN111125005A CN111125005A (zh) 2020-05-08
CN111125005B true CN111125005B (zh) 2022-07-08

Family

ID=70497382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911223200.2A Active CN111125005B (zh) 2019-12-03 2019-12-03 一种hdfs分布式文件系统io性能调优方法、系统及设备

Country Status (1)

Country Link
CN (1) CN111125005B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118012718B (zh) * 2024-04-02 2024-07-12 北京大道云行科技有限公司 一种分布式存储系统的实时监控方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021084A (zh) * 2016-05-23 2016-10-12 浪潮电子信息产业股份有限公司 一种进行服务器性能测试的方法及装置
CN108959012A (zh) * 2018-06-20 2018-12-07 郑州云海信息技术有限公司 一种基于Hadoop的服务器磁盘性能测试系统及方法
CN110390345A (zh) * 2018-04-20 2019-10-29 复旦大学 一种基于云平台的大数据集群自适应资源调度方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021084A (zh) * 2016-05-23 2016-10-12 浪潮电子信息产业股份有限公司 一种进行服务器性能测试的方法及装置
CN110390345A (zh) * 2018-04-20 2019-10-29 复旦大学 一种基于云平台的大数据集群自适应资源调度方法
CN108959012A (zh) * 2018-06-20 2018-12-07 郑州云海信息技术有限公司 一种基于Hadoop的服务器磁盘性能测试系统及方法

Also Published As

Publication number Publication date
CN111125005A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
Mahgoub et al. {OPTIMUSCLOUD}: Heterogeneous configuration optimization for distributed databases in the cloud
US10552292B2 (en) System, method and computer product for management of proof-of-concept software pilots, including neural network-based KPI prediction
US10592372B2 (en) Confidence-controlled sampling methods and systems to analyze high-frequency monitoring data and event messages of a distributed computing system
CN111124850A (zh) Mqtt服务器性能测试方法、系统、计算机设备及存储介质
US10303517B1 (en) Automated evaluation of computer programming
US10331657B1 (en) Contention analysis for journal-based databases
CN112087313B (zh) 用于生成网络模拟场景的技术
CN110019116B (zh) 数据追溯方法、装置、数据处理设备及计算机存储介质
US10133767B1 (en) Materialization strategies in journal-based databases
CA2889884C (en) System for transform generation
Schelter et al. Factorbird-a parameter server approach to distributed matrix factorization
CN114490375A (zh) 应用程序的性能测试方法、装置、设备及存储介质
Papapanagiotou et al. Ndbench: Benchmarking microservices at scale
CN111125005B (zh) 一种hdfs分布式文件系统io性能调优方法、系统及设备
Bader Comparison of time series databases
Proficz et al. Performance and power-aware modeling of MPI applications for cluster computing
Tiwari et al. Identification of critical parameters for MapReduce energy efficiency using statistical Design of Experiments
Raith Container scheduling on heterogeneous clusters using machine learning-based workload characterization
Bodik Automating datacenter operations using machine learning
Logan et al. Extending Skel to support the development and optimization of next generation I/O systems
CN112527584A (zh) 基于脚本编写及数据采集的软件效能提升方法和系统
Casas Sáez Big data analytics on container-orchestrated systems
Du Opaque response generation enabling automatic creation of virtual services for service virtualisation
Rafay Performance analysis/measurements with cassandra and hbase
Stackowiak et al. Analyzing and Visualizing Data in Azure

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant