CN105554132A - 一种Hadoop在线扩容的方法 - Google Patents
一种Hadoop在线扩容的方法 Download PDFInfo
- Publication number
- CN105554132A CN105554132A CN201510973380.1A CN201510973380A CN105554132A CN 105554132 A CN105554132 A CN 105554132A CN 201510973380 A CN201510973380 A CN 201510973380A CN 105554132 A CN105554132 A CN 105554132A
- Authority
- CN
- China
- Prior art keywords
- node
- hadoop
- ceph
- cluster
- capacity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000004927 fusion Effects 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 abstract 1
- 238000000638 solvent extraction Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0893—Assignment of logical groups to network elements
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种Hadoop在线扩容的方法,所述方法具体技术方案包括:1)Hadoop集群的搭建和维护;2)Ceph集群的搭建和维护;3)Hadoop集群与Ceph集群的融合;4)当需要扩展容量时,按照以下步骤,在ceph的主节点上进行在线扩容:a.格式化待扩展节点的硬盘;b.对待扩展节点的硬盘进行分区;c.激活该节点;d.将该系统中节点信息通知各个节点。本发明方法能够在不影响Hadoop集群当前的运行状态下,而实现存储空间的扩展。
Description
技术领域
本发明涉及分布式文件系统技术领域,具体涉及一种Hadoop在线扩容的方法。
背景技术
随着人类社会全面进入信息时代,数据成为与水、石油同等重要的战略资源。通过挖掘海量数据,能够使政府和企业的运行决策建立在更加科学的依据基础上,提高决策效率、危机应对能力和公共服务水平。大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
Hadoop是一个开发和运行处理大规模数据的软件平台,是Apache的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。
Hadoop框架中最核心设计就是:HDFS和MapReduce.HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。因此存储时Hadoop集群的一个重要功能,而在实际生产中,经常遇到Hadoop容量报警,而当前业务无法暂停的情况。
发明内容
本发明要解决的技术问题是:本发明提供一种Hadoop在线扩容的方法,能够实现Hadoop的在线扩容,极大的解决了上述问题。
本发明所采用的技术方案为:
一种Hadoop在线扩容的方法,所述方法具体技术方案包括:
1)Hadoop集群的搭建和维护;
2)Ceph集群的搭建和维护;
3)Hadoop集群与Ceph集群的融合;
4)当需要扩展容量时,按照以下步骤,在ceph的主节点上进行在线扩容:
a.格式化待扩展节点的硬盘;
b.对待扩展节点的硬盘进行分区;
c.激活该节点;
d.将该系统中节点信息通知各个节点。
所述Hadoop集群与Ceph集群的融合过程如下:
1)将ceph挂载到Hadoop集群某个节点的/mnt/ceph文件夹下;
2)将该文件夹配置到该节点的数据目录下;
3)重启HDFS。将ceph挂载到Hadoop节点时,需要Hadoop集群重启,以后进行扩容不需要重启。
HDFS,HadoopDistributedFileSystem,Hadoop分布式文件系统。
所述方法具体实现步骤如下:
1)准备千兆交换机一台,4台服务器构成1+3的Hadoop集群,其中一台Namenode,3台Datanode,Hadoop集群搭建完毕,运行正常,在Namenode节点,执行命令:hadoopfs–df–h,记录系统容量值;
2)准备4台服务器,搭建Ceph集群,Ceph集群搭建完毕,运行正常;
3)将ceph挂载到Hadoop集群某个节点的/mnt/ceph文件夹下;
4)将该文件夹配置到该节点的数据目录下;
5)重启HDFS;
6)当需要扩展容量时,按照以下步骤,在ceph的主节点上进行在线扩容:
a.格式化待扩展节点的硬盘;
b.对待扩展节点的硬盘进行分区;
c.激活该节点;
d.将该系统中节点信息通知各个节点。
进入Namenode节点,执行命令:hadoopfs–df–h,记录系统此时容量,对比步骤1)中的值,能够得出Hadoop的总容量增加了该节点的容量。
本发明的有益效果为:
本发明方法能够在不影响Hadoop集群当前的运行状态下,实现存储空间的扩展。
附图说明
图1为Hadoop集群架构示意图;
图2为ceph集群架构示意图。
具体实施方式
下面通过说明书附图,结合具体实施方式对本发明进一步说明:
实施例1:
一种Hadoop在线扩容的方法,其特征在于,所述方法具体技术方案包括:
1)Hadoop集群的搭建和维护,如图1所示;
2)Ceph集群的搭建和维护,如图2所示;
3)Hadoop集群与Ceph集群的融合;
4)当需要扩展容量时,按照以下步骤,在ceph的主节点上进行在线扩容:
a.icfs-deploydiskzapServer1:/dev/sdb(Server1即需要扩容的节点名称)格式化待扩展节点的硬盘;
b.icfs-deploy--overwrite-confosdprepareServer1:/dev/sdb对待扩展节点的硬盘进行分区;
c.icfs-deployosdactivateServer1:/dev/sdb1激活该节点;
d.icfs-deployadminServer1Server2Server3Server4将该系统中节点信息通知各个节点。此时,Hadoop节点的总容量增加了该节点的容量,从而不影响Hadoop集群当前的运行状态,而实现存储空间的扩展。
实施例2:
在实施例1的基础上,本实施例所述Hadoop集群与Ceph集群的融合过程如下:
1)将ceph挂载到Hadoop集群某个节点的/mnt/ceph文件夹下;
2)将该文件夹配置到该节点的数据目录下,即将/mnt/ceph添加到“dfs.datanode.data.dir”中;
3)重启HDFS。将ceph挂载到Hadoop节点时,需要Hadoop集群重启,以后进行扩容不需要重启。
Hadoop分布式文件系统(HDFS)HadoopDistributedFileSystem。
实施例3:
在实施例1或2的基础上,本实施例所述方法具体实现步骤如下:
1)准备千兆交换机一台,4台服务器构成1+3的Hadoop集群,其中一台Namenode,3台Datanode,Hadoop集群搭建完毕,运行正常,在Namenode节点,执行命令:hadoopfs–df–h,记录系统容量值;
2)准备4台服务器,搭建Ceph集群,Ceph集群搭建完毕,运行正常;
3)将ceph挂载到Hadoop集群某个节点的/mnt/ceph文件夹下;
4)将该文件夹配置到该节点的数据目录下,即将/mnt/ceph添加到“dfs.datanode.data.dir”中;
5)重启HDFS;
6)当需要扩展容量时,按照以下步骤,在ceph的主节点上进行在线扩容:
a.icfs-deploydiskzapServer1:/dev/sdb(Server1即需要扩容的节点名称)格式化待扩展节点的硬盘;
b.icfs-deploy--overwrite-confosdprepareServer1:/dev/sdb对待扩展节点的硬盘进行分区;
c.icfs-deployosdactivateServer1:/dev/sdb1激活该节点;
d.icfs-deployadminServer1Server2Server3Server4将该系统中节点信息通知各个节点。
实施例4:
在实施例3的基础上,本实施例中,进入Namenode节点,执行命令:hadoopfs–df–h,记录系统此时容量,对比步骤1)中的值,能够得出Hadoop的总容量增加了该节点的容量。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
Claims (4)
1.一种Hadoop在线扩容的方法,其特征在于,所述方法具体技术方案包括:
1)Hadoop集群的搭建和维护;
2)Ceph集群的搭建和维护;
3)Hadoop集群与Ceph集群的融合;
4)当需要扩展容量时,按照以下步骤,在ceph的主节点上进行在线扩容:
a.格式化待扩展节点的硬盘;
b.对待扩展节点的硬盘进行分区;
c.激活该节点;
d.将该系统中节点信息通知各个节点。
2.根据权利要求1所述的一种Hadoop在线扩容的方法,其特征在于,所述Hadoop集群与Ceph集群的融合过程如下:
1)将ceph挂载到Hadoop集群某个节点的/mnt/ceph文件夹下;
2)将该文件夹配置到该节点的数据目录下;
3)重启HDFS。
3.根据权利要求1或2所述的一种Hadoop在线扩容的方法,其特征在于,所述方法具体实现步骤如下:
1)准备千兆交换机一台,4台服务器构成1+3的Hadoop集群,其中一台Namenode,3台Datanode,Hadoop集群搭建完毕,运行正常,在Namenode节点,执行命令:hadoopfs–df–h,记录系统容量值;
2)准备4台服务器,搭建Ceph集群,Ceph集群搭建完毕,运行正常;
3)将ceph挂载到Hadoop集群某个节点的/mnt/ceph文件夹下;
4)将该文件夹配置到该节点的数据目录下;
5)重启HDFS;
6)当需要扩展容量时,在ceph的主节点上进行在线扩容。
4.根据权利要求3所述的一种Hadoop在线扩容的方法,其特征在于:进入Namenode节点,执行命令:hadoopfs–df–h,记录系统此时容量,对比步骤1)中的值,能够得出Hadoop的总容量增加了该节点的容量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510973380.1A CN105554132B (zh) | 2015-12-23 | 2015-12-23 | 一种Hadoop在线扩容的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510973380.1A CN105554132B (zh) | 2015-12-23 | 2015-12-23 | 一种Hadoop在线扩容的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105554132A true CN105554132A (zh) | 2016-05-04 |
CN105554132B CN105554132B (zh) | 2018-11-09 |
Family
ID=55833064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510973380.1A Active CN105554132B (zh) | 2015-12-23 | 2015-12-23 | 一种Hadoop在线扩容的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105554132B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220003A (zh) * | 2017-05-26 | 2017-09-29 | 郑州云海信息技术有限公司 | 一种数据读取方法和系统 |
CN107786365A (zh) * | 2016-08-31 | 2018-03-09 | 北京金山云网络技术有限公司 | 一种集群扩容方法及装置 |
CN109033250A (zh) * | 2018-07-06 | 2018-12-18 | 内蒙古大学 | 一种支持大数据文件访问服务的高可用性对象存储方法 |
CN110209342A (zh) * | 2018-03-26 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 云硬盘的扩容方法、装置、设备及系统 |
CN111367858A (zh) * | 2020-03-10 | 2020-07-03 | 山东汇贸电子口岸有限公司 | 一种Ceph集群OSD加速盘扩容方法 |
CN112799602A (zh) * | 2021-02-24 | 2021-05-14 | 浪潮云信息技术股份公司 | 一种云硬盘在线扩容方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103067433A (zh) * | 2011-10-24 | 2013-04-24 | 阿里巴巴集团控股有限公司 | 一种分布式存储系统的数据迁移方法、设备和系统 |
CN103108029A (zh) * | 2012-12-13 | 2013-05-15 | 中国科学院深圳先进技术研究院 | vod系统的数据访问方法 |
CN103581332A (zh) * | 2013-11-15 | 2014-02-12 | 武汉理工大学 | HDFS架构及HDFS架构中NameNode节点的压力分解方法 |
CN103631820A (zh) * | 2012-08-27 | 2014-03-12 | 阿里巴巴集团控股有限公司 | 分布式文件系统的元数据管理方法及设备 |
CN104462811A (zh) * | 2014-12-05 | 2015-03-25 | 云中万维(北京)科技有限公司 | 网络游戏数据处理方法 |
US9020802B1 (en) * | 2012-03-30 | 2015-04-28 | Emc Corporation | Worldwide distributed architecture model and management |
CN104601693A (zh) * | 2015-01-13 | 2015-05-06 | 北京京东尚科信息技术有限公司 | 一种分布式系统中响应操作指令的方法和装置 |
-
2015
- 2015-12-23 CN CN201510973380.1A patent/CN105554132B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103067433A (zh) * | 2011-10-24 | 2013-04-24 | 阿里巴巴集团控股有限公司 | 一种分布式存储系统的数据迁移方法、设备和系统 |
US9020802B1 (en) * | 2012-03-30 | 2015-04-28 | Emc Corporation | Worldwide distributed architecture model and management |
CN103631820A (zh) * | 2012-08-27 | 2014-03-12 | 阿里巴巴集团控股有限公司 | 分布式文件系统的元数据管理方法及设备 |
CN103108029A (zh) * | 2012-12-13 | 2013-05-15 | 中国科学院深圳先进技术研究院 | vod系统的数据访问方法 |
CN103581332A (zh) * | 2013-11-15 | 2014-02-12 | 武汉理工大学 | HDFS架构及HDFS架构中NameNode节点的压力分解方法 |
CN104462811A (zh) * | 2014-12-05 | 2015-03-25 | 云中万维(北京)科技有限公司 | 网络游戏数据处理方法 |
CN104601693A (zh) * | 2015-01-13 | 2015-05-06 | 北京京东尚科信息技术有限公司 | 一种分布式系统中响应操作指令的方法和装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107786365A (zh) * | 2016-08-31 | 2018-03-09 | 北京金山云网络技术有限公司 | 一种集群扩容方法及装置 |
CN107220003A (zh) * | 2017-05-26 | 2017-09-29 | 郑州云海信息技术有限公司 | 一种数据读取方法和系统 |
CN107220003B (zh) * | 2017-05-26 | 2020-03-24 | 郑州云海信息技术有限公司 | 一种数据读取方法和系统 |
CN110209342A (zh) * | 2018-03-26 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 云硬盘的扩容方法、装置、设备及系统 |
CN109033250A (zh) * | 2018-07-06 | 2018-12-18 | 内蒙古大学 | 一种支持大数据文件访问服务的高可用性对象存储方法 |
CN109033250B (zh) * | 2018-07-06 | 2021-06-08 | 内蒙古大学 | 一种支持大数据文件访问服务的高可用性对象存储方法 |
CN111367858A (zh) * | 2020-03-10 | 2020-07-03 | 山东汇贸电子口岸有限公司 | 一种Ceph集群OSD加速盘扩容方法 |
CN111367858B (zh) * | 2020-03-10 | 2024-02-20 | 山东汇贸电子口岸有限公司 | 一种Ceph集群OSD加速盘扩容方法 |
CN112799602A (zh) * | 2021-02-24 | 2021-05-14 | 浪潮云信息技术股份公司 | 一种云硬盘在线扩容方法 |
CN112799602B (zh) * | 2021-02-24 | 2023-03-28 | 浪潮云信息技术股份公司 | 一种云硬盘在线扩容方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105554132B (zh) | 2018-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105554132A (zh) | 一种Hadoop在线扩容的方法 | |
Compton et al. | Geotagging one hundred million twitter accounts with total variation minimization | |
Yan et al. | A fog computing solution for advanced metering infrastructure | |
CN111274282B (zh) | 一种空气质量挖掘系统、方法及数据采集监控装置 | |
CN106599104A (zh) | 一种基于redis集群的海量数据关联方法 | |
CN106210124B (zh) | 一种统一的云数据中心监控系统 | |
CN103581332A (zh) | HDFS架构及HDFS架构中NameNode节点的压力分解方法 | |
CN109150964B (zh) | 一种可迁移的数据管理方法及服务迁移方法 | |
CN111523004B (zh) | 一种边缘计算网关数据的存储方法及系统 | |
CN102780769A (zh) | 一种基于云计算平台的容灾存储方法 | |
CN111125294A (zh) | 一种空间关系的知识图谱数据模型表示方法及系统 | |
Liu et al. | On construction of an energy monitoring service using big data technology for smart campus | |
CN115858513A (zh) | 数据治理方法、装置、计算机设备和存储介质 | |
CN113177088B (zh) | 一种材料辐照损伤多尺度模拟大数据管理系统 | |
Lee et al. | A big data management system for energy consumption prediction models | |
CN110674080A (zh) | 一种基于NiFi的大数据量非结构文件采集方法及系统 | |
US10990611B1 (en) | Adaptive data processing system and method | |
Chen et al. | A design of distributed storage and processing system for internet of vehicles | |
Azim et al. | Offsite 2-Way Data Replication toward Improving Data Refresh Performance | |
CN104239525A (zh) | 一种基于互联网的分布式存储方法 | |
Ma et al. | The construction of big data computational intelligence system for E-government in cloud computing environment and its development impact | |
CN113761293A (zh) | 图数据强连通分量挖掘方法、装置、设备及存储介质 | |
CN113139258A (zh) | 道路数据处理方法、装置、设备及存储介质 | |
CN105490871A (zh) | 一种测试Hadoop集群稳定性的方法及系统 | |
Zhang et al. | Scalable mobile data streaming with trajectory preserving partitioning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230414 Address after: 250000 building S02, No. 1036, Langchao Road, high tech Zone, Jinan City, Shandong Province Patentee after: Shandong Inspur Scientific Research Institute Co.,Ltd. Address before: No. 1036, Shandong high tech Zone wave road, Ji'nan, Shandong Patentee before: INSPUR GROUP Co.,Ltd. |
|
TR01 | Transfer of patent right |