CN104243564A - 一种面向aws平台的分布式数据管理方法 - Google Patents

一种面向aws平台的分布式数据管理方法 Download PDF

Info

Publication number
CN104243564A
CN104243564A CN201410444864.2A CN201410444864A CN104243564A CN 104243564 A CN104243564 A CN 104243564A CN 201410444864 A CN201410444864 A CN 201410444864A CN 104243564 A CN104243564 A CN 104243564A
Authority
CN
China
Prior art keywords
data
carry
cluster
aws
volume group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410444864.2A
Other languages
English (en)
Inventor
陆佳民
冯钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201410444864.2A priority Critical patent/CN104243564A/zh
Publication of CN104243564A publication Critical patent/CN104243564A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开一种面向AWS平台的分布式数据管理方法,属于信息技术处理领域。本方法公开了面向AWS(AmazonWebServices亚马逊网络服务系统)平台,进行快速且廉价的数据分布方法。本发明明确了基于AWS所提供的EC2(ElasticComputeCloud弹性计算云)和EBS(ElasticBlockStorage弹性块存储)服务,采用集中式数据划分与分配、并行配对挂载、存储与处理服务分离等手段,实现了在大规模集群内进行批量快速的数据导入准备,同时在集群计算资源被回收后,实现低成本的数据存储与复用,从而将集群数据的准备时间与费用成本降到最低。

Description

一种面向AWS平台的分布式数据管理方法
 
技术领域
本发明涉及一种面向AWS平台的分布式数据管理方法,属于信息技术处理领域。
背景技术
AWS(Amazon Web Services 亚马逊网络服务系统)是由亚马逊公司于2002年开始运营的云计算平台,提供多种类型的远端Web服务。其中的EC2(Elastic Compute Cloud 弹性计算云)服务可以让用户以租用虚拟计算机(实例)方式,远程使用不同类型的计算机系统,并且运行任何自己所需要的软件。租用虚拟计算机的价格随提供的硬件资源多少而区分,并且用户可以随时创建、运行和终止服务,因此AWS EC2被视为一个灵活的、相对廉价的云计算平台。EBS(Elastic Block Storage 弹性块存储)服务亦是由AWS提供的,用于支持持久性数据块级存储需求。EBS卷组独立于EC2实例的生命周期,通过网络驱动伪装成块设备的方式使其能够成为任意实例的虚拟存储设备,并可在实例终止后继续存在,实现数据复用。AWS同时提供了S3(Simple Storage Service)服务来进行网络数据存储,但其更适用于静态的数据存储,S3设备可以转换为EBS卷组来进行使用。
由于受到AWS自身服务的限制,在利用申请大量EC2实例组建计算机集群时,实例内的EBS卷组资源在实例被暂停或终止后即被收回,相应地存储在EBS卷组内的数据也会同时丢失。
针对这一问题,常见的解决方法是待集群建立完毕后,再利用主实例进行数据的导入与分布。在这一过程中,其它实例因为没有参与到实际的数据处理过程当中,处于被动等待状态,因此造成了大量计算资源的浪费。
最后,当集群被终止后,产生的并行数据结果也需要再收集到额外的EBS或S3设备中去,同样造成了AWS资源的浪费。
因此,这种EC2实例内部EBS的不稳定性,造成了在大规模实例集群是进行数据分布与保存的技术难点。
目前,也没有公开发表的技术或手段来对此问题加以解决。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种面向AWS平台的分布式数据管理方法。首先采用集中式的数据划分与分配,利用一台EC2实例来完成所有的数据分布任务,降低了整体AWS资源的使用。其次通过并行配对挂载的方法,将大量实例资源与已分配数据的EBS卷组进行配对挂载,快速构建起可用的计算机集群。最后待处理任务结束后,统一卸载外部挂载的EBS卷组,达到了计算资源与存储设备的分离,在不消耗额外计算与存储资源的前提下实现了数据复用的目的。
技术方案:一种面向AWS平台的分布式数据管理方法,包括如下步骤:
步骤1,创建单台实例并挂载大量小容量EBS卷组,实现大数据的划分与分配,具体方法为:
步骤1-1,依据卷组标签扫描所需EBS卷组ID,采用循环模式分配存储设备名称,在实例外部利用EC2命令行工具进行挂载后向实例提交所有设备名;
步骤1-2,实例内部创建所有挂载文件路径并赋予相应权限,与接收到的存储设备进行系统级别挂载;
步骤1-3,利用用户自定义方法对集群数据进行划分,并对应转移到相应的小容量存储设备中去;
步骤2,创建全部集群实例,与得到数据分配后的EBS卷组进行并行匹配挂载;
步骤2-1,依据资源标签扫描可用的EBS卷组与集群实例ID,利用循环模式进行配对挂载后,对每一实例上传分配的存储设备名;
步骤2-2,并行访问所有实例,创建挂载文件路径并赋予读写权限,在系统级别挂载设备;
步骤3,待计算任务结束后,对存储服务与计算服务进行分离,卸载所有EBS卷组并终止集群实例,将并行数据结果单独存留在EBS卷组中。
以上发明内容中所述的EC2命令行工具是指由AWS EC2服务提供的,通过文本命令方式来运行服务的脚本;所述EBS卷组是指由AWS提供的,具有独立生命周期的网络存储设备,可以与EC2实例通过网络驱动的方式的连接,来提供持久性的数据块级存储。每个EBS卷组与EC2实例,都具有惟一的ID编号,并可通过添加标签的方式来进行语义上的区分。
本发明采用上述技术方案,具有以下有益效果: 
1、方法在集群建立之前就可利用一台EC2实例来完成所有的数据分布任务,显著降低了整体AWS的资源消耗;
2、待集群创建后,方法采用并行配对挂载的方法,可将所需数据快速分布到整个集群系统内,提高了数据分布准备的效率;
3、存储有并行处理结果数据的EBS卷组,可以在处理任务结束后,继续持久保存,以极低的成本达到了数据复用的目的。
附图说明
图1为本发明实施例的面向AWS平台的分布式数据的划分与配置流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
利用面向AWS平台的分布式数据管理方法进行并行处理系统的数据分配与并行挂载的最小对象为一台设置有EC2命令行工具的可联网的计算机设备和一个可以有效申请AWS各类资源的Amazon账号。
在对数据进行分布管理之前,需要进行预处理,具体操作如下:检测当前计算机系统内是否准备有EC2命令行工具,工具均为可执行的系统脚本,以“ec2-”为命名前缀,也可通过命令如“ec2-describe-regions”来进行实地验证,此命令用于打印所有可用的EC2数据中心名称;检测当前计算机内是否存在AWS EC2账户私有密钥,如不存在,则可通过访问EC2图形化网页界面来获取。
通过上述预处理后,即可按照图1所示的流程图,实现面向AWS平台的分布式数据的划分与配置流程,包括以下步骤:
步骤1,利用EC2命令行工具或AWS提供的网页控制终端,启动一台EC2实例与若干小容量EBS卷组,卷组的数量由用户自行定义并添加描述标签(如“data”),用以实现大数据的划分与分配,具体方法为:
步骤1-1,利用EC2命令行工具中的“ec2-describe-volumes”,依据卷组标签扫描所需EBS卷组ID,采用循环模式分配存储设备名称,在实例外部利用EC2命令行工具进行挂载后向实例提交所有设备名,设备名称一般由“sd”开头,加上f-p之间单个字母,以及由1-15内的数字;
步骤1-2,实例内部创建所有挂载文件路径并赋予相应权限,利用mount指令与接收到的存储设备进行系统级别挂载;
步骤1-3,导入大数据后,利用用户自定义的划分方法对数据进行分割,并将相应需要的文件一一拷贝入挂载后的小容量EBS卷组内;
步骤1-4,卸载所有已分配数据的EBS卷组;
步骤2,利用EC2命令行工具或AWS提供的网页控制终端来创建大量EC2实例,来构建计算机集群,并与步骤2中产生的EBS卷组进行并行匹配挂载,具体方法为:
步骤2-1,依据资源标签扫描可用的EBS卷组与集群实例ID,利用EC2命令行工具中的“ec2-describe-instances”以及“ec2-describe-volumes”,
步骤2-2,利用EC2命令行工具“ec2-attach-volume ”,基于循环模式对实例与卷组进行配对挂载,对每一实例上传分配的存储设备名,每个终端在保证设备名称惟一性的前提下可以获得一个或多个卷组,匹配后的设备名被上传至实例中的特定文件“/tmp/.matchedVolumes”;
步骤2-3,并行访问所有实例,上传集群内加密传输的密钥,得以从控制端在无需密码下的情况下远程访问所有相关实例;
步骤2-4,在每个实例中,创建挂载文件路径并赋予读写权限,读取上传的卷组匹配文件并利用mount指令在系统级别对相关设备进行挂载。
步骤3,待计算任务结束后,对存储服务与计算服务进行分离,卸载所有EBS卷组并终止集群实例,将并行数据结果单独存留在EBS卷组中。

Claims (3)

1.一种面向AWS平台的分布式数据管理方法,其特征在于,利用集中式数据分配与批量式数据挂载的方式来进行大规模集群数据准备,包括如下步骤:
步骤1,创建单台实例并挂载大量小容量EBS卷组,实现大数据的划分与分配;
步骤2,创建全部集群实例,与得到数据分配后的EBS卷组进行并行匹配挂载;
步骤3,待计算任务结束后,对存储服务与计算服务进行分离,卸载所有EBS卷组并终止集群实例,将并行数据结果单独存留在EBS卷组中。
2.根据权利要求1所述的一种面向AWS平台的分布式数据管理方法,其特征在于,步骤1的数据分配,具体步骤为:
步骤1-1,依据卷组标签扫描所需EBS卷组ID,采用循环模式分配存储设备名称,在实例外部利用EC2命令行工具进行挂载后向实例提交所有设备名;
步骤1-2,实例内部创建所有挂载文件路径并赋予相应权限,与接收到的存储设备进行系统级别挂载;
步骤1-3,利用用户自定义方法对集群数据进行划分,并对应转移到相应的小容量存储设备中去。
3.根据权利要求1所述的一种面向AWS平台的分布式数据管理方法,其特征在于步骤2的并行配对挂载,具体步骤为:
步骤2-1,依据资源标签扫描可用的EBS卷组与集群实例ID,利用循环模式进行配对挂载后,对每一实例上传分配的存储设备名;
步骤2-2,并行访问所有实例,创建挂载文件路径并赋予读写权限,在系统级别挂载设备。
CN201410444864.2A 2014-09-03 2014-09-03 一种面向aws平台的分布式数据管理方法 Pending CN104243564A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410444864.2A CN104243564A (zh) 2014-09-03 2014-09-03 一种面向aws平台的分布式数据管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410444864.2A CN104243564A (zh) 2014-09-03 2014-09-03 一种面向aws平台的分布式数据管理方法

Publications (1)

Publication Number Publication Date
CN104243564A true CN104243564A (zh) 2014-12-24

Family

ID=52230893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410444864.2A Pending CN104243564A (zh) 2014-09-03 2014-09-03 一种面向aws平台的分布式数据管理方法

Country Status (1)

Country Link
CN (1) CN104243564A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105187502A (zh) * 2015-08-07 2015-12-23 北京思特奇信息技术股份有限公司 一种基于分布式弹性块存储的方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130086585A1 (en) * 2011-09-30 2013-04-04 International Business Machines Corporation Managing the Persistent Data of a Pre-Installed Application in an Elastic Virtual Machine Instance
US20130104126A1 (en) * 2011-10-24 2013-04-25 Infosys Limited System and method for dynamically creating machine images for instantiating virtual machines

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130086585A1 (en) * 2011-09-30 2013-04-04 International Business Machines Corporation Managing the Persistent Data of a Pre-Installed Application in an Elastic Virtual Machine Instance
CN103034453A (zh) * 2011-09-30 2013-04-10 国际商业机器公司 管理虚拟机实例中预安装应用的持久数据的方法和装置
US20130104126A1 (en) * 2011-10-24 2013-04-25 Infosys Limited System and method for dynamically creating machine images for instantiating virtual machines

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105187502A (zh) * 2015-08-07 2015-12-23 北京思特奇信息技术股份有限公司 一种基于分布式弹性块存储的方法和系统

Similar Documents

Publication Publication Date Title
CN109213600B (zh) 一种基于ai云的gpu资源调度方法和装置
CN107431651B (zh) 一种网络服务的生命周期管理方法及设备
US20140137111A1 (en) Host naming application programming interface
CN103810061B (zh) 一种高可用云存储方法
US20120215920A1 (en) Optimized resource management for map/reduce computing
CN105450618A (zh) 一种api服务器处理大数据的运算方法及其系统
CN109189841A (zh) 一种多数据源访问方法及系统
CN104346135A (zh) 数据流并行处理的方法、设备及系统
CN105205154A (zh) 数据迁移方法以及装置
CN103475704A (zh) 一种面向虚拟机群应用的虚拟节点配置方法
CN102316043A (zh) 端口虚拟化方法、交换机及通信系统
CN111596927B (zh) 服务部署方法、装置及电子设备
CN104239122A (zh) 一种虚拟机迁移方法和装置
CN105045762A (zh) 一种配置文件的管理方法及装置
CN104537045A (zh) 一种基于分布式系统的业务分配方法及装置
CN103778066A (zh) 数据处理方法和装置
CN111124589A (zh) 一种服务发现系统、方法、装置及设备
CN107391039B (zh) 一种数据对象存储方法和装置
CN115185697A (zh) 一种基于kubernetes的集群资源调度方法、系统、设备和存储介质
CN104243564A (zh) 一种面向aws平台的分布式数据管理方法
CN103197950A (zh) 插件虚拟机实现方法
CN106843971A (zh) Bios刷新方法、服务器、bmc、介质及存储控制器
CN111831503A (zh) 一种基于监控代理的监控方法和监控代理装置
CN105262796A (zh) 一种云平台存储资源管理系统及其部署框架
CN107122362A (zh) 云数据库资源扩展和服务扩展的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20141224

RJ01 Rejection of invention patent application after publication