CN109783198B - 一种批量大数据实验环境的快速自动构建方法 - Google Patents

一种批量大数据实验环境的快速自动构建方法 Download PDF

Info

Publication number
CN109783198B
CN109783198B CN201910084388.0A CN201910084388A CN109783198B CN 109783198 B CN109783198 B CN 109783198B CN 201910084388 A CN201910084388 A CN 201910084388A CN 109783198 B CN109783198 B CN 109783198B
Authority
CN
China
Prior art keywords
big data
cluster
data cluster
network
virtual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910084388.0A
Other languages
English (en)
Other versions
CN109783198A (zh
Inventor
温武少
谢明森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201910084388.0A priority Critical patent/CN109783198B/zh
Publication of CN109783198A publication Critical patent/CN109783198A/zh
Application granted granted Critical
Publication of CN109783198B publication Critical patent/CN109783198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Stored Programmes (AREA)

Abstract

本发明涉及云计算技术领域,具体涉及一种批量大数据实验环境的快速自动构建方法。包括步骤:自动构建大数据集群网络资源池,大数据实验环境为已配置大数据环境的虚拟机集群,大数据集群网络资源池包括批量独立的虚拟网络,每个虚拟网络通过虚拟路由和外部网络进行连接;根据大数据集群模版自动生成大数据集群快照;基于大数据集群快照快速自动构建批量大数据集群。本发明通过上述批量大数据实验环境的快速自动构建方法,可以解决批量大数据实验环境的自动构建速度慢的问题。

Description

一种批量大数据实验环境的快速自动构建方法
技术领域
本发明涉及云计算技术领域,具体涉及一种批量大数据实验环境的快速自动构建方法。
背景技术
目前,批量的大数据实验环境有很多应用场景,如学校开展大数据实验相关的课程,需要为每位学生分配独立的大数据实验环境;公司为多个部门分配独立的大数据实验环境。部署大数据实验环境的过程繁琐且易出错,不可能手动部署批量的大数据实验环境;近年来也出现了自动构建虚拟网络的技术,但是其构建速度较慢,技术实现过程较为复杂。因此,需要一种能够自动构建批量的大数据实验环境的方法,避免手动部署过程繁琐且易出错,构建速度快,技术易于实现。
发明内容
本发明的目的在于克服现有技术的不足,提供一种批量大数据实验环境的快速自动构建方法,用于解决批量大数据实验环境的自动构建速度慢的问题。
为解决上述问题,本发明采用的技术方案是:一种批量大数据实验环境的快速自动构建方法,包括以下步骤:
S1、自动构建大数据集群网络资源池;
所述大数据实验环境为已配置大数据环境的虚拟机集群,大数据集群网络资源池包括批量独立的虚拟网络,每个虚拟网络通过虚拟路由和外部网络进行连接;
S2、根据大数据集群模版自动生成大数据集群快照;
S3、基于大数据集群快照快速自动构建批量大数据集群。
在优选的实施例中,步骤S1包括:
S11、判断网络资源池中网络资源是否足够用于构建批量的大数据集群,如果不够则进入下一步;
S12、构建批量独立的虚拟网络;
S13、分别为每一个虚拟网络构建一个虚拟路由,并将虚拟网络和外部网络连接至虚拟路由;
S14、将虚拟网络加入到大数据集群网络资源池中。
在优选的实施例中,所述大数据集群模版在步骤S2前创建,大数据集群模版指定模版名字、大数据集群使用的大数据镜像、集群虚拟机节点配置以及不同虚拟机节点对应的数目;集群虚拟机节点配置指定节点硬件资源配置、运行在虚拟机节点上的大数据相关进程及相关进程的运行参数。
在优选的实施例中,步骤S2步骤包括:
S21、判断大数据集群模板对应的大数据集群快照是否存在,如果不存在则进行下一步;
S22、从大数据集群网络资源池中获取网络资源;
S23、生成集群公私钥;
S24、根据大数据集群模版创建虚拟机集群,虚拟机自动将集群公钥复制到指定位置;
S25、根据集群虚拟机网络地址和主机名生成hosts文件并通过网络传输到集群虚拟机中;
S26、根据大数据集群模版生成大数据集群相关配置文件并通过网络传输到集群虚拟机中;
S27、生成大数据集群中所有虚拟机的快照,所有虚拟机快照构成大数据集群模版对应的大数据集群快照。
在优选的实施例中,步骤S3中,大数据集群快速自动构建的具体步骤为:
S31、从大数据集群网络资源池中获取网络资源;
S32、使用大数据集群模版对应的大数据集群快照创建虚拟机集群;
S33、根据集群虚拟机网络地址和主机名生成hosts文件并通过网络传输到集群虚拟机中。
与现有技术相比,本发明技术方案的有益效果包括:
1、通过维护网络资源池,减少网络资源的构建和回收;
2、支持根据不同大数据集群模版生成不同的大数据集群快照;
3、通过大数据集群快照构建批量大数据集群,提高了批量大数据集群的自动构建速度。
附图说明
图1为本发明批量大数据实验环境的快速自动构建方法的总流程图;
图2为本发明大数据集群快照自动生成的流程图;
图3为本发明大数据集群快速自动构建的流程图。
具体实施方式
以下结合附图和实施例对本发明做进一步的阐述,但本发明的实施方式不限于此。
在本发明中,采用云操作系统(如OpenStack)负责对计算、存储、网络等资源进行管理,并对虚拟机进行管理。
图1为本发明批量大数据实验环境的快速自动构建方法的总流程图,如图1所示,批量大数据实验环境的快速自动构建方法包括以下步骤:
S1、自动构建大数据集群网络资源池;
在具体的实施过程中,大数据实验环境为已配置大数据环境的虚拟机集群,可以通过SSH连接到大数据虚拟机集群进行相关大数据实验。大数据集群网络资源池包括批量独立的虚拟网络,每个虚拟网络通过虚拟路由和外部网络进行连接。当回收大数据集群时不回收对应的网络资源,而是将之释放到网络资源池中,使得网络资源能够被反复利用,减少网络资源的构建和回收。
在本实施例中,步骤S1具体步骤包括:
S11、判断网络资源池中网络资源是否足够用于构建批量的大数据集群,如果不够则进入下一步;
S12、构建批量独立的虚拟网络;
S13、分别为每一个虚拟网络构建一个虚拟路由,并将虚拟网络和外部网络连接至虚拟路由;
S14、将虚拟网络加入到大数据集群网络资源池中。
S2、根据大数据集群模版自动生成大数据集群快照;
大数据集群模版需要在步骤S2前创建,大数据集群模版指定模版名字、大数据集群使用的大数据镜像(如Hadoop镜像、Spark镜像等)、集群虚拟机节点配置以及不同虚拟机节点对应的数目。大数据镜像使用常用的操作系统(如Ubuntu和CentOS),并安装了大数据组件(如HDFS和YARN等)相关二进制文件。集群虚拟机节点配置指定节点硬件资源(如CPU、内存、磁盘)配置、运行在虚拟机节点上的大数据相关进程(如HDFS的NameNode和DataNode进程,YARN的ResourceManager和NodeManager进程等)及相关进程的运行参数。
图2为本发明大数据集群快照自动生成的流程图。在具体的实施过程中,如图2所示,步骤S2步骤包括:
S21、判断大数据集群模板对应的大数据集群快照是否存在,如果不存在则进行下一步;
S22、从大数据集群网络资源池中获取网络资源;
S23、生成集群公私钥;
S24、根据大数据集群模版创建虚拟机集群,虚拟机自动将集群公钥复制到指定位置;
S25、根据集群虚拟机网络地址和主机名生成hosts文件并通过网络传输到集群虚拟机中;
S26、根据大数据集群模版生成大数据集群相关配置文件(如slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、yaml-site.xml等文件)并通过网络传输到集群虚拟机中;
S27、生成大数据集群中所有虚拟机的快照,所有虚拟机快照构成大数据集群模版对应的大数据集群快照。
S3、基于大数据集群快照快速自动构建批量大数据集群。
大数据集群快照包括集群中所有虚拟机的快照,根据大数据集群快照可以构建批量相同的大数据集群。基于大数据集群快照快速自动构建批量大数据集群可以生成批量相同的大数据集群,通过大数据集群快照构建大数据集群可以避免集群公私钥、大数据集群相关配置文件的生成与网络传输,可加快大数据集群的构建速度,进而大大加快批量大数据集群的构建速度。
图3为本发明大数据集群快速自动构建的流程图。在具体的实施过程中,大数据集群快速自动构建的具体步骤为:
S31、从大数据集群网络资源池中获取网络资源;
S32、使用大数据集群模版对应的大数据集群快照创建虚拟机集群;
S33、根据集群虚拟机网络地址和主机名生成hosts文件并通过网络传输到集群虚拟机中。
在具体的实施过程中,步骤S3为批量执行上述基于大数据集群快照快速自动构建大数据集群的过程。
显然,本发明的上述实施案例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属技术领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (3)

1.一种批量大数据实验环境的快速自动构建方法,其特征在于,包括以下步骤:
S1、自动构建大数据集群网络资源池;
所述大数据实验环境为已配置大数据环境的虚拟机集群,大数据集群网络资源池包括批量独立的虚拟网络,每个虚拟网络通过虚拟路由和外部网络进行连接;
S2、根据大数据集群模版自动生成大数据集群快照;
S3、基于大数据集群快照快速自动构建批量大数据集群;
步骤 S1 包括:
S11、判断网络资源池中网络资源是否足够用于构建批量的大数据集群,如果不够则进入下一步;
S12、构建批量独立的虚拟网络;
S13、分别为每一个虚拟网络构建一个虚拟路由,并将虚拟网络和外部网络连接至虚拟路由;
S14、将虚拟网络加入到大数据集群网络资源池中;
步骤 S2步骤包括:
S21、判断大数据集群模板对应的大数据集群快照是否存在,如果不存在则进行下一步;
S22、从大数据集群网络资源池中获取网络资源;
S23、生成集群公私钥;
S24、根据大数据集群模版创建虚拟机集群,虚拟机自动将集群公钥复制到指定位置;
S25、根据集群虚拟机网络地址和主机名生成 hosts 文件并通过网络传输到集群虚拟机中;
S26、根据大数据集群模版生成大数据集群相关配置文件并通过网络传输到集群虚拟机中;
S27、生成大数据集群中所有虚拟机的快照,所有虚拟机快照构成大数据集群模版对应的大数据集群快照;
步骤S3中,大数据集群快速自动构建的具体步骤为:
S31、从大数据集群网络资源池中获取网络资源;
S32、使用大数据集群模版对应的大数据集群快照创建虚拟机集群;
S33、根据集群虚拟机网络地址和主机名生成 hosts 文件并通过网络传输到集群虚拟机中。
2.根据权利要求1所述的批量大数据实验环境的快速自动构建方法,其特征在于,所述大数据集群模版在步骤S2前创建,大数据集群模版指定模版名字、大数据集群使用的大数据镜像、集群虚拟机节点配置以及不同虚拟机节点对应的数目;集群虚拟机节点配置指定节点硬件资源配置、运行在虚拟机节点上的大数据相关进程及相关进程的运行参数。
3.根据权利要求2所述的批量大数据实验环境的快速自动构建方法,其特征在于,大数据镜像包括Hadoop 镜像、Spark 镜像。
CN201910084388.0A 2019-01-29 2019-01-29 一种批量大数据实验环境的快速自动构建方法 Active CN109783198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910084388.0A CN109783198B (zh) 2019-01-29 2019-01-29 一种批量大数据实验环境的快速自动构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910084388.0A CN109783198B (zh) 2019-01-29 2019-01-29 一种批量大数据实验环境的快速自动构建方法

Publications (2)

Publication Number Publication Date
CN109783198A CN109783198A (zh) 2019-05-21
CN109783198B true CN109783198B (zh) 2023-01-20

Family

ID=66502882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910084388.0A Active CN109783198B (zh) 2019-01-29 2019-01-29 一种批量大数据实验环境的快速自动构建方法

Country Status (1)

Country Link
CN (1) CN109783198B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104049912A (zh) * 2014-05-23 2014-09-17 上海爱数软件有限公司 基于虚拟化平台的分布式存储管理方法
CN104079657A (zh) * 2014-07-07 2014-10-01 用友软件股份有限公司 基于模板的可配置的集群部署装置及方法
CN104092781A (zh) * 2014-07-31 2014-10-08 武汉云雅科技有限公司 一种基于云计算的云集群快速部署系统
CN104461693A (zh) * 2014-12-11 2015-03-25 中标软件有限公司 一种桌面云计算环境下的虚拟机更新方法和系统
CN104793981A (zh) * 2014-01-20 2015-07-22 联想(北京)有限公司 一种虚拟机集群的在线快照管理方法及装置
CN105703940A (zh) * 2015-12-10 2016-06-22 中国电力科学研究院 一种面向多级调度分布式并行计算的监控系统及监控方法
CN106506233A (zh) * 2016-12-01 2017-03-15 郑州云海信息技术有限公司 一种自动部署Hadoop集群及伸缩工作节点的方法
CN108809722A (zh) * 2018-06-13 2018-11-13 郑州云海信息技术有限公司 一种部署Kubernetes集群的方法、装置和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140258238A1 (en) * 2013-03-05 2014-09-11 VCE Company LLC Method to embed snapshot management into virtual machine instances
US10558531B2 (en) * 2017-04-18 2020-02-11 Netapp, Inc. Systems and methods for backup and restore of master-less distributed database clusters

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104793981A (zh) * 2014-01-20 2015-07-22 联想(北京)有限公司 一种虚拟机集群的在线快照管理方法及装置
CN104049912A (zh) * 2014-05-23 2014-09-17 上海爱数软件有限公司 基于虚拟化平台的分布式存储管理方法
CN104079657A (zh) * 2014-07-07 2014-10-01 用友软件股份有限公司 基于模板的可配置的集群部署装置及方法
CN104092781A (zh) * 2014-07-31 2014-10-08 武汉云雅科技有限公司 一种基于云计算的云集群快速部署系统
CN104461693A (zh) * 2014-12-11 2015-03-25 中标软件有限公司 一种桌面云计算环境下的虚拟机更新方法和系统
CN105703940A (zh) * 2015-12-10 2016-06-22 中国电力科学研究院 一种面向多级调度分布式并行计算的监控系统及监控方法
CN106506233A (zh) * 2016-12-01 2017-03-15 郑州云海信息技术有限公司 一种自动部署Hadoop集群及伸缩工作节点的方法
CN108809722A (zh) * 2018-06-13 2018-11-13 郑州云海信息技术有限公司 一种部署Kubernetes集群的方法、装置和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FlatVC:云环境下虚拟机集群的扁平化版本控制;胡明昊 等;《计算机工程与科学 》;20151015;第1817-1824页 *
一种自适应文件系统元数据服务负载均衡策略;佘楚玉 等;《软件学报》;20170112;第1952-1967页 *
基于OpenStack云平台的计算资源动态调度及管理;汪楠;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130915;第I137-4页 *

Also Published As

Publication number Publication date
CN109783198A (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
US10474508B2 (en) Replication management for hyper-converged infrastructures
US10644952B2 (en) VNF failover method and apparatus
US9674275B1 (en) Providing a file system interface to network-accessible computing resources
US11558252B2 (en) Learning by inference from previous deployments
CN108234306A (zh) 网络装置、网络方法和计算机可读存储介质
Naik Docker container-based big data processing system in multiple clouds for everyone
CN111045854B (zh) 用于管理服务容器的方法、设备和计算机可读介质
CN110764918A (zh) 一种容器集群中主节点管理方法
CN112463290A (zh) 动态调整计算容器的数量的方法、系统、装置和存储介质
CN104363122A (zh) 一种网元的预配置方法和系统
US11374979B2 (en) Graph-based policy representation system for managing network devices
CN109783198B (zh) 一种批量大数据实验环境的快速自动构建方法
CN115604120B (zh) 一种多云集群资源共享方法、装置、设备及存储介质
Khalel et al. Enhanced load balancing in kubernetes cluster by minikube
CN113448809A (zh) 管理应用系统中的消息的方法、设备和计算机程序产品
US11290318B2 (en) Disaster recovery of cloud resources
CN111741102B (zh) 分布式微服务应用的升级方法及装置
US10860433B1 (en) Directional consistency in capture and recovery of cloud-native applications
CN114640569A (zh) 动态消息管理装置、设备、系统、方法及存储介质
CN112732271A (zh) 一种基于sdn技术的地震处理软件部署方法及系统
JP7450726B2 (ja) ハイブリッドクラウド非同期データ同期
US11449395B2 (en) Backup and restore of distributed environments
CN114422280B (zh) 网络部署方法、装置、节点及存储介质
CN111125001A (zh) 快照复制方法、电子设备和计算机程序产品
Shah et al. Create EC2 Instance, Install Splunk and Configure Using Ansible

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant