CN103561061A - 一种弹性的云数据挖掘平台部署方法 - Google Patents

一种弹性的云数据挖掘平台部署方法 Download PDF

Info

Publication number
CN103561061A
CN103561061A CN201310489309.7A CN201310489309A CN103561061A CN 103561061 A CN103561061 A CN 103561061A CN 201310489309 A CN201310489309 A CN 201310489309A CN 103561061 A CN103561061 A CN 103561061A
Authority
CN
China
Prior art keywords
user
task
platform
node
data mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310489309.7A
Other languages
English (en)
Other versions
CN103561061B (zh
Inventor
张琳
邵天昊
王汝传
韩志杰
付雄
季一木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201310489309.7A priority Critical patent/CN103561061B/zh
Publication of CN103561061A publication Critical patent/CN103561061A/zh
Application granted granted Critical
Publication of CN103561061B publication Critical patent/CN103561061B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明是一种弹性的云数据挖掘平台部署方法,可以自由部署一个或多个hadoop集群并且不影响物理机用户的正常使用,尤其适用于机器数量有限的中小型集群。在面对cpu,带宽,内存,磁盘以及时间的不同需求时,可以灵活进行资源分配。这里不仅仅是指hadoop内部各节点之间的负载均衡,还包括与普通用户正常使用需求之间的协调,是整个集群内的负载均衡。将hadoop和openstack结合并加以改进,利用虚拟化使得数据挖掘集群的部署更加简单灵活,并且同时给用户提供虚拟机作为日常使用,不会影响原有工作。

Description

一种弹性的云数据挖掘平台部署方法
技术领域
本发明是在openstack和hadoop结合的基础上,利用两者的优点相互补充并加以完善,设计了一种弹性的云数据挖掘平台,主要是提供一种灵活自由的适用于中小型集群的数据挖掘平台部署方案。属于分布式计算和云计算领域。
背景技术
当前全球IT领域有了令人振奋的发展趋势和挑战,现在每天都有大量数据和信息生成,这为大数据分析提供了机会。这些数据量仅仅是数据,并不能解决问题,它要从数据变成信息、变成智能、变成商业价值,这才能够体现出真正的大数据的价值。
然而大数据必须有云作为基础架构,才能得以顺畅运营。所谓云计算,就是通过计算机网络去连接由大量服务器、存储设备集群构成的云计算平台,来获取远程客户端所需要的服务。而云计算服务商则是将一项复杂的运算任务分成若干个部分,通过分布在计算机网络中的计算机协同合作,最终将运算结果传输到客户端,从而实现个人数据在远程的计算资源集群的运算。
云计算提供了基础架构平台,大数据应用在这个平台上运行。目前公认的处理大数据集最有效的手段是分布式处理,云计算能降低数据中心成本,解决资源不合理利用。
OpenStack是一个云计算平台管理的项目,旨在为公共及私有云的建设与管理提供软件。它的社区拥有超过130家企业及1350位开发者,这些机构与个人都将OpenStack作为基础设施即服务(简称IaaS)资源的通用前端。OpenStack项目的首要任务是简化云的部署过程并为其带来良好的可扩展性。
Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。Hadoop 以并行的方式工作,通过并行处理加快处理速度;还可以伸缩,能够处理PB级数据。 
在大多数时候我们的需求是不同的,有部分任务需要使用高性能计算(HPC),有部分任务需要使用大数据计算(Hadoop),有时候是对外定制化多项服务。对cpu,带宽,内存,磁盘以及时间的需求是不同的。如果为每一种需求都去购买对应的物理机会造成大量的资源浪费,很多时候我们的服务器负载只有20%-30%。
尤其对于中小型集群,例如小型企业,实验室等机器数量有限的情况下,单独建立一个hadoop集群是不切实际的。然而如果仅将hadoop作为一个软件部署在整个集群内,又存在节点可靠性低,资源分配不合理,机器更新困难等问题,并且日常使用的系统大多数为windows平台,无法兼容hadoop。影响了原有的工作,又很难有合适的管理方法来规范用户行为。由此可见,在一个小型集群内搭建hadoop而不影响到日常使用将面临诸多的麻烦。
 
发明内容
技术问题:本发明的目的是提出一种弹性的云数据挖掘平台部署方法,可以自由部署一个或多个hadoop集群并且不影响物理机用户的正常使用,尤其适用于机器数量有限的中小型集群。在面对cpu,带宽,内存,磁盘以及时间的不同需求时,可以灵活进行资源分配。这里不仅仅是指hadoop内部各节点之间的负载均衡,还包
括与普通用户正常使用需求之间的协调,是整个集群内的负载均衡。
技术方案:针对这些问题,本发明提出了一种弹性的数据挖掘平台,将整个集群进行虚拟化,抽象为一个资源池,这里我们选择openstack来管理整个集群。通过openstack创建并管理一系列的虚拟机,每个虚拟机作为一个节点或者一个常规系统供用户日常使用。这样使得hadoop的节点粒度变细,更加灵活,易于管理。同时,因为openstack具有动态迁移的特性,进一步提高了hadoop节点的有效性。
在此基础之上,根据MapReduce的特性,对JobTracker的分配机制进行了相应的改进。Hadoop最大的特点是本地化计算,但是仅仅是指map的任务的本地化,在JobTracker分配task的时候,一个map任务对应hdfs中的一个块的数据,所以分配的时候会尽量将task分配到hdfs对应块所在机器。这是Hadoop适合大数据处理的一个很重要的原因。但是这仅仅是map操作的时候,reduce操作的时候还是会占用大量带宽。因此,使用openstack在一台计算机上启动多台虚拟机,reduce传输数据会尽量在一台计算机上的多个虚拟机节点中进行,而不是传统的分散在各个节点中进行。这样只占用硬盘读写速度,比占用网络带宽好很多。
该平台的主要使用步骤如下:
步骤1. 在整个物理机集群上建立一个可以提供各类虚拟机的虚拟化平台;
步骤2. 为集群使用人员创建各自的账户并分配权限。给一般用户分配申请PC虚拟机和发布数据挖掘任务的权限,只能进入仅有使用功能的普通用户面板。给管理人员分配一般用户的所有权限以及管理整个集群的权限,可以进入管理员面板进行各项管理;
步骤3. 用户通过Web交互页面登陆平台,如果是管理员用户则执行步骤4,如果是一般用户则执行步骤5;
步骤4. 进入管理员面板,具有以下功能:修改权限、监控、调度、节点迁移。完成管理操作后退出管理员面板,执行步骤5;
步骤5. 进入仅有使用功能的普通用户面板,如果选择发布数据挖掘任务则执行步骤6,如果选择进行日常工作申请PC虚拟机则执行步骤8;
步骤6. 用户上传需要处理的数据集及算法,选择所需的计算和存储资源,设定任务优先级,然后将任务发布到平台上并执行步骤7;                                                                              
步骤7. 平台先启动一个主管理节点,然后将根据需求启动相应数目的子计算节点,并将这些节点在主管理节点上注册,随后该任务发送到主管理节点上,由该节点将任务分配到各个子计算节点上执行。任务发布完成之后,用户如需继续进行日常工作则执行步骤8,否则退出平台等待任务处理完毕。任务处理完成后,计算结果以及任务详细信息将会返回到平台内的发布任务的用户的用户面板上以供用户查询;
步骤8. 由平台查询该用户是否有备份镜像快照,如果有则将该快照启动并恢复用户数据,如果没有则按照用户需求选择一个模板镜像启动,用户通过远程桌面连接该虚拟机进行日常使用;
有益效果:本发明提出了一种弹性的云数据挖掘平台,较普通的hadoop部署方式而言,该方案的主要优势在于:
一、可以自由部署一个或多个hadoop集群并且不影响物理机用户的正常使用,尤其适用于机器数量有限的中小型集群。
       二、在面对cpu,带宽,内存,磁盘以及时间的不同需求时,可以灵活进行资源分配。这里不仅仅是指hadoop内部各节点之间的负载均衡,还包括与普通用户正常使用需求之间的协调,是整个集群内的负载均衡。
三、部署更加方便,失效节点可以快速迁移使得节点有效性提高。
四、reduce传输数据会尽量在一台计算机上的多个虚拟机节点中进行,而不是传统的分散在各个节点中进行。这样只占用硬盘读写速度,而不是占用网络带宽,减小了集群网络压力,提升了效率。
五、具有跨平台性,同时兼顾linux上的数据挖掘平台和windows上的用户日常使用。在某些特殊情况下甚至可以借助vmware来在windows平台上拓展集群规模。
六、降低了门槛和学习成本,短时间之内就可以部署完成并掌握如何使用。
 
附图说明
图1 平台使用流程图。
图2 平台架构图。
 
具体实施方式
       物理机上统一使用linux系统,然后在整个集群内搭建一个IaaS系统,选用openstack作为基础来改进。将平台所需的交互界面整合在openstack本身的GUI组件Horizon中。
    管理员面板所提供的功能如下:添加删除普通用户、修改用户可用资源上限、整个集群运行情况的实时监控(各物理机资源的使用情况,节点分布情况,各节点建的逻辑关系,平台上正在处理和等待处理的数据挖掘任务)、修改各个任务的优先级、失效节点的动态迁移、添加和移除节点、在不需要时终止集群。
用户的日常使用将在虚拟机上完成,当用户申请PC机时(通常为windows),由平台查询该用户是否有备份镜像快照,如果有则将该快照启动并恢复用户数据,如果没有则按照用户的cpu、内存、硬盘需求选择一个模板镜像启动。用户可通过远程桌面连接该虚拟机进行日常使用,集群内部对用户透明。对用户而言,使用的依旧是一样的物理设备,并不会对日常工作带来影响。
    Hadoop原子节点的镜像可以根据自己的需求定制,也可以使用标准镜像。平台初始化时,会先生成一个NameNode和一个secondary NameNode。当有任务时,根据用户需求释放相应的DataNode节点并在NameNode上注册。通过在capacity-scheduler.xml和mapred-queue-acls.xml中修改相应函数增加一个可以宏观调控任务权限的api接口。
发布任务的用户可以定义集群配置,包括集群的大小和拓扑,并且设置不同的Hadoop参数;选择作业的类型:pig、hive、jar-file等等;提供作业脚本源或者是jar路径;选择输入和输出数据路径;为日志选择路径;执行作业。所有集群配置和作业执行都会清楚的呈现给用户,作业结束后会自动取回计算结果。
修改nova-api内的函数,将普通PC虚拟机和节点虚拟机区分开来调控,当计算任务较多时,以节点虚拟机为主,当用户较多时,以普通PC虚拟机为主。当NameNode失效时,切换到secondary NameNode同时将NameNode节点迁移到其他物理机上重启,这样可以保证平台的持续运行。当DataNode失效时,删除该节点,重新启动一个DataNode节点。因为Hadoop本身已经具有较高的容错性,会将失效的DataNode上的计算任务转移到其他DataNode上,所以不必回复失效的DataNode,只需要重新启动一个保持集群规模即可。
修改JobTracker上的调度算法,在reduce阶段读取IaaS平台上的数据,尽量在一台计算机上的多个虚拟机节点中进行,这样大部分reduce工作只占用硬盘读写速度。

Claims (1)

1.  一种弹性的云数据挖掘平台部署方法,其特征在于,在不影响正常工作的前提下搭建一个既能提供日常使用又能提供数据挖掘功能的集群,其步骤主要如下:
步骤1. 在整个物理机集群上建立一个可以提供各类虚拟机的虚拟化平台;
步骤2. 为集群使用人员创建各自的账户并分配权限,给一般用户分配申请PC虚拟机和发布数据挖掘任务的权限,只能进入仅有使用功能的普通用户面板,给管理人员分配一般用户的所有权限以及管理整个集群的权限,能进入管理员面板进行各项管理;
步骤3. 用户通过Web交互页面登陆平台,如果是管理员用户则执行步骤4,如果是一般用户则执行步骤5;
步骤4. 进入管理员面板,具有以下功能:修改权限、监控、调度、节点迁移;完成管理操作后退出管理员面板,执行步骤5;
步骤5. 进入仅有使用功能的普通用户面板,如果选择发布数据挖掘任务则执行步骤6,如果选择进行日常工作申请PC虚拟机则执行步骤8;
步骤6. 用户上传需要处理的数据集及算法,选择所需的计算和存储资源,设定任务优先级,然后将任务发布到平台上并执行步骤7;                                                                              
步骤7. 平台先启动一个主管理节点,然后将根据需求启动相应数目的子计算节点,并将这些节点在主管理节点上注册,随后该任务发送到主管理节点上,由该节点将任务分配到各个子计算节点上执行,任务发布完成之后,用户如需继续进行日常工作则执行步骤8,否则退出平台等待任务处理完毕;任务处理完成后,计算结果以及任务详细信息将会返回到平台内的发布任务的用户的用户面板上以供用户查询;
步骤8. 由平台查询该用户是否有备份镜像快照,如果有则将该快照启动并恢复用户数据,如果没有则按照用户需求选择一个模板镜像启动,用户通过远程桌面连接该虚拟机进行日常使用。
CN201310489309.7A 2013-10-17 2013-10-17 一种弹性的云数据挖掘平台部署方法 Active CN103561061B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310489309.7A CN103561061B (zh) 2013-10-17 2013-10-17 一种弹性的云数据挖掘平台部署方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310489309.7A CN103561061B (zh) 2013-10-17 2013-10-17 一种弹性的云数据挖掘平台部署方法

Publications (2)

Publication Number Publication Date
CN103561061A true CN103561061A (zh) 2014-02-05
CN103561061B CN103561061B (zh) 2016-08-10

Family

ID=50015211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310489309.7A Active CN103561061B (zh) 2013-10-17 2013-10-17 一种弹性的云数据挖掘平台部署方法

Country Status (1)

Country Link
CN (1) CN103561061B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104065716A (zh) * 2014-06-18 2014-09-24 江苏物联网研究发展中心 一种基于OpenStack的提供Hadoop服务的方法
CN104113580A (zh) * 2014-02-13 2014-10-22 西安未来国际信息股份有限公司 基于虚拟机模版的hadoop集群自动化部署技术
CN104317610A (zh) * 2014-10-11 2015-01-28 福建新大陆软件工程有限公司 一种hadoop平台自动安装部署的方法及装置
CN104320460A (zh) * 2014-10-24 2015-01-28 西安未来国际信息股份有限公司 一种大数据处理方法
CN104331439A (zh) * 2014-10-24 2015-02-04 北京东方国信科技股份有限公司 基于hdfs的迭代式回溯算法的负载均衡与计算本地化方法
CN104679717A (zh) * 2015-02-15 2015-06-03 北京京东尚科信息技术有限公司 集群弹性部署的方法和管理系统
CN104734892A (zh) * 2015-04-02 2015-06-24 江苏物联网研究发展中心 大数据处理系统Hadoop在云平台OpenStack上自动部署系统
CN104767813A (zh) * 2015-04-08 2015-07-08 江苏国盾科技实业有限责任公司 基于openstack的公众行大数据服务平台
CN106293951A (zh) * 2016-08-23 2017-01-04 成都卡莱博尔信息技术股份有限公司 一种面向集群架构的资源池化管理方法
CN106569881A (zh) * 2015-10-09 2017-04-19 中国石油化工股份有限公司 一种基于kvm的数据迁移方法及系统
CN107797860A (zh) * 2017-11-21 2018-03-13 上海望友信息科技有限公司 任务自动处理方法及系统、客户端、服务器及存储介质
CN107967179A (zh) * 2017-12-12 2018-04-27 山东省计算中心(国家超级计算济南中心) 一种支持突发应急的云计算资源分配方法
CN108984701A (zh) * 2018-07-06 2018-12-11 郑州云海信息技术有限公司 云数据系统中数据管理方法和装置
CN109753226A (zh) * 2017-11-07 2019-05-14 阿里巴巴集团控股有限公司 数据处理系统、方法及电子设备
CN109885316A (zh) * 2019-02-18 2019-06-14 国家计算机网络与信息安全管理中心 基于kubernetes的hdfs-hbase部署方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101986661A (zh) * 2010-11-04 2011-03-16 华中科技大学 一种改进的虚拟机群下MapReduce数据处理方法
US20130227558A1 (en) * 2012-02-29 2013-08-29 Vmware, Inc. Provisioning of distributed computing clusters

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101986661A (zh) * 2010-11-04 2011-03-16 华中科技大学 一种改进的虚拟机群下MapReduce数据处理方法
US20130227558A1 (en) * 2012-02-29 2013-08-29 Vmware, Inc. Provisioning of distributed computing clusters

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李英壮: "基于OpenStack开发云平台的设计与实现", 《武汉大学学报》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104113580A (zh) * 2014-02-13 2014-10-22 西安未来国际信息股份有限公司 基于虚拟机模版的hadoop集群自动化部署技术
CN104065716A (zh) * 2014-06-18 2014-09-24 江苏物联网研究发展中心 一种基于OpenStack的提供Hadoop服务的方法
CN104317610B (zh) * 2014-10-11 2017-05-03 福建新大陆软件工程有限公司 一种hadoop平台自动安装部署的方法及装置
CN104317610A (zh) * 2014-10-11 2015-01-28 福建新大陆软件工程有限公司 一种hadoop平台自动安装部署的方法及装置
CN104320460A (zh) * 2014-10-24 2015-01-28 西安未来国际信息股份有限公司 一种大数据处理方法
CN104331439A (zh) * 2014-10-24 2015-02-04 北京东方国信科技股份有限公司 基于hdfs的迭代式回溯算法的负载均衡与计算本地化方法
CN104331439B (zh) * 2014-10-24 2017-11-14 北京东方国信科技股份有限公司 基于hdfs的迭代式回溯算法的负载均衡与计算本地化方法
CN104679717A (zh) * 2015-02-15 2015-06-03 北京京东尚科信息技术有限公司 集群弹性部署的方法和管理系统
CN104679717B (zh) * 2015-02-15 2018-11-27 北京京东尚科信息技术有限公司 集群弹性部署的方法和管理系统
CN104734892A (zh) * 2015-04-02 2015-06-24 江苏物联网研究发展中心 大数据处理系统Hadoop在云平台OpenStack上自动部署系统
CN104767813A (zh) * 2015-04-08 2015-07-08 江苏国盾科技实业有限责任公司 基于openstack的公众行大数据服务平台
CN104767813B (zh) * 2015-04-08 2018-06-08 江苏国盾科技实业有限责任公司 基于openstack的公众行大数据服务平台
CN106569881A (zh) * 2015-10-09 2017-04-19 中国石油化工股份有限公司 一种基于kvm的数据迁移方法及系统
CN106293951A (zh) * 2016-08-23 2017-01-04 成都卡莱博尔信息技术股份有限公司 一种面向集群架构的资源池化管理方法
CN109753226A (zh) * 2017-11-07 2019-05-14 阿里巴巴集团控股有限公司 数据处理系统、方法及电子设备
CN107797860A (zh) * 2017-11-21 2018-03-13 上海望友信息科技有限公司 任务自动处理方法及系统、客户端、服务器及存储介质
CN107967179A (zh) * 2017-12-12 2018-04-27 山东省计算中心(国家超级计算济南中心) 一种支持突发应急的云计算资源分配方法
CN107967179B (zh) * 2017-12-12 2021-08-06 山东省计算中心(国家超级计算济南中心) 一种支持突发应急的云计算资源分配方法
CN108984701A (zh) * 2018-07-06 2018-12-11 郑州云海信息技术有限公司 云数据系统中数据管理方法和装置
CN109885316A (zh) * 2019-02-18 2019-06-14 国家计算机网络与信息安全管理中心 基于kubernetes的hdfs-hbase部署方法及装置

Also Published As

Publication number Publication date
CN103561061B (zh) 2016-08-10

Similar Documents

Publication Publication Date Title
CN103561061B (zh) 一种弹性的云数据挖掘平台部署方法
Ghazi et al. Hadoop, MapReduce and HDFS: a developers perspective
Cardellini et al. Optimal operator deployment and replication for elastic distributed data stream processing
Rao et al. Performance issues of heterogeneous hadoop clusters in cloud computing
US8260840B1 (en) Dynamic scaling of a cluster of computing nodes used for distributed execution of a program
Tsai et al. Real-time service-oriented cloud computing
Bhattacharjee et al. IBM deep learning service
US20160269313A1 (en) Opportunistic resource migration to optimize resource placement
Tianfield Cloud computing architectures
Ju et al. iGraph: an incremental data processing system for dynamic graph
US9672068B2 (en) Virtual machine scheduling using optimum power-consumption profile
Tsai et al. Service replication strategies with mapreduce in clouds
Charan et al. Deploying an Application on the Cloud
US20230035310A1 (en) Systems that deploy and manage applications with hardware dependencies in distributed computer systems and methods incorporated in the systems
Bermbach et al. On the future of cloud engineering
Lu et al. Assessing MapReduce for internet computing: a comparison of Hadoop and BitDew-MapReduce
Salapura Cloud computing: Virtualization and resiliency for data center computing
US11184244B2 (en) Method and system that determines application topology using network metrics
Gopalakrishna et al. Untangling cluster management with Helix
CN116954944A (zh) 基于内存网格的分布式数据流处理方法、装置及设备
CN105577807A (zh) 云计算数据资源调度web管理平台
Sugiki et al. An extensible cloud platform inspired by operating systems
Berghaus et al. High-Throughput Cloud Computing with the Cloudscheduler VM Provisioning Service
Khan et al. Efficient virtual machine scheduling in cloud computing
Mian et al. Managing data-intensive workloads in a cloud

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20140205

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: Nanjing Post & Telecommunication Univ.

Contract record no.: 2016320000212

Denomination of invention: Flexible cloud data mining platform deploying method

Granted publication date: 20160810

License type: Common License

Record date: 20161118

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EC01 Cancellation of recordation of patent licensing contract

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: Nanjing Post & Telecommunication Univ.

Contract record no.: 2016320000212

Date of cancellation: 20180116

EC01 Cancellation of recordation of patent licensing contract