CN103810023A - 一种云平台中分布式应用的智能部署方法及系统 - Google Patents
一种云平台中分布式应用的智能部署方法及系统 Download PDFInfo
- Publication number
- CN103810023A CN103810023A CN201410080662.4A CN201410080662A CN103810023A CN 103810023 A CN103810023 A CN 103810023A CN 201410080662 A CN201410080662 A CN 201410080662A CN 103810023 A CN103810023 A CN 103810023A
- Authority
- CN
- China
- Prior art keywords
- task
- virtual machine
- carrying device
- scheduler
- physical node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Multi Processors (AREA)
Abstract
本发明涉及一种云平台中分布式应用的智能部署方法及系统,其方法为用户提交运行作业及资源需求;调度管理器将运行作业指定的可执行程序存储到分布式存储系统中,并记录存储位置;调度管理器根据运行作业中包含实例的个数形成相应数量的任务,为各个任务匹配物理节点,并将各任务下发给最匹配物理节点的任务执行器;最匹配物理节点的任务执行器根据任务中包含的信息配置虚拟机并启动;虚拟机根据任务中包含的信息自动从分布式存储系统中获取可执行程序并运行;本发明其使得云平台中多个分布式应用程序可以共享一个物理集群的资源,并给用户提供一种简单、透明、自动的部署接口,方便分布式应用程序的智能化部署,提高了资源的利用率。
Description
技术领域
本发明涉及计算机虚拟化领域及云计算领域,尤其涉及一种云平台中分布式应用的智能部署方法及系统。
背景技术
近年来,随着计算资源种类日益增加、规模不断扩大、计算能力不断加大以及应用需求日渐多样化的背景下,新型的计算模式迫在眉睫。很多分布式应用程序不停的涌现出现,比如多种多样的编程模型。对于一个典型的互联网公司来说,通常部署新的分布式应用程序的方式就是增加更多的机器形成不同的应用集群,然后将这些集群给不同的分布式应用程序或者服务,从而使得一个应用或服务独占一个集群。这个做法会有以下不足:
1.集群资源利用率极低
每个应用程序都单独使用一个物理集群,会造成资源利用率极低。因为对于每种应用,都或多或少有一种固定负载的模式,比如某种互联网应用的负载只是在早上或晚上某个时间点达到峰值,其余大部分时间它的负载只处于很低的情况。而另外一种互联网应用可能在一天中其他某个时间内到达负载的峰值,其余时间也是低负载情况。每种应用程序除了在负载达到峰值时对资源利用率达到一定值,其余时间资源利用率极低,造成资源的浪费。
2.集群不能统一管理
每个分布式应用部署在一个集群之上,则需要对每种应用分别管理,不能实现统一的管理,从而使得成本较高。数据中心的运维成本主要有人员管理费用、建设费用、供电费用、冷却费用还有维护费用等。根据目前的估计来看,多个集群带来的这些建设维护费用加起来可能比数据中心物理机器的费用还要高。
3.多个应用程序无法实现数据共享
不同应用程序可能对于同批数据进行不同的处理,这样就涉及到数据复用问题。如果不进行统一集群管理,单一应用部署在独立集群上,那么数据复用就需要迁移数据,由于大数据时代的到来,数据规模很大,数据迁移的代价会很大。
为解决上述问题,可以想到使多个应用程序共享一个物理集群,但要实现会存在以下问题。
1.使用多个应用程序共享物理集群时对用户技术水平要求高
使用多个应用程序共享物理集群时,用户在云平台上部署分布式应用程序,需要手动完成以下步骤:
a.在启动虚拟机之前,配置网络虚拟化相关软件、配置网络、添加网桥等;
b.在启动虚拟机时,需要为单个虚拟机手动指定资源,并指定这个虚拟机部署在哪个物理节点上;
c.启动虚拟机之后,需要手动配置虚拟机,尤其需要配置虚拟机的IP地址,这样虚拟机才能正确接入局域网中。最后需要用户手动拷贝分布式应用程序到虚拟机中,并将这个程序运行起来。
所有以上这些步骤对用户提出了很高的要求,用户需要了解很多有关虚拟化技术的知识,而且用户在进行这些操作也极易出错,并不方便普通用户使用.
2.部署机制不能进行负载均衡
另外,由于用户不知道哪些物理节点上负载比较高,这个手动的部署机制并不能很好的进行负载均衡。尤其当用户希望大规模部署集群时候,这些不方便性体现的尤其明显。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种云平台中分布式应用的智能部署方法及系统,其使得云平台中多个分布式应用程序可以共享一个物理集群的资源,并给用户提供一种简单、透明、自动的部署接口,方便分布式应用程序的智能化部署。
本发明解决上述技术问题的技术方案如下:一种云平台中分布式应用的智能部署方法,包括如下步骤:
步骤1:用户提交运行作业及资源需求到调度管理器;
步骤2:所述调度管理器将运行作业指定的可执行程序存储到分布式存储系统中,并记录存储位置;
步骤3:调度管理器根据运行作业中包含实例的个数形成相应数量的任务,为各个任务匹配物理节点,并将各任务下发给最匹配物理节点的任务执行器;
步骤4:最匹配物理节点的任务执行器根据任务中包含的信息配置虚拟机并启动;
步骤5:虚拟机根据任务中包含的信息自动从分布式存储系统中获取可执行程序并运行。
本发明的有益效果是:
1)不同需求的用户可以共享一个运行Linux操作系统的物理集群,并可以在上面运行需要各种平台(Linux和Windows)的分布式应用程序;
2)用户不需要懂得虚拟化技术任何底层知识,只需要提交作业即可;
3)用户不需要配置任何虚拟化环境,包括极易出错的网络虚拟化相关软件、配置网络、添加网桥等;
4)用户不需要为单个虚拟机手动指定资源,也不需要并指定这个虚拟机部署在哪个物理节点上;
5)启动虚拟机之后,用户不需要手动配置虚拟机的网络等,也不需要手动拷贝分布式应用程序到虚拟机中,分布式应用程序会自动的下装以及运行;
6)系统会自动的保证关键资源的公平性、减少资源碎片;
综上所述,本发明其使得云平台中多个分布式应用程序可以共享一个物理集群的资源,并给用户提供一种简单、透明、自动的部署接口,方便分布式应用程序的智能化部署,提高了资源的利用率。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,步骤1中用户提交的运行作业包括分布式应用的可执行程序,可执行程序运行需要的操作系统环境,需要运行的实例个数,每个实例运行时的相应参数;用户提交的资源需求包括每个实例的资源需求;
步骤3中每个实例对应的任务中记录该实例对应的可执行程序在分布式存储系统中的存储位置、每个实例的资源需求及相应的启动参数。
进一步,步骤3为各个任务匹配物理节点的具体实现为:
步骤3.1:调度管理器的调度模块将生成的任务存储到任务队列中,并周期性地从任务队列中调度任务;
步骤3.2:调度模块从监控模块中获取物理集群的全局状态信息;
步骤3.3:调度模块根据调取任务的资源需求及物理集群的全局状态信息,利用关键资源公平算法计算出与该任务最匹配的物理节点;
步骤3.4:调度模块将任务下发到最匹配的物理节点的任务执行器的任务执行模块。
进一步,上述技术方案还包括所述每个物理节点的任务执行器的心跳上报模块实时向调度管理器上报心跳信息;所述调度管理器的监控模块接收所有心跳信息,存储物理集群的全局状态信息。
其中,步骤3.3中所述利用关键资源公平算法具体实现为:计算每个物理节点每种资源的资源需求可用比,选取资源需求可用比中最高的一个即为该物理节点的关键资源比例。
进一步,步骤4中最匹配物理节点的任务执行器根据任务中包含的信息配置虚拟机并启动的具体步骤:
步骤4.1:最匹配物理节点的任务执行器根据任务指定的资源调用底层虚拟化技术接口,准备虚拟机的配置文件并创建相应操作系统的虚拟机;
步骤4.2:利用增量拷贝技术快速创建虚拟机镜像;
步骤4.3:利用ISO注入技术自动将配置文件中的参数注入到虚拟机,并启动虚拟机;
步骤4.4:利用虚拟机内代理技术自动配置虚拟机;
步骤4.5:虚拟机内代理程序根据任务中指定的位置,自动从分布式存储中下载分布应用的可执行程序,并根据任务参数运行分布式应用。
本发明解决上述技术问题的另一技术方案如下:一种云平台中分布式应用的智能部署系统,包括一个调度管理器、若干个任务执行器和分布式存储系统;
所述调度管理器,其运行在主节点上,用于接收用户提交的运行作业和资源需求,将运行作业指定的可执行程序存储到分布式存储系统中,并记录存储位置;还用于根据运行作业中包含实例的个数形成相应数量的任务,将各个任务下发给最匹配物理节点的任务执行器;
所述任务执行器,其运行在从节点上,用于根据任务中包含的信息配置虚拟机并启动,进而虚拟机根据任务中包含的信息自动从分布式存储系统中获取可执行程序并运行;
所述分布式存储系统,其用于存储调度管理器上传的分布式应用的可执行程序。
进一步,所述调度管理器包括监控模块和调度模块;
所述监控模块,其用于接收各任务执行器上报的心跳信息,监控各任务执行器的运行状态,并存储全局状态信息,为调度模块提供决策依据;
所述调度模块,其用于根据运行作业生成若干个任务,并存储在任务队列中,并周期性地从调度队列中调度任务,并根据监控模块中存储的全局状态信息为各任务匹配物理节点,并将各任务下发给最佳匹配物理节点的任务执行器。
进一步,所述任务执行器包括心跳上报模块和任务执行模块;
所述心跳上报模块,其用于定时向调度管理器上报该任务执行器的心跳信息;
所述任务执行模块,其用于执行调度模块下发的任务,并根据任务指定的资源调用底层的虚拟化技术接口,准备虚拟机的配置文件并创建相应操作系统的虚拟机,利用创建的虚拟机从分布式存储系统中获取相应可执行程序并运行。
进一步,所述心跳信息包括该任务执行器的各种资源分配情况以及各种资源利用率。
附图说明
图1为本发明所述一种云平台分布式应用的自动智能部署方法流程图;
图2为本发明所述步骤3的具体流程图;
图3为本发明所述步骤4的具体流程图;
图4为本发明所述一种云平台分布式应用的自动智能部署系统框图;
图5为本发明实施例中提交作业示意图;
图6为本发明实施例中形成的3个任务配置示意图;
图7为本发明实施例中任务T1形成的ISO配置文件。
附图中,各标号所代表的部件列表如下:
100、调度管理器,200、任务执行器,300分布式存储系统,101、监控模块,102、调度模块,201、心跳上报模块,202、任务执行模块。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种云平台中分布式应用的智能部署方法,包括如下步骤:
步骤1:用户提交运行作业及资源需求到调度管理器;
步骤2:所述调度管理器将运行作业指定的可执行程序存储到分布式存储系统中,并记录存储位置;
步骤3:调度管理器根据运行作业中包含实例的个数形成相应数量的任务,为各个任务匹配物理节点,并将各任务下发给最匹配物理节点的任务执行器;
步骤4:最匹配物理节点的任务执行器根据任务中包含的信息配置虚拟机并启动;
步骤5:虚拟机根据任务中包含的信息自动从分布式存储系统中获取可执行程序并运行。
其中,步骤1中用户提交的运行作业包括分布式应用的可执行程序,可执行程序运行需要的操作系统环境,需要运行的实例个数,每个实例运行时的相应参数;用户提交的资源需求包括每个实例的资源需求;步骤3中每个实例对应的任务中记录该实例对应的可执行程序在分布式存储系统中的存储位置、每个实例的资源需求及相应的启动参数。
如图2所示,步骤3为各个任务匹配物理节点的具体实现为:
步骤3.1:调度管理器的调度模块将生成的任务存储到任务队列中,并周期性地从任务队列中调度任务;
步骤3.2:调度模块从监控模块中获取物理集群的全局状态信息;
步骤3.3:调度模块根据调取任务的资源需求及物理集群的全局状态信息,利用关键资源公平算法计算出与该任务最匹配的物理节点;
步骤3.4:调度模块将任务下发到最匹配的物理节点的任务执行器的任务执行模块。
其中,上述技术方案还包括所述每个物理节点的任务执行器的心跳上报模块实时向调度管理器上报心跳信息;所述调度管理器的监控模块接收所有心跳信息,存储物理集群的全局状态信息。
其中,步骤3.3中所述利用关键资源公平算法具体实现为:计算每个物理节点每种资源的资源需求可用比,选取资源需求可用比中最高的一个即为该物理节点的关键资源比例。
如图3所示,步骤4中最匹配物理节点的任务执行器根据任务中包含的信息配置虚拟机并启动的具体步骤:
步骤4.1:最匹配物理节点的任务执行器根据任务指定的资源调用底层虚拟化技术接口,准备虚拟机的配置文件并创建相应操作系统的虚拟机;
步骤4.2:利用增量拷贝技术快速创建虚拟机镜像;
步骤4.3:利用ISO注入技术自动将配置文件中的参数注入到虚拟机,并启动虚拟机;
步骤4.4:利用虚拟机内代理技术自动配置虚拟机;
步骤4.5:虚拟机内代理程序根据任务中指定的位置,自动从分布式存储中下载分布应用的可执行程序,并根据任务参数运行分布式应用。
如图4所示,一种云平台中分布式应用的智能部署系统,包括一个调度管理器100、若干个任务执行器200和分布式存储系统300;
所述调度管理器100,其运行在主节点上,用于接收用户提交的运行作业和资源需求,将运行作业指定的可执行程序存储到分布式存储系统300中,并记录存储位置;还用于根据运行作业中包含实例的个数形成相应数量的任务,将各个任务下发给最匹配物理节点的任务执行器200;
所述任务执行器200,其运行在从节点上,用于根据任务中包含的信息配置虚拟机并启动,进而虚拟机根据任务中包含的信息自动从分布式存储系统300中获取可执行程序并运行;
所述分布式存储系统300,其用于存储调度管理器100上传的分布式应用的可执行程序。
其中,调度管理器100和务执行器200之间不同的模块通过调用(RPC)进行远程通信,这个通信包括用户提交作业到调度管理器100,调度管理器100下发任务到任务执行器200等所有的跨节点通信;分布式存储系统300提供文件传输功能,实现中使用的是HDFS(Hadoop分布式文件系统,Hadoop是Google MapReduce编程框架的一个开源实现)。
任务执行器200还需要在对应的物理节点上启动/关闭虚拟机以运行/销毁分布式应用。它根据调度管理器100调度模块下发的任务,根据其指定的资源调用底层的虚拟化技术接口,准备虚拟机的配置文件并创建相应操作系统的虚拟机以供运行任务。
其中,所述调度管理器100包括监控模块101和调度模块102;
所述监控模块101,其用于接收各任务执行器200上报的心跳信息,监控各任务执行器200的运行状态,并存储全局状态信息,为调度模块102提供决策依据;
所述调度模块102,其用于根据运行作业生成若干个任务,并存储在任务队列中,并周期性地从调度队列中调度任务,并根据监控模块中存储的全局状态信息为各任务匹配物理节点,并将各任务下发给最佳匹配物理节点的任务执行器200。
其中,所述任务执行器200包括心跳上报模块201和任务执行模块202;
所述心跳上报模块201,其用于定时向调度管理器100上报该任务执行器200的心跳信息;
所述任务执行模块202,其用于执行调度模块102下发的任务,并根据任务指定的资源调用底层的虚拟化技术接口,准备虚拟机的配置文件并创建相应操作系统的虚拟机,利用创建的虚拟机从分布式存储系统中获取相应可执行程序并运行。
其中,心跳上报模块201负责定时向调度管理器100上报它的心跳信息,以告诉调度管理器100的监控模块101它目前处于活跃状态,可以接受任务。
其中,所述心跳信息包括该任务执行器的各种资源分配情况以及各种资源利用率。如CPU、内存以及网络I/O,包括已经分配出去多少资源,还剩下多少资源,各种资源利用信息,比如CPU利用率,内存利用率等。
下面以一个网络爬虫实例进一步描述本发明的实现。
假设一个用户需要在一个运行Linux操作系统上面启动3个Windows运行环境的网络爬虫可执行程序exe,每个程序被分配了一定扫描的区段分别为,10.168.1.1-10.168.50.1、10.168.50.1-10.168.100.1和10.168.100.1-10.168.150.1。每个实例的资源需求为1个CPU,1GB内存,1Mb/s网络I/O带宽,用户最终提交的作业如图5所示。
调度管理器100首先会根据用户提交的任务中可执行程序的位置读取文件,并将文件上传到分布式存储系统300(HDFS)中,并记录下这个可执行程序在分布式存储系统300(HDFS)中的位置,假设为A。随后系统会为这个用户提交的请求创建3个任务,并放在调度管理器100里面的调度队列中,形成的3个任务配置如图6所示。
调度模块102根据“关键资源公平算法”进行任务调度。所谓的关键资源,就是对于某一个用户任务来说最需要的资源,也即它所要求的每种资源占物理机可用资源的比例最大的那个资源。具体的计算方法是,计算每个物理节点每种资源的资源需求可用比,所述资源需求可用比是处理单元的资源需求量与物理节点的资源可用量的比例,多种资源需求可用比中最高的一个即为该物理节点的关键资源比例。下面举个例子说明关键资源:假设一个物理机器有10个CPU核心、40G的内存以及100Mb/s的千兆网络I/O带宽。一个用户任务要求1个CPU,1G内存和1Mb/s的网络带宽,对于这个用户来说,CPU就是它的关键资源,因为它需求的CPU资源占可用CPU资源的10%,而需要其他种类的资源分别占2.5%和1%。另外,对于公平性的考量可以见如下的例子:考虑一个物理机拥有12个CPU、12GB内存(为了说明问题的简单性,暂时不考虑网络I/O资源,但是如果考虑,情况是一样的),一个用户任务要求4CPU和1GB内存,另一个用户要求1CPU和2GB内存。假设在这个例子中,每个有无都有无限的任务请求。关键资源公平算法尝试去给所有用户同等比例的关键资源数量。在上述例子中,关键资源公平算法将要分配给两个用户2和4个任务的资源。因此,两个用户的资源使用量分别为<8,2>以及<4,8>。在这个情况下,每个用户都得到了他们相应关键资源的2/3。
下面仍以上述分布式爬虫为例,假设一共有两台的可用物理机作为任务执行器,初始资源分别为M1(2CPU,6G内存,100Mb/s网络带宽),和M2(2CPU,6G内存,100Mb/s网络带宽)。系统首先取得任务1,它的资源需求是R1(1CPU,1G内存,1Mb/s网络带宽)。分别计算它对于两个的物理机的关键资源比均为1/2,这个任务就被顺序匹配到机器1;重复这个过程,任务2也会被匹配到机器1,最终的任务3会被匹配到机器2;从分配过程来看,关键资源优先算法可以减少不同物理机内的资源碎片,并保证关键资源的公平性。
上述方法中,提到配置虚拟化运行环境,主要由任务执行器200自动配置包括网络虚拟化相关软件、配置网络、添加网桥等。另外,虚拟机的配置文件指的是虚拟机使用的资源量R(CPU,内存,I/O),要运行作业的分布式应用及其相应启动参数和虚拟机拟分配的IP地址等。该配置文件中的信息大部分来自任务的指定,除了虚拟机拟分配的IP地址来自系统保留的所有可用IP地址池分配的下一个可用的IP地址;任务执行器200将这些配置文件形成一个标准的ISO格式文件。
上述方法中,提到增加拷贝虚拟机镜像技术,详细如下:
要创建一个虚拟机实例并运行一个应用。首先需要创建一个虚拟机镜像。但是创建虚拟机镜像并不是一个容易的事情,因为创建了镜像之后需要在这个镜像里面安装一个操作系统,而这个过程一般必须要人工地参与。本系统中任务执行器200会事先部署好一个安装好指定系统的镜像模版,然后在创建虚拟机之前,创建这个虚拟机镜像模版的一个拷贝,然后将这个虚拟机运行起来并执行应用。但是,如果一个虚拟机镜像模版大小为上百G,拷贝一个镜像的时间可能长达十几分钟,这是一个不可接受的事情。另外,每一个镜像存在大量相同的部分数据,每次都从新拷贝一份完全的虚拟机镜像对于操作系统的存储来说是一个极大的浪费。本系统对镜像采取的特殊地处理,镜像采用的是qcow2格式,qcow2是虚拟机镜像存储的一种特殊的文件格式,在每次拷贝镜像模版的时候都是使用增量创建,只保存于镜像模版不同的数据,因此无论虚拟机镜像有多大,这个增量很小的,所以创建一个新的虚拟机镜像耗时几乎可以不计。
上述方法中,提到ISO注入配置技术,具体如下:
启动虚拟机的时候会将形成的ISO格式文件传递通过ISO注入的方式传递给虚拟机内部。在虚拟机启动时候,由于虚拟机内部操作系统存在一个开机引导过程,不能直接将虚拟机配置的参数在创建的时候直接传递到虚拟机内部中。本专利利用创建虚拟机时候可以指定一个ISO文件这个机会作为传递参数机制,这个ISO镜像文件初始是用来在空的虚拟机镜像上面安装操作系统时候使用的,本专利利用这个机制向虚拟机内部传递参数,以供虚拟机内部系统引导起来之后的处理。
最后任务执行器根据200任务的操作系统要求以及资源需求量,利用底层虚拟化技术提供的接口启动相应虚拟机。
上述方法中,提到利用虚拟机内代理技术自动配置虚拟机,具体如下:
虚拟机在引导操作系统之后,会开机自动启动一个代理程序,这个程序运行在虚拟机内部,随着虚拟机的启动而运行,它会挂载传入的ISO配置到系统光盘中,读取里面的配置文件,根据配置文件的信息配置这个虚拟机的IP以及其他任何需要配置的参数。配置虚拟机IP之后,该虚拟机就可以自动与外界通信。
代理程序会根据配置文件中记录的作业可执行程序的地址,到分布式存储系统300中自动下装可行程序到虚拟机中,随后代理程序根据配置文件中记录的作业启动参数运行分布式程序;
下面仍以分布式爬虫为例子,第一个任务T1被下发到物理机M1之后,会进行以下操作:
1.任务执行器200会首先配置物理机的虚拟网桥,以及其他运行虚拟机需要配置的软件,另外,执行器从系统可用IP资源池中获得下一个可用IP,假设为192.168.1.11。
2.根据任务T1的操作系统需求,通过qcow2格式增量创建一个Window XP操作系统的镜像,假设生成的镜像名为t1.qcow2。
3.将配置文件制作成标准ISO文件,配置文件内容如图7所示,假设这个配置文件名为t1.iso。在启动虚拟机的时候,任务执行器200会将所需要的资源以及此ISO配置文件地址告诉底层的虚拟化技术KVM。KVM是目前进入Linux内核的基于内核的全虚拟化技术。任务执行器200根据另外一个配置文件与KVM进行通信。
4.KVM虚拟机启动之后,内部会开机自动运行一个代理程序,这个程序是在镜像模版中已经预先配置好的,它会挂载传入的ISO配置到系统光盘中,读取里面的配置文件,根据配置文件的信息读取到IP信息192.168.1.11,并自动将虚拟机配置为这个IP地址,以达到这个虚拟机能自动连入局域网的目的。
5.代理程序配置好网络之后,会根据配置文件里面的分布式爬虫在分布式存储HDFS中的位置/A/Crawler.exe下装应用到虚拟机中,并根据参数10.168.1.1~10.168.50.1调用这个可执行程序,完成这个可执行程序的部分扫描任务。
6.其余的2个任务会经历类似的过程,等它们完全运行起来之后,系统就运行了完成了整个用户提交的作业,一共启动了3个分布式爬虫程序一起完成了扫描10.168.1.1-10.168.150.1网段的工作。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种云平台中分布式应用的智能部署方法,其特征在于,包括如下步骤:
步骤1:用户提交运行作业及资源需求到调度管理器;
步骤2:所述调度管理器将运行作业指定的可执行程序存储到分布式存储系统中,并记录存储位置;
步骤3:调度管理器根据运行作业中包含实例的个数形成相应数量的任务,为各个任务匹配物理节点,并将各任务下发给最匹配物理节点的任务执行器;
步骤4:最匹配物理节点的任务执行器根据任务中包含的信息配置虚拟机并启动;
步骤5:虚拟机根据任务中包含的信息自动从分布式存储系统中获取可执行程序并运行。
2.根据权利要求1所述一种云平台中分布式应用的智能部署方法,其特征在于,
步骤1中用户提交的运行作业包括分布式应用的可执行程序,可执行程序运行需要的操作系统环境,需要运行的实例个数,每个实例运行时的相应参数;用户提交的资源需求包括每个实例的资源需求;
步骤3中每个实例对应的任务中记录该实例对应的可执行程序在分布式存储系统中的存储位置、每个实例的资源需求及相应的启动参数。
3.根据权利要求1所述一种云平台中分布式应用的智能部署方法,其特征在于,步骤3为各个任务匹配物理节点的具体实现为:
步骤3.1:调度管理器的调度模块将生成的任务存储到任务队列中,并周期性地从任务队列中调度任务;
步骤3.2:调度模块从监控模块中获取物理集群的全局状态信息;
步骤3.3:调度模块根据调取任务的资源需求及物理集群的全局状态信息,利用关键资源公平算法计算出与该任务最匹配的物理节点;
步骤3.4:调度模块将任务下发到最匹配的物理节点的任务执行器的任务执行模块。
4.根据权利要求3所述一种云平台中分布式应用的智能部署方法,其特征在于,还包括所述每个物理节点的任务执行器的心跳上报模块实时向调度管理器上报心跳信息;所述调度管理器的监控模块接收所有心跳信息,存储物理集群的全局状态信息。
5.根据权利要求3所述一种云平台中分布式应用的智能部署方法,其特征在于,步骤3.3中所述利用关键资源公平算法具体实现为:计算每个物理节点每种资源的资源需求可用比,选取资源需求可用比中最高的一个即为该物理节点的关键资源比例。
6.根据权利要求1所述一种云平台中分布式应用的智能部署方法,其特征在于,步骤4中最匹配物理节点的任务执行器根据任务中包含的信息配置虚拟机并启动的具体步骤:
步骤4.1:最匹配物理节点的任务执行器根据任务指定的资源调用底层虚拟化技术接口,准备虚拟机的配置文件并创建相应操作系统的虚拟机;
步骤4.2:利用增量拷贝技术快速创建虚拟机镜像;
步骤4.3:利用ISO注入技术自动将配置文件中的参数注入到虚拟机,并启动虚拟机;
步骤4.4:利用虚拟机内代理技术自动配置虚拟机;
步骤4.5:虚拟机内代理程序根据任务中指定的位置,自动从分布式存储中下载分布应用的可执行程序,并根据任务参数运行分布式应用。
7.一种云平台中分布式应用的智能部署系统,其特征在于,包括一个调度管理器、若干个任务执行器和分布式存储系统;
所述调度管理器,其运行在主节点上,用于接收用户提交的运行作业和资源需求,将运行作业指定的可执行程序存储到分布式存储系统中,并记录存储位置;还用于根据运行作业中包含实例的个数形成相应数量的任务,将各个任务下发给最匹配物理节点的任务执行器;
所述任务执行器,其运行在从节点上,用于根据任务中包含的信息配置虚拟机并启动,进而虚拟机根据任务中包含的信息自动从分布式存储系统中获取可执行程序并运行;
所述分布式存储系统,其用于存储调度管理器上传的分布式应用的可执行程序。
8.根据权利要求7所述一种云平台中分布式应用的智能部署系统,其特征在于,所述调度管理器包括监控模块和调度模块;
所述监控模块,其用于接收各任务执行器上报的心跳信息,监控各任务执行器的运行状态,并存储全局状态信息,为调度模块提供决策依据;
所述调度模块,其用于根据运行作业生成若干个任务,并存储在任务队列中,并周期性地从调度队列中调度任务,并根据监控模块中存储的全局状态信息为各任务匹配物理节点,并将各任务下发给最佳匹配物理节点的任务执行器。
9.根据权利要求7所述一种云平台中分布式应用的智能部署系统,其特征在于,所述任务执行器包括心跳上报模块和任务执行模块;
所述心跳上报模块,其用于定时向调度管理器上报该任务执行器的心跳信息;
所述任务执行模块,其用于执行调度模块下发的任务,并根据任务指定的资源调用底层的虚拟化技术接口,准备虚拟机的配置文件并创建相应操作系统的虚拟机,利用创建的虚拟机从分布式存储系统中获取相应可执行程序并运行。
10.根据权利要求7所述一种云平台中分布式应用的智能部署系统,其特征在于,所述心跳信息包括该任务执行器的各种资源分配情况以及各种资源利用率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410080662.4A CN103810023B (zh) | 2014-03-06 | 2014-03-06 | 一种云平台中分布式应用的智能部署方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410080662.4A CN103810023B (zh) | 2014-03-06 | 2014-03-06 | 一种云平台中分布式应用的智能部署方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103810023A true CN103810023A (zh) | 2014-05-21 |
CN103810023B CN103810023B (zh) | 2016-09-07 |
Family
ID=50706835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410080662.4A Active CN103810023B (zh) | 2014-03-06 | 2014-03-06 | 一种云平台中分布式应用的智能部署方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103810023B (zh) |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104092781A (zh) * | 2014-07-31 | 2014-10-08 | 武汉云雅科技有限公司 | 一种基于云计算的云集群快速部署系统 |
CN104102548A (zh) * | 2014-08-04 | 2014-10-15 | 北京京东尚科信息技术有限公司 | 任务资源调度处理方法和系统 |
CN104461699A (zh) * | 2014-12-29 | 2015-03-25 | 成都致云科技有限公司 | 虚拟主机创建方法及装置及分布式存储系统 |
CN104536899A (zh) * | 2015-01-20 | 2015-04-22 | 成都益联科创科技有限公司 | 一种基于智能集群的软件部署及其维护方法 |
CN104539487A (zh) * | 2015-01-20 | 2015-04-22 | 成都益联科创科技有限公司 | 一种基于云平台的系统测试及可靠性评估方法 |
CN104572306A (zh) * | 2015-01-28 | 2015-04-29 | 中国石油集团川庆钻探工程有限公司地球物理勘探公司 | 计算机集群的资源管理方法、资源管理器 |
CN104850441A (zh) * | 2015-05-26 | 2015-08-19 | 北京汉柏科技有限公司 | 一种云计算平台虚拟机自启动的系统及方法 |
CN105468430A (zh) * | 2014-09-04 | 2016-04-06 | 中国石油化工股份有限公司 | 基于虚拟化技术的勘探应用云桌面构建方法 |
CN105824697A (zh) * | 2016-03-23 | 2016-08-03 | 浪潮通信信息系统有限公司 | 一种基于队列的分布式多级调度方法 |
CN106371893A (zh) * | 2016-08-31 | 2017-02-01 | 开封大学 | 一种云计算调度系统和方法 |
CN107066338A (zh) * | 2017-04-13 | 2017-08-18 | 中国人民解放军国防科学技术大学 | 分布式计算系统的计算环境自动配置方法 |
CN107220271A (zh) * | 2016-12-14 | 2017-09-29 | 郑州祺石信息技术有限公司 | 一种分布式数字资源存储处理与管理的方法及系统 |
CN107346264A (zh) * | 2016-05-05 | 2017-11-14 | 北京金山云网络技术有限公司 | 一种虚拟机负载均衡调度的方法、装置和服务器设备 |
CN107704318A (zh) * | 2017-09-20 | 2018-02-16 | 北京京东尚科信息技术有限公司 | 实例调度的方法和装置 |
CN107977253A (zh) * | 2016-10-25 | 2018-05-01 | 腾讯科技(北京)有限公司 | 程序处理方法、ic客户端及ic平台 |
CN108011931A (zh) * | 2017-11-22 | 2018-05-08 | 用友金融信息技术股份有限公司 | Web数据采集方法和Web数据采集系统 |
CN108023958A (zh) * | 2017-12-08 | 2018-05-11 | 中国电子科技集团公司第二十八研究所 | 一种基于云平台资源监视的资源调度系统 |
CN108322490A (zh) * | 2017-01-17 | 2018-07-24 | 阿里巴巴集团控股有限公司 | 虚拟机配置及部署分布式云服务系统的方法、装置和服务器 |
CN108345497A (zh) * | 2018-01-17 | 2018-07-31 | 千寻位置网络有限公司 | Gnss离线定位模拟的执行方法及系统、定位装置 |
CN108762910A (zh) * | 2018-06-06 | 2018-11-06 | 亚信科技(中国)有限公司 | 一种分布式任务调度方法及系统 |
CN109120678A (zh) * | 2018-07-26 | 2019-01-01 | 北京百度网讯科技有限公司 | 用于分布式存储系统的服务托管的方法和装置 |
CN109213602A (zh) * | 2018-09-18 | 2019-01-15 | 郑州云海信息技术有限公司 | 一种应用服务请求的方法和装置 |
CN109491776A (zh) * | 2018-11-06 | 2019-03-19 | 北京百度网讯科技有限公司 | 任务编排方法和系统 |
CN109814992A (zh) * | 2018-12-29 | 2019-05-28 | 中国科学院计算技术研究所 | 用于大规模网络数据采集的分布式动态调度方法和系统 |
CN109815382A (zh) * | 2018-12-29 | 2019-05-28 | 中国科学院计算技术研究所 | 大规模网络数据的感知与获取方法和系统 |
CN110138883A (zh) * | 2019-06-10 | 2019-08-16 | 北京贝斯平云科技有限公司 | 混合云资源分配方法和装置 |
CN110389815A (zh) * | 2018-04-18 | 2019-10-29 | 阿里巴巴集团控股有限公司 | 任务处理方法、装置及系统 |
CN110597639A (zh) * | 2019-09-23 | 2019-12-20 | 腾讯科技(深圳)有限公司 | Cpu分配控制方法、装置、服务器及存储介质 |
CN110928688A (zh) * | 2019-11-29 | 2020-03-27 | 电子科技大学 | 一种分布式爬虫任务的调度系统及方法 |
CN111355602A (zh) * | 2018-12-21 | 2020-06-30 | 华为技术有限公司 | 一种资源对象的管理方法及装置 |
CN112307114A (zh) * | 2019-07-31 | 2021-02-02 | 北京中关村科金技术有限公司 | 一种数据交换方法、装置以及存储介质 |
CN112437129A (zh) * | 2020-11-10 | 2021-03-02 | 广州虎牙科技有限公司 | 集群的管理方法及集群的管理装置 |
CN113407243A (zh) * | 2020-03-17 | 2021-09-17 | 南京南瑞继保电气有限公司 | 一种配置和调度虚拟i/o模块的方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6078955A (en) * | 1996-08-30 | 2000-06-20 | Hitachi, Ltd. | Method for controlling a computer system including a plurality of computers and a network processed as a user resource |
CN102866918A (zh) * | 2012-07-26 | 2013-01-09 | 中国科学院信息工程研究所 | 面向分布式编程框架的资源管理系统 |
-
2014
- 2014-03-06 CN CN201410080662.4A patent/CN103810023B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6078955A (en) * | 1996-08-30 | 2000-06-20 | Hitachi, Ltd. | Method for controlling a computer system including a plurality of computers and a network processed as a user resource |
CN102866918A (zh) * | 2012-07-26 | 2013-01-09 | 中国科学院信息工程研究所 | 面向分布式编程框架的资源管理系统 |
Non-Patent Citations (1)
Title |
---|
张章等: "《Lynn: A Multi-Dimensional Dynamic Resource Management System for Distributed Applications in Clouds》", 《2013 INTERNATIONAL CONFERENCE ON CLOUD AND SERVICE COMPUTING》 * |
Cited By (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104092781B (zh) * | 2014-07-31 | 2018-10-19 | 武汉云雅科技有限公司 | 一种基于云计算的云集群快速部署系统 |
CN104092781A (zh) * | 2014-07-31 | 2014-10-08 | 武汉云雅科技有限公司 | 一种基于云计算的云集群快速部署系统 |
CN104102548B (zh) * | 2014-08-04 | 2017-11-24 | 北京京东尚科信息技术有限公司 | 任务资源调度处理方法和系统 |
CN104102548A (zh) * | 2014-08-04 | 2014-10-15 | 北京京东尚科信息技术有限公司 | 任务资源调度处理方法和系统 |
CN105468430A (zh) * | 2014-09-04 | 2016-04-06 | 中国石油化工股份有限公司 | 基于虚拟化技术的勘探应用云桌面构建方法 |
CN104461699A (zh) * | 2014-12-29 | 2015-03-25 | 成都致云科技有限公司 | 虚拟主机创建方法及装置及分布式存储系统 |
CN104536899A (zh) * | 2015-01-20 | 2015-04-22 | 成都益联科创科技有限公司 | 一种基于智能集群的软件部署及其维护方法 |
CN104539487A (zh) * | 2015-01-20 | 2015-04-22 | 成都益联科创科技有限公司 | 一种基于云平台的系统测试及可靠性评估方法 |
CN104539487B (zh) * | 2015-01-20 | 2018-04-17 | 成都益联科创科技有限公司 | 一种基于云平台的系统测试及可靠性评估方法 |
CN104536899B (zh) * | 2015-01-20 | 2017-11-24 | 成都益联科创科技有限公司 | 一种基于智能集群的软件部署及其维护方法 |
CN104572306A (zh) * | 2015-01-28 | 2015-04-29 | 中国石油集团川庆钻探工程有限公司地球物理勘探公司 | 计算机集群的资源管理方法、资源管理器 |
CN104850441A (zh) * | 2015-05-26 | 2015-08-19 | 北京汉柏科技有限公司 | 一种云计算平台虚拟机自启动的系统及方法 |
CN105824697A (zh) * | 2016-03-23 | 2016-08-03 | 浪潮通信信息系统有限公司 | 一种基于队列的分布式多级调度方法 |
CN107346264A (zh) * | 2016-05-05 | 2017-11-14 | 北京金山云网络技术有限公司 | 一种虚拟机负载均衡调度的方法、装置和服务器设备 |
CN106371893A (zh) * | 2016-08-31 | 2017-02-01 | 开封大学 | 一种云计算调度系统和方法 |
CN107977253A (zh) * | 2016-10-25 | 2018-05-01 | 腾讯科技(北京)有限公司 | 程序处理方法、ic客户端及ic平台 |
CN107220271A (zh) * | 2016-12-14 | 2017-09-29 | 郑州祺石信息技术有限公司 | 一种分布式数字资源存储处理与管理的方法及系统 |
CN108322490A (zh) * | 2017-01-17 | 2018-07-24 | 阿里巴巴集团控股有限公司 | 虚拟机配置及部署分布式云服务系统的方法、装置和服务器 |
CN108322490B (zh) * | 2017-01-17 | 2021-08-27 | 阿里巴巴集团控股有限公司 | 虚拟机配置及部署分布式云服务系统的方法、装置和服务器 |
CN107066338A (zh) * | 2017-04-13 | 2017-08-18 | 中国人民解放军国防科学技术大学 | 分布式计算系统的计算环境自动配置方法 |
CN107704318A (zh) * | 2017-09-20 | 2018-02-16 | 北京京东尚科信息技术有限公司 | 实例调度的方法和装置 |
CN108011931A (zh) * | 2017-11-22 | 2018-05-08 | 用友金融信息技术股份有限公司 | Web数据采集方法和Web数据采集系统 |
CN108011931B (zh) * | 2017-11-22 | 2021-06-11 | 用友金融信息技术股份有限公司 | Web数据采集方法和Web数据采集系统 |
CN108023958A (zh) * | 2017-12-08 | 2018-05-11 | 中国电子科技集团公司第二十八研究所 | 一种基于云平台资源监视的资源调度系统 |
CN108345497A (zh) * | 2018-01-17 | 2018-07-31 | 千寻位置网络有限公司 | Gnss离线定位模拟的执行方法及系统、定位装置 |
CN110389815A (zh) * | 2018-04-18 | 2019-10-29 | 阿里巴巴集团控股有限公司 | 任务处理方法、装置及系统 |
CN110389815B (zh) * | 2018-04-18 | 2023-09-12 | 阿里巴巴集团控股有限公司 | 任务处理方法、装置及系统 |
CN108762910A (zh) * | 2018-06-06 | 2018-11-06 | 亚信科技(中国)有限公司 | 一种分布式任务调度方法及系统 |
US11057469B2 (en) | 2018-07-26 | 2021-07-06 | Beijing Baidu Netcom Science And Technology Co, Ltd. | Method and apparatus for service hosting of distributed storage system |
CN109120678B (zh) * | 2018-07-26 | 2021-05-14 | 北京百度网讯科技有限公司 | 用于分布式存储系统的服务托管的方法和装置 |
CN109120678A (zh) * | 2018-07-26 | 2019-01-01 | 北京百度网讯科技有限公司 | 用于分布式存储系统的服务托管的方法和装置 |
CN109213602A (zh) * | 2018-09-18 | 2019-01-15 | 郑州云海信息技术有限公司 | 一种应用服务请求的方法和装置 |
CN109491776B (zh) * | 2018-11-06 | 2022-05-31 | 北京百度网讯科技有限公司 | 任务编排方法和系统 |
CN109491776A (zh) * | 2018-11-06 | 2019-03-19 | 北京百度网讯科技有限公司 | 任务编排方法和系统 |
CN111355602B (zh) * | 2018-12-21 | 2021-11-30 | 华为技术有限公司 | 一种资源对象的管理方法及装置 |
CN111355602A (zh) * | 2018-12-21 | 2020-06-30 | 华为技术有限公司 | 一种资源对象的管理方法及装置 |
CN109814992A (zh) * | 2018-12-29 | 2019-05-28 | 中国科学院计算技术研究所 | 用于大规模网络数据采集的分布式动态调度方法和系统 |
CN109815382A (zh) * | 2018-12-29 | 2019-05-28 | 中国科学院计算技术研究所 | 大规模网络数据的感知与获取方法和系统 |
CN110138883A (zh) * | 2019-06-10 | 2019-08-16 | 北京贝斯平云科技有限公司 | 混合云资源分配方法和装置 |
CN112307114A (zh) * | 2019-07-31 | 2021-02-02 | 北京中关村科金技术有限公司 | 一种数据交换方法、装置以及存储介质 |
CN110597639A (zh) * | 2019-09-23 | 2019-12-20 | 腾讯科技(深圳)有限公司 | Cpu分配控制方法、装置、服务器及存储介质 |
CN110928688A (zh) * | 2019-11-29 | 2020-03-27 | 电子科技大学 | 一种分布式爬虫任务的调度系统及方法 |
CN113407243A (zh) * | 2020-03-17 | 2021-09-17 | 南京南瑞继保电气有限公司 | 一种配置和调度虚拟i/o模块的方法和装置 |
CN113407243B (zh) * | 2020-03-17 | 2022-07-22 | 南京南瑞继保电气有限公司 | 一种配置和调度虚拟i/o模块的方法和装置 |
CN112437129A (zh) * | 2020-11-10 | 2021-03-02 | 广州虎牙科技有限公司 | 集群的管理方法及集群的管理装置 |
CN112437129B (zh) * | 2020-11-10 | 2022-07-19 | 广州虎牙科技有限公司 | 集群的管理方法及集群的管理装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103810023B (zh) | 2016-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103810023A (zh) | 一种云平台中分布式应用的智能部署方法及系统 | |
CN108337109B (zh) | 一种资源分配方法及装置和资源分配系统 | |
US8359223B2 (en) | Intelligent management of virtualized resources for cloud database systems | |
CN102246152B (zh) | 保存程序执行状态 | |
US11372689B1 (en) | Cloud bursting technologies | |
CN104123182B (zh) | 基于主从架构的MapReduce任务跨数据中心调度系统及方法 | |
CN103414761A (zh) | 一种基于Hadoop架构的移动终端云资源调度方法 | |
CN108021435B (zh) | 一种基于截止时间的具有容错能力的云计算任务流调度方法 | |
CN111682973B (zh) | 一种边缘云的编排方法及系统 | |
CN102014159A (zh) | 一种云计算环境下的分层资源预留系统 | |
CN104639594A (zh) | 分配物理资源和虚拟资源的系统和方法 | |
CN102214118A (zh) | 一种虚拟机控制方法、系统及装置 | |
CN113515350A (zh) | 一种混合云计算管理平台 | |
CN104050042A (zh) | Etl作业的资源分配方法及装置 | |
CN110245003A (zh) | 一种机器学习单机算法编排系统及方法 | |
CN104935455A (zh) | 簇构造方法及其设备 | |
CN115543615A (zh) | 一种资源分配方法、装置、电子设备及存储介质 | |
Turilli et al. | Characterizing the performance of executing many-tasks on summit | |
US20220229695A1 (en) | System and method for scheduling in a computing system | |
CN110034963B (zh) | 一种应用集群自适应的弹性配置方法 | |
Wu et al. | Abp scheduler: Speeding up service spread in docker swarm | |
JP2024501005A (ja) | コンテナクラスタのための管理方法および装置 | |
US20150286508A1 (en) | Transparently routing job submissions between disparate environments | |
US11017417B1 (en) | Using incentives to manage computing resources | |
Syrigos et al. | Optimization of Execution for Machine Learning Applications in the Computing Continuum |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |