CN113722054B

CN113722054B - 一种资源管理方法、装置以及计算机存储介质

Info

Publication number: CN113722054B
Application number: CN202010451722.4A
Authority: CN
Inventors: 孙大鹏; 申银杰
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2024-04-09
Anticipated expiration: 2040-05-25
Also published as: CN113722054A

Abstract

本发明公开了一种资源管理方法、装置以及计算机存储介质，该方法包括：接收向目标队列提交的任务；检测所述目标队列的队列类型；其中，所述队列类型包括独占队列类型和共享队列类型；根据检测的队列类型，将所述任务分配给所述队列类型对应的集群资源；基于分配的集群资源，执行所述任务；这样，通过合理使用独占队列类型和共享队列类型，不仅可以利用指定队列方式满足租户对集群的特殊需求，同时还可以兼顾各子集群之间的负载均衡和数据本地性等需求，从而能够整体提升集群资源的使用率和吞吐率。

Description

一种资源管理方法、装置以及计算机存储介质

技术领域

本发明涉及大数据应用技术领域，尤其涉及一种资源管理方法、装置以及计算机存储介质。

背景技术

随着计算机和信息化技术的迅猛发展，数据已经渗透到当今每一行业和业务职能领域，成为重要的生成因素。针对海量数据进行有效管理并进一步加以挖掘和应用，已经成为企业提高核心竞争力、抢占市场先机的关键，这时候大数据技术应运而生。

在现有的大数据平台上，随着Hadoop的不断发展与逐步成熟，各大公司都选择hadoop作为大数据平台的底层。其中，对于中小型公司，往往单一的hadoop集群即可满足需求；但是对于大型业务场景，由于业务需求的多样性与复杂性，大数据平台的底层往往不再仅限于单一的hadoop集群，由于不同的域依赖不同的子集群，这时候可以通过对Hadoop集群进行扩容，以得到多个集群；但是上层租户并不关心底层资源是如何分配的，这里就需要实现对多集群资源的统一调度管理。

另外，随着数据量与业务需求的不断增长，Hadoop集群的资源需求也变得越来越大，分布式的Hadoop集群在理论上是支持横向扩展的，即可以通过增加集群中计算节点的个数，来扩展集群计算资源的总数量以满足各租户的资源需求。但是用于管理节点的资源管理器(Resource Manager)的性能往往会限制集群规模，当集群规模达到5000节点时，YARN的调度能力就会达到上限，成为限制集群扩容的瓶颈点。这时候，如果希望继续扩展hadoop集群的资源，那么需要对集群的管理节点进行横向扩展。

针对管理节点横向扩展的问题，一个可行的思想为YARN federation机制，即hadoop开源社区推动了利用YARN Federation机制来解决Resource Manager的性能瓶颈问题。基于多集群资源统一调度管理的理论，YARN Federation的设计思想就是通过联邦的方式，让集群可以有多个子集群(SubCluster)，每个SubCluster都是一个独立的小集群，有各自的资源管理器(Resource Manager)和节点管理器(Node Manager)；并且由子集群的Resource Manager分别管理一部分节点。这些子集群共同组成一个大的YARN Federation集群，以实现资源的统一管理与作业调度。

然而，现有的YARN Federation存在一些缺陷和不足，比如YARN Federation不支持网络授权协议(kerberos)认证，YARN Federation底层无法实现直接用于生产系统的多租户隔离，以及在YARN Federation的使用场景中，无法统一管理多个子集群的队列资源；甚至在进行多租户多集群资源调度时，还无法根据租户的实际需求对其进行针对性配置等，从而无法满足租户需求。

发明内容

本发明的主要目的在于提出一种资源管理方法、装置以及计算机存储介质，通过合理使用独占队列类型和共享队列类型，不仅可以利用指定队列方式满足租户对集群的特殊需求，同时还可以兼顾各子集群之间的负载均衡和数据本地性等需求，从而能够整体提升集群资源的使用率和吞吐率。

为达到上述目的，本发明的技术方案是这样实现的：

第一方面，本发明实施例提供了一种资源管理方法，所述方法包括：

接收向目标队列提交的任务；

检测所述目标队列的队列类型；其中，所述队列类型包括独占队列类型和共享队列类型；

根据检测的队列类型，将所述任务分配给所述队列类型对应的集群资源；

基于分配的集群资源，执行所述任务。

可选地，所述检测所述目标队列的队列类型，包括：

对所述目标队列进行解析，获取所述目标队列配置的集群资源；

若所述集群资源包括一个子集群，则确定所述检测的队列类型为独占队列类型；或者，

如果所述集群资源包括多个子集群，则确定所述检测的队列类型为共享队列类型。

可选地，当所述检测的队列类型为独占队列类型时，所述根据检测的队列类型，将所述任务分配给所述队列类型对应的集群资源，包括：

基于独占队列类型，将所述任务分配给第一子集群；其中，所述目标队列仅配置在所述第一子集群中；

相应地，所述基于分配的集群资源，执行所述任务，包括：

基于所述第一子集群执行所述任务。

可选地，当所述检测的队列类型为共享队列类型时，所述根据检测的队列类型，将所述任务分配给所述队列类型对应的集群资源，包括：

基于共享队列类型，将所述任务分配给第二子集群；其中，所述目标队列同时配置在多个子集群中，所述多个子集群至少包括第二子集群；

相应地，所述基于分配的集群资源，执行所述任务，包括：

基于所述第二子集群执行所述任务。

可选地，在所述基于共享队列类型，将所述任务分配给第二子集群之前，所述方法还包括：

根据预设队列策略，确定执行所述任务的第二子集群。

可选地，所述根据预设队列策略，确定执行所述任务的第二子集群，包括：

确定所述目标队列配置的多个子集群；

计算所述多个子集群中每一子集群对应的负载值，得到多个负载值；

从所述多个负载值中选取最小负载值，将所述最小负载值对应的子集群确定为所述第二子集群。

第二方面，本发明实施例提供了一种资源管理装置，所述资源管理装置包括接收单元、检测单元和资源管理单元和执行任务单元；其中，

所述接收单元，配置为接收向目标队列提交的任务；

所述检测单元，配置为检测所述目标队列的队列类型；其中，所述队列类型包括独占队列类型和共享队列类型；

所述资源管理单元，配置为根据检测的队列类型，将所述任务分配给所述队列类型对应的集群资源；

所述执行任务单元，配置为基于分配的集群资源，执行所述任务。

可选地，所述资源管理装置还包括解析单元和确定单元；其中，

所述解析单元，配置为对所述目标队列进行解析，获取所述目标队列配置的集群资源；

所述确定单元，配置为若所述集群资源包括一个子集群，则确定所述检测的队列类型为独占队列类型；或者，如果所述集群资源包括多个子集群，则确定所述检测的队列类型为共享队列类型。

可选地，当所述检测的队列类型为独占队列类型时，所述资源管理单元，配置为基于独占队列类型，将所述任务分配给第一子集群；其中，所述目标队列仅配置在所述第一子集群中；

所述执行任务单元，配置为基于所述第一子集群执行所述任务。

可选地，当所述检测的队列类型为共享队列类型时，所述资源管理单元，配置为基于共享队列类型，将所述任务分配给第二子集群；其中，所述目标队列同时配置在多个子集群中，所述多个子集群至少包括第二子集群；

所述执行任务单元，配置为基于所述第二子集群执行所述任务。

可选地，所述资源管理装置还包括选取单元；其中，

所述确定单元，还配置为确定所述目标队列配置的多个子集群；

所述选取单元，配置为计算所述多个子集群中每一子集群对应的负载值，得到多个负载值；从所述多个负载值中选取最小负载值，将所述最小负载值对应的子集群确定为所述第二子集群。

第三方面，本发明实施例提供了一种资源管理装置，所述资源管理装置包括存储器和处理器；其中，

所述存储器，用于存储能够在所述处理器上运行的计算机程序；

所述处理器，用于在运行所述计算机程序时，执行如第一方面中任一项所述的方法。

第四方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质存储有资源管理程序，所述资源管理程序被至少一个处理器执行时实现如第一方面中任一项所述的方法。

本发明提供的一种资源管理方法、装置以及计算机存储介质，通过接收向目标队列提交的任务；检测所述目标队列的队列类型；其中，队列类型包括独占队列类型和共享队列类型；根据检测的队列类型，将所述任务分配给所述队列类型对应的集群资源；基于分配的集群资源，执行所述任务；这样，一方面，基于YARN Federation机制，可以有效解决Hadoop集群对集群规模的限制问题；另一方面，在YARN Federation的使用场景中，不仅可以统一管理多个子集群的队列资源，而且通过合理使用独占队列类型和共享队列类型，还可以利用指定队列方式来满足租户对集群的特殊需求，并且还可以兼顾各子集群之间的负载均衡和数据本地性等需求，从而能够整体提升集群资源的使用率和吞吐率，同时还能够保证资源管理的高效性。

附图说明

图1为本发明实施例提供的一种资源管理方法的流程示意图；

图2为本发明实施例提供的一种资源管理系统的总体架构示意图；

图3为本发明实施例提供的一种独占队列的结构示意图；

图4为本发明实施例提供的一种共享队列的结构示意图；

图5为本发明实施例提供的一种资源管理方法的详细流程示意图；

图6为本发明实施例提供的一种资源管理装置的组成结构示意图；

图7为本发明实施例提供的一种资源管理装置的具体硬件结构示意图；

图8为本发明实施例提供的一种资源管理系统的组成结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在实际的生产环境中，大多数是利用一个平台即服务(Platform as a Service，PAAS)管理多租户。在PAAS平台的底层，通常仅存在一个分布式的Hadoop集群。但是随着业务和租户数量的增长，上层租户对底层Hadoop集群资源的需求也在不断增长，这时候就需要对底层hadoop集群进行扩容，但是Resource Manager的性能通常会限制集群规模，一般当集群达到5000节点时，YARN的调度就会成为集群扩容的瓶颈点。目前的开源社区采用YARN Federation机制来解决这个问题，其设计思想就是将多个子集群通过联邦的方式组成一个大的YARN Federation集群，以实现资源的统一管理与作业调度。

这里，在YARN Federation机制中，存在有一个重要的组件，即路由策略存储组件(Policy Store)，该组件中主要存储有应用程序和资源请求如何路由到不同子集群的策略。目前该组件中提供了多种策略，比如随机(Random)策略、哈希(Hashing)策略、轮询调度(Round robin)策略、优先级(Priority)策略等。虽然这些策略考虑了子集群的负载，但是仍然无法满足实际生产环境对子集群的特殊需求。

另外，在YARN Federation的使用场景中，每一个子集群都有独立、隔离的队列资源管理系统，但是YARN Federation本身无法统一管理多个子集群的队列资源。也就是说，现有的YARN Federation仍然存在如下缺陷和不足，比如YARN Federation不支持kerberos认证，YARN Federation无法实现直接用于生产系统的多租户隔离；以及在进行多租户多集群资源调度时，目前仅能通过配置文件或结构化查询语言(Structured Query Language，SQL)手工配置路由策略，无法根据用户的实际需求对其进行针对性、自动化的配置，从而无法满足多租户资源统一管理的需求。

为了解决上述的技术问题，本发明实施例提供了一种资源管理方法，通过接收向目标队列提交的任务；检测目标队列的队列类型；其中，队列类型包括独占队列类型和共享队列类型；根据检测的队列类型，将所述任务分配给所述队列类型对应的集群资源；基于分配的集群资源，执行所述任务。这样，一方面，基于YARN Federation机制，可以有效解决Hadoop集群对集群规模的限制问题；另一方面，在YARN Federation的使用场景中，不仅可以统一管理多个子集群的队列资源，而且通过合理使用独占队列类型和共享队列类型，还可以利用指定队列方式来满足租户对集群的特殊需求，并且还可以兼顾各子集群之间的负载均衡和数据本地性等需求，从而能够整体提升集群资源的使用率和吞吐率，同时还能够保证资源管理的高效性。

下面将结合附图对本发明各实施例进行详细描述。

本发明的一实施例中，参见图1，其示出了本发明实施例提供的一种资源管理方法的流程示意图。如图1所示，该方法可以包括：

S101：接收向目标队列提交的任务；

需要说明的是，本发明实施例的资源管理方法应用于YARN Federation的使用场景。在YARN Federation的使用场景中，一个大的YARN Federation集群资源可以包括有多个子集群。

还需要说明的是，本发明实施例新增加了一种目标队列策略(Target QueuePolicy)，该目标队列策略能够使得提交的任务(或者称之为作业)，可以根据队列类型将其转发给对应的子集群中执行，以实现对YARN Federation集群资源的统一管理和分配。

另外，在本发明实施例中，通常可以采用统一的任务提交接口，以接收向目标队列提交的任务。这里，目标队列表示针对该任务所指定的队列。

S102：检测所述目标队列的队列类型；其中，所述队列类型包括独占队列类型和共享队列类型；

这里，独占队列类型表示目标队列仅配置在一个子集群的队列类型，共享队列类型表示目标队列同时配置在多个子集群的队列类型。

需要说明的是，当目标队列接收到任务之后，系统将会先对目标队列进行解析处理，以确定出目标队列的队列类型；比如目标队列为独占队列类型，还是目标队列为共享队列类型，便于后续由对应的集群资源来执行该任务。

S103：根据检测的队列类型，将所述任务分配给所述队列类型对应的集群资源；

S104：基于分配的集群资源，执行所述任务。

需要说明的是，在检测出队列类型之后，可以根据所检测的队列类型，将所述任务分配到队列类型对应的集群中执行该任务。

具体地，当检测的队列类型为独占队列类型时，可以将任务分配给独占队列类型所对应的唯一集群资源，从而可以实现指定队列，而且通过指定队列的方式能够满足租户对集群的特殊需求，并且还兼顾了数据本地性的需求；或者，当检测的队列类型为共享队列类型时，可以将任务分配给共享队列类型所对应的多个子集群中资源使用率最低的一个，从而能够兼顾各子集群之间的负载均衡，整体提升了集群资源的使用率和吞吐率。

本实施例提供了一种资源管理方法，应用于YARN Federation的使用场景。通过接收向目标队列提交的任务；检测目标队列的队列类型；根据检测的队列类型，将所述任务分配给所述队列类型对应的集群资源；基于分配的集群资源，执行所述任务。这样，一方面，基于YARN Federation机制，可以有效解决Hadoop集群对集群规模的限制问题；另一方面，由于队列类型包括独占队列类型和共享队列类型，如此，通过合理使用独占队列类型和共享队列类型，还可以通过指定队列方式满足租户对集群的特殊需求，并且还可以兼顾各子集群之间的负载均衡和数据本地性等需求，从而能够整体提升集群资源的使用率和吞吐率。

本发明的另一实施例中，参见图2，其示出了本发明实施例提供的一种资源管理系统的总体架构示意图。如图2所示，该资源管理系统20可以包括YARN路由(YARN Routers)201、大数据PAAS(Big Data PASS，BDPAAS)模块202、第一管控(HControl1，HC1)模块203、第二管控(HControl2，HC2)模块204和第三管控(HControl3，HC3)模块205。其中，第一管控模块203可以包括有第一子集群(YARN Sub1)和第一Hadoop分布式文件系统(HadoopDistributed File System1，HDFS1)，第二管控模块204可以包括有第二子集群(YARN Sub2)和第二Hadoop分布式文件系统(Hadoop Distributed File System2，HDFS2)，第三管控模块205可以包括有第三子集群(YARN Sub3)、第三Hadoop分布式文件系统(Hadoop Distributed File System3，HDFS3)的第一命名空间(Name Space1，NS1)和第二命名空间(Name Space2，NS2)，这里，一个HDFS可以包括多个NS。另外，在第一管控模块203下，还可以存在有多个队列资源，比如在YARN Sub1中配置有root.sub1.q1、root.sub1.q2和root.shared.q3；在第二管控模块204下，还可以存在有多个队列资源，比如在YARN Sub2中配置有root.sub2.q1和root.shared.q3；在第三管控模块205下，还可以存在有多个队列资源，比如在YARN Sub3中配置有root.sub3.q2和root.shared.q3。

具体地，在图2所示的资源管理系统中，YARN子集群(包括YARN Sub1、YARN Sub2和YARN Sub3)表示每一个YARN子集群能够维护各自的队列资源，这些队列资源可以利用公平调度器(Fair-Scheduler)进行调度；同时这三个YARN子集群可以利用Resource Manager通过心跳(HeartBeat)向YARN路由201汇报各自的状态以及负载信息，并且存储在分布式系统的可靠协调系统(Zookeeper)中，如图2中带箭头的实线所示；另外，这三个YARN子集群还可以接收YARN路由201所转发的任务(Submit job)，如图2中待箭头的点线所示；另外，BDPAAS模块202则是可以利用系统管理员通过BDPAAS模块向租户分配不同类型的队列资源；即BDPAAS模块202可以根据租户的业务类型和需求，给不同租户分配不同类型的队列资源并进行统一授权，从而能够实现对YARN Federation集群中多个子集群的统一管理和分配。

进一步地，针对独占队列类型和共享队列类型的确定，可以通过对目标队列进行解析，在得到目标队列所配置的集群资源之后，根据集群资源所包括的子集群数量来确定队列类型。因此，在一些实施例中，对于S102来说，所述检测所述目标队列的队列类型，可以包括：

需要说明的是，在执行提交的任务之前，可以通过对资源的划分，确定出每一个子集群配置的队列资源。具体来说，系统管理员可以预先规划出独立队列类型和共享队列类型，即在不同的子集群中所包括的队列资源；以图2为例，系统管理员将预先规划出：在YARNSub1中配置有root.sub1.q1、root.sub1.q2和root.shared.q3等队列资源，在YARN Sub2中配置有root.sub2.q1和root.shared.q3等队列资源，在YARN Sub3中配置有root.sub3.q2和root.shared.q3等队列资源。

其中，共享队列类型所对应的队列(也可以称为共享队列)是指分配给租户在多个子集群都有权限执行任务的队列，以图2为例，root.shared.q3属于共享队列，租户可以在三个子集群都配置有队列资源。而独占队列类型所对应的队列(也可以称为独占队列)是指分配给租户在特定子集群具有权限执行任务的队列，仍以图2为例，root.sub1.q1属于独占队列，租户只在第一子集群(YARN Sub1)配置有队列资源，这时候提交到该队列的任务，将会被YARN路由201直接转发到特定子集群，即第一子集群；另外，root.sub2.q1也属于独占队列，租户只在第二子集群(YARN Sub2)配置有队列资源，这时候提交到该队列的任务，将会被YARN路由201直接转发到特定子集群，即第二子集群。从图2中可以看出，root.sub1.q1、root.sub1.q2、root.sub2.q1和root.sub3.q2均属于独占队列；如此，希望拥有该独占队列资源的租户的数据都将存储在特定子集群对应的HDFS中，可以达到数据本地性的计算优势。

由于队列类型包括独占队列类型和共享队列类型；不同的队列类型，其所确定的集群资源是不同的；即执行任务的集群资源是不同的。下面将针对这两种队列类型分别进行描述。

可选地，在一些实施例中，当所述检测的队列类型为独占队列类型时，对于S103来说，所述根据检测的队列类型，将所述任务分配给所述队列类型对应的集群资源，可以包括：

相应地，对于S104来说，所述基于分配的集群资源，执行所述任务，可以包括：

基于所述第一子集群执行所述任务。

需要说明的是，当目标队列的队列类型为独占队列类型时，目标队列也可以称为独占队列。其中，在多个子集群中，独占队列表示仅配置在某一特定子集群中的队列。这样，假定目标队列为独占队列时，且该目标队列仅配置在第一子集群中；这时候由于数据本地性或其他原因，希望该任务只在第一子集群中执行，那么可以通过BDPAAS模块为租户赋予目标队列的权限，并且将该任务提交到目标队列，从而能够实现为租户指定特定子集群的需求。

示例性地，仍以图2为例，假定目标队列为图2中的队列root.sub1.q1；这时候如果租户希望该任务只在第一子集群(YARN Sub1)中执行，那么可以通过BDPAAS模块为租户赋予队列root.sub1.q1的权限，并且将该任务提交到队列root.sub1.q1中。或者，如图3所示，队列1(Queue1)为子集群1(Subcluster1)所配置的独占队列，队列2(Queue2)为子集群2(Subcluster2)所配置的独占队列，第三队列(Queue3)为子集群3(Subcluster3)所配置的独占队列，可以实现为租户指定特定子集群的需求。

可选地，在一些实施例中，当所述检测的队列类型为共享队列类型时，对于S103来说，所述根据检测的队列类型，将所述任务分配给所述队列类型对应的集群资源，可以包括：

基于所述第二子集群执行所述任务。

需要说明的是，当目标队列的队列类型为共享队列类型时，目标队列也可以称为共享队列。其中，共享队列是相比于独占队列而存在；在多个子集群中，共享队列表示同时配置在多个子集群中的队列。这样，假定目标队列为共享队列时，且该目标队列可以在多个子集群或者全部子集群中存在；这时候具有该队列权限的租户可以向该队列提交任务，然后从这多个子集群中选择出实际执行任务的子集群，并由所选择的子集群执行该任务。

示例性地，仍以图2为例，假定目标队列为图2中的队列root.shared.q3；这时候租户提交任务之后，可以在第一子集群(YARN Sub1)、第二子集群(YARN Sub2)和第三子集群(YARN Sub3)等三个子集群中都配置有队列资源。或者，如图4所示，队列4(Queue4)作为共享队列，在子集群1、子集群2和子集群3中都配置有队列资源；这时候可以从这三个子集群中选择出实际执行任务的子集群。需要特别注意的是，在共享队列中，实际执行任务的子集群可以是一个或几个子集群，本发明实施例不作限定。

可以理解地，从多个子集群中选择出实际执行任务的子集群，可以根据预设队列策略进行选择。其中，可以利用Policy Store组件中所存储的多种策略进行选择，这里，多种策略包括有随机(Random)策略、哈希(Hashing)策略、轮询调度(Round robin)策略、优先级(Priority)策略等；除此之外，还可以根据各个子集群的负载情况进行选择，这里，由于负载情况最小的子集群表明了资源使用率最低(即空余资源较多)，在没有其他限制条件的情况下，那么还可以选择负载情况最小的子集群执行该任务；比如针对图4所示的子集群1、子集群2和子集群3等三个子集群，实际提交到该队列的任务可以根据这三个子集群的负载情况决定最终由哪一个子集群执行该任务。

具体地，在一些实施例中，在所述基于共享队列类型，将所述任务分配给第二子集群之前，该方法还可以包括：

根据预设队列策略，确定执行所述任务的第二子集群。

进一步地，所述根据预设队列策略，确定执行所述任务的第二子集群，可以包括：

确定所述目标队列配置的多个子集群；

也就是说，当目标队列为共享队列时，表明了该目标队列同时配置在多个子集群中，这时候可以确定出目标队列配置的多个子集群；然后计算这多个子集群中每一子集群对应的负载值，能够得到多个负载值；再从多个负载值中选取出最小负载值，可以将最小负载值对应的子集群确定为实际执行任务的子集群，即第二子集群，然后由第二子集群执行任务；或者，在得到多个负载值之后，还可以是从多个负载值中选取出最小负载值和次最小负载值，将最小负载值对应的子集群和次最小负载值对应的子集群共同确定为实际执行任务的子集群；如此，可以兼顾各个子集群之间资源的负载均衡需求。

本实施例提供了一种资源管理方法，应用于YARN Federation的使用场景。通过上述实施例对前述实施例的具体实现进行了详细阐述，从中可以看出，基于YARN Federation机制，可以有效解决Hadoop集群对集群规模的限制问题，从而具有实用性；在YARNFederation的使用场景中，通过合理使用独占队列类型和共享队列类型，既可以通过指定队列方式满足租户对集群的特殊需求，同时还可以兼顾各子集群之间的负载均衡和数据本地性等需求，从而能够整体提升集群资源的使用率和吞吐率，同时还能够保证资源管理的高效性；另外，资源管理与分配是由系统管理员通过YARN集群和BAPAAS模块的管控实现，在实际的应用侧无感知；对于应用侧来说，与正常使用单一小集群无差异，从而还具有易用性。

基于前述实施例相同的发明构思，参见图5，其示出了本发明实施例提供的一种资源管理方法的详细流程示意图。如图5所示，该详细流程可以包括：

S501：接收向目标队列提交的任务；

需要说明的是，在提交任务之前，首先需要由系统管理员对资源进行规划，确定出每一个子集群配置的队列资源；具体来说，系统管理员可以预先规划出独立队列类型和共享队列类型，也即在不同的子集群中所包括的队列资源。然后再根据各租户的资源需求，通过BAPAAS模块对各租户进行不同队列的权限配置；比如每一租户可以向哪些队列提交任务的权限。

如此，在配置完成之后，可以由租户向目标队列提交任务，然后通过任务提交接口能够接收到向目标队列所提交的任务。

S502：检测所述目标队列的队列类型；

需要说明的是，队列类型可以包括独占队列类型和共享队列类型。针对独占队列类型和共享队列类型的确定，可以通过对目标队列进行解析，在得到目标队列所配置的集群资源之后，根据集群资源所包括的子集群数量来确定队列类型。具体地，通过对目标队列进行解析，可以获取该目标队列配置的集群资源；如果集群资源中仅包括一个子集群，那么可以确定出所检测的队列类型为独占队列类型；或者，如果集群资源中包括多个子集群，那么可以确定出检测的队列类型为共享队列类型。

示例性地，仍以图2为例，BDPAAS模块202可以根据租户的业务类型和需求，给不同租户分配不同类型的队列资源并进行统一授权，以实现对YARN Federation集群中多个子集群的统一管理和分配。具体地，由于共享队列类型所对应的目标队列(也可以称为共享队列)是指分配给租户在多个子集群都有权限执行任务的队列，如图2所示的root.shared.q3属于共享队列，租户可以在三个子集群都配置有队列资源。而独占队列类型所对应的目标队列(也可以称为独占队列)是指分配给租户在特定子集群具有权限执行任务的队列，如图2所示的root.sub1.q1属于独占队列，这时候租户只在第一子集群(YARN Sub1)配置有队列资源。

S503：当所检测的队列类型为独占队列类型时，将所述任务分配给第一子集群；其中，所述目标队列仅配置在所述第一子集群中；

S504：验证目标队列与第一子集群所配置的权限；

S505：当所述权限验证通过时，基于所述第一子集群执行所述任务；

需要说明的是，当目标队列的队列类型为独占队列类型时，目标队列也可以称为独占队列。其中，在多个子集群中，独占队列表示仅配置在某一特定子集群中的队列。这样，假定目标队列为独占队列时，且该目标队列仅配置在第一子集群中；这时候可以由目标队列所在的第一子集群实际执行该任务。但是第一子集群在执行该任务之前，由于预先配置了目标队列与第一子集群的权限，这时候还需要对权限进行验证；当权限验证通过时，表明了租户具有权限提交任务到第一子集群内的目标队列，这时候可以继续执行步骤S505；而当权限验证不通过时，表明了租户没有权限提交任务到第一子集群内的目标队列，这时候可以直接结束流程。

S506：当所检测的队列类型为共享队列类型时，根据预设队列策略确定执行所述任务的第二子集群，将所述任务分配给第二子集群；其中，所述目标队列同时配置在多个子集群中，所述多个子集群至少包括第二子集群；

S507：验证目标队列与第二子集群所配置的权限；

S508：基于所述第二子集群执行所述任务。

需要说明的是，当目标队列的队列类型为共享队列类型时，目标队列也可以称为共享队列。其中，共享队列是相比于独占队列而存在；在多个子集群中，共享队列表示同时配置在多个子集群中的队列。这样，假定目标队列为共享队列时，且该目标队列可以在多个子集群或者全部子集群中存在；这时候可以根据预设队列策略(比如Policy Store)中存储的不同路由策略，在包含该队列的所有子集群中选择出实际执行任务的子集群(比如第二子集群)，然后由所选择的第二子集群执行该任务。但是第二子集群在执行该任务之前，由于预先配置了目标队列与第二子集群的权限，这时候也需要对权限进行验证；当权限验证通过时，表明了租户具有权限提交任务到第二子集群内的目标队列，这时候可以继续执行步骤S508；而当权限验证不通过时，表明了租户没有权限提交任务到第二子集群内的目标队列，这时候可以直接结束流程。

在本发明实施例中，对前述实施例的具体实现进行了详细阐述，从中可以看出，通过合理使用独占队列类型和共享队列类型，能够基于BDPAAS模块管理调度YARN多集群资源；并且基于YARN Federation机制和新增加的策略(Target Queue Policy)，能够实现多个子集群资源的负载均衡以及同时兼顾数据本地性的需求。也就是说，本发明实施例提供了一种多租户多集群的统一资源管理与分配方案，一方面具有实用性，有效解决了Hadoop集群Resource Manager单节点性能对集群规模的限制问题，使得YARN集群可以横向扩展，并且还可以通过指定队列的方式满足租户对集群的特殊需求；另一方面还具有高效性，根据具体提交的任务或作业内容可以合理使用独占队列和共享队列，兼顾了各子集群之间的负载均衡和数据本地性依赖，能够整体提升集群资源的使用率和吞吐率；再一方面还具有易用性，资源管理与分配是由系统管理员通过YARN集群和BAPAAS模块的管控来实现，在实际的应用侧无感知；对于应用侧来说，与正常使用单一小集群无差异。

基于前述实施例相同的发明构思，参见图6，其示出了本发明实施例提供的一种资源管理装置60的组成结构示意图。如图6所示，资源管理装置60应用于YARN Federation的使用场景，该资源管理装置60可以包括：接收单元601、检测单元602和资源管理单元603和执行任务单元604；其中，

接收单元601，配置为接收向目标队列提交的任务；

检测单元602，配置为检测所述目标队列的队列类型；其中，所述队列类型包括独占队列类型和共享队列类型；

资源管理单元603，配置为根据检测的队列类型，将所述任务分配给所述队列类型对应的集群资源；

执行任务单元604，配置为基于分配的集群资源，执行所述任务。

在上述方案中，参见图6，资源管理装置60还可以包括解析单元605和确定单元606；其中，

解析单元605，配置为对所述目标队列进行解析，获取所述目标队列配置的集群资源；

确定单元606，配置为若所述集群资源包括一个子集群，则确定所述检测的队列类型为独占队列类型；或者，如果所述集群资源包括多个子集群，则确定所述检测的队列类型为共享队列类型。

在上述方案中，当所述检测的队列类型为独占队列类型时，资源管理单元603，配置为基于独占队列类型，将所述任务分配给第一子集群；其中，所述目标队列仅配置在所述第一子集群中；

执行任务单元604，配置为基于所述第一子集群执行所述任务。

在上述方案中，当所述检测的队列类型为共享队列类型时，资源管理单元603，配置为基于共享队列类型，将所述任务分配给第二子集群；其中，所述目标队列同时配置在多个子集群中，所述多个子集群至少包括第二子集群；

执行任务单元604，配置为基于所述第二子集群执行所述任务。

在上述方案中，确定单元606，还配置为根据预设队列策略，确定执行所述任务的第二子集群。

在上述方案中，参见图6，资源管理装置60还可以包括选取单元607；其中，

确定单元606，还配置为确定所述目标队列配置的多个子集群；

选取单元607，配置为计算所述多个子集群中每一子集群对应的负载值，得到多个负载值；以及从所述多个负载值中选取最小负载值，将所述最小负载值对应的子集群确定为所述第二子集群。

在上述方案中，参见图6，资源管理装置60还可以包括验证单元608，配置为验证所述目标队列与所述第一子集群配置的权限；以及当所述权限验证通过时，则执行基于所述第一子集群执行所述任务的步骤。

在上述方案中，验证单元608，还配置为验证所述目标队列与所述第二子集群配置的权限；以及当所述权限验证通过时，则执行基于所述第二子集群执行所述任务的步骤。

可以理解地，在本实施例中，“单元”可以是部分电路、部分处理器、部分程序或软件等等，当然也可以是模块，还可以是非模块化的。而且在本实施例中的各组成部分可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

因此，本实施例提供了一种计算机存储介质，该计算机存储介质存储有资源管理程序，所述资源管理程序被至少一个处理器执行时实现前述实施例中所述的方法的步骤。

基于上述资源管理装置60的组成以及计算机存储介质，参见图7，其示出了本发明实施例提供的资源管理装置60的具体硬件结构示例，可以包括：通信接口701、存储器702和处理器703；各个组件通过总线系统704耦合在一起。可理解，总线系统704用于实现这些组件之间的连接通信。总线系统704除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图7中将各种总线都标为总线系统704。其中，

通信接口701，用于在与其他外部网元之间进行收发信息过程中，信号的接收和发送；

存储器702，用于存储能够在处理器703上运行的计算机程序；

处理器703，用于在运行所述计算机程序时，执行：

接收向目标队列提交的任务；

基于分配的集群资源，执行所述任务。

可以理解，本发明实施例中的存储器702可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本发明描述的存储器702旨在包括但不限于这些和任意其它适合类型的存储器。

而处理器703可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器703中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器703可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器702，处理器703读取存储器702中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本发明描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits，ASIC)、数字信号处理器(Digital SignalProcessing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(ProgrammableLogic Device，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本发明所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本发明所述功能的模块(例如过程、函数等)来实现本发明所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

可选地，作为另一个实施例，处理器703还配置为在运行所述计算机程序时，执行前述实施例中所述的方法的步骤。

参见图8，其示出了本发明实施例提供的一种资源管理系统80的组成结构示意图。如图8所示，资源管理系统80至少包括有如前述实施例中任意一项所述的资源管理装置60。如此，由于该资源管理系统80应用于YARN Federation的使用场景，有效解决了Hadoop集群对集群规模的限制问题，从而具有实用性；另外，在YARN Federation的使用场景中，不仅可以统一管理多个子集群的队列资源，而且通过合理使用独占队列类型和共享队列类型，还可以给不同租户分配不同类型的队列资源并统一授权，既可以利用指定队列方式来满足租户对集群的特殊需求，还可以兼顾各子集群之间的负载均衡和数据本地性等需求，从而能够整体提升集群资源的使用率和吞吐率，同时还能够保证资源管理的高效性和易用性。

需要说明的是，在本发明中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本发明所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本发明所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本发明所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种资源管理方法，所述方法包括：

接收向目标队列提交的任务；所述目标队列表示针对所述任务所指定的队列；

检测所述目标队列的队列类型；其中，所述队列类型包括独占队列类型和共享队列类型；其中，在多个子集群中，独占队列表示仅配置在特定子集群中的队列；在所述多个子集群中，共享队列表示同时配置在所述多个子集群中的队列；

基于分配的集群资源，执行所述任务；

其中，当所述检测的队列类型为共享队列类型时，所述根据检测的队列类型，将所述任务分配给所述队列类型对应的集群资源，包括：

相应地，所述基于分配的集群资源，执行所述任务，包括：

基于所述第二子集群执行所述任务；

在所述基于共享队列类型，将所述任务分配给第二子集群之前，所述方法还包括：

确定所述目标队列配置的多个子集群；

2.根据权利要求1所述的方法，其特征在于，所述检测所述目标队列的队列类型，包括：

3.根据权利要求2所述的方法，其特征在于，当所述检测的队列类型为独占队列类型时，所述根据检测的队列类型，将所述任务分配给所述队列类型对应的集群资源，包括：

相应地，所述基于分配的集群资源，执行所述任务，包括：

基于所述第一子集群执行所述任务。

4.根据权利要求3所述的方法，其特征在于，在所述将所述任务分配给第一子集群之后，所述方法还包括：

验证所述目标队列与所述第一子集群配置的权限；

当所述权限验证通过时，则执行基于所述第一子集群执行所述任务的步骤。

5.根据权利要求1所述的方法，其特征在于，在所述将所述任务分配给第二子集群之后，所述方法还包括：

验证所述目标队列与所述第二子集群配置的权限；

当所述权限验证通过时，则执行基于所述第二子集群执行所述任务的步骤。

6.一种资源管理装置，所述资源管理装置包括接收单元、检测单元和资源管理单元和执行任务单元；其中，

所述接收单元，配置为接收向目标队列提交的任务；所述目标队列表示针对所述任务所指定的队列；

所述检测单元，配置为检测所述目标队列的队列类型；其中，所述队列类型包括独占队列类型和共享队列类型；其中，在多个子集群中，独占队列表示仅配置在特定子集群中的队列；在所述多个子集群中，共享队列表示同时配置在所述多个子集群中的队列；

所述执行任务单元，配置为基于分配的集群资源，执行所述任务；

其中，当所述检测的队列类型为共享队列类型时，所述资源管理单元，配置为基于共享队列类型，将所述任务分配给第二子集群；其中，所述目标队列同时配置在多个子集群中，所述多个子集群至少包括第二子集群；

所述执行任务单元，配置为基于所述第二子集群执行所述任务；

所述资源管理装置还包括确定单元和选取单元；其中，

所述确定单元，配置为确定所述目标队列配置的多个子集群；

7.根据权利要求6所述的资源管理装置，其特征在于，所述资源管理装置还包括解析单元；其中，

所述确定单元，还配置为若所述集群资源包括一个子集群，则确定所述检测的队列类型为独占队列类型；或者，如果所述集群资源包括多个子集群，则确定所述检测的队列类型为共享队列类型。

8.根据权利要求7所述的资源管理装置，其特征在于，当所述检测的队列类型为独占队列类型时，所述资源管理单元，配置为基于独占队列类型，将所述任务分配给第一子集群；其中，所述目标队列仅配置在所述第一子集群中；

9.一种资源管理装置，所述资源管理装置包括存储器和处理器；其中，

所述处理器，用于在运行所述计算机程序时，执行如权利要求1至5任一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有资源管理程序，所述资源管理程序被至少一个处理器执行时实现如权利要求1至5任一项所述的方法。