CN115994019A - 基于大数据集群下多租户资源动态计算的策略方法及系统 - Google Patents

基于大数据集群下多租户资源动态计算的策略方法及系统 Download PDF

Info

Publication number
CN115994019A
CN115994019A CN202310033255.7A CN202310033255A CN115994019A CN 115994019 A CN115994019 A CN 115994019A CN 202310033255 A CN202310033255 A CN 202310033255A CN 115994019 A CN115994019 A CN 115994019A
Authority
CN
China
Prior art keywords
queue
resource
task
cluster
tenant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310033255.7A
Other languages
English (en)
Other versions
CN115994019B (zh
Inventor
姜一
邓明瑞
王乐珩
张金银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Bizhi Technology Co ltd
Original Assignee
Hangzhou Bizhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Bizhi Technology Co ltd filed Critical Hangzhou Bizhi Technology Co ltd
Priority to CN202310033255.7A priority Critical patent/CN115994019B/zh
Publication of CN115994019A publication Critical patent/CN115994019A/zh
Application granted granted Critical
Publication of CN115994019B publication Critical patent/CN115994019B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据集群下多租户资源动态计算的策略方法及系统,包括步骤S100.租户提交任务到任务管理器;任务管理器将租户默认的资源队列编号发送至资源管理器;S200.资源管理器使用检查集群队列阻塞策略,判断该编号下租户默认的资源队列是否可用;S300.若默认的资源队列可用,通过执行器在默认的资源队列执行任务运行;若默认的资源队列不可用,资源管理器使用集群队列动态分配策略,选择最优空闲资源队列;S400.通过执行器选择在最优空闲资源队列执行任务运行。本发明中,每个租户在默认状态下对应Hadoop‑Yarn上一个队列,在默认分配的队列资源不足时,实现动态分配可用队列进行任务下发和执行,可动态分配资源,提高资源利用率,有效降本增效。

Description

基于大数据集群下多租户资源动态计算的策略方法及系统
技术领域
本发明涉及计算机软件及大数据处理技术领域,尤其是在大数据集群上,对相互隔离的计算资源实现“动态”分配的计算策略的基于大数据集群下多租户资源动态计算的策略方法及系统。
背景技术
随着企业信息化能力的不断发展,大型企业的数字化转型不断深入,集团性企业共同使用一套的大数据集群,并且各个部门以租户的形式对集群资源进行分配与隔离使用,各部门在使用的过程中,通常情况下资源是充足的,但例如业务部门在节日大促活动期间,可能会出现某一时间段大量的计算任务并发,导致底层资源不足,造成等待现象,于此同时,若其他部门的资源相对空闲,可通过人为设定的方式多分配资源给业务部门,但是一般情况下难以提前预计到资源不足的情况,出现等待现象后再处理已经存在滞后,此外,人为分配的情况下,设定数值也难以匹配到适合的程度,可能会出现分配不足或分配过多导致其他部门资源不足的情况,这些都是不希望出现的,因此本发明为合理提高资源利用率,提出一种采用“动态”的分配计算策略方法,将任务提交到其他空闲资源队列上下发运行,有效地提高集群资源利用效率。
发明内容
针对现有技术存在的问题,本发明目的是在于租户提交任务,观察队列资源不足,使用集群队列动态分配策略动态选择空闲队列,下发执行器任务运行的方法。
为实现上述目的,本发明提供一种基于大数据集群下多租户资源动态计算的策略方法,所述方法在大数据计算平台产品中的资源管理器服务中,通过监控大数据集群资源队列资源状态是否阻塞提供不同的计算策略,运行该计算策略的上游是任务管理器发起,经过资源管理器的判断后,由下游的任务执行器进行运行,所述方法包括以下步骤:
S100.租户提交任务到任务管理器;任务管理器将租户默认的资源队列编号发送至资源管理器;
S200.资源管理器使用检查集群队列阻塞策略,判断该编号下租户默认的资源队列是否可用;
S300.若默认的资源队列可用,通过执行器在默认的资源队列执行任务运行;若默认的资源队列不可用,资源管理器使用集群队列动态分配策略,选择最优空闲资源队列;
S400.通过执行器选择在最优空闲资源队列执行任务运行。
进一步,步骤S200中,检查集群队列阻塞策略如下:
R1=(m*c)/(fun(α)/T)>V+uc;
其中,m为集群的总内存大小;
c为队列对应的占比;
α为等待任务数量的时间窗口;
waitingTaskFun(α)为等待任务数量的计算方法,用fun()表示,计算方法为waitingTaskFun(α)=waitingTaskCount/α;
T为单位时间;
V为队列阻塞状态的阈值;
uc为用户常量值,可以根据用户自身属性进行设置;
R1为检查队列状态结果,R1具有true和false两种结果;
若计算得出R1=true,则判断为默认的资源队列不可用;若计算得出R1=false,则判断为默认的资源队列可用。
进一步,若检查集群队列阻塞策略检测为资源队列不可用,资源管理器则会进当下全部队列进行集群队列动态分配策略的执行获取每个队列的分数,选择当下最低分数的队列,分数越低代表资源充足。
进一步,步骤S300中,资源管理器对全部队列进行集群队列动态分配策略,获取每个队列的分数,通过最小值获取分数最小的队列,分数计算公式如下:
S=Qr+avgTC(count(αn,β,γ));
R2=minQ(SA,SB,SC...);
其中,Qr表示列运行中任务的数量;
αn表示根据最近n天的数据来推导接下来任务运行情况;
β表示需要推到的运行任务的时间点;
γ表示要推导接下来运行任务的时间窗口;
count()表示计算第n天对应任务运行时间点+推导的时间窗口运行任务的数量;
avgTC()方法为任务运行并发数,用来计算推导接下来预设时间周期内运行任务的数量从而计算到队列的分数;
S表示集群队列的分数;
SA,SB,SC...表示最近n天通过推导任务运行并发数方法计算得出对应队列的分数;
minQ()为分数最小队列的计算,计算并且返回分数最小的队列;
R2表示计算分数最小的队列;
通过R2计算出分数最小的队列,后续任务会通过R2的结果队列来进行任务的下发。
进一步,步骤S300中,预设时间周期为5分钟,在资源不充足的情况下,集群队列动态分配策略进行计算每次计算周期5分钟从而选择可用的队列。
进一步,动态选择分数最小的队列可用队列进行任务下发和执行,使用推导任务运行并发数方法进行推导,间接达到资源隔离。
进一步,判断其中一个队列资源不足的情况下,控制任务不会在该资源不足的队列中执行,保证了业务流程的正常调度,并且该队列没有新的任务进行提交那么队列的资源会逐渐恢复正常,资源管理器通过检查集群队列阻塞策略判断该队列回复正常后,再将任务重新调度到该队列中。
另一方面,本发明提供一种基于大数据集群下多租户资源动态计算的策略系统,所述系统用于实现根据本发明所述的方法。
进一步,所述系统中为多个部门创建对应的多个租户,每个租户对应Hadoop集群中的一个Yarn队列,为了实现资源隔离,根据不同部分的业务属性,分配不同的资源配额,设置每个租户对应Hadoop集群中的Yarn队列初始值,各个部门、各个租户和各个队列之间相互隔离。
进一步,租户在任务管理器上提交任务,任务管理器将该租户对应的默认的资源队列编号发送至资源管理器,在资源管理器内采集观察该默认的资源队列情况,判断是否发生阻塞,再无阻塞的情况下,通过任务执行器在其对应的默认的资源队列执行任务;在判定出现阻塞的情况下解除资源隔离,启动集群队列动态分配策略,资源管理器对当下全部队列进行集群队列动态分配策略的执行获取每个队列的分数,选择当下最低分数的队列执行任务。
本发明的创新点是基于在Hadoop大数据集群上创建了多个租户资源,每个租户在默认状态下对应Hadoop-Yarn上一个队列,实现资源隔离的情况下,在检测到默认分配的队列资源不足时,临时解除资源隔离限制,实现动态分配可用队列进行任务下发和执行;进而企业大数据集群在分配多租户的情况下,可动态分配资源,提高资源利用率,有效降本增效。
本发明的有益效果如下:1)在某一租户资源不足的情况下,可动态分配资源进行补给,避免任务等待的情况,提高资源利用率;2)基于租户的动态计算资源策略可被广泛应用于集团性企业,有效的为企业经营带来降本增效的价值。
附图说明
图1示出了本发明实施例中大数据集群下多租户资源动态计算的策略方法及系统架构示意图;
图2示出了图1中租户与资源队列一对一的分配关系;
图3示出了图1中任务管理器与资源管理器与任务执行器的服务关系;
图4示出了本发明实施例中资源充足情况下,任务下发执行的默认计算策略;
图5示出了本发明实施例中资源不足情况下,任务下发执行的动态计算策略;
图6示出了本发明实施例中整体租户下发任务的流程图。
具体实施方式
下面将结合附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以下结合图1-图6对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
文中涉及术语的释义:
Hadoop:狭义上指Apache基金会所开发的一个开源分布式计算平台,广义上指以“Hadoop”为核心的大数据组件生态;
Hadoop集群:指为大数据组件生态配置的计算服务器资源;
Yarn:“Hadoop”生态中一种通用资源管理系统,其作用是资源调度器,资源调度器提供的核心理念就是Queues(队列),文中所属资源分配是通过Hadoop-Yarn的Queues队列来进行资源隔离。
集团企业:即通常意义上的由多业务形式组成的大型公司组织;
部门:集团企业下属分管不同职能的子组织;
多租户:计算机软件领域为多部门定义的以租户形式划分大数据集群资源的逻辑概念;
任务:计算机软件领域大数据平台产品中提交的数据计算任务;
资源管理器:计算机软件领域大数据平台产品设计的一种采集观察Yarn资源队列情况的计算机服务;
执行器:计算机软件领域大数据平台产品设计的一种依据计算公式策略下发的执行服务。
如图1所示,本发明中,企业的Hadoop集群资源由管理员设定,以多个租户的形式为不同的部门分配计算资源。所述资源分配是通过Hadoop-Yarn的队列来进行资源隔离,底层实现是使用Yarn的资源管理系统,其作用是资源调度器,资源调度器提供的核心理念就是Queues(队列),它支持多个队列,每个队列可配置一定的资源量,为了在共享资源上,提供了控制性和预见性,但当其中一个队列资源不足时,其他空闲队列不会自动进行互相补充运行,所以需要一个动态分配的计算策略,从而达到同时最大化吞吐能力和集群利用率。
当租户A发起一个任务,发放到资源管理器服务中,资源管理器的定位是观察并采集Hadoop-Yarn的队列的资源情况,租户A默认分配了队列A20%的集群资源,在资源充足的情况下,服务下发到执行器,执行任务在队列A中运行。
当租户A在某个时间段,大量提交任务,到队列A资源不足,处于阻塞等待状态,从整个集群的角度观察,此时队列B、C、D有可能有空闲资源,可以启动集群队列动态分配策略,动态选择可用队列进行任务下发和执行。
本发明实施例提供一种基于大数据集群下多租户资源动态计算的策略方法,所述方法在大数据计算平台产品中的资源管理器服务中,通过监控大数据集群资源队列资源状态是否阻塞提供不同的计算策略,运行该计算策略的上游是任务管理器发起,经过资源管理器的判断后,由下游的任务执行器进行运行,所述方法包括以下步骤:
S100.租户提交任务到任务管理器;任务管理器将租户默认的资源队列编号发送至资源管理器;
S200.资源管理器使用检查集群队列阻塞策略,判断该编号下租户默认的资源队列是否可用;
S300.若默认的资源队列可用,通过执行器在默认的资源队列执行任务运行;若默认的资源队列不可用,资源管理器使用集群队列动态分配策略,选择最优空闲资源队列;
S400.通过执行器选择在最优空闲资源队列执行任务运行。
本发明的基于大数据集群下多租户资源动态计算的策略系统,包括为多个部门创建对应的多个租户,每个租户对应Hadoop集群中的一个Yarn队列,为了实现资源隔离,根据不同部分的业务属性,分配不同的资源配额,设置每个租户对应Hadoop集群中的Yarn队列初始值,各个部门、各个租户和各个队列之间是相互隔离的。
如图2所示,在一个具体实施例中,为部门A、B、C、D创建对应的多个租户A、B、C、D,每个租户对应Hadoop集群中的Yarn队列初始值A-20%资源、B-30%资源、C-30%资源、D-20%资源,其中部门与租户与队列资源是一一对应并且相互隔离的。
本系统在任务提交的过程中,设计了资源管理器与执行器的软件服务,资源管理器的作用是采集并观察Hadoop集群中的Yarn队列的资源情况,部门A、B、C、D即是租户A、B、C、D按照资源的情况划分了队列A、队列B、队列C、队列D分别分配20%、30%、30%、20%的物理资源达到资源的隔离,底层实现是使用Yarn的资源管理系统,其作用是容量调度器,容量调度器提供的核心理念就是Queues(队列),它支持多个队列,每个队列可配置一定的资源量,为了在共享资源上,提供控制性和预见性,但当其中一个队列资源不足时,由于资源隔离,其他空闲队列不会自动进行互相补充运行,所以需要一个动态分配的计算策略,从而达到同时最大化吞吐能力和集群利用率。
所以,如图3和图6所示,本发明的方法流程在于:租户在任务管理器上提交任务,任务管理器将该租户对应的默认的资源队列编号发送至资源管理器,在资源管理器内采集观察该默认的资源队列情况,判断是否发生阻塞,进而在执行器上设计了与之相匹配的执行计算策略,无阻塞的情况下,通过任务执行器在其对应的默认的资源队列执行任务;并在判定出现阻塞的情况下启动集群队列动态分配策略。
对此,本实施例提供一种基于大数据集群下多租户资源动态计算的策略方法,默认情况下,如图4所示,当租户A发起一个任务,发放到资源管理器服务中,资源管理器的定位是观察并采集Hadoop-Yarn的队列的资源情况,租户A默认分配了队列A20%的集群资源,在资源充足的情况下,服务下发到执行器,执行任务在队列A中运行。
检查集群队列阻塞策略如下(公式1):
checkQueueStatusResult=(allMemory*capacity/(waitingTaskFun(α))/UnitTime)<QueueStatusCriticalValue+userConstant
公式1解释:
allMemory为集群的总内存大小,比如YARN队列总共500G内存,用字母m表示。
Capacity为队列对应的占比,比如allMemory为500GCapacity为10%则当前用户队列使用的内存限制为50G,用字母c表示。
α为等待任务数量的时间窗口,例如等待5分钟的任务。
waitingTaskFun(α)为等待任务数量的计算方法,用fun()表示,计算方法为
waitingTaskFun(α)=waitingTaskCount/α
UnitTime为单位时间,以字母T表示。
QueueStatusCriticalValue为队列阻塞状态的阈值,以字母V表示。
userConstant为用户常量值,可以根据用户自身属性进行设置默认为5,用字母uc表示。
checkQueueStatusResult为检查队列状态结果,以字母R1表示。
上述策略简化为公式1:
R1=(m*c)/(fun(α)/T)<V+uc;
每个任务在下发前都会进行检查集群队列阻塞策略,判断任务对应的队列是否正常,判断方法是checkQueueStatusResult为true,则证明当前队列资源不够当前不可用,将启动集群队列动态分配策略。如下面实施例中队列1在waitingTaskFun为20的时候队列1则进入不可用状态。随着阈值和队列容量的不同最后的计算结果也不同。
如表格中队列A第一行为例checkQueueStatusResult=(500G*0.2)/(3/5)<20+6,checkQueueStatusResult的结果为false。
如表格中队列A第四行为例子checkQueueStatusResult=(500G*0.2)/(20/5)<20+6,checkQueueStatusResult的结果为true。
资源不充足的情况下如图5所示,租户A提交的任务的默认队列A资源不足,检查集群队列阻塞策略检测为false,资源管理器则会进当下全部队列进行集群队列动态分配策略的执行获取每个队列的分数,选择当下最低分数的队列,分数越低代表资源充足。
集群队列动态分配策略(公式2):
scores=QueueRunningTaskNumber+avgTaskCount(count(αn,β,γ));
queueResult=minQ(scoresA,scoresB,scoresC...);
公式2解释:
QueueRunningTaskNumber列运行中任务的数量,以字母Qr表示;
αn表示根据最近n天的数据来推导接下来任务运行情况,默认为统计最新7天的数据,可以按照实际业务要求调整αn的值,αn的值越大通过推导任务运行并发数方法的推导的数值越准;
β表示需要推到的运行任务的时间点;
γ表示要推导接下来运行任务的时间窗口;
count()表示计算第n天对应任务运行时间点+推导的时间窗口运行任务的数量;
avgTaskCount()推导任务运行并发数方法,通过求平均值的方式来计算推导接下来最近γ运行任务时间窗口的数量从而计算队列的分数,用avgTC()表示;
scores集群队列的分数,以字母S表示。
scoresA,scoresB,scoresC...表示最近几天通过avgTaskCount()计算得出对应队列的分数。
minQ()为分数最小队列的计算,计算并且返回分数最小的队列;
queueResult计算分数最小的队列,用R表示。
上述策略简化为公式2:
S=Qr+avgTC(count(αn,β,γ));
R2=minQ(SA,SB,SC...)。
在资源不充足的情况下,因为进行了集群队列动态分配策略进行计算每次计算预设时间周期内(优选时间周期为5分钟)从而选择了可用的队列,如图5所示,即使队列A资源不足,任务是不会在队列A中执行,保证了业务流程的正常调度,并且队列A没有新的任务进行提交那么队列A的资源慢慢会恢复正常,资源管理器最终会通过检查集群队列阻塞策略又会感知到队列A正常,从而将任务从新调度到队列A中。如图6所示。
如表格中分别计算队列A、B、C、D的分数。
scoresA=40+avgTaskCount(count(7,12:00,30));
scoresA=40+5;
scoresA=45;
scoresB=3+avgTaskCount(count(7,12:00,30));
scoresB=3+15;
scoresB=18;
scoresC=4+avgTaskCount(count(7,12:00,30));
scoresC=4+15;
scoresC=19;
scoresD=14+avgTaskCount(count(7,12:00,30));
scoresD=14+0;
scoresD=14;
如上图所示,最终通过公式2计算得出会选择队列D进行任务的下发,因为通过推导任务运行并发数方法,我们通过最近7天和接下来30分钟内运行将会运行任务的数量进行推导,如上图第一列的数据最近7天12点时间窗口为30min执行的任务数量为1、3、4、5、5、2、1平均运行的任务并发数为5,虽然当前队列D是提交任务数量多的,但是通过推导任务运行并发数方法计算接下来30分钟任务相对空闲,资源方面也是相对宽裕的。
当租户A在某个时间段,大量提交任务,导致队列A资源不足,处于阻塞等待状态,如图5所示,从整个集群的角度观察,此时队列B、C、D有可能有空闲资源,可以启动公式2策略,动态选择分数最小的队列可用队列进行任务下发和执行,因为通过推导任务运行并发数方法进行推导所以分数越小代表接下来时间窗口内不会出执行任务的队列,舍弃了队列的资源隔离性,达到了业务高峰期的可用,因为使用通过推导任务运行并发数方法进行推导,间接达到资源隔离。
租户在任务管理器上提交任务,任务管理器将该租户对应的默认的资源队列编号发送至资源管理器,在资源管理器内采集观察该默认的资源队列情况,判断是否发生阻塞,再无阻塞的情况下,通过任务执行器在其对应的默认的资源队列执行任务;在判定出现阻塞的情况下解除资源隔离,启动集群队列动态分配策略,资源管理器对当下全部队列进行集群队列动态分配策略的执行获取每个队列的分数,选择当下最低分数的队列执行任务。在下个时间周期内若判定为无阻塞,则恢复资源隔离状态。
本发明流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为表示包括一个或多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,可以实现在任何计算机刻度介质中,以供指令执行系统、装置或设备,所述计算机可读介质可以是任何包含存储、通信、传播或传输程序以供执行系统、装置或设备使用。包括只读存储器、磁盘或光盘等。
在本说明书的描述中,参考术语“实施例”、“示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外,本领域的技术人员可以在不产生矛盾的情况下,将本说明书中描述的不同实施例或示例以及其中的特征进行结合或组合。
上述内容虽然已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型等更新操作。

Claims (10)

1.基于大数据集群下多租户资源动态计算的策略方法,其特征在于:所述方法在大数据计算平台产品中的资源管理器服务中,通过监控大数据集群资源队列资源状态是否阻塞提供不同的计算策略,运行该计算策略的上游是任务管理器发起,经过资源管理器的判断后,由下游的任务执行器进行运行,所述方法包括以下步骤:
S100.租户提交任务到任务管理器;任务管理器将租户默认的资源队列编号发送至资源管理器;
S200.资源管理器使用检查集群队列阻塞策略,判断该编号下租户默认的资源队列是否可用;
S300.若默认的资源队列可用,通过执行器在默认的资源队列执行任务运行;若默认的资源队列不可用,资源管理器使用集群队列动态分配策略,选择最优空闲资源队列;
S400.通过执行器选择在最优空闲资源队列执行任务运行。
2.根据权利要求1所述的基于大数据集群下多租户资源动态计算的策略方法,其特征在于,步骤S200中,检查集群队列阻塞策略如下:
R1=(m*c)/(fun(α)/T)>V+uc;
其中,m为集群的总内存大小;
c为队列对应的占比;
α为等待任务数量的时间窗口;
waitingTaskFun(α)为等待任务数量的计算方法,用fun()表示,计算方法为waitingTaskFun(α)=waitingTaskCount/α;
T为单位时间;
V为队列阻塞状态的阈值;
uc为用户常量值,可以根据用户自身属性进行设置;
R1为检查队列状态结果,R1具有true和false两种结果;
若计算得出R1=true,则判断为默认的资源队列不可用;若计算得出R1=false,则判断为默认的资源队列可用。
3.根据权利要求2所述的基于大数据集群下多租户资源动态计算的策略方法,其特征在于,若检查集群队列阻塞策略检测为资源队列不可用,资源管理器则会进当下全部队列进行集群队列动态分配策略的执行获取每个队列的分数,选择当下最低分数的队列,分数越低代表资源充足。
4.根据权利要求2所述的基于大数据集群下多租户资源动态计算的策略方法,其特征在于,步骤S300中,资源管理器对全部队列进行集群队列动态分配策略,获取每个队列的分数,通过最小值获取分数最小的队列,分数计算公式如下:
S=Qr+avgTC(count(αn,β,γ));
R2=minQ(SA,SB,SC...);
其中,Qr表示列运行中任务的数量;
αn表示根据最近n天的数据来推导接下来任务运行情况;
β表示需要推到的运行任务的时间点;
γ表示要推导接下来运行任务的时间窗口;
count()表示计算第n天对应任务运行时间点+推导的时间窗口运行任务的数量;
avgTC()为通过推导任务运行并发数方法,用来计算推导接下来预设时间周期内运行任务的数量从而计算到队列的分数;
S表示集群队列的分数;
SA,SB,SC...表示最近n天通过推导任务运行并发数方法计算得出对应队列的分数;
minQ()为分数最小队列的计算,计算并且返回分数最小的队列;
R2表示计算分数最小的队列;
通过R2计算出分数最小的队列,后续任务会通过R2的结果队列来进行任务的下发。
5.根据权利要求4所述的基于大数据集群下多租户资源动态计算的策略方法,其特征在于,步骤S300中,预设时间周期为5分钟,在资源不充足的情况下,集群队列动态分配策略进行计算每次计算周期5分钟从而选择可用的队列。
6.根据权利要求4所述的基于大数据集群下多租户资源动态计算的策略方法,其特征在于,动态选择分数最小的队列可用队列进行任务下发和执行,使用任务运行并发数方法进行推导,间接达到资源隔离。
7.根据权利要求4所述的基于大数据集群下多租户资源动态计算的策略方法,其特征在于,判断其中一个队列资源不足的情况下,控制任务不会在该资源不足的队列中执行,保证了业务流程的正常调度,并且该队列没有新的任务进行提交那么队列的资源会逐渐恢复正常,资源管理器通过检查集群队列阻塞策略判断该队列回复正常后,再将任务重新调度到该队列中。
8.基于大数据集群下多租户资源动态计算的策略系统,其特征在于,所述系统用于实现根据权利要求1-7任一项所述的方法。
9.根据权利要求8所述的基于大数据集群下多租户资源动态计算的策略系统,其特征在于,所述系统中为多个部门创建对应的多个租户,每个租户对应Hadoop集群中的一个Yarn队列,为了实现资源隔离,根据不同部分的业务属性,分配不同的资源配额,设置每个租户对应Hadoop集群中的Yarn队列初始值,各个部门、各个租户和各个队列之间相互隔离。
10.根据权利要求9所述的基于大数据集群下多租户资源动态计算的策略系统,其特征在于,租户在任务管理器上提交任务,任务管理器将该租户对应的默认的资源队列编号发送至资源管理器,在资源管理器内采集观察该默认的资源队列情况,判断是否发生阻塞,再无阻塞的情况下,通过任务执行器在其对应的默认的资源队列执行任务;在判定出现阻塞的情况下解除资源隔离,启动集群队列动态分配策略,资源管理器对当下全部队列进行集群队列动态分配策略的执行获取每个队列的分数,选择当下最低分数的队列执行任务。
CN202310033255.7A 2023-01-10 2023-01-10 基于大数据集群下多租户资源动态计算的策略方法及系统 Active CN115994019B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310033255.7A CN115994019B (zh) 2023-01-10 2023-01-10 基于大数据集群下多租户资源动态计算的策略方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310033255.7A CN115994019B (zh) 2023-01-10 2023-01-10 基于大数据集群下多租户资源动态计算的策略方法及系统

Publications (2)

Publication Number Publication Date
CN115994019A true CN115994019A (zh) 2023-04-21
CN115994019B CN115994019B (zh) 2023-06-06

Family

ID=85991730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310033255.7A Active CN115994019B (zh) 2023-01-10 2023-01-10 基于大数据集群下多租户资源动态计算的策略方法及系统

Country Status (1)

Country Link
CN (1) CN115994019B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130268437A1 (en) * 2005-10-06 2013-10-10 C-Sam, Inc. Secure ecosystem infrastructure enabling multiple types of electronic wallets in an ecosystem of issuers, service providers, and acquires of instruments
CN108667867A (zh) * 2017-03-29 2018-10-16 华为技术有限公司 数据存储方法及装置
CN109783225A (zh) * 2018-12-12 2019-05-21 华南理工大学 一种多租户大数据平台的租户优先级管理方法及系统
CN109992418A (zh) * 2019-03-25 2019-07-09 华南理工大学 Sla感知的多租户大数据平台资源优先级调度方法及系统
US20210200587A1 (en) * 2018-09-11 2021-07-01 Huawei Technologies Co., Ltd. Resource scheduling method and apparatus
CN115202842A (zh) * 2022-07-13 2022-10-18 阿里巴巴(中国)有限公司 任务调度方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130268437A1 (en) * 2005-10-06 2013-10-10 C-Sam, Inc. Secure ecosystem infrastructure enabling multiple types of electronic wallets in an ecosystem of issuers, service providers, and acquires of instruments
CN108667867A (zh) * 2017-03-29 2018-10-16 华为技术有限公司 数据存储方法及装置
US20210200587A1 (en) * 2018-09-11 2021-07-01 Huawei Technologies Co., Ltd. Resource scheduling method and apparatus
CN109783225A (zh) * 2018-12-12 2019-05-21 华南理工大学 一种多租户大数据平台的租户优先级管理方法及系统
CN109992418A (zh) * 2019-03-25 2019-07-09 华南理工大学 Sla感知的多租户大数据平台资源优先级调度方法及系统
CN115202842A (zh) * 2022-07-13 2022-10-18 阿里巴巴(中国)有限公司 任务调度方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
冯文超;: "容器云平台网络资源配置管理系统的设计", 工业仪表与自动化装置, no. 01 *

Also Published As

Publication number Publication date
CN115994019B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN107992359B (zh) 一种云环境下代价感知的任务调度方法
Calheiros et al. Cost-effective provisioning and scheduling of deadline-constrained applications in hybrid clouds
CN111381950B (zh) 一种面向边缘计算环境基于多副本的任务调度方法和系统
CN103324525B (zh) 一种云计算环境下的任务调度方法
CN103793272B (zh) 一种周期性任务调度方法及系统
CN104765640B (zh) 一种智能服务调度方法
US20050076043A1 (en) Workload scheduler with resource optimization factoring
KR101350755B1 (ko) 클라우드 컴퓨팅에서 다중 워크플로우를 위한 비용기반 스케줄링 방법 및 그 시스템
US9244721B2 (en) Computer system and divided job processing method and program
CN109408215A (zh) 一种计算节点的任务调度方法和装置
CN107193655A (zh) 一种基于效用函数的面向大数据处理的公平资源调度方法
CN110196773B (zh) 统一调度计算资源的多时间尺度安全校核系统及方法
CN108123980A (zh) 一种资源调度方法及系统
US8539495B2 (en) Recording medium storing therein a dynamic job scheduling program, job scheduling apparatus, and job scheduling method
CN116302568A (zh) 一种算力资源调度方法及系统、调度中心、数据中心
Chen et al. Secondary job scheduling in the cloud with deadlines
CN106201681A (zh) Hadoop平台下基于预释放资源列表的任务调度算法
CN114911613A (zh) 一种云际计算环境中跨集群资源高可用调度方法及系统
CN110413393A (zh) 集群资源管理方法、装置、计算机集群及可读存储介质
CN115994019B (zh) 基于大数据集群下多租户资源动态计算的策略方法及系统
Natarajan Parallel queue scheduling in dynamic cloud environment using backfilling algorithm
Dubey et al. QoS driven task scheduling in cloud computing
CN116360922A (zh) 集群资源调度方法、装置、计算机设备和存储介质
CN106201847B (zh) 考虑云平台主机性能衰减的任务分配方法、装置和系统
CN114237866A (zh) 一种面向继电保护整定的云平台计算资源调度方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant