CN106452818B - 一种资源调度的方法和系统 - Google Patents

一种资源调度的方法和系统 Download PDF

Info

Publication number
CN106452818B
CN106452818B CN201510494855.9A CN201510494855A CN106452818B CN 106452818 B CN106452818 B CN 106452818B CN 201510494855 A CN201510494855 A CN 201510494855A CN 106452818 B CN106452818 B CN 106452818B
Authority
CN
China
Prior art keywords
request
application
condition
server
blocking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510494855.9A
Other languages
English (en)
Other versions
CN106452818A (zh
Inventor
潘磊
杨林
茆亮亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Cloud Computing Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510494855.9A priority Critical patent/CN106452818B/zh
Priority to US15/231,812 priority patent/US10440136B2/en
Priority to EP16835874.5A priority patent/EP3335120B1/en
Priority to PCT/US2016/046447 priority patent/WO2017027649A1/en
Priority to JP2018502137A priority patent/JP7020616B2/ja
Publication of CN106452818A publication Critical patent/CN106452818A/zh
Application granted granted Critical
Publication of CN106452818B publication Critical patent/CN106452818B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • H04L67/62Establishing a time schedule for servicing the requests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1029Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers using data related to the state of servers by a load balancer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1031Controlling of the operation of servers by a load balancer, e.g. adding or removing servers that serve requests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/548Queue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/2871Implementation details of single intermediate entities

Abstract

本发明提供了一种资源调度的方法和系统,其中方法包括:监控待服务器处理的应用请求的阻塞状况;依据预设的调度规则和所述应用请求的阻塞状况,对所述应用进行服务器的计算资源调度。由于待服务器处理的应用请求的阻塞状况能够更真实地反映应用的负载状况,因此本发明的调度方式能够更加准确地满足实际的调度需求。

Description

一种资源调度的方法和系统
【技术领域】
本发明涉及计算机应用技术领域,特别涉及一种资源调度的方法和系统。
【背景技术】
在应用系统运营过程中,常常会碰到这样的问题:偶然会碰到访问量过高的情况,为了保证应用系统能够正常运行,系统建设时期会以最高要求来组件服务器,但这种情况在访问量低时,会出现大量的资源空闲的情况。如果在系统建设时期对访问量预计不足,则在出现高并发请求时,会造成应用系统运行缓慢或挂机等情况。因此,针对上述问题目前已经提出了弹性调度机制,即在访问量高时自动创建计算资源以扩展系统处理能力,在访问量低的空闲时能够自动缩减计算资源以节约成本。
目前采用的弹性调度机制主要是依据对系统资源的使用情况来判断应用的负载情况,例如依据对CPU、内存、网络流量、磁盘IO等资源的使用情况来确定应用的负载情况,如果某应用对CPU、内存等占用较多,则确定需要针对该应用进行扩容。然而,这种方式在有些情况下并不能真实反映应用状态,例如有些应用对系统资源的占用并不多,但针对该应用的处理却十分缓慢甚至停滞,如果使用目前的弹性调度机制则无法满足该应用的扩容需求。
【发明内容】
有鉴于此,本发明提供了一种资源调度的方法和系统,以便于更加准确地满足实际的调度需求。
具体技术方案如下:
本发明提供了一种资源调度的方法,该方法包括:
监控待服务器处理的应用请求的阻塞状况;
依据预设的调度规则和所述应用请求的阻塞状况,对所述应用进行服务器的计算资源调度。
根据本发明一优选实施方式,所述监控待服务器处理的应用请求的阻塞状况包括:
收集服务器的阻塞请求队列的请求数,所述阻塞请求队列包含待服务器处理的应用请求;
对收集的所述请求数进行分析和统计,得到所述应用请求的阻塞状况。
根据本发明一优选实施方式,所述应用请求的阻塞状况包括:
针对具体应用的请求阻塞状况、针对具体实例的请求阻塞状况以及针对具体主机的请求阻塞状况中的至少一种。
根据本发明一优选实施方式,所述收集服务器的阻塞请求队列的请求数包括:
从代理服务器暴露的API收集服务器的阻塞请求队列的请求数。
根据本发明一优选实施方式,该方法还包括:
所述代理服务器中设置有事件监听统计模块;
所述事件监听统计模块监听所述代理服务器上报请求给所述服务器的事件,获取已上报请求数量;以及监听所述代理服务器确定所述服务器完成对请求的处理事件,获取已处理请求数量;
依据所述已上报请求数量和所述已处理请求数量,确定所述服务器的阻塞请求队列的请求数。
根据本发明一优选实施方式,所述从代理服务器暴露的API收集服务器的阻塞请求队列的请求数包括:
访问所述API提供的URL;
从所述URL对应的页面数据获取所述服务器的阻塞请求队列的请求数。
根据本发明一优选实施方式,依据预设的调度规则和所述应用请求的阻塞状况,对所述应用进行服务器的计算资源调度包括以下至少一种:
如果针对具体应用的请求阻塞状况满足第一扩容条件,则针对所述具体应用产生并部署新的实例;
如果针对具体应用的请求阻塞状况满足第一缩容条件,则减少所述具体应用的实例;
如果针对具体实例的请求阻塞状况满足第二扩容条件,则针对所述具体实例增加系统资源或者利用其它实例对所述具体实例进行负载分担;
如果针对具体实例的请求阻塞状况满足第二缩容条件,则针对所述具体实例减少系统资源;
如果针对具体主机的请求阻塞状况满足第三扩容条件,则利用其它主机对所述具体主机进行负载分担;
如果针对具体主机的请求阻塞状况满足第三缩容条件,则优先在所述具体主机上部署实例,或者优先利用所述具体主机对其他主机进行负载分担。
根据本发明一优选实施方式,该方法还包括以下至少一种:
监控具体应用中实例的资源使用状况,如果具体应用中实例的平均资源使用状况大于或等于预设的第一上限值,则增加所述具体应用的实例;如果具体应用中实例的平均资源使用状况小于或等于预设的第一下限值,则减少所述具体应用的实例;
监控具体应用中实例的资源使用状况,如果某实例的资源使用状况大于或等于预设的第二上限值,则增加所述某实例所占用的系统资源;如果某实例的资源使用状况小于或等于预设的第二下限值,则减少所述某实例所占用的系统资源;
如果检测到某主机不可用,则针对所述某主机上的实例发起迁移;
如果检测到某进程不可用,则针对所述某进程执行重启,如果重启失败,则针对所述某进程上的实例发起迁移;
如果检测到某应用异常,则对所述某应用执行重启,或者针对所述某应用的实例发起迁移,或者进行报警。
本发明还提供了一种资源调度的系统,该系统包括:
阻塞监控单元,用于监控待服务器处理的应用请求的阻塞状况;
调度单元,用于依据预设的调度规则和所述应用请求的阻塞状况,对所述应用进行服务器的计算资源调度。
根据本发明一优选实施方式,所述阻塞监控单元具体包括:
监控子单元,用于收集服务器的阻塞请求队列的请求数,所述阻塞请求队列包含待服务器处理的应用请求;
计算子单元,用于对所述监控子单元收集的所述请求数进行分析和统计,得到所述应用请求的阻塞状况。
根据本发明一优选实施方式,所述应用请求的阻塞状况包括:
针对具体应用的请求阻塞状况、针对具体实例的请求阻塞状况以及针对具体主机的请求阻塞状况中的至少一种。
根据本发明一优选实施方式,所述监控子单元从代理服务器暴露的API收集服务器的阻塞请求队列的请求数。
根据本发明一优选实施方式,该系统还包括:
设置于所述代理服务器的事件监听统计模块,用于监听所述代理服务器上报请求给所述服务器的事件,获取已上报请求数量;以及监听所述代理服务器确定所述服务器完成对请求的处理事件,获取已处理请求数量;依据所述已上报请求数量和所述已处理请求数量,确定所述服务器的阻塞请求队列的请求数。
根据本发明一优选实施方式,所述监控子单元,具体用于访问所述API提供的URL,从所述URL对应的页面数据获取所述服务器的阻塞请求队列的请求数。
根据本发明一优选实施方式,所述调度单元,具体执行以下调度中的至少一种:
如果针对具体应用的请求阻塞状况满足第一扩容条件,则针对所述具体应用产生并部署新的实例;
如果针对具体应用的请求阻塞状况满足第一缩容条件,则减少所述具体应用的实例;
如果针对具体实例的请求阻塞状况满足第二扩容条件,则针对所述具体实例增加系统资源或者利用其它实例对所述具体实例进行负载分担;
如果针对具体实例的请求阻塞状况满足第二缩容条件,则针对所述具体实例减少系统资源;
如果针对具体主机的请求阻塞状况满足第三扩容条件,则利用其它主机对所述具体主机进行负载分担;
如果针对具体主机的请求阻塞状况满足第三缩容条件,则优先在所述具体主机上部署实例,或者优先利用所述具体主机对其他主机进行负载分担。
根据本发明一优选实施方式,所述阻塞监控单元,还用于监控具体应用中实例的资源使用状况;
所述调度单元,还用于如果具体应用中实例的平均资源使用状况大于或等于预设的第一上限值,则增加所述具体应用的实例;如果具体应用中实例的平均资源使用状况小于或等于预设的第一下限值,则减少所述具体应用的实例;或者,如果某实例的资源使用状况大于或等于预设的第二上限值,则增加所述某实例所占用的系统资源;如果某实例的资源使用状况小于或等于预设的第二下限值,则减少所述某实例所占用的系统资源。
根据本发明一优选实施方式,该系统还包括:
状态检测单元,用于检测主机、进程或应用的运行状态;
所述调度单元,还用于如果所述状态检测单元检测到某主机不可用,则针对所述某主机上的实例发起迁移;如果所述状态检测单元检测到某进程不可用,则针对所述某进程执行重启,如果重启失败,则针对所述某进程上的实例发起迁移;如果所述状态检测单元检测到某应用异常,则对所述某应用执行重启,或者针对所述某应用的实例发起迁移,或者进行报警。
根据本发明一优选实施方式,所述调度单元包括:
调度子单元,用于依据依据预设的调度规则和所述应用请求的阻塞状况,生成调度指令,并将调度指令发送给管理子单元;
管理子单元,用于依据所述调度指令,对所述应用执行服务器的计算资源调度。
由以上技术方案可以看出,本发明转换了一种思路,对待服务器处理的应用请求的阻塞状况进行收集并基于此对应用进行服务器的计算资源调度,而并非基于应用对系统资源的使用情况。由于待服务器处理的应用请求的阻塞状况能够更真实地反映应用的负载状况,因此本发明的调度方式能够更加准确地满足实际的调度需求。
【附图说明】
图1为本发明实施例所基于的架构图;
图2为本发明实施例提供的一个方法流程图;
图3为本发明实施例提供的资源调度系统的结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
为了方便对本发明的理解,首先对本发明所基于的架构进行介绍。如图1中所示,在该架构中服务器是对应用请求进行具体处理的网络设备,即应用请求的访问对象是服务器,服务器负责对各应用请求进行处理从而实现该应用的服务内容。另外对应用请求进行处理的服务器可以是一台服务器,也可以是一个服务器集群。
在服务器中可以存在至少一台主机,每个主机上运行有一个或者多个应用的实例。也就是说,一个应用可以由一个以上的应用实例构成,每个应用实例部署在主机上,可以部署在同一台主机上,也可以部署在不同的主机上,甚至可以部署在服务器集群中的不同服务器上。
在如图1所示的架构中,代理服务器(proxy server)负责将来自用户侧设备的应用请求转发至服务器进行处理,并将来自服务器的响应转发给用户侧设备。
调度系统则是本发明的核心,负责监控服务器处理的应用请求的阻塞状况,依据预设的调度规则和应用请求的阻塞状况,对应用进行服务器的计算资源调度。更具体地,调度系统在监控服务器处理的应用请求的阻塞状况时,并非直接从服务器获取,而是采用从代理服务器进行数据收集并分析后,间接得到服务器处理的应用请求的阻塞状况。下面对调度系统的处理过程和组成结构进行详细描述。
图2为本发明实施例提供的一个方法流程图,该方法由上述调度系统执行,如图2中所示,该方法可以包括以下步骤:
在201中,从代理服务器暴露的API收集服务器的阻塞请求队列的请求数。
由于代理服务器负责将发送给服务器的应用请求转发给服务器,并接收服务器处理应用请求后返回的响应,因此依据代理服务器转发给服务器的应用请求数以及收到的响应对应的请求数,就可以获知已发送给服务器待服务器处理的请求数,基于该原理,就可以从代理服务器进行服务器的阻塞请求队列的请求数收集。
更具体地,由于代理服务器采用的是异步事件处理机制,当执行一项处理时存在相应的事件。因此,可以预先在代理服务器设置事件监听统计模块,负责进行代理服务器的事件监听和请求统计,即事件监听统计模块监听代理服务器上报请求给服务器的事件,获取已上报请求数量,在此可以采用一个全局变量进行已上报请求数量的统计,每上报一个请求,该全局变量(假设为u)加1。另外,事件监听统计模块监听代理服务器确定服务器完成对请求的处理事件(例如接收到服务器针对请求返回的处理完成响应),获取已处理请求数量,每获取已处理请求数量,上述的全局变量u减1。最终该全局变量的值就可以认为是服务器的阻塞请求队列的请求数,即已发送给服务器并待服务器处理的请求数。
除此之外,事件监听统计模块还可以监听代理服务器建立网络连接的事件,获取已建立网络连接但尚未转发给服务器的请求数,该请求数体现了服务器未来会面临的处理压力,该请求数可以作为辅助因素,后续调度单元可以将该辅助因素作为进行计算资源调度的参考。
上述获取的请求数,事件监听统计模块可以通过代理服务器暴露的API输出,在输出时可以采用http协议。例如该API可以提供特定的URL,当调度系统访问该URL时,API会返回一个页面,该页面可以通过格式化数据的方式提供上述的请求数,即调度系统从该URL对应的页面数据获取服务器的阻塞请求队列的请求数。
在202中,对收集的请求数进行分析和统计,得到应用请求的阻塞状况。
在本步骤中,可以对收集的请求数分别进行分析和统计,确定各具体应用对应的阻塞请求队列的请求数、各具体实例对应的阻塞请求队列的请求数、具体主机对应的阻塞请求队列的请求数。对于一个请求而言,依据其访问的域名可以确定其对应的具体应用,依据其访问的IP地址可以确定其对应的具体主机,依据其访问的端口可以确定其对应的具体实例。
阻塞请求队列的请求数结合对应计算资源的处理能力能够反映请求的阻塞状况,具体将在后续描述中体现。
在203中,依据预设的调度规则和应用请求的阻塞状况,对应用进行服务器的计算资源调度。
对于具体应用而言,如果某应用的请求阻塞状况满足第一扩容条件,例如,阻塞请求队列的请求数超过该应用所占用计算资源的3倍处理能力(其中3倍是一个例子,具体可以取经验值或者根据历史数据得到的值,下面所举的各例也类似),则说明该应用的请求阻塞严重,需要针对该应用产生并部署新的实例,新的实例在部署时可以基于负载均衡策略,优先部署在负载较低(例如阻塞请求队列的请求数较少)的主机上。如果某应用的请求阻塞状况满足第一缩容条件,例如阻塞请求队列的请求数低于该应用所占用计算资源的0.5倍处理能力,则说明该应用的请求数量很少,其所占用的计算资源空闲,因此可以减少分配给该应用的实例,其中待结束的实例不再分配请求,待该实例无任务时,结束该实例。
对于具体实例而言,如果某实例的请求阻塞状况满足第二扩容条件,例如某实例的阻塞请求队列的请求数超过该实例所占用计算资源的3倍处理能力,则说明该实例的请求阻塞严重,可以针对该实例增加系统资源,本发明所涉及的系统资源可以包括但不限于CPU、内存、IO资源、网络流量等,或者增加实例对该实例进行负载分担,还可以结合该实例对系统资源的占用状况来确定增加那种系统资源。如果某实例的请求阻塞状况满足第二缩容条件,例如某实例的阻塞请求队列的请求数低于该实例所占用计算资源的3倍处理能力,则说明该实例的计算资源空闲,可以针对该实例减少系统资源。
对于具体主机而言,如果针对具体主机的请求阻塞状况满足第三扩容条件,例如该主机的阻塞请求队列的请求数超过该主机的3倍处理能力,则利用其它主机对该主机进行负载分担。如果针对具体主机的请求阻塞状况满足第三缩容条件,例如该主机的阻塞请求队列的请求数低于该主机的0.5倍处理能力,则优先在该主机上部署新的实例,或者优先利用该主机对其他主机进行负载分担。
上述对计算资源的调度可以是周期性地,可以满足不同阶段的应用弹性调度需求。
在基础上,还可以融合现有弹性调度机制,例如可以包括但不限于以下情况:
监控具体应用中实例的资源使用状况,这里的资源使用状况包括CPU、内存、IO资源等系统资源,如果所有实例的平均资源使用状况大于或等于预设的第一上限值,例如大于或等于80%的理论平均值,则可以增加具体应用的实例。如果所有实例的平均资源使用状况小于或等于预设的第一下限值,例如小于或等于20%的理论平均值,则可以减少具体应用的实例。其中第一上限值大于第一下限值。
如果某实例的资源使用状况大于或等于预设的第二上限值,例如CPU占用高于30%,则可以增加该实例所占用的系统资源,例如CPU、内存或IO资源等。如果某实例的资源使用状况小于或等于预设的第二下限值,例如CPU占用低于10%,则可以减少该实例所占用的系统资源。其中第二上限值大于第二下限值。
如果检测到某主机不可用,则可以针对该主机上的所有实例发起迁移,例如迁移到其他一个或多个主机上,在迁移到其他一个或多个主机上时可以基于负载均衡策略,优先迁移到负载较小的主机上。
如果检测到某进程不可用,则针对该进程执行重启,如果重启失败,则针对该进程上的实例发起迁移,可以迁移到其他进程上,其中可以迁移到同一个主机的其他进程,但优选迁移到其他主机的进程。
如果检测到应用不可用,可能是由应用故障或者攻击引起,则可以将该应用的实例所在的进程进行重启,或者将整个应用的实例进行迁移,或者报警。
在上述实现中,可以对各应用实例的资源使用进行限制,例如可以设置各应用实例对内存的使用上限是4G。也可以针对各应用的资源使用进行限制,例如设置该应用所有实例对CPU的总使用上限是80%。其目的是为了防止因为某些应用代码异常而导致的系统资源的无限制使用。另外,调度系统可以开放接口供用户对上述调度规则和资源使用上限进行配置和调整。
图3为本发明实施例提供的资源调度系统的结构图,如图3中所示,该系统可以包括阻塞监控单元00和调度单元10,还可以包括设置于代理服务器的事件监听统计模块20和状态检测单元30。其中,阻塞监控单元00可以具体包括监控子单元01和计算子单元02,调度单元10可以具体包括调度子单元11和管理子单元12。
阻塞监控单元00负责监控待服务器处理的应用请求的阻塞状况。
具体地,监控子单元01负责收集服务器的阻塞请求队列的请求数,阻塞请求队列包含待服务器处理的应用请求。监控子单元01可以从代理服务器暴露的API收集服务器的阻塞请求队列的请求数。
由于代理服务器采用的是异步事件处理机制,当执行一项处理时存在相应的事件。因此,可以预先在代理服务器设置事件监听统计模块20,其负责监听代理服务器上报请求给服务器的事件,获取已上报请求数量;以及监听代理服务器确定服务器完成对请求的处理事件,获取已处理请求数量;依据已上报请求数量和已处理请求数量,确定服务器的阻塞请求队列的请求数。
在此可以采用一个全局变量进行已上报请求数量的统计,每上报一个请求,该全局变量加1,每获取一个已处理请求的响应,上述的全局变量减1。最终该全局变量的值就可以认为是服务器的阻塞请求队列的请求数,即已发送给服务器并待服务器处理的请求数。
除此之外,事件监听统计模块20还可以监听代理服务器建立网络连接的事件,获取已建立网络连接但尚未转发给服务器的请求数,该请求数体现了服务器未来会面临的处理压力,该请求数可以作为辅助因素,后续调度单元可以将该辅助因素作为进行计算资源调度的参考。
上述获取的请求数,事件监听统计模块20可以通过代理服务器暴露的API输出,在输出时可以采用http协议。例如该API可以提供特定的URL,当调度系统访问该URL时,API会返回一个页面,该页面可以通过格式化数据的方式提供上述的请求数,即监控子单元01访问API提供的URL,从URL对应的页面数据获取服务器的阻塞请求队列的请求数。
计算子单元02负责对监控子单元01收集的请求数进行分析和统计,得到应用请求的阻塞状况。其中,应用请求的阻塞状况可以包括:针对具体应用的请求阻塞状况、针对具体实例的请求阻塞状况以及针对具体主机的请求阻塞状况中的至少一种。对于一个请求而言,依据其访问的域名可以确定其对应的具体应用,依据其访问的IP地址可以确定其对应的具体主机,依据其访问的端口可以确定其对应的具体实例。
由于监控子单元01对请求数的收集是周期性执行的,因此监控子单元01可以将收集的数据送入监控数据库,计算子单元02对监控数据库中的数据执行上述分析和统计。
调度单元10负责依据预设的调度规则和应用请求的阻塞状况,对应用进行服务器的计算资源调度。
具体地,调度单元10可以具体执行以下调度中的至少一种:
如果针对具体应用的请求阻塞状况满足第一扩容条件,则针对具体应用产生并部署新的实例,新的实例在部署时可以基于负载均衡策略,优先部署在负载较低(例如阻塞请求队列的请求数较少)的主机上。如果针对具体应用的请求阻塞状况满足第一缩容条件,则减少具体应用的实例,其中待结束的实例不再分配请求,待该实例无任务时,结束该实例。
如果针对具体实例的请求阻塞状况满足第二扩容条件,则针对具体实例增加系统资源或者利用其它实例对具体实例进行负载分担。如果针对具体实例的请求阻塞状况满足第二缩容条件,则针对具体实例减少系统资源。
如果针对具体主机的请求阻塞状况满足第三扩容条件,则利用其它主机对具体主机进行负载分担。如果针对具体主机的请求阻塞状况满足第三缩容条件,则优先在具体主机上部署实例,或者优先利用具体主机对其他主机进行负载分担。
在上述基础上,该系统还可以融合现有弹性调度机制,此时,阻塞监控单元00还负责监控具体应用中实例的资源使用状况。如果具体应用中实例的平均资源使用状况大于或等于预设的第一上限值,则调度单元10可以增加具体应用的实例。如果具体应用中实例的平均资源使用状况小于或等于预设的第一下限值,则调度单元10可以减少具体应用的实例。其中第一上限值大于第一下限值。
如果某实例的资源使用状况大于或等于预设的第二上限值,则调度单元10可以增加某实例所占用的系统资源,例如CPU、内存或IO资源等。如果某实例的资源使用状况小于或等于预设的第二下限值,则调度单元10可以减少某实例所占用的系统资源。其中第二上限值大于第二下限值。
状态检测单元30负责检测主机、进程或应用的运行状态。如果状态检测单元30检测到某主机不可用,则调度单元10可以针对某主机上的实例发起迁移,例如迁移到其他一个或多个主机上,在迁移到其他一个或多个主机上时可以基于负载均衡策略,优先迁移到负载较小的主机上。
如果状态检测单元30检测到某进程不可用,则调度单元10可以针对某进程执行重启,如果重启失败,则针对某进程上的实例发起迁移,可以迁移到其他进程上,其中可以迁移到同一个主机的其他进程,但优选迁移到其他主机的进程。
如果状态检测单元30检测到某应用异常,则调度单元10可以对某应用执行重启,或者针对某应用的实例发起迁移,或者进行报警。
调度单元10包括的调度子单元11负责依据依据预设的调度规则和应用请求的阻塞状况,生成调度指令,并将调度指令发送给管理子单元12。其中调度子单元11可以从规则数据库中加载调度规则,其中调度规则数据库可以对外提供一个接口,用户可以通过该接口对调度规则进行配置或修改。
管理子单元12是具体执行调度操作的单元,平时负责对资源进行管理,在本发明实施例中负责依据调度指令,对应用执行服务器的计算资源调度。还可以进一步将调度结果返回给调度子单元11。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

1.一种资源调度的方法,其特征在于,该方法包括:
从代理服务器暴露的API收集服务器的阻塞请求队列的请求数,所述阻塞请求队列包含待服务器处理的应用请求,所述代理服务器负责将来自用户侧设备的应用请求转发至所述服务器,并将来自所述服务器的响应转发给用户侧设备;
对收集的所述请求数进行分析和统计,得到所述应用请求的阻塞状况;
依据预设的调度规则和所述应用请求的阻塞状况,对所述应用进行服务器的计算资源调度;
所述方法还包括:
所述代理服务器中设置有事件监听统计模块;
所述事件监听统计模块监听所述代理服务器上报请求给所述服务器的事件,获取已上报请求数量;以及监听所述代理服务器确定所述服务器完成对请求的处理事件,获取已处理请求数量;
依据所述已上报请求数量和所述已处理请求数量,得到全局变量的值,以确定所述服务器的阻塞请求队列的请求数;其中所述全局变量的值依据已上报请求数量相应增加,依据已处理请求数量相应减少。
2.根据所述权利要求1所述的方法,其特征在于,所述应用请求的阻塞状况包括:
针对具体应用的请求阻塞状况、针对具体实例的请求阻塞状况以及针对具体主机的请求阻塞状况中的至少一种。
3.根据权利要求1或2所述的方法,其特征在于,所述从代理服务器暴露的API收集服务器的阻塞请求队列的请求数包括:
访问所述API提供的URL;
从所述URL对应的页面数据获取所述服务器的阻塞请求队列的请求数。
4.根据权利要求2所述的方法,其特征在于,依据预设的调度规则和所述应用请求的阻塞状况,对所述应用进行服务器的计算资源调度包括以下至少一种:
如果针对具体应用的请求阻塞状况满足第一扩容条件,则针对所述具体应用产生并部署新的实例;
如果针对具体应用的请求阻塞状况满足第一缩容条件,则减少所述具体应用的实例;
如果针对具体实例的请求阻塞状况满足第二扩容条件,则针对所述具体实例增加系统资源或者利用其它实例对所述具体实例进行负载分担;
如果针对具体实例的请求阻塞状况满足第二缩容条件,则针对所述具体实例减少系统资源;
如果针对具体主机的请求阻塞状况满足第三扩容条件,则利用其它主机对所述具体主机进行负载分担;
如果针对具体主机的请求阻塞状况满足第三缩容条件,则优先在所述具体主机上部署实例,或者优先利用所述具体主机对其他主机进行负载分担。
5.根据权利要求1或4所述的方法,其特征在于,该方法还包括以下至少一种:
监控具体应用中实例的资源使用状况,如果具体应用中实例的平均资源使用状况大于或等于预设的第一上限值,则增加所述具体应用的实例;如果具体应用中实例的平均资源使用状况小于或等于预设的第一下限值,则减少所述具体应用的实例;
监控具体应用中实例的资源使用状况,如果某实例的资源使用状况大于或等于预设的第二上限值,则增加所述某实例所占用的系统资源;如果某实例的资源使用状况小于或等于预设的第二下限值,则减少所述某实例所占用的系统资源;
如果检测到某主机不可用,则针对所述某主机上的实例发起迁移;
如果检测到某进程不可用,则针对所述某进程执行重启,如果重启失败,则针对所述某进程上的实例发起迁移;
如果检测到某应用异常,则对所述某应用执行重启,或者针对所述某应用的实例发起迁移,或者进行报警。
6.一种资源调度的系统,其特征在于,该系统包括:
阻塞监控单元,用于从代理服务器暴露的API收集服务器的阻塞请求队列的请求数,所述阻塞请求队列包含待服务器处理的应用请求,所述代理服务器负责将来自用户侧设备的应用请求转发至所述服务器,并将来自所述服务器的响应转发给用户侧设备;
计算子单元,用于对所述监控子单元收集的所述请求数进行分析和统计,得到所述应用请求的阻塞状况;
调度单元,用于依据预设的调度规则和所述应用请求的阻塞状况,对所述应用进行服务器的计算资源调度;
设置于所述代理服务器的事件监听统计模块,用于监听所述代理服务器上报请求给所述服务器的事件,获取已上报请求数量;以及监听所述代理服务器确定所述服务器完成对请求的处理事件,获取已处理请求数量;依据所述已上报请求数量和所述已处理请求数量,得到全局变量的值,以确定所述服务器的阻塞请求队列的请求数;其中所述全局变量的值依据已上报请求数量相应增加,依据已处理请求数量相应减少。
7.根据权利要求6所述的系统,其特征在于,所述应用请求的阻塞状况包括:
针对具体应用的请求阻塞状况、针对具体实例的请求阻塞状况以及针对具体主机的请求阻塞状况中的至少一种。
8.根据权利要求6或7所述的系统,其特征在于,所述监控子单元,具体用于访问所述API提供的URL,从所述URL对应的页面数据获取所述服务器的阻塞请求队列的请求数。
9.根据权利要求7所述的系统,其特征在于,所述调度单元,具体执行以下调度中的至少一种:
如果针对具体应用的请求阻塞状况满足第一扩容条件,则针对所述具体应用产生并部署新的实例;
如果针对具体应用的请求阻塞状况满足第一缩容条件,则减少所述具体应用的实例;
如果针对具体实例的请求阻塞状况满足第二扩容条件,则针对所述具体实例增加系统资源或者利用其它实例对所述具体实例进行负载分担;
如果针对具体实例的请求阻塞状况满足第二缩容条件,则针对所述具体实例减少系统资源;
如果针对具体主机的请求阻塞状况满足第三扩容条件,则利用其它主机对所述具体主机进行负载分担;
如果针对具体主机的请求阻塞状况满足第三缩容条件,则优先在所述具体主机上部署实例,或者优先利用所述具体主机对其他主机进行负载分担。
10.根据权利要求6或9所述的系统,其特征在于,所述阻塞监控单元,还用于监控具体应用中实例的资源使用状况;
所述调度单元,还用于如果具体应用中实例的平均资源使用状况大于或等于预设的第一上限值,则增加所述具体应用的实例;如果具体应用中实例的平均资源使用状况小于或等于预设的第一下限值,则减少所述具体应用的实例;或者,如果某实例的资源使用状况大于或等于预设的第二上限值,则增加所述某实例所占用的系统资源;如果某实例的资源使用状况小于或等于预设的第二下限值,则减少所述某实例所占用的系统资源。
11.根据权利要求6或9所述的系统,其特征在于,该系统还包括:
状态检测单元,用于检测主机、进程或应用的运行状态;
所述调度单元,还用于如果所述状态检测单元检测到某主机不可用,则针对所述某主机上的实例发起迁移;如果所述状态检测单元检测到某进程不可用,则针对所述某进程执行重启,如果重启失败,则针对所述某进程上的实例发起迁移;如果所述状态检测单元检测到某应用异常,则对所述某应用执行重启,或者针对所述某应用的实例发起迁移,或者进行报警。
12.根据权利要求6或9所述的系统,其特征在于,所述调度单元包括:
调度子单元,用于依据依据预设的调度规则和所述应用请求的阻塞状况,生成调度指令,并将调度指令发送给管理子单元;
管理子单元,用于依据所述调度指令,对所述应用执行服务器的计算资源调度。
CN201510494855.9A 2015-08-13 2015-08-13 一种资源调度的方法和系统 Active CN106452818B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201510494855.9A CN106452818B (zh) 2015-08-13 2015-08-13 一种资源调度的方法和系统
US15/231,812 US10440136B2 (en) 2015-08-13 2016-08-09 Method and system for resource scheduling
EP16835874.5A EP3335120B1 (en) 2015-08-13 2016-08-11 Method and system for resource scheduling
PCT/US2016/046447 WO2017027649A1 (en) 2015-08-13 2016-08-11 Method and system for resource scheduling
JP2018502137A JP7020616B2 (ja) 2015-08-13 2016-08-11 リソーススケジューリングのための方法およびシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510494855.9A CN106452818B (zh) 2015-08-13 2015-08-13 一种资源调度的方法和系统

Publications (2)

Publication Number Publication Date
CN106452818A CN106452818A (zh) 2017-02-22
CN106452818B true CN106452818B (zh) 2020-01-21

Family

ID=57996209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510494855.9A Active CN106452818B (zh) 2015-08-13 2015-08-13 一种资源调度的方法和系统

Country Status (4)

Country Link
US (1) US10440136B2 (zh)
EP (1) EP3335120B1 (zh)
JP (1) JP7020616B2 (zh)
CN (1) CN106452818B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180088960A1 (en) * 2016-09-23 2018-03-29 International Business Machines Corporation Providing highly available and scalable access to a restricted access service through a restful interface
US10346191B2 (en) * 2016-12-02 2019-07-09 Wmware, Inc. System and method for managing size of clusters in a computing environment
US10521312B1 (en) * 2017-03-17 2019-12-31 Amazon Technologies, Inc. Downtime management during database instance patching
US11216539B2 (en) * 2018-10-19 2022-01-04 Oracle International Corporation Authorization proxy platform
CN108170541B (zh) * 2017-12-22 2021-08-24 努比亚技术有限公司 一种接口调用方法、设备及计算机可读存储介质
CN109189552B (zh) * 2018-08-17 2020-08-25 烽火通信科技股份有限公司 虚拟网络功能扩容与缩容方法及系统
CN110908792B (zh) * 2018-09-17 2023-04-14 阿里巴巴集团控股有限公司 一种数据处理方法及装置
CN109144838A (zh) * 2018-09-28 2019-01-04 平安科技(深圳)有限公司 应用程序监控方法及装置、计算机装置及计算机存储介质
CN109542714A (zh) * 2018-09-29 2019-03-29 中国平安人寿保险股份有限公司 应用程序监控方法及装置、计算机装置及计算机存储介质
TWI673613B (zh) * 2018-10-17 2019-10-01 財團法人工業技術研究院 伺服器及其資源調控方法
CN111611086A (zh) * 2020-05-28 2020-09-01 中国工商银行股份有限公司 信息处理方法、装置、电子设备和介质
CN112650575B (zh) * 2021-01-15 2023-08-18 百度在线网络技术(北京)有限公司 资源调度方法、装置和云端服务系统
CN113407347B (zh) * 2021-06-30 2023-02-24 北京百度网讯科技有限公司 资源调度方法、装置、设备和计算机存储介质
US11595321B2 (en) 2021-07-06 2023-02-28 Vmware, Inc. Cluster capacity management for hyper converged infrastructure updates
CN115495231B (zh) * 2022-08-09 2023-09-19 徐州医科大学 一种高并发任务复杂场景下的动态资源调度方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588921A (zh) * 2004-09-17 2005-03-02 杭州恒生电子股份有限公司 基于多层架构的数据处理系统及数据处理方法
CN101354663A (zh) * 2007-07-25 2009-01-28 联想(北京)有限公司 应用于虚拟机系统的真实cpu资源的调度方法及调度装置
CN104407926A (zh) * 2014-12-15 2015-03-11 成都英力拓信息技术有限公司 一种云计算资源的调度方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3576922B2 (ja) 2000-04-28 2004-10-13 エヌイーシーネクサソリューションズ株式会社 アプリケーションプログラムの監視方法、及びアプリケーション・サービスを提供する方法
JP2002163590A (ja) 2000-11-28 2002-06-07 Sony Corp 代行システム、代行方法、サービス代行サーバ、事業者サーバ、記録媒体
US7174379B2 (en) 2001-08-03 2007-02-06 International Business Machines Corporation Managing server resources for hosted applications
US20030069917A1 (en) 2001-10-04 2003-04-10 Miller Larry J. Balanced client/server mechanism in a time-partitioned real-time operting system
US7502859B2 (en) 2003-09-19 2009-03-10 Panasonic Corporation Dynamic resource management for distributed retrieval system for security
US8078483B1 (en) * 2003-12-16 2011-12-13 Ticketmaster Systems and methods for queuing access to network resources
US8078708B1 (en) 2004-01-15 2011-12-13 Nortel Networks Limited Grid proxy architecture for network resources
JP4160093B2 (ja) 2004-05-19 2008-10-01 Kddi株式会社 コンテンツ配信制御システム及びその配信スケジュール作成方法、コンピュータプログラム
JP2006309691A (ja) 2005-03-28 2006-11-09 Hitachi Ltd リソース割当管理装置およびリソース割当方法
US7870568B2 (en) * 2005-06-07 2011-01-11 Datasynapse, Inc. Adaptive shared computing infrastructure for application server-based deployments
TWI276322B (en) 2005-12-28 2007-03-11 Ind Tech Res Inst A system and a method of request scheduling using request classification and allowable server resource for the differentiated quality of service
US8347302B1 (en) 2008-10-09 2013-01-01 Amazon Technologies, Inc. System-aware resource scheduling
WO2010127365A1 (en) * 2009-05-01 2010-11-04 Citrix Systems, Inc. Systems and methods for establishing a cloud bridge between virtual storage resources
US20110078303A1 (en) * 2009-09-30 2011-03-31 Alcatel-Lucent Usa Inc. Dynamic load balancing and scaling of allocated cloud resources in an enterprise network
US8918784B1 (en) 2010-12-21 2014-12-23 Amazon Technologies, Inc. Providing service quality levels through CPU scheduling
TW201227785A (en) 2010-12-28 2012-07-01 Nat Univ Tsing Hua Devices and methods for appliance usage scheduling and control using on-line calendar services with open API
US9471384B2 (en) * 2012-03-16 2016-10-18 Rackspace Us, Inc. Method and system for utilizing spare cloud resources
JP5939740B2 (ja) 2011-04-11 2016-06-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 動的にリソースを割り当てる方法、システム及びプログラム
CN102346460B (zh) 2011-05-27 2013-11-13 运软网络科技(上海)有限公司 一种基于事务的服务控制系统及其控制方法
US9135581B1 (en) 2011-08-31 2015-09-15 Amazon Technologies, Inc. Resource constrained task scheduling
US8787154B1 (en) 2011-12-29 2014-07-22 Juniper Networks, Inc. Multi-topology resource scheduling within a computer network
US9282118B2 (en) * 2012-11-13 2016-03-08 Intel Corporation Policy enforcement in computing environment
US9444695B2 (en) 2014-01-30 2016-09-13 Xerox Corporation Methods and systems for scheduling a task

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588921A (zh) * 2004-09-17 2005-03-02 杭州恒生电子股份有限公司 基于多层架构的数据处理系统及数据处理方法
CN101354663A (zh) * 2007-07-25 2009-01-28 联想(北京)有限公司 应用于虚拟机系统的真实cpu资源的调度方法及调度装置
CN104407926A (zh) * 2014-12-15 2015-03-11 成都英力拓信息技术有限公司 一种云计算资源的调度方法

Also Published As

Publication number Publication date
JP2018532172A (ja) 2018-11-01
EP3335120B1 (en) 2023-06-21
US20170048163A1 (en) 2017-02-16
JP7020616B2 (ja) 2022-02-16
US10440136B2 (en) 2019-10-08
CN106452818A (zh) 2017-02-22
EP3335120A4 (en) 2019-03-20
EP3335120A1 (en) 2018-06-20

Similar Documents

Publication Publication Date Title
CN106452818B (zh) 一种资源调度的方法和系统
CN112162865B (zh) 服务器的调度方法、装置和服务器
JP4920391B2 (ja) 計算機システムの管理方法、管理サーバ、計算機システム及びプログラム
KR101782345B1 (ko) 엔드-투-엔드 데이터센터 성능 제어
WO2019169724A1 (zh) 服务器并发数控制方法、装置、计算机设备及存储介质
EP1769352B1 (en) Method and apparatus for dynamic cpu resource management
US9571561B2 (en) System and method for dynamically expanding virtual cluster and recording medium on which program for executing the method is recorded
JP5412585B2 (ja) サーバ装置、リソース管理方法およびプログラム
US20150189033A1 (en) Distributed Cache System
US20170155560A1 (en) Management systems for managing resources of servers and management methods thereof
US20120221730A1 (en) Resource control system and resource control method
US20020129127A1 (en) Apparatus and method for routing a transaction to a partitioned server
US10394606B2 (en) Dynamic weight accumulation for fair allocation of resources in a scheduler hierarchy
EP1769353A2 (en) Method and apparatus for dynamic memory resource management
US9535749B2 (en) Methods for managing work load bursts and devices thereof
US8914582B1 (en) Systems and methods for pinning content in cache
CN111930493A (zh) 集群中NodeManager状态管理方法、装置及计算设备
US10754368B1 (en) Method and system for load balancing backup resources
US20200272526A1 (en) Methods and systems for automated scaling of computing clusters
US9135064B2 (en) Fine grained adaptive throttling of background processes
EP2940600A1 (en) Data scanning method and device
US10033620B1 (en) Partitioned performance adaptive policies and leases
US9928092B1 (en) Resource management in a virtual machine cluster
US20190317665A1 (en) Resource fairness control in distributed storage systems using congestion data
CN115422010A (zh) 数据集群中的节点管理方法、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230530

Address after: Room 1-2-A06, Yungu Park, No. 1008 Dengcai Street, Sandun Town, Xihu District, Hangzhou City, Zhejiang Province

Patentee after: Aliyun Computing Co.,Ltd.

Address before: Box 847, four, Grand Cayman capital, Cayman Islands, UK

Patentee before: ALIBABA GROUP HOLDING Ltd.