CN109412874B - 设备资源的配置方法、装置、服务器及存储介质 - Google Patents

设备资源的配置方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN109412874B
CN109412874B CN201811575075.7A CN201811575075A CN109412874B CN 109412874 B CN109412874 B CN 109412874B CN 201811575075 A CN201811575075 A CN 201811575075A CN 109412874 B CN109412874 B CN 109412874B
Authority
CN
China
Prior art keywords
resource pool
equipment
offline
online
capacity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811575075.7A
Other languages
English (en)
Other versions
CN109412874A (zh
Inventor
查冲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201811575075.7A priority Critical patent/CN109412874B/zh
Publication of CN109412874A publication Critical patent/CN109412874A/zh
Application granted granted Critical
Publication of CN109412874B publication Critical patent/CN109412874B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0896Bandwidth or capacity management, i.e. automatically increasing or decreasing capacities

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种设备资源的配置方法、装置、服务器及存储介质,属于互联网技术领域。所述方法包括:监测在线资源池中所有设备的整体负载值;当监测到整体负载值低于缩容阈值,对在线资源池中的设备进行缩容,并将在线资源池中被缩容设备加入离线资源池;当监测到整体负载值高于扩容阈值,对离线资源池中的设备进行缩容,并将离线资源池中被缩容设备加入在线资源池。本发明通过监测在线资源池中所有设备的整体负载值,根据所监测的整体负载值,对在线资源池中的设备自动进行缩容,使得闲置的设备能够应用于离线业务中,提高了资源的利用率,且当需要扩容时,对离线资源池中的设备自动进行缩容,从而保证在线业务能够顺利进行,提高了服务品质。

Description

设备资源的配置方法、装置、服务器及存储介质
技术领域
本发明涉及互联网技术领域,特别涉及一种设备资源的配置方法、装置、服务器及存储介质。
背景技术
在互联网技术领域,业务一般由离线业务和在线业务两部分组成。离线业务用于训练在线业务运行时所需的数据库、模型等,在线业务用于基于离线业务所训练的数据库、模型等以及业务请求提供服务。为保证业务能够正常处理,需要为在线业务和离线业务配置设备资源。
通常每种业务对应的设备资源是有限的,而在线业务所配置的资源量直接影响到服务品质,因此,一般会优先为在线业务配置设备资源。考虑到设备负载值会随着在线业务的请求量呈现波峰波谷的使用模式,为保证在线业务正常处理,在为在线业务配置设备资源时,可根据在线业务处于波峰时间段的整体负载值,为在线业务配置设备资源。
然而,当在线业务处于波谷时间段时,为保持在线业务的稳定性,所配置的设备资源处于闲置状态,导致资源的利用率较低,因此,亟需一种设备资源的配置方法,以提高资源的利用率。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种设备资源的配置方法、装置、服务器及存储介质。所述技术方案如下:
一方面,提供了一种设备资源的配置方法,所述方法包括:
监测在线资源池中所有设备的整体负载值,所述在线资源池包括用于处理在线业务的多个设备;
当监测到所述整体负载值低于缩容阈值,对所述在线资源池中的设备进行缩容,并将所述在线资源池中被缩容设备加入离线资源池,所述离线资源池包括用于处理离线业务的多个设备;
当监测到所述整体负载值高于扩容阈值,对所述离线资源池中的设备进行缩容,并将所述离线资源池中被缩容设备加入所述在线资源池。
另一方面,提供了一种设备资源的配置方法,所述方法包括:
监测在线资源池中处于离线状态的设备,所述处于离线状态的设备为在线资源池中所有设备的整体负载值低于缩容阈值时被缩容的设备,所述在线资源池包括用于处理在线业务的多个设备;
当监测到所述处于离线状态的设备时,将所述处于离线状态的设备加入离线资源池,所述离线资源池包括用于处理离线业务的多个设备;
基于所述离线资源池中的设备处理离线业务。
另一方面,提供了一种设备资源的配置装置,所述装置包括:
监测模块,用于监测在线资源池中所有设备的整体负载值,所述在线资源池包括用于处理在线业务的多个设备;
缩容模块,用于当监测到所述整体负载值低于缩容阈值,对所述在线资源池中的设备进行缩容;
设备加入模块,用于将所述在线资源池中被缩容设备加入离线资源池,所述离线资源池包括用于处理离线业务的多个设备;
所述缩容模块,用于当监测到所述整体负载值高于扩容阈值,对所述离线资源池中的设备进行缩容;
所述设备加入模块,用于将所述离线资源池中被缩容设备加入所述在线资源池。
另一方面,提供了一种设备资源的配置装置,所述装置包括:
监测模块,用于监测在线资源池中处于离线状态的设备,所述处于离线状态的设备为在线资源池中所有设备的整体负载值低于缩容阈值时被缩容的设备,所述在线资源池包括用于处理在线业务的多个设备;
设备加入模块,用于当监测到所述处于离线状态的设备时,将所述处于离线状态的设备加入离线资源池,所述离线资源池包括用于处理离线业务的多个设备;
业务处理模块,用于基于所述离线资源池中的设备处理离线业务。
另一方面,提供了一种用于配置设备资源的服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现设备资源的配置方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现设备资源的配置方法。
本发明实施例提供的技术方案带来的有益效果是:
通过监测在线资源池中所有设备的整体负载值,根据所监测的整体负载值,对在线资源池中的设备自动进行缩容,使得闲置的设备能够应用于离线业务中,提高了资源的利用率,且当需要扩容时,对离线资源池中的设备自动进行缩容,从而保证在线业务能够顺利进行,提高了服务品质。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的设备资源的配置方法所涉及的一种系统架构图;
图2是本发明实施例提供的设备资源的配置方法所涉及的另一种系统架构图;
图3是本发明实施例提供的一种设备资源的配置方法的流程图;
图4是本发明实施例提供的一种设备资源的配置方法的时序图;
图5是本发明实施例提供的另一种设备资源的配置方法的时序图;
图6是本发明实施例提供的另一种设备资源的配置方法的流程图;
图7是本发明实施例提供的一种设备资源的配置装置结构示意图;
图8是本发明实施例提供的另一种设备资源的配置装置结构示意图;
图9是根据一示例性实施例示出的一种用于设备资源的配置的服务器。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
对在线业务的请求模型进行分析时,发现设备负载值会随着在线业务的请求量呈现波峰波谷的使用模式。当在线业务处于峰值时间段时,设备资源可得到较好的利用;当在线业务处于波谷时间段时,设备资源基本处于闲置状态,资源利用率极低。为了提高资源的利用率,本发明实施例提供了一种资源配置方法,该方法通过资源层的弹性自动调度、业务监控层的联动打通,将缩容后的在线设备,自动补充给离线业务进行离线计算,使设备全天维持较高的利用率。
考虑到设备资源的自动扩缩对业务而言是无法感知到的,因而本发明实施例引入名字化服务,将业务将请求资源方式由固定的资源列表方式改成名字化服务方式。采用名字化服务为在线业务及离线业务分配业务标识,使得在线业务及离线业务分别与其所分配的业务标识对应,而每个业务标识对应一个设备列表,从而当在线资源池或离线资源池中的设备变更时,无需更改在线业务与在线设备列表之间的对应关系,也无需更改离线业务与离线设备列表之间的对应关系,而仅将这种变更体现在资源层面上,无需体现在业务层面上。
图1是本发明实施例提供的设备资源的配置方法所涉及的一种系统架构图,参见图1,该系统架构包括:名字化服务器、自动调度中控及资源池。
其中,名字化服务器用于为在线业务及离线业务分配业务标识,并维护在线业务对应的在线设备列表,及离线业务对应的离线设备列表。
自动调度中控为系统的核心,自动调度中控包括调度(schedule)层、监控(detect)和自动探测(elasticity)层、资源匹配(resourcemanager)层。每个层的作用如下:
调度层的上层对接名字化服务器,可将设备资源的变动实时反映给名字化服务器,调度层的下层对接监控和自动探测层,当监测到业务请求量增加或者当前正运行的设备资源的负载值升高时,调用资源匹配层进行实时扩容操作;当监测到业务请求量减少或者当前正运行的设备资源的负载值降低时,调用资源匹配层进行实时缩容操作。
监控和自动探测层的上层对接调度层,作为设备资源自动调度的触发器,监控和自动探测层主要用于监测已运行的设备资源负载值,获取负载信息,并将负载信息反馈给调度层。
资源匹配层的上层对接调度层,资源匹配层的下层对接资源池。资源匹配层用于在逻辑上对设备资源进行配置,当业务有扩容需求时,根据所获取的业务资源申请单,为业务自动配置设备资源,从而完成业务的扩容需求。
资源池包括在线资源池和离线资源池,在线资源池包括用于处理在线业务的多个设备,离线资源池包括用于处理离线业务的多个设备。实际上在线资源池和离线资源池属于同一物理资源池,仅是在逻辑上划分为不同的资源池。在线资源池和离线资源池在逻辑上互通,可以相互转换。
需要说明的是,上述名字化服务器、调度层、监控和自动探测层及资源匹配层可以为一个服务器的不同功能单元,还可以为单独的服务器,也可以为由多台服务器组成的服务器集群。
在图1的基础上,本发明实施例提供了设备资源的配置方法所涉及的另一种系统架构,参见图2,该系统架构还包括:监控告警统计服务器和监控告警系统。
其中,监控告警系统通过接收在线资源池及离线资源池中每个设备发送的心跳信息,监控每个设备的运行状况,当监控到任一设备发生故障时,获取该设备的设备信息,并向监控告警统计服务器发送告警信息。
监控告警统计服务器的上层对接调度层,监控告警统计服务器的下层对接监控告警系统,当接收到监控告警系统发送的告警信息时,将告警信息发送至调度层,由调度层根据告警信息,通过调用资源匹配层对该发生故障的设备进行自动迁移和替换,以保障业务的稳定性。该监控告警统计服务器还会对设备发生故障的次数进行记录,当故障的累积次数超过阈值时,通过技术人员介入,对该设备进行检查。
本发明实施例提供了一种设备资源的配置方法,以图1或图2所示的系统执行本发明实施例为例,参见图3,设备资源的配置方法流程包括:
301、监测在线资源池中所有设备的整体负载值。
当在线业务或离线业务接入时,在线业务或离线业务填写业务接入申请单,该业务接入申请单包括缩容阈值、扩容阈值、资源的最低兜底值、业务申请资源量等。其中,缩容阈值为需要对业务的设备资源进行缩容时的最大负载值。扩容阈值为需要对业务的设备资源进行扩容时的最小负载值。为避免设备资源频繁缩扩,造成业务不稳定,可依据以往经验,设置缩容阈值和扩容阈值之间的最小差值,该差值一般为10。资源的最低兜底值为对业务的设备资源进行缩容操作时,保证业务稳定性的最少设备数量。业务申请资源量为业务处理时所需的资源量。系统获取业务接入申请单,并为所接入的在线业务或离线业务分配业务标识,以完成名字化服务的申请。系统内的调度层存储业务接入申请单,以完成业务注册过程。调度层根据业务接入申请单中的资源的最低兜底值和业务申请资源量,对该在线业务或离线业务进行自动扩容,为该在线业务或离线业务分配设备资源,并将由所分配设备形成的在线设备列表或离线设备列表挂载到名字服务器中,由名字服务器对该在线设备列表或离线设备列表进行维护。在线设备列表包括位于在线资源池中的多个在线设备的属性信息,例如,在线设备的设备名称、设备内核数量、设备内存大小等等。离线设备列表包括位于离线资源池中的多个设备的属性信息,例如,离线设备的设备名称、设备内核数量、设备内存大小等。
在业务处理过程中,系统实时调用监控和自动探测层监测在线资源池中所有设备的整体负载值。其中,在线资源池包括用于处理在线业务的多个设备。整体负载值用于表征在线资源池中所有设备的负载情况。负载包括CPU(Central Processing Unit,中央处理器)占用率、内存占用率、硬盘占用率、网络带宽占用率等中至少一项。
302、当监测到整体负载值低于缩容阈值,对在线资源池中的设备进行缩容。
当监测到在线资源池中所有设备的整体负载值低于在线业务的缩容阈值,此时在线资源池中大部分设备处于闲置状态,可通过对在线资源池中的设备进行缩容,以提高资源的利用率。
系统对在线资源池中的设备进行缩容时,可根据整体负载值和缩容阈值,确定待缩容的设备数量,并获取在线资源池中每个设备的负载值,进而根据待缩容的设备数量和在线资源池中每个设备的负载值,对在线资源池中的设备进行缩容。具体地,系统可根据整体负载值和缩容阈值,预估达到缩容阈值时需要缩容的设备数量,并根据在线资源池中每个设备的负载值,对在线资源池中的各个设备按照负载值由高到低的顺序进行排序,进而对负载值较高的设备进行缩容,从而保证在线业务的服务质量。在进行缩容操作时,缩容的设备数量与待缩容的设备数量相同,以满足缩容阈值所要求的资源利用率。
需要说明的是,在进行缩容的过程中,如果在线资源池中的设备数量达到资源的最低兜底值时,整体负载值依然小于缩容阈值,也不再继续进行缩容操作。
303、将在线资源池中被缩容设备加入离线资源池。
考虑到在线资源池中被缩容的设备可能正在处理在线业务,为保证业务正常运行,避免设备下架造成在线业务毛刺,对于被缩容的设备可以保留预设时长的在线服务时间,使得被缩容设备处理的在线请求得以完成。其中,预设时长根据业务的处理时间确定,可以为1分钟、1分钟、5分钟等。
由于在线资源池和离线资源池属于同一物理资源池,为保障在线业务和离线业务的稳定性,本发明实施例可对在线资源池和离线资源池中的设备作逻辑上的标签隔离,两个资源池中的设备只有流转后,才能被使用,从而避免在线资源池和离线资源池互相混用的情况。流转的流程采用更改状态标签的方式,当监测到执行缩容操作的时长达到预设时长时,将被缩容的设备的状态由在线状态online更改为离线状态offline。离线业务的自动扩缩逻辑定时监测离线资源池中处于离线状态的设备,当监测到处于离线状态的设备时,将该设备加入到离线资源池,并基于该设备处理离线业务。其中,离线资源池包括用于处理离线业务的多个设备。
以离线业务为构建绝艺围棋的棋谱为例,当绝艺围棋的计算逻辑监测到在线资源池中存在处于离线状态的设备时,棋谱的生产逻辑通过rc.local自动启动,并采用该设备进行计算。
304、当监测到整体负载值高于扩容阈值,对离线资源池中的设备进行缩容。
由于离线资源池的设备本质上是从在线资源池中租借了部分可用的设备,并非在物理归属上属于离线业务,因此,当在线业务出现资源需求的时候,离线资源池中的设备会被自动归回,再次服务在线业务,以保证在线业务顺利进行。
鉴于上述内容,在业务的处理过程中,当监测到在线资源池中设备的整体负载值高于在线业务的扩容阈值,此时在线业务的负载值较高,在线业务运行不够流畅,为确保在线业务的服务质量,需要对离线资源池中的设备进行缩容,以将被缩容的设备补冲给在线业务,从而实现对在线资源池中的设备的扩容。
系统对离线资源池中的设备进行缩容时,可根据整体负载值和扩容阈值,确定待扩容的设备数量,并根据待扩容的设备数量,对离线资源池中的设备进行缩容。具体地,系统可对离线资源池中与待扩容的设备数量相同的设备进行缩容。
305、将离线资源池中被缩容设备加入在线资源池。
为保障在线业务和离线业务的稳定性,避免在线资源池和离线资源池互相混用的情况,系统可更改离线资源池中被缩容设备的状态,将被缩容设备的状态由离线状态更改为在线状态。在线业务的自动扩缩逻辑定时监测离线资源池中处于在线状态的设备,当监测到离线资源池中存在处于在线状态的设备时,将离线资源池中处于在线状态的设备加入在线资源池。
在另一种可能的实现方式中,在对在线资源池中的设备执行缩扩容操作后,系统还将根据缩扩容操作后在线资源池中的设备,对在线业务对应的在线设备列表进行更新,以维持在线设备列表中的设备与在线资源池中的设备一致。当然,在对离线资源池中的设备执行缩扩容操作后,系统也将根据缩扩容操作后离线资源池中的设备,对离线业务对应的离线设备列表进行更新,以维持离线设备列表中的设备与离线资源池中的设备一致。
在本发明的另一个实施例中,监控告警系统还将实时对在线资源池和离线资源池中的设备进行监测,当监测到任一设备发生故障,监控告警系统向监控告警统计服务器发送告警信息,由监控告警统计服务器将告警信息发送至系统的调度层,调度层调用资源匹配层对该设备进行迁移和替换。同时监控告警统计服务器记录设备发生故障的次数,当故障的累积次数超过阈值时,需要技术人员介入,对该设备进行检查。
图4为设备资源的配置方法的时序图,设备资源的配置过程为:
1、在线业务或离线业务接入。
2、在线业务或离线业务填写业务接入申请单,该业务接入申请单包括缩容值、扩容阈值、资源的最低兜底值、业务申请资源量等。
3、在线业务或离线业务申请名字化服务,由名字化服务器为该在线业务或离线业务分配业务标识。自动调度中控中的调度层获取业务接入申请单,并存储该业务接入申请单,以完成注册。
4、调度层根据业务接入申请单为该在线业务或离线业务配置设备资源,形成在线资源池或离线资源池,并得到在线设备列表或离线设备列表,并将该在线设备列表或离线设备列表挂载到名字化服务器中。
5、在业务处理过程中,系统监测在线资源池中所有设备的整体负载值是否大于扩容阈值,如果大于扩容阈值,则对在线资源池中的设备自动进行扩容,将扩容设备加入到名字化服务器的在线设备列表中。
6、在业务处理过程中,系统监测在线资源池中所有设备的整体负载值是否小于缩容阈值,如果小于缩容阈值,则将在线资源池中负载高的设备加入到离线资源池,并将该负载高的设备从在线设备列表中删除。
7、监测设备是否发生故障,当监测得到任一设备发生故障时,迁移并替换故障设备,同时记录该设备发生故障的次数。
在本发明的另一个实施例中,为了确保离线资源池中的设备能够及时归还,而不影响在线业务,系统设计了缓冲资源池,该缓冲资源池用于存储被缩容设备,当在线业务具有扩容需求时,在线业务优先从缓冲资源池中获取设备。系统还为该缓冲资源池中的设备数量设置阈值,该阈值可根据不同时间段进行设置,在在线业务的请求量的高峰时间段,该阈值可以设置为较大的数值,从而满足高峰时间段在线业务的扩容需求,而在在线业务的请求量的低谷时间段,该阈值可以设置为较小的数值,从而提高资源的利用率。
在业务处理过程中,系统实时监测缓冲资源池中的设备数量,当监测到缓冲资源池中的设备数量小于预设数量,对离线资源池中的设备进行缩容,并将离线资源池中被缩容设备加入缓冲资源池,从而保持缓冲资源池中设备的数量在一定的水平。当监测到整体负载值高于扩容阈值,系统通过将缓冲资源池中的设备加入在线资源池,使得设备能够及时服务于在线业务。
为了避免离线资源池中的设备释放失败,导致在线业务无法正常扩容,系统还设计了预警机制,当缓冲资源池中的设备数量小于阈值时,可通过短信或其他即时消息向管理员进行告警,当离线资源池中的设备缩容失败时,可通过电话向管理员进行告警。
上述设计的缓冲资源池可以形象的表述为buffer水位,该buffer水位主要为了预留设备资源。在线业务优先从buffer中获取资源扩容,系统会定时检查buffer池的水位,如果水位低于设置的阈值,则对离线资源池缩容补充。从监控的历史数据看,业务每天的峰值时间基本是固定的,峰值时间段需求资源量大,可将buffer水位值调高,其他时间段将buffer水位值调低,例如配置为高峰时间段的50%。
图5为基于buffer水位的设备资源的配置方法的时序图,参见图5,该方法包括以下步骤:
1、对于在线业务而言,定时判断监控和自动探测层监测的负载值,根据监测到的负载值执行资源扩缩容逻辑。
2、对于离线业务而言,例如绝艺围棋,可实时分析buffer水位,根据buffer水位执行扩缩容逻辑。
3、在离线业务执行缩容逻辑,即在线业务执行扩容逻辑时,可将离线资源池中的设备的状态由offline更改为online;在离线业务执行扩容逻辑,即在线业务执行缩容逻辑时,可将在线资源池中的设备的状态由online更改为offline。通过状态更改实现不同资源池间设备流转。
本发明实施例提供的方法,通过监测在线资源池中所有设备的整体负载值,根据所监测的整体负载值,对在线资源池中的设备自动进行缩容,使得闲置的设备能够应用于离线业务中,提高了资源的利用率,且当需要扩容时,对离线资源池中的设备自动进行缩容,从而保证在线业务能够顺利进行,提高了服务品质。
除了上述有益效果,本发明实施的有益效果还体现在以下方面:
第一,资源被全时复用,挖掘出波谷的算力,折掉了资源部分新增,成本节约立竿见影。
第二,业务运营上,弹性自动调度解决了业务请求量突发,对资源的紧急需求,避免了传统业务申请、审批、部署上线的流程。
第三,监控数据的再纵深利用,联动资源层的自动迁移调度,缓解了告警到人,人工介入的情况,有益于业务在线服务的稳定。
本发明实施例提供了一种设备资源的配置方法,以离线业务端执行本发明实施例为例,参见图6,设备资源的配置方法流程包括:
601、监测在线资源池中处于离线状态的设备。
其中,在线资源池包括用于处理在线业务的多个设备,处于离线状态的设备为在线资源池中所有设备的整体负载值低于缩容阈值时被缩容的设备。在处理离线业务的过程中,离线业务端通过执行自动扩容逻辑,监测在线资源池中是否存在处于离线状态的设备。
602、当监测到处于离线状态的设备时,将处于离线状态的设备加入离线资源池。
其中,离线资源池包括用于处理离线业务的多个设备。当监测到在线资源池中存在处于离线状态的设备时,离线业务端执行自动扩容逻辑,将处于离线状态的设备加入离线资源池中。
603、基于离线资源池中的设备处理离线业务。
在执行自动扩容逻辑将处于离线状态的设备加入到离线资源池后,离线业务端基于离线资源池中的设备处理离线业务。对于离线业务而言,设备资源量越大,所训练的数据库越丰富、模型越多,基于所训练的数据库、模型处理在线业务时,效果越好。
在另一种可能的实现方式中,当在线资源池中所有设备的整体负载值高于扩容阈值时,离线业务端可接收到第一缩容指令,根据第一缩容指令,离线业务端对离线资源池中的设备进行缩容,进而将被缩容设备加入在线资源池,以满足在线业务的扩容需求。
在另一种可能的实现方式中,当监测到缓冲资源池中的设备数量小于预设数量时,离线业务端可接收到第二缩容指令,根据第二缩容指令,离线业务端对离线资源池中的设备进行缩容,进而将被缩容设备加入缓冲资源池,从而使得缓冲资源池中的设备数量维持一定水平,当在线业务有扩容需求时,可从缓冲资源池中获取扩容的设备,保证在线业务的及时性和稳定性。
以离线业务为绝艺围棋为例,对于在线资源池中被缩容设备,在逻辑上划分到离线资源池,实时扩容给绝艺围棋等做棋谱的训练学习。
本发明实施例提供的方法,在监测到在线资源池中处于离线状态的设备时,自动将该处于离线状态的设备加入离线资源池,以处理离线业务,从而提高了离线业务的处理速度。
参见图7,本发明实施例提供了一种设备资源的配置装置,该装置包括:
监测模块701,用于监测在线资源池中所有设备的整体负载值,在线资源池包括用于处理在线业务的多个设备;
缩容模块702,用于当监测到整体负载值低于缩容阈值,对在线资源池中的设备进行缩容;
设备加入模块703,用于将在线资源池中被缩容设备加入离线资源池,离线资源池包括用于处理离线业务的多个设备;
缩容模块702,用于当监测到整体负载值高于扩容阈值,对离线资源池中的设备进行缩容;
设备加入模块703,用于将离线资源池中被缩容设备加入在线资源池。
在另一种可能的实现方式中,缩容模块702,用于根据整体负载值和缩容阈值,确定待缩容的设备数量;获取在线资源池中每个设备的负载值;根据待缩容的设备数量和在线资源池中每个设备的负载值,对在线资源池中的设备进行缩容。
在另一种可能的实现方式中,该装置还包括:
状态更改模块,用于当执行缩容操作的时长达到预设时长时,将被缩容设备的状态由在线状态更改为离线状态;
设备加入模块703,用于将在线资源池中处于离线状态的被缩容设备加入离线资源池。
在另一种可能的实现方式中,缩容模块702,用于根据整体负载值和扩容阈值,确定待扩容的设备数量;根据待扩容的设备数量,对离线资源池中的设备进行缩容。
在另一种可能的实现方式中,该装置还包括:
状态更改模块,用于将离线资源池中被缩容设备的状态由离线状态更改为在线状态;
设备加入模块,用于将离线资源池中处于在线状态的设备加入在线资源池。
在另一种可能的实现方式中,监测模块701,还用于监测缓冲资源池中的设备数量,缓冲资源池用于存储被缩容设备;
缩容模块702,还用于当监测到缓冲资源池中的设备数量小于预设数量,对离线资源池中的设备进行缩容;
设备加入模块,还用于将离线资源池中被缩容设备加入缓冲资源池;
设备加入模块703,还用于当监测到整体负载值高于扩容阈值,将缓冲资源池中的设备加入在线资源池。
在另一种可能的实现方式中,该装置还包括:
迁移替换模块,用于当监测到任一设备发生故障,对设备进行迁移和替换;
记录模块,用于记录设备发生故障的次数。
在另一种可能的实现方式中,该装置还包括:
更新模块,用于根据缩扩容操作后在线资源池中的设备,对在线业务对应的在线设备列表进行更新;
更新模块,还用于根据缩扩容操作后离线资源池中的设备,对离线业务对应的离线设备列表进行更新。
综上所述,本发明实施例提供的装置,通过监测在线资源池中所有设备的整体负载值,根据所监测的整体负载值,对在线资源池中的设备自动进行缩容,使得闲置的设备能够应用于离线业务中,提高了资源的利用率,且当需要扩容时,对离线资源池中的设备自动进行缩容,从而保证在线业务能够顺利进行,提高了服务品质。
参见图8,本发明实施例提供了一种设备资源的配置装置,该装置包括:
监测模块801,用于监测在线资源池中处于离线状态的设备,处于离线状态的设备为在线资源池中所有设备的整体负载值低于缩容阈值时被缩容的设备,在线资源池包括用于处理在线业务的多个设备;
设备加入模块802,用于当监测到处于离线状态的设备时,将处于离线状态的设备加入离线资源池,离线资源池包括用于处理离线业务的多个设备;
业务处理模块803,用于基于离线资源池中的设备处理离线业务。
在另一种可能的实现方式中,该装置还包括:
接收模块,用于接收第一缩容指令,第一缩容指令为在线资源池中所有设备的整体负载值高于扩容阈值时接收到的;
缩容模块,用于根据第一缩容指令,对离线资源池中的设备进行缩容;
设备加入模块802,用于将被缩容设备加入在线资源池。
在另一种可能的实现方式中,该装置还包括:
接收模块,用于接收第二缩容指令,第二缩容指令为缓冲资源池中的设备数量小于预设数量时接收到的,缓冲资源池用于存储被缩容设备;
缩容模块,用于根据第二缩容指令,对离线资源池中的设备进行缩容;
设备加入模块,用于将被缩容设备加入缓冲资源池。
本发明实施例提供的装置,在监测到在线资源池中处于离线状态的设备时,自动将该处于离线状态的设备加入离线资源池,以处理离线业务,从而提高了离线业务的处理速度。
图9是根据一示例性实施例示出的一种用于设备资源的配置的服务器。参照图9,服务器900包括处理组件922,其进一步包括一个或多个处理器,以及由存储器932所代表的存储器资源,用于存储可由处理组件922的执行的指令,例如应用程序。存储器932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件922被配置为执行指令,以执行上述设备资源的配置中服务器所执行的功能。
服务器900还可以包括一个电源组件926被配置为执行服务器900的电源管理,一个有线或无线网络接口950被配置为将服务器900连接到网络,和一个输入输出(I/O)接口958。服务器900可以操作基于存储在存储器932的操作系统,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本发明实施例提供的服务器,通过监测在线资源池中所有设备的整体负载值,根据所监测的整体负载值,对在线资源池中的设备自动进行缩容,使得闲置的设备能够应用于离线业务中,提高了资源的利用率,且当需要扩容时,对离线资源池中的设备自动进行缩容,从而保证在线业务能够顺利进行,提高了服务品质。
本发明实施例提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现图3或图6所示的设备资源的配置方法。
本发明实施例提供的计算机可读存储介质,通过监测在线资源池中所有设备的整体负载值,根据所监测的整体负载值,对在线资源池中的设备自动进行缩容,使得闲置的设备能够应用于离线业务中,提高了资源的利用率,且当需要扩容时,对离线资源池中的设备自动进行缩容,从而保证在线业务能够顺利进行,提高了服务品质。
需要说明的是:上述实施例提供的设备资源的配置装置在配置设备资源时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备资源的配置装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的设备资源的配置装置与设备资源的配置方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种设备资源的配置方法,其特征在于,所述方法包括:
监测在线资源池中所有设备的整体负载值,所述在线资源池包括用于处理在线业务的多个设备;
当监测到所述整体负载值低于缩容阈值,对所述在线资源池中的设备进行缩容,当执行缩容操作的时长达到预设时长时,将被缩容设备的状态由在线状态更改为离线状态;
将所述在线资源池中处于离线状态的被缩容设备加入离线资源池,所述离线资源池包括用于处理离线业务的多个设备,所述离线业务和所述在线业务分配有业务标识,每个业务标识对应一个设备列表;
当监测到所述整体负载值高于扩容阈值,对所述离线资源池中的设备进行缩容,并将所述离线资源池中被缩容设备加入所述在线资源池。
2.根据权利要求1所述的方法,其特征在于,所述当监测到所述整体负载值低于缩容阈值,对所述在线资源池中的设备进行缩容,包括:
根据所述整体负载值和所述缩容阈值,确定待缩容的设备数量;
获取所述在线资源池中每个设备的负载值;
根据所述待缩容的设备数量和所述在线资源池中每个设备的负载值,对所述在线资源池中的设备进行缩容。
3.根据权利要求1所述的方法,其特征在于,所述当监测到所述整体负载值高于扩容阈值,对所述离线资源池中的设备进行缩容,包括:
根据所述整体负载值和所述扩容阈值,确定待扩容的设备数量;
根据所述待扩容的设备数量,对所述离线资源池中的设备进行缩容。
4.根据权利要求1所述的方法,其特征在于,所述将所述离线资源池中被缩容设备加入所述在线资源池之前,还包括:
将所述离线资源池中被缩容设备的状态由离线状态更改为在线状态;
所述将所述离线资源池中被缩容设备加入所述在线资源池,包括:
将所述离线资源池中处于在线状态的设备加入所述在线资源池。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
监测缓冲资源池中的设备数量,所述缓冲资源池用于存储被缩容设备;
当监测到所述缓冲资源池中的设备数量小于预设数量,对所述离线资源池中的设备进行缩容,并将所述离线资源池中被缩容设备加入所述缓冲资源池;
当监测到所述整体负载值高于扩容阈值,将所述缓冲资源池中的设备加入所述在线资源池。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当监测到任一设备发生故障,对所述设备进行迁移和替换,并记录所述设备发生故障的次数。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述方法还包括:
根据缩扩容操作后所述在线资源池中的设备,对在线业务对应的在线设备列表进行更新;
根据缩扩容操作后所述离线资源池中的设备,对离线业务对应的离线设备列表进行更新。
8.一种设备资源的配置方法,其特征在于,所述方法包括:
监测在线资源池中处于离线状态的设备;
其中,所述处于离线状态的设备的确定过程为:当所述在线资源池中所有设备的整体负载值低于缩容阈值时,对所述在线资源池中的设备进行缩容,当执行缩容操作的时长达到预设时长时,将被缩容的设备由在线状态更改为离线状态,所述在线资源池包括用于处理在线业务的多个设备;
当监测到所述处于离线状态的设备时,将所述在线资源池中所述处于离线状态的设备加入离线资源池,所述离线资源池包括用于处理离线业务的多个设备,所述离线业务和所述在线业务分配有业务标识,每个业务标识对应一个设备列表;
基于所述离线资源池中的设备处理离线业务。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
接收第一缩容指令,所述第一缩容指令为所述在线资源池中所有设备的整体负载值高于扩容阈值时接收到的;
根据所述第一缩容指令,对所述离线资源池中的设备进行缩容;
将被缩容设备加入所述在线资源池。
10.根据权利要求8所述的方法,其特征在于,所述方法还包括:
接收第二缩容指令,所述第二缩容指令为缓冲资源池中的设备数量小于预设数量时接收到的,所述缓冲资源池用于存储被缩容设备;
根据所述第二缩容指令,对所述离线资源池中的设备进行缩容;
将被缩容设备加入所述缓冲资源池。
11.一种设备资源的配置装置,其特征在于,所述装置包括:
监测模块,用于监测在线资源池中所有设备的整体负载值,所述在线资源池包括用于处理在线业务的多个设备;
缩容模块,用于当监测到所述整体负载值低于缩容阈值,对所述在线资源池中的设备进行缩容;
状态更改模块,用于当执行缩容操作的时长达到预设时长时,将被缩容设备的状态由在线状态更改为离线状态;
设备加入模块,用于将所述在线资源池中处于离线状态的被缩容设备加入离线资源池,所述离线资源池包括用于处理离线业务的多个设备,所述离线业务和所述在线业务分配有业务标识,每个业务标识对应一个设备列表;
所述缩容模块,用于当监测到所述整体负载值高于扩容阈值,对所述离线资源池中的设备进行缩容;
所述设备加入模块,用于将所述离线资源池中被缩容设备加入所述在线资源池。
12.一种设备资源的配置装置,其特征在于,所述装置包括:
监测模块,用于监测在线资源池中处于离线状态的设备;
其中,所述处于离线状态的设备的确定过程为:当所述在线资源池中所有设备的整体负载值低于缩容阈值时,对所述在线资源池中的设备进行缩容,当执行缩容操作的时长达到预设时长时,将被缩容的设备由在线状态更改为离线状态,所述在线资源池包括用于处理在线业务的多个设备;
设备加入模块,用于当监测到所述处于离线状态的设备时,将所述在线资源池中所述处于离线状态的设备加入离线资源池,所述离线资源池包括用于处理离线业务的多个设备,所述离线业务和所述在线业务分配有业务标识,每个业务标识对应一个设备列表;
业务处理模块,用于基于所述离线资源池中的设备处理离线业务。
13.一种用于配置设备资源的服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至7中任一项所述的设备资源的配置方法,或者如权利要求8至10中任一项所述的设备资源的配置方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至7中任一项所述的设备资源的配置方法,或者如权利要求8至10中任一项所述的设备资源的配置方法。
CN201811575075.7A 2018-12-21 2018-12-21 设备资源的配置方法、装置、服务器及存储介质 Active CN109412874B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811575075.7A CN109412874B (zh) 2018-12-21 2018-12-21 设备资源的配置方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811575075.7A CN109412874B (zh) 2018-12-21 2018-12-21 设备资源的配置方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN109412874A CN109412874A (zh) 2019-03-01
CN109412874B true CN109412874B (zh) 2021-11-02

Family

ID=65461098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811575075.7A Active CN109412874B (zh) 2018-12-21 2018-12-21 设备资源的配置方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN109412874B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858015B (zh) * 2019-04-25 2024-01-12 中国移动通信集团河北有限公司 配置应用程序的运行资源的方法、装置及网关
CN110753112A (zh) * 2019-10-23 2020-02-04 北京百度网讯科技有限公司 云服务的弹性伸缩方法和装置
CN111858034B (zh) * 2020-06-29 2023-01-06 苏州浪潮智能科技有限公司 一种资源的管理方法、系统、设备以及介质
CN112559182B (zh) * 2020-12-16 2024-04-09 北京百度网讯科技有限公司 资源分配方法、装置、设备及存储介质
CN113515355A (zh) * 2021-04-06 2021-10-19 北京三快在线科技有限公司 资源调度方法、装置、服务器及计算机可读存储介质
WO2022232989A1 (en) * 2021-05-06 2022-11-10 Nokia Shanghai Bell Co., Ltd. Apparatus, method, and computer program
CN113656162A (zh) * 2021-08-18 2021-11-16 恒生电子股份有限公司 资源的申请方法、装置、电子设备及存储介质
CN114356558B (zh) * 2021-12-21 2022-11-18 北京穿杨科技有限公司 一种基于集群的缩容处理方法及装置
CN114579305B (zh) * 2022-02-28 2023-09-15 北京百度网讯科技有限公司 用于函数计算的资源控制方法、装置、设备和介质
CN114629960B (zh) * 2022-03-14 2023-09-19 抖音视界有限公司 资源调度方法、装置、系统、设备、介质和程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357661A (zh) * 2017-07-12 2017-11-17 北京航空航天大学 一种针对混合负载的细粒度gpu资源管理方法
CN107819867A (zh) * 2017-11-18 2018-03-20 洛阳理工学院 一种集群网络的负载均衡方法和装置
CN107968810A (zh) * 2016-10-20 2018-04-27 阿里巴巴集团控股有限公司 一种服务器集群的资源调度方法、装置和系统
CN108632365A (zh) * 2018-04-13 2018-10-09 腾讯科技(深圳)有限公司 服务资源调整方法、相关装置和设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9223608B2 (en) * 2012-12-14 2015-12-29 Vmware, Inc. Systems and methods for finding solutions in distributed load balancing
CN108304431B (zh) * 2017-06-14 2021-11-09 腾讯科技(深圳)有限公司 一种图像检索方法及装置、设备、存储介质
CN107682406B (zh) * 2017-09-08 2020-08-25 北京三快在线科技有限公司 一种业务处理的方法、装置以及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107968810A (zh) * 2016-10-20 2018-04-27 阿里巴巴集团控股有限公司 一种服务器集群的资源调度方法、装置和系统
CN107357661A (zh) * 2017-07-12 2017-11-17 北京航空航天大学 一种针对混合负载的细粒度gpu资源管理方法
CN107819867A (zh) * 2017-11-18 2018-03-20 洛阳理工学院 一种集群网络的负载均衡方法和装置
CN108632365A (zh) * 2018-04-13 2018-10-09 腾讯科技(深圳)有限公司 服务资源调整方法、相关装置和设备

Also Published As

Publication number Publication date
CN109412874A (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
CN109412874B (zh) 设备资源的配置方法、装置、服务器及存储介质
CN112000473A (zh) 深度学习模型的分布式训练方法以及装置
CN109343939B (zh) 一种分布式集群及并行计算任务调度方法
CN108632365A (zh) 服务资源调整方法、相关装置和设备
JP2015011716A (ja) グリッドコンピューティングシステムの遊休リソースによるタスク実行
CN108762924A (zh) 一种负载均衡的方法、装置和计算机可读存储介质
CN109766172B (zh) 一种异步任务调度方法以及装置
CN112445615A (zh) 一种线程的调度系统、计算机设备和存储介质
CN111078404B (zh) 一种计算资源确定方法、装置、电子设备及介质
CN110580198B (zh) OpenStack计算节点自适应切换为控制节点的方法及装置
CN110958311A (zh) 一种基于yarn的共享集群弹性伸缩系统及方法
CN112437129B (zh) 集群的管理方法及集群的管理装置
CN111064672A (zh) 云平台通信系统、选举方法及资源调度管理方法
CN107665143B (zh) 资源管理方法、装置及系统
CN114356543A (zh) 一种基于Kubernetes的多租户机器学习任务资源调度方法
CN114064199A (zh) 一种集群容量管理方法及系统
CN112235373A (zh) 基于应用ai的云桌面调度系统及其调度方法
CN111796933A (zh) 资源调度方法、装置、存储介质和电子设备
CN113626145B (zh) 业务虚拟机数量动态扩容方法及系统
CN114389955A (zh) 嵌入式平台异构资源池化管理方法
US11656914B2 (en) Anticipating future resource consumption based on user sessions
CN112822062A (zh) 一种用于桌面云服务平台的管理方法
CN113515356B (zh) 一种轻量级分布式资源管理与任务调度器及方法
CN115168057B (zh) 基于k8s集群的资源调度方法及装置
CN111556126A (zh) 模型管理方法、系统、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant