CN112416599A - 一种资源调度方法、装置、设备及计算机可读存储介质 - Google Patents

一种资源调度方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN112416599A
CN112416599A CN202011410728.3A CN202011410728A CN112416599A CN 112416599 A CN112416599 A CN 112416599A CN 202011410728 A CN202011410728 A CN 202011410728A CN 112416599 A CN112416599 A CN 112416599A
Authority
CN
China
Prior art keywords
resource
resources
equipment
idle
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011410728.3A
Other languages
English (en)
Other versions
CN112416599B (zh
Inventor
查冲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011410728.3A priority Critical patent/CN112416599B/zh
Publication of CN112416599A publication Critical patent/CN112416599A/zh
Application granted granted Critical
Publication of CN112416599B publication Critical patent/CN112416599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请实施例提供了一种资源调度方法、装置、设备及计算机可读存储介质;方法包括:响应于网络模型的训练任务请求,从缓存装置所缓存的计算设备资源信息中,获取满足资源需求规格的空闲设备资源所对应的空闲设备资源量,其中,训练任务请求包括资源需求规格和设备资源需求量;当空闲设备资源量不低于设备资源需求量时,从空闲设备资源中选择出设备资源需求量的设备资源,作为目标设备资源;基于目标设备资源,针对网络模型执行训练任务请求所请求执行的训练任务。通过本申请实施例,能够提升人工智能领域中设备资源的调度效率,提升网络模型的训练效率。

Description

一种资源调度方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及人工智能领域中的资源管理技术,尤其涉及一种资源调度方法、装置、设备及计算机可读存储介质。
背景技术
目前,人工智能技术在各个应用领域都得到了快速发展;由于人工智能技术主要是依赖于网络模型实现的,因此,网络模型的训练是提升人工智能发展的重要因素。
一般来说,为了训练网络模型,通常先基于训练网络模型的设备资源需求,与非易失性存储装置中的计算设备资源信息进行设备资源匹配,并基于匹配结果确定训练网络模型的设备资源,以实现网络模型的训练。然而,上述确定训练网络模型的设备资源的过程中,设备资源匹配的过程是通过访问非易失性存储装置中的计算设备资源信息实现的,由于非易失性存储装置的访问速度较低,从而调度用于训练网络模型的设备资源的处理效率较低,进而网络模型的训练效率较低。
发明内容
本申请实施例提供一种资源调度方法、装置、设备及计算机可读存储介质,能够提升设备资源的调度效率,提升网络模型的训练效率。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种资源调度方法,包括:
响应于网络模型的训练任务请求,从缓存装置所缓存的计算设备资源信息中,获取满足资源需求规格的空闲设备资源所对应的空闲设备资源量,其中,所述训练任务请求包括所述资源需求规格和设备资源需求量;
当所述空闲设备资源量不低于所述设备资源需求量时,从所述空闲设备资源中选择出所述设备资源需求量的设备资源,作为目标设备资源;
基于所述目标设备资源,针对所述网络模型执行所述训练任务请求所请求执行的训练任务。
本申请实施例提供一种资源调度装置,包括:
资源量获取模块,用于响应于网络模型的训练任务请求,从缓存装置所缓存的计算设备资源信息中,获取满足资源需求规格的空闲设备资源所对应的空闲设备资源量,其中,所述训练任务请求包括所述资源需求规格和设备资源需求量;
资源选择模块,用于当所述空闲设备资源量不低于所述设备资源需求量时,从所述空闲设备资源中选择出所述设备资源需求量的设备资源,作为目标设备资源;
模型训练模块,用于基于所述目标设备资源,针对所述网络模型执行所述训练任务请求所请求执行的训练任务。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的资源调度方法。
在本申请实施例中,所述资源调度装置还包括策略注册模块,用于响应于资源策略注册请求,获取自定义资源策略,生成包括所述自定义资源策略的所述训练任务请求。
在本申请实施例中,所述资源选择模块,还用于基于所述设备资源需求量,从所述空闲设备资源中,选择出与所述自定义资源策略适配的适配设备资源;当所述适配设备资源对应的适配设备资源量等于所述设备资源需求量时,获得包括所述适配设备资源的所述目标设备资源。
在本申请实施例中,所述资源选择模块,还用于当所述适配设备资源对应的适配设备资源量低于所述设备资源需求量时,获取所述设备资源需求量与所述适配设备资源量之间的差量;从剩余设备资源中,选择出所述差量的设备资源,其中,所述剩余设备资源为所述空闲设备资源中除所述适配设备资源外的设备资源;获取包括所述适配设备资源和所述差量的设备资源的所述目标设备资源。
在本申请实施例中,所述资源选择模块,还用于针对所述差量的设备资源,显示资源待确认信息,其中,所述资源待确认信息为所述差量的设备资源是不满足所述自定义资源策略的设备资源的信息。
在本申请实施例中,所述资源选择模块,还用于响应于针对所述资源待确认信息的确认操作,获取包括所述适配设备资源和所述差量的设备资源的所述目标设备资源。
在本申请实施例中,所述资源调度装置还包括策略存储模块,用于将所述自定义资源策略存储至非易失性存储装置中;响应于新的资源策略注册请求,复用所述自定义资源策略,生成包括所述自定义资源策略的新的训练任务请求。
在本申请实施例中,所述自定义资源策略包括镜像优先策略、机房亲和性优先策略、网络通信优先策略和基础信息优先策略中的至少一种,其中,所述镜像优先策略为包括需求镜像的设备资源具有最高优先级的策略,所述机房亲和性优先策略为同机房的设备资源具有最高优先级的策略,所述网络通信优先策略为具有网络通信功能的设备资源具有最高优先级的策略,所述基础信息优先策略为具有基础信息的设备资源具有最高优先级的策略。
在本申请实施例中,当所述自定义资源策略包括所述镜像优先策略时;所述资源选择模块,还用于从所述镜像优先策略中获取镜像标识;基于所述设备资源需求量,从所述空闲设备资源中,选择出包括所述镜像标识对应的目标镜像的设备资源,作为所述适配设备资源。
在本申请实施例中,所述资源调度装置还包括调度结束模块,用于当所述空闲设备资源量低于所述设备资源需求量时,结束资源调度流程,并显示资源不足提示信息。
在本申请实施例中,所述资源调度装置还包括资源更新模块,用于生成所述目标设备资源的资源更新信息;基于所述资源更新信息更新非易失性存储装置中所述目标设备资源的使用状态,以生成资源更新事件;响应于所述资源更新事件,更新所述计算设备资源信息,以基于更新后的计算设备资源信息确定执行新的训练任务的设备资源。
在本申请实施例中,所述资源调度装置还包括模型应用模块,用于获取执行所述训练任务所得到的训练后的网络模型,以基于所述训练后的网络模型对待检测图像进行图像检测,并基于图像检测结果确定处理信息;其中,所述待检测图像包括监控图像和虚拟场景的渲染图像中的至少一种,当所述待检测图像为所述监控图像时,所述处理信息为待监控目标的活动轨迹的显示信息,当所述待检测图像为所述渲染图像时,所述处理信息为针对所述渲染图像中的虚拟目标执行交互操作的指令中的至少一种。
本申请实施例提供一种资源调度设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的资源调度方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的资源调度方法。
本申请实施例至少具有以下有益效果:通过在缓存装置中缓存资源信息,使得在响应网络模型的训练任务请求时,通过访问缓存装置就能够实现目标设备资源的确定;又由于缓存装置的访问效率较高,因此,能够快速确定用于训练网络模型的目标设备资源;从而,能够提升设备资源的调度效率,提升网络模型的训练效率。
附图说明
图1是本申请实施例提供的资源调度系统的一个可选的架构示意图;
图2是本申请实施例提供的一种图1中的服务器的组成结构示意图;
图3是本申请实施例提供的资源调度方法的一个可选的流程示意图;
图4是本申请实施例提供的资源调度方法的另一个可选的流程示意图;
图5是本申请实施例提供的资源调度方法的又一个可选的流程示意图;
图6是本申请实施例提供的资源调度方法的再一个可选的流程示意图;
图7是本申请实施例提供的一种示例性的资源调度架构图;
图8是本申请实施例提供的一种示例性的更新缓存的计算设备资源信息的流程示意图;
图9是本申请实施例提供的一种示例性的获取自定义资源策略的流程示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
2)机器学习(Machine Learning,ML),是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能;重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习和归纳学习等技术。
3)人工神经网络,是一种模仿生物神经网络结构和功能的数学模型,本申请实施例中人工神经网络的示例性结构包括深度神经网络(Deep Neural Networks,DNN)、卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent NeuralNetwork,RNN)等。
4)强化学习(Reinforcement Learning,RL),又称强化训练、再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(Agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
5)云技术(Cloud Technology),是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
6)响应于,用于表示所执行的处理所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个请求可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个请求不存在执行先后顺序的限制。
7)资源生产,指确定用于训练网络模型的计算设备的过程;在包括训练前资源准备、训练中资源运行和训练后资源回收的网络模型训练中,资源生产是训练前资源准备中的处理过程,又称为资源调度;在本申请实施例中,提升资源调度效率,即降低资源调度耗时。
8)双层调度,包括缓存装置层的资源筛选和资源量匹配,以及生产层的资源交付;是训练业务启动时,资源调度对应的两层循环处理过程。
需要说明的是,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
另外,人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术的研究和进步,人工智能技术在多个领域展开了研究和应用;例如,常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗和智能客服等;随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。在本申请实施例中,对人工智能所应用的领域不作具体限定。
还需要说明的是,本申请实施例可以通过云平台实现人工智能技术。其中,云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。一般来说,作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务))平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备和网络设备;在本申请实施例中,当本申请实施例所提供的资源调度方法是应用在云平台中时,所涉及的设备资源为计算设备。
一般来说,为了训练网络模型,通常先基于训练网络模型的设备资源需求,与DB(Data Base,数据库)或磁盘等非易失性存储装置中的计算设备资源信息进行设备资源匹配,并基于匹配结果确定训练网络模型的设备资源,以实现网络模型的训练。然而,上述确定训练网络模型的设备资源的过程中,设备资源匹配的过程是通过访问非易失性存储装置中的计算设备资源信息实现的,由于非易失性存储装置的访问速度较低,从而调度用于训练网络模型的设备资源的处理效率较低,进而网络模型的训练效率较低。
基于此,本申请实施例提供一种资源调度方法、装置、设备和计算机可读存储介质,能够提升人工智能领域中设备资源的调度效率,提升网络模型的训练效率。
下面说明本申请实施例提供的资源调度设备的示例性应用,本申请实施例提供的资源调度设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的用户终端,也可以实施为服务器。下面,将说明资源调度设备实施为服务器时的示例性应用。
参见图1,图1是本申请实施例提供的资源调度系统的一个可选的架构示意图;如图1所示,为支撑一个资源调度应用,在资源调度系统100中,终端400(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200(资源调度设备),网络300可以是广域网或者局域网,又或者是二者的组合。另外,该资源调度系统100中还包括数据库500和设备资源600,数据库500用于记录设备资源600的使用状态的相关信息,并向服务器200中的缓存装置200-1提供待缓存的数据。
终端400,用于通过网络300向服务器200发送网络模型的训练任务请求,并通过网络300获取服务器200返回的训练后的网络模型。
服务器200,用于通过网络300接收终端400发送的网络模型的训练任务请求,响应于网络模型的训练任务请求,从缓存装置200-1所缓存的计算设备资源信息中,获取满足资源需求规格的空闲设备资源所对应的空闲设备资源量,其中,训练任务请求包括资源需求规格和设备资源需求量;当空闲设备资源量不低于设备资源需求量时,从空闲设备资源中选择出设备资源需求量的设备资源,作为目标设备资源600-1,以实现对设备资源600的调度;基于目标设备资源600-1,针对网络模型执行训练任务请求所请求执行的训练任务,训练网络模型。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本发明实施例中不做限制。
参见图2,图2是本申请实施例提供的一种图1中的服务器的组成结构示意图,图2所示的服务器200包括:至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Me mory),易失性存储器可以是随机存取存储器(RAM,Random Access Memor y)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块253,用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块254,用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的资源调度装置可以采用软件方式实现,图2示出了存储在存储器250中的资源调度装置255,其可以是程序和插件等形式的软件,包括以下软件模块:资源量获取模块2551、资源选择模块2552、模型训练模块2553、策略注册模块2554、策略存储模块2555、调度结束模块2556和资源更新模块2557,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的资源调度装置可以采用硬件方式实现,作为示例,本申请实施例提供的资源调度装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的资源调度方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD,Progra mmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmabl e Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
下面,将结合本申请实施例提供的服务器的示例性应用和实施,说明本申请实施例提供的资源调度方法。
参见图3,图3是本申请实施例提供的资源调度方法的一个可选的流程示意图,将结合图3示出的步骤进行说明。
S301、响应于网络模型的训练任务请求,从缓存装置所缓存的计算设备资源信息中,获取满足资源需求规格的空闲设备资源所对应的空闲设备资源量。
在本申请实施例中,当用户针对网络模型下发针对网络模型的训练需求时,服务器也就接收到了网络模型的训练任务请求,也就是说,训练任务请求为请求针对网络模型执行训练任务的请求。这里,训练任务请求包括资源需求规格,此时,服务器响应于该训练任务请求,读取缓存装置所缓存的计算设备资源信息,并从该计算设备资源信息中获取满足资源需求规格的空闲设备资源的数量,也就得到了空闲设备资源量,易知,空闲设备资源量表征了空闲计算设备的可供应量。
这里,服务器从缓存装置所缓存的计算设备资源信息中,获取满足资源需求规格的空闲设备资源所对应的空闲设备资源量的过程,即资源匹配(又称为调度匹配)的过程中的资源筛选。
需要说明的是,网络模型为人工智能中用于执行预测任务的模型,比如,强化学习网络模型、神经网络模型等;缓存装置为读取速度介于非易失性存储装置和CPU(centralprocessing unit,中央处理器)之间的易失性存储装置,比如,高速缓冲存储器(cache),高速缓存存储器与其他缓存的组合装置等;计算设备资源信息为计算设备的使用状态信息(比如,使用中或空闲),其中,计算设备为训练网络模型时所采用的设备;资源需求规格为训练需求对应的计算设备的规格,是训练网络模型的必要条件,比如,5个4卡GPU(GraphicsProcessing Unit,图形处理器),3个64位CPU等;空闲设备资源为可被调度且满足资源需求规格的计算设备,其中,满足资源需求规格为计算设备的规格超过需求的计算设备的规格,或者和需求的计算设备的规格相同。
S302、当空闲设备资源量不低于设备资源需求量时,从空闲设备资源中选择出设备资源需求量的设备资源,作为目标设备资源。
在本申请实施例中,训练任务请求中还包括设备资源需求量,该设备资源需求量为训练网络模型所需要的计算设备的数量,比如,用于需要5个4卡G PU训练网络模型时,设备资源需求量为5个;从而,当服务器获得了空闲设备资源量之后,通过比较空闲设备资源量和设备资源需求量,就完成了资源量匹配,其中,资源量匹配结果即空闲设备资源量和设备资源需求量的比较结果。当比较结果为空闲设备资源量不低于设备资源需求量时,表明空闲设备资源能够满足训练需求,从而继续进行资源调度流程,基于空闲设备资源进行资源调度(又称为资源交付)。
需要说明的是,服务器可以从空闲设备资源中任意选择出设备资源需求量的设备资源作为目标设备资源,也可以从空闲设备资源中选择出设备资源需求量的且与资源需求规格最接近的设备资源作为目标设备资源,又可以从空闲设备中选出设备资源需求量的且最能够满足资源需求规格(远远高于或最高于资源需求规格)的设备资源作为目标设备资源,还可以再结合其他筛选条件(比如,型号、镜像、机房亲和性和通信功能等)从空闲设备资源中选择出设备资源需求量的设备资源作为目标设备资源,等等,本申请实施例对此不作具体限定。
还需要说明的是,本申请实施例中提到的资源或设备资源均指计算设备。
S303、基于目标设备资源,针对网络模型执行训练任务请求所请求执行的训练任务。
需要说明的是,目标设备资源为调度出的用于训练网络模型的计算设备,从而,服务器获得了目标设备资源之后,就能够基于目标设备资源针对网络模型执行训练任务请求所请求执行的训练任务了,以训练网络模型。
可以理解的是,本申请实施例通过在缓存装置中缓存资源信息,使得在响应网络模型的训练任务请求时,通过访问缓存装置就能够实现目标设备资源的确定;又由于缓存装置的访问效率较高,因此,能够快速确定用于训练网络模型的目标设备资源;从而,能够提升设备资源的调度效率,提升网络模型的训练效率。
参见图4,图4是本申请实施例提供的资源调度方法的另一个可选的流程示意图;如图4所示,在本申请实施例中,S301之前还包括S304;也就是说,服务器响应于网络模型的训练任务请求之前,该资源调度方法还包括S304,下面对该步骤进行说明。
S304、响应于资源策略注册请求,获取自定义资源策略,生成包括自定义资源策略的训练任务请求。
在本申请实施例中,用户在下发训练需求时,可以定制目标设备资源的选择条件;在用户定制设备资源的选择条件时,服务器也就接收到了资源策略注册请求,该资源策略注册请求为请求注册设备资源的选择条件的请求;此时,服务器响应于资源策略注册请求,从该资源策略注册请求中获取自定义资源策略,或者基于该资源策略注册请求的指示从已存储的资源策略中获取自定义资源策略,并将自定义资源策略携带在训练任务请求中;从而,本申请实施例中的训练任务请求包括自定义资源策略、资源需求规格和设备资源需求量。
需要说明的是,自定义资源策略为设备资源的选择条件,且自定义资源策略包括镜像优先策略、机房亲和性优先策略、网络通信优先策略和基础信息优先策略中的至少一种。其中,镜像优先策略为包括需求镜像的设备资源具有最高优先级的策略,即优先选择存储有用于训练网络模型的镜像的设备资源作为目标设备资源;机房亲和性优先策略为同机房的设备资源具有最高优先级的策略,即优先选择位于同机房的设备资源作为目标设备资源;网络通信优先策略为具有网络通信功能的设备资源具有最高优先级的策略,即优先选择支持网络通信功能的设备资源作为目标设备资源,这里,网络通信功能包括虚拟网络通信功能和/或物理地址(IP(Internet Protocol,网际互连协议))网络通信功能,虚拟网络通信功能对应于局域网,物理地址网络通信功能可实现广域网中的网络通信;基础信息优先策略为满足基础信息(比如,型号、投入使用时间等)筛选条件的设备资源具有最高优先级的策略,即优先选择符合基础信息筛选条件的设备资源作为目标设备资源。
继续参见图4,相应地,在本申请实施例中,S302中服务器从空闲设备资源中选择出设备资源需求量的设备资源,作为目标设备资源,包括S3021和S3022,下面对各步骤分别进行说明。
S3021、基于设备资源需求量,从空闲设备资源中,选择出与自定义资源策略适配的适配设备资源。
需要说明的是,在训练任务请求中还包括自定义资源策略,从而,服务器结合设备资源需求量和自定义资源策略从空闲设备资源中选择目标设备资源。这里,适配设备资源指服务器从空闲设备资源中选择出的满足设备资源的选择条件(自定义资源策略)的设备资源,且适配设备资源中设备资源的数量不大于设备资源需求量。
在本申请实施例中,当自定义资源策略包括镜像优先策略时;S3021可通过S30211和S30212实现;也就是说,服务器基于设备资源需求量,从空闲设备资源中,选择出与自定义资源策略适配的适配设备资源,包括S30211和S30212,下面对各步骤分别进行说明。
S30211、从镜像优先策略中获取镜像标识。
需要说明的是,镜像优先策略中包括用于训练网络模型采用的镜像的标识,从而,服务器能够从镜像优先策略中获取到镜像标识。
S30212、基于设备资源需求量,从空闲设备资源中,选择出包括镜像标识对应的目标镜像的设备资源,作为适配设备资源。
需要说明的是,空闲设备资源中包括存储了用于训练网络模型采用的镜像的设备资源,从而,服务器获得了镜像标识之后,优先从空闲设备资源中选择不超过设备资源需求量的且存储了用于训练网络模型的镜像的设备资源作为适配设备资源。
S3022、当适配设备资源对应的适配设备资源量等于设备资源需求量时,获得包括适配设备资源的目标设备资源。
需要说明的是,由于适配设备资源中设备资源的数量不大于设备资源需求量,其中,适配设备资源中设备资源的数量即适配设备资源量;从而,当适配设备资源对应的适配设备资源量等于设备资源需求量时,表明已选择出了满足设备资源的选择条件的设备资源需求量的设备资源,此时,适配设备资源即目标设备资源。
可以理解的是,本申请实施例通过提供设备资源的选择条件的定制化,获取自定义资源策略,并基于自定义资源策略针对性地获得用于训练网络模型的目标设备资源,提升了资源调度的针对性和准确性,使得资源调度的过程与用户的需求契合较好,能够实现训练需求的精准满足,提升了资源调度效果。
继续参见图4,在本申请实施例中,S3021之后,该资源调度方法还包括S3023-S3025;也就是说,服务器基于设备资源需求量,从空闲设备资源中,选择出与自定义资源策略适配的适配设备资源之后,方法还包括S3023-S3025,下面对各步骤分别进行说明。
S3023、当适配设备资源对应的适配设备资源量低于设备资源需求量时,获取设备资源需求量与适配设备资源量之间的差量。
需要说明的是,当适配设备资源对应的适配设备资源量小于设备资源需求量时,表明适配设备资源的数量未达到设备资源需求量;从而,服务器计算设备资源需求量与适配设备资源量之间的差量,以基于该差量进一步进行设备资源的选择,以使得选择出的设备资源能够达到设备资源需求量。
S3024、从剩余设备资源中,选择出差量的设备资源。
在本申请实施例中,服务器获得了差量之后,再选择出差量的设备资源也就使得选择出的设备资源能够达到设备资源需求量了。这里,服务器选择出差量的设备资源的剩余设备资源,为空闲设备资源中除适配设备资源外的设备资源。
S3025、获取包括适配设备资源和差量的设备资源的目标设备资源。
需要说明的是,服务器将适配设备资源和差量的设备资源组合,也就得到了目标设备资源。
在本申请实施例中,S3024之后还包括S3026;也就是说,服务器从剩余设备资源中,选择出差量的设备资源之后,该资源调度方法还包括S3026,下面对该步骤进行说明。
S3026、针对差量的设备资源,显示资源待确认信息。
需要说明的是,由于差量的设备资源是不满足自定义资源策略的,因此,服务器针对差量的设备资源,显示资源待确认信息,以根据针对资源待确认信息的操作确定后续资源调度的处理是继续还是结束。其中,资源待确认信息为差量的设备资源是不满足自定义资源策略的设备资源的信息。
相应地,在本申请实施例中,S3025可通过S30251实现;也就是说,服务器获取包括适配设备资源和差量的设备资源的目标设备资源,包括S30251,下面对该步骤进行说明。
S30251、响应于针对资源待确认信息的确认操作,获取包括适配设备资源和差量的设备资源的目标设备资源。
需要说明的是,当用户针对显示的资源待确认信息触发了同意调度差量的设备资源的处理时,服务器也就接收到了针对资源待确认信息的确认操作;从而,服务器响应于该确认操作,将适配设备资源和差量的设备资源组合为目标设备资源。
这里,当用户针对显示的资源待确认信息触发了不同意调度差量的设备资源的处理时,服务器也就接收到了针对资源待确认信息的拒绝操作;从而,服务器响应于该拒绝操作,结束资源调度处理流程。
在本申请实施例中,S304中服务器获取自定义资源策略之后,该资源调度方法还包括S305和S306,下面对各部分别进行说明:
S305、将自定义资源策略存储至非易失性存储装置中。
需要说明的是,服务器获得了自定义资源策略之后,将该自定义资源策略存储至非易失性存储装置(比如,数据库、磁盘等)中,以实现自定义资源策略的管控和共享。
S306、响应于新的资源策略注册请求,复用自定义资源策略,生成包括自定义资源策略的新的训练任务请求。
需要说明的是,服务器再次接收到其他用户的定制化目标设备资源的选择条件的请求,即新的资源策略注册请求时,如果其他用户同样是订制自定义资源策略,则服务器响应于新的资源策略注册请求,复用自定义资源策略,并生成包括自定义资源策略的新的训练任务请求。
可以理解的是,本申请实施例通过对自定义资源策略的存储,能够统一管控、执行共享后,可实现正向的共享叠加效应。
参见图5,图5是本申请实施例提供的资源调度方法的又一个可选的流程示意图;如图5所示,在本申请实施例中,S301之后还包括S307;也就是说,服务器从缓存装置所缓存的计算设备资源信息中,获取满足资源需求规格的空闲设备资源所对应的空闲设备资源量之后,该资源调度方法还包括S307,下面对该步骤进行说明。
S307、当空闲设备资源量低于设备资源需求量时,结束资源调度流程,并显示资源不足提示信息。
需要说明的是,服务器比较空闲设备资源量和设备资源需求量之后,如果确定空闲设备资源量低于设备资源需求量,则表明空闲设备资源不能够满足训练需求,从而结束资源调度流程,并显示资源不足提示信息以通知用户。
可以理解的是,本申请实施例通过读取缓存装置就能够快速确定无法满足训练需求,从而,能够实时返回用户资源不足的提示信息,避免了用户等待,减少了资源调度的耗时。
参见图6,图6是本申请实施例提供的资源调度方法的再一个可选的流程示意图;如图6所示,在本申请实施例中,S302中服务器从空闲设备资源中选择出设备资源需求量的设备资源,作为目标设备资源之后,该资源调度方法还包括S308-S310,下面对各步骤分别进行说明。
S308、生成目标设备资源的资源更新信息。
需要说明的是,服务器确定了目标设备资源之后,也就确定了目标设备资源为已被使用的设备资源,从而,需要改变目标设备资源的使用状态;因此,服务器获取到了目标设备资源之后,生成目标设备资源的资源更新信息,以根据资源更新信息更新目标设备资源的使用状态。
S309、基于资源更新信息更新非易失性存储装置中的目标设备资源的使用状态,以生成资源更新事件。
需要说明的是,服务器基于资源更新信息将非易失性存储装置中的目标设备资源的使用状态由空闲更新为使用中,并生成资源更新事件。这里,资源更新事件是指触发缓存装置中的计算设备资源信息更新的事件。
S310、响应于资源更新事件,更新计算设备资源信息,以基于更新后的计算设备资源信息确定执行任务的资源。
需要说明的是,服务器响应于资源更新事件,触发缓存装置中所缓存的计算设备资源信息中目标设备资源的使用状态,完成更新后,也就得到了更新后的计算设备资源信息;进而,基于更新后的计算设备资源信息确定执行任务的资源。
在本申请实施例中,S302中服务器从空闲设备资源中选择出设备资源需求量的设备资源,作为目标设备资源之后,该资源调度方法还包括:服务器生成目标设备资源的资源释放信息;基于资源释放信息更新非易失性存储装置中目标设备资源的使用状态,以生成资源释放事件;响应于资源释放事件,更新更新后的计算设备资源信息,得到最新计算设备资源信息,以基于最新计算设备资源信息确定执行下一新的训练任务的设备资源。
需要说明的是,可以在非易失性存储装置中设置用于记录设备资源的变动的数据,当该记录设备资源的变动的数据发生变化时,则将变化过程中所涉及的设备资源的更新信息均同步至缓存装置中。
可以理解的是,本申请实施例通过监控非易失性存储装置中设备资源的使用状态的变化,实时更新缓存装置中的计算设备资源信息,使得缓存装置中所缓存的计算设备资源信息具备实时性,提升了资源匹配的准确度;从而,提升了资源调度的准确度。
在本申请实施例中,S303之后还包括S311;也就是说,服务器基于目标设备资源,针对网络模型执行训练任务请求所请求执行的训练任务之后,该资源调度方法还包括S311,下面对该步骤进行说明。
S311、获取执行训练任务所得到的训练后的网络模型,以基于训练后的网络模型对待检测图像进行图像检测,并基于图像检测结果确定处理信息。
需要说明的是,待检测图像包括监控图像和虚拟场景的渲染图像中的至少一种;当训练后的网络模型用于检测监控图像中待监控目标的位置时,处理信息为待监控目标(比如,车辆、生物体等)的活动轨迹的显示信息,以实现目标追踪;当训练后的网络模型用于检测渲染图像中的虚拟目标(虚拟对象和/或虚拟道具)时,处理信息为针对虚拟目标执行交互操作的指令,以实现游戏AI。
还需要说明的是,本申请实施例提供的资源调度方法可以应用于任何需要训练网络模型的应用场景中,上述的目标追踪场景和游戏AI场景仅是资源调度方法在实际应用场景的应用举例。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
参见图7,图7是本申请实施例提供的一种示例性的资源调度架构图;如图7所示,当计算设备为GPU设备,在训练用于游戏AI的网络模型的应用场景中,该资源调度架构7-1包括缓存层7-11和生产层7-12。这里,在缓存层7-11中,包括资源信息缓存7-111(计算设备资源信息)、资源筛选模块7-112和资源量匹配模块7-113,其中:
资源信息缓存7-111,指缓存“cache”(缓存装置)中所缓存的GPU设备的信息;
资源筛选模块7-112,用于资源筛选的处理,具体为筛选满足用户资源需求规格的设备资源,组成设备列表(空闲设备资源);比如,用户需求(网络模型的训练任务请求)5个4卡的GPU算力的设备,资源筛选模块7-112则筛选出大于等于4卡的GPU算力的空闲设备组成设备列表。还用于在通过资源量匹配模块7-113确定满足需求量(空闲设备资源量不低于设备资源需求量)时,向生产层7-12下发设备列表以进行资源交互处理。
资源量匹配模块7-113,用于资源量匹配的处理,具体为将资源筛选模块7-112获得的设备列表中资源设备的数量(空闲设备资源量),与用户需求的资源需求量(设备资源需求量)对比,判断是否满足需求量;并在不满足需求量(空闲设备资源量低于设备资源需求量)时,返回资源不足提示信息,比如,“not enough resource”;而在满足需求量时,通过资源筛选模块7-112向生产层7-12下发设备列表。
在生产层7-12中,包括资源生产模块7-121、用户定制策略7-122(自定义资源策略)和数据库7-123(非易失性存储装置),其中:
资源生产模块7-121,用于进行资源交付处理,基于用户定制策略对资源筛选模块7-112下发的设备列表中筛选待交付的资源设备(目标资源设备);这里,当用户需求5个4卡的GPU算力的设备,资源生产模块7-121从设备列表中筛选出了4个符合用户定制策略7-122的资源设备(适配设备资源)时,资源生产模块7-121则继续从设备列表中选择1个不符合用户定制策略7-122的资源设备(差量的设备资源)进行资源生产,并将该信息返回用户。
用户定制策略7-122,即用户可配置的资源生产策略,比如,镜像优先策略、机房亲和性优先策略和网络通信优先策略等中的一种或多种;其中,镜像优先策略,即优先选择保存用户需求镜像的资源设备,这里,当用户执行网络模型的AI训练任务时,下发训练需求,该训练需求中携带需求的镜像名,基于该镜像名确定保存了对应镜像的资源设备;机房亲和性优先策略,即优先选择同机房的资源设备,当用户采用多个GPU卡的多个资源设备进行执行网络模型的A I训练任务时,通常采用机房亲和性优先策略;网络通信优先策略,即优先选择支持虚拟网络通信和物理地址网络通信的资源设备;
数据库7-123,用于基于资源生产模块7-121筛选的待交付的资源设备进行数据更新,并将数据更新同步至资源信息缓存7-111中,实现缓存“cache”的实时更新;也就是说,资源生产过程中资源量变动的实时信息均会写入数据库7-123中进行永久存储,并且,实时信息的写入会触发资源更新事件,以基于该资源更新事件更新缓存“cache”中的缓存数据(资源信息缓存7-111)。
下面继续说明缓存“cache”的更新步骤;参见图8,图8是本申请实施例提供的一种示例性的更新缓存的计算设备资源信息的流程示意图;如图8所示,该示例性的更新缓存的计算设备资源信息的流程包括如下步骤:
S801、开始;开始更新缓存的计算设备资源信息的流程;
S802、监控资源更新事件;即监控数据库7-123中是否因资源变动更新了数据;
S803、判断是否监控到了资源更新事件;若是(比如,DB数据库中的数据“version1”更新成“version2”),则执行S804;若否,则继续执行S802;
S804、读取数据库资源设备的更新数据;即读取数据库7-123,比如,读取数据“version1”更新成“version2”对应的时间段内容的资源变动信息;
S805、判断更新数据是否读取成功;若时,则执行S806;若否,则执行S804;
S806、根据读取到的更新数据更新缓存。
S807、结束;结束更新缓存的计算设备资源信息的流程。
下面说明用户定制策略7-122的注册步骤;参见图9,图9是本申请实施例提供的一种示例性的获取自定义资源策略的流程示意图;如图9所示,该示例性的获取自定义资源策略的流程包括如下步骤:
S901、开始;开始资源调度流程。
S902、注册用户定制策略;即设置用户定制策略7-122;
S903、判断用户定制策略是否注册成功;若是,则执行S904;若否,则执行S902;
S904、下发携带用户定制策略的训练需求;
S905、判断训练需求是否下发成功;若是,则执行S906;若否,则执行S904;
S906、资源调度;即利用资源筛选模块7-112、资源量匹配模块7-113和资源生产模块7-121实现资源调度;
S907、结束;结束资源调度流程。
可以理解的是,在针对网络模型进行AI训练的过程中,需要不断的更新迭代,支撑训练的GPU设备等计算设备资源也要快速的交付;而且不同场景下的训练,为验证各自的效果,需要在资源层满足定制化的调度策略;本申请实施例通过分层进行资源调度,并通过cache层快速响应用户需求,且资源调度中能够满足用户定制化需求,能够提供快速、精准的资源交付,提升了AI训练的效率、针对性和效果。
下面继续说明本申请实施例提供的资源调度装置255的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器250的资源调度装置255中的软件模块可以包括:
资源量获取模块2551,用于响应于网络模型的训练任务请求,从缓存装置所缓存的计算设备资源信息中,获取满足资源需求规格的空闲设备资源所对应的空闲设备资源量,其中,所述训练任务请求包括所述资源需求规格和设备资源需求量;
资源选择模块2552,用于当所述空闲设备资源量不低于所述设备资源需求量时,从所述空闲设备资源中选择出所述设备资源需求量的设备资源,作为目标设备资源;
模型训练模块2553,用于基于所述目标设备资源,针对所述网络模型执行所述训练任务请求所请求执行的训练任务。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的资源调度方法。
在本申请实施例中,所述资源调度装置255还包括策略注册模块2554,用于响应于资源策略注册请求,获取自定义资源策略,生成包括所述自定义资源策略的所述训练任务请求。
在本申请实施例中,所述资源选择模块2552,还用于基于所述设备资源需求量,从所述空闲设备资源中,选择出与所述自定义资源策略适配的适配设备资源;当所述适配设备资源对应的适配设备资源量等于所述设备资源需求量时,获得包括所述适配设备资源的所述目标设备资源。
在本申请实施例中,所述资源选择模块2552,还用于当所述适配设备资源对应的适配设备资源量低于所述设备资源需求量时,获取所述设备资源需求量与所述适配设备资源量之间的差量;从剩余设备资源中,选择出所述差量的设备资源,其中,所述剩余设备资源为所述空闲设备资源中除所述适配设备资源外的设备资源;获取包括所述适配设备资源和所述差量的设备资源的所述目标设备资源。
在本申请实施例中,所述资源选择模块2552,还用于针对所述差量的设备资源,显示资源待确认信息,其中,所述资源待确认信息为所述差量的设备资源是不满足所述自定义资源策略的设备资源的信息。
在本申请实施例中,所述资源选择模块2552,还用于响应于针对所述资源待确认信息的确认操作,获取包括所述适配设备资源和所述差量的设备资源的所述目标设备资源。
在本申请实施例中,所述资源调度装置255还包括策略存储模块2555,用于将所述自定义资源策略存储至非易失性存储装置中;响应于新的资源策略注册请求,复用所述自定义资源策略,生成包括所述自定义资源策略的新的训练任务请求。
在本申请实施例中,所述自定义资源策略包括镜像优先策略、机房亲和性优先策略、网络通信优先策略和基础信息优先策略中的至少一种,其中,所述镜像优先策略为包括需求镜像的设备资源具有最高优先级的策略,所述机房亲和性优先策略为同机房的设备资源具有最高优先级的策略,所述网络通信优先策略为具有网络通信功能的设备资源具有最高优先级的策略,所述基础信息优先策略为具有基础信息的设备资源具有最高优先级的策略。
在本申请实施例中,当所述自定义资源策略包括所述镜像优先策略时;所述资源选择模块2552,还用于从所述镜像优先策略中获取镜像标识;基于所述设备资源需求量,从所述空闲设备资源中,选择出包括所述镜像标识对应的目标镜像的设备资源,作为所述适配设备资源。
在本申请实施例中,所述资源调度装置255还包括调度结束模块2556,用于当所述空闲设备资源量低于所述设备资源需求量时,结束资源调度流程,并显示资源不足提示信息。
在本申请实施例中,所述资源调度装置255还包括资源更新模块2557,用于生成所述目标设备资源的资源更新信息;基于所述资源更新信息更新非易失性存储装置中所述目标设备资源的使用状态,以生成资源更新事件;响应于所述资源更新事件,更新所述计算设备资源信息,以基于更新后的计算设备资源信息确定执行新的训练任务的设备资源。
在本申请实施例中,所述资源调度装置255还包括模型应用模块2558,用于获取执行所述训练任务所得到的训练后的网络模型,以基于所述训练后的网络模型对待检测图像进行图像检测,并基于图像检测结果确定处理信息;其中,所述待检测图像包括监控图像和虚拟场景的渲染图像中的至少一种,当所述待检测图像为所述监控图像时,所述处理信息为待监控目标的活动轨迹的显示信息,当所述待检测图像为所述渲染图像时,所述处理信息为针对所述渲染图像中的虚拟目标执行交互操作的指令中的至少一种。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的资源调度方法,例如,如图3示出的资源调度方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(H TML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,本申请实施例通过在缓存装置中缓存资源信息,使得在响应网络模型的训练任务请求时,通过访问缓存装置就能够实现目标设备资源的确定;又由于缓存装置的访问效率较高,因此,能够快速确定用于训练网络模型的目标设备资源;从而,能够提升设备资源的处理效率,提升网络模型的训练效率;另外,还实现了针对性的资源调度。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (13)

1.一种资源调度方法,其特征在于,包括:
响应于网络模型的训练任务请求,从缓存装置所缓存的计算设备资源信息中,获取满足资源需求规格的空闲设备资源所对应的空闲设备资源量,其中,所述训练任务请求包括所述资源需求规格和设备资源需求量;
当所述空闲设备资源量不低于所述设备资源需求量时,从所述空闲设备资源中选择出所述设备资源需求量的设备资源,作为目标设备资源;
基于所述目标设备资源,针对所述网络模型执行所述训练任务请求所请求执行的训练任务。
2.根据权利要求1所述的方法,其特征在于,所述从所述空闲设备资源中选择出所述设备资源需求量的设备资源,作为目标设备资源之后,所述方法还包括:
生成所述目标设备资源的资源更新信息;
基于所述资源更新信息更新非易失性存储装置中所述目标设备资源的使用状态,以生成资源更新事件;
响应于所述资源更新事件,更新所述计算设备资源信息,以基于更新后的计算设备资源信息确定执行新的训练任务的设备资源。
3.根据权利要求1所述的方法,其特征在于,所述响应于网络模型的训练任务请求之前,所述方法还包括:
响应于资源策略注册请求,获取自定义资源策略,生成包括所述自定义资源策略的所述训练任务请求;
所述从所述空闲设备资源中选择出所述设备资源需求量的设备资源,作为目标设备资源,包括:
基于所述设备资源需求量,从所述空闲设备资源中,选择出与所述自定义资源策略适配的适配设备资源;
当所述适配设备资源对应的适配设备资源量等于所述设备资源需求量时,获得包括所述适配设备资源的所述目标设备资源。
4.根据权利要求3所述的方法,其特征在于,所述基于所述设备资源需求量,从所述空闲设备资源中,选择出与所述自定义资源策略适配的适配设备资源之后,所述方法还包括:
当所述适配设备资源对应的适配设备资源量低于所述设备资源需求量时,获取所述设备资源需求量与所述适配设备资源量之间的差量;
从剩余设备资源中,选择出所述差量的设备资源,其中,所述剩余设备资源为所述空闲设备资源中除所述适配设备资源外的设备资源;
获取包括所述适配设备资源和所述差量的设备资源的所述目标设备资源。
5.根据权利要求4所述的方法,其特征在于,所述从剩余设备资源中,选择出所述差量的设备资源之后,所述方法还包括:
针对所述差量的设备资源,显示资源待确认信息,其中,所述资源待确认信息为所述差量的设备资源是不满足所述自定义资源策略的设备资源的信息;
所述获取包括所述适配设备资源和所述差量的设备资源的所述目标设备资源,包括:
响应于针对所述资源待确认信息的确认操作,获取包括所述适配设备资源和所述差量的设备资源的所述目标设备资源。
6.根据权利要求3至5任一项所述的方法,其特征在于,所述获取自定义资源策略之后,所述方法还包括:
将所述自定义资源策略存储至非易失性存储装置中;
响应于新的资源策略注册请求,复用所述自定义资源策略,生成包括所述自定义资源策略的新的训练任务请求。
7.根据权利要求3至5任一项所述的方法,其特征在于,所述自定义资源策略包括镜像优先策略、机房亲和性优先策略、网络通信优先策略和基础信息优先策略中的至少一种,其中,
所述镜像优先策略为包括需求镜像的设备资源具有最高优先级的策略,所述机房亲和性优先策略为同机房的设备资源具有最高优先级的策略,所述网络通信优先策略为具有网络通信功能的设备资源具有最高优先级的策略,所述基础信息优先策略为具有基础信息的设备资源具有最高优先级的策略。
8.根据权利要求7所述的方法,其特征在于,当所述自定义资源策略包括所述镜像优先策略时;
所述基于所述设备资源需求量,从所述空闲设备资源中,选择出与所述自定义资源策略适配的适配设备资源,包括:
从所述镜像优先策略中获取镜像标识;
基于所述设备资源需求量,从所述空闲设备资源中,选择出包括所述镜像标识对应的目标镜像的设备资源,作为所述适配设备资源。
9.根据权利要求1至5任一项所述的方法,其特征在于,所述从缓存装置所缓存的计算设备资源信息中,获取满足资源需求规格的空闲设备资源所对应的空闲设备资源量之后,所述方法还包括:
当所述空闲设备资源量低于所述设备资源需求量时,结束资源调度流程,并显示资源不足提示信息。
10.根据权利要求1至5任一项所述的方法,其特征在于,所述基于所述目标设备资源,针对所述网络模型执行所述训练任务请求所请求执行的训练任务之后,所述方法还包括:
获取执行所述训练任务所得到的训练后的网络模型,以基于所述训练后的网络模型对待检测图像进行图像检测,并基于图像检测结果确定处理信息;
其中,所述待检测图像包括监控图像和虚拟场景的渲染图像中的至少一种,当所述待检测图像为所述监控图像时,所述处理信息为待监控目标的活动轨迹的显示信息,当所述待检测图像为所述渲染图像时,所述处理信息为针对所述渲染图像中的虚拟目标执行交互操作的指令中的至少一种。
11.一种资源调度装置,其特征在于,包括:
资源量获取模块,用于响应于网络模型的训练任务请求,从缓存装置所缓存的计算设备资源信息中,获取满足资源需求规格的空闲设备资源所对应的空闲设备资源量,其中,所述训练任务请求包括所述资源需求规格和设备资源需求量;
资源选择模块,用于当所述空闲设备资源量不低于所述设备资源需求量时,从所述空闲设备资源中选择出所述设备资源需求量的设备资源,作为目标设备资源;
模型训练模块,用于基于所述目标设备资源,针对所述网络模型执行所述训练任务请求所请求执行的训练任务。
12.一种资源调度设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至10任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至10任一项所述的方法。
CN202011410728.3A 2020-12-03 2020-12-03 一种资源调度方法、装置、设备及计算机可读存储介质 Active CN112416599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011410728.3A CN112416599B (zh) 2020-12-03 2020-12-03 一种资源调度方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011410728.3A CN112416599B (zh) 2020-12-03 2020-12-03 一种资源调度方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112416599A true CN112416599A (zh) 2021-02-26
CN112416599B CN112416599B (zh) 2023-03-24

Family

ID=74829299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011410728.3A Active CN112416599B (zh) 2020-12-03 2020-12-03 一种资源调度方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112416599B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032117A (zh) * 2021-03-10 2021-06-25 北京百度网讯科技有限公司 深度学习框架的训练方法、装置及存储介质
CN113448728A (zh) * 2021-06-22 2021-09-28 腾讯科技(深圳)有限公司 一种云资源调度方法、装置、设备及存储介质
CN113742059A (zh) * 2021-07-15 2021-12-03 上海朋熙半导体有限公司 任务分配方法、装置、计算机设备和存储介质
CN114244903A (zh) * 2021-11-01 2022-03-25 网宿科技股份有限公司 资源调度方法、系统、服务器及存储介质
CN115081628A (zh) * 2022-08-15 2022-09-20 浙江大华技术股份有限公司 一种深度学习模型适配度的确定方法及装置
CN115550367A (zh) * 2022-11-30 2022-12-30 成都中星世通电子科技有限公司 基于分布式任务管理和资源调度的无线电监测方法及系统
CN116483546A (zh) * 2023-06-21 2023-07-25 苏州浪潮智能科技有限公司 分布式训练任务调度方法、装置、设备及存储介质
CN117170879A (zh) * 2023-11-01 2023-12-05 之江实验室 面向智能芯片的设备管理装置和方法
CN117236563A (zh) * 2023-10-20 2023-12-15 揭阳前詹风电有限公司 一种海上风电建设过程应急指挥调度方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010170433A (ja) * 2009-01-23 2010-08-05 Nec Corp 資源情報管理サーバ、資源情報管理システム、資源情報管理方法および資源情報管理プログラム
CN103458052A (zh) * 2013-09-16 2013-12-18 北京搜狐新媒体信息技术有限公司 一种基于IaaS云平台的资源调度方法和装置
CN106875424A (zh) * 2017-01-16 2017-06-20 西北工业大学 一种基于机器视觉的城市环境行驶车辆行为识别方法
US20180321975A1 (en) * 2017-05-04 2018-11-08 Salesforce.Com, Inc. Systems, methods, and apparatuses for implementing a stateless, deterministic scheduler and work discovery system with interruption recovery
CN109101217A (zh) * 2013-03-15 2018-12-28 先进元素科技公司 用于有目的计算的方法和系统
US20220035670A1 (en) * 2018-10-02 2022-02-03 Siemens Aktiengesellschaft Orchestration of containerized applications
CN114090623A (zh) * 2021-12-08 2022-02-25 云知声智能科技股份有限公司 一种缓存资源的创建方法、装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010170433A (ja) * 2009-01-23 2010-08-05 Nec Corp 資源情報管理サーバ、資源情報管理システム、資源情報管理方法および資源情報管理プログラム
CN109101217A (zh) * 2013-03-15 2018-12-28 先进元素科技公司 用于有目的计算的方法和系统
CN103458052A (zh) * 2013-09-16 2013-12-18 北京搜狐新媒体信息技术有限公司 一种基于IaaS云平台的资源调度方法和装置
CN106875424A (zh) * 2017-01-16 2017-06-20 西北工业大学 一种基于机器视觉的城市环境行驶车辆行为识别方法
US20180321975A1 (en) * 2017-05-04 2018-11-08 Salesforce.Com, Inc. Systems, methods, and apparatuses for implementing a stateless, deterministic scheduler and work discovery system with interruption recovery
US20220035670A1 (en) * 2018-10-02 2022-02-03 Siemens Aktiengesellschaft Orchestration of containerized applications
CN114090623A (zh) * 2021-12-08 2022-02-25 云知声智能科技股份有限公司 一种缓存资源的创建方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
尚康禹: "LTE移动通信网络内容热度预测及基站缓存策略研究", 《中国科学院大学硕士学位论文》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032117A (zh) * 2021-03-10 2021-06-25 北京百度网讯科技有限公司 深度学习框架的训练方法、装置及存储介质
CN113448728A (zh) * 2021-06-22 2021-09-28 腾讯科技(深圳)有限公司 一种云资源调度方法、装置、设备及存储介质
CN113742059B (zh) * 2021-07-15 2024-03-29 上海朋熙半导体有限公司 任务分配方法、装置、计算机设备和存储介质
CN113742059A (zh) * 2021-07-15 2021-12-03 上海朋熙半导体有限公司 任务分配方法、装置、计算机设备和存储介质
CN114244903A (zh) * 2021-11-01 2022-03-25 网宿科技股份有限公司 资源调度方法、系统、服务器及存储介质
CN114244903B (zh) * 2021-11-01 2024-05-28 网宿科技股份有限公司 资源调度方法、系统、服务器及存储介质
CN115081628A (zh) * 2022-08-15 2022-09-20 浙江大华技术股份有限公司 一种深度学习模型适配度的确定方法及装置
CN115550367B (zh) * 2022-11-30 2023-03-07 成都中星世通电子科技有限公司 基于分布式任务管理和资源调度的无线电监测方法及系统
CN115550367A (zh) * 2022-11-30 2022-12-30 成都中星世通电子科技有限公司 基于分布式任务管理和资源调度的无线电监测方法及系统
CN116483546B (zh) * 2023-06-21 2023-09-05 苏州浪潮智能科技有限公司 分布式训练任务调度方法、装置、设备及存储介质
CN116483546A (zh) * 2023-06-21 2023-07-25 苏州浪潮智能科技有限公司 分布式训练任务调度方法、装置、设备及存储介质
CN117236563A (zh) * 2023-10-20 2023-12-15 揭阳前詹风电有限公司 一种海上风电建设过程应急指挥调度方法及系统
CN117170879A (zh) * 2023-11-01 2023-12-05 之江实验室 面向智能芯片的设备管理装置和方法
CN117170879B (zh) * 2023-11-01 2024-03-12 之江实验室 面向智能芯片的设备管理装置和方法

Also Published As

Publication number Publication date
CN112416599B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN112416599B (zh) 一种资源调度方法、装置、设备及计算机可读存储介质
JP6989628B2 (ja) 将来のアクションのためのユーザインターフェースデータキャッシングの最適化
CN111406249B (zh) 用于协作处理计算任务的平台
CN111290854A (zh) 任务管理方法、装置、系统、计算机存储介质及电子设备
CN110688202B (zh) 服务进程调度方法、装置、设备及存储介质
CN103548012A (zh) 远程仿真计算设备
US10387161B2 (en) Techniques for capturing state information and performing actions for threads in a multi-threaded computing environment
CN113710336B (zh) 服务器负载预测和高级性能度量
JP2023515962A (ja) ゲームプレビュー中のビデオゲームのプロビジョニングの管理
CN116266093A (zh) 基于用户交互的内容保真度调整
US11582307B2 (en) Method and apparatus for processing data
AU2016279940A1 (en) Sensor acquisition and analytics platform for enhancing interaction with adult devices
US11810022B2 (en) Contact center call volume prediction
CN105653492B (zh) 智能书
CN116795524A (zh) 任务处理方法、装置、计算机设备、存储介质及程序产品
CA3119490A1 (en) Contact center call volume prediction
US11222152B2 (en) Interest-based distributed simulation system
KR20230116221A (ko) 인공지능 캐릭터의 발화량에 따른 수익화 방법 및 시스템
KR20230068780A (ko) 이미지 태깅 학습 방법 및 시스템
JP2023039924A (ja) 機器に搭載された多数の連合学習モデルを管理する方法、システム、およびコンピュータプログラム
KR20230120236A (ko) 인공지능 캐릭터의 레벨 평가 및 거래 방법, 및 그 시스템
CN117916712A (zh) 数字组件的动态修改
WO2021113973A1 (en) Constrained contextual bandit reinforcement learning
CN118045338A (zh) 游戏操作控制方法、装置、电子设备及计算机存储介质
WO2013043710A1 (en) Method and apparatus for awarding trophies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40038377

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant