CN114564305A - 一种分布式推理的控制方法、装置、设备及可读存储介质 - Google Patents

一种分布式推理的控制方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN114564305A
CN114564305A CN202210153121.4A CN202210153121A CN114564305A CN 114564305 A CN114564305 A CN 114564305A CN 202210153121 A CN202210153121 A CN 202210153121A CN 114564305 A CN114564305 A CN 114564305A
Authority
CN
China
Prior art keywords
inference
computing resource
sub
task
computing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210153121.4A
Other languages
English (en)
Inventor
黄宬
王彦伟
阚宏伟
樊嘉恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210153121.4A priority Critical patent/CN114564305A/zh
Publication of CN114564305A publication Critical patent/CN114564305A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5011Pool

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请适用于服务器领域,公开了一种分布式推理的控制方法、装置、设备及可读存储介质,通过采用计算资源池中的计算资源来实现分布式推理的各个推理部分,并在计算资源池的监控节点的控制下实现根据推理任务的业务需求动态生成推理网络,具体根据主机发送的推理任务的业务需求,为推理任务包括的各子推理任务分配计算资源池中的计算资源,并将计算资源提供给主机调用以完成各子推理任务,能够根据业务需求和计算节点运行情况灵活分配计算资源,子推理任务不再固定于某个计算节点,而计算节点之间也不再受限于上下级管理,能够在计算资源池中平等、灵活地接收调用,有助于实现资源合理利用和负载均衡。

Description

一种分布式推理的控制方法、装置、设备及可读存储介质
技术领域
本申请涉及服务器领域,特别是涉及一种分布式推理的控制方法、装置、设备及可读存储介质。
背景技术
分布式推理是指推理阶段采用多卡进行推理。当数据中心面对超大的模型(如:拥有2000亿个参数)推理时,无法简单地将推理任务部署在单个计算节点上,需要使用分布式推理,即在推理阶段采用多个计算节点的计算资源进行推理。分布式推理与单卡推理相比,由于推理过程被分布在了多个计算节点上,每个计算节点完成推理过程中的一个部分,相互之间独立但是又存在一些输入输出的依赖关系,故需要考虑如何部署推理网络的问题。
现有的生成推理网络的方式,主要包括静态推理网络和动态推理网络两种。其中,静态推理网络是在对各计算节点所在主机服务器进行估算后,提前将需要使用的计算资源安装部署于各主机服务器上,一旦推理模型发生变化,经常需要人工更换硬件,费时费力,且由于网络结构是静态的,每个相互依赖的计算节点都是固定的,当计算资源不平衡时,会出现大量计算节点处于闲置状态,无法实现节点负载均衡,导致资源利用效果差。而动态推理网络由计算节点之间根据节点间距离远近、自身资源情况以及自身知识库的信息情况来确定每个推理步骤的执行节点,计算节点之间通过上下级通信实现对推理任务的分配,然而这种方式在实际应用中可用性较差,各计算节点在执行任务分配时需要耗费大量时间在确定下级节点上,效率较低,且依赖于各节点间的通信可靠性,若其中一个计算节点出现故障则不仅导致推理无法进行,还有可能造成数据丢失,不仅无法完成推理任务,还会导致之前完成推理的资源被白白浪费。
提供一种高效率、高可用性的分布式推理的资源调度方法,是本领域技术人员需要解决的技术问题。
发明内容
本申请的目的是提供一种分布式推理的控制方法、装置、设备及可读存储介质,用于实现高效率、高可用性的分布式推理的资源调度。
为解决上述技术问题,本申请提供一种分布式推理的控制方法,基于计算资源池的监控节点,包括:
当接收到主机发送的推理任务时,根据所述推理任务的业务需求,为所述推理任务包括的各子推理任务分配所述计算资源池中的计算资源;
将所述计算资源的信息发送至所述主机,以使所述主机利用所述计算资源完成各所述子推理任务。
可选的,所述主机利用所述计算资源完成各所述子推理任务,具体包括:
所述主机将所述子推理任务的上下文数据发送至与所述子推理任务对应的所述计算资源所在节点;
所述计算资源所在节点在完成所述子推理任务后,将所述子推理任务的推理结果存入所述计算资源池对应的存储系统;
所述主机接收所述存储系统或所述推理任务的最后一个所述子推理任务对应的所述计算资源所在节点发送的所述推理任务的推理结果。
可选的,所述存储系统具体为分布式内存。
可选的,所述计算资源所在节点在完成所述子推理任务后将所述子推理任务的推理结果存入所述计算资源池对应的存储系统,具体包括:
当接收到所述存储系统的触发命令后,所述计算资源所在节点接收所述存储系统发送的推理上下文数据和上一级所述子推理任务得到的推理结果;
所述计算资源所在节点根据所述推理结果与自身对应的所述子推理任务完成推理运算,并将所述自身对应的所述子推理任务的推理结果存入所述存储系统。
可选的,所述计算资源池具体为异构计算资源池;
相应的,所述根据所述推理任务的业务需求,为所述推理任务包括的各子推理任务分配所述计算资源池中的计算资源,具体为:
根据所述推理任务的业务需求,为各所述子推理任务分配所述异构计算资源池中类型匹配的所述计算资源。
可选的,将所述计算资源的信息发送至所述主机,以使所述主机利用所述计算资源完成各所述子推理任务,具体包括:
在将所述计算资源的信息发送至所述主机之后,监控各所述计算资源所在节点的运行状态;
根据各所述计算资源所在节点的运行状态和所述计算资源池内其他计算节点的运行状态,更新所述计算资源;
将更新后的所述计算资源的信息发送至所述主机,以使所述主机利用更新后的所述计算资源完成剩余的所述子推理任务。
可选的,所述根据各所述计算资源所在节点的运行状态和所述计算资源池内其他计算节点的运行状态,更新所述计算资源,具体包括:
在所述计算资源所在节点执行对应的所述子推理任务时,若所述计算资源所在节点发生故障,则将故障的所述计算资源对应的所述子推理任务切换至所述计算资源池中的另一所述计算资源;
当未执行对应的所述子推理任务的所述计算资源所在节点的负载超出预设阈值时,更新未执行对应的所述子推理任务的所述计算资源以实现所述计算资源池的负载均衡。
为解决上述技术问题,本申请还提供一种分布式推理的控制装置,基于计算资源池的监控节点,包括:
分配单元,用于当接收到主机发送的推理任务时,根据所述推理任务的业务需求,为所述推理任务包括的各子推理任务分配所述计算资源池中的计算资源;
执行单元,用于将所述计算资源的信息发送至所述主机,以使所述主机利用所述计算资源完成各所述子推理任务。
为解决上述技术问题,本申请还提供一种分布式推理的控制设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,所述计算机程序被所述处理器执行时实现如上述任意一项所述分布式推理的控制方法的步骤。
为解决上述技术问题,本申请还提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述分布式推理的控制方法的步骤。
本申请所提供的分布式推理的控制方法适用于服务器领域,基于计算资源池的监控节点,包括:当接收到主机发送的推理任务时,根据推理任务的业务需求,为推理任务包括的各子推理任务分配计算资源池中的计算资源;将计算资源的信息发送至主机,以使主机利用计算资源完成各子推理任务。通过采用计算资源池中的计算资源来实现分布式推理的各个推理部分,并在计算资源池的监控节点的控制下实现根据推理任务的业务需求动态生成推理网络,能够根据业务需求和计算节点运行情况灵活分配计算资源,子推理任务不再固定于某个计算节点,而计算节点之间也不再受限于上下级管理,能够在计算资源池中平等、灵活地接收调用,有助于实现资源合理利用和负载均衡。
本申请还提供一种分布式推理的控制装置、设备及可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚的说明本申请实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种分布式推理的控制方法的流程图;
图2为本申请实施例提供的一种分布式推理的控制装置的结构示意图;
图3为本申请实施例提供的一种分布式推理的控制设备的结构示意图。
具体实施方式
本申请的核心是提供一种分布式推理的控制方法、装置、设备及可读存储介质,用于实现高效率、高可用性的分布式推理的资源调度。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
图1为本申请实施例提供的一种分布式推理的控制方法的流程图。
如图1所示,基于计算资源池的监控节点,本申请实施例提供的分布式推理的控制方法包括:
S101:当接收到主机发送的推理任务时,根据推理任务的业务需求,为推理任务包括的各子推理任务分配计算资源池中的计算资源。
S102:将计算资源的信息发送至主机,以使主机利用计算资源完成各子推理任务。
本申请实施例基于计算资源池来动态生成推理网络,能够根据业务需求灵活分配计算资源,为实现资源合理利用与负载均衡提供基础。在计算资源池中,相互依赖的计算节点不再是固定的依赖关系,可以根据计算资源池的使用情况动态调度,各计算节点所有的计算资源可以根据需要被调度到急需的地方,加快推理过程,同时在不做任何物理更新组装的情况下,能够适应更广泛的应用场景。
在具体实施中,计算资源池可以采用异构计算资源池。异构计算(Heterogeneouscomputing),又译异质运算,主要是指使用不同类型指令集和体系架构的计算单元组成系统的计算方式,常见的计算单元类别包括中央处理器(central processing unit,CPU)、图形处理器(graphics processing unit,GPU)等协处理器、数字信号处理器(DigitalSignal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)等。异构计算资源池采用异构加速器虚拟化技术,面向不同的用户需求,可以实现更加灵活的异构加速器资源配置,且通过将计算资源虚拟化,能够提高对计算资源的利用率,且通过池化集中管理能够降低对计算资源管理的难度。
对于步骤S101来说,主机发起推理,向计算资源池申请能够进行推理任务的计算资源。
计算资源池中所有计算节点的计算资源进行虚拟化后,由监控节点进行计算资源的统一调度。监控节点根据主机的推理任务的业务需求将推理任务拆分为多个子推理任务后,为每个子推理任务分配对应的计算资源,形成当前推理任务的推理网络。在分配时,可以根据推理任务的业务需求乃至各子推理任务对计算资源的需求来选择合适的计算资源。根据实际情况,监控节点可以在收到推理任务时即生成对应的推理网络并提供给主机,也可以在推理过程中随着计算资源池中的负载变化灵活确定下一个子推理任务对应的计算资源。
在应用异构计算资源池的基础上,步骤S101中根据推理任务的业务需求,为推理任务包括的各子推理任务分配计算资源池中的计算资源,具体为:根据推理任务的业务需求,为各子推理任务分配异构计算资源池中类型匹配的计算资源。适应不同子推理任务的计算需求,提供合适的计算资源,例如为图像处理推理任务分配GPU资源。
对于步骤S102来说,将生成的推理网络以及计算资源的信息(如计算资源所在节点的通信信息)发送至主机,以使主机能够调用这些计算资源完成各推理子任务。在推理过程中,每个计算节点不再固定只处理推理模型的某个部分,而是在监控节点的控制下根据当前业务需求将需要处理部分的上下文动态分发至不同的计算资源,使其在推理过程中也能更换处理推理部分。计算资源池中的监控节点也会将合适的计算资源发送至需要调用的一方(如主机、上级节点)。
本申请实施例提供的分布式推理的控制方法适用于服务器领域,基于计算资源池的监控节点,包括:当接收到主机发送的推理任务时,根据推理任务的业务需求,为推理任务包括的各子推理任务分配计算资源池中的计算资源;将计算资源的信息发送至主机,以使主机利用计算资源完成各子推理任务。通过采用计算资源池中的计算资源来实现分布式推理的各个推理部分,并在计算资源池的监控节点的控制下实现根据推理任务的业务需求动态生成推理网络,能够根据业务需求和计算节点运行情况灵活分配计算资源,子推理任务不再固定于某个计算节点,而计算节点之间也不再受限于上下级管理,能够在计算资源池中平等、灵活地接收调用,有助于实现资源合理利用和负载均衡。
实施例二
在上述实施例的基础上,在本申请实施例提供的分布式推理的控制方法中,步骤S102中主机利用计算资源完成各子推理任务,具体包括:
主机将子推理任务的上下文数据发送至与子推理任务对应的计算资源所在节点;
计算资源所在节点在完成子推理任务后,将子推理任务的推理结果存入计算资源池对应的存储系统;
主机接收存储系统或推理任务的最后一个子推理任务对应的计算资源所在节点发送的推理任务的推理结果。
本申请实施例采用与计算资源同一对应的存储系统,打破推理过程中上下级节点的对应关系,推理的中间结果不再由上级计算节点发送给下级计算节点,而是发送至存储系统,使任何一个具备处理下部分模型上下文的计算节点均可以从存储系统获得所需的输入数据而不用关心上下级关系。
在具体实施中,存储系统可以采用分布式内存,以提供大带宽和高速的输入输出(IO),降低推理计算时延。
计算资源所在节点执行子推理任务,具体可以由主机触发也可以由存储系统的存储控制器触发,即接收来自主机或来自存储系统的推理上下文。在完成子推理任务后,可以有计算资源所在节点或存储控制器控制将子推理任务的推理结果返回主机,或者在推理任务的最后一个子推理任务完成后,由存储控制器汇总各子推理任务的推理结果后统一传回主机。
以存储系统触发为例,计算资源所在节点在完成子推理任务后将子推理任务的推理结果存入计算资源池对应的存储系统,具体可以包括:
当接收到存储系统的触发命令后,计算资源所在节点接收存储系统发送的推理上下文数据和上一级子推理任务得到的推理结果;
计算资源所在节点根据推理结果与自身对应的子推理任务完成推理运算,并将自身对应的子推理任务的推理结果存入存储系统。
实施例三
在上述实施例的基础上,在本申请实施例提供的分布式推理的控制方法中,为实现负载均衡、提高推理效率,步骤S102中将计算资源的信息发送至主机,以使主机利用计算资源完成各子推理任务,具体可以包括:
在将计算资源的信息发送至主机之后,监控各计算资源所在节点的运行状态;
根据各计算资源所在节点的运行状态和计算资源池内其他计算节点的运行状态,更新计算资源;
将更新后的计算资源的信息发送至主机,以使主机利用更新后的计算资源完成剩余的子推理任务。
在具体实施中,在推理过程中,监控节点可以监控各计算节点的运行状态,并根据计算节点的运行状态灵活切换计算资源,以给主机提供合理的计算资源配置、提高推理运算的效率,同时实现计算资源池的负载均衡。
监控节点具体可以从故障监控和负载监控两个角度监控计算节点的运行状态,从而实现推理过程中的故障切换和负载均衡。则根据各计算资源所在节点的运行状态和计算资源池内其他计算节点的运行状态,更新计算资源,具体包括:
在计算资源所在节点执行对应的子推理任务时,若计算资源所在节点发生故障,则将故障的计算资源对应的子推理任务切换至计算资源池中的另一计算资源;
当未执行对应的子推理任务的计算资源所在节点的负载超出预设阈值时,更新未执行对应的子推理任务的计算资源以实现计算资源池的负载均衡。
其中,当正在执行子推理任务的计算资源所在节点发生故障时,监控节点可以在计算资源池中选择另一运行状态正常的计算节点的计算资源提供给主机,以重新进行该子推理任务或从故障中断处继续执行。若采用本申请实施例二提供的将推理任务的中间结果存入统一的存储系统的方式,则监控节点可以将新的计算资源所在节点提供给存储系统的存储控制器,由存储控制器将子推理任务的上下文数据和已经得到的中间结果发送至新的计算资源所在节点以触发新的计算资源所在节点继续执行子推理任务,从而实现故障节点的高效切换。
在上述实施例一中提到,根据实际情况,监控节点可以在收到推理任务时即生成对应的推理网络并提供给主机,也可以在推理过程中随着计算资源池中的负载变化灵活确定下一个子推理任务对应的计算资源。若监控节点在初始阶段已生成全部子推理任务对应的推理网络,则可以在推理过程中监控还未执行子推理任务的计算资源所在节点的运行状态以进行推理网络的更新,除了设置预设阈值来确定执行负载均衡更新的触发点之外,当未执行子推理任务的计算资源所在节点发生故障时,也需要更新既定的推理网络中还未采用的计算资源。
除此以外,则监控节点仅在初始阶段确定执行第一个子推理任务的计算资源,并在后续过程中不断更新选择下一个子推理任务的计算资源。
实施例四
在上述实施例的基础上,在实际应用中,假设推理任务包括子推理任务A、子推理任务B、子推理任务C,则本申请实施例提供的分布式推理的控制方法具体可以包括如下步骤:
主机发起推理,向异构计算资源池申请能进行子推理任务A的计算资源;
异构计算资源池返回与子推理任务A对应的计算资源A;
主机将子推理任务A所需的输入数据传送给计算资源A所在节点;
计算资源A所在节点运行计算资源A处理子推理任务A,并将子推理任务A的中间结果存入分布式内存中;
当子推理任务A处理完毕后,分布式内存的存储控制器向异构计算资源池触发子推理任务B,异构计算资源池的监控节点根据异构计算资源池当前资源使用情况,动态分配进行子推理任务B的计算资源B,存储控制器控制将子推理任务B所需的输入数据发送至计算资源B所在节点;
计算资源B所在节点运行计算资源B处理子推理任务B,并将子推理任务B的中间结果存入分布式内存中;
当子推理任务B处理完毕后,分布式内存的存储控制器向异构计算资源池触发子推理任务C,异构计算资源池的监控节点根据异构计算资源池当前资源使用情况,动态分配进行子推理任务C的计算资源C,存储控制器控制将子推理任务C所需的输入数据发送至计算资源C所在节点;
计算资源C所在节点运行计算资源C处理子推理任务C,并将子推理任务C的中间结果存入分布式内存中;
当子推理任务C处理完毕后,分布式内存的存储控制器确认推理任务处理完毕,将最终结果传回主机。
上文详述了分布式推理的控制方法对应的各个实施例,在此基础上,本申请还公开了与上述方法对应的分布式推理的控制装置、设备及可读存储介质。
实施例五
图2为本申请实施例提供的一种分布式推理的控制装置的结构示意图。
如图2所示,基于计算资源池的监控节点,本申请实施例提供的分布式推理的控制装置包括:
分配单元201,用于当接收到主机发送的推理任务时,根据推理任务的业务需求,为推理任务包括的各子推理任务分配计算资源池中的计算资源;
执行单元202,用于将计算资源的信息发送至主机,以使主机利用计算资源完成各子推理任务。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
实施例六
图3为本申请实施例提供的一种分布式推理的控制设备的结构示意图。
如图3所示,本申请实施例提供的分布式推理的控制设备包括:
存储器310,用于存储计算机程序311;
处理器320,用于执行计算机程序311,该计算机程序311被处理器320执行时实现如上述任意一项实施例所述分布式推理的控制方法的步骤。
其中,处理器320可以包括一个或多个处理核心,比如3核心处理器、8核心处理器等。处理器320可以采用数字信号处理DSP(Digital Signal Processing)、现场可编程门阵列FPGA(Field-Programmable Gate Array)、可编程逻辑阵列PLA(Programmable LogicArray)中的至少一种硬件形式来实现。处理器320也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器CPU(CentralProcessing Unit);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器320可以集成有图像处理器GPU(Graphics Processing Unit),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器320还可以包括人工智能AI(Artificial Intelligence)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器310可以包括一个或多个可读存储介质,该可读存储介质可以是非暂态的。存储器310还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器310至少用于存储以下计算机程序311,其中,该计算机程序311被处理器320加载并执行之后,能够实现前述任一实施例公开的分布式推理的控制方法中的相关步骤。另外,存储器310所存储的资源还可以包括操作系统312和数据313等,存储方式可以是短暂存储或者永久存储。其中,操作系统312可以为Windows。数据313可以包括但不限于上述方法所涉及到的数据。
在一些实施例中,分布式推理的控制设备还可包括有显示屏330、电源340、通信接口350、输入输出接口360、传感器370以及通信总线380。
本领域技术人员可以理解,图3中示出的结构并不构成对分布式推理的控制设备的限定,可以包括比图示更多或更少的组件。
本申请实施例提供的分布式推理的控制设备,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如上所述的分布式推理的控制方法,效果同上。
实施例七
需要说明的是,以上所描述的装置、设备实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例所述方法的全部或部分步骤。
为此,本申请实施例还提供一种可读存储介质,该可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如分布式推理的控制方法的步骤。
该可读存储介质可以包括:U盘、移动硬盘、只读存储器ROM(Read-Only Memory)、随机存取存储器RAM(Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例中提供的可读存储介质所包含的计算机程序能够在被处理器执行时实现如上所述的分布式推理的控制方法的步骤,效果同上。
以上对本申请所提供的一种分布式推理的控制方法、装置、设备及可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备及可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种分布式推理的控制方法,其特征在于,基于计算资源池的监控节点,包括:
当接收到主机发送的推理任务时,根据所述推理任务的业务需求,为所述推理任务包括的各子推理任务分配所述计算资源池中的计算资源;
将所述计算资源的信息发送至所述主机,以使所述主机利用所述计算资源完成各所述子推理任务。
2.根据权利要求1所述的控制方法,其特征在于,所述主机利用所述计算资源完成各所述子推理任务,具体包括:
所述主机将所述子推理任务的上下文数据发送至与所述子推理任务对应的所述计算资源所在节点;
所述计算资源所在节点在完成所述子推理任务后,将所述子推理任务的推理结果存入所述计算资源池对应的存储系统;
所述主机接收所述存储系统或所述推理任务的最后一个所述子推理任务对应的所述计算资源所在节点发送的所述推理任务的推理结果。
3.根据权利要求2所述的控制方法,其特征在于,所述存储系统具体为分布式内存。
4.根据权利要求2所述的控制方法,其特征在于,所述计算资源所在节点在完成所述子推理任务后将所述子推理任务的推理结果存入所述计算资源池对应的存储系统,具体包括:
当接收到所述存储系统的触发命令后,所述计算资源所在节点接收所述存储系统发送的推理上下文数据和上一级所述子推理任务得到的推理结果;
所述计算资源所在节点根据所述推理结果与自身对应的所述子推理任务完成推理运算,并将所述自身对应的所述子推理任务的推理结果存入所述存储系统。
5.根据权利要求1所述的控制方法,其特征在于,所述计算资源池具体为异构计算资源池;
相应的,所述根据所述推理任务的业务需求,为所述推理任务包括的各子推理任务分配所述计算资源池中的计算资源,具体为:
根据所述推理任务的业务需求,为各所述子推理任务分配所述异构计算资源池中类型匹配的所述计算资源。
6.根据权利要求1所述的控制方法,其特征在于,将所述计算资源的信息发送至所述主机,以使所述主机利用所述计算资源完成各所述子推理任务,具体包括:
在将所述计算资源的信息发送至所述主机之后,监控各所述计算资源所在节点的运行状态;
根据各所述计算资源所在节点的运行状态和所述计算资源池内其他计算节点的运行状态,更新所述计算资源;
将更新后的所述计算资源的信息发送至所述主机,以使所述主机利用更新后的所述计算资源完成剩余的所述子推理任务。
7.根据权利要求6所述的控制方法,其特征在于,所述根据各所述计算资源所在节点的运行状态和所述计算资源池内其他计算节点的运行状态,更新所述计算资源,具体包括:
在所述计算资源所在节点执行对应的所述子推理任务时,若所述计算资源所在节点发生故障,则将故障的所述计算资源对应的所述子推理任务切换至所述计算资源池中的另一所述计算资源;
当未执行对应的所述子推理任务的所述计算资源所在节点的负载超出预设阈值时,更新未执行对应的所述子推理任务的所述计算资源以实现所述计算资源池的负载均衡。
8.一种分布式推理的控制装置,其特征在于,基于计算资源池的监控节点,包括:
分配单元,用于当接收到主机发送的推理任务时,根据所述推理任务的业务需求,为所述推理任务包括的各子推理任务分配所述计算资源池中的计算资源;
执行单元,用于将所述计算资源的信息发送至所述主机,以使所述主机利用所述计算资源完成各所述子推理任务。
9.一种分布式推理的控制设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7任意一项所述分布式推理的控制方法的步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述分布式推理的控制方法的步骤。
CN202210153121.4A 2022-02-18 2022-02-18 一种分布式推理的控制方法、装置、设备及可读存储介质 Pending CN114564305A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210153121.4A CN114564305A (zh) 2022-02-18 2022-02-18 一种分布式推理的控制方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210153121.4A CN114564305A (zh) 2022-02-18 2022-02-18 一种分布式推理的控制方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN114564305A true CN114564305A (zh) 2022-05-31

Family

ID=81714038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210153121.4A Pending CN114564305A (zh) 2022-02-18 2022-02-18 一种分布式推理的控制方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114564305A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115114005A (zh) * 2022-07-22 2022-09-27 济南浪潮数据技术有限公司 业务调度控制方法、装置、设备及计算机可读存储介质
CN116915584A (zh) * 2023-09-08 2023-10-20 新华三技术有限公司 一种在网计算异常处理方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115114005A (zh) * 2022-07-22 2022-09-27 济南浪潮数据技术有限公司 业务调度控制方法、装置、设备及计算机可读存储介质
CN116915584A (zh) * 2023-09-08 2023-10-20 新华三技术有限公司 一种在网计算异常处理方法及装置
CN116915584B (zh) * 2023-09-08 2023-12-08 新华三技术有限公司 一种在网计算异常处理方法及装置

Similar Documents

Publication Publication Date Title
US20230393879A1 (en) Coordinated Container Scheduling For Improved Resource Allocation In Virtual Computing Environment
US11169840B2 (en) High availability for virtual network functions
CN111338774A (zh) 分布式定时任务调度系统及计算装置
US10911529B2 (en) Independent groups of virtual network function components
CN114564305A (zh) 一种分布式推理的控制方法、装置、设备及可读存储介质
CN105052074A (zh) 用于提供虚拟化直径网络架构以及用于将业务量路由至动态实例化的直径资源实例的方法、系统和计算机可读介质
CN112099917B (zh) 调控系统容器化应用运行管理方法、系统、设备及介质
CN110221920A (zh) 部署方法、装置、存储介质及系统
CN113886089A (zh) 一种任务处理方法、装置、系统、设备及介质
CN114968567A (zh) 用于分配计算节点的计算资源的方法、装置和介质
CN111930516A (zh) 一种负载均衡方法及相关装置
CN114448909A (zh) 基于ovs的网卡队列轮询方法、装置、计算机设备及介质
CN110532060A (zh) 一种混合网络环境数据采集方法及系统
US11656914B2 (en) Anticipating future resource consumption based on user sessions
CN113608751A (zh) 推理服务平台的运行方法、装置、设备及存储介质
CN105653347A (zh) 一种服务器、资源管理方法及虚拟机管理器
CN108347341A (zh) 一种用于调整虚拟机加速能力的加速能力调整方法及装置
US12032988B2 (en) Virtual machine operation management in computing devices
CN114780232B (zh) 云应用调度方法、装置、电子设备及存储介质
CN114116220B (zh) 一种gpu共享控制方法、gpu共享控制装置及存储介质
CN115794306A (zh) 基于抢占实例的资源分配方法及装置、电子设备及介质
CN107562510B (zh) 一种应用实例的管理方法及管理设备
CN118176490A (zh) 任务故障转移
CN110955644A (zh) 一种存储系统的io控制方法、装置、设备及存储介质
KR102248978B1 (ko) 다수 사용자의 분산 기계학습에서 평균 지연 속도 절감을 위한 자원 할당 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination