CN110995614B - 一种算力资源分配的方法及装置 - Google Patents

一种算力资源分配的方法及装置 Download PDF

Info

Publication number
CN110995614B
CN110995614B CN201911072916.7A CN201911072916A CN110995614B CN 110995614 B CN110995614 B CN 110995614B CN 201911072916 A CN201911072916 A CN 201911072916A CN 110995614 B CN110995614 B CN 110995614B
Authority
CN
China
Prior art keywords
service
processing
calculation
unit
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911072916.7A
Other languages
English (en)
Other versions
CN110995614A (zh
Inventor
朱汇雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201911072916.7A priority Critical patent/CN110995614B/zh
Publication of CN110995614A publication Critical patent/CN110995614A/zh
Application granted granted Critical
Publication of CN110995614B publication Critical patent/CN110995614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/70Admission control; Resource allocation
    • H04L47/80Actions related to the user profile or the type of traffic
    • H04L47/801Real time traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/29Flow control; Congestion control using a combination of thresholds
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/70Admission control; Resource allocation
    • H04L47/80Actions related to the user profile or the type of traffic
    • H04L47/805QOS or priority aware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/503Resource availability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/504Resource capping
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Power Sources (AREA)

Abstract

本申请提供了一种算力资源分配的方法及装置,涉及资源分配领域。该算力资源分配的方法包括:计算处理第一业务单元累计使用的第一算力,所述第一业务单元为多个无优先级要求或优先级相同的业务单元中的一个;当所述第一算力大于预设算力时,停止对所述第一业务单元的第一业务进行处理,直至当调度周期次数达到第一阈值时,重新对所述第一业务进行处理。通过本申请实施例提供的算力资源分配的方法,通过将不同业务单元占用的处理时间衡量为算力消耗的指标,根据不同业务单元算力资源的消耗情况,调度不同业务单元的算力资源,实现对不同业务单元算力资源的灵活分配,避免物理分割算力资源导致的算力资源利用率低的问题。

Description

一种算力资源分配的方法及装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种算力资源分配的方法及装置。
背景技术
在边缘推理应用场景中,存在集中部署多种人工智能(artificialintelligence,AI)业务到一个AI处理器上的场景。业务可能以容器、进程、线程维度为业务单元进行部署。
在多容器、多进程或者多线程业务运行在一个AI处理器时,为了保证关键业务的服务质量(quality of service,QoS),需要提前再拉起业务时将芯片的AI算力资源“分割”给不同的业务单元。AI处理器在相应各个业务单元的AI请求时,可以按照指定的QoS策略,保证优先级高的业务单元请求优先获得AI算力资源进行运算。
目前,一般采用虚拟化的方法,利用SR-IOV技术,将设备资源虚拟成若干个VF设备,各个VF设备均分硬件资源(如图1所示)。然而,均分算力资源的方式并不能灵活地适应业务的弹性变化,使得算力资源利用效率低。
发明内容
本申请实施例提供了一种算力资源分配的方法及装置,能够解决对不同业务均分算力资源导致的资源利用率低的问题。
第一方面,提供一种算力资源分配的方法,包括:计算第一业务单元累计使用的第一算力,所述第一业务单元为无优先级要求或优先级相同的多个业务单元中的一个;当所述第一算力大于预设算力时,停止对所述第一业务单元的第一业务进行处理,直至当调度周期次数达到第一阈值时,重新对所述第一业务进行处理。
可选地,预设算力可以是用户预先为不同业务单位设定的算力资源。
应理解,通过根据业务单元累计使用的算力资源来衡量该业务单元实际使用比例,不需要采用物理分割的方法分配算力资源,使得每个业务单元均可以暂时使用所用的AI核处理相关业务,提高了计算资源的利用效率。
结合第一方面,在第一方面的某些实现方式中,所述第一算力为每次处理所述第一业务单元的所述第一业务时所需的处理核的数量和处理时间的加权值累计后获得的。
结合第一方面,在第一方面的某些实现方式中,所述计算处理第一业务单元累计使用的第一算力,包括:接收第一请求消息,所述第一请求消息用于请求处理所述第一业务;根据所述第一请求消息计算当前处理第一业务所需的处理核的数量和处理时间;计算所述处理核的数量和处理时间加权值;对每次计算获得的所述加权值进行求和,获得所述第一算力。
结合第一方面,在第一方面的某些实现方式中,所述当所述第一算力大于预设算力时,停止对所述第一业务单元的第一业务进行处理,直至当调度周期次数达到第一阈值时,重新对所述第一业务进行处理,包括:当所述第一算力大于预设算力时,将所述第一比例和所述预设比例的差值映射为阻塞系数,并停止对所述第一业务进行处理;在每个调度周期对所述阻塞系数进行调整,直至当所述阻塞系数达到第二阈值时,所述调度周期的次数达到所述第一阈值,所述第一业务能够重新使用所述第一算力。
可选地,本申请实施例可以根据计算获得的业务单元累计消耗的算力资源和预设算力资源确定算力资源使用的超额程度,并且根据超额程度确定阻塞系数的值。
示例性的,当超额越严重时,该阻塞系数的值可以越大,在每个调度周期内,该阻塞系数的值均可以被减小特定数值,直至当阻塞系数减至第二阈值时,调度周期的次数达到第一阈值,算力资源已经充分被均衡给其他业务单元使用,此时,被暂时停止的业务可以重新被处理。
应理解,通过本申请实施例提供的算力资源分配的方法,可以灵活设置不同业务单元可以占用的算力资源,避免采用物理分割的方法为各个业务单元分配固定的、不可变更的算力资源,提高了算力资源的利用效率。
结合第一方面,在第一方面的某些实现方式中,所述当所述第一算力大于预设算力时,停止对所述第一业务单元的第一业务进行处理,直至当调度周期次数达到第一阈值时,重新对所述第一业务进行处理,包括:计算所述第一算力占总算力的第一比例;当所述第一比例小于预设比例时,停止对所述第一业务进行处理,直至当所述调度周期次数达到所述第一阈值时,重新对所述第一业务进行处理。
结合第一方面,在第一方面的某些实现方式中,当所述第一算力大于所述预设算力,且所述调度周期次数未达到所述第一阈值时,处理所述多个业务单元中除所述第一业务单元之外的其他业务单元中的业务。
第二方面,提供了一种算力资源分配的装置,其特征在于,所述装置包括任务控制单元和任务调度单元,其中,所述任务控制单元,用于计算第一业务单元累计使用的第一算力,所述第一业务单元为无优先级要求或优先级相同的多个业务单元中的一个;所述任务调度单元,用于当所述第一算力大于预设算力时,停止对所述第一业务单元的第一业务进行处理,直至当调度周期次数达到第一阈值时,重新对所述第一业务进行处理。
结合第二方面,在第二方面的某些实现方式中,所述第一算力为每次处理所述第一业务单元的所述第一业务时所需的处理核的数量和处理时间的加权值累计后获得的。
结合第二方面,在第二方面的某些实现方式中,所述装置还包括接收单元,所述接收单元,用于接收第一请求消息,所述第一请求消息用于请求处理所述第一业务;所述任务控制单元,还用于根据所述第一请求消息计算当前处理第一业务所需的处理核的数量和处理时间;计算所述处理核的数量和处理时间加权值;对每次计算获得的所述加权值进行求和,获得所述第一算力。
结合第二方面,在第二方面的某些实现方式中,所述任务调度单元,还用于当所述第一算力大于预设算力时,将所述第一比例和所述预设比例的差值映射为阻塞系数,并停止对所述第一业务进行处理;所述任务控制单元,还用于在每个调度周期对所述阻塞系数进行调整,直至当所述阻塞系数达到第二阈值时,所述调度周期的次数达到所述第一阈值,所述第一业务能够重新使用所述第一算力。
结合第二方面,在第二方面的某些实现方式中,所述任务控制单元,还用于计算所述第一算力占总算力的第一比例;所述任务调度单元,还用于当所述第一比例小于预设比例时,停止对所述第一业务进行处理,直至当所述调度周期次数达到所述第一阈值时,重新对所述第一业务进行处理。
结合第二方面,在第二方面的某些实现方式中,当所述第一算力大于所述预设算力,且所述调度周期次数未达到所述第一阈值时,所述任务调度单元,用于处理所述多个业务单元中除所述第一业务单元之外的其他业务单元中的业务。
第三方面,提供了一种通信装置,所述通信装置包括:至少一个处理器和通信接口,所述通信接口用于所述通信装置与其他通信装置进行信息交互,当程序指令在所述至少一个处理器中执行时,使得所述通信装置实现如第一方面中任一实现方式所述的方法。
第四方面,提供了一种计算机存储介质,所述计算机程序存储介质具有程序指令,当所述程序指令被直接或者间接执行时,使得如第一方面中任一实现方式所述的方法中在所述算力资源分配装置上的功能得以实现。
根据本申请实施例提供的算力资源分配的方法,通过采用业务单元累计的“占用时间”指标来衡量算力实际使用比例,取代了采用物理方法分割计算资源的做法,使得每个业务单元均可以暂时使用AI处理器内的所有AI核,提高计算资源的利用效率。此外,本申请实施例提供的算力资源的分配方法,基于累计算法,统计各业务单元已经占用的AI核的时间,并将其与实际使用的AI核的数量转化为计算资源占用指标,并结合用户预先为不同业务单元设定的配额比例,计算业务单元是否超额使用算力资源,根据超出配额的严重程度,确定阻塞系数。该算力资源分配的方法摆脱了物理资源(AI核)个数的约束,可以设置任意分割的比例。
附图说明
图1示出了将设备虚拟为多个VF设备的示意图。
图2示出了一种AI算力资源分割应用架构图。
图3示出了本申请实施例提供的一种算力资源分配的方法。
图4示出了本申请实施例提供的算力资源分配的方法可能应用于的场景的示意图。
图5示出了本申请实施例提供的一种AI处理器的示意性结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于理解,首先对本申请实施例中可能出现的概念进行介绍。
1、容器(container)
容器是计算机操作系统中一种虚拟化技术。该技术使得进程运行于相对独立和隔离的环境(包含独立的文件系统、命名空间、资源视图等),从而能够简化软件的部署流程,增强软件的可移植性和安全性,并提高系统资源利用率。容器技术广泛应用于云计算领域的服务化场景。
2、进程和线程
进程时操作系统资源分配的基本单位;线程是任务调度和执行的基本单位(资源调度的最小单位)。就包含关系而言,一个进程内有多个线程,其执行过程不是一条线的,而是多条线(线程)共同完成的;线程是进程的一部分,因而线程也被称为轻权进程或者轻量级进程。
3、任务(task)
一个作业内,程序实例集合中的实例个体,通常对应于一台计算机上的一个进程、容器或其他运行时实体。
由于目前算力资源分配一般采用虚拟化的方式,利用SR-IOV技术,将设备资源虚拟成若干个VF设备,然后由该各个VF设备均分硬件资源。因此,其无法实现灵活地分配算力资源,示例性的,由于SR-IOV的配置需要在系统启动阶段初始化,VF设备能力也在芯片设计阶段就设定完成,因此,通过虚拟化多个VF的方法,并不能灵活适应业务的弹性变化。以芯片支持的4个VF为例,当业务需要将算力资源由原来的1:1:1:1调整为2:3:1:1时,通过向该4个VF设备均分算力资源使得算力资源无法灵活分配,从而导致算力资源利用效率低的问题。
为了解决目前均分算力资源导致的算力资源利用率低的问题,本申请实施例提供了一种算力资源优化分配的方法,通过利用AI算力调度器算法,计算每个业务单元的AI请求所消耗的时间与占用AI核(core)个数的加权值,达到业务按照指定算力配比进行运行的目的,能够实现AI芯片在多业务场景下算力资源任意分割,提高算力资源的利用效率。
为便于理解,首先对本申请实施例提供的算力资源分配的方法可以应用的场景进行介绍。
本申请实施例提供的方法可以应用于多个不同优先级的业务单元几种部署到一个AI处理器,在该多个不同优先级的业务单元中存在部分优先级相同或者业务类型不需要谨记处理的业务单元,或者,多个优先级相同的业务单元集中部署在一个AI处理器上的场景中。
应理解,一般来说,业务单元可以分为实时响应、后台处理两大类,甚至后台处理的业务也分高低优先级。其中,实时响应的业务处理请求数量波动较大,例如在路口、高速公路上的实时人流、车流检测,早晚高峰期,或者交通事故发生时等情况下,分析业务量会比较大;而在人流、车流低谷期,或者交通顺畅时,其分析业务量比较小。为了避免低谷期或者平常期AI算力闲置,此时系统可以运行一些非紧急任务,如存档视频的交通违法行为分析、交通规律分析等。这些非紧急任务不会抢占实时响应任务必须的AI算力资源,进而不会导致需要紧急处理的业务无法获得实时响应,保证了关键业务的QoS。
其中,非紧急业务可以是优先级相同的业务,其优先级较紧急业务的优先级低。当优先级不同的业务同时请求AI处理器的算力资源时,该算力资源优先分配给优先级高的业务,而对于优先级相同或者无优先级要求的业务,可以利用本申请实施例提供的算力资源分配的方法进行算力资源配置。
本申请实施例提供的算力资源分配的方法主要是基于时分复用的思想对AI算力资源在占用时间的维度划分分割比例,每个业务单元在单词AI请求时均可以使用整个芯片的AI算力,避免物理分割带来的硬件资源网格化(即每个业务单元仅可以使用部分算力资源),从而达到硬件资源利用率最大化。
图2示出了一种AI算力资源分割应用架构图。
可以看出,不同类型的业务单元可以经由AI运行库、AI驱动获取AI处理器分配的算力资源。其中,对每种类型的业务分配的算力资源的数量,可以由AI处理器进行计算后确定。
图3示出了本申请实施例提供的一种算力资源分配的方法。该方法可以通过AI处理器得以实现。该算力资源分配的方法包括以下内容。
S301,计算第一业务单元累计使用的第一算力,该第一业务单元为多个优先级相同的业务单元中的一个。
可选地,业务单元的请求处理的第一业务的调度粒度可以有多种,如线程级、进程级、容器级等。其中,容器(container)为计算机操作系统中的一种虚拟化技术,该技术使得进程运行于相对独立和隔离的环境(包括独立的文件系统、命名空间、资源视图等),从而能够简化软件的部署流程,增强软件的可移植性和安全性,并提高系统资源利用率。容器技术广泛应用于云计算领域的服务化场景。
应理解,第一算力可以是处理业务所使用或消耗的算力资源或者计算资源。示例性的,本申请实施例涉及的算力可以用业务被处理时,占用的AI核的数量和消耗的处理时间作为衡量指标。其中,该算力的计算过程将在下文进行介绍。
可选地,第一业务可以是第一业务单元当前待处理的至少一个业务中的任意一个。
可选地,AI处理器可以计算第一业务单元累计使用的第一算力。其中,第一业务单元可以是多个优先级相同的业务单元中的任意一个,该多个优先级相同的业务单元对应的待处理业务例如可以是不需要获得紧急响应的业务,如需要后台处理的业务等。
可选地,AI处理器可以根据用户指定的调度粒度,进行AI算力消耗统计。
作为一个示例,AI处理器计算第一业务累计使用或者累计消耗的算力的方法可以包括以下步骤。
(1)AI处理器接收第一请求消息,该第一请求消息用于请求处理第一业务。可选地,该第一请求消息可以包括当前请求处理的第一业务所需要的AI核的数量(记为n,n≥1)以及所需要占用的时间(记为t,t>0)。对该第一业务被处理时需要的AI核的数量和占用时间进行乘积,可以获得该次处理第一业务使用的AI处理器算力为n*t。
(2)将该次第一业务消耗的算力累加至之前第一业务单元已经使用的算力中,获得第一业务单元累计使用的第一算力,该第一算力可以作为第一业务单元累计消耗的算力指标。换句话说,将第一业务单元每次AI请求消耗的算力指标求和(记为SUM(n*t)),计算获得该第一业务单元对应的业务单元累计消耗的的算力指标。
可选地,AI处理器还可以计算各业务单元占用AI处理器总算力的比例。具体地,AI处理器总算力指标的计算方法为:首先,计算AI核的总数量(记为N,N≥1)乘以AI核的总使用时间(记为T,T>0),即N*T;其次,计算各个业务单元占用总算力资源比例,以第一业务单元为例,将其占用总算力资源的比例记为P,则P=SUM(n*t)/(N*T)。
可选地,在对AI处理器进行初始设置时,可以针对不同业务单元设置预设算力,也即预先设置分配给不同业务的算力资源数量;或者,预设不同业务单元的算力比例,也即预先设备各业务单元可以使用的算力资源占AI处理器总算力资源的比例。
S302,当第一算力大于预设算力时,停止对该第一业务进行处理,直至当调度周期次数达到第一阈值时,重新对第一业务进行处理。
可选地,根据预设算力和当前第一业务单元累计使用的算力指标,或者,根据预设算力比例和当前第一业务单元累计使用的算力比例,判断第一业务单元消耗的算力资源是否大于预设算力资源,也即判断第一业务消耗的算力资源是否超额。其中,当第一业务单元消耗的算力资源大于预设算力资源时,该第一业务单元消耗的算力资源超额,换句话说,第一业务单元消耗的算力资源过多。
可选地,当第一算力大于预设算力时,停止对该第一业务进行处理。也就是说,当第一业务单元消耗的算力资源超过预先分配的算力资源时,AI处理器可以暂时停止对该第一业务单元中的待处理业务的处理进程。具体地,该AI处理器可以不将该第一业务单元的AI请求消息发送给任务调度单元。
可选地,当第一算力大于预设算力,该AI处理器不将该第一业务单元的AI请求消息发送给任务调度单元时,可以标记该第一业务单元在后续的调度周期中被“阻塞”,也即使该第一业务单元暂时无法再使用AI算力。其中,停止第一业务单元使用AI算力资源的时间可以取决于“阻塞系数”,该阻塞系数可以与第一算力和预设算力的差值,或者,与第一算力比例和预设算力比例的差值具有映射关系,示例性的,第一业务单元消耗的算力资源超额越多,该阻塞系数可以越大。
可选地,在停止该第一业务单元的业务使用AI算力资源后,后续的每个调度周期都对该阻塞系数进行改变,直至该阻塞系数的值达到第二阈值时,重新允许该第一业务单元使用AI算力资源。其中,当阻塞系数的值达到第二阈值时,该调度周期的次数可以达到第一阈值。其中,第一阈值和第二阈值以及每个调度周期内对阻塞系数改变的数值可以根据应用场景灵活设置,本申请实施例对此并不限定。
作为一个示例,当第一业务单元累计使用的算力资源超过预先分配给该第一业务单元的算力资源时,该第一业务单元当前请求处理的业务需要被“阻塞”,并生成阻塞系数,例如根据该第一业务单元累计使用的算力资源的超额程度确定其阻塞系数为4;在之后的调度周期内,暂停对第一业务单元的业务进行处理,其具体方式可以是AI处理器暂停将第一业务单元的AI请求消息发送给任务调度单元,并且在每个调度周期内均对阻塞系数减1,直至阻塞系数减至为0(第二阈值)时,重新对该第一业务单元的业务进行处理,此时,AI处理器可以将第一业务单元的AI请求发送给任务控制单元。
应理解,当第一业务单元待处理的业务为多个时,当其被允许重新处理时,该多个业务可以同时被处理或者以一定顺序依次被处理,如根据AI请求时间顺序被依次处理等。
应理解,在每个调度周期内对阻塞系数进行改变,直至其达到第二阈值时,使第一业务单元重新使用AI算力资源,是为了使其他消耗的算力资源未超额的业务单元的业务优先被处理,灵活地使其他业务单元使用算力资源。当停止第一业务单元使用算力资源的调度周期达到第一阈值时,也即算力资源被各个业务单元消耗较为符合预设算力时,重新使该第一业务单元使用算力资源。
在一种实现方式中,阻塞系数可以设置为大于0的正整数,其具体值可以取决于超额程度,超额越多,阻塞系数的值可以越大;在每个调度周期内,该阻塞系数均减小一个固定值(如1),直至该阻塞系数减至0,此时认为调度周期次数达到第一阈值,允许第一业务单元重新使用算力资源。
可选地,阻塞系数不等于第二阈值的业务单元中的待处理业务,将被直接略过,AI处理器可以处理除所述第一业务单元之外的其他业务单元中的业务;或者,阻塞系数在每个调度周期被改变,但未达到第二阈值时,该业务也将被直接略过,其他未超额使用算力资源的业务单元的AI请求将会被发送给AI核,未超额使用算力资源的业务单元中的业务可以被该AI核处理。
根据本申请实施例提供的算力资源分配的方法,通过采用业务单元累计的“占用时间”指标来衡量算力实际使用比例,取代了采用物理方法分割计算资源的做法,使得每个业务单元均可以暂时使用AI处理器内的所有AI核,提高计算资源的利用效率。此外,本申请实施例提供的算力资源的分配方法,基于累计算法,统计各业务单元已经占用的AI核的时间,并将其与实际使用的AI核的数量转化为计算资源占用指标,并结合用户预先为不同业务单元设定的配额比例,计算业务单元是否超额使用算力资源,根据超出配额的严重程度,确定阻塞系数。该算力资源分配的方法摆脱了物理资源(AI核)个数的约束,可以设置任意分割的比例。
以下结合附图对本申请实施例提供的算力资源分配的方法可能应用到的场景进行介绍。
图4示出了本申请实施例提供的算力资源分配的方法可能应用于的场景的示意图。
其中,本申请实施例提供的方法多任务竞争算力资源的场景。其中,具体过程可以包括以下内容。
(1)运行AI进程(或容器),确定算力分割粒度。
其中,主机侧可以运行AI进程或容器,其具体运行业务的粒度可以根据用户需求灵活设置。
在一种实现方式中,AI芯片在主机侧运行AI进程后,可以根据业务运行的粒度确定算力资源分割粒度,该算力资源分割粒度可以与业务运行粒度相对应,该粒度例如可以是:线程、进程或容器。
(2)AI处理器中的任务队列单元可以根据算力分割粒度,对不同类型的业务配置算力优先级和算力分配比例,并将配置好的算力优先级和算力分配比例发送到AI芯片的任务控制单元。
在一种实现方式中,AI芯片的任务控制单元可以确定针对不同业务的调度粒度,该调度粒度例如可以是:线程、进程或容器。其中,调度粒度可以与业务运行的粒度相同。
(3)当一业务单元的业务需要进行处理时,该业务单元通过AI进程向AI芯片请求AI请求,该AI请求可以进入AI芯片中任务队列单元中的任务队列。
在一种实现方式中,AI芯片的任务队列单元可以根据任务控制单元的配置,以调度粒度为单元,将各业务单元的AI请求在任务队列中进行排序。其中,可以根据各业务单元优先级的顺序进行排序,如按照优先级由高到低的顺序对AI请求进行排序。
在一种实现方式中,当优先级不同时,任务控制单元可以按照优先级的顺序将AI请求发送至任务调度单元,使该任务调度单元分配优先级高的业务需要的算力资源;当优先级相同时,或者各AI请求没有优先级要求时,认为控制单元可以根据本申请实施例提供的算力资源分配的方法,首先计算当前AI请求对应的业务单元累计消耗的算力资源,然后根据该累计消耗的算力资源是否超过预设算力资源或者该累计消耗的算力资源占AI芯片总算力资源的算力比例是否超过预设算力比例,进一步确定是否对其进行阻塞。其中,若需要对该业务单元的业务进行阻塞,则对该业务单元设置阻塞系数。
在一种实现方式中,当优先级不同时,任务控制单元也可以根据本申请实施例提供的算力资源分配的方法,计算任务队列中各AI请求对应的业务单元累计消耗的算力资源,然后根据该累计消耗的算力资源是否超过预设算力资源或者该累计消耗的算力资源占AI芯片总算力资源的算力比例是否超过预设算力比例,进一步确定是否对其进行阻塞。其中,若需要对该业务单元的业务进行阻塞,则对该业务单元设置阻塞系数。
(4)在一种实现方式中,当AI芯片中的任务控制单元判断当前AI请求对应的业务单元的存在阻塞系数或阻塞系数不等于第二阈值,则忽略该业务单元的业务请求,暂不处理。具体地,任务控制单元可以不讲该业务单元的业务请求发送给任务调度单元。
其中,AI处理器可以基于本申请实施例提供的方法将任务队列结构化,任务队列可以以线程、进程、容器为业务调度单元,配置AI算力资源分割比例。算力分割粒度可以是线程、进程或者容器。
应理解,将任务队列结构化可以是将优先级高的业务单元的调度顺序设置在前,将优先级低的业务单元的调度顺序设置在后,以便其后续依次请求AI调度。
(5)根据算力分割粒度,配置算力优先级与比例,下发到AI芯片的任务控制单元。
(6)各AI进程将AI请求发送到AI芯片,进入到任务队列。AI芯片按照任务控制单元中的配置,以调度粒度为单位,将各业务单元的请求在任务队列中按照优先级从高到付第的顺序重新排列。
(7)AI芯片中的任务控制单元以调度为粒度为单位,检查该业务调度单元是否被标识为“阻塞”(也即阻塞系数未达到第二阈值)。如果未标识为阻塞(阻塞系数为第二阈值),即可将该业务调度单元的业务发送给任务调度单元;如果被识别为阻塞,则忽略该业务的业务请求,对该业务调度单元的业务暂不处理。
(8)任务控制单元对所有发送出去的AI请求进行计时,并由任务调度单元反馈每个AI请求占用的AI核数目。
(9)任务控制单元重新计算所有业务单元的算力消耗比例,并核算是否超额使用算力,如果是超额使用,则标记该业务单元下一轮需要“阻塞”,并设置阻塞系数。
(10)任务调度单元,按照AI请求的需要,分配AI核、内存等计算资源,满足AI计算的需求。
图5示出了本申请实施例提供的一种算力资源分配装置的示意性结构图。其中,该算力资源分配装置500包括任务控制单元510和任务调度单元520。
在一种实现方式中,任务控制单元510,用于计算处理第一业务单元累计使用的第一算力,第一业务单元为多个无优先级要求或优先级相同的业务单元中的一个。
在一种实现方式中,任务调度单元520,用于当第一算力大于预设算力时,停止对第一业务单元的第一业务进行处理,直至当调度周期次数达到第一阈值时,重新对第一业务进行处理。
在一种实现方式中,第一算力为每次处理第一业务单元的第一业务时所需的处理核的数量和处理时间的加权值累计后获得的。
在一种实现方式中,算力资源分配装置500还包括接收单元,该接收单元,用于接收第一请求消息,第一请求消息用于请求处理所述第一业务。
在一种实现方式中,任务控制单元510,还用于根据第一请求消息计算当前处理第一业务所需的处理核的数量和处理时间;计算所述处理核的数量和处理时间加权值;对每次计算获得的加权值进行求和,获得所述第一算力。
在一种实现方式中,任务调度单元520,还用于当第一比例小于预设比例时,停止对第一业务进行处理,直至当调度周期次数达到第一阈值时,重新对第一业务进行处理。
在一种实现方式中,当第一算力大于预设算力,且调度周期次数未达到第一阈值时,任务调度单元520,用于处理多个优先级相同的业务单元中除第一业务单元之外的其他业务单元中的业务。
本申请实施例还提供了一种通信装置,该通信装置包括:至少一个处理器和通信接口,该通信接口用于该通信装置与其他通信装置进行信息交互,当程序指令在至少一个处理器中执行时,使得通信装置实现如上文实施例描述的算力资源分配的方法。
本申请实施例还提供了一种计算机存储介质,该计算机程序存储介质具有程序指令,当所述程序指令被直接或者间接执行时,使得如上文实施例描述的算力资源分配的方法得以实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种算力资源分配的方法,其特征在于,包括:
计算第一业务单元使用的第一算力,所述第一业务单元为无优先级要求或优先级相同的多个业务单元中的一个,所述第一算力是根据处理所述第一业务单元的第一业务时所需的处理核的数量和处理时间累计获得的;
当所述第一算力大于预设算力时,停止对所述第一业务单元的第一业务进行处理,直至当调度周期次数达到第一阈值时,重新对所述第一业务进行处理。
2.根据权利要求1所述的方法,其特征在于,所述第一算力为每次处理所述第一业务单元的所述第一业务时所需的处理核的数量和处理时间的加权值累计后获得的。
3.根据权利要求1或2所述的方法,其特征在于,所述计算第一业务单元使用的第一算力,包括:
接收第一请求消息,所述第一请求消息用于请求处理所述第一业务;
根据所述第一请求消息计算当前处理第一业务所需的处理核的数量和处理时间;
计算所述处理核的数量和处理时间加权值;
对每次计算获得的所述加权值进行求和,获得所述第一算力。
4.根据权利要求1或2所述的方法,其特征在于,所述当所述第一算力大于预设算力时,停止对所述第一业务单元的第一业务进行处理,直至当调度周期次数达到第一阈值时,重新对所述第一业务进行处理,包括:
当所述第一算力大于预设算力时,将第一算力和预设算力的差值映射为阻塞系数,并停止对所述第一业务进行处理;
在每个调度周期对所述阻塞系数进行调整,直至当所述阻塞系数达到第二阈值时,所述调度周期的次数达到所述第一阈值,重新对所述第一业务进行处理。
5.根据权利要求1或2所述的方法,其特征在于,所述当所述第一算力大于预设算力时,停止对所述第一业务单元的第一业务进行处理,直至当调度周期次数达到第一阈值时,重新对所述第一业务进行处理,包括:
计算所述第一算力占总算力的第一比例;
当所述第一比例大于预设比例时,停止对所述第一业务进行处理,直至当所述调度周期次数达到所述第一阈值时,重新对所述第一业务进行处理。
6.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
当所述第一算力大于所述预设算力,且所述调度周期次数未达到所述第一阈值时,处理所述多个业务单元中除所述第一业务单元之外的其他业务单元中的业务。
7.一种算力资源分配的装置,其特征在于,所述装置包括任务控制单元和任务调度单元,其中,
所述任务控制单元,用于计算第一业务单元使用的第一算力,所述第一业务单元为无优先级要求或优先级相同的多个业务单元中的一个,所述第一算力为处理所述第一业务单元的第一业务时所需的处理核的数量和处理时间累计获得的;
所述任务调度单元,用于当所述第一算力大于预设算力时,停止对所述第一业务单元的第一业务进行处理,直至当调度周期次数达到第一阈值时,重新对所述第一业务进行处理。
8.根据权利要求7所述的装置,其特征在于,所述第一算力为每次处理所述第一业务单元的所述第一业务时所需的处理核的数量和处理时间的加权值累计后获得的。
9.根据权利要求7或8所述的装置,其特征在于,所述装置还包括接收单元,所述接收单元,用于接收第一请求消息,所述第一请求消息用于请求处理所述第一业务;
所述任务控制单元,还用于根据所述第一请求消息计算当前处理第一业务所需的处理核的数量和处理时间;计算所述处理核的数量和处理时间加权值;对每次计算获得的所述加权值进行求和,获得所述第一算力。
10.根据权利要求7或8所述的装置,其特征在于,所述任务调度单元,还用于当所述第一算力大于预设算力时,将第一算力和预设算力的差值映射为阻塞系数,并停止对所述第一业务进行处理;
所述任务控制单元,还用于在每个调度周期对所述阻塞系数进行调整,直至当所述阻塞系数达到第二阈值时,所述调度周期的次数达到所述第一阈值,所述第一业务能够重新使用所述第一算力。
11.根据权利要求7或8所述的装置,其特征在于,所述任务控制单元,还用于计算所述第一算力占总算力的第一比例;
所述任务调度单元,还用于当所述第一比例大于预设比例时,停止对所述第一业务进行处理,直至当所述调度周期次数达到所述第一阈值时,重新对所述第一业务进行处理。
12.根据权利要求7或8所述的装置,其特征在于,当所述第一算力大于所述预设算力,且所述调度周期次数未达到所述第一阈值时,所述任务调度单元,用于处理所述多个业务单元中除所述第一业务单元之外的其他业务单元中的业务。
13.一种通信装置,其特征在于,所述通信装置包括:至少一个处理器和通信接口,所述通信接口用于所述通信装置与其他通信装置进行信息交互,当程序指令在所述至少一个处理器中执行时,使得所述通信装置实现如权利要求1至6中任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质具有程序指令,当所述程序指令被计算机直接或者间接执行时,使得如权利要求1至6中任一项所述的方法得以实现。
CN201911072916.7A 2019-11-05 2019-11-05 一种算力资源分配的方法及装置 Active CN110995614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911072916.7A CN110995614B (zh) 2019-11-05 2019-11-05 一种算力资源分配的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911072916.7A CN110995614B (zh) 2019-11-05 2019-11-05 一种算力资源分配的方法及装置

Publications (2)

Publication Number Publication Date
CN110995614A CN110995614A (zh) 2020-04-10
CN110995614B true CN110995614B (zh) 2022-04-05

Family

ID=70083469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911072916.7A Active CN110995614B (zh) 2019-11-05 2019-11-05 一种算力资源分配的方法及装置

Country Status (1)

Country Link
CN (1) CN110995614B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111869303B (zh) * 2020-06-03 2023-10-17 北京小米移动软件有限公司 一种资源调度的方法、装置、通信设备及存储介质
CN111866775B (zh) * 2020-07-28 2021-10-15 中国联合网络通信集团有限公司 一种业务编排方法及装置
CN112084029A (zh) * 2020-09-08 2020-12-15 周旻 分布式算力系统及其运行方法
CN112188547B (zh) * 2020-09-09 2022-03-15 中国联合网络通信集团有限公司 一种业务处理方法及装置
CN112199385B (zh) * 2020-09-30 2024-05-10 北京百度网讯科技有限公司 用于人工智能ai的处理方法、装置、电子设备和存储介质
CN112214299A (zh) * 2020-09-30 2021-01-12 深圳云天励飞技术股份有限公司 多核处理器及其任务调度方法和装置
CN112203057B (zh) * 2020-10-10 2022-06-03 重庆紫光华山智安科技有限公司 解析任务创建方法、装置、服务器和计算机可读存储介质
CN112667392B (zh) * 2020-12-09 2024-01-23 南方电网数字电网研究院有限公司 云计算资源分配方法、装置、计算机设备和存储介质
CN112579277B (zh) * 2020-12-24 2022-09-16 海光信息技术股份有限公司 用于同步多线程的中央处理单元、方法、设备及存储介质
CN112685180B (zh) * 2020-12-29 2023-10-10 杭州海康威视数字技术股份有限公司 计算单元分配方法、装置及计算单元分配系统
CN114764371A (zh) * 2021-01-13 2022-07-19 华为技术有限公司 任务调度方法及管理系统
CN115706733A (zh) * 2021-08-10 2023-02-17 维沃移动通信有限公司 计算任务的资源分配方法、装置、网元及介质
CN113656166A (zh) * 2021-09-02 2021-11-16 上海联影医疗科技股份有限公司 一种任务处理系统及其计算资源分配方法
CN114816720B (zh) * 2022-06-24 2022-09-13 小米汽车科技有限公司 多任务共享物理处理器的调度方法、装置及终端设备
CN115454640B (zh) * 2022-09-21 2024-01-19 苏州启恒融智信息科技有限公司 任务处理系统及自适应任务调度的方法
CN115550452B (zh) * 2022-09-30 2024-04-16 中国联合网络通信集团有限公司 数据处理方法、算力设备及通信系统
CN115941487A (zh) * 2022-12-02 2023-04-07 中国联合网络通信集团有限公司 流量分配方法、装置、设备及介质
CN116781784A (zh) * 2023-08-22 2023-09-19 北京智芯微电子科技有限公司 智能终端资源调度方法、装置和电子设备
CN117611425A (zh) * 2024-01-17 2024-02-27 之江实验室 图形处理器算力配置方法、装置、计算机设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103648088A (zh) * 2013-11-18 2014-03-19 上海华为技术有限公司 一种网络资源控制方法和装置
CN104572308A (zh) * 2015-02-10 2015-04-29 飞狐信息技术(天津)有限公司 计算资源分配方法、分布式计算方法及装置
US9491112B1 (en) * 2014-12-10 2016-11-08 Amazon Technologies, Inc. Allocating processor resources based on a task identifier
CN108829512A (zh) * 2018-05-09 2018-11-16 济南浪潮高新科技投资发展有限公司 一种云中心硬件加速计算力的分配方法、系统和云中心
CN108920265A (zh) * 2018-06-27 2018-11-30 平安科技(深圳)有限公司 一种基于服务器集群的任务执行方法及服务器
CN109960575A (zh) * 2019-03-26 2019-07-02 深圳市网心科技有限公司 一种计算能力共享方法、系统及相关设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101883003A (zh) * 2009-05-08 2010-11-10 华北电力大学 一种计算机操作系统强制运行方法
CN109857542B (zh) * 2018-12-14 2021-01-29 贵州华芯通半导体技术有限公司 算力资源调节方法、系统及装置
CN109783237B (zh) * 2019-01-16 2023-03-14 腾讯科技(深圳)有限公司 一种资源配置方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103648088A (zh) * 2013-11-18 2014-03-19 上海华为技术有限公司 一种网络资源控制方法和装置
US9491112B1 (en) * 2014-12-10 2016-11-08 Amazon Technologies, Inc. Allocating processor resources based on a task identifier
CN104572308A (zh) * 2015-02-10 2015-04-29 飞狐信息技术(天津)有限公司 计算资源分配方法、分布式计算方法及装置
CN108829512A (zh) * 2018-05-09 2018-11-16 济南浪潮高新科技投资发展有限公司 一种云中心硬件加速计算力的分配方法、系统和云中心
CN108920265A (zh) * 2018-06-27 2018-11-30 平安科技(深圳)有限公司 一种基于服务器集群的任务执行方法及服务器
CN109960575A (zh) * 2019-03-26 2019-07-02 深圳市网心科技有限公司 一种计算能力共享方法、系统及相关设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于云、网、边融合的边缘计算新方案:算力网络;雷波 等;《电信科学》;20190920(第9期);第44-51页 *

Also Published As

Publication number Publication date
CN110995614A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110995614B (zh) 一种算力资源分配的方法及装置
CN103699445B (zh) 一种任务调度方法、装置及系统
US9218213B2 (en) Dynamic placement of heterogeneous workloads
EP2671354B1 (en) System to share network bandwidth among competing applications
US8918784B1 (en) Providing service quality levels through CPU scheduling
US10541939B2 (en) Systems and methods for provision of a guaranteed batch
US10162684B2 (en) CPU resource management in computer cluster
CN111258745B (zh) 一种任务处理方法及设备
CN107301093B (zh) 一种管理资源的方法和装置
CN108123980B (zh) 一种资源调度方法及系统
WO2022068697A1 (zh) 任务调度方法及装置
WO2017010922A1 (en) Allocation of cloud computing resources
CN105022668B (zh) 一种作业调度方法及系统
CN112988390A (zh) 一种算力资源分配方法及装置
CN107295090A (zh) 一种资源调度的方法和装置
CN106878389B (zh) 用于在云系统中进行资源调度的方法和装置
CN112749002A (zh) 一种集群资源动态管理的方法和装置
CN114625500A (zh) 云环境下拓扑感知的微服务应用调度的方法及应用
CN112925616A (zh) 任务分配方法、装置、存储介质及电子设备
US20140380304A1 (en) Methods and systems for energy management in a virtualized data center
CN115766582A (zh) 流量控制方法、装置和系统、介质和计算机设备
CN110928649A (zh) 资源调度的方法和装置
EP3610374A1 (en) Method and resource manager for scheduling of instances in a data centre
Tolosana-Calasanz et al. Revenue-based resource management on shared clouds for heterogenous bursty data streams
CN112714037A (zh) 一种线上服务质量的保障性能评估方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant