CN116302473A - 一种资源分配方法及装置 - Google Patents

一种资源分配方法及装置 Download PDF

Info

Publication number
CN116302473A
CN116302473A CN202211677139.0A CN202211677139A CN116302473A CN 116302473 A CN116302473 A CN 116302473A CN 202211677139 A CN202211677139 A CN 202211677139A CN 116302473 A CN116302473 A CN 116302473A
Authority
CN
China
Prior art keywords
model
operator
deployed
resource
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211677139.0A
Other languages
English (en)
Inventor
闻磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202211677139.0A priority Critical patent/CN116302473A/zh
Publication of CN116302473A publication Critical patent/CN116302473A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)

Abstract

本发明实施例提供了一种资源分配方法及装置,涉及数据处理技术领域,上述方法包括:获得待部署模型中包含的模型算子;获得处理各个模型算子对应的预设最大业务数据时各个模型算子的执行时长;根据所获得的各个执行时长以及预设对应关系,确定所述待部署模型的资源需求量;按照所述资源需求量为所述待部署模型分配资源。应用本发明实施例提供的资源分配方案,能够提高资源利用率。

Description

一种资源分配方法及装置
技术领域
本发明涉及数据处理技术领域,特别是涉及一种资源分配方法及装置。
背景技术
如今,越来越多的业务可以基于待部署模型进行处理。在部署待部署模型的过程中,需要先确定待部署模型处理业务所需资源的资源量,从而按照所确定的资源量为待部署模型分配资源。
现有的资源分配方案中,通常获得以往部署的待部署模型在处理业务时的资源需求量,根据该资源需求量以及预设系数,计算待部署的待部署模型所需资源的资源量,然后按照计算所得资源量为待部署模型分配资源。为了保证分配的资源能够满足待部署的待部署模型所需,上述预设系数通常较大,这就导致了计算得到的资源量可能超出待部署的待部署模型实际所需资源的资源量,进而使得分配的资源超过实际需要的资源,从而浪费资源,导致资源利用率低。
发明内容
本发明实施例的目的在于提供一种资源分配方法及装置,以提高资源利用率。具体技术方案如下:
第一方面,本发明实施例提供了一种资源分配方法,所述方法包括:
获得待部署模型中包含的模型算子;
获得处理各个模型算子对应的预设最大业务数据时各个模型算子的执行时长;
根据所获得的各个执行时长以及预设对应关系,确定所述待部署模型的资源需求量,其中,所述预设对应关系为:执行时长与资源量之间的对应关系;
按照所述资源需求量为所述待部署模型分配资源。
本发明的一个实施例中,所述获得处理各个模型算子对应的预设最大业务数据时各个模型算子的执行时长,包括:
针对每一模型算子类型,按照算子规模对该类型的各个模型算子进行分类;
针对每一类模型算子,将该类模型算子对应的预设最大业务数据输入该类模型算子中任一算子,记录该算子的执行时长,作为该类的各个模型算子的执行时长。
本发明的一个实施例中,所述针对每一模型算子类型,按照算子规模对该类型的各个模型算子进行分类,包括:
针对每一模型算子类型,按照用于表征算子规模的、输入模型算子的数据的尺寸,将该类型中、所处理的数据为同一尺寸的数据的多个模型算子,确定为属于同一类的模型算子。
本发明的一个实施例中,各个模型算子对应的最大业务数据为:所述待部署模型处理预设业务数据时输入各个模型算子的业务数据;
在所述按照所述资源需求量为所述待部署模型分配资源之后,所述方法还包括:
在所述待部署模型应用过程中,获得所述待部署模型待处理的业务数据的实时业务数据量;
根据所述预设业务数据的数据量以及所述实时业务数据量,更新所述资源需求量;
根据更新前后的资源需求量,调整为所述待部署模型分配的资源。
本发明的一个实施例中,所述获得待部署模型中包含的模型算子,包括:
获得待部署模型的各个模型算子中的目标模型算子;
所述获得处理各个模型算子对应的预设最大业务数据时各个模型算子的执行时长,包括:
获得处理所述目标模型算子对应的预设最大业务数据时所述目标模型算子的执行时长;
所述根据所获得的执行时长以及预设对应关系,确定所述待部署模型的资源需求量,包括:
根据所获得的执行时长、预设的额外资源量以及预设对应关系,确定所述待部署模型的资源需求量。
本发明的一个实施例中,所述待部署模型为视频处理模型、且业务数据为视频数据;
所述待部署模型为图像处理模型、且业务数据为图像数据。
第二方面,本发明实施例还提供了一种资源分配装置,所述装置包括:
算子获得模块,用于获得待部署模型中包含的模型算子;
时长获得模块,用于获得处理各个模型算子对应的预设最大业务数据时各个模型算子的执行时长;
需求量确定模块,用于根据所获得的各个执行时长以及预设对应关系,确定所述待部署模型的资源需求量,其中,所述预设对应关系为:执行时长与资源量之间的对应关系;
资源分配模块,用于按照所述资源需求量为所述待部署模型分配资源。
本发明的一个实施例中,所述时长获得模块,包括:
算子分类子模块,用于针对每一模型算子类型,按照算子规模对该类型的各个模型算子进行分类;
时长获得子模块,用于针对每一类模型算子,将该类模型算子对应的预设最大业务数据输入该类模型算子中任一算子,记录该算子的执行时长,作为该类的各个模型算子的执行时长。
本发明的一个实施例中,所述算子分类子模块,具体用于:
针对每一模型算子类型,按照用于表征算子规模的、输入模型算子的数据的尺寸,将该类型中、所处理的数据为同一尺寸的数据的多个模型算子,确定为属于同一类的模型算子。
本发明的一个实施例中,各个模型算子对应的最大业务数据为:所述待部署模型处理预设业务数据时输入各个模型算子的业务数据;
所述方法还包括:
数据量获得模块,用于在所述按照所述资源需求量为所述待部署模型分配资源之后,在所述待部署模型应用过程中,获得所述待部署模型待处理的业务数据的实时业务数据量;
需求量更新模块,用于根据所述预设业务数据的数据量以及所述实时业务数据量,更新所述资源需求量;
资源调整模块,用于根据更新前后的资源需求量,调整为所述待部署模型分配的资源。
本发明的一个实施例中,所述算子获得模块,具体用于:
获得待部署模型的各个模型算子中的目标模型算子;
所述时长获得模块,具体用于:
获得处理所述目标模型算子对应的预设最大业务数据时所述目标模型算子的执行时长;
所述需求量确定模块,具体用于:
根据所获得的执行时长、预设的额外资源量以及预设对应关系,确定所述待部署模型的资源需求量。
本发明的一个实施例中,所述待部署模型为视频处理模型、且业务数据为视频数据;
所述待部署模型为图像处理模型、且业务数据为图像数据。
第三方面,本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面任一所述的方法步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面任一所述的方法步骤。
由以上可见,应用本发明实施例提供的方案分配资源时,在获得待部署模型中包含的模型算子以及各个模型算子对应的执行时长后,根据执行时长与资源量之间的对应关系,能够准确确定与各个模型算子的执行时长对应的资源需求量,从而根据资源需求量,能够准确为待部署模型分配模型所需的资源,这样能够避免为待部署模型分配过多的资源。因此,应用本发明实施例提供的资源分配方案,能够节约部署待部署模型所需资源,从而提高资源利用率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的第一种资源分配方法的流程示意图;
图2为本发明实施例提供的第二种资源分配方法的流程示意图;
图3为本发明实施例提供的第三种资源分配方法的流程示意图;
图4为本发明实施例提供的第四种资源分配方法的流程示意图;
图5为本发明实施例提供的第五种资源分配方法的流程示意图;
图6为本发明实施例提供的第一种资源分配装置的结构示意图;
图7为本发明实施例提供的第二种资源分配装置的结构示意图;
图8为本发明实施例提供的第三种资源分配装置的结构示意图;
图9为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
为了提高资源利用率,本发明实施例提供了一种资源分配方法及装置。
本发明的一个实施例中,提供了一种资源分配方法,上述方法包括:
获得待部署模型中包含的模型算子;
获得处理各个模型算子对应的预设最大业务数据时各个模型算子的执行时长;
根据所获得的各个执行时长以及预设对应关系,确定所述待部署模型的资源需求量,其中,所述预设对应关系为:执行时长与资源量之间的对应关系;
按照所述资源需求量为所述待部署模型分配资源。
由以上可见,应用本发明实施例提供的方案分配资源时,在获得待部署模型中包含的模型算子以及各个模型算子对应的执行时长后,根据执行时长与资源量之间的对应关系,能够准确确定与各个模型算子的执行时长对应的资源需求量,从而根据资源需求量,能够准确为待部署模型分配模型所需的资源,这样能够避免为待部署模型分配过多的资源。因此,应用本发明实施例提供的资源分配方案,能够节约部署待部署模型所需资源,从而提高资源利用率。
下面通过具体实施例分别进行详述。
参见图1,图1为本发明实施例提供的第一种资源分配方法的流程示意图,本实施例中,上述方法包括以下步骤S101-S104。
步骤S101:获得待部署模型中包含的模型算子。
具体的,在获得待部署模型中包含的模型算子时,可以获得上述待部署模型,再从待部署模型中提取出所包含的模型算子,还可以直接获得由其他数据处理设备提取得到的待部署模型中包含的模型算子。
从待部署模型中提取模型算子可以使用现有的提取技术实现,这里不再详述。
另外,在获得待部署模型中包含的模型算子时,可以获得待部署模型中包含的全部模型算子,也可以获得待部署模型中包含的部分模型算子,例如,该部分模型算子可以是耗时较长的模型算子。
关于获得待部署模型中包含的模型算子的进一步描述可参见后续图2所示实施例中步骤S101A,这里暂不详述。
步骤S102:获得处理各个模型算子对应的预设最大业务数据时各个模型算子的执行时长。
其中,上述业务数据的类型根据待部署模型的类型确定。
本发明的一个实施例中,上述待部署模型可以是视频处理模型,此时,上述业务数据为视频数据。
本发明的另一个实施例中,上述待部署模型可以是图像处理模型,此时,上述业务数据为图像数据。
另外,上述待部署模型还可以是处理其他业务数据的模型,本发明实施例对此并不限定。
由以上可见,应用本发明实施例提供的方案能够为多种待部署模型分配资源,从而能够提高资源分配的应用范围。
具体的,在获得上述待部署模型中包含的模型算子后,可以确定各个模型算子对应的最大业务数据,将所确定的各个模型算子对应的最大业务数据输入各个模型算子,并统计处理各个模型算子对应的预设最大业务数据时各个模型算子的执行时长。
本发明的一个实施例中,可以通过以下两种实现方式中任一种确定各个模型算子对应的最大业务数据。
第一种实现方式中,可以获得人为预设的模型算子存储空间与业务数据之间的对应关系,查询上述待部署模型中各个模型算子所占存储空间,从而根据预设的对应关系,确定各个模型算子对应的最大业务数据。
第二种实现方式中,在获得模型中的模型算子之前,可以获得人为预设的模型算子类型与业务数据之间的对应关系,在获得模型中的模型算子时,还获得模型算子的类型,从而根据各个模型算子的类型以及预设的模型算子类型与业务数据之间的对应关系,确定各个模型算子对应的最大业务数据。
步骤S103:根据所获得的各个执行时长以及预设对应关系,确定待部署模型的资源需求量。
其中,预设对应关系为:执行时长与资源量之间的对应关系。
上述资源量可以是CPU核数、算力以及缓存空间等等资源的数量,这里并不做具体限定。
上述执行时长与资源量之间的预设对应关系可以是用户根据以往经验设置的。
由于资源有多种,因此执行时长与资源的数量之间的对应关系也就有多种,针对每一种资源,可以利用执行时长与该种资源的数量之间的预设对应关系,根据所得到的总执行时长确定待部署模型针对该种资源的需求量。
具体的,可以计算各个模型算子对应的执行时长的总执行时长,并执行时长与资源量之间的预设对应关系中,搜索与上述总执行时长对应的资源量,从而根据所获得的资源量确定待部署模型的资源需求量。
在根据所获得资源量确定待部署模型的资源需求量时,若上述获得的模型算子为上述待部署模型中包含的所有模型算子,则可以确定根据上述对应关系搜索得到的资源量为上述待部署模型的资源需求量;若上述获得的模型算子为上述待部署模型中包含的部分模型算子,则可以预先设置额外资源量,作为待部署模型中除所获得的模型算子之外的其他算子所需的资源的需求量,这样在根据上述对应关系搜索得到与总执行时长对应的资源量后,将这两种资源量之和作为上述待部署模型的资源需求量。
其中,上述额外资源量可以是人为根据以往分配经验设置。
另外,在存在卷积算子的模型中,由于卷积算子消耗的执行时长通常远超其他算子,因此,针对存在卷积算子的模型,可以获得模型中的卷积算子,并获得各个卷积算子对应的执行时长之和,作为上述总执行时长,根据上述对应关系,得到与总执行时长对应的资源需求量后,直接将所获得的资源需求量作为模型的资源需求量。
步骤S104:按照资源需求量为待部署模型分配资源。
具体的,上述资源需求量可以有多种,针对每一种资源需求量,可以为待部署模型分配该资源需求量所指示数量的该种资源。
由以上可见,应用本发明实施例提供的方案分配资源时,在获得待部署模型中包含的模型算子以及各个模型算子对应的执行时长后,根据执行时长与资源量之间的对应关系,能够准确确定与各个模型算子的执行时长对应的资源需求量,从而根据资源需求量,能够准确为待部署模型分配模型所需的资源,这样能够避免为待部署模型分配过多的资源。因此,应用本发明实施例提供的资源分配方案,能够节约部署待部署模型所需资源,从而提高资源利用率。
在获得待部署模型中包含的模型算子时,可以获得模型中包含的部分模型算子,从而基于该部分模型算子进行后续处理,实现资源分配。
本发明的一个实施例中,参见图2,提供了第二种资源分配方法的流程示意图,本实施例中,上述步骤S101可以通过以下步骤S101A实现。
步骤S101A:获得待部署的待部署模型中包含的实现预设功能的模型算子。
其中,上述预设功能可以是人为从待部署模型中各模型算子所提供功能中选择的。
本发明的一个实施例中,上述预设功能为卷积功能。
由于在待部署模型应用过程中,模型中除卷积层之外的其他模型算子的执行时长相较于卷积层可忽略不计,因此,可以将卷积层的执行时长看做是待部署模型的执行时长,这样在获得待部署模型中包含的模型算子时,可以仅获得模型中包含的卷积层,基于所获得的卷积层进行后续处理,无需再考虑模型中的其他模型算子,从而能够减少进行资源分配的数据处理量,提高资源分配效率。
上述预设功能除了可以包含卷积功能外,还可以包括其他功能,例如,池化功能、全连接功能、归一化功能等等,本发明实施例对此并不限定。
具体的,在获得模型中实现预设功能的模型算子时,可以获得待部署模型,识别待部署模型中实现预设功能的模型算子,并从待部署模型中提取出所识别的模型算子。
在识别待部署模型中实现预设功能的模型算子时,由于模型中实现不同功能的模型算子的实现代码不同,因此,可以基于不同模型算子的实现代码识别不同模型算子。例如,可以根据模型算子的实现代码中包含的参数、逻辑、代码名称等识别实现不同模型算子。
由以上可见,应用本发明实施例提供的方案分配资源时,仅需获得待部署模型中包含的实现预设功能的部分模型算子,而无需获得待部署模型中的所有模型算子,这样在基于所获得的模型算子进行后续处理时,能够减少进行资源分配的数据处理量,从而提高资源分配效率。
本发明的一个实施例中,参见图3,提供了第三种资源分配方法的流程示意图,本实施例中,上述步骤S101可以通过以下步骤S101B实现,上述步骤S102可以通过以下步骤S102A实现,上述步骤S103可以通过以下步骤S103A实现。
步骤S101B:获得待部署模型的各个模型算子中的目标模型算子。
其中,上述目标模型算子可以是预设类型的模型算子。例如,上述目标模型算子可以是卷积算子、求和算子等等。
获得上述目标模型算子的具体实现方式可参见上述步骤S101,这里不再赘述。
在获得上述目标模型算子后,可以通过以下步骤S102A实现上述步骤S102。
步骤S102A:获得处理目标模型算子对应的预设最大业务数据时目标模型算子的执行时长。
本步骤中获得上述执行时长的具体实现方式可参见上述步骤S102,这里不再赘述。
在获得上述执行时长后,可以通过以下步骤S103A实现上述步骤S103。
步骤S103A:根据所获得的执行时长、预设的额外资源量以及预设对应关系,确定待部署模型的资源需求量。
其中,上述额外资源量可以是人为根据以往分配经验设置。
由于在获得模型算子时,上述步骤S101B仅获得了待部署模型中的目标模型算子,若根据目标模型算子的执行时长以及上述对应关系,确定出的资源需求量仅为目标模型算子需要的资源的需求量,因此,可以预先设置上述额外资源量,作为上述待部署模型中除上述目标模型算子外的其他算子需要的资源的需求量。
具体的,根据所获得执行时长以及上述对应关系,可以计算目标模型算子所需的资源的需求量,将计算出的需求量与额外资源量相加,得到相加后资源量,该相加后资源量可以认为是整个待部署模型的资源需求量。
由以上可见,应用本发明实施例提供的方案进行资源分配时,可以预先设置额外资源量,这样在获得模型算子时,仅需获得目标模型算子,无需获得全部模型算子,从而能够减少资源分配的数据处理量,从而提高资源分配效率。
在获得模型算子后,可以通过以下图4所示实施例中步骤S102B-S102C获得各个模型算子对应的执行时长。
本发明的一个实施例中,参见图4,提供了第四种资源分配方法的流程示意图,本实施例中,上述步骤S102可以通过以下步骤S102B-S102C实现。
步骤S102B:针对每一模型算子类型,按照算子规模对该类型的各个模型算子进行分类。
其中,上述算子规模可以理解为表征算子大小的信息,例如,上述算子规模可以是算子所占空间大小、算子的尺寸等等。
具体的,上述算子规模可以以算子所占空间大小、算子的尺寸等等信息直接表示,这样在进行算子分类时,可以直接按照上述算子所占空间大小、算子尺寸等信息进行分类。
另外,上述算子规模还可以以输入模型算子的输入数据的尺寸间接表示,该输入数据的尺寸可以理解为一种表征算子规模的信息,输入数据的尺寸越大,则说明模型算子参与处理的输入数据越大,可以认为模型算子的算子规模越大。
鉴于此,本发明的一个实施例中,在对模型算子进行分类时,针对每一模型算子类型,可以按照用于表征算子规模的、输入模型算子的数据的尺寸,将该类型中、所处理的数据为同一尺寸的数据的多个模型算子,确定为属于同一类的模型算子。
例如,输入模型算子的数据可以是三维数据,三维数据的尺寸可以表示为h*w*c,其中,h表示数据的宽度维度,w表示数据的长度维度,c表示数据的深度维度。在对同一种类型的各个模型算子进行分类时,可以将同一尺寸h*w*c的输入数据对应的模型算子划分为同一类模型算子。
又例如,输入模型算子的数据也可以是一维或者其他多维数据,本发明实施例对此并不限定。这样在对同一种类型的各个模型算子进行分类时,可以将同一多维尺寸的输入数据对应的模型算子划分为同一类模型算子。
本方案中,由于输入模型算子的数据的尺寸能够表征模型算子规模,因此,所处理的数据为同一尺寸的数据的多个模型算子的算子规模可以认为是同一算子规模,从而将处理同一尺寸的输入数据的多个模型算子确定为同一类的模型算子,能够准确实现算子分类,进而能够提高资源分配的准确性。
步骤S102C:针对每一类模型算子,将该类模型算子对应的预设最大业务数据输入该类模型算子中任一模型算子,记录该算子的执行时长,作为该类的各个模型算子的执行时长。
具体的,在对各种类型的模型算子进行分类之后,可以确定每一类的模型算子对应的最大业务数据,从而针对每一类模型算子,将该类模型算子对应的最大业务数据输入该类模型算子中任一模型算子,并记录处理该最大业务数据时该模型算子的执行时长,作为该类的各个模型算子的执行时长。
本发明的一个实施例中,在确定每一类型的模型算子对应的最大业务数据时,该最大业务数据可以是人为设置的,也可以是根据预先设置的模型算子规模与业务数据之间的对应关系确定的。
由以上可见,应用本发明实施例提供的方案分配资源时,对每一类型的各个模型算子进行分类,这样在记录各个模型算子的执行时长时,针对每一类模型算子,将该类模型算子中任一模型算子的执行时长,作为该类的各个模型算子的执行时长,这样无需对每一模型算子进行操作,从而能够提高获得各个模型算子对应的执行时长的效率,进而提高资源分配效率。
另外,在上述模型算子规模以输入模型算子的数据的尺寸表示的情况下,由于输入模型算子的数据的尺寸与模型算子的执行时长之间通常存在正比例关系,这样基于输入模型算子的数据的尺寸,能够提高对模型算子进行分类的准确性,从而提高所记录的各类模型算子的执行时长的准确性,进而将各个模型算子对应的执行时长进行累加,得到总执行时长,根据总执行时长以及上述预设对应关系,能够获得较为准确的资源需求量,基于较为准确的资源需求量,能够提供为待部署模型分配资源的准确性。
在待部署模型应用过程中,待推理的业务数据的数据量可能会日益增多,这种情况下,若待部署模型利用原本分配的资源进行数据推理,则可能出现数据推理效率降低、模型推理结果质量降低等问题。
为解决上述问题,本发明的一个实施例中,参见图5,提供了第五种资源分配方法的流程示意图,本实施例中,上述各个模型算子对应的最大业务数据为:待部署模型处理预设业务数据时输入各个模型算子的业务数据。
上述预设业务数据可以认为是期望待部署模型处理的、最大数据量的业务数据。
本实施例中,在按照资源需求量为待部署模型分配资源之后,方法还包括以下步骤S105-S107。
步骤S105:在待部署模型应用过程中,获得待部署模型待处理的业务数据的实时业务数据量。
其中,上述待部署模型处理的业务数据不同,则上述业务数据量也就不同。
例如,上述业务数据可以是视频数据,此时,上述业务数据量可以是视频数据的帧数。
又例如,上述业务数据可以是图像数据,此时,上述业务数据量可以是图像数据的大小。
具体的,在待部署模型应用过程中,在将待处理的业务数据输入待部署模型之前,可以实时检测待处理的业务数据的数据量,也可以获得其他检测设备实时检测待处理业务数据得到的数据量,作为上述实时业务数据量。
步骤S106:根据预设业务数据的数据量以及实时业务数据量,更新资源需求量。
通过上述步骤S101-S104为上述待部署模型分配的资源为上述待部署模型在处理上述预设业务数据时所需的资源,上述步骤S103中得到的资源需求量为上述待部署模型处理预设业务数据时所需资源的资源量。当实际待部署模型待处理的实时业务数据量超过预设业务数据的数据量时,则说明原本为模型分配的资源不足以支撑模型对待处理的业务数据进行数据处理,此时,可以为模型分配更多资源。
具体的,可以计算预设业务数据的数据量与实时业务数据量之间的比值,根据计算得到的数据量的比值以及原本确定的资源需求量,重新计算资源需求量。
例如,若实时业务数据量为期望业务数据的数据量的两倍,则可以计算得到更新后的资源需求量为原本资源需求量的两倍。
步骤S107:根据更新前后的资源需求量,调整为待部署模型分配的资源。
具体的,上述资源需求量可以认为是通过计算得到的需要为待部署模型分配的资源的数值,更新上述资源需求量,也就是更新待部署模型需要分配的资源的数值,而为待部署模型实际分配的资源并未改变,此时,需要根据更新前后的资源需求量,调整为待部署模型分配的资源。
若更新前的资源需求量小于更新后的资源需求量,可以计算更新前后资源需求量的资源量差值,从而在原本为模型分配的资源的基础上,再为模型分配该资源量差值的资源;若更新前的资源需求量大于等于更新后的资源需求量,则可以保持当前为模型分配的资源,也可以减少为模型分配的资源。
由以上可见,应用本发明实施例提供的方案分配资源时,在待部署模型应用过程中,可以根据模型待处理的业务数据的数据量变化情况,动态调整为模型分配的资源,这样能够提高待部署模型推理的可靠性。
本发明的一个实施例中,可以计算实时业务数据量相较于预设业务数据的数据量的数据量增量,在该数据量增量较小的情况下,该数据量增量对待部署模型处理业务数据的处理效果的影响较小,此时,可以不更新资源需求量。这样可以避免由于实时处理的数据的数据量在小范围波动的情况下频繁调整为待部署模型分配的资源。
与上述资源分配方法相对应,本发明实施例还提供了一种资源分配装置。
本发明的一个实施例中,参见图6,提供了一种资源分配装置的结构示意图,本实施例中,所述装置包括:
算子获得模块601,用于获得待部署的待部署模型中包含的模型算子;
时长获得模块602,用于获得处理各个模型算子对应的预设最大业务数据时各个模型算子的执行时长;
需求量确定模块603,用于根据所获得的各个执行时长以及预设对应关系,确定所述待部署模型的资源需求量,其中,所述预设对应关系为:执行时长与资源量之间的对应关系;
资源分配模块604,用于按照所述资源需求量为所述待部署模型分配资源。
由以上可见,应用本发明实施例提供的方案分配资源时,在获得待部署模型中包含的模型算子以及各个模型算子对应的执行时长后,根据执行时长与资源量之间的对应关系,能够准确确定与各个模型算子的执行时长对应的资源需求量,从而根据资源需求量,能够准确为待部署模型分配模型所需的资源,这样能够避免为待部署模型分配过多的资源。因此,应用本发明实施例提供的资源分配方案,能够节约部署待部署模型所需资源,从而提高资源利用率。
本发明的一个实施例中,参见图7,提供了第二种资源分配装置的结构示意图,本实施例中,所述时长获得模块602,包括:
算子分类子模块602A,用于针对每一模型算子类型,按照算子规模对该类型的各个模型算子进行分类;
时长获得子模块602B,用于针对每一类模型算子,将该类模型算子对应的预设最大业务数据输入该类模型算子中任一算子,记录该算子的执行时长,作为该类的各个模型算子的执行时长。
由以上可见,应用本发明实施例提供的方案分配资源时,对每一类型的各个模型算子进行分类,这样在记录各个模型算子的执行时长时,针对每一类模型算子,将该类模型算子中任一模型算子的执行时长,作为该类的各个模型算子的执行时长,这样无需对每一模型算子进行操作,从而能够提高获得各个模型算子对应的执行时长的效率,进而提高资源分配效率。
本发明的一个实施例中,所述算子分类子模块602A,具体用于:
针对每一模型算子类型,按照用于表征算子规模的、输入模型算子的数据的尺寸,将该类型中、所处理的数据为同一尺寸的数据的多个模型算子,确定为属于同一类的模型算子。
本方案中,由于输入模型算子的数据的尺寸能够表征模型算子规模,因此,所处理的数据为同一尺寸的数据的多个模型算子的算子规模可以认为是同一算子规模,从而将处理同一尺寸的输入数据的多个模型算子确定为同一类的模型算子,能够准确实现算子分类,进而能够提高资源分配的准确性。
本发明的一个实施例中,参见图8,提供了第三种资源分配装置的结构示意图,本实施例中,各个模型算子对应的最大业务数据为:所述待部署模型处理预设业务数据时输入各个模型算子的业务数据;
所述方法还包括:
数据量获得模块605,用于在所述按照所述资源需求量为所述待部署模型分配资源之后,在所述待部署模型应用过程中,获得所述待部署模型待处理的业务数据的实时业务数据量;
需求量更新模块606,用于根据所述预设业务数据的数据量以及所述实时业务数据量,更新所述资源需求量;
资源调整模块607,用于根据更新前后的资源需求量,调整为所述待部署模型分配的资源。
由以上可见,应用本发明实施例提供的方案分配资源时,在待部署模型应用过程中,可以根据模型待处理的业务数据的数据量变化情况,动态调整为模型分配的资源,这样能够提高待部署模型推理的可靠性。
本发明的一个实施例中,所述算子获得模块601,具体用于:
获得待部署模型的各个模型算子中的目标模型算子;
所述时长获得模块602,具体用于:
获得处理所述目标模型算子对应的预设最大业务数据时所述目标模型算子的执行时长;
所述需求量确定模块603,具体用于:
根据所获得的执行时长、预设的额外资源量以及预设对应关系,确定所述待部署模型的资源需求量。
由以上可见,应用本发明实施例提供的方案进行资源分配时,可以预先设置额外资源量,这样在获得模型算子时,仅需获得目标模型算子,无需获得全部模型算子,从而能够减少资源分配的数据处理量,从而提高资源分配效率。
本发明的一个实施例中,所述待部署模型为视频处理模型、且业务数据为视频数据;
所述待部署模型为图像处理模型、且业务数据为图像数据。
由以上可见,应用本发明实施例提供的方案能够为多种待部署模型分配资源,从而能够提高资源分配的应用范围。
本发明实施例还提供了一种电子设备,如图9所示,包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信,
存储器903,用于存放计算机程序;
处理器901,用于执行存储器903上所存放的程序时,实现如下步骤:
获得待部署模型中包含的模型算子;
获得处理各个模型算子对应的预设最大业务数据时各个模型算子的执行时长;
根据所获得的各个执行时长以及预设对应关系,确定所述待部署模型的资源需求量,其中,所述预设对应关系为:执行时长与资源量之间的对应关系;
按照所述资源需求量为所述待部署模型分配资源。
上述处理器901执行存储器903上存放的程序以实现资源分配的其他方案,与前述方法实施例中提及的方案相同,这里不再赘述。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中任一所述的资源分配方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的资源分配方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质以及计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种资源分配方法,其特征在于,所述方法包括:
获得待部署模型中包含的模型算子;
获得处理各个模型算子对应的预设最大业务数据时各个模型算子的执行时长;
根据所获得的各个执行时长以及预设对应关系,确定所述待部署模型的资源需求量,其中,所述预设对应关系为:执行时长与资源量之间的对应关系;
按照所述资源需求量为所述待部署模型分配资源。
2.根据权利要求1所述的方法,其特征在于,所述获得处理各个模型算子对应的预设最大业务数据时各个模型算子的执行时长,包括:
针对每一模型算子类型,按照算子规模对该类型的各个模型算子进行分类;
针对每一类模型算子,将该类模型算子对应的预设最大业务数据输入该类模型算子中任一算子,记录该算子的执行时长,作为该类的各个模型算子的执行时长。
3.根据权利要求2所述的方法,其特征在于,所述针对每一模型算子类型,按照算子规模对该类型的各个模型算子进行分类,包括:
针对每一模型算子类型,按照用于表征算子规模的、输入模型算子的数据的尺寸,将该类型中、所处理的数据为同一尺寸的数据的多个模型算子,确定为属于同一类的模型算子。
4.根据权利要求1-3中任一项所述的方法,其特征在于,各个模型算子对应的最大业务数据为:所述待部署模型处理预设业务数据时输入各个模型算子的业务数据;
在所述按照所述资源需求量为所述待部署模型分配资源之后,所述方法还包括:
在所述待部署模型应用过程中,获得所述待部署模型待处理的业务数据的实时业务数据量;
根据所述预设业务数据的数据量以及所述实时业务数据量,更新所述资源需求量;
根据更新前后的资源需求量,调整为所述待部署模型分配的资源。
5.根据权利要求1-3中任一项所述的方法,其特征在于,所述获得待部署模型中包含的模型算子,包括:
获得待部署模型的各个模型算子中的目标模型算子;
所述获得处理各个模型算子对应的预设最大业务数据时各个模型算子的执行时长,包括:
获得处理所述目标模型算子对应的预设最大业务数据时所述目标模型算子的执行时长;
所述根据所获得的执行时长以及预设对应关系,确定所述待部署模型的资源需求量,包括:
根据所获得的执行时长、预设的额外资源量以及预设对应关系,确定所述待部署模型的资源需求量。
6.根据权利要求1-3中任一项所述的方法,其特征在于,所述待部署模型为视频处理模型、且业务数据为视频数据;
所述待部署模型为图像处理模型、且业务数据为图像数据。
7.一种资源分配装置,其特征在于,所述装置包括:
算子获得模块,用于获得待部署模型中包含的模型算子;
时长获得模块,用于获得处理各个模型算子对应的预设最大业务数据时各个模型算子的执行时长;
需求量确定模块,用于根据所获得的各个执行时长以及预设对应关系,确定所述待部署模型的资源需求量,其中,所述预设对应关系为:执行时长与资源量之间的对应关系;
资源分配模块,用于按照所述资源需求量为所述待部署模型分配资源。
8.根据权利要求7所述的装置,其特征在于,所述时长获得模块,包括:
算子分类子模块,用于针对每一模型算子类型,按照算子规模对该类型的各个模型算子进行分类;
时长记录子模块,用于针对每一类模型算子,将该类模型算子对应的预设最大业务数据输入该类模型算子中任一算子,记录该算子的执行时长,作为该类的各个模型算子的执行时长。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
CN202211677139.0A 2022-12-26 2022-12-26 一种资源分配方法及装置 Pending CN116302473A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211677139.0A CN116302473A (zh) 2022-12-26 2022-12-26 一种资源分配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211677139.0A CN116302473A (zh) 2022-12-26 2022-12-26 一种资源分配方法及装置

Publications (1)

Publication Number Publication Date
CN116302473A true CN116302473A (zh) 2023-06-23

Family

ID=86796619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211677139.0A Pending CN116302473A (zh) 2022-12-26 2022-12-26 一种资源分配方法及装置

Country Status (1)

Country Link
CN (1) CN116302473A (zh)

Similar Documents

Publication Publication Date Title
CN109005056B (zh) 基于cdn应用的存储容量评估方法和装置
US8954557B2 (en) Assigning server categories to server nodes in a heterogeneous cluster
CN109101325B (zh) 一种任务调度方法、装置、系统及电子设备
CN112148468A (zh) 一种资源调度方法、装置、电子设备及存储介质
CN113591068B (zh) 一种在线登录设备管理方法、装置及电子设备
CN110737717B (zh) 一种数据库迁移方法及装置
CN110851987B (zh) 基于加速比预测计算时长的方法、装置和存储介质
CN109710827B (zh) 图片属性管理方法、装置、图片服务端和业务处理端
CN112130997B (zh) 一种资源分配方法及装置
CN111031350B (zh) 转码资源调度方法、电子设备及计算机可读存储介质
CN116302473A (zh) 一种资源分配方法及装置
CN112836124A (zh) 一种画像数据获取方法、装置、电子设备及存储介质
CN107844496B (zh) 统计信息输出方法及装置
CN111522723A (zh) 一种数据采集方法及装置
CN116069591A (zh) 一种接口性能监控方法、装置、设备以及存储介质
CN116091111A (zh) 产品需求量预测方法、装置、电子设备及存储介质
CN113238852B (zh) 一种任务分配方法、装置、电子设备及存储介质
CN113516503B (zh) 一种广告投放地域校准方法及相关设备
CN115941622A (zh) 一种带宽调节方法、系统、设备及存储介质
CN108256753B (zh) 一种应急物资调配方法及装置
CN112418509A (zh) 任务数据预测方法、装置、存储介质及电子装置
CN112509164A (zh) 一种出勤打卡方法、装置、设备和存储介质
CN112732757B (zh) 一种降级数据的处理方法、系统、装置、设备及存储介质
CN117915476B (zh) 一种信息集成系统处理方法及系统
CN112748945B (zh) 一种数据存储方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination