CN115700482A - 任务执行方法及装置 - Google Patents
任务执行方法及装置 Download PDFInfo
- Publication number
- CN115700482A CN115700482A CN202111080322.8A CN202111080322A CN115700482A CN 115700482 A CN115700482 A CN 115700482A CN 202111080322 A CN202111080322 A CN 202111080322A CN 115700482 A CN115700482 A CN 115700482A
- Authority
- CN
- China
- Prior art keywords
- deep learning
- learning task
- execution
- task
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 238000013135 deep learning Methods 0.000 claims abstract description 518
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 84
- 238000012545 processing Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 20
- 230000006835 compression Effects 0.000 description 15
- 238000007906 compression Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 15
- 238000013528 artificial neural network Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 238000005457 optimization Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 6
- 230000001133 acceleration Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 238000013140 knowledge distillation Methods 0.000 description 4
- 238000013137 model compression technique Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000003796 beauty Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本申请公开了一种任务执行方法及装置,属于资源调度技术领域。该方法包括:确定待并发执行的多个深度学习任务,及用于实现每个深度学习任务的人工智能模型;获取每个深度学习任务的执行策略,执行策略指示深度学习任务的调度方式和使用的模型变体,深度学习任务的模型变体基于用于实现深度学习任务的人工智能模型得到;基于每个深度学习任务的执行策略执行对应的深度学习任务。本申请既能够从深度学习任务的调度方式上对深度学习任务的执行性能进行改进,还能够从用于实现深度学习任务的模型上对深度学习任务的执行性能进行改进,有效地提高了深度学习任务的执行性能。
Description
本公开要求于2021年07月16日提交的申请号为202110807311.9、发明名称为“一种机器学习方法以及装置”的中国专利申请的优先权,其全部内容通过引用结合在本公开中。
技术领域
本申请涉及资源调度技术领域,特别涉及一种任务执行方法及装置。
背景技术
近年来,越来越多的深度学习任务(deep learning task,DL Task)采用深度神经网络(deep neural network,DNN)模型实现。然而,对于用于实现深度学习任务的人工智能系统,其不可避免地会需要执行并发的多个深度学习任务。如此以来,在人工智能系统有限的资源条件下,如何解决多个深度学习任务之间的资源争用问题,是目前亟待解决的问题。
相关技术中,可以对用于实现各个深度学习任务的深度神经网络模型进行压缩,然后使用压缩后的模型执行深度学习任务,以通过降低深度神经网络模型的计算需求的方式,减少深度学习任务使用的资源,从而达到减轻多个深度学习任务之间的资源争用情况。
但是,压缩后的深度神经网络模型的精度会降低,导致深度学习任务的实现效果受到影响。
发明内容
本申请提供了一种任务执行方法及装置。本申请既能够从深度学习任务的调度方式上对深度学习任务的执行性能进行改进,还能够从用于实现深度学习任务的模型上对深度学习任务的执行性能进行改进,有效地提高了深度学习任务的执行性能。本申请提供的技术方案如下:
第一方面,本申请提供了一种任务执行方法,该方法包括:确定待并发执行的多个深度学习任务,及用于实现每个深度学习任务的人工智能模型;获取每个深度学习任务的执行策略,执行策略指示深度学习任务的调度方式和使用的模型变体,深度学习任务的模型变体基于用于实现深度学习任务的人工智能模型得到;基于每个深度学习任务的执行策略执行对应的深度学习任务。
在本申请提供的任务执行方法中,由于深度学习任务的执行策略指示所述深度学习任务的调度方式和使用的模型变体,其联合了对深度学习任务的调度方式和用于实现深度学习任务的模型,既能够从深度学习任务的调度方式上对深度学习任务的执行性能进行改进,还能够从用于实现深度学习任务的模型上对深度学习任务的执行性能进行改进,有效地提高了深度学习任务的执行性能。这样一来,能够使得待并发执行的多个深度学习任务能够在有限的资源条件下被更好地执行,使得资源能够更有效地被利用,既能够保证深度学习任务的实时性性能,又能保证深度学习任务的准确性性能,能够更好地保障用户体验。
由于执行策略指示深度学习任务的调度方式和使用的模型变体,则基于每个深度学习任务的执行策略执行对应的深度学习任务,可以包括:采用任一深度学习任务的执行策略指示的模型变体,按照任一深度学习任务的执行策略指示的调度方式,执行深度学习任务。
在一种可实现方式中,调度方式指示深度学习任务的执行优先级。由于用于实现深度学习任务的系统的资源有限,可以按照不同的执行优先级依次执行待并发执行的多个深度学习任务,从而保证该多个深度学习任务的实现性能。
进一步的,调度方式还指示与其他深度学习任务并行执行深度学习任务。其中,该其他深度学习任务可以为待并发执行的多个深度学习任务中的深度学习任务。通过并行执行深度学习任务,能够在满足深度学习任务的同时,提高对资源的利用率,如通过模型加速芯片等硬件资源实现深度学习任务时,可以提高对模型加速芯片等硬件资源的利用率。
可选的,其他深度学习任务基于深度学习任务和其他深度学习任务的资源占用情况确定。例如,在获取多个深度学习任务的执行策略的过程中,可以分别获取多个深度学习任务的资源占用情况,然后根据多个深度学习任务的资源占用情况,以较大化利用资源为原则,确定能够并行执行的深度学习任务。其中,深度学习任务的资源占用情况可以通过在预先执行深度学习任务的对资源利用情况进行测量得到。
可选的,深度学习任务可以包括多个子任务,在基于每个深度学习任务的执行策略执行对应的深度学习任务时,还可以分别针对深度学习任务包括的子任务执行。在一种可实现方式中,基于每个深度学习任务的执行策略执行对应的深度学习任务,包括:将每个深度学习任务划分为多个子任务;确定每个深度学习任务中每个子任务在多个深度学习任务包括的同类子任务中的优先级;基于每个深度学习任务的执行策略和子任务的优先级执行深度学习任务。
当分别针对深度学习任务包括的多个子任务执行深度学习任务时,能够根据子任务的优先级和深度学习任务的执行策略执行深度学习任务,更细化了深度学习任务的调度策略,进一步提高深度学习任务的执行性能。
在一种可实现方式中,深度学习任务的执行策略可以从多个候选执行策略中选择得到。例如,获取每个深度学习任务的执行策略,包括:对于任一深度学习任务,获取深度学习任务的多个候选执行策略,任两个候选执行策略指示的调度方式和模型变体中的至少一个不同;获取按照每个候选执行策略执行深度学习任务的性能数据;基于多个候选执行策略的性能数据,从多个候选执行策略中选择得到深度学习任务的执行策略。
其中,性能数据包括实时性数据,实时性数据用于指示深度学习任务的实时性,实时性是指深度学习任务是否能在规定期限内完成。实时性数据基于预训练的人工智能模型预测得到。
性能数据还包括准确性数据,准确性数据用于指示深度学习任务的准确性,准确性是指准确实现深度学习任务的概率。准确性数据基于候选执行策略指示的模型变体的精度得到。并且,在获取任意候选执行策略执行深度学习任务的准确性数据时,可以考虑多个深度学习任务的总体性能,比如考虑所有深度学习任务归一化准确性损失的总和,以便于达到整体最优性能。
可选的,任一候选执行策略执行深度学习任务的性能数据,可以通过按照该候选执行策略执行深度学习任务测量得到。但如果对于每一个候选执行策略都通过实际执行来衡量性能,考虑到获取性能数据的代价会随着任务数量和模型变体个数呈指数型增长。因此,在本申请中,实时性数据可以基于预训练的人工智能模型(下面称为预测模型)预测得到,准确性数据可以基于候选执行策略指示的模型变体的精度得到。其中,可以采用实际测量的历史性能数据对预测模型进行训练,并采用经过训练的预测模型预测每个候选执行策略的实时性数据。
通过预测的方式得到实时性数据,一方面,可以大大加快获取实时性数据的速度,从而加快获取深度学习任务的执行策略的速度。另一方面,由于预测模型采用实际测量的历史性能数据进行训练,使得预测效果相比于现阶段的可调度分析等技术得到的实时性数据更贴近实际性能,有助于找到更有效的执行策略,从而更好地保障用户体验。
可选的,深度学习任务的执行策略指示的模型变体,基于对用于实现深度学习任务的人工智能模型进行压缩得到。其中,对人工智能模型进行压缩,能够通过压缩人工智能模型的结构减小实现深度学习任务的计算量,有助于对深度学习任务的灵活调度。可选的,在对人工智能模型进行压缩时,采用的压缩技术可以根据深度学习任务的任务特性决定。例如,对于图像处理类的深度学习任务,可以运用剪枝和量化等模型压缩技术进行模型压缩,对于语音处理类的深度学习任务,可以运用知识蒸馏等模型压缩技术进行模型压缩。
进一步的,对人工智能模型进行压缩后,还可以调整经过压缩的人工智能模型的权重参数,以便于恢复模型变体因为压缩损失的模型精度。其中,调整人工智能模型的权重参数可以在知识蒸馏技术的辅助下实现,以保证调整权重参数的人工智能模型的性能。
第二方面,本申请提供了一种任务执行装置,该装置包括:确定模块,用于确定待并发执行的多个深度学习任务,及用于实现每个深度学习任务的人工智能模型;获取模块,用于获取每个深度学习任务的执行策略,执行策略指示深度学习任务的调度方式和使用的模型变体,深度学习任务的模型变体基于用于实现深度学习任务的人工智能模型得到;执行模块,用于基于每个深度学习任务的执行策略执行对应的深度学习任务。
可选的,执行模块,具体用于:采用任一深度学习任务的执行策略指示的模型变体,按照任一深度学习任务的执行策略指示的调度方式,执行深度学习任务。
可选的,调度方式指示深度学习任务的执行优先级。
可选的,调度方式还指示与其他深度学习任务并行执行深度学习任务。
可选的,其他深度学习任务基于深度学习任务和其他深度学习任务的资源占用情况确定。
可选的,执行模块,具体用于:将每个深度学习任务划分为多个子任务;确定每个深度学习任务中每个子任务在多个深度学习任务包括的同类子任务中的优先级;基于每个深度学习任务的执行策略和子任务的优先级执行深度学习任务。
可选的,获取模块,具体用于:对于任一深度学习任务,获取深度学习任务的多个候选执行策略,任两个候选执行策略指示的调度方式和模型变体中的至少一个不同;获取按照每个候选执行策略执行深度学习任务的性能数据;基于多个候选执行策略的性能数据,从多个候选执行策略中选择得到深度学习任务的执行策略。
可选的,性能数据包括实时性数据,实时性数据基于预训练的人工智能模型预测得到。
可选的,性能数据包括准确性数据,准确性数据基于候选执行策略指示的模型变体的精度得到。
可选的,深度学习任务的执行策略指示的模型变体,基于对用于实现深度学习任务的人工智能模型进行压缩得到。
可选的,深度学习任务的执行策略指示的模型变体,基于对用于实现深度学习任务的人工智能模型进行压缩,及调整经过压缩的人工智能模型的权重参数得到。
第三方面,本申请提供了一种计算机设备,包括存储器和处理器,存储器存储有程序指令,处理器运行程序指令以执行本申请第一方面以及其任一种可能的实现方式中提供的方法。
第四方面,本申请提供了一种计算机可读存储介质,该计算机可读存储介质为非易失性计算机可读存储介质,该计算机可读存储介质包括程序指令,当程序指令在计算机设备上运行时,使得计算机设备执行本申请第一方面以及其任一种可能的实现方式中提供的方法。
第五方面,本申请提供了一种包含指令的计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行本申请第一方面以及其任一种可能的实现方式中提供的方法。
附图说明
图1是本申请实施例提供的一种任务执行方法涉及的应用场景的示意图;
图2是本申请实施例提供的一种任务执行方法涉及的应用场景中计算机设备的部署示意图;
图3是本申请实施例提供的又一种任务执行方法涉及的应用场景的示意图;
图4是本申请实施例提供的一种任务执行方法的流程图;
图5是本申请实施例提供的一种获取深度学习任务的执行策略的方法流程图;
图6是本申请实施例提供的一种通过第一计算机设备、第二计算机设备和第三计算机设备合作获取深度学习任务的执行策略的原理示意图;
图7是本申请实施例提供的一种第二计算机设备获取执行策略的原理示意图;
图8是本申请实施例提供的一种按照子任务执行深度学习任务的方法流程图;
图9是本申请实施例提供的一种第三计算机设备执行深度学习任务的原理示意图;
图10是本申请实施例提供的一种任务执行装置的结构示意图;
图11是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例提供了一种任务执行方法。在该任务执行方法中,需要先确定待并发执行的多个深度学习任务,及用于实现每个深度学习任务的人工智能模型,然后,获取每个深度学习任务的执行策略,再基于每个深度学习任务的执行策略执行对应的深度学习任务。
由于深度学习任务的执行策略指示所述深度学习任务的调度方式和使用的模型变体,其联合了对深度学习任务的调度方式和用于实现深度学习任务的模型,既能够从深度学习任务的调度方式上对深度学习任务的执行性能进行改进,还能够从用于实现深度学习任务的模型上对深度学习任务的执行性能进行改进,有效地提高了深度学习任务的执行性能。这样一来,能够使得待并发执行的多个深度学习任务能够在有限的资源条件下被更好地执行,使得资源能够更有效地被利用,既能够保证深度学习任务的实时性性能,又能保证深度学习任务的准确性性能,能够更好地保障用户体验。
图1是本申请实施例提供的一种任务执行方法涉及的应用场景的示意图。如图1所示,该应用场景包括:第一计算机设备10、第二计算机设备20和第三计算机设备30。第三计算机设备30与第一计算机设备10和第二计算机设备20均通过通信通路连接。第一计算机设备10、第二计算机设备20和第三计算机设备30中的一个或多个可以为一台独立的计算机设备,也可以为包括多台计算机的计算机集群。可选地,第三计算机设备30、第一计算机设备10和第二计算机设备20均可以通过显卡、AI计算芯片、物理机、裸金属服务器或云服务器等实现。
第一计算机设备10用于确定待并发执行的多个深度学习任务,及用于实现每个深度学习任务的人工智能模型,获取每个人工智能模型的多个模型变体,并向第二计算机设备20提供用于实现每个深度学习任务的人工智能模型的多个模型变体或其信息。模型变体的信息可以为模型变体的标识和准确度等。其中,人工智能模型的模型变体基于该人工智能模型得到。例如,人工智能模型的模型变体可以通过对该人工智能模型进行模型压缩得到。或者,人工智能模型的模型变体可以通过对该人工智能模型进行模型压缩,并调整经过模型压缩的人工智能模型的权重参数得到。
第二计算机设备20用于根据每个深度学习任务的性能要求,及用于实现每个深度学习任务的人工智能模型的多个模型变体或其信息,确定每个深度学习任务的执行策略,并向第三计算机设备30提供每个深度学习任务的执行策略。其中,任一深度学习任务的所述执行策略指示所述深度学习任务的调度方式和使用的模型变体。
第三计算机设备30用于基于第二计算机设备20提供的深度学习任务的执行策略,执行对应的深度学习任务。
需要说明的是,该实施场景包括第一计算机设备10、第二计算机设备20和第三计算机设备30仅为该实施场景的一种实现形态,实现该任务执行方法时可以根据需求对该实施场景的实现形态进行调整。例如,该第一计算机设备10、第二计算机设备20和第三计算机设备30的功能可以通过同一计算机设备实现,或者,该实施场景还可以包括更多个计算机设备,第一计算机设备10、第二计算机设备20和第三计算机设备30中一个或多个计算机设备的部分功能可以由该更多个计算机设备中的一个或多个实现,本申请实施例对其不做具体限定。
下面以图1所示的应用场景为例,对其部署方式进行举例说明。第一计算机设备10、第二计算机设备20和第三计算机设备30的部署方式较为灵活。第一计算机设备10、第二计算机设备20和第三计算机设备30可以采用分布式方式部署,或者采用集中式部署。例如,当第一计算机设备10、第二计算机设备20和第三计算机设备30均为显卡或AI计算芯片时,第一计算机设备10、第二计算机设备20和第三计算机设备30可以分布式地部署在不同的主机上,或者,集中式地部署在同一主机上。或者,第一计算机设备10、第二计算机设备20和第三计算机设备30中的任意两个可以采用集中式部署,第一计算机设备10、第二计算机设备20和第三计算机设备30中的另外一个相对于该任意两个采用分布式部署。
并且,当第一计算机设备10、第二计算机设备20和第三计算机设备30采用分布式方式部署时,第一计算机设备10、第二计算机设备20和第三计算机设备30可以分布式地部署在同一资源环境中,也可以分布式地部署在不同的资源环境中。例如,中心云平台中部署有云服务提供商拥有的大量基础资源,如计算资源、存储资源和网络资源等,且该计算资源可以是大量的计算设备(例如服务器),则第一计算机设备10、第二计算机设备20和第三计算机设备30可以利用该中心云平台中部署的基础资源实现,即第一计算机设备10、第二计算机设备20和第三计算机设备30可以均部署在中心云平台中。又例如,边缘云平台中也部署有云服务提供商拥有的基础资源,则第一计算机设备10、第二计算机设备20和第三计算机设备30可以全部部署在边缘云平台。或者,第一计算机设备10、第二计算机设备20和第三计算机设备30可以部分部署在中心云平台,部分部署在边缘云平台。示例的,如图2所示,第一计算机设备10和第二计算机设备20部署在中心云平台,第三计算机设备30部署在边缘云平台。当第一计算机设备10、第二计算机设备20和第三计算机设备30中至少部分部署在边缘云平台时,由于边缘云平台距离用户较近,能够有效缓解数据隐私和网络传输延时的问题。
并且,当第一计算机设备10、第二计算机设备20和第三计算机设备30部署在云平台中时,如图3所示,本申请实施例提供的任务执行方法能够由云服务提供商在云平台1抽象成一种执行云服务提供给用户。用户在云平台1购买该执行云服务后,云平台1能够利用部署在云平台1的第一计算机设备10、第二计算机设备20和第三计算机设备30,向用户提供执行云服务。其中,购买执行云服务的方式可以包括:先预充值再根据最终资源的实际使用情况进行结算,或者,可以按提供执行云服务的时间结算。
在一种实现方式中,执行云服务可以为云平台提供的云服务中的一项独立的云服务。即用户可以在云平台独立地购买该执行云服务。此时,用户可以向云平台请求执行深度学习任务,云平台根据其接收到的待并发执行的多个深度学习任务,执行本申请实施例提供的任务执行方法,从而为用户提供执行深度学习任务的执行云服务。当执行云服务为一项独立的云服务时,能够降低执行云服务对业务的依赖程度,提高了执行云服务的购买和使用的灵活度。
在另一种实现方式中,执行云服务的功能可以作为其他服务的附加功能提供。例如,其他服务中的部分功能需要通过深度学习任务实现,此时,可以通过该执行云服务实现该部分功能。并且,执行云服务可以为其他服务的一项可选功能。用户在购买提供其他服务时,可以根据用户的业务需求选择是否购买该执行云服务,当用户购买该执行云服务时,在提供该其他服务的过程中可以采用云平台的资源为用户提供该执行云服务。为其中,该其他服务也可以为云服务,本申请实施例对其不做具体限定。
应当理解的是,以上内容是对本申请实施例提供的任务执行方法的应用场景的示例性说明,并不构成对于该事件分析方法的应用场景的限定,本领域普通技术人员可知,随着业务需求的改变,其应用场景可以根据应用需求进行调整,本申请实施例对其不做一一列举。
下面对本申请实施例提供的任务执行方法的实现过程进行说明。如图4所示,该任务执行方法的实现过程可以包括以下步骤:
步骤401、确定待并发执行的多个深度学习任务,及用于实现每个深度学习任务的人工智能模型。
用于实现深度学习任务的系统(如人工智能系统)通常需要同时执行多个深度学习任务。例如,在云视频直播场景中,云视频处理边缘平台需要同时执行人脸识别、画质增强、美颜特效和换脸任务等多个深度学习任务。该需要同时执行的多个深度学习任务即为待并发执行的多个深度学习任务。该系统中的第一计算机设备能够确定待并发执行的多个深度学习任务,并根据该多个深度学习任务确定用于实现每个深度学习任务的人工智能模型。深度学习任务具有任务属性和任务需求,任务属性可以指示深度学习任务采用的人工智能模型,任务需求可以指示深度学习任务的实时性和准确性要求。例如,人脸识别的深度学习任务的实时性要求指示需要在50毫秒(ms)内完成,且任务按时完成率不低于10%,画质增强的深度学习任务需要在100ms内完成,且任务按时完成率不低于15%。其中,深度学习任务是通过执行深度学习算法实现一定功能的任务。本申请实施例中的深度学习任务可以是实时深度学习任务。实时深度学习任务是具有实时性能要求的深度学习任务。用于实现深度学习任务的人工智能模型可以为深度神经网络。深度神经网络是深度学习的一种框架,是具备至少一个隐层的神经网络。
步骤402、获取每个深度学习任务的执行策略。
其中,执行策略指示深度学习任务的调度方式和使用的模型变体。调度方式用于指示如何对用于实现深度学习任务的资源进行调度,以实现深度学习任务。在一种可实现方式中,调度方式可以指示深度学习任务的执行优先级。由于用于实现深度学习任务的系统的资源有限,可以按照不同的执行优先级依次执行待并发执行的多个深度学习任务,从而保证该多个深度学习任务的实现性能。
可选的,调度方式还可以指示与其他深度学习任务并行执行深度学习任务。其中,其他深度学习任务基于深度学习任务和其他深度学习任务的资源占用情况确定,且该其他深度学习任务可以为待并发执行的多个深度学习任务中的深度学习任务。在获取多个深度学习任务的执行策略的过程中,可以分别获取多个深度学习任务的资源占用情况,然后根据多个深度学习任务的资源占用情况,以较大化利用资源为原则,确定能够并行执行的深度学习任务。其中,深度学习任务的资源占用情况可以通过在预先执行深度学习任务的对资源利用情况进行测量得到。并且,指示并行执行多个深度学习任务的实现方式可以包括:将需要并行执行的多个深度学习任务分配到同一任务流中,使得处理其根据任务流的指示并行执行该多个深度学习任务。
例如,假设深度学习任务1的资源利用率为47%,深度学习任务2的资源利用率为49%,深度学习任务3的资源利用率为30%,深度学习任务4的资源利用率为67%,根据其可知将深度学习任务1和深度学习任务2并行执行时,两者的资源利用率之和约为96%,可知将深度学习任务3和深度学习任务4并行执行时,两者的资源利用率之和约为97%。通过按照这样的并行方式执行深度学习任务时,既能够较大化利用资源,又能够保证不会因资源争用影响任务的执行性能。因此,可以将深度学习任务1和深度学习任务2并行,将深度学习任务3和深度学习任务4并行执行。
通过并行执行深度学习任务,能够在满足深度学习任务的同时,提高对资源的利用率,如通过模型加速芯片等硬件资源实现深度学习任务时,可以提高对模型加速芯片等硬件资源的利用率。
深度学习任务的模型变体可以基于用于实现深度学习任务的人工智能模型得到。在一种可实现方式中,深度学习任务的执行策略指示的模型变体,可以基于对用于实现深度学习任务的人工智能模型进行压缩得到。其中,对人工智能模型进行压缩,能够通过压缩人工智能模型的结构减小实现深度学习任务的计算量,有助于对深度学习任务的灵活调度。可选的,在对人工智能模型进行压缩时,采用的压缩技术可以根据深度学习任务的任务特性决定。例如,对于图像处理类的深度学习任务,可以运用剪枝和量化等模型压缩技术进行模型压缩,对于语音处理类的深度学习任务,可以运用知识蒸馏等模型压缩技术进行模型压缩。
并且,同一深度学习任务可以具有多个模型变体,执行策略指示的模型变体为该多个模型变体中的一个。该多个模型变体可以具有不同的大小、精度和时延,能够满足不同的任务需求。该多个模型变体可以通过对人工智能模型进行不同压缩程度的压缩得到。例如,对于一个原始大小为80兆比特(MB),精度为85.9%的视觉几何组网络(visualgeometry group network,VGG)模型,可以通过压缩技术对其进行多个压缩程度的压缩操作,得到模型大小分别为71MB、60MB和52MB,精度分别为84.5%、83.6%和82%的三个模型变体。其中,多个模型变体的压缩程度可以根据应用需求确定。例如,可以按照默认或指定的程度差值依次对人工智能模型进行逐级压缩,得到人工智能模型的多个模型变体。或者,可以根据深度学习任务的任务需求自适应地确定多个模型变体的压缩程度。
在一些场景中,深度学习任务可以有多个等级的任务需求,则该深度学习任务在不同等级可以分别有多个模型变体。例如,在云视频直播场景中,用户可以在标清、高清和超清模式等多个模式中选择,以享受不同品质的服务,则对于该云视频直播场景的深度学习任务,可以分别针对该多个模式,为该深度学习任务设置每个模式下的最高精度损失容忍度,并在不超过每个模式下的最高精度损失容忍度的前提下,分别生成多个模型变体,以保障用户体验。
进一步的,对人工智能模型进行压缩后,还可以调整经过压缩的人工智能模型的权重参数,以便于恢复模型变体因为压缩损失的模型精度。也即是,学习任务的执行策略指示的模型变体,可以基于对用于实现深度学习任务的人工智能模型进行压缩,并调整经过压缩的人工智能模型的权重参数得到。其中,调整人工智能模型的权重参数可以在知识蒸馏技术的辅助下实现,以保证调整权重参数的人工智能模型的性能。并且,在获取模型变体的过程中,除了对人工智能模型进行压缩和调整权重参数,还可以对人工智能模型进行一些预处理,且预处理的方式可以根据应用需求确定,本申请实施例对其不做具体限定。
可选的,每个深度学习任务的执行策略可以从多个候选执行策略中选择得到。在一种可实现方式中,如图5所示,获取每个深度学习任务的执行策略的实现过程,可以包括:
步骤4021、对于任一深度学习任务,获取深度学习任务的多个候选执行策略。
其中,任两个候选执行策略指示的调度方式和模型变体中的至少一个不同。调度方式可以指示深度学习任务的执行优先级,则对于任一深度学习任务,可以将该深度学习任务的执行优先级与该深度学习任务的不同模型变体进行组合,得到该深度学习任务的多个候选策略。并且,深度学习任务的优先级可以为深度学习任务的固有属性,如深度学习任务的优先级可以等于请求执行该深度学习任务的用户的优先级。
步骤4022、获取按照每个候选执行策略执行深度学习任务的性能数据。
其中,性能数据包括实时性数据和准确性数据。实时性数据用于指示深度学习任务的实时性,实时性是指深度学习任务是否能在规定期限内完成。准确性数据用于指示深度学习任务的准确性,准确性是指准确实现深度学习任务的概率。并且,在获取任意候选执行策略执行深度学习任务的准确性数据时,可以考虑多个深度学习任务的总体性能,比如考虑所有深度学习任务归一化准确性损失的总和,以便于达到整体最优性能。
可选的,任一候选执行策略执行深度学习任务的性能数据,可以通过按照该候选执行策略执行深度学习任务测量得到。但如果对于每一个候选执行策略都通过实际执行来衡量性能,考虑到获取性能数据的代价会随着任务数量和模型变体个数呈指数型增长。因此,在本申请实施例中,实时性数据可以基于预训练的人工智能模型(下面称为预测模型)预测得到,准确性数据可以基于候选执行策略指示的模型变体的精度得到。其中,可以采用实际测量的历史性能数据对预测模型进行训练,并采用经过训练的预测模型预测每个候选执行策略的实时性数据。
通过预测的方式得到实时性数据,一方面,可以大大加快获取实时性数据的速度,从而加快获取深度学习任务的执行策略的速度。另一方面,由于预测模型采用实际测量的历史性能数据进行训练,使得预测效果相比于现阶段的可调度分析等技术得到的实时性数据更贴近实际性能,有助于找到更有效的执行策略,从而更好地保障用户体验。
步骤4023、基于多个候选执行策略的性能数据,从多个候选执行策略中选择得到深度学习任务的执行策略。
获取深度学习任务的多个候选执行策略的性能数据后,可以将性能数据反映的具有最优性能的候选执行策略,确定为该深度学习任务的执行策略。需要说明的是,以上对步骤402的实现过程的说明,是以执行策略指示所述深度学习任务的执行优先级和使用的模型变体为例进行说明的,当该执行策略还指示其他内容(如与深度学习任务并行执行的其他深度学习任务)时,该步骤402的实现过程可以相应参考上述描述,此处不再赘述。
其中,该步骤4021至步骤4023的过程可以视为迭代优化过程,该迭代优化过程可以针对不同的模型变体分别按照不同的优先级执行深度学习任务,然后根据执行深度学习任务的准确性和实时性的结果,确定结果最好的模型变体与优先级的组合,从而得到深度学习任务的执行策略。其中,在该迭代优化过程中,当按照候选执行策略得到的深度学习任务的实时性和准确性的收益不在增加时,可以停止寻优,并将停止寻优时的候选执行策略确定为深度学习任务的执行策略。通过该迭代优化过程确定深度学习任务的执行策略,能够最小化所有深度学习任务的准确度损失比率,能够在保证深度学习任务的实现效果的基础上,减轻多个深度学习任务之间的资源争用情况,满足用户对深度学习任务的性能要求。
并且,该步骤402可以通过第一计算机设备和第二计算机设备合作实现。作为一种可实现方式,第一计算机设备10用于确定待并发执行的多个深度学习任务,及用于实现每个深度学习任务的人工智能模型,获取每个人工智能模型的多个模型变体,并向第二计算机设备20提供用于实现每个深度学习任务的人工智能模型的多个模型变体或其信息。第二计算机设备20用于根据每个深度学习任务的性能要求,及用于实现每个深度学习任务的人工智能模型的多个模型变体或其信息,确定每个深度学习任务的多个候选执行策略,获取每个候选执行策略的性能数据,然后基于多个候选执行策略的性能数据,从多个候选执行策略中选择得到深度学习任务的执行策略。
或者,该步骤402可以通过第一计算机设备、第二计算机设备和第三计算机设备合作实现。作为一种可实现方式,第一计算机设备和第二计算机设备的功能,请相应参考步骤402同第一计算机设备和第二计算机设备合作实现时对应的描述。并且,在该实现方式中,第二计算机设备还用于向第三计算机设备提供多个候选执行策略,第三计算机设备用于获取多个候选执行策略的性能数据,并向第二计算机设备提供该多个候选执行策略的性能数据。
其中,图6为通过第一计算机设备、第二计算机设备和第三计算机设备合作实现步骤402的原理示意图。图7为第二计算机设备实现相关功能的原理示意图。如图6所示,第一计算机设备10获取多个深度学习任务及用于实现深度学习任务的人工智能模型后,可以生成每个人工智能模型的多个模型变体,并向第二计算机设备20提供用于实现每个深度学习任务的人工智能模型的多个模型变体或其信息。第二计算机设备20用于根据每个深度学习任务的性能要求,及用于实现每个深度学习任务的人工智能模型的多个模型变体或其信息,确定每个深度学习任务的多个候选执行策略,并向第三计算机设备30提供候选执行策略,使得第三计算机设备30向第二计算机设备反馈候选执行策略的性能数据。相应的,第二计算机设备20可以根据该性能数据在多个候选执行策略中确定深度学习任务的执行策略,并向第三计算机设备30提供每个深度学习任务的执行策略。第三计算机设备30用于基于第二计算机设备20提供的深度学习任务的执行策略,执行对应的深度学习任务。
其中,如图7所示,第二计算机设备20包括三个输入,包括初始化阶段的两个输入和在迭代寻优过程中的输入,初始化阶段的两个输入为:i.多个深度学习任务的实时性和准确性要求,这一部分可以由用户指定;ii.第一计算机的输出,即各个深度学习任务的多个模型变体。可选的,第二计算机设备20可以无需存储模型变体,而存储每个模型变体的信息(即如图7所示),如模型变体的准确度。第二计算机设备20在迭代寻优过程中的输入为第三计算机设备30提供的候选执行策略的性能数据。第二计算机设备20的输出为候选执行策略和最终确定的满足性能要求的执行策略。其中,如图7所示,迭代寻优执行策略的过程可以由第二计算机设备20中的执行策略迭代优化模块201执行。
应当理解的是,上述通过第一计算机设备和第二计算机设备合作实现步骤402,及通过第一计算机设备、第二计算机设备和第三计算机设备合作实现步骤402,仅为示例性的说明,实际实现时可以根据需求调整各个计算机设备实现的功能。并且,本申请实施例提供的任务执行方法的应用场景还可以有其他实现形式,且当应用场景为其他实现形式时,实现该步骤402的过程也可以根据需求做出相应的调整,本申请实施例对其不做一一例举。
步骤403、基于每个深度学习任务的执行策略执行对应的深度学习任务。
获取每个深度学习任务的执行策略后,即可基于每个深度学习任务的执行策略执行对应的深度学习任务。例如,采用任一深度学习任务的执行策略指示的模型变体,按照任一深度学习任务的执行策略指示的调度方式,执行深度学习任务。
可选的,深度学习任务可以包括多个子任务,在基于每个深度学习任务的执行策略执行对应的深度学习任务时,还可以分别针对深度学习任务包括的子任务执行。在一种可实现方式中,如图8所示,该步骤403的实现过程包括:
步骤4031、将每个深度学习任务划分为多个子任务。
深度学习任务通常包括多个执行单元,该多个执行单元分别实现深度学习任务的不同功能。例如,深度学习任务可以包括前处理执行单元,中间处理执行单元和后处理执行单元。则可以按照深度学习任务包括的执行单元的属性,将深度学习任务划分为多个子任务。其中,执行单元的属性可以按照以下一种或多种进行区分:执行单元的执行主体和执行单元的任务性质。例如,可以按照执行单元的执行主体是CPU还是GPU,或者,按照执行单元的任务性质是神经网络推理还是非神经网络推理,将深度学习任务划分为多个子任务。例如,对于一个云视频直播任务,整个任务不单包括神经网络模型推理部分,还包括非神经网络推理部分。比如送礼物的任务部分属于神经网络模型推理部分,其需要根据视频流进行人脸识别,而人脸识别后的叠加礼物特效的任务部分属于非神经网络推理部分。当按照任务属性对该云视频直播任务进行划分时,可以将云视频直播任务分为神经网络推理部分和其他非神经网络推理部分,且神经网络推理部分可由云视频直播边缘服务器上的神经网络加速模块进行加速,其他非神经网络推理部分可以由边缘服务器上的中央处理器处理。
步骤4032、确定每个深度学习任务中每个子任务在多个深度学习任务包括的同类子任务中的优先级。
在将深度学习任务划分为多个子任务后,可以分别确定每个子任务的优先级,并按照多个深度学习任务中每个子任务的优先级,确定每个子任务在多个深度学习任务包括的同类子任务中的优先级,并按照每个子任务在多个深度学习任务包括的同类子任务中的优先级,对每一类子任务包括的多个子任务进行排队。其中,深度学习任务的子任务的优先级可以等于深度学习任务的优先级。并且,对每一类子任务包括的多个子任务进行排队,可以通过将每一类子任务包括的多个子任务加入对应类子任务的执行队列中实现。例如,深度学习任务1和深度学习任务2均包括使用CPU执行的子任务和使用GPU执行的子任务,且深度学习任务1的优先级高于深度学习任务2的优先级,则可以将深度学习任务1和深度学习任务2的使用CPU执行的子任务加入到CPU子任务队列中,且在该CPU子任务队列中,深度学习任务1使用CPU执行的子任务位于深度学习任务2使用CPU执行的子任务前面,将深度学习任务1和深度学习任务2的使用GPU执行的子任务加入到GPU子任务队列中,且在该GPU子任务队列中,深度学习任务1使用GPU执行的子任务位于深度学习任务2使用GPU执行的子任务前面。
步骤4033、基于每个深度学习任务的执行策略和子任务的优先级执行深度学习任务。
在确定每个深度学习任务的执行策略,及每个深度学习任务中每个子任务在多个深度学习任务包括的同类子任务中的优先级后,即可以按照每个深度学习任务的执行策略和子任务的优先级执行深度学习任务。当分别针对深度学习任务包括的多个子任务执行深度学习任务时,能够根据子任务的优先级和深度学习任务的执行策略执行深度学习任务,更细化了深度学习任务的调度策略,进一步提高深度学习任务的执行性能。
其中,该步骤403可以由第三计算机设备执行。图9为本申请实施例提供的一种第三计算机设备实现步骤403的原理示意图。如图9所示,第三计算机设备可以获取多个深度学习任务,接收第一计算机设备提供的每个深度学习任务的多个模型变体,并接收第二计算机设备提供的每个深度学习任务的执行策略。第三计算机设备在执行任务深度学习任务时,一方面可以根据该深度学习任务的执行策略,在该深度学习任务的多个模型变体中选择执行策略指示的模型变体,另一方面可以将深度学习任务划分为子任务,并确认子任务在多个深度学习任务包括的同类子任务中的优先级,然后按照每个子任务的优先级,采用选择的模型变体执行对应的子任务,并输出执行深度学习任务的性能数据。其中,当执行策略还指示与深度学习任务并行执行的其他深度学习任务时,还可以按照其指示并行执行该深度学习任务和其他深度学习任务。可选的,第三计算机设备30的以上功能可以通过多个功能模块实现,如通过选择模块301按照执行策略在深度学习任务的多个模型变体中选择执行策略指示的模型变体,通过划分模块302将深度学习任务划分为子任务,通过队列模块303确认子任务在多个深度学习任务包括的同类子任务中的优先级,通过执行模块304按照优先级执行(或并行执行)深度学习任务,通过输出模块305输出执行深度学习任务的性能数据。
综上所述,在本申请实施例提供的任务执行方法中,由于深度学习任务的执行策略指示所述深度学习任务的调度方式和使用的模型变体,其联合了对深度学习任务的调度方式和用于实现深度学习任务的模型,既能够从深度学习任务的调度方式上对深度学习任务的执行性能进行改进,还能够从用于实现深度学习任务的模型上对深度学习任务的执行性能进行改进,有效地提高了深度学习任务的执行性能。这样一来,能够使得待并发执行的多个深度学习任务能够在有限的资源条件下被更好地执行,使得资源能够更有效地被利用,既能够保证深度学习任务的实时性性能,又能保证深度学习任务的准确性性能,能够更好地保障用户体验。
需要说明的是,本申请实施例提供的任务执行方法的步骤先后顺序可以进行适当调整,步骤也可以根据情况进行相应增减。任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本申请的保护范围之内,因此不再赘述。
本申请实施例还提供了一种任务执行装置。如图10所示,该任务执行装置100包括:
确定模块101,用于确定待并发执行的多个深度学习任务,及用于实现每个深度学习任务的人工智能模型。
获取模块102,用于获取每个深度学习任务的执行策略,执行策略指示深度学习任务的调度方式和使用的模型变体,深度学习任务的模型变体基于用于实现深度学习任务的人工智能模型得到。
执行模块103,用于基于每个深度学习任务的执行策略执行对应的深度学习任务。
可选的,执行模块103,具体用于:采用任一深度学习任务的执行策略指示的模型变体,按照任一深度学习任务的执行策略指示的调度方式,执行深度学习任务。
可选的,调度方式指示深度学习任务的执行优先级。
可选的,调度方式还指示与其他深度学习任务并行执行深度学习任务。
可选的,其他深度学习任务基于深度学习任务和其他深度学习任务的资源占用情况确定。
可选的,执行模块103,具体用于:将每个深度学习任务划分为多个子任务;确定每个深度学习任务中每个子任务在多个深度学习任务包括的同类子任务中的优先级;基于每个深度学习任务的执行策略和子任务的优先级执行深度学习任务。
可选的,获取模块102,具体用于:对于任一深度学习任务,获取深度学习任务的多个候选执行策略,任两个候选执行策略指示的调度方式和模型变体中的至少一个不同;获取按照每个候选执行策略执行深度学习任务的性能数据;基于多个候选执行策略的性能数据,从多个候选执行策略中选择得到深度学习任务的执行策略。
可选的,性能数据包括实时性数据,实时性数据基于预训练的人工智能模型预测得到。
可选的,性能数据包括准确性数据,准确性数据基于候选执行策略指示的模型变体的精度得到。
可选的,深度学习任务的执行策略指示的模型变体,基于对用于实现深度学习任务的人工智能模型进行压缩得到。
可选的,深度学习任务的执行策略指示的模型变体,基于对用于实现深度学习任务的人工智能模型进行压缩,及调整经过压缩的人工智能模型的权重参数得到。
综上所述,在本申请实施例提供的任务执行装置中,由于深度学习任务的执行策略指示所述深度学习任务的调度方式和使用的模型变体,其联合了对深度学习任务的调度方式和用于实现深度学习任务的模型,既能够从深度学习任务的调度方式上对深度学习任务的执行性能进行改进,还能够从用于实现深度学习任务的模型上对深度学习任务的执行性能进行改进,有效地提高了深度学习任务的执行性能。这样一来,能够使得待并发执行的多个深度学习任务能够在有限的资源条件下被更好地执行,使得资源能够更有效地被利用,既能够保证深度学习任务的实时性性能,又能保证深度学习任务的准确性性能,能够更好地保障用户体验。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和模块的具体工作过程,可以参考前述方法实施例中的对应内容,在此不再赘述。
本申请实施例提供了一种计算机设备。该计算机设备包括存储器和处理器,存储器存储有程序指令,处理器运行程序指令以执行本申请提供的任务执行方法或执行本申请提供的任务执行方法的任一步骤。例如,执行以下过程:确定待并发执行的多个深度学习任务,及用于实现每个深度学习任务的人工智能模型;获取每个深度学习任务的执行策略,执行策略指示深度学习任务的调度方式和使用的模型变体,深度学习任务的模型变体基于用于实现深度学习任务的人工智能模型得到;基于每个深度学习任务的执行策略执行对应的深度学习任务。并且,计算机设备通过执行存储器中的程序指令,执行本申请提供的任务执行方法的步骤的实现过程可以相应参考上述方法实施例中对应的描述。
图11是本申请实施例提供的一种计算机设备11的结构示意图。如图11所示,该计算机设备11包括存储器111、处理器112、通信接口113以及总线114。其中,存储器111、处理器112、通信接口113通过总线114实现彼此之间的通信连接。并且,该计算机设备11可以包括多个处理器112,以便于通过不同的处理器实现上述不同功能模块的功能。
存储器111可以是只读存储器(read only memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(random access memory,RAM)。存储器111可以存储可执行代码序,当存储器111中存储的可执行代码被处理器112执行时,处理器112和通信接口113用于执行本申请实施例提供的任务执行方法。存储器111中还可以包括操作系统等其他运行进程所需的软件模块和数据等。
处理器112可以采用通用的中央处理器(central processing unit,CPU),微处理器,应用专用集成电路(application specific integrated circuit,ASIC),图形处理器(graphics processing unit,GPU)或者一个或多个集成电路。
处理器112还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的任务执行方法的部分或全部功能可以通过处理器112中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器112还可以是通用处理器、数字信号处理器(digitalsignal processing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmablegate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器111,处理器112读取存储器111中的信息,结合其硬件完成本申请实施例的任务执行方法。
通信接口113使用例如但不限于收发器一类的收发模块,来实现计算机设备11与其他设备或通信网络之间的通信。例如,通信接口113可以是以下器件的任一种或任一种组合:网络接口(如以太网接口)、无线网卡等具有网络接入功能的器件。
总线114可包括在计算机设备11各个部件(例如,存储器111、处理器112、通信接口113)之间传送信息的通路。
需要说明的是,当该计算机设备为客户端时,该计算机设备还包括显示屏,该显示屏用于显示程序开发平台的图形用户界面。
上述每个计算机设备11间通过通信网络建立通信通路。每个计算机设备11用于实现本申请实施例提供的任务执行方法的部分功能。任一计算机设备11可以为云数据中心中的计算机设备(例如:服务器),或边缘数据中心中的计算机设备等。
上述各个附图对应的流程的描述各有侧重,某个流程中没有详述的部分,可以参见其他流程的相关描述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。提供程序开发平台的计算机程序产品包括一个或多个计算机指令,在计算机设备上加载和执行这些计算机程序指令时,全部或部分地实现本申请实施例提供的任务执行方法的流程或功能。
计算机设备可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质存储有提供程序开发平台的计算机程序指令。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质为非易失性计算机可读存储介质,该计算机可读存储介质包括程序指令,当程序指令在计算机设备上运行时,使得计算机设备执行如本申请实施例提供的任务执行方法。
本申请实施例还提供了一种包含指令的计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行本申请实施例提供的任务执行方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本申请实施例中,术语“第一”、“第二”和“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“至少一个”是指一个或多个,术语“多个”指两个或两个以上,除非另有明确的限定。
本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的构思和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (25)
1.一种任务执行方法,其特征在于,所述方法包括:
确定待并发执行的多个深度学习任务,及用于实现每个深度学习任务的人工智能模型;
获取每个深度学习任务的执行策略,所述执行策略指示所述深度学习任务的调度方式和使用的模型变体,所述深度学习任务的模型变体基于用于实现所述深度学习任务的人工智能模型得到;
基于每个深度学习任务的执行策略执行对应的深度学习任务。
2.根据权利要求1所述的方法,其特征在于,所述基于每个深度学习任务的执行策略执行对应的深度学习任务,包括:
采用任一深度学习任务的执行策略指示的模型变体,按照所述任一深度学习任务的执行策略指示的调度方式,执行所述深度学习任务。
3.根据权利要求1或2所述的方法,其特征在于,所述调度方式指示所述深度学习任务的执行优先级。
4.根据权利要求3所述的方法,其特征在于,所述调度方式还指示与其他深度学习任务并行执行所述深度学习任务。
5.根据权利要求4所述的方法,其特征在于,所述其他深度学习任务基于所述深度学习任务和所述其他深度学习任务的资源占用情况确定。
6.根据权利要求1至5任一所述的方法,其特征在于,所述基于每个深度学习任务的执行策略执行对应的深度学习任务,包括:
将每个深度学习任务划分为多个子任务;
确定每个深度学习任务中每个子任务在所述多个深度学习任务包括的同类子任务中的优先级;
基于每个深度学习任务的执行策略和子任务的优先级执行所述深度学习任务。
7.根据权利要求1至6任一所述的方法,其特征在于,所述获取每个深度学习任务的执行策略,包括:
对于任一深度学习任务,获取所述深度学习任务的多个候选执行策略,任两个候选执行策略指示的调度方式和模型变体中的至少一个不同;
获取按照每个候选执行策略执行所述深度学习任务的性能数据;
基于所述多个候选执行策略的性能数据,从所述多个候选执行策略中选择得到所述深度学习任务的执行策略。
8.根据权利要求7所述的方法,其特征在于,所述性能数据包括实时性数据,所述实时性数据基于预训练的人工智能模型预测得到。
9.根据权利要求7所述的方法,其特征在于,所述性能数据包括准确性数据,所述准确性数据基于所述候选执行策略指示的模型变体的精度得到。
10.根据权利要求1至9任一所述的方法,其特征在于,所述深度学习任务的执行策略指示的模型变体,基于对用于实现所述深度学习任务的人工智能模型进行压缩得到。
11.根据权利要求10所述的方法,其特征在于,所述深度学习任务的执行策略指示的模型变体,基于对用于实现所述深度学习任务的人工智能模型进行压缩,及调整经过压缩的人工智能模型的权重参数得到。
12.一种任务执行装置,其特征在于,所述装置包括:
确定模块,用于确定待并发执行的多个深度学习任务,及用于实现每个深度学习任务的人工智能模型;
获取模块,用于获取每个深度学习任务的执行策略,所述执行策略指示所述深度学习任务的调度方式和使用的模型变体,所述深度学习任务的模型变体基于用于实现所述深度学习任务的人工智能模型得到;
执行模块,用于基于每个深度学习任务的执行策略执行对应的深度学习任务。
13.根据权利要求12所述的装置,其特征在于,所述执行模块,具体用于:
采用任一深度学习任务的执行策略指示的模型变体,按照所述任一深度学习任务的执行策略指示的调度方式,执行所述深度学习任务。
14.根据权利要求12或13所述的装置,其特征在于,所述调度方式指示所述深度学习任务的执行优先级。
15.根据权利要求14所述的装置,其特征在于,所述调度方式还指示与其他深度学习任务并行执行所述深度学习任务。
16.根据权利要求15所述的装置,其特征在于,所述其他深度学习任务基于所述深度学习任务和所述其他深度学习任务的资源占用情况确定。
17.根据权利要求12至16任一所述的装置,其特征在于,所述执行模块,具体用于:
将每个深度学习任务划分为多个子任务;
确定每个深度学习任务中每个子任务在所述多个深度学习任务包括的同类子任务中的优先级;
基于每个深度学习任务的执行策略和子任务的优先级执行所述深度学习任务。
18.根据权利要求12至17任一所述的装置,其特征在于,所述获取模块,具体用于:
对于任一深度学习任务,获取所述深度学习任务的多个候选执行策略,任两个候选执行策略指示的调度方式和模型变体中的至少一个不同;
获取按照每个候选执行策略执行所述深度学习任务的性能数据;
基于所述多个候选执行策略的性能数据,从所述多个候选执行策略中选择得到所述深度学习任务的执行策略。
19.根据权利要求18所述的装置,其特征在于,所述性能数据包括实时性数据,所述实时性数据基于预训练的人工智能模型预测得到。
20.根据权利要求18所述的装置,其特征在于,所述性能数据包括准确性数据,所述准确性数据基于所述候选执行策略指示的模型变体的精度得到。
21.根据权利要求12至20任一所述的装置,其特征在于,所述深度学习任务的执行策略指示的模型变体,基于对用于实现所述深度学习任务的人工智能模型进行压缩得到。
22.根据权利要求21所述的装置,其特征在于,所述深度学习任务的执行策略指示的模型变体,基于对用于实现所述深度学习任务的人工智能模型进行压缩,及调整经过压缩的人工智能模型的权重参数得到。
23.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有程序指令,所述处理器运行所述程序指令以执行权利要求1至11任一所述的方法。
24.一种计算机可读存储介质,其特征在于,包括程序指令,当所述程序指令在计算机设备上运行时,使得所述计算机设备执行如权利要求1至11任一所述的方法。
25.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如权利要求1至11任一所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP22840991.8A EP4357917A4 (en) | 2021-07-16 | 2022-04-18 | TASK EXECUTION METHOD AND APPARATUS |
PCT/CN2022/087411 WO2023284347A1 (zh) | 2021-07-16 | 2022-04-18 | 任务执行方法及装置 |
US18/411,883 US20240152393A1 (en) | 2021-07-16 | 2024-01-12 | Task execution method and apparatus |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2021108073119 | 2021-07-16 | ||
CN202110807311 | 2021-07-16 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115700482A true CN115700482A (zh) | 2023-02-07 |
Family
ID=85121006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111080322.8A Pending CN115700482A (zh) | 2021-07-16 | 2021-09-15 | 任务执行方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115700482A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116483482A (zh) * | 2023-05-19 | 2023-07-25 | 北京百度网讯科技有限公司 | 深度学习任务处理方法、系统、装置、设备及介质 |
-
2021
- 2021-09-15 CN CN202111080322.8A patent/CN115700482A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116483482A (zh) * | 2023-05-19 | 2023-07-25 | 北京百度网讯科技有限公司 | 深度学习任务处理方法、系统、装置、设备及介质 |
CN116483482B (zh) * | 2023-05-19 | 2024-03-01 | 北京百度网讯科技有限公司 | 深度学习任务处理方法、系统、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109033001B (zh) | 用于分配gpu的方法和装置 | |
CN112784989B (zh) | 推理系统、推理方法、电子设备及计算机存储介质 | |
US20140317283A1 (en) | Forecasting capacity available for processing workloads in a networked computing environment | |
CN114840352A (zh) | 分批处理机器学习模型的输入 | |
CN112491964B (zh) | 移动辅助边缘计算方法、装置、介质和设备 | |
CN110399213A (zh) | 确定应用程序的资源需求的方法、装置、电子设备及介质 | |
Wu et al. | HiTDL: High-throughput deep learning inference at the hybrid mobile edge | |
US20240152393A1 (en) | Task execution method and apparatus | |
KR20200054368A (ko) | 전자 장치 및 이의 제어방법 | |
CN111859775A (zh) | 加速深度学习推断的软硬件协同设计 | |
CN112181613A (zh) | 异构资源分布式计算平台批量任务调度方法及存储介质 | |
CN111580974B (zh) | Gpu实例分配方法、装置、电子设备和计算机可读介质 | |
CN114924851A (zh) | 训练任务的调度方法、装置、电子设备和存储介质 | |
CN115794262A (zh) | 任务处理方法、装置、设备、存储介质以及程序产品 | |
CN115700482A (zh) | 任务执行方法及装置 | |
CN114240506A (zh) | 多任务模型的建模方法、推广内容处理方法及相关装置 | |
CN111694670B (zh) | 资源分配方法、装置、设备和计算机可读介质 | |
CN114020469A (zh) | 基于边缘节点的多任务学习方法、装置、介质与设备 | |
CN113946389A (zh) | 联邦学习流程执行优化方法、设备、存储介质及程序产品 | |
CN116456496B (zh) | 资源调度的方法、存储介质及电子设备 | |
CN110716809B (zh) | 用于调度云资源的方法和装置 | |
CN114363414A (zh) | 一种调度计算实例的方法、装置及系统 | |
CN116915869A (zh) | 基于云边协同的时延敏感型智能服务快速响应方法 | |
CN109783236B (zh) | 用于输出信息的方法和装置 | |
Mahmoodi et al. | Spectrum-Aware Mobile Computing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |